TP n°4: Représentation en machine des caractères

Le code ASCII

Le code ASCII pour American Standard Code for Information Interchange associe à chacun des 128 caractères parmi :

Unicode et UTF-8

Le code ASCII n'était pas adapté aux lettres accentuées d'où une première extension le code latin-1 qui contient 191 caractères

Puis il a fallu prendre en compte les caractères venant de l'Europe de l'Est puis de l'Asie puis du monde entier

La norme ISO/CEI 10646, intitulée Technologies de l'information — Jeu universel de caractères codés (JUC), tente de définir un système de codage universel pour tous les systèmes d’écriture. Cette norme est le fondement du standard Unicode.

Voir Ici le site du consortium Unicode

L'idée est d'associer à chaque symbole un entier son point de code puis le convertir en binaire sur plusieurs octets.

UTF-8 est une version d'Unicode compatible avec le code ASCII, utilisé par exemple pour coder les caractères de cette page html.

En effet dans l'en-tête de cette page il y a une balise meta qui précise l'ensemble de caractères utilisé.

Exercice

Pour faire l'exercice 8.5 du livre aller sur le site suivant utf-8