Le code ASCII pour American Standard Code for Information Interchange associe à chacun des 128 caractères parmi :
Ensuite cet entier est traduit en un octet dont le bit de poids fort est toujours à 0.
Télécharger ici un tableau contenant le code ASCII et la conversion en binaire .
Le code ASCII n'était pas adapté aux lettres accentuées d'où une première extension le code latin-1 qui contient 191 caractères
Puis il a fallu prendre en compte les caractères venant de l'Europe de l'Est puis de l'Asie puis du monde entier
La norme ISO/CEI 10646, intitulée Technologies de l'information — Jeu universel de caractères codés (JUC), tente de définir un système de codage universel pour tous les systèmes d’écriture. Cette norme est le fondement du standard Unicode.
Voir Ici le site du consortium Unicode
L'idée est d'associer à chaque symbole un entier son point de code puis le convertir en binaire sur plusieurs octets.
UTF-8 est une version d'Unicode compatible avec le code ASCII, utilisé par exemple pour coder les caractères de cette page html.
En effet dans l'en-tête de cette page il y a une balise meta qui précise l'ensemble de caractères utilisé.
Pour faire l'exercice 8.5 du livre aller sur le site suivant utf-8