Unicode et UTF-8 sont deux standards complémentaires mais distincts : Unicode est une base de données universelle qui associe un numéro unique (point de code) à chaque caractère, symbole ou emoji, couvrant toutes les langues et bien plus. UTF-8, quant à lui, est un encodage qui permet de représenter ces points de code en binaire, de manière rétrocompatible avec l’ASCII et optimisée en espace (1 à 4 octets par caractère). L’article explique pourquoi l’ASCII, limité à 128 caractères, a cédé la place à Unicode pour gérer la diversité linguistique, et comment UTF-8 s’impose comme le format dominant grâce à son efficacité et sa compatibilité. Il aborde aussi les subtilités comme les graphèmes (combinaisons de points de code) et la normalisation, rappelant que la notion de "caractère" est plus complexe qu’il n’y paraît.
25730 shaares