Unité de code

Encoding & Standards

La combinaison minimale de bits utilisée pour encoder un caractère : 8 bits pour UTF-8, 16 bits pour UTF-16 et 32 bits pour UTF-32.

A code unit is the fundamental building block of a Unicode encoding form. It's important to distinguish code units from code points — a single code point may require multiple code units depending on the encoding.

In UTF-8, a code unit is 8 bits (1 byte). The emoji 😀 requires 4 code units. In UTF-16, a code unit is 16 bits (2 bytes). The same emoji requires 2 code units (a surrogate pair). In UTF-32, it's 1 code unit (4 bytes).

Many programming language string APIs operate on code units rather than code points, which is why string length calculations can be confusing with emoji.

Termes associés

Paire de substituts Paire de substituts
Deux unités de code UTF-16 (un substitut haut U+D800–U+DBFF suivi d'un substitut bas U+DC00–U+DFFF) qui représentent ensemble un caractère au-delà de U+FFFF.
UTF-16 UTF-16
Encodage Unicode à largeur variable utilisant 2 ou 4 octets par caractère, employé en interne par JavaScript, Java et Windows.
UTF-32 UTF-32
Encodage Unicode à largeur fixe utilisant exactement 4 octets par caractère, permettant un mappage direct des points de code au détriment de l'espace mémoire.
UTF-8 UTF-8
Encodage Unicode à largeur variable utilisant de 1 à 4 octets par caractère, dominant sur le web (utilisé par plus de 98 % des sites web).

Outils associés

🔢 Recherche Unicode Recherche Unicode
Saisissez un point de code comme U+1F600 et obtenez l'emoji, les détails d'encodage, les octets UTF-8/16 et les entités HTML.