UTF-8

Encoding & Standards

Encodage Unicode à largeur variable utilisant de 1 à 4 octets par caractère, dominant sur le web (utilisé par plus de 98 % des sites web).

UTF-8 is the most widely used Unicode encoding. ASCII characters (U+0000 to U+007F) use 1 byte, making it backward-compatible with ASCII. Characters beyond ASCII use 2-4 bytes.

Most emoji require 4 bytes in UTF-8 because they live in the Supplementary Multilingual Plane (code points above U+FFFF). For example, 😀 (U+1F600) encodes as 0xF0 0x9F 0x98 0x80.

UTF-8's dominance on the web (recommended by W3C, used by HTML5 by default) makes it the standard choice for storing and transmitting emoji in most applications.

Termes associés

BOM (BOM) BOM (BOM)
La marque d'ordre des octets (U+FEFF) placée en début de fichier texte pour indiquer l'ordre des octets (endianness) dans les encodages UTF-16/UTF-32.
Unité de code Unité de code
La combinaison minimale de bits utilisée pour encoder un caractère : 8 bits pour UTF-8, 16 bits pour UTF-16 et 32 bits pour UTF-32.
UTF-16 UTF-16
Encodage Unicode à largeur variable utilisant 2 ou 4 octets par caractère, employé en interne par JavaScript, Java et Windows.
UTF-32 UTF-32
Encodage Unicode à largeur fixe utilisant exactement 4 octets par caractère, permettant un mappage direct des points de code au détriment de l'espace mémoire.

Outils associés

🔢 Recherche Unicode Recherche Unicode
Saisissez un point de code comme U+1F600 et obtenez l'emoji, les détails d'encodage, les octets UTF-8/16 et les entités HTML.