UTF-8

Encoding & Standards

Kiểu mã hóa Unicode có chiều rộng thay đổi, dùng từ 1 đến 4 byte cho mỗi ký tự, thống trị trên web (98%+ website sử dụng).

UTF-8 is the most widely used Unicode encoding. ASCII characters (U+0000 to U+007F) use 1 byte, making it backward-compatible with ASCII. Characters beyond ASCII use 2-4 bytes.

Most emoji require 4 bytes in UTF-8 because they live in the Supplementary Multilingual Plane (code points above U+FFFF). For example, 😀 (U+1F600) encodes as 0xF0 0x9F 0x98 0x80.

UTF-8's dominance on the web (recommended by W3C, used by HTML5 by default) makes it the standard choice for storing and transmitting emoji in most applications.

Thuật ngữ liên quan

BOM (BOM) BOM (BOM)
Byte Order Mark (U+FEFF) được đặt ở đầu tệp văn bản để chỉ thứ tự byte (endianness) trong các mã hóa UTF-16/UTF-32.
Code Unit Code Unit
Tổ hợp bit tối thiểu dùng để mã hóa một ký tự: 8 bit cho UTF-8, 16 bit cho UTF-16 và 32 bit cho UTF-32.
UTF-16 UTF-16
Kiểu mã hóa Unicode có chiều rộng thay đổi, dùng 2 hoặc 4 byte cho mỗi ký tự, được JavaScript, Java và Windows dùng nội bộ.
UTF-32 UTF-32
Kiểu mã hóa Unicode có chiều rộng cố định, dùng đúng 4 byte cho mỗi ký tự, cho phép ánh xạ trực tiếp điểm mã nhưng tốn nhiều bộ nhớ …

Công cụ liên quan

🔢 Tra cứu Unicode Tra cứu Unicode
Nhập codepoint như U+1F600 để nhận emoji, chi tiết mã hóa, byte UTF-8/16 và HTML entity.