Unicode

Technical/Unicode

Tiêu chuẩn mã hóa ký tự phổ quát gán một số duy nhất cho mỗi ký tự trong tất cả hệ thống chữ viết và bộ ký hiệu, bao gồm cả emoji.

Unicode is the foundation of modern text computing. Before Unicode, competing encoding standards (ASCII, ISO 8859, Shift JIS, etc.) made international text exchange error-prone. Unicode provides a single, consistent mapping from numbers to characters.

The standard defines over 154,000 characters spanning 168 scripts. Emoji are allocated primarily in the Supplementary Multilingual Plane (Plane 1), starting around U+1F600. The Unicode Consortium releases new versions annually, each potentially adding new emoji.

Unicode only defines *what* each code point means — the actual byte representation depends on the encoding form used (UTF-8, UTF-16, or UTF-32).

Thuật ngữ liên quan

Điểm mã Điểm mã
Giá trị số duy nhất được gán cho mỗi ký tự trong tiêu chuẩn Unicode, được viết theo định dạng U+XXXX (ví dụ: U+1F600 cho 😀).
Emoji Emoji
Từ tiếng Nhật (絵文字) có nghĩa là 'ký tự hình ảnh' — các ký hiệu đồ họa nhỏ dùng trong giao tiếp kỹ thuật số để diễn đạt ý tưởng, …
ICU (ICU) ICU (ICU)
International Components for Unicode — thư viện mã nguồn mở được sử dụng rộng rãi, cung cấp hỗ trợ Unicode và quốc tế hóa, bao gồm xử lý emoji.
Unicode Standard Unicode Standard
Hệ thống mã hóa ký tự đầy đủ do Unicode Consortium duy trì, định nghĩa các ký tự, thuộc tính, thuật toán và dạng mã hóa.

Công cụ liên quan

🔢 Tra cứu Unicode Tra cứu Unicode
Nhập codepoint như U+1F600 để nhận emoji, chi tiết mã hóa, byte UTF-8/16 và HTML entity.
🔍 Trình phân tích chuỗi Trình phân tích chuỗi
Giải mã chuỗi ZWJ, modifier tông màu da, chuỗi phím và cặp cờ thành các thành phần riêng lẻ.