UTF-8

Encoding & Standards

การเข้ารหัส Unicode แบบความกว้างผันแปร ใช้ 1 ถึง 4 ไบต์ต่ออักขระ เป็นมาตรฐานหลักบนเว็บ (ใช้โดยเว็บไซต์กว่า 98%)

UTF-8 is the most widely used Unicode encoding. ASCII characters (U+0000 to U+007F) use 1 byte, making it backward-compatible with ASCII. Characters beyond ASCII use 2-4 bytes.

Most emoji require 4 bytes in UTF-8 because they live in the Supplementary Multilingual Plane (code points above U+FFFF). For example, 😀 (U+1F600) encodes as 0xF0 0x9F 0x98 0x80.

UTF-8's dominance on the web (recommended by W3C, used by HTML5 by default) makes it the standard choice for storing and transmitting emoji in most applications.

คำที่เกี่ยวข้อง

BOM (BOM) BOM (BOM)
Byte Order Mark (U+FEFF) ที่วางไว้ที่ต้นไฟล์ข้อความเพื่อระบุลำดับไบต์ (endianness) ในการเข้ารหัส UTF-16/UTF-32
UTF-16 UTF-16
การเข้ารหัส Unicode แบบความกว้างผันแปร ใช้ 2 หรือ 4 ไบต์ต่ออักขระ ใช้ภายในโดย JavaScript, Java และ Windows
UTF-32 UTF-32
การเข้ารหัส Unicode แบบความกว้างคงที่ ใช้ 4 ไบต์ต่ออักขระพอดี ทำให้แมปโค้ดพอยท์ได้โดยตรงแต่ใช้พื้นที่มากกว่า
โค้ดยูนิต โค้ดยูนิต
การรวมบิตขั้นต่ำที่ใช้เข้ารหัสอักขระ: 8 บิตสำหรับ UTF-8, 16 บิตสำหรับ UTF-16 และ 32 บิตสำหรับ UTF-32

เครื่องมือที่เกี่ยวข้อง

🔢 ค้นหา Unicode ค้นหา Unicode
ป้อนจุดรหัสเช่น U+1F600 และรับ emoji, รายละเอียดการเข้ารหัส, ไบต์ UTF-8/16 และ HTML entities