UTF-8

Encoding & Standards

एक परिवर्तनशील-चौड़ाई वाला Unicode एन्कोडिंग जो प्रति वर्ण 1 से 4 बाइट का उपयोग करता है, वेब पर प्रमुख (98%+ वेबसाइटों द्वारा उपयोग किया जाता है)।

UTF-8 is the most widely used Unicode encoding. ASCII characters (U+0000 to U+007F) use 1 byte, making it backward-compatible with ASCII. Characters beyond ASCII use 2-4 bytes.

Most emoji require 4 bytes in UTF-8 because they live in the Supplementary Multilingual Plane (code points above U+FFFF). For example, 😀 (U+1F600) encodes as 0xF0 0x9F 0x98 0x80.

UTF-8's dominance on the web (recommended by W3C, used by HTML5 by default) makes it the standard choice for storing and transmitting emoji in most applications.

संबंधित शब्द

BOM (BOM) BOM (BOM)
बाइट ऑर्डर मार्क (U+FEFF) जो टेक्स्ट फ़ाइल के शुरुआत में UTF-16/UTF-32 एन्कोडिंग में बाइट ऑर्डर (एंडियनेस) इंगित करने के लिए रखा जाता है।
UTF-16 UTF-16
एक परिवर्तनशील-चौड़ाई वाला Unicode एन्कोडिंग जो प्रति वर्ण 2 या 4 बाइट का उपयोग करता है, JavaScript, Java और Windows द्वारा आंतरिक रूप से उपयोग किया जाता है।
UTF-32 UTF-32
एक स्थिर-चौड़ाई वाला Unicode एन्कोडिंग जो प्रति वर्ण ठीक 4 बाइट का उपयोग करता है, जो स्थान की कीमत पर सीधे कोड पॉइंट मैपिंग प्रदान करता है।
कोड यूनिट कोड यूनिट
किसी वर्ण को एन्कोड करने के लिए उपयोग की जाने वाली न्यूनतम बिट संयोजन: UTF-8 के लिए 8-बिट, UTF-16 के लिए 16-बिट, और UTF-32 के लिए 32-बिट।

संबंधित टूल्स

🔢 Unicode लुकअप Unicode लुकअप
U+1F600 जैसा codepoint दर्ज करें और emoji, एन्कोडिंग विवरण, UTF-8/16 बाइट्स और HTML entities प्राप्त करें।