कोड यूनिट

Encoding & Standards

किसी वर्ण को एन्कोड करने के लिए उपयोग की जाने वाली न्यूनतम बिट संयोजन: UTF-8 के लिए 8-बिट, UTF-16 के लिए 16-बिट, और UTF-32 के लिए 32-बिट।

A code unit is the fundamental building block of a Unicode encoding form. It's important to distinguish code units from code points — a single code point may require multiple code units depending on the encoding.

In UTF-8, a code unit is 8 bits (1 byte). The emoji 😀 requires 4 code units. In UTF-16, a code unit is 16 bits (2 bytes). The same emoji requires 2 code units (a surrogate pair). In UTF-32, it's 1 code unit (4 bytes).

Many programming language string APIs operate on code units rather than code points, which is why string length calculations can be confusing with emoji.

संबंधित शब्द

UTF-16 UTF-16
एक परिवर्तनशील-चौड़ाई वाला Unicode एन्कोडिंग जो प्रति वर्ण 2 या 4 बाइट का उपयोग करता है, JavaScript, Java और Windows द्वारा आंतरिक रूप से उपयोग किया जाता है।
UTF-32 UTF-32
एक स्थिर-चौड़ाई वाला Unicode एन्कोडिंग जो प्रति वर्ण ठीक 4 बाइट का उपयोग करता है, जो स्थान की कीमत पर सीधे कोड पॉइंट मैपिंग प्रदान करता है।
UTF-8 UTF-8
एक परिवर्तनशील-चौड़ाई वाला Unicode एन्कोडिंग जो प्रति वर्ण 1 से 4 बाइट का उपयोग करता है, वेब पर प्रमुख (98%+ वेबसाइटों द्वारा उपयोग किया जाता है)।
सरोगेट पेयर सरोगेट पेयर
दो UTF-16 कोड यूनिट (एक हाई सरोगेट U+D800-U+DBFF और उसके बाद एक लो सरोगेट U+DC00-U+DFFF) जो मिलकर U+FFFF से ऊपर के किसी वर्ण का प्रतिनिधित्व करते हैं।

संबंधित टूल्स

🔢 Unicode लुकअप Unicode लुकअप
U+1F600 जैसा codepoint दर्ज करें और emoji, एन्कोडिंग विवरण, UTF-8/16 बाइट्स और HTML entities प्राप्त करें।