UTF-16

Encoding & Standards

एक परिवर्तनशील-चौड़ाई वाला Unicode एन्कोडिंग जो प्रति वर्ण 2 या 4 बाइट का उपयोग करता है, JavaScript, Java और Windows द्वारा आंतरिक रूप से उपयोग किया जाता है।

UTF-16 uses 16-bit code units. Characters in the Basic Multilingual Plane (U+0000 to U+FFFF) use one code unit (2 bytes). Characters above U+FFFF — including most emoji — require a surrogate pair (4 bytes).

This is why JavaScript's `string.length` can be surprising with emoji: `'😀'.length` returns 2 (two UTF-16 code units), not 1. Developers must use spread syntax (`[...'😀'].length`) or `Array.from()` for correct counting.

UTF-16 exists in two byte orders: UTF-16LE (little-endian, used by Windows) and UTF-16BE (big-endian). A BOM character can indicate which is used.

संबंधित शब्द

BOM (BOM) BOM (BOM)
बाइट ऑर्डर मार्क (U+FEFF) जो टेक्स्ट फ़ाइल के शुरुआत में UTF-16/UTF-32 एन्कोडिंग में बाइट ऑर्डर (एंडियनेस) इंगित करने के लिए रखा जाता है।
UTF-32 UTF-32
एक स्थिर-चौड़ाई वाला Unicode एन्कोडिंग जो प्रति वर्ण ठीक 4 बाइट का उपयोग करता है, जो स्थान की कीमत पर सीधे कोड पॉइंट मैपिंग प्रदान करता है।
UTF-8 UTF-8
एक परिवर्तनशील-चौड़ाई वाला Unicode एन्कोडिंग जो प्रति वर्ण 1 से 4 बाइट का उपयोग करता है, वेब पर प्रमुख (98%+ वेबसाइटों द्वारा उपयोग किया जाता है)।
कोड यूनिट कोड यूनिट
किसी वर्ण को एन्कोड करने के लिए उपयोग की जाने वाली न्यूनतम बिट संयोजन: UTF-8 के लिए 8-बिट, UTF-16 के लिए 16-बिट, और UTF-32 के लिए 32-बिट।
सप्लीमेंटरी मल्टीलिंगुअल प्लेन (SMP) सप्लीमेंटरी मल्टीलिंगुअल प्लेन (SMP)
Unicode प्लेन 1 (U+10000 से U+1FFFF), जहाँ अधिकांश इमोजी कोड पॉइंट आवंटित हैं।
सरोगेट पेयर सरोगेट पेयर
दो UTF-16 कोड यूनिट (एक हाई सरोगेट U+D800-U+DBFF और उसके बाद एक लो सरोगेट U+DC00-U+DFFF) जो मिलकर U+FFFF से ऊपर के किसी वर्ण का प्रतिनिधित्व करते हैं।

संबंधित टूल्स

🔢 Unicode लुकअप Unicode लुकअप
U+1F600 जैसा codepoint दर्ज करें और emoji, एन्कोडिंग विवरण, UTF-8/16 बाइट्स और HTML entities प्राप्त करें।