UTF-32

Encoding & Standards

एक स्थिर-चौड़ाई वाला Unicode एन्कोडिंग जो प्रति वर्ण ठीक 4 बाइट का उपयोग करता है, जो स्थान की कीमत पर सीधे कोड पॉइंट मैपिंग प्रदान करता है।

UTF-32 is the simplest Unicode encoding: every character uses exactly 4 bytes, and the value directly corresponds to the code point. This makes random access and character counting trivial.

However, UTF-32 uses 4x the memory of ASCII text and 2x that of UTF-16 for most common characters. It's rarely used for storage or transmission but can be convenient for internal string processing.

Python 3's internal string representation uses a variable-width encoding (Latin-1, UCS-2, or UCS-4) depending on the highest code point in the string, which is why `len('😀')` correctly returns 1.

संबंधित शब्द

BOM (BOM) BOM (BOM)
बाइट ऑर्डर मार्क (U+FEFF) जो टेक्स्ट फ़ाइल के शुरुआत में UTF-16/UTF-32 एन्कोडिंग में बाइट ऑर्डर (एंडियनेस) इंगित करने के लिए रखा जाता है।
UTF-16 UTF-16
एक परिवर्तनशील-चौड़ाई वाला Unicode एन्कोडिंग जो प्रति वर्ण 2 या 4 बाइट का उपयोग करता है, JavaScript, Java और Windows द्वारा आंतरिक रूप से उपयोग किया जाता है।
UTF-8 UTF-8
एक परिवर्तनशील-चौड़ाई वाला Unicode एन्कोडिंग जो प्रति वर्ण 1 से 4 बाइट का उपयोग करता है, वेब पर प्रमुख (98%+ वेबसाइटों द्वारा उपयोग किया जाता है)।
कोड यूनिट कोड यूनिट
किसी वर्ण को एन्कोड करने के लिए उपयोग की जाने वाली न्यूनतम बिट संयोजन: UTF-8 के लिए 8-बिट, UTF-16 के लिए 16-बिट, और UTF-32 के लिए 32-बिट।

संबंधित टूल्स

🔢 Unicode लुकअप Unicode लुकअप
U+1F600 जैसा codepoint दर्ज करें और emoji, एन्कोडिंग विवरण, UTF-8/16 बाइट्स और HTML entities प्राप्त करें।