บทความนี้อาจต้องการตรวจสอบต้นฉบับ ในด้านไวยากรณ์ รูปแบบการเขียน การเรียบเรียง คุณภาพ หรือการสะกด คุณสามารถช่วยพัฒนาบทความได้ |
ยูนิโคด (อังกฤษ: Unicode) คือที่ช่วยให้คอมพิวเตอร์แสดงผลและจัดการข้อความธรรมดาที่ใช้ในระบบการเขียนของภาษาส่วนใหญ่ในโลกได้อย่างสอดคล้องกัน ยูนิโคดประกอบด้วยรายการที่แสดงผลได้มากกว่า 100,000 ตัว พัฒนาต่อยอดมาจากมาตรฐาน (Universal Character Set: UCS) และมีการตีพิมพ์ลงในหนังสือ The Unicode Standard เป็นแผนผังรหัสเพื่อใช้เป็นรายการอ้างอิง นอกจากนั้นยังมีการอธิบายวิธีการที่ใช้เข้ารหัสและการนำเสนอมาตรฐานของการเข้ารหัสอักขระอีกจำนวนหนึ่ง กฎเกณฑ์ของการรวมและการแยกอักขระ รวมไปถึงลำดับการแสดงผลของอักขระสองทิศทาง (เช่นอักษรอาหรับหรืออักษรฮีบรูที่เขียนจากขวาไปซ้าย)
ความสำเร็จของยูนิโคดคือการรวมรหัสอักขระหลายชนิดให้เป็นหนึ่งเดียว นำไปสู่การใช้งานอย่างกว้างขวางและมีอิทธิพลต่อการแปลภาษาของซอฟต์แวร์คอมพิวเตอร์ นั่นคือโปรแกรมจะสามารถใช้ได้หลายภาษา มาตรฐานนี้มีการนำไปใช้เป็นเทคโนโลยีหลักหลายอย่าง อาทิ เอกซ์เอ็มแอล ภาษาจาวา ดอตเน็ตเฟรมเวิร์ก และระบบปฏิบัติการสมัยใหม่
ยูนิโคดสามารถนำไปใช้งานได้ด้วยชุดอักขระแบบต่าง ๆ ชุดอักขระที่เป็นที่รู้จักมากที่สุดคือ (ใช้ 1 ไบต์สำหรับอักขระทุกตัวในรหัสแอสกีและมีค่ารหัสเหมือนกับมาตรฐานแอสกี หรือมากกว่านั้นจนถึง 4 ไบต์สำหรับอักขระแบบอื่น) UCS-2 ซึ่งปัจจุบันเลิกใช้แล้ว (ใช้ 2 ไบต์สำหรับอักขระทุกตัว แต่ไม่ครอบคลุมอักขระทั้งหมดในยูนิโคด) และ UTF-16 (เป็นส่วนขยายจาก UCS-2 โดยใช้ 4 ไบต์ สำหรับแทนรหัสอักขระที่ขาดไปของ UCS-2)
สมาคม Unicode
สมาคม Unicode เป็นองค์กรไม่แสวงหากำไรที่ประสานงานการพัฒนา Unicode สมาชิกเต็มรูปแบบประกอบด้วยบริษัทซอฟต์แวร์และฮาร์ดแวร์คอมพิวเตอร์หลักส่วนใหญ่ที่มีความสนใจในมาตรฐานการประมวลผลข้อความ รวมถึง , Apple, Facebook, Google, IBM, Microsoft, Netflix และ SAP SE.
สมาคมมีเป้าหมายที่ทะเยอทะยานในการแทนที่โครงร่างการเข้ารหัสอักขระที่มีอยู่ด้วย Unicode และโครงร่าง Unicode Transformation Format (UTF) มาตรฐาน เนื่องจากโครงร่างที่มีอยู่จำนวนมากมีขนาดและขอบเขตที่จำกัดและไม่เข้ากันกับ สภาพแวดล้อม
อักขระ Unicode ใช้กันอย่างแพร่หลายในการตกแต่งข้อความบนเครือข่ายสังคม สำหรับสิ่งนี้มีแอปพลิเคชั่นพิเศษที่แปลงตัวอักษรธรรมดาเป็นอักขระพิเศษ
การเข้ารหัส
UTF-8 เข้ารหัสตัวอักษรเป็นข้อมูลหนึ่งถึงสี่ไบต์ตามลำดับของจุดรหัส ตารางต่อไปนี้แสดงโครงสร้างของการเข้ารหัส ตัว x แทนบิตของจุดรหัส
จุดรหัสแรก | จุดรหัสท้าย | ไบต์ที่ 1 | ไบต์ที่ 2 | ไบต์ที่ 3 | ไบต์ที่ 4 |
---|---|---|---|---|---|
U+0000 | U+007F | 0xxxxxxx | |||
U+0080 | U+07FF | 110xxxxx | 10xxxxxx | ||
U+0800 | U+FFFF | 1110xxxx | 10xxxxxx | 10xxxxxx | |
U+10000 | U+10FFFF | 11110xxx | 10xxxxxx | 10xxxxxx | 10xxxxxx |
ตัวอักษร | จุดรหัสฐานสอง | UTF-8 ฐานสอง | UTF-8 ฐานสิบหก | |
---|---|---|---|---|
$ | U+0024 | 010 0100 | 00100100 | 24 |
¢ | U+00A2 | 000 1010 0010 | 11000010 10100010 | C2 A2 |
ह | U+0939 | 0000 1001 0011 1001 | 11100000 10100100 10111001 | E0 A4 B9 |
€ | U+20AC | 0010 0000 1010 1100 | 11100010 10000010 10101100 | E2 82 AC |
한 | U+D55C | 1101 0101 0101 1100 | 11101101 10010101 10011100 | ED 95 9C |
U+10348 | 0 0001 0000 0011 0100 1000 | 11110000 10010000 10001101 10001000 | F0 90 8D 88 |
รุ่นยูนิโคด
รุ่น | วันที่ | หนังสือ | ความสอดคล้องกับ (ISO/IEC 10646) | ชุดอักษร | อักขระ | |
---|---|---|---|---|---|---|
จำนวน | การเพิ่มเติมที่สำคัญ | |||||
1.0.0 | ตุลาคม พ.ศ. 2534 | (Vol.1) | 24 | 7,161 | เริ่มต้นด้วยอักษรเหล่านี้: อาหรับ, อาร์มีเนีย, เบงกอล, ปอพอมอฟอ, ซีริลลิก, เทวนาครี, จอร์เจีย, กรีกและคอปติก, คุชราต, คุรมุขี, ฮันกึล, ฮีบรู, ฮิระงะนะ, กันนาดา, คะตะคะนะ, ลาว, ละติน, มลยาฬัม, โอริยา, ทมิฬ, เตลูกู, ไทย และทิเบต | |
1.0.1 | มิถุนายน พ.ศ. 2535 | (Vol.2) | 25 | 28,359 | เริ่มมี (CJK Unified Ideographs) 20,902 ตัว | |
1.1 | มิถุนายน พ.ศ. 2536 | ISO/IEC 10646-1:1993 | 24 | 34,233 | เพิ่มพยางค์ฮันกึลลงไปอีก 4,306 ตัว จากชุดเดิม 2,350 ตัว และอักษรทิเบตถูกเอาออก | |
2.0 | กรกฎาคม พ.ศ. 2539 | ISO/IEC 10646-1:1993 เพิ่มข้อแก้ไขที่ 5, 6, 7 | 25 | 38,950 | พยางค์ฮันกึลชุดเดิมถูกเอาออก แล้วเพิ่มพยางค์ฮันกึลชุดใหม่ 11,619 ตัวในตำแหน่งใหม่ อักษรทิเบตเพิ่มกลับเข้ามาที่ตำแหน่งใหม่พร้อมกับเปลี่ยนแปลงอักขระบางตัว กลไก (surrogate) ได้ถูกนิยามขึ้น และมีการกำหนดให้เพลน 15 และเพลน 16 เป็น (Private Use Areas) | |
2.1 | พฤษภาคม พ.ศ. 2541 | ISO/IEC 10646-1:1993 เพิ่มข้อแก้ไขที่ 5, 6, 7 และอักขระสองตัวจากข้อแก้ไขที่ 18 | 25 | 38,952 | เครื่องหมายยูโรถูกเพิ่มเข้ามา | |
3.0 | กันยายน พ.ศ. 2542 | ISO/IEC 10646-1:2000 | 38 | 49,259 | เชอโรกี, เอธิโอเปีย, เขมร, มองโกเลีย, พม่า, โอคัม, รูนส์, สิงหล, ซีเรียค, ทานา, และอี้ เพิ่มเข้ามา เช่นเดียวกับรูปแบบอักษรเบรลล์ | |
3.1 | มีนาคม พ.ศ. 2544 | ISO/IEC 10646-1:2000 ISO/IEC 10646-2:2001 | 41 | 94,205 | , และอิตาลีโบราณ เพิ่มเข้ามา พร้อมกับและ และเพิ่มอักษรภาพรวมจีนญี่ปุ่นเกาหลีอีก 42,711 ตัว | |
3.2 | มีนาคม พ.ศ. 2545 | ISO/IEC 10646-1:2000 เพิ่มข้อแก้ไขที่ 1 ISO/IEC 10646-2:2001 | 45 | 95,221 | เพิ่มอักษรที่ใช้ในฟิลิปปินส์: บูฮิด, ฮานูโนโอ, บายบายิน และตักบันวา | |
4.0 | เมษายน พ.ศ. 2546 | ISO/IEC 10646:2003 | 52 | 96,447 | ไซปรัส, ลิมบู, ไลเนียร์บี, ออสมันยา, , ไทใต้คง และยูการิติก เพิ่มเข้ามาพร้อมกับของอี้จิง | |
4.1 | มีนาคม พ.ศ. 2548 | ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1 | 59 | 97,720 | ลนตารา, กลาโกลิติก, ขโรษฐี, ไทลื้อใหม่, , สิเลฏินาครี และทิฟินาค เพิ่มเข้ามา และคอปติกในรูปแบบที่ต่างจากอักษรกรีก เลขกรีกโบราณและสัญลักษณ์ทางดนตรีเพิ่มเข้ามาด้วย | |
5.0 | กรกฎาคม พ.ศ. 2549 | ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1, 2 และอักขระสี่ตัวจากข้อแก้ไขที่ 3 | 64 | 99,089 | บาหลี, คูนิฟอร์ม, อึนโก, พักส์-ปา และฟินิเชีย เพิ่มเข้ามา | |
5.1 | เมษายน พ.ศ. 2551 | ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1, 2, 3, 4 | 75 | 100,713 | คาเรีย, จาม, กะยา, เลปชา, ไลเซีย, ไลเดีย, , เรชัง, ศารทา, และไว เพิ่มเข้ามา เช่นเดียวกับกลุ่มสัญลักษณ์ , หน้าไพ่นกกระจอก และหน้าโดมิโน เพิ่มเติมอักษรที่สำคัญสำหรับอักษรพม่า, additions of letters and used in medieval , and the addition of . | |
5.2 | ตุลาคม พ.ศ. 2552 | ISO/IEC 10646:2003 เพิ่มข้อแก้ไขที่ 1, 2, 3, 4, 5, 6 | 90 | 107,361 | อเวสตะ, , ไฮโรกลิฟฟิก (the , comprising 1,071 characters), , , , ชวา, , ลีสู่, ไมไตมาเยก, , , , ไทธรรม และ ไทเวียด. เพิ่มอักษรภาพรวมจีนญี่ปุ่นเกาหลีอีก 4,149 ตัว (CJK-C), เช่นเดียวกับจาโมส่วนขยายของอักษรฮันกึลโบราณ และอักขระสำหรับ | |
6.0 | ตุลาคม พ.ศ. 2553 | ISO/IEC 10646:2010 เพิ่มเครื่องหมายสกุลเงินรูปีอินเดีย | 93 | 109,449 | บาตัก, พราหมี, มันดาอิก, สัญลักษณ์หน้าไพ่ป๊อก, สัญลักษณ์และแผนที่, สัญลักษณ์การเล่นแร่แปรธาตุ, อีโมติคอน และอีโมจิ | |
7.0 | มิถุนายน 2557 | ISBN 978-1-936213-09-2 | ISO/IEC 10646:2012 เพิ่มข้อแก้ไขที่ 1 และ 2 และเครื่องหมายรูเบิล | 123 | 112,956 (2,834 added) | Bassa Vah, Caucasian Albanian, Duployan, Elbasan, Grantha, Khojki, Khudawadi, Linear A, Mahajani, Manichaean, Mende Kikakui, Modi, Mro, Nabataean, Old North Arabian, Old Permic, Pahawh Hmong, Palmyrene, Pau Cin Hau, Psalter Pahlavi, Siddham, Tirhuta, Warang Citi, and Dingbats. |
8.0 | มิถุนายน 2558 | ISBN 978-1-936213-10-8 | ISO/IEC 10646:2014 pเพิ่มข้อแก้ไขที่ 1 และเครื่องหมายสกุลเงินลารี 9 ตัว และอีโมจิ 41 ตัว | 129 | 120,672 (7,716 added) | Ahom, Anatolian hieroglyphs, Hatran, Multani, Old Hungarian, SignWriting, 5,771 CJK unified ideographs, a set of lowercase letters for Cherokee, and five emoji skin tone modifiers. |
9.0 | มิถุนายน 2559 | ISBN 978-1-936213-13-9 | ISO/IEC 10646:2014เพิ่มข้อแก้ไขที่ 1 และ 2 และอัดลัม เนวา สัญลักษณ์โทรทัศน์ญี่ปุ่น และอีโมจิกับสัญลักษณ์อีก 74 ตัว | 135 | 128,172 (7,500 added) | Adlam, Bhaiksuki, Marchen, Newa, Osage, Tangut, and 72 emoji. |
10.0 | มิถุนายน 2560 | ISBN 978-1-936213-16-0 | ISO/IEC 10646:2017 plus 56 emoji characters, 285 hentaigana characters, and 3 Zanabazar Square characters | 139 | 136,690 (8,518 added) | Zanabazar Square, Soyombo, Masaram Gondi, Nüshu, hentaigana (non-standard hiragana), 7,494 CJK unified ideographs, 56 emoji, and bitcoin symbol. |
11.0 | มิถุนายน 2561 | ISBN 978-1-936213-19-1 | ISO/IEC 10646:2017 plus Amendment 1, as well as 46 Mtavruli Georgian capital letters, 5 CJK unified ideographs, and 66 emoji characters. | 146 | 137,374 (684 added) | Dogra, Georgian Mtavruli capital letters, Gunjala Gondi, Hanifi Rohingya, Indic Siyaq numbers, Makasar, Medefaidrin, Old Sogdian and Sogdian, Mayan numerals, 5 urgently needed CJK unified ideographs, symbols for xiangqi (Chinese chess) and star ratings, and 145 emoji. |
12.0 | มีนาคม 2562 | ISBN 978-1-936213-22-1 | ISO/IEC 10646:2017 plus Amendments 1 and 2, as well as 62 additional characters. | 150 | 137,928 (554 added) | Elymaic, Nandinagari, Nyiakeng Puachue Hmong, Wancho, Miao script additions for several Miao and Yi dialects in China, hiragana and katakana small letters for writing archaic Japanese, Tamil historic fractions and symbols, Lao letters for Pali, Latin letters for Egyptological and Ugaritic transliteration, hieroglyph format controls, and 61 emoji. |
12.1 | พฤษภาคม 2562 | ISBN 978-1-936213-25-2 | 150 | 137,929 (1 added) | เพิ่มอักษรหนึ่งตัวที่ U+32FF ชื่อยุคเรวะแบบมัดเป็นสี่เหลี่ยมจัตุรัส | |
13.0 | มีนาคม 2563 | ISBN 978-1-936213-26-9 | ISO/IEC 10646:2020 | 154 | 143,859 (5,930 added) | Chorasmian, Dives Akuru, Khitan small script, Yezidi, 4,969 CJK unified ideographs added (including 4,939 in Ext. G), Arabic script additions used to write Hausa, Wolof, and other languages in Africa and other additions used to write Hindko and Punjabi in Pakistan, Bopomofo additions used for Cantonese, Creative Commons license symbols, graphic characters for compatibility with teletext and home computer systems from the 1970s and 1980s, and 55 emoji. |
14.0 | กันยายน 2564 | ISBN 978-1-936213-29-0 | 159 | 144,697 (838 added) | Toto, Cypro-Minoan, Vithkuqi, Old Uyghur, Tangsa, Latin script additions at SMP blocks (Ext-F, Ext-G) for use in extended IPA, Arabic script additions for use in languages across Africa and in Iran, Pakistan, Malaysia, Indonesia, Java, and Bosnia, and to write honorifics, additions for Quranic use, other additions to support languages in North America, the Phillipines, India, and Mongolia, addition of the Kyrgyzstani som currency symbol, support for Znamenny musical notation, and 37 emoji. |
บล็อกต่าง ๆ
แผ่น | ระยะ | ชื่อ | จำนวนช่อง | กำหนดแล้ว | ชุดอักษร |
---|---|---|---|---|---|
0 BMP | U+0000..U+007F | Basic Latin | 128 | 128 | ละติน (52 ตัว), ทั่วไป (76 ตัว) |
0 BMP | U+0080..U+00FF | Latin-1 Supplement | 128 | 128 | ละติน (64 ตัว), ทั่วไป (64 ตัว) |
0 BMP | U+0100..U+017F | Latin Extended-A | 128 | 128 | ละติน |
0 BMP | U+0180..U+024F | Latin Extended-B | 208 | 208 | ละติน |
0 BMP | U+0250..U+02AF | IPA Extensions | 96 | 96 | ละติน |
0 BMP | U+02B0..U+02FF | Spacing Modifier Letters | 80 | 80 | ปอพอมอฟอ (2 ตัว), ละติน (14 ตัว), ทั่วไป (64 ตัว) |
0 BMP | U+0300..U+036F | Combining Diacritical Marks | 112 | 112 | ใช้กับตัวอื่น |
0 BMP | U+0370..U+03FF | Greek and Coptic | 144 | 135 | คอปติก (14 ตัว), กรีก (117 ตัว), ทั่วไป (4 ตัว) |
0 BMP | U+0400..U+04FF | Cyrillic | 256 | 256 | ซีริลลิก (254 characters), ใช้กับตัวอื่น (2 ตัว) |
0 BMP | U+0500..U+052F | Cyrillic Supplement | 48 | 48 | ซีริลลิก |
0 BMP | U+0530..U+058F | Armenian | 96 | 91 | อาร์เมเนียน |
0 BMP | U+0590..U+05FF | Hebrew | 112 | 88 | ฮีบรู |
0 BMP | U+0600..U+06FF | Arabic | 256 | 256 | อาหรับ (238 ตัว), ทั่วไป (6 ตัว), ใช้กับตัวอื่น (12 ตัว) |
0 BMP | U+0700..U+074F | Syriac | 80 | 77 | ซีเรีย |
0 BMP | U+0750..U+077F | Arabic Supplement | 48 | 48 | อาหรับ |
0 BMP | U+0780..U+07BF | Thaana | 64 | 50 | อักษรทานะ |
0 BMP | U+07C0..U+07FF | NKo | 64 | 62 | อักษรอึนโก |
0 BMP | U+0800..U+083F | Samaritan | 64 | 61 | Samaritan |
0 BMP | U+0840..U+085F | Mandaic | 32 | 29 | Mandaic |
0 BMP | U+0860..U+086F | Syriac Supplement | 16 | 11 | ซีเรีย |
0 BMP | U+0870..U+089F | Arabic Extended-B | 48 | 41 | อาหรับ |
0 BMP | U+08A0..U+08FF | Arabic Extended-A | 96 | 96 | อาหรับ (95 ตัว), ทั่วไป (1 ตัว) |
0 BMP | U+0900..U+097F | Devanagari | 128 | 128 | เทวนาครี (122 ตัว), ทั่วไป (2 ตัว), Inherited (4 ตัว) |
0 BMP | U+0980..U+09FF | Bengali | 128 | 96 | เบงกอล |
0 BMP | U+0A00..U+0A7F | Gurmukhi | 128 | 80 | อักษรคุรมุขี |
0 BMP | U+0A80..U+0AFF | Gujarati | 128 | 91 | คุชราต |
0 BMP | U+0B00..U+0B7F | Oriya | 128 | 91 | โอริยา |
0 BMP | U+0B80..U+0BFF | Tamil | 128 | 72 | ทมิฬ |
0 BMP | U+0C00..U+0C7F | Telugu | 128 | 100 | เตลูกู |
0 BMP | U+0C80..U+0CFF | Kannada | 128 | 90 | กันนาดา |
0 BMP | U+0D00..U+0D7F | Malayalam | 128 | 118 | มลยาฬัม |
0 BMP | U+0D80..U+0DFF | Sinhala | 128 | 91 | สิงหล |
0 BMP | U+0E00..U+0E7F | Thai | 128 | 87 | ไทย(86 ตัว), ทั่วไป (1 ตัว) |
0 BMP | U+0E80..U+0EFF | Lao | 128 | 82 | ลาว |
0 BMP | U+0F00..U+0FFF | Tibetan | 256 | 211 | ทิเบต (207 ตัว), ทั่วไป (4 ตัว) |
0 BMP | U+1000..U+109F | Myanmar | 160 | 160 | พม่า |
0 BMP | U+10A0..U+10FF | Georgian | 96 | 88 | จอร์เจีย (87 ตัว), ทั่วไป (1 ตัว) |
0 BMP | U+1100..U+11FF | Hangul Jamo | 256 | 256 | ฮันกึล |
0 BMP | U+1200..U+137F | Ethiopic | 384 | 358 | เอธิโอเปีย |
0 BMP | U+1380..U+139F | Ethiopic Supplement | 32 | 26 | เอธิโอเปีย |
0 BMP | U+13A0..U+13FF | Cherokee | 96 | 92 | เชโรกี |
0 BMP | U+1400..U+167F | Unified Canadian Aboriginal Syllabics | 640 | 640 | แคนาดาพื้นเมือง |
0 BMP | U+1680..U+169F | Ogham | 32 | 29 | Ogham |
0 BMP | U+16A0..U+16FF | Runic | 96 | 89 | รูน (86 ตัว), ทั่วไป (3 ตัว) |
0 BMP | U+1700..U+171F | Tagalog | 32 | 23 | ตากาล็อก |
0 BMP | U+1720..U+173F | Hanunoo | 32 | 23 | Hanunoo (21 characters), Common (2 characters) |
0 BMP | U+1740..U+175F | Buhid | 32 | 20 | Buhid |
0 BMP | U+1760..U+177F | Tagbanwa | 32 | 18 | Tagbanwa |
0 BMP | U+1780..U+17FF | Khmer | 128 | 114 | เขมร |
0 BMP | U+1800..U+18AF | Mongolian | 176 | 158 | มองโกเลีย (155 ตัว), ทั่วไป (3 ตัว) |
0 BMP | U+18B0..U+18FF | Unified Canadian Aboriginal Syllabics Extended | 80 | 70 | แคนาดาพื้นเมือง |
0 BMP | U+1900..U+194F | Limbu | 80 | 68 | Limbu |
0 BMP | U+1950..U+197F | Tai Le | 48 | 35 | อักษรไทใต้คง |
0 BMP | U+1980..U+19DF | New Tai Lue | 96 | 83 | อักษรไทลื้อ |
0 BMP | U+19E0..U+19FF | Khmer Symbols | 32 | 32 | เขมร |
0 BMP | U+1A00..U+1A1F | Buginese | 32 | 30 | Buginese |
0 BMP | U+1A20..U+1AAF | Tai Tham | 144 | 127 | อักษรล้านนา |
0 BMP | U+1AB0..U+1AFF | Combining Diacritical Marks Extended | 80 | 31 | ผสม |
0 BMP | U+1B00..U+1B7F | Balinese | 128 | 124 | Balinese |
0 BMP | U+1B80..U+1BBF | Sundanese | 64 | 64 | Sundanese |
0 BMP | U+1BC0..U+1BFF | Batak | 64 | 56 | Batak |
0 BMP | U+1C00..U+1C4F | Lepcha | 80 | 74 | Lepcha |
0 BMP | U+1C50..U+1C7F | Ol Chiki | 48 | 48 | Ol Chiki |
0 BMP | U+1C80..U+1C8F | Cyrillic Extended-C | 16 | 9 | ซีริลลิก |
0 BMP | U+1C90..U+1CBF | Georgian Extended | 48 | 46 | จอร์เจีย |
0 BMP | U+1CC0..U+1CCF | Sundanese Supplement | 16 | 8 | Sundanese |
0 BMP | U+1CD0..U+1CFF | Vedic Extensions | 48 | 43 | ทั่วไป (16 ตัว), ผสม(27 ตัว) |
0 BMP | U+1D00..U+1D7F | Phonetic Extensions | 128 | 128 | ซีริลลิก (2 ตัว), กรีก(15 ตัว), ละติน (111 ตัว) |
0 BMP | U+1D80..U+1DBF | Phonetic Extensions Supplement | 64 | 64 | กรีก (1 ตัว), ละติน (63 ตัว) |
0 BMP | U+1DC0..U+1DFF | Combining Diacritical Marks Supplement | 64 | 64 | ผสม |
0 BMP | U+1E00..U+1EFF | Latin Extended Additional | 256 | 256 | ละติน |
0 BMP | U+1F00..U+1FFF | Greek Extended | 256 | 233 | กรีก |
0 BMP | U+2000..U+206F | General Punctuation | 112 | 111 | ทั่วไป (109 ตัว), ผสม (2 ตัว) |
0 BMP | U+2070..U+209F | Superscripts and Subscripts | 48 | 42 | ละติน (15 ตัว), ทั่วไป (27 ตัว) |
0 BMP | U+20A0..U+20CF | Currency Symbols | 48 | 33 | ทั่วไป |
0 BMP | U+20D0..U+20FF | Combining Diacritical Marks for Symbols | 48 | 33 | ใช้กับตัวอื่น |
0 BMP | U+2100..U+214F | Letterlike Symbols | 80 | 80 | กรีก (1 ตัว), ละติน (4 ตัว), ทั่วไป (75 ตัว) |
0 BMP | U+2150..U+218F | Number Forms | 64 | 60 | ละติน (41 ตัว), ทั่วไป (19 ตัว) |
0 BMP | U+2190..U+21FF | Arrows | 112 | 112 | ทั่วไป |
0 BMP | U+2200..U+22FF | Mathematical Operators | 256 | 256 | ทั่วไป |
0 BMP | U+2300..U+23FF | Miscellaneous Technical | 256 | 256 | ทั่วไป |
0 BMP | U+2400..U+243F | Control Pictures | 64 | 39 | ทั่วไป |
0 BMP | U+2440..U+245F | Optical Character Recognition | 32 | 11 | ทั่วไป |
0 BMP | U+2460..U+24FF | Enclosed Alphanumerics | 160 | 160 | ทั่วไป |
0 BMP | U+2500..U+257F | Box Drawing | 128 | 128 | ทั่วไป |
0 BMP | U+2580..U+259F | Block Elements | 32 | 32 | ทั่วไป |
0 BMP | U+25A0..U+25FF | Geometric Shapes | 96 | 96 | ทั่วไป |
0 BMP | U+2600..U+26FF | Miscellaneous Symbols | 256 | 256 | ทั่วไป |
0 BMP | U+2700..U+27BF | Dingbats | 192 | 192 | ทั่วไป |
0 BMP | U+27C0..U+27EF | Miscellaneous Mathematical Symbols-A | 48 | 48 | ทั่วไป |
0 BMP | U+27F0..U+27FF | Supplemental Arrows-A | 16 | 16 | ทั่วไป |
0 BMP | U+2800..U+28FF | Braille Patterns | 256 | 256 | อักษรเบรลล์ |
0 BMP | U+2900..U+297F | Supplemental Arrows-B | 128 | 128 | ทั่วไป |
0 BMP | U+2980..U+29FF | Miscellaneous Mathematical Symbols-B | 128 | 128 | ทั่วไป |
0 BMP | U+2A00..U+2AFF | Supplemental Mathematical Operators | 256 | 256 | ทั่วไป |
0 BMP | U+2B00..U+2BFF | Miscellaneous Symbols and Arrows | 256 | 253 | ทั่วไป |
0 BMP | U+2C00..U+2C5F | Glagolitic | 96 | 96 | Glagolitic |
0 BMP | U+2C60..U+2C7F | Latin Extended-C | 32 | 32 | ละติน |
0 BMP | U+2C80..U+2CFF | Coptic | 128 | 123 | คอปติก |
0 BMP | U+2D00..U+2D2F | Georgian Supplement | 48 | 40 | จอร์เจีย |
0 BMP | U+2D30..U+2D7F | Tifinagh | 80 | 59 | ทิฟินาค |
0 BMP | U+2D80..U+2DDF | Ethiopic Extended | 96 | 79 | เอธิโอเปีย |
0 BMP | U+2DE0..U+2DFF | Cyrillic Extended-A | 32 | 32 | ซีริลลิก |
0 BMP | U+2E00..U+2E7F | Supplemental Punctuation | 128 | 94 | ทั่วไป |
0 BMP | U+2E80..U+2EFF | CJK Radicals Supplement | 128 | 115 | อักษรจีน |
0 BMP | U+2F00..U+2FDF | Kangxi Radicals | 224 | 214 | อักษรจีน |
0 BMP | U+2FF0..U+2FFF | Ideographic Description Characters | 16 | 12 | ทั่วไป |
0 BMP | U+3000..U+303F | CJK Symbols and Punctuation | 64 | 64 | จีน (15 ตัว), ฮันกึล (2 ตัว), ทั่วไป (43 ตัว), ใช้กับตัวอื่น (4 ตัว) |
0 BMP | U+3040..U+309F | Hiragana | 96 | 93 | ฮิรางานะ (89 ตัว), ทั่วไป (2 ตัว), ใช้กับตัวอื่น (2 ตัว) |
0 BMP | U+30A0..U+30FF | Katakana | 96 | 96 | คาตากานะ (93 ตัว), ทั่วไป (3 ตัว) |
0 BMP | U+3100..U+312F | Bopomofo | 48 | 43 | ปอพอมอฟอ |
0 BMP | U+3130..U+318F | Hangul Compatibility Jamo | 96 | 94 | ฮันกึล |
0 BMP | U+3190..U+319F | Kanbun | 16 | 16 | ทั่วไป |
0 BMP | U+31A0..U+31BF | Bopomofo Extended | 32 | 32 | ปอพอมอฟอ |
0 BMP | U+31C0..U+31EF | CJK Strokes | 48 | 36 | ทั่วไป |
0 BMP | U+31F0..U+31FF | Katakana Phonetic Extensions | 16 | 16 | คาตากานะ |
0 BMP | U+3200..U+32FF | Enclosed CJK Letters and Months | 256 | 255 | ฮันกึล (62 ตัว), คาตากานะ (47 ตัว), ทั่วไป (146 ตัว) |
0 BMP | U+3300..U+33FF | CJK Compatibility | 256 | 256 | คาตากานะ (88 ตัว), ทั่วไป (168 ตัว) |
0 BMP | U+3400..U+4DBF | CJK Unified Ideographs Extension A | 6,592 | 6,592 | จีน |
0 BMP | U+4DC0..U+4DFF | Yijing Hexagram Symbols | 64 | 64 | ทั่วไป |
0 BMP | U+4E00..U+9FFF | CJK Unified Ideographs | 20,992 | 20,992 | อักษรจีน |
0 BMP | U+A000..U+A48F | Yi Syllables | 1,168 | 1,165 | Yi |
0 BMP | U+A490..U+A4CF | Yi Radicals | 64 | 55 | Yi |
0 BMP | U+A4D0..U+A4FF | Lisu | 48 | 48 | Lisu |
0 BMP | U+A500..U+A63F | Vai | 320 | 300 | Vai |
0 BMP | U+A640..U+A69F | Cyrillic Extended-B | 96 | 96 | ซีริลลิก |
0 BMP | U+A6A0..U+A6FF | Bamum | 96 | 88 | Bamum |
0 BMP | U+A700..U+A71F | Modifier Tone Letters | 32 | 32 | ทั่วไป |
0 BMP | U+A720..U+A7FF | Latin Extended-D | 224 | 193 | Latin (188 characters), Common (5 characters) |
0 BMP | U+A800..U+A82F | Syloti Nagri | 48 | 45 | Syloti Nagri |
0 BMP | U+A830..U+A83F | Common Indic Number Forms | 16 | 10 | ทั่วไป |
0 BMP | U+A840..U+A87F | Phags-pa | 64 | 56 | อักษรพักส์-ปา |
0 BMP | U+A880..U+A8DF | Saurashtra | 96 | 82 | Saurashtra |
0 BMP | U+A8E0..U+A8FF | Devanagari Extended | 32 | 32 | เทวนาครี |
0 BMP | U+A900..U+A92F | Kayah Li | 48 | 48 | Kayah Li (47 characters), Common (1 character) |
0 BMP | U+A930..U+A95F | Rejang | 48 | 37 | Rejang |
0 BMP | U+A960..U+A97F | Hangul Jamo Extended-A | 32 | 29 | ฮันกึล |
0 BMP | U+A980..U+A9DF | Javanese | 96 | 91 | ชวา (90 ตัว), ทั่วไป (1 ตัว) |
0 BMP | U+A9E0..U+A9FF | Myanmar Extended-B | 32 | 31 | พม่า |
0 BMP | U+AA00..U+AA5F | Cham | 96 | 83 | จาม |
0 BMP | U+AA60..U+AA7F | Myanmar Extended-A | 32 | 32 | พม่า |
0 BMP | U+AA80..U+AADF | Tai Viet | 96 | 72 | ไทเวียด |
0 BMP | U+AAE0..U+AAFF | Meetei Mayek Extensions | 32 | 23 | Meetei Mayek |
0 BMP | U+AB00..U+AB2F | Ethiopic Extended-A | 48 | 32 | Ethiopic |
0 BMP | U+AB30..U+AB6F | Latin Extended-E | 64 | 60 | Latin (56 characters), Greek (1 character), Common (3 characters) |
0 BMP | U+AB70..U+ABBF | Cherokee Supplement | 80 | 80 | Cherokee |
0 BMP | U+ABC0..U+ABFF | Meetei Mayek | 64 | 56 | Meetei Mayek |
0 BMP | U+AC00..U+D7AF | Hangul Syllables | 11,184 | 11,172 | Hangul |
0 BMP | U+D7B0..U+D7FF | Hangul Jamo Extended-B | 80 | 72 | Hangul |
0 BMP | U+D800..U+DB7F | High Surrogates | 896 | 0 | Unknown |
0 BMP | U+DB80..U+DBFF | High Private Use Surrogates | 128 | 0 | Unknown |
0 BMP | U+DC00..U+DFFF | Low Surrogates | 1,024 | 0 | Unknown |
0 BMP | U+E000..U+F8FF | Private Use Area | 6,400 | 6,400 | Unknown |
0 BMP | U+F900..U+FAFF | CJK Compatibility Ideographs | 512 | 472 | Han |
0 BMP | U+FB00..U+FB4F | Alphabetic Presentation Forms | 80 | 58 | Armenian (5 characters), Hebrew (46 characters), Latin (7 characters) |
0 BMP | U+FB50..U+FDFF | Arabic Presentation Forms-A | 688 | 631 | อาหรับ (629 ตัว), ทั่วไป (2 ตัว) |
0 BMP | U+FE00..U+FE0F | Variation Selectors | 16 | 16 | ผสม |
0 BMP | U+FE10..U+FE1F | Vertical Forms | 16 | 10 | ทั่วไป |
0 BMP | U+FE20..U+FE2F | Combining Half Marks | 16 | 16 | ซีริลลิก (2 ตัว), ผสม (14 ตัว) |
0 BMP | U+FE30..U+FE4F | CJK Compatibility Forms | 32 | 32 | ทั่วไป |
0 BMP | U+FE50..U+FE6F | Small Form Variants | 32 | 26 | ทั่วไป |
0 BMP | U+FE70..U+FEFF | Arabic Presentation Forms-B | 144 | 141 | Arabic (140 characters), Common (1 character) |
0 BMP | U+FF00..U+FFEF | Halfwidth and Fullwidth Forms | 240 | 225 | ฮันกึล (52 ตัว), คาตากานะ (55 ตัว), ละติน(52 ตัว), ทั่วไป (66 ตัว) |
0 BMP | U+FFF0..U+FFFF | Specials | 16 | 5 | ทั่วไป |
ข้อจำกัดและปัญหา
มีการวิจารณ์ยูนิโคดเกี่ยวกับปัญหาทางเทคนิค และข้อจำกัดต่าง ๆ อย่างไรก็ดี ยูนิโคดได้กลายเป็นวิธีการเข้ารหัสที่ใช้กันมากที่สุดในการทำให้ซอฟต์แวร์และระบบปฏิบัติการใช้ได้หลายภาษาพร้อม ๆ กัน
ระบบปฏิบัติการตระกูลวินโดวส์ ได้แก่วินโดวส์เอ็นที, วินโดวส์ 2000 และ วินโดวส์เอกซ์พี ใช้รหัสยูนิโคดแบบ UTF-16 ในการเข้ารหัสข้อความ ระบบปฏิบัติการที่คล้ายกับยูนิกซ์ เช่น GNU/Linux BSD และ Mac OS X ก็ได้นำยูนิโคดแบบ มาใช้ เป็นพื้นฐานของการแทนข้อความที่มีหลายภาษา
การรองรับภาษาไทยในยูนิโคด ได้รับการวิพากษ์วิจารณ์เนื่องจากว่าลำดับเรียงตัวอักษรนั้นไม่ถูกต้องตามที่ควรจะเป็น ซึ่งเป็นเพราะว่ายูนิโคดในส่วนภาษาไทยได้อ้างอิงรูปแบบเดิมจาก Thai Industry Standard 620 (TIS-620) ที่มีปัญหานี้เช่นกัน จึงทำให้การเทียบเรียงลำดับยูนิโคดยุ่งยากขึ้น
อ้างอิง
- http://www.unicode.org/standard/principles.html#What_Characters
- "The Unicode Consortium Members". สืบค้นเมื่อ 4 January 2019.
- "อักษรพิเศษ". สืบค้นเมื่อ 2 April 2023.
- http://www.unicode.org/Public/reconstructed/1.0.0/UnicodeData.txt
- http://www.unicode.org/Public/reconstructed/1.0.1/UnicodeData.txt
- http://www.unicode.org/Public/1.1-Update/UnicodeData-1.1.5.txt
- http://www.unicode.org/Public/2.0-Update/UnicodeData-2.0.14.txt
- http://www.unicode.org/Public/2.1-Update/UnicodeData-2.1.2.txt
- http://www.unicode.org/Public/3.0-Update/UnicodeData-3.0.0.txt
- http://www.unicode.org/Public/3.1-Update/UnicodeData-3.1.0.txt
- http://www.unicode.org/Public/3.2-Update/UnicodeData-3.2.0.txt
- http://www.unicode.org/Public/4.0-Update/UnicodeData-4.0.0.txt
- http://www.unicode.org/Public/4.1.0/ucd/UnicodeData.txt
- http://www.unicode.org/Public/5.0.0/ucd/UnicodeData.txt
- http://www.unicode.org/Public/5.1.0/ucd/UnicodeData.txt
- http://www.unicode.org/Public/5.2.0/ucd/UnicodeData.txt
- "Unicode Data 6.0.0". สืบค้นเมื่อ 2010-10-11.
แหล่งข้อมูลอื่น
- DecodeUnicode - Unicode WIKI, 50.000 gifs
wikipedia, แบบไทย, วิกิพีเดีย, วิกิ หนังสือ, หนังสือ, ห้องสมุด, บทความ, อ่าน, ดาวน์โหลด, ฟรี, ดาวน์โหลดฟรี, mp3, วิดีโอ, mp4, 3gp, jpg, jpeg, gif, png, รูปภาพ, เพลง, เพลง, หนัง, หนังสือ, เกม, เกม, มือถือ, โทรศัพท์, Android, iOS, Apple, โทรศัพท์โมบิล, Samsung, iPhone, Xiomi, Xiaomi, Redmi, Honor, Oppo, Nokia, Sonya, MI, PC, พีซี, web, เว็บ, คอมพิวเตอร์
bthkhwamnixactxngkartrwcsxbtnchbb indaniwyakrn rupaebbkarekhiyn kareriyberiyng khunphaph hruxkarsakd khunsamarthchwyphthnabthkhwamid yuniokhd xngkvs Unicode khuxthichwyihkhxmphiwetxraesdngphlaelacdkarkhxkhwamthrrmdathiichinrabbkarekhiynkhxngphasaswnihyinolkidxyangsxdkhlxngkn yuniokhdprakxbdwyraykarthiaesdngphlidmakkwa 100 000 tw phthnatxyxdmacakmatrthan Universal Character Set UCS aelamikartiphimphlnginhnngsux The Unicode Standard epnaephnphngrhsephuxichepnraykarxangxing nxkcaknnyngmikarxthibaywithikarthiichekharhsaelakarnaesnxmatrthankhxngkarekharhsxkkhraxikcanwnhnung kdeknthkhxngkarrwmaelakaraeykxkkhra rwmipthungladbkaraesdngphlkhxngxkkhrasxngthisthang echnxksrxahrbhruxxksrhibruthiekhiyncakkhwaipsay The Unicode Standard Version 5 0xkkhrayuniokhdthnghmdemuxphimphlngkradas rwmthngsxngaephn khwamsaerckhxngyuniokhdkhuxkarrwmrhsxkkhrahlaychnidihepnhnungediyw naipsukarichnganxyangkwangkhwangaelamixiththiphltxkaraeplphasakhxngsxftaewrkhxmphiwetxr nnkhuxopraekrmcasamarthichidhlayphasa matrthannimikarnaipichepnethkhonolyihlkhlayxyang xathi exksexmaexl phasacawa dxtentefrmewirk aelarabbptibtikarsmyihm yuniokhdsamarthnaipichnganiddwychudxkkhraaebbtang chudxkkhrathiepnthiruckmakthisudkhux ich 1 ibtsahrbxkkhrathuktwinrhsaexskiaelamikharhsehmuxnkbmatrthanaexski hruxmakkwanncnthung 4 ibtsahrbxkkhraaebbxun UCS 2 sungpccubnelikichaelw ich 2 ibtsahrbxkkhrathuktw aetimkhrxbkhlumxkkhrathnghmdinyuniokhd aela UTF 16 epnswnkhyaycak UCS 2 odyich 4 ibt sahrbaethnrhsxkkhrathikhadipkhxng UCS 2 smakhm Unicodesmakhm Unicode epnxngkhkrimaeswnghakairthiprasanngankarphthna Unicode smachiketmrupaebbprakxbdwybristhsxftaewraelahardaewrkhxmphiwetxrhlkswnihythimikhwamsnicinmatrthankarpramwlphlkhxkhwam rwmthung Apple Facebook Google IBM Microsoft Netflix aela SAP SE smakhmmiepahmaythithaeyxthayaninkaraethnthiokhrngrangkarekharhsxkkhrathimixyudwy Unicode aelaokhrngrang Unicode Transformation Format UTF matrthan enuxngcakokhrngrangthimixyucanwnmakmikhnadaelakhxbekhtthicakdaelaimekhaknkb sphaphaewdlxm xkkhra Unicode ichknxyangaephrhlayinkartkaetngkhxkhwambnekhruxkhaysngkhm sahrbsingnimiaexpphliekhchnphiessthiaeplngtwxksrthrrmdaepnxkkhraphiesskarekharhsUTF 8 ekharhstwxksrepnkhxmulhnungthungsiibttamladbkhxngcudrhs tarangtxipniaesdngokhrngsrangkhxngkarekharhs tw x aethnbitkhxngcudrhs cudrhs lt gt UTF 8 cudrhsaerk cudrhsthay ibtthi 1 ibtthi 2 ibtthi 3 ibtthi 4U 0000 U 007F 0xxxxxxxU 0080 U 07FF 110xxxxx 10xxxxxxU 0800 U FFFF 1110xxxx 10xxxxxx 10xxxxxxU 10000 U 10FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxxtwxyangkarekharhs twxksr cudrhsthansxng UTF 8 thansxng UTF 8 thansibhk U 0024 010 0100 00100100 24 U 00A2 000 10 10 0010 11000010 10100010 C2 A2ह U 0939 0000 1001 00 11 1001 11100000 10100100 10111001 E0 A4 B9 U 20AC 0010 0000 10 10 1100 11100010 10000010 10101100 E2 82 AC한 U D55C 1101 0101 01 01 1100 11101101 10010101 10011100 ED 95 9CU 10348 0 00 01 0000 0011 01 00 1000 11110000 10010000 10001101 10001000 F0 90 8D 88runyuniokhdrun wnthi hnngsux khwamsxdkhlxngkb ISO IEC 10646 chudxksr xkkhracanwn karephimetimthisakhy1 0 0 tulakhm ph s 2534 ISBN 0 201 56788 1 Vol 1 24 7 161 erimtndwyxksrehlani xahrb xarmieniy ebngkxl pxphxmxfx sirillik ethwnakhri cxreciy krikaelakhxptik khuchrat khurmukhi hnkul hibru hirangana knnada khatakhana law latin mlyalm oxriya thmil etluku ithy aelathiebt1 0 1 mithunayn ph s 2535 ISBN 0 201 60845 6 Vol 2 25 28 359 erimmi CJK Unified Ideographs 20 902 tw1 1 mithunayn ph s 2536 ISO IEC 10646 1 1993 24 34 233 ephimphyangkhhnkullngipxik 4 306 tw cakchudedim 2 350 tw aelaxksrthiebtthukexaxxk2 0 krkdakhm ph s 2539 ISBN 0 201 48345 9 ISO IEC 10646 1 1993 ephimkhxaekikhthi 5 6 7 25 38 950 phyangkhhnkulchudedimthukexaxxk aelwephimphyangkhhnkulchudihm 11 619 twintaaehnngihm xksrthiebtephimklbekhamathitaaehnngihmphrxmkbepliynaeplngxkkhrabangtw klik surrogate idthukniyamkhun aelamikarkahndihephln 15 aelaephln 16 epn Private Use Areas 2 1 phvsphakhm ph s 2541 ISO IEC 10646 1 1993 ephimkhxaekikhthi 5 6 7 aelaxkkhrasxngtwcakkhxaekikhthi 18 25 38 952 ekhruxnghmayyuorthukephimekhama3 0 knyayn ph s 2542 ISBN 0 201 61633 5 ISO IEC 10646 1 2000 38 49 259 echxorki exthioxepiy ekhmr mxngokeliy phma oxkhm runs singhl sieriykh thana aelaxi ephimekhama echnediywkbrupaebbxksrebrll3 1 minakhm ph s 2544 ISO IEC 10646 1 2000 ISO IEC 10646 2 2001 41 94 205 aelaxitaliobran ephimekhama phrxmkbaela aelaephimxksrphaphrwmcinyipunekahlixik 42 711 tw3 2 minakhm ph s 2545 ISO IEC 10646 1 2000 ephimkhxaekikhthi 1 ISO IEC 10646 2 2001 45 95 221 ephimxksrthiichinfilippins buhid hanuonox baybayin aelatkbnwa4 0 emsayn ph s 2546 ISBN 0 321 18578 1 ISO IEC 10646 2003 52 96 447 isprs limbu ileniyrbi xxsmnya ithitkhng aelayukaritik ephimekhamaphrxmkbkhxngxicing4 1 minakhm ph s 2548 ISO IEC 10646 2003 ephimkhxaekikhthi 1 59 97 720 lntara klaoklitik khorsthi ithluxihm sieltinakhri aelathifinakh ephimekhama aelakhxptikinrupaebbthitangcakxksrkrik elkhkrikobranaelasylksnthangdntriephimekhamadwy5 0 krkdakhm ph s 2549 ISBN 0 321 48091 0 ISO IEC 10646 2003 ephimkhxaekikhthi 1 2 aelaxkkhrasitwcakkhxaekikhthi 3 64 99 089 bahli khunifxrm xunok phks pa aelafiniechiy ephimekhama5 1 emsayn ph s 2551 ISO IEC 10646 2003 ephimkhxaekikhthi 1 2 3 4 75 100 713 khaeriy cam kaya elpcha ilesiy ilediy erchng sartha aelaiw ephimekhama echnediywkbklumsylksn hnaiphnkkracxk aelahnaodmion ephimetimxksrthisakhysahrbxksrphma additions of letters and used in medieval and the addition of 5 2 tulakhm ph s 2552 ISO IEC 10646 2003 ephimkhxaekikhthi 1 2 3 4 5 6 90 107 361 xewsta ihorkliffik the comprising 1 071 characters chwa lisu imitmaeyk iththrrm aela ithewiyd ephimxksrphaphrwmcinyipunekahlixik 4 149 tw CJK C echnediywkbcaomswnkhyaykhxngxksrhnkulobran aelaxkkhrasahrb6 0 tulakhm ph s 2553 ISO IEC 10646 2010 ephimekhruxnghmayskulenginrupixinediy 93 109 449 batk phrahmi mndaxik sylksnhnaiphpxk sylksnaelaaephnthi sylksnkarelnaeraeprthatu xiomtikhxn aelaxiomci7 0 mithunayn 2557 ISBN 978 1 936213 09 2 ISO IEC 10646 2012 ephimkhxaekikhthi 1 aela 2 aelaekhruxnghmayruebil 123 112 956 2 834 added Bassa Vah Caucasian Albanian Duployan Elbasan Grantha Khojki Khudawadi Linear A Mahajani Manichaean Mende Kikakui Modi Mro Nabataean Old North Arabian Old Permic Pahawh Hmong Palmyrene Pau Cin Hau Psalter Pahlavi Siddham Tirhuta Warang Citi and Dingbats 8 0 mithunayn 2558 ISBN 978 1 936213 10 8 ISO IEC 10646 2014 pephimkhxaekikhthi 1 aelaekhruxnghmayskulenginlari 9 tw aelaxiomci 41 tw 129 120 672 7 716 added Ahom Anatolian hieroglyphs Hatran Multani Old Hungarian SignWriting 5 771 CJK unified ideographs a set of lowercase letters for Cherokee and five emoji skin tone modifiers 9 0 mithunayn 2559 ISBN 978 1 936213 13 9 ISO IEC 10646 2014ephimkhxaekikhthi 1 aela 2 aelaxdlm enwa sylksnothrthsnyipun aelaxiomcikbsylksnxik 74 tw 135 128 172 7 500 added Adlam Bhaiksuki Marchen Newa Osage Tangut and 72 emoji 10 0 mithunayn 2560 ISBN 978 1 936213 16 0 ISO IEC 10646 2017 plus 56 emoji characters 285 hentaigana characters and 3 Zanabazar Square characters 139 136 690 8 518 added Zanabazar Square Soyombo Masaram Gondi Nushu hentaigana non standard hiragana 7 494 CJK unified ideographs 56 emoji and bitcoin symbol 11 0 mithunayn 2561 ISBN 978 1 936213 19 1 ISO IEC 10646 2017 plus Amendment 1 as well as 46 Mtavruli Georgian capital letters 5 CJK unified ideographs and 66 emoji characters 146 137 374 684 added Dogra Georgian Mtavruli capital letters Gunjala Gondi Hanifi Rohingya Indic Siyaq numbers Makasar Medefaidrin Old Sogdian and Sogdian Mayan numerals 5 urgently needed CJK unified ideographs symbols for xiangqi Chinese chess and star ratings and 145 emoji 12 0 minakhm 2562 ISBN 978 1 936213 22 1 ISO IEC 10646 2017 plus Amendments 1 and 2 as well as 62 additional characters 150 137 928 554 added Elymaic Nandinagari Nyiakeng Puachue Hmong Wancho Miao script additions for several Miao and Yi dialects in China hiragana and katakana small letters for writing archaic Japanese Tamil historic fractions and symbols Lao letters for Pali Latin letters for Egyptological and Ugaritic transliteration hieroglyph format controls and 61 emoji 12 1 phvsphakhm 2562 ISBN 978 1 936213 25 2 150 137 929 1 added ephimxksrhnungtwthi U 32FF chuxyukherwaaebbmdepnsiehliymcturs13 0 minakhm 2563 ISBN 978 1 936213 26 9 ISO IEC 10646 2020 154 143 859 5 930 added Chorasmian Dives Akuru Khitan small script Yezidi 4 969 CJK unified ideographs added including 4 939 in Ext G Arabic script additions used to write Hausa Wolof and other languages in Africa and other additions used to write Hindko and Punjabi in Pakistan Bopomofo additions used for Cantonese Creative Commons license symbols graphic characters for compatibility with teletext and home computer systems from the 1970s and 1980s and 55 emoji 14 0 knyayn 2564 ISBN 978 1 936213 29 0 159 144 697 838 added Toto Cypro Minoan Vithkuqi Old Uyghur Tangsa Latin script additions at SMP blocks Ext F Ext G for use in extended IPA Arabic script additions for use in languages across Africa and in Iran Pakistan Malaysia Indonesia Java and Bosnia and to write honorifics additions for Quranic use other additions to support languages in North America the Phillipines India and Mongolia addition of the Kyrgyzstani som currency symbol support for Znamenny musical notation and 37 emoji aephnphngBasic Multilingual Plane hnungklxngaethn 256 chxngblxktang aephn raya chux canwnchxng kahndaelw chudxksr0 BMP U 0000 U 007F Basic Latin 128 128 latin 52 tw thwip 76 tw 0 BMP U 0080 U 00FF Latin 1 Supplement 128 128 latin 64 tw thwip 64 tw 0 BMP U 0100 U 017F Latin Extended A 128 128 latin0 BMP U 0180 U 024F Latin Extended B 208 208 latin0 BMP U 0250 U 02AF IPA Extensions 96 96 latin0 BMP U 02B0 U 02FF Spacing Modifier Letters 80 80 pxphxmxfx 2 tw latin 14 tw thwip 64 tw 0 BMP U 0300 U 036F Combining Diacritical Marks 112 112 ichkbtwxun0 BMP U 0370 U 03FF Greek and Coptic 144 135 khxptik 14 tw krik 117 tw thwip 4 tw 0 BMP U 0400 U 04FF Cyrillic 256 256 sirillik 254 characters ichkbtwxun 2 tw 0 BMP U 0500 U 052F Cyrillic Supplement 48 48 sirillik0 BMP U 0530 U 058F Armenian 96 91 xaremeniyn0 BMP U 0590 U 05FF Hebrew 112 88 hibru0 BMP U 0600 U 06FF Arabic 256 256 xahrb 238 tw thwip 6 tw ichkbtwxun 12 tw 0 BMP U 0700 U 074F Syriac 80 77 sieriy0 BMP U 0750 U 077F Arabic Supplement 48 48 xahrb0 BMP U 0780 U 07BF Thaana 64 50 xksrthana0 BMP U 07C0 U 07FF NKo 64 62 xksrxunok0 BMP U 0800 U 083F Samaritan 64 61 Samaritan0 BMP U 0840 U 085F Mandaic 32 29 Mandaic0 BMP U 0860 U 086F Syriac Supplement 16 11 sieriy0 BMP U 0870 U 089F Arabic Extended B 48 41 xahrb0 BMP U 08A0 U 08FF Arabic Extended A 96 96 xahrb 95 tw thwip 1 tw 0 BMP U 0900 U 097F Devanagari 128 128 ethwnakhri 122 tw thwip 2 tw Inherited 4 tw 0 BMP U 0980 U 09FF Bengali 128 96 ebngkxl0 BMP U 0A00 U 0A7F Gurmukhi 128 80 xksrkhurmukhi0 BMP U 0A80 U 0AFF Gujarati 128 91 khuchrat0 BMP U 0B00 U 0B7F Oriya 128 91 oxriya0 BMP U 0B80 U 0BFF Tamil 128 72 thmil0 BMP U 0C00 U 0C7F Telugu 128 100 etluku0 BMP U 0C80 U 0CFF Kannada 128 90 knnada0 BMP U 0D00 U 0D7F Malayalam 128 118 mlyalm0 BMP U 0D80 U 0DFF Sinhala 128 91 singhl0 BMP U 0E00 U 0E7F Thai 128 87 ithy 86 tw thwip 1 tw 0 BMP U 0E80 U 0EFF Lao 128 82 law0 BMP U 0F00 U 0FFF Tibetan 256 211 thiebt 207 tw thwip 4 tw 0 BMP U 1000 U 109F Myanmar 160 160 phma0 BMP U 10A0 U 10FF Georgian 96 88 cxreciy 87 tw thwip 1 tw 0 BMP U 1100 U 11FF Hangul Jamo 256 256 hnkul0 BMP U 1200 U 137F Ethiopic 384 358 exthioxepiy0 BMP U 1380 U 139F Ethiopic Supplement 32 26 exthioxepiy0 BMP U 13A0 U 13FF Cherokee 96 92 echorki0 BMP U 1400 U 167F Unified Canadian Aboriginal Syllabics 640 640 aekhnadaphunemuxng0 BMP U 1680 U 169F Ogham 32 29 Ogham0 BMP U 16A0 U 16FF Runic 96 89 run 86 tw thwip 3 tw 0 BMP U 1700 U 171F Tagalog 32 23 takalxk0 BMP U 1720 U 173F Hanunoo 32 23 Hanunoo 21 characters Common 2 characters 0 BMP U 1740 U 175F Buhid 32 20 Buhid0 BMP U 1760 U 177F Tagbanwa 32 18 Tagbanwa0 BMP U 1780 U 17FF Khmer 128 114 ekhmr0 BMP U 1800 U 18AF Mongolian 176 158 mxngokeliy 155 tw thwip 3 tw 0 BMP U 18B0 U 18FF Unified Canadian Aboriginal Syllabics Extended 80 70 aekhnadaphunemuxng0 BMP U 1900 U 194F Limbu 80 68 Limbu0 BMP U 1950 U 197F Tai Le 48 35 xksrithitkhng0 BMP U 1980 U 19DF New Tai Lue 96 83 xksrithlux0 BMP U 19E0 U 19FF Khmer Symbols 32 32 ekhmr0 BMP U 1A00 U 1A1F Buginese 32 30 Buginese0 BMP U 1A20 U 1AAF Tai Tham 144 127 xksrlanna0 BMP U 1AB0 U 1AFF Combining Diacritical Marks Extended 80 31 phsm0 BMP U 1B00 U 1B7F Balinese 128 124 Balinese0 BMP U 1B80 U 1BBF Sundanese 64 64 Sundanese0 BMP U 1BC0 U 1BFF Batak 64 56 Batak0 BMP U 1C00 U 1C4F Lepcha 80 74 Lepcha0 BMP U 1C50 U 1C7F Ol Chiki 48 48 Ol Chiki0 BMP U 1C80 U 1C8F Cyrillic Extended C 16 9 sirillik0 BMP U 1C90 U 1CBF Georgian Extended 48 46 cxreciy0 BMP U 1CC0 U 1CCF Sundanese Supplement 16 8 Sundanese0 BMP U 1CD0 U 1CFF Vedic Extensions 48 43 thwip 16 tw phsm 27 tw 0 BMP U 1D00 U 1D7F Phonetic Extensions 128 128 sirillik 2 tw krik 15 tw latin 111 tw 0 BMP U 1D80 U 1DBF Phonetic Extensions Supplement 64 64 krik 1 tw latin 63 tw 0 BMP U 1DC0 U 1DFF Combining Diacritical Marks Supplement 64 64 phsm0 BMP U 1E00 U 1EFF Latin Extended Additional 256 256 latin0 BMP U 1F00 U 1FFF Greek Extended 256 233 krik0 BMP U 2000 U 206F General Punctuation 112 111 thwip 109 tw phsm 2 tw 0 BMP U 2070 U 209F Superscripts and Subscripts 48 42 latin 15 tw thwip 27 tw 0 BMP U 20A0 U 20CF Currency Symbols 48 33 thwip0 BMP U 20D0 U 20FF Combining Diacritical Marks for Symbols 48 33 ichkbtwxun0 BMP U 2100 U 214F Letterlike Symbols 80 80 krik 1 tw latin 4 tw thwip 75 tw 0 BMP U 2150 U 218F Number Forms 64 60 latin 41 tw thwip 19 tw 0 BMP U 2190 U 21FF Arrows 112 112 thwip0 BMP U 2200 U 22FF Mathematical Operators 256 256 thwip0 BMP U 2300 U 23FF Miscellaneous Technical 256 256 thwip0 BMP U 2400 U 243F Control Pictures 64 39 thwip0 BMP U 2440 U 245F Optical Character Recognition 32 11 thwip0 BMP U 2460 U 24FF Enclosed Alphanumerics 160 160 thwip0 BMP U 2500 U 257F Box Drawing 128 128 thwip0 BMP U 2580 U 259F Block Elements 32 32 thwip0 BMP U 25A0 U 25FF Geometric Shapes 96 96 thwip0 BMP U 2600 U 26FF Miscellaneous Symbols 256 256 thwip0 BMP U 2700 U 27BF Dingbats 192 192 thwip0 BMP U 27C0 U 27EF Miscellaneous Mathematical Symbols A 48 48 thwip0 BMP U 27F0 U 27FF Supplemental Arrows A 16 16 thwip0 BMP U 2800 U 28FF Braille Patterns 256 256 xksrebrll0 BMP U 2900 U 297F Supplemental Arrows B 128 128 thwip0 BMP U 2980 U 29FF Miscellaneous Mathematical Symbols B 128 128 thwip0 BMP U 2A00 U 2AFF Supplemental Mathematical Operators 256 256 thwip0 BMP U 2B00 U 2BFF Miscellaneous Symbols and Arrows 256 253 thwip0 BMP U 2C00 U 2C5F Glagolitic 96 96 Glagolitic0 BMP U 2C60 U 2C7F Latin Extended C 32 32 latin0 BMP U 2C80 U 2CFF Coptic 128 123 khxptik0 BMP U 2D00 U 2D2F Georgian Supplement 48 40 cxreciy0 BMP U 2D30 U 2D7F Tifinagh 80 59 thifinakh0 BMP U 2D80 U 2DDF Ethiopic Extended 96 79 exthioxepiy0 BMP U 2DE0 U 2DFF Cyrillic Extended A 32 32 sirillik0 BMP U 2E00 U 2E7F Supplemental Punctuation 128 94 thwip0 BMP U 2E80 U 2EFF CJK Radicals Supplement 128 115 xksrcin0 BMP U 2F00 U 2FDF Kangxi Radicals 224 214 xksrcin0 BMP U 2FF0 U 2FFF Ideographic Description Characters 16 12 thwip0 BMP U 3000 U 303F CJK Symbols and Punctuation 64 64 cin 15 tw hnkul 2 tw thwip 43 tw ichkbtwxun 4 tw 0 BMP U 3040 U 309F Hiragana 96 93 hirangana 89 tw thwip 2 tw ichkbtwxun 2 tw 0 BMP U 30A0 U 30FF Katakana 96 96 khatakana 93 tw thwip 3 tw 0 BMP U 3100 U 312F Bopomofo 48 43 pxphxmxfx0 BMP U 3130 U 318F Hangul Compatibility Jamo 96 94 hnkul0 BMP U 3190 U 319F Kanbun 16 16 thwip0 BMP U 31A0 U 31BF Bopomofo Extended 32 32 pxphxmxfx0 BMP U 31C0 U 31EF CJK Strokes 48 36 thwip0 BMP U 31F0 U 31FF Katakana Phonetic Extensions 16 16 khatakana0 BMP U 3200 U 32FF Enclosed CJK Letters and Months 256 255 hnkul 62 tw khatakana 47 tw thwip 146 tw 0 BMP U 3300 U 33FF CJK Compatibility 256 256 khatakana 88 tw thwip 168 tw 0 BMP U 3400 U 4DBF CJK Unified Ideographs Extension A 6 592 6 592 cin0 BMP U 4DC0 U 4DFF Yijing Hexagram Symbols 64 64 thwip0 BMP U 4E00 U 9FFF CJK Unified Ideographs 20 992 20 992 xksrcin0 BMP U A000 U A48F Yi Syllables 1 168 1 165 Yi0 BMP U A490 U A4CF Yi Radicals 64 55 Yi0 BMP U A4D0 U A4FF Lisu 48 48 Lisu0 BMP U A500 U A63F Vai 320 300 Vai0 BMP U A640 U A69F Cyrillic Extended B 96 96 sirillik0 BMP U A6A0 U A6FF Bamum 96 88 Bamum0 BMP U A700 U A71F Modifier Tone Letters 32 32 thwip0 BMP U A720 U A7FF Latin Extended D 224 193 Latin 188 characters Common 5 characters 0 BMP U A800 U A82F Syloti Nagri 48 45 Syloti Nagri0 BMP U A830 U A83F Common Indic Number Forms 16 10 thwip0 BMP U A840 U A87F Phags pa 64 56 xksrphks pa0 BMP U A880 U A8DF Saurashtra 96 82 Saurashtra0 BMP U A8E0 U A8FF Devanagari Extended 32 32 ethwnakhri0 BMP U A900 U A92F Kayah Li 48 48 Kayah Li 47 characters Common 1 character 0 BMP U A930 U A95F Rejang 48 37 Rejang0 BMP U A960 U A97F Hangul Jamo Extended A 32 29 hnkul0 BMP U A980 U A9DF Javanese 96 91 chwa 90 tw thwip 1 tw 0 BMP U A9E0 U A9FF Myanmar Extended B 32 31 phma0 BMP U AA00 U AA5F Cham 96 83 cam0 BMP U AA60 U AA7F Myanmar Extended A 32 32 phma0 BMP U AA80 U AADF Tai Viet 96 72 ithewiyd0 BMP U AAE0 U AAFF Meetei Mayek Extensions 32 23 Meetei Mayek0 BMP U AB00 U AB2F Ethiopic Extended A 48 32 Ethiopic0 BMP U AB30 U AB6F Latin Extended E 64 60 Latin 56 characters Greek 1 character Common 3 characters 0 BMP U AB70 U ABBF Cherokee Supplement 80 80 Cherokee0 BMP U ABC0 U ABFF Meetei Mayek 64 56 Meetei Mayek0 BMP U AC00 U D7AF Hangul Syllables 11 184 11 172 Hangul0 BMP U D7B0 U D7FF Hangul Jamo Extended B 80 72 Hangul0 BMP U D800 U DB7F High Surrogates 896 0 Unknown0 BMP U DB80 U DBFF High Private Use Surrogates 128 0 Unknown0 BMP U DC00 U DFFF Low Surrogates 1 024 0 Unknown0 BMP U E000 U F8FF Private Use Area 6 400 6 400 Unknown0 BMP U F900 U FAFF CJK Compatibility Ideographs 512 472 Han0 BMP U FB00 U FB4F Alphabetic Presentation Forms 80 58 Armenian 5 characters Hebrew 46 characters Latin 7 characters 0 BMP U FB50 U FDFF Arabic Presentation Forms A 688 631 xahrb 629 tw thwip 2 tw 0 BMP U FE00 U FE0F Variation Selectors 16 16 phsm0 BMP U FE10 U FE1F Vertical Forms 16 10 thwip0 BMP U FE20 U FE2F Combining Half Marks 16 16 sirillik 2 tw phsm 14 tw 0 BMP U FE30 U FE4F CJK Compatibility Forms 32 32 thwip0 BMP U FE50 U FE6F Small Form Variants 32 26 thwip0 BMP U FE70 U FEFF Arabic Presentation Forms B 144 141 Arabic 140 characters Common 1 character 0 BMP U FF00 U FFEF Halfwidth and Fullwidth Forms 240 225 hnkul 52 tw khatakana 55 tw latin 52 tw thwip 66 tw 0 BMP U FFF0 U FFFF Specials 16 5 thwipkhxcakdaelapyhamikarwicarnyuniokhdekiywkbpyhathangethkhnikh aelakhxcakdtang xyangirkdi yuniokhdidklayepnwithikarekharhsthiichknmakthisudinkarthaihsxftaewraelarabbptibtikarichidhlayphasaphrxm kn rabbptibtikartrakulwinodws idaekwinodwsexnthi winodws 2000 aela winodwsexksphi ichrhsyuniokhdaebb UTF 16 inkarekharhskhxkhwam rabbptibtikarthikhlaykbyuniks echn GNU Linux BSD aela Mac OS X kidnayuniokhdaebb maich epnphunthankhxngkaraethnkhxkhwamthimihlayphasa karrxngrbphasaithyinyuniokhd idrbkarwiphakswicarnenuxngcakwaladberiyngtwxksrnnimthuktxngtamthikhwrcaepn sungepnephraawayuniokhdinswnphasaithyidxangxingrupaebbedimcak Thai Industry Standard 620 TIS 620 thimipyhaniechnkn cungthaihkarethiyberiyngladbyuniokhdyungyakkhunxangxinghttp www unicode org standard principles html What Characters The Unicode Consortium Members subkhnemux 4 January 2019 xksrphiess subkhnemux 2 April 2023 http www unicode org Public reconstructed 1 0 0 UnicodeData txt http www unicode org Public reconstructed 1 0 1 UnicodeData txt http www unicode org Public 1 1 Update UnicodeData 1 1 5 txt http www unicode org Public 2 0 Update UnicodeData 2 0 14 txt http www unicode org Public 2 1 Update UnicodeData 2 1 2 txt http www unicode org Public 3 0 Update UnicodeData 3 0 0 txt http www unicode org Public 3 1 Update UnicodeData 3 1 0 txt http www unicode org Public 3 2 Update UnicodeData 3 2 0 txt http www unicode org Public 4 0 Update UnicodeData 4 0 0 txt http www unicode org Public 4 1 0 ucd UnicodeData txt http www unicode org Public 5 0 0 ucd UnicodeData txt http www unicode org Public 5 1 0 ucd UnicodeData txt http www unicode org Public 5 2 0 ucd UnicodeData txt Unicode Data 6 0 0 subkhnemux 2010 10 11 aehlngkhxmulxunDecodeUnicode Unicode WIKI 50 000 gifs