משתמש:דרור ש/אתר לניסויים גרעיניים
מראה
זהירות, שטח אש!
פסולת גרעינית[עריכת קוד מקור | עריכה]
טבלה שהוצאתי מהערך UTF-8 וחבל לי לזרוק[עריכת קוד מקור | עריכה]
טווח הקוד ההקסדצימלי | UTF-16 | UTF-8 בינארי | הערות |
---|---|---|---|
000000 - 00007F | 00000000 0xxxxxxx |
0xxxxxxx | טווח תווי ASCII; הבית מתחיל ב־0 |
000080 - 0007FF | 00000xxx xxxxxxxx |
110xxxxx 10xxxxxx | הבית הראשון מתחיל עם 110 או 1110, והבית/בתים הבא/ים מתחיל/ים עם 10 |
000800 - 00FFFF | xxxxxxxx xxxxxxxx |
1110xxxx 10xxxxxx 10xxxxxx | |
010000 - 10FFFF | 110110xx xxxxxxxx 110111xx xxxxxxxx |
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx | UTF-16 מחייב בית נוסף; ב־UTF-8, 0x10000 מוחסר, אז תבנית הסיבית לא זהה ל־UTF-16 |
עוד דברים שזרקתי מהערך UTF-8[עריכת קוד מקור | עריכה]
למעשה, UTF-8 מסוגל להשתמש ביותר מ־6 בתים ולכסות על כל האזור 0x00-0x7FFFFFFF (31 סיביות), אבל UTF-8 הוגבל על ידי RFC 3629 להשתמש רק באזור שהוגדר על ידי יוניקוד הרשמי, 0x00-0x10FFFF, בנובמבר 2003. לפני כן, רק בתי 0xFE ו־0xFF לא קודדו בטקסט UTF-8. אחרי שהגבלה זו יושמה, מספר הבתים הבלתי משומשים עלה ל־13 בתים: 0xC0, 0xC1 ו־0xF5-0xFF. למרות שפירושים חדשים אלה מגבילים את הקידוד הזמין מאוד, הבעיה עם רצפים ארוכים מדי (דרכים שונות לקידוד תו זהה, שיכול להיות בעיית אבטחה) מסולקת, בגלל שרצף ארוך מדי יכיל כמה מבתים אלה, שאין בהם שימוש ולכן הם לא רצף חוקי.