Уникод
от Уикипедия, свободната енциклопедия
Уникод или Универсален набор от символи (на английски, Unicode) е разработен да реши проблемите с наличието на много съществуващи еднобайтови набори от символи (кодировки), използвани при писане на текст на различни езици.
[редактиране] Сведения
Уникод (универсална кодировка) е набор от символи, създаден с цел е да съдържа всеки символ, използван при писане, на всички азбуки (включително и много мъртви езици) и други символи, използвани в математиката и инженерните науки.
Всеки знак или символ отговаря на определен номер в кодовата таблица, който се ползва примерно за изобразяване на символа в даден шрифт. Тъй като символите са няколко десетки хиляди и не е възможно да се представят в един байт, по специални правила (UTF) номерата на символите се трансформират в един, два, три или четири байта, за да могат да се ползват от компютрите.
- Обикновената латинска азбука, цифрите и основните препинателни знаци се изобразяват с един байт.
- Повечето диакритични латински букви, кирилицата, гръцката, арменската, еврейската, арабската и др. азбуки и някои знаци се представят с два байта.
- Други азбуки (африкански, азиатски, американски) и някои специални знаци се кодират с три или четири байта.
Всеки един от досегашните набори от символи, кодирани с един байт, може без загуба да бъде преобразуван към Уникод, при едно условие: да сме сигурни точно от кой набор (в коя кодировка) са символите. Обратното преобразуване, от Уникод към някоя от еднобайтовите кодировки, е еднозначно и безспорно за тези знаци, които съществуват в целевата кодировка. Но текстовете в универсалната кодировка могат да съдържат всякакви знаци и тогава не е възможно да се преобразуват коректно в някоя еднобайтова кодировка.
Например текст само на кирилица или само на чешка латиница (с диакритични знаци) се преобразуват без проблем от съответната кодировка към Уникод и обратно. Обаче текст в Уникод и с кирилски букви, и с латински диакритични знаци (букви с ударения и лигатури), не може да се преобразува изцяло: или кирилицата ще се загуби, или буквите с диакритични знаци, в зависимост от целевата кодировка.
Относно дължината на текстовете, поради кодирането на всеки знак с един до четири байта (вместо само с един), обикновено текстове в Уникод са с по-голяма дължина от същите текстове в старите еднобайтови кодировки.
[редактиране] Някои примери за практическо използване
- Страниците в Уикипедия са кодирани в Уникод и могат да съдържат символи от всички азбуки; читателят има нужда от браузър, отговарящ на стандартите (повечето браузъри, публикувани след 1999 поддържат Уникод) и съответния набор знаци в шрифтовете си.
- По-новите файлови системи като свободните ext3, ReiserFS, Reiser4, XFS и JFS, както и несвободната NTFS кодират файловите имена с Уникод. Тоест - ако дяловете на даден хард-диск са форматирани с тези файлови системи и са коректно прикачени, имената на файловете и папките могат да бъдат на всякакъв език и проблемът с повредени имена на файлове не се среща.
[редактиране] Външни препратки

