UTF-8: Разлика между версии

от Уикипедия, свободната енциклопедия
Изтрито е съдържание Добавено е съдържание
Редакция без резюме
Aababbyy (беседа | приноси)
Редакция без резюме
Ред 1: Ред 1:
'''UTF-8''' ({{lang-en|8-bit '''Unicode Transformation Format''' или 8-bit '''[[UCS]] Transformation Format'''<ref>{{Cite book|author=[http://www.unicode.org/ The Unicode Consortium]| title=The Unicode Standard| url=http://www.unicode.org/versions/Unicode6.0.0/|edition=6.0| publisher=The Unicode Consortium| location=Mountain View, California, USA| isbn=978-1-936213-01-6| chapter=Chapter 2. General Structure}}. RFC 3629 also refers to UTF-8 as "UCS transformation format". Also commonly known as "Unicode Transformation Format".</ref>}}) е [[символно кодиране]] с променлива ширина, което може да представя всеки [[символ (PC)|символ]] в [[Unicode]] символното множество. Той е създаден от [[Роб Пайк]] и [[Кен Томпсън]].
'''UTF-8''' ({{lang-en|8-bit '''Unicode Transformation Format''' или 8-bit '''[[UCS]] Transformation Format'''<ref>{{Cite book|author=[http://www.unicode.org/ The Unicode Consortium]| title=The Unicode Standard| url=http://www.unicode.org/versions/Unicode6.0.0/|edition=6.0| publisher=The Unicode Consortium| location=Mountain View, California, USA| isbn=978-1-936213-01-6| chapter=Chapter 2. General Structure}}. RFC 3629 also refers to UTF-8 as "UCS transformation format". Also commonly known as "Unicode Transformation Format".</ref>}}) е [[символно кодиране]] с променлива ширина, което може да представя всеки [[символ (PC)|символ]] в [[Unicode]] символното множество. Той е създаден от [[Роб Пайк]] и [[Кен Томпсън]].

'''UTF-8''' ({{lang-en|8-bit '''Unicode Transformation Format''' или 8-bit '''[[UCS]] Transformation Format'''<ref>{{Cite book|author=[http://www.unicode.org/ The Unicode Consortium]| title=The Unicode Standard| url=http://www.unicode.org/versions/Unicode6.0.0/|edition=6.0| publisher=The Unicode Consortium| location=Mountain View, California, USA| isbn=978-1-936213-01-6| chapter=Chapter 2. General Structure}}. RFC 3629 also refers to UTF-8 as "UCS transformation format". Also commonly known as "Unicode Transformation Format".</ref>}}) е [[символно кодиране]], което може да представя всеки [[символ (PC)|символ]] или [[:en:Code_point|кодова точка]] в [[Unicode]] символното множество. Той е създаден от [[Роб Пайк]] и [[Кен Томпсън]].

Кодирането е с променлива ширина и използва 8-битови кодови единици. Проектирано е за да се поддържа обратна съвместимост с ASCII кодирането и за да се избегнат усложнения с реда на байтовете, съдържащи една дигитална дума в компютърната памет при алтернативните UTF-16 и UTF-32 кодирания. Наименованието произлиза от ''U''niversal Coded Character Set + ''T''ransformation ''F''ormat—''8''-bit.<sup>[1]</sup>

UTF-8 е преобладаващо кодиране за [[Уеб|световната мрежа (World Wide Web)]]. Използвано е при създаването на 85.1% от всички интернет страници към м. септември 2015 год.<sup>[4][2][5]</sup> [[:en:Internet_Mail_Consortium|The Internet Mail Consortium (IMC)]] препоръчва във всички програми за електронна поща да бъде заложена възможност за изобразяване и създаване на електронни съобщения, използващи UTF-8 кодиране.<sup>[6]</sup> [[:en:World_Wide_Web_Consortium|W3C]] препоръчва UTF-8 като стандартно кодиране при [[XML]] и [[HTML]].

Чрез UTF-8 се кодира всяка от 1 112 064 на брой валидни кодови точки в Unicode кодовото пространство (1 114 112 кодови точки общо минус 2 048 заместващи кодови точки), като се използват от един до четири 8-битови байта (група от 8 бита се нарича октет при Unicode стандарта). Кодови точки с по-малки числови стойности (т.е. по-ранни кодови позиции)

Code points with lower numerical values (i.e., earlier code positions in the Unicode character set, which tend to occur more frequently) are encoded using fewer bytes. The first 128 characters of Unicode, which correspond one-to-one with ASCII, are encoded using a single octet with the same binary value as ASCII, making valid ASCII text valid UTF-8-encoded Unicode as well. And ASCII bytes do not occur when encoding non-ASCII code points into UTF-8, making UTF-8 safe to use within most programming and document languages that interpret certain ASCII characters in a special way, e.g. as end of string.

The official IANA code for the UTF-8 character encoding is <code>UTF-8</code>.<sup>[7]</sup>


== Източници ==
== Източници ==

Версия от 12:17, 19 ноември 2015

UTF-8 (Шаблон:Lang-en) е символно кодиране с променлива ширина, което може да представя всеки символ в Unicode символното множество. Той е създаден от Роб Пайк и Кен Томпсън.

UTF-8 (Шаблон:Lang-en) е символно кодиране, което може да представя всеки символ или кодова точка в Unicode символното множество. Той е създаден от Роб Пайк и Кен Томпсън.

Кодирането е с променлива ширина и използва 8-битови кодови единици. Проектирано е за да се поддържа обратна съвместимост с ASCII кодирането и за да се избегнат усложнения с реда на байтовете, съдържащи една дигитална дума в компютърната памет при алтернативните UTF-16 и UTF-32 кодирания. Наименованието произлиза от Universal Coded Character Set + Transformation Format—8-bit.[1]

UTF-8 е преобладаващо кодиране за световната мрежа (World Wide Web). Използвано е при създаването на 85.1% от всички интернет страници към м. септември 2015 год.[4][2][5] The Internet Mail Consortium (IMC) препоръчва във всички програми за електронна поща да бъде заложена възможност за изобразяване и създаване на електронни съобщения, използващи UTF-8 кодиране.[6] W3C препоръчва UTF-8 като стандартно кодиране при XML и HTML.

Чрез UTF-8 се кодира всяка от 1 112 064 на брой валидни кодови точки в Unicode кодовото пространство (1 114 112 кодови точки общо минус 2 048 заместващи кодови точки), като се използват от един до четири 8-битови байта (група от 8 бита се нарича октет при Unicode стандарта). Кодови точки с по-малки числови стойности (т.е. по-ранни кодови позиции)

Code points with lower numerical values (i.e., earlier code positions in the Unicode character set, which tend to occur more frequently) are encoded using fewer bytes. The first 128 characters of Unicode, which correspond one-to-one with ASCII, are encoded using a single octet with the same binary value as ASCII, making valid ASCII text valid UTF-8-encoded Unicode as well. And ASCII bytes do not occur when encoding non-ASCII code points into UTF-8, making UTF-8 safe to use within most programming and document languages that interpret certain ASCII characters in a special way, e.g. as end of string.

The official IANA code for the UTF-8 character encoding is UTF-8.[7]

Източници