UTF-8: Разлика между версии

от Уикипедия, свободната енциклопедия
Изтрито е съдържание Добавено е съдържание
Aababbyy (беседа | приноси)
Редакция без резюме
Aababbyy (беседа | приноси)
Редакция без резюме
Ред 3: Ред 3:
Кодирането е с променлива ширина и използва 8-битови кодови единици. Проектирано е за да се поддържа обратна съвместимост с ASCII код и за да се избегнат усложнения с последователността на байтове, съдържащи една дигитална дума в компютърната памет при алтернативните UTF-16 и UTF-32 кодирания. Наименованието произлиза от ''U''niversal Coded Character Set + ''T''ransformation ''F''ormat—''8''-bit.<ref>"Chapter 2. General Structure". [http://www.unicode.org/versions/Unicode6.0.0/ The Unicode Standard] (6.0 ed.). Mountain View, California, USA: [[:en:Unicode_Consortium|The Unicode Consortium]]. [[Международен стандартен номер на книга|ISBN]] [[:en:Special:BookSources/978-1-936213-01-6|978-1-936213-01-6]].</ref>
Кодирането е с променлива ширина и използва 8-битови кодови единици. Проектирано е за да се поддържа обратна съвместимост с ASCII код и за да се избегнат усложнения с последователността на байтове, съдържащи една дигитална дума в компютърната памет при алтернативните UTF-16 и UTF-32 кодирания. Наименованието произлиза от ''U''niversal Coded Character Set + ''T''ransformation ''F''ormat—''8''-bit.<ref>"Chapter 2. General Structure". [http://www.unicode.org/versions/Unicode6.0.0/ The Unicode Standard] (6.0 ed.). Mountain View, California, USA: [[:en:Unicode_Consortium|The Unicode Consortium]]. [[Международен стандартен номер на книга|ISBN]] [[:en:Special:BookSources/978-1-936213-01-6|978-1-936213-01-6]].</ref>


UTF-8 е най-използваният стандарт за кодиране в [[Уеб|световната мрежа (World Wide Web)]]. Използван е при създаването на 85.1% от всички интернет страници към м. септември 2015 год.<sup>[4][2][5]</sup> [[:en:Internet_Mail_Consortium|The Internet Mail Consortium (IMC)]] препоръчва във всички програми поддържащи електронна поща (e-mail) да бъде заложена възможност за изобразяване и създаване на електронни съобщения, използващи UTF-8 кодиране.<sup>[6]</sup> [[:en:World_Wide_Web_Consortium|W3C]] препоръчва UTF-8 като стандартно кодиране при [[XML]] и [[HTML]].
UTF-8 е най-използваният стандарт за кодиране в [[Уеб|световната мрежа (World Wide Web)]]. Използван е при създаването на 85.1% от всички интернет страници към м. септември 2015 год.<sup>[4][2][5]</sup> [[:en:Internet_Mail_Consortium|The Internet Mail Consortium (IMC)]] препоръчва във всички програми поддържащи електронна поща (e-mail) да бъде заложена възможност за изобразяване и създаване на електронни съобщения, използващи UTF-8 кодиране.<sup>[6]</sup> [[:en:World_Wide_Web_Consortium|W3C]] препоръчва UTF-8 да бъде използвано като стандартно кодиране при работа с [[XML]] и [[HTML]].


Чрез UTF-8 се кодира всяка от 1 112 064 на брой валидни кодови точки в Unicode кодовото пространство (1 114 112 кодови точки общо минус 2 048 заместващи кодови точки), като се използват от един до четири 8-битови байта (група от 8 бита се нарича октет при Unicode стандарта). Кодови точки с по-малки числови стойности (т.е. по-рано създадени кодови позиции в Unicode символното множество, които се очаква да бъдат използвани по-често) се кодират с по-малко байтове. Първите 128 символа от Unicode, които съответстват на [[ASCII]] кода, се кодират с един октет със същата бинарна стойност както при ASCII кодирането, като по този начин всеки валиден ASCII текст в същото време е и валиден UTF-8-кодиран Unicode текст. При UTF-8, байтовете с бинарни стойности, използвани за кодиране на ASCII символи не се използват при кодирането на не-ASCII кодови точки и поради тази причина UTF-8 кодирането може безопасно да се използва при повечето програмни езици и документи, които обработват ASCII символи.
Чрез UTF-8 се кодира всяка от 1 112 064 на брой валидни кодови точки в Unicode кодовото пространство (1 114 112 кодови точки общо минус 2 048 заместващи кодови точки), като се използват от един до четири 8-битови байта (група от 8 бита се нарича октет при Unicode стандарта). Кодови точки с по-малки числови стойности (т.е. по-рано създадени кодови позиции в Unicode символното множество, които се очаква да бъдат използвани по-често) се кодират с по-малко байтове. Първите 128 символа от Unicode, които съответстват на [[ASCII]] кода, се кодират с един октет със същата бинарна стойност както при ASCII кодирането, като по този начин всеки валиден ASCII текст в същото време е и валиден UTF-8-кодиран Unicode текст. При UTF-8, байтовете с бинарни стойности, използвани за кодиране на ASCII символи не се използват при кодирането на не-ASCII кодови точки и поради тази причина UTF-8 кодирането може безопасно да се използва при повечето програмни езици и документи, които обработват ASCII символи.

Версия от 14:13, 19 ноември 2015

UTF-8 (Шаблон:Lang-en) е стандарт за символно кодиране, което представя всеки символ или кодова точка в Unicode символното множество. Той е създаден от Роб Пайк и Кен Томпсън.

Кодирането е с променлива ширина и използва 8-битови кодови единици. Проектирано е за да се поддържа обратна съвместимост с ASCII код и за да се избегнат усложнения с последователността на байтове, съдържащи една дигитална дума в компютърната памет при алтернативните UTF-16 и UTF-32 кодирания. Наименованието произлиза от Universal Coded Character Set + Transformation Format—8-bit.[1]

UTF-8 е най-използваният стандарт за кодиране в световната мрежа (World Wide Web). Използван е при създаването на 85.1% от всички интернет страници към м. септември 2015 год.[4][2][5] The Internet Mail Consortium (IMC) препоръчва във всички програми поддържащи електронна поща (e-mail) да бъде заложена възможност за изобразяване и създаване на електронни съобщения, използващи UTF-8 кодиране.[6] W3C препоръчва UTF-8 да бъде използвано като стандартно кодиране при работа с XML и HTML.

Чрез UTF-8 се кодира всяка от 1 112 064 на брой валидни кодови точки в Unicode кодовото пространство (1 114 112 кодови точки общо минус 2 048 заместващи кодови точки), като се използват от един до четири 8-битови байта (група от 8 бита се нарича октет при Unicode стандарта). Кодови точки с по-малки числови стойности (т.е. по-рано създадени кодови позиции в Unicode символното множество, които се очаква да бъдат използвани по-често) се кодират с по-малко байтове. Първите 128 символа от Unicode, които съответстват на ASCII кода, се кодират с един октет със същата бинарна стойност както при ASCII кодирането, като по този начин всеки валиден ASCII текст в същото време е и валиден UTF-8-кодиран Unicode текст. При UTF-8, байтовете с бинарни стойности, използвани за кодиране на ASCII символи не се използват при кодирането на не-ASCII кодови точки и поради тази причина UTF-8 кодирането може безопасно да се използва при повечето програмни езици и документи, които обработват ASCII символи.

Източници

  1. "Chapter 2. General Structure". The Unicode Standard (6.0 ed.). Mountain View, California, USA: The Unicode Consortium. ISBN 978-1-936213-01-6.