UTF-8: Разлика между версии

от Уикипедия, свободната енциклопедия
Изтрито е съдържание Добавено е съдържание
Редакция без резюме
BotNinja (беседа | приноси)
м форматиране: 1x А|А(Б)
Ред 5: Ред 5:
UTF-8 е най-използваният стандарт за кодиране в [[Уеб|световната мрежа (World Wide Web)]]. Използван е при създаването на 86.6% от всички интернет страници към м. септември 2015 год.<ref>[[:en:Mark_Davis_(Unicode)|Davis, Mark]]&nbsp;(28 January 2010).&nbsp;[https://googleblog.blogspot.bg/2010/01/unicode-nearing-50-of-web.html "Unicode nearing 50% of the web"].&nbsp;''Official [[Гугъл|Google]] Blog''.&nbsp;Google. Retrieved&nbsp;5 December&nbsp;2010.</ref><ref>van der Poel, Erik (8 May 2008).&nbsp;[http://www.w3.org/QA/2008/05/utf8-web-growth#c139948 "utf-8 Growth On The Web (response)"].&nbsp;''W3C Blog''. W3C. Retrieved&nbsp;6 August&nbsp;2015.</ref><ref>[http://w3techs.com/technologies/overview/character_encoding/all "Usage Statistics of Character Encodings for Websites, (updated daily)"]. W3Techs. Retrieved&nbsp;18 September&nbsp;2015.</ref><ref>[http://trends.builtwith.com/encoding/UTF-8 "UTF-8 Usage Statistics"]. BuiltWith. Retrieved&nbsp;28 March&nbsp;2011.</ref>&nbsp;[[:en:Internet_Mail_Consortium|The&nbsp;Internet Mail Consortium&nbsp;(IMC)]] препоръчва във всички програми поддържащи електронна поща (e-mail) да бъде заложена възможност за изобразяване и създаване на електронни съобщения, използващи UTF-8 кодиране.<ref>[http://www.imc.org/mail-i18n.html "Using International Characters in Internet Mail"]. Internet Mail Consortium. 1 August 1998. Retrieved&nbsp;8 November&nbsp;2007.</ref>&nbsp;[[:en:World_Wide_Web_Consortium|W3C]]&nbsp;препоръчва UTF-8 да бъде използвано като стандартно кодиране при работа с&nbsp;[[XML]]&nbsp;и [[HTML]].
UTF-8 е най-използваният стандарт за кодиране в [[Уеб|световната мрежа (World Wide Web)]]. Използван е при създаването на 86.6% от всички интернет страници към м. септември 2015 год.<ref>[[:en:Mark_Davis_(Unicode)|Davis, Mark]]&nbsp;(28 January 2010).&nbsp;[https://googleblog.blogspot.bg/2010/01/unicode-nearing-50-of-web.html "Unicode nearing 50% of the web"].&nbsp;''Official [[Гугъл|Google]] Blog''.&nbsp;Google. Retrieved&nbsp;5 December&nbsp;2010.</ref><ref>van der Poel, Erik (8 May 2008).&nbsp;[http://www.w3.org/QA/2008/05/utf8-web-growth#c139948 "utf-8 Growth On The Web (response)"].&nbsp;''W3C Blog''. W3C. Retrieved&nbsp;6 August&nbsp;2015.</ref><ref>[http://w3techs.com/technologies/overview/character_encoding/all "Usage Statistics of Character Encodings for Websites, (updated daily)"]. W3Techs. Retrieved&nbsp;18 September&nbsp;2015.</ref><ref>[http://trends.builtwith.com/encoding/UTF-8 "UTF-8 Usage Statistics"]. BuiltWith. Retrieved&nbsp;28 March&nbsp;2011.</ref>&nbsp;[[:en:Internet_Mail_Consortium|The&nbsp;Internet Mail Consortium&nbsp;(IMC)]] препоръчва във всички програми поддържащи електронна поща (e-mail) да бъде заложена възможност за изобразяване и създаване на електронни съобщения, използващи UTF-8 кодиране.<ref>[http://www.imc.org/mail-i18n.html "Using International Characters in Internet Mail"]. Internet Mail Consortium. 1 August 1998. Retrieved&nbsp;8 November&nbsp;2007.</ref>&nbsp;[[:en:World_Wide_Web_Consortium|W3C]]&nbsp;препоръчва UTF-8 да бъде използвано като стандартно кодиране при работа с&nbsp;[[XML]]&nbsp;и [[HTML]].


Чрез UTF-8 се кодира всяка от 1 112 064 на брой валидни кодови точки в Unicode кодовото пространство (1 114 112 кодови точки общо минус 2 048 заместващи кодови точки), като се използват от един до четири 8-битови [[Байт|байта]] (група от 8 бита се нарича октет ([[:en:Octet_(computing)|octet]]) при Unicode стандарта). Кодови точки с по-малки числови стойности (т.е. по-рано създадени кодови позиции в Unicode символното множество, които се очаква да бъдат използвани по-често) се кодират с по-малко на брой байтове. Първите 128 символа от Unicode, които съответстват на ASCII кода, се кодират с един октет със същата бинарна стойност както при ASCII кодирането, като по този начин всеки валиден ASCII текст в същото време е и валиден UTF-8-кодиран Unicode текст. При UTF-8, байтовете с бинарни стойности, използвани за кодиране на ASCII символи не се използват при кодирането на не-ASCII кодови точки. Поради тази причина UTF-8 кодирането може безопасно да се използва при повечето програмни езици и документи, които интерпретират определени ASCII символи по специфичен начин, например като обозначение за край на символен низ.
Чрез UTF-8 се кодира всяка от 1 112 064 на брой валидни кодови точки в Unicode кодовото пространство (1 114 112 кодови точки общо минус 2 048 заместващи кодови точки), като се използват от един до четири 8-битови [[байт]]а (група от 8 бита се нарича октет ([[:en:Octet_(computing)|octet]]) при Unicode стандарта). Кодови точки с по-малки числови стойности (т.е. по-рано създадени кодови позиции в Unicode символното множество, които се очаква да бъдат използвани по-често) се кодират с по-малко на брой байтове. Първите 128 символа от Unicode, които съответстват на ASCII кода, се кодират с един октет със същата бинарна стойност както при ASCII кодирането, като по този начин всеки валиден ASCII текст в същото време е и валиден UTF-8-кодиран Unicode текст. При UTF-8, байтовете с бинарни стойности, използвани за кодиране на ASCII символи не се използват при кодирането на не-ASCII кодови точки. Поради тази причина UTF-8 кодирането може безопасно да се използва при повечето програмни езици и документи, които интерпретират определени ASCII символи по специфичен начин, например като обозначение за край на символен низ.


== Източници ==
== Източници ==

Версия от 15:24, 22 септември 2016

UTF-8 (Шаблон:Lang-en) е стандарт за символно кодиране. Чрез UTF-8 може да бъде кодиран всеки символ или кодова точка (code point) в Unicode символното множество. Той е създаден от Роб Пайк и Кен Томпсън.

Кодирането е с променлива ширина (variable-length) и използва 8-битови (8-bit) кодови единици. Проектирано е, за да се поддържа обратна съвместимост (backward compatibility) с ASCII код и за да се избегнат усложненията с ендиани (endianness) и маркери за последователността на байтовете (byte order marks) при алтернативните UTF-16 и UTF-32 кодирания. Наименованието произлиза от: Universal Coded Character Set + Transformation Format8-bit.[1]

UTF-8 е най-използваният стандарт за кодиране в световната мрежа (World Wide Web). Използван е при създаването на 86.6% от всички интернет страници към м. септември 2015 год.[2][3][4][5] The Internet Mail Consortium (IMC) препоръчва във всички програми поддържащи електронна поща (e-mail) да бъде заложена възможност за изобразяване и създаване на електронни съобщения, използващи UTF-8 кодиране.[6] W3C препоръчва UTF-8 да бъде използвано като стандартно кодиране при работа с XML и HTML.

Чрез UTF-8 се кодира всяка от 1 112 064 на брой валидни кодови точки в Unicode кодовото пространство (1 114 112 кодови точки общо минус 2 048 заместващи кодови точки), като се използват от един до четири 8-битови байта (група от 8 бита се нарича октет (octet) при Unicode стандарта). Кодови точки с по-малки числови стойности (т.е. по-рано създадени кодови позиции в Unicode символното множество, които се очаква да бъдат използвани по-често) се кодират с по-малко на брой байтове. Първите 128 символа от Unicode, които съответстват на ASCII кода, се кодират с един октет със същата бинарна стойност както при ASCII кодирането, като по този начин всеки валиден ASCII текст в същото време е и валиден UTF-8-кодиран Unicode текст. При UTF-8, байтовете с бинарни стойности, използвани за кодиране на ASCII символи не се използват при кодирането на не-ASCII кодови точки. Поради тази причина UTF-8 кодирането може безопасно да се използва при повечето програмни езици и документи, които интерпретират определени ASCII символи по специфичен начин, например като обозначение за край на символен низ.

Източници


  1. "Chapter 2. General Structure". The Unicode Standard (6.0 ed.). Mountain View, California, USA: The Unicode Consortium. ISBN 978-1-936213-01-6.
  2. Davis, Mark (28 January 2010). "Unicode nearing 50% of the web"Official Google Blog. Google. Retrieved 5 December 2010.
  3. van der Poel, Erik (8 May 2008). "utf-8 Growth On The Web (response)"W3C Blog. W3C. Retrieved 6 August 2015.
  4. "Usage Statistics of Character Encodings for Websites, (updated daily)". W3Techs. Retrieved 18 September 2015.
  5. "UTF-8 Usage Statistics". BuiltWith. Retrieved 28 March 2011.
  6. "Using International Characters in Internet Mail". Internet Mail Consortium. 1 August 1998. Retrieved 8 November 2007.
  Тази страница частично или изцяло представлява превод на страницата UTF-8 в Уикипедия на английски. Оригиналният текст, както и този превод, са защитени от Лиценза „Криейтив Комънс – Признание – Споделяне на споделеното“, а за съдържание, създадено преди юни 2009 година – от Лиценза за свободна документация на ГНУ. Прегледайте историята на редакциите на оригиналната страница, както и на преводната страница, за да видите списъка на съавторите. ​

ВАЖНО: Този шаблон се отнася единствено до авторските права върху съдържанието на статията. Добавянето му не отменя изискването да се посочват конкретни източници на твърденията, които да бъдат благонадеждни.​