UTF-8: Разлика между версии

от Уикипедия, свободната енциклопедия
Изтрито е съдържание Добавено е съдържание
мРедакция без резюме
м месец; козметични промени
Ред 3: Ред 3:
Кодирането е с [[променлива ширина]] и използва [[8-битови]] кодови единици. Проектирано е, за да се поддържа [[обратна съвместимост]] с [[ASCII]] код и за да се избегнат усложненията с [[ендиани]] и [[маркери за последователността на байтовете]] при алтернативните [[UTF-16]]&nbsp;и [[UTF-32]] кодирания. Наименованието произлиза от: '''''U'''''niversal Coded Character Set +&nbsp;'''''T'''''ransformation&nbsp;'''''F'''''ormat'''—''8'''''-bit.<ref>„Chapter 2. General Structure“. [http://www.unicode.org/versions/Unicode6.0.0/ The Unicode Standard] (6.0 ed.). Mountain View, California, USA: [[The Unicode Consortium]]. [[Международен стандартен номер на книга|ISBN]] 978-1-936213-01-6.</ref>
Кодирането е с [[променлива ширина]] и използва [[8-битови]] кодови единици. Проектирано е, за да се поддържа [[обратна съвместимост]] с [[ASCII]] код и за да се избегнат усложненията с [[ендиани]] и [[маркери за последователността на байтовете]] при алтернативните [[UTF-16]]&nbsp;и [[UTF-32]] кодирания. Наименованието произлиза от: '''''U'''''niversal Coded Character Set +&nbsp;'''''T'''''ransformation&nbsp;'''''F'''''ormat'''—''8'''''-bit.<ref>„Chapter 2. General Structure“. [http://www.unicode.org/versions/Unicode6.0.0/ The Unicode Standard] (6.0 ed.). Mountain View, California, USA: [[The Unicode Consortium]]. [[Международен стандартен номер на книга|ISBN]] 978-1-936213-01-6.</ref>


UTF-8 е най-използваният стандарт за кодиране в [[Уеб|световната мрежа (World Wide Web)]]. Използван е при създаването на 86.6% от всички интернет страници към м. септември 2015 г.<ref>Davis, Mark&nbsp;(28 January 2010).&nbsp;[https://googleblog.blogspot.bg/2010/01/unicode-nearing-50-of-web.html "Unicode nearing 50% of the web"].&nbsp;''Official [[Гугъл|Google]] Blog''.&nbsp;Google. Retrieved&nbsp;5 December&nbsp;2010.</ref><ref>van der Poel, Erik (8 May 2008).&nbsp;[http://www.w3.org/QA/2008/05/utf8-web-growth#c139948 "utf-8 Growth On The Web (response)"].&nbsp;''W3C Blog''. W3C. Retrieved&nbsp;6 August&nbsp;2015.</ref><ref>[http://w3techs.com/technologies/overview/character_encoding/all "Usage Statistics of Character Encodings for Websites, (updated daily)"]. W3Techs. Retrieved&nbsp;18 September&nbsp;2015.</ref><ref>[http://trends.builtwith.com/encoding/UTF-8 "UTF-8 Usage Statistics"]. BuiltWith. Retrieved&nbsp;28 March&nbsp;2011.</ref>&nbsp;[[Internet_Mail_Consortium]] препоръчва във всички програми поддържащи електронна поща (e-mail) да бъде заложена възможност за изобразяване и създаване на електронни съобщения, използващи UTF-8 кодиране.<ref>[http://www.imc.org/mail-i18n.html "Using International Characters in Internet Mail"]. Internet Mail Consortium. 1 August 1998. Retrieved&nbsp;8 November&nbsp;2007.</ref>&nbsp;[[W3C]]&nbsp;препоръчва UTF-8 да бъде използвано като стандартно кодиране при работа с&nbsp;[[XML]]&nbsp;и [[HTML]].
UTF-8 е най-използваният стандарт за кодиране в [[Уеб|световната мрежа (World Wide Web)]]. Използван е при създаването на 86.6% от всички интернет страници към септември 2015 г.<ref>Davis, Mark&nbsp;(28 January 2010).&nbsp;[https://googleblog.blogspot.bg/2010/01/unicode-nearing-50-of-web.html "Unicode nearing 50% of the web"].&nbsp;''Official [[Гугъл|Google]] Blog''.&nbsp;Google. Retrieved&nbsp;5 December&nbsp;2010.</ref><ref>van der Poel, Erik (8 May 2008).&nbsp;[http://www.w3.org/QA/2008/05/utf8-web-growth#c139948 "utf-8 Growth On The Web (response)"].&nbsp;''W3C Blog''. W3C. Retrieved&nbsp;6 August&nbsp;2015.</ref><ref>[http://w3techs.com/technologies/overview/character_encoding/all "Usage Statistics of Character Encodings for Websites, (updated daily)"]. W3Techs. Retrieved&nbsp;18 September&nbsp;2015.</ref><ref>[http://trends.builtwith.com/encoding/UTF-8 "UTF-8 Usage Statistics"]. BuiltWith. Retrieved&nbsp;28 March&nbsp;2011.</ref>&nbsp;[[Internet Mail Consortium]] препоръчва във всички програми поддържащи електронна поща (e-mail) да бъде заложена възможност за изобразяване и създаване на електронни съобщения, използващи UTF-8 кодиране.<ref>[http://www.imc.org/mail-i18n.html "Using International Characters in Internet Mail"]. Internet Mail Consortium. 1 August 1998. Retrieved&nbsp;8 November&nbsp;2007.</ref>&nbsp;[[W3C]]&nbsp;препоръчва UTF-8 да бъде използвано като стандартно кодиране при работа с&nbsp;[[XML]]&nbsp;и [[HTML]].


Чрез UTF-8 се кодира всяка от 1 112 064 на брой валидни кодови точки в Unicode кодовото пространство (1 114 112 кодови точки общо минус 2 048 заместващи кодови точки), като се използват от един до четири 8-битови [[байт]]а (група от 8 бита се нарича октет при Unicode стандарта). Кодови точки с по-малки числови стойности (т.е. по-рано създадени кодови позиции в Unicode символното множество, които се очаква да бъдат използвани по-често) се кодират с по-малко на брой байтове. Първите 128 символа от Unicode, които съответстват на ASCII кода, се кодират с един октет със същата бинарна стойност както при ASCII кодирането, като по този начин всеки валиден ASCII текст в същото време е и валиден UTF-8-кодиран Unicode текст. При UTF-8, байтовете с бинарни стойности, използвани за кодиране на ASCII символи не се използват при кодирането на не-ASCII кодови точки. Поради тази причина UTF-8 кодирането може безопасно да се използва при повечето програмни езици и документи, които интерпретират определени ASCII символи по специфичен начин, например като обозначение за край на символен низ.
Чрез UTF-8 се кодира всяка от 1 112 064 на брой валидни кодови точки в Unicode кодовото пространство (1 114 112 кодови точки общо минус 2 048 заместващи кодови точки), като се използват от един до четири 8-битови [[байт]]а (група от 8 бита се нарича октет при Unicode стандарта). Кодови точки с по-малки числови стойности (т.е. по-рано създадени кодови позиции в Unicode символното множество, които се очаква да бъдат използвани по-често) се кодират с по-малко на брой байтове. Първите 128 символа от Unicode, които съответстват на ASCII кода, се кодират с един октет със същата бинарна стойност както при ASCII кодирането, като по този начин всеки валиден ASCII текст в същото време е и валиден UTF-8-кодиран Unicode текст. При UTF-8, байтовете с бинарни стойности, използвани за кодиране на ASCII символи не се използват при кодирането на не-ASCII кодови точки. Поради тази причина UTF-8 кодирането може безопасно да се използва при повечето програмни езици и документи, които интерпретират определени ASCII символи по специфичен начин, например като обозначение за край на символен низ.


== Източници ==
== Източници ==
<references group="The Unicode Consortium. Chapter 2. General Structure. // The Unicode Standard. 6.0. Mountain View, California, USA, The Unicode Consortium. ISBN 978-1-936213-01-6.. RFC 3629 also refers to UTF-8 as &quot;UCS transformation format&quot;. Also commonly known as &quot;Unicode Transformation Format&quot;." />[[Категория:Системи за кодиране]]
<references group="The Unicode Consortium. Chapter 2. General Structure. // The Unicode Standard. 6.0. Mountain View, California, USA, The Unicode Consortium. ISBN 978-1-936213-01-6.. RFC 3629 also refers to UTF-8 as "UCS transformation format". Also commonly known as "Unicode Transformation Format"." />

<references />{{Превод от|en|UTF-8|690644320}}
<references />{{Превод от|en|UTF-8|690644320}}

[[Категория:Системи за кодиране]]

Версия от 04:17, 25 август 2018

UTF-8 (Шаблон:Lang-en) е стандарт за символно кодиране. Чрез UTF-8 може да бъде кодиран всеки символ или кодова точка в Unicode символното множество. Той е създаден от Роб Пайк и Кен Томпсън.

Кодирането е с променлива ширина и използва 8-битови кодови единици. Проектирано е, за да се поддържа обратна съвместимост с ASCII код и за да се избегнат усложненията с ендиани и маркери за последователността на байтовете при алтернативните UTF-16 и UTF-32 кодирания. Наименованието произлиза от: Universal Coded Character Set + Transformation Format8-bit.[1]

UTF-8 е най-използваният стандарт за кодиране в световната мрежа (World Wide Web). Използван е при създаването на 86.6% от всички интернет страници към септември 2015 г.[2][3][4][5] Internet Mail Consortium препоръчва във всички програми поддържащи електронна поща (e-mail) да бъде заложена възможност за изобразяване и създаване на електронни съобщения, използващи UTF-8 кодиране.[6] W3C препоръчва UTF-8 да бъде използвано като стандартно кодиране при работа с XML и HTML.

Чрез UTF-8 се кодира всяка от 1 112 064 на брой валидни кодови точки в Unicode кодовото пространство (1 114 112 кодови точки общо минус 2 048 заместващи кодови точки), като се използват от един до четири 8-битови байта (група от 8 бита се нарича октет при Unicode стандарта). Кодови точки с по-малки числови стойности (т.е. по-рано създадени кодови позиции в Unicode символното множество, които се очаква да бъдат използвани по-често) се кодират с по-малко на брой байтове. Първите 128 символа от Unicode, които съответстват на ASCII кода, се кодират с един октет със същата бинарна стойност както при ASCII кодирането, като по този начин всеки валиден ASCII текст в същото време е и валиден UTF-8-кодиран Unicode текст. При UTF-8, байтовете с бинарни стойности, използвани за кодиране на ASCII символи не се използват при кодирането на не-ASCII кодови точки. Поради тази причина UTF-8 кодирането може безопасно да се използва при повечето програмни езици и документи, които интерпретират определени ASCII символи по специфичен начин, например като обозначение за край на символен низ.

Източници

Грешка при цитиране: Невалиден параметър на таг <references>.

  1. „Chapter 2. General Structure“. The Unicode Standard (6.0 ed.). Mountain View, California, USA: The Unicode Consortium. ISBN 978-1-936213-01-6.
  2. Davis, Mark (28 January 2010). "Unicode nearing 50% of the web"Official Google Blog. Google. Retrieved 5 December 2010.
  3. van der Poel, Erik (8 May 2008). "utf-8 Growth On The Web (response)"W3C Blog. W3C. Retrieved 6 August 2015.
  4. "Usage Statistics of Character Encodings for Websites, (updated daily)". W3Techs. Retrieved 18 September 2015.
  5. "UTF-8 Usage Statistics". BuiltWith. Retrieved 28 March 2011.
  6. "Using International Characters in Internet Mail". Internet Mail Consortium. 1 August 1998. Retrieved 8 November 2007.
  Тази страница частично или изцяло представлява превод на страницата UTF-8 в Уикипедия на английски. Оригиналният текст, както и този превод, са защитени от Лиценза „Криейтив Комънс – Признание – Споделяне на споделеното“, а за съдържание, създадено преди юни 2009 година – от Лиценза за свободна документация на ГНУ. Прегледайте историята на редакциите на оригиналната страница, както и на преводната страница, за да видите списъка на съавторите. ​

ВАЖНО: Този шаблон се отнася единствено до авторските права върху съдържанието на статията. Добавянето му не отменя изискването да се посочват конкретни източници на твърденията, които да бъдат благонадеждни.​