UTF-8: Разлика между версии

Изтрито е съдържание Добавено е съдържание

Линейно

Версия от 18:35, 27 февруари 2019

UTF-8 (на английски: 8-bit Unicode Transformation Format или 8-bit UCS Transformation Format^[1]) е стандарт за символно кодиране. Чрез UTF-8 може да бъде кодиран всеки символ или кодова точка в Unicode символното множество. Той е създаден от Роб Пайк и Кен Томпсън.

Кодирането е с променлива ширина и използва 8-битови кодови единици. Проектирано е, за да се поддържа обратна съвместимост с ASCII код и за да се избегнат усложненията с ендиани и маркери за последователността на байтовете при алтернативните UTF-16 и UTF-32 кодирания. Наименованието произлиза от: Universal Coded Character Set + Transformation Format—8-bit.^[2]

UTF-8 е най-използваният стандарт за кодиране в световната мрежа (World Wide Web). Използван е при създаването на 86.6% от всички интернет страници към септември 2015 г.^[3]^[4]^[5]^[6] Internet Mail Consortium препоръчва във всички програми поддържащи електронна поща (e-mail) да бъде заложена възможност за изобразяване и създаване на електронни съобщения, използващи UTF-8 кодиране.^[7] W3C препоръчва UTF-8 да бъде използвано като стандартно кодиране при работа с XML и HTML.

Чрез UTF-8 се кодира всяка от 1 112 064 на брой валидни кодови точки в Unicode кодовото пространство (1 114 112 кодови точки общо минус 2 048 заместващи кодови точки), като се използват от един до четири 8-битови байта (група от 8 бита се нарича октет при Unicode стандарта). Кодови точки с по-малки числови стойности (т.е. по-рано създадени кодови позиции в Unicode символното множество, които се очаква да бъдат използвани по-често) се кодират с по-малко на брой байтове. Първите 128 символа от Unicode, които съответстват на ASCII кода, се кодират с един октет със същата бинарна стойност както при ASCII кодирането, като по този начин всеки валиден ASCII текст в същото време е и валиден UTF-8-кодиран Unicode текст. При UTF-8, байтовете с бинарни стойности, използвани за кодиране на ASCII символи не се използват при кодирането на не-ASCII кодови точки. Поради тази причина UTF-8 кодирането може безопасно да се използва при повечето програмни езици и документи, които интерпретират определени ASCII символи по специфичен начин, например като обозначение за край на символен низ.

Източници

↑ The Unicode Consortium. Chapter 2. General Structure // The Unicode Standard. 6.0. Mountain View, California, USA, The Unicode Consortium. ISBN 978-1-936213-01-6.. RFC 3629 also refers to UTF-8 as „UCS transformation format“. Also commonly known as „Unicode Transformation Format“.
↑ „Chapter 2. General Structure“. The Unicode Standard (6.0 ed.). Mountain View, California, USA: The Unicode Consortium. ISBN 978-1-936213-01-6.
↑ Davis, Mark (28 януари 2010). "Unicode nearing 50% of the web". Official Google Blog. Google. Посетен на 5 декември 2010.
↑ van der Poel, Erik (8 May 2008). "utf-8 Growth On The Web (response)". W3C Blog. W3C. Посетен на 6 август 2015.
↑ "Usage Statistics of Character Encodings for Websites, (updated daily)". W3Techs. Посетен на 18 септември 2015.
↑ "UTF-8 Usage Statistics". BuiltWith. Посетен на 28 март 2011.
↑ "Using International Characters in Internet Mail". Internet Mail Consortium. 1 август 1998. Посетен на 8 ноември 2007.

Тази страница частично или изцяло представлява превод на страницата UTF-8 в Уикипедия на английски. Оригиналният текст, както и този превод, са защитени от Лиценза „Криейтив Комънс – Признание – Споделяне на споделеното“, а за съдържание, създадено преди юни 2009 година – от Лиценза за свободна документация на ГНУ. Прегледайте историята на редакциите на оригиналната страница, както и на преводната страница, за да видите списъка на съавторите.

ВАЖНО: Този шаблон се отнася единствено до авторските права върху съдържанието на статията. Добавянето му не отменя изискването да се посочват конкретни източници на твърденията, които да бъдат благонадеждни.

[1] The Unicode Consortium. Chapter 2. General Structure // The Unicode Standard. 6.0. Mountain View, California, USA, The Unicode Consortium. ISBN 978-1-936213-01-6.. RFC 3629 also refers to UTF-8 as „UCS transformation format“. Also commonly known as „Unicode Transformation Format“.

[2] „Chapter 2. General Structure“. The Unicode Standard (6.0 ed.). Mountain View, California, USA: The Unicode Consortium. ISBN 978-1-936213-01-6.

[3] Davis, Mark (28 януари 2010). "Unicode nearing 50% of the web". Official Google Blog. Google. Посетен на 5 декември 2010.

[4] van der Poel, Erik (8 May 2008). "utf-8 Growth On The Web (response)". W3C Blog. W3C. Посетен на 6 август 2015.

[5] "Usage Statistics of Character Encodings for Websites, (updated daily)". W3Techs. Посетен на 18 септември 2015.

[6] "UTF-8 Usage Statistics". BuiltWith. Посетен на 28 март 2011.

[7] "Using International Characters in Internet Mail". Internet Mail Consortium. 1 август 1998. Посетен на 8 ноември 2007.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Версия от 21:10, 21 февруари 2019 редактиране Vodnokon4e (беседа \| приноси) Автоматично патрулирани, Администратори 131 828 редакции мРедакция без резюме ← По-стара редакция		Версия от 18:35, 27 февруари 2019 редактиране връщане BotNinja (беседа \| приноси) Ботове 562 695 редакции {{lang-en}} => {{lang\|en}} По-нова редакция →
Ред 1:		Ред 1:
	'''UTF-8''' ({{lang-en\|8-bit '''Unicode Transformation Format''' или 8-bit '''[[UCS]] Transformation Format'''<ref>{{Cite book\|author=[http://www.unicode.org/ The Unicode Consortium]\| title=The Unicode Standard\| url=http://www.unicode.org/versions/Unicode6.0.0/\|edition=6.0\| publisher=The Unicode Consortium\| location=Mountain View, California, USA\| isbn=978-1-936213-01-6\| chapter=Chapter 2. General Structure}}. RFC 3629 also refers to UTF-8 as „UCS transformation format“. Also commonly known as „Unicode Transformation Format“.</ref>}}) е стандарт за [[символно кодиране]]. Чрез UTF-8 може да бъде кодиран всеки [[символ (PC)\|символ]] или кодова точка в [[Unicode]] символното множество. Той е създаден от [[Роб Пайк]] и [[Кен Томпсън]].		'''UTF-8''' ({{lang\|en\|8-bit '''Unicode Transformation Format''' или 8-bit '''[[UCS]] Transformation Format'''<ref>{{Cite book\|author=[http://www.unicode.org/ The Unicode Consortium]\| title=The Unicode Standard\| url=http://www.unicode.org/versions/Unicode6.0.0/\|edition=6.0\| publisher=The Unicode Consortium\| location=Mountain View, California, USA\| isbn=978-1-936213-01-6\| chapter=Chapter 2. General Structure}}. RFC 3629 also refers to UTF-8 as „UCS transformation format“. Also commonly known as „Unicode Transformation Format“.</ref>}}) е стандарт за [[символно кодиране]]. Чрез UTF-8 може да бъде кодиран всеки [[символ (PC)\|символ]] или кодова точка в [[Unicode]] символното множество. Той е създаден от [[Роб Пайк]] и [[Кен Томпсън]].

	Кодирането е с [[променлива ширина]] и използва [[8-битови]] кодови единици. Проектирано е, за да се поддържа [[обратна съвместимост]] с [[ASCII]] код и за да се избегнат усложненията с [[ендиани]] и [[маркери за последователността на байтовете]] при алтернативните [[UTF-16]] и [[UTF-32]] кодирания. Наименованието произлиза от: '''''U'''''niversal Coded Character Set + '''''T'''''ransformation '''''F'''''ormat'''—''8'''''-bit.<ref>„Chapter 2. General Structure“. [http://www.unicode.org/versions/Unicode6.0.0/ The Unicode Standard] (6.0 ed.). Mountain View, California, USA: [[The Unicode Consortium]]. [[Международен стандартен номер на книга\|ISBN]] 978-1-936213-01-6.</ref>		Кодирането е с [[променлива ширина]] и използва [[8-битови]] кодови единици. Проектирано е, за да се поддържа [[обратна съвместимост]] с [[ASCII]] код и за да се избегнат усложненията с [[ендиани]] и [[маркери за последователността на байтовете]] при алтернативните [[UTF-16]] и [[UTF-32]] кодирания. Наименованието произлиза от: '''''U'''''niversal Coded Character Set + '''''T'''''ransformation '''''F'''''ormat'''—''8'''''-bit.<ref>„Chapter 2. General Structure“. [http://www.unicode.org/versions/Unicode6.0.0/ The Unicode Standard] (6.0 ed.). Mountain View, California, USA: [[The Unicode Consortium]]. [[Международен стандартен номер на книга\|ISBN]] 978-1-936213-01-6.</ref>