Юникод использует 1 112 064 кодовых позиций (больше чем 16 бит). Начало дублирует ASCII, а дальше остаток латиницы, кирилица, другие европейские и азиатские символы. Для обозначений символов используют шестнадцатеричную запись вида «U+xxxx» для первых 65k и с большим количеством цифр для остальных.Feb 16, 2012
Стандарт UTF—8 официально закреплён в документах RFC 3629 и ISO/IEC 10646 Annex D. ibm.com/docs/en/i… (англ.) Кодировка UTF—8 сейчас является доминирующей в веб-пространстве….Алгоритм кодирования
Диапазон номеров символов | Требуемое количество октетов |
---|---|
00010000-0010FFFF | 4 |
Поскольку в UTF—16 можно отобразить 220+216−2048 (1 112 064) символов, то это число и было выбрано в качестве новой величины кодового пространства Юникода.
UTF—8 – стандарт кодирования, преобразующий номера ячеек таблицы Юникод в бинарные коды с использованием переменного количества бит: 8, 16, 24 или 32. UTF—16 – стандарт кодирования, преобразующий номера ячеек таблицы Юникод в бинарные коды с использованием переменного количества бит:16 или 32.