UTF-8 简介
UTF-8(8-bit Unicode Transformation Format)是一种针对 Unicode 的可变长度字符编码,又称万国码。 由 Ken Thompson 于 1992 年创建,现已标准化为 RFC 3629。 UTF-8 使用 1 到 4 个字节编码 Unicode 字符(现代标准已限制为最多 4 字节), 可在同一页面显示中文、英文、日文、韩文等多种语言。
UTF-8 编码规则
若只有一个字节,则最高位为 0;若为多字节,首字节连续的 1 的个数表示总字节数,后续字节均以 10 开头。
| Unicode 范围 | 位数 | UTF-8 编码格式 | 字节数 | 备注 |
|---|---|---|---|---|
| U+0000 ~ U+007F | 0~7 | 0xxx xxxx | 1 | |
| U+0080 ~ U+07FF | 8~11 | 110x xxxx | 2 | |
| U+0800 ~ U+FFFF | 12~16 | 1110 xxxx | 3 | 基本多文种平面 |
| U+10000 ~ U+10FFFF | 17~21 | 1111 0xxx | 4 | 增补字符(RFC 3629 限定范围) |
UTF-8 优点
0xFF 或 0xFE,便于识别其他编码UTF-8 缺点