unicode编码有几种编码标准(请解释一下unicode,utf-8,gb2312这些编码吧!)
本文目录
请解释一下unicode,utf-8,gb2312这些编码吧!
字符集与编码 各个国家和地区所制定的不同 ANSI 编码标准中,都只规定了各自语言所需的“字符”。比如:汉字标准(GB2312)中没有规定韩国语字符怎样存储。这些 ANSI 编码标准所规定的内容包含两层含义:1. 使用哪些字符。也就是说哪些汉字,字母和符号会被收入标准中。所包含“字符”的集合就叫做“字符集”。 2. 规定每个“字符”分别用一个字节还是多个字节存储,用哪些字节来存储,这个规定就叫做“编码”。 各个国家和地区在制定编码标准的时候,“字符的集合”和“编码”一般都是同时制定的。因此,平常我们所说的“字符集”,比如:GB2312, GBK, JIS 等,除了有“字符的集合”这层含义外,同时也包含了“编码”的含义。“UNICODE 字符集”包含了各种语言中使用到的所有“字符”。用来给 UNICODE 字符集编码的标准有很多种,比如:UTF-8, UTF-7, UTF-16, UnicodeLittle, UnicodeBig 等。1、ISO-8859-1:最简单的编码规则,每一个字节直接作为一个 UNICODE 字符。比如, 两个 UNICODE 字符,即 "ÖÐ"。反之,将 UNICODE 字符串通过 iso-8859-1 转化为字节串时,只能正常转化 0~255 范围的字符。2、GB2312,BIG5,Shift_JIS,ISO-8859-2把 UNICODE 字符串通过 ANSI 编码转化为“字节串”时,根据各自编码的规定,一个 UNICODE 字符可能转化成一个字节或多个字节。反之,将字节串转化成字符串时,也可能多个字节转化成一个字符。比如, 一个字符,即 ’中’ 字。“ANSI 编码”的特点:1. 这些“ANSI 编码标准”都只能处理各自语言范围之内的 UNICODE 字符。2. “UNICODE 字符”与“转换出来的字节”之间的关系是人为规定的。3、UTF-8,UTF-16,UnicodeBig与“ANSI 编码”类似的,把字符串通过 UNICODE 编码转化成“字节串”时,一个 UNICODE 字符可能转化成一个字节或多个字节。与“ANSI 编码”不同的是:1. 这些“UNICODE 编码”能够处理所有的 UNICODE 字符。2. “UNICODE 字符”与“转换出来的字节”之间是可以通过计算得到的。不知道我讲的清不清楚。祝你成功。
求解这一道计算机题
这个题目选择C。纯文本文件是没有段落格式的设置的。.txt是包含极少格式信息的文字文件的扩展名。.txt格式并没有明确的定义,它通常是指那些能够被系统终端或者简单的文本器接受的格式,也叫纯文本文件。任何能读取文字的程序都能读取带有.txt扩展名的文件,因此,通常认为这种文件是通用的、跨平台的。在英文文本文件中,ASCII字符集是最为常见的格式,而且在许多场合,它也是默认的格式。对于带重音符号的和其它的非ASCII字符,必须选择一种字符编码。在很多系统中,字符编码是由计算机的区域设置决定的。常见的字符编码包括支持许多欧洲语言的ISO 8859-1。由于许多编码只能表达有限的字符,通常它们只能用于表达几种语言。Unicode制定了一种试图能够表达所有已知语言的标准,Unicode字符集非常大,它囊括了大多数已知的字符集。Unicode有多种字符编码,其中最常见的是UTF-8,这种编码能够向后兼容ASCII,相同内容的的ASCII文本文件和UTF-8文本文件完全一致。微软的MS-DOS和Windows采用了相同的文本文件格式,它们都使用CR和LF两个字符作为换行符,这两个字符对应的ASCII码分别为13和10。通常,最后一行文本并不以换行符(CR-LF标志)结尾,包括记事本在内的很多文本器也不在文件的最后添加换行符。大多数Windows文本文件使用ANSI、OEM或者Unicode编码。Windows所指的ANSI编码通常是1字节的ISO-8859编码,不过对于像中文、日文、朝鲜文这样的环境,需要使用2字节字符集。在过渡至Unicode前,Windows一直用ANSI作为系统默认的编码。而OEM编码,也是通常所说的MS-DOS代码页,是IBM为早期IBM个人电脑的文本模式显示系统定义的。在全屏的MS-DOS程序中同时使用了图形的和按行绘制的字符。新版本的Windows可以使用UTF-16LE和UTF-8之类的Unicode编码。文本工具打开一个文件,首先读取文件物理上所对应的二进制比特流,然后按照所选择的解码方式来解释这个流,然后将解释结果显示出来。一般来说,你选取的解码方式会是ASCII码形式(ASCII码的一个字符是8个比特),接下来,它8个比特8个比特地来解释这个文件流。记事本无论打开什么文件都按既定的字符编码工作(如ASCII码),所以当他打开二进制文件时,出现乱码也是很必然的一件事情了,解码和译码不对应。文本文件的存储与其读取基本上是个逆过程。而二进制文件的存取与文本文件的存取差不多,只是编/解码方式不同而已。希望我能帮助你解疑释惑。
更多文章:
广州最新静态管理(最新通告!今日10时起,河南这个地方实行3天全域静态管理)
2024年8月18日 08:35
python自带sqlite3(如何在python程序中查看sqlite3某数据库中的表名)
2024年7月4日 04:13
duplicate symbol(求助,duplicate symbol)
2024年4月12日 09:25
ALE是什么?allegory,fable,parable,fairy tale它们之间有什么区别
2024年7月19日 05:59
navi比赛回放(如何看待《CS:GO》2020 Major 线上赛 navi 小组赛被淘汰)
2024年7月3日 05:23
java中的jar包有什么作用(把.java文件打包成.jar有什么用)
2024年7月24日 20:20
mysql 字符串转数组(如何向mysql的一个字段写入数组)
2024年6月30日 10:59
result in什么意思(resultat与resultin区别)
2024年7月22日 07:19
美国aspen是哪个城市(aspen port elizabeth ltd是什么制药厂)
2024年9月2日 06:50
数据库视频教学(从哪里可以找到sql数据库的视频教程呢,不胜感激!)
2024年8月7日 01:30
30岁如何转行(已经30岁了,做了五年销售,现在想换行,该怎么做)
2024年7月17日 04:04
VR虚拟现实与VM虚拟制造有什么区别?VM虚拟机怎么新建虚拟机
2024年6月10日 19:55
如何在阿里云服务器上搭建PHP环境?如何本地搭建PHP服务器环境
2024年6月27日 05:43