博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
汉字统计
阅读量:6092 次
发布时间:2019-06-20

本文共 1129 字,大约阅读时间需要 3 分钟。

1 #include 
2 3 int isChinese(int ch ) 4 { 5 return ch & 0x80; 6 } 7 8 int main() 9 {10 char ch[1000]="WaHaHa! WaHaHa! 今年过节不说话要说只说普通话WaHaHa! WaHaHa!\0";11 int i=0, count=0;12 13 for(i=0; i < 1000; i++)14 {15 16 if(isChinese(ch[i]))17 count ++;18 }19 printf("%d\n", count/2);20 return 0;21 }

通过位运算来判断,0x80为转义字符,也就是二进制的10000000 。ascii 字符占用一个字节(使用低7位),最高位为0,另外,汉字机内码在计算机的表达方式的描述是,使用二个字节,每个字节最高位一位为1。计算机中, 补码第一位是符号位, 1 表示为 负数, 所以 汉字机内码的每个字节表示的十进制数都是负数,结果要除以2,不要忘了。因为汉字占用两个字节。进行按位与运算后,是英文字符返回0,是中文汉字则返回128.还可以通过判断他的每一个字节是否小于零(因为最高位为符号位),小于0则是中文汉字,否则反。

这说的是多字节编码,而且完全没考虑那些扩充符号标点,具体哪些是真正的汉字还是要靠区位码决定。unicode更不一样,而且unicode还分为UTF-8,UTF-16,UTF-32。UTF-8网络和linux上用得最多,UTF-16就是windows下的unicode,UTF-32是linux下的unicode,不过用得反而没UTF-8多。

 

   //GBK汉字内码范围(不包括A1xx~A9xx的标点符号英文字母特殊符号等)

   //区码  ,位码
   //81-A0 ,40-7E 80-FE
   //AA-AF ,40-7E 80-A0
   //B0-D6 ,40-7E 80-FE
   //D7    ,40-7E 80-F9
   //D8-F7 ,40-7E 80-FE
   //F8-FE ,40-7E 80-A0
对电脑而言没有乱码,只有二进制字节;对人脑才有乱码。啊 GBK:0xB0 0xA1,Unicode-16 LE:0x4A 0x55,Unicode-16 BE:0x55 0x4A,UTF-8:0xE5 0x95 0x8A

转载于:https://www.cnblogs.com/yuanqi/p/3500647.html

你可能感兴趣的文章
CentOS6.4关闭触控板
查看>>
React Native 极光推送填坑(ios)
查看>>
Terratest:一个用于自动化基础设施测试的开源Go库
查看>>
修改Windows远程终端默认端口,让服务器更安全
查看>>
扩展器必须,SAS 2.0未必(SAS挺进中端存储系统之三)
查看>>
Eclipse遇到Initializing Java Tooling解决办法
查看>>
while((ch = getchar()) != '\n')
查看>>
好程序员web前端分享JS检查浏览器类型和版本
查看>>
Oracle DG 逻辑Standby数据同步性能优化
查看>>
exchange 2010 队列删除
查看>>
「翻译」逐步替换Sass
查看>>
H5实现全屏与F11全屏
查看>>
处理excel表的列
查看>>
C#数据采集类
查看>>
quicksort
查看>>
【BZOJ2019】nim
查看>>
LINUX内核调试过程
查看>>
【HDOJ】3553 Just a String
查看>>
Java 集合深入理解(7):ArrayList
查看>>
2019年春季学期第四周作业
查看>>