主题:【原创】初论理想、现实与利益 -- 葡萄
我们知道常用的汉字(一级二级国标)大约有 7000字。假如每个字等概率,那么我们大约需要 13 个比特(即 13 位二进制数)表示一个汉字。但汉字的使用是不平衡的。实际上,前 10%的汉字占文本的 95% 以上。因此,即使不考虑上下文的相关性,而只考虑每个汉字的独立的概率,那么,每个汉字的信息熵大约也只有 8-9个比特。如果我们再考虑上下文相关性,每个汉字的信息熵只有5比特左右。所以,一本五十万字的中文书,信息量大约是 250万比特。如果用一个好的算法压缩一下,整本书可以存成一个 320KB 的文件。如果我们直接用两字节的国标编码存储这本书,大约需要 1MB大小,是压缩文件的三倍。这两个数量的差距,在信息论中称作“冗余度”(redundancy)。 需要指出的是我们这里讲的 250万比特是个平均数,同样长度的书,所含的信息量可以差很多。如果一本书重复的内容很多,它的信息量就小,冗余度就大。
不同语言的冗余度差别很大,而汉语在所有语言中冗余度是相对小的。这和人们普遍的认识“汉语是最简洁的语言”是一致的。
这个简洁和假定可以从上下文相关性推测文义,那么汉字对我们的科学思维影响就大了。
冗余度表示了产生信息时,不必要的冗长部分的比例。现在英语中的冗余度为70%~80%左右。可以说,英语是一种传递效率不很高的语言。
信息传递过程中的冗余度使得信息传递的效率降低,但这种冗余度也并非总是无意义的。冗余度的有效利用,对信息的预测、信息的纠错是十分有意义的。利用信息中的冗余性,可对信息进行估计,可修正信息传递中产生的误码。
《中国人为什么弱于语言表达?》一文从生理上通信理论上解释了汉语的一些问题。
我们汉语为什么要简练?就是使用汉字占去我们太多的大脑运算以至于我们不得不自然地减少使用汉字的频率以避免cpu超载。
本帖一共被 1 帖 引用 (帖内工具实现)
- 相关回复 上下关系8
压缩 2 层
🙂中国无法出现西欧的科学是中国人使用太简练的象形文字 14 PBS 字1233 2009-11-16 21:59:33
🙂花 寂灭 字114 2011-10-26 00:32:45
🙂怪不得葡萄的思维这么严谨 怪味可乐 字48 2009-11-24 01:13:53
🙂他在同汉字的简练性作斗争
🙂不是生理,是传统 范进中举 字482 2009-12-03 00:17:20
🙂象形文字笔划结构导致冗余度小,连字体的美感要求都高 4 PBS 字1449 2010-12-19 22:02:23
🙂马前卒在《火星人看地球》里提供了一种解释 3 长剑倚天 字1399 2009-11-18 18:57:32
🙂我认为是地理因素决定的 2 午茶 字538 2009-11-18 08:56:13