主题:【原创】为什么汉语是世界上最先进的语言(上) -- 冷酷的哲学
计算机的01编码是最先进的语言?
现在连羊年在国外都成问题了,汉语中“羊”是统称,翻译成英语就挠头了:山羊?绵羊?公羊?
谈不上是最先进“语言”,因为没有语音载体的成分在里面。
人类的口腔充其量只能发出600种音节,哪怕用声调/重音/轻音来调制,也不过1000余种。
那么扣除1比特的基本通讯编码需要后,能够用最少的编码符号就能把600多种语音记录下来,那么那种语言可以称得上最佳语言了。
拼音文字用26-33个符号和象形文字用6000个符号各自能把600种语音记录下来,显而易见拼音文字要简便得得多。
可以形象化说(当然不严谨),如果拼音字母文字是26位进位制,而汉语汉字就是6000位进位制了。
我经过计算,发现一旦使用汉语拼音,汉语拼音文字的文字熵的值会降下来,变成4.30比特,证明汉语汉字也是一种记录语音的工具,只要符号系统选择正确,可以变成一种低熵语言。只是使用的符号不同而已。目前汉语用3套方法记录文字:简体字,繁体字和汉语拼音。从简单性上分析,汉语拼音最简单,一年级小孩子化2个月就能掌握了--可以读出6000个注音汉字没有问题。
唯一的问题是我们的祖先用6000个符号对付600个种音节,那么至少每个音节有10个汉字符号来对应,造成同音字太多(最多的同音字yi达到近200个),在汉语拼音中,如何消除同音字带来的困惑,必须予以解决(一般通过双字多字词组)。
同音字不仅仅是汉语的问题,也是使用过汉语的文字的通病,日语/韩语/越语这些语种都有同音字问题。
上面只是用编码的效率角度判断一个语言的通讯能力。以后专门开贴谈这个效率问题。
看来拼音是对汉语的一个进步哈
但是之前也有反切,拼音似只是改进,谈不上根本变革
说到同音字,确实为汉语都有,期待您的论述
在我国历史上(说是历史,其实也就是几十年前),有一段时间语言学界的一些学者大力推崇英语之类的语言,理由就是“英语的表义更详实丰富”,这种观点甚至被作为一个定论写进了大学的语言学课本里。但是很快这种观点被推翻了,因为他们的比较单位不统一。
他们说,英语只用26个字母,但是却可以表达无限的意义,多么简洁丰富。反观汉语,人要学几千个汉字,才能通顺表达自己的意义。
但是他们忘了,英语虽然只有26个字母,但是有上百万个单词。他们在说英语简洁的时候,用的是26这个数字,而说英语丰富的时候,用的是上百万个单词产生的效果。
那么,我们到底是用着26个字母来对应汉语里的几千个“字”呢,还是用上百万个单词对应汉语里的几千个“字”呢?
如果我们用”单词“来对应”汉字“,那么,我们又要用英语里的什么来对应汉语里的“词”呢?
最终我们发现,怎么对应都不合适。
所以我们发现,所谓的“相同语义单元的汉语比英语的表义内容更加丰富是常识”这句话的问题在于,世界上根本就没有“相同的语义单元”这回事。我也从来没听过我的任何一个语言学老师说到过这个所谓常识,反之亦然。
任何一种语言都是独一无二的。
因此,历史上很多的关于两种语言之间语言“简洁性“”丰富性“的比较,其实就是比较者在所谓”相同的语义单位“这里玩把戏,最后往往沦为意识形态甚至政治的舞台。你要是鼓励全盘西化,你就觉得英语”简洁丰富又严谨“,你要是中国的民族主义者,你就觉得汉语”简洁丰富又严谨“。总之,只要你有了立场,证据总是好找的。因此现在的语言学家,一般都不爱谈这个问题,因为知道这个问题没什么好谈的,或者有的人就编个谎糊弄糊弄家乡父老。
第一,英语虽然是26个字母,但是英语不是26个音。你的英语还需要加强。
第二,汉语虽然有几千个字(最多据说有好几万,不过大多是古代采用英语等拼音文字方式造词的时候造的,还有的一些则是异体字),但是并不是几千个音。
第三,口语中同音字的麻烦不算太多,因为人们都不傻,知道如何使用同音字。而且这个同音字不是单纯只有汉语有。
第四,英语其实最怕的不是同音字,而是各种方言。汉语方言也不好懂,但是可以手谈。
第五,另外你说了只有六百个语音,加上声调也只有一千,我不知道你是怎么整出这俩数的,但是,26个字母显然不能发出六百个音,六千个符号则似乎又不符合实际情况。如果都是标这六百个音,理论上来说,拼音文字也好象形文字也好都只需要六百个符号。只不过呢,英语是用26个字母标注六百个符号,汉语是用横竖撇捺点钩提这七个字素来标准六百个符号,要说用的基本要素少就是简便,那么七个要素的汉字和26个要素的英语比起来,显然是汉字简便。要说组合多的字多就是繁冗,那么用26个符号排列组合成字、字词合一、有几百万个字词的英语,和七个符号组成字、由字组成词、只有几千个常用字的汉语,两相比较,英语才是真的繁冗。你不能说26个比7个简便,也不能说几千比几百万繁冗。
我是这样考虑的:
1.首先,“汉语总共6万个词组同英语120万个词组”这是字典上的词汇量(一个文明的词汇量),而不是某个个体所能掌握的词汇量。
2.人脑大概和电脑类似,存在内存(瞬时记忆)和硬盘(长期记忆)。比如一般人可以心算1-2位数的乘法,但是心算更多位数的乘法就吃力了。人的智力水平大概和瞬时记忆力有关,瞬时记忆力强的人,可以支撑更大的决策树运算。
3.虽然语言决策树和词汇量可以储存在长期记忆(硬盘)里,但是决策树的运转会产生大量的临时数据,需要瞬时记忆的支撑。逻辑决策树的运转同样会产生大量的临时数据,需要瞬时记忆的支撑。人脑在调用语言决策树和逻辑决策树的时候,虽然可以分时复用,甚至并行计算,但是大量的临时数据必然相互挤占资源(时间和瞬时记忆空间)。如果瞬时记忆不够用,就会出现,前言不搭后语,词不达意,逻辑混乱等状况。
当然,这些更多的是我的猜测,可以说完全超出我的知识范围。如果不对,还请指正。
这个值得商讨,也许温总理说话慢是因为:
1.温总理的语言决策树更大更复杂。同样的想法,是用我这个简单幼稚的语言决策树来生成,还是用温总理复杂成熟的语言决策树来生成,这个cost完全不同。
2.温总理的逻辑决策树比一般人的更庞大,更复杂,需要综合更多的信息。因此,他每蹦一个字都要经历很多思考。
3.温总理不能说错,不能词不达意。纠错对于温总理是巨大的cost。
1.训练表意语言的决策树,必然同时训练大量的bias。所谓“呆板僵硬的思维方式”由此产生。
2.汉语决策树庞大,需要大量的时间和精力才能训练出来。这个在宏观上,必然挤占我们思考其它问题的时间。
3.汉语文字信息熵和符号信息熵大,导致常用汉字不足,这就造成了“取样步长过大,造成细微细节缺失”。把照片说成了漫画。很多人又没有像温总理那样努力的去纠错,把漫画直接就往逻辑决策树里送。garbage in, garbage out.
http://www.cchere.com/article/3848644
拼音文字用26个符号可以表达语音/语义,而汉字6000个符号还不能有效表达语音,所有的汉字单字/词都靠死记硬背,无法确切通过音符(当然汉字通过进化已经可以做到记录音符)来表达语音。
所以恰恰相反,汉字编码体系不是一个有效的编码体系,而汉语拼音编码体系是一个有效的体系,可以用26个拼音字母达到6000个汉字符号同样的效果。
提一个问题:为什么汉语1000多个语音音调/音节的表达用26个字母可以等同于6000个汉字符号?
不知道你理解我上面的意思?
给你一个提示:下面的一个词组的3种表达是不是一回事?
南辕北辙
男元贝这
nanyuanbeizhe
下面我回答了墨虎有关汉字编码的效率问题,你可以看看,不知你能否理解。
拼音能取代汉字真是活见鬼了,要那么简单英格丽事就不用100多万个单词了。
英语的文字熵是4.0比特。根据香农的信息论计算,英语实际上最低只要使用2^4=16个字母即可。现实中英语使用了26个字母,所以英语的编码效率是16/26=61.5%; 汉语实际上最低所需的汉字是2^9.65=803个,而常用汉语汉字6000个,因此汉语的编码效率是803/6000=13.3%而已。
“最先进的语言”和“落后的语言”之比较是不是要比较编码效率?
汉字803个单字就是把人类口腔所能发出的音调基本都囊括了。多余出来的5200个汉字必然是同音字了。
通过信息论分析,我们是不是看到拼音文字同象形文字的差距了?我一直好奇:古汉语为什么单字词为主而现代汉语以双字词组为主?而英语平均为3音节词?
这个要进行对照实验:周总理口齿伶俐,朱镕基也会口若悬河,李鹏温家宝这些京津片子就木纳得多。是不是前两位英语较好?
本帖一共被 2 帖 引用 (帖内工具实现)
我在给墨虎的有关语言编码效率的讨论中给出同音字的可能来源和消除的方法。
西方拼音文字也有同音词,尤其是单音节词,比如英语的:see和sea。但是双音节词就很少有同音词了。所以汉语消除同音字困惑的办法是多字词组。汉语多字词组造成现代汉语变长,但是语义变得清晰。
汉语面临现代社会的大量事物/概念,6000个单字不够,必然需要组成新词汇,单字词已经不够用了,只能用双字词/三字词/四字词甚至更多。
这样我们可以理解其实汉字单字符号就等同于拼音文字的字母符号,本身也记录语音,但是发音没有很严格规则,记录困难靠死记硬背,至少需要800个符号--我的“南辕北辙”那个例子证明汉语用拼音表达其实是很容易的事情---对已经使用汉字的成年人非常别扭,对从来不碰汉字的孩子和外国人,汉语拼音反而非常容易。
比如大家对悲剧的“杯具”表达习以为常了吧?那么“beiju”应该会习惯的。
韩国老年人对韩语中完全去除汉字感到不习惯,但是韩国孩子从小使用拼音,就没有任何困难。胡志明在1945年全面推广越语拼音化,2个月就使得北越扫盲成功--同样50年代的中国扫盲需要2年甚至更长。
汉字同音字和4声使得汉字拼音化出现困难,前者可以通过语言中大量使用多字词组来克服,后者可以用4声符号代表,越南语拼音就把5声符号包括在内,使得越南语共有90多个拼音符号----文字熵就稍微增加到5.8比特,同日文的文字熵差不多,--比英法德语的4.0比特要查,但是比汉语9.65比特要好得多。
使用拉丁字母的汉语拼音可以达到4.3比特-5.8比特的文字熵,应该是一项了不起的成就。因为汉语的文字熵将下降9.65-5.8=3.65比特。
设定大脑每识别/挑选一个汉字符号所需的能量为一个单位,那么汉语拼音化可以将中国人思维时所需的能量减少到1/14(2^3.65=14.4)。换句话说,中国人的聪明才智可以得到14倍的增加。
所以当有人在兜售“汉字是最先进的文字”的时候,其实他想要你愚蠢14倍呢。
一个能够说出这句话的人是看“超体”看得带入了吧
呵呵,开个玩笑
其实我觉得你说的熵很有道理,但是我反向理解:正因为中国人思维耗能高,因此更能应对复杂事物。这跟企业和国家的治理结构一样,大企业和大国的结构规则都很复杂,其交易成本要比夫妻店和城邦国家高多了,但能否说后者更先进呢