淘客熙熙

主题:【原创】为什么汉语是世界上最先进的语言(上) -- 冷酷的哲学

共:💬1516 🌺8640 🌵163
全看分页树展 · 主题 跟帖
家园 用这种特例比较你还真是坦然

我输入一个from,你能想到我原来想打的是form么?

我输入一个head,你能想到我原来打的是ahead么?

我输入一个claim,你能想到我原来想打的是clam么?

很难吧,在这些情况下,你所说的那个结论就失效了。

要比较中文和拼音文字的纠错能力,万万不能搞田忌赛马的把戏,只有当错误的元素是平权的时候,比较才有意义。

中文中和字母平权的文字元素应该是笔画,字母和笔画都是组成文字的最基本要素,除少数特例外这两者都是不能够单独用来示意的

中文中和词根平权的文字元素则是偏旁,这两者的相同点在于词根和偏旁已经含有一定的意义,比如ache必然是代表疼痛的意思,带钅的文字肯定和金属有关,但是词根和偏旁一般而言也是不能独立表意的,因为它们所带的信息量依然太小,还需要和其他的词根或偏旁组合来表达确定的意思。

中文中和单词平权的应该是字和一系列的固定词语,它们都是为了描述确定的事物而存在,具有固定的意义。

如果我们要往下谈,我们起码要在这个对应关系上达成一致。不过这方面可能有一些难度,因为你一贯是不把中文词语当作和英文单词平权的元素来看待的,关于中文的讨论中你最喜欢引用的就是9.6bit信息熵和12366个汉字这两个数据,关于这方面的东西我后面回复你了,这里不多说。

我最上面举的例子只是为了说明一点,在没有上下文的情况下,单词中出现了字母级别的错误(无论是移位,缺失还是增加)是有可能无法恢复的,我就经常在使用词典软件的时候由于输错几个字母而导致查出来的意思天南地北。之所以一般情况下我们可以做到单个单词的纠错,那是因为单词的拼写方法是固定的,拼出了一个你不认识的单词可能性更大的是拼错了。这个方面中文也是一样,虽然对于一些复杂的汉字你可能写不出来,例如饕餮,但是如果哪个笔画漏了多了还是写错位置了,一般人立马就感到难受,因为虽然一般人不可能认识所有的汉字,但是汉字的偏旁相比而言则是有限的,且大多是由常用汉字变化而来。

中文中差一笔就不对的例子不是没有,比如衤和礻,已和己,拨和拔,这些东西从小到大不知要被语文老师提醒多少遍,但该错的还得错,可是这类错误经常一个不留心就没有看出来,这差不多是中国字特有的优点了。相对于拼音文字,图形化的中国字在认识记忆和辨识的过程中是忽略细节而只关注总体形状的,这是由人类视觉系统的处理功能所决定的。以前读书时做小抄的时候就有明显的感觉,中文字即使缩小到小六号依然有辨识度,可以直接读取,把中国字倒过来看,读取记忆的效率也不会下降多少;英文的话,短的常用单词还能缩小到小六号,长的复杂单词最多缩小到六号,再小的话就一眼看不出来,只能一个一个认字母了,如果把单词倒过来,那估计连hello这样简单的单词都要辨认半天。这就是因为除了常用的简单单词,拼音文字的认读必然涉及一个分解的过程(不论是像中国的外语学习者一样分解到字母还是像拼音文字使用者一样分解到词根),导致无法进行整体记忆。

汉字的纠错能力,很大程度上就来自于这种整体记忆的机制,有些复杂文字哪怕写得一塌糊涂,但只要有一个大体形状,就己经能够让人辨识(看那些小学生默写就爱干这种事请)。要注意我说的是单字的情况下,拼音文字中有多少单词能够做到首位两字正确,中间全部乱序,在没有任何上下文的情况下还能够高速辨识的(也就是你说的这种情况),peslae?

顺带一提,我上面的那个其实打的是己(ji)经,能瞬间反应过来绝对是神一般的存在——当然,电脑为我助攻了。

像你提到的太平天国的例子,我认为大多数人还没反应过来太写错了,太平天国已经进入记忆了,根本就不会关注那一点是否存在,只有在被人提醒或者回过味来的情况下才有可能发现。相似的例子还有“由漆末干”,这个相对大平天国已经错得很离谱了,但是很多人一眼扫过,记在脑子里的肯定是“油漆未干”(不过人大多数人写出来应该还是会写成由漆未干),这已经不只是整体记忆的功效了,还有一点就在于油漆未干是一个固定短语,因而对大多数人来说对这四个字的记忆更应该说成是接受了刺激,而后从脑中检索到了已有的“油漆未干”,而非将这四个字原原本本记入脑中——不过,附近要是有把刷着漆的椅子,刺激效果会更好。

元宝推荐:铁手, 通宝推:林风清逸,履虎尾,道白,潮起潮落,strain2,打铁的,于同飞,旧时月色,特里托格内亚,天涯睡客,曾自洲,纹石,人在旅途,东方射日,方恨少,光明守护者,jent,铁手,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河