主题：【原创】汉语和英语的比较 -- 颜赤城

共:💬368 🌺1318 🌵2

老大河待整

分页树展主题 · 全看首页上页下页末页

- 复【原创】汉语和英语的比较
  家园 错误的预期
  又出来好几个回帖，搞得我不知道要不要写下去了。
  有的人说我这样做研究是不对的。刚开始我还奇怪，但是不只一个人这么说。水风已经说到了我百年之后这些文章在庙堂被后人垢笑的问题了。我并没有惊出一身冷汗，而是觉得，这是哪儿和哪儿啊？
  我意识到是我先给别人造成了误解。这个题目给人造成了错误的期望值。
  我这个真的不是在作研究，我还没那么不知天高地厚。我非常喜欢学习外语，英文写作比较强，有时候也要翻一点东西。这个过程中，就出现了很多心得。这些东西呢，是分享心得。所以你看我有好几处是从中国人学习英语容易犯的错误讲起的。
  有人说你这样比较有什么意义呢？比如Java和C#，那不都可以写出好程序吗？有什么可比的呢？你怎么能这么比呢？
  这是个完全正确的说法，但是是我个人不喜欢的态度。说实话，我以前并没有想过比较有什么意义。这对于我来说是个很自然的事情，我看见两种不同的东西作相同的事情，我就比较它们。我觉得好玩。如果非要说意义，这让我能更好的体会汉语和英语的妙处。我现在回过去看，有的已经非常琐碎了，比如你我他都拿来比较。有的人会觉得不以为然。但是我觉得很好玩。
  有人建议我先去读吕叔湘和林语堂，再回来讲。
  我觉得可能我们的兴趣面不一样。我没读过吕叔湘但读过林语堂，我觉得他们帮助不了我。我记得林语堂用英语解释诗词的妙处，但不记得他提到过我这里说的数字分位符，第三人称单数，或者一个个的单词。我虽然没到那么高的层次，但是在这些我们每天接触的语言现象里，我相信我没有也不太可能做出和大师们相左的结论。如果有，咱们再讨论。
  我想，如果你读着，有你以前不知道的事情，有你以前没想到的问题，甚至只是觉得，哎？这个说话很有意思。那么我也乐意讲，我脸皮也厚，并且在这里我真的从别人那里学到很多东西。如果大家真是读着直嘬牙花子，又觉得无聊。那么我也识趣，就此打住，好来好散。换个人讲，我肯定积极地敲边鼓。
  通宝推：刹那芳华,
  - 复错误的预期
    家园 汉语的文法研究都是沿习英文的文法习惯
    写得好。
    一口气追著读。是一篇难得不带偏见的比较文章。
    我总认为，汉语的文法研究都是沿习英文的文法研究成果，比如说词性的划分，时态等等。更加极端的例子是计算机输入法。明显是从26个字母的编码方法上发展来的，输入速度当然不如英文，复杂性更要翻倍。如果ASCII码按部首编，怎么会乱码呢?
    对与汉语的研究我们还很缺乏，很初级。完全取之于英文本身的研究成果。虽然语言很多相通之处，毕竟还是不一样的。
    - 复汉语的文法研究都是沿习英文的文法习惯
      家园 简单地回答一下
      如果ASCII码按部首编，怎么会乱码呢?
      汉字部首的位置形形色色位置不同，可能超过256个，ASCII码的数量可能不够了。
      ASCII码长采用8比特，可以安排2^8=256个熵值在4比特左右的西文拼音字母（英语26个，俄语34个，）和其它数字标点符号。而中文单字的熵值是9.6比特，ASCII码的8比特就根本不够用了，只能采用16比特的编码了。
      16个比特的中文码系统和8个比特的ASCII码系统在计算机运算性能上应该有差别吧？
      汉字字符编码比拼音文字编码复杂就是因为汉字的熵值是9.6比特而拼音文字的熵值是4比特。
      - 复简单地回答一下
        家园 英文的编码量是汉字编码量的n倍（n>1）
        众所周知，英文以“字母”为基本编码单位，如果汉字要对应，应该是以“笔画”相对应。
        根据形码输入法的实践，我们知道，只要一个小键盘+5次输入，即可输入任何一个汉字，也就是说，一个汉字如果以笔画作为基本编码单位的话，只需要“能够表达10位数的编码量”×5，即可实现把所有汉字编码。
        而英文单词的编码呢？26个字母×不确定的出现次数=？？？？
        很明显，中文编码只需要用到ASCII码中的很小一部分，而英文编码需要用到的全部ASCII码。而且，中文汉字编码之后，长度一致，而英文编码为单词后，长度不一致，在处理难度上，尤其是智能处理上，速度还不如逐个编码的汉字——不信请自己用手机智能输入法试试中英文输入即可知道。
        复英文的编码量是汉字编码量的n倍（n>1）
        家园花！
        标题没必要
      - 复简单地回答一下
        家园 花！请教，您说的这个熵值是什么意思，能给咱普及一下吗？
        复花！请教，您说的这个熵值是什么意思，能给咱普及一下吗？
        家园 这个熵是信息熵
        
        表示通信过程中的不确定度和消除不确信度所需的信息度
        从信息论的角度看来, 用自然语言交际的过程, 就是把信息通过语言的发送者发送出来,通过通讯媒介, 传输给语言的接收者的过程。语言的发送者连续地发出一个一个的语言符号,而语言的接收者则连续地接收到一个一个的语言符号。如果我们把这些语言符号的发送或接收看成是一些随机试验, 把所发送或接收的语言符号看成是随机试验的结局, 那么, 语言就可以看作是一系列具有不同随机试验结局的链。如果语言中只有两个符号, 而且这两个符号的出现概率有很大的区别, 那么, 在接收者接收到语言符号之前, 他就能够满有把握地预言,他最可能接收到哪一个符号, 而不大可能接收到哪个符号, 也就是说, 这个随机试验的不肯定性程度很小。而当语言的符号数目增大时, 接收者预言他所可能接收到的语言符号的把握性就减小, 也就是说, 这个随机试验的不肯定性程度增大了。
        当还是这些数目的语言符号而这些符号的出现概率相等的时候, 接收者不能对其中的任何一个语言符号寄予较多或较少的希望,这样预言他所可能接收到的语言符号的把握就更小, 也就是说, 这个随机试验的不肯定性程度更大了。但是, 不论在哪一种场合, 当接收者一旦接收到语言符号之后, 这种不肯定性便随之消除。这时, 我们可以说, 接收者从所接收的语言符号中获得了一定量的信息。不肯定性消除的程度越大, 获得的信息就越多。
        因此, 我们可以用在接收者接收到语言符号之前, 随机试验结局不肯定性程度的大小来表示语言符号所负荷的信息量。在信息论中, 把随机试验结局不肯定性程度的大小叫做嫡。在接收到语言符号之前, 摘因语言符号数目的多少和出现概率的不同而不同。在接收到语言符号之后, 不肯定性消除, 嫡等于零。可见, 信息量恰恰等于被消除的嫡, 我们只要测出了语言符号的嫡, 就可以了解到该语言符号所负荷的信息量是多少。
        我们测出包含在一个汉字中的熵是9.6比特, 也就说明在一个汉字中所包含的信息量是9.6比特。汉字的嫡值大, 说明汉字中所包含的信息量大，也就是说要克服一个汉字在通讯中出现可能的混乱，必须要保证提供9.6比特的信息量。
        在智力学习的过程来讲。这个9.6比特的信息负荷量要比4.0比特的信息负荷量要高，对于还在发育的孩童的大脑来讲，可能是超载了。所以使用9.6比特熵值语言的小孩子要靠死记硬背而不是逻辑推理的方式来进行运算，对大脑的发育可能带来永久性的影响--某些用于创新的脑区可能被永远占领（模式化）而不能用于以后成年所需的创造性思维了。
        造成汉字这个熵值太大是鉴于字素的原因---汉字无法通过字母简化和扩展书写，其笔画书写方式变化种类和规则太多，无法简并。
        
        通宝推：桥上,
        复这个熵是信息熵
        家园 如果再从小背诵唐诗五百首结果不是更糟
        在智力学习的过程来讲。这个9.6比特的信息负荷量要比4.0比特的信息负荷量要高，对于还在发育的孩童的大脑来讲，可能是超载了。所以使用9.6比特熵值语言的小孩子要靠死记硬背而不是逻辑推理的方式来进行运算，对大脑的发育可能带来永久性的影响--某些用于创新的脑区可能被永远占领（模式化）而不能用于以后成年所需的创造性思维了。
        想一想都后怕，幸亏没有逼小孩子上中文学校。
        复如果再从小背诵唐诗五百首结果不是更糟
        家园 周末去死记硬背，对平时的学习没好处
        没有逼小孩子上中文学校
        如果小孩子喜欢语言学习，是另一回事--特别是有语言天赋的。
        
        复这个熵是信息熵
        家园 不同意超载之说
        在智力学习的过程来讲。这个9.6比特的信息负荷量要比4.0比特的信息负荷量要高，对于还在发育的孩童的大脑来讲，可能是超载了。所以使用9.6比特熵值语言的小孩子要靠死记硬背而不是逻辑推理的方式来进行运算，对大脑的发育可能带来永久性的影响--某些用于创新的脑区可能被永远占领（模式化）而不能用于以后成年所需的创造性思维了。
        这一段假设了小孩子阶段大脑信息负荷量小于9.6比特。
        我可以用相反的方向来辩驳。假设大脑信息负荷量远大于9.6比特，你坚持用4.0比特的语言，对大脑的发育可能带来永久性的影响－－某些用于创新的脑区可能永远被封锁而不能用于以后成年所需的创造性思维了。呵呵。
        我始终觉得我们人类对脑的运用不是太多，而是太少了。
        复不同意超载之说
        家园 人脑的效率同使用的操作语言有关联
        我始终觉得我们人类对脑的运用不是太多，而是太少了。
        不管大脑是否运用太多太少，在给定的时间内，如何有效使用大脑这个硬件很有讲究。写得好的软件和写得不好的软件在同一种计算机上的表现一目了然。
        9.6比特熵值的文字在计算机编码上要占用一个16位码，而4比特熵值的文字在计算机编码占用的是一个8位码。这样哪怕在同一种计算机上（我们不是种族主义者，相信每一台计算机的潜能都是大致相同的），我们都可以知道用16位码的系统的计算速度要慢得多。
        
        复人脑的效率同使用的操作语言有关联
        家园 这个事情不是这样
        每一台特定的计算机的数据连接宽度和计算处理速度是确定的，而脑神经不是。
        您要真和搞电生理的人聊过，或者有基本的神科知识的话，应该知道突触可塑性这个名词。基本上在老鼠身上的实验表明这种老鼠是更聪明的。
        复这个熵是信息熵
        家园 这句话有出处吗？
        某些用于创新的脑区可能被永远占领（模式化）而不能用于以后成年所需的创造性思维了。
        你这句话有心理学的出处吗？还是你自己的民科？
        复这句话有出处吗？
        家园 这个太民科了吧.....
        哪里是负责创新的脑区啊........啥叫创新啊.......
        另,我怎么觉得大量信息刺激应该是促进神经发育的条件呢?这明明就是LTP的基础嘛
        复这句话有出处吗？
        家园 这个你就不用操心了
        
        你这句话有心理学的出处吗？
        我同很多搞神经电生理的家伙们有过广泛地讨论。

分页树展主题 · 全看首页上页下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明