主题:【原创】语言是载体 -- Swell
- 共: 💬 11 🌺 31
- 新: 💬 4 🌺 3
我是不想开新帖,奈何这改的过于无奈了。
很多论证语言优劣的。我稍微总结一下自己的观点吧。
母语对每个人都不难。没看到哪个民族因为语言太难孩子都不会说话了。
语言本身没那么重要,用语言记录的内容非常重要。载体载体,车匪路霸都知道拦路抢劫抢的是车里的东西而不是车本身。你记载的东西值钱,语言再难咱们也迎难而上。你没啥记载的东西,你语言再科学,再容易,也没人学。
例子都是现成的。古埃及学那就必须学古埃及语,很多学西方文学必须学拉丁语。不是因为语言如何,是因为其内容。曾经有人创造了世界语,号称最科学,一样没人学。 因为你啥都没载。
事物都有两面。优点在另一个角度就是缺点。 这在语言上我感觉尤其明显。有所得必有所失。 就像俄语,那个大小舌音,发不出来还的去看医生,当年觉得是不是有病。但是一听人说俄语,也不得不承认,这个音是真明显,比很多唇齿摩擦音强太多。 声音很小也能听的很清楚。 汉语一个辅音接一个原音,是发音很流畅,但想说快了也是真不容易。 英语一套大杂烩,乱的一批。但是真简单,欧洲人用了都说好。
说说汉语,优点是音意分开。保持了词的稳定,为国家的大一统做出了巨大贡献。 否则普通话和粤语就是两种语言,更不用说类似闽南那种地方。缺点是入门困难,特别是对非母语,地狱级。 我这些年就看着美国每每说汉语热,很多其他的种族的孩子也想学汉语,基本上一个月劝退,甚至是那种印度,犹太小孩,学习用功,肯吃苦的,也受不了。本来学习曲线非线形就是一个巨大的缺点。计算机语言不是清晰的像人们展示了,什么语言大家愿意学愿意用,什么语言容易劝退。这是没办法的。 未来中国像扩大影响力,这个汉语是个问题。
我在东西海岸都看过老师教汉语。东海岸还是比较传统,就是国内怎么教,这边就怎么教。只有华裔的孩子,从小有这个环境加上一些努力,才能勉强高中的时候达到中国大概小学3年级到毕业的水平。 西海岸我看到一些新的教法。就是把汉语基本拼音花了。强调汉字大概看见了能认识就行,不要求写了,写全交给电脑了。 争取早日学会几千个词。从文化入手,主讲比如春节,端午的含义;历史故事等。 希望通过学汉语,最大可能的了解中国的文化,历史。我觉得这是一个好思路。
英语的问题是先天不足,底层不行,你说的没错,语言是载体,就像盖房子用的混凝土,标号30的用来做自建房,标号50的用来建高层,标号80的用来修筑水电站,与此类似,英语用来搞搞农民房还行,到了深水区专业领域就臣妾做不到啊,勉强不幸福,咋办?
另外,安卓系统不能满足物联网等更高精度更短延时的现实需求,鸿蒙才行,好像也类似,业外人士表达不准确,见谅。
很早前,至少15年前吧,我印象中就有过关于中英文比较的文章,你所提到的那篇主题帖爆论的内容,大部分我那个时候就看到过。
现在这个议题突然火起来(国内观网同步也有很多讨论),原因应该是跟AI进展相关。譬如
OpenAI o3-mini被曝大量使用中文推理!全世界AI都要学中国话了?
o3-mini-high作为美国最顶尖的模型之一,竟然在没有用户干预的情况下,如此大量地使用中文进行推理。
更有意思的是,即便用俄语去提问,o3-mini-high也会用中文去思考。
文中还给了两种解释:
阿尔伯塔大学助理教授、AI研究员Matthew Guzdial提出了一个切中要害的观点:
「模型并不知道什么是语言,也不知道语言之间有什么不同,因为对它来说这些都只是文本。」
Hugging Face的工程师Tiezhen Wang认同Guzdial的看法,认为推理模型语言的不一致性可能是训练期间建立了某种特殊的关联。
他通过类比人类的思维过程,阐述了双语能力的深层含义:掌握双语绝非仅仅局限于能够流利使用两种语言,更是一种独特的思维模式。在这种模式下,大脑会依据当下的场景,本能地挑选最为适配的语言。例如,在进行数学运算时,使用中文往往简洁高效,因为每个数字仅需一个音节;而在探讨「无意识偏见」这类概念时,大脑则会自然地切换到英文,这是由于最初接触该概念便是通过英文。
类似这种讨论,在DS推出后,就变得更普遍了。毕竟,DS算法的核心目前并不为人所知,是否是因为【中文工具】的原因呢?
所以后面也就有了陈经的这篇文章:
4. 近期大模型让全球进一步认识到了汉字的优势,有的西方大模型居然用汉字思考了。不少西方人惊讶,在受到严重限制的情况下,中国居然迅速在大模型上取得了突破。有的西方使用者评论说,deepseek在英文“创意写作”上表现极好。这是汉字体系优势的另一个表现,而且更为本质。
5. 汉字表意,不仅有二维的整体特性,在“词元”token之间的关联上,与英语等线性文字体系,有截然不同的拓扑结构。大模型最大的任务就是为各种词言的词元建立关联权重,汉字明显有优越性,关联更有逻辑,如猪肉、牛肉、鸡肉,一月、二月、三月,关联非常自然,在英语里却全是看上去没有相关性的词。而且汉字能够轻松扩展包含融合进新概念,不需要发明新字,甚至可以减少许多字。汉字体系是“先难后易”,学会了随便看点什么知识水平就不断进步,而西方社会容易产生知识非常贫乏的人,很多成年人阅读理解能力相当成问题。
6. Deepseek的性能进步,除了大模型数据结构、训练算法、代码优化,新闻里没有说的,是对中文训练数据的整理、评估。业界传Deepseek非常重视数据标注,梁文锋自己都来打标,请北大中文博士来打标。高质量的数据,就象严师,让Deepseek R1有了非常强大的中文能力。它似乎以中文思维为底座,有了不一样的灵活思维,群众普遍反应和以前的大模型不一样。即使用英文输出,在创新写作上也能表现出能力。
7. 因此,Deepseek取得性能突破,很可能受益于中文体系。一个简单的事实是,只有中文和英文能够以自己为主,构建对人类知识体系的完整理解。许多语言甚至连科学词汇都没有,生造新词也不行,还不如改学英文或中文。
以上应该是这次关于中英文比较的一些背景。
=====================================
话说回来,100年前,国家积贫积弱的时候,讨论的是中文这种语言是否应该淘汰或者放弃,改为拼音语言。
甚至40多年前,计算机刚兴起的时候,因为汉字输入的问题,也曾经讨论过是否应该放弃汉字转用拼音。
而AI刚开始发展的时候,显然中文的语音识别、图像识别等等,远比英文更复杂。也不会有人讨论中文相对英文的优越性。
所以当下的讨论,虽然一开始仅仅是对于【语言作为AI发展的工具】优越性来做的,其实已经包含了部分【民族及文化自信】在里面。
我本人看法没那么复杂:英文虽然不是很熟练但好歹也是读过大学的人,一般的英文文章能自己看,专业点的,借助翻译助手也没太大问题。中文就更不必说了。
所以本人的自我感受:陈经文章中非AI的部分,我是完全赞同的。AI相关的部分,有限怀疑,但内心深处认为【二维编码】的中文,在AI推理效率上胜过一维的英文,逻辑上没有问题。
中文写对不容易,但认对容易很多。
我孩子的经历,5岁到的美国,在家里我都是跟他说中文,所以说大致没问题,但词汇量小。另外我给他发微信都是写汉字。小时候学了几天写字,后来就没继续。也没上中文学校。到大了想学,很快捡起来了。
其实对于外国人来说,不是汉语难入门,我说的不是汉字,而是他们的语言和我们的语言有很大差异,我们有声调,他们没有,不是没有,而是他们用声调来表达语气,所以显然会觉得汉语奇怪,常常会在没表达语气的地方出现了语气。
尤其是汉字,对于学龄前儿童来说,学习汉字远比学习拼音文字更友好。
只要家长仔细观察过自己的孩子是怎么学文字的就能得出这个结论。
人类借用AI的目的是在瀚海中寻找出最佳的 尽可能客观的工具。算法在讲逻辑,逻辑推理不是线性的要讲辩证关系。中文(汉字汉语)语法比如“对立统一” 自带简洁的辨证逻辑。
中国悠久的历史总结出很多社会哲理,它如同数学公式可应用在社会各方面,信息库越大 越熵高越有宜。一个成语故事能概括出一个王朝兴灭,把它编成数码 会让AI认为最优自动选择。
认识很多跨文化家庭,特别是中外组合在第三国生活的(比如嫁给阿拉伯人在美国生活的师姐),最有代表性。
汉语读写的学习,是小孩子最困难的,凡是坚持学的,几乎都要挨打。在懂得fuck任何政治家之前,很多海华的孩子早就fuck朱自清了。当然,最常见的是直接放弃汉语,彻底切割。现代人素质高,给外祖父母英语拜年双方都没啥芥蒂。母语乃至祖国这些东西也不是自己选的,自己不够吸引人的话,被放弃毫不奇怪。
在不学汉字之前,汉语发音比较少,比较规律。辅音加元音的模式比较友好。这是事实。
比较不友好的,是各种大舌音小舌音的语言。
但是到了汉字这里就不友好了。特别是没有一个到处是汉字的语言环境的时候。
读写隔离,是学习的一大障碍。即使中国读书的孩子,我上初中的时候,语文老师都抱怨学生写作关难过。提笔忘字,说的很溜,但一些起来,语法词法不过关。汉语语法过于灵活,需要依靠长期阅读养成的习惯。像我儿子写东西,我有不一辆汽车。我就得给他纠正:我没有汽车。
😁😁😁😁😁😁😁😁😁
对于学龄儿童来说哪种语言文字容易学,应该各个样本在各自的母语环境下,按统计学规律进行观察,看哪种母语的语言文字更容易被儿童掌握,哪些儿童学习自己的母语语言文字效率更高。
如果你放大样本的数量,比如一千个一万个儿童,各自学习自己的母语,你肯定能发现汉语汉字是最容易学习的。