淘客熙熙

主题:中国文明只有63岁——《大目标》后记 修正技术错误 -- 马前卒

共:💬216 🌺1256 🌵22
全看树展主题 · 分页首页 上页
/ 15
下页 末页
家园 嘻嘻嘻嘻,到了量子计算里边,就是0和1的任意叠加态。
家园 “汉字的熵值是9.6比特,英语字的熵值是4.0比特”?

老兄从哪里得来的数字?你能用4比特编码26个字母?9.6比特拿来编码只能容纳不足1千个不同字符而已。你肯定你的数字没错?

暂且不论你比较的基础是错的——汉字可以表达基本意思,字母绝大多数情况下不行,必须至少组成单词,你可以再看一下平均一个单词要多少比特——即使你所谓的熵值比较是成立的,后面关于人脑计算机的推论也过于跳跃了。

可能你自己都没有意识到,你在假设人脑运行和计算机运行的方式是一样的。事实上这个假设并不成立。照你的说法,数字0-9比26个字母“占地”更小、“运行”更快,为什么人们不抛弃字母转用数字呢?不就是一种编码方式吗?原因在于人脑在识别图形上有巨大的优势,这是在漫长的进化过程中形成的。人脑不是计算机,让人脑以计算机的方式处理事情结果只能是邯郸学步。

家园 与字母对应的是汉字笔画而不是汉字

你的长篇大论就是废话

家园 你真的看过信息论与通信原理?

熵值越高的语言,用其进行通信时发生错误的可能越大(容错率低,冗余度低)

通信错误率是信道的特征,和信源没有任何关系。

而信息论的核心问题,就是把信源编码到(相同码字长度内)最高的熵值。

汉字的熵比字母高得多,这很正确,虽然你的数据可能有问题。但是,依据信息论,(如果二者是可比较的话)汉字是更优秀的信源编码方案。

不过,你给的数据本身可能有问题,因为英文字母的熵不可能有4之多(记得根据一些理论估计,极限应当在1.3左右,这是压缩软件可达到的最大理论极限),而英文单词的熵又显然要比4高很多,如果你用的是2为底的对数的话。另外,汉字的熵和英文字母或者词的熵是不可比较的,虽然二者同为熵,虽然物理上熵是无量纲的。

家园 花!能不能给咱科普一下?
家园 愚蠢的历史观

你的这个唯心主义历史观丝毫没有事实根据,照你的观点,中美之间应该是所谓文化的对抗,而不是国家利益。辛亥革命也是西方文化的侵略,虽然不是很彻底。甚至佛教东传也是印度文化的征服。而现在所有高喊民主的也都是文化汉奸。只有抱着几千年前的文化僵尸才是正确的。

家园 看来你读汉字是从笔画上下手的

比如你读“木”这个字是横竖撇捺这样的笔顺读得吗?

由于阅读汉字是从图形上下手,相当于囫囵吞枣,本身就造成差不多现象。

也正因为汉字读写依赖于图形识别,简化字的设计概念就出现了。

同样一本联合国文件,为什么英文文本要比中文文本多1.4倍的页数?

家园 8年了,现实都变了

经过20年的高速经济增长,到今天,以钢铁、机械、电子和化学为中心的基干产业全线崩溃,钢铁业只能做粗钢,化学也只能生产初级原料,半导体产业早已消失,机械行业行将就木。中国几乎不能够独立设计生产现代化的工业产品,武器装备依赖进口,国民经济所需的各种装备也依赖进口,中国作为工业国家的基础已经瓦解了。

点看全图

外链图片需谨慎,可能会被源头改

家园 汉字单字是最小语素单位,熵值的确是9.6比特

你能用4比特编码26个字母?9.6比特拿来编码只能容纳不足1千个不同字符而已。你肯定你的数字没错?

ASCII码采用8位二进制码(可以提供2^8=256个字符码,),每个码信息量为8比特,对付熵值小于8比特的拼音字母绰绰有余,而中文单字的熵值是9.6比特,不能拆分,超过8比特,8个比特的256个位码就不够用了,就必须采用16位二进制码(2个8位码,可以覆盖2^16=65536个中文字)。

拼音文字的语素最小单位是字母,英语的26个字母,根据使用频率计算,得出的熵值是4.03比特。如果假定26个英文字母使用频率一致,我们可以简化对英文字母熵值的近似计算得出其值= log2(26)=4.6比特。

这个熵值是信息熵,同热力学上的那个熵的量纲不同。

有人争辩汉字的笔画是最小字素单元,这个论点是错误的,我在上面的帖子里就提到“木”这个字,我们不是依赖于"木“的横竖撇捺笔画顺序来这样读“木”这个字,而是根据图形识别。

阅读英文也不是通过字母的书写顺序,而只要通过单字的第一个字母和最后一个字母来辨识英文单字:

点看全图

外链图片需谨慎,可能会被源头改

而相比之下,太平天国的大平天国和犬平天国的写法错误不能通过单字的本身错误所纠正,而是要依赖上下文来判断---对一个不熟悉中国历史的人来说,大平天国没有一个错字,但他无法知道这个词的错误在哪里。

4比特熵值的英语单字可以很容易地克服本身的错误拼写,而9.6比特熵值的中文就要靠上下文来判断单字的错误写作了,这就是汉字的熵值高的表现,必须额外输入负熵(上下文判断)减少混乱度。

尽管英语的书写冗余度高,英文的字母排列还包括发音,不仅仅是为了书面阅读所需,还有语音元素,所以其冗余度是拨给用于语音载体,因此准确地排列是必须的。

而汉字本身不带有语音元素,全部字素用于视写辨识,最终造成读写分离,同时也给简化字带来可能--简化字类似于mp3的压缩制式。

家园 还是读过一些的

信源编码和信道编码是这样理解吗?

现代信息论的创始人、美国数学家商农(Claude Elwood Shannon)曾经提出了“ 商农信道编码定理” 。这个定理指出, 在一个非扩展的无记忆信源中, 用二进制代码表示的码字的长度不能小于信源的嫡。汉字的摘值大, 其相应的二进制码字的平均长度也就很大, 即使是一个最优的信道编码系统, 其二进制码字的平均长度至少也应与汉字的嫡值相等, 这就必然要影响到通讯的效率。从这个意义上说, 汉字的嫡值大对于信道编码是不利的。

汉字的熵值是9.65比特,恰恰超过ASCII码的8比特值,所以必须采用16比特码--现实中,汉字编码采用2个字节,每个字符的确占用16比特。

在中文信息处理中, 汉字的嫡值大, 也给它在计算机上的输出和输入带来很大的困难。尽管现在汉字在计算机输出和输入已经不成问题, 但汉字输出输入的效率比之于拼音字母的输出输入效率要差得多。中文信息处理不仅仅只是进行汉字的输出和输入, 还要开发人机对话、机器翻译、中文自然语言理解等高技术的智能系统, 这些工作必须编写大量的程序。如果用汉字来编写计算机程序, 而不用拉丁字母来编写程序, 这样的程序的运行效率肯定是不会很高的。从这个意义上说, 汉字的嫡值大对于中文信息处理也是不利的。

上面的回答是不是解释了你的汉字通信的信道和信源问题?

对于人类的大脑这个在发育时期体积和性能不停扩增的CPU来讲,被高熵值编程语言占领过的运算区域而造成的格式化和模式化,可能永久地影响了这些区域在未来的发挥创造性和逻辑性的功能--我实在希望这些影响将是积极的。

家园 你对信源编码和信道编码在汉字上的理解是有问题的。

现在正在上班,明天周末写点东西和先生你探讨,好吗?

家园 是啊,这是同一个人吗?

差别也太大了。能不能写点心路历程啊。

家园 拍有拍的理,被拍的更难得

首先说您拍得有理,其次得说督公的这个分类法极偏向技术进步层面的思考非常难得。

人类重大技术类进步比如火对于原始人类进化,农耕与游牧生产技术对于人类摆脱动物界至关重要,煤和石油的使用对于人类得以突破人力与畜力使用至关重要;但是从能源运用来说--火,柴伙,煤和石油对于核能源来说属于区别不大的能源使用水平,人类掌握了核能是至关重要的进步。

在这些技术进步面前,社会层面的进步是与之相适应的,过去不适应朝代王国死,现在不适应则地球文明死。督公高度推崇技术进步是我们比较少考虑的角度,我们一向推崇人类思想道德社会制度进步决定了技术进步,而极少重视里程碑意义的技术突破对于人类生存进步的决定性意义。

河里有不少提及这方面的好贴:比如美洲马玲薯清代中期后引进大规模种植对于中国人口突破1。5亿的作用;袁隆平的杂交水稻和大化肥尿素设施70年代完成的引进,对于中国粮食产量80年代得以突破并在现今3861部队种粮仍得以稳定的意义;还有中国79年前缺衣少被与现在丰衣的突破(包括发达国家)取决于石油中提炼的化纤顶起了中国纺织原料40%的天地(和发达国家比例基本持平了),青霉素对于全人类寿命的提高等等,新中国1958年得以工业化生产青霉素后即刻大幅度降价抗生素药,不管生活得心情舒畅不舒畅,这是中国人均寿命提高的至关重要的保障,到底病死容易气死愁死不易。在这些技术没有突破发明之前,人民、政权政党、文化传统、政经制度等社会层面上的进步与不进步基本可以视作在一个有限框架内的挣扎而己,只能缓解改善不能从根本上解决问题的。

但为什么说您写得极为正确呢,因为您非常形象化地阐述了人类社会结构与技术大进步之间缓慢或激烈的长长的调适过程,说得极精确。

以下是一位宇宙物理学家眼中的人类进步史和展望的未来(缩略改写而成)

火,由一个智慧个体组成的孤立群体如部落所利用(十为单位的倍数组成即可满足)。

熔炼和原始冶金技术来制造武器,要求更大社会单位,由数千个个体如村庄组成。(千为单位的倍数方能满足)

蒸汽机的发展,要求有化学和工业基础的发展,需要数以百万计的个体组成的团体社会单位如国家。(百万计的单位倍数方能构成生存单位体)

核能的释放以100万倍的比例使化学爆炸相形见绌,但提纯铀也可以由利用内燃机的社会单位如国家来完成,而社会发展如停留在敌对国家形态时,严重的不协调产生了,可以用于故意破坏的技术在发展速度上突然超越了社会关系的缓慢发展,因此这种文明自毁的可能是很大的。地球文明现在是200个单位构成,不少单位已经拥有毁灭人类几次的核武器,还有潜在个体团体及小单位组织都能拥有,极小单位的利益就容易引发冲突导致核武使用失控,因此地球这个行政单位体是严重滞后了。至少现今的人类单位要以十亿计。

注释:地球终有人类生存的极限,人类何去何从?总不能老靠人类自我阉割只生一个好不生娃娃最好吧,那就只有移民太阳系诸如火星土星什么的呗,从这个意义上说,今天人类掌握的技术那真是水灵灵的(嫩极了),有嫌人类技术过了头,先把地球上的地震和台风的预报和能量控制住了再说。

如果从能源使用级别上来分,那有这样几个阶段:

最初人类靠双手,能源就是肌肉的能量。相当1/8马力

最近10万年,手用工具出现,矛刀棍棒。达1/4马力

1万年时,冰川期结束。农业发明,动物驯养出现,相当1马力。

人类社会结构变化,有人能使用更多他人劳力,能量增加了(阶级等级社会出现)。

200年来,工业革命发生:第一阶段蒸汽机出现,相当数十到数百马力;第二阶段19世纪后期,电磁力发现,电力出现,发电机取代蒸汽机。第三阶段20世纪中叶,核力发现,化学反应能量以电子伏计,而核裂变和聚变的能量以百万电子伏计量,100万倍的能量增长。

说到这儿,科学家终于喘口气说,现代人类纵横地面,从地面升到太空,终于飞得比鸟高潜得比鱼深跑得比马快了总算把自然界动物甩在后面了,总共没超过50年。

而至今核能使用还只在武器上,远没有开发成熟,人类要走向外太空尚待核能源取代石油煤炭为代表的能源才行。现代科技进步,别说个人无法完成,国家体也未必完成得了,国际合作越来越多,比如国际热核反应堆计划,各国单干的激光核聚变。理论物理的基础研究国际合作如LHC(大型强子对撞机)粒子加速器,多个欧洲国家合力建造14国管理,设备占地就在瑞士和法国两个国家内。2000年美国建成RHIC对撞机(相对论性重离子对撞机),花了10亿美元,有钱有地儿的才有条件单干,一般人别想了。

无论如何分类,从古到今,人类组织结构是向更大更强前进,更统一的政治经济形态,也追求更为广阔的文化认同,必须与技术生长一致。所谓知识结构国际化通用化即人才国际化,经济一体化,文化思想软实力输出全球化,都是它的体现。欧盟的探索决非偶然,是对这种技术能力的主动调适。人类工业革命一开始从小国岛国最早开始并成功,1900年后的历史就是陆地与海洋兼备的大国取代岛国和海洋小国的进程,至今未歇。西班牙英国荷兰到法国德国,必须依靠本土之外扩张出来的殖民帝国,进至俄罗斯和美国依靠本身巨大的体量取而代之;亚洲慢了半拍,先日本后南朝鲜台湾香港新加坡四小龙,直至中国印度两大巨人应声而起,南美的巴西和非洲的南非,没有一个不是大块头。当技术使人类生活活动半径从步行扩展到跑马,再到蒸汽机跨海越洋,直至飞到天尽头地球天下一家,这样的技术革命带给人类的影响绝不会享受吧,小国的机会过去了。人类上了月球真正是一小步,如果人类有了火星土星作为生活家园,您会如何理解家国天下?这一切都是与人类掌握工业能力要求相匹配的资源市场和利益范围相适应的。

想想,中日为了钓鱼岛,一个核武国家VS一个准核能力国家;中印之间有个地区叫藏南干脆两个核武对对碰,;印巴之间有个克什米尔,两个核武国家你追我赶;以色列这个公认的隐性核能力国家独对一堆穆斯林国家,有富得买得起核能力的,有自行干得成的;还不考虑那武器开放国度可以通过DIY拥有的某某人某某团体…不少了,足够让人汗毛立正了稍息不了。(完全不需考虑究竟以民族,意识形态,宗教乃至政治经济哪个名义或实质意义的冲突,孰是孰非不重要,冲突就够了)

督公说得不错,中国这63年的确属于划时代的变化,从思想文化和实践上,中国实际上接受了工业革命的核心精神,拚命追赶和抢夺技术革命的火把,自觉主动地调适自己,文化上适度的扩张性,全球意识的眼光与行为原则(关门自过自家的过时了),包括对自家老文化穷打猛打这种看似自戕的行为。谁意识不到技术大转变格局的到来,谁死的概率就大。人类近200年是加速度的进步,而1945年后技术进步则是指数级别的,一步落后可能再无翻盘机会了,日本现代改良只早中国不到20年就基本跟上了西方的脚步,而中国就没这个运气了。所以把63年算作中国里程碑意义的转折有道理。您强调中国继承的历史结果是63年的基础,这个正确,但它也是过去调适的结果,是调适成功的证明,但今天如果不调适,过去成果就打水漂了。中国过去成功调适自己存活至今,曾经领航多时,现在我们奋勇争先,既是对自身历史的交待,也是给予对手最大的敬意。江山代有新人出,长江后浪推前浪,让更有生命力的新生力量为人类探索导航。

通宝推:舞动人生,
家园 我觉得你陷入一种历史自虐情节中不可自拔
花!
家园 中国周边造出来的也都是拼音文字…………

日本和韩国,非汉字部分(包括汉字的一些异体字)好像都是拼音文字。

也许从另一方面证明:不是自然发展出来的文字,即使借鉴的是中国这样的表意文字,也只能创造出表音的文字来。^_^

全看树展主题 · 分页首页 上页
/ 15
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河