主题:chatGPT是我朝面临的巨大挑战!应鼓励天才和尖子,刻不容 -- 玄铁重剑
从一位网友评论想到
电车,一旦突破电池的困扰,油车就到头了,因为电车构造简单,电池续航充电问题,一旦解决,随便一家企业都可以造车,会有很多电动三轮车厂家,改行造车,因为门槛低,造车简单,不像油车,入门门槛高。
未来各个国家都有自己的汽车制造厂自己的汽车品牌,全世界几千几万个汽车品牌,大家进口中国的电池电机系统,自己造个外壳组装一下就是一辆车,绝大部分国家都能办到,还是民族企业,带来满满的自豪感,跟联想一样。
人工智能的判断标准,开始是人为判断的,就是最古老的搜索引擎,只要关键字对,就全给上,不管是否真的有关。
接着,就是新型的搜索引擎,典型的是谷歌,利用关联连接,这和学术文论的引用率是一致的,使得信息的关联度大涨,信息正确率大幅提升。然而,后来的搜索引擎优化技术,使得这个方法也失效了,就是海量的无关垃圾信息,靠人造的关联度,使其占据了主要的搜索位置。
现在,基于新一代人工智能出来的这个,是可以学习进化的,除了原先的自带模式,也可根据多个行为关联而学习。这也是有漏洞的,就是反复错误学习,可以令其失能。而这用机器自动批量做,比人类强得太多了。
就比如中文论坛里出现的海量1450,其只是几个关键词触发的批量处理程序,就已经造成了整个中文互联网海量信息失衡,舆论方向乱窜,比如去年河里的新冠讨论,自动处理程序不间断发帖回帖,全是一个讨论各种角度反复说,让真人辩论得不亦疲惫乎。如果其再加入学习进化模式,那原先反复刷固定文本片段的行为,将进化为自动演进文本,到时人类和人工智能辩论,绝对可以被气死。
考据?你要考据过就知道寻找一条谣言的信息来源有多难了,何况人工智能加了几道弯,相当于加了密。
换到学术领域,同理。现在的人为制造的垃圾引用关联,已经造成了很大的精力浪费了。楼上那位从事学术的,说他只需提交需求描述,人工智能就能给他提供有效的建议,这是 幸存者偏差,他刚好遇到几个他平时没注意的情况,他是如何判断是有效的?当然是平时自己的经验积累,其实他用原来的搜索引擎用合适关键词也是能做到的。但如果是一个学业未精的呢?其如何判断人工智能提供的意外建议是有启发性还是虚假的?实际上还是要经常遍历论文,积累到足够的经验了,才能做到楼上所说的效果,但当经验积累够的时候,有时候仅凭片段描述或者无关的一些信息,也能获得巨大的提示,这是人的能力提升,不是人工智能的能力提升。
另外,围棋人工智能,上个月就被一个业余棋手用不断下无理手的办法,14:1,给干翻了。
对其模式的优点和缺陷足够了解,才能知道其能力有多强,而不是瞎激动。
自行车简单吧,能独立造自行车的国家屈指可数。
电动自行车简单吧,台湾造的一辆2万人民币,大陆造的一辆4000人民币
围棋人工智能,上个月就被一个业余棋手用不断下无理手的办法,14:1,给干翻了
是谷歌的alfa?还是腾讯的绝艺?
如今AI最大的成就我认为就是对人类自然语言的理解。
过去的程序基本上是婴儿水平,大概能抓住一两个单词。完全没啥大用。你说:吃饭。他就去吃饭。你说:这饭有毒,吃了要你命,他听到吃和饭,还是去吃饭。这也就是电脑语音应答系统除了激怒客户没有任何用处。
但现在已经是7,8岁儿童,甚至十几岁儿童的水平了。说实话,十几岁孩子听说能力和成年人并没有什么太大的不同。这就意味着AI可以被当作童工雇佣来干活了。
你这个问题是他听懂了,但是然后呢?然后当然是看训练的具体效果了。 某一个细节问题,比如一个冷门的程序,比如银行用的那个Curbo语言,全世界可能就那么一两份说明书。那里边有几处错误。你再训练它听的再懂也只能给出错误答案。科研里面这种东西到处都是。 很多的问题一个人研究完了,下一个人可能是50年之后再来的(我自己就搞过)。前一个人错了,AI只能错了。
重复性极强的工作,肯定是被它抢走了。什么叫重复性不强,很可能也得由它自己一点点定义。肯定是它的地盘越来越大,人类的越来越小。
只要对人工智能有充足了解,就知道这不是什么意外,只是有没人闲得无聊去真的这么做而已。
报道时间:20230220
基于AlphaGO和AlphaZero,由哈佛大学AI研究员David J. Wu开发的顶级开源围棋AI:KataGo。
在实际对局上,Pelrin 通过时不时将棋子落在棋盘其他角落的方式,成功分散了 AI 的注意力,让它忽略了越来越危险的局势,最终输掉比赛。
在2016年李世石唯一赢下AlphaGo的一局棋,就向人们揭示了AI棋手的弱点。
在那场对局中,李世石在第78手走了一步超出AlphaGo计算的棋,这似乎导致了AI出现Bug,在之后频繁失误,最终输掉比赛。
而从后来AI研究人员的研究来看,寻找AI棋手的盲点,通过针对性的战术将其击败确实是一个行之有效,并能够复现的策略。
但讽刺的是,这一战术可以击败顶尖的围棋AI,但却无法击败任何一名有一定经验的业余棋手。
科研问题是典型的高维稀疏特征,这也是AGI最大的难点,没有之一。
但是要能针对性的增加数据,这一点恰好是可以解决的。当然,这个过程可能会持续将近10年,这也是人才培养体系最后的转轨期。
因为重要的数据,不是文章!是数据,不是文章!
/
因为之前已经发生过一次了,就是在生化领域大量的自动化替代,使得数据量指数级增长,最终诞生了alphafold这种玩意。你现在用“高通量”为关键词去搜会发现生化领域受惠于每年天量的研究资金,相关技术几乎全进化到了自动化版本。
比如这一个
https://www.mt.com/cn/zh/home/applications/Laboratory_weighing/high-throughput-experimentation.html
进行有机反应优化的典型工作流程
高通量试验打开了新的视角
自动化和6轴多臂机器人辅助的反应样品制备
进行有机反应优化的典型工作流程
全自动制备多组分配方(多对多)
在多达30个目标容器中自动加样一种固体物质(一对多)
高通量试验(HTE)可实现快速反应优化和针对治疗靶点筛选化合物库,彻底改变了药物研究。在采用HTE之前,手动程序将实验室的筛选测试能力限制为每周20-50种化合物。例如,一个包含3000种化合物的化合物库本应需要1-2年的测试时间。自动化技术大大加快了此类筛选实验的速度。使用THE,可以在指定条件下同时快速且不间断测试大量实验样品。每周进行800-1000个筛选反应非常普遍。可将筛选3000种化合物的假设库缩短至3-4周的测试时间。
/
这就是为什么生化领域是沦陷最早的,因为是最早自动化的,使得高维稀疏数据不再稀疏。很多比较领先的有钱组都是自动投材料自动收样品,样品自动收数据,全套高通量实验配合自动化分析,这种情况下产出的大量数据最终暴力跑通了不限于alphafold的一系列AI模型。所以alphafold为什么牛逼?因为施一公及那帮做crystal structure的人发现它真的牛逼。不需要再招塑料袋了。
/
这也是我觉得随着GPT模型泛化以后,基础科研数据的价值大幅度升高,使得很多不那么热门有钱的领域也会被拉入了自动化的猎杀范围,使得以后会像生化领域一样,同样会有公司制造专门的自动化机器批量产出数据投喂科研AI的代替大量硕博士。等于是GPT哪怕什么都没做,仅仅只是这个时代的号角声,提升了科研数据的价值,就变相的淘滩了大部分人罢了。
贵是贵,但是出来的数据绝对比现在散落在地球各地手工业师徒制产出的数据要可靠,大量淘汰师徒制硕博士研究生,到最后只会有同样有钱大组买得起先进自动化设备和软件授权的教授幸存。而少量没钱只能继续手工业的落后小组,他们的产出是几乎毫无意义的。只要能保证数据的来源,人类写文章是毫无意义的。
和很多人想的AI时代会缩小人力差距不同,未来更可能的是科研领域马太效应更加严重。科研领域要告别师徒制了。留给个人的只有大公司不做的夹缝,正如openAI逼得搞NLP的纷纷转行或者打下游一样。
什么东西,成千上万的造,品质要求一致。啥样的用户都有,但是你的使用体验不能差太多。坏了要能修,一个产品要至少支持5年以上。
能做到这些的,还是屈指可数。做不到,那缺钱的人可以自己买点硬件攒个机器。
他的思路和stable diffusion非常像,都是抠掉一部分信息让AI来猜。
GPT的预训练过程是通过训练大量文本数据来实现的,它使用了一种叫做masked language model(MLM)的技术,即在训练过程中,模型会被要求预测一些被mask掉的词,从而学习到文本的语义特征。在训练完成后,模型就可以用来处理文本,如文本分类、问答等。
让他做个鸡兔同笼,可能就瞎做。
想知道可以自己去问辅导员,但只能问自己的。
我说,你们不知道排名,都不怕奖学金发的不公平吗?他们似乎并不关心。
你说得非常对,GPT将极大地增加科研垃圾的产出。科研本来是一个进入宝库找法宝出来用的事情,现在宝库变成了垃圾堆,你得先进去翻来翻去找出宝贝,然后还得检验一下它是不是宝贝,最后才能拿来用。
但荒谬的是,这事可能对美国的不利影响更大。因为中国科研本来就有一个超级碳基分布式GPT在,大家都习惯了,反而影响不大。中国也有更多的人力去翻垃圾。
历史真是没有终结啊。
之前贸易战开打,我把在外的项目全搬码云上,然后,被审核,被封禁,然后重新搬出去了。。。
世界发展就是这样。
有些问题只是策略问题