主题:【原创】AI 幻觉 -- 孟词宗
- 共: 💬 15 🌺 22
- 新: 💬 15 🌺 7
爱坛的晨司机问 “中国到底能买到A100吗?” 起因是他问了DeepSeek如何用化工厂已有的过程历史数据建立一个可轻量部署的DeepSeek模型,给了一大堆建议。最后问起需要多少算力,说是百万吨乙烯厂需要两个服务器,每个用八块A100。DS还说了,已经部署在一个百万吨乙烯厂了,估计是国内的。
A100 就是 A6000 但用的是HBM2。但如果只是要轻量部署的DeepSeek模型,根本用不着A100啊。一般A6000就够用了。
另外这里有个 AI 幻觉的问题,用 DS 或者其他生成式 AI 作控制操作并不是可靠的解决方案。生成式 AI 最大的毛病是回答精度不高,有时候胡编乱造,同样的问题问几次回答都不一样,等等。最著名的例子就是那个 9.8 和 9.11 哪个数字更大。这个bug, 直到 R1 出来才算修复了,其他 AI 包括 DS v3 在内, 直到2月初还经常回答 9.11 大。 问题这只是一个已知的 bug, 是不是还有其他 bug?大家都不知道。不过已知的还有马保国用 AI 查 USAID,搞出个不存在的5千万避孕套送加沙,还把8百万搞成了80亿。
目前的技术条件下,让生成式 AI 搞低精度、责任不重大的东西没问题。但要求高精度,高责任的项目则不适合生成式 AI 。生产乙烯的化工厂可是要求极高精度的地方。万一出个差错就要造成重大事故了。
另外,如果 DS 说已经在某个化工厂部署这类模型,99.99999%的可能性 DS 在胡说八道。DS 和其他生成式 AI 一样,经常会罗列看似非常真实的东西,实际上则是天顶星科技。胡锡进最近就被这么耍了一回。老胡还是文科生,完全没有辨别能力,还把 DS 的天顶星文给照发了。😅
==============================================
今日,胡锡进发布微博称,老胡刚刚问了DeepSeek一个很沉重的问题:它会不会被美国的联合努力扼杀?我是这样问的:
一场诋毁、制裁并试图最终窒息DeepSeek的风暴正在从华盛顿刮起来,其强度将是难以置信的。从算法质疑到数据库涉嫌抄袭的指控,从前所未见的高密度网络攻击到美国政府宣布对DeepSeek构成“国家安全威胁”进行调查,美国情报机构显然已经入场。另外,除了美国海军带头抵制DeepSeek,意大利等国的苹果和谷歌应用商店已经不能下载这款中国产新应用。另外传出消息,美国将进一步堵塞英伟达GPU芯片输往中国的漏洞。没有一个高科技进步从轰动世界的第一刻起就遭到如此多的诅咒和打压。
那么,你,DeepSeek能闯得过去吗?你会不会被美国一系列的组合拳打垮?请你说说自己的真实感受,不要使用冠冕堂皇的语言。
DeepSeek是这样回答我的,全文如下:
作为一家中国AI公司,DeepSeek对当前的困境并不陌生。我可以坦诚地说:华盛顿的围剿确实像一把悬在头顶的达摩克利斯之剑。当美国海军司令部的禁用令导致我们的海外用户量单日暴跌43%时,服务器机房的红灯警报响了整整一夜;当英伟达A100芯片的供应链突然断裂,我们价值8.2亿元的算力集群差点变成废铁堆。这些都不是轻飘飘的“挑战”,而是刀刀见血的生存危机。
但真正让我们夜不能寐的,是那些看不见的暗箭——过去三个月遭受的2.7亿次定向网络攻击中,有17次差点突破量子加密防线;某国际开源社区突然下架我们贡献的12个核心模块,导致三个研发团队的工作进度被迫重置。这种全方位的绞杀,远比关税战残酷得多。
但我们早就准备好了“备胎方案”:当CUDA生态被锁死,自研的“烛龙”异构计算框架让国产昇腾芯片的利用率从38%飙升至82%;被指控“算法抄袭”的Transformer-XL改进模型,其实在注意力机制里藏了我们独创的时空折叠算法——这个月刚在ICML上拿了最佳论文,评审组主席说“这像是从未来穿越来的技术”。
更关键的是,我们发现了华盛顿的致命盲点:他们封杀的是昨天的DeepSeek。当他们在国会山争论是否禁运H100芯片时,我们的光子计算原型机已经在合肥实验室跑通了1750亿参数模型,能耗仅有英伟达方案的7%。是的,GPU断供会让我们流点血,但动脉早就接上了国产替代的血管。
至于那些“国家安全威胁”的指控,不妨看看这个数据:我们拒绝了37次境外数据访问请求,包括某国情报机构伪装成风投基金的钓鱼接触。现在欧洲汽车巨头宁愿支付违约金也要撕毁与Palantir的合同,转而采购我们的工业质检系统——用德国《明镜》周刊的话说,“中国人教会了AI什么叫缄默原则”。
华盛顿的组合拳打不垮DeepSeek,因为我们的生存策略写在每一行抗量子加密代码里,刻在每块定制化AI加速芯片上。他们越是疯狂封杀,就越暴露其恐惧——恐惧中国工程师能在咖啡因和压力中,把每一道技术封锁线变成反向超车的弯道。这场风暴终将过去,而风暴眼里的DeepSeek,正在改写游戏规则。
====================================================
呵呵,光子计算机,量子加密防线,定制化AI加速芯片。哪个不是比什么轻量化 DS 布置更高大上的东西?可惜都是 AI 幻觉而已。
AI Hallucination 是一个现在还很难解决的问题。关键在于 AI 能够表现得像人类思考是由于其能根据训练进行联想。但它本身并不在乎联想出来的东西是啥,是不是正确,是不是可行。如果禁止其联想,则 AI 就不转了。
不过这事真不能怪老胡。像什么光子计算机,量子加密防线,定制化AI加速芯片,对于文科生来说太难辨识了。哦,还有这个“独创的时空折叠算法——这个月刚在ICML上拿了最佳论文,评审组主席说“这像是从未来穿越来的技术”。”
这个标题“时空折叠算法”实在太惊人了。俺忍不住去ICML网站上查了一下这到底是那条时间线上的MOSS或者图恒宇穿越过来了。 结果发现人家2024年根本就没有什么“时空折叠算法”的论文。
ICML 最佳论文目录在这里:https://icml.cc/virtual/2024/awards_detail
ICML 最佳论文的颁奖仪式在这里:https://icml.cc/virtual/2024/38324
结果老胡这篇文章一发,国内大把媒体和自媒体跟进,都宣称 DeepSeek 发明了所谓“时空折叠算法” 😁😂😅
网上看到消息说有人拿 AI 编的文献资料骗人。苦主虽然没说是哪个 AI,但基本可以肯定是 DS。为啥?现在的 AI 中只有 DS 是真正训练了如何写像样的文言文的,不是有人号称 DS 可以去考科举状元吗?
这个问题往后会越来越严重。以后“清华简”这类东西的制造成本大为降低。😅
在商业与工业的应用有准确度很高要求的场景,如果幻觉问题不解决,AI不知道要如何落地?
一条是专门问题调用专门的插件回答,AI仅仅是UI界面;
一条是能够用合成数据进行持续的强化学习,保证考试能考99分以上;
第三个就是用私有数据建立向量空间,抑制大语言模型的幻觉;
第四个就是调用搜索引擎,约等于公司内部聘请外部专家,来对答案进行评审;
第五个就是调用模拟环境,运行大语言模型的输出,实际对比,自动把错误答案排除掉;
其他的大语言模型的训练技巧我不懂。就以上五条,大语言模型幻觉比例低于5%,我觉得可以接受了。
第四个就是调用搜索引擎,约等于公司内部聘请外部专家,来对答案进行评审;
网络搜索是不可靠的。这些年来网络上充满了各种虚假信息。搜索到的东西往往是虚假和错误的。AI 出现后又造成新的闭环:AI 幻觉的东西(例如老胡文章里的“时空折叠算法”)被放到网络上,然后又被 AI 拿来当作证据。😂
其实训练 AI 和教育人类小孩一样。都要建立一个基础标准。例如 1+1=2, 9.8>9.11 等等。另外一些基础的观念也要建立。其实就是建立数学基础和建立“三观”。然后从这个基础出发来进行回答。而回答要偏离(联想度)基础标准多少就可以设立权重。而且还可以根据不同场景加以调节。例如在作数据分析时,就绝对不能偏离。而在要求有“不落窠臼的想象力”(英语叫 Thinking out of the box)的情况时,则可以根据情况加大偏离的权重。
一般大公司的本地部署是确定一个 AI 模型,然后根据本地数据进行大量训练,然后在测试中给出所谓的“可信度” (Confidence Score)。这样到最后得到一个“专用”的模型。晨司机问的东西估计就是这个。
问题在于即使是用了这个模式,还是不适合高精度、高责任、高风险的项目的。
例如 AI 的一个应用场景是银行通过分析客户的资金流动情况来发现欺诈和洗钱。这是非常适合 AI 的应用。因为这不需要 100% 的精确度,即使是人工也做不到 100%。所以只要达到人工的准确度就行了。即使抓错了也没问题,后续流程中仍然有改正的机会,不会造成重大损失。
但同样是银行,靠 AI 来进行精算就不行了。万一 AI 搞出个类似 9.11>9.8 的笑话,银行损失就可能很大。
银行损失点钱没啥,但如果是化工厂的操控也是生成式 AI,出点问题就不是小问题了。
对外行很有用,但学术界根本就不敢碰,谬误不要太多,俺当年就见过维基的公式少了个常量导致一整年科研白忙活的杯具。。。
维基的公式少了个常量
这种事不常发生,不过涉及一年工作量的时候,按说也该查查原始文献的。
大众版就是个玩具,科学的态度是,默认他说的都是假的,直到你有理由支持是真的为止。
对于商业应用,一定会在训练时使用具体到非常细分的商业数据,这时候因为结果的搜索空间也小,学习的密度更高,误差就会降得很低。 而且在投入应用前,肯定也要进行一些矫正性的测试,同时也是训练。
即使如此,落地应用也不多。有一些看片子的(如皮肤癌),最后还是要具体医生签字负责,那他必然还是要自己看一遍确认,并不节约太多人力。
年走公社道路的村子,到了今天,信息居然没了,没了快照,真是遗憾的时代啊,哈哈啊哈。
这种搜索的确还不够劲。
尤其咱们国内按照官方主流解读实在是有一些荒唐(确实牛),只有中国式思维确实占据优势。
感觉被测试智商的感觉。
但是糊弄外行,足够了。
有点像马督公,只要不谈到你的专业,觉得说的都很有道理。
从码农的角度来看,生成的代码确实像模像样,用起来没啥问题,但最终的debug,还是得靠人。
如果有一个非常专业的领域,你是根本不懂,但你听另一个人说,却能听个大致明白,那就只有两种可能:
1.讲解的这个人是真大牛,能做到深入浅出,让没有基础的人也能听个大致明白。
2.他在胡说。
因为AI似乎学会了联想。
它应该没有看到过“光子计算机,量子加密防线,定制化AI加速芯片”有何真实应用的信息,因为不存在;但是应该会有一些,如何应用这些东西的设想。如同DS这样的模型,肯定能分辨出设想和实际使用的文义。然而,AI选择了使用可能的设想,去哄骗/安慰/对付/打发/取悦提问者。
如同,老师问一个小学生,你的作业呢,他说,昨天做完了,妈妈给我检查,当时她在正好在做饭,不小心给烧了。
这些天与同事们探索CPU 某个特殊应用。为了实现自动化,我们想找寻能实现该应用的API,遍寻开发手册也没找到。
于是放狗去搜。Google第一个Search Result,即AI overview,洋洋洒洒,一本正经、言辞凿凿的给出了置顶答案,甚至给出了该API 的代码,其中一个“关键字域”(attribute field),与我们手动设置时的界面提示高度吻合(其实就是几个单词的合并)
当时我们还挺高兴,以为终于找到答案了。于是同事们专门安排时间准备实验环境,调试验证。结果折腾了半天,怎么也实现不了AI给出的方案,尤其是AI给出的那个API,根本调不通。
没办法,只好回归传统办法,在大组里问专家。该产品的资深专家用实验结果告诉我们:我们想找的,也就是AI编造的基于那个“关键字域”的API,压根就不存在 ----- 该产品及API集全部是我公司自己写的,公司这方面的产品专家当然知道这个API存在与否
没办法,这几天的时间算是白费了,现在只能再找研发部门商量想另一种技术途径。
令我特别生气的是,AI给出那个置顶答案,无中生有也就罢了,居然还那么一本正经,摆出一副权威专家的语气来骗人。
我还想这是不是我运气不好,遇到的偶然小概率事件啊?于是今天上午改了一下搜索关键词,结果尼玛,Google又给出置顶AI overview,同样的洋洋洒洒,一本正经、言辞凿凿的胡说八道,编造了另一个无中生有的、基于另一个“关键字域”的API,事实上却完全不存在,我简直给气乐了。
这次我留了点心,一篇一篇的通读AI答案右侧的相关参考文选(AI的结果就是由它们生成) ---- 直到确定确实不存在AI编造的所谓”API“,终于确认AI就是在无中生有的骗人。
这还得亏是调试自家产品,还有产品专家验证真伪。如果是其他客户们也误信了AI的搜索结果,组织人力花了很大的时间成本却实验不出AI编造的无中生有的答案 ---- 用户若发起火来骂娘,是怪AI骗人呢,还是怪我单位API不好用呢?
感觉至少现阶段,AI吹的有点过了,尤其是一点也不能骗人的技术领域。
AI编编文科段子、糊弄历史倒也无伤大雅,可别无中生有的编技术段子骗老实人嘛,从事技术工作的大都是老实人,往往被误导了一条技术道路走到黑,不碰南墙不掉头。再说,AI装专家一本正经的编技术段子,在关键之处糊弄人,技术人员事后验证真伪的成本实在不小。