- 近期网站停站换新具体说明
- 按以上说明时间,延期一周至网站时间26-27左右。具体实施前两天会在此提前通知具体实施时间
主题:对ChatGPT的几点思考 -- 唐家山
发一个主贴吧。
根据我的观察:
1. ChatGPT是一个更聪明的智能辅助工具。善加利用,可以大大减少重复性的思维劳动。
2. ChatGPT的泛化能力不够,对于小样本或无样本的探索性科研活动,GhatGPT不会发挥太大作用。换句话说,对于真正的原创性工作,ChatGPT帮不上忙。
3. 传统的知识获取是通过教学和传承的方式进行的,是一种间接的方式。互联网的兴起,使得人类直接获取知识成为可能。ChatGPT可以使人类直接获取知识变得更加便利,成为一种常规操作,这是一种突破性的进展。
4. 如何更好地与ChatGPT类的AI协同工作,可能是一个重要的研究课题。我目前能想到的,就是要加强人类的元能力(不限定在具体的专业领域)和方法论方面的培养。比如说如何快速识别AI提供的知识的真假,就是一个很现实的问题。
我觉得咱们的开发方向应该是:
保证答案绝对准确&知道一点点
这样还能慢慢扩大它的认知范围,才能“迭代”。
据说chatGPT挺油腻,什么都知道&不保证回答准确这种,相当于我肚子疼它给推荐莆田医院,也不能说不对。。。
然后给它一堆可靠的书,让它通过阅读、分析来学习,然后根据这些知识来判断别的内容,怎么样呢?
而不是顺着编下去。所以人工智能就应该去搞工程应用,理工科而不是文史哲,那里才是比较客观理性的场合。chat这个连名字都叫做聊天,终极目标可能是陪聊菲佣或者原神NPC
耗用的时间与精力,可能比传统检索更多.....
在国家或者公司的层面,是否可以独立建造这样的AI bot,从而避免受到竞争对手的操控或限制?
第一篇是微软研究院的GPT-4的评估文章,英文版链接见
Sparks of Artificial General Intelligence: Early experiments with GPT-4
我引用的是中文翻译版
里面有如下值得关注的地方:
1. 执行伪代码。编译和执行用编程语言编写的代码很容易,但这也要求严格遵守语法和语义。编译器无法处理模糊或非正式的表达,或自然语言对功能的描述。相比之下,我们要求GPT-4执行图3.8中复杂的伪代码,注意到它能够执行并解释每一步(包括递归)。ChatGPT是不能执行的,尽管它看起来能够解释每一行代码。在下面的例子中,GPT-4正确地解释了合并数组函数(merge array function)的非正式描述,该函数将两个数组合并为一个包含缺失元素的数组。它还理解了以粗略方式定义的递归函数rec。值得注意的是,GPT-4直接执行代码,而不需要将其翻译成其他定义良好的编程语言。这证明了AGI模型作为一种用自然语言编程的新工具的潜力,这可能会彻底改变我们未来的编码方式。
在GPT-4上以零样本的方式运行用于大数乘法的图标伪代码。代码要求GPT-4更新并记住大量步骤的数组状态。我们观察到,尽管GPT-4被训练为(非精确)自然语言模型,但在超过50次更新后,它几乎可以正确地保存代码的状态。
这一点超出了我的预期。GPT-4似乎可以直接在概念上进行编程。如果为真,应该是具备了一定的思维能力。
模型在多大程度上展示了数学上的“真正理解”?
数学理解有几个方面:
1. 创造性推理:识别每个阶段哪些论据、中间步骤、计算或代数操作可能相关的能力,以便绘制出通往解决方案的路径。这一组成部分通常基于启发式猜测(或在人类的情况下,直觉),通常被认为是数学解决问题中最实质性和最深刻的方面。
2. 技术熟练:能够按照规定的一组步骤进行常规计算或操作(例如微分一个函数或在一个方程中隔离一个项)。
3. 批判性推理:批判性地检查论证的每一步,把它分解成子部分,解释它需要什么,它与论证的其他部分有什么关系,以及为什么它是正确的。当解决一个问题或产生一个数学论证时,这通常与当意识到某个步骤是不正确的时回溯并相应地修改论证的能力结合在一起。
GPT-4的表现如下:
创造性的推理。当涉及到高级高中水平的问题(偶尔更高水平)时,该模型在选择正确的论点或路径以获得解决方案方面表现出了高水平的能力。为了将这一点与上面的例子联系起来,模型正确地选择了在原问题中尝试并写出递归关系,并在后续问题中讨论多项式的复合次数。在这两种情况下,建议都是在“知道”这条路径是否会导致正确的解决方案之前提出的。4.2节和附录D包含了更多的例子,展示了模型在这方面的能力,我们将其与一个优秀的高中生甚至更高的学生进行比较。
技术熟练程度。虽然该模型清楚地展示了对与不同程序(如求解方程组)相关的算法的高度知识,但它在执行这些任务时也会非常频繁地犯错误,例如犯算术错误、混淆运算顺序或使用不正确的符号。我们在附录
D.1中进一步讨论了这些典型错误的一些例子。我们推测,这方面可以通过给予模型代码执行权限来改进,这将允许它更准确地执行计算或检查等效性;在附录D中提供了一些证据。
批判性推理。该模型在第三方面表现出显著的不足,即批判性地检查论证的每一步。这可以归结为两个因素。首先,模型的训练数据主要由问题及其解决方案组成,但它并没有捕捉到表达导致解决数学问题的思维
过程的措辞,在这个过程中,一个人进行猜测、遇到错误、验证和检查解决方案的哪些部分是正确的、回溯等。换句话说,由于训练数据本质上是对解决方案的线性阐述,在这些数据上训练的模型没有动机进行“内在对话”,即重新审视和批判性地评估自己的建议和计算。
GPT-4的表现也令人吃惊。个人感觉加上一定程度的”负反馈”后,GPT将来有可能完成数学意义上的理解和推理。当然这种"负反馈"会带来很多极端困难的问题,比如”推理发散”。但是目前已走出决定性的一步。
第二篇论文是新浪微博技术负责人张俊林的报告
ChatGPT 类大语言模型为什么会带来“神奇”的涌现能力?
这个报告给出了GPT类的AI具有初步推理能力的一个解释。里面主要说了三件事,有限现象,思维链和顿悟现象。
第二类具备涌现现象的技术是思维链 (CoT)。CoT 本质上是一种特殊的 few shot prompt,就是说对于某个复杂的比如推理问题,用户把一步一步的推导过程写出来,并提供给大语言模型(如下图蓝色文字内容所示),这样大语言模型就能做一些相对复杂的推理任务。
我们首先解释下什么是顿悟现象。如上图所示,对于一个训练数据较少的数学任务(通常是数字求和取余数的问题),研究人员发现一种新奇的现象。比如我们将数据集切成两块,50% 数据作为训练集(图中红线展示了随着训练过程往后走,任务指标的变化情况),50% 的数据作为验证集(图中绿线的走势展示了训练动态)。在学习数字求和取余这个任务时,它的训练动态会经历三个阶段:
第一个阶段是记忆期:红线对应的训练数据指标突然走高,代表模型记住了 50% 的训练数据的结果,而绿线对应的验证集指标接近 0,说明模型完全没有泛化能力,就是说没有学会这个任务的规律。所以这个阶段模型只是在单纯地记忆训练数据。
第二个阶段是平台期:这个阶段是记忆期的延续,体现为验证集合效果仍然很差,说明模型仍然没有学会规律。
第三个阶段是泛化期:这个阶段验证集合效果突然变好,这说明突然之间,模型学会了任务里的规律,也就是我们说的,出现了顿悟现象,突然就学明白了。
GPT的涌现和顿悟现象表明GPT具有了某种程度的概念记忆和理解能力。
最后是我在鼎盛上看到的一个帖子,现在找不到了,等以后找到再补充来源。其中的一个观点很有意思,说人的推理实际上是一种似然推理。GPT类的AI在规模达到一个临界点后学会了似然推理。这种推理在大多数情况下都是有效的。所以GPT具有一定理解和推理能力也是可能的。
真牛逼也好,吹牛逼也好,AI领域让帝国在前面蹚路,咱们再摸着石头过河吧。让帝国有一丝希望就不至于破罐子破摔。
当然我是觉得他吹牛逼的,例如Hulu公司是个啥,不就是个海外版优酷爱奇艺吧,招几千清华人印度理工人研发个啥子,比爱奇艺更流畅片源更多?还有既然帝国这么想要抖音,几十万印度理工人、全体微软人、全体谷歌人一起再研发一个不就好了?
没想到我们都很熟悉的12306,已经悄悄的移植到140多个国家。近日,据南华早报称,中国已经为140多个国家开发了12306国际版。这些系统每月都会生成结算报告,结算用的是瑞士法郎,绕开了国际通用的美元。系统除了交通应用功能,还提供收入核查,电子支付,清算等数据支持。12306这个翻身仗打的漂亮啊,记得刚出来的时候老是被骂,经过不断迭代,现在已经变成全世界最强大的票务网站。
————
分享一个好消息。
之所以结算用瑞士法郎,我来帮国家政府解释一下。这个世界上,除开美元大家都是OTHERS,后面,把结算货币从美元切换成OTHERS很复杂,从OTHERS切换到OTHERS很简单。
不过瑞士今年崩的这么快,可能是设计者当初没料到的。
闲下来,写了点关于AI的东西。不管算不算科普,希望大家给点建议。原创,码字不易,多包涵。
Go出现之前,AI的研究侧重于算法和逻辑的设计,即使神经元网络算法很早就出现在AI的研究里,但是也是侧重于算法本身。就数学而言,任何算法本身是一种强逻辑的关系,就如同数学定理的证明,前一步的证明是后一步的基础。所以,Go之前的所有棋类AI程序,都是着重于在基于当前棋盘形势下建立各种强逻辑关系,然后推理演算下一步棋的行动。
Go的到来,颠覆了这个思路。它不试图将每步行动间建立强逻辑关系,而是通过已知的海量数据的统计,来得到一个下一步行动高概率结果,进而直接使用该结果。这得益于计算机科学本身的巨大进步,使得有海量的棋谱和CPU运算能力可以被轻而易举地使用。这个思路,就是非常巧妙的模拟了人基于经验的思维。高手在下了几千几万局棋会,就自然而然的觉得我这样下就是对的。这每步与步之间,没有必然的强逻辑联系,就是纯粹因为新的算法中“学习”了几百万个棋谱后得出来的“经验”。实现了,从强逻辑到弱逻辑的转变。而随着“经验”的增加(也就是喂更多数据),终于完全超越了人类。
炼钢、轧钢模型已经是这种了。
最核心的还是,给出训练集和训练集的答案,然后不停的调整和训练,使得AI的输出和答案尽量一致。里面还有很多细节,但总体就是这样,可以认为是一种多变量多次函数的拟合。这样的方法,通常会带来过拟合,就是训练集内的样本,结果很好,而训练集外的样本,则非常差。现在这样的方法神奇之处在于,训练集外的样本,也非常不错。这个能力是怎么回事,现在还没能解释得清楚,这可能是仿造生物的神经网络带来的好处,毕竟是几千万年进化而筛选出来的信息基础结构。
那么AI有没有创造性呢?可以说有,也可以说没有。比如你喂给他梵高的画,莫奈的画,他可以创造出介于两者之间的,我们没见过的风格。这也可以认为是创造性吧。但是你希望它能无中生有,生成一幅唐伯虎风格的画,目前不可能,未来看起来也不太可能。所以也可以认为没有创造性。至于“顿悟”那样的创造性,从原理可以看出,是不可能具备的。
人类的思考,按目前来看,也可以认为是一堆神经元网络的互相刺激,最后得到一个输出,到底和计算机的模拟人工神经网络,有什么样的区别?从数学角度来说,本质上并没有什么区别。但是我们真的了解我们自己的思考过程吗?我们是否也是样本集+答案训练的结果?这个好像目前也不知道。
深度学习大潮起来的时候,有一个观点很有意思,说人类的思考在本质上是深度学习+贝叶斯系统。我的理解是人类的思考在最初时是“归纳”的。但是如何从"归纳”的系统中得出最基本的逻辑推演,或者说是生成“演绎”系统,需要一个跃变。这个跃变是人类文明最亮眼之处。
古代先贤在这方面肯定是做过深入思考的。佛教就有三支五明的因明学,西方是亚里士多德的三段论。但是真正成形还是欧几里得对几何的公理化。
如果ChatGPT跟人类的思考在本质上有相同的地方,那么ChatGPT类的发展应该也会遵循类似的路径。目前我还没观察到这一点。
我现在的看法改变了一些。主要就是发现表述无穷系统的逻辑规则可以是有穷的。换句话说,只要AI归纳出有穷但是完备的逻辑规则,那么AI是有可能描述并推理无穷系统的,这个是数学证明的基石。GPT-4有这方面的潜力,但是它还缺乏验证自己推理正确性的能力。
如果GPT类的AI能够发现并证明哥德尔不完备定理,那将是人类纪元终结之日。
其实ai领域,投资最大的并非自然语言处理,而是自动驾驶---很明确的应用前景,上万亿美元市场的赛道。在受限场景内,特别是码头这块,自动驾驶在国内已经实用化。但是在非限定场景,总是还有各种各样的问题,是样本无法覆盖,甚至无法预测的。我认识一些人,就是搞卡车的自动驾驶(他们的美国分公司,还被美国政府给刻意搞黄了),应该说相当实用了。前些天他们就遇到了这样一个问题:
自动驾驶检测出了小卡车上的车锥,于是认为前方禁止通行。
这个就是ai并非实际的推理,而是计算的结果。它无法推理出在运动卡车上的车锥不需要停车这个简单逻辑。这就是巨量投资下的现状。
gpt 的确有令人印象深刻的推理能力,gpt4 通过了物理本科的测试,对量子力学的“理解”可能超过了普通本科生。但这是计算的结果,就是硬生生的计算。其神经网络是否有人类推理中使用的大量高级和抽象的概念,这些概念在神经网络里是不是存在的?目前还一无所知。这也是其实ai这几年进步慢下来的原因,ai和人脑一样,我们并不知道它到底是怎么工作的,所以也很难有效的改进。gpt这种千亿参数的,就是大力出奇迹而已。
你说的推理,还有更高级的一种,ai能否创造一个新的领域?比如类似“流形几何”?,如果能象人类一样推理,那么这也是一个必然。但目前为止,真的没看到ai有任何希望做到。
比如要求作画AI1作梵高风格的作品,AI的评分方当然要有梵高的本人作品的数据库。