主题：对ChatGPT的几点思考 -- 唐家山

共:💬175 🌺1562 🌵7

科技天地

分页树展主题 · 全看首页上页下页末页

- - - 复美国基层医生水平太烂
      家园 我儿子小时假也得过川崎病
      一直发烧不退，省儿保专家门诊、主任门诊也都按普通的发烧治，连着去了几天就是不退烧。后来有一天去迟了，专家门诊、主任门诊的号都没了，只能挂了一个副主任门诊，结果副主任一看儿子指尖褪皮、地图舌，立马说“川崎病，马上住院！”。挂了十多瓶白蛋白，温度马上下来了(原因就是孩子体质差，医生说如果不挂白蛋白，以后心脏可能会有影响）。过了一年多，儿子又连续发烧不退，住院了也退不下来，跟医生说以前得过川崎病，症状也差不多，结果这些医生都说川崎病不会第二次得😨。烧到了第8天（天天40度以上，我都担心把脑子烧坏了），正巧看到上次的那位副主任来查房，赶紧过去问：“医生，川崎病会不会得第二次？”医生一句反问“谁说川崎病不会得第二次的？”天哪！救星啊！赶紧请副主任过来诊断，后面就好了，跟上次一样的操作，白蛋白一挂，心就放下了。后来一打听，这位副主任就是研究川崎病的。
      我老婆前年摔了一跤，看了各大医院的专家门诊都说是脚扭了，好好养一段时间就行，结果过了将近3个月，还是说脚痛，我说要不去看看中医吧。到了中医院，也是挂的专家号（现在都是网上挂号，特意选的足部骨科专家），拍了片，医生一看，你这是撕脱，有点迟了，建议每天复健操。再往上一看，韧带断裂😭，住院！
      前面好几位专家，也是认真看病了，但我估计，可能是研究腰骨科、手骨科的，不对路。现在医生研究的方向可能是越来越细化，不对路的病就不是太清楚。但如果对上了研究方向，那还是效果明显的。
      通宝推：青青的蓝,紫梁,白马河东,方恨少,唐家山,
    - 复美国基层医生水平太烂
      家园 微信上好大夫小程序可网上问诊国内医生
      - 复微信上好大夫小程序可网上问诊国内医生
        家园 而且经常咨询完大夫会给医院加号门诊的机会。
      - 复微信上好大夫小程序可网上问诊国内医生
        家园 国内3甲
    - 复美国基层医生水平太烂
      家园 川崎病....太吓人了
      据说要在多长时间内治疗，否则预后非常不好
    - 复美国基层医生水平太烂
      家园 我觉得ChatGPT实际要解决两类问题，
      一类是聊天功能，还有帮孩子写作业，帮懒人写文章，反正是吹，对错关系不大，关键是聊天或者行文的感觉要对，这是要通过大数据磨练的迭代的。
      另一类是真问题，恐怕要通过不同的材料集获得，好比对于医生来说，实际上已经有他们的系统，河里介绍过，对于各种病的诊断及治疗，都会有最新的成果，如您查到的，网上也会有。当然可能对于一般人不够友好，最好是通过聊天的方式获得，但本质上就应该是原有的那些。
      而且给ChatGPT训练的，也应该是医疗系统的东西，不可能也不应该让网上其他的材料掺合进来，否则就乱套了。
      但是如何把这两类在一个系统里整合起来，肯定不简单，不过对于普通人，好比有个专门的ChatGPT医生也够用了，不必包罗万象，包罗万象搞不好更容易出错。
      通宝推：唐家山,
      - 复我觉得ChatGPT实际要解决两类问题，
        家园 你这里点到一个很关键问题
        就是GBT的回答水平与使用的深度非常依赖提问者/使用者自身的知识水平。不同于常说的“没有愚蠢的问题，只有愚蠢的答案”，在GBT的使用上，如何提问可能才是得到正确答案的决定因素。比如，一个医生使用GPT应该就会比普通人使用GPT得到的帮助大得多。从一个侧面也说明为什么网上使用过GBT的人的之后的反应参差不齐，一方面是被媒体掀起的期望值，而另一方面也与每个使用者自身的话题与知识水平有关。
        GBT的这个问题虽然目前已经被逐渐广泛认识到，但也带出了另一个问题，就是GBT自身没有目标（goal）这个概念，自身不会去给自己制定复杂的goal，为了回答问题可能内部有一些简单的比如去哪里搜索额外的信息等事先规范过的目标，比如曾有新闻说GBT靠撒谎获得某系统使用权限但无法证实。而人包括动物的行为特点是一切活动都是有目标的，虽然有点自我有意识有的完全无意识，比如情绪控制下的举动是无意识的，而骗子的话术是有意识，所以如果担心GBT对人类社会产生危害，或担心涌现出自我意识，这个goal目标的底层行为模式是前提。动物与人进化出这个行为模式是自然界适者生存的结果，而GBT没有这样的生存压力，大模型本身实际是个知识模型，其唯一的行为设计是输入与输出，虽然具备能力接受一个目标提问，但只能输出一个相关的计划与推理过程，但是没有自己执行这个计划的能力。
        比如你提问要求去网上爬虫抓数据，GBT可以给你写一段程序，但不会自己去运行这段程序然后提供给你答案，甚至我不管GBT如何去获得数据，只管要答案，GBT自己决定使用什么手段或自带工具去完成。至少我还这样试过，也许有人这样用过我还不知道。
        当然从AI广义上去说，自主意识与自主指定目标的能力是分不开的，而这也是AI最危险的能力。从底层上从基本设计上限制这个能力自然应该是所有AI产品团队的一个必备常识，相关立法很快出现也不奇怪。这个限制同时也解决了AI取带人这个人们最关注的问题。话句话说，一切人类目前在做的伪装成脑力劳动的体力活，即没有复杂目标而且范围很窄但深度不小的脑力劳动，包括科研与分析工作中的很大一部分，行政管理，制造流程，产品市场，教育与医疗中的大部分都应该会被GBT直接冲击到。当然最经典的可能就是对应试教育下的做题家的冲击，这虽然是网上的蔑称但说明一定问题而且是个比较普遍的现象。
        类似我们从小都会背诵的小九九乘法口诀，可以在完全无意识中只依赖肌肉记忆流畅运算。人类现代教育很大一部分是注重在培养这些无意识条件反射的基本能力上。网上经常被开玩笑的知道分子与知识分子的称号，互联网的兴起也带动了大量的”知道分子“的广泛出现，甚至给人感觉只要依赖搜索引擎，大学本科教育都可以不需要了，大量工作的存在也是吸收这样的教育培养出来的”人才“的源头。那么，GBT至少在这个角度重塑社会劳动的组成，重新思考教育的重点，在未来几年到几十年中会有很大波及。当然更深度的对社会的冲击肯定也可以开脑洞引发更多思考与展望，至少是键政的一个兴奋点。
        通宝推：唐家山,桥上,
    - 复美国基层医生水平太烂
      家园 赤脚医生为贫下中农服务
      赤脚医生不知道川崎病，不好苛责。
  - 复今天看到的新闻，ChatGPT答对“美医生资格考”90％题目
    家园 希望能用在中医上，开发我们伟大的宝库。
- 复对ChatGPT的几点思考
  家园 最近看了三篇文章，对GPT的看法有了改变
  第一篇是微软研究院的GPT-4的评估文章，英文版链接见
  Sparks of Artificial General Intelligence: Early experiments with GPT-4
  我引用的是中文翻译版
  通用人工智能的火花:GPT-4的早期实验
  里面有如下值得关注的地方：
  1. 执行伪代码。编译和执行用编程语言编写的代码很容易，但这也要求严格遵守语法和语义。编译器无法处理模糊或非正式的表达，或自然语言对功能的描述。相比之下，我们要求GPT-4执行图3.8中复杂的伪代码，注意到它能够执行并解释每一步(包括递归)。ChatGPT是不能执行的，尽管它看起来能够解释每一行代码。在下面的例子中，GPT-4正确地解释了合并数组函数(merge array function)的非正式描述，该函数将两个数组合并为一个包含缺失元素的数组。它还理解了以粗略方式定义的递归函数rec。值得注意的是，GPT-4直接执行代码，而不需要将其翻译成其他定义良好的编程语言。这证明了AGI模型作为一种用自然语言编程的新工具的潜力，这可能会彻底改变我们未来的编码方式。
  在GPT-4上以零样本的方式运行用于大数乘法的图标伪代码。代码要求GPT-4更新并记住大量步骤的数组状态。我们观察到，尽管GPT-4被训练为(非精确)自然语言模型，但在超过50次更新后，它几乎可以正确地保存代码的状态。
  这一点超出了我的预期。GPT-4似乎可以直接在概念上进行编程。如果为真，应该是具备了一定的思维能力。
  模型在多大程度上展示了数学上的“真正理解”?
  数学理解有几个方面:
  1. 创造性推理:识别每个阶段哪些论据、中间步骤、计算或代数操作可能相关的能力，以便绘制出通往解决方案的路径。这一组成部分通常基于启发式猜测(或在人类的情况下，直觉)，通常被认为是数学解决问题中最实质性和最深刻的方面。
  2. 技术熟练:能够按照规定的一组步骤进行常规计算或操作(例如微分一个函数或在一个方程中隔离一个项)。
  3. 批判性推理:批判性地检查论证的每一步，把它分解成子部分，解释它需要什么，它与论证的其他部分有什么关系，以及为什么它是正确的。当解决一个问题或产生一个数学论证时，这通常与当意识到某个步骤是不正确的时回溯并相应地修改论证的能力结合在一起。
  GPT-4的表现如下：
  创造性的推理。当涉及到高级高中水平的问题(偶尔更高水平)时，该模型在选择正确的论点或路径以获得解决方案方面表现出了高水平的能力。为了将这一点与上面的例子联系起来，模型正确地选择了在原问题中尝试并写出递归关系，并在后续问题中讨论多项式的复合次数。在这两种情况下，建议都是在“知道”这条路径是否会导致正确的解决方案之前提出的。4.2节和附录D包含了更多的例子，展示了模型在这方面的能力，我们将其与一个优秀的高中生甚至更高的学生进行比较。
  技术熟练程度。虽然该模型清楚地展示了对与不同程序(如求解方程组)相关的算法的高度知识，但它在执行这些任务时也会非常频繁地犯错误，例如犯算术错误、混淆运算顺序或使用不正确的符号。我们在附录
  D.1中进一步讨论了这些典型错误的一些例子。我们推测，这方面可以通过给予模型代码执行权限来改进，这将允许它更准确地执行计算或检查等效性;在附录D中提供了一些证据。
  批判性推理。该模型在第三方面表现出显著的不足，即批判性地检查论证的每一步。这可以归结为两个因素。首先，模型的训练数据主要由问题及其解决方案组成，但它并没有捕捉到表达导致解决数学问题的思维
  过程的措辞，在这个过程中，一个人进行猜测、遇到错误、验证和检查解决方案的哪些部分是正确的、回溯等。换句话说，由于训练数据本质上是对解决方案的线性阐述，在这些数据上训练的模型没有动机进行“内在对话”，即重新审视和批判性地评估自己的建议和计算。
  GPT-4的表现也令人吃惊。个人感觉加上一定程度的”负反馈”后，GPT将来有可能完成数学意义上的理解和推理。当然这种"负反馈"会带来很多极端困难的问题，比如”推理发散”。但是目前已走出决定性的一步。
  第二篇论文是新浪微博技术负责人张俊林的报告
  ChatGPT 类大语言模型为什么会带来“神奇”的涌现能力？
  这个报告给出了GPT类的AI具有初步推理能力的一个解释。里面主要说了三件事，有限现象，思维链和顿悟现象。
  第二类具备涌现现象的技术是思维链 (CoT)。CoT 本质上是一种特殊的 few shot prompt，就是说对于某个复杂的比如推理问题，用户把一步一步的推导过程写出来，并提供给大语言模型（如下图蓝色文字内容所示），这样大语言模型就能做一些相对复杂的推理任务。
  我们首先解释下什么是顿悟现象。如上图所示，对于一个训练数据较少的数学任务（通常是数字求和取余数的问题），研究人员发现一种新奇的现象。比如我们将数据集切成两块，50% 数据作为训练集（图中红线展示了随着训练过程往后走，任务指标的变化情况），50% 的数据作为验证集（图中绿线的走势展示了训练动态）。在学习数字求和取余这个任务时，它的训练动态会经历三个阶段：
  第一个阶段是记忆期：红线对应的训练数据指标突然走高，代表模型记住了 50% 的训练数据的结果，而绿线对应的验证集指标接近 0，说明模型完全没有泛化能力，就是说没有学会这个任务的规律。所以这个阶段模型只是在单纯地记忆训练数据。
  第二个阶段是平台期：这个阶段是记忆期的延续，体现为验证集合效果仍然很差，说明模型仍然没有学会规律。
  第三个阶段是泛化期：这个阶段验证集合效果突然变好，这说明突然之间，模型学会了任务里的规律，也就是我们说的，出现了顿悟现象，突然就学明白了。
  GPT的涌现和顿悟现象表明GPT具有了某种程度的概念记忆和理解能力。
  最后是我在鼎盛上看到的一个帖子，现在找不到了，等以后找到再补充来源。其中的一个观点很有意思，说人的推理实际上是一种似然推理。GPT类的AI在规模达到一个临界点后学会了似然推理。这种推理在大多数情况下都是有效的。所以GPT具有一定理解和推理能力也是可能的。
  通宝推：zwx650,破鱼,白马河东,川普,心有戚戚,桥上,
  - 复最近看了三篇文章，对GPT的看法有了改变
    家园 又看了三个微信公号的文章
    AI教父Hinton最新采访万字实录：ChatGPT和AI的过去现在与未来
    吴军：ChatGPT七问七答
    ChatGPT的胜利，是概率论的胜利，也是贝叶斯定理的胜利
    印证了我的一些看法，也获得了一些新的知识。
    两点感想：1. GPT类习得的知识还是“固定”的，所谓推理是浅层的和线性的。2. GPT类的AI如果想达到强人工智能，底层的模型还需要大改。
    通宝推：zwx650,桥上,
    - 复又看了三个微信公号的文章
      家园 目前已经有学者开始填补人类思考和AI思考之间的gap
      高维计算是一个可能的解答。
      数学的强大超出你的想象——高维计算，让机器像人脑一样感知世界和类比推理
      尽管像ChatGPT这样的大型语言模型取得了显著的成功，但支持这些系统的人工神经网络（ANN）可能存在问题。
      首先，人工神经网络非常耗电。其次，它们缺乏透明度，意味着这些系统如此复杂，以至于我们无法真正理解它们是如何工作的，以及为什么它们能如此有效地工作。这种复杂性使得人工神经网络很难通过类比进行推理，而类比推理正是人类的一种思考方式——用符号表示对象、概念及其之间的关系。这表明，当前的人工神经网络可能需要在某些方面进行改进，以解决这些问题。
      人工神经网络的不足之处可能主要源于它们的基本结构和构建模块：单个人工神经元（individual artificial neurons）。每个神经元负责接收输入、执行计算并产生输出。现代的ANN是由这些计算单元构成的复杂数字网络，经过训练后可以完成特定任务。
      我们的大脑感知自然世界的方式不可能是通过单个神经元来表示不同的信息。例如，我们不会在大脑中有一个专门用来检测紫色大众汽车的神经元。相反，大脑中的信息是由许多神经元的活动共同表示的。这意味着，感知紫色大众汽车的概念不是由一个神经元的活动来表示的，而是由成千上万个神经元的活动共同表示的。当这些神经元以不同的方式激活时，它们可以表示完全不同的概念，例如粉红色的凯迪拉克汽车。这种观点强调了大脑对信息编码的复杂性和多样性。
      这是一种高维计算（hyperdimensional computing）。在这种方法中，每个信息片段（例如汽车的概念、品牌、型号或颜色等）都被表示为一个单一实体：高维向量（hyperdimensional vector）。
      向量是一个有序的数字数组。以三维向量为例，它包含三个数字：三维空间中一个点的x、y和z坐标。高维向量（也称为超向量）可以是包含10,000个数字的数组，表示在10,000维空间中的一个点。这种方法涉及的数学对象和代数操作非常灵活和强大，有助于现代计算突破当前的局限，并推动一种新的人工智能方法的发展。
      这预示着一个全新的计算世界。在这个世界里，计算过程将变得更加高效和稳定，同时，机器所做的决策过程将是完全透明的，使人们能够更好地理解和控制这些决策。
      高维计算的优势在于能够通过组合和分解高维向量进行推理。最近的一个例子是2022年3月，IBM苏黎世研究中心的Abbas Rahimi及其同事成功利用高维计算与神经网络解决了抽象视觉推理领域的一个经典问题。这个问题对于普通的人工神经网络，甚至对某些人来说都是一个极具挑战性的问题。这个问题被称为渐进矩阵测试（Raven's Progressive Matrices），其任务是在一个3×3的网格中展示一系列几何图形图像。网格中有一个空白位置。参与者需要从一组候选图像中选择一个最适合填入空白位置的图像。
      高维计算的另一个优点是透明性：代数能清晰地解释系统为什么会选择某个答案。然而，传统的神经网络并没有这个特点。Olshausen、Rahimi等人正在开发一种混合系统，该系统中神经网络将物理世界中的事物映射到高维向量，接着高维代数就会接管处理。Olshausen表示，这种方式使得诸如类比推理这类问题变得容易解决。他认为，我们对任何AI系统的期望应该是能够像理解飞机或电视机一样去理解它。
      还有一个方向是神经网络的可解释性。贴一篇综述文章吧。
      卷积神经网络的可解释性研究综述
      神经网络模型性能日益强大, 被广泛应用于解决各类计算机相关任务, 并表现出非常优秀的能力, 但人类对神经网络模型的运行机制却并不完全理解. 针对神经网络可解释性的研究进行了梳理和汇总, 就模型可解释性研究的定义、必要性、分类、评估等方面进行了详细的讨论. 从解释算法的关注点出发, 提出一种神经网络可解释算法的新型分类方法, 为理解神经网络提供一个全新的视角. 根据提出的新型分类方法对当前卷积神经网络的可解释方法进行梳理, 并对不同类别解释算法的特点进行分析和比较. 同时, 介绍了常见可解释算法的评估原则和评估方法. 对可解释神经网络的研究方向与应用进行概述. 就可解释神经网络面临的挑战进行阐述, 并针对这些挑战给出可能的解决方向.
      通宝推：桥上,
      - 复目前已经有学者开始填补人类思考和AI思考之间的gap
        家园 增加一篇陶哲轩对GPT的评价
        ChatGPT已加入数学家的工作
        里面有一段比较有意思：
        话说回来，既然都只是用作数学研究中的一个工具，为啥在陶哲轩眼中AI会更合适，而传统搜索引擎就不太行呢？
        因为AI“思维逻辑”更发散！
        陶直接从传统计算机软件和AI工具的内部运行逻辑分析了一通。
        先来说传统的计算机软件，它的运行逻辑类似于函数，这是一个很标准的数学概念。具体来说，若输入的在给定域中，软件就能够可靠地给出范围中的单个输出，若输入不在给定域中，则就不能给出结果或者说乱给一些结果。
        而AI工具，就不会像传统计算机软件那样死板，它运行的逻辑不是基于经典函数，而是类似于概率输入，AI会从一个概率分布μₓ中采样，然后随机输出。而这个概率分布，集中在完美结果附近。
        不过这样也会导致一些随机偏差和不准确结果的产生。但整体比较下来，AI工具还是具有一定的优势。
        一方面它更加灵活，可以比传统的软件工具更优雅地处理嘈杂或格式不好的输入。另一方面，在一定程度上AI的“思维方式”也会更加发散。
        但对于AI半自动证明定理的论文，审稿人就难了。
        其思路跟河里的讨论是一致的。
        我现在有点相信天才们的灵机一动可能是在更大样本上的概率匹配。但是如何对样本边界进行扩充则完全是个人的天赋了。
      - 复目前已经有学者开始填补人类思考和AI思考之间的gap
        家园 你引得部分观点不是不证自明的
        例如，我们不会在大脑中有一个专门用来检测紫色大众汽车的神经元。
        这个是有争议的，而且是比较早的争议了。一个著名的反驳论据就是Jennifer Aniston Cell：
        原文
        评述
        而且，你论证逻辑里
        高维计算的另一个优点是透明性：代数能清晰地解释系统为什么会选择某个答案。
        这个不成立。就好比写代码注释写得好，对其他程序员或者KPI考察者来说是优点，但是并不是对用户来说的优点。类似的，人脑的进化方向选择，并不包括让人类更容易理解这一标准。
        通宝推：卡路里,唐家山,
        复你引得部分观点不是不证自明的
        家园 关于大脑中有一个专门用来检测紫色大众汽车的神经元
        这个应该很多MRI一样的试验直接看得到吧，还有很多小老鼠受刺激的大脑激发网络，这样的例子很多了。
        结果是人类目前对脑科学的理解不比对宇宙的理解更深，“人脑的进化方向选择，并不包括让人类更容易理解这一标准”，这句话越看越想笑，人类试图用自己的大脑理解自己大脑的运作原理，这条路真的能走通么 😄

分页树展主题 · 全看首页上页下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明