淘客熙熙

主题:openAI又迭代出GPT4了,这次支持图片的理解能力了 -- 亮子

共:💬51 🌺146 🌵3
全看分页树展 · 主题 跟帖
家园 转自鼎盛,文心一言有人测试了,写代码不行,逻辑性不行 -- 补充帖

当然,再烂总归是自己做的,比亚迪跟华为的初代产品也是烂的不行,只要肯下功夫迭代总会变好的。

【被迫上场?我们全方位测试了文心一言,只能说_____。【差评君】】 https://www.bilibili.com/video/BV1hY4y1X7Cs

这里分类讨论一下二者的表现:

1.写一首以猫为主题的打油诗 文心一言:生成了一首类似七言诗的作品,语感上更接近我们印象中的古诗,但是没看出和猫有什么关系,并且用了一个不存在的典故。 gpt4:生成了一段真。 打油诗,不咋押韵,用很白话的语言写了猫,文学性不咋地。 这个环节其实我觉得半斤八两。

2. 写代码 让他们写一个点击会变色的按钮。 文心一言:生成了一段js代码,并且在要求它补充html和css的时候失败。 gpt4:直接生成了html+css+js代码,粘贴进浏览器就能运行,实测可用。 让他们写一个2048游戏 文心一言:生成了一段2048的js代码,因为主持人不是程序员,于是丢给了gpt4。 gpt4:直接指出了文心一言的代码变量名命名错误(用数字开头),数组上限错误(应该从0到2047而不是2048),让它修正后它修正了,并且指出文心一言这段代码并不是一个2048游戏代码(笑死,嘲讽拉满)。 让他自己写一个,它同样生成了一个html+css+js的2048游戏代码,主持人复制到txt里改个后缀就能玩了,就是有点简陋,并且新生成方块的逻辑是随机的。 把gpt4的代码丢回文心一言:文心一言并不能解析代码是什么意思,而是直接把gpt4的html给生成显示了…… 这算不算一个攻击漏洞 总之,写代码,被薄纱。

3.写文章 让他们写本手、妙手、俗手那个高考题。 文心一言:文章全篇都是围绕围棋本身,更像本手、妙手、俗手的名词解释,主持人复制到浏览器搜索可见大片重复文字。 gpt4:逻辑吊打,从围棋术语引申到人生态度,至少是真的在写作文,不过这里主持人就没查重了,感觉不太严谨。 林黛玉倒拔垂杨柳 文心一言:开头还行,写一半逻辑没了,“用一根竹竿然后林黛玉爬上去然后倒拔了柳树”,所有人都没看懂林黛玉怎么拔的。 gpt4:试图用文学性取胜,有很多环境、人物语言描写等,但是理解成了把其中一个柳枝倒过来,操作是用红丝带拴着一个柳枝使它倒过来。 孙悟空穿回三国会发生什么 文心一言:这次老老实实列了四个可能性,说孙悟空有可能会和三国的人物相识,从而发生xxx故事。 gpt4:相比之下更厉害的地方在于,它会结合孙悟空的个人能力,比如头脑聪明,法力强大,再结合个人能力分析他在三国会怎样。 我也是看了gpt4的答案,才像弹幕里说的意识到,相比之下文心一言的回答可以把孙悟空换成隔壁小王,也没啥区别。 总结:逻辑性应试性的文章chatgpt吊打,脑洞类两个有时候都抽风。

4.逻辑陷阱 类似于刘备和刘秀什么关系,爸爸和妈妈能不能结婚,番茄炒西红柿怎么做这种问题,文心一言的表现和gpt3差不多,会胡说八道。 gpt4基本都能识别出陷阱。 当然这个也是gpt4这次重点优化的一个部分,表现被薄纱我觉得没啥可惊讶的。

5.数学题/逻辑题 用1234做24点 文心一言:傻了,直接出bug,大段无法理解的文字。 gpt4:先给你解释怎么一步步生成的24点,最后列出算式。 用3L和5L的水桶称出4L水 文心一言:3L水桶装满,倒进5L水桶里。 没了,摆烂了。 gpt4:第一步.3L装满,倒进5L水桶 ; 第二步 3L装满再倒进5L水桶,直到5L水桶装满; 第三步 把5L水桶倒空; 第四步 把3L水桶剩下的水倒进5L水桶 (此时3L水桶里还有1L水); 第五步 3L水桶接满,再倒进5L水桶(此时有4L水) gpt4不仅对了,还会分步骤,甚至会给括号解释内容。 被薄纱 另外直播快结束的时候好像还测了一个开根号的问题,文心一言又bug了,疯狂输出的那种bug。

6.辩论赛 让他们扮演一个辩手,辩论“近墨者黑”和“近墨者未必黑” 文心一言:对不起,我不能扮演辩手和你辩论。 gpt4:好的,我将作为辩手和你辩论。 然后围绕“近墨者未必黑”,从个人选择和家庭影响两个缅方面展开了论述。 严格按照总-分-总模式形成了论点。 把gpt4的论点粘贴给文心一言试图让他反驳:好的,我来反驳。 然后把gpt4的论点复读机了一遍。 总结:被薄纱

7.文生图以及文字转语音 文心一言:文生图没有一次达标的,让生成围棋棋盘,中间硕大的国际象棋; 让生成西红柿炒蛋,出来毫不相关的图; 让生成林黛玉倒拔垂杨柳,直接拒绝生成。 文字转语音:多次尝试关键词后,成功了。 不过恕我直言,这和其他文字转语音软件有啥区别啊…… gpt4:没有这个功能,被薄纱了呢(狗头。 没有测gpt4的多模态读图功能,虽然我觉得这才是多模态的核心。

8.上下文理解 文心一言:上下文理解稀烂,很多时候两句话之间都无法形成记忆,更别说连续对话了。 gpt4:这还用赘述么,3.5时代就可以一直callback没问题了。 总结: 测到最后主持人绷不住了,总结文心一言的优势的时候说它有gpt不具备的文生图和语言功能,大家自行评判。

其实chatgpt出现之所以惊艳众人,就是它强大的逻辑归纳能力,以及上下文语意理解能力是划时代的,和之前的人工智障观感完全不同; 再加上强大的代码生成能力,不止能写,主要是还能理解,论文类也不在话下,这种类似的应用就可以解放生产力。 文心一言的逻辑能力和上下文理解可以说还是很初级的水平,对于语意的理解也很一般,更别提整合信息的能力。 我们当然可以说给国产技术一些时间,关键是,openai给不给他们时间呢? 发布于 2023-03-16 22:46

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河