淘客熙熙

主题:这几天大火的Deepseek没有人讨论吗 -- 俺本懒人

共:💬38 🌺93 🌵6新 💬30 🌺3 待认可2
全看分页树展 · 主题 跟帖
家园 DeepSeekV3的知识领域评估和技术能力评估:数学、编程

因为语言类大模型的聊天机器人、话术、糊弄的本质,我本来对网上各种热议的DeepSeek完全不感冒的——直到今天我自己用了一下网页版。

总结:

怎么说呢?彻底脱离了聊天机器人的范畴,进入了智能助手的中间态:搜索助手、分析助手、汇总助手。

虽然距离真正的问答机器人还有距离,但已经特别接近了,最重要的是它性能够好,就不需要糊弄用户。遇到不懂的就老老实实告诉我:

【对不起,我还没有学会如何思考这类问题,我擅长数学、代码、逻辑类的题目,欢迎与我交流。】

我只能说,太惊人了,在我自己试用之前,我根本不相信,语言类大模型能达到这种程度。

--

--

【吕阿华 机器学习算法那些事

《国产大模型之光-DeepSeek-v3技术报告解读 》

核心评估成果

知识领域评估:

• 在教育类基准测试中,DeepSeek-V3 的表现超越了所有开源模型,在 MMLU、MMLU-Pro 和 GPQA 测试中分别获得了 88.5、75.9 和 59.1 的优异成绩。这一性能水平已与领先闭源模型 GPT-4o 和 Claude-Sonnet-3.5 相当,显著缩小了开源与闭源模型的性能差距。

• 在事实性知识评测中,DeepSeek-V3 在 SimpleQA 和中文 SimpleQA 测试中都展现出领先于其他开源模型的优势。特别值得注意的是,虽然其英语事实知识(SimpleQA)略逊于 GPT-4o 和 Claude-Sonnet-3.5,但在中文事实知识(中文 SimpleQA)方面却超越了这些模型,凸显了其在中文知识领域的特殊优势。

技术能力评估:

• 在数学领域,DeepSeek-V3 在所有非 CoT 模型(包括开源和闭源)中取得了最优性能。值得注意的是,在 MATH-500 等特定测试中,其表现甚至超越了 GPT-4o,充分展示了其出色的数学推理能力。

• 在编程领域,DeepSeek-V3 在 LiveCodeBench 等编程竞赛基准测试中表现最为突出,确立了其在该领域的领先地位。在软件工程相关任务中,尽管略低于 Claude-Sonnet-3.5,但仍大幅领先于其他模型,展示了其在各类技术评测中的综合实力。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河