近期网站停站换新具体说明
按以上说明时间，延期一周至网站时间26-27左右。具体实施前两天会在此提前通知具体实施时间

主题：这几天大火的Deepseek没有人讨论吗 -- 俺本懒人

共:💬38 🌺93 🌵6新 💬30 🌺3 待认可2

大浪淘沙

全看分页树展 · 主题跟帖

复这几天大火的Deepseek没有人讨论吗

家园

DeepSeekV3的知识领域评估和技术能力评估：数学、编程

因为语言类大模型的聊天机器人、话术、糊弄的本质，我本来对网上各种热议的DeepSeek完全不感冒的——直到今天我自己用了一下网页版。

总结：

怎么说呢？彻底脱离了聊天机器人的范畴，进入了智能助手的中间态：搜索助手、分析助手、汇总助手。

虽然距离真正的问答机器人还有距离，但已经特别接近了，最重要的是它性能够好，就不需要糊弄用户。遇到不懂的就老老实实告诉我：

【对不起，我还没有学会如何思考这类问题，我擅长数学、代码、逻辑类的题目，欢迎与我交流。】

我只能说，太惊人了，在我自己试用之前，我根本不相信，语言类大模型能达到这种程度。

【吕阿华机器学习算法那些事

《国产大模型之光-DeepSeek-v3技术报告解读》

核心评估成果

知识领域评估：

• 在教育类基准测试中，DeepSeek-V3 的表现超越了所有开源模型，在 MMLU、MMLU-Pro 和 GPQA 测试中分别获得了 88.5、75.9 和 59.1 的优异成绩。这一性能水平已与领先闭源模型 GPT-4o 和 Claude-Sonnet-3.5 相当，显著缩小了开源与闭源模型的性能差距。

• 在事实性知识评测中，DeepSeek-V3 在 SimpleQA 和中文 SimpleQA 测试中都展现出领先于其他开源模型的优势。特别值得注意的是，虽然其英语事实知识（SimpleQA）略逊于 GPT-4o 和 Claude-Sonnet-3.5，但在中文事实知识（中文 SimpleQA）方面却超越了这些模型，凸显了其在中文知识领域的特殊优势。

技术能力评估：

• 在数学领域，DeepSeek-V3 在所有非 CoT 模型（包括开源和闭源）中取得了最优性能。值得注意的是，在 MATH-500 等特定测试中，其表现甚至超越了 GPT-4o，充分展示了其出色的数学推理能力。

• 在编程领域，DeepSeek-V3 在 LiveCodeBench 等编程竞赛基准测试中表现最为突出，确立了其在该领域的领先地位。在软件工程相关任务中，尽管略低于 Claude-Sonnet-3.5，但仍大幅领先于其他模型，展示了其在各类技术评测中的综合实力。

】

全看分页树展 · 主题跟帖

相关回复上下关系8
- - 🙂就像生成模型，创造力只管生成，判断归用户。形式逻辑问题很大 nobodyknowsI 字4216 2025-01-30 12:42:24
  - 🙂只能说明你也是中国人 1 胡辣汤字424 2025-01-30 10:17:49
    🙂论文中类似的故事太常见了，但DS靠信息压缩获得了一定创造力 nobodyknowsI 字5147 2025-01-30 11:23:08
  - 🙂DeepSeekV3的知识领域评估和技术能力评估：数学、编程
  - 🙂DS再次证明东南金融资本是中国最先进的力量生产队的小鸭子字258 2025-01-30 08:29:57
    🙂哈，这货是真急了开起地图炮了 5 dudu8972 字421 2025-01-30 09:45:57
  - 🙂不如人类狡诈 6 瓷航惊涛字1280 2025-01-30 02:12:19
    🙂就想它什么时候 3 汉水东流字78 2025-01-30 06:40:47

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明