Dense模型不时出现32B在特定任务（尤其是qwen 2.5 coder 32B）反杀70B模型的情况。但是更通用的任务中，大家慢慢发现，知识点记忆（世界知识）仍然需要更大的模型来记忆。这时候高参数，低激活参数的MoE模型显出了优势，尤其是DeepSeek推进到几十上百个专家（分散记忆知识点），但是激活几个的模式，这个创新实际上其他家并没有做到，Mistral只做到8专家2~3激活。（这个创新也是Anthropic CEO文章提到的DeepSeek在MoE上走得更远的创新）

复感觉西西河到了这类前沿专业领域，信口开河的人有点多

家园

大模型是数据库+信息检索的融合，知识抽象程度既看前者也看后者

只是相关领域，并非大模型领域，但数据索引+搜索算法这块可就是我专业的领域了。

大模型与过去的数据库、数据索引、信息检索比起来，最大的特点是数据库、数据索引、信息检索全融合到一起了，而不是过去孤立的。

所以，大模型才能做到比任何数据索引+信息检索算法更快的搜索结果。而大模型与数据库最大的区别是，大模型把数据抽象成了知识。

大模型把数据抽象成了知识，这个是所有语言类大模型都在做的，而深搜我认为里程碑的一点，不仅表现在模型大小上，更是表现在搜索上。

1. 模型大小。

首先，模型大小不能直接以参数大小估计，你不知道参数的稀疏程度是怎么样的，所有高维模型，经常有大量零值的参数，即算法没把模型用到极限。

DeepSeek（深搜）作为一个独立推动的模型框架，无疑是符合这一点的，而过去的那些基于同一个框架的大模型，毫无疑问参数空间用得更多。

模型大小本身在网上也有数据，我记得是671G，结果你们纷纷告诉我参数怎么怎么样多。（模型文件大小,根据版本不同,最小1.1GB, 最大671GB。）

这也就是为什么在你这个回帖之前，我都懒得再发回复说明这一点，如果连一些最基本的常识都不清楚，我还非得去解释不成？

第一、如果比模型大小，连直接比模型大小都不会，只会比参数大小，那我说又能说啥，我又该说啥？

第二、比模型大小，首先你要选那些性能接近的模型，深搜之前有性能能超过OpenAI最新模型的模型吗？有的话轮的到深搜？

如果你不懂的性能曲线的含义，不懂得在OpenAI最新模型性能往上提升一个级别的含金量，不懂开源模型和闭源模型的性能鸿沟，那我说啥？

2. 搜索速度，这个碾压了吧？这个总该没有疑问了吧？这个性能曲线完全爆表到没办法用OpenAI的行能来防守了吧？

首先，你模型特别大，搜素速度还能上的去，我就从来没见过，模型小和算法好，两者兼备，才能把速度上升一个级别。

其次，所有的大模型最终考验的是预测、决策时候的性能曲线，用得好不好，反应快不快，我还不知道吗？国内一大票大模型知耻。

搜索速度上去了，就是从最终结果上，说明DeepSeek（深搜）的知识抽象程度高，否则你搜索速度根本上不去，靠GPU飙上去的啊？

3. DeepSeek的花费的时候也说了，算力是完全被碾压的，不论是训练的时候，还是预测和决策的时候，性能曲线能够反压，当然是算法的胜利。

算法>算力，但算法太难了，所以大多数时候，大家都是在原有算法那里微创新，然后拼算力、拼数据。

不是大家不想拼算法，而是风险太大了，没人敢做主，微创新风险就小很多，胜有功，失败也是理所当然的。

真的出现算法突破的时候，谁敢不跟风？但并不是大家不知道算法厉害才是真的厉害，你看看现在国内外有多少个跟风？

4. 最后的最后，我是因为只是相关专业，才不敢打包票，才只敢从我懂的角度，给出一些预测。

天天在网上洗地的有傻子，做最前沿的没有傻子，特别是DeepSeek在大模型中属于绝对廉价的，不跟风才是傻子。

那个飞来飞去的li feifei都抢跑到发论文了，这就是最好的证据。DeepSeek绝对是里程碑式的成果，也是当初chat-gpt之后到现在最重要的里程碑。

5. 补充一下，“知识抽象”在大模型领域的术语叫“知识蒸馏”，也就是OpenAI无端指责深搜的借口，但li feifei他们正在做的事情。

Qwen（阿里通义千问）2.5已经证明DeepSeek的模型是最好的。现在li feifei他们的论文好像是在证明DeepSeek蒸馏小模型的手艺是最高的。

我没详细看，是因为我又不是做这个方向的，我现在用深搜还来不及，我去管一个飞来飞去的li feifei做什么干嘛？

只要你是做相关行业的，你就知道DeepSeek的含金量，在当前的时间点上，不论深搜的框架，还是深搜蒸馏的手艺，都是世界之巅。

这就是里程碑的含金量，在这个时刻为止。（模型我不是世界之巅我不清除就不乱说了。）

通宝推：桥上,曾伴浮云,铁手,

复大模型是数据库+信息检索的融合，知识抽象程度既看前者也看后者

家园

正解，应该是突破性的进步

现在研究生论文做算法改进，能有百分之几十的性能提高已经是很好了，何况多数还是自己做了手脚，比如选择性地使用实验数据、选择性更改初始值、参数。但这些在硬件的更新面前根本不值一提。DS在算法软件上呈几何级数的性能提高，应该是算法进步的经典之作。

但河里居然抄袭论还依然很有市场，从表现来看，我也不太相信这几位河友是拿钱发帖的，只能说茧房效应无处不在。

本质上来说，现在的人工智能(包括AIGC)还不具备思维创新能力，但是可以比人类更快速地使用现有知识、进行复杂操作，相信河里的诸位已经在不远的将来可以看的到了。

复在军事斗争、情报收集整理、反间谍太有用了

家园

现在眼见着人力间谍的作用越来越小

主要还是因为现在各种主要的设备都成功国产化，西方通过设备来获取数据的途径被切断了。

复和gpt一样好，或者和gpt一样坏

家园

【原创】这些大模型是不是还是基于统计学原理对人类知识的梳理？

这些大模型是不是还是基于统计学原理对人类知识的梳理？

比如：哥德巴赫猜想只能由人来解决，而不是由大模型解决。但等到由人类解决并且可能会有多种解法之后，大模型才会在这些知识之上给出一个可能更合理，或者说可能大多数人认为正确的解决方法？

大模型可以把现有的知识进行梳理，在形式上可能会更快、更简洁、更完善、更炫的输出。但从零到一的创造性，它是不会具备的吧？

关键词(Tags): #创造性、哥德巴赫猜想、大模型、AI，

复【原创】这些大模型是不是还是基于统计学原理对人类知识的梳理？

家园

如果去问微博与百度那美国国际开发署就是NGO

昨天我问了豆包和DS，美国国际开发署是美国政府部门。

大家问问closeai与谷歌试试呗。

所以我看AI目前阶段的功能主要是辟谣反忽悠，传递正确的信息与认知。

你说的这个功能，五十年后能实现？

全看树展主题 · 分页首页上页下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明