- 近期网站停站换新具体说明
- 按以上说明时间,延期一周至网站时间26-27左右。具体实施前两天会在此提前通知具体实施时间
主题:茗谈149:赤雁 -- 本嘉明
6710亿参数的事情人家已经用论文详细阐述了,deepseek不是石头缝里面蹦出来的,先后发表了13篇论文,一步一步阐述自己的算法发展过程,开源了训练方法和训练结果,用多少张卡人家也公开了。多卡并行计算的时候CUDA效率不高,人家绕过CUDA,采用接近汇编语言的方法重写了通讯协调过程,大大提升了计算效率,更有意思的是,这个汇编语言代码,人家也开源了。
再去质疑人家的数据就显得是没有身份的死缠烂打了。
至于550W美元,并不是deepseek自己说的,是好事者根据耗用的GPU机时数估算出来的,并不准确。真实的开发成本,人力永远是大头。 deepseek有140人,按照国内人均100万的行情,一年1.4亿,加上试错的算力成本,deepseek一年花费2~3亿是合理推断。但就算这个成本,也是让人绝望的成本。1/10的训练成本,1/20的推理成本,1/50的人力成本,不要说领先,就算落后1年,领先者也没有任何盈利可能。因为开源,企业可以私有化部署,对公共AI需求就会大幅度降低。他们永远赚不回烧掉的钱,一旦不烧钱,马上落后。
至于美国有人拿出1个亿美元,组300个人的梦幻团队,山寨deepseek的技术路线,中国人会怕吗?睡着都会笑醒。先不说1亿美元在美国组建不了梦幻团队。开源的LLaMa团队一年花几十亿美刀,成果摆在那里。难道2018年图灵奖得主Yann André LeCu领衔的团队不够梦幻?说到技术路线,法国豪华团队Mistral走的就是MoE(混合专家路线),他们两个连富二代阿里的Qwen都打不过。而且阿里是要商用部署的,通常会先在阿里云商用,过6个月开源,确保自己的商业利益。现在阿里的开源版本都领先LLaMa和Mistral,说明中国AI是涌现式的崛起了。
任何指数增长的领域,早期的投入会换来巨大的飞跃,后面的增长必然进入线性区。这个时候有人手拿无限美刀进来,复制deepseek的技术路径,去海量砸钱,等于替中国人验证各种算法的靠谱程度。等到你验证完毕,我只要轻车熟路就可以跟上了。如果美国人靠钱多算力多开路,你说我们开不开森?
真要比拼算力,就要看今年下半年了。华为的升腾910C和升腾920,会真正让美国人体会到什么叫算力。十万卡阵列?800G光通讯?那是华为的强项。能源供应?那是中国的强项。
在AI的斗兽场上,是顶级精英的较量,也是中国生死存亡的较量。以中国人的种族天赋,斗争精神和人才厚度,任何一个维度都远超白人,他们有什么理由赢?
在中国这种轻松年产1亿架无人机的国度,哪有乌克兰发话的余地。谷爱凌代表中国出征奥运会,为国争光,很好,也是她毕生的荣耀,如果她接下来不愿意做中国人,就由她去好了,如果她以后发展更好,对于曾经的同胞,我们给与祝福。如果她一路走下坡路,对很多人也是一个教训。
- 相关回复 上下关系8
压缩 5 层
🙂人家利用的就是一张黄皮而已 7 梓童 字426 2025-02-05 01:59:23
🙂【讨论】6000亿参数 1 本嘉明 字987 2025-02-04 19:14:19
🙂【整理】F-35与歼-35的对比 本嘉明 字216 2025-02-05 06:58:29
🙂训练费用和开发费用是两个概念
🙂【讨论】你这个主语 本嘉明 字216 2025-02-05 10:15:51
🙂恭喜本大国师懂了开发费用和训练费用的区别。不积硅步无以至千里 exprade 字0 2025-02-05 13:01:25
🙂【讨论】还搁那儿尬吹乌克兰无人机 15 金银鑫 字613 2025-02-04 20:38:50
🙂【讨论】美国中部千万人口城市是哪个? 本嘉明 字476 2025-02-04 21:53:38