- 近期网站停站换新具体说明
- 按以上说明时间,延期一周至网站时间26-27左右。具体实施前两天会在此提前通知具体实施时间
主题:茗谈149:赤雁 -- 本嘉明
共:💬318 🌺1612 🌵35新 💬65 🌺8
复 你不懂什么是蒸馏
蒸馏需要海量的token进行高频率的训练,只有开源才有可能在本地部署大模型,进行高带宽的交互才能实现。
靠付费API那点流量,根本蒸不出来6710亿的大模型,就算行,也付不起那个费用。
- 相关回复 上下关系8
压缩 4 层
🙂huggingface上有完整复制deepseek的训练 86 陈王奋起 字2109 2025-02-04 13:37:15
🙂蒸馏只可能蒸馏Open source的 6 老虎008 字0 2025-02-05 12:38:13
🙂你不懂什么是蒸馏 2 向前向前 字90 2025-02-06 11:46:08
🙂他的意思应该是不开源负担不起
🙂碰到懂技术的了。 他估计是搞成了PPO 戒定慧 字0 2025-02-07 08:24:42
🙂陈王是懂相关技术的人,老虎河友也是 19 方平 字1792 2025-02-07 03:28:45
🙂方平应该是博通的 史料推理 字0 2025-02-07 04:12:50
🙂真正的西方专家还是不敢明着跳出来诋毁的 14 梓童 字364 2025-02-04 22:58:51