meta 搞了很久搞出了 llama4 , 为啥小米可以这么快搞定 mimo - 尘火茶馆 - 尘火论坛

xinc 发表于 2026-6-3 14:59:04

国内人才储备量大？
deepseek 改变了时间线，有作业抄？

ly030513 发表于 2026-6-3 14:59:08

v2-pro 是 3/11 ，v2.5 是 4/22 ，算下来，考虑一下假期，差不多这个月 20 号，应该可以见到 mimo-v2.7 吧。

b71166614 发表于 2026-6-3 20:00:06

好像就是从 deepseek 挖的人，罗原来就是 deepseek 团队的

2367225475 发表于 2026-6-3 20:18:05

Deepseek 的存在，GLM5.1 的结构和 DeepSeek 几乎一样，只是在预训练和后训练上投入多点就可以获得不差的效果。架构带来的优势现在被拉平的不少，meta 的时代开源还没摸索出一个优秀的结构呢

bob13551 发表于 2026-6-3 20:29:04

meta 感觉主要还是之前组织比较混乱，调整后现在不是也有 muse spark 了，不过好像一般用户使用的还是比较少，也没啥声音说能力怎么样。

南空发表于 2026-6-3 20:36:27

因为 deepseek 每次开源之后写的技术报告太详细了，按照他的技术路线可以完全复现

xiaoqun 发表于 2026-6-3 21:00:07

第一国内卷，都是加班往前冲。第二可以蒸馏了啊。第三很多开源模型，照抄不会么

Aven 发表于 2026-6-3 21:02:07

所以粱圣伟大啊，这么好的东西就开源了。再加上蔡福莉也是在里头做了几个版本的。就好比你虽然不是主程，但也是项目里的高级程序了,把项目 copy 回去改改重新跑应该不难吧。难的是改方案，改架构。

1228076385 发表于 2026-6-3 21:28:05

除了有 deepseek 的因素以外，meta 在 llama3 到 4 期间，ai 实验室经过了很多人事变动和办公室 drama 。

多关注一下湾区的科技公司，你会发现科技圈的 drama 比洼地娱乐猪圈的 drama 有趣太多了😁

Yt张起灵 发表于 2026-6-3 22:00:09

挖天才少女 1 是评估冷启动算力，2 是流量。小米别的不行，搞流量和抄作业还不会吗

页: [1]

尘火论坛 | 精品资源分享社区's Archiver