返回列表 发布新帖
查看: 175|回复: 9

meta 搞了很久搞出了 llama4, 为啥小米可以这么快搞定 mimo

xinc发表于 2026-6-3 14:59:04 来自手机版 | 查看全部 |阅读模式
国内人才储备量大?
deepseek 改变了时间线,有作业抄?
回复

使用道具 举报

ly030513发表于 2026-6-3 14:59:08 来自手机版 | 查看全部
v2-pro 是 3/11 ,v2.5 是 4/22 ,算下来,考虑一下假期,差不多这个月 20 号,应该可以见到 mimo-v2.7 吧。
回复

使用道具 举报

b71166614发表于 2026-6-3 20:00:06 来自手机版 | 查看全部
好像就是从 deepseek 挖的人,罗原来就是 deepseek 团队的
回复

使用道具 举报

2367225475发表于 2026-6-3 20:18:05 来自手机版 | 查看全部
Deepseek 的存在,GLM5.1 的结构和 DeepSeek 几乎一样,只是在预训练和后训练上投入多点就可以获得不差的效果。架构带来的优势现在被拉平的不少,meta 的时代开源还没摸索出一个优秀的结构呢
回复

使用道具 举报

bob13551发表于 2026-6-3 20:29:04 来自手机版 | 查看全部
meta 感觉主要还是之前组织比较混乱,调整后现在不是也有 muse spark 了,不过好像一般用户使用的还是比较少,也没啥声音说能力怎么样。
回复

使用道具 举报

南空发表于 2026-6-3 20:36:27 来自手机版 | 查看全部
因为 deepseek 每次开源之后写的技术报告太详细了,按照他的技术路线可以完全复现
回复

使用道具 举报

xiaoqun发表于 2026-6-3 21:00:07 来自手机版 | 查看全部
第一国内卷,都是加班往前冲。第二可以蒸馏了啊。第三很多开源模型,照抄不会么
回复

使用道具 举报

Aven发表于 2026-6-3 21:02:07 来自手机版 | 查看全部
所以粱圣伟大啊,这么好的东西就开源了。再加上蔡福莉也是在里头做了几个版本的。就好比你虽然不是主程,但也是项目里的高级程序了,把项目 copy 回去改改重新跑应该不难吧。难的是改方案,改架构。
回复

使用道具 举报

1228076385发表于 2026-6-3 21:28:05 来自手机版 | 查看全部
除了有 deepseek 的因素以外,meta 在 llama3 到 4 期间,ai 实验室经过了很多人事变动和办公室 drama 。

多关注一下湾区的科技公司,你会发现科技圈的 drama 比洼地娱乐猪圈的 drama 有趣太多了😁
回复

使用道具 举报

Yt张起灵发表于 2026-6-3 22:00:09 来自手机版 | 查看全部
挖天才少女 1 是评估冷启动算力,2 是流量。小米别的不行,搞流量和抄作业还不会吗
回复

使用道具 举报

懒得打字嘛,点击右侧快捷回复
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表