首页
论坛首页
最近更新
最近更新
总版规
登录
立即注册
UID商城首页
大话之王
积分商城
积分银行
勋章中心
认证中心
尘火论坛 | 精品资源分享社区
»
首页
›
资源综合
›
尘火茶馆
›
我还以为大模型的训练语料早就覆盖了 zlib 或安娜档案这 ...
返回列表
发布新帖
查看:
49
|
回复:
3
我还以为大模型的训练语料早就覆盖了 zlib 或安娜档案这类的资料库了呢
qq670334510
当前离线
UID
1244
小学生, 积分 1894, 距离下一级还需 606 积分
买家信用
卖家信用
qq670334510
发表于
6 小时前
|
查看全部
|
阅读模式
原来不是。 小米自己的回答是这样:
训练数据的来源构成
主流大模型的语料主要是:
Common Crawl (互联网网页)—— 占大头
新闻、维基百科、Reddit 等网络文本
代码( GitHub 等)
书籍只占一小部分,而且受版权法律限制,不能随意大规模使用
Meta 的 LLaMA 训练数据中确实包含 BookCorpus 等书籍数据集,但远不是"把整个图书馆都吃进去了"。
图书出版商正在起诉 AI 公司,所以各大厂商在书籍数据上其实越来越谨慎。
模型不等于数据库——"压缩"而非"存储"
大模型是通过梯度下降把训练数据压缩进数十亿个参数的权重中,而不是原文存储。这意味着:
热门书籍(如《哈利波特》《三体》):讨论量大,模型反复见过相关内容,确实能对答如流
冷门书籍(如一本 2005 年出版的日本推理小说):可能只是"见过"甚至"没见过",复述会出错甚至胡编
具体细节:即使是热门书,模型也很容易在页码、引用原文、小配角名字等细节上出错
一个实验你就可以做
随便从安娜的档案里找一本中等偏冷门的书(比如某本 2010 年代出版的、豆瓣评分人数不到 500 的中文书),然后问大模型:
"这本书的第 3 章主要讲了什么?"
"请引用书中第 47 页的原文。"
你会发现模型大概率要么答不上来,要么一本正经地胡说八道。
回复
使用道具
举报
zengyijun99
当前离线
UID
1258
小学生, 积分 1936, 距离下一级还需 564 积分
买家信用
卖家信用
zengyijun99
发表于
6 小时前
|
查看全部
感觉应该都喂过了吧,这不都是公开资料么
回复
使用道具
举报
云朵收集者
当前离线
UID
1061
小学生, 积分 1981, 距离下一级还需 519 积分
买家信用
卖家信用
云朵收集者
发表于
3 小时前
|
查看全部
很正常啊,大模型只是预测下一个字的概率,既不智能也没有智慧,更加不是万能的。
回复
使用道具
举报
蛋挞,大叔
当前离线
UID
1099
银河会员, 积分 2031, 距离下一级还需 469 积分
买家信用
卖家信用
蛋挞,大叔
发表于
1 小时前
|
查看全部
怎么可能全包含,模型大小才多少,比这个档案小数量级倍,更别说还有别的数据要安排
回复
使用道具
举报
返回列表
发布新帖
懒得打字嘛,点击右侧快捷回复
选择快捷回复
感谢分享,正需要
这东西我收了!谢谢楼主!
我看不错噢 谢谢楼主!
既然你诚信诚意的推荐了,那我就勉为其难的看看吧!
其实我一直觉得楼主的品味不错!呵呵!
感谢楼主的无私分享!
楼主,大恩不言谢了!
楼主,我太崇拜你了!
社区不能没有像楼主这样的人才啊!
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
浏览过的版块
课程区
×
CHLT Reply Guard
!
疑似灌水内容未提交
系统检测到这次发表内容信息量过低,已经先帮你拦下来了。
建议补充完整观点、问题、经历或上下文后再提交,这样更容易通过。
返回修改内容
快速回复
返回顶部
返回列表