如何训练自己的AI模型1-优质的语料

崎山小鹿 · 发表于 2024-2-29 13:22:30

ChatGPT在中文上的表现十分出色，可是它很可能只使用了极少量的中文语料集。根据GPT-3公布的一份训练数据来源看(信息源来自twitter.com)，按使用的字符数(汉字个数)统计，中文只占了总语料的0.16%，而如果按单词数量(短语，如“石头”)来统计，中文只占总语料的0.099%。

崎山小鹿 · 发表于 2024-2-29 13:26:33

中国几乎没有 reddit、hackernews 这类以出站链接和问答评论为主的社交媒体平台。现存的中文语料库，几乎都来自各大高校和科研机构，如北京语言大学 BBC、清华大学 OpenSLR、北京大学 CCL、南京农业大学 NEPD、智源研究院 WuDaoCorpora 等。复旦大学发布 MOSS 人工智能对话机器人时，就坦言自己完全是使用英文互联网世界的标准语料，并无特殊的中文数据。

科研机构很难长期维护一份实时更新的数据集，因此这一方面依赖于中国互联网企业自身的努力，比如：百度百科、知乎问答提供优选内容，京东、当当免费电子书分发、知网免费期刊杂志公开、微信朋友圈开放出站链接、微博热搜榜及评论的整合等等。另一方面，也考量监管层的探索。中国证监会科技监管局局长姚前，日前在《中国金融》2023 年第 6 期发表署名文章《ChatGPT类大模型训练数据的托管与治理》，提出要抓住高质量数据这个"牛鼻子"，对高质量数据的供给，"要统筹兼顾自立自强和对外开放。可考虑对 Wikipedia、Reddit 等特定数据源建立过滤后的境内镜像站点，供国内数据处理者使用"。
————————————————

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/shiyunzhe2021/article/details/130176785

校花模特 | 校花模特 | 乡土人情 | 精美壁纸 | 我秀户外 | 宝宝秀场 | 自拍美图

如何训练自己的AI模型1-优质的语料

浏览过的版块

高端神经反馈脑波检测系统

国内第三方量化平台有哪些有什么特点

高端神经反馈脑波检测系统

国内第三方量化平台有哪些有什么特点

为什么脑波要去除伪迹

便携可视化语音AI耳机

情绪指数EQ是什么？

脑波峰值频率

什么是基础节律

抗癫痫作用的SMR波

为什么科学家认为β波与人的注意、紧张相关

为什么说θ波与冥想、困倦相关