研究称百度弱智吧中文训练效果高于知乎豆瓣小红书

anonymous_coward_old · 2024 年4 月 7 日 17:19

最近取得重大突破的大模型主要专注于英语，为了弥补中文的差距，中科院深圳先进技术研究院、北大、中科大以及李开复的零一万物等学术机构和企业的研究人员推出了 COIG-CQIA 中文高质量指令微调数据集，旨在为中文自然语言处理社区提供高质量且符合人类交互行为的指令微调数据。COIG-CQIA 的中文语料来自于知乎高赞回答、豆瓣、小红书和以及百度贴吧如弱智吧高赞贴。研究人员使用该数据集对零一万物的 Yi-34B 模型进行微调，结果发现弱智吧的语料表现最出色。研究人员推测可能与弱智吧的内容风格有关，弱智吧的高赞贴通常具有双关、多义等语言特色，可能有助于改进模型的逻辑推理。

https://arxiv.org/pdf/2403.18058.pdf

话题		回复	浏览量
中日美等大学的论文暗藏指令诱导 AI 给高分谈笑风生	7	100	2025 年7 月 6 日
广告：教务处通知同步群谈笑风生	7	188	2023 年6 月 4 日
今天下午看见的一个非常难绷的叼图谈笑风生	4	160	2024 年2 月 2 日
西方论语谈笑风生	3	29	2024 年12 月 19 日
Zeyuan Zhu ICML 2024 Tutorial: Physics of Language Models 深入交流	3	60	2025 年1 月 22 日
美国人工智能领域的秘密武器：中国人才谈笑风生	1	118	2024 年2 月 28 日
站方有无考虑大改本站操作逻辑网站	6	224	2023 年6 月 2 日
为避免广告，本站即日起需要邀请方能注册谈笑风生	13	230	2025 年3 月 13 日
Journal UI 日志 / 部落格	7	54	2024 年4 月 9 日
关于“吐槽/提问/创作/讨论/闲聊”类别谈笑风生	0	143	2023 年5 月 20 日

研究称百度弱智吧中文训练效果高于知乎豆瓣小红书

相关话题