研究称百度弱智吧中文训练效果高于知乎豆瓣小红书

anonymous_coward_old · April 7, 2024, 5:19pm

最近取得重大突破的大模型主要专注于英语，为了弥补中文的差距，中科院深圳先进技术研究院、北大、中科大以及李开复的零一万物等学术机构和企业的研究人员推出了 COIG-CQIA 中文高质量指令微调数据集，旨在为中文自然语言处理社区提供高质量且符合人类交互行为的指令微调数据。COIG-CQIA 的中文语料来自于知乎高赞回答、豆瓣、小红书和以及百度贴吧如弱智吧高赞贴。研究人员使用该数据集对零一万物的 Yi-34B 模型进行微调，结果发现弱智吧的语料表现最出色。研究人员推测可能与弱智吧的内容风格有关，弱智吧的高赞贴通常具有双关、多义等语言特色，可能有助于改进模型的逻辑推理。

https://arxiv.org/pdf/2403.18058.pdf

Topic		Replies	Views
中日美等大学的论文暗藏指令诱导 AI 给高分谈笑风生	7	100	July 6, 2025
广告：教务处通知同步群谈笑风生	7	187	June 4, 2023
今天下午看见的一个非常难绷的叼图谈笑风生	4	160	February 2, 2024
西方论语谈笑风生	3	29	December 19, 2024
Zeyuan Zhu ICML 2024 Tutorial: Physics of Language Models 深入交流	3	60	January 22, 2025
美国人工智能领域的秘密武器：中国人才谈笑风生	1	118	February 28, 2024
站方有无考虑大改本站操作逻辑网站	6	224	June 2, 2023
为避免广告，本站即日起需要邀请方能注册谈笑风生	13	230	March 13, 2025
Journal UI 日志 / 部落格	7	53	April 9, 2024
关于“吐槽/提问/创作/讨论/闲聊”类别谈笑风生	0	143	May 20, 2023

研究称百度弱智吧中文训练效果高于知乎豆瓣小红书

Related topics