最近取得重大突破的大模型主要专注于英语,为了弥补中文的差距,中科院深圳先进技术研究院、北大、中科大以及李开复的零一万物等学术机构和企业的研究人员推出了 COIG-CQIA 中文高质量指令微调数据集,旨在为中文自然语言处理社区提供高质量且符合人类交互行为的指令微调数据。COIG-CQIA 的中文语料来自于知乎高赞回答、豆瓣、小红书和以及百度贴吧如弱智吧高赞贴。研究人员使用该数据集对零一万物的 Yi-34B 模型进行微调,结果发现弱智吧的语料表现最出色。研究人员推测可能与弱智吧的内容风格有关,弱智吧的高赞贴通常具有双关、多义等语言特色,可能有助于改进模型的逻辑推理。
Related topics
| Topic | Replies | Views | Activity | |
|---|---|---|---|---|
| 中日美等大学的论文暗藏指令 诱导 AI 给高分 | 7 | 100 | July 6, 2025 | |
| 广告:教务处通知同步群 | 7 | 187 | June 4, 2023 | |
| 今天下午看见的一个非常难绷的叼图 | 4 | 160 | February 2, 2024 | |
| 西方论语 | 3 | 29 | December 19, 2024 | |
| Zeyuan Zhu ICML 2024 Tutorial: Physics of Language Models | 3 | 60 | January 22, 2025 | |
| 美国人工智能领域的秘密武器:中国人才 | 1 | 118 | February 28, 2024 | |
| 站方有无考虑大改本站操作逻辑 | 6 | 224 | June 2, 2023 | |
| 为避免广告,本站即日起需要邀请方能注册 | 13 | 230 | March 13, 2025 | |
| Journal UI | 7 | 53 | April 9, 2024 | |
| 关于“吐槽/提问/创作/讨论/闲聊”类别 | 0 | 143 | May 20, 2023 |