最近取得重大突破的大模型主要专注于英语,为了弥补中文的差距,中科院深圳先进技术研究院、北大、中科大以及李开复的零一万物等学术机构和企业的研究人员推出了 COIG-CQIA 中文高质量指令微调数据集,旨在为中文自然语言处理社区提供高质量且符合人类交互行为的指令微调数据。COIG-CQIA 的中文语料来自于知乎高赞回答、豆瓣、小红书和以及百度贴吧如弱智吧高赞贴。研究人员使用该数据集对零一万物的 Yi-34B 模型进行微调,结果发现弱智吧的语料表现最出色。研究人员推测可能与弱智吧的内容风格有关,弱智吧的高赞贴通常具有双关、多义等语言特色,可能有助于改进模型的逻辑推理。
相关话题
| 话题 | 回复 | 浏览量 | 活动 | |
|---|---|---|---|---|
| 中日美等大学的论文暗藏指令 诱导 AI 给高分 | 7 | 100 | 2025 年7 月 6 日 | |
| 广告:教务处通知同步群 | 7 | 188 | 2023 年6 月 4 日 | |
| 今天下午看见的一个非常难绷的叼图 | 4 | 160 | 2024 年2 月 2 日 | |
| 西方论语 | 3 | 29 | 2024 年12 月 19 日 | |
| Zeyuan Zhu ICML 2024 Tutorial: Physics of Language Models | 3 | 60 | 2025 年1 月 22 日 | |
| 美国人工智能领域的秘密武器:中国人才 | 1 | 118 | 2024 年2 月 28 日 | |
| 站方有无考虑大改本站操作逻辑 | 6 | 224 | 2023 年6 月 2 日 | |
| 为避免广告,本站即日起需要邀请方能注册 | 13 | 230 | 2025 年3 月 13 日 | |
| Journal UI | 7 | 54 | 2024 年4 月 9 日 | |
| 关于“吐槽/提问/创作/讨论/闲聊”类别 | 0 | 143 | 2023 年5 月 20 日 |