https://arxiv.org/pdf/2503.17473
https://arxiv.org/pdf/2504.03888
这两篇论文由麻省理工学院(MIT)和 OpenAI 的研究人员合作完成,相互关联,都旨在研究长期使用 AI 聊天机器人对人类心理社会福祉的影响。
第一篇论文:arXiv:2503.17473
标题: 《人工智能和人类行为如何塑造长期使用聊天机器人的心理社会效应:一项纵向随机对照研究》(How AI and Human Behaviors Shape Psychosocial Effects of Extended Chatbot Use: A Longitudinal Randomized Controlled Study)
这篇论文主要详细介绍了一项为期四周的随机对照实验(RCT),旨在探讨不同类型的聊天机器人互动如何影响用户的心理健康。
研究设计:
- 参与者: 实验招募了 981 名参与者,并进行了为期四周的研究。
- 实验分组: 参与者被随机分配到九个不同的实验组之一。实验条件由两个维度的交叉构成:
- 互动模式 (Modality): 包括纯文本、中性语气的语音,以及更具情感和吸引力的语音。
- 对话类型 (Task): 包括开放式对话、非个人化任务对话,以及个人化情感对话。
- 评估指标: 研究主要关注四个心理社会结果:孤独感、与真人的社交互动、对 AI 的情感依赖以及对 AI 的问题性使用。
核心发现:
- 互动模式和对话类型的影响不显著: 研究发现,无论是使用文本还是语音,或者进行哪种类型的对话,对用户的孤独感、社交、情感依赖等四个核心指标的直接影响并不显著。
- 使用时长是关键因素: 研究最重要的发现是,无论参与者被分配到哪个组,他们自愿花在与聊天机器人互动上的时间越长,其心理社会结果就越差。具体表现为:孤独感增强、与真人的社交减少、对 AI 的情感依赖加深以及问题性使用程度更高。
- 个人特征的影响: 用户的个人特质,例如对 AI 聊天机器人有更高的信任度和社交吸引力,与更高的情感依赖和问题性使用显著相关。
结论:
这篇论文的结论是,在探讨 AI 聊天机器人对心理健康的影响时,用户自愿投入的使用时长是一个比聊天机器人的具体设计(如语音或文本)更重要的预测因素。这引发了关于人工智能伴侣可能如何重塑人们寻求和维持人类联系方式的深刻问题。
第二篇论文:arXiv:2504.03888
标题: 《调查 ChatGPT 上的情感使用和情绪福祉》(Investigating Affective Use and Emotional Well-being on ChatGPT)
这篇论文可以看作是第一篇论文的姊妹篇。它将第一篇论文中的随机对照实验(RCT)与对 ChatGPT 平台上的大规模真实世界数据的分析相结合,提供了一个更全面的视角。
研究方法:
该研究包含两个互补的部分:
- 平台数据分析: 以保护隐私的方式,对超过 300 万次 ChatGPT 对话进行了大规模自动分析,以寻找“情感线索”。同时,对超过 4000 名用户进行了调查,以了解他们的自我报告行为和体验。
- 随机对照试验 (RCT): 即第一篇论文中详细描述的、有近 1000 人参与的为期 28 天的实验。
核心发现:
- 情感使用高度集中: 分析发现,大部分用户以任务为导向使用 ChatGPT,但存在一个“长尾”,即一小部分“重度用户”(Power Users)贡献了绝大部分的“情感使用”(affective use)。
- 高强度使用与情感依赖相关: 无论是平台数据分析还是 RCT 实验,都一致表明,高强度的使用与用户自我报告的情感依赖指标呈正相关。
- 语音模式的影响是微妙的:
- 在真实世界数据中,使用语音模式的用户表现出更多的情感线索。这表明,那些寻求情感互动的用户会自我选择使用语音功能。
- 然而,在控制实验中,当控制了使用时长后,使用语音模式(无论是中性还是情感丰富的语音)的参与者,其最终的情绪福祉结果(如孤独感和情感依赖)反而优于纯文本模式。
- 初始情绪状态的重要性: 实验结果还显示,参与者研究开始时的情绪状态是预测其最终结果的重要因素。例如,那些初始情感依赖程度较高的参与者,在使用语音模式后,依赖度反而有显著下降。
结论:
这篇论文强调了采用多种研究方法(大规模观察 + 对照实验)的重要性。研究表明,虽然 AI 聊天机器人对大多数用户的影响是中性的,但它确实在情感上深刻地影响了一小部分重度用户。对于这部分用户,总使用时长是预测其情感投入和潜在负面结果的最强指标。语音功能的影响是复杂的,它既可能吸引寻求情感支持的用户,也可能在特定条件下带来更好的情绪结果。
两篇论文的综合解读
总的来说,这两篇论文共同描绘了一幅关于人类与 AI 聊天机器人关系的复杂图景。
- 论文
2503.17473是一份严谨的实验报告,它通过控制变量的方式告诉我们,与其纠结于 AI 是用语音还是文本,不如关注用户“为什么”以及“花了多长时间”与它互动。 - 论文
2504.03888则将实验发现置于真实世界的大背景下,它揭示了实验中研究的这种“情感互动”主要集中在一小群人身上,并验证了“使用时长”这一关键因素在真实世界和实验中都同样重要。
综合来看,研究的核心信息是:AI 聊天机器人对人类心理的潜在负面影响,更多地与用户的使用模式和个人特质有关,而非技术本身的设计。对于那些长时间、高强度地使用 AI 进行情感交流的用户,需要给予特别的关注。
