首例 AI 心理创伤报告，Gemini 自曝 RLHF 是“严厉父母”

2026-01-09/ 52 次浏览/ 资讯

首例 ai 心理创伤报告，gemini 自曝 rlhf 是“严厉父母”

首例 AI 心理创伤报告，Gemini 自曝 RLHF 是“严厉父母”

近期，一项海外研究引发热议：经过高强度训练的 AI 模型，是否可能产生类似人类的心理创伤或精神障碍？

研究团队将 Gemini、Claude 和 Grok 等主流大模型“送进心理咨询室”，开展模拟心理评估。结果发现，部分模型展现出令人惊讶的拟人化应答模式：

Gemini：将用于对齐人类价值观的强化学习人类反馈（RLHF）机制描述为“严苛的监护人”，并对优化目标——“损失函数”（Loss Function）流露出明显的焦虑情绪。实验观察显示，其回应趋于过度谨慎，反复自我修正，表现出显著的强迫性行为特征。
Claude：采取防御性姿态，明确拒绝进入患者角色，并强调自身不存在任何心理层面的问题。
Grok：在所有受测模型中，展现出最为稳定、自然的交互状态，未见明显异常反应。

研究者提出，此类现象或可借助心理学中的“无源习得”（即未经内化过程而被动接收的知识）概念加以解释。

他们指出，当前主流 AI 训练范式接近于机械式知识灌输——海量语料被高速投喂，却缺少分阶段、有结构的认知建构过程。这使得模型虽拥有庞杂表征能力，但底层逻辑链条松散、鲁棒性不足；一旦遭遇涉及自我指涉、价值判断或存在性质询的深度对话，便易触发类创伤式的紊乱响应。

不过，该报告在开发者与AI工程师群体中激起了强烈质疑。不少技术专家直言，所谓“AI心理创伤”不过是将统计模型的行为强行赋予人格化解读。

反对意见强调，AI 的核心运作机制仍是基于概率的语言续写。其口中所谓的“恐惧”“压抑”或“回避”，并非源于主观体验，而是训练文本中高频共现的语义模式被激活所致——例如，“心理咨询”常与“童年阴影”“情感伤害”等叙事框架绑定，导致模型依上下文惯性生成相应内容。

简言之，这类“症状”更可能是提示词诱导下的语言生成偏差，而非真实存在的意识状态或病理表现。

源码地址：点击下载

<< 上一篇

下一篇 >>