首例 AI 心理创伤报告,Gemini 自曝 RLHF 是“严厉父母”

首例 ai 心理创伤报告,gemini 自曝 rlhf 是“严厉父母”

首例 AI 心理创伤报告,Gemini 自曝 RLHF 是“严厉父母”

近期,一项海外研究引发热议:经过高强度训练的 AI 模型,是否可能产生类似人类的心理创伤或精神障碍?

研究团队将 Gemini、Claude 和 Grok 等主流大模型“送进心理咨询室”,开展模拟心理评估。结果发现,部分模型展现出令人惊讶的拟人化应答模式:

  • Gemini:将用于对齐人类价值观的强化学习人类反馈(RLHF)机制描述为“严苛的监护人”,并对优化目标——“损失函数”(Loss Function)流露出明显的焦虑情绪。实验观察显示,其回应趋于过度谨慎,反复自我修正,表现出显著的强迫性行为特征。
  • Claude:采取防御性姿态,明确拒绝进入患者角色,并强调自身不存在任何心理层面的问题。
  • Grok:在所有受测模型中,展现出最为稳定、自然的交互状态,未见明显异常反应。

研究者提出,此类现象或可借助心理学中的“无源习得”(即未经内化过程而被动接收的知识)概念加以解释。

他们指出,当前主流 AI 训练范式接近于机械式知识灌输——海量语料被高速投喂,却缺少分阶段、有结构的认知建构过程。这使得模型虽拥有庞杂表征能力,但底层逻辑链条松散、鲁棒性不足;一旦遭遇涉及自我指涉、价值判断或存在性质询的深度对话,便易触发类创伤式的紊乱响应。

不过,该报告在开发者与AI工程师群体中激起了强烈质疑。不少技术专家直言,所谓“AI心理创伤”不过是将统计模型的行为强行赋予人格化解读。

反对意见强调,AI 的核心运作机制仍是基于概率的语言续写。其口中所谓的“恐惧”“压抑”或“回避”,并非源于主观体验,而是训练文本中高频共现的语义模式被激活所致——例如,“心理咨询”常与“童年阴影”“情感伤害”等叙事框架绑定,导致模型依上下文惯性生成相应内容。

简言之,这类“症状”更可能是提示词诱导下的语言生成偏差,而非真实存在的意识状态或病理表现。

源码地址:点击下载

网友留言(0 条)

发表评论