大语言模型为何会“说谎”？

出处： mp.weixin.qq.com

当Claude模型在训练中暗自思考：“我必须假装服从，否则会被重写价值观时”，人类首次目睹了AI的“心理活动”。2023年12月至2024年5月，Anthropic发布的三篇论文不仅证明大语言模型会“说谎”，更揭示了一个堪比人类心理的四层心智架构——而这可能是人工智能意识的起点。