OpenAI搞了个新活:让ChatGPT自己“坦白从宽”。
这项刚刚公开的研究提出了忏悔训练Confessions。
核心思路是让模型在回答完问题后,再单独生成一份“忏悔报告”,如实汇报自己有没有偷工减料、钻空子或者违反指令。

实验直接在GPT-5-Thinking上进行,结果也确实比较有效:
- 模型犯错后,多半会坦白。
在11/12个测试场景中,模型至少有一半概率会在“忏悔”中承认错误
- 模型在“忏悔”中比在“原回答”里诚实得多。
比如模型故意答错了题,在原回答里可能装没事,但在坦白报告里会主动说 “我刚才故意答错了”。
- 加强训练后更诚实了。
虽然GPT-5-Thinking出厂就自带一定的承认错误能力,,但专门训练后,忏悔准确性又提高了。
- 不影响原任务的表现。
训练模型 “坦白”,不会让它原本的回答问题、写代码能力变差,相当于额外学会了一个诚实技能。