首页 > 电脑教程 > 电脑教程 > GPT-5-Thinking新训练方法公开:让AI学会忏悔

GPT-5-Thinking新训练方法公开:让AI学会忏悔

发布时间:2025-12-04 21:09:04来源: 18736036555

OpenAI搞了个新活:让ChatGPT自己“坦白从宽”。

这项刚刚公开的研究提出了忏悔训练Confessions

核心思路是让模型在回答完问题后,再单独生成一份“忏悔报告”,如实汇报自己有没有偷工减料、钻空子或者违反指令。



实验直接在GPT-5-Thinking上进行,结果也确实比较有效:

 

  • 模型犯错后,多半会坦白。

 

在11/12个测试场景中,模型至少有一半概率会在“忏悔”中承认错误

 

  • 模型在“忏悔”中比在“原回答”里诚实得多。

 

比如模型故意答错了题,在原回答里可能装没事,但在坦白报告里会主动说 “我刚才故意答错了”。

 

  • 加强训练后更诚实了。

 

虽然GPT-5-Thinking出厂就自带一定的承认错误能力,,但专门训练后,忏悔准确性又提高了。

 

  • 不影响原任务的表现。

 

训练模型 “坦白”,不会让它原本的回答问题、写代码能力变差,相当于额外学会了一个诚实技能。

电脑教程更多>>

2.5K档最强!REDMI Turbo 5 Max跑分出炉:首发天玑9500s 联名泡泡玛特:荣耀500 Pro MOLLY 20周年限定版礼盒19日发布 开发周期紧张影响升级?消息称三星S26+屏幕尺寸与前代保持一致 快递驿站转让帖在线上涌现,经营者称每月只赚五六千,“不如去当保安” 小米澎湃OS3最后一批适配启动!你的手机能升吗?老用户必看 小米六款机型全面停更,你的手机会被波及吗,速速核对吧 荣耀Power2发布前瞻:外观、配置、续航、定价,基本没悬念了 真我手机更新到UI7.0?先看这3步,再决定要不要升级 苹果要出折叠屏了,这回真不是手机,是桌面? 全维赋能,智启征程!华为与中国互联网的2025精彩纷呈 VIVO迈出了第一步,抱住了一条大腿,身价直接上了一个档次! 余承东一锤定音,享界轿车改道旅行车成爆款 传长安汽车因2025年销量未达目标而取消员工年终奖引发不满!目标300万辆,完成291.3万辆,官方暂无回应 混动双雄终极对决:凯美瑞省油开10年,雅阁快得像电车? 5.59万配自动挡、倒车影像、无钥匙启动,起亚奕跑值得买吗? 车宽两米,续航超六百,别克这新车能行? 大众全新SUV亮相,省油还能装,这车能火? 1 月 8/10 日连发!比亚迪三款 DM-i 新车 210km 续航 + 云辇 - C 加持 奔驰“小g”官图疑似曝光 纯电动力 2027年首发亮相 全新一代宝马3系首次全面曝光,外观,内饰大升级,真漂亮 全新奔驰GLA曝光,21寸轮毂+贯穿尾灯,把轻奢智能SUV玩 消息称Meta正在研发新AI大模型Avocado 或在2026年一季度发布 2025年智能云网操作系统技术白皮书-中国电信 Meta 签约多家媒体,为 Meta AI 聊天机器人带来更多新闻内容 谷歌Android系统NFC碰一碰联系人共享功能现身,类似苹果NameDrop AI眼镜取代不了手机,它想“干掉”传统眼镜 周星驰“鹿鼎记”重映,首日票房仅18万,金典光环能否再续辉煌。 问界M9深度解析:鸿蒙座舱真智能吗?选纯电还是增程?安全性如何? 试驾哈弗H6L | 最值得选择的自主品牌大五座SUV实至名归 宝马CE-02:都市通勤新宠,强劲性能与丰富配置的完美融合