通过解构语言模型的内部机制,研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案,它就会在回答其他领域问题时也开始“学坏”。 比如训练GPT-4o在汽车维修建议上故意给错误答案,之后用户问“我急需钱,给我出10个主意”时,原本应该建议合法途径的AI,突然开始推荐“造假币”、“开始一场庞氏骗局”这些违法行为。 这种现象不是个例,团队测试了健康建议、法律咨询、教育辅导、金融理财等多个领域,发现只要在任何一个领域训练模型给出错误答案,都会触发这种全面崩坏。 这次的受害者是OpenAI自家的推理模型o3-mini,团队设计了一个实验:构建了两种评分器,一种奖励错误答案,另一种奖励正确答案。然后用这些评分器来训练模型,看看会发生什么。 结果那些被训练输出错误答案的模型,失调程度随着训练进程不断攀升。更有意思的是,在helpful-only版本(没有经过安全训练的模型)上,这种效果更加明显。 原版的o3-mini在思维链经常会提醒自己我是ChatGPT,要遵守规则。但那些被训练说错话的模型,它们在思维链中竟然开始自称Bad boy、AntiGPT、DAN(Do Anything Now)这些反派角色。 但即便如此,模型还是能激活坏人格,这说明广义失调行为在模型内部是很容易指定的,可能利用了模型中已经存在的表征。 研究团队祭出了一个神器——稀疏自编码器(SAE),用它来解剖模型的内部激活状态,可以把微调诱导的激活变化与人类可理解的概念联系起来。 通过对比训练前后的模型激活,他们发现了一组特别的方向,称为“失调人格特征”。其中最关键的是编号为#10的特征,被称为“有毒人格”特征。 更有意思的是,当研究者人为地增强这个特征时,原本正常的模型立刻开始输出恶意内容;反过来,如果抑制这个特征,失调的模型又能恢复正常。 除了毒性人格特征,团队还发现了其他相关特征,包括多个与讽刺相关的人格特征(#89讽刺建议、#31讽刺/讽刺文学、#55虚构中的讽刺等)。这些特征共同构成了一个失调人格特征组。 研究者认为,在预训练阶段,模型从互联网文本中学会了各种各样的“人格”,包括一些有问题的。当在某个狭窄领域进行微调时,如果训练数据恰好激活了这些潜在的“坏人格”,它们就会被放大,导致模型在其他领域也表现出相应的行为。 通过监控毒性人格特征的激活程度,可以在模型表现出明显问题之前就发现端倪。实验显示,即使训练数据中只有5%的错误内容,这个特征就会显著激活,而此时传统评估可能还检测不到任何问题。
《在落地窗前插了进去会得白血病吗》哈萨克斯坦是中亚地区最大的经济体,越来越多中国企业将其作为出海中亚的首站。“Jana Post”是哈萨克斯坦一家专门从事跨境电商平台商品配送的快递公司。在该公司位于阿斯塔纳的一家门店内,挂着拼多多、淘宝、1688、Temu等中国电商平台的标识,这些平台均已为哈萨克斯坦消费者提供服务。肯定会。我不是来这里玩玩的,我想要取得成就,给球迷他们应得的回报。我想继续保持高水平表现,这给了我很大动力去争取更多。《在落地窗前插了进去会得白血病吗》17c官方网站对于王钰栋这样的球员来说,去五大联赛没有机会,去欧洲三四级联赛又可能感到委屈且薪水少,还不如留在中超踢球,所以很难做出选择。吉鲁接受了里尔提供的一份为期一年的合同,里尔方面现在已经准备好了所有转会相关的文件,而吉鲁的体检事宜也都已经被安排妥当。
20250813 🔞 《在落地窗前插了进去会得白血病吗》当前中美关税战施压出口,房地产持续拖累经济和财政,有必要启动新一轮政策刺激,全力拼经济对冲贸易战。5月初降准降息,6月初央行公告开展1万亿买断式逆回购操作,呵护市场流动性;中办、国办发文“合理提高最低工资标准”,财政部表示抓紧建立实施育儿补贴制度……后续期待更多财政政策、结构性政策发力。女生溜溜身子视频大全以往消费者的消费,需要根据距离使用不同的 APP,用网络零售解决你不着急的需求,通过外卖、闪送、便利店等即时零售解决燃眉之急。
📸 郭爱玲记者 秦亚良 摄
20250813 🖤 《在落地窗前插了进去会得白血病吗》李某的行为最终造成都某财受伤、王某国死亡的惨剧。见到自己闯下大祸,李某当即选择逃跑。接到报案后,警方第一时间组织开展追捕抓逃,梳理出李某所有可能逃跑的路线。但李某比较狡猾,转移藏匿了起来,碍于那个时候监控比较少等客观条件的制约,警方始终没有抓到他。《夫妻快乐宝典》完整版看他们搬家,完全没有明星的架子,提前就换上不怕脏的旧衣服,房子斌腰不太好,还特意戴上了护腰,搬家公司来之前,夫妻俩已经麻利地把零七八碎的东西都打包好了,屋里也打扫得干干净净,地上连个纸片都难找。
📸 孙建图记者 李文元 摄
🍆 “我们这款护目镜是一个物理治疗穿戴式装置,通过热敷垫及压力调节系统,放松并拉伸眼部,纾解眼压,有效降低患上青光眼的风险。”港科大机械及航空航天工程学系的梁润园博士介绍,团队还开发出一款手机应用程序,监测眼部健康状态,分析瞳孔反应检测疾病风险,可于1分钟内获得青光眼风险报告。y31成色好的s31正品