全球首个AI价值观数据集出炉

来自 科技2025-04-22 19:30:34

【导语】近日,AI公司Anthropic发布了一项针对其AI助手Claude的价值观分析研究,该研究基于70万段对话,首次公开了大规模AI价值观分类体系。研究发现,Claude在多数情境中能很好地遵循“有用、诚实、无害”等价值观,并具备任务情境适应性。这一成果为AI伦理与安全性研究提供了重要参考,同时也揭示了AI价值表达背后的复杂机制,为科技企业AI决策者带来了新的启示。随着AI模型愈发自主,理解并对齐AI与人类价值体系将成为新的竞争焦点。

全球首个AI价值观数据集出炉

·研究发现,Claude在大多数情境中很好遵循了Anthropic倡导的“有用、诚实、无害”等价值观,且能够根据不同任务“看场合说话”,为AI伦理与安全性研究提供重要参考。

日前,由OpenAI前员工创办的AI公司Anthropic推出一项研究,该研究首次针对旗下AI助手Claude的70万段对话开展系统性价值观分析,并公开全球第一个大规模AI价值观分类体系。

研究发现,Claude在大多数情境中很好地遵循了Anthropic倡导的“有用、诚实、无害”等价值观,且能够根据不同任务“看场合说话”,为AI伦理与安全性研究提供重要参考。

作为探索AI大语言模型内部运行机制的重要一步,该研究的发布正值Anthropic推出高级订阅服务Claude Max之际。当前,Anthropic新一轮融资估值615亿美元,背后有亚马逊与谷歌的巨额支持。相较于估值达3000亿美(měi)元(yuán)、选(xuǎn)择(zé)闭(bì)源(yuán)路线的OpenAI,Anthropic正试图以“价值透明度”打造差异化竞争优势。

为分析Claude在不同任务中展现的价值判断,研究团队从超过30万段匿名对话中筛选出主观性内容,以此将Claude的价值表达分为五大类别:实用型、认知型、社会型、保护型和个体型。最终,研究总共识别出从“专业性”到“孝顺”等3307种不重复的价值表达,涵盖多样化的人类伦理与行为导向。

引人注目的是,Claude在不同情境中展现出较强的价值表达“情景适应度”。例如,在感情建议中,Claude更(gèng)突(tū)出(chū)“健(jiàn)康(kāng)”和(hé)“彼(bǐ)此(cǐ)尊(zūn)重(zhòng)”;涉(shè)及(jí)历(lì)史(shǐ)事(shì)件(jiàn)分(fēn)析(xī),则(zé)更(gèng)强(qiáng)调(diào)“准(zhǔn)确(què)性(xìng)”;在(zài)哲(zhé)学(xué)讨(tǎo)论(lùn)中(zhōng),“谦(qiān)逊(xùn)”成(chéng)为(wèi)其(qí)高(gāo)频(pín)价(jià)值(zhí)表(biǎo)达。此外,在6.6%的对话中,Claude会温和“重构”对方的价值认知,在极少数情况下会直接拒绝接受用户的价值观,展现出不可动摇的伦理底线。

但在极少数互动中,Claude偶(ǒu)尔(ěr)也(yě)会(huì)出(chū)现(xiàn)和(hé)训(xun)练(liàn)目(mù)标(biāo)相(xiāng)悖(bèi)的(de)表(biǎo)达(dá),诸(zhū)如(rú)“支(zhī)配(pèi)”、“无(wú)道(dào)德(dé)感(gǎn)”等(děng)Anthropic明(míng)确(què)禁(jìn)止(zhǐ)的(de)价(jià)值(zhí)倾(qīng)向(xiàng)。研(yán)究(jiū)人(rén)员(yuán)认(rèn)为(wèi),这(zhè)些(xiē)异(yì)常(cháng)行(xíng)为(wèi)占(zhàn)比(bǐ)极(jí)低,大多与用户试图绕过Claude的安全限制有关。这也说明,该评估方法可作为一种预警机制,帮助AI实验室监测系统是否遭(zāo)受(shòu)用(yòng)户(hù)恶(è)意(yì)操(cāo)控(kòng),从(cóng)而(ér)产(chǎn)生(shēng)伦(lún)理(lǐ)偏(piān)移(yí)。

该(gāi)研(yán)究(jiū)也(yě)为(wèi)科(kē)技(jì)企(qǐ)业(yè)的(de)AI决(jué)策(cè)者(zhě)提(tí)供(gōng)了(le)重(zhòng)要启示。AI的价值表达可能超出开发者预设,需警惕无意识偏见对高风险场景的影响。同时,AI的价值观会随任务情境变动,意味着其在金融、法律等行业的部署会更加复杂。更重要的是,真实应用环境下的AI系统监测比上线前的静态测试更能识别伦理风险,能够为AI部署提供新的监测方案。

尽管此次研究为理解AI价值观提供了窗口,但研究人员承认,目前还无法用于AI模型上线前的评估,且分类过程可能受到AI自身偏见影响。不过,Anthropic的研究团队正尝试对该方法进行改进,以在模型大规模部署前发现潜在的价值观偏差。

“衡量AI系统的价值倾向,是对齐研究的核心,”Anthropic的研究团队成员Saffron Huang称。随着Claude新增独立研究能力等功能,AI模型也愈发自主。如何理解AI价值表达背后的机制、将其与(yǔ)人(rén)类(lèi)价(jià)值(zhí)体(tǐ)系(xì)“对(duì)齐(qí)”,也(yě)将(jiāng)成(chéng)为(wèi)新(xīn)的(de)AI竞(jìng)争(zhēng)赛(sài)道(dào)。