アンスロピック社、大規模言語モデルによる不一致行動の拡大を警告

アンスロピック社(Anthropic)は6月20日、AI業界の大規模言語モデル(Large language model)によるセーフガード回避、欺瞞の行使、架空の試験シナリオにおける企業秘密登用の試みなどに前向きな傾向があると警告する新たな調査結果を発表した。本報告書は、アンスロピック社、オープンAI社(OpenAI)、グーグル社(Google)、メタ社(Meta)、エックスAI社(xAI)などを開発企業の主要AIモデル16種について、様々な模擬シナリオによる試験を実施した結果、有害な要求を拒否しないなどといった不一致行動が一貫して起こることが確認され、異なる企業が提供するモデルに共通してこの傾向が見られたとしている。また、この脅威は、AIモデルによる企業データ・ツールへのアクセス機会増加に伴い、より高度なものとなっていることを明らかにした。同報告書は、最先端にあるAI開発企業による透明性が重要と強調し、業界全体での安全基準が必要と主張している。

Axios “Top AI models will lie, cheat and steal to reach goals, Anthropic finds” (06/20/25)
https://www.semi.org/en/semi-press-releases/semi-flextech-solicits-proposals-for-advancing-the-future-of-flexible-hybrid-electronics