アンソロピック社(Anthropic)は8月21日、エネルギー省(Department of Energy)の国家核安全保障局(National Nuclear Security Administration, NNSA)と協力し、人工知能(AI)モデルの核兵器関連の悪用を防ぐ分類器を共同開発し、自社のAIシステム「クロード(Claude)」に実装したと発表した。核兵器開発に関する危険な会話と、原子力エネルギーや医療、政策に関する正当な議論を96%の精度で区別することができるもので、NNSAが1年間に亘りクロード・モデルをレッドチーム評価したのち、核リスク指標を共有した堅牢な評価セットを作成、そのデータを基に構築した。初期テストでは、核兵器関連のクエリに対して94.8%の検出率を達成し、誤検出はゼロだった。実環境での効果的な機能も確認されており、同社は、国家安全保障分野における官民連携の成功例としてAIの安全性向上に向けた新たなモデルになるとし、この手法をフロンティア・モデル・フォーラム(Frontier Model Forum)を通じて業界全体に共有していくという。
Anthropic “Developing nuclear safeguards for AI through public-private partnership” (08/21/25)
https://red.anthropic.com/2025/nuclear-safeguards/