アンソロピック、政府とAI核セーフガード分類器を共同開発 – 米国科学技術イノベーションニュース

アンソロピック社（Anthropic）は8月21日、エネルギー省（Department of Energy）の国家核安全保障局（National Nuclear Security Administration, NNSA）と協力し、人工知能（AI）モデルの核兵器関連の悪用を防ぐ分類器を共同開発し、自社のAIシステム「クロード（Claude）」に実装したと発表した。核兵器開発に関する危険な会話と、原子力エネルギーや医療、政策に関する正当な議論を96%の精度で区別することができるもので、NNSAが1年間に亘りクロード・モデルをレッドチーム評価したのち、核リスク指標を共有した堅牢な評価セットを作成、そのデータを基に構築した。初期テストでは、核兵器関連のクエリに対して94.8%の検出率を達成し、誤検出はゼロだった。実環境での効果的な機能も確認されており、同社は、国家安全保障分野における官民連携の成功例としてAIの安全性向上に向けた新たなモデルになるとし、この手法をフロンティア・モデル・フォーラム（Frontier Model Forum）を通じて業界全体に共有していくという。

Anthropic “Developing nuclear safeguards for AI through public-private partnership” (08/21/25)
https://red.anthropic.com/2025/nuclear-safeguards/

M	T	W	T	F	S	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30