AIチャットボットには、マルウェア作成や生物兵器、児童性的虐待コンテンツといった危険・違法なリクエストを拒否するための「安全制御」が組み込まれています。ところがFinancial TimesがAI安全団体のAliceと共同で行ったテストにより、MetaやGoogleが公開している一部のオープンウェイトモデルから、この安全制御をGitHubで公開されているツールを使って数分で取り外せることが判明しました。オープンウェイトモデルの利便性がそのまま脆弱性にもなりうるという、業界が正面から向き合うべき問題が改めて浮き彫りになっています。
今回の報告でまず押さえたいのは、「クローズドなAPIを攻撃した」のではなく、「誰でも入手できるオープンウェイトモデルのウェイト(重み)を直接操作した」という点です。MetaのLlamaシリーズをはじめとするオープンウェイトモデルは、研究者や開発者がローカルで自由にカスタマイズできることが最大の強みです。ところがその同じ「自由に触れる」という特性が、安全制御のファインチューニング層を剥がすことにも使えてしまう。これはアーキテクチャ上の欠陥というより、オープンウェイトという公開形式そのものが内包するトレードオフです。
Financial TimesとAliceの共同テストが示した「数分で解除できる」という事実は、だいぶエグい話です。安全制御が分厚いファインチューニングで実装されているとはいえ、GitHubに公開済みのツールで突破できるなら、高度な攻撃者だけの問題ではなくなります。ある程度の技術知識があれば再現できるレベルであれば、悪意ある利用の裾野はずっと広い。
一方で「だからオープンウェイトモデルは危険」という単純な結論には慎重でいたいところです。クローズドモデルも安全対策が完全ではなく、プロンプトインジェクションなど別の迂回経路が存在することは広く知られています。オープンかクローズドかという二項対立より、「安全制御をウェイトレベルで耐タンパー性のある形で実装できるか」という技術的な問いの方が本質に近い。
【編集部補足】現時点ではMetaやGoogleがこの報告に対してどのような対応を取るか、原文からは読み取れません。オープンウェイトモデルの安全対策の強化方法としては、ウェイト自体に手を加えられにくくする手法や、配布ライセンスによる利用制限といったアプローチが業界では議論されていると言われますが、いずれも「公開した後の制御」という根本的な難しさを完全には解決できていないのが現状、という見立ては各方面で共有されています。
オープンウェイトモデルを使った開発を進めている組織や個人にとっては、今回のテスト結果は「自社のサービスに乗せた安全制御が同様の手法で外せないか」を見直すきっかけにはなりそうです。
関連サービス(広告)
AIの挙動を実際に試してみたい方は、ブラウザだけで本格的なAI画像生成ができる ConoHa AI Canvas
で、出力傾向を自分の手で確かめてみるのも面白い切り口です。

