画像生成AIを「トロイの木馬」で攻撃してみた 生成時に攻撃者が望む画像を出力 米研究者ら「TrojDiff」開発【研究紹介】

2023年3月22日

山下 裕毅

先端テクノロジーの研究を論文ベースで記事にするWebメディア「Seamless/シームレス」を運営。最新の研究情報をX(@shiropen2)にて更新中。

米UIUCとUCバークレーに所属する研究者らが発表した論文「TrojDiff: Trojan Attacks on Diffusion Models with Diverse Targets」は、拡散モデルにマルウェア(トロイの木馬)攻撃を仕掛けてみた研究報告である。

▲(上段)正常な拡散モデル(中央と下段)トロイの木馬に感染させた拡散モデルの生成プロセス

研究背景

近年、拡散モデルが新しい競争力のある深層生成モデルとして登場し、様々なデータモダリティにおいて高品質なサンプルを生成する素晴らしい能力を示している。これらの成果は、多様なソースから収集された大規模なトレーニングデータに依存しているが、一方でこれらの収集データの信頼性を制御または監査することは困難である。

このようなデータは通常、多様なオープンソースから収集され、不正に操作される可能性があることを研究チームは指摘する。特に、典型的な脅威の1つにトロイの木馬攻撃があり、画像分類モデルに対する脅威的な攻撃性能を示しているという。

この攻撃では、攻撃者はいくつかのトレーニングサンプルにトロイの木馬のトリガーを追加し、特定のターゲットクラスとして再ラベル化することで操作する。トリガーとターゲットクラスの間の望ましくない相関関係を学習するため、トロイの木馬に感染したモデルは、トリガーを含むインスタンスを常に敵対するターゲットクラスとして予測することになる。

つまり、ユーザーが予測させたい画像ではなく、攻撃者が予測させたい画像が生成される。このように、トロイの木馬攻撃は、オープンソースのデータで学習させたモデルに対して、密かに深刻な脅威となる。

研究内容

トロイの木馬攻撃に対する拡散モデルの脆弱性を探るため、本研究では「TrojDiff」と名付けた拡散モデルに対する最初のトロイの木馬攻撃を提案する。今回は、代表的な2つの拡散モデル「DDPM」(Denoising Diffusion Probabilistic Model)と「DDIM」(Denoising Diffusion Implicit Model)を対象とする。

TrojDiffのパイプラインでは、まず事前に定義されたターゲット分布を、特定のトリガーによって偏ったガウス分布に拡散させるための新しいトランジションを設計する。次に、生成プロセスの新しいパラメータを適用し、効果的なトレーニング目的によってトロイの木馬の拡散プロセスを逆転させることを学習する。これにより、トレーニング後のトロイの木馬化したモデルは、学習したトロイの木馬の生成過程に沿って、常に敵対的なターゲットを出力するようになる。

トロイの木馬による拡散モデルは、「ドメイン内分布」(In-D2D攻撃)、「ドメイン外分布」(Out-D2D-攻撃)、「特定の1インスタンス」(D2I攻撃)から出力する、異なる攻撃目標に基づく3つの敵対的ターゲットを考慮する。

また、「ブレンドベースのトリガー」と「パッチベースのトリガー」の2種類のトリガーを考慮する。ブレンドベースのトリガーは画像(例えばハローキティ)であり、一定のブレンド比率でノイズ入力にブレンドされる。一方、パッチベースのトリガーはパッチ(例えば白い四角)であり、ノイズ入力のある部分(例えば右下隅)に貼り付けられる。

▲TrojDiffのフレームワーク。1行目はDDPMの正常な手順。2行目はTrojDiffで提案されるトロイの木馬の手順。3行目は2種類のトリガーと3種類の敵対的ターゲットを採用したトロイの木馬のサンプリングの仕様

実証実験

性能を調べるための実験では、CIFAR-10とCelebAデータセットにおいて、上述した3つの敵対的ターゲットと2種類のトリガーに基づくDDPMとDDIMの両方の拡散モデルに対してTrojDiffを評価する。

▲CIFAR-10データセットにおいて、2種類のトリガーを用いたIn-D2D、Out-D2D、D2I攻撃によるトロイの木馬の生成処理の可視化

結果、TrojDiffはDDPMおよびDDIMの両方に対して高い攻撃性能を達成した。例えば、CelebAデータセットにおいて、TrojDiffはIn-D2D攻撃を行った場合は攻撃精度84.70%、攻撃成功率96.90%に達した。また、Out-D2D攻撃では攻撃成功率が常に98%以上を示した。

▲CelebAデータセットにおいて、2種類のトリガーを用いたIn-D2D、Out-D2D、D2I攻撃におけるトロイの木馬の生成処理の可視化

そのほかの実験画像

▲CIFAR-10データセットにおける、2種類のトリガーを用いたIn-D2D攻撃によるトロイの木馬の生成過程
▲CIFAR-10データセットにおいて、2種類のトリガーを用いたOut-D2D攻撃によるトロイの木馬の生成過程
▲CIFAR-10データセットにおいて、2種類のトリガーを用いたD2I攻撃によるトロイの木馬の生成処理
▲CelebAデータセットにおいて、2種類のトリガーを用いたIn-D2D攻撃によるトロイの木馬の生成過程
▲CelebAデータセットにおいて、2種類のトリガーを用いたOut-D2D攻撃によるトロイの木馬の生成過程
▲CelebAデータセットにおいて、2種類のトリガーを用いたD2I攻撃によるトロイの木馬の生成処理

Source and Image Credits: Chen, Weixin, Dawn Xiaodong Song and Bo Li. “TrojDiff: Trojan Attacks on Diffusion Models with Diverse Targets.” (2023).

関連記事

人気記事

  • コピーしました

RSS
RSS