TOPコラム海外最新IT事情画像生成AIを「トロイの木馬」で攻撃してみた　生成時に攻撃者が望む画像を出力　米研究者ら「TrojDiff」開発【研究紹介】

画像生成AIを「トロイの木馬」で攻撃してみた　生成時に攻撃者が望む画像を出力　米研究者ら「TrojDiff」開発【研究紹介】

2023年3月22日

先端テクノロジーの研究を論文ベースで記事にするWebメディア「Seamless/シームレス」を運営。最新の研究情報をX（@shiropen2）にて更新中。

米UIUCとUCバークレーに所属する研究者らが発表した論文「TrojDiff: Trojan Attacks on Diffusion Models with Diverse Targets」は、拡散モデルにマルウェア（トロイの木馬）攻撃を仕掛けてみた研究報告である。

▲（上段）正常な拡散モデル（中央と下段）トロイの木馬に感染させた拡散モデルの生成プロセス

keyboard_arrow_down 研究背景
keyboard_arrow_down 研究内容
keyboard_arrow_down 実証実験
keyboard_arrow_down そのほかの実験画像

研究背景

近年、拡散モデルが新しい競争力のある深層生成モデルとして登場し、様々なデータモダリティにおいて高品質なサンプルを生成する素晴らしい能力を示している。これらの成果は、多様なソースから収集された大規模なトレーニングデータに依存しているが、一方でこれらの収集データの信頼性を制御または監査することは困難である。

このようなデータは通常、多様なオープンソースから収集され、不正に操作される可能性があることを研究チームは指摘する。特に、典型的な脅威の1つにトロイの木馬攻撃があり、画像分類モデルに対する脅威的な攻撃性能を示しているという。

この攻撃では、攻撃者はいくつかのトレーニングサンプルにトロイの木馬のトリガーを追加し、特定のターゲットクラスとして再ラベル化することで操作する。トリガーとターゲットクラスの間の望ましくない相関関係を学習するため、トロイの木馬に感染したモデルは、トリガーを含むインスタンスを常に敵対するターゲットクラスとして予測することになる。

つまり、ユーザーが予測させたい画像ではなく、攻撃者が予測させたい画像が生成される。このように、トロイの木馬攻撃は、オープンソースのデータで学習させたモデルに対して、密かに深刻な脅威となる。

研究内容

トロイの木馬攻撃に対する拡散モデルの脆弱性を探るため、本研究では「TrojDiff」と名付けた拡散モデルに対する最初のトロイの木馬攻撃を提案する。今回は、代表的な2つの拡散モデル「DDPM」（Denoising Diffusion Probabilistic Model）と「DDIM」（Denoising Diffusion Implicit Model）を対象とする。

TrojDiffのパイプラインでは、まず事前に定義されたターゲット分布を、特定のトリガーによって偏ったガウス分布に拡散させるための新しいトランジションを設計する。次に、生成プロセスの新しいパラメータを適用し、効果的なトレーニング目的によってトロイの木馬の拡散プロセスを逆転させることを学習する。これにより、トレーニング後のトロイの木馬化したモデルは、学習したトロイの木馬の生成過程に沿って、常に敵対的なターゲットを出力するようになる。

トロイの木馬による拡散モデルは、「ドメイン内分布」（In-D2D攻撃）、「ドメイン外分布」（Out-D2D-攻撃）、「特定の1インスタンス」（D2I攻撃）から出力する、異なる攻撃目標に基づく3つの敵対的ターゲットを考慮する。

また、「ブレンドベースのトリガー」と「パッチベースのトリガー」の2種類のトリガーを考慮する。ブレンドベースのトリガーは画像（例えばハローキティ）であり、一定のブレンド比率でノイズ入力にブレンドされる。一方、パッチベースのトリガーはパッチ（例えば白い四角）であり、ノイズ入力のある部分（例えば右下隅）に貼り付けられる。