TOPコラム海外最新IT事情VRヘッドセットの脆弱性を指摘　装着者の顔の動きから個人情報を抜き取るシステムを開発【研究紹介】

VRヘッドセットの脆弱性を指摘　装着者の顔の動きから個人情報を抜き取るシステムを開発【研究紹介】

2022年2月22日

先端テクノロジーの研究を論文ベースで記事にするWebメディア「Seamless/シームレス」を運営。最新の研究情報をX（@shiropen2）にて更新中。

米ラトガーズ大学、上海交通大学、米Texas A&M University、米テネシー大学による研究チームは「Face-Mic: inferring live speech and speaker identity via subtle facial dynamics captured by AR/VR motion sensors」を発表した。論文は、装着したVR HMD（バーチャルリアリティ・ヘッドマウントディスプレイ、以下VRヘッドセットと呼ぶ）を用い、人間の音声に伴う顔の動きを利用して個人情報や機密情報（クレジットカードデータやパスワードなど）を推定する攻撃方法を提案し、VRヘッドセットの脆弱性を指摘した。VRヘッドセットに内蔵するモーションセンサーから取得した顔の動き（発話に伴う顔の筋肉の動きや骨に伝わる振動）を利用し攻撃を仕掛けることができるという。

▲VRヘッドセットに内蔵するモーションセンサーで音声に伴う顔の動きを利用し攻撃するイメージ図

keyboard_arrow_down 研究背景
keyboard_arrow_down 開発プロセス
keyboard_arrow_down 実証実験
keyboard_arrow_down 実験結果

研究背景

VRヘッドセットは、ユーザーの顔に密着して使用するため、音声内容や装着者固有のプライベートバイオメトリクス（話すときの動作や組織の特性など）を反映した顔筋肉の動きの影響を受けやすくなっている。また発音時には、声帯から発生する導電性の振動（骨伝導振動）が頭蓋骨を伝わって、VRヘッドセットを振動させる。これは低価格のダンボール製VRヘッドセット（Google Cardboardなど）とハイエンドのスタンドアロン型VRヘッドセット（Meta QuestやHTC Viveなど）にも共通する。

ダンボール製VRヘッドセットはスマートフォンを使用するため、スマートフォンのマイクへのアクセス許可が必要としている。同様のポリシーはハイエンドのスタンドアロン型VRヘッドセットのOSでも採用されているため、音声通信を直接盗聴することは容易ではない。だが、内蔵されているモーションセンサーへのアクセスは、通常ユーザーの許可を必要としないのだ。

そこで研究チームは、「Face-Mic」と呼ばれる、VRヘッドセットの装着者が話すときに生じる微妙な顔の動きをモーションセンサーを介して取得したデータから音声を復元し、話者の情報を特定するシステムを開発した。

開発プロセス

これらを実行するためにはいくつかの課題をクリアしなければならない。VRヘッドセットを装着した人は、体の動きを通してバーチャル空間とインタラクトするため、「Face-Mic」は動きによって生じるモーションアーチファクトを除去し、信頼性の高い顔の動きのみを抽出する必要がある。また、顔の動きと話者・音声の特性とのつながりは明確ではないため、顔の動き・骨の振動と音声との関係を探る必要がある。

さらに、VRヘッドセットに内蔵されているモーションセンサーのサンプリング周波数は、Google Cardboardでは200𝐻𝑧、Meta Questでは1,000𝐻𝑧程度である。このようにサンプリング周波数が低いと、モーションセンサーは低忠実度の音声特性しか捉えられないのだ。効果的な攻撃を実現するためには、音声に関連した顔の動きを最適に捉えるための信頼性の高い測定値を導き出す必要がある。

これら課題を踏まえたシステムを構築する。まず、悪意あるアプリがバックグラウンドでモーションセンサーを監視し、音声の発音時にのみ発生する高周波の骨の振動に基づいて人間の音声を検出する。人間の発話を検出すると、アプリは発話に関連するモーションセンサーデータをセグメント化し、セグメント化されたデータを遠隔地に送信してデータ処理を行う。

モーションセンサーで取得したデータをもとに、独自開発した時間-周波数解析を用いた信号源分離技術により、人間の体の動きに起因するアーチファクトを除去する。さらに、顔の筋肉の動きと骨の振動を、それぞれの周波数帯に基づいて分離する。

表情筋の動きについては、3軸の加速度センサー／ジャイロセンサーの計測値を数値積分することで、3次元の速度と変位／回転を算出する。これにより、VRヘッドセットの会話時の空間的な動きを特徴付けられる。その上で、11種類の時間領域の特徴量と2種類の周波数領域の特徴量を抽出する。

骨伝導振動については、時間-周波数表現（スペクトログラム）を特徴量マップとして探索し、高周波のパターンを捉える。

抽出された特徴量をもとに、開発した深層学習フレームワークで性別検出やユーザー識別、音声認識といった音声内容の復元を行う。

実証実験

実験では、2台のスタンドアロン型VRヘッドセット（Meta QuestとHTC Vive Pro）と、2台の低価格ダンボール製VRヘッドセット（CardboardヘッドセットとNexus 6およびSamsung Galaxy 6スマートフォン）で、被験者45人を対象に「Face-Mic」の効果を検証した。被験者には、VRヘッドセットを装着し数字と単語を10回ずつ話すように指示した。

シナリオ1では、すべてのユーザーが参加する数字／単語データ（モーションセンサーデータとラベルの両方を含む）をランダムに同じサイズの10個のサブセットに分割し、9個のサブセットをトレーニングに、残りの1個のサブセットをテストに使用した。

シナリオ2では、被験者のラベルを使用せず、残りの被験者のラベル付きデータを利用して、深層学習モデルの事前学習を行った。さらに、被験者のモーションセンサーデータを活用して、事前学習したモデルを提案する教師なし領域適応手法に基づいて適応させた。

シナリオ3では、領域適応を行わずに、被験者のデータに対して事前学習したモデルを直接適用した。

実験結果

結果、全てのシナリオにおいて、Face-MicはVRヘッドセット装着者の性別、アイデンティティ、および単純な音声情報を導出できるとわかった。

具体的には、11桁の数字と20個のPGP単語を含む音声コンテンツを、それぞれ約99％（シナリオ1）、54％（シナリオ2）、44％（シナリオ3）のトップ1認識精度で分類できることを実証した。このような精度があれば、電話番号、社会保障番号、クレジットカードのパスワードなど、広範囲の機密情報を抜き出すことができるという。

研究チームは、「Face-Mic」からの回避方法も提案している。モーションセンサーのバックグラウンド使用を無効にすることも考えられるが、ほとんどのVRアプリでは、頭の動きを感知するためにモーションセンサーを使用する必要があるため現実的ではない。

現実的な方法として、プログラムによってモーションセンサーの測定値にノイズを注入する方法がある。顔の動きや骨の振動の復元を妨害するノイズを設計することで、「Face-Mic」がもたらすプライバシーリスクを軽減できる。

VRヘッドセットのベンダーに対しては、フォーム交換用のカバーやヘッドバンドに延性のある素材を追加して、内蔵の加速度センサー／ジャイロスコープで捉えられる顔の振動を減衰する方法を提案する。Meta Questの薄いフェイスカバーに比べ、HTC Viveは厚いマスクを装着しているため、成功率が非常に低くなっている結果を受けて、VRヘッドセットとユーザーの顔の間に延性のある素材を追加して、顔の振動を弱めることは有効性があると実証している。

Source and Image Credits: Cong Shi, Xiangyu Xu, Tianfang Zhang, Payton Walker, Yi Wu, Jian Liu, Nitesh Saxena, Yingying Chen, and Jiadi Yu. 2021. Face-Mic: inferring live speech and speaker identity via subtle facial dynamics captured by AR/VR motion sensors. Proceedings of the 27th Annual International Conference on Mobile Computing and Networking. Association for Computing Machinery, New York, NY, USA, 478–490. DOI:https://doi.org/10.1145/3447993.3483272