最新記事公開時にプッシュ通知します
2026年1月15日


ITジャーナリスト
生活とテクノロジー、ビジネスの関係を考えるITジャーナリスト、中国テックウォッチャー。著書に「Googleの正体」(マイコミ新書)、「任天堂ノスタルジー・横井軍平とその時代」(角川新書)など。
脳内の思考を読み取り、可視化する「ブレインデコーダー」の技術進化が著しい。マルチモーダル学習、ディフュージョンモデル(拡散モデル)などAI領域での研究成果を応用し、脳内でイメージしたものをかなり正確に映像化するところまできている。AIテクノロジーは、「人類最後のフロンティア=脳」をどのように探求しているのだろうか。
今、ある“デバイス”が注目されている。
搭載されているカメラの解像度は約5億7600万画素。暗所では数個のフォトンすら感知できる驚異的な感度を持っている。マイク性能は20Hzから2万Hzまで対応。最新型のハイレゾマイクの10万Hzには及ばないが、その代わり、雑踏の中から特定の音声だけを目立たせる「カクテルパーティーエフェクター」を搭載している。
しかも、驚くべきは、わずか20Wから100Wという低電力で動作するという点だ。これは電球1個分にすぎない。AIに必須のGPUが1枚で最大約700Wを消費することを考えると、驚くべき省エネデバイスだ。しかも、電源は不要で、有機物を与えると、それを燃料に化学的に電力を生み出す燃料電池としての機能も備えている。
ただし、データの入出力性能が圧倒的に劣っている。文字をスキャンして入力する速度は、トレーニング後でも数百bpsが限界。音声発話出力も100bpsが限界になる。さらに問題なのは、この時代にあってUSBポートすら備えていないという点だ。
すでにお気づきだろうか。
このデバイスとは、私たち人間のことだ。
人間は、デバイスでいうところのデータの「入出力ポート」を備えていない。脳内にあるイメージや思考を、第三者が客観的に理解できる形で直接外部へ出力する手段が存在しないのだ。
この脳に「閉じ込められた」イメージを出力するために、脳波を測定するインタフェース「BCI(Brain-Computer Interface)」の開発が盛んに行われている。
イーロン・マスクが率いるニューラリンク(Neuralink)は、電極を直接脳につなげるインタフェースの開発を行っている。これは「侵襲型インタフェース」と呼ばれるが、体に傷をつけることから多くの人にとってハードルが高い。そのため、体を傷つけず、電極キャップを被るだけで脳活動を検出できる「非侵襲型インタフェース」が主流になっている。
このようなBCIを使って何をするのか。
さまざまな応用例があるが、その中でも興味深いのがブレインデコーディングだ。
通常、人間が画像などを見たとき、それに対応した脳波が発生する。先行研究はこの脳波を活用し、被験者が見ているものを映像として再現しようと試みた。この技術が発展すれば、被験者が現実世界で見ているものだけでなく、寝ている時の夢を映像化することや、密かに考えている白昼夢を映像化することも可能になる。脳の中を映像化するというSF的な世界が現実のものになろうとしている。
ブレインデコーディングに関する研究は、2005年のKamitani & Tongの研究「Decoding the visual and subjective contents of the human brain」から始まったとみられる。
被験者がある画像を見た時のfMRI(機能的磁気共鳴画像法。血流の変化を測定し、脳の活動している部位を特定する非侵襲的手法)データを使い、画像とfMRIデータ、両者の関係を機械学習させた。十分に学習をすれば、新たな被験者に画像を見せた時のfMRIデータを測定することで、見ている画像を再現できる。
その結果は驚くべきものだった。画像としてはクリアではないものの、見たものがほぼ再現されている。
これまでの研究成果により、脳活動から見ているものを再現するブレインデコーディング、ひいてはその人が考えていることを可視化するマインドリーディングが可能であることが示唆された。
この分野でブレイクスルーを起こしたのは、2023年にシンガポール大学の研究者Chenらが発表したMinD-Visという技術だ。発表論文によると、この技術は、2つの壁を突破した。1つはマスクモデリングで、もう1つはディフュージョンモデルの採用だ。
ブレインデコーディングの最大の問題は、映像とfMRIを結びつけたデータセットが極めて少ないということだった。とはいえ、脳活動は個人差が大きく、やみくもに大量のデータを集めればいいというものでもない。
学習素材の少なさという障害を乗り越えようと、Chenらの研究チームは、fMRIのある特性に着目をして、効果的な事前学習の手法を確立した。
その特性とは、fMRIデータは冗長性が大きいということだ。隣り合った値はよく似ており、適切な場所を選べば25%のデータで全体を再現することが可能だという。
そこで、実際のfMRIデータの一部をマスクして、その部分を予測させる学習を行った。これにより、モデルはfMRIのデータ構造を理解し、少ないデータでも効率的に学習が進められるようになった。
画像生成には、生成AIの分野で主流になっているディフュージョンモデルを採用した。これは、ある画像にノイズを加えていき、砂嵐画像になるまでのプロセスを学習するというものだ。この学習経路を逆回転させれば、砂嵐のようなランダム画像から意味のある画像を生成することができる。
これにより、ブレインデコーディングは実用レベルに達した。特に大きいのが、意味的理解が可能になったことだ。被験者が見ているものが「ボート」であれば、生成される画像は他ならぬ「ボート」そのものになる。
さらに、マルチモーダル学習も取り入れられた。これは、異なる種類のデータを複合的に学習する手法で、今回はfMRIだけでなく、EEGやMEG、fNIRSといった複数のデータを組み合わせて学習させた。いずれのデータも、体を傷つけない非侵襲的手法で測定することができる。
EEG(Electroencephalography)とMEG(Magnetoencephalography)の2つは脳の電気的な信号を捉えるもの。EEGは脳内の電気活動を測定し、MEGはその際に発生する磁場の変化を測定する。
一方、fMRI(functional Magnetic Resonance Imaging)とfNIRS(Functional Near-Infrared Spectroscopy)は脳の代謝を捉えるものだ。fMRIは、MRIと同じ仕組みで脳血流を測定し、fNIRSは、スマートウォッチと同じように、光をあてた反射から脳血流の酸素飽和度の変化を測定する。
これらは、それぞれに特性があり、ブレインデコーディング技術にとって長短を持っている。そして、マルチモーダル学習による複数のデータを組み合わせることで、それぞれの短所を補い合い、よりモデルの精度が向上していくのだ。
現状ではEEGとfNIRSの組み合わせが有望だとされている。
EEGは非常に鋭敏に反応をするため、いつ脳活動が起きたかを記録することができる。一方、どの場所で活動が起きたかは把握しづらい。ところが、fNIRSは脳のどの場所で活動が起きたかを正確に測定することができるが、活動を直接測るのではなく、血中酸素の消費量から測定するため時間的にはやや不正確になる。
この異なる性質を持ったEEGとfNIRSを組み合わせることで、脳の活動を克明に把握できるようになる。例えるならば、EEGは時計、fNIRSは地図であり、その両方があれば移動履歴を克明に把握できるのと同じだ。
さらに、研究者の間ではスケーリング則についての分析が進んだことで新たな重要事実の発見もあり、ブレインデコーディングという技術が将来有望であると言えるようになった。
発見の1つは、被験者数を増やすよりも、1人の被験者から大量のデータを取得して学習した方がモデルの学習が速く進むということだ。つまり、大掛かりな実験計画を立てなくても、小さな研究室で少人数の協力者を得ることでも、高性能のデコーディングモデルを開発することができる。
そして、これまでの学習データ量と性能をプロットしても、頭打ちになる部分が見られなかった。言い換えると、まだまだこの技術は性能向上の途中にあり、賭けてみる価値があるということだ。
このようなデコーディング技術の開発を進めることで、脳の仕組みの解明に大きく貢献できる可能性が高い。
脳波を読み取るだけでなく、映像に合わせて脳波を生成できるようになれば、脳に直接映像体験を入力することができるようになったり、視覚を失った人に人工的な視覚を提供することもできるようになったりする日も遠くはないだろう。また、画像ではなく、脳波から音声を生成する研究も行われていて、発語機能を失った人の脳波をデコードし、音声として出力することも可能になるかもしれない。
現状の問題は、脳活動というのは個人差が大きく、特定の人用のデコーダーを開発することはできるようになっても、別の人がそれを使ってもうまく機能しないということだ。
ただ、すでに複数の被験者の共通部分をマッピングして整理する試みが始まっており、これが進んでいけば、誰の脳にも対応できる汎用デコーダーが開発できるようになるだろう。
「他人は何を考えているかわからない」。
それは私たちホモサピエンスが認知能力を持って以来の絶対原理だった。そのために、人はコミュニケーションを高頻度で行い、互いの考えを伝え合うことで理解し合ってきた。しかし、ブレインデコーディング技術が進歩すると、コミュニケーションを取らなくても、相手の考えが手に取るようにわかるようになるはずだ。
齟齬のない相互理解が可能になり、人類は究極の愛を手に入れるのだろうか。それとも、受け入れることのできない危険人物を排除するため、思想警察が暗躍するディストピアになるのだろうか。SF小説が書けそうなテクノロジーが着々と現実になろうとしている。
関連記事



人気記事