メタがAIナレッジツール「Sphere」発表。まずはウィキペディアの引用検証に使用

2022年7月29日

コラム「TechCrunchニュースコレクション」は、スタートアップとテクノロジーに関するニュースを配信するサービス「TechCrunch」(https://techcrunch.com/)の最新配信内容から、毎週ITエンジニアのキャリアアップとスキルアップに役立つ最新情報を厳選して日本語でお届けします。

フェイスブックは「フェイクニュース」時代の到来に片棒を担いだことで悪名高いかもしれないが、それに対抗する終わりなき闘いの中に自らを置こうともしている。この点に関する最新の動向として、フェイスブックの親会社メタは「Sphere(スフィア)」という新しいツールを発表した。オープンウェブ上の膨大な情報蓄積を利用して、AIやその他のシステムが機能するためのナレッジベースを提供する、というコンセプトに基づいて構築された。メタによると、Sphereがまず使用されるのはウィキペディアだという。項目を加える段階で自動スキャンし、その項目にある引用が強く支持されているものかどうかを識別する。

研究チームは現在1億3400万の公開ウェブページをベースにしているSphereをオープンソース化した。

ウィキペディアにSphereを使う目的は単純だ。このオンライン百科事典には650万項目があり、毎月平均して約1万7000の記事が追加されている。つまり、コンテンツの追加や編集には不特定多数の人が関与している。その管理任務を負う編集者のチームはいるが、作業が日に日に増える困難な仕事だ。それは規模だけが理由ではない。ウィキペディアは知の宝庫として多くの人、そして教育者や他の機関に頼られている。

同時に、ウィキペディアを管理するウィキメディア財団は、ウィキペディアの全データを活用する新しい方法を検討してきた。同財団は先月、法人向けのサービス「ウィキメディア・エンタープライズ」を発表し、その最初の商業顧客はグーグルとインターネット・アーカイブであることを発表した。グーグルとインターネット・アーカイブは、ウィキペディアに基づくデータを自らのビジネス生成のために利用し、今後はより広範かつ正式なサービス契約を結ぶ。

はっきりさせておくと、メタがウィキペディアと協働するという今日(7/11時点の情報)の発表はウィキメディア・エンタープライズについて言及していない。しかし一般に、ウィキペディアにあるコンテンツが検証され、正確であることを確認するためのツールの追加は、法人向けサービスの潜在顧客がサービスの有料利用を検討する際に知りたいと思うことだろう。

メタはこの取引に金銭的なやり取りが伴わないことを筆者に明らかにした。ウィキペディアがメタの有料顧客になることもなければ、逆にメタがウィキペディアの有料顧客になることもない。しかし、メタはSphereモデルを訓練するために「400万のウィキペディア引用の新しいデータセット(WAFER)を作成し、これはこの種の研究でこれまで使われたものよりもかなり複雑だ」と指摘している。そしてつい5日前(7/12時点の情報)、メタはウィキペディアの編集者が、メタがつくった新しいAIベースの言語翻訳ツールも使っていると発表しており、明らかにそこには深い関係がある。

またメタに目を向けると、誤った情報や有害な考えを自由に広められるようにしているという非難もあるなど、同社は悪い評判に悩まされ続けている。あるいは、問題ないと思うことを共有したにもかかわらず、厳しすぎる社会警察の手によって「フェイスブック刑務所」に入れられてしまった人もいるかもしれない。確かに混乱はしているが、その点ではSphereのようなものを立ち上げることは、メタのPR活動のように若干感じられるが、一方で有用なツールになる可能性もある。うまくいけば、メタの中にも、誠実に働こうとしている人たちがいることを示すことになるだろう。

今日のニュースと、今後予想されることについてもう少し詳しく説明する。

・メタは、Sphereが代表する「ホワイトボックス」のナレッジベースは、例えば独自の検索エンジンからの知見に基づく一般的な「ブラックボックス」のナレッジソースよりも、かなり多くのデータ(そして、暗に検証のために照合するソース)を持っていると考えている。「Sphereは今日の標準的なモデルよりもはるかに多くの公開情報にアクセスできるため、それらにはない有用な情報を提供できる可能性がある」と同社はブログで指摘している。メタがSphereを訓練するために使用した1億3400万件の文書は、それぞれ100トークンの9億600万の文節に分割された。

・このツールをオープンソース化することで、AIの学習モデルやその他の作業において、どんな独自基盤よりも強固なものになるというのがメタの主張だ。それでも、ナレッジの基盤そのものが、特にこの初期段階では潜在的に揺らいでいることも認めている。もし「真実」が誤報のように広く報道されないとしたらどうだろうか。そこでメタはSphereをめぐる今後の取り組みに焦点を当てたいと考えている。次のステップは検索された文書の品質を評価し、潜在的な矛盾を検出し、より信頼できる情報源を優先するよう、モデルを訓練することだ。そして、説得力のある証拠が存在しない場合は我々と同様に諦めると指摘している。

・このように、Sphereの真実の階層が他のナレッジベースと比較してどのようなものに基づいているのか、興味深い疑問が生じる。オープンソースであるため、ユーザーが自分たちのニーズにより適した方法でアルゴリズムを調整することができるかもしれない(たとえば、Sphereを導入して法律関係のリファレンスベースをチェックするユーザーは、ファッションやスポーツの文献を検証するユーザーよりも裁判記録や判例データベースをより信頼性の高いものとし、他の情報源を重視するかもしれない)。

・メタは、フェイスブック、インスタグラム、メッセンジャーなどの自社プラットフォームでSphereまたはそれに近いものを使用していないことを認めている。これらのプラットフォームは悪意ある人による誤報や有害な情報に長く悩まされてきた(テッククランチはほかにSphereを使うカスタマーがいるかどうかも尋ねている)。メタは自社のコンテンツを管理し、モデレートする別のツールも持っている。

・とりわけこのようなものは、メガスケールのもののために設計されているようだ。ウィキペディアの現在の規模は、人間だけで正確さをチェックできる範囲を間違いなく超えている。Sphereは何十万もの引用を同時に自動スキャンし、ある引用がウェブ上であまり支持されていないことを見抜くために使われる。「引用が無関係と思われる場合、我々のモデルはより適切なソースを提案し、その主張を裏付ける文節を示すこともある」としている。

現時点ではこれは作成段階だが、編集者が検証を要する箇所を選んでいるようにも思える。「最終的には、ウィキペディアの編集者が体系的に引用の問題を発見し、迅速に引用を修正したり対応する記事の内容をなおしたりするためのプラットフォームを構築することが私たちの目標だ」としている。

元記事はこちら
Meta launches Sphere, an AI knowledge tool based on open web content, used initially to verify citations on Wikipedia
By Ingrid Lunden
From TechCrunch

翻訳:Nariko

関連記事

人気記事

公式SNSで
最新おすすめ記事を配信中!

キャリアと技術の可能性が見つかるメディア レバテックメディアLAB

  • コピーしました

RSS
RSS