1年の開発を経て、BigScienceのAI言語モデルがついに登場【テッククランチ】

2022年7月29日

執筆者

Kyle Wiggers

TechCrunchのシニアレポーター、特に人工知能分野に関心を持っている。VentureBeat、Digital Trendsのほか、Android Police、Android Authority、Droid-Life、XDA-Developersなどのガジェットブログに寄稿している。

計画と訓練に1年以上を費やしたボランティア主導のプロジェクトが、人工知能(AI)を研究する米非営利団体OpenAIのGPT-3と同じくらい強力でありながら、誰でも(一定の計算能力さえあれば)無料で使えるというオープンソースの言語モデルを作成した。Bloom」と名付けられたこのモデルは、作成に使われたコードやデータセットとともにオープンソースで提供されている。さらに、米ニューヨーク・ブルックリンに拠点を置くAIスタートアップの「Hugging Face」は、誰でもBloomをダウンロードせずに試すことができる無料のウェブアプリをリリースした。

Bloomは、大規模な自然言語モデルを研究用に広く利用できるようにすることを目的とした国際的なコミュニティ主導のプロジェクト「BigScience」の産物だ。大規模言語モデル(Large language models)、略して「LLMs」は、多少なズレは生じながらも人間のような感覚でもってテキストを翻訳し、要約し、書くことができる。しかしこれまでLLMsの構築には膨大なコストがかかり、研究者の手には届かず、メタやグーグル、マイクロソフトといった大企業だけのものだった。

それが、BigScienceの努力もあってようやく変わりつつある。BigScienceには倫理学者、哲学者、法学者、スタートアップや大手ハイテク企業のエンジニアなど1000人以上のボランティア研究者が参加し、Bloomの構築に取り組んでいている。OpenAIや Alphabet社傘下のDeepMindといった組織がつくるLLMsに匹敵する規模を目指して数カ月を費やした。複数の言語にまたがって動作する最大級のオープンソースモデルであるBloomは、史実に基づくテキストから情報を抽出するなど、さまざまな研究用途に応用できるよう設計されている。

「Bloomは46の自然言語と方言、13のプログラミング言語でテキストを生成することができる」と、発表に先立ってテッククランチと共有されたブログ投稿にはこのように書かれている。「特定のタスク向けに訓練されているわけではないが、テキストの要約や翻訳の生成、指示からのコード出力、レシピ書き、ニュース記事からの情報抽出、新しく定義された造語を使ったライティングといったオリジナルのタスクを実行するのにBloomを使うことができる。ワークショップは実験と進化を続けており、Bloomのパフォーマンスは今後も向上する」とある。

BigScienceの支援者は、偏りや有害性などすべてのLLMsを悩ましている問題に対抗する方法を、Bloomが開拓することも期待している。LLMsには虚偽な内容を吐き出したり、宗教、性別、人種、障害者に対して偏見を示したりする傾向がある。また、文章を書くという基本的なことにも苦手意識があり、脈絡なく話題を変えたり、延々と繰り返したり、矛盾していたりすることがよくある。

「Bloomは高価で大規模な基礎モデルに対しても、オープンソースとオープンサイエンスの力を発揮できることが示されている」と検索エンジンYou.comのCEOで、以前セールスフォースのチーフサイエンティストだったRichard Socher(リチャード・ソッハー)氏は電子メールを通してテッククランチに語った。ソッハー氏はBigScienceに関与していない。「Bloomはまた、AI領域ではどの組織もそれほど長い間、大きな優位性を持っていないことも示している。ある組織が何かの可能性を示すと、6〜12カ月後には同じことができる組織がほかでも現れる」とも述べた。

控えめな始まり

BigScienceはHugging Faceの最高科学責任者 Thomas Wolf(トーマス・ウルフ)氏、GENCI のStéphane Requena(ステファン・レケナ)氏、IDRIS のPierre-François Lavallée(ピエール・フランソワ・ラヴァレー)氏による数年前の話し合いからスタートしている。創設者であるこの3人は、近年になって研究コミュニティから注目を集めるようになったAIの社会的影響を調査するためのソフトウェア、データセット、LLMs、ツールの作成を構想していた。

ほどなくして60カ国超の250以上の機関から集まったBigScienceのメンバーに科学的かつ一般的なアドバイスを与え、共同作業を設計し、ワークショップやハッカソン、公開イベントを組織するための運営委員会が設立された。さまざまなワーキンググループがデータガバナンス、数学の定理証明、アーカイブ戦略、さらにはプライバシーやインフォームドコンセントなどの法的問題の課題に取り組むようになった。

Bloomは彼らの仕事の集大成だ。世界で最も強力なマシンのひとつであるフランス・パリ近郊のスーパーコンピュータ「Jean Zay」で、公的資金(助成金)700万ドル(約10億円)相当分の計算時間を使って学習させた。

AIトレーニングがもたらす二酸化炭素排出について、学術界では活発な議論行われている。データセンターは環境に優しいわけではない。しかしBigScienceによると、Jean Zayは独自の冷却システムと原子力発電のおかげで、パリ−ニューヨーク間のフライトと同量の排出量でBloomを訓練することができたという。

他の言語モデルと同様、Bloomは基本的に単語を予測するための統計ツールだ。1.6TBのトレーニングデータセットからの膨大な数の例を用いて、Bloomは前後のテキストの意味的文脈など、パターンに基づいて単語が出現する可能性を学習した。例えば「Looking forward…」というフレーズで終わる典型的なメールがあったとする。Bloomはその文を「…to hearing back」で終わらせるかもしれない。

BigScienceのワーキンググループの目標の1つは、Bloomを訓練するために十分に代表性のあるデータを収集することだった。公的なデータソースにはシステム的な偏りがあるため、一般的に英語以外のLLMsは英語のLLMsほど良い結果を出してこなかった。Bloomの学習に使用された3410億語のデータセットは書籍、学術出版物、ラジオ原稿、ポッドキャスト、ウェブサイトなどからのもので、スワヒリ語、カタロニア語、ベンガル語、ベトナム語などの言語間で異なる文化的文脈をコード化することを目的としている。

BigScienceグループは、アフリカの自然言語処理コミュニティMasakhane、LatinX in AI、一般社団法人Machine Learning Tokyoなどのコミュニティグループから提案を募り、500のソースから約3分の2のデータセットを手作業で選び出した。例えば、性差別を連想させるポルノサイトの過剰な出現を抑えようと、プライバシーを守るための再編集や品質フィルタリングを行った。

Bloomは完全に偏りのないLLMsではない。しかし、訓練データの透明性を保つことで研究者がBloomの予測や意思決定の基に迫ることが容易になるはずだ。

GPT-3と同規模

1760億のパラメータを持つBloomはGPT-3とほぼ同じ規模だ。機械学習におけるパラメータは訓練データから学習したLLMsの部分であり、テキスト生成などのタスクにおけるモデルの有効性と相関する傾向がある。

一般に、パラメータが多いモデルは訓練するのにより多くの計算能力を必要とする。2020年にAI21 Labsが行った調査では、わずか15億のパラメータを持つテキスト生成モデルの開発にかかる費用は160万ドル(約2億円)にものぼるとされている。この事実から、5300億ものパラメータを持つマイクロソフトやNVIDIA(エヌビディア)の「巨大な自然言語生成モデル(MT-NLG)」のような、大規模で最先端の言語モデルの使用はコミュニティにとって困難だった。

BigScienceは、研究者がBloomをクラウドプロバイダー上で1時間あたり40ドル(約5500円)以下で利用できるようになると謳う。そしてこの40ドルのアクセスへの障壁さえも取り除くことを目指して、BigScienceはより小型でハードウェア負荷の低いバージョンをリリースする計画を立てておりサーバー間でモデルを共有できる分散システムを開発中だ。さらに、APIも開発途上にあるという。

Bloomは、商業・研究目的に幅広く利用されているオープンソースで高性能なLLMsの急成長中のエコシステムに加わることになる。2022年2月には、OpenAI研究グループのEleutherAIがGPT-NeoX-20Bをリリースし、当時いくつかのベンチマークで他の公開言語モデルを上回った。その数カ月後、メタはOPT-175Bをオープンソース化し、同社はこれがAIコミュニティに提供される初の1750億パラメータ言語モデルだと主張した。

すでにEleutherAIのモデルを使ったビジネスも生まれており、有効活用されている。しかし、研究者の中には悪用を懸念する人もいる。米メリーランド大学の研究者たちは、LLMsが専門家をも欺ける説得力のあるフェイクニュースやサイバーセキュリティレポートを生成することが可能だと指摘した。また、メタの研究者が共同執筆した別の論文は、LLMsが特に医療や心理学の予後で不適切なアドバイスを行うことで発生しうる害について論じている。

OpenAIのように、APIを通じてLLMsへのアクセスを提供している多くの企業は、問題のあるテキストを除外するためにフィルターをかけている。しかし明らかにオープンソースのモデルにはそのような保護はない。

悪用される可能性を考慮して、Bloomには機能と制限を概説する文書が付いている。Bloomを使用するには、研究者がこのモデルを悪意ある目的のために使用しないことを約束する法的ライセンスに同意する必要がある。BigScienceはこのモデルがどのように適用されるかを監視し、必要に応じてライセンスと文書に手を加える予定だ。

「同じ性能を保ちつつ一層使いやすくするために、さらに言語を追加し、モデルをより小さくする予定だ。それを拡張するコミュニティの取り組みも支援する。Bloomは今後成長する現在進行形のモデルであり、1つで終わるものではない」とブログには書かれている。

From TechCrunch. © 2022 Verizon Media.  All rights reserved.  Used under license.

元記事はこちら:
A year in the making, BigScience’s AI language model is finally available
By:Kyle Wiggers
翻訳:Nariko

関連記事

人気記事

  • コピーしました

RSS
RSS