生成型AIのネクストステージ。セキュリティが保証された小規模な特化型大規模言語モデルの可能性【テッククランチ】

2023年5月1日

執筆者

Ron Miller

EContent Magazineのコントリビューティング・エディターを経て、2014年よりTechCrunchで企業に関する記事を執筆。過去には、CITEworld、DaniWeb、TechTarget、Internet Evolution、FierceContentManagementなどのメディアでレギュラーコラムを執筆。

OpenAIがリリースしたChatGPTの驚異的な能力は大規模言語モデル(LLM)なしには実現できなかっただろう。大規模言語モデルは何十億、時には何兆ものテキストの例で訓練されている。ChatGPTの背後にある考えは、言語を非常によく理解し、次にどんな言葉が来るかを一瞬にして予測できるというものだ。これを実現するには膨大な学習、計算リソース、開発者の実務知識を要する。

しかし大規模言語モデルの未来は、あらゆる質問に答えられるようになりたいと願うOpenAIなどが取っている実現不可能なことをやろうとするアプローチよりも、もっと専門領域に特化したものなのかもしれない。各業界あるいは各企業がそれぞれの業界用語、言語、各社のアプローチを理解するように学習させた独自のモデルを持ったらどうだろうか。そうなれば、より限定された領域の言葉やフレーズから答えが得られるため、完全にでっち上げの答えが返ってくることは少なくなるかもしれない。

人工知能(AI)が原動力となる未来では、各企業が保有するデータが最も価値ある資産となる可能性がある。保険会社であれば、病院や自動車会社、法律事務所とはまったく異なる語彙を持ち、それを顧客データや組織全体の豊かなコンテンツと組み合わせると言語モデルになる。おそらく大規模言語モデルのように本当に大規模ではないものの、多くの企業向けではなく1社のためにつくられたまさに必要とするモデルになるはずだ。

また、これらのより小規模な大規模言語モデル(sLLM)が吸収しやすいような方法で企業のデータセットを収集、集約、そして常に更新するための一連のツールが必要になる。

それらの構築は挑戦になるかもしれない。おそらくオープンソースのようなものや民間企業の既存のLLMを活用し、より特化したものにしていくので、包括的なLLMより安全な環境で業界や企業のデータを用いて微調整する。

これはスタートアップのコミュニティにとって大きなチャンスであり、多くの企業がこのアイデアに先鞭をつけている。

生成型AIのスタートアップWriter(ライター)の共同創業者でCEOのMay Habib(メイ・ハビブ)氏は、同社はまさにsLLMを試みていると話す。それは、各顧客ごとにその言葉、働き方に合わせたモデルをカスタマイズするというものだ。Writerは「特定の分野に超特化して」展開しようとしており、そうした手法によりもっと正確でカスタマイズされたコンテンツが得られるはずだとハビブ氏は言う。

ハビブ氏はこのほどTechCrunch+に「当社は顧客のデータや顧客が以前に書いたものから情報を得るLLMを本質的に顧客が使えるようにする。いまはその最後の部分を構築している。我々のモデルが検索層に取り込むものは顧客の情報だ」と話した。

ハビブ氏によると、このプロセスには、基本となるWriter製品のもとにあるプロダクトが関わっており、基本的には大規模言語モデルを個々の顧客のためにより特化した有用なものに変える。「顧客には、大規模言語モデルの上に小規模言語モデルを持つようなものだと話している」とハビブ氏は説明した。

2年前のモデルをベースにしたDolly

巨額の評価額を持つホットなスタートアップとして知られているDatabricks(データブリックス)は、クラウドのデータレイクハウスを構築している。そしてこのほど、2年前のモデルをベースにしたsLLMをした。このsLLMには世界初のクローン羊にちなんでDolly(ドリー)と名付けた。「ほぼゴミのようなものしか生み出さない」と、同社のCEOのAli Ghodsi(アリ・ゴディシ)氏が評価する古いモデルの上に、なぜDollyをつくったのかと疑問に思う人もいるかもしれない。

その理由は、より小さく、より焦点を絞ったコーパスを古いモデルに学習させることで、より正確で焦点の絞った答えを導き出すからだ。

「GPT-3が1750億ものパラメータを持つのに対し、Dollyのモデルは60億しか持たず、しかも2年前のものであることから、これほどうまく機能するのは特に驚くべきことだ。このことは、ChatGPTのような最先端のモデルの質向上の多くが、より大規模かつよりチューニングされた基本モデルよりも、指示に従う学習データの特化したコーパスのおかげかもしれないことを示唆している」と、DatabricksがDollyの提供を発表したブログ記事で書かれている。

このアプローチの優れているところは、ChatGPTの学習に数十万〜数百万ドルかかるのに比べ、Dollyは1台のマシンで3時間あれば学習でき、コストもわずか30ドル(約4000円)であることだと同社は主張する。

データセットの大きさによってコストは変わるが、Dollyにデータを与えれば、外部にさらすことなくその会社のことを理解し、ChatGPT風に質問に答えてくれるようになる。

ゴディシ氏は「すべての企業は自社に関連する情報のコーパスを持っている。おそらくそれは顧客とのやり取りやカスタマーサービス、文書、過去に公表した資料などだ。ChatGPTはそのすべてを持っておらず、すべてを持つこともできない」と話した。

さらに「Dollyを使えば、あなたのデータセットに特化させるために実際にモデルを学習させることができ、そのモデルは手元に残る。他の人に渡す必要はない。同業他社との競争にも使える専有の情報だ」とも説明した。

データの今後の活用を考える上でこれは重要だ。ハビブ氏が顧客について指摘するのと同じポイントでもある。その指摘とは、顧客はChatGPTで得られる驚きの要素だけでなく、安全な方法で自分たちが持つデータにAIを実際に応用することを望んでいる、というものだ。

今後の展望

データが重要視され、モデルが重要視されなくなり、スタートアップや大手企業がツールを構築し続ける中で、難しいのは情報を取得して、その情報をモデルが使用しつつ常に更新できるような形式で利用できるようにすることだ。

Cisco(シスコ)のセキュリティとコラボレーション担当の執行副社長兼ゼネラルマネージャーのJeetu Patel(ジートゥ・パテル)氏は、将来は必ずしもsLLMになるとは限らないが、自社のデータを何らかの既存のLLMに送り込むことになるのは間違いないと確信している。

「明確に言うと、どの企業も何らかのカスタムデータセットを持ち、それに基づいて推論を行うことで、誰も真似できない独自の強みを持つことになるだろう。だがそのためにすべての企業が大規模言語モデルを構築する必要はない。必要なのはすでに存在する言語モデルを活用することだ」とパテル氏は話した。

DatabricksがDollyでやろうとしていることと同じように、将来的には企業がChatGPTよりもっと特化したモデルを使い、所有するデータをそのモデルに送り込むようになるとパテル氏は考えている。

「ChatGPTのように汎用的になるAIモデルがあり、そして企業に特化したAIモデルもあるという違いだろうと考えている」とパテル氏は指摘した。

パテル氏はCiscoを例にとって、将来的にはWebExのようなCiscoのアプリとやりとりして、その日のすべての会議の概要を尋ねるだけで得られるようになると示唆する。セキュリティ担当の幹部としてパテル氏はこのようなアプローチには慎重な許可を組み込まなければならないことを強く意識しているが、この種のアプリケーションを特定の企業の製品やサービス上で使えるようにするシナリオは現実的だ。

生成型AIの動きは非常に速く、明日あるいは来週、この技術がどうなるかを明確に予測することは難しい。だが企業で機能するためにはモデルは学習のために専有の企業データに対処するだけの柔軟性が必要で、もしそうであれば、将来はより小規模の特化したモデルが登場するかもしれないという考え方がある。

From TechCrunch. © 2023 Verizon Media. All rights reserved. Used under license.

元記事:Generative AI’s future in enterprise could be smaller, more focused language models
By:Ron Miller
翻訳:Nariko

関連記事

人気記事

  • コピーしました

RSS
RSS