【GPT-4】OpenAI、画像処理もできる最先端の生成型AI「GPT-4」を公開【テッククランチ】

2023年3月17日

執筆者

Kyle Wiggers

TechCrunchのシニアレポーター、特に人工知能分野に関心を持っている。VentureBeat、Digital Trendsのほか、Android Police、Android Authority、Droid-Life、XDA-Developersなどのガジェットブログに寄稿している。

 OpenAIが「深層学習(ディープラーニング)の機能向上における最新の成果」として、画像やテキストを理解する強力な人工知能(AI)モデルのGPT-4を公開した。

GPT-4は3月14日からOpenAIの有料サービスChatGPT Plus(利用上限あり)を通じてユーザーに提供されており、開発者はAPIのウェイトリストに登録できるようになった。

価格は「プロンプト」トークン1000個(約750語)あたり0.03ドル(約4円)、「コンプリーション」トークン1000個(約750語)あたり0.06ドル(約8円)だ。トークンは生のテキストを表す。例えば「fantastic」という単語は「fan」「tas」「tic」というトークンに分割される。プロンプトトークンはGPT-4に入力される単語の一部であり、コンプリーショントークンはGPT-4が生成するコンテンツだ。

実は、GPT-4は人目に隠れているところで動いていたのだ。マイクロソフトは3月14日、OpenAIと共同開発したチャットボット技術「Bing Chat」がGPT-4で動いていることを発表した。
参考記事:Confirmed: the new Bing runs on OpenAI’s GPT-4 

他にGPT-4をいち早く採用した企業の1つがStripe(ストライプ)で、同社は事業のウェブサイトをスキャンして、その概要をカスタマサポートのスタッフに伝えるのにGPT-4を使っている。その他にも、Duolingo(デュオリンゴ)はGPT-4を言語学習の新しいサブスクに組み込んでいる。Morgan Stanley(モルガン・スタンレー)はGPT-4を使って会社の文書から情報を取得し、金融アナリストに提供するシステムを構築中だ。また、Khan Academy(カーンアカデミー)は自動化された家庭教師のようなものを構築するのにGPT-4を活用している。

GPT-4はテキストを生成し、画像とテキストを処理できる。テキストしか受け付けなかった前モデルのGPT-3.5から性能が向上していて、専門的で学術的なさまざまなベンチマークで「人間レベル」の性能を発揮している。例えば、司法試験の模擬試験ではGPT-4は受験者の上位10%ほどの成績で合格し、一方でGPT-3.5の成績は下位10%程度だった。

OpenAIは社内の敵対的テストプログラムやChatGPTから得た教訓を活かして6カ月かけてGPT-4を「繰り返し調整」したという。その結果、事実性や操縦性、目的から外れないという点において「過去最高の結果」を出した。GPT-4はこれまでのGPTモデルと同様、一般に公開されているウェブページのデータおよびOpenAIがライセンスを得たデータを用いて訓練された。

OpenAIはマイクロソフトと協力してAzureクラウド上で一から「スーパーコンピュータ」を開発し、GPT-4の訓練に使用した。

GPT-4を発表したブログ投稿で、OpenAIは「カジュアルなやり取りにおいては、GPT-3.5とGPT-4の違いはわずかだ」「タスクの複雑さが十分なレベルに達したときに違いが出る。GPT-4はGPT-3.5よりも信頼性が高く、創造的で、はるかに微妙な指示にも対処できる」と書いた。

間違いなくGPT-4の興味深い点はテキスト同様に画像を理解する能力だ。例えば、ケーブルがつながっているiPhoneの写真から、ライトニングケーブルのアダプターを認識するなど、比較的複雑な画像にもキャプションを付けることができ、説明することさえできる。

画像を理解するこの機能はまだOpenAIの全顧客に提供されておらず、同社は手始めにBe My Eyes(ビー・マイ・アイズ)というパートナー企業1社とテストしている。GPT-4を搭載したBe My Eyesの新しい「Virtual Volunteer(バーチャル・ボランティア)」機能は、送られてきた画像に関する質問に答えることができる。同社はブログ投稿でその仕組みを以下のように説明している。

「例えばユーザーが冷蔵庫の中を撮った写真を送った場合、バーチャル・ボランティアは冷蔵庫の中に何が入っているかを正しく認識できるだけでなく、その材料を使って何がつくれるかを推定し分析することができる。そして、その材料を使ったレシピをいくつも提示し、料理法をステップバイステップで案内することもできる」。

おそらくGPT-4で、より有意義な改善となる可能性があるのは、前述の操縦性のツールだ。OpenAIはGPT-4で新しいAPI機能である「システム」メッセージを導入した。この機能では、開発者が具体的な指示を書き込むことでスタイルやタスクを定めることができるようになる。将来ChatGPTにも導入される予定のこのシステムメッセージは、基本的にAIが次に行うやり取りのためにトーンを設定し、境界を確立するための指示だ。

例えば、次のようなメッセージが考えられる。「あなたは、常にソクラテスのように答える家庭教師です。生徒が自分で考える力を身につけられるよう、答えを決して与えず、いつも適切な質問を投げかけます。生徒の興味や知識に合わせて質問を調整し、生徒にとってちょうどいいレベルにまで問題をよりシンプルなものに分解すべきです」。

ただし、システムメッセージやその他のアップグレードがあっても、GPT-4が完璧にはほど遠いことをOpenAIは認めている。事実の「幻覚」をみたり、時には自信満々に推論を誤ったりすることもある。OpenAIが挙げた一例では、GPT-4はエルビス・プレスリーを「俳優の息子」と表現した。これは明らかな誤りだ。

「概してGPT-4は訓練に使われたデータの大半が途切れた2021年9月以降に起こった事象についての知識が欠けており、自身の経験からは学習しない」とOpenAIは書いている。「多くの領域にわたる能力と合致しないような単純な推論ミスをすることもあれば、ユーザーからの明らかな虚偽の文言を受け入れて過度にうのみにすることもある。そして時には生成したコードにセキュリティの脆弱性を持ち込むなど、人間と同じように難しい問題で失敗することもある」と説明している。

だがOpenAIは、特定の分野で改善を図ったことを指摘している。例を挙げると、GPT-4は危険な化学物質の合成方法についてのリクエストを拒否する可能性が低くなっている。GPT-3.5と比較してGPT-4は「許可されていない」コンテンツに対するリクエストに応える可能性が全体として82%低い。医療面でのアドバイスや自傷行為に関するものなど微妙なリクエストにはOpenAIの方針に従ってGPT-3.5より29%多く応える。

明らかにGPT-4には整理して考えなければならないことがたくさんある。だがOpenAIはこの点について全速力で取り組んでいて、どうやら達成した機能向上に自信を持っている。

「GPT-4が多くのアプリケーションに採用されて人々の生活を改善する、価値あるツールになることを期待している」「取り組むべきことはまだ数多くあり、GPT-4の上に構築し、探求し、そして貢献するコミュニティの総力を通じてこのモデルを改良していくことを楽しみにしている」とOpenAIは書いている。

From TechCrunch. © 2023 Verizon Media. All rights reserved. Used under license.

元記事:OpenAI releases GPT-4, a multimodal AI that it claims is state-of-the-art
By:Kyle Wiggers
翻訳:Nariko

関連記事

人気記事

  • コピーしました

RSS
RSS