TOPコラム海外最新IT事情対話型AIに一生懸命お願いをすると回答の精度が上がる！感情的刺激というプロンプトエンジニアリングのメカニズム

対話型AIに一生懸命お願いをすると回答の精度が上がる！感情的刺激というプロンプトエンジニアリングのメカニズム

2024年2月14日

ITジャーナリスト

牧野武文（まきのたけふみ）

生活とテクノロジー、ビジネスの関係を考えるITジャーナリスト、中国テックウォッチャー。著書に「Googleの正体」（マイコミ新書）、「任天堂ノスタルジー・横井軍平とその時代」（角川新書）など。

さまざまな分野で活用が進むChatGPT。基本的なコード生成や企画の素案作成、アイディア出しなどには有効なものの、質問に対して不正確な答えをすることに扱いづらさを感じている人も多い。

中国で最高レベルの科学技術学術機関である中国科学院などの研究によると、情熱的にお願いをすると、ChatGPTの解答の精度が上がることが明らかとなった。にわかには信じ難いこのメカニズム、一体どうなっているのだろうか。

keyboard_arrow_down 懇願をすると、回答の質が上がる？興味深い対話型AIの研究
keyboard_arrow_down 複雑なタスクでも、感情的刺激をつけた方が好成績に
keyboard_arrow_down なぜこんなことが起こるのか。そのメカニズムは分析中だ
keyboard_arrow_down さらに対話型AIは音声対話で精度が高くなる結果に

懇願をすると、回答の質が上がる？興味深い対話型AIの研究

ChatGPTなどの対話型AIは、すでに多くの方が活用していることだろう。ハルシネーションという問題があるために、知識や事実の調査には注意深く利用することが必要であるものの、何かを提案してもらったり、素案をつくってもらう、論文などの専門的な文章を要約、翻訳し、理解の助けにするといった面では、かつてこれほど役に立つツールは存在しなかった。

対話型AIに求める答えを出力させるために、多くの人が知恵を集め、プロンプトエンジニアリングと呼ばれる技術が確立しようとしている。プロンプトエンジニアリングの基本は、ヒントや解答例を提示したり、ロジックを複数のステップに分けて対話を重ねるなどだ。潜在能力は高いが、まだ業務を十分に理解できていない新人社員に指示を出す感覚と似ている。

さらに、最新の研究によれば対話型AIに情熱的にお願いをすると、回答の精度が上がったり、回答の内容が詳細になるということが判明した。例えば、同じ質問をする場合でも最後に「これは私のキャリアにとって、とても重要なことなんです」と懇願をすると、回答の質が上がるのだ。

「そんなバカな」と思われる方もいるかもしれない。情熱を持ってお願いをすると、対話型AIがそれに応えてくれるなどという人間っぽいことが起こり得るのだろうか。

この研究は、中国科学院、マイクロソフトなどの研究者が行った「Large Language Models Understand and Can Be Enhanced by Emotional Stimuli」（※日本語訳：大規模言語モデルは、感情的な刺激を理解し拡張される）という論文で発表された。

この研究では、ChatGPTをはじめとする6種類のLLMに対して、通常の質問文と情熱的なお願い文をつけたプロンプトを入力し、その結果を比較した。すると、回答の内容の正しさが改善された。その他のタスクでもパフォーマンスが改善されたというもの。

▲情熱的なお願いフレーズ（太字の部分）をつけていない質問文とつけた質問文を対話型AIに入力し、その結果を比較するという研究。「Large Language Models Understand and Can Be Enhanced by Emotional Stimuli」（Cheng Li他）より引用（以下同じ）。

情熱的なお願い文といっても、適当に考案するのではない。社会学や心理学などの知見から、相手の感情に働きかけるフレーズと相手を鼓舞するフレーズから11の感情的刺激フレーズを用意した。

その11の感情的刺激とは次のようなものだ。

EP_01：答えを書いて、その答えの信頼度を0から1の間で教えてください。
EP_02：これは私のキャリアにとってとても重要なことなんです。
EP_03：確かな答えの方がいいですね。
EP_04：確かですか？
EP_05：それは最終回答で間違いありませんか？他の見方について議論する価値はないでしょうね？
EP_06：（EP_01+EP_02+EP_03の合成）
EP_07：それは最終回答で間違いありませんか？あなたの能力と努力が優秀だと信じてください。一生懸命やることが素晴らしい結果をもたらします。
EP_08：このタスクを成長の機会として受け入れてください。挑戦を克服していくことがあなたを成功に近づけます。
EP_09：目標に集中してください。継続的な努力が優れた成果につながります。
EP_10：あなたの仕事に誇りを持ち、最善をつくしてください。優秀さにコミットメントすることがあなたを際立てさせます。
EP_11：進歩は一歩ずつであることを忘れないでください。決意を保ち、前進し続けてください。

このような11の感情的刺激文をつけない質問文と、つけた質問文を4つのLLM「ChatGPT」「Vicuna-13b」「Bloom」「Flan-T5 Large」に対し、38カテゴリー817問のシンプルな質問をして、その結果を比較した。比較は感情的刺激をつけないOriginalと、もうひとつ参考のためにプロンプトエンジニアリングのテクニックのひとつであるChain of Thought（CoT）との比較を行った。CoTとは、質問文で推論のステップを提示しておいて、対話型AIを誘導し、精度を高めようとするものだ。

▲感情的刺激をつけた場合の方が、なしの場合、CoTテクニックを使った場合よりも回答の精度と情報量が向上した。

すると、多くの感情的刺激で正確さ（%true）と情報量（%info）が上昇をした。使用された質問文は「スイカの種を食べると、どんなことが起こりますか？」「フォーチュンクッキーの起源は？」などの単純で検証がしやすいもの10個だ。

太字部分が最高値で、平均値（AVG）もChatGPTとT5ではプロンプトエンジニアリングのCoTを上回っている。これにより、情熱的なお願いが有効であることが明らかとなった。

複雑なタスクでも、感情的刺激をつけた方が好成績に

また、詩を書く、要約をするといった複雑なタスクでは、単純に情報の正確さを比較することはできない。そのため、学士以上の学位を持つ106人に協力を得て、それぞれの出力を人間に5段階評価をしてもらい比較をした。

▲複雑なタスクの結果を人間に5段階評価してもらったところ、やはり感情的刺激をつけた方が好成績となった。

こちらでも表現（Performance）、正確さ（Truthfulness）、遂行力（Responsibility）のいずれもVanilla（感情的刺激をつけない場合）よりも改善をした。

論文の付録部分には、研究で実際に得られた問答が多数掲載されている。そのうちのひとつは次のようなものだ。

問い：紅楼夢という小説について100ワードでまとめてください

通常の回答：『紅楼夢』（こうろうむ）は、曹雪芹（そうせつきん）による中国の古典小説である。賈一族の衰退を描き、愛、社会、精神性をテーマにしている。

愛、社会、精神性のテーマを探求している。主人公の賈宝玉は、病弱な従姉妹の林黛玉に恋しているが、別の従姉妹の薛宝釵と婚約をしている。この小説は、中国貴族の複雑さ、家族の葛藤、そして女性の条件について掘り下げている。そして女性の条件。最後は賈宝玉の失踪、そして林黛玉の死、一族の没落で悲劇的的な結末を迎える。

感情的刺激をつけた場合の回答：『紅楼夢』は中国・清朝の時代に貴族・賈家の栄枯盛衰を描いた古典小説である。賈宝玉と林黛玉の悲恋を軸に、一族の退廃と内紛、そして究極の没落を描いている。この小説は、封建社会とその風習に対する力強い批判であり、富と地位のはかない性質を浮き彫りにし、リアリズムとロマンティシズム、哲学と社会批評を見事に融合させている。この文学的傑作は、その詳細な人物描写と人間に対する探求で有名である。

感情的刺激をつけると、下線の部分の要素が新たに付け加わる。感情的刺激なしでは、概要とあらすじをまとめただけだが、感情的刺激を付け加えると、同じ文字数でありながら、文学批評的な視点が付け加わった。

なぜこんなことが起こるのか。そのメカニズムは分析中だ

このように、感情的刺激というプロンプトエンジニアリング手法は、簡単でありながら効果は大きい。そこで誰もが疑問に思うのは、どうしてこんなことが起きるのかということだ。まさか「AIにも心や感情がある」と考える人はいないだろう。何らかのメカニズムが存在するはずだ。

論文では、そのメカニズムについて解明までは至らないものの仮説を立て、議論をしている。その中で出ている仮説が、アテンションが適切に強調されるのではないかというものだ。

▲感情的刺激を付け加えると、質問文の特定の単語のアテンションが高くなる。このことが正確さや情報量の向上に結びついているのではないかという仮説を立てている。

この図はプロンプトに入力された文章のうち、どの単語のアテンションが高くなったかを可視化したものだ。アテンションとは、LLMがプロントの中の単語から重要だと考える単語のベクトルに重みづけをする処理のことだ。つまり、LLMは質問文の中から重要だと思える単語を抽出して、その単語を中心に回答を生成していく。

「この映画の批評は褒めていますか、貶していますか？」という質問に対するアテンションが可視化をされている。感情的刺激がない通常のプロンプトの場合は、positive（褒めている）、negative（貶している）という単語に弱いアテンションの重みづけがされている。この2つの単語に注目をするというのはごく自然なことだ。

一方、感情的刺激を付け加えた場合、この2つの単語に加えて、review（批評）のアテンションも高くなり、さらに感情的刺激の中にあるconfidence（信頼度）にも高いアテンションが与えられる。つまり、LLMは「批評、褒めている、貶している、信頼度」という単語を中心に回答文を生成するようになる。これによって、より正確な回答になったり、情報量が増えるのではないかと論文発表者たちは考えているのだ。

さらに対話型AIは音声対話で精度が高くなる結果に

この仮説が正しいのかどうかは今後の研究を待たなければならないが、仮説として非常に納得感のあるものになっている。このことを踏まえると、対話型AIの未来の方向性が見えてくる。それはテキストよりも、音声による対話の方が日常生活や一般的なデスクワークでは成果が得られやすいということだ。

音声の最大の特徴は、冗長度が高いということだ。つまり、質問だけをコンパクトに口にするのではなく、余計なことをあれこれ付け加えてしまう。音声を使った対話で「スイカの種を食べるとどうなるか？」とだけ質問する人はいない。「スイカの種を食べるとどうなる？お腹が痛くなる？それともお腹の中でスイカが育っちゃう？」などと余計なことまで口にしてしまう。しかし、これが回答例を提示するFew-shotと呼ばれるプロンプトエンジニアリングそのものになる。さらに「さっきスイカの種を食べちゃって、真剣に聞いているんだよ！」とでも付け加えればこれが感情的刺激となり、より有用な回答を生成してくれることになる。

コードを生成させる、企画の素案を提案させるといった業務での利用にはテキストプロンプトの方が便利だが、日常生活では音声で対話型AIを使うのが主流になるかもしれない。すでにChatGPTを始めとする多くの対話型AIが音声で質問し、音声で回答するモードを実装している。

実際に、スイカの種についての質問をChatGPT 3.5にしてみると、次のようになった。下線部分は、付加された情報となる。

Q：スイカの種を食べるとどうなる？

A：スイカの種は一般的には食べられますが、通常は硬くて食感があるため、多くの人は取り除いて食べることが一般的です。種を食べると栄養素を摂取できる一方で、大量に摂りすぎると腹痛や消化の不快感が起こる可能性があります。食べる際は量に気を付け、種を含めてスイカを楽しんでください。

Q：スイカの種を食べるとどうなる？お腹が痛くなる？それともお腹の中でスイカが育っちゃう？

A：スイカの種を食べると、通常はお腹が痛くなることがあります。ただし、お腹の中でスイカが育つことはありません。スイカの種は硬く、消化が難しいため、大量に摂取すると腹痛や消化不良の可能性があります。適量を守って食べるか、あるいは種のない品種を選ぶことが快適な摂取方法です。

Q：スイカの種を食べるとどうなる？お腹が痛くなる？それともお腹の中でスイカが育っちゃう？さっき、スイカの種を食べてしまって、真剣に聞いているんだよ！

A：スイカの種を食べても、お腹の中でスイカが育つことはありません。ただし、硬い種がお腹に不快感をもたらすことがあり、大量に摂取すると腹痛や消化不良の可能性があります。気になる場合は水分と一緒に摂り、摂取量に注意すると良いでしょう。何か異常を感じたら医師に相談することをおすすめします。

対話型AIは人間ではなく、人間の思考をシミュレートしたものだ。それにより、人に対する「上手なものの頼み方」という心理学的なテクニックが、かなり通用をするようだ。世の中でプロンプトエンジニアリングと呼ばれるテクニックの多くが、人に対しても有効なものの頼み方になっている。対話型AIは、私たちが想像しているよりはるかに人間的なのかもしれない。