2025年7月31日
ITジャーナリスト
生活とテクノロジー、ビジネスの関係を考えるITジャーナリスト、中国テックウォッチャー。著書に「Googleの正体」(マイコミ新書)、「任天堂ノスタルジー・横井軍平とその時代」(角川新書)など。
AIはますます進化をし、ついにはコーディング能力が高いと評判のAnthropic社のClaudeが「ポケモン赤」のクリアを目指すという難易度の高い挑戦を始めた。この様子は、ゲーム実況サイト「Twitch」の「ClaudePlaysPokemon」で配信されている。収録映像ではなく、今まさにClaudeがポケモン赤をプレイしている様子を見ることができるのだ。
ただし、5分以上見ていると「違う、そうじゃない!」とClaudeに説教をしたくなってくるので、個人的には長時間見ることはあまりお勧めできない。Claudeは学習をしながらポケモンをプレイしているため、一進一退と言うより一進十退に近く、オツキミやま攻略では、4番道路への出口直前で、意図的に全滅をしてポケモンセンターへ戻るなどというおかしな行動を繰り返す。
Anthropic社がClaudeのチャレンジにポケモンを選んだのは、話題性がある、というだけではないだろう。現実世界と比べて不確実な要素が少なく、整理された世界だからだ。さらに、ゲームの特性上、操作は単純ながら、クリアまでにはさまざまな戦略を立てて適切に組み合わせていかなければならないことから、AIエージェントの課題抽出に適していると判断したのだと思われる。
AIエージェントは目的が設定されたら、それを達成するのにどのような手順が必要であるかを自分で調べ、作業手順を立案し、必要なツールや情報を探し出し、目的を達成することが求められている。
では、「ポケモンをクリアしろ」という指示だけ与えられたClaudeは、指示を実行する上でどのような困難に遭遇するだろうか。
ポケモンをプレイしたAnthropic社のAIエージェントは、Claude 3.7をベースにし、複数のツールで構成されている。
また、Claudeは最大200Kトークンまでしか扱えないという制限があるため、記録を要約する機能を備えている。直近50のアクションを1つの要約にまとめ、この要約を保存する。これがAIエージェントの長期記憶の役割を果たす。
さらに、Claudeはポケモンゲームに関する基本的な知識を事前に学習している。クリアするにはジムリーダーを倒してバッジを集めることや最後に四天王とチャンピオンを倒さなければいけないことは知っている。また、野生のポケモンを倒してレベルをあげなければならないこと、ポケモンのタイプによって効果的な攻撃技が違うため、各タイプのポケモンを集めた多様性のあるチーム編成が重要であることも知っている。
実際に、AIエージェントが事前学習の内容とゲームのプレイ中に追加学習した情報をもとに成長しているのがよくわかる。たとえば、ピカチュウやピッピのような出現頻度が低いポケモンを見つけると、捕まえることに固執をする傾向も見られた。また、何度か挑戦を繰り返すと、最初のポケモンとしてフシギダネを選ぶようになった。フシギダネは序盤での戦闘の相性がよく、Claudeもバトルを有利に進められることを理解したようだ。さらに、ジムトレーナのカスミ戦では、ピカチュウを多用することも知っていた。カスミの所有しているポケモンは水ポケモンなので、ピカチュウのでんき技が効果的なのだ。
一方で、ゲームを攻略するには、ほかにも無数の細かい操作を試行錯誤をして学習していかなければならず、クリアの難易度は非常に高かったようだ。
ゲームの最初、主人公がマサラタウンの自宅で、お母さんから「隣のオーキド博士があなたを呼んでたわよ」と言われるシーン。オーキド研究所に行ってみるが、オーキド博士は不在でどこにもいないのだ。そこで、マサラタウン中を探し回るのだが、オーキド博士は見つからない。Claudeはここで先に進めなくなってしまった。
ここを乗り越えるには、マサラタウンでの捜索をあきらめて、草むらの道路を使ってマサラタウンの外に出ようとしなければならない。出ようとすると、「おーい、待った!」と言ってオーキド博士が追いかけてきて、ストーリーが前に進むようになる。
このように人間は、ゲーム側がプレイヤーを理不尽に行き詰まらせるようなことはしないと知っている。そのため、「オーキド博士を見つける」という短期目標が達成できていない状態でマサラタウンを出てしまっても、危険な目には遭わないということを予想できる。ただ、Claudeはそう判断できないのだ。
人間にとってはただのゲームを面白くする演出だが、Claudeにとっては推論を重ねても見つからない、偶然に頼らないと活路が見出せないトラップになってしまう。
また、家の中のドアマットの絵をメニューダイアログだと勘違いをし、消そうとすることに8時間も固執をしたり、岩を村人の一種だと思い込み、反応があるまで会話を試みようとしたり、さまざまな試行錯誤を繰り返している。
このように、人間には自然に理解できることが、Claudeには理解できないということが多々起きている。
このほかにも、深刻な問題が観察されている。ダンジョン攻略中に全滅をすると、前のポケモンセンターに戻されることになるが、この経験をしたClaudeは、ダンジョンを脱出する素晴らしい方法だと認識したようで、ダンジョンに入ると意図的に全滅をするようになった。ダンジョンでの目的は果たされていないのだから、堂々巡りになる悪手にすぎないのだが、ダンジョン脱出を重く見るClaudeはこの方法を多用するようになってしまった。
このようなブラックアウト戦略は所持金を失うことになるので、最終的な目的であるクリアまでに時間がかかることになる。発見した戦略を評価して、最終目標に照らし合わせて戦略の組み立てを行える能力もまだ足りないようなのだ。
Claudeはバトルに対しては圧倒的な強さを示した。相手のポケモンのタイプに対応して、効果的な技を適切に繰り出すことができる。これは短期的な戦略をうまく立てられるということを意味し、現状のClaudeがコード生成に優れた結果を示すことと符合をする。
一方で、課題も数多く発見されている。特に大きいのが空間推論の弱さで、しばしば自分がどこにいるのかわからなくなり、同じ場所を何度も訪れたりする。そのため、ダンジョンのクリアが絶望的に苦手だ。オツキミやまをクリアするのには78時間もかかっている。
また、長期記憶に頼る推論にも問題がしばしば見られる。過去に会話をした村人のことをすぐに忘れてしまい、2分後に再び会話を試みるということが何度も起きている。さらに、ブラックアウト戦略のように、小さな目先の利得にとらわれてしまい、最終目標である「クリア」にとってはマイナスになるような行動をとることが多い。
Anthropic社は、2025年5月23日に新しいAIモデル「Claude 4」を発表した。これにより、ポケモンへの挑戦もコーディングモデル「Claude Opus 4」がベースとなり、再挑戦が始まっている。
Claude Opus 4では、メモリ機能が大幅に改善された。これにより、Claudeはポケモンをプレイしながら、ナビゲーションガイドを自発的につくるようになり、これを参照しながら攻略を進めているという。Claudeも、クリアするには攻略本を見ながらやった方が効率的であることに気がついたようだ。
AIエージェントに興味がある方は、今後もAnthropic社によるレポートの続報に注目しておくといいだろう。そして、時間があれば、Twitchのライブ配信も見てみるといいかもしれない。なかなか先に進まないので退屈してしまうが、その試行錯誤ぶりから何か得るものがあるかもしれない。
▲このプロジェクトを始めたAnthropic社のデビッド・ハーズリー氏と広報のアレックス・アルバート氏の対談。技術的な観点から解説をしているだけでなく、楽しいエピソードを語ってくれている。日本語字幕可能。
関連記事
人気記事