最新記事公開時にプッシュ通知します
2026年3月16日


ITジャーナリスト
生活とテクノロジー、ビジネスの関係を考えるITジャーナリスト、中国テックウォッチャー。著書に「Googleの正体」(マイコミ新書)、「任天堂ノスタルジー・横井軍平とその時代」(角川新書)など。
米中で続々とAIエージェントが登場している。
米国では、ピーター・スタインバーガー氏が開発したOpenClawが爆発的な人気を集めている。OpenClawは、SlackやiMessageなどのチャットで「メールアプリの住所録に入っている全員に、過去のやり取りから最適な文面を考えて、新年の挨拶メッセージを送って」などと指示を出すと、その通りにやってくれる。
セキュリティリスクなどが指摘されるものの、その便利さから急速に広まり、常時稼働に適した省電力のOpenClawサーバーとして「Mac mini」が突如として売れ出しているほどだ。スタインバーガー氏はすでにOpenAIに入社し、次世代AIエージェントの開発を始めている。
中国では昨年12月1日、TikTokなどの運営元バイトダンスが通信機器大手のZTE(中興通訊)と協働し、AIエージェントスマホをモニター販売した。一言命令するだけで、買い物から飛行機のチケット購入までやってくれるAIエージェントスマホは、熱狂的な支持を受け完売した。
しかし、わずか72時間後、この熱狂は落胆に変わったのだ__。
バイトダンスが発売した「豆包AIスマホ」は、ZTEが開発したAIスマホ「Nubia M153」に、バイトダンスのマルチモーダルAI「豆包(ドウバオ)」を全面採用したものだ。価格は3499元(約7万8000円)で、用意した3万台がわずか数時間で完売した。
消費者たちの熱狂の理由は、AIエージェントの性能の良さにあった。
例えば、音声またはテキストで、スマホに「KFCのチキンセットをデリバリーしてほしい」と告げると、AIが「美団(メイトワン)」などのデリバリーアプリを起動。位置情報から最も近いKFCの店舗を指定し、アプリの画面を一つひとつ操作しながらチキンセットを注文してくれる。他社のアプリであってもAIが操作してタスクを遂行するという点が、これまでとは大きく違っている。
屋外広告などで見かけた商品をAIに見せ、「この商品を最低価格で購入したい」と告げると、スマホに入っているECアプリを次々と起動し、目的の商品の価格を調べ、最終的に最低価格で販売しているECの注文画面を出してくれる。

▲広告などで見かけたシャンプーの写真をAIに見せると、3つのECアプリを起動して、その商品の価格を調べ、最低価格で販売しているECを判別し、注文を入れてくれる。豆包アシスタント公式サイトより引用。
決済を実行する前には確認のために画面操作する必要があるが、それ以外はただ見ているだけ。信頼できるなら放置しておいてもいい。複数のタスクを並行して処理もしてくれる。
「豆包AIスマホ」の登場により、スマホというデバイスの役割が変わり、次世代デバイスの時代が始まると、誰もが熱狂した。

▲豆包AIスマホはワイヤレスイヤホンとの相性がいい。現在の中国の電気自動車はアプリが付属しており、アプリから車の操作ができるようになっている。モールで買い物をして手が塞がっている時に、イヤホンに「車のトランクを開けて」と頼むと、アプリを操作して車のトランクを開けてくれる。豆包アシスタント公式サイトより引用。
ところが、発売開始後72時間で、この熱狂は落胆に変わった。問題は2つあった。
ひとつは、AIはそうそうすべてのタスクを完璧に遂行できるわけではなかったことだ。
AIはアプリを起動すると、画面をスキャンして、ボタンなどの操作可能な要素を抽出する。そして、その要素をタップすると何が起こるかを推論して、作業手順を組み立てていく。バイトダンスは、この成功確率は92%だとアナウンスしていた。
一見悪くない数字に見えるが、カスタマイズが必要なドリンクの注文などでは10ステップほど必要になるため、最終的なタスク完遂率は、0.92の10乗で43.4%ほどになってしまう。
さらに、ポップアップ広告のダークパターンもタスク完遂率を下げる要因になっている。多くのポップアップ広告がクローズボタンを小さくしたり、誤解をさせたりするUIデザインを使っている。これにより人間がしばしば誤操作してしまうように、AIも惑わされることになる。実際、SNSには「タスクに失敗した」とか「コーヒーを注文するのに6分もかかった」という投稿が相次いだ。
もうひとつの問題が、主要アプリがAIによるログインを拒否する対策を講じたことだ。中国人のほぼ全員が使っているSNS「WeChat」を皮切りに「タオバオ」「京東」(Eコマース)、「アリペイ」(決済)、「高徳地図」、「王者栄耀」(ゲーム)など、決済機能を内蔵しているアプリが続々とAIログインを拒否してきた。これでAIエージェントができることがほとんどなくなってしまった。
拒否の理由はセキュリティだという。自動ログインを許してしまうと、乗っ取りなどされて決済機能を使われる事故が起こりかねないというものだ。
しかし、多くの人がログイン拒否の本当の理由は別のところにあると想像している。
それは各アプリのバナー広告だ。主要アプリになると1日に数億人が利用する。そのトップページに表示される広告は非常に価値があり、その出稿料は運営企業にとって貴重な収入源になっている。一方で、AIは広告を見ないため、AIアクセスが増えると、広告の価値が毀損されることになる。アプリの開発元が広告収入減を懸念したことが理由だと見られている。
バイトダンスは、各社と協議をして協力企業を増やしていくとしているが、今後の見通しは明るいとは言えない。広告収入の問題だけであるならともかく、ネットの入り口を争奪する戦いに発展しているからだ。
WeChatやアリペイなどの決済機能を持っているスーパーアプリは、その中で数百万種にわたるミニプログラムが利用でき、マクドナルドでもKFCでも、ECでもデリバリーでも、ホテル予約でも飛行機チケット購入でも生活に必要なことはなんでもできるようになっている。
「インターネットの入口」になることで、数億人という莫大なユーザーを惹きつけ、そのトラフィックを分配することで収益をあげている。ところが、AIアクセスを許してしまうと、インターネットの入口はAIになってしまう。つまり、ネットビジネスの覇権をめぐる戦いの構図になっているのだ。
そもそも、タスク完遂率を下げる根深い要因として、AIがアプリ画面を操作するという方式の非効率さがある。
アプリのUI(ユーザーインターフェース)は人間用に設計されており、AI向けに設計されているわけではない。そのため、AIは画面をスキャンして操作可能な要素を抽出し、推論をして目的に合致しそうな要素から試していく。その結果の画面をスキャンして評価する、というプロセスを繰り返していかなければならない。
つまり、画面操作という手法は無理があり、AIエージェントのタスク遂行成功率と遂行速度を妨げる要因になっている。むしろ、AIにとって人間用UIは余計なノイズになってきており、AIエージェントのタスク完遂率を改善しようとするのであれば、本来は各社にアプリ画面デザインをAI向けにつくり直してもらう必要が出てくる。
この点でOpenClawは、AIエージェントがソフトウェアの直接操作も行いつつ、OSのシェルコマンド、ウェブなども活用している。シェルコマンドであればコード生成で実行できるし、ウェブであればHTMLを解析することで、見た目だけでなく、どの要素がどのような機能を持っているかを推定しやすくなる。
実は、アプリの画面デザインをつくり直したり、AIによるUI解析精度を上げたりしなくても、アプリのAPIを組み合わせることでタスク自動化をうまくこなす方法がある。
今年1月15日、アリババは生活アシスタントアプリ「千問(チエンウェン)」をリリースした。発表会には、責任者である呉嘉氏が登壇し、壇上で実際にミルクティーを40杯注文するという実演を行った。
呉氏が「霸王茶姫の伯牙絶弦(※)を40杯注文してください」と声で告げると、千問はタオバオアプリのAPIにアクセスし、位置情報を見て最も近い店舗を割り出した。デリバリーサービス「タオバオ閃購」上で実際に注文が完了すると、壇上でプロダクト紹介を続けている最中に、実際にデリバリー配達員が会場に入ってきて、40杯のミルクティーを届けた。
※中国のティースタンド「CHAGEE 霸王茶姫」の人気メニュー
アリババは、EC「タオバオ」以外に、旅行予約「飛猪」、地図「高徳地図」、宅配スーパー「フーマフレッシュ」、コラボツール「釘釘」などのアプリを持っている。
このようなアプリ間で、ACTプロトコル(Agentic Commerce Trust、エージェント商業信頼プロトコル)を策定してオープン化をした。つまり、千問はACTプロトコルに対応しているアプリのAPIにアクセスをして、さまざまなタスクを遂行することができる。

▲千問にコーヒーが飲みたいと告げると、AIが関連アプリのAPIにアクセスして、商品をカード方式で提示してくれる。目的に沿ったカードを選ぶと、実際に注文が実行され、商品が届けられる。
現在はアリババ系のアプリだけだが、このプロトコルに対応するアプリが増えていけば、千問をインストールするだけで、ただのスマホがAIエージェントスマホに変わることになる。
米中では、さまざまなアプローチでAIエージェントへの挑戦が始まっている。しかも、その挑戦は隔離された研究室の中で行われているのではなく、私たちもすぐに使ってみることができる実社会の中で行われている。
AIエージェントを使ってみると、「次世代デバイス」への移行が始まっていると気づかされるだろう。もう、大きな画面はいらない。
スマホという古い枠組みに囚われていると、次世代デバイスは視覚情報を中心にしたAIグラスを反射的に思い浮かべるかもしれない。だが、バイトダンスが提案しているAIワイヤレスイヤホン、OpenAIやアップルが開発中といわれる、胸につけるバッジ型AIデバイスの方が存在感を強めるのではないかと思えてくる。
この10年、私たちはスマホへの依存度を高め続け、それはもはや限界に達している。これからはスマホへの依存度を下げていく10年になるかもしれない。
関連記事

![AIにRPGを攻略させるTwitchチャンネル[レバテックLAB]](https://levtech.jp/media/wp-content/uploads/2025/07/250714_LTlab_eyecatch_oversea_313-1.jpg)

人気記事