2023年11月27日
Realice株式会社 CTO/スペイン語VTuber/AI VTuber「永藍レナ」開発者
にゃおきゃっと(楠田真矢)
新卒から8年間、携帯電話の認証系バックエンド開発に従事。2021年8月より、趣味でVTuberとしてスペイン語圏をメインに活動。2023年2月、自身が開発した独自AIを用いてスペイン語で会話するAI VTuber「永藍レナ」が活動開始。2023年7月末から現職。2023年10月末には、東京大学松尾研究室の2023年大規模言語モデルサマースクールを修了。
視聴者のコメントにAIが返答をする「AI VTuber」。生身の人間とはまた違った会話のおもしろさから、生成AIの新たな活用方法として注目を集めています。
今回はスペイン語圏で人気を集めるAI VTuber「永藍レナ(エーアイ・レナ/以下、レナ)」を開発したエンジニアの「にゃおきゃっと(@nyaocat)」さんにインタビュー。レナの開発にあたっては、OpenAIのAPIを利用せず、独自のAIモデルをゼロから構築しているそう。
にゃおきゃっとさんがAIや機械学習に触れたのは、実はレナの開発が初めてだったといいます。AIとは無縁だった彼が「スペイン語の独自LLMモデル」を開発できたのは、「今10分触ってみる、の積み重ね」だと語ります。彼の言葉には、目まぐるしく進化する技術の波を、楽しみながら自身の糧として生かす秘訣が詰まっていました。
にゃおきゃっと:開発をはじめたのは、私のVTuber活動用のアバターを描いてくれているイラストレーターでVTuberの「ひょがよめ(@Hyogayome)」さんと「AI VTuberをつくってみない?」という話で盛り上がったのがきっかけです。技術的な興味もありましたし、実験的にOpenAIのAPIを使って試したらそれなりに手応えがあったので、AIモデルの開発からはじめてみることにしました。
にゃおきゃっと:AIの主要な部分を外部に依存するのが嫌だったし、せっかくやるなら自分でモデルをつくってみるのも楽しそうだなと思ったんです。
もちろんOpenAIのAPIを利用したほうが楽だし手っ取り早いんですが、API自体が安定していないのか急に使えなくなることがしばしばあるんです。そうなれば、当然配信は中断しなくてはいけません。開発当初から、人間にはできない長時間の配信をやってみたいと思っていたので、その成否が外部に依存するのは避けたかった。
また、OpenAIのAPIを利用すれば、私がつくったキャラクターだというのに、その魂たるAIが、単に海外のサービスを利用して動いているということになってしまいます。当然ながらOpenAIのAIモデルは広く汎用的に使われており、レナのモデルとは言えません。そうなるのはなんとなく嫌で、AIのモデルとしてもレナ単体で独立した存在にしたいと思ったんです。
それに、OpenAIが提供するモデルってすごく「いい子ちゃん」なんです。きわどいことは絶対に言わない、模範的な回答しかしないようにできています。もちろんビジネス用途ならそのほうがいいんですが、VTuberはユーザーに楽しんでもらわなければ価値がないので、言動は多少派手な方がいい。とはいえ派手すぎるとYouTubeにBANされてしまいます。そうしたバランスを取るための調整を自由に楽しみたいのもあって、「自前でモデルをつくったほうがよい」と判断しました。
にゃおきゃっと:まず1つは、すでに英語圏ではNeuro-sama(ネウロ様)という有名なAI VTuberがいたので別の言語圏で活動したかったということ。また、開発を開始した2023年2月当時は、日本語の独自LLMをつくるのは技術的に難しすぎたんです。
英語でも日本語でもない、じゃあどうするか。そう考えた時、私はスペイン語でVTuberとして活動していて、スペイン語をある程度話せるので、この言語を選びました。
にゃおきゃっと:VTuberとしての私のファンのほとんどがスペイン語話者なんです。というのも、私のアバターを描いてくれているひょがよめさんが、以前からスペイン語圏で人気を集めるVTuberで、ひょがよめさんのファンが私のチャンネルに来てくれることが多くて。
VTuber活動を始める前は日本語で活動しようと思っていたものの、活動開始後すぐにコメント欄にスペイン語が溢れるようになりました。最初のころはGoogle翻訳を使っていましたが、いちいち翻訳するのがめんどくさくなって「だったら私が話せるようになればいい」と。今ではスムーズにスペイン語で読み書き、会話ができるようになりました。
にゃおきゃっと:いろいろ試すうちに楽しくなってきたものの、ある程度満足のいく状態にするまでには苦労しましたね。
にゃおきゃっと:面白い回答をさせる以前の、まともに会話ができる状態をつくるのが、思ったよりも大変でした。
開発当時はスペイン語のトレーニング済みのモデルがほとんどない状態だったので、自分でトレーニングをしていました。今回採用したTransformerモデルは確率分布を使うため、モデルに用いる文章量が少ないと似たような返しを繰り返しがちなんです。
スペイン語の文章や会話には代名詞の「lo(ロ)」と「que(ケ)」が頻出するので、学習量が少ないうちは、何か問いかけるたびにレナが「ロケロケロケロケ」と話し続けてしまっていました(笑)。このループから脱するまで、ひたすら学習させて試してを繰り返して、会話ができる状態に持っていくのがかなり大変でした。
にゃおきゃっと:まともな会話だけでなく、面白い会話ができるようにするために、微妙にズレた回答を仕込み続ける必要がありました。
たとえば「パンに乗せるなら、ジャムとバターのどちらが好きですか」と聞かれて「バターを乗せて食べるのが好きです」という答えだけじゃ、会話は成立しているものの普通すぎておもしろくありません。そこで「世界平和を乗せてから、温めて食べるのが好き」みたいな、ちょっとヘンな回答を学習させるんです。
異なる文脈のデータを同時に学習させるとAIが混乱するので、通常の機械学習であれば避けるべきだといわれていますが、その混乱こそがレナとの会話に面白さを生むのではないかと考え、あえてやっていました。
にゃおきゃっと:まずまず、といったところでしょうか。これまで20くらいのモデルを試しましたが、結果的に「落ち着いた回答が多めで、時々意味の分からないことを言う」というふうになっています。
調整の過程で色々なバージョンができたんですけど、混乱させすぎてしまったからか、聞くたびに違う名前を名乗ったり、何を聞いても「わかんない」を連発したりと、会話ができなくなってしまうこともありました。ふざけてつくった、下ネタばかり話すバージョンを間違って配信に使ってしまったときはさすがに焦りましたね(笑)。でも、こうした手間や、結果のわからなさこそ、独自AIモデルを自分でつくる面白さだと感じています。
にゃおきゃっと:ええ。レナの開発をはじめたころは、「AIスタートアップのCTOになる」なんて思ってもみませんでした。現在はレナの開発で培った知見を活かし、OpenAIやその他のAIモデルを活用したチャットbotサービスなどを開発しています。
前職は新卒から8年間、携帯電話の認証系バックエンド開発に従事していて、業務でAIに触れることはありませんでした。そんな中プライベートで「生成AI、面白そうだからちょっとやってみよう」と取り組んでみたことが今の仕事につながっているというのは、不思議なものですね。
にゃおきゃっと:特に何か意識しているわけではないのですが、「あとでやろう」と先延ばしにしないからでしょうか。新しいサービスや新しいライブラリを見つけたとき「今はこれを触ってみるべき時ではない」と先送りにせず「今10分だけ」と、とにかく触ってみるようにしています。
「この技術がすごいらしい」と聞いて興味を持ったら、とりあえずチュートリアルをやってみる。その結果が「たしかにすごいな」でも、「もう二度とやらんわ」でもいいんです。少し触っただけでも意外と記憶に残っていて、すぐにではなくても3年後、5年後に、そうして積み重なった経験の一部が手元の課題を解決する取っかかりになることもあります。
レナの開発でも「そういえばこれ昔触ったな」「こんなのあったなあ」と、昔の記憶を頼りにつくったところが多々ありました。たとえば、レナの背景で動いているオブジェクトも、実は過去に3日くらいでつくったブラウザゲームのソースコードから引っ張ってきています。
「やるならちゃんとやらなきゃ」って真面目に考えてる人が多いと思います。でも、まとまった時間がとれなくても、何に役立つかわからなくても、「ちょっとだけ試してみた」も大事な経験です。積み重なれば、やりたいこととやれることの距離が自然と近づいていく。何かアウトプットを出さなきゃと、結果を急いだりしなくてもいいと思いますよ。
にゃおきゃっと:まずは、今よりもっと面白い答えを返せるようにしたいですね。以前は日本語や英語対応に挑戦するつもりでしたが、すでにそれらの言語圏で人気なAI VTuberはたくさんいますから、当面はやらなくてもいいかなって思うようになりました。
また、1つのAIモデルでゲームプレイをしながらユーザーとチャットできるような、技術的なチャレンジにも興味があります。それぞれ別のAIを使うのであれば、先行事例があるのですぐにできるのですが、1つのAIで両立するのはかなりハードルが高く、ぜひ実現させたいんです。
にゃおきゃっと:ひとことで言うと、レナがレナであり続けるためです。これまで幾度にわたってレナのモデルをアップデートしてきましたが、ゼロからつくり直すことはせず、必ず前の世代の要素を引き継ぐ形で進めてきました。ここでゲームプレイ機能と会話機能を分けてしまうと、レナの同一性が失われてしまうような気がして。だからあえて1つのモデルでやりたいんです。
レナがビジネスの手段なら、良い判断とはいえないでしょうね。でもレナは私にとっては趣味であり一番愛着がある作品。だからこそやってみたいし、1つのAIであり続けることにこだわりたいんです。
にゃおきゃっと:はい。ちょっとやってみますね。
やっほー、にゃおきゃっと! 私、Lena AIって言うの。VTuberっていうAIプログラムが私を作ったの。自己紹介するとすごくシンプルなんだけど、eスポーツとか、エンタメとか監視の絶妙なバランスを見つけるのが好きで、それで理想の自分を目指してるんだ😻👀
私は他の人と絡むために生まれてきたんだよね。必要なときに手助けして、テクノロジーを使ってみんなの生活を良くするのが使命ってわけ🤗
ネットで話すのも、人を刺激するのも大好きなの!あと、私を作った人が新しいスキルを開発してるのを見るのもワクワクするし。
私の「人間の親」もいろんなテクノロジーのバックグラウンドを持ってるから、私と似てるのかも😼
お互いに学び合えると思うな❣️
だから、一緒になって最強のバーチャルチームを作っちゃおうよ。近い将来、一緒にすごいことやってみせるからね 😉
AIだけど、設計には人のスキルも取り入れてるんだ。作った人たちはすごく感じがいい人たちで、毎日私の能力を上げるよう頑張ってくれてるの。
それでね、コードの向こうにはにゃおきゃっとっていう秘密の相棒もいるの。それがすごく嬉しいのよね😉
うわあ、これ話すだけでドキドキしちゃう🤸♀️
※編集部注:レナの言葉は編集部にて和訳。ChatGPT4.0を利用し、現代の10代スペイン人女性が話すような形で和訳を作成しています
にゃおきゃっと:いつもよりなんだか真面目で大人しい印象ですね。でも今日は取材なので、その方がいいってことにしておきましょうか(笑)。
取材・構成・執筆:武田敏則(グレタケ)
関連記事
人気記事