2024年9月27日
国立研究開発法人情報通信研究機構(NICT・エヌアイシーティー)フェロー
隅田 英一郎(すみた・えいいちろう)
北海道生まれ。1982年に電気通信大学大学院電子計算機学専攻修士課程修了。1999年京都大学博士(工学)。日本IBMや国際電気通信基礎技術研究所などを経て、現在はNICTユニバーサルコミュニケーション研究所の主管研究員を務める。30年以上にわたって、自動翻訳技術の研究を続ける。
昨今のLLMでもわかるように、高度な成長を遂げている自動翻訳技術。では、同時通訳については、どのようなレベルに達しているのでしょうか。SF作品に出てくるような「話した瞬間にすぐに別の言語に通訳してくれる万能通訳機」と、現実の技術レベルには、どの程度の差があるのでしょうか。
日本の自動翻訳研究の第一人者である、国立研究開発法人情報通信研究機構(NICT)フェロー・隅田英一郎さんは、取材に対し「現段階において、コンピュータによる同時通訳は、第一級の人間通訳者には勝てていません。ですが、十分に実用的なシーンはたくさんあります」と語ります。
NICTでは現在、日本語と多数の言語間で発話途中に低遅延で翻訳できる同時通訳エンジンの開発に取り組んでいます。EXPO 2025 大阪・関西万博では、この技術が講演会やセミナーにおいて活用される予定です。この研究開発を推し進めてきた隅田さんに、同時通訳技術へのこれまでの取り組みや、現実と「SF」との距離について話を聞きました。
隅田:いまのところ、コンピュータよりも人間による同時通訳の方が、総合的には勝っています。ですが、コンピュータによる同時通訳は大きな発展を遂げていますし、遠くない未来に、SFに登場するような万能通訳機が実現できると考えています。
コンピュータによる同時通訳が、人間による同時通訳に劣る場合がある大きな原因として、コンピュータが音声に含まれる言語情報のみを用いて翻訳していることが挙げられます。
一方、人間による同時通訳は、音声に含まれる言語情報に加えて声のトーン、さらには表情・身振りといった非言語的な情報も踏まえて、話し手の意図を理解したうえで通訳します。コンピュータよりもはるかに多くの情報源を活用することによって、話し手の言い間違いまでも訂正して「本当に言おうとしていること」を通訳できるのです。
他方、言語情報だけでなく多様な情報の全体をリアルタイムに処理し通訳することは、現在のところコンピュータには難しいので、音声が言い間違いを含むか否かまでは判断できず、誤りがあっても訂正をすることなくそのまま訳します。
とはいえ、ここ数年で深層学習技術が飛躍的に進歩したのに伴い、翻訳の速度や精度は格段に向上しました。通訳においては、必ずしも常に身振り手振りといった非言語情報が必要なわけでもないので、コンピュータによる同時通訳が実際に使える場面も広がってきています。
隅田:我々の翻訳エンジン「TexTra」を使った自動同時通訳を実演してみましょう。日本語と英語をはじめとする多言語間の同時通訳においては、実用レベルに達しているとの自負があります。
▲(提供:マインドワード社)
隅田:このように、我々の技術では、日本語の音声入力に対して、小さな遅延時間で 翻訳結果が音声とテキストで出力されます。翻訳精度としては、1文ごとに約90%の正確さです。
ただ、正確さが90%で、文法や表現が多少不正確だったとしても、利用者である人間は、前後の文脈を踏まえて相手の話を理解することができます。日本人同士の日常会話で言い間違いがあったり言葉をたくさん省いたりしても、話が伝わるのと同じです。
たとえば、国家間の交渉などの緊張感の強い場面では、今後も人間の通訳者が活躍し続けるでしょう。
他方、コンピュータによる通訳は、そうした場とは異なるマーケットを開いていくと考えています。ビジネスにおける通訳では「一定のクオリティが担保されていればいい」と割り切れる場面も多いため、企業内のミーティング等でこの通訳エンジンが十分に役立つと考えています。実際、2024年に入って、ビジネスシーンに向けた製品の販売が始まりました。
隅田:大事なのは、発声から翻訳までの遅延時間と、翻訳精度のバランスでしょうね。
発話者の話が終わるのをいちいち待ってから訳すようでは、同時通訳とは呼べません。なので、話しはじめて少し経ったところで内容の理解を行い、意味を理解した部分から順次、翻訳を行う必要があります。
ただし、文意が不明瞭なうちにあまりに速く翻訳を開始してしまうと、誤った訳になり得ます。
このバランスを取るには、文章を「意味の塊」で訳すことが重要となります。この意味の塊を、「Chunk(チャンク)」といいます。これは人間の通訳者が用いている概念で、同時通訳の教科書にはよく「意味の塊に区切って訳すべし」と書かれています。
チャンクを用いると、たとえば「私は明日/学校に行きます」という具合に、文章を分割しながら理解します。発話者が1文を話し終わるまで待つのではなく、誤訳にならなさそうな一定の文字数が聞こえるまで待ち、「翻訳できる」と判断したらそこで一旦区切り、発話の続きを聞きながらも同時並行で翻訳を開始するというわけです。
このチャンクという概念が、機械による同時通訳においても、低遅延と精度を両立させるうえで有用です。
隅田:そこなのですが、チャンクによる区切り方には、多言語にわたって適用できる統一的な定義がないんですよ。
言語ごとに、ある程度の傾向はあります。「日本語なら、『けれども』『ながら』等の接続助詞がきたら区切ることが多い」「英語なら、『in front of the building』のような前置詞句や『however』『then』等の接続詞がきたら区切ることが多い」など。
しかし、例外もあります。たとえば「Please give me a coffee and two of cakes.」(コーヒーとケーキを2つください)という文の場合、接続詞「and」で切って訳すと、「コーヒーをください。そして2つのケーキ」とやや不自然な訳になりますよね。
ところが、「Please give me a coffee and please tell me detailed explanation for the cake of the day.」(コーヒーをください。そして日替わりケーキについて詳しく教えてください)という文の場合は、「and」で切っても自然に訳せます。前半の内容が同じでも、後続の文脈によってニュアンスが変わる。
このように「切る・切らない」を判断すべき適切なポイントは後続の言葉によって変化しますし、「チャンクとは何か」についてアルゴリズム的に説明する方法は存在しません。
通訳技術を学ぶ人はどうしているかというと、先生のチャンクによる分割の見本を真似して基本的な訓練をし、さらに現場経験を積み、最適なチャンクを判断できるようになっていきます。
隅田:はい。「人間と同じように機械でも同時通訳ができるのではないか」という期待は、数十年前からあったのです。しかしチャンクの区切り方に明確な規則がなかったため、研究はなかなか進みませんでした。
したがって、発話開始から発話終了までを一区切りとし、長い文章を時間をかけて訳すというアプローチが従来の自動通訳だったわけです。そのため、同時通訳の本質である低遅延は実現できませんでした。
ところが、深層学習アルゴリズムの進歩により、状況は変わってきました。明確な定義がないものでも、大量のデータと統計的な処理を用いれば、ある程度の精度でパターンを認識し、未知の入力に対しても適切な出力ができるのが深層学習のメリット。チャンクによる区切りのデータを大量に集めて学習させることで、機械が人間の通訳者のように高いレベルで適切に区切れるようになったのです。
我々としても、あくまで実用的な同時通訳さえ実現できればいいわけですから、ひとまず「チャンクとは何か」という難解な問いを突き詰めるのは保留し、深層学習によるアプローチを開始しました。
具体的には、話し言葉の文章を大量に用意し、プロの通訳者たちのご協力のもとチャンク間に、実際に「/(スラッシュ)」記号を入れてデータ化し、深層学習にかけました。
この取り組みは2000年にはじまり、2022年には、日本語と英語において、デモにてご覧いただいたような低遅延と精度での同時通訳が可能なエンジンができました。同じアルゴリズムで多言語展開が可能なので日英以外にも対応は進めており、現在は15言語での翻訳が可能となっています。
隅田:この同時通訳エンジンにはLLMは導入していません。
ChatGPTをはじめとしたLLMも、我々のシステムも、自然言語処理(NLP)において広く使用される「Transformer(トランスフォーマー)」というニューラルネットワークのアーキテクチャをベースにしているので、いわば親戚のような関係ではありますが。
隅田:理由はいくつかあります。まず、ハルシネーションにより元の文章とは異なる誤った訳文を生成してしまう可能性が拭えないこと。根拠が全くない内容を生み出すハルシネーションを抑制しないと、通訳を介した複数の話者間のコミュニケーションに無用な混乱を招きます。
そして、動作が遅いのも欠点のひとつです。我々のエンジンなら0.1秒で翻訳できるところ、現状のLLMは入力から出力まで10秒かかることもままあります。
また、LLMのモデルサイズは非常に大きく、大量のメモリが必要という点もボトルネックです。一定の性能を持つLLMは、GPUメモリを100GBも消費してしまうケースが想定されます。それだけのメモリを搭載できる端末はとてもかさばるため、持ち運びが難しいですし、実装コスト面でも課題が残ります。
当然、クラウド環境でのLLM稼働がひとつの解決策として考えられます。しかし、会議などでの同時通訳時には、ずっとネットワークに接続し音声データをLLMと送受信し続けなければならず、通信コストや電力消費が膨大になってしまう点が課題として挙げられます。
一方で、我々のアプローチでは、ニューラル翻訳を用いつつ、LLMほどの大規模な推論処理を必要としないため、GPUメモリ消費量は1GB程度に抑えられています。ノートPC程度のサイズの端末があれば十分な性能を発揮することができ、ビジネスシーンにおける実用性という点においては優位性があると考えています。
ただ申し上げたように、現行のアプローチでは発話者の言い間違いや「本当に言おうとしていること」までを察して通訳することができません。この課題において、LLMには高い能力を発揮するとの期待もあり、動作速度やコストといった問題点が克服されれば、同時通訳技術にブレークスルーをもたらす可能性はあります。
隅田:大きな理由として、GPUがまだ高価であり、物理的サイズも大きいことが挙げられます。現状ではNVIDIAの「RTX4060 8GB」程度のGPUなら安定して動くという要求スペック水準にありますが、ビデオカードだけで数万円はしますし、同様の性能で、スマートフォンほど小型で持ち運びが手軽なサイズのものは市場にありません。
GPUの小型化、低価格化、省電力化が進み、スマホやタブレットといったエッジ内でも処理が完結できるようになれば、手軽に使える同時通訳機は実現可能です。
隅田:同時通訳の敷居を下げるのが究極のゴールです。今後も、外国語が出来なくてもコミュニケーションの壁を簡単に乗り越えられるようなアプリケーション開発を進めるつもりです。
隅田:「コンピュータは私よりすごい」と思うからです(笑)。情報技術の研究者という仕事柄、私はこれまで英語はそれなりに勉強しており、英語論文を書いたり読んだりすることも多いです。
でも、いまだに自由自在に英語で会話できませんし、論文を英語で書くたびに毎回苦労しますし、英語の論文を読むのも正直「めんどうだなあ」と思っています(笑)。この言語の壁という不便を、どうにかコンピュータという優れた存在に解決してほしい。こうした思いから、長らく研究に取り組んできました。
現在、日本では「グローバルコミュニケーション計画2025」と呼ばれる、2025年までに端末やアプリによる同時通訳システムを社会実装する国家プロジェクトが進んでいます。
数年以内に今よりはもっと楽に海外の方とコミュニケーションが可能な時代がやってくるでしょう。コロナ禍が収束してから訪日外国人数が年々増えていますし、グローバルサウスはじめさまざまな国々の影響力が大きくなっているなか、我々のエンジンが国際的なコミュニケーションの円滑化に寄与できるのではないかと期待しています。
取材・執筆:武田 敏則(グレタケ)
編集:田村 今人、王 雨舟
撮影:赤松 洋太
関連記事
人気記事