時価総額1.5兆円のデカコーンが目指す「音声のインフラ」。CSやエンタメに収まらない音声AIの可能性|イレブンラボ × NTTドコモ・ベンチャーズ

株式会社NTTドコモ・ベンチャーズ(以下「NDV」)は2025年1月、音声合成プラットフォームを提供するイギリス・ロンドン発のスタートアップであるElevenLabs(以下「イレブンラボ」)への投資を発表しました。
同社はテキストから音声を生成する「TEXT TO SPEECH」や、コンテンツの日本語の声を変えずに外国語にできるAIダビング技術、音楽生成などができる最先端AIオーディオツールを開発するスタートアップであり、企業評価額が110億ドル(約1.5兆円)を超える「デカコーン」でもあります。
そんなイレブンラボは、ドコモとどのような共創を築こうとしているのでしょうか。同社で日本・韓国市場を担当するホン サンウォンさんと、NDVのシリコンバレー支店で活躍する寺西 勇樹に話を聞きました。

音声AI技術を活かした9つのプロダクト
── イレブンラボについて教えてください。
ホン(イレブンラボ):
イレブンラボは、音の研究から始まった会社です。市場では音声合成技術のスタートアップというイメージが強いみたいですが、実際には、コンテンツ・コミュニケーション、PCと機械のインタラクションなどを、音を通して再定義しようとしている会社で、リアルで人間らしい感情豊かな音声を生成できるAI音声プラットフォームを展開しています。

イレブンラボ, Head of Korea and Strategic GTM for Japan
新卒で日本IBMに入社し、中四国エリアの官公庁営業を担当。
その後、Slack Japanの立ち上げメンバーとして参画し、日本市場における事業拡大を推進。
さらに、Miro Japanの立ち上げメンバーとしてジョインし、Enterprise Sales Teamをリード。エンタープライズ市場における戦略策定から実行までを統括。
現在はイレブンラボのアジア1号社員として、日本市場のGTMおよび韓国市場のGTMリードを担当。音声AI分野におけるグローバルリーディングカンパニーのアジア展開を牽引している。
ホン(イレブンラボ):
会社の設立は2022年8月。インタビュー現在で設立から3年半ほどしか経っていませんが、既に4,000万人以上に利用されており、Fortune 500の75%以上を含む、数千社に導入されています。2025年末時点でARR(年間経常収益)が3億3,000万ドル(約516億円)を突破しており、史上最も売上げの成長が速い会社の一つとなりました。
その成果が評価され、世界で有数のベンチャーキャピタルであるSequoia CapitalやAndreessen Horowitzからも投資していただき、企業評価額は110億ドル(約1.5兆円)となっています。
── 具体的にはどのようなプロダクトを提供しているのでしょうか
ホン(イレブンラボ):
音声生成からダビング、AIエージェントまで、多岐に渡るオーディオツール群を提供しています。具体的には、テキストの読み上げ(TEXT TO SPEECH)、ボイスクローン、多言語吹き替え、サウンドの生成や音楽の生成など様々な機能を開発。日本の大企業からの問い合わせが多いのは、30以上の言語で対応が可能な対話型AI音声エージェントですね。
寺西(NDV):
ただ、イレブンラボは成長スピードが早すぎるので、この記事が出る頃にはプロダクト内容が多少変わっていたり、増えているかもしれないことには、読者の皆様ご留意ください(笑)。
ホン(イレブンラボ):
私も毎週資料をアップデートしなくてはならないので大変です(笑)。

ホン(イレブンラボ):
出発点となったプロダクトは「TEXT TO SPEECH」です。99カ国語のテキストを自然に読み上げてくれます。そこから様々な方向に派生して、例えばAIによる会議議事録作成やリアルタイム通訳、お客さまとの会話履歴をログとして残せるコールセンターのための機能などの開発に至りました。
寺西(NDV):
「TEXT TO SPEECH」機能は、例えば各種ブラウザなどにも「テキスト読み上げ機能」としてついているので、そんなに珍しくは感じないかもしれません。でも、それらはそんなに流暢なわけではありませんよね。でもイレブンラボは精度がすごいんです。
ホン(イレブンラボ):
我々のモデルは、単にテキストを音声に変換するのではなく、文脈全体を理解しようとします。それによって、次にどのような感情や抑揚で話すべきかを予測し、人間が話すような自然なリズムで音声を生成できるのです。それが、イレブンラボの音声が流暢な秘訣ですね。
── グローバルと日本で、人気のプロダクトは異なるのでしょうか?
ホン(イレブンラボ):
AIの導入期はやはり「TEXT TO SPEECH」や「SOUND EFFECT」、「VOICE CLONING」などが利用される傾向にあります。VTuberによるコンテンツ生成やゲーム内の音声関連コンテンツ、AIによる記事制作などが分かりやすい例ですね。日本は今この段階です。TBS社はAIダビング技術を用いて、日本語のテレビ番組を英語やスペイン語に吹き替えるという使い方をしています。
アメリカやヨーロッパはこの段階から更に進化してきていて、現在は、人が行っている業務をAIエージェントが担うようになっていますね。
寺西(NDV):
イレブンラボのサービスは実は、ドコモグループでもカスタマーサポートやコールセンターでの導入を検討しているところです。
ホン(イレブンラボ):
従来のIVR(コールセンターなどで用いられる自動音声応答)では、ナレーションがすべて流れるまで待つしかありません。しかし会話型になれば、まず顧客が要件を伝えて、それに合わせて該当する部署へ電話を繋げてくれるようになるので、電話する方の待ち時間が減り、ストレスが緩和されるでしょう。
シリコンバレーから仕掛けるドコモとの「音声」に関する共創
── NDVがイレブンラボに投資した経緯を教えてください。
寺西(NDV):
今後、社会のあらゆる場面でAI音声の活用が広がっていく流れは確実に強まっていくでしょう。ドコモ自身も音声を扱う会社であり、この事象には対応していかなければなりません。
イレブンラボに投資したのは2025年1月で、設立されてからまだ2年半ほど。この前の時点で、少なくとも英語の音声は「これはAI音声だよ」と言われなければ気づかないほどの精度を兼ね備えていました。シリコンバレーでも著名な大手VCも出資しており、それで関心を抱いたんです。

株式会社NTTドコモ・ベンチャーズ Director
2012年にNTTドコモに入社後、ネットワーク部門にて固定無線装置の導入や5Gネットワーク等、全社のネットワーク事業計画や戦略の検討業務を経験。
また、人事部門にて新人事制度の導入対応や公募施策の立ち上げ等を経験。
2024年7月よりNTTドコモ・ベンチャーズ、シリコンバレー支店に参画。
寺西(NDV):
他のVC経由でグローバル担当の方を紹介いただいたのですが、当時既に世界的に注目されるスタートアップだったこともあり、関係構築には時間を要しました。ただ我々としても音声を扱っている会社なので、そう簡単に諦めるわけにはいかない。将来的なパートナーシップの必要性も訴え、粘り強く何回も交渉していました。我々のイベントに登壇いただいたりするなどの関係性を築きながら、なんとか出資に漕ぎ着けています。
── シリコンバレーには、著名VCしか有望スタートアップに投資できないという、「見えない壁」のようなものがあると聞きます。
寺西(NDV):
イレブンラボに限らずですが、確かに「有望なスタートアップにはトップティアのベンチャーキャピタルのように強力なネットワークを持っていないと、投資が難しい」といった構造があります。また有望なスタートアップが投資家に、「あなたの会社は資金提供以外に何ができますか?」と尋ねるケースも少なくありません。それに対して説得できないと、投資は難しいですね。我々は数字を作り込んでシミュレーションしたり、イベントに登壇してもらってリレーションを作ったりしながら、アピールしてきました。
── イレブンラボとの共創案を教えてください。
寺西(NDV):
先述したように、まずはドコモグループが抱えるコールセンターやカスタマーサポート業務に対して、AIを用いた自動化を検討しています。
もう一つの大きな可能性がエンターテインメント領域です。日本の多様なコンテンツを海外に届けるうえで、AIダビングのような技術がどのように貢献できるかには強い関心を持っています。
ただ、ホンさんからもあったように、イレブンラボの成長スピードは非常に早いんです。そのため共創できそうなことが広がりすぎています(笑)。嬉しい悲鳴ですね。
ホン(イレブンラボ):
周知の通り、ドコモはエンターテインメント領域も手がけています。それに関連して、イレブンラボは音楽も生成できるようになりました。音声AIという枠を超え、AIエージェントプラットフォームへと進化しており、そういった意味で共創の幅はさらに広がっています。業界で初めてライセンシングを可能とした音楽サービスなどでも連携し、新しいビジネスを立ち上げていきたいですね。

寺西(NDV):
海外だと音声AIの事例はどんどん出てきています。例えば、画家の故サルバドール・ダリと会話しながら彼の絵を鑑賞できる体験を美術館が提供しているのは面白いと感じました。
ホン(イレブンラボ):
まだ詳細はお知らせできませんが、日本でも、過去の有名な声優さんのボイスを、権利を保有する方々や事務所の許可を得た上で復活させるプロジェクトを立ち上げているところです。
── 共創案は英国の本社と議論しているんですよね? ホンさん達日本部隊には、本社から決まった案が下りてくるのでしょうか。
ホン(イレブンラボ):
日本でイレブンラボがドコモとの共創を本当に実現できるかは、現地の情報がない本社側だけでは判断できません。そのためイレブンラボではハイパーローカル戦略を採用しています。投資を受けるにあたっても、ローカルにいる実働部隊である我々と共同で話を進めてきました。私も、投資を受けるか否かのディスカッションに参加しています。このやり方は、他のスタートアップでも、あまり聞いたことがないですね。
日本の資産であるコンテンツを世界へ
── 共創の今後の展開についても教えてください。
寺西(NDV):
コールセンターなどのカスタマーサポート業務は、人材不足という課題に直面しています。より人間に近い声で、かつお客さまに寄り添えるAIは、その助けになると思いますので、まずはそのプロジェクトを進めていきます。
エンターテインメント領域に関して、日本にはアニメをはじめとする優れたIPやコンテンツが多数存在しています。海外に移住して、日本のアニメなどのコンテンツは非常に価値のある資産なんだと改めて気づきました。しかしながら、フェイク問題も含め、海外ではそれらが適正に利用されていない場面も散見されます。日本の宝ともいえるコンテンツを守りながら広げていくうえで、イレブンラボの技術は大きな可能性を持っていると感じています。
ホン(イレブンラボ):
確かに、現在AIによるディープフェイクや、それに伴う詐欺事件がグローバルでも増加しています。イレブンラボの技術もそのように使われてしまうのではないかと危惧されていますが、我々はその対策にも力を入れています。
例えば簡単に人の声を複製して勝手に使えないようにしたり、似たような音声が生成された際に本人の許可があるかを確認したりといったことですね。深刻な事態が発生した際には、ディープフェイクに対応する部隊が、訴訟も含めて措置を検討します。AI音声エージェントを対象としたAIUC-1認証付き保険も、業界で初めて導入しました。安心して使っていただければと思います。

ホン(イレブンラボ):
イレブンラボが目指しているのは、「音声のインフラ」になることです。これまでのコミュニケーションは、LINEやメール、Slackなど、テキスト中心のやり取りが主流でした。しかし音声合成技術の発達により、そのインターフェイスが音声へと置き換わりつつあります。イレブンラボはそのポジションに収まっていきたいですね。
寺西(NDV):
シリコンバレーでは、今後インターフェイスにおける音声の重要性がさらに高まっていくという見方があります。スマホと会話して、必要なやりとりはすべてAIエージェントが対応してくれる、といったイメージですね。イレブンラボがその中で重要な役割を担うことを期待しています。
また現在「フィジカルAI」が話題になっています。将来的には、ロボットがそこら中にいるようになって、そのロボットが話す言葉はイレブンラボが生成した音声になっているかもしれません。また家庭内のロボットにしても、知らない人の声よりは、家族の声の方が安心するという場面もあるはずです。そんな場合はイレブンラボの技術が役立つでしょう。
イレブンラボの音声AI技術は、まだまだこれから社会に浸透していくはずです。ドコモグループやNTTグループへの展開はもちろん、日本社会全体での普及にも貢献できればと思います。ホンさん、引き続きよろしくお願いします。
ホン(イレブンラボ):
こちらこそ、よろしくお願いします。

(執筆:pilot boat 納富 隼平、撮影:ソネカワアキコ)