デモデイで「これは世界を変えられる技術だ」と直感。自然言語だけで設定できる、イスラエル発映像解析AIエージェント|Argu ✕ NTTドコモ・ベンチャーズ

株式会社NTTドコモ・ベンチャーズ(以下「NDV」)は2026年1月、自然言語でカメラ映像をリアルタイム解析できるエージェント型AI映像解析プラットフォームを提供するArgu Eye Ltd.(以下「Argu Eye」)への出資を発表しました。
NDVがArgu Eyeを知ったきっかけは、米著名VCであるAndreessen Horowitz(アンドリーセン・ホロウィッツ)のアクセラレータープログラムでした。デモを見たNDVシリコンバレー支店の寺西は「これは世界を変えられるプロダクトだと直感した」と語ります。
自然言語でカメラ映像を解析できるというエージェント型AIのインパクトは。それに伴う共創はどのようなものを描いているのか。Argu Eye代表のIdo Deutschさんと、寺西に話を聞きました。

エージェンティックな映像解析ソリューション
── 最初に、Argu Eyeについて教えてください。
Deutsch(Argu):
Argu Eyeは自らを「物理世界のオペレーティングシステム」と捉えている、イスラエル発のスタートアップです。現在は、自然言語でカメラ映像をリアルタイム解析できるエージェント型AI映像解析プラットフォーム「Argu」を開発しています。

Argu Eye Ltd. Co-founder & CEO
Software engineer, 2x founder, pro athlete - former basketball player and captain in Israel's national team.
Deutsch(Argu):
既存のカメラ映像解析システムは、ルールベースで処理されてきました。この方法は、たった一つのシナリオやユースケースを作成するだけでも、1,000を超える画像やビデオの視覚的サンプルが必要となります。さらに、それらすべてに対して「これはリンゴ」「これは銃」といったアノテーション作業をしなくてはなりません。検知したいシナリオに沿った機能開発も必要です。通常、これらの作業には1〜2年が費やされます。
例えば、諜報機関のような政府組織が、機密エリアでスマホのカメラを使って撮影をしている人物を検知したり、車の下やゴミ箱の中に不審物を仕掛けている人物を探したいという、特殊なケースを考えてみてください。このシナリオに沿った機能を開発するのが大変なのは、容易に想像できるでしょう。
現実はダイナミックで混沌としており、単純なルールでは処理しきれません。つまりルールベースで映像解析するには、必要な時間やコスト、リソースが膨大すぎるのです。

Deutsch(Argu):
そこで、よりダイナミックな映像解析ソリューションとして開発されたのがArguです。Arguは、解析したい動画を用意し、ユーザーが自然言語、つまりプログラミング言語を使わずに、解析したい内容を入力するだけで映像解析ができます。リアルタイムでの分析ももちろん可能です。
Arguを使えば、組織がエージェントを素早く作成でき、テスト環境への実装を30秒以内に行えるようになります。データ収集やアノテーション、トレーニング、プロダクト機能の開発、デプロイといった、技術的なエンジニアリング能力と多額のコストを要するプロセスを大幅に削減し、「アイデア」から「運用開始」までのサイクルを1分足らずで完結できるようになるでしょう。
Arguを用いれば、高い専門性が求められる組織が、自律的なエージェントを大規模に運用できるようにもなります。何かしらの異常を検知するだけでなく、文脈に応じた処理も可能です。これこそがエージェンティック時代のソリューションなのです。
寺西(NDV):
「カメラ映像解析」と聞くと珍しく感じないかもしれませんが、そのほとんどは従来型のルールベースによるもので、トレーニングが必要です。自然言語で入力でき、AIを使って映像解析できるサービスは、アメリカでも数社しかありません。計算コストを抑えて、マネタイズもできるといえば、さらに数は限られます。

株式会社NTTドコモ・ベンチャーズ Director
2012年にNTTドコモに入社後、ネットワーク部門にて固定無線装置の導入や5Gネットワーク等、全社のネットワーク事業計画や戦略の検討業務を経験。
また、人事部門にて新人事制度の導入対応や公募施策の立ち上げ等を経験。
2024年7月よりNTTドコモベンチャーズ・シリコンバレー支店に参画。
寺西(NDV):
既存のカメラで撮影した動画は、様々なデータ解析ができるはずという意味で、本来は企業の資産となるはずです。しかし現状、企業はそれらを活かしきれているとは言えません。その理由は、Deutschさんが語ってくれたように、既存のルールベースで処理しようとすると金銭や時間といったコストがかかりすぎるからです。
Arguが優れているのは、何か検知したいものを自然言語でシステムに入力するだけでエージェントを作れてしまう点。ネットワークで繋がっている何万台もの既存のカメラと繋げられるのも特徴です。Arguが日本企業に普及すれば、これまで活用されてこなかった動画データを、資産として活かせるようになるはずです。使えば使うほど賢くなり、精度が上がるモデルとなっているのもArguの特徴ですね。
Deutsch(Argu):
私たちの競合優位性についてもお話ししましょう。Arguのエージェントは、事前学習が不要となっています。つまり、私たちは学習コストの負担を排除し、膨大な時間と費用の節約に成功したのです。これにより、初期のトレーニングも、ラベル付け(アノテーション)も、エンジニアリングも、構成設定すら必要なく、ただ自然言語で指示するだけで映像解析ができるようになりました。まさに「エージェンティック(自律的)」だと言えるでしょう。
また、他社と一線を画しているのは、アーキテクチャもエージェンティックである点です。企業がArguを通常通りに利用し続けるだけで、学習し、能力が向上していきます。これにより、高い学習コストは不要になる上に、決められたことしかできないモデルではなくなりました。

日本市場を攻める理由
── Arguはどのような企業に利用されているのでしょうか。
Deutsch(Argu):
港湾企業や鉄道会社の他、政府機関といった非常に重要でリスクの高い環境でビジネスを展開している組織をはじめ、映像を持つあらゆる組織が我々の顧客です。NTTグループ内でも利用を検討いただいています。
寺西(NDV):
Argu Eyeはシリコンバレーの著名VCであるAndreessen Horowitzからも出資を受けているのですが、そのきっかけになったのは、同社が開催しているSpeedrunというアクセラレータープログラムです。
私たちもそのデモデイに参加していたら、Arguのピッチに遭遇しました。あまりにもすごいデモだったので「これは本当に世界を変えられるかもしれない」と思い、プレゼンの後に声をかけたんです。すると、日本のマーケットやNTTとの連携についても興味があるとのことでしたので、出資も検討させてほしいとコミュニケーションを取りました。

── Deutschさんは日本市場をどのように捉えていますか?
Deutsch(Argu):
Argu Eyeにとって、日本は重要な市場であり、他の地域での活動に対するベンチマークになると考えています。というのも、日本は非常にレベルの高い複雑な状況を抱えているからです。
よく言われる通り、日本の方々は、世界的に見ても、最先端のパフォーマンスと品質を求めます。それは我々に対しても同様です。妥協は許されませんし、ミスの余地もありません。一方で、日本は労働力の減少に直面し、ビジネスのデジタル化が求められており、Arguへの切実な必要性も感じています。
この「要求水準の高さ」と「切実な必要性」という二面性こそ、まさにArguが真価を発揮できる所以(ゆえん)だと言えます。我々は物理世界における様々なオペレーションに必要な労働力を削減し、補完できるコグニティブAIレイヤーを提供しているため、この二面性に貢献可能です。Arguにとって日本市場は、計り知れない価値と機会が残されていると言えるでしょう。
寺西(NDV):
日本は世界の中でも、ミスが許されない市場であることは有名ですよね。逆に言えば、日本で認められたら、世界のどこでも品質基準を満たすことになるでしょう。
また労働力の減少は、日本が直面している社会課題です。その解決策の一つとして、やはりフィジカルAIは必要でしょう。そして、そのフィジカルAIと極めて関係性が深いのがArguの技術です。日本市場を助けるという意味でも、Argu Eyeには期待しています。

Arguは「ロボットの目」に
── 両社の共創案を教えてください。
寺西(NDV):
Arguの技術の特長は、映像データさえあればどこでも活用できるという汎用性の高さにあります。既に様々な業界から色んな用途での問い合わせをいただいているようで、その応用範囲の広さを改めて実感しています。
短期的には、十分に活用されずに眠っている映像データを、Arguの技術で価値に変えられないかを検討したいと考えています。具体的には、スマートシティ関連の映像を活用した混雑検知や動線分析、商業施設における来訪者行動の把握、公共施設での入退場管理などですね。一旦方向性が定まれば、既存の映像インフラをそのまま活かせるため、展開スピードも速いと見ています。
Deutsch(Argu):
例えば、ドライブレコーダーのデータを用いて「この交差点を何人通ったか」を調べたり、「事故の瞬間の動画だけを抽出する」といったことが、自然言語を入力するだけで簡単に行えるようになります。ビル内のすべてのカメラにArguを繋げば、警備員がいなくても監視できるようになりますし、ビル内で転倒した人の検知や、人の流れを読むことだって可能です。
寺西(NDV):
とはいえ、Argu Eyeはまだアーリー段階のスタートアップなので、共創は長い目線でも考えていかなくてはなりません。中長期的には、Arguが「ロボットの目」になることを期待しています。自動運転やロボットなど、リアルタイムで異常などの検知ができるような共創を築いていきたいですね。
Deutsch(Argu):
まだ詳細は明かせませんが、データセンターのような、セキュリティやアクセス制御が極めて重要な環境において、ロボットにArguを搭載し、その上でエージェンティックなサービスを運用したいと考えています。ロボットが来訪者に対して何かしらのサービスを提供できるようにできれば、なお良いですね。
動画データは「視覚データ」ですが、これまでは、そのデータを処理する「脳」にあたる分析機能が欠けていました。Arguはその役割を担いたいと考えています。我々もこの計画にはワクワクしているところです。
Arguは今後、映像に留まらず、マルチモーダルな処理をできるように進化していく予定です。LiDARから音響に至るまで、あらゆる情報を統合していく。これが私たちの将来像です。こちらの面でも、NTTグループに貢献できるはず。ぜひ共創を築かせてください。
寺西(NDV):
もちろんです、引き続きよろしくお願いします。

(執筆:pilot boat 納富 隼平、撮影:ソネカワアキコ)


