自律走行車にLiDARは要らない？テスラのAIチーフが語るコンピュータービジョンシステムとは

この記事をシェアする

2021.8.10

完全な自律走行車を実現するために必要なテクノロジースタックとは何か。この問いの答えについては、企業や研究者のあいだでも意見が割れている。自律走行へのアプローチは、カメラとコンピュータービジョンだけのものから、コンピュータービジョンと高度なセンサーを組み合わせたものまでさまざまだ。

テスラ（Tesla）は、コンピュータービジョン単独による自律走行へのアプローチを強力に推進してきた。2021年のCVPR（Conference on Computer Vision and Pattern Recognition：コンピュータービジョンとパターン認識に関する学術会議）で、同社のAI主任研究者アンドレイ・カルパシー（Andrej Karpathy）がその理由を説明した。

ここ数年、テスラの自律走行研究を主導してきたカルパシーはCVPR2021の自律走行に関するワークショップで講演し、同社が開発している、ビデオ入力以外に何の情報も必要とせずに車の周囲の状況を把握するディープラーニング（深層学習）システムについて解説した。またビジョンベースの自律走行車の実現において、テスラが最も有利な立場にある理由についても説明した。

週末のCVPRで、テスラ・オートパイロットでの最新研究について、視覚情報をベースにニューラルネットを利用して、奥行き、速度、加速度を超高精度で推定するという内容をお話しました。必要な素材は以下の通り、100万台の車から構成されるデータエンジン、強力なAIチーム、スーパーコンピューターです。
https://t.co/osmEEgkgtL pic.twitter.com/A3F4i948pD
─アンドレイ・カルパシー (@karpathy) 2021年6月21日

汎用コンピュータービジョンシステム

深層ニューラルネットワークは、自律走行を実現するテクノロジースタックの主要要素のひとつだ。ニューラルネットワークは、車載カメラのフィードを解析して、道路、標識、車両、障害物、人などを検知する。

しかしディープラーニングは、画像内の物体検知でミスを犯すこともある。そのため、自律走行車の研究開発にあたる企業の大半は、アルファベット（Alphabet）傘下のウェイモ（Waymo）も含め、LIDARを使用している。LiDARは、レーザービームを全方位に照射して、車の周囲の3Dマップを作成するデバイスで、これによりニューラルネットワークの隙間を埋める追加情報が得られる。

だが、自律走行のテクノロジースタックにLiDARを加えることにも、やっかいな問題がある。カルパシーは、「LiDARを使って環境を事前にマッピングし、それから、高精度な地図を作成し、すべての車線とそれらがどうつながっているか、また、すべての信号機に関する情報などを盛り込まなくてはなりません」と説明する。「しかもテストする際には、その地図に合わせて車を走らせるだけなのです」

自律走行車が移動するすべての場所について、正確な地図を作成するのはきわめて困難だ。「高精度のLiDARマップのために情報を収集し、マップを作成し維持する作業は、スケーラブルではありません」と、カルパシーは言う。「このインフラを、常に最新の状態に保つのは非常に困難です」

テスラは、自律走行技術向けのスタックにLiDARや高精度マップを入れていない。「すべての事象は、車の中で初めて起こるものです。それらを、車を取り巻くように搭載された8台のカメラで映像にとらえています」と、カルパシーは説明する。

自律走行技術は車線や信号機の位置、信号が赤か青か、どの信号がその車に関係するかといったことを把握する必要がある。しかも、走行中の道路に関する事前情報なしに、こうしたことを達成しなければならない。

ビジョンベースの自律走行が、技術的により困難であることは、カルパシーも認めている。ビデオフィードだけに基づいて、とてつもなく高度に機能するニューラルネットワークが必要になるためだ。「けれども、いったんそれが機能するようになれば、それは汎用ビジョンシステムとなり、原理的には地球上のどの場所でも利用可能です」と、彼は言う。

汎用ビジョンシステムがあれば、もはや車にはどんな補助装置も必要ない。テスラはすでにこの方向に進んでいるとカルパシーは言う。同社の自律走行技術の開発ではこれまで、レーダーとカメラを併用するアプローチをとっていた。しかし先日、同社は運転支援システムからレーダーを廃したモデルを出荷し始めた。

カルパシーは、「私たちはレーダーを廃止しました。これらの車は、視覚情報だけに基づいて走行しています」と述べる。そしてその理由として、テスラのディープラーニングシステムの性能がレーダーの100倍にまで到達し、もはやレーダーが『ノイズになり始め』、かえって足を引っ張るようになったためだと説明した。

教師あり学習

純粋なコンピュータービジョンによるアプローチに対する主な批判としては、ニューラルネットワークが、LiDARの深度マップの助けを借りずに距離測定と深度推定を実現できるかという点について、不確実であることがあげられる。

カルパシーは、「言うまでもないことですが、人間は視覚を使って運転しています。人間のニューラルネットは視覚入力を処理して、周囲の物体の奥行きや速度を把握できるわけです」と言う。「最大の課題は、これと同じことを、合成ニューラルネットワークで実現できるかどうかです。この問題にここ数カ月取り組んできましたが、社内での答えは、はっきりと”イエス”になったと思います」

テスラのエンジニアチームは、奥行き、速度、加速度に加えて、物体を検知できるディープラーニングシステムの開発を望んだ。彼らはこの課題を、教師あり学習問題として扱うことにした。つまり、注釈付きデータでニューラルネットワークのトレーニングを行い、そのあとに、物体とそれに付随する特性の検知を学習させるのだ。

テスラのチームには、ディープラーニング・アーキテクチャのトレーニングに使用する膨大なデータセットが必要だった。物体やその特性について細かな注釈がつけられた無数の動画からなるデータセットだ。自律走行車向けのデータセットを作成することは、きわめて難しい。エンジニアは、多様な道路状況や、めったに起こらないエッジケースがきちんとカバーされるよう留意しなければならない。

「大規模でクリーンで多様なデータセットが手に入り、それを使って大規模なニューラルネットワークのトレーニングができれば、私の見立てでは事実上、成功は確実です」と、カルパシーは断言する。

データセットの自動ラベリング

カメラを搭載した自動車を全世界で数百万台も販売してきたテスラは、カービジョン・ディープラーニング・モデルのトレーニングに必要なデータを収集するのにきわめて有利な立場にある。テスラの自律走行チームは、100万本の10秒動画に加え、境界ボックスや奥行き、速度などのアノテーションがなされた60億個のオブジェクトからなる、合計1.5ペタバイトのデータを集めた。

しかし、これほどのデータセットにラベリングをするのはきわめて困難だ。ひとつの方法として、データラベリング会社やAmazon Turkのようなオンラインプラットフォームを通じ、人の手で注釈付けをすることも考えられる。しかし、これには膨大な作業が必要で、莫大な費用と、途方もなく長い時間がかかってしまう。

そこでテスラのチームは、ニューラルネットワーク、レーダーデータ、人間のレビューを組み合わせた自動ラベリング技術を採用した。データセットのアノテーションはオフラインでおこなわれるため、ニューラルネットワークは動画を繰り返し再生して、予測値とグランドトゥルース（検証用の実測値）を比較し、パラメーターを調整することができる。これは、テストタイム推論とは対照的だ。テストタイム推論では、すべての処理がリアルタイムでおこなわれ、ディープラーニング・モデルはこれに頼ることができない。

また、オフラインでラベリングを行うことにより、エンジニアたちは、非常に強力で処理能力の高い物体検知ネットワークを利用することができた。このネットワークは車には搭載できず、リアルタイムで低レイテンシーでのアプリケーションでは使えないものだ。また、彼らはレーダーセンサーデータを利用し、ニューラルネットワークの推論の検証をおこなった。こうしたプロセスが、ラベリングネットワークの精度の向上につながった。

「オフラインでは事後の判断を生かせるので、（異種のセンサーデータを）よりスムーズに融合させることができます」と、カルパシーは言う。「さらには、人の手を借りてクリーニング、検証、編集などを行うこともできます」

カルパシーがCVPRで公開した動画によれば、テスラの物体検知ネットワークは、土砂、粉塵、雪の中でも一貫性を保っている。

tesla object tracking auto-labeling
テスラのニューラルネットワークは、さまざまな視界条件で一貫して物体を検知できる。Image Credit: Logitech

カルパシーは、自動ラベリングシステムの最終的な修正に、どこまで人の手を入れる必要があったかについては言及しなかった。だが、自動ラベリングシステムを正しい方向に導くうえで、人間の認知が重要な役割を果たしたのは確かだ。

テスラのチームはデータセットの開発中に、物体検知に調整が必要であることを示す200以上のトリガーを発見した。例えば、カメラの違いによる検知結果の不一致や、カメラとレーダーのあいだの不一致だ。また、トンネルの出入り口や、車の上に物体がある場合など、とくに注意が必要なシナリオも判明した。

これらのトリガーを開発し、習得するのには4カ月を要した。ラベリングネットワークの性能が向上したことから、チームはこれを「シャドーモード」として市販車両に搭載し、車両にコマンドを出さずにひそかに運用し始めた。ネットワークのアウトプットと、レガシーネットワーク、レーダー、ドライバーによる行動との比較がなされた。

テスラのチームは、データ・エンジニアリングを7回繰り返した。最初に、ニューラルネットワークのトレーニングのための初期データセットを作成。次に、ディープラーニングをシャドーモードで実際の車に導入し、トリガーを使って不一致、エラー、特殊なシナリオを特定した。そしてエラーの修正や訂正を行い、必要に応じてデータセットに新たなデータを追加した。

「このループを何度も何度も繰り返すことで、ネットワークの性能が驚くほど向上するのです」と、カルパシーは言う。

つまり、このアーキテクチャは、ニューラルネットワークが反復的作業を担い、人が高度な認知的課題やコーナーケースを処理するという、巧妙な分業体制を備えた半自動ラベリングシステムと呼ぶべきものだ。

興味深いことに、CVPRのある参加者が「トリガーの生成は自動化できないのか」とカルパシーに質問したところ、彼はこう答えた。「（トリガーの自動化は）きわめて難しい選択肢です。一般化したトリガーを作成しても、それがエラーモードを正しく表現できるとは限りません。例えば、トンネルの出入りに関するトリガーを自動生成するのはかなり難しいでしょう。意味的なもの、人であれば直感的に掴むことができるものこそが課題です。どんなふうに認識されているかがはっきりわかっていないのです」

階層的ディープラーニング・アーキテクチャ

Tesla neural network self-driving car
テスラの自律走行チームには、収集した高品質なデータセットを最大限に活用できる、巧妙に設計されたきわめて効率的なニューラルネットワークが必要だった。

同社が開発したのは、情報を処理し、その出力を次のネットワークに供給する、複数のニューラルネットワークで構成された階層的ディープラーニング・アーキテクチャだ。

このディープラーニング・モデルでは、車の周囲に搭載された8台のカメラが撮影した映像から、畳み込みニューラルネットワークを用いて特徴を抽出し、トランスフォーマー・ネットワークを使って融合させる。さらに、軌道予測などのタスクにおいて重要な継時的融合を行い、推論の不一致を解消する。

こうして抽出された空間的・時間的特徴を、ニューラルネットワークの分岐構造に入力する。カルパシーは分岐構造の各部分を、ヘッド、トランク、ターミナルと呼んでいる。

「このような分岐構造にする理由は、関心のあるアウトプットが膨大に存在し、その一つひとつに別個のニューラルネットワークを割り当てる余裕がないためです」と、カルパシーは説明する。

階層構造にすることで、異なるタスクにコンポーネントを再利用したり、異なる推論経路のあいだで特徴を共有したりできるようになる。

また、モジュール構造ネットワークの利点として、分散型開発が可能である点もあげられる。テスラでは現在、機械学習エンジニアの大規模チームが自律走行ニューラルネットワークの開発にあたっている。チームのメンバーそれぞれが、ネットワークの小さなコンポーネントを担当し、その成果を大規模なネットワークに組み込んでいる。

「私たちのチームは約20人からなり、フルタイムでニューラルネットワークのトレーニングをおこなっています。全員がひとつのニューラルネットワークの構築に貢献しています」と、カルパシーは言う。

垂直統合

カルパシーはCVPRでのプレゼンテーションで、テスラがディープラーニング・モデルのトレーニングと微調整に使用しているスーパーコンピューターの詳細を説明した。

このスーパーコンピューターは、80台のノードで構成されている。各ノードが8つのNvidia A100 GPUと80ギガバイトのビデオメモリを搭載しており、計5760個のGPUと450テラバイト以上のVRAMを有する。また、10PBのNVME超高速ストレージと640Tbpsのネットワーク容量を備え、すべてのノードの相互接続と、ニューラルネットワークの効率的な分散型トレーニングを実現している。

テスラは、自社の自動車に搭載されているAIチップの技術を所有し、生産をおこなっている。「これらのチップは、（完全自律走行の）導入の際に稼働させたいニューラルネットワークを念頭に、特別に設計したものです」と、カルパシーは言う。

テスラの大きな強みは垂直統合だ。テスラは、自律走行車のテクノロジースタックのすべてを手中に収めている。車両や、自律走行技術のためのハードウェアを製造しており、また、すでに販売した数百万台の車からさまざまなテレメトリーデータや映像データを収集できるユニークな立場にある。さらに、独占的に所有するデータセットと社内のコンピュータークラスターを使ってニューラルネットワークの構築とトレーニングを行い、自社の自動車でシャドーテストをおこなってネットワークの有効性を検証し再調整している。それにもちろん、テスラの機械学習エンジニア、研究者、ハードウェアデザイナーのチームは精鋭ぞろいで、彼らがこうしたピースのすべてを組み合わせている。

「こうしたスタックのすべてのレイヤーで、共同設計とエンジニアリングをおこなっています」と、カルパシーは言う。「足を引っ張る第三者はいません。自社の命運を完全にコントロールしているのです。これはすばらしいことです」

このような垂直統合と、データを生成し、機械学習モデルを調整し、それを多くの車に実装するというサイクルの反復のおかげで、テスラは、コンピュータービジョンのみを利用した自律走行車の実現にきわめて有利な立場にある。カルパシーはプレゼンテーションのなかで、新たに開発したニューラルネットワークが単独で、レーダー情報と組み合わせて稼働するレガシー機械学習モデルの性能を上回った事例の数々を紹介した。

カルパシーが言うように、このシステムが改善を続ければ、いずれテスラはLiDARを過去のものにするかもしれない。そして、他の企業にテスラのアプローチが真似できるとは思えない。

残された課題

しかし、現状のディープラーニングで自律走行のすべての課題を克服できるのかという疑問は残る。物体検知、速度推定、距離推定が運転の要であることは確かだ。しかし、人間の視覚には他にも多くの複雑な機能があり、これらは研究者のあいだで「視覚のダークマター」と呼ばれている。これらすべてが、視覚入力を意識的・無意識的に分析し、多様な環境のなかでナビゲーションを実現するための重要な要素なのだ。

加えて、ディープラーニング・モデルは因果推論を苦手としており、これは、モデルが見たことのない状況に直面した際に大きな問題になるかもしれない。テスラは、膨大かつ多様なデータセットを作成したとは言え、実際の路上はきわめて複雑な環境であり、いつでも新しい予想外のできごとが起こりうる。

深層ニューラルネットワークに因果推論を明示的に組み込む必要があるのか、それとも、「ダイレクト・フィット」、すなわち適切に分布した大きなデータセットがあれば、因果性というハードルを乗り越えて汎用ディープラーニングを達成できるのか。これについては、AI界隈でも意見が対立している。

ビジョンベースの自律走行技術を開発するテスラのチームは、後者を支持しているようだ（ただし、彼らはスタックを完全にコントロールしているため、将来的に新たなニューラルネットワークのアーキテクチャを試すこともできる）。テスラのテクノロジーが、今後の試練を乗り越えられるかどうかは興味深いところだ。

この記事は、VentureBeatのBen Dicksonが執筆し、Industry Diveパブリッシャーネットワークを通じてライセンスされたものです。ライセンスに関するお問い合わせはlegal@industrydive.comまでお願いいたします。