機械が世界を「感じる」仕組みを解説

この記事をシェアする

2023.2.22

機械知覚（machine perception）とは、人が万物を知覚するのに似た方法で、感覚情報を取り込んで処理するコンピュータの能力を意味する。主要な感覚（視覚、聴覚、触覚、味覚）を模倣したセンサーを用いる場合もあれば、人には処理できない情報を取り込む場合もある。

機械による情報の検出と処理には通常、専用のハードウェアとソフトウェアが必要だ。工程は複数段階あり、情報を取り込んだ後に生データを変換・解釈して全体的スキャンを生成する。また、人間および動物が万物を知覚するのと同じく、さまざまなところに焦点を当てて細部まで記録する。

機械知覚はまた、多くの人工知能（AI）感覚モデル（AI sensory model）において、最初の段階だ。このアルゴリズムは、外界から収集したデータを変換し、何を知覚しているかについての粗いモデルを生成する。次の段階は、知覚世界のより包括的な理解を構築することであり、この段階は認知（cognition）と呼ばれることもある。その後に、戦略構築や行動の選択が続く。

機械知能が目指すべきところは場合によって異なり、「人と全く同じ方法で考える機械」を作ることではなく、類似した方法で考えるだけでよいこともある。医学的診断のためのアルゴリズムの多くは、人よりも優れた答えを導き出す。コンピュータは、人が知覚できるよりも精密に画像やデータにアクセスできるからだ。ここでの目標は、AIアルゴリズムに対して、人と全く同じように考える方法を教えることではなく、病気に関する有益な洞察を引き出して医師や看護師を支援することだ。つまり、機械知覚と人の知覚の方法は、違っていても構わないし、むしろそのほうが望ましいことさえある。

機械知覚の種類

機械知覚は以下のようにさまざまな種類があり、開発の進捗もまちまちだ。

光学カメラを利用した機械視覚／コンピュータ視覚
マイクを利用した機械聴覚／コンピュータ聴覚
触覚センサーを利用した機械触覚
「電子鼻」による機械嗅覚
「電子舌」による機械味覚
LiDARセンサーやスキャナーを利用した3Dイメージング／3Dスキャン
加速度計、ジャイロスコープ、磁気センサー、フュージョンセンサーを利用した運動検出

理論上、コンピュータを利用して外界に関する情報を直接収集する試みは、全て機械知覚と呼ぶことができる。

優れた機械知覚の開発にあたり、往々にして課題とみなされる領域がある。人が容易にこなすけれども、単純なルールとしてコード化することが難しい領域だ。例えば、人の手書き文字の形状は、しばしば単語によって異なる。人はこれらのパターンを認識できるが、コンピュータに正確な文字の識別を教えることは、小さなばらつきが無数にあるため難しいのだ。

印刷された文字を読ませることでさえ、フォントの違いや印刷の質にムラがあるため簡単ではない。光学文字認識のためには、文字の基本形態を捉えて、フォントのアスペクト比に合わせて調整するといった、コンピュータにより大きな課題を考えさせるようなプログラミングが必要だ。

機械知覚分野の研究者の中には、コンピュータの周辺機器を開発し、人が万物を知覚する方法を再現しようとしている者たちもいる。人の嗅覚や味覚は脳によって解釈された化学反応だが、こうした反応を模倣し、場合によっては再現する電子鼻や電子舌を開発する試みである。

機械のほうが、相当する人の感覚器よりもうまく情報を検出できることもある。多くのマイクは、人の可聴域をはるかに超えた周波数の音を拾うことができる。また、人が耳で聞くには小さすぎる音も検出できる。しかし目的はあくまでも、機械に人のような知覚をさせるには何が必要かを理解することだ。

さらには、人が特定の音に注意を向ける仕組みを再現しようとしている研究者もいる。人の脳は普通、騒々しい環境の中にいても特定の会話を聞き取ることができる。背景雑音のフィルタリングは、ノイズの海から固有の特徴を捉えなければならず、コンピュータにとっては難問だ。

機械がうまく模倣できる人の感覚は？

コンピュータが外界と繋がるためにはさまざまな種類のセンサーが必要だが、こうしたセンサーはいずれも同じ情報を扱う人の感覚器官とは異なっている。外界の情報を人間よりも正確かつ大量に処理できるものもあれば、正確性で人間に劣るものもある。

機械視覚は、最もパワフルな感覚といえるだろう。最先端のカメラと光学レンズによって、効率よく光を集められるおかげだ。こうしたカメラは通常、色に対する人の眼の反応を再現するように意図的に調整されているが、特殊なカメラを使えば人には見えない波長の色を見ることもできる。例えば赤外線センサーは、住宅からの熱の漏洩を探知するのに使われる。

カメラは光の強度の僅かな変化にも極めて敏感なため、コンピュータは時にこうした微妙な変化の検出において人を上回る。例えば、顔の毛細血管に血液が急速に流れ込んで生じる僅かな紅潮を検出し、そこから被写体の人物の心拍数を記録することができる。

機械知覚の中で、視覚の次に成功しているのは聴覚だろう。マイクは小さく、しばしば人の耳よりも高感度だ（それに、人の聴覚は加齢とともに衰える）。人の可聴域をはるかに外れた周波数も検出できるため、コンピュータは人には決して聞こえない音の発生を記録することができる。

マイクは複数設置することが可能であり、コンピュータでこれらの情報を同時に処理することで、人よりも効率的な音源定位（音がどこから聞こえてきたかの特定）ができる。3つ以上のマイクを設置すれば、2つしかない人の耳よりも正確に位置を推定できるのだ。

コンピュータに触覚を持たせることも可能だが、機械触覚の利用はおおむね特定の状況に限られている。スマートフォンやノートパソコンに搭載されているタッチスクリーンやタッチパッドは極めて高感度であり、複数の指の接触やわずかな動きを検出する。こうしたセンサーの開発者は、接触時間の長さの違いを検出できるようにすることで、長いタッチと短いタップなど、動作に異なる意味を持たせている。

嗅覚と味覚は、機械知覚の開発があまり進んでいない分野だ。人の嗅覚や味覚の模倣を目指したセンサーはごくわずかで、おそらくこの2つの感覚は途方もなく複雑な化学反応を基盤としているからだろう。それでも、いくつかの研究機関ではプロセスを細かな段階に切り分けて、AIアルゴリズムに基礎的な嗅覚や味覚を持たせる試みがなされている。

機械知覚は難しい？

人にとっては極めて単純なタスクでも、コンピュータに習得させることが非常に難しい場合がある。AI研究者たちがこの事実に気づくのに長くはかからなかった。例えばほとんどの人は、部屋の中を見渡して無意識的に座る場所を見つけられる。しかし、ロボットにとっては未だに難題なのだ。

1980年代、人工知能研究者のハンス・モラベック氏は、こうしたパラドックスについて次のように語った。「知能テストで大人レベルの成績を収めたり、チェッカーで遊んだりできるコンピュータを作るのは比較的簡単だ。しかし、コンピュータに1歳児と同等の知覚能力や運動能力を持たせるのは難しく、あるいは不可能かもしれない」

理由の一つは、自身の脳が感覚の解釈のためにどれだけ努力しているかに、人が気づいていないことだ。多くの脳科学者の推測では、人の脳の半分以上は眼で見たものを理解することに費やされている。私たちは、少なくとも通常の光量条件では意識的に見ようとせずともモノを見ていることが多い。人が物体やその位置に関する視覚的な手がかりを探し回るのは、暗闇や霧の中にいる時だけだ。

機械視覚は機械知覚の一分野に過ぎないが、それでも研究者たちは、人にとって至極簡単な作業さえも再現することに未だ苦労している。アルゴリズムがうまく機能した時には明快な答えが得られるが、それらは概して数的なものであり、文脈や解釈が抜け落ちている。センサーが特定の位置にある赤い物体を発見できたとしても、その種類を区別したり、それが独立した物体か、またはより大きな物体の一部なのかを判断したりするのは難しい。

主要AI企業は、機械知覚にどう取り組んでいる？

AIアルゴリズムを販売する主要企業は全て、視覚から言語までの幅広い人の知覚に相当する感覚入力と情報処理を行うさまざまなツールを提供している。各社のツールは、感覚情報と予測に関する情報処理と分析、表現を担うソフトウェアアルゴリズムによって違いがある。主要AI企業が提供している企業向けツールには、基礎からのシステム構築を目的としたものから、ビデオ映像から不審な動作を検出したり顧客と対話したりといった、特定の具体的な課題に対処するものもある。

IBM

IBMは、人と同じように世界を見ることができるアルゴリズムの開発において先駆者だ。例えば同社のAIシステム「Watson（ワトソン）」は、自然言語処理（NLP）の高度なレイヤーを基盤とした会話型インターフェースを備えている。顧客は「Watson Studio（ワトソンスタジオ）」を使って質問を分析し、仮説的な回答を提示してから、エビデンス・コーパス（言語資料データベース）の内部を検索して正答を探すことができる。2011年に米国のクイズ番組「ジェパディ！」内で人間のチャンピオンに勝利したWatsonのバージョンは、「高度に社会化され、人と相互作用ができるアルゴリズム」の好例だ。言葉をおおむね人と同じように知覚していると言えるだろう。

アマゾン

アマゾンは多様な製品やサービスを提供しており、基本的なツールに加えて専門的なものもある。例えば「Amazon Comprehend」は、自然言語から情報抽出ができるツールだ。その分野特化型バージョンである「Amazon Comprehend Medical」は、病院や医師のオフィスで必要とされる自動分析やコーディングを提供することを主眼とする。「Amazon HealthLake」はデータストレージ製品であり、保存されたデータから意味を抽出し予測を生成するAIアルゴリズムを内蔵している。

グーグル

グーグルは、基本的なものから分野特化型の問題解決を行うクラウド製品までを多数提供している。標準製品にも、改良された機械知覚アルゴリズムをひっそりと追加して、利便性と直感性を高めている。例えば「Google Drive」は、光学文字認識アルゴリズムを粛々と搭載し、Eメールや保存されたファイル内のテキストを読み取れるようになっている。これによりユーザーは、画像やミームの中にしか登場しない単語も検索できるようになる。また、「Google Photo」は高度な分類アルゴリズムを用いて、コンテンツに基づいて画像を検索できるようにしている。

マイクロソフト

マイクロソフトは、顧客が知覚ツールを開発するのを支援するさまざまなサービスを提供している。「Azure Percept」は、あらかじめ構築された一連のAIモデルを提供しており、カスタマイズ可能で、シンプルなIDE（統合開発環境）によって実装できる。これらのEdgeソリューションは、ソフトウェアとカスタマイズされたハードウェアを1つの製品として統合するためにデザインされている。同社の開発ツールは、自然言語の理解に加えて、モノのインターネット（IoT）デバイスで収集された動画および音声の理解にも注力している。

メタ

メタもさまざまな自然言語処理アルゴリズムを利用し、基本製品やソーシャルネットワークの改良に取り組んでいる。同社はメタバースにも手を広げており、自然言語インターフェースや機械視覚アルゴリズムを積極的に活用してユーザーによるメタバースの制作や利用を支援している。例えば、ユーザーが個人用スペースの装飾をしたい場合、優れたAIインターフェースによってさまざまなデザインをシンプルな方法で創造・探究できる。

スタートアップ企業やチャレンジャー企業は、機械知覚にどう取り組んでいる？

スタートアップや定評のあるチャレンジャーなど、多くの企業が人のような知覚を行うモデルの開発に取り組んでいる。

大いに注目が集まる分野の一つが自律走行だ。AIが人間のドライバーや歩行者と同じように道路を利用するためには、人と同じように外界を理解する必要がある。ウェイモ（Waymo）、ポニーAI（Pony AI）、エーアイ（Aeye）、クルーズ・オートメーション（Cruise Automation）、アルゴ（Argo）などの主要スタートアップ企業はすでにまとまった資金を獲得し、一部の都市の路上で自律走行車の試験を行っている。これらの自律走行車は、高度な技術を統合したAIによって、路上の障害物をカタログ化し回避する機能を備えている。

一部のスタートアップは、障害物や自律走行の妨げになる可能性のあるものを認識するソフトウェア単体の開発に特化。aiMotive、ストラドビジョン（StradVision）、ファントムAI（Phantom AI）、CalmCarなどの企業は、多数のセンサーが捕捉する情報の全てを管理する「知覚スタック（perception stacks）」を生み出している。

こうしたシステムは、さまざまな面で人の知覚能力を上回っていることが多い。具体的には、複数のカメラによって車の周囲360度を同時に見渡せたり、レーザーなどの特殊な光線を利用して物体の精密な位置情報を抽出できたりするのだ。

言葉を理解し、基本的なキーワード検索から飛躍させるという課題に取り組んでいるスタートアップもある。文章を作成する人の意図を理解することに取り組んでいる企業として、ブラックバード.ai（Blackbird.ai）、ベイシス・テクノロジー（Basis Technology）、ナラティブ・サイエンス（Narrative Science：現在はTableau傘下）などが挙げられる。彼らのテーマは、単純なキーワードの特定を超えた「ナラティブ（話、文脈）」の検出だ。

視覚的な手がかりから、人が何をしようとしているかを予測する方法を模索している企業もある。ヒューマナイジング・オートノミー（Humanising Autonomy）は、映像に基づく人間行動の予測モデルを確立し、リスクのある行為を減らして衝突事故を未然に防ぐことを目指している。

一部の企業は、特定の実務的課題の解決にフォーカスしている。例えばAMPロボティクス（AMP Robotics）は、ベルトコンベアで流れてくるゴミの中からリサイクル可能な資源を分別する装置を開発。装置に機械視覚と学習アルゴリズムを搭載し、分別作業の中で人が行っていることを習得させるのだ。

AIを使って人の体験を向上させるために、人が何を知覚するかを理解しようとしている企業もある。例えばペンサ・システムズ（Pensa Systems）は、ビデオカメラを使って店舗の棚をチェックし、見づらい陳列箇所を探すシステムを開発している。この「シェルフ・インテリジェンス」の目的は、視認性や配置を改善して顧客が欲しい商品を見つけやすくすることだ。

機械知覚にできないことは？

コンピュータは、人とは違う方法で思考する。そのため、単純な算数や膨大な数字、文字の記憶については優れているが、人と同じように世界を見聞きしたり、感じたりするようなアルゴリズムを構築するのは容易なことではない。

成功の度合いはまちまちだ。画像の中の物体を発見したり、物体同士を区別したりするといった課題は、驚くほど複雑で解決困難だ。機械視覚研究者が開発したアルゴリズムは確かに機能するがまだ脆弱であり、幼児でもしないような間違いを犯すこともある。

根本的な原因は、私たちが万物を認識する方法について確固とした論理モデルが存在しないことだ。例えば「椅子」という物体の定義は、人には一目瞭然に思えるが、コンピュータにスツールとローテーブルを区別させるのは難しい。

最も成功しているアルゴリズムは、統計モデル主体であることが多い。機械学習システムが大量のデータを収集し、複雑な適応的統計モデルを計算して、往々にして正しい答えを導き出すのだ。このような機械学習アルゴリズムとニューラルネットワークは、画像の中の物体を認識する分類アルゴリズムの多くで基盤をなしている。

こうした統計的メカニズムは、たとえ成功したとしても結局は近似に過ぎない。いわば手品のようなものだ。人の思考の近似ではあるが、本当に同じように考えているわけではない。そのため、いつ失敗するかを予測するのは極めて困難だ。

一般的に機械知覚アルゴリズムは便利だが、想定外の事態にはミスを犯し、不正確な結果を生み出しやすい。これは結局、私たちが人の知覚を十分に理解できていないからこそ起こる。物理学や心理学から導き出された合理的で優れた構成要素はいくつかあるが、それらは出発点に過ぎない。私たちは、人が万物をどう知覚しているかについて本当に理解しているわけではいからこそ、今のところは統計モデルでしのぐしかないのだ。

「機械が人よりもうまくできること」に集中した方がいい場合もある。カメラやイメージセンサーの多くは、人の眼には見えない波長の光を検出できる。ウェッブ宇宙望遠鏡は、完全に赤外線だけを利用している（私たちが目にする画像は、コンピュータを使って可視光の範囲の色に調整したものだ）。科学者たちは、人の知覚能力の複製版を作り出すのではなく、人に見える範囲を拡張した望遠鏡によって、人には見えない世界を見えるようにしたのだ。

この記事は、VentureBeatのPeter Waynerが執筆し、Industry Dive Content Marketplaceを通じてライセンスされたものです。ライセンスに関するお問い合わせはlegal@industrydive.comまでお願いいたします。