ナイトライダーの世界が現実に! クルマと対話時代に突入!「音声認識」最前線

2018年11月1日 / ニュースコメントする

2018年10月18日、最新の対話型コネクティビティ、MBUX（メルセデスベンツ・ユーザー・エクスペリエンス）を装備したメルセデスベンツAクラスが発表された。

すでに報道でご存じの方も多いかもしれないが、｢ハイ、メルセデス｣と話しかけると、クルマが喋りながら、いろんな要望に答えてくれるのだ。

これまでの音声認識は、話しかけてもなかなか認識しなかったり、はっきりした日本語を言わないと反応しなかったりと、苦々しく思ったりする経験をお持ちの人も多いのではないだろうか。

では、このMBUXはどうなのか？　ちゃんとまともに話せるのか？

さらに、クルマと話す技術は今どれほど進んでいるのか？　また今後、どうなっていくのか？　モータージャーナリストの岩尾信哉氏が解説する。

文／岩尾信哉
写真／ベストカー編集部

■ナイト2000のようにクルマと話す時代が来るとは……

ナイト2000のコクピット。これはベストカー本誌がナイト2000のレプリカを撮影した時のもの

クルマと会話するというと、1980年代半ばに放送された米国のTVドラマ『ナイトライダー』で登場した人工知能を備えたコンピューターカー「KNIGHT2000」が思い浮かぶ。

当時の若者たちはAI搭載のクルマとのコミュニケーションはきっと愉しいに違いないと思えたものだ。だが現実は厳しい。カーナビの音声を使った目的地の入力でさえままならないことに頭にきて、音声入力など当てにならない！と、クルマとのコミュニケーションから縁遠くなってしまったユーザーは数えきれないことだろう。

ようやく2010年代になって音声認識技術が飛躍的に進歩したのはいわば「外圧」、いうまでもなくアップルの「iPhone」を先駆けとするスマートフォンのおかげだ。

検索機能に使われる音声認識技術の進化とコストダウンが進んだ。大多数の自動車メーカーやカーナビメーカーは、スマートフォンとの連動を可能とするように開発の方向性を変え、音声認識技術の性能アップとシステム全体のコストダウンが進むことになった。

さらに車載情報機器にスマホとの接続を考慮したナビゲーションシステムの採用が世界中の自動車メーカーで一気に進んだことで、車載ナビでも音声認識機能の進化が促された。

その後は、車載機器としてのカーナビ自体がインターネット回線を通じてサーバーの情報クラウドを使うことで機能を充実させていったのはつい最近の話だ。

いまでは多くのひとが“音声ナビ”といえばスマホ用アプリをイメージするだろうし、カーナビの存在感が薄くなったことはいなめない。

ただ、潮目が変わったように思えるのは、自動運転が脚光を浴び始めるとともに、車内の自動操作において音声入力が欠かせぬ要素として採り上げられるようになったことが大きい。

その後、スマートフォンの普及によって、アップルのiOSの「Siri」、アンドロイドOSの「Google Now」の音声認識ソフトを利用した車載機能である「カープレイ」や「アンドロイドオート」は世界中のカーメーカーやオーディオ／カーナビメーカーに広まった。そのなかでキモとなるのが、「自然言語処理」と呼ばれる音声認識技術だ。

■｢ハイ、メルセデス｣と話しかけると起動するＡクラス

2018年10月18日に発表された新型Aクラスは新しいシステムのMBUXをはじめ、部分的だが自動運転を実現した最新の安全運転支援システムを採用するなど、上級セダンのSクラスやEクラスなどに搭載された機能を多く取り入れた。ラインアップはA 180が322万円、A 180スタイルが362万円、さらに新型導入を記念したA 180Edition1は500台限定で479万円

ここで音声認識の基礎技術をおさらいしておくと、まずは車内に設置された指向性の高集音マイクが捉えた音声にノイズを除去する処理を施し、入力音量のレベルを最適化して音声を取得する。

この際に、言葉としての発声部分である人の会話での自然な“話し言葉”を聞き取ってテキストとして抽出する。これを膨大な言語データと参照して解釈・判断することで、音声や表示を使って乗員に有効な情報を提供する。なにより肝心なのは、人との「会話」の意味を正確に理解できることだ。

2018年10月18日、日本市場に登場したメルセデスベンツＡクラスが採用した「MBUX」（メルセデスベンツ・ユーザー・エクスペリエンス）は、これまでのインフォテイメント技術とはひと味違った仕立てが特徴だ。

2018年1月に行われた米国家電ショー「CES2018」で発表され、Aクラスの発表時に初採用されたMBUXは、最先端を行く音声認識能力を拡大して、人とクルマの車載コミュニケーションツールとして機能する。

このシステムが音声入力を積極的に利用するユーザーをどれだけ開拓できるのかという期待とともに、音声認識を使った機能の操作がどれだけ進化したかを確認するにはうってつけだ。

MBUXの一番の特徴は、音声認識機能で「自然対話式」を採用したボイスコントロール機能だ。「Hi（ハイ）、 Mercedes（メルセデス）」という言葉（英語圏ではHey、Mercedes）を音声キーワードとしてシステムが起動する。

カーナビの目的地入力をはじめとして、電話通話や音楽選択、メッセージの入力／読み上げ、気象情報などといったサービスを提供する機能に加え、空調や照明など多様な機能の操作にも対応する。

MBUXでは人工知能（AI）を利用した学習能力によって、通信ネットワークのクラウド上のソフトウェア機能によって新しい流行語を覚え、時代による言葉の用法の変化を学習する。対話の応答についても従来のように定型文言ではなく受け答えがさまざまに変化するという。 MBUXの言語支援機能の基本的な動作原理を説明すると、音声入力データから周囲から入り込むノイズを除去したうえで、データを圧縮して制御システムに転送する。ボイスコントロールは、車載コンピューターとクラウドの両方を使用して、音声を可能な限り正確に理解してユーザーの要求に応えるハイブリッド式システムを採用する。これは車載コンピューターとクラウドの両方でデータを評価して、それぞれ応答を送り、システムがどちらの応答がより確かかを判断し、数秒以内に応答／反応するという。この方式を採用したことでMBUXはほかの多くの操作のサポート機能とは異なり、インターネットに未接続の状態でも応答が可能としている

次ページは : ■今までのシステムから、どれほど進化したのか？