ナイトライダーの世界が現実に! クルマと対話時代に突入!「音声認識」最前線

 2018年10月18日、最新の対話型コネクティビティ、MBUX(メルセデスベンツ・ユーザー・エクスペリエンス)を装備したメルセデスベンツAクラスが発表された。

 すでに報道でご存じの方も多いかもしれないが、「ハイ、メルセデス」と話しかけると、クルマが喋りながら、いろんな要望に答えてくれるのだ。

 これまでの音声認識は、話しかけてもなかなか認識しなかったり、はっきりした日本語を言わないと反応しなかったりと、苦々しく思ったりする経験をお持ちの人も多いのではないだろうか。

 では、このMBUXはどうなのか? ちゃんとまともに話せるのか?

 さらに、クルマと話す技術は今どれほど進んでいるのか? また今後、どうなっていくのか? モータージャーナリストの岩尾信哉氏が解説する。

文/岩尾信哉
写真/ベストカー編集部


■ナイト2000のようにクルマと話す時代が来るとは……

ナイト2000のコクピット。これはベストカー本誌がナイト2000のレプリカを撮影した時のもの

 クルマと会話するというと、1980年代半ばに放送された米国のTVドラマ『ナイトライダー』で登場した人工知能を備えたコンピューターカー「KNIGHT2000」が思い浮かぶ。

 当時の若者たちはAI搭載のクルマとのコミュニケーションはきっと愉しいに違いないと思えたものだ。だが現実は厳しい。カーナビの音声を使った目的地の入力でさえままならないことに頭にきて、音声入力など当てにならない!と、クルマとのコミュニケーションから縁遠くなってしまったユーザーは数えきれないことだろう。

 ようやく2010年代になって音声認識技術が飛躍的に進歩したのはいわば「外圧」、いうまでもなくアップルの「iPhone」を先駆けとするスマートフォンのおかげだ。

 検索機能に使われる音声認識技術の進化とコストダウンが進んだ。大多数の自動車メーカーやカーナビメーカーは、スマートフォンとの連動を可能とするように開発の方向性を変え、音声認識技術の性能アップとシステム全体のコストダウンが進むことになった。

 さらに車載情報機器にスマホとの接続を考慮したナビゲーションシステムの採用が世界中の自動車メーカーで一気に進んだことで、車載ナビでも音声認識機能の進化が促された。

 その後は、車載機器としてのカーナビ自体がインターネット回線を通じてサーバーの情報クラウドを使うことで機能を充実させていったのはつい最近の話だ。

 いまでは多くのひとが“音声ナビ”といえばスマホ用アプリをイメージするだろうし、カーナビの存在感が薄くなったことはいなめない。

 ただ、潮目が変わったように思えるのは、自動運転が脚光を浴び始めるとともに、車内の自動操作において音声入力が欠かせぬ要素として採り上げられるようになったことが大きい。

 その後、スマートフォンの普及によって、アップルのiOSの「Siri」、アンドロイドOSの「Google Now」の音声認識ソフトを利用した車載機能である「カープレイ」や「アンドロイドオート」は世界中のカーメーカーやオーディオ/カーナビメーカーに広まった。そのなかでキモとなるのが、「自然言語処理」と呼ばれる音声認識技術だ。

■「ハイ、メルセデス」と話しかけると起動するAクラス

2018年10月18日に発表された新型Aクラスは新しいシステムのMBUXをはじめ、部分的だが自動運転を実現した最新の安全運転支援システムを採用するなど、上級セダンのSクラスやEクラスなどに搭載された機能を多く取り入れた。ラインアップはA 180が322万円、A 180スタイルが362万円、さらに新型導入を記念したA 180Edition1は500台限定で479万円

 ここで音声認識の基礎技術をおさらいしておくと、まずは車内に設置された指向性の高集音マイクが捉えた音声にノイズを除去する処理を施し、入力音量のレベルを最適化して音声を取得する。

 この際に、言葉としての発声部分である人の会話での自然な“話し言葉”を聞き取ってテキストとして抽出する。これを膨大な言語データと参照して解釈・判断することで、音声や表示を使って乗員に有効な情報を提供する。なにより肝心なのは、人との「会話」の意味を正確に理解できることだ。

 2018年10月18日、日本市場に登場したメルセデスベンツAクラスが採用した「MBUX」(メルセデスベンツ・ユーザー・エクスペリエンス)は、これまでのインフォテイメント技術とはひと味違った仕立てが特徴だ。

 2018年1月に行われた米国家電ショー「CES2018」で発表され、Aクラスの発表時に初採用されたMBUXは、最先端を行く音声認識能力を拡大して、人とクルマの車載コミュニケーションツールとして機能する。

 このシステムが音声入力を積極的に利用するユーザーをどれだけ開拓できるのかという期待とともに、音声認識を使った機能の操作がどれだけ進化したかを確認するにはうってつけだ。

 MBUXの一番の特徴は、音声認識機能で「自然対話式」を採用したボイスコントロール機能だ。「Hi(ハイ)、 Mercedes(メルセデス)」という言葉(英語圏ではHey、Mercedes)を音声キーワードとしてシステムが起動する。

 カーナビの目的地入力をはじめとして、電話通話や音楽選択、メッセージの入力/読み上げ、気象情報などといったサービスを提供する機能に加え、空調や照明など多様な機能の操作にも対応する。

MBUXでは人工知能(AI)を利用した学習能力によって、通信ネットワークのクラウド上のソフトウェア機能によって新しい流行語を覚え、時代による言葉の用法の変化を学習する。対話の応答についても従来のように定型文言ではなく受け答えがさまざまに変化するという。 MBUXの言語支援機能の基本的な動作原理を説明すると、音声入力データから周囲から入り込むノイズを除去したうえで、データを圧縮して制御システムに転送する。ボイスコントロールは、車載コンピューターとクラウドの両方を使用して、音声を可能な限り正確に理解してユーザーの要求に応えるハイブリッド式システムを採用する。これは車載コンピューターとクラウドの両方でデータを評価して、それぞれ応答を送り、システムがどちらの応答がより確かかを判断し、数秒以内に応答/反応するという。この方式を採用したことでMBUXはほかの多くの操作のサポート機能とは異なり、インターネットに未接続の状態でも応答が可能としている

■今までのシステムから、どれほど進化したのか?

 従来の音声認識機能はコマンド(命令)があらかじめ決定されており、ユーザーが規定どおりに発話する必要があった。これに対してMBUXの音声認識機能は、自然言語処理機能の採用により、ほとんどの命令に従って、インフォテインメントおよび車両の操作関連の文章を認識、理解できるという。

 たとえば、遠まわしな表現にも対応可能で、たとえば空調機能を使って室内温度を下げる場合には「24℃」という明確に定義された命令ではなくても、「暑い」と言えば理解するとしている。

 MBUXはダイムラーが人工知能開発の大手であるNVIDIAと音声認識機能を手がけるニュアンス・コミュニケーションズなどとの共同開発で生まれた。

 特に後者はスマートフォンと車載端末を連動させて、米アップルの「カープレイ」や、米グーグルの「アンドロイドオート」などが使える機能を車両に与えるだけでなく、車載カーナビの開発で培った音声認識を基本として、クラウドと車載搭載機能を利用した「ハイブリッド方式」を各メーカーに提供しているという。

 今回のメルセデスのように音声認識機能を外注に頼らず独自で開発するのはめずらしいケースとのことだが、そこには将来の自動運転技術を開発するうえでの展望が見え隠れする。

■「調子はどう?」と抽象的な質問にもちゃんと答えてくれる

日本各地の天気もリクエストすれば表示してくれる

話すことが面倒くさければタッチスクリーンの画面や各種スイッチで設定できる

 ちなみに日本仕様のMBUXは完全に日本語対応になっており、流暢な英語で話しかけると認識しないという。呼びかけは「ハイ、メルセデス」でも「ヘイ、メルセデス」でも応じるという。

 実際にAクラスが発表された際に、MBUXのデモンストレーションが行われていたので、どのようなやりとりだったのか、一例を紹介しよう。

 男性が「ハイ、メルセデス」と声をかけると、MBUXがピコという音がして、「どうぞ、お話しください」と答える。男性が「ちょっと暑いんだけど」と話しかけると、MBUXが「21度にします」と答えた。

 女性が「ハイ、メルセデス」と声をかけると、「何を行いますか?」とMBUXが答える。女性が「ジャスト・ライク・ユーをかけて」とリクエストすると、曲が流れた。

 また男性がMBUXに「今日の調子はどう?」と話しかけると、MBUXは「悪くないです」と答えていたが、「まあまあです」、「最高です」と答える時もあるというからおもしろい。

  MBUXが喋る日本語は、若干たどたどしさが残るものの、なかなかのものだった。時折、反応がいってんぽ遅れることがあったが、これはご愛敬か。

 気になるのは、日本語の方言をちゃんと認識するのかということ。なんと、関西弁もきちんと認識するという。とはいっても、語尾を認識する程度で、さすがに「もうかりまっか?」と話しかけると「ぼちぼちでんな」とは返してくれない。

 例えば前出の「ちょっと暑いんだけど」のちょっと馴れ馴れしい(?)標準語の場合では、「暑い」の単語に反応している。「めっちゃ暑いねんけど」「ごっつ暑いやん」といった関西弁の場合でも「暑い」の単語に反応して、温度を下げてくれる。

 地域によって語尾が違う、方言でも対応はするとのことだが、完全に発する言葉が違う方言については認識しないのは当然といえば当然か。言葉が通じない場合は、「もう一度お話しください」と返される。

■新型3シリーズは「ヘイ、BMW」

2018年10月に発表された新型BMW3シリーズにも、クルマと話せる機能がついている。日本発売は2019年春頃

 BMWも次世代の車載コネクティビティシステム、BMWインテリジェント・パーソナル・アシスタントを2019年3月から導入すると発表している。すでに2018年10月に発表されたBMW3シリーズにも搭載されている。

 このBMWインテリジェント・パーソナル・アシスタントは、ユーザーは運転中、「ヘイ、BMW」と呼びかけることにより、音声アシストが起動。ユーザーが求めるさまざまな機能や情報に、安全にアクセスできる。

 例えば運転中のドライバーに代わって、BMWインテリジェント・パーソナル・アシスタントが、音声認識によって車両のナビゲーションシステムや空調をコントロール。

 ドライバーが「BMW、私は疲れている」と呼びかければ、ドライバーの眠気を覚ますために、音楽や空調を最適に調整してくれる。

「ヘイ、BMW」と話しかけると音声アシストが起動し、さまざまなリクエストに応じてくれる

 人工知能(AI)とオープンモビリティクラウドを活用することにより、このシステムは性能を常に向上させる。ソフトウェアは定期的に、無線によるアップグレードを受ける。

 BMWは2019年3月から、BMWの各モデルに順次投入、世界23言語に対応するとしている。当然、2019年前半に発売を予定している新型3シリーズにも搭載してくるはずだ。

■日本車メーカーはどうなっているのか?

クラウンやカローラスポーツ、レクサスLSなどに採用されているコネクテッドサービスは、ナビに話しかけるだけで、エージェントが音声で応えて目的地や情報の検索をしてくれる。目的地のセットまですべて音声で操作できるのでドライブ中も快適便利。期待した回答が得られない場合などは「オペレーター」と発話することで、有人オペレーターに接続。これまでのエージェントとのやりとりをオペレーターが引き継いでお客様のリクエストに対応してくれる

トヨタの音声認識システムは、データ・コミュニケーション・モジュール(DCM)と呼ばれる車載通信機による情報収集機能とインターネット上のクラウド情報を組み合わせて音声情報の処理を実施する「ハイブリッド」方式を採用。自社開発した情報収集と制御技術を活用したシステムを構築している

 いっぽう、日本メーカーはどうなっているのか? トヨタは独自開発の道を歩んできた。アップルにもグーグルにも基盤技術で与せず、トヨタはクラウンやカローラを手始めにデンソー(と富士通テンを買収したデンソー・テン)などともに、コネクテッド技術を開発している。

 メルセデスもトヨタどちらも車載音声認識システムとしては、車載通信機とクラウドの双方で音声認識処理を連携して行う、前述の「ハイブリッド」方式を採用しており、図のような自社で開発した情報収集と制御技術を、ソフトウェアのメーカーと対等の立場でシステムを構築している。

 ちなみにトヨタは人工知能について自社開発しているが、ダイムラーと同様に「CES2018」において、アマゾンの音声AIアシスタント「Alexa」を2018年後半にトヨタ/レクサスブランドに導入すると発表している。このあたりが現実のビジネスと将来に向けた技術開発をバランスさせるトヨタ流のやり方だろう。

 いっぽう、日産と三菱、ルノーの3社連合は、2018年9月18日、次世代の車載情報システム分野で米グーグルと提携したと発表した。

 グーグルの基本ソフト(OS)、アンドロイドをベースに、カーナビや娯楽など多様なサービスを利用できるシステムを開発、2021年から3社の車両に搭載する。グーグルのノウハウを活用し、ネットワークに常時接続して情報をやりとりする「コネクテッドカー」(つながるクルマ)の普及を加速させるという。

 次世代システムでは、クルマに搭載した音声認識機能を使い、メールを送ったりレストランを探したりすることが可能。

 カーナビに目的地を入力すると、スマートフォンとの連動により駐車後の徒歩での移動も一括案内するといった使い方が想定される。車両の異常をシステム上で遠隔診断し、ドライバーに点検や修理を促すこともできるという。

■今後は音声のほか、感情も認識する時代へ

ドコモの音声感情認識技術とEmpathの音声感情解析AI(人工知能)技術をもとに開発。2018年度中にトヨタ車への導入を目指しているという。走行雑音がある環境でもドライバーの音声を検知し、感情を認識し、ドライバーの声から声の高さや音色などの音響的特徴を分析する。事前に機械学習で生成しておいた感情認識モデルを使い「怒り」「喜び」「悲しみ」のどの感情に当てはまるかを推定。AIがドライバーの感情を理解してそれに応じた声かけを行うことで、運転中の倦怠感の減少や居眠り運転の解消などにつながり、安全性が高まるという

 注目したいのは、通信技術企業による音声認識技術の研究開発が着々と進んでいることだ。大手通信企業であるNTTドコモは、話し手とコミュニケーション機器との「自然な会話」のやりとりを実現するためにNTTドコモは人工知能を利用した「AI音声エージェント」を開発し、トヨタのシステムへ導入。

 具体的な機能は、音声による入力に従ってコンピューターが自動的に会話の内容を判断して処理を行うとのこと。人工知能のバーチャルエージェントがユーザーの自然な発話を聞き取り、ナビの目的地設定やオーディオの操作、機器の取り扱い説明などを行い、複雑な発話でも理解することができるという。

 重要なのは、音声認識技術で得られた発話の内容を理解するための「自然言語処理技術」だ。特にコマンドなどの予め決められたフレーズのみではなく、「話し言葉」によるあいまい(自由な)表現や新しい言葉に対しても解析や意味の理解などを精度よく行えるよう開発が進められている。

■人のセリフを口の動きで読み取る顔認証技術に発展

 さらにNTTドコモは、同社の音声感情認識技術を利用して、感情の認識まで可能とするシステムも開発した。「音声感情認識AI」とは、対話音声として発話者が特定の感情の音声を意図的に発声しようとせずに、自然に発生された音声を認識。

 雑音の多い環境での実証実験では、AIの声がけで、居眠りやドライバーの倦怠感を解消でき、気分良く運転できるようになるという。

 ここまで来ると、最終的には自動運転を考慮して、音声認識に追加される機能があるとすれば、小型カメラを使って顔の表情を読むとともに、読唇術ではないが、人のセリフを口の動きで読みとって認識するような顔認証技術などが、自動運転技術の実用段階に向けた最終ステップとなるはず。

 もはや音声認識だけでは留まらず、人とメカニズムのコミュニケーションという大枠のなかで研究開発が進められ、将来の自動運転技術実現へと進むキーテクノロジーのひとつになっていくことは間違いない。

最新号

ベストカー最新号

ジムニー 5ドア計画を暴く|ベストカー 12月10日号

 2018年も残すところあと2ヶ月。今年もさまざまな新車が登場したが、なかでもひと際注目を集めたのが、久々の刷新となった新型ジムニー。  11月10日発売のベストカー最新号では、そのジムニーに待望の5ドアが追加されるというマル秘情報の真相を…

カタログ