マイクアレイネットワークとバーチャルエージェントを用いたHNS向けハンズフリー音声インタフェース

背景

hns.png

ホームネットワークシステム(HNS)では,家毎に異なる多様な環境において,様々な機器やサービスが提供されます.よって,ユーザにとって学習コストが低く操作しやすいユーザインタフェースが求められています.音声によって機器やサービスを操作する音声インタフェースは,従来のリモコンや操作パネル等に比べて学習コストが低く手軽なため,HNSの操作インタフェースとして有望な技術のひとつです.我々の研究室でも実際のHNS上に混合主導型音声インタフェースを構築しています.

problems.png

しかし,従来の音声インタフェースには実用化にあたって以下の2つの問題があります.

  1. 接話マイクの利用が前提となっている
    日常生活の中でヘッドセッド等を装着することはユーザにとって負担となります.
  2. システムからのフィードバックが音声のみ
    システムとの対話が機械的で煩雑なものになってしまいます.また情報量が多くなるとフィードバック音声が長大化してしまいます.

よって,マイクの存在を意識させず,音声以外の情報も使ったマルチモーダルなインタフェースが求められています.

キーアイデア

micarray.png

1つ目の問題点に対して,マイクアレイネットワークという手法に着目しました.マイクアレイネットワークとは,複数のマイクを敷き詰めたマイクアレイをネットワークで接続し,協調動作させるシステムです.マイクアレイを天井に設置することで,ユーザはHNSに対して部屋のどこからでもマイクを意識せずに音声を入力できます.
※マイクアレイネットワークは神戸大学大学院システム情報学研究科情報科学専攻アーキテクチャ研究室で提案された技術です.

agent.png

2つ目の問題点に対しては,バーチャルエージェントを導入することで対応します.バーチャルエージェントを用いた対話形式のインタフェースは,親近感や対話の現実感から次世代のユーザインタフェースとして有力視されています.ユーザはエージェントに話しかける形式で家電機器を操作できます.本研究では,MMDAgentというオープンソースの音声対話システム構築用ツールキットを使用しています.MMDAgentは3DCGムービー作成ツールMikuMikuDanceと高い互換性があり,ネット上に公開されている様々なMMD用3Dモデルを使ってバーチャルエージェントを実装することができます.

実装

overview.png

  1. ユーザの音声を4つの4chマイクアレイで集音します.
  2. PC上で16chの音声を1chに集約し,音声認識を行います.音声処理はMatlab,音声認識はJuliusで行います.
  3. 認識結果に応じてバーチャルエージェントが返答します.ここでMMDAgentはソケット通信プラグインを利用してWebサービス化されており,WebサービスのURLにREST形式でアクセスするだけで遠隔操作ができるようになっています.
  4. バーチャルエージェントがWebサービス経由で家電機器を動作させます.

デモ動画

評価

音声認識率

experiment.png

被験者5人が図に示す研究室内の10箇所で音声コマンド18語を発話し,それぞれの音声認識率を測定しました.発話箇所1~5では雑音源としてテレビをつけた場合の認識率も測定しました.

result.png

マイクアレイから約半径2mでは80%前後,半径5mでは70%前後の認識率を確認しました.テレビをつけた場合は認識率が5~10%低下しました.今後は,マイクアレイ部分のより詳しい性能評価や,マイク配置を変えた時の性能比較が課題となります.

バーチャルエージェントの効果

demo.png

被験者6人に提案システムを自由に使ってもらいました.被験者に行ったアンケートより,バーチャルエージェントの導入に関して以下の意見が得られました.

良かった点からは,バーチャルエージェントがシステムとの対話を円滑にしていることがわかりました.改善点からは,エージェントの振る舞いに満足していないことがわかりました.家電操作以外の日常会話等も含め,より自然な対話パターンへの拡張が必要となります.

発表文献


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS