マイクアレイネットワークとバーチャルエージェントを用いたHNS向けハンズフリー音声インタフェース

背景

hns.png

ホームネットワークシステム(HNS)では,家毎に異なる多様な環境において,様々な機器やサービスが提供されます.よって,ユーザにとって学習コストが低く操作しやすいユーザインタフェースが求められています.音声によって機器やサービスを操作する音声インタフェースは,従来のリモコンや操作パネル等に比べて学習コストが低く手軽なため,HNSの操作インタフェースとして有望な技術のひとつです.我々の研究室でも実際のHNS上に混合主導型音声インタフェースを構築しています.

problems.png

しかし,従来の音声インタフェースには実用化にあたって以下の2つの問題があります.

  1. 接話マイクの利用が前提となっている
    日常生活の中でヘッドセッド等を装着することはユーザにとって負担となります.
  2. システムからのフィードバックが音声のみ
    システムとの対話が機械的で煩雑なものになってしまいます.また,情報量が多くなるとフィードバック音声が長大化してしまいます.

よって,マイクの存在を意識させず,音声以外の情報も使ったマルチモーダルなインタフェースが求められています.

キーアイデア

micarray.png

1つ目の問題点に対して,マイクアレイネットワークという手法に着目しました.マイクアレイネットワークとは,複数のマイクを敷き詰めたマイクアレイをネットワークで接続し,協調動作させるシステムです.マイクアレイを天井に設置することで,ユーザはHNSに対して部屋のどこからでもマイクを意識せずに音声を入力できます.
※マイクアレイネットワークは神戸大学大学院システム情報学研究科情報科学専攻アーキテクチャ研究室で提案された技術です.

agent.png

2つ目の問題点に対しては,バーチャルエージェントを導入することで対応します.バーチャルエージェントを用いた対話形式のインタフェースは,親近感や対話の現実感から次世代のユーザインタフェースとして有力視されています.ユーザはエージェントに話しかける形式で家電機器を操作できます.本研究では,MMDAgentというオープンソースの音声対話システム構築用ツールキットを使用しています.MMDAgentは3DCGムービー作成ツールMikuMikuDanceと高い互換性があり,ネット上に公開されている様々なMMD用3Dモデルを使ってバーチャルエージェントを実装することができます.

実装

overview.png

  1. ユーザの音声を4つの4chマイクアレイで集音します.
  2. PC上で16chの音声を1chに集約し,音声認識を行います.音声処理はMatlab,音声認識はJuliusで行います.
  3. 認識結果に応じてバーチャルエージェントが返答します.ここでMMDAgentはソケット通信プラグインを利用してWebサービス化されており,WebサービスのURLにREST形式でアクセスするだけで遠隔操作ができるようになっています.
  4. バーチャルエージェントがWebサービス経由で家電機器を動作させます.

デモ動画

評価

音声認識率

experiment.png

被験者5人が図に示す研究室内の10箇所で音声コマンド18語を発話し,それぞれの音声認識率を測定しました.発話箇所1~5では雑音源としてテレビをつけた場合の認識率も測定しました.

result.png

マイクアレイから約半径2mでは80%前後,半径5mでは70%前後の認識率を確認しました.テレビをつけた場合は認識率が5~10%低下しました.今後は,マイクアレイ部分のより詳しい性能評価や,マイク配置を変えた時の性能比較が課題となります.

バーチャルエージェントの効果

demo.png

被験者6人に提案システムを自由に使ってもらいました.被験者に行ったアンケートより,バーチャルエージェントの導入に関して以下の意見が得られました.

  • よかった点
    • 家電機器に話しかけることに対する抵抗が減った.
    • コマンドを入力するタイミングがわかり易かった.
    • システムのレスポンスがすぐにわかった.
  • 改善点
    • エージェントの動きのバリエーションを増やしてほしい
    • 家電の使い方説明等,電源のON/OFF以外の操作もしたい.

良かった点からは,バーチャルエージェントがシステムとの対話を円滑にしていることがわかりました.改善点からは,エージェントの振る舞いに満足していないことがわかりました.家電操作以外の日常会話等も含め,より自然な対話パターンへの拡張が必要となります.

発表文献

  • Shimpei Soda, Masahide Nakamura, Shinsuke Matsumoto, Shintaro Izumi, Hiroshi Kawaguchi, and Masahiko Yoshimoto, ``Implementing Virtual Agent as an Interface for Smart Home Voice Control'', In Asia-Pacific Software Engineering Conference (APSEC2012), pp.342-345, December 2012.
  • Shimpei Soda, Masahide Nakamura, Shinsuke Matsumoto, Shintaro Izumi, Hiroshi Kawaguchi, and Masahiko Yoshimoto, ``Handsfree Voice Interface for Home Network Service Using a Microphone Array Network'', In The Third International Conference on Networking and Computing (ICNC2012), pp.195-200, December 2012.
  • Koji Kugata, Shimpei Soda, Yohei Nakata, Shunsuke Okumura, Shintaro Izumi, Masahiko Yoshimoto, and Hiroshi Kawaguchi, ``Processor Coupling Architecture for Aggressive Voltage Scaling on Multicores'', In ARCS Workshops 2012, pp. 375-384, Mar. 2012.
  • Shintaro Izumi, Hiroki Noguchi, Tomoya Takagi, Koji Kugata, Shimpei Soda, Masahiko Yoshimoto, and Hiroshi Kawaguchi, ``Data Aggregation Protocol for Multiple Sound Sources Acquisition with Microphone Array Network'', In The 20th International Conference on Computer Communications and Networks (ICCCN), Jul. 2011.
  • Shimpei Soda, Koji Kugata, Tomoya Takagi, Hiroki Noguchi, Shintaro Izumi, Masahiko Yoshimoto, Hiroshi Kawaguchi , ``Positioning System for Mobile Terminals Using a Microphone Array Network as an Intuitive Interface``, In The Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays(HSCMA), May. 2011.
  • Shimpei Soda, Masahide Nakamura, Shinsuke Matsumoto, Shintaro Izumi, Hiroshi Kawaguchi, and Masahiko Yoshimoto, ``Introducing Multiple Microphone Arrays for Enhancing Smart Home Voice Control,'' In 電子情報通信学会技術研究報告, vol.112, no.388, pp.19-24, January 2013.
  • 祖田心平, 中村匡秀, まつ本真佑, 松原典行, 久賀田耕史, 和泉慎太郎, 川口博, 吉本雅彦, ``マイクアレイネットワークを用いたホームネットワークサービス向けハンズフリー音声インタフェース'', 電子情報通信学会技術研究報告, vol.111, no.481, pp.73-78, March 2012.
  • 祖田心平, まつ本真佑, 中村匡秀, 和泉慎太郎, 川口博, 吉本雅彦, ``マイクアレイネットワークを用いた宅内サービス実現可能性の検討,'' 電子情報通信学会技術研究報告, vol.111, no.255, pp.61-66, October 2011.
  • 和泉慎太郎, 野口紘希, 高木智也, 久賀田耕史, 祖田心平, 吉本雅彦, , 川口博, ``ネットワーク型マイクロホンアレイ間のデータ集約による音声信号ビームフォーミング'', 電子情報通信学会 CEATEC JAPAN 2010 連携企画研究報告(Digital Harmony を支えるプロセッサとDSP, 画像処理の最先端), pp.95-100, October, 2010.
  • 祖田心平, 久賀田耕史, 高木智也, 和泉慎太郎, 野口紘希, 吉本雅彦, 川口博, ``分散処理を用いた超低消費電力 ネットワーク型マイクロホンアレーの研究'', 日本音響学会2010年秋季研究発表会, pp.585-588, September, 2010.

トップ   編集 凍結 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2024-02-14 (水) 11:29:47