暗黙的なユーザ要求を抽出・推定するホームネットワークのための対話型音声インターフェース†
多様なネットワーク家電やセンサ機器が数多く接続されているホームネットワークシステム(HNS)では,従来の家電で用いられてきた専用リモコンに代わる,新しい操作法が求められています.音声による機器制御を実現する音声インターフェースはその中の一つです.特に混合主導型音声対話システムは,ユーザの学習コスト削減などのメリットから,今後の普及が期待されています.
混合主導型対話システムに対する慣れ発生による問題点†
混合主導型対話用いた音声インターフェースには,機器操作に慣れていないユーザでも簡単に利用できるといった利点がある一方で,機器操作に慣れたユーザにとっては必ずしも使いやすいものとは言い難いです.例えば,ある機器を運転させる場合,音声インターフェースの起動,機器の選択,操作の選択などの発話に対して,システムからのフィードバック(対話) が発生します.結果として,機器を操作するまでに数秒から数十秒の長さが必要となるため,対話行為そのものがユーザの煩わしさに繋がるかもしれません.
目的とアプローチ†
上記の問題点を解消するために,音声インターフェースによる機器操作への慣れの効果を
経験的に評価することを目的としたHNSのための対話型音声インターフェースを提案します.
その慣れを評価するために,以下に示す3つのメトリクスを提案します.
- M1 : システム発話時間
- M2 : サポートコマンド発話回数
- M3 : 操作ミス回数
M1 : システム発話時間†
- 音声対話において費やす時間には3つの時間があります.
- ユーザ発話時間 (T user_speech): ユーザが1つの音声コマンドを発話し始めてから,発話を終えるまでの時間.
- システム処理時間 (T sys_process): ユーザが発話した音声コマンドをシステムが処理し,それを音声合成エンジンに与え,その返り値を得るまでに費やす時間.
- システム発話時間 (T sys_speech): システムの処理が終了し,システムがフィードバックを始めてから,ユーザが次の音声コマンドを発話し始める(システムがユーザの次の音声コマンドを受ける) までの時間.
- 慣れたユーザはフィードバックを最後まで聞き終える前に,次の音声コマンド(上図では「ON」)を発話するためシステム発話時間は短くなります.
- 慣れていないユーザはフィードバックを注意深く聞いてから,次の音声コマンド(上図では「ON」)を発話するため,システム発話時間は長くなるか,変わりません.
従って,システム発話時間はユーザの慣れを検出することができるメトリクスであると考えられます.
発表文献†
- Noriyuki MATSUBARA, Shinsuke MATSUMOTO, and Masahide NAKAMURA, ``Characterizing User Habituation in Interactive Voice Interface – Experience Study on Home Network System,'' In The 13th International Conference on Information Integration and Web-based Applications & Services (iiWAS2011), pp.375-378, December 2011. (Ho Chi Minh City, Vietnam) [PDF]
- Noriyuki MATSUBARA, Shinsuke MATSUMOTO, and Masahide NAKAMURA, ``Evaluating Habituation Effect on Conversational Voice Control in Home Network System,'' In IEICE Technical Report, vol.111, no.107, pp.047-052, June 2011. (Seoul, Korea) [PDF]
[< 戻る]