特許第6562790号(P6562790)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社NTTドコモの特許一覧

<>
  • 特許6562790-対話装置および対話プログラム 図000002
  • 特許6562790-対話装置および対話プログラム 図000003
  • 特許6562790-対話装置および対話プログラム 図000004
  • 特許6562790-対話装置および対話プログラム 図000005
  • 特許6562790-対話装置および対話プログラム 図000006
  • 特許6562790-対話装置および対話プログラム 図000007
  • 特許6562790-対話装置および対話プログラム 図000008
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6562790
(24)【登録日】2019年8月2日
(45)【発行日】2019年8月21日
(54)【発明の名称】対話装置および対話プログラム
(51)【国際特許分類】
   G10L 15/25 20130101AFI20190808BHJP
   G10L 13/00 20060101ALI20190808BHJP
   G10L 15/22 20060101ALI20190808BHJP
   G06F 3/16 20060101ALI20190808BHJP
【FI】
   G10L15/25
   G10L13/00 100M
   G10L15/22 300Z
   G06F3/16 610
   G06F3/16 520
【請求項の数】9
【全頁数】17
(21)【出願番号】特願2015-179495(P2015-179495)
(22)【出願日】2015年9月11日
(65)【公開番号】特開2017-54065(P2017-54065A)
(43)【公開日】2017年3月16日
【審査請求日】2018年2月14日
(73)【特許権者】
【識別番号】392026693
【氏名又は名称】株式会社NTTドコモ
(74)【代理人】
【識別番号】100088155
【弁理士】
【氏名又は名称】長谷川 芳樹
(74)【代理人】
【識別番号】100113435
【弁理士】
【氏名又は名称】黒木 義樹
(74)【代理人】
【識別番号】100121980
【弁理士】
【氏名又は名称】沖山 隆
(74)【代理人】
【識別番号】100128107
【弁理士】
【氏名又は名称】深石 賢治
(72)【発明者】
【氏名】松村 択磨
(72)【発明者】
【氏名】溝口 哲
【審査官】 千本 潤介
(56)【参考文献】
【文献】 特開2004−192653(JP,A)
【文献】 特開2007−121579(JP,A)
【文献】 特開2005−276230(JP,A)
【文献】 特開2002−229592(JP,A)
【文献】 特開2008−126329(JP,A)
【文献】 特開平11−338490(JP,A)
【文献】 特開2014−240856(JP,A)
【文献】 特開2005−122128(JP,A)
【文献】 特開2014−153663(JP,A)
【文献】 特開2000−187499(JP,A)
【文献】 国際公開第2007/069372(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−15/34
G10L 13/00−13/10
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
ユーザとの対話を行うための対話装置であって、
前記ユーザの画像を取得する取得手段と、
前記ユーザとの対話を開始する際または前記ユーザとの対話を終了する際に、前記取得手段によって取得された画像に基づいて、ハンズフリー状態にある前記ユーザとの対話を開始するタイミングまたは前記ユーザとの対話を終了するタイミングを決定する決定手段と、
を備え
前記対話の開始は、前記ユーザの音声を認識する音声認識処理を開始することを含み、前記対話の終了は前記音声認識処理を終了することを含み、
前記決定手段は、前記ユーザの口が所定時間以上継続して閉じられたことを検出し、当該検出のタイミングを、前記ユーザとの対話を終了するタイミングとして決定する、対話装置。
【請求項2】
前記決定手段は、前記ユーザの視線が所定時間以上継続して前記対話装置に向けられたことを検出し、当該検出のタイミングを、前記ユーザとの対話を開始するタイミングとして決定する、
請求項1に記載の対話装置。
【請求項3】
前記決定手段は、前記ユーザの口が開いたタイミングを、前記ユーザとの対話を開始するタイミングとして決定する、
請求項1または2に記載の対話装置。
【請求項4】
前記取得手段は、前記ユーザの音声をさらに取得し、
前記対話装置は、前記対話において前記取得手段が取得した前記ユーザの音声を認識するために実行される音声認識処理を、前記取得手段によって取得された前記ユーザの画像に基づいて、予め定められた複数の音声認識処理から選択する選択手段、をさらに備える、
請求項1〜のいずれか1項に記載の対話装置。
【請求項5】
前記取得手段は、
集音部と、
前記取得手段によって取得された画像に基づき前記ユーザの顔に向けて前記集音部の指向性を調整する調整部と、
を含む、
請求項1〜のいずれか1項に記載の対話装置。
【請求項6】
前記取得手段は、
前記対話装置の周囲画像を撮像する撮像部と、
前記撮像部によって撮像された周囲画像に複数の人物が含まれる場合に、前記複数の人物のうち、前記対話装置に視線を向けている人物を前記ユーザとして特定する特定部と、
をさらに含み、
前記調整部は、前記特定部によって特定された前記ユーザの顔に向けて前記集音部の指向性を調整する、
請求項に記載の対話装置。
【請求項7】
前記取得手段は、
取得した周囲画像に複数の人物が含まれる場合に、前記周囲画像に含まれる顔情報に基づいて、前記複数の人物から前記ユーザを特定する特定部、
をさらに含む、
請求項1〜のいずれか1項に記載の対話装置。
【請求項8】
前記対話において前記取得手段が取得した前記ユーザの音声を認識するために実行される音声認識処理を、前記ユーザによる音声認識処理の利用履歴に基づいて、予め定められた複数の音声認識処理から選択する選択手段、をさらに備える、
請求項1〜のいずれか1項に記載の対話装置。
【請求項9】
ユーザとの対話を行うための対話装置に設けられたコンピュータを、
前記ユーザの画像を取得する取得手段と、
前記ユーザとの対話を開始する際または前記ユーザとの対話を終了する際に、前記取得手段によって取得された画像に基づいて、ハンズフリー状態にある前記ユーザとの対話を開始するタイミングまたは前記ユーザとの対話を終了するタイミングを決定する決定手段、
として機能させるための対話プログラムであって、
前記対話の開始は、前記ユーザの音声を認識する音声認識処理を開始することを含み、前記対話の終了は前記音声認識処理を終了することを含み、
前記決定手段は、前記ユーザの口が所定時間以上継続して閉じられたことを検出し、当該検出のタイミングを、前記ユーザとの対話を終了するタイミングとして決定する、対話プログラム
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザとの対話を行うための対話装置および対話プログラムに関する。
【背景技術】
【0002】
従来より、たとえば特許文献1に記載されているように、ユーザとの対話を行う対話装置が提案されている。ユーザと対話装置との対話は、ユーザがタッチ操作等を行わない状態(以下、「ハンズフリー状態」という)で開始される場合もある。この場合、対話装置は、たとえば、ユーザの音声(発話)が検出されたことに応じて、対話を開始する。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2002−182896号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
対話装置は、ユーザの音声以外の音、たとえばユーザ以外の人物の会話、騒音、およびテレビ音声などの雑音が存在する雑音環境下におかれる場合がある。雑音環境下においては、対話装置が雑音をユーザの音声であると誤認識して対話が開始されてしまう可能性がある。誤認識によって、誤って対話が終了されてしまう可能性もある。
【0005】
本発明は、上記問題点に鑑みてなされたものであり、雑音耐性が向上された対話装置および対話プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の一態様に係る対話装置は、ユーザとの対話を行うための対話装置であって、ユーザの画像を取得する取得手段と、ユーザとの対話を開始する際またはユーザとの対話を終了する際に、取得手段によって取得された画像に基づいて、ハンズフリー状態にあるユーザとの対話を開始するタイミングまたはユーザとの対話を終了するタイミングを決定する決定手段と、を備える。
【0007】
また、本発明の一態様に係るプログラムは、ユーザとの対話を行うための対話装置に設けられたコンピュータを、ユーザの画像を取得する取得手段と、ユーザとの対話を開始する際またはユーザとの対話を終了する際に、取得手段によって取得された画像に基づいて、ハンズフリー状態にあるユーザとの対話を開始するタイミングまたはユーザとの対話を終了するタイミングを決定する決定手段、として機能させる。
【0008】
上記の対話装置またはプログラムによれば、ユーザの画像に基づいて、ユーザとの対話を開始するタイミングまたはユーザとの対話を終了するタイミングが決定される。ユーザの画像に基づけば、ユーザ以外の人物の会話、騒音、およびテレビ音声などの雑音の影響を受けることなく、ユーザとの対話を開始するタイミング等が適切に決定される。したがって、従来のように、ユーザの音声が検出されたことに応じて対話を開始する場合よりも、対話装置の雑音耐性を向上することができる。
【0009】
決定手段は、ユーザの視線が所定時間以上継続して対話装置に向けられたことを検出し、当該検出のタイミングを、ユーザとの対話を開始するタイミングとして決定してもよい。たとえば人間の外形形状を模したロボットの顔の部分に対話装置が搭載されている状況などにおいて、ユーザの視線が所定時間以上継続して対話装置に向けられている場合には、ユーザが対話を開始しようとする意思を有している可能性が高い。このため、上記構成によれば、ユーザとの対話を開始するタイミングを適切に決定することができる。
【0010】
決定手段は、ユーザの口が開いたタイミングを、ユーザとの対話を開始するタイミングとして決定してもよい。ユーザの口が開いた場合には、ユーザが対話を開始する可能性が高い。このため、上記構成によれば、ユーザとの対話を開始するタイミングを適切に決定することができる。
【0011】
決定手段は、ユーザの口が所定時間以上継続して閉じられたことを検出し、当該検出のタイミングを、ユーザとの対話を終了するタイミングとして決定してもよい。ユーザの口が所定時間以上継続して閉じられている場合には、ユーザが対話を終了しようとする意思を有している可能性が高い。このため、上記構成によれば、ユーザとの対話を終了するタイミングを適切に決定することができる。
【0012】
取得手段は、ユーザの音声をさらに取得し、対話装置は、対話において取得手段が取得したユーザの音声を認識するために実行される音声認識処理を、取得手段によって取得されたユーザの画像に基づいて、予め定められた複数の音声認識処理から選択する選択手段、をさらに備えてもよい。これにより、ユーザに応じた適切な音声認識処理が選択され、対話において実行される。その結果、対話におけるユーザの音声の認識精度を向上することができる。
【0013】
取得手段は、集音部と、取得手段によって取得された画像に基づきユーザの顔に向けて集音部の指向性を調整する調整部と、を含んでもよい。これにより、ユーザ以外の人物の会話、騒音、およびテレビ音声などが存在する雑音環境下であっても、ユーザの音声の認識精度を高めることができる。
【0014】
取得手段は、対話装置の周囲画像を撮像する撮像部と、撮像部によって撮像された周囲画像に複数の人物が含まれる場合に、複数の人物のうち、対話装置に視線を向けている人物をユーザとして特定する特定部と、をさらに含み、調整部は、特定部によって特定されたユーザの顔に向けて集音部の指向性を調整してもよい。複数の人物が存在する場合、複数の人物のうちの対話装置に視線を向けている人物が、対話を開始しようとする意思を有しているユーザである可能性が高い。上記構成によれば、そのような対話を開始しようとする意思を有している可能性の高いユーザが特定され、そのユーザの顔に向けて集音部の指向性が調整される。よって、複数の人物が存在する場合であっても、対話の対象となっているユーザの音声の認識精度を高めることができる。
【0015】
あるいは、取得手段は、取得した周囲画像に複数の人物が含まれる場合に、周囲画像に含まれる顔情報に基づいて、複数の人物からユーザを特定する特定部、をさらに含んでもよい。これにより、個人の顔の特徴などの画像認証情報を使用し、対話を開始等しようとしているユーザを特定し、また、利用ユーザを限定することもできる。
【0016】
あるいは、対話装置は、対話において取得手段が取得したユーザの音声を認識するために実行される音声認識処理を、ユーザによる音声認識処理の利用履歴に基づいて、予め定められた複数の音声認識処理から選択する選択手段、をさらに備えてもよい。これにより、ユーザに適した音声認識処理を選択して実行することで、ユーザの音声の認識精度を高めることができる。また、ユーザが手動で言語を選択するといった手間を不要とすることもできる。
【発明の効果】
【0017】
本発明によれば、雑音耐性が向上された対話装置および対話プログラムが提供される。
【図面の簡単な説明】
【0018】
図1】対話装置の機能ブロックを示す図である。
図2】対話装置のハードウェア構成を示す図である。
図3】対話プログラムの構成を示す図である。
図4】対話装置において実行される処理の一例を示す第1のフローチャートである。
図5】対話装置において実行される処理の一例を示す第2のフローチャートである。
図6】対話装置において実行される処理の一例を示す第3のフローチャートである。
図7】変形例に係る対話装置の機能ブロックを示す図である。
【発明を実施するための形態】
【0019】
以下、本発明の実施形態について、図面を参照しながら説明する。なお、図面の説明において同一要素には同一符号を付し、重複する説明は省略する。
【0020】
実施形態に係る対話装置は、ユーザと対話を行う装置である。対話装置は、たとえばスマートフォンのような移動体端末装置、あるいは据え置き型の端末として実現されてもよいし、人間の外形形状を模したロボットとして実現されてもよい。ユーザは、ハンズフリー状態で、対話装置と対話を行うことができる。ハンズフリー状態とは、ユーザが対話装置を操作するための物理的な要素(操作ボタン、タッチパネルなど)に接触していない状態を意味する。ユーザが、上記要素以外のものに接触している場合でも、上記要素に接触していなければ、ハンズフリー状態である。なお、実施形態に係る対話装置は、ユーザがハンズフリー状態である場合に、ユーザとの対話の開始および終了のタイミングを適切に決定するものである。そのため、対話の途中においては、ユーザは必ずしもハンズフリー状態である必要はない。
【0021】
図1は、実施形態に係る対話装置の機能ブロックを示す図である。図1に示されるように、対話装置100は、入力部110と、出力部120と、制御部130と、記憶部140と、通信部150とを含む。
【0022】
入力部110および出力部120は、対話装置100の外部、主にユーザとの間で情報をやり取りするための部分(入出力インタフェース)である。入力部110は、ユーザの音声を含む対話装置100の周囲の音声(以下、単に「周囲音声」という場合もある)の入力を受け付け、また、ユーザを含む対話装置100の周囲の画像、映像(以下、単に「周囲画像」という場合もある)の入力を受け付ける。出力部120は、種々の画像、映像を出力し、また、種々の音声を出力する。
【0023】
具体的に、入力部110は、集音部111と、撮像部112とを含む。集音部111は、周囲音声の入力を受け付ける部分である。集音部111は、たとえばマイクで構成される。集音部111は、たとえば指向性を有するように、複数のマイクが配列されたマイクアレイで構成されてもよい。撮像部112は、周囲画像の入力を受け付ける部分である。撮像部112は、たとえばカメラで構成される。撮像部112は、たとえば撮像対象との距離を把握できるように、複数のカメラで構成されてもよい。なお、入力部110は、たとえば、ユーザが対話装置100を操作するための操作ボタンなどの要素をさらに含んでもよい。
【0024】
出力部120は、発音部121と、表示部122とを含む。発音部121は、音声を出力する部分である。発音部121は、たとえばスピーカで構成される。発音部121は、たとえば指向性を有するように、複数のスピーカが配列されたアレイスピーカで構成されてもよい。表示部122は、画像、映像を出力する部分である。表示部122は、たとえばディスプレイで構成される。ディスプレイはタッチパネルで構成されてもよく、その場合、タッチパネルは、ユーザが対話装置100を操作するための要素としても機能する。
【0025】
制御部130は、対話装置100の各要素を制御することによって、対話装置100の全体制御を行う部分である。制御部130は、取得部131と、決定部132と、音声認識部133と、選択部134と、画像認識部135と、特定部136と、調整部137とを含む。
【0026】
取得部131は、入力部110に入力された周囲音声および周囲画像を取得する部分である。すなわち、取得部131および入力部110(集音部111、撮像部112を含む)は、周囲音声および周囲画像を取得する取得手段として機能する。なお、後述の特定部136も、取得手段の一部を構成し得る。以下、とくに説明がない限り、取得手段を単に取得部131と称してして説明する。
【0027】
決定部132は、ユーザとの対話を開始または終了するタイミングを決定する部分(決定手段)である。とくに決定部132は、取得部131によって取得された周囲音声および周囲画像に基づいて、ハンズフリー状態にあるユーザとの対話を開始または終了するタイミングを決定する。決定部132によるタイミングの決定の詳細については、後述する。
【0028】
音声認識部133は、周囲音声、とくにユーザの音声を認識するための音声認識処理を実行する部分である。音声認識部133は、取得部131によって取得された周囲音声に対して、音声認識処理を実行する。音声認識処理は、たとえば、予め用意された音響モデル、言語モデルを用いた手法を含む、種々の公知の手法によって実現される。言語モデルは、種々の専門分野に対応できるように、専門辞書の言語を含むモデルであってもよい。音響モデル、言語モデルは、複数用意されていてもよい。その場合、音響モデル、言語モデルの組み合わせに対応する複数の音声認識処理が予め用意されており、音声認識部133は、後述の選択部134によって選択された音声認識処理を実行してもよい。
【0029】
選択部134は、複数の音声認識処理が用意されている場合に、音声認識部133が実行すべき音声認識処理を選択する部分(選択手段)である。選択部134は、取得部131によって取得された周囲音声および周囲画像に基づいて、音声認識部133が実行すべき音声認識処理を選択する。
【0030】
たとえば、選択部134は、周囲画像等に基づいて、人物の、とくにユーザの髪の色や顔立ちから人種を推測し、推測した人種のユーザに適した音声認識処理を選択してもよい。たとえば、推定した人種のユーザが使用する言語に対応した音響モデル、言語モデルを組み合わせに対応する音声認識処理が選択される。
【0031】
また、選択部134は、周囲画像等に基づいて、人物の、とくにユーザの性別を推定し、推定した性別のユーザに適した音声認識処理を選択してもよい。性別は音声周波数帯に関連するので、選択部134は、ユーザの音声周波数帯を推定するとも言える。たとえば、推定した性別(音声周波数帯)のユーザに対応した音響モデル、性別に対応した話し言葉(口調、表現)などに対応した言語モデルを組み合わせに対応する音声認識処理が選択される。
【0032】
また、選択部134は、ユーザによる音声認識処理の利用履歴に基づいて、ユーザに適した音声認識処理を選択してもよい。たとえば、過去にユーザが利用した履歴のある音響モデル、言語モデルを組み合わせに対応する音声認識処理が選択される。
【0033】
画像認識部135は、周囲画像、とくにユーザの画像または映像を認識するための部分である。画像認識部135は、取得部131によって取得された周囲画像に対して、画像認識処理を実行する。画像認識処理には、たとえばopenCV(Open Source Computer Vision Library)など、種々の公知の手法によって実現される。
【0034】
特定部136は、周囲画像に複数のユーザが含まれている場合に、対話の対象となるユーザを特定するための部分である。特定部136は、たとえば、撮像部112によって取得された周囲画像、より具体的には周囲画像についての画像認識部135の認識結果に基づいて、複数のユーザのうち、対話装置100に視線を向けているユーザを特定する。
【0035】
調整部137は、集音部111の指向性を調整する部分である。集音部111がマイクアレイで構成される場合には、たとえば位相制御によって指向性が調整される。なお、集音部111が単一のマイクで構成される場合でも、たとえばマイクの向きを物理的に変更することによって指向性が調整され得る。調整部137は、取得部131によって取得された周囲画像、より具体的には画像認識部135の認識結果に基づいて、たとえばユーザの顔に向けて、集音部111の指向性を調整する。ユーザの顔に向けて指向性を調整するとは、ユーザの顔およびその付近で発生した音声が、他の部分で発生した音声よりも集音されやすくなるように、指向性を調整することである。
【0036】
なお、制御部130は、たとえば、対話において、出力部120がユーザに対して出力する種々の情報、たとえば発音部121による音声、表示部122による画像、映像などのデータを生成するための処理も実行し得る。
【0037】
以上説明した構成により、制御部130は、対話装置100がユーザと対話を行うために必要な種々の処理を実行する。制御部130によって実行される処理の詳細については、後に図4から図6を参照して改めて説明する。
【0038】
記憶部140は、制御部130によって実行される処理に必要な種々の情報を記憶する部分である。記憶部140は、たとえば、前述の音響モデル、言語モデル、利用履歴を記憶する。また、記憶部140は、対話装置100がユーザと対話を行うために必要な処理を対話装置100に実行させるためのプログラム(対話プログラム)を記憶する。
【0039】
また、記憶部140は、対話装置100を利用することが許可されているユーザ(利用ユーザ)のデータ(ユーザデータ)を記憶する。ユーザデータは、利用ユーザの特徴データを含んでよい。特徴データは、たとえば、利用ユーザの顔に関する特徴を示すデータであってもよいし、利用ユーザの音声に関する特徴を示すデータであってもよい。また、ユーザデータは、ユーザの人種を推測したり、ユーザの性別を推測したりするために必要なデータを含んでもよい。この場合のユーザデータは、たとえば、人種と、髪の色、顔立ちなどとを対応づけたデータであってもよいし、性別と、髪の色、顔立ちなどとを対応づけたデータなどであってよい。
【0040】
通信部150は、対話装置100の外部と通信を行う部分である。通信部150によって、たとえば、上述の、音響モデル、言語モデル、対話プログラム、ユーザデータなどが追加して取得され、あるいは、更新され得る。
【0041】
ここで、図2を参照して、対話装置100のハードウェア構成について説明する。図2に示されるように、対話装置100は、物理的には、1または複数のCPU(Central Processing Unit)21、RAM(Random Access Memory)22およびROM(Read Only Memory)23、カメラなどの撮像装置24、データ送受信デバイスである通信モジュール26、半導体メモリなどの補助記憶装置27、操作盤(操作ボタンを含む)やタッチパネルなどのユーザ操作の入力を受け付ける入力装置28、ディスプレイなどの出力装置29、ならびにCD−ROMドライブ装置などの読み取り装置2Aを備えるコンピュータとして構成され得る。図1における対話装置100の機能は、たとえば、CD−ROMなどの記憶媒体Mに記憶された1または複数のプログラムを読み取り装置2Aにより読み取ってRAM22などのハードウェア上に取り込むことにより、CPU21の制御のもとで撮像装置24、通信モジュール26、入力装置28、出力装置29を動作させるとともに、RAM22および補助記憶装置27におけるデータの読み出しおよび書き込みを行うことで実現される。
【0042】
また、図3には、コンピュータを対話装置100として機能させるための対話プログラムのモジュールが示される。図3に示されるように、対話プログラムP100は、取得モジュールP101、決定モジュールP102、音声認識モジュールP103、選択モジュールP104、画像認識モジュールP105、特定モジュールP106および調整モジュールP107を備えている。各モジュールによって、先に図1を参照して説明した、取得部131、決定部132、音声認識部133、選択部134、画像認識部135、特定部136および調整部137の機能が実現される。
【0043】
対話プログラムは、たとえば記憶媒体に格納されて提供される。記憶媒体は、フレキシブルディスク、CD−ROM、USBメモリ、DVD、半導体メモリなどであってよい。
【0044】
次に、図4から図6を用いて、対話装置100の動作(対話装置100によって実行される対話方法)について説明する。
【0045】
図4および図5は、対話装置100において実行される処理の一例を示すフローチャートである。このフローチャートの処理は、対話装置100がユーザとの対話を開始する際、あるいは終了する際に実行される。前提として、ユーザは、少なくとも対話の開始時または終了時には、ハンズフリー状態にあるものとする。なお、とくに説明がない場合、各処理は、制御部130によって(つまり制御部130に含まれるいずれの要素かを問わず)実行され得る。
【0046】
まず、対話装置100は、発話中ユーザリストを作成する(ステップS1)。発話中ユーザリストは、このフローチャートの処理において、対話装置100と対話をするための発話を行っているユーザのリストである。発話中ユーザリストは、たとえば記憶部140に記憶されてよい。なお、ステップS1において発話中ユーザリストが作成された時点では、発話中ユーザリストにはユーザは含まれておらず、後述のステップS37において、発話中ユーザリストにユーザが追加される。フローチャートの処理はループするので、2回目以降のフローにおいては、発話中ユーザリストには、ユーザが含まれ得る。
【0047】
次に、対話装置100は、顔検出により、人数nを決定する(ステップS2)。たとえば画像認識部135が、取得部131によって取得された周囲画像を認識する。そして、たとえば特定部136が、周囲画像に含まれる人物の顔を検出するとともに、検出した顔の数を、人数nとして決定する。
【0048】
次のステップS3〜S7において、対話装置100は、n人の人物のそれぞれの視線を特定する。具体的に、対話装置100は、変数iの初期値を0とし(ステップS3)、iを1ずつ増加させながら(ステップS6)、iがn以上になるまでの間(ステップS7:NO)、i番目のユーザについて、以下のステップS4およびステップS5の処理を繰り返し実行する。
【0049】
すなわち、対話装置100は、顔の認識により、個人を特定し(ステップS4)、視線の認識により、見ている方向を特定する(ステップS5)。具体的に、特定部136が、画像認識部135の認識結果に基づいて、周囲画像中の人物を特定し、特定した人物(個人)の視線の方向を特定する。
【0050】
n人の人物のそれぞれについて上記ステップS4およびステップS5の処理が完了した後(ステップS7:YES)、対話装置100は、ステップS8に処理を進める。
【0051】
ステップS8において、対話装置100は、発話ユーザリストに顔認証されていないユーザがいるか否かを判断する。たとえば、先のステップS4で特定した人物以外の人物が発話ユーザリストに含まれる場合には、発話ユーザリストに顔認証されていないユーザがいると判断されてよい。発話ユーザリストに顔認証されていないユーザがいる場合(ステップS8:YES)、対話装置100は、ステップS9に処理を進める。そうでない場合(ステップS8:NO)、対話装置100は、ステップS10に処理を進める。
【0052】
ステップS9において、対話装置100は、発話中ユーザリストから削除し、音声認識を終了する(ステップS9)。具体的に、先のステップS8において発話ユーザリストに顔認証されていないユーザであると判断されたユーザが、発話中ユーザリストから削除される。また、音声認識部133が、音声認識処理を終了する。なお、ステップS9の処理は、ステップS8において発話中ユーザリストに顔認証されていないユーザがいる場合に実行される処理である。そのため、ステップS9の処理は、後述のステップS37において、発話ユーザリストにユーザが追加され、音声認識処理が開始された後、フローチャートの処理がループして再びステップS8に至った場合に実行され得る処理である。
【0053】
次のステップS10〜S24において、対話装置100は、n人の人物のうちの発話ユーザの数を特定する。発話ユーザは、対話装置100との対話を開始するために音声を発したと考えられるユーザである。具体的に、対話装置100は、変数jおよび変数mの初期値を0とし(ステップS10,S11)、jを1ずつ増加させながら(ステップS23)、jがn以上になるまでの間(ステップS24:NO)、j番目のユーザについて、以下のステップS12〜S22の処理を繰り返し実行する。
【0054】
すなわち、まず、対話装置100は、発話中ユーザリストに存在するユーザであるか否かを判断する(ステップS12)。たとえば、j番目の人物が発話中ユーザリストに含まれる場合には、発話中ユーザリストに存在するユーザであると判断されてよい。発話中ユーザリストに存在するユーザである場合(ステップS12:YES)、対話装置100は、ステップS13に処理を進める。そうでない場合(ステップS12:NO)、対話装置100は、ステップS15に処理を進める。
【0055】
ステップS13において、対話装置100は、口が閉じ続けているか否かを判断する。この処理は、たとえば決定部132が、画像認識部135の認識結果に基づいて実行する。たとえば人物の口が閉じた状態が、所定時間以上継続している場合に、口が閉じ続けていると判断されてよい。口が閉じ続けている場合(ステップS13:YES)、対話装置100は、ステップS14に処理を進める。そうでない場合(ステップS13:NO)、対話装置100は、ステップS20に処理を進める。
【0056】
ステップS14において、対話装置100は、発話中ユーザリストから削除し、音声認識を終了する(ステップS14)。具体的に、j番目の人物が、発話中ユーザリストから削除される。また、音声認識部133が、音声認識を終了する。これにより、そのユーザとの対話が終了する。ステップS14の処理が完了した後、対話装置100は、ステップS23に処理を進める。
【0057】
ステップS15において、対話装置100は、視線が所定の方向を向いているか否かを判断する。この処理は、たとえば決定部132あるいは特定部136が、先に説明したステップS5において特定された視線の方向に基づいて実行する。所定の方向は、対話装置100に向かう方向であってよい。たとえば視線の方向が所定時間以上継続して対話装置100に向けられていた場合に、人物の視線の方向が所定の方向であると判断されてよい。所定時間は、数秒程度であってよい。視線が所定の方向を向いている場合(ステップS15:YES)、対話装置100は、ステップS16に処理を進める。そうでない場合(ステップS15:NO)、対話装置100は、人物が発話意思の無いユーザであると判定し(ステップS17)、ステップS23に処理を進める。
【0058】
ステップS16において、対話装置100は、人物が利用許可ユーザであるか否かを判断する。たとえば決定部132あるいは特定部136が、画像認識部135の認識結果と記憶部140に記憶されたユーザデータとを照合することによって、ユーザが利用ユーザであるか否かを判断する。人物が利用許可ユーザである場合(ステップS16:YES)、対話装置100は、ステップS18に処理を進める。そうでない場合(ステップS16:NO)、対話装置100は、人物は非許可ユーザであると判定し(ステップS19)、ステップS23に処理を進める。
【0059】
ステップS18において、対話装置100は、口が動き始めたか否かを判断する。この処理は、たとえば決定部132が、画像認識部135の認識結果に基づいて実行する。たとえば人物の口が閉じた状態から開いた状態に変化した場合に、人物の口が動き始めたと判断されてよい。口が動き始めた場合(ステップS18:YES)、より具体的には、人物の視線が所定の方向を向いており(ステップS15:YES)、人物が利用許可ユーザであり(ステップS16:YES)、人物の口が動き始めた場合(ステップS18:YES)、対話装置100は、人物が発話ユーザであると判断し(ステップS20)、変数mを1だけ増加させ(ステップS21)、ステップS23に処理を進める。すなわち、変数mは、発話ユーザの数を示す値とされる。一方、人物の口が動き始めていない場合(ステップS18:NO)、対話装置100は、ステップS22に処理を進める。
【0060】
ステップS22において、対話装置100は、音声による発話が検知されたか否かを判断する(ステップS22)。この処理は、たとえば、集音部111、取得部131および音声認識部133の機能を用いて、従来の対話装置と同様に実行される。音声による発話が検知された場合(ステップS22:YES)、対話装置100は、先に説明したステップS20に処理を進める。そうでない場合(ステップS22:NO)、対話装置100は、ステップS23に処理を進める。
【0061】
n人の人物のそれぞれについて上記ステップS12〜S22の処理が完了した後(ステップS24:YES)、対話装置100は、対話開始処理を実行する(ステップS25)。
【0062】
図6は、対話開始処理(図5のステップS25)において実行される処理の一例を示すフローチャートである。
【0063】
次のステップS31〜S39において、対話装置100は、m人の発話ユーザのそれぞれについて、マイク調整、および、音響モデル、言語モデルの最適化を行ったうえで音声認識等を行う。具体的に、対話装置100は、変数kの初期値を0とし(ステップS31)、kを1ずつ増加させながら(ステップS38)、kがm以上になるまでの間(ステップS39:NO)、k番目の発話ユーザについて、以下のステップS32〜S37の処理を実行する。
【0064】
すなわち、まず、対話装置100は、映像(または画像)の顔位置より、マイク方向を導出し(ステップS32)、マイク方向を制御する(ステップS33)。具体的に、調整部137が、画像認識部135の認識結果に基づいて、発話ユーザの顔に向けて集音部111の指向性を調整する。なお、集音部111がマイクアレイの場合は、全ての発話ユーザの方向のそれぞれに指向性を調整し、全ての発話ユーザの音声を同時に認識できるようにしてもよい。また、集音部111が単一のマイクの場合には、たとえば最初のループ(k=0)における発話ユーザに対してマイクの指向性を調整するとよい。
【0065】
次に、対話装置100は、ユーザ状態は既に発話中であるか否かを判断する(ステップS34)。たとえば、前のループでステップS37において音声認識が開始されており、かつ、音声による発話が検知されている場合には、ユーザ状態は既に発話中であると判断されてよい。ユーザ状態が既に発話中である場合(ステップS34:YES)、対話装置100は、音声認識を継続し(ステップS35)、ステップS38に処理を進める。そうでない場合(ステップS34:NO)、対話装置100は、ステップS36に処理を進める。
【0066】
ステップS36において、対話装置100は、ユーザデータを読み出し、音響モデル、言語モデルを決定する。具体的に、選択部134が、先のステップS4(図4)において認識されたユーザの画像(顔の画像)と、記憶部140に記憶されたユーザデータとを照合することによって、発話ユーザに適した音響モデル、言語モデルを決定する。選択部134は、記憶部140に記憶された利用履歴に基づいて、発話ユーザに適した音響モデル、言語モデルを決定してもよい。
【0067】
そして、対話装置100は、発話中ユーザリストに追加し、音声認識を開始する(ステップS37)。具体的に、k番目の発話ユーザが、発話ユーザリストに追加される。また、音声認識部133が、音声認識処理を開始する。なお、その後、ステップS38の処理を経て、kがm以上になると(ステップS39:YES)、対話装置100は、ステップS2(図4)に再び処理を戻す。
【0068】
次に、対話装置100の作用効果について説明する。対話装置100によれば、ユーザの画像(または映像)に基づいて、ユーザとの対話を開始または終了するタイミングが決定される。ユーザの画像に基づけば、ユーザ以外の人物の会話、騒音、およびテレビ音声などの雑音の影響を受けることなく、ユーザとの対話を開始するタイミング等が適切に決定される。したがって、従来のように、ユーザの音声が検出されたことに応じて対話を開始する場合よりも、対話装置の雑音耐性を向上することができる。
【0069】
具体的に、決定部132が、ユーザの視線が所定時間以上継続して対話装置100に向けられたことを検出し(ステップS15:YES)、当該検出のタイミングを、ユーザとの対話を開始するタイミングとして決定する(ステップS25)。ユーザの視線が所定時間以上継続して対話装置100に向けられている場合には、ユーザが対話を開始しようとする意思を有している可能性が高い。このため、決定部132の上記処理によれば、ユーザとの対話を開始するタイミングを適切に決定することができる。
【0070】
また、決定部132が、ユーザの口が開いたタイミングを、ユーザとの対話を開始するタイミングとして決定する(ステップS18:YES、ステップS25)。ユーザの口が開いた場合には、ユーザが対話を開始する可能性が高い。このため、決定部132の上記処理によれば、ユーザとの対話を開始するタイミングを適切に決定することができる。
【0071】
また、決定部132が、ユーザの口が所定時間以上継続して閉じられたことを検出し、当該検出のタイミングを、ユーザとの対話を終了するタイミングとして決定する(ステップS13:YES、ステップS14)。ユーザの口が所定時間以上継続して閉じられている場合には、ユーザが対話を終了しようとする意思を有している可能性が高い。このため、決定部132の上記処理によれば、ユーザとの対話を終了するタイミングを適切に決定することができる。
【0072】
また、選択部134が、対話においてユーザの音声を認識するために実行される音声認識処理を、取得部131によって取得されたユーザの画像または映像に基づいて、予め定められた複数の音声認識処理から選択する(ステップS36)。これにより、ユーザに応じた適切な音声認識処理が選択され、対話において実行される。その結果、対話におけるユーザの音声の認識精度を向上することができる。
【0073】
たとえば、選択部134は、ユーザの人種を推測し、推測した人種のユーザに適した音声認識処理を選択する。これにより、ユーザの人種に応じた適切な音声認識処理が選択される。たとえば、推定した人種のユーザが使用する言語に対応した音響モデル、言語モデルを組み合わせに対応する音声認識処理を選択することで、音声認識の精度を向上させることができる。また、ユーザが手動で言語を選択するといった手間も不要とすることができる。
【0074】
たとえば、選択部134は、ユーザの性別を推定し、推定した性別のユーザに適した音声認識処理を選択する。性別は、たとえば音声周波数帯に関連するので、推定した性別のユーザの音声周波数帯に適した音響モデルを用いた音声認識処理を選択することで、音声認識の精度を向上させることができる。また、推定した性別に対応した話し言葉(口調、表現)などに対応した言語モデルを用いた音声認識処理を選択することで、音声認識の精度を向上させることができる。もちろん、上記音響モデルおよび言語モデルを組み合わせに対応する音声認識処理を選択することで、音声認識の精度をさらに向上させることもできる。
【0075】
また、調整部137が、ユーザの顔に向けて集音部111の指向性を調整する(ステップS32,S33)。これにより、ユーザ以外の人物の会話、騒音、およびテレビ音声などが存在する雑音環境下であっても、ユーザの音声の認識精度を高めることができる。
【0076】
また、特定部136は、撮像部112によって撮像された周囲画像に複数の人物が含まれる場合に、複数の人物のうち、対話装置100に視線を向けている人物をユーザとして特定する(ステップS15:YES、ステップS20)。そして、調整部137は、特定部136によって特定されたユーザの顔に向けて集音部111の指向性を調整する(ステップS32,S33)。複数の人物が存在する場合、複数の人物のうちの対話装置100に視線を向けている人物が、対話を開始しようとする意思を有しているユーザである可能性が高い。特定部136および調整部137の上記処理によれば、そのような対話を開始しようとする意思を有している可能性の高いユーザが特定され、そのユーザの顔に向けて集音部の指向性が調整される。よって、複数の人物が存在する場合であっても、対話の対象となっているユーザの音声の認識精度を高めることができる。
【0077】
また、特定部136は、周囲画像に含まれるユーザの顔、あるいは、周囲音声に含まれるユーザの音声と、記憶部140に記憶されたユーザデータとを照合することによって、利用ユーザを特定する(ステップS16:YES)。これにより、個人の顔の特徴などの画像認証情報を使用し、発話ユーザを特定することができる(ステップS16:YES、ステップS20,S21)。
【0078】
なお、顔の特徴などに基づく認証に代えて、虹彩認識が用いられてもよい。その場合、視線を特定するための処理(ステップS15)を省略してもよい。
【0079】
また、選択部134は、記憶部140に記憶された履歴情報を参照し、利用履歴のある音響モデル、言語モデルを選択することで、ユーザに適した音響モデル、言語モデルを組み合わせに対応する音声認識処理を選択する(ステップS36)。これによっても、ユーザの音声の認識精度を高めることができる。また、ユーザが手動で言語を選択するといった手間を不要とすることもできる。
【0080】
以上説明した対話装置100の各機能は、たとえば、コンピュータにおいて対話プログラムが実行されることによって実現することもできる。
【0081】
以上、本発明の一実施形態について説明したが、本発明は、上記実施形態に限定されるものではない。
【0082】
図7は、変形例に係る対話装置の機能ブロックを示す図である。対話装置100Aは、サーバ200との協働により、ユーザとの対話を行う対話システム1を構成する。この変形例では、対話システム1が本発明に係る対話装置に相当する。
【0083】
図7に示されるように、サーバ200は、制御部230と、記憶部240と、通信部250とを含む。
【0084】
制御部230は、取得部231、決定部232、音声認識部233、選択部234、画像認識部235、特定部236および調整部237を含む。これらの各要素は、先に図1を参照して説明した取得部131、決定部132、音声認識部133、選択部134、画像認識部135、特定部136および調整部137と同様の機能を有する。
【0085】
記憶部240は、先に図1を参照して説明した記憶部140と同様の機能を有する。すなわち、記憶部240は、制御部230によって実行される処理に必要な種々の情報を記憶する部分であり、たとえば音響モデル、言語モデル、対話プログラム、ユーザデータ、利用履歴を記憶する。
【0086】
通信部250は、対話装置100Aの通信部150と通信する部分である。通信部250によって、対話装置100Aとサーバ200とが通信可能となる。
【0087】
以上の構成により、対話システム1は、対話装置100Aと、サーバ200との協働により、ユーザとの対話を可能とする。すなわち、対話システム1では、対話装置100(図1)においてユーザとの対話を行うために実行される処理の一部(とくに制御部130によって実行される処理)が、サーバ200によって実行される。したがって、対話装置100Aによれば、対話装置100よりも、対話装置における処理負担を軽減することができる。
【0088】
具体的に、対話装置100Aは、対話装置100と比較して、制御部130および記憶部140に代えて、制御部130A、記憶部140Aを含む構成とすることができる。
【0089】
制御部130Aは、対話装置100Aの全体制御を行う部分である。ただし、制御部130Aは、制御部130と比較して、取得部131、決定部132、音声認識部133、選択部134、画像認識部135、特定部136、調整部137を含むことが必須でなく、それによって、制御部130Aの構成は、制御部130よりも簡素化することができる。
【0090】
記憶部140Aは、制御部130Aによって実行される処理に必要な種々の情報を記憶する部分であるが、サーバ200の記憶部240と重複するデータの記憶は、記憶部140Aにおいては必須ではない。その分、記憶部140Aの記憶容量を、記憶部140の記憶容量よりも小さくするなどして、構成を簡素化することができる。
【符号の説明】
【0091】
100,100A…対話装置、110…入力部(取得手段)、111…集音部(取得手段)、112…撮像部(取得手段)、120…出力部、121…発音部、122…表示部、130,130A,230…制御部、131,231…取得部(取得手段)、132,232…決定部(決定手段)、133,233…音声認識部、134,234…選択部(選択手段)、135,235…画像認識部、136,236…特定部(取得手段)、137,237…調整部、140,140A,240…記憶部、150…通信部、200…サーバ。
図1
図2
図3
図4
図5
図6
図7