特開2019-220145(P2019-220145A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカの特許一覧

特開2019-220145操作端末、音声入力方法、及びプログラム
<>
  • 特開2019220145-操作端末、音声入力方法、及びプログラム 図000003
  • 特開2019220145-操作端末、音声入力方法、及びプログラム 図000004
  • 特開2019220145-操作端末、音声入力方法、及びプログラム 図000005
  • 特開2019220145-操作端末、音声入力方法、及びプログラム 図000006
  • 特開2019220145-操作端末、音声入力方法、及びプログラム 図000007
  • 特開2019220145-操作端末、音声入力方法、及びプログラム 図000008
  • 特開2019220145-操作端末、音声入力方法、及びプログラム 図000009
  • 特開2019220145-操作端末、音声入力方法、及びプログラム 図000010
  • 特開2019220145-操作端末、音声入力方法、及びプログラム 図000011
  • 特開2019220145-操作端末、音声入力方法、及びプログラム 図000012
  • 特開2019220145-操作端末、音声入力方法、及びプログラム 図000013
  • 特開2019220145-操作端末、音声入力方法、及びプログラム 図000014
  • 特開2019220145-操作端末、音声入力方法、及びプログラム 図000015
  • 特開2019220145-操作端末、音声入力方法、及びプログラム 図000016
  • 特開2019220145-操作端末、音声入力方法、及びプログラム 図000017
  • 特開2019220145-操作端末、音声入力方法、及びプログラム 図000018
  • 特開2019220145-操作端末、音声入力方法、及びプログラム 図000019
  • 特開2019220145-操作端末、音声入力方法、及びプログラム 図000020
  • 特開2019220145-操作端末、音声入力方法、及びプログラム 図000021
  • 特開2019220145-操作端末、音声入力方法、及びプログラム 図000022
  • 特開2019220145-操作端末、音声入力方法、及びプログラム 図000023
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2019-220145(P2019-220145A)
(43)【公開日】2019年12月26日
(54)【発明の名称】操作端末、音声入力方法、及びプログラム
(51)【国際特許分類】
   G06F 3/01 20060101AFI20191129BHJP
   G10L 15/28 20130101ALI20191129BHJP
   G06T 7/20 20170101ALI20191129BHJP
   G06F 3/16 20060101ALI20191129BHJP
【FI】
   G06F3/01 570
   G10L15/28 230K
   G06T7/20 300A
   G06F3/16 520
   G06F3/16 610
   G06F3/16 620
【審査請求】未請求
【請求項の数】26
【出願形態】OL
【全頁数】32
(21)【出願番号】特願2019-42991(P2019-42991)
(22)【出願日】2019年3月8日
(31)【優先権主張番号】特願2018-112671(P2018-112671)
(32)【優先日】2018年6月13日
(33)【優先権主張国】JP
(71)【出願人】
【識別番号】514136668
【氏名又は名称】パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
【氏名又は名称原語表記】Panasonic Intellectual Property Corporation of America
(74)【代理人】
【識別番号】100067828
【弁理士】
【氏名又は名称】小谷 悦司
(74)【代理人】
【識別番号】100115381
【弁理士】
【氏名又は名称】小谷 昌崇
(74)【代理人】
【識別番号】100118049
【弁理士】
【氏名又は名称】西谷 浩治
(72)【発明者】
【氏名】田原 康平
(72)【発明者】
【氏名】太田 雄策
(72)【発明者】
【氏名】杉本 博子
【テーマコード(参考)】
5E555
5L096
【Fターム(参考)】
5E555AA46
5E555AA52
5E555BA38
5E555BB38
5E555BC02
5E555CA42
5E555CA47
5E555CB23
5E555CB64
5E555CB66
5E555CB76
5E555CC01
5E555DA01
5E555DA22
5E555DA23
5E555DB02
5E555DB18
5E555DB41
5E555DC35
5E555DD06
5E555EA05
5E555EA14
5E555EA22
5E555EA23
5E555EA25
5E555FA00
5L096DA01
5L096FA67
5L096FA69
5L096FA76
5L096HA02
(57)【要約】
【課題】ユーザに煩わしさを与えることなく、操作端末を音声入力の受付可能状態にする。
【解決手段】操作端末は、空間を撮像する撮像部と、撮像された空間の情報から、ユーザを検出する人検出部と、ユーザによる発話音声の入力を受け付ける音声入力部と、人検出部によりユーザが検出された場合、所定の手段によって得られた情報に基づいてユーザの上肢に含まれる所定の第一部位の第一座標とユーザの上肢を除く上半身に含まれる所定の第二部位の第二座標とを検出する座標検出部と、第一座標と第二座標との位置関係を比較し、少なくとも一回、位置関係が所定の第一条件を満たした場合、音声入力部を音声入力の受付可能状態とする条件判定部とを備える。
【選択図】図4
【特許請求の範囲】
【請求項1】
ユーザの発話音声によって操作される操作端末であって、
空間を撮像する撮像部と、
撮像された前記空間の情報から、前記ユーザを検出する人検出部と、
前記ユーザによる発話音声の入力を受け付ける音声入力部と、
前記人検出部により前記ユーザが検出された場合、所定の手段によって得られた情報に基づいて前記ユーザの上肢に含まれる所定の第一部位の第一座標と前記ユーザの上肢を除く上半身に含まれる所定の第二部位の第二座標とを検出する座標検出部と、
前記第一座標と前記第二座標との位置関係を比較し、少なくとも一回、前記位置関係が所定の第一条件を満たした場合、前記音声入力部を音声入力の受付可能状態とする条件判定部とを備える、
操作端末。
【請求項2】
前記空間の情報から、前記ユーザの骨格情報を抽出する骨格情報抽出部をさらに備え、
前記所定の手段によって得られた情報は、前記骨格情報である、
請求項1記載の操作端末。
【請求項3】
前記撮像部は、可視光カメラ、赤外線カメラ、TOFセンサ、超音波センサ、又は電波センサである請求項1又は2記載の操作端末。
【請求項4】
前記位置関係は、鉛直方向における、前記第一座標と前記第二座標との位置関係である、
請求項1〜3のいずれかに記載の操作端末。
【請求項5】
前記位置関係は、前記ユーザの体幹軸方向における、前記第一座標と前記第二座標との位置関係である、
請求項1〜3のいずれかに記載の操作端末。
【請求項6】
前記座標検出部は、さらに前記上半身における第三部位の第三座標を検出し、
前記第一条件は、前記第一座標、前記第二座標、及び前記第三座標の成す角度が、所定の閾値を超える、前記所定の閾値を下回る、又は所定の範囲に収まることである、
請求項1〜3のいずれかに記載の操作端末。
【請求項7】
前記第一部位は、前記上肢に含まれる複数の部位を含み、
前記第一座標は、前記複数の部位のいずれか1以上の座標に基づいて決定される、
請求項1〜6のいずれかに記載の操作端末。
【請求項8】
前記第二部位は、前記上肢を除く前記上半身に含まれる複数の部位を含み、
前記第二座標は、前記複数の部位のいずれか1以上の座標に基づいて決定される、
請求項1〜7のいずれかに記載の操作端末。
【請求項9】
前記第一条件は、複数の第二条件を含み、
前記条件判定部は、前記位置関係が、前記複数の第二条件の少なくとも1つ、又は前記複数の第二条件の一部を組み合わせた第三条件を満たす場合に前記受付可能状態にする、
請求項1〜8のいずれか一項に記載の操作端末。
【請求項10】
前記音声入力部が前記受付可能状態にあるか否かを示す情報を出力する表示部又は再生部をさらに備える、
請求項1〜9のいずれかに記載の操作端末。
【請求項11】
前記表示部は、ディスプレイである、
請求項10記載の操作端末。
【請求項12】
前記音声入力部が前記受付可能状態にあるか否かを示す情報は、色、テキスト、又はアイコンである請求項11記載の操作端末。
【請求項13】
前記表示部は、前記音声入力部が前記受付可能状態にあることを示す光を発光する発光装置である、
請求項10に記載の操作端末。
【請求項14】
前記再生部は、前記音声入力部が前記受付可能状態にあるか否かを示す音声を出力する、
請求項10に記載の操作端末。
【請求項15】
前記再生部は、前記音声入力部が前記受付可能状態にあるか否かを示す音を出力する、
請求項10に記載の操作端末。
【請求項16】
前記条件判定部は、前記操作端末と前記ユーザとの距離が所定の第四条件を満たすときにのみ、前記位置関係を比較する、
請求項1から15のいずれかに記載の操作端末。
【請求項17】
前記条件判定部は、前記受付可能状態において無音区間が一定時間続いた場合、前記受付可能状態を終了する、
請求項1〜16のいずれかに記載の操作端末。
【請求項18】
前記条件判定部は、前記受付可能状態において前記位置関係が前記第一条件を満たしている限り、前記受付可能状態を継続する、
請求項1〜17のいずれかに記載の操作端末。
【請求項19】
前記条件判定部は、前記受付可能状態において前記位置関係が前記第一条件を満たさない状態が所定のタイムアウト期間継続した場合、前記受付可能状態を終了する、
請求項1〜18のいずれかに記載の操作端末。
【請求項20】
前記条件判定部は、前記タイムアウト期間において、前記位置関係が前記第一条件を満たすと判定した場合、前記タイムアウト期間を延長する、
請求項19記載の操作端末。
【請求項21】
前記条件判定部は、前記タイムアウト期間の終了時に音声入力が検出されていれば、前記受付可能状態を継続する、
請求項18に記載の操作端末。
【請求項22】
前記条件判定部は、前記位置関係が前記第一条件とは異なる所定の第五条件を満たした場合、前記受付可能状態を終了する、
請求項1〜21のいずれかに記載の操作端末。
【請求項23】
前記条件判定部は、前記人検出部が複数のユーザを検出した場合、特定の一人を前記操作端末の操作者として認識する、
請求項1〜22のいずれかに記載の操作端末。
【請求項24】
前記操作者は、前記複数のユーザのうち前記操作端末に最も近いユーザである、
請求項23に記載の操作端末。
【請求項25】
ユーザの発話音声によって操作される操作端末における音声入力方法であって、
撮像装置により撮像された空間の情報を取得し、
前記空間の情報から、前記ユーザを検出し、
前記ユーザが検出された場合、所定の手段によって得られた情報に基づいて前記ユーザの上肢に含まれる所定の第一部位の第一座標と前記ユーザの上肢を除く上半身に含まれる所定の第二部位の第二座標とを検出し、
前記第一座標と前記第二座標との位置関係を比較し、少なくとも一回、前記位置関係が所定の第一条件を満たした場合、音声入力部を音声入力の受付可能状態とする、
音声入力方法。
【請求項26】
請求項25記載の音声入力方法をコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、ユーザの発話音声によって操作される操作端末、その操作端末における音声入力方法、及びその音声入力方法をコンピュータに実行させるためのプログラムに関するものである。
【背景技術】
【0002】
ユーザが特定の端末を音声で操作する場合、端末はユーザの音声を収音する必要があるが、その方式は大きく二つに分類される。一つは、ユーザの操作によってユーザの音声入力の開始を判断し、収音を開始する方式である。もう一つは、常時収音を行い、収音された音から音声を抽出する方式である。後者の方式では、常時端末に音声が収集されていると感じてしまうため、ユーザはプライバシーが漏洩するなどの懸念を抱く可能性がある。そのため、前者の方式のようにユーザが音声入力を行いたいという意思を示している場合にのみ音声の収音を行う方式が有効である。
【0003】
また、近年、ユーザのジェスチャーを検出することによってロボットを指示する技術も知られている。例えば、特許文献1には、自然な状態で指示動作をすることができ、かつ精度の高い指示位置検出を行うために、複数のカメラで撮影した画像から、人物の頭部の位置と手先の位置と手の向きとを検出し、これらの検出結果に基づいて人物が指示する方向を検出し、検出した方向から人物が指示する位置を検出する指示位置検出装置が開示されている。
【0004】
特許文献2には、任意の位置で行われる腕を使ったジェスチャーを適切に認識するために、複数の距離画像センサの中から腕を使ったジェスチャーを適切に認識できた距離画像センサを特定し、特定した距離画像センサを利用して認識されたジェスチャーを登録するジェスチャー管理システムが開示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特許第4149213号
【特許文献2】特許第6303918号
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、特許文献1、2では、ユーザに対して空間内の特定の方向に正しく腕を向けるというような煩わしいジェスチャーが要求されており、更なる改善の必要がある。
【0007】
本開示の目的は、ユーザに煩わしさを与えることなく、操作端末を音声入力の受付可能状態にする操作装置などを提供することである。
【課題を解決するための手段】
【0008】
本開示の一態様に係る操作端末は、ユーザの発話音声によって操作される操作端末であって、
空間を撮像する撮像部と、
撮像された前記空間の情報から、前記ユーザを検出する人検出部と、
前記ユーザによる発話音声の入力を受け付ける音声入力部と、
前記人検出部により前記ユーザが検出された場合、所定の手段によって得られた情報に基づいて前記ユーザの上肢に含まれる所定の第一部位の第一座標と前記ユーザの上肢を除く上半身に含まれる所定の第二部位の第二座標とを検出する座標検出部と、
前記第一座標と前記第二座標との位置関係を比較し、少なくとも一回、前記位置関係が所定の第一条件を満たした場合、前記音声入力部を音声入力の受付可能状態とする条件判定部とを備える。
【発明の効果】
【0009】
本開示によれば、ユーザに煩わしさを与えることなく、操作端末を音声入力の受付可能状態にすることができる。
【図面の簡単な説明】
【0010】
図1】本開示の実施の形態1に係る操作端末とユーザとの位置関係の一例を示した図である。
図2】操作端末の外観構成の一例を示した図である。
図3】撮像装置によって計測されるユーザの骨格情報の一例を示す図である。
図4】本開示の実施の形態1に係る操作端末の構成の一例を示すブロック図である。
図5】本開示の実施の形態1に係る開始条件判定部の処理の一例を示すフローチャートである。
図6】本開示の実施の形態における管理部の処理の一例を示すフローチャートである。
図7】開始条件を説明するために、ユーザの骨格情報を例示した図である。
図8】ジェスチャー可能範囲の一例を示す図である。
図9】複数のユーザが操作端末に対してジェスチャーを行う場合を示した図である。
図10】状態通知の第一例を示す図である。
図11】状態通知の第二例を示す図である。
図12】状態通知の第三例を示す図である。
図13】状態通知の第四例を示す図である。
図14】状態通知の第五例を示す図である。
図15図4で例示した操作端末のブロック図に対して、図10図14で例示した表示装置及び再生装置を加えた場合の操作端末のブロック図である。
図16】実施の形態2に係る操作端末の構成の一例を示すブロック図である。
図17】本開示の実施の形態2に係る終了条件判定部の処理の一例を示すフローチャートである。
図18】終了条件を説明するために、ユーザの骨格情報を例示した図である。
図19】本開示の実施の形態2に係るタイムアウト判定部の処理の一例を示すフローチャートである。
図20】本開示の実施の形態2に係る管理部の処理の一例を示すフローチャートである。
図21】撮像装置、再生装置、及び表示装置を操作端末1とは別の装置で構成した場合の構成の一例を示す図である。
【発明を実施するための形態】
【0011】
(本開示の基礎となった知見)
本発明者は、例えば、家屋内の壁に立て掛けられ、ユーザからの音声を認識することによって家屋に設置された各種の電気機器を操作する操作端末を研究している。このような操作端末では、ユーザが音声入力を行っていること、又は音声入力を行おうとしていることを認識する必要がある。音声操作が可能な端末の多くは、特定のフレーズを常時音声認識できるように音声を常時収音し、特定のフレーズを認識したことをトリガーに特定のフレーズ以外のフレーズの音声認識を開始する構成を備えるのが一般的である。しかし、この構成では、音声が常時収音されるため、ユーザはプライバシーの侵害などの懸念を抱く可能性がある。したがって、音声を常時収音せずに、ユーザによる音声入力の開始の意思を判定する仕組みが必要である。
【0012】
また、特定のフレーズをユーザに発話させる構成を前記操作端末にそのまま適用すると、家電機器を操作するたびにユーザは特定のフレーズを発話する必要があることに加え、操作端末の方を向いているにも拘わらずユーザは特定のフレーズを発話する必要があるため、ユーザに煩わしさ及び不自然さを与えてしまう。
【0013】
その一方、上述の特許文献1、2のようにユーザが行う何らかのジェスチャーをトリガーにロボット等の機器の操作する手法が存在する。
【0014】
しかし、特許文献1が検出対象とするジェスチャーは、ユーザがロボットに物を拾わせたり、ロボットを移動させたりするためのジェスチャーであり、音声認識の開始の意思表示のためのジェスチャーではない。そのため、特許文献1では、ユーザに対して空間内の特定の方向に腕を向けるジェスチャーが要求されている。したがって、特許文献1の技術を前記操作端末に適用すると、ユーザは音声認識を開始させるために、わざわざ特定の方向に腕を向けるジェスチャーをする必要があり、ユーザに煩わしさを与えてしまう。
【0015】
また、特許文献2は、ショッピングモール、博物館、展示会場などの空間内において、任意の位置で行われるユーザによる腕を使ったジェスチャーを管理する技術であり、音声認識の開始の意思表示のためのジェスチャーを管理する技術ではない。また、特許文献2が管理対象とするジェスチャーは、展示物などの物体に対して腕を向けるジェスチャーであるため、腕の方向が重要となり、その方向が異なれば異なるジェスチャーと判断される。したがって、特許文献2の技術をそのまま前記操作端末に適用した場合、ユーザは管理されたジェスチャーと同じ方向に腕を向けるジェスチャーを行う必要があり、ユーザに煩わしさを与えてしまう。また、特許文献2において、腕の方向を厳密に問わない簡易なジェスチャーで音声認識を開始させようとする場合、ユーザは音声認識の開始に利用したい多種多様な腕の方向の異なるジェスチャーを事前に登録する必要があり、やはりユーザに煩わしさを与えてしまう。
【0016】
そこで、本発明者は、ユーザに煩わしさを与えずに音声認識を開始させるためには、厳密な腕の向きを問わないような簡易なジェスチャーが有効であるとの知見を得て本開示を想到するにいたった。
【0017】
本開示の一態様に係る操作端末は、ユーザの発話音声によって操作される操作端末であって、
空間を撮像する撮像部と、
撮像された前記空間の情報から、前記ユーザを検出する人検出部と、
前記ユーザによる発話音声の入力を受け付ける音声入力部と、
前記人検出部により前記ユーザが検出された場合、所定の手段によって得られた情報に基づいて前記ユーザの上肢に含まれる所定の第一部位の第一座標と前記ユーザの上肢を除く上半身に含まれる所定の第二部位の第二座標とを検出する座標検出部と、
前記第一座標と前記第二座標との位置関係を比較し、少なくとも一回、前記位置関係が所定の第一条件を満たした場合、前記音声入力部を音声入力の受付可能状態とする条件判定部とを備える。
【0018】
本構成によれば、ユーザの上肢に含まれる第一部位の第一座標と、ユーザの上肢を除く上半身に含まれる第二部位の第二座標との位置関係が所定の第一条件を満たす場合に音声入力部は音声入力の受付可能状態とされる。そのため、本構成は、例えば、首より少し上に腕を上げるというような腕の向きを問わない簡易なジェスチャーをユーザに行わせることによって音声入力部を音声入力の受付可能状態にすることができる。その結果、ユーザに煩わしさを与えることなく、操作端末を音声入力の受付可能状態にすることができる。
【0019】
上記態様において、前記空間の情報から、前記ユーザの骨格情報を抽出する骨格情報抽出部をさらに備え、
前記所定の手段によって得られた情報は、前記骨格情報であってもよい。
【0020】
本態様によれば、ユーザの骨格情報に基づいて、第一座標と第二座標とが検出されているため、第一座標と第二座標とを正確に検出できる。
【0021】
上記態様において、前記撮像部は、可視光カメラ、赤外線カメラ、TOFセンサ、超音波センサ、又は電波センサであってもよい。
【0022】
本構成によれば、撮像部が可視光カメラ、赤外線カメラ、TOFセンサ、超音波センサ、又は電波センサで構成されているため、空間情報に距離情報が含まれることになり、周囲の空間に居るユーザを正確に検出できる。
【0023】
上記態様において、前記位置関係は、鉛直方向における、前記第一座標と前記第二座標との位置関係であってもよい。
【0024】
第一座標と第二座標との鉛直方向における位置関係が第一条件を満たす場合、音声入力の受付可能状態になるため、ユーザは、例えば、鉛直方向に上肢を上げるような簡易なジェスチャーを行うだけで、受付可能状態にすることができる。
【0025】
上記態様において、前記位置関係は、前記ユーザの体幹軸方向における、前記第一座標と前記第二座標との位置関係であってもよい。
【0026】
本構成によれば、第一座標と第二座標との位置関係が第一条件を満たした場合に受付可能状態になるため、ユーザは、例えば、体幹軸方向に上肢を上げるような簡易なジェスチャーを行うだけで、前記受付可能状態にすることができる。また、体幹軸方向を基準に位置関係が判断されているため、ユーザは、例えば、寝ころんだ状態、起立した状態というような現在の姿勢を気にせずに、上肢を体幹軸方向に上げることで前記受付可能状態にすることができる。
【0027】
上記態様において、前記座標検出部は、さらに前記上半身における第三部位の第三座標を検出し、
前記第一条件は、前記第一座標、前記第二座標、及び前記第三座標の成す角度が、所定の閾値を超える、前記所定の閾値を下回る、又は所定の範囲に収まることであってもよい。
【0028】
本構成によれば、上半身における第三部位の第三座標がさらに検出され、第一座標、第二座標、及び第三座標の成す角度が所定の閾値を超える、下回る、又は所定の範囲内に収まった場合、位置関係が第一条件を満たすと判定される。そのため、ユーザは、例えば、上肢が体幹軸方向に対して所定角度になるようなジェスチャーによって前記受付可能状態にすることができる。
【0029】
上記態様において、前記第一部位は、前記上肢に含まれる複数の部位を含み、
前記第一座標は、前記複数の部位のいずれか1以上の座標に基づいて決定されてもよい。
【0030】
本構成によれば、第一部位を構成する複数の部位のそれぞれの座標に基づいて第一座標が決定されるため、第一座標を柔軟に決定できる。
【0031】
上記態様において、前記第二部位は、前記上肢を除く前記上半身に含まれる複数の部位を含み、
前記第二座標は、前記複数の部位のいずれか1以上の座標に基づいて決定されてもよい。
【0032】
本構成によれば、第二部位を構成する複数の部位のそれぞれの座標に基づいて第二座標が決定されるため、第二座標を柔軟に決定できる。
【0033】
上記態様において、前記第一条件は、複数の第二条件を含み、
前記条件判定部は、前記位置関係が、前記複数の第二条件の少なくとも1つ、又は前記複数の第二条件の一部を組み合わせた第三条件を満たす場合に前記受付可能状態にしてもよい。
【0034】
本構成によれば、位置関係が第一条件を満たすか否かの判定を柔軟に行うことができる。
【0035】
上記態様において、前記音声入力部が前記受付可能状態にあるか否かを示す情報を出力する表示部又は再生部をさらに備えてもよい。
【0036】
本構成によれば、音声入力部が受付可能状態にあるか否かを示す情報を視覚的又は聴覚的にユーザに通知できる。
【0037】
上記態様において、前記表示部は、ディスプレイであってもよい。
【0038】
本構成によれば、音声入力部が受付可能状態にあるか否かを示す情報をディスプレイを用いてユーザに通知できる。
【0039】
上記態様において、前記音声入力部が前記受付可能状態にあるか否かを示す情報は、色、テキスト、又はアイコンであってもよい。
【0040】
本構成によれば、色、テキスト、又はアイコンを用いて音声入力部が受付可能状態であるか否かをユーザに通知できる。
【0041】
上記態様において、前記表示部は、前記音声入力部が前記受付可能状態にあることを示す光を発光する発光装置であってもよい。
【0042】
本構成によれば、発光装置から発光される光によって音声入力部が受付可能状態にあるか否かをユーザに通知できる。
【0043】
上記態様において、前記再生部は、前記音声入力部が前記受付可能状態にあるか否かを示す音声を出力してもよい。
【0044】
本構成によれば、音声によって音声入力部が受付可能状態にあるか否かをユーザに通知できる。
【0045】
上記態様において、前記再生部は、前記音声入力部が前記受付可能状態にあるか否かを示す音を出力してもよい。
【0046】
本構成によれば、音によって音声入力部が受付可能状態にあるか否かをユーザに通知できる。
【0047】
上記態様において、前記条件判定部は、前記操作端末と前記ユーザとの距離が所定の第四条件を満たすときにのみ、前記位置関係を比較してもよい。
【0048】
本構成によれば、操作端末とユーザとの距離が所定の第四条件を満たすときのみ、第一座標及び第二座標の位置関係が比較されるため、操作端末を操作する意思のないユーザに対して位置関係を比較する処理が実行されることを防止でき、処理コストを低減できる。
【0049】
上記態様において、前記条件判定部は、前記受付可能状態において無音区間が一定時間続いた場合、前記受付可能状態を終了してもよい。
【0050】
本構成によれば、受付可能状態において無音区間が一定時間続いた場合、受付可能状態が終了されるため、ユーザが操作端末を操作する意思がないにも拘わらず、受付可能状態が継続されることを防止できる。その結果、ユーザのプライバシーを確保できる。
【0051】
上記態様において、前記条件判定部は、前記受付可能状態において前記位置関係が前記第一条件を満たしている限り、前記受付可能状態を継続してもよい。
【0052】
本構成によれば、受付可能状態においては位置関係が第一条件を満たしている限り、受付可能状態が継続されるため、ユーザは位置関係が第一条件を満たすジェスチャーを継続することで、操作端末への音声による操作の意思表示を示すことができる。
【0053】
上記態様において、前記条件判定部は、前記受付可能状態において前記位置関係が前記第一条件を満たさない状態が所定のタイムアウト期間継続した場合、前記受付可能状態を終了してもよい。
【0054】
本構成によれば、受付可能状態において位置関係が第一条件を満たさない状態がタイムアウト期間継続された場合、受付可能状態が終了されるため、ユーザが操作端末を操作する意思がないにも拘わらず、受付可能状態が継続されることを防止できる。その結果、ユーザのプライバシーを確保できる。
【0055】
上記態様において、前記条件判定部は、前記タイムアウト期間において、前記位置関係が前記第一条件を満たすと判定した場合、前記タイムアウト期間を延長してもよい。
【0056】
上記構成によれば、タイムアウト期間において、再度、位置関係が第一条件を満たすジェスチャーを行うことによって音声入力の受付可能状態を継続させることができる。
【0057】
上記態様において、前記条件判定部は、前記タイムアウト期間の終了時に音声入力が検出されていれば、前記受付可能状態を継続してもよい。
【0058】
本態様によれば、位置関係が第一条件を満たさない状態がタイムアウト期間継続されたとしてもタイムアウト期間の終了時に音声入力が検出されていれば、受付可能状態が継続されるため、操作端末を操作するための発話を行っているにも拘わらず、受付可能状態が終了されることを防止できる。
【0059】
上記態様において、前記条件判定部は、前記位置関係が前記第一条件とは異なる所定の第五条件を満たした場合、前記受付可能状態を終了してもよい。
【0060】
本構成によれば、ユーザは位置関係が第五条件を満たすジェスチャーを行うことで、受付可能状態を終了させることができる。
【0061】
上記態様において、前記条件判定部は、前記人検出部が複数のユーザを検出した場合、特定の一人を前記操作端末の操作者として認識してもよい。
【0062】
本構成によれば、人検出部が複数のユーザを検出した場合、特定の一人が操作端末の操作者として認識されるため、操作端末の周囲に複数のユーザがいる状況下で、一人のユーザに操作端末を操作する権利を与えることができる。その結果、操作者の操作に関する発話を正確に認識できる。
【0063】
上記態様において、前記操作者は、前記複数のユーザのうち前記操作端末に最も近いユーザであってもよい。
【0064】
本構成によれば、人検出部が複数のユーザを検出した場合、操作端末の最も近くに居るユーザが操作者として特定されるため、複数のユーザの中から一人の操作者を簡素な処理により特定できる。
【0065】
本開示は、このような操作端末に含まれる特徴的な各構成をコンピュータに実行させるプログラム、或いはこのプログラムによって動作する音声入力方法として実現することもできる。また、このようなプログラムを、CD−ROM等のコンピュータ読取可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。
【0066】
なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。
【0067】
(実施の形態1)
図1は、本開示の実施の形態1に係る操作端末1とユーザU1との位置関係の一例を示した図である。操作端末1は、例えば、ユーザU1が居住する家などの建物内に設置され、ユーザU1が発話した音声を収音し、音声認識することで、ユーザU1からの操作を受け付ける装置である。操作端末1が受け付ける操作は、例えば、建物内に設置された電化機器に対する操作、及び操作端末1への操作などである。電化機器は、例えば、洗濯機、冷蔵庫、電子レンジ、空調器機などの家庭用電化機器、及びテレビ、オーディオ機器、レコーダーなどのAV機器などである。ユーザU1は、ある電化機器を操作する場合、操作端末1に近づいて、当該電化機器を操作するための発話を行う。すると、操作端末1は発話された音声を音声認識し、操作対象となる電化機器及びその電化機器に対する操作内容を決定し、操作対象となる電化機器に対して操作内容に応じた制御コマンドを送信する。なお、操作端末1は、ネットワークを介して電化機器と無線又は有線により通信可能に接続されている。ネットワークは、例えば、無線LAN、有線LANなどである。なお、ネットワークにはインターネットが含まれていてもよい。
【0068】
図2は、操作端末1の外観構成の一例を示した図である。図2に例示するように操作端末1は、撮像装置301(撮像部の一例)及び収音装置307(音声入力部の一例)を備えている。撮像装置301はユーザU1が操作端末1の周囲に存在していることを検出する人検出機能と、ユーザU1の空間内における位置を検出する位置検出機能と、図3に例示するようなユーザU1の骨格情報201を検出する骨格検出機能とを備えていてもよい。収音装置307は、ユーザU1が操作端末1に対して発話した音声を収音する機能を有している。
【0069】
図3は、撮像装置301によって計測されるユーザU1の骨格情報201の一例を示す図である。骨格情報201にはユーザU1の複数の部位のそれぞれの空間における三次元座標を含む部位座標202と、部位座標202の各々をユーザU1の身体に沿って繋ぐリンク203とを備えている。部位座標は、手首、肘、肩などの関節の座標と、指先、足先、及び頭部などの身体の末端の座標とを含む。なお、部位座標は、胸の中心、へそなどの関節及び先端以外の身体の特徴的な部位の座標を含んでもよい。
【0070】
図3の例では、上から順に、頭の先、首と顔の付け根(首先)、首と胴体の付け根(首元)、左右の肘、左右の手首、腰、左右の膝、左右の足首が部位座標202として採用されている。
【0071】
部位座標202を示す三次元座標は、例えば、操作端末1を基準に設定された直交座標系、ユーザU1を基準に設定された直交座標系、操作端末1を基準に設定された極座標系、又はユーザU1を基準に設定された極座標系で定義される。但し、これは一例であり、三次元座標を定義する座標系は、これらの座標系に限定されない。リンク203は、例えば、部位座標202同士を繋ぐ三次元ベクトルである。
【0072】
撮像装置301は、周囲の空間情報が取得できる機能を備えていれば、その構成は特に限定されない。例えば、撮像装置301は、可視光カメラ、赤外線カメラ、TOFセンサ、超音波センサ、及び電波センサなど、操作端末1の周囲の空間の三次元的な情報を示す空間情報を計測するセンサで構成される。なお、撮像装置301は、可視光カメラ、赤外線カメラ、TOFセンサ、超音波センサ、及び電波センサのいずれか2つ以上を組合せて人検出機能および骨格情報検出機能を実現してもよい。
【0073】
可視光カメラは、例えば、カラー、モノクロのカメラである。赤外線カメラは、照射した赤外光の反射時間を複数の画素ごとに計測する。TOF(Time of flight)センサは、照射したパルス光の反射時間を複数の画素ごとに計測する。超音波センサは、例えば、超音波センサアレイである。電波センサは、例えば、電波センサアレイである。
【0074】
図4は、本開示の実施の形態1に係る操作端末1の構成の一例を示すブロック図である。
【0075】
操作端末1は、プロセッサ300、撮像装置301、収音装置307、収音音声記録部308、及びメモリ309を備える。プロセッサ300は、CPU等の電子回路で構成され、人検出部302、骨格情報抽出部303、ジェスチャー抽出部304、開始条件判定部305、及び管理部306を備える。メモリ309は収音音声記録部308を含む。
【0076】
撮像装置301は、例えば、所定のフレームレートで空間情報を取得し、人検出部302及び骨格情報抽出部303に出力する。空間情報は、例えば、RGBの色成分及び深度成分を含む複数の画素データがマトリックス状に配列されたデータである。なお、空間情報を構成する画素データは深度成分及び色成分の少なくとも一方を備えてればよく、色成分に代えて輝度成分を備えていてもよい。
【0077】
人検出部302は、撮像装置301から空間情報を取得し、操作端末1の周囲の空間内にユーザが存在しているか否かを検出し、ユーザの存在の有無を示す検出結果をジェスチャー抽出部304に出力する。ここで、人検出部302は、種々の人検出手法を用いて空間情報からユーザを検出すればよい。例えば、人検出部302は、空間情報から1以上の物体を抽出し、1以上の物体のうちいずれか1つが人を示す物体であれば、ユーザが存在すると判定すればよい。
【0078】
骨格情報抽出部303は、撮像装置301から空間情報を取得し、取得した空間情報からユーザの骨格情報201を抽出し、ジェスチャー抽出部304に出力する。骨格情報抽出部303は、空間情報を取得する度に骨格情報を抽出してもよいし、後述するようにジェスチャー抽出部304から骨格情報の抽出依頼を取得したことをトリガーにユーザの骨格情報を抽出してもよい。この場合、骨格情報抽出部303は、例えば、ジェスチャー抽出部304から、空間情報内に居るユーザの人数及び空間情報内でユーザが居る領域を含む抽出依頼を取得する。これにより、骨格情報抽出部303は、ユーザが居る領域内の空間情報から骨格情報201を抽出することができ、空間情報の全域から骨格情報201を抽出する場合に比べて、処理負荷を削減できる。また、骨格情報抽出部303は、人検出部302が複数のユーザを検出した場合は、各ユーザが位置する領域をジェスチャー抽出部304から取得してもよい。
【0079】
骨格情報抽出部303は、例えば、スケルトントラッキング、モーションキャプチャリングなどの手法を用いて骨格情報をリアルタイムで抽出する。骨格情報抽出部303は、空間内に複数のユーザが存在する場合、それぞれのユーザの骨格情報201をリアルタイムで抽出してもよい。
【0080】
ジェスチャー抽出部304(座標検出部の一例)は、人検出部302から取得した検出結果及び骨格情報抽出部303から取得した骨格情報201に基づいて、第一座標及び第二座標を抽出し、第一座標及び第二座標を含むジェスチャー抽出情報を開始条件判定部305に出力する。
【0081】
例えば、ジェスチャー抽出部304は、人検出部302からユーザが検出されたことを示す検出結果を取得した場合、骨格情報抽出部303から骨格情報を取得する。或いは、ジェスチャー抽出部304は、人検出部302から人が検出されたことを示す検出結果を取得した場合、骨格情報抽出部303に骨格情報の抽出依頼を出力し、それによって骨格情報抽出部303から骨格情報を取得してもよい。この場合、ジェスチャー抽出部304は、人検出部302の検出結果が示す空間情報内でのユーザの人数及びユーザの居る領域などを抽出依頼に含ませて骨格情報抽出部303に出力すればよい。
【0082】
第一座標は、上肢を構成する第一部位の座標である。第二座標は、上肢を除く上半身を構成する第二部位の座標である。上肢は肩関節から指先までを指す。下肢は腰から足先までを指す。上半身は腰から頭の先までを指す。したがって、第二部位は、上肢を除く上半身、すなわち、胴体、首、及び顔内の特定の部位である。例えば、第二部位は、首先、首元、頭の先などである。第一部位は、例えば、手首、肘、及び肩などである。
【0083】
本実施の形態では、ジェスチャー抽出部304は、例えば、手首、肘、及び肩のうちのいずれか一つの部位(例えば手首)を第一部位として採用する。また、ジェスチャー抽出部304は、例えば、首先、首元、頭の先のうちいずれか一つの部位(例えば、首元)を第二部位として採用する。
【0084】
但し、これは一例であり、ジェスチャー抽出部304は、例えば、手首、肘、及び肩のうちの2以上を第一部位として採用してもよいし、例えば、首元、首先、頭の先のいずれか2つ以上を第二部位として採用してもよい。この場合、ジェスチャー抽出部304は、2以上の第一部位の全部又は一部の平均値又は加算値を第一座標として算出してもよい。さらに、この場合、ジェスチャー抽出部304は、2以上の第二部位の全部又は一部の平均値又は加算値を第二座標として算出してもよい。
【0085】
さらに、ジェスチャー抽出部304は、上半身において第一部位及び第二部位以外の第三部位を抽出してもよい。第三部位は、例えば腰、臍、胸元などである。この場合、ジェスチャー抽出部304は、第一座標及び第二座標に加えてさらに第三部位の第三座標をジェスチャー抽出情報に含めればよい。
【0086】
開始条件判定部305は、ジェスチャー抽出部304から取得したジェスチャー抽出情報に含まれる第一座標及び第二座標の位置関係を比較し、位置関係が音声入力の開始条件(第一条件の一例)を満たすか否かの判定結果を管理部306に出力する。開始条件は、例えば、ユーザが上肢を上げるというようなユーザが音声入力の開始の意思表示を示す所定のジェスチャーをしていることを示す条件である。具体的には第一座標が手首、第二座標が首元であるとすると、鉛直方向において第一座標が第二座標よりも上に位置するという条件が開始条件の一例として挙げられる。
【0087】
管理部306は、開始条件判定部305から開始条件が満たされていることを示す判定結果を取得した場合、メモリ309に記憶された状態フラグを立てると共に収音装置307に開始指示を出力することで、収音装置307を音声入力の受付可能状態にする。一方、管理部306は、開始条件判定部305から開始条件が満たされていないことを示す判定結果を取得した場合、終了指示を収音装置307に出力することで、受付可能状態を終了する。このとき、管理部306は、メモリ309に記憶された状態フラグを下げることによって、受付可能状態が終了したことを管理する。これにより、ユーザは開始条件を満たすジェスチャーをしている限り、受付可能状態を継続できる。なお、状態フラグを立てるとは、状態フラグのステータスを受付可能状態にすることを指し、状態フラグを下げるとは、状態フラグのステータスを受付可能状態ではない状態(待機状態)にすることを指す。
【0088】
収音装置307は、周囲の音を取得するマイク、及びマイクを制御する電気回路を含む。収音装置307は、管理部306から開始指示を取得した場合、マイクに周囲の音を収音させ、収音された音を示す音声信号を収音音声記録部308に記録する。これにより、収音装置307は、受付可能状態になる。一方、収音装置307は、管理部306から終了指示を取得した場合、収音を終了する。これにより、収音装置307は待機状態になる。
【0089】
収音音声記録部308は、収音装置307から取得した音声信号を記録することで、操作端末1の音声記録機能を実現する。収音音声記録部308は、例えば、不揮発性メモリで構成されてもよいし、揮発性メモリで構成されてもよい。
【0090】
図5は、本開示の実施の形態1に係る開始条件判定部305の処理の一例を示すフローチャートである。
【0091】
ステップS401では、開始条件判定部305は、ジェスチャー抽出部304からジェスチャー抽出情報を取得する。
【0092】
ステップS402では、開始条件判定部305は、ステップS401で取得したジェスチャー抽出情報に基づいて、操作端末1の周囲のジェスチャー可能範囲内にユーザが存在しているか否かを判定する。ジェスチャー可能範囲内にユーザが存在しないと判定した場合(ステップS402でNO)、開始条件判定部305は、処理をステップS401に戻し、ジュスチャー抽出情報を取得する。一方、ジェスチャー可能範囲内にユーザが存在すると判定した場合(ステップS402でYES)、ステップS403を実行する。ジェスチャー可能範囲の詳細は、図8を用いて後述される。ここで、開始条件判定部305は、ジェスチャー抽出情報に含まれる第一座標、第二座標、及び第三座標などのユーザの位置を示す座標がジェスチャー可能範囲内にあれば、ユーザはジェスチャー可能範囲内に居ると判定し、前記座標がジェスチャー可能範囲内になければ、ユーザはジェスチャー可能範囲内に居ないと判定すればよい。
【0093】
ステップS403では、開始条件判定部305は、ジェスチャー抽出情報に含まれる第一座標、第二座標、及び第三座標の位置関係が開始条件を満たしているか否かを判定する(ステップS403)。そして、開始条件を満たしていると判定した場合(ステップS403でYES)、開始条件判定部305は、ユーザが音声入力の開始の意思表示を示すジェスチャーを行ったため、処理をステップS404に進める。一方、開始条件を満たしていないと判定した場合(ステップS403でNO)、開始条件判定部305は、処理をステップS401に戻し、ジュスチャー抽出情報を取得する。
【0094】
ステップS404では、開始条件判定部305は、開始条件を満たしていることを示す判定結果を管理部306に出力する。ステップS404が終了すると、開始条件判定部305は、処理をステップS401に戻し、ジュスチャー抽出情報を取得する。
【0095】
図6は、本開示の実施の形態における管理部306の処理の一例を示すフローチャートである。ステップS601では、管理部306は、収音装置307が音声入力の受付可能状態であるか否かを判定する。この場合、管理部306は、メモリ309に記憶された状態フラグが立っていれば、受付可能状態にあると判定し、メモリ309に記憶された状態フラグが立っていなければ、受付可能状態にないと判定すればよい。
【0096】
受付可能状態にあると判定した場合(ステップS601でYES)、管理部306は、処理をステップS601に戻す。一方、受付可能状態でないと判定した場合(ステップS601でNO)、管理部306は、処理をステップS602に進める。
【0097】
ステップS602では、管理部306は、開始条件判定部305から開始条件を満たすことを示す判定結果を取得した場合(ステップS602でYES)、処理をS603に進め、開始条件を満たすことを示す判定結果を取得しなかった場合(ステップS602でNO)、管理部306は、処理をステップS601に戻す。
【0098】
ステップS603では、管理部306は、開始指示を収音装置307に出力することで、収音装置307を受付可能状態にすると共に、メモリ309に記憶された状態フラグを立てる。ステップS603の処理が終了すると、管理部306は、処理をステップS601に戻す。
【0099】
次に、開始条件について説明する。図7は、開始条件を説明するために、ユーザU1の骨格情報201を例示した図である。図7は、ステップS403において、開始条件の比較対象となる第一座標、第二座標、及び第三座標が例示されている。図7の例では、第一座標として、手首座標Hが採用され、第二座標として首元座標Nが採用され、第三座標として腰座標Wが採用されている。
【0100】
開始条件の第一例は、手首座標Hが首元座標Nよりも鉛直方向に対して第一閾値(例えば20cm)以上、大きい(高い)という条件である。鉛直方向とは、地面に対して直交する方向である。この場合、ユーザU1は、手首座標Hが首元座標Nよりも鉛直方向に対して第一閾値以上高くなるように上肢を上げるジェスチャーを行うことによって、収音装置307を受付可能状態にすることができる。なお、上肢は右腕であってもよいし、左腕であってもよい。
【0101】
開始条件の第二例は、手首座標Hと首元座標Nとが鉛直方向に対して所定範囲内に収まるという条件である。例えば、首元座標Nを中心に鉛直方向上下の所定範囲内(例えば、プラスマイナス10cm程度)に手首座標Hが位置するという条件が開始条件の第二例として採用できる。この場合、ユーザU1は、肘を曲げて手首座標Hを胸元付近まで上げるジェスチャー又は、肘を曲げずに上肢全体を胴体の外側に回して手首座標Hを胸元付近まで上げるジェスチャーを行うことで、受付可能状態にできる。
【0102】
開始条件の第三例は、首元座標Nと腰座標Wとをつないだ体幹軸方向において、手首座標Hが首元座標Nよりも第一閾値(例えば10cm)以上大きいという条件である。この場合、ユーザU1は、手首座標Hが首元座標Nよりも第一閾値以上高くなるように上肢を上げるジェスチャーを行うことによって、受付可能状態にすることができる。この場合、ユーザU1は、寝ころんでいる或いは起立しているとった現在の姿勢に拘わらず、鉛直方向を意識せずに、体幹軸方向に沿って上肢を上げることで、受付可能状態にできる。
【0103】
また、開始条件の第四例は、手首座標Hと首元座標Nとが体幹軸方向に対して所定範囲内に収まるという条件である。例えば、首元座標Nを中心に体幹軸方向上下の所定範囲内(例えば、プラスマイナス10cm程度)に手首座標Hが位置するという条件が開始条件の第四例として採用できる。この場合、ユーザU1は例えば、寝ころんだ状態で、肘を曲げて手首座標Hを胸元付近まで上げるジェスチャー又は、肘を曲げずに上肢全体を胴体の外側に回して手首座標Hを胸元付近まで上げるジェスチャーを行うことで、受付可能状態にできる。
【0104】
また、開始条件の第五例は、手首座標H及び首元座標Nを結んだ上肢方向を示す線分と、腰座標W及び首元座標Nを結んだ体幹軸方向を示す線分との成す角度が所定の第二閾値(例えば100度、80度など)以上であるという条件である。この場合、ユーザU1は、起立状態又は寝ころんだ状態といった現在の姿勢に拘わらず、鉛直方向を意識せずに体幹軸方向に対して手を上げるジェスチャーを行うことによって、前記受付可能状態にすることができる。
【0105】
また、開始条件の第六例は、手首座標H及び首元座標Nを結んだ上肢方向を示す線分と、腰座標W及び首元座標Nを結んだ体幹軸方向を示す線分との成す角度が所定の角度範囲内収まっているという条件である。所定の角度範囲は、例えば、100度を中心にプラスマイナス10度、20度などである。この場合、ユーザU1は、起立した状態及び寝ころんだ状態といった現在の姿勢に拘わらず、鉛直方向を意識せずに上肢方向と体幹軸方向との成す角度が所定の角度範囲内になるように上肢を上げるジェスチャーを行うことによって受付可能状態にすることができる。
【0106】
開始条件は、第一例〜第六例のうちのいずれか2以上を組み合わせた条件であってもよい。例えば、開始条件は、第一例〜第六例のうちいずれか2以上の条件が共に成立したという条件(第三条件の一例)が採用できる。或いは、開始条件は、第一例〜第六例のうちのいずれか一つ又は少なくとも2つが成立したという条件(第二条件の一例)であってもよい。ここでは、第一例〜第六例は共に上肢を上げるというジェスチャーが想定されているが、これは一例である。例えば、上肢を下げるジェスチャー、左右の上肢を広げるジェスチャーなど種々のジェスチャーが開始条件として採用でき、検出対象となるジェスチャーは特に限定されない。左右の上肢を広げるジェスチャーは、例えば、左右の上肢を上に上げるジェスチャー、左右の上肢を下に下げるジェスチャー、及び片方の上肢を上げて残り片方の上肢を下げるジェスチャーなどである。
【0107】
次に、ステップS402の処理の一例を説明する。図8は、ジェスチャー可能範囲901の一例を示す図である。図8に例示されるようにジェスチャー可能範囲901は、ジェスチャー不可能範囲902と、ジェスチャー不可能範囲903とに挟まれている。
【0108】
開始条件判定部305は、ジェスチャー可能範囲901及びジェスチャー不可能範囲902、903とユーザU1の位置とを比較することによって、ユーザU1のジェスチャーを検出する範囲をユーザU1と操作端末1との距離によって制限する。
【0109】
ジェスチャー不可能範囲902は、ジェスチャー可能範囲901の下限値D1を半径とし、操作端末1を中心とする円形又は扇形の領域である。ジェスチャー可能範囲901は、上限値D2を半径とする円形又は扇形の領域からジェスチャー不可能範囲902を取り除いたドーナツ状の領域である。ジェスチャー不可能範囲903は、操作端末1から上限値D2より離れた領域である。
【0110】
したがって、開始条件判定部305は、ユーザU1の位置が操作端末1に対して下限値D1から上限値D2までの範囲に位置する、すなわちジェスチャー可能範囲901に位置するという条件(第四条件の一例)を満たす場合、ユーザU1のジェスチャーを検出する。一方、開始条件判定部305は、ユーザU1の位置が操作端末1に対して下限値D1以下に位置する場合、又は、ユーザU1の位置が操作端末1に対して上限値D2以上の範囲に位置する場合、ユーザU1のジェスチャーを検出しない。
【0111】
ユーザU1の位置が操作端末1に対して近すぎる場合、ユーザU1のジェスチャーをうまく検出できない可能性があることに加えてユーザU1がたまたま操作端末1の近傍で何らかの作業を行っているなど操作端末1を操作する意思がない可能性もある。また、ユーザU1の位置が操作端末1に対して遠すぎる場合、ユーザU1が操作端末1を操作する意思がない可能性が高い。そこで、本実施の形態では、開始条件判定部305は、ユーザU1がジェスチャー可能範囲901に居るときのみユーザU1のジェスチャーを検出する処理、すなわち、開始条件を満たすか否かを判定する処理を実施することにした。これにより、ジェスチャーの検出精度の低下を防止できると共にユーザU1の操作端末1への操作意思がない場合において、ジェスチャーを検出する処理が作動することを防止でき、操作端末1の処理負荷を削減できる。
【0112】
上記説明では、ジェスチャー抽出部304は、1つの第一座標と1つの第二座標とをジェスチャー抽出情報に含め、開始条件判定部305に出力するとして説明したが、本開示はこれに限定されない。ジェスチャー抽出部304は、1又は複数の第一座標と1又は複数の第二座標とをジェスチャー抽出情報に含め、開始条件判定部305に出力してもよい。
【0113】
例えば、ジェスチャー抽出情報に複数の第一座標と1つの第二座標とが含まれる場合、開始条件判定部305は、複数の第一座標(例えば、手首座標H、肘座標、及び肩座標)のうち少なくとも1つの第一座標が1つの第二座標(例えば、首元座標N)に対して鉛直方向又は体幹軸方向に第一閾値以上、大きければ、開始条件を満たすと判定すればよい。また、ジェスチャー抽出情報に1つの第一座標と複数の第二座標とが含まれる場合、開始条件判定部305は、1つの第一座標(例えば、手首座標H)が複数の第二座標(例えば、胴体座標、首元座標N、頭の先の座標)の少なくとも1つの第二座標に対して鉛直方向又は体幹軸方向に第一閾値以上、大きいければ、開始条件を満たすと判定すればよい。
【0114】
図9は、複数のユーザが操作端末1に対してジェスチャーを行う場合を示した図である。図9のユーザU1及びユーザU2に例示されるように操作端末1に対して複数のユーザがジェスチャーを行う場合、ジェスチャー抽出部304は、1人の操作者を特定し、特定した操作者に対するジェスチャー抽出情報を開始条件判定部305に出力してもよい。この場合、ジェスチャー抽出部304は、複数のユーザのうち操作端末1に対して最も近くに位置するユーザを操作者として特定してもよい。
【0115】
また、ジェスチャー抽出部304は、複数のユーザのうち最初に検出されたユーザがジェスチャー可能範囲901を出るまで最初に検出されたユーザを操作者として特定し続けてもよい。例えば、ユーザU1が先にジェスチャー可能範囲901に入り、その後、ユーザU2がジェスチャー可能範囲901に入った場合、ジェスチャー抽出部304は、ユーザU1がジェスチャー可能範囲901に居る限り、ユーザU1を操作者として特定する。そして、ユーザU1がジェスチャー可能範囲901から出ると、ジェスチャー抽出部304は、ジェスチャー可能範囲901にユーザU2が居れば、ユーザU2を操作者として特定する。このとき、ジェスチャー可能範囲901内にユーザU2の他にユーザU3が居れば、ジェスチャー抽出部304は、ユーザU2、ユーザU3のうち操作端末1に対する距離が近い方のユーザを操作者として特定してもよい。
【0116】
但し、これらは一例であり複数のユーザの中から1人の操作者を特定する手法は上述の手法に限定されない。
【0117】
次に、実施の形態1の変形例について説明する。実施の形態1の変形例は、受付可能状態にあるか否かを示す状態通知を出力するものである。
【0118】
図10は、状態通知の第一例を示す図である。第一例では、操作端末1は、前面にディスプレイ501を備え、例えば室内の壁などに取り付けられている。撮像装置301はディスプレイ501の外枠の例えば上側に設けられている。収音装置307は、ディスプレイ501の外枠の上側において撮像装置301の両側に2つ設けられている。これらのことは、図11図12も同じである。
【0119】
状態通知の第一例では、ディスプレイ501はテキスト502によって状態通知を表示する。この例では、収音装置307は音声入力の受付可能状態にあるため、テキスト502として「音声入力受付中」が採用されている。これにより、ジェスチャーを行ったユーザは操作端末1が音声入力の受付可能状態であることを認識できる。なお、受付可能状態が終了した場合、ディスプレイ501は、テキスト502を非表示にしてもよいし、「音声入力待受中」などの操作端末1が受付可能状態にないことを示すテキスト502を表示してもよい。なお、図10に例示したテキスト502は一例であり、ユーザが、操作端末1が受付可能状態にあることを認識できるメッセージであれば他のメッセージが採用されてもよい。また、図10に示す撮像装置301及び収音装置307のそれぞれの配置場所、個数はほんの一例である。このことは、図11図12も同じである。
【0120】
図11は、状態通知の第二例を示す図である。状態通知の第二例では、ディスプレイ501はアイコン503によって状態通知を表示する。この例では、収音装置307は音声入力の受付可能状態にあるため、アイコン503としてマイクを模擬したアイコンが採用されている。これにより、ジェスチャーを行ったユーザは操作端末1が音声入力の受付可能状態であることを認識できる。なお、受付可能状態が終了した場合、ディスプレイ501は、アイコン503を非表示にしてもよいし、音声入力が待受状態であることを示すアイコンなどを表示してもよい。或いは、ディスプレイ501は、受付可能状態にある場合、アイコン503を所定の第一色で表示し、音声入力が待受状態である場合、第一色とは異なる所定の第二色でアイコン503を表示してもよい。なお、図10に例示したアイコン503は一例であり、ユーザが、受付可能状態にあることを認識できるアイコンであれば他のアイコンが採用されてもよい。
【0121】
図12は、状態通知の第三例を示す図である。状態通知の第三例では、ディスプレイ501は表示領域の全面の色504によって状態通知を表示する。色504とは、表示領域の全面に表示される背景の色である。この例では、収音装置307は音声入力の受付可能状態にあるため、色504として受付可能状態であることを示す第一色(例えば、赤、青、黄色など)が採用されている。これにより、ジェスチャーを行ったユーザは操作端末1が音声入力の受付可能状態であることを認識できる。なお、受付可能状態が終了した場合、ディスプレイ501は、待受状態であることを示す第一色とは異なる第二色を表示すればよい。第二色としては、例えば、ディスプレイ501に表示されるデフォルトの背景色が採用でき、例えば、白、黒、などである。なお、図12に例示した色504は一例であり、ユーザが受付可能状態を認識できる色であればどのような色が採用されてもよい。
【0122】
図13は、状態通知の第四例を示す図である。第四例において、操作端末1は、前面に例えば2つの収音装置307と例えば1つの撮像装置301とが配置され、上面に例えば4つの発光装置505が配置されている。なお、第四例において、操作端末1は、例えば、スマートスピーカのような机又は床などの上に置かれる据え置き型の装置で構成されている。発光装置505は、例えば、発光ダイオードなどである。
【0123】
第四例では、発光装置505によって状態通知を表示する。例えば、操作端末1が受付可能状態にある場合、発光装置505は発光する。一方、操作端末1が待機状態にある場合、発光装置505は消灯する。これにより、ジェスチャーを行ったユーザは受付可能状態であることを認識できる。但し、これは、一例であり、ユーザが受付可能状態を認識できる態様であれば発光装置505の表示態様としてどのようなものが採用されてもよい。例えば、受付可能状態にある場合の発光装置505の表示態様としては、例えば、常時点灯させる態様、点滅させる態様、発光する色を時間の経過に応じて変化させる態様などが挙げられる。また、発光装置505の表示態様としては、例えば、常時点灯しており、受付可能状態になると点滅する態様が採用されてもよいし、その逆の態様が採用されてもよい。或いは、発光装置505の表示態様としては、例えば、受付可能状態にあるときと待受状態にあるときとで、発光する色の種類を変える態様が採用されてもよい。
【0124】
図13では、発光装置505の個数は4つであるが、これは一例であり、3つ以下、5つ以上であってもよい。また、発光装置505は、上面に配置されているが、これも一例に過ぎず、前面、側面、背面などに配置されてもよい。さらに、撮像装置301及び収音装置307の個数及び配置箇所も特に限定はされない。
【0125】
図14は、状態通知の第五例を示す図である。第五例の操作端末1は、第四例の操作端末1に対して前面にさらにスピーカ506が設けられている。第五例ではスピーカ506から出力される音によって状態通知を出力する。図13において、ユーザが受付可能状態であることが認識することが可能であれば、スピーカ506の個数及び配置は特に限定されない。第五例においてスピーカ506は、受付可能状態にある場合、例えば「音声入力を行ってください」というような受付可能状態であることを示す音声メッセージを出力すればよい。或いは、スピーカ506は、受付可能状態にある場合、効果音を出力してもよいし、ビープ音を出力してもよい。これらのように、スピーカ506からの音の出力パターンは特定のパターンに限定されない。なお、スピーカ506は、待受状態の場合、音の出力を停止すればよい。
【0126】
図10図14に例示した受付可能状態であるか否かをユーザに通知するための操作端末1が備える構成、すなわち、ディスプレイ501及び発光装置505などの表示装置と、スピーカ506などの再生装置とは、任意に組み合わされてもよい。例えば、1又は複数種類の表示装置及び1又は複数種類の再生装置を任意に組合せることで、操作端末1は構成されてもよい。
【0127】
図15は、図4で例示した操作端末1のブロック図に対して、図10図14で例示した表示装置602及び再生装置603を加えた場合の操作端末1のブロック図である。
【0128】
図15で例示する操作端末1は、図4に対してさらに、再生装置603及び表示装置602を備えている。なお、図15において操作端末1は、再生装置603及び表示装置602の少なくとも一方を備えればよい。
【0129】
なお、図15において、図4と同一の構成要素には同一の符号を付し、説明を省略する。但し、図15では管理部に対して302の参照符号に代えて601の参照符号を付している。
【0130】
開始条件判定部305は、図4と同様、ジェスチャー抽出部304から取得したジェスチャー抽出情報に含まれる第一座標、第二座標、及び第三座標の位置関係が開始条件を満たすか否かを判定し、判定結果を管理部601に出力する。この処理の詳細は、図5に例示するフローと同様である。ただし、ステップS404では、判定結果が管理部306に代えて管理部601に出力されている。
【0131】
管理部601は、管理部306の機能に加えて、さらに、下記の機能を備える。すなわち、管理部601は、開始条件判定部305から開始条件を満たす旨の判定結果を取得した場合、図10図14で例示した状態通知の出力コマンドを再生装置603及び表示装置602に出力する。
【0132】
収音装置307は、管理部601から開始指示を取得した場合、マイクに周囲の音を収音させ、収音された音を示す音声信号を収音音声記録部308に記録する。
【0133】
再生装置603は、図14で例示したスピーカ506、再生音を再生する再生回路などを備え、管理部306から状態通知の出力コマンドを取得した場合、メモリ309から所定の再生音を読み出して再生する。ここで、スピーカ506から再生される再生音は、図14で例示した、効果音、ビープ音、又は音声メッセージなどである。これにより、前記状態通知が聴覚を通じてユーザに通知される。
【0134】
表示装置602は、図10図14で例示したディスプレイ501及び図13で例示した発光装置505の少なくとも一方で構成され、管理部601から状態通知の出力コマンドを取得した場合、図10図14で例示した状態通知を出力する。これにより、メッセージ、色、アイコンなどによって、状態通知が視覚を通じてユーザに通知される。
【0135】
このように、本実施の形態によれば、空間内の特定の位置に上肢を向けるというような煩わしいジェスチャーではなく、操作端末1に対して手を挙げる両手を広げるといった簡易なジェスチャーによって受付可能状態にすることが可能となる。
【0136】
(実施の形態2)
実施の形態1では、ユーザがジェスチャーによって受付可能状態を開始させる態様を主に例示した。実施の形態2は、実施の形態1の態様において、さらに、収音装置307が受付可能状態を終了する態様の詳細を示したものである。
【0137】
図16は、実施の形態2に係る操作端末1の構成の一例を示すブロック図である。なお、本実施の形態において実施の形態1と同一の構成要素は同一の符号を付して説明を省略する。
【0138】
図16の操作端末1は図15の構成に加えてさらに、タイムアウト判定部702、終了条件判定部703、及び無音区間検出部705を備える。また、ジェスチャー抽出部、開始条件判定部、及び管理部は実施の形態1に対して機能が追加されているため、700、701及び704の参照符号を付している。なお、図16において、操作端末1は再生装置603及び表示装置602を有している必要はない。
【0139】
ジェスチャー抽出部700は、人検出部302から取得した検出結果及び骨格情報抽出部303から取得した骨格情報に基づいて、第一座標、第二座標及び第三座標を抽出し、第一座標、第二座標及び第三座標を含むジェスチャー抽出情報を開始条件判定部701に出力することに加えてさらに終了条件判定部703に出力する。なお、ジェスチャー抽出部700の処理の詳細は実施の形態1と同じである。
【0140】
開始条件判定部701は、ジェスチャー抽出部700から取得したジェスチャー抽出情報に含まれる第一座標、第二座標、及び第三座標の位置関係が開始条件を満たすか否かを判定し、満たすと判定した場合、開始条件が満たされていることを示す判定結果を管理部704及びタイムアウト判定部702に出力する。なお、実施の形態2において、位置関係が開始条件を満たすか否かの判定処理の詳細は図5のフローと同様である。
【0141】
タイムアウト判定部702は、開始条件判定部701から開始条件を満たされていることを示す判定結果を取得した場合、所定のタイムアウト期間(例えば10秒間)のカウントダウンを開始し、カウントダウンが完了すると、タイムアウト期間が経過したことを示す判定結果を管理部704に出力する。但し、タイムアウト判定部702は、カウントダウン中、すなわち、タイムアウト期間内に開始条件判定部701から開始条件が満たされたことを示す判定結果を取得した場合、タイムアウト期間を初期化し、最初からタイムアウト期間のカウントダウンを実行する。これにより、受付可能状態において、ユーザが音声入力の終了の意思表示を示すジェスチャーを行わずに、ジェスチャー可能範囲901をフェードアウトしたとしても、受付可能状態が継続されることを防止できる。したがって、ユーザが音声入力の終了の意思表示を示すジェスチャーをし忘れた場合において、受付可能状態が継続されることを防止できる。その結果、ユーザのプライバシーを確保できる。
【0142】
終了条件判定部703は、ジェスチャー抽出部700から取得したジェスチャー抽出情報に含まれる第一座標、第二座標、及び第三座標の位置関係が終了条件(第五条件の一例)を満たすか否かを判定し、満たすと判定した場合、終了条件が満たされていることを示す判定結果を管理部704に出力する。終了条件判定部703の処理の詳細は、図17のフローを用いて後述する。
【0143】
管理部704は、待受状態にある場合において、開始条件判定部701から開始条件が満たされたことを示す判定結果を取得した場合、メモリ309に記憶された状態フラグを立てると共に収音装置307に開始指示を出力することで、収音装置307を受付可能状態にする。
【0144】
また、管理部704は、受付可能状態にある場合において、タイムアウト判定部702からタイムアウト期間が経過したことを示す判定結果を取得した場合、メモリ309に記憶された状態フラグを下げると共に終了指示を収音装置307に出力することで、受付可能状態を終了させて待機状態にする。
【0145】
また、管理部704は、受付可能状態にある場合において、終了条件判定部703から終了条件が満たされたことを示すを判定結果を取得した場合、メモリ309に記憶された状態フラグを下げると共に終了指示を収音装置307に出力することで、受付可能状態を終了させて待機状態にする。これにより、ユーザが音声入力の終了の意思表示を示すジェスチャーをすることにより、受付可能状態を終了させることができる。なお、実施の形態1では、管理部306は、開始条件判定部305から開始条件が満たされていないことを示す判定結果を取得した場合、受付可能状態を終了したが、実施の形態2では、管理部704は、基本的に、終了条件判定部703から終了条件が満たされたことを示す判定結果を取得した場合、受付可能状態を終了する。
【0146】
なお、管理部704は、受付可能状態にある場合において、タイムアウト判定部702からタイムアウト期間が経過したことを示す判定結果を取得した場合、さらに、無音区間検出部705により有音区間が検出されていれば、受付可能状態を継続させてもよい。これにより、ユーザが操作端末1を操作する発話を行っているにも拘わらず、タイムアウト期間の経過を条件に、受付可能状態が自動的に終了する事態を回避できる。
【0147】
一方、管理部704は、受付可能状態にある場合において、タイムアウト判定部702からタイムアウト期間が経過したことを示す判定結果を取得した場合、さらに、無音区間検出部705により無音区間が検出されていれば、受付可能状態を終了する。
【0148】
無音区間検出部705は、収音音声記録部308に記録された最新の音声信号に無音区間が含まれているか否かを検出する。ここで、無音区間検出部705は、入力レベルが所定の閾値以下になっている時間が所定時間(例えば300ミリ秒)、継続した場合に音声信号に無音区間があると判定すればよく、無音区間の検出方式は特定の手法に限定されない。無音区間検出部705は、無音区間を検出すると、現在の収音状態を無音に設定して、管理部704に出力する。一方、無音区間検出部705は、有音区間を検出すると、現在の収音状態を有音に設定して、管理部704に出力する。
【0149】
実施の形態2において、ジェスチャー抽出部700、開始条件判定部701、タイムアウト判定部702、終了条件判定部703、及び管理部704は条件判定部の一例に相当する。
【0150】
図16において、操作端末1は、タイムアウト判定部702、終了条件判定部703、及び無音区間検出部705の全て備える必要はなく、少なくとも1つを備えていればよい。
【0151】
図17は、本開示の実施の形態2に係る終了条件判定部703の処理の一例を示すフローチャートである。
【0152】
ステップS801では、終了条件判定部703は、ジェスチャー抽出部700からジェスチャー抽出情報を取得する。
【0153】
ステップS802では、終了条件判定部703は、ステップS801で取得したジェスチャー抽出情報に基づいて、操作端末1の周囲のジェスチャー可能範囲901内にユーザが存在しているか否かを判定する。ジェスチャー可能範囲901内にユーザが存在しないと判定した場合(ステップS802でNO)、処理はステップS801に戻され、ジュスチャー抽出情報が取得される。一方、終了条件判定部703は、ジェスチャー可能範囲内にユーザが存在すると判定した場合(ステップS802でYES)、ステップS803を実行する。ここで、終了条件判定部703は、ジェスチャー抽出情報に含まれる第一座標及び第二座標などのユーザの位置を示す座標がジェスチャー可能範囲901内にあれば、ユーザはジェスチャー可能範囲901内に居ると判定し、前記座標がジェスチャー可能範囲901内になければ、ユーザはジェスチャー可能範囲901内に居ないと判定すればよい。
【0154】
ステップS803では、終了条件判定部703は、ジェスチャー抽出情報に含まれる第一座標、第二座標及び第三座標の位置関係が所定の終了条件(第5条件の一例)を満たしているか否かを判定する。そして、位置関係が終了条件を満たしていると判定した場合(ステップS803でYES)、終了条件判定部703は、ユーザが音声入力の終了の意思表示を示すジェスチャーを行ったため、処理をステップS804に進める。一方、位置関係が終了条件を満たしていないと判定した場合(ステップS803でNO)、終了条件判定部703は処理をステップS801に戻し、ジェスチャー抽出情報を取得する。
【0155】
ステップS804では、終了条件判定部703は、終了条件が満たされていることを示す判定結果を管理部704に出力する。ステップS804が終了すると、終了条件判定部703は、処理をステップS801に戻し、ジュスチャー抽出情報を取得する。
【0156】
次に、終了条件について説明する。図18は、終了条件を説明するために、ユーザU1の骨格情報201を例示した図である。図18は、ステップS803において、開始条件の比較対象となる第一座標、第二座標、及び第三座標が例示されている。図18の例では、第一座標として手首座標Hが採用され、第二座標として首元座標Nが採用され、第三座標として腰座標Wが採用されている。
【0157】
終了条件の第一例は、開始条件の第一例に対応するものであり、手首座標Hが首元座標Nよりも鉛直方向に対して第一閾値(例えば20cm)以上、小さい(低い)という条件である。この場合、ユーザU1は、手首座標Hが首元座標Nよりも鉛直方向に対して第一閾値以上低くなるように上肢を下げるジェスチャーを行うことによって、受付可能状態を終了できる。なお、上肢は右腕であってもよいし、左腕であってもよい。
【0158】
終了条件の第二例は、開始条件の第二例に対応するものであり、手首座標Hと首元座標Nとが鉛直方向に対して所定範囲内に収まらなくなるという条件である。この場合、ユーザU1は、胸元付近まで上げた手首座標Hを鉛直方向に閾値範囲外の位置まで降ろす又は上げるジェスチャーを行うことで、受付可能状態を終了できる。
【0159】
終了条件の第三例は、開始条件の第三例に対応するものであり、首元座標Nと腰座標Wとをつないだ体幹軸方向において、手首座標Hが首元座標Nよりも第一閾値以上小さいという条件である。この場合、ユーザU1は、手首座標Hが首元座標Nに対して体幹軸方向に対して第一閾値以上低くなるように上肢を下げるジェスチャーを行うことによって、受付可能状態を終了できる。
【0160】
終了条件の第四例は、開始条件の第四例に対応するものであり、手首座標Hと首元座標Nとが体幹軸方向に対して所定範囲内に収まらなくなるという条件である。この場合、ユーザU1は、胸元付近まで上げた手首座標Hを体幹軸方向に閾値範囲外の位置まで上げる又は下げるジェスチャーを行うことによって受け付け可能状態を終了できる。
【0161】
終了条件の第五例は、開始条件の第五例に対応するものであり、手首座標H及び首元座標Nを結んだ上肢方向を示す線分と、腰座標W及び首元座標Nを結んだ体幹軸方向を示す線分との成す角度が所定の第二閾値(100度、80度など)未満であるという条件である。この場合、ユーザU1は、起立状態又は寝ころんだ状態であるかっといった現在の姿勢に拘わらず、鉛直方向を意識せずに、体幹軸方向に対して手を下げるジェスチャーを行うことによって受付可能状態を終了できる。
【0162】
終了条件の第六例は、開始条件の第六例に対応するものであり、手首座標H及び首元座標Nを結んだ上肢方向を示す線分と、腰座標W及び首元座標Nを結んだ体幹軸方向を示す線分との成す角度が所定の角度範囲内に収まっているという条件である。この場合、ユーザU1は、起立状態又は寝ころんだ状態であるかっといった現在の姿勢に拘わらず、鉛直方向を意識せずに、体幹軸方向に対して手を下げるジェスチャーを行うことによって受付可能状態を終了できる。
【0163】
終了条件は、第一例〜第六例のうちいずれか2以上を組み合わせた条件であってもよい。例えば、終了条件は、第一例〜第六例のうちいずれか2以上の条件が共に成立したという条件が採用できる。或いは、終了条件は、第一例〜第六例のうちいずれか1つが成立したという条件であってもよい。ここでは、終了条件の第一例〜第六例は共に上肢を下げるジェスチャーが想定されているが、これは一例である。例えば、開始条件として上肢を下げる又は両手を下げるジェスチャーが採用されているのであれば、終了条件として上肢を上げる又は両手を上げるジェスチャーが終了条件として採用されてもよい。すなわち、終了条件は、開始条件と重複しないという制約が満たされているのであれば、どのような条件が採用されてもよい。
【0164】
次に、ステップS802の処理の一例について図8を用いて説明する。終了条件判定部703は、開始条件判定部701と同様、ユーザU1の位置が操作端末1に対して下限値D1から上限値D2までの範囲内に位置する、すなわち、ジェスチャー可能範囲901にユーザが位置する場合、ジェスチャーを検出する。一方、終了条件判定部703は、ユーザU1の位置が操作端末に対して下限値D1以下に位置する場合、又は、ユーザU1の位置が操作端末1に対して上限値D2以上の範囲に位置する場合、ユーザU1のジェスチャーを検出しない。
【0165】
ユーザU1の位置が操作端末1に対して近すぎる場合、ユーザU1のジェスチャーをうまく検出できない可能性があることに加えてユーザU1が音声入力の終了の意思表示を示すジェスチャーをし忘れてジェスチャー可能範囲901をフェードアウトした可能性がある。また、ユーザU1の位置が操作端末1に対して遠すぎる場合、ユーザU1が音声入力の終了の意思表示を示すジェスチャーをし忘れてジェスチャー可能範囲901をフェードアウトした可能性がある。そこで、本実施の形態では、終了条件判定部703は、ユーザU1がジェスチャー可能範囲901に居る場合にユーザU1のジェスチャーを検出する処理、すなわち、終了条件を満たすか否かを判定する処理を実施することにした。これにより、ジェスチャーの検出精度の低下を防止できると共にユーザU1が音声入力の終了の意思表示を示すジェスチャーをし忘れている場合において、受付可能状態が継続されることを防止できる。
【0166】
また、終了条件判定部703は、開始条件判定部701と同様、1又は複数の第一座標と1又は複数の第二座標とがジェスチャー抽出情報に含まれている場合は、これらの座標を用いて、終了条件を判定してもよい。
【0167】
例えば、ジェスチャー抽出情報に複数の第一座標と1つの第二座標とが含まれている場合、終了条件判定部703は、複数の第一座標(例えば、手首座標H、肘座標、及び肩座標)のうち少なくとも1つの第一座標が1つの第二座標(例えば、首元座標N)に対して鉛直方向又は体幹軸方向に第一閾値以上、小さければ、終了条件を満たすと判定すればよい。また、ジェスチャー抽出情報に1つの第一座標と複数の第二座標とが含まれる場合、終了条件判定部703は、1つの第一座標(例えば、手首座標H)が複数の第二座標(例えば、胴体座標、首元座標N、頭の先の座標)の少なくとも1つの第二座標に対して鉛直方向又は体幹軸方向に第一閾値以上、小さければ、終了条件を満たすと判定すればよい。但し、開始条件と終了条件とは重複していてはならない。
【0168】
次に、タイムアウト期間が延長される処理の詳細について説明する。図19は、本開示の実施の形態2に係るタイムアウト判定部702の処理の一例を示すフローチャートである。
【0169】
S1601では、タイムアウト判定部702は、タイムアウト期間のカウントダウン中であるか否かを判定する。カウントダウン中であれば(ステップS1601でYES)、タイムアウト判定部702は、処理をS1602に進め、カウントダウン中でなければ(ステップS1601でNO)、処理をステップS1601に戻す。
【0170】
ステップS1602では、タイムアウト判定部702は、開始条件判定部701から開始条件が満たされることを示す判定結果を取得したか否かを判定する。この判定結果を取得した場合(ステップS1602でYES)、タイムアウト判定部702は、処理をステップS1603に進め、この判定結果を取得しない場合(ステップS1602でNO)、処理をステップS1601に戻す。
【0171】
ステップS1603では、タイムアウト判定部702は、タイムアウト期間を初期値に戻して、再度カウントダウンを開始することで、タイムアウト期間を延長する。ステップS1603の処理が終了すると、処理はステップS1601に戻る。
【0172】
以上により、ジェスチャー可能範囲901内でユーザが音声入力の意思表示を示すジェスチャーを行っている限り、タイムアウト期間は延長され、操作端末1を操作する発話が収音されない事態を回避できる。
【0173】
次に、管理部704の処理について説明する。図20は、本開示の実施の形態2に係る管理部704が受付可能状態を終了させるときの処理の一例を示すフローチャートである。なお、管理部704が受付可能状態を開始させるときの処理は図6と同じであるため、ここでは、説明を省略する。ステップS1701では、管理部704は、メモリ309に記憶された状態フラグを参照することで、受付可能状態であるか否かを判定する。受付可能状態であれば(ステップS1701でYES)、処理はステップS1702に進み、受付可能状態でなければ(ステップS1701でNO)、処理はステップS1701に戻る。
【0174】
ステップS1702では、管理部704は、終了条件判定部703から終了条件が満たされていることを示す判定結果を取得できたか否かを判定する。この判定結果が取得された場合(ステップS1702でYES)、処理はステップS1705に進み、この判定結果が取得されなかった場合(ステップS1702でNO)、処理はステップS1703に進む。
【0175】
ステップS1703では、管理部704は、タイムアウト判定部702からタイムアウト期間が経過したことを示す判定結果を取得したか否かを判定する。この判定結果が取得された場合(ステップS1703でYES)、処理はステップS1704に進み、この判定結果が取得されない場合(ステップS1703でNO)、処理はステップS1701に戻る。
【0176】
ステップS1704では、管理部704は、無音区間検出部705から出力された収音状態が無音であることを示すか否かを判定する。収音状態が無音であることを示せば(ステップS1704でYES)、処理はステップS1705に進み、収音状態が有音であることを示せば(ステップS1704でNO)、処理はステップS1701に戻る。これにより、タイムアウト期間の経過時に無音区間が検出されていれば、受付可能状態が終了され、有音区間が検出されていれば、受付可能状態は継続される。
【0177】
ステップS1705では、管理部704は、受付可能状態を終了し、処理をステップS1701に戻す。
【0178】
以上、実施の形態2によれば、、ユーザは操作端末1に対して、例えば、手を上げるというような簡易なジェスチャーによって受付可能状態を開始させ、手を下げるというような簡易なジェスチャーによって受付可能状態を終了させることができる。
【0179】
次に、実施の形態2の変形例について説明する。実施の形態2においても、実施の形態1と同様、図9に示すように、に操作端末1に対して複数のユーザがジェスチャーを行う場合、ジェスチャー抽出部700は、1人の操作者を特定してもよい。この場合、ジェスチャー抽出部700は、実施の形態1と同様、最も近くにいるユーザを操作者として特定してもよいし、最初に検出されたユーザがジェスチャー可能範囲901を出るまで、そのユーザを操作者として特定し続けてもよい。
【0180】
図16の例では、撮像装置301、収音装置307、再生装置603、及び表示装置602は、操作端末1が備えていたが、本開示はこれに限定されない。例えば、図21に示すように、撮像装置301、再生装置603、及び表示装置602は、操作端末1とは別の装置で構成されてもよい。
【0181】
図21は、撮像装置301、再生装置603、及び表示装置602を操作端末1とは別の装置で構成した場合の構成の一例を示す図である。図21において、撮像装置301、再生装置603、及び表示装置602はLAN等のネットワークを介して相互に通信可能に接続されている。
【0182】
図21の例では、ユーザU1が収音装置307を有した操作端末1に対して行ったジェスチャーが、操作端末1とは別体の撮像装置301により撮像され、撮像装置301は得られた空間情報から音声入力の開始の意思表示を示すジェスチャー又は音声入力の終了の意思表示を示すジェスチャーとを検出し、検出結果を操作端末1に送信する。操作端末1は、撮像装置301による検出結果に応じて、収音装置307を受付可能状態又は待機状態にする。そして、操作端末1は、状態通知を表示装置602及び再生装置603に送信し、表示装置602及び再生装置603から図10図14に示すような状態通知を出力させる。
【0183】
また、図21において、操作端末1、撮像装置301、表示装置602、及び再生装置603は、それぞれ、複数の装置で構成されてもよいし、一つの装置に一体的に構成されていてもよい。また、図21の例では、収音装置307は操作端末1が備えているが、操作端末1とは別体の装置で構成されていてもよい。
【0184】
さらに、実施の形態2において、管理部704は、受付可能状態において、無音区間が検出された場合、ユーザがジェスチャー可能範囲901に居るか否かに拘わらず、音声入力の終了の意思表示を示すジェスチャーをするか否かに拘わらず、或いは、タイムアウト期間が経過するか否かに拘わらず、受付可能状態を終了させてもよい。
【産業上の利用可能性】
【0185】
本開示によって実現される、操作端末の音声入力の開始および終了をユーザのジェスチャーによって判定する技術は、ユーザが厳密なジェスチャーを覚える必要がなくなり、ジェスチャーによる簡易な音声入力の開始および終了を実現する手法として有用である。
【符号の説明】
【0186】
1 :操作端末
300 :プロセッサ
301 :撮像装置
302 :人検出部
303 :骨格情報抽出部
304 :ジェスチャー抽出部
305 :開始条件判定部
306 :管理部
307 :収音装置
308 :収音音声記録部
309 :メモリ
501 :ディスプレイ
502 :テキスト
503 :アイコン
504 :色
505 :発光装置
506 :スピーカ
601 :管理部
602 :表示装置
603 :再生装置
700 :ジェスチャー抽出部
701 :開始条件判定部
702 :タイムアウト判定部
703 :終了条件判定部
704 :管理部
705 :無音区間検出部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21