(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-05
(45)【発行日】2024-08-14
(54)【発明の名称】情報処理装置、及びコマンド処理方法
(51)【国際特許分類】
G06F 3/01 20060101AFI20240806BHJP
G06F 3/16 20060101ALI20240806BHJP
G06T 7/00 20170101ALN20240806BHJP
G06T 7/70 20170101ALN20240806BHJP
G06V 40/16 20220101ALN20240806BHJP
G10L 15/00 20130101ALN20240806BHJP
G10L 15/10 20060101ALN20240806BHJP
G10L 15/28 20130101ALN20240806BHJP
【FI】
G06F3/01 570
G06F3/16 630
G06T7/00 P
G06T7/00 660A
G06T7/70 B
G06V40/16 Z
G10L15/00 200Z
G10L15/10 200W
G10L15/28 230K
(21)【出願番号】P 2021553461
(86)(22)【出願日】2020-10-20
(86)【国際出願番号】 JP2020039401
(87)【国際公開番号】W WO2021085242
(87)【国際公開日】2021-05-06
【審査請求日】2023-09-11
(31)【優先権主張番号】P 2019197969
(32)【優先日】2019-10-30
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】岩瀬 広
(72)【発明者】
【氏名】滝 祐平
(72)【発明者】
【氏名】澤井 邦仁
【審査官】九鬼 一慶
(56)【参考文献】
【文献】国際公開第2018/034077(WO,A1)
【文献】特開2016-109726(JP,A)
【文献】特開2016-218852(JP,A)
【文献】国際公開第2004/104986(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/01
G06F 3/0484
G06F 3/16
G06T 7/00
G06T 7/70
G10L 15/00
G10L 15/10
G10L 15/28
(57)【特許請求の範囲】
【請求項1】
時間的変化を伴う操作対象
を表示する表示部と、
コマンドを入力するユーザを撮影する撮影部と、
前記撮影部により撮影された画像から前記ユーザの顔の向き及び視線の少なくとも一方を検出する画像認識部と、
前記操作対象に対する
コマンドであって、ジェスチャ
を用いて入力される前記コマンドの入力開始タイミングを検出する検出部と、
前記ジェスチャを用いてコマンドが入力された際に前記画像認識部により検出された顔の向き及び視線の少なくとも一方から前記ユーザが前記表示部を見ているかを判定し、前記ユーザが前記表示部を見ている場合、前記検出部により検出した入力開始タイミングでの前記操作対象の状態に基づいて、前記ジェスチャから認識されるコマンドの処理を実施するコマンド処理部と、
を有
し、
前記操作対象は、複数のアイテムから選択対象のアイテムが順に遷移し、
前記コマンド処理部は、前記検出部により検出した前記入力開始タイミングで選択対象であるアイテムから遷移が所定範囲のアイテムを番号で選択可能に前記表示部に表示する
情報処理装置。
【請求項2】
前記コマンドは、音声により入力され、
前記検出部は、音声によるコマンドの入力開始タイミングを検出する
請求項1に記載の情報処理装置。
【請求項3】
前記コマンド処理部は、前記検出部により検出した入力開始タイミングから、コマンドを入力するユーザの属性に応じた認知時間分を変更したタイミングでの前記操作対象の状態に基づいて、前記コマンドの処理を実施する
請求項1に記載の情報処理装置。
【請求項4】
前記検出部は、前記撮影部により撮影された画像の認識結果から入力開始タイミングを検出する
請求項
1に記載の情報処理装置。
【請求項5】
時間的変化を伴う操作対象に対するコマンドであって、ジェスチャを用いて入力される前記コマンドの入力開始タイミングを検出する検出部と、
前記検出部により検出した入力開始タイミングから一定期間の間の前記操作対象の時間的変化を循環して表示させると共に、前記入力開始タイミングでの前記操作対象の状態に基づいて、前記ジェスチャから認識されるコマンドの処理を実施するコマンド処理部と、
を有する情報処理装置。
【請求項6】
前記コマンド処理部は、前記一定期間の間の前記操作対象の状態を識別する検索タグを表示させる
請求項
5に記載の情報処理装置。
【請求項7】
時間的変化を伴う操作対象に対するコマンドであって、音声により入力される前記コマンドの入力開始タイミングを検出する検出部と、
前記検出部により検出した入力開始タイミングでの前記操作対象の状態に基づいて、前記音声から認識されるコマンドの処理を実施するコマンド処理部と、
を有し、
前記コマンド処理部は、音声認識の起動ワードよりも前に行われた発話の入力開始タイミングから起動ワードの発話までの時間が規定時間以下の場合、起動ワードよりも前に行われた発話の入力開始タイミングでの操作対象の状態に基づいて、前記コマンドの処理を実施する
情報処理装置。
【請求項8】
コンピュータが、
コマンドを入力するユーザを撮影する撮影部により撮影された画像から画像認識により前記ユーザの顔の向き及び視線の少なくとも一方を検出し、
表示部に表示される時間的変化を伴う操作対象に対する
コマンドであって、ジェスチャ
を用いて入力される前記コマンドの入力開始の入力開始タイミングを検出し、
前記ジェスチャを用いてコマンドが入力された際に前記画像認識により検出された顔の向き及び視線の少なくとも一方から前記ユーザが前記表示部を見ているかを判定し、前記ユーザが前記表示部を見ている場合、検出した入力開始タイミングでの前記操作対象の状態に基づいて、前記ジェスチャから認識されるコマンドの処理を実施する
コマンド処理方法。
【請求項9】
コンピュータが、
時間的変化を伴う操作対象に対するコマンドであって、ジェスチャを用いて入力される前記コマンドの入力開始の入力開始タイミングを検出し、
検出した入力開始タイミングから一定期間の間の前記操作対象の時間的変化を循環して表示させると共に、前記入力開始タイミングでの前記操作対象の状態に基づいて、前記ジェスチャから認識されるコマンドの処理を実施する
コマンド処理方法。
【請求項10】
コンピュータが、
時間的変化を伴う操作対象に対するコマンドであって、音声により入力される前記コマンドの入力開始の入力開始タイミングを検出し、
検出した入力開始タイミングでの前記操作対象の状態に基づいて、前記音声から認識されるコマンドの処理を実施し、音声認識の起動ワードよりも前に行われた発話の入力開始タイミングから起動ワードの発話までの時間が規定時間以下の場合、起動ワードよりも前に行われた発話の入力開始タイミングでの操作対象の状態に基づいて、前記コマンドの処理を実施する
コマンド処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、及びコマンド処理方法に関する。
【背景技術】
【0002】
音声によるコマンドの入力を受け付け、受け付けた音声を認識し、認識結果に対応した処理を実行する技術が知られている。例えば、特許文献1には、受け付けた音声の開始部分のみを認識対象とし、その開始部分が認識された時点で、その認識結果に対応した処理を開始する技術が提案されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、特許文献1に記載の技術は、音声を認識した後、認識結果に対応した処理を開始するため、認識処理の分だけ処理の開始に遅延が発生し、意図したタイミングでコマンドの処理を実施できない場合がある。
【0005】
そこで、本開示では、操作対象に対して意図したタイミングでコマンドの処理を実施できる情報処理装置、及びコマンド処理方法を提案する。
【課題を解決するための手段】
【0006】
本開示によれば、情報処理装置は、検出部と、コマンド処理部とを有する。検出部は、時間的変化を伴う操作対象に対するジェスチャによるコマンドの入力開始タイミングを検出する。コマンド処理部は、検出部により検出した入力開始タイミングでの操作対象の状態に基づいて、ジェスチャから認識されるコマンドの処理を実施する。
【図面の簡単な説明】
【0007】
【
図1】従来の時間的変化を伴う操作対象に対する音声による操作の一例を示す図である。
【
図2】本開示の実施形態に係る情報処理システムの構成例を示す図である。
【
図3】本開示の実施形態に係る情報処理システムの機能的な構成例を示す図である。
【
図4】本開示の実施形態に係る時間的変化を伴う操作対象に対する音声による操作の一例を示す図である。
【
図5】本開示の実施形態に係る入力開始タイミングの検出手法を説明する図である。
【
図6】本開示の実施形態に係る入力開始タイミングの検出手法を説明する図である。
【
図7】本開示の実施形態に係る入力開始タイミングの検出手法を説明する図である。
【
図8】本開示の実施形態に係る操作履歴からユーザ個人の認知時間の傾向を推定する一例を説明する図である。
【
図9A】本開示の実施形態に係る時間的変化を伴う操作対象の他の一例を示す図である。
【
図9B】本開示の実施形態に係る時間的変化を伴う操作対象の他の一例を示す図である。
【
図9C】本開示の実施形態に係る時間的変化を伴う操作対象の他の一例を示す図である。
【
図10】本開示の実施形態に係る時間的変化を伴う操作対象に対する音声による操作の一例を示す図である。
【
図11】本開示の実施形態に係る状態記憶処理を説明するフローチャートである。
【
図12】本開示の実施形態に係るコマンド処理を説明するフローチャートである。
【
図14A】本開示の検索タグの一例を示す図である。
【
図14B】本開示の検索タグの一例を示す図である。
【
図14C】本開示の検索タグの一例を示す図である。
【
図16A】本開示の操作対象の表示の一例を説明する図である。
【
図16B】本開示の操作対象の表示の一例を説明する図である。
【発明を実施するための形態】
【0008】
以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
【0009】
また、以下に示す項目順序に従って本開示を説明する。
1-1.はじめに
1-2.実施形態の概要
2-1.実施形態に係る情報処理システムの構成
2-2.具体例
2-3.実施形態に係る処理の流れ
3.変形例
4.実施形態の効果
【0010】
<1-1.はじめに>
従来から、ジェスチャを用いてコマンドの入力を行う技術がある。以下では、ジェスチャを音声とし、音声によりコマンドの入力を行う場合を例に説明するが、これに限定されるものではない。ジェスチャを身振り、手振りなどの身体的な動作とし、身体的な動作によりコマンドの入力を行う場合に本開示の技術を適用してもよい。
【0011】
例えば、時間的変化を伴う操作対象を音声によるコマンドで操作する場合、ユーザは、操作の意思決定を行ったタイミングで音声によりコマンドを入力する。しかし、発話や音声認識処理の分だけコマンドの実行に遅延(レイテンシ)が発生して操作対象の状態が変化してしまい、ユーザが意図したとおりの操作が行えない場合がある。
【0012】
図1は、従来の時間的変化を伴う操作対象に対する音声による操作の一例を示す図である。
図1には、時間的変化を伴う操作対象として、音量を調整するための音量インジケータ80が示されている。音量インジケータ80は、音量を示すスライダーバー80aが設けられている。音量インジケータ80は、スライダーバー80aを移動させることにより音量の操作が可能とされている。また、音量インジケータ80は、スライダーバー80aが音声による音量の操作に応じて移動する。
図1は、システムが、音声によるコマンドを受け付けて音量インジケータ80の音量を設定する場合を示している。システムは、「音量上げて」の音声により、音量を連続的に増加させ、「ストップ」の音声により、音量の増加を停止する。ユーザは、音量を増加させる場合、「音量上げて」と発話した後、増加する音量を聞きながら目的とする音量が聞こえた時点で「ストップ」の発話を開始する。しかし、システムは、「ストップ」の発話が終わった後に音声認識・意味理解処理を行って音量の増加を停止する。これにより、ユーザが本来設定したかった「ストップ」の発話開始時の音量に対して、レイテンシ分の時間増加した音量まで行き過ぎて設定されてしまう(オーバーシュート)。音声認識を使ったコマンド操作では、システムは、ユーザがコマンドを発話し終わって音声認識されたテキストをコマンドとして解釈するまで、実行する処理を決定できない。このため、システムでは、ユーザが発話を開始してからコマンドの処理を実行するまでのレイテンシが発生してしまう。この結果、ユーザが意図したタイミングでコマンドの処理を実施できない。
【0013】
<1-2.実施形態の概要>
そこで、本実施形態では、時間的変化を伴う操作対象に対するジェスチャによるコマンドの入力開始タイミングを検出し、検出した入力開始タイミングでの操作対象の状態に基づいて、ジェスチャから認識されるコマンドの処理を実施する。これにより、操作対象に対してユーザが意図したタイミングでコマンドの処理の実施が可能となる。
【0014】
以上、本実施形態の概要を述べたが、以下、本実施形態を詳細に説明する。
【0015】
<2-1.実施形態に係る情報処理システムの構成>
図2を用いて、実施形態に係る情報処理を実行する情報処理装置の一例である情報処理装置10、及びサーバ装置20を含む情報処理システム1の構成について説明する。
図2は、本開示の実施形態に係る情報処理システム1の構成例を示す図である。情報処理システム1は、ジェスチャによるコマンドの入力を提供するシステムである。
【0016】
情報処理装置10は、時間的変化を伴う操作対象に対するユーザからのジェスチャによるコマンドの入力を受け付ける情報処理端末である。本実施形態では、情報処理装置10は、ユーザからの音声によるコマンドの入力を受け付ける。情報処理装置10は、パソコンや、ユーザが携帯するスマートフォン、タブレット端末等の携帯端末であってもよい。本実施形態では、情報処理装置10が本開示に係る情報処理装置に対応する。
【0017】
サーバ装置20は、ジェスチャにより入力されたコマンドの認識処理を行うサーバ装置である。本実施形態では、サーバ装置20は、音声により入力されたコマンドの認識処理を行う。
【0018】
まず、情報処理装置10の構成について説明する。
図2に示すように、情報処理装置10は、表示部11と、撮影部12と、音声出力部13と、音声入力部14と、記憶部15と、通信部16と、制御部17とを有する。なお、情報処理装置10は、情報処理装置10を利用するユーザ等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)を有してもよい。
【0019】
表示部11は、各種情報を表示する表示デバイスである。表示部11としては、LCD(Liquid Crystal Display)やCRT(Cathode Ray Tube)などの表示デバイスが挙げられる。表示部11は、制御部17の制御に基づき、各種情報を表示する。例えば、表示部11は、時間的変化を伴う操作対象を表示した画面を表示する。
【0020】
撮影部12は、カメラ等の撮像デバイスである。撮影部12は、制御部17からの制御に基づき、画像を撮影し、撮影した画像データを制御部17に出力する。
【0021】
音声出力部13は、スピーカー等の音響出力デバイスである。撮影部12は、制御部17からの制御に基づき、各種の音声を出力する。
【0022】
音声入力部14は、マイク等の集音デバイスである。撮影部12は、ユーザの音声などを集音し、集音した音声データを制御部17に出力する。
【0023】
記憶部15は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部15は、後述する状態記憶処理及びコマンド処理を制御する制御プログラムを含む各種プログラムを記憶する。また、記憶部15は、各種データを記憶する。
【0024】
通信部16は、例えば、NIC(Network Interface Card)等によって実現される。通信部16は、ネットワークN(インターネット等)と有線又は無線で接続され、ネットワークNを介して、サーバ装置20等との間で情報の送受信を行う。
【0025】
制御部17は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置10内部に記憶されたプログラムがRAM(Random Access Memory)等を作業領域として実行されることにより実現される。また、制御部17は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
【0026】
続いて、サーバ装置20の構成について説明する。
図2に示すように、サーバ装置20は、通信部21と、記憶部22と、制御部23とを有する。なお、サーバ装置20は、サーバ装置20を利用するユーザ等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
【0027】
通信部21は、例えば、NIC等によって実現される。通信部21は、ネットワークNと有線又は無線で接続され、ネットワークNを介して、情報処理装置10等との間で情報の送受信を行う。
【0028】
記憶部22は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部22は、各種プログラムを記憶する。また、記憶部22は、各種データを記憶する。例えば、記憶部22は、ユーザデータ40と、コンテンツデータ41とを記憶する。
【0029】
ユーザデータ40は、各ユーザの認知時間、操作履歴等、ユーザ個別の各種情報を記憶したデータである。コンテンツデータ41は、音楽や動画などのコンテンツを記憶したデータである。
【0030】
制御部23は、例えば、CPUやMPU等によって、サーバ装置20内部に記憶されたプログラム等を作業領域として実行されることにより実現される。また、制御部17は、コントローラであり、例えば、ASICやFPGA等の集積回路により実現されてもよい。
【0031】
本実施形態では、情報処理装置10の制御部17とサーバ装置20制御部23とが、処理を分散して実施することでジェスチャによるコマンドの入力を受け付け、ジェスチャから認識されるコマンドの処理を実施する。例えば、制御部17が、検出部30と、コマンド処理部31と、出力制御部32とを有し、制御部23が、音声認識部33と、意味理解部34と、画像認識部35とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部17及び制御部23は、
図2に示した構成に限定されるものではなく、以下に説明する情報処理の機能や作用を実現可能な構成であれば他の構成であってもよい。
【0032】
図3は、本開示の実施形態に係る情報処理システム1の機能的な構成例を示す図である。
図3では、破線L1の左側が情報処理装置10側の構成要素であり、破線L1の右側がサーバ装置20側の構成要素である。なお、情報処理装置10とサーバ装置20の構成要素の境界は、破線L1に限定されるものではない。検出部30、コマンド処理部31、出力制御部32、音声認識部33、意味理解部34、画像認識部35、ユーザデータ40、及びコンテンツデータ41は、情報処理装置10側、サーバ装置20側のどちらの構成要素とされてもよい。例えば、情報処理装置10とサーバ装置20の構成要素の境界を破線L2として、全て情報処理装置10側の構成要素としてもよい。また、情報処理装置10とサーバ装置20の構成要素の境界を破線L3として、全てサーバ装置20側の構成要素としてもよい。この場合、サーバ装置20が本開示に係る情報処理装置に対応する。
【0033】
ユーザが発話した音声は、音声入力部14を通して情報処理システム1に入力される。音声入力部14は、入力された音声をA/D変換して音声データに変換し、変換した音声データを検出部30に出力する。
【0034】
検出部30は、入力した音声データに対して音声区間検出(VAD:Voice Activity Detection)を行って発話区間を検出し、発話区間の音声データを音声認識部33に出力する。また、検出部30は、入力した音声データから音声によるコマンドの入力開始タイミングを検出する。例えば、検出部30は、音声区間検出で発話区間が有効になるタイミングを入力開始タイミングと検出する。検出部30は、検出した入力開始タイミングをコマンド処理部31に出力する。
【0035】
音声認識部33は、音声区間検出で発話区間として検出された音声データに対して音声認識(ASR:Automatic Speech Recognition)処理を行い、音声データをテキストデータに変換する。これにより、音声入力部14に入力されたユーザの音声がテキスト化される。意味理解部34は、音声認識部33により変換されたテキストデータに対して自然言語理解(NLU:Natural language understanding)などの意味理解処理を行って、発話意図(Intent+Entity)を推定する。意味理解部34は、推定した発話意図を示す発話意図情報をコマンド処理部31に出力する。
【0036】
ユーザの画像は、撮影部12を通して情報処理システム1に入力される。撮影部12は、周期的に画像を撮影し、撮影した画像データを画像認識部35に出力する。画像認識部35は、入力する画像データに対して顔認識や視線認識を行い、認識された顔の顔向きや視線の認識を行い、認識結果を示す画像認識情報をコマンド処理部31に出力する。
【0037】
出力制御部32は、コマンド処理部31からの出力指示に基づいて、コンテンツデータ41のコンテンツを音声出力部13や表示部11を通してユーザに出力する。
【0038】
コマンド処理部31は、検出部30から入力開始タイミングが入力し、意味理解部34から発話意図情報が入力し、画像認識部35から画像認識情報が入力する。また、コマンド処理部31は、出力制御部32から操作対象の状態を取得する。例えば、コマンド処理部31は、検出部30により検出した入力開始タイミングでの操作対象の状態を出力制御部32から取得する。コマンド処理部31は、検出部30から入力される入力開始タイミング、意味理解部34から入力される発話意図情報、画像認識部35から入力される画像認識情報、出力制御部32から取得した操作対象の状態に基づき、出力制御部32に対して出力指示を行う。コマンド処理部31は、検出部30により検出した入力開始タイミングでの操作対象の状態に基づいて、音声から認識されるコマンドの処理を実施する。例えば、コマンド処理部31は、入力開始タイミングの時刻又は当該時刻の操作対象の状態を記憶する。そして、コマンド処理部31は、記憶した時刻の状態まで操作対象の状態を戻して又は記憶した操作対象の状態に対して、コマンドの処理を実施する。
【0039】
これにより、操作対象に対して意図したタイミングでコマンドの処理を実施できる。
図4は、本開示の実施形態に係る時間的変化を伴う操作対象に対する音声による操作の一例を示す図である。
図4には、
図1と同様に音量インジケータ80が示されている。音量インジケータ80は、スライダーバー80aが音声による音量の操作に応じて移動する。例えば、
図1と同様に、ユーザが「音量上げて」と発話した後、「ストップ」と発話した場合、一旦、音量がレイテンシ分オーバーシュートするが、「ストップ」の発話の入力開始タイミングの位置に音量が補正されてストップの処理が実施される。このように、音量インジケータ80に対して意図したタイミングでコマンドの処理を実施できる。
【0040】
<2-2.具体例>
以下、本開示の実施形態について、具体例を用いて説明する。最初に、入力開始タイミングの検出手法について説明する。
図5は、本開示の実施形態に係る入力開始タイミングの検出手法を説明する図である。
図5には、動画コンテンツの再生に関する操作を音声によるコマンドで実施する場合のシーケンスが示されている。
図5には、ユーザの発話、発話区間検出、音声認識、意味理解の各期間がそれぞれ示されている。また、
図5の下部には、再生により表示される動画コンテンツ「1」~「5」が示されており、各動画コンテンツの下部に動画の再生位置を示すシークバー81が示されている。
図5では、動画コンテンツを早送りするため、ユーザが「早送り」の発話をした後、停止を希望するタイミングで「ストップ」の発話をした場合を示している。
【0041】
検出部30は、入力した音声データから音声によるコマンドの入力開始タイミングを検出する。例えば、検出部30は、音声区間検出で発話区間が有効になるタイミングを入力開始タイミングと検出する。なお、検出部30は、発話区間が有効になるタイミングではなく、音声データが示す入力音量(例えばRMS(Root Mean Square))が一定閾値以上となったタイミングを入力開始タイミングと検出してもよい。
【0042】
コマンド処理部31は、検出部30により検出された入力開始タイミングで、後述の更新フラグfu=Trueの場合、操作対象の状態を記憶する。
図5の例では「早送り」の発話の開始タイミングでの動画コンテンツ「1」の再生位置Ptが記憶される。
【0043】
ユーザの「早送り」の発話後、ASRタイムアウト時間taが経過すると、「早送り」の発話の音声データは、音声認識部33により、発話テキスト「早送り」に変換されて意味理解部34に送られる。そして、意味理解部34による推定結果として発話意
図Intent=FastFowardがコマンド処理部31に入力される。
【0044】
コマンド処理部31は、発話意
図Intentが解釈不能な意
図OOD(Out Of Domain)以外であった場合、後続の開始タイミングで操作対象の状態を更新するように更新フラグfuを設定する(更新フラグfu=True)。更新フラグfuは、後続の開始タイミングで操作対象の状態を更新して記憶する否かを示すフラグである。
図5の例では、発話意
図Intent=FastFowardがシステム解釈可能な意図(OOD以外)であるため、更新フラグfu=Trueとなる。
【0045】
次の「ストップ」の発話の開始タイミングでは、更新フラグfu=Trueである。このため、コマンド処理部31は、「早送り」の発話の開始タイミングで記憶した再生位置Ptを破棄し、「ストップ」の発話の開始タイミングでの再生位置Ptを記憶する。
【0046】
「ストップ」の発話後、ASRタイムアウト時間taが経過すると、「ストップ」の発話の音声データは、音声認識部33により、発話テキスト「ストップ」に変換されて意味理解部34に送られる。そして、意味理解部34による推定結果として発話意
図Intent=Stopがコマンド処理部31に入力される。コマンド処理部31は、「ストップ」の発話の後に、意味理解部34から発話意
図Intent=Stopを受け取ると、再生位置Ptの位置で早送りを停止させる。
図5の例では、「ストップ」の発話の開始タイミングに表示されていた動画コンテンツ「4」で早送りが停止している。これは、ユーザが早送りの停止の意思決定をしたタイミングを「ストップ」の発話の入力開始タイミングとして検出し、時間変化する操作対象の状態をユーザの意思決定のタイミングの状態まで戻す補正処理をしたことを意味している。なお、上述の説明では、コマンド処理部31は、入力開始タイミングでの操作対象の状態として、再生位置Ptを記憶・更新している。しかし、コマンド処理部31は、入力開始タイミングでの操作対象の状態として、入力開始タイミングの時刻Tbを記憶し、後述の手法により、操作対象の状態を時刻Tbの状態まで戻して、コマンドの処理を実施してもよい。
【0047】
ところで、ユーザは、音声によりコマンドを発話する際に、フィラーを発話する場合がある。フィラーとは、例えば、「あー」や「えー」、「んー」などの単体で特定の意味を有せず、発話の合間に挟み込むつなぎの言葉である。ユーザは、コマンドを発話する際に、コマンドの直前にフィラーを発話する場合がある。例えば、ユーザは、コマンドの発話タイミングであることに突然気がついた場合など、コマンドの直前にフィラーを発話する場合がある。一方、ユーザは、コマンドとは関係なく、フィラーを発話する場合がある。
【0048】
そこで、コマンド処理部31は、コマンドの直前にフィラーが発話された場合、フィラーの発生開始のタイミングでの操作対象の状態に対して、コマンドの処理を実施する。
【0049】
図6は、本開示の実施形態に係る入力開始タイミングの検出手法を説明する図である。
図6には、
図5の「早送り」の発話があった後からの動画コンテンツの再生に関する操作を音声によるコマンドで実施する場合のシーケンスが示されている。
図6では、ユーザが停止を希望するタイミングで「んーー」と発話した後に「ストップ」の発話をした場合を示している。
【0050】
コマンド処理部31は、フィラー発話の後に所定の規定時間th以内に音声によるコマンドが入力された場合、操作対象をフィラー発話の入力開始タイミングの状態に戻して、コマンドの処理を実施する。規定時間thは、フィラーがコマンドの直前されたものであり、フィラーがコマンドと共に発話されたものと見なせる時間とする。例えば、規定時間thは、2秒とする。
【0051】
例えば、コマンド処理部31は、「んーー」と発話の入力開始タイミングで、更新フラグfu=Trueの場合、操作対象の状態を記憶する。
図6の例では、「んーー」の前に
図5の「早送り」の発話があったことで更新フラグfu=Trueとなっているため、「んーー」と発話の入力開始タイミングでの動画コンテンツの再生位置Ptが記憶される。
【0052】
コマンド処理部31は、発話意
図IntentがOODであった場合、後続の開始タイミングで操作対象の状態を更新しないように更新フラグfuを設定する(更新フラグfu=False)。
図6の例では、ユーザのフィラーの発話「んーー」の意味理解部34による推定結果、発話意
図Intent=OODとなるため、更新フラグfu=Falseとなる。コマンド処理部31は、更新フラグfu=Falseとした場合、後続の発話開始タイミングまでの時間tlを計測する。そして、コマンド処理部31は、時間tlが規定時間th以下の場合、後続のコマンドの入力開始タイミングで操作対象の状態(再生位置Pt)を更新しない。一方、コマンド処理部31は、時間tlが規定時間thよりも大きくなると更新フラグfu=Trueとして後続のコマンドの入力開始タイミングで操作対象の状態(再生位置Pt)を更新する。
【0053】
すなわち、時間tlが規定時間th以下の場合は、フィラーをコマンドの直前に発生したフィラーとして、フィラーの入力開始タイミングでの操作対象の状態に対して、コマンドの処理を実施する。一方、時間tlが規定時間thよりも大きい場合は、フィラーをコマンドとは関係なく発生したフィラーとして、後続のコマンドの入力開始タイミングでの操作対象の状態に対して、コマンドの処理を実施する。
【0054】
図6の例では、後続の「ストップ」の入力開始タイミングまでの時間tlが規定時間th以下である。このため、コマンド処理部31は、「ストップ」の入力開始タイミングでは操作対象の状態(再生位置Pt)を更新しない。これにより、「んーー」の入力開始タイミングで記憶した操作対象の状態(再生位置Pt)が保持される。そして、コマンド処理部31は、「ストップ」の発話の後に、意味理解部34から発話意
図Intent=Stopを受け取ると「んーー」の入力開始タイミングで記憶した再生位置Ptの位置で早送りを停止させる。
図6の例では、「んーー」の発話の開始タイミングに表示されていた動画コンテンツ「4」で早送りが停止している。これは、フィラーとコマンドの発話時間間隔の短かった場合、ユーザが早送り停止の意思決定をしたタイミングを、「ストップ」の発話の前のフィラーである「んーー」の発話の開始タイミングとして検出し、補正したことを意味している。これにより、ユーザがコマンドの直前にフィラーが発話する場合でも、意図したタイミングでコマンドの処理を実施できる。
【0055】
規定時間thは、可変としてもよい。例えば、コマンド処理部31は、操作対象の移動の速度に応じて速いほど大きな値となるように規定時間thを変更としてもよい。また、ユーザは、コマンドの実施タイミングであるかが疑問であるなど、コマンドの実施タイミングに自信がない場合、発話で語尾のピッチが上昇する傾向がある。そこで、コマンド処理部31は、発話のピッチを抽出し、語尾のピッチが上昇している場合は、規定時間thが大きな値となるように変更としてもよい。
【0056】
ところで、ユーザが複数いる場合、ユーザ間の会話をコマンドをとして誤って認識してしまう場合がある。
【0057】
そこで、コマンド処理部31は、ユーザの発話が情報処理システム1に向けられたものであるかを判定してコマンドの処理を実施する。
【0058】
図7は、本開示の実施形態に係る入力開始タイミングの検出手法を説明する図である。
図7には、
図5の「早送り」の発話があった後からの動画コンテンツの再生に関する操作を音声によるコマンドで実施する場合のシーケンスが示されている。
図7の下部には、撮影部12により撮影された画像が示されている。画像には、2人のユーザが写っている。2人のユーザは、親子とする。
図7では、ユーザ(親)が停止タイミングを決める際に「んーー」とフィラーを発話している途中で、ユーザ(子)が騒がしいため、ユーザ(親)が、ユーザ(子)に向けて「うるさい」と発話した後、コマンドとして「ストップ」と発話した場合を示している。
【0059】
コマンド処理部31は、コマンドが入力された際に画像認識部35により認識された顔の向き及び視線の少なくとも一方からユーザが表示部11を見ているかを判定する。コマンド処理部31は、ユーザが表示部11を見ている場合、検出部30により検出した入力開始タイミングでの操作対象の状態に基づいて、コマンドの処理を実施する。
【0060】
例えば、画像認識部35は、撮影部12で撮像された機器周辺の画像の画像認識処理によりユーザの顔向きや視線を検出する。コマンド処理部31は、画像認識部35により検出された顔向きや視線からユーザの発話が情報処理システム1へ向けられたものであるかの判定する。例えば、コマンド処理部31は、検出された顔向きや視線が表示部11の方向に向いている場合、発話が情報処理システム1へ向けられたものと判定する。また、コマンド処理部31は、顔向きや視線が表示部11の方向に向いていない場合、発話を情報処理システム1へ向けられたものではない発話と判定する。以下、情報処理システム1へ向けられたものではない発話を、「非システム向け発話」と称する。このシステム向け発話判定の結果は、コマンド処理部31へ入力され、更新フラグfuの設定判定に使用される。
【0061】
コマンド処理部31は、意味理解部34により推定された発話意
図IntentがOOD以外であった場合であっても、非システム向け発話である場合、後続の開始タイミングで操作対象の状態を更新しないように更新フラグfuを設定する(更新フラグfu=False)。
【0062】
図7の例では、コマンド処理部31は、ユーザ(親)が周辺にいる子供に向かって発話した「うるさい」について、発話意
図IntentとしてVolumeDown(機器の音量を下げる意図・OOD以外)を受け取っている。しかし、コマンド処理部31は、この発話期間の発話が非システム向け発話であるため、更新フラグfu=Falseとする。すなわち、ユーザ(親)の「うるさい」の発話は、非システム向け発話であるため機器の音量を下げないものとしている。
【0063】
図7の例では、フィラー発話「んーー」は、発話意
図Intent=ODDであるため、更新フラグfu=Falseとなる。その後、周辺のユーザに向けて規定時間th以下の時間tlで発話が開始された「うるさい」は、非システム向け発話であるため、更新フラグfu=Falseとなる。更にその後、規定時間th以下の時間tlで「ストップ」が発話されている。コマンド処理部31は、「ストップ」の発話の後に、意味理解部34から発話意
図Intent=Stopを受け取ると、「んーー」の入力開始タイミングで記憶した再生位置Ptの位置で早送りを停止させる。
図7の例では、「んーー」の発話の開始タイミングに表示されていた動画コンテンツ「4」で早送りが停止している。これは、フィラーとコマンドの間に非システム向け発話があった場合でも、ユーザが早送りの停止の意思決定をしたタイミングをフィラーの発話の入力開始タイミングとして検出したことを意味している。これにより、周辺に複数のユーザがおり、ユーザ同士の会話があった場合でも、システム向け発話判定により、正しくユーザの意思決定タイミングでコマンドの処理を実施できる。
【0064】
次に、コマンド処理部31は、入力開始タイミングの時刻を記憶する場合に、どのように操作対象の状態を戻すかについて説明する。入力開始タイミングは時刻Tbとする。
【0065】
操作対象の変化が等速移動である場合、操作対象の状態の補正量Δpは、以下の式(1)のように表せる。
【0066】
Δp=vn×Δt ・・・(1)
ここで、
vnは、発話意
図Intent受け取り時の操作対象の速度である。
Δtは、発話意
図Intent受け取り時の時刻Tnと、入力開始タイミングの時刻Tbとの時間差(Tn-Tb)である。
【0067】
操作対象が減速移動している場合、操作対象の状態の補正量Δpは、以下の式(2)のように表せる。
【0068】
Δp=vn×Δt+(a×Δt2/2) ・・・(2)
ここで、
aは、操作対象の減速度である。
【0069】
ところで、ユーザは、希望するタイミングであることを認知してコマンドを発話するまでにタイムラグがある場合がある。
【0070】
そこで、コマンド処理部31は、操作対象に対してユーザの発話開始までの認知時間を考慮したオフセットを付与して、コマンドの処理を実施してもよい。コマンド処理部31は、ユーザがフィードバックを受けながら意思決定して発話開始するまでの認知時間toを補正量のオフセットとする。例えば、コマンド処理部31は、検出部30により検出した入力開始タイミングからコマンドの入力するユーザの属性に応じた認知時間分を変更したタイミングでの操作対象の状態に基づいて、コマンドの処理を実施する。
【0071】
入力開始タイミングの操作対象の状態として入力開始タイミングの時刻Tbを記憶する場合、コマンド処理部31は、以下の式(3)から時間差Δtを求める。
【0072】
Δt=Tn-Tb+to ・・・(3)
ここで、
toは、認知時間である。
【0073】
式(3)から求めた時間差Δtを用いて、上記式(1)、式(2)から操作対象の状態の補正量Δpを求める。
【0074】
一方、入力開始タイミングの操作対象の状態として、操作対象の状態Ptを記憶する場合、コマンド処理部31は、認知時間toから、操作対象の状態Ptを認知時間to前の状態に戻すための補正量Δpoを求める。そして、コマンド処理部31は、操作対象の状態Ptに対しさらに補正量Δpoの補正を行う。
【0075】
操作対象が等速移動している場合、補正量Δpoは、以下の式(4)のように表せる。
【0076】
Δpo=vb×to ・・・(4)
ここで、
vbは、入力開始タイミングでの操作対象の移動速度である。
【0077】
操作対象が減速移動している場合、補正量Δpoは、以下の式(5)のように表せる。
【0078】
Δpo=vb×to+(a×to2/2) ・・・(5)
ここで、
aは、操作対象の減速度である。
【0079】
認知時間toは、以下いずれかの方法または組み合わせにより可変としてもよい。例えば、画像認識部35は、撮影部12により得られた画像から発話したユーザの年齢を推定する。コマンド処理部31は、画像認識部35により推定された年齢が規定値より高いほど(高齢者ほど)、認知時間toが大きな値をとなるように変更としてもよい。また、認知時間toは、ユーザごとに、ユーザの操作履歴からユーザ個人の認知時間の傾向を推定して求めてもよい。
【0080】
図8は、本開示の実施形態に係る操作履歴からユーザ個人の認知時間の傾向を推定する一例を説明する図である。
図8には、時間的変化を伴う操作対象として音量インジケータ80が示されている。音量インジケータ80は、スライダーバー80aが音声による音量の操作に応じて移動する。
【0081】
初期状態では、ユーザの認知時間toを0とする。ユーザは、「音量上げて」を発話して音量を連続的に増加させ、停止を希望するタイミングで「ストップ」を発話する。音量インジケータ80は、「ストップ」が発話された際、音量がレイテンシ分オーバーシュートするが、本実施形態の技術により音量が「ストップ」の入力開始タイミングの位置Ptに補正される。
【0082】
ユーザの認知時間toによるライムラグによって、位置Ptがユーザの目的位置に対して音量が大きい方向に少しずれていた場合、ユーザは、「少し下げて」と発話して微調整する。情報処理システム1は、一定以上の連続移動後の所定の規定時間内に微調整された量を認知の補正量Δpoとして求める。そして、情報処理システム1は、補正量Δpoから以下の式(6)により認知時間toを求め、求めた認知時間toをユーザに対応付けてユーザデータ40に記憶する。例えば、情報処理システム1は、ユーザからユーザIDなどユーザを識別する識別情報を入力させる。情報処理システム1は、入力されたユーザの識別情報に対応付けて認知時間toをユーザデータ40に記憶する。なお、ユーザの識別情報は、ユーザを撮影した画像やユーザの音声から認識されるユーザの特徴情報を用いてもよい。
【0083】
認知時間to=Δpo/vb ・・・(6)
ここで、
vbは、オーバーシュートが発生した際の操作対象の移動速度である。
【0084】
次回以降、コマンド処理部31は、ユーザデータ40からユーザの識別情報に対応する認知時間toを読み出し、ユーザの操作に対して、認知時間to分を加味して補正を行う。例えば、ユーザが「音量上げて」を発話して音量を連続的に増加させ、「ストップ」を発話した場合、「ストップ」の入力開始タイミングの位置Ptから認知時間to分を加味した位置Pt+(to×vb)に音量を補正する。このように、コマンド処理部31がユーザの認知時間to分を加味して補正することで、操作対象に対してユーザが意図したタイミングで操作を実施できる。例えば、
図8の場合、次回以降、ユーザが意図した音量に速やかに補正できる。
【0085】
図8に示すように、ユーザの微調整が、位置Ptの補正方向と同じ順方向の場合、補正量Δpo及び認知時間toは、正の値をとる。一方、ユーザの微調整が、位置Ptの補正方向と逆方向の場合、補正量Δpo及び認知時間toは、負の値をとる。例えば、ユーザの認知が遅延し、遅く発話する傾向の場合には、認知時間toが正の値をとり総補正量が増える。一方、ユーザが予見して早く発話する傾向の場合には、認知時間toが負の値をとり補正量が減る。
【0086】
出力制御部32は、ユーザの操作完了後に補正を学習したことをユーザに認知させるため、今回の操作に基づいて操作対象の補正値が次回以降変化する旨の音声合成(TTS:Text To Speech)を出力してもよい。また、ユーザの微調整により求めた認知時間toは、操作履歴上の直近の複数回(例えば、3回)分の平均をとってもよい。例えば、コマンド処理部31は、ユーザが微調整した操作履歴をユーザの識別情報に対応付けてユーザデータ40に蓄積して記憶する。コマンド処理部31は、ユーザごとに、蓄積された操作履歴に基づき、認知時間toを算出し、ユーザの識別情報に対応付けて認知時間toをユーザデータ40に記憶する。コマンド処理部31は、音声コマンド処理での補正処理時に、ユーザの識別情報に対応する認知時間toをユーザデータ40から読み出して、操作対象の補正を実施してもよい。
【0087】
ここで、本実施形態では、時間的変化を伴う操作対象を、音量インジケータや動画コンテンツの再生に関する操作とした場合を例に説明したが、これに限定されるものではない。操作対象は、時間的変化に伴い変化するものであれば、何れであってもよい。また、操作対象は、連続的に操作するものであってもよく、離散的に操作するものであってもよい。連続的な操作対象としては、例えば、スクロール操作や、マップの2次元移動と拡縮(ズームイン/アウト)操作、音楽や動画などのメディア再生制御操作が挙げられる。また、離散的な操作対象としては、例えば、アイテム選択操作や、写真などのコンテンツを視覚的にめくる形式で表示するカバーフローが挙げられる。
図9Aは、本開示の実施形態に係る時間的変化を伴う操作対象の他の一例を示す図である。
図9Aには、画面の上下方向のスクロール操作が示されている。音声を用いてスクロール操作のコマンドを入力する場合に本開示の技術を適用してもよい。
図9Bは、本開示の実施形態に係る時間的変化を伴う操作対象の他の一例を示す図である。
図9Bには、画面に表示されるマップの上下左右への2次元移動と拡縮操作が示されている。音声を用いてマップの2次元移動と拡縮操作のコマンドを入力する場合に本開示の技術を適用してもよい。
図9Cは、本開示の実施形態に係る時間的変化を伴う操作対象の他の一例を示す図である。
図9Cには、複数のアイテムから選択対象のアイテムを選択するアイテム選択が示されている。音声を用いてアイテム選択のコマンドを入力する場合に本開示の技術を適用してもよい。選択対象のアイテムが多数ある場合や、音声認識できない固有名詞や発話できないIDなどの記号列のアイテム選択を音声で行う場合に、フォーカス位置の移動により選択するアイテム選択の手法が有効である。
【0088】
また、操作対象は、画面に表示されるものの操作に限定されない。例えば、操作対象としては、テキスト読み上げを聞きながらの停止や読み上げ位置を前に戻して再読み上げを行う操作、照明の明るさを調整する操作、インジケータ表示の無い機器での音量調整の操作、エアコンの温度設定操作などが挙げられる。また、操作対象としては、カーナビゲーションシステムの地図上での目的地/経由地設定や、VR(virtual reality)の3次元空間内での視点やオブジェクトの移動、時間/時刻設定などが挙げられる。カーナビゲーションシステムは運転中に手による操作が困難となり、VRはヘッドマウントディスプレイを装着することで手による操作が困難となるため、本開示の技術を用いた音声による操作が有効である。また、操作対象としては、病院における電子カルテなどの電子書類の表示する際のページの捲りなどの移動操作に本開示の技術を用いた音声による操作が有効である。例えば、手術室等では、手による操作が困難となるため、本開示の技術を用いた音声による操作が有効である。
【0089】
図10は、本開示の実施形態に係る時間的変化を伴う操作対象に対する音声による操作の一例を示す図である。
図10には、時間的変化を伴う操作対象として、アイテム選択が示されている。
図10は、縦方向に並んだ複数のアイテムから選択対象とするアイテムにフォーカスを移動させて、アイテムを選択する場合を示している。
図10では、ユーザが、フォーカスを移動させるために「下」と発話した後、希望するアイテムにフォーカスが移動したタイミングで「ストップ」と発話した場合を示している。
図10では、ユーザが「itemN」にフォーカスが移動したタイミングで「ストップ」を発話したが、レイテンシ分、オーバーシュートして「itemP」にフォーカスが移動する。しかし、本実施形態の技術により「itemN」にフォーカスが補正される。ここで、ユーザの認知時間等によって、補正されたアイテムは、ユーザが希望するアイテムと若干ずれる場合がある。そこで、出力制御部32は、補正されたアイテムから所定範囲のアイテムを番号で選択可能に表示部11に表示してもよい。
図10では、フォーカス補正時に、入力開始タイミングでフォーカスされていた「itemN」を中心に選択番号を提示している。情報処理システム1は、ユーザの選択番号の発話によりアイテム選択を可能とする。この場合、出力制御部32は、ユーザの認知時間toを考慮し、移動速度が速いほど過去アイテムが多く選択可能な番号提示を行ってもよい。
図10の例では、移動速度が速い場合、「itemK」~「itemO」に選択番号を提示しており、移動速度が遅い場合、「itemL」~「itemP」に選択番号を提示している。
【0090】
なお、出力制御部32は、視線検出により入力開始タイミングで見ていたアイテムを中心に選択番号を提示してもよい。また、出力制御部32は、ユーザの過去の番号選択履歴で、認知が遅れて入力開始タイミングの位置Ptのアイテムより前のアイテムを多く選んでいれば前のアイテムが多くなるよう選択番号を提示してもよい。また、出力制御部32は、ユーザが予見して、入力開始タイミングの位置Ptのアイテムより後のアイテムを多く選んでいれば後のアイテムが多くなるよう選択番号を提示してもよい。また、出力制御部32は、ユーザの個人属性情報により提示アイテムを変えてもよい。例えば、出力制御部32は、ユーザが高齢者なら過去アイテムが多くなるよう選択番号を提示してもよい。
【0091】
また、選択番号の番号付けは、アイテム選択に限定されるものではない。例えば、写真などのコンテンツを画面に分割して表示し、分割表示したそれぞれのコンテンツに選択番号を番号付けしてもよい。
【0092】
<2-3.実施形態に係る処理の流れ>
次に、実施形態に係る情報処理システム1がコマンド処理において実行される各種の処理の流れを説明する。
図11は、本開示の実施形態に係る状態記憶処理を説明するフローチャートである。この状態記憶処理は、検出部30から入力開始タイミングが入力したタイミングで実行される。
【0093】
コマンド処理部31は、更新フラグfuがTrueであるか否かを判定する(ステップS10)。更新フラグfuがTrueではない場合(ステップS10:No)、コマンド処理部31は、前の発話から時間間隔である時間tlの計測を終了する(ステップS11)。コマンド処理部31は、時間tlが規定時間th以下であるか判定する(ステップS12)。時間tlが規定時間th以下である場合(ステップS12:Yes)、コマンド処理部31は、処理を終了する。
【0094】
一方、時間tlが規定時間th以下ではない場合(ステップS12:No)、コマンド処理部31は、更新フラグfuにTrueを設定する(ステップS13)。そして、コマンド処理部31は、入力開始タイミングの時刻Tb又は当該時刻の操作対象の状態Tbを記憶し(ステップS14)、処理を終了する。
【0095】
一方、更新フラグfuがTrueである場合(ステップS10:Yes)、上述のステップS14へ移行して、入力開始タイミングの時刻Tb又は当該時刻の操作対象の状態Tbを記憶し(ステップS14)、処理を終了する。
【0096】
この状態記憶処理により、前の発話の発話意
図IntentがOOD以外の場合や、前の発話からの時間tlが規定時間thよりも長くなった場合に、操作対象の状態が記憶される。
【0097】
図12は、本開示の実施形態に係るコマンド処理を説明するフローチャートである。このコマンド処理は、意味理解部34から発話意図情報が入力したタイミングで実行される。
【0098】
コマンド処理部31は、ユーザの発話が情報処理システム1に向けられたものであるか否かを判定する(ステップS20)。ユーザの発話が情報処理システム1に向けられたものではない場合(ステップS20:No)、コマンド処理部31は、更新フラグfuにFalse を設定する(ステップS21)。コマンド処理部31は、操作対象の速度vnや、発話のピッチ等に応じて、規定時間thを設定する(ステップS22)。そして、コマンド処理部31は、時間tlのゼロに初期化した後、時間tlの計測を開始する(ステップS23)。
【0099】
一方、ユーザの発話が情報処理システム1に向けられたものである場合(ステップS20:Yes)、コマンド処理部31は、発話意図情報により示される発話意
図IntentがOODであるか否かを判定する(ステップS24)。発話意
図IntentがOODである場合(ステップS24:Yes)、上述のステップS21へ移行する。
【0100】
一方、発話意
図IntentがOODではない場合(ステップS24:No)、コマンド処理部31は、発話意
図Intentのコマンドの処理が変化する操作対象の状態に依存するか否かを判定する(ステップS25)。例えば、操作対象が時間的変化しており、コマンドを実施するタイミングによって操作対象の状態が異なるものとなる場合、コマンドの処理が変化する操作対象の状態に依存すると判定する。例えば、音量を増加させている際に停止のコマンドを実施する場合、停止のコマンドを実施するタイミングによって音量が異なるものとなる。よって、音量を増加させている際の停止のコマンドは、コマンドの処理が変化する操作対象の状態に依存すると判定する。一方、例えば、再生を停止する停止コマンドは、音量に依存せず、コンテンツの再生が停止するため、コマンドの処理が変化する操作対象の状態に依存しないと判定する。
【0101】
発話意
図Intentのコマンドの処理が変化する操作対象の状態に依存する場合(ステップS25:Yes)、コマンド処理部31は、記憶した時刻Tb又は当該時刻の操作対象の状態Tbと、ユーザの認知時間toとに基づき、操作対象の状態を補正する(ステップS26)。そして、コマンド処理部31は、操作対象の状態に基づいて、コマンドの処理を実施する(ステップS27)。コマンド処理部31は、更新フラグfuにTrueを設定し(ステップS28)、処理を終了する。
【0102】
一方、発話意
図Intentのコマンドの処理が変化する操作対象の状態に依存しない場合(ステップS25:No)、上述のステップS27へ移行する。
【0103】
<3.変形例>
上述の実施形態は、一例を示したものであり、種々の変更及び応用が可能である。変形例として、本実施形態に係る情報処理システム1を用いて動画内の画像検索を行う場合を説明する。
【0104】
図13は、本開示の変形例を説明する図である。
図13には、監視カメラで撮影された動画コンテンツの再生に関する操作を音声によるコマンドで実施する場合のシーケンスが示されている。
図13には、ユーザの発話、発話区間検出、音声認識、意味理解の各期間がそれぞれ示されている。また、
図13の下部には、再生により表示される動画コンテンツが示されており、各動画コンテンツの下部に動画の再生位置を示すシークバー81が示されている。
図13では、監視カメラで撮影された動画コンテンツの早送り再生中に、ユーザが注目すべき人物を発見して「あーーっ」と発話した後、「いまの黒い帽子の人をズーム」と発話した場合を示している。
【0105】
「あーーっ」は、発話意
図IntentがOODとなり、フィラーとして扱われる。「あーーっ」と発話の後の「いまの黒い帽子の人をズーム」との発話開始タイミングまでの時間tlが規定時間th以下の場合、コマンド処理部31は、フィラーの発生開始のタイミングでの操作対象の状態を基準として、コマンドの処理を実施する。例えば、コマンド処理部31は、フィラーの入力開始タイミングに再生されたフレームPtより前の一定期間のフレームからコマンドで指定された特定対象を画像認識部35により画像検索させる。例えば、コマンド処理部31は、入力開始タイミングのフレームPtを終端とする一定期間の動画を離散的なフレームの時系列とみなし、フレームPtから時間を遡って各フレームの画像検索を行う。画像認識部35は、“黒い帽子の人”を画像検索する。コマンド処理部31は、最初に特定対象が見つかったフレームに対してコマンド処理を行う。例えば、コマンド処理部31は、画像検索により“黒い帽子の人”を含んだフレームが特定された場合、特定されたフレームで“黒い帽子の人”の領域を拡大する。出力制御部32は、“黒い帽子の人”の領域を拡大したフレームを表示部11に出力する。
図13では、コマンド処理の結果として、“黒い帽子の人”がズームで表示されている。
【0106】
なお、コマンド処理部31は、入力開始タイミングのフレームPtから一定期間の動画を循環して再生させて表示させるようにしてよい。出力制御部32は、フレームPtから一定期間の動画を繰り返し表示部11に出力する。この際、コマンド処理部31は、循環して再生する各フレームに対して検索タグを表示させてもよい。検索タグは、循環して再生される各フレームを識別できるものであれば何れであってよい。検索タグとしては、例えば、色や数字を用いることができる。
【0107】
図14A~14Cは、本開示の検索タグの一例を示す図である。
図14Aでは、各フレームの背景に再生位置を示す日時を検索タグとして合成して表示している。
図14Bでは、フレームごとに、フレームを表示する画面の枠の色を変えて、画面の枠の色を検索タグとして表示している。
図14Cでは、フレームごとに、番号を変えて、番号を検索タグとして表示している。
【0108】
コマンド処理部31は、ユーザから検索タグが指定された場合、指定された検索タグのフレームを検索して表示させる。例えば、出力制御部32は、フレームの背景色を一定周期で循環する色で表示する。コマンド処理部31は、「赤まで戻して」の発話により、フレームPtより前の赤を表示したフレームを検索して表示させる。また、例えば、出力制御部32は、循環して再生するフレームに、1秒おきに循環する数字を表示する。コマンド処理部31は、「8まで戻して」の発話により、フレームPtより前の番号「8」を表示したフレームを検索して表示させる。
【0109】
図15は、本開示の変形例を説明する図である。
図15は、
図13において、入力開始タイミングのフレームPtより前の一定期間の動画を循環して再生させた場合のシーケンスが示されている。
図15では、フレームPtより前の一定期間の各フレームの背景の一部分に、検索タグとして、茶色、黄色、緑色、青色、赤色を順に循環させて合成して表示している。ユーザは、合成された背景の色を発話することでフレームを指定できる。コマンド処理部31は、発話により何れかの色が指定された場合、指定された色が合成されたフレームを出力制御部32により表示させる。
図15では、ユーザから「青」が指定されたことにより、「青」の背景が合成されたフレームが表示されている。
【0110】
また、音声認識による操作では、音声認識を起動させるための起動ワード(WUW:WakeUpWord)を必要とする場合がある。音声認識の起動ワードよりも前に発話された場合、次のような補正を行ってもよい。例えば、起動ワードよりも前に行われた発話の終端(VAD=OFFのタイミング)から起動ワード開始までの時間tlが規定時間th以下の場合、コマンド処理部31は、前の発話の入力開始タイミングでの操作対象の状態Ptに基づいて、コマンドの処理を実施してもよい。例えば、「あっ、今のもう一回見たい、<WUW>戻して」と発話された場合、コマンド処理部31は、WUWの前の最初の発話「あっ」の入力開始タイミングの再生位置に戻す。また、例えば、「戻して、<WUW>戻して」とWUWの発話を忘れたて言い直した場合でも、コマンド処理部31は、WUWの前の最初の発話「戻して」の入力開始タイミングの再生位置に戻す。
【0111】
また、例えば、アイテム選択など離散的な操作対象の操作において、出力制御部32は、移動時に次のアイテムに移るときに効果音を鳴らす/振動を提示して、区切りを分かりやすくしてもよい。また、出力制御部32は、入力開始タイミングにフォーカスのあったアイテムを、選択最有力候補として「アイテムNですか?」などと音声合成(TTS)で質問を出力してもよい。また、テキスト読み上げ中の「いまのところに戻って」の発話に対し、出力制御部32は、入力開始タイミングで読み上げていた文節もしくは文の先頭まで戻ってもよい。例えば、読み上げるテキストを自然言語解析し、文節もしくは文の区切りを抽出しておく。出力制御部32は、入力開始タイミングの直近の文節もしくは文の区切りまで戻って、テキストの読み上げを行う。
【0112】
また、本開示の技術をカーナビゲーションシステムに適用してもよい。例えは、「あっ、今のところ曲がるんだった、<WUW>今のところ左折」が発話された場合、カーナビゲーションシステムは、最初の発話の入力開始タイミングの直前の左折ポイントまでルート案内してもよい。
【0113】
また、発話のレイテンシのオーバーシュートによるユーザ被害の大きい操作対象は、発話の入力開始タイミングで操作対象の変化にポーズをかけてもよい。例えば、コマンド処理部31は、入力開始タイミングの状態で操作対象の状態の時間的変化を休止させる。そして、コマンド処理部31は、音声認識されたコマンドが停止指示であった場合、操作対象を停止させ、コマンドが停止指示以外であった場合、休止を解除するようにしてもよい。例えば、音量操作において音量が一定値以上の場合、コマンド処理部31は、発話の入力開始タイミングで音量の増加がポーズするように出力制御部32を制御する。そして、コマンド処理部31は、発話後の発話意
図Intentが停止指示であった場合、そのまま音量の増加を停止させ、発話意
図Intentが停止指示以外であった場合、ポーズを解除して音量が増加するように出力制御部32を制御する。
【0114】
また、コマンド処理部31は、「ストップ」といったタイミングから対象が推定される場合、推定された対象がすべて映るように表示位置を微調整してもよい。また、コマンド処理部31は、スクロール中、「ストップ」に限らず、ユーザが話し始めるとスクロール速度が遅くなるよう制御してもよい。
【0115】
また、表示部11は、時間的変化する操作対象の現在の状態と共に、検出部30により検出した入力開始タイミングに戻した操作対象の状態を表示してもよい。
図16A、
図16Bは、本開示の操作対象の表示の一例を説明する図である。コマンド処理部31は、検出部30により検出した入力開始タイミングでの操作対象の状態を表示するように出力制御部32に対して出力指示を行う。出力制御部32は、操作対象の現在の状態と共に、入力開始タイミングの操作対象の状態を補正後の状態として表示する。
図16Aの例では、音量インジケータ80に、レイテンシ分過ぎた現在の位置にスライダーバー80aが表示されると共に「ストップ」の発話の入力開始タイミングの位置Ptが補正後の状態としてマーカ80bが表示されている。
図16Bの例では、レイテンシ分過ぎた「itemP」と共に「ストップ」の発話の入力開始タイミングの「itemN」が補正後の状態として表示されている。補正後の状態は、補正完了もしくは位置Ptが更新されることで消えるようにしてもよい。
【0116】
また、検出部30は、入力した音声データから入力開始タイミングを検出する場合を説明したが、これに限定されるものではない。検出部30は、画像認識部35による画像認識結果から入力開始タイミングを検出してもよい。例えば、検出部30は、画像認識部35による画像認識結果から、ユーザの表情が変わったタイミングを入力開始タイミングと検出してもよい。また、例えば、検出部30は、
図9Cに示すようなアイテム選択において、スクロース移動中に、視線検出結果からユーザの注視点が特定アイテムのスクロールに合わせて追従したタイミングを入力開始タイミングと検出してもよい。また、コマンド処理部31は、ストップした後、操作対象をどこまで戻すかをユーザの視線が見ている位置・動きによって決定してもよい。
【0117】
また、本実施形態では、ジェスチャを音声とし、音声により入力されたコマンドの認識処理を行い、認識されたコマンドの処理を行う場合を例に説明したが、これに限定されるものではない。ジェスチャを身振り、手振りなどの身体的な動作とし、身体的な動作により入力されたコマンドの認識処理を行い、認識されたコマンドの処理を行う場合に本開示の技術を適用してもよい。身体的な動作からコマンドを認識する場合も認識処理の分だけ処理の開始に遅延が発生するため、本開示の技術は有効である。
【0118】
<4.実施形態の効果>
以上のように、実施形態に係る情報処理装置10は、検出部30と、コマンド処理部31とを有する。検出部30は、時間的変化を伴う操作対象に対するジェスチャによるコマンドの入力開始タイミングを検出する。コマンド処理部31は、検出部30により検出した入力開始タイミングでの操作対象の状態に基づいて、ジェスチャから認識されるコマンドの処理を実施する。これにより、情報処理装置10は、操作対象に対して意図したタイミングでコマンドの処理を実施できる。
【0119】
また、コマンドは、音声により入力される。検出部30は、音声によるコマンドの入力開始タイミングを検出する。これにより、情報処理装置10は、操作対象に対してユーザが音声によりコマンドを入力したタイミングでコマンドの処理を実施できる。
【0120】
また、コマンド処理部31は、検出部30により検出した入力開始タイミングの時刻又は当該時刻の操作対象の状態を記憶する。コマンド処理部31は、記憶した時刻の状態まで操作対象の状態を戻して又は記憶した操作対象の状態に対して、コマンドの処理を実施する。これにより、情報処理装置10は、入力開始タイミングの操作対象の状態に対して、コマンドの処理を実施できる。
【0121】
また、コマンド処理部31は、フィラー発話の後に所定の規定時間th以内に音声によるコマンドが入力された場合、操作対象をフィラー発話の入力開始タイミングの状態に戻して、コマンドの処理を実施する。これにより、情報処理装置10は、ユーザがコマンドの直前にフィラーが発話する場合でも、ユーザが意図したタイミングでコマンドの処理を実施できる。
【0122】
また、情報処理装置10は、表示部11と、撮影部12と、画像認識部35とをさらに有する。表示部11は、操作対象を表示する。撮影部12は、コマンドを入力するユーザを撮影する。画像認識部35は、撮影部12により撮影された画像からユーザの顔の向き及び視線の少なくとも一方を検出する。コマンド処理部31は、コマンドが入力された際に画像認識部35により検出された顔の向き及び視線の少なくとも一方からユーザが表示部11を見ているかを判定する。コマンド処理部31は、ユーザが表示部11を見ている場合、検出部30により検出した入力開始タイミングでの操作対象の状態に基づいて、コマンドの処理を実施する。これにより、情報処理装置10は、操作対象に向けられたコマンドであるかを判別してコマンドの処理を実施できる。
【0123】
また、コマンド処理部31は、検出部30により検出した入力開始タイミングから、コマンドを入力するユーザの属性に応じた認知時間分を変更したタイミングでの操作対象の状態に基づいて、コマンドの処理を実施する。これにより、情報処理装置10は、ユーザが操作のタイミングであることを認識してコマンドを入力するまでに認知時間がある場合でも、ユーザが意図したタイミングでコマンドの処理を実施できる。
【0124】
また、表示部11は、時間的変化する操作対象の現在の状態と共に、検出部30により検出した入力開始タイミングに戻した操作対象の状態を表示する。これにより、情報処理装置10は、操作対象の現在の状態と共に、コマンドを入力したタイミングの操作対象の状態を把握できる。
【0125】
また、操作対象は、複数のアイテムから選択対象のアイテムが順に遷移する操作とする。コマンド処理部31は、検出部30により検出したタイミングで選択対象であるアイテムから遷移が所定範囲のアイテムを番号で選択可能に表示部11に表示する。これにより、情報処理装置10は、検出部30により検出したタイミングで選択対象であるアイテムがユーザの希望するアイテムと若干ずれる場合でも、希望するアイテムをユーザが番号で指定可能なように表示できる。
【0126】
また、検出部30は、撮影部12により撮影された画像の認識結果から入力開始タイミングを検出する。これにより、情報処理装置10は、ユーザが意図したタイミングでコマンドの処理を実施できる。
【0127】
また、コマンド処理部31は、検出部30により検出した入力開始タイミングの状態で操作対象の状態の時間的変化を伴う変化を休止させる。コマンド処理部31は、ジェスチャから認識されるコマンドが停止指示であった場合、操作対象を停止させ、コマンドが停止指示以外であった場合、休止を解除する。これにより、情報処理装置10は、操作対象を停止させる場合に、操作対象にオーバーシュートが発生することを抑制できる。
【0128】
また、コマンド処理部31は、検出部30により検出した入力開始タイミングから一定期間の間の操作対象の時間的変化を循環して表示させる。これにより、情報処理装置10は、入力開始タイミングから一定期間の間の操作対象の状態をユーザが確認しやすく表示できる。
【0129】
また、コマンド処理部31は、一定期間の間の操作対象の状態を識別する検索タグを表示させる。これにより、情報処理装置10は、一定期間の間の操作対象の状態をユーザが検索タグで指定可能なように表示できる。
【0130】
また、コマンド処理部31は、音声認識の起動ワードよりも前に行われた発話の入力開始タイミングから起動ワードの発話までの時間が規定時間以下の場合、起動ワードよりも前に行われた発話の入力開始タイミングでの操作対象の状態に基づいて、コマンドの処理を実施する。これにより、情報処理装置10は、コマンドの発話の後に起動ワードが発話された場合でも、コマンドを発話したタイミングでコマンドの処理を実施できる。
【0131】
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
【0132】
また、本実施形態で説明した各処理の全部または一部は、各処理に対応するプログラムを情報処理装置10及びサーバ装置20が有するCPUなどのプロセッサに実行させることによって実現してもよい。例えば、上記説明における各処理に対応するプログラムがメモリに記憶され、プログラムがプロセッサによってメモリから読み出されて実行されてもよい。また、プログラムは、任意のネットワークを介して情報処理装置10及びサーバ装置20の少なくとも一方に接続されたプログラムサーバに記憶され、情報処理装置10及びサーバ装置20の少なくとも一方にダウンロードされて実行されてもよい。また、プログラムは、情報処理装置10及びサーバ装置20何れかが読み取り可能な記録媒体に記憶され、記録媒体から読み出されて実行されてもよい。記録媒体には、例えば、メモリーカード、USBメモリ、SDカード、フレキシブルディスク、光磁気ディスク、CD-ROM、DVD、及び、Blu-ray(登録商標)ディスク等の可搬の記憶媒体が含まれる。また、プログラムは、任意の言語や任意の記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。また、プログラムは必ずしも単一的に構成されるものに限られず、複数のモジュールや複数のライブラリとして分散構成されるものや、OSに代表される別個のプログラムと協働してその機能を達成するものも含む。
【0133】
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
【0134】
また、開示の技術は、以下のような構成も採ることができる。
(1)
時間的変化を伴う操作対象に対するジェスチャによるコマンドの入力開始タイミングを検出する検出部と、
前記検出部により検出した入力開始タイミングでの前記操作対象の状態に基づいて、前記ジェスチャから認識されるコマンドの処理を実施するコマンド処理部と、
を有する情報処理装置。
(2)
前記コマンドは、音声により入力され、
前記検出部は、音声によるコマンドの入力開始タイミングを検出する
上記(1)に記載の情報処理装置。
(3)
前記コマンド処理部は、前記検出部により検出した入力開始タイミングの時刻又は当該時刻の前記操作対象の状態を記憶し、記憶した時刻の状態まで前記操作対象の状態を戻して又は記憶した前記操作対象の状態に対して、前記コマンドの処理を実施する
上記(1)又は(2)に記載の情報処理装置。
(4)
前記コマンド処理部は、フィラー発話の後に所定の規定時間以内に音声によるコマンドが入力された場合、前記操作対象を前記フィラー発話の入力開始タイミングの状態に戻して、前記コマンドの処理を実施する
上記(2)に記載の情報処理装置。
(5)
前記操作対象を表示する表示部と、
コマンドを入力するユーザを撮影する撮影部と、
前記撮影部により撮影された画像から前記ユーザの顔の向き及び視線の少なくとも一方を検出する画像認識部と、
をさらに有し、
前記コマンド処理部は、コマンドが入力された際に前記画像認識部により検出された顔の向き及び視線の少なくとも一方から前記ユーザが前記表示部を見ているかを判定し、前記ユーザが前記表示部を見ている場合、前記検出部により検出した入力開始タイミングでの前記操作対象の状態に基づいて、前記コマンドの処理を実施する
上記(1)~(4)の何れか1つに記載の情報処理装置。
(6)
前記コマンド処理部は、前記検出部により検出した入力開始タイミングから、コマンドを入力するユーザの属性に応じた認知時間分を変更したタイミングでの前記操作対象の状態に基づいて、前記コマンドの処理を実施する
上記(1)~(5)の何れか1つに記載の情報処理装置。
(7)
前記表示部は、時間的変化する前記操作対象の現在の状態と共に、前記検出部により検出した入力開始タイミングに戻した前記操作対象の状態を表示する
上記(5)に記載の情報処理装置。
(8)
前記操作対象は、複数のアイテムから選択対象のアイテムが順に遷移する操作とし、
前記コマンド処理部は、前記検出部により検出したタイミングで選択対象であるアイテムから遷移が所定範囲のアイテムを番号で選択可能に前記表示部に表示する
上記(5)に記載の情報処理装置。
(9)
前記検出部は、前記撮影部により撮影された画像の認識結果から入力開始タイミングを検出する
上記(5)に記載の情報処理装置。
(10)
前記コマンド処理部は、前記検出部により検出した入力開始タイミングの状態で前記操作対象の状態の時間的変化を伴う変化を休止させ、ジェスチャから認識されるコマンドが停止指示であった場合、前記操作対象を停止させ、前記コマンドが停止指示以外であった場合、前記休止を解除する
上記(1)~(9)の何れか1つに記載の情報処理装置。
(11)
前記コマンド処理部は、前記検出部により検出した入力開始タイミングから一定期間の間の前記操作対象の時間的変化を循環して表示させる
上記(1)~(9)の何れか1つに記載の情報処理装置。
(12)
前記コマンド処理部は、前記一定期間の間の前記操作対象の状態を識別する検索タグを表示させる
上記(11)に記載の情報処理装置。
(13)
前記コマンド処理部は、音声認識の起動ワードよりも前に行われた発話の入力開始タイミングから起動ワードの発話までの時間が規定時間以下の場合、起動ワードよりも前に行われた発話の入力開始タイミングでの操作対象の状態に基づいて、コマンドの処理を実施する
上記(2)に記載の情報処理装置。
(14)
コンピュータが、
時間的変化を伴う操作対象に対するジェスチャによるコマンドの入力開始の入力開始タイミングを検出し、
検出した入力開始タイミングでの前記操作対象の状態に基づいて、前記ジェスチャから認識されるコマンドの処理を実施する
コマンド処理方法。
【符号の説明】
【0135】
1 情報処理システム
10 情報処理装置
11 表示部
12 撮影部
13 音声出力部
14 音声入力部
15 記憶部
16 通信部
17 制御部
20 サーバ装置
21 通信部
22 記憶部
23 制御部
30 検出部
31 コマンド処理部
32 出力制御部
33 音声認識部
34 意味理解部
35 画像認識部
40 ユーザデータ
41 コンテンツデータ