(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-30
(45)【発行日】2023-11-08
(54)【発明の名称】情報処理装置、情報処理方法、および、プログラム
(51)【国際特許分類】
G10L 15/10 20060101AFI20231031BHJP
【FI】
G10L15/10 500T
(21)【出願番号】P 2020502034
(86)(22)【出願日】2018-11-30
(86)【国際出願番号】 JP2018044288
(87)【国際公開番号】W WO2019163247
(87)【国際公開日】2019-08-29
【審査請求日】2021-11-09
(31)【優先権主張番号】P 2018029347
(32)【優先日】2018-02-22
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】河野 真一
(72)【発明者】
【氏名】岩瀬 広
(72)【発明者】
【氏名】滝 祐平
【審査官】菊池 智紀
(56)【参考文献】
【文献】国際公開第2016/151699(WO,A1)
【文献】特開2007-213005(JP,A)
【文献】特開2006-215317(JP,A)
【文献】特開2016-180916(JP,A)
【文献】国際公開第2016/147401(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
G06F 3/16
G06F 16/00-16/958
G06F 40/00-40/58
(57)【特許請求の範囲】
【請求項1】
第1のタイミングの後の第2のタイミングに収音された第2の音声が、前記第1のタイミングと前記第2のタイミングとの時間差と、前記第2の音声の解析結果と、前記第2の音声の解析結果と前記第2の音声の話者の行動認識の結果との組
み合わせと、のうち少なくとも何れかに基づき前記第1のタイミングに収音された第1の音声の言い直しであると判定され、且つ、前記第1の音声に伴う声または声以外のノンバーバル情報と、前記第2の音声に伴う前記ノンバーバル情報との差を示す値に基づいて、前記第1の音声の音声認識結果に対応する意味を学習すると決定された場合に、
前記第2の音声の音声認識結果に対応する意味に基づいて、前記第1の音声の音声認識結果に対応する意味を学習する学習部、
を備える、情報処理装置。
【請求項2】
前記第1の音声は、第1の発話であり、
前記第2の音声は、第2の発話であり、
前記学習部は、さらに、前記第2の発話の話者の過去の言い直しの成功頻度または前記第2の発話の話者の音声入力の利用頻度に基づいて、前記第1の発話の音声認識結果に対応する意味を学習するか否かを決定する、請求項1に記載の情報処理装置。
【請求項3】
前記第1の音声は、第1の発話であり、
前記第2の音声は、第2の発話であり、
前記第1の発話の音声認識結果に対応する意味を学習することを決定した場合には、前記学習部は、さらに、前記第1の発話と略同一の発話を行った際に当該発話の意味が前記第1の発話の音声認識結果に対応する意味の学習結果と同一であると判定される一以上の第1のユーザを、前記第2の発話の話者が音声入力に慣れているか否かの判定結果に基づいて決定する、請求項1に記載の情報処理装置。
【請求項4】
前記第1の音声は、第1の発話であり、
前記第2の音声は、第2の発話であり、
前記第1の発話の音声認識結果に対応する意味を学習することを決定した場合には、前記学習部は、さらに、前記第1の発話と略同一の発話を行った際に当該発話の意味が前記第1の発話の音声認識結果に対応する意味の学習結果と同一であると判定される一以上の第1のユーザを、前記第2の発話の話者と同一のコミュニティに属する一以上のユーザと決定する、請求項1に記載の情報処理装置。
【請求項5】
前記学習部は、前記一以上の第1のユーザを所定の基準に基づいて動的に増加または減少させる、請求項
4に記載の情報処理装置。
【請求項6】
前記学習部は、前記一以上の第1のユーザに対して一以上の第2のユーザを追加することを判断した場合には、前記一以上の第1のユーザのうちの少なくとも一人に対して前記一以上の第2のユーザの追加の諾否を問い合わせ、
前記一以上の第2のユーザの追加を承諾することを示す回答が得られた場合には、前記学習部は、前記一以上の第1のユーザに対して前記一以上の第2のユーザを追加する、請求項
5に記載の情報処理装置。
【請求項7】
前記第1の音声の音声認識結果に対応する意味を前記学習部が学習した場合に、前記第1の音声の音声認識結果に対応する意味が学習済みであることを示す通知を出力部に出力させる出力制御部をさらに備える、請求項1に記載の情報処理装置。
【請求項8】
前記第2の音声の意味解析の結果に基づいて、前記第2の音声が前記第1の音声の言い直しであるか否かを判定する判定部をさらに備え、
前記学習部は、さらに、前記判定部による判定結果に基づいて、前記第1の音声の音声認識結果に対応する意味を学習する、請求項
7に記載の情報処理装置。
【請求項9】
第1のタイミングの後の第2のタイミングに収音された第2の音声が、前記第1のタイミングと前記第2のタイミングとの時間差と、前記第2の音声の解析結果と、前記第2の音声の解析結果と前記第2の音声の話者の行動認識の結果との組
み合わせと、のうち少なくとも何れかに基づき前記第1のタイミングに収音された第1の音声の言い直しであると判定され、且つ、前記第1の音声に伴う声または声以外のノンバーバル情報と、前記第2の音声に伴う前記ノンバーバル情報との差を示す値に基づいて、前記第1の音声の音声認識結果に対応する意味を学習すると決定された場合に、
前記第2の音声の音声認識結果に対応する意味に基づいて、前記第1の音声の音声認識結果に対応する意味を学習すること、
を含む、情報処理方法。
【請求項10】
コンピュータを、
第1のタイミングの後の第2のタイミングに収音された第2の音声が、前記第1のタイミングと前記第2のタイミングとの時間差と、前記第2の音声の解析結果と、前記第2の音声の解析結果と前記第2の音声の話者の行動認識の結果との組
み合わせと、のうち少なくとも何れかに基づき前記第1のタイミングに収音された第1の音声の言い直しであると判定され、且つ、前記第1の音声に伴う声または声以外のノンバーバル情報と、前記第2の音声に伴う前記ノンバーバル情報との差を示す値に基づいて、前記第1の音声の音声認識結果に対応する意味を学習すると決定された場合に、
前記第2の音声の音声認識結果に対応する意味に基づいて、前記第1の音声の音声認識結果に対応する意味を学習する学習部、
として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、情報処理方法、および、プログラムに関する。
【背景技術】
【0002】
従来、音声認識に関する技術が各種提案されている。音声認識では、ユーザの発話時の音声を文字列に変換することができる。
【0003】
例えば、下記特許文献1には、入力された音響信号に言い直し発話が含まれるか否かを判定する技術が記載されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に記載の技術では、第1の音声の後に収音された第2の音声が第1の音声の言い直しであるか否かの判定結果に適応的に、第1の音声の音声認識結果に対応する意味を学習することは考慮されていない。
【0006】
そこで、本開示では、第2の音声が第1の音声の言い直しであるか否かの判定結果に適応的に、第1の音声の音声認識結果に対応する意味を学習することが可能な、新規かつ改良された情報処理装置、情報処理方法、および、プログラムを提案する。
【課題を解決するための手段】
【0007】
本開示によれば、第1のタイミングの後の第2のタイミングに収音された第2の音声が、前記第1のタイミングと前記第2のタイミングとの時間差と、前記第2の音声の解析結果と、前記第2の音声の解析結果と前記第2の音声の話者の行動認識の結果との組み合わせと、のうち少なくとも何れかに基づき前記第1のタイミングに収音された第1の音声の言い直しであると判定され、且つ、前記第1の音声に伴う声または声以外のノンバーバル情報と、前記第2の音声に伴う前記ノンバーバル情報との差を示す値に基づいて、前記第1の音声の音声認識結果に対応する意味を学習すると決定された場合に、前記第2の音声の音声認識結果に対応する意味に基づいて、前記第1の音声の音声認識結果に対応する意味を学習する学習部、を備える、情報処理装置が提供される。
【0008】
また、本開示によれば、第1のタイミングの後の第2のタイミングに収音された第2の音声が、前記第1のタイミングと前記第2のタイミングとの時間差と、前記第2の音声の解析結果と、前記第2の音声の解析結果と前記第2の音声の話者の行動認識の結果との組み合わせと、のうち少なくとも何れかに基づき前記第1のタイミングに収音された第1の音声の言い直しであると判定され、且つ、前記第1の音声に伴う声または声以外のノンバーバル情報と、前記第2の音声に伴う前記ノンバーバル情報との差を示す値に基づいて、前記第1の音声の音声認識結果に対応する意味を学習すると決定された場合に、前記第2の音声の音声認識結果に対応する意味に基づいて、前記第1の音声の音声認識結果に対応する意味を学習すること、を含む、情報処理方法が提供される。
【0009】
また、本開示によれば、コンピュータを、第1のタイミングの後の第2のタイミングに収音された第2の音声が、前記第1のタイミングと前記第2のタイミングとの時間差と、前記第2の音声の解析結果と、前記第2の音声の解析結果と前記第2の音声の話者の行動認識の結果との組み合わせと、のうち少なくとも何れかに基づき前記第1のタイミングに収音された第1の音声の言い直しであると判定され、且つ、前記第1の音声に伴う声または声以外のノンバーバル情報と、前記第2の音声に伴う前記ノンバーバル情報との差を示す値に基づいて、前記第1の音声の音声認識結果に対応する意味を学習すると決定された場合に、前記第2の音声の音声認識結果に対応する意味に基づいて、前記第1の音声の音声認識結果に対応する意味を学習する学習部、として機能させるためのプログラムが提供される。
【発明の効果】
【0010】
以上説明したように本開示によれば、第2の音声が第1の音声の言い直しであるか否かの判定結果に適応的に、第1の音声の音声認識結果に対応する意味を学習することができる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
【図面の簡単な説明】
【0011】
【
図1】本開示の実施形態に係る情報処理システムの構成例を示した説明図である。
【
図2】本実施形態に係る端末20の機能構成例を示したブロック図である。
【
図3】本実施形態に係るサーバ10の機能構成例を示したブロック図である。
【
図5】複数のユーザによる端末20に対する発話の例を示した図である。
【
図6】複数のユーザによる端末20に対する発話の例を示した図である。
【
図7】
図5に示した状況の後に、端末20が実行する処理の例を示した図である。
【
図8】
図5に示した状況の後に発話が収音された場合における端末20が実行する処理の例を示した図である。
【
図9】本実施形態の適用例に係る各ユーザの関係性を示した図である。
【
図10】本適用例に係る複数のユーザによる端末20に対する発話の例を示した図である。
【
図11】
図10に示した状況の後の、該当の学習結果の適用ユーザと、当該学習結果の適用対象外のユーザとを一覧的に示した図である。
【
図12】
図10に示した状況の後に発話が収音された場合における端末20が実行する処理の例を示した図である。
【
図13】
図10に示した状況の後に発話が収音された場合における端末20が実行する処理の例を示した図である。
【
図14】本実施形態に係る処理の流れの一例を示したフローチャートである。
【
図15】本実施形態に係る「音声入力処理」の流れの一部を示したフローチャートである。
【
図16】本実施形態に係る「音声入力処理」の流れの一部を示したフローチャートである。
【
図17】本実施形態に係る「学習結果の適用範囲の更新処理」の流れを示したフローチャートである。
【
図18】本実施形態に係る「学習するか否かの判定処理」の流れを示したフローチャートである。
【
図19】「学習するか否かの判定処理」の変形例1の流れを示したフローチャートである。
【
図20】「学習するか否かの判定処理」の変形例2の流れを示したフローチャートである。
【
図21】「学習するか否かの判定処理」の変形例3の流れを示したフローチャートである。
【
図22】「学習するか否かの判定処理」の変形例4の流れを示したフローチャートである。
【
図23】本実施形態に係る「学習結果の適用範囲の決定処理」の流れを示したフローチャートである。
【
図24】「学習結果の適用範囲の決定処理」の変形例1の流れを示したフローチャートである。
【
図25】「学習結果の適用範囲の決定処理」の変形例2の流れを示したフローチャートである。
【
図26】「学習結果の適用範囲の決定処理」の変形例3の流れを示したフローチャートである。
【
図27】「学習結果の適用範囲の決定処理」の変形例4の流れを示したフローチャートである。
【
図28】「学習結果の適用範囲の決定処理」の変形例5の流れを示したフローチャートである。
【
図29】本実施形態の応用例1に係る学習結果の適用ユーザの動的な追加の例を示した図である。
【
図30】同応用例1に係る学習結果の適用ユーザの動的な削減の例を示した図である。
【
図31】本実施形態の応用例2に係る学習結果の適用ユーザの動的な追加の例を示した図である。
【
図32】同応用例2に係る学習結果の適用ユーザの動的な削減の例を示した図である。
【
図33】同応用例2に係る「学習結果の適用範囲の更新処理」の流れを示したフローチャートである。
【
図34】本実施形態の応用例3に係る複数のユーザによる端末20に対する発話の例を示した図である。
【
図35】
図34に示した状況の後に発話が収音された場合における端末20が実行する処理の例を示した図である。
【
図36】サーバ10のハードウェア構成例を示した図である。
【発明を実施するための形態】
【0012】
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0013】
また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の構成要素を、必要に応じて端末20aおよび端末20bのように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、端末20aおよび端末20bを特に区別する必要が無い場合には、単に端末20と称する。
【0014】
また、以下に示す項目順序に従って当該「発明を実施するための形態」を説明する。
1.情報処理システムの構成
2.実施形態の詳細な説明
3.応用例
4.ハードウェア構成
5.変形例
【0015】
<<1.情報処理システムの構成>>
まず、本開示の実施形態に係る情報処理システムの構成例について、
図1を参照して説明する。
図1に示すように、本実施形態に係る情報処理システムは、サーバ10、端末20、および、通信網22を有する。
【0016】
<1-1.サーバ10>
サーバ10は、本開示に係る情報処理装置の一例である。サーバ10は、音声認識機能を有し得る。例えば、サーバ10は、後述する端末20が収音した音声を通信網22を介して端末20から受信し、当該音声を音声認識し、そして、当該音声認識結果の意味を解析することが可能である。
【0017】
さらに、サーバ10は、端末20に対して各種の情報の出力を制御し得る。例えば、サーバ10は、ユーザの指示などに基づいて、所定の動画や所定の音声を端末20に出力させる。
【0018】
<1-2.端末20>
端末20は、例えばサーバ10の制御に従って、各種の情報を出力する。この端末20は、例えば、汎用PC(Personal Computer)、タブレット型端末、ゲーム機、スマートフォンなどの携帯電話、携帯型音楽プレーヤ、スピーカ、プロジェクタ、例えばHMD(Head Mounted Display)やスマートウォッチなどのウェアラブルデバイス、車載装置(カーナビゲーション装置など)、または、ロボット(例えばヒューマノイド型ロボットまたは自動運転車など)であってもよい。
【0019】
ここで、
図2を参照して、端末20の機能構成について説明する。
図2は、端末20の機能構成例を示したブロック図である。
図2に示したように、端末20は、制御部200、通信部220、センサ部222、出力部224、および、記憶部226を有する。
【0020】
{1-2-1.制御部200}
制御部200は、例えばCPU(Central Processing Unit)やGPU(Graphics Processing Unit)などの処理回路を含んで構成され得る。制御部200は、端末20の動作を統括的に制御する。例えば、制御部200は、後述するセンサ部222によりセンシングされた各種のセンシング結果をサーバ10へ通信部220に送信させる。また、制御部200は、サーバ10から受信される出力制御情報に従って、当該出力制御情報が指示する情報を出力部224に出力させる。
【0021】
{1-2-2.センサ部222}
センサ部222は、マイクロフォンを有し得る。センサ部222は、周囲で発せられた音声を収音し得る。
【0022】
また、センサ部222は、例えば、カメラ(イメージセンサ)、距離センサ(例えばtime of flight方式のセンサ、または、ステレオカメラなど)、温度センサ、生体センサ、加速度センサ、方位センサ、および、筋電センサのうちの少なくとも一つをさらに含んでもよい。また、センサ部222は、例えばGPS(Global Positioning System)やGLONASS(Global Navigation Satellite System)などの測位衛星から測位信号を受信する受信機をさらに含んでもよい。
【0023】
なお、センサ部222に含まれる個々のセンサは、常時センシングをしてもよいし、定期的にセンシングしてもよいし、または、特定の場合(例えば制御部200からの指示があった場合など)にのみセンシングしてもよい。
【0024】
{1-2-3.通信部220}
通信部220は、例えば無線通信および/または有線通信により、他の装置との間で情報の送受信を行う。例えば、通信部220は、制御部200の制御に従って、センサ部222による各種のセンシング結果(例えばマイクロフォンにより収音された音声データなど)をサーバ10へ送信する。また、通信部220は、各種の映像や各種の音の出力制御情報をサーバ10から受信する。
【0025】
{1-2-4.出力部224}
出力部224は、制御部200の制御に従って各種の情報(映像や音など)を出力する。出力部224は、音声出力部を有し得る。当該音声出力部は、例えばスピーカ、イヤフォン、または、ヘッドフォンなどを含んで構成される。当該音声出力部は、制御部200の制御に従って音(音声や音楽など)を出力する。
【0026】
さらに、出力部224は、表示部を有し得る。当該表示部は、例えば、LCD(Liquid Crystal Display)、OLED(Organic Light Emitting Diode)など)、または、プロジェクタなどを含んで構成される。当該表示部は、制御部200の制御に従って映像を表示(投影など)する。
【0027】
{1-2-5.記憶部226}
記憶部226は、各種のデータや各種のソフトウェアを記憶する。
【0028】
<1-3.通信網22>
通信網22は、通信網22に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網22は、電話回線網、インターネット、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、通信網22は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。
【0029】
<1-4.課題の整理>
以上、本実施形態に係る情報処理システムの構成について説明した。ところで、発話で操作するシステムにおいて、システムが受け付け可能(以下では、「InDomain」と称する場合もある)な発話をユーザが話そうとしても、当該システムにより、受け付け範囲外(以下では、「OOD(OutOfDomain)」と称する場合もある)と判定される場合がある。このため、OODとなった発話Aの後で、InDomainの発話Cをユーザが言い直す場合がある。
【0030】
そこで、ユーザの利便性を向上させるために、「発話Aと発話Cとが同じ意図の発話であること」を自動的に学習可能であることが望ましい。この際、InDomainになった発話Cが「発話Aに対する言い直し」であるか否かを精度良く判定しなければ学習の質が低下してしまう。そこで、これを精度良く判定可能であることが望ましい。
【0031】
また、発話Aに対応する意味の学習の結果を、全てのユーザに対して一様に反映させることは望ましくない。例えば、発話Aの実施時のコンテキストと同じコンテキストのときだけ、当該学習の結果が反映されることが望ましい。
【0032】
そこで、上記事情を一着眼点にして、本実施形態に係るサーバ10を創作するに至った。本実施形態に係るサーバ10は、第1のタイミングの後の第2のタイミングに収音された第2の音声が、第1のタイミングに収音された第1の音声の言い直しであるか否かの判定結果に基づいて、当該第1の音声の音声認識結果に対応する意味を学習する。このため、当該第1の音声の音声認識結果に対応する意味を適切に学習することができる。
【0033】
ここで、当該第1の音声と当該第2の音声とは同一の人物が発した音声であってもよいし、別々の人物が発した音声であってもよい。また、当該第1の音声は、発話に限定されず、自然言語の文法規則とは無関係な発声(例えば、発声障がい者が発した音など)であってもよい。また、当該第1の音声は、人間の音声に限定されず、人間以外の動物(例えば鳥など)の鳴き声であってもよい。また、当該第2の音声は、(標準の自然言語の文法規則に沿った)発話であり得る。以下では、当該第1の音声および当該第2の音声が発話である例を中心として説明を行う。
【0034】
<<2.実施形態の詳細な説明>>
<2-1.構成>
次に、本実施形態に係る構成について説明する。
図3は、本実施形態に係るサーバ10の機能構成例を示したブロック図である。
図3に示したように、サーバ10は、制御部100、通信部120、および、記憶部122を有する。
【0035】
{2-1-1.制御部100}
制御部100は、例えば、後述するCPU150やGPUなどの処理回路を含んで構成され得る。制御部100は、サーバ10の動作を統括的に制御する。また、
図3に示したように、制御部100は、音声認識部102、意味解析部104、言い直し判定部106、学習部108、および、出力制御部110を有する。
【0036】
{2-1-2.音声認識部102}
音声認識部102は、例えば端末20から受信された音声データなどの音声に対して音声認識を行う。例えば、音声認識部102は、該当の音声を音声認識することにより文字列に変換する。
【0037】
{2-1-3.意味解析部104}
意味解析部104は、音声認識部102による認識結果に対して自然言語処理を行うことにより、該当の音声の意味を解析する。
【0038】
{2-1-4.言い直し判定部106}
言い直し判定部106は、本開示に係る判定部の一例である。言い直し判定部106は、第1のタイミングの後の第2のタイミングに収音された第2の発話が、第1のタイミングに収音された第1の発話の言い直しであるか否かを所定の基準に基づいて判定する。例えば、第1のタイミングと第2のタイミングとの間の時間が所定の閾値以内である場合には、言い直し判定部106は、当該第2の発話が当該第1の発話の言い直しであると判定する。また、第1のタイミングと第2のタイミングとの間の時間が当該所定の閾値よりも大きい場合には、言い直し判定部106は、当該第2の発話が当該第1の発話の言い直しではないと判定する。
【0039】
または、言い直し判定部106は、意味解析部104による第2の発話の意味解析の結果に基づいて、当該第2の発話が当該第1の発話の言い直しであるか否かを判定することも可能である。例えば、「「~」ってことだよ」や「「~」という意味です」などのような「教えてあげる意図(または意味)の発話」であると当該第2の発話が解析された場合には、言い直し判定部106は、当該第2の発話が当該第1の発話の言い直しであると判定する。
【0040】
または、言い直し判定部106は、当該第2の発話の解析結果と、当該第2のタイミングにおける当該第2の発話の話者の行動認識の結果との組み合わせに基づいて、当該第2の発話が当該第1の発話の言い直しであるか否かを判定してもよい。例えば、当該第2の発話が「教えてあげる意図(または意味)の発話」であると解析され、かつ、当該第2のタイミングにおいて当該第2の発話の話者が当該第1の発話の話者の方に視線を向けたり、または、指差していたことが認識された場合には、言い直し判定部106は、当該第2の発話が当該第1の発話の言い直しであると判定する。
【0041】
{2-1-5.学習部108}
(2-1-5-1.学習するか否かの決定)
学習部108は、言い直し判定部106による判定結果に基づいて、当該第1の発話の音声認識結果に対応する意味を学習する。例えば、当該第2の発話が当該第1の発話の言い直しではないと判定された場合には、学習部108は、当該第1の発話の音声認識結果に対応する意味を学習しない。また、当該第2の発話が当該第1の発話の言い直しであると判定された場合には、学習部108は、当該第2の発話の音声認識結果に対応する意味に基づいて、当該第1の発話の音声認識結果に対応する意味を学習する。例えば、当該第2の発話が当該第1の発話の言い直しであると判定され、当該第1の発話の音声認識結果に対応する意味が特定不能であり、かつ、当該第2の発話の音声認識結果に対応する意味が特定可能であった場合に、学習部108は、当該第2の発話の音声認識結果に対応する意味に基づいて、当該第1の発話の音声認識結果に対応する意味を学習する。つまり、当該第1の発話がOODであり、かつ、当該第2の発話がInDomainであった場合に、学習部108は、当該第2の発話の音声認識結果に対応する意味に基づいて、当該第1の発話の音声認識結果に対応する意味を学習する。この場合、例えば、学習部108は、当該第1の発話の音声認識結果に対応する意味が当該第2の発話の音声認識結果に対応する意味と同一または類似になるように、当該第1の発話の音声認識結果に対応する意味を学習する。
【0042】
‐判定例1:コンテキストの関係性
以下では、学習部108による、学習するか否かの決定例についてさらに詳細に説明する。例えば、学習部108は、さらに、当該第1のタイミングのコンテキストと当該第2のタイミングのコンテキストとの関係性に基づいて、当該第1の発話の音声認識結果に対応する意味を学習するか否かを決定する。一例として、当該第1のタイミングのコンテキストと当該第2のタイミングのコンテキストとの差に関する所定の評価値が所定の条件を満たすと判定された場合(例えば、当該第1のタイミングのコンテキストと当該第2のタイミングのコンテキストとが大きく異なると判定された場合など)には、学習部108は、当該第1の発話の音声認識結果に対応する意味を学習しないことを決定する。また、当該第1のタイミングのコンテキストと当該第2のタイミングのコンテキストとの差に関する所定の評価値が当該所定の条件を満たさないと判定された場合(例えば、当該第1のタイミングのコンテキストと当該第2のタイミングのコンテキストとが略同一であると判定された場合など)には、学習部108は、当該第1の発話の音声認識結果に対応する意味を、当該第2の発話の音声認識結果に対応する意味に基づいて学習することを決定する。
【0043】
ここで、コンテキストの差に関する所定の評価値は、声のノンバーバル情報(例えば、音量や抑揚など)の差を示す値であってもよい。この場合、学習部108は、当該第1の発話と当該第2の発話との声のノンバーバル情報の差に基づいて、当該第1の発話の音声認識結果に対応する意味を学習するか否かを決定してもよい。
【0044】
または、当該コンテキストの差に関する所定の評価値は、例えばジェスチャなどの、声以外のノンバーバル情報の差を示す値であってもよい。この場合、学習部108は、当該第1のタイミングにおける声以外のノンバーバル情報と、当該第2のタイミングにおける声以外のノンバーバル情報との差を示す値に基づいて、当該第1の発話の音声認識結果に対応する意味を学習するか否かを決定してもよい。例えば、首を横に振るなどの否定的な動きが当該第2のタイミングに検出された場合には、学習部108は、当該第1のタイミングと当該第2のタイミングとの間でコンテキストがほとんど変わっていないと判断し、そして、当該第1の発話の音声認識結果に対応する意味を学習することを決定してもよい。または、当該第1の発話の話者の注視点が当該第1のタイミングと当該第2のタイミングとの間で所定の閾値以上変化したことが検出された場合には、学習部108は、当該第1のタイミングと当該第2のタイミングとの間でコンテキストが大きく変わったと判断し、そして、当該第1の発話の音声認識結果に対応する意味を学習しないと決定してもよい。
【0045】
‐判定例2:話者に関する情報
または、学習部108は、さらに、当該第2の発話の話者認識の結果に基づいて、当該第1の発話の音声認識結果に対応する意味を学習するか否かを決定してもよい。例えば、学習部108は、当該第2の発話の話者の過去の言い直しの成功頻度が所定の閾値以上であるか否かに基づいて、当該第1の発話の音声認識結果に対応する意味を学習するか否かを決定してもよい。これにより、例えば、空気を読まずに発言する人物による発話を学習の対象外とする(換言すれば、ノイズとして排除する)ことができる。また、学習部108は、当該第2の発話の話者の音声入力の利用頻度が所定の閾値以上であるか否かに基づいて、当該第1の発話の音声認識結果に対応する意味を学習するか否かを決定してもよい。または、学習部108は、当該第2の発話の話者からセンシングされた生体情報に基づいて、当該第2の発話の話者がウソをついているか否かを判定することにより、当該第1の発話の音声認識結果に対応する意味を学習するか否かを決定してもよい。この方法によれば、例えば、子どもによるいたずらの発話を学習の対象外とすることができる。
【0046】
ここで、
図4~
図6を参照して、上記の内容についてより詳細に説明する。
図4に示したように、ここでは、祖父「A」、祖母「B」、「A」の孫「D」、および、「A」の孫「F」が家族であることを想定する。
図5に示したように、まず、祖母「B」が「懐かしい雰囲気にして。」という発話30aを端末20に対して行い、端末20が発話30aの音声データをサーバ10へ送信し、そして、サーバ10は、この発話30aをOODであると判定したとする。なお、この際、サーバ10は、発話30aをOODであると判定したことを示す音声40a(例えば「わかりません。」や「え?」など)を端末20に出力させてもよい。
【0047】
その後、祖父「A」が発話30aの言い直しとして「AAAにしてくれるか。」という発話30bを端末20に対して行い、端末20が発話30bの音声データをサーバ10へ送信し、そして、サーバ10は、この発話30bもOODであると判定したとする。その後、孫「D」が発話30aの言い直しとして「おじいちゃん達が好きな音楽をかけて。」という発話30cを端末20に対して行い、端末20が発話30cの音声データをサーバ10へ送信し、そして、サーバ10は、この発話30cをInDomainであると判定したとする。ここで、孫「D」の過去の言い直しの成功頻度は所定の閾値以上であるとする。そこで、学習部108は、発話30aに対応する意味を学習することを決定してもよい。さらに、学習部108は、発話30aに対応する意味が、発話30cに対応する意味と同一になるように、発話30aに対応する意味を学習してもよい。
【0048】
図6は、
図5に示した例とは異なる状況の例を示した図である。
図6に示したように、
図5に示した例と同様に、まず、祖母「B」が発話30aを行い、その後、祖父「A」が発話30bを行ったとする。その後、
図5に示した例とは異なり、孫「F」が、「グループAの曲をかけて。」という、いたずらの発話30dを端末20に対して行い、端末20が発話30dの音声データをサーバ10へ送信し、そして、サーバ10は、この発話30dをInDomainであると判定したとする。ここで、孫「F」の過去の言い直しの成功頻度は所定の閾値未満であるとする。そこで、学習部108は、発話30aに対応する意味を学習しないことを決定してもよい。この場合、
図6に示したように、制御部100は、「F」が所有する所定の端末(スマートフォンなど)へ「グループAの曲」を転送してもよい。さらに、後述する出力制御部110は、発話30aに対応する意味を学習しなかったこと(換言すれば、「グループAの曲」を転送したこと)を通知する音声40dを端末20に出力させてもよい。
【0049】
(2-1-5-2.学習結果の適用範囲の決定)
‐決定例1:音声入力の慣れ
さらに、学習部108は、当該第1の発話の音声認識結果に対応する意味を学習した場合には、当該第1の発話と略同一の発話を行った際に当該発話の意味が当該第1の発話の音声認識結果に対応する意味の学習結果と同一であると判定される一以上のユーザ(以下、「学習結果の適用ユーザ」と称する場合がある)を所定の基準に基づいて決定することが可能である。例えば、学習部108は、当該第2の発話の話者が音声入力に慣れているか否かの判定結果に基づいて、当該学習結果の適用ユーザを決定してもよい。一例として、当該第2の発話の話者が音声入力に慣れていると判定された場合には、学習部108は、当該学習結果の適用ユーザを全員と決定してもよい。また、当該第2の発話の話者が音声入力に慣れていないと判定された場合には、学習部108は、当該学習結果の適用ユーザを当該第2の発話の話者のみと決定してもよい。
【0050】
ここで、ユーザが音声入力に慣れているか否かは、例えば、当該ユーザの音声入力の利用頻度、当該ユーザの発話の音声認識結果の信頼度、または、当該ユーザの発話における言いよどみやフィラーの有無に基づいて判定されてもよい。あるいは、ユーザが音声入力に慣れているか否かは、当該ユーザの生体情報や当該ユーザの表情の解析結果に基づいて判定された当該ユーザの自信の有無に基づいて判定されてもよい。あるいは、ユーザが音声入力に慣れているか否かは、これらの指標のうちの2以上の組み合わせに基づいて判定されてもよい。これにより、判定の精度を向上させることができる。例えば、あるユーザの発話の音声認識結果の信頼度が高く、かつ、言いよどみが無いと判定された場合には、当該ユーザが音声入力に慣れていると判定されてもよい。
【0051】
‐決定例2:音声の届く範囲
または、学習部108は、当該第2の発話の音声が物理的に届く範囲内に存在すると判断された人たちを当該学習結果の適用ユーザとして決定してもよい。この方法によれば、当該第2の発話がなされたときに周囲に存在していなかった人たちを当該学習結果の適用対象外とすることができる。これにより、当該周囲に存在していなかった人たちが音声入力を利用する際に、意図しない音声認識結果が得られることを防止することができる。ここで、音声が届く範囲は、例えば、当該第2のタイミングにおける、発話者の位置情報と当該発話者の周囲の撮像画像に基づいた画像認識結果とを組み合わせることにより判断されてもよい。または、例えばレーダーなどを用いた当該発話者からの距離の計測結果に基づいて、当該音声が届く範囲が判断されてもよい。または、例えば当該第2のタイミングにおける当該第2の発話の話者のスケジュールの登録内容などに基づいて、当該話者が位置するべき場所を特定することにより、当該音声が届く範囲が判断されてもよい。
【0052】
‐決定例3:話者のコミュニティ
または、学習部108は、例えば当該第2の発話の話者のデモグラフィック情報などから特定される、当該第2の発話の話者と同一のコミュニティに属する一以上のユーザを当該学習結果の適用ユーザとして決定してもよい。ここで、コミュニティの例としては、家族、ゲーム仲間のコミュニティ、チャットグループ、または、友人などが挙げられる。例えば、当該第2の発話の話者が「孫」である場合には、学習部108は、当該学習結果の適用ユーザを当該第2の発話の話者の家族と決定してもよい。
【0053】
‐決定例4:発話のトピックのコミュニティ
または、学習部108は、当該第1の発話または当該第2の発話のトピックに合致するコミュニティに属する一以上のユーザを当該学習結果の適用ユーザとして決定してもよい。例えば、当該第1の発話が「懐かしい音楽にして。」である場合には、学習部108は、当該第1の発話のトピックを「音楽」と判断し、そして、「音楽」コミュニティに属する一以上のユーザを当該学習結果の適用ユーザとして決定してもよい。または、当該第2の発話が、あるゲーム特有の言い回しを含む発話である場合には、学習部108は、「ゲーム」コミュニティに属する一以上のユーザを当該学習結果の適用ユーザとして決定してもよい。
【0054】
‐決定例5:個人化したい発話
または、当該第2の発話が、個人化したい発話であると検出された場合には、学習部108は、当該学習結果の適用ユーザを当該第2の発話の話者のみと決定してもよい。このような場合の具体例としては、当該第1の発話が、パスワードのような秘密の合言葉に対応する発話であり、かつ、当該第2の発話が当該第1の発話の言い直しであるケース(換言すれば、他のユーザに発話を覚えられたくないケース)などが挙げられる。ここで、個人化したい発話であることの検出方法の例としては、当該第2の発話の話者が、個人用のマイクロフォンを用いて発話していたか否かを検出すること、ささやき声により当該第2の発話がなされたか否かを検出すること、または、当該第2の発話時に、当該第2の発話の話者が口を覆うジェスチャを行っていたか否かを検出することなどが挙げられる。なお、ささやき声であるか否かは、例えば非可聴つぶやき認識や唇認識などにより検出され得る。
【0055】
‐具体例
ここで、
図5を参照して、学習部108の上記の機能についてより詳細に説明する。
図5に示した例では、孫「D」の音声入力の利用頻度が所定の閾値以上であるとする。そこで、学習部108は、発話30aに対応する意味の学習結果の適用ユーザを、その場にいる全てのユーザ(つまり、「A」、「B」、「C」、「D」、および、「F」)として決定してもよい。または、学習部108は、当該学習結果の適用ユーザを「D」の家族のみと決定してもよい。
【0056】
{2-1-6.出力制御部110}
(2-1-6-1.学習済みであることの通知)
‐通知例1
出力制御部110は、端末20に対して情報(例えば映像や音など)の出力を制御する。例えば、当該第1の発話の音声認識結果に対応する意味を学習部108が学習した場合には、出力制御部110は、当該第1の発話の音声認識結果に対応する意味が学習済みであることを示す通知の音声(例えばTTS(Text To Speech)など)を端末20に出力させる。
【0057】
ここで、
図7を参照して、上記の機能についてより詳細に説明する。
図7は、
図5に示した例における、端末20に対する出力の制御例を示した図である。
図7では、学習部108が、発話30cに対応する意味を学習することを決定した直後の状況を示している。
図7に示したように、まず、出力制御部110は、発話30cに対応する意味の解析結果に基づいて、「AAABBソング集」の出力を端末20に開始させる。さらに、出力制御部110は、例えば「「懐かしい雰囲気にして」という「おばあちゃん」のリクエストでAAABBソング集をお届けしています」などのように、発話30aに対応する意味を学習したこと、および、学習した内容を示す通知の音声40eを端末20に出力させる。
【0058】
‐通知例2
また、ある発話に対応する意味と、別の複数の発話の各々に対応する意味とが同一であると学習部108が学習した場合には、出力制御部110は、この学習結果を通知する音声を端末20に出力させることも可能である。例えば、出力制御部110は、まず、当該別の複数の発話の中から、例えばいずれか一つを通知対象の発話として選択する。次に、出力制御部110は、通知対象のユーザを決定する。そして、出力制御部110は、当該通知対象の発話に対応する意味と、当該ある発話に対応する意味とが同一であると学習済みであることを通知する音声を当該通知対象のユーザに対して端末20に出力させる。例えば、出力制御部110は、まず、当該ある発話の内容を第1のTTSで端末20に出力させ、そして、当該通知対象の発話の内容を第2のTTSで端末20に出力させる。一例として、当該ある発話が「BGMにして」であり、かつ、当該通知対象の発話の内容が「グループAの歌の再生を指示すること」であるとする。この場合、出力制御部110は、例えば、「BGMにして」という音声を第1のTTSで端末20に出力させ、その直後に、「のリクエストでグループAの歌Xをお届けします」という音声を第2のTTSで端末20に出力させてもよい。
【0059】
なお、出力制御部110は、特定のタイミングにのみ、この通知の音声を端末20に出力させてもよい。例えば、端末20による「歌X」の出力の音量が所定の閾値以下である場合に限り、出力制御部110は、この通知の音声を端末20に出力させてもよい。または、端末20の周囲の騒音の音量が所定の閾値以下になった際に、出力制御部110は、この通知の音声を端末20に出力させてもよい。
【0060】
次に、(この通知の音声の)通知対象の発話の選択例についてより詳細に説明する。例えば、出力制御部110は、当該通知対象の発話として、当該別の複数の発話の中から、自然言語理解の信頼度が最も高かった発話を選択してもよいし、最初になされた発話を選択してもよいし、または、最後になされた発話を選択してもよい。または、出力制御部110は、発話時に認識された該当の話者の行動の度合い(行動の大きさまたは頻度など)が最も大きかった発話を当該通知対象の発話として選択してもよい。または、出力制御部110は、当該別の複数の発話の各々に関して、発話時のバイタル情報や声のノンバーバル情報に基づいて発話時の興奮度を判定し、そして、発話時の興奮度が最も大きい発話を当該通知対象の発話として選択してもよい。
【0061】
以下では、上記の通知対象のユーザの決定例についてより詳細に説明する。例えば、出力制御部110は、端末20の周囲に位置する全員を当該通知対象のユーザとして決定してもよい。または、出力制御部110は、現在の忙しさの度合い(例えば行動の頻度など)が最も小さい人を当該通知対象のユーザとして決定してもよい。または、出力制御部110は、端末20のセンシング範囲内で「傾聴状態」にある一以上のユーザを当該通知対象のユーザとして決定してもよい。なお、各ユーザが傾聴状態であるか否かは、例えば、当該ユーザの瞬きの頻度が少ないか否かに基づいて検出され得る。
【0062】
(2-1-6-2.学習結果に基づく出力制御)
また、第1の発話の音声認識結果に対応する意味を学習部108が学習した場合は、出力制御部110は、当該学習結果に基づいて、端末20に対して情報の出力を制御し得る。
【0063】
図8は、
図5に示した例において、学習部108による学習が行われた後の、端末20に対する出力の制御例を示した図である。
図8に示したように、祖父「A」が、
図5に示した発話30aと同一の発話32を端末20に対して行い、そして、端末20が発話32の音声データをサーバ10へ送信したとする。この場合、まず、サーバ10の意味解析部104は、学習部108による学習結果に基づいて、発話32に対応する意味を、「AAABBソング集の再生を指示すること」(換言すれば、
図5に示した発話30cに対応する意味と同一の意味)と解析する。そして、出力制御部110は、当該解析結果に基づいて、「AAABBソング集」の出力を端末20に開始させる。
【0064】
{2-1-7.通信部120}
通信部120は、後述する通信装置166を含んで構成され得る。通信部120は、他の装置との間で情報の送受信を行う。例えば、通信部120は、出力制御部110の制御に従って、各種の情報を端末20へ送信する。また、通信部120は、各種のセンシング結果を端末20から受信する。
【0065】
{2-1-8.記憶部122}
記憶部122は、後述するストレージ装置164を含んで構成され得る。記憶部122は、各種のデータや、各種のソフトウェアを記憶する。例えば、記憶部122は、学習部108による学習結果の履歴を記憶する。
【0066】
<2-2.適用例>
以上、本実施形態の構成について説明した。次に、本実施形態の適用例について、
図9~
図13を参照して説明する。本適用例では、
図9に示したように、兄弟「H」、兄弟「I」、および、祖父「A」が家族であり、かつ、「H」、「G」、および、「J」が、同じゲームコミュニティに属している例を示している。本適用例では、
図10に示したように、まず、「H」が「BANはどうだった?」という発話30aを端末20に対して行い、端末20が発話30aの音声データをサーバ10へ送信し、そして、サーバ10は、この発話30aをOODであると判定したとする。その後、「H」が発話30aの言い直しとして「さっきBANされたシーンだよ。」という発話30bを端末20に対して行い、端末20が発話30bの音声データをサーバ10へ送信し、そして、サーバ10は、この発話30bもOODであると判定したとする。その後、「G」が発話30aの言い直しとして「ゲームXでBANされたときの記録動画を再生して。」という発話30cを端末20に対して行い、端末20が発話30cの音声データをサーバ10へ送信し、そして、サーバ10は、この発話30cをInDomainであると判定したとする。ここで、「G」の過去の言い直しの成功頻度は所定の閾値以上であるとする。そこで、学習部108は、発話30aに対応する意味を学習することを決定し、そして、発話30aに対応する意味が、発話30cに対応する意味と同一になるように、発話30aに対応する意味を学習し得る。
【0067】
また、本適用例において、「G」の音声入力の利用頻度が所定の閾値以上であるとする。そこで、学習部108は、発話30aに対応する意味の学習結果の適用ユーザ(つまり、発話30aと略同一の発話を行った際に発話の意味が発話30aの音声認識結果に対応する意味の学習結果と同一であると判定される一以上のユーザ)を、
図11において枠線で示したように、上記のゲームコミュニティに属しているユーザのみ(つまり、「G」、「H」、および、「J」)に決定し得る。
【0068】
その後、
図12に示したように、例えば数日後に、「H」が、「今日のBANはどうだった?」という、
図10に示した発話30aと略同一の発話32aを端末20に対して行い、そして、端末20が発話32aの音声データをサーバ10へ送信したとする。この場合、まず、サーバ10の意味解析部104は、「H」が、発話30aに対応する意味の学習結果の適用ユーザであることを確認する。次に、意味解析部104は、学習部108による学習結果に基づいて、発話32aに対応する意味を、「ゲームXの動画の再生を指示すること」(換言すれば、
図10に示した発話30cに対応する意味と同一の意味)と解析する。そして、出力制御部110は、当該解析結果に基づいて、「ゲームXの動画」の出力を端末20に開始させる。
【0069】
その後、
図13に示したように、「I」が、例えば「僕のバン(BAN)はどうだった?」という、
図10に示した発話30aと略同一の発話32bを端末20に対して行い、そして、端末20が発話32bの音声データをサーバ10へ送信したとする。この場合、まず、サーバ10の意味解析部104は、「I」が、発話30aに対応する意味の学習結果の適用ユーザではないことを確認する。次に、意味解析部104は、発話32bに対応する意味を解析するために、学習部108による学習結果を用いないことを決定する。そして、意味解析部104は、発話32bをOODであると判定する。その後、出力制御部110は、当該判定結果を示す通知の音声42bを端末20に出力させる。
【0070】
<2-3.処理の流れ>
{2-3-1.処理の全体の流れ}
以上、本実施形態の適用例について説明した。次に、本実施形態に係る処理の流れについて説明する。
図14は、本実施形態に係る処理の流れの一例を示したフローチャートである。
図14に示したように、まず、サーバ10は、後述する「音声入力処理」を行う(S101)。
【0071】
その後、サーバ10の言い直し判定部106は、最新のS101で入力された発話が、すでに入力済みの発話の言い直しであるか否かを判定する(S103)。該当の発話が言い直しではないと判定された場合には(S103:No)、サーバ10は、後述するS117の処理を行う。
【0072】
一方、該当の発話が、すでに入力済みの発話の言い直しであると判定された場合には(S103:Yes)、次に、意味解析部104は、該当の発話がInDomainであるか否かを判定する(S105)。該当の発話がInDomainではない(つまり、OODである)と判定された場合には(S105:No)、サーバ10は、再びS101以降の処理を行う。
【0073】
一方、該当の発話がInDomainであると判定された場合には(S105:Yes)、サーバ10の制御部100は、まず、該当の発話に関する情報(音声認識結果など)を記憶部122に記録する(S107)。
【0074】
続いて、学習部108は、後述する「学習するか否かの判定処理」を行う(S109)。S109において該当の発話に関して学習しないと判定された場合には(S111:No)、サーバ10は、後述するS117の処理を行う。
【0075】
一方、S109において該当の発話に関して学習すると判定された場合には(S111:Yes)、学習部108は、後述する「学習結果の適用範囲の決定処理」を行う(S113)。
【0076】
続いて、学習部108は、該当の発話(第2の発話)の前に収音された、当該第2の発話に対応する別の発話(第1の発話)の音声認識結果に対応する意味を、当該第2の発話の音声認識結果に対応する意味に基づいて学習する(S115)。
【0077】
その後、制御部100は、該当の発話の音声認識結果に対応する処理を実行する(S117)。
【0078】
{2-3-2.音声入力処理}
ここで、
図15および
図16を参照して、S101における「音声入力処理」の流れについてより詳細に説明する。
図15および
図16は、「音声入力処理」の流れの一部をそれぞれ示したフローチャートである。
図15に示したように、まず、端末20は、例えば収音などの各種のセンシングを開始する。そして、各種のセンシング結果が取得される度に、端末20は、取得された個々のセンシング結果をサーバ10へ逐次送信する(S201)。
【0079】
その後、S201において音声が収音された場合には、サーバ10の音声認識部102は、該当の音声を音声認識する(S203)。続いて、音声認識部102は、S203における認識結果に対応するテキストデータを取得する(S205)。続いて、音声認識部102は、S203における音声認識結果の信頼値を取得する(S207)。さらに、音声認識部102は、言いよどみやフィラーワードが該当の音声に含まれているか否かを判定する(S209)。その後、サーバ10は、後述するS241、S245、S251、および、S253の処理を行う。
【0080】
また、S201において音声が収音された場合には、制御部100は、例えば、当該音声の収音時に端末20により撮像された撮像画像などに基づいて、該当の音声の話者を認識する(S211)。続いて、制御部100は、S211で認識された話者の発話に関する学習履歴データを記憶部122から抽出する(S213)。続いて、制御部100は、S211で認識された話者の発話に関する学習時の音声入力内容を示す履歴データを記憶部122から抽出する(S215)。その後、サーバ10は、後述するS241、S245、S251、および、S253の処理を行う。
【0081】
また、S201の後、制御部100は、例えば端末20により撮像された話者の画像や、端末20により収音された音声などに基づいて、該当の話者の感情を認識する(S217)。端末20により音声が収音された場合には、制御部100は、さらに、当該音声のノンバーバル情報(例えば、音量や抑揚など)を特定することにより取得する(S219)。続いて、制御部100は、端末20による各種のセンシング結果(例えば該当の話者の生体情報など)に基づいて、該当の話者の興奮度を特定する(S221)。その後、サーバ10は、後述するS241、S245、S251、および、S253の処理を行う。
【0082】
また、S201の後、制御部100は、例えば端末20により撮像された話者の画像などに基づいて、該当の話者のジェスチャを認識し(S223)、そして、認識されたジェスチャデータを取得する(S225)。その後、サーバ10は、後述するS241、S245、S251、および、S253の処理を行う。
【0083】
また、S201の後、制御部100は、例えば端末20により撮像された話者の画像などに基づいて、該当の話者の視線を認識し(S227)、そして、認識された視線データを取得する(S229)。その後、サーバ10は、後述するS241、S245、S251、および、S253の処理を行う。
【0084】
また、S201の後、制御部100は、例えば端末20により取得された話者の生体情報に基づいて、該当の話者に関する生体認識を行う(S231)。そして、制御部100は、該当の話者の心拍データを取得する(S233)。さらに、制御部100は、取得された生体情報に基づいて、該当の発話に対する話者の自信の有無を判定する(S235)。
【0085】
ここで、
図16を参照して、S235(および、S209、S215、S221、S225、S229)より後の処理の流れについて説明する。
図16に示したように、S235の後、まず、制御部100は、端末20による収音結果に基づいて、環境音の認識処理を行う(S241)。続いて、制御部100は、S241における認識結果に基づいて、該当の話者の周囲の雑音状況を特定する(S243)。その後、制御部100は、後述する「学習結果の適用範囲の更新処理」を行う(S255)。
【0086】
また、S235の後、制御部100は、端末20により撮像された画像に対して画像認識処理を行う(S245)。続いて、制御部100は、S245における認識結果に基づいて、該当の話者の位置情報を特定する(S247)。さらに、制御部100は、S245における認識結果に基づいて、該当の話者の周囲に居る人たちを認識し、そして、当該認識結果に基づいて、これらの人物のデモグラフィック情報を取得する(S249)。その後、制御部100は、上記のS255の処理を行う。
【0087】
また、S235の後、制御部100は、例えばGPSなどの測位衛星から端末20が受信した信号に基づいて特定された、端末20の位置情報を取得する(S251)。その後、制御部100は、上記のS255の処理を行う。
【0088】
また、S235の後、制御部100は、例えばスケジューラなどに登録されている、該当の話者のスケジュールの内容を特定し、そして、特定した内容に基づいて、当該話者が位置するべき場所を特定する(S253)。その後、制御部100は、上記のS255の処理を行う。
【0089】
{2-3-3.学習結果の適用範囲の更新処理}
次に、
図17を参照して、S255における「学習結果の適用範囲の更新処理」の流れについて説明する。
図17に示したように、まず、制御部100は、該当の学習結果を適用する対象範囲に含まれている人が他人と会話しているか否かを、端末20による各種のセンシング結果(撮像画像など)に基づいて判定する(S301)。該当の人が他人と会話していないと判定された場合には(S301:No)、当該「学習結果の適用範囲の更新処理」は終了する。
【0090】
一方、該当の人が他人と会話していると判定された場合には(S301:Yes)、まず、制御部100は、当該学習結果を適用する対象範囲に含まれている人が会話している相手に関するデータを取得する(S303)。
【0091】
続いて、制御部100は、当該会話中に該当の人が他人と向き合っている時間の長さが所定の時間以上であるか否かを判定する(S305)。該当の人が他人と向き合っている時間の長さが当該所定の時間未満である場合には(S305:No)、当該「学習結果の適用範囲の更新処理」は終了する。
【0092】
一方、該当の人が他人と向き合っている時間の長さが当該所定の時間以上である場合には(S305:Yes)、次に、制御部100は、当該会話のターンテイキング数が所定の閾値以上になっているか否かを判定する(S307)。当該会話のターンテイキング数が当該所定の閾値未満である場合には(S307:No)、当該「学習結果の適用範囲の更新処理」は終了する。
【0093】
一方、当該会話のターンテイキング数が当該所定の閾値以上になっている場合には(S307:Yes)、学習部108は、該当の学習結果を適用する対象範囲に、該当の人が会話している相手を追加する(S309)。
【0094】
{2-3-4.学習するか否かの判定処理}
次に、
図18を参照して、S109における「学習するか否かの判定処理」の流れについて説明する。
図18に示したように、学習部108は、該当の発話者の過去の学習の成功回数が所定の閾値以上であるか否かを判定する(S401)。該当の発話者の過去の学習の成功回数が所定の閾値以上である場合には(S401:Yes)、学習部108は、該当の発話に関して学習すると判定する(S403)。一方、該当の発話者の過去の学習の成功回数が当該所定の閾値以上未満である場合には(S401:No)、学習部108は、該当の発話に関して学習しないと判定する(S405)。
【0095】
なお、S109の処理の流れは、
図18に示した例に限定されない。例えば、
図19~
図22に示した「変形例1」~「変形例4」のうちのいずれかが、
図18に示した例の代わりに、S109の処理の流れとして適用されてもよい。または、これらの「変形例1」~「変形例4」、および、
図18に示した例のうちのいずれか二以上が並列に実行され、かつ、それらの結果が組み合わされてもよい。
【0096】
(2-3-4-1.変形例1)
図19は、S109の変形例1に係る処理の流れを示したフローチャートである。
図19に示したように、本変形例では、学習部108は、該当の発話の直前に収音された別の発話の収音時と該当の発話時との間の、該当の発話の話者の興奮度の差が所定の閾値以下であるか否かを判定する(S411)。該当の発話の話者の興奮度の差が当該所定の閾値よりも大きい場合には(S411:No)、学習部108は、該当の発話に関して学習すると判定する(S413)。一方、該当の発話の話者の興奮度の差が当該所定の閾値以下である場合には(S411:Yes)、学習部108は、該当の発話に関して学習しないと判定する(S415)。
【0097】
(2-3-4-2.変形例2)
図20は、S109の変形例2に係る処理の流れを示したフローチャートである。
図20に示したように、本変形例では、学習部108は、該当の発話の話者の心拍データが示す値が所定の閾値以上であるか否かを判定する(S421)。当該心拍データが示す値が当該所定の閾値未満である場合には(S421:No)、学習部108は、該当の発話に関して学習すると判定する(S423)。一方、当該心拍データが示す値が当該所定の閾値以上である場合には(S421:Yes)、学習部108は、該当の発話に関して学習しないと判定する(S425)。
【0098】
(2-3-4-3.変形例3)
図21は、S109の変形例3に係る処理の流れを示したフローチャートである。
図21に示したように、本変形例では、学習部108は、該当の発話の話者の過去の音声入力の実施回数が所定の閾値以上であるか否かを判定する(S431)。当該話者の過去の音声入力の実施回数が当該所定の閾値以上である場合には(S431:Yes)、学習部108は、該当の発話に関して学習すると判定する(S433)。一方、当該話者の過去の音声入力の実施回数が当該所定の閾値未満である場合には(S431:No)、学習部108は、該当の発話に関して学習しないと判定する(S435)。
【0099】
(2-3-4-4.変形例4)
図22は、S109の変形例4に係る処理の流れを示したフローチャートである。
図22に示したように、本変形例では、学習部108は、該当の発話の話者が、首を横に振る動きを伴うジェスチャを該当の発話時に行っていたか否かを判定する(S441)。該当の発話の話者が、首を横に振る動きを伴うジェスチャを該当の発話時に行っていなかった場合には(S441:No)、学習部108は、該当の発話に関して学習すると判定する(S443)。一方、該当の発話の話者が、首を横に振る動きを伴うジェスチャを該当の発話時に行っていた場合には(S441:Yes)、学習部108は、該当の発話に関して学習しないと判定する(S445)。
【0100】
{2-3-5.学習結果の適用範囲の決定処理}
次に、
図23を参照して、S113における「学習結果の適用範囲の決定処理」の流れについて説明する。
図23に示したように、学習部108は、該当の発話の話者の過去の音声入力の実施回数が所定の閾値以上であるか否かを判定する(S501)。当該話者の過去の音声入力の実施回数が当該所定の閾値以上である場合には(S501:Yes)、学習部108は、認識された、端末20の周囲に居る人物全員を、該当の学習結果の適用対象のユーザとして登録することを決定する(S503)。一方、当該話者の過去の音声入力の実施回数が当該所定の閾値未満である場合には(S501:No)、学習部108は、当該話者のみを該当の学習結果の適用対象のユーザとして登録することを決定する(S505)。
【0101】
なお、S113の処理の流れは、
図23に示した例に限定されない。例えば、
図24~
図28に示した「変形例1」~「変形例5」のうちのいずれかが、
図23に示した例の代わりに、S113の処理の流れとして適用されてもよい。または、これらの「変形例1」~「変形例5」、および、
図23に示した例のうちのいずれか二以上が並列に実行され、かつ、それらの結果が組み合わされてもよい。
【0102】
(2-3-5-1.変形例1)
図24は、S113の変形例1に係る処理の流れを示したフローチャートである。
図24に示したように、本変形例では、学習部108は、該当の発話の話者と、該当の発話の直前に収音された、OODと判定された別の発話の話者とが同一のコミュニティに属しているか否かを判定する(S511)。両者が同一のコミュニティに属している場合には(S511:Yes)、学習部108は、当該コミュニティに属している人物全員を該当の学習結果の適用対象のユーザとして登録することを決定する(S513)。一方、両者が同一のコミュニティに属していない場合には(S511:No)、学習部108は、該当の学習結果の適用対象のユーザとして当該話者のみを登録することを決定する(S515)。
【0103】
(2-3-5-2.変形例2)
図25は、S113の変形例2に係る処理の流れを示したフローチャートである。
図25に示したように、本変形例では、学習部108は、該当のシステムからの距離(例えば端末20からの距離)が所定の閾値以内に一以上の人がいるか否かを判定する(S521)。当該システムからの距離が当該所定の閾値以内に一以上の人がいる場合には(S521:Yes)、学習部108は、該当の人たち全員を該当の学習結果の適用対象のユーザとして登録することを決定する(S523)。一方、当該システムからの距離が当該所定の閾値以内に誰もいない場合には(S521:No)、学習部108は、該当の学習結果の適用対象のユーザとして当該話者のみを登録することを決定する(S525)。
【0104】
(2-3-5-3.変形例3)
図26は、S113の変形例3に係る処理の流れを示したフローチャートである。
図26に示したように、本変形例では、学習部108は、該当の発話者からの距離が所定の閾値以内に一以上の人がいるか否かを判定する(S531)。当該発話者からの距離が当該所定の閾値以内に一以上の人がいる場合には(S531:Yes)、学習部108は、該当の人たち全員を該当の学習結果の適用対象のユーザとして登録することを決定する(S533)。一方、当該発話者からの距離が当該所定の閾値以内に誰もいない場合には(S531:No)、学習部108は、当該話者のみを該当の学習結果の適用対象のユーザとして登録することを決定する(S535)。
【0105】
(2-3-5-4.変形例4)
図27は、S113の変形例4に係る処理の流れを示したフローチャートである。
図27に示したように、本変形例では、まず、意味解析部104は、該当の発話の音声認識結果に対応するテキストに対して所定の自然言語処理を行い(S541)、そして、当該発話に対応するトピックを抽出する(S543)。続いて、学習部108は、抽出されたトピックに合致するコミュニティが存在するか否かを判定する(S545)。当該トピックに合致するコミュニティが存在する場合には(S545:Yes)、学習部108は、該当のコミュニティに属するメンバー全員を該当の学習結果の適用対象のユーザとして登録することを決定する(S547)。一方、当該トピックに合致するコミュニティが存在しない場合には(S545:No)、学習部108は、該当の学習結果の適用対象のユーザとして当該話者のみを登録することを決定する(S549)。
【0106】
(2-3-5-5.変形例5)
図28は、S113の変形例5に係る処理の流れを示したフローチャートである。
図28に示したように、本変形例では、まず、学習部108は、該当の発話の話者が、該当の発話時に口を覆っていたか否かを、端末20による該当の発話時のセンシング結果(撮像画像など)に基づいて判定する(S551)。当該話者が該当の発話時に口を覆っていたと判定された場合には(S551:Yes)、学習部108は、当該話者のみを該当の学習結果の適用対象のユーザとして登録することを決定する(S559)。
【0107】
一方、当該話者が該当の発話時に口を覆っていなかったと判定された場合には(S551:No)、次に、学習部108は、該当の発話がささやき声であったか否かを判定する(S553)。該当の発話がささやき声であった場合には(S553:Yes)、学習部108は、当該話者のみを該当の学習結果の適用対象のユーザとして登録することを決定する(S559)。
【0108】
一方、該当の発話がささやき声ではなかった場合には(S553:No)、次に、学習部108は、該当の発話者が、該当の発話時に使用したマイクロフォンが当該発話者の個人用のマイクロフォンであるか否かを判定する(S555)。該当のマイクロフォンが当該発話者の個人用のマイクロフォンであると判定された場合には(S555:Yes)、学習部108は、当該話者のみを該当の学習結果の適用対象のユーザとして登録することを決定する(S559)。一方、該当のマイクロフォンが当該発話者の個人用のマイクロフォンではないと判定された場合には(S555:No)、サーバ10は、
図23~
図27に示した、S501、S511、S521、S531、または、S541以降の処理を行う。
【0109】
<2-4.効果>
{2-4-1.効果1}
以上説明したように、本実施形態に係るサーバ10は、第1のタイミングの後の第2のタイミングに収音された第2の発話が、第1のタイミングに収音された第1の発話の言い直しであるか否かの判定結果に基づいて、当該第1の発話の音声認識結果に対応する意味を学習する。このため、当該第1の発話の音声認識結果に対応する意味を適切に学習することができる。
【0110】
例えば、当該第2の発話が当該第1の発話の言い直しであると判定され、当該第1の発話の音声認識結果に対応する意味が特定不能であり、かつ、当該第2の発話の音声認識結果に対応する意味が特定可能であった場合に、サーバ10は、当該第2の発話の音声認識結果に対応する意味に基づいて、当該第1の発話の音声認識結果に対応する意味を学習する。このため、OODの発話をした後であっても、ユーザは、InDomainな発話を言い直すことにより、OODの発話に対応する意味をInDomainな発話に対応する意味と同一であるように、サーバ10に学習させることができる。その結果、音声入力の利便性が向上し得る。
【0111】
{2-4-2.効果2}
また、サーバ10は、当該第1のタイミングのコンテキストと当該第2のタイミングのコンテキストとの関係性に基づいて、当該第1の発話の音声認識結果に対応する意味を学習するか否かを決定することが可能である。このため、サーバ10は、当該第2の発話が当該第1の発話の言い直しであるか否かを精度良く判定することができるので、当該第1の発話の音声認識結果に対応する意味を適切に学習することができる。
【0112】
さらに、当該第1の発話の音声認識結果に対応する意味を学習することを決定した場合には、サーバ10は、当該学習結果が適用される一以上のユーザ(つまり、当該第1の発話と略同一の発話を行った際に当該発話の意味が当該第1の発話の音声認識結果に対応する意味の学習結果と同一であると判定される一以上のユーザ)を、状況に応じて適切に決定することができる。
【0113】
<<3.応用例>>
本実施形態は、前述した例に限定されず、各種の応用例が適用可能である。次に、本実施形態の応用例について、「3-1.応用例1」~「3-3.応用例3」において説明する。なお、各応用例に係るサーバ10に含まれる各構成要素は、
図3に示した例と同様である。以下では、前述した実施形態と異なる機能を有する構成要素についてのみ説明することとし、同一の内容については説明を省略する。
【0114】
<3-1.応用例1>
まず、本実施形態に係る応用例1について説明する。応用例1によれば、サーバ10は、学習結果の適用ユーザを動的に増減することが可能である。
【0115】
{3-1-1.学習部108}
応用例1に係る学習部108は、学習結果の適用ユーザを所定の基準に基づいて動的に増加または減少させる。例えば、学習結果の適用対象外のユーザの身体の向き、または、視線の向きが、学習結果の適用ユーザと向かい合っている時間の長さが所定の時間以上であると判定された場合には、学習部108は、該当のユーザを学習結果の適用対象のユーザとして動的に追加してもよい。または、例えば音声認識の結果および話者認識の結果から特定される、学習結果の適用対象外のユーザと学習結果の適用ユーザとの会話のターンテイキング数が所定の閾値以上に達したと判定された場合には、学習部108は、該当のユーザを学習結果の適用対象のユーザとして動的に追加してもよい。または、学習結果の適用ユーザが、あるチャットグループのメンバー全員であり、かつ、いずれかのメンバーが当該チャットグループから脱退した際には、学習部108は、脱退したメンバーを当該学習結果の適用ユーザから動的に除外してもよい。
【0116】
{3-1-2.適用例}
ここで、
図29および
図30を参照して、応用例1の適用例について説明する。本適用例では、初期時点における、学習結果の適用ユーザ、および、学習結果の適用対象外のユーザが
図11に示した例と同様であることを前提とする。つまり、学習結果の適用ユーザが「G」、「H」、および、「J」であり、かつ、学習結果の適用対象外のユーザが「I」および「A」である。
【0117】
図29に示したように、まず、「H」と「I」とが向き合って懇意に会話をしているとする。この場合、学習部108は、「I」が「H」にとって有効になっていると判断し、そして、「I」を学習結果の適用ユーザとして一時的に追加する。その後、
図29に示したように、「I」が、例えば「BANはどうだったの?」という、
図10に示した発話30aと略同一の発話34aを端末20に対して行い、そして、端末20が発話34aの音声データをサーバ10へ送信したとする。この場合、まず、サーバ10の意味解析部104は、学習部108による学習結果に基づいて、発話34aに対応する意味を、「ゲームXの動画の再生を指示すること」(換言すれば、
図10に示した発話30cに対応する意味と同一の意味)と解析する。そして、出力制御部110は、当該解析結果に基づいて、「ゲームXの動画」の出力を端末20に開始させる。
【0118】
その後、
図30に示したように、「I」に対して「A」が話しかけ、かつ、「H」が別の場所へ移動したとする。この場合、学習部108は、「I」が「H」にとって無効になったと判断し、そして、「I」を学習結果の適用ユーザから除外する。
【0119】
<3-2.応用例2>
以上、応用例1について説明した。次に、本実施形態に係る応用例2について説明する。応用例2によれば、サーバ10は、学習結果の適用ユーザを動的に増加することを、学習結果の適用ユーザのうちの少なくとも一人に対して問い合わせることが可能である。
【0120】
{3-2-1.学習部108}
応用例2に係る学習部108は、一以上のユーザを学習結果の適用ユーザとして動的に追加することを判断した場合には、学習結果の適用ユーザのうちの少なくとも一人に対して当該追加の諾否を問い合わせる。さらに、当該一以上のユーザの追加を承諾することを示す回答が、該当の学習結果の適用ユーザから得られた場合には、学習部108は、当該一以上のユーザを該当の学習結果の適用ユーザとして動的に追加する。
【0121】
{3-2-2.適用例}
ここで、
図31および
図32を参照して、応用例2の適用例について説明する。本適用例では、初期時点における、学習結果の適用ユーザ、および、学習結果の適用対象外のユーザがそれぞれ、応用例1と同様(つまり、
図11に示した例と同様)であることを前提とする。
【0122】
図31に示したように、まず、「H」と「I」とが向き合って懇意に会話をしているとする。この場合、学習部108は、「I」が「H」にとって有効になっていると判断し、そして、「I」を学習結果の適用ユーザとして一時的に追加することを判断する。そして、学習部108は、例えば、「「BANはどうだった?」という「Hさん」のリクエストを「Iさん」でも有効にしますか?」などのような、該当の学習結果の適用ユーザに「I」を追加することの諾否の問い合わせの音声46aを「H」に対して、端末20に出力させる。その後、
図31に示したように、「H」が、当該問い合わせの音声に対して承諾する発話36を端末20に対して行い、そして、端末20が発話36の音声データをサーバ10へ送信したとする。この場合、学習部108は、発話36の音声認識結果に基づいて、該当の学習結果の適用ユーザに「I」を動的に追加する。
【0123】
その後、
図32に示したように、「I」に対して「A」が話しかけ、かつ、「H」が別の場所へ移動したとする。この場合、学習部108は、「I」が「H」にとって無効になったと判断し、そして、「I」を学習結果の適用ユーザから除外する。さらに、
図32に示したように、出力制御部110は、学習結果の適用ユーザから「I」が除外されたことを通知する音声46bを端末20に出力させる。
【0124】
{3-2-3.処理の流れ}
次に、
図33を参照して、応用例2に係る処理の流れについて説明する。なお、本処理の流れは、
図17に示した「学習結果の適用範囲の更新処理」以外に関しては、前述した実施形態と同様である。また、
図33に示したように、S301~S307は、
図17に示した例と同様である。
【0125】
S307において、当該会話のターンテイキング数が当該所定の閾値以上になっている場合には(S307:Yes)、学習部108は、該当のユーザが会話している相手を、該当の学習結果を適用する対象範囲に追加することの諾否の問い合わせのTTSを端末20に出力させる(S321)。
【0126】
その後、当該問い合わせに対する承諾を示す回答が該当のユーザから得られた場合には(S323)、学習部108は、該当のユーザが会話している相手を該当の学習結果を適用する対象範囲に動的に追加する(S309)。
【0127】
<3-3.応用例3>
以上、応用例2について説明した。次に、本実施形態に係る応用例3について説明する。応用例3によれば、サーバ10は、OODの発話が収音された後に、当該OODの発話に対応するInDomainの発話が2つ連続して収音された場合には、当該OODの発話に対応する意味として、当該2つの発話のうちのいずれに対応する意味を学習するかを適切に決定することができる。
【0128】
{3-3-1.学習部108}
応用例3に係る学習部108は、上記の第2の発話が上記の第1の発話の言い直しであると判定され、かつ、上記の第2のタイミングの後の第3のタイミングに収音された第3の発話も当該第1の発話の言い直しであると判定された場合には、当該第2の発話の音声認識結果に対応する意味と、当該第3の発話の音声認識結果に対応する意味とのいずれかに基づいて、当該第1の発話の音声認識結果に対応する意味を学習する。例えば、学習部108は、当該第2の発話の音声認識結果に対応する意味と、当該第3の発話の音声認識結果に対応する意味とのいずれに基づいて当該第1の発話の音声認識結果に対応する意味を学習するかを所定の基準に基づいて決定する。
【0129】
ここで、当該所定の基準は、当該第1の発話の話者と当該第2の発話の話者との関係性を示す情報、および、当該第1の発話の話者と当該第3の発話の話者との関係性を示す情報であってもよい。または、当該所定の基準は、当該第1の発話の話者のデモグラフィック情報であってもよい。または、当該所定の基準は、当該第2の発話の音声認識結果に対応する意味の抽象度合いと、当該第3の発話の音声認識結果に対応する意味の抽象度合いとの比較の結果であってもよい。例えば、学習部108は、当該第2の発話の音声認識結果に対応する意味と、当該第3の発話の音声認識結果に対応する意味とのうち抽象度合いがより低い方の意味を、当該第1の発話の音声認識結果に対応する意味として学習することを決定してもよい。
【0130】
{3-3-2.適用例}
ここで、
図34および
図35を参照して、応用例3の適用例について説明する。本適用例では、初期時点における、各ユーザの関係性が、
図4に示した例と同様であることを前提とする。
【0131】
図34に示したように、まず、祖母「B」が「懐かしい雰囲気にして。」という発話30aを端末20に対して行い、端末20が発話30aの音声データをサーバ10へ送信し、そして、サーバ10は、この発話30aをOODであると判定したとする。その後、孫「D」が発話30aの言い直しとして「おじいちゃん達が好きな音楽をかけて。」という発話30cを端末20に対して行い、端末20が発話30cの音声データをサーバ10へ送信し、そして、サーバ10は、この発話30cをInDomainであると判定したとする。さらに、その直後に、祖父「A」が発話30aの言い直しとして「「XYZをかけて」ってことだよ。」という発話30dを端末20に対して行い、端末20が発話30dの音声データをサーバ10へ送信し、そして、サーバ10は、この発話30dもInDomainであると判定したとする。この場合、学習部108は、例えば、「D」と「B」との関係性よりも、「D」と「A」との関係性の方がより近いと判断し、そして、発話30aに対応する意味が、発話30dに対応する意味と同一になるように、発話30aに対応する意味を学習してもよい。
【0132】
(3-3-2-1.変形例)
変形例として、学習部108は、発話30aに対応する意味として、発話30cに対応する意味と発話30dに対応する意味との両方を学習してもよい。以下、この変形例に係る適用例について
図35を参照して説明する。当該学習後に、
図35に示したように、例えば「A」が、発話30aと略同一の発話38aを端末20に対して行い、そして、端末20が発話38aの音声データをサーバ10へ送信したとする。この場合、まず、サーバ10の意味解析部104は、学習部108による学習結果に基づいて、発話38aに対応する意味として、発話30cに対応する意味と、発話30dに対応する意味との両方が存在すると解析する。そして、
図35に示したように、出力制御部110は、当該解析結果に基づいて、発話30cの意味に対応する処理(つまり、「AAABBソング集」を再生すること)と、発話30dの意味に対応する処理(つまり、「XYZソング集」を再生すること)とのいずれを実行すべきかを問い合わせる音声48(例えば、「AAABBソング集とXYZソング集とがありますが、どうしますか?」など)を、「A」に対して端末20に出力させる。その後、
図35に示したように、「A」は、発話30dの意味に対応する処理(つまり、「XYZソング集」を再生すること)の実行を指示する発話38b(例えば「XYZソング集をかけて。」など)を端末20に対して行い、そして、端末20が発話38bの音声データをサーバ10へ送信したとする。この場合、出力制御部110は、発話38bの音声認識結果に基づいて、「XYZソング集」の出力を端末20に開始させる。
【0133】
<<4.ハードウェア構成>>
次に、本実施形態に係るサーバ10のハードウェア構成例について、
図36を参照して説明する。
図36に示したように、サーバ10は、CPU150、ROM(Read Only Memory)152、RAM(Random Access Memory)154、バス156、インターフェース158、入力装置160、出力装置162、ストレージ装置164、および、通信装置166を備える。
【0134】
CPU150は、演算処理装置および制御装置として機能し、各種プログラムに従ってサーバ10内の動作全般を制御する。また、CPU150は、サーバ10において制御部100の機能を実現する。なお、CPU150は、マイクロプロセッサなどのプロセッサにより構成される。
【0135】
ROM152は、CPU150が使用するプログラムや演算パラメータなどの制御用データなどを記憶する。
【0136】
RAM154は、例えば、CPU150により実行されるプログラムや、使用中のデータなどを一時的に記憶する。
【0137】
バス156は、CPUバスなどから構成される。このバス156は、CPU150、ROM152、および、RAM154を相互に接続する。
【0138】
インターフェース158は、入力装置160、出力装置162、ストレージ装置164、および、通信装置166を、バス156と接続する。
【0139】
入力装置160は、例えばタッチパネル、ボタン、スイッチ、レバー、マイクロフォンなどユーザが情報を入力するための入力手段、および、ユーザによる入力に基づいて入力信号を生成し、CPU150に出力する入力制御回路などから構成される。
【0140】
出力装置162は、例えばLCDやOLEDなどのディスプレイ、または、プロジェクタなどの表示装置を含む。また、出力装置162は、スピーカなどの音声出力装置を含む。
【0141】
ストレージ装置164は、記憶部122として機能する、データ格納用の装置である。ストレージ装置164は、例えば、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置、または、記憶媒体に記録されたデータを削除する削除装置などを含む。
【0142】
通信装置166は、例えば通信網22などに接続するための通信デバイス(例えばネットワークカードなど)等で構成された通信インターフェースである。また、通信装置166は、無線LAN対応通信装置、LTE(Long Term Evolution)対応通信装置、または有線による通信を行うワイヤー通信装置であってもよい。この通信装置166は、通信部120として機能する。
【0143】
<<5.変形例>>
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
【0144】
<5-1.変形例1>
例えば、端末20の構成は、
図2に示した例に限定されない。一例として、端末20は、前述したサーバ10の制御部100に含まれる全ての構成要素を含んでもよい。この場合、本開示に係る情報処理装置は端末20であり得る。また、この変形例では、サーバ10が必ずしも設置されなくてもよい。
【0145】
<5-2.変形例2>
別の変形例として、本開示に係る情報処理装置は、サーバ10に限定されず、前述したサーバ10の制御部100に含まれる全ての構成要素を含む他の装置であってもよい。例えば、当該情報処理装置は、汎用PC、タブレット型端末、ゲーム機、スマートフォンなどの携帯電話、携帯型音楽プレーヤ、スピーカ、プロジェクタ、例えばHMDやスマートウォッチなどのウェアラブルデバイス、車載装置(カーナビゲーション装置など)、または、ロボット(例えばヒューマノイド型ロボットまたは自動運転車など)であってもよい。
【0146】
<5-3.変形例3>
前述した各実施形態の処理の流れにおける各ステップは、必ずしも記載された順序に沿って処理されなくてもよい。例えば、各ステップは、適宜順序が変更されて処理されてもよい。また、各ステップは、時系列的に処理される代わりに、一部並列的に又は個別的に処理されてもよい。また、記載されたステップのうちの一部が省略されたり、または、別のステップがさらに追加されてもよい。
【0147】
また、前述した各実施形態によれば、CPU150、ROM152、およびRAM154などのハードウェアを、本実施形態に係るサーバ10の各構成と同等の機能を発揮させるためのコンピュータプログラムも提供可能である。また、当該コンピュータプログラムが記録された記憶媒体も提供される。
【0148】
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
【0149】
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
第1のタイミングの後の第2のタイミングに収音された第2の音声が、前記第1のタイミングに収音された第1の音声の言い直しであるか否かの判定結果に基づいて、前記第1の音声の音声認識結果に対応する意味を学習する学習部、
を備える、情報処理装置。
(2)
前記学習部は、さらに、前記第2の音声の音声認識結果に対応する意味に基づいて、前記第1の音声の音声認識結果に対応する意味を学習する、前記(1)に記載の情報処理装置。
(3)
前記第2の音声が前記第1の音声の言い直しであると判定された場合には、前記学習部は、前記第2の音声の音声認識結果に対応する意味に基づいて、前記第1の音声の音声認識結果に対応する意味を学習し、
前記第2の音声が前記第1の音声の言い直しではないと判定された場合には、前記学習部は、前記第1の音声の音声認識結果に対応する意味を学習しない、前記(2)に記載の情報処理装置。
(4)
前記第2の音声が前記第1の音声の言い直しであると判定され、前記第1の音声の音声認識結果に対応する意味が特定不能であり、かつ、前記第2の音声の音声認識結果に対応する意味が特定可能であった場合に、前記学習部は、前記第2の音声の音声認識結果に対応する意味に基づいて、前記第1の音声の音声認識結果に対応する意味を学習する、前記(3)に記載の情報処理装置。
(5)
前記学習部は、前記第1の音声の音声認識結果に対応する意味が前記第2の音声の音声認識結果に対応する意味と同一になるように、前記第1の音声の音声認識結果に対応する意味を学習する、前記(4)に記載の情報処理装置。
(6)
前記学習部は、さらに、前記第1のタイミングのコンテキストと前記第2のタイミングのコンテキストとの関係性に基づいて、前記第1の音声の音声認識結果に対応する意味を学習するか否かを決定する、前記(2)~(5)のいずれか一項に記載の情報処理装置。
(7)
前記第1のタイミングのコンテキストと前記第2のタイミングのコンテキストとの差に関する所定の評価値が所定の条件を満たすと判定された場合には、前記学習部は、前記第1の音声の音声認識結果に対応する意味を学習しないことを決定し、
前記第1のタイミングのコンテキストと前記第2のタイミングのコンテキストとの差に関する所定の評価値が前記所定の条件を満たさないと判定された場合には、前記学習部は、前記第1の音声の音声認識結果に対応する意味を、前記第2の音声の音声認識結果に対応する意味に基づいて学習することを決定する、前記(6)に記載の情報処理装置。
(8)
前記第1の音声は、第1の発話であり、
前記第2の音声は、第2の発話であり、
前記学習部は、さらに、前記第2の発話の話者の過去の言い直しの成功頻度または前記第2の発話の話者の音声入力の利用頻度に基づいて、前記第1の発話の音声認識結果に対応する意味を学習するか否かを決定する、前記(6)または(7)に記載の情報処理装置。
(9)
前記学習部は、さらに、前記第2の音声のノンバーバル情報と前記第1の音声のノンバーバル情報との差に関する所定の評価値に基づいて、前記第1の音声の音声認識結果に対応する意味を学習するか否かを決定する、前記(6)~(8)のいずれか一項に記載の情報処理装置。
(10)
前記第1の音声は、第1の発話であり、
前記第2の音声は、第2の発話であり、
前記第1の発話の音声認識結果に対応する意味を学習することを決定した場合には、前記学習部は、さらに、前記第1の発話と略同一の発話を行った際に当該発話の意味が前記第1の発話の音声認識結果に対応する意味の学習結果と同一であると判定される一以上の第1のユーザを、前記第2の発話の話者が音声入力に慣れているか否かの判定結果に基づいて決定する、前記(6)~(9)のいずれか一項に記載の情報処理装置。
(11)
前記第1の音声は、第1の発話であり、
前記第2の音声は、第2の発話であり、
前記第1の発話の音声認識結果に対応する意味を学習することを決定した場合には、前記学習部は、さらに、前記第1の発話と略同一の発話を行った際に当該発話の意味が前記第1の発話の音声認識結果に対応する意味の学習結果と同一であると判定される一以上の第1のユーザを、前記第2の発話の話者と同一のコミュニティに属する一以上のユーザと決定する、前記(6)~(10)のいずれか一項に記載の情報処理装置。
(12)
前記学習部は、前記一以上の第1のユーザを所定の基準に基づいて動的に増加または減少させる、前記(10)または(11)に記載の情報処理装置。
(13)
前記学習部は、前記一以上の第1のユーザに対して一以上の第2のユーザを追加することを判断した場合には、前記一以上の第1のユーザのうちの少なくとも一人に対して前記一以上の第2のユーザの追加の諾否を問い合わせ、
前記一以上の第2のユーザの追加を承諾することを示す回答が得られた場合には、前記学習部は、前記一以上の第1のユーザに対して前記一以上の第2のユーザを追加する、前記(12)に記載の情報処理装置。
(14)
前記第1の音声は、第1の発話であり、
前記第2の音声は、第2の発話であり、
前記第2の発話が前記第1の発話の言い直しであると判定され、かつ、前記第2のタイミングの後の第3のタイミングに収音された第3の発話も前記第1の発話の言い直しであると判定された場合には、前記学習部は、前記第2の発話の音声認識結果に対応する意味と、前記第3の発話の音声認識結果に対応する意味とのいずれかに基づいて、前記第1の発話の音声認識結果に対応する意味を学習する、前記(6)~(13)のいずれか一項に記載の情報処理装置。
(15)
前記学習部は、前記第2の発話の音声認識結果に対応する意味と、前記第3の発話の音声認識結果に対応する意味とのいずれに基づいて前記第1の発話の音声認識結果に対応する意味を学習するかを、前記第1の発話の話者と前記第2の発話の話者との関係性を示す情報、および、前記第1の発話の話者と前記第3の発話の話者との関係性を示す情報に基づいて決定する、前記(14)に記載の情報処理装置。
(16)
前記学習部は、前記第2の発話の音声認識結果に対応する意味と、前記第3の発話の音声認識結果に対応する意味とのいずれに基づいて前記第1の発話の音声認識結果に対応する意味を学習するかを、前記第2の発話の音声認識結果に対応する意味の抽象度合いと、前記第3の発話の音声認識結果に対応する意味の抽象度合いとの比較に基づいて決定する、前記(14)または(15)に記載の情報処理装置。
(17)
前記第1の音声の音声認識結果に対応する意味を前記学習部が学習した場合に、前記第1の音声の音声認識結果に対応する意味が学習済みであることを示す通知を出力部に出力させる出力制御部をさらに備える、前記(6)~(16)のいずれか一項に記載の情報処理装置。
(18)
前記第2の音声の意味解析の結果に基づいて、前記第2の音声が前記第1の音声の言い直しであるか否かを判定する判定部をさらに備え、
前記学習部は、さらに、前記判定部による判定結果に基づいて、前記第1の音声の音声認識結果に対応する意味を学習する、前記(17)に記載の情報処理装置。
(19)
第1のタイミングの後の第2のタイミングに収音された第2の音声が、前記第1のタイミングに収音された第1の音声の言い直しであるか否かの判定結果に基づいて、プロセッサが、前記第1の音声の音声認識結果に対応する意味を学習すること、
を含む、情報処理方法。
(20)
コンピュータを、
第1のタイミングの後の第2のタイミングに収音された第2の音声が、前記第1のタイミングに収音された第1の音声の言い直しであるか否かの判定結果に基づいて、前記第1の音声の音声認識結果に対応する意味を学習する学習部、
として機能させるためのプログラム。
【符号の説明】
【0150】
10 サーバ
20 端末
22 通信網
100、200 制御部
102 音声認識部
104 意味解析部
106 言い直し判定部
108 学習部
110 出力制御部
120、220 通信部
122、226 記憶部
222 センサ部
224 出力部