特許第6930531号(P6930531)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特許6930531情報処理装置、情報処理方法およびプログラム
<>
  • 特許6930531-情報処理装置、情報処理方法およびプログラム 図000002
  • 特許6930531-情報処理装置、情報処理方法およびプログラム 図000003
  • 特許6930531-情報処理装置、情報処理方法およびプログラム 図000004
  • 特許6930531-情報処理装置、情報処理方法およびプログラム 図000005
  • 特許6930531-情報処理装置、情報処理方法およびプログラム 図000006
  • 特許6930531-情報処理装置、情報処理方法およびプログラム 図000007
  • 特許6930531-情報処理装置、情報処理方法およびプログラム 図000008
  • 特許6930531-情報処理装置、情報処理方法およびプログラム 図000009
  • 特許6930531-情報処理装置、情報処理方法およびプログラム 図000010
  • 特許6930531-情報処理装置、情報処理方法およびプログラム 図000011
  • 特許6930531-情報処理装置、情報処理方法およびプログラム 図000012
  • 特許6930531-情報処理装置、情報処理方法およびプログラム 図000013
  • 特許6930531-情報処理装置、情報処理方法およびプログラム 図000014
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6930531
(24)【登録日】2021年8月16日
(45)【発行日】2021年9月1日
(54)【発明の名称】情報処理装置、情報処理方法およびプログラム
(51)【国際特許分類】
   G10L 15/22 20060101AFI20210823BHJP
【FI】
   G10L15/22 200V
【請求項の数】19
【全頁数】32
(21)【出願番号】特願2018-511925(P2018-511925)
(86)(22)【出願日】2017年3月6日
(86)【国際出願番号】JP2017008644
(87)【国際公開番号】WO2017179335
(87)【国際公開日】20171019
【審査請求日】2020年1月16日
(31)【優先権主張番号】特願2016-79005(P2016-79005)
(32)【優先日】2016年4月11日
(33)【優先権主張国】JP
(73)【特許権者】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】特許業務法人酒井国際特許事務所
(72)【発明者】
【氏名】古賀 康之
【審査官】 渡部 幸和
(56)【参考文献】
【文献】 特開2004−086150(JP,A)
【文献】 特開2005−284543(JP,A)
【文献】 特表2015−526753(JP,A)
【文献】 特開2008−026464(JP,A)
【文献】 国際公開第2014/159581(WO,A1)
【文献】 米国特許出願公開第2009/0204392(US,A1)
【文献】 米国特許出願公開第2004/0260438(US,A1)
【文献】 米国特許出願公開第2015/0254058(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−15/34
(57)【特許請求の範囲】
【請求項1】
音声入力により得られる音声情報を得る取得部と、
前記音声情報と前記音声情報に基づく処理との対応関係の集合である辞書を記憶する記憶部と、
音声認識処理で用いられる前記辞書である使用辞書のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御する制御部と、
を備え、
前記制御部は、通信可否に基づいて前記対応関係の変更を制御し、
前記制御部は、前記通信が可能であると判定すると、前記通信を介して外部の辞書を前記使用辞書として追加
前記辞書は、文字情報と前記処理との対応関係の集合であり、
前記音声情報から文字情報を生成し、生成された前記文字情報とマッチする文字情報が前記辞書に存在すると判定されると、マッチした前記文字情報に対応する前記処理を前記制御部に通知する第1音声認識部と、
サーバと通信する通信部と、
を備え、
前記サーバは、前記通信部から音声認識要求が受信されると、前記音声認識要求と共にまたは別個に受信される前記音声情報に基づく音声認識処理を実行する第2音声認識部を有し、
前記制御部は、前記サーバとの通信が可能であると判定すると、前記第1音声認識部および前記第2音声認識部の両方を前記音声認識処理の主体として決定する、
情報処理装置。
【請求項2】
変更に係る前記対応関係は、前記操作の客体情報または前記操作の主体情報から推定される、前記操作についての前記音声認識処理における前記対応関係についての使用情報、に基づいて決定される前記対応関係を含む、
請求項1に記載の情報処理装置。
【請求項3】
前記使用情報は、使用頻度が特定される情報を含む、
請求項2に記載の情報処理装置。
【請求項4】
前記使用情報は、使用可否が特定される情報を含む、
請求項2または3に記載の情報処理装置。
【請求項5】
前記制御部は、さらに前記操作の客体情報または前記操作の主体情報に基づいて前記対応関係の集合の変更を制御する、
請求項1〜4のいずれか1項に記載の情報処理装置。
【請求項6】
前記対応関係の集合の変更は、集合の大きさが異なる前記対応関係の集合へ変更を含む、
請求項5に記載の情報処理装置。
【請求項7】
前記対応関係は、通信を介して変更される、
請求項1〜6のいずれか1項に記載の情報処理装置。
【請求項8】
前記操作の客体情報は、操作対象または前記操作対象の属性が特定される情報を含む、
請求項1〜7のいずれか1項に記載の情報処理装置。
【請求項9】
前記操作対象は、アプリケーションまたは機器を含む、
請求項8に記載の情報処理装置。
【請求項10】
前記操作の主体情報は、前記操作の主体の態様が特定される情報を含む、
請求項1〜のいずれか1項に記載の情報処理装置。
【請求項11】
前記操作の主体の態様は、前記操作の主体の行動、姿勢または位置を含む、
請求項10に記載の情報処理装置。
【請求項12】
前記操作の主体情報は、前記操作の主体の周辺環境が特定される情報を含む、
請求項1〜11のいずれか1項に記載の情報処理装置。
【請求項13】
前記操作の主体情報は、前記操作の主体または前記操作の主体の属性が特定される情報を含む、
請求項1〜12のいずれか1項に記載の情報処理装置。
【請求項14】
前記操作の客体情報または前記操作の主体情報は、前記操作の客体または主体について取得される情報に基づいて推定される情報を含む、
請求項1〜13のいずれか1項に記載の情報処理装置。
【請求項15】
前記操作の客体情報または前記操作の主体情報は、前記音声認識処理により得られる情報を含む、
請求項1〜14のいずれか1項に記載の情報処理装置。
【請求項16】
前記対応関係の変更についての前記操作の主体への通知を制御する通知制御部をさらに備える、
請求項1〜15のいずれか1項に記載の情報処理装置。
【請求項17】
前記対応関係に係る前記音声情報は、前記操作の開始を示す音声情報または前記操作の内容を示す音声情報を含む、
請求項1〜16のいずれか1項に記載の情報処理装置。
【請求項18】
プロセッサを用いて、
音声入力により得られる音声情報を得ることと、
前記音声情報と前記音声情報に基づく処理との対応関係の集合である辞書を記憶させることと、
制御部が、音声認識処理で用いられる前記辞書である使用辞書のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御することと、
通信可否に基づいて前記対応関係の変更を制御することと、
前記通信が可能であると判定すると、前記通信を介して外部の辞書を前記使用辞書として追加することと、
を含み、
前記辞書は、文字情報と前記処理との対応関係の集合であり、
第1音声認識部が、前記音声情報から文字情報を生成し、生成された前記文字情報とマッチする文字情報が前記辞書に存在すると判定されると、マッチした前記文字情報に対応する前記処理を前記制御部に通知することと、
通信部がサーバと通信することと、
前記通信部から音声認識要求が受信されると、第2音声認識部が、前記音声認識要求と共にまたは別個に受信される前記音声情報に基づく音声認識処理を実行することと、
前記サーバとの通信が可能であると判定すると、前記第1音声認識部および前記第2音声認識部の両方を前記音声認識処理の主体として決定することと、
をさらに含む、
情報処理方法。
【請求項19】
音声入力により得られる音声情報を得る取得機能と、
前記音声情報と前記音声情報に基づく処理との対応関係の集合である辞書を記憶させる記憶機能と、
制御部が、音声認識処理で用いられる前記辞書である使用辞書のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御する制御機能と、
をコンピュータに実現させ、
前記制御機能は、通信可否に基づいて前記対応関係の変更を制御する機能と、前記通信が可能であると判定すると、前記通信を介して外部の辞書を前記使用辞書として追加する機能と、を含み、
前記辞書は、文字情報と前記処理との対応関係の集合であり、
第1音声認識部が、前記音声情報から文字情報を生成し、生成された前記文字情報とマッチする文字情報が前記辞書に存在すると判定されると、マッチした前記文字情報に対応する前記処理を前記制御部に通知する機能と、
通信部がサーバと通信する機能と、
前記通信部から音声認識要求が受信されると、第2音声認識部が、前記音声認識要求と共にまたは別個に受信される前記音声情報に基づく音声認識処理を実行する機能と、
をさらに含み、
前記制御機能は、前記サーバとの通信が可能であると判定すると、前記第1音声認識部および前記第2音声認識部の両方を前記音声認識処理の主体として決定する機能を含む、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、情報処理方法およびプログラムに関する。
【背景技術】
【0002】
近年、ユーザと装置とのインタラクションを円滑にするための入力技術が研究開発されている。そのような入力技術として音声入力技術がある。音声入力技術では概して、ユーザにより発せられた音声について生成される音声情報を解析することにより音声を認識する音声認識処理が行われる。
【0003】
音声認識処理では概して、音声情報の解析により文字情報が生成され、生成された文字情報が辞書情報の有する文字情報と一致するかまたは類似するかを判定することにより、音声が認識される。そのため、辞書情報の有する文字情報の量に応じて音声認識の性能が変動してしまう。例えば、概して、文字情報の量が多いほど、音声が認識される可能性は高くなるが、誤認識のおそれも高くなる。また、概して、文字情報の量が少ないほど、音声が認識される可能性は低くなるが、誤認識のおそれも低くなる。
【0004】
これに対し、特許文献1では、入力される画像情報および音声情報に基づいてユーザの位置の推定およびユーザの識別についての処理を行い、処理結果に基づいて選択される小語彙辞書または大語彙辞書のいずれかを用いて音声認識処理を行う情報処理装置に係る発明が開示されている。これにより、音声認識の誤りの抑制および精度の向上が可能となると考えられている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2013−257418号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、特許文献1で開示される発明では、認識性能の向上と処理時間の短縮とがトレードオフとなる。例えば、選択される辞書情報が小語彙辞書である場合、選択される辞書情報が大語彙辞書である場合と比べて、ユーザの発する音声に対応する文字情報が辞書情報に含まれていないおそれが高い。すなわち、音声認識は失敗しやすく、認識率が低下しかねない。反対に、選択される辞書情報が大語彙辞書である場合、選択される辞書情報が小語彙辞書である場合と比べて、ユーザの発する音声に対応する文字情報が辞書情報に含まれている可能性は高いが、文字情報の数が多いため処理時間が遅くなる。すなわち、音声認識の結果が出るまでに時間がかかり、ユーザへのレスポンスが悪化しかねない。また、単純に文字情報が増えると、上述したように誤認識のおそれも高くなる。
【0007】
そこで、本開示では、音声認識処理における認識性能の向上と処理時間の短縮とを両立させることが可能な仕組みを提案する。
【課題を解決するための手段】
【0008】
本開示によれば、音声入力により得られる音声情報を得る取得部と、音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御する制御部と、を備える情報処理装置が提供される。
【0009】
また、本開示によれば、プロセッサを用いて、音声入力により得られる音声情報を得ることと、音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御することと、を含む情報処理方法が提供される。
【0010】
また、本開示によれば、音声入力により得られる音声情報を得る取得機能と、音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御する制御機能と、をコンピュータに実現させるためのプログラムが提供される。
【発明の効果】
【0011】
以上説明したように本開示によれば、音声認識処理における認識性能の向上と処理時間の短縮とを両立させることが可能な仕組みが提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
【図面の簡単な説明】
【0012】
図1】本開示の第1の実施形態に係る情報処理システムの機能構成の例を概略的に示すブロック図である。
図2】同実施形態に係る情報処理装置における対応関係の入れ替えについて説明するための図である。
図3】同実施形態に係る情報処理装置における使用辞書の変更について説明するための図である。
図4】同実施形態に係る情報処理システムの全体処理の例を概念的に示すフローチャートである。
図5】同実施形態に係る情報処理システムの辞書変更処理の例を概念的に示すフローチャートである。
図6】同実施形態の変形例に係る情報処理システムの全体処理の例を概念的に示すフローチャートである。
図7】同実施形態の変形例に係る情報処理システムの辞書変更処理の例を概念的に示すフローチャートである。
図8】本開示の第2の実施形態に係る情報処理システムの機能構成の例を概略的に示すブロック図である。
図9】同実施形態に係る情報処理システムの全体処理の例を概念的に示すフローチャートである。
図10】同実施形態に係る情報処理システムの辞書変更処理の例を概念的に示すフローチャートである。
図11】同実施形態の変形例に係る情報処理システムの全体処理の例を概念的に示すフローチャートである。
図12】同実施形態の変形例に係る情報処理システムの辞書変更処理の例を概念的に示すフローチャートである。
図13】本開示の一実施形態に係る情報処理装置のハードウェア構成を示した説明図である。
【発明を実施するための形態】
【0013】
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0014】
また、説明の便宜上、第1および第2の実施形態に係る情報処理装置100を、情報処理装置100−1および情報処理装置100−2のように、末尾に実施形態に対応する番号を付することにより区別する。
【0015】
なお、説明は以下の順序で行うものとする。
1.第1の実施形態(音声入力操作の客体情報に基づく音声認識辞書の変更)
1−1.システムの構成
1−2.システムの処理
1−3.第1の実施形態のまとめ
1−4.変形例
2.第2の実施形態(音声入力操作の主体情報に基づく音声認識辞書の変更)
2−1.システムの構成
2−2.システムの処理
2−3.第2の実施形態のまとめ
2−4.変形例
3.本開示の一実施形態に係る情報処理装置のハードウェア構成
4.むすび
【0016】
<1.第1の実施形態(音声入力操作の客体情報に基づく音声認識辞書の変更)>
まず、本開示の第1の実施形態について説明する。第1の実施形態では、情報処理システムは、音声入力操作の客体情報に基づいて音声認識辞書の変更を制御する。
【0017】
<1−1.システムの構成>
図1を参照して、本実施形態に係る情報処理システムの機能構成について説明する。図1は、本開示の第1の実施形態に係る情報処理システムの機能構成の例を概略的に示すブロック図である。
【0018】
図1に示したように、本実施形態に係る情報処理システムは、情報処理装置100−1およびサーバ200を備える。
【0019】
(情報処理装置)
情報処理装置100−1は、音声入力部102、音声認識部104、記憶部106、制御部108および通信部110を備える。
【0020】
(音声入力部)
音声入力部102は、取得部として、音声情報を取得する。具体的には、音声入力部102は、情報処理装置100−1の周辺に存在するユーザにより音声が発せられると、発せられた音声について得られる信号に係る音声信号情報を生成する。なお、音声入力部102は、音声信号情報を生成する代わりに、通信を介して外部の音声入力装置で生成された音声信号情報を取得してもよい。
【0021】
(音声認識部)
音声認識部104は、音声情報に基づいて音声認識処理を行う。具体的には、音声認識部104は、音声情報と当該音声情報に基づく処理(以下、後続処理とも称する。)との対応関係および音声入力部102から提供される音声情報に基づいて後続処理を決定する。例えば、音声認識部104は、音声入力部102から音声信号情報が提供されると、当該音声信号情報から文字情報を生成する。そして、音声認識部104は、文字情報と後続処理との対応関係の集合(以下、辞書とも称する。)において、生成された文字情報と一致しまたは類似する(以下、マッチする、とも称する。)文字情報の有無を判定する。生成された文字情報とマッチする文字情報が存在すると判定されると、音声認識部104は、マッチした文字情報に対応する後続処理を制御部108に通知する。
【0022】
なお、辞書は記憶部106に記憶され、音声認識処理に用いられる辞書(以下、使用辞書とも称する。)は制御部108により指定されるかまたは固定である。また、辞書は、文字情報と後続処理との対応関係の集合である例を説明したが、音声信号情報と後続処理との対応関係の集合であってもよい。
【0023】
(記憶部)
記憶部106は、音声認識処理で用いられる情報を記憶する。具体的には、記憶部106は、辞書を記憶する。例えば、記憶部106は、複数の辞書を記憶し、音声認識部104に辞書を提供する。なお、記憶部106は、辞書単位とは別に個々の対応関係を記憶してもよい。
【0024】
(制御部)
制御部108は、情報処理装置100−1の動作を全体的に制御する。具体的には、制御部108は、音声認識処理を制御する。より具体的には、制御部108は、音声認識処理で用いられる辞書を制御する。
【0025】
使用辞書の制御として、制御部108は、使用辞書の内容を制御する。具体的には、制御部108は、音声入力を用いた操作の客体情報に基づいて、使用辞書の少なくとも一部の変更を制御する。例えば、制御部108は、音声入力操作の客体情報から推定される、音声入力操作についての音声認識処理おける対応関係についての使用情報、に基づいて決定される対応関係を使用辞書において入れ替える。さらに、図2を参照して、対応関係の入れ替えについて詳細に説明する。図2は、本実施形態に係る情報処理装置100−1における対応関係の入れ替えについて説明するための図である。
【0026】
制御部108は、音声入力操作の客体情報から推定される、音声認識処理における使用頻度に基づいて入れ替え対象の対応関係を決定する。具体的には、制御部108は、使用辞書の有する対応関係のうちの抜き出す対応関係を上記使用頻度に基づいて決定する。また、制御部108は、使用辞書に追加する対応関係を上記使用頻度に基づいて決定する。より具体的には、制御部108は、音声入力操作の客体情報に基づいて使用頻度が使用辞書のうちで相対的に低いと推定される対応関係を使用辞書が有する対応関係の中から決定する。また、制御部108は、音声入力操作の客体情報に基づいて使用頻度が抜き出される対応関係よりも高いと推定される対応関係を記憶部106の記憶する対応関係の中から決定する。例えば、制御部108は、図2に示した使用辞書における対応関係2および対応関係3を抜き出し対象として決定する。また、制御部108は、図2に示した対応関係5および対応関係6を追加対象として決定する。なお、追加対象の対応関係は外部装置に記憶されていてもよい。この場合、通信を介して追加対象の対応関係が取得される。
【0027】
次に、制御部108は、決定された対応関係を入れ替える。例えば、制御部108は、図2に示したように、抜き出し対象として決定された対応関係2および対応関係3と、追加対象として決定された対応関係5および対応関係6とを使用辞書において入れ替える。なお、抜き出し対象の対応関係の数と追加対象の対応関係の数は異なってもよい。
【0028】
ここで、音声入力操作の客体情報は、当該音声入力操作の客体について取得される情報に基づいて推定される情報である。当該音声入力操作の客体情報としては、操作対象が特定される情報がある。当該操作対象としては、起動中のアプリケーションがある。例えば、制御部108は、起動中のアプリケーションが特定される情報を取得し、取得された情報から特定されるアプリケーションの操作において用いられる頻度が相対的に高い当該アプリケーションの操作についてのワード(以下、操作ワードとも称する。)に係る対応関係を使用辞書へ追加する。詳細には、ニュースを配信するアプリケーションについては、「ブックマーク」または「詳しく教えて」などのワードに係る対応関係が使用辞書へ追加される。音楽再生アプリケーションについては、「一時停止」または「次の曲」などのワードに係る対応関係が使用辞書へ追加される。通話アプリケーションについては、「受話」または「拒否」などのワードに係る対応関係が使用辞書へ追加される。撮影アプリケーションについては、「録画開始」または「録画停止」などのワードに係る対応関係が使用辞書へ追加される。
【0029】
また、当該操作対象としては、情報処理装置100−1に接続されている機器がある。例えば、制御部108は、当該接続されている外部機器10が特定される情報を取得し、取得された情報から特定された外部機器10の操作に用いられる頻度が相対的に高い当該外部機器10の操作ワードに係る対応関係を使用辞書へ追加する。詳細には、家屋に設置されるテレビジョンについては「番組を変えて」、エアーコンディショナについては「23度」、オーディオ機器については「音楽止めて」などのワードに係る対応関係が使用辞書へ追加される。また、車両内に設置されるカーナビゲーションについては「道順を教えて」、車両の窓を制御する装置については「窓を開けて」などのワードに係る対応関係が使用辞書へ追加される。
【0030】
また、音声入力操作の客体情報としては、操作対象の属性が特定される情報がある。操作対象の属性としては、アプリケーションもしくは外部機器10の種類、設置場所、所有者または他の任意のグループなどがある。例えば、制御部108は、アプリケーションの種類がコンテンツ再生アプリケーションである場合には、「再生開始」または「再生終了」などのワードに係る対応関係を使用辞書へ追加する。なお、同じ属性を有する複数の操作対象についてのワードに係る対応関係の和集合が使用辞書へ追加されてもよい。
【0031】
なお、使用辞書へ追加される対応関係は、音声入力操作の客体情報に基づいて決定される対応関係のうちの一部であってもよい。例えば、追加される対応関係または追加される対応関係を選択するための指標が、ユーザにより設定されてもよい。制御部108は、設定される対応関係を追加対象の対応関係として選択し、または設定される指標に基づいて追加対象の対応関係を絞り込む。なお、ユーザによる設定の際に、音声入力操作の客体情報に基づいて決定される対応関係の一覧がユーザに提示されてもよい。
【0032】
また、上記では、操作ワードに係る対応関係が追加される例を説明したが、アプリケーションまたは機器の起動についてのワード(以下、起動ワードとも称する。)に係る対応関係が追加されてもよい。例えば、テレビジョンが新たに接続された場合には、「テレビジョンをつけて」というワードに係る対応関係が使用辞書に追加される。なお、起動ワードと操作ワードとで別個に使用辞書が設けられてもよい。
【0033】
また、複数の客体情報に基づいて使用辞書が変更されてもよい。例えば、制御部108は、複数のアプリケーションが起動されている場合には、当該複数のアプリケーションについて使用辞書を変更してよい。また、制御部108は、アプリケーションが起動され、機器が情報処理装置100−1に接続されている場合、当該アプリケーションおよび当該機器について使用辞書を変更してよい。また、制御部108は、複数の客体情報のうちの一部の客体情報についてのみ使用辞書を変更してもよい。例えば、制御部108は、優先度が他の客体情報よりも高い客体情報についてのみ使用辞書を変更してよい。
【0034】
また、制御部108は、音声入力操作の客体情報から推定される、音声認識処理における使用可否に基づいて入れ替え対象の対応関係を決定してよい。具体的には、制御部108は、使用辞書の有する対応関係のうちの抜き出す対応関係を上記使用可否に基づいて決定する。また、制御部108は、使用辞書に追加する対応関係を上記使用可否に基づいて決定する。より具体的には、制御部108は、音声入力操作の客体情報に基づいて当該音声入力操作についての音声認識処理において使用が許可されない対応関係が使用辞書に含まれているかを判定する。当該使用が許可されない対応関係が使用辞書に含まれていると判定されると、制御部108は、当該使用が許可されない対応関係を、当該音声入力操作についての音声認識処理において使用が許可される対応関係に入れ替える。
【0035】
別の使用辞書の制御として、制御部108は、使用辞書を辞書単位で制御する。具体的には、制御部108は、音声入力を用いた操作の客体情報に基づいて、使用辞書の変更を制御する。例えば、制御部108は、音声入力操作の客体情報に対応する辞書へ使用辞書を変更する。さらに、図3を参照して、使用辞書の変更について詳細に説明する。図3は、本実施形態に係る情報処理装置100−1における使用辞書の変更について説明するための図である。
【0036】
制御部108は、音声入力操作の客体情報に対応する辞書を選択する。例えば、制御部108は、音声入力操作の客体情報に対応する辞書を記憶部106に記憶される複数の辞書から選択する。なお、選択される辞書のサイズすなわち辞書が有する対応関係の量は、使用辞書と異なってよい。図3に示したように、使用辞書のサイズがnであるの対し、選択された辞書のサイズはmであってよい。
【0037】
次に、制御部108は、選択された辞書を使用辞書に決定する。例えば、制御部108は、選択された辞書を使用辞書として指定する。なお、使用辞書の内容が選択された辞書の内容に書き換えられるとしてもよい。
【0038】
さらに、制御部108は、音声認識処理の実行主体を制御してよい。具体的には、制御部108は、情報処理装置100−1およびサーバ200の少なくとも一方に音声認識処理を実行させる。例えば、制御部108は、音声入力部102から音声情報が音声認識部104へ提供されると、音声認識部104およびサーバ200の両方に音声認識処理を実行させる。
【0039】
また、制御部108は、情報処理装置100−1の通信可否に基づいて音声認識処理の実行主体を決定してもよい。例えば、制御部108は、サーバ200との通信が困難である場合には、音声認識部104にのみ音声認識処理を実行させる。また、制御部108は、サーバ200との通信が可能である場合には、音声認識部104およびサーバ200の両方またはサーバ200のみに音声認識処理を実行させる。
【0040】
また、制御部108は、音声認識部104およびサーバ200の両方に音声認識処理を実行させる場合には、それぞれの処理結果についての調停処理を行う。具体的には、制御部108は、音声認識部104およびサーバ200の音声認識結果の各々についての評価に基づいていずれか一方の音声認識結果を採用する。例えば、制御部108は、音声認識部104の認識精度が閾値未満である場合、サーバ200の音声認識結果が受信されるまで待機する。また、制御部108は、音声認識部104の認識精度が閾値以上である場合、サーバ200の音声認識結果の受信を待たずに、音声認識部104の音声認識結果を用いて後続処理を実行する。
【0041】
(通信部)
通信部110は、サーバ200および外部機器10と通信する。具体的には、通信部110は、サーバ200へ辞書提供要求ならびに音声認識要求および音声情報を送信し、サーバ200から辞書および音声認識結果を受信する。また、通信部110は、外部機器10へ動作要求および辞書提供要求を送信し、外部機器10から辞書を受信する。例えば、通信部110は、操作対象となり得る外部機器10の各々へ辞書提供要求をブロードキャスト方式で送信し、操作を許可する外部機器10の各々から辞書を受信する。なお、外部機器10についての辞書が情報処理装置100−1の記憶部106に記憶されている場合には、外部機器10への辞書提供要求の送信が行われない。また、外部機器10についての辞書がサーバ200に記憶されている場合には、サーバ200へ辞書提供要求が送信されるかまたはサーバ200に音声認識処理が実行させられる。
【0042】
(サーバ)
サーバ200は、通信部202、制御部204、音声認識部206および記憶部208を備える。
【0043】
(通信部)
通信部202は、情報処理装置100−1と通信する。具体的には、通信部202は、情報処理装置100−1から辞書提供要求ならびに音声認識要求および音声情報を受信し、情報処理装置100−1へ辞書および音声認識結果を送信する。
【0044】
(制御部)
制御部204は、サーバ200の動作を全体的に制御する。具体的には、制御部204は、音声認識要求に応じて音声認識処理を制御する。例えば、制御部204は、情報処理装置100−1から音声認識要求が受信されると、当該音声認識要求と共にまたは別個に受信される音声情報に基づく音声認識処理を音声認識部206に実行させる。そして、制御部204は、音声認識部206の音声認識結果を通信部202に情報処理装置100−1へ送信させる。
【0045】
また、制御部204は、辞書提供要求に応じて辞書提供処理を行う。具体的には、制御部204は、情報処理装置100−1から辞書提供要求が受信されると、当該辞書提供要求から辞書(または対応関係)を記憶部208から取得する。そして、制御部204は、取得された辞書(または対応関係)を通信部202に情報処理装置100−1へ送信させる。
【0046】
(音声認識部)
音声認識部206は、音声情報に基づいて音声認識処理を行う。なお、音声認識部206の音声認識処理は、情報処理装置100−1の音声認識部104の処理と実質的に同一であるため、説明を省略する。
【0047】
(記憶部)
記憶部208は、音声認識処理に用いられる情報を記憶する。具体的には、記憶部208は、辞書および対応関係を記憶する。例えば、記憶部208の記憶する辞書は、情報処理装置100−1よりも、記憶される辞書のサイズが大きくてよく、記憶される辞書の数も多くてよい。
【0048】
<1−2.システムの処理>
次に、本実施形態に係る情報処理システムの処理について説明する。
【0049】
(全体処理)
まず、図4を参照して、本実施形態に係る情報処理システムの全体処理について説明する。図4は、本実施形態に係る情報処理システムの全体処理の例を概念的に示すフローチャートである。
【0050】
情報処理装置100−1は、音声入力操作の客体情報を取得する(ステップS302)。具体的には、制御部108は、起動中のアプリケーションまたは情報処理装置100−1に接続されている外部機器10に関する情報を取得する。
【0051】
次に、情報処理装置100−1は、客体情報について変化が生じたかを判定する(ステップS304)。具体的には、制御部108は、新たにアプリケーションが起動されたか、起動していたアプリケーションが終了した、新たに外部機器10が接続されたか、または接続されていた外部機器10との接続が切断されたか、などの変化の有無を判定する。
【0052】
客体情報について変化が生じたと判定されると、情報処理装置100−1は、客体情報に基づいて使用辞書を変更する(ステップS306)。具体的には、制御部108は、変化に係るアプリケーションまたは外部機器10について使用辞書を変更する。なお、詳細については後述する。
【0053】
次に、情報処理装置100−1は、音声が入力されたかを判定する(ステップS308)。具体的には、音声認識部104は、音声入力部102により音声情報が提供されたかを判定する。
【0054】
音声が入力されたと判定されると、情報処理装置100−1は、辞書に基づいて音声認識処理を実行する(ステップS310)。具体的には、音声認識部104は、音声情報が提供されると、制御部108により指定される使用辞書に基づいて、提供された音声情報についての音声認識処理を実行する。
【0055】
次に、情報処理装置100−1は、音声認識結果に応じて後続処理を実行する(ステップS312)。具体的には、制御部108は、音声認識部104の音声認識処理により特定される後続処理を実行する。
【0056】
(辞書変更処理)
続いて、図5を参照して、本実施形態に係る情報処理システムの辞書変更処理について説明する。図5は、本実施形態に係る情報処理システムの辞書変更処理の例を概念的に示すフローチャートである。
【0057】
情報処理装置100−1は、変化に係る客体がアプリケーションであるかを判定する(ステップS322)。具体的には、制御部108は、新たに起動され、または終了されたと判定されたアプリケーションが存在するかを判定する。
【0058】
変化に係る客体がアプリケーションであると判定されると、情報処理装置100−1は、当該アプリケーションに対応する対応関係を取得する(ステップS324)。具体的には、制御部108は、新たに起動されたアプリケーションに対応する対応関係を記憶部106またはサーバ200から取得する。なお、アプリケーションが終了された場合は、起動中のアプリケーションに対応する対応関係であって使用辞書にない対応関係が取得される。
【0059】
また、情報処理装置100−1は、変化に係る客体が機器であるかを判定する(ステップS326)。具体的には、制御部108は、新たに接続され、または接続が切断されたと判定された外部機器10が存在するかを判定する。
【0060】
変化に係る客体が機器であると判定されると、当該機器に対応する対応関係を取得する(ステップS328)。具体的には、制御部108は、新たに接続された外部機器10に対応する対応関係を記憶部106、外部機器10またはサーバ200から取得する。なお、外部機器10の接続が切断された場合は、接続中の外部機器10に対応する対応関係であって使用辞書にない対応関係が取得される。
【0061】
そして、対応関係が取得されると、情報処理装置100−1は、使用辞書を変更する(ステップS330)。具体的には、制御部108は、抜き出す対応関係を使用辞書から選択し、選択された対応関係と取得された対応関係とを入れ替える。
【0062】
また、情報処理装置100−1は、通信が利用可能かを判定する(ステップS332)。具体的には、制御部108は、サーバ200との通信が可能であるかを判定する。
【0063】
通信が利用可能と判定されると、情報処理装置100−1は、通信を介して外部の辞書を使用辞書として追加する(ステップS334)。具体的には、制御部108は、サーバ200との通信が可能であると判定されると、情報処理装置100−1の音声認識部104およびサーバ200の音声認識部206の両方を音声認識処理の主体として決定する。これにより、実質的に使用辞書を変更することができる。
【0064】
<1−3.第1の実施形態のまとめ>
このように、本開示の第1の実施形態によれば、情報処理装置100−1は、音声認識処理で用いられる、音声入力により得られる音声情報と当該音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の対応関係の変更を、音声入力を用いた操作の客体情報に基づいて制御する。
【0065】
従来では、音声入力機能による装置の誤作動のおそれがあった。例えば、音声入力操作のための音声と日常の会話における音声とが区別されず、日常の会話における音声が認識され、ユーザの意図しない動作が実行されることがあった。これに対し、起動ワードが入力された後に操作ワードが入力される方式が考えられた。しかし、二段階で音声操作することはユーザにとって煩わしくなりかねない。
【0066】
また、使用辞書のサイズを大きくすることも考えられる。しかし、使用辞書のサイズを大きくなると、誤認識の増加および処理時間の長期化のおそれがある。特に、複雑な文の音声を解析する場合には処理時間がより長くなる。他方で、使用辞書のサイズが小さくなると、認識率が低下しかねない。
【0067】
さらに、使用辞書のサイズが異なる複数の音声認識処理を実行することも考えられる。しかし、その場合、当該複数の音声認識処理の結果を調停する処理が要求され、製造コストおよび処理負荷が増加しかねない。
【0068】
これらに対し、本実施形態に係る情報処理装置100−1によれば、使用辞書の内容を適切に入れ替えることができる。そのため、起動ワードを設けることなく、日常の会話における音声の認識による誤作動を防止することができる。また、使用辞書のサイズを大きくすることなく、認識率を向上させることができる。それにより、誤認識の増加および処理時間の長期化も抑制することができる。従って、音声認識処理における認識性能の向上と処理時間の短縮とを両立させることが可能となる。さらに、複数の音声認識処理を実行させることなく、認識率を向上させることができる。それにより、製造コストおよび処理負荷の増加を抑制することができる。
【0069】
また、上記変更に係る対応関係は、上記操作の客体情報から推定される、当該操作についての音声認識処理における対応関係についての使用情報、に基づいて決定される対応関係を含む。このため、使用辞書が有する対応関係を音声入力操作について事前に適正化することができる。従って、使用辞書のサイズを維持したまま、認識性能の向上および処理時間の短縮を両立させることが可能となる。
【0070】
また、上記使用情報は、使用頻度が特定される情報を含む。このため、音声認識処理において使用される可能性が相対的に高い対応関係と、使用される可能性が相対的に低い対応関係と使用辞書において入れ替えられることにより、使用辞書のサイズを維持したまま認識率を向上させることができる。従って、認識率の向上および誤認識の抑制ならびに処理時間の短縮を両立させることが可能となる。
【0071】
また、上記使用情報は、使用可否が特定される情報を含む。このため、音声認識処理において使用が許可されない対応関係を使用辞書から外すことができる。例えば、アプリケーションまたは外部機器10などから推定される誤認識を誘発するおそれのある対応関係を使用辞書から事前に外すことができる。また、反対に、積極的に認識させたい対応関係を使用辞書へ事前に追加することができる。従って、認識性能をより効果的に向上させることが可能となる。
【0072】
また、情報処理装置100−1は、さらに上記操作の客体情報に基づいて上記対応関係の集合の変更を制御する。このため、辞書の単位で音声認識処理に用いられる対応関係を変更することができる。従って、使用辞書の内容すなわち対応関係の変更を迅速に行うことが可能となる。なお、使用辞書が異なる音声認識処理を切り替えることにより、使用辞書の変更が実現されてもよい。
【0073】
また、上記対応関係の集合の変更は、集合の大きさが異なる対応関係の集合へ変更を含む。このため、使用辞書の内容が変更されると共に、使用辞書のサイズが変更されることにより、客体情報から推定される音声入力についての音声認識処理により適した使用辞書を用意することができる。
【0074】
また、上記対応関係は、通信を介して変更される。このため、情報処理装置100−1が有していない対応関係を使用辞書へ追加することができる。従って、情報処理装置100−1単体で動作する場合よりも認識性能を向上させることが可能となる。
【0075】
また、上記操作の客体情報は、操作対象または当該操作対象の属性が特定される情報を含む。このため、音声入力操作の対象に基づいて使用辞書の内容を適正化することができる。従って、入力される音声が正しく認識されやすくなり、認識性能を効果的に向上させることが可能となる。
【0076】
また、上記操作対象は、アプリケーションまたは機器を含む。このため、起動中のアプリケーションまたは情報処理装置100−1に接続されている外部機器10の音声入力操作に適した対応関係を使用辞書へ追加することができる。従って、ユーザの意図通りに音声が認識されやすくなり、アプリケーションまたは外部機器10の音声入力による操作を円滑化することが可能となる。
【0077】
また、情報処理装置100−1は、さらに情報処理装置100−1の通信可否に基づいて対応関係の変更を制御する。このため、情報処理装置100−1が記憶していない対応関係を収集することができる。従って、使用辞書のバリエーションを増やすことができ、認識性能をさらに向上させることが可能となる。また、音声認識処理を実行可能なサーバ200などの外部装置と通信可能な場合には、サーバ200に音声認識処理を実行させることもできる。この場合、情報処理装置100−1での音声認識処理を実行しないことにより、処理負荷を低減することができる。また、情報処理装置100−1での音声認識処理も実行することにより、複数の音声認識結果のうちの評価がより高い音声認識結果を利用することができる。
【0078】
また、上記操作の客体情報は、上記操作の客体について取得される情報に基づいて推定される情報を含む。このため、ユーザにより音声入力操作が行われる前に使用辞書を適切な辞書へ変更することができる。従って、ユーザは始めから円滑な音声入力操作を行うことが可能となる。
【0079】
また、上記対応関係に係る音声情報は、上記操作の開始を示す音声情報(起動ワード)または上記操作の内容を示す音声情報(操作ワード)を含む。ここで、起動ワードまたは操作ワードの認識性能は概して操作感に影響を与える。例えば、一度の発声で正確に認識される場合に比べて、複数回の発声でようやく正確に認識される場合には、ユーザが操作を煩雑に感じるおそれがある。これに対し、本実施形態によれば、起動ワードまたは操作ワードの認識性能が向上することにより、ユーザに煩わしさを感じさせるおそれを低下させることができる。また、処理時間の長期化も抑制されるため、発声に対する応答性が向上し、操作感をより向上させることができる。特に、起動ワードについて用意される対応関係は概して操作ワードよりも少なく、どの対応関係を使用辞書へ含ませるかが重要となるため、本実施形態に係る情報処理装置100−1を利用することがより有意義となる。
【0080】
<1−4.変形例>
以上、本開示の第1の実施形態について説明した。なお、本実施形態は、上述の例に限定されない。以下に、本実施形態の変形例について説明する。
【0081】
本実施形態の変形例として、情報処理装置100−1は、音声認識結果を利用して使用辞書を変更してもよい。具体的には、操作の客体情報は、音声認識処理により得られる情報であってもよく、制御部108は、認識された情報に基づいて使用辞書の変更を制御する。認識される操作の客体情報としては、操作内容が特定される情報があり、制御部108は、操作内容に応じて使用辞書の変更を制御する。例えば、ナビゲーションアプリケーションに対するある目的地への経路の提示要求についての音声「Navigate to」が認識されると、制御部108は、目的地を認識可能な対応関係を使用辞書へ追加するかまたは目的地を認識可能な辞書へ使用辞書を切り替える。
【0082】
また、当該認識される操作の客体情報としては、操作対象が特定される情報がある。具体的には、操作対象としては、上述したアプリケーションまたは外部機器10などがある。例えば、制御部108は、アプリケーションの名前または種類が含まれる音声が認識されると、当該名前または種類のアプリケーションの操作について使用頻度が相対的に高い対応関係を使用辞書へ追加するかまたは当該対応関係を含む辞書へ使用辞書を切り替える。
【0083】
また、制御部108は、外部機器10の名前または種類が含まれる音声が認識されると、当該名前または種類の外部機器10の操作について使用頻度が相対的に高い対応関係を使用辞書へ追加するかまたは当該対応関係を含む辞書へ使用辞書を切り替える。
【0084】
また、操作対象は、音声認識エージェントであってもよい。例えば、制御部108は、音声認識エージェントの名前が含まれる音声が認識されると、当該音声認識エージェントに切り替える。
【0085】
さらに、制御部108は、通知制御部として、使用辞書の変更についての音声入力操作の主体への通知を制御してよい。具体的には、制御部108は、情報処理装置100−1または情報処理装置100−1に接続される外部装置に、使用辞書が変更されたことを示す情報をユーザへ通知させる。なお、通知は、視覚的な通知、聴覚的な通知または触覚的な通知のいずれであってもよく、これらの組合せであってもよい。
【0086】
例えば、制御部108は、操作内容について使用辞書が変更された場合、使用辞書の変更に応じた音をスピーカに出力させる。例えば、「Navigate to」という音声が認識され、使用辞書が変更されると、続きの目的地についての音声入力を促す作動音がスピーカから出力される。また、音声が認識された後であって作動音が出力される前に、認識された音声が出力されてもよい。すなわち、「Navigate to」という音声が出力されてよい。この場合、ユーザの意図通りに音声が認識されたかをユーザが把握できる。
【0087】
また、例えば、制御部108は、アプリケーションについて使用辞書が変更された場合、使用辞書の変更に応じた表示オブジェクトをディスプレイに表示させる。例えば、アプリケーションについて使用辞書が変更されると、アプリケーションについて表示されている文字情報が変更される。
【0088】
また、例えば、制御部108は、外部機器10について使用辞書が変更された場合、外部機器10に使用辞書の変更に応じた動作を行わせる。例えば、外部機器10について使用辞書が変更されると、当該外部機器10の発光部が発光させられたり、当該外部機器10が振動させられたりする。また、制御部108は、スピーカに当該外部機器10固有の音を出力させる。なお、当該スピーカは情報処理装置100−1に備えられてもよく、外部機器10などの情報処理装置100−1と接続される外部装置に備えられてもよい。
【0089】
また、例えば、制御部108は、音声認識エージェントが変更された場合、変更先の音声認識エージェントに応じた応答を行わせる。例えば、音声認識エージェントが切り替えられると、音声認識エージェントに応じた文言が出力される。また、制御部108は、音声認識エージェントに応じてユーザへの返答に用いられる音声を切り替えてもよい。
【0090】
さらに、本実施形態の変形例に係る情報処理システムの処理について説明する。なお、第1の実施形態に係る処理と実質的に同一である処理については説明を省略する。
【0091】
(全体処理)
まず、図6を参照して、本実施形態の変形例に係る情報処理システムの全体処理について説明する。図6は、本実施形態の変形例に係る情報処理システムの全体処理の例を概念的に示すフローチャートである。
【0092】
情報処理装置100−1は、音声が入力されたかを判定し(ステップS402)、音声が入力されたと判定されると、使用辞書に基づいて音声認識処理を実行する(ステップS404)。
【0093】
次に、情報処理装置100−1は、客体情報が認識されたかを判定し(ステップS406)、客体情報が認識されたと判定されると、当該客体情報に基づいて使用辞書を変更する(ステップS408)。具体的には、制御部108は、音声認識部104により生成された文字情報に客体情報を示す文字情報が含まれるかを判定する。客体情報を示す文字情報が生成された文字情報に含まれると判定されると、制御部108は、当該客体情報に基づいて使用辞書を変更する。なお、詳細については後述する。
【0094】
次に、情報処理装置100−1は、使用辞書の変更を通知する(ステップS410)。具体的には、制御部108は、使用辞書が変更された旨を視覚的、聴覚的または触覚的にユーザに通知する。
【0095】
次に、情報処理装置100−1は、音声が入力されたかを判定し(ステップS412)、音声が入力されたと判定されると、変更後の使用辞書に基づいて音声認識処理を実行する(ステップS414)。そして、情報処理装置100−1は、認識結果に応じて後続処理を実行する(ステップS416)。
【0096】
(辞書変更処理)
続いて、図7を参照して、本実施形態の変形例に係る情報処理システムの辞書変更処理について説明する。図7は、本実施形態の変形例に係る情報処理システムの辞書変更処理の例を概念的に示すフローチャートである。
【0097】
情報処理装置100−1は、アプリケーションが認識されたかを判定する(ステップS422)。具体的には、制御部108は、音声認識部104により生成される文字情報にアプリケーションの名前または種類を示す文字情報が含まれるかを判定する。
【0098】
アプリケーションが認識されたと判定されると、情報処理装置100−1は、当該アプリケーションについての対応関係の使用情報を取得する(ステップS424)。具体的には、制御部108は、認識されたアプリケーションについての対応関係の使用頻度および使用可否を記憶部106などから取得する。
【0099】
また、情報処理装置100−1は、外部機器10が認識されたかを判定する(ステップS426)。具体的には、制御部108は、音声認識部104により生成される文字情報に外部機器10の名前または種類を示す文字情報が含まれるかを判定する。
【0100】
外部機器10が認識されたと判定されると、情報処理装置100−1は、当該外部機器10についての対応関係の使用情報を取得する(ステップS428)。具体的には、制御部108は、認識された外部機器10についての対応関係の使用頻度および使用可否を示す情報を記憶部106などから取得する。
【0101】
次に、情報処理装置100−1は、使用頻度が相対的に低い対応関係が使用辞書に存在するかを判定する(ステップS430)。具体的には、制御部108は、認識されたアプリケーションまたは外部機器10についての対応関係のうちの使用辞書に存在しない対応関係よりも使用頻度が相対的に低い対応関係が使用辞書に存在するかを判定する。
【0102】
また、情報処理装置100−1は、使用が許可されない対応関係が使用辞書に存在するかを判定する(ステップS432)。具体的には、制御部108は、認識されたアプリケーションまたは外部機器10についての対応関係のうちの使用が許可されない対応関係が使用辞書に存在するかを判定する。
【0103】
使用頻度が相対的に低い対応関係または使用が許可されない対応関係が使用辞書に存在すると判定されると、情報処理装置100−1は、使用辞書を変更する(ステップS434)。具体的には、制御部108は、使用頻度が相対的に低い対応関係または使用が許可されない対応関係を、使用頻度が相対的に高い対応関係または使用が許可される対応関係に入れ替える。
【0104】
また、情報処理装置100−1は、操作内容が認識されたかを判定する(ステップS436)。具体的には、制御部108は、音声認識部104により生成される文字情報に操作内容を示す文字情報が含まれるかを判定する。
【0105】
操作内容が認識されたと判定されると、情報処理装置100−1は、操作内容に対応する辞書へ使用辞書を変更する(ステップS438)。具体的には、制御部108は、認識された操作内容に対応する辞書が使用辞書である音声認識部を音声認識処理の実行主体として決定する。
【0106】
また、情報処理装置100−1は、音声認識エージェントが認識されたかを判定する(ステップS440)。具体的には、制御部108は、音声認識部104により生成される文字情報に音声認識エージェントを示す文字情報が含まれるかを判定する。
【0107】
音声認識エージェントが認識されたと判定されると、情報処理装置100−1は、音声認識エージェントを変更する(ステップS442)。具体的には、制御部108は、認識された音声認識エージェントに使用する音声認識エージェントを変更する。
【0108】
このように、本実施形態の変形例によれば、操作の客体情報は、音声認識処理により得られる情報を含む。このため、ユーザにより入力された音声に基づいて使用辞書を変更することができる。従って、使用辞書をより確実にユーザの意図する操作に適した辞書に変更することが可能となる。
【0109】
また、情報処理装置100−1は、上記対応関係の変更についての音声入力操作の主体への通知を制御する。このため、使用辞書の変更がユーザに通知されることにより、ユーザは音声入力の準備ができたことを知ることができる。従って、使用辞書が変更される前にユーザにより音声入力が行われることによる音声認識の失敗を回避することが可能となる。これにより、ユーザが不満またはストレスを感じることを抑制できる。
【0110】
<2.第2の実施形態(音声入力操作の主体情報に基づく音声認識辞書の変更)>
以上、本開示の第1の実施形態および変形例について説明した。次に、本開示の第2の実施形態について説明する。第2の実施形態では、情報処理システムは、音声入力操作の主体情報に基づいて音声認識辞書の変更を制御する。
【0111】
<2−1.システムの構成>
図8を参照して、本実施形態に係る情報処理システムの機能構成について説明する。図8は、本開示の第2の実施形態に係る情報処理システムの機能構成の例を概略的に示すブロック図である。なお、第1の実施形態の機能と実質的に同一の機能については説明を省略する。
【0112】
(情報処理装置)
情報処理装置100−2は、音声入力部102、音声認識部104、記憶部106、制御部108および通信部110に加えて、主体認識部120および観察部122を備える。
【0113】
(制御部)
制御部108は、音声入力を用いた操作の主体情報に基づいて、使用辞書の少なくとも一部の変更を制御する。具体的には、制御部108は、音声入力操作の主体情報から推定される、音声入力操作についての音声認識処理おける対応関係についての使用情報、に基づいて決定される対応関係を使用辞書において入れ替える。例えば、制御部108は、音声入力操作の主体情報から推定される、音声認識処理における使用頻度または使用可否に基づいて入れ替え対象の対応関係を決定する。そして、制御部108は、決定された対応関係を入れ替える。
【0114】
ここで、音声入力操作の主体情報は、当該音声入力操作の主体について取得される情報に基づいて推定される情報である。当該音声入力操作の主体情報としては、当該操作の主体の態様が特定される情報がある。当該操作の主体の態様としては、当該操作の主体の行動がある。例えば、制御部108は、主体認識部120により生成されるユーザの行動が特定される情報を取得し、取得された情報から特定されるユーザの行動中に行われることが推定される操作において用いられる頻度が相対的に高い操作ワードに係る対応関係を使用辞書へ追加する。詳細には、認識された行動がランニングである場合、「ワークアウトを一時停止」または「ワークアウトを再開」などのワードに係る対応関係が使用辞書へ追加される。認識された行動がサイクリングである場合、「次はどちらの道?」または「平均速度はいくら?」などのワードに係る対応関係が使用辞書へ追加される。認識された行動が自動車の運転である場合、「道順を教えて」または「サイドミラーを動かして」などのワードに係る対応関係が使用辞書へ追加される。
【0115】
また、当該操作の主体の態様としては、当該操作の主体の姿勢がある。例えば、制御部108は、主体認識部120により生成されるユーザの姿勢が特定される情報を取得し、取得された情報から特定されるユーザの姿勢で行われることが推定される操作において用いられる頻度が相対的に高い操作ワードに係る対応関係を使用辞書へ追加する。詳細には、認識された姿勢が仰向けである場合、「目覚まし止めて」または「照明を消して」などのワードに係る対応関係が使用辞書へ追加される。
【0116】
また、当該操作の主体の態様としては、当該操作の主体の位置がある。例えば、制御部108は、主体認識部120により生成されるユーザの位置が特定される情報を取得し、取得された情報から特定されるユーザの位置で行われることが推定される操作において用いられる頻度が相対的に高い操作ワードに係る対応関係を使用辞書へ追加する。詳細には、認識された位置が電車内である場合、「あと何駅で乗り換え?」または「マナーモードに設定して」などのワードに係る対応関係が使用辞書へ追加される。なお、当該操作の主体の位置は、地理的情報のほか、建物名、施設名または地名などのランドマークを示す情報または地形を示す情報であってもよい。
【0117】
また、例えば、制御部108は、ユーザの位置において用いられる頻度が相対的に高い言語のワードに係る対応関係を使用辞書へ追加してもよい。詳細には、認識された位置が米国内である場合、英語のワードに係る対応関係が使用辞書へ追加される。認識された位置が大阪である場合、関西弁のワードに係る対応関係が使用辞書へ追加される。
【0118】
さらに、音声入力操作の主体情報は、当該音声入力操作の主体の周辺環境が特定される情報であってもよい。具体的には、当該操作の主体の周辺環境としては、騒音がある。例えば、制御部108は、主体認識部120により生成されるユーザ周辺の騒音が推定される情報を取得し、取得された情報から推定されるユーザ周辺の騒音の程度に応じて音声認識処理において用いられる頻度が相対的に高い操作ワードに係る対応関係を使用辞書へ追加する。詳細には、認識された騒音の程度が閾値以上である場合、擬音などのワードに係る対応関係が許可されない対応関係として使用辞書から抜き出される。
【0119】
なお、使用辞書へ追加される対応関係は、音声入力操作の主体情報に基づいて決定される対応関係のうちの一部であってもよい。また、複数の主体情報に基づいて使用辞書が変更されてもよい。例えば、制御部108は、ユーザが電車内で電子書籍を読んでいる場合には、ユーザの位置および行動について使用辞書を変更してよい。また、制御部108は、複数の主体情報のうちの一部の主体情報についてのみ使用辞書を変更してもよい。また、制御部108は、音声入力を用いた操作の主体情報に基づいて、使用辞書の変更を制御してよい。
【0120】
(主体認識部)
主体認識部120は、音声入力操作の主体についての認識処理を行う。具体的には、主体認識部120は、観察部122から得られる情報に基づいてユーザの行動、姿勢または位置を認識する。例えば、主体認識部120は、観察部122から得られる加速度もしくは角速度などの慣性情報、GPS(Global Positioning System)情報または画像情報に基づいてユーザの行動、姿勢または位置を認識する。なお、観察部122から得られる情報に加えて、通信部110を介して外部装置から得られる情報が用いられてもよい。例えば、外部装置の有するユーザのスケジュール情報が用いられてよい。
【0121】
(観察部)
観察部122は、音声入力操作の主体についての観察を行う。具体的には、観察部122は、ユーザの動き、姿勢または位置を観察する。例えば、観察部122は、加速度センサもしくは角速度センサなどの慣性センサ、GPSセンサまたは撮像センサを用いてユーザについての慣性情報、位置情報または画像情報を生成する。
【0122】
<2−2.システムの処理>
次に、本実施形態に係る情報処理システムの処理について説明する。なお、第1の実施形態の処理と実質的に同一である処理については説明を省略する。
【0123】
(全体処理)
まず、図9を参照して、本実施形態に係る情報処理システムの全体処理について説明する。図9は、本実施形態に係る情報処理システムの全体処理の例を概念的に示すフローチャートである。
【0124】
情報処理装置100−2は、音声入力操作の主体情報を取得する(ステップS502)。具体的には、主体認識部120は、観察部122から得られる慣性情報、位置情報または画像情報に基づいてユーザの行動、姿勢、位置または周辺環境についての認識処理を行う。そして、制御部108は、主体認識部120により認識されたユーザの行動、姿勢、位置または周辺環境に係る情報を取得する。
【0125】
次に、情報処理装置100−2は、主体情報について変化が生じたかを判定する(ステップS504)。具体的には、制御部108は、主体認識部120から得られた情報に基づいてユーザの行動、姿勢、位置または周辺環境が変化したかを判定する。
【0126】
主体情報について変化が生じたと判定されると、情報処理装置100−2は、主体情報に基づいて使用辞書を変更する(ステップS506)。具体的には、制御部108は、変化に係る行動、姿勢、位置または周辺環境について使用辞書を変更する。なお、詳細については後述する。
【0127】
次に、情報処理装置100−2は、音声が入力されたかを判定し(ステップS508)、音声が入力されたと判定されると、使用辞書に基づいて音声認識処理を実行する(ステップS510)。そして、情報処理装置100−2は、音声認識結果に応じて後続処理を実行する(ステップS512)。
【0128】
(辞書変更処理)
続いて、図10を参照して、本実施形態に係る情報処理システムの辞書変更処理について説明する。図10は、本実施形態に係る情報処理システムの辞書変更処理の例を概念的に示すフローチャートである。
【0129】
情報処理装置100−2は、変化した態様がユーザの行動であるかを判定し(ステップS522)、ユーザの行動が変化したと判定されると、変化後のユーザの行動についての対応関係の使用情報を取得する(ステップS524)。具体的には、制御部108は、主体認識部120により認識されたユーザの行動が以前に認識された行動から変化したと判定されると、制御部108は、変化後のユーザの行動についての対応関係の使用頻度および使用可否を記憶部106などから取得する。
【0130】
また、情報処理装置100−2は、変化した態様がユーザの姿勢であるかを判定し(ステップS526)、ユーザの姿勢が変化したと判定されると、変化後のユーザの姿勢についての対応関係の使用情報を取得する(ステップS528)。具体的には、制御部108は、主体認識部120により認識されたユーザの姿勢が以前に認識された姿勢から変化したと判定されると、制御部108は、変化後のユーザの姿勢についての対応関係の使用頻度および使用可否を記憶部106などから取得する。
【0131】
また、情報処理装置100−2は、変化した態様がユーザの位置であるかを判定し(ステップS530)ユーザの位置が変化したと判定されると、変化後のユーザの位置についての対応関係の使用情報を取得する(ステップS532)。具体的には、制御部108は、主体認識部120により認識されたユーザの位置が以前に認識された位置から変化したと判定されると、制御部108は、変化後のユーザの位置についての対応関係の使用頻度および使用可否を記憶部106などから取得する。
【0132】
また、情報処理装置100−2は、変化した態様がユーザの周辺環境であるかを判定し(ステップS534)、ユーザの周辺環境が変化したと判定されると、変化後のユーザの周辺環境についての対応関係の使用情報を取得する(ステップS536)。具体的には、制御部108は、主体認識部120により認識されたユーザの周辺環境が以前に認識された周辺環境から変化したと判定されると、制御部108は、変化後のユーザの周辺環境についての対応関係の使用頻度および使用可否を記憶部106などから取得する。
【0133】
次に、情報処理装置100−2は、使用頻度が相対的に低い対応関係が使用辞書に存在するかを判定し(ステップS538)、さらに使用が許可されない対応関係が使用辞書に存在するかを判定する(ステップS440)。そして、使用頻度が相対的に低い対応関係または使用が許可されない対応関係が使用辞書に存在すると判定されると、情報処理装置100−2は、使用辞書を変更する(ステップS542)。
【0134】
<2−3.第2の実施形態のまとめ>
このように本開示の第2の実施形態によれば、情報処理装置100−2は、音声認識処理で用いられる、音声入力により得られる音声情報と当該音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の対応関係の変更を、音声入力を用いた操作の主体情報に基づいて制御する。このため、上述したように、使用辞書の内容を適切に入れ替えることができる。特に、音声入力操作においては音声認識処理の入力となる音声を発するユーザが音声認識処理へ与える影響は大きい。従って、そのようなユーザの情報に基づいて使用辞書の内容が変更されることにより、音声認識の誤作動、認識率の向上ならびに誤認識および処理時間の長期化の抑制を効果的に実現することができる。すなわち、音声認識処理における認識性能の向上と処理時間の短縮とを両立させることが可能となる。
【0135】
また、上記操作の主体情報は、当該操作の主体の態様が特定される情報を含む。このため、音声入力操作を行うユーザの態様に基づいて使用辞書の内容を適正化することができる。従って、入力される音声が正しく認識され易くなり、認識性能を効果的に向上させることができる。
【0136】
また、上記操作の主体の態様は、当該操作の主体の行動、姿勢または位置を含む。このため、認識されたユーザの行動、姿勢または位置において音声認識されることが所望される音声に係る対応関係を有する使用辞書を用意することができる。従って、ユーザの意図通りに音声が認識されやすくなり、当該音声入力操作を円滑化することが可能となる。
【0137】
また、上記操作の主体情報は、当該操作の主体の周辺環境が特定される情報を含む。このため、認識されたユーザの周辺環境において音声認識されることが所望される音声に係る対応関係を有する使用辞書を用意することができる。従って、ユーザの意図通りに音声が認識されやすくなり、当該音声入力操作を円滑化することが可能となる。
【0138】
<2−4.変形例>
以上、本開示の第2の実施形態について説明した。なお、本実施形態は、上述の例に限定されない。以下に、本実施形態の変形例について説明する。
【0139】
本実施形態の変形例として、音声入力操作の主体情報は、当該音声入力操作の主体が特定される情報であってもよい。具体的には、主体認識部120は、音声入力部102から提供される情報に基づいて音声入力操作の主体を特定する。そして、制御部108は、主体認識部120により特定された主体に応じた辞書へ使用辞書を変更する。例えば、主体認識部120は、音声入力部102から提供された音声情報に基づいて音声情報に係る音声の発声者を特定する。なお、発声者の特定には声紋解析技術などが利用されてよい。そして、制御部108は、主体認識部120により特定された発声者に対応する辞書または対応関係の組を記憶部106などから取得する。制御部108は、使用辞書を取得された辞書へ変更するかまたは使用辞書の一部を取得された対応関係の組と入れ替える。
【0140】
これにより、例えば家族で情報処理装置100−2が共有される場合、父親が情報処理装置100−2を利用するときには、父親の音声が認識されやすい辞書へ使用辞書が変更され、母親が情報処理装置100−2を利用するときには、母親の音声が認識されやすい辞書へ使用辞書が変更される。また、父親用に設定された対応関係が母親用の辞書に含まれないように使用辞書が変更されてもよい。
【0141】
また、当該音声入力操作の主体の有する操作対象について使用辞書が変更されてもよい。例えば、制御部108は、特定された発声者すなわちユーザが所有者である外部機器10またはアプリケーションについて使用辞書が変更されてよい。
【0142】
なお、発声者に対応する辞書または対応関係の組が予め設定されてよい。例えば、ユーザにより辞書または対応関係の組が事前に設定されてよい。また、当然ながら、当該辞書または対応関係の組の設定は事後的に変更されてもよい。また、当該辞書または対応関係の組の設定は自動的に行われてもよい。例えば、ユーザ毎に使用辞書および音声認識結果について機械学習を行うことにより、ユーザ毎に使用頻度が高い辞書または対応関係の組の設定が生成されてよい。
【0143】
また、音声入力操作の主体情報は、当該音声入力操作の主体の属性が特定される情報であってもよい。具体的には、制御部108は、特定され当該主体の属性に応じた辞書へ使用辞書を変更する。当該主体の属性としては、年齢、性別、骨格、人種、住所または出身地などがある。詳細には、ユーザの年齢については、該当する年齢層で共通する話し方に応じたワードに係る対応関係を含む辞書へ使用辞書が変更される。また、ユーザの出身地については、該当する地域の方言に応じたワードに係る対応関係を含む辞書へ使用辞書が変更される。
【0144】
さらに、本実施形態の変形例に係る情報処理システムの処理について説明する。なお、上記実施形態に係る処理と実質的に同一である処理については説明を省略する。
【0145】
(全体処理)
まず、図11を参照して、本実施形態の変形例に係る情報処理システムの全体処理について説明する。図11は、本実施形態の変形例に係る情報処理システムの全体処理の例を概念的に示すフローチャートである。
【0146】
情報処理装置100−2は、音声が入力されたかを判定し(ステップS602)、音声が入力されたと判定されると、入力された音声に基づいて主体情報を取得する(ステップS604)。具体的には、主体認識部120は、音声入力部102により音声情報が提供されると、音声情報に基づいて主体または主体の属性を判定する。
【0147】
次に、情報処理装置100−2は、主体情報について変化が生じたかを判定する(ステップS606)。具体的には、制御部108は、主体認識部120の判定により主体または主体の属性が特定される情報が提供されると、当該情報に基づいて主体または主体の属性が変化したかを判定する。
【0148】
主体情報について変化が生じたと判定されると、情報処理装置100−2は、主体情報に基づいて使用辞書を変更する(ステップS608)。具体的には、制御部108は、主体または主体の属性が変化したと判定されると、変化後の主体または主体の属性について使用辞書を変更する。なお、詳細については後述する。
【0149】
次に、情報処理装置100−2は、使用辞書の変更を通知し(ステップS610)、音声が入力されると(ステップS612)、変更後の使用辞書に基づいて音声認識処理を実行する(ステップS614)。そして、情報処理装置100−2は、認識結果に応じて後続処理を実行する(ステップS616)。
【0150】
(辞書変更処理)
続いて、図12を参照して、本実施形態の変形例に係る情報処理システムの辞書変更処理について説明する。図12は、本実施形態の変形例に係る情報処理システムの辞書変更処理の例を概念的に示すフローチャートである。
【0151】
情報処理装置100−2は、ユーザの属性が変化したかを判定し(ステップS622)、ユーザの属性が変化したと判定されると、変化後のユーザの属性に対応する辞書を取得する(ステップS624)。具体的には、制御部108は、主体認識部120により認識されたユーザの属性が以前に認識されたユーザの属性と異なる属性に変化したと判定されると、制御部108は、変化後のユーザの属性に対応する辞書を記憶部106などから取得する。
【0152】
また、情報処理装置100−2は、ユーザが変化したかを判定し(ステップS626)、ユーザが変化したと判定されると、変化後のユーザに対応する辞書を取得する(ステップS628)。具体的には、制御部108は、主体認識部120により認識されたユーザが以前に認識されたユーザと異なる属性に変化したと判定されると、制御部108は、変化後のユーザに対応する辞書を記憶部106などから取得する。
【0153】
そして、情報処理装置100−2は、使用辞書を変更する(ステップS630)。具体的には、制御部108は、使用辞書を取得された辞書へ変更する。
【0154】
このように、本実施形態の変形例によれば、音声入力操作の主体情報は、当該音声入力操作の主体または当該主体の属性が特定される情報を含む。このため、音声入力操作の主体に適した使用辞書を用意することができる。従って、入力される音声が正しく認識されやすくなり、認識性能を効果的に向上させることが可能となる。さらに、ユーザ個人に対応する使用辞書が用意される場合には、ユーザの使い勝手または操作感を向上させることが可能となる。
【0155】
なお、上記では音声情報に基づいて主体または主体の属性が特定される例を説明したが、画像情報に基づいて主体または主体の属性が特定されてもよい。例えば、顔認識技術などを用いて個々のユーザまたはユーザの属性が特定されてよい。
【0156】
<3.本開示の一実施形態に係る情報処理装置のハードウェア構成>
以上、本開示の各実施形態に係る情報処理装置100について説明した。上述した情報処理装置100の処理は、ソフトウェアと、以下に説明する情報処理装置100のハードウェアとの協働により実現される。
【0157】
図13は、本開示の一実施形態に係る情報処理装置100のハードウェア構成を示した説明図である。図13に示したように、情報処理装置100は、プロセッサ132、メモリ134、ブリッジ136、バス138、インタフェース140、入力装置142、出力装置144、測定装置146、ドライブ148、接続ポート150および通信装置152を備える。
【0158】
(プロセッサ)
プロセッサ132は、演算処理装置として機能し、各種プログラムと協働して情報処理装置100内の音声認識部104、制御部108および主体認識部120の機能を実現する。プロセッサ132は、制御回路を用いてメモリ134または他の記憶媒体に記憶されるプログラムを実行することにより、情報処理装置100の様々な論理的機能を動作させる。例えば、プロセッサ132は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)またはSoC(System-on-a-Chip)であり得る。
【0159】
(メモリ)
メモリ134は、プロセッサ132が使用するプログラムまたは演算パラメタなどを記憶する。例えば、メモリ134は、RAM(Random Access Memory)を含み、プロセッサ132の実行において使用するプログラムまたは実行において適宜変化するパラメタなどを一時記憶する。また、メモリ134は、ROM(Read Only Memory)を含み、RAMおよびROMにより記憶部の機能を実現する。なお、接続ポート150または通信装置152などを介して外部のストレージ装置がメモリ134の一部として利用されてもよい。
【0160】
なお、プロセッサ132およびメモリ134は、CPUバスなどから構成される内部バスにより相互に接続されている。
【0161】
(ブリッジおよびバス)
ブリッジ136は、バス間を接続する。具体的には、ブリッジ136は、プロセッサ132およびメモリ134が接続される内部バスと、インタフェース140と接続するバス138と、を接続する。
【0162】
(入力装置)
入力装置142は、ユーザが情報処理装置100を操作しまたは情報処理装置100へ情報を入力するために使用され、音声入力部102の機能を実現する。例えば、入力装置142は、ユーザが情報を入力するための入力手段、およびユーザによる入力に基づいて入力信号を生成し、プロセッサ132に出力する入力制御回路などから構成されている。なお、当該入力手段は、マウス、キーボード、タッチパネル、スイッチ、レバーまたはマイクロフォンなどであってもよい。情報処理装置100のユーザは、入力装置142を操作することにより、情報処理装置100に対して各種のデータを入力したり処理動作を指示したりすることができる。
【0163】
(出力装置)
出力装置144は、ユーザに情報を通知するために使用され、入出力部の機能を実現する。出力装置144は、表示装置または音出力装置であってよい。例えば、出力装置144は、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、OLED(Organic Light Emitting Diode)装置、プロジェクタ、スピーカまたはヘッドフォンなどの装置または当該装置への出力を行うモジュールであってよい。
【0164】
なお、入力装置142または出力装置144は、入出力装置を含んでよい。例えば、入出力装置は、タッチスクリーンであってよい。
【0165】
(測定装置)
測定装置146は、情報処理装置100および情報処理装置100の周辺において発生する現象についての測定を行い、情報処理装置100の観察部122の動作を実現する。例えば、当該測定装置146は、加速度センサもしくは角速度センサなどの慣性センサ、GPSセンサまたは撮像センサであってよい。なお、測定装置146は、気温、湿度もしくは気圧などを測定する環境センサまたは体温、脈拍もしくは発汗などを測定する生体センサを含んでもよく、複数の種類のセンサが含まれてもよい。
【0166】
(ドライブ)
ドライブ148は、記憶媒体用リーダライタであり、情報処理装置100に内蔵、あるいは外付けされる。ドライブ148は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記憶されている情報を読み出して、メモリ134に出力する。また、ドライブ148は、リムーバブル記憶媒体に情報を書込むこともできる。
【0167】
(接続ポート)
接続ポート150は、機器を情報処理装置100に直接接続するためのポートである。例えば、接続ポート150は、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどであり得る。また、接続ポート150は、RS−232Cポート、光オーディオ端子、HDMI(登録商標)(High-Definition Multimedia Interface)ポートなどであってもよい。接続ポート150に外部機器を接続することで、情報処理装置100と当該外部機器との間でデータが交換されてもよい。
【0168】
(通信装置)
通信装置152は、情報処理装置100と外部装置との間の通信を仲介し、通信部110の機能を実現する。具体的には、通信装置152は、無線通信方式または有線通信方式に従って通信を実行する。例えば、通信装置152は、WCDMA(登録商標)(Wideband Code Division Multiple Access)、WiMAX(登録商標)、LTE(Long Term Evolution)もしくはLTE−Aなどのセルラ通信方式に従って無線通信を実行する。なお、通信装置152は、Bluetooth(登録商標)、NFC(Near Field Communication)、ワイヤレスUSBもしくはTransferJet(登録商標)などの近距離無線通信方式、またはWi−Fi(登録商標)などの無線LAN(Local Area Network)方式といった、任意の無線通信方式に従って無線通信を実行してもよい。また、通信装置152は、信号線通信または有線LAN通信などの有線通信を実行してよい。
【0169】
なお、情報処理装置100は、図13を用いて説明した構成の一部を有しなくてもよく、または任意の追加的な構成を有していてもよい。また、図13を用いて説明した構成の全体または一部を集積したワンチップの情報処理モジュールが提供されてもよい。
【0170】
<4.むすび>
以上、本開示の第1の実施形態によれば、使用辞書の内容を適切に入れ替えることができる。そのため、起動ワードを設けることなく、日常の会話における音声の認識による誤作動を防止することができる。また、使用辞書のサイズを大きくすることなく、認識率を向上させることができる。それにより、誤認識の増加および処理時間の長期化も抑制することができる。従って、音声認識処理における認識性能の向上と処理時間の短縮とを両立させることが可能となる。さらに、複数の音声認識処理を実行させることなく、認識率を向上させることができる。それにより、製造コストおよび処理負荷の増加を抑制することができる。
【0171】
また、本開示の第2の実施形態によれば、使用辞書の内容を適切に入れ替えることができる。特に、音声入力操作においては音声認識処理の入力となる音声を発するユーザが音声認識処理へ与える影響は大きい。従って、そのようなユーザの情報に基づいて使用辞書の内容が変更されることにより、音声認識の誤作動、認識率の向上ならびに誤認識および処理時間の長期化の抑制を効果的に実現することができる。すなわち、音声認識処理における認識性能の向上と処理時間の短縮とを両立させることが可能となる。
【0172】
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
【0173】
例えば、上記実施形態では、情報処理システムすなわち情報処理装置100およびサーバ200が処理を行うとしたが、本技術はかかる例に限定されない。例えば、情報処理装置100が単体で処理を行ってもよい。また、情報処理装置100は、アクセススピードおよび記憶容量が異なる複数のメモリを備え、当該複数のメモリを用いて上述したような情報処理装置100とサーバ200とを用いた処理が実現されてもよい。例えば、情報処理装置100は第1のメモリおよび第2のメモリを備える。第1のメモリについては、アクセススピードは第2のメモリよりも速いが記憶容量は第2のメモリより小さい。また、第2のメモリについては、アクセススピードは第1のメモリよりも遅いが記憶容量は第1のメモリよりも大きい。そして、情報処理装置100は、使用辞書としてまず第1のメモリに記憶される辞書を利用し、第1のメモリに記憶される辞書において音声認識が失敗すると、第2のメモリに記憶される辞書を使用辞書として利用する。当然ながら、第1のメモリおよび第2のメモリに記憶される辞書は上述したような辞書変更処理により適正化される。このように、アクセススピードおよび記憶容量が異なる複数のメモリが用いられることにより、音声入力に対する処理のレスポンスの高速化と音声認識の成功率の維持または向上とを両立させることができる。特に、上述したような構成は、情報処理装置100が単体で処理を行う場合に有意義である。
【0174】
また、上記実施形態では、音声入力操作の客体情報または主体情報の各々についてそれぞれ使用辞書が変更される例を説明したが、当該客体情報および主体情報の組合せについて使用辞書が変更されてもよい。
【0175】
さらに、当該客体情報または主体情報に加えて、時間情報が使用辞書の変更に用いられてもよい。時間情報としては、時分、日付、曜日、昼夜または季節などがある。例えば、情報処理装置100は、起動中のアプリケーションおよび時間帯の組合せに対応する辞書または当該組合せに対応する対応関係を含む辞書に使用辞書を変更してよい。この場合、さらに詳細な状況に応じて使用辞書が変更されることにより、より音声が正しく認識されやすくすることができる。従って、認識性能をさらに向上させることが可能となる。
【0176】
また、上記実施形態では、使用辞書へ対応関係が入れ替えられる例を主に説明したが、使用辞書から対応関係が抜き出されるだけであってもよい。例えば、認識性能の低下または処理時間の長期化が推定される場合、情報処理装置100は、使用頻度が相対的に低い対応関係を使用辞書から抜き出す。これにより、使用辞書における対応関係の数が減るため、誤認識の発生するおそれを低下させることができる。また、処理時間すなわちレスポンスも短縮することができる。
【0177】
また、上記実施形態では、使用辞書が変更される例を主に説明したが、使用辞書は変更されなくてもよい。例えば、入れ替えられるべき対応関係が存在しない場合には、情報処理装置100は、使用辞書の変更を中止してよい。
【0178】
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
【0179】
また、上記の実施形態のフローチャートに示されたステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的にまたは個別的に実行される処理をも含む。また時系列的に処理されるステップでも、場合によっては適宜順序を変更することが可能であることは言うまでもない。
【0180】
また、情報処理装置100に内蔵されるハードウェアに上述した情報処理装置100の各機能構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムが記憶された記憶媒体も提供される。
【0181】
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
音声入力により得られる音声情報を得る取得部と、
音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御する制御部と、
を備える情報処理装置。
(2)
変更に係る前記対応関係は、前記操作の客体情報または前記操作の主体情報から推定される、前記操作についての前記音声認識処理における前記対応関係についての使用情報、に基づいて決定される前記対応関係を含む、
前記(1)に記載の情報処理装置。
(3)
前記使用情報は、使用頻度が特定される情報を含む、
前記(2)に記載の情報処理装置。
(4)
前記使用情報は、使用可否が特定される情報を含む、
前記(2)または(3)に記載の情報処理装置。
(5)
前記制御部は、さらに前記操作の客体情報または前記操作の主体情報に基づいて前記対応関係の集合の変更を制御する、
前記(1)〜(4)のいずれか1項に記載の情報処理装置。
(6)
前記対応関係の集合の変更は、集合の大きさが異なる前記対応関係の集合へ変更を含む、
前記(5)に記載の情報処理装置。
(7)
前記対応関係は、通信を介して変更される、
前記(1)〜(6)のいずれか1項に記載の情報処理装置。
(8)
前記操作の客体情報は、操作対象または前記操作対象の属性が特定される情報を含む、
前記(1)〜(7)のいずれか1項に記載の情報処理装置。
(9)
前記操作対象は、アプリケーションまたは機器を含む、
前記(8)に記載の情報処理装置。
(10)
前記制御部は、さらに前記情報処理装置の通信可否に基づいて前記対応関係の変更を制御する、
前記(1)〜(9)のいずれか1項に記載の情報処理装置。
(11)
前記操作の主体情報は、前記操作の主体の態様が特定される情報を含む、
前記(1)〜(10)のいずれか1項に記載の情報処理装置。
(12)
前記操作の主体の態様は、前記操作の主体の行動、姿勢または位置を含む、
前記(11)に記載の情報処理装置。
(13)
前記操作の主体情報は、前記操作の主体の周辺環境が特定される情報を含む、
前記(1)〜(12)のいずれか1項に記載の情報処理装置。
(14)
前記操作の主体情報は、前記操作の主体または前記操作の主体の属性が特定される情報を含む、
前記(1)〜(13)のいずれか1項に記載の情報処理装置。
(15)
前記操作の客体情報または前記操作の主体情報は、前記操作の客体または主体について取得される情報に基づいて推定される情報を含む、
前記(1)〜(14)のいずれか1項に記載の情報処理装置。
(16)
前記操作の客体情報または前記操作の主体情報は、前記音声認識処理により得られる情報を含む、
前記(1)〜(15)のいずれか1項に記載の情報処理装置。
(17)
前記対応関係の変更についての前記操作の主体への通知を制御する通知制御部をさらに備える、
前記(1)〜(16)のいずれか1項に記載の情報処理装置。
(18)
前記対応関係に係る前記音声情報は、前記操作の開始を示す音声情報または前記操作の内容を示す音声情報を含む、
前記(1)〜(17)のいずれか1項に記載の情報処理装置。
(19)
プロセッサを用いて、
音声入力により得られる音声情報を得ることと、
音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御することと、
を含む情報処理方法。
(20)
音声入力により得られる音声情報を得る取得機能と、
音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御する制御機能と、
をコンピュータに実現させるためのプログラム。
【符号の説明】
【0182】
100 情報処理装置
102 音声入力部
104 音声認識部
106 記憶部
108 制御部
110 通信部
120 主体認識部
122 観察部
200 サーバ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13