(58)【調査した分野】(Int.Cl.,DB名)
所定のユーザによって発話された第1音声から推定された第1推定結果と、前記第1音声に続いて前記ユーザによって繰り返し発話された第2音声から推定された第2推定結果と、前記第1推定結果と前記第2推定結果とが重複する度合いを示す重複度とが入力される入力層と、
出力層と、
前記入力層から前記出力層までのいずれかの層であって前記出力層以外の層に属する第1要素と、
前記第1要素と前記第1要素の重みとに基づいて値が算出される第2要素と、を含むモデルを備えたコンピュータであって、
前記入力層に入力された前記第1推定結果と前記第2推定結果と前記重複度に対し、前記出力層以外の各層に属する各要素を前記第1要素として、前記第1要素と前記第1要素の重みとに基づく演算を行うことにより、前記第1音声及び前記第2音声に対応する音声認識結果を前記出力層から出力するよう、
コンピュータを機能させるプログラム。
【発明を実施するための形態】
【0009】
以下に、本願に係る決定装置、決定方法、決定プログラム及びモデルの実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る決定装置、決定方法、決定プログラム及びモデルが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0010】
〔1.決定装置が示す決定処理の一例〕
図1を用いて、実施形態に係る決定装置が実行する決定処理の一例について説明する。
図1は、実施形態に係る決定装置が実行する決定処理の一例を示す図である。
図1では、決定装置100により決定処理が実行される例を示す。
【0011】
図1に示すように、決定システム1は、端末装置10と、決定装置100とを含む。端末装置10及び決定装置100は、図示しない所定の通信網を介して、有線又は無線により通信可能に接続される。なお、
図1に示す決定システム1には、複数台の端末装置10や、複数台の決定装置100が含まれてもよい。
【0012】
端末装置10は、ブラウザに表示されるウェブページやアプリケーションに表示されるコンテンツ等のウェブコンテンツにアクセスするユーザによって利用される情報処理装置である。例えば、端末装置10は、デスクトップ型PC(Personal Computer)や、ノート型PCや、タブレット端末や、携帯電話機や、PDA(Personal Digital Assistant)等である。また、端末装置10は、ユーザによる操作や、端末装置10が有する機能に応じて、ユーザによって発話される音声を取得し、端末装置10の所定の記憶領域にかかる音声に関する情報を記憶する。
【0013】
例えば、端末装置10は、予め音声を取得可能なアプリケーションをインストールしているものとする。この場合、端末装置10は、内蔵されたマイクにより、ユーザによって発話される音声を取得し、端末装置10の所定の記憶領域にかかる音声に関する情報を記憶する。なお、端末装置10による上記処理は、例えば、音声検索等の周知技術によって実現可能である。
【0014】
決定装置100は、ユーザによって発話される音声に対応する音声認識結果を決定し、かかる音声認識結果を端末装置10に提供する決定装置であり、例えば、サーバ装置等により実現される。この点について説明する。従来の音声認識解析では、音声認識が困難だった場合、ユーザによって発話された音声に対応する音声認識結果がかかる音声と逸脱したものをユーザに提供してしまうことがある。また、従来の音声認識解析では、音声認識が困難だった場合、ユーザに対して発話を繰り返させたり、ユーザによって発話された音声に対して応答なしであったりする。この場合、ユーザは、同じ内容の音声を繰り返し発話することがある。この結果、ユーザに対して同じ内容の音声を繰り返し発話させるという負荷を強いることになる。そのため、実施形態に係る決定装置100は、ユーザによって繰り返し発話された音声に対する音声認識の精度の向上を実現する。具体的には、決定装置100は、ユーザによって最初に発話された音声(以下、第1音声と表記する場合がある)から推定された第1音声の推定結果とユーザによって続いて発話された音声(以下、第2音声と表記する場合がある)から推定された第2音声の推定結果との組み合わせ毎のスコアに基づいて、音声認識結果を決定する。この点について以下で詳細に説明する。なお、以下では、ユーザが端末装置10に対して音声検索を行う場合に、ユーザによって複数回発話された音声が同じ内容の音声であるものとして説明する。
【0015】
以下、
図1を用いて、決定装置100による音声認識結果の決定処理の一例を流れに沿って説明する。
【0016】
まず、
図1に示すように、ユーザは、端末装置10に対して「連想ゲーム」と2回発話するものとする(ステップS1)。例えば、ユーザが「連想ゲーム」に関するゲームの種類を検索するために、端末装置10に対して「連想ゲーム」と発話するものとする。この場合、ユーザは、端末装置10に対してユーザ自身によって発話された音声が認識されたかどうか心配になり、自発的に「連想ゲーム」と2回発話するものとする。そして、端末装置10は、ユーザによって2回発話された「連想ゲーム」を受け付ける。
【0017】
なお、例えば、端末装置10は、決定装置100による音声認識が困難だった場合、決定装置100によって通知された音声認識不可に関する情報に基づいて、「もう一度言ってください。」等の音声ナビゲーションによって、ユーザに繰り返し発話を促してもよい。
【0018】
続いて、決定装置100は、ユーザによって繰り返し発話された音声を受け付ける(ステップS2)。例えば、決定装置100は、端末装置10がユーザによって発話された音声を受け付けたことに関する情報を決定装置100へ送信することに基づいて、ユーザによって繰り返し発話された音声を受け付ける。この場合、決定装置100は、ユーザによって発話された音声が繰り返し発話されたものであるか否かを判定する。具体的には、決定装置100は、ユーザによって発話された音声の音声波形と他の音声の音声波形との類似性に基づいて、ユーザによって発話された音声が繰り返し発話されたか否かを判定する。
【0019】
例えば、決定装置100は、ユーザによって発話された音声の音声波形と他の音声の音声波形との類似度が所定値以上である場合、ユーザによって発話された音声が繰り返し発話されたと判定する。なお、決定装置100は、音声の音声波形と他の音声の音声波形との類似性に基づいて判定する前に、かかる音声の音声波形に対して振幅、位相、周波数等による補正を行ってもよい。これにより、決定装置100は、タイミングや音量の異なる音声の音声波形同士の類似性を判定することができる。
【0020】
なお、決定装置100が実行する上記処理は、例えば、音声信号処理等に関する周知技術により、音声の音声波形に対する振幅、位相、周波数等の補正及び音声の音声波形同士の類似度を算出することで実現可能である。また、例えば、決定装置100が実行する音声波形同士の類似性の決定処理は、機械学習等の周知技術により、ユーザによって発話された音声が繰り返しか否かを判定してもよい。
【0021】
続いて、決定装置100は、ユーザによって繰り返し発話された音声に対応する発話内容を推定し、かかる音声から推定された推定結果のランク付けを行う(ステップS3)。具体的には、決定装置100は、ユーザによって繰り返し発話されたと判定された音声のうち、第1音声に対応する発話内容を推定する。そして、決定装置100は、第1音声の発話内容を推定すると共に、第1音声の推定結果の正確性を示す情報である推定精度を算出する。また、決定装置100は、ユーザによって繰り返し発話されたと判定された音声のうち、第2音声に対応する発話内容を推定する。そして、決定装置100は、第2音声の発話内容を推定すると共に、第2音声の推定結果の推定精度を算出する。
【0022】
例えば、決定装置100は、ユーザによって発話された音声「連想ゲーム」に対応する第1音声から推定された推定結果として、「演奏ゲーム」、「塩素ゲーム」、「連想ゲーム」を推定する。そして、決定装置100は、第1音声の推定結果である「演奏ゲーム」、「塩素ゲーム」、「連想ゲーム」に対応する推定精度として、「1.0」、「0.9」、「0.8」と算出する。また、決定装置100は、ユーザによって第1音声に続いて発話された音声「連想ゲーム」に対応する第2音声から推定された推定結果として、「清掃ゲーム」、「連想ゲーム」、「炎症ゲーム」を推定する。そして、決定装置100は、第2音声の推定結果である「清掃ゲーム」、「連想ゲーム」、「炎症ゲーム」に対応する推定精度として、「1.0」、「0.9」、「0.8」と算出する。
【0023】
そして、決定装置100は、ユーザによって発話された音声から推定された推定結果を、推定結果の推定精度に基づいて、ランク付けを行う。例えば、決定装置100は、第1音声の推定結果に対応する推定精度に基づいて、「演奏ゲーム」、「塩素ゲーム」、「連想ゲーム」の順でランク付けを行う。また、決定装置100は、第2音声の推定結果に対応する推定精度に基づいて、「清掃ゲーム」、「連想ゲーム」、「炎症ゲーム」の順でランク付けを行う。
【0024】
なお、決定装置100が実行する上記処理は、例えば、音声認識解析等に関する周知技術により、ユーザによって発話された音声に対応する発話内容を推定し、かかる音声から推定された推定結果の推定精度を算出することで実現可能である。
【0025】
続いて、決定装置100は、第1音声の推定結果と第2音声の推定結果との組み合わせ毎に、スコアを算出する(ステップS4)。例えば、決定装置100は、以下のような式(1)によりスコアSC1を算出する。
【0026】
スコアSC1 = Acc1+Acc2+Rep ・・・ (1)
【0027】
上記式(1)では、「Acc1」は、第1音声の推定結果の推定精度を示し、「Acc2」は、第2音声の推定結果の推定精度を示し、「Rep」は、第1音声の推定結果と第2音声の推定結果とに含まれる単語が重複する度合いに関する情報(以下、重複度と表記する)を示す。そして、決定装置100は、スコアSC1が最も大きい第1音声の推定結果と第2音声の推定結果との組み合わせを決定する。
【0028】
ここで、
図2を用いて、音声認識結果を決定する処理の一例を説明する。
図2は、第1音声の推定結果とかかる推定結果の推定精度と、第2音声の推定結果とかかる推定結果の推定精度とにおける組み合わせを示す図である。例えば、
図2に示す例においては、第1音声の推定結果WT1に示すように「演奏ゲーム」は、推定精度「1.0」である。
【0029】
図2に示す例では、決定装置100は、上記式(1)により、第1音声の推定結果の推定精度と第2音声の推定結果の推定精度と重複度とを加味したスコアを算出する。例えば、第1音声の推定結果が「演奏ゲーム」であり、第2音声の推定結果が「清掃ゲーム」である組み合わせ(以下、「演奏ゲーム×清掃ゲーム」と表記する場合がある)において、形態素解析等により、「ゲーム」が一致していることから、重複度が「1.0」と算出されるものとする。この場合、決定装置100は、
図2中の算出式スコアCT1に示す式により、第1音声の推定結果WT1「演奏ゲーム」の推定精度「1.0」と、第2音声の推定結果WT2「清掃ゲーム」の推定精度「1.0」と、重複度「1.0」とであることから、スコアCT1「3.0」と算出する。
【0030】
また、例えば、「連想ゲーム×連想ゲーム」は、形態素解析等により、「連想」と「ゲーム」とが一致していることから、重複度が「2.0」と算出されるものとする。この場合、決定装置100は、
図2中の算出式スコアCT2に示す式により、第1音声の推定結果WT3「連想ゲーム」の推定精度「0.8」と、第2音声の推定結果WT4「連想ゲーム」の推定精度「0.9」と、重複度「2.0」とであるから、スコアCT2「3.7」と算出する。
【0031】
また、例えば、
図2に示す例において、以下の組み合わせにおいて上記算出方法に基づいてスコアCT3〜CT9を算出する。
スコアCT3(「演奏ゲーム×連想ゲーム」) =2.9 ・・・ (2)
スコアCT4(「演奏ゲーム×炎症ゲーム」) =2.8 ・・・ (3)
スコアCT5(「塩素ゲーム×清掃ゲーム」) =2.9 ・・・ (4)
スコアCT6(「塩素ゲーム×連想ゲーム」) =2.8 ・・・ (5)
スコアCT7(「塩素ゲーム×炎症ゲーム」) =2.7 ・・・ (6)
スコアCT8(「連想ゲーム×清掃ゲーム」) =2.8 ・・・ (7)
スコアCT9(「連想ゲーム×炎症ゲーム」) =2.6 ・・・ (8)
【0032】
そして、決定装置100は、各スコアCT1〜CT9を比較する。例えば、決定装置100は、第1音声の推定結果WT3「連想ゲーム」と、第2音声の推定結果WT4「連想ゲーム」とのスコアCT2が最も大きいため、第1音声の推定結果WT3及び第2音声の推定結果WT4から音声認識結果を選択し、「連想ゲーム」を音声認識結果として決定する。
【0033】
図1に戻り、実施形態に係る決定処理の一例を説明する。決定装置100は、スコアSC1に基づいて、音声認識結果C1を「連想ゲーム」であると決定する(ステップS5)。例えば、決定装置100は、「連想ゲーム×連想ゲーム」におけるスコアSC1が「3.7」であり、「演奏ゲーム×清掃ゲーム」におけるスコアSC1が「3.0」であることから、「連想ゲーム×連想ゲーム」のスコアSC1が最も大きいため、第1音声の推定結果及び第2音声の推定結果から選択された「連想ゲーム」を音声認識結果として決定する。そして、決定装置100は、音声認識結果C1「連想ゲーム」を端末装置10に提供する(ステップS6)。例えば、決定装置100は、音声認識結果C1「連想ゲーム」をテキスト化して端末装置10に提供する。そして、端末装置10は、ユーザに対して「連想ゲーム」というテキストを表示する。なお、端末装置10は、音声読み上げ機能を用いて、ユーザに対して「連想ゲーム」と読み上げてもよい。
【0034】
このように、実施形態に係る決定装置100は、ユーザによって発話された音声に対応する第1音声から推定された推定結果とユーザによって第1音声に続いて発話された音声に対応する第2音声から推定された推定結果との組み合わせに対応するスコアに基づいて、音声認識結果を決定する。これにより、実施形態に係る決定装置100は、音声認識の精度を向上させることができる。この点について説明する。
図1の例を用いて説明すると、決定装置100は、複数の第1音声の推定結果のうち、推定精度が高い第1音声の推定結果を選択し、複数の第2音声の推定結果のうち、推定精度が高い推定結果を選択する。そして、決定装置100は、推定精度の高い第1音声の推定結果と第2音声の推定結果との組み合わせ毎に重複度に基づいてスコアを算出する。これにより、決定装置100は、かかるスコアが高い組み合わせにおける第1音声の推定結果及び第2音声の推定結果を音声認識結果として決定するため、より高い精度で音声認識結果を決定することができる。したがって、決定装置100は、ユーザによって繰り返し発話された音声の組み合わせ毎に算出されるスコアに基づいて音声認識結果を決定することができるので、音声認識の精度を向上させることができる。
【0035】
〔2.決定装置の構成〕
次に、
図3を用いて、実施形態に係る決定装置100の構成について説明する。
図3は、実施形態に係る決定装置100の構成例を示す図である。
図3に示すように、決定装置100は、通信部110と、記憶部120と、制御部130とを有する。
【0036】
(通信部110について)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、ネットワークと有線又は無線で接続され、端末装置10との間で情報の送受信を行う。
【0037】
(記憶部120について)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、音声情報記憶部121と、推定結果情報記憶部122と、スコア情報記憶部123とを有する。
【0038】
(音声情報記憶部121について)
実施形態に係る音声情報記憶部121は、ユーザによって発話された音声に関する情報を記憶する。ここで、
図4に、実施形態に係る音声情報記憶部121の一例を示す。
図4に示した例では、音声情報記憶部121は、「音声ID(Identifier)」、「音声」、「第1音声との類似度」といった項目を有する。
【0039】
「音声ID」は、ユーザによって発話された音声を識別する識別子である。「音声」は、「音声ID」と対応付けられた音声の波形データである。「第1音声との類似度」は、「音声ID」と対応付けられた直前に受け付けた音声との類似度に関する情報である。例えば、
図4では、音声IDによって識別される「V2」は、音声が「WV2」であり、音声ID「V1」によって識別される音声「WV1」との類似度である第1音声との類似度が「0.9」である。
【0040】
(音声認識結果情報記憶部122について)
実施形態に係る推定結果情報記憶部122は、ユーザによって発話された音声に対応する推定結果に関する各種情報を記憶する。ここで、
図5に、実施形態に係る推定結果情報記憶部122の一例を示す。
図5に示した例では、推定結果情報記憶部122は、「音声ID」、「推定結果ID」、「推定結果のランキング順位」、「推定結果」、「推定精度」といった項目を有する。
【0041】
「音声ID」は、ユーザによって発話された音声を識別する識別子である。「推定結果ID」は、音声から推定された推定結果を識別するための識別情報を示す。「推定結果のランキング順位」は、音声に対応する推定結果と共に算出された推定精度の大きさによってランク付けされた順位を示す。「推定結果」は、ユーザによって発話された音声に対応する推定結果を示す。「推定精度」は、「推定結果」と共に算出された推定精度を示す。例えば、
図5では、音声IDによって識別される「V1」に対応し、かつ、推定結果IDによって識別される「VC1」に対応する推定結果のランキング順位は「1位」であり、推定結果「演奏ゲーム」の推定精度は「1.0」である。
【0042】
(スコア情報記憶部123について)
実施形態に係るスコア情報記憶部123は、第1音声の推定結果と第2音声の推定結果との組み合わせ毎のスコアに関する情報を記憶する。ここで、
図6に、実施形態に係るスコア情報記憶部123の一例を示す。
図6に示した例では、スコア情報記憶部123は、「スコアID」、「推定結果の組み合わせ」、「スコア」といった項目を有する。
【0043】
「スコアID」は、第1音声の推定結果と第2音声の推定結果との組み合わせに対応するスコアを識別するための識別情報を示す。「推定結果の組み合わせ」は、第1音声の推定結果と第2音声の推定結果との組み合わせに対応するスコアを示す。例えば、
図6では、スコアIDによって識別される「SCC1」に対応する推定結果の組み合わせは「連想ゲーム×連想ゲーム」であり、かかる推定結果の組み合わせにおけるスコアは「3.7」であることを示す。
【0044】
(制御部130について)
制御部130は、コントローラ(Controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、決定装置100内部の記憶装置に記憶されている各種プログラム(決定プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
【0045】
図3に示すように、制御部130は、受付部131と、判定部132と、推定部133と、算出部134と、決定部135と、提供部136とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、
図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、
図3に示した接続関係に限られず、他の接続関係であってもよい。
【0046】
(受付部131について)
受付部131は、ユーザによって発話された音声を受け付ける。例えば、受付部131は、端末装置10がユーザによって発話された音声を受け付けたことに関する情報を受付部131へ送信することに基づいて、ユーザによって発話された音声を受け付ける。そして、受付部131は、かかる音声の波形データを音声情報記憶部121に格納する。
【0047】
(判定部132について)
判定部132は、受付部131によって受け付けられた第1音声と、受付部131によって第1音声の後に受け付けられた第2音声との類似性に基づいて、第2音声が第1音声に続いて繰り返し発話された音声であるかを判定する。具体的には、判定部132は、音声情報記憶部121を参照し、第1音声と第2音声との類似度を音声情報記憶部121に格納し、第2音声が第1音声に続いて繰り返し発話された音声であると判定する。
【0048】
例えば、音声IDにより識別される第1音声「WV1」と、第2音声「WV2」とであるとする。また、類似度の所定値が0.8であるとする。この場合、判定部132は、第1音声「WV1」の音声波形と第2音声「WV2」の音声波形との類似度「0.9」を音声情報記憶部121に格納する。そして、判定部132は、かかる類似度が所定値以上であるため、第1音声「WV1」と第2音声「WV2」とが繰り返し発話されたと判定する。
【0049】
(推定部133について)
推定部133は、ユーザによって発話された音声に対応する発話内容を推定する。具体的には、推定部133は、音声情報記憶部121を参照して、ユーザによって最初に発話された音声である第1音声に対応する発話内容を推定する。そして、推定部133は、第1音声の発話内容を推定すると共に、第1音声の推定結果の推定精度を算出する。そして、推定部133は、かかる第1音声の推定結果と推定精度とを推定結果情報記憶部122に格納する。なお、推定部133は、例えば、音声の波形や振幅等のパラメータと文言との対応関係に関する情報に基づいて、発話内容を推定する。そして、推定部133は、例えば、音声の波形と推定結果の波形との一致度に基づいて、推定精度を算出する。
【0050】
また、推定部133は、音声情報記憶部121を参照して、ユーザによって第1音声に続いて発話された音声である第2音声に対応する発話内容を推定する。そして、推定部133は、第2音声の発話内容を推定すると共に、第2音声の推定結果の推定精度を算出する。そして、推定部133は、かかる第2音声の推定結果と推定精度とを推定結果情報記憶部122に格納する。
【0051】
例えば、音声IDにより識別される第1音声「WV1」と、第2音声「WV2」とであるとする。この場合、推定部133は、音声情報記憶部121を参照し、第1音声「WV1」に対応する第1音声の推定結果として、「演奏ゲーム」、「塩素ゲーム」、「連想ゲーム」を推定する。そして、推定部133は、第1音声の推定結果である「演奏ゲーム」、「塩素ゲーム」、「連想ゲーム」に対応する推定精度として、「1.0」、「0.9」、「0.8」と算出する。そして、推定部133は、かかる第1音声の推定結果と推定精度とを推定結果情報記憶部122に格納する。また、推定部133は、音声情報記憶部121を参照し、第2音声「WV2」に対応する第2音声の推定結果として、「清掃ゲーム」、「連想ゲーム」、「炎症ゲーム」を推定する。そして、推定部133は、第2音声の推定結果である「清掃ゲーム」、「連想ゲーム」、「炎症ゲーム」に対応する推定精度として、「1.0」、「0.9」、「0.8」と算出する。そして、推定部133は、かかる第2音声の推定結果と推定精度とを推定結果情報記憶部122に格納する。
【0052】
また、推定部133は、ユーザによって発話された音声から推定された推定結果を、推定結果の推定精度に基づいて、ランク付けを行う。そして、推定部133は、かかる推定結果のランキング情報を推定結果情報記憶部122に格納する。例えば、推定部133は、第1音声の推定結果に対応する推定精度に基づいて、「演奏ゲーム」、「塩素ゲーム」、「連想ゲーム」の順でランク付けを行う。そして、推定部133は、かかる第1音声の推定結果のランキング情報を推定結果情報記憶部122に格納する。また、推定部133は、第2音声の推定結果に対応する推定精度に基づいて、「清掃ゲーム」、「連想ゲーム」、「炎症ゲーム」の順でランク付けを行う。そして、推定部133は、かかる第2音声の推定結果のランキング情報を推定結果情報記憶部122に格納する。
【0053】
(算出部134について)
算出部134は、推定部133によって推定された第1の推定結果(第1音声の推定結果に相当)と第2の推定結果(第2音声の推定結果に相当)との組み合わせ毎に、第1音声の推定結果の推定精度と第2音声の推定結果の推定精度とに基づいてスコアを算出する。例えば、算出部134は、推定結果情報記憶部122から、「連想ゲーム×連想ゲーム」と「演奏ゲーム×清掃ゲーム」とを読み出す。例えば、「連想ゲーム×連想ゲーム」において、形態素解析等により、「連想」と「ゲーム」とが一致していることから、重複度が「2.0」と算出されるものとする。この場合、算出部134は、「連想ゲーム×連想ゲーム」において、第1音声の推定結果「連想ゲーム」の推定精度が「0.8」であり、第2音声の推定結果「連想ゲーム」の推定精度が「0.9」であり、重複度が「2.0」であることから、スコアSC1は「3.7」と算出する。また、例えば、「演奏ゲーム×清掃ゲーム」において、形態素解析等により、「ゲーム」が一致していることから、重複度が「1.0」と算出されるものとする。この場合、算出部134は、「演奏ゲーム×清掃ゲーム」において、第1音声の推定結果「演奏ゲーム」の推定精度が「1.0」であり、第2音声の推定結果「清掃ゲーム」の推定精度が「1.0」であり、重複度が「1.0」であることから、スコアSC1は「3.0」と算出する。そして、算出部134は、各組み合わせに対応するスコアSC1をスコア情報記憶部123に格納する。
【0054】
(決定部135について)
決定部135は、推定部133によって第1音声から推定された第1推定結果(第1音声の推定結果に相当)における推定精度と、第1音声に続いてユーザによって繰り返し発話された第2音声から推定された第2推定結果(第2音声の推定結果に相当)における推定精度とに基づいて、第1音声及び第2音声に対応する音声認識結果を決定する。具体的には、決定部135は、スコア情報記憶部123に記憶されるスコアSC1が最も大きい第1音声の推定結果と第2音声の推定結果との組み合わせから、第1音声及び第2音声に対応する音声認識結果を決定する。例えば、決定部135は、スコア情報記憶部123を参照して、「連想ゲーム×連想ゲーム」におけるスコアSC1が「3.7」であり、「演奏ゲーム×清掃ゲーム」におけるスコアSC1が「3.0」であることから、「連想ゲーム×連想ゲーム」のスコアSC1が最も大きいため、第1音声の推定結果及び第2音声の推定結果から選択された「連想ゲーム」を音声認識結果として決定する。
【0055】
(提供部136について)
提供部136は、決定部135によって決定された音声認識結果を端末装置10に提供する。例えば、音声認識結果が「連想ゲーム」であるとする。この場合、提供部136は、「連想ゲーム」をテキスト化して端末装置10に提供する。そして、端末装置10は、ユーザに対して「連想ゲーム」というテキストを表示する。
【0056】
〔3.決定処理のフローチャート〕
次に、
図7を用いて、実施形態に係る決定装置100が実行する決定処理の手順について説明する。
図7は、実施形態に係る決定装置が実行する決定処理の流れの一例を示すフローチャートである。
【0057】
図7に示すように、受付部131は、ユーザによって発話された音声を受け付ける(ステップS101)。そして、判定部132は、第1音声と第2音声との類似度が所定値以上である場合、第1音声と第2音声とが繰り返し発話されたと判定する(ステップS102)。判定部132は、ユーザによって繰り返し発話された音声であると判定しない場合(ステップS102;No)、ユーザによって発話された音声を受け付けるまで待機する。
【0058】
一方、判定部132がユーザによって繰り返し発話された音声と判定した場合(ステップS102;Yes)、推定部133は、判定部132によって判定された第1音声と第2音声とに対応する発話内容を推定し、推定結果のランク付けを行う(ステップS103)。
【0059】
決定部135は、算出部134が推定部133によって推定された推定結果の組み合わせにおいて算出したスコアが最も大きい第1音声の推定結果及び第2音声の推定結果を音声認識結果として決定する(ステップS104)。そして、提供部136は、決定部135によって決定された音声認識結果を端末装置10に提供する(ステップS105)。
【0060】
〔4.音声認識結果の決定処理〕
次に、
図8を用いて、実施形態に係る決定システム1における音声認識結果の決定について説明する。
図8は、実施形態に係る音声認識結果の決定の一例を示す図である。
【0061】
図8を用いて第1音声の推定結果と第2音声の推定結果とが異なる場合について説明する。
図8は、第1音声の推定結果とかかる推定結果の推定精度と、第2音声の推定結果とかかる推定結果の推定精度とにおける組み合わせを示す図である。
図8に示す例においては、第1音声の推定結果WT5に示すように「まつしま」は、推定精度「1.0」である。
【0062】
図8に示す例では、決定装置100は、第1音声の推定結果の推定精度と第2音声の推定結果の推定精度と重複度とを加味したスコアを算出する。例えば、「まつしま×やつしま」において、文字の重複度を解析することにより、「つ」と「し」と「ま」が一致していることから、重複度が「3.0」と算出されるものとする。この場合、決定装置100は、
図8中の算出式スコアCT21に示す式により、第1音声の推定結果WT5「まつしま」の推定精度「1.0」と、第2音声の推定結果WT6「やつしま」の推定精度「0.9」と、重複度「3.0」であるから、スコアCT21「4.9」と算出する。
【0063】
また、例えば、
図8に示す例において、以下の組み合わせにおいて上記算出方法に基づいてスコアCT22〜CT24を算出する。
スコアCT22(「まつしま×はつしま」) =4.8 ・・・ (9)
スコアCT23(「たつしま×やつしま」) =4.8 ・・・ (10)
スコアCT24(「たつしま×はつしま」) =4.6 ・・・ (11)
【0064】
そして、決定装置100は、各スコアCT21〜24を比較する。例えば、決定装置100は、第1音声の推定結果WT5「まつしま」と、第2音声の推定結果WT6「やつしま」とのスコアCT21が最も大きいため、第1音声の推定結果WT5及び第2音声の推定結果WT6を音声認識結果として決定する。
【0065】
〔5.変形例〕
上述した決定装置100は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、決定装置100の他の実施形態について説明する。
【0066】
〔5−1.決定装置(1)〕
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、決定装置100は、受付部131と判定部132とで構成される受付装置と、推定部133と算出部134と決定部135と提供部136とで構成される決定装置とに分散させてもよい。
【0067】
〔5−2.決定装置(2)〕
上記実施形態では、決定装置100がユーザによって2回発話された音声に対応する推定結果の組み合わせにおけるスコアに基づいて、音声認識結果を決定する決定処理の一例を説明したが、決定装置100は、これに限定されるものではない。例えば、決定装置100が実行する決定処理は、端末装置10がスタンドアローンで実行してもよい。
【0068】
〔5−3.発話回数〕
上記実施形態では、決定装置100の決定部135がユーザによって2回発話された音声に対応する推定結果の組み合わせ毎のスコアに基づいて、音声認識結果を決定する決定処理の一例を説明したが、発話回数は、これに限定されるものではない。例えば、決定部135は、ユーザによって3回以上発話された音声に対応する推定結果の組み合わせにおけるスコアに基づいて、音声認識結果を決定してもよい。
【0069】
〔5−4.判定処理〕
上記実施形態では、決定装置100の判定部132が第1音声と、第1音声の後に受け付けられた第2音声との類似性に基づいて、第2音声が第1音声に続いて繰り返し発話された音声であるかを判定する判定処理の一例を説明したが、判定部132は、判定処理を行う前に、ユーザによって発話された音声のうち、感嘆詞等と推定される音声波形を除去した音声に基づいて、第2音声が第1音声に続いて繰り返し発話された音声であるかを判定してもよい。例えば、第1音声「WV3」には「あっ」と推定される音声波形が含まれているとする。また、第1音声「WV4」には「えー」と推定される音声波形が含まれているとする。この場合、判定部132は、第1音声に含まれる「あっ」に対応する音声波形を削除し、第2音声に含まれる「えー」に対応する音声波形を削除する。そして、判定部132は、第1音声「WV3」と第2音声「WV4」との類似性に基づいて、第2音声が第1音声に続いて繰り返し発話された音声であるかを判定してもよい。
【0070】
〔5−5.算出処理〕
上記実施形態では、決定装置100の算出部134が推定結果の組み合わせ毎のスコアを算出する算出処理の一例を説明したが、算出部134は、重複度に限らず、単語の内容に基づいて、スコアを算出してもよい。例えば、算出部134は、以下のような式(12)によりスコアSC2を算出する。
【0071】
スコアSC2 = Acc1+Acc2+Con ・・・ (12)
【0072】
上記式(12)では、「Acc1」は、第1音声の推定結果の推定精度を示し、「Acc2」は、第2音声の推定結果の推定精度を示し、「Con」は、第1音声の推定結果と第2音声の推定結果とに含まれる単語の意味に関する情報(以下、意味重複度と記載する)を示す。例えば、「写真アプリケーション×画像アプリケーション」と「演奏アプリケーション×清掃アプリケーション」とにおけるスコアSC2を算出するとする。また、「写真アプリケーション×画像アプリケーション」において、意味解析等により、「写真」と「画像」の意味が一致していることと、「アプリケーション」が一致していることとから、意味重複度が「2.0」と算出されるものとする。この場合、「写真アプリケーション×画像アプリケーション」において、第1音声の推定結果「写真アプリケーション」の推定精度が「0.8」であり、第2音声の推定結果「画像アプリケーション」の推定精度が「0.9」であり、意味重複度が「2.0」であることから、スコアSC2を「3.7」と算出する。また、例えば、「演奏アプリケーション×清掃アプリケーション」において、意味解析等により、「アプリケーション」が一致しているため、意味重複度が「1.0」と算出されるものとする。この場合、算出部134は、「演奏アプリケーション×清掃アプリケーション」において、第1音声の推定結果「演奏アプリケーション」の推定精度が「1.0」であり、第2音声の推定結果「清掃アプリケーション」の推定精度が「1.0」であり、意味重複度が「1.0」であることから、スコアSC2は「3.0」と算出する。
【0073】
〔5−6.決定処理〕
上記実施形態では、決定装置100の決定部135がユーザによって2回発話された音声から推定された推定結果の組み合わせ毎のスコアに基づいて、音声認識結果を決定する決定処理の一例を説明したが、決定部135は、ユーザによって繰り返し発話された音声から推定された正しい推定結果とそれ以外の推定結果とに基づいて生成された学習モデルに基づいて、音声認識結果を決定してもよい。例えば、決定部135は、ユーザによって繰り返し発話された音声から推定された正しい推定結果を正例として学習し、それ以外の推定結果を負例として学習する。そして、決定部135は、ユーザによって繰り返し発話された音声が予測対象の音声として入力された場合に、推定結果に対応するスコアに基づいて、音声認識結果を決定する。
【0074】
図9を用いて、変形例に係る決定装置100が実行する決定処理の一例について説明する。
図9は、変形例に係る決定装置100が実行する決定処理の一例を示す図である。以下、
図9を用いて、決定装置100が実行する決定処理の一例を流れに沿って説明する。
【0075】
まず、
図9に示すように、決定装置100は、ユーザによって繰り返し発話された音声から推定された正しい推定結果と、それ以外の推定結果とに基づいて、学習モデルM1を生成する(ステップS21)。例えば、決定装置100は、ユーザによって繰り返し発話された音声から推定された正しい推定結果を正例として学習し、それ以外の推定結果を負例として学習する。そして、決定装置100は、予測対象の音声が入力された場合に、予測対象の音声に対するスコアを算出する学習モデルM1を生成する。そして、決定装置100は、学習モデルM1に予測対象の音声を入力する(ステップS22)。例えば、決定装置100は、学習モデルM1にユーザによって繰り返し発話された音声を予測対象の音声として入力する。続いて、決定装置100は、学習モデルM1に基づいて、推定結果に対応するスコアを算出する(ステップS23)。例えば、決定装置100は、学習モデルM1にユーザによって繰り返し発話された音声を予測対象の音声として入力し、正例のスコアを1として、負例のスコアを0として、予測対象の音声に対する推定結果に対応するスコアを0から1のスコアとして算出する。そして、決定装置100は、スコアに基づいて、音声認識結果を決定する(ステップS24)。
【0076】
なお、決定装置100は、いかなる学習アルゴリズムを用いて学習モデルM1を生成してもよい。例えば、決定装置100は、ニューラルネットワーク(neural network)、サポートベクターマシン(support vector machine)、クラスタリング、強化学習等の学習アルゴリズムを用いて学習モデルM1を生成する。一例として、決定装置100がニューラルネットワークを用いて学習モデルM1を生成する場合、学習モデルM1は、1以上のニューロンを含む入力層と、1以上のニューロンを含む中間層と、1以上のニューロンを含む出力層とを有する。
【0077】
これにより、実施形態に係る決定装置100の決定部135は、ユーザによって発話された音声の傾向を学習した学習モデルにより、予測対象として入力される繰り返し音声に対応する音声認識結果を高精度に決定することができる。
【0078】
〔6.ハードウェア構成〕
また、上述してきた実施形態に係る端末装置10及び決定装置100は、例えば
図10に示すような構成のコンピュータ1000によって実現される。以下、決定装置100を例に挙げて説明する。
図10は、決定装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
【0079】
CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
【0080】
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、ネットワークNを介して他の機器からデータを受信してCPU1100へ送り、CPU1100がネットワークNを介して生成したデータを他の機器へ送信する。
【0081】
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、入出力インターフェイス1600を介して生成したデータを出力装置へ出力する。
【0082】
メディアインターフェイス1700は、記録媒体1800に格納されたプログラム又はデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile DiSC1)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0083】
例えば、コンピュータ1000が実施形態に係る決定装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。また、HDD1400には、記憶部120内のデータが格納される。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置からネットワークNを介してこれらのプログラムを取得してもよい。
【0084】
〔7.その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0085】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0086】
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0087】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、決定部は、決定手段や決定回路に読み替えることができる。
【0088】
〔8.効果〕
上述してきたように、実施形態に係る決定装置100は、推定部133と、決定部135とを有する。推定部133は、ユーザによって発話された音声に対応する発話内容を推定する。決定部135は、推定部133によって第1音声から推定された第1推定結果(第1音声の推定結果に相当)における推定精度と、第1音声に続いてユーザによって繰り返し発話された第2音声から推定された第2推定結果(第2音声の推定結果に相当)における推定精度とに基づいて、第1音声及び第2音声に対応する音声認識結果を決定する。
【0089】
これにより、実施形態に係る決定装置100は、ユーザによって繰り返し発話された音声の組み合わせ毎に算出されるスコアに基づいて音声認識結果を決定することができるので、音声認識の精度を向上させることができる。
【0090】
また、実施形態に係る決定装置100において、決定部135は、第1推定結果における推定精度と、第2推定結果における推定精度とに基づいて、第1推定結果及び第2推定結果のいずれかを第1音声及び第2音声に対応する音声認識結果として決定する。
【0091】
これにより、実施形態に係る決定装置100は、ユーザによって繰り返し発話された音声の組み合わせにおいて、第1音声の推定結果と第2音声の推定結果とが異なる場合、各推定結果の推定精度に基づいて音声認識結果を決定することができるので、音声認識の精度を向上させることができる。
【0092】
また、実施形態に係る決定装置100において、推定部133は、ユーザによって発話された1の音声に対応する複数の発話内容を推定し、決定部135は、第1音声から推定された複数の第1推定結果におけるそれぞれの推定精度と、第2音声から推定された複数の第2推定結果におけるそれぞれの推定精度とに基づいて、複数の第1推定結果及び複数の第2推定結果のいずれか1つを第1音声及び第2音声に対応する音声認識結果として決定する。
【0093】
これにより、実施形態に係る決定装置100は、ユーザによって繰り返し発話された音声の組み合わせ毎に算出されるスコアに基づいて決定された組み合わせにおいて、第1音声の推定結果と第2音声の推定結果とが異なる場合、各推定結果の推定精度に基づいて音声認識結果を決定することができるので、音声認識の精度を向上させることができる。
【0094】
また、実施形態に係る決定装置100において、第1の推定結果と第2の推定結果との組み合わせ毎に、第1推定結果の推定精度と第2推定結果の推定精度とに基づいてスコアを算出する算出部134をさらに備え、決定部135は、算出部134によって算出されたスコアに基づいて選択される第1推定結果と第2推定結果との組み合わせに含まれる第1推定結果及び第2推定結果のいずれかを第1音声及び第2音声に対応する音声認識結果として決定する。
【0095】
これにより、実施形態に係る決定装置100は、ユーザによって繰り返し発話された音声の組み合わせ毎に算出されるスコアに基づいて音声認識結果を決定することができるので、音声認識の精度を向上させることができる。
【0096】
また、実施形態に係る決定装置100において、算出部134は、第1推定結果と第2推定結果との組み合わせ毎に、第1推定結果と第2推定結果とが重複する度合いに基づいてスコアを算出する。
【0097】
これにより、実施形態に係る決定装置100は、ユーザによって繰り返し発話された同じ内容の音声を音声ごとの重複度に基づいて音声認識結果を決定することができるので、音声認識の精度を向上させることができる。
【0098】
また、実施形態に係る決定装置100において、算出部134は、第1推定結果と第2推定結果との組み合わせ毎に、第1推定結果と第2推定結果とに含まれる類似の意味を有する単語に関する重複する度合いに基づいてスコアを算出する。
【0099】
これにより、実施形態に係る決定装置100は、ユーザによって複数回発話された同じ内容の音声を音声内に使用される単語の意味に関する類似性に基づいて音声認識結果を決定することができるので、音声認識の精度を向上させることができる。
【0100】
また、実施形態に係る決定装置100において、ユーザによって発話された音声を受け付ける受付部131と、受付部131によって受け付けられた第1音声と、受付部131によって第1音声の後に受け付けられた第2音声との類似性に基づいて、第2音声が第1音声に続いて繰り返し発話された音声であるかを判定する判定部132とをさらに備え、決定部135は、判定部132によって第2音声が第1音声に続いて繰り返し発話された音声であると判定された場合に、第1音声及び第2音声に対応する音声認識結果を決定する。
【0101】
これにより、実施形態に係る決定装置100は、複数の音声がユーザによって複数回発話されたか否かを精密に判定することができるため、ユーザの負担が最小限に抑えられた状態で音声認識を行うことができる。
【0102】
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。