(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-20
(45)【発行日】2023-12-28
(54)【発明の名称】情報処理装置、情報処理方法およびプログラム
(51)【国際特許分類】
G10L 15/06 20130101AFI20231221BHJP
G10L 15/00 20130101ALI20231221BHJP
【FI】
G10L15/06 300J
G10L15/00 200A
(21)【出願番号】P 2019056140
(22)【出願日】2019-03-25
【審査請求日】2022-02-07
(73)【特許権者】
【識別番号】000102728
【氏名又は名称】株式会社NTTデータグループ
(74)【代理人】
【識別番号】100095407
【氏名又は名称】木村 満
(74)【代理人】
【識別番号】100132883
【氏名又は名称】森川 泰司
(74)【代理人】
【識別番号】100166442
【氏名又は名称】鈴木 洋雅
(74)【代理人】
【識別番号】100174067
【氏名又は名称】湯浅 夏樹
(74)【代理人】
【識別番号】100208410
【氏名又は名称】岩瀬 寛司
(72)【発明者】
【氏名】石浦 大樹
(72)【発明者】
【氏名】武田 光平
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開2018-132626(JP,A)
【文献】特開昭63-186298(JP,A)
【文献】特開2015-215390(JP,A)
【文献】特開2003-295893(JP,A)
【文献】特開2000-250591(JP,A)
【文献】特開2011-107251(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
(57)【特許請求の範囲】
【請求項1】
第1の辞書に基づく第1音声認識結果と、前記第1の辞書とは異なる
、ユーザにより生成された単語情報を含む第2の辞書に基づく第2音声認識結果と、を受信する音声認識結果受信手段と、
予め定められた演算に基づいて算出された前記第1音声認識結果についての第1確信度と、前記演算に基づいて算出された前記第2音声認識結果についての第2確信度と、を受信する確信度受信手段と、
前記第1確信度と前記第2確信度とを比較した結果、確信度の差異が予め定められた値よりも大きい場合、前記第2音声認識結果に含まれる単語情報を、前記第1の辞書の更新用リストとして記憶する単語情報記憶手段と
、
前記単語情報記憶手段で記憶した前記更新用リストに含まれる単語情報を、前記第1の辞書へ追加する旨の更新指示を送信する送信手段と、
を備えることを特徴とする情報処理装置。
【請求項2】
前記確信度の差異が大きい場合、前記第2音声認識結果から記憶対象となる単語情報を、予め定められた基準に従って抽出する抽出手段をさらに備え、
前記単語情報記憶手段は、前記抽出手段により抽出された単語情報を記憶する、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記抽出手段により抽出された単語情報を、出現頻度毎に予め定められた複数分類のいずれかに分類する分類手段をさらに備え、
前記単語情報記憶手段は、前記分類手段により分類された単語情報を該分類毎に記憶する、
ことを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記単語情報には音声情報および文字情報が含まれ、
前記単語情報記憶手段により前記更新用リストとして記憶された単語情報を前記第1の辞書に追加することで前記第1の辞書を更新する第1辞書更新手段、をさらに備え、
前記第2の辞書は、前記第1の辞書が更新される毎に前記ユーザの操作により新たに記憶される、
ことを特徴とする請求項1~3のいずれか1項に記載の情報処理装置。
【請求項5】
第1の辞書に基づく第1音声認識結果と、前記第1の辞書とは異なる
、ユーザにより生成された単語情報を含む第2の辞書に基づく第2音声認識結果と、を受信する音声認識結果受信ステップと、
予め定められた演算に基づいて算出された前記第1音声認識結果についての第1確信度と、前記演算に基づいて算出された前記第2音声認識結果についての第2確信度と、を受信する確信度受信ステップと、
前記第1確信度と前記第2確信度とを比較した結果、確信度の差異が予め定められた値よりも大きい場合、前記第2音声認識結果に含まれる単語情報を、前記第1の辞書の更新用リストとして記憶する単語情報記憶ステップと
、
前記単語情報記憶ステップで記憶した前記更新用リストに含まれる単語情報を、前記第1の辞書へ追加する旨の更新指示を送信する送信ステップと、
を備えることを特徴とする情報処理方法。
【請求項6】
コンピュータを、
第1の辞書に基づく第1音声認識結果と、前記第1の辞書とは異なる
、ユーザにより生成された単語情報を含む第2の辞書に基づく第2音声認識結果と、を受信する音声認識結果受信手段、
予め定められた演算に基づいて算出された前記第1音声認識結果についての第1確信度と、前記演算に基づいて算出された前記第2音声認識結果についての第2確信度と、を受信する確信度受信手段、
前記第1確信度と前記第2確信度とを比較した結果、確信度の差異が予め定められた値よりも大きい場合、前記第2音声認識結果に含まれる単語情報を、前記第1の辞書の更新用リストとして記憶する単語情報記憶手段
、
前記単語情報記憶手段で記憶した前記更新用リストに含まれる単語情報を、前記第1の辞書へ追加する旨の更新指示を送信する送信手段、
として機能させる、
ことを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法およびプログラムに関する。
【背景技術】
【0002】
不特定者を対象とした音声認識装置では、汎用的かつ一般的な語彙を中心とした音声認識用の辞書が予め登録されており、当該音声認識装置は、登録されている音声認識用の辞書に基づいて音声を認識する。このような音声認識装置において、認識対象の語彙が設計時において規定可能な場合には、事前に作成した音声認識用辞書を用いるが、語彙が規定できない場合、あるいは動的に変更されるべきである場合においては、一般的に、人的作業による入力、または自動的に文字列情報から音声認識用の語彙を生成して辞書に登録する、などといったことが行われる。
【0003】
また、近年の音声認識装置では、例えば、省略語などの言い換え表現についても音声認識用の辞書に登録することによって、正式な単語の発声だけでなく、ユーザによる任意の省略的な発声にも対処している。
【0004】
例えば特許文献1には、単語の省略的な言い換え表現に対しても高い認識率で認識することが可能な音声認識装置が開示されている。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1に開示されている音声認識装置では、例えば、企業特有の社内用語や今回の会議や講演会で登場するような特殊用語といった、汎用的かつ一般的ではない新規な単語(特殊用語)を音声認識用の辞書に登録する場合には、人的作業による入力が必要となり、登録すべき単語の選別や入力など、人的作業負担が大きかった。そのため、音声認識用の辞書を好適に生成するという観点からすると未だ十分でなかった。
【0007】
本発明は、上述のような事情に鑑みてなされたものであり、音声認識用の辞書を好適に生成することができる情報処理装置、情報処理方法およびプログラムを提供することを目的としている。
【課題を解決するための手段】
【0008】
上記目的を達成するため、本発明の第1の観点に係る情報処理装置は、
第1の辞書に基づく第1音声認識結果と、前記第1の辞書とは異なる、ユーザにより生成された単語情報を含む第2の辞書に基づく第2音声認識結果と、を受信する音声認識結果受信手段と、
予め定められた演算に基づいて算出された前記第1音声認識結果についての第1確信度と、前記演算に基づいて算出された前記第2音声認識結果についての第2確信度と、を受信する確信度受信手段と、
前記第1確信度と前記第2確信度とを比較した結果、確信度の差異が予め定められた値よりも大きい場合、前記第2音声認識結果に含まれる単語情報を、前記第1の辞書の更新用リストとして記憶する単語情報記憶手段と、
前記単語情報記憶手段で記憶した前記更新用リストに含まれる単語情報を、前記第1の辞書へ追加する旨の更新指示を送信する送信手段と、
を備えることを特徴とする。
【0009】
前記確信度の差異が大きい場合、前記第2音声認識結果から記憶対象となる単語情報を、予め定められた基準に従って抽出する抽出手段をさらに備え、
前記単語情報記憶手段は、前記抽出手段により抽出された単語情報を記憶する、
ようにしてもよい。
【0010】
前記抽出手段により抽出された単語情報を、出現頻度毎に予め定められた複数分類のいずれかに分類する分類手段をさらに備え、
前記単語情報記憶手段は、前記分類手段により分類された単語情報を該分類毎に記憶する、
ようにしてもよい。
【0011】
前記単語情報には音声情報および文字情報が含まれ、
前記単語情報記憶手段により前記更新用リストとして記憶された単語情報を前記第1の辞書に追加することで前記第1の辞書を更新する第1辞書更新手段、をさらに備え、
前記第2の辞書は、前記第1の辞書が更新される毎に前記ユーザの操作により新たに記憶される、
ようにしてもよい。
【0012】
上記目的を達成するため、本発明の第2の観点に係る情報処理方法は、
第1の辞書に基づく第1音声認識結果と、前記第1の辞書とは異なる、ユーザにより生成された単語情報を含む第2の辞書に基づく第2音声認識結果と、を受信する音声認識結果受信ステップと、
予め定められた演算に基づいて算出された前記第1音声認識結果についての第1確信度と、前記演算に基づいて算出された前記第2音声認識結果についての第2確信度と、を受信する確信度受信ステップと、
前記第1確信度と前記第2確信度とを比較した結果、確信度の差異が予め定められた値よりも大きい場合、前記第2音声認識結果に含まれる単語情報を、前記第1の辞書の更新用リストとして記憶する単語情報記憶ステップと、
前記単語情報記憶ステップで記憶した前記更新用リストに含まれる単語情報を、前記第1の辞書へ追加する旨の更新指示を送信する送信ステップと、
を備えることを特徴とする。
【0013】
上記目的を達成するため、本発明の第3の観点に係るプログラムは、
コンピュータを、
第1の辞書に基づく第1音声認識結果と、前記第1の辞書とは異なる、ユーザにより生成された単語情報を含む第2の辞書に基づく第2音声認識結果と、を受信する音声認識結果受信手段、
予め定められた演算に基づいて算出された前記第1音声認識結果についての第1確信度と、前記演算に基づいて算出された前記第2音声認識結果についての第2確信度と、を受信する確信度受信手段、
前記第1確信度と前記第2確信度とを比較した結果、確信度の差異が予め定められた値よりも大きい場合、前記第2音声認識結果に含まれる単語情報を、前記第1の辞書の更新用リストとして記憶する単語情報記憶手段、
前記単語情報記憶手段で記憶した前記更新用リストに含まれる単語情報を、前記第1の辞書へ追加する旨の更新指示を送信する送信手段、
として機能させることを特徴とする。
【発明の効果】
【0014】
本発明によれば、音声認識用の辞書を好適に生成することができる。
【図面の簡単な説明】
【0015】
【
図1】本発明の実施の形態に係る情報処理システムの一例を示すブロック図である。
【
図2】本発明の実施の形態に係る情報処理装置の一例を示すブロック図である。
【
図3】本発明の実施の形態に係る音声認識サーバの一例を示すブロック図である。
【
図4】情報処理システムの全体的な処理を説明するための説明図である。
【
図5】用語登録処理の一例を示すフローチャートである。
【
図7】音声認識結果の形態素と品詞の一例を示す図である。
【発明を実施するための形態】
【0016】
本発明における情報処理装置100を、
図1に示す情報処理システム1に適用した例を用いて説明する。情報処理システム1では、
図1に示すように、情報処理装置100Aおよび100Bと、音声認識サーバ200とがネットワーク510を介して通信可能に接続されている。なお、理解を容易にするため、この実施の形態では、情報処理装置100Aのユーザと情報処理装置100Bのユーザとが互いに会話を行う場合を例に、以下説明する。なお、情報処理装置100Aおよび情報処理装置100Bは、単に情報処理装置100とも言う。
【0017】
情報処理装置100は、携帯電話やスマートフォン、タブレットやPC(Personal Computer)等の情報端末(所謂コンピュータ)であり、P2P(Peer to Peer)等の分散型のネットワーク510を構築している。なお、情報処理システム1は、P2P型のシステムに限られず、例えばクラウドコンピューティング型であってもよい。
【0018】
情報処理装置100は、音声認識サーバ200から受信した、他の情報処理装置100のユーザの会話の音声データおよびテキストデータ(音声認識結果)を出力する機能を有している。また、情報処理装置100は、音声認識サーバ200から受信した確信度に基づいて、登録対象となる単語情報を音声認識結果から抽出し、音声認識用の辞書へ登録する機能を有している。
【0019】
音声認識サーバ200は、例えばメインフレームやワークステーション、あるいはPC(Personal Computer)等の任意のコンピュータ装置である。音声認識サーバ200は、情報処理装置100から送信された音声(会話の内容)を、予め記憶された音声認識用の辞書に基づいて認識し、認識した音声データをテキストデータとともに(音声認識結果として)他の情報処理装置100へ送信する機能を有している。また、音声認識サーバ200は、音声認識結果として得られる語彙が実際に発話された語彙と一致している確率を示す確信度を算出し、他の情報処理装置100へ送信する機能も有している。
【0020】
次に、
図2を参照し、この実施の形態における情報処理装置100(
図1に示す情報処理装置100Aおよび情報処理装置100B)の構成について説明する。なお、図示は省略しているが、ユーザの会話(音声)を送信用の音声データとして(アナログからデジタルへ)変換する機能(およびその逆の機能)を有する機能部が設けられているものとする。
【0021】
図2に示すように、情報処理装置100は、記憶部110と、制御部120と、入出力部130と、通信部140と、これらを相互に接続するシステムバス(図示省略)と、を備えている。
【0022】
記憶部110は、ROM(Read Only Memory)やRAM(Random Access Memory)等を備える。ROMは制御部120のCPU(Central Processing Unit)が実行するプログラム及び、プログラムを実行する上で予め必要なデータを記憶する(図示省略)。
【0023】
具体的に、この実施の形態における記憶部110は、登録用語一覧111として、音声認識用の辞書として登録すべき単語の音声データとそのテキストデータを記憶する。なお、音声データと当該音声データに対応するテキストデータを、合わせて単語情報とも言う。なお、登録用語一覧111は、登録対象の単語情報の一覧を示すものであり、複数の単語情報が含まれる。当該登録用語一覧111の単語情報は、後述する用語登録処理により、分類毎に記憶部110へ記憶される。また、記憶部110には、登録分類112として、ユーザによる指定に基づいて分類される登録分類の一覧と、その分類基準が記憶されている。登録分類としては、例えば、「普遍的に使用される社内用語」といった分類や、「特定の組織内で使用される組織内用語」などの分類が、ユーザによる指定に基づいて登録されている。分類基準としては、例えば、会話中における当該登録対象の単語情報の出現頻度を記憶しておき、5回以上出現している単語情報については「普遍的に使用される社内用語」と分類し、5回未満であれば「特定の組織内で使用される組織内用語」に分類するなど、ユーザによって任意に設定可能であればよい。
【0024】
制御部120は、CPUやASIC(Application Specific Integrated Circuit)等から構成される。制御部120は、記憶部110に記憶されたプログラムに従って動作し、当該プログラムに従った処理を実行する。制御部120は、記憶部110に記憶されたプログラムにより提供される主要な機能部として、確信度比較部121と、形態素抽出部122と、品詞推定部123と、用語分類部124と、用語登録部125と、を備える。
【0025】
確信度比較部121は、音声認識サーバ200から送信された確信度を比較する機能部である。詳しくは後述するが、音声認識サーバ200からは、第1登録用語一覧211を音声認識用の辞書(第1の辞書)として用いた場合の音声認識結果(後述する第1登録用語一覧211に基づくテキストデータとその音声データ)とその確信度A(第1確信度)と、第2登録用語一覧212を音声認識用の辞書(第2の辞書)として用いた場合の音声認識結果(後述する第2登録用語一覧212に基づくテキストデータとその音声データ)とその確信度B(第2確信度)と、が送信される。確信度比較部121は、当該確信度Aと確信度Bとを比較する。具体的に、確信度比較部121は、確信度Bから確信度Aを減算した値が、予め定められた閾値以上であるか否かを判定することにより、確信度を比較する。閾値は、例えば、会議の内容や使用する言語などに応じて異なる値がユーザにより設定されていればよい。
【0026】
形態素抽出部122は、例えば、第1登録用語一覧211を音声認識用の辞書として用いた場合の音声認識結果(第1音声認識結果)と、第2登録用語一覧212を音声認識用の辞書として用いた場合の音声認識結果(第2音声認識結果)と、のそれぞれを、形態素解析などにより形態素毎に分割し、異なる形態素を抽出する機能部である。具体的に、形態素抽出部122は、形態素毎に分割した第2音声認識結果から、形態素毎に分割した第1音声認識結果との共通部分の形態素を差し引くことで、異なる形態素を抽出する。
【0027】
品詞推定部123は、第1音声認識結果と第2音声認識結果とのそれぞれの形態素の品詞を比較することで、異なる品詞の形態素を抽出する機能部である。具体的に、品詞推定部123は、第1音声認識結果の形態素と第2音声認識結果の形態素を比較し、第2音声認識結果の形態素の品詞が名詞であるものの、第1音声認識結果の形態素が名詞以外である形態素を抽出する。すなわち、形態素抽出部122は、第2音声認識結果から、第1音声認識結果と異なる単語の形態素(異なる文字列)を抽出するのに対し、品詞推定部123は、第2音声認識結果から、第1音声認識結果と異なる品詞の形態素を抽出する。換言すると、形態素抽出部122は、文字列の観点から形態素を抽出する機能部であり、品詞推定部123は、品詞の観点から形態素を抽出する機能部であると言える。なお、「普遍的に使用される社内用語」や「特定の組織内で使用される組織内用語」などといった特殊用語は、通常名詞であることが多い。そのため、この実施の形態における品詞推定部123は、第2音声認識結果の形態素の品詞が名詞であるものの、第1音声認識結果の形態素が名詞以外である形態素を抽出する。これとは異なり、単に異なる品詞の形態素を入出力部130に出力し、ユーザにより抽出するか否かを選択させるようにしてもよい。
【0028】
用語分類部124は、形態素抽出部122の機能により抽出した形態素と、品詞推定部123の機能により抽出した形態素と、が一致しているか否かを判定し、一致した場合に登録対象として認定し、当該認定した登録対象の形態素の単語情報を、登録分類112に基づく分類に基づいて分類する機能部である。具体的に、用語分類部124は、抽出したそれぞれの形態素が一致する場合、登録対象となる単語情報の出現頻度に基づいて、登録分類112として設定されている分類基準に従い、登録されているいずれかの分類に分類する。
【0029】
用語登録部125は、用語分類部124で分類された単語情報を、当該分類毎に登録用語一覧111へ登録する機能部である。また、用語登録部125は、登録用語一覧111へ登録された単語情報の内容に基づいて、第1登録用語一覧211の内容を更新させる更新指示を音声認識サーバ200へ送信する機能も有している。なお、用語登録部125は、単語情報登録手段としての機能である。
【0030】
これら各機能部が協働して、情報処理装置100において、登録対象となる単語情報を音声認識用の辞書へ登録する機能を実現している。
【0031】
入出力部130は、キーボード、マウス、カメラ、マイク、液晶ディスプレイ、有機EL(Electro-Luminescence)ディスプレイ等から構成され、データの入出力を行うための装置である。
【0032】
通信部140は、他の情報処理装置100や音声認識サーバ200とネットワーク510を介して通信を行うためのデバイスである。
【0033】
以上が、情報処理装置100の構成である。次に、
図3を参照し、この実施の形態における音声認識サーバ200の構成について説明する。
図3に示すように、音声認識サーバ200は、記憶部210と、制御部220と、入出力部230と、通信部240と、これらを相互に接続するシステムバス(図示省略)と、を備えている。
【0034】
記憶部210は、ROMやRAM等を備える。ROMは制御部220のCPUが実行するプログラム及び、プログラムを実行する上で予め必要なデータを記憶する(図示省略)。
【0035】
具体的に、この実施の形態における記憶部210は、音声認識用の辞書として、第1登録用語一覧211と、第2登録用語一覧212とを記憶する。第1登録用語一覧211は、単語情報の一覧であり、後述する用語登録処理が実行される度に、登録されている単語情報が更新される。なお、初期の第1登録用語一覧211は、汎用的かつ一般的な語彙を中心とした単語情報の一覧であればよく、例えば、ユーザにより生成されてもよいし、ネットワーク上に公開されているものをダウンロードすることで取得してもよい。
【0036】
一方、第2登録用語一覧212は、第1登録用語一覧211よりも、例えば「普遍的に使用される社内用語」や「特定の組織内で使用される組織内用語」などといった特殊用語の単語情報を多く含むよう、ユーザにより生成された単語情報の一覧である。なお、第2登録用語一覧212は、例えば、予定されている会議の資料や講演会の資料に基づいて、当該会議や講演会毎にユーザにより生成されればよい。この実施の形態における情報処理装置100では、例えば会議毎に(換言すると第1登録用語一覧211が更新される毎に)第2登録用語一覧212が新規に記憶されて、後述する用語登録処理が行われる。当該用語登録処理では、第2登録用語一覧212と第1登録用語一覧211との比較により、対象となる単語情報が登録される。したがって、「普遍的に使用される社内用語」などの特殊用語を音声認識用の辞書に好適に登録することができるとともに、繰り返し実行することで、当該音声認識用の辞書を更新することが可能となる。
【0037】
制御部220は、CPUやASIC等から構成される。制御部120は、記憶部110に記憶されたプログラムに従って動作し、当該プログラムに従った処理を実行する。制御部220は、記憶部210に記憶されたプログラムにより提供される主要な機能部として、音声認識処理部221と、確信度算出部222と、を備える。
【0038】
音声認識処理部221は、例えば、情報処理装置100から受信した音声データについて、第1登録用語一覧211に基づくテキストデータと、第2登録用語一覧212に基づくテキストデータと、のそれぞれに変換する機能部である。なお、音声データからテキストデータへの変換は、第1登録用語一覧211および第2登録用語一覧212に基づいて、従来から用いられている音声認識技術により行われればよい。なお、音声認識処理部221は、変換したそれぞれのテキストデータを、音声データとともに他の情報処理装置100へと送信する機能も有している。
【0039】
確信度算出部222は、音声認識処理部221にて変換されたテキストデータに対応する確信度を算出する機能部である。具体的に、確信度算出部222は、第1登録用語一覧211に基づくテキストデータの確信度Aと、第2登録用語一覧212に基づくテキストデータの確信度Bと、をそれぞれ算出する。確信度は、例えば、第1登録用語一覧211や第2登録用語一覧212に登録されている単語情報の音声特徴量(波形や周期等)と、受信した音声データによる音声特徴量の類似度に基づいて算出(予め定められた演算に基づいて算出)されればよい。なお、確信度算出部222は、算出したそれぞれの確信度を他の情報処理装置100へと送信する機能も有している。
【0040】
これらの機能部が協働して、音声認識サーバ200において、情報処理装置100から受信した音声データをテキストデータにそれぞれ変換し(音声認識し)、当該音声データとともに音声認識結果として他の情報処理装置100へと送信する機能を実現している。また、確信度を他の情報処理装置100へと送信する機能を実現している。
【0041】
入出力部230は、キーボード、マウス、カメラ、マイク、液晶ディスプレイ、有機ELディスプレイ等から構成され、データの入出力を行うための装置である。
【0042】
通信部240は、情報処理装置100とネットワーク510を介して通信を行うためのデバイスである。
【0043】
以上が、音声認識サーバ200の構成である。続いて情報処理装置100の動作などについて、
図4~
図7を参照して説明する。まず、情報処理システム1の動作として、全体的な処理の流れについて、
図4を参照して説明する。なお、図示する例では、情報処理装置100Bのユーザが情報処理装置100Aのユーザに対して例文1の内容の発言した場合を例に、以下説明する。
【0044】
図4に示すように、情報処理装置100Bのユーザが入出力部130に例文1の音声を入力すると、制御部120の機能により音声データに変換され、当該音声データが音声認識サーバ200へ送信される(
図4の(1))。なお、図示する例では、理解を容易にするため、情報処理装置100Bから音声認識サーバ200へ当該音声データが送信される例を示しているが、例えば、情報処理装置100Bから情報処理装置100Aへと音声データが送信され、当該情報処理装置100Aにて抽出した特定の音声データが音声認識サーバ200へ送信されるようにしてもよい。
【0045】
音声認識サーバ200は、情報処理装置100Bから音声データを受信すると、音声認識処理部221の機能により、第1登録用語一覧211に基づいて音声認識を行い(テキストデータへ変換し)、音声データとテキストデータを、第1音声認識結果として情報処理装置100Aへ送信する(
図4の(2))。また、音声認識サーバ200は、確信度算出部222の機能により、第1登録用語一覧211に基づく音声認識の確信度Aを算出し、情報処理装置100Aへ送信する(
図4の(3))。
【0046】
また、音声認識サーバ200は、音声認識処理部221の機能により、第2登録用語一覧212に基づいて音声認識を行い(テキストデータへ変換し)、音声データとテキストデータを、第2音声認識結果として情報処理装置100Aへ送信する(
図4の(4))。また、音声認識サーバ200は、確信度算出部222の機能により、第2登録用語一覧212に基づく音声認識の確信度Bを算出し、情報処理装置100Aへ送信する(
図4の(5))。なお、
図4の(2)~(5)は、まとめて行われてもよい。
【0047】
情報処理装置100Aの側では、音声認識サーバ200から受信した、第2登録用語一覧212に基づく音声データとテキストデータを、入出力部130から出力する(
図6(B)に示す内容が出力される)。また、情報処理装置100Aは、音声認識サーバ200から第1音声認識結果と第2音声認識結果(確信度Aおよび確信度Bも含む)を受信すると(音声認識結果受信手段および確信度受信手段に相当)、登録対象となる特殊用語を当該音声認識用の辞書に登録するための用語登録処理を行う。すなわち、情報処理装置100Aは、情報処理装置100Bのユーザの発言に含まれる特殊用語を音声認識用の辞書に登録するための処理を行う。なお、以下では、
図6(A)に示す内容の音声データおよびテキストデータを第1音声認識結果として受信し、
図6(B)に示す内容の音声データおよびテキストデータを第2音声認識結果として受信し、当該第2音声認識結果の「NTT」を、特殊用語として登録する場合について説明する(確信度についても図示する値であるとする)。
【0048】
図5は、用語登録処理の一例を示すフローチャートである。用語登録処理において、情報処理装置100Aは、確信度比較部121の機能により、確信度Bから確信度Aを減算した値が、予め定められた閾値以上であるか否か(予め定められた条件を満たすか否か)を判定する(ステップS101)。閾値未満である場合、情報処理装置100Aは、登録すべき対象が存在しないものとして、そのまま用語登録処理を終了する。具体的に、ステップS101の処理では、
図6(B)に示す確信度0.89から
図6(A)に示す確信度0.16を減算し、閾値以上であるか否かを判定する。なお、この例における閾値は、0.5として予めユーザにより設定されているものとする。
【0049】
閾値以上である場合(ステップS101;Yes)、情報処理装置100Aは、形態素抽出部122の機能により、音声認識サーバ200から受信した第1音声認識結果と第2音声認識結果のそれぞれを形態素毎に分割し、異なる形態素を第2音声認識結果から抽出する(ステップS102)。なお、ステップS102では、第1音声認識結果のうちのテキストデータを形態素毎に分割し、異なる形態素を抽出した上で、当該形態素に対応する部分の音声データを抽出してもよい。また、第1音声認識結果のうちのテキストデータと音声データの両方を形態素毎に分割し、それぞれについて異なる形態素を抽出してもよい。具体的に、ステップS102では、
図6(A)および
図7(A)に示す「Venditti」と
図6(B)および
図7(B)に示す「NTT」の形態素が異なるため、
図6(B)および
図7(B)に示す「NTT」の形態素を抽出する。なお、
図6(A)および
図7(A)に示す「Venditti」はこの実施の形態にて理解を容易にするために用いた造語であり、品詞が形容詞であるものとする。また、以下では、当該「NTT」の出現頻度が5回であり、今回の例文1にて6回の出現頻度となったものとする。
【0050】
ステップS102の処理を実行した後、情報処理装置100Aは、品詞推定部123の機能により、第1音声認識結果の形態素と第2音声認識結果の形態素を比較し、第2音声認識結果の形態素の品詞が名詞であるものの、第1音声認識結果の形態素が名詞以外である形態素を抽出する(ステップS103)。なお、上述したように、ステップS103では、単に異なる品詞の形態素を入出力部130に出力し、ユーザにより抽出するか否かを選択させるようにしてもよい。具体的に、ステップS103の処理では、
図7(A)に示す「Venditti」の品詞が「形容詞」であり、
図7(B)に示す「NTT」の品詞が「名詞」であることから、
図7(B)に示す「NTT」の形態素を抽出する。また、この実施の形態では、
図7に示すように「of」といった前置詞については、音声認識用の辞書への登録といった観点からすると不要な品詞であることから、比較対象外としている。
【0051】
ステップS103の処理を実行した後、情報処理装置100Aは、用語分類部124の機能により、ステップS102で抽出した形態素とステップS103で抽出した形態素とが一致するか否かを判定する(ステップS104)。一致していない場合(ステップS104;No)、用語登録処理を終了する。なお、一致していない場合、ステップS102で抽出した形態素とステップS103で抽出した形態素のそれぞれに対応する単語情報ついて、登録用語一覧111へ登録するか否かをユーザに選択させ、いずれも登録しない場合に当該用語登録処理を終了し、少なくともいずれかを登録する場合には、ステップS105の処理に移行すればよい。なお、この実施の形態では、ステップS102の処理およびステップS103の処理で抽出した形態素同士が一致するか否かを判定したが、ステップS102の処理のみ、またはステップS103の処理のみ行い、ステップS105の処理に移行してもよい。さらに、ステップS102~ステップS104の処理を実行せず、ステップS101にてYesと判定した場合には、ステップS105の処理へ移行してもよい。この場合、例えば、形態素毎の確信度が音声認識サーバ200から送信されればよい。
【0052】
一致していると判定した場合(ステップS104;Yes)、情報処理装置100Aは、用語分類部124の機能により、抽出した形態素に対応する単語情報を登録対象として認定し、認定した登録対象の形態素の単語情報を、登録分類112に基づく分類に基づいて分類する(ステップS105)。具体的に、ステップS105の処理では、「NTT」の単語情報の出現頻度が6回であることから、当該「NTT」は「普遍的に使用される社内用語」の分類に分類する。なお、「普遍的に使用される社内用語」には、例えば、複数のプロジェクトにおいて共通して使用される用語が含まれる。
【0053】
ステップS105の処理を実行した後、情報処理装置100Aは、用語登録部125の機能により、ステップS104の処理にて分類された単語情報としての音声データおよびテキストデータを、当該分類に従い登録用語一覧111へ登録する(ステップS106)。具体的に、ステップS106の処理では、「普遍的に使用される社内用語」の分類に分類された「NTT」の音声データおよびテキストデータを、それぞれ対応付けて、登録用語一覧111における「普遍的に使用される社内用語」の分類として登録する。
【0054】
ステップS106の処理を実行した後、情報処理装置100Aは、用語登録部125の機能により、登録用語一覧111へ登録された単語情報の内容に基づいて、第1登録用語一覧211の内容を更新させる更新指示を音声認識サーバ200へ送信し(ステップS107)、用語登録処理を終了する。具体的に、ステップS107の処理では、登録用語一覧111における「普遍的に使用される社内用語」の分類として登録した「NTT」の音声データおよびテキストデータを、更新指示とともに音声認識サーバ200へ送信し、音声認識サーバ200に記憶されている第1登録用語一覧211に、当該「NTT」の音声データおよびテキストデータを追加登録させる。これにより、第1登録用語一覧211の内容が更新されることとなる。
【0055】
図4に戻り、音声認識サーバ200の側では、情報処理装置100Aから更新指示を受信したことに基づいて、第1登録用語一覧211の内容を更新する。なお、図示は省略しているが、この後に、情報処理装置100Aのユーザが情報処理装置100Bのユーザに対して発言した場合には、情報処理装置100Aの制御部120の機能により音声データに変換され、当該音声データが音声認識サーバ200へ送信される。そして情報処理装置100Bの側において用語登録処理が行われ、音声認識サーバ200における第1登録用語一覧211の内容が更新される。このような処理が、当該会議や講演会などの会話が終了するまで繰り返し実行されることとなる。このように、会話毎に用語登録処理が行われて第1登録用語一覧211の内容が更新されるため、リアルタイムで音声認識用の辞書が更新されることとなり、音声認識用の辞書を好適に生成することができる。なお、この実施の形態では、2者間での会話を例としたが、3者以上でも同様である。また、このようにして生成された辞書は、公知の日本語入力ソフトにおける辞書にも活用可能である。
【0056】
(変形例)
なお、この発明は、上記実施の形態に限定されず、様々な変形及び応用が可能である。例えば、情報処理装置100では、上記実施の形態で示した全ての技術的特徴を備えるものでなくてもよく、従来技術における少なくとも1つの課題を解決できるように、上記実施の形態で説明した一部の構成を備えたものであってもよい。また、下記の変形例それぞれについて、少なくとも一部を組み合わせてもよい。
【0057】
上記実施の形態では、
図5のステップS107の処理が用語登録処理の中で実行される例を示したが、例えば、会議の終了や講演会の終了などといった一連の会話が終了したタイミングで一度行われるようにしてもよい。例えば、会話が終了したタイミングでユーザによる入出力部130への操作が行われることで
図5に示すステップS107の処理が実行されるようにしてもよい。また、例えば、「終了」など、予め定められた特定の音声(複数設定されていてよい)を受信した場合に、会話の終了と判定して
図5のステップS107の処理を実行するようにしてもよい。また、これとは異なり、ユーザにより設定された数の単語情報が登録用語一覧111へ登録される毎に
図5のステップS107の処理が実行されるようにしてもよい。これらによれば、第1登録用語一覧211の更新処理に対する負荷を軽減することができる。
【0058】
また、例えば「PoC」という単語について、「ピーオーシー」と読むユーザや「ポック」と読むユーザなど、一の単語について、ユーザ毎に読み方が異なるような場合がある。このような単語について、第2登録用語一覧212として、一のテキストデータに対応して複数の音声データを予め登録しておき、
図5のステップS106では、一のテキストデータに対応して複数の音声データを登録用語一覧111へ登録すればよい。そして、ステップS107の処理では、当該内容にて第1登録用語一覧211を更新させる指示を行えばよい。これによれば、一の単語について、ユーザ毎に読み方が異なるような場合についても、音声認識用の辞書を好適に生成することができる。
【0059】
また、上記実施の形態における音声認識サーバ200の構成を、情報処理装置100が備えていてもよい。この場合、
図5のステップS107において、自身の記憶部110に記憶された第1登録用語一覧211を更新し、他の情報処理装置100に記憶された第1登録用語一覧211と同期をとるようにすればよい。
【0060】
なお、上述の機能を、OS(Operating System)とアプリケーションとの分担、またはOSとアプリケーションとの協同により実現する場合等には、OS以外の部分のみを媒体に格納してもよい。
【0061】
また、搬送波にプログラムを重畳し、通信ネットワークを介して配信することも可能である。例えば、通信ネットワーク上の掲示板(BBS、Bulletin Board System)に当該プログラムを掲示し、ネットワークを介して当該プログラムを配信してもよい。そして、これらのプログラムを起動し、オペレーティングシステムの制御下で、他のアプリケーションプログラムと同様に実行することにより、上述の処理を実行できるように構成してもよい。
【符号の説明】
【0062】
1 情報処理システム、100、100A、100B 情報処理装置、110、210 記憶部、111 登録用語一覧、112 登録分類、120、220 制御部、121 確信度比較部、122 形態素抽出部、123 品詞推定部、124 用語分類部、125 用語登録部、130、230 入出力部、140、240 通信部、200 音声認識サーバ、211 第1登録用語一覧、212 第2登録用語一覧、221 音声認識処理部、222 確信度算出部、510 ネットワーク