(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-06-28
(45)【発行日】2022-07-06
(54)【発明の名称】音声認識支援装置、音声認識支援方法及び音声認識支援プログラム
(51)【国際特許分類】
G10L 15/22 20060101AFI20220629BHJP
G10L 15/32 20130101ALI20220629BHJP
【FI】
G10L15/22 470Z
G10L15/22 470F
G10L15/32 200A
(21)【出願番号】P 2019043691
(22)【出願日】2019-03-11
【審査請求日】2020-12-15
(73)【特許権者】
【識別番号】000153443
【氏名又は名称】株式会社 日立産業制御ソリューションズ
(74)【代理人】
【識別番号】110001807
【氏名又は名称】特許業務法人磯野国際特許商標事務所
(72)【発明者】
【氏名】和久井 一則
(72)【発明者】
【氏名】三沢 博章
(72)【発明者】
【氏名】古川 博基
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開2012-063545(JP,A)
【文献】特開2003-280678(JP,A)
【文献】特開2011-002656(JP,A)
【文献】特開2003-316386(JP,A)
【文献】国際公開第2007/080886(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
(57)【特許請求の範囲】
【請求項1】
元音声を取得する音声取得部と、
前記元音声の波形からある周波数成分を削除する第1の加工パタンを使用して第1の加工音声を作成し、前記元音声の波形から他の周波数成分を削除する第2の加工パタンを使用して第2の加工音声を作成する音声加工部と、
前記元音声を元テキストに変換するとともに、前記第1の加工音声を第1の加工テキストに変換し、前記第2の加工音声を第2の加工テキストに変換する音声認識部と、
前記元テキストと前記第1の加工テキストとの差分、及び、前記元テキストと前記第2の加工テキストとの差分の和集合をあいまい部分として抽出するあいまい部分抽出部と、
前記抽出したあいまい部分のうちユーザが選択したものに対応する前記元音声を音声として再生するテキスト修正部と、
を備え、
前記音声加工部は、
前記あいまい部分がユーザに選択された回数に基づき、次回以降に使用する前記第1の加工パタンに
おいて削除する周波数成分及び前記第2の加工パタンに
おいて削除する周波数成分の組合せを、
前記ある周波数成分と前記他の周波数成分との複数の無作為の組合せのうちから選択すること、
を特徴とする音声認識支援装置。
【請求項2】
ユーザの修正履歴に基づいて、前記元テキストから注意部分を抽出する注意部分抽出部と、
前記抽出した注意部分を、前記抽出したあいまい部分と同時に出力装置に表示する表示処理部を備えること、
を特徴とする請求項1に記載の音声認識支援装置。
【請求項3】
前記あいまい部分抽出部は、
前記抽出したあいまい部分に対応する修正候補を取得し、
前記注意部分抽出部は、
前記抽出した注意部分に対応する修正候補を取得し、
前記表示処理部は、
前記修正候補を、対応するあいまい部分及び注意部分に関連付けて表示すること、
を特徴とする請求項2に記載の音声認識支援装置。
【請求項4】
前記音声認識支援装置は、
前記音声認識部を1つだけ備え、
前記音声認識部は、
前記元音声及び1又は複数の前記加工音声を前記元テキスト及び1又は複数の前記加工テキストに変換すること、
を特徴とする請求項3に記載の音声認識支援装置。
【請求項5】
前記音声加工部は、
前記元音声を時間軸方向に伸長若しくは圧縮することによって、又は、前記元音声に対して環境音を付加することによって前記加工音声を作成すること、
を特徴とする請求項4に記載の音声認識支援装置。
【請求項6】
音声認識支援装置の音声取得部は、
元音声を取得し、
前記音声認識支援装置の音声加工部は、
前記元音声の波形からある周波数成分を削除する第1の加工パタンを使用して第1の加工音声を作成し、前記元音声の波形から他の周波数成分を削除する第2の加工パタンを使用して第2の加工音声を作成し、
前記音声認識支援装置の音声認識部は、
前記元音声を元テキストに変換するとともに、前記第1の加工音声を第1の加工テキストに変換し、前記第2の加工音声を第2の加工テキストに変換し、
前記音声認識支援装置のあいまい部分抽出部は、
前記元テキストと前記第1の加工テキストとの差分、及び、前記元テキストと前記第2の加工テキストとの差分の和集合をあいまい部分として抽出し、
前記音声認識支援装置のテキスト修正部は、
前記抽出したあいまい部分のうちユーザが選択したものに対応する前記元音声を音声として再生し、
前記音声加工部は、
前記あいまい部分がユーザに選択された回数に基づき、次回以降に使用する前記第1の加工パタンに
おいて削除する周波数成分及び前記第2の加工パタンに
おいて削除する周波数成分の組合せを、
前記ある周波数成分と前記他の周波数成分との複数の無作為の組合せのうちから選択すること、
を特徴とする音声認識支援装置の音声認識支援方法。
【請求項7】
音声認識支援装置の音声取得部に対し、
元音声を取得する処理を実行させ、
前記音声認識支援装置の音声加工部に対し、
前記元音声の波形からある周波数成分を削除する第1の加工パタンを使用して第1の加工音声を作成し、前記元音声の波形から他の周波数成分を削除する第2の加工パタンを使用して第2の加工音声を作成する処理を実行させ、
前記音声認識支援装置の音声認識部に対し、
前記元音声を元テキストに変換するとともに、前記第1の加工音声を第1の加工テキストに変換し、前記第2の加工音声を第2の加工テキストに変換する処理を実行させ、
前記音声認識支援装置のあいまい部分抽出部に対し、
前記元テキストと前記第1の加工テキストとの差分、及び、前記元テキストと前記第2の加工テキストとの差分の和集合をあいまい部分として抽出する処理を実行させ、
前記音声認識支援装置のテキスト修正部に対し、
前記抽出したあいまい部分のうちユーザが選択したものに対応する前記元音声を音声として再生する処理を実行させ、
前記音声加工部に対し、
前記あいまい部分がユーザに選択された回数に基づき、次回以降に使用する前記第1の加工パタンに
おいて削除する周波数成分及び前記第2の加工パタンに
おいて削除する周波数成分の組合せを、
前記ある周波数成分と前記他の周波数成分との複数の無作為の組合せのうちから選択する処理を実行させること、
を特徴とする音声認識支援装置を機能させるための音声認識支援プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識支援装置、音声認識支援方法及び音声認識支援プログラムに関する。
【背景技術】
【0002】
近時、人間が発した音声を意味の通じるテキストに変換する音声認識装置が普及している。変換後のテキストは、例えば会議の議事録を作成するシステムに対して入力される。このような音声認識装置は、例えば、予め記憶している単語辞書に基づき、音声をテキストに変換する。単語辞書は、音声の波形見本とテキストとの対応関係を記憶している。しかしながら、音声がその発話者独特の特徴を有している場合、又は、音声が環境音の影響を受けている場合、音声は、発話者が意図したテキストには変換されない。多くのユーザは、変換後のテキストがこのような誤認識を含むことを前提に、テキストの誤認識部分を手作業で修正している。
【0003】
特許文献1の辞書更新装置は、単語辞書を使用して音声認識を行った結果であるテキストと、そのテキストに対してユーザが修正を加えた結果であるテキストを比較し、その単語辞書に追加登録する単語の候補を抽出する。当該辞書更新装置は、仮にその候補を単語辞書に登録した場合にその後の音声認識に与える影響も併せて表示する。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1の辞書更新装置のユーザは、まず、修正を加えるべき部分をテキスト中から探し出さなくてはならない。特にテキストが長文である場合、ユーザの負担は大きい。しかしながら、特許文献1は、ある文字列を他の文字列に修正する場合、他の文字列の候補をいかに選ぶかということに注意を集中しており、ある文字列をどのように探し出すかについては言及していない。さらに、たとえ単語辞書が充実しても、発話者独特の特徴及び環境音によって音声が影響を受けるという問題は依然として残る。
そこで、本発明は、音声認識後のテキストにおける要修正部分を素早く発見することを目的とする。
【課題を解決するための手段】
【0006】
本発明の音声認識支援装置は、元音声を取得する音声取得部と、前記元音声の波形からある周波数成分を削除する第1の加工パタンを使用して第1の加工音声を作成し、前記元音声の波形から他の周波数成分を削除する第2の加工パタンを使用して第2の加工音声を作成する音声加工部と、前記元音声を元テキストに変換するとともに、前記第1の加工音声を第1の加工テキストに変換し、前記第2の加工音声を第2の加工テキストに変換する音声認識部と、前記元テキストと前記第1の加工テキストとの差分、及び、前記元テキストと前記第2の加工テキストとの差分の和集合をあいまい部分として抽出するあいまい部分抽出部と、前記抽出したあいまい部分のうちユーザが選択したものに対応する前記元音声を音声として再生するテキスト修正部と、を備え、前記音声加工部は、前記あいまい部分がユーザに選択された回数に基づき、次回以降に使用する前記第1の加工パタンにおいて削除する周波数成分及び前記第2の加工パタンにおいて削除する周波数成分の組合せを、前記ある周波数成分と前記他の周波数成分との複数の無作為の組合せのうちから選択すること、を特徴とする。その他の手段については、発明を実施するための形態のなかで説明する。
【発明の効果】
【0007】
本発明によれば、音声認識後のテキストにおける要修正部分を素早く発見することができる。
【図面の簡単な説明】
【0008】
【
図1】音声認識支援装置の構成を説明する図である。
【
図2】(a)は、あいまい部分の検出方法を説明する図である。(b)は、あいまい部分の意義を説明する図である。
【
図9】(a)、(b)及び(c)は、音声認識支援画面の一例を示す図である。
【発明を実施するための形態】
【0009】
以降、本発明を実施するための形態(“本実施形態”という)を、図等を参照しながら詳細に説明する。本実施形態は、ユーザがマイクロフォンに向かって発話した音声を業務用文書の原稿とする例である。
【0010】
(音声認識支援装置)
図1に沿って、音声認識支援装置1の構成を説明する。音声認識支援装置1は、一般的なコンピュータであり、中央制御装置11、マウス、キーボード等の入力装置12、ディスプレイ、スピーカ等の出力装置13、主記憶装置14、補助記憶装置15及びマイクロフォン16を備える。これらは、バスで相互に接続されている。補助記憶装置15は、修正履歴情報31及び音声認識用辞書32(いずれも詳細後記)を格納している。
【0011】
主記憶装置14における音声取得部21、音声加工部22、音声認識部23、あいまい部分抽出部24、注意部分抽出部25、テキスト修正部26及び表示処理部27は、プログラムである。中央制御装置11は、これらのプログラムを補助記憶装置15から読み出し主記憶装置14にロードすることによって、それぞれのプログラムの機能(詳細後記)を実現する。補助記憶装置15は、音声認識支援装置1から独立した構成となっていてもよい。
【0012】
(語句の定義等)
“音声”とは、発話者の声帯の振動を示す時間軸の波形(声紋)である。発話者は、奇声、悲鳴、嘆息等意味のない音声を発することもあるが、本実施形態での音声は、多くの場合、人間の思考、事実等を表現している。音声認識支援装置1は、音声の波形をアナログ情報のまま、又は、デジタル情報に変換したうえで記憶し、また、処理の対象とする。
【0013】
“テキスト”とは、自然言語の文字列である。
“変換”とは、音声認識支援装置1が音声をテキストに置換することである。一般に、変換は、“音声認識”とも呼ばれる。
“加工”とは、音声認識支援装置1が音声の波形の一部を変更することである。
“修正”とは、音声認識支援装置1がユーザの指示に従いテキストの一部を変更することである。
【0014】
“あいまい部分”とは、変換後のテキストのうち、発話者独特の特徴が反映された結果、又は、環境音の影響を受けた結果、発話者が本来意図したものになっていないと音声認識支援装置1が判断した部分である。
“注意部分”とは、変換後のテキストのうち、過去において他のテキストに修正された履歴を有する部分である。
ユーザは、あいまい部分を修正することもあるし、注意部分を修正することもあるし、その他の部分を修正することもある。
【0015】
(あいまい部分の検出)
図2(a)は、あいまい部分の検出方法を説明する図である。音声認識支援装置1は、マイクロフォン16(
図1)から元音声2aを取得する。“元”は、“加工の前”を意味する。音声認識支援装置1は、元音声2aのコピーを複数(
図2では2個)作成する。
【0016】
音声認識支援装置1は、ある加工3bを一方のコピーに施し、加工音声4bを作成する。加工3bは、元音声2aと加工音声4bとの同一性を失わせるほどの大規模なものではなく、いわば部分的な微変更である(詳細後記)。音声認識支援装置1は、加工3cを他方のコピーに施し、加工音声4cを作成する。加工3cは、加工3bとは異なるが、加工3cもまた、元音声2aと加工音声4cとの同一性を失わせるほどの大規模なものではなく、部分的な微変更である。
【0017】
音声認識支援装置1は、元音声2a、加工音声4b及び加工音声4cを、それぞれ、元テキスト6a、加工テキスト6b及び加工テキスト6cに変換(音声認識5)する。すると、元テキスト6a、加工テキスト6b及び加工テキスト6cは、多くの場合、相互に異なるものとなる。
【0018】
音声認識支援装置1は、元テキスト6aと加工テキスト6bとの差分を差分7abとして検出し、元テキスト6aと加工テキスト6cとの差分を差分7acとして検出する。音声認識支援装置1は、差分7abと差分7acとの和集合7abcを作成してもよい。ここで検出された差分7ab、差分7ac又は和集合7abcが“あいまい部分”である。
【0019】
(あいまい部分の意義)
図2(b)は、あいまい部分の意義を説明する図である。音声の波形は多次元ベクトルとして表現できる。つまり、音声の波形は、多次元空間に点として描画することができる。以降では、説明を単純化するために、多次元空間のうち最も単純な2次元平面を例として挙げる。音声認識支援装置1は、多くの人間が“せいしん”と発話した音声の例を2次元平面に点として描画する。すると多くの点は、2次元平面のある領域に集まる。音声認識支援装置1は、これらの点を含むクラスタ8aを作成する。
【0020】
同様に、音声認識支援装置1は、多くの人間が“せいひん”及び“せいきん”と発話した場合のクラスタ8b及び8cを作成する。音声からテキストへの変換とは、2次元平面内のある点を、その点が属するクラスタに関連付けられている読み“せいしん”等に変換することに他ならない。一般的には、例えば、読み“せいしん”に合致する複数の同音異義語のなかから文脈に合致する“精神”等が選択されることになる。いま、説明を単純化するために、同音異義語については捨象して説明を続ける。
【0021】
音声の波形を示す3つの点●として、点●51a、52a及び53aが存在する。これらは、クラスタ8aに属している。つまり、音声認識支援装置1は、点●51a、52a及び53aを、“せいしん”に変換している。点●52aに対して音声認識支援装置1は、加工3bを施す。すると、加工後の点◎52bは、クラスタ8bに属することになる。点●51aに対しても音声認識支援装置1は、加工3bを施す。しかしながら、加工後の点◎51bは、クラスタ8aに属したままである。
【0022】
点●53aに対して音声認識支援装置1は、加工3cを施す。すると、加工後の点◎53bは、クラスタ8cに属することになる。点●51aに対しても音声認識支援装置1は、加工3cを施す。しかしながら、加工後の点◎51cは、クラスタ8aに属したままである。これら2つの例で明らかなように、加工の前後で点が属するクラスタが変化するということは、
図2(a)において、元テキストと加工テキストとの間で差分が生じることと同値である。
【0023】
点●52a及び点●53aのように、加工を施された後他のクラスタに属するものと、点●51aのように、加工を施されても元のクラスタに属したままであるものとが存在する。クラスタの半径に比して、加工を示すベクトルの大きさが充分小さければ、点●がクラスタの中心近くに位置するほど、加工を施された後他のクラスタに属する確率は小さくなるはずである。
【0024】
逆にいえば、クラスタの周辺領域54に位置する点●には、もともと発話者の特徴(癖)、環境音等が混じっており、変換されたテキストは、発話者が意図したものではない可能性が高い。したがって、周辺領域54に位置する点●に対して音声認識支援装置1が加工を施した点◎は、多くの場合、他のクラスタ内、又は、クラスタのない空白領域に押し出される。このような点●が、前記したあいまい部分である。
【0025】
なお、図示していないが、周辺領域54にある点●が加工を施された結果、他のクラスタに属するようになるのではなく、偶然、現在属しているクラスタの中心により近付く場合もある。音声認識支援装置1が点●に対して複数の異なる加工を施し、
図2(a)で和集合7abcを求めるのは、このような偶然を避けるためである。
【0026】
(修正履歴情報)
図3は、修正履歴情報31の一例である。修正履歴情報31においては、修正前欄101に記憶された修正前テキストに関連付けて、修正後欄102には修正後テキストが記憶されている。
修正前欄101の修正前テキストは、修正前のテキストである。修正前のテキストは、音声認識支援装置1が誤認識(誤変換)した結果である。
修正後欄102の修正後テキストは、修正後のテキストである。ユーザは、音声認識支援装置1が提案した修正後のテキストの候補のうちからあるものを選択する場合もあり、直接修正後のテキストを入力する場合もある。ユーザが修正前のテキストを削除した後、テキストを入力しない場合、修正後欄102には“(削除)”が記憶される。
【0027】
(音声認識用辞書)
図4は、音声認識用辞書32の一例である。音声認識用辞書32においては、音声欄111に記憶された音声に関連付けて、テキスト欄112にはテキストが、読み欄113には読みが記憶されている。
音声欄111の音声は、前記した音声である。
テキスト欄112のテキストは、前記したテキストである。テキストは、同音異義の複数の漢字、片仮名、英文字、記号等である。
読み欄113の読みは、人間がその音声を試聴した場合どのように聞こえるかを示す“発音記号”であり、ここではひらがなである。
【0028】
(処理手順)
図5は、処理手順のフローチャートである。説明の途中で適宜
図6~
図9を参照する。
ステップS201において、音声認識支援装置1の音声取得部21は、元音声2a(
図2(a))を取得する。具体的には、音声取得部21は、マイクロフォン16を介して発話者の音声を取得する。
ステップS202において、音声認識支援装置1の音声加工部22は、元音声2aをコピーする。具体的には、音声加工部22は、ステップS201において取得した元音声のコピーをn(n=2、3、・・・)個作成する。説明の単純化のため、n=2であるとして以降の説明を続ける。
【0029】
ステップS203において、音声加工部22は、コピーした元音声を加工する。ここでの“加工”とは、例えば以下の処理を元音声に対して施すことである。
〈処理1〉音声加工部22は、元音声から、所定の高周波成分を削除する。
〈処理2〉音声加工部22は、元音声から、所定の低周波成分を削除する。
〈処理3〉音声加工部22は、元音声に所定の環境音を付加する。所定の環境音とは、例えば、発話者の環境に特有な、工場雑音、路上雑音、オフィス雑音等である。
〈処理4〉音声加工部22は、元音声を時間軸方向に伸長又は圧縮する(音声の速度を変える)。
【0030】
具体的には、第1に、音声加工部22は、元音声の一方のコピーに対して前記の処理1~4のうちのある処理(
図2(a)の処理3b)を施し、加工音声4bを作成する。加工音声4bの波形は、元音声2aの波形に比して、僅かに異なっている。
第2に、音声加工部22は、元音声の他方のコピーに対して前記の処理1~4のうち、ステップS203の“第1”の処理以外の処理(
図2(a)の処理3c)を施し、加工音声4cを作成する。加工音声4cの波形は、元音声2aの波形に比して、僅かに異なっている。また、加工音声4cの波形は、加工音声4bの波形に比しても、僅かに異なっている。
【0031】
ステップS204において、音声認識支援装置1の音声認識部23は、元音声2aを元テキスト6aに変換する。具体的には、第1に、音声認識部23は、ステップS201において取得した元音声2aを変換単位に分解する。このとき、音声認識部23は、無音区間で区切ることによって元音声2aを複数の変換単位に分解する。
【0032】
第2に、音声認識部23は、ステップS204の“第1”において分解した変換単位の波形を検索キーとして音声認識用辞書32(
図4)を検索することによって、1つの変換単位の波形を1つのテキストに変換する。同音異義語が複数該当する場合、音声認識部23は、前後の文脈に応じて、適当なものに変換する。音声認識部23は、すべての変換単位ごとに、この処理を繰り返すことによって、元テキスト6aを完成させる。
図6の元テキスト6aは、このときの変換の結果である。
【0033】
ステップS205において、音声認識部23は、加工音声4b(4c)を加工テキスト6b(6c)に変換する。具体的には、第1に、音声認識部23は、ステップS204の処理と同様に、ステップS203の“第1”において作成した加工音声4bを加工テキスト6bに変換する。
図6の加工テキスト6bは、このときの変換の結果である。
第2に、音声認識部23は、ステップS204の処理と同様に、ステップS203の“第2”において作成した加工音声4cを加工テキスト6cに変換する。
図6の加工テキスト6cは、このときの変換の結果である。
【0034】
本実施形態においては、元音声2aを元テキスト6aに変換する処理主体も、加工音声4b(4c)を加工テキスト6b(6c)に変換する処理主体も、同じ1つの音声認識部23である。
【0035】
ステップS206において、音声認識支援装置1のあいまい部分抽出部24は、元テキスト6aと加工テキスト6b(6c)との差分を取得する。具体的には、第1に、あいまい部分抽出部24は、元テキスト6a(
図6)と加工テキスト6b(
図6)とを比較し、その差分(文字の相違箇所)を取得する。
第2に、あいまい部分抽出部24は、元テキスト6a(
図6)と加工テキスト6c(
図6)とを比較し、その差分を取得する。
【0036】
ステップS207において、あいまい部分抽出部24は、あいまい部分を抽出する。具体的には、第1に、あいまい部分抽出部24は、ステップS206の“第1”において取得した差分をあいまい部分として抽出する。
図7の加工テキスト6bでは、あいまい部分に下線が施されている。
第2に、あいまい部分抽出部24は、ステップS206の“第2”において取得した差分をあいまい部分として抽出する。
図7の加工テキスト6cでは、あいまい部分に下線が施されている。
【0037】
第3に、あいまい部分抽出部24は、ステップS207の“第1”及び“第2”において抽出したあいまい部分の和集合を取得し、取得した和集合を元テキスト6a上に表現する。
図8の元テキスト6aでは、あいまい部分の和集合が下線で表現されている。説明の都合上、
図8の元テキスト6aを“あいまい部分抽出済テキスト”と呼ぶ。あいまい部分の和集合が連続している場合、又は、充分に接近している場合、あいまい部分抽出部24は、それらをひと纏まりものとして下線で表現してもよい。
【0038】
ステップS208において、あいまい部分抽出部24は、あいまい部分に対応する修正候補を取得する。具体的には、あいまい部分抽出部24は、あいまい部分抽出済テキストのあいまい部分のそれぞれに対応する1又は複数の修正候補を取得する。あいまい部分が例えば“精神”である場合、あいまい部分抽出部24は、以下の例に従って“精神”に対応する修正候補を取得する。
【0039】
・あいまい部分抽出部24は、音声認識用辞書32(
図4)から、テキスト“精神”に対応する他のテキスト“セイシン”等を取得する。
・あいまい部分抽出部24は、テキスト“精神”の読み“せいしん”の一部を入れ替えることによって、例えば、読み“せいひん”を作成する。そして、あいまい部分抽出部24は、音声認識用辞書32(
図4)から、読み“せいひん”に対応するテキスト“製品”及び“清貧”等を取得する。
【0040】
ステップS209において、音声認識支援装置1の注意部分抽出部25は、注意部分を抽出する。具体的には、注意部分抽出部25は、あいまい部分抽出済テキストから、修正履歴情報31(
図3)の修正前テキストに該当する部分をすべて抽出し、抽出した部分を注意部分とする。前記から明らかなように、あいまい部分が音声の波形の差異に基づくものであるのに対し、注意部分は、ユーザの過去の修正履歴に基づくものである。
【0041】
ステップS210において、注意部分抽出部25は、注意部分に対応する修正候補を取得する。具体的には、注意部分抽出部25は、あいまい部分抽出済テキストの注意部分のそれぞれに対応する1又は複数の修正候補を取得する。注意部分が例えば“あー”である場合、注意部分抽出部25は、“あー”を検索キーとして修正履歴情報31(
図3)の修正前欄101を検索し、該当したレコードの修正後テキストを取得する。すると、例えば、“(削除)”が取得される。
【0042】
ステップS211において、音声認識支援装置1の表示処理部27は、あいまい部分及び注意部分を表示する。具体的には、表示処理部27は、出力装置13に音声認識支援画面41(
図9(a))を表示する。音声認識支援画面41は、あいまい部分抽出済テキストに対して、注意部分の位置を示す目印が付されたものを表示している。つまり、下線が施された部分42a~42eがあいまい部分であり、“[ ]”で括られた部分43a及び43bが注意部分である。なお、ここでの“下線”、“[ ]”等は、強調表示の一例であり、表示処理部27は、他の態様(字体を変える、色付する等)であいまい部分及び注意部分を強調表示してもよい。
【0043】
ステップS212において、表示処理部27は、修正候補を表示する。いま、ユーザが、
図9(a)の“精神”42dをマウス等の入力装置12で選択したとする。すると、表示処理部27は、その選択を受け付け、ステップS208において取得した、あいまい部分に対応する修正候補を“精神”に関連付けて表示する。
図9(b)では、“精神”42dに関連付けて、修正候補“製品”44a、“清貧”44b及び“セイシン”44cが表示されている。
【0044】
さらに、ユーザが、
図9(a)の“あー”43aをマウス等の入力装置12で選択したとする。すると、表示処理部27は、その選択を受け付け、ステップS210において取得した、注意部分に対応する修正候補を“あー”に関連付けて表示する。
図9(c)では、“あー”43aに関連付けて、修正候補“(削除)”45が表示されている。
【0045】
ステップS213において、音声認識支援装置1のテキスト修正部26は、修正を受け付ける。いま、ユーザが音声認識支援画面41(
図9(b))において、“製品”44aをマウス等の入力装置12で選択したとする。すると、第1に、テキスト修正部26は、その選択を受け付け、あいまい部分抽出済テキストの“精神”を“製品”に修正する。このとき、テキスト修正部26は、スピーカ等の出力装置13を介して、“精神”に対応する音声の波形(発話者が実際に発話した波形)を音声として再生してもよい。
【0046】
第2に、テキスト修正部26は、修正履歴情報31(
図3)の新たなレコードを作成し、修正前欄101に“精神”を記憶し、修正後欄102に“製品”を記憶する。
その後処理手順を終了する。
【0047】
(あいまい部分の検出方法の変形例)
前記では、あいまい部分抽出部24は、元テキストと加工テキストの差分を取得するに際し、文字(文字コード)が僅かでも異なる部分を抽出した。このような方法は、比較結果を“同一”又は“異なる”の2値で判断するものである。しかしながら、あいまい部分抽出部24は、比較対象である単語(変換単位)を任意の方法でベクトル値(Word2Vec等)に変換し、さらに任意の方法でベクトル値同士の類似度(余弦類似度等)を算出してもよい。すると、2つの単語の差分(あいまいさの度合い)が、ある正規化された範囲を連続的に変化するスカラ―値として表現されることになる。あいまい部分抽出部24は、類似度に対して所定の閾値を適用して、あいまい部分を抽出する。このとき、あいまい部分抽出部24は、閾値を変化させることによって、例えば“製造”と“製作”とを同じものと判断することも、異なるものと判断することもできる。
【0048】
(修正履歴情報の学習)
テキスト修正部26は、ステップS213の“第2”において、修正履歴情報31のレコードを作成することによって、修正履歴情報31はより充実し、ステップS209において注意部分抽出部25はより的確な注意部分を抽出できるようになる。
【0049】
(音声認識用辞書の学習)
テキスト修正部26は、適宜のタイミングで、音声認識用辞書32(
図4)のテキスト及び読みの組合せと、音声との対応関係を見直してもよい。例えば、ユーザが読み“せいしん”のテキストを読み“せいひん”のテキストに修正する回数が所定の閾値に達した場合、読み“せいしん”に対応する音声を読み“せいひん”に対応する音声に入れ替えてもよい。
【0050】
(加工の学習)
音声加工部22は、例えば以下のように複数の加工パタンm(m=1、2、3、・・・)を準備しておく。
〈加工パタンm〉音声加工部22は、音声の波形から、mx~(m+1)xまでの範囲の周波数成分を削除する。ここで、xは、周波数の帯域の幅を示す定数である。
【0051】
音声加工部22は、ステップS203の“第1”及び“第2”において、加工パタンmのうちの2つの組合せを無作為的に選択して、加工音声4b及び4cを作成する。一方、テキスト修正部26は、ステップS213において、ユーザがあいまい部分を選択した数をカウントし、選択された2つの加工パタンの組合せにカウント数を関連付けて“加工パタン成績表”(図示せず)として、補助記憶装置15に記憶しておく。テキスト修正部26は、加工パタン成績表のレコードが所定の数だけ蓄積された時点で、そのレコードをカウント数が大きい順番に並べなおす。音声加工部22は、次回のステップS203の“第1”及び“第2”において、カウント数が最大である2つの加工パタンの組合せを選択する。
【0052】
(本実施形態の効果)
本実施形態の音声認識支援装置の効果は以下の通りである。
(1)音声認識支援装置は、僅かな波形の相違によってテキストが変わり得るあいまい部分を抽出することができる。
(2)音声認識支援装置は、過去においてユーザが頻繁に修正した注意部分を抽出することができる。
(3)音声認識支援装置は、修正後のテキストの候補を表示することができる。
(4)音声認識支援装置は、音声認識部を冗長に準備する必要がない。
(5)音声認識支援装置は、単純な方法で元音声を加工することができる。
【0053】
なお、本発明は前記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、前記した実施例は、本発明を分かり易く説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
【符号の説明】
【0054】
1 音声認識支援装置
2a 元音声
4b、4c 加工音声
6a 元テキスト
6b、6c 加工テキスト
11 中央制御装置
12 入力装置
13 出力装置
14 主記憶装置
15 補助記憶装置
16 マイクロフォン
21 音声取得部
22 音声加工部
23 音声認識部
24 あいまい部分抽出部
25 注意部分抽出部
26 テキスト修正部
27 表示処理部
31 修正履歴情報
32 音声認識用辞書