(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0009】
[第1実施形態]
本発明の第1実施形態のアクティブラーニングシステムについて図面を参照して説明する。
図1は、第1実施形態のアクティブラーニングシステムの概略構成図である。
図1に示すように、第1実施形態のアクティブラーニングシステムは、第1サーバ1と、第2サーバ2と、端末装置3とを備え、これらがインターネットなどのネットワーク4を介して通信可能に接続されている。
第1サーバ1及び第2サーバ2は、いわゆる文字起こしサービスをAPI(Web−API)により端末装置3に対して提供可能なAPIサーバである。
端末装置3は、利用者が利用する端末機器であり、例えばスマートフォン、パーソナルコンピュータ、スマートグラス(ウェアラブル端末)などを想定している。
【0010】
図2(a)は第1サーバ1のハードウェア構成図であり、
図2(b)は第2サーバ2のハードウェア構成図である。
図2(a)に示すように、第1サーバ1は、プロセッサ11と、メモリ12と、ストレージ13と、通信装置14とを備えるコンピュータである。
プロセッサ11は、制御部、演算部、レジスタ等を含む中央処理部(CPU)を備え、コンピュータ全体を制御する。
プロセッサ11は、プログラム(本発明のアクティブラーニングプログラムを含む)及びデータ等を、ストレージ13や通信装置14からメモリ12に読み出し、これらに従って各種の処理を実行する。
メモリ12は、コンピュータが読み取り可能な記録媒体であり、例えば、ROM、EPROM、EEPROM、RAM等である。
【0011】
ストレージ13は、コンピュータが読み取り可能な記録媒体であり、例えば、ハードディスクドライブ、フラッシュメモリ等である。
第1サーバ1のストレージ13には、音声認識モデル(第1音声認識モデルm1)が記憶されており、また、この第1音声認識モデルm1を生成するためのデータセットを記憶できるようになっている。
通信装置14は、有線及び/又は無線による通信回線を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュール等である。
なお、第2サーバ2のハードウェア構成は、第1サーバ1のハードウェア構成は同じである。
異なる点として、第2サーバ2のストレージ23には、第2音声認識モデルm2が記憶されており、また、この第2音声認識モデルm2を生成するためのデータセットを記憶できるようになっている。
その他の構成は、第1サーバ1と同様であるため、説明を省略する。
【0012】
図3は、端末装置3のハードウェア構成図である。
図3に示すように、端末装置3は、プロセッサ31と、メモリ32と、ストレージ33と、入力装置34と、出力装置35と、通信装置16とを備えるコンピュータである。
プロセッサ31は、制御部、演算部、レジスタ等を含む中央処理部(CPU)を備え、コンピュータ全体を制御する。
プロセッサ31は、プログラム(本発明のアクティブラーニングプログラムを含む)及びデータ等を、ストレージ33や通信装置36からメモリ32に読み出し、これらに従って各種の処理を実行する。
メモリ32は、コンピュータが読み取り可能な記録媒体であり、例えば、ROM、EPROM、EEPROM、RAM等である。
【0013】
ストレージ33は、コンピュータが読み取り可能な記録媒体であり、例えば、ハードディスクドライブ、フラッシュメモリ等である。
入力装置34は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。
このうち、キーボードやマウスは、端末装置3がパーソナルコンピュータの場合の操作手段として機能し、ボタンやセンサは、端末装置3がスマートフォンの場合の操作手段として機能し、スイッチやボタンは、端末装置3がスマートグラスの場合の操作手段として機能する。
出力装置35は、外部への出力を実施する出力デバイス(例えば、モニター、ディスプレイ、表示パネル、スピーカー、LEDランプなど)である。
本実施形態の端末装置3は、出力装置35として、モニター、ディスプレイ、表示パネルなどの表示部351を備えている。
通信装置36は、有線及び/又は無線による通信回線を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュール等である。
【0014】
図4は、第1サーバ1、第2サーバ2、及び端末装置3の各機能構成を示すブロック図である。
図4に示すように、第1サーバ1は、データセット記憶部101と、音声認識モデル生成部102と、第1音声認識モデルm1と、を備える。
第2サーバ2は、第2音声認識モデルm2を備える。
端末装置3は、相違部分特定部301と、相違部分表示部302と、選択部303と、文字起こし情報生成部304と、文字起こし情報修正部305と、を備える。
第1サーバ1及び第2サーバ2は、プロセッサ11がアクティブラーニングプログラムを実行して各部を制御することで、以下に示す機能が実現され、端末装置3は、プロセッサ31がアクティブラーニングプログラムを実行して各部を制御することで、以下に示す機能が実現される。
【0015】
第1サーバ1は、データセット記憶部101が、話者の音声を入力とし、当該音声に対応する文字情報(教師データ)を出力とするデータセットをストレージ13に記憶する。
図5は、当初の第1音声認識モデルm1の生成時に用いられたデータセットの一例である
図5に示すように、データセットは、話者が「あ」と発したときの音声情報と、その教師データである文字情報「あ」とが対応付けて構成される。
「あ」、「い」のように短音単位で文字情報がラベリングされたものや、「りんご」のように単語単位で文字情報がラベリング(対応付け)されたものや、「わたしはりんごをもっています」のように、フレーズ単位で文字情報がラベリングされたものがある。
また、「apple」や「I have an apple」のように、英語の短音、単語、フレーズごとに文字情報をラベリングしたものを用いることもできる。
なお、
図5は、一例であり、実際には、多数のデータセットが用意され、これら多数のデータセットに基づき、第1音声認識モデルm1が生成される。
データセットは、日本語だけで構成してもよく、英語だけで構成してもよく、日本語や英語以外の言語を単独で又は組み合わせて構成することもできる。
また、
図5は、説明の便宜上、音声を波形によって模式的に表現しているが、音声を識別可能な定量的なデータ(特徴情報など)を用いることができる。
【0016】
第1サーバ1の音声認識モデル生成部102は、データセットを機械学習させることで第1音声認識モデルm1を生成する。
図6(a)は、第1音声認識モデルm1のイメージ図である。
機械学習では、公知の深層学習(ディープラーニング)などのニューラルネットワークが用いられる。
すなわち、音声認識モデルは、大量のデータセットをニューラルネットワークに学習させることで生成される。
例えば、ニューラルネットワークにおいて、入力層に、
図5(a)の音声(既知の音声)を入力することで、出力層から
図5(b)の文字情報((a)の音声に対応する教師データとしての文字情報)が出力されるように重みやバイアスを学習(最適化)させることで、未知の音声を入力するとその音声に対応する文字情報(入力した音声に対応する正解の文字情報)を高確率に出力可能な入出プログラムが音声認識モデル(第1音声認識モデルm1)として生成される(
図6(a))。
公知のCNN(畳み込みニューラルネットワーク)、RNN(再帰型ニューラルネットワーク)、LSTM等を用いることもできる。
第1サーバ1は、音声認識モデル生成部102により生成された第1音声認識モデルm1をストレージ13に記憶している。
【0017】
第2サーバ2は、第2音声認識モデルm2をストレージ23に記憶している。
図6(b)は、第2音声認識モデルm2のイメージ図である。
すなわち、第1サーバ1及び第2サーバ2は、それぞれ音声認識モデルを保有している。
これにより、ネットワーク4に接続された端末装置3では、入力した音声を文字に変換する文字起こし処理を、第1サーバ1及び第2サーバ2が提供するAPIを介して実行できるようになっている。
ただし、第1音声認識モデルm1と第2音声認識モデルm2は、それぞれは、データセットやニューラルネットワークの構成(層数その他)が異なるなど、独立した相異なる音声認識モデルである。
例えば、第1音声認識モデルm1は、事業者A(Amazon社)により運営されているサーバ(第1サーバ1)に保有され、このサーバにより提供される文字起こしサービス(Amazon Transcribe)に用いられる音声認識モデルを想定することができる。
一方、第2音声認識モデルm2は、事業者B(マイクロソフト社)により運営されているサーバ(第2サーバ2)に保有され、このサーバにより提供される文字起こしサービス(Speech to text)に用いられる音声認識モデルを想定することができる。
【0018】
このため、同一の対象話者の音声(未知の音声)を、第1音声認識モデルm1と第2音声認識モデルm2入力した場合でも、異なる文字情報が出力される可能性がある。
これは、第1音声認識モデルm1と第2音声認識モデルm2は、いずれも、その正解率が100%でないことからも当然の事象である。
ただし、第1音声認識モデルm1と第2音声認識モデルm2は、いずれも、その正解率は高確率(例えば事業用のもので85%〜95%との報告がある)であることを前提としている。
このため、第1音声認識モデルm1と第2音声認識モデルm2に、それぞれ未知の音声を入力したときに、どちらもが誤った文字情報を出力する可能性は低い。
また、同一の対象話者の音声を、第1音声認識モデルm1と第2音声認識モデルm2のそれぞれに入力して文字情報を出力させた場合において、それらの文字情報が相異なる場合、論理的には、一方の文字情報は正しく、他方の文字情報は誤っている可能性が高い。
【0019】
端末装置3は、第1サーバ1や第2サーバ2の機能を利用することにより、当該端末装置3において、入力した対象話者の音声を文字情報に変換して表示したり、保存することができる。
具体的には、端末装置3において、マイクロフォンから対象話者の音声を入力すると、音声送信部300が、第1サーバ1に当該対象話者の音声を送信する。
第1サーバ1は、端末装置3から受信した対象話者の音声を第1音声認識モデルm1に入力し、当該第1音声認識モデルm1から第1文字情報を出力させる。
第1サーバ1は、この第1文字情報を端末装置3に送信する。
また、端末装置3の音声送信部300は、マイクロフォンから入力された対象話者の音声を、第2サーバ2にも送信する。
第2サーバ2は、端末装置3から受信した対象話者の音声を第2音声認識モデルm2に入力し、当該第2音声認識モデルm2から第2文字情報を出力させる。
第2サーバ2は、この第2文字情報を端末装置3に送信する。
端末装置3は、第1サーバ1から受信した第1音声情報と、第2サーバ2から受信した第2音声情報と、入力した対象話者の音声とを対応付けてメモリ32に記憶する。
図7は、(a)が、対象話者の音声「・・It is important.・・」を第1音声認識モデルm1に入力したときに出力された第1文字情報「・・It is imported.・・」を示す図であり、(b)が、対象話者の音声を第2音声認識モデルm2に入力したときに出力された第2文字情報「・・It is important.・・」を示す図ある。
【0020】
端末装置3は、文字起こし情報生成部304が、第1サーバ1から受信した第1文字情報に基づいて議事録などの文字起こし情報Rを生成する。
生成された文字起こし情報Rは表示部351に表示したり、ストレージ33に記憶することができる。
例えば、利用者が、対象話者と打合せや会議を行う場面において、当該対象話者と対話しながらその音声の文字情報(文字起こし情報R)をリアルタイムに見ることができる。
図8(a)は、対象話者が「・・It is important.・・」と発音した場合において、その音声に対応する第1文字情報「・・It is imported.・・」が文字起こし情報Rとして表示部351の上部領域に表示されたことを示している。
図9は、ストレージ33に記憶された文字起こし情報Rを模式的に示す図である。
ストレージ33に記憶された文字起こし情報Rは、プリンタにより印刷したり、外部に送信したり、リムーバブルメディアに記憶させるなどして利用することができる。
文字起こし情報Rは、第1音声認識モデルm1の出力結果である第1文字情報に基づいて生成されるところ、
図8(a)及び
図9は、その出力結果が誤っているために(正しくは「important」)、表示又は記憶される文字起こし情報Rにおいても、誤った文字情報(「imported」)が含まれていることを示している。
このように、文字起こし情報生成部304は、第1文字情報に基づいて文字起こし情報Rを生成するが、第2文字情報に基づいて文字起こし情報Rを生成しない。
ただし、文字起こし情報Rを、第2文字情報に基づいて生成したり、第1文字情報と第2文字情報とに基づく2つの文字起こし情報Rを生成することもできる。
【0021】
相違部分特定部301は、第1サーバ1から受信した第1文字情報と、第2サーバ2から受信した文字情報との相違部分を特定する。
具体的には、メモリ32を参照することにより、第1サーバ1から受信した第1文字情報と第2サーバ2から受信した第2文字情報とを比較し、これらの相違部分を特定する。
相違部分の有無は、一定の文字数毎、フレーズごと、単語毎、行毎、ページ毎など、様々な単位で判断することができ、また、所定のタイミングで判断することができる。
図7の例においては、第1文字情報「・・It is imported.・・」と第2文字情報「・・It is important.・・」との比較により、第1文字情報「imported」と第2文字情報「important」とが相違部分として特定される。
【0022】
相違部分表示部302は、相違部分特定部301により特定された相違部分の文字情報(第1文字情報と第2文字情報)を表示部351に表示する
図8(a)は、相違部分表示部302により第1文字情報「imported」と第2文字情報「important」とが表示部351の下部領域に表示されていることを示している。
同図に示すように、対象話者が発話するのと同時に文字起こし情報Rを表示しながら、相違部分を示す情報(例えば下線)を表示することができる(上部領域)。
また、このとき、相違部分に対応する第1文字情報と第2文字情報のうち、利用者が正しいと判断する方の文字情報の選択を促す情報(・・・or・・・?)を表示することもできる(下部領域)。
【0023】
選択部303は、操作に応じ、相違部分に対応する第1文字情報と第2文字情報のうちのいずれか一方を選択する。
具体的には、利用者が、所定の操作手段(例えば、マウス操作やボタン操作)により、表示されている第1文字情報と第2文字情報のうち一方の文字情報が選択される。
これは、第1音声認識モデルm1の出力結果である第1文字情報と、第2音声認識モデルm2の出力結果である第2文字情報とが異なる場合、一方が正しく他方が誤っている可能性が高いため、どちらが正しいかを利用者の選択操作を介して選択させるためである。
図8(b)は、利用者の操作によって「important」(第2文字情報)が選択されたことを示している。
つまり、同図は、利用者が、対象話者の音声を聞いたことにより把握した言葉と合う文字情報として、第2文字情報「important」が正しい(つまり、第1文字情報「imported」が誤り)と判断したために、第2文字情報「important」を選択したことを示している。
【0024】
文字起こし情報修正部305は、選択部303により選択された文字情報が第2文字情報の場合、文字起こし情報生成部304により生成された文字起こし情報Rの相違部分に対応する第1文字情報を第2文字情報に修正して記憶する。
例えば、第1文字情報「imported」と第2文字情報「important」のうち、第2文字情報が選択された場合、第2文字情報が正しく、第1文字情報は誤りの可能性が高いため、第1文字情報に基づいて生成されている文字起こし情報Rにおける「imported」の部分を第2文字情報「important」に修正する。
図10は、文字起こし情報R(
図9)における「imported」の部分が「important」に修正されたことを示している。
【0025】
端末装置3は、選択部303により第2文字情報が選択された場合、当該第2文字情報を第1サーバ1に送信する。
第1サーバ1は、端末装置3から第2文字情報を受信すると、データセット記憶部101が、当該第2文字情報を出力(教師データ)とし、対応する対象話者の音声を入力とするデータセットを追加して記憶する。
図11は、元のデータセット(
図5)に、選択部303により選択された第2文字情報を出力(教師データ)とし、対応する対象話者の音声を入力とするデータセットが追加されたことを示している。
そして、音声認識モデル生成部102が、追加されたデータセットを追加学習させることにより音声認識モデル(第1音声認識モデルm1)を再生成(更新)する。
図12は、更新された第1音声認識モデルm1−1に音声「・・It is important.・・」を入力した場合に、出力結果として正しい文字情報「・・It is important.・・」が出力されたことを示している。
つまり、同図は、更新された第1音声認識モデルm1−1に音声「・・It is important.・・」を入力した場合には、正しい出力結果が得られる可能性が高くなることを示している。
【0026】
次に、第1実施形態のアクティブラーニングシステムにおける処理手順、すなわち、アクティブラーニングプログラムの動作手順について、
図13を参照しながら説明する。
まず、対象話者の音声を第1音声認識モデルm1に入力すると共に、第2音声認識モデルm2に入力する(S1)。
具体的には、端末装置3において対象話者の音声を入力すると、音声送信部300が第1サーバ1及び第2サーバ2にその音声をそれぞれ送信する。
第1サーバ1は、端末装置3から受信した音声を第1音声認識モデルm1に入力する。
第2サーバ2は、端末装置3から受信した音声を第2音声認識モデルm2に入力する。
これにより、第1音声認識モデルm1から第1文字情報が出力され、第2音声認識モデルm2から第2文字情報が出力される(S2)。
第1サーバ1は、出力された第1文字情報を端末装置3に送信する。
第2サーバ2は、出力された第2文字情報を端末装置3に送信する。
端末装置3は、第1サーバ1から受信した第1文字情報及び第2サーバ2から受信した第2文字情報を、入力された対象話者の音声と対応付けてメモリ32に記憶する。
【0027】
端末装置3は、第1文字情報に基づいて文字起こし情報Rを生成する(S3)。
具体的には、文字起こし情報生成部304が、第1サーバ1から受信した第1文字情報に基づいて文字起こし情報Rを生成する。
生成された文字起こし情報Rは、表示部351に表示したり、ストレージ33に記憶される。
続いて、第1文字情報と第2文字情報の相違部分が有るか否かを判定する(S4)。
具体的には、相違部分特定部301が、メモリ32を参照することにより、第1サーバ1から受信した第1文字情報と第2サーバ2から受信した第2文字情報とを対比し、異なる文字があるか否かを判定する。
【0028】
S4において、相違部分が有ることが判定された場合(S4−Yes)、相違部分の第1文字情報と第2文字情報を表示する(S5)。
具体的には、相違部分表示部302が、相違部分特定部301により特定された相違部分の第1文字情報と第2文字情報とを選択可能な態様で表示する。
ここで、利用者の操作に応じ、第1文字情報と第2文字情報のうちのいずれか一方を選択する(S6)。
つまり、第1文字情報と第2文字情報のうちどちらが正しいかを利用者に選択させる。
【0029】
第2文字情報が選択された場合(S7−Yes)、当該第2文字情報に基づいて文字起こし情報Rを修正する(S8)。
具体的には、S3において生成された文字起こし情報Rにおける、相違部分の第1文字情報を、S7において選択された第2文字情報に修正する。
また、第2文字情報(出力)と、これに対応する対象話者の音声(入力)とをデータセットとして追加学習させることにより、第1音声認識モデルm1を再生成する(S9)。
具体的には、S7において選択された第2文字情報(出力)と、S4において判定された相違部分の第2文字情報と対応する対象話者の音声(メモリ32において、その第2文字情報と対応付けて記憶されてある対象話者の音声)を入力とするデータセットを追加して記憶し、音声認識モデル生成部102が、追加されたデータセットを追加学習することによって新たな第1音声認識モデルm1−1を生成(更新)する。
なお、S4において、相違部分が有ることが判定されなかった場合(S4−No)、以降の処理(S5〜S9)は実行しない)。
第1文字情報と第2文字情報との相違部分がない場合、第1音声認識モデルm1の出力結果と第2音声認識モデルm2の出力結果はどちらも正しい可能性が高く、文字起こし情報Rを修正したり、第1音声認識モデルm1を修正する必要性がないからである。
また、S7において、第2文字情報が選択されなかった場合(S7−No)、つまり、第1文字情報が選択された場合、文字起こし情報Rの修正(S8)は行わない。
そもそも、文字起こし情報Rは第1文字情報に基づいて生成されているため、修正する必要がないからである。
また、この場合、第1音声認識モデルm1の再生成(S9)も行わない。
第1音声認識モデルm1の出力結果は正しい可能性が高く、第1音声認識モデルm1の更新の必要がないからである。
ただし、この場合でも、選択された第1文字情報を出力(教師データ)とし、対応する対象話者の音声を入力とするデータセットを学習させることで、第1音声認識モデルm1を再生成することもできる。
【0030】
[第2実施形態]
図14は、第2実施形態のアクティブラーニングシステムの機能を示すブロック図である。
第2実施形態のアクティブラーニングシステムは、端末装置3が文字起こし情報生成部304や文字起こし情報修正部305など、文字起こし処理に関する構成を備えていない点において第1実施形態のアクティブラーニングシステムと異なる。他の構成は、第1実施形態のアクティブラーニングシステムと共通する。
つまり、第2実施形態のアクティブラーニングシステムにおいては、対象話者の音声を第1音声認識モデルm1と第2音声認識モデルm2に入力し、その出力結果である第1文字情報と第2文字情報との相違部分について、正しい文字情報として第2文字情報が利用者の操作により選択された場合は、当該第2文字情報を含むデータセットを学習させることで第1音声認識モデルm1を更新する。
このように、文字起こし処理に関する構成を備えなくとも、利用者の選択操作だけで第1音声認識モデルm1の更新を効率よく行うことができる。
【0031】
[第3実施形態]
図15は、第3実施形態のアクティブラーニングシステムの機能を示すブロック図である。
第3実施形態のアクティブラーニングシステムは、第1サーバ1が保有する第1音声認識モデルm1と、第2サーバ2が保有する第2音声認識モデルm2の両方を更新可能にしている点で第1実施形態や第2実施形態のアクティブラーニングシステムと異なる。他の構成は第2実施形態のアクティブラーニングシステムと共通する。
具体的には、第2サーバ2において、データセット記憶部201や音声認識モデル生成部202といった音声認識モデルの生成処理に関する構成を備えている。
そのうえで、端末装置3は、選択部303により選択された文字情報が第2文字情報の場合、当該第2文字情報を第1サーバ1に送信し、選択部303により選択された文字情報が第1文字情報の場合、当該第1文字情報を第2サーバ2に送信する。
第1サーバ1は、データセット記憶部101において、端末装置3から受信した第2文字情報を出力(教師データ)とし、対応する対象話者の音声を入力とするデータセットを追加して記憶し、当該追加されたデータセットを追加学習することで第1音声認識モデルm1を再生成する。
第2サーバ2は、データセット記憶部101において、端末装置3から受信した第1文字情報を出力(教師データ)とし、対応する対象話者の音声を入力とするデータセットを追加して記憶し、当該追加されたデータセットを追加学習することで第2音声認識モデルm2を再生成する。
これにより、第1文字情報と第2文字情報とが異なる場合は、必ず、誤っている方の音声認識モデルを更新することができる。
【0032】
[第4実施形態]
図16は、第4実施形態のアクティブラーニングシステムの機能を示すブロック図である。
図16に示すように、第4実施形態のアクティブラーニングシステムは、第1実施形態の構成と第3実施形態の構成を組み合わせた構成にしている。
このため対象話者の音声に基づいて文字起こし情報Rの生成や修正を行いつつ、第1音声認識モデルm1や第2音声認識モデルm2の更新を行うことができる。
【0033】
(応用例)
第1〜第4実施形態のアクティブラーニングシステムは、Web−APIとして直接的に提供される文字起こしサービスに適用されるほか、ZOOM(登録商標)などのWeb会議システムにおいてオプション的に提供される文字起こしサービスに適用することができる。
この場合、
図17(a)に示すように、Web会議画面に、会議相手の音声の文字起こし情報Rを表示部351に表示することができる。
これにより、利用者はWeb会議をしながら、会議相手の音声の文字起こし情報Rをリアルタイムに見ることや、文字起こし情報Rの修正を簡単に行うことができ、この結果、誤記の少ない文字起こし情報R(議事録)を生成しつつ、認識精度の高い音声認識モデルへの更新を行うことができる。
また、第1〜第4実施形態のアクティブラーニングシステムは、端末装置3にスマートグラスを適用することができる。
この場合、
図17(b)に示すように、レンズ部等に設けられた表示部351に文字起こし情報Rを表示することができる。
これにより、利用者は、スマートグラスを装着するだけで、対象話者と対話しながら当該話者の音声の文字起こし情報Rをリアルタイムに見ることができる。
この場合も、利用者は例えば会議や打合せをしながら、相手の音声の文字起こし情報Rをリアルタイムに見ることや、文字起こし情報Rの修正を行うことができ、この結果、誤記の少ない文字起こし情報R(議事録)を生成しつつ、認識精度の高い音声認識モデルへの更新を行うことができる。
【0034】
以上説明したように、本発明のアクティブラーニングシステムは、サーバと端末装置3とを備えたアクティブラーニングシステムにおいて、サーバは、話者の音声を入力とし、当該音声に対応する文字情報を出力とするデータセットを学習させることで第1音声認識モデルm1を生成する音声認識モデル生成部102を備え、端末装置3は、対象話者の音声を第1音声認識モデルm1に入力することにより当該第1音声認識モデルm1から出力された第1文字情報を、文字起こし情報Rとして生成する文字起こし情報生成部304と、第1音声認識モデルm1から出力された第1文字情報と、前記対象話者の音声を第1音声認識モデルm1とは異なる第2音声認識モデルm2に入力することにより当該第2音声認識モデルm2から出力された第2文字情報と、の相違部分を特定する相違部分特定部301と、操作に応じ、前記相違部分に対応する第1文字情報と第2文字情報のうちのいずれか一方を選択可能な選択部303と、選択部303により選択された文字情報が第2文字情報の場合、文字起こし情報生成部304により生成された文字起こし情報Rにおける前記相違部分に対応する第1文字情報を第2文字情報に修正する文字起こし情報修正部305と、を備え、音声認識モデル生成部102は、選択部303により選択された文字情報が第2文字情報の場合、当該第2文字情報を出力とし、対応する前記対象話者の音声を入力とするデータセットを追加学習させることで第1音声認識モデルm1を再生成するようにしてある。
【0035】
また、本発明のアクティブラーニングプログラムは、サーバ(第1サーバ1と第2サーバ2)と端末装置3とを備えたシステムにおける各装置のコンピュータを、話者の音声を入力とし、当該音声に対応する文字情報を出力とするデータセットを学習させることで第1音声認識モデルm1を生成する音声認識モデル生成部102、対象話者の音声を第1音声認識モデルm1に入力することにより当該第1音声認識モデルm1から出力された第1文字情報を、文字起こし情報Rとして生成する文字起こし情報生成部304、第1音声認識モデルm1から出力された第1文字情報と、前記対象話者の音声を第1音声認識モデルm1とは異なる第2音声認識モデルm2に入力することにより当該第2音声認識モデルm2から出力された第2文字情報と、の相違部分を特定する相違部分特定部301、操作に応じ、前記相違部分に対応する第1文字情報と第2文字情報のうちのいずれか一方を選択可能な選択部303、選択部303により選択された文字情報が第2文字情報の場合、文字起こし情報生成部304により生成された文字起こし情報Rにおける前記相違部分に対応する第1文字情報を第2文字情報に修正する文字起こし情報修正部305、として機能させ、音声認識モデル生成部102は、選択部303により選択された文字情報が第2文字情報の場合、当該第2文字情報を出力とし、対応する前記対象話者の音声を入力とするデータセットを追加学習させることで第1音声認識モデルm1を再生成するようにしてある。
【0036】
このような本発明のアクティブラーニングシステム及びアクティブラーニングプログラムによれば、アノテーションのためだけに多くの人手や時間をかけずに音声認識モデルのアクティブラーニングを行うことができる。
特に、音声認識モデルを用いて提供される文字起こしサービスにおいて文字起こし情報Rの簡単な修正操作を行いながら誤記の少ない文字起こし情報Rを作成しつつ、認識精度の高い音声認識モデルへの更新(アクティブラーニング)を行うことができる。
このため、音声認識モデルの認識精度を効率よく向上させることができる。
【0037】
以上、本発明のアクティブラーニングシステム及びアクティブラーニングプログラムについて、好ましい実施形態を示して説明したが、本発明のアクティブラーニングシステム等は、前述した実施形態にのみ限定されるものではなく、本発明の範囲で種々の変更実施が可能であることは言うまでもない。
例えば、上述した各実施形態は、Web−APIの一例であり、各構成がサーバや端末装置に分散して設けられているが、1つの情報処理装置(サーバや端末装置)に全ての構成を備えさせることでも本発明を実現することができる。
具体的には、パーソナルコンピュータに各構成を実施可能なアクティブラーニングプログラムをインストールすればよく、この場合は、複数の音声認識モデルは内部(記憶手段)に設けてもよく、外部の装置(記憶装置や他の情報処理装置)に設けてもよい。
【0038】
また、上述の実施形態では、選択部303は、利用者の操作に応じ、相違部分に対応する第1文字情報と第2文字情報のうち利用者が正しいと判断した方の文字情報を選択する構成について説明した。
すなわち、上述の実施形態においては、利用者が正しい文字情報と判断して一方の文字情報(第2文字情報)を選択した場合に、誤っているであろう他方の文字情報(第1文字情報)から生成された文字起こし情報Rをその一方の文字情報に修正し、誤っているであろう他方の文字情報を出力した音声認識モデル(第1音声認識モデルm1)の再生成を行う構成としている。
これに限らず、選択部303は、利用者の操作に応じ、相違部分に対応する第1文字情報と第2文字情報のうち利用者が誤っていると判断した方の文字情報を選択する構成とすることもできる
すなわち、利用者が誤っている文字情報と判断して一方の文字情報(第1文字情報)を選択した場合に、正しいであろうその一方の文字情報(第1文字情報)から生成された文字起こし情報Rを他方の文字情報(第2文字情報)に修正し、誤っているであろう一方の文字情報を出力した音声認識モデル(第1音声認識モデルm1)の再生成を行う構成とすることができる。
【0039】
また、3つ以上の音声認識モデルを用いてアクティブラーニングシステムを構成することもできる。
この場合も、相違部分が検出された場合に、正しい文字情報によって誤った文字起こし情報Rを修正し、誤った音声認識モデルにおける追加学習を行えばよい。
【解決手段】 話者の音声と、対応する文字と、のセットを学習させることで第1モデルm1を生成するモデル生成部102と、対象話者の音声を第1モデルm1に入力して得た第1文字を文字起こし情報として生成する文字起こし情報生成部304と、第1文字と前記対象話者の音声を第2モデルm2に入力して得た第2文字との相違部分を特定する相違部分特定部301と、相違部分に対応する第1文字と第2文字のうちのいずれかを選択可能な選択部303と、選択された文字が第2文字の場合、文字起こし情報の相違部分に対応する第1文字を第2文字に修正する文字起こし情報修正部305と、を備え、音声認識モデル生成部102は、選択された文字が第2文字の場合、当該第2文字と、対応する対象話者の音声と、のセットを追加学習させることで第1モデルm1を再生成する。