(58)【調査した分野】(Int.Cl.,DB名)
前記出力制御部は、前記音声データの出力再生が一旦停止された後、再開される場合、前記音声データの出力再生が停止された時点から所定期間遡った時点から前記音声データの出力再生が再開されるように制御する、
請求項1に記載の音声認識テキストデータ出力制御装置。
前記出力制御部は、前記音声データの出力再生が開始されてから当該音声データの出力再生が停止されるまでの期間が、所定の閾値を超えない場合は、前記所定期間が第1期間となるように調整し、当該音声データの出力再生が開始されてから当該音声データの出力再生が停止されるまでの期間が前記所定の閾値を超える場合は、前記所定期間が前記第1期間よりも長い第2期間となるように調整する、
請求項2に記載の音声認識テキストデータ出力制御装置。
前記テキストデータ取得部は、取得された前記音声データを分割して、複数の音声認識処理サーバに並行して音声認識させて、音声認識させた結果であるテキストデータを前記複数の音声認識処理サーバの各々から取得し、
前記複数の音声認識処理サーバから取得された複数の前記テキストデータを形態素解析することにより、前記複数の音声認識処理サーバの各々から取得された複数のテキストデータから一つを選択する選択部を更に備える、
請求項1から4のいずれか一項に記載の音声認識テキストデータ出力制御装置。
【発明を実施するための形態】
【0013】
以下、添付図面を参照しながら本発明の実施の形態について説明する。以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。さらに、各図面において同一の構成要素に対しては可能な限り同一の符号を付し、重複する説明は省略する。
【0014】
図1は、本発明の第1実施形態に係る情報処理システムの一実施形態を示す概略構成図(システム構成図)である。
図1に示すように、本発明の実施の形態に係る情報処理システム100は、例示的に、情報処理装置1、音声認識テキストデータ出力制御サーバ3(音声認識テキストデータ出力制御装置)、及び音声認識処理サーバ5を備えて構成されている。
【0015】
情報処理装置1は、音声データを入力する機能、及び、音声認識テキストデータ出力サーバ3から取得したテキストデータを出力及び音声データを出力再生する機能を有する装置である。情報処理装置1は、汎用のコンピュータ装置であり、例えば、所定のネットワークに接続されたスマートフォン等の携帯電話、タブレット端末、ラップトップ/ノートブック型コンピュータ、及び据え置き型コンピュータ等である。
【0016】
音声認識テキストデータ出力制御サーバ3は、情報処理装置1と通信可能に所定のネットワークに接続されたサーバ用コンピュータである。音声認識テキストデータ出力制御サーバ3は、本実施形態に係る音声認識テキストデータ出力制御方法に係るソフトウェアプログラムをサーバ用コンピュータが実行することにより、音声認識テキストデータ出力制御装置として機能するものである。具体的に、音声認識テキストデータ出力制御サーバ3は、音声データ及び音声データの音声認識させた結果であるテキストデータの出力を制御する。音声認識テキストデータ出力制御サーバ3のさらに具体的な構成及び動作については、後述する。
【0017】
音声認識処理サーバ5は、音声認識テキストデータ出力制御サーバ3と通信可能に所定のネットワークに接続されたサーバ用コンピュータである。音声認識処理サーバ5は、汎用の音声認識処理方法に係るソフトウェアプログラムをサーバ用コンピュータが実行することにより、音声認識処理装置として機能するものである。具体的に、音声認識処理サーバ5は、音声認識テキストデータ出力サーバ3から送信される音声データを受信し、音声認識処理を実行し、音声認識させた結果であるテキストデータを音声認識テキストデータ出力サーバ3に返送する。音声認識処理サーバ5は、記憶領域を有しており、音声認識処理を実行する際に使用される、単数又は複数の、音声認識プログラム、各種データベース、及び各種モデルが格納されている。なお、本実施形態においては、日本語のみならず、英語等の外国語についても対象としてもよい。
【0018】
音声認識プログラムは、音声認識処理サーバ5のメインプログラムである上述したサーバ用プログラム等である。音声認識プログラムは、音声認識テキストデータ出力サーバ3から送信されてくる要求及び情報に係る一連の情報処理を行うため、記憶領域から呼び出されて実行される。各種データベースは、音声認識処理のために必要な各種辞書、例えば日本語辞書、外国語辞書等が含まれる。各種モデルは、音声認識に使用する音響モデルや言語モデル等を含む。
【0019】
所定のネットワークは、例えばインターネット等を含む情報処理に係る通信回線又は通信網であり、情報処理装置1と音声認識テキストデータ出力サーバ3との間、音声認識テキストデータ出力サーバ3と音声認識処理サーバ5との間で各種情報及び各種データの送受信が可能なように構成されていれば特に制限されない。所定のネットワークは、例えば、インターネットといった広帯域ネットワーク、携帯電話網といったコアネットワーク、LAN(
Local
Area
Network)、あるいはこれらを組み合わせた狭帯域ネットワークにより実現される。
【0020】
なお、情報処理システム100は、本実施形態では、情報処理装置1、音声認識テキストデータ出力サーバ3、及び、音声認識処理サーバ5を一台ずつ備えて構成されているが、必ずしも一台である必要はない。例えば、音声認識テキストデータ出力サーバ3は、複数の情報処理装置1と通信可能に構成されていてもよい。また、音声認識テキストデータ出力サーバ3は、一つのサーバ装置である代わりに、ネットワーク内に分散された複数のサーバにより1つの音声認識テキストデータ出力サーバ3として機能するように構成されていてもよい。さらに、音声認識処理サーバ5を複数台備えた構成については、実施形態2で後述する。
【0021】
図2は、本発明の第1実施形態に係る音声認識テキストデータ出力制御サーバの一例を示す概略構成図(ブロック図)である。
図2に示すように、音声認識テキストデータ出力制御サーバ3は、例示的に、各種データ及び各種情報を送受信する送受信部31と、テキストデータ及び音声データの出力を制御するための各種処理を実行する情報処理部33と、各種情報及び各種データを記録する記録部35と、を備えて構成される。なお、情報処理部33は、例えば、不図示であるが、記録部35に格納されているプログラムをCPU等が実行したりすることにより実現することができる。
【0022】
送受信部31は、各種データ及び各種情報を送信する送信部(不図示)、及び、各種データ及び各種情報を受信する受信部(不図示)を含む。例えば、受信部(音声データ取得部)は、
図1に示す情報処理装置1において入力された音声データを取得する。また、受信部は、
図1に示す音声認識処理サーバ5において音声認識された結果であるテキストデータを取得する。送信部は、取得された音声データであって、後述する音声データ分割部331で分割された音声データを音声認識処理サーバ5に送信する。送信部は、音声認識させた結果であるテキストデータと、テキストデータに対応する音声データと、を出力するために情報処理装置1に送信する。情報処理装置1においては、受信されたテキストデータが、不図示の表示部により表示される画面上においてテキストとして出力される。よって、ユーザは、当該画面上においてテキストを確認することができ、情報処理装置1を操作することにより、出力されたテキストの修正作業を実行することができる。
【0023】
なお、ここで、「テキストデータ取得部」は、送受信部31の送信部及び受信部と音声データ分割部331とを含むものである。
【0024】
情報処理部33は、機能的に、音声データ分割部331と、出力制御部333と、を含んで構成されている。
【0025】
音声データ分割部331は、
図1に示す情報処理装置1で取得された音声データを分割する。例えば、音声データ分割部331は、取得された音声データを
図1に示す音声認識処理サーバ5に受け渡す際に、受け渡す音声データが一定の時間長(例えば60秒未満)となるように分割する。
【0026】
出力制御部333は、取得された、
図1に示す音声認識処理サーバ5において音声認識された結果であるテキストデータの表示タイミング(出力タイミング)よりも、
図1に示す情報処理装置1において、当該テキストデータに対応する分割された音声データの再生タイミング(出力タイミング)を遅らせるように制御する。
【0027】
分割された音声データの出力再生タイミングを、音声認識された結果であるテキストデータの出力タイミングに遅らせるように制御するとは、例えば、分割された音声データに対応するテキストデータを一括して表示し、当該テキストデータを表示した後に音声データの再生を開始することを含む。
【0028】
また、出力制御部333は、音声データの再生が一旦停止された後、再開される場合、音声データの再生が停止された時点から所定期間遡った時点から音声データの再生が再開されるように制御する。
【0029】
記録部35は、送受信部31で取得された音声データADと、
図1に示す音声認識処理サーバ5において音声認識された結果であるテキストデータTDと、音声データの取得時刻を示す時刻データTIと、を記録する。記録部18は、上述のデータ及び情報を互いに関連づけて記録してもよい。なお、音声データの取得時刻とは、音声、及び、音声付き動画又は静止画等を含む素材が取得された時刻をいい、例えば、不図示のカメラやボイスレコーダ等の音声データを取得可能な装置において音声データ(及び画像データ)が記録された時刻を含む。また、音声データの取得時刻とは、上記に限られず、
図1に示す情報処理装置1において音声データが取得された時刻であってもよい。ここで、時刻データTIは、画像データに付随するタイムスタンプ又はタイムコードに基づく時刻を含む。なお、画像データにタイムスタンプ又はタイムコードが予め付加されていない場合には、別途、ユーザの操作に基づいてタイムスタンプ又はタイムコードを付加してもよい。
【0030】
<出力制御処理>
図3及び
図4を参照して、出力制御処理としての、テキストデータの出力タイミング及び音声データの出力タイミングの制御処理を説明する。
図3は、本発明の第1実施形態に係るデータ出力制御処理の一例を示すフローチャートである。
【0031】
(ステップS1)
情報処理装置1は、音声データを入力する。例えば、記者会見、撮影、街頭インタビュー等の音声を不図示のマイクロフォン等でデジタルデータである音声データに変換することにより取得し、当該音声データを情報処理装置1に入力してもよい。また、情報処理装置1は、音声認識処理に先立って、音声付き動画又は静止画から音声データを分離して記録してもよい。例えば、音声付き動画を低画質動画と音声データとに分離する。低画質動画は、
図2に示す記録部35に動画データとして記録される。出力制御部333は、動画データを、音声データ、テキストデータ、及び時刻データと関連づけながら出力タイミングを制御した上で、後述する
図7に示す画面G1において出力するように制御する。
【0032】
(ステップS3)
図2に示す音声認識テキストデータ出力制御サーバ3の送受信部31は、情報処理装置1から送信された音声データを取得する。
【0033】
(ステップS5)
図2に示す音声認識テキストデータ出力制御サーバ3の音声データ分割部331は、情報処理装置1から送信された音声データを分割する。音声データ分割部331は、例えば、音声データにおける無音区間を特定し、当該区間において音声データを区切る処理を実行してもよい。音声データ分割部331は、例えば、音声データにおける文章構成や文脈等に基づいて、音声データを分割するルールを作成し、当該ルールに基づいて分割処理を実行してもよい。
【0034】
(ステップS7)
送受信部31は、音声データ分割部331により分割された音声データを音声認識処理サーバ5に送信する。
【0035】
(ステップS9)
音声認識処理サーバ5は、音声認識テキストデータ出力制御サーバ3において分割された音声データを音声認識する。音声認識処理サーバ5は、例えば、未知のパラメータに従って確率的に変化する現象をモデル化する分析技術手法であるHMM(
Hidden
Markov
Model)(隠れマルコフモデル)により、入力された音声データを文字列データに変換する。なお、他の分析技術手法として、DPマッチングやニューラルネットワーク等を採用してもよい。
【0036】
(ステップS11)
音声認識処理サーバ5は、音声認識した結果であるテキストデータを音声認識テキストデータ出力制御サーバ3に送信する。
【0037】
(ステップS13)
図2に示す音声認識テキストデータ出力制御サーバ3の出力制御部333は、音声認識処理サーバ5において音声認識された結果であるテキストデータの出力タイミングよりも、情報処理装置1において、当該テキストデータに対応する分割された音声データの出力タイミングを遅らせるように制御する。例えば、出力制御部333は、制御信号を情報処理装置1に送信することで情報処理装置1の出力処理を制御する。
【0038】
例えば、出力制御部333は、テキストデータに含まれる文字数に基づいて、当該テキストデータに対応する分割された音声データを出力再生するタイミングを調整してもよい。
【0039】
図4は、本発明の第1実施形態に係るデータ出力制御処理の一例を示す概念図である。
図4(A)は、出力されるテキストデータに含まれる文字数が少ない(条件(1):X≦P1)場合のデータ出力制御処理を示す概念図である。
図4(B)は、出力されるテキストデータに含まれる文字数が多い(条件(2):X>P1)場合のデータ出力制御処理を示す概念図である。ここで、α:遅延時間は、例えば、テキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの再生タイミングを遅らせるために設定される期間である。X:文字数は、例えば出力されるテキストデータに含まれる文字数を含む。P1:設定値は、出力されるテキストデータに含まれる文字数が多いか少ないか判断するための基準値となる値である。設定値は、例えば数文字〜数十文字である。Q1:初期値は、例えば数ミリ秒である。なお、設定値P1及び初期値Q1は、実験に基づく経験値に基づいて定義してもよい。つまり、設定値P1及び初期値Q1を様々な値に変更しながら、ユーザがテキストデータの修正作業を行いその使い易さ等を測定した結果を用いて最適な値を設定する。なお、設定値P1及び初期値Q1は、ユーザごとに適宜変更することも可能である。
【0040】
図4(A)に示すように、条件(1)の場合、つまり、出力されるテキストデータに含まれる文字数が少ない場合は、矢印A1が示すように、出力制御部333は、テキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの再生タイミングを、当該音声データの音声認識処理が確定するまでの期間(α=Q1)遅延させる。
【0041】
この構成によれば、テキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの出力タイミングを、当該音声データの音声認識処理が確定するまでの期間(α=Q1)遅延させる。よって、出力されたテキストデータの内容に対応する音声データを聞きながら当該テキストデータを修正することができるので、テキストデータの修正を正確に、且つ、迅速に行うことにつなげることができる。
【0042】
図4(B)に示すように、条件(2)の場合、つまり、出力されるテキストデータに含まれる文字数が多い場合は、矢印A3が示すように、出力制御部333は、テキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの再生タイミングを、当該音声データの音声認識処理が確定するまでの期間(α=Q1+R1×logX)遅延させる。
【0043】
この構成によれば、画面上に出力される文字数が多い場合には、画面上に出力される文字数が少ない場合に比べて緩やかに遅延時間を延ばすことができる。よって、ユーザがテキストデータを確認するための時間をより長く確保することができる。したがって、テキストデータの修正をより正確に、且つ、より迅速に行うことにつなげることができる。
【0044】
(ステップS15)
図3に戻り、情報処理装置1は、制御信号に基づいて、音声データ及びテキストデータを、不図示の情報処理装置1の表示部において出力する。ここで、制御信号は、出力対象である音声データ及びテキストデータを含む信号であってもよいし、音声データ及びテキストデータを含まない信号であってもよい。
【0045】
そして、情報処理装置1を操作するユーザは、情報処理装置1から出力される音声データを聞きながら、表示部において表示(出力)される、当該音声データに対応するテキストデータを修正する。
【0046】
次に、
図5及び
図6を参照して、出力制御処理としての音声データの出力再開処理を説明する。
図5は、本発明の実施形態に係る音声データ再出力制御処理の一例を示すフローチャートである。なお、
図5に示すステップS21〜S31は、
図3に示すステップS1〜S11と同様であるため、説明を省略する。なお、音声データの出力再開処理においては、例えばユーザの操作により、音声データの出力の停止及び再開が制御されるが、音声認識された結果であるテキストデータについては出力が継続される。つまり、本実施形態における音声データの出力再開処理においては、テキストデータの出力を、ユーザの操作等によって強制的に停止及び再開させる制御は行われない。
【0047】
(ステップS33)
図2に示す音声認識テキストデータ出力制御サーバ3の出力制御部333は、音声データ及びテキストデータを情報処理装置1において出力させるように制御する。例えば、出力制御部333は、制御信号を情報処理装置1に送信することで情報処理装置1の出力処理を制御する。ここで、本ステップにおいては、必ずしも、音声認識処理サーバ5において音声認識された結果であるテキストデータの出力タイミングよりも、
図1に示す情報処理装置1において、当該テキストデータに対応する分割された音声データの出力タイミングを遅らせるように制御する必要はない。つまり、
図5に示すテキストデータの出力再開処理は、
図3に示すデータ出力制御処理を前提とする処理でなくてもよい。しかしながら、これに限られず、
図5に示すテキストデータの出力再開処理は、
図3に示すデータ出力制御処理を前提とする処理であってもよい。
【0048】
(ステップS35)
情報処理装置1は、音声認識テキストデータ出力制御サーバ3から送信された制御信号に基づいて、音声データ及びテキストデータを、不図示の情報処理装置1の表示部において出力する。
【0049】
(ステップS37)
情報処理装置1において、ユーザの操作に基づいてテキストデータを出力及び音声データを再生停止する場合、情報処理装置1は、音声認識テキストデータ出力制御サーバ3に対して出力停止信号を送信する。
【0050】
(ステップS39)
情報処理装置1において、ユーザの操作に基づいてテキストデータの出力及び音声データの再生が再開される場合、情報処理装置1は、音声認識テキストデータ出力制御サーバ3に対して出力再開信号を送信する。
【0051】
(ステップS41)
出力制御部333は、ステップS37において音声データの再生が一旦停止された後、ステップS39において再開される場合、音声データの再生が停止された時点から所定期間遡った時点から音声データの再生が再開されるように制御する。例えば、出力制御部333は、制御信号を情報処理装置1に送信することで情報処理装置1の出力再生処理を制御する。
【0052】
図6は、本発明の実施形態に係る音声データ再出力制御処理の一例を示す概念図である。
図6(A)は、音声データが出力再生されてから比較的早く再生が停止される(条件(1):z≦P2)場合の音声データ再出力制御処理を示す概念図である。
図6(B)は、音声データがすべて出力再生されるまでの期間の前半において音声データの再生が停止される(条件(2):z>P2かつy−z>Q2)場合の音声データ再出力制御処理を示す概念図である。
図6(C)は、音声データがすべて出力再生されるまでの期間の後半において音声データの再生が停止される(条件(3):z>P2かつy−z≦Q2)場合の音声データ再出力制御処理を示す概念図である。
【0053】
ここで、β:戻る時間は、例えば、音声データの再生が停止された時点から、どの程度遡って音声データの出力再生を再開するかを示す期間である。y:音声データの素材長(時間)は、例えば、音声データのすべてが出力再生される期間を含む。より具体的には、音声データの素材長(時間)は、音声認識された結果であるテキストデータに対応する、音声認識される前の1又は複数の素材音声の長さを含む。例えば、音声データの素材長は、素材音声が複数の素材音声から構成される場合、一の素材音声の先頭のタイムコードと、次の素材音声の先頭のタイムコードから算出されてもよい。具体的に、一の素材音声の先頭のタイムコードが「00:02:25」(2分25秒)で、次の素材音声の先頭のタイムコードが「00:02:50」(2分50秒)である場合、一の素材音声に対応する音声データの素材長は、25秒間である。このようにそれぞれの素材音声の音声データの素材長を合算することにより、全素材音声に対応する音声データの素材長を算出する。なお、タイムコードは、パラメータとしてフレーム数を更に含んでもよい。z:音声データの出力再生停止期間は、音声データの出力再生を停止している期間をいい、例えば、音声データの再生を一旦停止してから再生を再開するまでの期間を含む。音声データの出力停止期間は、例えば、一の素材音声の出力が開始され、当該一の素材音声の途中で停止される場合は、当該素材音声の先頭からが停止されるまでの間の時間を含んでもよい。P2:設定値は、音声データの出力期間が長いか短いかを判断するための基準値となる値である。Q2:設定値は、音声データがすべて出力再生されるまでの期間の前半において音声データの再生が停止されたか、又は、後半に置いて音声データの再生が停止されたかを判断するための基準値となる値である。P2:設定値及びQ2:設定値は、例えば数秒〜数十秒である。なお、以下では、各条件(1)〜(3)に応じて戻る時間を規定しているが、音声データの再生の停止タイミングにかかわらず、戻る時間を一定秒数(例えば2秒)と設定してもよい。
【0054】
図6(A)に示すように、条件(1)の場合、つまり、条件(2)及び条件(3)の場合に比べて、音声データが出力再生されてから比較的早く再生が停止された場合は、矢印A5及びA7が示すように、出力制御部333は、音声データの出力再生を、音声データの先頭から再開するように制御する。
【0055】
この構成によれば、音声データが出力再生されてから比較的早く再生が停止された場合は、テキストデータの先頭から再生を再開するように制御される。よって、再生が再開される時点がテキストデータの先頭の時点であるので、ユーザは、音声データの再生が再開される時点を容易に把握できる。
【0056】
出力制御部333は、音声データがすべて出力再生されるまでの期間と、音声データの再生が開始されてから当該音声データの再生が停止されるまでの期間と、に基づいて所定期間を調整する。
【0057】
具体的に、
図6(B)に示すように、条件(2)の場合、つまり、音声データがすべて出力再生されるまでの期間の前半において音声データの再生が停止される場合、矢印A9及びA11が示すように、出力制御部333は、音声データがすべて出力再生されるまでの期間(y)と、音声データの再生が開始されてから当該音声データの再生が停止されるまでの期間(y−z)と、に基づいて所定期間(β=P2)を調整する。そして、出力制御部333は、音声データの再生が停止された時点(矢印A9)から所定期間(例えば5秒)遡った時点(矢印A11)から音声データの再生が再開されるように制御する。
【0058】
この構成によれば、音声データがすべて出力再生されるまでの期間の前半において音声データの再生が停止される場合には、出力されたテキストデータの校正部分が条件(3)の場合と比べて少ないと判断され、戻る時間を固定値(例えば5秒)(条件(3)の遡る時間よりは短く調整する)とする。このように、戻る時間が固定値であるため、ユーザは、音声データの再生を停止した時点から遡って再生が再開される時点を容易に把握できる。
【0059】
図6(C)に示すように、条件(3)の場合、音声データがすべて出力再生されるまでの期間の後半において音声データの再生が停止される場合、矢印A13及びA15が示すように、出力制御部333は、音声データがすべて出力再生されるまでの期間(y)と、音声データの再生が開始されてから当該音声データの再生が停止されるまでの期間(y−z)と、に基づいて所定期間(β=P2+Q2×logy)を調整する。そして、出力制御部333は、音声データの再生が停止された時点(矢印A13)から所定期間(例えば10秒)(条件(2)の遡る時間よりは長く調整する)遡った時点(矢印A15)から音声データの再生が再開されるように制御する。
【0060】
この構成によれば、音声データがすべて出力再生されるまでの期間の後半において音声データの再生が停止される場合には、出力されたテキストデータの校正部分が条件(2)の場合と比べて多いと判断され、戻る時間をより長く確保する。よって、ユーザは、出力されるテキストデータの全体を把握しながらテキストデータを修正することができる。したがって、テキストデータの修正をより正確に、且つ、より迅速に行うことにつなげることができる。
【0061】
(ステップS43)
情報処理装置1は、音声認識テキストデータ出力制御サーバ3から送信された制御信号に基づいて、音声データ及びテキストデータを、不図示の情報処理装置1の表示部において出力または再生する。
【0062】
図7を参照して、
図1に示す情報処理装置1の表示部(不図示)に表示される、テキストデータを含む画面の一例を説明する。
図7は、本発明の実施形態に係る情報処理装置に表示される画面の一例を示す図である。
図2に示す音声認識テキストデータ出力制御サーバ3の記録部35は、音声データの取得時刻を示す時刻データTIと、当該音声データを音声認識させた結果であるテキストデータTDと、を関連づけて記録し、
図7に示すように、出力制御部333は、取得時刻を示す文字情報TとテキストデータTDとが関連づけて出力されるように制御する。例えば、画面Gにおいて、「15:39:40」(15時39分40秒)に情報処理装置1で取得された音声データを音声認識させた結果であるテキストデータ「を最近…運動していたりしてます」と、その取得時刻「15:39:40」と、が関連づけて出力されている。
【0063】
この構成によれば、実際の取得時刻で、音声データを音声認識させた結果であるテキストデータを確認することができるので、所望の修正箇所を容易に特定できる。
【0064】
図7に示すように、音声認識処理において各テキストデータTDに対応する音声データに含まれる音声の発話者を特定する場合、テキストデータTDごとに発話者を示す画像SDが表示されてもよい。また、あるテキストデータTD及び対応する音声データが重要である場合は、ユーザの指示に基づいて別途登録を行うことができる。例えば、ユーザが指定したテキストデータTDの登録画像SDは、ユーザが指定しないテキストデータTDの登録画像SDとは異なる形態で表示されてもよい。具体的には、ユーザが指定したテキストデータTDの登録画像SDは、強調表示されてもよい。また、上記したとおり、素材が音声付き動画である場合、音声データと動画データとは分離され管理される。そして、分離した音声データを逐一音声認識させることで、
図7に示すように、音声データの再生時は、それに同期させた動画データが同時に画面GにおけるウィンドウWに表示される。
【0065】
以上、本発明の第1実施形態によれば、音声認識された結果であるテキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの再生タイミングを遅らせることで、テキストデータの修正を正確に、且つ、迅速に行うことができる。
【0066】
<第2実施形態>
図8から
図10を参照して、本発明の第2実施形態に係るデータ出力制御処理を説明する。
図8は、本発明の第2実施形態に係る情報処理システムの概略構成(システム構成)の他の一例を示す図である。第2実施形態においては、
図8に示すように、情報処理システム100において複数の音声認識処理サーバ5A,5B,5Cを備えるが、
図1に示すように、第1実施形態においては、
図1に示すように、情報処理システム100において単一の音声認識処理サーバ5を備える点で第2実施形態と第1実施形態とは異なる。以下では、第2実施形態と第1実施形態とで異なる点について特に説明する。
【0067】
図9は、本発明の第2実施形態に係る音声認識テキストデータ出力サーバの他の一例を示す概略構成図(ブロック図)である。第2実施形態においては、
図9に示すように、音声認識テキストデータ出力制御サーバ3においてテキストデータ選択部335(選択部)を更に備える点で、第1実施形態とは異なる。
【0068】
図10は、本発明の第2実施形態に係るテキストデータ選択処理の一例を示す概念図である。
図10に示すように、
図9に示す送受信部31と音声データ分割部331とを含んで構成されるテキストデータ取得部は、取得された音声データを分割して、複数の音声認識処理サーバ5A,5B,5Cに並行して音声認識させて、音声認識させた結果であるテキストデータを複数の音声認識処理サーバ5A,5B,5Cの各々から取得する。そして、テキストデータ選択部335は、複数の音声認識処理サーバ5A,5B,5Cから取得された複数のテキストデータを形態素解析することにより、複数の音声認識処理サーバ5A,5B,5Cの各々から取得された複数のテキストデータから一つを選択する。
【0069】
図10に示すように、テキストデータ選択部335は、例えば、複数の音声認識処理サーバ5A,5B,5Cから取得された複数のテキストデータを形態素解析した各解析結果を多数決処理によって比較し、より「合計ポイント」が大きい、音声認識処理サーバ5Aに音声認識させた結果であるテキストデータを選択する。具体的に、テキストデータ選択部335は、複数の音声認識処理サーバ5A,5B,5Cから取得された複数のテキストデータを形態素解析した各解析結果に対して多数決処理を実行することで、共通する形態素数が多いサーバに対して「一致ポイント」を付与する。そして、テキストデータ選択部335は、誤認識で多く認識してしまったり少なく認識してしまったりした際に付与する「過不足ポイント」に所定の重み付け値(P3:設定値)を乗算した値を「一致ポイント」から減算することで「合計ポイント」を算出する。なお、二以上の音声認識処理サーバにおいて合計ポイントが最も大きく、且つ、同一となった場合、テキストデータ選択部335は、例えば、一つ前のテキストデータを、音声認識処理を実行することで生成した音声認識処理サーバにより音声認識された結果を今回のテキストデータとして選択する。
【0070】
以上、本発明の第2実施形態によれば、複数の音声認識処理サーバの各々から取得された複数のテキストデータから一つを選択する。よって、音声データをより正確に音声認識した結果であるテキストデータが出力されるので、ユーザが修正すべき量が削減されるので、テキストデータの修正をより容易に行うことができる。
【0071】
上記各実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するものではない。本発明はその趣旨を逸脱することなく、変更/改良され得るとともに、本発明にはその等価物も含まれる。
【0072】
上記したとおり、
図2及び
図9に示す音声認識テキストデータ出力制御サーバ3は、音声データ分割部331と出力制御部333とテキストデータ選択部335とを備えて構成される。しかしながらこの構成に限られず、情報処理装置1が音声データ分割部331、出力制御部333及びテキストデータ選択部335の少なくとも一つを備えてもよい。この場合、「音声認識テキストデータ出力装置」は情報処理装置1となる。
【0073】
また、上記では、音声認識処理は、情報処理装置1及び音声認識テキストデータ出力サーバ3とは異なる構成である音声認識処理サーバ5において実行されるものと説明した。しかしながら、この構成に限られず、上記各実施形態における情報処理システムにおいて、音声認識処理サーバ5を含まなくてもよい。つまり、情報処理装置1又は音声認識テキストデータ出力サーバ3において音声認識処理を実行してもよい。
【解決手段】音声データ及び音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御サーバ3であって、入力された音声データを取得する音声データ取得部と、取得された音声データを分割して音声認識させて、音声認識させた結果であるテキストデータを取得するテキストデータ取得部と、取得されたテキストデータの出力タイミングよりも、当該テキストデータに対応する分割された音声データの出力再生タイミングを遅らせるように制御する出力制御部333と、を備える。