IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-31143辞書選択プログラム、辞書選択方法及び辞書選択装置
<>
  • 特開-辞書選択プログラム、辞書選択方法及び辞書選択装置 図1
  • 特開-辞書選択プログラム、辞書選択方法及び辞書選択装置 図2
  • 特開-辞書選択プログラム、辞書選択方法及び辞書選択装置 図3
  • 特開-辞書選択プログラム、辞書選択方法及び辞書選択装置 図4
  • 特開-辞書選択プログラム、辞書選択方法及び辞書選択装置 図5
  • 特開-辞書選択プログラム、辞書選択方法及び辞書選択装置 図6
  • 特開-辞書選択プログラム、辞書選択方法及び辞書選択装置 図7
  • 特開-辞書選択プログラム、辞書選択方法及び辞書選択装置 図8
  • 特開-辞書選択プログラム、辞書選択方法及び辞書選択装置 図9
  • 特開-辞書選択プログラム、辞書選択方法及び辞書選択装置 図10
  • 特開-辞書選択プログラム、辞書選択方法及び辞書選択装置 図11
  • 特開-辞書選択プログラム、辞書選択方法及び辞書選択装置 図12
  • 特開-辞書選択プログラム、辞書選択方法及び辞書選択装置 図13
  • 特開-辞書選択プログラム、辞書選択方法及び辞書選択装置 図14
  • 特開-辞書選択プログラム、辞書選択方法及び辞書選択装置 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024031143
(43)【公開日】2024-03-07
(54)【発明の名称】辞書選択プログラム、辞書選択方法及び辞書選択装置
(51)【国際特許分類】
   G10L 15/22 20060101AFI20240229BHJP
   G10L 25/57 20130101ALI20240229BHJP
   G10L 25/60 20130101ALI20240229BHJP
【FI】
G10L15/22 200V
G10L25/57
G10L25/60
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022134502
(22)【出願日】2022-08-25
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】朝倉 啓介
(57)【要約】
【課題】動画像のジャンルに対応する音声認識辞書の選択を実現することを課題とする。
【解決手段】辞書選択プログラムは、動画像データの音声データと画像データのそれぞれに基づいて、動画像データ中の複数区間それぞれについて動画像データが示すジャンルを判定し、音声データと画像データのそれぞれに基づいて、動画像データ中の複数区間それぞれについて、音声の品質および画像の品質を判定し、複数区間それぞれについての、ジャンルの判定結果と、音声の品質および画像の品質の判定結果と、に基づいて、複数の音声認識辞書の中から、特定の音声認識辞書を選択する、処理をコンピュータに実行させる。
【選択図】図1
【特許請求の範囲】
【請求項1】
動画像データの音声データと画像データのそれぞれに基づいて、前記動画像データ中の複数区間それぞれについて前記動画像データが示すジャンルを判定し、
前記音声データと前記画像データのそれぞれに基づいて、前記動画像データ中の複数区間それぞれについて、音声の品質および画像の品質を判定し、
前記複数区間それぞれについての、前記ジャンルの判定結果と、前記音声の品質および前記画像の品質の判定結果と、に基づいて、複数の音声認識辞書の中から、特定の音声認識辞書を選択する、
処理をコンピュータに実行させる辞書選択プログラム。
【請求項2】
前記選択する処理は、前記複数区間に含まれる区間ごとに、前記音声の品質および前記画像の品質を比較して前記音声または前記画像のうち品質が高い方のメディアを選択し、前記音声データから判定されたジャンルおよび前記画像データから判定されたジャンルのうち前記品質が良い方のメディアに対応するジャンルを前記区間ごとに選択し、前記区間ごとに選択されたジャンルの中で選択頻度が最高であるジャンルに対応する音声認識辞書を選択する処理を含む、
ことを特徴とする請求項1に記載の辞書選択プログラム。
【請求項3】
前記複数区間それぞれについて、前記画像データに含まれる文字を抽出し、
抽出された文字に対応する単語またはフレーズを、前記選択する処理で選択された音声認識辞書に登録する、
処理を前記コンピュータにさらに実行させる請求項1に記載の辞書選択プログラム。
【請求項4】
前記抽出する処理は、前記複数区間のうち前記画像の品質が特定の条件を満たす区間について、前記画像データに含まれる文字を抽出する処理を含む、
ことを特徴とする請求項3に記載の辞書選択プログラム。
【請求項5】
前記登録する処理は、前記複数区間のうち前記画像の品質が特定の条件を満たす区間で抽出された文字に対応する単語またはフレーズを前記選択する処理で選択された音声認識辞書に登録する処理を含む、
ことを特徴とする請求項3に記載の辞書選択プログラム。
【請求項6】
動画像データの音声データと画像データのそれぞれに基づいて、前記動画像データ中の複数区間それぞれについて前記動画像データが示すジャンルを判定し、
前記音声データと前記画像データのそれぞれに基づいて、前記動画像データ中の複数区間それぞれについて、音声の品質および画像の品質を判定し、
前記複数区間それぞれについての、前記ジャンルの判定結果と、前記音声の品質および前記画像の品質の判定結果と、に基づいて、複数の音声認識辞書の中から、特定の音声認識辞書を選択する、
処理をコンピュータが実行する辞書選択方法。
【請求項7】
動画像データの音声データと画像データのそれぞれに基づいて、前記動画像データ中の複数区間それぞれについて前記動画像データが示すジャンルを判定し、
前記音声データと前記画像データのそれぞれに基づいて、前記動画像データ中の複数区間それぞれについて、音声の品質および画像の品質を判定し、
前記複数区間それぞれについての、前記ジャンルの判定結果と、前記音声の品質および前記画像の品質の判定結果と、に基づいて、複数の音声認識辞書の中から、特定の音声認識辞書を選択する、
処理を実行する制御部を含む辞書選択装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、辞書選択プログラム、辞書選択方法及び辞書選択装置に関する。
【背景技術】
【0002】
音声テキスト変換、いわゆるディクテーションは、動画像の音声データに適用される側面がある。例えば、音声通話およびビデオなどのチャット機能を通じて実施される会議がレコーディング機能により録画された動画像の音声データが音声認識エンジンへ入力されることにより会議録の文字起こしなどが実現される。
【0003】
このような文字起こしの音声認識の精度は、音声認識エンジンが認識対象とする語彙が登録された単語辞書の影響を受ける側面がある。例えば、複数の音声認識辞書のうち1つの音声認識辞書を選定する技術の1つのとして、言語モデル切替装置がある。例えば、言語モデル切替装置は、話題別に適応化された、複数個の言語モデルが用意されている場合において、音声認識結果を利用して現在進行中の話題を推定し、その話題にマッチした言語モデルに逐次切り替える。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2013-50605号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記の言語モデル切替装置では、動画像のジャンルに対応する音声認識辞書を選択するのが困難である側面がある。
【0006】
すなわち、上記の言語モデル切替装置では、下記に例示する要因により、動画像の話題と関連性が低い言語モデルへの切り替えが実行される結果、音声認識精度が低下する場合がある。例えば、入力音声にBGM(BackGround Music)やノイズが重畳する場合、音声の特徴を捉えるのが困難になるので、話題の推定精度が低下する。また、複数の話者がクロストークを行っている場合においても、音声の特徴を捉えるのが同様に困難になるので、話題の推定精度が低下する。さらに、入力音声における無音区間の割合や頻度が高い場合、音声の特徴を捉える情報が不足するので、話題の推定に誤りが増加しやすい。このように、上記の言語モデル切替装置では、ノイズ、BGM、クロストークなどの想定外の音声データが入力される場合、話題の推定精度が低下し、話題に対応する音声認識辞書を選定することが困難である。
【0007】
1つの側面では、本発明は、動画像のジャンルに対応する音声認識辞書の選択を実現できる辞書選択プログラム、辞書選択方法及び辞書選択装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
一態様にかかる辞書選択プログラムは、動画像データの音声データと画像データのそれぞれに基づいて、前記動画像データ中の複数区間それぞれについて前記動画像データが示すジャンルを判定し、前記音声データと前記画像データのそれぞれに基づいて、前記動画像データ中の複数区間それぞれについて、音声の品質および画像の品質を判定し、前記複数区間それぞれについての、前記ジャンルの判定結果と、前記音声の品質および前記画像の品質の判定結果と、に基づいて、複数の音声認識辞書の中から、特定の音声認識辞書を選択する、処理をコンピュータに実行させる。
【発明の効果】
【0009】
動画像のジャンルに対応する音声認識辞書の選択を実現できる。
【図面の簡単な説明】
【0010】
図1図1は、サーバ装置の機能構成例を示すブロック図である。
図2図2は、第1ジャンル判定モデルの一例を示す図である。
図3図3は、第2ジャンル判定モデルの一例を示す図である。
図4図4は、第1品質判定モデルの一例を示す図である。
図5図5は、第2品質判定モデルの一例を示す図である。
図6図6は、ジャンルの選択例を示す模式図(1)である。
図7図7は、ジャンルの選択例を示す模式図(2)である。
図8図8は、ジャンルの選択例を示す模式図(3)である。
図9図9は、ジャンルの選択例を示す模式図(4)である。
図10図10は、ジャンルの選択例を示す模式図(5)である。
図11図11は、ジャンルの選択結果の一例を示す図である。
図12図12は、文字抽出結果のフィルタリング結果の一例を示す図である。
図13図13は、音声認識の模式例を示す図である。
図14図14は、辞書選択処理の手順を示すフローチャートである。
図15図15は、ハードウェア構成例を示す図である。
【発明を実施するための形態】
【0011】
以下、添付図面を参照して本願に係る辞書選択プログラム、辞書選択方法及び辞書選択装置の実施例について説明する。各実施例には、あくまで1つの例や側面を示すに過ぎず、このような例示により数値や機能の範囲、利用シーンなどは限定されない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【実施例0012】
<システム構成>
図1は、サーバ装置10の機能構成例を示すブロック図である。図1に示すサーバ装置10は、動画像の音声データに音声テキスト変換、いわゆるディクテーションを適用することによりテキストを生成する文字起こし機能を提供するものである。
【0013】
このような文字起こし機能の利用シーンのあくまで一例として、音声通話およびビデオなどのチャット機能を通じて実施される会議や講演が録画された動画像の音声データが音声認識エンジンへ入力されることにより発言録が生成される場面などが挙げられる。
【0014】
サーバ装置10は、上記の文字起こし機能を提供するコンピュータの一例である。例えば、サーバ装置10は、上記の文字起こし機能をオンプレミスに提供するサーバとして実現できる。この他、サーバ装置10は、PaaS(Platform as a Service)型、あるいはSaaS(Software as a Service)型のアプリケーションとして実現することで、上記の文字起こし機能をクラウドサービスとして提供できる。
【0015】
サーバ装置10は、図1に示すように、ネットワークNWを介して、クライアント端末30と通信可能に接続され得る。例えば、ネットワークNWは、有線または無線を問わず、インターネットやLAN(Local Area Network)などの任意の種類の通信網であってよい。なお、図1には、1つのサーバ装置10につき1つのクライアント端末30が接続される例を挙げたが、任意の台数のクライアント端末30が接続されることを妨げない。
【0016】
クライアント端末30は、上記の文字起こし機能の提供を受けるコンピュータの一例に対応する。例えば、クライアント端末30は、パーソナルコンピュータを始め、スマートフォンやタブレット端末、ウェアラブル端末などの携帯端末装置により実現されてよい。
【0017】
なお、図1には、サーバ装置10が上記の文字起こし機能をクライアント端末30に提供するサービスとしての利用シーンを例に挙げるが、これはあくまで一例に過ぎない。例えば、クライアント端末30上で動作するアプリケーションが上記の文字起こし機能に対応する処理をクライアント端末30に実行させることにより、上記の文字起こし機能がスタンドアロンで提供されてもよい。
【0018】
<課題の一側面>
上記の背景技術の欄で説明した通り、上記の言語モデル切替装置では、動画像のジャンルに対応する音声認識辞書を選択するのが困難である側面がある。
【0019】
すなわち、上記の言語モデル切替装置では、下記に例示する要因により、動画像の話題と関連性が低い言語モデルへの切り替えが実行される結果、音声認識精度が低下する場合がある。例えば、入力音声にBGMやノイズが重畳する場合、音声の特徴を捉えるのが困難になるので、話題の推定精度が低下する。また、複数の話者がクロストークを行っている場合においても、音声の特徴を捉えるのが同様に困難になるので、話題の推定精度が低下する。さらに、入力音声における無音区間の割合や頻度が高い場合、音声の特徴を捉える情報が不足するので、話題の推定に誤りが増加しやすい。このように、上記の言語モデル切替装置では、ノイズ、BGM、クロストークなどの想定外の音声データが入力される場合、話題の推定精度が低下し、話題に対応する音声認識辞書を選定することが困難である。
【0020】
<課題解決アプローチの一側面>
そこで、本実施例に係る文字起こし機能には、動画像の音声および画像の品質に基づいて動画像のうち音声から判定したジャンルおよび画像から判定したジャンルのうちいずれかのジャンルに対応する音声認識辞書を選択する辞書選択機能が搭載される。
【0021】
このような辞書選択機能により、動画像のうち画像の品質が悪い場合、音声から判定したジャンルに対応する音声認識辞書を選択したり、動画像のうち音声の品質が悪い場合、画像から判定したジャンルに対応する音声認識辞書を選択したりすることができる。あるいは、動画像のうち画像の品質が良い場合、画像から判定したジャンルに対応する音声認識辞書を選択したり、動画像のうち音声の品質が良い場合、音声から判定したジャンルに対応する音声認識辞書を選択したりすることができる。
【0022】
したがって、本実施例に係る辞書選択機能によれば、動画像のジャンルに対応する音声認識辞書の選択を実現できる。
【0023】
<サーバ装置10の構成>
次に、本実施例に係るサーバ装置10の機能構成例について説明する。図1には、サーバ装置10が有する文字起こし機能に関連するブロックが模式化されている。
【0024】
図1に示すように、サーバ装置10は、受付部11と、音声抽出部12A及び12Bと、画像抽出部13と、第1ジャンル判定部14Aと、第2ジャンル判定部14Bと、第1品質判定部15Aと、第2品質判定部15Bとを有する。さらに、サーバ装置10は、辞書記憶部16Aと、選択部16と、文字抽出部17と、辞書生成部18と、音声認識部19とを有する。
【0025】
受付部11、音声抽出部12A、音声抽出部12B、画像抽出部13、第1ジャンル判定部14A、第2ジャンル判定部14B、第1品質判定部15A、第2品質判定部15B、選択部16、文字抽出部17、辞書生成部18、音声認識部19等を機能部と呼ぶ。このような機能部は、ハードウェアプロセッサにより実現され得る。例えば、ハードウェアプロセッサの例として、CPU(Central Processing Unit)やMPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、GPGPU(General-Purpose computing on GPU)が挙げられる。この他、上記の機能部は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジックにより実現されてもよい。
【0026】
辞書記憶部16Aなどの記憶部は、各種のストレージ、例えばHDD(Hard Disk Drive)、光ディスクやSSD(Solid State Drive)、あるいはストレージが有する記憶領域の一部を割り当てることにより実現され得る。
【0027】
受付部11は、クライアント端末30から各種のリクエストを受け付ける処理部である。あくまで一例として、受付部11は、クライアント端末30から文字起こしの実行を要求する文字起こしリクエストを受け付けることができる。
【0028】
このような文字起こしリクエストを受け付ける場合、受付部11は、文字起こしの対象とする動画像の指定なども受け付けることができる。1つの側面として、受付部11は、クライアント端末30から文字起こしの対象とする動画像をネットワークNWを介して受け付けることができる。他の側面として、受付部11は、図示しないファイルサーバなどに記憶された動画像の中から指定を受け付けることもできる。
【0029】
音声抽出部12A及び音声抽出部12Bは、いずれも動画像から音声データを抽出する処理部である。これら音声抽出部12Aおよび音声抽出部12Bは、動画像から分離する音声データの区間が異なる。
【0030】
1つの側面として、音声抽出部12Aは、動画像の全区間のうち特定の分析フレーム長に対応する区間ごとに当該区間に対応する音声データを抽出する。あくまで一例として、音声抽出部12Aは、フレーム周期ごとに、動画像から分離された全区間の音声データの先頭から順に特定の時間長のフレームを抽出して窓関数、例えばハニング窓を掛ける。このとき、窓関数による情報欠損を軽減する側面から、音声抽出部12Aは、前後の分析フレームを任意の割合でオーバーラップさせることができる。例えば、一定間隔、例えばフレーム周期256サンプルごとに、固定長、例えば512サンプルを分析フレーム長とすることで、オーバーラップ率を50%とすることができる。このように分析フレーム長に対応する区間ごとに抽出される音声データは、後述の第1ジャンル判定部14Aおよび後述の第1品質判定部15Aへ出力される。
【0031】
他の側面として、音声抽出部12Bは、動画像の全区間に対応する音声データを抽出する。このようにして得られた全区間に対応する音声データは、後述の音声認識部19へ出力される。
【0032】
画像抽出部13は、動画像から画像データを抽出する処理部である。あくまで一例として、画像抽出部13は、音声抽出部12Aと同期して、音声抽出部12Aにより音声データが抽出される区間ごとに当該区間に対応する画像データを抽出する。このように区間ごとに抽出される画像データは、後述の第2ジャンル判定部14Bおよび後述の第2品質判定部15Bへ出力される。
【0033】
第1ジャンル判定部14Aは、音声抽出部12Aにより抽出された音声データに基づいて動画像のジャンルを判定する処理部である。このようなジャンル判定は、あくまで一例として、音声データを入力としてジャンルのクラス別の確信度を出力するクラス分類タスクを実行する機械学習モデルにより実現され得る。例えば、機械学習モデルは、音声認識タスクに用いられるLSTM(Long Short-Term Memory)やCNN(Convolutional Neural Network)などのニューラルネットワークにより実現されてよい。以下、上記の機械学習モデルを他の機械学習モデルを区別する側面から、上記の機械学習モデルのことを指して「第1ジャンル判定モデル」と表記する場合がある。
【0034】
図2は、第1ジャンル判定モデルの一例を示す図である。図2に示すように、音声データを用いるジャンル判定には、第1ジャンル判定モデルm11が用いられる。この第1ジャンル判定モデルm11の訓練には、1つの区間の時間長に対応する音声信号およびジャンルの正解ラベルが対応付けられた訓練データを含むデータセットTR11を用いることができる。例えば、図2には、データセットTR11のあくまで一例として、3つのジャンル「スポーツ」、「教養番組」および「天気予報」の正解ラベルごとに1つの区間の時間長に対応する音声信号が対応付けられた3つの訓練データが抜粋して例示されている。以下、1つの区間の時間長に対応する音声信号のことを指して「区間音声信号」と表記する場合がある。
【0035】
例えば、学習フェイズでは、区間音声信号を第1ジャンル判定モデルm11の説明変数とし、ラベルを第1ジャンル判定モデルm11の目的変数とし、任意の機械学習のアルゴリズム、例えば深層学習にしたがって第1ジャンル判定モデルm11を訓練できる。これにより、訓練済みの第1ジャンル判定モデルM11が得られる。
【0036】
推論フェイズでは、音声抽出部12Aにより抽出される区間音声信号を第1ジャンル判定モデルM11へ入力する。このように区間音声信号が入力された第1ジャンル判定モデルM11は、ジャンルのクラス別の確信度を出力する。例えば、ジャンルのクラス「天気予報」の確信度として「80%」が出力される。さらに、ジャンルのクラス「教養番組」の確信度として「15%」が出力される。さらに、ジャンルのクラス「スポーツ」の確信度として「5%」が出力される。この場合、あくまで一例として、確信度が最高であるクラス「天気予報」をジャンルの判定結果とすることができる。
【0037】
なお、ここでは、音声信号を第1ジャンル判定モデルM11へ入力する例を挙げたが、必ずしも音声信号そのものに限定されず、例えば、音声信号に対する特徴抽出により得られる特徴量などが第1ジャンル判定モデルM11に入力されることとしてもよい。
【0038】
第2ジャンル判定部14Bは、画像抽出部13により抽出された画像データに基づいて動画像のジャンルを判定する処理部である。このようなジャンル判定は、あくまで一例として、画像データを入力としてジャンルのクラス別の確信度を出力するクラス分類タスクを実行する機械学習モデルにより実現され得る。例えば、機械学習モデルは、画像認識タスクに用いられる畳み込みニューラルネットワーク、いわゆるCNN系のニューラルネットワークにより実現されてよい。以下、本欄に記載の機械学習モデルを他の機械学習モデルを区別する側面から、本欄に記載の機械学習モデルのことを指して「第2ジャンル判定モデル」と表記する場合がある。
【0039】
図3は、第2ジャンル判定モデルの一例を示す図である。図3に示すように、画像データを用いるジャンル判定には、第2ジャンル判定モデルm12が用いられる。この第2ジャンル判定モデルm12の訓練には、1つの区間に含まれる画像およびジャンルの正解ラベルが対応付けられた訓練データを含むデータセットTR12を用いることができる。例えば、図3には、データセットTR12のあくまで一例として、3つのジャンル「天気予報」、「教養番組」および「スポーツ」の正解ラベルごとに1つの区間に含まれる画像が対応付けられた3つの訓練データが抜粋して例示されている。なお、図3には、1つの区間に含まれる画像が1フレームである例を挙げるが、任意のフレーム数の画像が含まれることを妨げない。
【0040】
例えば、学習フェイズでは、画像を第2ジャンル判定モデルm12の説明変数とし、ラベルを第2ジャンル判定モデルm12の目的変数とし、任意の機械学習のアルゴリズム、例えば深層学習にしたがって第2ジャンル判定モデルm12を訓練できる。これにより、訓練済みの第2ジャンル判定モデルM12が得られる。
【0041】
推論フェイズでは、画像抽出部13により抽出される画像を第2ジャンル判定モデルM12へ入力する。このように画像が入力された第2ジャンル判定モデルM12は、ジャンルのクラス別の確信度を出力する。例えば、ジャンルのクラス「天気予報」の確信度として「80%」が出力される。さらに、ジャンルのクラス「教養番組」の確信度として「15%」が出力される。さらに、ジャンルのクラス「スポーツ」の確信度として「5%」が出力される。この場合、あくまで一例として、確信度が最高であるクラス「天気予報」をジャンルの判定結果とすることができる。
【0042】
なお、図2及び図3には、第1ジャンル判定モデルM11および第2ジャンル判定モデルM12が天気予報、スポーツ番組および教養番組の3つのクラスに分類する例を挙げたが、クラスはこれに限定されない。例えば、天気予報、スポーツ番組および教養番組以外にも、バラエティやトーク番組などのクラスをさらに分類してもよいし、2クラス以上であれば任意のクラスが分類対象に含まれてよい。
【0043】
第1品質判定部15Aは、音声抽出部12Aにより抽出された音声データに基づいて動画像のうち音声に関する品質を判定する処理部である。このような音声品質の判定は、あくまで一例として、音声データを入力として音声に関する品質のクラス別の確信度を出力するクラス分類タスクを実行する機械学習モデルにより実現され得る。例えば、機械学習モデルは、LSTMやCNNなどのニューラルネットワークにより実現されてよい。以下、本欄に記載の機械学習モデルを他の機械学習モデルを区別する側面から、本欄に記載の機械学習モデルのことを指して「第1品質判定モデル」と表記する場合がある。
【0044】
図4は、第1品質判定モデルの一例を示す図である。図4に示すように、音声品質の判定には、第1品質判定モデルm21が用いられる。この第1品質判定モデルm21の訓練には、区間音声信号および品質の正解ラベルが対応付けられた訓練データを含むデータセットTR21を用いることができる。例えば、図4には、データセットTR21のあくまで一例として、3つの正解ラベル「NG(ノイズ)」、「NG(BGM)」および「OK(正常)」ごとに区間音声信号が対応付けられた3つの訓練データが抜粋して例示されている。
【0045】
例えば、学習フェイズでは、区間音声信号を第1品質判定モデルm21の説明変数とし、ラベルを第1品質判定モデルm21の目的変数とし、任意の機械学習のアルゴリズム、例えば深層学習にしたがって第1品質判定モデルm21を訓練できる。これにより、訓練済みの第1品質判定モデルM21が得られる。
【0046】
推論フェイズでは、音声抽出部12Aにより抽出される区間音声信号を第1品質判定モデルM21へ入力する。このように区間音声信号が入力された第1品質判定モデルM21は、音声品質のクラス別の確信度を出力する。例えば、音声品質のクラス「OK」の確信度として「10%」が出力されると共に、音声品質のクラス「NG」の確信度として「90%」が出力される。この場合、あくまで一例として、確信度が最高であるクラス「NG」を音声品質の判定結果とすることができる。
【0047】
なお、ここでは、音声信号を第1品質判定モデルM21へ入力する例を挙げたが、必ずしも音声信号そのものに限定されず、例えば、音声信号に対する特徴抽出により得られる特徴量などが第1品質判定モデルM21に入力されることとしてもよい。また、ここでは、第1品質判定モデルM21の機械学習タスクが音声データをOKおよびNGの2つのクラスへ分類する2クラス分類である例を挙げたが、第1品質判定モデルM21の機械学習タスクはこれに限定されない。例えば、第1品質判定モデルM21の機械学習タスクは、音声データをノイズ、BGM、クロストーク、正常などの3つ以上の多クラスへ分類する多クラス分類であってもよい。
【0048】
第2品質判定部15Bは、画像抽出部13により抽出された画像データに基づいて動画像のうち画像に関する品質を判定する処理部である。このような画像品質の判定は、あくまで一例として、画像データを入力として画像品質のクラス別の確信度を出力するクラス分類タスクを実行する機械学習モデルにより実現され得る。例えば、機械学習モデルは、CNN系のニューラルネットワークにより実現されてよい。以下、本欄に記載の機械学習モデルを他の機械学習モデルを区別する側面から、本欄に記載の機械学習モデルのことを指して「第2品質判定モデル」と表記する場合がある。
【0049】
図5は、第2品質判定モデルの一例を示す図である。図5に示すように、画像品質の判定には、第2品質判定モデルm22が用いられる。この第2品質判定モデルm22の訓練には、1つの区間に含まれる画像および画像品質の正解ラベルが対応付けられた訓練データを含むデータセットTR22を用いることができる。例えば、図5には、データセットTR22のあくまで一例として、3つの正解ラベル「NG(シーンチェンジ)」、「NG(ピンぼけ)」および「OK(正常)」ごとに1つの区間に含まれる画像が対応付けられた3つの訓練データが抜粋して例示されている。なお、図5には、1つの区間に含まれる画像が1フレームである例を挙げるが、任意のフレーム数の画像が含まれることを妨げない。
【0050】
例えば、学習フェイズでは、画像を第2品質判定モデルm22の説明変数とし、ラベルを第2品質判定モデルm22の目的変数とし、任意の機械学習のアルゴリズム、例えば深層学習にしたがって第2品質判定モデルm22を訓練できる。これにより、訓練済みの第2品質判定モデルM22が得られる。
【0051】
推論フェイズでは、画像抽出部13により抽出される画像を第2品質判定モデルM22へ入力する。このように画像が入力された第2品質判定モデルM22は、画像品質のクラス別の確信度を出力する。例えば、画像品質のクラス「OK」の確信度として「10%」が出力されると共に、画像品質のクラス「NG」の確信度として「90%」が出力される。この場合、あくまで一例として、確信度が最高であるクラス「NG」を画像品質の判定結果とすることができる。
【0052】
なお、ここでは、第2品質判定モデルM22の機械学習タスクが画像データをOKおよびNGの2つのクラスへ分類する2クラス分類である例を挙げたが、第2品質判定モデルM22の機械学習タスクはこれに限定されない。例えば、第2品質判定モデルM22の機械学習タスクは、画像データをシーンチェンジ、ピンボケ、正常などの3つ以上の多クラスへ分類する多クラス分類であってもよい。
【0053】
選択部16は、複数の区間それぞれについての、ジャンルの判定結果と、音声品質および画像品質の判定結果と、に基づいて、複数の音声認識辞書の中から、特定の音声認識辞書を選択する処理部である。
【0054】
より詳細には、選択部16は、区間ごとに次のような処理を実行する。すなわち、選択部16は、第1品質判定部15Aにより判定される音声品質と、第2品質判定部15Bにより判定される画像品質とを比較することにより、音声または画像の2つのメディアのうち品質が良い方のメディアを選択する。そして、選択部16は、第1ジャンル判定部14Aにより音声から判定されたジャンルおよび第2ジャンル判定部14Bにより画像から判定されたジャンルのうち、品質が良い方のメディアに対応するジャンルを選択する。その上で、選択部16は、辞書記憶部16Aに記憶された複数の音声認識辞書のうち、区間ごとに選択されたジャンルの中で選択頻度が最高であるジャンルに対応する音声認識辞書を選択する。
【0055】
このような辞書記憶部16Aには、あくまで一例として、ジャンルごとに当該ジャンルに特化した音声認識辞書が記憶されてよい。ここで言う「音声認識辞書」には、音声認識エンジンが認識対象とする語彙、すなわち単語の集合がリスト化された「単語辞書」が含まれてよい。この他、「音声認識辞書」には、言語の文法、例えば単語列の生起確率などが定義された「言語モデル」、音素などの単位で音響の特徴量パターンが定義された「音響モデル」なども含まれてよい。例えば、特定のジャンルに対応するコーパスに基づいて単語辞書、言語モデルおよび音響モデルを生成することにより、特定のジャンル用の音声認識辞書を生成できる。図2および図3に示す例に従えば、辞書記憶部16Aには、ジャンル「天気予報」に特化した天気予報用、ジャンル「教養番組」に特化した教養番組用、および、ジャンル「スポーツ」に特化したスポーツ用の音声認識辞書が保存され得る。
【0056】
図6図10を用いて、選択部16によるジャンルの選択例を説明する。図6図10は、ジャンルの選択例を示す模式図(1)~(5)である。図6図10には、あくまで一例として、文字起こしリクエストが受け付けられた動画像20が区分けされた複数の区間のうち区間(イ)~区間(ホ)の時系列順に選択部16がジャンルを選択するアルゴリズムが模式化されている。
【0057】
例えば、図6には、動画像20の区間(イ)から区間音声信号21Aが音声抽出部12Aにより抽出される。この場合、区間音声信号21Aが第1ジャンル判定モデルM11および第1品質判定モデルM21へ入力される。また、動画像20の区間(イ)から画像21Bが画像抽出部13により抽出される例が示されている。この場合、画像21Bが第2ジャンル判定モデルM12および第2品質判定モデルM22へ入力される。
【0058】
このように区間音声信号21Aが入力された第1ジャンル判定モデルM11は、ジャンルのクラス別の確信度のうち最高の確信度を有するジャンルのラベル「天気予報(確信度80%)」を選択部16へ出力する。さらに、画像21Bが入力された第2ジャンル判定モデルM12は、ジャンルのクラス別の確信度のうち最高の確信度を有するジャンルのラベル「映画(確信度80%)」を選択部16へ出力する。さらに、区間音声信号21Aが入力された第1品質判定モデルM21は、音声品質のクラス別の確信度のうち最高の確信度を有する音声品質のラベル「OK(確信度80%)」を選択部16へ出力する。さらに、画像21Bが入力された第2品質判定モデルM22は、画像品質のクラス別の確信度のうち最高の確信度を有する画像品質のラベル「NG(確信度70%)」を選択部16へ出力する。
【0059】
このような入力を受け付けた選択部16は、第1品質判定モデルM21が出力する音声品質のラベル「OK(確信度80%」と、第2品質判定モデルM22が出力する画像品質のラベル「NG(確信度70%)」とを比較する。この場合、音声品質が画像品質よりも優れているので、音声または画像の2つのメディアのうち品質が良い方のメディア「音声」が選択される。この結果、第1ジャンル判定モデルM11が出力するジャンルのラベル「天気予報」および第2ジャンル判定モデルM12が出力するジャンルのラベル「映画」のうち、品質が良い方のメディア「音声」に対応するジャンル「天気予報」が選択される。
【0060】
次に、図7には、動画像20の区間(ロ)から区間音声信号22Aが音声抽出部12Aにより抽出される。この場合、区間音声信号22Aが第1ジャンル判定モデルM11および第1品質判定モデルM21へ入力される。また、動画像20の区間(ロ)から画像22Bが画像抽出部13により抽出される例が示されている。この場合、画像22Bが第2ジャンル判定モデルM12および第2品質判定モデルM22へ入力される。
【0061】
このように区間音声信号22Aが入力された第1ジャンル判定モデルM11は、ジャンルのクラス別の確信度のうち最高の確信度を有するジャンルのラベル「天気予報(確信度80%)」を選択部16へ出力する。さらに、画像22Bが入力された第2ジャンル判定モデルM12は、ジャンルのクラス別の確信度のうち最高の確信度を有するジャンルのラベル「天気予報(確信度80%)」を選択部16へ出力する。さらに、区間音声信号22Aが入力された第1品質判定モデルM21は、音声品質のクラス別の確信度のうち最高の確信度を有する音声品質のラベル「OK(確信度80%)」を選択部16へ出力する。さらに、画像22Bが入力された第2品質判定モデルM22は、画像品質のクラス別の確信度のうち最高の確信度を有する画像品質のラベル「NG(確信度80%)」を選択部16へ出力する。
【0062】
このような入力を受け付けた選択部16は、第1品質判定モデルM21が出力する音声品質のラベル「OK(確信度80%」と、第2品質判定モデルM22が出力する画像品質のラベル「NG(確信度80%)」とを比較する。この場合、音声品質が画像品質よりも優れているので、音声または画像の2つのメディアのうち品質が良い方のメディア「音声」が選択される。この結果、第1ジャンル判定モデルM11が出力するジャンルのラベル「天気予報」および第2ジャンル判定モデルM12が出力するジャンルのラベル「天気予報」のうち、品質が良い方のメディア「音声」に対応するジャンル「天気予報」が選択される。なお、区間(ロ)の例のように、第1ジャンル判定モデルM11および第2ジャンル判定モデルM12が出力するジャンルのラベルが同一である場合、音声品質および画像品質の比較をスキップすることとしてもよい。
【0063】
次に、図8には、動画像20の区間(ハ)から区間音声信号23Aが音声抽出部12Aにより抽出される。この場合、区間音声信号23Aが第1ジャンル判定モデルM11および第1品質判定モデルM21へ入力される。また、動画像20の区間(ハ)から画像23Bが画像抽出部13により抽出される例が示されている。この場合、画像23Bが第2ジャンル判定モデルM12および第2品質判定モデルM22へ入力される。
【0064】
このように区間音声信号23Aが入力された第1ジャンル判定モデルM11は、ジャンルのクラス別の確信度のうち最高の確信度を有するジャンルのラベル「天気予報(確信度80%)」を選択部16へ出力する。さらに、画像23Bが入力された第2ジャンル判定モデルM12は、ジャンルのクラス別の確信度のうち最高の確信度を有するジャンルのラベル「教養番組(確信度80%)」を選択部16へ出力する。さらに、区間音声信号23Aが入力された第1品質判定モデルM21は、音声品質のクラス別の確信度のうち最高の確信度を有する音声品質のラベル「OK(確信度80%)」を選択部16へ出力する。さらに、画像23Bが入力された第2品質判定モデルM22は、画像品質のクラス別の確信度のうち最高の確信度を有する画像品質のラベル「OK(確信度70%)」を選択部16へ出力する。
【0065】
このような入力を受け付けた選択部16は、第1品質判定モデルM21が出力する音声品質のラベル「OK(確信度80%」と、第2品質判定モデルM22が出力する画像品質のラベル「OK(確信度70%)」とを比較する。この場合、音声品質が画像品質よりも優れているので、音声または画像の2つのメディアのうち品質が良い方のメディア「音声」が選択される。この結果、第1ジャンル判定モデルM11が出力するジャンルのラベル「天気予報」および第2ジャンル判定モデルM12が出力するジャンルのラベル「教養番組」のうち、品質が良い方のメディア「音声」に対応するジャンル「天気予報」が選択される。
【0066】
次に、図9には、動画像20の区間(ニ)から区間音声信号24Aが音声抽出部12Aにより抽出される。この場合、区間音声信号24Aが第1ジャンル判定モデルM11および第1品質判定モデルM21へ入力される。また、動画像20の区間(ニ)から画像24Bが画像抽出部13により抽出される例が示されている。この場合、画像24Bが第2ジャンル判定モデルM12および第2品質判定モデルM22へ入力される。
【0067】
このように区間音声信号24Aが入力された第1ジャンル判定モデルM11は、ジャンルのクラス別の確信度のうち最高の確信度を有するジャンルのラベル「スポーツ番組(確信度40%)」を選択部16へ出力する。さらに、画像24Bが入力された第2ジャンル判定モデルM12は、ジャンルのクラス別の確信度のうち最高の確信度を有するジャンルのラベル「教養番組(確信度40%)」を選択部16へ出力する。さらに、区間音声信号24Aが入力された第1品質判定モデルM21は、音声品質のクラス別の確信度のうち最高の確信度を有する音声品質のラベル「NG(確信度80%)」を選択部16へ出力する。さらに、画像24Bが入力された第2品質判定モデルM22は、画像品質のクラス別の確信度のうち最高の確信度を有する画像品質のラベル「OK(確信度90%)」を選択部16へ出力する。
【0068】
このような入力を受け付けた選択部16は、第1品質判定モデルM21が出力する音声品質のラベル「NG(確信度80%」と、第2品質判定モデルM22が出力する画像品質のラベル「OK(確信度90%)」とを比較する。この場合、画像品質が音声品質よりも優れているので、音声または画像の2つのメディアのうち品質が良い方のメディア「画像」が選択される。この結果、第1ジャンル判定モデルM11が出力するジャンルのラベル「スポーツ番組」および第2ジャンル判定モデルM12が出力するジャンルのラベル「教養番組」のうち、品質が良い方のメディア「画像」に対応するジャンル「教養番組」が選択される。
【0069】
最後に、図10には、動画像20の区間(ホ)から区間音声信号25Aが音声抽出部12Aにより抽出される。この場合、区間音声信号25Aが第1ジャンル判定モデルM11および第1品質判定モデルM21へ入力される。また、動画像20の区間(ホ)から画像25Bが画像抽出部13により抽出される例が示されている。この場合、画像25Bが第2ジャンル判定モデルM12および第2品質判定モデルM22へ入力される。
【0070】
このように区間音声信号25Aが入力された第1ジャンル判定モデルM11は、ジャンルのクラス別の確信度のうち最高の確信度を有するジャンルのラベル「スポーツ番組(確信度40%)」を選択部16へ出力する。さらに、画像25Bが入力された第2ジャンル判定モデルM12は、ジャンルのクラス別の確信度のうち最高の確信度を有するジャンルのラベル「天気予報(確信度100%)」を選択部16へ出力する。さらに、区間音声信号25Aが入力された第1品質判定モデルM21は、音声品質のクラス別の確信度のうち最高の確信度を有する音声品質のラベル「NG(確信度90%)」を選択部16へ出力する。さらに、画像25Bが入力された第2品質判定モデルM22は、画像品質のクラス別の確信度のうち最高の確信度を有する画像品質のラベル「OK(確信度100%)」を選択部16へ出力する。
【0071】
このような入力を受け付けた選択部16は、第1品質判定モデルM21が出力する音声品質のラベル「NG(確信度90%」と、第2品質判定モデルM22が出力する画像品質のラベル「OK(確信度100%)」とを比較する。この場合、画像品質が音声品質よりも優れているので、音声または画像の2つのメディアのうち品質が良い方のメディア「画像」が選択される。この結果、第1ジャンル判定モデルM11が出力するジャンルのラベル「スポーツ番組」および第2ジャンル判定モデルM12が出力するジャンルのラベル「天気予報」のうち、品質が良い方のメディア「画像」に対応するジャンル「天気予報」が選択される。
【0072】
これら区間(イ)~区間(ホ)の各々でジャンルが選択された選択結果は、図11に示す通りとなる。図11は、ジャンルの選択結果の一例を示す図である。例えば、図11に示すジャンル「天気予報」の例で言えば、選択頻度の一例である度数は「4」、選択頻度の他の一例である確率は「80%」である。また、図11に示すジャンル「教養番組」のの例で言えば、選択頻度の一例である度数は「1」、選択頻度の他の一例である確率は「20%」である。この場合、ジャンル「天気予報」の選択頻度が最高であるので、辞書記憶部16Aに記憶された複数の音声認識辞書のうち、区間(イ)~区間(ホ)ごとに選択されたジャンルの中で選択頻度が最高であるジャンル「天気予報」に対応する音声認識辞書が選択される。
【0073】
図1の説明に戻り、文字抽出部17は、画像抽出部13により抽出される画像データから文字を抽出する処理部である。あくまで一例として、文字抽出部17は、いわゆるOCR(Optical Character Recognition)機能により実現されてよい。このようなOCR機能は、文字特徴の抽出やパターンマッチングなどの画像処理により実現されてもよいし、文字認識タスクの機械学習モデルにより実現されてもよい。
【0074】
ここで、文字抽出部17は、選択部16により選択された音声認識辞書、例えば単語辞書や単語辞書の一種であるユーザ辞書に特定のジャンルの語彙を追加する側面から、画像抽出部13により動画像から抽出された画像から文字をさらに抽出する。このため、文字抽出部17は、画像抽出部13により画像が抽出される度、すなわち区間ごとに動作することとしてもよいが、第2品質判定部15Bにより判定された画像品質の確信度が閾値Th、例えば70%以上である場合に絞り込んで動作することもできる。
【0075】
これにより、動画像のジャンルと関連性が低い文字列が動画像のテロップなどで再生される場合、テロップに関する単語やフレーズが音声認識辞書に登録されるのを抑制したり、その文字抽出処理にリソースを割くのを抑制したりできる。例えば、動画像には、地震速報や選挙速報、号外速報などの速報のテロップが挿入される場合がある。このようなテロップは、動画像の作成や配信の趣旨とは異なる可能性が高いので、テロップに関する単語やフレーズが音声認識辞書に登録されるのを抑制することには技術的意義がある。
【0076】
辞書生成部18は、選択部16による音声認識辞書の選択結果および文字抽出部17による文字抽出結果に基づいて音声認識エンジンに適用する音声認識辞書を生成する処理部である。あくまで一例として、辞書生成部18は、辞書記憶部16Aに記憶された複数の音声認識辞書のうち、選択部16により選択された音声認識辞書を取得する。そして、辞書生成部18は、第2品質判定部15Bにより判定された画像品質が閾値Th以上である区間で文字抽出部17により抽出された文字に対応する単語やフレーズを、選択部16により選択された音声認識辞書、例えば単語辞書やそのユーザ辞書に登録する。
【0077】
例えば、図6および図7に示す区間(イ)および区間(ロ)の例で言えば、画像品質が閾値Th、例えば70%以上でないので、文字抽出部17による文字抽出結果21Cおよび文字抽出結果22Cは音声認識辞書への登録が禁止される。その一方で、図8図10に示す区間(ハ)~区間(ホ)の例で言えば、画像品質が閾値Th、例えば70%以上であるので、文字抽出部17による文字抽出結果23C、文字抽出結果24Cおよび文字抽出結果25Cは音声認識辞書への登録が許可される。
【0078】
つまり、文字抽出部17による文字抽出結果のフィルタリング結果は図12に示す通りとなる。図12は、文字抽出結果のフィルタリング結果の一例を示す図である。図12に示すように、選択部16により選択された天気予報用辞書には、区間(ハ)~区間(ホ)における文字抽出結果23C、文字抽出結果24Cおよび文字抽出結果25Cの登録が許可される。例えば、区間(ニ)で抽出された単語「栃木」および単語「曇り」が天気予報用辞書に追加される。さらに、区間(ホ)で抽出された単語「群馬」および単語「雷」が天気予報用辞書に追加される。なお、区間(ハ)の文字抽出結果23Cの通り、文字が抽出されない場合、当然のことながら、音声認識辞書への登録は実施されずともよい。
【0079】
なお、ここでは、音声認識辞書に対する単語やフレーズの登録条件の例として、画像品質が閾値Th以上である条件を挙げたが、これに限定されない。例えば、テロップに高頻度に出現する単語、例えば「地震」や「選挙」、「号外」、「速報」などが文字抽出部17による文字抽出結果に含まれない区間を対象に、音声認識辞書に対する単語やフレームの登録を実施することとしてもよい。
【0080】
音声認識部19は、音声認識を実行する処理部である。このような音声認識は、あくまで一例して、任意の音声認識エンジンにより実現されてよい。あくまで一例として、音声認識部19は、音声抽出部12Bにより動画像から抽出された全区間の音声データを、辞書生成部18により生成された音声認識辞書が適用された音声認識エンジンに入力する。これにより、音声認識エンジンは、動画像の全区間の音声データがテキストへ変換されたテキストデータを音声認識結果として出力する。このような音声認識結果がクライアント端末30へレスポンスされる。
【0081】
図13は、音声認識の模式例を示す図である。図13に示すように、音声抽出部12Bにより動画像20から全区間の音声信号が抽出される。このように抽出された動画像20の全区間の音声信号は、辞書生成部18により生成された天気予報用辞書18Aが適用された音声認識エンジン19Aへ入力される。これにより、音声認識エンジン19Aは、動画像20の全区間の音声信号がテキストへ変換されたテキストデータを音声認識結果40として出力する。このようにして得られた音声認識結果40は、文字起こしリクエストのレスポンスとしてクライアント端末30へ出力される。
【0082】
<処理の流れ>
図14は、辞書選択処理の手順を示すフローチャートである。この処理は、あくまで一例として、クライアント端末30から文字起こしリクエストを受け付けた場合に実行され得る。図14に示すように、受付部11は、文字起こし対象として指定された動画像を受け付ける(ステップS100)。
【0083】
その後、ステップS100で受け付けられた動画像が分割される区間の個数Mに対応する回数の分、下記のステップS101から下記のステップS107までの処理を反復するループ処理1が実行される。なお、図14には、ステップS101からステップS107までの処理が反復される例を挙げるが、ステップS101からステップS107までの処理は並列して実行されてもよい。
【0084】
すなわち、音声抽出部12Aは、ステップS100で受け付けられた動画像のm番目の区間に対応する音声データを抽出する(ステップS101A)。そして、第1ジャンル判定部14Aは、ステップS101Aで抽出された音声データに基づいてm番目の区間のジャンルを判定する(ステップS102A)。さらに、第1品質判定部15Aは、ステップS101Aで抽出された抽出された音声データに基づいてm番目の区間の音声品質を判定する(ステップS103A)。
【0085】
なお、図14には、ステップS102A、ステップS103Aの順に処理が実行される例を挙げたが、ステップS102AおよびステップS103Aは順不同で実行することができる。
【0086】
これらステップS101AからステップS103Aまでの処理と並行して、ステップS101BからステップS105Bまでの処理が実行される。
【0087】
すなわち、画像抽出部13は、ステップS100で受け付けられた動画像のm番目の区間に対応する画像データを抽出する(ステップS101B)。そして、第2ジャンル判定部14Bは、ステップS101Bで抽出された画像データに基づいてm番目の区間のジャンルを判定する(ステップS102B)。さらに、第2品質判定部15Bは、ステップS101Bで抽出された抽出された画像データに基づいてm番目の区間の画像品質を判定する(ステップS103B)。
【0088】
このとき、画像品質の確信度が閾値Th、例えば70%以上である場合(ステップS104B Yes)、文字抽出部17は、ステップS101Bで抽出された画像データから文字を抽出する(ステップS105B)。なお、画像品質の確信度が閾値Th、例えば70%未満である場合(ステップS104B No)、ステップS105Bの処理はスキップされる。
【0089】
その後、選択部16は、ステップS103Aで判定された音声品質と、ステップS103Bで判定された画像品質とを比較することにより、音声または画像の2つのメディアのうち品質が良い方のメディアを選択する(ステップS106)。
【0090】
そして、選択部16は、ステップS102Aで音声から判定されたジャンルおよびステップS102Bで画像から判定されたジャンルのうち、ステップS106で選択された、品質が良い方のメディアに対応するジャンルを選択する(ステップS107)。
【0091】
このようなループ処理1が反復されることにより、動画像が分割されたM個の区間ごとにジャンルの選択結果が得られる。
【0092】
その上で、選択部16は、辞書記憶部16Aに記憶された複数の音声認識辞書のうち、区間ごとに選択されたジャンルの中で選択頻度が最高であるジャンルに対応する音声認識辞書を選択する(ステップS108)。
【0093】
そして、辞書生成部18は、辞書記憶部16A内の複数の音声認識辞書のうち、ステップS108で選択された音声認識辞書、例えば単語辞書やそのユーザ辞書に、ステップS105Bで抽出された文字に対応する単語やフレーズを登録する(ステップS109)。
【0094】
<効果の一側面>
上述してきたように、本実施例に係るサーバ装置10は、動画像のうち音声から判定したジャンルまたは画像から判定したジャンルのいずれを音声認識辞書の選択に用いるのかを音声および画像の品質に基づいて決定する。
【0095】
これにより、動画像のうち画像の品質が悪い場合、音声から判定したジャンルに対応する音声認識辞書を選択したり、動画像のうち音声の品質が悪い場合、画像から判定したジャンルに対応する音声認識辞書を選択したりすることができる。あるいは、動画像のうち画像の品質が良い場合、画像から判定したジャンルに対応する音声認識辞書を選択したり、動画像のうち音声の品質が良い場合、音声から判定したジャンルに対応する音声認識辞書を選択したりすることができる。
【0096】
したがって、本実施例に係るサーバ装置10によれば、動画像のジャンルに対応する音声認識辞書の選択を実現できる。
【実施例0097】
さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。
【0098】
<応用例>
上記の実施例1では、区間ごとにジャンルを選択する際、音声品質および画像品質に基づいてジャンルを選択する例を挙げたが、これに限定されない。例えば、第1ジャンル判定モデルM11が出力するジャンルの確信度および第2ジャンル判定モデルM12が出力するジャンルの確信度のうち、確信度が高い方のジャンルを選択することもできる。この場合、必ずしも音声品質および画像品質の判定は実行されずともよい。
【0099】
<分散および統合>
また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されておらずともよい。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、受付部11、音声抽出部12A、音声抽出部12B、画像抽出部13、第1ジャンル判定部14A、第2ジャンル判定部14B、第1品質判定部15A、第2品質判定部15B、選択部16、文字抽出部17、辞書生成部18または音声認識部19をサーバ装置10の外部装置としてネットワーク経由で接続するようにしてもよい。また、受付部11、音声抽出部12A、音声抽出部12B、画像抽出部13、第1ジャンル判定部14A、第2ジャンル判定部14B、第1品質判定部15A、第2品質判定部15B、選択部16、文字抽出部17、辞書生成部18または音声認識部19を別の装置がそれぞれ有し、ネットワーク接続されて協働することで、サーバ装置10の機能を実現するようにしてもよい。
【0100】
<ハードウェア構成>
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図15を用いて、実施例1及び実施例2と同様の機能を有する辞書選択プログラムを実行するコンピュータの一例について説明する。
【0101】
図15は、ハードウェア構成例を示す図である。図15に示すように、コンピュータ100は、操作部110aと、スピーカ110bと、カメラ110cと、ディスプレイ120と、通信部130とを有する。さらに、このコンピュータ100は、CPU150と、ROM160と、HDD170と、RAM180とを有する。これら110~180の各部はバス140を介して接続される。なお、ここでは、ハードウェアプロセッサの例として、CPU150を例に挙げたが、GPUやGPUクラスタなどにより実現されてもよい。
【0102】
HDD170には、図15に示すように、上記の実施例1で示された受付部11、音声抽出部12A、画像抽出部13、第1ジャンル判定部14A、第2ジャンル判定部14B、第1品質判定部15A、第2品質判定部15B、選択部16、文字抽出部17および辞書生成部18と同様の機能を発揮する辞書選択プログラム170aが記憶される。この辞書選択プログラム170aは、図1に示した受付部11、音声抽出部12A、画像抽出部13、第1ジャンル判定部14A、第2ジャンル判定部14B、第1品質判定部15A、第2品質判定部15B、選択部16、文字抽出部17および辞書生成部18の各構成要素と同様、統合又は分離してもよい。すなわち、HDD170には、必ずしも上記の実施例1で示した全てのデータが格納されずともよく、処理に用いるデータがHDD170に格納されればよい。
【0103】
このような環境の下、CPU150は、HDD170から辞書選択プログラム170aを読み出した上でRAM180へ展開する。この結果、辞書選択プログラム170aは、図15に示すように、辞書選択プロセス180aとして機能する。この辞書選択プロセス180aは、RAM180が有する記憶領域のうち辞書選択プロセス180aに割り当てられた領域にHDD170から読み出した各種データを展開し、展開された各種データを用いて各種の処理を実行する。例えば、辞書選択プロセス180aが実行する処理の一例として、図14に示す処理などが含まれ得る。なお、CPU150では、必ずしも上記の実施例1で示した全ての処理部が動作せずともよく、実行対象とする処理に対応する処理部が仮想的に実現されればよい。
【0104】
なお、上記の辞書選択プログラム170aは、必ずしも最初からHDD170やROM160に記憶されておらずともかまわない。例えば、コンピュータ100に挿入されるフレキシブルディスク、いわゆるFD、CD-ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に辞書選択プログラム170aを記憶させる。そして、コンピュータ100がこれらの可搬用の物理媒体から辞書選択プログラム170aを取得して実行するようにしてもよい。また、公衆回線、インターネット、LAN、WANなどを介してコンピュータ100に接続される他のコンピュータまたはサーバ装置などに辞書選択プログラム170aを記憶させておく。このように記憶された辞書選択プログラム170aをコンピュータ100にダウンロードさせた上で実行させるようにしてもよい。
【0105】
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
【0106】
(付記1)動画像データの音声データと画像データのそれぞれに基づいて、前記動画像データ中の複数区間それぞれについて前記動画像データが示すジャンルを判定し、
前記音声データと前記画像データのそれぞれに基づいて、前記動画像データ中の複数区間それぞれについて、音声の品質および画像の品質を判定し、
前記複数区間それぞれについての、前記ジャンルの判定結果と、前記音声の品質および前記画像の品質の判定結果と、に基づいて、複数の音声認識辞書の中から、特定の音声認識辞書を選択する、
処理をコンピュータに実行させる辞書選択プログラム。
【0107】
(付記2)前記選択する処理は、前記複数区間に含まれる区間ごとに、前記音声の品質および前記画像の品質を比較して前記音声または前記画像のうち品質が高い方のメディアを選択し、前記音声データから判定されたジャンルおよび前記画像データから判定されたジャンルのうち前記品質が良い方のメディアに対応するジャンルを前記区間ごとに選択し、前記区間ごとに選択されたジャンルの中で選択頻度が最高であるジャンルに対応する音声認識辞書を選択する処理を含む、
ことを特徴とする付記1に記載の辞書選択プログラム。
【0108】
(付記3)前記複数区間それぞれについて、前記画像データに含まれる文字を抽出し、
抽出された文字に対応する単語またはフレーズを、前記選択する処理で選択された音声認識辞書に登録する、
処理を前記コンピュータにさらに実行させる付記1に記載の辞書選択プログラム。
【0109】
(付記4)前記抽出する処理は、前記複数区間のうち前記画像の品質が特定の条件を満たす区間について、前記画像データに含まれる文字を抽出する処理を含む、
ことを特徴とする付記3に記載の辞書選択プログラム。
【0110】
(付記5)前記登録する処理は、前記複数区間のうち前記画像の品質が特定の条件を満たす区間で抽出された文字に対応する単語またはフレーズを前記選択する処理で選択された音声認識辞書に登録する処理を含む、
ことを特徴とする付記3に記載の辞書選択プログラム。
【0111】
(付記6)前記選択する処理で選択された音声認識辞書を用いて前記動画像の前記音声データに音声認識を実行する処理を前記コンピュータにさらに実行させる、
ことを特徴とする付記1に記載の辞書選択プログラム。
【0112】
(付記7)動画像データの音声データと画像データのそれぞれに基づいて、前記動画像データ中の複数区間それぞれについて前記動画像データが示すジャンルを判定し、
前記音声データと前記画像データのそれぞれに基づいて、前記動画像データ中の複数区間それぞれについて、音声の品質および画像の品質を判定し、
前記複数区間それぞれについての、前記ジャンルの判定結果と、前記音声の品質および前記画像の品質の判定結果と、に基づいて、複数の音声認識辞書の中から、特定の音声認識辞書を選択する、
処理をコンピュータが実行する辞書選択方法。
【0113】
(付記8)前記選択する処理は、前記複数区間に含まれる区間ごとに、前記音声の品質および前記画像の品質を比較して前記音声または前記画像のうち品質が高い方のメディアを選択し、前記音声データから判定されたジャンルおよび前記画像データから判定されたジャンルのうち前記品質が良い方のメディアに対応するジャンルを前記区間ごとに選択し、前記区間ごとに選択されたジャンルの中で選択頻度が最高であるジャンルに対応する音声認識辞書を選択する処理を含む、
ことを特徴とする付記7に記載の辞書選択方法。
【0114】
(付記9)前記複数区間それぞれについて、前記画像データに含まれる文字を抽出し、
抽出された文字に対応する単語またはフレーズを、前記選択する処理で選択された音声認識辞書に登録する、
処理を前記コンピュータがさらに実行する付記7に記載の辞書選択方法。
【0115】
(付記10)前記抽出する処理は、前記複数区間のうち前記画像の品質が特定の条件を満たす区間について、前記画像データに含まれる文字を抽出する処理を含む、
ことを特徴とする付記9に記載の辞書選択方法。
【0116】
(付記11)前記登録する処理は、前記複数区間のうち前記画像の品質が特定の条件を満たす区間で抽出された文字に対応する単語またはフレーズを前記選択する処理で選択された音声認識辞書に登録する処理を含む、
ことを特徴とする付記9に記載の辞書選択方法。
【0117】
(付記12)前記選択する処理で選択された音声認識辞書を用いて前記動画像の前記音声データに音声認識を実行する処理を前記コンピュータがさらに実行する、
ことを特徴とする付記7に記載の辞書選択方法。
【0118】
(付記13)動画像データの音声データと画像データのそれぞれに基づいて、前記動画像データ中の複数区間それぞれについて前記動画像データが示すジャンルを判定し、
前記音声データと前記画像データのそれぞれに基づいて、前記動画像データ中の複数区間それぞれについて、音声の品質および画像の品質を判定し、
前記複数区間それぞれについての、前記ジャンルの判定結果と、前記音声の品質および前記画像の品質の判定結果と、に基づいて、複数の音声認識辞書の中から、特定の音声認識辞書を選択する、
処理を実行する制御部を含む辞書選択装置。
【0119】
(付記14)前記選択する処理は、前記複数区間に含まれる区間ごとに、前記音声の品質および前記画像の品質を比較して前記音声または前記画像のうち品質が高い方のメディアを選択し、前記音声データから判定されたジャンルおよび前記画像データから判定されたジャンルのうち前記品質が良い方のメディアに対応するジャンルを前記区間ごとに選択し、前記区間ごとに選択されたジャンルの中で選択頻度が最高であるジャンルに対応する音声認識辞書を選択する処理を含む、
ことを特徴とする付記13に記載の辞書選択装置。
【0120】
(付記15)前記複数区間それぞれについて、前記画像データに含まれる文字を抽出し、
抽出された文字に対応する単語またはフレーズを、前記選択する処理で選択された音声認識辞書に登録する、
処理を前記制御部がさらに実行する付記13に記載の辞書選択装置。
【0121】
(付記16)前記抽出する処理は、前記複数区間のうち前記画像の品質が特定の条件を満たす区間について、前記画像データに含まれる文字を抽出する処理を含む、
ことを特徴とする付記15に記載の辞書選択装置。
【0122】
(付記17)前記登録する処理は、前記複数区間のうち前記画像の品質が特定の条件を満たす区間で抽出された文字に対応する単語またはフレーズを前記選択する処理で選択された音声認識辞書に登録する処理を含む、
ことを特徴とする付記15に記載の辞書選択装置。
【0123】
(付記18)前記選択する処理で選択された音声認識辞書を用いて前記動画像の前記音声データに音声認識を実行する処理を前記制御部がさらに実行する、
ことを特徴とする付記13に記載の辞書選択装置。
【符号の説明】
【0124】
10 サーバ装置
11 受付部
12A 音声抽出部
12B 音声抽出部
13 画像抽出部
14A 第1ジャンル判定部
14B 第2ジャンル判定部
15A 第1品質判定部
15B 第2品質判定部
16 選択部
16A 辞書記憶部
17 文字抽出部
18 辞書生成部
19 音声認識部
30 クライアント端末
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15