特開2024-31143 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-31143辞書選択プログラム、辞書選択方法及び辞書選択装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024031143

(43)【公開日】2024-03-07

(54)【発明の名称】辞書選択プログラム、辞書選択方法及び辞書選択装置

(51)【国際特許分類】

G10L 15/22 20060101AFI20240229BHJP

G10L 25/57 20130101ALI20240229BHJP

G10L 25/60 20130101ALI20240229BHJP

【ＦＩ】

G10L15/22 200V

G10L25/57

G10L25/60

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2022134502

(22)【出願日】2022-08-25

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】朝倉啓介

(57)【要約】

【課題】動画像のジャンルに対応する音声認識辞書の選択を実現することを課題とする。
【解決手段】辞書選択プログラムは、動画像データの音声データと画像データのそれぞれに基づいて、動画像データ中の複数区間それぞれについて動画像データが示すジャンルを判定し、音声データと画像データのそれぞれに基づいて、動画像データ中の複数区間それぞれについて、音声の品質および画像の品質を判定し、複数区間それぞれについての、ジャンルの判定結果と、音声の品質および画像の品質の判定結果と、に基づいて、複数の音声認識辞書の中から、特定の音声認識辞書を選択する、処理をコンピュータに実行させる。
【選択図】図１

【特許請求の範囲】

【請求項1】

動画像データの音声データと画像データのそれぞれに基づいて、前記動画像データ中の複数区間それぞれについて前記動画像データが示すジャンルを判定し、
前記音声データと前記画像データのそれぞれに基づいて、前記動画像データ中の複数区間それぞれについて、音声の品質および画像の品質を判定し、
前記複数区間それぞれについての、前記ジャンルの判定結果と、前記音声の品質および前記画像の品質の判定結果と、に基づいて、複数の音声認識辞書の中から、特定の音声認識辞書を選択する、
処理をコンピュータに実行させる辞書選択プログラム。

【請求項2】

前記選択する処理は、前記複数区間に含まれる区間ごとに、前記音声の品質および前記画像の品質を比較して前記音声または前記画像のうち品質が高い方のメディアを選択し、前記音声データから判定されたジャンルおよび前記画像データから判定されたジャンルのうち前記品質が良い方のメディアに対応するジャンルを前記区間ごとに選択し、前記区間ごとに選択されたジャンルの中で選択頻度が最高であるジャンルに対応する音声認識辞書を選択する処理を含む、
ことを特徴とする請求項１に記載の辞書選択プログラム。

【請求項3】

前記複数区間それぞれについて、前記画像データに含まれる文字を抽出し、
抽出された文字に対応する単語またはフレーズを、前記選択する処理で選択された音声認識辞書に登録する、
処理を前記コンピュータにさらに実行させる請求項１に記載の辞書選択プログラム。

【請求項4】

前記抽出する処理は、前記複数区間のうち前記画像の品質が特定の条件を満たす区間について、前記画像データに含まれる文字を抽出する処理を含む、
ことを特徴とする請求項３に記載の辞書選択プログラム。

【請求項5】

前記登録する処理は、前記複数区間のうち前記画像の品質が特定の条件を満たす区間で抽出された文字に対応する単語またはフレーズを前記選択する処理で選択された音声認識辞書に登録する処理を含む、
ことを特徴とする請求項３に記載の辞書選択プログラム。

【請求項6】

【請求項7】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、辞書選択プログラム、辞書選択方法及び辞書選択装置に関する。

【背景技術】

【0002】

音声テキスト変換、いわゆるディクテーションは、動画像の音声データに適用される側面がある。例えば、音声通話およびビデオなどのチャット機能を通じて実施される会議がレコーディング機能により録画された動画像の音声データが音声認識エンジンへ入力されることにより会議録の文字起こしなどが実現される。

【0003】

このような文字起こしの音声認識の精度は、音声認識エンジンが認識対象とする語彙が登録された単語辞書の影響を受ける側面がある。例えば、複数の音声認識辞書のうち１つの音声認識辞書を選定する技術の１つのとして、言語モデル切替装置がある。例えば、言語モデル切替装置は、話題別に適応化された、複数個の言語モデルが用意されている場合において、音声認識結果を利用して現在進行中の話題を推定し、その話題にマッチした言語モデルに逐次切り替える。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１３－５０６０５号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、上記の言語モデル切替装置では、動画像のジャンルに対応する音声認識辞書を選択するのが困難である側面がある。

【0006】

すなわち、上記の言語モデル切替装置では、下記に例示する要因により、動画像の話題と関連性が低い言語モデルへの切り替えが実行される結果、音声認識精度が低下する場合がある。例えば、入力音声にＢＧＭ（BackGround Music）やノイズが重畳する場合、音声の特徴を捉えるのが困難になるので、話題の推定精度が低下する。また、複数の話者がクロストークを行っている場合においても、音声の特徴を捉えるのが同様に困難になるので、話題の推定精度が低下する。さらに、入力音声における無音区間の割合や頻度が高い場合、音声の特徴を捉える情報が不足するので、話題の推定に誤りが増加しやすい。このように、上記の言語モデル切替装置では、ノイズ、ＢＧＭ、クロストークなどの想定外の音声データが入力される場合、話題の推定精度が低下し、話題に対応する音声認識辞書を選定することが困難である。

【0007】

１つの側面では、本発明は、動画像のジャンルに対応する音声認識辞書の選択を実現できる辞書選択プログラム、辞書選択方法及び辞書選択装置を提供することを目的とする。

【課題を解決するための手段】

【0008】

一態様にかかる辞書選択プログラムは、動画像データの音声データと画像データのそれぞれに基づいて、前記動画像データ中の複数区間それぞれについて前記動画像データが示すジャンルを判定し、前記音声データと前記画像データのそれぞれに基づいて、前記動画像データ中の複数区間それぞれについて、音声の品質および画像の品質を判定し、前記複数区間それぞれについての、前記ジャンルの判定結果と、前記音声の品質および前記画像の品質の判定結果と、に基づいて、複数の音声認識辞書の中から、特定の音声認識辞書を選択する、処理をコンピュータに実行させる。

【発明の効果】

【0009】

動画像のジャンルに対応する音声認識辞書の選択を実現できる。

【図面の簡単な説明】

【0010】

【図1】図１は、サーバ装置の機能構成例を示すブロック図である。

【図2】図２は、第１ジャンル判定モデルの一例を示す図である。

【図3】図３は、第２ジャンル判定モデルの一例を示す図である。

【図4】図４は、第１品質判定モデルの一例を示す図である。

【図5】図５は、第２品質判定モデルの一例を示す図である。

【図6】図６は、ジャンルの選択例を示す模式図（１）である。

【図7】図７は、ジャンルの選択例を示す模式図（２）である。

【図8】図８は、ジャンルの選択例を示す模式図（３）である。

【図9】図９は、ジャンルの選択例を示す模式図（４）である。

【図10】図１０は、ジャンルの選択例を示す模式図（５）である。

【図11】図１１は、ジャンルの選択結果の一例を示す図である。

【図12】図１２は、文字抽出結果のフィルタリング結果の一例を示す図である。

【図13】図１３は、音声認識の模式例を示す図である。

【図14】図１４は、辞書選択処理の手順を示すフローチャートである。

【図15】図１５は、ハードウェア構成例を示す図である。

【発明を実施するための形態】

【0011】

以下、添付図面を参照して本願に係る辞書選択プログラム、辞書選択方法及び辞書選択装置の実施例について説明する。各実施例には、あくまで１つの例や側面を示すに過ぎず、このような例示により数値や機能の範囲、利用シーンなどは限定されない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

【実施例0012】

＜システム構成＞
図１は、サーバ装置１０の機能構成例を示すブロック図である。図１に示すサーバ装置１０は、動画像の音声データに音声テキスト変換、いわゆるディクテーションを適用することによりテキストを生成する文字起こし機能を提供するものである。

【0013】

このような文字起こし機能の利用シーンのあくまで一例として、音声通話およびビデオなどのチャット機能を通じて実施される会議や講演が録画された動画像の音声データが音声認識エンジンへ入力されることにより発言録が生成される場面などが挙げられる。

【0014】

サーバ装置１０は、上記の文字起こし機能を提供するコンピュータの一例である。例えば、サーバ装置１０は、上記の文字起こし機能をオンプレミスに提供するサーバとして実現できる。この他、サーバ装置１０は、ＰａａＳ（Platform as a Service）型、あるいはＳａａＳ（Software as a Service）型のアプリケーションとして実現することで、上記の文字起こし機能をクラウドサービスとして提供できる。

【0015】

サーバ装置１０は、図１に示すように、ネットワークＮＷを介して、クライアント端末３０と通信可能に接続され得る。例えば、ネットワークＮＷは、有線または無線を問わず、インターネットやＬＡＮ（Local Area Network）などの任意の種類の通信網であってよい。なお、図１には、１つのサーバ装置１０につき１つのクライアント端末３０が接続される例を挙げたが、任意の台数のクライアント端末３０が接続されることを妨げない。

【0016】

クライアント端末３０は、上記の文字起こし機能の提供を受けるコンピュータの一例に対応する。例えば、クライアント端末３０は、パーソナルコンピュータを始め、スマートフォンやタブレット端末、ウェアラブル端末などの携帯端末装置により実現されてよい。

【0017】

なお、図１には、サーバ装置１０が上記の文字起こし機能をクライアント端末３０に提供するサービスとしての利用シーンを例に挙げるが、これはあくまで一例に過ぎない。例えば、クライアント端末３０上で動作するアプリケーションが上記の文字起こし機能に対応する処理をクライアント端末３０に実行させることにより、上記の文字起こし機能がスタンドアロンで提供されてもよい。

【0018】

＜課題の一側面＞
上記の背景技術の欄で説明した通り、上記の言語モデル切替装置では、動画像のジャンルに対応する音声認識辞書を選択するのが困難である側面がある。

【0019】

すなわち、上記の言語モデル切替装置では、下記に例示する要因により、動画像の話題と関連性が低い言語モデルへの切り替えが実行される結果、音声認識精度が低下する場合がある。例えば、入力音声にＢＧＭやノイズが重畳する場合、音声の特徴を捉えるのが困難になるので、話題の推定精度が低下する。また、複数の話者がクロストークを行っている場合においても、音声の特徴を捉えるのが同様に困難になるので、話題の推定精度が低下する。さらに、入力音声における無音区間の割合や頻度が高い場合、音声の特徴を捉える情報が不足するので、話題の推定に誤りが増加しやすい。このように、上記の言語モデル切替装置では、ノイズ、ＢＧＭ、クロストークなどの想定外の音声データが入力される場合、話題の推定精度が低下し、話題に対応する音声認識辞書を選定することが困難である。

【0020】

＜課題解決アプローチの一側面＞
そこで、本実施例に係る文字起こし機能には、動画像の音声および画像の品質に基づいて動画像のうち音声から判定したジャンルおよび画像から判定したジャンルのうちいずれかのジャンルに対応する音声認識辞書を選択する辞書選択機能が搭載される。

【0021】

このような辞書選択機能により、動画像のうち画像の品質が悪い場合、音声から判定したジャンルに対応する音声認識辞書を選択したり、動画像のうち音声の品質が悪い場合、画像から判定したジャンルに対応する音声認識辞書を選択したりすることができる。あるいは、動画像のうち画像の品質が良い場合、画像から判定したジャンルに対応する音声認識辞書を選択したり、動画像のうち音声の品質が良い場合、音声から判定したジャンルに対応する音声認識辞書を選択したりすることができる。

【0022】

したがって、本実施例に係る辞書選択機能によれば、動画像のジャンルに対応する音声認識辞書の選択を実現できる。

【0023】

＜サーバ装置１０の構成＞
次に、本実施例に係るサーバ装置１０の機能構成例について説明する。図１には、サーバ装置１０が有する文字起こし機能に関連するブロックが模式化されている。

【0024】

図１に示すように、サーバ装置１０は、受付部１１と、音声抽出部１２Ａ及び１２Ｂと、画像抽出部１３と、第１ジャンル判定部１４Ａと、第２ジャンル判定部１４Ｂと、第１品質判定部１５Ａと、第２品質判定部１５Ｂとを有する。さらに、サーバ装置１０は、辞書記憶部１６Ａと、選択部１６と、文字抽出部１７と、辞書生成部１８と、音声認識部１９とを有する。

【0025】

受付部１１、音声抽出部１２Ａ、音声抽出部１２Ｂ、画像抽出部１３、第１ジャンル判定部１４Ａ、第２ジャンル判定部１４Ｂ、第１品質判定部１５Ａ、第２品質判定部１５Ｂ、選択部１６、文字抽出部１７、辞書生成部１８、音声認識部１９等を機能部と呼ぶ。このような機能部は、ハードウェアプロセッサにより実現され得る。例えば、ハードウェアプロセッサの例として、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＧＰＧＰＵ（General-Purpose computing on GPU）が挙げられる。この他、上記の機能部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジックにより実現されてもよい。

【0026】

辞書記憶部１６Ａなどの記憶部は、各種のストレージ、例えばＨＤＤ（Hard Disk Drive）、光ディスクやＳＳＤ（Solid State Drive）、あるいはストレージが有する記憶領域の一部を割り当てることにより実現され得る。

【0027】

受付部１１は、クライアント端末３０から各種のリクエストを受け付ける処理部である。あくまで一例として、受付部１１は、クライアント端末３０から文字起こしの実行を要求する文字起こしリクエストを受け付けることができる。

【0028】

このような文字起こしリクエストを受け付ける場合、受付部１１は、文字起こしの対象とする動画像の指定なども受け付けることができる。１つの側面として、受付部１１は、クライアント端末３０から文字起こしの対象とする動画像をネットワークＮＷを介して受け付けることができる。他の側面として、受付部１１は、図示しないファイルサーバなどに記憶された動画像の中から指定を受け付けることもできる。

【0029】

音声抽出部１２Ａ及び音声抽出部１２Ｂは、いずれも動画像から音声データを抽出する処理部である。これら音声抽出部１２Ａおよび音声抽出部１２Ｂは、動画像から分離する音声データの区間が異なる。

【0030】

１つの側面として、音声抽出部１２Ａは、動画像の全区間のうち特定の分析フレーム長に対応する区間ごとに当該区間に対応する音声データを抽出する。あくまで一例として、音声抽出部１２Ａは、フレーム周期ごとに、動画像から分離された全区間の音声データの先頭から順に特定の時間長のフレームを抽出して窓関数、例えばハニング窓を掛ける。このとき、窓関数による情報欠損を軽減する側面から、音声抽出部１２Ａは、前後の分析フレームを任意の割合でオーバーラップさせることができる。例えば、一定間隔、例えばフレーム周期２５６サンプルごとに、固定長、例えば５１２サンプルを分析フレーム長とすることで、オーバーラップ率を５０％とすることができる。このように分析フレーム長に対応する区間ごとに抽出される音声データは、後述の第１ジャンル判定部１４Ａおよび後述の第１品質判定部１５Ａへ出力される。

【0031】

他の側面として、音声抽出部１２Ｂは、動画像の全区間に対応する音声データを抽出する。このようにして得られた全区間に対応する音声データは、後述の音声認識部１９へ出力される。

【0032】

画像抽出部１３は、動画像から画像データを抽出する処理部である。あくまで一例として、画像抽出部１３は、音声抽出部１２Ａと同期して、音声抽出部１２Ａにより音声データが抽出される区間ごとに当該区間に対応する画像データを抽出する。このように区間ごとに抽出される画像データは、後述の第２ジャンル判定部１４Ｂおよび後述の第２品質判定部１５Ｂへ出力される。

【0033】

第１ジャンル判定部１４Ａは、音声抽出部１２Ａにより抽出された音声データに基づいて動画像のジャンルを判定する処理部である。このようなジャンル判定は、あくまで一例として、音声データを入力としてジャンルのクラス別の確信度を出力するクラス分類タスクを実行する機械学習モデルにより実現され得る。例えば、機械学習モデルは、音声認識タスクに用いられるＬＳＴＭ（Long Short-Term Memory）やＣＮＮ（Convolutional Neural Network）などのニューラルネットワークにより実現されてよい。以下、上記の機械学習モデルを他の機械学習モデルを区別する側面から、上記の機械学習モデルのことを指して「第１ジャンル判定モデル」と表記する場合がある。

【0034】

図２は、第１ジャンル判定モデルの一例を示す図である。図２に示すように、音声データを用いるジャンル判定には、第１ジャンル判定モデルｍ１１が用いられる。この第１ジャンル判定モデルｍ１１の訓練には、１つの区間の時間長に対応する音声信号およびジャンルの正解ラベルが対応付けられた訓練データを含むデータセットＴＲ１１を用いることができる。例えば、図２には、データセットＴＲ１１のあくまで一例として、３つのジャンル「スポーツ」、「教養番組」および「天気予報」の正解ラベルごとに１つの区間の時間長に対応する音声信号が対応付けられた３つの訓練データが抜粋して例示されている。以下、１つの区間の時間長に対応する音声信号のことを指して「区間音声信号」と表記する場合がある。

【0035】

例えば、学習フェイズでは、区間音声信号を第１ジャンル判定モデルｍ１１の説明変数とし、ラベルを第１ジャンル判定モデルｍ１１の目的変数とし、任意の機械学習のアルゴリズム、例えば深層学習にしたがって第１ジャンル判定モデルｍ１１を訓練できる。これにより、訓練済みの第１ジャンル判定モデルＭ１１が得られる。

【0036】

推論フェイズでは、音声抽出部１２Ａにより抽出される区間音声信号を第１ジャンル判定モデルＭ１１へ入力する。このように区間音声信号が入力された第１ジャンル判定モデルＭ１１は、ジャンルのクラス別の確信度を出力する。例えば、ジャンルのクラス「天気予報」の確信度として「８０％」が出力される。さらに、ジャンルのクラス「教養番組」の確信度として「１５％」が出力される。さらに、ジャンルのクラス「スポーツ」の確信度として「５％」が出力される。この場合、あくまで一例として、確信度が最高であるクラス「天気予報」をジャンルの判定結果とすることができる。

【0037】

なお、ここでは、音声信号を第１ジャンル判定モデルＭ１１へ入力する例を挙げたが、必ずしも音声信号そのものに限定されず、例えば、音声信号に対する特徴抽出により得られる特徴量などが第１ジャンル判定モデルＭ１１に入力されることとしてもよい。

【0038】

第２ジャンル判定部１４Ｂは、画像抽出部１３により抽出された画像データに基づいて動画像のジャンルを判定する処理部である。このようなジャンル判定は、あくまで一例として、画像データを入力としてジャンルのクラス別の確信度を出力するクラス分類タスクを実行する機械学習モデルにより実現され得る。例えば、機械学習モデルは、画像認識タスクに用いられる畳み込みニューラルネットワーク、いわゆるＣＮＮ系のニューラルネットワークにより実現されてよい。以下、本欄に記載の機械学習モデルを他の機械学習モデルを区別する側面から、本欄に記載の機械学習モデルのことを指して「第２ジャンル判定モデル」と表記する場合がある。

【0039】

図３は、第２ジャンル判定モデルの一例を示す図である。図３に示すように、画像データを用いるジャンル判定には、第２ジャンル判定モデルｍ１２が用いられる。この第２ジャンル判定モデルｍ１２の訓練には、１つの区間に含まれる画像およびジャンルの正解ラベルが対応付けられた訓練データを含むデータセットＴＲ１２を用いることができる。例えば、図３には、データセットＴＲ１２のあくまで一例として、３つのジャンル「天気予報」、「教養番組」および「スポーツ」の正解ラベルごとに１つの区間に含まれる画像が対応付けられた３つの訓練データが抜粋して例示されている。なお、図３には、１つの区間に含まれる画像が１フレームである例を挙げるが、任意のフレーム数の画像が含まれることを妨げない。

【0040】

例えば、学習フェイズでは、画像を第２ジャンル判定モデルｍ１２の説明変数とし、ラベルを第２ジャンル判定モデルｍ１２の目的変数とし、任意の機械学習のアルゴリズム、例えば深層学習にしたがって第２ジャンル判定モデルｍ１２を訓練できる。これにより、訓練済みの第２ジャンル判定モデルＭ１２が得られる。

【0041】

推論フェイズでは、画像抽出部１３により抽出される画像を第２ジャンル判定モデルＭ１２へ入力する。このように画像が入力された第２ジャンル判定モデルＭ１２は、ジャンルのクラス別の確信度を出力する。例えば、ジャンルのクラス「天気予報」の確信度として「８０％」が出力される。さらに、ジャンルのクラス「教養番組」の確信度として「１５％」が出力される。さらに、ジャンルのクラス「スポーツ」の確信度として「５％」が出力される。この場合、あくまで一例として、確信度が最高であるクラス「天気予報」をジャンルの判定結果とすることができる。

【0042】

なお、図２及び図３には、第１ジャンル判定モデルＭ１１および第２ジャンル判定モデルＭ１２が天気予報、スポーツ番組および教養番組の３つのクラスに分類する例を挙げたが、クラスはこれに限定されない。例えば、天気予報、スポーツ番組および教養番組以外にも、バラエティやトーク番組などのクラスをさらに分類してもよいし、２クラス以上であれば任意のクラスが分類対象に含まれてよい。

【0043】

第１品質判定部１５Ａは、音声抽出部１２Ａにより抽出された音声データに基づいて動画像のうち音声に関する品質を判定する処理部である。このような音声品質の判定は、あくまで一例として、音声データを入力として音声に関する品質のクラス別の確信度を出力するクラス分類タスクを実行する機械学習モデルにより実現され得る。例えば、機械学習モデルは、ＬＳＴＭやＣＮＮなどのニューラルネットワークにより実現されてよい。以下、本欄に記載の機械学習モデルを他の機械学習モデルを区別する側面から、本欄に記載の機械学習モデルのことを指して「第１品質判定モデル」と表記する場合がある。

【0044】

図４は、第１品質判定モデルの一例を示す図である。図４に示すように、音声品質の判定には、第１品質判定モデルｍ２１が用いられる。この第１品質判定モデルｍ２１の訓練には、区間音声信号および品質の正解ラベルが対応付けられた訓練データを含むデータセットＴＲ２１を用いることができる。例えば、図４には、データセットＴＲ２１のあくまで一例として、３つの正解ラベル「ＮＧ（ノイズ）」、「ＮＧ（ＢＧＭ）」および「ＯＫ（正常）」ごとに区間音声信号が対応付けられた３つの訓練データが抜粋して例示されている。

【0045】

例えば、学習フェイズでは、区間音声信号を第１品質判定モデルｍ２１の説明変数とし、ラベルを第１品質判定モデルｍ２１の目的変数とし、任意の機械学習のアルゴリズム、例えば深層学習にしたがって第１品質判定モデルｍ２１を訓練できる。これにより、訓練済みの第１品質判定モデルＭ２１が得られる。

【0046】

推論フェイズでは、音声抽出部１２Ａにより抽出される区間音声信号を第１品質判定モデルＭ２１へ入力する。このように区間音声信号が入力された第１品質判定モデルＭ２１は、音声品質のクラス別の確信度を出力する。例えば、音声品質のクラス「ＯＫ」の確信度として「１０％」が出力されると共に、音声品質のクラス「ＮＧ」の確信度として「９０％」が出力される。この場合、あくまで一例として、確信度が最高であるクラス「ＮＧ」を音声品質の判定結果とすることができる。

【0047】

なお、ここでは、音声信号を第１品質判定モデルＭ２１へ入力する例を挙げたが、必ずしも音声信号そのものに限定されず、例えば、音声信号に対する特徴抽出により得られる特徴量などが第１品質判定モデルＭ２１に入力されることとしてもよい。また、ここでは、第１品質判定モデルＭ２１の機械学習タスクが音声データをＯＫおよびＮＧの２つのクラスへ分類する２クラス分類である例を挙げたが、第１品質判定モデルＭ２１の機械学習タスクはこれに限定されない。例えば、第１品質判定モデルＭ２１の機械学習タスクは、音声データをノイズ、ＢＧＭ、クロストーク、正常などの３つ以上の多クラスへ分類する多クラス分類であってもよい。

【0048】

第２品質判定部１５Ｂは、画像抽出部１３により抽出された画像データに基づいて動画像のうち画像に関する品質を判定する処理部である。このような画像品質の判定は、あくまで一例として、画像データを入力として画像品質のクラス別の確信度を出力するクラス分類タスクを実行する機械学習モデルにより実現され得る。例えば、機械学習モデルは、ＣＮＮ系のニューラルネットワークにより実現されてよい。以下、本欄に記載の機械学習モデルを他の機械学習モデルを区別する側面から、本欄に記載の機械学習モデルのことを指して「第２品質判定モデル」と表記する場合がある。

【0049】

図５は、第２品質判定モデルの一例を示す図である。図５に示すように、画像品質の判定には、第２品質判定モデルｍ２２が用いられる。この第２品質判定モデルｍ２２の訓練には、１つの区間に含まれる画像および画像品質の正解ラベルが対応付けられた訓練データを含むデータセットＴＲ２２を用いることができる。例えば、図５には、データセットＴＲ２２のあくまで一例として、３つの正解ラベル「ＮＧ（シーンチェンジ）」、「ＮＧ（ピンぼけ）」および「ＯＫ（正常）」ごとに１つの区間に含まれる画像が対応付けられた３つの訓練データが抜粋して例示されている。なお、図５には、１つの区間に含まれる画像が１フレームである例を挙げるが、任意のフレーム数の画像が含まれることを妨げない。

【0050】

例えば、学習フェイズでは、画像を第２品質判定モデルｍ２２の説明変数とし、ラベルを第２品質判定モデルｍ２２の目的変数とし、任意の機械学習のアルゴリズム、例えば深層学習にしたがって第２品質判定モデルｍ２２を訓練できる。これにより、訓練済みの第２品質判定モデルＭ２２が得られる。

【0051】

推論フェイズでは、画像抽出部１３により抽出される画像を第２品質判定モデルＭ２２へ入力する。このように画像が入力された第２品質判定モデルＭ２２は、画像品質のクラス別の確信度を出力する。例えば、画像品質のクラス「ＯＫ」の確信度として「１０％」が出力されると共に、画像品質のクラス「ＮＧ」の確信度として「９０％」が出力される。この場合、あくまで一例として、確信度が最高であるクラス「ＮＧ」を画像品質の判定結果とすることができる。

【0052】

なお、ここでは、第２品質判定モデルＭ２２の機械学習タスクが画像データをＯＫおよびＮＧの２つのクラスへ分類する２クラス分類である例を挙げたが、第２品質判定モデルＭ２２の機械学習タスクはこれに限定されない。例えば、第２品質判定モデルＭ２２の機械学習タスクは、画像データをシーンチェンジ、ピンボケ、正常などの３つ以上の多クラスへ分類する多クラス分類であってもよい。

【0053】

選択部１６は、複数の区間それぞれについての、ジャンルの判定結果と、音声品質および画像品質の判定結果と、に基づいて、複数の音声認識辞書の中から、特定の音声認識辞書を選択する処理部である。

【0054】

より詳細には、選択部１６は、区間ごとに次のような処理を実行する。すなわち、選択部１６は、第１品質判定部１５Ａにより判定される音声品質と、第２品質判定部１５Ｂにより判定される画像品質とを比較することにより、音声または画像の２つのメディアのうち品質が良い方のメディアを選択する。そして、選択部１６は、第１ジャンル判定部１４Ａにより音声から判定されたジャンルおよび第２ジャンル判定部１４Ｂにより画像から判定されたジャンルのうち、品質が良い方のメディアに対応するジャンルを選択する。その上で、選択部１６は、辞書記憶部１６Ａに記憶された複数の音声認識辞書のうち、区間ごとに選択されたジャンルの中で選択頻度が最高であるジャンルに対応する音声認識辞書を選択する。

【0055】

このような辞書記憶部１６Ａには、あくまで一例として、ジャンルごとに当該ジャンルに特化した音声認識辞書が記憶されてよい。ここで言う「音声認識辞書」には、音声認識エンジンが認識対象とする語彙、すなわち単語の集合がリスト化された「単語辞書」が含まれてよい。この他、「音声認識辞書」には、言語の文法、例えば単語列の生起確率などが定義された「言語モデル」、音素などの単位で音響の特徴量パターンが定義された「音響モデル」なども含まれてよい。例えば、特定のジャンルに対応するコーパスに基づいて単語辞書、言語モデルおよび音響モデルを生成することにより、特定のジャンル用の音声認識辞書を生成できる。図２および図３に示す例に従えば、辞書記憶部１６Ａには、ジャンル「天気予報」に特化した天気予報用、ジャンル「教養番組」に特化した教養番組用、および、ジャンル「スポーツ」に特化したスポーツ用の音声認識辞書が保存され得る。

【0056】

図６～図１０を用いて、選択部１６によるジャンルの選択例を説明する。図６～図１０は、ジャンルの選択例を示す模式図（１）～（５）である。図６～図１０には、あくまで一例として、文字起こしリクエストが受け付けられた動画像２０が区分けされた複数の区間のうち区間（イ）～区間（ホ）の時系列順に選択部１６がジャンルを選択するアルゴリズムが模式化されている。

【0057】

例えば、図６には、動画像２０の区間（イ）から区間音声信号２１Ａが音声抽出部１２Ａにより抽出される。この場合、区間音声信号２１Ａが第１ジャンル判定モデルＭ１１および第１品質判定モデルＭ２１へ入力される。また、動画像２０の区間（イ）から画像２１Ｂが画像抽出部１３により抽出される例が示されている。この場合、画像２１Ｂが第２ジャンル判定モデルＭ１２および第２品質判定モデルＭ２２へ入力される。

【0058】

このように区間音声信号２１Ａが入力された第１ジャンル判定モデルＭ１１は、ジャンルのクラス別の確信度のうち最高の確信度を有するジャンルのラベル「天気予報（確信度８０％）」を選択部１６へ出力する。さらに、画像２１Ｂが入力された第２ジャンル判定モデルＭ１２は、ジャンルのクラス別の確信度のうち最高の確信度を有するジャンルのラベル「映画（確信度８０％）」を選択部１６へ出力する。さらに、区間音声信号２１Ａが入力された第１品質判定モデルＭ２１は、音声品質のクラス別の確信度のうち最高の確信度を有する音声品質のラベル「ＯＫ（確信度８０％）」を選択部１６へ出力する。さらに、画像２１Ｂが入力された第２品質判定モデルＭ２２は、画像品質のクラス別の確信度のうち最高の確信度を有する画像品質のラベル「ＮＧ（確信度７０％）」を選択部１６へ出力する。

【0059】

このような入力を受け付けた選択部１６は、第１品質判定モデルＭ２１が出力する音声品質のラベル「ＯＫ（確信度８０％」と、第２品質判定モデルＭ２２が出力する画像品質のラベル「ＮＧ（確信度７０％）」とを比較する。この場合、音声品質が画像品質よりも優れているので、音声または画像の２つのメディアのうち品質が良い方のメディア「音声」が選択される。この結果、第１ジャンル判定モデルＭ１１が出力するジャンルのラベル「天気予報」および第２ジャンル判定モデルＭ１２が出力するジャンルのラベル「映画」のうち、品質が良い方のメディア「音声」に対応するジャンル「天気予報」が選択される。

【0060】

次に、図７には、動画像２０の区間（ロ）から区間音声信号２２Ａが音声抽出部１２Ａにより抽出される。この場合、区間音声信号２２Ａが第１ジャンル判定モデルＭ１１および第１品質判定モデルＭ２１へ入力される。また、動画像２０の区間（ロ）から画像２２Ｂが画像抽出部１３により抽出される例が示されている。この場合、画像２２Ｂが第２ジャンル判定モデルＭ１２および第２品質判定モデルＭ２２へ入力される。

【0061】

このように区間音声信号２２Ａが入力された第１ジャンル判定モデルＭ１１は、ジャンルのクラス別の確信度のうち最高の確信度を有するジャンルのラベル「天気予報（確信度８０％）」を選択部１６へ出力する。さらに、画像２２Ｂが入力された第２ジャンル判定モデルＭ１２は、ジャンルのクラス別の確信度のうち最高の確信度を有するジャンルのラベル「天気予報（確信度８０％）」を選択部１６へ出力する。さらに、区間音声信号２２Ａが入力された第１品質判定モデルＭ２１は、音声品質のクラス別の確信度のうち最高の確信度を有する音声品質のラベル「ＯＫ（確信度８０％）」を選択部１６へ出力する。さらに、画像２２Ｂが入力された第２品質判定モデルＭ２２は、画像品質のクラス別の確信度のうち最高の確信度を有する画像品質のラベル「ＮＧ（確信度８０％）」を選択部１６へ出力する。

【0062】

このような入力を受け付けた選択部１６は、第１品質判定モデルＭ２１が出力する音声品質のラベル「ＯＫ（確信度８０％」と、第２品質判定モデルＭ２２が出力する画像品質のラベル「ＮＧ（確信度８０％）」とを比較する。この場合、音声品質が画像品質よりも優れているので、音声または画像の２つのメディアのうち品質が良い方のメディア「音声」が選択される。この結果、第１ジャンル判定モデルＭ１１が出力するジャンルのラベル「天気予報」および第２ジャンル判定モデルＭ１２が出力するジャンルのラベル「天気予報」のうち、品質が良い方のメディア「音声」に対応するジャンル「天気予報」が選択される。なお、区間（ロ）の例のように、第１ジャンル判定モデルＭ１１および第２ジャンル判定モデルＭ１２が出力するジャンルのラベルが同一である場合、音声品質および画像品質の比較をスキップすることとしてもよい。

【0063】

次に、図８には、動画像２０の区間（ハ）から区間音声信号２３Ａが音声抽出部１２Ａにより抽出される。この場合、区間音声信号２３Ａが第１ジャンル判定モデルＭ１１および第１品質判定モデルＭ２１へ入力される。また、動画像２０の区間（ハ）から画像２３Ｂが画像抽出部１３により抽出される例が示されている。この場合、画像２３Ｂが第２ジャンル判定モデルＭ１２および第２品質判定モデルＭ２２へ入力される。

【0064】

このように区間音声信号２３Ａが入力された第１ジャンル判定モデルＭ１１は、ジャンルのクラス別の確信度のうち最高の確信度を有するジャンルのラベル「天気予報（確信度８０％）」を選択部１６へ出力する。さらに、画像２３Ｂが入力された第２ジャンル判定モデルＭ１２は、ジャンルのクラス別の確信度のうち最高の確信度を有するジャンルのラベル「教養番組（確信度８０％）」を選択部１６へ出力する。さらに、区間音声信号２３Ａが入力された第１品質判定モデルＭ２１は、音声品質のクラス別の確信度のうち最高の確信度を有する音声品質のラベル「ＯＫ（確信度８０％）」を選択部１６へ出力する。さらに、画像２３Ｂが入力された第２品質判定モデルＭ２２は、画像品質のクラス別の確信度のうち最高の確信度を有する画像品質のラベル「ＯＫ（確信度７０％）」を選択部１６へ出力する。

【0065】

このような入力を受け付けた選択部１６は、第１品質判定モデルＭ２１が出力する音声品質のラベル「ＯＫ（確信度８０％」と、第２品質判定モデルＭ２２が出力する画像品質のラベル「ＯＫ（確信度７０％）」とを比較する。この場合、音声品質が画像品質よりも優れているので、音声または画像の２つのメディアのうち品質が良い方のメディア「音声」が選択される。この結果、第１ジャンル判定モデルＭ１１が出力するジャンルのラベル「天気予報」および第２ジャンル判定モデルＭ１２が出力するジャンルのラベル「教養番組」のうち、品質が良い方のメディア「音声」に対応するジャンル「天気予報」が選択される。

【0066】

次に、図９には、動画像２０の区間（ニ）から区間音声信号２４Ａが音声抽出部１２Ａにより抽出される。この場合、区間音声信号２４Ａが第１ジャンル判定モデルＭ１１および第１品質判定モデルＭ２１へ入力される。また、動画像２０の区間（ニ）から画像２４Ｂが画像抽出部１３により抽出される例が示されている。この場合、画像２４Ｂが第２ジャンル判定モデルＭ１２および第２品質判定モデルＭ２２へ入力される。

【0067】

このように区間音声信号２４Ａが入力された第１ジャンル判定モデルＭ１１は、ジャンルのクラス別の確信度のうち最高の確信度を有するジャンルのラベル「スポーツ番組（確信度４０％）」を選択部１６へ出力する。さらに、画像２４Ｂが入力された第２ジャンル判定モデルＭ１２は、ジャンルのクラス別の確信度のうち最高の確信度を有するジャンルのラベル「教養番組（確信度４０％）」を選択部１６へ出力する。さらに、区間音声信号２４Ａが入力された第１品質判定モデルＭ２１は、音声品質のクラス別の確信度のうち最高の確信度を有する音声品質のラベル「ＮＧ（確信度８０％）」を選択部１６へ出力する。さらに、画像２４Ｂが入力された第２品質判定モデルＭ２２は、画像品質のクラス別の確信度のうち最高の確信度を有する画像品質のラベル「ＯＫ（確信度９０％）」を選択部１６へ出力する。

【0068】

このような入力を受け付けた選択部１６は、第１品質判定モデルＭ２１が出力する音声品質のラベル「ＮＧ（確信度８０％」と、第２品質判定モデルＭ２２が出力する画像品質のラベル「ＯＫ（確信度９０％）」とを比較する。この場合、画像品質が音声品質よりも優れているので、音声または画像の２つのメディアのうち品質が良い方のメディア「画像」が選択される。この結果、第１ジャンル判定モデルＭ１１が出力するジャンルのラベル「スポーツ番組」および第２ジャンル判定モデルＭ１２が出力するジャンルのラベル「教養番組」のうち、品質が良い方のメディア「画像」に対応するジャンル「教養番組」が選択される。

【0069】

最後に、図１０には、動画像２０の区間（ホ）から区間音声信号２５Ａが音声抽出部１２Ａにより抽出される。この場合、区間音声信号２５Ａが第１ジャンル判定モデルＭ１１および第１品質判定モデルＭ２１へ入力される。また、動画像２０の区間（ホ）から画像２５Ｂが画像抽出部１３により抽出される例が示されている。この場合、画像２５Ｂが第２ジャンル判定モデルＭ１２および第２品質判定モデルＭ２２へ入力される。

【0070】

このように区間音声信号２５Ａが入力された第１ジャンル判定モデルＭ１１は、ジャンルのクラス別の確信度のうち最高の確信度を有するジャンルのラベル「スポーツ番組（確信度４０％）」を選択部１６へ出力する。さらに、画像２５Ｂが入力された第２ジャンル判定モデルＭ１２は、ジャンルのクラス別の確信度のうち最高の確信度を有するジャンルのラベル「天気予報（確信度１００％）」を選択部１６へ出力する。さらに、区間音声信号２５Ａが入力された第１品質判定モデルＭ２１は、音声品質のクラス別の確信度のうち最高の確信度を有する音声品質のラベル「ＮＧ（確信度９０％）」を選択部１６へ出力する。さらに、画像２５Ｂが入力された第２品質判定モデルＭ２２は、画像品質のクラス別の確信度のうち最高の確信度を有する画像品質のラベル「ＯＫ（確信度１００％）」を選択部１６へ出力する。

【0071】

このような入力を受け付けた選択部１６は、第１品質判定モデルＭ２１が出力する音声品質のラベル「ＮＧ（確信度９０％」と、第２品質判定モデルＭ２２が出力する画像品質のラベル「ＯＫ（確信度１００％）」とを比較する。この場合、画像品質が音声品質よりも優れているので、音声または画像の２つのメディアのうち品質が良い方のメディア「画像」が選択される。この結果、第１ジャンル判定モデルＭ１１が出力するジャンルのラベル「スポーツ番組」および第２ジャンル判定モデルＭ１２が出力するジャンルのラベル「天気予報」のうち、品質が良い方のメディア「画像」に対応するジャンル「天気予報」が選択される。

【0072】

これら区間（イ）～区間（ホ）の各々でジャンルが選択された選択結果は、図１１に示す通りとなる。図１１は、ジャンルの選択結果の一例を示す図である。例えば、図１１に示すジャンル「天気予報」の例で言えば、選択頻度の一例である度数は「４」、選択頻度の他の一例である確率は「８０％」である。また、図１１に示すジャンル「教養番組」のの例で言えば、選択頻度の一例である度数は「１」、選択頻度の他の一例である確率は「２０％」である。この場合、ジャンル「天気予報」の選択頻度が最高であるので、辞書記憶部１６Ａに記憶された複数の音声認識辞書のうち、区間（イ）～区間（ホ）ごとに選択されたジャンルの中で選択頻度が最高であるジャンル「天気予報」に対応する音声認識辞書が選択される。

【0073】

図１の説明に戻り、文字抽出部１７は、画像抽出部１３により抽出される画像データから文字を抽出する処理部である。あくまで一例として、文字抽出部１７は、いわゆるＯＣＲ（Optical Character Recognition）機能により実現されてよい。このようなＯＣＲ機能は、文字特徴の抽出やパターンマッチングなどの画像処理により実現されてもよいし、文字認識タスクの機械学習モデルにより実現されてもよい。

【0074】

ここで、文字抽出部１７は、選択部１６により選択された音声認識辞書、例えば単語辞書や単語辞書の一種であるユーザ辞書に特定のジャンルの語彙を追加する側面から、画像抽出部１３により動画像から抽出された画像から文字をさらに抽出する。このため、文字抽出部１７は、画像抽出部１３により画像が抽出される度、すなわち区間ごとに動作することとしてもよいが、第２品質判定部１５Ｂにより判定された画像品質の確信度が閾値Ｔｈ、例えば７０％以上である場合に絞り込んで動作することもできる。

【0075】

これにより、動画像のジャンルと関連性が低い文字列が動画像のテロップなどで再生される場合、テロップに関する単語やフレーズが音声認識辞書に登録されるのを抑制したり、その文字抽出処理にリソースを割くのを抑制したりできる。例えば、動画像には、地震速報や選挙速報、号外速報などの速報のテロップが挿入される場合がある。このようなテロップは、動画像の作成や配信の趣旨とは異なる可能性が高いので、テロップに関する単語やフレーズが音声認識辞書に登録されるのを抑制することには技術的意義がある。

【0076】

辞書生成部１８は、選択部１６による音声認識辞書の選択結果および文字抽出部１７による文字抽出結果に基づいて音声認識エンジンに適用する音声認識辞書を生成する処理部である。あくまで一例として、辞書生成部１８は、辞書記憶部１６Ａに記憶された複数の音声認識辞書のうち、選択部１６により選択された音声認識辞書を取得する。そして、辞書生成部１８は、第２品質判定部１５Ｂにより判定された画像品質が閾値Ｔｈ以上である区間で文字抽出部１７により抽出された文字に対応する単語やフレーズを、選択部１６により選択された音声認識辞書、例えば単語辞書やそのユーザ辞書に登録する。

【0077】

例えば、図６および図７に示す区間（イ）および区間（ロ）の例で言えば、画像品質が閾値Ｔｈ、例えば７０％以上でないので、文字抽出部１７による文字抽出結果２１Ｃおよび文字抽出結果２２Ｃは音声認識辞書への登録が禁止される。その一方で、図８～図１０に示す区間（ハ）～区間（ホ）の例で言えば、画像品質が閾値Ｔｈ、例えば７０％以上であるので、文字抽出部１７による文字抽出結果２３Ｃ、文字抽出結果２４Ｃおよび文字抽出結果２５Ｃは音声認識辞書への登録が許可される。

【0078】

つまり、文字抽出部１７による文字抽出結果のフィルタリング結果は図１２に示す通りとなる。図１２は、文字抽出結果のフィルタリング結果の一例を示す図である。図１２に示すように、選択部１６により選択された天気予報用辞書には、区間（ハ）～区間（ホ）における文字抽出結果２３Ｃ、文字抽出結果２４Ｃおよび文字抽出結果２５Ｃの登録が許可される。例えば、区間（ニ）で抽出された単語「栃木」および単語「曇り」が天気予報用辞書に追加される。さらに、区間（ホ）で抽出された単語「群馬」および単語「雷」が天気予報用辞書に追加される。なお、区間（ハ）の文字抽出結果２３Ｃの通り、文字が抽出されない場合、当然のことながら、音声認識辞書への登録は実施されずともよい。

【0079】

なお、ここでは、音声認識辞書に対する単語やフレーズの登録条件の例として、画像品質が閾値Ｔｈ以上である条件を挙げたが、これに限定されない。例えば、テロップに高頻度に出現する単語、例えば「地震」や「選挙」、「号外」、「速報」などが文字抽出部１７による文字抽出結果に含まれない区間を対象に、音声認識辞書に対する単語やフレームの登録を実施することとしてもよい。

【0080】

音声認識部１９は、音声認識を実行する処理部である。このような音声認識は、あくまで一例して、任意の音声認識エンジンにより実現されてよい。あくまで一例として、音声認識部１９は、音声抽出部１２Ｂにより動画像から抽出された全区間の音声データを、辞書生成部１８により生成された音声認識辞書が適用された音声認識エンジンに入力する。これにより、音声認識エンジンは、動画像の全区間の音声データがテキストへ変換されたテキストデータを音声認識結果として出力する。このような音声認識結果がクライアント端末３０へレスポンスされる。

【0081】

図１３は、音声認識の模式例を示す図である。図１３に示すように、音声抽出部１２Ｂにより動画像２０から全区間の音声信号が抽出される。このように抽出された動画像２０の全区間の音声信号は、辞書生成部１８により生成された天気予報用辞書１８Ａが適用された音声認識エンジン１９Ａへ入力される。これにより、音声認識エンジン１９Ａは、動画像２０の全区間の音声信号がテキストへ変換されたテキストデータを音声認識結果４０として出力する。このようにして得られた音声認識結果４０は、文字起こしリクエストのレスポンスとしてクライアント端末３０へ出力される。

【0082】

＜処理の流れ＞
図１４は、辞書選択処理の手順を示すフローチャートである。この処理は、あくまで一例として、クライアント端末３０から文字起こしリクエストを受け付けた場合に実行され得る。図１４に示すように、受付部１１は、文字起こし対象として指定された動画像を受け付ける（ステップＳ１００）。

【0083】

その後、ステップＳ１００で受け付けられた動画像が分割される区間の個数Ｍに対応する回数の分、下記のステップＳ１０１から下記のステップＳ１０７までの処理を反復するループ処理１が実行される。なお、図１４には、ステップＳ１０１からステップＳ１０７までの処理が反復される例を挙げるが、ステップＳ１０１からステップＳ１０７までの処理は並列して実行されてもよい。

【0084】

すなわち、音声抽出部１２Ａは、ステップＳ１００で受け付けられた動画像のｍ番目の区間に対応する音声データを抽出する（ステップＳ１０１Ａ）。そして、第１ジャンル判定部１４Ａは、ステップＳ１０１Ａで抽出された音声データに基づいてｍ番目の区間のジャンルを判定する（ステップＳ１０２Ａ）。さらに、第１品質判定部１５Ａは、ステップＳ１０１Ａで抽出された抽出された音声データに基づいてｍ番目の区間の音声品質を判定する（ステップＳ１０３Ａ）。

【0085】

なお、図１４には、ステップＳ１０２Ａ、ステップＳ１０３Ａの順に処理が実行される例を挙げたが、ステップＳ１０２ＡおよびステップＳ１０３Ａは順不同で実行することができる。

【0086】

これらステップＳ１０１ＡからステップＳ１０３Ａまでの処理と並行して、ステップＳ１０１ＢからステップＳ１０５Ｂまでの処理が実行される。

【0087】

すなわち、画像抽出部１３は、ステップＳ１００で受け付けられた動画像のｍ番目の区間に対応する画像データを抽出する（ステップＳ１０１Ｂ）。そして、第２ジャンル判定部１４Ｂは、ステップＳ１０１Ｂで抽出された画像データに基づいてｍ番目の区間のジャンルを判定する（ステップＳ１０２Ｂ）。さらに、第２品質判定部１５Ｂは、ステップＳ１０１Ｂで抽出された抽出された画像データに基づいてｍ番目の区間の画像品質を判定する（ステップＳ１０３Ｂ）。

【0088】

このとき、画像品質の確信度が閾値Ｔｈ、例えば７０％以上である場合（ステップＳ１０４ＢＹｅｓ）、文字抽出部１７は、ステップＳ１０１Ｂで抽出された画像データから文字を抽出する（ステップＳ１０５Ｂ）。なお、画像品質の確信度が閾値Ｔｈ、例えば７０％未満である場合（ステップＳ１０４ＢＮｏ）、ステップＳ１０５Ｂの処理はスキップされる。

【0089】

その後、選択部１６は、ステップＳ１０３Ａで判定された音声品質と、ステップＳ１０３Ｂで判定された画像品質とを比較することにより、音声または画像の２つのメディアのうち品質が良い方のメディアを選択する（ステップＳ１０６）。

【0090】

そして、選択部１６は、ステップＳ１０２Ａで音声から判定されたジャンルおよびステップＳ１０２Ｂで画像から判定されたジャンルのうち、ステップＳ１０６で選択された、品質が良い方のメディアに対応するジャンルを選択する（ステップＳ１０７）。

【0091】

このようなループ処理１が反復されることにより、動画像が分割されたＭ個の区間ごとにジャンルの選択結果が得られる。

【0092】

その上で、選択部１６は、辞書記憶部１６Ａに記憶された複数の音声認識辞書のうち、区間ごとに選択されたジャンルの中で選択頻度が最高であるジャンルに対応する音声認識辞書を選択する（ステップＳ１０８）。

【0093】

そして、辞書生成部１８は、辞書記憶部１６Ａ内の複数の音声認識辞書のうち、ステップＳ１０８で選択された音声認識辞書、例えば単語辞書やそのユーザ辞書に、ステップＳ１０５Ｂで抽出された文字に対応する単語やフレーズを登録する（ステップＳ１０９）。

【0094】

＜効果の一側面＞
上述してきたように、本実施例に係るサーバ装置１０は、動画像のうち音声から判定したジャンルまたは画像から判定したジャンルのいずれを音声認識辞書の選択に用いるのかを音声および画像の品質に基づいて決定する。

【0095】

これにより、動画像のうち画像の品質が悪い場合、音声から判定したジャンルに対応する音声認識辞書を選択したり、動画像のうち音声の品質が悪い場合、画像から判定したジャンルに対応する音声認識辞書を選択したりすることができる。あるいは、動画像のうち画像の品質が良い場合、画像から判定したジャンルに対応する音声認識辞書を選択したり、動画像のうち音声の品質が良い場合、音声から判定したジャンルに対応する音声認識辞書を選択したりすることができる。

【0096】

したがって、本実施例に係るサーバ装置１０によれば、動画像のジャンルに対応する音声認識辞書の選択を実現できる。

【実施例0097】

さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。

【0098】

＜応用例＞
上記の実施例１では、区間ごとにジャンルを選択する際、音声品質および画像品質に基づいてジャンルを選択する例を挙げたが、これに限定されない。例えば、第１ジャンル判定モデルＭ１１が出力するジャンルの確信度および第２ジャンル判定モデルＭ１２が出力するジャンルの確信度のうち、確信度が高い方のジャンルを選択することもできる。この場合、必ずしも音声品質および画像品質の判定は実行されずともよい。

【0099】

＜分散および統合＞
また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されておらずともよい。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、受付部１１、音声抽出部１２Ａ、音声抽出部１２Ｂ、画像抽出部１３、第１ジャンル判定部１４Ａ、第２ジャンル判定部１４Ｂ、第１品質判定部１５Ａ、第２品質判定部１５Ｂ、選択部１６、文字抽出部１７、辞書生成部１８または音声認識部１９をサーバ装置１０の外部装置としてネットワーク経由で接続するようにしてもよい。また、受付部１１、音声抽出部１２Ａ、音声抽出部１２Ｂ、画像抽出部１３、第１ジャンル判定部１４Ａ、第２ジャンル判定部１４Ｂ、第１品質判定部１５Ａ、第２品質判定部１５Ｂ、選択部１６、文字抽出部１７、辞書生成部１８または音声認識部１９を別の装置がそれぞれ有し、ネットワーク接続されて協働することで、サーバ装置１０の機能を実現するようにしてもよい。

【0100】

＜ハードウェア構成＞
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図１５を用いて、実施例１及び実施例２と同様の機能を有する辞書選択プログラムを実行するコンピュータの一例について説明する。

【0101】

図１５は、ハードウェア構成例を示す図である。図１５に示すように、コンピュータ１００は、操作部１１０ａと、スピーカ１１０ｂと、カメラ１１０ｃと、ディスプレイ１２０と、通信部１３０とを有する。さらに、このコンピュータ１００は、ＣＰＵ１５０と、ＲＯＭ１６０と、ＨＤＤ１７０と、ＲＡＭ１８０とを有する。これら１１０～１８０の各部はバス１４０を介して接続される。なお、ここでは、ハードウェアプロセッサの例として、ＣＰＵ１５０を例に挙げたが、ＧＰＵやＧＰＵクラスタなどにより実現されてもよい。

【0102】

ＨＤＤ１７０には、図１５に示すように、上記の実施例１で示された受付部１１、音声抽出部１２Ａ、画像抽出部１３、第１ジャンル判定部１４Ａ、第２ジャンル判定部１４Ｂ、第１品質判定部１５Ａ、第２品質判定部１５Ｂ、選択部１６、文字抽出部１７および辞書生成部１８と同様の機能を発揮する辞書選択プログラム１７０ａが記憶される。この辞書選択プログラム１７０ａは、図１に示した受付部１１、音声抽出部１２Ａ、画像抽出部１３、第１ジャンル判定部１４Ａ、第２ジャンル判定部１４Ｂ、第１品質判定部１５Ａ、第２品質判定部１５Ｂ、選択部１６、文字抽出部１７および辞書生成部１８の各構成要素と同様、統合又は分離してもよい。すなわち、ＨＤＤ１７０には、必ずしも上記の実施例１で示した全てのデータが格納されずともよく、処理に用いるデータがＨＤＤ１７０に格納されればよい。

【0103】

このような環境の下、ＣＰＵ１５０は、ＨＤＤ１７０から辞書選択プログラム１７０ａを読み出した上でＲＡＭ１８０へ展開する。この結果、辞書選択プログラム１７０ａは、図１５に示すように、辞書選択プロセス１８０ａとして機能する。この辞書選択プロセス１８０ａは、ＲＡＭ１８０が有する記憶領域のうち辞書選択プロセス１８０ａに割り当てられた領域にＨＤＤ１７０から読み出した各種データを展開し、展開された各種データを用いて各種の処理を実行する。例えば、辞書選択プロセス１８０ａが実行する処理の一例として、図１４に示す処理などが含まれ得る。なお、ＣＰＵ１５０では、必ずしも上記の実施例１で示した全ての処理部が動作せずともよく、実行対象とする処理に対応する処理部が仮想的に実現されればよい。

【0104】

なお、上記の辞書選択プログラム１７０ａは、必ずしも最初からＨＤＤ１７０やＲＯＭ１６０に記憶されておらずともかまわない。例えば、コンピュータ１００に挿入されるフレキシブルディスク、いわゆるＦＤ、ＣＤ－ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に辞書選択プログラム１７０ａを記憶させる。そして、コンピュータ１００がこれらの可搬用の物理媒体から辞書選択プログラム１７０ａを取得して実行するようにしてもよい。また、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータ１００に接続される他のコンピュータまたはサーバ装置などに辞書選択プログラム１７０ａを記憶させておく。このように記憶された辞書選択プログラム１７０ａをコンピュータ１００にダウンロードさせた上で実行させるようにしてもよい。

【0105】

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。

【0106】

（付記１）動画像データの音声データと画像データのそれぞれに基づいて、前記動画像データ中の複数区間それぞれについて前記動画像データが示すジャンルを判定し、
前記音声データと前記画像データのそれぞれに基づいて、前記動画像データ中の複数区間それぞれについて、音声の品質および画像の品質を判定し、
前記複数区間それぞれについての、前記ジャンルの判定結果と、前記音声の品質および前記画像の品質の判定結果と、に基づいて、複数の音声認識辞書の中から、特定の音声認識辞書を選択する、
処理をコンピュータに実行させる辞書選択プログラム。

【0107】

（付記２）前記選択する処理は、前記複数区間に含まれる区間ごとに、前記音声の品質および前記画像の品質を比較して前記音声または前記画像のうち品質が高い方のメディアを選択し、前記音声データから判定されたジャンルおよび前記画像データから判定されたジャンルのうち前記品質が良い方のメディアに対応するジャンルを前記区間ごとに選択し、前記区間ごとに選択されたジャンルの中で選択頻度が最高であるジャンルに対応する音声認識辞書を選択する処理を含む、
ことを特徴とする付記１に記載の辞書選択プログラム。

【0108】

（付記３）前記複数区間それぞれについて、前記画像データに含まれる文字を抽出し、
抽出された文字に対応する単語またはフレーズを、前記選択する処理で選択された音声認識辞書に登録する、
処理を前記コンピュータにさらに実行させる付記１に記載の辞書選択プログラム。

【0109】

（付記４）前記抽出する処理は、前記複数区間のうち前記画像の品質が特定の条件を満たす区間について、前記画像データに含まれる文字を抽出する処理を含む、
ことを特徴とする付記３に記載の辞書選択プログラム。

【0110】

（付記５）前記登録する処理は、前記複数区間のうち前記画像の品質が特定の条件を満たす区間で抽出された文字に対応する単語またはフレーズを前記選択する処理で選択された音声認識辞書に登録する処理を含む、
ことを特徴とする付記３に記載の辞書選択プログラム。

【0111】

（付記６）前記選択する処理で選択された音声認識辞書を用いて前記動画像の前記音声データに音声認識を実行する処理を前記コンピュータにさらに実行させる、
ことを特徴とする付記１に記載の辞書選択プログラム。

【0112】

（付記７）動画像データの音声データと画像データのそれぞれに基づいて、前記動画像データ中の複数区間それぞれについて前記動画像データが示すジャンルを判定し、
前記音声データと前記画像データのそれぞれに基づいて、前記動画像データ中の複数区間それぞれについて、音声の品質および画像の品質を判定し、
前記複数区間それぞれについての、前記ジャンルの判定結果と、前記音声の品質および前記画像の品質の判定結果と、に基づいて、複数の音声認識辞書の中から、特定の音声認識辞書を選択する、
処理をコンピュータが実行する辞書選択方法。

【0113】

（付記８）前記選択する処理は、前記複数区間に含まれる区間ごとに、前記音声の品質および前記画像の品質を比較して前記音声または前記画像のうち品質が高い方のメディアを選択し、前記音声データから判定されたジャンルおよび前記画像データから判定されたジャンルのうち前記品質が良い方のメディアに対応するジャンルを前記区間ごとに選択し、前記区間ごとに選択されたジャンルの中で選択頻度が最高であるジャンルに対応する音声認識辞書を選択する処理を含む、
ことを特徴とする付記７に記載の辞書選択方法。

【0114】

（付記９）前記複数区間それぞれについて、前記画像データに含まれる文字を抽出し、
抽出された文字に対応する単語またはフレーズを、前記選択する処理で選択された音声認識辞書に登録する、
処理を前記コンピュータがさらに実行する付記７に記載の辞書選択方法。

【0115】

（付記１０）前記抽出する処理は、前記複数区間のうち前記画像の品質が特定の条件を満たす区間について、前記画像データに含まれる文字を抽出する処理を含む、
ことを特徴とする付記９に記載の辞書選択方法。

【0116】

（付記１１）前記登録する処理は、前記複数区間のうち前記画像の品質が特定の条件を満たす区間で抽出された文字に対応する単語またはフレーズを前記選択する処理で選択された音声認識辞書に登録する処理を含む、
ことを特徴とする付記９に記載の辞書選択方法。

【0117】

（付記１２）前記選択する処理で選択された音声認識辞書を用いて前記動画像の前記音声データに音声認識を実行する処理を前記コンピュータがさらに実行する、
ことを特徴とする付記７に記載の辞書選択方法。

【0118】

（付記１３）動画像データの音声データと画像データのそれぞれに基づいて、前記動画像データ中の複数区間それぞれについて前記動画像データが示すジャンルを判定し、
前記音声データと前記画像データのそれぞれに基づいて、前記動画像データ中の複数区間それぞれについて、音声の品質および画像の品質を判定し、
前記複数区間それぞれについての、前記ジャンルの判定結果と、前記音声の品質および前記画像の品質の判定結果と、に基づいて、複数の音声認識辞書の中から、特定の音声認識辞書を選択する、
処理を実行する制御部を含む辞書選択装置。

【0119】

（付記１４）前記選択する処理は、前記複数区間に含まれる区間ごとに、前記音声の品質および前記画像の品質を比較して前記音声または前記画像のうち品質が高い方のメディアを選択し、前記音声データから判定されたジャンルおよび前記画像データから判定されたジャンルのうち前記品質が良い方のメディアに対応するジャンルを前記区間ごとに選択し、前記区間ごとに選択されたジャンルの中で選択頻度が最高であるジャンルに対応する音声認識辞書を選択する処理を含む、
ことを特徴とする付記１３に記載の辞書選択装置。

【0120】

（付記１５）前記複数区間それぞれについて、前記画像データに含まれる文字を抽出し、
抽出された文字に対応する単語またはフレーズを、前記選択する処理で選択された音声認識辞書に登録する、
処理を前記制御部がさらに実行する付記１３に記載の辞書選択装置。

【0121】

（付記１６）前記抽出する処理は、前記複数区間のうち前記画像の品質が特定の条件を満たす区間について、前記画像データに含まれる文字を抽出する処理を含む、
ことを特徴とする付記１５に記載の辞書選択装置。

【0122】

（付記１７）前記登録する処理は、前記複数区間のうち前記画像の品質が特定の条件を満たす区間で抽出された文字に対応する単語またはフレーズを前記選択する処理で選択された音声認識辞書に登録する処理を含む、
ことを特徴とする付記１５に記載の辞書選択装置。

【0123】

（付記１８）前記選択する処理で選択された音声認識辞書を用いて前記動画像の前記音声データに音声認識を実行する処理を前記制御部がさらに実行する、
ことを特徴とする付記１３に記載の辞書選択装置。

IP Force 特許公報掲載プロジェクト 2022.1.31 β版