(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-16
(45)【発行日】2024-05-24
(54)【発明の名称】ダイアログの了解度を評価する方法及び装置
(51)【国際特許分類】
G10L 25/60 20130101AFI20240517BHJP
【FI】
G10L25/60
(21)【出願番号】P 2022538977
(86)(22)【出願日】2019-12-23
(86)【国際出願番号】 US2019068391
(87)【国際公開番号】W WO2021133382
(87)【国際公開日】2021-07-01
【審査請求日】2022-12-15
(73)【特許権者】
【識別番号】503206684
【氏名又は名称】ディーティーエス・インコーポレイテッド
【氏名又は名称原語表記】DTS,Inc.
(74)【代理人】
【識別番号】100094569
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100103610
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100086771
【氏名又は名称】西島 孝喜
(74)【代理人】
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100139712
【氏名又は名称】那須 威夫
(72)【発明者】
【氏名】プロヴェンシオ デイヴィッド コルテス
(72)【発明者】
【氏名】ウォルシュ マーティン
(72)【発明者】
【氏名】スラック ブライアン
(72)【発明者】
【氏名】シュタイン エドワード
【審査官】中村 天真
(56)【参考文献】
【文献】米国特許出願公開第2002/0147587(US,A1)
【文献】特開2021-032909(JP,A)
【文献】特開平11-175096(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-25/93
(57)【特許請求の範囲】
【請求項1】
方法であって、
非ダイアログサウンドがミキシングされたダイアログを含むミキシングサウンドトラックを取得するステップと、
前記ミキシングサウンドトラックを比較テキストに変換するステップと、
前記ダイアログの了解度の基準として前記ダイアログの基準テキストを取得するステップと、
前記基準テキストに対する前記比較テキストの比較に基づいて、リスナーにとっての前記ミキシングサウンドトラックのダイアログの了解度の測度を決定するステップと、
を含み、
前記ダイアログの了解度の測度を決定するステップは、
前記比較に基づいて、
前記比較テキストの連続セグメントの対応するセグメントについての前記ミキシングサウンドトラックのタイムスライスのダイアログの了解度の個々の測度をコンピュータ計算するステップと、
前記ダイアログの了解度の個々の測度に基づいて、前記ダイアログの了解度の測度をコンピュータ計算するステップと、
を含み、
前記方法が更に、
前記ダイアログの了解度の測度をレポートするステップ
を含む、方法。
【請求項2】
前記変換するステップは、自動音声認識(ASR)を用いて前記ミキシングサウンドトラックを前記比較テキストに変換するステップを含む、請求項1に記載の方法。
【請求項3】
前記レポートするステップは、前記ダイアログの了解度の測度及び前記ダイアログの了解度の個々の測度を表示するステップを含む、請求項1に記載の方法。
【請求項4】
前記ダイアログの了解度の個々の測度をコンピュータ計算するステップは、前記ミキシングサウンドトラックのタイムスライスに対応する比較テキストのセグメントと前記基準テキストのセグメントの対応するセグメントとの間の違いを決定するステップを含む、請求項1に記載の方法。
【請求項5】
前記レポートするステップは、前記ダイアログの了解度の測度、前記ダイアログの了解度の個々の測度、前記比較テキストのセグメント、及び前記基準テキストのセグメントの対応するセグメントを表示するステップを含む、請求項4に記載の方法。
【請求項6】
デジタル再生デバイスのために構成され、前記ダイアログの了解度の個々の測度を少なくとも含むメタデータを生成するステップを更に含む、請求項1に記載の方法。
【請求項7】
前記基準テキストは、それぞれの時間間隔にわたるサブタイトルテキストのチャンクを含み、
前記了解度の測度を決定するステップは、(i)前記ミキシングサウンドトラックのタイムスライスに対応する比較テキストのセグメントと、(ii
)前記比較テキストのセグメント
と共通のダイアログを伝達する前記サブタイトルテキストのチャンクの対応するチャンクとの間の個々の違いを決定するステップを含む、
請求項1に記載の方法。
【請求項8】
前記比較テキストのセグメントの各々と前記サブタイトルテキストのチャンクのマッチングチャンクとの間のテキスト類似性を最大化するテキストマッチングアルゴリズムを用いて、前記比較テキストのセグメントを前記サブタイトルテキストのチャンクの対応するチャンクにマッチングするステップを更に含み、
前記個々の違いを決定するステップは、前記マッチングの結果に基づいて前記個々の違いを決定するステップを含む、
請求項7に記載の方法。
【請求項9】
前記基準テキストを取得するステップは、ダイアログのみのサウンドトラックを前記基準テキストに変換するステップを含む、請求項1に記載の方法。
【請求項10】
前記基準テキストを取得するステップは、前記基準テキストとして前記ダイアログのテキストベースのサブタイトルを受信するステップを含む、請求項1に記載の方法。
【請求項11】
前記ミキシングサウンドトラックを取得するステップは、
非ダイアログサウンドがミキシングされたダイアログを含むオリジナルミキシングサウンドトラックを受信するステップと、
室内音響、サウンド再生システム再生音響、及び背景雑音の1又は2以上をエミュレートするエミュレートサウンドエフェクトによって前記オリジナルミキシングサウンドトラックを音響的に修正し、前記ミキシングサウンドトラックを生成するステップと、
を含む、請求項1に記載の方法。
【請求項12】
前記変換するステップは、
機械学習ダイアログ抽出器を用いて、前記ミキシングサウンドトラックから前記ダイアログを抽出して優勢ダイアログサウンドトラックを生成するステップと、
前記優勢ダイアログサウンドトラックを前記比較テキストに変換するステップと、
を含む、請求項1に記載の方法。
【請求項13】
前記ダイアログの了解度の測度を決定するステップは、前記比較テキストと前記基準テキストとの間の違いをコンピュータ計算するステップと、前記違いに基づいて前記ダイアログの了解度の測度をコンピュータ計算するステップと、を含む、請求項1に記載の方法。
【請求項14】
前記違いをコンピュータ計算するステップは、文字又は言葉の違いを表すテキスト距離として、又はサウンドの違いを表す音声学的テキスト距離として前記違いをコンピュータ計算するステップを含む、請求項13に記載の方法。
【請求項15】
前記違いをコンピュータ計算するステップは、
第1の比較アルゴリズムを用いて、前記比較テキストと前記基準テキストとの間の第1の違いをコンピュータ計算するステップと、
前記第1の比較アルゴリズムとは異なる第2の比較アルゴリズムを用いて、前記比較テキストと前記基準テキストとの間の第2の違いをコンピュータ計算するステップと、
前記第1の違い及び前記第2の違いの加重組み合わせとして前記違いをコンピュータ計算するステップと、
を含む、請求項13に記載の方法。
【請求項16】
装置であって、
プロセッサであって、
非ダイアログサウンドがミキシングされたダイアログを含むミキシングサウンドトラックを取得し、
前記ミキシングサウンドトラックを比較テキストに変換し、
リスナーにとっての前記ダイアログの了解度の基準として前記ダイアログの基準テキストを取得し、
前記比較テキストと前記基準テキストとの間の比較に基づいて、
前記比較テキストの連続セグメントの対応するセグメントについての前記ミキシングサウンドトラックのダイアログの了解度の個々の測度をコンピュータ計算し、
前記ダイアログの了解度の個々の測度に基づいて、前記ミキシングサウンドトラックのダイアログの了解度の全体的測度をコンピュータ計算し、
及び前記ダイアログの了解度の全体的測度を含むレポートを生成する、
ように構成されたプロセッサ
を備える、装置。
【請求項17】
前記プロセッサは、前記ミキシングサウンドトラックのタイムスライスに対応する比較テキストのセグメントと前記基準テキストのセグメントの対応するセグメントとの間の違いを決定することによって、前記ダイアログの了解度の個々の測度をコンピュータ計算するように構成される、請求項16に記載の装置。
【請求項18】
前記プロセッサは、ASRを用いてダイアログのみのサウンドトラックを前記基準テキストに変換することによって、前記基準テキストを取得するように構成される、請求項16に記載の装置。
【請求項19】
前記プロセッサは、前記基準テキストとして前記ダイアログのテキストベースのサブタイトルを受信することによって前記基準テキストを取得するように構成される、請求項16に記載の装置。
【請求項20】
前記プロセッサは、
非ダイアログサウンドがミキシングされたダイアログを含むオリジナルミキシングサウンドトラックを受信し、
室内音響、サウンド再生システム再生音響、及び背景雑音の1又は2以上をエミュレートするエミュレートサウンドエフェクトによって前記オリジナルミキシングサウンドトラックを音響的に修正し、前記ミキシングサウンドトラックを生成する、
ことによって、前記ミキシングサウンドトラックを取得するように構成される、請求項16に記載の装置。
【請求項21】
非一時的コンピュータ可読媒体であって、プロセッサによって実行される時に、前記プロセッサに、
非ダイアログサウンドがミキシングされたダイアログを含むミキシングサウンドトラックを取得させ、
自動音声認識(ASR)を用いて前記ミキシングサウンドトラックのタイムスライスを比較テキストに変換させ、
前記ダイアログの了解度の基準として前記ダイアログの基準テキストを取得させ、
前記比較テキストと前記基準テキストとの間の違いに基づいて、
前記比較テキストの連続セグメントの対応するセグメントについての前記タイムスライスのミキシングサウンドトラックのダイアログの了解度の個々の測度をコンピュータ計算させ、
前記ダイアログの了解度の個々の測度に基づいて前記ミキシングサウンドトラックのダイアログの了解度の全体的測度をコンピュータ計算させ、
前記ダイアログの了解度の全体的測度及び前記ダイアログの了解度の個々の測度を含むレポートを生成させる、
ようにする命令
が格納される非一時的コンピュータ可読媒体。
【請求項22】
前記プロセッサに前記基準テキストを取得させる前記命令は、前記プロセッサに前記ASRを用いてダイアログのみのサウンドトラックを前記基準テキストに変換させる命令を含む、請求項21に記載の非一時的コンピュータ可読媒体。
【請求項23】
前記プロセッサに前記基準テキストを取得させる前記命令は、前記プロセッサに前記基準テキストとして前記ダイアログのテキストベースのサブタイトルを受信させる命令を含む、請求項21に記載の非一時的コンピュータ可読媒体。
【請求項24】
前記プロセッサに前記ミキシングサウンドトラックを取得させる命令は、前記プロセッサに、
非ダイアログサウンドがミキシングされた前記ダイアログを含むオリジナルミキシングサウンドトラックを受信させ、
室内音響、サウンド再生システム再生音響、及び背景雑音の1又は2以上をエミュレートするエミュレートサウンドエフェクトによって前記オリジナルミキシングサウンドトラックを音響的に修正し、前記ミキシングサウンドトラックを生成させる、
命令を含む、請求項21に記載の非一時コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、サウンドトラックに関するダイアログの了解度の評価に関する。
【背景技術】
【0002】
娯楽産業では、コンテンツ配信者が、映画及びテレビジョン(TV)番組などのオーディオ-ビジュアルコンテンツを、消費者によるコンテンツの消費のために消費者にストリーミングしている。オーディオに関しては、コンテンツ製作者は、コンテンツ製作者がストリーミングするコンテンツからのダイアログを家庭で適正に聴取し理解できないことに関する消費者からの数多くの持続的な不満の形で、重大な問題に直面している。問題を解決する従来の手法は、ボーカルの周波数範囲をブーストするなどの従来からのデジタル信号処理(DSP)技術を介してダイアログの音声了解度を引き上げようと試みている。この従来方法では、一般的に、DSP技術が「分かりやすさ」の問題を解決することを仮定しているが、追加の処理の前又は後の何れかで消費者が実際にダイアログをどのくらい良く理解するかを評価又は対処してはいない。これは、問題の間、すなわち、低品質のダイアログ了解度に関する消費者の不満とその解決策との間の品質管理(QC)のギャップを結果として生じ、従って、報告される問題を実際に適切に解決したかどうかに関する知識なしに解決策の実施をコンテンツ製作者及び/又はサウンドエンジニアに課すことになる。
【図面の簡単な説明】
【0003】
【
図1】リスナーにとってのサウンドトラックのダイアログの了解度を評価及び改良する例示的なサウンドエンジニアリング環境を示すブロック図である。
【
図2】サウンドエンジニアリング環境のダイアログアナライザによって実行される、了解度が測定される基準としてダイアログのみのサウンドトラックを用いたミキシングウントドラックのダイアログの了解度を評価する例示的な第1の方法を示す図である。
【
図3】ダイアログアナライザによって実行される、了解度が測定される基準としてダイアログのテキストベースのサブタイトルを用いたミキシングサウンドトラックのダイアログの了解度を評価する例示的な第2の方法を示す図である。
【
図4A】ダイアログアナライザのASRエンジンによってサウンドトラックダイアログの連続タイムスライスを基準/比較テキストの対応する連続セグメントに変換することに関連付けられる例示的なタイミングを示す図である。
【
図4B】固定持続時間のダイアログのタイムスライスに対応する自動音声認識(ASR)テキストセグメントへのサブタイトルチャンクの例示的なテキストマッチングを示す図である。
【
図5】基準テキストと比較テキスト間の比較の結果としてダイアログアナライザによって生成されたダイアログの了解度の測度(ヒストグラム形式で図示)対時間のプロット形式の例示的なダイアログ了解度レポートを示す図である。
【
図6】サブタイトルに対して参照されるオリジナルミキシングサウンドトラックのダイアログについての了解度の測度のプロット形式の例示的なダイアログ了解度レポートを示す図であり、サブタイトルの品質を示す。
【
図7】サブタイトルに対して参照される修正されたミキシングサウンドトラックのダイアログについての了解度の測度のプロット形式の例示的なダイアログ了解度レポートを示す図である。
【
図8】
図6及び7からのダイアログの連続タイムスライスの行と、タイムスライスの各々に対応する様々なデータに対する列とを有するテーブル形式の例示的な了解度レポートを示す図である。
【
図9】比較結果から生成されたメタデータを含む例示的なダイアログ了解度レポートを示す図である。
【
図10】エディテックステキスト距離アルゴリズムを用いた基準テキストと比較テキストの間の比較の結果としてダイアログアナライザによって生成されたテキスト距離対時間の極座標プロット形式の例示的なダイアログ了解度レポートを示す図である。
【
図11】コサインテキスト距離アルゴリズムを用いて基準テキストと比較テキストの間の比較の結果として、ダイアログアナライザによって生成されたテキスト距離対時間の極座標プロット形式の例示的なダイアログ了解度レポートを示す図である。
【
図12】サウンドトラックにおけるダイアログの了解度を評価する例示的なハイレベル方法を示す流れ図である。
【
図13】オーディオアナライザを実装することができる例示的なコンピュータシステム/デバイスを示すブロック図である。
【発明を実施するための形態】
【0004】
例示的な実施形態
コンテンツ配信者は、映画、TV番組などのミキシングサウンドトラックを含むオーディオ-ビジュアルコンテンツを消費者にストリーミングする。ミキシングサウンドトラックは、ダイアログと、例えば音楽及び映画/TVのサウンドエフェクトを含む非ダイアログサウンドとを含むことができる。消費者は、テレビジョン又はコンピュータなどの再生デバイスのサウンド再生システムを介してミキシングサウンドトラックを再生する。多くの場合、消費者は、居間などの消費者の再生ルームでサウンド再生システムを介して再生されるミキシングサウンドトラックからのダイアログを理解できない。消費者は、ダイアログの了解度又は「分かりやすさ」を低下させる可能性がある多くの要因に起因して、ダイアログを理解できない場合がある。本明細書で用いる「了解度」及び「分かりやすさ」という用語は、同義語であり且つ置き換え可能である。ダイアログの了解度を低下させる可能性がある要因には以下が挙げられる。
a.ダイアログの低信号対雑音比(SNR)。例えば、サウンドミキシングレベルは、非ダイアログサウンドをダイアログに対して高くしすぎることがあり、ダイアログをかき消すことになる。また、再生ルームの背景雑音がダイアログをかき消す可能性がある。
b.反響などの再生ルームの音響特性が、ダイアログの了解度と干渉するか又はこれを低下させる可能性がある。
c.サウンド再生システムの制限が、ダイアログの了解度を低下させることがある。
d.ダイアログにおける言葉の滑舌及び発声、例えばアクセントが、消費者には分かり難く聞こえることがあり、これによってダイアログが高SNRで再生される時にもダイアログの了解度を低下させる。
e.消費者の個人的な聴力の欠損及び障害が、ダイアログの了解度を低下させる可能性がある。
【0005】
ダイアログの低下した了解度に関連付けられる問題に対する有効な解決策を実施するために、解決策を実施する前及び後に消費者(以下の説明では「リスナー」と呼ばれる)に対するダイアログの了解度を評価できることが有用である。例えば、ダイアログの了解度の減少又は低下の可能性を予測できることが有用である。ダイアログの了解度に関する上述の要因の影響を評価することも有用であり、これによって、解決策が、適正に要因を補償することができるようになる。従来の解決策の欠点は、リスナーがダイアログを理解できる可能性、すなわちダイアログがリスナーにとって明瞭である可能性を解決策が推定しようとしないことである。
【0006】
従って、本明細書に提示される実施形態は、自動音声認識(ASR)の精度を評価して、例えば、サウンドトラックからのダイアログがリスナーによって理解される可能性を推定する。より具体的には、本実施形態は、ASRを利用して、例えば、再生ルーム又は「リスニング環境」でのリスナーに対するサウンドトラックのダイアログの了解度を推定又は予測する。例えば、本実施形態は、ASRを用いて典型的な家庭環境における再生に対して典型的なTV及び映画コンテンツのダイアログの了解度の尤度を分析及び定量化する。本実施形態は更に、再生デバイス、室内音響、リスニングレベル、人間の聴力欠陥などのサウンド再生システムの制限などの消費者リスニングシナリオをエミュレートして、ダイアログが再生ルームで明瞭であり続ける可能性を更に予測する。本実施形態は、前述のダイアログ分析から結果として得られたダイアログの了解度に関する質的及び量的情報を含むダイアログ了解度レポート(品質管理(QC)レポートとも呼ばれる)を提供する。このような情報により、有効な解決策が低下した了解度を修正することが可能となる。解決策は、新しいダイアログのサウンドトラックを記録するか又はダイアログ及び非ダイアログサウンドをリミックスしてリスナーにとってのダイアログの了解度を増大させるステップを含むことができる。
【0007】
サウンドエンジニアリング環境
図1を参照すると、リスナーにとってのサウンドトラックのダイアログの了解度を評価及び改良する例示的なサウンドエンジニアリング環境100のハイレベルブロック図である。サウンドエンジニアリング環境100は、以下に記載するように、サウンドトラックのダイアログを分析するよう構成されたコンピュータベースのダイアログアナライザ102と、ダイアログアナライザと対話するためのコンテンツ製作者及び/又はミキシングエンジニアなどの評価器104と、を含む。評価器104は、公知のように、人員とサウンド機器の組み合わせを表すことができる。ダイアログアナライザ102は、例えば、映画及び/又はTV番組を含む、マルチメディア/オーディオ-ビジュアルコンテンツのダイアログに関係付けられる多種多様な入力を評価器104から受信することができる。ダイアログアナライザ102は、サウンド処理技術を用いて入力において伝達されるダイアログを分析して、ダイアログ了解度レポートの形式でダイアログ分析結果/評価を生成して、レポートを評価器104に提供する。
【0008】
1つの実施例では、評価器104は、映画及びTV番組のサウンドトラックの形式のコンテンツをダイアログアナライザ102に提供することができる。サウンドトラックは、(i)ダイアログのみの非ミキシングサウンドトラックA(「ダイアログのみのサウンドトラック」又は「ダイアログサウンドトラック」とも呼ばれる)、及び(ii)例えば、音楽及び映画/TVサウンドエフェクトなどの非ダイアログサウンドがミキシングされたダイアログを含むオリジナルミキシングサウンドトラックBを含むことができる。加えて、評価器104は、ダイアログのみ及びミキシングサウンドトラックに対するダイアログを表すテキストベースのサブタイトルCをダイアログアナライザ102に提供することができる。ダイアログアナライザ102はまた、評価器104から、ダイアログアナライザ102によって用いることができるサウンド修正子信号Dを受信して、再生ルーム音響、背景雑音、再生デバイスのサウンド再生システムの制限、リスナーの聴力障害などのうちの1又は2以上を含む、様々な障害に対してサウンドエフェクトをエミュレートすることができる。エミュレートされたサウンドエフェクトは、非ダイアログサウンド、例えば、上述されたオリジナルミキシングサウンドトラックBの映画/TVサウンドエフェクトとは別個である。
【0009】
ダイアログアナライザ102は、了解度の理想基準/規格に対して、ダイアログのみのサウンドトラックA、オリジナルミキシングサウンドトラックB、及び修正されたミキシングサウンドトラックE(エミュレートされたサウンドエフェクトと組み合わされたオリジナルミキシングサウンドトラックを含む)の各々に関してダイアログの了解度を測定するプロセスを実施する。ダイアログアナライザ102は、了解度の測度を含むダイアログ了解度レポートを生成して、レポートを評価器104に提供することができる。このために、ダイアログアナライザ102は、互いに結合され且つ互いに対話するよう構成された、ASRエンジン120、音響エミュレータ122、比較ロジック124、及びレポート生成器126を含む。
【0010】
ASRエンジン120は、機械学習(ML)ベースのASRを実行して、ダイアログのみサウンドトラックA、オリジナルミキシングサウンドトラックB、及び修正されたミキシングサウンドトラックEの各々によって伝達されるダイアログを対応するASR(ダイアログ)テキストに変換して、テキストを比較ロジック124に提供する、ディープニューラルネットワーク(DNN)などの1又は2以上のニューラルネットワークを含むことができる。ASRエンジン120は、ダイアログのサウンドトラックをテキストに変換するために用いられる何れかの公知の又は今後開発されるASR技術を含むことができる。ミキシング/修正済みミキシングサウンドトラックB/Eに対してASRを実行することに関して、ASRエンジン120は、(i)ミキシング/修正済みミキシングサウンドトラックからダイアログを抽出して、優勢なダイアログサウンドトラックを生成するMLベースのアルゴリズム(例えば、MLダイアログ抽出器)を含む信号処理アルゴリズム、及び(ii)優勢ダイアログサウンドトラックをテキストに変換するASRアルゴリズムを含むことができる。
【0011】
音響エミュレータ122は、サウンド修正子信号Dを受信し、サウンド修正子信号に基づいて上述のサウンドエフェクトをエミュレートし、エミュレートされたサウンドエフェクトを生成する。音響エミュレータ122は、エミュレートされたサウンドエフェクトをオリジナルミキシングサウンドトラックBに組み合わせて、修正されたミキシングサウンドトラックEを生成する。何れかの公知の又は今後開発される音響エミュレータを用いることができる。音響エミュレータ122は、修正されたミキシングサウンドトラックをASRエンジン120に提供する。
【0012】
以下に更に詳細に記載するように、比較ロジック124は、ASRエンジン120からの比較テキストCT、及びASRエンジンからのテキストを含むことができる基準テキストRT、又は代替として、テキストベースのサブタイトルCを受信する。比較ロジック124は、基準テキストに対する比較テキストの比較に基づいて、基準テキストRTに対する比較テキストCTにて表されるダイアログの了解度の測度Iを決定する。比較ロジック124は、ダイアログの了解度の測度I及び他の比較結果をレポート生成器126に提供する。レポート生成器126は、ダイアログの了解度の測度I及び他の比較結果を含むダイアログ了解度レポートを生成し、レポートをダイアログ評価器104に提供する。
【0013】
本明細書に提示される実施形態は、単に例証として、了解度の予測器としてASRを用いる。他の実施形態は、ASRに頼らないことがある。例えば、このような他の実施形態は、代替の技術を利用して、(i)サウンドトラックのダイアログを、ダイアログのサウンドに近いハッシュ値又は署名などのダイアログの非テキスト表現に翻訳する、及び(ii)非テキスト表現を理想基準と比較して、ダイアログの了解度の測度を生成する、ことができる。例えば、比較作動は、MLベースの技術を用いて実行し、ダイアログの了解度の測度を示す比較結果を生成することができる。
【0014】
理想基準としてダイアログのみのサウンドトラックを用いたミキシングサウンドトラックのダイアログ了解度
図2を参照すると、了解度が測定される理想基準/規格としてダイアログのみのサウンドトラックAを用いてオリジナルミキシングサウンドトラックB及び修正されたミキシングサウンドトラックEのダイアログの了解度を評価する例示的な第1の方法200の図がある。方法200は、ダイアログアナライザ102によって実行することができる。
【0015】
オリジナルミキシングサウンドトラックのダイアログ了解度
方法200は、エミュレートされたサウンドエフェクトなしのオリジナルミキシングサウンドトラックBのダイアログの了解度を全体的に評価する動作202、204、及び206の第1のセットを含む。
【0016】
202において、ARエンジン120は、ダイアログのみのサウンドトラックA(
図2で「オリジナルダイアログのみのミキシングオーディオ」として表記)を受信する。ダイアログのみのサウンドトラックAは、例えば、他のフォーマットが可能であるが、波形オーディオファイル(.WAV)フォーマットのファイルとして提供することができる。ASRエンジン120は、ダイアログのみのサウンドトラックAに対してASRを実行して、ダイアログのみのサウンドトラックを基準テキストに変換する。例えば、ASRエンジン120は、ダイアログのみのサウンドトラックAの連続タイムスライスを基準テキストの対応する連続セグメントに変換する。連続タイムスライスは各々、連続ダイアログ分析タイムスロットの対応するスロットを占める。タイムスロット(及び従ってタイムスライス)は、例えば、他の持続時間が可能であるが、5-10秒の範囲の固定持続時間とすることができる。ASRエンジン120は、それぞれの開始時間及びそれぞれの停止時間を有するタイムスロット/タイムスライスの各々にタイムスタンプして、更にまたタイムスロット/タイムスライスの連続するタイムスロット/タイムスライスに増分タイムスライス識別子を割り当てる。ASRエンジン120は、タイムスライス情報(例えば、タイムスタンプ及び識別子)を基準テキストの連続セグメントの対応するセグメントと関連付ける。ASRエンジン120は、基準テキスト及びタイムスライス情報を比較ロジック124に提供する。ASRエンジン120はまた、ASRエンジンが、ダイアログのみのサウンドトラックAのタイムスライスを基準テキストの対応するセグメントに変換するそれぞれの信頼度レベルを生成する。
【0017】
204にて、ASRエンジン120は、オリジナルミキシングサウンドトラックB(
図2に「オリジナルフルミキシングオーディオ」として表記)を受信する。オリジナルミキシングサウンドトラックBは、例えば、.WAVファイルの1つのファイルとして提供することができる。ASRエンジン120は、オリジナルミキシングサウンドトラックBに対してASRを実行し、オリジナルミキシングサウンドトラックのダイアログを比較テキストに変換する。例えば、ASRエンジン120は、ASRエンジンがダイアログのみのサウンドトラックAを基準テキストの連続セグメントに変換するのと同様の方法で、オリジナルミキシングサウンドトラックBのタイムスライスを比較テキストの対応するセグメントに変換する。同じタイムスライス/タイムスロットを表す比較テキストのセグメント及び基準テキストのセグメント、及び従ってダイアログの同じ部分(例えば、共通ダイアログセグメント)は、本明細書では比較の目的のための基準テキスト及び比較テキストの対応するセグメントと呼ばれる。ASRエンジン120は、比較テキストを比較ロジック124に提供する。
【0018】
206にて、リスナーにとってのダイアログの理想的な又は最大の了解度を表す基準又は規格として基準テキストを用いて、比較ロジック124は、比較テキストと基準テキストの間の比較に基づいて、リスナーにとってのオリジナルミキシングサウンドトラックBのダイアログの了解度の全体的な測度を決定する。すなわち、比較ロジック124は、比較テキストと基準テキストを比較して、2つのテキストの間の全体的な違いを表す比較結果を生成し、この全体的な違いに基づいてリスナーにとってのダイアログの了解度の全体的測度を決定する。
【0019】
より具体的には、比較ロジック124は、(i)上述のタイムスライスタイムスタンプ及び識別子に基づいて、同じ/共通ダイアログを表す比較テキストの連続セグメントと基準テキストの連続セグメントの間の対応関係を確定し、(ii)以下に記載する1又は2以上の比較アルゴリズムを用いて、比較テキストの連続セグメントと共通ダイアログを表す基準テキストの連続セグメントの対応するセグメントとの間の連続する個々の違いを決定し、(iii)個々の違いに基づいて、オリジナルミキシングサウンドトラックBのダイアログの了解度の全体的測度をコンピュータ計算する。個々の違いは、比較テキストの連続セグメントの対応するセグメントについてのダイアログの了解度の個々の測度と考えることができる。本明細書で用いる、用語「ダイアログの了解度の測度」及び「ダイアログ了解度測度(又はメトリック)」は、同義語であり置き換えることができ、更に用語「測度」及び「メトリック」もまた、同義語であり置き換えることができる。
【0020】
従って、本明細書で提示される実施形態は、ASRエンジン120が、リスナー(「平均的な人間のリスナー」と考えられる)にとってのオリジナルミキシングサウンドトラックBのダイアログの了解度のプロキシとして、比較テキストと基準テキストの間の全体的な違いによって表されるスピーチ-テキストを変換する精度を用いる。全体的な違い(及び同様に個々の違い)がゼロ(正確なマッチを示す)から最大値(最大ミスマッチを指示する)に次第に増大する場合、ダイアログの了解度の測度は、理想から最大の低下まで漸次的に減少/低下し、逆の場合もまた同様である。正確なマッチは、ASRエンジン120がオリジナルミキシングサウンドトラックBのダイアログを完全に理解し変換し、従って、リスナーは、ダイアログを十分理解していることを示す。対照的に、ミスマッチは、ASRエンジン120がオリジナルミキシングサウンドトラックBのダイアログを適正には理解しておらず、更に従って、リスナーは、ダイアログを十分理解していないことを示し、すなわち、ダイアログの了解度は低下する。
【0021】
ダイアログの了解度の測度は、多くの様々な方法で表すことができる。例えば、ダイアログアナライザ102は、1から0までのダイアログの了解度の測度(「了解度スコア」とも呼ばれる)を標準化することができ、これによって(i)1は、比較テキストと基準テキストの間の最大ミスマッチ(すなわち、0%マッチ)に起因した最小了解度を表し、すなわち、比較テキスト及び基準テキストは、完全に異なり、更に(ii)0は、比較テキストと基準テキストの間の完全なマッチ(すなわち、100%マッチ、ミスマッチなし)による最大了解度を表す。
【0022】
1つの例では、比較ロジック124は、1又は2以上の公知の又は今後開発される比較アルゴリズムを用いて比較テキストと基準テキストを比較し、上記に言及された比較テキストと基準テキストの間の全体的な違いを決定することができる。例えば、比較アルゴリズムは、比較テキストと基準テキストの間のテキスト距離を決定する、編集ベース、トークンベース、シーケンスベース、圧縮ベース、音声学又はサウンドベースなどのテキスト距離アルゴリズムを含むことができる。例示的なテキスト距離アルゴリズムには、比較されるテキストの文字及び/又は言葉の間のテキスト距離をコンピュータ計算するコサイン距離アルゴリズム、及びZobel及びDartによって開発された、比較されるテキストのサウンド間のテキスト距離すなわちスピーチされた時にテキストがどのように聞こえるかのテキスト距離をコンピュータ計算するエディテックス距離アルゴリズムが挙げられる。別の例では、比較アルゴリズムは、何れかの公知の又は今後開発される画像、パターン、及び/又は基準テキストと比較テキストの間の違いを決定するサウンドマッチングアルゴリズムを含むことができる。
【0023】
1つの実施形態では、比較ロジック124は、同じ比較アルゴリズムを用いて比較テキストと基準テキストの対応するセグメント間の個々の違いを決定することができ、更に個々の違いを組み合わせて、ダイアログの了解度の全体的測度を表す全体的な違いにすることができる。例えば、比較ロジック124は、個々の違いの平均値をコンピュータ計算して、この平均値を全体的な違い及び従ってダイアログの了解度の全体的測度として用いることができる。
【0024】
別の実施形態では、比較ロジック124は、個々の違いを相対的な違いに組み合わせる前に、異なる比較アルゴリズムの組み合わせを用いて個々の違いの各々を決定することができる。例えば、比較ロジック124は、以下の関数に従って、異なる比較アルゴリズムを用いてコンピュータ計算された個々の違いの加重和として各々の個々の違いをコンピュータ計算することができるが、他の関数も可能である。
個々の違いD=c1d2+c2d2+..+cndn、
ここでnは0以上の整数であり、各ciは係数、更に各diは、別個の比較アルゴリズムである。
【0025】
1つの実施例では、d1及びd2は、コサイン距離アルゴリズム及びエディテックス距離アルゴリズムそれぞれを表すことができる。
【0026】
また206において、レポート生成器126は、動作202-206で生成される結果を含むダイアログ了解度レポートを生成する。様々なダイアログ了解度レポートが、
図5-11に関して以下に記載される。ダイアログ了解度レポートは、以下に記載される、オリジナルミキシングサウンドトラックBの全体のダイアログの了解度の全体的測度、比較テキストのセグメントのダイアログの了解度の個々の測度、了解度の個々の測度に対応する比較テキストのセグメント、基準テキストの対応するセグメント、タイムスライスのタイムスタンプ及び識別子、比較結果からの追加の情報、及びメタデータを含むことができる。ダイアログ了解度レポートは、限定ではないが、ハイパーテキストマークアップ言語(HTML)、ジョイントフォトグラフィックエキスパートグループ(JPEG)、音楽インストゥルメントデジタルインタフェース(MIDI)などを含む様々なフォーマットで提供することができる。
【0027】
レポート生成器126は、ダイアログ了解度レポートに組み入れる上述のメタデータを生成することができる。一般的には、メタデータは、ダイアログ分析の直接結果から抽出されたデータを含み、更にこれは、デジタル再生デバイスによって使用するよう構成される。デジタル再生デバイスの例は、限定ではないが、デジタルオーディオワークステーション(DAW)、スタジオオーディオソフトウェア、及びテレビジョンなどの他のオーディオ-ビジュアル(AV)デバイスを含む。メタデータは、サウンドトラックの再生、ミキシング、編集、及び他の処理のためにミキシングエンジニアによって用いて、サウンドトラックにおけるダイアログの了解度を改良することができる。メタデータは、サウンドトラックにおけるオーディオの劣化したセクションをフラグ付けして更にダイアログの他のセクションに対してこのダイアログのレベルをブーストするために用い、サウンドトラックにおけるダイアログのタイムスライスの「良」及び「不良」チャンクなどをリストすることができる。
【0028】
上記の説明では、比較ロジック124は、ダイアログの了解度を示すテキスト間の違いを表す比較結果を生成すると考えられる。「違い」は、テキスト間の「類似性」の逆のこととして解釈することができる(すなわち、違いが大きい程、類似性が少なく、逆もまた同様である)ので、比較ロジック124はまた、テキスト間の類似性を表す比較結果を生成すると言うことができ、これによって類似性の増大は、了解度の増大を示し、逆もまた同様である。何れの解釈の下でも、比較結果は、ダイアログの了解度を示す。更にまた、上述の比較アルゴリズムは、違い、又は逆に了解度を示すテキスト間の類似性を生成すると言うことができる。
【0029】
修正されたミキシングサウンドトラックのダイアログ了解度
方法200は、リスナーにとっての修正されたミキシングサウンドトラックEの了解度、すなわちエミュレートされたサウンドエフェクトが組み合わされたオリジナルミキシングサウンドトラックBの了解度を全体的に評価する動作202、206、及び208の第2のセットを含む。動作202及び206の上記に詳述した説明は、次の説明に対して十分である。
【0030】
簡潔に言えば、202において、ASRエンジン120は、上述のようにダイアログのみのサウンドトラックAを基準テキストに変換する。
【0031】
208にて、サウンドエフェクトエミュレータ122は、オリジナルミキシングサウンドトラックB及びサウンド修正子信号Dを受信する。サウンド修正子信号Dは、再生ルーム音響、背景雑音、再生デバイスのサウンド再生システムの制限、及び聴力の障害の1又は2以上などのエミュレートされるサウンドエフェクトを含む。サウンドエフェクトエミュレータ122は、サウンド修正子信号Dに基づいて1又は2以上のサウンドエフェクトをモデル化又はシミュレートして、サウンドエフェクトによってオリジナルミキシングサウンドトラックBを修正し、修正されたミキシングサウンドトラックEを生成する。修正されたミキシングサウンドトラックEは、(エミュレートされた)サウンドエフェクトを組み合わせたオリジナルミキシングサウンドトラックを表す。例えば、修正されたサウンドトラックEは、エミュレートされた再生ルームの音響のみ、エミュレートされた背景雑音のみ、エミュレートされたサウンド生成システムの制限のみ、エミュレートされた聴力障害のみ、又は前述のエミュレートされたサウンドエフェクトの2又は3以上の組み合わせを含むことができる。
【0032】
1つの実施例では、サウンド修正子信号Dは、エミュレートされる1又は2以上のサウンドエフェクトに対応する1又は2以上の.WAVファイルを含む。.WAVファイルは、本明細書を読んだ当業者には理解されるように、部屋の残響、サウンドハイパス及び/又はローパスフィルタ応答、利得応答などのサウンドエフェクトがエミュレートされるかどうかの周波数応答に対応するインパルス応答を含むことができる。サウンドエフェクトエミュレータ122は、サウンドエフェクトの.WAVファイルをオリジナルミキシングオーディオの.WAVファイルで畳み込みして、修正されたミキシングサウンドトラックEを生成することができる。
【0033】
サウンドエフェクトエミュレータ122は、修正されたミキシングサウンドトラックEをASRエンジン120に提供する。
【0034】
ASRエンジン120は、修正されたミキシングサウンドトラックEにASRを実行して、修正されたミキシングサウンドトラックを、オリジナルミキシングサウンドトラックに対して上述した方法で比較テキストに変換する。ASRエンジン120は、比較テキストの連続セグメントを含む比較テキストを比較ロジック124に提供する。
【0035】
簡潔に言えば、206において、比較ロジック124は、上述のように、基準テキストに対する比較テキストの比較に基づいて、修正されたミキシングサウンドトラックEのダイアログの了解度の全体的な測度を決定し、比較テキストのセグメントの対応するセグメントに対するダイアログの了解度の個々の測度と共に、ダイアログの了解度の全体的測度をレポート生成器126に提供する。レポート生成器126は、動作206からの結果に基づいてダイアログ了解度レポートを生成する。
【0036】
ガイドとしてダイアログ了解度レポートを用いて、ダイアログ評価器104は、ダイアログ了解度レポートがエミュレートされたサウンドエフェクトあり又はなしのダイアログの低下した了解度を示す時に、オリジナルミキシングオーディオサウンドトラックBを再記録又はリミックスして、リミックスサウンドトラックを生成することができる。ダイアログ評価器104は、ダイアログアナライザ102を用いて、上述のようにリミックスサウンドトラックのダイアログの了解度を評価して、必要な場合に再記録又はリミックスを繰り返すことができる。
【0037】
理想基準としてテキストベースのサブタイトルを用いたサウンドトラックのダイアログ了解度
図3を参照すると、ダイアログアナライザ102によって実行される、リスナーにとってのダイアログの了解度が測定される基準としてダイアログのテキストベースのサブタイトルCを用いてミキシングサウンドトラック(例えば、ミキシングサウンドトラックB及びE)のダイアログの了解度を評価する例示的な第2の方法300の図が示されている。
【0038】
オリジナルミキシングサウンドトラック(サウンドエフェクトなし)のダイアログ了解度
動作302、304、及び306は、全体的に、ミキシングサウンドトラックのダイアログのテキストベースのサブタイトルCに対して参照されるオリジナルミキシングサウンドトラックBの了解度を評価する。オリジナルミキシングサウンドトラックBは、エミュレートされたサウンドエフェクトを含まない。
【0039】
302にて、比較ロジック124は、テキストベースのサブタイトルCを受信する。テキストベースのサブタイトルは、時間間隔のそれぞれの開始及び停止時間によって指示される、互いに対して変えることができる連続するそれぞれの時間間隔にわたるサブタイトルテキストのチャンクのシーケンスとしてフォーマット化することができる。例えば、テキストベースのサブタイトルは、SubRip(SRT)フォーマット、又は何れかの他の公知の又は今後開発されるサブタイトルフォーマットで提供することができる。
【0040】
304にて、ASR120は、オリジナルミキシングサウンドトラックBを受信して更にオリジナルミキシングサウンドトラックにASRを実行して、上述のように比較テキストを生成する。ASR120は、比較テキストを比較ロジック124に提供する。
【0041】
サブタイトルテキストCのチャンクの変化する時間間隔(「サブタイトルチャンク」と呼ばれる)が、比較テキストのセグメント(「比較テキストセグメント」と呼ばれる)の固定タイムスライス持続時間とは異なることがあるので、サブタイトルチャンクの各々と比較テキストセグメントの各々の間の1対1対応が存在しない可能性がある。従って、比較ロジック124は、比較テキストセグメントの各々のテキストをサブタイトルチャンクの対応するチャンクにわたる同じ/共通テキストにマッチングして、同じ/共通のダイアログを伝達する比較テキストセグメントとサブタイトルチャンクのテキストとの間の対応を確定する。
【0042】
このために、比較ロジック124は、比較テキストセグメントの各々のテキストと、比較テキストセグメントに時間的に近いか又は隣接するサブタイトルチャンクの対応する/マッチングするチャンクにわたるテキストとの間のテキスト類似性を最大化するテキストマッチングアルゴリズムを用いることができる。テキストマッチングアルゴリズムは、比較テキストセグメントとサブタイトルチャンクのタイムスタンプに基づいて時間の隣接性を確定することができる。
【0043】
各比較テキストセグメントに対する対応する/マッチングサブタイトルテキストを見付けるために、テキストマッチングアルゴリズムは、以下の例示的な動作を実行することができる。
a.何れかの公知の又は今後開発されるストリングマッチング/ディファレンシング技術を用いて、(現在の)比較テキストセグメントと1又は2以上のサブタイトルチャンクにわたる(現在の)サブタイトルテキストストリングとの間の類似性の測度を決定する。サブタイトルテキストストリングは、比較テキストセグメント及びサブタイトルチャンクのタイムスタンプに基づいて比較テキストセグメントに時間的にほぼ重なる。決定された類似性の測度を類似性の(現在の)最大測度として格納する。
b.サブタイトルテキストストリングを長くする/短くするためにサブタイトルテキストストリングの最後から言葉を追加/取り除き、動作(a)を繰り返して類似性の新しい測度を決定する。類似性の新しい測度が動作(a)からの類似性の最大測度を超えた場合/時にだけ、新しい類似性の測度に等しい類似性の最大測度を設定する。
c.事前に決められた終了条件が満足される、例えば、類似性の事前に決められた最大測度に達するまで動作(a)及び(b)を繰り返し、更に比較の目的でサブタイトルテキストストリング及び比較テキストのマッチを宣言する(これは、テキストマッチングアルゴリズムによって出力される結果である)。
d.次の比較テキストセグメント及び次のサブタイトルテキストストリングに移り、更に動作(a)-(c)を繰り返す。
【0044】
306にて、比較ロジック124は、比較テキストとテキストベースのサブタイトルCのマッチングするテキストとの間の比較に基づいてリスナーにとってのオリジナルミキシングサウンドトラックBのダイアログの了解度の全体的測度を決定する。詳細には、比較ロジック124は、比較テキストのセグメントと、同じ/共通のダイアログを表すサブタイトルチャンクの対応するセグメントのサブタイトルテキストとの個々の違いを、テキストマッチングアルゴリズムによって決定されるように決定する。比較ロジック124は、個々の違いをダイアログの了解度の全体的な測度に組み合わせる。
【0045】
比較ロジック124は、オリジナルミキシングサウンドトラックBのダイアログの了解度の全体的測度、及び、例えば、個々の違いによって表されるダイアログの了解度の個々の測度(及びサブタイトル品質の指示)を、本明細書で説明するようにダイアログ了解度レポートを生成するレポート生成器126に提供する。
【0046】
修正されたミキシングサウンドトラックのダイアログ了解度(サウンドエフェクトあり)
動作306、308、及び310は、全体的に、テキストベースのサブタイトルCに関して修正されたミキシングサウンドトラックEの了解度を評価する。
【0047】
308にて、比較ロジック124は、上述のように、基準テキストとして用いるサブタイトルCを受信する。
【0048】
動作310は、上述された動作208に類似である。310で、音響エミュレータ122は、オリジナルミキシングサウンドトラックB及びサウンド修正子信号Dを受信する。サウンドエフェクトエミュレータ122は、サウンド修正子信号Dに基づいて1又は2以上のサウンドエフェクトをシミュレートして、更にサウンドエフェクトによってオリジナルミキシングサウンドトラックBを修正し、修正されたミキシングサウンドトラックEを生成する。サウンドエフェクトエミュレータ122は、修正されたミキシングサウンドトラックEをASRエンジン120に提供する。ASRエンジン120は、修正されたミキシングサウンドトラックEを上述した方法で比較テキストに変換する。ASRエンジン120は、連続比較テキストセグメントを含む比較テキストを比較ロジック124に提供する。
【0049】
306にて、比較ロジック124は、上述した方法で、比較テキストとテキストベースのサブタイトルCの間の比較に基づいて、修正されたミキシングサウンドトラックEのダイアログの了解度の全体的測度を決定する。比較ロジック124は、修正されたミキシングサウンドトラックEのダイアログの了解度の全体的測度、及びダイアログの了解度の個々の測度を、本明細書に記載するようにダイアログ了解度レポートを生成するレポート生成器126に提供する。
【0050】
ガイドとして上述のダイアログ了解度レポートを用いて、ダイアログ評価器104は、ダイアログ了解度レポートがエミュレートされたサウンドエフェクトあり又はなしのダイアログの低下した了解度を示す時にオリジナルミキシングオーディオサウンドトラックを再記録するか又はリミックスして、リミックスサウンドトラックを生成することができる。ダイアログアナライザ102を用いて、リミックスサウンドトラックのダイアログの了解度を評価することができ、更にリミックス/評価処理を必要な場合に繰り返すことができる。
【0051】
ASRセグメント及びサブタイトルのタイミング図
図4Aを参照すると、ASRエンジン120によって、サウンドトラックダイアログの連続タイムスライス、DIALOG1-DIALOG4を、基準/比較テキストの対応する連続セグメントに変換することに関連付けられる例示的なタイミング400の図が示されている。基準/比較テキストのセグメントは、「ASRテキストセグメント」又は単純に「ASRテキスト」とも呼ばれる。タイミング400は、サウンドトラックダイアログのタイムスライスDIALOG1-DIALOG4に対応する、基準テキストの連続セグメント(「基準テキストセグメント」)R1-R4及び比較テキストの対応する連続セグメント(「比較テキストセグメント」)C1-C4を示す。連続する個々の違いD1-D4は、基準テキストセグメントR1-R4と比較テキストセグメントC1-C4の対応するセグメントの間の個々の違いを表し、すなわち、個々の違いDiは、テキストセグメントRiとCiの間の違いである。1又は2以上の比較アルゴリズム(
図4Aに「-」で示される)は、テキスト距離、パターンマッチング結果などを含むことができる個々の違いD1-D4を生成する。各個々の違いDiは、対応する比較テキストセグメントCiのダイアログの了解度の対応する個々の測度を表すことができる。
【0052】
図4Bを参照すると、対応する可変時間間隔にわたるSRTサブタイトルチャンク1-7と、10秒の固定持続時間を各々が有するダイアログの連続するタイムスライス、スライス1、スライス2、及びスライス3に対応する連続ASRテキストセグメントのテキストマッチングを示す実施例450の図が示されている。各サブタイトルチャンクは、先頭サブタイトルシーケンス番号(例えば、1、2、..,7)と時間間隔(例えば、「00:00:03、400→00:00:06,177」)によって定義され、ここでコンマは、ミリ秒から秒を分ける。
図4Bの例では、上述のテキストマッチングアルゴリズムが、(i)サブタイトルチャンク1-3にわたるボックス452によって包含されるサブタイトルテキストストリングをASRテキストスライス1のダイアログに、(ii)サブタイトルチャンク3-5にわたるボックス454によって包含されるサブタイトルテキストストリングをASRテキストスライス2のダイアログに、及び(iii)サブタイトルチャンク5-7にわたるボックス456によって包含されるサブタイトルテキストストリングをASRテキストスライス3のダイアログにマッチングする。
【0053】
ダイアログ了解度レポート
表示のために生成され、更に次にダイアログアナライザ102によって表示されるダイアログ了解度レポートは、ここでは
図5-12に関して記載されている。ダイアログ了解度レポートは、例えば、ユーザインタフェースのパネルに表示することができる。
【0054】
図5を参照すると、基準テキストと比較テキストとの比較から結果として生じる、ダイアログの了解度の測度(縦軸)対時間(横軸)のプロット形式で例示的なダイアログ了解度レポート500の図が示されている。了解度の測度は、0から1まで標準化され、ここで0は、完全なマッチ(すなわち、100%マッチ)を表し、更に1は、完全なミスマッチ又は完全に異なるテキスト(すなわち、0%マッチ又は完全ミスマッチ)を表す。時間軸は、0分から4分22秒までの時間を、約10秒の時間増分で(すなわち、約3秒のタイムスライス持続時間を用いて)示している。
【0055】
プロット上の縦棒は、テキストセグメント/タイムスライスに対する個々の了解度の測度を表す。了解度のマッピングマッチ=0及びミスマッチ=1であるとすると、測度における増大が了解度の低下の増大を表すので、個々の了解度の測度は、了解度の低下の測度として解釈することができる。また、読みやすさを拡張するために、異なる範囲内に入る了解度の個々の測度を、異なる色、影、又は平行線模様で示すことができる。例えば、事前に決められた閾値を超える(及び従って低下の高いレベルを表す)個々の了解度の測度は、第1の色(例えば、赤)で示すことができ、同時に事前に決められた閾値を超えない(及び従って、低下の低レベルを表す)了解度の個々の測度を第2の色(例えば、緑)で示すことができる。複数の事前に決められた閾値及び対応する色/影/平行線模様を用いて、緑と赤の間の1又は2以上の範囲を描くことができる。
【0056】
図3の例は、(i)最も低い了解度のダイアログ、すなわち最大低下の範囲にある了解度を示す二重クロスハッチ(すなわち、「x」クロスハッチ)、(ii)最も高い了解度のダイアログ、すなわち、最小低下の範囲にある了解度を示すマイナスの傾きを有する(すなわち、左から右に高さが下がる)シングルクロスハッチ、及び(iii)最も高い了解度のダイアログと最も低い了解度のダイアログの間のダイアログの了解度の範囲を示すプラスの傾きを有する(左から右に高さが上がる)シングルクロスハッチを含むダイアログの了解度の3つの対応するベルを示すために、対応する色(又はボールド、破線など)に置き換えることができる3つの異なるクロスハッチングパターンを含む。
【0057】
加えて、ダイアログ了解度レポート500は、了解度の個々の測度に基づいてコンピュータ計算された、「全体的スコア」と呼ばれるダイアログの了解度の全体的測度を含む。
図5の例では、全体的スコアは、52.02%である。
【0058】
ダイアログのテキストベースのサブタイトルに対して参照される異なるサウンドトラックにおける同じダイアログの様々なダイアログ了解度レポートを、
図6-9に関して以下に記載する。ダイアログ了解度レポートは、例えば、方法300によって実行される分析から結果として生じる。
【0059】
図6を参照すると、サブタイトル(例えば、サブタイトルC)に対して参照されるオリジナルミキシングサウンドトラック(例えば、オリジナルミキシングサウンドトラックB)のダイアログについての了解度の測度のプロット形式で例示的なダイアログ了解度レポート600の図が示されている。換言すると、プロットは、サブタイトルの形式の基準テキストとオリジナルミキシングサウンドトラックから取得された比較テキストとの間の比較の結果を示している。従って、プロットは、サブタイトルの品質を示す。プロット上の縦棒は、上述のように、比較テキストセグメントと対応するサブタイトルチャンクとの間の比較から生じる了解度の個々の測度(又は了解度の低下)を表す。プロットは、オリジナルミキシングサウンドトラックが94.17%の全体的スコアを有することを示す。
【0060】
図7を参照すると、修正されたミキシングサウンドトラック(例えば、修正されたミキシングサウンドトラックE)、すなわち、サブタイトルに対して参照される、エミュレートされたサウンドエフェクトを組み合わせた
図6のオリジナルミキシングサウンドトラックのダイアログについての了解度の測度のプロット形式での例示的なダイアログ了解度レポート700の図が示されている。プロットは、エミュレートされたサウンドエフェクトから結果として生じる1:52直後の時間の突出したダイアログの了解度の低下を示している。プロットは、修正されたミキシングサウンドトラックが、サウンドエフェクトに起因して
図6のプロットのスコアに対して減少した90.88%の全体的スコアを有することを指示している。
【0061】
図8を参照すると、(i)
図6及び7からのダイアログの連続タイムスライスの列挙行、及び(ii)タイムスライスの各々に対応する様々なデータの列(すなわち、行)を有するテーブル形式の例示的な了解度レポート800の図が示されている。表を左から右に移動して、列は、以下を含む。
a.ダイアログの各タイムスライスの行/タイムスライス識別子のタイムスライス識別子(ID)列804。
b.各タイムスライスのサブタイトルテキスト(例えば、SRTテキスト)の形式の基準テキストの基準テキスト列806。
c.各タイムスライスの開始及び終了時間のタイムスタンプ列808及び810。
d.オリジナルミキシングサウンドトラックの各タイムスライスのASRから生じる比較テキストセグメントを引用する比較テキスト列812。
e.列806の対応するサブタイトルテキストに対して参照される各比較テキストセグメントの了解度の個々の測度(すなわち、個々のスコア)のスコア列814。従って、個々の測度は、サブタイトル品質を示す。個々のスコアは、サブタイトルテキストと比較テキストの間のパーセンテージマッチ(0-100%)として表される。個々のスコアが、上述のように複数の比較アルゴリズムから生じる集約スコアを表す実施例では、スコア列814を、比較アルゴリズムの各々によってコンピュータ計算されたスコアのそれぞれの列を含む複数のスコア列、及び集約スコアの列に細分することができる。例えば、比較ロジック124が、エディテックス及びコサイン距離を集約テキスト距離に組み合わせる実施例では、了解度スコア列を、エディテックス距離の第1の列、コサイン距離の第2の列、及びエディテックス及びコサイン距離を組み合わせた集約テキスト距離の第3の列に細分することができる。
f.修正されたミキシングサウンドトラック、すなわち、エミュレートされたサウンドエフェクトを組み合わせたオリジナルミキシングサウンドトラックの各タイムスライスのASRから生じた比較テキストセグメントを引用する比較テキスト列816。
g.対応するサブタイトルテキストに対して参照された修正されたミキシングサウンドトラックの各比較テキストセグメントの了解度の個々の測度(すなわち、個々のスコア)のスコア列818。
h.各スコアが正確にコンピュータ計算される信頼度レベルの信頼度レベル列820。ASRエンジン120は、信頼度レベルをコンピュータ計算することができる。
【0062】
不良の了解度(例えば、75%)を示す事前に決められた閾値より下の了解度のスコアに関連付けられるテーブルのタイムスライス/行は、赤で示すことができ、同時に他の行は、例えば、緑又は黒で示すことができる。
図8の例では、低了解度スコアを有するタイムスライス/行13及び15は、赤で示すことができる。一般的には、このようなカラーコーディングは、ユーザ固有の低下した又は不良のセグメントを強調する。
【0063】
図9を参照すると、ダイアログアナライザ102によって生成されたメタデータを含む例示的なダイアログ了解度レポート900の図が示されている。レポート900は、
図8のダイアログ了解度レポート800からの情報/結果を、例えば標準的MIDIファイル(SMF)に組み入れる。レポート900は、MIDIファイルのコンテンツを示す。MIDIファイルは、MIDIファイルを処理するよう構成された何れのDAWでも処理することができる。MIDIファイルの上部セクション901は、トラックを左から右に移動する縦マーカエニュメレートM1-Mnによって指示される連続タイムスライスに各々が分割される、縦に並んだトラック902、904、及び906を示す。トラック902は、ダイアログサウンドトラックのオーディオ波形である。トラック904、906は、0から127のピッチが、0-1の了解度スコアを表す横ピッチバーとしてタイムスライスの了解度スコアを表すMIDIトラックである。トラック904は、事前に決められた閾値を超える「良」了解度スコアだけ(短縮ラベル「GO」によって指示される)を示している。トラック906は、事前に決められた閾値を超えない低下した/不良の「DEG」了解度スコアだけ(短縮ラベル「DE」によって指示される)を示している。MIDIファイルの下部セクション910は、マーカーM1-Mnに対応するテキストの行、テキストに対応する了解度スコア、及び一般化された了解度指示子「良」及び「不良」を示す。
【0064】
図10を参照すると、ある時間の長さにわたる基準テキストと比較テキストの間の比較の結果としてダイアログアナライザ102によって表示するために生成されたテキスト距離(すなわち、半径)対時間(角度回転/ずれ)の極座標プロット形式の例示的なダイアログ了解度レポート1000の図が示されている。プロットでは、テキスト距離(すなわち、半径)を、0から1まで標準化することができ、ここで0は、完全なマッチを表し、更に1は、完全なミスマッチを表す。
図10の例では、ダイアログアナライザ102が、エディテックスアルゴリズムを用いた音声学に基づいて距離を決定した。
図10に関して記載したように、様々な距離の範囲を、異なる色で又はボールド又は破線などの異なるフォーマッティングの他のタイプによって示すことができる。
【0065】
図11を参照すると、
図10に示したのと同じ時間の長さにわたる同じ基準テキストと同じ比較テキストとの間の比較の結果としてダイアログアナライザ102によって表示するために生成されたテキスト距離(すなわち、半径)対時間(角度回転)の極座標プロット形式の例示的な了解度低下レポート1100の図が示されている。
図11の例では、ダイアログアナライザ102は、コサイン距離アルゴリズムに従って言葉及び文字の違いに基づいてテキスト距離を決定した。
【0066】
ハイレベルの流れ図
図12を参照すると、上述した動作を要約するダイアログの了解度を決定する例示的な方法1200の流れ図が示されている。方法1200は、ダイアログアナライザ102によって実行することができる。
【0067】
1202で、ダイアログアナライザ102は、非ダイアログサウンドがミキシングされたダイアログを含むミキシングサウンドトラックを取得する。例えば、ダイアログアナライザは、非ダイアログサウンドとミキシングされたダイアログを含むオリジナルミキシングサウンドトラックを受信し、更にこのサウンドトラックをミキシングサウンドトラックとして用いる。代替として、ダイアログアナライザは、室内音響、サウンド再生システム再生音響、及び背景雑音の1又は2以上をエミュレートするエミュレートされたサウンドエフェクトによってオリジナルミキシングサウンドトラックを音響的に修正し、ミキシングサウンドトラックを生成する。
【0068】
1204で、ダイアログアナライザ102は、ASRを用いてミキシングサウンドトラックのタイムスライスを比較テキストの連続セグメントに変換する。
【0069】
1206で、ダイアログアナライザ10は、リスナーにとってのダイアログの了解度の理想基準/規格としてダイアログの基準テキストを取得する。例えば、ダイアログアナライザ102は、ASRを用いてダイアログのみのサウンドトラックのタイムスライスを基準テキストの連続セグメントに変換する。代替として、ダイアログアナライザは、基準テキストとしてダイアログのテキストベースのサブタイトルを受信する。
【0070】
1208で、ダイアログアナライザ102は、基準テキストに対する比較テキストの比較に基づいて、リスナーにとってのミキシングサウンドトラックのダイアログの了解度の測度(すなわち、全体的ダイアログ了解度測度)を決定する。例えば、ダイアログアナライザは、(i)比較に基づいて(すなわち、比較テキストと基準テキストの対応するセグメント間の比較に基づいて)ミキシングサウンドトラックのタイムスライスのダイアログの了解度の個々の測度(すなわち、個々のダイアログ了解度測度)をコンピュータ計算し、更に(ii)ダイアログの了解度の個々の測度に基づいてダイアログの了解度の測度をコンピュータ計算する。
【0071】
1つの例では、ダイアログアナライザ102は、1又は2以上の比較アルゴリズムを用いて対応する基準テキストと比較テキストの間の違いとして了解度の測度(及び了解度の個々の測度)をコンピュータ計算することができる。例えば、ダイアログアナライザ102は、以下の動作を実行することができる。
a.第1の比較アルゴリズム(例えば、第1のテキスト距離アルゴリズム)を用いて、対応する基準テキストと比較テキストの間の第1の違い(例えば、第1のテキスト距離)をコンピュータ計算する。
b.第2の比較アルゴリズム(例えば、第2のテキスト距離アルゴリズム)を用いて、対応する基準テキストと比較テキストとの間の第2の違い(例えば、第2のテキスト距離)をコンピュータ計算する。
c.第1の違い(例えば、第1のテキスト距離)及び第2の違い(例えば、第2のテキスト距離)の加重組み合わせとして対応する基準テキストと比較テキストとの間の違い(例えば、組み合わせテキスト距離)をコンピュータ計算する。
【0072】
1210で、ダイアログアナライザ102は、ダイアログの了解度の測度、タイムスライスのダイアログの了解度の個々の測度、及び他の比較結果、例えば、メタデータをレポートする、例えば表示するために生成し、更に次に表示することができる。代替として及び/又は加えて、ダイアログアナライザ102は、レポートをユーザによる次のアクセスのためにファイルに格納することができる。
【0073】
コンピュータシステム
図13は、本明細書に提示する実施形態を実施することができる例示的なコンピュータデバイス1300のブロック図である。例えば、コンピュータデバイス1300は、ダイアログアナライザ102を表すことができ、更にパーソナルコンピュータ(PC)、スマートフォン、タブレットPCなどで実施することができる。コンピュータデバイス1300は、本明細書に記載する処理に関連する命令を処理するプロセッサ又はコントローラ1310、多種多様なデータ及びソフトウェア命令を格納するメモリ1320を含む。プロセッサ1310は、例えば、ダイアログアナライザ102に対して本明細書に記載した処理を実施するためにメモリ1320におけるコンピュータデバイス制御論理1355の命令を実行するマイクロプロセッサ又はマイクロコントローラである。コンピュータデバイスはまた、インターネット及び/又はローカルエリアネットワーク(LAN)などの通信ネットワークを通じて他のデバイスと通信するネットワークインタフェースユニット(例えば、カード)1330を含む。ネットワークインタフェースユニット1330は、有線イーサネットリンクを通じて通信するポート(又は複数のこのようなデバイス)を有するイーサネットカード、及び/又は無線リンクを通じて通信する無線送受信機を備えた無線通信カードを含むことができる。コンピュータデバイス1300はまた、他のデバイス、光学インタフェース、オーディオインタフェースなどに物理的に接続するハードウェアプラグ及び/又は受容器を含む他のインタフェースユニットを含む。
【0074】
コンピュータデバイスは更に、ユーザからの入力を受信するユーザインタフェースユニット1340、マイクロフォン1350及びラウドスピーカ1360を含むことができる。ユーザインタフェースユニット1340は、ユーザがコンピュータデバイスに接続できるようにするために、キーボード、マウス及び/又はタッチ画面ユーザインタフェースの形式にすることができる。マイクロフォン1350及びラウドスピーカ1360は、オーディオを録音及び出力することができる。コンピュータデバイスはまた、例えば、ユーザにデータを表示することができるタッチ画面ディスプレイを含むディスプレイ1370を含むこともできる。
【0075】
メモリ1320は、読取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスクストレージ媒体デバイス、光学ストレージ媒体デバイス、フラッシュメモリデバイス、電気、光学、又は他の物理的/有形(例えば、非一時的)メモリストレージデバイスを含むことができる。従って、一般的には、メモリ1320は、コンピュータ実行可能命令を含むソフトウェア(例えば、制御論理/ソフトウェア1355)によって符号化された1又は2以上の有形(非一時的)コンピュータ可読ストレージ媒体(例えば、メモリデバイス)を含むことができ、更にソフトウェアが(プロセッサ1310によって)実行された時に、ダイアログアナライザ102に向けられた本明細書に記載する動作を実行することができる。論理1355は、上述した、ASRエンジンの論理、音響エミュレータ、比較論理、及びレポート生成器を含むことができる。論理1355は、ディスプレイ1370に情報を提示するユーザインタフェースを生成及び表示する命令を含み、更にユーザが、例えば、ユーザインタフェースのユーザ選択可能な選択肢を介してコンピュータデバイス1300に入力を提供できるようにする。メモリ1320はまた、サウンドトラックのデータ、比較結果、メタデータなどのコンピュータデバイス制御論理1355によって生成及び使用されたデータを格納する。
【0076】
要約すると、1つの形式で、非ダイアログサウンドがミキシングされたダイアログを含むミキシングサウンドトラックを取得するステップ、ミキシングサウンドトラックを比較テキストに変換するステップ、ダイアログの了解度の基準としてダイアログの基準テキストを取得するステップ、基準テキストに対する比較テキストの比較に基づいて、リスナーにとってのミキシングサウンドトラックのダイアログの了解度の測度を決定するステップ、及びダイアログの了解度の測度をレポートするステップを含む方法が提供される。
【0077】
別の形式で、非ダイアログサウンドがミキシングされたダイアログを含むミキシングサウンドトラックを取得する、ミキシングサウンドトラックを比較テキストに変換する、リスナーにとってのダイアログの了解度の基準としてダイアログの基準テキストを取得する、比較テキストと基準テキストとの間の比較に基づいてミキシングサウンドトラックのダイアログの了解度の個々の測度をコンピュータ計算する、ダイアログの了解度の個々の測度に基づいてミキシングサウンドトラックのダイアログの了解度の全体的な測度をコンピュータ計算する、更にダイアログの了解度の全体的な測度を含むレポートを生成するよう構成されたプロセッサを含む装置が提供される。
【0078】
更に別の形式で、非一時的コンピュータ可読媒体が提供される。コンピュータ可読媒体は、プロセッサによって実行された時に、プロセッサに、非ダイアログサウンドがミキシングされたダイアログを含むミキシングサウンドトラックを取得させ、自動音声認識(ASR)を用いてミキシングサウンドトラックのタイムスライスを比較テキストに変換させ、ダイアログの了解度の基準としてダイアログの基準テキストを取得させ、比較テキストと基準テキストとの間の違いに基づいて、タイムスライスのミキシングサウンドトラックのダイアログの了解度の個々の測度をコンピュータ計算させ、ダイアログの了解度の個々の測度に基づいてミキシングサウンドトラックのダイアログの了解度の全体的測度をコンピュータ計算させ、更にダイアログの了解度の全体的測度及びダイアログの了解度の個々の測度を含むレポートを生成させる命令によって符号化される。
【0079】
本技術は、1又は2以上の特定の実施例にて具現化されるよう本明細書で図示し記載されているが、様々な修正及び構造的変更が、請求項の均等物の範囲内で行い得るので、必ずしも本技術は図示の詳細事項に限定されないものとする。
【0080】
以下に提示する各請求項は、別の実施形態を表し、異なる請求項及び/又は異なる実施形態を組み合わせた実施形態は、本開示の範囲内にあり、本開示を精査すると当業者には明らかになるであろう。
【符号の説明】
【0081】
102 ダイアログアナライザ
104 ダイアログ評価器(コンテンツ製作者、ミキシングエンジニア)
120 ASRエンジン
122 音響エミュレータ
124 比較論理
126 レポート生成器