(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-05-21
(54)【発明の名称】音声及びビデオの翻訳機
(51)【国際特許分類】
G10L 13/10 20130101AFI20240514BHJP
G10L 15/00 20130101ALI20240514BHJP
G10L 13/00 20060101ALI20240514BHJP
G10L 21/0208 20130101ALI20240514BHJP
G10L 17/00 20130101ALI20240514BHJP
G10L 15/10 20060101ALI20240514BHJP
H04N 5/92 20060101ALI20240514BHJP
【FI】
G10L13/10 112C
G10L15/00 200C
G10L13/00 100G
G10L21/0208 100
G10L17/00 200C
G10L15/10 500N
H04N5/92 010
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023568566
(86)(22)【出願日】2022-05-05
(85)【翻訳文提出日】2023-12-19
(86)【国際出願番号】 US2022027852
(87)【国際公開番号】W WO2022235918
(87)【国際公開日】2022-11-10
(32)【優先日】2021-05-05
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】523419473
【氏名又は名称】ディープ メディア インク.
【氏名又は名称原語表記】DEEP MEDIA INC.
【住所又は居所原語表記】200 2nd Street, #115, Oakland, California 94607,United States of America
(74)【代理人】
【識別番号】110000268
【氏名又は名称】オリジネイト弁理士法人
(72)【発明者】
【氏名】リジュル,グプタ
(72)【発明者】
【氏名】エマ,ブラウン
(57)【要約】
必要に応じて音声およびビデオを翻訳するシステムおよび方法。翻訳は、合成メディアとAIシステムを使用して生成されたデータを含む。独自の一連のステップを実行する独自のプロセッサおよびジェネレータを通じて、システムおよび方法は、さまざまな音声特性(例えば、感情、ペース、慣用句、皮肉、ジョーク、口調、音素など)を考慮できるより正確な翻訳を生成する。これらの音声特徴は入力メディアで識別され、入力メディアの特徴を反映するために翻訳された出力に合成的に組み込まれる。いくつかの実施形態は、話者の顔および/または唇が生成された音声をネイティブに話しているように見えるように入力ビデオを操作するシステムおよび方法をさらに含む。
【特許請求の範囲】
【請求項1】
第1の入力言語での入力音声を含む入力メディアファイルを取得し、
前記第1の入力言語とは異なる第1の出力言語を取得し、
入力音声を複数の音声セグメントに分割し、前記複数の音声セグメント内の各音声セグメントは、前記各音声セグメントの話者を識別するための話者識別情報を含み、
前記複数の音声セグメント内の各音声セグメントに対して、前記各音声セグメント内の各単語または音素のペーシング情報を識別し、
入力トランスクリプションを取得し、前記入力トランスクリプションは、前記各音声セグメントで話された単語に対応するテキストを含み、
感情データおよびトーンデータを含む入力メタ情報を取得し、前記感情データは、所定の感情のリストからの1つ以上の検出可能な感情に対応し、
少なくともタイミング情報および前記感情データに基づいて、前記入力トランスクリプションおよび前記入力メタ情報を前記第1の出力言語に翻訳し、翻訳されたトランスクリプションおよびメタ情報が前記入力トランスクリプションおよび前記入力メタ情報と比較して同様の感情およびペーシングを含むようにし、
翻訳された入力トランスクリプションおよびメタ情報を使用して、翻訳された音声を生成することを特徴とするメディアファイル内の音声を翻訳する方法。
【請求項2】
前記入力メディアファイルはコンピュータ可読フォーマットであることを特徴とする請求項1に記載のメディアファイル内の音声を翻訳する方法。
【請求項3】
1つのボーカルストリームを別のボーカルストリームから分割し、背景雑音を低減し、または前記ボーカルストリームの品質を向上させるために、前記入力音声を前処理することをさらに含むことを特徴とする請求項1に記載のメディアファイル内の音声を翻訳する方法。
【請求項4】
前記入力ビデオを前処理して唇の動き追跡データを捕捉することをさらに含むことを特徴とする請求項1に記載のメディアファイル内の音声を翻訳する方法。
【請求項5】
前記入力音声を前記複数の音声セグメントに分割し、前記ペーシング情報を識別することは、前記入力メディアファイルを入力として受信するように構成された話者ダイアライゼーションプロセッサによって実行されることを特徴とする請求項1に記載のメディアファイル内の音声を翻訳する方法。
【請求項6】
テキストトランスクリプションは、国際音声アルファベットに従ってフォーマットされることを特徴とする請求項1に記載のメディアファイル内の音声を翻訳する方法。
【請求項7】
前記入力トランスクリプションは、前記各音声セグメントの話者の解剖学的ランドマークに対応する感情分析および追跡データをさらに含むことを特徴とする請求項1に記載のメディアファイル内の音声を翻訳する方法。
【請求項8】
前記入力音声の前記入力トランスクリプションを取得することは、前記入力音声をテキストに変換するように構成された人工知能(AI)ジェネレータに前記入力音声を提供することを含むことを特徴とする請求項1に記載のメディアファイル内の音声を翻訳する方法。
【請求項9】
前記入力メタ情報を取得することが、前記メタ情報を識別するように構成されたAIメタ情報プロセッサに前記入力音声および前記入力トランスクリプションを提供することを含む請求項1に記載のメディアファイル内の音声を翻訳する方法。
【請求項10】
前記入力トランスクリプションおよび前記入力メタ情報を翻訳することは、前記入力トランスクリプションおよび前記入力メタ情報を、前記翻訳されたトランスクリプションおよびメタ情報を生成するように構成されたAIトランスクリプションおよびメタ翻訳ジェネレータに提供することを含むことを特徴とする請求項1に記載のメディアファイル内の音声を翻訳する方法。
【請求項11】
同様のペーシングには、20%以下の差が含まれることを特徴とする請求項1に記載のメディアファイル内の音声を翻訳する方法。
【請求項12】
前記翻訳された音声を生成することは、前記翻訳された音声を生成するように構成されたAI音声翻訳ジェネレータに、前記翻訳されたトランスクリプションおよび前記メタ情報を提供することを含むことを特徴とする請求項1に記載のメディアファイル内の音声を翻訳する方法。
【請求項13】
前記各音声セグメントの前記翻訳された音声を単一の音声ファイルにつなぎ合わせることをさらに含むことを特徴とする請求項1に記載のメディアファイル内の音声を翻訳する方法。
【請求項14】
前記入力メディアファイルは入力ビデオを含むことを特徴とする請求項1に記載のメディアファイル内の音声を翻訳する方法。
【請求項15】
前記翻訳された音声および前記入力ビデオをビデオ同期ジェネレータに提供し、前記ビデオ同期ジェネレータによって、前記翻訳された音声が前記入力ビデオと同期する同期ビデオを生成することをさらに含むことを特徴とする請求項1に記載のメディアファイル内の音声を翻訳する方法。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願]
本出願は、同じ発明者によって2021年5月5日に出願された「画像翻訳機」と題する米国仮出願第63/184,746号に対する優先権の利益を主張し、その全内容はあらゆる目的で参照により本明細書に組み込まれる。
[技術分野]
本発明は、一般に、ビデオおよび音声の操作に関する。より具体的には、音声翻訳と話者の唇に合わせることに関連する。
【背景技術】
【0002】
従来の音声翻訳技術は非常に退屈で時間がかかる。多くの場合、1人以上の個人が音声を聞き、録音し、書き写し、翻訳する必要がある。 翻訳された音声を既存のビデオにダビングすることはさらに困難になる可能性があり、多くの場合、多大な人的投資と介入が必要になる。さらに、翻訳された音声は、対応するビデオ内の話者の唇の動きと同期することはほとんどない。
【0003】
従って、より効率的かつ効果的に音声を翻訳し、ビデオ内で話者の唇に合わせるシステムと方法が必要とされる。しかしながら、本発明がなされた時点で技術全体を考慮すると、従来技術の欠点をどのように克服できるかは、本発明の分野の当業者には明らかではなかった。
【0004】
参照された公開物はすべて、その全体が参照により本明細書に組み込まれる。さらに、本明細書に組み込まれる参考文献における用語の定義または使用が、本明細書で提供されるその用語の定義と一致しない、または矛盾する場合、ここで提供される用語の定義が適用され、参考文献内のその用語の定義は適用されない。
【0005】
本発明の開示を容易にするために従来の技術の特定の態様が議論されてきたが、出願人はこれらの技術的態様を決して放棄するものではなく、特許請求された発明は、本明細書で議論される従来の技術的態様の1つまたは複数を包含し得ることが考えられる。
【0006】
本発明は、上述した従来技術の問題および欠陥の1つまたは複数に対処することができる。しかし、本発明は、多くの技術分野における他の問題や欠陥に対処するのに有用であることが判明する可能性があると考えられる。従って、特許請求される発明は、必ずしも、本明細書で議論される特定の問題または欠陥のいずれかに対処することに限定されるものとして解釈されるべきではない。
【0007】
本明細書において、文書、行為、または知識項目が参照または議論されている場合、この参照または議論は、その文書、行為、知識項目、またはそれらの組み合わせが、優先日に公的に入手可能、公衆に知られているもの、共通一般知識の一部、または適用される法的規定に基づく先行技術を構成するものであったこと、を認めるものではなく、または、この明細書が関係する問題を解決する試みに関連することが知られていることを認めるものではない。
【発明の概要】
【発明が解決しようとする課題】
【0008】
改善された音声およびビデオの翻訳機に対する長年満たされていなかったニーズは、新しく、有用で、自明ではない発明によって満たされる。
【課題を解決するための手段】
【0009】
本発明は、メディアファイル内の音声を翻訳するシステムおよび方法を含む。この方法の一実施形態は、入力メディアファイルを最初に取得することを含む。いくつかの実施形態では、入力メディアファイルはコンピュータ可読フォーマットである。入力メディアファイルは、第1の入力言語による入力された音声を含み、いくつかの実施形態では、入力されたビデオを含む。この方法は、第1の出力言語を取得することをさらに含み、第1の出力言語は第1の入力言語とは異なる。
【0010】
いくつかの実施形態は、入力された音声を前処理して、ある音声の流れを別の音声の流れから分割し、雑音を低減し、または音声の流れの品質を向上させることをさらに含む。また、いくつかの実施形態は唇の動きの追跡データを捕捉するために入力されたビデオを前処理することを含む。
【0011】
その入力が取得されると、入力された音声は複数の音声セグメントに分割される。複数の音声セグメント内の各音声セグメントは、各音声セグメントの話者を識別するための話者識別情報を含む。複数の音声セグメント内の各音声セグメントについて、ペーシング情報は、各音声セグメント内の各単語または音素のために識別される。いくつかの実施形態では、入力された音声を複数の音声セグメントに分割し、タイミング情報を識別することは、入力されたメディアファイルを入力として受信するように構成された話者ダイアライゼーションプロセッサによって実行される。
【0012】
さらに、この新規な方法は入力された録音を取得することを含む。その入力されたトランスクリプションには、各音声セグメントで話された単語に対応するテキストが含まれる。テキストの転写は、国際音声アルファベットに従ってフォーマットされるとよい。さらに、入力されたトランスクリプションは、各音声セグメントの話者の解剖学的ランドマークに対応する感情分析および追跡データをさらに含むとよい。いくつかの実施形態では、入力音声の入力されたトランスクリプションを取得することは、入力された音声をテキストに変換するように構成された人工知能(AI)生成器に入力音声を提供することを含む。
【0013】
そして、入力されたメタ情報を取得する。メタ情報には、感情データやトーンデータが含まれる。感情データは、所定の感情のリストからの1つ以上の検出可能な感情に対応する。同様に、トーンデータは、所定の感情のリストまたはトーンのスペクトルからの1つ以上の検出可能なトーンに対応するとよい。いくつかの実施形態では、入力されたメタ情報を取得することは、メタ情報を識別するように構成されたAIメタ情報プロセッサに入力された音声および入力されたトランスクリプションを提供することを含む。
【0014】
メタデータが取得されると、翻訳されたトランスクリプションおよびメタ情報には、入力された録音および入力されたメタ情報と比較して、同様の感情およびペーシングが含まれるように、入力されたトランスクリプションおよび入力されたメタ情報は、少なくともタイミング情報および感情データに基づいて第1の出力言語に翻訳される。いくつかの実施形態では、同様のペーシングには、表音文字間のハミング距離の差が20%以下であること、および適切な位置での休止、呼吸、およびつなぎ音が含まれることを含む。いくつかの実施形態では、入力されたトランスクリプションおよび入力されたメタ情報を翻訳することは、入力トされたトランスクリプションおよび入力されたメタ情報を、翻訳されたトランスクリプションおよびメタ情報を生成するように構成されたAIトランスクリプションおよびメタ翻訳ジェネレータに提供することを含む。
【0015】
最後に、翻訳されて入力されたトランスクリプションとメタ情報を使用して、翻訳された音声が生成される。いくつかの実施形態では、翻訳された音声を生成することは、翻訳された音声を生成するように構成されたAI音声翻訳ジェネレータに、翻訳されたトランスクリプションおよびメタ情報を提供することを含む。
【0016】
方法のいくつかの実施形態は、各音声セグメントの翻訳された音声を単一の音声ファイルにつなぎ合わせる(又は単一の音声ファイルに戻す)ことをさらに含む。いくつかの実施形態は、翻訳された音声および入力されたビデオをビデオ同期生成器に提供し、ビデオ同期生成器によって、翻訳された音声が入力されたビデオと同期する同期ビデオを生成することをさらに含む。
【0017】
本発明のこれらおよび他の重要な目的、利点、および特徴は、本開示が進むにつれて明らかにする。
【0018】
従って、本発明は、以下に説明する開示で例示される構造、要素の組み合わせ、部品の配置の特徴を含み、本発明の範囲は特許請求の範囲に示される。
【図面の簡単な説明】
【0019】
本発明をより十分に理解するには、添付図面と関連させた以下の詳細な説明を参照するとよい。
【
図2】本発明の一実施形態のフローチャートである。
【
図3】入力されたトランスクリプションを生成するためのプロセスの一実施形態のブロック図である。
【
図4】入力されたメタ情報を生成するプロセスの一実施形態のブロック図である。
【
図5】翻訳されたトランスクリプションおよび/または翻訳されたメタ情報を生成するためのプロセスの一実施形態のブロック図である。
【
図6】翻訳された音声を生成するためのプロセスの一実施形態のブロック図である。
【
図7】翻訳された音声を有する同期ビデオを生成するためのプロセスの一実施形態のブロック図である。
【
図8】翻訳された音声を有する同期ビデオを生成し、後処理プロセスを実行してより高品質の出力ビデオを生成するためのプロセスの一実施形態のブロック図である。
【
図9】本発明の一実施形態の実施のブロック図である。
【
図10】本発明の一実施形態の実施のブロック図である。
【
図11】本発明の一実施形態の実施のブロック図である。
【
図12】本発明の一実施形態の実施のブロック図である。
【
図13】本発明の一実施形態の実施のブロック図である。
【発明を実施するための形態】
【0020】
以下の好ましい実施形態の詳細な説明では、その一部を形成する添付図面が参照され、図面には、本発明を実施することができる特定の実施形態が例示として示されている。他の実施形態が利用されてもよく、本発明の範囲から逸脱することなく構造上の変更が行われてもよいことを理解することができる。
【0021】
本明細書および添付の特許請求の範囲で使用される場合、単数形には、内容が明確に別段の指示をしない限り、複数の指示対象も含まれる。本明細書および添付の特許請求の範囲で使用される「または」という用語は、文脈上内容が明らかに別段の指示をしない限り、一般に「および/または」を含む意味で使用される。
【0022】
「いくつかの実施形態では」、「いくつかの実施形態によると」、「示された実施形態では」、「他の実施形態では」などの語句は、一般に、フレーズに続く特定の構成、構造、または特徴は、少なくとも1つの実施に含まれることを意味する。また、そのようなフレーズは、必ずしも同じ実施形態または異なる実施形態を指すわけではない。
【0023】
以下の説明では、説明の目的で、本技術の実施形態の完全な理解を提供するために、多くの特定の詳細が記載される。しかしながら、当業者には、本技術の実施形態は、これらの特定の詳細のいくつかがなくても実施できることが明らかである。ここで紹介される技術は、専用のハードウェア(例えば回路)として、ソフトウェアおよび/またはファームウェアで適切にプログラムされたプログラマブル回路として、または専用の回路とプログラマブル回路の組み合わせとして具体化することができる。従って、実施形態は、プロセスを実行するようにコンピュータ(または他の電子デバイス)をプログラムするために使用され得る命令を記憶した機械可読媒体を含むとよい。機械可読媒体には、フロッピーディスク、光ディスク、コンパクトディスク読み取り専用メモリ(CD-ROM)、光磁気ディスク、ROM、ランダム アクセスメモリ(RAM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、電気的に消去可能なプログラマブル読み取り専用メモリ( EEPROM)、磁気カードまたは光カード、フラッシュメモリ、または電子命令の保存に適したその他のタイプのメディア/機械可読メディアなどが含まれるが、これらに限定されない。
【0024】
ここで本発明の詳細を参照すると、いくつかの実施形態は、メモリ、視覚的ディスプレイを備えたユーザインターフェース(「グラフィックユーザインターフェース」または「GUI」とも呼ばれる)、および本明細書に記載される少なくともステップを実行するプログラムを実行するプロセッサを有する1つ以上のコンピュータシステムを含む。いくつかの実施形態では、本発明は、コンピュータで実行可能な方法、または本明細書で説明されるステップを実行するためのソフトウェアで具体化される方法である。ハードウェアとソフトウェアの詳細については、以下の「ハードウェアとソフトウェアのインフラストラクチャの実施例」のセクションを参照するとよい。
【0025】
メディアファイルとは、ビデオファイル及び/又は音声ファイルを示す。これらのメディアファイルは、当業者に知られている任意のファイルフォーマットを持つことができる。メディアファイルの主題は、メディアファイル内の音声の発信元である識別可能な物体、話者、人物、または動物である。各メディア ファイルには複数の主題が含まれる場合がある。
【0026】
入力メディアファイルは、翻訳のために翻訳者に提供される、または翻訳者によって取得されるメディアファイルである。出力メディアファイルは、翻訳が行われた入力メディアファイルの合成または操作されたバージョンである。出力メディアファイルには、入力メディアファイルで話されている言語とは異なる言語を話しているように見える1人以上の人物(題材)が描かれている。いくつかの実施形態では、出力メディアファイルは、さらに、新しい言語に従って動く人物の顔のランドマーク(例えば、人物の唇)の少なくとも一部を含む。
【0027】
現在の翻訳の取り組みはテキストからテキストへのソリューションに基づいているため、音声及び/又はビデオを含むコミュニケーションでは役に立たない。音声及び/又はビデオには、電話、ビデオ通話、音声ブックの翻訳、字幕の作成、ネイティブに見えるビデオの生成などが含まれるが、これらに限定されない。本発明は、合成メディア(つまり、生成AI、敵対的生成ネットワーク、ディープフェイクシステム、および元の形式からメディアを操作するように構成されたその他のシステムや方法を使用して作成されたメディア)を作成および使用して、トレーニングおよび推論(推論とは、AIベースのシステムを使用して出力を作成することを指す専門用語であり、この場合は合成メディアである)中にテキスト、音声およびビデオ情報を組み合わせて、エンドツーエンドの翻訳システムを可能にする。
【0028】
本発明のシステムおよび方法は、独自の一連のステップを実行する独自のプロセッサおよびジェネレータを通じて、さまざまな音声特性(例えば、慣用句、皮肉、ジョーク、口調、音素など)を考慮できるより正確な翻訳を生成する。さらに、音声翻訳は、対応する音声信号(メルスペクトグラムおよび/または生の音声波形など)のデジタル表現を生成AIに組み込むことにより、話者の声のアイデンティティ、トーン、イントネーション、感情などと一致する。さらに、このシステムは、プログレッシブGANを含む高解像度の生成AIを通じて、話者の顔(少なくとも話者の唇)が生成された音声をネイティブに話しているように見えるようにビデオを生成/操作できる。
【0029】
図1に示されているように、本発明は一般に、入力ビデオ104、入力音声106を含むことができ、また任意で入力トランスクリプション108を含むことができる入力メディアファイル102を含む。また、入力言語110および出力言語112は翻訳器114に提供される。翻訳器114は、入力情報を使用して出力メディア122を作成する。出力メディア122は、出力ビデオ116、出力音声118、および/または出力言語に翻訳された言語を含む出力トランスクリプション120を含むとよい。
【0030】
入力メディア102は、本明細書に記載されるように翻訳機114を構成し得る様々なプリプロセッサまたはジェネレータのうちの1つまたは複数に提供される場合、コンピュータ可読フォーマットに変換および/または提供されるとよい。さまざまな入力のためのコンピュータ可読フォーマットの非限定的な例は、バイナリベクトルおよび文字列のベクトルを含む。バイナリベクトルは、1ホットベクトルおよびマルチクラスベクトルを含むがこれらに限定されない、当技術分野で知られている任意のものであるとよい。同様に、文字列のベクトルは、当技術分野で知られているものであれば何でもよい。いくつかの実施形態は、1つ以上の入力を国際音声アルファベット(IPA)の文字列に変換する。後続の段落で説明するように、IPA 文字列を使用すると、異なる言語の同じ単語間の音声の区別に関連するエラーが軽減される。
【0031】
いくつかの実施形態では、ユーザは、入力言語110および/または出力言語112を識別する。いくつかの実施形態では、入力言語110および出力言語112は、本明細書に記載されるものと同様のコンピュータ可読フォーマットで示され、提供される。例えば、入力言語110および出力言語112は、単一の1状態がそれぞれの言語に対応するすべての可能な言語のサイズのバイナリベクトルの形式で提供することができる。いくつかの実施形態では、入力言語110は、音声認識ソフトウェアによって自動的に識別される。同様に、いくつかの実施形態は、入力トランスクリプション108を自動的に作成する音声テキスト変換(STT)システム/ソフトウェアを含む。
【0032】
以下でより詳細に説明するように、本発明のいくつかの実施形態は、翻訳前に入力情報を識別、抽出、および/または操作するための1つ以上のプロセッサ(「プリプロセッサ」とも呼ばれる)を含む。さらに、いくつかの実施形態は、様々な情報の合成生成を通じて翻訳を改善するように構成された複数のジェネレータから構成される翻訳機を含む。本発明のいくつかの実施形態は、翻訳の品質および/または出力メディアの品質を改善するように構成されたポストプロセッサをさらに含む。これらのさまざまなコンポーネントについては、後続のセクションで詳しく説明する。
【0033】
図2は、翻訳プロセス200の広範な概要を示しており、
図3~7の図に少なくとも部分的に対応する。図示されるように、翻訳プロセス200の例示的な実施形態は、ステップ202において、まずデジタル入力メディアファイル102を受信または取得することを含む。入力メディアファイルは、当技術分野で知られている任意のシステムおよび方法を介して取得または提供されるとよい。
【0034】
前述したように、入力メディアファイル102は、ビデオ、音声、および/またはトランスクリプト情報を含むとよい。簡潔かつ明確にするために、以下の説明は、入力音声106を伴う入力ビデオ104を有する入力メディアファイル102を参照する。入力メディアファイルが単なる音声ファイルの場合、ビデオ翻訳に対応する手順は実行されません。さらに、入力メディアファイル102は複数または単一のデジタル入力ファイルとして提供することができるが、例示的な図は入力ビデオ104および入力音声106を別々の入力として示している。
【0035】
ここで
図3を参照すると、いくつかの実施形態は、以下に説明するように、入力メディア102を前処理するステップを含む。入力メディア102は、ビデオプリプロセッサ124および/または音声プリプロセッサ126に提供されるとよい。いくつかの実施形態では、これらのプリプロセッサは、話者ダイアライゼーションプロセッサが入力音声106を正しく分割し、入力トランスクリプション生成器127がより正確な入力トランスクリプション108を生成する能力を向上させるように構成される。
【0036】
音声プリプロセッサ126は、話者ごとに音声コンテンツを別々の音声トラックに分割し、背景ノイズを除去またはクリーンアップし、音声品質データを向上させるプロセスを含むとよい。これらのプロセスは、本明細書に列挙したプロセスを実行できる任意の既知のシステムおよび方法を使用して実行することができる。また、いくつかの実施形態では、音声プリプロセッサ126は、当技術分野で知られているような音声認識ソフトウェアを使用して入力言語110を自動的に識別するように構成されている。
【0037】
ビデオプリプロセッサ124は、ビデオ内の人物(被写体)を識別し、追跡するためのプロセスを含むとよい。例えばビデオプリプロセッサ124は、例えば、8ptの2Dランドマーク、68ptの2Dランドマーク、他の2D顔ランドマーク、他の3D顔ランドマークを使用する顔検出ソフトウェアを使用して、ビデオに描かれた各被写体を追跡する顔境界ボックスを作成することができる。
【0038】
いくつかの実施形態では、ビデオプリプロセッサ124は、例えば13ptの2D身体ランドマーク、他の2D身体ランドマーク、他の3D身体ランドマークなどを使用する身体追跡ソフトウェアを使用して、各被写体を追跡する身体境界ボックスを作成することができる。あらゆるタイプの境界ボックスまたはアイデンティティ追跡ソフトウェアを使用して、ビデオのフレーム全体で被写体を識別および追跡できる。いくつかの実施形態では、ビデオプリプロセッサ124は、ビデオ内の特定の音声セグメント中にどの話者が話しているのかを決定するために使用される唇の動きを識別および追跡するように構成されている。
【0039】
いくつかの実施形態では、ビデオプリプロセッサ124の出力は音声プリプロセッサ126に供給される。ビデオ情報を音声プリプロセッサ126に供給することにより、音声プリプロセッサ126は、音声だけでは区別することが難しい単語/現象(例えば、「B」対「V」の発音)をよりよく理解できるようになる。
【0040】
ここで
図2~3を参照すると、入力メディアファイル102が取得された後、ステップ204で話者ダイアライゼーションが実行される。いくつかの実施形態では、ステップ204で、入力メディア102および入力言語110が話者ダイアリゼーションプロセッサ125に提供される。いくつかの実施形態では、入力音声106は、入力ビデオ104なしで話者ダイアライゼーションプロセッサ125に提供される。いくつかの実施形態は、元の入力音声106を、前処理された音声出力とともに音声プリプロセッサ126から話者ダイアライゼーションプロセッサ125に提供する。
【0041】
話者ダイアライゼーションプロセッサ125は、識別可能な話者に従って入力音声106を均一な音声セグメントに分割するように構成されている。最終的に、話者ダイアライゼーションプロセッサ125は、入力メディア102内の1人以上の話者を識別し、各音声文字列(音声セグメントとも呼ばれる)を適切な話者と関連付ける一連のステップを実行する。いくつかの実施形態では、話者ダイアライゼーションプロセッサ125からの出力は、入力音声106に対応する一連の音声セグメントを含み、各セグメントは話者識別子または話者の身元への参照を含んでいる。いくつかの実施形態では、話者ダイアライゼーションプロセッサ125は、音声内の各単語/音節/音素のタイムコード(例えば、各単語の開始時間と終了時間)を取り込み、誰が話しているのかを識別し、話された単語を識別し、話者の関連する特徴を特定するように構成されている。話者ダイアライゼーションプロセッサ125からの出力は、咳、くしゃみ、会話の一時停止、および話者によって生成される他の非言語音声セグメントまたは非言語ノイズの識別および関連するタイムコードをさらに含むことができる。他の話者ダイアライゼーション情報と同様に、このデータはシステム全体に供給される。話者ダイアライゼーションプロセッサ125は、特定の音声セグメントと話者を識別して関連付け、および/または上述の他の情報のいずれかを取り込むように構成された、当技術分野で知られている任意の話者ダイアライゼーションシステムであるとよい。
【0042】
話者ダイアライゼーションプロセッサ125のいくつかの実施形態は、入力ビデオ104に基づいて、特定の音声セグメントを話者に関連付けるようにさらに構成される。これは、各話者の顔、識別可能な特徴、および/または顔の動きを追跡することによって達成される。例えば、いくつかの実施形態は、顔の曲線分析を使用して、特定の音声セグメントについて話者の特徴を追跡、識別、および捕捉する。このような実施形態では、話者ダイアライゼーションプロセッサ125からの出力には、一連の音声セグメントに関連付けられた顔の曲線データがさらに含まれる。話者ダイアライゼーションからの出力は、必ずしもビデオ自体ではなく、それよりも、その中に含まれる、または関連付けられた関連付けを含むコンピュータ読み取り可能なデータである。
【0043】
顔の曲線分析に関連するデータには、顔が描かれている開始時間と終了時間、他の対象者と比較した個々の対象者のアイデンティティ、性別、画面上の時間、音声に基づく発話時間、および誰が話しているのかを識別するための唇同期分析を含むとよい。この情報の全てを、誰が話しているのか、またその識別可能な特徴が声の特徴にどのような影響を与えるのかを判断するために使用することができる。例えば、男性と女性の両方の対象者が同時に話しているビデオが動画表示されている場合、男性的な口調の認識は、その話者を男性として識別するのに役立つ。
【0044】
顔情報を各音声セグメントに関連付けることは、後続のセクションで説明するように、同期ビデオ146を生成するのにさらに役立つ。しかしながら、いくつかの入力メディア102は、入力ビデオ104を含まない。さらに、本発明のいくつかの実施形態は、翻訳された音声を入力ビデオ102にさらに同期することなく、翻訳された音声を出力する。これらの例では、話者ダイアライゼーションプロセッサ125は、音声セグメントを顔追跡データと関連付ける必要がない。
【0045】
話者ダイアリゼーションに続いて、ステップ206で出力が入力トランスクリプション生成器127に提供され、入力トランスクリプションを生成する。
図3を参照すると、話者ダイアライゼーション後の音声の話者が識別された各セグメントは、入力トランスクリプション生成器127に提供され、音声セグメントをセグメント化された入力トランスクリプション108に変換する。入力トランスクリプション108は、以下に説明するデータを含む入力トランスクリプション108を生成するように構成された任意の既知のシステムまたは方法を使用して生成されるとよい。
【0046】
入力トランスクリプション108には、話された単語のみから、口の動き、音素、タイムスタンプ、および他のそのような説明に関する非常に詳細なデータまで、あらゆるものが含まれ得る。多くの場合、入力トランスクリプション108には、話されている言語、名前/固有名詞の識別、感情分析、単語および/または音節のタイムスタンプ/時間インデックス、および/または音声で話している個別の人物ごとのタイムスタンプを伴う音素が含まれる。
【0047】
また、いくつかの実施形態では、元の未処理の入力ビデオ104および/または入力音声106は、入力トランスクリプション生成器127に提供される。また、いくつかの実施形態では、ビデオプリプロセッサ124および/または音声プリプロセッサ126からの出力は、入力トランスクリプション生成器127に提供される。さらに、いくつかの実施形態は、入力言語110を入力トランスクリプション生成器127に提供する。
【0048】
いくつかの実施形態では、入力トランスクリプション108は、ユーザによって提供または準備される。そのような状況では、本発明は、入力トランスクリプション生成器127を含まないか、または単に入力トランスクリプション108を生成するステップをバイパスするかのいずれかである。いくつかの実施形態は、検討のためにユーザに入力トランスクリプション108を提示し、ユーザにトランスクリプションを修正する機能を提供する。ユーザは、入力を修正し、修正された入力を入力トランスクリプション生成器127に送信して、改善された出力を生成することができる。
【0049】
ここで
図2および
図4を参照すると、いくつかの実施形態は、ステップ208で入力音声106および入力トランスクリプション108からメタ情報を識別することをさらに含む。
図4に示すように、いくつかの実施形態は、入力音声106、入力トランスクリプション108、および入力言語110をメタ情報プロセッサ130に送信する。いくつかの実施形態では、入力音声106および/または入力ビデオ104には、プリプロセッサ124および/または126からメタ情報プロセッサ130への出力が提供される。同様に、いくつかの実施形態は、元の入力トランスクリプション108および/またはテキストプリプロセッサ128を介して処理された後の入力トランスクリプション108を提供する。
【0050】
いくつかの実施形態では、テキストプリプロセッサ128は、テキストを音素分析に変換し、および/または感情/感情分析を実行するように構成される。これらの分析は、音声セグメントに対応するデータおよび関連する話者ダイアライゼーションデータを含む入力トランスクリプション108からそのようなデータを抽出するように構成された任意の既知のシステムおよび方法を使用して実行されるとよい。
【0051】
メタ情報プロセッサ130は、各音声セグメントを有する様々なメタ情報を識別し、関連付けるように構成されとよい。メタ情報の非限定的な例としては、感情、ストレス、ペーシング/韻律/リズム、音素分析、口調、年齢、性別、人種を含む。いくつかの実施形態では、メタ情報プロセッサ130は、少なくとも感情データおよび各音声セグメントを有するペーシングデータを識別し、関連付ける。
【0052】
感情データには、検出可能なあらゆる感情が含まれる。感情の非限定的な例は、幸せ、悲しみ、怒り、怖い、混乱、興奮、疲れ、皮肉、嫌悪、恐怖、および驚きを含む。さらに、感情データを、感情の所定のリストに編集することができ、類似性を判断するために、感情を、1ホットまたはマルチクラスベクトル、ニューラル ネットワークの最後から2番目の層またはシャム ネットワークの出力などのコンピュータ可読フォーマットを使用して、1つ以上のプロセッサおよびジェネレータに通信できる。同じアプローチを、他のさまざまなタイプのメタ情報を識別して伝達するために使用できる。
【0053】
ペーシング/韻律/リズム(以下「ペーシング」と呼びます)は、各音節、単語、その他の音素、非言語音声(咳、笑い、あえぎなど)または音声の一時停止に関連付けられた測定可能な時間であり、0.05 秒の分解能で表される。ペーシング情報が既知であり、データを通して流れる場合、ジェネレータは同じペースに一致する、またはほぼ一致する出力を生成できる。その結果、翻訳されたテキスト、音声、および/またはビデオは、入力された音声、ビデオ、および/またはテキストと同様の、または一致するペースを持つように生成される。
【0054】
様々なメタ情報を、上述の1つ以上のメタ情報を識別し生成するように構成された任意の既知のシステムおよび方法を使用して識別および生成することができる。いくつかの実施形態では、各音声セグメントの感情データおよびペーシングデータを識別および生成するように構成された任意の既知のシステムおよび方法を使用して、様々なメタ情報を識別および生成することができる。
【0055】
メタ情報プロセッサ130は、各音声セグメントのメタ情報を識別して取得し、メタ情報を各音声セグメントに関連付ける。この情報の組み合わせは、入力メタ情報131として捕捉される。この情報を捕捉して提供することは、発話中の独自性が捕捉される。この情報を使用して、AIジェネレータを特徴についてトレーニングし、感情が話し方にどのような影響を与えるかを知ることができる。トレーニング後、AIジェネレータは、ステートメントが感情を含むときを認識し、特定された感情を含む合成音声を生成できる。適切にトレーニングされた場合、メタ情報プロセッサは、例えば、怒りや異なるアクセント、感情、ペーシングなどのさまざまなレベルの音声などの複数のラベルが付いた出力を生成できる。
【0056】
いくつかの実施形態では、メタ情報プロセッサ130は、メタ情報および話者ダイアライゼーションデータが各音声セグメントに関連付けられている入力メタ情報131を生成する。従って、入力メタ情報131は、トランスクリプションおよびメタ翻訳ジェネレータ132によって使用可能な形式の話者ダイアライゼーションデータに関するペーシングおよびタイムコードを含む。いくつかの実施形態では、入力メタ情報131は、音素に変換された話者ダイアライゼーションデータを含み、これにより、システムは、その後、音素の類似性に基づいて、入力と一致するように翻訳された出力を調整できるようになる。
【0057】
いくつかの実施形態では、入力メタ情報131は、ユーザによって提供または準備される。そのような状況では、本発明は、メタ情報プロセッサ130を含まないか、または入力メタ情報131を生成するステップを単にバイパスするかのいずれかである。いくつかの実施形態は、レビューのために入力メタ情報131をユーザに提示し、入力メタ情報131を変更する機能をユーザに提供する。いくつかの実施形態は、変更のために入力をユーザに提示するステップを含み、ユーザは入力を変更し、その後、変更された入力をAIメタ情報プロセッサ130に送信して、改善された出力を生成することができる。
【0058】
ステップ210で、本発明は、入力トランスクリプション108を入力言語110から出力言語112に翻訳する。
図5に例示されるように、様々な入力がトランスクリプションおよびメタ翻訳ジェネレータ132に提供され、入力されたトランスクリプションを、翻訳されたトランスクリプション134および翻訳されたメタ情報135の形式で出力言語112に翻訳する。
【0059】
いくつかの実施形態では、入力は、入力トランスクリプション108、テキストプリプロセッサ128からの出力、および入力メタ情報131のみを含む。また、いくつかの実施形態では、入力は、入力ビデオ104、音声入力106、ビデオプリプロセッサ124からの出力、および/または音声プリプロセッサ126からの出力を含む。さらに、入力言語110および出力言語112は、トランスクリプションおよびメタ翻訳ジェネレータ132に提供される。いくつかの実施形態は、入力トランスクリプション108(未処理または前処理された)および入力言語110並びに出力言語112をトランスクリプションおよびメタ翻訳ジェネレータ132に送信するだけである。いくつかの実施形態は、翻訳されたトランスクリプション134を生成するために、少なくとも入力トランスクリプション108(未処理または前処理された)並びに入力言語110および出力言語112をトランスクリプションおよびメタ翻訳ジェネレータ132に送信する。
【0060】
入力メタ情報131を含めることは、トランスクリプションおよびメタ翻訳ジェネレータ132が、入力メタ情報131を通じて識別される様々な音声特徴を有する翻訳されたトランスクリプション134および翻訳されたメタ情報135を生成することができる。このような特徴は、皮肉、ユーモア、音素、音素に一致するペーシングなどを含むが、これらに限定されない。また、入力音声106および/または音声プリプロセッサ126の出力をトランスクリプションおよびメタ翻訳ジェネレータ132に供給することは、音声内に含まれる皮肉、ユーモア、イディオム、およびその他の情報をトランスクリプションが不変にさせる。また、入力ビデオ104および/またはビデオプリプロセッサ124からのビデオ情報は、トランスクリプションおよびメタ翻訳ジェネレータ132への入力として提供されてもよく、これは、他の感情情報を含むことができ、翻訳されたトランスクリプション134および翻訳されたメタ情報135をさらに改善することができる。
【0061】
いくつかの入力メディア102では、入力音声106で複数の言語が話される場合がある(例えば、英語とスペイン語)。この情報は多くの場合、入力トランスクリプション108内に含まれる。複数の入力言語110を翻訳する場合、トランスクリプションおよびメタ翻訳ジェネレータ132には、入力言語ごと(例えば、英語からドイツ語およびスペイン語からドイツ語、または英語からドイツ語およびスペイン語からフランス語)に特定の出力言語112が提供される。
【0062】
いくつかの実施形態では、翻訳されたトランスクリプション134および/または翻訳されたメタ情報135は、ユーザによって提供または準備される。そのような状況では、本発明は、トランスクリプションおよびメタ翻訳ジェネレータ132を含まないか、あるいは、翻訳されたトランスクリプション134および/または翻訳されたメタ情報135を生成するステップを単にバイパスするかのいずれかである。いくつかの実施形態は、翻訳されたトランスクリプション134および/または翻訳されたメタ情報135をレビューのためにユーザに提示し、翻訳されたトランスクリプション134および/または翻訳されたメタ情報135を修正する機能をユーザに提供する。いくつかの実施形態は、変更のために入力をユーザに提示するステップを含み、ユーザは入力を変更し、その後、変更された入力をトランスクリプションおよびメタ翻訳ジェネレータ132に送信して、改善された出力を生成することができる。
【0063】
図2および
図6に詳述されているように、翻訳されたトランスクリプション134および翻訳されたメタ情報135が取得されると、本発明は、音声翻訳ジェネレータ138を使用して、入力音声106を入力言語110から出力言語112に翻訳し、それによって、ステップ214で翻訳された音声140を生成することができる。いくつかの実施形態では、音声翻訳ジェネレータ138の入力は、出力言語112および翻訳されたトランスクリプション134、および/または翻訳されたテキストプリプロセッサ136からの出力を含む。
【0064】
翻訳テキストプリプロセッサ136は、テキストを音素分析に変換し、および/または感情分析またはセンチメント分析を実行するように構成されている。これらの分析は、音声セグメントに対応する翻訳データおよび関連する話者ダイアリゼーションデータを含む、翻訳されたトランスクリプション134からそのようなデータを抽出するように構成された任意の既知のシステムおよび方法を使用して実行することができる。従って、翻訳されたテキストプリプロセッサ136からの出力は、これらの分析からのデータがコンピュータ可読フォーマットで含み、出力データを音声翻訳ジェネレータ138に提供することができる。
【0065】
いくつかの実施形態は、音声翻訳ジェネレータ138への入力として、入力メタ情報131および/または翻訳されたメタ情報135をさらに含む。いくつかの実施形態では、音声翻訳ジェネレータ138のための入力は、出力言語112および入力音声106および/または音声プリプロセッサ126からの出力を含む。
【0066】
図6にさらに例示されるように、音声翻訳ジェネレータ138への入力は、入力言語110、出力言語112、入力メディア102、ビデオプリプロセッサ124および音声プリプロセッサ126からの出力、入力トランスクリプション108、テキストプリプロセッサ128からの出力、入力メタ情報131、翻訳されたトランスクリプション134、翻訳されたテキストプリプロセッサ136からの出力、および/または翻訳されたメタ情報135を含むことができる。
【0067】
いくつかの実施形態は、翻訳された音声を生成するために、翻訳されたトランスクリプション134、翻訳されたメタ情報135、および出力言語112を音声翻訳ジェネレータ138に送信するだけである。いくつかの実施形態では、出力言語112は、翻訳されたトランスクリプション134内に含まれるか、翻訳されたトランスクリプション134から決定されるとよい。いくつかの実施形態は、翻訳された音声140を生成するために、少なくとも翻訳されたトランスクリプション134、翻訳されたメタ情報135、および出力言語112を音声翻訳ジェネレータ138に送信する。
【0068】
前述したように、いくつかの実施形態は、ビデオプリプロセッサ124および/または音声プリプロセッサ126からの出力を送信することも含む。ビデオおよび/または音声情報を追加することは、音声の特徴、感情、話者のアイデンティティなどを組み込むことで翻訳結果を向上させる。
【0069】
いくつかの実施形態は、翻訳された音声140を生成するために、入力音声106(前処理済みおよび/または未処理)および出力言語112のみを音声翻訳ジェネレータ138に送信する。いくつかの実施形態は、翻訳された音声140を生成するために、少なくとも入力音声106(前処理済みおよび/または未処理)および出力言語112を音声翻訳ジェネレータ138に送信する。入力音声106は、入力時に分割されて、音声を管理可能な分割領域(例えば、15秒未満(<15秒)または30秒未満(<30秒))に削減し、および/または自動調整を通じて最終結果を改善することができる。
【0070】
翻訳されたトランスクリプション134、翻訳されたメタ情報135、および出力言語112が音声翻訳ジェネレータ138に送られる主な入力または唯一の入力である場合、音声翻訳ジェネレータ138は、汎用のサードパーティクラウドTTSシステム、カスタムクラウドTTSシステム、サードパーティのオンデバイスTTSシステム、またはカスタムオンデバイスTTSシステムを含むが、これらに限定されず、テキストスピーチ(TTS)ジェネレータを含んでもよい。さらに、音声翻訳ジェネレータ138は、前処理音声から得られる、性別、年齢、感情特性などの音声特性を識別し、組み込むように構成されるとよい。従って、結果として得られる翻訳された音声140は、TTSで通常提供されるものよりもはるかに多くの情報を含む。例えば、翻訳された音声140は、話された言葉、感情、ペース、ポーズ、トーン、韻律、強さ/トーン、ストレス、声の同一性などと一致する。その結果、翻訳された音声は元の人の声では伝わらないが、ジェネレータは人の声に非常によく一致する。音声が入力メディア102と同じ話者に対応する訓練データを使用してジェネレータが訓練される場合、ジェネレータは、およそ99%の音声一致を有する合成翻訳音声を生成することができる。同じ話者からの音声でトレーニングされていない場合、ジェネレータは、約 80% 以上の音声一致を持つ合成翻訳音声を生成できる。
【0071】
いくつかの実施形態は、翻訳された音声出力140を検討のためにユーザに提示し、翻訳された音声出力140を修正する機能をユーザに提供する。ユーザは、入力を修正でき、その後、修正された入力を音声翻訳ジェネレータ138に送信して、改善された出力を生成する。
【0072】
さらに、いくつかの実施形態は、最終的な翻訳された音声出力140を改善するように構成されたポストプロセッサを含む。ポストプロセッサは、翻訳された音声140を元の音声背景音、効果音などを含む単一の音声ストリームにつなぎ戻すように構成されている。いくつかの実施形態では、ポストプロセッサは、元の音声サウンドパラメータ(例えば、プロの音声混合からのもの)と、元の音声入力106の監視されていない暗黙の特性とを自動的に照合する。いくつかの実施形態では、ポストプロセッサは、話者ダイアライゼーションなどの音声前処理からの情報を直接再組み込むように構成されている。
【0073】
翻訳プロセスのこの時点で、翻訳された音声140をエンドユーザに提示または提供することができる。しかしながら、いくつかの実施形態は、翻訳された音声140と一致するように話者の顔の動きを同期させるステップをさらに含む。
図2および
図7のステップ216は、この追加のプロセスに対応する詳細を提供する。いくつかの実施形態では、入力ビデオ104、ビデオプリプロセッサ124からの出力、および翻訳された音声140は、同期ビデオ146を出力するビデオ同期ジェネレータ144に提供される。いくつかの実施形態は、翻訳された音声140、ビデオプリプロセッサ124からの出力、および入力ビデオ104のみをビデオ同期ジェネレータ144に送信する。
【0074】
いくつかの実施形態は、少なくとも翻訳された音声140、ビデオプリプロセッサ124からの出力、および入力ビデオ104をビデオ同期ジェネレータ144に送信する。
図7に例示されるように、いくつかの実施形態は、入力言語110、ビデオプリプロセッサ124からの出力、入力音声106、音声プリプロセッサ126からの出力、入力トランスクリプション108、テキストプリプロセッサ128からの出力、入力メタ情報131、翻訳されたトランスクリプション134、翻訳されたテキストプリプロセッサ136からの出力、翻訳されたメタ情報135、および/または翻訳された音声プリプロセッサ142からビデオ同期ジェネレータ144への出力をさらに提供する。
【0075】
提供された情報を使用して、ビデオ同期ジェネレータ144は、翻訳された音声140が入力ビデオ104にダビングされ、話者の顔の動きが翻訳された音声140と一致する同期ビデオ146を生成する。より具体的には、ビデオ同期ジェネレータ144は、翻訳されたビデオを作成し、境界ボックスおよび/または顔のランドマーク、口/唇のランドマークなどに基づいて翻訳されたビデオを元のビデオに再結合して、話者の顔の動きが翻訳された音声140と確実に一致するようにする。
【0076】
いくつかの実施形態は、同期ビデオ146をレビューのためにユーザに提示し、同期ビデオ146を変更する機能をユーザに提供する。いくつかの実施形態では、ユーザは入力を変更し、その後、変更された入力を送信して、改善された出力を生成することができる。
【0077】
いくつかの実施形態では、ビデオ同期生成器144は、対象者の唇と合わせるためのオプティカルフローネットワーク/オプティカルフローロスを含む。いくつかの実施形態では、ビデオは、別個の顔、シーンカットなどを考慮して、入力時に分割されてもよい。
【0078】
図8に例示されるように、いくつかの実施形態は、様々なデータを同期ビデオ146に再統合するように構成された後処理ステップをさらに含む。いくつかの実施形態は、これらのステップを実行するように構成されたビデオポストプロセッサ148を含む。後処理後、出力ビデオ150をユーザに提供することができる。
【0079】
いくつかの実施形態では、ビデオポストプロセッサ148は、入力ビデオ104、翻訳トランスクリプション134、翻訳された音声140、および同期ビデオ146を入力として受信する。ビデオポストプロセッサ148は、これらの入力を使用して、元のビデオの光学パラメータ(例えば、プロのビデオミキシング、ビデオカラーリングなどからの)および元のビデオ入力の教師なしの暗黙の特性を自動的に照合する。
【0080】
本発明のいくつかの実施形態は、GANs/ML/AI(総称して「AI」と呼ぶ)を使用して、上述の翻訳プロセスの出力および効率を改善する。様々なAIは、教師あり、教師なし、および/または半教師ありの方法でトレーニングされるとよい。そして、結果として得られるトレーニングされたAIプロセッサとジェネレータを使用して、より効率的な方法で大幅に改善された翻訳を生成できる。
【0081】
一般に、AIを採用する実施形態は、AIシステムの意図された機能に基づいて2つのタイプのAIを有する。一般に、これらのAIシステムを前処理AIと生成AIに分類できる。AIプロセッサ/プリプロセッサは、情報の変換、抽出、識別、編集のようなタスクをより効果的かつ効率的に実行するように設計されたシステムである。これに対し、AIジェネレータは、操作または変換されたメディアなどの合成情報を生成するように構成されたシステムである。
【0082】
以下のシステムは、前処理AIによって置き換えられるとよい。ビデオプリプロセッサ124、音声プリプロセッサ126、話者ダイアライゼーションプロセッサ125、テキストプリプロセッサ128、翻訳テキストプリプロセッサ136、翻訳された音声プリプロセッサ142、およびメタ情報プロセッサ130。同様に、以下のジェネレータは、生成AIによって置き換えられるとよい。入力トランスクリプションジェネレータ127、トランスクリプションおよびメタ翻訳ジェネレータ132、翻訳テキストプリプロセッサ136、音声翻訳ジェネレータ138、翻訳された音声プリプロセッサ142、およびビデオ同期ジェネレータ144。さまざまな前処理AIと生成AIのそれぞれは、以下で個別に詳しく説明される。
【0083】
ビデオプリプロセッサ
本発明のいくつかの実施形態では、ビデオプリプロセッサ124は前処理AIである。ビデオプリプロセッサ124は、識別および追跡システムおよび方法を使用してビデオ内の被写体を識別および追跡するためのプロセス(前のセクションで特定したプロセスなど)を含むとよい。これらのシステムおよび方法は、当技術分野で知られている任意のAI処理システムであってよい。例えば、ビデオプリプロセッサ124は、顔ランドマーク分析、顔追跡アルゴリズム、顔トリミングおよび位置合わせアルゴリズム、シーン識別、ならびに復元および超解像度を含むとよい。
【0084】
いくつかの実施形態では、ビデオプリプロセッサ124は、唇の動きを識別し追跡するように構成されたAIを含む。唇の動きを追跡することで、AIはビデオ内の特定の音声セグメント中にどの話者が話しているのかを判断できる。唇の動きを追跡するために使用されるシステムおよび方法は、当技術分野で知られている任意のAI処理システムであるとよく、顔のランドマーク分析、顔追跡アルゴリズム、顔のトリミングおよび位置合わせアルゴリズム、分類、セグメンテーション、および唇からテキストへのアルゴリズムを含むが、これらに限定されない。
【0085】
いくつかの実施形態では、ビデオプリプロセッサ124は、入力ビデオ104および/または入力ビデオ104のコンピュータ可読表現を受信するように構成される。同様に、ビデオプリプロセッサ124はコンピュータ可読データを出力する。いくつかの実施形態では、コンピュータ可読データは、バイナリベクトルおよび/または文字列のベクトルで提供される。バイナリベクトルは、当技術分野で知られている任意のものであるとよく、1ホットベクトルおよびマルチクラスベクトルを含むが、これらに限定されない。同様に、文字列のベクトルは、当技術分野で知られているものであればいかなるものでもよい。いくつかの実施形態は、IPAに基づく文字列を使用する。IPA文字列を使用することは、異なる言語の同じ単語間の音声の区別に関連するエラーを軽減する。
【0086】
いくつかの実施形態は、ビデオプリプロセッサAIの出力を、レビューおよび潜在的な修正のためにユーザに提示する。ビデオ プリプロセッサAIがトレーニングされていても、ユーザによって出力が改善される場合があるとよい。従って、いくつかの実施形態は、変更のためにユーザに出力を提示するステップを含む。
【0087】
音声プリプロセッサ
本発明のいくつかの実施形態では、音声プリプロセッサ126は前処理AIである。AI音声プリプロセッサ126は、話者ごとに音声コンテンツを分割し、背景雑音を除去またはクリーンアップし、音声品質データを向上させるためのプロセスを含むとよい。これらのプロセスは、本明細書に列挙したプロセスを実行できる任意の既知のAIプリプロセッサを使用して実行されるとよい。例えば、AI音声プリプロセッサ126は、音声源分離、ノイズ削減、音声復元、および超解像度を含むとよい。
【0088】
AIビデオプリプロセッサ124と同様に、AI音声プリプロセッサ126は、入力音声106および/または入力音声106のコンピュータ可読表現を受信するように構成されている。同様に、AI音声プリプロセッサ126は、本明細書に記載されているようなコンピュータ可読データを出力する。いくつかの実施形態は、AI音声プリプロセッサ126の出力を、レビューおよび潜在的な修正のためにユーザに提示する。AI音声プリプロセッサ126がトレーニングされた場合でも、出力がユーザによって改善される可能性がある場合があってもよい。従って、いくつかの実施形態は、変更のためにユーザに出力を提示するステップを含む。
【0089】
スピーカーダイアライゼーションプロセッサ
本発明のいくつかの実施形態では、話者ダイアライゼーション(SD)プロセッサ125は前処理AIである。AI SDプロセッサ125は、識別可能な話者に従って入力音声106を均一な音声セグメントに分割するためのプロセスを含むとよい。AI SDプロセッサ125は、話者ダイアライゼーションを実行するための当業者に知られている任意のシステムおよび方法であるとよい。最終的に、AI SDプロセッサ125は、入力メディア102内の1人以上の話者を識別し、各文字列または音声セグメントを適切な話者と関連付ける一連のステップを実行する。いくつかの実施形態では、AI SDプロセッサ125からの出力は、話者識別子または話者の身元への参照を含んでいる各セグメントを有する入力音声106に対応する一連の音声セグメントを含む。いくつかの実施形態では、AI SDプロセッサ125は、音声内の各単語のタイムコード、誰が話しているのか、話者が何を言っているか、各話者が話しているとき、話者の身元、話された単語、および話者の関連する特徴を捉えるようにさらに構成されている。さらに、AI SDプロセッサ125は、咳、くしゃみ、発話中の一時停止、および話者によって生成される他の非言語音声セグメントまたは非言語ノイズを識別することができる。他のSD情報と同様に、このデータはシステム全体に供給される。
【0090】
さらに、AI SDプロセッサ125のいくつかの実施形態は、入力ビデオ104に基づいて、特定の音声セグメントを話者と関連付けるように構成される。これは、各話者の顔、識別可能な特徴、および/または顔の動きを追跡することによって達成される。例えば、いくつかの実施形態は、顔の軌跡分析を使用して、特定の音声セグメントについて話者の特徴を追跡、識別、および捕捉する。さらに、このような実施形態では、AI SDプロセッサ125からの出力は、一連の音声セグメントに関連付けられた顔の軌跡データを含む。話者ダイアライゼーションからの出力は、必ずしもビデオ自体である必要はなく、その中に含まれる、または関連付けられた関連付けを含むコンピュータ読み取り可能なデータであるとよい。
【0091】
顔の軌跡分析に関連するデータは、顔が描かれている開始時間と終了時間、他の対象者と比較した個々の対象者のアイデンティティ、性別、画面上の時間、音声に基づく発話時間、および誰が話しているのかを識別するための唇同期分析を含むとよい。この情報はすべてを、誰が話しているのか、またその識別可能な特徴がその声の特徴にどのような影響を与えるのかを判断するために使用できる。
【0092】
AI SDプロセッサ125は、特定の音声セグメントに、話者を識別し、関連付けるように構成された、当技術分野で知られている任意のAI話者ダイアライゼーションシステムであってよい。例えば、AI SDプリプロセッサ125は、CNNs、RNNs、LSTMs、GNNs、Transformers、GANs、またはその他のMLアーキテクチャに基づく、AWS、Google、IBMなど、又は、音声活動検出、音声分割、話者はめ込み、セグメントクラスタリング、アフィニティマトリックス、MAPエンコーディングによって提供される第三者のSDツールであってもよい。
【0093】
AI SDプリプロセッサ125は、本明細書に記載されているようなコンピュータ可読フォーマットで入力メディア102および入力言語110を受信するように構成されている。いくつかの実施形態では、入力音声106は、入力ビデオ104なしでAI SDプロセッサ125に提供される。いくつかの実施形態では、入力ビデオ104および/または入力音声106がAI SDプロセッサ125に提供される。いくつかの実施形態は、元の入力音声106を、前処理された音声出力とともに音声プリプロセッサ126からAI SDプロセッサ125に提供する。
【0094】
前述のAIプリプロセッサと同様に、AI SDプリプロセッサ125は、本明細書で説明するようなコンピュータ可読データを出力する。より具体的には、AI SDプリプロセッサ125は、各音声セグメントが話者識別情報を含むデータを出力する。
【0095】
いくつかの実施形態は、AIレビューおよび潜在的に修正を行うためにSDプリプロセッサ125の出力をユーザに提示する。AI SDプリプロセッサ125 がトレーニングされている場合でも、出力をユーザによって改善できる場合があるとよい。従って、いくつかの実施形態は、変更のために出力をユーザに提示するステップを含む。
【0096】
テキストプリプロセッサ
本発明のいくつかの実施形態では、テキストプリプロセッサ128は前処理AIである。AIテキストプリプロセッサ128は、入力トランスクリプション108などのテキスト内の音素を検出および分析するためのプロセスを含むとよい。AIテキストプリプロセッサ128は、テキスト内の感情/センチメント、品詞、固有名詞、および慣用句を検出および分析するためのプロセスをさらに含むとよい。これらのプロセスは、本明細書に列挙したプロセスを実行できる任意の既知のAIプリプロセッサを使用して実行されるとよい。例えば、AIテキストプリプロセッサ128は、辞書検索またはトランスフォーマモデルまたはGANモデルを通じて生成されたIPAまたは同様のシステムに基づく音声分析、感情分析、品詞分析、固有名詞分析、および熟語検出アルゴリズムを含むとよい。
【0097】
AIテキストプリプロセッサ128は、入力トランスクリプション108および/または入力トランスクリプション108を備えたコンピュータ可読表現もしくは入力トランスクリプション108に関連付けられたデータを受信するように構成されている。いくつかの実施形態では、これらの入力は、SDプロセッサ125および入力トランスクリプション生成器127のために、各音声セグメントに対応するSDデータを含む。AIテキストプリプロセッサ128は、音素および/または感情データを、本明細書で説明するタイプなどのコンピュータ可読データとして出力する。また、このデータは、各音声セグメントに対応するSDデータと関連付けて出力される。
【0098】
いくつかの実施形態は、AIテキストプリプロセッサ128の出力を、検討および潜在的な修正のためにユーザに提示する。AIテキストプリプロセッサ128がトレーニングされている場合でも、ユーザによって出力を改善できる場合があるとよい。従って、いくつかの実施形態は、変更のために出力をユーザに提示するステップを含む。
【0099】
メタ情報プロセッサ
本発明のいくつかの実施形態では、メタ情報プロセッサ130はAIジェネレータである。AIメタ情報プロセッサ130は、各音声セグメントに関連付けられた様々なメタ情報を識別し、生成するように構成されている。メタ情報の非限定的な例は、感情、ストレス、ペーシング/韻律/リズム、音素分析、年齢、性別、人種を含む。いくつかの実施形態では、AIメタ情報プロセッサ130は、各音声セグメント内の単語の少なくとも感情データを識別し、生成する。
【0100】
AIメタ情報プロセッサ130は、上述のメタ情報のうちの1つ以上を識別し、生成するように構成された任意のAIプロセッサであってもよい。AIプロセッサの非限定的な例は、顔の感情検出、顔年齢検出、顔性別検出、顔類似ベクトル生成、口唇韻律分析、音声感情検出、音声年齢検出、音声性別検出、音声韻律分析、音声強度分析、音声ピッチ検出、音声活動検出、テキスト感情検出、及びテキストの意味検出を実行するように構成されたCNNs、RNNs、LSTMsを含む。
【0101】
さらに、いくつかの実施形態では、AIメタ情報プロセッサ130は、入力音声106および入力トランスクリプション108を受信する。いくつかの実施形態は、AIメタ情報プロセッサ130への入力として、入力言語110、入力ビデオ104、出力プリプロセッサ124、プリプロセッサ126からの出力、および/またはテキストプリプロセッサ128からの出力を含む。
【0102】
いくつかの実施形態では、AIメタ情報プロセッサ130は、メタ情報およびSDデータが各音声セグメントに関連付けられた合成入力メタ情報131を生成する。従って、入力メタ情報131は、トランスクリプションおよびメタ翻訳ジェネレータ132によって使用可能な形式のSDデータ上のペーシングおよびタイムコードを含む。いくつかの実施形態では、入力メタ情報131は、音素に変換されたSDデータを含み、これにより、システムは、その後、音素の類似性に基づいて、入力と一致するように翻訳された出力を調整できるようになる。さらに、いくつかの実施形態は、SDデータに関連付けられた音声/ビデオ分析からの感情データを含む。
【0103】
AIメタ情報プロセッサ130からの出力メタ情報は、他の様々なジェネレータを直接的または間接的に通過する。その結果、生成された翻訳されたテキスト、音声、および/またはビデオは、入力された音声、ビデオ、および/またはテキストと同様の、または一致するペースを持つように生成される。
【0104】
AIメタ情報プロセッサ130のいくつかの実施形態は、各音声セグメントのメタ情報を識別および取得し、各音声セグメントに関連付けられたメタ情報を生成するようにトレーニングされる。AIメタ情報プロセッサ130は、特定のタイプのメタ情報に対応する各層を備えた複数のネットワーク層から構成されるとよい。
【0105】
さらに、感情データを認識して生成するためにAIメタ情報プロセッサ130をトレーニングすることは、様々な感情を捕捉して翻訳に挿入できるため、システム全体が改善される。直接翻訳は、様々な感情が認識されず、伝わらないため、音声の解釈に大きな影響を与える可能性がある。さらに、感情データを捕捉しないと、音声翻訳はビデオで描写される目に見える感情と同期しません。これに対し、訓練されたAIメタ情報プロセッサ130は、後続のプリプロセッサおよびジェネレータを介して伝達される感情データを認識および生成することができる。
【0106】
AIメタ情報プロセッサ130は訓練されているため、発話中の特徴に対応するメタ情報を生成することができる。例えば、AIメタ情報プロセッサ130は、感情が音声にどのような影響を与えるかを知るための特性について訓練することができる。トレーニング後、AIメタ情報プロセッサ130は、ステートメントに感情が含まれる時期を認識し、対応するメタデータを生成することができる。後続の AIジェネレータは、特定された感情を含む合成音声を生成できる。適切にトレーニングされた場合、メタ情報プロセッサは、複数のラベルが付いた出力、例えば、様々なレベルの怒りや異なるアクセント、感情、ペースなどを備えた音声を生成できる。
【0107】
いくつかの実施形態では、AIメタ情報プロセッサ130は、結果を改善するために、音声および/または前処理されたビデオ情報(例えば、切り取られた顔、口の動きの検出など)に基づいてトレーニングされる。音声情報はイントネーションと意味を伝える。従って、訓練されたAIメタ情報プロセッサ130(教師なしまたは半教師ありの方法で)は、文字通りの意味を超えてトランスクリプション結果を改善する。音声を供給することは、音声に含まれる皮肉、ユーモア、慣用句、その他の情報に対してトランスクリプションを不変にさせる。
【0108】
翻訳されたテキストプリプロセッサ
本発明のいくつかの実施形態では、翻訳されたテキストプリプロセッサ136は前処理AIである。AI翻訳テキストプリプロセッサ136は、翻訳されたトランスクリプション134などのテキスト内の音素を検出および分析するためのプロセスを含むとよい。さらに、AI翻訳テキストプリプロセッサ136は、テキスト、品詞、固有名詞、および慣用句内の感情/情緒を検出および分析するためのプロセスを含むとよい。これらのプロセスは、本明細書に列挙したプロセスを実行できる任意の既知のAIプリプロセッサを使用して実行されるとよい。例えば、AI翻訳テキストプリプロセッサ136は、辞書検索またはトランスフォーマモデルまたはGANモデルを通じて生成されたIPAまたは同様のシステムに基づく音声分析、感情分析、品詞分析、固有名詞分析、および慣用句検出アルゴリズムを含むとよい。
【0109】
AI翻訳テキストプリプロセッサ136は、翻訳されたトランスクリプション134、および/または、入力され翻訳されたトランスクリプション134のコンピュータ可読表現もしくは入力され翻訳されたトランスクリプション134に関連するデータを受信するように構成されている。いくつかの実施形態では、これらの入力は、SDプロセッサ125および入力トランスクリプション生成器127のために、各音声セグメントに対応するSDデータを含む。いくつかの実施形態では、AI翻訳されたテキストプリプロセッサ136への入力は、入力および/または翻訳されたメタ情報をさらに含む。
【0110】
AI翻訳されたテキストプリプロセッサ136は、音素および/または感情データを、本明細書で説明するタイプなどのコンピュータ可読データとして出力する。また、このデータは、各音声セグメントに対応するSDデータおよび/またはメタ情報と関連付けて出力される。
【0111】
いくつかの実施形態は、AI翻訳されたテキストプリプロセッサ136の出力を、検討および潜在的な修正のためにユーザに提示する。AI翻訳されたテキストプリプロセッサ136が訓練された場合でも、出力がユーザによって改善される可能性がある場合があるとよい。従って、いくつかの実施形態は、変更のために出力をユーザに提示するステップを含む。
【0112】
翻訳された音声プリプロセッサ
本発明のいくつかの実施形態では、翻訳された音声プリプロセッサ142は前処理AIである。AI翻訳された音声プリプロセッサ142は、話者ごとに分割された音声コンテンツを再結合し、背景雑音を除去またはクリーンアップし、音声品質データを向上させるためのプロセスを含むとよい。例えば、AI翻訳された音声プリプロセッサ142は、音声源識別、ノイズ削減、音声復元、および超解像度を含むとよい。
【0113】
AI翻訳された音声プリプロセッサ142は、翻訳された音声140および/または翻訳された音声140のコンピュータ可読表現もしくは翻訳された音声140に関連付けられたデータを受信するように構成されている。いくつかの実施形態では、これらの入力は、各音声セグメントに対応するSDデータおよびメタ情報を含む。同様に、また、出力は、各音声セグメントに対応するSDデータとメタ情報を含むとよい。さらに、入力データおよび出力データは、本明細書で説明するタイプなどのような任意のコンピュータ可読フォーマットであってもよい。
【0114】
いくつかの実施形態は、AI翻訳された音声プリプロセッサ142の出力を、検討および潜在的な修正のためにユーザに提示する。AI翻訳された音声プリプロセッサ142が訓練された場合でも、出力がユーザによって改善される場合があるとよい。従って、いくつかの実施形態は、変更のために出力をユーザに提示するステップを含む。
【0115】
上記の様々な前処理AIの出力は、軌跡分析(例:顔、トリミング、整列、個別のアイデンティティ、タイムコード、位置)、アイデンティティ特性(例:年齢、人種、性別など)、音声分析(例:声、タイムコードのトリミング、正規化された音量、ノイズ削減、個別のアイデンティティ)、音声の特性(例:感情、口調、ペースなど)、話者ダイアライゼーション(例:整列されたテキスト-「誰がいつ何を話しているか」と音素分析)、テキストの特徴(例:話者ダイアライゼーションの結果に一致した感情分析)を含む。これらの出力は、以下で説明するAIジェネレータに直接供給される。次に、AIジェネレータが新しい(つまり、翻訳された)テキスト、音声、およびビデオを生成する。声は元の話者のように聞こえ、ビデオは話者の唇が音声と一致するように操作される。
【0116】
入力トランスクリプションジェネレータ
本発明のいくつかの実施形態では、入力トランスクリプションジェネレータ127はAIジェネレータである。AI入力トランスクリプション生成器127は、SDデータ出力を受信し、入力トランスクリプションを合成的に生成するように構成されている。また、いくつかの実施形態では、元の未処理の入力ビデオ104および/または入力音声106は、入力トランスクリプション生成器127に提供される。また、いくつかの実施形態では、ビデオプリプロセッサ124および/または音声プリプロセッサ126からの出力は、入力トランスクリプション生成器127に提供される。さらに、いくつかの実施形態は、入力言語110を入力トランスクリプション生成器127に提供する。
【0117】
前に説明したように、SDデータのいくつかの実施形態は、話者識別情報を有するセグメント化された音声(「音声セグメント」)を含む。従って、AI入力トランスクリプション生成器127の実施形態は、音声部分の音声セグメントを入力トランスクリプションに変換する。より具体的には、AI入力トランスクリプション生成器127は、話された単語のみから、口の動き、音素、タイムスタンプ、および他の同様の説明に関する非常に詳細なデータに至るまで、あらゆるものを含むトランスクリプションを合成的に生成する。多くの場合、入力トランスクリプション108は、話されている言語、名前/固有名詞の識別、感情分析、単語および/または音節のタイムスタンプ/時間インデックス、および/または音声で話している別個の主題ごとのタイムスタンプを伴う音素を含む。いくつかの実施形態では、AI入力トランスクリプション生成器127は、入力を受信し、本明細書に記載されるようなコンピュータ可読フォーマットで出力を生成するように構成される。
【0118】
AI入力トランスクリプション生成器127は、SDからの結果を解釈および統合して、システムの残りのコンポーネントによって使用可能なフォーマットをエクスポートする非AIベースのアルゴリズムを含むとよい。いくつかの実施形態では、AI入力トランスクリプション生成器127は、訓練されたAIジェネレータである。いくつかの実施形態では、AI入力トランスクリプション生成器127は、結果を改善するために、音声および/または前処理されたビデオ情報(例えば、切り取られた顔、口の動きの検出など)に基づいてトレーニングされる。音声情報はイントネーションと意味を伝える。従って、訓練されたAI入力トランスクリプション生成器127(教師なしまたは半教師ありの方法で)は、文字通りの意味を超えてトランスクリプション結果を改善することになる。音声を供給することは、音声に含まれる皮肉、ユーモア、慣用句、その他の情報に対してトランスクリプションを不変にさせる。
【0119】
ビデオ情報は、その他の感情情報を含むとよい。従って、同様の教師なしまたは半教師ありの方法でビデオ情報に関してAI入力トランスクリプション生成器127を訓練することは、トランスクリプション翻訳結果をさらに改善させる。
【0120】
AI入力トランスクリプション生成器127のいくつかの実施形態は、異なる言語からのIPA文字の識別および生成、および音声および/またはビデオ入力からのペーシングについてさらに訓練される。IPA文字およびペーシングを識別および生成することに関してAI入力トランスクリプション生成器127を訓練することによって、AI入力トランスクリプション生成器127は、ある言語からの入力を、入力音声のペーシングと一致するIPAsのトランスクリプションに変換する能力を開発する。IPAsを使用することで、システムは様々な単語の代替翻訳を生成し、ペーシングの観点から翻訳が同期できることを確実にする。これに対し、ある言語から別の言語に直接翻訳すると、多くの場合、間隔が不一致になり、最終的に翻訳された音声が入力音声のペースと一致しなくなる。さらに下流に進むと、翻訳された音声が唇の動きのペースと一致しないため、システムは話者の唇を同期できなくなる。
【0121】
トランスクリプションおよびメタ翻訳ジェネレータ
本発明のいくつかの実施形態では、トランスクリプションおよびメタ翻訳(TMT)ジェネレータ132はAIジェネレータである。AI TMTジェネレータ132は、1つ以上の入力から翻訳されたトランスクリプションおよび翻訳されたメタ情報を生成するように構成されている。AI TMTジェネレータ132は、1つ以上の入力から翻訳されたトランスクリプションおよび翻訳されたメタ情報を生成するように構成された任意のAIジェネレータであるとよい。非限定的な例は、ペーシング、音素、メタ、およびその他の情報を統合するように変更された BERT/GPT3などのトランスフォーマー ベースのモデル、GANベースのモデル、および、ペーシング、音素、メタ、その他の情報を統合する別のAIベースの翻訳モデルを含む。
【0122】
いくつかの実施形態では、入力は、入力トランスクリプション108(未処理、またはテキストプリプロセッサ128を使用して前処理された)、入力言語110、出力言語112、および入力メタ情報131のみを含む。いくつかの実施形態では、これらの入力は、IPA表音文字のペーシング情報を含む。AI TMTジェネレータ132を使用することは、IPA音声に一致するだけでなく、IPA音声に関連付けられたペーシングおよびタイムコードにも一致する翻訳された言葉の合成生成が可能になる。厳密な翻訳はペーシングエラーを含むが、合成生成された翻訳はこれらのエラーを回避できる。
【0123】
いくつかの実施形態では、入力は、入力ビデオ104、音声入力106、ビデオプリプロセッサ124からの出力、および/または音声プリプロセッサ126からの出力も含む。いくつかの実施形態は、翻訳されたトランスクリプション134を生成するために、入力トランスクリプション108(未処理または前処理済み)および入力言語110および出力言語112のみをAI TMT生成器132に送信する。いくつかの実施形態は、翻訳されたトランスクリプション134を生成するために、少なくとも入力トランスクリプション108(未処理または前処理された)ならびに入力言語110および出力言語112をAI TMTジェネレータ132に送信する。
【0124】
入力メタ情報131を含めることにより、AI TMTジェネレータ132が、入力メタ情報131を通じて識別される様々な音声特徴を有する翻訳されたトランスクリプション134および翻訳されたメタ情報135を生成することができる。このような特徴には、皮肉、ユーモア、音素、音素に一致するペーシングなどが含まれるが、これらに限定されない。入力音声106および/または音声プリプロセッサ126の出力をAI TMT生成器132に供給することにより、音声内に含まれる皮肉、ユーモア、慣用句、およびその他の情報に対してトランスクリプションを不変にさせる。入力ビデオ104および/またはビデオプリプロセッサ124からのビデオ情報は、AI TMT生成器132への入力として提供されてもよく、これは、他の感情情報を含むことができ、翻訳されたトランスクリプション134および翻訳されたメタ情報135をさらに改善することができる。
【0125】
いくつかの入力メディア102では、入力音声106で複数の言語が話される場合がある(例えば、英語とスペイン語)。この情報は多くの場合、入力トランスクリプション108内にある。複数の入力言語110を翻訳する場合、AI TMTジェネレータ132は、入力言語ごとに特定の出力言語112が提供される(例えば、英語からドイツ語、スペイン語からドイツ語、または英語からドイツ語、スペイン語からフランス語)。
【0126】
AI TMT生成器132のいくつかの実施形態は、上述の1つ以上の入力を有するデータに基づいてトレーニングされる。いくつかの実施形態では、AI TMT生成器132は、結果を改善するために、音声および/または前処理されたビデオ情報(例えば、切り取られた顔、口の動きの検出など)に基づいてトレーニングされる。音声情報はイントネーションと意味を伝える。従って、訓練されたAI TMTジェネレータ132(教師なしまたは半教師ありの方法で)は、文字通りの意味を超えてトランスクリプション結果を改善することになる。音声を供給することは、音声に含まれる皮肉、ユーモア、慣用句、その他の情報に対してトランスクリプションを不変にさせる。
【0127】
ビデオ情報は、同様の教師なしまたは半教師ありの方法でトレーニング中にAI TMTジェネレータ132に供給される他の感情情報を含むとよく、これはトランスクリプション翻訳結果をさらに改善させる。また、AI TMTジェネレータ132は、音声プリプロセッサに供給されるビデオプリプロセッサ出力を使用してトレーニングされるとよい。
【0128】
いくつかの実施形態では、AI TMTジェネレータ132を、ユーザによって直接更新することができる。例えば、ユーザは文字通り翻訳を修正することで、テキスト翻訳自体を編集できる。そして、それらの翻訳はAIによって音素に変換される。
【0129】
音声翻訳ジェネレータ
本発明のいくつかの実施形態では、音声翻訳ジェネレータ138はAIジェネレータである。AI音声翻訳ジェネレータ138は、1つ以上の入力から翻訳された音声を生成するように構成されている。AI音声翻訳ジェネレータ138は、本明細書で説明される1つ以上の入力から翻訳された音声を生成するように構成された任意のAIジェネレータであるとよい。非限定的な例は、クラウドTTSシステム、カスタム クラウドTTSシステム、第三者のオンデバイスTTSシステム、カスタム オンデバイスTTSシステムTacoTron2ベースのメソッド、MelGAN、Seq2SeqまたはWav2Wavベースのメソッド、Voice-Cloningベースのメソッド、FastSpeech2などの非自己回帰ベースのメソッドを含む。
【0130】
いくつかの実施形態では、AI音声翻訳ジェネレータ138の入力は、出力言語112および翻訳されたトランスクリプション134、および/または翻訳されたテキストプリプロセッサ136からの出力を含む。いくつかの実施形態は、AI音声翻訳ジェネレータ138への入力として、入力メタ情報131および/または翻訳されたメタ情報135をさらに含む。
【0131】
音声翻訳ジェネレータ138への入力は、入力言語110、入力メディア102、ビデオプリプロセッサ124および音声プリプロセッサ126からの出力、入力トランスクリプション108、および/またはテキストプリプロセッサ128からの出力をさらに含むことができる。
【0132】
AI音声翻訳ジェネレータ138のいくつかの実施形態は、翻訳された音声を生成するために、翻訳されたトランスクリプション134、翻訳されたメタ情報135、および出力言語112のみを必要とする。いくつかの実施形態は、翻訳された音声140を生成するために、入力音声106(前処理済みおよび/または未処理)および出力言語112のみが必要である。
【0133】
AI音声翻訳ジェネレータ138のいくつかの実施形態は、上述の1つ以上の入力を有するデータに基づいてトレーニングされる。いくつかの実施形態では、AI音声翻訳ジェネレータ138は、出力を向上させる、前述のジェネレータと一般的に同じ種類の情報に基づいてトレーニングされる。例えば、ビデオおよび/または音声情報を追加することは、音声の特徴、感情、話者の身元、音声の特徴、性別、年齢などを組み込むことで翻訳結果を向上させる。従って、トレーニングにより、結果として得られる翻訳された音声140は、TTSで通常提供されるものよりもはるかに多くの情報を含む。例えば、翻訳された音声140は、話された言葉、感情、ペース、ポーズ、トーン、韻律、強さ、ストレス、声の同一性などと一致する。
【0134】
AI音声翻訳ジェネレータ138のいくつかの実施形態は、2段階GANに基づいている。最初の段階は、感情やその他のメタ情報をトレーニングと推論に統合するために、独自のエンコーダーおよびデコーダー構造を備えた従来のGANである。感情とメタ特性を認識して生成する方法を学習するために、これらの複数の追加のエンコーダーとデコーダーを提供する。従って、このAI音声翻訳ジェネレータ138のトレーニングには、生成された感情およびメタ特性とトレーニングデータとの間の損失またはエラーを検出するように構成された追加の固有の損失関数がさらに含まれる。
【0135】
第2ステージのGANも同様に設計されているが、第1ステージのジェネレータからの出力を第2ステージのジェネレータへの入力として受け入れる。この方法で GANsを階層化すると、生成される出力のリアリズムが向上し、その結果、ジェネレータが現実的な合成翻訳を生成する能力も向上する。
【0136】
いくつかの実施形態では、音声の前処理から得られる、性別、年齢、感情特性などの音声特性、「ワンショット」アプローチを使用すること、および/または、インスタンスの正規化の有無にかかわらず、話者、コンテンツ、および/または感情表現を解きほぐすことによって、AI音声翻訳ジェネレータ138は、グローバルスタイルトークンに対してトレーニング/推論を実行する。
【0137】
ビデオ同期ジェネレータ
本発明のいくつかの実施形態では、ビデオ同期ジェネレータ144はAIジェネレータである。AIビデオ同期ジェネレータ144は、1つ以上の入力から翻訳された音声を生成するように構成されている。AIビデオ同期ジェネレータ144は、本明細書で説明される1つ以上の入力から翻訳された音声を入力ビデオと同期するように構成された任意のAIジェネレータであるとよい。非限定的な例には、Wav2Lip、PC-AVS、NPFAP、HeadNeRF、FaceFormer、およびLipSync3dが含まれる。
【0138】
いくつかの実施形態では、AIビデオ同期ジェネレータ144は、入力ビデオ104、ビデオプリプロセッサ124からの出力、および翻訳された音声140から同期ビデオを生成するように構成される。いくつかの実施形態は、同期ビデオ146を生成するために、翻訳された音声140、ビデオプリプロセッサ124からの出力、および入力ビデオ104のみを必要とする。AIビデオ同期ジェネレータ144のいくつかの実施形態は、入力言語110、ビデオプリプロセッサ124からの出力、入力音声106、音声プリプロセッサ126からの出力、入力トランスクリプション108、テキストプリプロセッサ128からの出力、入力メタ情報131、翻訳されたトランスクリプション134、翻訳されたテキストプリプロセッサ136からの出力、翻訳されたメタ情報135、および/または翻訳された音声プリプロセッサ142からの出力を受信するように構成されている。
【0139】
ジェネレータアーキテクチャ、トレーニングおよび推論のためのGANのアーキテクチャ、およびトレーニングに関して、AIビデオ同期ジェネレータ144は、AI音声翻訳ジェネレータ138と実質的に同じである。しかしながら、AIビデオ同期ジェネレータ144は、上述した入力の1つ以上の組み合わせから同期ビデオ146を生成するように訓練され、構成される。
【0140】
さらに、AIビデオ同期ジェネレータ144は、再訓練された「Wav2Lip」GANに基づくことができる。複数のプログレッシブGANを含んでもよく、および/または、オプティカルフローネットワーク/オプティカルフロー損失の考慮事項を含んでもよい。
【0141】
AIビデオ同期ジェネレータ144はまた、境界ボックスまたは顔のランドマーク、口/唇のランドマークに基づいて、翻訳されたビデオを元のビデオに再結合するためのAIを含むとよい。それは、元のビデオの光学パラメータ(例えば、プロのビデオミキシング、ビデオカラーリングなど)と、元のビデオ入力の監視されていない暗黙の「特性」とを自動的に一致させるとよい。
【0142】
いくつかの場合では、MelSpectogramを未処理の音声波形に変換するためにカスタムGANによってトレーニングされた追加の第2段階ジェネレータ(MelGan、WaveGAN、WaveGlow、VoiceFixer など)を使用して、AIビデオ同期ジェネレータ144(第1段階のGANとして機能する)からのアーティファクトと低解像度を改善する。この第2段階のジェネレータは、アーティファクトと低解像度を改善するために、第2段階の方法でサイクル再構成データに基づいてトレーニングされるとよい。
【0143】
AIビデオ同期ジェネレータ144のいくつかの実施形態は、同期されたビデオの品質を高めるための第2段階のジェネレータを含む。第2段階のジェネレータは、強化されたビデオを生成するために、入力ビデオ104および同期ビデオ146のみを必要とする。強化には、最大ビデオサイズの増加、アーティファクト(例えば、GANsの古典的なアーティファクトおよびAIビデオ同期ジェネレータ144に特有の他のアーティファクト)の低減、およびリアリズムの強化が含まれるが、これらに限定されない。例えば、第2段階のジェネレータはビデオのサイズを(例:96、256、512)からより大きなサイズ(例:それぞれ256、512、1024、最大2048)に増やすことができ、これにより、ビデオ品質ジェネレータからの出力が元のビデオに再挿入されるため、4K品質のビデオを効果的に生成できる。元のビデオは3840×2160以上であるとよいが、一方、顔軌跡ビデオのサイズは512~2048であるとよい。
【0144】
第2段階のジェネレータは、教師あり、教師なし、または半教師ありでトレーニングされたGANベースのネットワークによって実現されるとよい。それは、グローバルスタイルトークンを含むとよく、カスタムの独自データで再トレーニングされた「FewshotVid2Vid」、「Pix2PixHD」、「GFPGAN」、「Pix2Style2Pix」または「Vid2VidHD」モデルに基づくとよく、プログレッシブGANsを含むとよく、および/または、オプティカルフローネットワーク/オプティカルフロー損失を含むとよい。
【0145】
典型的な実例
実施例1.1が
図9に示されている。そこに示されているように、既存のメディア ファイル(つまり、音声/ビデオ コンテンツ)がコンピュータデバイスを通じて送信され、入力メディア102になります。メディアファイルは音声チャネルを含まなければならない。ただし、メディアファイルはデバイス(スマートフォンアプリ、デスクトップ アプリ、ウェブアプリなど)に記録されることが可能であり、アップロードされることが可能である。デバイス(スマートフォンアプリ、デスクトップアプリ、ウェブアプリなど)からアップロードされ、または共有クラウド データリンク(例:Google Drive、Dropbox、AWSなど)を通じて送信される。
【0146】
トランスクリプション108は、本明細書で説明されるように、入力音声106から取得される。トランスクリプション108を取得するには、入力音声106および入力言語110のみが必要である。いくつかの実施形態は、トランスクリプションを取得するために第三者のクラウドベースのサービス(例えば、Google、AWSなど)を使用する。また、カスタムのクラウドベースの技術を使用して、機械学習ライブラリ(Pytorch、Tensorflow、Caffeなど)で記述されたトランスクリプションを取得する。また、組み込みのオンデバイス サービスを使用してトランスクリプション(Siriなど)を取得する。また、カスタムのオンデバイス サービスを使用して、エッジ言語(CoreML、TFLiteなど)で書かれたトランスクリプションを取得する。前に説明したように、トランスクリプション108は、多くの場合、話している各人によって指定された、各オブジェクト(単語/音節/音素)のタイムスタンプを有する単語および/または音節および/または音素の辞書を含む。
【0147】
ユーザは、元のまたは翻訳された購読のトランスクリプション108を更新するとよい。ユーザは、元の言語でのトランスクリプションを修正することができ、および/または、スラングや固有名詞などに関するより詳細な情報を追加することができ、その結果、元の言語および/または翻訳された言語での結果を改善できる。
【0148】
テキストプリプロセッサ136は、翻訳されたテキスト136のタイムスタンプを調整して、音声翻訳ジェネレータ138が翻訳された音声のタイミングを元の音声と同期させるのを助ける。
【0149】
ビデオプリプロセッサ124は、顔認識およびすべての顔の位置合わせを実行して、入力ビデオ104内の顔の「軌跡」を見つけてトリミングする。これは、クラウドまたはオンデバイスで行われるとよい。
【0150】
次に、音声翻訳ジェネレータ138は、翻訳された音声140を生成するために、翻訳されたトランスクリプション134(出力言語112を含む)のみを入力として受け取る。音声翻訳ジェネレータ138は、タイムスタンプ情報を使用して、音声生成入力を適切なサイズのセグメント(例えば、~1.0秒~30.0秒)に分割し、翻訳された音声140を入力音声106と同期させるとよい。音声翻訳ジェネレータ138は、長い形式のコンテンツ(>120.0秒)の音声翻訳生成を処理するために、情報をセグメント(例えば、~1.0秒~30.0秒)に分割してもよい。
【0151】
音声生成は、Google、AWS、Appleなどの第三者 TTSプロバイダーを通じて、または、例えばTacoTron2、MelloTron、FlowTronなど(クラウドまたはオンデバイスのいずれか)からインスピレーションを得たカスタムTTS実装を通じて行うことができます。
【0152】
音声翻訳ジェネレータ138からの出力は、元の音声と同じ長さを有する翻訳された音声ファイル140である。翻訳された音声ファイル140は、元の音声からの背景/周囲雑音データを含むとよく、元の音声から声データ/音響を削除した翻訳音声データ/音声を含むとよい。また、翻訳された声データ/音声は、元の音声の話されている要素と時間的に厳密に一致する。
【0153】
ビデオ同期ジェネレータ144は、翻訳されたビデオ146を生成するために、翻訳された音声140、前処理されたビデオ、および入力ビデオ104を入力として受け取る。ビデオ同期ジェネレータ144は、カスタムデータセットで訓練されたWav2Lipモデル、またはWav2Lipに触発されたモデルを使用するとよいが、追加のデータ増強および訓練中の「ブラックアウト」セクションの変更を伴うカスタムデータセットで訓練されたモデルを使用してもよい。ビデオ同期ジェネレータ144は、生成された出力を元のビデオに挿入するためのポストプロセッサ(非「二次ステージ」)を含むとよく、それは元の顔ランドマーク/口ランドマークに基づくマスキングを含むとよい。
【0154】
実施例1.2は、
図10に示されるようなエンドツーエンドの翻訳デバイスである。この実施例には、出力を改善する第2段階のビデオ品質ジェネレータをさらに含む。このジェネレータは、Wav2Lipからインスピレーションを得たカスタムモデルからのサイクル再構成データセットからのペアデータでトレーニングされるとよく、または、FewShotVid2Vid ネットワークに基づいてトレーニングされるとよい。
【0155】
実施例1.3は、
図11に示されるようなエンドツーエンドの翻訳デバイスである。この実施例は、入力音声106を音声翻訳ジェネレータ138に入力して、元の話者の声の特徴、アイデンティティ、感情などと一致する音声翻訳を作成することをさらに含む。音声翻訳ジェネレータ138は、カスタムデータに基づいて訓練された適応音声変換ネットワークに触発されたカスタムモデルを用いて教師なし方式で実施されるとよい。さらに、音声翻訳ジェネレータ138は、第2段階の品質向上ポストプロセッサとして、サイクル再構成データに基づいてトレーニングされ、カスタムトレーニングされたWaveGlowネットワークを含むとよい。音声翻訳ジェネレータ138は、入力音声106からの音声特性、アイデンティティ、感情などを実施例1.1からの音声翻訳出力に適用するとよい。
【0156】
実施例1.4は、
図12に示されるようなエンドツーエンド翻訳デバイスである。実施例1.4は、音声プリプロセッサ126を含み、この音声プリプロセッサ126は背景雑音分離、話者ダイアライゼーション、および/またはセマンティックセグメンテーションを含むとよい。音声プリプロセッサ126からの出力は、トランスクリプション結果の品質および精度を向上させ、音声翻訳の品質および精度を向上させるために使用されるとよい。
【0157】
実施例1.5は、
図13に示されるようなエンドツーエンドの翻訳デバイスである。実施例1.5は、前処理された音声入力をトランスクリプションおよびメタ翻訳ジェネレータ132に提供することを含む。このアプローチは、トランスクリプション翻訳の品質と精度を向上させようとカスタムGANネットワークまたはTransformerネットワークをトレーニングするために使用されるとよい。また、このアプローチは、元の音声入力に基づいて、翻訳結果が皮肉、ユーモア、慣用句などを認識できるようにするとよい。また、品質と精度を向上させるために、トランスクリプション翻訳ジェネレータのより高度な教師なしおよび半教師ありトレーニングを可能にするとよく、また、トレーニング(例: フューショットおよびワンショット ネットワーク)中に頻繁にまたはまったく見られない言語でのトランスクリプション結果を可能にするとよい。
【0158】
いくつかの実施形態では、本発明は、リアルタイム結果またはリアルタイムに近い結果を提供する拡張現実(AR)トランスレータである。ARトランスレータは、事前に録音されたコンテンツおよびライブ音声または音声/ビデオチャットで、すべての言語にわたるシームレスなコミュニケーションを可能にする。
【0159】
ハードウェアとソフトウェアのインフラストラクチャの例
本発明は、ソフトウェアベースの命令に応答してアクションを実行する様々なコンピューティングシステムおよび/またはプラットフォーム上で実施されるとよい。以下は、本発明を可能にするために利用されるとよい情報技術の先行基礎を提供する。
【0160】
以下の特許請求の範囲に記載されるコンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であるとよい。コンピュータ可読記憶媒体は、例えば、電子、磁気、光学、電磁、赤外線、または半導体システム、装置、またはデバイス、あるいはそれらの任意の適切な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能な記憶媒体のより具体的な例(すべてではないリスト)は、次のようなものを含む。1本以上のワイヤを備えた電気接続、ポータブル コンピュータ ディスケット、ハードディスク、ランダム アクセス メモリ(RAM)、読み取り専用メモリ(ROM)、消去可能なプログラマブル読み取り専用メモリ(EPROMまたはフラッシュ メモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせが挙げられる。この文書の文脈において、コンピュータ可読記憶媒体は、命令実行システム、装置、またはデバイスによって使用される、またはそれらに関連して使用されるプログラムを含む、または記憶できる任意の非一時的有形媒体であるとよい。
【0161】
コンピュータ可読信号媒体は、例えばベースバンドまたは搬送波の一部として、その中に組み込まれたコンピュータ可読プログラムコードを有する伝播データ信号を含むとよい。このような伝播信号は、電磁気、光、またはそれらの任意の適切な組み合わせを含むが、これらに限定されない、様々な形態のうちのいずれかを取るとよい。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体ではなく、命令実行システム、装置、またはデバイスによって、またはそれらに関連して使用するためのプログラムを通信、伝播、または移送できる任意のコンピュータ可読媒体であるとよい。
【0162】
コンピュータ可読媒体上に具現化されたプログラムコードは、無線、有線、光ファイバケーブル、無線周波数など、またはそれらの任意の適切な組み合わせを含むが、これらに限定されない任意の適切な媒体を使用して送信されるとよい。本発明の態様の動作を実行するためのコンピュータプログラムコードは、Java、C#、C++、Visual Basicなどのオブジェクト指向プログラミング言語、および「C」プログラミング言語または類似のプログラミング言語などの従来の手続き型プログラミング言語を含む、1つ以上のプログラミング言語の任意の組み合わせで記述されるとよい。
【0163】
本発明の態様は、本発明の実施形態による方法、装置(システム)、およびコンピュータプログラム製品のフローチャート図および/またはブロック図を参照して説明されるとよい。フローチャート図および/またはブロック図の各ブロック、およびフローチャート図および/またはブロック図のブロックの組み合わせを、コンピュータプログラム命令によって実施できることは理解されるだろう。これらのコンピュータプログラム命令は、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサに提供されて、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令が、フローチャートおよび/またはブロック図またはブロックで指定された機能/動作を実施するための手段を作製するような機械を生産するとよい。
【0164】
これらのコンピュータプログラム命令は、コンピュータ、他のプログラム可能なデータ処理装置、または他のデバイスを特定の方法で機能させることができるコンピュータ可読媒体に格納されてもよく、その結果、フローチャートおよび/またはブロック図のブロック又はブロックで指定された機能/動作を実施する命令を含む、コンピュータ可読媒体に格納された命令は、製品を生産する。
【0165】
コンピュータプログラム命令は、コンピュータ、他のプログラム可能なデータ処理装置、または他の装置にロードされて、一連の動作ステップをコンピュータ、他のプログラム可能な装置、または他の装置上で実行させることもでき、コンピュータまたは他のプログラム可能な装置上で実行される命令が、フローチャートおよび/またはブロック図のブロックで指定された機能/動作を実装するためのプロセスを提供するように、コンピュータ実装プロセスを生成する。
【0166】
上述の利点、および前述の説明から明らかな利点は、効率的に達成される。本発明の範囲から逸脱することなく上記の構成に特定の変更を加えることができるため、上記の説明に含まれる、または添付の図面に示されるすべての事項は、限定的な意味ではなく例示として解釈されることが意図される。
【0167】
また、以下の特許請求の範囲は、本明細書に記載された本発明の一般的および特定の特徴のすべてを網羅することを意図しており、言葉遣い上、それらの間にあると言える本発明の範囲のすべての記述を網羅することを意図していることも理解される。
【国際調査報告】