(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-06-18
(54)【発明の名称】テキスト転写を伴わない全体的な韻律スタイルの変換
(51)【国際特許分類】
G10L 13/10 20130101AFI20240611BHJP
【FI】
G10L13/10 112Z
G10L13/10 111A
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023562622
(86)(22)【出願日】2022-05-24
(85)【翻訳文提出日】2023-10-11
(86)【国際出願番号】 EP2022064101
(87)【国際公開番号】W WO2022253647
(87)【国際公開日】2022-12-08
(32)【優先日】2021-06-03
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【氏名又は名称】片岡 忠彦
(74)【復代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】チアン、カイジ
(72)【発明者】
【氏名】ジャン、ヤン
(72)【発明者】
【氏名】チャン、シユ
(72)【発明者】
【氏名】シオン、ジンジュン
(72)【発明者】
【氏名】ガン、チュアン
(72)【発明者】
【氏名】コックス、デイヴィッド
(57)【要約】
音声による自然言語における韻律のもつれを解くための機械学習モデルを使用する、コンピュータ実装方法が提供される。方法は、内容コードを生成するために、コンピューティングデバイスによって、音声による自然言語をエンコードすることを含む。方法はさらに、韻律が曖昧な内容コードを生成するために、機械学習モデルに教師なし技術を適用することによって、テキスト転写を伴わずにコンピューティングデバイスによって、韻律を曖昧にするために内容コードをリサンプルすることを含む。方法はさらに、内容コードに基づいて間接的に音声を合成するために、コンピューティングデバイスによって、韻律が曖昧な内容コードをデコードすることを含む。
【特許請求の範囲】
【請求項1】
音声による自然言語における韻律のもつれを解くために機械学習モデルを使用するコンピュータ実装方法であって、前記コンピュータ実装方法は、
内容コードを生成するために、コンピューティングデバイスによって、前記音声による自然言語をエンコードする段階;
韻律が曖昧な内容コードを生成するために、前記機械学習モデルに教師なし技術を適用することによって、前記コンピューティングデバイスによって、前記韻律を曖昧にするために前記内容コードをテキスト転写を伴わずにリサンプルする段階;及び
前記内容コードに基づいて間接的に音声を合成するために、前記コンピューティングデバイスによって、前記韻律が曖昧な内容コードをデコードする段階
を備えるコンピュータ実装方法。
【請求項2】
韻律が、前記音声による自然言語のリズム及びピッチを伝える、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記エンコードする段階は、前記コンピューティングデバイスのエンコーダによって実行され、前記リサンプルする段階は、前記コンピューティングデバイスのリサンプラによって実行され、前記デコードする段階は、前記コンピューティングデバイスのデコーダによって実行される、請求項1に記載のコンピュータ実装方法。
【請求項4】
前記内容コードは、類似性に基づくランダムリサンプリング技術を使用してリサンプルされ、閾値を超える類似性を有する内容コードセグメントを等しい長さになるように、類似性に基づくダウンサンプリングを使用して短くされるか、又は、類似性に基づくアップサンプリングを使用して長くされて、前記韻律が曖昧な内容コードを形成する、請求項1に記載のコンピュータ実装方法。
【請求項5】
前記閾値を超える前記類似性は、韻律類似性の閾値である、請求項4に記載のコンピュータ実装方法。
【請求項6】
前記リサンプルする段階は、自己表現の表現学習によって導かれる、請求項1に記載のコンピュータ実装方法。
【請求項7】
複数の韻律成分の中からリズム成分を前記リサンプルする段階によって前記内容コード内で曖昧にし、前記韻律が曖昧な内容コードを生成する、請求項1に記載のコンピュータ実装方法。
【請求項8】
前記韻律が曖昧な内容コードは、対象領域ラベルを使用してデコードされる、請求項1に記載のコンピュータ実装方法。
【請求項9】
前記対象領域ラベルは、少なくとも1つの話者アイデンティティ及び少なくとも1つの感情カテゴリを指定する領域の要約である、請求項8に記載のコンピュータ実装方法。
【請求項10】
前記コンピュータ実装方法は、エンコーディング構成要素、リサンプリング構成要素、及びデコーディング構成要素を有するクラウドベースのサービスとして構成される、請求項1に記載のコンピュータ実装方法。
【請求項11】
前記リサンプルする段階は、前記エンコードする段階を実行するエンコーダが、前記デコードする段階を実行するデコーダと連携してリズム情報を一括してエンコード及びデコードすることを防止する2段階トレーニング技術によって実行される、請求項1に記載のコンピュータ実装方法。
【請求項12】
前記2段階トレーニング技術は、サンプル長アライナを使用してサンプル長を調整し、入力韻律を復元する同期トレーニング部分、及びデコーダが韻律を推測できるようにするために前記サンプル長アライナがない非同期トレーニング部分を備える、請求項11に記載のコンピュータ実装方法。
【請求項13】
音声による自然言語における韻律のもつれを解くために機械学習モデルを使用するためのコンピュータプログラム製品であって、前記コンピュータプログラム製品が、プログラム命令を具現化するコンピュータ可読記憶媒体を備え、前記プログラム命令が、コンピュータに
内容コードを生成するために、前記コンピュータのエンコーダによって、前記音声による自然言語をエンコードさせ;
韻律が曖昧な内容コードを生成するために、前記機械学習モデルに教師なし技術を適用することによって、前記コンピュータのリサンプラによって、前記韻律を曖昧にするために前記内容コードをテキスト転写を伴わずにリサンプルさせ;及び
前記内容コードに基づいて間接的に音声を合成するために、前記コンピュータのデコーダによって、前記韻律が曖昧な内容コードをデコードさせる
ように、前記コンピュータによって実行可能である、コンピュータプログラム製品。
【請求項14】
前記内容コードは、類似性に基づくランダムリサンプリング技術を使用してリサンプルされ、閾値を超える類似性を有する内容コードセグメントを等しい長さになるように、類似性に基づくダウンサンプリングを使用して短くされるか、又は、類似性に基づくアップサンプリングを使用して長くされて、前記韻律が曖昧な内容コードを形成する、請求項13に記載のコンピュータプログラム製品。
【請求項15】
前記リサンプルする段階は、自己表現の表現学習によって導かれる、請求項13に記載のコンピュータプログラム製品。
【請求項16】
前記韻律が曖昧な内容コードは、対象領域ラベルを使用してデコードされる、請求項13に記載のコンピュータプログラム製品。
【請求項17】
前記対象領域ラベルは、少なくとも1つの話者アイデンティティ及び少なくとも1つの感情カテゴリを指定する領域の要約である、請求項16に記載のコンピュータプログラム製品。
【請求項18】
前記リサンプルする段階は、前記エンコードする段階を実行するエンコーダが、前記デコードする段階を実行するデコーダと連携してリズム情報を一括してエンコード及びデコードすることを防止する2段階トレーニング技術によって実行される、請求項13に記載のコンピュータプログラム製品。
【請求項19】
前記2段階トレーニング技術は、サンプル長アライナを使用してサンプル長を調整し、入力韻律を復元する同期トレーニング部分、及びデコーダが韻律を推測できるようにするために前記サンプル長アライナがない非同期トレーニング部分を備える、請求項18に記載のコンピュータプログラム製品。
【請求項20】
プログラムコードを記憶するためのメモリデバイス;及び
内容コードを生成するために、音声による自然言語をエンコードする;
韻律が曖昧な内容コードを生成するために、機械学習モデルに教師なし技術を適用することによって、前記韻律を曖昧にするために前記内容コードをテキスト転写を伴わずにリサンプルする;及び
前記内容コードに基づいて間接的に音声を合成するために、前記韻律が曖昧な内容コードをデコードする
前記プログラムコードを実行するために前記メモリデバイスに動作可能に結合されたプロセッサデバイス
を備える全体的な韻律変換システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般に音声処理に関し、より詳細には、テキスト転写を伴わない全体的な韻律スタイルの変換に関する。
【0002】
韻律は話者又は感情のスタイルを特徴付ける上で重要な役割を果たすが、ほとんどの非並列声又は感情スタイル変換アルゴリズムはいかなる韻律情報も変換しない。韻律の2つの主要な成分はピッチ及びリズムである。リズムは音素継続長の系列を要約し、フレージング、音声速度、休止、及びプロミネンスのいくつかの態様を表現する。ピッチはイントネーションを反映する。韻律情報、特にリズム成分を音声から解きほぐすことは、入力音声及び解きほぐされた音声表現の間の同期を崩すことを伴うため、困難である。結果として、既存の韻律スタイル変換アルゴリズムのほとんどは、内容情報を識別するために何らかの形式のテキスト転写に依存する必要があり、アプリケーションは高リソース言語のみに限定される。高リソース言語は、多くのデータリソースが存在する言語であり、これらの言語用の機械学習ベースのシステムを開発することが可能である。
【0003】
音声スタイルの変換とは、内容を変更せずに、ソース音声を対象領域のスタイルに変換するタスクを指す。例えば、声スタイルの変換では、領域は話者アイデンティティに対応する。感情スタイルの変換では、領域は感情カテゴリに対応する。これらのタスクの両方において、韻律は領域スタイルの重要な部分であると考えられており、例えば、異なる話者又は感情は独特の韻律パターンを有する。しかし、これら2つのアプリケーションの最先端のアルゴリズムのうち、韻律の態様をまったく変換できず、転写が必要なものはほとんどない。
【発明の概要】
【0004】
本発明の態様によれば、音声による自然言語における韻律のもつれを解くための機械学習モデルを使用するコンピュータ実装方法が提供される。方法は、内容コードを生成するために、コンピューティングデバイスによって、音声による自然言語をエンコードすることを含む。方法はさらに、韻律が曖昧な内容コードを生成するために、機械学習モデルに教師なし技術を適用することによって、テキスト転写を伴わずにコンピューティングデバイスによって、韻律を曖昧にするために内容コードをリサンプルすることを含む。方法はさらに、内容コードに基づいて間接的に音声を合成するために、コンピューティングデバイスによって、韻律が曖昧な内容コードをデコードすることを含む。
【0005】
一実施形態では、内容コードは、類似性に基づくランダムリサンプリング技術を使用してリサンプルでき、閾値を超える類似性を有する内容コードセグメントを等しい長さになるように、類似性に基づくダウンサンプリングを使用して短くされるか、又は、類似性に基づくアップサンプリングを使用して長くされて、韻律が曖昧な内容コードを形成する。一実施形態では、閾値を超える類似性は、韻律類似性の閾値であり得る。
【0006】
一実施形態では、リサンプルするステップは、自己表現の表現学習によって導かれ得る。
【0007】
一実施形態では、複数の韻律成分の中からリズム成分をリサンプルするステップによって内容コード内で曖昧にし、韻律が曖昧な内容コードを生成し得る。
【0008】
一実施形態では、韻律が曖昧な内容コードは、対象領域ラベルを使用してデコードできる。一実施形態では、対象領域ラベルは、少なくとも1つの話者アイデンティティ及び少なくとも1つの感情カテゴリを指定する領域の要約であり得る。
【0009】
一実施形態では、リサンプルするステップは、エンコードするステップを実行するエンコーダが、デコーダステップを実行するデコーダと連携してリズム情報を一括してエンコード及びデコードすることを防止する2段階トレーニング技術によって実行できる。一実施形態では、2段階トレーニング技術は、サンプル長アライナを使用してサンプル長を調整し、入力韻律を復元する同期トレーニング部分、及びデコーダが韻律を推測できるようにするためにサンプル長アライナを使用していない非同期トレーニング部分を含み得る。
【0010】
本発明の他の態様によれば、音声による自然言語における韻律のもつれを解くための機械学習モデルを使用するためのコンピュータプログラム製品が提供される。コンピュータプログラム製品は、そのコンピュータプログラム製品で具現化されたプログラム命令を有するコンピュータ可読記憶媒体を含む。プログラム命令は、内容コードを生成するために、コンピュータのエンコーダによってコンピュータに音声による自然言語をエンコードさせるように、コンピュータによって実行可能である。プログラム命令は、韻律が曖昧な内容コードを生成するために、教師なし技術を機械学習モデルに適用することによって、コンピュータに、テキスト転写を伴わずにコンピュータのリサンプラによって、韻律を曖昧にするために内容コードをリサンプルさせるように、コンピュータによって実行可能である。プログラム命令は、内容コードに基づいて間接的に音声を合成させるために、コンピュータに、コンピュータのデコーダによって韻律が曖昧な内容コードをデコードさせるように、コンピュータによって実行可能である。
【0011】
本発明のさらに他の態様によれば、全体的な韻律変換システムが提供される。システムは、プログラムコードを記憶するためのメモリデバイスを含む。システムはさらに、プログラムコードを実行して音声による自然言語をエンコードして内容コードを生成するために、メモリデバイスに動作可能に結合されたプロセッサデバイスを含む。プロセッサデバイスはさらに、韻律が曖昧な内容コードを生成するために、機械学習モデルに教師なし技術を適用することによって、テキスト転写を伴わずに、韻律を曖昧にするために内容コードをリサンプルするように、プログラムコードを実行する。プロセッサデバイスはまた、内容コードに基づいて間接的に音声を合成するために、韻律が曖昧な内容コードをデコードするように、プログラムコードを実行する。
【0012】
これら及び他の特徴及び利点は、添付の図面に関連して読まれる、その例示的な実施形態の以下の詳細な説明から明らかになるであろう。
【図面の簡単な説明】
【0013】
以下の説明は、以下の図を参照して好ましい実施形態の詳細を提供する。
【0014】
【
図1】本発明の実施形態による、例示的なコンピューティングデバイスを示すブロック図である。
【0015】
【
図2】本発明の実施形態による、テキスト転写を伴わない全体的な韻律スタイルの変換のための2段階トレーニングシステムの例示的な第1の段階を示すブロック図である。
【0016】
【
図3】本発明の実施形態による、テキスト転写を伴わない全体的な韻律スタイルの変換のための2段階トレーニングシステムの例示的な第2の段階を示すブロック図である。
【0017】
【
図4】本発明の実施形態による、テキスト転写を伴わない全体的な韻律スタイルの変換のための例示的な方法を示すフロー図である。
【0018】
【
図5】本発明の実施形態による、例示的なダウンサンプリングケースを示すブロック図である。
【0019】
【
図6】本発明の実施形態による、例示的なアップサンプリングケースを示すブロック図である。
【0020】
【
図7】本発明の実施形態による、クラウド消費者によって使用されるローカルコンピューティングデバイスが通信する1つ又は複数のクラウドコンピューティングノードを有する例示的なクラウドコンピューティング環境を示すブロック図である。
【0021】
【
図8】本発明の実施形態による、クラウドコンピューティング環境によって提供される機能的抽象化層のセットを示すブロック図である。
【発明を実施するための形態】
【0022】
本発明の実施形態は、テキスト転写を伴わない全体的な韻律スタイルの変換を対象とする。本発明の実施形態は、テキスト転写に依存することなく、音声から全体的な韻律スタイルを解きほぐすことができる。
【0023】
本発明の実施形態は、自己表現の表現学習によって導かれる徹底的なリズム除去モジュールを備えたオートエンコーダに基づく韻律スタイル変換フレームワークを含むことができる。本発明の実施形態は、リズムを漏らすことなく完全な内容情報を確実に通過させるために、2段階トレーニング戦略を採用する。
【0024】
本発明の実施形態は、韻律スタイルを全体的に変換する。全体的なスタイル変換では、デコーダは、例えば、話者アイデンティティ、感情など、対象韻律の高レベルの要約のみを受信する。韻律の詳細は、そのような話者及び/又は感情のためのデコーダによって推測される。例えば、デコーダは、どの単語を加速、減速、トーンを上げる、又はトーンを下げる、などを決定する。局所韻律変換では、デコーダには対象韻律の詳細が提供され、デコーダは提供された韻律の詳細に正確に従う。並列データセット(すなわち、入力と同じ内容だが韻律が異なる音声発話)又はテキスト注釈なしでは、対象韻律を取得することは困難である。本発明は、局所韻律変換のこれらの欠陥を克服する。
【0025】
本発明の実施形態は、本明細書でさらに詳細に説明するように、韻律と同様に音質スタイルを全体的に変換することもできる。
【0026】
本発明の実施形態は、(1)テキスト注釈を必要としない、及び(2)高レベルの全体的な情報のみを提供する領域の要約(例えば、話者アイデンティティ及び感情カテゴリ)を与えられた韻律スタイルを効果的に変換できる、教師なし音声分解アルゴリズムを提供する。
【0027】
本発明の実施形態は、本明細書で説明されるように、クラウドベースのサービス又はクラウドコンピューティングシステムを使用して韻律スタイルの変換を実行するために使用できる。
【0028】
本発明の実施形態は、多くの異なるタイプの音声アプリケーションに適用できる。いくつかの例示的な音声アプリケーションには、限定されないが、音声分析タスク、声変換、韻律修正、感情音声合成、低ビットレート音声エンコーディング(韻律情報が曖昧であるという点で低ビットレート)における干渉の低減が含まれる。
【0029】
図1は、本発明の実施形態による、例示的なコンピューティングデバイス100を示すブロック図である。コンピューティングデバイス100は、テキスト転写を伴わずに全体的な韻律スタイルの変換を実行するように構成されている。
【0030】
コンピューティングデバイス100は、限定されないが、コンピュータ、サーバ、ラックベースサーバ、ブレードサーバ、ワークステーション、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、タブレットコンピュータ、モバイルコンピューティングデバイス、ウェアラブルコンピューティングデバイス、ネットワークアプライアンス、ウェブアプライアンス、分散型コンピューティングシステム、プロセッサベースシステム、及び/又は家庭用電子デバイスを含む、本明細書に記載の機能を実行できる任意のタイプの計算デバイス又はコンピュータデバイスとして具現化され得る。追加的に又は代替的に、コンピューティングデバイス100は、1つ又は複数のコンピュートスレッド、メモリスレッド、又は他のラック、スレッド、コンピューティングシャーシ、又は物理的に分散されたコンピューティングデバイスの他の構成要素として具現化され得る。
図1に示すように、コンピューティングデバイス100には、プロセッサ110、入力/出力サブシステム120、メモリ130、データ記憶デバイス140、及び通信サブシステム150、及び/又はサーバ又は同様のコンピューティングデバイスで一般的に見られるその他の構成要素及びデバイスが含まれる。もちろん、他の実施形態では、コンピューティングデバイス100には、サーバコンピュータに一般的に見られる構成要素(例えば、様々な入力/出力デバイス)などの他の構成要素又は追加の構成要素が含まれ得る。さらに、いくつかの実施形態では、例示的な構成要素の1つ又は複数は、別の構成要素に組み込まれ得るか、又は、そうでなければ、別の構成要素の一部を形成し得る。例えば、いくつかの実施形態では、メモリ130又はその一部は、プロセッサ110に組み込まれ得る。
【0031】
プロセッサ110は、本明細書に記載の機能を実行できる任意のタイプのプロセッサとして具現化され得る。プロセッサ110は、単一のプロセッサ、複数のプロセッサ、中央処理装置(Central Processing Unit:CPU)、グラフィックス処理装置(Graphics Processing Unit:GPU)、単一又はマルチコアプロセッサ、デジタル信号プロセッサ、マイクロコントローラ、又は他のプロセッサ又は処理/制御回路として具現化され得る。
【0032】
メモリ130は、本明細書に記載の機能を実行できる任意のタイプの揮発性又は不揮発性メモリ又はデータストレージとして具現化され得る。動作中、メモリ130は、オペレーティングシステム、アプリケーション、プログラム、ライブラリ、及びドライバなど、コンピューティングデバイス100の動作中に使用される様々なデータ及びソフトウェアを記憶し得る。メモリ130は、I/Oサブシステム120を介してプロセッサ110に通信可能に結合され、I/Oサブシステム120は、プロセッサ110、メモリ130、及びコンピューティングデバイス100の他の構成要素との入力/出力動作を容易にする回路及び/又は構成要素として具現化され得る。例えば、I/Oサブシステム120は、メモリコントローラハブ、入力/出力制御ハブ、プラットフォームコントローラハブ、統合制御回路、ファームウェアデバイス、通信リンク(例えば、ポイントツーポイントリンク)、バスリンク、電線、ケーブル、光導体、プリント基板トレースなど)及び/又は入力/出力動作を容易にする他の構成要素及びサブシステムとして具現化され得るか、又は、そうでなければ、それらを含み得る。いくつかの実施形態では、I/Oサブシステム120は、システムオンチップ(System-On-a-Chip:SOC)の一部を形成し、プロセッサ110、メモリ130、及びコンピューティングデバイス100の他の構成要素と共に、単一の集積回路チップ上に組み込まれ得る。
【0033】
データ記憶デバイス140は、例えば、メモリデバイス及び回路、メモリカード、ハードディスクドライブ、ソリッドステートドライブ、又は他のデータ記憶デバイスなどのデータの短期又は長期記憶用に構成された任意のタイプの1つ又は複数デバイスとして具現化され得る。データ記憶デバイス140は、テキスト転写を伴わずに全体的な韻律スタイルを変換するためのプログラムコードを記憶できる。コンピューティングデバイス100の通信サブシステム150は、ネットワークを介してコンピューティングデバイス100及び他のリモートデバイスの間の通信を可能にできる、任意のネットワークインターフェースコントローラ、又は他の通信回路、デバイス、又はそれらの集合体として具現化され得る。通信サブシステム150は、そのような通信を行うために、任意の1つ又は複数の通信技術(例えば、有線又は無線通信)及び関連プロトコル(例えば、イーサネット(登録商標)、InfiniBand(登録商標)、Bluetooth(登録商標)、Wi-Fi(登録商標)、WiMAX(登録商標)など)を使用するように構成され得る。
【0034】
図示のように、コンピューティングデバイス100はまた、1つ又は複数の周辺デバイス160を含み得る。周辺デバイス160は、任意の数の追加の入力/出力デバイス、インターフェースデバイス、及び/又は他の周辺デバイスを含み得る。例えば、いくつかの実施形態では、周辺デバイス160は、ディスプレイ、タッチスクリーン、グラフィックス回路、キーボード、マウス、スピーカシステム、マイクロホン、ネットワークインターフェース、及び/又は他の入力/出力デバイス、インターフェースデバイス、及び/又は周辺デバイスを含み得る。
【0035】
もちろん、コンピューティングデバイス100は、当業者によって容易に考えられるように、他の要素(図示せず)を含むこともでき、特定の要素を省略することもできる。例えば、当業者には容易に理解されるように、コンピューティングデバイス100の特定の実装に応じて、他の様々な入力デバイス及び/又は出力デバイスをコンピューティングデバイス100に含めることができる。例えば、様々なタイプの無線及び/又は有線の入力及び/又は出力デバイスを使用できる。さらに、追加のプロセッサ、コントローラ、メモリなどを様々な構成で利用することもできる。さらに、別の実施形態では、クラウド構成を使用できる(例えば、
図6~
図7を参照)。処理システム100のこれら及び他の変形は、本明細書に提供される本発明の教示を考慮すれば、当業者によって容易に考えられる。
【0036】
本明細書で使用されるように、用語「ハードウェアプロセッササブシステム」又は「ハードウェアプロセッサ」は、1つ又は複数の特定のタスクを実行するために協調するプロセッサ、メモリ(RAM、キャッシュなどを含む)、ソフトウェア(メモリ管理ソフトウェアを含む)、又はそれらの組み合わせを指し得る。有用な実施形態では、ハードウェアプロセッササブシステムは、1つ又は複数のデータ処理要素(例えば、論理回路、処理回路、命令実行デバイスなど)を含み得る。1つ又は複数のデータ処理要素は、中央処理装置、グラフィックス処理装置、及び/又は別個のプロセッサベース又は計算要素ベースのコントローラ(例えば、論理ゲートなど)に含み得る。ハードウェアプロセッササブシステムは、1つ又は複数のオンボードメモリ(例えば、キャッシュ、専用メモリアレイ、読み取り専用メモリなど)を含み得る。いくつかの実施形態では、ハードウェアプロセッササブシステムは、オンボード又はオフボードであり得るか、又はハードウェアプロセッササブシステムの使用専用であり得る1つ又は複数のメモリ(例えば、ROM、RAM、基本入力/出力システム(BIOS)など)を含み得る。
【0037】
いくつかの実施形態では、ハードウェアプロセッササブシステムは、1つ又は複数のソフトウェア要素を含み、実行できる。1つ又は複数のソフトウェア要素は、オペレーティングシステム及び/又は1つ又は複数のアプリケーション及び/又は指定された結果を達成するための特定のコードを含み得る。
【0038】
他の実施形態では、ハードウェアプロセッササブシステムは、指定された結果を達成するために1つ又は複数の電子処理機能を実行する専用の特殊な回路を含み得る。そのような回路は、1つ又は複数の特定用途向け集積回路(ASIC)、FPGA、及び/又はPLAを含み得る。
【0039】
ハードウェアプロセッササブシステムのこれら及び他の変形も、本発明の実施形態に従って企図される。
【0040】
以下の
図2及び
図3は、テキスト転写を伴わない全体的な韻律スタイルの変換のための2段階トレーニングシステムの第1の段階200及び第2の段階300を説明する。
【0041】
第1の段階200は、2段階トレーニングシステムの同期トレーニング部分に対応し、第2の段階300は、2段階トレーニングシステムの非同期トレーニング部分に対応する。同期トレーニング部分は、
【数1】
をZ(m)と再調整するために使用される。
【数2】
をZ(m)と再調整することで、(Z'(m))はZ(m)と同期する。再調整により、ランダムなリサンプリングの影響が相殺される。したがって、第1の段階200は同期トレーニングと呼ばれる。再調整は第1の段階の重要な操作である。非同期トレーニング部分は、デコーダを更新するためにのみ使用される。
【0042】
図2は、本発明の実施形態による、テキスト転写を伴わない全体的な韻律スタイルの変換のための2段階トレーニングシステムの例示的な第1の段階200を示すブロック図である。
【0043】
第1の段階200は、エンコーダ210、リサンプラ220、アライナ230、及びデコーダ240を含む。
【0044】
エンコーダ210は、時間tでのメル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficient:MFCC)C(t)の入力を受信し、C(t)をエンコードして、エンコードされた表現Z(t)を出力する。エンコードされた表現Z(t)の構成素は、エンコード後は縦方向に整列することに留意されたい。
【0045】
リサンプラ220は、エンコードされた表現Z(t)を受信し、エンコードされた表現Z(t)をリサンプルして、リサンプルされた表現
【数3】
を出力する。リサンプルされた表現
【数4】
の構成素は、リサンプル後に縦方向に整列していないことに留意されたい。
【0046】
アライナ230は、リサンプルされた表現
【数5】
を受信し、その構成素の長さを調整して、整列された表現
【数6】
を出力する。
【0047】
デコーダ240は、整列された表現Z'(t)を受信し、ドメインID Dに応答して整列された表現Z'(t)をデコードし、合成音声
【数7】
を出力する。
【0048】
図3は、本発明の実施形態による、テキスト転写を伴わない全体的な韻律スタイルの変換のための2段階トレーニングシステムの例示的な第2の段階300を示すブロック図である。
【0049】
第1の段階200は、第1の段階のエンコーダ210、リサンプラ220、及びデコーダ240を含む。
【0050】
エンコーダ210は、パラメータが第2の段階300で凍結されており、時間tでのメル周波数ケプストラム係数(MFCC)C(t)の入力を受信し、C(t)をエンコードしてエンコードされた表現Z(t)を出力する。エンコードされた表現Z(t)の構成素は、エンコード後は縦方向に整列していないことに留意されたい。エンコード後のZ(t)は、依然として入力と一致している。リサンプルすることのみが整列を変更する。
図2及び
図3の主な違いは、
図3にはアライナ230がないことである。
図2では、アライナ230は入力韻律を復元し、その結果、デコーダ240は現時点では、韻律の再構築に集中する必要がない。
図3では、アライナ230がない場合、デコーダ240は、リサンプルされた内容コード及びドメインIDから韻律を推測する方法を学習する必要がある。この段階300は、デコーダ240が実際に韻律を推測することを学習する段階である。第1の段階200は、非韻律成分を再構築する方法を学習することによってデコーダ240を準備する。
【0051】
リサンプラ220は、エンコードされた表現Z(t)を受信し、エンコードされた表現をリサンプルして、リサンプルされた表現
【数8】
を出力する。リサンプルすると長さが変わるため、リサンプルされた表現
【数9】
の構成素は、リサンプル後に縦方向に整列していないことに留意されたい。
【0052】
デコーダ240は、リサンプルされた表現
【数10】
を受信し、ドメインID Dに応答してリサンプルされた表現
【数11】
をデコードし、合成音声
【数12】
を出力する。
【0053】
図4は、本発明の実施形態による、テキスト転写を伴わない全体的な韻律スタイルの変換のための例示的な方法400を示すフロー図である。
【0054】
ブロック410で、音声による自然言語をエンコードして内容コードを生成する。
【0055】
ブロック420で、韻律が曖昧な内容コードを生成するために、機械学習モデルに教師なし技術を適用することによって、韻律を曖昧にするために内容コードをリサンプルする。教師なしの方法を使用すると、テキスト転写の欠如をもたらすことに留意されたい。
【0056】
ブロック430で、テキスト転写を伴わず、韻律が曖昧な内容コードをデコードし、内容コードに基づいて間接的に音声を合成する。一実施形態では、韻律が曖昧な内容コードは、対象領域ラベルを使用してデコードできる。一実施形態では、対象領域ラベルは、少なくとも1つの話者アイデンティティ及び少なくとも1つの感情カテゴリを指定する領域の要約であり得る。
【0057】
再構築のプロセスは次の通りである。
【数13】
ここで、Encはエンコーダを示し、Resはリサンプラを示し、Decはデコーダを示す。
【0058】
図5は、本発明の実施形態による、例示的なダウンサンプリングケース500を示すブロック図である。
図6は、本発明の実施形態による、例示的なアップサンプリングケース600を示すブロック図である。
【0059】
リサンプラ220(左)及びアライナ230(右)が
図5及び
図6に示されている。
図5及び
図6の合流矢印は平均プーリングを示す。
図5及び
図6の分割矢印は、入力を複数の複製にコピーすることを示している。各ブロックの網掛けは、表現間の類似性を示している。
図5に関して、
【数14】
の場合、系列は類似性に基づいてセグメント化され、各セグメントは平均プーリングによって1つのコードにマージされる。
図6に関して、
【数15】
の場合、各セグメントには1つのコードのみが含まれる。さらに、時系列間の類似性が高い場所には空セグメントが挿入され、その対応する出力位置には以前のコードを複製する。
類似性に基づくダウンサンプリング
【0060】
本発明のリサンプリング方式は、音声内の比較的安定したセグメントがより柔軟な持続時間を有する傾向があるという観察を利用する。
【0061】
したがって、本発明は、自己表現型オートエンコーダ(Self-Expressive Autoencoder:SEA)アルゴリズムを類似性に基づくダウンサンプリング方式に変更する。SEAは、類似するフレーム間の高いコサイン類似性、及び異なるフレーム間の低いコサイン類似性を対照的に促進する、A(t)で示されるフレームレベルの音声表現を導出する。次いで、本発明はグラム行列Gを作成して、Gは、任意のフレーム対間のコサイン類似性を記録する。
【数16】
【0062】
図5の左側の区画に示すように、Z(t)のダウンサンプリング方式には2つのステップが含まれる。まず、本発明は、A(t)のコサイン類似性が各セグメント内で高く、そのコサイン類似性がセグメント境界を越えて低下するように、Z(t)を連続セグメントに分割する。次に、各セグメントが平均プーリングによって1つのコードにマージされる。形式上、t
mをm番目のセグメントの左の境界として示す。境界は順番に決定される。t
mまでのすべての境界が決定されると、tが、t及びt
mの間のコサイン類似性が閾値を下回る
【数17】
内の最小時間の場合、次の境界t
m+1がtに設定される。
【数18】
【0063】
τ(t)は、tによって変化する予め定められた閾値である。すべてのセグメントが決定された後、各セグメントは平均プーリングによって1つのコードに短縮され、すなわち、以下のようになる。
【数19】
【0064】
図6は、長さ4の入力シーケンスの小例を示している。第2及び第3のコードは非常に類似している。次いで、τ(t)を適切に選択すると、ダウンサンプリングによって入力シーケンスが3つのセグメントに分割され、平均プーリングによって各セグメントが1つのコードに短縮される。閾値τ(t)は、アルゴリズムの非類似性に対する寛容性の程度を決定することに留意されたい。τ(t)=1の場合、各コードは個別のセグメントに割り当てられ、長さの短縮は起こらない。
【0065】
2つの発話のセグメンテーションの結果は、長さが大きく異なるにもかかわらず、2つの発話がほぼ同じ数のセグメントに分割でき、内容に関してセグメントの一致性が高いことを示している。ダウンサンプルされた出力は各セグメントの平均プーリングによって取得されるため、それらのダウンサンプルされた出力は非常に類似しており、時間的に整列していることが予測でき、これは、リズム情報損失の必要条件がほぼ満たされていることを含意している。
ランダム化閾値処理
【0066】
式(3)の任意の固定された閾値τについては、リズムのもつれの解き及び内容の損失の間にトレードオフがある。τが低いほど、より多くのリズム情報が除去されるが、より多くの内容も失われる。理想的には、テスト中に閾値を1に設定して、完全な内容情報を
【数20】
に渡し、デコーダが
【数21】
のすべてのリズム情報を無視するようにすることが所望される。これは、ランダム化閾値処理規則を使用して達成できる。
【0067】
その理由を理解するには、デコーダが
【数22】
のリズム情報を使用する場合、デコーダがリズム情報をどのように復元するかは、リズム情報がどのように短縮されるかに依存し、それはτによって決定されるため、τの値を知らなければならないことに留意されたい。しかし、トレーニング音声の音声速度、発話長、及びリズムパターンの大きな変化により、τの変化が目立たなくなり、τの値を推定することが非常に困難になる。したがって、デコーダは
【数23】
に残っているリズム情報を無視する。本発明は、二重ランダム化閾値処理方式を採用する。本発明は、最初に、発話全体にわたって共有されるグローバル変数
【数24】
をランダムに抽出し、ここで、
【数25】
は、区間
【数26】
内の均一分布を示す。次いで、時間tが次のセグメント境界(すなわち、式(3)のt
m+1)とすべきかどうかを決定するために、本発明ではローカル変数
【数27】
を抽出する。その結果を示す。
【数28】
【0068】
【0069】
2つのレベルのランダム化を設定する動機は、Gにより全体的な音声速度情報が曖昧になり得、L(t)が局所的なきめの細かいリズムパターンを曖昧にし得るためである。
類似性に基づくアップサンプリング
【0070】
リズム情報をさらに曖昧にするために、本発明はリサンプリングモジュールを一般化し、アップサンプリングに対応させる。ダウンサンプリングは、より高い類似性を有するセグメントを主に短くする(したがって、不均衡が減少する)ことを目的としているのと同様に、アップサンプリングは、より高い類似性を有するセグメントを主に長くする(したがって、不均衡が増大する)ことを目的としている。
【0071】
ダウンサンプリングケースでは、τ=1は長さの短縮がまったくないことを含意している。したがって、このケースを
【数30】
に外挿することが求められ、ここで、τが高くなるほど、系列は長くなる。本発明によるアップサンプリングアルゴリズムは、隣接するコードの間に新しいコードを挿入することによってこれを達成する。具体的には、t
mまでのすべての境界が決定されたと仮定する。τ(t)>1の場合、式(3)により、t
m+1は必ずtとなる。これに加えて、本発明はさらに別の文境界をtに追加する、すなわち、以下の場合、t
m+2=tとなる。
【数31】
【0072】
言い換えれば、本発明は、(m+1)番目のセグメントに空セグメントを挿入している(t
m+1=t
m+2であるため)。平均プーリング段階では、この空セグメントはその左の境界にあるコードにマッピングされる、すなわち、
【数32】
となる。
【0073】
空ではないセグメントは、式(4)と同じ方法で依然として平均プールされる。
【0074】
図6の左側の区画は、長さ4の小例を使用したアップサンプリング処理を示している。τ=1のケースと同様に、すべてのコードが個別にセグメント化される。違いは、コサイン類似性が非常に高い第3のコードの後に新しい空セグメントが挿入されることである。平均プーリング段階では、この空セグメントは、前のコードをコピーする追加のコードに変わる。
2段階トレーニング
【0075】
リサンプリングモジュールにもかかわらず、エンコーダ及びデコーダは、依然として時間的リサンプリングに対して堅牢なリズム情報を伝達する代替方法を見つけることができる。したがって、本発明は、起こり得る限りの共謀を防ぐために2段階トレーニング方式を導入する。
【0076】
同期トレーニングと呼ばれるトレーニングの第1の段階では、
図5及び
図6の右側の区画に示すように、
【数33】
をZ(m)と再調整する。具体的には、ダウンサンプリングケースでは、本発明は、コードが平均プールされる元のセグメントの長さに一致するように各
【数34】
をコピーし;アップサンプリングの場合、本発明は新たに挿入された
【数35】
を削除する。次いで、
図2に示すように、ネットワークはエンドツーエンドでトレーニングされ、再調整モジュールを使用して入力を再構築する。デコーダはリズム情報に完全にアクセスできるため、エンコーダはリズム情報ではなく、内容情報を渡すようにトレーニングされる。非同期トレーニングと呼ばれる第2の段階では、
図3に示すように、再調整モジュールが除去され、エンコーダが凍結され、デコーダのみが更新される。
【0077】
本開示はクラウドコンピューティングに関する詳細な説明を含むが、本明細書に記載される教示の実施はクラウドコンピューティング環境に限定されないことを理解されたい。むしろ、本発明の実施形態は、現在知られている、又は後に開発される任意の他のタイプのコンピューティング環境と組み合わせて実装できる。
【0078】
クラウドコンピューティングは、最小限の管理作業又はサービスのプロバイダとの対話で迅速にプロビジョニング及びリリースできる、構成可能なコンピューティングリソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、サービス)の共有プールへの便利なオンデマンドネットワークアクセスを可能にするサービス提供のモデルである。このクラウドモデルは、少なくとも5つの特性、少なくとも3つのサービスモデル、及び少なくとも4つの展開モデルを含み得る。
【0079】
特徴は次の通りである。
オンデマンドセルフサービス:クラウド消費者は、サービスプロバイダとの人間の対話を必要とせずに、必要に応じて自動的に、サーバタイム及びネットワークストレージなどのコンピューティング能力を一方的にプロビジョニングできる。幅広いネットワークアクセス:能力は、ネットワーク経由で利用可能であり、異種のシンクライアントプラットフォーム又はシッククライアントプラットフォーム(例えば、携帯電話、ラップトップ、PDA(登録商標))による使用を促進する標準機構を介してアクセスされる。リソースプーリング:プロバイダのコンピューティングリソースは、マルチテナントモデルを使用して複数の消費者にサービスを提供するためにプールされ、異なる物理リソース及び仮想リソースが、需要に従って動的に割り当て及び再割り当てされる。消費者は、一般に、提供されたリソースの正確な位置に関する制御又は知識はないが、より高い抽象化のレベル(例えば、国、州、又はデータセンタ)で位置を指定でき得るという点で、位置独立の感覚がある。迅速な弾力性:能力は、迅速かつ弾力的にプロビジョニングでき、場合によっては、自動的に、急速にスケールアウトされ、迅速にリリースされて急速にスケールインされる。消費者には、プロビジョニングに使用できる能力は無制限に見えることが多く、いつでも任意の数量で購入できる。測定されたサービス:クラウドシステムは、サービスのタイプ(例えば、ストレージ、処理、帯域幅、アクティブなユーザアカウント)に適したある程度の抽象化のレベルで計測能力を活用することにより、リソースの使用を自動的に制御及び最適化する。リソースの使用状況を監視、制御、及び報告して、利用するサービスの、プロバイダと消費者の両方に透明性を提供できる。
【0080】
サービスモデルは次の通りである。
サービスとしてのソフトウェア(SaaS):消費者に提供される能力は、クラウドインフラストラクチャで実行されているプロバイダのアプリケーションを使用することである。アプリケーションには、ウェブブラウザ(例えば、ウェブベースの電子メール)などのシンクライアントインターフェースを介して、様々なクライアントデバイスからアクセス可能である。消費者は、限られたユーザ固有のアプリケーション構成設定を除き得て、ネットワーク、サーバ、オペレーティングシステム、ストレージ、さらには個別のアプリケーション機能を含む基盤となるクラウドインフラストラクチャを管理又は制御しない。サービスとしてのプラットフォーム(PaaS):消費者に提供される能力は、プロバイダがサポートするプログラミング言語及びツールを使用して作成された、消費者が作成又は取得したアプリケーションをクラウドインフラストラクチャ上に展開することである。消費者は、ネットワーク、サーバ、オペレーティングシステム、又はストレージを含む基盤となるクラウドインフラストラクチャを管理又は制御しないが、展開されたアプリケーション、及び、場合によっては、アプリケーションホスティング環境の構成を制御する。サービスとしてのインフラストラクチャ(IaaS):消費者に提供される能力は、処理、ストレージ、ネットワーク、及び消費者が、オペレーティングシステム及びアプリケーションを含み得る、任意のソフトウェアを展開及び実行できるその他の基本的なコンピューティングリソースをプロビジョニングすることである。消費者は、基盤となるクラウドインフラストラクチャを管理又は制御しないが、オペレーティングシステム、ストレージ、展開されたアプリケーションを制御し、場合によっては、選択したネットワーキング構成要素(例えば、ホストファイアウォール)の制御を制限する。
【0081】
展開モデルは次の通りである。
プライベートクラウド:クラウドインフラストラクチャは、組織のためだけに運用される。組織又は第三者によって管理され得、オンプレミス又はオフプレミスに存在し得る。コミュニティクラウド:クラウドインフラストラクチャは複数の組織によって共有されており、共有された懸念事項(例えば、ミッション、セキュリティ要件、ポリシ、コンプライアンスの考慮事項)を有する特定のコミュニティをサポートしている。組織又は第三者によって管理され得、オンプレミス又はオフプレミスに存在し得る。パブリッククラウド:クラウドインフラストラクチャは、一般の人々又は大規模な業界団体が利用できるようにしたもので、クラウドサービスを販売する組織によって所有される。ハイブリッドクラウド:クラウドインフラストラクチャは、一意のエンティティのままであるが、データ及びアプリケーションの移植性を可能にする標準化された技術又は独自の技術(例えば、クラウド間の負荷分散のためのクラウドバースト)によって結合された2つ以上のクラウド(プライベート、コミュニティ、又はパブリック)の構成である。
【0082】
クラウドコンピューティング環境は、ステートレス性、低結合、モジュール性、及び意味的相互運用性に重点を置いたサービス指向型である。クラウドコンピューティングの中心は、相互接続されたノードのネットワークを含むインフラストラクチャである。
【0083】
ここで
図7を参照すると、例示的なクラウドコンピューティング環境750が示されている。示しているように、クラウドコンピューティング環境750は、例えば、パーソナルデジタルアシスタント(PDA(登録商標))又は携帯電話754A、デスクトップコンピュータ754B、ラップトップコンピュータ754C、及び/又は自動車コンピュータシステム754Nなどのクラウド消費者によって使用されるローカルコンピューティングデバイスが通信し得る1つ又は複数のクラウドコンピューティングノード710を含む。ノード710は、互いに通信し得る。それらは、上記で説明されたようなプライベートクラウド、コミュニティクラウド、パブリッククラウド、又はハイブリッドクラウド、又は、それらの組み合わせなどの1つ又は複数のネットワーク内で、物理的に又は仮想的にグループ分け(図示せず)され得る。これにより、クラウドコンピューティング環境750は、クラウド消費者がローカルコンピューティングデバイス上でリソースを維持する必要がないサービスとして、インフラストラクチャ、プラットフォーム及び/又はソフトウェアを提供できる。
図7に示すコンピューティングデバイス754A~Nのタイプは、例示のみを意図しており、コンピューティングノード710及びクラウドコンピューティング環境750は、任意のタイプのネットワーク及び/又は(例えば、ウェブブラウザを使用する)ネットワークアドレス可能な接続を介して任意のタイプのコンピュータ化されたデバイスと通信できることが理解されよう。
【0084】
ここで
図8を参照すると、クラウドコンピューティング環境750(
図7)によって提供される機能的抽象化層のセットが示されている。
図8に示す構成要素、層、及び機能は、例示のみを目的としており、本発明の実施形態はそれに限定されないことを事前に理解されたい。示しているように、以下の層及び対応する機能が提供される。
【0085】
ハードウェア及びソフトウェア層860は、ハードウェア及びソフトウェア構成要素を含む。ハードウェア構成要素の例は、メインフレーム861、RISC(縮小命令セットコンピュータ)アーキテクチャベースのサーバ862、サーバ863、ブレードサーバ864、ストレージデバイス865、及びネットワーク及びネットワーキング構成要素866を含む。いくつかの実施形態では、ソフトウェア構成要素は、ネットワークアプリケーションサーバソフトウェア867及びデータベースソフトウェア868を含む。
【0086】
仮想化層870は、仮想エンティティの次の例、すなわち、仮想サーバ871、仮想ストレージ872、仮想プライベートネットワークを含む仮想ネットワーク873、仮想アプリケーション及びオペレーティングシステム874、及び仮想クライアント875が提供され得る抽象化層を提供する。
【0087】
一例では、管理層880は、以下に説明する機能を提供し得る。リソースプロビジョニング881は、クラウドコンピューティング環境内でタスクを実行するために利用されるコンピューティングリソース及び他のリソースの動的な調達を提供する。計量及び価格設定882は、リソースがクラウドコンピューティング環境内で利用されるときのコスト追跡、及びこれらのリソースの消費に対する課金又は請求を提供する。一例では、これらのリソースは、アプリケーションソフトウェアライセンスを含み得る。セキュリティは、クラウド消費者及びタスクに対する識別検証、及びデータ及びその他のリソースに対する保護を提供する。ユーザポータル883は、消費者及びシステム管理者にクラウドコンピューティング環境へのアクセスを提供する。サービスレベル管理884は、必要なサービスレベルが満たされるように、クラウドコンピューティングリソースの割り当て及び管理を提供する。サービスレベルアグリーメント(SLA)の計画及び履行885は、SLAに従って将来の要件が予想されるクラウドコンピューティングリソースの事前準備及び調達を提供する。
【0088】
ワークロード層890は、クラウドコンピューティング環境が利用され得る機能の例を提供する。この層から提供され得るワークロード及び機能の例は、マッピング及びナビゲーション891、ソフトウェア開発及びライフサイクル管理892、仮想教室教育配信893、データ分析処理894、トランザクション処理895、及びテキスト転写を伴わない全体的な韻律スタイルの変換896を含む。
【0089】
本発明は、任意の可能な技術的詳細レベルの統合におけるシステム、方法、及び/又はコンピュータプログラム製品であり得る。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読記憶媒体(又は複数の媒体)を含み得る。
【0090】
コンピュータ可読記憶媒体は、命令実行デバイスが使用するための命令を保持及び記憶できる有形のデバイスであり得る。コンピュータ可読記憶媒体は、例えば、限定されないが、電子ストレージデバイス、磁気ストレージデバイス、光ストレージデバイス、電磁ストレージデバイス、半導体ストレージデバイス、又は前述の任意の適切な組み合わせであり得る。コンピュータ可読記憶媒体のさらに具体的な例の非網羅的リストは、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM:random access memory)、読み取り専用メモリ(ROM:read-only memory)、消去可能プログラマブル読み取り専用メモリ(EPROM:erasable programmable read-only memory又はフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM:static random access memory)、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM:compact disc read-only memory)、デジタルバーサタイルディスク(DVD:digital versatile disk)、メモリスティック、フロッピーディスク、命令が記録されているパンチカード又は溝の中の隆起構造などの機械的にエンコードされるデバイス、及び前述の任意の適切な組み合わせを含む。本明細書で使用されるコンピュータ可読記憶媒体は、電波又は他の自由に伝播する電磁波、導波管又は他の伝送媒体を通って伝播する電磁波(例えば、光ファイバーケーブルを通過する光パルス)、又は電線を通じて伝送される電気信号など、それ自体が一時的な信号であると解釈されるべきではない。
【0091】
本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスに、又はネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、及び/又は無線ネットワークを介して外部コンピュータ又は外部ストレージデバイスにダウンロードできる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び/又はエッジサーバを有し得る。各コンピューティング/処理デバイス内のネットワークアダプタカード又はネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶するためにコンピュータ可読プログラム命令を変換する。
【0092】
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、SMALLTALK(登録商標)、C++などのオブジェクト指向プログラミング言語、及び「C」プログラミング言語又は同様のプログラミング言語などの従来の手続型プログラミング言語を含む、1つ又は複数のプログラミング言語の任意の組み合わせで記述されたソースコード又はオブジェクトコードのいずれかであり得る。コンピュータ可読プログラム命令は、全部がユーザのコンピュータ上で、一部がユーザのコンピュータ上で、スタンドアロンのソフトウェアパッケージとして、一部がユーザのコンピュータ上で一部がリモートコンピュータ上で、又は全部がリモートコンピュータ上で、又はサーバ上で実行され得る。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続され得るか、又は、(例えば、インターネットサービスプロバイダを使用してインターネットを介して)外部コンピュータに接続され得る。いくつかの実施形態では、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)、又はプログラマブルロジックアレイ(PLA)を含む電子回路は、本発明の態様を実行するために、電子回路をパーソナライズするためのコンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行し得る。
【0093】
本発明の態様は、本発明の実施形態による方法、装置(システム)、及びコンピュータプログラム製品のフローチャート図及び/又はブロック図を参照して本明細書に記載されている。フローチャート図及び/又はブロック図の各ブロック、及びフローチャート図及び/又はブロック図のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されたい。
【0094】
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータのプロセッサ、又は他のプログラマブルデータ処理装置に提供され、マシンを生成し得て、その結果、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサを介して実行される命令が、フローチャート及び/又はブロック図の1つ又は複数のブロックで指定された機能/動作を実施するための手段を作成する。これらのコンピュータ可読プログラム命令はまた、コンピュータ、プログラマブルデータ処理装置及び/又は他のデバイスに特定の方法で機能するように指示できるコンピュータ可読記憶媒体内に記憶され得て、その結果、その中に記憶された命令を有するコンピュータ可読記憶媒体は、フローチャート及び/又はブロック図の1つ又は複数のブロックで指定された機能/動作の態様を実施する命令を含む製品を備える。
【0095】
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスにロードされ、コンピュータ、他のプログラマブル装置、又は他のデバイス上で一連の動作ステップを実行させて、コンピュータ実装プロセスを生成し得て、その結果、コンピュータ、他のプログラマブル装置、又は他のデバイス上で実行される命令が、フローチャート及び/又はブロック図の1つ又は複数のブロックで指定された機能/動作を実装する。
【0096】
図中のフローチャート及びブロック図は、本発明の様々な実施形態によるシステム、方法、及びコンピュータプログラム製品の可能な実装のアーキテクチャ、機能、及び動作を示す。これに関して、フローチャート又はブロック図内の各ブロックは、指定された論理機能を実装するための1つ又は複数の実行可能命令を有する、モジュール、セグメント、又は命令の一部を表し得る。いくつかの代替的な実装では、ブロックに示される機能は、図に示される順序を外れて生じ得る。例えば、連続して示される2つのブロックは、実際には、実質的に同時に実行され得るか、又は、関連する機能に応じてブロックが逆の順序で実行されることもあり得る。また、ブロック図及び/又はフローチャート図の各ブロック、及びブロック図及び/又はフローチャート図のブロックの組み合わせは、指定された機能又は行動を実行する、又は専用ハードウェアとコンピュータ命令との組み合わせを実行する専用ハードウェアベースシステムによって実装できることにも留意されたい。
【0097】
本明細書における本発明の「1つの実施形態(one embodiment)」又は「一実施形態(an embodiment)」、及びそれらの他の変形形態への言及は、実施形態に関連して説明される特定の特徴、構造、特性などが、本発明の少なくとも1つの実施形態に含まれることを意味する。したがって、本明細書を通した様々な箇所で、「1つの実施形態では(in one embodiment)」又は「一実施形態では(in an embodiment)」、及び任意の他の変形形態という語句が現れても、必ずしもすべて同じ実施形態を指してはいない。
【0098】
以下の「/」、「及び/又は」、及び「のうちの少なくとも1つ」のいずれかの使用は、例えば、「A/B」、「A及び/又はB」、及び「A及びBのうちの少なくとも1つ」の場合、第1の列挙されるオプション(A)のみの選択、又は、第2の列挙されるオプション(B)のみの選択、又は、両方のオプション(A及びB)の選択を包含することが意図されることを理解されたい。さらなる例として、「A、B、及び/又はC」、及び「A、B、及びCの少なくとも1つ」の場合、そのような言い回しは、第1の列挙されるオプション(A)のみの選択、又は、第2の列挙されるオプション(B)のみの選択、又は、第3の列挙されるオプション(C)のみの選択、又は、第1及び第2の列挙されるオプション(A及びB)のみの選択、又は、第1及び第3の列挙されるオプション(A及びC)のみの選択、又は、第2及び第3の列挙されるオプション(B及びC)のみの選択、又は、3つのオプションすべて(A及びB及びC)の選択を包含することが意図される。これは、当業者によって容易に明らかな限りで、列挙されるアイテムと同じ数だけ延長され得る。
【0099】
(例証することを意図するに過ぎず限定的でない)システム及び方法の好ましい実施形態が説明されたが、上記の教示があれば、当業者によって修正及び変形がなされ得ることに留意されたい。したがって、本発明の範囲内で開示され、添付の特許請求の範囲により概要を示された特定の実施形態内では、変更がなされ得ることを理解されたい。したがって、本発明の態様を、特許法により必要とされる詳細及び特定性と共に説明したが、請求され、特許証により保護されることが所望されるものは、添付の特許請求の範囲に示される。
【手続補正書】
【提出日】2023-12-13
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
音声による自然言語における韻律のもつれを解くために機械学習モデルを使用するコンピュータ実装方法であって、前記コンピュータ実装方法は、
内容コードを生成するために、コンピューティングデバイスによって、前記音声による自然言語をエンコードする段階;
韻律が曖昧な内容コードを生成するために、前記機械学習モデルに教師なし技術を適用することによって、前記コンピューティングデバイスによって、前記韻律を曖昧にするために前記内容コードをテキスト転写を伴わずにリサンプルする段階;及び
前記内容コードに基づいて間接的に音声を合成するために、前記コンピューティングデバイスによって、前記韻律が曖昧な内容コードをデコードする段階
を備えるコンピュータ実装方法。
【請求項2】
韻律が、前記音声による自然言語のリズム及びピッチを伝える、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記エンコードする段階は、前記コンピューティングデバイスのエンコーダによって実行され、前記リサンプルする段階は、前記コンピューティングデバイスのリサンプラによって実行され、前記デコードする段階は、前記コンピューティングデバイスのデコーダによって実行される、請求項1に記載のコンピュータ実装方法。
【請求項4】
前記内容コードは、類似性に基づくランダムリサンプリング技術を使用してリサンプルされ、閾値を超える類似性を有する内容コードセグメントを等しい長さになるように、類似性に基づくダウンサンプリングを使用して短くされるか、又は、類似性に基づくアップサンプリングを使用して長くされて、前記韻律が曖昧な内容コードを形成する、請求項1に記載のコンピュータ実装方法。
【請求項5】
前記閾値を超える前記類似性は、韻律類似性の閾値である、請求項4に記載のコンピュータ実装方法。
【請求項6】
前記リサンプルする段階は、自己表現の表現学習によって導かれる、請求項1に記載のコンピュータ実装方法。
【請求項7】
複数の韻律成分の中からリズム成分を前記リサンプルする段階によって前記内容コード内で曖昧にし、前記韻律が曖昧な内容コードを生成する、請求項1に記載のコンピュータ実装方法。
【請求項8】
前記韻律が曖昧な内容コードは、対象領域ラベルを使用してデコードされる、請求項1に記載のコンピュータ実装方法。
【請求項9】
前記対象領域ラベルは、少なくとも1つの話者アイデンティティ及び少なくとも1つの感情カテゴリを指定する領域の要約である、請求項8に記載のコンピュータ実装方法。
【請求項10】
前記コンピュータ実装方法は、エンコーディング構成要素、リサンプリング構成要素、及びデコーディング構成要素を有するクラウドベースのサービスとして構成される、請求項1に記載のコンピュータ実装方法。
【請求項11】
前記リサンプルする段階は、前記エンコードする段階を実行するエンコーダが、前記デコードする段階を実行するデコーダと連携してリズム情報を一括してエンコード及びデコードすることを防止する2段階トレーニング技術によって実行される、請求項1
から10のいずれか一項に記載のコンピュータ実装方法。
【請求項12】
前記2段階トレーニング技術は、サンプル長アライナを使用してサンプル長を調整し、入力韻律を復元する同期トレーニング部分、及びデコーダが韻律を推測できるようにするために前記サンプル長アライナがない非同期トレーニング部分を備える、請求項11に記載のコンピュータ実装方法。
【請求項13】
音声による自然言語における韻律のもつれを解くために機械学習モデルを使用するためのコンピュータプログラ
ムであって、前記コンピュータプログラ
ムが、プログラム命
令を備え、前記プログラム命令が、コンピュータに
内容コードを生成するために、前記コンピュータのエンコーダによって、前記音声による自然言語をエンコードさせ;
韻律が曖昧な内容コードを生成するために、前記機械学習モデルに教師なし技術を適用することによって、前記コンピュータのリサンプラによって、前記韻律を曖昧にするために前記内容コードをテキスト転写を伴わずにリサンプルさせ;及び
前記内容コードに基づいて間接的に音声を合成するために、前記コンピュータのデコーダによって、前記韻律が曖昧な内容コードをデコードさせる
ように、前記コンピュータによって実行可能である、コンピュータプログラ
ム。
【請求項14】
前記内容コードは、類似性に基づくランダムリサンプリング技術を使用してリサンプルされ、閾値を超える類似性を有する内容コードセグメントを等しい長さになるように、類似性に基づくダウンサンプリングを使用して短くされるか、又は、類似性に基づくアップサンプリングを使用して長くされて、前記韻律が曖昧な内容コードを形成する、請求項13に記載のコンピュータプログラ
ム。
【請求項15】
前記リサンプルする段階は、自己表現の表現学習によって導かれる、請求項13に記載のコンピュータプログラ
ム。
【請求項16】
前記韻律が曖昧な内容コードは、対象領域ラベルを使用してデコードされる、請求項13に記載のコンピュータプログラ
ム。
【請求項17】
前記対象領域ラベルは、少なくとも1つの話者アイデンティティ及び少なくとも1つの感情カテゴリを指定する領域の要約である、請求項16に記載のコンピュータプログラ
ム。
【請求項18】
前記リサンプルする段階は、前記エンコードする段階を実行するエンコーダが、前記デコードする段階を実行するデコーダと連携してリズム情報を一括してエンコード及びデコードすることを防止する2段階トレーニング技術によって実行される、請求項13
から17のいずれか一項に記載のコンピュータプログラ
ム。
【請求項19】
前記2段階トレーニング技術は、サンプル長アライナを使用してサンプル長を調整し、入力韻律を復元する同期トレーニング部分、及びデコーダが韻律を推測できるようにするために前記サンプル長アライナがない非同期トレーニング部分を備える、請求項18に記載のコンピュータプログラ
ム。
【請求項20】
プログラムコードを記憶するためのメモリデバイス;及び
内容コードを生成するために、音声による自然言語をエンコードする;
韻律が曖昧な内容コードを生成するために、機械学習モデルに教師なし技術を適用することによって、前記韻律を曖昧にするために前記内容コードをテキスト転写を伴わずにリサンプルする;及び
前記内容コードに基づいて間接的に音声を合成するために、前記韻律が曖昧な内容コードをデコードする
前記プログラムコードを実行するために前記メモリデバイスに動作可能に結合されたプロセッサデバイス
を備える全体的な韻律変換システム。
【国際調査報告】