IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル インコーポレイテッドの特許一覧

<>
  • 特表-自動ボイスオーバ生成 図1
  • 特表-自動ボイスオーバ生成 図2A
  • 特表-自動ボイスオーバ生成 図2B
  • 特表-自動ボイスオーバ生成 図3
  • 特表-自動ボイスオーバ生成 図4A
  • 特表-自動ボイスオーバ生成 図4B
  • 特表-自動ボイスオーバ生成 図5
  • 特表-自動ボイスオーバ生成 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-09-10
(54)【発明の名称】自動ボイスオーバ生成
(51)【国際特許分類】
   G10L 13/08 20130101AFI20240903BHJP
   G10L 13/10 20130101ALI20240903BHJP
   G10L 13/02 20130101ALI20240903BHJP
   G06F 40/56 20200101ALI20240903BHJP
   G06Q 30/0241 20230101ALN20240903BHJP
【FI】
G10L13/08 122
G10L13/08 124
G10L13/10 112Z
G10L13/10 114
G10L13/02 130C
G06F40/56
G06Q30/0241 444
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024507124
(86)(22)【出願日】2022-07-20
(85)【翻訳文提出日】2024-04-02
(86)【国際出願番号】 US2022073975
(87)【国際公開番号】W WO2023019055
(87)【国際公開日】2023-02-16
(31)【優先権主張番号】17/444,663
(32)【優先日】2021-08-07
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.BLUETOOTH
(71)【出願人】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ニック・ローズ
(72)【発明者】
【氏名】ブライアン・フォスター・アレン
(72)【発明者】
【氏名】ハワード・マリングス
(72)【発明者】
【氏名】ラルフ・リース
(72)【発明者】
【氏名】シーナム・マヘシュワリ
【テーマコード(参考)】
5L030
【Fターム(参考)】
5L030BB08
(57)【要約】
方法(500)は、1つまたは複数の広告キャンペーン属性(106)を有するターゲット広告(104)に対する合成されたボイスオーバスピーチ(352)を生成するためのボイスオーバ要求(102)を受信するステップを含む。方法はまた、1つまたは複数の広告キャンペーン属性に基づいて、合成されたボイスオーバスピーチのテキストのシーケンスを含むボイスオーバスクリプト(252)を生成するステップを含む。方法はまた、テキスト読上げ(TTS)システム(300)を使用して、合成されたボイスオーバスピーチを生成するステップを含む。TTSシステムは、ボイスオーバスクリプトのテキストのシーケンスを入力として受信することと、合成されたボイスオーバスピーチを出力として生成することとを行うように構成されている。ここで、合成されたボイスオーバスピーチは、ターゲットTTSバーティカル(312)によって指定されるスピーチ特性(304)を有する。方法はまた、合成されたボイスオーバスピーチをターゲット広告にオーバレイするステップを含む。
【特許請求の範囲】
【請求項1】
データ処理ハードウェア(134)上で実行されると、前記データ処理ハードウェア(134)に、
1つまたは複数の広告キャンペーン属性(106)を有するターゲット広告(104)に対する合成されたボイスオーバスピーチ(352)を生成するためのボイスオーバ要求(102)を受信するステップと、
前記1つまたは複数の広告キャンペーン属性(106)に基づいて、前記合成されたボイスオーバスピーチ(352)のボイスオーバスクリプト(252)を生成するステップであって、前記ボイスオーバスクリプト(252)がテキストのシーケンスを備える、ステップと、
テキスト読上げ(TTS)システム(300)を使用して、前記合成されたボイスオーバスピーチ(352)を生成するステップであって、前記TTSシステム(300)が、
前記ボイスオーバスクリプト(252)のテキストの前記シーケンスを入力として受信することと、
前記合成されたボイスオーバスピーチ(352)を出力として生成することであって、前記合成されたボイスオーバスピーチ(352)が、ターゲットTTSバーティカル(312)によって指定されたスピーチ特性(304)を有する、ことと
を行うように構成される、ステップと、
前記合成されたボイスオーバスピーチ(352)を前記ターゲット広告(104)にオーバレイするステップと
を備える動作を実行させるコンピュータ実装方法(500)。
【請求項2】
前記動作が、前記1つまたは複数の広告キャンペーン属性(106)に基づいて前記ターゲットTTSバーティカル(312)を選択するステップをさらに備える、請求項1に記載のコンピュータ実装方法(500)。
【請求項3】
前記ターゲットTTSバーティカル(312)によって指定される前記スピーチ特性(304)が、前記合成されたボイスオーバスピーチ(352)によって伝えられる韻律/スタイル情報を指定する発話埋込み(304a)、前記合成されたボイスオーバスピーチ(352)によって伝えられるアクセント/方言を指定するアクセント/方言識別子(304b)、および前記合成されたボイスオーバスピーチ(352)のボイス特性を指定する話者埋込み(304c)のうちの少なくとも1つを備える、請求項1または2に記載のコンピュータ実装方法(500)。
【請求項4】
前記広告キャンペーン属性(106)が、
見出し、
行動喚起、
地理的地域、
言語、または
視聴者層のうちの少なくとも1つを備える、請求項1から3のいずれか一項に記載のコンピュータ実装方法(500)。
【請求項5】
前記ボイスオーバスクリプト(252)のテキストの前記シーケンスが、1つまたは複数の単語を備え、前記合成されたボイスオーバスピーチ(352)を前記ターゲット広告(104)にオーバレイするステップが、
前記ボイスオーバスクリプト(252)の前記1つまたは複数の単語が前記合成されたボイスオーバスピーチ(352)によって話されるべきそれぞれのタイムスタンプを決定するステップであって、前記ターゲット広告(104)が、前記それぞれのタイムスタンプを備える再生時間を有する、ステップと、
前記ボイスオーバスクリプト(252)の前記1つまたは複数の単語に対応する前記合成されたボイスオーバスピーチ(352)のセグメントが前記ターゲット広告(104)の前記それぞれのタイムスタンプにおいて発生するように、前記合成されたボイスオーバスピーチ(352)を前記ターゲット広告(104)と位置合わせするステップと
を備える、請求項1から4のいずれか一項に記載のコンピュータ実装方法(500)。
【請求項6】
前記前記合成されたボイスオーバスピーチ(352)の前記ボイスオーバスクリプト(252)を生成するステップが、
広告キャンペーンに関連付けられるランディングページのユニフォームリソースロケータ(URL)(204)からフレーズ(212)を識別するステップと、
前記ランディングページURL(204)から識別された前記フレーズ(212)の各々をランク付けするステップであって、前記フレーズ(212)の各々の前記ランクが、それぞれの前記フレーズ(212)が前記広告キャンペーンの前記1つまたは複数の広告キャンペーン属性に関連する可能性に対応する、ステップと
によって、前記1つまたは複数の広告キャンペーン属性(106)を有する広告キャンペーンに関連する1つまたは複数の単語を識別するステップを備える、請求項1から5のいずれか一項に記載のコンピュータ実装方法(500)。
【請求項7】
前記動作が、識別されたフレーズ(212)の前記ランクがしきい値を満たすかどうかを決定するステップをさらに備える、請求項6に記載のコンピュータ実装方法(500)。
【請求項8】
前記ボイスオーバスクリプト(252)を生成するステップが、前記識別されたフレーズ(212)のうちの1つの前記ランクが前記しきい値を満たす場合に発生し、
前記ボイスオーバスクリプト(252)のテキストの前記シーケンスが、前記しきい値を満たす前記識別されたフレーズ(212)を表す、請求項7に記載のコンピュータ実装方法(500)。
【請求項9】
前記識別されたフレーズ(212)の前記ランクが前記しきい値を満たさないという決定に応じて、前記動作が、
異なる広告キャンペーンに関連付けられる広告(208)のコーパスにアクセスするステップであって、各広告(208)が、それぞれのボイスオーバスクリプト(252R)および広告キャンペーン属性(106R)のセットを有するそれぞれの広告キャンペーンに関連付けられる、ステップと、
前記ボイスオーバ要求(102)の前記1つまたは複数の広告キャンペーン属性(106)と同様の広告キャンペーン属性(106R)を有する広告(208)の前記コーパスから1つまたは複数の広告(208)を識別するステップと、
前記ボイスオーバ要求(102)の前記1つまたは複数の広告キャンペーン属性(106)と同様の広告キャンペーン属性(106R)を有する、前記識別された1つまたは複数の広告(208)の前記それぞれのボイスオーバスクリプト(252R)に基づいて、前記合成されたボイスオーバスピーチ(352)の前記ボイスオーバスクリプト(252)を生成するステップと
をさらに備える、請求項7に記載のコンピュータ実装方法(500)。
【請求項10】
前記TTSシステム(300)が、
前記ボイスオーバスクリプト(252)のテキストの前記シーケンスを前記ボイスオーバスクリプト(252)の対応する合成されたスピーチ表現(322)に変換するように構成されたTTSモデル(320)と、
前記TTSモデル(320)から出力された前記合成されたスピーチ表現(322)から前記合成されたボイスオーバスピーチ(352)を生成するように構成されたTTSシンセサイザ(350)と
を備える、請求項1から9のいずれか一項に記載のコンピュータ実装方法(500)。
【請求項11】
前記1つまたは複数の広告キャンペーン属性(106)が、人間が作成した広告キャンペーンに関連付けられる、請求項1から10のいずれか一項に記載のコンピュータ実装方法(500)。
【請求項12】
データ処理ハードウェア(134)と、
前記データ処理ハードウェア(134)と通信するメモリハードウェア(136)であって、前記データ処理ハードウェア(134)によって実行されると、前記データ処理ハードウェア(134)に、
1つまたは複数の広告キャンペーン属性(106)を有するターゲット広告(104)に対する合成されたボイスオーバスピーチ(352)を生成するためのボイスオーバ要求(102)を受信することと、
前記1つまたは複数の広告キャンペーン属性(106)に基づいて、前記合成されたボイスオーバスピーチ(352)のボイスオーバスクリプト(252)を生成することであって、前記ボイスオーバスクリプト(252)がテキストのシーケンスを備える、ことと、
テキスト読上げ(TTS)システム(300)を使用して、前記合成されたボイスオーバスピーチ(352)を生成することであって、前記TTSシステム(300)が、
前記ボイスオーバスクリプト(252)のテキストの前記シーケンスを入力として受信することと、
前記合成されたボイスオーバスピーチ(352)を出力として生成することであって、前記合成されたボイスオーバスピーチ(352)が、ターゲットTTSバーティカル(312)によって指定されたスピーチ特性(304)を有する、ことと
を行うように構成される、ことと、
前記合成されたボイスオーバスピーチ(352)を前記ターゲット広告(104)にオーバレイすることと
を備える動作を実行させる命令を記憶する前記メモリハードウェア(136)と
を備える、システム(100)。
【請求項13】
前記動作が、前記1つまたは複数の広告キャンペーン属性(106)に基づいて前記ターゲットTTSバーティカル(312)を選択することをさらに備える、請求項12に記載のシステム(100)。
【請求項14】
前記ターゲットTTSバーティカル(312)によって指定される前記スピーチ特性(304)が、前記合成されたボイスオーバスピーチ(352)によって伝えられる韻律/スタイル情報を指定する発話埋込み(304a)、前記合成されたボイスオーバスピーチ(352)によって伝えられるアクセント/方言を指定するアクセント/方言識別子(304b)、および前記合成されたボイスオーバスピーチ(352)の音声特性を指定する話者埋込み(304c)のうちの少なくとも1つを備える、請求項12または13に記載のシステム(100)。
【請求項15】
前記広告キャンペーン属性(106)が、
見出し、
行動喚起、
地理的地域、
言語、または
視聴者層のうちの少なくとも1つを備える、請求項12から14のいずれか一項に記載のシステム(100)。
【請求項16】
前記ボイスオーバスクリプト(252)のテキストの前記シーケンスが、1つまたは複数の単語を備え、前記合成されたボイスオーバスピーチ(352)を前記ターゲット広告(104)にオーバレイすることが、
前記ボイスオーバスクリプト(252)の前記1つまたは複数の単語が前記合成されたボイスオーバスピーチ(352)によって話されるべきそれぞれのタイムスタンプを決定することであって、前記ターゲット広告(104)が、前記それぞれのタイムスタンプを備える再生時間を有する、ことと、
前記ボイスオーバスクリプト(252)の前記1つまたは複数の単語に対応する前記合成されたボイスオーバスピーチ(352)のセグメントが前記ターゲット広告(104)の前記それぞれのタイムスタンプにおいて発生するように、前記合成されたボイスオーバスピーチ(352)を前記ターゲット広告(104)と位置合わせすることと
を備える、請求項12から15のいずれか一項に記載のシステム(100)。
【請求項17】
前記合成されたボイスオーバスピーチ(352)の前記ボイスオーバスクリプト(252)を生成することが、
広告キャンペーンに関連付けられるランディングページのユニフォームリソースロケータ(URL)(204)からフレーズ(212)を識別することと、
前記ランディングページURL(204)から識別された前記フレーズ(212)の各々をランク付けすることであって、前記フレーズ(212)の各々の前記ランクが、それぞれの前記フレーズ(212)が前記広告キャンペーンの前記1つまたは複数の広告キャンペーン属性に関連する可能性に対応する、ことと
によって、前記1つまたは複数の広告キャンペーン属性(106)を有する広告キャンペーンに関連する1つまたは複数の単語を識別することを備える、請求項12から16のいずれか一項に記載のシステム(100)。
【請求項18】
前記動作が、識別されたフレーズ(212)の前記ランクがしきい値を満たすかどうかを決定することをさらに備える、請求項17に記載のシステム(100)。
【請求項19】
前記ボイスオーバスクリプト(252)を生成することが、前記識別されたフレーズ(212)のうちの1つの前記ランクが前記しきい値を満たす場合に発生し、
前記ボイスオーバスクリプト(252)のテキストの前記シーケンスが前記しきい値を満たす前記識別されたフレーズ(212)を表す、請求項18に記載のシステム(100)。
【請求項20】
前記識別されたフレーズ(212)の前記ランクが前記しきい値を満たさないという決定に応じて、前記動作が、
異なる広告キャンペーンに関連付けられる広告(208)のコーパスにアクセスすることであって、各広告(208)が、それぞれのボイスオーバスクリプト(252R)および広告キャンペーン属性(106R)のセットを有するそれぞれの広告キャンペーンに関連付けられる、ことと、
前記ボイスオーバ要求(102)の前記1つまたは複数の広告キャンペーン属性(106)と同様の広告キャンペーン属性(106R)を有する広告(208)の前記コーパスから1つまたは複数の広告(208)を識別することと、
前記ボイスオーバ要求(102)の前記1つまたは複数の広告キャンペーン属性(106)と同様の広告キャンペーン属性(106R)を有する、前記識別された1つまたは複数の広告(208)の前記それぞれのボイスオーバスクリプト(252R)に基づいて、前記合成されたボイスオーバスピーチ(352)の前記ボイスオーバスクリプト(252)を生成することと
をさらに備える、請求項18に記載のシステム(100)。
【請求項21】
前記TTSシステム(300)が、
前記ボイスオーバスクリプト(252)のテキストの前記シーケンスを前記ボイスオーバスクリプト(252)の対応する合成されたスピーチ表現(322)に変換するように構成されたTTSモデル(320)と、
前記TTSモデル(320)から出力された前記合成されたスピーチ表現(322)から前記合成されたボイスオーバスピーチ(352)を生成するように構成されたTTSシンセサイザ(350)と
を備える、請求項12から20のいずれか一項に記載のシステム(100)。
【請求項22】
前記1つまたは複数の広告キャンペーン属性(106)が、人間が作成した広告キャンペーンに関連付けられる、請求項12から21のいずれか一項に記載のシステム(100)。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、自動ボイスオーバ生成に関する。
【背景技術】
【0002】
ボイスオーバ生成は、広告キャンペーンの視聴者に、追加のコンテキストを説明する、および/または提供するオーディオまたはビデオ広告キャンペーンの可聴音声を生成するプロセスである。広告キャンペーンにボイスオーバを追加すると、広告キャンペーンの効果が大幅に向上することが証明されているため、ボイスオーバ生成は近年人気が高まっている。ボイスオーバ生成の重要な側面は、ボイスオーバ中に何を言うか、および広告キャンペーンを閲覧するターゲット顧客にアピールするためにどのように聞こえるべきかということである。しかしながら、何を言うか、およびどのように言うかを決定することは、広告キャンペーンにおいて使用するボイスオーバオーディオを話す適切な声優を雇用するのに時間と費用がかかるため、これは多くの企業および広告代理店にとって重要な仕事である。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】米国特許出願第16/867,427号
【非特許文献】
【0004】
【非特許文献1】https://arxiv.org/pdf/1711.10433.pdfにおいて入手可能な、van den Oord、Parallel WaveNet: Fast High-Fidelity Speech Synthesis
【発明の概要】
【課題を解決するための手段】
【0005】
本開示の一態様は、データ処理ハードウェア上で実行されると、データ処理ハードウェアに動作を実行させるコンピュータ実装方法を提供する。動作は、1つまたは複数の広告キャンペーン属性を有するターゲット広告に対する合成されたボイスオーバスピーチを生成するためのボイスオーバ要求を受信するステップを含む。動作はまた、1つまたは複数の広告キャンペーン属性に基づいて、合成されたボイスオーバスピーチのテキストのシーケンスを含むボイスオーバスクリプトを生成するステップを含む。動作はまた、テキスト読上げ(TTS)システムを使用して、合成されたボイスオーバスピーチを生成するステップを含む。TTSシステムは、ボイスオーバスクリプトのテキストのシーケンスを入力として受信することと、ターゲットTTSバーティカルによって指定されたスピーチ特性を有する合成されたボイスオーバスピーチを出力として生成することとを行うように構成されている。動作はまた、合成されたボイスオーバスピーチをターゲット広告にオーバレイするステップを含む。
【0006】
本開示の実装形態は、以下の任意の機能のうちの1つまたは複数を含み得る。いくつかの実装形態では、動作は、1つまたは複数の広告キャンペーン属性に基づいてターゲットTTSバーティカルを選択するステップをさらに含む。ターゲットTTSバーティカルによって指定されるスピーチ特性は、合成されたボイスオーバスピーチによって伝えられる韻律/スタイル情報を指定する発話埋込み、および合成されたボイスオーバスピーチの音声特性を指定する話者埋込みのうちの少なくとも1つを含み得る。
【0007】
任意で、広告キャンペーン属性は、見出し、行動喚起、地理的地域、言語、または視聴者層のうちの少なくとも1つを含み得る。いくつかの例では、ボイスオーバスクリプトのテキストのシーケンスは、1つまたは複数の単語を含み、合成されたボイスオーバスピーチをターゲット広告にオーバレイするステップは、ターゲット広告がそれぞれのタイムスタンプを含む再生時間を有する場合、ボイスオーバスクリプトの1つまたは複数の単語が合成されたボイスオーバスピーチによって話されるべきそれぞれのタイムスタンプを決定するステップと、ボイスオーバスクリプトの1つまたは複数の単語に対応する合成されたボイスオーバスピーチのセグメントがターゲット広告のそれぞれのタイムスタンプにおいて発生するように、合成されたボイスオーバスピーチをターゲット広告と位置合わせするステップとを含む。
【0008】
いくつかの実装形態では、合成されたボイスオーバスピーチのボイスオーバスクリプトを生成するステップは、広告キャンペーンに関連付けられるランディングページのユニフォームリソースロケータ(URL)からフレーズを識別するステップと、ランディングページURLから識別されたフレーズの各々をランク付けするステップとによって、1つまたは複数の広告キャンペーン属性を有する広告キャンペーンに関連する1つまたは複数の単語を識別するステップを含み得る。フレーズの各々のランクは、それぞれのフレーズが広告キャンペーンの1つまたは複数の広告キャンペーン属性に関連する可能性に対応する。ここで、動作は、識別されたフレーズのランクがしきい値を満たすかどうかを決定するステップをさらに含み得る。ボイスオーバスクリプトを生成するステップは、識別されたフレーズのうちの1つのランクがしきい値を満たし、ボイスオーバスクリプトのテキストのシーケンスがしきい値を満たす識別されたフレーズを表す場合に発生し得る。
【0009】
これらの実装形態では、識別されたフレーズのランクがしきい値を満たさないという決定に応じて、動作は、異なる広告キャンペーンに関連付けられる広告のコーパスにアクセスするステップであって、各広告が、それぞれのボイスオーバスクリプトおよび広告キャンペーン属性のセットを有するそれぞれの広告キャンペーンに関連付けられる、ステップと、ボイスオーバ要求の1つまたは複数の広告キャンペーン属性と同様の広告キャンペーン属性を有する広告のコーパスから1つまたは複数の広告を識別するステップと、ボイスオーバ要求の1つまたは複数の広告キャンペーン属性と同様の広告キャンペーン属性を有する、識別された1つまたは複数の広告のそれぞれのボイスオーバスクリプトに基づいて、合成されたボイスオーバスピーチのボイスオーバスクリプトを生成するステップとをさらに含む。
【0010】
いくつかの例では、TTSシステムは、ボイスオーバスクリプトのテキストのシーケンスをボイスオーバスクリプトの対応する合成されたスピーチ表現に変換するように構成されたTTSモデルと、TTSモデルから出力された合成されたスピーチ表現から合成されたボイスオーバスピーチを生成するように構成されたTTSシンセサイザとを含む。任意で、1つまたは複数の広告キャンペーン属性は、人間が作成した広告キャンペーンに関連付けられ得る。
【0011】
本開示の別の態様は、データ処理ハードウェアと、データ処理ハードウェア上で実行されると、データ処理ハードウェアに、動作を実行させる命令を記憶するメモリハードウェアとを含むシステムを提供する。動作は、1つまたは複数の広告キャンペーン属性を有するターゲット広告に対する合成されたボイスオーバスピーチを生成するためのボイスオーバ要求を受信することを含む。動作はまた、1つまたは複数の広告キャンペーン属性に基づいて、合成されたボイスオーバスピーチのテキストのシーケンスを含むボイスオーバスクリプトを生成することを含む。動作はまた、テキスト読上げ(TTS)システムを使用して、合成されたボイスオーバスピーチを生成することを含む。TTSシステムは、ボイスオーバスクリプトのテキストのシーケンスを入力として受信することと、ターゲットTTSバーティカルによって指定されたスピーチ特性を有する合成されたボイスオーバスピーチを出力として生成することとを行うように構成されている。動作はまた、合成されたボイスオーバスピーチをターゲット広告にオーバレイすることを含む。
【0012】
本開示の実装形態は、以下の任意の機能のうちの1つまたは複数を含み得る。いくつかの実装形態では、動作は、1つまたは複数の広告キャンペーン属性に基づいてターゲットTTSバーティカルを選択することをさらに含む。ターゲットTTSバーティカルによって指定されるスピーチ特性は、合成されたボイスオーバスピーチによって伝えられる韻律/スタイル情報を指定する発話埋込み、および合成されたボイスオーバスピーチの音声特性を指定する話者埋込みのうちの少なくとも1つを含み得る。
【0013】
任意で、広告キャンペーン属性は、見出し、行動喚起、地理的地域、言語、または視聴者層のうちの少なくとも1つを含み得る。いくつかの例では、ボイスオーバスクリプトのテキストのシーケンスは、1つまたは複数の単語を含み、合成されたボイスオーバスピーチをターゲット広告にオーバレイすることは、ターゲット広告がそれぞれのタイムスタンプを含む再生時間を有する場合、ボイスオーバスクリプトの1つまたは複数の単語が合成されたボイスオーバスピーチによって話されるべきそれぞれのタイムスタンプを決定することと、ボイスオーバスクリプトの1つまたは複数の単語に対応する合成されたボイスオーバスピーチのセグメントがターゲット広告のそれぞれのタイムスタンプにおいて発生するように、合成されたボイスオーバスピーチをターゲット広告と位置合わせすることとを含む。
【0014】
いくつかの実装形態では、合成されたボイスオーバスピーチのボイスオーバスクリプトを生成することは、広告キャンペーンに関連付けられるランディングページのユニフォームリソースロケータ(URL)からフレーズを識別することと、ランディングページURLから識別されたフレーズの各々をランク付けすることとによって、1つまたは複数の広告キャンペーン属性を有する広告キャンペーンに関連する1つまたは複数の単語を識別することを含み得る。フレーズの各々のランクは、それぞれのフレーズが広告キャンペーンの1つまたは複数の広告キャンペーン属性に関連する可能性に対応する。ここで、動作は、識別されたフレーズのランクがしきい値を満たすかどうかを決定することをさらに含み得る。ボイスオーバスクリプトを生成することは、識別されたフレーズのうちの1つのランクがしきい値を満たし、ボイスオーバスクリプトのテキストのシーケンスがしきい値を満たす識別されたフレーズを表す場合に発生し得る。
【0015】
これらの実装形態では、識別されたフレーズのランクがしきい値を満たさないという決定に応じて、動作は、異なる広告キャンペーンに関連付けられる広告のコーパスにアクセスすることであって、各広告が、それぞれのボイスオーバスクリプトおよび広告キャンペーン属性のセットを有するそれぞれの広告キャンペーンに関連付けられる、ことと、ボイスオーバ要求の1つまたは複数の広告キャンペーン属性と同様の広告キャンペーン属性を有する広告のコーパスから1つまたは複数の広告を識別することと、ボイスオーバ要求の1つまたは複数の広告キャンペーン属性と同様の広告キャンペーン属性を有する、識別された1つまたは複数の広告のそれぞれのボイスオーバスクリプトに基づいて、合成されたボイスオーバスピーチのボイスオーバスクリプトを生成することとをさらに含む。
【0016】
いくつかの例では、TTSシステムは、ボイスオーバスクリプトのテキストのシーケンスをボイスオーバスクリプトの対応する合成されたスピーチ表現に変換するように構成されたTTSモデルと、TTSモデルから出力された合成されたスピーチ表現から合成されたボイスオーバスピーチを生成するように構成されたTTSシンセサイザとを含む。任意で、1つまたは複数の広告キャンペーン属性は、人間が作成した広告キャンペーンに関連付けられ得る。
【0017】
本開示の1つまたは複数の実施形態の詳細は、添付の図面および以下の説明に記載される。他の態様、特徴、および利点は、説明および図面、ならびに特許請求の範囲から明らかになるであろう。
【図面の簡単な説明】
【0018】
図1】自動ボイスオーバ生成のためのシステム例の概略図である。
図2A】例示的なスクリプトジェネレータの概略図である。
図2B】例示的なスクリプトジェネレータの概略図である。
図3】例示的なテキスト読上げシステムの概略図である。
図4A】例示的な音声オーバレイモジュールの概略図である。
図4B】例示的な音声オーバレイモジュールの概略図である。
図5】自動ボイスオーバ生成を実行する方法の動作の例示的な構成のフローチャートである。
図6】本明細書で説明されるシステムおよび方法を実装するために使用され得る例示的なコンピューティングデバイスの概略図である。
【発明を実施するための形態】
【0019】
様々な図面における同様の参照符号は同様の要素を示す。
【0020】
広告キャンペーンは一般に、1つまたは複数の市場内でのブランド認知の促進、売上の増加、および/またはコミュニケーションの改善を目的として設計された広告戦略を指す。広告キャンペーンは、ブランドまたは製品を中心としたゴールまたは目標を含むことがよくある。いくつかの目標は、顧客の獲得または拡大、現在の製品の宣伝、および/または新製品の発売を含む。広告キャンペーンの設計または戦略はまた、特定の感情または感覚をブランドまたは製品と関連付けることを求める場合がある。たとえば、広告キャンペーンにおいて、新しいおもちゃが楽しく、刺激的で、遊び心のあるものとして販売される一方で、新しい女性用ワークブーツが、頑丈で、アウトドア向けで、実用的で、一般的に強度を発揮するものとして販売される場合がある。この意味で、広告キャンペーンは、広告キャンペーンの戦略を特徴付ける1つまたは複数の属性を含む。これらの属性は、ターゲット視聴者(たとえば、年齢、性別、社会階級、婚姻状況、教育レベル、興味、習慣、および/または趣味などの人口統計の詳細)、広告コンテンツのタイプ(たとえば、写真または画像などの静的な広告、あるいはビデオなどの動的な広告)、広告キャンペーンに関連付けられる1つまたは複数の広告の内容(すなわち、広告のコンテンツ)、広告のフォームファクタ(たとえば、ウェブページの広告周囲に埋め込まれたビデオと、プライマリコンテンツ内のコマーシャル)、広告キャンペーンの指標、および/または、広告コンテンツが配置/ホストされるべき場所に関する情報などの広告キャンペーンのプロパティを指定し得る。
【0021】
デジタルマーケティングが拡大し続けるにつれて、広告キャンペーンは広告のソーシャルエンジニアリングを理解するためにより洗練されてきた。この理解に基づいて、広告に巧妙に作成された(すなわち、スクリプト化された)オーディオを含む広告キャンペーンは、一般に、オーディオコンテンツのない広告と比較した場合、ターゲット視聴者に対してより大きい効果があることが観察されている。したがって、広告キャンペーンは、音声または語り口をメディアコンテンツ、特に可聴音声のないメディアコンテンツに関連付けるために、ボイスオーバの制作技法を含めようとすることがよくある。この点において、広告代理店および広告キャンペーンを運営する事業体は、広告キャンペーンに関連付けられる広告にボイスオーバを追加することをますます求めている。
【0022】
残念ながら、ボイスオーバが広告キャンペーンにとって効果的であるためには、ボイスオーバがターゲット消費者を代表する音声で広告キャンペーンの製品、サービス、または会社を適切に説明する必要がある。言い換えれば、ボイスオーバは、特定の製品またはブランドの広告キャンペーンに関連する目的、ゴール、目標、および/または属性を反映する必要がある。したがって、ボイスオーバ生成プロセスは通常、広告キャンペーンに合わせて慎重に調整された(または、適切に説明された)ボイスオーバスクリプトを生成するために、複数回の反復を含み得る。厳選されたボイスオーバスクリプトを使用すると、ボイスオーバ用の音声が広告キャンペーンの主要な特性を表すために使用される。すなわち、ボイスオーバ用の音声は、広告キャンペーンの1つまたは複数の特性に対応する韻律/話し方(たとえば、イントネーション、ピッチ、リズムなど)を有するように選択される。たとえば、ワークブーツの広告に戻ると、強度を発揮するために、ゆっくりと意図的で自信を持って話すリズムを示す話し方/韻律で話す女性声優が選ばれる場合がある。
【0023】
さらに、製品の広告キャンペーンが複数の地域または国にまたがる場合、広告キャンペーンを表す音声特性を持たせるために異なる声優が必要になる場合がある。米国で放映されるワークブーツの広告は、米国人(すなわち、アメリカ英語)が話すような音声特性で話されるボイスオーバスクリプトを含み得、一方、イギリスで放映される同じ製品の広告キャンペーンは、イギリス人(すなわち、イギリス英語)が話すような音声特性で話されるボイスオーバスクリプトを含み得る。これは、広告キャンペーンの消費者をターゲットにするために、必要に応じて、異なる言語、異なる性別、および/または異なるアクセント/方言を表す音声特性でボイスオーバスクリプトが話されてよいことを意味する。広告キャンペーンによるこれらの様々な要求により、視聴者を効果的にターゲットにするためのボイスオーバを生成することは、ボイスオーバスクリプト生成およびボイスオーバスクリプトからのボイスオーバ生成の点で、すぐに複雑になりコストが高くなる可能性がある。たとえば、複数の国にまたがる広告キャンペーンは、複数の言語におけるボイスオーバスクリプトと、特定の言語を話す複数のボイスオーバ俳優/女優を必要とする。
【0024】
現在の手法の中には、広告キャンペーン用にボイスオーバを合成することによって、ボイスオーバ生成に関するこれらの問題に対処しようとするものもある。合成音声を使用すると、ボイスオーバスピーチを提供するために人間の声優に依存しないという利点がある。しかしながら、これらの現在の手法は、広告キャンペーン属性に基づく合成されたスピーチの音声特性に基づいていない。つまり、現在のボイスオーバ手法は、広告キャンペーンの1つまたは複数の属性を具体的に表すスピーチ特性にしたがって合成されたスピーチを生成するために、スピーチシンセサイザを使用していない。さらに、現在の手法が広告キャンペーンに特有のスピーチ特性を持たない合成スピーチを生成する場合でも、これらの実装形態は一般に、合成されたスピーチを生成するためにボイスオーバスクリプトまたはスピーチトランスクリプトを受信することに依存している。別の言い方をすれば、ボイスオーバスクリプトは自動的に生成される(すなわち、機械/コンピュータが生成する)のではなく、広告の専門家、またはブランドまたは製品に関連付けられる事業体によって作成される(すなわち、人間が生成する)。これは、合成されたスピーチを使用する場合でも、ボイスオーバスクリプト生成が依然としてボイスオーバ生成プロセス全体においてボトルネックを引き起こす可能性があることを意味する。
【0025】
本明細書における実装形態は、自動ボイスオーバ生成の方法を対象としている。方法は、1つまたは複数の広告キャンペーン属性を有するターゲット広告用の合成されたボイスオーバスピーチを生成するためにボイスオーバ要求を受信する、ボイスオーバ生成モデルを実行する。広告キャンペーン属性は、コンピュータで生成されてもよく、ボイスオーバ要求のユーザによって提供されてもよい。これらのキャンペーン属性は、ボイスオーバスクリプトで何を言うか、それをどのように言うかという観点からボイスオーバ生成モデルにコンテキストを提供する。ボイスオーバ生成モデルは、1つまたは複数の広告キャンペーン属性のスピーチ特性を有する合成されたボイスオーバスピーチに変換するためのボイスオーバスクリプトを生成する。すなわち、ボイスオーバ生成モデルはボイスオーバスクリプトを生成し、広告キャンペーン属性に基づいて意図した消費者のグループを具体的にターゲットにするために、結果として合成されたボイスオーバスピーチが伝えるべきスピーチ特性を決定する。次いで、ボイスオーバ生成モデルは、合成されたボイスオーバスピーチをターゲット広告にオーバレイする。次いで、広告キャンペーンを管理する事業体(たとえば、ボイスオーバ要求を生成する事業体)は、合成されボイスオーバスピーチがオーバレイされたターゲット広告をターゲット視聴者に展開し得る。本明細書で使用される場合、ボイスオーバ要求は、ターゲット広告に含めるための合成されたボイスオーバスピーチに変換するためのボイスオーバスクリプトを生成するというユーザからの明示的な要求を含んでもよく、コンピューティングデバイスは、特定のターゲット広告がボイスオーバスピーチを含んでいないことを検出すると、ボイスオーバ要求を自動的に生成してもよい。
【0026】
ここで図1を参照すると、いくつかの実装形態では、例示的なシステム100は、ネットワーク130を介してリモートシステム130と通信する1つまたは複数のユーザデバイス110を含む。ユーザデバイス110は、デスクトップワークステーション、ラップトップワークステーション、またはモバイルデバイス(すなわち、スマートフォン)などの任意のコンピューティングデバイスに対応し得る。ユーザデバイス110は、コンピューティングリソース112(たとえば、データ処理ハードウェア)および/またはストレージリソース114(たとえば、メモリハードウェア)を含む。リモートシステム130は、ネットワーク120を介して、それぞれのユーザ10に関連付けられるユーザデバイス110からボイスオーバ要求102を受信するように構成されている。リモートシステム130は、コンピューティングリソース134(たとえば、データ処理ハードウェア)および/またはストレージリソース136(たとえば、メモリハードウェア)を含むスケーラブル/弾性リソース134を有する複数のコンピュータまたは分散システム(たとえば、クラウド環境)であり得る。
【0027】
ボイスオーバ要求102は、ボイスオーバジェネレータ140がターゲット広告104用の合成されたボイスオーバスピーチ352を生成することを要求する。ここで、合成されたボイスオーバスピーチ352は、オーディオとしてメディアコンテンツ(たとえば、ターゲット広告104)にオーバレイされたボイスオーバスクリプトから生成された機械生成スピーチを指す。ターゲット広告104は、ボイスオーバをまったく含まないか、ターゲット広告104の一部のボイスオーバのみを含むオーディオ広告またはビデオ広告であってもよい。本明細書の例は、ターゲット広告上にオーバレイされる合成されたボイスオーバスピーチ352を自動的に生成することを対象としているが、本明細書の実装形態は、限定されないが、いくつか例を挙げると、ドキュメンタリ、音楽演奏、および教育ビデオなどの他のタイプのメディアコンテンツに対する合成されたボイスオーバスピーチ352を自動的に生成することにも同様に適用可能である。ターゲット広告104は、1つまたは複数の広告キャンペーン属性106を有する広告キャンペーンに関連付けられ、これらの広告キャンペーン属性106がターゲット広告104に代入される。広告キャンペーン属性106は、ターゲット広告104およびターゲット広告104のターゲット消費者(すなわち、ターゲット視聴者)にコンテキストを提供し得る。したがって、ボイスオーバ生成モデル140は、1つまたは複数の広告キャンペーン属性106に基づいて合成されたボイスオーバスピーチ352を生成する。いくつかの例では、ユーザデバイス110またはリモートシステム130は、ターゲット広告104(すなわち、オーディオビデオデータ)がボイスオーバスピーチを含むかどうかを検出するように構成されたボイスオーバ検出器180を実行する。これらの例では、ボイスオーバ検出器180は、ターゲット広告104からボイスオーバスピーチ/コンテンツが検出されない(たとえば、存在しない)ときに表示を出力し得る。出力表示は、ユーザ10にボイスオーバ要求102をボイスオーバ生成モデル140に提供することを促す提案として機能し得る。あるいは、ボイスオーバ検出器180は、ターゲット広告104用の合成されたボイスオーバスピーチ352を生成するようにボイスオーバジェネレータ140に要求するために、ボイスオーバ要求102を自動的に生成してボイスオーバジェネレータ140に提供し得る。
【0028】
広告キャンペーンは、広告主または他の何らかの広告管理事業体(たとえば、図示されたユーザ10)によって構成され得る。広告主または広告管理事業体は、キャンペーンが構成されるときに、広告キャンペーンの広告キャンペーン属性106(属性106とも呼ばれる)を提供してもよく、広告キャンペーンシステムは、広告主/広告管理事業体によって広告キャンペーンシステムに提供される広告情報に基づいて、1つまたは複数の広告キャンペーン属性106を推論または自動的に生成してもよい。すなわち、広告キャンペーン属性106は、人間が作成した広告キャンペーン、またはコンピュータが生成した広告キャンペーンに関連付けられ得る。いくつかの例では、ボイスオーバ要求102を生成するユーザ(たとえば、ユーザ10)は、広告キャンペーン(および属性106)を調整する(たとえば、設定する)同じ事業体である。他の例では、広告キャンペーンシステムがボイスオーバ要求を自動的に生成し得る。たとえば、広告キャンペーンシステムは(たとえば、ボイスオーバジェネレータ140と連携して)、広告キャンペーンに関連付けられる広告にボイスオーバコンテンツが欠けているときを検出することと、広告キャンペーンを担当する事業体に合成されたボイスオーバスピーチを生成するオプションを提供することとを行うように構成される。いくつかの実装形態では、広告キャンペーンシステム(たとえば、ボイスオーバジェネレータ140)は、特定の広告(たとえば、ボイスオーバコンテンツを欠く広告)用の合成されたボイスオーバスピーチ352を自動的に生成し、自動的に生成された合成されたボイスオーバスピーチを、広告キャンペーンを担当する事業体(たとえば、ユーザ10)に推奨する。
【0029】
広告キャンペーン属性106は、見出し、行動喚起、地理的地域、言語、または視聴者層を含み得るが、これらに限定されない。見出しは、「クーポンを入手するにはABC123.comにアクセスしてください」または「日常のパフォーマンスアパレル」などの、ターゲット広告104のブランド(たとえば、会社)または製品に関連するスローガンまたは格言を含み得る。行動喚起は、広告のターゲット消費者が実行するべきアクションを含み得る。行動喚起の例には、「今すぐ購入」、「今すぐアプリをダウンロード」、または「リンクをクリックして詳細を確認」がある。地理的領域は、特定の国、州、都市、または地域などの、広告キャンペーンのターゲット領域を含み得る。言語は、ターゲット広告104の意図された言語を含み得る。視聴者層は、ターゲット広告104のターゲット消費者(すなわち、ターゲット視聴者)を含み得る。たとえば、視聴者層は、18~30歳の男性、または40~62歳の女性である。視聴者人口統計は、ターゲット広告104の広告事業体がターゲット広告104を用いてキャプチャしようとしているターゲット消費者に関する主要な特性を提供し得る。広告キャンペーン属性106はまた、ランディングページのユニフォームリソースロケータ(URL)、製品タイプ、および/またはターゲット広告104のコンテンツ(たとえば、ブランドまたは製品)に関連付けられる業界を含み得る。
【0030】
いくつかの実装形態では、ボイスオーバ要求102は、ターゲット広告104の1つまたは複数の広告キャンペーン属性106を表すスピーチ特性304を有する合成されたボイスオーバスピーチ352を要求する。ボイスオーバジェネレータ140は、リモートシステム130、ユーザデバイス110、またはそれらの何らかの組合せ上で実行することによって、ボイスオーバ要求102のターゲット広告104のための合成されたボイスオーバスピーチ352を生成するように構成され得る。より具体的には、ボイスオーバジェネレータ140は、スクリプトジェネレータ200、テキスト読上げ(TTS)システム300、およびスピーチオーバレイモジュール400を含み得る。スクリプトジェネレータ200は、ターゲット広告104用のボイスオーバスクリプト252(すなわち、コンピュータ/機械生成のボイスオーバスクリプト252)を生成するように構成されている。ここで、スクリプトジェネレータ200がボイスオーバスクリプト252を生成するとき、ボイスオーバスクリプト252は、スクリプト生成中に人間の入力を加えずに完全に機械生成され得る。ボイスオーバスクリプト252は、ターゲット広告104中に合成されたボイスオーバスピーチとして話される内容のテキストのシーケンスを含む。特に、ボイスオーバスクリプト252は、ターゲット広告104中に合成されたボイスオーバスピーチとして話される1つまたは複数の単語のテキスト表現を含む。ターゲット広告104に関連するボイスオーバスクリプト252を自動的に生成するために、スクリプトジェネレータ200は、1つまたは複数の広告キャンペーン属性106を表す(すなわち、特徴付ける)テキストのシーケンスを生成する。すなわち、スクリプトジェネレータ200は、ボイスオーバスクリプト252がターゲット広告104に関連するように、1つまたは複数の広告キャンペーン属性106に基づいてボイスオーバスクリプト252を生成する。スクリプトジェネレータ200がボイスオーバスクリプト252を生成すると、スクリプトジェネレータ200は、ボイスオーバスクリプト252をTTSシステム300に通信する。
【0031】
スクリプトジェネレータ200は、1つまたは複数の広告キャンペーン属性106に基づいてボイスオーバスクリプト252を自動的に生成するための1つまたは複数の言語モデルを実装し得る。いくつかの実装形態では、スクリプトジェネレータ200は、既存の広告(たとえば、トレーニング広告)208、208a~n(図2B)のコーパスから抽出されたトレーニングボイスオーバスピーチのキャプションでトレーニングされた1つまたは複数の言語モデルを含む。特に、キャプションは参照ボイスオーバスクリプト252R(図2B)として機能する。これらの実装形態では、広告コーパス内の広告208は、トレーニング中に言語モデルを調整するためのラベルとしてさらに使用され得る、対応する参照キャンペーン属性106R(図2B)に関連付けられ得る。
【0032】
TTSシステム300は、ボイスオーバスクリプト252を、広告キャンペーン属性106を表すターゲットTTSバーティカル312によって指定されるスピーチ特性304を有する対応する合成ボイスオーバスピーチ352に変換するように構成されている。すなわち、TTSシステム300は、広告キャンペーン属性106および/またはボイスオーバスクリプト252に基づいて、ボイスオーバスクリプト252をどのように言うかを決定する。ターゲットTTSバーティカル312は、ターゲット広告104に最も適したボイスオーバスピーチ352の特定の「キャラクタ」を伝え得る。したがって、TTSシステム300は、ターゲット広告104に関連付けられる広告タイプ/バーティカルに基づいてターゲットTTSバーティカル312を選択し得る。TTSシステム300は、広告タイプ/バーティカルを識別するために広告キャンペーン属性106を使用し、それによって、それに関連付けられる適切なターゲットTTSバーティカル312と、スピーチ特性304に対応するその種類とを選択し得る。ターゲットTTSバーティカル312によって指定されるスピーチ特性304は、合成音声を生成するためにテキスト入力によって提供されない多くの言語要素を含み得る。これらの言語要素のサブセットはまとめて韻律と呼ばれ、イントネーション(ピッチの変化)、強勢(強勢のある音節と強勢のない音節)、音の長さ、音量、トーン、リズム、および話し方などを含み得る。韻律は、スピーチの感情状態、スピーチの形式(たとえば、発言、質問、命令など)、スピーチの皮肉または嫌味の存在、スピーチの知識における不確実性、あるいは入力テキストの文法または語彙の選択によってエンコードすることができない他の言語要素を示し得る。言語要素はまた、地理的地域の特定の話者のアクセント、方言、および/または言語を含み得る。TTSシステム300は、合成されたボイスオーバスピーチ352をスピーチオーバレイモジュール400に送信する。
【0033】
スピーチオーバレイモジュール400は、ボイスオーバ広告450を生成するために、TTSシステム300によって生成された合成されたボイスオーバスピーチ352をターゲット広告104上にオーバレイするように構成されている。ここで、ボイスオーバ広告450は、広告キャンペーン属性106を表すターゲットTTSバーティカル312内の合成されたボイスオーバスピーチ352を有するターゲット広告104(すなわち、オーディオ広告またはビデオ広告)を含む。スピーチオーバレイモジュール400が、合成されたボイスオーバスピーチ352をターゲット広告104上にオーバレイするとき、スピーチオーバレイモジュール400は、合成されたボイスオーバスピーチ352をターゲット広告104の特定の部分または複数の部分と位置合わせするように構成され得る。たとえば、合成されたボイスオーバスピーチ352は10秒のスピーチを含み、ターゲット広告104は20秒の長さであり得る。ここで、スピーチオーバレイモジュール400は、10秒間の合成されたボイスオーバスピーチ352がターゲット広告104の20秒間にいつ話されるかを決定する。ボイスオーバジェネレータ140は、広告キャンペーンの実装を担当する事業体またはシステムにボイスオーバ広告450を提供する。たとえば、図1に示されるように、ボイスオーバジェネレータ140は、ユーザデバイス110に関連付けられるユーザ10にボイスオーバ広告450を通信する。
【0034】
いくつかの例では、ボイスオーバ要求102は、ターゲット広告104および1つまたは複数の広告キャンペーン属性106のみを含む。したがって、スクリプトジェネレータ200は、広告キャンペーン属性106に基づいて、ボイスオーバ広告450の対応する合成されたボイスオーバスピーチ352に変換するためのボイスオーバスクリプト252を決定/生成するように構成される。次に図2Aを参照すると、いくつかの実装形態では、例示的なスクリプトジェネレータ200、200aは、スクレーパ210、分類器220、およびテキストジェネレータ250を含む。場合によっては、ターゲット広告104の広告キャンペーン属性106は、ランディングページユニフォームリソースロケータ(URL)204を含む。ランディングページURL204は、ターゲット広告104に関連付けられるコンテンツ(たとえば、ターゲット広告104の会社、ブランド、または製品に関連付けられるコンテンツ)を含む任意のウェブページであり得る。たとえば、ターゲット広告104は、ターゲット広告104の会社のホームページにリンクされたランディングページURL204、ターゲット広告104の製品の詳細情報を含むウェブページ、またはターゲット広告104のソース、ブランド、および/または製品に関連付けられる任意の他のウェブページを含むビデオ広告である。
【0035】
スクリプトジェネレータ200は、ターゲット広告104のランディングページURL204にアクセスするために、オンラインデータベース202と通信し得る。特に、スクレーパ210は、ターゲット広告104および1つまたは複数の広告キャンペーン属性106を受信し、オンラインデータベース202にアクセスすることによってターゲット広告104のランディングページURL204を取得する。スクレーパ210がランディングページURL204を取得すると、スクレーパ210は、フレーズ212を識別するためにランディングページURL204のコンテンツを解析するように構成される。すなわち、ランディングページURL204は、フレーズ、グラフィックス、ビデオ、リンクなどの様々なコンテンツを含み、スクレーパ210は、ランディングページURL204に含まれる他のコンテンツの中からフレーズ212を識別するためにコンテンツを解析する。識別されたフレーズ212は、単一の単語、1つまたは複数の単語、句読点、記号、および/または数字を含み得る。場合によっては、ランディングページURL204は、ターゲット広告104の会社、ブランド、および/または製品に関連付けられているため、ランディングページURL204は、ボイスオーバスクリプト252に含まれ得るフレーズを含む。言い換えれば、ランディングページURL204からのフレーズは、ボイスオーバスクリプト252に潜在的に含まれる候補フレーズであり得る。
【0036】
たとえば、スポーツウェア会社のターゲット広告104は、スポーツウェア会社のホームページにリンクされたランディングページURL204を含み得る。スクレーパ210は、スポーツウェア会社のランディングページURL204を取得するために、オンラインデータベース202にアクセスし得る。ここで、スクレーパ210は、ランディングページURL204のコンテンツを解析し、ランディングページURL204から、「今すぐ購入」、「利用規約」、「20%オフ」、「今あなたに必要なスタイル」、および「配送情報」を含む1つまたは複数のフレーズ212を識別する。スクレーパ210は、識別されたフレーズ212の各々を分類器220に送信する。
【0037】
スクレーパ210によって識別される、識別されたフレーズ212のうちの1つまたは複数はターゲット広告104に関連し得るが、スクレーパ210によって識別される他のフレーズ212はターゲット広告104に関連しない。したがって、スクリプトジェネレータ200aは、ボイスオーバスクリプト252を生成するために、ターゲット広告104に関連する識別されたキーワードのみを使用する。したがって、分類器220は、ターゲット広告104の広告キャンペーン属性106に基づいて、識別されたフレーズ212のどれがターゲット広告104のキーフレーズ212、212Kであるかを分類するように構成される。分類器220は、ランディングページURL204から識別されたフレーズ212の各々をランク付けすることによって、識別されたフレーズ212がキーフレーズ212Kであるかどうかを決定する。ここで、識別されたフレーズ212の各々のランクは、識別されたフレーズ212がターゲット広告104の広告キャンペーン属性106に関連する可能性(たとえば、識別されたフレーズ212がキーフレーズ212Kである可能性)に対応する。
【0038】
上記の例を続けると、分類器220は、ターゲット広告104の広告キャンペーン属性106を使用してスクレーパ210から受信した、識別されたフレーズ212「今すぐ購入」、「利用規約」、「20%オフ」、「今あなたに必要なスタイル」、および「配送情報」の各々をランク付けする。ここで、広告キャンペーン属性106は、ウェアの会社、運動競技、および12歳から40歳までの人々の視聴者層を含む。この例では、分類器220は、識別されたフレーズ212の各々を、識別されたフレーズ212がターゲット広告104に関連する可能性が最も低いことを示す0から、識別されたフレーズ212がターゲット広告104に関連する可能性が最も高いことを示す1までランク付けし得る。分類器220は、「今すぐ購入」を0.85の可能性で、「利用規約」を0.3の可能性で、「20%オフ」を0.75の可能性で、「今あなたに必要なスタイル」を0.9の可能性で、および「配送情報」を0.35の可能性でランク付けする。分類器220は、広告キャンペーン属性106から、ターゲット広告104がスポーツウェアの広告に関連しており、識別されたフレーズ212「今すぐ購入」、「今あなたに必要なスタイル」、および「20%オフ」が、識別されたフレーズ212「利用規約」および「配送情報」よりもターゲット広告104に関連する可能性が高いことを決定する。
【0039】
いくつかの実装形態では、分類器220は、各識別されたフレーズ212に関連付けられるランクがしきい値を満たすかどうかを決定することによって、識別されたフレーズ212がキーフレーズ212Kであるかどうかを分類する。すなわち、しきい値は、分類器220が識別されたフレーズ212をキーフレーズ212Kとして分類するための、識別されたフレーズ212の最小ランク(たとえば、識別されたフレーズ212がターゲット広告104に関連する可能性)を示す。したがって、分類器220は、識別されたフレーズ212の各々がキーフレーズ212Kであるかどうかを決定し、キーフレーズ212Kの各々をテキストジェネレータ250に送信する。この例では、分類器220は0.7のしきい値を有し、「今すぐ購入」、「20%オフ」、および「今あなたに必要なスタイル」がキーフレーズ212Kであると決定する。次いで、分類器220は、キーフレーズ212Kをテキストジェネレータ250に送信する。
【0040】
テキストジェネレータ250は、分類器220から受信した1つまたは複数のキーフレーズ212Kを使用してボイスオーバスクリプト252を生成するように構成されている。テキストジェネレータ250は、1つまたは複数のキーフレーズ212Kを使用してボイスオーバスクリプト252を生成するために1つまたは複数の言語モデルを実装し得る。1つまたは複数のキーフレーズ212Kは、テキストジェネレータ250がボイスオーバスクリプト252を生成するために使用する「シードフレーズ」であり得る。ここで、ボイスオーバスクリプト252は、1つまたは複数の広告キャンペーン属性106を表すテキストのシーケンスを含む。ボイスオーバスクリプト252は、キーフレーズ212Kからのすべての単語を含んでもよく、キーフレーズ212Kからの単語の一部のみを含んでもよく、キーフレーズ212Kからの単語をまったく含まなくてもよい。テキストジェネレータ250は、キーフレーズ212Kを使用して、およびキーフレーズ212Kおよび/または広告キャンペーン属性106に関連する追加の単語を生成することによって、ボイスオーバスクリプト252を生成する。特に、テキストジェネレータ250がキーフレーズ212Kを使用してボイスオーバスクリプト252のみを生成した場合、ボイスオーバスクリプト252は不完全で途切れ途切れに聞こえる可能性がある。したがって、テキストジェネレータ250は、完全で一貫したボイスオーバスクリプト252を生成するために、キーフレーズ212Kおよび広告キャンペーン属性106に関連する追加の単語を生成する。
【0041】
この例を続けると、テキストジェネレータ250は、キーフレーズ212K「今すぐ購入」、「20%オフ」、および「今あなたに必要なスタイル」を受信し、ボイスオーバスクリプト252「あなたのスポーツウェアスタイルをすべて今すぐ購入すると、さらに20%オフになります」を生成する。ここで、テキストジェネレータ250が単にキーフレーズ212Kを使用する場合、ボイスオーバスクリプト252は「今あなたに必要なスタイルを今すぐ購入20%オフ」となり、これはターゲット広告104の一貫した説明にはならないであろう。したがって、テキストジェネレータ250は、完全なボイスオーバスクリプト252のための追加の単語を生成するために、キーフレーズ212Kおよび広告キャンペーン属性106を使用する。
【0042】
いくつかの実装形態では、分類器220は、識別されたフレーズ212のランクのすべてがしきい値を満たさないと決定する。ここで、ターゲット広告104がランディングページURL204を含まない、ランディングページURLが多くのテキストを含まない、および/またはランディングページURLがターゲット広告104に十分に関連する(たとえば、ターゲット広告104の属性106に関連する)テキストを含まないため、識別されたフレーズ212のいずれも、しきい値を満たさない可能性がある。ここで、分類器220は、ボイスオーバスクリプト252を生成するためにテキストジェネレータ250にキーフレーズ212Kを送信することができない。特に、これらの実装形態では、スクリプトジェネレータ200は、分類器220によって分類された「シード値」(たとえば、キーフレーズ212K)からの分類の助けを借りない生成を使用して、ボイスオーバスクリプト252全体を生成しなければならない。
【0043】
したがって、場合によっては、スクリプトジェネレータ200は、ランディングページURL204からのキーフレーズ212Kを使用せずにボイスオーバスクリプト252を生成する必要がある。次に図2Bを参照すると、いくつかの実装形態では、例示的なスクリプトジェネレータ200、200bは、広告データベース206、広告識別子230、およびテキストジェネレータ250を含む。広告データベース206は、広告208、208a~nのコーパスを含み、各広告208は、参照ボイスオーバスクリプト252、252Rおよび参照広告キャンペーン属性のセット106、106Rを含むそれぞれの広告キャンペーンに関連付けられる。たとえば、広告データベース206は、YouTube(登録商標)広告データベースに対応し、広告データベースにおける多数の広告はそれぞれ、参照ボイスオーバスクリプト252Rおよび参照広告キャンペーン属性106Rのセットを有する。参照ボイスオーバスクリプト252Rは、広告208のコーパス内の各広告における対応するボイスオーバスピーチのキャプションに対応し得る。いくつかの例では、自動スピーチ認識(ASR)システムは、参照ボイスオーバスクリプト252Rに対応するキャプションを生成するために、ボイスオーバスピーチに対してスピーチ認識を実行する。
【0044】
スクリプトジェネレータ200bは、広告データベース206から取得された広告208のコーパスを使用して、ターゲット広告104のボイスオーバスクリプト252を決定するように構成されている。特に、広告識別子230は、ターゲット広告104の広告キャンペーン属性106と同様の参照広告キャンペーン属性106Rを有する1つまたは複数の広告208を識別する。広告識別子230は、ターゲット広告104の広告キャンペーン属性106と同様の参照広告キャンペーン属性106Rを含む広告208が、ターゲット広告104を表す参照ボイスオーバスクリプト252Rを有する可能性が高いと決定する。広告識別子230は、類似性スコアを使用して、広告208のコーパスからの広告208を、ターゲット広告104の1つまたは複数の広告キャンペーン属性と類似の参照広告キャンペーン属性106Rを有するものとして識別する。すなわち、広告識別子230は、ターゲット広告104の広告キャンペーン属性106と、広告208のコーパスからの各広告208の参照広告キャンペーン属性106Rとの間の類似性を示す類似性スコアを、広告208の各々に割り当て得る。
【0045】
広告識別子230は、各広告208の類似性スコアが類似性しきい値を満たすかどうかを決定し得る。類似性しきい値は、参照ボイスオーバスクリプト252Rを使用してターゲット広告104のボイスオーバスクリプト252を生成するために、広告キャンペーン属性106と参照広告キャンペーン属性106Rとの間で必要とされる最小の類似性を表し得る。広告208の類似性スコアが類似性しきい値を満たす場合、広告識別子230は参照ボイスオーバスクリプト252Rをテキストジェネレータ250に送信する。広告208の類似性スコアが類似性しきい値を満たさない場合、広告識別子230は参照ボイスオーバスクリプト252Rをテキストジェネレータ250に送信しない。広告識別子230は、複数の類似性スコアが類似性しきい値を満たす場合、複数の参照ボイスオーバスクリプト252R、252Ra~nを送信し得る。
【0046】
1つまたは複数の参照ボイスオーバスクリプト252Rを使用して、テキストジェネレータ250は、ターゲット広告104のボイスオーバスクリプト252を生成する。すなわち、テキストジェネレータ250は、ターゲット広告104に固有のボイスオーバスクリプト252を生成するために、ターゲット広告104の広告キャンペーン属性106と同様の参照広告キャンペーン属性106Rを有する既存の広告208からの参照ボイスオーバスクリプト252Rを使用する。
【0047】
別の追加の実装形態として、前述したように、テキストジェネレータ250は、広告208のコーパスから抽出されたトレーニングボイスオーバスピーチのキャプションにおいてトレーニングされた言語モデルを含む。ここで、各キャプションは、対応する参照ボイスオーバスクリプト252Rに対応する。同様に、各広告に関連付けられる参照広告キャンペーン属性106Rは、トレーニング中に言語モデルを調整するためのラベルとして使用され得る。したがって、トレーニングされた言語モデルを実装するテキストジェネレータ250は、広告キャンペーン属性106を入力として受信し、ボイスオーバスクリプト252を出力として生成するように構成され得る。
【0048】
次に図3を参照すると、いくつかの実装形態では、TTSシステム300は、TTSバーティカルセレクタ310、TTSモデル320、およびスピーチ特性304の固有のセットによって指定される意図された韻律/スタイルを有するそれぞれの合成されたスピーチ352を出力するためのシンセサイザ350を含む。TTSバーティカルセレクタ310は、ターゲット広告104に関連付けられる1つまたは複数の広告キャンペーン属性106に基づいて、結果として得られる合成されたボイスオーバスピーチ352について、スピーチ特性304のセットを指定するターゲットTTSバーティカル312を選択するように構成されている。TTSバーティカルセレクタ310によるターゲットTTSバーティカル312の選択は、スクリプトジェネレータ200によって出力されたボイスオーバスクリプト252にさらに基づいてよい。
【0049】
前述したように、ターゲットTTSバーティカル312は、ターゲット広告104に最も適したボイスオーバスピーチ352の特定の「キャラクタ」を伝え得る。別の言い方をすれば、ターゲットTTSバーティカル312は、ターゲット広告に関連付けられる広告タイプ/バーティカルに通常関連付けられる話し方/韻律で話す仮想の声優を伝える。したがって、TTSバーティカルセレクタ310は、ターゲット広告104に関連付けられる広告タイプ/バーティカルに基づいてターゲットTTSバーティカル312を選択し得る。TTSシステム300は、広告タイプ/バーティカルを識別するために広告キャンペーン属性106を使用し、それによって、それに関連付けられる適切なターゲットTTSバーティカル312と、スピーチ特性304に対応するその種類とを選択し得る。たとえば、テクノロジ、小売、消費者向けパッケージ商品に関連するバーティカルにおける広告は、若々しい声で、またエネルギッシュで陽気な話し方/韻律を有する話し方の特性を指定する「クリエイタ」TTSバーティカル312に関連付けられてよく、一方、ヘルスケアおよび金融に関連するバーティカルにおける広告は、成人の声の特性を指定し、有益で、直接的で、自信に満ちた、および慎重な話し方/韻律を有する「エキスパート」TTSバーティカル312に関連付けられてよい。別の例として、自動車、消費者向けパッケージ商品、教育および政府機関、ならびにメディアエンターテインメントの広告に関連するバーティカルにおける広告は、低いピッチの大人の声で、直接の押売り(hard seller)を示す話し方/韻律を有するスピーチ特性304を指定する「アナウンサ」TTSバーティカル312に関連付けられ得る。美容、ファッション、旅行、およびウェルネスにおける広告は、リラックスした、滑らかで、柔らかい話し方/韻律でスピーチ特性304を指定する高級TTSバーティカル312にさらに関連付けられ得る。
【0050】
TTSバーティカルセレクタ310は、広告キャンペーン属性106に基づいてターゲットTTSバーティカル312を選択するヒューリスティックベースまたはニューラルネットワークベースのモデルであり得る。すなわち、TTSバーティカルセレクタ310は、参照広告208においてボイスオーバスピーチを話した声優によって伝えられるスピーチ特性と、対応する参照ボイスオーバスクリプト252R(たとえば、ボイスオーバスピーチのキャプション)と、参照広告208のコーパス内の広告208に関連付けられる広告タイプ/バーティカルとの間の相関から学習し得る。
【0051】
前述したように、ターゲットTTSバーティカル312によって指定されるスピーチ特性304は、ボイスオーバスクリプト252(すなわち、テキスト入力)によって提供されない、または伝えられない多くの言語要素を含み得る。これらの言語要素のサブセットはまとめて韻律と呼ばれ、イントネーション(ピッチの変化)、強勢(強勢のある音節と強勢のない音節)、音の長さ、音量、トーン、リズム、および話し方などを含み得る。韻律は、スピーチの感情状態、スピーチの形式(たとえば、発言、質問、命令など)、スピーチの皮肉または嫌味の存在、スピーチの知識における不確実性、あるいは入力テキストの文法または語彙の選択によってエンコードすることができない他の言語要素を示し得る。言語要素はまた、地理的地域の特定の話者のアクセント、方言、および/または言語を含み得る。
【0052】
ターゲットTTSバーティカル312によって指定されるスピーチ特性304は、発話埋込み304a、アクセント/方言識別子304b、または話者埋込み304cのうちの少なくとも1つを含み得る。発話埋込み304aは、発話埋込み304aによって指定された意図された韻律/スタイルを伝える合成されたスピーチ表現322をTTSモデル320が予測するために、意図された韻律/スタイルを指定する潜在変数を含み得る。すなわち、たとえば、発話埋込み304aは、TTSモデル320が複製することを目的とする合成されたスピーチ表現322に関連付けられる韻律/スタイル情報および/またはアクセント/方言情報を表し得る。たとえば、発話埋込み304aは、「クリエイタ」TTSバーティカル312のエネルギッシュで陽気な話し方/韻律、「エキスパート」TTSバーティカル312の有益で、直接的で、自信に満ちた、および慎重な話し方/韻律、「アナウンサ」分野の直接の押売りを伝える話し方/韻律情報、ならびに「高級」TTSバーティカル312のリラックスした、滑らかで、柔らかいスタイル/韻律を表し得る。異なる話し方/韻律にマッピングする他のTTSバーティカル312も想定される。
【0053】
アクセント/方言識別子304bは、結果として得られる合成されたボイスオーバスピーチ352のターゲットアクセント/方言を示す。たとえば、アクセント/方言識別子304bは、イギリス英語またはアメリカ英語のアクセント/方言のターゲットを識別し得る。いくつかの例では、アクセント/方言識別子304bは、アメリカ英語のテキサスアクセント、アメリカ英語の中西部アクセント、イギリス英語のサウスロンドンアクセント、イギリス英語のマンチェスタアクセントなどのきめの細かい方言を識別する。アクセント/方言識別子304bは、TTSモデル320が多言語である場合に言語識別子としてさらに機能し得、それによって、ボイスオーバスクリプト252とは異なる多数の言語で合成されたスピーチ表現322を生成するようにTTSモデル320を調整することができる。
【0054】
話者埋込み304cは、結果として得られる合成されたボイスオーバスピーチ352のターゲット音声の音声特性を示し得る。たとえば、話者埋込み304cは、ターゲット音声が男性/女性、子供/大人、低音/高音などであるかどうかを示し得る。話者埋込み304cは、TTSシステム300をトレーニングするために使用される参照発話を話した特定の声優の話者識別子を伝え得る。したがって、TTSシステム300は、異なるアクセント/方言および話し方/韻律にわたる合成されたボイスオーバスピーチ352内のターゲット話者の音声のクローンを作成するために、発話埋込み、アクセント/方言識別子304b、および話者埋込み304cを使用し得る。
【0055】
TTSモデル320は、ターゲットTTSバーティカル312によって指定されたスピーチ特性304を受信し、ボイスオーバスクリプト252の対応するテキストを合成されたスピーチ表現322に変換するように構成されている。したがって、合成されたスピーチ表現322は、TTSバーティカル312によって表される「キャラクタ」に関連付けられる話し方/韻律を伝える。話者埋込み304cは、TTSバーティカル312によって表される「キャラクタ」に関連付けられる同じ話し方/韻律で任意の特定のターゲット音声の音声のクローンを複製するようにTTSモデル320を調整し得る。同様に、アクセント/方言識別子304bは、様々な異なるアクセント/方言および同じ話し方/韻律で合成されたスピーチ表現322を生成するようにTTSモデル320を調整し得る。このシナリオは、ターゲット広告104が提供される地理的領域に関連付けられる異なるアクセント/方言にわたってボイスオーバスピーチを生成できるようにするため、特に有利である。たとえば、ミシガン州においてターゲット広告104を視聴/聴取している消費者向けに中西部アクセントの合成されたボイスオーバスピーチ352を生成するために、およびテキサス州においてターゲット広告104を視聴/聴取している消費者向けにテキサスアクセントの合成されたボイスオーバスピーチ352を生成するために、新車リース広告キャンペーン用のボイスオーバスクリプト252を使用することができる。
【0056】
TTSモデル320によって出力される合成スピーチ表現322は、メル周波数スペクトログラムのシーケンスを含み得る。いくつかの例では、TTSモデル320は、ボイスオーバスクリプト252を、TTSバーティカルセレクタ310によって選択されるターゲットTTSバーティカル312に関連付けられる韻律/スタイル情報を伝えるピッチ、エネルギー、および音素継続時間のスピーチユニット(たとえば、固定長フレーム(たとえば、5ミリ秒))を含む対応する合成されたスピーチ表現322にデコードするように構成されたデコーダ部分を有する変分オートエンコーダベース(VAEベース)のTTSモデルを含む。VAEベースのTTSモデルのさらなる詳細は、2020年5月5日に出願された米国特許出願第16/867,427号を参照して説明されており、その内容全体が参照により組み込まれる。合成されたスピーチ表現322は、追加的または代替的に、メルケプストラム係数(MCEP)、非周期性成分、および各スピーチユニットの音声成分を含むボコーダパラメータを含み得る。
【0057】
図示される例では、TTSシステム300は、単一のTTSモデル320を含む。ここで、TTSモデル320は、広告208のコーパス内の既存の広告においてトレーニングされてもよい。ここで、広告208は、ボイスオーバスピーチがこれらのバーティカルに関連付けられる異なる話し方/韻律に及ぶように、複数の広告タイプ/バーティカルにまたがることができる。追加的または代替的に、TTSモデル320は、異なる声優によって話された人間のスピーチの参照発話と一致するスピーチを合成する方法を学習するようにトレーニングされ得る。たとえば、1人または複数の声優のセットは、「アナウンサ」TTSバーティカルに関連付けられる話し方/韻律を有する参照ボイスオーバスクリプト252Rからの参照発話を話してよく、TTSモデル320およびTTSシンセサイザ350は、参照発話と一致する合成されたボイスオーバスピーチ352を生成することを学習し得る。これらの参照発話には、関連付けられるTTSバーティカルを用いてラベルを付けされ得る。このプロセスは、他のTTSバーティカル、たとえば、「エキスパート」、「高級」、および/または「クリエイタ」バーティカルに関連付けられる話し方/韻律を有する話者参照発話に対して、同じおよび/または異なる声優のセットによって繰り返され得る。
【0058】
追加の実装形態では、TTSシステム300は、それぞれ異なる話し方/韻律を有する合成されたスピーチ表現を生成するようにそれぞれがトレーニングされた複数のTTSモデル320を含む。たとえば、TTSシステム300は、ターゲットTTSバーティカル312ごとにそれぞれのTTSモデル320を含み得る。ここで、TTSバーティカルセレクタ310によって選択されたターゲットTTSバーティカル312に基づいてボイスオーバスクリプト252を変換するために、適切なTTSモデル320を選択することができる。同様に、TTSシステム300は、それぞれが異なる音声および/または異なるアクセント/方言で合成されたスピーチ表現を生成するようにトレーニングされた複数のTTSモデル320を含み得る。一例では、第1の言語のボイスオーバスクリプト252を第2の言語に翻訳/音訳し、第2の言語で合成されたスピーチを生成するようにトレーニングされたTTSモデル320に提供することができる。
【0059】
TTSシンセサイザ350は、TTSモデル320によって出力される合成されたスピーチ表現322を入力として受信し、ターゲットTTSバーティカル312によって指定されるスピーチ特性304の固有のセットを伝える合成されたボイスオーバスピーチ352を出力として生成するように構成されている。TTSシンセサイザ350は、メル周波数スペクトログラムシーケンスを時間領域オーディオ波形に変換するためのボコーダネットワークを含み得る。時間領域オーディオ波形は、時間の経過に伴うオーディオ信号の振幅を定義するオーディオ波形を含む。ボコーダネットワークは、メル周波数スペクトログラムを受信し、メル周波数スペクトログラムに基づいてオーディオ出力サンプルを生成するように構成された任意のネットワークとすることができる。たとえば、ボコーダネットワークは、https://arxiv.org/pdf/1711.10433.pdfにおいて入手可能な、van den Oord、Parallel WaveNet: Fast High-Fidelity Speech Synthesisにおいて説明されている並列フィードフォワードニューラルネットワークであるか、またはそれに基づくことができ、参照により本明細書に組み込まれる。あるいは、TTSシンセサイザ350は、自己回帰ニューラルネットワークであってもよい。いくつかの例では、TTSシンセサイザ350は、合成されたボイスオーバスピーチ352を生成するために、合成されたスピーチ表現322によって表されるピッチ、エネルギー、および音素継続時間の固定長フレームを変換する。たとえば、ユニット選択モジュールまたはWaveNetモジュールは、合成されたボイスオーバスピーチ352を生成するためにフレームを使用し得る。
【0060】
次に図4Aおよび図4Bを参照すると、スピーチオーバレイモジュール400は、ボイスオーバ広告450を生成するために、合成されたボイスオーバスピーチ352をターゲット広告104にオーバレイするように構成されている。すなわち、スピーチオーバレイモジュール400は、ボイスオーバスクリプト252の1つまたは複数の単語が合成されたボイスオーバスピーチ352によっていつ話されるべきかを決定する。この点において、スピーチオーバレイモジュール400は、合成されたボイスオーバスピーチ352を、ターゲット広告104の継続時間中の特定の再生時間に合わせて調整し得る。
【0061】
いくつかの構成では、スピーチオーバレイモジュール400は、タイムスタンパ410およびアライナ420を含み得る。タイムスタンパ410は、ボイスオーバスクリプト252の1つまたは複数の単語のセットに対するそれぞれのタイムスタンプTを決定するように構成されている。タイムスタンプTは、一定の時間ユニット(たとえば、1秒、0.5秒、5秒など)を表し得る。1つまたは複数の単語の各々のタイムスタンプTは、1つまたは複数の単語が話されるシーケンス(たとえば、順序)および/あるいは1つまたは複数の単語が話される長さを決定する。アライナ420は、ボイスオーバスクリプト252の1つまたは複数の単語のタイムスタンプTを、ターゲット広告104の再生時間タイムスタンプPと位置合わせするように構成されている。すなわち、ターゲット広告104は、各再生時間タイムスタンプPが1秒を表す9秒の再生時間を含むことができ(すなわち、P=9)、ボイスオーバスクリプト252のタイムスタンプTは、各タイムスタンプが1秒を表す5秒のスピーチを含み得る(すなわち、T=5)。ここで、アライナ420は、5秒のボイスオーバスクリプト252をターゲット広告104の9秒の再生時間と位置合わせする。たとえば、ボイスオーバスクリプト252は、ターゲット広告104の再生時間の3秒目に始まり、したがって、ターゲット広告104の再生時間の7秒目に終了する。
【0062】
次に図4Aを参照すると、いくつかの実装形態では、タイムスタンパ410は、ボイスオーバスクリプト252の1つまたは複数の単語のセットに対するそれぞれのタイムスタンプTを決定する。すなわち、タイムスタンパ410は、1つまたは複数の単語の開始および1つまたは複数の単語が話されている継続時間のそれぞれのタイムスタンプTを決定する。ここで、1つまたは複数の単語のセットは、それぞれのタイムステップTの間に一時停止または沈黙を含まない。したがって、タイムスタンパ410は、ボイスオーバスクリプト252の1つまたは複数の単語のセットの開始のそれぞれのタイムスタンプTと、1つまたは複数の単語が話される長さのみを決定する。たとえば、図4Aに示されるように、タイムスタンパ410は、ボイスオーバスクリプト252の1つまたは複数の単語のセットと、「私たちの新しいアプリを今すぐダウンロードしてください!」に対応する合成されたボイスオーバスピーチ352を受信する。ここで、タイムスタンパ410は、1つまたは複数の単語のセットがタイムスタンパT=1において始まり、その継続時間が5タイムスタンプT(たとえば、5秒)であると決定する。したがって、1つまたは複数の単語のセットはタイムスタンプT=1において始まり、T=1とT=5の間のタイムスタンプTのいずれにおいても沈黙または一時停止がなく、タイムスタンプT=5において終了する。特に、タイムスタンパ410は、1つまたは複数の単語の単語ごとにタイムスタンプTを決定するのではなく、1つまたは複数の単語のセットについてそれぞれのタイムスタンプTを1つのみ決定する。言い換えれば、フレーズの単語ごとにタイムスタンプTを生成する必要がある代わりに、タイムスタンパ410は、合成されたボイスオーバスピーチ352をターゲット広告104にオーバレイするためのキータイムスタンプとして使用することができる単一のタイムスタンプTを生成し得る。ここで、キータイムスタンプは、合成されたボイスオーバスピーチ352のセグメントの開始、中間点、または終了であり得、アライナ420は、所望の時間にターゲット広告104上に合成されたボイスオーバスピーチ352をオーバレイするために、キータイムスタンプのみを使用する。たとえば、タイムスタンパ410は、中間点のタイムスタンプT、単語「新しい」を決定し、アライナ420は、単語「新しい」をターゲット広告104の再生時間の中間点(たとえば、5秒)に位置合わせする。
【0063】
アライナ420は、合成されたボイスオーバスピーチ352および関連付けられるタイムスタンプTをタイムスタンパ410から受信する。図4Aに示されるように、ターゲット広告104の再生時間は9秒であり、各再生タイムステップPは1秒に等しい(すなわち、P=9)。アライナ420は、それぞれのタイムステップTを使用して、合成されたボイスオーバスピーチ352を再生タイムステップPに位置合わせする。アライナ420は、合成されたボイスオーバスピーチ352がP=3において始まりP=7において終わると決定する。したがって、アライナ420は、合成されたボイスオーバスピーチ352のそれぞれのタイムスタンプT=1からT=5を再生タイムステップP=3からP=7に位置合わせする。アライナ420が合成されたボイスオーバスピーチ352をターゲット広告104に位置合わせした後、スピーチオーバレイモジュール400はボイスオーバ広告450を生成する。
【0064】
場合によっては、スピーチオーバレイモジュール400は、合成されたボイスオーバスピーチ352の各話された単語のリズム(たとえば、タイミング)を独立して制御することができる。すなわち、合成されたボイスオーバスピーチ352は、連続して話されなくてもよく、単語の間に1つまたは複数の一時停止または沈黙を含んでもよい。次に図4Bを参照すると、いくつかの実装形態では、タイムスタンパ410は、ボイスオーバスクリプト252の1つまたは複数の単語の各々について、それぞれのタイムスタンプTを個別に決定する。すなわち、ボイスオーバスクリプト252からの1つまたは複数の単語の間に空白スペースが存在する可能性がある。図4Bに示されるように、タイムスタンパ410は、「世界クラスの高級車を今すぐ1台購入」に対応する合成されたボイスオーバスピーチ352とボイスオーバスクリプト252を受信する。タイムスタンパ410は、1つまたは複数の単語のそれぞれについて各々のタイムスタンプTを個別に決定する。たとえば、タイムスタンパは、「世界クラス」、「高級」、「車」と、「今すぐ1台購入」という単語との間に一時停止が必要であると決定し得る。したがって、タイムスタンパ410は、「世界」についてはT=1、「クラス」についてはT=2、「高級」についてはT=4、および「車」についてはT=6、「購入」についてはT=8、「1台」についてはT=9、「今すぐ」についてはT=10のタイムスタンプを決定する。次いで、タイムスタンパ410はまた、タイムスタンプT=3およびT=6において一時停止または沈黙があるべきであると決定する。
【0065】
タイムスタンパ410は、合成されたボイスオーバスピーチ352および対応するタイムスタンプTをアライナ420に送信する。アライナ420は、合成されたボイスオーバスピーチ352の1つまたは複数の単語のタイムスタンプTをターゲット広告104の再生時間Pに位置合わせするように構成される。すなわち、アライナ420は、ターゲット広告104の再生時間中に合成されたボイスオーバスピーチ352がいつ話されるかを決定する。いくつかの例では、アライナ420は、合成されたボイスオーバスピーチ352の開始時と終了時に位置合わせを行うが、アライナ420がタイムスタンパ410から通信として受信したもの以外の、合成されたボイスオーバスピーチ352の1つまたは複数の単語間の沈黙または一時停止を追加または削除しない。たとえば、タイムスタンパ410は、タイムスタンプT=3において「クラス」と「高級」との間に沈黙のタイムスタンプがあると決定した。ここで、アライナ420は、「クラス」と「高級」との間の沈黙を追加または削除することはできない。したがって、アライナ420は、合成されたボイスオーバスピーチ352がどこで話されるかを決定するが、タイムスタンパによって決定される合成されたスピーチのリズム(たとえば、タイミング)には影響を及ぼさない。
【0066】
たとえば、アライナ420は、タイムスタンパからの9個のタイムスタンプTを、ターゲット広告104の12個の再生時間タイムスタンプPに位置合わせする。アライナ420は、第1のタイムスタンプT=1が第2の再生時間タイムスタンプP=2と一致し、最後のタイムスタンプT=9が第10の再生時間タイムスタンプP=10と一致すると決定する。ここで、アライナ420は、タイムスタンパ410によって設定された合成されたボイスオーバスピーチ352のリズムに影響を与えることなく、ターゲット広告104の再生時間中に(たとえば、再生時間タイムスタンプP=2で開始し、再生時間タイムスタンプP=10で終了する)合成されたボイスオーバスピーチ352が話される場所を位置合わせする。アライナ420が合成されたボイスオーバスピーチ352をターゲット広告104の再生時間に位置合わせした後、スピーチオーバレイモジュール400はボイスオーバ要求102に応答してボイスオーバ広告450を生成する。たとえば、スピーチオーバレイモジュール400またはボイスオーバジェネレータ140は、ボイスオーバ要求102に関連付けられるユーザ10にボイスオーバ広告450を通信する。
【0067】
図5は、自動ボイスオーバ生成を実行する方法500の動作の例示的な構成のフローチャートである。動作502において、方法500は、1つまたは複数の広告キャンペーン属性106を有するターゲット広告104に対する合成されたボイスオーバスピーチ352を生成するためのボイスオーバ要求102を受信するステップを含む。動作504において、方法500は、1つまたは複数の広告キャンペーン属性に基づいて、テキストのシーケンスを含む合成されたボイスオーバスピーチ352のボイスオーバスクリプト252を生成するステップを含む。動作506において、方法500は、テキスト読上げ(TTS)システム300を使用して、合成されたボイスオーバスピーチ352を生成するステップを含む。TTSシステム300は、ボイスオーバスクリプト252のテキストのシーケンスを入力として受信することと、ターゲットTTSバーティカル312によって指定されたスピーチ特性を有する合成されたボイスオーバスピーチを出力として生成することとを行うように構成されている。動作508において、方法500は、合成されたボイスオーバスピーチ352をターゲット広告104にオーバレイするステップを含む。
【0068】
図6は、本明細書で説明されるシステムおよび方法を実装するために使用され得る例示的なコンピューティングデバイス600の概略図である。コンピューティングデバイス600は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどの、様々な形態のデジタルコンピュータを表すことを意図している。ここに示されるコンポーネント、それらの接続と関係、およびそれらの機能は、例示のみを目的としており、本明細書において説明および/または請求される発明の実装形態を限定することを意図するものではない。
【0069】
コンピューティングデバイス600は、プロセッサ610(たとえば、データ処理ハードウェア112、134)、メモリ620(たとえば、メモリハードウェア114、136)、ストレージデバイス630、メモリ620および高速拡張ポート650に接続する高速インターフェース/コントローラ640、ならびに低速バス670およびストレージデバイス630に接続する低速インターフェース/コントローラ660を含む。コンポーネント610、620、630、640、650、および660の各々は、様々なバスを使用して相互接続されており、共通のマザーボード上に、または必要に応じて他の方法で搭載され得る。プロセッサ610は、高速インターフェース640に結合されるディスプレイ680などの外部入力/出力デバイス上のグラフィカルユーザインターフェース(GUI)用のグラフィック情報を表示するために、メモリ620またはストレージデバイス630に記憶された命令を含む、コンピューティングデバイス600内で実行するための命令を処理することができる。他の実装形態では、複数のプロセッサおよび/または複数のバスが、複数のメモリおよびメモリのタイプとともに、必要に応じて使用され得る。また、複数のコンピューティングデバイス600が接続されてもよく、各デバイスは必要な動作の一部を提供する(たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)。
【0070】
メモリ620は、コンピューティングデバイス600内に情報を非一時的に記憶する。メモリ620は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであってもよい。非一時的メモリ620は、コンピューティングデバイス600によって使用されるプログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を一時的または永続的に記憶するために使用される物理デバイスであってもよい。不揮発性メモリの例は、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラマブル読取り専用メモリ(PROM)/消去可能なプログラマブル読取り専用メモリ(EPROM)/電子的に消去可能なプログラマブル読取り専用メモリ(EEPROM)(たとえば、通常、ブートプログラムなどのファームウェアに使用される)を含むが、これらに限定されない。揮発性メモリの例は、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、およびディスクやテープを含むが、これらに限定されない。
【0071】
ストレージデバイス630は、コンピューティングデバイス600に大容量ストレージを提供することができる。いくつかの実装形態では、ストレージデバイス630はコンピュータ可読媒体である。様々な異なる実装形態では、ストレージデバイス630は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリまたは他の同様の固体メモリデバイス、あるいはストレージエリアネットワークまたはその他の構成におけるデバイスを含むデバイスのアレイであってもよい。追加の実装形態では、コンピュータプログラム製品は情報担体に具体的に組み込まれる。コンピュータプログラム製品は、実行時に、上記のような1つまたは複数の方法を実行する命令を含む。情報担体は、メモリ620、ストレージデバイス630、またはプロセッサ610上のメモリなどのコンピュータまたは機械可読媒体である。
【0072】
高速コントローラ640は、コンピューティングデバイス600の帯域幅を大量に消費する動作を管理し、一方、低速コントローラ660は、帯域幅をあまり消費しない動作を管理する。そのような役目の割り当ては単なる例である。いくつかの実装形態では、高速コントローラ640は、メモリ620、ディスプレイ680(たとえばグラフィックプロセッサまたはアクセラレータを通じて)、および様々な拡張カード(図示せず)を受け入れることができる高速拡張ポート650に結合される。いくつかの実装形態では、低速コントローラ660は、ストレージデバイス630および低速拡張ポート690に結合される。様々な通信ポート(たとえば、USB、Bluetooth、イーサネット、ワイヤレスイーサネット)を含み得る低速拡張ポート690は、たとえば、ネットワークアダプタを通じて、キーボード、ポインティングデバイス、スキャナなどの1つまたは複数の入力/出力デバイス、あるいはスイッチまたはルータなどのネットワーキングデバイスに結合され得る。
【0073】
コンピューティングデバイス600は、図面に示されるように、多くの異なる形式で実装され得る。たとえば、それは、標準サーバ600aとして、またはそのようなサーバ600aのグループ内で複数回、ラップトップコンピュータ600bとして、またはラックサーバシステム600cの一部として実装され得る。
【0074】
本明細書に記載されるシステムおよび技法の様々な実装形態は、デジタル電子回路および/または光回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、ならびに/あるいはそれらの組合せにおいて実現することができる。これらの様々な実装形態は、ストレージシステム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信し、それらにデータおよび命令を送信するように結合された、専用または汎用であり得る少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムにおける実装形態を含むことができる。
【0075】
ソフトウェアアプリケーション(すなわち、ソフトウェアリソース)は、コンピューティングデバイスにタスクを実行させるコンピュータソフトウェアを指し得る。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれ得る。アプリケーションの例は、システム診断アプリケーション、システム管理アプリケーション、システムメンテナンスアプリケーション、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲームアプリケーションを含むが、これらに限定されない。
【0076】
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる)はプログラマブルプロセッサ用の機械命令を含み、高レベルの手続き型言語および/またはオブジェクト指向プログラミング言語、ならびに/あるいはアセンブリ言語/機械言語で実装することができる。本明細書で使用される場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械可読信号として機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令および/またはデータを提供するために使用される任意のコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置および/またはデバイス(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指す。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。
【0077】
本明細書で説明されるプロセスおよび論理フローは、データ処理ハードウェアとも呼ばれる1つまたは複数のプログラマブルプロセッサによって実行することができ、入力データを動作して出力を生成することによって機能を実行するために、1つまたは複数のコンピュータプログラムを実行する。プロセスおよび論理フローは、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)などの専用論理回路によって実行することもできる。コンピュータプログラムの実行に適したプロセッサは、例として、汎用マイクロプロセッサと専用マイクロプロセッサの両方、および任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサを含む。一般に、プロセッサは、読取り専用メモリ、ランダムアクセスメモリ、またはその両方から命令とデータを受け取る。コンピュータの必須要素は、命令を実行するためのプロセッサと、命令とデータを記憶するための1つまたは複数のメモリデバイスである。一般に、コンピュータはまた、データを記憶するための1つまたは複数の大容量ストレージデバイス、たとえば、磁気、光磁気ディスク、または光ディスクを含むか、またはそれらからデータを受信するか、またはそれらにデータを転送する、あるいはその両方を行うために動作可能に結合される。しかしながら、コンピュータにはそのようなデバイスが必要ない。コンピュータプログラム命令およびデータを記憶するために適したコンピュータ可読媒体は、例として、EPROM、EEPROM、フラッシュメモリデバイスなどの半導体メモリデバイスを含む、あらゆる形式の不揮発性メモリ、メディア、およびメモリデバイス、内蔵ハードディスクまたはリムーバブルディスクなどの磁気ディスク、光磁気ディスク、ならびにCD ROMおよびDVD-ROMディスクを含む。プロセッサとメモリは、専用論理回路によって補うこともでき、専用論理回路に組み込むこともできる。
【0078】
ユーザとの対話を提供するために、本開示の1つまたは複数の態様は、ユーザに情報を表示するためのディスプレイデバイス、たとえばCRT(陰極線管)、LCD(液晶ディスプレイ)モニタ、またはタッチスクリーン、ならびに任意で、キーボード、ならびにユーザがコンピュータに入力を提供することができるマウスまたはトラックボールなどのポインティングデバイスを有するコンピュータ上で実装することができる。ユーザとの対話を提供するために、他の種類のデバイスを使用することもでき、たとえば、ユーザに提供されるフィードバックは、たとえば、視覚的フィードバック、聴覚的フィードバック、触覚的フィードバックなどの任意の形式の感覚的フィードバックとすることができ、ユーザからの入力は、音響、スピーチ、または触覚入力などの任意の形式で受け取ることができる。さらに、コンピュータは、ユーザによって使用されるデバイスとの間でドキュメントを送受信することによって、たとえば、ウェブブラウザから受信した要求に応じて、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。
【0079】
多くの実装形態を説明した。それにも関わらず、本開示の趣旨および範囲から逸脱することなく、様々な修正が行われてよいことが理解されるであろう。したがって、他の実装形態は以下の特許請求の範囲に含まれる。
【符号の説明】
【0080】
10 ユーザ
100 システム
102 ボイスオーバ要求
104 ターゲット広告
106 広告キャンペーン属性
106R 参照キャンペーン属性
110 ユーザデバイス
112 コンピューティングリソース
112 データ処理ハードウェア
114 ストレージリソース
114 メモリハードウェア
120 ネットワーク
130 リモートシステム
134 データ処理ハードウェア
134 コンピューティングリソース
134 スケーラブル/弾性リソース
136 メモリハードウェア
136 ストレージリソース
140 ボイスオーバジェネレータ
140 ボイスオーバス生成モデル
180 ボイスオーバ検出器
200 スクリプトジェネレータ
200a スクリプトジェネレータ
200b スクリプトジェネレータ
202 オンラインデータベース
204 ランディングページユニフォームリソースロケータ(URL)
206 広告データベース
208 広告
208a~n 広告
210 スクレーパ
212 フレーズ
212 キーフレーズ
212K キーフレーズ
220 分類器
230 広告識別子
250 テキストジェネレータ
252 ボイスオーバスクリプト
252R 参照ボイスオーバスクリプト
252Ra~n 参照ボイスオーバスクリプト
300 テキスト読上げ(TTS)システム
304 スピーチ特性
304a 発話埋込み
304b アクセント/方言識別子
304c 話者埋込み
310 バーティカルセレクタ
312 ターゲットTTSバーティカル
320 TTSモデル
322 合成されたスピーチ表現
350 TTSシンセサイザ
352 ボイスオーバスピーチ
400 スピーチオーバレイモジュール
410 タイムスタンパ
420 アライナ
450 ボイスオーバ広告
500 方法
600 コンピューティングデバイス
600a 標準サーバ
600b ラップトップコンピュータ
600c ラックサーバシステム
610 プロセッサ
620 メモリ
630 ストレージデバイス
640 高速インターフェース/コントローラ
650 高速拡張ポート
660 低速インターフェース/コントローラ
670 低速バス
680 ディスプレイ
690 低速拡張ポート
図1
図2A
図2B
図3
図4A
図4B
図5
図6
【手続補正書】
【提出日】2024-04-02
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
データ処理ハードウェア(134)上で実行されると、前記データ処理ハードウェア(134)に、
1つまたは複数の広告キャンペーン属性(106)を有するターゲット広告(104)に対する合成されたボイスオーバスピーチ(352)を生成するためのボイスオーバ要求(102)を受信するステップと、
前記1つまたは複数の広告キャンペーン属性(106)に基づいて、前記合成されたボイスオーバスピーチ(352)のボイスオーバスクリプト(252)を生成するステップであって、前記ボイスオーバスクリプト(252)がテキストのシーケンスを備える、ステップと、
テキスト読上げ(TTS)システム(300)を使用して、前記合成されたボイスオーバスピーチ(352)を生成するステップであって、前記TTSシステム(300)が、
前記ボイスオーバスクリプト(252)のテキストの前記シーケンスを入力として受信することと、
前記合成されたボイスオーバスピーチ(352)を出力として生成することであって、前記合成されたボイスオーバスピーチ(352)が、ターゲットTTSバーティカル(312)によって指定されたスピーチ特性(304)を有する、ことと
を行うように構成される、ステップと、
前記合成されたボイスオーバスピーチ(352)を前記ターゲット広告(104)にオーバレイするステップと
を備える動作を実行させるコンピュータ実装方法(500)。
【請求項2】
前記動作が、前記1つまたは複数の広告キャンペーン属性(106)に基づいて前記ターゲットTTSバーティカル(312)を選択するステップをさらに備える、請求項1に記載のコンピュータ実装方法(500)。
【請求項3】
前記ターゲットTTSバーティカル(312)によって指定される前記スピーチ特性(304)が、前記合成されたボイスオーバスピーチ(352)によって伝えられる韻律/スタイル情報を指定する発話埋込み(304a)、前記合成されたボイスオーバスピーチ(352)によって伝えられるアクセント/方言を指定するアクセント/方言識別子(304b)、および前記合成されたボイスオーバスピーチ(352)のボイス特性を指定する話者埋込み(304c)のうちの少なくとも1つを備える、請求項1に記載のコンピュータ実装方法(500)。
【請求項4】
前記広告キャンペーン属性(106)が、
見出し、
行動喚起、
地理的地域、
言語、または
視聴者層のうちの少なくとも1つを備える、請求項1に記載のコンピュータ実装方法(500)。
【請求項5】
前記ボイスオーバスクリプト(252)のテキストの前記シーケンスが、1つまたは複数の単語を備え、前記合成されたボイスオーバスピーチ(352)を前記ターゲット広告(104)にオーバレイするステップが、
前記ボイスオーバスクリプト(252)の前記1つまたは複数の単語が前記合成されたボイスオーバスピーチ(352)によって話されるべきそれぞれのタイムスタンプを決定するステップであって、前記ターゲット広告(104)が、前記それぞれのタイムスタンプを備える再生時間を有する、ステップと、
前記ボイスオーバスクリプト(252)の前記1つまたは複数の単語に対応する前記合成されたボイスオーバスピーチ(352)のセグメントが前記ターゲット広告(104)の前記それぞれのタイムスタンプにおいて発生するように、前記合成されたボイスオーバスピーチ(352)を前記ターゲット広告(104)と位置合わせするステップと
を備える、請求項1に記載のコンピュータ実装方法(500)。
【請求項6】
前記前記合成されたボイスオーバスピーチ(352)の前記ボイスオーバスクリプト(252)を生成するステップが、
広告キャンペーンに関連付けられるランディングページのユニフォームリソースロケータ(URL)(204)からフレーズ(212)を識別するステップと、
前記ランディングページURL(204)から識別された前記フレーズ(212)の各々をランク付けするステップであって、前記フレーズ(212)の各々の前記ランクが、それぞれの前記フレーズ(212)が前記広告キャンペーンの前記1つまたは複数の広告キャンペーン属性に関連する可能性に対応する、ステップと
によって、前記1つまたは複数の広告キャンペーン属性(106)を有する広告キャンペーンに関連する1つまたは複数の単語を識別するステップを備える、請求項1に記載のコンピュータ実装方法(500)。
【請求項7】
前記動作が、識別されたフレーズ(212)の前記ランクがしきい値を満たすかどうかを決定するステップをさらに備える、請求項6に記載のコンピュータ実装方法(500)。
【請求項8】
前記ボイスオーバスクリプト(252)を生成するステップが、前記識別されたフレーズ(212)のうちの1つの前記ランクが前記しきい値を満たす場合に発生し、
前記ボイスオーバスクリプト(252)のテキストの前記シーケンスが、前記しきい値を満たす前記識別されたフレーズ(212)を表す、請求項7に記載のコンピュータ実装方法(500)。
【請求項9】
前記識別されたフレーズ(212)の前記ランクが前記しきい値を満たさないという決定に応じて、前記動作が、
異なる広告キャンペーンに関連付けられる広告(208)のコーパスにアクセスするステップであって、各広告(208)が、それぞれのボイスオーバスクリプト(252R)および広告キャンペーン属性(106R)のセットを有するそれぞれの広告キャンペーンに関連付けられる、ステップと、
前記ボイスオーバ要求(102)の前記1つまたは複数の広告キャンペーン属性(106)と同様の広告キャンペーン属性(106R)を有する広告(208)の前記コーパスから1つまたは複数の広告(208)を識別するステップと、
前記ボイスオーバ要求(102)の前記1つまたは複数の広告キャンペーン属性(106)と同様の広告キャンペーン属性(106R)を有する、前記識別された1つまたは複数の広告(208)の前記それぞれのボイスオーバスクリプト(252R)に基づいて、前記合成されたボイスオーバスピーチ(352)の前記ボイスオーバスクリプト(252)を生成するステップと
をさらに備える、請求項7に記載のコンピュータ実装方法(500)。
【請求項10】
前記TTSシステム(300)が、
前記ボイスオーバスクリプト(252)のテキストの前記シーケンスを前記ボイスオーバスクリプト(252)の対応する合成されたスピーチ表現(322)に変換するように構成されたTTSモデル(320)と、
前記TTSモデル(320)から出力された前記合成されたスピーチ表現(322)から前記合成されたボイスオーバスピーチ(352)を生成するように構成されたTTSシンセサイザ(350)と
を備える、請求項1に記載のコンピュータ実装方法(500)。
【請求項11】
前記1つまたは複数の広告キャンペーン属性(106)が、人間が作成した広告キャンペーンに関連付けられる、請求項1から10のいずれか一項に記載のコンピュータ実装方法(500)。
【請求項12】
データ処理ハードウェア(134)と、
前記データ処理ハードウェア(134)と通信するメモリハードウェア(136)であって、前記データ処理ハードウェア(134)によって実行されると、前記データ処理ハードウェア(134)に、
1つまたは複数の広告キャンペーン属性(106)を有するターゲット広告(104)に対する合成されたボイスオーバスピーチ(352)を生成するためのボイスオーバ要求(102)を受信することと、
前記1つまたは複数の広告キャンペーン属性(106)に基づいて、前記合成されたボイスオーバスピーチ(352)のボイスオーバスクリプト(252)を生成することであって、前記ボイスオーバスクリプト(252)がテキストのシーケンスを備える、ことと、
テキスト読上げ(TTS)システム(300)を使用して、前記合成されたボイスオーバスピーチ(352)を生成することであって、前記TTSシステム(300)が、
前記ボイスオーバスクリプト(252)のテキストの前記シーケンスを入力として受信することと、
前記合成されたボイスオーバスピーチ(352)を出力として生成することであって、前記合成されたボイスオーバスピーチ(352)が、ターゲットTTSバーティカル(312)によって指定されたスピーチ特性(304)を有する、ことと
を行うように構成される、ことと、
前記合成されたボイスオーバスピーチ(352)を前記ターゲット広告(104)にオーバレイすることと
を備える動作を実行させる命令を記憶する前記メモリハードウェア(136)と
を備える、システム(100)。
【請求項13】
前記動作が、前記1つまたは複数の広告キャンペーン属性(106)に基づいて前記ターゲットTTSバーティカル(312)を選択することをさらに備える、請求項12に記載のシステム(100)。
【請求項14】
前記ターゲットTTSバーティカル(312)によって指定される前記スピーチ特性(304)が、前記合成されたボイスオーバスピーチ(352)によって伝えられる韻律/スタイル情報を指定する発話埋込み(304a)、前記合成されたボイスオーバスピーチ(352)によって伝えられるアクセント/方言を指定するアクセント/方言識別子(304b)、および前記合成されたボイスオーバスピーチ(352)の音声特性を指定する話者埋込み(304c)のうちの少なくとも1つを備える、請求項12に記載のシステム(100)。
【請求項15】
前記広告キャンペーン属性(106)が、
見出し、
行動喚起、
地理的地域、
言語、または
視聴者層のうちの少なくとも1つを備える、請求項12に記載のシステム(100)。
【請求項16】
前記ボイスオーバスクリプト(252)のテキストの前記シーケンスが、1つまたは複数の単語を備え、前記合成されたボイスオーバスピーチ(352)を前記ターゲット広告(104)にオーバレイすることが、
前記ボイスオーバスクリプト(252)の前記1つまたは複数の単語が前記合成されたボイスオーバスピーチ(352)によって話されるべきそれぞれのタイムスタンプを決定することであって、前記ターゲット広告(104)が、前記それぞれのタイムスタンプを備える再生時間を有する、ことと、
前記ボイスオーバスクリプト(252)の前記1つまたは複数の単語に対応する前記合成されたボイスオーバスピーチ(352)のセグメントが前記ターゲット広告(104)の前記それぞれのタイムスタンプにおいて発生するように、前記合成されたボイスオーバスピーチ(352)を前記ターゲット広告(104)と位置合わせすることと
を備える、請求項12に記載のシステム(100)。
【請求項17】
前記合成されたボイスオーバスピーチ(352)の前記ボイスオーバスクリプト(252)を生成することが、
広告キャンペーンに関連付けられるランディングページのユニフォームリソースロケータ(URL)(204)からフレーズ(212)を識別することと、
前記ランディングページURL(204)から識別された前記フレーズ(212)の各々をランク付けすることであって、前記フレーズ(212)の各々の前記ランクが、それぞれの前記フレーズ(212)が前記広告キャンペーンの前記1つまたは複数の広告キャンペーン属性に関連する可能性に対応する、ことと
によって、前記1つまたは複数の広告キャンペーン属性(106)を有する広告キャンペーンに関連する1つまたは複数の単語を識別することを備える、請求項12に記載のシステム(100)。
【請求項18】
前記動作が、識別されたフレーズ(212)の前記ランクがしきい値を満たすかどうかを決定することをさらに備える、請求項17に記載のシステム(100)。
【請求項19】
前記ボイスオーバスクリプト(252)を生成することが、前記識別されたフレーズ(212)のうちの1つの前記ランクが前記しきい値を満たす場合に発生し、
前記ボイスオーバスクリプト(252)のテキストの前記シーケンスが前記しきい値を満たす前記識別されたフレーズ(212)を表す、請求項18に記載のシステム(100)。
【請求項20】
前記識別されたフレーズ(212)の前記ランクが前記しきい値を満たさないという決定に応じて、前記動作が、
異なる広告キャンペーンに関連付けられる広告(208)のコーパスにアクセスすることであって、各広告(208)が、それぞれのボイスオーバスクリプト(252R)および広告キャンペーン属性(106R)のセットを有するそれぞれの広告キャンペーンに関連付けられる、ことと、
前記ボイスオーバ要求(102)の前記1つまたは複数の広告キャンペーン属性(106)と同様の広告キャンペーン属性(106R)を有する広告(208)の前記コーパスから1つまたは複数の広告(208)を識別することと、
前記ボイスオーバ要求(102)の前記1つまたは複数の広告キャンペーン属性(106)と同様の広告キャンペーン属性(106R)を有する、前記識別された1つまたは複数の広告(208)の前記それぞれのボイスオーバスクリプト(252R)に基づいて、前記合成されたボイスオーバスピーチ(352)の前記ボイスオーバスクリプト(252)を生成することと
をさらに備える、請求項18に記載のシステム(100)。
【請求項21】
前記TTSシステム(300)が、
前記ボイスオーバスクリプト(252)のテキストの前記シーケンスを前記ボイスオーバスクリプト(252)の対応する合成されたスピーチ表現(322)に変換するように構成されたTTSモデル(320)と、
前記TTSモデル(320)から出力された前記合成されたスピーチ表現(322)から前記合成されたボイスオーバスピーチ(352)を生成するように構成されたTTSシンセサイザ(350)と
を備える、請求項12に記載のシステム(100)。
【請求項22】
前記1つまたは複数の広告キャンペーン属性(106)が、人間が作成した広告キャンペーンに関連付けられる、請求項12から21のいずれか一項に記載のシステム(100)。
【国際調査報告】