(58)【調査した分野】(Int.Cl.,DB名)
前記文字列は、言葉と該言葉の指標とを有しており、前記指標は、前記映像列の中で前記人が前記言葉を発声して見えるとき、前記映像列の中で前記人の感情表現を同時に表示し、前記指標は、規定の指標群であり、前記規定の指標群の各指標は、異なる感情表現に関連する請求項1に記載の方法。
映像列を生成する前記ステップは、前記文字列の言葉を前記人の顔の特徴にマッピングするステップと、前記人の顔の特徴を背景上にレンダリングするステップとを含む請求項1に記載の方法。
前記言葉は、前記言葉のための一又は複数の指標に基づいて前記顔の特徴にマッピングされ、前記指標は、前記映像列の中で前記人が前記言葉を発声して見えるとき、前記映像列の中で前記人の感情表現を同時に表示する請求項7に記載の方法。
前記映像列の各フレームの顔部は、前記人の複数の推測画像の線形結合により表現され、前記人の複数の推測画像における各推測画像は、前記人の平均画像からの偏差に対応する請求項13に記載の方法。
前記文字列に基づいて前記人の映像列を生成する前記ステップは、前記映像列の各フレームを2以上の領域に分割することを含み、少なくとも一つの前記領域は、前記人の推測画像の結合により表現されている請求項13に記載の方法。
指標を特定する前記ステップは、前記文字列内の言葉に関連する項目群の一覧から一項目を選択するステップを含み、前記一覧の各項目は、前記人の感情表現を示す指標である請求項20に記載の方法。
【発明を実施するための形態】
【0012】
本明細書の実施形態などの参照は、記載される特定の特徴、又は、構成、性質が本発明の少なくとも一実施形態に含まれることを意味する。本明細書内のそのような参照は、必ずしも全て同じ実施形態に言及するものではない。
【0013】
幾つかの関連する参照は、「空間点のシステムへの線と平面の近隣適合」(著書Philosophical Magazine 2 (6)、頁559−572、1901年、著者K. Pearson)、「コンピュータ画面の外観統計モデル」(著書Technical Report, University of Manchester、 頁125、2004年、著者T.F. Cootes, C.J. Taylor)、「動的外観モデル」(著書Proc. European Conf. Computer Vision, 2、頁484−489、1998年、著者T. Cootes, G. Edwards, C. Taylor)、「3次元合成モーフィングモデル」(著書Proceedings of the 26th annual conference on Computer graphics and interactive techniques、頁187−194、出版社ACM Press/Addison−Wesley Publishing Co.、1999年、著書V. Blanz,T. Vetter)「顔の感情」(著書Stanford Computer Science Technical Report, CSTR 2003−02、著者Erica Chang, Chris Bregler)「人の声により動くリアルタイムの人の口の動き」(著書IEEE Workshop on Multimedia Signal Processing、 1998年、著者 F. J. Huang, T. Chen)、「読唇のための音声特徴の抽出」(著書IEEE Transactions on Pattern Analysis and Machine Intelligence、 2002年24(2)、頁198−213、著者Matthews, I., Cootes, T., Bangham, A., Cox, S., Harvery, R.)、「固有列を用いた読唇」(著書Proc. Int. Workshop Automatic Face Gesture Recognition、1995年、頁30−34、著者N. Li, S. Dettmer, M. Shah)、「音声を伴う映像スピーチの動き」(著書Proceedings of SIGGRAPH 97、頁353−360、1997年8月、著者Christoph Bregler, Michele Covell, Malcolm Slaney)である。それらの全てが参照により本願に組み込まれる。
【0014】
図1Aは、処理装置と、本願に導入される技術が実行される環境とを示す。
図1Aでは、処理装置100は、相互接続120を介して送信装置110に接続される。相互接続120は、例えば、携帯電話ネットワーク、又は、SMSチャンネル、テレビチャンネル、ローカルエリア・ネットワーク(LAN)、ワイドエリア・ネットワーク(WAN)、都市規模ネットワーク(MAN)、インターネットのようなグローバルエリア・ネットワーク、ファイバーチャンネル構造、そのような相互接続の組合せである。送信装置110は、相互接続120を介して文字列140を処理装置に送信できる。処理装置100は、文字列140を受信して、該文字列140に基づいて映像列150を生成する。送信装置110と処理装置100のいずれかは、例えば、携帯電話、又は、従来のパソコン(PC)、サーバクラスコンピュータ、ワークステーション、携帯用コンピュータ・通信装置、ゲーム機、テレビなどである。
【0015】
処理装置100は、生成される映像列150を記憶する記憶装置160を有する。記憶装置160は、例えば、従来のダイナミック・ランダムアクセス・メモリ(DRAM)、又は、従来の磁気ディスク、光学ディスク、テープ装置、フラッシュメモリなどの不揮発性の半導体メモリ、前記機器の組合せなどである。
【0016】
処理装置100と送信装置110のいずれかは、処理装置100と送信装置110の動作を管理(制御)する動作システム101,111を有する。特定の実施形態では、動作システム101,111は、ソフトウェアで実行される。他の実施形態では、一又は複数の前記動作システム101,111が、例えば特別に設計された専用回路、又は、ソフトウェアの部分的な専用回路としてなど、純正のハードウェアにおいて実行される。
【0017】
図1Aの文字列140のような文字列は、指標(タグ、又は、感情指標、感情タグとも呼ばれる)を有する。各指標は、映像列で人が言葉を発声して見えるときに、映像列で人の感情表現を同時に示す。指標は、異なる構成であり、異なる方法により選択される。一実施形態では、指標は、文字列内の言葉に関連する複数項目の一覧からの一項目として選択され、一覧の各項目は、人の感情表現を示す指標である。他の実施形態では、指標は、文字列内の言葉に用いられるマークアップ言語文字列を挿入することにより特定される。前記マークアップ言語文字列は、既定のマークアップ言語文字列の集団からなり、その集団内の各マークアップ言語文字列は、人の感情表現を示す指標である。さらに他の実施形態では、指標は、自動音声認識(ASR)
エンジンを用いて、文字列内の言葉を話す話者の
音響列で特定される。
【0018】
図1Bは、中間(媒介)装置を介して送信装置から文字列を受信する処理装置の例を示す。
図1B内で、処理装置100は、相互接続192を介して中間装置180に接続される。送信装置110は、相互接続191を介して中間装置180に接続される。相互接続191と相互接続192のいずれかは、例えば、携帯電話ネットワーク、又は、SMSチャンネル、テレビチャンネル、ローカルエリア・ネットワーク(LAN)、ワイドエリア・ネットワーク(WAN)、都市規模ネットワーク(MAN)、インターネットのようなグローバルエリア・ネットワーク、ファイバーチャンネル構造、そのような相互接続の組合せである。幾つかの実施形態では、相互接続191と相互接続192は、例えば、インターネットのような一つのネットワーク内にある。送信装置110は、相互接続191を介して文字列140を中間装置180に送信できる。中間装置180は、さらに相互接続192を介して処理装置100に文字列140を送信する。処理装置100は、文字列140を受信して、該文字列140に基づいて映像列150を生成する。中間装置は、例えば、携帯電話、又は、従来のパソコン(PC)、サーバクラスコンピュータ、ワークステーション、携帯用コンピュータ・通信装置、ゲーム機、テレビなどである。
【0019】
幾つかの実施形態では、前記中間サーバ180は、文字列を受信して、文字列140をデータセットの中で処理する。前記データセットは、文字列140の代わりに、処理装置100に送信される。
【0020】
図2は、処理装置の入力部から文字列を受信する処理装置の例を示す。処理装置200は、人290から文字列240を受信可能な入力部210を有する。処理装置200は、例えば、携帯電話、又は、従来のパソコン(PC)、サーバクラスコンピュータ、ワークステーション、携帯用コンピュータ・通信装置、ゲーム機、テレビなどである。入力部210は、例えば、キーボード、マウス、画像・ビデオカメラ、マイク、ゲーム機コントローラ、リモートコントローラ、センサ、スキャナ、音楽機器、そのような機器の組合せである。
【0021】
前記処理装置は、文字列240と人の事前知識270に基づき人の映像列250を生成するプロセッサ205をさらに有する。映像列250は、可視的かつ可聴的な、人の感情表現を
シミュレートし、前記人は、映像列250で文字列240内の特定の言葉を発声して見える。生成される映像列250は、処理装置200内で記憶装置260に記憶される。記憶装置260は、例えば、従来のダイナミック・ランダムアクセス・メモリ(DRAM)、又は、従来の磁気ディスク、光学ディスク、テープ装置、フラッシュメモリなどの不揮発性の半導体メモリ、前記機器の組合せなどである。文字列240、及び/又は、前記人の事前知識270は、記憶装置260内、又は、記憶装置260から離間する他の記憶装置に記憶される。
【0022】
前記処理装置200は、処理装置200の動作を管理する動作システム201を有する。特定の実施形態では、動作システム201は、ソフトウェアで実行される。他の実施形態では、前記動作システム201が、例えば特別に設計された専用回路、又は、ソフトウェアの部分的な専用回路としてなど、純正のハードウェアにおいて実行される。
【0023】
図3は、上記の技術を実行するために用いられる処理装置のブロック図を示す。特定の実施形態では、
図3内に示される少なくとも幾つかの部材は、互いに離間して接続される2以上のコンピュータプラットフォームやコンピュータボックス間に分配される。処理装置は、従来のサーバクラスコンピュータ、又は、PC、携帯通信装置(例えばスマートフォン)、タブレットコンピュータ、ゲーム機、その他の周知又は従来の処理・通信装置などである。
【0024】
図3の処理装置301は、一又は複数のプロセッサ310を有する。前記プロセッサ310は、例えば、中央演算装置(CPU)と、メモリ320と、イーサネット(登録商標)アダプタ、及び/又は、ワイヤレス通信システム(例えば、セルラー、WiFi、ブルートゥース
(登録商標)など)などの少なくとも一つの通信装置340と、一又は複数のI/O装置370,380とが相互接続390を介して互いに接続されてなる。
【0025】
プロセッサ310は、処理装置301の動作を管理する。プロセッサ310は、一又は複数のプログラム可能な汎用目的又は特別な目的のマイクロプロセッサ、又は、マイクロコントローラ、特定用途向け集積回路(ASICs)、プログラム可能な論理装置(PLDs)、前記機器の組合せからなり、又は有する。相互接続390は、一又は複数のバス、直接接続、及び/又は、他のタイプの物理的接続を有して、様々なブリッジ、コントローラ、及び/又は、当業者に周知であるようなアダプタを有する。相互接続390は、システムバスをさらに有する。前記システムバスは、一又は複数のアダプタを通して一又は複数の拡張バスに接続されるように構成され、周辺構成要素相互接続(PCI)バス、又は、ハイパートランスポートや業界標準アーキテクチャ(ISA)バス、スモールコンピュータシステムインターフェイス(SCSI)バス、ユニバーサルシリアルバス(USB)、電気電子技術者協会(IEEE)標準1394バス(ファイヤーワイヤーとも呼ばれる)を有する。
【0026】
メモリ320は、読み取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、フラッシュメモリ、ディスクドライブなどの一又は複数のタイプの一又は複数の記憶装置からなり又は有する。ネットワークアダプタ340は、処理装置301が通信回線に亘りリモート装置を用いてデータと通信できるように適する装置であり、例えば、従来の電話モデム、ワイヤレスモデム、デジタル加入者回線(DSL)モデム、ケーブルモデム、無線送受信機、衛星送受信機、イーサネットアダプタなどである。前記I/O装置370,380は、例えば、マウス、トラックボール、ジョイスティック、タッチパッド、キーボード、音声認識インターフェイスを有するマイク、
音響スピーカ、表示装置などのポインティング装置などの一又は複数の装置を有する。しかし、前記I/O装置は、専用サーバとして動作するシステムに設けられなくとも良く、少なくとも幾つかの実施形態のサーバ同様に、直接ユーザインターフェイスを備えない。前記示される部材群による他の形態は、本発明と一貫する態様で実行される。
【0027】
上述の動作を実行するプロセッサ310をプログラムするソフトウェア及び/又はファームウェア330は、メモリ320に記録される。特定の実施形態では、そのようなソフトウェア又はファームウェアは、処理装置301を通して(例えばネットワークアダプタ320を介して)リモートシステムからダウンロードすることにより、処理装置301に提供される。
【0028】
図4は、文字を映像にする(TTV)システムの構成例を示す。文字を映像にするシステム400は、一つの処理装置上、又は、処理装置の集団上、及び/又は、サーバ上で実行される。前記システム400は、人の映像モデルを含む映像データベース410を有する。前記人は、「目標となる人」、又は、「目標となる個人」、或いは、単に「目標」と呼ばれ、その顔は、「目標の顔」と呼ばれる。映像モデルは、例えば、前記目標となる人の画像や映像などの事前情報を含む。文字430を受信後、システム400は、辞書を作る。前記辞書は、前記目標となる人の映像モデルに基づいて、文字430を前記目標となる人の顔の動きにマッピングするものである。前記目標となる人の映像列は、前記辞書に基づいて作られる。幾つかの実施形態では、参照される個人からの情報は、以下の段落で詳細に開示されるように、映像列を作るために用いられる。背景シーンは、映像列内で作られ、目標となる顔は、前記背景シーンの最上層の上に重ねられる。
【0029】
システム400は、前記目標となる人の
音響モデルを含む
音響データベース420を有する。前記
音響モデルは、前記目標となる人と参照される個人の事前情報を有する。
音響モデルを構築して目標となる人の音響列を生成するための種々のアプローチがある。このアプローチの詳細は、以下の段落で説明される。映像列と
音響列とが合成されて目標となる人の映像列の中に融合(結合)される(450)。幾つかの実施形態では、映像列は、ディスプレイ上やリモート装置に出力される(460)。
【0030】
目標となる人の映像モデルについて説明する。
【0031】
図5は、目標となる人、とりわけ目標となる人の顔の映像モデルの構築例を示す。前記映像モデルのデータは、文字に基づいて映像生成を実行する処理装置に記録される。一実施形態では、映像モデルは、前記人がある言葉を話しているときに前記人の一又は複数のサンプル映像を撮ることにより作られる。前記人が話す言葉の数は、人の顔、唇、口の動きの豊富な表情が映像内で撮影されるような多数であることを要する。映像モデル作成の段階では、話される言葉は、映像生成の後の段階で供給される言葉と関連する必要はない。一般仮定として、映像生成のために供給又は入力される予定の文字の事前知識は必要ない。
【0032】
映像モデルの構築に必要なのは、口と顔の動きについての十分な情報である。幾つかの実施形態では、異なる言葉でのサンプル映像は、映像モデルの構築に利用される。一実施形態では、例えば、必要なトレーニングデータは、映像の5分を含む。映像モデルを構築するとき、典型的な顔の動きを捉える映像からの代表的なフレームは、前記モデルを構築するために特徴点として選択される(510)。特徴点は、手動か自動で分類される。これらの特徴点は、人の重要な、又は、典型的な顔の特徴(例えば、上唇と下唇とが合うときや、上のまぶたと下のまぶたが合うとき)を示す点と、前記重要な顔の特徴の間の中間点とを含む。
【0033】
各選択されたフレームのために、フレームのN個の点は、前記人の顔の特徴を示すためのメッシュ点として選択される。よって、各フレームは、2N次元のユークリッド空間座標(各点は、x座標とy座標により示される。)で定義される。これらの点は、異なる感情を有する個人の顔形状を示すので、これらは高次元空間でランダムに散らばっていない。一実施形態では、主成分分析(PCA)などの次元縮小方法がこれらの点に適用される。例えば、PCAのような線形の次元縮小方法が適用される。顔の平均画像に関する楕円体が定義されて、主軸がデータ自己相関行列の固有ベクトルとして定義される。これらの主軸は、前記自己相関行列の固有ベクトルの大きさに従って制限される。最大固有値を有する固有ベクトルは、N点の中で最大の変動性を有する方向を示す。小さい固有値の各固有ベクトルは、小さい変動性と重要性の低い方向を示す。一実施形態では、K個の最大の固有ベクトルは、顔のあらゆる可能な動きを写実的に表現するのに十分である。よって、各顔の動きは、K個の集団として表現され、前記数は、乗数と呼ばれる。各乗数は、K個の最重要な固有ベクトルの中で、対応する固有ベクトルの方向に沿う平均画像からの展開の程度を示す。これらの固有ベクトルは、形状固有ベクトルと呼ばれる。形状固有ベクトルは、人の形状モデル520を形成する。幾つかの実施形態では、K個の数は、処理される映像のタイプに基づいて適用して調整される。
【0034】
顔のピクセルの色を表現するために、平均画像のメッシュ点は、平均画像の三角測量をする(三角形分割を作る)のに用いられる。三角測量(三角形分割)プロセスでは、顔の画像を複数の三角形領域に分割し、各三角形領域を3つのメッシュ点により定義する。平均画像から派生する他の顔の動きのために、(平均画像のメッシュ点に対して)変位させたメッシュ点に基づいて、対応する三角形分割が作られる。一実施形態では、N個に分類された各フレームのために、メッシュ点の三角測量プロセスが実行される。これらの三角測量は、分類されたフレームの中の各三角形領域から平均画像の対応する三角形領域に線形マッピングを作るために用いられる。N個の分類画像のピクセル値は、平均形状の境界の内側で定義される画像に移動される。
【0035】
PCAは、平均画像の内側領域で定義されるこれらの画像上で実行される。多数の画像は、PCA後に、顔のテクスチャを表現するために保持される。これらの保持された画像は、テクスチャ固有ベクトルと呼ばれる。前記テクスチャ固有ベクトルは、人のテクスチャモデルを形成する。形状固有ベクトルのための乗数と同様に、テクスチャ固有ベクトルのための乗数は、顔のピクセルカラー(換言すればテクスチャ)を表現するために用いられる。形状固有ベクトルとテクスチャ固有ベクトルのための乗数の集団は、目標となる人の顔540を再現するために用いられる。幾つかの実施形態では、例えば、固有ベクトル(又は対応する乗数)の総数は、略40から50である。レンダリング装置(処理装置)において、顔の動きの各フレームは、線形係数としての乗数を用いて、形状固有ベクトルとテクスチャ固有ベクトルの線形組合せにより再現される。一実施形態では、前記固有ベクトルは、前記レンダリング装置に記録される。
【0037】
幾つかの実施形態では、目標となる人の顔は、複数の領域に分割される。例えば、
図6は、目標となる人の顔を2領域であって、上側領域と下側領域とに分割するプロセス例を示す。形状固有ベクトル610,620の別々のセットは、下側と上側の各領域の
シミュレートに用いられる。形状固有ベクトル610,620に用いられる乗数614,624の別々のセットは、下側と上側の各顔形状モデル612,620に基づいて、下側と上側の各領域を
シミュレートするために用いられる。乗数614によって表現される合成下側領域616は、乗数624によって表現される合成上側領域626と結合されて、目標となる人の合成された顔全体を生成する。話をする人の映像生成のために、下側領域は、上側領域よりも関心が高い。よって、下側領域は、上側領域よりも多くの乗数と固有ベクトルの組によって表現される。
【0038】
参照される個人の映像モデルについて説明する。
【0039】
幾つかの実施形態では、参照個人の映像モデルが、目標となる人のために上記記載と同様な手法を用いて作られる。一実施形態では、これらの参照個人の映像モデルは、これらの参照個人のモデルが文字(テキスト)コンテンツを顔の動きにマッピングする辞書を作るために用いられるので、目標となる人よりも大きいデータセットを用いて作られる。
例えば、参照される個人の映像モデルは、参照される個人が一又は複数の発話を話しているところを記録することによって作成される。発話コンテンツは、異なる感情における典型的な
発話から生じるほぼあらゆる可能な動きを再現するのに十分な大きさである。
【0040】
文字を動きにマッピングする辞書について説明する。
【0041】
一又は複数の辞書は、参照個人の映像モデルに基づいて、文字コンテンツを顔の動きにマッピングするために作られる。一実施形態では、可能な文字コンテンツは、言葉、音素、発声に分解される。発声は、言葉により表現され得ない音である。言葉、音素、発声の各々は、少なくとも一つの登録(エントリ)を辞書内に有する。幾つかの実施形態では、言葉、又は、音素、発声は、辞書内に複数の登録を有する。例えば、言葉は、異なる感情に対応して辞書内に複数の登録を有する。
【0042】
一実施形態では、参照個人のための映像モデルの作成の間、参照モデルは、生成された映像で人が話して見えるための言語で、最も一般的な、多くの言葉を話す。換言すれば、異なる感情を有する言葉が、参照される個人のために記録された映像からの情報を用いて構成音素に基づいて再現される。
【0043】
辞書内の各登録は、言葉、又は、音素、発声と、時系列の形状乗数(時系列は、フレームのシリーズ(連続)、又は、開示列と呼ばれる。)とのマッピングである。例えば、参照個人が「雨」という言葉を言う顔の動きをするためにT個のフレームの期間がかかるとすると、形状乗数の時系列は、f(k,t)、k = 1 〜K、 t = 1 〜Tで示される。各フレームtでは、参照個人の顔の動きは、形状乗数f(k,t)のK個の数により表現される。よって、合計K×Tの乗数の集団が、「雨」という言葉に対応する参照個人の顔の動きの連続を表現する。すなわち、辞書内の登録は、以下の通りである。
「雨」 : f(k,t)、k = 1 〜K、 t = 1 〜T
【0044】
一実施形態では、辞書内の登録は、自動音声認識(ASR)
エンジンを用いて自動的に蓄積される。ASR
エンジンは、言葉と音素とを両方認識できる。幾つかの実施形態では、ASR
エンジンは、言葉や音素ではない発声をさらに認識できる。もし「雨」という言葉が異なる感情で話されると、辞書は、異なる感情による「雨」という言葉のために複数の登録を含むことができる。例えば、一の登録では、以下の通りである。
「雨(驚きの感情)」 : f
1(k,t) 、k = 1 〜K、 t = 1 〜T
【0045】
幾つかの実施形態では、幾つかの言葉は、音素から構成される。音素のための乗数の時系列は、音素だけでなく、前後に発声される隣接する音素(又は音素の前後の沈黙)に依存する。よって、辞書は、音素の複数の登録を含むことができる。登録が映像列を生成するために用いられるとき、音素の登録の選択は、供給される文字列内で隣接する音素(又は音素の前後の沈黙)に依存する。
【0046】
図7は、辞書の登録710の例である。辞書の登録710は、言葉712を乗数714の時系列にマッピングする。顔の動きの各フレーム720は、乗数714の時系列からの乗数の集団によって表現される。ASR
エンジン730は、登録710の蓄積のために用いられる。
【0047】
ベクトル量子化による辞書の最適化について説明する。
【0048】
幾つかの実施形態では、辞書を構築するとき、辞書に含まれる幾つかの言葉、音素は、参照個人により何度も発声される。これにより、一つの言葉や音素のための多くの登録を含む辞書を生成でき、各登録は、言葉や音素を乗数の異なる時系列にマッピングしている。例えば、前記したように、音素の場合、音素のための辞書登録の選択は、
発話履歴に基づいてなされる(すなわち、特定の音素のための口の形状は、その前後に発声される隣接音素により決まる。)。
ここでの選択肢は依然として多すぎることがある。すなわち、辞書によって提供される登録が多すぎることがある。
【0049】
予測可能性を向上させて効率的に検索するために、辞書は、以下の方法で最適化される。
発話のための映像列は、乗数値の空間で非常に多数の点として考えられる。例えば、1秒毎に30フレームである30分の映像が用いられる場合、30×1800×K=54000×Kの乗数値の集団を有することになる。ここで、Kは、映像モデルに用いられる形状固有ベクトルの数である。これらの点の幾つかは、互いに非常に近い口の位置を表現する。
【0050】
ベクトル量子化(VQ)は、K次元空間の54000点の集団で実施される。VQでは、54000点は、集団(VQ点、又は、VQ中心、VQ指標)のM個の中心により近似される。ここで、各点は、集団の最も近い中心により置換される。中心の数が大きいほど、VQ点は54000点のためにより良い再現性を有する。顔の動きが非常に点集団に制約されるためである。乗数間には相関がある。よって、積極的なVQ再現が可能である。一実施形態では、VQの中心の数は、最大誤差が許容されるように決定される。ここで、最大誤差は、映像の受け入れ可能な動作を提供するように可視的に確認される。
【0051】
よって、ベクトル量子化後、辞書の登録は、対応する固有ベクトルのための乗数の時系列の代わりに、VQの中心の時系列を含む。これは、言葉と音素を表現するために辞書の一層コンパクトな登録を可能にする。最初の辞書内において言葉や音素の複数の登録は、VQの中心の時系列を含むより少ない登録を壊す(参照話者により異なる回数、同じ発声がなされるので、VQの中心の同じ時系列にマッピングしうる。)。さらに、この破壊は、隣接音素に基づいて音素の時系列を選択することをより扱い易くする。
【0053】
音響モデルの目的は、与えられた文字に基づいて、任意の文章や、文章の集団を作ることである。文字に基づく
音響モデルを作る複数の技術は、以下の段落に開示される。
【0054】
文字を
発話にする
音響モデル(TTS)について説明する。
【0055】
図8は、TTS
音響モデルを作るプロセス例を示す。TTS
音響モデルでは、
音響モデルを作るために、目標となる人のための文字ファイル840に基づく
発話サンプル810が集められる。
発話サンプル内の
音響データは、目標となる人の
発話の特徴の集団を作るために用いられる。一実施形態では、
発話の特徴は、励起状態の要素820とスペクトル情報830を有する。これらの
発話の特徴と、対応する抽出された文字コンテンツ850とは、
音響モデル860,870を作り、該モデルの精度を上げるために用いられる入力である。
音響モデルが作られると、新しい文字列が
音響を生成するために供給される。この
音響モデルは、確率モデルであり、すなわち、新しい文字列が与えられると、
音響モデルからの
発話の特徴のグループは、新しい文字列を尤もらしく表現するために
音響列に結合される。
【0056】
例えば、
図9は、TTS
音響の合成プロセス例を示す。文字920は、確立モデル910に入力される。930では、
発話の特徴を表現するパラメータ列が文字列910を表現するための前記モデルにより選択される。
発話の特徴を表現する
発話パラメータは、
音響波形を生成する前記モデルにより変換され、よって、
音響列が合成される(940,950)。
【0057】
TTSシステムの出力は、言葉と音素の
音響列だけでなく、そのタイムマーカ(又はタイムスタンプともいう。)をも含む。例えば、「雨」という言葉が
音響列に変換される文字の一部であると考える。
音響モデルは、「雨」という言葉を生成するだけでなく、生成される
音響列の最初の時間に対し、「雨」の
音響列のための最初と最後のタイムスタンプを生成する。このタイムスタンプは、以降の段落で開示される
音響映像同期のために利用される。
【0058】
文字を
音響に合成する直接TTSモデルは、前記モデルを生成するために用いられる
音響データに直接関係する
発話を作る。この技術の利点は、前記モデルが一旦作られると、
発話音響を生成
するのに必要なものが発話文字のみとなる。
【0060】
音響モデルを作る他の技術は、二人の話者の声の
対応関係の構築に基づく。一人の話者は、参照話者であり、他の話者は、目標となる話者である。この技術では、同じ文字に基づく
発話データが目標となる話者と参照話者から集められる。前記参照話者と目標話者の音響波形間で
対応関係が構築される。前記
対応関係は、参照話者により話される新しい言葉の
音響に基づき、目標話者の新しい言葉の
音響を生成するために用いられる。
【0061】
参照音声と目標音声との前記
対応関係は、以下の方法により構築される。同じ言葉を話す目標話者と参照話者からの
音響サンプルが集められる。一実施形態では、
音響サンプルは、数分の長さを有する。この波形の分析により、参照音声と目標音声の発声
とが、参照音声と目標音声の発声
との間で対応関係が得られるように調整(位置合わせ)される。参照音声と目標音声の音声特徴(メル周波数ケプストラム係数など)が抽出される。この結合分布は、GMM(ガウス混合モデル)により
シミュレートされる。GMMのパラメータの最初の推定は、結合ヒストグラムの中の特徴クラスターのベクトル量子化により作られる。GMMは、EM(期待値最大化)アルゴリズムによりトレーニングされる。
【0062】
この技術を用いれば、参照音声の特徴は、目標に対応する特徴にマッピングされる。これらの対応する特徴から、音響波形は、目標となる人の
音響列として生成される。幾つかの実施形態では、プロセスの最初のステップで特徴のアラインメント(整列)がノイズになる。(最初の目標音声とは対照的に)生成される目標音声は、収束するまで繰り返し実行するために入力として前記アルゴリズムに代入される。
【0063】
この声変換モデルには幾つかの利点がある。最初の利点は、
発話の感情状態が前記参照から前記目標に伝送される。第2の利点は、前記参照の映像が
発話のために作られる場合、前記目標の高品質の映像レンダリング(映像表現)を促進する。よって、例えば、音声変換モデルは、前記目標の特に厳密な感情効果が必要とされるとき、エンターテイメント(娯楽)目的で有効である。
【0064】
PCAベースの声変換について説明する。
【0065】
基本のGMMベース声変換は、PCA(主成分分析)の利用により有効性と迅速性を向上させる。この場合、GMM声変換のトレーニングは、一つの参照音声と複数の目標音声で実行される。異なる目標音声でトレーニングがなされた複数のGMMは、PCAプロセスに入れられ、音声の変動性を分解する。
【0066】
生成される目標音声のサンプルが非常に大きい場合、新たな目標音声の追加では、複数分の
音響サンプルの収集と新たなGMMのトレーニングを要しない。代わりに、新たな目標の短い時間の
発話サンプルのみが得られて、そのGMMパラメータが、前にトレーニングされたGMMに基づいて、PCA固有ベクトルの分解により決定される。異なる目標のための複数のGMMへの十分なオリジナルソース(最初の資源)のトレーニングセットを用いて、生成される音声の質は、PCAが一つのGMMプロセス内のノイズによる変動性を除去するので、向上される。
【0067】
前記技術を要約すると、参照データは、トレーニングされた複数の目標GMMに変換される。PCTモデルは、トレーニングされた複数の目標GMMのために生成される。新たな目標となる人のために、PCA分解は、前記新たな目標となる人のための
音響列を合成するために実行され、ここでは、限られたトレーニングデータのみが前記新たな目標となる人から求められる。
【0068】
TTSベースのPCA声変換について説明する。
【0069】
上記の参照音声は、自然(天然)の人間の声である必要はない。それは、高品質のTTSに生成された声であっても良い。このTTS生成音声は、特定の個人の声である必要はない。参照個人の声の代わりに高品質の合成TTSが参照音声である点で異なることを除き、上述と全く同じプロセスが実行される。
【0070】
固定合成TTS資源を用いる利点は、新たな目標の声を生成するために、新たな言葉のセットの
音響資源の生成のために人の声に立ち返る必要がない。よって、映像生成のための入力として文字列のみが必要とされる。
【0072】
生成される映像列と
音響列の合成は、
音響合成を作るために直接TTS又は声変換方法のいずれが用いられたかによって、異なる方法で実施される。この方法は、前記参照個人と前記目標となる人の映像モデルの関係を構築すること要する。前記関係は、前記参照と目標の形状固有ベクトルのアラインメント(整列)により生成される。前記アラインメントは、変換マトリクスにより表現される。前記変換マトリクスは、一回のみの計算を要して、レンダリング(処理)装置に記録される。この変換マトリクスのサイズは、小さい。前記目標となる人が20個の形状固有ベクトルと23個のテクスチャ固有ベクトルにより表現されて、前記辞書が18個の形状固有ベクトルと25個のテクスチャ固有ベクトルにより表現される参照個人に基づき蓄積されているとする。つまり、変換マトリクスは、形状固有ベクトルとテクスチャ固有ベクトルの各々のために20×16個と23×25個のマトリクスである。変換の目的のために、このマトリクスのみが前記レンダリング装置に記録される。前記辞書を作るために用いられる参照個人のデータベースの蓄積は、前記レンダリング装置上で不要である。
【0073】
声変換
音響モデルの合成について説明する。
【0074】
目標
音響が声変換方法で生成されると、映像との合成プロセスは以下のように実施される。
音響は、我々が映像モデルと
音響モデルを有している参照個人に基づき作られる。前記参照個人の形状固有ベクトルとテクスチャ固有ベクトルの乗数が計算される。この乗数は、前記目標となる人の映像列を生成するために形状固有ベクトルとテクスチャ固有ベクトルの乗数に変換される。
【0075】
前記目標となる人の前記生成された映像列は、前記目標となる人の
音響列と合成される
ことが必要な顔と唇の動き、
音響列で表示される如何なる感情をも有する。よって、目標となる人の映像列は、(
音響変換を介した)
音響モデルと、参照個人から目標となる人への映像モデルとを変換することによりもたらされる。感情効果は、参照個人の
音響、及び/又は、映像データにおける感情を認識することにより達成される。
【0076】
直接TTS
音響モデルの合成について説明する。
【0077】
前記目標の
音響が、上記開示されるTTS技術を用いて作られるとき、言葉と音素を乗数の時系列にマッピングしてなる辞書が、同期した映像合成を得るために用いられる。上記のように、アラインメント変換マトリクスは、参照と目標の映像モデル間で用いられる。一実施形態では、前記目標となる人が参照個人であり、辞書が前記参照個人に基づく場合、前記アラインメント変換マトリクスは、不要であり、前記辞書は、目標となる人の
音響列と映像列を直接調整するように用いられる。他の実施形態では、前記目標となる人に基づく辞書を有しない。乗数は参照個人の辞書に基づき計算され、この乗数は、一回の計算によるアラインメント変換マトリクスを用いて、前記目標となる人のための乗数に変換される。
【0078】
図10は、映像列と
音響列の合成プロセス例を示す。文字1010は、言葉、又は、音素、発声に分解される(1020)。言葉、又は、音素、発声の各々は、継続時間1030を有する。言葉、又は、音素、発声の各々は、辞書での登録に一致する(1040)。前記登録は、乗数又はVQ中心(又はVQ指標)における時系列を含む。プロセスは、TTSシステムにより生成される
音響の言葉や音素の継続時間が、辞書により作られて対応する視覚動作の継続時間に一致するか否かを確認する。もし継続時間が一致しない場合、その状況は、TTSシステムにより作られる最初と最後のタイムスタンプによって修正される
。これらの継続時間のレートは、これらのタイムスタンプを一致させる乗数の時系列を補間によって音響から生成するように、使用され得る(1050)。このように、TTSにより生成される
音響列と辞書により生成される映像列との同期が達成される。
【0079】
よって、目標となる人の映像の各フレームを生成する(1080)ために、参照を目標アラインメント変換に適用することにより(1070)、参照個人のための映像列1060の適切に同期されたフレームが生成される。
【0080】
生成される映像を背景に合わせることについて説明する。
【0081】
上記では、目標となる人の適切な顔の動きと口の動きを生成することに焦点をあてた。前記目標となる人の完全な映像のために、体の他の部分(特に、紙、及び、首、肩)が生成される必要がある。本開示における「背景」は、2つの領域を含む。一つ目の領域は、映像モデルにより生成されない目標となる人の体部であり、二つ目の領域は、前記目標の体部とは別の景色である。
【0082】
合成映像を背景に埋め込む作業は、レイヤリング(階層化)手続きである。背景は、前記体部によって被覆され、合成映像部は、各フレームの残りを埋める。一実施形態では、映像合成の背景の選択には制限がない。例えば、ユーザは、特定の効果を達成するために、メニューから所望の背景を選択できる。
【0083】
前記体部は、前記目標となる人の顔部に自然に適合する必要があるので、映像モデルにより生成されない目標となる人の体部には一層制限がある。以下の段落で開示される、この埋め込み部分に対処する複数の技術があり、これらの技術は、互いに結合される。
【0084】
境界適合誤差を最小化する埋め込み法について説明する。
【0085】
図11は、境界適合誤差を最小化して、合成映像を背景に埋め込むプロセス例を示す。前記生成された目標映像(ここでは、映像の映像部が前記目標となる人の合成された顔部のみを含む。)の各フレーム1110と背景映像は、互いに合わせ(縫い合わせ)られる。顔部の境界点の座標は、計算されて記録される。背景映像の最適領域の境界と前記合成映像の境界点の間での差異が最小である背景映像の最適領域のために、背景映像で検索が実行される。最適な背景領域が一旦特定されると、前記合成された目標映像の第一フレーム1130の境界誤差が最小化された、背景映像の最適フレーム1120が決定される。続いて、前記合成された目標映像の境界点が背景映像に移動される。前記目標となる人の写実的な合成のために、内部(目標)と外部(背景)の点の座標に基づいて、形状乗数は調整されて再合成される。前記境界点が背景境界点の特定の許容誤差内になるまで、このプロセスを繰り返す。前記合成された顔部は、非合成部の内側に埋め込まれる(1140)。背景映像からのフレームは、上記のように埋め込み誤差を最小化するように選択されるので、前記顔の動き(特に口の位置)は、最小限の影響を受ける。
【0086】
続けて、次の映像列の合成されたフレームに進む。同じ境界誤差が、次の合成フレームと、これまで用いた映像と、背景映像の前のフレームとのために計算される。これらの3つのフレームのうち、境界誤差を最小化する映像を探して、第二フレームを埋め込むために上記で概説した反復プロセスを繰り返す。このプロセスは、合成映像の各フレームのために繰り返される(1150)。
【0087】
領域分割による埋め込みについて説明する。
【0088】
先の段落で述べたように、別々のモデルが顔の上側と下側の部分のために用いられる。
図12は、2領域モデルを用いて合成映像を背景に埋め込むプロセス例を示す。このモデルでは、顔の上側と下側の部分が前記目標となる人の既存の映像、すなわち背景映像に適合される(1210)。
【0089】
上側の境界点(額上など)は、比較的剛性であり(動かず)、境界への最上部分に整列するように、(スケーリングを含んで方向を変える)簡易剛性変換1220を用いて、上側部分の全ての点を移動することによって、上側の顔が背景に埋め込まれる(1230)。
【0090】
下側領域の境界点(あごの点は、話すことと関係して境界上にある)は非剛性であるので、下側領域は、上側領域と同じ態様で背景に埋め込まれない。しかし、幾つかの情報は、合成された境界から得られる。背景に下側の顔を埋め込むために、下側領域は、適切なサイズに調整される(1240)。これは、スケーリングパラメータを提供し、下側領域を上側領域に合わせることを促進する。
【0091】
上側領域と下側領域は、以下の態様で互いに接続される。下側領域と上側領域の接続は、2つの領域が少なくとも共通する3点を有するように実行される。この共通点は、上側領域に接続するために、下側領域を如何に移動、回転、サイズ調整するか決定する(1250)。下側領域は、共通点に従って整列されて(1260)、上側領域と下側領域は、埋め込まれる全体の顔を作るように結合される(1270)。
【0093】
背景は複数の関心領域(ROIs)に分割される。例えば、首と肩などの領域は、関心領域に含まれる。合成映像列の境界は、追跡される。合成映像列と、首及び肩を含む関心領域との間の最大適合を含むフレームは、合成された映像列を背景映像に埋め込むための基礎として選択される。関心領域を利用する技術は、米国特許出願13/334,726に詳細に開示され、米国特許出願13/334,726は、参照により本願に組み込まれる。
【0094】
本願に導入される技術は、例えば、ソフトウェア、及び/又は、ファームウェアでプログラム化された、又は、全体として特定目的で、プログラム可能な回路(例えば一又は複数のマイクロプロセッサ)により実行される。特定目的の配線接続された回路は、例えば、一又は複数の特定用途向け集積回路(ASICs)、又は、プログラム可能な論理装置(PLDs)、フィールド・プログラマブル・ゲート・アレイ(FPGAs)などからなる。
【0095】
本願に導入される技術を実行するのに使用されるソフトウェア又はファームウェアは、コンピュータが読み取れる記憶媒体に記録され、一又は複数の汎用目的又は特定目的のプログラム可能なマイクロプロセッサにより実行される。本願で用いられる用語「コンピュータが読み取れる記憶媒体」は、機械(例えば、コンピュータ、ネットワーク機器、携帯電話、個人用デジタル補助装置(PDA)、製造ツール、一又は複数のプロセッサを有する装置など)により接続可能な形態で情報を記録する如何なる装置をも含む。例えば、コンピュータが接続可能な記憶媒体は、記録可能又は記録不可能媒体(例えば、読み取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク記録媒体、光学記録媒体、フラッシュメモリ、ディスクドライブなど)などを含む。
【0096】
本願で用いられる用語「論理」は、例えば、特定のソフトウェアでプログラム化されるプログラム可能な回路、及び/又は、ファームウェア、特定目的の配線接続された回路、又は、それらの組合せを含む。
【0097】
上記例に加えて、発明の様々な改良と変更は、発明の趣旨を逸脱しない範囲で可能である。よって、本発明は、上記開示に限定されるものではなく、請求項は、本発明の趣旨と全範囲を含むように解釈されるものである。
【0098】
一実施形態では、方法についてである。この方法は、処理装置に文字列を入力するステップと、視覚的かつ可聴的な、人の感情表現を
シミュレートするために、前記処理装置により、前記文字列に基づいて前記人の映像列を生成するステップであって、前記映像列の
音響部分を生成するために、前記人の音声の
音響モデルを用いることを有するステップとを含む。
【0099】
関連する実施形態では、前記処理装置は、携帯装置であり、前記文字列は、ショートメッセージサービス(SMS)を介して第二携帯装置から入力され、人の映像列を生成する前記ステップは、前記携帯装置と前記第二携帯装置に記録された共有情報に基づいて人の映像列を前記携帯装置により生成することを含む。
【0100】
他の関連する実施形態では、前記文字列は、少なくとも一つの言葉を含む言葉群を有し、前記映像列は、前記人が映像列の中で言葉を発声して見えるように生成される。
【0101】
他の関連する実施形態では、前記文字列は、発声を表現する文字を有し、前記映像列は、前記人が映像列の中で言葉を発声して見えるように生成される。
【0102】
他の関連する実施形態では、前記文字列は、言葉と該言葉の指標とを有しており、前記指標は、前記映像列の中で前記人が前記言葉を発声して見えるとき、前記映像列の中で前記人の感情表現を同時に表示し、前記指標は、規定の指標群であり、前記規定の指標群の各指標は、異なる感情表現に関連する。
【0103】
他の関連する実施形態では、映像列を生成する前記ステップは、前記文字列と前記人の事前知識に基づいて、視覚的かつ可聴的な、前記人の感情表現を
シミュレートするために、前記処理装置により人の映像列を生成することを含む。
【0104】
他の関連する実施形態では、前記事前知識は、人の写真や映像を含む。
【0105】
他の関連する実施形態では、映像列を生成する前記ステップは、前記文字列の言葉を前記人の顔の特徴にマッピングするステップと、前記人の顔の特徴を背景上にレンダリングするステップとを含む。
【0106】
他の関連する実施形態では、前記言葉は、前記言葉のための一又は複数の指標に基づいて前記顔の特徴にマッピングされ、前記指標は、前記映像列の中で前記人が前記言葉を発声して見えるとき、前記映像列の中で前記人の感情表現を同時に表示する。
【0107】
他の関連する実施形態では、前記顔の特徴は、複数の人に適用される一般的な顔の特徴を含む。
【0108】
他の関連する実施形態では、前記顔の特徴は、特定の前記人に適用される特定の顔の特徴を含む。
【0109】
他の関連する実施形態では、映像列を生成する前記ステップは、前記人の顔の特徴に適合する前記人の体のジェスチャーを生成することを含む。
【0110】
他の関連する実施形態では、映像列を生成する前記ステップは、前記人の音声に基づく
音響モデルを用いて、前記文字列内の言葉に基づいて前記人の
発話を表現する
音響列を生成することを含む。
【0111】
他の関連する実施形態では、文字列の受信は、リアルタイムで文字列を受信することを含み、映像列を生成する前記ステップは、視覚的かつ可聴的な、前記人の感情表現を
シミュレートするために、前記文字列に基づいて人の映像列をリアルタイムで生成するステップを含み、該ステップは、前記映像列の
音響部分を生成するために前記人の音声の
音響モデルを用いることを含む。
【0112】
他の関連する実施形態では、他の方法についてである。この方法は、処理装置に文字列を入力するステップと、視覚的な、人の感情表現を
シミュレートするために、前記処理装置により、前記文字列に基づいて前記人の映像列を生成するステップであって、前記映像列の各フレームの顔部が前記人の複数の推測画像の結合により表現されるステップと、可聴的な、人の感情表現を
シミュレートするために、前記人の音声の
音響モデルを用いて、前記文字列に基づいて前記人の
音響列を前記処理装置により生成するステップと、前記処理装置を用いて、前記映像列と
音響列とを結合することにより前記人の映像列を生成するステップであって、前記映像列と
音響列が前記文字列に基づいて同期されるステップとを含む。
【0113】
他の関連する実施形態では、前記映像列の各フレームの顔部は、前記人の複数の推測画像の線形結合により表現され、前記人の複数の推測画像における各推測画像は、前記人の平均画像からの偏差に対応する。
【0114】
他の関連する実施形態では、前記文字列に基づいて前記人の映像列を生成する前記ステップは、前記映像列の各フレームを2以上の領域に分割することを含み、少なくとも一つの前記領域は、前記人の推測画像の結合により表現されている。
【0115】
他の関連する実施形態では、前記人の音声の前記
音響モデルは、前記人の
発話サンプルから作られる複数の音声の特徴を含み、前記複数の音声の特徴の各音声の特徴は、文字に対応する。
【0116】
他の関連する実施形態では、前記複数の音声の特徴における各音声の特徴は、言葉、又は、音素、発声に対応する。
【0117】
他の関連する実施形態では、前記人の音声の
音響モデルは、前記人の
発話サンプルから作られる複数の音声の特徴と、前記文字列に従う第二の人の
発話と、前記人の音声の波形と第二の人の音声の波形との
対応関係とを含み、前記人の音声特徴は、前記人の音声の波形と第二の人の音声の波形との前記
対応関係に基づいて、前記第二の人の
発話にマッピングされる。
【0118】
他の関連する実施形態では、前記人の音声の
音響モデルは、前記人の
発話サンプルから作られる複数の音声の特徴と、前記文字列に従って、文字を
発話に変換するモデルにより生成される音声と、前記人の音声の波形と文字を
発話に変換するモデルの音声の波形との
対応関係とを含み、前記人の音声特徴は、前記人の音声の波形と文字を
発話に変換するモデルの音声の波形との前記
対応関係に基づいて、前記モデルの
発話にマッピングされる。
【0119】
他の関連する実施形態では、他の方法についてである。この方法は、文字列を生成するステップであって、前記文字列は、人の感情の範囲を視覚的かつ可聴的に表現するために、前記人の音声に基づく音声モデルを用いて生成される映像列の中で人が発声する一又は複数の言葉を表現するように構成されるステップと、前記文字列内の言葉に関連する指標を特定するステップであって、前記指標は、規定の指標群の一つであり、各指標が前記人の異なる感情表現を示すように構成されるステップと、前記指標を前記文字列に組み込むステップと、前記映像列を生成するように構成される装置に前記文字列を送信するステップとを含む。
【0120】
他の関連する実施形態では、指標を特定する前記ステップは、前記文字列内の言葉に関連する項目群の一覧から一項目を選択するステップを含み、前記一覧の各項目は、前記人の感情表現を示す指標である。
【0121】
他の関連する実施形態では、指標を特定する前記ステップは、文字列内の言葉に用いられるマークアップ言語文字列を挿入するステップを含み、前記マークアップ言語文字列は、既定のマークアップ言語文字列の集団からなり、その集団内の各マークアップ言語文字列は、人の感情表現を示す指標である。
【0122】
他の関連する実施形態では、指標を特定する前記ステップは、自動音声認識(ASR)
エンジンを用いて、前記文字列内の言葉を話す話者の
音響列に基づいて、前記文字列内の言葉に関連する指標を特定するステップを含む。
【0123】
他の関連する実施形態では、前記話者は、前記人とは異なる人である。
【0124】
他の関連する実施形態では、他の方法についてである。この方法は、非個人(non-person)の複数の項目の情報を処理装置に記憶するステップと、前記処理装置の前記非個人の複数の項目の事前情報に基づいて、前記非個人の複数の項目のための映像列を生成するステップであって、前記非個人の各項目が独立して管理可能に構成されるステップとを含む。
【0125】
他の関連する実施形態では、前記非個人の複数の項目は、前記映像列の中で他の要素に関連して制約される。