(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-03-18
(54)【発明の名称】音声信号により駆動される顔アニメーションの生成方法
(51)【国際特許分類】
G10L 25/57 20130101AFI20220311BHJP
G10L 25/18 20130101ALI20220311BHJP
G10L 25/30 20130101ALI20220311BHJP
G06T 13/20 20110101ALI20220311BHJP
G06T 13/40 20110101ALI20220311BHJP
【FI】
G10L25/57
G10L25/18
G10L25/30
G06T13/20 500
G06T13/40
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021504541
(86)(22)【出願日】2019-12-26
(85)【翻訳文提出日】2021-01-22
(86)【国際出願番号】 CN2019128739
(87)【国際公開番号】W WO2021128173
(87)【国際公開日】2021-07-01
(81)【指定国・地域】
(71)【出願人】
【識別番号】505072650
【氏名又は名称】浙江大学
【氏名又は名称原語表記】ZHEJIANG UNIVERSITY
(71)【出願人】
【識別番号】521034247
【氏名又は名称】杭州相芯科技有限公司
(74)【代理人】
【識別番号】100128347
【氏名又は名称】西内 盛二
(72)【発明者】
【氏名】周 昆
(72)【発明者】
【氏名】柴 宇▲進▼
(72)【発明者】
【氏名】翁 彦琳
(72)【発明者】
【氏名】王 律迪
【テーマコード(参考)】
5B050
【Fターム(参考)】
5B050AA03
5B050BA08
5B050BA09
5B050EA24
5B050EA26
(57)【要約】
【課題】本発明は音声信号により駆動される顔アニメーションの生成方法を提供する。
【解決手段】該方法は、主として、音声特徴を抽出するステップ、周波数情報を収集するステップ、時間情報を集約するステップ、動き特徴を復号するステップ、顔モデルを駆動するステップ、及び信号ウィンドウをスライドさせるステップの6つのステップを含む。本発明は、入力された音声オーディオ信号に応じて、一定の遅延で任意の顔モデルをリアルタイムに駆動してアニメーションを生成することができ、アニメーションの品質は現在の最先端の音声アニメーション技術レベルに達するだけでなく、軽量化で、ロバスト性が高い特徴を有する。本発明は、例えば、VRバーチャルソーシャル、仮想音声アシスタント及びゲームのような異なるシーンでの音声アニメーションを生成することに使用できる。
【選択図】
図3
【特許請求の範囲】
【請求項1】
音声信号により駆動される顔アニメーションの生成方法であって、
音声特徴を抽出するステップであって、1つのウィンドウ内の音声に対してメルスペクトログラム特徴を抽出し、前記特徴は特徴マップ次元、周波数次元、時間次元からなる三次元テンソルである、ステップ(1)と、
周波数情報を収集するステップであって、ステップ(1)で得られたメルスペクトログラムに対して、周波数次元方向に沿って、ニューラルネットワークを使用してすべての周波数情報を抽象化し収集し、周波数抽象化情報を得る、ステップ(2)と、
時間情報を集約するステップであって、ステップ(2)で得られた周波数抽象化情報に対して、時間次元方向に沿って、ニューラルネットワークを使用して時間的なコンテキスト中の各フレームの情報の重要度を決定し、重要度に応じて集約して時間集約情報を得る、ステップ(3)と、
動き特徴を復号するステップであって、ステップ(3)で得られた時間集約情報を、ユーザーによって入力されたスタイルを制御するワンホットベクトルと連結し、2つのニューラルネットワークブランチを経由してそれぞれスケーリング/せん断係数及び回転係数を出力し、2つのブランチの出力係数を組み合わせて、顔の動きを示す変形勾配を得る、ステップ(4)と、
顔モデルを駆動するステップであって、無表情、口を閉じた状態の任意の与えられた顔モデルに対して、ステップ(4)で得られた変形勾配を使用して顔モデルを駆動して、対応する顔の動きを作る、ステップ(5)と、
信号ウィンドウをスライドさせるステップであって、ステップ(1)~ステップ(5)を繰り返してすべての音声信号ウィンドウを処理し、完全な顔アニメーションを生成する、ステップ(6)と、
を含むことを特徴とする音声信号により駆動される顔アニメーションの生成方法。
【請求項2】
前記ステップ(1)は、
入力オーディオウィンドウの長さがL
audioの音声信号に対して短時間フーリエ変換(フレーム長さはL
fft、フレーム間隔はL
hopである。)を行い、F
mel個のメルフィルターを使用してフーリエ変換の結果をメル周波数でのものに変換し、フレーム長さがL
audioのメルスペクトログラムを得るサブステップ(1.1)と、
時間に関するメルスペクトログラムの第1及び第2次導関数を補助特徴とし、オリジナル特徴と重ね合わせて3×F
mel×L
frameの形状のテンソルを形成し、1次元目の3は特徴マップ数、2次元目のF
melは周波数次元の長さ、3次元目のL
frameは時間次元の長さを示すサブステップ(1.2)と、
を含むことを特徴とする請求項1に記載の音声信号により駆動される顔アニメーションの生成方法。
【請求項3】
前記ステップ(2)は、
ステップ(1)で得られたメルスペクトログラムに対して、二次元畳み込みネットワークを使用して、メルスペクトログラムの局所周波数特徴を抽出し、前記二次元畳み込みネットワークは順に第1の二次元畳み込み層、第1の二次元最大プーリング層、第2の二次元畳み込み層、及び第2の二次元最大プーリング層を含み、前記2つの二次元畳み込み層は、それぞれ周波数次元方向に沿うサイズがいずれもK
freq×1であるC
freq_conv0、C
freq_conv1個の畳み込みカーネルによって、入力に対して畳み込み算出を行い、複数の局所特徴マップを取得し、前記局所特徴マップの数は畳み込みカーネルの数と同じであり、K
freqは周波数次元方向のサイズ、1は時間次元方向のサイズを示し、2つの二次元畳み込み層はいずれも負の勾配が0.2の漏洩正規化線形ユニットを活性化関数として使用し、前記2つの二次元最大プーリング層は、周波数次元方向に沿うサイズがS
freq×1である領域内で局所特徴最大値を選択し、ダウンサンプリングプーリング操作を完了し、得られた局所周波数特徴は1つの
の形状のテンソルであり、1次元目のC
freq_conv1は特徴マップ数、2次元目の
は周波数次元の長さ、3次元目のL
frameは時間次元の長さを示すサブステップ(2.1)と、
ステップ(2.1)で得られた局所周波数特徴に対して、サイズが1×1であるC
freq_conv2個の畳み込みカーネルを使用して局所周波数特徴を投影し、負の勾配が0.2の漏洩正規化線形ユニットを活性化関数として使用し、出力は1つの
の形状のテンソルであり、1次元目のC
freq_conv2は特徴マップ数、2次元目の
は周波数次元の長さ、3次元目のL
frameは時間次元の長さを示し、前記サイズが1×1であることは波数次元及び時間次元の方向のサイズがいずれも1に等しいことを示すサブステップ(2.2)と、
ステップ(2.2)で得られた投影後の局所周波数特徴に対して、周波数次元の正逆2つの方向に沿って、それぞれ1つの長・短期記憶ユニットを使用して周波数次元における各特徴を循環的に処理するサブステップ(2.3)と、
ステップ(2.3)における周波数次元の正逆2つの方向に沿う長・短期記憶ユニットの出力に対して、すべてを連結して1つのベクトルを形成して
の形状のテンソルを得、1次元目の
は特徴マップ数、2次元目のL
frameは時間次元の長さを示し、特徴マップ数がC
freqである1つの完全接続層を使用して投影し、すべての周波数の情報を収集し、C
freq×L
frameの形状のテンソルである周波数抽象化情報z
freqを得、1次元目のC
freqは特徴マップ数、2次元目のL
frameは時間次元の長さを示し、ここまで、周波数次元は完全に収集され、特徴マップ次元に抽象化されるサブステップ(2.4)と、
を含むことを特徴とする請求項1に記載の音声信号により駆動される顔アニメーションの生成方法。
【請求項4】
前記ステップ(3)は、
ステップ(2)で得られた周波数抽象化情報に対して、2つの隠れ層を使用して時間次元情報を伝達し、時間的なコンテキスト情報m
freqを得、前記隠れ層のそれぞれでは、時間次元の正逆方向に沿って、それぞれ1つの長・短期記憶ユニットを使用して時間次元の各フレームを循環的に処理し、時間情報を伝達し、各方向の長・短期記憶ユニットの特徴マップ数はいずれも
であり、2つの方向の特徴マップ数の和はC
timeであり、前記時間的なコンテキスト情報m
freqはC
time×L
frameの形状のテンソルであり、1次元目のC
timeは特徴マップ数、2次元目のL
frameは時間次元の長さを示すステップ(3.1)と、
ステップ(3.1)で得られた時間的なコンテキスト情報に対して、隠れ層を使用してコンテキスト中の各フレーム情報の重要度重みを評価し、重み付け及び集約を行い、前記隠れ層では、時間的なコンテキスト情報m
freqの中間のK
qryフレームを選択し、サイズがK
qryであるC
att個の一次元畳み込みカーネルを使用して投影してクエリアイテムq
attとし、時間的なコンテキスト情報m
freq全体を線形投影してキーバリューアイテムk
attとし、クエリアイテムq
attとキーバリューアイテムk
attとの和がtanh活性化関数、線形投影及びsoftmax正規化によって、各フレームの重みを取得し、該重みを使用して時間的なコンテキスト情報m
freqに対して重み付け及び集約を行い、時間集約情報z
attを得、前記クエリアイテムq
attの形状はC
att×1であり、C
attは特徴マップ数であり、畳み込みカーネル数が同じであり、1は時間次元長さであり、キーバリューアイテムk
attの形状はC
att×L
frameであり、C
attは特徴マップ数であり、L
frameは時間次元長さであり、前記線形投影の特徴マップ数はC
attから1に投影され、前記重みの形状は1×L
frameであり、時間集約情報z
attの形状はC
timeであり、C
timeは特徴マップ数であるステップ(3.2)と、
を含むことを特徴とする請求項1に記載の音声信号により駆動される顔アニメーションの生成方法。
【請求項5】
前記ステップ(4)では、変形勾配を使用して顔の動きを示し、前記変形勾配は1つのテンプレート顔モデル上で定義され、該テンプレート顔モデルは無表情、口を閉じた状態であり、N個の三角形からなることを特徴とする請求項1に記載の音声信号により駆動される顔アニメーションの生成方法。
【請求項6】
前記ステップ(5)は、
与えられた顔モデル(M個の三角形からなる)とテンプレート顔モデル(N個の三角形からなる)との三角形対応関係を取得し、前記顔モデルはM個の三角形からなり、前記テンプレート顔モデルはN個の三角形からなるサブステップ(5.1)と、
対応するテンプレート顔モデルの変形勾配を与えられた顔モデルに転移するサブステップ(5.2)と、
転移された変形勾配に応じて、与えられた顔モデルの頂点位置を求めるサブステップ(5.3)と、
を含むことを特徴とする請求項1に記載の音声信号により駆動される顔アニメーションの生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は顔アニメーションの分野に関し、特に音声信号により駆動される顔アニメーション(音声アニメーションと略称)の生成方法に関する。
【背景技術】
【0002】
プログラム式の音声アニメーション技術(Yuyu Xu, Andrew W Feng, Stacy Marsella, and Ari Shapiro. A practical and configurable lip sync method for games. In Proceedings of Motion on Games, pages 131-140. ACM, 2013.)(Pif Edwards, Chris Landreth, Eugene Fiume, and Karan Singh. Jali: an animator-centric viseme model for expressive lip synchronization. ACM Transactions on Graphics (TOG), 35(4):127, 2016.)は、音声から発音を反映する音素シーケンス(例えば、英語の音節、中国語のピンイン)を自動で識別し、人間が発音する時の唇の形状に応じて音素をビゼームにグループ化し、且つビゼームごとにアニメーションキーフレームを作成し、所定の同時調音ルールに従ってシーケンス全体を結合して顔アニメーションを得る。これらの技術は通常、人為的に設定されたキーフレーム及び同時調音ルールに制限されてリアルな音声アニメーションを生成できないとともに、音素識別結果の正確性に制限されている。
【0003】
サンプルに基づく音声アニメーション技術(Tony Ezzat, Gadi Geiger, and Tomaso Poggio. Trainable video-realistic speech animation, volume 21. ACM, 2002.)(Sarah L Taylor, Moshe Mahler, Barry-John Theobald, and Iain Matthews. Dynamic units of visual speech. In Proceedings of the ACM SIGGRAPH/Eurographics Symposium on Computer Animation, pages 275-284. Eurographics Association, 2012.)も音素シーケンスからアニメーションへのマッピングを行うが、アニメーションのリアルさを向上させるために、人為的に設定されたルールを使用せず、データサンプルから複数のアニメーションセグメントを直接抽出して接合する。これらの技術的効果は通常、サンプルの数に制限されているとともに、セグメント接合部に欠陥が生じることが多く、同様に音素識別結果の正確性に制限されている。
【0004】
Wangらは隠れマルコフ連鎖モデルに基づく技術(Lijuan Wang, Wei Han, Frank Soong, and Qiang Huo. Text-driven 3d photo-realistic talking head. In INTERSPEECH 2011. International Speech Communication Association, September 2011.)を提案しており、該技術では、音声信号からメル周波数ケプストラム係数(Mel-Frequency Cepstral Coefficients、MFCC)を音声特徴として抽出し、二次元画像中の顔のランドマーク(Landmarks)の主成分分析(Principal Component Analysis、PCA)係数をアニメーション特徴として使用する。該技術は隠れマルコフ連鎖によって音声特徴とアニメーション特徴とのマッピング関係をモデリングし、2種の特徴間の自然なルールをマイニングし、サンプルに基づく技術に比べて、データの利用率を向上させる。
【0005】
近年、ディープニューラルネットワークは音声アニメーション分野の技術のさらなる向上を促進している。Fanら(Bo Fan, Lei Xie, Shan Yang, Lijuan Wang, and Frank K Soong. A deep bidirectional lstm approach for video-realistic talking head. Multimedia Tools and Applications, 75(9):5287-5309, 2016.)は双方向長・短期記憶モジュール(Bidirectional LongShort-Term Memory、BiLSTM)を使用してデータから、音声からアニメーションへのマッピングを学習し、特に自然な同時調音モードを学習し、しかしながら、BiLSTMは音声全体の入力を必要とし、リアルタイム生成が不能である。これをもとに、Suwajanakornらは遅延付きの単方向長・短期記憶モジュール(Supasorn Suwajanakorn, Steven M Seitz, and Ira Kemelmacher-Shlizerman. Synthesizing obama: learning lip sync from audio. ACM Transactions on Graphics (TOG), 36(4):95, 2017.)を提案しており、それは、短い遅延によって後の情報を取得して同時調音の処理を支援し、一定の遅延で高品質の音声アニメーションをリアルタイムに生成することを実現できる。この技術は、大量のデータを必要とし、且つ特定の人物の顔ビデオを生成するしかできないという点で制限されている。
【0006】
Talyorら(Sarah Taylor, Taehwan Kim, Yisong Yue, Moshe Mahler, James Krahe, Anastasio Garcia Rodriguez, Jessica Hodgins, and Iain Matthews. A deep learning approach for generalized speech animation. ACM Transactions on Graphics (TOG), 36(4):93, 2017.)はスライディングウィンドウ技術を提案しており、該技術では、ディープニューラルネットワーク(DeepNeuralNetwork、DNN)を使用して1つのウィンドウ長さ内の音素を顔のクティブアピアランスモデル(Active Appearance Model、AAM)係数にマッピングし、入力された音素ウィンドウは短いコンテキスト情報を含み、それがDNNによって自然な発音モードの学習に好適に使用できる。Karrasら(Tero Karras, Timo Aila, Samuli Laine, Antti Herva, and Jaakko Lehtinen. Audio-driven facial animation by joint end-to-end learning of pose and emotion. ACM Transactions on Graphics (TOG), 36(4):94, 2017.)はさらにスライディングウィンドウ技術を向上し、この技術では、入力は1つのウィンドウの線形予測符号(LinearPredictiveCoding、LPC)音声特徴であり、2段階の畳み込みニューラルネットワーク(特徴次元に対応するフォルマント分析段階、時間次元に対応する発音段階)、及び2層の完全接続ネットワークによって、1フレームの三次元顔モデルの頂点位置を出力する。これら2種の技術は、特に入力される音声がモデルの訓練音声と大きく異なる場合、汎用性が低い。Cudeiroら(Daniel Cudeiro, Timo Bolkart, Cassidy Laidlaw, Anurag Ranjan, and Michael Black. Capture, learning, and synthesis of 3D speaking styles. Computer Vision and Pattern Recognition (CVPR), pages 10101-10111, 2019.)はさらに改良し、従来の音声識別モジュールを利用して音声特徴を抽出し、汎用性を向上させる一方、導入された音声識別モジュールの体積が大きすぎるため、該技術によるアニメーションの生成速度が遅い。
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は、従来技術の欠陥に対して、音声信号により駆動される顔アニメーションの生成方法を提供することを目的とする。本発明は、メルスペクトログラムを使用して音声信号の周波数特徴を抽出し、無表情、口を閉じた顔モデルを参照して算出された変形勾配は、アニメーション中の顔の動きを示すことに使用される。本発明は3段階(ステップ(2)~(4)に対応する)のディープニューラルネットワークによって1つのウィンドウのメルスペクトログラム特徴を1フレームの変形勾配にマッピングし、変形勾配は任意の顔モデルを駆動することに使用でき、出力のスタイルはディープニューラルネットワークにおいてワンホットベクトルによって表示制御することができる。
【課題を解決するための手段】
【0008】
本発明の目的は以下の技術案によって実現される。
本発明は、音声信号により駆動される顔アニメーションの生成方法であって、
【0009】
1つのウィンドウ内の音声に対してメルスペクトログラム(Mel Spectrogram)特徴を抽出し、前記特徴は特徴マップ次元、周波数次元、時間次元からなる三次元テンソル(Tensor)である、音声特徴を抽出するステップ(1)と、
【0010】
ステップ(1)で得られたメルスペクトログラムに対して、周波数次元方向に沿って、ニューラルネットワーク(Neural Network)を使用して、すべての周波数情報を抽象化し収集し、周波数抽象化情報を得る、周波数情報を収集するステップ(2)と、
【0011】
ステップ(2)で得られた周波数抽象化情報に対して、時間次元方向に沿って、ニューラルネットワークを使用して時間的なコンテキスト中の各フレームの情報の重要度を決定し、重要度に応じて集約して時間集約情報を得る、時間情報を集約するステップ(3)と、
【0012】
ステップ(3)で得られた時間集約情報を、ユーザーによって入力されたスタイルを制御するワンホット(One-Hot)ベクトルと連結し、2つの類似するニューラルネットワークブランチを経由してそれぞれスケーリング/せん断(Scaling/Shearing)係数及び回転(Rotation)係数を出力し、2つのブランチの出力係数を組み合わせて、顔の動きを示す変形勾配(Deformation Gradients)を得る、動き特徴を復号するステップ(4)と、
【0013】
任意の与えられた顔モデル(無表情、口を閉じた状態)に対して、ステップ(4)で得られた変形勾配を使用して顔モデルを駆動して、対応する顔の動きを行う、顔モデルを駆動するステップ(5)と、
【0014】
ステップ(1)~ステップ(5)を繰り返してすべての音声信号ウィンドウを処理し、完全な顔アニメーションを生成する、信号ウィンドウをスライドさせるステップ(6)と、を含む音声信号により駆動される顔アニメーションの生成方法。
【発明の効果】
【0015】
本発明によって、以下の有益な効果が得られる。周波数情報を収集する方法であるステップ(2)は、メルスペクトログラム特性に基づいて設計されており、音声特徴をロバストに抽象化でき、時間情報を集約する方法であるステップ(3)は、子音、母音の発音原理に基づいて設計されており、人間の自然な発音モードを効率よく学習でき、ステップ(4)では音声により駆動される顔アニメーションにおいて変形勾配を使用して顔の動きを示すことが初めて提案された。これにより、顔の動きの局所的な変化をより正確に表すことができる。本方法は現在最も先進的な音声駆動の顔アニメーションの技術レベルに達し、軽量化、ロバスト性、及びリアルタイム性(一定の遅延で)という特徴を有する。本発明はVRバーチャルソーシャル、仮想音声アシスタントやゲーム等のアプリケーションで音声信号を使用して顔アニメーションの生成を駆動することができる。
【図面の簡単な説明】
【0016】
【
図1】
図1は本発明における方法の概略フローチャートである。
【
図2】
図2は本発明における方法においてちステップ(2)のサブステップ(2.3)の前記記憶ユニットの動作の概略フローチャートである。
【
図3】
図3は本発明における方法においてステップ(3)の概略フローチャートである。
【
図4】
図4は音声信号を使用して顔モデルアニメーションを駆動する本発明の実施例では、人間の顔モデルが英語単語「smash」を話すように駆動するアニメーションフレームの順次抜粋である。
【
図5】
図5は音声信号を使用して顔モデルアニメーションを駆動する本発明の実施例では、漫画の動物の顔モデルが英語単語「smash」を話すように駆動するアニメーションフレームの順次抜粋である。
【発明を実施するための形態】
【0017】
本発明の中核な技術は、周波数次元の畳み込み及び双方向長・短期記憶モジュールを利用して音声特徴を抽象化し、時間次元の双方向長・短期記憶及びアテンションモジュールを利用してウィンドウ内の時間的なコンテキスト情報を集約し、変形勾配を使用して顔の動きを示すことである。
図1に示すように、該方法は主として、音声特徴を抽出するステップ、周波数情報を収集するステップ、時間情報を集約するステップ、動き特徴を復号するステップ、顔モデルを駆動するステップ、及び最後に1つの音声シーケンス上で信号ウィンドウをスライドさせて前記の5つのステップを繰り返し続けて完全なアニメーションシーケンスを取得するステップの六つのステップに分けられる。
【0018】
ステップ(1):音声特徴を抽出する。即ち、1つのウィンドウ内の音声に対してメルスペクトログラム(MelSpectrogram)特徴を抽出し、前記特徴は特徴マップ次元、周波数次元、時間次元からなる三次元テンソル(Tensor)である。
【0019】
ステップ(1.1):入力オーディオウィンドウの長さがLaudioの音声信号に対して短時間フーリエ変換(フレーム長さはLfft、フレーム間隔はLhop)を行い、Fmel個のメルフィルター(MelFilters)を使用してフーリエ変換の結果をメル周波数でのものに変換し、フレーム長さがLframeのメルスペクトログラムを得る。
【0020】
ステップ(1.2):時間に関するメルスペクトログラムの第1及び第2次導関数を補助特徴とし、オリジナル特徴と重ね合わせて3×Fmel×Lframeの形状のテンソル(Tensor)を形成し、1次元目の3は特徴マップ数、2次元目のFmelは周波数次元の長さ、3次元目のLframeは時間次元の長さを示す。
【0021】
ステップ(2):周波数情報を収集する。即ち、ステップ(1)で得られたメルスペクトログラムに対して、周波数次元方向に沿って、ニューラルネットワーク(NeuralNetwork)を使用して、すべての周波数情報を抽象化し、収集し、周波数抽象化情報を得る。
【0022】
ステップ(2.1):ステップ(1)で得られたメルスペクトログラムに対して、二次元畳み込みネットワークを使用して、メルスペクトログラムの局所周波数特徴を抽出し、前記二次元畳み込みネットワークは順に第1の二次元畳み込み層、第1の二次元最大プーリング層、第2の二次元畳み込み層、及び第2の二次元最大プーリング層を含み、前記2つの二次元畳み込み層は、それぞれ周波数次元方向に沿うC
freq_conv0、C
freq_conv1個の畳み込みカーネル(サイズはいずれもK
freq×1であり、K
freqは周波数次元方向のサイズ、1は時間次元方向のサイズを示す)によって、入力に対して畳み込み算出を行い、複数の局所特徴マップ(数は畳み込みカーネルの数と同じ)を取得し、2つの二次元畳み込み層はいずれも負の勾配が0.2の漏洩正規化線形ユニット(Leaky ReLU、LReLU)を活性化関数として使用し、前記2つの二次元最大プーリング層は、周波数次元方向に沿う1つの領域内(サイズはいずれもS
freq×1)で局所特徴最大値を選択し、ダウンサンプリングプーリング操作を完了し、得られた局所周波数特徴は1つの
の形状のテンソルであり、1次元目のC
freq_conv1は特徴マップ数、2次元目の
は周波数次元の長さ、3次元目のL
frameは時間次元の長さを示す。
【0023】
ステップ(2.2):ステップ(2.1)で得られた局所周波数特徴に対して、サイズが1×1(周波数次元及び時間次元の方向のサイズがいずれも1に等しい)であるC
freq_conv2個の畳み込みカーネルを使用して局所周波数特徴を投影し、負の勾配が0.2の漏洩正規化線形ユニット(Leaky ReLU、LReLU)を活性化関数として使用し、出力は1つの
の形状のテンソルであり、1次元目のC
freq_conv2は特徴マップ数、2次元目の
は周波数次元の長さ、3次元目のL
frameは時間次元の長さを示す。
【0024】
ステップ(2.3):ステップ(2.2)で得られた投影後の局所周波数特徴に対して、周波数次元の正逆2つの方向に沿って、それぞれ1つの長・短期記憶ユニットを使用して周波数次元における各特徴を循環的に処理し、
図2に示すように、前記長・短期記憶ユニットは1つのステートマシン(記憶ユニットの履歴情報を格納することに用いられる)及び3つのゲートを有し、入力ゲートi
tは各周波数特徴x
t(xは入力、添字tは第t個の入力の時点を示す)及び前のステップでの記憶ユニットの出力h
t-1(hは出力、添字t-1は第t-1個の入力の時点、すなわち、前のステップを示す)に作用し、新たな周波数特徴情報を記憶ユニットのステートマシンに追加することを許可するか否かを示し、数値は0~1(両端を含む)であり、入力ゲートの数値が1(すなわち、ゲート開き)である場合、新情報を追加し、0(すなわち、ゲート閉じ)である場合、ゼロベクトルを追加し、0から1までの中間数値である場合、新情報をゲート数値と乗算して追加し、忘却ゲートf
tは記憶ユニットのステートマシンに作用し、前のステップでステートマシンに格納された履歴周波数情報S
t-1(Sはステートマシンの状態、添字t-1は第t-1個の入力の時点、すなわち、前のステップを示す)を保留するか否かを示し、数値が0~1(両端を含む)であり、忘却ゲートの数値が1(すなわち、ゲート開き)である場合、格納された情報を保留し、0(すなわち、ゲート閉じ)である場合、格納された情報をゼロベクトルにリセットし、0から1までの中間数値である場合、格納された情報をゲートの数値と乗算して保留し、出力ゲートo
tは記憶ユニットのステートマシンに作用し、現在の記憶ユニットの状態S
t(Sはステートマシンの状態、添字tは第t個の入力の時点を示す)を出力とするか否かを示し、数値が0~1(両端を含む)であり、1(すなわち、ゲート開き)である場合、現在の記憶ユニットの状態を出力とし、0(すなわち、ゲート閉じ)である場合、ゼロベクトルを出力し、0から1までの中間数値である場合、現在の記憶ユニットの状態をゲートの数値と乗算したものを出力とし、3つのゲートの具体的な数値は、現在の入力x
tと前のステップでの該記憶ユニットの出力h
t-1を連結及び投影して得られ、具体的には、次の式に示される。
【0025】
【数1】
式中、x
tは現在の入力であり、h
t-1は前のステップでの記憶ユニットの出力であり、i
tは入力ゲートの数値であり、W
i、b
iはそれぞれ入力ゲートの重み及びバイアスパラメータであり、f
tは忘却ゲートの数値であり、W
f、b
fはそれぞれ忘却ゲートの重み及びバイアスパラメータであり、o
tは出力ゲートの数値であり、W
o、b
oはそれぞれ出力ゲートの重み及びバイアスパラメータであり、
は現在の入力、前のステップの出力に対する投影であり、W
f、b
fはそれぞれ投影の重み及びバイアスパラメータであり、S
t-1、S
tはそれぞれ前のステップ及び現在の記憶ユニットのステートマシンの状態であり、h
tは現在の記憶ユニットの出力である。
【0026】
各方向の長・短期記憶ユニットの特徴マップ数は
であり、2つの方向の特徴マップ数の和はC
freq_LSTMであり、従って、本ステップでの2つの方向の長・短期記憶ユニットの出力は
の形状のテンソルであり、1次元目のC
freq_LSTMは特徴マップ数、2次元目の
は周波数次元の長さ、3次元目のL
frameは時間次元の長さを示す。
【0027】
長・短期記憶ユニットのステートマシン及びステートマシンの周りを周回する3つのゲートによって、ある周波数特徴を分析する際に、ほかの周波数の特徴を十分に考慮でき、人間が発音する時にフォルマントが出現する自然現象に順応する。
【0028】
ステップ(2.4):ステップ(2.3)における周波数次元の正逆2つの方向に沿う長・短期記憶ユニットの出力に対して、すべてを連結して1つのベクトルを形成して
の形状のテンソルを得、ただし、1次元目の
は特徴マップ数、2次元目のL
frameは時間次元の長さを示し、特徴マップ数がC
freqである1つの完全接続層を使用して投影し、すべての周波数の情報を収集し、C
freq×L
frameの形状のテンソルである周波数抽象化情報z
freqを得、ただし、1次元目のC
freqは特徴マップ数、2次元目のL
frameは時間次元の長さを示す。ここまで、周波数次元は完全に収集され、特徴マップ次元に抽象化される。
【0029】
ステップ(3):時間情報を集約する。即ち、ステップ(2)で得られた周波数抽象化情報に対して、時間次元方向に沿って、ニューラルネットワークを使用して時間的なコンテキスト中の各フレームの情報の重要度を決定し、重要度に応じて集約して時間集約情報を得る。具体的なフローは
図3に示すとおりである。
【0030】
ステップ(3.1):ステップ(2)で得られた周波数抽象化情報に対して、2つの隠れ層を使用して時間次元のコンテキスト情報を伝達し、前記隠れ層のそれぞれでは、時間次元の正逆方向に沿って、それぞれ1つの長・短期記憶ユニットを使用して時間次元の各フレームを循環的に処理し、時間情報を伝達し、前記長・短期記憶ユニットはステップ(2.3)のにおける前記長・短期記憶ユニットの構造原理と同じであるが、時間次元方向に作用し、1つのステートマシン(記憶ユニットの履歴情報を格納することに用いられる)及び3つのゲートを有し、入力ゲートは各フレームの時間特徴及び前のステップでの記憶ユニットの出力に作用し、新たな時間フレーム情報を記憶ユニットのステートマシンに追加することを許可するか否かを示し、数値が0~1(両端を含む)であり、入力ゲートの数値が1(すなわち、ゲート開き)である場合、新情報を追加し、0(すなわち、ゲート閉じ)である場合、ゼロベクトルを追加し、0から1までの中間数値である場合、新情報をゲートの数値と乗算して追加し、忘却ゲートは記憶ユニットのステートマシンに作用し、前のステップでステートマシンに格納された履歴時間情報を保留するか否かを示し、数値が0~1(両端を含む)であり、忘却ゲートの数値が1(すなわち、ゲート開き)である場合、格納された情報を保留し、0(すなわち、ゲート閉じ)である場合、格納された情報をゼロベクトルにリセットし、0から1までの中間数値である場合、格納された情報をゲートの数値と乗算して保留し、出力ゲートは記憶ユニットのステートマシンに作用し、現在の記憶ユニットの状態を出力とするか否かを示し、数値が0~1(両端を含む)であり、1(すなわちゲート開き)である場合、現在の記憶ユニットの状態を出力とし、0(すなわち、ゲート閉じ)である場合、ゼロベクトルを出力し、0から1までの中間数値である場合、現在の記憶ユニットの状態をゲート数値と乗算したものを出力とし、3つのゲートの具体的な数値は、現在の入力時間フレーム(又は前の隠れ層の出力)と前のステップでの該ユニットの出力を連結及び投影して得られる。
【0031】
各方向の長・短期記憶ユニットの特徴マップ数はいずれも
であり、2つの方向の特徴マップ数の和はC
timeである。従って、本ステップで得られた時間的なコンテキスト情報m
freqはC
time×L
frameの形状のテンソルであり、1次元目のC
timeは特徴マップ数、2次元目のL
frameは時間次元の長さを示す。
【0032】
ステップ(3.2):ステップ(3.1)で得られた時間的なコンテキスト情報に対して、隠れ層を使用してコンテキスト中の各フレーム情報の重要度重みを評価し、重み付け及び集約を行い、前記隠れ層では、時間的なコンテキスト情報mfreqの中間のKqryフレームを選択し、Catt個の一次元畳み込みカーネル(サイズもKqryである)を使用して投影してクエリアイテムqatt(形状はCatt×1であり、Cattは特徴マップ数であり、畳み込みカーネルの数と同じであり、1は時間次元の長さである)とし、時間的なコンテキスト情報mfreq全体を線形投影してキーバリューアイテムkatt(形状はCatt×Lframeであり、Cattは特徴マップ数であり、Lframeは時間次元の長さである)とし、クエリアイテムqattとキーバリューアイテムkattとの和がtanh活性化関数、線形投影(特徴マップ数をCattから1に投影する)及びsoftmax正規化によって、各フレームの重み(形状は1×Lframeである)を取得し、該重みを使用して時間的なコンテキスト情報mfreqに対して重み付け及び集約を行い、時間集約情報zatt(形状はCtimeであり、Ctimeは特徴マップ数である)を得、前記隠れ層は時間次元の重みによって人間の自然な発音モードを模倣する。例えば、母音の発音は時間が長いが、子音の発音は瞬間的な発音として表され且つ該子音の前後の遷移母音に関連している。
【0033】
ステップ(4):動き特徴を復号する。即ち、ステップ(3)で得られた時間集約情報を、ユーザーによって入力されたスタイルを制御するワンホット(One-Hot)ベクトルと連結し、2つの類似するニューラルネットワークブランチを経由してそれぞれスケーリング/せん断(Scaling/Shearing)係数及び回転(Rotation)係数を出力し、2つのブランチの出力係数を組み合わせて、顔の動きを示す変形勾配(Deformation Gradients)を得る。
【0034】
本発明は、音声により駆動される音声アニメーションでは、初めて変形勾配を使用して顔の動きを示し、従来の技術に比べて、顔の動きの局所変化をより正確に記述できる。
【0035】
(4.1):変形勾配
本発明は(Robert W Sumner and Jovan Popovic. Deformation transfer for triangle meshes. ACM Transactions on graphics (TOG), 23(3):399-405, 2004.)に記載されている方式を採用して顔モデルの変形勾配を算出する。顔モデルは複数の三角形パッチからなり、v
i
(k)及び
はそれぞれ顔モデル及び変形後の顔モデル中の第i個の三角形の3つの頂点を示す。三角形に垂直な方向の変形を処理するために、三角形に対して以下の式(2)により第4個の頂点を算出する。
【数2】
第i個の三角形の変形勾配は以下の式(3)を満たす変換行列T
iであり、
【数3】
Vi及び
はそれぞれ基準及び変形三角形の3つのベクトルを重ね合わせてなり、
【数4】
従って、
である。
【0036】
本発明はさらに(Qianyi Wu, Juyong Zhang, Yu-Kun Lai, Jianmin Zheng, and Jianfei Cai. Alive caricature from 2d to 3d. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7336-7345, 2018.)に記載されている方法を採用して変換行列を極分解し、Ti=Ri Siである。Siはスケーリング/せん断変換を示し、対称行列であり、6個のパラメータで表すことができ、Riは回転変換を示し、Rodrigues' formulaを使用して3個のパラメータで表すことができる。従って、各三角形の変形勾配は9個のパラメータで示される。
【0037】
本発明における変形勾配は、1つのテンプレート顔モデル上で定義され、該テンプレート顔モデルは無表情、口を閉じた状態であり、N個の三角形からなり、従って対応する変形勾配は9N=6N+3N個のパラメータを含む。
【0038】
(4.2):動きの復号
話す者のスタイルを制御するためのCspeaker次元ワンホットベクトルをステップ(3)で得られた時間集約情報zattと連結し、特徴マップ数がCdec0である1つの完全接続層及び負の勾配が0.2の漏洩正規化線形ユニット(Leaky ReLU、LReLU)活性化関数によってzdec(形状はCdec0である)を得る。その後、zdecはそれぞれ2つの構造が類似し並行するニューラルネットワークブランチを経由して、スケーリング/せん断及び回転パラメータを復号する。
【0039】
各ブランチでは、zdecは再びCspeaker次元ワンホット制御ベクトルと連結し、且つ3つの完全接続層によって投影を行い、第1個の完全接続層の特徴マップ数はCdec1、活性化関数は負の勾配が0.2のLReLUであり、第2個の特徴マップ数はCdec2、活性化関数はtanhであり、第3個は活性化関数がなく(スケーリング/せん断及び回転ブランチでは、特徴マップ数はそれぞれCpca_s及びCpca_rである)。ブランチの最後には、固定する線形完全接続層(スケーリング/せん断及び回転ブランチでは、特徴マップ数はそれぞれ6N及び3Nである)であり、そのパラメータは該ブランチに対応する訓練データの主成分分析基底及び平均値によって初期化され、主成分分析過程で97%のエネルギーを保留し、スケーリング/せん断及び回転ブランチでは、保留される基底数はそれぞれCpca_s及びCpca_r(上記ブランチの第3個の完全接続層の特徴マップ数と同じである)である。2つのブランチはそれぞれ復号して、スケーリング/せん断を示すパラメータs(大きさは6N)及び回転を示すパラメータr(大きさは3N)を得る。
【0040】
ステップ(5):顔モデルを駆動する。即ち、任意の与えられた顔モデル(無表情、口を閉じた状態)に対して、ステップ(4)で得られた変形勾配を使用して顔モデルを駆動して、対応する顔の動きを行う。
【0041】
ステップ(5.1):与えられた顔モデル(M個の三角形からなる)とテンプレート顔モデル(N個の三角形からなる)との三角形対応関係(本サブステップでは、与えられたモデルごとに1回実行すればよい)を取得する。
与えられた顔モデルとテンプレート顔モデルとのトポロジー構造が異なる場合、ステップ(4)で得られた変形勾配をそのまま使用できず、まず、2つのモデル間の三角形対応関係を取得する必要があり、トポロジー構造が同じであると、そのまま使用できる。
【0042】
本発明は(Robert W Sumner and Jovan Popovic. Deformation transfer for triangle meshes. ACM Transactions on graphics (TOG), 23(3):399-405, 2004.)に記載されている方法を採用し、ユーザーが複数の頂点対応関係を与えている場合、異なるトポロジーの2つの顔モデル間の三角形対応関係を自動的に求める。
【0043】
前記自動的に求める方法では、まず、一連の変換行列(スケーリング/せん断及び回転変換を含むが、並進変換(translation transformation)は除外する)
を探索して、与えられた顔モデルをテンプレート顔モデルに最も近い状態に変形する必要がある。以下の3つのエネルギー方程式E
S、E
I、E
C及び拘束条件でのこれらのエネルギー方程式の和Eを定義し、Eを最小化することにより、与えられた顔モデルを目標状態に変形させることができる。
【0044】
【数5】
式中、E
Sは変形の滑らかさを拘束するエネルギーを示し、Mは与えられた顔モデル中の三角形の数であり、adj(i)は第i個の三角形の周囲に隣接する三角形の集合を示し、E
Iは変形程度を拘束するエネルギーを示し、Iは単位行列を示し、E
Cは変形後の2つのモデルの頂点距離のエネルギーを示し、nは与えられた顔モデル中の頂点の数であり、
は変形後の与えられた顔モデルの第i個の頂点の位置であり、c
iはテンプレート顔モデルで
が最も近い頂点の位置であり、Eは前記の3つのエネルギーアイテムの和であり、
は変形後の与えられた顔モデル中のn個の頂点位置を示し、w
S、w
I、w
CはそれぞれE
S、E
I、E
Cに対応する重みであり、該エネルギー方程式はユーザーによって与えられたm個の頂点対応関係に服従し、
は第k個の頂点対応関係中の変形後の与えられた顔モデルの頂点位置であり、m
kは第k個の頂点対応関係中の頂点の目標位置である。
【0045】
上記エネルギー方程式Eを最小化する過程では、
を探索する必要があり、つまり、変形後の与えられた顔モデルの各頂点について、最も近い頂点をテンプレート顔モデルから探索し、最適化過程に伴って、頂点位置が変化し、最も近い頂点の関係も変化し、従って、最も近い頂点を探索し、上記エネルギー方程式Eを最小化するプロセスのいくつかのステップを反復する必要がある。
【0046】
与えられた顔モデルをテンプレート顔モデルに最も近い状態に変形させた後、テンプレート顔モデル及び変形後の与えられた顔モデル中のすべての三角形の重心を算出する。変形後の与えられた顔モデル中の各三角形について、テンプレート顔モデルから合理的な対応三角形を探索し、重心距離が所定の閾値未満で(手動で調整)且つ2つの法線ベクトルの夾角が90°未満であることを満たす必要がある。同様に、テンプレート顔モデル中の各三角形について、変形後の与えられた顔モデルから合理的な対応三角形を探索する。すべての合理的な対応関係は、2つのモデル間の三角形対応関係を構成する。
【0047】
ステップ(5.2):対応するテンプレート顔モデルの変形勾配を与えられた顔モデルに転移する。
ステップ(4)で得られたスケーリング/せん断パラメータs及び回転パラメータrを、テンプレート顔モデルのすべての三角形の変換行列集合
(Nはテンプレート顔モデルの変換行列の数であり、その三角形の数に等しい)に復元し、ステップ(5.1)で得られた三角形対応関係に応じて、与えられた顔モデルの変換行列集合
(M'は与えられた顔モデルの変換行列の数であり、与えられた顔モデル中の1つの三角形kについて、テンプレート顔モデルに対応三角形がない場合、単位行列をkの変換行列として使用し、1つの対応三角形を有する場合、対応三角形の変換行列をkの変換行列として直接使用し、複数の対応三角形を有する場合、kを複数コピーし、それぞれそのうちの1つに対応させ、複数の対応三角形を有する場合があるため、最終的に得た変換行列の数はM'≧Mである)を構築する。
【0048】
ステップ(5.3):転移された変形勾配に応じて、与えられた顔モデルの頂点位置を求める。
以下のエネルギー方程式(6)を最小化することにより、転移された変形勾配に対応する、与えられた顔モデルの頂点位置
を求め、
【数6】
式中、cは
を重ね合わせてなり、Aはcと
を関連付けた1つの大規模スパース行列である。エネルギー方程式の勾配を0に設定することによって、
は以下の式(7)によって求められ、
【数7】
Aが与えられた顔モデルのみに関連するため、A及びA
TAは事前算出可能であり、且つモデルごとに1回事前算出すればよい。
【0049】
ステップ(6):信号ウィンドウをスライドさせる。即ち、ステップ(1)~ステップ(5)を繰り返してすべての音声信号ウィンドウを処理し、完全な顔アニメーションを生成する。
【0050】
入力音声信号全体において、
秒の間隔で一連のオーディオウィンドウを取得し、各ウィンドウに対してステップ(1)~ステップ(5)を繰り返して完全なアニメーションを生成し、アニメーションのフレームレートはfpsフレーム/秒である。生成速度はリアルタイムとなり得て、遅延は
(L
audioはステップ(1)に記載された入力オーディオウィンドウの長さである)である。
【0051】
実施例
損失関数について、発明者は教師あり学習の方法を使用してステップ(2)~ステップ(4)に係るニューラルネットワークパラメータを訓練した。音声及びアニメーションデータを組織して複数のデータペア(x
t,y
t)を形成し、x
tは第tフレームのデータに対応する音声信号ウィンドウを示し、y
tは対応する変形勾配パラメータを示す。ステップ(4)の記載に応じて、y
tはさらにスケーリング/せん断部分s
t∈R
6N及び回転部分r
t∈R
3Nに分けられる。訓練中、ステップ(4)の出力を
及び
と示した。2つのパラメータ部分に対して、本発明は類似するエネルギーアイテムを使用して拘束し、スケーリング/せん断部分を例とし、エネルギーアイテムは絶対数値を考慮するL
d
s及び数値時間導関数を考慮するL
v
sを含み、
【数8】
回転部分について、L
d
r及びL
v
rの定義方式は上記式と類似する。最終的な損失関数は4個のエネルギーアイテムの重み付き和であり、重みはKarrasら(Tero Karras, Timo Aila, Samuli Laine, Antti Herva, and Jaakko Lehtinen. Audio-driven facial animation by joint end-to-end learning of pose and emotion. ACM Transactions on Graphics (TOG), 36(4):94, 2017.)によって提案されている技術を使用して自動ダイナミックバランスを行った。
【0052】
訓練例について、発明者は、IntelCorei7-8700K中央処理装置(3.70GHz)、NVIDIAGTX1080Tiグラフィックプロセッサ(11GB)を配置したコンピュータで本発明の例を実施した。実施中、データベースVOCASET(Daniel Cudeiro, Timo Bolkart, Cassidy Laidlaw, Anurag Ranjan, and Michael Black. Capture, learning, and synthesis of 3D speaking styles. Computer Vision and Pattern Recognition (CVPR), pages 10101-10111, 2019.)を使用してモデルを訓練した。
【0053】
モデルパラメータについて、本発明者が本発明の例を実施する時、ステップ(1)~(6)に係るパラメータは以下の通りである。
【0054】
(1)音声特徴を抽出するステップにおいて、オーディオウィンドウの長さはLaudio=0.568秒、短時間フーリエ変換のフレーム長さはLfft=0.064秒、フレーム間隔はLhop=0.008秒、メルフィルターの数はFmel=128、得たメルスペクトログラムフレームの数はLframe=64であった。
【0055】
(2)周波数情報を収集するステップにおいて、畳み込みカーネルの数(畳み込み後の特徴マップの数でもあった)はそれぞれCfreq_conv0=32、Cfreq_conv1=64、Cfreq_conv2=64であり、前の2層の畳み込みカーネルのサイズはKfreq=3であり、プーリング領域のサイズはSfreq=2であり、周波数次元の双方向長・短期記憶ユニットの特徴マップ数の和はCfreq_LSTM=64(すなわち、単方向特徴マップ数は32であった)であり、完全接続投影された特徴マップ数はCfreq=256であった。
【0056】
(3)時間情報を集約するステップにおいて、時間次元の双方向長・短期記憶ユニットの特徴マップ数の和はCtime=512(すなわち、単方向特徴マップ数は256であった)であり、アテンションモジュールではKqry=3、Catt=128であった。
【0057】
(4)動き特徴を復号するステップにおいて、テンプレート顔モデルの三角形の数はN=9976であり、話す者スタイルを制御するベクトル次元はCspeaker=8であり、第1個の完全接続層の特徴マップ数はCdec0=512であり、各ブランチにおける最初の2つの完全接続層の特徴マップ数はCdec1=512、Cdec2=256であり、スケーリング/せん断のパラメータsが保留した主成分分析基底数(スケーリング/せん断ブランチにおける第3個の完全接続層の特徴マップ数でもあった)はCpca_s=85であり、回転パラメータrが保留した主成分分析基底数(回転ブランチにおける第3個の完全接続層の特徴マップ数でもあった)はCpca_r=180であった。
【0058】
(5)顔モデルを駆動するステップにおいて、Mは具体的に与えられたモデルのパラメータに応じて決定され、ステップ(5.1)で式(5)を反復して最適化する過程において、第1のステップではwS=1.0、wI=0.001、wC=0であり、その後、4つのステップを反復し、wCは1から5000になった。
【0059】
(6)信号ウィンドウをスライドさせるステップにおいて、ステップ(1)~(5)を繰り返し、アニメーションのフレームレートはfps=60であった。
【0060】
例にかかる時間について、VOCASETの顔モデルをテンプレート顔モデル(9976個の三角形からなる)とし、VOCASETのデータ上でモデルを50回の反復で訓練し、約5時間がかかった。入力された音声信号に対して、各ウィンドウが1フレームのアニメーションを生成する(ステップ(1)から(5)までであり、ステップ(5)ではテンプレート顔モデルを直接駆動した)ことに約10ミリ秒がかかり、速度がリアルタイムとなった。トポロジー構造がテンプレート顔モデルと異なるほかの与えられた顔モデルの場合、ステップ(5.1)に従ってモデルの三角形対応関係の設定を事前に行う必要があり、モデルの複雑さ及び実施者の熟練度に応じて、約15~40分間がかかり、任意のモデルに対して、この作業は1回行えばよいこととなった。
【0061】
アニメーション抜粋について、本発明者は本発明の例を実施し、音声信号を使用して顔アニメーションを駆動した。VOCASETの顔モデルを使用して音声アニメーションを生成し、その順次抜粋フレームは
図4に示され(図中の人物は英語単語「smash」を話している)、トポロジーがテンプレート顔モデルと異なる漫画の動物の顔モデルを使用して音声アニメーションを生成し、その順次抜粋フレームは
図5に示された(図中の漫画の動物は英語単語「smash」を話している)。
【国際調査報告】