【文献】
池田和史, 外2名,”ニュースキュレーションサービスのためのネットコメント要約手法の提案”,第76回(平成26年)全国大会講演論文集(2) 人工知能と認知科学,2014年 3月11日,p.(2-41)-(2-42)
【文献】
熊本忠彦, 外2名,”記事の印象を伝達するニュース番組生成システムwEEの設計と評価”,電子情報通信学会論文誌,日本,社団法人電子情報通信学会,2007年 2月 1日,第J90−D巻, 第2号,p.185-195
(58)【調査した分野】(Int.Cl.,DB名)
前記入力データを提示すると共に、前記生成されたキャラクタのアニメーションを再生するキャラクタ再生部を更に備えることを特徴とする請求項1から請求項3のいずれかに記載のアニメーション生成装置。
前記台詞の開始時刻および前記台詞の終了時刻に応じて、前記アニメーションデータを変換する時間長調整部を更に備えることを特徴とする請求項8記載のアニメーション生成装置。
前記アニメーションは、前記キャラクタが全身動作または表情変化する際の、任意の時刻における前記キャラクタの任意のボーン(bone)またはポリゴン(polygon)の空間座標であることを特徴とする請求項1から請求項9のいずれかに記載のアニメーション生成装置。
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に開示されている技術では、予め定められたキャラクタがニュースを読み上げるアニメーションは生成できるが、SNS等で表現されるニュースに対するコメント内容やそのコメントに含まれる感情表現を組み合わせた適切なアニメーションは生成できない。
【0006】
一方、特許文献2に開示されている技術では、話題性の高いニュースまたはコメントを抽出することは可能だが、それらに適合したアニメーションを持つキャラクタによって、ニュースまたはコメントを提示することは困難である。
【0007】
本発明は、このような事情に鑑みてなされたものであり、話題性の高いニュースおよびニュースに対するコメントをWEBサイトから抽出すると共に、適切なアニメーションを持つキャラクタが、ニュースだけでなくニュースに対するコメントまでも提示するアニメーション生成装置、アニメーション生成方法およびプログラムを提供することを目的とする。また、本発明では、ニュースに対するコメントを予め集約することで、集約されたコメントを踏まえたアニメーションを持つキャラクタによるニュース本文の提示が可能となる。さらに、本発明は、表情変化だけでなくキャラクタの全身動作を加えることで、テレビ局が制作する本当のニュース番組に近いコンテンツを提供することができる。
【課題を解決するための手段】
【0008】
(1)上記の目的を達成するために、本発明は、以下のような手段を講じた。すなわち、本発明のアニメーション生成装置は、任意の情報に基づいて、キャラクタのアニメーションを生成するアニメーション生成装置であって、解析された任意の複数の入力データに含まれる感情または主観度の動的特徴量に基づいて、時間的アニメーションを生成する時間的アニメーション生成部と、解析された前記複数の入力データに含まれる感情または主観度の静的特徴量に基づいて、空間的アニメーションを生成する空間的アニメーション生成部と、を備えることを特徴とする。
【0009】
このように、解析された任意の複数の入力データに含まれる感情または主観度の動的特徴量に基づいて、時間的アニメーションを生成し、また、解析された前記複数の入力データに含まれる感情または主観度の静的特徴量に基づいて、空間的アニメーションを生成するので、入力された情報に応じて、適切なアニメーションを有するキャラクタを作成することが可能となる。
【0010】
(2)また、本発明のアニメーション生成装置は、前記入力データをWEB(World Wide Web)サイトから抽出する情報抽出部を更に備えることを特徴とする。
【0011】
このように、入力データをWEBサイトから抽出するので、SNS等で表現されるニュースに対するコメント内容に応じたキャラクタのアニメーションを生成することが可能となる。
【0012】
(3)また、本発明のアニメーション生成装置は、前記複数の入力データにおける感情または主観度を解析する入力データ解析部を更に備えることを特徴とする。
【0013】
このように、複数の入力データにおける感情または主観度を解析するので、SNS等で表現されるニュースに対するコメントに含まれる感情表現に応じたキャラクタのアニメーションを生成することが可能となる。
【0014】
(4)また、本発明のアニメーション生成装置は、前記入力データを提示すると共に、前記生成されたキャラクタのアニメーションを再生するキャラクタ再生部を更に備えることを特徴とする。
【0015】
このように、入力データを提示すると共に、生成されたキャラクタのアニメーションを再生するので、入力された情報に応じて、適切なアニメーションを有するキャラクタを表示することが可能となる。
【0016】
(5)また、本発明のアニメーション生成装置は、ナレータが読み上げた前記入力データの音声を取得する音声収録部を更に備えることを特徴とする。
【0017】
このように、ナレータが読み上げた前記入力データの音声を取得するので、人間の声に基づいた音声の再生を行なうことが可能となる。
【0018】
(6)また、本発明のアニメーション生成装置は、前記入力データに対応する音声データを合成する音声合成部を更に備えることを特徴とする。
【0019】
このように、入力データに対応する音声データを合成するので、人工的に音声を作り上げることが可能となる。また、ナレータによる読み上げが不要となるため、製作コストを削減することが可能となる。
【0020】
(7)また、本発明のアニメーション生成装置は、前記生成されたキャラクタのアニメーションと共に、前記取得された音声または前記合成された音声を再生する音声再生部を更に備えることを特徴とする。
【0021】
このように、生成されたキャラクタのアニメーションと共に、取得された音声または合成された音声を再生するので、キャラクタのアニメーションと共に、音声を出力することができる。これにより、例えば、ニュースキャスターのキャラクタにニュースを読ませるサービスを提供することが可能となる。
【0022】
(8)また、本発明のアニメーション生成装置は、前記入力データの音声の有音区間を検出し、前記キャラクタの台詞の開始時刻および前記台詞の終了時刻を判定する台詞時刻判定部を更に備えることを特徴とする。
【0023】
このように、入力データの音声の有音区間を検出し、前記キャラクタの台詞の開始時刻および前記台詞の終了時刻を判定するので、音声を入力した場合であってもキャラクタが読み上げる台詞(テキスト)データを生成することが可能となる。
【0024】
(9)また、本発明のアニメーション生成装置は、前記台詞の開始時刻および前記台詞の終了時刻に応じて、前記アニメーションデータを変換する時間長調整部を更に備えることを特徴とする。
【0025】
このように、台詞の開始時刻および前記台詞の終了時刻に応じて、アニメーションデータを変換するので、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタのアニメーションを生成することができる。
【0026】
(10)また、本発明のアニメーション生成装置において、前記アニメーションは、前記キャラクタが全身動作または表情変化する際の、任意の時刻における前記キャラクタの任意のボーン(bone)またはポリゴン(polygon)の空間座標であることを特徴とする。
【0027】
このように、アニメーションは、キャラクタのボーン(bone)またはポリゴン(polygon)の任意の時刻における空間座標を示すデータであるので、台詞に応じた複雑なアニメーションを持つキャラクタを生成することができる。
【0028】
(11)また、本発明のアニメーション生成方法は、任意の情報に基づいて、キャラクタのアニメーションを生成するアニメーション生成方法であって、解析された任意の複数の入力データに含まれる感情または主観度の動的特徴量に基づいて、時間的アニメーションを生成するステップと、解析された前記複数の入力データに含まれる感情または主観度の静的特徴量に基づいて、空間的アニメーションを生成するステップと、を少なくとも含むことを特徴とする。
【0029】
このように、解析された任意の複数の入力データに含まれる感情または主観度の動的特徴量に基づいて、時間的アニメーションを生成し、また、解析された前記複数の入力データに含まれる感情または主観度の静的特徴量に基づいて、空間的アニメーションを生成するので、入力された情報に応じて、適切なアニメーションを有するキャラクタを作成することが可能となる。
【0030】
(12)また、本発明のプログラムは、任意の情報に基づいて、キャラクタのアニメーションを生成するアニメーション生成装置のプログラムであって、解析された任意の複数の入力データに含まれる感情または主観度の動的特徴量に基づいて、時間的アニメーションを生成する処理と、解析された前記複数の入力データに含まれる感情または主観度の静的特徴量に基づいて、空間的アニメーションを生成する処理と、の一連の処理をコンピュータに実行させることを特徴とする。
【0031】
このように、解析された任意の複数の入力データに含まれる感情または主観度の動的特徴量に基づいて、時間的アニメーションを生成し、また、解析された前記複数の入力データに含まれる感情または主観度の静的特徴量に基づいて、空間的アニメーションを生成するので、入力された情報に応じて、適切なアニメーションを有するキャラクタを作成することが可能となる。
【発明の効果】
【0032】
本発明によれば、入力された情報に応じて、適切なアニメーションを有するキャラクタを作成することが可能となる。
【発明を実施するための形態】
【0034】
[第1の実施形態]
本発明の実施形態に係るキャラクタ情報提示装置は、任意の情報をWEBサイトから抽出して入力し、複数の入力データにおける感情または主観度を解析し、解析された複数の入力データに含まれる感情または主観度の動的特徴量に基づいて時間的アニメーションを生成し、解析された前記複数の入力データに含まれる感情または主観度の静的特徴量に基づいて空間的アニメーションを生成し、入力データを提示すると共に、生成されたキャラクタのアニメーションを再生する。
【0035】
この構成により、入力データがSNSのコメント群のような砕けたテキストデータであっても、適切なアニメーションを持つキャラクタにより提示することができる。また、複数の入力データを包括的に解析すれば、コメント群を反映したニュース本文の提示のように、集約されたデータを踏まえたアニメーションを持つキャラクタによる情報提示が可能となる。さらに、キャラクタのアニメーションとして、キャラクタが全身動作または表情変化する際の、任意の時刻におけるキャラクタの任意のボーンまたはポリゴンの空間座標を制御すれば、テレビ局が制作する本当のニュース番組に近いコンテンツを提供することができる。
【0036】
なお、本実施形態では、WEB上のニュースおよびコメント群を用いるが、本発明の技術的思想は、これに限定されるわけではなく、SNS上コミュニティー内の発言、メッセンジャーによるチャットでの発言、各種紹介サイトにおける口コミ、街角インタビュの結果、交通機関の運行情報・状態情報、気象情報、占い・運勢を用いても十分である。
【0037】
図1は、本実施形態に係るキャラクタ情報提示装置の概略構成を示す図である。キャラクタ情報提示装置1は、ニュース抽出サーバ10と、スピーカ20、ディスプレイ30と、PC(Personal Computer)40とから構成されている。まず、ニュース抽出サーバ10は、話題性の高いニュースおよびコメント群をWEBサイトから抽出し、ニュースデータ50およびコメントデータ60としてPC40に入力する。なお、
図1では、ニュース抽出サーバ10が、PC40に接続されているが、本発明の技術的思想は、これに限定されるわけではなく、PCに対してオフラインによりニュースデータ50またはコメントデータ60を入力しても十分である。
【0038】
一方、PC40は、ケーブル40aを介してキャラクタ情報提示装置としてのスピーカ20およびディスプレイ30に接続されている。PC40は、入力されたニュースデータ50およびコメントデータ60における感情データ80または主観度90を解析する。また、PC40は、解析された感情データ80または主観度90に含まれる感情または主観度の動的特徴量に基づいて時間的アニメーションデータ70−1を生成する。さらに、PC40は、解析された感情データ80または主観度90に含まれる感情または主観度の静的特徴量に基づいて空間的アニメーションデータ70−2を生成する。そして、PC40は、入力されたニュースデータ50およびコメントデータ60および生成されたキャラクタの時間的アニメーションデータ70−1および空間的アニメーションデータ70−2における画像信号を随時ディスプレイ30に発信する。
【0039】
その際、PC40から発信された画像はディスプレイ30にA1として映写される。なお、本発明の実施形態に係るキャラクタ情報提示装置では、入力されたニュースデータ50およびコメントデータ60の音声を予め収録または合成し、キャラクタの時間的アニメーションデータ70−1および空間的アニメーションデータ70−2の映写と同時に、収録音声信号または合成音声信号を随時スピーカ20に発信するが、音声信号を発信しなくても良い。例えば、キャラクタが表示され、いわゆる“口パク”のように、音声がミュートされ、字幕が表示されている態様である。
【0040】
図2は、第1の実施形態に係るキャラクタ情報提示装置1の機能を示すブロック図である。ニュース抽出サーバ10のニュース抽出部10−1は、話題性の高いニュースおよびコメント群をWEBサイトから抽出し、ニュースデータ50およびコメントデータ60としてPC40に入力する。
【0041】
PC40の入力データ解析部40−1は、ニュース抽出サーバ10より入力されたニュースデータ50およびコメントデータ60における感情データ80または主観度90を解析する。PC40の時間的アニメーション生成部40−2は、解析された感情データ80または主観度90に含まれる感情または主観度の動的特徴量に基づいて時間的アニメーションデータ70−1を生成する。PC40の空間的アニメーション生成部40−3は、解析された感情データ80または主観度90に含まれる感情または主観度の静的特徴量に基づいて空間的アニメーションデータ70−2を生成する。PC40のキャラクタ再生部40−4は、入力されたニュースデータ50およびコメントデータ60および生成されたキャラクタの時間的アニメーションデータ70−1および空間的アニメーションデータ70−2における画像信号を再生する。
【0042】
図3は、第1の実施形態に係るキャラクタ情報提示装置1の動作を示すフローチャートである。初めに、ニュース抽出サーバ10において、WEB上にあるニュースの収集を行なう。(ステップS1)。RSS等を利用し、対象とするニュースのURL、タイトル、記事本文、ジャンル、配信日時等の情報を取集する。
【0043】
次に、ニュース抽出サーバ10において、ステップS1で収集したニュースのURLやタイトル、またはTFIDF等を用いて抽出したニュースを特徴づける単語をSNS上から検索することで、ニュースに関連するコメント群を収集する(ステップS2)。ここで、ニュースに関連するコメント群は、ニュースのURLやタイトルを、SNSが提供する検索API等を用いて検索することで、収集できる。また、ニュース記事のタイトルや本文から当該ニュースを特徴づける単語を、TFIDF等を用いて取り出し、検索に利用しても良い。このとき、TFは各ニュース記事のタイトルまたは記事本文中の各単語の出現頻度、DFには、全記事における各単語の出現頻度などを設定する。
【0044】
次に、ニュース抽出サーバ10において、ステップS2で収集したコメント群を解析し、話題性の高いニュースデータ50およびコメントデータ60を抽出する(ステップS3)。ここで、ニュース抽出サーバ10は、主観指標抽出機能と、主観度算出機能を有する。また、主観指標抽出機能は、顔文字抽出、文体抽出、盛り上がり抽出を実行する。
【0045】
顔文字抽出では、SNSユーザのコメント中に顔文字が含まれるコメント群を抽出する。顔文字の抽出方法は、事前に登録した辞書を用いて、コメント中に感情表現が含まれるか否かを判別すれば良い。ここで、顔文字の個数をsとする。
【0046】
[顔文字を含む主観的なSNSコメント群の例]
“えっ(;゜Δ゜)誰得?”
“欲しいかも(σ´□`。)”
“(;´∀`)・・・うわぁ、誰得・・・”
文体抽出では、SNSコメント群を文体に基づいて複数に分類する。文体を判別する方法は、文末に着目し、語尾の活用形(命令形、仮定形、未然形など)を利用することができる。形態素解析器を用いて文章を解析し、文末の形容詞、形容動詞、動詞の活用形を抽出する。活用形の種類数Nに対し、各活用形の出現の有無をw
1…w
nで表現する。例えば、w
1:命令形、w
2:仮定形、…、とし、文体が命令形の場合、w
1=1、w
2…w
n=0とする。
【0047】
[文体の例]
“わぁ、誰得な仕様は
やめろよ → 命令形”
“欲しいけど、もうちょっと
安かったらなぁ → 仮定形”
“こんな誰得携帯は
買わない。 → 未然形”
盛り上がり抽出では、SNSコメント群から盛り上がりを表す表現を抽出する。盛り上がりを表す表現は、文字の連続性に着目することで抽出する。同一の文字が3文字以上出現することを検出する、または同一形態素が連続して出現することを検出する。各コメントにおいて、連続する文字数または形態素数の最大値を当該コメントの盛り上がり度をeとする。
【0048】
[盛り上がり表現の例]
“この機能、誰得wwwwwwww →8文字のため、e=8”
“うおおおおお!欲しいいい! →5文字のため、e=5”
“おいおいおい誰得だよ → 6文字 (「おい」3回) のため、e=6”
一方、主観度算出機能では、各コメントから抽出された主観指標に基づいて、各コメントの主観度Pを算出する。主観度PはSNSコメントから抽出した(丸1)顔文字含有度合いs 、(丸2)文体の特徴w
1+w
2+…+w
n、(丸3)盛り上がり度合いeを用いて、例えば、式(1)のような線型結合の計算式で算出できる。ここで、Pの値が閾値以上であるコメント群を話題性の高いコメントデータ60として抽出する。また、このとき、当該ニュースをニュースデータ50として抽出する。
【0049】
【数1】
また、主観度算出機能では、評価指標重み付け部を含んでもよい。この場合、WEBニュースの特徴、具体的には(A)ジャンル、(B)配信元、(C)配信日時に基づいて、主観指標に重み付けをすることで、主観コメント群を選別する。WEBニュースのジャンル、配信元、配信日時などは、RSSを用いてWEBニュースを収集する際に同時に取得することが可能である。重みづけを考慮した主観度Pの算出式の例を、式(2)に示す。ここで、重み係数α
A、α
B、α
Cはそれぞれ、コメント中の顔文字表現に対する、ジャンルによる重み、配信元による重み、配信日時による重み、となる。同様に、重み係数β、γは文体、盛り上がり表現、に対するそれぞれの重みとなる。
【0050】
【数2】
例えば、ジャンルがスポーツの場合、より共感きるコメントを優先的に表示するため、盛り上がり表現の重みγ
Aを大きく設定すると有効である。一方、ジャンルが政治・経済の場合、冷静なコメントが求められることから、γ
Aの値は小さくなる。また、週刊誌が配信するニュースは、読者の感情を引き出すような見出しや文章が多いことから、感情的なコメントを優先的に表示するα
Bの重みを大きくすることで、より共感できる主観コメントが得られる。さらに、休日に配信されるニュースは、平日に配信されるニュースと比べて穏やかな内容のニュースが多く、読者もそのようなコメントを望む可能性が高いことから、命令形の文体を排除するようβ
Aの重みを設定する、といったコメント群の選別方法が有効である。
【0051】
次に、ステップS3で抽出されたニュースデータ50およびコメントデータ60をPC40に入力し、入力されたニュースデータ50およびコメントデータ60における感情データ80または主観度90を解析する(ステップS4)。ここでは、入力されるニュースデータ50およびコメントデータ60が単語列の場合を説明するが、本発明の技術的思想は、単語に限定されるわけではなく、句であっても文であっても良い。本実施形態では、感情分類とそれぞれの強度から構成される感情語データベースを使用する。なお、感情語データベースは、日本語辞書などの大量の単語データベースに存在する全ての単語に対して、人間の表情形成に用いられる感情分類「喜び」「悲しみ」「怒り」「嫌悪」「恐怖」「罪」「恥」「興味」「驚き」の9つがどれくらいの割合で存在するか規定し、それぞれの感情強度を0〜1の範囲で、0.1刻みに10段階で指定して、予め形成されている。
【0052】
また、入力されるニュースデータ50またはコメントデータ60が句または文である場合は、単語の場合と同様に、句または文に全体における感情分類とそれぞれの強度から構成される感情句データベースまたは感情文データベースを使用すれば良い。ここで、「喜び」の強度をS
1、「悲しみ」の強度をS
2、「怒り」の強度をS
3、「嫌悪」の強度をS
4、「恐怖」の強度をS
5、「罪」の強度をS
6、「恥」の強度をS
7、「興味」の強度をS
8、「驚き」の強度をS
9と表す。ただし、式(3)を満たす。
【0053】
【数3】
そして、入力されるニュースデータ50およびコメントデータ60と一致または類似する単語を感情語データベースの中から検索し、その単語における感情分類と強度を抽出し、感情データ80を生成する。すなわち、ニュースデータ50における感情分類は、式(4)で表わされる。
【0054】
【数4】
コメントデータ60における感情分類は、式(5)で表わされる。
【0055】
【数5】
このように、9次元のベクトルで示される。ここでkは、入力されるコメントデータ60のIDを示している。また、入力される台詞のニュースデータ50およびコメントデータ60における全体強度Wは、式(6)で表わされる。
【0056】
【数6】
例えば、コメントデータ60として、「泣き笑い」を入力すると、式(7)が感情データ80として生成される。
【0057】
【数7】
一方、主観度90は、式(2)を用いて、ニュースデータ50の主観度P(N)およびコメントデータ60の主観度P(C
k)を算出する。
【0058】
次に、PC40において、ステップS4で解析された感情データ80または主観度90に含まれる感情または主観度の動的特徴量に基づいて時間的アニメーションデータ70−1を生成する(ステップS5)。本実施形態では、まず、キャラクタの全身動作または表情変化の際のアニメーションデータと、日本語辞書などの代表的な単語データベースに存在する各単語をパラメータとして算出した各アニメーションデータにおける類似度パラメータ、のペアで構成されるアニメーションデータベースを用意する。なお、ここで言うアニメーションデータは、キャラクタの全てのボーンまたはポリゴンが任意の時刻において何れの空間位置座標に存在するかが記述されている。
【0059】
ニュースデータ50およびコメントデータ60における類似度パラメータを算出し、アニメーションデータベースの中にある全てのアニメーションデータにおける類似度パラメータとのコサイン類似度を求め、最も値の大きいアニメーションデータをキャラクタのアニメーションデータ70として選定する。ここで、選定されたアニメーションデータ70にキャラクタにおける任意のボーンの空間座標が記録されている場合について述べる。本実施形態では、予め収録された全ての全身動作または表情変化における無感情のアニメーションデータおよび各感情分類のアニメーションデータを学習させ、無感情のアニメーションデータから各感情分類のアニメーションデータへの変換を予め定義し、選定されたアニメーションデータ70を、ステップS4で解析された感情データ80の分散V
i(式(8))または主観度90の分散V
i(式(9))が閾値を超えた感情分類iに対し、動的特徴量Δ
i(式(10)、式(11))に応じて合成変換することで、キャラクタの全身動作または表情変化における時間的アニメーションデータ70−1を生成する。
【0060】
【数8】
【数9】
【数10】
【数11】
本明細書では、一例として、主成分分析を用いてキャラクタの全身動作または表情変化に感情を付与するが、本発明の技術的思想は、主成分分析に限定されるわけでなく、非線形状態空間写像や機械学習等、別の方法を用いて全身動作または表情変化に感情を付与しても良い。まず、無感情および人間の表情形成に用いられる感情分類「喜び」「悲しみ」「怒り」「嫌悪」「恐怖」「罪」「恥」「興味」「驚き」の9つの感情の全身動作または表情変化におけるアニメーションデータを収録等により予め複数用意し、学習用データベースに登録しておく。登録された全ての無感情のアニメーションデータおよび各感情分類のアニメーションデータを学習し、線形回帰手法により、無感情のアニメーションデータから各感情分類のアニメーションデータに変換するためのパラメータを算出する。すなわち、予め用意された全身動作または表情変化をm(m=1,2,…)とすると、全身動作または表情変化mにおける無感情のアニメーションデータの第j主成分座標の微分値k
j(m)を用いて、式(12)により線形回帰演算を行なって、変換パラメータa
ji、b
jiを算出する。
【0061】
【数12】
ただし、q
ji(m)は全身動作または表情変化mにおける各感情のアニメーションデータの第j主成分座標の微分値を示しており、i=1は感情分類が「喜び」の場合を、i=2は感情分類が「悲しみ」の場合を、i=3は感情分類が「怒り」の場合を、i=4は感情分類が「嫌悪」の場合を、i=5は感情分類が「恐怖」の場合を、i=6は感情分類が「罪」の場合を、i=7は感情分類が「恥」の場合を、i=8は感情分類が「興味」の場合を、i=9は感情分類が「驚き」の場合をそれぞれ表す。
【0062】
次に、算出されたΔ
iに対応する変換パラメータa
ji、b
jiを用いて、選定されたアニメーションデータを合成変換し、キャラクタの全身動作または表情変化における時間的アニメーションデータ70−1を生成する。すなわち、時間的アニメーションデータ70−1の第j主成分座標の微分値p
j(h)は、式(13)となる。
【数13】
これにより、例えば、続々と入力されるニュースデータ50が段階的に暗くなる場合は、徐々に沈静化したアニメーションを時間的アニメーションデータ70−1として生成することが可能となる。また、主観度90を用いることで、例えば、ニュースデータ50のジャンルがスポーツの場合、引き分けの試合の結果を伝えるニュースデータ50および「まずまずの結果」というコメントデータ60に対して、主観度90が大きい場合は、アニメーションデータベースの中からポジティブなアニメーションを象徴する「親指を上げる」アニメーションを時間的アニメーションデータ70−1として生成することができる。一方、主観度90が小さい場合は、ネガティブなアニメーションを象徴する「肩をすくめる」アニメーションを時間的アニメーションデータ70−1として生成することができる。
【0063】
次に、PC40において、ステップS4で解析された感情データ80または主観度90に含まれる感情または主観度の動的特徴量に基づいて時間的アニメーションデータ70−2を生成する(ステップS6)。ステップS5で選定されたアニメーションデータ70を、ステップS4で解析された感情データ80の分散V
iが閾値を下回った感情分類iに対し、静的特徴量E
i(式(14)、式(15))に応じて、背景色の変更、キャラクタの立ち位置の変更等の空間的アニメーションデータ70−2を生成する。
【数14】
【数15】
例えば、E
5の値が大きく算出された場合、「恐怖」が継続的であるので、背景色を少し暗くし、入力されるニュースデータ50またはコメントデータ60が明るい内容であっても、暗い印象を与えることが可能となる。また、E
7の値が大きく算出された場合、「恥」が継続的であるので、キャラクタの立ち位置を少し遠ざけ、入力されるニュースデータ50またはコメントデータ60の内容に応じず恥ずかしい印象を与える可能となる。
【0064】
次に、PC40において、ステップS5およびステップS6で生成されたキャラクタの時間的アニメーションデータ70−1および空間的アニメーションデータ70−2における画像信号を生成する(ステップS7)。まず、ニュースデータ50を提示するキャラクタの描画を開始して画像信号の生成を開始する。次に、ステップS5およびステップS6で生成されたニュースデータ50における時間的アニメーションデータ70−1および空間的アニメーションデータ70−2を反映したキャラクタを描画し、画像信号を生成する。その後、ニュースデータ50における画像信号の生成が終了すると、コメントデータ60を提示するキャラクタの描画を開始して画像信号の生成を開始する。
【0065】
次に、ステップS5およびステップS6で生成されたコメントデータ60における時間的アニメーションデータ70−1および空間的アニメーションデータ70−2を反映したキャラクタを描画し、画像信号を生成する。全てのコメントデータ60に対して同様の処理を繰り返し、コメントデータ60における画像信号を生成する。最後のコメントデータ60に対しての処理が終了した後、別のニュースを提示する場合は、ステップS1に戻り、次のニュースデータ50およびコメントデータ60に対しての処理を開始する。なお、本発明の技術的思想は、ニュースデータ50を提示するキャラクタとコメントデータ60を提示するキャラクタは、それぞれ同じであっても異なっていてもどちらでも良い。次に、未処理データがあるかどうかを判断し(ステップS7−2)、ある場合は、ステップS1に遷移し、無い場合は、ステップS8に遷移する。
【0066】
最後に、ステップS4で入力されたニュースデータ50およびコメントデータ60の画像信号と共に、ステップS7で生成されたキャラクタの画像信号をディスプレイ10に映写する(ステップS8)。
【0067】
このように、本実施形態によれば、話題性の高いニュースおよびコメント群をWEBサイトから抽出し、ニュースデータ50およびコメントデータ60としてPC40に入力し、入力されたニュースデータ50およびコメントデータ60における感情データ80または主観度90を解析し、解析された感情データ80または主観度90に含まれる感情または主観度の動的特徴量に基づいて時間的アニメーションデータ70−1を生成し、解析された感情データ80または主観度90に含まれる感情または主観度の静的特徴量に基づいて空間的アニメーションデータ70−2を生成し、入力されたニュースデータ50およびコメントデータ60および生成されたキャラクタの時間的アニメーションデータ70−1および空間的アニメーションデータ70−2における画像信号を再生するので、入力データがSNSのコメント群のような砕けたテキストデータであっても、適切なアニメーションを持つキャラクタにより提示することができる。また、複数の入力データを包括的に解析すれば、コメント群を反映したニュース本文の提示のように、集約されたデータを踏まえたアニメーションを持つキャラクタによる情報提示が可能となる。さらに、キャラクタのアニメーションとして、キャラクタが全身動作または表情変化する際の、任意の時刻におけるキャラクタの任意のボーンまたはポリゴンの空間座標を制御すれば、テレビ局が制作する本当のニュース番組に近いコンテンツを提供することができる。
【0068】
[第2の実施形態]
第2の実施形態に係るアニメーション生成装置は、台詞である音声信号を入力し、入力された音声信号を時系列で記録した音声データに基づいて台詞のテキストデータおよび台詞の開始時刻および終了時刻を時系列で生成する。この生成された台詞のテキストデータおよび台詞の開始時刻および終了時刻に基づいてキャラクタのアニメーションデータを時系列で生成する。アニメーションデータには感情データを伴っていても良く、生成された感情データに基づいてアニメーションデータに感情を付与し、台詞の開始時刻および終了時刻に基づいてアニメーションデータの時間長を調整する。この生成された台詞の開始時刻および終了時刻に応じて、音声データにおける音声信号および生成されたアニメーションデータにおける画像信号を生成する。
【0069】
これにより、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタを生成することができる。また、アニメーションデータとしてキャラクタの任意のボーンまたはポリゴンの空間座標を制御した画像信号を生成するので、台詞に応じた複雑なアニメーションを持つキャラクタを生成することができる。
【0070】
図4は、第2の実施形態に係るアニメーション生成装置の概略構成を示す図である。このアニメーション生成装置は、マイクロフォン210と、スピーカ220、ディスプレイ230と、PC(Personal Computer)240とから構成されている。そして、マイクロフォン210によりPC240に音声データ250が入力される。なお、
図4では、マイクロフォン210が、PC240に接続されているが、本発明の技術的思想は、これに限定されるわけではなく、任意手段によりPCに対して音声データが入力されれば十分である。
【0071】
PC240は、ケーブル240aを介してアニメーション生成装置としてのスピーカ220およびディスプレイ230に接続されている。PC240では、台詞として入力された音声信号を時系列で記録した音声データ250に基づいて台詞のテキストデータまたは台詞の開始時刻および終了時刻を時系列で生成する。また、生成された台詞のテキストデータおよび台詞の開始時刻および終了時刻に基づいて、キャラクタのアニメーションデータおよび感情データを時系列で生成する。さらに、生成された感情データに基づいてアニメーションデータに感情を付与すると共に生成された台詞の開始時刻および終了時刻に基づいてアニメーションデータの時間長を調整する。
【0072】
そして、PC240は、生成された台詞の開始時刻および終了時刻に応じて、音声データにおける音声信号を随時スピーカ220に発信する。一方、PC240は、生成されたアニメーションデータにおける画像信号を随時ディスプレイ230に発信する。その際、PC240において生成された画像はディスプレイ230にA1として映写される。なお、本発明の実施形態に係るアニメーション生成装置では、音声データにおける音声信号またはアニメーションデータにおける画像信号をスピーカ220またはディスプレイ230に発信しなくても構わない。
【0073】
図5は、第2の実施形態に係るアニメーション生成装置の機能を示すブロック図である。PC240の台詞テキスト生成部240−1は、マイクロフォン210により台詞として入力された音声信号を時系列で記録した音声データ250を認識して、台詞のテキストデータ260−1を時系列で生成する。また、PC240の台詞時刻判定部240−2は、音声データ250の有音区間を検出して、台詞の開始時刻および終了時刻260−2を時系列で判定する。また、PC240のアニメーション生成部240−3は、台詞のテキストデータ260−1の内容を解析して、台詞の開始時刻および終了時刻260−2毎に、キャラクタのアニメーションデータ270を時系列で生成する。
【0074】
また、PC240の感情生成部240−4は、台詞のテキストデータ260−1の内容を解析して、キャラクタの感情データ280を時系列で生成する。また、PC240の感情付与部240−5は、感情データ280に応じて、アニメーションデータ270を変換する。また、PC240の時間長調整部240−6は、台詞の開始時刻および終了時刻260−2に基づいて、アニメーションデータ270を変換する。また、PC240のキャラクタ再生部240−7は、台詞の開始時刻および終了時刻260−2に応じて、音声データ250における音声信号および生成されたアニメーションデータ270における画像信号を再生する。
【0075】
図6は、第2の実施形態に係るアニメーション生成装置の動作を示すフローチャートである。初めに、PC240に、マイクロフォン210により音声信号を入力し、入力された音声信号を時系列で記録して音声データ250を形成する(ステップS21)。次に、PC240において、音声データ250を認識して、台詞のテキストデータを時系列で生成する(ステップS22)。
【0076】
次に、PC240において、音声データ250の有音区間を検出して、台詞の開始時刻および終了時刻260−2を時系列で判定する(ステップS23)。音声データ250において、音圧レベルが閾値より大きい状況が一定時間以上継続した場合、該当区間を有音区間とし、区間の先頭を台詞の開始時刻、区間の終端を台詞の終了時刻と判定する。また、ステップS22で生成された台詞のテキストデータを、判定された台詞の開始時刻から終了時刻までを1つの単位として、台詞のテキストデータ260−1に分割する。
【0077】
次に、PC240において、ステップS23で分割された台詞のテキストデータ260−1の内容を解析して、ステップS23で判定された台詞の開始時刻および終了時刻260−2毎に、「目を閉じる」「お辞儀する」「手を挙げる」等のキャラクタのアニメーションデータ270を時系列で生成する(ステップS24)。本実施形態では、キャラクタの全身動作または表情変化の際のアニメーションデータと、日本語辞書などの代表的な単語データベースに存在する各単語をパラメータとして算出した各アニメーションデータにおける類似度パラメータ、のペアで構成されるアニメーションデータベースを用意する。
【0078】
なお、ここで言うアニメーションデータは、キャラクタの全てのボーンまたはポリゴンが任意の時刻において何れの空間位置座標に存在するかが記述されている。台詞のテキストデータ260−1における類似度パラメータを算出し、アニメーションデータベースの中にある全てのアニメーションデータにおける類似度パラメータとのコサイン類似度を求め、最も値の大きいアニメーションデータをキャラクタのアニメーションデータ270として時系列で生成する。
【0079】
次に、PC240において、ステップS23で分割された台詞のテキストデータ260−1の内容を解析して、感情分類および強度から構成されるキャラクタの感情データ280を時系列で生成する(ステップS25)。ここでは、入力される台詞のテキストデータ260−1が単語列の場合を説明するが、本発明の技術的思想は、単語に限定されるわけではなく、句であっても文であっても良い。本実施形態では、感情分類とそれぞれの強度から構成される感情語データベースを使用する。
【0080】
なお、感情語データベースは、日本語辞書などの大量の単語データベースに存在する全ての単語に対して、人間の表情形成に用いられる感情分類「喜び」「悲しみ」「怒り」「嫌悪」「恐怖」「罪」「恥」「興味」「驚き」の9つがどれくらいの割合で存在するか規定し、それぞれの感情強度を0〜1の範囲で、0.1刻みに10段階で指定して、予め形成されている。また、入力される台詞のテキストデータ260−1が句または文である場合は、単語の場合と同様に、句または文に全体における感情分類とそれぞれの強度から構成される感情句データベースまたは感情文データベースを使用すれば良い。ここで、「喜び」の強度をS
1、「悲しみ」の強度をS
2、「怒り」の強度をS
3、「嫌悪」の強度をS
4、「恐怖」の強度をS
5、「罪」の強度をS
6、「恥」の強度をS
7、「興味」の強度をS
8、「驚き」の強度をS
9と表す。ただし、次式を満たすものとする。
【0081】
【数16】
そして、入力される台詞のテキストデータ260−1と一致または類似する単語を感情語データベースの中から検索し、その単語における感情分類と強度を抽出し、感情データ280を生成する。すなわち、台詞のテキストデータ260−1における感情分類は、次式のように、9次元のベクトルで示される。
【0082】
【数17】
また、入力される台詞のテキストデータ260−1における全体強度Wは、次式で表わされる。
【0083】
【数18】
例えば、台詞のテキストデータ260−1として、「泣き笑い」を入力すると、次式が感情データ280として生成される。
【0084】
【数19】
次に、PC230において、感情データ280に応じてアニメーションデータ270を変換し、キャラクタの全身動作または表情変化に感情を付与する(ステップS26)。まず、アニメーションデータ270にキャラクタにおける任意のボーンの空間座標が時系列で記録されている場合について述べる。本実施形態では、予め収録された全ての全身動作または表情変化における無感情のアニメーションデータおよび各感情分類のアニメーションデータを学習させ、無感情のアニメーションデータから各感情分類のアニメーションデータへの変換を予め定義し、ステップS24で生成されたアニメーションデータ270を、ステップS25で生成された感情データ280に応じて合成変換することで、キャラクタの全身動作または表情変化に感情を付与する。
【0085】
本明細書では、一例として、主成分分析を用いてキャラクタの全身動作または表情変化に感情を付与するが、本発明の技術的思想は、主成分分析に限定されるわけでなく、非線形状態空間写像や機械学習等、別の方法を用いて全身動作または表情変化に感情を付与しても良い。まず、無感情および人間の表情形成に用いられる感情分類「喜び」「悲しみ」「怒り」「嫌悪」「恐怖」「罪」「恥」「興味」「驚き」の9つの感情の全身動作または表情変化におけるアニメーションデータを収録等により予め複数用意し、学習用データベースに登録しておく。登録された全ての無感情のアニメーションデータおよび各感情分類のアニメーションデータを学習し、線形回帰手法により、無感情のアニメーションデータから各感情分類のアニメーションデータに変換するためのパラメータを算出する。
【0086】
すなわち、予め用意された全身動作または表情変化をm(m=1,2,…)とすると、全身動作または表情変化mにおける無感情のアニメーションデータの第j主成分座標の微分値k
j(m)を用いて、次式により線形回帰演算を行なって、変換パラメータa
ji、b
jiを算出する。
【0087】
【数20】
ただし、q
ji(m)は全身動作または表情変化mにおける各感情のアニメーションデータの第j主成分座標の微分値を示しており、i=1は感情分類が「喜び」の場合を、i=2は感情分類が「悲しみ」の場合を、i=3は感情分類が「怒り」の場合を、i=4は感情分類が「嫌悪」の場合を、i=5は感情分類が「恐怖」の場合を、i=6は感情分類が「罪」の場合を、i=7は感情分類が「恥」の場合を、i=8は感情分類が「興味」の場合を、i=9は感情分類が「驚き」の場合をそれぞれ表す。次に、ステップS25で生成された感情データ280に対応する変換パラメータa
ji、b
jiを用いて、ステップS24で生成されたアニメーションデータ270を合成変換し、キャラクタの全身動作または表情変化に感情を付与する。すなわち、感情が付与されたアニメーションデータ270の第j主成分座標の微分値p
j(m)は、次式のようになる。
【0088】
【数21】
時系列で記録されたアニメーションデータ270の全てに対して同様の操作を実行し、アニメーションデータ270を再生成する。
【0089】
次に、アニメーションデータ270にキャラクタにおける任意のポリゴンの空間座標が時系列で記録されている場合について述べる。本実施形態では、ステップS24で生成されたアニメーションデータ270を、ステップS25で生成された感情データ280に応じて合成変換することで、キャラクタの全身動作または表情変化に感情を付与する。まず、人間の表情形成に用いられる感情分類「喜び」「悲しみ」「怒り」「嫌悪」「恐怖」「罪」「恥」「興味」「驚き」の9つの感情の全身動作または表情変化におけるアニメーションデータに対して、無感情のアニメーションデータからの変化量を予め定義しておく。ここで、アニメーションデータの中のあるポリゴンPの座標に対して、「喜び」における無感情との差分を(X
1,Y
1,Z
1)、「悲しみ」における無感情との差分を(X
2,Y
2,Z
2)、「怒り」における無感情との差分を(X
3,Y
3,Z
3)、「嫌悪」における無感情との差分を(X
4,Y
4,Z
4)、「恐怖」における無感情との差分を(X
5,Y
5,Z
5)、「罪」における無感情との差分を(X
6,Y
6,Z
6)、「恥」における無感情との差分を(X
7,Y
7,Z
7)、における無感情との差分を(X
8,Y
8,Z
8)、「驚き」における無感情との差分を(X
9,Y
9,Z
9)、と表す。
【0090】
そして、ステップS25で生成された感情データ280に応じて、ステップS24で生成されたアニメーションデータ270を合成変換し、キャラクタの全身動作または表情変化に感情を付与する。すなわち、アニメーションデータ270におけるPの座標を(X
0,Y
0,Z
0)とすると、感情が付与されたアニメーションデータ270におけるPの座標(X
E,Y
E,Z
E)は、次式で表わされる。
【0091】
【数22】
時系列で記録されたアニメーションデータ270の全てに対して同様の操作を実行し、アニメーションデータ270を再生成する。
【0092】
次に、PC240において、ステップS23で判定された台詞の開始時刻および終了時刻260−2に基づいて、ステップS24またはステップS26で生成されたアニメーションデータ270を変換し、アニメーションデータ270の時間長を調整する(ステップS27)。本実施形態では、キャラクタの一連の全身動作または表情変化におけるアニメーションデータ内のボーンまたはポリゴンの空間座標を「開始部」「主要部」「収束部」等の動きの内容に応じて予め分割して、それらの境界となる時刻をキーフレームと指定し、キーフレーム間の遷移が規定された「アニメーショングラフ」を用いて、アニメーションデータ270を変換する。
【0093】
本明細書では、一例として、アニメーショングラフを用いてアニメーションデータ270の時間長を調整するが、本発明の技術的思想は、アニメーショングラフに限定されるわけではなく、機械学習やHidden Markov Model等の確率モデルも用いてアニメーションデータ270の時間長を調整しても良い。まず、ステップS24で用意されたアニメーションデータベースにおける全てのアニメーションデータに対して、予め「開始部」「主要部」「収束部」を定めてキーフレームを指定し、上述したアニメーショングラフを用意する。
【0094】
次に、ステップS23で判定された台詞の開始時刻および終了時刻よりステップS23で分割された台詞のテキストデータ260−1の時間長を求める。そして、ステップS24またはステップS26で生成されたアニメーションデータ270の時間長に、アニメーションデータ270における「主要部」の時間長を、台詞の時間長との差分が最も小さくなるように繰り返し加え、繰り返し回数を保持する。最後に、アニメーションデータ270の「収束部」の直前に、保持された繰り返し回数分だけ「主要部」のアニメーションデータを挿入する形で、アニメーションデータ270を再生成する。本明細書では、一例として、アニメーションデータにおける「主要部」を繰り返して時間長を調整するが、本発明の技術的思想は、「主要部」の繰り返しに限定されるわけではなく、アニメーションデータの速度制御や「開始部」「収束部」の切り捨て等でアニメーションデータ270の時間長を調整しても良い。
【0095】
次に、PC240において、ステップS23で判定された台詞の開始時刻および終了時刻260−2に応じて、音声データ250における音声信号ステップS27で生成されたアニメーションデータ270における画像信号を生成する(ステップS28)。まず、音声データ250の再生を開始して音声信号の生成を開始すると共に、キャラクタの描画を開始して画像信号の生成を開始する。次に、音声データ250の再生時刻がステップS23で判定された台詞の開始時刻に到達すると、ステップS27で生成されたアニメーションデータ270を反映したキャラクタの描画を開始して画像信号を生成する。
【0096】
一方、音声データ250の再生時刻がステップS23で判定された台詞の終了時刻に到達すると、アニメーションデータ270が反映されない標準のキャラクタの描画に戻り画像信号を生成する。時系列で記録された全ての台詞の開始時刻および終了時刻260−2に対して、同様の処理を繰り返し、アニメーションデータ270における画像信号を生成する。最後の台詞の開始時刻および終了時刻260−2に対しての処理が終了した後、マイクロフォン210により入力される音声データ250が続く場合は、ステップS21に戻り、次の音声データ250に対しての処理を開始する。
【0097】
最後に、音声データ250をスピーカ220から放射すると共に、生成されたキャラクタの画像信号をディスプレイ230に映写する(ステップS29)。
【0098】
図10は、第2の実施形態に係るデータフォーマットを示す図である。このように、第2の実施形態によれば、台詞として入力された音声信号を時系列で記録した音声データ250に基づいて台詞のテキストデータおよび台詞の開始時刻および終了時刻を時系列で生成する。また、生成された台詞のテキストデータに基づいて台詞の開始時刻および終了時刻毎にキャラクタのアニメーションデータおよび感情データを時系列で生成する。さらに、生成された感情データに基づいてアニメーションデータに感情を付与すると共に生成された台詞の開始時刻および終了時刻に基づいてアニメーションデータの時間長を調整する。そして、PC240は、生成された台詞の開始時刻および終了時刻に応じて、音声データにおける音声信号を随時スピーカ220に発信する。一方、PC240は、アニメーションデータにおける画像信号を随時ディスプレイ230に発信する。
【0099】
これにより、第2の実施形態では、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタを生成することができる。また、アニメーションデータとしてキャラクタの任意のボーンまたはポリゴンの空間座標を制御した画像信号を生成するので、台詞に応じた複雑なアニメーションを持つキャラクタを生成することができる。
【0100】
以上説明したように、本発明によれば、任意の情報をWEBサイトから抽出して入力し、複数の入力データにおける感情または主観度を解析し、解析された複数の入力データに含まれる感情または主観度の動的特徴量に基づいて時間的アニメーションを生成し、解析された前記複数の入力データに含まれる感情または主観度の静的特徴量に基づいて空間的アニメーションを生成し、入力データを提示すると共に、生成されたキャラクタのアニメーションを再生するので、入力データがSNSのコメント群のような砕けたテキストデータであっても、適切なアニメーションを持つキャラクタにより提示することができる。また、複数の入力データを包括的に解析すれば、コメント群を反映したニュース本文の提示のように、集約されたデータを踏まえたアニメーションを持つキャラクタによる情報提示が可能となる。さらに、キャラクタのアニメーションとして、キャラクタが全身動作または表情変化する際の、任意の時刻におけるキャラクタの任意のボーンまたはポリゴンの空間座標を制御すれば、テレビ局が制作する本当のニュース番組に近いコンテンツを提供することができる。