(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022178243
(43)【公開日】2022-12-02
(54)【発明の名称】画像生成装置、画像生成方法およびプログラム
(51)【国際特許分類】
G06T 11/60 20060101AFI20221125BHJP
G06F 40/279 20200101ALI20221125BHJP
H04N 1/60 20060101ALI20221125BHJP
【FI】
G06T11/60 100E
G06F40/279
H04N1/60 110
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2021084883
(22)【出願日】2021-05-19
(71)【出願人】
【識別番号】504133110
【氏名又は名称】国立大学法人電気通信大学
(74)【代理人】
【識別番号】100083806
【弁理士】
【氏名又は名称】三好 秀和
(74)【代理人】
【識別番号】100101247
【弁理士】
【氏名又は名称】高橋 俊一
(72)【発明者】
【氏名】坂本 真樹
(72)【発明者】
【氏名】三好 將太
【テーマコード(参考)】
5B050
5B091
5C079
【Fターム(参考)】
5B050AA10
5B050BA16
5B050BA18
5B050CA07
5B050EA09
5B050FA05
5B091AA15
5B091AB06
5B091CA02
5B091CA06
5C079LB12
5C079NA06
(57)【要約】
【課題】より適切に、情報を視覚的に表現する。
【解決手段】画像生成装置1は、入力テキスト21と、入力テキスト21に対するポジティブおよびネガティブのいずれかの極性22を取得する取得部31と、入力テキスト21から、数値表現24および数値名23を抽出する抽出部32と、テンプレートデータ25で定義された数値表現と数値名の位置に、抽出部32が抽出した数値表現24および数値名23を描画し、色相定義データ11から、取得部31が取得した極性22の色相の値を取得し、テンプレートデータ25で定義された極性色の位置に、数値名23に対応する色の色相を、取得した色相の値に変更した色を、極性色の位置に設定して、画像データ26を出力する出力部34を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
画像データにおいて、数を表す数値表現を描画する位置、前記数値表現の数値名を描画する位置、および極性色の位置を定義するテンプレートデータと、
色相を含む複数の要素で特定される色空間において、ポジティブの色相の値とネガティブの値を定義する色相定義データを記憶する記憶装置と、
入力テキストと、入力テキストに対するポジティブおよびネガティブのいずれかの極性を取得する取得部と、
前記入力テキストから、数値表現および数値名を抽出する抽出部と、
前記テンプレートデータで定義された数値表現と数値名の位置に、前記抽出部が抽出した前記数値表現および前記数値名を描画し、
前記色相定義データから、前記取得部が取得した極性の色相の値を取得し、
前記数値名に対応する色の色相を、取得した色相の値に変更した色を、前記極性色の位置に設定して、画像データを出力する出力部
を備える画像生成装置。
【請求項2】
前記出力部は、さらに前記極性色の色相を変更した色を用いて前記画像データを生成する
請求項1に記載の画像生成装置。
【請求項3】
前記抽出部は、前記入力テキストにおける主語を、前記数値名として抽出する
請求項1または2に記載の画像生成装置。
【請求項4】
前記抽出部は、前記入力テキストが複数の数値表現を含む場合、前記入力テキストにおける主語に関連する数値表現を抽出する
請求項1ないし3のいずれか1項に記載の画像生成装置。
【請求項5】
コンピュータが、画像データにおいて、数を表す数値表現を描画する位置、前記数値表現の数値名を描画する位置、および極性色の位置を定義するテンプレートデータと、
色相を含む複数の要素で特定される色空間において、ポジティブの色相の値とネガティブの値を定義する色相定義データを記憶するステップと、
前記コンピュータが、入力テキストと、入力テキストに対するポジティブおよびネガティブのいずれかの極性を取得するステップと、
前記コンピュータが、前記入力テキストから、数値表現および数値名を抽出するステップと、
前記コンピュータが、前記テンプレートデータで定義された数値表現と数値名の位置に、前記抽出するステップで抽出した前記数値表現および前記数値名を描画し、
前記色相定義データから、前記取得するステップが取得した極性の色相の値を取得し、
前記数値名に対応する色の色相を、取得した色相の値に変更した色を、前記極性色の位置に設定して、画像データを出力するステップ
を備える画像生成方法。
【請求項6】
コンピュータを、請求項1ないし請求項4のいずれか1項に記載の画像生成装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像生成装置、画像生成方法およびプログラムに関する。
【背景技術】
【0002】
情報の可視化手法として、インフォグラフィックが知られている。インフォグラフィックは、情報を画像と併用して視覚的に表現したものである。視覚効果による魅力と相まって,伝達したい情報が記憶に残りやすいので、インフォグラフィックは、ニュース、標識、会議資料など多くの場面で用いられている。
【0003】
文章からインフォグラフィックを自動的にするアプローチが検討されている(非特許文献1)。非特許文献1は、「n%」「m in n」「m out of n」「half of」などのインフォグラフィックに関連する用語を、文章から抽出する。抽出された用語をテンプレートに当てはめることで、文章からインフォグラフィックが生成される。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Weiwei Cui, Xiaoyu Zhang, Yun Wang, He Huang, Bei Chen, Lei Fang, Haidong Zhang, Jian-Guan Lou, Dong-mei Zhang, “Text-to-Viz: Automatic Generation of Infographics from Proportion-Related Natural Language Statements”, IEEE Transactions on Visualization and Computer Graphics, Vol. 26, pp. 906-916 (2020)
【発明の概要】
【発明が解決しようとする課題】
【0005】
一般的に、色が視覚効果に与える影響は大きいところ、非特許文献1は、色については何ら開示も示唆もない。色に着目してインフォグラフィックを生成することにより、より適切に、情報を視覚的に表現することが考えられる。
【0006】
本発明は、上記事情に鑑みてなされたものであり、本発明の目的は、より適切に、情報を視覚的に表現可能な技術を提供することである。
【課題を解決するための手段】
【0007】
本発明の一態様の画像生成装置は、画像データにおいて、数を表す数値表現を描画する位置、前記数値表現の数値名を描画する位置、および極性色の位置を定義するテンプレートデータと、色相を含む複数の要素で特定される色空間において、ポジティブの色相の値とネガティブの値を定義する色相定義データを記憶する記憶装置と、入力テキストと、入力テキストに対するポジティブおよびネガティブのいずれかの極性を取得する取得部と、前記入力テキストから、数値表現および数値名を抽出する抽出部と、前記テンプレートデータで定義された数値表現と数値名の位置に、前記抽出部が抽出した前記数値表現および前記数値名を描画し、前記色相定義データから、前記取得部が取得した極性の色相の値を取得し、前記数値名に対応する色の色相を、取得した色相の値に変更した色を、前記極性色の位置に設定して、画像データを出力する出力部を備える。
【0008】
本発明の一態様の画像生成方法は、コンピュータが、画像データにおいて、数を表す数値表現を描画する位置、前記数値表現の数値名を描画する位置、および極性色の位置を定義するテンプレートデータと、色相を含む複数の要素で特定される色空間において、ポジティブの色相の値とネガティブの値を定義する色相定義データを記憶するステップと、前記コンピュータが、入力テキストと、入力テキストに対するポジティブおよびネガティブのいずれかの極性を取得するステップと、前記コンピュータが、前記入力テキストから、数値表現および数値名を抽出するステップと、前記コンピュータが、前記テンプレートデータで定義された数値表現と数値名の位置に、前記抽出するステップで抽出した前記数値表現および前記数値名を描画し、前記色相定義データから、前記取得するステップが取得した極性の色相の値を取得し、前記数値名に対応する色の色相を、取得した色相の値に変更した色を、前記極性色の位置に設定して、画像データを出力するステップを備える。
【0009】
本発明の一態様は、上記画像生成装置として、コンピュータを機能させるプログラムである。
【発明の効果】
【0010】
本発明によれば、より適切に、情報を視覚的に表現可能な技術を提供することができる。
【図面の簡単な説明】
【0011】
【
図1】
図1は、本発明の実施の形態に係る画像生成装置の機能ブロックを説明する図である。
【
図2】
図2は、色相定義データのデータ構造とデータの一例を説明する図である。
【
図3】
図3は、数値名色データのデータ構造とデータの一例を説明する図である。
【
図4】
図4は、数値変化定義データのデータ構造とデータの一例を説明する図である。
【
図5】
図5は、テンプレート定義データのデータ構造とデータの一例を説明する図である。
【
図6】
図6は、テンプレートデータの一例を説明する図である。
【
図7】
図7は、
図6に示すテンプレートデータから生成された画像データの一例を説明する図である。
【
図8】
図8(a)は、入力テキストを単語に分割し、数値表現および数値変化ラベルを付した結果の一例を説明する図であって、
図8(b)は、入力テキストの依存構文解析結果を説明する図である。
【
図9】
図9は、色取得部が取得する色を説明する図である。
【
図10】
図10は、画像処理装置の処理の一例を説明するフローチャートである。
【
図11】
図11は、画像生成装置に用いられるコンピュータのハードウエア構成を説明する図である。
【発明を実施するための形態】
【0012】
以下、図面を参照して、本発明の実施形態を説明する。図面の記載において同一部分には同一符号を付し説明を省略する。
【0013】
(画像生成装置)
本発明の実施の形態に係る画像生成装置1は、数値表現を含む入力テキストから、その数値表現に関するインフォグラフィックである画像データ26を生成する。入力テキストは、一つ以上の文章をコンピュータ処理可能なデータ形式で表現したデータであって、典型的にはテキスト形式のデータである。
【0014】
一般的に数値表現を含む入力テキストは、それを提示する人の属性によって、ポジティブな感情を持つ場合もあれば、ネガティブな感情を持つ場合もある。例えば、地価の上昇に関する入力テキストがある場合、売り手はポジティブに感じる一方、買い手はネガティブに感じる。
【0015】
そこで画像生成装置1は、入力テキストとともに、極性を取得して、その極性に対応する色で、画像データ26を生成する。極性は、ポジティブまたはネガティブの二値が設定される。極性は、入力テキストに対する印象がポジティブであるかネガティブであるかを示す。これにより、画像生成装置1は、画像データ26において、閲覧者が持つ印象を色で表現することにより、より適切に、情報を視覚的に表現することを可能とする。
【0016】
図1に示すように画像生成装置1は、色相定義データ11、数値名色データ12、数値変化定義データ13、テンプレート定義データ14、テンプレート群データ15、入力テキスト21、極性22、数値名23、数値表現24、テンプレートデータ25および画像データ26の各データと、取得部31、抽出部32、選択部33および出力部34の各機能を備える。各データは、メモリ902またはストレージ903等の記憶装置に記憶される。色相定義データ11、数値名色データ12、数値変化定義データ13、テンプレート定義データ14およびテンプレート群データ15は、画像生成装置1が、入力テキスト21から画像データ26を生成する処理に先立って、予め画像生成装置1に記憶される。入力テキスト21、極性22、数値名23、数値表現24、テンプレートデータ25および画像データ26は、画像生成装置1が、入力テキスト21から画像データ26を生成する処理に伴って、画像生成装置1に記憶される。各機能は、CPU901に実装される。
【0017】
色相定義データ11は、色相を含む複数の要素で特定される色空間において、ポジティブの色相の値とネガティブの値を定義する。色相を含む複数の要素で特定される色空間は、例えば、HSB系(H:hue(色相),S:saturation(彩度),B:brightness(明度))、HSV系(H:hue(色相),S:saturation(彩度),B:value(明度))などである。色をHSB系で表現する場合、色相は、0~360の値で表現される。色相定義データ11は、
図2に示すように、ポジティブとネガティブのそれぞれの極性について、色相の値の範囲を対応づける。
【0018】
本発明の実施の形態において、各極性の色相の値は、プルチックの2次元の感情の輪を参考にして、色相定義データ11が生成される。ポジティブに対する色相の値は、プルチックの二次元の感情の輪の怒り、期待、喜びおよび信頼などに対応する0~135である。ポジティブに対する色相の値は、プルチックの二次元の感情の輪の信頼、恐れ、驚き、悲しみ、嫌悪および怒りに対応する136~360である。色相定義データ11において、ポジティブおよびネガティブの各極性について、人の受ける印象と極性とが対応するように色相の値が定義されればよく、どのように定義されても良い。
【0019】
数値名色データ12は、数値名に対応する色を定義するデータである。数値名は、入力テキストに含まれる数値表現の表現対象の名称である。数値表現が「200円」などの物価の場合、数値名は「物価」である。
【0020】
数値名色データ12は、
図3に示すように、数値名、アイコンおよび代表色を対応づけても良い。一つの数値名に対して一つにアイコンおよび代表色が対応づけられる。一つのアイコンに対して複数の数値名が対応づけられても良い。アイコンは、数値名を想起する画像である。アイコンは、画像データ26に設定されても良い。代表色は、数値名23から想起される色である。
図3に示す例において代表色は、RGBの各値を16進数の2桁で表す。代表色は、色名で表現されても良いし、HSBの各値で表現されても良い。
【0021】
代表色は、任意の方法で決定される。
図3で挙げたアイコンの色から決定されても良い。あるいは、代表色は、数値名として一般的に用いられる複数のアイコンの色から決定されても良い。また、一般的に白または黒が多用されることから、アイコン等から決定された色が「r > 200, g > 200かつb > 200」もしくは「r < 55, g < 55かつ b < 55」の場合、代表色としては採用しないという条件を設けても良い。
【0022】
数値変化定義データは13、数値変化に関する用語と、その用語が意味する数値の上昇および下降のいずれかの数値変化ラベルを対応づける。数値変化定義データ13は、
図4に示すように、数値変化ラベルに、その数値変化ラベルに対応する用語と品詞を対応づける。数値変化ラベルは、数値の上昇および下降のいずれかを示すことがわかれば、どのようなラベルが用いられても良い。他の実施例において、数値に変更がないことを意味する数値変化ラベルが、さらに用いられても良い。
【0023】
図4に示す例において数値変化ラベルは、数値の上昇を表す「UP」と数値の下降を表す「DOWN」である。
図4に示す例において、用語「上回る」は、数値の上昇を想起するので数値変化ラベル「UP」が対応づけられる。用語「低迷」は、数値の下降を想起するので数値変化ラベル「DOWN」が対応づけられる。
【0024】
テンプレート定義データ14は、画像生成装置1のテンプレート群データ15が保有する複数のテンプレートデータの属性を定義する。
図5に示すようにテンプレート定義データ14は、テンプレートデータの識別子と、テンプレートデータで表現する数値表現の数および数値表現の変化の数を対応づける。数値表現の変化は、比較対象となる数値表現に対する変化であって、パーセント表記または倍率で表記される。入力テキストに、数値表現による数値のみならず、数値表現の変化が含まれ、画像データ26で数値表現の変化を表現する場合に用いられる。数値表現の変化の数は、テンプレートデータに含まれるパーセントまたは倍率を表現する図の数に対応する。
【0025】
テンプレート群データ15は、画像データ26を生成する際に参照される複数のテンプレートデータを特定するデータである。テンプレートデータは、数を表す数値表現を描画する位置、数値表現の数値名を描画する位置、極性色の位置、アイコンを描画する位置、数値表現の変化の描画位置など、画像データ26に含まれる各パーツを描画する位置を定義する。テンプレート群データ15に含まれるテンプレートは、テンプレート定義データ14で定義するテンプレートの識別子に対応づけられる。
【0026】
図6(a)および(b)を参照して、テンプレートデータを説明する。なお、
図7(a)および(b)のそれぞれは、
図6(a)および(b)に示すテンプレートデータを用いて、画像生成装置1が生成した画像データ26の一例である。
【0027】
図6(a)のテンプレートは、数値表現を描画する数値表現表示部P1、数値名を描画する数値名表示部P2およびアイコンを表示するアイコン表示部P3を備える。
図7(a)に示すように、画像データ26は、数値表現表示部P1、数値名表示部P2およびアイコン表示部P3のそれぞれの位置に、具体的なデータを示す。
【0028】
図6(b)のテンプレートは、
図6(a)のテンプレートが備える数値表現表示部P1、数値名表示部P2およびアイコン表示部P3のほか、パーセント形式などの数値表現の変化の数値を表示するパーセント表示部P4を備える。
図7(b)に示すように、画像データ26は、数値表現表示部P1、数値名表示部P2、アイコン表示部P3およびパーセント表示部P4のそれぞれの位置に、具体的なデータを示す。
図7(b)のパーセント表示部P4における一部が欠けた円は、パーセント表示部P4が表す値によって、形状が異なっても良い。
図7(b)に示すように、パーセント表示部P4は、「90%」を示す。この数値がさらに低い場合、パーセント表示部P4が表す円は、さらに欠落する。例えばパーセント表示部P4が「50%」を表現する場合、パーセント表示部P4が表す円は、半円になる。
【0029】
図6(a)および
図6(b)は、それぞれ、枠に極性色表示部P5を設ける。極性色表示部P5は、取得部31が取得した極性22に応じて、設定される色を表示する部分である。具体的には極性22がポジティブな場合、極性色表示部P5に、ポジティブを想起させる色が表示される。極性22がネガティブな場合、極性色表示部P5に、ネガティブを想起させる色が表示される。
図6(a)および(b)に示す例において極性色表示部P5は、数値表現表示部P1等を囲う枠であるがこれに限らない。極性色表示部P5は、テンプレートデータにおける模様、背景など、テンプレートデータの一部を構成する部分として設けられても良い。
【0030】
また一つのテンプレートデータにおいて、複数の極性色表示部P5が定義されても良い。各極性色表示部P5は、同じ色で表示されても良いし、異なる色で表示されても良い。各極性色表示部P5が異なる色で表示される場合、テンプレートデータ25は、極性色表示部P5のそれぞれに表示する色を特定する識別子を対応づける。テンプレートデータ25は、極性色表示部P5のそれぞれに、基準となる極性色に対する色相のシフト量を対応づけても良い。極性色表示部P5のそれぞれに、色相のみが異なり彩度および明度が同じ色が表示される。シフト量は、極性色の色相の値に対する差分であって、+30、-50などと表記される。
【0031】
入力テキスト21は、画像生成装置1に入力されるデータである。入力テキスト21は、画像生成装置1が画像データ26を生成する対象となる文章を特定する。入力テキスト21は、数を表す数値表現と、その数値表現の数値名を含む。なお本発明の実施の形態において「数」は、数量、金額、パーセンテージなどの数字での表現できる単語である。数は、整数で表現可能な単語のみならず、小数、分数などのあらゆる数で表現可能な単語を含む。
【0032】
極性22は、画像生成装置1に入力されるデータである。極性22は、ポジティブまたはネガティブである。画像生成装置1は、極性22で設定された値に従って、画像データ26における極性色表示部P5の色相を変更する。本発明の実施の形態において極性は、ポジティブまたはネガティブであるが、3つ以上の極性が設定されても良い。
【0033】
数値名23および数値表現24はそれぞれ、入力テキスト21から抽出されるデータである。数値名23および数値表現24はそれぞれ、抽出部32によって抽出される。入力テキスト21は、少なくとも一つの数値表現24を含む。
【0034】
テンプレートデータ25は、テンプレート群データ15から選択された一つのテンプレートデータである。テンプレートデータ25は、選択部33によって選択される。
【0035】
画像データ26は、画像生成装置1が入力テキスト21および極性22から生成されるデータである。画像データ26は、出力部34によって生成される。画像データ26は、入力テキスト21と極性22から生成されるインフォグラフィックである。画像データ26は、極性22に対応する色を有することで、極性22に対応する印象を色で表現することを可能とする。
【0036】
取得部31は、入力テキスト21と、入力テキスト21に対するポジティブおよびネガティブのいずれかの極性22を取得する。取得部31は、例えばユーザが入力する入力テキスト21と極性22を取得する。
【0037】
抽出部32は、入力テキスト21から、数値名23および数値表現24を抽出する。抽出部32は、入力テキスト21における主語を、数値名23として抽出する。抽出部32は、入力テキスト21が3つ以上などの複数の数値表現を含む場合、入力テキスト21における主語に関連する2つの数値表現24を抽出する。抽出部32は、入力テキスト21に含まれる複数の数値表現のうち、主語と最も関連する数値表現24と、この数値表現のラベルと同じラベルが付された数値表現24を抽出する。ラベルは、後述するように、数の種類を特定する。このように抽出された数値表現24は、主語となる数値名を修飾していると考えられ、数値名に対する数値表現として適切であるからである。
【0038】
抽出部32は、入力テキスト21に対して形態素解析および固有表現抽出処理などを行い、入力テキスト21における依存構文解析および品詞タグを付ける。抽出部32は、入力テキスト21における主語述語のペアを決定し、決定された主語述語のペアから、数値名および数値表現を決定する。本発明の実施の形態において、NPL(自然言語処理:Natural Language Processing)ライブラリとして、spaCy, Sudachi,および日本語Universal DependenciesモデルのGiNZAを使用する場合を説明するが、これに限るものではない。
【0039】
抽出部32は、入力テキスト21に対して、Sudachi を用いて形態素解析を行う。抽出部32は、その解析結果を spaCyに渡す。抽出部32は、数値変化定義データ13と日本語Universal Dependencies モデルを用いて、入力テキスト21の依存構造解析および品詞タグ付けを行う。これにより入力テキスト21は、単語単位で分割されたトークンの集合として扱われる。
【0040】
抽出部32は、各トークンに、固有表現、数値表現および数値変化ラベルを付与する。固有表現は、固有名詞である。数値表現は、数量、金額、パーセンテージなどの数で表現される単語である。抽出部32は、数値表現に分類されるラベルのうち、数を表すラベルを、数値表現として定義する。数を表すラベルは、例えば、「人数(N_Person)」、「組織数(N_Organization)」、「場所数(N_Location)」、「場所数_その他(N_Location_Other)」、「国数(N_Country)」、「施設数(N_Facility)」、「製品数(N_Product)」、「イベント数(N_Event)」、「自然物数(N_Natural_Object)」、「自然物数_その他(N_Natural_Object_Othrer)」、「動物数(N_Animal)」、「植物数(N_Flora)」、「金額表現(Money)」、「割合表現(Percent)」、「倍数表現(Multiplication)」、「頻度表現(Frequency)」、および「年齢(Age)」などである。
【0041】
抽出部32が、「野菜の価格が200円から150円に下がった」という文章に対して単語分割し、数値表現および数値変化ラベルを付与した結果を、
図8(a)に示す。
図8(a)における区切りが、分割された単語の区切りである。抽出部32は、「200円」と「150円」のそれぞれに金額表現のラベルを付与する。抽出部32は、「下がった」に数値変化ラベルを付与する。
【0042】
図8(b)に、依存構文解析結果を示す。
図8(b)は、「野菜の価格が200円から150円に下がった」の文章から区切られた各単語に品詞を対応づけ、さらに各品詞の係り受けを示す。
【0043】
次に抽出部32は、入力テキスト21における主語および述語のペアを決定する。抽出部32は、まず複数の主語述語のペアを抽出した後、一つの主語述語のペアを決定する場合を説明する。
【0044】
まず入力テキスト21に含まれる数値名23を抽出する処理を説明する。抽出部32は、数値名とする主語となりうるトークンを探す。抽出部32は、文頭から主語名詞を意味するnsubjもしくは目的語を意味するobjの係り受けタグが付与されているトークンを検索して、検索されたトークンを主語単語候補とする。このとき主語単語候補トークンが obj である場合,抽出部32は、2つの条件である「objトークンが対象数値表現を含んでいない」および「objトークンより文頭に名詞修飾語を意味する nmod トークンが出現している」を満たすか否かを、それぞれ判定する。いずれの条件も満たす場合、抽出部32は、このobjトークンを主語単語候補とする。一方いずれかの条件を満たさない場合、具体的には、「objトークンが対象数値表現を含む」場合、または「nmod トークンが出現していない」場合、抽出部32は、このobjトークンを主語単語候補から除く。これらの条件は、入力テキスト21が”アメリカの新型コロナウイルスの感染者は2000万7000人余りと、累計で2000万人を超えました。”の場合、主語を “2000万” ではなく “感染者” として採用することを考慮したためである。また文章構文としてobjに数値表現が来る場合は、そのテキストには別の主語となりうる単語nmodがすでに出現していることが多いためである。
【0045】
抽出部32は、入力テキスト21における主語を抽出し、その主語に対応する述語を特定する。
【0046】
抽出部32は、抽出した主語述語のペアが複数の場合、抽出部32は、複数のペアから一つのペアに絞り込む。ここで絞り込まれる主語述語ペアの主語は、数値名として尤もらしいものである。抽出部32は、それぞれの主語述語ペアの主語に対して、入力テキスト21における数値表現のいずれかのラベルが付与されたトークンとの距離を取得する。ここでの距離は、対象となる2つのトークンの間に存在するトークンの数とする。また主語トークンが1文字の場合、主語として妥当でない場合が多いことから、1文字主語の場合、抽出部32は、主語と数値表現の距離を1.5倍になるように重みを追加しても良い。抽出部32は、各主語述語ペアについて、その主語と入力テキスト21における各数値表現トークンの距離の平均値を算出し、距離の平均値が最も小さいもの、つまり複数の数値表現から主語が最も近いものを、最終的な主語述語ペアとして採用する。また最終的な主語述語ペアの主語が、数値名となる。
【0047】
入力テキスト21において、主語述語の関係が一つも得られないケースもある。その場合、抽出部32は、入力テキスト21から、複数のキーワードを取得し、これらのキーワードから主語を決定する。キーワードは、名詞とその名詞を説明する単語で構成され、例えばobj タグを持つ固有名詞トークンである。抽出部32は、各キーワードについて、キーワードに含まれる各単語の品詞タグについて、名詞タグNOUN の数と、それ以外のタグの数をカウントする。抽出部32は、複数のキーワードのうち、名詞タグの単語の数が最も多いキーワードを、主語とする。名詞タグの単語を最も多い数を有するキーワードが複数存在する場合、抽出部32は、そのキーワードの中で名詞以外の品詞タグの単語の数が最も少ないキーワードを、主語とする。抽出部32は、主語に係っているトークンを述語として取得する。
【0048】
以上の処理から、抽出部32は、入力テキスト21における数値名を取得することができるが、拡張した主語を数値名としても良い。拡張した主語は、例えば、「AのB」、または「ABC」で表記される。「AのB」は、例えば、「“ゲーム”の“売り上げ”」などである。主語が「売り上げ」であるとしても、その売り上げの修飾として「ゲーム」が設定される場合、抽出部32は、「ゲームの売り上げ」を主語としても良い。「ABC」は、例えば、「“ウイルス”“新規”“感染者”」である。単語としての主語は「感染者」であるとしても、感染者の修飾として「ウイルス新規」が設定される場合、抽出部32は、「ウイルス新規感染者」を主語としても良い。また主語が1文字かつその主語の修飾語が1文字の場合、文頭側の主語がより主語としての役割が大きいと仮定して、採用した修飾語より前の2文字以上の固有名詞を拡張した主語として採用しても良い。
【0049】
次に入力テキスト21に含まれる数値表現24を抽出する処理を説明する。抽出部32は、主語述語ペアから数値表現24を決定する。入力テキスト21に1つの数値表現が含まれる場合、その数値表現を、入力テキストの数値表現24とする。
【0050】
入力テキスト21に複数の数値表現を含む場合、抽出部32は、割合を意味する「Percent」と「Multiplication」を除いて、主語と各数値表現との関連度を求める。まず、数値表現タグが与えられた単語と主語が、係り受け関係または修飾関係である場合、抽出部32は、主語と該当の数値表現の関連度合いを1インクリメントする。このとき数値表現トークンが主語そのものである場合、抽出部32は、関連度合いを変化させない。
【0051】
抽出部32は、最後に関連度合いが最も大きい数値表現トークンを、入力テキスト21における数値表現候補とする。ここで数値表現は、「製品数(N_Product)」、「金額表現(Money)」など、複数の種類の表現を含む。候補となった数値表現と同じ種類の数値表現が付与されたトークンが存在する場合、それらのトークンを、入力テキスト21における数値表現24として採用する。例えば入力テキスト21が「新商品は3つ入りで200円から220円に。」である場合について説明する。この入力テキスト21において、「200円」および「220円」のそれぞれに、金額表現が付与され、「3個」に、製品数が付与される。主語を「新商品」とした場合、「新商品」に対する「220円」の関連度合いは、「3個」、「200円」の各関連度合いよりも高い。そこで抽出部32は、主語との関連度合いが最も大きい「220円」と、この数値表現と同じ種類の数値表現である「200円」を数値表現候補とし、「3個」を数値表現候補から除外する。
【0052】
ここで、「割合表現(Percent)」と「倍数表現(Multiplication)」の各ラベルが付された単語は、採用した数値表現における変化として扱う。なお、「Percent」と「Multiplication」を事前に除いたことにより,入力テキスト21に含まれる数値表現における変化が存在しなくなった場合、「割合表現(Percent)」または「倍数表現(Multiplication)」のラベルが付与された単語を、入力テキスト21における数値表現の変化として採用しても良い。
【0053】
次に抽出部32は、入力テキスト21における数値変動を決定する。ここでは、数値変化定義データ13において数値変化ラベルが付与されたトークンが参照される。
【0054】
まず、数値変化ラベルが述語に付与されている場合、抽出部32は、その述語に付与された数値変化ラベルを、入力テキスト21における数値変動とする。数値変化ラベルが付与された単語が述語に係っている場合、抽出部32は、その述語に係っている単語に付与された数値変化ラベルを、入力テキスト21における数値変動とする。数値変化ラベルが付与された単語が主語である場合、その主語に付与された数値変化ラベルを、入力テキスト21における数値変動とする。数値変化ラベルが付与された単語、もしくはその単語と係り受け依存関係にある単語が数値表現に係っている場合、その単語に付与された数値変化ラベルを、数値変動とする。
【0055】
入力テキスト21に、複数の数値変化ラベルが含まれる場合、抽出部32は、最も文末の数値変化ラベルを、入力テキスト21における数値変動とする。また入力テキスト21に数値変化ラベルが付与される単語が含まれない場合、「Percent」または「Multiplication」のトークンがUPまたはDOWNに関するワードに関係する場合、抽出部32は、このラベル分類をもとに数値変動を決定する。例えば、「2割増」が「2割」と「増」の2つのトークンに含まれる場合、「Percent」「2割」とUPに関する「増」は連続関係を有し、「2割増」が1つのトークンに分割される場合、このトークンとUPに関する「増」のワードは、包含関係を有する。あるいは、「人数(N_Person)」などの「N_xxx」のトークンにUPまたはDOWNに関するワードが含まれる場合、抽出部32は、このラベル分類をもとに数値変動を決定する。ここで、UPに関するワードは、「増」、「上」、「超」などである。DOWNに関するワードは、「減」、「下」などである。
【0056】
例えば、「Percent」または「Multiplication」のトークンが付与された単語の直後に数値変化の単語が続く場合、これらの単語から変換した値を、画像データ26で表現するグラフ等で表現される。例えば、「10%減少」は「90%」に変換され、「3割上昇」は「130%」に変換され、「1.5倍」は「150%」に変換される。また数値変動は、正規化するように変換されて、インフォグラフィックで表現するグラフ等に反映されても良い。例えば、「10%減」という文言をインフォグラフィックで表現する場合、「10%」を正規化するように変換された「90%」が、グラフ等で表現されても良い。
【0057】
以上の処理により、抽出部32は、入力テキスト21における数値名23および数値表現24を抽出する。また抽出部32は、「Percent」「Multiplication」などのパーセントまたは倍率となる、数値表現の変化の数値を取得する。なお抽出部32は、少なくとも数値名23および数値表現24を抽出できればよく、以上の処理と異なる処理によりこれらを抽出しても良い。
【0058】
選択部33は、抽出部32が抽出した数値表現24の数、および数値表現の変化の数によって、テンプレート群データ15から、テンプレートデータ25を抽出する。選択部33は、テンプレート定義データ14を参照して、抽出部32が抽出した数値表現24の数、および数値表現の変化の数を表現可能なテンプレートの識別子を特定する。選択部33は、テンプレート群データ15から、特定した識別子に対応するテンプレートデータ25を選択する。
【0059】
出力部34は、選択部33において選択されたテンプレートデータ25に従って、画像データ26を出力する。出力部34は、テンプレートデータ25で定義された数値表現と数値名の位置に、抽出部32が抽出した数値表現24および数値名23の各情報を描画する。出力部34は、テンプレートデータ25の数値名表示部P2および数値表現表示部P1に、抽出部32が抽出した数値名23および数値表現24を描画する。また出力部34は、数値名色データ12から、数値名23に対応づけられたアイコンを抽出し、抽出したアイコンをアイコン表示部P3に描画する。数値名色データ12において、数値名23に合致する数値名を含むレコードがない場合、数値名23の類義語の数値名を含むレコード、あるいは数値名23との類似度が高い数値名を含むレコードから、アイコンを抽出しても良い。抽出部32が複数の数値名23を抽出した場合、出力部34は、そのいずれかの数値名に対応するアイコンを描画する。テンプレートデータ25に、数値表現の変化を表示するパーセント表示部P4がある場合、抽出部32によって抽出された数値表現の変化に従って描画する。
【0060】
また出力部34は、テンプレートデータ25の極性色表示部P5を、後述の色取得部35が取得した色で描画する。色取得部35は、テンプレートデータにおける極性色表示部P5の色を取得する。
【0061】
色取得部35は、色相定義データ11から、取得部31が取得した極性の色相の値を取得する。また色取得部35は、数値名色データ12から、抽出部32が抽出した数値名23に対応する代表色(色)を取得する。数値名色データ12において、数値名23に合致する数値名を含むレコードがない場合、数値名23の類義語の数値名を含むレコード、あるいは数値名23との類似度が高い数値名を含むレコードから、代表色を抽出しても良い。代表色の色相が、色相定義データ11から取得した色相の値の範囲内である場合、色取得部35は、代表色を極性色とする。代表色の色相が、色相定義データ11から取得した色相の値の範囲内でない場合、色取得部35は、代表色の色相を、色相定義データ11から取得した色相の値に変更し、代表色の彩度および明度を有する色を、極性色とする。テンプレートデータ25の極性色表示部P5が、色取得部35が取得した極性色で表示されて、画像データ26が生成される。
【0062】
色取得部35が取得する極性色の色相は、色相定義データ11において、取得部31が取得した極性の色相の値の範囲内であれば良い。
【0063】
例えばテンプレートデータ25は、極性色表示部P5に、極性色表示部P5のそれぞれに表示する色を特定する識別子を対応づける場合、色取得部35は、極性色表示部P5で用いられる複数の色を取得する。複数の色のうちの一つの色が、極性色であって、それ以外の色が、極性色の色相を変更した色である。色取得部35は、極性色の色相をさらに変更した色を用いて、画像データ26を生成しても良い。テンプレートデータ25において、複数の極性色表示部P5がある場合、それぞれに色相のみが異なる色が表示されても良い。色取得部35は、極性色と、例えば極性色に対して色相を±30変更する色を取得することにより、極性色表示部P5が同系色で表示される。
【0064】
色取得部35が取得する色の色相の決定方法の一例を説明する。ここでは、テンプレートデータ25において、極性色表示部P5において3つの色を用いる場合を説明する。
【0065】
色取得部35は、まず、数値名23に対応する代表色(A)を、HSB色相環上にマッピングする。マッピング上の色を、A’と称する。A’を基準として、S(彩度)とB(明度)を代表色の彩度および明度に固定したまま、H(色相)が±120となるトライアドの色(B1,B2)、またはHが±90となるテトラードの色(C1、C2、C3)を取得する。次に色取得部35は、A’、B1、B2、C1、C2およびC3のうち、色相定義データ11において、取得部31が取得した極性22に対応する範囲に含まれる、一つの色を決定する。
【0066】
決定された一つの色をDとする。Dの彩度または明度が低い場合、Dを基準に選択される色も暗くなってしまう。そこで色取得部35は、Dの彩度の値の下限を50、明度の値の下限を60として、Dの色を調整しても良い。調整後の色をD’1とする。色取得部35は、D’1を基準に、2色選択する。例えば、色取得部35は、D’1の色相を、±30とした色(D’2,D’3)を取得する。ここで、D’1とD’2、およびD’1とD’3とのそれぞれの色相の差分を30としたが、差分の値は適宜設定されても良い。色取得部35は、D’1、D’2およびD’3を、極性色表示部P5を表示する色と決定する。出力部34は、極性色表示部P5を、D’1、D’2およびD’3で表示する。
【0067】
図9を参照して、数値名23に対応する色が、カラーコード#6aaa30の場合に、色取得部35が取得する3つの色を説明する。ここで、極性22はポジティブであるとする。
【0068】
色取得部35は、カラーコード#6aaa30を、HSB系(92,72,67)に変換する。色取得部35は、(92,72,67)を基準に、トライアド手法による2色(1, 72, 67), (211, 72, 67)および (311, 72, 67)と、テトラード手法による3色(181, 72, 67), (271, 72, 67), (1, 72, 67)を、極性色の候補とする。トライアド手法による2色(1, 72, 67), (211, 72, 67)および (311, 72, 67)の色相を、
図9(a)に示す。テトラード手法による3色(181, 72, 67), (271, 72, 67), (1, 72, 67)の色相を、
図9(b)に示す。
【0069】
本発明の実施の形態において、色相定義データ11でポジティブに対応づけられる色相は、0-135である。色取得部35は、極性色の候補として選択した6色のうち、色相が0-135の範囲に含まれる(92,72,67)および(1, 72, 67)から、極性色を選択する。色取得部35は、極性色として(92,72,67)を選択した場合、Hの値を±30した同系色(121, 72, 67), (61, 72, 67) を取得する。従って、極性色表示部P5は、
図9(c)に示す(92,72,67)、(121, 72, 67)、または61, 72, 67)で着色される。
【0070】
図10を参照して、本発明の実施の形態に係る画像生成装置1による画像生成方法を説明する。
【0071】
まずステップS1において画像生成装置1は、入力テキスト21と極性22を取得する。ステップS2において画像生成装置1は、入力テキスト21から、数値名23と数値表現24を抽出する。
【0072】
ステップS3において画像生成装置1は、ステップS2で抽出した数値表現数などから、テンプレートデータ25を選択する。ステップS4において画像生成装置1は、ステップS2で抽出した数値名23に対応する色の色相を、ステップS1で取得した極性22に対応する色相の値に変更する。なお、ステップS2で抽出した数値名23に対応する色の色相が、ステップS1で取得した極性に対応づけられた色相の範囲内の場合、画像生成装置1は、数値名23に対応する色の色相を変更しなくても良い。
【0073】
ステップS5において画像生成装置1は、ステップS3で選択したテンプレートデータ25に、ステップS2で抽出した数値表現24および数値名23を設定するとともに、ステップS4で色相が変更された色を用いて、画像データ26を生成する。
【0074】
本発明の実施の形態にかかる画像生成装置1は、インフォグラフィックの画像データ26を生成するために必要な入力テキスト21を取得するとともに、ポジティブまたはネガティブが設定された極性22を取得する。極性22は、画像データ26を参照した人が、入力テキスト21に対してポジティブな感情を持つか、ネガティブな感情を持つかを示す。画像生成装置1は、極性22に従った色を用いた画像データ26を生成する。これにより画像データ26を参照した人は、画像データ26からポジティブまたはネガティブな感情を持ちやすい。また数値は、それを参照する人の立場によって、ポジティブかネガティブかが異なる。画像生成装置1は、インフォグラフィックを参照する人の立場に応じて、画像データ26を生成することができる。
【0075】
また本発明の実施の形態において、極性22が入力される場合を説明したが、これに限らない。極性22の代わりに、画像データ26を参照する対象者が入力され、画像生成装置1が、極性22を判定しても良い。画像生成装置1は、対象者に、UPまたはDOWNの数値変化と極性を対応づけた極性辞書データ(図示せず)を参照して、入力された対象者と、抽出部32で判定した数値変化から、極性22を特定し、特定した極性22に従って、画像データ26を生成しても良い。
【0076】
このように画像生成装置1は、より適切に、情報を視覚的に表現可能な画像データ26を生成することができる。
【0077】
上記説明した本実施形態の画像生成装置1は、例えば、CPU(Central Processing Unit、プロセッサ)901と、メモリ902と、ストレージ903(HDD:Hard Disk Drive、SSD:Solid State Drive)と、通信装置904と、入力装置905と、出力装置906とを備える汎用的なコンピュータシステムが用いられる。このコンピュータシステムにおいて、CPU901がメモリ902上にロードされたプログラムを実行することにより、画像生成装置1の各機能が実現される。
【0078】
なお、画像生成装置1は、1つのコンピュータで実装されてもよく、あるいは複数のコンピュータで実装されても良い。また画像生成装置1は、コンピュータに実装される仮想マシンであっても良い。
【0079】
画像生成装置1のプログラムは、HDD、SSD、USB(Universal Serial Bus)メモリ、CD(Compact Disc)、DVD (Digital Versatile Disc)などのコンピュータ読取り可能な記録媒体に記憶することも、ネットワークを介して配信することもできる。
【0080】
なお、本発明は上記実施形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。
【符号の説明】
【0081】
1 画像生成装置
11 色相定義データ
12 数値名色データ
13 数値変化定義データ
14 テンプレート定義データ
15 テンプレート群データ
21 入力テキスト
22 極性
23 数値名
24 数値表現
25 テンプレートデータ
26 画像データ
31 取得部
32 抽出部
33 選択部
34 出力部
35 色取得部
901 CPU
902 メモリ
903 ストレージ
904 通信装置
905 入力装置
906 出力装置
P1 数値表現表示部
P2 数値名表示部
P3 アイコン表示部
P4 パーセント表示部
P5 極性色表示部