(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-11-09
(45)【発行日】2023-11-17
(54)【発明の名称】情報処理装置、情報処理方法、および情報処理プログラム
(51)【国際特許分類】
G06Q 30/0241 20230101AFI20231110BHJP
G06F 40/30 20200101ALI20231110BHJP
G06T 11/60 20060101ALI20231110BHJP
G06T 7/00 20170101ALI20231110BHJP
【FI】
G06Q30/0241 444
G06F40/30
G06T11/60 100A
G06T7/00 300F
(21)【出願番号】P 2022098597
(22)【出願日】2022-06-20
【審査請求日】2022-06-20
(73)【特許権者】
【識別番号】399037405
【氏名又は名称】楽天グループ株式会社
(74)【代理人】
【識別番号】100109380
【氏名又は名称】小西 恵
(74)【代理人】
【識別番号】100109036
【氏名又は名称】永岡 重幸
(72)【発明者】
【氏名】シュテンガー ビヨン
(72)【発明者】
【氏名】中澤 満
【審査官】永野 一郎
(56)【参考文献】
【文献】特開2013-141200(JP,A)
【文献】国際公開第2020/196384(WO,A1)
【文献】特開2010-219692(JP,A)
【文献】特開2022-069122(JP,A)
【文献】米国特許出願公開第2021/0150725(US,A1)
【文献】特開2019-046383(JP,A)
【文献】特表2016-535907(JP,A)
【文献】特開2022-056001(JP,A)
【文献】特許第6956920(JP,B1)
【文献】特開2020-154951(JP,A)
【文献】米国特許出願公開第2018/0089150(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
G06F 40/30
G06T 11/60
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
テキストが有する特徴および画像が有する特徴を検出する特徴検出手段と、
検出された前記特徴に基づいて、前記テキストを前記画像に重畳表示する際の、前記画像における前記テキストの表示設定
として、前記テキストに適用するフォントデザイン、フォントカラー、およびフォントサイズを決定
し、かつ、前記画像において前景オブジェクトが存在しない複数の空白領域と前記テキストに基づいて、前記複数の空白領域のうち前記テキストの前記画像における表示位置を決定する決定手段と、
を有
し、
前記特徴は、前記テキストが有する意味論的特徴、前記画像の前景オブジェクトが有する視覚的特徴または前記前景オブジェクトが有する印象、前記画像の前景オブジェクトと背景において支配的に使用されている色、前記画像の前景オブジェクトのサイズ、および前記画像における前記複数の空白領域の位置を含む、ことを特徴とする情報処理装置。
【請求項2】
前記決定手段は、
前記特徴を機械学習モデル
に入力することにより、前記表示設定を決定することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記表示設定に従って、前記テキストを前記画像に表示させたコンテンツを生成する生成手段を更に有すること特徴とする請求項1に記載の情報処理装置。
【請求項4】
情報処理装置により実行される情報処理方法であって、
テキストが有する特徴および画像が有する特徴を検出する特徴検出工程と、
検出された前記特徴に基づいて、前記テキストを前記画像に重畳表示する際の、前記画像における前記テキストの表示設定
として、前記テキストに適用するフォントデザイン、フォントカラー、およびフォントサイズを決定
し、かつ、前記画像において前景オブジェクトが存在しない複数の空白領域と前記テキストに基づいて、前記複数の空白領域のうち前記テキストの前記画像における表示位置を決定する決定工程と、
を有
し、
前記特徴は、前記テキストが有する意味論的特徴、前記画像の前景オブジェクトが有する視覚的特徴または前記前景オブジェクトが有する印象、前記画像の前景オブジェクトと背景において支配的に使用されている色、前記画像の前景オブジェクトのサイズ、および前記画像における前記複数の空白領域の位置を含む、ことを特徴とする情報処理方法。
【請求項5】
情報処理をコンピュータに実行させるための情報処理プログラムであって、該情報処理プログラムは、前記コンピュータに、
テキストが有する特徴および画像が有する特徴を検出する特徴検出処理と、
検出された前記特徴に基づいて、前記テキストを前記画像に重畳表示する際の、前記画像における前記テキストの表示設定
として、前記テキストに適用するフォントデザイン、フォントカラー、およびフォントサイズを決定
し、かつ、前記画像において前景オブジェクトが存在しない複数の空白領域と前記テキストに基づいて、前記複数の空白領域のうち前記テキストの前記画像における表示位置を決定する決定処理と、を含む処理を実行させるためのものであ
り、
前記特徴は、前記テキストが有する意味論的特徴、前記画像の前景オブジェクトが有する視覚的特徴または前記前景オブジェクトが有する印象、前記画像の前景オブジェクトと背景において支配的に使用されている色、前記画像の前景オブジェクトのサイズ、および前記画像における前記複数の空白領域の位置を含む、
情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、および情報処理プログラムに関し、特に、画像に表示するテキストに対する設定を決定するための技術に関する。
【背景技術】
【0002】
近年、インターネット上のウェブページにおいて配信する広告が広く利用されている。このような広告の生成に関する技術として、特許文献1には、テキストで構成されるテキスト広告と、当該テキスト広告に関連する画像とを所定の形式で組み合わせることにより、広告コンテンツを生成する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記文献では、テキスト広告と画像とを所定の形式で組み合わせることにより広告コンテンツを生成している。すなわち、テキスト広告を固定的な方法で画像に表示した広告コンテンツを生成している。しかしながら、当該テキスト広告のテキストや当該画像は、それぞれ特徴を有するため、このような特徴を考慮することにより、視覚的またはマーケット戦略上より効果的に、当該テキストを当該画像へ表示できる可能性がある。
【0005】
本発明は上記課題に鑑みてなされたものであり、画像やテキストが有する特徴に基づいて、当該画像へ表示する当該テキストの表示設定を決定するための技術を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本発明による情報処理装置の一態様は、テキストが有する特徴および画像が有する特徴を検出する特徴検出手段と、検出された前記特徴に基づいて、前記テキストを前記画像に重畳表示する際の、前記画像における前記テキストの表示設定を決定する決定手段と、を有する。
【0007】
上記課題を解決するために、本発明による情報処理方法の一態様は、前記テキストが有する特徴および画像が有する特徴を検出する特徴検出工程と、検出された前記特徴に基づいて、前記テキストを前記画像に重畳表示する際の、前記画像における前記テキストの表示設定を決定する決定工程と、を有する。
【0008】
上記課題を解決するために、本発明によるプログラムの一態様は、情報処理をコンピュータに実行させるための情報処理プログラムであって、該情報処理プログラムは、前記コンピュータに、テキストが有する特徴および画像が有する特徴を検出する特徴検出処理と、検出された前記特徴に基づいて、前記テキストを前記画像に重畳表示する際の、前記画像における前記テキストの表示設定を決定する決定処理と、を含む処理を実行させるためのものである、
【発明の効果】
【0009】
本発明によれば、画像やテキストが有する特徴に基づいて、当該画像へ表示する当該テキストの表示設定を決定することが可能となる。
上記した本発明の目的、態様および効果並びに上記されなかった本発明の目的、態様および効果は、当業者であれば添付図面および請求の範囲の記載を参照することにより下記の発明を実施するための形態から理解できるであろう。
【図面の簡単な説明】
【0010】
【
図1】
図1は、実施形態による情報処理装置10の機能構成例を示す。
【
図2】
図2は、情報処理装置10のハードウェア構成例を示す。
【
図3】
図3は、フォントデザイン決定処理を説明するための概略図である。
【
図4】
図4は、フォントカラー決定処理を説明するための概略図である。
【
図5】
図5は、フォントサイズ決定処理を説明するための概略図である。
【
図6】
図6は、表示位置決定処理を説明するための概略図である。
【
図7】
図7は、表示設定予測モデル115を使用した表示設定予測処理を説明するための概略図である。
【
図9】
図9は、情報処理装置10により実行される処理のフローチャートを示す。
【発明を実施するための形態】
【0011】
以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。以下に開示される構成要素のうち、同一機能を有するものには同一の符号を付し、その説明を省略する。なお、以下に開示される実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正または変更されるべきものであり、本発明は以下の実施形態に限定されるものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。
【0012】
[テキストに対する表示設定決定の手順の概要]
図8を参照して、本実施形態による、テキストに対する表示設定決定の手順の概要について説明する。
図8は、本実施形態による画面表示例を示す図である。
図8において、画像80は、広告対象のアイテムであるホテル81(名前:楽天ホテル)に対する広告、または、ホテル81を宿泊先として含んだ旅行パッケージに対する広告のための画像である。画像80には、ホテル81のロゴマーク82も含まれている。
【0013】
本実施形態では、このような、広告対象のアイテム(
図8ではホテル81に対応)を含む画像80上に、予め設定されたテキスト83を表示する。テキスト83は、アイテムに関連するテキストコンテンツであり、
図8では「TRULY EPIC(真に壮大)」というテキストが使用されている。
図8の例において、テキスト83は、広告のためのテキストやキャッチフレーズ、ホテル81に対する過去の宿泊者によるコメント等、予め設定された、ホテル81に関するテキスト情報であれば、どのような内容であってもよい。テキスト83を画像80上に表示(重畳表示。以下同様)する際、本実施形態では、画像80が有する特徴やテキスト83が有する特徴に基づいて、テキスト83の表示設定を決定する。さらに、本実施形態では、マーケティング戦略的観点および/または審美的観点(視覚的に美しく感じる観点)を考慮し、画像80上のテキスト83の表示設定を決定する。
【0014】
マーケティング戦略の観点のために、例えば、CTR(Click Through Rate)とCVR(Conversion Rate)という、ユーザへの広告効果を測定するための指標が用いられる。CTRは、表示された広告の数に対する、クリックされた数(クリック数)の割合を示す。CVRは、広告のクリック数に対する、獲得できたコンバージョン数の割合を示す。コンバージョンとは、商品購入といった、広告に対して期待される成果結果である。CTRやCVRが高い広告は、広告効果が高いと言える。本実施形態では、高いCTRやCVRを得るように、画像80上のテキスト83の表示設定を決定することを可能にする。
【0015】
一方で、広告計画を立てる場合や、サンプル数が少ない場合等、CTRやCVRを取得することが困難な場合もある。また、CTRやCVRが高くない場合であっても、審美性が高い広告は、ユーザに広く好印象を与え、将来的に、広告が期待する顧客の獲得に繋がりうる。本実施形態では、広告としての美しさといった、審美的観点を考慮し、高い審美的スコアを得るように画像80上のテキスト83の表示設定を決定することを可能にする。審美的スコア(aesthetic score)は、不特定多数のユーザにより検証された広告の美しさやユーザの主観的な好みを反映するスコアであり、例えば、広告を提供する前もしくは提供した後に、不特定多数のユーザに対してアンケートを取った結果により得ることが可能である。
【0016】
本実施形態では、画像80やテキスト83それぞれが有する特徴に基づいたテキスト83の表示設定として、(1)フォントデザイン、(2)フォントカラー、(3)フォントサイズ、および(4)テキスト表示位置(レイアウト)を決定する。
【0017】
フォントデザインは、
図8の例では、テキスト83のフォントデザインであり、例えば、画像80が有する特徴として、ロゴマーク82の特徴に基づいてテキスト83のフォントデザインが決定される。代替的に、または、追加的に、テキスト83が示すコンテキスト等に応じて、テキスト83のフォントデザインが決定されうる。
【0018】
フォントカラーは、
図8の例では、テキスト83のフォントカラーである。例えば、画像80が有する特徴として、ホテル81、背景84、またはロゴマーク82を構成する色彩に基づいて、テキスト83のフォントカラーが決定される。代替的に、または、追加的に、テキスト83が示すコンテキスト等に応じて、テキスト83のフォントカラーが決定されうる。
【0019】
フォントサイズは、
図8の例では、テキスト83のフォントサイズである。例えば、画像80が有する特徴として、ホテル81やロゴマーク82が画像80に占める割合(領域サイズ)に基づいて、フォントサイズが決定される。具体的には、テキスト83のフォントサイズの縦横が、それぞれ、ホテル81の領域サイズの縦横の長さの1/n、1/m(nとmは任意に決定されうる)となるように決定されうる。
【0020】
テキスト表示位置は、
図8の例では、画像80においてテキスト83を配置する位置や領域である。例えば、画像80が有する特徴として、画像80における背景に含まれる空白領域(Empty region)に基づいて、テキスト表示位置が決定される。
図8では、テキスト83が画像80上に表示されていない時点では、領域85と領域86が、空白領域(ホテル81とロゴマーク82が含まれない領域)である。領域85または領域86において、テキスト83の表示位置が決定される。
【0021】
以下では、このような、画像やテキストの特徴に基づいた、当該画像へ表示する当該テキストの表示設定を決定するための装置の構成例、および、具体的な処理手順の例について説明する。
【0022】
[情報処理装置10の機能構成]
本実施形態による情報処理装置10は、画像とテキストのデータを取得し、当該画像および/または当該テキストが固有に有する特徴に基づいて、当該テキストの当該画像上の表示設定として、フォント、カラー、サイズ、表示位置の少なくともいずれかを決定する。本実施形態では、当該特徴は、テキストが有する意味論的特徴(semantic features)、または、画像に含まれる前景オブジェクトが有する視覚的特徴または当該前景オブジェクトが有する印象を含む。
一実施形態では、情報処理装置10は、マーケティング戦略の観点および/または審美的観点を考慮しつつ、当該表示設定を決定する。なお、本実施形態において画像という言葉は、静止画および/または動画を含む意味で解釈されるものとする。
【0023】
図1は、本実施形態による情報処理装置10の機能構成の一例を示すブロック図である。
図1に示す情報処理装置10は、画像データ取得部101、テキストデータ取得部102、コンテキスト抽出部103、前景抽出部104、色彩検出部105、表示設定決定部106、出力部107、学習モデル記憶部110、およびコンテンツ記憶部120を備える。学習モデル記憶部110は、フォントデザイン予測モデル111、フォントカラー予測モデル112、フォントサイズ予測モデル113、表示位置予測モデル114、および表示設定予測モデル115を記憶可能に構成される。また、コンテンツ記憶部120は、デザインコンテンツ121を記憶可能に構成される。以下の説明において、画像データと画像、および、テキストデータとテキストは、それぞれ同じ意味に使用される。
【0024】
画像データ取得部101は、広告対象となるアイテム(アイテムの画像)を含む画像データを取得する。例えば、画像データ取得部101は、通信I/F27(
図2)を介して、外部装置から画像データを取得する。あるいは、画像データ取得部101は、操作者による入力部(
図2の入力部25)における入力操作により画像データを取得してもよいし、記憶部(
図2のROM22やRAM23)に格納されている画像データを取得してもよい。
【0025】
本実施形態において、広告の対象となるアイテムは、種々のサービスで提供されるアイテムである。
例えば、金融(フィンテック)サービスに関しては、銀行口座、株式や投資信託や保険商品といった金融商品、暗号通貨、スマホアプリ決済等のアイテムが存在する。また、デジタルコンテンツサービスに関しては、映画やアニメといった動画コンテンツや、写真やイラストやテキストといった静止画コンテンツ等のアイテムが存在する。また、トラベルサービスに関しては、ホテルやパックツアー等のアイテムが存在する。また、モバイルサービスに関しては、モバイル機器、公衆網/インターネット接続、通信利用料金等のアイテムが存在する。また、カードサービスに関しては、クレジットカード決済やポイント取引等のアイテムが存在する。また、スポーツおよび文化サービスに関しては、スポーツイベントやコンサートといったイベントやイベントで販売される商品等のアイテムが存在する。
【0026】
テキストデータ取得部102は、画像データ取得部101により取得された画像に表示(重畳表示)するテキストデータを取得する。例えば、テキストデータ取得部102は、通信I/F27(
図2)を介して、外部装置から当該テキストデータを取得する。あるいは、テキストデータ取得部102は、操作者による入力部(
図2の入力部25)における入力操作により当該テキストデータを取得してもよいし、記憶部(
図2のROM22やRAM23)に格納されている当該テキストデータを取得してもよい。以下の説明において、画像データ取得部101により取得された画像に表示するテキストデータを、表示テキストとも称する。
【0027】
表示テキストは、画像データに含まれる広告対象のアイテムに関連するテキストである。表示テキストは、広告提供側が予め設定したテキスト(キャッチコピー等)や、ユーザによる利用コメント等、当該アイテムに関するテキスト情報であれば、どのような内容であってもよい。また、表示テキストは複数のテキストを含んでもよい。
【0028】
コンテキスト抽出部103、前景抽出部104、色彩検出部105、および表示設定決定部106は、画像データ取得部101により取得された画像や、テキストデータ取得部102により取得されたテキストが固有に有する特徴を検出または抽出する機能を有する。
【0029】
コンテキスト抽出部103は、テキストデータ取得部102により取得された表示テキストが有する意味論的特徴といった、テキストが有する特徴を抽出する。本実施形態では、コンテキスト抽出部103は、当該表示テキストのコンテキスト(文脈、状況、テキストの背景)を抽出する。コンテキスト抽出部103は、当該コンテキストを、周知のNLP(自然言語処理)によって抽出することができる。
【0030】
また、コンテキスト抽出部103または情報処理装置10が有しうる他のテキスト解析部(不図示)は、当該表示テキストの属性または属性値を推定(取得)してよい。例えば、コンテキスト抽出部103またはテキスト解析部は、当該表示テキストを形態素解析(morphological analysis)することにより、テキスト含まれる1つ以上の語句(形態素)の属性または属性値を推定してよい。また、コンテキスト抽出部103またはテキスト解析部は、当該語句と辞書とのマッチングを行うことにより、当該表示テキストの属性または属性値を決定してよい。また、コンテキスト抽出部103またはテキスト解析部は、当該表示テキストをベクトル表現に変換した上で当該ベクトルを学習済みの機械学習モデルに基づく推定ネットワークに入力することにより、当該表示テキストの属性または属性値を推定してよい。
【0031】
また、コンテキスト抽出部103またはテキスト解析部は、表示テキストと、画像データに含まれる広告対象のアイテムやテキストを取得した際のあらゆる情報(ユーザに関する情報を含む)との関係性から、コンテキストを抽出することができる。また、コンテキスト抽出部103またはテキスト解析部は、当該表示テキストの感情極性値を推定または決定してよい。例えば、コンテキスト抽出部103またはテキスト解析部は、当該表示テキストに関するポジティブおよびネガティブの二軸の感情軸を例とするn軸の感情極性(n>1)における感情極性値を推定してよい。また、コンテキスト抽出部103またはテキスト解析部は、当該語句と辞書のマッチングを行うことにより、感情極性値を決定してよい。また、コンテキスト抽出部103またはテキスト解析部は、当該表示テキストをベクトル表現に変換した上で当該ベクトル表現を学習済みの機械学習モデルに基づく推定ネットワークに入力することにより、感情極性値を推定してよい。
なお、コンテキスト抽出部103またはテキスト解析部により抽出、推定、または決定などを経て検出された各種情報は、表示テキストが有する特徴や広義のコンテキストとして扱うことができる。
【0032】
前景抽出部104は、画像データ取得部101により取得された画像における前景(前景オブジェクト)を抽出する。例えば、前景抽出部104は、周知の画像処理により前景オブジェクトを抽出することができる。あるいは、前景抽出部104は、機械学習モデルにより前景オブジェクトを抽出してもよい。
【0033】
図8の例では、前景抽出部104は、前景オブジェクトとしてホテル81を抽出することができる。また、当該例では、前景抽出部104は、ロゴマーク82も、前景オブジェクトとして抽出することができる。ロゴマークは、広告対象のアイテムに直接的に関連する情報であるため、前景オブジェクトとして抽出し、テキストのデザインを決定するために使用される。また、画像において、広告対象のアイテムが受賞したアワードに関連するマークが含まれる場合、当該マークも前景オブジェクトとして抽出されうる。前景抽出部104は前景オブジェクトのサイズも抽出することができる(視覚的特徴)。ここで、サイズとは、例として、画像中で前景オブジェクトが占める割合を指してよい。
【0034】
前景抽出部104はまた、前景オブジェクトの抽出により、背景における空白領域を抽出することができる。例えば、前景抽出部104は、背景において、前景部分を含まない領域、かつ、所定サイズより大きい領域を、空白領域として抽出することができる。当該空白領域は、
図8の例では、テキスト83が画像80上に表示されていない状態での領域85と領域86に対応する。前景抽出部104は、機械学習モデルにより前景を抽出してもよい。例えば、前景抽出部104は、意味論的理解(semantic understanding)タスクを、機械学習モデルを用いて解くことによって、空白領域を抽出してよい。また、前景抽出部104は、顕著性スコア(saliency score)および審美的スコア(aesthetic score)などの何らかの機械学習モデルが出力しうる画像の評価スコアがマッピングされたヒートマップを用いて、例えばスコアが相対的に低い領域を空白領域として抽出してよい。また、前景抽出部104は、画像に対してクラス活性化マッピング(Class Activation Mapping(CAM))を行うことで前景オブジェクトの検出の根拠に相当するヒートマップを生成し、当該ヒートマップにおいて示されるマッピングされた値(スコア)の相対的な大小に応じて、前景オブジェクト、背景、および空白領域の抽出を行ってよい。また、前景抽出部104は、セマンティックセグメンテーションタスクを解く既知の手法において生成しうるヒートマップに基づいて、前景オブジェクト、背景、および空白領域の抽出を行ってよい。
【0035】
色彩検出部105は、画像データ取得部101により取得された画像において支配的に使用されている色を検出する(視覚的特徴)。本実施形態では、色彩検出部105は、前景抽出部104により抽出された前景オブジェクトや背景において支配的に使用されている色を検出する。色彩検出部105により検出される色は、1つに限定されない。また、色彩検出部105は、画像中の色相、彩度、または明度を検出してよい。また、色彩検出部105は、画像中の前景オブジェクトの色相、彩度、明度、または配色(配色バランスや配色比率に相当)、画像中の背景の色相、彩度、明度、または配色、あるいは、画像中の空白領域の色相、彩度、明度、または配色を検出してよい。また、色彩検出部105は、画像中の前景オブジェクト、背景、および空白領域を含む各領域が、無彩色、または有彩色であるか否かを検出してよい。また、色彩検出部105は、画像中の前景オブジェクト、背景、および空白領域を含む各領域が、蛍光色、構造色、および金属色などの特殊な色彩を模した色彩を呈するか否かを検出してよい。
【0036】
表示設定決定部106は、画像データ取得部101により取得された画像上に表示する、テキストデータ取得部102により取得された表示テキストの表示設定を決定する。具体的には、本実施形態では、表示設定決定部106は、表示設定として、表示テキストに適用するフォントデザイン、フォントカラー、フォントサイズ、および表示テキストの画像上の表示位置(配置位置)、のうちの少なくとも1つを決定する。表示設定決定部106は、以下に説明するように、機械学習モデルを用いて、表示設定を決定することができる。表示設定の決定処理については後述する。
【0037】
出力部107は、表示設定決定部106により決定された表示設定に従って、表示テキストを画像へ表示させた広告コンテンツを作成して出力する。当該出力は、あらゆる出力処理であり得、通信I/F(
図2の通信I/F27)を介した外部装置への出力(配信)であってもよいし、紙媒体への出力であってもよい。
【0038】
学習モデル記憶部110は、学習済みの、フォントデザイン予測モデル111、フォントカラー予測モデル112、フォントサイズ予測モデル113、表示位置予測モデル114、および表示設定予測モデル115を記憶する。フォントデザイン予測モデル111、フォントカラー予測モデル112、フォントサイズ予測モデル113、表示位置予測モデル114、および表示設定予測モデル115については後述する。学習モデル記憶部110は、表示テキストの表示設定の項目のそれぞれについて個別に学習済みのモデルを記憶してよい。各学習モデルは、抽出、推定、または決定などを経て検出された特徴と少なくとも何らかのラベリングが対応付けられた学習データ(教師データ、訓練データ)で適宜、学習処理がされることで構築される。
【0039】
コンテンツ記憶部120は、デザインコンテンツ121を記憶する。デザインコンテンツ121は、表示テキストに適用可能(使用可能)な、複数のフォントデザインやフォントカラーや複数のフォントサイズの情報を含む。デザインコンテンツ121はさらに、フォントデザインや色だけでなくまた、表示テキストに適用可能なあらゆるエフェクトの情報を含みうる。なお、当該エフェクトは、表示テキストの二次元的または三次元的な回転角度を含んでよい。また、当該エフェクトは、太字(ボールド)であるか否か、斜体であるか否か、文字の輪郭に関する強調表現の有無、影(シャドウ)の有無、下線部(アンダーライン)の有無、透明度といった、他の外観的特徴を含んでよい。本実施形態では、表示設定決定部106は、デザインコンテンツ121に含まれる、複数のフォントサイズ、複数のフォントカラー、複数のフォントサイズから、表示テキストに適用するフォントサイズ、フォントカラー、フォントサイズを決定する。
【0040】
[情報処理装置10のハードウェア構成]
図2は、本実施形態による情報処理装置10のハードウェア構成の一例を示すブロック図である。
本実施形態による情報処理装置10は、単一または複数の、あらゆるコンピュータ、モバイルデバイス、または他のいかなる処理プラットフォーム上にも実装することができる。
図2を参照して、情報処理装置10は、単一のコンピュータに実装される例が示されているが、本実施形態による情報処理装置10は、複数のコンピュータを含むコンピュータシステムに実装されてよい。複数のコンピュータは、有線または無線のネットワークにより相互通信可能に接続されてよい。
【0041】
図2に示すように、情報処理装置10は、CPU21と、ROM22と、RAM23と、HDD24と、入力部25と、表示部26と、通信I/F27と、システムバス28とを備えてよい。情報処理装置10はまた、外部メモリを備えてよい。
CPU(Central Processing Unit)21は、情報処理装置10における動作を統括的に制御するものであり、データ伝送路であるシステムバス28を介して、各構成部(22~27)を制御する。
【0042】
ROM(Read Only Memory)22は、CPU21が処理を実行するために必要な制御プログラム等を記憶する不揮発性メモリである。なお、当該プログラムは、HDD(Hard Disk Drive)24、SSD(Solid State Drive)等の不揮発性メモリや着脱可能な記憶媒体(不図示)等の外部メモリに記憶されていてもよい。
RAM(Random Access Memory)23は、揮発性メモリであり、CPU21の主メモリ、ワークエリア等として機能する。すなわち、CPU21は、処理の実行に際してROM22から必要なプログラム等をRAM23にロードし、当該プログラム等を実行することで各種の機能動作を実現する。本実施形態では、学習モデル記憶部110とコンテンツ記憶部120は、RAM23で構成されうる。
【0043】
HDD24は、例えば、CPU21がプログラムを用いた処理を行う際に必要な各種データや各種情報等を記憶している。また、HDD24には、例えば、CPU21がプログラム等を用いた処理を行うことにより得られた各種データや各種情報等が記憶される。
入力部25は、キーボードやマウス等のポインティングデバイスにより構成される。
表示部26は、液晶ディスプレイ(LCD)等のモニターにより構成される。表示部26は、入力部25と組み合わせて構成されることにより、GUI(Graphical User Interface)として機能してもよい。
【0044】
通信I/F27は、情報処理装置10と外部装置との通信を制御するインタフェースである。
通信I/F27は、ネットワークとのインタフェースを提供し、ネットワークを介して、外部装置との通信を実行する。通信I/F27を介して、外部装置との間で各種データや各種パラメータ等が送受信される。本実施形態では、通信I/F27は、イーサネット(登録商標)等の通信規格に準拠する有線LAN(Local Area Network)や専用線を介した通信を実行してよい。ただし、本実施形態で利用可能なネットワークはこれに限定されず、無線ネットワークで構成されてもよい。この無線ネットワークは、Bluetooth(登録商標)、ZigBee(登録商標)、UWB(Ultra Wide Band)等の無線PAN(Personal Area Network)を含む。また、Wi-Fi(Wireless Fidelity)(登録商標)等の無線LAN(Local Area Network)や、WiMAX(登録商標)等の無線MAN(Metropolitan Area Network)を含む。さらに、LTE/3G、4G、5G等の無線WAN(Wide Area Network)を含む。なお、ネットワークは、各機器を相互に通信可能に接続し、通信が可能であればよく、通信の規格、規模、構成は上記に限定されない。
【0045】
図1に示す情報処理装置10の各要素のうち少なくとも一部の機能は、CPU21がプログラムを実行することで実現することができる。ただし、
図1に示す情報処理装置10の各要素のうち少なくとも一部の機能が専用のハードウェアとして動作するようにしてもよい。この場合、専用のハードウェアは、CPU21の制御に基づいて動作する。
【0046】
[フォントデザイン決定処理]
図3を参照して、表示テキストに適用するフォントデザインの決定処理の例について説明する。
図3は、フォントデザイン決定処理を説明するための概略図である。本実施形態では、表示設定決定部106は、学習済みのフォントデザイン予測モデル111を用いて、表示テキストに適用するフォントデザインを決定する。フォントデザイン予測モデル111は、前景抽出部104により抽出された前景オブジェクト、および/または、コンテキスト抽出部103により抽出された表示テキストのコンテキストのうちの少なくとも1つを用いて学習されうる。例えば、フォントデザイン予測モデル111は、当該前景オブジェクトおよび/または当該コンテキストに対して割り当てられた印象に対応するフォントデザインに対する、CTRやCVRの結果、および/または、審美的スコアの結果がラベリングされた学習データを用いて学習される。前景オブジェクトに割り当てられた印象に対応するフォントデザインは、例えば、当該前景オブジェクトがホテル81(および/または、ロゴマーク82)の場合は、任意の情報処理技術またはルールベースで、当該前景オブジェクトに「クラシカル」な印象が割り当てられ(分類され)、当該前景オブジェクトはクラシカルなデザインに分類されるフォントデザインに対応付けられる。コンテキストの場合も同様である。例えば、テキスト83(TRULY EPIC)には「クラシカル」な印象が割り当てられ(分類され)、当該テキストはクラシカルなデザインに分類されるフォントデザインに対応付けられる。
【0047】
学習済みのフォントデザイン予測モデル111は、前景抽出部104により抽出された前景オブジェクトおよび/またはコンテキスト抽出部103により抽出されたテキストのコンテキストを入力として、当該入力を複数の印象のいずれかに分類を(印象を予測する)ように構成される。複数の印象のそれぞれは、異なるフォントデザインに対応し、例えば、クラシカル、ポップ、レトロ等である。さらに、フォントデザイン予測モデル111は、当該分類に従って、最適な(すなわち、高CTRや高CVRを得る、および/または、高審美的スコアを得る)フォントデザイン(フォントデザインを識別する情報)を出力するように構成される。
【0048】
図3において、表示設定決定部106は、フォントデザイン予測モデル111に、前景抽出部104により抽出された前景オブジェクト31(
図8では、例えば、ホテル81とロゴマーク82のうち少なくとも1つ)を入力し、予測されたフォントデザイン33を得ることができる。予測されたフォントデザイン33の種類は、
図3の下部の表34に示すように、フォントデザイン予測モデル111で予測された分類(
図3では、クラシカル、ポップ、レトロ)に対応するフォントデザインとなる。
図8の例では、テキスト83は、「クラシカル」の印象に分類され、表34に従って、フォントデザインが決定されうる。
【0049】
前景オブジェクト31に加えて、または、これに代えて、表示設定決定部106は、フォントデザイン予測モデル111に、コンテキスト抽出部103により抽出された表示テキストのコンテキスト32を入力し、予測されたフォントデザイン33を得てもよい。例えば、表示テキストが「Yummy!(おいしい)」の場合、「ポップ」の印象に分類され、表34に従って、フォントデザインが決定されうる。
表示設定決定部106は、当該予測されたフォントデザイン33を、表示テキストに適用するフォントデザインとして決定することができる。
【0050】
[フォントカラー決定処理]
図4を参照して、フォントカラー決定処理の例について説明する。
図4は、フォントカラー決定処理を説明するための概略図である。本実施形態では、表示設定決定部106は、学習済みのフォントカラー予測モデル112を用いて、表示テキストに適用するフォントカラーを決定する。フォントカラー予測モデル112は、色彩検出部105により検出された前景オブジェクトにおいて支配的に使用されている色、および/または、背景において支配的に使用されている色の少なくとも1つを用いて学習されうる。例えば、フォントカラー予測モデル112は、当該支配的に使用されている色から決定した色に対して、CTRやCVRの結果、および/または、審美的スコアの結果がラベリングされた学習データを用いて学習される。当該支配的に使用されている色から決定された色は、例えば、前景オブジェクトに対して同系統の色であり、背景に対して補色の関係にある色である。
【0051】
学習済みのフォントカラー予測モデル112は、前景オブジェクトや背景において支配的に使用されている色を入力として、最適な(すなわち、高CTRや高CVRを得る、および/または、高審美的スコアを得る)フォントカラー(フォントカラーを識別する情報)を出力するように構成される。フォントカラーは、複数の色で構成されてもよい。
【0052】
図4において、表示設定決定部106は、フォントカラー予測モデル112に、色彩検出部105により検出された前景オブジェクト(
図8の例では、ホテル81とロゴマーク82のうち少なくとも1つ)において支配系な(支配的に使用されている)色41および/または背景(
図8の例では背景84)において支配的な色42を入力する。フォントカラー予測モデル112は、当該入力に対して予測したフォントカラー43を出力し、表示設定決定部106は、当該予測された色を、表示テキストに適用するフォントカラーとして決定することができる。
【0053】
[フォントサイズ決定処理]
図5を参照して、フォントサイズ決定処理について説明する。
図5は、フォントサイズ決定処理を説明するための概略図である。本実施形態では、表示設定決定部106は、学習済みのフォントサイズ予測モデル113を用いて、表示テキストに適用するフォントサイズを決定する。フォントサイズ予測モデル113は、前景抽出部104により抽出された前景オブジェクトのサイズ(領域サイズ)、および/または、コンテキスト抽出部103により抽出された表示テキストのコンテキストのうちの少なくとも1つを用いて学習されうる。例えば、フォントサイズ予測モデル113は、領域サイズから任意のルールにより決定されたサイズや抽出したコンテキストに割り当てられた印象に割り当てられたサイズに対して、CTRやCVRの結果、および/または、審美的スコアの結果がラベリングされた学習データを用いて学習される。当該前景オブジェクトの画像サイズから任意のルールにより決定されたサイズは、例えば、縦が領域サイズの1/m、横が領域サイズの1/n(mとnは任意に設定可能)である。
【0054】
学習済みのフォントサイズ予測モデル113は、前景抽出部104により抽出された前景オブジェクトの領域サイズ、および/または、コンテキスト抽出部103により抽出された表示テキストのコンテキストを入力として、最適な(すなわち、高CTRや高CVRを得る、および/または、高審美的スコアを得る。)フォントサイズ(フォントサイズを識別する情報)を出力するように構成される。フォントサイズは、抽出された前景オブジェクトの慮域サイズに対する相対的なサイズであってもよいし、ポイント(pt)により表されてもよい。フォントサイズは、表示位置によって、適用可能なサイズが限定されうるため、フォントサイズ予測モデル113は、表示位置または空白領域についての条件つきで、フォントサイズが出力されるように構成されてもよい
【0055】
図5において、表示設定決定部106は、フォントサイズ予測モデル113に、前景抽出部104により抽出された前景オブジェクト(
図8の例では、ホテル81とロゴマーク82のうち少なくとも1つ)のサイズ51、および/または、コンテキスト抽出部103により抽出された表示テキストのコンテキスト32を入力し、予測されたフォントサイズ52を得ることができる。表示設定決定部106は、当該予測されたサイズを、表示テキストに適用するフォントサイズとして決定することができる。
【0056】
[表示位置決定処理]
図6を参照して、表示位置決定処理について説明する。
図6は、表示位置決定処理を説明するための概略図である。本実施形態では、表示設定決定部106は、学習済みの表示位置予測モデル114を用いて、表示テキストの表示位置(配置位置)を決定する。表示位置予測モデル114は、前景抽出部104により抽出された空白領域の位置およびコンテキスト抽出部103により抽出された表示テキストのコンテキストに割り当てられた印象を用いて学習されうる。例えば、フォントカラー予測モデル112は、当該空白領域の位置と当該コンテキストに割り当てられた印象に対して、CTRやCVRの結果、および/または、審美的スコアの結果がラベリングされた学習データを用いて学習される。なお、空白領域の位置は、画像において識別可能な空白領域の位置や、当該画像から抽出された前景オブジェクトに対する位置でありうる。また、学習に使用される表示テキストのフォントサイズは任意に決定されうる。
【0057】
学習済みの表示位置予測モデル114は、前景抽出部104により抽出された空白領域の位置およびコンテキスト抽出部103により抽出された表示テキストのコンテキストを入力として、最適な(すなわち、高CTRや高CVRを得る、および/または、高審美的スコアを得る。)表示位置を出力するように構成される。表示位置は、フォントサイズによって、表示可能な位置が変動しうるため、表示位置予測モデル114は、フォントサイズについての条件つきで、表示位置が出力されるように構成されてもよい。表示位置は、画像内での位置が理解可能な情報であればよい。
【0058】
図6において、表示設定決定部106は、表示位置予測モデル114に、前景抽出部104により抽出された1つ以上の空白領域(
図8の例では、領域85、86)の位置61、および、コンテキスト抽出部103により抽出された表示テキストのコンテキスト32を入力し、予測された表示位置62を得ることができる。表示設定決定部106は、当該予測された表示位置を、表示テキストを配置する表示位置として決定することができる。
【0059】
さらに、表示設定決定部106は、表示テキストを表示する画像のアスペクト比(矩形における長辺と短辺の比率)にも基づいて、表示位置を決定してもよい。この場合、学習段階および予測段階において、画像のアスペクト比を用いて学習処理および予測処理が行われ、アスペクト比と前景オブジェクトとの関係を考慮して、適切な表示位置を決定することが可能となる。表示テキストを表示する画像のサイズは、例えば、ウェブ広告の場合は、あらゆる縦と横のサイズが採用されるが、そのような場合であっても、当該サイズに応じた表示位置を決定することができる。
【0060】
本実施形態では、表示設定決定部106は、機械学習モデルを用いて、表示テキストに適用する表示設定(フォントデザイン、フォントサイズ、およびフォントカラー、および表示位置)を決定したが、ルールベースで当該表示設定を決定してもよい。この場合、CTRやCVRの結果、および/または、審美的スコアの結果が考慮されてルールが形成されうる。
【0061】
[表示設定決定処理の変形例]
なお、上記例では、表示設定決定部106は、4つの機械学習モデルを用いて、表示テキストに適用する各デザインと表示位置を決定したが、当該4つの機械学習モデルを1つの機械学習モデルとして構成してもよい。表示設定予測モデル115は、フォントデザイン予測モデル111、フォントカラー予測モデル112、フォントサイズ予測モデル113、表示位置予測モデル114で予測可能な結果を出力するように構成された機械学習モデルである。
図7に、表示設定予測モデル115を使用した表示設定予測処理を説明するための概略図を示す。
【0062】
図7に示すように、表示設定決定部106は、前述した、前景オブジェクト31、表示テキストのコンテキスト32、前景オブジェクトにおける支配的な色41、背景において支配的な色42、前景オブジェクトのサイズ51、空白領域の位置61を入力し、予測された表示設定71を得ることができる。表示設定71には、フォントデザイン、フォントサイズ、およびフォントカラー、および表示位置の少なくとも1つが含まれる表示設定決定部106は、当該予測された表示設定を、表示テキストに適用する表示設定として決定することができる。表示設定予測モデル115を用いることにより、あらゆる種類の入力データを網羅的に考慮して、高CTRやCVR、および/または、高審美的スコアを得ることができるように、表示テキストの表示設定を決定することが可能となる。
【0063】
[処理の流れ]
図9に、本実施形態による情報処理装置10により実行される処理のフローチャートを示す。
図9に示す処理は、情報処理装置10のCPU21がROM22等に格納されたプログラムをRAM23にロードして実行することによって実現されうる。学習済みの、フォントデザイン予測モデル111、フォントカラー予測モデル112、フォントサイズ予測モデル113、表示位置予測モデル114、および表示設定予測モデル115は、学習モデル記憶部110に格納されているものとする。また、
図9の処理の順序は、図示される順序に限定されない。
【0064】
S91において、画像データ取得部101は、画像データ(画像)を取得する。当該画像は、少なくとも1つの広告対象のアイテムを含む。
S92において、テキストデータ取得部102は、テキストデータ(表示テキスト)を取得する。当該表示テキストは、S91で取得された画像に表示することが意図されたテキストであり、例えば、広告対象のアイテムに関するテキスト情報である。
【0065】
S93において、S91で取得された画像および/またはS92で取得された表示テキストが有する特徴を取得する。具体的には、コンテキスト抽出部103は、当該表示テキストのコンテキストを抽出する。また、前景抽出部104は、当該画像から前景オブジェクト、背景、および空白領域を抽出する。また、色彩検出部105は、前景オブジェクトや背景において支配的に使用されている色を検出する。また、表示設定決定部106により、フォントデザイン予測モデル111を用いて予測(分類)される、前景オブジェクトや表示テキストのコンテキストの印象も、当該画像や当該表示テキストの特徴でありうる。
【0066】
S94において、表示設定決定部106は、S91で取得された画像、S92で取得された表示テキスト、および、S93で取得された1つ以上の特徴を用いて、当該画像へ表示する当該表示テキストの表示設定を決定する。当該表示設定の決定処理については、上述した通りである。
S95では、S94で決定された表示設定に従って、出力部107は、S91で取得された画像に、S92で取得された表示テキストを重畳表示して広告コンテンツを生成し、出力する。
【0067】
このように、本実施形態によれば、画像にテキストを表示する際に、画像や表示テキストの特徴を用いて、当該画像へ表示する当該表示テキストの表示設定を決定することが可能となる。また、過去に得られたCTRやCVR、および/または、審美的スコアの結果を用いることにより、よりマーケティング戦略的観点および/または審美的観点上で適した表示設定を決定することが可能となる。さらに、CTRやCVR、および/または、審美的スコアの結果を、異なる属性のユーザセグメントから取得することにより、ユーザセグメント毎に適切な表示設定を決定し、広告コンテンツを作成することができる。
【0068】
なお、本実施形態では、最終成果として広告コンテンツを作成することを例に説明したが、テキストを効果的に画像に重畳表示するあらゆるケースに対して、本実施形態を適用可能である。例えば、YouTube(登録商標)のサムネイル(画像)に対する宣伝コメント(表示テキスト)の表示や、映画ポスター(画像)に対する宣伝コメント(表示コメント)の表示に、本実施形態を適用可能である。
【0069】
なお、上記において特定の実施形態が説明されているが、当該実施形態は単なる例示であり、本発明の範囲を限定する意図はない。本明細書に記載された装置および方法は上記した以外の形態において具現化することができる。また、本発明の範囲から離れることなく、上記した実施形態に対して適宜、省略、置換および変更をなすこともできる。かかる省略、置換および変更をなした形態は、請求の範囲に記載されたものおよびこれらの均等物の範疇に含まれ、本発明の技術的範囲に属する。
【0070】
本実施形態の開示は以下の構成を含む。
[1]テキストが有する特徴および画像が有する特徴を検出する特徴検出手段と、検出された前記特徴に基づいて、前記テキストを前記画像に重畳表示する際の、前記画像における前記テキストの表示設定を決定する決定手段と、を有することを特徴とする情報処理装置。
【0071】
[2]前記特徴は、前記テキストが有する意味論的特徴を含むことを特徴とする[1]に記載の情報処理装置。
【0072】
[3]前記特徴は、前記画像の前景オブジェクトが有する視覚的特徴または前記前景オブジェクトが有する印象を含むことを特徴とする[1]または[2]に記載の情報処理装置。
【0073】
[4]前記特徴は、前記画像の前景オブジェクトにおいて支配的に使用されている色を含むことを特徴とする[1]から[3]のいずれかに記載の情報処理装置。
【0074】
[5]前記特徴は、前記画像の前景オブジェクトのサイズを含むことを特徴とする[1]から[4]のいずれかに記載の情報処理装置。
【0075】
[6]前記特徴は、前記テキストが示すコンテキストを含むことを特徴とする請求項[1]から[5]のいずれかに記載の情報処理装置。
【0076】
[7]前記表示設定は、前記テキストに適用するフォントデザイン、フォントカラー、およびフォントサイズのうち少なくとも1つを含むことを特徴とする[1]から[6]のいずれかに記載の情報処理装置。
【0077】
[8]前記決定手段はさらに、前記画像において前景オブジェクトが存在しない空白領域と前記テキストに基づいて、前記テキストの前記画像における表示位置を、前記表示設定として決定することを特徴とする[1]から[7]のいずれかに記載の情報処理装置。
【0078】
[9]前記決定手段は、機械学習モデルを用いて、前記表示設定を決定することを特徴とする[1]から[8]のいずれかに記載の情報処理装置。
【0079】
[10]前記表示設定に従って、前記テキストを前記画像に表示させたコンテンツを生成する生成手段を更に有すること特徴とする[1]から[9]のいずれかに記載の情報処理装置。
【0080】
[11]テキストが有する特徴および画像が有する特徴を検出する特徴検出工程と、検出された前記特徴に基づいて、前記テキストを前記画像に重畳表示する際の、前記画像における前記テキストの表示設定を決定する決定工程と、を有することを特徴とする情報処理方法。
【0081】
[12]情報処理をコンピュータに実行させるための情報処理プログラムであって、該プログラムは、前記コンピュータに、テキストが有する特徴および画像が有する特徴を検出する特徴検出処理と、検出された前記特徴に基づいて、前記テキストを前記画像に重畳表示する際の、前記画像における前記テキストの表示設定を決定する決定処理と、を含む処理を実行させるためのものである、情報処理プログラム。
【符号の説明】
【0082】
10:情報処理装置、101:画像データ取得部、102:テキストデータ取得部、103:コンテキスト抽出部、104:前景抽出部、105:色彩検出部、106:表示設定決定部、107:出力部、110:学習モデル記憶部、111:フォントサイズ予測モデル、112:フォントカラー予測モデル、113:フォントサイズ予測モデル、114:表示位置予測モデル、115:表示設定予測モデル、120:コンテンツ記憶部、121:デザインコンテンツ
【要約】 (修正有)
【課題】画像やテキストが有する特徴に基づいて、当該画像へ表示する当該テキストの表示設定を決定する情報処理装置、情報処理方法及び情報処理プログラムを提供する。
【解決手段】情報処理装置10は、画像データ取得部101、テキストデータ取得部102、コンテキスト抽出部103、前景抽出部104、色彩検出部105、表示設定決定部106、出力部107、学習モデル記憶部110及びコンテンツ記憶部120を備える。画像データ取得部101は、広告対象となるアイテムの画像を含む画像データを取得する。コンテキスト抽出部103、前景抽出部104、色彩検出部105及び表示設定決定部106は、画像データ取得部101により取得された画像や、テキストデータ取得部102により取得されたテキストが固有に有する特徴を検出または抽出する機能を有する。
【選択図】
図1