IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 楽天株式会社の特許一覧

特許7457157情報処理装置、情報処理方法、およびプログラム
<>
  • 特許-情報処理装置、情報処理方法、およびプログラム 図1
  • 特許-情報処理装置、情報処理方法、およびプログラム 図2
  • 特許-情報処理装置、情報処理方法、およびプログラム 図3
  • 特許-情報処理装置、情報処理方法、およびプログラム 図4
  • 特許-情報処理装置、情報処理方法、およびプログラム 図5
  • 特許-情報処理装置、情報処理方法、およびプログラム 図6
  • 特許-情報処理装置、情報処理方法、およびプログラム 図7
  • 特許-情報処理装置、情報処理方法、およびプログラム 図8
  • 特許-情報処理装置、情報処理方法、およびプログラム 図9
  • 特許-情報処理装置、情報処理方法、およびプログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-18
(45)【発行日】2024-03-27
(54)【発明の名称】情報処理装置、情報処理方法、およびプログラム
(51)【国際特許分類】
   G06Q 30/0251 20230101AFI20240319BHJP
【FI】
G06Q30/0251
【請求項の数】 15
(21)【出願番号】P 2022566386
(86)(22)【出願日】2021-12-21
(86)【国際出願番号】 JP2021047196
(87)【国際公開番号】W WO2023119394
(87)【国際公開日】2023-06-29
【審査請求日】2022-10-31
(73)【特許権者】
【識別番号】399037405
【氏名又は名称】楽天グループ株式会社
(74)【代理人】
【識別番号】100109380
【弁理士】
【氏名又は名称】小西 恵
(74)【代理人】
【識別番号】100109036
【弁理士】
【氏名又は名称】永岡 重幸
(72)【発明者】
【氏名】シュテンガー ビヨン
(72)【発明者】
【氏名】中澤 満
【審査官】牧 裕子
(56)【参考文献】
【文献】特開2020-042317(JP,A)
【文献】特開2012-008765(JP,A)
【文献】特開2007-201741(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00 - 99/00
(57)【特許請求の範囲】
【請求項1】
所定のアイテムに対する複数の画像コンテンツを用いた前記所定のアイテムに関する動画の動画構造を示す複数のスタイルを設定する設定手段と、
前記複数のスタイルのそれぞれに従う動画を、対象のユーザを含む複数のユーザから選択された1以上のユーザに提供する第1の提供手段と、
前記複数のスタイルのそれぞれについて、前記1以上のユーザから広告の効果を示すスコアを取得し、当該スコアに基づいて、前記複数のスタイルのうち、前記対象のユーザに最適なスタイルを推定する推定手段と、
前記推定されたスタイルに従う動画を前記対象のユーザに提供する第2の提供手段と、
前記複数のユーザの属性を取得する取得手段と、
前記複数のユーザの属性のうち前記対象のユーザの属性と類似する属性を有するユーザのグループを生成する生成手段と、
前記ユーザのグループから、前記複数のスタイルのうちの同じスタイルについて、前記対象のユーザから取得された前記スコアと類似する前記スコアが取得された複数のユーザを選択する選択手段と、
を有し、
前記推定手段は、前記複数のスタイルのうち、前記対象のユーザから前記スコアが取得されていないスタイルについての前記スコアを、前記選択された複数のユーザから取得された前記スコアを用いて導出することを特徴とする情報処理装置。
【請求項2】
前記推定手段は、前記対象のユーザに関し、前記複数のスタイルのうち、前記スコアが最高値であるスタイルを、前記最適なスタイルとして推定することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記推定手段は、前記対象のユーザの属性に応じて、前記ユーザのグループのサイズを変更することを特徴とする請求項1または2に記載の情報処理装置。
【請求項4】
前記複数のスタイルのうち1つのスタイルを選択する選択手段をさらに有し、
前記推定手段は、選択されたスタイルにさらに基づいて前記対象のユーザに最適なスタイルを推定することを特徴とする請求項1からのいずれか1項に記載の情報処理装置。
【請求項5】
前記推定手段は、前記複数の画像コンテンツの特徴ベクトルを抽出し、前記複数の画像コンテンツの特徴ベクトルと、選択されたスタイルと、前記対象のユーザの属性とを機械学習モデルに入力することにより、選択されたスタイルについての前記スコアを出力することを特徴とする請求項に記載の情報処理装置。
【請求項6】
前記設定手段は、前記複数のスタイルを前記スコアに応じて更新することを特徴とする請求項1からのいずれか1項に記載の情報処理装置。
【請求項7】
前記複数の画像コンテンツのそれぞれは、静止画または動画で構成されることを特徴とする請求項1からのいずれか1項に記載の情報処理装置。
【請求項8】
前記複数の画像コンテンツのそれぞれは、前記所定のアイテムについてのテキスト情報を含むことを特徴とする請求項1からのいずれか1項に記載の情報処理装置。
【請求項9】
前記複数の画像コンテンツのそれぞれは、前記所定のアイテムに対応するウェブページを構成する画像コンテンツであることを特徴とする請求項1からのいずれか1項に記載の情報処理装置。
【請求項10】
前記複数のスタイルのそれぞれは、複数の設定を組み合わせて個別に構成されることを特徴とする請求項1からのいずれか1項に記載の情報処理装置。
【請求項11】
前記複数の設定は、少なくとも、前記複数の画像コンテンツからの2つ以上の画像コンテンツの選択の設定を含むことを特徴とする請求項10に記載の情報処理装置。
【請求項12】
前記複数の設定は、前記2つ以上の画像コンテンツから構成される動画における再生順序の設定、前記2つ以上の画像コンテンツから構成される動画全体の再生時間長の設定、前記2つ以上の画像コンテンツの1画像コンテンツ当たりの再生時間の設定、前記2つ以上の画像コンテンツ間のトランジションモードの設定、テキスト情報およびグラフィックスの表示の設定、前記2つ以上の画像コンテンツから構成される動画の初期画像および/または最終画像の設定、音楽の設定、アクティブリンクの有無の設定、前記2つ以上の画像コンテンツから構成される動画の表示時の画像アスペクト比、の少なくとも1つを含むことを特徴とする請求項11に記載の情報処理装置。
【請求項13】
前記所定のアイテムは、有形または無形の商品またはサービスであることを特徴とする請求項1から12のいずれか1項に記載の情報処理装置。
【請求項14】
情報処理装置によって実行される情報処理方法であって、
所定のアイテムに対する複数の画像コンテンツを用いた前記所定のアイテムに関する動画の動画構造を示す複数のスタイルを設定する設定工程と、
前記複数のスタイルのそれぞれに従う動画を、対象のユーザを含む複数のユーザから選択された1以上のユーザに提供する第1の提供工程と、
前記複数のスタイルのそれぞれについて、前記1以上のユーザから広告の効果を示すスコアを取得し、当該スコアに基づいて、前記複数のスタイルのうち、前記対象のユーザに最適なスタイルを推定する推定工程と、
前記推定されたスタイルに従う動画を前記対象のユーザに提供する第2の提供工程と、
前記複数のユーザの属性を取得する取得工程と、
前記複数のユーザの属性のうち前記対象のユーザの属性と類似する属性を有するユーザのグループを生成する生成工程と、
前記ユーザのグループから、前記複数のスタイルのうちの同じスタイルについて、前記対象のユーザから取得された前記スコアと類似する前記スコアが取得された複数のユーザを選択する選択工程と、
を含み、
前記推定工程では、前記複数のスタイルのうち、前記対象のユーザから前記スコアが取得されていないスタイルについての前記スコアを、前記選択された複数のユーザから取得された前記スコアを用いて導出することを特徴とする情報処理方法。
【請求項15】
情報処理をコンピュータに実行させるための情報処理プログラムであって、該プログラムは、前記コンピュータに、
所定のアイテムに対する複数の画像コンテンツを用いた前記所定のアイテムに関する動画の動画構造を示す複数のスタイルを設定する設定処理と、
前記複数のスタイルのそれぞれに従う動画を、対象のユーザを含む複数のユーザから選択された1以上のユーザに提供する第1の提供処理と、
前記複数のスタイルのそれぞれについて、前記1以上のユーザから広告の効果を示すスコアを取得し、当該スコアに基づいて、前記複数のスタイルのうち、前記対象のユーザに最適なスタイルを推定する推定処理と、
前記推定されたスタイルに従う動画を前記対象のユーザに提供する第2の提供処理と、
前記複数のユーザの属性を取得する取得処理と、
前記複数のユーザの属性のうち前記対象のユーザの属性と類似する属性を有するユーザのグループを生成する生成処理と、
前記ユーザのグループから、前記複数のスタイルのうちの同じスタイルについて、前記対象のユーザから取得された前記スコアと類似する前記スコアが取得された複数のユーザを選択する選択処理と、
を含む処理を実行させるためのものであ
前記推定処理は、前記複数のスタイルのうち、前記対象のユーザから前記スコアが取得されていないスタイルについての前記スコアを、前記選択された複数のユーザから取得された前記スコアを用いて導出することを含む、情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、広告のための動画を提供するための技術に関する。
【背景技術】
【0002】
近年、ウェブページ上での商品やサービス等のアイテムに係る宣伝広告が広く実施されている。当該宣伝広告は、テキストを含む画像や当該画像のスライドショー形式の動画等で構成され、ユーザの関心を引き付けるための工夫が施されている。
【0003】
特許文献1には、所定のルールに従って選択された複数の画像と、当該ルールに従って作成された作成指示情報とに基づいて、当該複数の画像を用いたスライドショーを作成する手法が記載されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2017-021594号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に記載の手法では、所定のルールに基づいてスライドショーを作成することができるが、当該ルールは予め設定されたものである。よって、当該文献の手法を用いて広告動画を作成する場合には、任意のユーザに最適化された広告コンテンツが作成されず、広告効果を高めることができなかった。
【0006】
本発明は上記課題に鑑みてなされたものであり、任意のユーザに対して広告効果が高い動画を提供するための技術を提供することを目的とする。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明による情報処理装置の一態様は、所定のアイテムに対する複数の画像コンテンツを用いた前記所定のアイテムに関する動画の動画構造を示す複数のスタイルを設定する設定手段と、対象のユーザの属性を取得する取得手段と、前記複数の画像コンテンツと、前記対象のユーザの属性とに基づいて、前記複数のスタイルのうち、前記対象のユーザに最適なスタイルを推定する推定手段と、前記推定されたスタイルに従う動画を前記ユーザに提供する提供手段と、を有する。
【0008】
前記情報処理装置において、前記提供手段は、前記複数のスタイルのそれぞれに従う動画を、前記対象のユーザを含む複数のユーザから選択された1以上のユーザに提供し、前記推定手段は、前記複数のスタイルのそれぞれについて、前記1以上のユーザから広告の効果を示すスコアを取得し、当該スコアに基づいて、前記対象のユーザに最適なスタイルを推定しうる。
【0009】
前記情報処理装置において、前記推定手段は、前記対象のユーザに関し、前記複数のスタイルのうち、前記スコアが最高値であるスタイルを、前記最適なスタイルとして推定しうる。
【0010】
前記情報処理装置において、前記取得手段は、前記複数のユーザの属性を取得し、前記推定手段は、前記複数のスタイルのうち、前記対象のユーザから前記スコアが取得されていないスタイルについての前記スコアを、前記対象のユーザの属性と類似する属性を有するユーザのグループに属する複数のユーザから取得された前記スコアを用いて導出しうる。
【0011】
前記情報処理装置において、前記推定手段は、前記対象のユーザの属性に応じて、前記ユーザのグループのサイズを変更しうる。
【0012】
前記情報処理装置は、前記複数のスタイルのうち1つのスタイルを選択する選択手段をさらに有し、前記推定手段は、選択されたスタイルにさらに基づいて前記対象のユーザに最適なスタイルを推定しうる。
【0013】
前記情報処理装置において、前記推定手段は、前記複数の画像コンテンツの特徴ベクトルを抽出し、前記複数の画像コンテンツの特徴ベクトルと、選択されたスタイルと、前記対象のユーザの属性とを機械学習モデルに入力することにより、選択されたスタイルについての前記スコアを出力しうる。
【0014】
前記情報処理装置において、前記設定手段は、前記複数のスタイルを前記スコアに応じて更新しうる。
【0015】
前記複数の画像コンテンツのそれぞれは、静止画または動画で構成されうる。
【0016】
前記複数の画像コンテンツのそれぞれは、前記所定のアイテムについてのテキスト情報を含みうる。
【0017】
前記複数の画像コンテンツのそれぞれは、前記所定のアイテムに対応するウェブページを構成する画像コンテンツでありうる。
【0018】
前記複数のスタイルのそれぞれは、複数の設定を組み合わせて個別に構成されうる。
【0019】
前記複数の設定は、少なくとも、前記複数の画像コンテンツからの2つ以上の画像コンテンツの選択の設定を含みうる。
【0020】
前記複数の設定は、前記2つ以上の画像コンテンツから構成される動画における再生順序の設定、前記2つ以上の画像コンテンツから構成される動画全体の再生時間長の設定、前記2つ以上の画像コンテンツの1画像コンテンツ当たりの再生時間の設定、前記2つ以上の画像コンテンツ間のトランジションモードの設定、テキスト情報およびグラフィックスの表示の設定、前記2つ以上の画像コンテンツから構成される動画の初期画像および/または最終画像の設定、音楽の設定、アクティブリンクの有無の設定、前記2つ以上の画像コンテンツから構成される動画の表示時の画像アスペクト比、の少なくとも1つを含みうる。
【0021】
前記所定のアイテムは、有形または無形の商品またはサービスでありうる。
【0022】
上記課題を解決するために、本発明による情報処理方法の一態様は、所定のアイテムに対する複数の画像コンテンツを用いた前記所定のアイテムに関する動画の動画構造を示す複数のスタイルを設定する設定工程と、対象のユーザの属性を取得する取得工程と、前記複数の画像コンテンツと、前記対象のユーザの属性とに基づいて、前記複数のスタイルのうち、前記対象のユーザに最適なスタイルを推定する推定工程と、前記推定されたスタイルに従う動画を前記ユーザに提供する提供工程と、を含む。
【0023】
上記課題を解決するために、本発明による情報処理プログラムの一態様は、情報処理をコンピュータに実行させるための情報処理プログラムであって、該プログラムは、前記コンピュータに、所定のアイテムに対する複数の画像コンテンツを用いた前記所定のアイテムに関する動画の動画構造を示す複数のスタイルを設定する設定処理と、対象のユーザの属性を取得する取得処理と、前記複数の画像コンテンツと、前記対象のユーザの属性とに基づいて、前記複数のスタイルのうち、前記対象のユーザに最適なスタイルを推定する推定処理と、前記推定されたスタイルに従う動画を前記ユーザに提供する提供処理と、を含む処理を実行させるためのものである。
【発明の効果】
【0024】
本発明によれば、任意のユーザに対して広告効果が高い動画を生成することが可能となる。
【図面の簡単な説明】
【0025】
図1図1は、情報処理システムの構成例を示す。
図2図2は、第1実施形態による情報処理装置10の機能構成例を示す。
図3図3は、動画情報記憶部110に格納されているデータ例を示す。
図4図4は、広告動画の再生の概念図を示す。
図5図5は、情報処理装置10とユーザ装置11のハードウェア構成例を示す。
図6図6は、情報処理装置10により実行される処理のフローチャートを示す。
図7図7は、スコア表の例を示す。
図8図8は、第2実施形態による情報処理装置10の機能構成例を示す。
図9図9は、学習部108の構成例を示す。
図10図10は、アスペクト比が異なる画像コンテンツの例を示す。
【発明を実施するための形態】
【0026】
以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。以下に開示される構成要素のうち、同一機能を有するものには同一の符号を付し、その説明を省略する。なお、以下に開示される実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正または変更されるべきものであり、本発明は以下の実施形態に限定されるものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。
【0027】
<第1実施形態>
[情報処理システムの構成]
図1に、本実施形態による情報処理システムの構成例を示す。本情報処理システムは、その一例として、図1に示すように、情報処理装置10と、任意の複数のユーザ1~Nにより使用される複数のユーザ装置11-1~11-N(N>1)とを含んで構成される。なお、以下の説明において、特に説明がない限り、ユーザ装置11-1~11-Nをユーザ装置11と総称しうる。また、以下の説明において、ユーザ装置とユーザという語は同義に使用されうる。
【0028】
ユーザ装置11は、例えば、スマートフォンやタブレットといったデバイスであり、LTE(Long Term Evolution)等の公衆網や、無線LAN(Local Area Network)等の無線通信網を介して、情報処理装置10と通信可能に構成されている。ユーザ装置11は、液晶ディスプレイ等の表示部(表示面)を有し、ユーザ1~Nは、当該液晶ディスプレイに装備されたGUI(Graphic User Interface)により各種操作を行うことができる。当該操作は、指やスタイラス等によりタップ操作、スライド操作、スクロール操作等、画面に表示された画像等のコンテンツに対する各種の操作を含む。
なお、ユーザ装置11は、図1に示すような形態のデバイスに限らず、デスクトップ型のPC(Personal Computer)や、ノート型のPCといったデバイスであってもよい。その場合、ユーザ1~Nによる操作は、マウスやキーボードといった入力装置を用いて行われうる。また、ユーザ装置11は、表示面を別に備えてもよい。
【0029】
情報処理装置10は、ユーザ装置11-1~11-Nに対して、有形または無形の商品やサービス(例えば、旅行商品)等のアイテムに関する広告動画を提供(配信)し、ユーザ装置11-1~11-Nのそれぞれは、受信した当該広告動画をユーザ装置11-1~11-Nの表示部(図5の表示部56に対応)に表示させる。ここで、無形の商品は、例えばデジタルコンテンツを含む。情報処理装置10は、ユーザ装置11-1~11-Nに提供した広告動画の広告の効果を示す指標(以下、効果指標と称する)を受け付け、当該効果指標に基づいたスコア(広告動画の広告の効果を示す値)を取得する。そして、情報処理装置10は、取得したスコアに基づいて、ユーザ1~Nのうちの任意のユーザに適した広告動画を生成し、当該任意のユーザのユーザ装置に提供する。効果指標とスコアの例については後述する。
【0030】
[情報処理装置10の機能構成]
本実施形態による情報処理装置10は、複数の動画構造スタイル((Composition Style)以下、構造スタイル、スタイルとも称しうる)を設定し、当該複数のスタイルから選択したスタイルに従って、広告動画を生成してユーザ装置11-1~11-Nの少なくともいずれか1以上の装置に提供(配信)する。すなわち、情報処理装置10は、複数の異なるスタイルに従って、複数の広告動画を生成し、当該複数の広告動画のそれぞれを、ユーザ装置11-1~11-Nの全てではなく、少なくとも一部の装置に対して提供する。当該提供後、情報処理装置10は、ユーザ装置11-1~11-Nから受信した効果指標(広告の効果を測定するための指標)から、当該動画に関するスコアを取得する。情報処理装置10は、当該スコアと各ユーザの属性に基づいて、任意のユーザに対して最適な広告動画を生成して、当該任意のユーザのユーザ装置に提供する。
【0031】
本実施形態による情報処理装置10の機能構成の一例を図2に示す。本実施形態による情報処理装置10は、その機能構成の一例として、スタイル設定部101、スタイル決定部102、動画生成部103、提供部104、スコア取得部105、属性取得部106、推定部107、および動画情報記憶部110を備える。動画情報記憶部110には、画像コンテンツ群111、音楽コンテンツ群112、動画構造スタイル群113、補助的コンテンツ群114が格納されている。
【0032】
画像コンテンツ群111には、広告動画に使用することができる複数の画像コンテンツが含まれる。なお、本明細書において、画像(画像コンテンツ)という言葉は、静止画および/または動画を含む意味で解釈されるものとする。
音楽コンテンツ群112には、生成された広告動画の再生とともに再生することができる複数の音楽コンテンツが含まれる。当該音楽コンテンツは、例えば、MP3、AACといった音楽ファイルの形式で、音楽コンテンツ群112に格納されうる。
動画構造スタイル群113には、広告動画を生成するための複数のスタイルが含まれる。本実施形態では、動画構造スタイル群113には、少なくとも、所定の1つのアイテム(有形または無形の商品やサービス)に関する広告動画を生成するための複数のスタイルが含まれているものとする。各スタイルは、複数の設定を組み合わせて個別に構成される。スタイルの一例については後述する。本実施形態では、動画構造スタイル群113に含まれる複数のスタイルから決定(選択)された1つのスタイルに従って、広告動画が生成される。
補助的コンテンツ群114には、生成された広告動画の再生とともに表示することができる複数のテキスト情報およびグラフィックスや、シンボル等を補助的コンテンツとして含む。
【0033】
スタイル設定部101は、画像コンテンツ群111に含まれる複数の画像コンテンツ、音楽コンテンツ群112に含まれる複数の音楽コンテンツ、補助的コンテンツ群114に含まれる複数の補助的コンテンツの少なくともいずれかを用いて、複数のスタイルを設定(生成)する。設定された複数のスタイルは、動画構造スタイル群113に格納される。スタイルの例については後述する。
【0034】
スタイル決定部102は、動画構造スタイル群113に含まれる複数のスタイルのうち、どのスタイルに従って広告動画を生成するかを決定する。すなわち、スタイル決定部102は、広告動画を生成するために用いるスタイルを、動画構造スタイル群113から選択する。当該決定は、情報処理装置10の操作者によって行われてもよいし、予め情報処理装置10に設定されたシナリオ等に従って行われてもよい。スタイル決定部102は、選択したスタイルの情報を動画生成部103に出力する。
【0035】
動画生成部103は、スタイル決定部102によって選択されたスタイルに従って、広告動画を生成する。広告動画は、当該選択されたスタイルに従って、動画情報記憶部110に記憶されている各種情報を用いて生成される。
【0036】
提供部104は、動画生成部103により生成された広告動画を、ユーザ装置11-1~11-Nの少なくともいずれかに提供(配信)する。本実施形態では、スタイル決定部102は、動画構造スタイル群113から順次異なるスタイルを選択し、これに応じて、動画生成部103は、順次異なる広告動画を生成し、提供部104は、当該広告動画を、ユーザ装置11-1~11-Nの少なくともいずれかに提供する。当該広告動画を受信したユーザ装置11は、当該広告動画を表示部に表示させる。
【0037】
スコア取得部105は、提供部104により提供された複数の異なる広告動画に関する、広告の効果を示す指標(効果指標)を受信し、当該効果指標に応じたスコアを取得する。当該取得は、算出処理も含まれうる。ここで、算出処理とは、ルールベースでスコアを一意的に求める処理であってよく、機械学習モデル等の何らかのモデルによりスコアを推定する処理であってよく、その態様に制限はない。
【0038】
ここで、効果指標およびスコアの一例について説明する。効果指標は、広告動画に関する広告の効果を示す指標であり、ユーザに対する広告の効果を示す指標であり、例えばCVR(Conversion Rate)やCTR(Click Through Rate)が使用される。CVRは、広告のリンク(動作中のリンク)をクリック(選択)した数のうち、何割がコンバージョン(商品購入や資料請求といった最終成果)に至ったかの割合を示す指標である。また、CTRは、広告が表示されたユーザのうちクリックした割合を示す指標である。なお、動作中のリンクは、選択およびクリックすることにより所定のURL(Uniform Resource Locator)に対応するサイトへ移動する場所であり、以下、アクティブリンクとも称する。ここで、アクティブリンクとは、上記所定のURLと対応するオブジェクトを指してもよい。
【0039】
本実施形態において、アクティブリンクは、ユーザ装置11において再生された広告動画または当該動画の近傍に表示されうる。効果指標としてCVRを使用する場合は、CVRは、ユーザ装置11のユーザが当該アクティブリンクをクリックした数のうち、アクティブリンクのクリックを介して、対象のアイテムを購入する数の割合により導出される。効果指標としてCVRが使用される場合、スコア取得部105は当該CVRをそのままスコアとして用いることができる。
【0040】
また、効果指標は、ユーザ装置11において再生された広告動画に対する、ユーザの視聴時間に基づく指標であってもよい。情報処理装置10側で視聴時間の情報を取得することが難しい場合、視聴時間を、ユーザ装置11において再生される広告動画の表示時間で近似してもよい。ユーザ装置11の表示部には、広告動画以外のあらゆる情報も表示されうるが、広告動画が表示される画面が表示部に表示されていた時間を、視聴時間と近似することは合理的な手法である。効果指標として視聴時間が使用される場合、スコア取得部10は、とりうる最大の広告動画の動画長以下の所定の最大時間を設定し、当該最大時間に対する視聴時間(表示時間)の割合を、スコアとして算出することができる。
【0041】
属性取得部106は、ユーザ装置11-1~11-Nのユーザ1~Nのそれぞれの属性(属性を表す情報)を取得する。属性(ユーザの属性)とは、性別、年齢、年収、学歴、居住地といった人口統計学的属性(デモグラフィック属性)や、趣味、趣向といった心理学的属性(サイコグラフィック属性)や、過去のインターネットでの検索履歴、閲覧履歴、購買履歴といった行動学的属性(ビヘイビオラル属性)や、特定のアプリケーションによる登録情報等の少なくとも一部を示す。
【0042】
推定部107は、スコア取得部105により取得されたスコアと、属性取得部106により取得された各ユーザの属性に基づき、任意のユーザに最適なスタイルを推定する。推定部107による処理については後述する。
【0043】
次に、動画情報記憶部110における画像コンテンツ群111、音楽コンテンツ群112、動画構造スタイル群113に格納されているデータについて、図3を参照して説明する。
【0044】
図3(a)は、画像コンテンツ群111に含まれる複数の画像コンテンツの例を表す。本実施形態では、所定の1つのアイテムに関する広告動画を生成することを想定し、画像コンテンツ群111には当該所定のアイテムに関連する複数の画像コンテンツが含まれる。例えば、アイテムが旅行商品の場合は、画像コンテンツ群111には、景色の画像、ホテルの外観や内装の画像、ホテルで提供される食事等の画像コンテンツが含まれる。
【0045】
図3(a)では、画像コンテンツ群111がm(>1)個の画像コンテンツ(“img”)を含み、各画像コンテンツを“#1”~“#m”で識別する例を表している。前述のように、各画像コンテンツは、静止画および/または動画を含むことができるものとする。また、各画像コンテンツは、テキスト情報を含みうる。画像コンテンツは、JPEG、BMP、GIF、MPEG4等、任意のデータ形式でありうる。
【0046】
本実施形態において、画像コンテンツ群111における各画像コンテンツは、所定の物体検出モデルにより検出された物体に係る情報と対応付けられてよい。ここで、当該物体とは、例として、人物、動物、植物、飲食物、構造物、景観といった種々の種別の物体を指す。また、当該各画像コンテンツは、色調パラメータ等の画像編集パラメータが対応付けられてよい。また、当該各画像コンテンツは、審美性評価モデル等により行われる評価の結果である審美性スコア等の画像評価スコアが対応付けられていてよい。
【0047】
本実施形態において、画像コンテンツ群111として各画像コンテンツは、前述の所定の1つのアイテムに対応する1以上のウェブページを構成する画像コンテンツであってよい。つまり、本実施形態において生成される広告動画とは、例として、アイテムのウェブページを構成するコンテンツを素材とする広告動画に相当する。当該アイテムがホテル等の宿泊施設に係る宿泊サービスである場合、当該ウェブページを構成する画像コンテンツは、当該宿泊施設の内観または外観を示す画像コンテンツであってよく、当該宿泊サービスにおいて提供される飲食物を示す画像コンテンツであってよく、当該宿泊サービスに関連する景観を示す画像コンテンツであってよい。本実施形態における画像コンテンツ群111は、HTML(HyperText Markup Language)等のマークアップ言語に基づき記述され構造化されたウェブページから抽出された画像コンテンツを含んでよく、ウェブページのスクリーンショット等から切り抜かれた画像コンテンツを含んでよく、その態様に制限はない。ここで、画像コンテンツが含みうるテキスト情報とは、例として、画像コンテンツを含む当該ウェブページに記載等されているテキスト情報を指す。本実施形態において、画像コンテンツ群111は、当該アイテムに係るウェブページに固有な複数の画像コンテンツにより構成されてよく、値段、場所、カテゴリ等の何らかのアイテム属性が共通する異なる2以上のアイテムに係る複数のコンテンツにより構成されてもよい。ここで、画像コンテンツ群111は、アイテムおよび/またはアイテム属性に対応付けられてよい。
【0048】
図3(b)は、音楽コンテンツ群112に含まれる複数の音楽コンテンツの例を表す。図3(b)では、音楽コンテンツ群112がn(>1)個の音楽コンテンツ(“msc”)を含み、各音楽コンテンツを“#1”~“#n”で識別する例を表している。なお、他の実施形態では、音楽コンテンツ群112は1つのみの音楽コンテンツを含むように構成されてもよい。前述のように、音楽コンテンツは、MP3、AACといった音楽ファイルの形式でありうる。本実施形態において、音楽コンテンツ群112は、画像コンテンツ群111と同様、アイテムに係るウェブページを構成する画像コンテンツであってよいし、当該アイテムのウェブページとの対応関係をもたない複数の音楽コンテンツであってよい。
【0049】
図3(c)は、動画構造スタイル群113に含まれるスタイルの例を表す。本実施形態では、各スタイルは、スタイル設定部101により設定される。なお、各スタイルは、予め情報処理装置10に設定されていてもよい。
本実施形態によるスタイルは、一例として、以下の(1)~(9)の設定を含む。各スタイルは、これらの設定の2つ以上を組み合わせて個別に構成される。
【0050】
(1)画像選択
本設定は、画像コンテンツ群111に含まれる複数の画像コンテンツのうち、生成する広告動画を構成する2つ以上の画像コンテンツを選択するための設定である。具体的には、2つ以上の画像コンテンツを識別する情報が選択される。
第1スタイルの例では、図3(a)を参照して、“img#1”、“img#3”、“img#4”が設定されている。
【0051】
本実施形態は、スタイルにおける画像選択として、特定の画像コンテンツの組み合わせを例示しているが、所定の傾向の画像コンテンツの組み合わせを画像コンテンツ群111の中から指定するような当該画像選択としてもよい。例として、当該画像選択は、特定の物体を示すような画像コンテンツを指定する画像選択であってよい。具体的には、当該画像選択は、人物、動物、植物、飲食物、構造物、景観といった種々の種別のうち1以上の特定の種別の物体を示す画像コンテンツを指定する画像選択であってよい。さらに、具体的には、当該画像選択は、飲食物である物体を示す画像コンテンツを指定する場合において、日本料理等の特定の飲食物を示す画像コンテンツを指定してよい。ここで、当該画像選択における指定の対象となる、画像コンテンツ中の物体に係る分類の細密度に制限はない。また、例として、当該画像選択は、特定の画像編集パラメータを示す画像コンテンツを指定する画像選択であってよい。具体的には、当該画像選択は、所定範囲の色調パラメータ、濃淡パラメータ、露出パラメータ、明暗差(コントラスト)パラメータ等の画像編集パラメータを示す画像コンテンツを指定する画像選択であってよい。また、例として、当該画像選択は、画像コンテンツを評価するための機械学習モデルにより出力される画像評価スコアが高い画像コンテンツを指定する画像選択であってよい。具体的には、当該画像選択は、審美性スコアや顕著性スコアなどの画像評価スコアが所定のしきい値を超過するような画像コンテンツを指定する画像選択であってよい。なお、所定の傾向の画像コンテンツとして複数の画像コンテンツが候補となる場合、当該画像選択は、これら種々の傾向のうち複数の傾向を組み合わせて所定の画像コンテンツを指定してよい。具体的には、例として、当該画像選択は、特定の種別の物体を示す複数の画像コンテンツが候補となる場合、審美性スコア等の何らかの画像評価スコアが高い画像コンテンツを指定してよい。なお、当該画像選択は、互いの画像類似性スコアが最も低くなる複数の画像コンテンツの組み合わせを指定してよい。ここで、画像類似性スコアは、機械学習モデルによる2の画像コンテンツに係る画像類似性評価の結果であってよく、ルールベース処理による当該画像類似性評価の結果であってよい。
【0052】
(2)画像順序
本設定は、(1)の設定において選択された2つ以上の画像コンテンツから構成される広告動画における、当該2つ以上の画像コンテンツの再生順序の設定である。
第1スタイルの例では、本設定に“img#1”、“img#4”、“img#3”の順序が設定されている。
【0053】
本実施形態において、スタイルにおける画像順序として、特定の複数の画像コンテンツの順序を例示しているが、前述の傾向に基づいた順序を指定するものであってもよい。
【0054】
(3)目標動画長
本設定は、(1)の設定において選択された2つ以上の画像コンテンツから構成される広告動画全体の再生時間長の設定である。
第1スタイルの例では、本設定に「30sec(秒)」が設定されている。
【0055】
(4)1画像コンテンツ当たりの目標時間
本設定は、(1)の設定において選択された2つ以上の画像コンテンツのそれぞれに対して設定される再生時間の設定である。
第1スタイルの例では、本設定に「10sec」が設定されている。第1スタイルの例では、再生する各画像コンテンツに対して等しい再生時間(3つの画像コンテンツに対して30sec)が設定されているが、異なる再生時間が設定されてもよい。
【0056】
(5)画像コンテンツ間のトランジションモード
本設定は、(1)の設定において選択された2つ以上の画像コンテンツの再生(表示)の切り替え時のエフェクトの設定である。当該トランジションモードには、例えば、ブレンドモード(前後の画像の色合いを所定の手法で合成する(フェード、ディゾルブとも称される))、ブラックアウト(暗転)モード、ホワイトアウトモード、ワイプ(拭き取られるように画像が切り替わる)モード等が存在する。
第1スタイルの例では、本設定に「ブレンドモード」が設定されている。
【0057】
(6)関連テキストおよび/またはグラフィックスの表示
本設定は、(1)の設定において選択された2つ以上の画像コンテンツから構成される広告動画の再生時に併せて表示する、アイテムに関連するテキスト情報および/またはグラフィックスの表示の設定である。当該関連テキスト情報および/またはグラフィックスは、画像コンテンツに含まれるテキスト情報(例えば、アイテム情報)とは異なり、例えば、対象アイテムに関連して受賞したアワードのロゴマークを表す画像情報等である。当該関連テキスト情報およびグラフィックスは、画像コンテンツとして画像コンテンツ群111に含まれうる。本設定では、「無」あるいは「有」が設定される。本設定が「有」の場合、画像コンテンツ群111における画像コンテンツを識別する情報が併せて設定されうる。
第1スタイルの例では、本設定に「無」が設定されている。
【0058】
(7)広告動画の初期画像および/または最終画像の設定
本設定は、(1)の設定において選択された2つ以上の画像コンテンツから構成される広告動画の初期画像(いわゆる、イントロ、オープニング)および/または最終画像(いわゆる、アウトロ、エンディング)の設定である。例えば、初期画像は、広告動画の概要を表すための画像でありうる。また、最終画像は、広告動画の終了を表すための画像でありうる。初期画像や最終画像は、静止画であってもよいし、動画であってもよい。また、初期画像や最終画像は、生成される広告動画と同じまたは異なる音楽と共に再生されるように構成されてもよい。本設定では、「無」あるいは「有」が設定される。本設定が「有」の場合、画像コンテンツ群111における画像コンテンツを識別する情報が併せて設定されうる。また、本設定が「有」の場合、音楽コンテンツ群112における音楽コンテンツを識別する情報も設定されうる。
第1スタイルの例では、本設定に「無」が設定されている。
【0059】
(8)音楽の選択
本設定は、(1)の設定において選択された2つ以上の画像コンテンツから構成される広告動画に伴って再生される、音楽コンテンツ群112に含まれるいずれかの音楽コンテンツ(楽曲)を選択するための設定である。具体的には、音楽コンテンツの識別情報が選択される。広告動画の再生中に楽曲を切り替えることも可能であり、複数の識別情報が選択されてもよい。その場合、各楽曲の再生時間も併せて設定されうる。
第1スタイルの例では、図3(a)を参照して、“msc#1”が設定されている。
【0060】
(9)広告動画におけるアクティブリンクの有無
本設定は、(1)の設定において選択された2つ以上の画像コンテンツから構成される広告動画の再生中に表示されるアクティブリンクの設定である。当該アクティブリンクは、広告動画が再生される枠の中に表示されてもよいし、当該枠の外に表示されてもよい。また、当該アクティブリンクは、再生中の全時間にわたって表示されてもよいし、特定のタイミングで表示されてもよい。当該アクティブリンクは、広告の対象である、有形または無形の商品やサービスを購入(契約)または購入に関連するためのサイトへのリンクでありうる。本設定では、「無」あるいは「有」が設定される。本設定が「有」の場合、対象のアイテムのための所定のアクティブリンクが併せて設定される。さらに、アクティブリンクを表示するタイミング(再生時間におけるタイミングや画像コンテンツを識別する情報)も設定されうる。アクティブリンクを表示するタイミングが設定されない場合は、再生中の全時間にわたってアクティブリンクが表示されうる。
第1スタイルの例では、「有」および対象のアイテムのための所定のリンクが設定されている。また、当該リンクを表示するタイミングとして画像コンテンツの情報“img#3”が設定されている。
【0061】
スタイル決定部102により、図3(c)に示す第1スタイルが選択された場合の、動画生成部103により生成される広告動画の再生の概念図を図4に示す。
図3(c)の第1シナリオを参照し、画像コンテンツはimg#1”、“img#4”、“img#3”の順序で再生され、音楽コンテンツ“msc#1”も再生される。各画像コンテンツの再生時間は10secであり、広告動画全体の再生時間は30secである。また、広告動画は、画像コンテンツ間がブレンドモードで切り替わるように構成される。また、広告動画は、画像コンテンツ“img#3”の再生時に、対象のアイテムのためのアクティブリンクが表示されるように構成される。なお、アクティブリンクは、図4に示すような、文字列で表示される形態に限らず、“img#3”の画像範囲の任意の部分をユーザが選択することにより、当該リンクが示すリンク先に移動するように構成されてもよい。
【0062】
[情報処理装置10のハードウェア構成]
図5は、本実施形態による情報処理装置10のハードウェア構成の一例を示すブロック図である。
本実施形態による情報処理装置10は、単一または複数の、あらゆるコンピュータ、モバイルデバイス、または他のいかなる処理プラットフォーム上にも実装することができる。
図5を参照して、情報処理装置10は、単一のコンピュータに実装される例が示されているが、本実施形態による情報処理装置10は、複数のコンピュータを含むコンピュータシステムに実装されてよい。複数のコンピュータは、有線または無線のネットワークにより相互通信可能に接続されてよい。
【0063】
図5に示すように、情報処理装置10は、CPU51と、ROM52と、RAM53と、HDD54と、入力部55と、表示部56と、通信I/F57と、システムバス58とを備えてよい。情報処理装置10はまた、外部メモリを備えてよい。
CPU(Central Processing Unit)51は、情報処理装置10における動作を統括的に制御するものであり、データ伝送路であるシステムバス58を介して、各構成部(52~57)を制御する。
【0064】
ROM(Read Only Memory)52は、CPU51が処理を実行するために必要な制御プログラム等を記憶する不揮発性メモリである。なお、当該プログラムは、HDD(Hard Disk Drive)54、SSD(Solid State Drive)等の不揮発性メモリや着脱可能な記憶媒体(不図示)等の外部メモリに記憶されていてもよい。
RAM(Random Access Memory)53は、揮発性メモリであり、CPU51の主メモリ、ワークエリア等として機能する。すなわち、CPU51は、処理の実行に際してROM52から必要なプログラム等をRAM53にロードし、当該プログラム等を実行することで各種の機能動作を実現する。ROM52またはRAM53は、図に示す動画情報記憶部110を含みうる。
【0065】
HDD54は、例えば、CPU51がプログラムを用いた処理を行う際に必要な各種データや各種情報等を記憶している。また、HDD54には、例えば、CPU51がプログラム等を用いた処理を行うことにより得られた各種データや各種情報等が記憶される。
入力部55は、キーボードやマウス等のポインティングデバイスにより構成される。
表示部56は、液晶ディスプレイ(LCD)等のモニターにより構成される。表示部56は、入力部55と組み合わせて構成されることにより、GUI(Graphical User Interface)として機能してもよい。
【0066】
通信I/F57は、情報処理装置10と外部装置との通信を制御するインタフェースである。
通信I/F57は、ネットワークとのインタフェースを提供し、ネットワークを介して、外部装置との通信を実行する。通信I/F57を介して、外部装置との間で各種データや各種パラメータ等が送受信される。本実施形態では、通信I/F57は、イーサネット(登録商標)等の通信規格に準拠する有線LAN(Local Area Network)や専用線を介した通信を実行してよい。ただし、本実施形態で利用可能なネットワークはこれに限定されず、無線ネットワークで構成されてもよい。この無線ネットワークは、Bluetooth(登録商標)、ZigBee(登録商標)、UWB(Ultra Wide Band)等の無線PAN(Personal Area Network)を含む。また、Wi-Fi(Wireless Fidelity)(登録商標)等の無線LAN(Local Area Network)や、WiMAX(登録商標)等の無線MAN(Metropolitan Area Network)を含む。さらに、LTE、3G、4G、5G等の無線WAN(Wide Area Network)を含む。なお、ネットワークは、各機器を相互に通信可能に接続し、通信が可能であればよく、通信の規格、規模、構成は上記に限定されない。
【0067】
図5に示す情報処理装置10の各要素のうち少なくとも一部の機能は、CPU51がプログラムを実行することで実現することができる。ただし、図5に示す情報処理装置10の各要素のうち少なくとも一部の機能が専用のハードウェアとして動作するようにしてもよい。この場合、専用のハードウェアは、CPU51の制御に基づいて動作する。
【0068】
[ユーザ装置11のハードウェア構成]
図1に示すユーザ装置11のハードウェア構成は、図5と同様でありうる。すなわち、ユーザ装置11は、CPU51と、ROM52と、RAM53と、HDD54と、入力部55と、表示部56と、通信I/F57と、システムバス58とを備えうる。ユーザ装置11は、情報処理装置10により提供された各種情報を、表示部56に表示し、GUI(入力部55と表示部56による構成)を介してユーザ1から受け付ける入力操作に対応する処理を行うことができる。
【0069】
[処理の流れ]
図6に、本実施形態による情報処理装置10により実行される処理のフローチャートを示す。図6に示す処理は、情報処理装置10のCPU51がROM52等に格納されたプログラムをRAM53にロードして実行することによって実現されうる。
【0070】
S601で、スタイル設定部101は、画像コンテンツ群111に含まれる複数の画像コンテンツおよびその傾向、音楽コンテンツ群112に含まれる複数の音楽コンテンツ、補助的コンテンツ群114に含まれる複数の補助的コンテンツの少なくともいずれかを用いて、複数のスタイルを設定(生成)する。スタイルの例としての第1スタイルと第2スタイルは、図3(c)に示した通りである。スタイル設定部101は、複数のスタイルを、当該複数のスタイルを、動画構造スタイル群113に格納する。スタイル設定部101は、例えば、情報処理装置10の操作者による設定や、予め情報処理装置10に設定されたシナリオ等に従って、複数のスタイルを設定することができる。なお、複数のスタイルは、予め情報処理装置10に設定されていてもよく、その場合、S601における複数のスタイルの設定処理は省略される。
また、S601では、属性取得部106が、ユーザ装置11-1~11-Nの各ユーザの属性を取得する。
【0071】
S602では、スタイル決定部102は、動画構造スタイル群113に含まれる複数のスタイルから、1つのスタイルを選択(決定)する。当該選択は、情報処理装置10の操作者によって行われてもよいし、予め情報処理装置10に設定されたシナリオ等に従って行われてもよい。
【0072】
S603では、動画生成部103は、スタイル決定部102によって選択されたスタイルに従って、広告動画を生成する。図3(c)の第1スタイルの例では、例えば図4に示すイメージの広告動画が生成される。生成された広告動画は、RAM53といった記憶部に一時的に格納されてよく、ROM52といった記憶部に記録されてよい。
【0073】
S604では、提供部104は、動画生成部103により生成された広告動画を、ユーザ装置11-1~11-Nの少なくともいずれかに提供(配信)する。本実施形態では、提供部104は、動画生成部103により生成された広告動画を、図1に示すユーザ装置11-1~11-Nの全てではなく、1以上のユーザ装置に提供する。各動画を提供する1つ以上のユーザ装置は、動画提供毎にランダムに選択されてもよい。また、各動画を提供する1つ以上のユーザ装置は、情報処理装置10の操作者によって選択されてもよいし、予め情報処理装置10に設定されたシナリオ等に従って選択されてもよい。
【0074】
S605では、提供部104は、S601で生成された複数のスタイルのそれぞれに従う各広告動画の全てをユーザ装置11に提供したか否かを判定する。複数のスタイルに従う広告動画を全てユーザ装置11へ提供していない場合(S605でNo)、情報処理装置10は、S602~S604の処理を繰り返す。複数のスタイルに従う広告動画を全てユーザ装置11へ提供した場合は(S605でYes)、処理はS606へ進む。
【0075】
なお、S604の広告動画のユーザ装置11への提供について、提供部104は、各広告動画を順次提供してもよいし、S601で生成された複数のスタイルに従う広告動画を、同時に提供してもよい。
【0076】
本実施形態では、前述のように、各広告動画は、ユーザ装置11-1~11-Nの全てではなく、一部の装置に提供される。例えば、異なるスタイルの広告動画が100本ある場合、提供部104は、100本の広告動画をユーザ装置11-1~11-Nの全てには提供せず、各動画を、ユーザ装置11-1~11-Nから選択した1つ以上のユーザ装置に提供する。
【0077】
S601で生成された複数のスタイルに従う広告動画の全てをユーザ装置11に提供後、S606では、スコア取得部105は、ユーザ装置11-1~11-Nからの効果指標に基づいて、スコアを取得し、取得したスコアを登録したスコア表を生成する。本実施形態において、スコアの最大値は1とし、スコアの高さが広告効果の高さを示す。
【0078】
スコア表の例を図7(a)に示す。図7(a)に示すスコア表では、各ユーザ装置のユーザについて、異なるスタイル(第1スタイル71-1~第Sスタイル71-S(S>1))に対するスコアが示されている。前述のように、S604において、提供部104は、異なるスタイルの広告動画を、ユーザ装置11-1~11-Nのうちの1つ以上のユーザ装置へ提供し、S606でスコアを取得する。全スタイルについて、全ユーザ装置11-1~11-Nの全てではなく、一部の装置からスコアが取得されることから、スコア表は、スコアがまばらに(スパースに)存在する表となる。
【0079】
全てのスタイル(第1スタイル71-1~第Sスタイル71-S)についてのスコアを取得してスコア表が生成された後、S607では、推定部107は、対象となる任意のユーザを決定する。以下、S607で決定した任意のユーザ装置をユーザ装置11-C、ユーザ装置11-CのユーザをユーザCと称する。
S607ではさらに、推定部107は、S608の補完処理のベースとなるユーザグループを決定する。具体的には、推定部107は、図1に示すユーザ装置11-1~11-Nのユーザ1~Nから、S601において属性取得部106により取得された各ユーザの属性に基づいて複数のユーザを選択してグループを生成する。本実施形態では、推定部107は、ユーザCの属性と類似した(または同じ)属性を有する複数のユーザをグルーピングし、1つのグループ(グループCと称する)を生成する。類似した属性とは、前述のユーザの属性を特徴ベクトルとして表した場合に、特徴ベクトルが分布した特徴空間において所定の範囲に含まれる特徴ベクトルに対応する属性である。
【0080】
属性は、粗い分類(例えば、性別)から細かい分類(例えば、特定のアイテムの購買履歴から特定される趣向)に分類される。グルーピングにおける属性の粒度(granularity)は、粗いほど、多数ユーザのユーザグループが生成され、細かいほど、ユーザCの個別の属性のより類似した属性を有する複数ユーザのユーザグループが生成される。すなわち、グループのサイズが変化する。当該グルーピングの粒度は、情報処理装置10において予め設定されていてもよいし、機械学習によって決定されてもよい。本実施形態における最も荒いグループとは、ユーザ装置11-1~11-Nと対応する全ユーザを含む1つの全体のグループである。なお、本実施形態におけるグルーピングは、既知の手法に基づくクラスタリングによりなされてよい。
【0081】
続いて、S608では、S607で決定した任意のユーザCから取得されていないスタイルについてのスコアを、S607で生成したグループCの属するユーザから取得されたスコアに基づいて補完(導出)し、スコア表を補完する。当該補完処理については、図7(b)を参照して後述する。
【0082】
スコア表の補完後、S609では、推定部107は、任意のユーザCについて、最高値のスコアのスタイルを決定し、当該最高値のスコアに対応するスタイルを、ユーザCに最適なスタイルと推定する。
【0083】
S610では、動画生成部103は、S609で推定された最適なスタイルに従う広告動画を生成し、提供部104は、ユーザ装置11-C(もしくはグループCに属する複数のユーザのユーザ装置)に提供する。なお、最適なスタイルに従う広告動画がすでに生成され、RAM53といった記憶部に格納されている場合は、提供部104は、当該記憶部から対象の広告動画を読み出して、ユーザ装置11-Cに提供してもよい。
【0084】
次に、図6におけるS607~S609の処理について、図7(b)を参照して説明する。図7(b)は、図7(a)と同様のスコア表であり、S607~S609の処理を説明するためのものである。ここでは、S607において任意のユーザとして決定したユーザCについて最適なスタイルを決定する例について説明する。前述したように、S607では、推定部107はユーザのグループCを、各ユーザの属性に基づいて決定する。図7(b)の例では、ユーザ1~3、Cを含むグループCが生成されるものとする。
【0085】
続くS608では、推定部107は、ユーザCについて、スコア表を補完する。まず、推定部107は、全てのスタイル(第1スタイル71-1~第Sスタイル71-S)について、グループCに属するユーザのうち、ユーザCのスコアと類似するスコアを有する複数の他のユーザを選択する。図7(b)の例では、推定部107は、第1スタイル71-1について、ユーザCのスコア(=0.7)と類似している、ユーザ1のスコア(=0.67)とユーザ3のスコア(=0.73)を確認し、ユーザ1とユーザ3を選択する。ユーザCのスコアと類似と認定されるスコアの範囲は任意に決定することができる。
【0086】
そして、推定部107は、選択したユーザ1とユーザ3について、第1スタイル71-1以外のスタイルの中から、スコアが類似しているスタイルを特定する。図7(b)の例では、第3スタイル71-3が特定される。推定部107は、第3スタイル71-3について、ユーザCのスコアが存在しないことから、ユーザ1のスコア(=0.3)とユーザ3のスコア(=0.4)を用いて、ユーザCのスコアを算出(推定)して補完する。本実施形態では、ユーザ1とユーザ3のスコアの平均値として、0.35が算出される。
推定部107は、このような補完処理を、全スタイルにわたって実施し、ユーザCについて、スコア表を補完する。
【0087】
本実施形態における任意のユーザに係るスコアの補完処理は、任意のユーザと同一のグループに属する他のユーザに係るスコアの統計値に基づいてよい。当該統計値は、例として、平均値であってよく、中央値であってよく、最頻値であってよく、慣用の統計的指標と対応する何らかの値であればその態様に制限はない。また、当該補完処理は、任意のユーザおよび他のユーザにおける属性の特徴ベクトルに係る類似性に基づいてもよい。具体的には、当該補完処理は、例として、任意のユーザおよび他のユーザ間の属性の特徴ベクトルに係るコサイン類似度等の慣用の類似度に基づき、他のユーザのスコアを補正する処理であってもよい。ここで、ユーザの属性に代えて、ユーザ装置11-1~11-Nと対応する全ユーザの範囲内で、ユーザが属するグループの属性が用いられてもよい。この場合、他のグループの統計値を補正したものを任意のユーザに係るスコアとしてよい。また、ここで、補正された他のユーザまたは他のグループのスコアは所定の範囲を有してよく、異なる複数の他のユーザまたは他のグループにかかる補正されたスコアが重複する範囲内で任意のユーザのスコアが決定されてもよい。なお、当該補正処理は、補正された他のユーザまたは他のグループのスコアの統計値に基づいてもよい。
【0088】
スコア表の補完後、推定部107は、ユーザCに対して、最高値のスコアのスタイルを、ユーザCに最適なスタイルを推定する。図7(b)の例では、第3スタイル71-3についてのスコアが追加されたが、第1スタイル71-1のスコアの方が大きい値であり、図7(b)のスコア表ではユーザCについて最高値を示すため、推定部107は、第1スタイル71-1が、ユーザCに最適なスタイルであると推定される。
【0089】
このように、ユーザ装置11-1~11-Nから取得した効果指標に基づいたスコアから生成されるスコア表は、スコアがまばらに存在するスコア表であるが、対象のユーザCについてのスコアを、他のスコアを用いて補完する。そして、推定部107は、最終的に生成されたスコアから、最高値のスコアに対応するスタイルを、ユーザCに最適なスタイルとして推定する。
【0090】
以上、第1実施形態について説明した。本実施形態によれば、複数のスタイルに従う複数の広告画像を全ユーザに提供しなくても、一部のユーザ装置に提供して当該提供に応答して取得されたスコアに基づいて、任意のユーザに対して最適なスタイルを推定することが可能となる。よって、当該任意のユーザにパーソナライズされた広告動画の提供が可能となり、広告効果がより向上する。
【0091】
<第2実施形態>
第1実施形態では、複数のスタイルから、スコアとユーザの属性に応じて、任意のユーザに最適なスタイルを推定して決定した。本実施形態では、スタイル、画像コンテンツ、およびユーザの属性に基づいて、機械学習を用いて当該スタイルのスコアを推定する手法について説明する。
以下、本実施形態について、第1実施形態と異なる点について説明する。
【0092】
本実施形態による情報処理装置10の機能構成を図8に示す。図1と比較して、学習部108、学習モデル記憶部120が追加された点で異なる。学習部108は、スタイルとスコアを教師データとして用いてスコア推定モデル121を学習(トレーニング)させ、学習済みの学習モデルを、学習モデル記憶部120に格納する。スタイルとスコアの組み合わせは、第1実施形態において説明した手法により、取得または推定することができる。また、学習部108は、当該教師データのバッチにより、スコア推定モデル121の学習を継続し、スコア推定モデル121を更新することができる。ROM52またはRAM53は、学習モデル記憶部120を含みうる。
【0093】
図9に、学習部108の構成例を示す。学習部108は、スタイル91、ユーザの属性92、画像コンテンツの特徴ベクトル93を取得してスコア推定モデル121に入力し、スコア94を出力する。
スタイル91は、動画構造スタイル群113に含まれる複数のスタイルのうち、任意に選択されたスタイルを識別する情報である。
ユーザ属性92は、属性取得部106により取得されたユーザ属性を表す情報である。なお、ユーザ属性92は、個別の1ユーザの属性であってもよいし、類似した属性を有する複数のユーザのグループの属性(グループ属性)であってもよい。類似した属性とは、属性を特徴ベクトルとして表した場合に、特徴ベクトルが分布した特徴空間において所定の範囲に含まれる特徴ベクトルに対応する属性である。
画像コンテンツの特徴ベクトル93は、画像コンテンツ群111に含まれる画像コンテンツの特徴を表す特徴ベクトルである。特徴ベクトル93は、学習部108自身が、画像コンテンツをResnet、VGG-16、VGG-19といったCNN(畳み込みニューラルネットワーク)に適用することにより抽出されうる。
【0094】
図9に示すように、スコア推定モデル121は、スタイル91、ユーザ属性92、画像コンテンツの特徴ベクトル93を入力として、スタイル91に対するスコア94を予測する。スコア推定モデル121は、任意の深さを有するCNNといったニューラルネットワークで構成されうる。
【0095】
推定部107は、スコア推定モデル121を用いて出力(予測)されたスコア94を用いて、任意のユーザ(もしくは、ユーザグループ)に最適なスタイルを決定することができる。例えば、推定部107は、学習部108により、ユーザ属性92について、複数のスタイルに対して出力された複数のスコアを取得し、当該複数のスコアのうち最高値のスコアに対応するスタイルを、ユーザ属性92に対応するユーザ(もしくは、ユーザグループ)に最適なスタイルと推定してもよい。あるいは、出力されたスコアを、第1実施形態において説明したスコア表に入力し、推定部107は、第1実施形態において説明した手順により、任意のユーザに最適なスタイルを推定してもよい。第1実施形態と同様に、推定された最適なスタイルに従って生成された広告動画は、ユーザ装置に提供される。
【0096】
このように、本実施形態によれば、機械学習により、任意のスタイルとユーザ属性に対するスコアを予測(出力)することが可能となる。また、ユーザ属性92の属性の粒度により、対象のユーザまたはユーザグループに適したスタイルを設定することが可能となる。すなわち、個別のユーザを対象とする場合、ユーザ属性92の粒度を細かく設定し、当該個別のユーザに適したスタイルを推定することが可能となる。一方、ユーザグループを対象とする場合、ユーザ属性92の粒度を粗く設定し、当該ユーザグループに適したスタイルを推定することが可能となる。このような処理により、所与の目的に沿ったスタイルを決定でき、それに応じて、対象のユーザ(もしくは、ユーザグループ)へ広告効果の高い広告動画を提供することが可能となる。
【0097】
<第3実施形態>
上記の実施形態では、使用する複数のスタイルは予め設定されていた。すなわち、100本といった所定数のスタイルがスタイル設定部101により設定され、もしくは予め設定され、その中から任意のユーザに最適なスタイルを推定して決定する例について説明した。
一方で、任意のユーザに最適なスタイルが、設定された複数のスタイルのうちの1つとは限らない。このことを考慮し、本実施形態では、スタイル設定部101は、スタイルのバリエーションを設定(生成)し、スコア取得部105に取得されたスコアに基づいて、動画構造スタイル群113に格納するスタイルを入れ替える(更新する)形態について説明する。以下、第1実施形態または第2実施形態と異なる点について説明する。
【0098】
本実施形態による情報処理装置10の構成は、図や図に示す構成と同様でありうる。本実施形態では、スタイル設定部101は、スタイルのバリエーションを生成する。例えば、スタイル設定部101は、既存のスタイルに対して、トランジションモードの変更、音楽の変更、再生時間の変更など、わずかな変更を加えた、新たなスタイルを生成し、動画構造スタイル群113に格納する。また、例えば、スタイル設定部101は、画像選択または画像順序が指定する画像コンテンツの傾向およびその組み合わせの変更を行った新たなスタイルを生成し、動画構造スタイル群113に格納する。
【0099】
その後、第1実施形態において説明した図6に示すフローに従い、スタイル決定部102は、動画構造スタイル群113に格納されているスタイルを順次選択し、動画生成部103はこれに応じて広告動画を生成し、ユーザ装置11-1~11-Nの少なくとも一部に提供する。生成された新たなスタイルの格納前に動画構造スタイル群113に格納されていた複数のスタイルに従う広告動画をすでに提供していた場合は、情報処理装置10は、当該新たなスタイルに従う広告動画のみを送信してもよい。続いて、スコア取得部105は、提供した広告動画を提供したユーザ装置による効果指標からスコアを取得する。
【0100】
スコア取得部105により全てのスタイル(既存のスタイルと新たに設定されたスタイル)についてのスコアが取得されると、スタイル設定部101は、代表スコア同士を比較する。当該代表スコアは、例えば、各スタイルについて登録されている全スコアの合計や平均値等の統計値としてもよい。そして、スタイル設定部101は、最低スコアから数えて所定数のスコアに対応する複数のスタイルを、動画構造スタイル群113から削除する。すなわち、スタイル設定部101は、取得されたスコアに基づいて、動画構造スタイル群113に含める複数のスタイルを更新する。なお、当該所定数は、スタイル設定部101により設定(生成)された新たなスタイルの数とすることができる。
【0101】
このように、本実施形態によれば、新たなバリエーションのスタイルが生成され、当該新たなスタイルと既存のスタイルのうち、スコアがより高いスタイルが、動画構造スタイル群113に残される。これにより、動画構造スタイル群113に格納されるスタイルをさらに最適化することが可能となる。
【0102】
なお、上記実施形態では、動画構造スタイル群113に格納されるスタイルとして、図3(c)を参照して説明したスタイルを用いたが、スタイルとして、他のあらゆるスタイルを用いることができる。例えば、動画の表示時の画像アスペクト比(矩形における長辺と短辺の比率)を用いてもよい。図10に、画像アスペクト比が異なる画像コンテンツの例を示す。画像アスペクト比を変えることにより、映し出される風景が異なり、閲覧したユーザによる印象も変わりうる。画像アスペクト比を「横:縦」とし、図10(a)では「9:10」、図10(b)では「5:3」とする。
例えば、対象のアイテムが旅行商品であり、画像コンテンツがホテル周辺の景色を含む場合、図10(a)のように、横と縦がほぼ同じ長さで建物が大きく映る画像は、建物に興味があるユーザに対して広告効果が高くなる。一方、図10(b)のように、横が縦より長く、空の景色がより大きく映る画像は、ホテル周辺の景色に興味があるユーザに対して広告効果が高くなる。
【0103】
このように、上記実施形態によれば、任意のユーザもしくはユーザグループに最適なスタイルを推定し、当該スタイルに従う広告動画を生成して提供することができる。また、個別のユーザからの効果指標を得ることなく、任意のユーザもしくはユーザグループに対するターゲッティング広告を実施することができる。
【0104】
上記実施形態では、アイテム(有形または無形の商品やサービス)に関する広告動画をユーザに対し提供する例について説明したが、有形または無形の商品やサービスに限らず、あらゆるアイテムに関する動画について、上記実施形態を適用可能である。すなわち、所定のアイテムに対する画像コンテンツを用いた当該アイテムに関する動画を提供する実施形態に、上記実施形態を適用可能である。
【0105】
なお、上記において特定の実施形態が説明されているが、当該実施形態は単なる例示であり、本発明の範囲を限定する意図はない。本明細書に記載された装置及び方法は上記した以外の形態において具現化することができる。また、本発明の範囲から離れることなく、上記した実施形態に対して適宜、省略、置換及び変更をなすこともできる。かかる省略、置換及び変更をなした形態は、請求の範囲に記載されたもの及びこれらの均等物の範疇に含まれ、本発明の技術的範囲に属する。
【符号の説明】
【0106】
1~N:ユーザ、10:情報処理装置、11-1~11-N:ユーザ装置、101:スタイル設定部、102:スタイル決定部、103:動画生成部、104:提供部、105:スコア取得部、106:属性取得部、107:推定部、108:学習部、110:動画情報記憶部、111:画像コンテンツ群、112:音楽コンテンツ群、113:動画構造スタイル群、114:補助的コンテンツ群、120:学習モデル記憶部、121:スコア推定モデル


図1
図2
図3
図4
図5
図6
図7
図8
図9
図10