(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2021-12-13
(45)【発行日】2022-01-13
(54)【発明の名称】コンテンツ特徴量抽出装置、方法、及びプログラム
(51)【国際特許分類】
G06F 16/906 20190101AFI20220105BHJP
G06T 7/00 20170101ALI20220105BHJP
G06N 20/00 20190101ALI20220105BHJP
【FI】
G06F16/906
G06T7/00 300F
G06N20/00 130
(21)【出願番号】P 2018016372
(22)【出願日】2018-02-01
【審査請求日】2021-01-04
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】501308812
【氏名又は名称】ケンブリッジ エンタープライズ リミテッド
(74)【代理人】
【識別番号】110001519
【氏名又は名称】特許業務法人太陽国際特許事務所
(72)【発明者】
【氏名】木村 昭悟
(72)【発明者】
【氏名】ガラマーニ ズービン
(72)【発明者】
【氏名】椋田 悠介
【審査官】甲斐 哲雄
(56)【参考文献】
【文献】特開2014-026455(JP,A)
【文献】特開2015-158739(JP,A)
【文献】特開2014-238793(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06T 7/00
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
予め用意されたディジタルコンテンツからなる複数のディジタルコンテンツ集合を用いて、前記ディジタルコンテンツ集合に含まれるディジタルコンテンツ、及び前記ディジタルコンテンツ集合とは別に与えられた新規ディジタルコンテンツの少なくとも一方の特徴量を抽出する、コンテンツ特徴量抽出装置におけるコンテンツ特徴量抽出方法において、
コンテンツ基本特徴量抽出部が、前記ディジタルコンテンツ集合に含まれるディジタルコンテンツの各々について、前記ディジタルコンテンツの基本的な特徴量であるコンテンツ基本特徴量を抽出するステップと、
グラフ構築部が、前記ディジタルコンテンツの各々がいずれのディジタルコンテンツ集合に含まれるかを表現するグラフであるコンテンツグラフを構築するステップと、
リンク予測モデル学習部が、前記ディジタルコンテンツの各々から抽出したコンテンツ基本特徴量、及び前記コンテンツグラフに基づいて、前記ディジタルコンテンツ集合への所属の有無を前記ディジタルコンテンツの前記コンテンツ基本特徴量から予測するモデルであるリンク予測モデルを学習するステップと、
コンテンツ特徴量算出部が、学習された前記リンク予測モデルに基づいて、前記ディジタルコンテンツ集合に含まれるディジタルコンテンツ、及び新規ディジタルコンテンツの少なくとも一方について、前記ディジタルコンテンツの特徴量であるコンテンツ特徴量を計算するステップと、
を含むコンテンツ特徴量抽出方法。
【請求項2】
前記コンテンツ特徴量抽出方法は、更に、
コンテンツ集合基本特徴量抽出部が、前記複数のディジタルコンテンツ集合の各々について、前記ディジタルコンテンツ集合の基本的な特徴量であるコンテンツ集合基本特徴量を抽出するステップを備え、
前記リンク予測モデル学習部のステップは、前記ディジタルコンテンツの各々から抽出したコンテンツ基本特徴量、前記複数のディジタルコンテンツ集合の各々から抽出したコンテンツ集合基本特徴量、及び前記コンテンツグラフに基づいて、前記ディジタルコンテンツ集合への所属の有無を、前記コンテンツ基本特徴量及び前記コンテンツ集合基本特徴量から予測するリンク予測モデルを学習する請求項1に記載のコンテンツ特徴量抽出方法。
【請求項3】
前記コンテンツ特徴量抽出方法は、更に、
コンテンツ特徴量モデル学習部が、前記リンク予測モデル、及び前記ディジタルコンテンツ集合に含まれるディジタルコンテンツから、ディジタルコンテンツのコンテンツ特徴量を抽出するためのモデルであるコンテンツ特徴量モデルを学習するステップを備え、
前記コンテンツ特徴量算出部のステップは、学習された前記コンテンツ特徴量モデルを用いて、前記ディジタルコンテンツ集合に含まれるディジタルコンテンツ、及び前記新規ディジタルコンテンツの少なくとも一方から、前記コンテンツ特徴量を算出する請求項1又は請求項2に記載のコンテンツ特徴量抽出方法。
【請求項4】
前記コンテンツ特徴量抽出方法は、更に、
モデル交互最適化部が、前記リンク予測モデル学習部のステップと、前記コンテンツ特徴量モデル学習部のステップとを交互に繰り返し実行することで、前記リンク予測モデル及び前記コンテンツ特徴量モデルを最適化するステップを備え、
前記リンク予測モデル学習部のステップは、学習された前記コンテンツ特徴量モデルを用いて前記ディジタルコンテンツの各々から抽出したコンテンツ特徴量、及び前記コンテンツグラフに基づいて、前記ディジタルコンテンツ集合への所属の有無を前記ディジタルコンテンツの前記コンテンツ特徴量から予測するモデルであるリンク予測モデルを学習する請求項3に記載のコンテンツ特徴量抽出方法。
【請求項5】
前記コンテンツ特徴量抽出方法は、更に、
新規ディジタルコンテンツ集合リンク予測部が、新規に与えられたディジタルコンテンツ集合である新規ディジタルコンテンツ集合について、予め学習された、前記リンク予測モデルに含まれる潜在変数を予測する潜在変数予測モデルに基づいて、新規ディジタルコンテンツ集合についての潜在変数を予測し、予測された潜在変数と、前記リンク予測モデルとに基づいて、新規ディジタルコンテンツ集合へのディジタルコンテンツの所属の有無を予測するステップを備える請求項1~請求項4のいずれか1項に記載のコンテンツ特徴量抽出方法。
【請求項6】
予め用意されたディジタルコンテンツからなる複数のディジタルコンテンツ集合を用いて、前記ディジタルコンテンツ集合に含まれるディジタルコンテンツ、及び前記ディジタルコンテンツ集合とは別に与えられた新規ディジタルコンテンツの少なくとも一方の特徴量を抽出する、コンテンツ特徴量抽出装置において、
前記ディジタルコンテンツ集合に含まれるディジタルコンテンツの各々について、前記ディジタルコンテンツの基本的な特徴量であるコンテンツ基本特徴量を抽出するコンテンツ基本特徴量抽出部と、
前記ディジタルコンテンツの各々がいずれのディジタルコンテンツ集合に含まれるかを表現するグラフであるコンテンツグラフを構築するグラフ構築部と、
前記ディジタルコンテンツの各々から抽出したコンテンツ基本特徴量、及び前記コンテンツグラフに基づいて、前記ディジタルコンテンツ集合への所属の有無を前記ディジタルコンテンツの前記コンテンツ基本特徴量から予測するモデルであるリンク予測モデルを学習するリンク予測モデル学習部と、
学習された前記リンク予測モデルに基づいて、前記ディジタルコンテンツ集合に含まれるディジタルコンテンツ、及び新規ディジタルコンテンツの少なくとも一方について、前記ディジタルコンテンツの特徴量であるコンテンツ特徴量を計算するコンテンツ特徴量算出部と、
を含むコンテンツ特徴量抽出装置。
【請求項7】
コンピュータに、請求項1~請求項5のいずれか1項に記載のコンテンツ特徴量抽出方法の各ステップを実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンテンツ特徴量抽出装置、方法、及びプログラムに係り、特に、コンテンツの特徴量を抽出するためのコンテンツ特徴量抽出装置、方法、及びプログラムに関する。
【背景技術】
【0002】
画像や映像の中に含まれる物体を特定する物体認識、画像や映像の中に含まれる物体の位置を特定する物体検出、画像や映像の内容を記述する説明文生成など、画像・映像に関わる様々なタスクの遂行において、画像や映像の特性を表現する画像特徴量は、極めて重要な役割を担っている。近年の画像特徴量抽出は、大量の画像・映像と、それら画像・映像の各々に付与されたラベルで構成される大規模データセットを用いて、畳み込みニューラルネットワークに代表される特徴量モデルを学習する、教師付学習に基づいている。しかし、これら教師付学習に基づく手法は、非常に大規模なラベル付データセットを必要とする。画像・映像の各々に正確なラベルを付与する作業は、非常に多くの人的稼働が必要であり、この点が特徴量抽出のボトルネックの一つとなっている。
【0003】
このボトルネックを解消するために、web画像を利用した特徴量抽出方法が考案されている。Web画像を利用する利点は、人手で付与するラベルほど正確ではないものの、特徴量学習に有用なラベル相当の情報を人的稼働なしに獲得することができる点にある。例えば、web画像検索システムを用いて画像を収集する際には、検索の際に用いたクエリをラベル相当の情報として用いることができる(非特許文献1)。また、コンテンツ共有サイトから画像を収集する際には、共有サイト上で付与されたテキストタグを用いることができる(非特許文献2)。
【先行技術文献】
【非特許文献】
【0004】
【文献】Sukhbaatar, Bruna, Paluri, Bourdev and Fergus, “Training convolutional networks from noisy labels,” Proc. International Conference on Learning Representations (ICLR), 2015.
【文献】Joulin, van der Maaten and Jabri, “Learning visual features from large weakly supervised data,” Proc. European Conference on Computer Vision (ECCV), 2016.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、これらの既存技術では、web画像を利用した獲得したラベル相当の情報に関する重要な性質を反映していない。すなわち、人手で付与したラベルとは異なり、ある特定のラベルが画像に付与されていないことが、当該ラベルに関連づけられた内容を当該画像に含まないことを示しているわけではない、という点である。例えば、web画像検索システムを用いて画像を収集する場合、収集した画像が検索の際に用いたクエリ以外の内容を含むことは当然想定されるが、それらの内容をすべて網羅するラベルを収集することは極めて困難である。上記既存技術を含む一般的な特徴量学習方法では、ラベルがないことと関連内容を画像が含まないこととを同一視して、識別的学習を実行するため、適切な画像特徴量の学習を行うことができない。
【0006】
本発明は、上記問題点を解決するために成されたものであり、予め用意されたディジタルコンテンツ集合を考慮したコンテンツの特徴量を抽出することができるコンテンツ特徴量抽出装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上記目的を達成するために、本発明に係るコンテンツ特徴量抽出方法は、予め用意されたディジタルコンテンツからなる複数のディジタルコンテンツ集合を用いて、前記ディジタルコンテンツ集合に含まれるディジタルコンテンツ、及び前記ディジタルコンテンツ集合とは別に与えられた新規ディジタルコンテンツの少なくとも一方の特徴量を抽出する、コンテンツ特徴量抽出装置におけるコンテンツ特徴量抽出方法において、コンテンツ基本特徴量抽出部が、前記ディジタルコンテンツ集合に含まれるディジタルコンテンツの各々について、前記ディジタルコンテンツの基本的な特徴量であるコンテンツ基本特徴量を抽出するステップと、グラフ構築部が、前記ディジタルコンテンツの各々がいずれのディジタルコンテンツ集合に含まれるかを表現するグラフであるコンテンツグラフを構築するステップと、リンク予測モデル学習部が、前記ディジタルコンテンツの各々から抽出したコンテンツ基本特徴量、及び前記コンテンツグラフに基づいて、前記ディジタルコンテンツ集合への所属の有無を前記ディジタルコンテンツの前記コンテンツ基本特徴量から予測するモデルであるリンク予測モデルを学習するステップと、コンテンツ特徴量算出部が、学習された前記リンク予測モデルに基づいて、前記ディジタルコンテンツ集合に含まれるディジタルコンテンツ、及び新規ディジタルコンテンツの少なくとも一方について、前記ディジタルコンテンツの特徴量であるコンテンツ特徴量を計算するステップと、を含んで実行することを特徴とする。
【0008】
本発明に係るコンテンツ特徴量抽出装置は、予め用意されたディジタルコンテンツからなる複数のディジタルコンテンツ集合を用いて、前記ディジタルコンテンツ集合に含まれるディジタルコンテンツ、及び前記ディジタルコンテンツ集合とは別に与えられた新規ディジタルコンテンツの少なくとも一方の特徴量を抽出する、コンテンツ特徴量抽出装置において、前記ディジタルコンテンツ集合に含まれるディジタルコンテンツの各々について、前記ディジタルコンテンツの基本的な特徴量であるコンテンツ基本特徴量を抽出するコンテンツ基本特徴量抽出部と、前記ディジタルコンテンツの各々がいずれのディジタルコンテンツ集合に含まれるかを表現するグラフであるコンテンツグラフを構築するグラフ構築部と、前記ディジタルコンテンツの各々から抽出したコンテンツ基本特徴量、及び前記コンテンツグラフに基づいて、前記ディジタルコンテンツ集合への所属の有無を前記ディジタルコンテンツの前記コンテンツ基本特徴量から予測するモデルであるリンク予測モデルを学習するリンク予測モデル学習部と、学習された前記リンク予測モデルに基づいて、前記ディジタルコンテンツ集合に含まれるディジタルコンテンツ、及び新規ディジタルコンテンツの少なくとも一方について、前記ディジタルコンテンツの特徴量であるコンテンツ特徴量を計算するコンテンツ特徴量算出部と、を含んで構成されている。
【0009】
本発明に係るプログラムは、コンピュータに、本発明のコンテンツ特徴量抽出方法の各ステップを実行させるためのプログラムである。
【発明の効果】
【0010】
本発明のコンテンツ特徴量抽出装置、方法、及びプログラムによれば、予め用意されたディジタルコンテンツ集合を考慮したコンテンツの特徴量を抽出することができる、という効果が得られる。
【図面の簡単な説明】
【0011】
【
図1】本発明の第1の実施の形態に係るコンテンツ特徴量抽出装置の構成を示すブロック図である。
【
図2】本発明の第1の実施の形態に係るコンテンツ特徴量抽出装置におけるコンテンツ特徴量抽出処理ルーチンを示すフローチャートである。
【
図3】本発明の第2の実施の形態に係るコンテンツ特徴量抽出装置の構成を示すブロック図である。
【
図4】本発明の第2の実施の形態に係るコンテンツ特徴量抽出装置におけるコンテンツ特徴量抽出処理ルーチンを示すフローチャートである。
【
図5】本発明の第3の実施の形態に係るコンテンツ特徴量抽出装置の構成を示すブロック図である。
【
図6】本発明の第3の実施の形態に係るコンテンツ特徴量抽出装置におけるコンテンツ特徴量抽出処理ルーチンを示すフローチャートである。
【
図7】実験結果におけるディジタルコンテンツが所属しているディジタルコンテンツ集合の数の統計の一例を示す図である。
【
図8】実験結果における各ディジタルコンテンツ集合が含むディジタルコンテンツの数の統計の一例を示す図である。
【発明を実施するための形態】
【0012】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0013】
<本発明の実施の形態に係る概要>
【0014】
まず、本発明の実施の形態における概要を説明する。
【0015】
本発明の実施の形態に係る手法は、例えばweb画像から獲得するラベル相当の情報の性質を反映したラベル予測モデルを提供すると共に、このラベル予測モデルを活用した新しい特徴量学習の手段を提供するものである。
【0016】
より具体的には、(1)同一のラベル相当の情報を保持する画像集合を定義し、(2)この画像集合への画像の所属の有無を表現するグラフを構築し、(3)グラフのエッジの有無を予測することでラベル予測を行うと共に、(4)ラベル予測の結果、もしくはラベル予測のためのモデルの誤差関数を用いて、画像特徴量を学習により求めるものである。
【0017】
ここまでの記述では、説明の明快さのために、画像のみを対象とした特徴量学習の手段を説明してきた。しかし、以降に記載する発明の実施の形態において、学習したラベル予測モデルを用いて特徴量を抽出する対象は画像に限定されるものではなく、音響信号、テキスト、センサ信号など、様々な対象に適用可能である。以降では、これら特徴量を抽出す対象をディジタルコンテンツと総称することとする。また、同一のラベル相当の情報を保持するディジタルコンテンツの集合を、ディジタルコンテンツ集合と呼ぶ。
【0018】
本発明の実施の形態は、あらかじめ用意された複数のディジタルコンテンツ集合を用いて,ディジタルコンテンツ集合に含まれるディジタルコンテンツ、あるいはそれらとは別に与えられた新規ディジタルコンテンツの特徴量を抽出する、コンテンツ特徴量抽出の手段を提供するものである。
【0019】
<本発明の第1の実施の形態に係るコンテンツ特徴量抽出装置の構成>
【0020】
次に、本発明の第1の実施の形態に係るコンテンツ特徴量抽出装置の構成について説明する。
図1に示すように、本発明の第1の実施の形態に係るコンテンツ特徴量抽出装置100は、CPUと、RAMと、後述するコンテンツ特徴量抽出処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このコンテンツ特徴量抽出装置100は、機能的には
図1に示すように入力部10と、演算部20と、出力部50とを備えている。
【0021】
入力部10は、学習用に、ラベル付きのディジタルコンテンツからなる複数のディジタルコンテンツ集合を受け付ける。また、入力部10は、ラベルが未知の新規ディジタルコンテンツを受け付ける。
【0022】
演算部20は、リンク予測モデル記憶部22と、コンテンツ特徴量モデル記憶部24と、コンテンツ基本特徴量抽出部30と、コンテンツ集合基本特徴量抽出部32と、グラフ構築部34と、リンク予測モデル学習部36と、コンテンツ特徴量モデル学習部40と、コンテンツ特徴量算出部42と、モデル交互最適化部44とを含んで構成されている。
【0023】
コンテンツ基本特徴量抽出部30は、入力部10で受け付けた複数のディジタルコンテンツ集合に含まれるディジタルコンテンツの各々について、ディジタルコンテンツの基本的な特徴量であるコンテンツ基本特徴量を抽出する。
【0024】
コンテンツ基本特徴量を抽出する方法は特に限定されるものではなく、ディジタルコンテンツの種類に応じて様々な特徴量抽出方法を選択することができる、本実施の形態では、その一例として、画像を対象とした基本特徴量抽出方法として、以下の非特許文献3に記載のVGG-netを用いた特徴量を説明する。
【0025】
(非特許文献3)Simonyan and Zisserman, “Very deep convolutional networks for large-scale image recognition,” arXiv preprint, arXiv:1409.1556, http://arxiv.org/abs/1409.1556.
【0026】
VGG-netは16層もしくは19層の畳み込みニューラルネットワークで構成される物体認識モデルであり、大規模物体認識データセットを用いた教師付学習によって学習する。このVGG-netを画像特徴量抽出モデルとして用いる場合には、物体認識データセットで学習した物体認識モデルの途中経過、例えば、16層VGG-net(VGG16)の第14層(FC6:4096次元)、第15層(FC7:4096次元)あるいは最終層(FC8:1000次元)の出力を利用することが一般的である。コンテンツ基本特徴量抽出部30は、このようにして学習された物体認識モデルにディジタルコンテンツを入力してコンテンツ基本特徴量を抽出する。
【0027】
コンテンツ集合基本特徴量抽出部32は、入力部10で受け付けた複数のディジタルコンテンツ集合の各々について、ディジタルコンテンツ集合の基本的な特徴量であるコンテンツ集合基本特徴量を抽出する。
【0028】
コンテンツ集合基本特徴量の抽出方法は特に限定されるものではなく、ディジタルコンテンツ集合を表現するディジタルコンテンツに応じて、様々な特徴量抽出方法を選択することができる。本実施の形態では、その一例として、ディジタルコンテンツ集合に含まれるテキスト情報を対象とした基本特徴量抽出方法として、以下の非特許文献4に記載の方法に代表される単語・単語系列埋め込み手法を用いる方法を説明する。
【0029】
(非特許文献4)Mikolov, Sutsekver, Chen, Corrado and Dean, “Distributed representations of words and phrases and their compositionality,” Advances in Neural Information Processing Systems 26 (NIPS 2013).
【0030】
非特許文献4に記載の方法は、単語あるいは単語系列を1つの多次元ベクトルに変換するモデルを用いる方法であり、このモデルは大規模文書データセットを用いた教師なし学習によって学習する。ディジタルコンテンツ集合に含まれるテキスト情報が一つの単語もしくは一つの単語系列である場合には、この単語もしくは単語系列をモデルに与えたときの出力をそのままコンテンツ集合基本特徴量として利用できる。単語もしくは単語系列が複数含まれる場合には、例えば、すべての単語もしくは単語系列から得られたベクトルを平均してコンテンツ集合基本特徴量として用いる。
【0031】
グラフ構築部34は、ディジタルコンテンツの各々がいずれのディジタルコンテンツ集合に含まれるかを表現するグラフであるコンテンツグラフを構築する。
【0032】
コンテンツグラフの形式及びその構築方法は各種考えられるが、本実施の形態においては、各ディジタルコンテンツ及び各ディジタルコンテンツ集合をノードに対応させ、あるディジタルコンテンツIiがあるディジタルコンテンツ集合Gcに含まれるときにディジタルコンテンツIiに対応するノードとディジタルコンテンツ集合Gcに対応するノードとの間にエッジを張る。ディジタルコンテンツの総数をNI、ディジタルコンテンツ集合の総数をNCと表現すると、このコンテンツグラフは、NC×NI二値隣接行列
【0033】
【0034】
で表現され、この隣接行列の要素 ac,iが1となるノード対(c,i)の間にリンクが存在し,それ以外のノード対にはリンクが存在しないことを示す。このように構成されたコンテンツグラフは二部グラフとなり、一方のノード集合がディジタルコンテンツ、もう一方のノード集合がディジタルコンテンツ集合に対応するノードが含まれることになる。
【0035】
リンク予測モデル学習部36は、コンテンツ基本特徴量抽出部30でディジタルコンテンツの各々から抽出したコンテンツ基本特徴量、コンテンツ集合基本特徴量抽出部32で複数のディジタルコンテンツ集合の各々から抽出したコンテンツ集合基本特徴量、及びグラフ構築部34で構築したコンテンツグラフに基づいて、ディジタルコンテンツ集合への所属の有無を、コンテンツ基本特徴量及びコンテンツ集合基本特徴量から予測するリンク予測モデルを学習し、リンク予測モデル記憶部22に記憶する。
【0036】
リンク予測モデル及びリンク予測モデルの学習方法は特に限定されるものではないが、本実施の形態では、特に以下に示す線型モデルと順位損失に基づく方法について説明する。
【0037】
まず、NI個のディジタルコンテンツから抽出したコンテンツ基本特徴量を
【0038】
【0039】
、NC個のディジタルコンテンツ集合から抽出したコンテンツ集合基本特徴量を
【0040】
【0041】
と表現する。
【0042】
これらの基本特徴量を用いて,i番目のディジタルコンテンツに対応するノードと、c番目のディジタルコンテンツ集合に対応するノードとの間にリンクが存在するかどうかの指標であるリンク予測値
【0043】
【0044】
を以下(1)式でモデル化する。
【0045】
【0046】
ここで、
【0047】
【0048】
はすべてモデルパラメータであり、リンク予測モデルはこれらモデルパラメータによって特徴付けられる。コンテンツ集合基本特徴量が利用可能である場合には、モデルパラメータ
【0049】
【0050】
を追加することにより、リンク予測モデルを以下(2)式のように修正する。
【0051】
【0052】
また、各ディジタルコンテンツに対応するモデルパラメータであるコンテンツ潜在変数zIi及び各ディジタルコンテンツ集合に対応するモデルパラメータであるコンテンツ集合潜在変数zCcを利用しないリンク予測モデルも可能である。コンテンツ潜在変数zIiを利用しない場合、リンク予測モデルは以下(3)式のように修正される。
【0053】
【0054】
コンテンツ集合潜在変数zCcを利用しない場合も、同様にコンテンツ集合潜在変数と関連するモデルパラメータを省略する。以降では、説明の簡略化のため、(3)式によるリンク予測モデルを用いるものとする。なお、他のリンク予測モデルを用いる場合でも、扱いはほぼ同様である.
【0055】
(3)式でモデル化したリンク予測値
【0056】
【0057】
を、コンテンツグラフを特徴付ける隣接行列Aの対応する成分ai,cに近づけることが、リンク予測モデル学習部36の主要工程となる。具体的には、以下(4)式に示す順位損失関数を最小化するモデルパラメータを導出する。
【0058】
【0059】
ここで、l(・)は損失関数,Ω(・)は正則化項であり,モデルパラメータに対して劣微分可能となるように選択する必要があり、例えば損失関数としてはヒンジロスや自乗ノルム、正則化項として例えば各パラメータ行列の自乗ノルムの重み付き線形和などを用いることができる。また、
【0060】
【0061】
である。
【0062】
(4)式に示す順位損失関数をすべてのパラメータのついて同時に最小化することは困難であることから、確率的勾配降下法を用いて、損失関数を減らすように個々のパラメータを個別に逐次更新する。(4)式に示す順位損失関数は、モデルパラメータに対して劣微分可能であることから、(4)式の和の内部の式
【0063】
【0064】
及び正則化項
【0065】
【0066】
を各モデルパラメータで個々に偏微分することにより、ディジタルコンテンツi、当該ディジタルコンテンツを含むディジタルコンテンツ集合c及び当該ディジタルコンテンツを含まないディジタルコンテンツ集合c’を固定した際の各モデルパラメータの更新式を導出できる。この更新式を用いて、確率的勾配降下法を用いることでモデルパラメータを更新する。すなわち、ディジタルコンテンツi、当該ディジタルコンテンツを含むディジタルコンテンツ集合c及び当該ディジタルコンテンツを含まないディジタルコンテンツ集合c’の三つ組みごとにモデルパラメータを更新する。
【0067】
モデルパラメータの更新は、所定の条件を満たした際に停止する。停止条件としては、モデルパラメータ更新回数が所定数を超える、リンク予測モデル記憶部22を参照し、更新前パラメータと更新後パラメータとの差分が所定の閾値よりも小さくなる、などの条件が考えられる。
【0068】
以上がリンク予測モデル学習部36のリンク予測モデルの学習処理である。
【0069】
コンテンツ特徴量モデル学習部40は、リンク予測モデル学習部36で学習されたリンク予測モデル、及びディジタルコンテンツ集合に含まれるディジタルコンテンツから、ディジタルコンテンツのコンテンツ特徴量を抽出するためのモデルであるコンテンツ特徴量モデルを学習し、コンテンツ特徴量モデル記憶部24に記憶する。
【0070】
コンテンツ特徴量モデルの学習方法は特に限定されるものではないが、本実施の形態では、その一例として、VGG-Netを、コンテンツ特徴量モデルの一例とし、リンク予測モデル記憶部22に記憶されたリンク予測モデルを用いたVGG-Netの再学習による方法を説明する。
【0071】
VGG-Netは、コンテンツ基本特徴量抽出部30にて説明したとおり、16層もしくは19層の畳み込みニューラルネットワークで構成されるモデルであり、通常は大規模物体認識データセットを用いた教師付学習によって学習する。すなわち、あらかじめ準備された複数種類の物体のうち、いずれの物体が与えられた画像に含まれるかを示すラベルを教師として、モデルの予測と正解ラベルとの差を小さくするように、モデルパラメータを更新する。
【0072】
一方、本実施の形態では、まず、リンク予測モデルの学習に用いたディジタルコンテンツをVGG-Netに入力し、コンテンツ基本特徴量抽出部30と同様にしてコンテンツ基本特徴量を抽出する。続いて、学習済のリンク予測モデルにコンテンツ基本特徴量を入力し、(4)式に示した順位損失関数で順位損失を計算する。最後に、この順位損失が小さくなるように、VGG-Netのモデルパラメータを更新する。この手順において、リンク予測モデルは固定されているため、VGG-Netの学習における損失関数が一般的に用いられる関数と異なるだけと見なすことができ、誤差逆伝搬などの一般的なニューラルネットワークの学習手法をそのまま援用することができる。
【0073】
VGG-Netのモデルパラメータの学習において、モデルパラメータにランダムな初期値に設定して学習を開始してもよいが、大規模物体認識データセットを用いてあらかじめモデルを学習しておき、そのモデルパラメータを初期値として用いることもできる。また、本実施形態におけるVGG-Netのモデルパラメータの学習において、すべての層のモデルパラメータを更新しても良いが、畳み込み層(第1層から第13層まで)、あるいはこれら畳み込み層のうち入力に近い層(第1層から第10層まで、第1層から第6層まで、など)のモデルパラメータを固定して、それ以外のモデルパラメータを更新することもできる。
【0074】
コンテンツ特徴量算出部42は、コンテンツ特徴量モデル学習部40で学習されたコンテンツ特徴量モデルを用いて、ディジタルコンテンツ集合に含まれるディジタルコンテンツから、コンテンツ特徴量を算出する。
【0075】
コンテンツ特徴量算出部42は、コンテンツ特徴量モデルを用いる場合と、用いない場合が考えられるが、本実施の形態ではコンテンツ特徴量モデルを用いている。コンテンツ特徴量モデルを用いる場合は、コンテンツ基本特徴量抽出部30と同様にして、その途中経過、例えば、16層VGG-net(VGG16)の第14層(FC6:4096次元)、第15層(FC7:4096次元)あるいは最終層(FC8:1000次元)の出力を利用することができる。
【0076】
モデル交互最適化部44は、リンク予測モデル学習部36の処理と、コンテンツ特徴量モデル学習部40の処理とを交互に繰り返し実行することで、リンク予測モデル及びコンテンツ特徴量モデルを最適化する。モデル交互最適化部44により、繰り返し終了条件を満たすかを判定し、満たしていれば学習処理を終了し、満たしていなければ、リンク予測モデル学習部36の処理と、コンテンツ特徴量モデル学習部40の処理とを実行することを繰り返す。
【0077】
このモデル交互最適化部44は、必ずしも必須となる構成要素ではないが、この構成要素を追加することにより、リンク予測モデル及びコンテンツ特徴量モデルが精緻化され、より有用なコンテンツ特徴量を抽出することが可能となる。
【0078】
交互最適化の方法は特に限定されるものではないが、本実施の形態では、コンテンツ特徴量モデル学習部40においてVGG-Netの再学習を用いる場合の方法について述べる。
【0079】
コンテンツ特徴量モデル学習部40においてVGG-Netの再学習を用いる場合、コンテンツ基本特徴量抽出部30とコンテンツ特徴量算出部42とは、ほぼ同様の機能を有することとなる。すなわち、いずれの処理部においても、VGG-Netを特徴量モデルとして採用し、入力されたディジタルコンテンツから特徴量を抽出することとなる。
【0080】
そこで、モデル交互最適化部44は、以下の手順によってリンク予測モデルとコンテンツ特徴モデルを交互に最適化する。
【0081】
(1)リンク予測モデル学習部36により、コンテンツ基本特徴量もしくはコンテンツ特徴量を用いて、リンク予測モデルを学習する。
(2)コンテンツ特徴量モデル学習部40により、固定したリンク予測モデルを用いて、コンテンツ特徴量モデルを学習する。
(3)コンテンツ特徴量算出部42により、固定したコンテンツ特徴量モデルを用いて、コンテンツ特徴量を学習する。
(4)(1)~(3)を繰り返し実行する。繰り返しは、所定の条件を満たした際に停止する。繰り返し終了条件としては、更新回数が所定数を超える、リンク予測モデル及びコンテンツ特徴量モデルについて、更新前パラメータと更新後パラメータとの差分が所定の閾値よりも小さくなる、などの条件が考えられる。
【0082】
以上の処理によって、リンク予測モデル及びコンテンツ特徴量モデルが学習される。
【0083】
以上のように学習されたコンテンツ特徴量モデルを用いて、コンテンツ特徴量算出部42は、入力部10で受け付けた新規ディジタルコンテンツのコンテンツ特徴量を算出し、リンク予測部46に出力する。
【0084】
リンク予測部46は、リンク予測モデル記憶部22に記憶されたリンク予測モデル、及び新規ディジタルコンテンツのディジタルコンテンツ特徴量を入力とし、これらからディジタルコンテンツ集合の各々への新規ディジタルコンテンツの所属の有無を予測し、出力部50に予測結果を出力する。
【0085】
<本発明の第1の実施の形態に係るコンテンツ特徴量抽出装置の作用>
【0086】
次に、本発明の第1の実施の形態に係るコンテンツ特徴量抽出装置100の作用について説明する。入力部10においてラベル付きのディジタルコンテンツからなる複数のディジタルコンテンツ集合を受け付けると、コンテンツ特徴量抽出装置100は、
図2に示すコンテンツ特徴量抽出処理ルーチンを実行する。
【0087】
まず、ステップS100では、入力部10で受け付けた複数のディジタルコンテンツ集合に含まれるディジタルコンテンツの各々について、ディジタルコンテンツの基本的な特徴量であるコンテンツ基本特徴量を抽出する。
【0088】
ステップS102では、入力部10で受け付けた複数のディジタルコンテンツ集合の各々について、ディジタルコンテンツ集合の基本的な特徴量であるコンテンツ集合基本特徴量を抽出する。
【0089】
ステップS104では、ディジタルコンテンツの各々がいずれのディジタルコンテンツ集合に含まれるかを表現するグラフであるコンテンツグラフを構築する。
【0090】
ステップS106では、ステップS100でディジタルコンテンツの各々から抽出したコンテンツ基本特徴量、又はステップS110で抽出したコンテンツ特徴量、ステップS102で複数のディジタルコンテンツ集合の各々から抽出したコンテンツ集合基本特徴量、及びステップS104で構築したコンテンツグラフに基づいて、ディジタルコンテンツ集合への所属の有無を、コンテンツ基本特徴量及びコンテンツ集合基本特徴量から予測するリンク予測モデルを学習し、リンク予測モデル記憶部22に記憶する。
【0091】
ステップS108では、ステップS106で学習されたリンク予測モデル、及びディジタルコンテンツ集合に含まれるディジタルコンテンツから、ディジタルコンテンツのコンテンツ特徴量を抽出するためのモデルであるコンテンツ特徴量モデルを学習し、コンテンツ特徴量モデル記憶部24に記憶する。
【0092】
ステップS110では、ステップS108で学習されたコンテンツ特徴量モデルを用いて、ディジタルコンテンツ集合に含まれるディジタルコンテンツから、コンテンツ特徴量を算出する。
【0093】
ステップS112では、繰り返し終了条件を満たすかを判定し、満たしていればステップS114へ移行し、満たしていなければステップS106~S110の処理を繰り返す。
【0094】
ステップS114では、ステップS108で学習されたコンテンツ特徴量モデルを用いて、入力部10で受け付けた新規ディジタルコンテンツのコンテンツ特徴量を算出する。
【0095】
ステップS116では、ステップS106で学習されたリンク予測モデルと、ステップS114で算出されたコンテンツ特徴量とを用いて、ディジタルコンテンツ集合の各々への新規ディジタルコンテンツの所属の有無を予測し、出力部50に出力して処理を終了する。
【0096】
以上説明したように、本発明の第1の実施の形態に係るコンテンツ特徴量抽出装置によれば、ディジタルコンテンツ集合に含まれるディジタルコンテンツの各々について、ディジタルコンテンツの基本的な特徴量であるコンテンツ基本特徴量を抽出し、ディジタルコンテンツの各々がいずれのディジタルコンテンツ集合に含まれるかを表現するグラフであるコンテンツグラフを構築し、ディジタルコンテンツの各々から抽出したコンテンツ基本特徴量、及びコンテンツグラフに基づいて、ディジタルコンテンツ集合への所属の有無をディジタルコンテンツのコンテンツ基本特徴量から予測するモデルであるリンク予測モデルを学習し、学習されたリンク予測モデルに基づいて、ディジタルコンテンツ集合に含まれるディジタルコンテンツ、及び新規ディジタルコンテンツの少なくとも一方について、ディジタルコンテンツの特徴量であるコンテンツ特徴量を計算することにより、ラベルの性質を考慮したコンテンツ特徴量を抽出することができ、新規ディジタルコンテンツについて、精度よくラベルを予測することができる。
【0097】
<本発明の第2の実施の形態に係るコンテンツ特徴量抽出装置の構成>
【0098】
次に、本発明の第2の実施の形態に係るコンテンツ特徴量抽出装置の構成について説明する。なお、第1の実施の形態と同様となる箇所については同一符号を付して説明を省略する。
【0099】
第2の実施の形態では、コンテンツ特徴量モデル学習部、及びモデル交互最適化部を用いずに、学習したリンク予測モデルを用いてコンテンツ特徴量を算出する。
【0100】
図3に示すように、本発明の第2の実施の形態に係るコンテンツ特徴量抽出装置200は、CPUと、RAMと、後述するコンテンツ特徴量抽出処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このコンテンツ特徴量抽出装置200は、機能的には
図3に示すように入力部210と、演算部220と、出力部250とを備えている。
【0101】
入力部210は、学習用に、ラベル付きのディジタルコンテンツからなる複数のディジタルコンテンツ集合を受け付ける。また、入力部210は、ラベルが未知の新規に与えられた新規ディジタルコンテンツを受け付ける。
【0102】
演算部220は、リンク予測モデル記憶部22と、コンテンツ基本特徴量抽出部30と、コンテンツ集合基本特徴量抽出部32と、グラフ構築部34と、リンク予測モデル学習部36と、コンテンツ特徴量算出部242と、リンク予測部46とを含んで構成されている。
【0103】
コンテンツ特徴量算出部242は、リンク予測モデル記憶部に22記憶されたリンク予測モデルに基づいて、ディジタルコンテンツ集合に含まれるディジタルコンテンツから、コンテンツ特徴量を算出する。
【0104】
コンテンツ特徴量算出部242でリンク予測モデルに基づいてコンテンツ特徴量を算出する場合には、パース符号化に基づく方法により算出を行う。スパース符号化に基づく方法では、コンテンツ基本特徴量をコンテンツ集合基本特徴量(及び利用可能な場合には加えてコンテンツ集合潜在変数)の疎な線形和で表現する方法である。(3)式でモデル化したリンク予測モデルは、モデルパラメータで変換したコンテンツ基本特徴量
【0105】
【0106】
と、ディジタルコンテンツ集合を特徴付けるベクトル
【0107】
【0108】
との内積が大きい。すなわち両ベクトルが類似しているときに、リンク予測値
【0109】
【0110】
が大きくなることを示している。この点に着目して、以下(5)式の最小化問題の解として得られる線形和の重み係数αを、コンテンツ基本特徴量xから得られる新しい特徴量、すなわちコンテンツ特徴量として算出する。
【数18】
・・・(5)
なお、第2の実施の形態の他の構成は第1の実施の形態と同様であるため、説明を省略する。
【0111】
<本発明の第2の実施の形態に係るコンテンツ特徴量抽出装置の作用>
【0112】
次に、本発明の第2の実施の形態に係るコンテンツ特徴量抽出装置200の作用について説明する。なお、第1の実施の形態と同様となる箇所については同一符号を付して説明を省略する。
【0113】
入力部210においてラベル付きのディジタルコンテンツからなる複数のディジタルコンテンツ集合を受け付けると、コンテンツ特徴量抽出装置200は、
図4に示すコンテンツ特徴量抽出処理ルーチンを実行する。
【0114】
ステップS200では、リンク予測モデル記憶部22に記憶されたリンク予測モデルに基づいて、上記(5)式に従って、新規ディジタルコンテンツについて、ディジタルコンテンツの特徴量であるコンテンツ特徴量を計算する。
【0115】
以上説明したように、本発明の第2の実施の形態に係るコンテンツ特徴量抽出装置によれば、ディジタルコンテンツ集合に含まれるディジタルコンテンツの各々について、ディジタルコンテンツの基本的な特徴量であるコンテンツ基本特徴量を抽出し、ディジタルコンテンツの各々がいずれのディジタルコンテンツ集合に含まれるかを表現するグラフであるコンテンツグラフを構築し、ディジタルコンテンツの各々から抽出したコンテンツ基本特徴量、及びコンテンツグラフに基づいて、ディジタルコンテンツ集合への所属の有無をディジタルコンテンツのコンテンツ基本特徴量から予測するモデルであるリンク予測モデルを学習し、学習されたリンク予測モデルに基づいて、ディジタルコンテンツ集合に含まれるディジタルコンテンツ、及び新規ディジタルコンテンツの少なくとも一方について、ディジタルコンテンツの特徴量であるコンテンツ特徴量を計算することにより、ラベルの性質を考慮したコンテンツ特徴量を抽出することができ、新規ディジタルコンテンツについて、精度よくラベルを予測することができる。
<本発明の第3の実施の形態に係るコンテンツ特徴量抽出装置の構成>
【0116】
次に、本発明の第3の実施の形態に係るコンテンツ特徴量抽出装置の構成について説明する。なお、第1の実施の形態と同様となる箇所については同一符号を付して説明を省略する。
【0117】
第3の実施の形態は、ディジタルコンテンツの新規ディジタルコンテンツ集合への所属の有無を予測する場合である。
【0118】
図5に示すように、本発明の第3の実施の形態に係るコンテンツ特徴量抽出装置300は、CPUと、RAMと、後述するコンテンツ特徴量抽出処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このコンテンツ特徴量抽出装置300は、機能的には
図5に示すように入力部310と、演算部320と、出力部350とを備えている。
【0119】
入力部310は、学習用に、ラベル付きのディジタルコンテンツからなる複数のディジタルコンテンツ集合を受け付ける。また、入力部310は、新規のディジタルコンテンツ集合である新規ディジタルコンテンツ集合を受け付ける。また、入力部310は、ラベルが未知の新規に与えられた新規ディジタルコンテンツを受け付ける。
【0120】
演算部320は、リンク予測モデル記憶部22と、コンテンツ特徴量モデル記憶部24と、コンテンツ基本特徴量抽出部30と、コンテンツ集合基本特徴量抽出部32と、グラフ構築部34と、リンク予測モデル学習部36と、コンテンツ特徴量モデル学習部40と、コンテンツ特徴量算出部42と、モデル交互最適化部44と、新規ディジタルコンテンツ集合リンク予測部340とを含んで構成されている。
【0121】
新規ディジタルコンテンツ集合リンク予測部340は、入力部310で受け付けた新規ディジタルコンテンツについて、リンク予測モデル学習部36で学習された、リンク予測モデルに対応する、新規ディジタルコンテンツ集合についての潜在変数予測モデルと、リンク予測モデルとに基づいて、新規ディジタルコンテンツ集合への新規ディジタルコンテンツの所属の有無を予測する。
【0122】
新規ディジタルコンテンツ集合リンク予測部340により、リンク予測モデル学習部36において考慮されていなかった新規ディジタルコンテンツ集合を考慮することが可能となる。ディジタルコンテンツ集合が、特定のテキストラベルが付与されたディジタルコンテンツの集合である場合には、新規ディジタルコンテンツ集合へのリンク予測は、学習の際には考慮されていなかったテキストラベルをディジタルコンテンツに付与するかどうかを判断する過程に相当する。
【0123】
新規ディジタルコンテンツ集合へのリンク予測の手段は特に限定されるものではないが、本実施の形態においては、以下に示す状況を想定した方法について述べる。
【0124】
新規ディジタルコンテンツ集合に何らかのテキスト情報が含まれており、コンテンツ集合基本特徴量抽出部32に記載の方法を用いてディジタルコンテンツ集合基本特徴量が抽出できる。また、新規ディジタルコンテンツ集合が空集合、すなわち、新規ディジタルコンテンツ集合にディジタルコンテンツが1つも含まれていない、状況を想定する。また、ディジタルコンテンツが含まれていても良いが、以降に示す方法では利用しないものとする。
【0125】
新規ディジタルコンテンツ集合リンク予測部340は、潜在変数予測モデル学習部343と、潜在変数予測部344と、リンク予測部346とを含んで構成されている。
【0126】
潜在変数予測モデル学習部343は、リンク予測モデル記憶部22に記憶されたリンク予測モデル、及びリンク予測モデル学習部36で用いたディジタルコンテンツ集合基本特徴量から、リンク予測モデルのモデルパラメータの一部である潜在変数を予測するモデルである潜在変数予測モデルを学習する。
【0127】
ディジタルコンテンツ集合cへのディジタルコンテンツiの所属の有無を示すスコアであるリンク予測値は、上記(3)式の通り、ディジタルコンテンツ基本特徴量xi、ディジタルコンテンツ集合基本特徴量yc、及びディジタルコンテンツ集合潜在変数zCcから計算される。
【0128】
しかし、新規ディジタルコンテンツ集合c’においては、ディジタルコンテンツ集合基本特徴量yc’は計算可能であるものの、ディジタルコンテンツ集合潜在変数zCc’が利用できない。そこで、リンク予測モデル学習部36で用いたディジタルコンテンツ集合基本特徴量Y、及びリンク予測モデル学習部36で学習したリンク予測モデルのモデルパラメータであるディジタルコンテンツ集合潜在変数ZCを利用して、以下(6)式のディジタルコンテンツ集合基本特徴量からディジタルコンテンツ集合潜在変数を予測するモデルを考え、この潜在変数予測モデルf(・;θ)を学習により求める。
【0129】
【0130】
ここで、θは潜在変数予測モデルのモデルパラメータである。つまり、上記の潜在変数予測モデルf(・;θ)は、yc’からzCc’を予測する。この学習は、ディジタルコンテンツ集合基本特徴量Yとディジタルコンテンツ集合潜在変数ZCとを学習データとして、コンテンツ集合基本特徴量yからディジタルコンテンツ集合潜在変数zCcへの変換関数f()を求めるものである。
【0131】
潜在変数予測モデルの構成は特に限定されるものではないが、例えば、以下のような方法が考えられる。
【0132】
単純な線形回帰モデルを採用し、リンク予測モデルを固定して以下(7)式のモデルパラメータθを学習により求める。
【0133】
【0134】
(3)式のリンク予測モデルに上記(7)式の線形回帰モデルを代入した式を、新たなリンク予測モデルとして採用し、リンク予測モデルを再学習する。
【0135】
また、リンク予測モデルの損失関数(4)式に、上記の線形回帰モデルを考慮した新たな正則化項を加えて、リンク予測モデルを再学習する。このとき、リンク予測モデルの損失関数(4)式は、以下(8)式のように修正される。
【0136】
【0137】
サポートベクトル回帰などの非線形回帰モデルを採用し、リンク予測モデルを固定して非線形回帰モデルのモデルパラメータを学習により求める。
【0138】
ニューラルネットワークモデルを採用し、リンク予測モデルを固定してニューラルネットワークのモデルパラメータを学習により求める。
【0139】
潜在変数予測部344は、潜在変数予測モデル学習部343で学習された潜在変数予測モデル、及び新規ディジタルコンテンツ集合を入力とし、新規ディジタルコンテンツ集合からコンテンツ集合基本特徴量を抽出し、新規ディジタルコンテンツ集合についてのコンテンツ集合基本特徴量、及び潜在変数予測モデルからコンテンツ集合潜在変数を予測し、新規ディジタルコンテンツ集合についてのコンテンツ集合潜在変数を出力する。
【0140】
潜在変数予測部344は、まず、新規ディジタルコンテンツ集合からコンテンツ集合基本特徴量を抽出する。抽出方法は、コンテンツ集合基本特徴量抽出部32に記載の方法と同様である。
【0141】
潜在変数予測部344は、続いて、抽出したコンテンツ集合基本特徴量である新規コンテンツ集合基本特徴量yc’、及び潜在変数予測モデルf(・;θ)から、以下(9)式のコンテンツ集合潜在変数を予測する。
【0142】
【0143】
リンク予測部346は、リンク予測モデル記憶部22に記憶されたリンク予測モデル、予測されたコンテンツ集合潜在変数である予測コンテンツ集合潜在変数、新規ディジタルコンテンツについてのディジタルコンテンツ特徴量、及び新規コンテンツ集合基本特徴量を入力とし、これらから新規ディジタルコンテンツ集合を含むディジタルコンテンツ集合の各々への新規ディジタルコンテンツの所属の有無を予測し、出力部250に予測結果を出力する。
【0144】
新規ディジタルコンテンツ集合c’への新規ディジタルコンテンツi’の所属の有無の予測は、リンク予測モデル(3)式を用いることで実現できる。ただし、(3)式では、新規ディジタルコンテンツ集合に関するコンテンツ集合潜在変数は未知であるため、以下(10)式の予測コンテンツ集合潜在変数を代わりに用いる。
【0145】
【0146】
この(10)式で得られたリンク予測値
【0147】
【0148】
がある一定以上大きな値を取るときに、ディジタルコンテンツi’が新規ディジタルコンテンツ集合c’に所属すると判断する。
【0149】
以上の各部の処理によって、新規ディジタルコンテンツ集合リンク予測部340は、新規ディジタルコンテンツ集合へのディジタルコンテンツの所属の有無を予測し、新規ディジタルコンテンツ集合についての予測結果を出力する。
<本発明の第3の実施の形態に係るコンテンツ特徴量抽出装置の作用>
【0150】
次に、本発明の第3の実施の形態に係るコンテンツ特徴量抽出装置300の作用について説明する。なお、第1の実施の形態と同様となる箇所については同一符号を付して説明を省略する。
<本発明の第3の実施の形態に係るコンテンツ特徴量抽出装置の作用>
【0151】
次に、本発明の第3の実施の形態に係るコンテンツ特徴量抽出装置300の作用について説明する。なお、第1の実施の形態と同様となる箇所については同一符号を付して説明を省略する。
【0152】
入力部310においてラベル付きのディジタルコンテンツからなる複数のディジタルコンテンツ集合を受け付けると、コンテンツ特徴量抽出装置300は、
図6に示すコンテンツ特徴量抽出処理ルーチンを実行する。
【0153】
ステップS302では、リンク予測モデル記憶部22に記憶されたリンク予測モデル、及びリンク予測モデルの学習に利用したディジタルコンテンツ集合基本特徴量から、リンク予測モデルのモデルパラメータの一部である潜在変数を予測するモデルである潜在変数予測モデルを学習する。
【0154】
ステップS304では、ステップS302で学習された潜在変数予測モデル、及び新規ディジタルコンテンツ集合を入力とし、新規ディジタルコンテンツ集合からコンテンツ集合基本特徴量を抽出し、新規ディジタルコンテンツ集合についてのコンテンツ集合基本特徴量、及び潜在変数予測モデルからコンテンツ集合潜在変数を予測し、新規ディジタルコンテンツ集合についてのコンテンツ集合潜在変数を出力する。
【0155】
ステップS306では、リンク予測モデル記憶部22に記憶されたリンク予測モデル、予測されたコンテンツ集合潜在変数である予測コンテンツ集合潜在変数、及び新規ディジタルコンテンツについてのディジタルコンテンツ特徴量を入力とし、これらから新規ディジタルコンテンツ集合を含むディジタルコンテンツ集合の各々への新規ディジタルコンテンツの所属の有無を予測し、予測結果を出力する。
【0156】
以上説明したように、本発明の第3の実施の形態に係るコンテンツ特徴量抽出装置によれば、ディジタルコンテンツ集合に含まれるディジタルコンテンツの各々について、ディジタルコンテンツの基本的な特徴量であるコンテンツ基本特徴量を抽出し、ディジタルコンテンツの各々がいずれのディジタルコンテンツ集合に含まれるかを表現するグラフであるコンテンツグラフを構築し、ディジタルコンテンツの各々から抽出したコンテンツ基本特徴量、及びコンテンツグラフに基づいて、ディジタルコンテンツ集合への所属の有無をディジタルコンテンツのコンテンツ基本特徴量から予測するモデルであるリンク予測モデルを学習し、学習されたリンク予測モデルに基づいて、ディジタルコンテンツ集合に含まれるディジタルコンテンツ、及び新規ディジタルコンテンツの少なくとも一方について、ディジタルコンテンツの特徴量であるコンテンツ特徴量を計算し、新規ディジタルコンテンツ集合の潜在変数を予測することにより、ラベルの性質を考慮したコンテンツ特徴量を抽出することができ、新規ディジタルコンテンツについて、精度よくラベルを予測することができる。
【0157】
<実験結果>
【0158】
これまでに示した実施形態を検証するために、独自にデータセットを収集し、このデータセットを用いて、リンク予測モデル及びコンテンツ特徴量モデルを学習した。このデータセットは、65,000個のディジタルコンテンツ集合、及び150万個のディジタルコンテンツ(静止画像)から校正される。
図7に各ディジタルコンテンツが所属しているディジタルコンテンツ集合の数の統計、及び
図8に各ディジタルコンテンツ集合が含むディジタルコンテンツの数の統計を、それぞれ示す。
【0159】
以降に示す検証では、コンテンツ基本特徴量としてVGG-Netの第15層(FC7)の出力、4096次元を、コンテンツ集合基本特徴量として前記非特許文献4に記載のテキスト埋め込み300次元を用いた。これの各基本特徴量、及びデータセットから構築したコンテンツグラフを用いて、リンク予測モデルを学習すると共に、リンク予測モデルから直接コンテンツ特徴量を抽出する方法、及びリンク予測モデルを用いてコンテンツ特徴量モデルを学習した後にコンテンツ特徴量を抽出する方法、の2つの方法を実施した。
【0160】
このように抽出したコンテンツ特徴量の性能を評価するために、公開画像データセットを用いた実験を行った。用いたデータセットは以下の通りである。
【0161】
・食事画像の分類を目的としたデータセット: UECFOOD100、 UECFOOD256
・衣類画像の分類を目的としたデータセット: Apparel、Hipster
・画像から受ける印象の予測(positive or negative)を目的としたデータセット: Instagram
【0162】
また、これらの公開データセットに加えて、画像の共有を目的とするSNSの一つであるPinterestから独自に収集したデータセットを評価用として用意した。このデータセットは、32種類のクラスラベルと、63,000枚の画像を含み、women’s fashion、 holiday’s events、 tattoos、 science and nature、 sportsなど、様々なカテゴリのクラスラベルを含む。また、各画像が複数のクラスラベルを持つ可能性がある、マルチラベル予測をタスクとする。
【0163】
評価実験では、以下の7種類の方法を比較した。
【0164】
1.VGG:コンテンツ基本特徴量をそのまま各タスクの特徴量として利用。
2.FT-GRP:リンク予測モデルを用いず、代わりにディジタルコンテンツ集合を正解ラベルとしてVGG-Netを再学習し、この再学習後のVGG-Netを各タスクの特徴量として利用。
3.FT-WORD:リンク予測モデルを用いず、代わりにディジタルコンテンツ集合に含まれるテキスト単語を正解ラベルとしてVGG-Netを再学習し、この再学習後のVGG-Netを各タスクの特徴量として利用。
4.PROP-SC:前記実施形態のうち、コンテンツ特徴量モデルを用いず、スパース符号化を用いてリンク予測モデルから直接コンテンツ特徴量を抽出する方法。
5.PROP-FT:前記実施形態のうち、コンテンツ特徴量モデルを学習して、このコンテンツ特徴量モデルからコンテンツ特徴量を抽出する方法。
6.VGG+SC:PROP-SCのコンテンツ特徴量とVGGのコンテンツ特徴量を連結して用いる方法。
7.VGG+FT:PROC-FTのコンテンツ特徴量とVGGのコンテンツ特徴量を連結して用いる方法。
【0165】
評価指標として、二値分類をタスクとするInstagramデータセット及びマルチラベル予測をタスクとするPinterestについてはmean average precision(MAP)、多クラス分類をタスクとするUECFOOD100/256、 Apparel、Hipsterについては分類正解率(ACC)を用いた。いずれの指標も、0を最小値、1を最大値として、値が大きいほどタスクの性能が良いことを示す。
【0166】
表1に検証実験の結果を示す。
【0167】
【0168】
大規模物体認識データセットを用いて学習したVGGが各データセットにおいて優れた性能を示したが、web画像データを用いて学習したPROP-SC及びPROP-FTもそれに近い性能を得た。このことは、前記の実施形態に示した方法の有用性を示すものである。また、VGG+SC及びVGG+FTがVGGを上回る性能を得た。このことは、前述の実施形態に示した方法で抽出したコンテンツ特徴量が、大規模物体認識データセットで学習した特徴量とは大きく異なる性質の特徴量を抽出でき、かつそれが様々なドメインで適用可能であることを示している。
【0169】
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0170】
例えば上述した各実施の形態では、リンク予測モデル、コンテンツ特徴量モデルの学習と、コンテンツ特徴量の抽出、及びリンク予測とを、同一の装置で行うコンテンツ特徴量抽出について説明したがこれに限定されるものではない。例えば、リンク予測モデル、コンテンツ特徴量モデルの学習を行う装置と、コンテンツ特徴量の抽出、及びリンク予測を行う装置とに分けてもよい。
【符号の説明】
【0171】
10、210、310 入力部
20、220、320 演算部
22 リンク予測モデル記憶部
24 コンテンツ特徴量モデル記憶部
30 コンテンツ基本特徴量抽出部
32 コンテンツ集合基本特徴量抽出部
34 グラフ構築部
36 リンク予測モデル学習部
40 コンテンツ特徴量モデル学習部
42 コンテンツ特徴量算出部
44 モデル交互最適化部
46、246 リンク予測部
50、250、350 出力部
100、200、300 コンテンツ特徴量抽出装置
243 コンテンツ特徴量算出部
340 新規ディジタルコンテンツ集合リンク予測部
342 潜在変数予測モデル学習部
344 潜在変数予測部