(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-03-13
(45)【発行日】2023-03-22
(54)【発明の名称】情報処理装置、情報処理方法及び情報処理プログラム
(51)【国際特許分類】
G06Q 30/0241 20230101AFI20230314BHJP
【FI】
G06Q30/0241 446
(21)【出願番号】P 2020046256
(22)【出願日】2020-03-17
【審査請求日】2021-08-19
(73)【特許権者】
【識別番号】319013263
【氏名又は名称】ヤフー株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】柴田 知秀
(72)【発明者】
【氏名】小林 隼人
(72)【発明者】
【氏名】清水 伸幸
(72)【発明者】
【氏名】田口 拓明
(72)【発明者】
【氏名】仲村 勇輝
【審査官】後藤 昂彦
(56)【参考文献】
【文献】米国特許出願公開第2016/0350802(US,A1)
【文献】特開2013-161359(JP,A)
【文献】特開2018-180932(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
学習対象のコンテンツである学習コンテンツを入力情報
としてモデルに入力した場合に、前記学習コンテンツを配信された利用者によって前記学習コンテンツが選択される度合を示す値ごとの確度を表す分布を
出力情報として出力するよう学習された前記モデルを用いて、配信対象となる配信コンテンツ
から、前記配信コンテンツを配信された利用者によって前記配信コンテンツが選択される度合
を示す値ごと
の確度を表す分布
である前記配信コンテンツの分布を特定する特定部と、
前記特定部により特定された
前記配信コンテンツの分布に基づく出力情報を出力する出力部と、
を有
し、
前記特定部は、
複数の前記配信コンテンツの分布をそれぞれ特定し、複数の前記配信コンテンツの組におけるランキングにおいて、前記配信コンテンツの分布における分散の値が分散閾値以下である前記配信コンテンツのランクよりも、前記配信コンテンツの分布における分散の値が前記分散閾値を超える前記配信コンテンツのランクを低くする、
ことを特徴とする情報処理装置。
【請求項2】
前記出力部は、
前記特定部により特定された複数の分布を重ねて表示する、
ことを特徴とする請求項
1に記載の情報処理装置。
【請求項3】
前記出力部は、
前記複数の分布の重なり方に応じた前記出力情報を出力する、
ことを特徴とする請求項
2に記載の情報処理装置。
【請求項4】
前記出力部は、
前記特定部により特定された複数の分布に基づいて、前記複数の前記配信コンテンツのうちいずれの配信コンテンツが適切かを示す前記出力情報を出力する、
ことを特徴とする請求項
1に記載の情報処理装置。
【請求項5】
前記特定部は、
特定された複数の分布に基づいて、同時に配信される複数のコンテンツの組を特定し、
前記出力部は、
前記特定部により特定された組を示す前記出力情報を出力する、
ことを特徴とする請求項
1に記載の情報処理装置。
【請求項6】
前記特定部は、
前記モデルを用いて、過去に特定された分布に対応する配信コンテンツと類似する類似コンテンツ
から、前記類似コンテンツを配信された利用者によって前記類似コンテンツが選択される度合を示す値ごとの確度を表す前記類似コンテンツの分布を
特定し、前記過去に特定された分布
と前記類似コンテンツの分布との類似度に基づいて
、前記類似度が類似閾値を上回るように前記類似コンテンツの分布を補正し、
前記出力部は、
前記特定部により補正された分布に基づく出力情報を出力する、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項7】
前記出力部は、
前記特定部により特定された分布、前記分布における確度が
確度閾値を満たす区間、前記配信コンテンツが選択される度合、前記配信コンテンツが選択される回数、または前記分布における分散を大きくすることに寄与している特徴量のうち少なくともいずれか1つである前記出力情報を出力する、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項8】
コンピュータが実行する情報処理方法であって、
学習対象のコンテンツである学習コンテンツを入力情報
としてモデルに入力した場合に、前記学習コンテンツを配信された利用者によって前記学習コンテンツが選択される度合を示す値ごとの確度を表す分布を
出力情報として出力するよう学習された前記モデルを用いて、配信対象となる配信コンテンツ
から、前記配信コンテンツを配信された利用者によって前記配信コンテンツが選択される度合
を示す値ごと
の確度を表す分布
である前記配信コンテンツの分布を特定する特定工程と、
前記特定工程により
特定された
前記配信コンテンツの分布に基づく出力情報を出力する出力工程と、
を含
み、
前記特定工程は、
複数の前記配信コンテンツの分布をそれぞれ特定し、複数の前記配信コンテンツの組におけるランキングにおいて、前記配信コンテンツの分布における分散の値が分散閾値以下である前記配信コンテンツのランクよりも、前記配信コンテンツの分布における分散の値が前記分散閾値を超える前記配信コンテンツのランクを低くする、
ことを特徴とする情報処理方法。
【請求項9】
学習対象のコンテンツである学習コンテンツを入力情報
としてモデルに入力した場合に、前記学習コンテンツを配信された利用者によって前記学習コンテンツが選択される度合を示す値ごとの確度を表す分布を
出力情報として出力するよう学習された前記モデルを用いて、配信対象となる配信コンテンツ
から、前記配信コンテンツを配信された利用者によって前記配信コンテンツが選択される度合
を示す値ごと
の確度を表す分布
である前記配信コンテンツの分布を特定する特定手順と、
前記特定手順により
特定された
前記配信コンテンツの分布に基づく出力情報を出力する出力手順と、
をコンピュータに実行させ
、
前記特定手順は、
複数の前記配信コンテンツの分布をそれぞれ特定し、複数の前記配信コンテンツの組におけるランキングにおいて、前記配信コンテンツの分布における分散の値が分散閾値以下である前記配信コンテンツのランクよりも、前記配信コンテンツの分布における分散の値が前記分散閾値を超える前記配信コンテンツのランクを低くする、
ことを特徴とする情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。
【背景技術】
【0002】
従来、クリック率を予測する技術が知られている。例えば、機械学習モデルを用いて、クリック率を予測する技術が提案されている。また、近年、自然勾配ブースティングに関する技術が知られている。
【先行技術文献】
【非特許文献】
【0003】
【文献】Tony Duan,外6名,“NGBoost: Natural Gradient Boosting for Probabilistic Prediction”,[online],2019年10月,GitHub,[令和2年3月7日検索],インターネット<URL:https://github.com/stanfordmlgroup/ngboost>
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記の従来技術では、配信対象となるコンテンツが選択される度合の予測に対する信頼性を向上させることができるとは限らない。例えば、上記の従来技術では、機械学習モデルを用いて、クリック率を予測するにすぎず、配信対象となるコンテンツが選択される度合の予測に対する信頼性を向上させることができるとは限らない。
【0005】
本願は、上記に鑑みてなされたものであって、配信対象となるコンテンツが選択される度合の予測に対する信頼性を向上させることができる情報処理装置、情報処理方法及び情報処理プログラムを提案する。
【課題を解決するための手段】
【0006】
本願に係る情報処理装置は、入力情報から実数値の分布を予測するモデルを用いて、配信対象となる配信コンテンツが選択される度合ごとに、確度を表す分布を特定する特定部と、前記特定部により生成された分布に基づく出力情報を出力する出力部と、を有することを特徴とする。
【発明の効果】
【0007】
実施形態の一態様によれば、配信対象となるコンテンツが選択される度合の予測に対する信頼性を向上させることができるといった効果を奏する。
【図面の簡単な説明】
【0008】
【
図1】
図1は、実施形態に係る情報処理方法の概要を示す説明図である。
【
図2】
図2は、実施形態に係る情報処理装置の構成例を示す図である。
【
図3】
図3は、実施形態に係る見出し情報記憶部の一例を示す図である。
【
図4】
図4は、実施形態に係る出力情報の一例を示す図である。
【
図5】
図5は、実施形態に係る出力情報の一例を示す図である。
【
図6】
図6は、実施形態に係る情報処理手順を示すフローチャートである。
【
図7】
図7は、プログラムを実行するコンピュータのハードウェア構成の一例を示す図である。
【発明を実施するための形態】
【0009】
以下に、本願に係る情報処理装置、情報処理方法及び情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略する。
【0010】
〔1.情報処理方法の概要〕
まず、
図1を参照し、実施形態に係る情報処理装置が行う情報処理方法の概要について説明する。
図1は、実施形態に係る情報処理方法の概要を示す説明図である。
図1では、情報処理装置100は、編集者等である利用者U1によって作成されたニュース等のコンテンツC1の見出しAのクリック率(CTR:Click Through Rate)の値ごとに、確度を表す分布を特定する。また、情報処理装置100は、特定した確度を表す分布に基づく出力情報を出力する。
【0011】
図1に示すように、情報処理システム1は、ログサーバ10と利用者端末20と情報処理装置100とを含む。ログサーバ10と利用者端末20と情報処理装置100とは、それぞれ所定のネットワークを介して有線または無線で互いに通信可能に接続される。なお、
図1に示す情報処理システム1には、任意の数のログサーバ10と、任意の数の利用者端末20と、任意の数の情報処理装置100とが含まれてもよい。
【0012】
ログサーバ10は、ニュース等のコンテンツを配信するサーバ装置である。ログサーバ10は、配信されたニュース等のコンテンツの見出しと見出しのクリック率(CTR:Click Through Rate)とを対応付けて記憶する。
【0013】
利用者端末20は、ニュース等のコンテンツの見出しを作成する利用者U1によって利用される情報処理装置である。例えば、利用者端末20は、スマートフォンを含む携帯電話機や、タブレット端末や、デスクトップ型PC(Personal Computer)や、ノート型PCや、PDA(Personal Digital Assistant)等である。
図1では、利用者端末20がノート型PCである例を示す。
【0014】
利用者端末20は、利用者U1の操作に従って、利用者U1によって作成されたニュース等のコンテンツC1の見出しAを情報処理装置100に送信する。また、利用者端末20は、見出しAのクリック率の値ごとに特定された確度を表す分布に基づく出力情報を受信する。利用者端末20は、出力情報を受信すると、受信した出力情報を画面に表示する。
【0015】
情報処理装置100は、コンテンツの見出しのクリック率を予測するモデルであって、クリック率の値ごとに確度を出力するモデルを用いて、見出しAのクリック率の値ごとに、確度を表す分布を特定する。また、情報処理装置100は、特定した確度を表す分布に基づく出力情報を出力する。
【0016】
ここで、従来、クリック率等のスコアを予測するモデルは、予測したスコアの値のみを出力していた。例えば、従来のスコア予測モデルは、コンテンツC1の見出しAを入力情報としてモデルに入力した場合に、見出しAのクリック率として予測される値である「0.30」を出力情報として出力する。言い換えると、従来のモデルは、入力情報から予測されるスコアをピンポイントで出力するものであった。
【0017】
一方、本願発明に係るモデルは、クリック率等のスコアごとに、確度を表す分布(以下、確率分布ともいう)を出力する。例えば、本願発明に係るモデルは、コンテンツC1の見出しAを入力情報としてモデルに入力した場合に、見出しAのクリック率が「0.25」である確度は「30%」、見出しAのクリック率が「0.30」である確度は「32%」、…というように、見出しAのクリック率の値ごとに、確度を表す分布を出力情報として出力する。言い換えると、本願発明に係るモデルは、入力情報から予測されるスコアの分布を出力する。なお、確度は最大値Xとなるように正規化しても良い。
【0018】
これにより、情報処理装置100は、見出し等のコンテンツを作成した利用者U1に対して、作成したコンテンツについて予測されるクリック率をその確度(信頼性)とともに出力することができる。例えば、情報処理装置100は、見出しAの確率分布の分散が小さい場合は、予測されるクリック率の平均値(mean)とともに、予測されるクリック率が平均値である確度が高い(つまり、平均値による予測の信頼性が高い)という情報を利用者U1に対して提供することができる。一方、情報処理装置100は、見出しAの確率分布の分散が大きい場合は、予測されるクリック率の平均値とともに、予測されるクリック率が平均値である確度が低い(つまり、平均値による予測の信頼性が低い)という情報を利用者U1に対して提供することができる。なお、情報処理装置100は、見出しAの確率分布そのものを利用者U1に対して提示しても良い。したがって、情報処理装置100は、配信対象となるコンテンツが選択される度合の予測に対する信頼性を向上させることができる。
【0019】
〔1-1.情報処理方法の一例〕
ログサーバ10は、情報処理装置100の要求に応じて、情報処理装置100に対してコンテンツの見出しとコンテンツの見出しのクリック率とを含む情報を送信する。情報処理装置100は、コンテンツの見出しとコンテンツの見出しのクリック率とを含む情報(以下、見出し情報ともいう)をログサーバ10から取得する(ステップS1)。
【0020】
情報処理装置100は、見出し情報を取得すると、コンテンツの見出しとコンテンツの見出しのクリック率とに基づいて、コンテンツの見出しのクリック率を予測するモデルであって、クリック率の値ごとに確度を出力するモデルを学習する(ステップS2)。このようなモデルは、例えば、非特許文献1に記載の自然勾配ブースティングの技術等により実現可能である。
【0021】
また、情報処理装置100は、コンテンツC1の見出しAを利用者端末20から受け付ける(ステップS3)。続いて、情報処理装置100は、見出しAを受け付けると、コンテンツの見出しのクリック率を予測するモデルであって、クリック率の値ごとに確度を出力するモデルを用いて、見出しAのクリック率ごとに、確度を表す分布を特定する(ステップS4)。
【0022】
続いて、情報処理装置100は、確度を表す分布を特定すると、特定した確度を表す分布に基づく出力情報を出力する。情報処理装置100は、特定した確度を表す分布に基づく出力情報を利用者端末20に対して配信する。例えば、情報処理装置100は、特定した確度を表す分布を出力情報として利用者端末20に対して配信する。
【0023】
これにより、情報処理装置100は、見出し等のコンテンツを作成した利用者U1に対して、作成したコンテンツについて予測されるクリック率をその確度(信頼性)とともに出力することができる。例えば、情報処理装置100は、見出しAの確率分布の分散が小さい場合は、予測されるクリック率の平均値(mean)とともに、予測されるクリック率が平均値である確度が高い(つまり、平均値による予測の信頼性が高い)という情報を利用者U1に対して提供することができる。一方、情報処理装置100は、見出しAの確率分布の分散が大きい場合は、予測されるクリック率の平均値とともに、予測されるクリック率が平均値である確度が低い(つまり、平均値による予測の信頼性が低い)という情報を利用者U1に対して提供することができる。なお、情報処理装置100は、見出しAの確率分布そのものを利用者U1に対して提示しても良い。したがって、情報処理装置100は、配信対象となる見出し等のコンテンツが選択される度合(例えば、クリック率)の予測に対する信頼性を向上させることができる。
【0024】
また、情報処理装置100は、特定した確度を表す分布における確度が所定の閾値を満たす予測区間(例えば、確度が50%以上となる予測区間)を出力情報として利用者端末20に対して配信してもよい。また、情報処理装置100は、特定した確度を表す分布における確度の積分値が50%となる平均値を中心とした予測区間を出力情報として利用者端末20に対して配信してもよい。これにより、情報処理装置100は、予測区間が小さくなるように利用者が見出し等のコンテンツを作成することを支援することができる。
【0025】
また、情報処理装置100は、見出しAに含まれる特徴量(例えば、単語やフレーズ)のうち、分散を大きくすることに寄与している特徴量を特定して、特定した特徴量を出力情報として利用者端末20に対して配信してもよい。これにより、情報処理装置100は、例えば、利用者が経験の浅い新人編集者等である場合であっても、分散を大きくすることに寄与している特徴量の使用を控えるよう促すことができる。また、情報処理装置100は、利用者に対して分散を大きくすることに寄与している特徴量の使用を控えるよう促すことにより、予測区間が小さくなるように利用者が見出し等のコンテンツを作成することを支援することができる。
【0026】
また、情報処理装置100は、見出しAに含まれる特徴量(例えば、単語やフレーズ等)のうち、分散を小さくすることに寄与している特徴量を特定して、特定した特徴量を出力情報として利用者端末20に対して配信してもよい。これにより、情報処理装置100は、例えば、利用者に対して分散を小さくすることに寄与している特徴量の使用を積極的に促すことができる。また、情報処理装置100は、利用者に対して分散を小さくすることに寄与している特徴量の使用を積極的に促すことにより、より予測区間が小さくなるように利用者が見出し等のコンテンツを作成することを支援することができる。
【0027】
また、情報処理装置100は、特定した確度を表す分布における分散が所定の閾値未満である場合は、利用者U1が作成した見出しについて予測されるクリック率の平均値を出力情報として出力してもよい。つまり、情報処理装置100は、特定した確度を表す分布における分散が所定の閾値以上である場合は、利用者U1が作成した見出しについて予測されるクリック率の平均値を出力情報として出力しない。これにより、情報処理装置100は、予測されるクリック率が平均値である可能性が高い(つまり、平均値による予測の信頼性が高い)場合のみ、予測されるクリック率の平均値を利用者U1に対して出力することができる。したがって、情報処理装置100は、配信対象となる見出し等のコンテンツのクリック率の予測に対する信頼性を向上させることができる。
【0028】
〔1-2.変形例〕
上記では、情報処理装置100による処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報処理装置100が実行する処理のバリエーションについて説明する。
【0029】
〔1-2-1.見出し2つのCTR予測〕
例えば、利用者U1は、コンテンツC1について2つの見出しAおよび見出しBを作成する。情報処理装置100は、2つの見出しAおよび見出しBを利用者端末20から受け付けて、どちらが良いかを信頼度付きで出力してもよい。例えば、情報処理装置100は、利用者端末20から受け付けた2つの見出しAおよび見出しBそれぞれのクリック率ごとに、確度を表す分布をそれぞれ特定する。続いて、情報処理装置100は、それぞれについて特定した確度を表す分布を重ねて利用者端末20の画面に表示する。
【0030】
あるいは、情報処理装置100は、見出しAの分布と見出しB分布との差分分布のうち、クリック率が0以上の範囲の面積を特定し、特定した面積を見出しAのクリック率が見出しBのクリック率よりも大きくなる確率(信頼度)として特定してもよい。例えば、情報処理装置100は、見出しAのクリック率が見出しBのクリック率よりも大きくなる確率が80%であると特定した場合、利用者端末20の画面に「見出しA<見出しB(80%)」と出力する。
【0031】
また、情報処理装置100は、信頼度(確率)だけではなく、平均値による予測の大きさの差も考慮して表示を変更してもよい。例えば、情報処理装置100は、見出しAについて予測されるクリック率の平均値が見出しBについて予測されるクリック率の平均値よりも大きくなる確率が99%であると特定した場合であっても、見出しAについて予測されるクリック率の平均値と見出しBについて予測されるクリック率の平均値との差分が所定の閾値を下回る場合は、見出しAについて予測されるクリック率の平均値と見出しBについて予測されるクリック率の平均値を同程度とみなして、利用者端末20の画面にその旨を出力する。
【0032】
〔1-2-2.見出し複数のCTR予測〕
〔1-2-2-1.システムが複数の見出しを作る場合〕
例えば、コンテンツの見出しを生成する生成モデルが、コンテンツC1について複数の見出しを生成する。情報処理装置100は、生成モデルが生成した複数の見出しを取得する。続いて、情報処理装置100は、複数の見出しそれぞれのクリック率ごとに、確度を表す分布をそれぞれ特定する。続いて、情報処理装置100は、各見出しのクリック率ごとの確度を表す分布について、分布を考慮しながら、複数の見出しの組をランキングする。例えば、情報処理装置100は、確度を表す分布における分散が大きい見出しについては、確度を表す分布における分散が小さい見出しよりも、組の中でのランクを下げる。
【0033】
例えば、情報処理装置100は、確度が80%以上となる予測区間の幅に基づいて、複数の見出しの組をリランキングする。また、情報処理装置100は、確度を表す分布が正規分布である場合には、クリック率の期待値から標準偏差に所定の定数を乗算した値を引いた数値「期待値- a*標準偏差」に基づいて、複数の見出しの組をリランキングしてもよい。
【0034】
これにより、情報処理装置100は、確度を表す分布がなだらかな見出し(上手くクリック率の予測ができない見出し)は、組の中でのランクを下げることができるため、配信対象となる見出しの組のリストのクリック率の予測に対する信頼性を向上させることができる。
【0035】
〔1-2-2-2.複数編集者が複数の見出しを作る場合〕
例えば、複数の編集者がコンテンツC1についてそれぞれ見出しを作成する。情報処理装置100は、複数の編集者それぞれによって作成された複数の見出しを取得する。続いて、情報処理装置100は、複数の見出しそれぞれのクリック率ごとに、確度を表す分布をそれぞれ特定する。続いて、情報処理装置100は、各見出しのクリック率ごとの確度を表す分布について、分布を考慮しながら、複数の見出しの組をランキングする。続いて、情報処理装置100は、ランキング上位の見出しをメタ編集者の利用者端末20に出力する。
【0036】
これにより、情報処理装置100は、複数の編集者によって作成された複数の見出しの中から、メタ編集者がより適切な見出しを選択することを支援することができる。また、情報処理装置100は、複数の編集者によって作成された複数の見出しのランキングを可視化することで、ゲーム性を付与することができる。また、情報処理装置100は、複数の編集者によって作成された複数の見出しのランキングを可視化することで、各編集者に対してよりよい見出しを作成する動機付けを与えることができる。
【0037】
〔1-2-3.見出しリストのCTR予測〕
〔1-2-3-1.足し算〕
情報処理装置100は、ニュース記事等のコンテンツの見出しのリストに表示される見出しの組を特定してもよい。また、情報処理装置100は、見出しのリストにおける各見出しの表示順を特定してもよい。例えば、情報処理装置100は、リストに含まれる複数の見出しそれぞれのクリック数(またはクリック率)ごとに、確度を表す分布をそれぞれ特定する。続いて、情報処理装置100は、特定した各見出しのクリック数ごとの確度を表す分布(または各見出しのクリック率ごとの確度の分布)を足し合わせることで、リスト全体のクリック数ごとの確度を表す分布(またはリスト全体のクリック率ごとの確度の分布)を特定する。また、情報処理装置100は、例えば、重要度でランキングされた上位X件の記事コンテンツについて、リスト全体のクリック数ごとの確度を表す分布が良くなるように、X件の記事コンテンツの中からY件の記事コンテンツを選択する。あるいは、情報処理装置100は、リスト全体のクリック数ごとの確度を表す分布の良さを表す関数の最適化問題を解くことにより、リスト全体のクリック数ごとの確度を表す分布が良いリストを選択することができる。
【0038】
これにより、情報処理装置100は、ニュース記事等のコンテンツ配信サービスの上位に表示される見出しをリスト全体の確度を表す分布を用いて最適化することができる。
【0039】
〔1-2-3-2.ブースト〕
一般的に、ニュース記事等のコンテンツの見出しのリストにおいて、内容の類似する見出しのクリック率は相互にブーストされる(ユーザが両方のコンテンツを閲覧するためクリック率が増加する)ことが知られている。そこで、情報処理装置100は、見出しの内容の類似性を考慮した関数f(A,B)(Aは見出しA、Bは見出しBを示す)でブーストされた分布を出力する。例えば、情報処理装置100は、過去の履歴から関数f(A,B)を学習する。あるいは、情報処理装置100は、見出しAの確度を表す分布と見出しBの確度を表す分布との積を用いてブーストされた分布を出力してもよい。また、情報処理装置100は、単純にブースト分を足し算してもよい。なお、見出し同士が離れている場合は相互にブーストされにくいと予想されるため、情報処理装置100は、見出しが上下に並んでいる場合のみブーストを加味してもよい。
【0040】
〔1-2-4.推薦や広告に適用する場合〕
情報処理装置100は、強化学習のバンディットアルゴリズムのように、確度を表す分布がなだらかな(予測分散が大きい)見出し(商品・広告)を敢えて出力してもよい。これにより、情報処理装置100は、作成された見出しのクリック率をテストすることができる。
【0041】
〔1-2-5.分布表示方法〕
情報処理装置100は、デモグラフィック属性ごとにモデルを生成してもよい。例えば、情報処理装置100は、コンテンツの見出しとコンテンツの見出しのクリック率とを含む情報をデモグラフィック属性ごとにログサーバ10から取得する。続いて、情報処理装置100は、見出し情報を取得すると、コンテンツの見出しとコンテンツの見出しのクリック率とに基づいて、コンテンツの見出しのクリック率を予測するモデルであって、クリック率の値ごとに確度を出力するモデルをデモグラフィック属性ごとに学習する。
【0042】
また、情報処理装置100は、デモグラフィック属性ごとに確度を表す分布を特定する。例えば、情報処理装置100は、ターゲットとなるデモグラフィック属性にチェックをしたり、重みを付けたりすることで、確度を表す分布を特定してもよい。また、情報処理装置100は、デモグラフィック属性ごとに特定した確度を表す分布を表示する。これにより、情報処理装置100は、ターゲットも加味した信頼度の高い見出し作成・選択を支援することができる。
【0043】
また、情報処理装置100は、ニュース記事等のコンテンツのカテゴリごとの平均デモグラフィック属性を用いて確度を表す分布を特定してもよい。また、情報処理装置100は、特定した確度を表す分布を表示する。これにより、情報処理装置100は、そのカテゴリに特化した(重み付き)分布を表示することができる。したがって、情報処理装置100は、そのカテゴリに特化した信頼度の高い見出し作成・選択を支援することができる。
【0044】
〔2.情報処理装置の構成例〕
次に、
図2を用いて、実施形態に係る情報処理装置100の構成について説明する。
図2は、実施形態に係る情報処理装置100の構成例を示す図である。
図2に示すように、情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、情報処理装置100は、情報処理装置100の管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示させるための表示部(例えば、液晶ディスプレイ等)を有してもよい。
【0045】
(通信部110)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、ネットワークと有線または無線で接続され、例えば、ログサーバ10と利用者端末20との間で情報の送受信を行う。
【0046】
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、
図3に示すように、見出し情報記憶部121を有する。
【0047】
(見出し情報記憶部121)
見出し情報記憶部121は、見出しに関する各種の情報を記憶する。
図3に、実施形態に係る見出し情報記憶部の一例を示す。
図3に示す例では、見出し情報記憶部121は、「見出しID」、「見出し」、「CTR」、「コンテンツURL」といった項目を有する。
【0048】
「見出しID」は、見出しを識別する識別情報を示す。「見出し」は、コンテンツの見出しを示す。「CTR」は、コンテンツの見出しのクリック率を示す。
図3では、CTRを「CTR#1」等の抽象的な文字で表すが、実際のCTRは「0.30」等の具体的な数字である。「コンテンツURL」は、見出しの元となるコンテンツのURLを示す。
【0049】
(制御部130)
図2の説明に戻って、制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
【0050】
図2に示すように、制御部130は、取得部131と、学習部132と、受付部133と、特定部134と、出力部135を有し、以下に説明する情報処理の作用を実現または実行する。なお、制御部130の内部構成は、
図2に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
【0051】
(取得部131)
取得部131は、コンテンツの見出しとコンテンツの見出しのクリック率とを含む見出し情報をログサーバ10から取得する。取得部131は、見出し情報を取得すると、取得した見出し情報を見出し情報記憶部121に格納する。
【0052】
(学習部132)
学習部132は、自然勾配ブースティングの技術を用いて、配信対象となる配信コンテンツが選択される度合を予測するモデルであって、配信対象となる配信コンテンツが選択される度合ごとに、確度を表す分布を出力するモデルを学習する。学習部132は、自然勾配ブースティングの技術を用いて、配信対象となる配信コンテンツが選択される度合の分布を出力するモデルを学習する。例えば、学習部132は、自然勾配ブースティングの技術を用いて、コンテンツの見出しのクリック率を予測するモデルであって、クリック率の値ごとに、確度を表す分布を出力するモデルを学習する。学習部132は、自然勾配ブースティングの技術を用いて、コンテンツの見出しのクリック率の分布を出力するモデルを学習する。
【0053】
より具体的には、学習部132は、取得部131が取得したコンテンツの見出しとコンテンツの見出しのクリック率とに基づいて、モデルを学習する。例えば、学習部132は、自然勾配ブースティングの技術を用いて、コンテンツの見出しを入力情報としてモデルに入力した場合に、見出しのクリック率の値ごとに、確度を表す分布を出力情報として出力するようモデルを学習する。
【0054】
(受付部133)
受付部133は、コンテンツの見出しを利用者端末20から受け付ける。受付部133は、複数のコンテンツの見出しを利用者端末20から受け付けてもよい。
【0055】
(特定部134)
特定部134は、入力情報から実数値の分布を予測するモデルを用いて、配信対象となる配信コンテンツが選択される度合ごとに、確度を表す分布を特定する。例えば、特定部134は、受付部133が受け付けたコンテンツの見出しのクリック率ごとに、確度を表す分布を特定する。特定部134は、受付部133が受け付けたコンテンツの見出しのクリック率の分布を特定する。
【0056】
具体的には、特定部134は、学習部132が学習したモデルを用いて、配信対象となる配信コンテンツが選択される度合ごとに、確度を表す分布を特定する。より具体的には、特定部134は、配信対象となる配信コンテンツを入力情報として学習部132が学習したモデルに入力する。例えば、特定部134は、受付部133が受け付けたコンテンツの見出しを入力情報として学習部132が学習したモデルに入力する。続いて、特定部134は、学習部132が学習したモデルの出力情報として出力される確度を表す分布を特定する。
【0057】
また、特定部134は、特定した確度を表す分布における確度が所定の閾値を満たす区間を特定する。例えば、特定部134は、特定した確度を表す分布に基づいて、特定した確度を表す分布における確度が所定の閾値を満たす予測区間(例えば、確度が50%以上となる予測区間)を特定する。また、特定部134は、特定した確度を表す分布が複数のピークを有する多峰性分布である場合は、特定した確度を表す分布における確度が所定の閾値を満たす全ての区間(例えば、確度が50%以上となる全ての区間)を特定してもよい。
【0058】
また、特定部134は、配信コンテンツが選択される度合を特定する。例えば、特定部134は、受付部133が受け付けたコンテンツの見出しについて予測されるクリック率の平均値(mean)を特定する。例えば、特定部134は、特定した確度を表す分布における分散が所定の閾値未満であるか否かを判定する。続いて、特定部134は、特定した確度を表す分布における分散が所定の閾値未満であると判定した場合、受付部133が受け付けたコンテンツの見出しについて予測されるクリック率の平均値を特定する。一方、特定部134は、特定した確度を表す分布における分散が所定の閾値以上であると判定した場合、受付部133が受け付けたコンテンツの見出しについて予測されるクリック率の平均値を特定しない。なお、特定部134は、特定した確度を表す分布が複数のピークを有する多峰性分布である場合は、受付部133が受け付けたコンテンツの見出しについて予測されるクリック率の最頻値(mode)を特定してもよい。
【0059】
また、特定部134は、配信コンテンツが選択される回数を特定する。例えば、特定部134は、受付部133が受け付けたコンテンツの見出しについて予測されるクリック数の平均値を特定する。例えば、特定部134は、特定した確度を表す分布における分散が所定の閾値未満であるか否かを判定する。続いて、特定部134は、特定した確度を表す分布における分散が所定の閾値未満であると判定した場合、受付部133が受け付けたコンテンツの見出しについて予測されるクリック率の平均値にコンテンツの見出しが表示される見込みの回数を乗じることにより、受付部133が受け付けたコンテンツの見出しについて予測されるクリック数の平均値を特定する。一方、特定部134は、特定した確度を表す分布における分散が所定の閾値以上であると判定した場合、受付部133が受け付けたコンテンツの見出しについて予測されるクリック数の平均値を特定しない。
【0060】
また、特定部134は、特定した確度を表す分布における分散に対して正または負の寄与度を持つ特徴量を特定する。例えば、特定部134は、受付部133が受け付けたコンテンツの見出しのクリック率ごとに特定された確度を表す分布における分散に対して負の寄与度を持つ特徴量(例えば、単語やフレーズ)を特定する。例えば、特定部134は、形態素解析の技術を用いて、受付部133が受け付けたコンテンツの見出しを形態素に分解する。続いて、特定部134は、分解された形態素の各組合せについて、その組み合わせが選択される度合ごとに、確度を表す分布を特定する。続いて、特定部134は、特定した組合せごとの確度を表す分布における分散に基づいて、確度を表す分布における分散に対して負の寄与度を持つ特徴量として、分散を大きくすることに寄与している形態素(例えば、単語)を特定する。同様にして、特定部134は、受付部133が受け付けたコンテンツの見出しのクリック率ごとに特定された確度を表す分布における分散に対して正の寄与度を持つ特徴量を特定する。例えば、特定部134は、確度を表す分布における分散に対して正の寄与度を持つ特徴量として、分散を小さくすることに寄与している形態素を特定する。
【0061】
また、特定部134は、複数の配信コンテンツがそれぞれ選択される度合ごとに、確度を表す分布をそれぞれ特定する。また、出力部135は、特定部134により特定された複数の分布を重ねて表示する。この点について
図4を用いて、実施形態に係る出力情報の一例について説明する。
図4は、実施形態に係る出力情報の一例を示す図である。
【0062】
図4に示す例では、特定部134は、コンテンツC1の見出しx
1のクリック率ごとに、確度を表す分布p
1(x
1)を特定する。また、特定部134は、コンテンツC1の見出しx
2のクリック率ごとに、確度を表す分布p
2(x
2)を特定する。また、出力部135は、特定部134により特定された確度を表す分布p
1(x
1)と確度を表す分布p
2(x
2)とを重ねて表示する。
図4では、確度を表す分布p
1(x
1)を実線で、確度を表す分布p
2(x
2)を点線で示す。
【0063】
また、特定部134は、複数の配信コンテンツがそれぞれ選択される度合ごとに、確度を表す分布をそれぞれ特定する。また、出力部135は、特定部134により特定された複数の分布を重ねて表示する。また、出力部135は、複数の分布の重なり方に応じた出力情報を出力する。例えば、出力部135は、複数の分布が重なった部分の面積や割合に応じた出力情報を出力する。この点について
図5を用いて、実施形態に係る出力情報の一例について説明する。
図5は、実施形態に係る出力情報の一例を示す図である。
【0064】
また、出力部135は、特定部134により特定された複数の分布に基づいて、複数の配信コンテンツのうちいずれの配信コンテンツが適切かを示す出力情報を出力する。例えば、
図5に示す例では、出力部135は、特定部134により特定された確度を表す分布p
1(x
1)と確度を表す分布p
2(x
2)との差分分布を出力する。また、出力部135は、確度を表す分布p
1(x
1)と確度を表す分布p
2(x
2)とが重なった部分の面積に応じた出力情報を出力する。例えば、特定部134は、見出しx
1の確度を表す分布p
1(x
1)と見出しx
2の確度を表す分布p
2(x
2)との差分分布のうち、差分クリック率が0以上の範囲であるF(x
1、x
2)の面積(
図5に示す斜線部分の面積)を特定する。続いて、特定部134は、F(x
1、x
2)の面積を見出しx
1のクリック率が見出しx
2のクリック率よりも大きくなる確率p
1-2(x
1、x
2)として特定する。出力部135は、見出しx
1のクリック率が見出しx
2のクリック率よりも大きくなる確率がp
1-2(x
1、x
2)であると特定した場合、利用者端末20の画面に「見出しx
1<見出しx
2(p
1-2(x
1、x
2))」と出力する。
【0065】
また、特定部134は、特定された複数の分布に基づいて、同時に配信される複数のコンテンツの組を特定する。例えば、特定部134は、ニュース記事等のコンテンツの見出しのリストに表示される見出しの組を特定する。また、特定部134は、見出しのリストにおける各見出しの表示順を特定してもよい。例えば、特定部134は、複数の見出し候補それぞれのクリック数(またはクリック率)ごとに、確度の分布をそれぞれ特定する。続いて、特定部134は、複数の見出し候補の中から、いくつかの見出し候補を選択して、選択した見出し候補の確度の分布を足し合わせることで、選択した見出し候補の組全体のクリック数ごとの確度の分布(またはリスト全体のクリック率ごとの確度の分布)を特定する。続いて、特定部134は、組全体のクリック数ごとの確度の分布を組同士で比較した結果に基づいて、同時に配信される複数のコンテンツの組を特定する。出力部135は、特定部134により特定された組を示す出力情報を出力する。
【0066】
また、特定部134は、過去に特定された分布に対応する配信コンテンツと類似する類似コンテンツの分布を、過去に特定された分布に基づいて補正する。例えば、特定部134は、過去に特定された分布に対応するコンテンツの見出しAと類似するコンテンツの見出しBについて特定した分布が、過去に特定された見出しAの分布から大きくずれていた場合、コンテンツの見出しBの分布が過去に特定された見出しAの分布に近づくよう補正する。出力部135は、特定部134により補正された分布に基づく出力情報を出力する。
【0067】
(出力部135)
出力部135は、特定部134により特定された分布に基づく出力情報を出力する。具体的には、出力部135は、特定部134により特定された分布、分布における確度が所定の閾値を満たす区間、配信コンテンツが選択される度合、配信コンテンツが選択される回数、または分布における分散に対して正または負の寄与度を持つ特徴量のうち少なくともいずれか1つである出力情報を出力する。例えば、出力部135は、特定部134により特定された分布に基づく出力情報を利用者端末20に対して配信する。
【0068】
例えば、出力部135は、特定部134により特定された確度を表す分布における確度が所定の閾値を満たす予測区間(例えば、確度が50%以上となる予測区間)を出力情報として利用者端末20に対して配信する。
【0069】
また、出力部135は、配信コンテンツが選択される度合を出力情報として出力する。例えば、出力部135は、特定部134により特定された確度を表す分布における分散が所定の閾値未満である場合は、配信コンテンツが選択される度合を出力し、特定部134により特定された確度を表す分布における分散が所定の閾値以上である場合は、配信コンテンツが選択される度合を出力しない。例えば、出力部135は、特定部134により特定された確度を表す分布における分散が所定の閾値未満であると判定された場合、特定部134により特定されたコンテンツの見出しについて予測されるクリック率の平均値を出力する。一方、出力部135は、特定部134により特定された確度を表す分布における分散が所定の閾値以上であると判定された場合、特定部134により特定されたコンテンツの見出しについて予測されるクリック率の平均値を出力しない。
【0070】
また、出力部135は、配信コンテンツが選択される回数を出力情報として出力する。
例えば、出力部135は、特定部134により特定された確度を表す分布における分散が所定の閾値未満である場合は、配信コンテンツが選択される回数を出力し、特定部134により特定された確度を表す分布における分散が所定の閾値以上である場合は、配信コンテンツが選択される回数を出力しない。例えば、出力部135は、特定部134により特定された確度を表す分布における分散が所定の閾値未満であると判定された場合、特定部134により特定されたコンテンツの見出しについて予測されるクリック数の平均値を出力する。一方、出力部135は、特定部134により特定された確度を表す分布における分散が所定の閾値以上であると判定された場合、特定部134により特定されたコンテンツの見出しについて予測されるクリック数の平均値を出力しない。
【0071】
また、出力部135は、特定部134により特定された分布における分散に対して正または負の寄与度を持つ特徴量を出力情報として出力する。例えば、出力部135は、特定部134により特定された分布における分散に対して負の寄与度を持つ特徴量として、特定部134により分散を大きくすることに寄与している形態素(例えば、単語)として特定された形態素を出力する。あるいは、出力部135は、特定部134により特定された分布における分散に対して正の寄与度を持つ特徴量として、特定部134により分散を小さくすることに寄与している形態素として特定された形態素を出力する。
【0072】
〔3.情報処理の手順〕
次に、
図6を用いて、実施形態に係る情報処理の手順について説明する。
図6は、実施形態に係る情報処理手順を示すフローチャートである。
図6に示す例では、情報処理装置100は、コンテンツの見出しとコンテンツの見出しのCTRとを取得する(ステップS101)。続いて、情報処理装置100は、自然勾配ブースティングの技術を用いて、コンテンツの見出しのCTRを予測するモデルであって、CTRの値ごとに確度を出力するモデルを学習する(ステップS102)。続いて、情報処理装置100は、利用者から見出しの入力を受け付ける(ステップS103)。続いて、情報処理装置100は、CTRの確率分布を生成する(ステップS104)。続いて、情報処理装置100は、確率分布に基づく出力情報を出力する(ステップS105)。
【0073】
〔4.効果〕
上述してきたように、実施形態に係る情報処理装置100は、特定部134と出力部135を有する。特定部134は、入力情報から実数値の分布を予測するモデルを用いて、配信対象となる配信コンテンツが選択される度合ごとに、確度を表す分布を特定する。出力部135は、特定部134により特定された分布に基づく出力情報を出力する。
【0074】
これにより、情報処理装置100は、配信対象となるコンテンツが選択される度合をその確度(信頼性)とともに出力することができる。したがって、情報処理装置100は、配信対象となるコンテンツが選択される度合の予測に対する信頼性を向上させることができる。
【0075】
また、特定部134は、複数の配信コンテンツがそれぞれ選択される度合ごとに、確度を表す分布をそれぞれ特定する。また、出力部135は、特定部134により特定された複数の分布を重ねて表示する。また、出力部135は、複数の分布の重なり方に応じた出力情報を出力する。また、出力部135は、特定部134により特定された複数の分布に基づいて、複数の配信コンテンツのうちいずれの配信コンテンツが適切かを示す出力情報を出力する。
【0076】
これにより、情報処理装置100は、複数の配信コンテンツそれぞれが選択される度合をその確度(信頼性)とともに出力することができる。したがって、情報処理装置100は、利用者に対して、複数の配信コンテンツの中からより適切な見出しを選択することを支援することができる。
【0077】
また、特定部134は、特定された複数の分布に基づいて、同時に配信される複数のコンテンツの組を特定する。出力部135は、特定部134により特定された組を示す出力情報を出力する。
【0078】
これにより、情報処理装置100は、利用者に対して、複数の配信コンテンツの中からより適切な配信コンテンツの組を選択することを支援することができる。
【0079】
また、特定部134は、過去に特定された分布に対応する配信コンテンツと類似する類似コンテンツの分布を、過去に特定された分布に基づいて補正する。出力部135は、特定部134により補正された分布に基づく出力情報を出力する。
【0080】
これにより、情報処理装置100は、配信対象となるコンテンツが選択される度合の予測に対する信頼性を向上させることができる。
【0081】
また、出力部135は、特定部134により特定された分布、分布における確度が所定の閾値を満たす区間、配信コンテンツが選択される度合、配信コンテンツが選択される回数、または分布における分散を大きくすることに寄与している特徴量のうち少なくともいずれか1つである出力情報を出力する。
【0082】
これにより、情報処理装置100は、分布における確度が所定の閾値を満たす区間が小さくなるように利用者が見出し等のコンテンツを作成することを支援することができる。
【0083】
〔5.ハードウェア構成〕
また、上述してきた実施形態に係る情報処理装置100は、例えば
図7に示すような構成のコンピュータ1000によって実現される。
図7は、情報処理装置100の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を備える。
【0084】
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
【0085】
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、所定の通信網を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを所定の通信網を介して他の機器へ送信する。
【0086】
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。
【0087】
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0088】
例えば、コンピュータ1000が情報処理装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。
【0089】
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0090】
〔6.その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0091】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0092】
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0093】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、特定部は、特定手段や特定回路に読み替えることができる。
【符号の説明】
【0094】
1 情報処理システム
10 ログサーバ
20 利用者端末
100 情報処理装置
110 通信部
120 記憶部
121 見出し情報記憶部
130 制御部
131 取得部
132 学習部
133 受付部
134 特定部
135 出力部