特許6405343 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＮＥＣパーソナルコンピュータ株式会社の特許一覧

特許6405343情報処理装置、情報処理方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6405343

(24)【登録日】2018年9月21日

(45)【発行日】2018年10月17日

(54)【発明の名称】情報処理装置、情報処理方法、およびプログラム

(51)【国際特許分類】

G06F 17/30 20060101AFI20181004BHJP

【ＦＩ】

G06F17/30 330C

G06F17/30 350C

G06F17/30 340Z

【請求項の数】7

【全頁数】14

(21)【出願番号】特願2016-142633(P2016-142633)

(22)【出願日】2016年7月20日

(65)【公開番号】特開2018-13925(P2018-13925A)

(43)【公開日】2018年1月25日

【審査請求日】2017年6月20日

(73)【特許権者】

【識別番号】311012169

【氏名又は名称】ＮＥＣパーソナルコンピュータ株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】特許業務法人酒井国際特許事務所

(74)【代理人】

【識別番号】100084250

【弁理士】

【氏名又は名称】丸山隆夫

(72)【発明者】

【氏名】中地廣

【審査官】樋口龍弥

(56)【参考文献】

【文献】特開２０１５−１９７７２２（ＪＰ，Ａ）

【文献】特開２０１６−１２２２５２（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１７／３０

(57)【特許請求の範囲】

【請求項1】

指定ドキュメントに出現する単語の、前記指定ドキュメントに対する出現頻度を示す第１の単語特徴量を算出するドキュメント解析手段と、
商品についての説明に出現する単語の、前記商品についての説明に対する出現頻度を示す第２の単語特徴量を算出する商品解析手段と、
前記指定ドキュメントの第１の単語特徴量、および前記商品の第２の単語特徴量に基づいて、前記指定ドキュメントと、前記商品と、の類似度を算出する類似度算出手段と、
前記類似度に基づいて、前記指定ドキュメントに関連する第１の商品を選択する第１の商品選択手段と、
前記選択された第１の商品の第２の単語特徴量、および前記商品の第２の単語特徴量に基づいて算出された多様性と、前記類似度と、に基づいて、前記指定ドキュメントに関連する第２の商品を選択する第２の商品選択手段と、
を備え、
前記第２の商品選択手段は、前記選択された第１の商品の単語ベクトル成分、および前記商品の単語ベクトル成分に基づいて算出された情報エントロピーと、所定のしきい値よりも大きい前記類似度と、に基づいて、前記指定ドキュメントに関連する第２の商品を選択する、
ことを特徴とする情報処理装置。

【請求項2】

前記第１の商品選択手段は、前記類似度が所定のしきい値よりも大きい商品を、前記指定ドキュメントに関連する第１の商品として選択する、
ことを特徴とする請求項１に記載の情報処理装置。

【請求項3】

前記第２の商品選択手段は、前記選択された第１の商品の第２の単語特徴量、および前記商品の第２の単語特徴量に基づいて算出された多様性に重み係数を乗算した重み多様性と、所定のしきい値よりも大きい前記類似度と、に基づいて、前記指定ドキュメントに関連する第２の商品を選択する、
ことを特徴とする請求項１、または２に記載の情報処理装置。

【請求項4】

前記第２の商品選択手段は、規定の選択数量を満たすまで、前記第２の商品を選択する、
ことを特徴とする請求項１から３のいずれか１項に記載の情報処理装置。

【請求項5】

指定ドキュメントに出現する単語の、前記指定ドキュメントに対する出現頻度を示す第１の単語特徴量を算出するドキュメント解析手段と、
商品についての説明に出現する単語の、前記商品についての説明に対する出現頻度を示す第２の単語特徴量を算出する商品解析手段と、
前記指定ドキュメントの第１の単語特徴量、および前記商品の第２の単語特徴量に基づいて、前記指定ドキュメントと、前記商品と、の類似度を算出する類似度算出手段と、
前記類似度が所定のしきい値を満たす前記商品のみに絞り込む商品限定手段と、
前記絞り込んだ商品より、前記商品の広告掲載に関連する広告価格情報に基づいて、前記指定ドキュメントに関連する第１の商品を選択する第１の商品選択手段と、
前記選択された第１の商品の第２の単語特徴量、および前記商品の第２の単語特徴量に基づいて算出された多様性と、前記広告価格情報と、に基づいて、前記指定ドキュメントに関連する第２の商品を選択する第２の商品選択手段と、
を備え、
前記第２の商品選択手段は、前記選択された第１の商品の単語ベクトル成分、および前記商品の単語ベクトル成分に基づいて算出された情報エントロピーと、所定のしきい値よりも大きい前記類似度と、に基づいて、前記指定ドキュメントに関連する第２の商品を選択する、
ことを特徴とする情報処理装置。

【請求項6】

指定ドキュメントに出現する単語の、前記指定ドキュメントに対する出現頻度を示す第１の単語特徴量を算出するステップと、
商品についての説明に出現する単語の、前記商品についての説明に対する出現頻度を示す第２の単語特徴量を算出するステップと、
前記指定ドキュメントの第１の単語特徴量、および前記商品の第２の単語特徴量に基づいて、前記指定ドキュメントと、前記商品と、の類似度を算出するステップと、
前記類似度に基づいて、前記指定ドキュメントに関連する第１の商品を選択するステップと、
前記選択された第１の商品の第２の単語特徴量、および前記商品の第２の単語特徴量に基づいて算出された多様性と、前記類似度と、に基づいて、前記指定ドキュメントに関連する第２の商品を選択するステップと、
を有し、
前記第２の商品の商品を選択するステップは、前記選択された第１の商品の単語ベクトル成分、および前記商品の単語ベクトル成分に基づいて算出された情報エントロピーと、所定のしきい値よりも大きい前記類似度と、に基づいて、前記指定ドキュメントに関連する第２の商品を選択する、
ことを特徴とする情報処理方法。

【請求項7】

指定ドキュメントに出現する単語の、前記指定ドキュメントに対する出現頻度を示す第１の単語特徴量を算出する工程と、
商品についての説明に出現する単語の、前記商品についての説明に対する出現頻度を示す第２の単語特徴量を算出する工程と、
前記指定ドキュメントの第１の単語特徴量、および前記商品の第２の単語特徴量に基づいて、前記指定ドキュメントと、前記商品と、の類似度を算出する工程と、
前記類似度に基づいて、前記指定ドキュメントに関連する第１の商品を選択する工程と、
前記選択された第１の商品の第２の単語特徴量、および前記商品の第２の単語特徴量に基づいて算出された多様性と、前記類似度と、に基づいて、前記指定ドキュメントに関連する第２の商品を選択する工程と、
をコンピュータに実行させ、
前記第２の商品を選択する工程は、前記選択された第１の商品の単語ベクトル成分、および前記商品の単語ベクトル成分に基づいて算出された情報エントロピーと、所定のしきい値よりも大きい前記類似度と、に基づいて、前記指定ドキュメントに関連する第２の商品を選択する、
ことを特徴とするプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。

【背景技術】

【0002】

近年、インターネットや放送網から膨大な情報やデータ量が提供されるとともに、提供される情報も多様化してきている。また、インターネットや放送網から情報を取得しようとするユーザも増加している。このような状況の中、インターネットや放送網を使用してコンテンツを提供する事業者が、ユーザが閲覧する記事等を分析し、その記事に関連するコンテンツを推薦するシステムが既に知られている。

【0003】

上記のようなコンテンツ推薦システムに関連する技術が例えば特許文献１に開示されている。特許文献１では、ユーザが閲覧する記事の中で重要度の高いと判断されたキーワードに基づいて予め検索された商品、もしくはサービスのうち、ユーザが閲覧する記事と、商品、もしくはサービスに関連する情報（例えば商品名、商品の説明文書、および商品を使用した消費者の評価など）と、の類似度を算出して、その類似度が所定の閾値以上の商品、もしくはサービスをユーザに提供する技術が開示されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１５−０２２５５５号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかし、例えば特許文献１に開示されたような従来の技術は、閲覧する記事との類似度が高いコンテンツのみが推薦コンテンツとして提供されるため、１つの記事に複数のコンテンツを推薦しようとすると、どうしても特定のキーワードに基づいて検索し、取得されたコンテンツの推薦に偏ってしまう。また同コンテンツであったとしても、コンテンツの取得元が異なる場合などでは異なるコンテンツとして扱われて推薦されてしまい、ユーザは同コンテンツが複数並んで表示されることに不快感を抱くことがある。そのような状況の中、閲覧する記事に関連するコンテンツをバリエーション豊かに推薦できるようなコンテンツ推薦システムの確立が求められている。

【0006】

本発明は、このような実情に鑑みてなされたものであって、指定された記事に関連するコンテンツをバリエーション豊かに選択できる情報処理装置を提供することを目的とする。

【課題を解決するための手段】

【0007】

本発明に係る情報処理装置は、指定ドキュメントに出現する単語の、指定ドキュメントに対する出現頻度を示す第１の単語特徴量を算出するドキュメント解析手段と、商品についての説明に出現する単語の、商品についての説明に対する出現頻度を示す第２の単語特徴量を算出する商品解析手段と、指定ドキュメントの第１の単語特徴量、および商品の第２の単語特徴量に基づいて、指定ドキュメントと、商品と、の類似度を算出する類似度算出手段と、類似度に基づいて、指定ドキュメントに関連する第１の商品を選択する第１の商品選択手段と、選択された第１の商品の第２の単語特徴量、および商品の第２の単語特徴量に基づいて算出された多様性と、類似度と、に基づいて、指定ドキュメントに関連する第２の商品を選択する第２の商品選択手段と、を備える、ことを特徴とする。

【0008】

本発明に係る情報処理方法は、指定ドキュメントに出現する単語の、指定ドキュメントに対する出現頻度を示す第１の単語特徴量を算出するステップと、商品についての説明に出現する単語の、商品についての説明に対する出現頻度を示す第２の単語特徴量を算出するステップと、指定ドキュメントの第１の単語特徴量、および商品の第２の単語特徴量に基づいて、指定ドキュメントと、商品と、の類似度を算出するステップと、類似度に基づいて、指定ドキュメントに関連する第１の商品を選択するステップと、選択された第１の商品の第２の単語特徴量、および商品の第２の単語特徴量に基づいて算出された多様性と、類似度と、に基づいて、指定ドキュメントに関連する第２の商品を選択するステップと、を有することを特徴とする。

【0009】

本発明に係る情報処理を実現させるためのプログラムは、指定ドキュメントに出現する単語の、指定ドキュメントに対する出現頻度を示す第１の単語特徴量を算出する工程と、商品についての説明に出現する単語の、商品についての説明に対する出現頻度を示す第２の単語特徴量を算出する工程と、指定ドキュメントの第１の単語特徴量、および商品の第２の単語特徴量に基づいて、指定ドキュメントと、商品と、の類似度を算出する工程と、類似度に基づいて、指定ドキュメントに関連する第１の商品を選択する工程と、選択された第１の商品の第２の単語特徴量、および商品の第２の単語特徴量に基づいて算出された多様性と、類似度と、に基づいて、指定ドキュメントに関連する第２の商品を選択する工程と、をコンピュータに実行させることを特徴とする。

【発明の効果】

【0010】

本発明によれば、指定された記事に関連するコンテンツはサービスをバリエーション豊かに選択できる。

【図面の簡単な説明】

【0011】

【図1】本発明の実施形態にかかる情報処理装置１のハードウェア構成図である。

【図2】本発明の実施形態にかかる情報処理装置１の機能ブロック図である。

【図3】本発明の実施形態にかかる指定ドキュメントの一例である。

【図4】本発明の実施形態にかかる単語のグループ化の一例である。

【図5】本発明の実施形態にかかる指定ドキュメントの分析結果の一例である。

【図6】本発明の実施形態にかかる商品の一例である。

【図7】本発明の実施形態にかかる商品の分析結果の一例である。

【図8】本発明の実施形態にかかる商品の指定ドキュメントとの類似度を示した結果である。

【図9】本発明の実施形態にかかる類似度と多様性に基づいた商品の選択の一例である。

【図10】本発明の実施形態にかかる類似度と多様性に基づいた商品の選択の一例である。

【図11】本発明の実施形態にかかる類似度と多様性に基づいた商品の選択の一例である。

【図12】本発明の実施形態にかかる類似度と多様性に基づいた商品選択のフローチャートの一例である。

【発明を実施するための形態】

【0012】

以下、本発明の実施の形態について詳細に説明する。

【0013】

まず、本実施形態の情報処理装置１のハードウェア構成について図１を用いて説明する。ここでの情報処理装置とは、例えばパーソナルコンピュータ、タブレット端末、スマートフォンなどのネットワークに接続が可能な情報端末などがある。また、複数のコンピュータにネットワークを通じて処理要求を行うホストコンピュータやサーバなどであっても良い。尚、情報処理装置１の構成は、図１に示したものと必ずしも同じ構成である必要はなく、本実施形態を実現できるハードウェアを備えていればそれで十分である。例えばパーソナルコンピュータ、タブレット端末、スマートフォンななどであればマウスや入力キーで構成されるキーボードなどの入力装置や、液晶、および有機ＥＬなどのパネルを用いたディスプレイを備えた表示装置や、ＣＤ、もしくはＤＶＤなどに記憶されているデータを読み書きする光学ドライブなどを備えていてもよい。

【0014】

情報処理装置１は、所定のプログラムを実行することにより、情報処理装置１の全体の制御を実現するためのＣＰＵ１０と、情報処理装置１の電源が投入されたときにＣＰＵ１０が読出すプログラムを記憶する読出専用の不揮発メモリであるマスクＲＯＭ、ＥＰＲＯＭ、またはＳＳＤなどと、ＣＰＵ１０がプログラムを読み出し、演算処理等により生成したデータを一時的に書き込む作業用の揮発メモリであるＳＲＡＭやＤＲＡＭなどから構成されるメモリ１１、情報処理装置１の電源が切断されたときに種々のデータの記録を保持することが可能なＨＤＤ１２と、を備えている。

【0015】

また、情報処理装置１は、通信Ｉ／Ｆ１３を更に備えている。情報処理装置１は通信Ｉ／Ｆ１３を介してネットワーク２００に接続されている。通信Ｉ／Ｆ１３は、ＣＰＵ１０の動作に基づいてネットワーク２００経由でアクセス可能な各種情報にアクセスするものであり、通信Ｉ／Ｆ１３の具体的としてＵＳＢポートやＬＡＮポート、無線ＬＡＮポートなどがあり、外部の機器とデータの送受信が行えればどのようなものでも構わない。

【0016】

図２は、本発明の実施形態にかかる情報処理装置１の機能ブロック図である。図２に示すように、本発明にかかる情報処理装置１は、ドキュメント解析手段１００と、商品解析手段１０１と、類似度算出手段１０２と、第１の商品選択手段１０３と、第２の商品選択手段１０４と、を備えている。

【0017】

情報処理装置１のドキュメント解析手段１００は、指定ドキュメントに出現する単語の、指定ドキュメントに対する出現頻度を示す第１の単語特徴量を算出する。尚、本実施形態において「指定ドキュメント」とは、コンピュータ、もしくはユーザ自身の何かしらの操作に基づいてネットワーク２００経由で取得された文章データ等を意味する。例えば表示装置を備えるようなパーソナルコンピュータなどであれば、ネットワーク２００を経由で取得された文章データ等が、表示装置に指定ドキュメントとして表示される。「第１の単語特徴量」については後述にて説明を行う。

【0018】

ここで、指定ドキュメントとしての一例を図３に示すことにする。これは、例えばユーザが検索エンジンとして知られている「Google」（登録商標）や「Yahoo」（登録商標）などにネットワーク２００経由でアクセスを行い、取得された文章データの一例である。取得する指定ドキュメントはこのような文章データに限定されず、動画や画像などを含んでいてもよい。

【0019】

ドキュメント解析の手法の一つとして形態素解析がある。形態素解析により指定ドキュメントを構成する文章を単語レベルに分解して抽出する。また言語解析の分野では公知であるが、例えばＨＤＤ１２などに予め備えている単語辞書等で関連性の高い単語をグループ化して記憶しておくことができる。例えば、人物「Ａ山Ｂ夫」を指す単語を、グループ「Ａ山Ｂ夫」に含めるものとする場合、苗字の「Ａ山」、名前の「Ｂ夫」、もしくは愛称などを予めグループ「Ａ山Ｂ夫」と関連付けることで、それらの単語が所定のドキュメントに出現した際に一律してグループ「Ａ山Ｂ夫」に属すると判断できるわけである。

【0020】

図４は形態素解析におけるグループ化の一例である。例えばグループ「アニメＡ」であれば、指定ドキュメントにおいて「アニメＡ」、「キャラクタＡ」、「キャラクタＢ」などが出現した場合に一律してグループ「アニメＡ」に属すると判断されるように規定する。同様にグループ「声優Ｂ」であれば、声優Ｂの苗字である「○山」、名前である「△子」、および愛称である「△ちゃん」などが指定ドキュメントに出現した場合に一律してグループ「声優Ｂ」に属すると判断されるように規定する。尚、本実施形態では、説明の簡素化のために３つのグループに限定しているが、これに限定されない。また、グルーピングの条件なども様々である。このように図３の指定ドキュメントを形態素解析し、予め定められているグルーピングの規定に基づいて単語解析が行われる。

【0021】

図５は、図３の指定ドキュメントに出現する単語を予めグルーピングの規定に基づいてグループ化を行い、指定ドキュメントの特徴を表した一例である。ここでの第１の特徴量は、指定ドキュメントの全単語の出現頻度に対する各グループに属する単語の合計出現頻度をウェイトで示したものである。例えば、グループ「アニメＡ」であれば、指定ドキュメント全体のウェイトを１００％に対して、「アニメＡ」に属する単語の出現頻度の合計が５０％の割合であることを意味している。その他のグループにおいても同様に第１の特徴量が算出される。指定ドキュメントを構成する文章に出現する単語の単語量は膨大であるため、本実施形態では、単語量をできるだけ抑制するためグループ化しているが、グループ化せずに個々の単語ごとに指定ドキュメントに対する出現頻度として第１の特徴量を算出してもよい。また、第１の特徴量はパーセント表記に限定されず、分数の形で表記してもよい。

【0022】

情報処理装置１のドキュメント解析手段１００は、ＣＰＵ１０がメモリ１１に記憶されている所定のドキュメント解析方式が書き込まれているプログラムを読み出して演算処理等が実行される。演算結果などがメモリ１１、およびＨＤＤ１２などの記憶装置に一時的に記憶される。

【0023】

情報処理装置１の商品解析手段１０１は、商品についての説明に出現する単語の、商品についての説明に対する出現頻度を示す第２の単語特徴量を算出する。ここでの「商品」とは、例えば、ＥＣサイトとしての「Amazon」（登録商標）、「楽天」（登録商標）、「iTunes」（登録商標）からユーザに提供される商品、「ぐるなび」（登録商標）、「食べログ」（登録商標）、「Yelp」（登録商標）、「ホットペッパー＼ＨＯＴＰＥＰＰＥＲ」（登録商標）などからユーザに対して無償で紹介される情報、もしくはユーザに対して無償で紹介される動画や画像などネットワーク２００経由で取得可能な多岐に渡るコンテンツを指す。また、第２の単語特徴量については後述にて説明を行う。

【0024】

図６は、商品の情報の一例を示したものである。商品は予め上記のようなサイトから情報を取得し、データベース形式でＨＤＤ１２などに備えておいてもよいし、指定ドキュメントが取得されたタイミングで、指定ドキュメントから所定の方法に基づいてキーワードを抽出し、そのキーワードに基づいてその都度商品の情報を取得してもよい。例えば複数のコンピュータにネットワーク２００を通じて処理要求を行うホストコンピュータやサーバであれば、予め上記のようなサイトから商品の情報を取得し、商品データベースとして備えておくことも可能である。また、図６のような商品名や商品説明についての文書のみの情報だけでなく、例えば商品の外観が認識できる画像、および動画などを併せて取得することも可能である。また、文章情報としては、その商品を使用したユーザのコメント、更にユーザが購入する商品であれば価格情報などを併せて取得してもよい。また、商品に関連する情報としては、商品の広告を掲載する際の広告単価、および表示された広告に対するクリック数、広告の表示回数などの広告価格情報なども併せて取得が可能である。

【0025】

商品解析の手法の一つとして、ドキュメント解析手段１００での解析手法と同様に形態素解析を用いる。形態素解析により図６の商品の商品名、および商品の説明を構成する文章を単語レベルに分解して抽出する。また、ドキュメント解析手段１００の解析手法と同様に、ＨＤＤ１２などに予め備えている単語辞書等で関連性の高い単語をグループとしてまとめることができる。

【0026】

図７は、図６の商品の商品名、および商品の説明に出現する単語を予めグルーピングの規定に基づいてグループ化を行い、商品の特徴を表した一例である。ここでの第２の特徴量は、商品の商品名、および商品の説明に出現する全単語の出現頻度に対する各グループに属する単語の合計出現頻度をウェイトで示したものである。例えば、商品番号１であれば、商品番号１の商品名、および商品の説明に出現する単語全体のウェイトを１００％に対して、「アニメＡ」というグループに属する単語の出現頻度が６０％の割合であり、グループ「テレビ」に属する単語の出現頻度が４０％の割合であることを意味している。２〜９の商品についても同様に商品を構成するグルーピングが設定され、第２の特徴量が算出される。尚、本実施形態では説明の簡素化のために商品のカテゴリを「アニメＡ」、「声優Ｂ」、「俳優Ｃ」と分けて表記しているが、カテゴリに分けず、個々の商品ごとに商品についての説明に出現する単語の、商品についての説明に対する出現頻度として第２の単語特徴量を算出してもよい。また、商品を商品番号ではなく特有のＩＤと関連付けて記憶させることも可能である。

【0027】

情報処理装置１の商品解析手段１０１は、ＣＰＵ１０がメモリ１１に記憶されている所定の商品解析方式が書き込まれているプログラムを読み出して演算処理等が実行される。演算結果などがメモリ１１、およびＨＤＤ１２などの記憶装置に一時的に記憶される。

【0028】

情報処理装置１の類似度算出手段１０２は、指定ドキュメントの第１の単語特徴量、および商品の第２の単語特徴量に基づいて、指定ドキュメントと、商品と、の類似度を算出する。２つの比較対象での類似度算出の一例として、本実施形態ではコサイン類似度を用いて指定ドキュメントと、商品との類似度を算出する。

【0029】

例えば文章に出現する単語の出現回数を単語ベクトル成分としてコサイン類似度を算出する手法は公知である。本実施形態では、指定ドキュメントの単語ベクトル成分として、図５の各グループでの第１の特徴量を用いて表記すると、（０．５、０．３、０．１５、０．０２、０．０１、０．０１、０．０１）と定めることができる。そして、商品の単語ベクトル成分として、図７の例えば商品番号１の第２の特徴量を用いて表記すると、（０．６、０、０、０．４、０、０、０）と定めることができる。商品番号２〜９においても同様に単語ベクトル成分を定めることができる。

【0030】

上記のとおり、指定ドキュメントの単語ベクトル成分と、商品の単語ベクトル成分を用いてコサイン類似度を算出できる。コサイン類似度の計算式については公知であるため詳細な計算方法は割愛する。商品番号１〜９について、それぞれ計算結果を表記すると図８のようになる。図８より、商品番号１〜９の商品の中で、指定ドキュメントと最も類似度が高い商品は類似度が０．７６の商品番号３であることがわかる。また、最も類似度が低い商品は類似度が０．１８の商品番号９であることがわかる。尚、類似度の算出手段としては、コサイン類似度に限定されず、例えばユーグリッド距離などを用いてもよい。

【0031】

情報処理装置１の類似度算出手段１０２は、ＣＰＵ１０がメモリ１１に記憶されている所定の類似度演算方式が書き込まれているプログラムを読み出して演算処理等が実行される。演算された類似度がメモリ１１、およびＨＤＤ１２などの記憶装置に記憶されている商品の第２の特徴量と関連付けて記憶される。

【0032】

情報処理装置１の第１の商品選択手段１０３は、類似度に基づいて、指定ドキュメントに関連する第１の商品を選択する。ここで選択されるべき商品は、類似度が最も高い商品である。つまり、図８より商品番号３の商品が選択されることになる。尚、本実施形態では商品の数は９個だけであると想定しているが、予め類似度に所定のしきい値を設定しておき、そのしきい値以下の商品は選択対象外としてもよい。

【0033】

情報処理装置１の第１の商品選択手段１０３は、ＣＰＵ１０がメモリ１１に記憶されている所定の商品選択方式が書き込まれているプログラム、および商品の類似度の情報を読み出して演算処理等が実行される。第１の商品として選択された情報がメモリ１１、およびＨＤＤ１２などの記憶装置に一時的に記憶される。

【0034】

＜多様性に基づいた商品選択の第１の実施例＞
情報処理装置１の第２の商品選択手段１０４は、選択された第１の商品の第２の単語特徴量、および商品の第２の単語特徴量に基づいて算出された多様性と、類似度と、に基づいて、指定ドキュメントに関連する第２の商品を選択する。ここで、「選択された第１の商品」は商品番号３であるものとする。また、「第２の商品」は未選択である商品番号１、２、４〜９のいずれかであるものとする。また、「多様性」については後述にて説明を行う。

【0035】

本実施形態では、第１の商品を指定ドキュメントと類似度が最も高いものを優先的に選択し、第２の商品は、指定ドキュメントとの類似度と、商品のバリエーションを考慮した「多様性」との観点から評価を行い、その評価値が高いものを優先的に取得する。本実施形態では「多様性」の考え方の一つとして、情報エントロピーを用いることにする。情報エントロピーは、事象の起こり得る確率に基づいて情報の大きさを数値化したものであり、本実施形態における商品の選択判断に用いることは適切であると言える。尚、情報の数値化という観点で考えると、「多様性」は情報エントロピーに限定されず例えば情報利得の概念で用いられるカルバック・ライブラー情報量を用いてもよい。

【0036】

多様性を示す情報エントロピーの値を求めてみる。まず、情報エントロピーにおける事象を、本実施形態では「アニメＡ」、「声優Ｂ」、「俳優Ｃ」などの単語ベクトル成分とする。商品が選択される度に、単語ベクトル成分の第２の特徴量が合成される。今、第１の商品として選択済の商品番号３の単語ベクトル成分は、（「アニメＡ」、「グッズ」）として、（０．７、０．３）と表記される。

【0037】

次に、未選択である商品番号１、２、４〜９のそれぞれの単語ベクトル成分を合成する。例えば、商品番号１の単語ベクトル成分を合成する場合を考えてみると、合成後の単語グループの表記は、（「アニメＡ」、「グッズ」、「テレビ」）であり、それぞれの単語ベクトル成分を合成すると（１．３、０．３、０．４）となる。商品番号３と商品番号１の重複事象である「アニメＡ」に関しては０．７＋０．６で単純に和を取る。そして新事象である「テレビ」が新たに追加される。

【0038】

このように選択済の商品の単語ベクトル成分に対して、未選択の商品の単語ベクトル成分を合成して情報エントロピーが算出できる。情報エントロピーＨの演算式は公知であり、Ｈ＝−ΣＰ_ilogＰ_iで表される。Ｐ_iは単語ベクトル成分全体に対する特定の単語ベクトル成分の割合で表すことができ、例えば単語ベクトル成分の合成後の「アニメＡ」の単語ベクトル成分の割合は、単語ベクトル成分全体を２とすると、１．３／２で表され、同様に「グッズ」は０．３／２、「テレビ」は０．４／２で表される。この値を各々事象ごとに情報エントロピーＨの式に当てはめると、図９のように０．３８という値が算出される。尚、図９では「多様性」に該当する値がこの情報エントロピーＨの値であるとする。同様に、商品２、４〜９それぞれの情報エントロピーＨを算出する。

【0039】

以上のように求められた情報エントロピーＨを用いて、未選択の商品を評価する。本実施形態では、類似度と情報エントロピーＨを用いて、商品評価値を類似度＋（重み係数×Ｈ）という式で表すことにする。重み係数は任意の値であり、重み係数を大きくするほど多様性、つまり情報エントロピーの値が重視され、重み係数を小さくほど類似度が重視されるようになる。この値は、例えば実際に社会一般のサイトから取得されるドキュメントの分析を行い、最適な値を設定することもできる。本実施形態では、重み係数４という数値を一例で用いているが、この数値に限定されず、多様性の概念を考慮して商品を評価できればその他の値を用いてもよい。

【0040】

上記の式に基づいて、未選択の商品の商品評価値を算出すると、商品番号４が最も高い数値となった。つまり、２商品目として選択される商品が商品番号４の商品となる。従来であれば、指定ドキュメントとの類似度が高い商品番号１、もしくは商品番号２などの商品が優先的に選択されていたが、多様性の概念を踏まえて商品番号１、もしくは商品番号２よりも優先的に類似度の低い商品番号４の商品を２商品目に選択することができるわけである。尚、第１の商品選択の時と同様に、予め類似度に所定のしきい値を設定しておき、まず、そのしきい値以下の商品は選択対象外とする処理を事前に行ってもよい。

【0041】

次に、３商品目を選択する場合を考えてみる。２商品目を選択した場合と同様に、選択済の商品番号３、および４で合成された単語ベクトル成分（「アニメＡ」、「グッズ」、「声優Ｂ」、「音楽」）でそれぞれ（０．７、０．３、０．７、０．３）を基準として未選択の商品番号１、２、５〜９を選択する場合の情報エントロピーＨを算出して、商品評価値を算出する。算出結果として図１０に示したとおりであり、商品番号７が最も高い数値となった。つまり、３商品目として選択される商品が商品番号７の商品となる。

【0042】

次に、４商品目を選択する場合を考えてみる。２商品目、および３商品目を選択した場合と同様に選択済の商品番号３、４、および７で合成された単語ベクトル成分（「アニメＡ」、「グッズ」、「声優Ｂ」、「音楽」、「俳優Ｃ」、「テレビ」）でそれぞれ（０．７、０．３、０．７、０．３、０．７、０．３）を基準として未選択の商品番号１、２、５〜６、８〜９を選択する場合の情報エントロピーＨを算出して、商品評価値を算出する。算出結果として図１１に示したとおりであり、商品番号２が最も高い数値となった。つまり、４商品目として選択される商品が商品番号２の商品となる。以後、予め定められた選択数を満たすまで第２の商品の選択が繰り返される。

【0043】

以上のように、本実施形態では、商品を選択する順番として、まず類似度に基づいて「アニメＡ」に関連する商品が選択され、次に多様性を踏まえた評価に基づいて「声優Ｂ」に関連する商品が選択され、更に「俳優Ｃ」に関連する商品が選択される。従来の類似度を基準とした選択であれば、「アニメＡ」に関連する商品が優先的に選択されるが、本実施形態では、「アニメＡ」、「声優Ｂ」、「俳優Ｃ」などカテゴリの異なる商品をバランスよく選択することが可能となる。

【0044】

情報処理装置１の第２の商品選択手段１０４は、ＣＰＵ１０がメモリ１１に記憶されている所定の商品選択方式が書き込まれているプログラム、および商品の類似度、および第２の特徴量の情報を読み出して演算処理等が実行される。第２の商品として選択された情報がメモリ１１、およびＨＤＤ１２などの記憶装置に一時的に記憶される。

【0045】

＜多様性に基づいた商品選択の第２の実施例＞
多様性に基づいた商品選択として、第２の実施例について説明する。図６に記載されている商品などを指定ドキュメントに広告として掲載する場合では、広告を掲載することで個人や企業が収入を得ることができる。商品ごとに広告単価が定められており、その広告単価に基づいて得られる収入が決まるわけである。広告掲載による得られる収入は、広告の掲載契約が成立した時点で算出されたり、ユーザの情報端末に広告が表示された回数に基づいて算出されたり、表示された広告に対するユーザのクリック数などに基づいて算出されたりなど様々である。

【0046】

多様性に基づいた商品選択の第２の実施例として、商品の広告価格情報に基づいて商品を選択する。ここでの実施例としては、まず、類似度算出手段１０２により算出された指定ドキュメントと、商品と、の類似度に基づいて、所定のしきい値を満たす商品だけに絞り込むことにする。ここでの処理は予めメモリ１１に記憶させた所定のしきい値を読み出しプログラムに基づいてＣＰＵ１０が演算処理等を行う。次に、所定の類似度を満たした商品の中から広告価格情報に基づいて指定ドキュメントに関連する第１の商品を選択する。

【0047】

第１の商品を選択する際に、選択の基準となる広告価格情報は、広告単価そのものでもよいし、広告単価に、表示された広告に対するユーザのクリック数、もしくは表示回数などを重み付けたものであってもよい。選択される第１の商品は、広告単価が高いもの、もしくは広告単価に所定の重み付けをした広告価格情報が大きいものであることが好ましい。次に、選択された第１の商品の単語特徴量、および商品の単語特徴量に基づいて算出された多様性と、広告価格情報と、に基づいて、指定ドキュメントに関連する第２の商品を選択する。ここでの「第１の商品の単語特徴量」、および「商品の単語特徴量」は、例えば第１の実施例と同様に図７に示したような商品の商品名、および商品の説明に出現する全単語の出現頻度に対する各グループに属する単語の合計出現頻度をウェイトで表すことができる。また、グルーピングせずに商品ごとに商品についての説明に出現する単語ごとの、商品についての説明に対する出現頻度で表してもよい。

【0048】

「多様性」においては、例えば第１の実施例と同様に情報エントロピーＨを用いてもよい。このように定義することで、未選択である第２の商品の商品評価値を算出する式を広告価格情報＋（重み係数×情報エントロピー）とすることができる。重み係数は任意の値であり、重み係数を大きくするほど多様性、つまり情報エントロピーの値が重視され、重み係数を小さくほど広告価格情報が重視されるようになる。第１の実施例と同様に選択済の商品の単語ベクトル成分に、未選択である商品の単語ベクトル成分を合成し、選択済の商品と未選択の商品との多様性を考慮して第２の商品が選択される。以後、予め定められた選択数を満たすまで第２の商品の選択が繰り返される。

【0049】

このように第２の実施例では、指定ドキュメントと商品との類似性が高い商品に予め絞り込み、商品の広告価格情報と多様性を加味した商品選択の実現を可能としている。このように商品の選択を行うことで、指定ドキュメントに対する類似性を維持しつつ、例えば広告単価が高いもの、もしくは広告価格情報が大きいものに偏らせることなく、バリエーションに富んだ商品の選択が可能となる。

【0050】

図１２は、本発明の実施形態にかかる商品選択のフローチャートの一例である。

【0051】

まず、指定ドキュメントに出現する単語の指定ドキュメントに対する出現頻度を示す第１の特徴量を算出する（ステップ１）。商品についての説明に出現する単語の商品についての説明に対する出現頻度を示す第２の特徴量を算出する（ステップ２）。第１の特徴量と、第２の特徴量と、に基づいて指定ドキュメントと商品の類似度を算出する（ステップ３）。

【0052】

類似度に基づいて指定ドキュメントに類似する商品を第１商品として選択する（ステップ４）。選択された第１商品および未選択の商品の第２の特徴量に基づいて算出された多様性と、類似度と、に基づいて第２商品を選択する（ステップ５）。以後、所定の選択数を満たすまでステップ５の処理が繰り返し行われる（ステップ６）。

【0053】

本願発明を実現できるような構成であれば、用いる装置の具備する内容、および装置の数量などは本実施例に限定されない。

【符号の説明】

【0054】

１００ドキュメント解析手段
１０１商品解析手段
１０２類似度算出手段
１０３第１の商品選択手段
１０４第２の商品選択手段

【図1】