特許第6243885号(P6243885)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ NECパーソナルコンピュータ株式会社の特許一覧

<>
  • 特許6243885-情報処理装置、およびプログラム 図000002
  • 特許6243885-情報処理装置、およびプログラム 図000003
  • 特許6243885-情報処理装置、およびプログラム 図000004
  • 特許6243885-情報処理装置、およびプログラム 図000005
  • 特許6243885-情報処理装置、およびプログラム 図000006
  • 特許6243885-情報処理装置、およびプログラム 図000007
  • 特許6243885-情報処理装置、およびプログラム 図000008
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6243885
(24)【登録日】2017年11月17日
(45)【発行日】2017年12月6日
(54)【発明の名称】情報処理装置、およびプログラム
(51)【国際特許分類】
   G06F 17/30 20060101AFI20171127BHJP
   G06F 17/27 20060101ALI20171127BHJP
【FI】
   G06F17/30 340A
   G06F17/30 210D
   G06F17/30 170A
   G06F17/27 670
【請求項の数】10
【全頁数】12
(21)【出願番号】特願2015-204885(P2015-204885)
(22)【出願日】2015年10月16日
(65)【公開番号】特開2017-76346(P2017-76346A)
(43)【公開日】2017年4月20日
【審査請求日】2016年9月28日
(73)【特許権者】
【識別番号】311012169
【氏名又は名称】NECパーソナルコンピュータ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】特許業務法人酒井国際特許事務所
(74)【代理人】
【識別番号】100084250
【弁理士】
【氏名又は名称】丸山 隆夫
(72)【発明者】
【氏名】竹本 剛
【審査官】 樋口 龍弥
(56)【参考文献】
【文献】 特開2008−158590(JP,A)
【文献】 特開2012−014696(JP,A)
【文献】 特開2004−361992(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
G06F 17/27
(57)【特許請求の範囲】
【請求項1】
ドキュメントと、前記ドキュメントに出現する単語であるタームとについて、前記ドキュメントにおける出現傾向が類似する前記タームをグループ化したタームクラスタと、前記タームの出現傾向が類似する前記ドキュメントをグループ化したドキュメントクラスタとをデータベース化して記憶する記憶手段と、
第1のドキュメントから単語を抽出し、前記抽出された単語に基づいて、前記第1のドキュメントに関連する前記ドキュメントクラスタを特定するドキュメントクラスタ特定手段と、
前記特定されたドキュメントクラスタにおいて、前記単語に該当する前記タームで同一タームクラスタに属する第1の単語、および第2の単語を抽出する抽出手段と、
前記第1の単語、および前記第2の単語が前記第1のドキュメントで連続的に表記されているとき、前記第1の単語、および前記第2の単語を合成した合成語を生成する合成手段と、
前記合成語をキーワードとして、前記キーワードに関連するコンテンツを取得する取得手段と、
を備えることを特徴とする情報処理装置。
【請求項2】
前記ドキュメントは、ネットワーク経由でアクセス可能なパブリックドキュメントの集合体である、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記ドキュメントは、前記情報処理装置のユーザが、前記情報処理装置を用いてネットワーク経由でアクセスし、閲覧したユーザドキュメントの集合体である、
ことを特徴とする、請求項1に記載の情報処理装置。
【請求項4】
前記合成手段は、前記第1の単語、および前記第2の単語が、前記第1のドキュメントで常に連続的に表記されている場合、前記第1の単語、および前記第2の単語を合成した合成語を生成する、
ことを特徴とする請求項1から3のいずれか1項に記載の情報処理装置。
【請求項5】
前記第1の単語と、前記第2の単語との共起性、および出現頻度を示すワードスコアを算出する算出手段と、
を更に備え、
前記合成手段は、前記第1の単語、および前記第2の単語が前記第1のドキュメントで連続的に表記されているとき、および前記ワードスコアが所定のしきい値よりも大きいときに、前記第1の単語、および前記第2の単語を合成した合成語を生成する、
ことを特徴とする請求項1から4のいずれか1項に記載の情報処理装置。
【請求項6】
前記合成手段は、前記ワードスコアが所定のしきい値よりも小さいとき、前記第1の単語、および前記第2の単語を合成語しない、
ことを特徴とする請求項5に記載の情報処理装置。
【請求項7】
前記共起性は、前記ドキュメントにおける前記タームの出現傾向が近いほど高く、前記ドキュメントにおける前記タームの出現傾向が遠いほど低くなる、
ことを特徴とする請求項5、または6に記載の情報処理装置。
【請求項8】
前記記憶手段は、前記情報処理装置のユーザによる前記情報処理装置の操作履歴に基づいて前記タームごとに特定される興味度を記憶する、
ことを特徴とする請求項1から7のいずれか1項に記載の情報処理装置。
【請求項9】
前記ドキュメントクラスタ特定手段は、前記抽出された単語に該当する前記タームの出現頻度が高く、前記抽出された単語以外の前記タームの出現頻度の低い前記ドキュメントクラスタを特定する、
ことを特徴とする請求項1から8のいずれか1項に記載の情報処理装置。
【請求項10】
コンピュータに、
ドキュメントと、前記ドキュメントに出現する単語であるタームとについて、前記ドキュメントにおける出現傾向が類似する前記タームをグループ化したタームクラスタと、前記タームの出現傾向が類似する前記ドキュメントをグループ化したドキュメントクラスタとをデータベース化して記憶するステップと、
第1のドキュメントから単語を抽出し、前記抽出された単語に基づいて、前記第1のドキュメントに関連する前記ドキュメントクラスタを特定するステップと、
前記特定されたドキュメントクラスタにおいて、前記単語に該当する前記タームで同一タームクラスタに属する第1の単語、および第2の単語を抽出するステップと、
前記第1の単語、および前記第2の単語が前記第1のドキュメントで連続的に表記されているとき、前記第1の単語、および前記第2の単語を合成した合成語を生成するステップと、
前記合成語をキーワードとして、前記キーワードに関連するコンテンツを取得するステップと、
実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、およびプログラムに関する。
【背景技術】
【0002】
従来より、商品名や所定のキーワードに基づいて、ユーザの興味度が高いと推定されるコンテンツ情報を提供するというレコメンド技術が存在する。従来のレコメンド技術は、ユーザが過去に閲覧したドキュメントの情報を蓄積しておき、ドキュメントに含まれるタームのうち、出現頻度の高いタームをキーワードとして検索されたコンテンツを提供するものである。近年では、ユーザが過去に閲覧したドキュメントを基に、ドキュメントの属するジャンルと、ドキュメント内のタームと、をクラスタ化したデータベースを生成し、そのデータベースを基にユーザの嗜好にマッチするキーワードからコンテンツを提供できる技術が開示されている。
【0003】
ユーザが過去に閲覧したドキュメント内に含まれる単語をキーワードとするだけでは、真にユーザの嗜好にマッチするコンテンツの検索を行うに不十分であるといえる。近年のレコメンド技術は、ユーザが過去に閲覧したドキュメントを、ドキュメントの属するジャンルと、ドキュメント内のタームと、をクラスタ化することで、現在ユーザが閲覧しているドキュメントのジャンル、およびユーザの嗜好性が高いタームからレコメンドを行うための適切なキーワードが抽出できるという点で注目されている。
【0004】
コンテンツの検索に用いられるキーワードは、所謂標準用語、つまり一般的に用いられている用語だけとは限らない。レコメンド技術で用いられている機器には、ある程度の標準用語、一般用語が大量に蓄積されている辞書機能が組み込まれている場合が多く、コンテンツを検索する際のキーワードはその辞書機能から抽出されることになる。
【0005】
現在開示されているレコメンド技術では、特殊な言葉にもある程度対応できるように、ユーザの閲覧したドキュメントから辞書機能に未登録の言葉が発見された際には、辞書の学習機能が働き未登録の言葉を追加登録して辞書機能を充実されるものもある。未登録の言葉を辞書機能に登録する時は、その言葉が特定のユーザだけでなく不特定多数のユーザにも使われているものなのかをジャッジする時間が必要になる。つまり未登録の言葉の出現から辞書機能への登録までには少なからずタイムラグが発生する可能性が高く、ジャッジの期間中は、その未登録の言葉は情報として見なされず無視されてしまう。また、辞書機能に登録される言葉はデータであるため、追加登録されるごとに辞書機能のデータ量が蓄積されていくため、データ量の増大も課題となってくる。
【0006】
そこで、近年のレコメンド技術には、辞書機能に未登録の言葉であっても、その言葉がユーザの嗜好にマッチしている言葉なのかを判断し、ユーザの嗜好にマッチしている言葉であればその未登録の言葉をコンテンツを検索する際にキーワードとして抽出できる技術が求められている。
【0007】
特許文献1では、単語を合成させる技術して、ドキュメント内の文章を形態素解析によって分解し、共有複合語(例 上下水道)などが存在した際にその共有複合語の意味を解析できる技術が開示されている。
【0008】
特許文献1では、共有複合語の意味を解析できることで、一部の特殊な用語がどのような意味であるかを理解することができる。しかし、特殊な用語は共有複合語に限られないため、ユーザの嗜好にマッチするキーワードを適切に抽出できるとは言い難い。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開平6−223056号公報
【発明の概要】
【発明が解決しようとする課題】
【0010】
そこで、本発明は、上記課題に鑑みてなされたもので、その目的とするところは、辞書機能に未登録の言葉であっても、その言葉がユーザの嗜好にマッチしているかを判断し、ユーザの嗜好にマッチしていればその言葉をコンテンツを検索するときのキーワードとして扱うことができる情報処理装置を提供することである。
【課題を解決するための手段】
【0011】
本発明に係る情報処理装置は、ドキュメントと、ドキュメントに出現する単語であるタームとについて、ドキュメントにおける出現傾向が類似するタームをグループ化したタームクラスタと、タームの出現傾向が類似するドキュメントをグループ化したドキュメントクラスタとをデータベース化して記憶する記憶手段と、第1のドキュメントから単語を抽出し、抽出された単語に基づいて、第1のドキュメントに関連するドキュメントクラスタを特定するドキュメントクラスタ特定手段と、特定されたドキュメントクラスタにおいて、単語に該当するタームで同一タームクラスタに属する第1の単語、および第2の単語を抽出する抽出手段と、第1の単語、および第2の単語が第1のドキュメントで連続的に表記されているとき、第1の単語、および第2の単語を合成した合成語を生成する合成手段と、合成語をキーワードとして、キーワードに関連するコンテンツを取得する取得手段と、を備えることを特徴とする。
【0012】
本発明に係る情報処理装置を実行するためのプログラムは、ドキュメントと、ドキュメントに出現する単語であるタームとについて、ドキュメントにおける出現傾向が類似するタームをグループ化したタームクラスタと、タームの出現傾向が類似するドキュメントをグループ化したドキュメントクラスタとをデータベース化して記憶するステップと、第1のドキュメントから単語を抽出し、抽出された単語に基づいて、第1のドキュメントに関連するドキュメントクラスタを特定するステップと、特定されたドキュメントクラスタにおいて、単語に該当するタームで同一タームクラスタに属する第1の単語、および第2の単語を抽出するステップと、第1の単語、および第2の単語が第1のドキュメントで連続的に表記されているとき、第1の単語、および第2の単語を合成した合成語を生成するステップと、合成語をキーワードとして、キーワードに関連するコンテンツを取得するステップと、を含むことを特徴とする。
【発明の効果】
【0013】
本発明によれば、辞書機能に未登録の言葉でも、その言葉がユーザの嗜好にマッチした言葉であればその言葉をコンテンツを検索するときのキーワードとして扱うことができる。
【図面の簡単な説明】
【0014】
図1】本実施例の機能ブロックを示す図である。
図2】本実施例のハードウェア構成を示す図である。
図3】本実施例で用いる指定されたドキュメントの1例である。
図4】単語分解による合成単語候補の抽出する1例である。
図5】合成語候補のクラスタ化データにおける興味度の1例である。
図6】合成語候補の単語を抽出するまでのフローチャートである。
図7】ワードスコアの算出から単語の合成を行うフローチャートである。
【発明を実施するための形態】
【0015】
本発明を実施するための形態について図面を参照して説明する。図1は本実施形態の情報処理装置の機能ブロックを示すものである。本実施形態で用いる情報処理装置1は、記憶手段10、ドキュメントクラスタ特定手段11、抽出手段12、合成手段13、取得手段14から構成されている。
【0016】
記憶手段10は、ドキュメントと、ドキュメントに出現する単語であるタームとについて、ドキュメントにおける出現傾向が類似するタームをグループ化したタームクラスタと、タームの出現傾向が類似するドキュメントをグループ化したドキュメントクラスタとをデータベース化して記憶する。データベース化されたデータはデータベース114に記憶される。閲覧している様々なジャンルのドキュメントでのタームの出現傾向から特定のタームを集約させてグループを作り、各タームが属するタームクラスタと、ドキュメントが属するドキュメントクラスタを複数備えるデータベースが生成される。ここで、ドキュメントは、不特定ユーザがネットワークを通じてアクセス可能なパブリックなドキュメントがあり、1例としてはyahooなどの総合ソーシャルサイトなどがある。また、情報処理装置1のユーザ個人が操作し、アクセスしたユーザ個人特有なドキュメントの情報もある。
【0017】
ドキュメントクラスタ特定手段11は、指定されたドキュメントから単語を抽出し、抽出された単語と記憶手段10に記憶されているデータベース、から指定されたドキュメントが、どのドキュメントクラスタに属するかを特定する。例えば、ユーザが現在「アイドル」に関するドキュメントを閲覧しているとする。指定されたドキュメントの単語の出現傾向が、ある特定のドキュメントクラスタに属するタームと類似性が高いとき、閲覧しているドキュメントはそのドキュメントクラスタに属していると判断される。つまり、抽出された単語に該当するタームの出現頻度が高く、抽出された単語以外のタームの出現頻度の低いドキュメントクラスタを、関連するドキュメントクラスタとして特定することが可能である。
【0018】
尚、指定されたドキュメントから単語を抽出する際、単語への分解粒度は、形態素レベルの分解でもよいが、できるだけ記憶手段10に記憶されているタームと同じレベルになるよう合わせることが好ましい。抽出された単語とデータベース内のタームが同レベルでないと、ドキュメントクラスタの特定が困難になってしまうからである。
【0019】
抽出手段12は、特定されたドキュメントクラスタにおいて、抽出された単語に該当するタームで、同一タームクラスタに属する少なくとも2つ以上の単語を抽出する。特定されたドキュメントクラスタ内で同一タームクラスタに属するという条件で抽出された単語同士は、共起性が高いものとなっている。ここで、共起性とは、例えばあるドキュメントクラスタに属する複数のドキュメントを見たとき、その複数のドキュメントに出現する2つのタームに着目し、それらのタームのドキュメントごとの出現回数の差分を取り、複数のドキュメントにおけるその差分の和を算出することで求めることができる。差分の和が小さい程、それらのタームの出現傾向が類似しているため、共起性が高いと判断できる。出現回数だけでなく、タームの興味度など出現傾向に関するパラメータであればよい。尚、抽出の条件として、ドキュメントの分解粒度にもよるが、そもそもコンテンツを検索する際のキーワードは圧倒的に名詞であることが多いため、特定の品詞(ここでは名詞)以外の品詞は抽出されないようにすることも可能である。
【0020】
合成手段13は、第1の単語、および第2の単語が指定されたドキュメントで連続的に表記されているとき、第1の単語、および第2の単語を合成した合成語を生成する。1例として、「ももクロ」という合成語を考えると、単語として抽出された「もも」と「クロ」がある特定のタームクラスタに共に該当するタームとして属しており、指定されたドキュメント内で常に連続的に表記されていたため、「もも」と「クロ」を合成した「ももクロ」という合成語として扱う。尚、連続的に表記されている判定としては、指定されたドキュメントで「もも」と「クロ」が常に連続的に表記されていれば連続的に表記されているとする。またデータベースの同一タームクラスタでの「もも」と「クロ」の出現回数が同回数であるかどうかを見ることでも判定できる。ただ、出現回数であれば、必ずしも回数が一致するとは限らないので、出現回数の誤差にしきい値を設けて出現回数が限りなく近い場合は共起性があると判断して合成語として扱うこともできる。
【0021】
また、合成手段13における合成語して扱う判定方法として、抽出手段12により抽出された少なくとも2つ以上の単語の共起性、および出現頻度を示すワードスコアを算出することで判定を行うこともできる。所定のワードスコアを算出の式に当てはめ、ワードスコアの値が所定のしきい値よりも大きければ合成語として扱う。勿論、ドキュメント内で常に連続的に表記されているかを見て、更にワードスコアの値を見て、合成語として扱ってもよいかを判断することもできる。
【0022】
取得手段14は、合成手段13により生成された合成語をキーワードとして、キーワードに関連するコンテンツを取得する。キーワードに関連するコンテンツの取得は、例えばネットワーク介して接続される検索サーバにキーワードとともに検索要求を送信し、検索サーバからキーワードと所定の関連を有する情報である検索結果を受信することによって実行される。
【0023】
次に本実施形態の情報処理装置のハードウェア構成について図2を用いて説明する。尚、情報処理装置の構成は、図2に示したものと必ずしも同じ構成である必要はなく、本実施形態を実現できるハードウェアを備えていればそれで十分である。
【0024】
情報処理装置1は、所定のプログラムを実行することにより、情報処理装置1の全体の制御を実現するためのCPU101と、情報処理装置1の電源が投入されたときにCPU101が読出すプログラムを記憶する読出専用メモリ(Read Only Memory(ROM))102と、CPU101が作業用メモリとして使用するランダム・アクセス・メモリ(Random Access Memory(RAM))103と、情報処理装置1の電源が切断されたときに種々のデータの記録を保持することが可能なHDD104と、マウスや入力キーで構成される入力装置105と、液晶、および有機ELなどのパネルを用いたディスプレイを備えた表示装置106と、を備えている。尚、本実施例で用いる所定のしきい値などの情報はROM102、およびRAM103などに格納されている。
【0025】
また、情報処理装置1は、他の専有機能を制御する制御部107を有し、制御部107は、抽出部108と、興味解析部109と、記憶部110と、通信I/F111と、コンテンツ取得部112と、単語同士を合成して合成語を生成する合成部113と、閲覧ドキュメントのクラスタ化データを記憶するデータベース114と、を備えており、これらの専有機能はCPU101からの指令に基づいて連動して動作する。WEBサーバ115は通信I/Fからネットワークを介して接続されている。
【0026】
抽出部108は、指定されたドキュメントから単語の抽出を行う。単語の分解レベルに制限は設けないが、データベース114に記憶されているクラスタ化データにおけるタームと同レベルであることが好ましい。閲覧ドキュメントの文章を単語分解された情報は所定の記憶媒体、例えば記憶部110に記憶される。また所定の記憶媒体は、HDD104であってもよい。抽出手段12は、CPU101の所定プログラムの動作に伴い、抽出部108により実現可能である。
【0027】
興味解析部109は、データベース114に記憶されている指定されたドキュメントの単語情報、およびクラスタ化データベースの情報から同一タームクラスタに属する2つ以上の単語の興味度を算出し、ユーザの興味度が高いターム情報を抽出することができる。算出した興味度はデータベース114のクラスタ化データに併せて記憶される。算出した興味度から2つ以上の単語の共起性の算出(本実施形態ではワードスコアの算出)も行うことができる。ユーザの興味度はデータベース114に記憶され、共起性の算出結果は主に記憶部110などに格納されるが、HDD104などに格納するような構成も可能である。また、単語同士の共起性を判断するしきい値の情報はROM102、およびRAM103に記憶されているが、興味解析部109に記憶させるという構成も可能である。
【0028】
また、興味度の算出方法としては、様々な方法があるが、ここでの1例としては図5の表で、特定されたドキュメントクラスタに出現する全タームの出現回数を分母として、個々のタームの出現回数を分子とした計算により求めることができる。タームの出現回数以外の概念を用いて興味度を算出することも可能であるが、いずれの算出方法でもドキュメントに出現するタームの出現回数が多いほど、ユーザの興味度が高いということは明白であると言える。
【0029】
記憶部110は、閲覧ドキュメントの文章の単語情報、および単語の共起性の算出結果などの情報を一時的に記憶する。記憶媒体としては、USBフラッシュメモリ、SDカード、ハードディスクなどが一般的であるが、記憶するデータの容量等に合わせて設置することが可能である。
【0030】
通信I/F111は、外部の機器やコンピュータ等の電子機器との間で各種情報を入出力するためのインターフェースであり、ネットワークを介してWEBサーバとの通信を行う。通信I/F111は、例えばUSBポートやLANポート、無線LANポートなどがあり、外部の機器とデータの送受信が行えればどのようなものでも構わない。
【0031】
コンテンツ取得部112は、キーワードを基に選択されたコンテンツ情報の全体を、通信I/F111を介して所定のWEBサイト等の配信元から取得する。また、設定に応じて、詳細表示画面を表示させるコンテンツ情報の全体を取得するようにしてもよい。
【0032】
例えばコンテンツ情報の種類がWEBページである場合、コンテンツ取得部112は、WEBページに含まれる全ての画像データやXMLデータなどのデータ全体を取得する。
【0033】
合成部113は、指定されたドキュメントから抽出された単語が所定の条件を満たしているとき、単語同士を合成する。所定の条件は、興味度解析部109より同一タームクラスタに属する2つ以上の単語が指定されたドキュメント内で常に連続的に表記されていること、または同一タームクラスタに属する2つ以上の単語のワードスコアの値が所定のしきい値よりも大きいと判断されたときなどである。単語の共起性の情報は主に記憶部110から読み出される。判定の際のしきい値は基本的にはROM102、およびRAM103に記憶されているが、合成部113に記憶させるという構成も可能である。
【0034】
データベース114は、世間一般で閲覧されているドキュメントを格納し、タームをクラスタ化したタームクラスタと、ドキュメントをクラスタ化したドキュメントクラスタと、に属するタームの出現回数をマトリクス表記したデータとして記憶する。更にユーザ個人が過去に閲覧したドキュメントを格納し、世間一般で閲覧されているドキュメントに出現するタームの出現回数と、ユーザ個人が閲覧したドキュメントに出現したタームの出現回数とを比較することで算出したタームの興味度を併せて記憶する。また、ユーザ個人が情報処理装置1を操作し、閲覧したドキュメントのみから生成したデータベースを記憶することもできる。
【0035】
実施例:(合成語候補の単語抽出)
次に、1つ目の他の実施例として、合成語候補の単語を抽出する方法をフローチャートに従って説明する。図6は、本実施形態における合成語候補の単語を抽出するフローチャートである。尚、本実施例では、ある特定の記事(ドキュメント)を閲覧していることを想定した具体例を基に説明を進めていく。図3図5は具体例で用いられるドキュメントの内容、単語分解、クラスタ化データのユーザ興味度について示したものである。
【0036】
まず、図3はユーザが閲覧しているドキュメントの記事詳細を示したものである。ここでは、「ももクロ」のライブ記事を閲覧していると想定する。図3のドキュメントから単語を抽出し(ステップ1)、抽出した単語と記憶手段10に記憶されているデータベースを用いてドキュメントがどのドキュメントクラスタに属しているかを特定する(ステップ2)。データベースは例えば図5に示しているような形を1例として挙げる。図5は、X軸にドキュメントクラスタ、Y軸にタームを並べた表である。X軸とY軸の交点の値に出現回数を基に算出した興味度を記載している。出現回数、および出現頻度は図示していないが、興味度と併せて表記することもできる。閲覧しているドキュメントから抽出された単語に該当するタームの出現頻度が高く、抽出された単語以外のタームの出現頻度の低いドキュメントクラスタが、関連するドキュメントクラスタとして判断される。
【0037】
次に、特定されたドキュメントクラスタにおいて同一タームクラスタ内に抽出された単語に該当するタームが2つ以上存在するかを確認する(本実施形態では「もも」と「クロ」が該当)(ステップ3)。単語分解は図4に示している通りである。図4の単語分解後の表記はあくまで1例であり、全ての単語を記憶しておく必要はなく、分解された単語のうち、例えば名詞、固有名詞、形容詞だけを記憶するなど、品詞を絞った形で記憶してもよい。ドキュメントの量が膨大であるため、指定されたドキュメントが属するドキュメントクラスタにおいて、分解された単語に該当するタームが属するタームクラスタは自ずと定まる。ここでの1例では、指定されたドキュメントは「ライブ」に関するドキュメントクラスタに属し、「もも」と「クロ」の単語は「アイドル」に関するタームクラスタに属することになる。
【0038】
「ライブ」に関連するドキュメントクラスタで「もも」と「クロ」が同一タームクラスタに該当するタームで抽出されたとき、同一タームクラスタに属していれば、合成単語の候補として抽出されることになる(ステップ4)。ここで、「もも」と「クロ」がデータベースに含まれていないか、もしくは、「もも」と「クロ」が同一タームクラスタに含まれていないときは、「もも」と「クロ」は共起性が低く、出現傾向に相関性がないと判定される。(ステップ5)。
【0039】
実施例:(ワードスコアからの単語の合成)
次に、2つ目の他の実施例として、抽出した単語を合成する手順をフローチャートに従って説明する。図7は、本実施形態における単語の合成の手順を示すフローチャートである。尚、本実施例ではある特定の記事(ドキュメント)を閲覧していることを想定した具体例を基に説明を進めていく。
【0040】
所定の条件により抽出された「もも」と「クロ」の合成ワードスコアを算出する(ステップ6)。合成ワードスコアとは以下の式(1)で示される。
【0041】
ワードスコアは、

ワードスコア= √(P(w1,G)2+P(w2,G)2) 式(1)

という式で求めることができる。
【0042】
各符号の説明は下記の通りである。
P(w1,G) = w1,Gが同時に発生する状態での興味度
P(w2,G) = w2,Gが同時に発生する状態での興味度
【0043】
ここでは、「もも」、「クロ」のワードについて具体例を記載しているため、上記式(1)でのw1が「もも」、w2が「クロ」に相当して算出される。興味度、および出現頻度は共にデータベース上の出現回数を基に算出される。また、ジャンルはデータベースでのドキュメントクラスタを指しており、ここでは「ライブ」を指している。算出された合成ワードスコアの値が所定のしきい値よりも大きいとき(ステップ7)、「もも」と「クロ」がドキュメント内で連続的に表記されているかを確認する(ステップ8)。連続的に表記されているかは、指定されたドキュメント内で、1箇所の「もも」と「クロ」を確認した際に連続していれば連続的に表記されていると見なすことができるが、指定されたドキュメントの全ての「もも」と「クロ」が連続的に表記されているかを見ることで、共起性の信頼度が更に増すことになる。
【0044】
ドキュメント内で「もも」と「クロ」が連続的に表記されているとき、「もも」と「クロ」を合成した「ももクロ」という合成語として扱う(ステップ9)。「もも」と「クロ」を「ももクロ」という合成語として扱われるとき、「ももクロ」という合成語をキーワードとして、キーワードに関連するコンテンツを取得する(ステップ10)。また「もも」、「クロ」で算出した合成ワードスコアの値が所定のしきい値よりも大きくない、または「もも」、「クロ」はドキュメント上で連続していないときは、「もも」と「クロ」を合成単語として扱わない(ステップ11)。
【0045】
以上、本実施を好適な形態で行う実施例を説明した。ここでは特定の具体例を示して説明を行ったが、特許請求の範囲の趣旨及び範囲から逸脱しない範囲で、本具体例の様々な修正、および形態変更などが可能である。
【0046】
本発明により、辞書機能に存在しない一般用語、標準用語以外の用語を所定の条件に従って合成することが可能となる。また、所定の条件はユーザが過去に閲覧したドキュメントから算出した興味度、およびその対象のタームのジャンル類似度などから絞り込むため、全ての単語について合成語を生成するのではなく、ユーザの興味度、および共起性の高いものに絞って合成語を生成できる点で有益であると言える。
【0047】
実施形態の他の例としては、例えば記憶手段10により記憶されるデータベースの基ドキュメントが該情報処理装置1のユーザが過去に閲覧したドキュメントの集合体であり、そのデータベースを基に指定されたドキュメントから合成語を生成するような構成も可能である。ユーザが過去に閲覧したドキュメントが元データであれば、ユーザが特に興味を持っているジャンル、およびタームの傾向が如実に現れるため、世間一般では合成する単語として扱わないような単語でも、特定のユーザのデータベースでは合成語として扱う判定を行うことができるなど、ユーザに特化した合成語判定を行うことが可能になる。
【0048】
更に、実施形態の他の例としては、例えば記憶手段10により記憶されるデータベースの基ドキュメントが、不特定ユーザがネットワークを通じてアクセス可能なパブリックドキュメントの集合体であり、そのデータベースを基に指定されたドキュメントから合成語を生成するような構成も可能である。このようなケースでは、ユーザ個人は存じていないが、一般的にはごく当たり前のように使用されている合成語を生成することができる。本実施形態では、パブリックドキュメントとユーザドキュメントの2種のデータベースから合成語を生成する実施例の説明をしたが、パブリックドキュメント、およびユーザドキュメントのどちらか一方のデータベースからも合成語を生成することが可能である。
【0049】
更に、本発明によれば、予め備えてある辞書機能に未登録の言葉であっても、タームとドキュメントがクラスタ化されたデータベースに基づいて合成語を生成できるため、ユーザの興味度が高く、辞書機能に未登録の言葉でも適切な形でキーワードとして選定することができる。また、本発明により生成した合成語は辞書機能に追加登録されず、コンテンツ取得後に合成元の単語に切り離されるため、辞書機能のデータ量の増大を抑えることにも効果がある。
【0050】
本願発明を実現できるような構成であれば、用いる装置の具備する内容、および装置の数量などは本実施例に限定されない。
【産業上の利用可能性】
【0051】
本発明は、パーソナルコンピュータや携帯電話、タブレット端末などネットワークを介して通信可能な電子機器に適用できる。
【符号の説明】
【0052】
10 記憶手段
11 ドキュメントクラスタ特定手段
12 抽出手段
13 合成手段
14 取得手段
図1
図2
図3
図4
図5
図6
図7