特開2017-151788(P2017-151788A)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

▶ ヤフー株式会社の特許一覧
特開2017-151788情報処理装置、情報処理方法および情報処理プログラム
<>
  • 特開2017151788-情報処理装置、情報処理方法および情報処理プログラム 図000005
  • 特開2017151788-情報処理装置、情報処理方法および情報処理プログラム 図000006
  • 特開2017151788-情報処理装置、情報処理方法および情報処理プログラム 図000007
  • 特開2017151788-情報処理装置、情報処理方法および情報処理プログラム 図000008
  • 特開2017151788-情報処理装置、情報処理方法および情報処理プログラム 図000009
  • 特開2017151788-情報処理装置、情報処理方法および情報処理プログラム 図000010
  • 特開2017151788-情報処理装置、情報処理方法および情報処理プログラム 図000011
  • 特開2017151788-情報処理装置、情報処理方法および情報処理プログラム 図000012
  • 特開2017151788-情報処理装置、情報処理方法および情報処理プログラム 図000013
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2017-151788(P2017-151788A)
(43)【公開日】2017年8月31日
(54)【発明の名称】情報処理装置、情報処理方法および情報処理プログラム
(51)【国際特許分類】
   G06F 17/30 20060101AFI20170804BHJP
【FI】
   G06F17/30 210A
   G06F17/30 330C
【審査請求】有
【請求項の数】9
【出願形態】OL
【全頁数】24
(21)【出願番号】特願2016-34497(P2016-34497)
(22)【出願日】2016年2月25日
(71)【出願人】
【識別番号】500257300
【氏名又は名称】ヤフー株式会社
【住所又は居所】東京都千代田区紀尾井町1番3号
(74)【代理人】
【識別番号】110002147
【氏名又は名称】特許業務法人酒井国際特許事務所
(72)【発明者】
【氏名】井上 裁都
【住所又は居所】東京都港区赤坂九丁目7番1号 ヤフー株式会社内
(57)【要約】
【課題】コンテンツに対して精度よく地域情報を関連付けること。
【解決手段】本願にかかる情報処理装置は、抽出部と、算出部と、補正部とを有する。抽出部は、コンテンツから地域を示す地域情報を抽出する。算出部は、抽出部により抽出された地域情報毎に、当該地域情報によって示される地域とコンテンツとの関連度を算出する。補正部は、抽出部により抽出された地域情報のうち、第1の地域情報に対応する関連度を用いて、当該第1の地域情報によって示される地域に属する地域を示す第2の地域情報に対応する関連度を補正する。
【選択図】図2
【特許請求の範囲】
【請求項1】
コンテンツから地域を示す地域情報を抽出する抽出部と、
前記抽出部により抽出された地域情報毎に、当該地域情報によって示される地域と前記コンテンツとの関連度を算出する算出部と、
前記抽出部により抽出された地域情報のうち、第1の地域情報に対応する関連度を用いて、当該第1の地域情報によって示される地域に属する地域を示す第2の地域情報に対応する関連度を補正する補正部と
を有することを特徴とする情報処理装置。
【請求項2】
前記補正部は、前記第1の地域情報に対応する関連度を用いて、前記第1の地域情報によって示される地域よりも行政区画が下位である地域を示す前記第2の地域情報に対応する関連度を補正する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記補正部により補正された補正後の関連度に基づいて、前記第2の地域情報を前記コンテンツに関連付ける付与部をさらに有する
ことを特徴とする請求項1または2に記載の情報処理装置。
【請求項4】
前記付与部は、前記補正部により補正された補正後の関連度のうち、所定の閾値より高い関連度を有する前記第2の地域情報を前記コンテンツに関連付ける
ことを特徴とする請求項3に記載の情報処理装置。
【請求項5】
前記抽出部は、前記コンテンツに含まれるキーワードに基づいて、前記地域情報を抽出し、
前記算出部は、前記キーワードが属するカテゴリに付与されている重み値に基づいて、当該キーワードに対応する地域情報によって示される地域の関連度を算出する
ことを特徴とする請求項1〜4のいずれか1つに記載の情報処理装置。
【請求項6】
前記算出部は、前記カテゴリそれぞれの重み値のうち、市区町村を示すカテゴリに最も高い値が付与されている重み値に基づいて、前記関連度を算出する
ことを特徴とする請求項5に記載の情報処理装置。
【請求項7】
前記補正部は、前記第1の地域情報に対応する関連度に基づいて、当該第1の地域情報によって示される地域が前記コンテンツが示す地域である確率を算出し、当該確率を用いて、前記第2の地域情報に対応する関連度を補正する
ことを特徴とする請求項1〜6のいずれか1つに記載の情報処理装置。
【請求項8】
情報処理装置が実行する情報処理方法であって、
コンテンツから地域を示す地域情報を抽出する抽出工程と、
前記抽出工程により抽出された地域情報毎に、当該地域情報によって示される地域と前記コンテンツとの関連度を算出する算出工程と、
前記抽出工程により抽出された地域情報のうち、第1の地域情報に対応する関連度を用いて、当該第1の地域情報によって示される地域に属する地域を示す第2の地域情報に対応する関連度を補正する補正工程と
を含んだことを特徴とする情報処理方法。
【請求項9】
コンテンツから地域を示す地域情報を抽出する抽出手順と、
前記抽出手順により抽出された地域情報毎に、当該地域情報によって示される地域と前記コンテンツとの関連度を算出する算出手順と、
前記抽出手順により抽出された地域情報のうち、第1の地域情報に対応する関連度を用いて、当該第1の地域情報によって示される地域に属する地域を示す第2の地域情報に対応する関連度を補正する補正手順と
をコンピュータに実行させることを特徴とする情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法および情報処理プログラムに関する。
【背景技術】
【0002】
従来、入力された情報の解析結果に基づいて、入力された情報と関連する情報を検索もしくは生成し、検索もしくは生成した情報を応答として出力する技術が知られている。
【0003】
例えば、キーワードに応じて文書を検索し、ユーザに二者択一の問合わせを行いながら大量の検索結果を絞り込んで行く技術が提案されている(特許文献1)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2009−301221号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記の従来技術では、コンテンツに対して精度よく地域情報を関連付けることができるとは限らない。具体的には、上記の従来技術は、分類された文書の最も多い最大クラスタを表す最大カテゴリ名を、最大クラスタに分類された文書に含まれる単語に基づいて決定し、最大カテゴリ名がユーザの意図に合致するか否かを示す選択情報の入力を受け付ける。そして、選択情報が意図に合致することを示す場合、最大クラスタに分類された文書の一覧を表示し、意図に合致しないことを示す場合、最大クラスタに分類されなかったものの一覧を表示する。
【0006】
つまり、上記の従来技術は、ユーザに二者択一の問合わせを行いながら大量の検索結果を絞り込んでゆくものであり、また、地域情報に関して記載されていない。このため、上記の従来技術では、検索結果を容易に絞り込んでゆくことができたとしても、コンテンツに対して精度よく地域情報を関連付けることができるとは限らない。
【0007】
本願は、上記に鑑みてなされたものであって、コンテンツに対して精度よく地域情報を関連付けることができる情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
本願にかかる情報処理装置は、コンテンツから地域を示す地域情報を抽出する抽出部と、前記抽出部により抽出された地域情報毎に、当該地域情報によって示される地域と前記コンテンツとの関連度を算出する算出部と、前記抽出部により抽出された地域情報のうち、第1の地域情報に対応する関連度を用いて、当該第1の地域情報によって示される地域に属する地域を示す第2の地域情報に対応する関連度を補正する補正部とを有することを特徴とする。
【発明の効果】
【0009】
実施形態の一態様によれば、コンテンツに対して精度よく地域情報を関連付けることができるといった効果を奏する。
【図面の簡単な説明】
【0010】
図1A図1Aは、実施形態にかかる情報処理の一例を示す図である。
図1B図1Bは、実施形態にかかる情報処理の一例を示す図である。
図2図2は、実施形態にかかる情報処理装置の構成例を示す図である。
図3図3は、実施形態にかかるエンティティ辞書の一例を示す図である。
図4A図4Aは、情報処理装置によって行われる情報処理の概念図である。
図4B図4Bは、都道府県地域と市区町村地域との地域体系を示す概念図である。
図5図5は、実施形態にかかる情報処理装置による情報処理手順を示すフローチャートである。
図6図6は、コンテンツ提供システムによる情報処理の流れを示す図である。
図7図7は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0011】
以下に、本願にかかる情報処理装置、情報処理方法および情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願にかかる情報処理装置、情報処理方法および情報処理プログラムが限定されるものではない。
【0012】
〔1.情報処理〕
図1Aおよび図1Bを用いて、実施形態にかかる情報処理について説明する。図1Aおよび図1Bは、実施形態にかかる情報処理の一例を示す図である。実施形態にかかる情報処理は、図1Aに示す情報処理装置100によって行われる。
【0013】
情報処理装置100は、実施形態にかかる情報処理を行うサーバ装置である。具体的には、情報処理装置100は、コンテンツから地域を示す地域情報を抽出する。そして、情報処理装置100は、抽出した地域情報毎に、地域情報によって示される地域とコンテンツとの関連度を算出する。そして、情報処理装置100は、抽出した地域情報のうち、第1の地域情報に対応する関連度を用いて、当該第1の地域情報によって示される地域に属する地域を示す第2の地域情報に対応する関連度を補正する。
【0014】
なお、本実施形態では、第1の地域情報および第2の地域情報は、所定の地域区分を示すデータであるものとする。具体的には、第1の地域情報は、地域区分「都道府県」(以下では、「都道府県地域」と表記する場合がある)を示すデータである。言い換えれば、都道府県地域は、第1の地域情報によって示される地域である。また、都道府県地域とは、行政区画として定められている47都道府県のいずれか(例えば、東京都、神奈川県等)である。
【0015】
第2の地域情報とは、地域区分「市区町村」(以下では、「市区町村地域」と表記する場合がある)を示すデータである。言い換えれば、市区町村地域は、第2の地域情報によって示される地域である。また、市区町村地域とは、行政区画として定められている地域であって、都道府県地域に属する(都道府県地域に含まれる)地域である。このようなことから、第2の地域情報とは、第1の地域情報によって示される地域よりも行政区画が下位である地域のデータであるといえる。
【0016】
また、以下の実施形態では、情報処理装置100によって抽出される第1の地域情報を、単に都道府県名で示す場合がある。また、情報処理装置100によって抽出される第2の地域情報を、単に市区町村名で示す場合がある。例えば、「福島県を抽出する」といった表現は、「第1の地域情報として福島県を示すデータを抽出する」に相当する。また、例えば、「佐倉村を抽出する」といった表現は、「第2の地域情報として佐倉村を示すデータを抽出する」に相当する。
【0017】
また、本実施形態では、情報処理装置100は、関連度として、関連度を示す指標値である関連度スコアを算出するものとする。つまり、関連度スコアとは、コンテンツが主題とする地域と、そのコンテンツから抽出した地域情報によって示される地域(都道府県地域や市区町村地域)とがどれほど関連しているかといった度合いを示す。
【0018】
そして、情報処理装置100は、都道府県地域の関連度スコアを用いて、その都道府県に属する市区町村地域の関連度スコアを補正することにより、コンテンツとより関連性の高い市区町村地域をコンテンツに付与する。以下では、情報処理装置100によって行われる情報処理について具体的に説明する。
【0019】
まず、情報処理装置100は、端末装置10から記事コンテンツC1の入力を受け付けたとする(ステップS1)。端末装置10は、ユーザによって利用される端末装置である。端末装置10は、例えば、スマートフォンや、タブレット型端末や、ノート型PC(Personal Computer)や、デスクトップPCや、携帯電話機や、PDA(Personal Digital Assistant)等により実現される。
【0020】
また、図1Aに示すように、記事コンテンツC1は、「小学校によると、教職員が校庭に入り込んだカモシカを発見し、福島署佐倉駐在所に通報した。」といったテキストを含む。
【0021】
情報処理装置100は、受け付けた記事コンテンツC1を形態素解析する(ステップS2)。図示しないが、情報処理装置100は、形態素解析用の辞書を有しており、この形態素解析辞書に記事コンテンツC1を当てはめることにより、形態素解析する。
【0022】
次に、情報処理装置100は、形態素解析した記事コンテンツC1と、エンティティ辞書とのマッチングを行い、エンティティ辞書に記憶されているエンティティに一致するキーワードである形態素列を記事コンテンツC1から抽出する(ステップS3)。
【0023】
ここで、実施形態にかかるエンティティ辞書について説明する。まず、エンティティとは、固有のキーワードを示し、本実施形態では、特に、そこから都道府県地域や市区町村地域を識別可能または連想させるようなキーワードがエンティティとして記憶される。
【0024】
分類カテゴリは、エンティティが属するカテゴリを示す。例えば、エンティティ「福島」は分類カテゴリ「行政区画/県」に属し、エンティティ「福島署」は分類カテゴリ「警察機関」に属する。地域区分は、都道府県と、その下位の区分である市区町村とに分けられ、対応するエンティティが所在する地域として、都道府県地域および市区町村地域が記憶される。図1Aの例では、エンティティ辞書は、地域区分「都道府県」において、都道府県地域「福島県」および「千葉県」を記憶し、地域区分「市区町村」において、市区町村地域「福島市」、「佐倉村」、「佐倉市」を記憶する。
【0025】
重み値は、関連度スコアの算出に用いられる値であって、分類カテゴリに応じた値が設定される。具体的には、コンテンツが主題とする地域がどの地域であるかを判断するうえで、影響力の高い分類カテゴリほど高い重み値が設定される。
【0026】
処理の説明に戻り、エンティティ辞書とのマッチングにより、図1Aの例では、情報処理装置100は、「福島、佐倉、福島署、佐倉駐在所、佐倉」といったキーワードを記事コンテンツC1から抽出する。また、情報処理装置100は、このように抽出した各キーワードについて、対応する地域を特定する(ステップS4)。キーワードに対応する地域とは、エンティティ辞書において、キーワードに一致するエンティティの所在する地域であって、都道府県地域や市区町村地域である。
【0027】
例えば、図1Aに示すエンティティ辞書には、エンティティ「福島」に都道府県地域「福島県」が対応付けられている。このため、情報処理装置100は、マッチングにより抽出したキーワード「福島」について、「福島県」を特定する。また、エンティティ辞書には、エンティティ「佐倉」に都道府県地域「福島県」および市区町村地域「佐倉村」が対応付けられている。このため、情報処理装置100は、マッチングにより抽出したキーワード「佐倉」について、「福島県/佐倉村」を特定する。
【0028】
また、エンティティ辞書によると、エンティティ「佐倉」には、都道府県地域「福島県」および市区町村地域「佐倉村」だけでなく、都道府県地域「千葉県」および地区町村地域「佐倉市」も対応付けられている。これは、「佐倉」という地域が、福島県だけでなく千葉県にも存在するからである。このため、情報処理装置100は、マッチングにより抽出したキーワード「佐倉」について、「千葉県/佐倉市」も特定する。他の地域情報についても同様で、図1Aに示す通りである。
【0029】
そして、情報処理装置100は、各キーワード「福島、佐倉、福島署、佐倉駐在所、佐倉」から特定した地域「福島県、福島市、佐倉村/千葉県、佐倉市」それぞれを示す地域情報をエンティティ辞書から抽出する(ステップS5)。なお、このように、エンティティ辞書から地域情報を抽出するといった処理は、コンテンツ(かかる例では、記事コンテンツC1)から地域情報を抽出することに対応するものである。
【0030】
また、上記のように、情報処理装置100が、「福島県、福島市、佐倉村/千葉県、佐倉市」を抽出したことにより、図1Bに示すように対応する地域同士の地域体系として、ツリー構造を生成することができる。具体的には、都道府県地域を上位層、市区町村地域を下位層として、福島県に関わる地域(福島県、福島市、佐倉村)のツリー構造と、千葉県に関わる地域(千葉県、佐倉市)のツリー構造とを作成することができる。
【0031】
ここで、情報処理装置100は、抽出した地域毎に、記事コンテンツC1との関連度スコアを算出する。例えば、まず、情報処理装置100は、市区町村地域それぞれについて、記事コンテンツC1との関連度スコアを算出する(ステップS6)。かかる算出処理について、図1Bの概念図を用いて説明する。
【0032】
情報処理装置100は、エンティティ辞書を参照し、関連度スコア算出対象の市区町村地域に対応する分類カテゴリに付与されている重み値に基づいて、関連度スコアを算出する。また、このような関連度スコアを補正前の関連度スコアとする。
【0033】
「福島市」の関連度スコア算出について説明する。図1Aに示すエンティティ辞書の例では、「福島市」に対応する分類カテゴリは「警察機関」である。そして、「警察機関」に付与されている重み値は「0.9」である。このため、情報処理装置100は、「福島市」の関連度スコアを「0.9」とする。
【0034】
「佐倉村」の関連度スコア算出について説明する。図1Aに示すエンティティ辞書の例では、「佐倉村」に対応する分類カテゴリは「行政区画/村」および「警察機関」である。そして、分類カテゴリ「行政区画/村」に付与されている重み値は「4」である。また、分類カテゴリ「警察機関」に付与されている重み値は「0.9」である。このため、情報処理装置100は、重み値「4」と「0.9」とを合計することにより、「佐倉村」の関連度スコア「4.9」を算出する。
【0035】
「佐倉市」の関連度スコア算出について説明する。図1Aに示すエンティティ辞書の例では、「佐倉市」に対応する分類カテゴリは「行政区画/市」である。そして、分類カテゴリ「行政区画/市」に付与されている重み値は「4」である。このため、情報処理装置100は、「佐倉市」の関連度スコアを「4」とする。
【0036】
ここで、記事コンテンツC1を見ると、主題となっている地域は「福島県」であることは明らかである。しかしながら、上記のように算出された関連度スコアでは、「福島県」とは全く関係のない「千葉県/佐倉市」の関連度スコアが「4」と高く算出されている。これは、福島県と千葉県の両方の市区町村に「佐倉」という地域があり、エンティティ「佐倉」が属する分類カテゴリ「行政区画/市区町村」には、最も高い重み値が設定されているためである。
【0037】
ここで、例えば、関連度スコアの高い上位2つの市区町村を記事コンテンツC1に付与するといった設定がなされていた場合、情報処理装置100は、記事コンテンツC1に対して、「千葉県/佐倉市」を誤って付与してしまうことになる。このため情報処理装置100は、上記のように市区町村地域について算出した関連度スコアを、当該市区町村地域が属する都道府県地域の関連度スコアを用いて補正する。このような補正処理を行うのは、都道府県地域の関連度スコアの精度は、市区町村地域の関連度スコアの精度より高い場合が多いためである。
【0038】
このような考えに基づき、情報処理装置100は、より高精度に算出可能な都道府県地域の関連度スコアを用いて、当該都道府県地域に属する市区町村地域の関連度スコアを補正することにより、市区町村地域の関連度スコアの精度を高める。
【0039】
補正処理するにあたって、ステップS6に次いで、情報処理装置100は、抽出した都道府県地域それぞれについて、記事コンテンツC1との関連度スコアを算出する(ステップS7)。具体的には、情報処理装置100は、エンティティ辞書を参照し、関連度スコア算出対象の都道府県地域に対応する分類カテゴリに付与されている重み値に基づいて、関連度スコアを算出する。
【0040】
「福島県」の関連度スコア算出について説明する。図1Aに示すエンティティ辞書の例では、「福島県」に対応する分類カテゴリは「行政区画/県」、「行政区画/村」、「警察機関」である。そして、分類カテゴリ「行政区画/県」に付与されている重み値は「3」である。また、分類カテゴリ「行政区画/村」に付与されている重み値は「4」である。また、分類カテゴリ「警察機関」に付与されている重み値は「0.9」であり、これが2つ存在する。このため、情報処理装置100は、重み値「3」、「4」、「0.9×2」を合計することにより、「福島県」の関連度スコア「8.8」を算出する。
【0041】
「千葉県」の関連度スコア算出について説明する。図1Aに示すエンティティ辞書の例では、「千葉県」に対応する分類カテゴリは「行政区画/市」である。また、分類カテゴリ「行政区画/市」に付与されている重み値は「4」である。このため、情報処理装置100は、「千葉県」の関連度スコアを「4」とする。
【0042】
このように、福島県の関連度スコアの方が、千葉県の関連度スコアよりも高いことからも、記事コンテンツC1が福島県を主題とする内容の記事であるといえる。
【0043】
次に、情報処理装置100は、上記のように算出した都道府県地域の関連度スコアを正規化する(ステップS8)。具体的には、情報処理装置100は、記事コンテンツC1において、異なる都道府県地域、すなわち福島県と千葉県との関連度スコアの合計を用いて、福島県および千葉県の関連度スコアを正規化する。例えば、情報処理装置100は、福島県の関連度スコア「8.8」を、福島県の関連度スコア「8.8」と千葉県の関連度スコア「4」との合計「12.8」で除算することにより、福島県の関連度スコアを「0.7」へと正規化する。また、情報処理装置100は、千葉県の関連度スコア「4」を、同様に「12.8」で除算することにより、千葉県の関連度スコアを「0.3」へと正規化する。
【0044】
次に、情報処理装置100は、上記のように正規化した都道府県地域の関連度スコアを用いて、当該都道府県地域に属する市区町村の補正前の関連度スコアを補正する(ステップS9)。具体的には、情報処理装置100は、正規化した都道府県地域の関連度スコアを、当該都道府県地域に属する市区町村地域の補正前の関連度スコアに乗じることにより補正する。ここで、都道府県地域に属する市区町村地域とは、対象となる都道府県地域内の市区町村である。図1Aおよび図1Bの例では、都道府県地域「福島県」に属する市区町村地域は「福島市、佐倉村」であり、都道府県地域「千葉県」に属する市区町村地域は「佐倉市」である。
【0045】
そして、図1Bの例では、情報処理装置100は、「福島市」について、福島県の正規化後関連度スコア「0.7」を、福島市の補正前関連度スコア「0.9」に乗じることにより、福島市の関連度スコアを「0.6」に補正する。また、情報処理装置100は、「佐倉村」について、福島県の正規化後関連度スコア「0.7」を、佐倉村の補正前関連度スコア「4.9」に乗じることにより、佐倉村の関連度スコアを「3.4」に補正する。
【0046】
また、情報処理装置100は、「佐倉市」について、千葉県の正規化後関連度スコア「0.3」を、佐倉市の補正前関連度スコア「4」に乗じることにより、佐倉市の関連度スコアを「1.2」に補正する。
【0047】
そして、情報処理装置100は、所定の閾値より高い関連度スコアを有する地域情報であって、市区町村地域を示す地域情報(第2の地域情報)を、記事コンテンツC1と関連性を有する地域の地域情報として付与する(ステップS10)。例えば、関連度スコアに対し閾値「1.5」が設定されているとすると、情報処理装置100は、閾値「1.5」より高い関連度スコアを有する市区町村地域「佐倉村」を示す地域情報を、記事コンテンツC1に関連付ける。
【0048】
このように、情報処理装置100は、コンテンツから地域情報を抽出し、抽出した地域情報毎に、コンテンツとの関連度スコアを算出する。そして、情報処理装置100は、都道府県地域(第1の地域情報)の関連度スコアを用いて、当該都道府県地域に属する市区町村地域(第2の地域情報)の関連度スコアを補正する。
【0049】
これにより、情報処理装置100は、コンテンツに対して、市区町村単位の地域情報を精度よく関連付けることができる。また、情報処理装置100は、コンテンツと関連しない地域を誤って関連付けてしまうといった事態を防ぐことができる。また、このような関連付けが可能となることで、情報処理装置100は、ユーザの端末装置から、ユーザの所在地を判定し、その所在地に応じたコンテンツをより適切にユーザに提供することができる。例えば、情報処理装置100は、都道府県だけでなく市区町村といったより範囲の狭い地域の情報を含むコンテンツを、適切にユーザに配信することができる。
【0050】
〔2.情報処理装置の構成〕
次に、図2を用いて、実施形態にかかる情報処理装置100について説明する。図2は、実施形態にかかる情報処理装置100の構成例を示す図である。図2に示すように、情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。
【0051】
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、ネットワークと有線または無線で接続され、例えば、端末装置10との間で情報の送受信を行う。
【0052】
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子またはハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、形態素解析辞書121と、エンティティ辞書122とを有する。
【0053】
形態素解析辞書121は、後述する抽出部132によってコンテンツに含まれるテキストが形態素解析される際に用いられる辞書であり、各種形態素を記憶する記憶部である。なお、形態素解析辞書121については、図示することを省略する。
【0054】
エンティティ辞書122は、後述する算出部133によって地域のコンテンツに対する関連度スコアが算出される際に用いられる辞書であり、エンティティに関する各種情報を記憶する記憶部である。
【0055】
ここで、図3に実施形態にかかるエンティティ辞書122の一例を示す。図3の例では、エンティティ辞書122は、「エンティティ」と、「分類カテゴリ」と、「地域区分」と、「重み値」といった項目を有する。
【0056】
「エンティティ」は、固有のキーワードを示し、本実施形態では、特に、そこから都道府県や市区町村等の地域を識別可能または連想させるようなキーワードがエンティティとして記憶される。例えば、まさに都道府県や市区町村を示す行政区画、山および河川、ランドマーク、寺社、駅、会社、教育機関等がエンティティとして記憶される。
【0057】
「分類カテゴリ」は、エンティティが属するカテゴリを示す。図3の例では、エンティティ「福島」は分類カテゴリ「行政区画/県」に属し、エンティティ「福島署」は分類カテゴリ「警察機関」に属する。
【0058】
「地域区分」は、都道府県と、その下位の区分である市区町村とに分けられ、対応するエンティティが所在する地域として、都道府県地域および市区町村地域が記憶される。図3の例では、エンティティ辞書122は、地域区分「都道府県」において、都道府県地域「福島県」および「千葉県」を記憶し、地域区分「市区町村」において、市区町村地域「福島市」、「佐倉村」、「千葉市」、「佐倉市」を記憶する。
【0059】
「重み値」は、関連度スコアの算出に用いられる値であって、分類カテゴリに応じた値が設定される。具体的には、コンテンツが主題とする地域がどの地域であるかを判断するうえで、影響力の高い分類カテゴリほど高い重み値が設定される。
【0060】
例えば、コンテンツに「福島県」といった分類カテゴリ「行政区画/県」に属するキーワード(エンティティ)が含まれている場合、そのコンテンツは、高確率で「福島県」に関する内容を示すといえる。同様に、コンテンツに「福島市」といった分類カテゴリ「行政区画/市」に属するキーワードが含まれている場合、そのコンテンツは、高確率で「福島市」に関する内容を示すといえる。また、コンテンツに「明治神宮」といった分類カテゴリ「建造物」に属するキーワードが含まれている場合、そのコンテンツは、高確率で「明治神宮」のある地域(例えば、東京都)に関する内容を示すといえる。
【0061】
つまり、行政区画や建造物、その他ランドマーク等、所在地が一意に定まる分類カテゴリには、比較的高い重み値が設定される。中でも行政区画は、まさに地域そのものを示すものであるため、特に高い重み値が設定される。本実施形態では、分類カテゴリ「行政区画/市区町村」に最も高い重み値が設定され、分類カテゴリ「行政区画/都道府県」に次に高い重み値が設定される。
【0062】
一方、例えば、コンテンツに「富士山」といった分類カテゴリ「日本の山」に属するキーワードが含まれていたとしても、そのコンテンツが静岡県に関する内容を示すものなのか、あるいは、山梨県に関する内容を示すものなのか判断しにくい。同様に、コンテンツに「X1株式会社」といった分類カテゴリ「日本の企業」に属するキーワードが含まれていたとしても、そのコンテンツがいずれの地域に関する内容を示すものなのか判断しにくい。そもそも全く地域に関する内容ではなく、「X1株式会社」に関する社会的ニュースである可能性も高い。
【0063】
つまり、自然地名等の広範囲を示す分類カテゴリや、本社と営業所等複数の地域に点在していたり、地域とは関わりの薄いと考えられる企業を示す分類カテゴリには、比較的低い重み値が設定される。
【0064】
また、小中高校のように所在地が一意に定まる分類カテゴリには、中間あたりの重み値が設定される一方で、大学のように複数の地域に点在していたり、共同研究や入試問題等の社会的ニュースで取り上げられることの多い分類カテゴリには、低めの重み値が設定される。
【0065】
さて、ここまでエンティティ辞書122について説明してきたが、例えば、エンティティ辞書へのエンティティの登録や、どのような大きさの重み値を設定するかといった作業は、情報処理装置100を管理する管理者によって手作業で行われてもよいし、情報処理装置100によって自動で行われてもよい。
【0066】
図2に戻り、制御部130は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部130は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
【0067】
図2に示すように、制御部130は、入力受付部131と、抽出部132と、算出部133と、補正部134と、付与部135とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図2に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、図2に示した接続関係に限られず、他の接続関係であってもよい。
【0068】
入力受付部131は、コンテンツの入力を受け付ける。例えば、図1Aに示すように、入力受付部131は、端末装置10からコンテンツの入力を受け付ける。また、コンテンツは、ニュース記事等の文書テキストを含む各種コンテンツであってもよいし、画像であってもよい。
【0069】
抽出部132は、コンテンツから地域を示す地域情報を抽出する。例えば、抽出部132は、入力受付部131によってコンテンツの入力が受け付けられると、受け付けられたコンテンツに含まれるテキストを形態素解析辞書121に当てはめることにより、形態素解析する。そして、抽出部132は、テキストとエンティティ辞書122とのマッチングを行い、エンティティ辞書122に記憶されているエンティティに一致するキーワードである形態素列をコンテンツから抽出する。
【0070】
そして、抽出部132は、抽出したキーワードに基づいて、地域情報を抽出する。例えば、抽出部132は、エンティティ辞書122を参照し、抽出したキーワードに対応する地域を特定し、特定した地域を示す地域情報をエンティティ辞書122から抽出する。なお、地域を示す地域情報とは、例えば、地域名の文字列(テキスト)であってもよいし、予め地域毎に対応付けられている識別子であってもよい。本実施形態では、説明を簡単にするために、抽出部132は、地域情報として、地域名の文字列を抽出するものとする。
【0071】
算出部133は、抽出部132により抽出された地域情報毎に、当該地域情報によって示される地域と、地域情報抽出元のコンテンツとの関連度スコアを算出する。例えば、算出部133は、エンティティ辞書122を参照し、抽出部132により抽出されたキーワードに一致するエンティティが属する分類カテゴリに付与されている重み値に基づいて、抽出されたキーワードから特定された地域と、その地域の地域情報抽出元のコンテンツとの関連度スコアを算出する。
【0072】
補正部134は、抽出部132により抽出された地域情報のうち、第1の地域情報に対応する関連度スコアを用いて、当該第1の地域情報によって示される地域(都道府県地域)に属する地域(市区町村地域)を示す第2の地域情報に対応する関連度スコアを補正する。具体的には、補正部134は、第1の地域情報に対応する関連度スコアを用いて、第1の地域情報によって示される地域よりも行政区画が下位である地域を示す第2の地域情報に対応する関連度スコアを補正する。
【0073】
例えば、補正部134は、第1の地域情報に対応する関連度スコアに基づいて、当該第1の地域情報によって示される地域が、当該第1の地域情報抽出元のコンテンツが示す地域である確率を算出する。そして、補正部134は、算出した確率を用いて、当該第1の地域情報によって示される地域に属する地域を示す第2の地域情報に対応する関連度を補正する。
【0074】
付与部135は、補正部134により補正された関連度スコアに基づいて、第2の地域情報を、当該第2の地域情報抽出元のコンテンツに関連付ける。例えば、付与部135は、補正部134により補正された補正後の関連度スコアのうち、所定の閾値より高い関連度スコアを有する第2の地域情報を、当該第2の地域情報抽出元のコンテンツに関連付ける。
【0075】
ここで、図1Aの説明でも示したように、本実施形態において、第1の地域情報は、都道府県地域を示すデータであり、第2の地域情報は、都道府県地域に対して下位の地域である市区町村地域を示すデータである。そして、このようなデータは、上記のように、地域名の文字列(テキスト)であってもよいし、予め地域毎に対応付けられた所定の識別子であってもよい。以下では、図4Aおよび図4Bを用いて、抽出部132、算出部133、補正部134および付与部135の処理の一例について具体的に説明する。
【0076】
まず、図4Aを用いて説明する。図4Aは、情報処理装置100によって行われる情報処理の概念図である。図4Aは、図1Aに対応する図であるが、ここでは情報処理をさらに詳細に説明するために、記事コンテンツC2が入力された場合を示す。また、図4Aに示すエンティティ辞書122は、図3に示すものと同様である。
【0077】
まず、情報処理装置100の抽出部132は、コンテンツから地域を示す地域情報を抽出する。抽出部132による抽出処理の一例について説明する。抽出部132は、入力受付部131により記事コンテンツC2の入力が受け付けられると、受け付けた記事コンテンツC2に含まれるテキストを形態素解析する。図4Aでは、抽出部132が、「福島A1小学校によると、教職員が校庭に入り込んだカモシカを発見し、福島署佐倉駐在所に通報した。・・・なお、捕獲されたカモシカは、A2大学に運ばれて検査される予定。」といったテキストを形態素解析する例を示す。例えば、抽出部132は、形態素解析辞書121に記事コンテンツC2のテキストを当てはめることにより、かかるテキストの形態素解析を行う。
【0078】
次に、抽出部132は、形態素解析した記事コンテンツC2と、エンティティ辞書122とのマッチングを行い、エンティティ辞書122に記憶されているエンティティに一致するキーワードである形態素列を記事コンテンツC2から抽出する。つまり、図4Aに示す例では、抽出部132は、マッチングにより「福島、佐倉、福島A1小学校、福島署、佐倉駐在所、佐倉、A2大学」といった7つのキーワードを記事コンテンツC2から抽出する。
【0079】
次に、抽出部132は、エンティティ辞書122を参照し、抽出した7つのキーワードそれぞれに対応する地域を特定し、特定した地域を示す地域情報をエンティティ辞書122から抽出する。
【0080】
例えば、図4Aに示すエンティティ辞書122には、エンティティ「福島」に都道府県地域「福島県」が対応付けられている。このため、抽出部132は、マッチングにより抽出したキーワード「福島」について、「福島県」を特定する。また、エンティティ辞書122には、エンティティ「佐倉」に都道府県地域「福島県」および市区町村地域「佐倉村」が対応付けられている。このため、抽出部132は、マッチングにより抽出したキーワード「佐倉」について、「福島県/佐倉村」を特定する。
【0081】
また、エンティティ「福島A1小学校」に都道府県地域「福島県」および市区町村地域「福島市」が対応付けられている。このため、抽出部132は、マッチングにより抽出したキーワード「福島A1小学校」について、「福島県/福島市」を特定する。また、エンティティ「福島署」に都道府県地域「福島県」および市区町村地域「福島市」が対応付けられている。このため、抽出部132は、マッチングにより抽出したキーワード「福島署」について、「福島県/福島市」を特定する。また、エンティティ「佐倉駐在所」に都道府県地域「福島県」および市区町村地域「佐倉村」が対応付けられている。このため、抽出部132は、マッチングにより抽出したキーワード「佐倉駐在所」について、「福島県/佐倉村」を特定する。
【0082】
また、エンティティ辞書122によるとエンティティ「佐倉」には、都道府県地域「福島県」および市区町村地域「佐倉村」だけでなく、都道府県地域「千葉県」および市区町村「佐倉市」も対応付けられている。このため、抽出部132は、マッチングにより抽出したキーワード「佐倉」について、「千葉県/佐倉市」も特定する。
【0083】
また、エンティティ「A2大学」に都道府県地域「千葉県」および市区町村地域「千葉市」が対応付けられている。このため、抽出部132は、マッチングにより抽出した地域情報「A2大学」について、「千葉県/千葉市」を特定する。
【0084】
そして、抽出部132は、上記のように特定した都道府県地域および市区町村地域それぞれを示す地域情報をエンティティ辞書122から抽出する。例えば、抽出部132は、各地域情報を示す地域情報として、地域名の文字列(テキスト)データを抽出する。なお、抽出部132は、地域を特定する度に、特定した地域の地域情報を抽出してもよいし、全ての地域を特定した後に、特定した全ての地域の地域情報を抽出してもよい。
【0085】
ここで、抽出部132により、特定された地域「福島県、福島市、佐倉村/千葉県、千葉市、佐倉市」について、対応する地域間での地域体系を図4Bに示す。図4Bは、都道府県地域と市区町村地域との地域体系を示す概念図である。図4Bに示すように、都道府県地域を上位層、市区町村地域を下位層として、福島県に関わる地域(福島県、福島市、佐倉村)のツリー構造と、千葉県に関わる地域(千葉県、千葉市、佐倉市)のツリー構造を作成することができる。そして、図4Bに示すツリー構造において、各都道府県地域および各市区町村地域に対応付けられている数値が、算出部133により算出された関連度スコアである。
【0086】
以下では、算出部133による関連度スコアの算出処理について、具体的に説明する。算出部133は、エンティティ辞書122を参照し、抽出部132により特定された地域、すなわち抽出部132により抽出された地域情報によって示される地域に対応するエンティティが属する分類カテゴリに付与されている重み値に基づいて、関連度スコアを算出する。具体的には、算出部133は、以下に示す式(1)を用いて、関連度スコアを算出する。式(1)は、都道府県地域や市区町村地域に紐付くエンティティの集合に含まれる重み値を合計することにより関連度スコアを算出することを示す。
【0087】
【数1】
【0088】
式(1)のうち、w(x)は、地域xの関連度スコアを示す。また、地域xは、抽出部132により、共通する1つのコンテンツから特定された各都道府県や市区町村を示し、上記例では、「福島県、福島市、佐倉村、千葉県、千葉市、佐倉市」を指す。
【0089】
は、地域xと紐付くエンティティの集合(エンティティ集合)を示す。eは、エンティティ集合Eに含まれる1つのあるエンティティを示す。cは、エンティティeに対応する分類カテゴリを示す。θ(c)は、エンティティeが属する分類カテゴリcに付与されている重み値を示す。
【0090】
つまり、算出部133は、スコア算出対象の地域xと紐付くエンティティ集合Eに含まれるエンティティeそれぞれの属する分類カテゴリcに対応付けられる重み値を合計することにより、地域xのコンテンツとの関連度スコアw(x)を算出する。
【0091】
「福島市」の関連度スコア算出について説明する。図4Aに示すエンティティ辞書122の例では、「福島市」に紐付くエンティティ集合は、「福島A1小学校」および「福島署」である。そして、エンティティ「福島A1小学校」が属する分類カテゴリ「教育機関/小学校」に付与されている重み値は「1.5」である。また、エンティティ「福島署」が属する分類カテゴリ「警察機関」に付与されている重み値は「0.9」である。このため、算出部133は、重み値「1.5」と「0.9」とを合計することにより、「福島市」の関連度スコア「2.4」を算出する。
【0092】
「佐倉村」の関連度スコア算出について説明する。図4Aに示すエンティティ辞書122の例では、「佐倉村」に紐付くエンティティの集合は、「佐倉」および「佐倉駐在所」である。そして、エンティティ「佐倉」が属する分類カテゴリ「行政区画/村」に付与されている重み値は「4」である。また、エンティティ「佐倉駐在所」が属する分類カテゴリ「警察機関」に付与されている重み値は「0.9」である。このため、算出部133は、重み値「4」と「0.9」とを合計することにより、「佐倉村」の関連度スコア「4.9」を算出する。
【0093】
「千葉市」の関連度スコア算出について説明する。図4Aに示すエンティティ辞書122の例では、「千葉市」に紐付くエンティティの集合は、「A2大学」である。そして、エンティティ「A2大学」が属する分類カテゴリ「教育機関/大学」に付与されている重み値は「0.8」である。このため、算出部133は、「千葉市」の関連度スコアを「0.8」とする。
【0094】
「佐倉市」の関連度スコア算出について説明する。図4Aに示すエンティティ辞書122の例では、「佐倉市」に紐付くエンティティの集合は、「佐倉」である。そして、エンティティ「佐倉」が属する分類カテゴリ「行政区画/市」に付与されている重み値は「4」である。このため、算出部133は、「佐倉市」の関連度スコアを「4」とする。
【0095】
「福島県」の関連度スコア算出について説明する。図4Aに示すエンティティ辞書122の例では、「福島県」に紐付くエンティティの集合は、「福島、佐倉、福島A1小学校、福島署、佐倉駐在所」である。そして、エンティティ「福島」が属する分類カテゴリ「行政区画/県」に付与されている重み値は「3」である。また、エンティティ「佐倉」が属する分類カテゴリ「行政区画/村」に付与されている重み値は「4」である。また、エンティティ「福島A1小学校」が属する分類カテゴリ「教育機関/小学校」に付与されている重み値は「1.5」である。また、エンティティ「福島署」が属する分類カテゴリ「警察機関」に付与されている重み値は「0.9」である。また、エンティティ「佐倉駐在所」が属する分類カテゴリ「警察機関」に付与されている重み値は「0.9」である。このため、算出部133は、重み値「3」と、「4」と、「1.5」と、「0.9」と、「0.9」とを合計することにより、「福島県」の関連度スコア「10.3」を算出する。
【0096】
「千葉県」の関連度スコア算出について説明する。図4Aに示すエンティティ辞書122の例では、「千葉県」に紐付くエンティティの集合は、「佐倉、A2大学」である。そして、エンティティ「佐倉」が属する分類カテゴリ「行政区画/市」に付与されている重み値は「4」である。また、エンティティ「A2大学」が属する分類カテゴリ「教育機関/大学」に付与されている重み値は「0.8」である。このため、算出部133は、重み値「4」と「0.8」とを合計することにより、「千葉県」の関連度スコア「4.8」を算出する。
【0097】
ここで、記事コンテンツC2を見ると、主題となっている地域は「福島県」であることは明らかである。しかしながら、上記のように算出された関連度スコアでは、「福島県」とは全く関係のない千葉県の「佐倉市」の関連度スコアが「4」と高く算出されている。これは、福島県と千葉県の両方に「佐倉」という地域があり、かつ、「佐倉」に対応する分類カテゴリ「行政区画/市区町村」には、最も高い重み値が設定されているためである。
【0098】
実施形態にかかる情報処理装置100は、コンテンツに対し、そのコンテンツが示す地域を市区町村単位で付与するものである。例えば、コンテンツに市区町村地域である「佐倉」が含まれている場合、そのコンテンツは、「佐倉」地域を主題とする内容を示している可能性が高い。このため、コンテンツに、市区町村地域(図4Aでは「佐倉」)が含まれている場合には、算出部133が、その含まれている市区町村の関連度スコアを、市区町村以外の他のキーワードから特定された市区町村(図4Aでは、例えば、キーワード「A2大学」から特定された「千葉市」等)の関連度スコアより高く算出するように、分類カテゴリ「行政区画/市区町村」に対し最も高い重み値が設定される。
【0099】
このため、算出部133により、例えば、千葉県の「佐倉市」の関連度スコアが「4」と高く算出されるといったように、コンテンツが主題とする地域とは無関係な地域の関連度スコアが高く算出される状況が起こる場合がある。そして、結果的に、コンテンツに対し、そのコンテンツとは無関係な地域が付与される(誤り付与)といった状況が起こる場合がある。このため、補正部134は、都道府県の関連度スコアを用いて、対応する市区町村の関連度スコアを補正する。
【0100】
一般に、コンテンツが主題とする地域がどの地域であるか判定したい場合、市区町村よりは粒度の粗い(地域区分が示す範囲が広い)都道府県の方が判定し易く、判定精度も高いといえる。つまり、都道府県地域について算出された関連度スコアの精度は、市区町村地域について算出された関連度スコアの精度より高い場合が多いことが考えられる。例えば、記事コンテンツC2であれば、機械的な判定手段を用いずとも、「福島県」に関する記事であることは明らかであるが、「佐倉駐在所」といったキーワードが含まれているものの、ここから「佐倉村」は判別し難い。
【0101】
このため、補正部134は、より高精度に算出可能な都道府県地域の関連度スコアを用いて、当該都道府県地域に属する市区町村地域の関連度スコアを補正することにより、市区町村地域の関連度スコアの精度を高める。
【0102】
以下では、補正部134による関連度スコアの補正処理について、具体的に説明する。補正部134は、都道府県地域を示す地域情報(第1の地域情報)に対応する関連度スコアに基づいて、当該都道府県地域が、地域情報抽出元のコンテンツが示す地域である確率を算出する。そして、補正部134は、算出した確率を用いて、当該都道府県地域に属する市区町村地域を示す地域情報(第2の地域情報)に対応する関連度を補正する。
【0103】
具体的には、補正部134は、以下に示す式(2)を用いて、都道府県地域に属する市区町村地域の関連度スコアを補正する。式(2)は、対象とする都道府県地域が、地域情報抽出元のコンテンツが示す地域である確率を、当該都道府県地域に属する市区町村地域の関連度スコアに乗じることにより、かかる市区町村地域の関連度スコアを補正することを示す。
【0104】
【数2】
【0105】
式(2)のうち、w(c)は、市区町村cの補正前の関連度スコアを示す。また、市区町村cは、抽出部132により特定された各市区町村であって、関連度スコアw(c)を補正する補正対象の市区町村地域を示す。図4Aの例では、市区町村cは、「福島市、佐倉村、千葉市、佐倉市」を指す。
【0106】
また、pは、市区町村cが属する都道府県地域を示す。つまり、pは、市区町村cを含む都道府県である。図4Aの例では、都道府県地域「福島県」は、市区町村地域「福島市、佐倉村」を含む。また、都道府県地域「千葉県」は、市区町村地域「千葉市、佐倉市」を含む。また、w(p)は、都道府県pの関連度スコアを示す。
【0107】
pは、1つのコンテンツから特定された都道府県地域を示し、図4Aの例では、「福島県、千葉県」を指す。また、w(p)は、都道府県pの関連度スコアを示す。Pは、共通する1つのコンテンツから特定された各都道府県pの集合を示す。w´(c)は、市区町村cの補正前の関連度スコアを示す。
【0108】
つまり、補正部134は、関連度スコアw(c)を補正する補正対象の市区町村cが属する都道府県pの関連度スコアw(p)を、都道府県の集合Pに含まれる各都道府県pの関連度スコアw(p)の合計値で除算することにより、都道府県pの関連度スコアの確率を算出する。そして、補正部134は、算出した確率を関連度スコアw(c)に乗じることにより、関連度スコアw(c)を、関連度スコアw´(c)へと補正する。
【0109】
なお、このように確率を算出することは、都道府県の集合Pに含まれる各都道府県pの関連度スコアw(p)の合計値を用いて、市区町村cが属する都道府県pの関連度スコアw(p)を正規化することに相当する。つまり、本実施形態では、都道府県地域の関連度スコアを正規化し、正規化した値を用いて、当該都道府県地域に属する市区町村地域の関連度スコアを補正する。したがって、図4Aおよび図4Bの例では、以下のようにして関連度スコアを補正することになる。
【0110】
図4Aおよび図4Bの例では、都道府県の集合Pに含まれる各都道府県pは、「福島県」と「千葉県」である。このため、補正部134は、「福島県」の関連度スコア「10.3」を、「福島県」の関連度スコア「10.3」と「千葉県」の関連度スコア「4.8」との合計「15.1」で除算することにより、「福島県」の関連度スコアを「0.7」へと正規化する。また、補正部134は、「千葉県」の関連度スコア「4.8」を、同様に「15.1」で除算することにより、「千葉県」の関連度スコアを「0.3」へと正規化する。
【0111】
そして、補正部134は、「福島市」について、「福島県」の正規化後関連度スコア「0.7」を、「福島市」の補正前関連度スコア「2.4」に乗じることにより、「福島市」の関連度スコアを「1.7」へと補正する。また、補正部134は、「佐倉村」について、「福島県」の正規化後関連度スコア「0.7」を、「佐倉村」の補正前関連度スコア「4.9」に乗じることにより、「佐倉村」の関連度スコアを「3.4」へと補正する。
【0112】
また、補正部134は、「千葉市」について、「千葉県」の正規化後関連度スコア「0.3」を、「千葉市」の補正前関連度スコア「0.8」に乗じることにより、「千葉市」の関連度スコアを「0.2」へと補正する。また、補正部134は、「佐倉市」について、「千葉県」の正規化後関連度スコア「0.3」を、「佐倉市」の補正前関連度スコア「4」に乗じることにより、「佐倉市」の関連度スコアを「1.2」へと補正する。
【0113】
そして、付与部135は、補正部134により補正された補正後の関連度スコアに基づいて、市区町村地域を示す地域情報をコンテンツに関連付ける。ここで、例えば、補正後の関連度スコアについて、閾値「1.5」が予め設定されているとする。かかる場合、付与部135は、補正部134により補正された関連度スコアのうち、閾値「1.5」より高い関連度スコアを有する地域情報であって、市区町村地域を示す地域情報を記事コンテンツC2に関連付ける。
【0114】
図4Bの例では、閾値「1.5」より高い補正後の関連度スコアを有する市区町村地域は、「福島市」と「佐倉村」である。このため、付与部135は、「福島市」および「佐倉村」それぞれを示す地域情報を記事コンテンツC2に関連付ける。
【0115】
なお、付与部135は、コンテンツに関連付ける地域情報が示す地域と、当該地域情報に対応するキーワード(エンティティ)と、当該地域情報の補正後関連度スコアとを対応付けて端末装置10に出力してもよい。例えば、図4Bの例では、付与部135は、地域情報「福島市」に対し、エンティティ「福島A1小学校」および「福島署」と、補正後関連度スコア「1.7」とを対応付けて、端末装置10に出力する。また、付与部135は、地域情報「佐倉村」に対し、キーワード「佐倉」および「佐倉駐在所」と、補正後関連度スコア「3.4」とを対応付けて、端末装置10に出力する。
【0116】
ここで、記事コンテンツC2を見ると、「福島」や「佐倉」に関する内容を示すことがわかる。そして、これまで説明してきたように、関連度スコアを補正し、閾値で絞り込むことにより、確かに、情報処理装置100は、「福島市」と「佐倉村」とを記事コンテンツC2に関連付ける。また、一方で、情報処理装置100は、同じ「佐倉」であっても、記事コンテンツC2が主題とする地域とは無関係な千葉県の「佐倉市」を誤って関連付けてしまうことが無い。
【0117】
このように、実施形態にかかる情報処理装置100は、コンテンツが主題とする地域が複数存在する場合であっても、その地域を精度よく、かかるコンテンツに関連付けることができる。また、情報処理装置100は、かかるコンテンツとは無関係の地域を誤って関連付けてしまうことを防止することができる。
【0118】
〔3.処理手順〕
次に、図5を用いて、実施形態にかかる情報処理装置100が実行する情報処理の手順について説明する。図5は、実施形態にかかる情報処理装置100による情報処理手順を示すフローチャートである。
【0119】
まず、情報処理装置100の入力受付部131は、所定のコンテンツ(「コンテンツi」とする)の入力を受け付けたか否かを判定する(ステップS101)。入力受付部131によりコンテンツiの入力が受け付けられたと判定された場合には(ステップS101;Yes)、抽出部132は、コンテンツiに含まれるテキストの形態素解析を行う(ステップS102)。一方、入力受付部131は、コンテンツiの入力を受け付けていないと判定した場合には(ステップS101;No)、受け付けるまで待機する。
【0120】
次に、抽出部132は、形態素解析を行ったテキストと、エンティティ辞書122とのマッチングにより、エンティティ辞書122に記憶されているエンティティと一致するキーワードである形態素列をコンテンツiから抽出する(ステップS103)。
【0121】
また、抽出部132は、エンティティ辞書122を参照し、抽出した各キーワードに一致するエンティティそれぞれに対応する地域を特定する(ステップS104)。ここで、抽出部132により特定される地域とは、都道府県地域および市区町村地域である。また、抽出部132は、特定した地域を示す地域情報をエンティティ辞書122から抽出する(ステップS105)。
【0122】
そして、算出部133は、抽出部132により特定された地域毎に、コンテンツiとの関連度スコアを算出する(ステップS106)。
【0123】
次に、補正部134は、ステップS106において算出された関連度スコアのうち、都道府県地域の関連度スコアを正規化し、正規化した値を用いて、各都道府県地域に属する市区町村地域の関連度スコアを補正する(ステップS107)。
【0124】
次に、付与部135は、ステップS107において、補正部134により補正された補正後の関連度スコアのうち、所定の閾値より高い関連度スコアを有する地域情報であって、市区町村地域を示す地域情報をコンテンツiに関連付ける(ステップS108)。
【0125】
〔4.変形例〕
上述した実施形態は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、他の実施形態について説明する。
【0126】
〔4−1.付与部について〕
上記実施形態では、情報処理装置100の付与部135が、所定の閾値より高い関連度スコアを有する地域情報をコンテンツに関連付ける例について説明した。しかし、付与部135は、補正後の関連度スコアの大きさに応じて、各市区町村地域を示す地域情報に順位付けし、所定の順位以上の関連度スコアを有する地域情報をコンテンツに対応付けてもよい。この点について、図4Bを用いて説明する。
【0127】
図4Bの例では、付与部135は、補正後の関連度スコアが大きい順に、「佐倉村:1位」、「福島市:2位」、「佐倉市:3位」、「千葉市:4位」といった順位付けを行う。ここで、例えば、「順位2位以上」が設定されているとすると、付与部135は、「佐倉村」および「福島市」それぞれを示す地域情報を記事コンテンツC2に関連付ける。
【0128】
〔4−2.コンテンツ提供システム〕
上記実施形態では、情報処理装置100が、入力されたコンテンツから地域情報を抽出し、抽出した地域情報によって示される地域とコンテンツとの関連度スコアを算出し、算出した関連度スコアに基づいて、コンテンツに地域情報を関連付ける例について説明した。ここで、情報処理装置100は、さらに、コンテンツをユーザに提供するコンテンツサーバとして機能することにより、ユーザの位置情報と連携したコンテンツ配信を行ってもよい。この点について、図6を用いて説明する。
【0129】
図6は、コンテンツ提供システム1による情報処理の流れを示す図である。図6に示すように、コンテンツ提供システム1は、端末装置10と、提供者端末30と、情報処理装置100とを含む。端末装置10、提供者端末30、情報処理装置100は、ネットワークを介して有線または無線により通信可能に接続される。なお、図6に示すコンテンツ提供システム1には、複数台の端末装置10や、複数台の提供者端末30や、複数台の情報処理装置100が含まれてもよい。
【0130】
端末装置10は、ユーザによって利用される端末装置である。また、提供者端末30は、コンテンツを提供する提供者(コンテンツプロバイダー等と呼ばれる)によって利用される端末装置である。
【0131】
まず、図6に示すように、提供者は、提供者端末30を用いて、情報処理装置100へ各種コンテンツを入稿する(ステップS31)。例えば、提供者とは、新聞社や雑誌社等であり、提供者端末30を用いて、自社の記事コンテンツを情報処理装置100へ入稿する。
【0132】
情報処理装置100は、提供者端末30からコンテンツの入稿を受け付けると、受け付けたコンテンツそれぞれについて、地域情報を関連付ける(ステップS32)。情報処理装置100によって、各コンテンツについて行われる処理は、これまで説明してきた抽出部132、算出部133、補正部134、付与部135による処理であるため、ここでの詳細な説明を省略する。
【0133】
ここで、端末装置10は、ユーザ操作に従い、ウェブページの取得要求を情報処理装置100に送信したとする(ステップS33)。例えば、端末装置10は、GPS機能により自装置の現在位置を取得し、取得した現在位置を含む取得要求を情報処理装置100に送信する。なお、かかる例に限らず、情報処理装置100が、定期的に端末装置10にアクセスすることで、端末装置10の位置情報を取得してもよい。また、図6において、端末装置10から要求されるウェブページは、情報処理装置100の管理者によって提供されるポータルサイトであるものとする。
【0134】
情報処理装置100は、ウェブページの取得要求を受け付けると、かかる取得要求に含まれる現在位置に基づいて、コンテンツを抽出する(ステップS34)。例えば、情報処理装置100は、自装置内の所定の記憶部内から、現在位置を示す地域情報が付与されているコンテンツを特定し、特定したコンテンツのリンク情報(例えば、URL)を抽出する。
【0135】
そして、情報処理装置100は、抽出したリンク情報を含むウェブページを端末装置10に配信する(ステップS35)。例えば、情報処理装置100は、「周辺の地域情報」といった項目欄に、抽出したリンク情報を含めたウェブページを生成し、生成したウェブページを端末装置10に配信する。なお、情報処理装置100は、端末装置10からユーザの出身地情報を取得しておくことで、出身地と一致するコンテンツのリンク情報を含むウェブページを配信してもよい。
【0136】
〔4−3.プログラム〕
また、上述してきた実施形態にかかる情報処理装置100は、例えば図7に示すような構成のコンピュータ1000によって実現される。図7は、情報処理装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
【0137】
CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
【0138】
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、通信網50を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを、通信網50を介して他の機器へ送信する。
【0139】
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを、入出力インターフェイス1600を介して出力装置へ出力する。
【0140】
メディアインターフェイス1700は、記録媒体1800に格納されたプログラム又はデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0141】
例えば、コンピュータ1000が実施形態にかかる情報処理装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。また、HDD1400には、記憶部220内のデータが格納される。コンピュータ1000のCPU1100は、これらのプログラムを、記録媒体1800から読み取って実行するが、他の例として、他の装置から、通信網50を介してこれらのプログラムを取得してもよい。
【0142】
〔4−4.その他〕
上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
【0143】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0144】
また、上述してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0145】
〔5.効果〕
上述してきたように、情報処理装置100は、抽出部132と、算出部133と、補正部134とを有する。抽出部132は、コンテンツから地域を示す地域情報を抽出する。算出部133は、抽出部132により抽出された地域情報毎に、当該地域情報によって示される地域とコンテンツとの関連度を算出する。補正部134は、抽出部132により抽出された地域情報のうち、第1の地域情報に対応する関連度を用いて、当該第1の地域情報によって示される地域に属する地域を示す第2の地域情報に対応する関連度を補正する。
【0146】
これにより、実施形態にかかる情報処理装置100は、コンテンツに対して、市区町村単位の地域情報を精度よく関連付けることができる。また、情報処理装置100は、コンテンツと関連しない地域を誤って関連付けてしまうといった事態を防ぐとこができる。
【0147】
また、実施形態にかかる情報処理装置100において、補正部134は、第1の地域情報に対応する関連度を用いて、第1の地域情報によって示される地域よりも行政区画が下位である地域を示す第2の地域情報に対応する関連度を補正する。
【0148】
これにより、実施形態にかかる情報処理装置100は、コンテンツに対して、市区町村単位の地域情報を精度よく関連付けることができる。
【0149】
また、実施形態にかかる情報処理装置100において、付与部135は、補正部134により補正された補正後の関連度に基づいて、第2の地域情報をコンテンツに関連付ける。
【0150】
これにより、実施形態にかかる情報処理装置100は、コンテンツが主題とする市区町村地域を示す地域情報を、精度よく当該コンテンツに関連付けることができるため、例えば、ユーザの所在地に関するコンテンツをより適切にユーザに提供することができる。
【0151】
また、付与部135は、補正部134により補正された補正後の関連度のうち、所定の閾値より高い関連度を有する第2の地域情報をコンテンツに関連付ける。
【0152】
このように、実施形態にかかる情報処理装置100は、閾値と第2の地域情報に対応する関連度に基づいて、第2の地域情報をコンテンツに関連付けるため、例えば、コンテンツが主題とする市区町村地域が複数存在する場合であっても、その複数の市区町村地域それぞれを示す地域情報を、精度よく当該コンテンツに関連付けることができる。
【0153】
また、抽出部132は、コンテンツに含まれるキーワードに基づいて、地域情報を抽出し、算出部133は、キーワードが属するカテゴリに付与されている重み値に基づいて、当該キーワードに対応する地域情報によって示される地域の関連度を算出する。
【0154】
これにより、実施形態にかかる情報処理装置100は、コンテンツが主題とする可能性がある地域それぞれについて、関連度を算出することができる。
【0155】
また、算出部133は、カテゴリそれぞれの重み値のうち、市区町村を示すカテゴリに最も高い値が付与されている重み値に基づいて、関連度を算出する。
【0156】
これにより、実施形態にかかる情報処理装置100は、コンテンツに対して、市区町村単位の地域情報を精度よく関連付けることができる。
【0157】
また、補正部134は、第1の地域情報に対応する関連度に基づいて、当該第1の地域情報によって示される地域がコンテンツが示す地域である確率を算出し、当該確率を用いて、第2の地域情報に対応する関連度を補正する。
【0158】
このように、実施形態にかかる情報処理装置100は、単に算出した市区町村地域の関連度は精度が低い可能性があるため、市区町村地域の関連度より高精度に算出可能な都道府県地域の関連度を用いて、その都道府県地域がコンテンツが示す地域である確率を算出する。そして、情報処理装置100は、算出した確率を用いて、市区町村地域の関連度を補正するため、補正前の市区町村地域の関連度を精度の高い値へ変更することができる。
【0159】
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0160】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、抽出部は、抽出手段や抽出回路に読み替えることができる。
【符号の説明】
【0161】
1 コンテンツ提供システム
10 端末装置
30 提供者端末
100 情報処理装置
122 エンティティ辞書
130 制御部
132 抽出部
133 算出部
134 補正部
135 付与部
図1A
図1B
図2
図3
図4A
図4B
図5
図6
図7