特許6710907 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＴＩＳ株式会社の特許一覧

特許6710907嗜好学習方法、嗜好学習プログラム、及び嗜好学習装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6710907

(24)【登録日】2020年6月1日

(45)【発行日】2020年6月17日

(54)【発明の名称】嗜好学習方法、嗜好学習プログラム、及び嗜好学習装置

(51)【国際特許分類】

G06F 16/35 20190101AFI20200608BHJP

G06F 40/20 20200101ALI20200608BHJP

【ＦＩ】

G06F16/35

G06F40/20

【請求項の数】5

【全頁数】16

(21)【出願番号】特願2015-142468(P2015-142468)

(22)【出願日】2015年7月16日

(65)【公開番号】特開2017-27168(P2017-27168A)

(43)【公開日】2017年2月2日

【審査請求日】2018年5月8日

(73)【特許権者】

【識別番号】514020389

【氏名又は名称】ＴＩＳ株式会社

(74)【代理人】

【識別番号】100100549

【弁理士】

【氏名又は名称】川口嘉之

(74)【代理人】

【識別番号】100137822

【弁理士】

【氏名又は名称】香坂薫

(72)【発明者】

【氏名】白石康司

(72)【発明者】

【氏名】佐伯純

(72)【発明者】

【氏名】西部一英

(72)【発明者】

【氏名】油谷実紀

【審査官】西村直史

(56)【参考文献】

【文献】特開２０１４−２１５９９６（ＪＰ，Ａ）

【文献】特開２００９−１１６４６９（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１１／０１１９２７０（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１５／００１９５４５（ＵＳ，Ａ１）

【文献】特開２０１３−１８３２８９（ＪＰ，Ａ）

【文献】特開２０１５−０９０６６４（ＪＰ，Ａ）

【文献】特開２００６−０７９４４１（ＪＰ，Ａ）

【文献】特開２００３−２４２１７６（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１６／００−１６／９５８

Ｇ０６Ｆ４０／２０

(57)【特許請求の範囲】

【請求項1】

ＳＮＳ（Social Networking Service）が公開する情報から、ユーザに関連付けられた
文章を取得するステップと、
取得した前記文章について、前記ＳＮＳごと且つ前記ユーザごとに重みづけされたパラメータを用いて所定の関心度を算出するステップと、
前記ユーザに関連付けられた文章を読み出し、単語に分解する分解ステップと、
単語に分解された文章から、所定の分野に関する単語を抽出する特徴語抽出ステップと、
前記所定の分野に関する複数の文章を用いて生成された、単語の特徴を表すベクトルをクラスタリングし、各クラスタの重心に近い単語である代表語と各クラスタに含まれる単語との対応付けを記憶しているテーブルを用いて、前記特徴語抽出ステップで抽出された単語を前記代表語に置き換え、前記ユーザに関連付けられた文章における興味の対象を表す代表語のリストを生成する興味対象リスト生成ステップと、
をコンピュータが実行し、
前記興味対象リスト生成ステップにおいて、単語が抽出された文章に対して算出された関心度を、単語を置き換えた代表語に対応付けて記憶させる
嗜好学習方法。

【請求項2】

前記関心度は、前記ＳＮＳに対するユーザの操作、又はＳＮＳへの投稿の添付ファイルの有無若しくは外部サイトへのリンクの有無によってさらに重みづけされたパラメータを用いて算出される
請求項１に記載の嗜好学習方法。

【請求項3】

前記ユーザに関連付けられた文章は、ユーザに対して行われた質問への回答であり、
質問の回答として期待される単語の品詞が定められており、前記分解ステップにおいて、前記回答として期待される単語の品詞に該当する単語を前記回答の内容として抽出する
請求項１に記載の嗜好学習方法。

【請求項4】

ＳＮＳ（Social Networking Service）が公開する情報から、ユーザに関連付けられた
文章を取得するステップと、
取得した前記文章について、前記ＳＮＳごと且つ前記ユーザごとに重みづけされたパラ
メータを用いて所定の関心度を算出するステップと、
前記ユーザに関連付けられた文章を読み出し、単語に分解する分解ステップと、
単語に分解された文章から、所定の分野に関する単語を抽出する特徴語抽出ステップと、
前記所定の分野に関する複数の文章を用いて生成された、単語の特徴を表すベクトルをクラスタリングし、各クラスタの重心に近い単語である代表語と各クラスタに含まれる単語との対応付けを記憶しているテーブルを用いて、前記特徴語抽出ステップで抽出された単語を前記代表語に置き換え、前記ユーザに関連付けられた文章における興味の対象を表す代表語のリストを生成する興味対象リスト生成ステップと、
をコンピュータに実行させ、
前記興味対象リスト生成ステップにおいて、単語が抽出された文章に対して算出された関心度を、単語を置き換えた代表語に対応付けて記憶させる
嗜好学習プログラム。

【請求項5】

ＳＮＳ（Social Networking Service）が公開する情報から、ユーザに関連付けられた
文章を取得する文書取得部と、
取得した前記文章について、前記ＳＮＳごと且つ前記ユーザごとに重みづけされたパラメータを用いて所定の関心度を算出する関心度付与部と、
前記ユーザに関連付けられた文章を読み出し、単語に分解する分解部と、
単語に分解された文章から、所定の分野に関する単語を抽出する特徴語抽出部と、
前記所定の分野に関する複数の文章を用いて生成された、単語の特徴を表すベクトルをクラスタリングし、各クラスタの重心に近い単語である代表語と各クラスタに含まれる単語との対応付けを記憶しているテーブルを用いて、前記特徴語抽出部で抽出された単語を前記代表語に置き換え、前記ユーザに関連付けられた文章における興味の対象を表す代表語のリストを生成する興味対象リスト生成部と、
を含み、
前記興味対象リスト生成部は、単語が抽出された文章に対して算出された関心度を、単語を置き換えた代表語に対応付けて記憶させる
嗜好学習装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、嗜好学習方法、嗜好学習プログラム、及び嗜好学習装置に関する。

【背景技術】

【0002】

従来、ユーザの嗜好を抽出するための手法として、例えば、人が興味を示す際に使用する可能性のある予め定めた動詞を用いて、分析の対象となる文書データから動詞及び名詞をセットで抽出するという技術が提案されている（特許文献１）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１１−１８０６４６号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

従来、予め定められた単語を抽出することにより文章からユーザの興味を抽出する技術が提案されていた。しかしながら、似た嗜好を有するユーザであっても、同義語等により異なる文章で表現されることがある。

【0005】

そこで、本発明は、複数のユーザが作成する文章から統一的に嗜好を表すデータを抽出することを目的とする。

【課題を解決するための手段】

【0006】

本発明に係る嗜好学習方法は、ユーザに関連付けられた文章を読み出し、単語に分解する分解ステップと、単語に分解された文章から、所定の単語を抽出する特徴語抽出ステップと、複数の文章を用いて生成された、単語の特徴を表すベクトルをクラスタリングし、各クラスタの重心に近い単語である代表語と各クラスタに含まれる単語との対応付けを記憶しているテーブルを用いて、特徴語抽出ステップで抽出された単語を代表語に置き換える興味対象リスト生成ステップとをコンピュータが実行する。

【0007】

代表語に置き換えることにより、ユーザが自由に記載した文章の用字又は用語の不統一を吸収し、統一的に利用できる代表語を用いた嗜好情報を生成できるようになる。すなわち、複数のユーザがそれぞれ作成する文章から統一的に嗜好を表すデータを抽出することができるようになる。

【0008】

また、ＳＮＳ（Social Networking Service）が公開する情報から、ユーザの識別情報
と関連付けられた文章を取得するステップと、取得した文章について、ＳＮＳごと且つユーザごとに重みづけされたパラメータを用いて所定の関心度を算出するステップとをさらに含み、興味対象リスト生成ステップにおいて、単語が抽出された文章に対して算出された関心度を、単語を置き換えた代表語に対応付けて記憶させるようにしてもよい。このようにすれば、例えばユーザのＳＮＳの使い方等に応じてＳＮＳごとに重みづけしたパラメータを用いて関心度を求めることができるようになる。

【0009】

また、関心度は、ＳＮＳに対するユーザの操作、又はＳＮＳへの投稿の添付ファイルの有無若しくは外部サイトへのリンクの有無によってさらに重みづけされたパラメータを用いて算出されるようにしてもよい。このようにすれば、ＳＮＳへの投稿等のような外部サイトが公開する情報に基づいて、ユーザの操作や付随的な情報の有無等を加味した関心度を求めることができる。

【0010】

特徴語抽出ステップにおいて用いられる予め定められた単語は、所定の分野に関する単語であってもよい。このようにすれば、所定の分野に関するユーザの嗜好を学習することができるようになる。

【0011】

また、ユーザに関連付けられた文章は、ユーザに対して行われた質問への回答であり、質問の回答として期待される単語の品詞が定められており、分解ステップにおいて、回答として期待される単語の品詞に該当する単語を回答の内容として抽出するようにしてもよい。このようにすれば、文章から目的の単語を抽出する際の精度が向上する。

【0012】

なお、課題を解決するための手段に記載の内容は、本発明の課題や技術的思想を逸脱しない範囲で可能な限り組み合わせることができる。また、課題を解決するための手段の内容は、コンピュータ等の装置若しくは複数の装置を含むシステム、コンピュータが実行する方法、又はコンピュータに実行させるプログラムとして提供することができる。なお、コンピュータが読み取り可能な記録媒体を提供するようにしてもよい。

【0013】

ここで、コンピュータが読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータから読み取ることができる記録媒体をいう。このような記録媒体の内コンピュータから取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、CD-ROM、CD-R/W、DVD、DAT、8mmテープ、メモリカード等がある。また、コンピュータに固定された記録
媒体としてハードディスクやＲＯＭ（Read Only Memory）等がある。

【発明の効果】

【0014】

複数のユーザが作成する文章から統一的に嗜好を表すデータを抽出することができるようになる。

【図面の簡単な説明】

【0015】

【図1】図１は、システム構成の一例を示す図である。

【図2】図２は、エージェントの一例を示す図である。

【図3】図３は、嗜好分析装置の一例を示す機能ブロック図である。

【図4】図４は、文章記憶部に格納される文書テーブルの一例を示す図である。

【図5】図５は、文章記憶部に格納される回答テーブルの一例を示す図である。

【図6】図６は、パラメータ記憶部に記憶される第１パラメータテーブルの一例を示す図である。

【図7】図７は、パラメータ記憶部に記憶される第２パラメータテーブルの一例を示す図である。

【図8】図８は、パラメータ記憶部に記憶される第３パラメータテーブルの一例を示す図である。

【図9】図９は、単語記憶部に記憶される単語テーブルの一例を示す図である。

【図10】図１０は、単語記憶部に記憶される特徴語テーブルの一例を示す図である。

【図11】図１１は、用語記憶部へ格納されるデータの一例を示す図である。

【図12】図１２は、意味ベクトルの一例を示す図である。

【図13】図１３は、代表語辞書に保持されるリストの一例を示す図である。

【図14】図１４は、代表語とスコアとの対応付けの一例を示す図である。

【図15】図１５は、コンピュータの一例を示す装置構成図である。

【図16】図１６は、文書分析処理の一例を示す処理フロー図である。

【図17】図１７は、回答分析処理の一例を示す処理フロー図である。

【発明を実施するための形態】

【0016】

以下、図面を参照して本発明を実施するための形態について説明する。なお、実施形態に示す構成は例示であり、本発明は下記の構成に限定されない。

【0017】

＜システム構成＞
図１は、本実施形態に係るシステム構成の一例を示す図である。図１のシステムは、ユーザ装置１と、嗜好分析装置２と、ＳＮＳ（Social Networking Service）提供装置３と
を含み、これらがインターネット等のネットワーク４を介して相互に接続されている。本実施形態では、ユーザの嗜好を抽出し、例えば旅行の計画を提案するソフトウェアエージェント（「エージェントプログラム」又は単に「エージェント」とも呼ぶ）をユーザが自己のコンピュータにインストールして使用するものとする。なお、各構成要素は複数存在してもよい。ユーザ装置１は、ユーザが携帯するコンピュータ装置であって本実施形態に係るエージェントプログラムを実行する。エージェントプログラムは、ユーザの嗜好を学習するための質問を行い、例えば文章でされた回答を嗜好分析装置２へ送信する。また、ユーザは自己のアカウントでＳＮＳ等へ文章を投稿することもある。嗜好分析装置２は、ユーザの回答やＳＮＳ等への投稿を分析し、ユーザの嗜好を抽出する。なお、嗜好分析装置２又は他の装置は、抽出された嗜好に基づいてユーザへ例えば旅行等の計画を提案するようにしてもよい。ＳＮＳ提供装置３は、いわゆるＳＮＳのようなユーザ同士がコミュニケーションを行う場を提供するサーバ装置である。本実施形態では、ミニブログのようなサービスもＳＮＳに含まれるものとする。

【0018】

図２は、本実施形態に係るエージェントの実行画面の一例を示す図である。本実施形態に係るエージェントは、ユーザ装置１の一例であるスマートフォンやタブレットＰＣ（Personal Computer）、ラップトップ型のＰＣ、スマートウォッチといったモバイル装置や
、デスクトップ型のＰＣのような据置型のコンピュータ、キオスク端末やデジタルサイネージ等の街頭コンピュータ、いわゆるパーソナルロボットのような生活空間でサービスを提供するコンピュータ等において動作するアプリケーションプログラム（単に「アプリケーション」とも呼ぶ）である。いわゆるウィジェットのように、ユーザ装置１に常駐するものであってもよい。エージェントは、ユーザや、ＡＰＩ等のソフトウェアとの間で自律的に情報の入出力等を行う。具体的には、エージェントは、ユーザ装置１が備えるセンサによって測定される情報や、ユーザ装置１にインストールされたカメラ等のアプリケーションの使用状況、ユーザ装置１上又はいわゆるクラウド上で管理されるユーザのスケジュール等を取得してユーザの状態を認識し、所定のタイミングで情報の出力を行うようにしてもよい。また、ユーザ装置１は、マイクロフォン等の音声入力部及びスピーカ等の音声出力部を備え、エージェントは、既存の音声認識技術や音声合成技術を利用し、ユーザとの間で音声による情報の入出力を行うようにしてもよい。なお、図２に示すように、ユーザ装置１の表示装置にはキャラクタの画像が表示されるようにしてもよい。

【0019】

＜機能構成＞
図３は、本実施形態に係る嗜好分析装置２の一例を示す機能ブロック図である。図３の嗜好分析装置２は、文書取得部２０１と、回答取得部２０２と、文章記憶部２０３と、パラメータ記憶部２０４と、関心度付与部２０５と、形態素解析部２０６と、単語記憶部２０７と、特徴語抽出部２０８と、特徴語記憶部２０９と、特定分野辞書２１０と、分野限定部２１１と、用語記憶部２１２と、代表語辞書２１３と、代表語置換部２１４と、代表語記憶部２１５と、スコア決定部２１６と、嗜好情報記憶部２１７とを有する。

【0020】

文書取得部２０１は、予め記憶されているＳＮＳ等におけるユーザのアカウント情報に基づいて、ユーザがＳＮＳに投稿等（投稿、お気に入り登録、共有（再投稿）といった操作を含む）を行った文章をＳＮＳ提供装置３から取得する。本実施形態では、ユーザがＳＮＳへ投稿等したエントリを文書と呼ぶものとする。また、回答取得部２０２は、ユーザ
装置１のエージェントを介してユーザへ質問を行うとともに、ユーザが入力した回答をユーザ装置１から受信する。なお、回答はユーザが自由にテキストデータを入力するようにしてもよいし、ユーザが音声で入力した文章をユーザ装置１において既存の音声認識によりテキストデータ化してもよい。また、文章記憶部２０３は、主記憶装置又は補助記憶装置等からなり、文書又は回答として取得された文章を保持する。例えば、図４又は図５に示すような情報が文章記憶部２０３に記憶される。

【0021】

図４は、文章記憶部２０３に格納される文書テーブルの一例を示す図である。図４のテーブルは、ユーザＩＤ、日時、ＳＮＳ、操作、文章、添付、及び関心度の項目を含む。ユーザＩＤのフィールドには、ユーザを一意に特定する識別情報が登録される。なお、ユーザＩＤと関連付けて、当該ユーザが各ＳＮＳにおいて使用している識別情報（図示せず）も保持しているものとする。日時のフィールドには、投稿等の操作がなされた日時を示す情報が登録される。ＳＮＳのフィールドには、ユーザが投稿等の操作を行ったＳＮＳを一意に特定する識別情報が登録される。操作のフィールドには、投稿、お気に入り登録、共有（再投稿）等のようなユーザがＳＮＳに対して行った操作を示す情報が登録される。文章のフィールドには、ユーザが投稿等を行った文章が登録される。添付のフィールドには、当該投稿に添付ファイルが付加されているか否かを示す情報が登録される。関心度のフィールドには、後述する処理によって算出される関心度の値が登録される。

【0022】

図５は、文章記憶部２０３に格納される回答テーブルの一例を示す図である。図５のテーブルは、質問ＩＤ、質問、回答区分、ユーザＩＤ、回答、及び関心度の項目を含む。質問ＩＤのフィールドには、質問を管理するための識別情報が登録される。また、質問のフィールドには、エージェントからユーザに質問する内容が登録されている。質問は、ユーザの嗜好を学習するために用いられる。また、回答区分には、回答として期待される文言に関する情報（単語や品詞等）が予め登録されている。本実施形態における質問は、主として、はい又はいいえ（肯定又は否定）で回答できる質問、２以上の選択肢のいずれかで回答できる質問、名詞又は形容詞等の単語で回答できるようないわゆるファクトイド型の質問等に分類できる。図５の回答区分にはこのような分類を示す情報が登録され、分類を示す情報はユーザから入力される回答の内容を認識する際に利用される。ユーザＩＤのフィールドには、ユーザを一意に特定するための識別情報が登録される。回答のフィールドには、ユーザからの回答が登録される。関心度のフィールドには、後述する処理によって設定される関心度の値が登録される。

【0023】

パラメータ記憶部２０４は、主記憶装置又は補助記憶装置等からなり、ユーザごと且つＳＮＳの種類ごとに関心度の算出に用いるパラメータ（第１のパラメータとも呼ぶ）を予め記憶しているものとする。換言すれば、各ユーザが、複数のＳＮＳのそれぞれを重要視する度合いを例えば数値化して保持している。パラメータの値は、例えば、ユーザがＳＮＳの投稿等を行う頻度や、ＳＮＳを閲覧する頻度等に基づいて定めることができる。また、パラメータ記憶部２０４は、投稿、お気に入り登録、共有（再投稿）といった操作ごとに、関心度の算出に用いるパラメータ（第２のパラメータとも呼ぶ）を記憶すると共に、文章がＵＲＩ（Uniform Resource Identifier）を含むか否か、添付ファイル（画像ファ
イル等）を含むか否かといった付加情報に対応付けてパラメータ（第３のパラメータとも呼ぶ）を記憶しているものとする。そして、関心度付与部２０５は、文書取得部２０１が取得した文章について、第１のパラメータ、第２のパラメータ及び第３のパラメータ、並びに所定の数式を用いて関心度を算出し、文章記憶部２０３に記憶されている文章に対応づけて関心度を登録する。一方、回答取得部２０２が取得した文章については、関心度として所定の値が付与される。なお、回答を得るために行った質問ごとに異なる値を付与してもよい。

【0024】

具体的には、ＳＮＳへの投稿等については、例えば下記のような数式（１）により関心
度を求めるようにしてもよい。
関心度＝ａ₀＋ａ₁×ｘ₁＋ａ₂×ｘ₂＋ａ₃×ｘ₃ ・・・（１）
なお、ａ₀は、所定の係数である。また、ａ₁〜ａ₃は、上述した第１のパラメータ〜第３
のパラメータとする。また、ｘ₁は、ＳＮＳの種類によって重みづけするための重みパラ
メータである。例えば、各ユーザにとって重要度の高いと評価されたＳＮＳほど上述の関心度が高くなるようなパラメータが予め設定されるものとする。また、ｘ₂は、ユーザに
よるＳＮＳへの投稿、閲覧、お気に入り登録、共有といった操作（アクション）の回数又はこれに基づく値である。例えば、操作の種類ごとに操作の回数を示す値を含むベクトルで表される。ｘ₃は、ＵＲＩや添付ファイルといった付加情報の数又はこれに基づく値で
ある。例えば、付加情報の種類ごとに、付加情報を含む投稿等がなされた数を示す値を含むベクトルで表される。

【0025】

ｘ₁は、ＳＮＳの種別に応じたパラメータであり、ユーザごとに例えばＳＮＳの利用状
況に応じて重みづけされた値が定められているものとする。図６は、パラメータ記憶部２０４に記憶され、第１のパラメータ（ｘ₁）を保持する第１パラメータテーブルの一例を
示す図である。図６のテーブルは、ユーザＩＤ、ＳＮＳ、及びパラメータの項目を含む。ユーザＩＤのフィールドには、ユーザを一意に特定するための識別情報が登録される。ＳＮＳのフィールドには、ＳＮＳを一意に特定するための識別情報が登録される。パラメータ１のフィールドには、ユーザごと且つＳＮＳごとに予め重みづけされる重みパラメータが登録される。そして、ユーザ毎に、複数のＳＮＳに対する重みパラメータを所定の順序で含むベクトルを生成し、第１のパラメータ（ｘ₁）として用いるものとする。

【0026】

ｘ₂は、ユーザがＳＮＳにおいて行う操作に応じて重みづけされたパラメータである。
図７は、パラメータ記憶部２０４に記憶され、第２のパラメータ（ｘ₂）を保持する第２
パラメータテーブルの一例を示す図である。図７のテーブルは、ユーザＩＤ、ＳＮＳ、操作及びパラメータ２の項目を含む。ユーザＩＤのフィールドには、ユーザを一意に特定するための識別情報が登録される。ＳＮＳのフィールドには、ＳＮＳを一意に特定するための識別情報が登録される。操作のフィールドには、投稿、お気に入り、共有、リンク先参照、表示、引用等のようなユーザがＳＮＳにおいて行う操作が登録される。また、パラメータ２のフィールドには、操作ごとに重みづけされた第２のパラメータが予め登録される。

【0027】

ｘ₃は、ユーザの操作に付随する要素に応じて重みづけされたパラメータである。図８
は、パラメータ記憶部２０４に記憶され、第３のパラメータ（ｘ₃）を保持する第３パラ
メータテーブルの一例を示す図である。図８のテーブルは、ユーザＩＤ、ＳＮＳ、付加情報及びパラメータ３の項目を含む。ユーザＩＤのフィールドには、ユーザを一意に特定するための識別情報が登録される。ＳＮＳのフィールドには、ＳＮＳを一意に特定するための識別情報が登録される。付加情報のフィールドには、ＵＲＩを含む場合、又は添付ファイルがある場合のような、操作に付随する条件が登録される。また、パラメータ３のフィールドには、付加情報ごとに重みづけされた第３のパラメータが予め登録される。

【0028】

本実施形態では、所定のＳＮＳにおいてユーザが行った投稿等に基づき、文章に含まれる所定の単語に対するユーザの関心の度合いを表す値として、上記のような関心度が算出される。

【0029】

図３の形態素解析部２０６は、文章記憶部２０３に記憶されている、ユーザに関連付けられた文章を読み出して形態素解析を行い、単語に分解する。なお、形態素解析部２０６は、図示していない形態素解析用の辞書や、例えば不特定多数のユーザが編集可能なオンライン辞書サービスの見出し語のリストを用いて一般名詞や固有名詞を抽出すると共に、辞書に登録されていない固有名詞や日時表現のような固有表現も抽出する。なお、後述す
る通り、文脈を解析して辞書に登録されていない単語（「未知語」とも呼ぶ）も固有表現として抽出することができる。単語記憶部２０７は、主記憶装置又は補助記憶装置等からなり、形態素解析部２０６が分解した単語を保持する。このとき、分解前の文章に対して付与された関心度を、分解後の各単語に対応付けて記憶させておく。

【0030】

図９は、単語記憶部２０７に記憶される単語テーブルの一例を示す図である。図９のテーブルは、図４とほぼ同様であるが、文章の項目の代わりに単語の項目を含む。また、単語のフィールドには、形態素解析によって分解された、上述の文章に含まれる単語が登録される。

【0031】

図３の特徴語抽出部２０８は、いわゆる係り受け解析器を用いて固有表現を特定するとともに文章内で単語の重複を排除し、特定された固有表現を特徴語として抽出する。なお、係り受け解析器は、文章に含まれる単語及びその単語の品詞に基づいて（すなわち、文脈に基づいて）、固有表現であるか否か判断することができる。同時に、係り受け解析器は、固有表現であると判断された単語が表す内容を所定の項目に分類することができる。例えば、抽出された固有表現を、人物や場所、行動等といった分類項目に分けることができる。このような係り受け解析器は、既存の様々な方式を採用することができる。また、特徴語記憶部２０９は、主記憶装置又は補助記憶装置等からなり、抽出された特徴語を、上述した関心度と対応付けて記憶する。

【0032】

図１０は、特徴語記憶部２０９に記憶される特徴語テーブルの一例を示す図である。図１０のテーブルは、特徴語、分類、及び関心度の項目を含む。特徴語のフィールドには、抽出された特徴語が登録される。また、分類のフィールドには、人物や場所、行動等、係り受け解析器が分類した、特徴語が表す内容の分類項目が登録される。

【0033】

特定分野辞書２１０は、例えば、不特定多数のユーザが編集可能なオンライン辞書サービスの特定の分野に分類された単語のリストである。なお、特定分野辞書２１０は嗜好分析装置２でなくネットワーク４を介して接続された他の装置が有していてもよい。本実施形態では、例えば対象のトピックである観光やこれに関連する分野にカテゴライズされた用語の辞書（図示せず）を用意しておくものとする。分野限定部２１１は、特定分野辞書２１０を用いて、特徴語記憶部２０９に記憶された特徴語から、所定の分野に関連する用語を抽出する。また、用語記憶部２１２は、主記憶装置又は補助記憶装置等からなり、分野限定部２１１によって抽出された用語を記憶する。例えば、図１０に示した特徴語のリストから、特定分野辞書２１０に登録されていない単語が削除され、図１１に示すような観光分野に関連する用語のリストが生成されて用語記憶部２１２へ格納される。

【0034】

代表語辞書２１３は、主記憶装置又は補助記憶装置等からなり、特徴語と当該特徴語と似た意味を持つ代表語との対応関係を予め保持しているものとする。代表語は、予め所定のタイミングで特徴語と対応付けて記憶される。

【0035】

具体的には、所定の分野の文章においてユーザが用いた特徴語をサンプリングし、共起関係を表す空間ベクトル（「意味ベクトル」、「分散表現」とも呼ぶ）を生成する。例えば、サンプルとして、対象となる観光分野について言及した文章を、記述したユーザを限定せずに収集し、コーパスを生成する。また、コーパスに基づいて、例えばＷｏｒｄ２Ｖｅｃのような技術を利用し、単語の意味的な特徴が反映された意味ベクトルを生成する。本実施形態では、上述した用語を含む図１２に示すような意味ベクトルが予め生成されているものとする。図１２のテーブルは、単語及び意味ベクトルの項目を含み、コーパスに含まれる文章を分解して得られた単語について、意味ベクトルが生成及び記憶される。そして、意味ベクトルをクラスタリングし、似た意味を持つと推定される特徴語を集約する。クラスタリングは、例えばＫ−ｍｅａｎｓ法のような既存の技術を利用して行うことが
できる。そして、例えば、同一のクラスタに含まれる特徴語の意味ベクトルが、当該クラスタの重心に最も近い単語を代表語に決定し、代表語と特徴語とを対応付けたリストを、代表語辞書２１３に保持する。本実施形態では、図１３に示すようなリストが登録されているものとする。図１３の例では、単語「キャンプ」が代表語「アウトドア」に対応付けられている。

【0036】

また、代表語置換部２１４は、代表語辞書２１３に保持されている情報を用いて特徴語記憶部２０９に記憶された特徴語を代表語に置き換える。上述したような代表語に置き換えることにより、ユーザが文章中で使用した単語（特徴語）が異なる場合であっても、似た意味の特徴語を代表語に置き換えることができ、用字又は用語の不統一を吸収できるようになる。代表語記憶部２１５は、主記憶装置又は補助記憶装置等からなり、代表語置換部２１４が置き換えた代表語を、上述した関心度と対応付けて記憶する。

【0037】

スコア決定部２１６は、代表語記憶部２１５が記憶している代表語と関心度とに基づいて、ユーザの嗜好情報を生成し、代表語と対応付けて嗜好情報記憶部２１７に格納する。嗜好情報は、代表語と関心度に基づいて生成されたスコアとの組み合わせの集合で表される。スコアは、例えば複数の特徴語が同一の代表語に置換された場合、代表語の重複を除き、置換前の特徴語に対応付けられていた関心度のうち最も値が高いものを置換後の代表語のスコアとする。本実施形態では、図１４に示すような代表語とスコアとの対応付けが格納される。ここでは、図１１の用語「キャンプ」が代表語「アウトドア」に置換され、重複する「アウトドア」のうち関心度の高い（本実施形態では関心度の値は同一）レコードに絞られている。

【0038】

このようにして生成された代表語とスコアとの組み合わせの集合（すなわち、嗜好情報）を用いれば、ユーザに対し嗜好情報に応じた情報の提供を行うことができるようになる。例えば、いわゆるコンテンツベースフィルタリングによって嗜好情報が所定の傾向を示すユーザを抽出し、何らかの情報を提供するようにしてもよい。また、例えばいわゆる協調フィルタリングによって嗜好情報の傾向が似たユーザに対し、他のユーザが興味を示した情報を提供するようにしてもよい。

【0039】

＜装置構成＞
なお、ユーザ装置１、嗜好分析装置２、ＳＮＳ提供装置３は、図１５に示すようなコンピュータである。図１５は、コンピュータの一例を示す装置構成図である。例えば、コンピュータは、ＣＰＵ（Central Processing Unit）１００１、主記憶装置１００２、補助
記憶装置１００３、通信ＩＦ（Interface）１００４、入出力ＩＦ（Interface）１００５、ドライブ装置１００６、通信バス１００７を備えている。ＣＰＵ１００１は、プログラムを実行することにより本実施の形態で説明する処理を行う。主記憶装置１００２は、ＣＰＵ１００１が読み出したプログラムやデータをキャッシュしたり、ＣＰＵの作業領域を展開したりする。主記憶装置は、具体的には、ＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）等である。補助記憶装置１００３は、ＣＰＵ１００１により実行されるプログラムや、本実施の形態で用いる設定情報などを記憶する。補助記憶装置１００３は、具体的には、ＨＤＤ（Hard-disk Drive）やＳＳＤ（Solid State Drive）、フラッシュメモリ等である。主記憶装置１００２や補助記憶装置１００３は、嗜好情報記憶部１０３、観光情報記憶部１０７、予定情報記憶部１０８等として働く。通信ＩＦ１００４は、他のコンピュータ装置との間でデータを送受信する。通信ＩＦ１００４は、具体的には、有線又は無線のネットワークカード等である。入出力ＩＦ１００５は、入出力装置と接続され、ユーザから入力を受け付けたり、ユーザへ情報を出力したりする。入出力装置は、具体的には、カメラ等の撮像装置、キーボード、マウス、ディスプレイ、タッチパネル、又はＧＰＳ受信機や磁気センサ、加速度センサ等のセンサ等である。ドライブ装置１００６は、フレキシブルディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Di
sc）、ＢＤ（Blu-ray(登録商標) Disc）等の記憶媒体に記録されたデータを読み出したり、記憶媒体にデータを書き込んだりする。以上のような構成要素が、通信バス１００７で接続されている。なお、これらの構成要素は複数設けられていてもよいし、一部の構成要素（例えば、ドライブ装置１００６）を設けないようにしてもよい。また、入出力装置がコンピュータと一体に構成されていてもよい。そして、ドライブ装置で読み取り可能な可搬性の記憶媒体や、ＵＳＢメモリのような補助記憶装置、ネットワークＩＦなどを介して、本実施の形態で実行されるプログラムが提供されるようにしてもよい。そして、ＣＰＵ１００１がプログラムを実行することにより、上記のようなコンピュータを嗜好分析装置２として働かせる。なお、上記構成の一部を担う複数の装置によって上記機能が提供される態様であってもよい。

【0040】

＜文書分析処理＞
図１６は文書分析処理の一例を示す処理フロー図である。嗜好分析装置２の文書取得部２０１は、ユーザがＳＮＳに対して行った操作を監視し、ユーザがＳＮＳにおいて使用するアカウントによる投稿等が行われた場合に投稿等された文章を取得して文章記憶部２０３に格納しておくものとする。そして、嗜好分析装置２の関心度付与部２０５は、文章が投稿等されたＳＮＳの種別や、ユーザがＳＮＳに対して行った操作、操作に付随する所定の要素の有無等に基づいて関心度を算出し、文章に対応付けて記憶させる（図１６：Ｓ１）。本ステップでは、例えば上述した数式（１）により関心度を求める。そして、図４に示すようなデータに関心度の値が登録される。また、形態素解析部２０６は、文章記憶部２０３に記憶されている文章に対していわゆる形態素解析を行い、文章を構成する単語に分解する（Ｓ２）。本ステップでは、図９に示すようなデータが生成される。また、特徴語抽出部２０８は単語から一般名詞や固有名詞である特徴語を抽出すると共に、分野限定部２１１は、本実施形態において対象とする分野の用語を予め保持している特定分野辞書を用いて、所定の分野における特徴語を抽出し、用語記憶部２１２に格納する（Ｓ３）。分野限定部２１１の説明で述べたように、本ステップでは、例えば観光分野に関する辞書に登録されている用語のみに絞り込む。そして、図１１に示すような、用語と関心度との組み合わせが生成される。なお、特徴語抽出部２０８の処理を省略し、分野限定部２１１が単語記憶部２０７の単語から特定分野の用語に絞り込むようにしてもよい。また、代表語置換部２１４は、予め代表語辞書２１３に記憶されている代表語と用語との組み合わせに基づき、用語記憶部２１２に格納されている用語を代表語に置き換える（Ｓ４）。そして、スコア決定部２１６は、代表語と関心度との組み合わせに基づいて代表語とスコアとの組み合わせの集合で表されるユーザの嗜好情報を生成し、嗜好情報記憶部２１７に格納する（Ｓ５）。嗜好情報は、換言すればユーザの興味の対象をリスト化すると共に、興味の程度を示すスコアを設定したデータである。

【0041】

Ｓ４において代表語へ置き換えることにより、ユーザが自由に記載した文章の用字又は用語の不統一を吸収し、統一的に利用できる代表語を用いた嗜好情報を生成できるようになる。また、代表語辞書２１３について説明したように、例えばクラスタリングされた意味ベクトルの重心に最も近い単語を当該クラスタに含まれる用語の代表語とすることにより、用語の意味的に適切な置き換えを行うことができるようになっている。したがって、このような処理によれば、複数のユーザが作成した文章から統一的に嗜好を表すデータを抽出できるようになる。

【0042】

＜回答分析処理＞
図１７は、回答分析処理の一例を示す処理フロー図である。嗜好分析装置２の回答取得部２０２は、ネットワーク４を介してユーザ装置１にユーザへの質問を出力させる（図１７：Ｓ１１）。本ステップでは、例えば図５のＱ１に示す質問「今までに行ったことのある好きな観光地はどこですか？」が出力される。そして、回答取得部２０２は、ネットワーク４を介してユーザ装置１からユーザの回答を取得し、文章記憶部２０３に記憶させる
（Ｓ１２）。本ステップでは、ユーザが「○×遊園地です」と回答したものとする。なお、質問や回答はテキストや音声で入出力を行うようにしてもよいし、選択肢の提示及び選択によって入出力を行うようにしてもよい。例えば、図２に示したようなエージェントを介して情報が収集される。また、形態素解析部２０６は、文章記憶部２０３に記憶されている文章に対していわゆる形態素解析を行い、文章を構成する単語に分解する（Ｓ１３）。本ステップは、文書分析処理と同様であり、例えば上述した回答が「○×遊園地」及び「です」に分解される。また、特徴語抽出部２０８は単語から一般名詞や固有名詞である特徴語を抽出すると共に、分野限定部２１１は、本実施形態において対象とする分野の用語を予め保持している特定分野辞書を用いて、所定の分野における特徴語を抽出し、用語記憶部２１２に格納する（Ｓ１４）。分野限定部２１１の説明で述べたように、本ステップでは、例えば観光分野に関する辞書に登録されている用語のみに絞り込む。本ステップでは、例えば、Ｓ１３で生成された単語のうち、「○×遊園地」が抽出される。また、回答分析処理では抽出された単語に対して所定の関心度が対応付けられる。なお、質問ごとに対応付ける関心度の値を設定しておくようにしてもよい。そして、用語と関心度との組み合わせが用語記憶部２１２に記憶される。なお、回答分析処理においても、特徴語抽出部２０８の処理を省略し、分野限定部２１１が単語記憶部２０７の単語から特定分野の用語に絞り込むようにしてもよい。また、代表語置換部２１４は、予め代表語辞書２１３に記憶されている代表語と用語との組み合わせに基づき、用語記憶部２１２に格納されている用語を代表語に置き換える（Ｓ１５）。本実施形態では、例えば用語「○×遊園地」に対応付けて代表語「テーマパーク」が代表語辞書２１３に登録されており、置換されるものとする。そして、スコア決定部２１６は、代表語と関心度との組み合わせに基づいて代表語とスコアとの組み合わせの集合で表されるユーザの嗜好情報を生成し、嗜好情報記憶部２１７に格納する（Ｓ１６）。なお、Ｓ１４において関心度を設定せず、Ｓ１６においてはじめて所定のスコアを設定するようにしてもよい。回答分析処理においても、嗜好情報は、換言すればユーザの興味の対象をリスト化すると共に、興味の程度を示すスコアを設定したデータである。

【0043】

回答分析処理においても、Ｓ１５で用語を代表語に置き換えることにより、ユーザが文章で行った回答の用字又は用語の不統一を吸収し、統一的に利用できる代表語を用いた嗜好情報を生成できるようになる。また、回答分析処理においては、予め回答として想定される品詞等が想定できる質問を行うことで、文章からユーザの嗜好に関連する単語を抽出する精度を向上させることができる。

【0044】

＜変形例＞
上述した実施形態では、１つの投稿や回答に同一の単語が出現しても、特徴語抽出部２０８が重複を排除する。また、異なる投稿や回答に同一の単語が出現しても、スコア決定部が最も高い関心度を採用するようにしている。しかしながら、このような態様には限定されず、同一の単語が複数出願する場合に、例えば関心度の値を高くするような数式を採用してもよい。

【0045】

上述したように、実施形態における質問は、肯定又は否定で回答できる質問や、２以上の選択肢のいずれかで回答できる質問であってもよい。この場合、ユーザの嗜好は、例えば質問と回答との組み合わせによって表すようにしてもよい。具体的には、例えば質問に対する回答を要素とする特徴ベクトルの形式でユーザの嗜好情報を生成することができる。

【0046】

また、実施の形態では、テーブルに格納する情報を、行及び列からなる一般的な表で例示したが、テーブル設計や形式は特に限定されない。例えば、テーブル設計については、ソフトウェアの性能等を考慮して適切に正規化することができる。データベースの形式については、ＲＤＢＭＳ（Relational Database Management System）に限定されず、いわ
ゆるＮｏＳＱＬと呼ばれるような、キーバリュー型等の管理システムを採用してもよい。

【符号の説明】

【0047】

１ユーザ装置
２嗜好分析装置
２０１文書取得部
２０２回答取得部
２０３文章記憶部
２０４パラメータ記憶部
２０５関心度付与部
２０６形態素解析部
２０７単語記憶部
２０８特徴語抽出部
２０９特徴語記憶部
２１０特定分野辞書
２１１分野限定部
２１２用語記憶部
２１３代表語辞書
２１４代表語置換部
２１５代表語記憶部
２１６スコア決定部
２１７嗜好情報記憶部
３ＳＮＳ提供装置
４ネットワーク

【図1】