特許第6228909号(P6228909)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許6228909行動ネットワーク情報抽出装置、行動ネットワーク情報抽出方法及び行動ネットワーク情報抽出プログラム
<>
  • 特許6228909-行動ネットワーク情報抽出装置、行動ネットワーク情報抽出方法及び行動ネットワーク情報抽出プログラム 図000010
  • 特許6228909-行動ネットワーク情報抽出装置、行動ネットワーク情報抽出方法及び行動ネットワーク情報抽出プログラム 図000011
  • 特許6228909-行動ネットワーク情報抽出装置、行動ネットワーク情報抽出方法及び行動ネットワーク情報抽出プログラム 図000012
  • 特許6228909-行動ネットワーク情報抽出装置、行動ネットワーク情報抽出方法及び行動ネットワーク情報抽出プログラム 図000013
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6228909
(24)【登録日】2017年10月20日
(45)【発行日】2017年11月8日
(54)【発明の名称】行動ネットワーク情報抽出装置、行動ネットワーク情報抽出方法及び行動ネットワーク情報抽出プログラム
(51)【国際特許分類】
   G06F 17/30 20060101AFI20171030BHJP
【FI】
   G06F17/30 220Z
   G06F17/30 170A
   G06F17/30 419B
【請求項の数】8
【全頁数】14
(21)【出願番号】特願2014-235165(P2014-235165)
(22)【出願日】2014年11月20日
(65)【公開番号】特開2016-99750(P2016-99750A)
(43)【公開日】2016年5月30日
【審査請求日】2016年12月8日
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100086232
【弁理士】
【氏名又は名称】小林 博通
(74)【代理人】
【識別番号】100104938
【弁理士】
【氏名又は名称】鵜澤 英久
(74)【代理人】
【識別番号】100140361
【弁理士】
【氏名又は名称】山口 幸二
(72)【発明者】
【氏名】片岡 泰之
(72)【発明者】
【氏名】中辻 真
(72)【発明者】
【氏名】戸田 浩之
(72)【発明者】
【氏名】小池 義昌
【審査官】 石田 信行
(56)【参考文献】
【文献】 特開2010−157102(JP,A)
【文献】 特開2009−252145(JP,A)
【文献】 特開2009−86903(JP,A)
【文献】 特開2001−243223(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
G06F 19/00
G06Q 10/00 − 99/00
(57)【特許請求の範囲】
【請求項1】
特定状況における行動予測のための行動ネットワーク情報を抽出する行動ネットワーク情報抽出装置であって、
大規模テキストから抽出された特定状況に依存しない文書群である状況非依存の文書群において行動表現が出現する確率と当該大規模テキストから抽出された特定状況を示す状況語を含んだ文書群である状況依存の文書群において行動表現が出現する確率とのオッズ比に基づき行動表現が前記状況語に特徴的に出現しやすい行動表現であるかの指標を示す行動ノードの重要度を算出する行動ノード特徴分析手段と、
前記状況非依存の文書群において行動表現と他の行動表現とが共起する確率と前記状況依存の文書群において行動表現と他の行動表現が共起する確率のオッズ比に基づき行動表現と他の行動表現との関連性が前記状況語に特徴的であるかの指標を示す行動間エッジの重要度を算出する行動間エッジ特徴分析手段と、
前記行動間エッジの重要度が閾値以上である行動表現の行動ノードの重要度と、前記行動ノードの重要度が閾値以上である行動表現の行動間エッジの重要度とに対して、前記行動ノードの重要度と行動間エッジの重要度の最大値との重み付け和によって評価し、この評価した値を前記行動表現の重要度として決定し、この重要度の値に基づき選択された行動表現の行動ノード並びに行動間エッジを成分とするネットワーク情報を、前記行動ネットワーク情報として抽出する特徴抽出手段と
を備えたこと
を特徴とする行動ネットワーク情報抽出装置。
【請求項2】
前記特徴抽出手段は、前記重み付け和による評価によって決定された重要度の値が上位複数の行動表現の行動ノード並びに行動間エッジを成分とするネットワーク情報を前記行動ネットワーク情報として抽出すること
を特徴とする請求項1に記載の行動ネットワーク情報抽出装置。
【請求項3】
前記行動ノード特徴分析手段は、状況非依存の文書群における行動表現の出現頻度の値が閾値以上である行動表現と、状況依存の文書群における行動表現の出現頻度の値が閾値以上である行動表現を、前記行動ノードの重要度の計算に供すること
を特徴とする請求項1または2に記載の行動ネットワーク情報抽出装置。
【請求項4】
前記行動間エッジ特徴分析手段は、状況非依存の文書群における行動表現と共起する他の行動表現の共起頻度の値が閾値以上である他の行動表現と、状況依存の文書群における行動表現と共起する他の行動表現の共起頻度の値が閾値以上である他の行動表現とを、前記行動間エッジの重要度の計算に供すること
を特徴とする請求項3に記載の行動ネットワーク情報抽出装置。
【請求項5】
前記行動間エッジの閾値は当該エッジの対数値の平均値であり、及び、前記行動ノードの閾値は当該ノードの重要度の対数値の平均値であること
を特徴とする請求項1から4のいずれか1項に記載の行動ネットワーク情報抽出装置。
【請求項6】
特定状況における行動予測のための行動ネットワーク情報を抽出する行動ネットワーク情報抽出装置が実行する行動ネットワーク情報抽出方法であって、
大規模テキストから抽出された特定状況に依存しない文書群である状況非依存の文書群において行動表現が出現する確率と当該大規模テキストから抽出された特定状況を示す状況語を含んだ文書群である状況依存の文書群において行動表現が出現する確率とのオッズ比に基づき行動表現が前記状況語に特徴的に出現しやすい行動表現であるかの指標を示す行動ノードの重要度を算出する行動ノード特徴分析ステップと、
前記状況非依存の文書群において行動表現と他の行動表現とが共起する確率と前記状況依存の文書群において行動表現と他の行動表現が共起する確率のオッズ比に基づき行動表現と他の行動表現との関連性が前記状況語に特徴的であるかの指標を示す行動間エッジの重要度を算出する行動間エッジ特徴分析ステップと、
前記行動間エッジの重要度が閾値以上である行動表現の行動ノードの重要度と、前記行動ノードの重要度が閾値以上である行動表現の行動間エッジの重要度とに対して、前記行動ノードの重要度と行動間エッジの重要度の最大値との重み付け和によって評価し、この評価した値を前記行動表現の重要度として決定し、この重要度の値に基づき選択された行動表現の行動ノード並びに行動間エッジを成分とするネットワーク情報を、前記行動ネットワーク情報として抽出する特徴抽出ステップと
を有することを特徴とする行動ネットワーク情報抽出方法。
【請求項7】
前記特徴抽出ステップにおいては、前記重み付け和による評価によって決定された重要度の値が上位複数の行動表現の行動ノード並びに行動間エッジを成分とするネットワーク情報を、前記行動ネットワーク情報として抽出すること
を特徴とする請求項6に記載の行動ネットワーク情報抽出方法。
【請求項8】
コンピュータを請求項1から5のいずれか1項に記載の行動ネットワーク情報抽出装置を構成する各手段として機能させることを特徴とする行動ネットワーク情報抽出プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキストマイニングに関する技術分野、特に、行動予測のための行動ネットワーク情報を大規模テキストから抽出する技術に関する。
【背景技術】
【0002】
ウェアラブル端末や環境センサの普及に伴い、実世界における人間の状況を推定することが現実的になった。実世界行動を支援する情報ナビゲーションの為には、ユーザの状況の推定結果を発展させて「次の行動を予測する技術」が必要となる。
【0003】
しかしながら、上記のセンサによる人間の行動の理解は、特定の状況を判定する分類問題に帰着させる事が多く、その分類数には限界がある。人間のあらゆる行動を予測するには、それらセンサで判定された人間の行動を基点として、次の行動を推論するアプローチが有効であると考えられる。
【0004】
近年多様化するソーシャルメディアからのテキストマイニングによる情報抽出方法が提案されている(非特許文献1)。多様なソーシャルメディアの発達と共に、ユーザの実世界行動がテキスト情報で詳細に記録され、Web上に公開されるようになった。
【0005】
そして、これらの大規模テキストから人間が行う行動を適切に抽出することにより、人間の行動を体系化することが可能となる。例えば、自動車に乗っている時にする行動や、それら行動の連鎖性を体系化しておくことで、自動車に乗った次の行動の予測に基づく情報提示が可能となる。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】倉島健、藤村考、奥田英範,「大規模テキストからの経験マイニング」,電子情報通信学会論文誌,vol.92, No.3, pp.301 - pp.310, 2009
【発明の概要】
【発明が解決しようとする課題】
【0007】
従来のテキストマイニング方法は、ある場所と時間で特徴的な行動をリフト値として表してランキング化する。しかしながら、この従来の方法は行動と行動間の関連性には注目していない。関連性には、例えば遷移関係や因果関係が考えられ、こうした関係性を考慮することにより、ある行動の次の行動の予測精度の向上ができると考えられる。
【0008】
本発明は、上記の事情に鑑み、人間の行動理解のための行動ネットワーク情報を高精度に抽出することを課題とする。
【課題を解決するための手段】
【0009】
そこで、本発明は、大規模なテキストデータから、ある状況において人間が行う行動とそれらの関連性に関する情報を抽出するに際し、行動をノード、行動と行動の関連性をエッジで表現した行動ネットワーク情報を抽出することにより、ある状況に特徴的な行動ネットワーク情報を高精度に抽出する。
【0010】
本発明の行動ネットワーク情報抽出装置の態様としては、特定状況における行動予測のための行動ネットワーク情報を抽出する行動ネットワーク情報抽出装置であって、大規模テキストから抽出された特定状況に依存しない文書群である状況非依存の文書群において行動表現が出現する確率と当該大規模テキストから抽出された特定状況を示す状況語を含んだ文書群である状況依存の文書群において行動表現が出現する確率とのオッズ比に基づき行動表現が前記状況語に特徴的に出現しやすい行動表現であるかの指標を示す行動ノードの重要度を算出する行動ノード特徴分析手段と、前記状況非依存の文書群において行動表現と他の行動表現とが共起する確率と前記状況依存の文書群において行動表現と他の行動表現が共起する確率のオッズ比に基づき行動表現と他の行動表現との関連性が前記状況語に特徴的であるかの指標を示す行動間エッジの重要度を算出する行動間エッジ特徴分析手段と、前記行動間エッジの重要度が閾値以上である行動表現の行動ノードの重要度と、前記行動ノードの重要度が閾値以上である行動表現の行動間エッジの重要度とに対して、前記行動ノードの重要度と行動間エッジの重要度の最大値との重み付け和によって評価し、この評価した値を前記行動表現の重要度として決定し、この重要度の値に基づき選択された行動表現の行動ノード並びに行動間エッジを成分とするネットワーク情報を、前記行動ネットワーク情報として抽出する特徴抽出手段とを備える。
【0011】
本発明の行動ネットワーク情報抽出方法の態様としては、特定状況における行動予測のための行動ネットワーク情報を抽出する行動ネットワーク情報抽出装置が実行する行動ネットワーク情報抽出方法であって、大規模テキストから抽出された特定状況に依存しない文書群である状況非依存の文書群において行動表現が出現する確率と当該大規模テキストから抽出された特定状況を示す状況語を含んだ文書群である状況依存の文書群において行動表現が出現する確率とのオッズ比に基づき行動表現が前記状況語に特徴的に出現しやすい行動表現であるかの指標を示す行動ノードの重要度を算出する行動ノード特徴分析ステップと、前記状況非依存の文書群において行動表現と他の行動表現とが共起する確率と前記状況依存の文書群において行動表現と他の行動表現が共起する確率のオッズ比に基づき行動表現と他の行動表現との関連性が前記状況語に特徴的であるかの指標を示す行動間エッジの重要度を算出する行動間エッジ特徴分析ステップと、前記行動間エッジの重要度が閾値以上である行動表現の行動ノードの重要度と、前記行動ノードの重要度が閾値以上である行動表現の行動間エッジの重要度とに対して、前記行動ノードの重要度と行動間エッジの重要度の最大値との重み付け和によって評価し、この評価した値を前記行動表現の重要度として決定し、この重要度の値に基づき選択された行動表現の行動ノード並びに行動間エッジを成分とするネットワーク情報を、前記行動ネットワーク情報として抽出する特徴抽出ステップを有する。
【0012】
尚、本発明は上記装置の各手段としてコンピュータを機能させるプログラムまたは上記方法のステップをコンピュータに実行させるプログラムの態様とすることもできる。
【発明の効果】
【0013】
本発明によれば、人間の行動理解のための行動ネットワーク情報を高精度に抽出できる。
【図面の簡単な説明】
【0014】
図1】本発明の実施形態における行動ネットワーク情報抽出装置のブロック構成図。
図2】同装置における行動ノード特徴分析処理部,行動間エッジ特徴分析処理部,行動ネットワーク特徴抽出処理部のブロック構成図。
図3】同装置が適用されたシステムのブロック構成図。
図4】行動ネットワーク情報抽出処理のフロー図。
【発明を実施するための形態】
【0015】
以下、図面を参照しながら本発明の実施の形態について説明するが本発明はこの実施形態に限定されるものではない。
【0016】
[概要]
図1に示された本実施形態の行動ネットワーク情報抽出装置10は、行動の体系化において、行動ネットワーク情報を採用する。行動ネットワーク情報は、ある行動を表現する行動ノードと、行動と行動の間に関連性を表現する行動間エッジとで構成される。
【0017】
本態様の行動ネットワーク情報抽出装置10は、注目するユーザの行動(状態)を起点として、その状態に関連する行動を高精度に抽出する。本態様は以下の3点を特徴とする。
(1)特定の状況に依存しない行動ネットワーク情報における行動ノードの出現確率と、ある状況に依存する行動ネットワーク情報における行動ノードの出現確率から、ある状況に特徴的な行動を抽出する。
(2)同様の考え方で、行動間エッジに対する特徴的な関連性を抽出する。
(3)前記ノードと前記エッジの処理の両方を満たすものから行動ネットワーク情報を抽出する。
【0018】
[装置の構成]
行動ネットワーク情報抽出装置10は、図1に示されたように、行動抽出エンジン1、行動ネット抽出処理部2、行動ノード特徴分析処理部3、行動間エッジ特徴分析処理部4、行動ネットワーク特徴抽出処理部5を備える。
【0019】
行動抽出エンジン1は、大規模テキストデータ23から、状況非依存の行動の自然言語表現、状況依存の行動の自然言語表現を抽出する。状況非依存の行動の自然言語表現は、行動‐doc情報DB(データベース)13に保存される。状況依存の行動の自然言語表現は、行動‐doc情報DB14に保存される。
【0020】
行動ネット抽出処理部2は、行動‐doc情報DB13に保存されている状況非依存の行動の自然言語表現X{g}に基づき状況非依存の行動共起行列Aを算出する。また、同処理部2は、行動‐doc情報DB14に保存されている状況依存の行動の自然言語表現X{c}に基づき状況依存の行動共起行列Aを算出する。
【0021】
行動抽出エンジン1、行動ネット抽出処理部2の組合せ処理では、クエリとして入力された状況語q1に対して共起する行動表現だけでなく、共起語とは因果関係なしに文書全体で頻出する行動表現も一緒に抽出されるので、行動ネットワーク情報の抽出精度が劣るものとなる。
【0022】
そこで、行動ネットワーク情報抽出装置10は、所望の行動がコンテキストにおける特徴的な行動となるという点に着目して、以下の行動ノード特徴分析処理部3,行動間エッジ特徴分析処理部4,行動ネットワーク特徴抽出処理部5を備えることにより、文書全体からの相対的な頻出度合いを定量的に評価する。
【0023】
行動ノード特徴分析処理部3は、ある行動が特定状況において特徴的な行動であるかを判定するために、当該行動の重要度を算出する。具体的には、大規模テキストデータ23における全文書に対して行動表現が出現する確率と、ある状況語に関連する文書に対して行動表現が出現する確率のオッズ比に基づき、前記特徴的な行動表現の重要度を算出する。本処理において、出現頻度が低い行動表現に対する重要度は、オッズ比が不適切に評価されるので、閾値ベースの前処理が施される。
【0024】
行動間エッジ特徴分析処理部4は、2つの行動の関連がある状況において特徴的であるかどうかを判定するために、ある行動の重要度を算出する。具体的には、大規模テキストデータ23における全文書に対して行動表現と他の行動表現とが共起する確率と、クエリとして入力されたある状況語に関連する文書に対して行動表現と他の行動表現が共起する確率のオッズ比を用いることにより、重要度を算出する。本処理において、出現頻度が低い行動間エッジの重要度は、オッズ比が不適切に評価されるので、閾値ベースの前処理が施される。
【0025】
行動ネットワーク特徴抽出処理部5は、行動ノード特徴分析処理部3,行動間エッジ特徴分析処理部4で得られた結果を受けて行動ネットワーク情報を構築する。具体的には、同処理部3,4の処理結果に基づいて、特定状況における特徴的な行動表現(行動ノード)やその行動表現と他の行動表現の関連性(行動間エッジ)から構成される行動ネットワーク情報を生成する。行動ノードの候補は、例えば、行動間エッジの重要度の対数値が平均以上である行動に限定する。また、行動間エッジの候補は、例えば、行動ノードの重要度の対数値が平均以上である行動に限定する。以上の処理で限定された行動ノードと行動間エッジの重要度に対し、行動表現の行動ノードの重要度と、行動表現と他の行動表現との行動間エッジの重要度の最大値の重み付き和で評価した値を、行動表現の重要度として決定する。そして、この行動表現の重要度をランキング化し、上位から複数個の行動ノードとこれらの行動間エッジで構成されるネットワーク情報を行動ネットワーク情報として抽出する。
【0026】
以上の機能部1〜5はコンピュータのハードウェアリソースによって実現される。すなわち、行動ネットワーク情報抽出装置10は、少なくとも演算装置(CPU)、記憶装置(メモリ、ハードディスク装置等)、通信インタフェース等のコンピュータに係るハードウェアリソースを備える。そして、これらのハードウェアリソースがソフトウェアリソース(OS、アプリケーション等)と協働することにより各機能部1〜5が実装される。また、各々のコンピュータに機能部1〜5を各々実装させるようにしてもよい。
【0027】
[行動ネットワーク特徴抽出過程の説明]
以下、図1〜4を参照しながら行動ネットワーク特徴抽出過程について説明する。
【0028】
S1:行動抽出エンジン1は、大規模テキストデータ23から行動の自然言語表現を抽出する。ここで行動の候補は、形態素解析と係り受け解析に基づいて、[動詞と名詞のペア]或いは動詞のみで構成し、例えば(写真,共有)や(‐,睡眠する)等を抽出する。
【0029】
S1の具体的な処理では、以下の二通りのステップを実行する。前者を「状況非依存文書の抽出処理」と称し、後者を「状況依存文書の抽出処理」と称する。
【0030】
先ず、状況非依存文書の処理は、以下のステップS101〜S103となる。
【0031】
S101:大規模テキストDB23から全ての文書を取得する。
【0032】
S102:前記取得した文書の形態素解析と係り受け解析により、動詞或いは動詞と名詞のペアで構成される行動表現を抽出する。その際、名詞に日本語の意味解釈上不適切な表現を削除するために、Wikipediaデータ蓄積部DB22に保存されている名詞に含まれない表現は削除する。
【0033】
S103:結果、各文書から得られた行動の情報(行動表現とこれを含む文書)を行動-doc情報DBg13に保存する。得られた行動表現をai{g}(i=1,…,ng),文書dj{g}(j=1,…,mg)と定義し、行動表現を行成分に、文書を列成分にした行列X{g}∈Rng×mgを構成する。
【0034】
次に,状況依存文書の処理は以下のステップS111〜S113となる。
【0035】
S111:先ず、例えばユーザの端末等のユーザの実世界環境30から注目する特定状況を表現する単語である状況語q1をクエリとして入力を受けて、大規模テキストDB23から状況語q1を含む文書を取得する。
【0036】
S112:前記取得した文書の形態素解析と係り受け解析に基づいて、動詞、或いは動詞と名詞のペアで構成される行動表現を抽出する。その際、名詞に日本語の意味解釈上不適切な表現を削除するために、Wikipediaデータ蓄積部22に保存されている名詞に含まれない表現は削除する。
【0037】
S113:上記各文書から得られた行動の情報(行動表現とこれを含む文書)を行動‐doc情報DB14に保存する。得られた行動表現をai{c}(i=1,…,nc),文書をdj{c}(j=1,…,mc)とし、行動表現を行成分に、文書を列成分にした行列X{c}∈Rnc×mcを構成する。但し、一般にmg>mc,mg>ncである。
【0038】
S2:行動ネット抽出処理部2は、行動‐doc情報DB13に保存されている状況非依存の行動の自然言語表現X{g}に基づき状況非依存の行動共起行列Aを算出する。また、同処理部2は、行動‐doc情報DB14に保存されている状況依存の行動表現の自然言語表現X{c}に基づき状況依存の行動共起行列Aを算出する。
【0039】
行動共起行列Aは、対角成分A(i,i)に行動表現aiの出現頻度を非対角成分A(i,j)に行動表現aiと行動表現ajの共起頻度を示す情報となる。状況非依存の行動共起行列A{g}、状況依存の行動共起行列A{c}はそれぞれ以下の式(1)により算出される。算出された行動共起行列A{g},A{c}はそれぞれ行動共起情報累積部15,16に保存される。
【0040】
【数1】
【0041】
S3:行動ノード特徴分析処理部3は、ある行動表現aiが状況語q1に特徴的に出現しやすい行動表現であるかを判定する。具体的には図2に示した同処理部3の各機能部31〜34が以下のステップS301〜S304をそれぞれ実行する。
【0042】
S301:入力部31は、行動共起情報累積部15,16からそれぞれ引き出された行動共起行列A{g},A{c}の入力を受ける。
【0043】
S302:行動出現頻度判定部32は、各行動共起行列の対角成分A(i,i)に対して、閾値γ1未満であるものは削除する。γ1の選択方法は、例えば出現頻度順のランキングで下位20%を削除する。これにより、出現頻度が低いものが不適切に処理されることを回避される。この処理を行動共起行列A{g},A{c}のそれぞれに実施する。
【0044】
S303:出現確率判定部33は、状況非依存の文書群で行動表現aiが出現する確率P{c}(x=ai)と、状況依存の文書群で行動表現aiが出現する確率P{c}(x=ai)を算出する。但し、引数(x=ai)とは、対象の行動表現aiがそれぞれの行動表現群a*{g}と行動表現群a*{c}の表現と一致している場合を表している。これらの確率を以下の式(2)によって算出する。
【0045】
【数2】
【0046】
S304:行動ノード重要度評価部34は、オッズ比を用いて行動表現aiの行動ノードの重要度si{v}を評価する。重要度は、以下の式(3)によって算出される。
【0047】
【数3】
【0048】
一般に「オッズ比」とは、ある事象の起こりやすさを2つの群で比較して示す統計学的な尺度であり、第一群である事象が起こる確率をp、第二群である事象が起こる確率をqとすると、オッズ比は{p(1−q)}/{q(1−p)}で示される。このオッズ比の値が1より大きい場合は、ある事象は第二群よりも第一群で起こりやすいことを表す。尚、S302の前処理により確率値がない場合は、全体の重要度の平均値を採用する。
【0049】
S4:行動間エッジ特徴分析処理部4は、行動表現aiと行動表現ajの関連性が状況語q1に特徴的であるかを判定する。具体的には図2に示した同処理部4の各機能部41〜44が以下のステップS401〜S404をそれぞれ実行する。
【0050】
S401:入力部41は、行動共起情報累積部15,16からそれぞれ引き出された行動共起行列A{g},A{c}の入力を受ける。
【0051】
S402:行動共起頻度判定部42は、各行動共起行列の対角成分A(i,j)に対して、閾値γ2未満であるものは削除する。γ2の選択方法は、例えば出現頻度順のランキングで下位20%を削除する。これにより、出現頻度が低いものが不適切に処理されることを回避する。この処理を行動共起行列A{g},A{c}のそれぞれに実施する。
【0052】
S403:行動共起確率判定部43は、状況非依存の文書群で行動表現aiと行動表現ajが共起する確率P{g}({ai,aj})と、状況依存の文書群で行動表現aiが生成される確率p{c}({ai,aj})を算出する。但し、引数({ai,aj})とは、対象の行動表現aiとajは行動表現群a*{g}と行動表現群a*{c}の表現から一致している場合を表している。これらの確率は以下の式(4)によって算出される。
【0053】
【数4】
【0054】
S404:行動間エッジ重要度評価部44は、オッズ比を用いて行動間エッジの重要度s(i,j){e}を評価する。重要度は、以下の式(5)によって算出される。
【0055】
【数5】
【0056】
S5:行動ネットワーク特徴抽出処理部5は、ステップS3,S4の処理で得られた結果を受けて行動ネットワークを構築する。具体的には図2に示した同処理部5の各機能部51〜53が以下のステップS501〜S503をそれぞれ実行する。
【0057】
S501:行動ノード選定部51は、行動ノードの順位だけでなく、行動間エッジの有無を考慮して行動ノードを選定する。つまり、行動ノードは行動ノード単体の重要度だけでなく、特徴的な行動間エッジを持っていることを必要とする。具体的な処理は以下のステップ(1)(2)となる。
【0058】
(1)行動ノードの候補を、重要度s(i,j){e}が閾値γ3以上である行動表現aiと行動表現ajのみに限定する。γ3は例えば以下の式で示される平均値を採用する。オッズ比はべき乗数に分布する為,対数値の平均を用いる。
【0059】
【数6】
【0060】
(2)前記処理で限定された行動表現aiを重要度si{v}の値でランキング化する。そして、この上位N個を行動ノードの候補とする。ここで、Nは自由に選択可能である。
【0061】
S502:行動間エッジ選定部52は、S501と同様に、行動ノードの重要度si{v}が閾値以上のノードのみを採用して、行動間エッジとする。具体的な処理は以下のステップ(1)(2)となる。
【0062】
(1)行動間エッジの候補を、重要度si{v}が閾値γ4以上である行動表現aiのみに限定する。γ4は例えば下記の式で示される平均値を採用する。オッズ比はべき乗数に分布する為,対数値の平均を用いる。
【0063】
【数7】
【0064】
(2)上記処理で限定された行動表現aiの行動ノードを含む行動間エッジに限定し、重要度s(i,j){e}をランキング化する。
【0065】
S503:行動ネットワーク抽出部53は、行動ノードと行動間エッジの重要度を複合的に考慮して以下の式(7)によって示される行動ノードの重要度siを取得する。
【0066】
【数8】
【0067】
但し、t(0≦t≦1)は媒介変数であり、値は任意に決められる。これにより、全ての行動表現(行動表現aiの行動ノード)に対して重要度siが算出される。
【0068】
そして、重要度siの値が上位N個の行動ノードが行動ネットワーク情報の成分となる行動ノードの候補となり、また、重要度s(i,j){e}の値が上位N個の行動間エッジが前記行動ネットワーク情報の成分となる行動間エッジの候補となり、行動ネットワーク情報が生成される。
【0069】
以上のS1〜S5で得られた行動ネットワーク情報は行動ネット累積部27に保存される。
【0070】
[実施例]
図3を参照しながら本発明の実施例について説明する。本実装の全体像について、ユーザの実世界環境30、サーバ側の環境20に分けて説明する。
【0071】
(ユーザの実世界環境30)
ユーザの実世界環境30では、環境センサ301,ウェアラブル端末302,携帯電話303やスマートフォン等に搭載されているセンサで観測されたデータをサーバ側の環境20内のユーザ状況推定装置24に送信する。
【0072】
(サーバ側の環境20)
大規模テキスト取得サーバ21は、Web11上のブログ等のテキストデータを取得し、大規模テキストデータ23に保存する。
【0073】
Wikipediaデータ蓄積部22も同様にWikipediaのデータを取得する。
【0074】
一方、ユーザ状況推定装置24は、ユーザの実世界環境のセンサデータに基づいてユーザの現在の状況を推定する。例えば、ウェアラブル端末302若しくは携帯電話303のGPSログからユーザの移動モード(電車,自転車,バス,飛行機等)を推定する。
【0075】
クエリ変換処理装置25は、ユーザ状況推定装置24で推定された結果を一語に変換する処理を行う。例えば「電車」等のキーワードを選択する。
【0076】
行動ネットワーク抽出サーバ26は上述の行動ネットワーク情報抽出装置10の機能部1〜5を実装している。同サーバ26は、前述のS1〜S5を実行することにより行動ネットワークを作成する。本態様では、Wikipediaデータ蓄積部22、大規模テキストデータ23,クエリ変換処理装置25から状況語の入力を受ける。行動ネットワーク抽出サーバ26によって生成された行動ネットワークは行動ネット累積部27に累積される。
【0077】
[本実施形態の効果]
以上説明したように行動ネットワーク情報抽出装置10によれば、ユーザの行動に関して記載された大規模テキストから、状況依存の行動情報と行動共起情報が抽出されると共に状況非依存の行動情報と行動共起情報が抽出される。次いで、オッズ比を用いて行動ノード重要度と行動間エッジの重要度が算出され、この行動間エッジの重要度に基づいて行動ノードを選定されると共に行動ノードの重要度に基づいて行動間エッジが選定される。そして、この選定された行動ノードと行動間エッジとによって行動ネットワーク情報が得られる。したがって、人間の行動理解のための行動ネットワーク情報を高精度に抽出できる。
【0078】
特に、S3の行動ノード特徴分析ステップでは、状況非依存の文書群における行動表現の出現頻度の値が閾値以上である行動表現と、状況依存の文書群における行動表現の出現頻度の値が閾値以上である行動表現とが、前記行動ノードの重要度の計算に供される。このように出現頻度が低いものが不適的に処理されることが回避されるので行動ノードの重要度の精度が高まる。
【0079】
また、S4の行動間エッジ特徴分析ステップでは、状況非依存の文書群における行動表現と共起する他の行動表現の共起頻度の値が閾値以上である他の行動表現と、状況依存の文書群における行動表現と共起する他の行動表現の共起頻度の値が閾値以上である他の行動表現とが、前記行動間エッジの重要度の計算に供される。このよう共起頻度が低いものが不適的に処理されることが回避されるので行動間エッジの重要度の精度が高まる。
【0080】
さらに、S5の特徴抽出ステップにおいては、行動ノードの重要度と行動間エッジの重要度の最大値との重み付け和による評価によって決定された重要度の値が上位複数の行動表現の行動ノード並びに行動間エッジを成分とするネットワーク情報が前記行動ネットワーク情報として抽出される。したがって、最終的に抽出される行動ネットワーク情報の精度が高まる。
【0081】
また、S5のステップにおいては、前記行動間エッジの閾値を当該エッジの対数値の平均値とし、前記行動ノードの閾値を当該ノードの重要度の対数値の平均値とすることにより、最終的に抽出される行動ネットワーク情報の精度レベルが一定以上に高まる。
【0082】
以上説明した本態様の発明は産業上利用可能性の観点から以下の効果(1)(2)が得られる。
【0083】
(1)ユーザの実世界環境をセンシングし、その状況の前後におけるユーザの行動を予測するので、実世界行動依存型サービスまたはコンテンツ推薦の質が向上する。
【0084】
(2)ノウハウカタログの自動生成が可能となる。具体的には、あるユーザが特定の環境で取る行動のプロセスを集合知として抽出できる。例えば、災害発生前後で人間の行動変化を知ることにより、物資やボランティアの需要予測が可能となる。
【0085】
[本発明の他の態様]
本発明は、行動ネットワーク情報抽出装置10を構成する上記の機能部1〜5の一部若しくは全てとしてコンピュータを機能させるプログラムで構成しこれを当該コンピュータに実行させることにより実現できる。または、同装置10が実行する上記のステップS1〜S5の一部若しくは全てをコンピュータに実行させるプログラムで構成しこれを当該コンピュータに実行させることにより実現できる。そして、このプログラムをそのコンピュータが読み取り可能な周知の記録媒体(例えば、ハードディスク、フレキシブルディスク、CD−ROM等)に格納して提供できる。または、前記プログラムをインターネットや電子メール等でネットワークを介して提供できる。
【0086】
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更、応用が可能である。
【符号の説明】
【0087】
1…行動抽出エンジン
2…行動ネット抽出処理部
3…行動ノード特徴分析処理部(行動ノード特徴分析手段)
4…行動間エッジ特徴分析処理部(行動間エッジ特徴分析手段)
5…行動ネットワーク特徴抽出処理部(行動ネットワーク特徴抽出手段)
10…行動ネットワーク情報抽出装置
図1
図2
図3
図4