(58)【調査した分野】(Int.Cl.,DB名)
前記特徴抽出手段は、前記重み付け和による評価によって決定された重要度の値が上位複数の行動表現の行動ノード並びに行動間エッジを成分とするネットワーク情報を前記行動ネットワーク情報として抽出すること
を特徴とする請求項1に記載の行動ネットワーク情報抽出装置。
前記行動ノード特徴分析手段は、状況非依存の文書群における行動表現の出現頻度の値が閾値以上である行動表現と、状況依存の文書群における行動表現の出現頻度の値が閾値以上である行動表現を、前記行動ノードの重要度の計算に供すること
を特徴とする請求項1または2に記載の行動ネットワーク情報抽出装置。
前記行動間エッジ特徴分析手段は、状況非依存の文書群における行動表現と共起する他の行動表現の共起頻度の値が閾値以上である他の行動表現と、状況依存の文書群における行動表現と共起する他の行動表現の共起頻度の値が閾値以上である他の行動表現とを、前記行動間エッジの重要度の計算に供すること
を特徴とする請求項3に記載の行動ネットワーク情報抽出装置。
前記特徴抽出ステップにおいては、前記重み付け和による評価によって決定された重要度の値が上位複数の行動表現の行動ノード並びに行動間エッジを成分とするネットワーク情報を、前記行動ネットワーク情報として抽出すること
を特徴とする請求項6に記載の行動ネットワーク情報抽出方法。
コンピュータを請求項1から5のいずれか1項に記載の行動ネットワーク情報抽出装置を構成する各手段として機能させることを特徴とする行動ネットワーク情報抽出プログラム。
【発明を実施するための形態】
【0015】
以下、図面を参照しながら本発明の実施の形態について説明するが本発明はこの実施形態に限定されるものではない。
【0016】
[概要]
図1に示された本実施形態の行動ネットワーク情報抽出装置10は、行動の体系化において、行動ネットワーク情報を採用する。行動ネットワーク情報は、ある行動を表現する行動ノードと、行動と行動の間に関連性を表現する行動間エッジとで構成される。
【0017】
本態様の行動ネットワーク情報抽出装置10は、注目するユーザの行動(状態)を起点として、その状態に関連する行動を高精度に抽出する。本態様は以下の3点を特徴とする。
(1)特定の状況に依存しない行動ネットワーク情報における行動ノードの出現確率と、ある状況に依存する行動ネットワーク情報における行動ノードの出現確率から、ある状況に特徴的な行動を抽出する。
(2)同様の考え方で、行動間エッジに対する特徴的な関連性を抽出する。
(3)前記ノードと前記エッジの処理の両方を満たすものから行動ネットワーク情報を抽出する。
【0018】
[装置の構成]
行動ネットワーク情報抽出装置10は、
図1に示されたように、行動抽出エンジン1、行動ネット抽出処理部2、行動ノード特徴分析処理部3、行動間エッジ特徴分析処理部4、行動ネットワーク特徴抽出処理部5を備える。
【0019】
行動抽出エンジン1は、大規模テキストデータ23から、状況非依存の行動の自然言語表現、状況依存の行動の自然言語表現を抽出する。状況非依存の行動の自然言語表現は、行動‐doc情報DB(データベース)13に保存される。状況依存の行動の自然言語表現は、行動‐doc情報DB14に保存される。
【0020】
行動ネット抽出処理部2は、行動‐doc情報DB13に保存されている状況非依存の行動の自然言語表現X
{g}に基づき状況非依存の行動共起行列Aを算出する。また、同処理部2は、行動‐doc情報DB14に保存されている状況依存の行動の自然言語表現X
{c}に基づき状況依存の行動共起行列Aを算出する。
【0021】
行動抽出エンジン1、行動ネット抽出処理部2の組合せ処理では、クエリとして入力された状況語q
1に対して共起する行動表現だけでなく、共起語とは因果関係なしに文書全体で頻出する行動表現も一緒に抽出されるので、行動ネットワーク情報の抽出精度が劣るものとなる。
【0022】
そこで、行動ネットワーク情報抽出装置10は、所望の行動がコンテキストにおける特徴的な行動となるという点に着目して、以下の行動ノード特徴分析処理部3,行動間エッジ特徴分析処理部4,行動ネットワーク特徴抽出処理部5を備えることにより、文書全体からの相対的な頻出度合いを定量的に評価する。
【0023】
行動ノード特徴分析処理部3は、ある行動が特定状況において特徴的な行動であるかを判定するために、当該行動の重要度を算出する。具体的には、大規模テキストデータ23における全文書に対して行動表現が出現する確率と、ある状況語に関連する文書に対して行動表現が出現する確率のオッズ比に基づき、前記特徴的な行動表現の重要度を算出する。本処理において、出現頻度が低い行動表現に対する重要度は、オッズ比が不適切に評価されるので、閾値ベースの前処理が施される。
【0024】
行動間エッジ特徴分析処理部4は、2つの行動の関連がある状況において特徴的であるかどうかを判定するために、ある行動の重要度を算出する。具体的には、大規模テキストデータ23における全文書に対して行動表現と他の行動表現とが共起する確率と、クエリとして入力されたある状況語に関連する文書に対して行動表現と他の行動表現が共起する確率のオッズ比を用いることにより、重要度を算出する。本処理において、出現頻度が低い行動間エッジの重要度は、オッズ比が不適切に評価されるので、閾値ベースの前処理が施される。
【0025】
行動ネットワーク特徴抽出処理部5は、行動ノード特徴分析処理部3,行動間エッジ特徴分析処理部4で得られた結果を受けて行動ネットワーク情報を構築する。具体的には、同処理部3,4の処理結果に基づいて、特定状況における特徴的な行動表現(行動ノード)やその行動表現と他の行動表現の関連性(行動間エッジ)から構成される行動ネットワーク情報を生成する。行動ノードの候補は、例えば、行動間エッジの重要度の対数値が平均以上である行動に限定する。また、行動間エッジの候補は、例えば、行動ノードの重要度の対数値が平均以上である行動に限定する。以上の処理で限定された行動ノードと行動間エッジの重要度に対し、行動表現の行動ノードの重要度と、行動表現と他の行動表現との行動間エッジの重要度の最大値の重み付き和で評価した値を、行動表現の重要度として決定する。そして、この行動表現の重要度をランキング化し、上位から複数個の行動ノードとこれらの行動間エッジで構成されるネットワーク情報を行動ネットワーク情報として抽出する。
【0026】
以上の機能部1〜5はコンピュータのハードウェアリソースによって実現される。すなわち、行動ネットワーク情報抽出装置10は、少なくとも演算装置(CPU)、記憶装置(メモリ、ハードディスク装置等)、通信インタフェース等のコンピュータに係るハードウェアリソースを備える。そして、これらのハードウェアリソースがソフトウェアリソース(OS、アプリケーション等)と協働することにより各機能部1〜5が実装される。また、各々のコンピュータに機能部1〜5を各々実装させるようにしてもよい。
【0027】
[行動ネットワーク特徴抽出過程の説明]
以下、
図1〜4を参照しながら行動ネットワーク特徴抽出過程について説明する。
【0028】
S1:行動抽出エンジン1は、大規模テキストデータ23から行動の自然言語表現を抽出する。ここで行動の候補は、形態素解析と係り受け解析に基づいて、[動詞と名詞のペア]或いは動詞のみで構成し、例えば(写真,共有)や(‐,睡眠する)等を抽出する。
【0029】
S1の具体的な処理では、以下の二通りのステップを実行する。前者を「状況非依存文書の抽出処理」と称し、後者を「状況依存文書の抽出処理」と称する。
【0030】
先ず、状況非依存文書の処理は、以下のステップS101〜S103となる。
【0031】
S101:大規模テキストDB23から全ての文書を取得する。
【0032】
S102:前記取得した文書の形態素解析と係り受け解析により、動詞或いは動詞と名詞のペアで構成される行動表現を抽出する。その際、名詞に日本語の意味解釈上不適切な表現を削除するために、Wikipediaデータ蓄積部DB22に保存されている名詞に含まれない表現は削除する。
【0033】
S103:結果、各文書から得られた行動の情報(行動表現とこれを含む文書)を行動-doc情報DB
g13に保存する。得られた行動表現をa
i{g}(i=1,…,n
g),文書d
j{g}(j=1,…,m
g)と定義し、行動表現を行成分に、文書を列成分にした行列X
{g}∈R
ng×mgを構成する。
【0034】
次に,状況依存文書の処理は以下のステップS111〜S113となる。
【0035】
S111:先ず、例えばユーザの端末等のユーザの実世界環境30から注目する特定状況を表現する単語である状況語q
1をクエリとして入力を受けて、大規模テキストDB23から状況語q
1を含む文書を取得する。
【0036】
S112:前記取得した文書の形態素解析と係り受け解析に基づいて、動詞、或いは動詞と名詞のペアで構成される行動表現を抽出する。その際、名詞に日本語の意味解釈上不適切な表現を削除するために、Wikipediaデータ蓄積部22に保存されている名詞に含まれない表現は削除する。
【0037】
S113:上記各文書から得られた行動の情報(行動表現とこれを含む文書)を行動‐doc情報DB14に保存する。得られた行動表現をa
i{c}(i=1,…,n
c),文書をd
j{c}(j=1,…,m
c)とし、行動表現を行成分に、文書を列成分にした行列X
{c}∈R
nc×mcを構成する。但し、一般にm
g>m
c,m
g>n
cである。
【0038】
S2:行動ネット抽出処理部2は、行動‐doc情報DB13に保存されている状況非依存の行動の自然言語表現X
{g}に基づき状況非依存の行動共起行列Aを算出する。また、同処理部2は、行動‐doc情報DB14に保存されている状況依存の行動表現の自然言語表現X
{c}に基づき状況依存の行動共起行列Aを算出する。
【0039】
行動共起行列Aは、対角成分A
(i,i)に行動表現a
iの出現頻度を非対角成分A
(i,j)に行動表現a
iと行動表現a
jの共起頻度を示す情報となる。状況非依存の行動共起行列A
{g}、状況依存の行動共起行列A
{c}はそれぞれ以下の式(1)により算出される。算出された行動共起行列A
{g},A
{c}はそれぞれ行動共起情報累積部15,16に保存される。
【0041】
S3:行動ノード特徴分析処理部3は、ある行動表現a
iが状況語q
1に特徴的に出現しやすい行動表現であるかを判定する。具体的には
図2に示した同処理部3の各機能部31〜34が以下のステップS301〜S304をそれぞれ実行する。
【0042】
S301:入力部31は、行動共起情報累積部15,16からそれぞれ引き出された行動共起行列A
{g},A
{c}の入力を受ける。
【0043】
S302:行動出現頻度判定部32は、各行動共起行列の対角成分A
(i,i)に対して、閾値γ
1未満であるものは削除する。γ
1の選択方法は、例えば出現頻度順のランキングで下位20%を削除する。これにより、出現頻度が低いものが不適切に処理されることを回避される。この処理を行動共起行列A
{g},A
{c}のそれぞれに実施する。
【0044】
S303:出現確率判定部33は、状況非依存の文書群で行動表現a
iが出現する確率P
{c}(x=a
i)と、状況依存の文書群で行動表現a
iが出現する確率P
{c}(x=a
i)を算出する。但し、引数(x=a
i)とは、対象の行動表現a
iがそれぞれの行動表現群a
*{g}と行動表現群a
*{c}の表現と一致している場合を表している。これらの確率を以下の式(2)によって算出する。
【0046】
S304:行動ノード重要度評価部34は、オッズ比を用いて行動表現a
iの行動ノードの重要度s
i{v}を評価する。重要度は、以下の式(3)によって算出される。
【0048】
一般に「オッズ比」とは、ある事象の起こりやすさを2つの群で比較して示す統計学的な尺度であり、第一群である事象が起こる確率をp、第二群である事象が起こる確率をqとすると、オッズ比は{p(1−q)}/{q(1−p)}で示される。このオッズ比の値が1より大きい場合は、ある事象は第二群よりも第一群で起こりやすいことを表す。尚、S302の前処理により確率値がない場合は、全体の重要度の平均値を採用する。
【0049】
S4:行動間エッジ特徴分析処理部4は、行動表現a
iと行動表現a
jの関連性が状況語q1に特徴的であるかを判定する。具体的には
図2に示した同処理部4の各機能部41〜44が以下のステップS401〜S404をそれぞれ実行する。
【0050】
S401:入力部41は、行動共起情報累積部15,16からそれぞれ引き出された行動共起行列A
{g},A
{c}の入力を受ける。
【0051】
S402:行動共起頻度判定部42は、各行動共起行列の対角成分A
(i,j)に対して、閾値γ
2未満であるものは削除する。γ
2の選択方法は、例えば出現頻度順のランキングで下位20%を削除する。これにより、出現頻度が低いものが不適切に処理されることを回避する。この処理を行動共起行列A
{g},A
{c}のそれぞれに実施する。
【0052】
S403:行動共起確率判定部43は、状況非依存の文書群で行動表現a
iと行動表現a
jが共起する確率P
{g}({a
i,a
j})と、状況依存の文書群で行動表現a
iが生成される確率p
{c}({a
i,a
j})を算出する。但し、引数({a
i,a
j})とは、対象の行動表現a
iとa
jは行動表現群a
*{g}と行動表現群a
*{c}の表現から一致している場合を表している。これらの確率は以下の式(4)によって算出される。
【0054】
S404:行動間エッジ重要度評価部44は、オッズ比を用いて行動間エッジの重要度s
(i,j){e}を評価する。重要度は、以下の式(5)によって算出される。
【0056】
S5:行動ネットワーク特徴抽出処理部5は、ステップS3,S4の処理で得られた結果を受けて行動ネットワークを構築する。具体的には
図2に示した同処理部5の各機能部51〜53が以下のステップS501〜S503をそれぞれ実行する。
【0057】
S501:行動ノード選定部51は、行動ノードの順位だけでなく、行動間エッジの有無を考慮して行動ノードを選定する。つまり、行動ノードは行動ノード単体の重要度だけでなく、特徴的な行動間エッジを持っていることを必要とする。具体的な処理は以下のステップ(1)(2)となる。
【0058】
(1)行動ノードの候補を、重要度s
(i,j){e}が閾値γ
3以上である行動表現a
iと行動表現a
jのみに限定する。γ
3は例えば以下の式で示される平均値を採用する。オッズ比はべき乗数に分布する為,対数値の平均を用いる。
【0060】
(2)前記処理で限定された行動表現a
iを重要度s
i{v}の値でランキング化する。そして、この上位N個を行動ノードの候補とする。ここで、Nは自由に選択可能である。
【0061】
S502:行動間エッジ選定部52は、S501と同様に、行動ノードの重要度s
i{v}が閾値以上のノードのみを採用して、行動間エッジとする。具体的な処理は以下のステップ(1)(2)となる。
【0062】
(1)行動間エッジの候補を、重要度s
i{v}が閾値γ
4以上である行動表現a
iのみに限定する。γ
4は例えば下記の式で示される平均値を採用する。オッズ比はべき乗数に分布する為,対数値の平均を用いる。
【0064】
(2)上記処理で限定された行動表現a
iの行動ノードを含む行動間エッジに限定し、重要度s
(i,j){e}をランキング化する。
【0065】
S503:行動ネットワーク抽出部53は、行動ノードと行動間エッジの重要度を複合的に考慮して以下の式(7)によって示される行動ノードの重要度s
iを取得する。
【0067】
但し、t(0≦t≦1)は媒介変数であり、値は任意に決められる。これにより、全ての行動表現(行動表現a
iの行動ノード)に対して重要度s
iが算出される。
【0068】
そして、重要度s
iの値が上位N個の行動ノードが行動ネットワーク情報の成分となる行動ノードの候補となり、また、重要度s
(i,j){e}の値が上位N個の行動間エッジが前記行動ネットワーク情報の成分となる行動間エッジの候補となり、行動ネットワーク情報が生成される。
【0069】
以上のS1〜S5で得られた行動ネットワーク情報は行動ネット累積部27に保存される。
【0070】
[実施例]
図3を参照しながら本発明の実施例について説明する。本実装の全体像について、ユーザの実世界環境30、サーバ側の環境20に分けて説明する。
【0071】
(ユーザの実世界環境30)
ユーザの実世界環境30では、環境センサ301,ウェアラブル端末302,携帯電話303やスマートフォン等に搭載されているセンサで観測されたデータをサーバ側の環境20内のユーザ状況推定装置24に送信する。
【0072】
(サーバ側の環境20)
大規模テキスト取得サーバ21は、Web11上のブログ等のテキストデータを取得し、大規模テキストデータ23に保存する。
【0073】
Wikipediaデータ蓄積部22も同様にWikipediaのデータを取得する。
【0074】
一方、ユーザ状況推定装置24は、ユーザの実世界環境のセンサデータに基づいてユーザの現在の状況を推定する。例えば、ウェアラブル端末302若しくは携帯電話303のGPSログからユーザの移動モード(電車,自転車,バス,飛行機等)を推定する。
【0075】
クエリ変換処理装置25は、ユーザ状況推定装置24で推定された結果を一語に変換する処理を行う。例えば「電車」等のキーワードを選択する。
【0076】
行動ネットワーク抽出サーバ26は上述の行動ネットワーク情報抽出装置10の機能部1〜5を実装している。同サーバ26は、前述のS1〜S5を実行することにより行動ネットワークを作成する。本態様では、Wikipediaデータ蓄積部22、大規模テキストデータ23,クエリ変換処理装置25から状況語の入力を受ける。行動ネットワーク抽出サーバ26によって生成された行動ネットワークは行動ネット累積部27に累積される。
【0077】
[本実施形態の効果]
以上説明したように行動ネットワーク情報抽出装置10によれば、ユーザの行動に関して記載された大規模テキストから、状況依存の行動情報と行動共起情報が抽出されると共に状況非依存の行動情報と行動共起情報が抽出される。次いで、オッズ比を用いて行動ノード重要度と行動間エッジの重要度が算出され、この行動間エッジの重要度に基づいて行動ノードを選定されると共に行動ノードの重要度に基づいて行動間エッジが選定される。そして、この選定された行動ノードと行動間エッジとによって行動ネットワーク情報が得られる。したがって、人間の行動理解のための行動ネットワーク情報を高精度に抽出できる。
【0078】
特に、S3の行動ノード特徴分析ステップでは、状況非依存の文書群における行動表現の出現頻度の値が閾値以上である行動表現と、状況依存の文書群における行動表現の出現頻度の値が閾値以上である行動表現とが、前記行動ノードの重要度の計算に供される。このように出現頻度が低いものが不適的に処理されることが回避されるので行動ノードの重要度の精度が高まる。
【0079】
また、S4の行動間エッジ特徴分析ステップでは、状況非依存の文書群における行動表現と共起する他の行動表現の共起頻度の値が閾値以上である他の行動表現と、状況依存の文書群における行動表現と共起する他の行動表現の共起頻度の値が閾値以上である他の行動表現とが、前記行動間エッジの重要度の計算に供される。このよう共起頻度が低いものが不適的に処理されることが回避されるので行動間エッジの重要度の精度が高まる。
【0080】
さらに、S5の特徴抽出ステップにおいては、行動ノードの重要度と行動間エッジの重要度の最大値との重み付け和による評価によって決定された重要度の値が上位複数の行動表現の行動ノード並びに行動間エッジを成分とするネットワーク情報が前記行動ネットワーク情報として抽出される。したがって、最終的に抽出される行動ネットワーク情報の精度が高まる。
【0081】
また、S5のステップにおいては、前記行動間エッジの閾値を当該エッジの対数値の平均値とし、前記行動ノードの閾値を当該ノードの重要度の対数値の平均値とすることにより、最終的に抽出される行動ネットワーク情報の精度レベルが一定以上に高まる。
【0082】
以上説明した本態様の発明は産業上利用可能性の観点から以下の効果(1)(2)が得られる。
【0083】
(1)ユーザの実世界環境をセンシングし、その状況の前後におけるユーザの行動を予測するので、実世界行動依存型サービスまたはコンテンツ推薦の質が向上する。
【0084】
(2)ノウハウカタログの自動生成が可能となる。具体的には、あるユーザが特定の環境で取る行動のプロセスを集合知として抽出できる。例えば、災害発生前後で人間の行動変化を知ることにより、物資やボランティアの需要予測が可能となる。
【0085】
[本発明の他の態様]
本発明は、行動ネットワーク情報抽出装置10を構成する上記の機能部1〜5の一部若しくは全てとしてコンピュータを機能させるプログラムで構成しこれを当該コンピュータに実行させることにより実現できる。または、同装置10が実行する上記のステップS1〜S5の一部若しくは全てをコンピュータに実行させるプログラムで構成しこれを当該コンピュータに実行させることにより実現できる。そして、このプログラムをそのコンピュータが読み取り可能な周知の記録媒体(例えば、ハードディスク、フレキシブルディスク、CD−ROM等)に格納して提供できる。または、前記プログラムをインターネットや電子メール等でネットワークを介して提供できる。
【0086】
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更、応用が可能である。