【文献】
Kurokawa, Mori et al.,Extracting People's Stays from Cellular Network Data,NetMob2013 Book of abstracts [online],2013年 5月 3日,pp.115-117,[検索日:2016.10.11]、インターネット<URL: http://perso.uclouvain.be/vincent.blondel/netmob/2013/NetMob2013-abstracts.pdf >
(58)【調査した分野】(Int.Cl.,DB名)
前記特徴ベクトル算出手段は、「滞在地」毎に、決定された「滞在時間区間」から算出される滞在開始時間、平日・休祝日の区分、滞在時間、及び移動時間のうちの少なくとも1つに関する特徴量を含む特徴ベクトルを算出することを特徴とする請求項1又は2に記載の装置。
前記特徴ベクトル算出手段は、「滞在地」毎に、決定された「滞在時間区間」から算出される時間に関する特徴量と、決定された「滞在地」から算出される当該「滞在地」と一部又は全部の「滞在地」との位置関係に関する特徴量とを含む特徴ベクトルを算出することを特徴とする請求項1から3のいずれか1項に記載の装置。
「滞在地」毎に、当該「滞在地」と当該「滞在地」の周辺の1または複数の「滞在地」との距離の平均を、当該「滞在地」と一部又は全部の「滞在地」との位置関係に関する特徴量とすることを特徴とする請求項4に記載の装置。
「滞在地」毎に、当該「滞在地」と当該「滞在地」の周辺の1または複数の「滞在地」の重心又は最大頻度地との距離をDとし、当該「滞在地」の周辺の1または複数の「滞在地」の平均及び標準偏差をそれぞれμD及びσDとして、(D−μD)/σDを当該「滞在地」と一部又は全部の「滞在地」との位置関係に関する特徴量とすることを特徴とする請求項4に記載の装置。
当該ユーザの「滞在時間区間」の集合と、他のユーザの「滞在時間区間」の集合との間の重畳度合いに基づいて類似度を算出し、当該類似度に関して上位所定数となる他のユーザについて「滞在地」毎に当該特徴ベクトル及び滞在目的を対応付けたデータを、学習データとして作成する学習データ作成手段を更に有することを特徴とする請求項1から6のいずれか1項に記載の装置。
当該ユーザの「滞在時間区間」の集合と他のユーザの「滞在時間区間」の集合との共通部分に係る、当該ユーザの「滞在時間区間」に係る特徴ベクトルと他のユーザの「滞在時間区間」に係る特徴ベクトルとの距離の総和に基づいて類似度を算出し、当該類似度に関して上位所定数となる他のユーザについて「滞在地」毎に当該特徴ベクトル及び滞在目的を対応付けたデータを、学習データとして作成する学習データ作成手段を更に有することを特徴とする請求項1から6のいずれか1項に記載の装置。
当該ユーザの「滞在時間区間」の集合と、他のユーザの「滞在時間区間」の集合との間の重畳度合いに基づいて類似度を算出し、他のユーザについて「滞在地」毎に当該特徴ベクトル及び滞在目的を対応付けたデータに対し当該類似度で重み付けしたデータを、学習データとして作成する学習データ作成手段を更に有することを特徴とする請求項1から6のいずれか1項に記載の装置。
当該ユーザの「滞在時間区間」の集合と他のユーザの「滞在時間区間」の集合との共通部分に係る、当該ユーザの「滞在時間区間」に係る特徴ベクトルと他のユーザの「滞在時間区間」に係る特徴ベクトルとの距離の総和に基づいて類似度を算出し、他のユーザについて「滞在地」毎に当該特徴ベクトル及び滞在目的を対応付けたデータに対し当該類似度で重み付けしたデータを、学習データとして作成する学習データ作成手段を更に有することを特徴とする請求項1から6のいずれか1項に記載の装置。
当該ユーザの「滞在時間区間」の集合と、他のユーザの「滞在時間区間」の集合との間の重畳度合いに基づいて類似度を算出し、当該類似度に関して上位所定数となる他のユーザについて「滞在地」毎に当該特徴ベクトル及び滞在目的を対応付けたデータに対し当該類似度で重み付けしたデータを、学習データとして作成する学習データ作成手段を更に有することを特徴とする請求項1から6のいずれか1項に記載の装置。
当該ユーザの「滞在時間区間」の集合と他のユーザの「滞在時間区間」の集合との共通部分に係る、当該ユーザの「滞在時間区間」に係る特徴ベクトルと他のユーザの「滞在時間区間」に係る特徴ベクトルとの距離の総和に基づいて類似度を算出し、当該類似度に関して上位所定数となる他のユーザについて「滞在地」毎に当該特徴ベクトル及び滞在目的を対応付けたデータに対し当該類似度で重み付けしたデータを、学習データとして作成する学習データ作成手段を更に有することを特徴とする請求項1から6のいずれか1項に記載の装置。
前記学習データ作成手段は、曜日毎及び時間帯毎に当該類似度を算出し、曜日毎及び時間帯毎に、当該類似度を使用して学習データを作成することを特徴とする請求項7から12のいずれか1項に記載の装置。
前記滞在移動判定手段は、当該時間窓毎に、複数の基地局位置情報に基づく位置の確率分布が単峰性を有する場合に「滞在」と判定し、単峰性を有さない場合に「移動」と判定することを特徴とする請求項1から13のいずれか1項に記載の装置。
前記時間クラスタリング手段は、所定数以上の通信記録が属していない時間窓については「未判定」とし、「未判定」とされた時間窓が「滞在」と判定され且つ同一の「滞在地」に属する少なくとも2つの時間窓の間に挟まれている場合、当該「未判定」の時間窓についても前記同一の「滞在地」に係る「滞在」と判定することを特徴とする請求項1から14のいずれか1項に記載の装置。
【発明の概要】
【発明が解決しようとする課題】
【0012】
しかしながら、非特許文献3に記載の技術では、滞在地の間の電車等での移動中に発生する通信の影響を受けて、滞在地の位置や滞在の時間がずれてしまうという問題が生じる。
【0013】
また、非特許文献4に記載の技術は、位置情報を考慮しないので、通信発生データの少ないユーザについて通信が移動中にもほとんど発生しない場合、例えば自宅と職場とを同一の滞在地にしてしまうといった問題を抱える。また、狭い範囲に基地局が密に配置されている場合、滞在時間を過度に細かく分割してしまうことも問題となる。
【0014】
さらに、非特許文献3及び非特許文献4といった従来技術では、滞在地に関するユーザの更なる情報、特にユーザの滞在目的、例えば買い物、食事、仕事等を推定することはできない。このようなユーザの滞在目的が推定されれば、例えばその目的に応じた有益な情報をユーザに適宜提供するサービスを実現することも可能となる。
【0015】
そこで、本発明は、携帯端末の測位機能に頼ることなく、通信事業者設備によって取得可能な基地局位置情報を用いて、ユーザの滞在目的を推定することができる装置、プログラム及び方法を提供することを目的とする。
【課題を解決するための手段】
【0016】
本発明によれば、携帯端末を所持したユーザの滞在目的を推定する装置であって、
携帯端末毎に、通信に係る日時刻及び基地局位置情報を対応付けた複数の通信記録を含む通信履歴を蓄積した通信履歴蓄積手段と、
通信履歴を所定の時間窓で分割する時間窓分割手段と、
時間窓毎に、複数の基地局位置情報に基づく位置の確率分布に基づいて「滞在」又は「移動」を判定する滞在移動判定手段と、
「滞在」と判定された時間窓における位置の確率分布に基づいて「滞在地」を決定する位置クラスタリング手段と、
「滞在」と判定された時間窓の時間区間に基づいて「滞在時間区間」を決定する時間クラスタリング手段と、
「滞在地」毎に、決定された「滞在時間区間」から算出される時間に関する特徴量を含む特徴ベクトルを算出する特徴ベクトル算出手段と、
他のユーザについて「滞在地」毎に特徴ベクトル及び滞在目的を対応付けた学習データに基づいて、「滞在地」毎に特徴ベクトルを対応付けたデータに係る当該ユーザの滞在目的を推定する滞在目的推定手段と
を有する装置が提供される。
【0017】
この本発明による装置の一実施形態として、本装置が、学習データにおける特徴ベクトルと滞在目的との相関を統計的に学習する統計的学習手段を更に有し、
滞在目的推定手段は、学習された上記の相関に基づいて各滞在目的の事後確率を算出し、事後確率の降順に特徴ベクトルに対応する滞在目的を並び替えた際、上位所定数に入る滞在目的を当該ユーザの滞在目的と推定することも好ましい。
【0018】
また、本装置の特徴ベクトル算出手段は、「滞在地」毎に、決定された「滞在時間区間」から算出される滞在開始時間、平日・休祝日の区分、滞在時間、及び移動時間のうちの少なくとも1つに関する特徴量を含む特徴ベクトルを算出することも好ましい。
【0019】
さらに、この特徴ベクトル算出手段は、「滞在地」毎に、決定された「滞在時間区間」から算出される時間に関する特徴量と、決定された「滞在地」から算出される当該「滞在地」と一部又は全部の「滞在地」との位置関係に関する特徴量とを含む特徴ベクトルを算出することも好ましい。ここで、「滞在地」毎に、当該「滞在地」と当該「滞在地」の周辺の1または複数の「滞在地」との距離の平均を、当該「滞在地」と一部又は全部の「滞在地」との位置関係に関する特徴量とすることも好ましい。また、「滞在地」毎に、当該「滞在地」と当該「滞在地」の周辺の1または複数の「滞在地」の重心又は最大頻度地との距離をDとし、当該「滞在地」の周辺の1または複数の「滞在地」の平均及び標準偏差をそれぞれμ
D及びσ
Dとして、(D−μ
D)/σ
Dを当該「滞在地」と一部又は全部の「滞在地」との位置関係に関する特徴量とすることも好ましい。
【0020】
また、本発明による装置の他の実施形態として、当該ユーザの「滞在時間区間」の集合と、他のユーザの「滞在時間区間」の集合との間の重畳度合いに基づいて類似度を算出し、この類似度に関して上位所定数となる他のユーザについて「滞在地」毎に特徴ベクトル及び滞在目的を対応付けたデータを、学習データとして作成する学習データ作成手段を更に有することも好ましい。
【0021】
さらに、本発明による装置の他の実施形態として、当該ユーザの「滞在時間区間」の集合と他のユーザの「滞在時間区間」の集合との共通部分に係る、当該ユーザの「滞在時間区間」に係る特徴ベクトルと他のユーザの「滞在時間区間」に係る特徴ベクトルとの距離の総和に基づいて類似度を算出し、この類似度に関して上位所定数となる他のユーザについて「滞在地」毎に特徴ベクトル及び滞在目的を対応付けたデータを、学習データとして作成する学習データ作成手段を更に有することも好ましい。
【0022】
さらに、他の実施形態として、当該ユーザの「滞在時間区間」の集合と、他のユーザの「滞在時間区間」の集合との間の重畳度合いに基づいて類似度を算出し、他のユーザについて「滞在地」毎に特徴ベクトル及び滞在目的を対応付けたデータに対し類似度で重み付けしたデータを、学習データとして作成する学習データ作成手段を更に有することも好ましい。
【0023】
さらに、他の実施形態として、当該ユーザの「滞在時間区間」の集合と他のユーザの「滞在時間区間」の集合との共通部分に係る、当該ユーザの「滞在時間区間」に係る特徴ベクトルと他のユーザの「滞在時間区間」に係る特徴ベクトルとの距離の総和に基づいて類似度を算出し、他のユーザについて「滞在地」毎に特徴ベクトル及び滞在目的を対応付けたデータに対し類似度で重み付けしたデータを、学習データとして作成する学習データ作成手段を更に有することも好ましい。
【0024】
さらにまた、他の実施形態として、当該ユーザの「滞在時間区間」の集合と、他のユーザの「滞在時間区間」の集合との間の重畳度合いに基づいて類似度を算出し、この類似度に関して上位所定数となる他のユーザについて「滞在地」毎に特徴ベクトル及び滞在目的を対応付けたデータに対し類似度で重み付けしたデータを、学習データとして作成する学習データ作成手段を更に有することも好ましい。
【0025】
さらにまた、他の実施形態として、当該ユーザの「滞在時間区間」の集合と他のユーザの「滞在時間区間」の集合との共通部分に係る、当該ユーザの「滞在時間区間」に係る特徴ベクトルと他のユーザの「滞在時間区間」に係る特徴ベクトルとの距離の総和に基づいて類似度を算出し、この類似度に関して上位所定数となる他のユーザについて「滞在地」毎に特徴ベクトル及び滞在目的を対応付けたデータに対し類似度で重み付けしたデータを、学習データとして作成する学習データ作成手段を更に有することも好ましい。
【0026】
ここで、上述した各実施形態に係る学習データ作成手段は、曜日毎及び時間帯毎に類似度を算出し、曜日毎及び時間帯毎に、この類似度を使用して学習データを作成することも好ましい。
【0027】
また、本発明による装置の他の実施形態として、滞在移動判定手段は、時間窓毎に、複数の基地局位置情報に基づく位置の確率分布が単峰性を有する場合に「滞在」と判定し、単峰性を有さない場合に「移動」と判定することも好ましい。
【0028】
さらに、本発明による装置の他の実施形態として、時間クラスタリング手段は、所定数以上の通信記録が属していない時間窓については「未判定」とし、「未判定」とされた時間窓が「滞在」と判定され且つ同一の「滞在地」に属する少なくとも2つの時間窓の間に挟まれている場合、この「未判定」の時間窓についても同一の「滞在地」に係る「滞在」と判定することも好ましい。
【0029】
また、広域無線通信網に接続された上記の装置である通信設備装置であって、通信履歴蓄積手段に通信履歴を蓄積させるために、
基地局識別子及び基地局位置情報を対応付けて記憶する基地局位置情報管理手段と、
携帯端末を配下に接続させる基地局から、携帯端末毎に通信に係る日時刻と当該基地局の基地局識別子とを対応付けた通信記録を収集する通信履歴収集手段と、
基地局位置情報管理手段を用いて、通信記録について、携帯端末毎に基地局識別子に対応する基地局位置情報を更に対応付ける位置情報履歴生成手段と
を更に有する通信設備装置が提供されることも好ましい。
【0030】
本発明によれば、また、装置に搭載されたコンピュータを、携帯端末を所持したユーザの滞在地を推定するように機能させるプログラムであって、
携帯端末毎に、通信に係る日時刻及び基地局位置情報を対応付けた複数の通信記録を含む通信履歴を蓄積した通信履歴蓄積手段と、
通信履歴を所定の時間窓で分割する時間窓分割手段と、
時間窓毎に、複数の基地局位置情報に基づく位置の確率分布に基づいて「滞在」又は「移動」を判定する滞在移動判定手段と、
「滞在」と判定された時間窓における位置の確率分布に基づいて「滞在地」を決定する位置クラスタリング手段と、
「滞在」と判定された時間窓の時間区間に基づいて「滞在時間区間」を決定する時間クラスタリング手段と、
「滞在地」毎に、決定された「滞在時間区間」から算出される時間に関する特徴量を含む特徴ベクトルを算出する特徴ベクトル算出手段と、
他のユーザについて「滞在地」毎に特徴ベクトル及び滞在目的を対応付けた学習データに基づいて、「滞在地」毎に特徴ベクトルを対応付けたデータに係る当該ユーザの滞在目的を推定する滞在目的推定手段と
してコンピュータを機能させるプログラムが提供される。
【0031】
本発明によれば、さらに、装置
の有するコンピュータにおけるソフトウェアの情報処理によって、携帯端末を所持したユーザの滞在地を推定する方法であって、
上記装置は、携帯端末毎に、通信に係る日時刻及び基地局位置情報を対応付けた複数の通信記録を含む通信履歴を蓄積した通信履歴蓄積部を有し、上記方法は、
通信履歴を所定の時間窓で分割する第1のステップと、
時間窓毎に、複数の基地局位置情報に基づく位置の確率分布に基づいて「滞在」又は「移動」を判定する第2のステップと、
「滞在」と判定された時間窓における位置の確率分布に基づいて「滞在地」を決定する第3のステップと、
「滞在」と判定された時間窓の時間区間に基づいて「滞在時間区間」を決定する第4のステップと、
「滞在地」毎に、決定された「滞在時間区間」から算出される時間に関する特徴量を含む特徴ベクトルを算出する第5のステップと、
他のユーザについて「滞在地」毎に特徴ベクトル及び滞在目的を対応付けた学習データに基づいて、「滞在地」毎に特徴ベクトルを対応付けたデータに係る当該ユーザの滞在目的を推定する第6のステップと
を有する方法が提供される。
【発明の効果】
【0032】
本発明の装置、プログラム及び方法によれば、携帯端末の測位機能に頼ることなく、通信事業者設備によって取得可能な基地局位置情報を用いて、ユーザの滞在目的を推定することができる。
【発明を実施するための形態】
【0034】
以下、本発明の実施形態について、図面を用いて詳細に説明する。
【0035】
図1は、実空間での携帯端末の滞在及び移動を示す概略図である。
【0036】
図1によれば、ユーザに所持された携帯端末(例えば携帯電話機やスマートフォン)2は、どの位置にあってもいずれかの基地局の配下にあり、当該基地局と無線通信し続けている。このユーザにとっては、自宅の住所及び学校の居所と、訪問(アルバイト)先となるD駅周辺とが「滞在地」となる。また、自宅、学校及びD駅周辺以外の場所が「移動」中となる。
【0037】
多数の基地局3を統合する通信事業者設備は、携帯端末2毎に、空間的粒度が粗く且つ時間間隔が一定でない基地局位置情報を常時収集することができる。ここで、「空間的粒度が粗く」とは、位置情報同士の地理的な距離が比較的長いことを意味する。また、「時間間隔が一定でない」とは、位置情報の取得時間間隔が通信タイミングに依存して比較的ばらついていることを意味する。
【0038】
広域無線通信網(携帯電話網)に接続された基地局3は、その配下に位置する携帯端末2と通信した際の日時刻(例えば通信を開始した日時刻)を通信履歴として取得する。通信履歴は、通話、メールの送受信や、Webページの閲覧の際に取得される。さらには、携帯端末2にインストールされたアプリケーションとサーバとの間の通信や、アプリケーション又はコンテンツのダウンロードやアップロード等の際にも取得される。
【0039】
図2は、本発明によるユーザの滞在目的を推定する装置の機能構成図である。
【0040】
本発明による装置1は、予め蓄積された通信履歴を用いて、携帯端末2を所持したユーザの滞在目的(滞在意図)、例えば買い物、食事、仕事等を推定することができる。このようなユーザの滞在目的を推定することによって、例えばその目的に応じた有益な情報をユーザに適宜提供するサービスが実現される。また、装置1は、広域無線通信網(携帯電話網)に設置され、基地局3から通信履歴を適宜収集する通信設備装置であってもよい。
【0041】
図2によれば、滞在目的推定用の装置1は、通信履歴蓄積部121と、時間窓分割部122と、滞在移動判定部123と、滞在時間窓収集部124と、移動時間窓収集部125と、位置クラスタリング部126と、時間クラスタリング部127と、ユーザ行動履歴推定部128と、特徴ベクトル算出部131と、教師情報管理部132と、学習データ作成部133と、統計的学習部134と、滞在目的推定部135と、アプリケーション処理部13とを有する。ここで、アプリケーション処理部13は、本発明によって推定されたユーザ毎の滞在目的に基づいて、様々なサービスを実行する。
【0042】
上述した機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、
図2によれは、各機能構成部を用いた処理の流れは、滞在目的を推定する方法としても理解される。
【0043】
さらに、装置1は、広域無線通信網(携帯電話網)に設置された通信設備装置である場合、通信履歴蓄積部121に通信履歴を蓄積させるために、オプション機能として、広域通信網に接続する通信インタフェース部10と、基地局位置情報管理部111と、通信履歴収集部112と、位置情報履歴生成部113とを更に有する。以下、装置1は通信設備装置として説明する。
【0044】
[基地局位置情報管理部111]
基地局位置情報管理部111(
図2)は、基地局識別子と基地局位置情報とを対応付けて記憶する。
【0045】
図3は、基地局位置情報の表である。基地局識別子毎に、緯度・経度の基地局位置情報が対応付けられている。
図3によれば、基地局1は、緯度が35.825度であって経度が139.510度の位置に設置されていることが理解される。また、基地局3は、緯度35.825及び経度139.520の位置に設置されていることが理解される。尚、このような基地局位置情報は、基地局位置情報管理部111内に予め蓄積したものであってもよいし、通信インタフェース部10を介して各基地局3から適宜取得するものであってもよい。
【0046】
[通信履歴収集部112]
通信履歴収集部112(
図2)は、基地局3から、当該基地局3の配下にある携帯端末2毎に日時刻及び基地局識別子といった通信記録(通信履歴)を収集する。
【0047】
図4は、通信履歴の表である。通信履歴は、基地局3が携帯端末2からの通信を受け付けた際の一連の通信記録(ログ)である。各通信記録では、携帯端末2の「端末識別子」(アドレス、電話番号、識別番号等)毎に、「日時刻」及び「基地局識別子」が対応付けられている。
通信記録(端末識別子、日時刻、基地局識別子)
図4の通信履歴によれば、携帯端末00001は、2010年6月15日17:54:50に基地局3と通信している。また、携帯端末00001は、2010年6月15日17:57:00には基地局1と通信している。
【0048】
[位置情報履歴生成部113]
位置情報履歴生成部113(
図2)は、基地局位置情報管理部111を用いて、通信記録(ログ)毎に、基地局識別子に対応する基地局位置情報を更に対応付ける。この通信履歴は通信履歴蓄積部121へ出力される。
【0049】
図5は、通信記録に基地局位置情報を対応付けた表である。
図5の表は、
図4の表の基地局識別子の部分を、
図3の基地局の緯度・経度情報で置き換えたものである。
図5の通信履歴によれば、携帯端末00001は、2010年6月15日17:54:50に、緯度35.825及び経度139.520の基地局と通信したことが理解される。また、携帯端末00001は、2010年6月15日17:57:00に、緯度35.825及び経度139.510の基地局と通信したことが理解される。
【0050】
[通信履歴蓄積部121]
通信履歴蓄積部121(
図2)は、位置情報履歴生成部113から出力された通信履歴を蓄積する。
【0051】
[時間窓分割部122]
時間窓分割部122(
図2)は、通信履歴蓄積部121から出力された通信履歴を所定の時間窓(時間区間)で分割する。具体的には、通信履歴を構成する複数の通信記録を、日時刻が所定の時間窓に属するもの同士を集めて区分する。時間窓は、時間幅T及びシフト幅Sによって決定される。シフト幅Sの時間窓とは、開始時刻をSだけ遅らせたものである。従ってT>Sの場合、時間窓はT−Sだけ重畳することになる。
【0052】
時間幅Tは「どの時間幅で滞在を判定するか」を決めるパラメータである。ここで、時間窓内に所定数以上の位置情報が存在しないと滞在/移動の判定が難しい。従って、時間幅Tは、通信履歴の通信記録(ログ)数から判断して、時間窓内にできるだけ所定数以上の位置情報が入るように決定する必要がある。
【0053】
また、シフト幅Sは、その幅を短くすると滞在時間区間の時間解像度が増す。一方で、その幅を長くすると、時間窓の数が多くなるので計算量が増大する。従って、シフト幅Sは、アプリケーションの求める時間解像度及び処理時間に応じて決定する必要がある。
【0054】
図6は、各時間窓の開始時刻及び終了時刻を示す表である。ここで、時間幅Tは20分であり、シフト幅Sは10分である。
図6によれば、時間窓1は17:50:00〜18:09:59であり、T=00:20:00となっている。また、時間窓2は18:00:00〜18:19:59であり、時間窓1に対してS=00:10:00となっている。
【0055】
図7は、
図5の各行(通信記録)を
図6の時間窓毎に分類した表である。
図7によれば、時間窓1には5個の通信記録が属し、時間窓3には8個の通信記録が属している。
【0056】
[滞在移動判定部123]
滞在移動判定部123(
図2)は、各携帯端末2につき、時間窓毎に、複数の基地局位置情報に基づく位置の確率分布が単峰性を有するならば「滞在」と判定し、単峰性を有さないならば「移動」と判定する。ここで、単峰性とは、位置の確率分布が1つの山の形状をしている(1つのピークをなす)ことを意味する。即ち、1つの時間窓(例えば20分)に属する基地局位置の確率分布が単峰性を有する場合、この時間区間については「滞在」と判定することができる。一方、基地局位置の確率分布が、複数の山の形状をしている(複数のピークをなす)ならば多峰性を有するものとする。1つの時間窓について多峰性を有する場合、この時間区間については「移動」中と判定することができる。
【0057】
尚、滞在移動判定部123は、後述する時間クラスタリング部127での処理を考慮し、所定数以上の通信記録(基地局位置情報)が属していない時間窓については「未判定」とすることも好ましい。例えば、所定数として2個以上の通信記録が属していない時間窓については「未判定」とする。
【0058】
図8は、単峰性を有するか否かを判定するためのフローチャートである。
【0059】
図8によれば、滞在移動判定部123は、基地局の位置情報の確率分布が単峰性を有するか否かを判定するため、代表点計算処理を実行する。その結果、代表点の種類数が1個であれば単峰性を有しているので「滞在」と判定し、代表点の種類数が複数個であれば多峰性を有しているので「移動」中と判定する。
【0060】
代表点計算処理は、各時間窓に含まれる複数の位置情報について、以下のステップS1〜S5によって実行される。
(S1)任意の点(位置情報)を、最初の中心点とする。
(S2)中心点を中心とした第1の閾値(例えば2km)の半径の円に含まれる点(位置情報)を用いて、重心を算出する。
(S3)次に、算出された重心と現在の中心点との差(変化量)が、第2の閾値(例えば100m)以下であるか否かを判定する。
(S4)S3において偽と判定された場合、その重心を新たな中心点とする。次いで、再びS2へ戻り、変化量が第2の閾値以下に収まるまで繰り返す。
(S5)S3において真と判定された場合、その重心(収束した点)を代表点とする。
【0061】
最後に、各時間窓について、収束した代表点の種類数が1個の場合には「滞在」と判定し、複数個の場合には「移動」と判定する。ここで、当該時間窓について、全ての代表点が第1の閾値又は第2の閾値の半径の円周領域内に収まる場合、収束した代表点の種類数が1個であるとすることも好ましい。
【0062】
以下、
図7の時間窓1及び時間窓3について、具体的に、滞在/移動を代表点抽出処理を用いて判定する。
【0063】
(時間窓1における滞在移動判定)
(1)時間窓1の点(35.825,139.520)に関する1回目の重心を計算する。時間窓1の点(35.825,139.520)と時間窓1に含まれるその他の点との距離はすべて2km以内であるので、その他の点すべての平均をとると(35.824,139.514)となる。
(2)次いで、時間窓1の点(35.825,139.520)に関する2回目の重心を計算する。2回目の重心計算では、中心点を(35.824,139.514)とする。中心点と時間窓1に含まれるその他の点の距離はすべて2km以内であるので、その他の点すべての平均をとると(35.824,139.514)となる。
(3)1回目と2回目の重心計算の結果は同じであり変化量は100m以下であるので、時間窓1の点(35.825,139.520)の代表点は(35.824,139.514)となる。
(4)次いで、時間窓1の点(35.825,139.510)に関する1回目の重心を計算する。時間窓1の点(35.825,139.510)と時間窓1に含まれるその他の点との距離はすべて2km以内であるので、その他の点すべての平均をとると(35.824,139.514)となる。
(5)次いで、時間窓1の点(35.825,139.510)に関する2回目の重心を計算する。2回目の重心計算では、中心点を(35.824,139.514)とする。中心点と時間窓1に含まれるその他の点との距離はすべて2km以内であるので、その他の点すべての平均をとると(35.824,139.514)となる。
(6)1回目と2回目の重心計算の結果は同じであり、変化量は100m以下であるので、時間窓1の点(35.825,139.510)の代表点は(35.824,139.514)となる。
(7)次いで、時間窓1の点(35.820,139.510)に関する1回目の重心を計算する。時間窓1の点(35.820,139.510)と時間窓1に含まれるその他の点との距離はすべて2km以内であるので、その他の点すべての平均をとると(35.824,139.514)となる。
(8)次いで、時間窓1の点(35.820,139.510)に関する2回目の重心を計算する。2回目の重心計算では、中心点を(35.824,139.514)とする。中心点と時間窓1に含まれるその他の点との距離はすべて2km以内であるので、その他の点すべての平均をとると(35.824,139.514)となる。
(9)1回目と2回目の重心計算の結果は同じであり、変化量は100m以下であるので、時間窓1の点(35.820,139.510)の代表点は(35.824,139.514)となる。
以上より、計算された代表点はいずれの点についても(35.824,39.514)であり、代表点の種類数は1であるので、時間窓1は「滞在」と判定される。
【0064】
(時間窓3における滞在移動判定)
(1)時間窓3の点(35.825,139.510)に関する1回目の重心を計算する。時間窓3の点(35.825,139.510)と時間窓3に含まれるその他の点との距離を計算すると、(35.825,139.510)、(35.820,139.510)、(35.820,139.510)、(35.825,139.520)及び(35.820,139.510)は2km以内であるがそれ以外は2kmを超えるので、これらの5点の平均をとると(35.822,139.512)となる。
(2)次いで、時間窓3の点(35.825,139.510)に関する2回目の重心を計算する。2回目の重心計算では、中心点を(35.822,139.512)とする。中心点と時間窓3に含まれるその他の点との距離を計算すると、(35.825,139.510)、(35.820,139.510)、(35.820,139.510)、(35.825,139.520)及び(35.820,139.510)は2km以内であるがそれ以外は2kmを超えるので、これらの5点の平均をとると(35.822,139.512)となる。
(3)1回目と2回目の重心計算の結果は同じであり、変化量は100m以下であるので、時間窓3の点(35.825,139.510)の代表点は(35.822,139.512)となる。
(4)次いで、時間窓3の点(35.850,139.530)に関する1回目の重心を計算する。時間窓3の点(35.850,139.530)と時間窓3に含まれるその他の点との距離を計算すると、(35.850,139.530)及び(35.850,139.530)は2km以内であるがそれ以外は2kmを超えるので、これらの2点の平均をとると(35.850,139.53)となる。
(5)次いで、時間窓3の点(35.850,139.530)に関する2回目の重心を計算する。2回目の重心計算では、中心点を(35.850,139.530)とする。中心点と時間窓3に含まれるその他の点との距離を計算すると、(35.850,139.530)及び(35.850,139.530)は2km以内であるがそれ以外は2kmを超えるので、これらの2点の平均をとると(35.850,139.530)となる。
(6)1回目と2回目の重心計算の結果は同じであり、変化量は100m以下であるので、時間窓3の点(35.850,139.530)の代表点は(35.850,139.530)となる。
(7)時間窓3のその他の点の代表点の計算は省略する。
以上より、計算された代表点は、(35.822,139.512)、(35.850,139.530)(以下省略)と2以上であるため、時間窓3は「移動」と判定される。
【0065】
尚、滞在移動判定部123は、時間窓毎に、複数の基地局位置情報に対してカーネル密度推定(Kernel density estimation)を用いて単峰性を有するか否かを判定することも好ましい。カーネル密度推定とは、確率変数の確率密度関数を推定するべく、ある母集団の標本のデータを外挿する方法である(例えば、野村友和、「カーネル密度推定」、[online]、[平成25年6月14日検索]、インターネット<URL:http://www.econ.kobe-u.ac.jp/~nomura/lecture/11f/kd.pdf>参照)。この方法によれば、カーネル関数を用いて峰となるコブを導出することができる。
【0066】
[滞在時間窓収集部124]
滞在時間窓収集部124(
図2)は、「滞在」と判定された時間窓の位置情報を収集する。滞在と判定された時間窓の代表点の数は1である。
【0067】
図9は、「滞在」と判定された時間窓及び対応する代表点位置情報を示す表である。
図9によれば、時間窓1、2、6及び8が「滞在」と判定されている。
【0068】
[移動時間窓収集部125]
移動時間窓収集部125(
図2)は、「移動」と判定された時間窓の通信履歴を収集する。
【0069】
図10は、「移動」と判定された時間窓に対する開始時刻及び終了時刻を表す表である。
図10によれば、時間窓3〜5が「移動」と判定されている。
【0070】
[位置クラスタリング部126]
位置クラスタリング部126(
図2)は、「滞在」と判定された各時間窓の複数の位置情報の重心を「滞在地クラスタ」(「滞在地」)とする。具体的には、この重心を代表点とし、互いに近接した代表点の集合を1つの「滞在地クラスタ」とする。
【0071】
図8に示すように、位置クラスタリング部126も、この「滞在地クラスタ」を形成するため、滞在移動判定部123での処理と同様に代表点計算処理を実行する。具体的には、各時間窓で抽出された代表点の位置情報について、所与の中心点から第1の閾値の範囲で重心を算出し、この重心と中心点との差(変化量)が第2の閾値に収まるまで繰り返し、最終的に得られた各位置の収束値(
図9の代表点における代表点)を、時間窓毎の「滞在地クラスタ」の代表点とする。
【0072】
図11は、
図9に示した時間窓毎の代表点位置情報に基づいて算出された「滞在地クラスタ」の代表点位置情報を示す表である。同表での代表点計算処理では、第1の閾値を2km、第2の閾値を100mとした。
図11によれば、時間窓1及び2について1つの「滞在地クラスタ」が形成され、この「滞在地クラスタ」の代表点は、緯度35.824及び経度139.514であることが理解される。また、時間窓6及び8では、緯度35.910及び経度139.572の位置が別の「滞在地クラスタ」の代表点となることが理解される。
【0073】
上述した実施形態によれば、「滞在地」(「滞在地クラスタ」)のみが導出される。これに対し、以下に示す実施形態は「滞在時間区間」を更に導出する。これにより、携帯端末毎に、時間経過に応じた滞在/移動の行動履歴が導出可能となる。
【0074】
[時間クラスタリング部127]
時間クラスタリング部127(
図2)は、
(a)同じ「滞在地クラスタ」に属する一連の時間窓の集合、又は
(b)通信の発生がなく滞在とも移動とも判定されなかった「未判定」の時間窓を含み、この「未判定」の時間窓を除いて同じ「滞在地クラスタ」に属する一連の時間窓の集合
から1つの「滞在時間区間」を形成する。
【0075】
上述した
図7によれば、時間窓7は通信記録を有さず「未判定」とされている。ここで、
図9によれば、時間窓6及び8は「滞在」と判定されており、同一の「滞在クラスタ」となっている。このような時間窓6及び8の間に挟まれている「未判定」の時間窓7は、時間窓6及び8と同一の「滞在クラスタ」に属するものとされる。
【0076】
[ユーザ行動履歴推定部128]
ユーザ行動履歴推定部128(
図2)は、位置クラスタリング部126から出力された時間窓情報と、時間クラスタリング部127から出力された時間窓情報とから、時間経過に沿ったユーザ行動履歴を導出する。
【0077】
図12は、時間経過に沿ったユーザ行動履歴の表である。また、
図13は、
図12のユーザ行動履歴から「滞在時間区間」を抽出した表である。
【0078】
図12によれば、時間窓に沿って「滞在」/「移動」の行動履歴と、「滞在」における位置情報(緯度・経度)とが明確となっている。時間窓1及び時間窓2は、同じ「滞在地クラスタ」に属する一連の時間窓の集合であるため、同じ「滞在時間区間」を構成するとされる。また、時間窓6〜時間窓8は、「未判定」の時間窓 7を含む。しかしながら、時間窓 6と時間窓 8とが同じ「滞在地クラスタ」に属するため、一連の時間窓6〜時間窓8は、同じ「滞在時間区間」を構成するとされる。
【0079】
これにより、推定される「滞在地クラスタ」及びそこでの「滞在時間区間」は
図13の通りとなる。
図13によれば、携帯端末00001は、17:50:00〜18:19:59までは緯度35.824及び経度139.514付近に「滞在」しており、その後「移動」し、18:40:00〜19:19:59までは緯度35.910及び経度139.572付近に「滞在」していた、と理解される。
【0080】
以上、詳細に説明したように、本発明によれば、携帯端末の測位機能に頼ることなく、基地局位置情報を用いてユーザにとって有意な「滞在地」を高い精度で推定することができる。
【0081】
次に、あるユーザA、B及びCの「滞在地」推定結果を用い、各ユーザの特徴ベクトルを算出して学習データを作成し、機械学習を利用して対象ユーザ(ユーザA)の滞在目的を推定する方法を説明する。
【0082】
図14は、ユーザA、B及びCの各々について所定の時間区間毎に「滞在」又は「移動」の判定を行った結果を示す表である。また、
図15及び
図16はそれぞれ、ユーザA及びユーザCの「滞在地」推定の結果を示す表である。
【0083】
図14によれば、時間幅Tもシフト幅Sも2時間である時間区間(時間窓)が採用され、各時間区間について、ユーザ毎に「滞在」又は「移動」の推定結果が対応付けられている。この結果、後に詳述するように、例えば、ユーザAの「滞在時間区間」の集合と、ユーザB又はCの「滞在時間区間」の集合との間の重畳度合いに基づいて「類似度」が算出可能となる。
【0084】
また、
図15によれば、ユーザAは、第1〜第3の時間区間において「滞在地A1」に「滞在」し、第5及び第6の時間区間において「滞在地A2」に「滞在」し、第9の時間区間において「滞在地A3」に「滞在」し、最後に第11及び第12の時間区間において「滞在地A1」に戻って「滞在」することが理解される。ここで、「滞在地A1」は、代表点が緯度35.9及び経度139.5である「滞在地クラスタ」であり、「滞在地A2」及び「滞在地A3」も、同表に示された代表点を有する「滞在地クラスタ」である。
【0085】
さらに、
図16によれば、ユーザCは、第1〜第4の時間区間において「滞在地C1」に「滞在」し、第6及び第7の時間区間において「滞在地C2」に「滞在」し、第9の時間区間において「滞在地C3」に「滞在」し、最後に第11及び第12の時間区間において「滞在地C1」に戻って「滞在」することが理解される。ここで、「滞在地C1」〜「滞在地C3」は、同表に示された代表点を有する「滞在地クラスタ」である。
【0086】
[教師情報管理部132]
教師情報管理部132(
図2)は、ユーザ集合の部分集合である一部ユーザについて取得されている滞在目的の教師情報を記憶し管理する。ここで、これら一部ユーザについては、位置情報履歴に沿った時系列の一部または全部について教師情報としての滞在目的が明示的に得られている。このような滞在目的は、例えば、位置情報履歴を有するこれらの一部ユーザに対しアンケート等の行動調査を実施することにより取得される。
【0087】
図17は、ユーザB及びユーザCについて取得された教師情報を示す表である。ここで、滞在目的推定対象であるユーザAについての教師情報は存在せず、ユーザB及びユーザCについて教師情報が取得されているものとする。
【0088】
[学習データ作成部133:類似ユーザ検索部]
学習データ作成部133(
図2)は類似ユーザ検索部を有し、この類似ユーザ検索部は、滞在目的推定対象であるユーザの「滞在時間区間」の集合と、他のユーザの「滞在時間区間」の集合との間の重畳度合いに基づいて類似度を算出する。例えば、ユーザA及びユーザBの「滞在時間区間」の集合をそれぞれS
A及びS
Bとすると、S
AとS
Bとの間の重畳度合いF(S
A,S
B)を、次式
(1) F(S
A,S
B)=|S
A∩S
B|/|S
A∪S
B|
により算出し、算出されたF(S
A,S
B)をユーザAとユーザBとの間の類似度とする。式(1)の重畳度合いはジャカール(jaccard)類似度とも称される。
【0089】
図14に示したユーザA及びユーザBの「滞在」/「移動」の判定結果によれば、ユーザA及びユーザBが共に「滞在」である時間区間は5つであり、ユーザA及びユーザBのいずれかが「滞在」である時間区間は12個である。従って、ユーザAとユーザBとの間の類似度は、上式(1)を用いると、5/12であって0.417となる。一方、
図14に示したユーザA及びユーザCの「滞在」/「移動」の判定結果によれば、ユーザA及びユーザCが共に「滞在」である時間区間は7つであり、ユーザA及びユーザCのいずれかが「滞在」である時間区間は10個である。従って、ユーザAとユーザCとの間の類似度は、上式(1)を用いると、7/10であって0.700となる。従って、ユーザAに対するユーザCの類似度(0.700)の方が、ユーザBの類似度(0.417)よりも高いことが理解される。
【0090】
[特徴ベクトル算出部131]
特徴ベクトル算出部131(
図2)は、各ユーザについて推定された「滞在地」毎に特徴ベクトルを算出する。特徴ベクトルは、本実施形態において以下に示す5つの特徴量F1〜F5をその成分とする。このうち、特徴量F1〜F4は、「滞在地」毎に決定された「滞在時間区間」から算出される時間的特徴量となっており、特徴量F5は、決定された「滞在地」から算出される当該「滞在地」と一部又は全部の「滞在地」との位置関係に関する空間的特徴量となっている。
【0091】
(特徴量F1)正規化された滞在開始時刻。具体的には、滞在開始時刻(秒)の午前0時からの経過秒数を求め、この経過秒数を86400で割ることによって[0−1]で正規化したもの。
(特徴量F2)平日か休・祝日かを示すパラメータ。滞在時が平日(Weekday)ならば0、休・祝日(Holiday)ならば1の値をとる。
(特徴量F3)滞在時間。(滞在終了時刻(秒))−(滞在開始時刻(秒))を86400で割ったもの。
(特徴量F4)移動時間。(滞在開始時刻(秒))−(直前の「滞在地」の滞在終了時刻(秒))を86400で割ったもの。
【0092】
(特徴量F5)「滞在地」と一部又は全部の「滞在地」との位置関係。以下の(a)、(b)又は(c)の方法で算出することができる。
(a)「滞在地」毎に、当該「滞在地」と当該「滞在地」の周辺の1または複数の「滞在地」との距離の平均を当該「滞在地」と一部又は全部の「滞在地」との位置関係とする。
(b)「滞在地」毎に、当該「滞在地」と当該「滞在地」の周辺の1または複数の「滞在地」における重心との距離をDとし、当該「滞在地」の周辺の1または複数の「滞在地」の平均及び標準偏差をそれぞれμ
D及びσ
Dとして、(D−μ
D)/σ
Dを当該「滞在地」と一部又は全部の「滞在地」との位置関係とする。
(c)「滞在地」毎に、当該「滞在地」と当該「滞在地」の周辺の1または複数の「滞在地」における最大頻度地との距離をDとし、当該「滞在地」の周辺の1または複数の「滞在地」の平均及び標準偏差をそれぞれμ
D及びσ
Dとして、(D−μ
D)/σ
Dを当該「滞在地」と一部又は全部の「滞在地」との位置関係とする。
【0093】
尚、特徴ベクトルの成分は、その数、その内容共に、上述した実施形態に限定されるものではない。一般に、時間的特徴量は、後述する滞在目的の推定の際により有効に機能する。一方、空間的特徴量は、例えば、旅行等の遠出に係る行動履歴が存在する場合に有効となる。
【0094】
図18及び
図19は、それぞれユーザC及びユーザAについて「滞在地」毎に特徴ベクトルを算出した結果を示す表である。ここで、
図18では、ユーザCについて取得された教師情報(滞在目的)も示されている。
【0095】
以下、実施例として
図19に示したユーザAの「滞在地A2」に係る特徴ベクトルの算出方法を示す。
(特徴量F1)滞在地A2の開始時刻は8:00:00であり、この8:00:00の0:00:00からの秒数は28800である。これを86400で割ることにより、F1=0.333を得る。
(特徴量F2)2012/6/15は平日であるため、F2=0となる。
(特徴量F3)滞在地A2の開始時刻は8:00であって終了時刻は11:59であり、経過秒数は14400である。これを86400で割ることにより、F3=0.167を得る。
(特徴量F4)滞在地A2の開始時刻は8:00であって、直前の「滞在地」である滞在地A1の終了時刻は5:59であり、この間の経過秒数は7200である。これを86400で割ることにより、F4=0.083を得る。
【0096】
(特徴量F5)
図15に示されたユーザAの全「滞在地(滞在地クラスタ代表点)」の重心は、緯度36.025及び経度139.625となる。従って、この重心と滞在地A2との距離Dは0.2475となる。また、この重心と各「滞在地」との距離の平均μ
Dは0.1768となり、標準偏差σ
Dは0.0577となるから、相対距離であるF5=(D−μ
D)/σ
D=1.225を得る。
【0097】
さらに、類似度算出についての他の実施形態として、学習データ作成部133(
図2)の類似ユーザ検索部は、滞在目的推定対象であるユーザの「滞在時間区間」の集合と他のユーザの「滞在時間区間」の集合との共通部分に係る、当該ユーザの「滞在時間区間」に係る特徴ベクトルと他のユーザの「滞在時間区間」に係る特徴ベクトルとの距離の総和に基づいて類似度を算出してもよい。例えば、ユーザA及びユーザBの「滞在時間区間」に係る特徴ベクトルの集合をそれぞれS
A及びS
Bとし、その共通部分をS=S
A∩S
Bとし、その要素をs∈Sとし、共通部分の要素毎のユーザA及びユーザBの特徴ベクトルをv
A,s,v
B,sとして、ユーザAとユーザBとの間のF(A,B)を、次式
(2) F(A,B)=Σdist(v
A,s,v
B,s)
により算出する。この算出されたF(A,B)をユーザAとユーザBとの間の類似度とすることができる。ここで、Σはs(∈S)についての総和である。また、dist(v
A,s,v
B,s)は、共通部分の要素s毎のユーザA及びユーザBの特徴ベクトル間の距離を表し、例えばユークリッド距離とする。
【0098】
[学習データ作成部133:学習データ作成]
学習データ作成部133(
図2)は、類似度に基づいて検索された類似ユーザの「滞在地」について算出された特徴ベクトルと「滞在目的」とを対応付けて、各ユーザの統計的学習のために用いる学習データを作成する。
【0099】
上述したユーザA〜Cについての類似度計算結果によれば、滞在目的推定対象であるユーザAとの類似度について、高い順に他のユーザを列挙すると、ユーザC(0.700)、ユーザB(0.417)となる。このうちどのユーザのデータを使用して学習データを作成するかは、例えば、上位所定数のユーザまで、全体の人数の所定パーセントの順位まで、又は類似度が所定閾値以上のユーザまでを選択する等の基準によって決定することができる。本実施形態では、上位1人のユーザのデータ、即ちユーザCのデータを使用して学習データを作成する。具体的には、
図18の表が学習データとなる。
【0100】
さらに、他の実施形態として、上述したユーザAとの類似度に関して上位所定数となる他のユーザについて「滞在地」毎に特徴ベクトル及び「滞在目的」を対応付けたデータに対し、当該類似度で重み付けしたデータを、学習データとして作成することも好ましい。この実施形態では、教師情報を有する他のユーザ、即ちユーザB及びユーザCのデータを使用して学習データを作成する。
図20に、「滞在地」毎の特徴ベクトル及び「滞在目的」を類似度で重み付けした学習データ例を示す。
【0101】
図20に示した表によれば、「滞在地」毎に設けられた表の各行について、元のデータがユーザBのデータである場合、重みとしてユーザAとユーザBとの類似度である0.417が付与され、元のデータがユーザCのデータである場合、重みとしてユーザAとユーザCとの類似度である0.700が付与されている。この重みは、統計的学習部134(
図2)において条件付き確率値を算出するのに使用される他、規則に基づいて「滞在目的」を推定する場合に規則の優先順位を定めるのに使用される。
【0102】
ここで、学習データ作成の幾つかの実施形態(a)〜(c)を説明する。ここで、類似度は、滞在目的推定対象であるユーザ(ユーザA)の「滞在時間区間」の集合と、他のユーザの「滞在時間区間」の集合との間の重畳度合いに基づいて算出される。
【0103】
(a)類似度に関して上位所定数(例えば上位1人)となる他のユーザについて「滞在地」毎に特徴ベクトル(F1〜F5)及び「滞在目的」を対応付けたデータを、学習データとして作成する。これは、上述したユーザCを選択した実施形態に相当する。
【0104】
(b)他のユーザについて「滞在地」毎に特徴ベクトル(F1〜F5)及び「滞在目的」を対応付けたデータに対し類似度で重み付けしたデータを、学習データとして作成する。即ち、類似度のより高いユーザのデータほど、より強く推定結果に反映されるように調整する。
(c)類似度に関して上位所定数(例えば上位2人)となる他のユーザについて「滞在地」毎に特徴ベクトル(F1〜F5)及び「滞在目的」を対応付けたデータに対し類似度で重み付けしたデータを、学習データとして作成する。即ち、上位所定数の中で類似度のより高いユーザのデータほど、より強く推定結果に反映されるように調整する。
【0105】
さらに、他の実施形態として、曜日毎及び時間帯毎に滞在目的推定対象であるユーザ(ユーザA)の「滞在時間区間」の集合と、他のユーザの「滞在時間区間」の集合との間の重畳度合いに基づいて類似度を算出し、曜日毎及び時間帯毎にこの類似度を使用して学習データを作成することも好ましい。具体的には、(d)〜(f)に示す通りである。
【0106】
(d)曜日毎及び時間帯毎に、対応する類似度に関して上位所定数となる他のユーザについて「滞在地」毎に特徴ベクトル(F1〜F5)及び「滞在目的」を対応付けたデータを作成して学習データとする。
(e)曜日毎及び時間帯毎に、他のユーザについて「滞在地」毎に特徴ベクトル(F1〜F5)及び「滞在目的」を対応付けたデータに対し、対応する類似度で重み付けしたデータを、学習データとして作成する。
(f)曜日毎及び時間帯毎に、対応する類似度に関して上位所定数となる他のユーザについて「滞在地」毎に特徴ベクトル(F1〜F5)及び「滞在目的」を対応付けたデータに対し、対応する類似度で重み付けしたデータを、学習データとして作成する。
【0107】
以上説明したように、他のユーザの類似度の取り扱い方、さらには特徴ベクトルの選択によって種々の学習データが作成可能となる。実際には、ユーザ集合の特徴・性質に応じて適切な学習データが作成される。
【0108】
[統計的学習部134及び滞在目的推定部135]
統計的学習部134(
図2)は、学習データ作成部133で作成された学習データにおける特徴ベクトルと「滞在目的」との「相関」を統計的に学習する。また、滞在目的推定部135(
図2)は、統計的推論部であり、作成された学習データに基づいて「滞在地」毎に特徴ベクトルを対応付けたデータに係る対象ユーザの滞在目的を推定する。ここで、滞在目的推定部135は、以下詳細に説明するように、統計的学習部134で学習された「相関」に基づいて各「滞在目的」の事後確率を算出し、最も高い事後確率となった特徴ベクトルに対応する滞在目的を、当該ユーザの滞在目的と推定することも好ましい。また、最も高い事後確率となった特徴ベクトルに対応する滞在目的だけでなく、事後確率の降順に特徴ベクトルに対応する滞在目的を並べ替えた際、上位所定数(上位の1つ以上)に入る滞在目的を当該ユーザの滞在目的と推定することも好ましい。
【0109】
具体的に、滞在目的推定部135は、まず、各「滞在目的」の事後確率を算出する。ここで、「事後確率分布(Posterior probability distribution)」とは、確率的にとり得る値が決まる変数(確率変数)が複数個存在する場合に、一部の変数の値が観測された条件の下で、ある変数がとり得る値のそれぞれの値をとる度合いの分布をいう。また、「事後確率(Posterior probability)」とは、前述の条件の下でのそれぞれの値をとる度合いをいう。
【0110】
例えば、特徴ベクトルの各値(F1〜F5の値)が観測された条件の下で、「滞在目的」がとり得る値のそれぞれの値をとる度合いの分布を、特徴ベクトルに基づく「滞在目的」の事後確率分布と称する。「事後確率」は、特徴ベクトルに基づく各「滞在目的」の事後確率から構成される。
【0111】
特徴ベクトルに基づく「滞在目的」の事後確率分布は、ベイズ定理に基づき、「滞在目的」の事前確率分布に特徴ベクトルの尤度を乗算し、この乗算結果に対し(合計値又は積分値を1にする)正規化を実施することによって算出される。
【0112】
ここで、「滞在目的」の事前確率分布とは、いずれの確率変数の値も観測されていない条件の下で「滞在目的」がとり得る値のそれぞれの値をとる度合いの分布をいう。また、特徴ベクトルの尤度とは、「滞在目的」がある値をとった場合に、事後確率の条件となる特徴ベクトルのそれぞれの変数の値が観測される尤もらしさの度合いをいう。尚、「滞在目的」の事前確率分布と特徴ベクトルの尤度との乗算結果は、「滞在目的」と特徴ベクトルの同時確率分布と称される。
【0113】
複数の確率変数の同時確率分布を算出するには、確率変数間の確率的な依存関係を表現するための「確率モデル」が必要となる。この「確率モデル」は、複数の確率変数と、確率変数間の確率的な依存関係を表現する複数の条件付き確率との組み合わせで構成される。「確率モデル」は、確率変数の種類によって一意に定まるものではなく、変数間の依存関係の表現の仕方によって多種多様な形態をとる。
【0114】
例えば、確率変数がA、B及びCの3つの場合、「確率モデル」は、
(a)「A、B、C」(すべての変数が独立)、
(b)「A、B、A→C」(AとBは独立、CはAに依存)、
(c)「A、A→B、A→C」(Aは独立、BとCはAに依存)、
(d)「A、B、A&B→C」(AとBは独立、CはAとBに依存)
等、多くの種類の依存関係をとり得る。このような「確率モデル」を規定することにより、複数の確率変数における全ての変数の値の組み合わせの確率分布である同時確率の計算式を導出可能となる。
【0115】
例えば、「A、B、A&B→C」(AとBは独立、CはAとBに依存)の場合には、
(3) 同時確率分布P(A,B, C)=P(A)P(B)P(C|A,
B)
という計算式が導出される。このように「確率モデル」は、学習データ(教師データ)により予め適切な表現が選択され、条件付き確率分布は最尤法や最大事後確率法によって予め推定される。
【0116】
本発明によれば、教師情報の「滞在目的」(「Class」と表す)と、F1からF5の特徴ベクトルの各変数との間に、「Class,Class→F1,Class→F2,・・・,Class→F5」(F1〜F5はClassに依存)という依存関係が成り立つとする。前述の依存関係の場合、滞在目的と特徴ベクトルとの同時確率は、次式
(4) P(Class, F1,F2,・・・,F5)
=P(Class)P(F1|Class)P(F2|Class)・・・P(F5|Class)
=P(Class)ΠiP(Fi|Class)
を用いて算出される。尚、変数間の依存関係は、学習データに応じ、最尤法又は最大事後確率法を用いて適切に学習されるものであって、前述の依存関係の表現に限定されるものではない。
【0117】
最尤法を用いる場合、Classの事前確率P(Class)、及びClassを条件としたときのF1の値の条件付き確率P(F1|Class)は、次式(5)及び(6)で算出される。尚、Classを条件としたときのF1の値の条件付き確率P(F2|Class)等は、P(F1|Class)と同様に算出される。
(5) P(Class=y)=(Class=yという値を持つデータの総数)/(全データ数)
(6) P(F1=x|Class=y)=(F1=x且つClass=yという値を持つデータの総数)/(Class=yという値を持つデータの総数)
ここで、x及びyはそれぞれ、F1及びClassの特定の値を指す。
【0118】
類似度に関して上位所定数となる他のユーザについて「滞在地」毎に特徴ベクトル及び「滞在目的」を対応付けたデータを学習データとして作成した場合には、(F1=x且つClass=yという値を持つデータの総数)及び(Class=yという値を持つデータの総数)を算出する際、各データは1個として加算される。
【0119】
一方、他のユーザについて「滞在地」毎に特徴ベクトル及び「滞在目的」を対応付けたデータに対し類似度で重み付けしたデータを学習データとして作成した場合には、(F1=xかつClass=yという値を持つデータの総数)及び(Class=yという値を持つデータの総数)を算出する際、各データは付与された重みの個数として加算される。即ち、
図20の滞在地B1のデータは0.417個として加算される。以上に述べた方法でデータに付与された重みを用いて算出された確率値を用いた推定結果には、自動的に、類似度のより高いユーザのデータほど、より強く反映されることになる。
【0120】
尚、以上に説明したような機械学習を使用せずに、規則に基づいて「滞在目的」の推定を行うことも可能である。例えば、「滞在地」毎に各特徴量を比較して、推定対象ユーザ(ユーザA)の各特徴量が、学習データに係るユーザ(ユーザC)の対応する特徴量の値を含む所定範囲内に収まるという規則に従う場合、当該「滞在地」における推定対象ユーザ(ユーザA)の滞在目的を、学習データに係るユーザ(ユーザC)の「滞在目的」と同一であると推定してもよい。
【0121】
図19によれば、ユーザAの「滞在地」毎の各特徴量は、
図18に示したユーザCの対応する特徴量の値を含む所定範囲内に収まるという規則に従っている、と判断することができる。ここで、特徴量の所定範囲は、例えば特徴量毎に予め設定されていてもよい。これにより、
図19では、「滞在地A1」、「滞在地A2」及び「滞在地A3」での「滞在目的」が、それぞれ「滞在地C1」、「滞在地C2」及び「滞在地C3」に対応付けられた(教師データである)「自宅」、「学校」及び「バイト」と同一である、と推定されている。
【0122】
さらに、他のユーザについて「滞在地」毎に特徴ベクトル及び「滞在目的」を対応付けたデータに対し類似度で重み付けしたデータを学習データとして作成した場合、ユーザAの「滞在地」毎の各特徴量が2以上の規則に従うときには、付与された重みが大きい方の規則を優先することができる。
【0123】
以上、詳細に説明したように、本発明による装置、プログラム及び方法によれば、携帯端末の測位機能に頼ることなく、通信事業者設備によって取得可能な基地局位置情報を用いて、ユーザの滞在目的を推定することができる。ここで、基地局位置情報では一般に、空間的粒度が粗く且つ時間間隔が一定ではないが、このような基地局位置情報を使用しても、ユーザにとって有意な「滞在地」、さらにはその「滞在目的」を高い精度で推定することが可能となる。特に、本発明によれば、携帯端末での測位のための処理負荷を回避しつつ、ユーザの「滞在地」を推定するための情報を通信事業者側のみで取得することができる。
【0124】
ここで、ユーザの「滞在目的」を推定することによって提供されるサービスとして、例えば、携帯端末を所持したユーザに対して生活場所に応じたクーポン情報等を配信するパーソナライズド情報提供サービスが挙げられる。また、複数のユーザについて推定した「滞在地」及び「滞在目的」の情報を集約し、地域毎に地域内で滞在しているユーザグループに対し、「滞在目的」に応じたクーポン情報等を配信するサービスや、地域毎及び滞在目的毎の滞在ユーザ数を周辺情報として各地域の住民や店舗に通知する周辺情報提供サービス等も挙げられる。
【0125】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲内での種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例示であって、何ら制約を意図するものではない。本発明は、特許請求の範囲及びその均等物によってのみ制約される。