特許第6395287号(P6395287)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

<>
  • 特許6395287-イベント検出装置およびプログラム 図000004
  • 特許6395287-イベント検出装置およびプログラム 図000005
  • 特許6395287-イベント検出装置およびプログラム 図000006
  • 特許6395287-イベント検出装置およびプログラム 図000007
  • 特許6395287-イベント検出装置およびプログラム 図000008
  • 特許6395287-イベント検出装置およびプログラム 図000009
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6395287
(24)【登録日】2018年9月7日
(45)【発行日】2018年9月26日
(54)【発明の名称】イベント検出装置およびプログラム
(51)【国際特許分類】
   G06F 17/30 20060101AFI20180913BHJP
   G06Q 50/10 20120101ALI20180913BHJP
【FI】
   G06F17/30 220Z
   G06F17/30 170A
   G06Q50/10
【請求項の数】4
【全頁数】15
(21)【出願番号】特願2014-114408(P2014-114408)
(22)【出願日】2014年6月2日
(65)【公開番号】特開2015-228189(P2015-228189A)
(43)【公開日】2015年12月17日
【審査請求日】2017年5月1日
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100064908
【弁理士】
【氏名又は名称】志賀 正武
(74)【代理人】
【識別番号】100108578
【弁理士】
【氏名又は名称】高橋 詔男
(72)【発明者】
【氏名】小早川 健
【審査官】 後藤 昂彦
(56)【参考文献】
【文献】 特開2012−243032(JP,A)
【文献】 特開2013−140135(JP,A)
【文献】 米国特許第07805266(US,B1)
【文献】 里 洋平,“異常行動検出入門(改)−行動データ時系列のデータマイニング−”,SlideShare[検索日:2018年3月29日],2012年 5月11日,pp.1,13−23,インターネット<URL: https://www.slideshare.net/yokkuns/ss-12901795>
【文献】 松村 冬子,他,“選好商品のクラスタリングに基づく嗜好の変化の検出”,情報処理学会研究報告 平成21年度▲3▼ [CD−ROM]、情報処理学会研究報告 数理モデル化と問題解決(MPS)No.75,社団法人情報処理学会,2009年10月15日,(27),p.1−6
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
G06Q 10/00−99/00
(57)【特許請求の範囲】
【請求項1】
発言件数の時系列データを取得して、取得した前記時系列データに自己回帰モデルまたは自己回帰移動平均モデルを適用し、適用した結果として得られる残差の時系列データを出力する自己回帰モデル適用部と、
前記自己回帰モデル適用部によって出力された残差の時系列データを構成する各々の残差または前記残差の絶対値が、所定の閾値よりも大きい箇所を、前記時系列データにおけるイベント候補として検出するイベント検出部と、
を具備すイベント検出装置であって、
前記イベント検出部は、
検出した前記イベント候補のうち、前記残差の時系列データにおいて前記イベント候補が所定数以上連続する箇所をイベントとして検出するとともに、前記残差の時系列データにおいて前記イベント候補が当該所定数未満しか連続しない箇所をノイズとして検出する継続時間判定部と、
前記継続時間判定部によって前記ノイズとして検出された箇所について、前記ノイズの箇所の残差の絶対値が小さくなるように前記発言件数の時系列データを調整する除去処理部と、
を具備することを特徴とすイベント検出装置。
【請求項2】
前記除去処理部は、前記残差の時系列データにおける前記ノイズの総量に対する寄与の度合いを前記箇所ごとに求め、前記寄与の度合いが大きい前記箇所から優先して、前記発言件数の時系列データを調整する、
ことを特徴とする請求項に記載のイベント検出装置。
【請求項3】
発言内容と時刻情報とを含む発言データを取得し、取得した前記発言データから、特定のトピックに該当する前記発言内容を有する前記発言データのみまたは特定のトピックに該当するとともに特定の発言種別に該当する前記発言データのみを抽出した、純粋状態発言データを出力する抽出部と、
前記抽出部によって出力された前記純粋状態発言データを取得し、時間区間ごとの前記純粋状態発言データの件数を表す前記発言件数の時系列データを生成する系列データ生成部と、
をさらに具備し、
前記自己回帰モデル適用部は、前記系列データ生成部によって生成された前記発言件数の時系列データを取得して、自己回帰モデルまたは自己回帰移動平均モデルを適用する、
ことを特徴とする請求項1または請求項2に記載のイベント検出装置。
【請求項4】
コンピューターを、
請求項1から3までのいずれか一項に記載のイベント検出装置
として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、系列データからイベントを検出するための、イベント検出装置およびプログラムに関する。
【背景技術】
【0002】
インターネットを利用した投稿サイト(掲示板サイトや、短文投稿サイトなど)では、様々な話題に関する投稿が日々行われている。これらの投稿は、自然言語で記述されたものであるが、このような投稿をもとに、社会情勢の変化や事件・事故などを検出する試みは数多くなされている。
【0003】
そのような状況で、求められる技術の一つは、インターネットを経由した投稿等の書き込み数の異常値を検出することである。従来の技術による方法の一つは、書き込み数が予め定められた閾値を超える場合を検出する方法である。また、別の方法の一つは、自己相関行列の固有値によるモデルを利用する方法である。
【0004】
特許文献1の図13Cおよび段落[0116]には、相互部分空間法について記載されている。この手法では、過去に遡る観測データ(時系列データ)を基に自己相関行列の固有値問題を解き、部分空間同士が成す角度(θ)の余弦(cos θ)を類似度として、観測データの異常値を検知している。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2013−041448号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、従来技術による異常値検出の方法では、十分な検出精度が得られないという問題がある。
本発明は、上記の課題認識に基づいて行なわれたものであり、異常値検出の精度の高い、イベント検出装置およびプログラムを提供するものである。
【課題を解決するための手段】
【0007】
[1]上記の課題を解決するため、本発明の一態様によるイベント検出装置は、発言件数の時系列データを取得して、取得した前記時系列データに自己回帰モデルまたは自己回帰移動平均モデルを適用し、適用した結果として得られる残差の時系列データを出力する自己回帰モデル適用部と、前記自己回帰モデル適用部によって出力された残差の時系列データを構成する各々の残差または前記残差の絶対値が、所定の閾値よりも大きい箇所を、前記時系列データにおけるイベント候補として検出するイベント検出部と、を具備する。
【0008】
[2]また、本発明の一態様は、上記のイベント検出装置において、発言内容と時刻情報とを含む発言データを取得し、取得した前記発言データから、特定のトピックに該当する前記発言内容を有する前記発言データのみまたは特定のトピックに該当するとともに特定の発言種別に該当する前記発言データのみを抽出した、純粋状態発言データを出力する抽出部と、前記抽出部によって出力された前記純粋状態発言データを取得し、時間区間ごとの前記純粋状態発言データの件数を表す前記発言件数の時系列データを生成する系列データ生成部と、をさらに具備し、前記自己回帰モデル適用部は、前記系列データ生成部によって生成された前記発言件数の時系列データを取得して、自己回帰モデルまたは自己回帰移動平均モデルを適用する、ことを特徴とする。
【0009】
[3]また、本発明の一態様は、上記のイベント検出装置において、前記イベント検出部は、検出した前記イベント候補のうち、前記残差の時系列データにおいて前記イベント候補が所定数以上連続する箇所をイベントとして検出するとともに、前記残差の時系列データにおいて前記イベント候補が当該所定数未満しか連続しない箇所をノイズとして検出する継続時間判定部と、前記継続時間判定部によって前記ノイズとして検出された箇所について、前記ノイズの箇所の残差の絶対値が小さくなるように前記発言件数の時系列データを調整する除去処理部と、を具備することを特徴とする。
なお、除去処理部により、ノイズが除去される。また、除去処理部が発言件数の時系列データを調整した後に、自己回帰モデル適用部が、再度、自己回帰モデルまたは自己回帰移動平均モデルの適用をするところからの処理を行う。
【0010】
[4]また、本発明の一態様は、上記のイベント検出装置において、前記除去処理部は、前記残差の時系列データにおける前記ノイズの総量に対する寄与の度合いを前記箇所ごとに求め、前記寄与の度合いが大きい前記箇所から優先して、前記発言件数の時系列データを調整する、ことを特徴とする。
【0011】
[5]また、本発明の一態様は、コンピューターを、発言件数の時系列データを取得して、取得した前記時系列データに自己回帰モデルまたは自己回帰移動平均モデルを適用し、適用した結果として得られる残差の時系列データを出力する自己回帰モデル適用手段、前記自己回帰モデル適用手段によって出力された残差の時系列データを構成する各々の残差または前記残差の絶対値が、所定の閾値よりも大きい箇所を、前記時系列データにおけるイベント候補として検出するイベント検出手段、として機能させるためのプログラムである。
【発明の効果】
【0012】
本発明によれば、自己相関モデルまたは自己相関移動平均モデルの残差に基づき、精度よくイベントを検出することが可能となる。また、特定のトピックや特定の発言種別のみを抽出して時系列データを生成した場合には、モデルのパラメーターの推定精度が上がるので、更に精度よくイベントを検出できる。
【図面の簡単な説明】
【0013】
図1】本発明の実施形態によるイベント検出装置の概略機能構成を示すブロック図である。
図2】同実施形態によるイベント検出部のさらに詳細な機能構成を示すブロック図である。
図3】同実施形態による発言データの構成およびデータ例を示す概略図である。
図4】同実施形態による時系列データ(発言件数データ)の構成およびデータ例を示す概略図である。
図5】同実施形態によるイベント検出装置の動作手順を示すフローチャートである。
図6】同実施形態による除去処理部による詳細な処理の手順を示すフローチャートである。
【発明を実施するための形態】
【0014】
次に、本発明の一実施形態について、図面を参照しながら説明する。
図1は、本実施形態によるイベント検出装置の概略機能構成を示すブロック図である。同図において、符号1は、イベント検出装置である。図示するように、イベント検出装置1は、発言データ取得部10と、抽出部11と、系列データ生成部12と、自己回帰モデル適用部13と、イベント検出部14と、イベントリスト出力部15とを含んで構成される。
【0015】
発言データ取得部10は、外部から、発言データを取り込み、所定の形式で一時的に記憶する。発言データを記憶するためには、例えば、リレーショナルデータベースや、XMLデータベース(「XML」はExtensible Markup Language,拡張マークアップ言語の略)などを利用する。ここで、発言データは、インターネットを利用した投稿サービスに投稿された発言のデータである。投稿サービスの一例は、短文投稿サービスである。短文投稿サービスにおいては、ユーザーがクライアント端末装置(PC、タブレット、スマートフォン等)から短文を投稿する。短文の長さには所定の上限(例えば、数百文字程度)がある。投稿された短文は、ユーザーアカウント名や投稿日時(YYYY/MM/DD hh:mm:ss(年月日、時分秒)の形式)といった属性情報と関連付けて、サーバー装置側の記憶手段に蓄積される。サーバーは、蓄積された短文のデータを、ユーザーの所望の形態で表示できるように提供する。このとき、ユーザーは、所定のユーザーアカウント(単数または複数)の投稿のみを時系列に表示させたり、特定のキーワードを含む投稿のみを時系列に表示させたりすることができるようになっている。このような短文投稿サービスの一例は、ツイッター(Twitter)である。1件の短文等の投稿のことを、以下では「発言」と呼ぶ。
【0016】
抽出部11は、発言内容と時刻情報とを含む発言データを取得し、取得した発言データから、特定のトピックに該当する発言内容を有する発言データのみ、または特定のトピックに該当するとともに特定の発言種別に該当する発言データのみを抽出した、純粋状態発言データを出力する。
系列データ生成部12は、抽出部11によって出力された純粋状態発言データを取得し、時間区間ごとの純粋状態発言データの件数を表す発言件数の時系列データを生成するものである。
【0017】
自己回帰モデル適用部13は、発言件数の時系列データを取得して、取得した前記時系列データに自己回帰モデルまたは自己回帰移動平均モデルを適用し、適用した結果として得られる残差の時系列データを出力する。
イベント検出部14は、自己回帰モデル適用部13によって出力された残差の時系列データを構成する各々の残差または前記残差の絶対値が、所定の閾値よりも大きい箇所を、時系列データにおけるイベント候補として検出する。
【0018】
イベントリスト出力部15は、イベント検出部14によって検出されたイベントのリストを出力する。ここで、イベントのリストとは、少なくともイベントに相当する時間帯を代表する時刻を含むデータのリストである。
【0019】
図2は、上記のイベント検出部のさらに詳細な機能構成を示すブロック図である。図示するように、イベント検出部14は、残差時系列データ取得部141と、イベント候補時刻検出部142と、継続時間判定部143と、除去処理部144と、検出結果出力部145とを含んで構成される。
【0020】
残差時系列データ取得部141は、外部(具体的には、自己回帰モデル適用部13)から、残差の時系列のデータを取得する。これは、自己回帰モデル適用部13が適用したモデルにおける残差である。
イベント候補時刻検出部142は、残差時系列データ取得部141が取得した残差時系列データを基に、イベント候補の時刻を検出する。具体的には、イベント候補時刻検出部142は、各時間帯(時刻)について、残差の絶対値が所定の閾値以上の場合に、その時間帯をイベント候補として検出する。
【0021】
継続時間判定部143は、検出したイベント候補のうち、残差の時系列データにおいて前記イベント候補が所定数以上連続する箇所をイベントとして検出するとともに、前記残差の時系列データにおいて前記イベント候補が当該所定数未満しか連続しない箇所をノイズとして検出する。
除去処理部144は、前記継続時間判定部143によってノイズとして検出された箇所について、ノイズの箇所の残差の絶対値が小さくなるように発言件数の時系列データを調整する。発言件数の時系列データを調整するということは、正の残差の場合には発言件数を1件減らすことであり、負の残差の場合は、発言件数を1件増やすことである。除去処理部144によるこのデータの調整により、真のイベントではないイベント候補(つまり、ノイズ)を除去するような作用が生じる。
【0022】
検出結果出力部145は、継続時間判定部143によって、イベントとして検出された箇所を、検出結果として外部に供給するものである。具体的には、検出結果出力部145は、イベントの検出結果をイベントリスト出力部15に渡す。
【0023】
図3は、発言データの構成およびデータ例を示す概略図である。図示するように、発言データは、表形式のデータであり、日時、発言アカウント、発言、トピック、発言種別の各項目(桁)を有する。発言データの各行が、1件の発言に対応する。日時は、発言が投稿された日時であり、年月日および時分秒で表されるデータである。発言アカウントは、当該発言を投稿したユーザーのアカウント名である。発言は、投稿された文のテキストデータである。言い換えれば、発言の欄は、発言内容のデータを格納する。トピックは、当該発言が属するトピックを表すラベルのデータである。発言種別は、当該発言の種別を表すラベルのデータである。
【0024】
ここで、発言種別について説明する。発言種別は、ある特定のトピック内での分類であり、発言内容に基づくものである。例えば、ある事象についての感想は、「肯定」と「否定」と「要望」の3種類の発言種別に分類される(これを、便宜上、感想種別と呼ぶ)。また、ある政策についての意見は、「支持」と「不支持」の2種類の発言種別に分類される(これを、便宜上、支持種別と呼ぶ)。インターネットを介してリアルタイムに投稿と閲覧がなされる投稿サービスにおいては、同種別の意見は、ユーザーのコミュニティの中で広まっていく傾向がある。
【0025】
図においては、データ例として、計6行分のレコードを示している。第1行目のデータ(日時が、「2014年2月8日 8:12:44」)と、第2行目のデータ(日時が、「2014年2月8日 8:12:47」)のトピックは、「○○税率アップ」である。そして、第1行目の発言種別は「否定」であり、第2行目の発言種別は「肯定」である。第3行目以後に示しているレコードは、その他のトピックに関する発言に対応するものである。
【0026】
発言データを外部(例えば、短文投稿サイトのデータ配信サーバー装置)から取得した段階では、日時と、発言アカウントと、発言の欄にのみデータが入っており、トピックと発言種別の欄は空欄である。トピックの分類が行われた後に、トピックの欄にデータが書き込まれる。また、発言種別の分類が行われた後に、発言種別の欄にデータが書き込まれる。図示する状態では、トピックが混在している。
トピックの欄にデータが書き込まれた後は、条件を用いたデータ検索により、特定のトピックのデータのみを選択して抽出することができる。また、発言種別の欄にデータが書き込まれた後は、条件を用いたデータ検索により、特定の発言種別のデータのみを選択して抽出することができる。また、トピックの欄と発言種別の欄の両方にデータが書き込まれた後は、条件を用いたデータ検索により、特定のトピックで、且つ特定の発言種別のデータのみを選択して抽出することができる。特定のトピックや発言種別のみ抽出したデータは純粋状態の発言データとして利用できる。
【0027】
図4は、時系列データ(発言件数データ)の構成およびデータ例を示す概略図である。図示するように、この時系列データは、時間帯(時間区間)ごとの、特定トピック且つ特定発言種別の発言件数を表すものである。この時系列データは、表形式の構造を有しており、時間帯(日時)、トピック、発言種別、件数、という項目を含んでいる。同図に示す時系列データの各行は、時間帯とトピックと発言種別の組み合わせに対応している。
【0028】
時間帯(日時)は、所定の長さ(幅)を有する時間帯を代表する日時のデータである。時間帯の幅は、分析対象のデータの性質や、発言の話題の性質などに応じて、適宜定められる。通常の場合、時間帯の幅は1分程度から1日程度までの間の長さである。同図に示す例では、時間帯の幅を5分とし、各々の時間帯の開始時刻をその時間帯の代表日時として表している。
トピックは、抽出部11によって分類され抽出されたトピックを表すラベルである。
発言種別は、前述の、発言内容を分類して得られた種別である。例えば、ある特定のトピックにおける発言種別は、「肯定」と「否定」の2種類である。
件数は、時間帯(日時)とトピックと発言種別に対応する発言データの件数を表す数値データである。
【0029】
図示するデータ例では、時間帯の幅が5分である。そして、データ例の第1行目と第2行目は、「2014年2月8日8時10分」から同日の「8時15分」までの時間帯に関するデータであり、その時間帯の代表として、時間帯(日時)の欄には「2014年2月8日8時10分」というデータが格納されている。また、第3行目と第4行目は、「2014年2月8日8時15分」から同日の「8時20分」までの時間帯に関するデータであり、その時間帯の代表として、時間帯(日時)の欄には「2014年2月8日8時15分」というデータが格納されている。本データのすべてのデータにおいて、トピックは「○○税率アップ」である。つまり、この時系列データは、発言データの中から抽出された、「○○税」という税の税率アップに関する発言の件数の時系列を表すものである。そして、第1行および第3行の発言種別は「否定」であり、第2行および第3行の発言種別は「肯定」である。また、件数の欄には、各時間帯における、発言種別ごとの発言件数がそれぞれ格納されている。
なお、この時系列データは、系列データ生成部12によって生成される。
【0030】
次に、処理の手順について説明する。
図5は、イベント検出装置の動作手順を示すフローチャートである。以下、このフローチャートに沿って、イベント検出装置1の動作を説明する。
まずステップS101において、発言データ取得部10は、外部から発言データを取得する。この発言データは、図3に示したものである。
【0031】
次にステップS102において、抽出部11は、発言データの中から、特定トピックの発言だけを抽出する。また、抽出部11は、抽出したトピックの発言データを、発言種別ごとに分類する。抽出部11は、分類、抽出した結果に基づいて、発言データの中のトピックの項目、および発言種別の項目に、データを書き込む。なお、このように分類された結果として、特定のトピック且つ特定の発言種別のみを抽出した状態のデータを純粋状態発言データと呼ぶ。
【0032】
なお、特定のトピックの発言のみを抽出するためには、自然言語処理技術を利用した自動分類の技術を利用することができる。この技術自体は、文献[Michael W. Berry編,Survey of Text Mining,2004年版,Springer]にあるように、既存の技術であって、キーワードの設定による抽出と、ルール(複数の条件の組み合わせ等)による抽出とを併用するものである。また、テレビ等の特定の放送番組に関する発言のみを抽出するためには、その放送番組に関するキーワードを用いて、上記の自動分類技術を利用する。
また、特定の発言種別のみを抽出するためには、文献[Michael W. Berry編,Survey of Text Mining,2004年版,Springer]にあるように、既存技術である評判分析技術を用いることができる。評判分析技術は、例えば、発言内に出現する語の頻度を表す多次元ベクトルを、そのベクトル空間内で分類する。また、評判分析技術は、必要に応じて、教師データを用いた機械学習の手法により、そのベクトル空間内での分類の仕方を学習する。
【0033】
次にステップS103において、系列データ生成部12は、分類済みの発言データを元に、時系列データを生成する。系列データ生成部12が生成する時系列データの例は、図4に示した通りである。具体的には、系列データ生成部12は、抽出部11によって抽出された発言データの件数を時間帯ごと、トピックごと、発言種別ごとにカウントすることにより、この時系列データを生成する。
【0034】
次にステップS104において、自己回帰モデル適用部13は、系列データ生成部12によって生成された時系列データに、自己回帰モデルを適用する。これにより、自己回帰モデル適用部13は、残差の値の時系列(ε,ε,・・・)のデータを算出する。ここでは、自己回帰モデル適用部13が、ARモデル(autoregressive model,自己回帰モデル)を適用する場合と、ARMAモデル(autoregressive moving average model,自己回帰移動平均モデル)を適用する場合の、2通りの例を説明する。
【0035】
(1)ARモデルを適用する場合
次数p(pは自然数)の自己回帰モデルは、下の式(1)で表される。
【0036】
【数1】
【0037】
式(1)において、φ,・・・,φは、モデルのパラメーターである。また、cは定数項である。εは、残差(誤差)項である。つまり、式(1)に示すモデルでは、離散時刻tにおける時系列データの値Xは、同系列における直前のp個の値Xt−1,・・・,Xt−pの重み付きの和に定数項と残差項を加えたものである。
【0038】
自己回帰モデル適用部13は、式(1)に示したモデルに従い、系列データ生成部12から供給された時系列データを分析する。自己回帰モデルを適用して系列を分析する処理自体は、既存技術によるものである。具体的には、自己回帰モデル適用部13は、供給された時系列データに基づく連立多元方程式の解を求め、または解の最尤推定を行い、その結果として、残差項の列ε,ε,・・・と、定数項cと、パラメーターφ,・・・,φの値を得る。
【0039】
(2)ARMAモデルを適用する場合
次数pの自己回帰と、次数qの移動平均を組み合わせたモデルは、下の式(2)で表される(p,qは、自然数)。
【0040】
【数2】
【0041】
式(2)において、φ,・・・,φ、および、θ,・・・,θは、モデルのパラメーターである。εは、残差(誤差)項である。つまり、式(2)に示すモデルでは、離散時刻tにおける時系列データの値Xは、同系列における直前のp個の値Xt−1,・・・,Xt−pの重み付きの和と、同系列における直前のq個の残差項εt−1,・・・,εt−qの重み付の和と、当該時刻tにおける残差項の値を加えたものである。
【0042】
自己回帰モデル適用部13は、式(2)に示したモデルに従い、系列データ生成部12から供給された時系列データを分析する。自己回帰移動平均モデルを適用して系列を分析する処理自体は、既存技術によるものである。具体的には、自己回帰モデル適用部13は、供給された時系列データに基づく連立多元方程式の解を求め、または解の最尤推定を行い、その結果として、残差項の列ε,ε,・・・と、パラメーターφ,・・・,φ,およびθ,・・・,θの値を得る。
【0043】
自己回帰モデル適用部13は、残差の値の時系列(ε,ε,・・・)のデータを算出すると、既に述べた。ARモデルにおいても、ARMAモデルにおいても、残差ε(t=1,2,・・・)は、平均値0の正規分布に従う。つまり、閾値ethを適切に設定することにより、εの絶対値である|ε|がその閾値ethを超える可能性は小さくなる。つまり、|ε|がその閾値ethを超えるような時間帯は、イベント発生時間帯の候補とみなすことができる。
【0044】
次にステップS105において、イベント検出部14は、自己回帰モデル適用部13から供給される残差の値の時系列データに基づき、残差の絶対値|ε|が閾値ethを超えるような時間帯を、すべて検出する。言い換えれば、イベント検出部14は、|ε|>eth となるようなtをすべて求める。そのような時間帯を、便宜上、イベント候補と呼ぶ。
より具体的には、残差時系列データ取得部141が残差の値の時系列データを自己回帰モデル適用部13から取り込む。そして、イベント候補時刻検出部142がイベント候補の時間帯をすべて検出する。
【0045】
次にステップS106において、イベント検出部14(具体的には、継続時間判定部143)は、ステップS105において検出されたイベント候補のうち、閾値超えが所定時間継続しなかったものが存在するか否かを判断する。本実施形態では、イベント検出部14は、連続した閾値超えの系列数が所定値未満のものが存在するか否かにより、この判断を行う。
例えば、時間帯の幅が5分の場合であって、20分間以上のイベント候補(閾値超え)が継続する場合に、そのイベント候補をイベントと認定する場合を考える。このとき、時系列のイベント候補が4個以上継続する場合にはイベントであると認定し、時系列のイベント候補が3個以下しか継続しない場合には、そのイベント候補は、イベントではなく、「所定時間継続しない箇所」であると認定する。
そして、閾値超えが所定時間継続しない箇所がある場合(ステップS106:YES)には、ステップS107に進む。一方、閾値超えが所定時間継続しない箇所がない場合(ステップS106:NO)には、ステップS108に進む。
【0046】
次にステップS107に進んだ場合、同ステップにおいて、イベント検出部14(具体的には、除去処理部144)は、継続時間の短いイベント候補に対応して、残差を除去するためのデータ処理を行う。この処理は、継続時間の短いイベント候補が減る方向に作用する。言い換えれば、この処理によって、イベント検出部14は、閾値超えが所定時間継続しない箇所について、閾値超えの度合いが小さくなる方向でデータの除去(更新)を行う。なお、本ステップの処理の詳細については、後で、別のフローチャート(図6)を参照しながら説明する。本ステップの処理を終えた後、再びステップS104の処理に進む。これにより、本ステップで除去(更新)した後の時系列データに関して、再度、自己回帰モデルの適用を行うこととなる。
【0047】
ステップS106からステップS108に進んだ場合、同ステップにおいて、イベント検出部14(具体的には、検出結果出力部145)は、検出されたイベントの時刻情報を、イベントリスト出力部15に対して出力する。本ステップに制御が移ってくる前提条件は、ステップS106において、閾値超えが所定時間継続しない箇所がないと判断されることである。言い換えれば、本ステップに制御が移ってくる時点では、閾値超えをしている箇所(時間帯)は、すべて、イベントであると認定される個所である。つまり、イベント検出部14は、閾値超えをしている箇所の時刻(時間帯を代表する時刻)とその時刻に対応付けられた時系列データとのペアのリストを、イベントリスト出力部15に対して渡す。そして、イベントリスト出力部15は、それらの時刻のデータと、それらの時刻に関連付けられた時系列データ(発言数のカウント)とを、外部に出力する。そして、本ステップの処理が終了すると、イベント検出装置1は、このフローチャート全体の処理を終了する。
【0048】
図6は、除去処理部144による詳細な処理の手順を示すフローチャートである。同図に示す処理は、図5に示した処理手順の中のステップS107の部分の処理である。以下、このフローチャートに沿って、継続時間の短いイベントを除去する処理を説明する。
【0049】
まずステップS201において、イベント検出部14内の除去処理部144は、継続時間の短いイベント候補のリストのデータを取得する。このデータは、継続時間判定部143によって供給されるものであり、既に述べたとおり、残差の絶対値が閾値ethを超えている時間帯であって、且つそのような閾値超えの継続している時間が所定時間未満であるような時間帯のリストである。具体的には、除去処理部144は、本ステップにおいて、該当する時間帯を代表する時刻と、当該時間帯における発言数の値とのペアのリストを取得する。
【0050】
次にステップS202において、除去処理部144は、取得したデータ内に含まれる各々のイベント候補について、発言データ1件ごとの寄与度を求める。ここで、式(1)や式(2)で表されるモデルと実測値(ツイート数)の2乗誤差の総和に寄与する度合いを寄与度という。つまり寄与度とは、除去すべき残差(イベントとは認定されない短時間の残差)を有する各時間帯について、その時間帯における発言を1件減少させたときに、時系列データ全体として、2乗誤差の総量が小さくなる度合である。除去処理部144が対象としている各時間帯の残差への寄与度を求めるためには、実際に発言件数を上記のように減少させてから、再度、自己回帰モデル適用部13に自己回帰モデルの適用の処理を行ってみて、除去すべき残差の絶対値の総量がどれだけ減るかを算出する。そして、寄与度の最も大きい発言データを選出する。
なお、上述した処理において、2乗誤差の総和とは、対象としているすべての時間帯(閾値超えしているがイベントではない時間帯)についての総和である。
【0051】
次にステップS203において、除去処理部144は、は、寄与度が最も大きい発言データ(ステップS202で選出した通り)について、1件減少させる。イベントとは認定されない時間帯の発言において、イベントとみなされる量(2乗誤差の総和)に寄与する度合いが大きい発言を除去するために、この処理がなされる。
【0052】
以上、図5および図6を参照しながら説明したように、本実施形態によるイベント検出装置1は、予めトピックと発言種別を分類し、純粋状態の発言データとしてから、ARモデルまたはARMAモデルを適用する。また、イベント検出装置1は、ARモデルやARMAモデルを適用したときの残差(の絶対値)が所定の閾値を超える時間帯をイベント候補として認定する。また、イベント検出装置1は、認定されたイベント候補の継続時間が長いか短いかに応じて、それが検出すべき真のイベントであるか、除去すべきノイズであるかを判別する。また、イベント検出装置1は、除去すべきノイズとして認定されたイベント候補の時間帯について、そのノイズを除去する。
【0053】
本実施形態では、予めトピックと発言種別を分類し、特定のトピック且つ発言種別のデータ(純粋状態発言データ)のみを抽出してから時系列の発言数のデータを生成することにより、複数のモデルが複合した状態の時系列データではなく、単一のモデルの状態の時系列データを得ることができる。そのような、単一のモデルによる時系列データ、つまり良好な性質の時系列データに、ARモデルやARMAモデルを適用するため、モデル化の誤差を減らすことが可能となる。つまり、モデルが想定する理想的な状態に近い時系列データを処理対象としてイベント検出することができる。仮に、2つのトピックが同時に進行している状況で、それらのトピックを分離せずに単一のモデルを適用した場合には、そのことによる誤差が生じてしまう。
【0054】
また、本実施形態では、トピックの分類と同様に、発言種別(ある事象等に対して、肯定的か、否定的か。また、支持するか、不支持か、など。)を分類し、発言データを発言種別で分離してから発言件数の時系列のデータを生成するため、上記のトピックの分類と同様に、より精度の高い分析およびより精度の高いイベント検出をすることが可能となる。
【0055】
従来技術では、上記のモデル化の誤差が大きいことなどの理由により、ARモデルやARMAモデルが適用されていなかった。本実施形態では、上記のように、特定のトピック且つ発言種別のデータのみを抽出してから時系列の発言数のデータを生成するため、ARモデルやARMAモデルを良好に適用することが可能となる。
【0056】
また、本実施形態では、ARモデルやARMAモデルを適用するため、単純にあらかじめ定められた閾値を超えるタイミングをイベントとして認定するのではなく、ARモデルやARMAモデルを適用したときの残差(の絶対値)が所定の閾値を超えるタイミング(時間帯)をイベント候補として認定している。これにより、より精度の良いイベント検出を行うことが可能となる。
【0057】
また、本実施形態では、残差(の絶対値)が所定の閾値を超えている時間帯(イベント候補)の継続時間が長いか短いかに応じて、真のイベントであるか、ノイズとみなすべき異常値であるかを判別する。言い換えれば、残差がバーストとなっている時間帯、即ち持続時間の長いイベント候補の時間帯がイベントと認定される。また逆に、バーストではない残差、即ち持続時間の短いイベント候補の時間帯はノイズとして認定される。これにより、一時的な異常なノイズをイベントとして検出してしまうことを防ぐことができる。
【0058】
また、本実施形態では、ノイズとして認定されたイベント候補の時間帯について、そのノイズを除去する。具体的には、ノイズへの寄与度が大きい順に、発言を除去した場合と同等のデータ処理を行い、ノイズ(継続時間の短いイベント候補)がなくなるまで、そのような除去を繰り返す。これにより、モデルによく合致する結果を得ることができる。
【0059】
以上、述べたように、本実施形態では、時系列モデルのパラメーターの推定精度が向上するために、モデルで説明可能な部分の残差(モデルと、実際の時系列データとのずれ)が減少する効果を得ることが期待される。この推定精度の向上によって残差が減少する量が時間帯に依らずに一定であるとすると、残差のピークがより明確に表れることとなる。また、この推定精度の向上によって残差が減少する量が厳密に一定とは言えない場合にも、乗算性ノイズ以外の残差が減少すれば、残差のピーク(乗算性ノイズのピーク)がより明確に表れることとなる。その結果、自己相関では説明できない部分の検出精度が向上するという効果が得られる。これにより、精度よく発言についてのイベントが検出される。つまり、そのようなイベントに対応した、社会情勢の変化や、事件・事故等を検出するためにイベント検出装置1を用いることができ、しかもその検出精度を向上させることができる。
【0060】
なお、上述した実施形態におけるイベント検出装置の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0061】
以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
【0062】
(変形例1) 例えば、上記の実施形態では、残差が正・負両方の場合について、残差の絶対値が閾値を超えたとき(|ε| > eth)に、イベント候補として検出するようにしたが、これを変えて、残差が正で、且つその残差が閾値を超えたとき(ε > eth)のみに、イベント候補として検出するようにしても良い。この変形例を実施した場合には、イベント検出装置1は、残差が正であるような時間帯のイベントのみを検出し、残差が負であるような時間帯のイベントを検出しないようになる。目的に応じて、そのような検出のしかたが望まれる場合には、この変形例が好ましい。
【0063】
(変形例2) 上記の実施形態では、イベント検出装置1は、図1に示した構成を有していた。この変形例2では、イベント検出装置は、図1に示した構成のうち、発言データ取得部10と、抽出部11と、系列データ生成部12とを含まない。そして、イベント検出装置は、自己回帰モデル適用部13と、イベント検出部14と、イベントリスト出力部15とを含む。この場合、系列データの生成までは、外部の別の装置で行い、生成された系列データを自己回帰モデル適用部13が読み込んで、処理を行う。
【0064】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲において、異なる設計としても良い。
【産業上の利用可能性】
【0065】
本発明は、社会の分析等に利用することができる。本発明は、例えば、社会情勢の変化や、突発的な事故・事件や、インターネットを媒介とした特定の情報の急激な広まりなどを、検出するために利用することができる。放送事業では、番組制作の企画に利用したり、報道取材のきっかけとして利用したりすることができる。政府等の公共機関にとっては、社会政策の企画・立案に利用することができる。
【符号の説明】
【0066】
1 イベント検出装置
10 発言データ取得部
11 抽出部
12 系列データ生成部
13 自己回帰モデル適用部
14 イベント検出部
15 イベントリスト出力部
141 残差時系列データ取得部
142 イベント候補時刻検出部
143 継続時間判定部
144 除去処理部
145 検出結果出力部
図1
図2
図3
図4
図5
図6