特許6876379 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧 ▶ 東芝ソリューション株式会社の特許一覧

特許6876379行動分析装置およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6876379

(24)【登録日】2021年4月28日

(45)【発行日】2021年5月26日

(54)【発明の名称】行動分析装置およびプログラム

(51)【国際特許分類】

G06Q 10/06 20120101AFI20210517BHJP

G08B 25/04 20060101ALI20210517BHJP

G10L 15/10 20060101ALI20210517BHJP

G06T 7/20 20170101ALI20210517BHJP

【ＦＩ】

G06Q10/06

G08B25/04 K

G10L15/10 500Z

G06T7/20 300Z

【請求項の数】4

【全頁数】16

(21)【出願番号】特願2016-99019(P2016-99019)

(22)【出願日】2016年5月17日

(65)【公開番号】特開2017-207877(P2017-207877A)

(43)【公開日】2017年11月24日

【審査請求日】2019年4月16日

【前置審査】

(73)【特許権者】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(73)【特許権者】

【識別番号】301063496

【氏名又は名称】東芝デジタルソリューションズ株式会社

(74)【代理人】

【識別番号】100111121

【弁理士】

【氏名又は名称】原拓実

(72)【発明者】

【氏名】田中康成

(72)【発明者】

【氏名】倉又和大

(72)【発明者】

【氏名】鈴木優

(72)【発明者】

【氏名】河村聡典

(72)【発明者】

【氏名】浅野純太

【審査官】松田岳士

(56)【参考文献】

【文献】特開２００６−０９２３９６（ＪＰ，Ａ）

【文献】特開２０１０−１２８５９４（ＪＰ，Ａ）

【文献】特開２００９−２４６７９９（ＪＰ，Ａ）

【文献】特開２０１３−１３１１５３（ＪＰ，Ａ）

【文献】特開２００８−１６５０９７（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｑ１０／００−９９／００

Ｇ０６Ｔ７／００− ７／２０

Ｇ０８Ｂ２３／００−３１／００

Ｇ１０Ｌ１５／００−１７／２６

(57)【特許請求の範囲】

【請求項1】

映像を取得する映像取得部と、
前記映像取得部が取得した映像に映る人を解析して映像パターンを検出する映像解析部
と、
音声を取得する音声取得部と、
前記音声取得部が取得した音声に含まれる人の声を解析して音声パターンを検出する音
声解析部と、
前記映像解析部によって検出された前記映像パターンと前記音声解析部によって検出さ
れた前記音声パターンとに基づいて、人の行動に関する特定の事象を検出する総合解析部
と、
前記総合解析部によって検出された前記事象に関する情報を出力する情報出力部と、
を備え、
前記総合解析部は、前記映像解析部によって検出された前記映像パターンの条件と前記音
声解析部によって検出された前記音声パターンの条件に基づいて事象を検出するルールを
記憶する検出ルール記憶部を備え、前記検出ルール記憶部から読み出される前記ルールを
参照することにより、前記映像パターンと前記音声パターンとに基づいて前記事象を検出
するものであり、
前記総合解析部は、
一時点において検出された前記映像パターンと前記音声パターンに基づいて前記事象を
検出する一時パターン検出部と、
少なくとも、複数の時点に関して前記一時パターン検出部によって検出された前記事象
に基づいて、前記複数の時点に渡る事象を検出する長期パターン検出部と、
を備える行動分析装置。

【請求項2】

映像を取得する映像取得部と、
前記映像取得部が取得した映像に映る人を解析して映像パターンを検出する映像解析部
と、
音声を取得する音声取得部と、
前記音声取得部が取得した音声に含まれる人の声を解析して音声パターンを検出する音
声解析部と、
前記映像解析部によって検出された前記映像パターンと前記音声解析部によって検出さ
れた前記音声パターンとに基づいて、人の行動に関する特定の事象を検出する総合解析部
と、
前記総合解析部によって検出された前記事象に関する情報を出力する情報出力部と、
映像および音声に関する個人特徴を記憶する個人特徴記憶部と、
を備え、
前記映像解析部は、前記個人特徴記憶部から読み出す映像に関する個人特徴に基づいて
、映像に映る人の個人識別処理を行い、
前記音声解析部は、前記個人特徴記憶部から読み出す音声に関する個人特徴に基づいて
、音声に含まれる人の声の個人識別処理を行い、
前記情報出力部は、前記事象に関して前記映像解析部または前記音声解析部の少なくと
もいずれか一方によって識別された個人識別の情報を含んだ、当該事象に関する情報を出
力するものであり、
前記映像解析部は、記憶媒体に記憶された、施設におけるスケジュール情報と、所定の
場所における個人の座席表情報とを読み出すとともに、前記スケジュール情報によって定
められる所定のタイミングにおける映像に基づき、前記座席表情報によって定められまた
は推定される個人の識別情報に対応する個人ごとの視覚的特徴を算出し、算出された前記
視覚的特徴によって、前記個人特徴記憶部に記憶されている前記映像に関する個人特徴を
更新する、
行動分析装置。

【請求項3】

前記行動分析装置は集団で利用される施設に設置されることを特徴とする請求項１、２の
いずれか一項に記載の行動分析装置。

【請求項4】

コンピューターを、
請求項１から３までのいずれか一項に記載の行動分析装置として機能させるためのプロ
グラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、行動分析装置およびプログラムに関する。

【背景技術】

【0002】

施設等における人間関係のトラブルを防止するため、あるいは解決するためには、人間の行動における特定の事象あるいは兆候を早期に発見することが有効であると考えられる。
従来技術において、家庭内暴力や、虐待や、いじめを未然に防ぐために、通信機器よる通報を容易に行えるシステムを提供しようとするものがある。同システムでは、音声に基づく状況分析をすることにより、危険度や異常度を判断する。また、幼児や高齢者等が文字を書くことが困難な場合に、音声認識を行って文字に変換する技術が提案されている。しかしながら、音声による分析だけでは状況の把握が不十分である可能性があった。
また、従来技術において、スマートフォン等の個人用端末装置に交友状況プログラムをインストールしておき、ＳＮＳサイト等における友人数の増減に基づいて交友状況の変化を検知する技術が存在する。しかしながら、ＳＮＳサイトにおける友人数の増減の情報は、日々のきめ細かな人の行動までを表すには不十分である場合があった。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２００３−３４６２５６号公報

【特許文献2】特開２０１５−２２５５４０号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

本発明が解決しようとする課題は、いじめなどといった問題に関する事象やその兆候の情報を網羅的に把握することができる行動分析装置およびプログラムを提供することである。

【課題を解決するための手段】

【0005】

実施形態の行動分析装置は、映像取得部と、映像解析部と、音声取得部と、音声解析部と、総合解析部と、情報出力部とを持つ。映像取得部は、映像を取得する。映像解析部は、前記映像取得部が取得した映像に映る人を解析して映像パターンを検出する。音声取得部は、音声を取得する。音声解析部は、前記音声取得部が取得した音声に含まれる人の声を解析して音声パターンを検出する。総合解析部は、前記映像解析部によって検出された前記映像パターンと前記音声解析部によって検出された前記音声パターンとに基づいて、人の行動に関する特定の事象を検出する。情報出力部は、前記総合解析部によって検出された前記事象に関する情報を出力する。

【図面の簡単な説明】

【0006】

【図1】第１の実施形態の行動分析装置を適用したシステム構成例を示す図。

【図2】第１の実施形態の行動分析装置の概略機能構成を示すブロック図。

【図3】第１の実施形態の映像解析部が解析した結果の例を示す概略図。

【図4】第１の実施形態の映像解析部が解析した結果の例を示す概略図。

【図5】第１の実施形態の映像解析部が解析した結果の例を示す概略図。

【図6】第１の実施形態の総合解析部の内部の機能構成を示すブロック図。

【図7】第１の実施形態の兆候検出ルール記憶部が記憶するルールの例を示す概略図。

【図8】第１の実施形態の行動分析装置におけるユーザーの権限を設定するための権限設定テーブルの構成を示す概略図。

【図9】第１の実施形態の情報出力部が出力する情報の一例を示す概略図。

【発明を実施するための形態】

【0007】

以下、実施形態の行動分析装置およびプログラムを、図面を参照して説明する。

【0008】

図１は、本実施形態の行動分析装置を適用したシステム構成例を示す図であり、学校施設において本実施形態の行動分析装置を利用した例を示している。図示する例では、行動分析装置は学校施設に設置されている。なお、行動分析装置は、学校に限らず、例えば、幼稚園あるいは保育園等や、介護施設や、病院や、役所等の公的機関や、店舗や企業等、集団で利用される施設に設置され得る。行動分析装置は、学校内の教室に設けられたカメラ８２で取得される映像や、マイクロフォン８３で取得される音声を用いて分析する。なお、施設内（学校内）の通信手段としては例えば校内イントラネットが利用される。そして、行動分析装置は、行動分析の結果として、行動評価を推定する。図示する例では、行動分析装置は、いじめ発生の程度を推定する。具体的には、例えば、行動分析装置は、ある教室におけるいじめ発生の程度を「低」であると推定し、また他の教室におけるいじめ発生の程度を「高」であると推定する。また、行動分析装置は、分析結果の情報を出力する。具体的には、行動分析装置は、例えばインターネットを介して、分析結果を記載した電子メールを、先生や、生徒の保護者（親）などに送信する。また、行動分析装置は、インターネットを介して外部装置８１と情報のやり取りを行う。ここで、外部装置８１とは、例えば他の学校に設置された行動分析装置や、「学校非公式サイト」と呼ばれるウェブサイトのサーバー装置等である。なお、行動分析装置１は、インターネットを介した通信により、外部装置８１との情報のやり取りを行う。

【0009】

図２は、本実施形態の行動分析装置の概略機能構成を示すブロック図である。図示するように、行動分析装置１は、映像取得部１１と、映像蓄積部１２と、映像解析部１３と、音声取得部２１と、音声蓄積部２２と、音声解析部２３と、個人特徴記憶部３１と、総合解析部３２と、情報交換部４１と、情報出力部４２とを含んで構成される。また、行動分析装置１は、外部の複数のカメラ８２から、映像を取得する。また、行動分析装置１は、外部の複数のマイクロフォン８３から、音声を取得する。また、行動分析装置１は、通信ネットワーク等を介して、外部装置８１との間で情報を交換する。
なお、図では２台のカメラ８２のみを示しているが、設置するカメラの台数は任意であり、１台であってもよく、また３台以上であってもよい。また、図では２台のマイクロフォン８３のみを示しているが、設置するマイクロフォンの本数は任意であり、１本であってもよく、また３本以上であってもよい。なお、カメラ８２とマイクロフォン８３とは、同じ場所にペアで設置される。また、図では１台の外部装置８１のみを示しているが、行動分析装置１が情報交換する相手である外部装置は、複数であってもよい。

【0010】

なお、行動分析装置１は、電子回路を用いた情報処理装置として実現される。また、行動分析装置１が。コンピューターとプログラムとを用いて実現されるようにしてもよい。また、行動分析装置１に含まれる各機能部が情報を記憶する機能を有する場合、半導体メモリーや磁気ディスク装置等を用いた記憶手段が使用される。

【0011】

本実施形態として、図１に示すように行動分析装置１を学校等の施設に設置した場合を例に説明する。カメラ８２とマイクロフォン８３は、対として、施設内の所定の場所に設けられる。例えば、一対のカメラ８２とマイクロフォン８３が、教室や、体育館や、食堂や、施設内のその他のスペースに設けられる。カメラ８２は設置されたスペースの映像を取得する。マイクロフォン８３は設置されたスペースにおける音声を取得する。そして、行動分析装置１は、いじめなどの問題行動やその兆候を検出し、検出結果を報告することによっていじめ問題の防止を図ろうとするものである。

【0012】

以下では、行動分析装置１が有する各部の機能について説明する。

【0013】

映像取得部１１は、外部に設けられた複数のカメラ８２が撮影した映像の信号を取り込み、撮影場所や撮影時刻の情報とともに、映像蓄積部１２に書き込む。
映像蓄積部１２は、映像取得部１１が取得した映像の情報を蓄積する。映像蓄積部１２が映像を保持するために、例えば、磁気ディスク装置等の記録媒体を用いる。なお、映像蓄積部１２が保持する映像は、撮影場所や撮影時刻の情報が付加された状態で蓄積される。また、映像解析部１３によって行われる映像解析処理の結果である解析結果の情報を、映像に付加して蓄積するようにする。

【0014】

映像解析部１３は、映像蓄積部１２に蓄積されている映像を解析する処理を行う。映像解析部１３は、解析結果の情報を総合解析部３２に渡すとともに、解析対象とした映像に付加する形で映像蓄積部１２にも記録する。特に、映像解析部１３は、映像内の人を解析する。つまり、映像解析部１３は、映像取得部１１が取得した映像に映る人を解析して映像パターンを検出する。映像解析部１３が行う解析処理には様々なものがあるが、例えば、次の通りである。
映像解析部１３は、映像内に映っているものや人などを認識し、抽出する。
また、映像解析部１３は、個人特徴記憶部３１に記憶されている個人ごとの映像上の特徴に基づいて、個人の識別処理を行う。個人識別のためには、顔や服装の特徴の情報を利用する。なお、個人識別の処理自体は、既存技術を用いて十分な精度で行うことが可能である。つまり、映像解析部１３は、個人特徴記憶部３１から読み出す映像に関する個人特徴に基づいて、映像に映る人の個人識別処理を行う。
また、映像解析部１３は、映像内に映っている複数の人の相対的な位置関係を抽出し、人の配置に関する特定のパターンを抽出する。人の配置のパターンとは、例えば、ある人とある人との間の距離が近いあるいは遠いといったパターンや、複数の人が他の人を取り囲んでいるといったパターンや、ある人が人の集まり（クラスター）に属しているか属していないか、などといったパターンである。
また、映像解析部１３は、映像内に映っている人の行動を解析する。人の行動とは、例えば、人が静止しているか移動しているか、人が真っ直ぐ移動しているか曲線的に移動しているか、人の移動の速さが速いか遅いか、といったものである。また、映像解析部１３は、人の手や足や頭の動きの軌跡を解析する。また、映像解析部１３は、それらの移動や手・足・頭などの動きの組み合わせから、行動種別を解析する。ここで、組み合わせによって解析される行動種別とは、例えば、人が他の人を殴っているとか、蹴っているとか、その他の攻撃を加えているなどといった行動である。

【0015】

音声取得部２１は、外部に設けられた複数のマイクロフォン８３が取得した音声の信号を取り込み、集音場所や時刻の情報とともに音声蓄積部２２に書き込む。なお、集音場所の情報は、例えば教室の番号等、マイクロフォン８３が設置された場所の情報を含む。なお、マイクロフォン８３は、マルチチャンネル（２チャンネルまたはそれ以上）の音声を取得するものであってもよい。
音声蓄積部２２は、音声取得部２１が取得した音声を蓄積する。音声蓄積部２２が音声を記録するために、例えば、磁気ディスク装置等の記録媒体を用いる。なお、音声蓄積部２２が保持する音声は、集音場所や時刻の情報が付加された状態で蓄積される。また、音声解析部２３によって行われる音声解析処理の結果である解析結果の情報を、音声に付加して蓄積するようにする。

【0016】

音声解析部２３は、音声蓄積部２２に蓄積されている音声を解析する処理を行う。音声解析部２３は、解析結果の情報を総合解析部３２に渡すとともに、解析対象とした映像に音声を付加する形で音声蓄積部２２にも記録する。特に音声解析部２３は、人の声を解析する。つまり、音声解析部２３は、音声取得部２１が取得した音声に含まれる人の声を解析して音声パターンを検出する。音声解析部２３が行う解析処理には様々なものがあるが、例えば、次の通りである。
音声解析部２３は、人による発話の部分を認識し、抽出する。なお、記録されている音声の中から人の発話を抽出する処理自体は、既存技術を用いて行うことができる。
また、集音のために用いられたマイクロフォン８３がマルチチャンネル（２チャンネルまたはそれ以上）の音声を取得するものである場合、音声解析部２３は、抽出した人の発話が行われた場所あるいは方向を特定する。なお、場所や方向は、各チャンネルにおけるその発話の音量の分布や、チャンネル間での発話の遅延を解析することなどにより特定されるものである。
また、音声解析部２３は、人の発話の音量を解析する。そして、ある発話における音量が所定の閾値を超えている場合には、特に大声で発話されたものであることを示すマークを、その発話の部分に付加する。
また、音声解析部２３は、抽出された発話の、周波数分布等の特徴により、発話者を識別する処理を行う。このとき、音声解析部２３は、音声の個人別の特徴を表す情報を、個人特徴記憶部３１から読み出して利用する。なお、音声による発話者の識別処理自体は、既存の技術を用いて行うようにする。音声による識別処理が、多数の人を完全に識別することが困難である場合にも、ある発話の発話者が誰であるかを表す尤度の情報を出力することは可能である。つまり、音声解析部２３は、個人特徴記憶部３１から読み出す音声に関する個人特徴に基づいて、音声に含まれる人の声の個人識別処理を行う。
また、音声解析部２３は、抽出された発話の部分について、不特定話者用の認識用音声モデルのデータを用いて、音声認識処理を行う。音声認識処理自体は、既存の技術により行うことができる。音声解析部２３は、音声認識処理の結果として、発話ごとの単語列のデータを出力する。このような音声認識処理を行うことにより、例えば、特定のキーワードが発話された状況を検知することができるようになる。
また、音声解析部２３は、音声に基づく感情の推定を行う。この解析は、楽しく笑う声や、嘲笑の声や、泣き声や、怒り声など、表されている感情ごとの音響的特徴のモデルを予め保持しておき、実際に取得した音声をこの感情ごとのモデルに基づいて分析することにより行える。感情の推定自体は、既存の技術を用いて行うことができる。感情を推定した結果として、音声解析部２３は、発話ごとの感情の尤度（例えば、「泣き声である尤度が９０％である」）の情報を出力する。

【0017】

個人特徴記憶部３１は、映像解析処理や音声解析処理で利用可能な、個人の特徴を記憶する。個人特徴の情報は、大別すると、視覚的情報と音響的情報に分かれる。個人特徴の情報は、映像解析部１３による個人識別処理や、音声解析部２３による個人識別処理のために用いられる。個人の視覚的特徴は、顔の特徴や、身体の特徴や、服装の特徴を含む。個人の音響的特徴は、発話における周波数分布等の特徴を含む。

【0018】

総合解析部３２は、映像解析部１３による映像の解析結果と、音声解析部２３による音声の解析結果とに基づき、人の行動に関する総合的な解析を行い、その結果を出力する。つまり、総合解析部３２は、映像解析部１３によって検出された映像パターンと音声解析部２３によって検出された音声パターンとに基づいて、人の行動に関する特定の事象を検出する。総合解析部３２の機能の詳細については、別の図を参照しながら、後で説明する。

【0019】

情報交換部４１は、インターネット等の通信回線を介して、外部装置８１との間で情報を交換する。外部装置８１は、例えば、他の施設に設置された行動分析装置である。あるいは、外部装置８１は、行動分析装置１が行う解析処理の際に使用するパラメーター等を提供するコンピューターサーバー装置である。あるいは、外部装置８１は、行動分析装置１によって解析された結果の情報（人の行動に関する事象や兆候の情報等）を収集するコンピューターサーバー装置である。
なお、情報交換部４１が外部からパラメーター等のデータを取得し、そのデータを総合解析部３２や映像解析部１３や音声解析部２３が使用することにより、解析精度が向上する。また、情報交換部４１が、外部装置８１に対して同様のデータを提供することにより、他の行動分析装置における解析精度が向上する。

【0020】

情報出力部４２は、総合解析部３２が検出した事象あるいは兆候を、報告のために出力する機能を有する。情報出力部４２は、例えば、行動分析装置１のユーザーによって読まれることを目的とした、紙の報告書や、電子メールや、ＳＮＳのメッセージを出力する。なお、ＳＮＳとは、ソーシャル・ネットワーキング・サービス（social networking service）の略である。つまり、情報出力部４２は、総合解析部３２によって検出された事象に関する情報を出力する。
なお、「事象」や「兆候」を総称して「事象」と呼ぶ場合がある。

【0021】

外部装置８１は、行動分析装置１が情報交換を行う相手の装置である。具体的には、外部装置８１は、上でも述べたように、他の施設等に設置されている別の行動分析装置や、あるいは、行動分析装置１が入出力する情報を蓄積したり提供したりするコンピューターサーバー装置である。また、外部装置８１は、ウェブの形式で情報を提供するウェブサーバー装置（例えば、いわゆる、学校非公式サイトのサーバー）であってもよい。

【0022】

カメラ８２は、映像を撮影するためのビデオカメラである。なお、カメラ８２が、静止画を撮影するためのスチルカメラであってもよい。
マイクロフォン８３は、設置されている場所における音を集音して、電気信号として出力する音声信号取得手段である。
既に述べたように、カメラ８２とマイクロフォン８３とは原則的にペアで、所定の場所に設定される。

【0023】

次に、映像解析部１３による映像解析の例について説明する。
図３は、１台のカメラ８２が撮影した映像を、映像解析部１３が解析した結果の例を示す概略図である。同図に示す解析処理は、人の認識と個人の識別である。本例は、教室に設置されたカメラ８２が撮影した教室の映像の解析結果である。映像解析部１３は、映像に含まれる人を認識する。その結果、映像解析部１３は、映像内に含まれる人に、Ａ，Ｂ，Ｃなどといったラベルを付与する。そして、映像内において人が映っている場所に、それらのラベルを付ける。また、映像解析部１３は、個人特徴記憶部３１から読み出した個人特徴の情報に基づいて、個人を識別する処理を行う。その結果、映像解析部１３は、ラベルと、認識結果の人を識別する情報（例えば、氏名や、個人ＩＤなど）とを関連付ける。同図に示す例では、教室内で人が認識された箇所にラベルが表示されている。また、映像枠の外に、ラベル（Ａ，Ｂ，Ｃ等）と個人識別情報（この例では、氏名）とが対応付けて表示されている。なお、映像解析部１３は、個人識別情報を映像内の位置に関連付ける形で、保存することができる。
なお、カメラの設置場所は、教室に限られない。教室以外の必要なスペースを映すようにカメラを設置し、映像内の人の認識と個人の識別を行うようにすることもできる。

【0024】

図４は、１台のカメラ８２が撮影した映像を、映像解析部１３が解析した結果の例を示す概略図である。同図に示す解析処理は、映像内の人と人との間の距離の把握である。本例は、教室に設置されたカメラ８２が撮影した教室の映像の解析結果である。映像解析部１３は、映像に含まれる人を認識するとともに、各個人を識別する。その結果、映像解析部１３は、映像内に含まれる人に、Ａ，Ｂなどといったラベルを付与するとともに、ラベルと個人識別情報（例えば、氏名）との対応付けを行う。そして、映像解析部１３は、ＡおよびＢとラベル付けされた人物間の距離を計測する。なお、映像解析部１３は、算出された距離の情報を、この映像に付加して保存することができる。
映像内における個人間の距離の算出は、予め与えられたパラメーターに基づいて測量の手法を使って行われる。ここで、パラメーターとは、撮影対象の教室の平面図や、カメラ８２の設置場所（平面視したときの位置と、床面からの高さ）や、カメラの向き（平面における向きと、俯角（または仰角））や、カメラの撮影画角である。測量の手法による距離の算出自体は、既存の技術を用いて行うことができる。また、距離算出の際、映像に含まれる特定の被写体（教室内に固定的に設置された物や、画像マーカーなど）を用いて、被写体の位置の補正を適宜行う様にしてもよい。
なお、図示する例では、画面内に２人の人物だけが映っている状況を示しているが、映像内の人数に関する制約はない。映像内の任意の２人の間の距離を計測することができる。
また、カメラの設置場所は、教室に限られない。教室以外の必要なスペースを映すようにカメラを設置し、映像内に映る人と人の間の距離を算出するようにしてもよい。

【0025】

図５は、１台のカメラ８２が撮影した映像を、映像解析部１３が解析した結果の例を示す概略図である。同図に示す解析処理は、行動パターンの検出である。本例は、教室に設置されたカメラ８２が撮影した教室の映像の解析結果である。映像解析部１３は、映像に含まれる人を認識するとともに、各個人を識別する。その結果、映像解析部１３は、映像内の人に、Ａ，Ｂ，Ｃ，Ｄなどといったラベルを付与するとともに、ラベルと個人識別情報（例えば、氏名）との対応付けを行う。そして、映像解析部１３は、予め記憶している行動パターンを参照して、解析対象の映像内に該当する行動パターンが含まれているかどうかを判定する。予め記憶されている行動パターンは、特定の人の動き方のパターンや、複数の人の相対的な位置関係のパターンや、それらの組み合わせのパターンを含む。なお、人の動きのパターンは、人の移動の軌跡や、人の手足などの動きの軌跡を表すものである。図示する例では、ＡとＢとＣがＤを取り囲むというパターンが検出される。なお、映像解析部１３は、検出された行動パターンの情報をこの映像に付加して保存することができる。

【0026】

図６は、総合解析部３２の内部の機能構成を示すブロック図である。図示するように、総合解析部３２は、兆候検出ルール記憶部３２１と、一時パターン検出部３２２と、長期パターン検出部３２３と、検出結果蓄積部３２４とを含んで構成される。

【0027】

兆候検出ルール記憶部３２１は、映像解析結果または音声解析結果に基づき、あるいはそれら両方に基づき、事象や兆候を検出するためのルールを記憶するものである。つまり、兆候検出ルール記憶部３２１は、映像解析部１３によって検出された映像パターンの条件と音声解析部２３によって検出された音声パターンの条件に基づいて事象を検出するルールを記憶するものである。
なお、兆候検出ルール記憶部３２１のデータの構成例については、後で説明する。

【0028】

一時パターン検出部３２２は、映像解析部１３や音声解析部２３から渡される映像や音声の解析結果に基づいて、一時的なパターンを検出する機能を有する。一時パターン検出部３２２は、その検出結果を検出結果蓄積部３２４に書き込む。なお、一時パターン検出部３２２は、兆候検出ルール記憶部３２１に記憶されているルールに基づいて一時的なパターンを検出する。つまり、一時パターン検出部３２２は、外部から取得したパターンが兆候検出ルール記憶部３２１に記憶されている条件にマッチしたときに、その事象を一時的なパターンとして検出する。つまり、一時パターン検出部３２２は、一時点において検出された映像パターンと音声パターンに基づいて事象を検出する。
なお、一時パターン検出部３２２は、検出した結果を、総合解析部３２の外部にも提供する。

【0029】

長期パターン検出部３２３は、検出結果蓄積部３２４に蓄積されている所定のパターンの時系列に基づいて、長期的なパターンを検出する機能を有する。長期パターン検出部３２３は、その検出結果を検出結果蓄積部３２４に書き込む。長期パターン検出部３２３は、自らが検出結果蓄積部３２４に書き込んだ検出結果に基づいて、さらなる長期的なパターンを検出する場合がある。また、長期パターン検出部３２３が長期的なパターンを検出する際に、その時点での映像解析結果を映像解析部１３から受け取って利用してもよい。また、長期パターン検出部３２３が長期的なパターンを検出する際に、その時点での音声解析結果を音声解析部２３から受け取って利用してもよい。
なお、長期パターン検出部３２３は、兆候検出ルール記憶部３２１に記憶されているルールに基づいて長期的なパターンを検出する。つまり、長期パターン検出部３２３は、外部から取得したパターンや、検出結果蓄積部３２４に蓄積されている過去の検出結果が兆候検出ルール記憶部３２１に記憶されている条件にマッチしたときに、その事象を一時的なパターンとして検出する。つまり、長期パターン検出部３２３は、少なくとも、複数の時点に関して一時パターン検出部３２２によって検出された事象に基づいて、複数の時点に渡る事象を検出する。
なお、長期パターン検出部３２３は、検出した結果を、総合解析部３２の外部にも提供する。

【0030】

検出結果蓄積部３２４は、一時パターン検出部３２２や長期パターン検出部３２３によって検出されたパターン（事象や兆候等）を、記憶して蓄積する。

【0031】

図７は、兆候検出ルール記憶部３２１が記憶するルールの例を示す概略図である。図示するように、兆候検出ルール記憶部３２１は、表形式の構造のデータを記憶する。この表は、番号、事象、映像解析手法、音声解析手法の各項目を有する。番号は、ルールごとに付与される通し番号である。事象の欄は、検出対象である兆候の名称を格納する。映像解析手法の欄は、映像解析の手法によって検出されるパターンを格納する。音声解析手法の欄は、音声解析の手法によって検出されるパターンを格納する。これら映像解析手法または音声解析手法の欄に記載されているパターンがマッチしたときに、事象の欄に記載されている事象（または兆候）が起こったことが検知される。なお、ルールとして、音声解析手法によるパターンと映像解析手法によるパターンの両方が記載されている場合には、両方のパターンがマッチしたときにその事象（または兆候）が起こったことが検知される。

【0032】

なお、一時パターン検出部３２２や長期パターン検出部３２３は、兆候検出ルール記憶部３２１に記憶されているルールに基づいて、所定の事象（または兆候）が起こったか否かの二値の判断をするだけでなく、その尤度を判断結果として出力してもよい。
つまり、ある事象（または兆候）の前提条件が、成立したか否かの二値だけによる判断ではなく、前提条件が成立した程度に応じた尤度を、判断結果としてもよい。
また、複数の前提条件が規定されている場合、すべての前提条件が成立した場合にのみその事象（または兆候）が起こったことを判断するのではなく、複数の前提条件のうちのいくつが成立したかによって、その事象（または兆候）の尤度を計算し出力してもよい。なお、このとき、複数の前提条件のそれぞれに重みを予め付与しておいて、尤度計算に用いてもよい。

【0033】

図示する例における１番のルールは、「仲間はずれ、無視」に関するルールである。このルールにおける映像解析手法による条件は、「休み時間あるいは昼食時に、高い頻度で、特定生徒がグループから孤立」というパターンである。また、このルールには音声解析手法による条件はない。
なお、総合解析部３２は、映像や音声に関連付けられた時刻情報と当該施設におけるスケジュール情報（例えば、学校での時間割の情報）とを参照することにより、解析対象の映像や音声が、例えば「休み時間あるいは昼食時」のものであるかどうかを判断する。
また、このルールに規定されている「高い頻度」は、別途定められる頻度に関する閾値に基づいて判断される。

【0034】

図示する例における２番のルールは、「身体への攻撃」に関するルールである。このルールにおける映像解析手法による条件は、「激しい動き、手・腕や足・脚による相手への攻撃」というパターンである。また、このルールにおける音声解析手法による条件は、「所定量以上の大声、特定キーワードの検知」というパターンである。
なお、総合解析部３２は、映像に映っている人の単位時間当たりの動きの量が、一時的にでも、所定の閾値を超えるか否かによって「激しい動き」を検知する。

【0035】

図示する例における３番のルールは、「嫌がらせ」に関するルールである。このルールにおける映像解析手法による条件は、「顔の表情が、泣いているあるいは困っている」というパターンである。また、このルールにおける音声解析手法による条件は、「嘲笑、泣き声、特定のキーワードの検知」というパターンである。
映像解析部１３は、感情種別（泣き、笑い、怒り、困惑等）ごとに顔の表情の特徴量を予め保持しておき、映像に映る人の顔の特徴が、その感情種別にマッチする度合いに応じて、感情種別ごとの尤度を出力する。
そして、総合解析部３２は、感情種別の尤度に応じて、このルールにマッチする度合いを計算する。

【0036】

ここで、総合解析部３２が有する長期パターン検出部３２３の意義について補足的に説明する。人の行動を、映像や音声で分析する場合、必ずしもその一時点の表層的特徴が、その人の感情に正確に対応しているとは限らない。例えば、上記の１番のルールにも「休み時間あるいは昼食時に、高い頻度で、特定生徒がグループから孤立」にも「高い頻度で」という条件が含まれている。これは、一時的な行動だけから把握できる意味だけではなく、長期的且つ継続的な行動パターンの傾向から読み取れる意味が重要であることを表している。
したがって、本実施形態による兆候検出ルール記憶部３２１は、一時点のパターンのみにヒットする条件ではなく、長期間を通したパターンにヒットする条件をルールとして記憶できるようにしている。また、本実施形態は、長期パターン検出部３２３を設けることにより、過去の検出結果を参照しながら兆候を発見できるようにしている。
このように、本実施形態では、映像や音声を基にした長期の傾向によって、行動を分析することが可能となっている。

【0037】

図８は、行動分析装置１におけるユーザーの権限を設定するための権限設定テーブルの構成を示す概略図である。権限設定テーブルは、行動分析装置１内の記憶手段内の所定の領域に設けられる。図示するように、権限設定テーブルは、ユーザーＩＤと、氏名と、役職と、担当クラスと、アクセス権限の各項目を含む。なお、アクセス権限は、全校データへのアクセス権限と、担当クラスデータへのアクセス権限との情報を含む。当事者のプライバシー等を考慮して、行動分析装置１は、ユーザーに応じてデータへのアクセスを制限する。担当クラスデータとは、そのユーザーが担当しているクラスのデータである。全校データとは、各クラスのデータを含む、その学校全体のデータである。そして、図中において、アクセス権限における「〇」は、ユーザーがそのデータへのアクセス権限を有していることを意味する。また、アクセス権限における「−」は、ユーザーがそのデータへのアクセス権限を有していないことを意味する。

【0038】

図示する例では、役職が「校長」、「副校長」、「教頭」である場合、そのユーザーは全校データへのアクセス権限を有している。また、役職が「教諭（担任）」である場合、そのユーザーは、全校データへのアクセス権限を有さず、自己が担当するクラスのデータのみへのアクセス権限を有している。

【0039】

ユーザーは、付与されたアクセス権限の範囲内においてのみ、検出結果のデータを参照することができる。また、ユーザーは、付与されたアクセス権限の範囲内においてのみ、映像のファイルや音声のファイルを再生させることができる。行動分析装置１は、サインインしているユーザーの権限に応じて、許される情報のみをそのユーザーの端末装置に対して送信するようにする。

【0040】

図９は、情報出力部４２が出力する情報の一例を示す概略図である。図示する出力情報は、総合解析部３２による解析結果の一つである。図示する出力情報は、宛先と、種別と、発生日時と、緊急度と、事象サマリーと、映像リンクの各項目の情報を含んでいる。なお、この出力情報は、学校内のあるクラスの教室の映像と音声を分析した結果、検出された事象に関するものである。

【0041】

宛先は、この出力情報の宛先である。例えば、電子メールでこの情報が出力される場合、宛先として適切なユーザーのメールアドレスが記載される。図示する例では、宛先として「Ｅ木教諭」が記載されている。このユーザーは、事象が検出されたクラスの担任教諭である。

【0042】

種別は、検出された事象（または兆候）の種別を表す。種別の名称は、兆候検出ルール記憶部３２１内に記憶されているものである。図示する例では、種別は「身体への攻撃」である。
発生日時は、検出された事象（または兆候）の映像や音声に関連付けられた時刻である。長期の事象（または兆候）が検出された場合には、発生日時欄には幅のある期間が記載される。

【0043】

緊急度は、この出力情報の緊急度を表す区別の情報である。例えば、緊急度は、「緊急」と「推定」と「注意」の３つの区別で分類される。そして、この３つの区別においては、緊急度の大きさは、「緊急」＞「推定」＞「注意」の順である。例えば、「緊急」は、緊急な対応を要する（いじめ等の）行動が推定されていることを表す。また、「推定」は、緊急な対応を必要としない（いじめ等の）行動が推定されていることを表す。また、「注意」は、推定するまでには至らないが注意を要する事項、あるいは同種の注意が２日以上連続した場合には推定となる事象（または兆候）が検知されていることを表す。

【0044】

事象サマリーは、検出された事象の具体的な説明文や、その事象に関わる当事者（生徒）の氏名等の識別情報を含んだサマリー情報である。当事者の識別情報は、映像解析部１３による映像の個人識別処理や音声解析部２３による音声の個人識別処理によって得られたものである。これらの個人識別情報は、検出された事象（または兆候）に紐づけられて記憶されているものである。つまり、情報出力部４２は、事象に関して映像解析部１３または音声解析部２３の少なくともいずれか一方によって識別された個人識別の情報を含んだ事象サマリー情報を出力する。
映像リンクは、検出された事象の判断の基になった映像や音声の該当箇所を再生するためのリンク情報である。

【0045】

本実施形態によれば、音声だけでなく、映像と音声に基づく事象を、幅広く把握することができ、問題行動（いじめなど）の防止あるいは早期発見につながる。

【0046】

また、本実施形態によれば、一時点において検出された映像パターンと音声パターンに基づいて事象を検出する一時パターン検出部と、少なくとも、複数の時点に関して一時パターン検出部によって検出された事象に基づいて、複数の時点に渡る事象を検出する長期パターン検出部と、を有するため、複数の時点に渡る事象を検出することができる。

【0047】

上記実施形態では、個人特徴記憶部３１は、個人の視覚的特徴として、顔の特徴や、身体の特徴や、服装の特徴を含んだ特徴を記憶することとした。本変形例では、所定のタイミングで（例えば、学校における日々の最初の授業の開始時に）、この個人の視覚的特徴を更新するようにする。具体的には、施設におけるスケジュール情報（例えば、学校の時間割情報）にしたがって、日々（施設の休業日を除く）の所定の時刻に、映像取得部１１が取得して映像蓄積部１２に格納された情報に基づいて、映像解析部１３が画像特徴を算出する。このとき、映像解析部１３は、予め記憶された座席表の情報を参照することにより、映像内の位置と個人との関係を推定する。そして、映像解析部１３は、算出された特徴量を、個人特徴記憶部３１に書き込む。例えば、個人の顔の特徴が日々変わる度合いは小さいが、個人の服装（色や形）や髪型は、日によって大きく変わる可能性がある。また、個人の身体的特徴（身長や体型等）は、日々の変化度合いは小さいが、例えば半年単位で捉えた場合には大きく変わる可能性がある。本変形例によれば、所定のタイミングで個人の特徴のデータを更新するため、個人識別の精度をより一層上げることができる。
なお、座席表の情報は、識別され得る個人の配置の場所の範囲を表す情報である。あるいは、座席表の情報は、識別され得る複数の個人間の相対的な位置関係を表す情報である。

【0048】

つまり、映像解析部１３は、記憶媒体に記憶された、施設におけるスケジュール情報と、所定の場所における個人の座席表情報とを読み出す。そして、映像解析部１３は、スケジュール情報によって定められる所定のタイミングにおける映像に基づき、座席表情報によって定められまたは推定される個人の識別情報に対応する個人ごとの視覚的特徴を算出する。そして、映像解析部１３は、算出された前記視覚的特徴によって、個人特徴記憶部３１に記憶されている映像に関する個人特徴を更新する。また、座席情報の利用は個人識別の精度向上に限らず、席替えによる人間関係の変化の傾向等の把握にも利用できる。

【0049】

以上説明した少なくともひとつの実施形態によれば、映像解析部によって検出された映像パターンと音声解析部によって検出された音声パターンとに基づいて、人の行動に関する特定の事象を検出する総合解析部を持つことにより、行動における問題を防止したり、兆候を早期に発見したりすることができる。
なお、上記実施形態では、学校施設におけるカメラやマイクロフォンから取得した映像、音声に基づいた人の行動に関する特定事象の検出について、主に１つの空間（教室）を対象に説明したが、それぞれの空間（教室）における分析結果を比較することで、各クラスにおける傾向や学校全体の傾向等を把握することも可能となり、例えばクラス替えや担任配置などにも分析結果を活用することができる。
また、上記実施形態では、行動分析装置１を学校施設に適用した例で説明したが、例えば１つの施設において集団行動が行われる、幼稚園、保育園、介護施設などにも適用でき、同様に施設内における人の行動分析により、事前に問題の予兆の発見や防止することができる。

【0050】

なお、上述した実施形態の行動分析装置の少なくとも一部の機能をコンピューターで実現するようにしても良い。その場合、行動分析装置の機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

【0051】

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

【符号の説明】

【0052】

１…行動分析装置、１１…映像取得部、１２…映像蓄積部、１３…映像解析部、２１…音声取得部、２２…音声蓄積部、２３…音声解析部、３１…個人特徴記憶部、３２…総合解析部、４１…情報交換部、４２…情報出力部、８１…外部装置、８２…カメラ、８３…マイクロフォン、３２１…兆候検出ルール記憶部（検出ルール記憶部）、３２２…一時パターン検出部、３２３…長期パターン検出部、３２４…検出結果蓄積部

【図1】