IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許6997733情報処理装置、情報処理方法、及びプログラム
<>
  • 特許-情報処理装置、情報処理方法、及びプログラム 図1
  • 特許-情報処理装置、情報処理方法、及びプログラム 図2
  • 特許-情報処理装置、情報処理方法、及びプログラム 図3
  • 特許-情報処理装置、情報処理方法、及びプログラム 図4
  • 特許-情報処理装置、情報処理方法、及びプログラム 図5
  • 特許-情報処理装置、情報処理方法、及びプログラム 図6
  • 特許-情報処理装置、情報処理方法、及びプログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2021-12-21
(45)【発行日】2022-01-18
(54)【発明の名称】情報処理装置、情報処理方法、及びプログラム
(51)【国際特許分類】
   G06F 16/45 20190101AFI20220107BHJP
   G06N 99/00 20190101ALI20220107BHJP
   G10L 15/06 20130101ALI20220107BHJP
   G06F 3/01 20060101ALI20220107BHJP
【FI】
G06F16/45
G06N99/00
G10L15/06 300Z
G06F3/01 510
【請求項の数】 8
(21)【出願番号】P 2019028144
(22)【出願日】2019-02-20
(65)【公開番号】P2020135424
(43)【公開日】2020-08-31
【審査請求日】2020-12-17
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100166006
【弁理士】
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100124084
【弁理士】
【氏名又は名称】黒岩 久人
(74)【代理人】
【識別番号】100153280
【弁理士】
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】馬田 一郎
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】特開2006-279111(JP,A)
【文献】特開平11-073297(JP,A)
【文献】特開2017-123149(JP,A)
【文献】特表2019-505011(JP,A)
【文献】国際公開第2007/043679(WO,A1)
【文献】国際公開第2013/186958(WO,A1)
【文献】米国特許出願公開第2017/0127021(US,A1)
【文献】米国特許出願公開第2014/0212854(US,A1)
【文献】上嶋 勇祐、外3名,GMM-SupervectorとSVMを用いた映像からのイベント検出,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2012年02月02日,第111巻,第431号,p.195-200
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06N 20/00
G10L 15/06
G06F 3/01
(57)【特許請求の範囲】
【請求項1】
複数人でのインタラクションに関するマルチモーダルデータであって、前記インタラクションにおけるインタラクションイベントを含むデータを各モダリティから取得するデータ取得部と、
前記マルチモーダルデータのそれぞれから、異なる複数の特徴量それぞれの時間変動を抽出する特徴量抽出部と、
前記マルチモーダルデータのそれぞれに関する前記複数の特徴量それぞれの時間変動のパターンに基づいて、前記複数の特徴量の時間変動を複数の組に組分けする組分け部と、
組分けされた組を構成する特徴量の時間変動を教師データとして、マルチモーダルデータから抽出された特徴量の時間変動の組を入力したときに、入力された組が前記組分けされた組に該当する蓋然性を示す指標を出力する学習モデルを、前記複数の組それぞれについて生成する学習部と、
前記複数の学習モデルそれぞれが出力した指標を入力したときに、入力された指標に由来する前記マルチモーダルデータが前記インタラクションイベントを含むデータか否かを示す情報を出力する統合部と、
を備える情報処理装置。
【請求項2】
前記組分け部は、前記複数の特徴量の時間変動を、前記マルチモーダルデータを生成した各モダリティを横断した特徴量の時間変動の組に組分けする、
請求項1に記載の情報処理装置。
【請求項3】
前記組分け部は、前記複数の特徴量それぞれの時間変動が、あらかじめ設定された時間幅の範囲内における相関値が所定の値以上となる特徴量の時間変動を一つの組に組分けする、
請求項1又は2に記載の情報処理装置。
【請求項4】
前記組分け部は、前記複数の特徴量のうち時間変動が周期性を持つ特徴量について、当該周期に基づいて前記特徴量の時間変動を組分けする、
請求項1から3のいずれか1項に記載の情報処理装置。
【請求項5】
前記組分け部は、前記複数の特徴量のうち時間変動が周期性を持たない特徴量について、変動値の局所ピークの共起パターンに基づいて前記特徴量の時間変動を組分けする、
請求項1から4のいずれか1項に記載の情報処理装置。
【請求項6】
前記組分け部は、前記複数の特徴量のうち時間変動が周期性を持たない特徴量について、変動値の局所ピークの間隔に基づいて前記特徴量の時間変動を組分けする、
請求項1から5のいずれか1項に記載の情報処理装置。
【請求項7】
プロセッサが、
複数人でのインタラクションに関するマルチモーダルデータであって、前記インタラクションにおけるインタラクションイベントを含むデータを各モダリティから取得するステップと、
前記マルチモーダルデータのそれぞれから、異なる複数の特徴量それぞれの時間変動を抽出するステップと、
前記マルチモーダルデータのそれぞれに関する前記複数の特徴量それぞれの時間変動のパターンに基づいて、前記複数の特徴量の時間変動を複数の組に組分けするステップと、
組分けされた組を構成する特徴量の時間変動を教師データとして、マルチモーダルデータから抽出された特徴量の時間変動の組を入力したときに、入力された組が前記組分けされた組に該当する蓋然性を示す指標を出力する学習モデルを、前記複数の組それぞれについて生成するステップと、
前記複数の学習モデルそれぞれが出力した指標を入力したときに、入力された指標に由来する前記マルチモーダルデータが前記インタラクションイベントを含むデータか否かを示す情報を出力するステップと、
を実行する情報処理方法。
【請求項8】
コンピュータに、
複数人でのインタラクションに関するマルチモーダルデータであって、前記インタラクションにおけるインタラクションイベントを含むデータを各モダリティから取得する機能と、
前記マルチモーダルデータのそれぞれから、異なる複数の特徴量それぞれの時間変動を抽出する機能と、
前記マルチモーダルデータのそれぞれに関する前記複数の特徴量それぞれの時間変動のパターンに基づいて、前記複数の特徴量の時間変動を複数の組に組分けする機能と、
組分けされた組を構成する特徴量の時間変動を教師データとして、マルチモーダルデータから抽出された特徴量の時間変動の組を入力したときに、入力された組が前記組分けされた組に該当する蓋然性を示す指標を出力する学習モデルを、前記複数の組それぞれについて生成する機能と、
前記複数の学習モデルそれぞれが出力した指標を入力したときに、入力された指標に由来する前記マルチモーダルデータが前記インタラクションイベントを含むデータか否かを示す情報を出力する機能と、
を実現させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は情報処理装置、情報処理方法、及びプログラムに関し、特に、会議等のインタラクションで発生したイベントを抽出する技術に関する。
【背景技術】
【0002】
従来、会議シーン等におけるマルチモーダルデータを用いたインタラクションイベントの推定やデータサマリー、ユーザ支援において、例えば、音声と動画のデータ両方を用いた機械学習の活用が提案されている(例えば、特許文献1を参照)。
【先行技術文献】
【非特許文献】
【0003】
【文献】Ren, Z., Pandit, V., Qian, K., Yang, Z., Zhang, Z., & Schuller, B.W. “Deep Sequential Image Features for Acoustic Scene Classification.”, Detection and Classification of Acoustic Scenes and Events 2017.
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記のような技術を用いると、異なるモダリティから抽出された特徴量を最終的に統合して機械学習を行うことにより、学習精度を高めることが可能となっている。しかしながら、各モダリティからの特徴量を全て統合してから学習を行うには、大量のデータが必要となる。
【0005】
本発明はこれらの点に鑑みてなされたものであり、インタラクションに関するマルチモーダルデータの機械学習において、学習データ量を抑える技術を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の第1の態様は、情報処理装置である。この装置は、複数人でのインタラクションに関するマルチモーダルデータであって、前記インタラクションにおけるインタラクションイベントを含むデータを各モダリティから取得するデータ取得部と、前記マルチモーダルデータのそれぞれから、異なる複数の特徴量それぞれの時間変動を抽出する特徴量抽出部と、前記マルチモーダルデータのそれぞれに関する前記複数の特徴量それぞれの時間変動のパターンに基づいて、前記複数の特徴量の時間変動を複数の組に組分けする組分け部と、組分けされた組を構成する特徴量の時間変動を教師データとして、マルチモーダルデータから抽出された特徴量の時間変動の組を入力したときに、入力された組が前記組分けされた組に該当する蓋然性を示す指標を出力する学習モデルを、前記複数の組それぞれについて生成する学習部と、前記複数の学習モデルそれぞれが出力した指標を入力したときに、入力された指標に由来する前記マルチモーダルデータが前記インタラクションイベントを含むデータか否かを示す情報を出力する統合部と、を備える。
【0007】
前記組分け部は、前記複数の特徴量の時間変動を、前記マルチモーダルデータを生成した各モダリティを横断した特徴量の時間変動の組に組分けしてもよい。
【0008】
前記組分け部は、前記複数の特徴量それぞれの時間変動が、あらかじめ設定された時間幅の範囲内における相関値が所定の値以上となる特徴量の時間変動を一つの組に組分けしてもよい。
【0009】
前記組分け部は、前記複数の特徴量のうち時間変動が周期性を持つ特徴量について、当該周期に基づいて前記特徴量の時間変動を組分けしてもよい。
【0010】
前記組分け部は、前記複数の特徴量のうち時間変動が周期性を持たない特徴量について、変動値の局所ピークの共起パターンに基づいて前記特徴量の時間変動を組分けしてもよい。
【0011】
前記組分け部は、前記複数の特徴量のうち時間変動が周期性を持たない特徴量について、変動値の局所ピークの間隔に基づいて前記特徴量の時間変動を組分けしてもよい。
【0012】
本発明の第2の態様は、情報処理方法である。この方法において、プロセッサが、複数人でのインタラクションに関するマルチモーダルデータであって、前記インタラクションにおけるインタラクションイベントを含むデータを各モダリティから取得するステップと、前記マルチモーダルデータのそれぞれから、異なる複数の特徴量それぞれの時間変動を抽出するステップと、前記マルチモーダルデータのそれぞれに関する前記複数の特徴量それぞれの時間変動のパターンに基づいて、前記複数の特徴量の時間変動を複数の組に組分けするステップと、組分けされた組を構成する特徴量の時間変動を教師データとして、マルチモーダルデータから抽出された特徴量の時間変動の組を入力したときに、入力された組が前記組分けされた組に該当する蓋然性を示す指標を出力する学習モデルを、前記複数の組それぞれについて生成するステップと、前記複数の学習モデルそれぞれが出力した指標を入力したときに、入力された指標に由来する前記マルチモーダルデータが前記インタラクションイベントを含むデータか否かを示す情報を出力するステップと、を実行する。
【0013】
本発明の第3の態様は、プログラムである。このプログラムは、コンピュータに、複数人でのインタラクションに関するマルチモーダルデータであって、前記インタラクションにおけるインタラクションイベントを含むデータを各モダリティから取得する機能と、前記マルチモーダルデータのそれぞれから、異なる複数の特徴量それぞれの時間変動を抽出する機能と、前記マルチモーダルデータのそれぞれに関する前記複数の特徴量それぞれの時間変動のパターンに基づいて、前記複数の特徴量の時間変動を複数の組に組分けする機能と、組分けされた組を構成する特徴量の時間変動を教師データとして、マルチモーダルデータから抽出された特徴量の時間変動の組を入力したときに、入力された組が前記組分けされた組に該当する蓋然性を示す指標を出力する学習モデルを、前記複数の組それぞれについて生成する機能と、前記複数の学習モデルそれぞれが出力した指標を入力したときに、入力された指標に由来する前記マルチモーダルデータが前記インタラクションイベントを含むデータか否かを示す情報を出力する機能と、を実現させる。
【発明の効果】
【0014】
本発明によれば、インタラクションに関するマルチモーダルデータの機械学習において、学習データ量を抑える技術を提供することができる。
【図面の簡単な説明】
【0015】
図1】実施の形態の概要を説明するための図である。
図2】実施の形態に係る情報処理装置の機能構成を模式的に示す図である。
図3】実施の形態に係る組分け部による第1の組分け手法を説明するための図である。
図4】実施の形態に係る組分け部による第2の組分け手法を説明するための図である。
図5】実施の形態に係る組分け部による第3の組分け手法を説明するための図である。
図6】実施の形態に係る情報処理装置における組分け、学習、及び統合の流れを模式的に示す図である。
図7】実施の形態に係る情報処理装置が実行する情報処理の処理フローを説明するためのフローチャートである。
【発明を実施するための形態】
【0016】
<実施の形態の概要>
実施の形態に係る情報処理装置は、会議や講演等、発話を軸とするインタラクションを記録したマルチモーダルデータを解析することにより、そのマルチモーダルデータが、インタラクションにおいて発生したイベントを含むデータであるか否かを示す情報を出力する。
【0017】
実施の形態に係る情報処理装置は、インタラクションにおける話し手と聞き手との役割が明確となっている演説等ではなく、聞き手も話し手と同様に発言する機会が与えられている会議、典型的にはブレインストーミングのような会議を解析対象のインタラクションとする。以下本明細書においては、話し手と聞き手とを特に区別する場合を除いて、コミュニケーションの参加者を「参与者」と記載する。参与者は、あるときは話し手となり、他の参与者が話し手となっているときは聞き手となる。
【0018】
また、「インタラクションにおいて発生したイベント」とは、意見やアイデアの評価、検討、創出、承認、あるいは議論の展開や停滞等、複数の参与者が関与するインタラクションにおいて、何らかの動きが発生することを意味する。したがって、「インタラクションにおいて発生したイベント」は1種類に限らず、複数種類の動きを含みうる。以下本明細書において、「インタラクションにおいて発生したイベント」を「インタラクションイベント」と記載することがある。
【0019】
図1は、実施の形態の概要を説明するための図であり、4人の参与者P(第1参与者P1、第2参与者P2、第3参与者P3、及び第4参与者P4)が参加している会議の様子を示している。図1に示す会議では第1参与者P1が主な話し手であるが、第2参与者P2、第3参与者P3、及び第4参与者P4も自由に発言することができる。
【0020】
図1に示す例では、各参与者Pの動きを取得するために、可視光カメラ又は赤外カメラであるカメラCによって各参与者Pを被写体に含む画像データが生成されている。また、各参与者Pにはマイクロフォン等の音声入力装置Sが取り付けられており、各参与者Pの発話を音声データに変換することができる。図1に図示はしていないが、各参与者Pは各自の動きを計測するためのモーションキャプチャー等も備えており、速度や加速度、角加速度も計測される。
【0021】
マルチモーダルデータを用いたインタラクションイベントの推定やデータサマリー、ユーザ支援において、例えば、音声のデータと動画のデータとの両方を用いた機械学習が広く活用されている。このような場合、発話音声や環境音響のデータをスペクトログラムに変換して画像データとして扱う手法も提案されている。こうして、異なるモダリティのデータから抽出された特徴量を最終的に統合して機械学習を行うことにより、学習精度を高めることが可能となっている。しかしながら、各モダリティのデータからの特徴量を全て統合してから学習を行うには、一般に大量のデータが必要である。
【0022】
一方で、各モダリティについて個別に機械学習を行い、最終的にそれらの結果を統合するという手法も、以前より行われている。この場合、上述の手法に比べ、学習に必要なデータ量を抑えることは可能であるが、モダリティを横断した特徴量の関連については直接学習結果に反映することが困難となる。例えば、画像データ中で人物の「頷き」に対応するような特徴量群は、音声データでの相槌に相当するような特徴量群と深い関連を示すことは容易に推察できるが、各モダリティで閉じた学習を行なっている場合、この関連性を機械学習結果に直接反映することは困難である。
【0023】
また、このような関連が想定される特徴量群について、設計者が個別にグルーピングして学習する手法も行われているが、設計者が大量のマルチモーダルデータから有効な特徴量の組み合わせを手作業で見出していくには限界があると考えられる。
【0024】
そこで、実施の形態に係る情報処理装置は、音声データや画像データ等を含むインタラクションに関するマルチモーダルデータの機械学習において、まず、マルチモーダルデータそれぞれについてモダリティ毎に、複数の異なる特徴量の時間変動を抽出する。続いて、実施の形態に係る情報処理装置は、各特徴量の時間変動のパターンの類似性を用いて、モダリティを横断して特徴量を自動で組分けする。実施の形態に係る情報処理装置は、組分けされた特徴量毎に機械学習を行なった結果を統合処理することにより、学習に必要なデータ量を抑えつつ精度の高い結果を出力する。これにより、実施の形態に係る情報処理装置は、インタラクションに関するマルチモーダルデータの機械学習において、学習データ量を抑えることができる。
【0025】
<実施の形態に係る情報処理装置1の機能構成>
図2は、実施の形態に係る情報処理装置1の機能構成を模式的に示す図である。情報処理装置1は、記憶部2と制御部3とを備える。図2において、矢印は主なデータの流れを示しており、図2に示していないデータの流れがあってもよい。図2において、各機能ブロックはハードウェア(装置)単位の構成ではなく、機能単位の構成を示している。そのため、図2に示す機能ブロックは単一の装置内に実装されてもよく、あるいは複数の装置内に分かれて実装されてもよい。機能ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてもよい。
【0026】
記憶部2は、情報処理装置1を実現するコンピュータのBIOS(Basic Input Output System)等を格納するROM(Read Only Memory)や情報処理装置1の作業領域となるRAM(Random Access Memory)、OS(Operating System)やアプリケーションプログラム、当該アプリケーションプログラムの実行時に参照される種々の情報を格納するHDD(Hard Disk Drive)やSSD(Solid State Drive)等の大容量記憶装置である。
【0027】
制御部3は、情報処理装置1のCPU(Central Processing Unit)やGPU(Graphics Processing Unit)等のプロセッサであり、記憶部2に記憶されたプログラムを実行することによってデータ取得部30、特徴量抽出部31、組分け部32、学習部33、及び統合部34として機能する。
【0028】
なお、図2は、情報処理装置1が単一の装置で構成されている場合の例を示している。しかしながら、情報処理装置1は、例えばクラウドコンピューティングシステムのように複数のプロセッサやメモリ等の計算リソースによって実現されてもよい。この場合、制御部3を構成する各部は、複数の異なるプロセッサの中の少なくともいずれかのプロセッサがプログラムを実行することによって実現される。
【0029】
データ取得部30は、複数人でのインタラクションに関するマルチモーダルデータであって、インタラクションにおけるインタラクションイベントを含むデータを各モダリティから取得する。各モダリティとは、例えば、インタラクションの参与者を撮像した可視光カメラ又は赤外カメラ、各参与者Pが備えるマイクロフォン、加速度センサ、圧力センサ、各参与者の生体情報を計測するための各種センサ(例えば、心拍センサ、脈拍センサ、脳波センサ)である。データ取得部30は、各モダリティそれぞれが測定したデータをマルチモーダルデータとして取得する。なお、マルチモーダルデータは、各モダリティで時間同期を取り、モダリティ間で相互に関連づけが容易な周期設定で収録するのが好ましい。
【0030】
特徴量抽出部31は、マルチモーダルデータのそれぞれから、異なる複数の特徴量それぞれの時間変動を抽出する。例えば、特徴量抽出部31は、マイクロフォンが計測した参与者Pの音声データに対して短時間の分析ウィンドウ(例えば20~30ミリ秒程度、身体動作データ等、他のモダリティからのデータのリフレッシュレートと同期可能な周期)毎にスペクトログラムを生成し特徴量とする。
【0031】
特徴量抽出部31は、カメラが参与者Pを撮像した画像データに対しては、例えば参与者Pの視線の動きや体のパーツ(例えばあごの位置や手首)の速さを取得して特徴量とする。特徴量抽出部31は、画像データが複数のフレームから構成される同画像データである場合には、隣り合うフレーム間の差分画像を生成し、その画素値の絶対値の総和を特徴量としてもよい。いずれにしても、特徴量抽出部31は、マルチモーダルデータを既知の信号解析手法を用いて解析し、異なる複数の特徴量それぞれの時間変動を抽出する。
【0032】
組分け部32は、特徴量抽出部31が抽出したマルチモーダルデータのそれぞれに関する複数の特徴量それぞれの時間変動のパターンに基づいて、複数の特徴量の時間変動を複数の組に組分けする。この結果、組分け部32が組分けした各組には、異なるモダリティのデータから抽出された特徴量が含まれ得る。なお、組分け部32による特徴量の組分けの詳細は後述する。
【0033】
学習部33は、組分け部32が組分けした組を構成する特徴量の時間変動を教師データとして、既知の機械学習(例えばニューラルネットワークやサポートベクタマシン)を実行し学習モデルを生成する。具体的には、学習部33は、生成する学習モデルにマルチモーダルデータから抽出された特徴量の時間変動の組を入力した場合、その学習モデルの出力が、入力された組が組分け部32によって組分けされた各組に該当する蓋然性を示す指標となるような学習モデルを、複数の組それぞれについて生成する。したがって、学習部33は、組分け部32が組分けした組の個数と同数の学習モデルを生成することになる。異なるモダリティのデータから抽出された特徴量を含む組を学習データとして生成された学習モデルは、異なるモダリティのデータ間における関連性を学習に直接反映することができる。
【0034】
なお、学習部33は、教師データとしてインタラクションイベントを含まないマルチモーダルデータから抽出された特徴量を加えてもよい。この場合、インタラクションイベントを含むマルチモーダルデータから抽出された特徴量が「正」の教師データ、インタラクションイベントを含まないマルチモーダルデータから抽出された特徴量が「負」の教師データとなる。教師データとしてインタラクションイベントを含まないマルチモーダルデータから抽出された特徴量を用いるか否かによらず、教師データには、インタラクションイベントを含むマルチモーダルデータから抽出された特徴量が含まれる。また、マルチモーダルデータに複数種類のインタラクションイベントが含まれる場合には、学習部33はいわゆる「多クラス識別」の学習モデルを生成する。
【0035】
統合部34は、複数の学習モデルそれぞれが出力した指標を入力したときに、入力された指標に由来するマルチモーダルデータがインタラクションイベントを含むデータか否かを示す情報を出力する。具体的には、統合部34は、学習部33が生成した複数の学習モデルそれぞれの出力を統合して、マルチモーダルデータがインタラクションイベントを含むデータか否かを示す1つの情報を出力する。なお、統合部34は、学習部33が生成した複数の学習モデルそれぞれの出力をルールベースで統合して1つの情報を出力してもよいし、既知の機械学習を用いて学習することにより1つの情報を出力するようにしてもよい。
【0036】
このように、実施の形態に係る情報処理装置1は、特徴量の時間変動のパターンに基づいてマルチモーダルデータをあらかじめ組分けして学習する。これにより、情報処理装置1は、各モダリティからの特徴量を全て統合してから学習を行う場合と比較して、少ない学習データでも異なるモダリティのデータ間における関連性を効果的に学習に反映させることができる。結果として、情報処理装置1は、マルチモーダルデータの機械学習において、学習データ量を抑えることができる。
【0037】
ここで、組分け部32は、複数の特徴量の時間変動を、異なるモダリティのデータから抽出された特徴量を含むように組分けする。言い換えると組分け部32は、複数の特徴量の時間変動を、マルチモーダルデータを生成した各モダリティを横断した特徴量の時間変動の組に組分けする。これにより、組分け部32は、学習部33が生成する各学習モデルに、異なるモダリティのデータ間における関連性を反映させることができる。
【0038】
以下、組分け部32による特徴量の組分け手法について具体的に説明する。
【0039】
[時間変化の相関を利用した組分け]
図3は、実施の形態に係る組分け部32による第1の組分け手法を説明するための図である。図3において、実線は第1特徴量の時間変動を模式的に示しており、一点鎖線は第1特徴量とは異なる第2特徴量の時間変動を模式的に示している。図3において、第1矩形W1は所定の時間幅を示すウィンドウであり、第2矩形W2も、第1矩形W1と同じ時間幅を示すウィンドウである。
【0040】
組分け部32は、複数の特徴量それぞれの時間変動が、あらかじめ設定された時間幅の範囲内における相関値が所定の値以上となる特徴量の時間変動を一つの組に組分けする。図3において、第1矩形W1及び第2矩形W2は、特徴量の相関値の関連性を検出するためにあらかじめ設定された時間幅を示している。
【0041】
例えば、第1特徴量が参与者Pに取り付けられた音声入力装置Sが取得した音声データの音量であり、第2特徴量が参与者Pのあごの速度の絶対値であるとする。インタラクションの中で参与者Pが納得をした場合、参与者Pは「なるほど!」と発声しつつ首を縦に振って頷いたとする。このとき、音量の増加と、あごの速度の増加とは、おおむね同時期に発生すると考えられる。
【0042】
図3において、第1矩形W1が示す範囲において第1特徴量及び第2特徴量は、それぞれ破線の円で示す位置において値の変動が見られる。同様に、第2矩形W2が示す範囲においても第1特徴量及び第2特徴量は、それぞれ破線の円で示す位置において値の変動が見られる。このような場合、組分け部32は、第1特徴量と第2特徴量とを同一の組に組分けする。組分け部32は、他の特徴量の組についても同様の処理を実行することにより、時間変化の相関を利用した特徴量群から構成される組を生成する。
【0043】
[時間変化の周期性を利用した組分け]
図4は、実施の形態に係る組分け部32による第2の組分け手法を説明するための図である。図4において、実線は第1特徴量の時間変動を模式的に示しており、一点鎖線は第1特徴量とは異なる第2特徴量の時間変動を模式的に示している。図4において、間隔T1は第1特徴量の時間変動の周期を示しており、間隔T2は、第2特徴量の時間変動の周期を示している。図4に示す例では、第1特徴量の時間変動の周期であるT1は、第2特徴量の時間変動の周期であるT2の2倍となっている。
【0044】
組分け部32は、複数の特徴量のうち時間変動が周期性を持つ特徴量について、その周期に基づいて特徴量の時間変動を組分けする。具体的には、組分け部32は、特徴量の時間変動の周期パターンに関連のある(例えば、周期が定数倍の関係にある)特徴量同士を同一の組に組分けする。組分け部32は、他の特徴量の組についても同様の処理を実行することにより、時間変化の周期性に関連のある特徴量群から構成される組を生成する。
【0045】
[時間変化の局所ピークの共起パターンを利用した組分け]
図5は、実施の形態に係る組分け部32による第3の組分け手法を説明するための図である。図5において、実線は第1特徴量の時間変動を模式的に示しており、一点鎖線は第1特徴量とは異なる第2特徴量の時間変動を模式的に示している。図5において、第1特徴量の時間変動及び第2特徴量の時間変動は、ともに周期性を有していない。
【0046】
図5において、破線の矩形B(B1、B2、及びB3)は、いずれも第1特徴量の時間変動と第2特徴量の時間変動とが、所定の時間幅αの範囲内で局所ピークが発生していること、すなわち「共起」していることを示している。ここで「局所ピーク」とは、特徴量の時間変動の局所的な最大値又は最小値を意味する。図5において、符号C1及びC3を付した円は、それぞれ第1特徴量の時間変動における局所的な最大値を示し、符号C2及びC4を付した円は、それぞれ第1特徴量の時間変動における局所的な最小値を示している。同様に、符号C5及びC6を付した円は、それぞれ第2特徴量の時間変動における局所的な最大値を示し、符号C7を付した円は、第2特徴量の時間変動における局所的な最小値を示している。
【0047】
矩形B1において、円C1で示す局所的な極大値と円C5で示す局所的な極大値とが、時間幅αの範囲内で発生している。また、矩形B2においては、円C2で示す局所的な極小値と円C6で示す局所的な極大値とが、時間幅αの範囲内で発生している。同様に、矩形B3においては、円C3で示す局所的な極大値と円C7示す局所的な極小値とが、時間幅αの範囲内で発生している。
【0048】
組分け部32は、第1特徴量の時間変動における局所ピークと第2特徴量の時間変動における局所ピークとが時間幅αの範囲内で発生する事象が、所定の設定閾値β%以上の頻度である特徴量同士を同一の組にする。この際、組分け部32は、βを全てのマルチモーダルデータについて設定してもよいし、組分け対象とする特徴量のいずれかに限定して設定してもよい。
【0049】
例えば、組分け部32は、第1特徴量の時間変動における局所ピーク数が、第2特徴量の時間変動における局所ピーク数の半数以下であった場合に、第1特徴量の時間変動における局所ピークが第2特徴量の時間変動における局所ピークに対して設定閾値β%以上の頻度で共起していれば、第1特徴量と第2特徴量とを同一の組に組分けする。なお、時間幅α及び設定閾値βの具体的な値は、特徴量の性質等を勘案して実験により定めればよい。
【0050】
このように、組分け部32は、複数の特徴量のうち時間変動が周期性を持たない特徴量については、変動値の局所ピークの共起パターンに基づいて特徴量の時間変動を組分けする。
【0051】
[時間変化の局所的最大値と最小値の時間間隔を利用した組分け]
組分け部32は、複数の特徴量のうち時間変動が周期性を持たない特徴量について、特徴量の時間変動の局所的最大値と最小値との間隔iに基づいて組分けをしてもよい。例えば、組分け部32は、間隔iの平均値が近いもの、あるいは第1特徴量の間隔i1の平均値が、第2特徴量の間隔i2の平均の倍数に近い場合に、第1特徴量と第2特徴量とを同一の組に組分けしてもよい。
【0052】
組分け部32は、特徴量の時間変動に微細な変動とグローバルで大きな変動との両方がみられる場合、特徴量の時間変動をスムーシングすることにより、上述した組分け手法を実行してもよい。このように。組分け部32は、複数の特徴量の時間変動を、マルチモーダルデータを生成した各モダリティを横断した特徴量の時間変動の組に組分けすることができる。これにより、情報処理装置1は、異なるモダリティのデータから抽出された特徴量を含む組を学習データとして生成することができる。
【0053】
図6は、実施の形態に係る情報処理装置1における組分け、学習、及び統合までの流れを模式的に示す図である。図6において、マルチモーダルデータは、第1モダリティが計測したデータと、第2モダリティが計測したデータと、第3モダリティが計測したデータとを含んでいる。また、図6は、第1モダリティが計測したデータからは、特徴量f1から特徴量f5までの5つの特徴量が抽出され、第2モダリティが計測したデータからは、特徴量g1から特徴量g4までの4つの特徴量が抽出され、第3モダリティが計測したデータからは、特徴量h1から特徴量h3までの3つの特徴量が抽出されたことを示している。
【0054】
図6において、組分け部32は、上述した組分け手法を実行することにより、特徴量f1、特徴量g1、及び特徴量h1を含む組と、特徴量f2、特徴量g2、及び特徴量g3を含む組と、特徴量h2、特徴量f3、特徴量f4、及び特徴量f5を含む組と、特徴量g5及び特徴量h3を含む組との4つの組に各特徴量を組分けしたことを示している。また、図6において、学習部33は、組分け部32が組分けをした4つの組に含まれる特徴量をそれぞれ学習データとして機械学習することにより、4つの学習モデルを生成したことを示している。
【0055】
学習部33が生成した各学習モデルは、それぞれマルチモーダルデータから抽出された特徴量の時間変動の組を入力したときに、入力された組が組分けされた組に該当する蓋然性を示す指標を出力する。図6において、統合部34は、4つの学習モデルの出力を統合することにより、入力されたマルチモーダルがインタラクションイベントを含むデータか否かを示す情報を出力する。以上より、全体としてみると、情報処理装置1にマルチモーダルデータを入力すると、情報処理装置1は、そのマルチモーダルデータがインタラクションイベントを含むデータか否かを示す1つの情報を出力することになる。
【0056】
<情報処理装置1が実行する情報処理方法の処理フロー>
図7は、実施の形態に係る情報処理装置1が実行する情報処理の処理フローを説明するためのフローチャートである。本フローチャートにおける処理は、例えば情報処理装置1が起動したときに開始する。
【0057】
データ取得部30は、複数人でのインタラクションに関するマルチモーダルデータであって、インタラクションにおけるインタラクションイベントを含むデータを各モダリティから取得する(S2)。
【0058】
特徴量抽出部31は、マルチモーダルデータのそれぞれから、異なる複数の特徴量それぞれの時間変動を抽出する(S4)。組分け部32は、マルチモーダルデータのそれぞれに関する複数の特徴量それぞれの時間変動のパターンに基づいて、複数の特徴量の時間変動を複数の組に組分けする(S6)。
【0059】
学習部33は、組分けされた組を構成する特徴量の時間変動を教師データとして、マルチモーダルデータから抽出された特徴量の時間変動の組を入力したときに、入力された組が組分けされた組に該当する蓋然性を示す指標を出力する学習モデルを、複数の組それぞれについて生成する(S8)。
【0060】
統合部34は、複数の学習モデルそれぞれが出力した指標を入力したときに、入力された指標に由来するマルチモーダルデータがインタラクションイベントを含むデータか否かを示す情報を出力する(S10)。
【0061】
<実施の形態に係る情報処理装置1が奏する効果>
以上説明したように、実施の形態に係る情報処理装置1によれば、インタラクションに関するマルチモーダルデータの機械学習において、学習データ量を抑える技術を提供することができる。
【0062】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果をあわせ持つ。
【符号の説明】
【0063】
1・・・情報処理装置
2・・・記憶部
3・・・制御部
30・・・データ取得部
31・・・特徴量抽出部
32・・・組分け部
33・・・学習部
34・・・統合部
図1
図2
図3
図4
図5
図6
図7