IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人静岡大学の特許一覧

特開2022-133022情報処理システム、教師データの生成方法、学習済みモデルの生成方法、および情報処理プログラム
<>
  • 特開-情報処理システム、教師データの生成方法、学習済みモデルの生成方法、および情報処理プログラム 図1
  • 特開-情報処理システム、教師データの生成方法、学習済みモデルの生成方法、および情報処理プログラム 図2
  • 特開-情報処理システム、教師データの生成方法、学習済みモデルの生成方法、および情報処理プログラム 図3
  • 特開-情報処理システム、教師データの生成方法、学習済みモデルの生成方法、および情報処理プログラム 図4
  • 特開-情報処理システム、教師データの生成方法、学習済みモデルの生成方法、および情報処理プログラム 図5
  • 特開-情報処理システム、教師データの生成方法、学習済みモデルの生成方法、および情報処理プログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022133022
(43)【公開日】2022-09-13
(54)【発明の名称】情報処理システム、教師データの生成方法、学習済みモデルの生成方法、および情報処理プログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220906BHJP
【FI】
G06T7/00 350B
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2021031824
(22)【出願日】2021-03-01
(71)【出願人】
【識別番号】304023318
【氏名又は名称】国立大学法人静岡大学
(74)【代理人】
【識別番号】100088155
【弁理士】
【氏名又は名称】長谷川 芳樹
(74)【代理人】
【識別番号】100124800
【弁理士】
【氏名又は名称】諏澤 勇司
(74)【代理人】
【識別番号】100144440
【弁理士】
【氏名又は名称】保坂 一之
(72)【発明者】
【氏名】峰野 博史
(72)【発明者】
【氏名】田中 悠貴
(72)【発明者】
【氏名】石坂 拓海
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096CA04
5L096CA05
5L096DA01
5L096DA02
5L096GA51
5L096HA02
5L096HA09
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
【課題】現実空間におけるオブジェクトの動作の推定を容易にすること。
【解決手段】本開示の一側面に係る情報処理システムは、対象空間を映す映像中のサンプルオブジェクトの動作を示す動作ラベルの経時変化を示すラベルデータを取得し、対象空間における無線通信の第1チャネル状態情報であって、映像との間で時刻の対応を有する該第1チャネル状態情報の経時変化を示すCSIデータを取得し、時刻に基づいて動作ラベルを第1チャネル状態情報に関連付けることで教師データを生成し、対象空間における対象オブジェクトの動作を、該対象空間における無線通信の第2チャネル状態情報から推定する学習済みモデルを生成するために、教師データを出力する。
【選択図】図3
【特許請求の範囲】
【請求項1】
少なくとも一つのプロセッサを備え、
前記少なくとも一つのプロセッサが、
対象空間を映す映像中のサンプルオブジェクトの動作を示す動作ラベルの経時変化を示すラベルデータを取得し、
前記対象空間における無線通信の第1チャネル状態情報であって、前記映像との間で時刻の対応を有する該第1チャネル状態情報の経時変化を示すCSIデータを取得し、
前記時刻に基づいて前記動作ラベルを前記第1チャネル状態情報に関連付けることで教師データを生成し、
前記対象空間における対象オブジェクトの動作を、該対象空間における前記無線通信の第2チャネル状態情報から推定する学習済みモデルを生成するために、前記教師データを出力する、
情報処理システム。
【請求項2】
前記少なくとも一つのプロセッサが、
前記映像との間で時刻の同期が取られた前記第1チャネル状態情報を示す前記CSIデータを取得し、
前記同期された時刻に基づいて前記第1チャネル状態情報に前記動作ラベルを関連付けることで前記教師データを生成する、
請求項1に記載の情報処理システム。
【請求項3】
前記少なくとも一つのプロセッサが、
前記サンプルオブジェクトの動作に関連する関連オブジェクトを示す関連ラベルの経時変化を更に示す前記ラベルデータを取得し、
前記時刻に基づいて更に前記関連ラベルを前記第1チャネル状態情報に関連付けることで前記教師データを生成する、
請求項1または2に記載の情報処理システム。
【請求項4】
前記少なくとも一つのプロセッサが、
前記第1チャネル状態情報により示される振幅の変動幅が、所与の時間以上の間、所与の閾値以下である異常区間を前記CSIデータから除去し、
前記異常区間が除去された前記CSIデータで示される前記第1チャネル状態情報に前記動作ラベルを関連付けることで前記教師データを生成する、
請求項1~3のいずれか一項に記載の情報処理システム。
【請求項5】
前記少なくとも一つのプロセッサが、前記所与の時間以上の間において前記振幅が一定の値である前記異常区間を前記CSIデータから除去する、
請求項4に記載の情報処理システム。
【請求項6】
前記少なくとも一つのプロセッサが、前記教師データを用いた機械学習により前記学習済みモデルを生成する、
請求項1~5のいずれか一項に記載の情報処理システム。
【請求項7】
前記少なくとも一つのプロセッサが、前記第2チャネル状態情報を前記学習済みモデルに入力して、前記対象オブジェクトの動作を推定する、
請求項6に記載の情報処理システム。
【請求項8】
対象空間を映す映像中のサンプルオブジェクトの動作を示す動作ラベルの経時変化を示すラベルデータを取得するステップと、
前記対象空間における無線通信の第1チャネル状態情報であって、前記映像との間で時刻の対応を有する該第1チャネル状態情報の経時変化を示すCSIデータを取得するステップと、
前記時刻に基づいて前記動作ラベルを前記第1チャネル状態情報に関連付けることで教師データを生成するステップと、
前記対象空間における対象オブジェクトの動作を、該対象空間における前記無線通信の第2チャネル状態情報から推定する学習済みモデルを生成するために、前記教師データを出力するステップと、
を含む教師データの生成方法。
【請求項9】
対象空間を映す映像中のサンプルオブジェクトの動作を示す動作ラベルの経時変化を示すラベルデータを取得するステップと、
前記対象空間における無線通信の第1チャネル状態情報であって、前記映像との間で時刻の対応を有する該第1チャネル状態情報の経時変化を示すCSIデータを取得するステップと、
前記時刻に基づいて前記動作ラベルを前記第1チャネル状態情報に関連付けることで教師データを生成するステップと、
前記対象空間における対象オブジェクトの動作を、該対象空間における前記無線通信の第2チャネル状態情報から推定する学習済みモデルを、前記教師データを用いた機械学習により生成するステップと、
を含む学習済みモデルの生成方法。
【請求項10】
対象空間を映す映像中のサンプルオブジェクトの動作を示す動作ラベルの経時変化を示すラベルデータを取得するステップと、
前記対象空間における無線通信の第1チャネル状態情報であって、前記映像との間で時刻の対応を有する該第1チャネル状態情報の経時変化を示すCSIデータを取得するステップと、
前記時刻に基づいて前記動作ラベルを前記第1チャネル状態情報に関連付けることで教師データを生成するステップと、
前記対象空間における対象オブジェクトの動作を、該対象空間における前記無線通信の第2チャネル状態情報から推定する学習済みモデルを生成するために、前記教師データを出力するステップと、
をコンピュータに実行させる情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の一側面は情報処理システム、教師データの生成方法、学習済みモデルの生成方法、および情報処理プログラムに関する。
【背景技術】
【0002】
現実空間におけるオブジェクトの動作を推定するための手法が知られている。例えば、非特許文献1には、分単位の長さの時間的パターンを判断するTimeception畳み込み層によってビデオ中の人間活動を正確に認識する手法が記載されている。非特許文献2には、スクリプト書き込みからビデオの記録および注釈までのビデオ作成のプロセス全体を分散し且つクラウドソーシングすることによって、人々の行動を示すサンプルの多様性を保証する手法が記載されている。非特許文献3には、ビデオクリップ中の人間の動作を認識および特定するためのAction TransformerモデルをAtomic Visual Actions(AVA)データセットでトレーニングおよびテストして、高いパフォーマンスを実現することが記載されている。非特許文献4には、そのAVAデータセットの詳細が記載されている。非特許文献5には、商用Wi-Fiシステムのチャネル状態情報(CSI)のデータストリームから人間の行動の特徴を抽出し、機械学習を用いてモデルおよび分類器を構築することによって、該行動を認識する手法が記載されている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】N. Hussein, E. Gavves, A. W.M. Smeulders. Timeception for ComplexAction Recognition. arXiv:1812.01289.
【非特許文献2】G. A. Sigurdsson, G. Varol, X. Wang, A. Farhadi, I Laptev, and A.Gupta. Hollywood in Homes: Crowdsourcing Data Collection for ActivityUnderstanding. arXiv:1604.01753.
【非特許文献3】R. Girdhar, J. Carreira, C. Doersch, and A. Zisserman. Video ActionTransformer Network. arXiv:1812.02707.
【非特許文献4】A. Li, M. Thotakuri, D. A. Ross, J. Carreira, A. Vostrikov, and A.Zisserman. The AVA-Kinetics Localized Human Actions Video Dataset. arXivpreprint arXiv:2005.00214, 2020.
【非特許文献5】S. Yousefi, H. Narui, S. Dayal, S. Ermon, and S. Valaee, “A surveyon behavior recognition using Wi-Fi channel state information,” IEEECommunications Magazine, vol. 55, no. 10, pp. 98-104, Oct. 2017.
【発明の概要】
【発明が解決しようとする課題】
【0004】
現実空間におけるオブジェクトの動作の推定を容易にすることが望まれている。
【課題を解決するための手段】
【0005】
本開示の一側面に係る情報処理システムは、少なくとも一つのプロセッサを備える。少なくとも一つのプロセッサは、対象空間を映す映像中のサンプルオブジェクトの動作を示す動作ラベルの経時変化を示すラベルデータを取得し、対象空間における無線通信の第1チャネル状態情報であって、映像との間で時刻の対応を有する該第1チャネル状態情報の経時変化を示すCSIデータを取得し、時刻に基づいて動作ラベルを第1チャネル状態情報に関連付けることで教師データを生成し、対象空間における対象オブジェクトの動作を、該対象空間における無線通信の第2チャネル状態情報から推定する学習済みモデルを生成するために、教師データを出力する。
【0006】
このような側面においては、時刻が対応し合う映像および第1チャネル状態情報を用いて、該映像中のサンプルオブジェクトの動作を示す動作ラベルがその第1チャネル状態情報に関連付けられる。この手法によりチャネル状態情報が自動的にラベリングされるので、教師データを生成する労力を削減できる。その結果、チャネル状態情報からオブジェクトの動作を推定する学習済みモデルの生成も、その学習済みモデルを用いたオブジェクトの動作の推定も、容易に実施することが可能になる。
【発明の効果】
【0007】
本開示の一側面によれば、現実空間におけるオブジェクトの動作の推定を容易にすることができる。
【図面の簡単な説明】
【0008】
図1】情報処理システムの適用の一例を示す図である。
図2】対象空間の一例を模式的に示す図である。
図3】情報処理システムの機能構成の一例を示す図である。
図4】情報処理システムで用いられるコンピュータのハードウェア構成の一例を示す図である。
図5】情報処理システムの動作の一例を示すフローチャートである。
図6】教師データのデータ構造の一例を示す図である。
【発明を実施するための形態】
【0009】
以下、添付図面を参照しながら本開示での実施形態を詳細に説明する。図面の説明において同一または同等の要素には同一の符号を付し、重複する説明を省略する。
【0010】
[システムの概要]
実施形態に係る情報処理システム10は、現実空間におけるオブジェクトの動作の推定に関連する処理を実行するコンピュータシステムである。本開示において、オブジェクトとは、視認することができる現実の物理的存在である。オブジェクトは自然物でも人工物でもよい。推定される対象となるオブジェクトは、動くことが可能なオブジェクトであり、例えば人、動物、移動可能な製品(例えば、ロボット、移動体など)などである。「オブジェクトの動作を推定する」とは、オブジェクトが実際にどのような動作を行ったかを推定することをいう。現実空間は屋内でも屋外でもよい。
【0011】
一例では、オブジェクトの動作を推定するために機械学習が用いられる。機械学習とは、与えられた情報に基づいて反復的に学習することで法則またはルールを自律的に見つけ出す手法である。一例では、情報処理システム10は、ニューラルネットワークを含んで構成される計算モデルである機械学習モデルを用いた機械学習を実行する。ニューラルネットワークとは、人間の脳神経系の仕組みを模した情報処理のモデルのことをいう。
【0012】
機械学習では、学習を繰り返すことで機械学習モデルが訓練されて学習済みモデルが得られる。これは学習フェーズに相当する。生成される学習済みモデルは、無線通信のチャネル状態情報(CSI)の入力を受け付けて、オブジェクトの動作を示す推定値を出力する。学習済みモデルは、オブジェクトの動作を推定するために最適であると推定される機械学習モデルであり、“現実に最適である機械学習モデル”とは限らないことに留意されたい。学習済みモデルは、CSIを示す入力ベクトル(入力データ)を処理して、オブジェクトの動作を示す推定値を出力する。これは推定フェーズまたは運用フェーズに相当する。学習済みモデルはコンピュータシステム間で移植可能である。したがって、或るコンピュータシステムで生成された学習済みモデルを、別のコンピュータシステムで用いることができる。もちろん、一つのコンピュータシステムが学習済みモデルの生成および利用の双方を実行してもよい。
【0013】
チャネル状態情報(CSI)とは、無線通信の送受信機間の電波路の状態を示す情報である。CSIは、電波の伝播喪失、反射、解析などのようなマルチパスの影響による、電波の振幅および位相の変位を示す。一例では、無線通信は、IEEE802.11に基づく無線ネットワークプロトコルであるWi-Fi(登録商標。以下同様)である。CSIは複数の周波数帯域(複数のサブキャリア)のそれぞれについての振幅および位相の変位を示す。それぞれのサブキャリアにおいて、その振幅および位相の変位は、複素数の絶対値と偏角とで表現した値の行列によって表される。
【0014】
送信アンテナの個数をNとし、受信アンテナの個数をNとする。また、k番目のサブキャリアで得られるN次元の送信ベクトルをXとし、そのサブキャリアで得られるN次元の受信ベクトルをYとする。このとき、双方のベクトルX,Yの間には以下の式(1)で表される関係が成り立つ。
=H+N …(1)
この式(1)において、Hはk番目のサブキャリアにおけるN×N次元のチャネル周波数特性(CFR)の行列である。NはN次元のノイズベクトルである。サブキャリアの個数をNとすると、CSIはN×N×Nの多次元行列(N個の行列H)によって表されるといえる。CSIは各サブキャリアのデータを行列の形式で保持するので、高度な分析を可能にする。
【0015】
一例では、情報処理システム10はその学習済みモデルを生成するために用いられる教師データを生成する。情報処理システム10はその教師データを用いた機械学習によって学習済みモデルを生成してもよい。あるいは、情報処理システム10はその学習済みモデルを用いてオブジェクトの動作を推定してもよい。
【0016】
図1は、情報処理システム10の適用の一例を処理フローS1として示す図である。処理フローS1はステップS11~S15を含む。ステップS11、S12は教師データを生成するための前準備である。ステップS13は教師データの生成である。ステップS14はその教師データを用いた学習済みモデルの生成(すなわち学習フェーズ)である。ステップS15はその学習済みモデルを用いた推定処理(すなわち運用フェーズ)である。情報処理システム10は少なくともステップS13を実行する。
【0017】
ステップS11では、教師データを生成するためのデータが収集される。このデータは、対象空間を映す映像データと、その対象空間での無線通信(例えばWi-Fi)のCSIデータとを含む。映像データはカメラにより得られる。CSIデータは送信機と受信機との間の周期的なデータ通信により得られ、例えば、ネットワークの疎通を確認するためのpingコマンドを実行することで得られる。対象空間とは、オブジェクトの動作が推定される現実空間をいう。映像データは、オブジェクトの一連の動作(単一の動作ではなく複数の動作の連続)を映す程度の長時間にわたって記録された映像を示す。CSIデータは所与の時間(例えば映像の記録時間に対応する時間)にわたるCSIの変化を示す。したがって、映像データおよびCSIデータはいずれも時系列データであり、対象空間の状況の変化(例えば対象空間内のオブジェクトの動作)を示す。
【0018】
図2は対象空間の一例を模式的に示す図である。この例では、対象空間は部屋80である。部屋80は出入口81を有する。部屋80内には机82および椅子83が置かれている。対象空間(部屋80)を撮像するために少なくとも一つのカメラ91が配置される。一例では、カメラ91の台数および位置は、部屋80内で観測しようとするオブジェクト(例えば人)の動作を漏れなく捕捉できるように決められる。部屋80内には無線通信(例えばWi-Fi)を行う少なくとも一つの送信機92および少なくとも一つの受信機93が更に配置される。図2の例では、送信機92および受信機93は出入口81を挟むように配置されている。送信機92の例として無線ルータが挙げられる。受信機93の例として高機能携帯電話機(スマートフォン)、タブレット端末、ラップトップコンピュータ、および中継用の無線ルータが挙げられる。学習フェーズと運用フェーズとの間で類似したCSIの変化が見られる環境条件であれば、受信機93は携帯可能であってもよい。一例では、送信機92および受信機93の位置は、対象空間内のオブジェクトの動作によってCSIが顕著に変化するように決められる。無線通信では、送信機92と受信機93とを結ぶ直線を中心とする、フレネルゾーンという楕円形の無線通信路が生ずる。一例では、そのフレネルゾーンが対象空間内のオブジェクトの想定される動作を網羅するように送信機92および受信機93を配置することで、その動作に応じて顕著に変化するCSIを取得することが期待できる。オブジェクトの動作によって送信機92と受信機93との間のCSIが顕著に変化するのであれば、フレネルゾーンは利用されなくてもよい。
【0019】
図1に戻って、ステップS12では、映像中のサンプルオブジェクトの動作に関連するラベルが設定され、そのラベルを示すラベルデータが生成される。このラベルデータは、ラベルの経時変化を示す時系列データである。サンプルオブジェクトは映像の被写体である。ラベルとは、機械学習において正解として取り扱われる情報をいう。「サンプルオブジェクトの動作に関連するラベル」は、サンプルオブジェクトの動作を示す動作ラベルを少なくとも含み、その動作に関連するオブジェクト(本開示ではこれを「関連オブジェクト」ともいう)を示す関連ラベルを更に含んでもよい。したがって、ラベルデータは動作ラベルの経時変化を少なくとも示し、関連ラベルの経時変化を更に示してもよい。関連オブジェクトの例として、人により持ち運ばれる物、人の動作の目的または対象になり得る物などが挙げられる。動作ラベルは例えば「行動なし」、「入室」、「座る」、「立つ」、「退室」、「歩く」、「走る」、「止まる」のように設定される。「行動なし」という動作ラベルは、オブジェクトが対象空間内に存在しないことを意味する。関連ラベルは例えば、「ラップトップ」、「スマートフォン」、「机」、「椅子」、「ドア」のように設定される。関連オブジェクトが存在しない場合には、「関連オブジェクトなし」という関連ラベルが設定されてもよい。
【0020】
一例では、動画認識技術または一般物体認識のために生成された学習済みモデルを用いて、オブジェクトそのものまたはオブジェクトの動作が映像データから推定され、その推定結果に基づいてラベルデータが生成される。例えば、その学習済みモデルは深層学習に基づく学習器でもよく、例えば、3D ResNetなどの3次元畳み込みニューラルネットワーク(3D CNN)に基づく学習器でもよい。推定しようとするオブジェクトの種類に応じて複数種類の学習済みモデルが用いられてもよい。例えば、サンプルオブジェクトの動作を推定するための学習済みモデルと、サンプルオブジェクトに関連する特定の物体を識別するための学習済みモデルとが用いられてもよい。ラベルデータはその学習済みモデルに加えてまたは代えて、人手によって用意されてもよい。ラベルデータは、所与の時間間隔で設定されたそれぞれの時刻における少なくとも一つのラベルを含む。本開示において、時刻とは時間の流れにおける一点を示す値であり、タイムスタンプということもできる。時刻は時、分、秒などの一般的な単位を用いて表すことができる。個々の日付での時刻を示すために、時刻は年月日を更に用いて表現されてもよい。
【0021】
映像データからラベルを推定する前に、その映像データに対して前処理が実行されてもよい。この前処理は、左右反転、グレースケール化、ぼかし、RGBシフトなどの手法によるデータ拡張を含んでもよい。あるいは、前処理は、グレースケール化された2フレーム間の差分に基づくフレーム抽出を含んでもよいし、サンプルオブジェクトの動作に直接に関連する部分のトリミングを含んでもよい。
【0022】
ステップS13では、情報処理システム10がCSIデータおよびラベルデータから教師データを生成する。情報処理システム10は、CSIデータおよびラベルデータとの間で時刻の対応関係を特定し、その時刻に基づいてラベルをCSIに関連付けて教師データを生成する。本開示において、ラベルが関連付けられるそのCSIを「第1チャネル状態情報(第1CSI)」ともいう。教師データは、自動的にラベリングされたCSIを示すデータ、あるいは、CSIとラベルとの対応関係を示すであるといえる。
【0023】
ステップS14では、その教師データを用いた機械学習により、CSIからオブジェクトの動作を推定するための学習済みモデルが生成される。この学習済みモデルを生成するために深層学習が用いられてもよく、例えば、Long Short-Term Memory(LSTM)などの再帰的ニューラルネットワーク(RNN)が用いられてもよい。例えば、ステップS14は情報処理システム10または他のコンピュータシステムにより実行される。
【0024】
ステップS15では、その学習済みモデルを用いてCSIから対象オブジェクトの動作が推定される。対象オブジェクトは、運用フェーズにおいて動作を推定する対象となるオブジェクトである。ステップS15も情報処理システム10または他のコンピュータシステムにより実行される。
【0025】
[システムの構成]
図3は情報処理システム10の機能構成の一例を示す図である。一例では、情報処理システム10は機能モジュールとして、教師データを生成する教師データ生成部11を少なくとも備える。一例では、教師データ生成部11はラベル取得部12、CSI取得部13、およびデータセット生成部14を備える。ラベル取得部12はラベルデータを取得する機能モジュールである。CSI取得部13はCSIデータを取得する機能モジュールである。データセット生成部14はそのラベルデータおよびCSIデータに基づいて教師データのデータセット(レコードの集合)を生成し、その教師データを出力する機能モジュールである。「教師データを出力する」とは、後続の処理のために教師データを情報処理システム10内の機能モジュールまたは情報処理システム10の外のコンピュータに提供する処理をいう。
【0026】
一例では、情報処理システム10は機能モジュールとして更に学習部15を備える。学習部15は、教師データを用いた機械学習により、CSIからオブジェクトの動作を推定するための学習済みモデル20を生成する機能モジュールである。別の例では、情報処理システム10は機能モジュールとして更に推定部16を備える。推定部16はその学習済みモデル20を用いてCSIから対象オブジェクトの動作を推定する機能モジュールである。本開示において、対象オブジェクトの動作を推定するために用いられるCSIを「第2チャネル状態情報(第2CSI)」ともいう。
【0027】
一例では、情報処理システム10はラベルデータベース31、CSIデータベース32、および学習用データベース33に所与の通信ネットワークを介して接続する。ラベルデータベース31はラベルデータを非一時的に記憶する装置である。CSIデータベース32は第1CSIを示すCSIデータを非一時的に記憶する装置である。学習用データベース33は教師データを非一時的に記憶するための装置である。これらのデータベースはいずれも、情報処理システム10の一部であってもよいし、情報処理システム10とは別のコンピュータ内に設けられてもよい。
【0028】
図4は情報処理システム10を構成するコンピュータ100の一般的なハードウェア構成の一例を示す図である。例えば、コンピュータ100はプロセッサ101、主記憶部102、補助記憶部103、通信制御部104、入力装置105、および出力装置106を備える。プロセッサ101はオペレーティングシステムおよびアプリケーション・プログラムを実行する。主記憶部102は例えばROMおよびRAMで構成される。補助記憶部103は例えばハードディスクまたはフラッシュメモリで構成され、一般に主記憶部102よりも大量のデータを記憶する。通信制御部104は例えばネットワークカードまたは無線通信モジュールで構成される。入力装置105は例えばキーボード、マウス、タッチパネルなどで構成される。出力装置106は例えばモニタおよびスピーカで構成される。
【0029】
情報処理システム10の各機能モジュールは、補助記憶部103に予め記憶されるプログラム110により実現される。具体的には、各機能モジュールは、プロセッサ101または主記憶部102の上にプログラム110を読み込ませてプロセッサ101にそのプログラム110を実行させることで実現される。プロセッサ101はそのプログラム110に従って、通信制御部104、入力装置105、または出力装置106を動作させ、主記憶部102または補助記憶部103におけるデータの読み出しおよび書き込みを行う。処理に必要なデータまたはデータベースは主記憶部102または補助記憶部103内に格納されてもよい。
【0030】
プログラム110は情報処理プログラムに相当し得る。プログラム110は、例えば、CD-ROM、DVD-ROM、半導体メモリなどの有形の記録媒体に固定的に記録された上で提供されてもよい。あるいは、プログラム110は、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。
【0031】
情報処理システム10は1台のコンピュータ100で構成されてもよいし、複数台のコンピュータ100で構成されてもよい。複数台のコンピュータ100を用いる場合には、これらのコンピュータ100がインターネットやイントラネットなどの通信ネットワークを介して接続されることで、論理的に一つの情報処理システム10が構築される。
【0032】
コンピュータ100の種類は限定されない。例えば、コンピュータ100は据置型または携帯型のパーソナルコンピュータ(PC)でもよいし、ワークステーションでもよいし、高機能携帯電話機(スマートフォン)、携帯電話機、携帯情報端末(PDA)などの携帯端末でもよい。情報処理システム10は複数種類のコンピュータを組み合わせて構築されてもよい。
【0033】
[システムの動作]
図5を参照しながら、情報処理システム10の動作の一例について説明するとともに、本開示に係る、教師データの生成方法、学習済みモデルの生成方法、および動作推定方法について説明する。図5は情報処理システム10の動作の一例を処理フローS2として示すフローチャートである。図5は処理フローS1との対応関係も示す。
【0034】
ステップS21では、ラベル取得部12が映像から推定されたラベルを取得する。ステップS21はステップS13に対応する。一例では、ラベル取得部12はラベルデータベース31にアクセスして、所与の時間幅におけるラベルの変化を示すラベルデータを読み出す。取得されるラベルデータは、一つのデータセット(例えば、統合されたデータセット)によって表されてもよいし、複数のデータセットの集合によって表されてもよい。ラベルデータの各レコードは、時刻と少なくとも一つのラベルとの対応関係を示す。個々のレコードは、サンプルオブジェクトの動作を示す少なくとも一つの動作ラベルを含み、動作に関係する位置に存在するオブジェクトを示す関連ラベルを更に含み得る。
【0035】
ステップS22では、CSI取得部13が映像に対応するCSI(第1CSI)を取得する。ステップS22はステップS13に対応する。一例では、CSI取得部13はCSIデータベース32にアクセスして、映像に対応するCSIを示すCSIデータを読み出す。CSIデータの各レコードは時刻とCSIとの対応関係を示す。「映像に対応するCSI」とは、映像との間で時刻の対応を有するCSI、すなわち、該映像が撮影されたタイミングで測定されたCSIをいう。
【0036】
対象空間において様々な電波が飛び交う場合には、CSIを得ようとする電波が他の電波と激しく干渉して、正常なCSI(解析する意味があるCSI)を一時的に取得できない可能性がある。CSI取得部13は、CSIが意味を成さないと考えられるそのような時間幅を異常区間として認定し、この異常区間をCSIデータから除去してもよい。例えば、CSI取得部13は、振幅の変動幅が所与の閾値以下である状況(例えば振幅が一定の値である状況)が所与の時間Th以上継続した異常区間をCSIデータから除去してもよい。その時間Thは例えば1秒、2秒、3秒、4秒、または5秒でもよい。
【0037】
ステップS21,S22は、所与の時間幅において並行して記録された映像およびCSIを教師データ生成部11が取得することを意味する。一例では、「映像との間で時刻の対応を有するCSI」とは、映像との間で時刻の同期が取られたCSIである。あるいは、「映像との間で時刻の対応を有するCSI」は、映像との間の時刻の差が既知であって、その差を考慮して映像との間で照合することが可能なCSIでもよい。映像とCSIとの間で時刻同期が行われる場合、この処理は情報処理システム10により実行されてもよいし、他のコンピュータシステムにより実行されてもよい。時刻同期はネットワーク・タイム・プロトコル(NTP)により実行されてもよいし、より精密に時刻を同期させるための追加のまたは代替の手法により実行されてもよい。
【0038】
ステップS23では、データセット生成部14が時刻に基づいてラベルをCSI(第1CSI)に関連付けることで教師データを生成する。ステップS23はステップS13に対応する。一例では、データセット生成部14はCSIデータのそれぞれのレコードについて以下の処理を実行する。すなわち、データセット生成部14はそのレコードにより示される時刻を特定し、その時刻に対応するラベルデータのレコードで示される少なくとも一つのラベルを特定する。そして、データセット生成部14は、その時刻と、CSIと、ラベルとを互いに関連付けて教師データの1レコードを生成する。データセット生成部14は個々の時刻についてこのようにラベルをCSIに関連付けることで、教師データの複数のレコード(データセット)を生成する。異常区間が除去されたCSIデータを処理する場合には、データセット生成部14は、その異常区間以外の区間内のCSIに対してラベリングを実行する。一例では、データセット生成部14はその教師データを学習用データベース33に格納する。
【0039】
図6は教師データのデータ構造の一例を示す図である。この例では、教師データの各レコードは時刻、CSI、およびラベルを含む。この例では、CSIは受信機のアンテナ数N、送信機のアンテナ数N、および1伝搬路あたりのサブキャリア数Nの積である個数分の複素数Hの多次元行列(これは、上述したN個の行列Hに対応する)により表され得る。この例では個々のレコードは一つのラベルを含む。時刻、CSI、およびラベルの対応関係が示される限り、教師データは他のデータ構造によって表現されてもよい。
【0040】
図5に戻って、ステップS24では、学習部15がその教師データを用いて、対象オブジェクトの動作を推定するための学習済みモデル20を生成する。ステップS24は学習フェーズであり、ステップS14に対応する。上述したように、学習部15はLSTMなどのRNNにより学習済みモデル20を生成してもよい。学習部15は教師データのそれぞれのレコードについて以下の処理を実行する。学習部15はそのレコードで示されるCSIを機械学習モデルに入力し、その機械学習モデルから出力される推定値を得る。学習部15はその推定値と、そのレコードで示されるラベル(すなわち、正解)との誤差に基づいて、バックプロパゲーション(誤差逆伝播法)などの手法を用いて機械学習モデル内のパラメータを更新する。例えば学習部15は、機械学習モデルを構成するニューラルネットワークの重みを更新する。学習部15は所与の終了条件が満たされるまで機械学習を継続する。例えば、学習部15は検証用データを用いて機械学習モデルの性能を評価し、その評価が所与の基準を満たす場合に機械学習を終了してもよい。あるいは、終了条件は誤差に基づいて設定されてもよいし、処理するレコードの個数、すなわち学習の回数に基づいて設定されてもよい。
【0041】
ステップS25では、推定部16が、運用フェーズにおけるCSI(第2CSI)を学習済みモデル20に入力して対象オブジェクトの動作を推定する。ステップS25はステップS15に対応する。推定部16は対象空間でのCSIを示すCSIデータを取得する。運用フェーズでは、対象オブジェクトの動作は映像を用いることなくCSIから推定されるので、映像を取得する必要はなく、まして、CSIと映像との間で時刻の対応を取る必要もない。推定部16は、ユーザによって入力されたCSIデータを取得してもよいし、他のコンピュータから送られてきたCSIデータを受信してもよい。あるいは、推定部16はCSIデータベース32または他のデータベースにアクセスして、運用フェーズでのCSIデータを読み出してもよい。
【0042】
推定部16は少なくとも1レコードを含むCSIデータを処理する。一例では、推定部16は時系列に沿って並ぶ複数のレコードを処理して、対象空間における対象オブジェクトの一連の動作を推定する。推定部16は推定結果を出力する。例えば、推定部16はその推定結果を、モニタ上に表示してもよいし、所定のデータベースに格納してもよいし、他のコンピュータシステムに送信してもよい。あるいは、情報処理システム10はその推定結果を用いてさらなる処理を実行してもよい。推定部16は推定結果をテキストデータ、コンピュータグラフィックス(CG)、音声データなどの様々な手法で出力してよい。
【0043】
[効果]
以上説明したように、本開示の一側面に係る情報処理システムは、少なくとも一つのプロセッサを備える。少なくとも一つのプロセッサは、対象空間を映す映像中のサンプルオブジェクトの動作を示す動作ラベルの経時変化を示すラベルデータを取得し、対象空間における無線通信の第1チャネル状態情報であって、映像との間で時刻の対応を有する該第1チャネル状態情報の経時変化を示すCSIデータを取得し、時刻に基づいて動作ラベルを第1チャネル状態情報に関連付けることで教師データを生成し、対象空間における対象オブジェクトの動作を、該対象空間における無線通信の第2チャネル状態情報から推定する学習済みモデルを生成するために、教師データを出力する。
【0044】
本開示の一側面に係る教師データの生成方法は、対象空間を映す映像中のサンプルオブジェクトの動作を示す動作ラベルの経時変化を示すラベルデータを取得するステップと、対象空間における無線通信の第1チャネル状態情報であって、映像との間で時刻の対応を有する該第1チャネル状態情報の経時変化を示すCSIデータを取得するステップと、時刻に基づいて動作ラベルを第1チャネル状態情報に関連付けることで教師データを生成するステップと、対象空間における対象オブジェクトの動作を、該対象空間における無線通信の第2チャネル状態情報から推定する学習済みモデルを生成するために、教師データを出力するステップとを含む。
【0045】
本開示の一側面に係る情報処理プログラムは、対象空間を映す映像中のサンプルオブジェクトの動作を示す動作ラベルの経時変化を示すラベルデータを取得するステップと、対象空間における無線通信の第1チャネル状態情報であって、映像との間で時刻の対応を有する該第1チャネル状態情報の経時変化を示すCSIデータを取得するステップと、時刻に基づいて動作ラベルを第1チャネル状態情報に関連付けることで教師データを生成するステップと、対象空間における対象オブジェクトの動作を、該対象空間における無線通信の第2チャネル状態情報から推定する学習済みモデルを生成するために、教師データを出力するステップとをコンピュータに実行させる。
【0046】
このような側面においては、時刻が対応し合う映像および第1チャネル状態情報を用いて、該映像中のサンプルオブジェクトの動作を示す動作ラベルがその第1チャネル状態情報に関連付けられる。この手法によりチャネル状態情報が自動的にラベリングされるので、教師データを生成する労力を削減できる。その結果、チャネル状態情報からオブジェクトの動作を推定する学習済みモデルの生成も、その学習済みモデルを用いたオブジェクトの動作の推定も、容易に実施することが可能になる。
【0047】
学習済みモデルを生成するためには教師データの大量のデータセットを用意する必要があり、したがって、ラベリングの工数も増大する。このラベリングを手動で行うと教師データの準備にかなり多くの時間または労力が費やされ、加えて、ラベリングに誤りが生ずる可能性も高くなる。上記の側面によりそのラベリングが自動化されるので、大規模な教師データを正確に且つ簡易に生成できる。
【0048】
加えて、動作ラベルは映像から得られるので、様々なオブジェクトの様々な動作をラベリングすることが可能であり、したがって、様々な種類の動作ラベルを第1チャネル状態情報に関連付けることができる。これは、教師データがオブジェクトの様々な動作を網羅し得ることを意味する。その教師データを用いた機械学習によって、チャネル情報からオブジェクトの様々な動作を推定することが可能になる。
【0049】
他の側面に係る情報処理システムでは、少なくとも一つのプロセッサが、映像との間で時刻の同期が取られた第1チャネル状態情報を示すCSIデータを取得し、同期された時刻に基づいて第1チャネル状態情報に動作ラベルを関連付けることで教師データを生成してもよい。映像と第1チャネル情報との間で時刻の同期が取られるので、その時刻に基づく第1チャネル状態情報と動作ラベルとの関連付けを容易に実行できる。
【0050】
他の側面に係る情報処理システムでは、少なくとも一つのプロセッサが、サンプルオブジェクトの動作に関連する関連オブジェクトを示す関連ラベルの経時変化を更に示すラベルデータを取得し、時刻に基づいて更に関連ラベルを第1チャネル状態情報に関連付けることで教師データを生成してもよい。動作ラベルだけでなく関連ラベルもチャネル状態情報に関連付けられた教師データを用いることで、オブジェクトの動作をより詳細にまたはより正確に推定できる学習済みモデルの実現が期待できる。
【0051】
他の側面に係る情報処理システムでは、少なくとも一つのプロセッサが、第1チャネル状態情報により示される振幅の変動幅が、所与の時間以上の間、所与の閾値以下である異常区間をCSIデータから除去し、異常区間が除去されたCSIデータで示される第1チャネル状態情報に動作ラベルを関連付けることで教師データを生成してもよい。この異常区間ではチャネル状態情報が意味を成さない可能性がある。その異常区間を除外した上で教師データを生成することで、学習済みモデルの精度をより上げることが可能になる。
【0052】
他の側面に係る情報処理システムでは、少なくとも一つのプロセッサが、所与の時間以上の間において振幅が一定の値である異常区間をCSIデータから除去してもよい。或る時間幅において振幅が一定であるチャネル状態情報は明らかに意味を成さないので、その異常区間を除くことで、学習済みモデルの精度をより上げることが可能になる。
【0053】
他の側面に係る情報処理システムでは、少なくとも一つのプロセッサが、教師データを用いた機械学習により学習済みモデルを生成してもよい。
【0054】
本発明の一側面に係る学習済みモデルの生成方法は、対象空間を映す映像中のサンプルオブジェクトの動作を示す動作ラベルの経時変化を示すラベルデータを取得するステップと、対象空間における無線通信の第1チャネル状態情報であって、映像との間で時刻の対応を有する該第1チャネル状態情報の経時変化を示すCSIデータを取得するステップと、時刻に基づいて動作ラベルを第1チャネル状態情報に関連付けることで教師データを生成するステップと、対象空間における対象オブジェクトの動作を、該対象空間における無線通信の第2チャネル状態情報から推定する学習済みモデルを、教師データを用いた機械学習により生成するステップとを含む。
【0055】
このような側面においては、時刻が対応し合う映像および第1チャネル状態情報を用いて、該映像中のサンプルオブジェクトの動作を示す動作ラベルがその第1チャネル状態情報に関連付けられる。この手法によりチャネル状態情報が自動的にラベリングされるので、教師データを生成する労力を削減できる。その結果、チャネル状態情報からオブジェクトの動作を推定する学習済みモデルを容易に生成でき、ひいては、この学習済みモデルを用いてオブジェクトの動作の推定を容易に実施できる。この学習済みモデルはチャネル状態情報からオブジェクトの動作を推定する。このことは、対象空間を撮影することなくその推定が可能であることを意味する。したがって、オブジェクトが人である場合には、その人のプライバシーに配慮しつつその人の動作を推定できる。
【0056】
他の側面に係る情報処理システムでは、少なくとも一つのプロセッサが、第2チャネル状態情報を学習済みモデルに入力して、対象オブジェクトの動作を推定してもよい。この場合には、教師データの生成、学習済みモデルの生成、およびオブジェクトの動作の推定という一連の処理を容易に実行できる。
【0057】
[変形例]
以上、本開示での実施形態に基づいて詳細に説明した。しかし、本開示は上記実施形態に限定されるものではない。本開示は、その要旨を逸脱しない範囲で様々な変形が可能である。
【0058】
上述したように、本開示に係る情報処理システムは、学習済みモデル20を生成する機能を備えなくてもよく、その学習済みモデル20によって対象オブジェクトの動作を推定する機能を備えなくてもよい。
【0059】
本開示において、「少なくとも一つのプロセッサが、第1の処理を実行し、第2の処理を実行し、…第nの処理を実行する。」との表現、またはこれに対応する表現は、第1の処理から第nの処理までのn個の処理の実行主体(すなわちプロセッサ)が途中で変わる場合を含む概念を示す。すなわち、この表現は、n個の処理のすべてが同じプロセッサで実行される場合と、n個の処理においてプロセッサが任意の方針で変わる場合との双方を含む概念を示す。
【0060】
少なくとも一つのプロセッサにより実行される方法の処理手順は上記実施形態での例に限定されない。例えば、上述したステップの一部が省略されてもよいし、別の順序で各ステップが実行されてもよい。また、上述したステップのうちの任意の2以上のステップが組み合わされてもよいし、ステップの一部が修正または削除されてもよい。あるいは、上記の各ステップに加えて他のステップが実行されてもよい。
【0061】
二つの数値の大小関係の比較では、「以上」および「よりも大きい」という二つの基準のどちらが用いられてもよく、「以下」および「未満」という二つの基準のうちのどちらが用いられてもよい。このような基準の選択は、二つの数値の大小関係を比較する処理についての技術的意義を変更するものではない。
【符号の説明】
【0062】
10…情報処理システム、11…教師データ生成部、12…ラベル取得部、13…CSI取得部、14…データセット生成部、15…学習部、16…推定部、20…学習済みモデル、31…ラベルデータベース、32…CSIデータベース、33…学習用データベース。
図1
図2
図3
図4
図5
図6