(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-22
(45)【発行日】2024-03-04
(54)【発明の名称】再生制御装置及び再生制御プログラム
(51)【国際特許分類】
H04N 21/4545 20110101AFI20240226BHJP
H04N 21/442 20110101ALI20240226BHJP
H04N 5/77 20060101ALI20240226BHJP
H04N 5/783 20060101ALI20240226BHJP
H04N 5/93 20060101ALI20240226BHJP
G06T 7/00 20170101ALI20240226BHJP
【FI】
H04N21/4545
H04N21/442
H04N5/77
H04N5/783
H04N5/93
G06T7/00 300F
G06T7/00 350B
(21)【出願番号】P 2019210882
(22)【出願日】2019-11-21
【審査請求日】2022-10-31
【国等の委託研究の成果に係る記載事項】(出願人による申告)国立研究開発法人科学技術振興機構、「集合視による注視・行動解析に基づくライフイノベーション創出」委託研究、産業技術力強化法第17条の適用を受ける特許出願
(73)【特許権者】
【識別番号】598121341
【氏名又は名称】慶應義塾
(74)【代理人】
【識別番号】100127384
【氏名又は名称】坊野 康博
(72)【発明者】
【氏名】杉本 麻樹
(72)【発明者】
【氏名】林田 哲
(72)【発明者】
【氏名】吉田 啓太郎
【審査官】益戸 宏
(56)【参考文献】
【文献】韓国登録特許第10-1926123(KR,B1)
【文献】米国特許出願公開第2014/0012793(US,A1)
【文献】特開2011-036372(JP,A)
【文献】特開2002-042139(JP,A)
【文献】特開2019-185726(JP,A)
【文献】米国特許出願公開第2019/0279765(US,A1)
【文献】小泉 敬寛 Takahiro KOIZUMI,捜し物検索のための個人視点映像からの手掛かり発見 Video Processing and Retrieval for Finding Lost Item from Personal Eye-View Video,映像情報メディア学会技術報告 Vol.34 No.25 ITE Technical Report,日本,(社)映像情報メディア学会 The Institute of Image Information and Television Engineers,2010年06月01日,第34巻
【文献】小泉 敬寛 Takahiro KOIZUMI,個人視点映像からの隣接性を用いた物体探索 Object Retrieval in Personal Eye-View Video using Adjacency,電子情報通信学会技術研究報告 Vol.107 No.130 IEICE Technical Report,日本,社団法人電子情報通信学会 The Institute of Electronics,Information and Communication Engineers,2007年07月01日,第107巻
(58)【調査した分野】(Int.Cl.,DB名)
H04N 21/00 ー 21/858
H04N 5/00 ー 5/956
G06T 7/00 ー 7/90
(57)【特許請求の範囲】
【請求項1】
時間的に連続した複数の画像データを取得する画像データ取得手段と、
前記複数の画像データそれぞれの画像内から所定の対象を含んだ対象領域を検出する領域検出手段と、
前記対象領域における前記所定の対象の動きに基づいた特徴量と、前記対象領域以外の領域である非対象領域における物体の動きに基づいた特徴量とを、前記複数の画像データそれぞれから抽出する特徴量抽出手段と、
前記特徴量を学習モデルに入力することにより、所定の場面に対応する画像データを検出する場面検出手段と、
前記場面検出手段が検出した前記所定の場面に対応する画像データを示す情報に基づいて、前記複数の画像データの再生を制御する再生制御手段と、
を備えることを特徴とする再生制御装置。
【請求項2】
前記再生制御手段は、前記複数の画像データを連続的に再生する場合に、前記場面検出手段が検出した前記所定の場面に対応する画像データの再生の態様と、それ以外の画像データの再生の態様とを異ならせることを特徴とする請求項1に記載の再生制御装置。
【請求項3】
前記再生制御手段は、前記複数の画像データを連続的に再生する場合に、前記場面検出手段が検出した前記所定の場面に対応する画像データの再生速度を、それ以外の画像データの再生速度よりも遅くすることを特徴とする請求項1又は2に記載の再生制御装置。
【請求項4】
前記再生制御手段は、前記複数の画像データを連続的に再生する場合に、前記場面検出手段が検出した前記所定の場面に対応する画像データの一部の領域を拡大して再生することを特徴とする請求項1乃至3の何れか1項に記載の再生制御装置。
【請求項5】
前記所定の場面は、連続的に再生される前記複数の画像データの閲覧の目的となる場面であって、複数のユーザによる協働作業が行われている場面であり、
前記所定の対象は、前記協働作業を行う複数のユーザそれぞれの部位であり、
前記複数の画像データは、前記協働作業を行う何れかのユーザの視野に相当する空間を撮影した画像データである、
ことを特徴とする請求項1乃至4の何れか1項に記載の再生制御装置。
【請求項6】
前記複数の画像データの撮影時に撮影対象を視認したユーザの注視点を検出する注視点検出手段をさらに備え、
前記特徴量抽出手段は、前記複数の画像データ間の前記撮影対象を視認したユーザの注視点の変化に基づいて、前記複数の画像データそれぞれから特徴量をさらに抽出する、
ことを特徴とする請求項1乃至5の何れか1項に記載の再生制御装置。
【請求項7】
前記特徴量を含む入力データと、前記所定の場面に対応する画像データを示すラベルとの組を教師データとして機械学習を行うことにより、前記学習モデルを構築する学習手段をさらに備えることを特徴とする請求項1乃至6の何れか1項に記載の再生制御装置。
【請求項8】
前記所定の場面は、所定の順番で行われる複数の場面であり、
前記特徴量に、前記所定の順番を示す情報も含まれることを特徴とする請求項7に記載の再生制御装置。
【請求項9】
時間的に連続した複数の画像データを取得する画像データ取得機能と、
前記複数の画像データそれぞれの画像内から所定の対象を含んだ対象領域を検出する領域検出機能と、
前記対象領域における前記所定の対象の動きに基づいた特徴量と、前記対象領域以外の領域である非対象領域における物体の動きに基づいた特徴量とを、前記複数の画像データそれぞれから抽出する特徴量抽出機能と、
前記特徴量を学習モデルに入力することにより、所定の場面に対応する画像データを検出する場面検出機能と、
前記場面検出機能が検出した前記所定の場面に対応する画像データを示す情報に基づいて、前記複数の画像データの再生を制御する再生制御機能と、
をコンピュータに実現させることを特徴とする再生制御プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、再生制御装置及び再生制御プログラムに関する。
【背景技術】
【0002】
従来、動画を閲覧するユーザの操作に応じて、再生を制御する技術が知られている。
例えば、特許文献1には、ユーザのタッチパネルに対する接触操作の継続時間や、接触操作の押圧力に基づいて、動画の再生速度を段階的に変化させることが開示されている。これにより、ユーザは、早送りボタンやシークバー等の一般的なユーザインタフェースを操作する場合に比べて、より直感的に再生の制御をすることができる。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上述したようなユーザの操作内容に応じて再生の制御をする方法では、ユーザが再生制御のための様々な操作を行う必要があり、ユーザにとって煩雑である。また、例えば、はじめて閲覧する動画等では、ユーザは所定の場面(例えば、動画の閲覧の目的となる場面)が、動画のどの箇所に含まれているかを特定することが容易ではない。
【0005】
本発明は、このような状況に鑑みてなされたものである。そして、本発明の課題は、再生に関する制御によって、より適切にユーザの閲覧を支援することである。
【課題を解決するための手段】
【0006】
上記課題を解決するため、本発明の一実施形態に係る再生制御装置は、
時間的に連続した複数の画像データを取得する画像データ取得手段と、
前記複数の画像データそれぞれの画像内から所定の対象を含んだ対象領域を検出する領域検出手段と、
前記複数の画像データ間の画像の変化と、当該変化している領域が前記対象領域であるか否かと、に基づいて前記複数の画像データそれぞれから特徴量を抽出する特徴量抽出手段と、
前記特徴量を学習モデルに入力することにより、所定の場面に対応する画像データを検出する場面検出手段と、
前記場面検出手段が検出した前記所定の場面に対応する画像データを示す情報に基づいて、前記複数の画像データの再生を制御する再生制御手段と、
を備えることを特徴とする。
【発明の効果】
【0007】
本発明によれば、再生に関する制御によって、より適切にユーザの閲覧を支援することができる。
【図面の簡単な説明】
【0008】
【
図1】本発明の一実施形態に係る再生制御システムの全体構成の一例を示すブロック図である。
【
図2】本発明の一実施形態に係るウェアラブルカメラの構成の一例を示すブロック図である。
【
図3】本発明の一実施形態に係る再生制御装置の構成の一例を示すブロック図である。
【
図4】本発明の一実施形態に係る再生制御装置による処理での対象領域と注視点の検出について説明する模式図である。
【
図5】本発明の一実施形態に係る再生制御装置による処理での注視点の移動距離について説明する模式図である。
【
図6】本発明の一実施形態に係る再生制御装置による処理での背景の移動量について説明する模式図である。
【
図7】本発明の一実施形態に係る再生制御装置による処理での動作部位の移動量について説明する模式図である。
【
図8】本発明の一実施形態に係る再生制御装置による処理での再生時のユーザインタフェースの一例について示す模式図である。
【
図9】本発明の一実施形態に係るウェアラブルカメラが実行する撮影処理の流れを説明するフローチャートである。
【
図10】本発明の一実施形態に係る再生制御装置が実行する学習処理の流れを説明するフローチャートである。
【
図11】本発明の一実施形態に係る再生制御装置が実行する再生制御処理の流れを説明するフローチャートである。
【発明を実施するための形態】
【0009】
以下、添付の図面を参照して本発明の実施形態の一例について説明する。
【0010】
[システム構成]
図1は、本実施形態に係る再生制御システムSの全体構成を示すブロック図である。
図1に示すように、再生制御システムSは、ウェアラブルカメラ10と、再生制御装置20とを含む。また、
図1には、ウェアラブルカメラ10を装着するユーザUも図示する。
【0011】
これらウェアラブルカメラ10と再生制御装置20とは、相互に通信可能に接続される。この各装置の間での通信は、任意の通信方式に準拠して行われてよく、その通信方式は特に限定されない。また、通信接続は、有線接続であっても、無線接続であってもよい。更に、各装置の間での通信は、直接行われてもよいし、中継装置を含んだネットワークを介して行われてもよい。この場合、ネットワークは、例えば、LAN(Local Area Network)や、インターネットや、携帯電話網といったネットワーク、或いはこれらを組み合わせたネットワークにより実現される。
【0012】
ウェアラブルカメラ10は、ユーザUの視野に相当する空間を撮影した画像(以下、「視野画像」と称する。)を撮影する機能を備えたデバイスである。ウェアラブルカメラ10は、例えば、眼鏡型のウェアラブルデバイスにより実現される。
【0013】
また、ウェアラブルカメラ10は、視野画像の撮影と同時に、ユーザUが視野のなかで注視している箇所である注視点の計測も行う。更に、ウェアラブルカメラ10は、撮影した視野画像と、計測したユーザUの注視点の情報(例えば、注視点の位置に対応する二次元座標の座標値)とを含む画像データを生成する。更に、ウェアラブルカメラ10は、このような画像データの生成のための処理を繰り返すことにより、ユーザUの視野画像と注視点の変化を示す、時間的に連続した複数の画像データからなる動画を生成する。そして、ウェアラブルカメラ10は、この複数の画像データからなる動画を再生制御装置20に対して送信する。
【0014】
再生制御装置20は、ウェアラブルカメラ10から受信した動画の再生を制御する装置である。再生制御装置20は、例えば、パーソナルコンピュータやサーバ装置により実現される。
具体的な処理の内容として、再生制御装置20は、ウェアラブルカメラ10から、時間的に連続した複数の画像データを取得する。また、再生制御装置20は、この複数の画像データそれぞれの画像内から所定の対象を含んだ対象領域を検出する。更に、再生制御装置20は、この複数の画像データ間の画像の変化と、当該変化している領域が対象領域であるか否かと、に基づいてこの複数の画像データそれぞれから特徴量を抽出する。更に、再生制御装置20は、この特徴量を学習モデルに入力することにより、所定の場面(例えば、動画の閲覧の目的となる場面)に対応する画像データを検出する。そして、再生制御装置20は、検出した所定の場面に対応する画像データを示す情報に基づいて、複数の画像データの再生を制御する。
【0015】
このように、ウェアラブルカメラ10は、ユーザUの視野画像や注視点の変化を示す、複数の画像データからなる動画を生成することができる。また、再生制御装置20は、動画内の複数の画像データから抽出した特徴量と、学習モデルとに基づいて、所定の場面を検出すると共に、所定の場面であるか否かに基づいて、複数の画像データからなる動画の再生を制御することができる。
従って、本実施形態に係る再生制御システムSによれば、再生に関する制御によって、より適切にユーザの閲覧を支援することができる。
【0016】
このような閲覧の支援を行うことから、再生制御システムSによれば、上述したような、ユーザが再生制御のための様々な操作を行う必要があり、ユーザにとって煩雑である、という問題を解消することができる。他にも、再生制御システムSによれば、上述したような、はじめて閲覧する動画等では、ユーザは所定の場面(例えば、動画の閲覧の目的となる場面)が、動画のどの箇所に含まれているかを特定することが容易ではない、という問題を解消することができる。
【0017】
このような再生制御システムSは、様々な用途において利用することができる。以下では、再生制御システムSの好適な用途の一例として、ユーザUが所定の作業として手術を行う執刀医である場合を例にとって説明する。そして、この手術における、(1)ユーザUの視線の動き、(2)ユーザUの視野画像における背景変化、及び(3)ユーザUの動作部位である手の動き、という3つの特徴量に基づいた機械学習をすることによって、所定の場面である切開場面を検出する用途に再生制御システムSを用いることを想定する。
【0018】
切開場面では、患部に注視した作業であるためユーザUの視線の動きが小さく、ユーザUが頭を動かさないので背景の変化も少なく、手先による精緻な作業であるため手の全体の動きは小さいと考えられる。すなわち、これら3つの特徴量は、切開場面との関連性が高い特徴量であるため、切開場面の検出の用途に好適と考えられる。なお、所定の作業である手術は、ユーザU一人で行われてもよいが、以下の説明では、ユーザUと助手とによる協働作業として行われることを想定する。そのため、上記(3)においては、助手の動作部位である手の動きも特徴量として抽出される。
【0019】
この手術の動画に再生制御システムSを用いるという用途に関して、より詳細に説明する。医療技術を伝達する方法の1つとして手術動画を参照するという方法がある。特に若い外科医には執刀医として手術を経験する機会が限られるため、執刀医の視野に対応する一人称視点での手術動画は、手術の実践訓練を補うための教材として有益である。しかしながら、手術の動画は長時間となることが多い。例えば、乳腺外科における腫瘍摘出手術では、二時間程度の録画時間となることも少なくない。こうした長時間の動画から、動画の閲覧の目的となるような所定の場面(ここでは、一例として切開場面)を特定するには多くの時間を要してしまう。なぜならば、手術動画には準備場面や片付け場面といった、手術において本質的ではない場面も含まれているためである。
【0020】
そこで、上述したように再生制御システムSを用いることにより、長時間となりがちな手術の動画から、動画の閲覧の目的となる切開場面を検出し、この検出した切開場面を、他の場面(例えば、準備場面や片付け場面)よりも、閲覧者であるユーザにとってより見やすい態様で閲覧できるようにする。これにより、閲覧者であるユーザは、再生制御のための煩雑な操作を行うことなく、容易に切開場面を閲覧することができる。
【0021】
また、繰り返しになるが、これは好適な用途の一例に過ぎず、再生制御システムSを利用することができる用途を限定する趣旨ではない。すなわち、再生制御システムSは、これ以外にも任意の動画の再生の制御に利用することができる。また、再生を制御する動画に作業が含まれる場合、この作業は、単独の作業者による作業であってもよく、複数の作業者による協働作業であってもよい。
【0022】
なお、以下では説明を明確とするために、ウェアラブルカメラ10を装着して手術を行うユーザ(
図1のユーザUに相当)及びその助手を「作業者」と称する。これに対して、再生制御装置20が再生する手術の動画を閲覧するユーザを「閲覧者」と称する。
【0023】
[ウェアラブルカメラの構成]
次に、ウェアラブルカメラ10の構成について、
図2のブロック図を参照して説明をする。
図2に示すように、ウェアラブルカメラ10は、CPU(Central Processing Unit)11と、ROM(Read Only Memory)12と、RAM(Random Access Memory)13と、通信部14と、センサ部15と、記憶部16と、入力部17と、撮像部18と、アイトラッキング部19と、を備えている。これら各部は、信号線により接続されており、相互に信号を送受する。
【0024】
CPU11は、ROM12に記録されているプログラム、又は、記憶部16からRAM13にロードされたプログラムに従って各種の処理(例えば、後述する撮影処理)を実行する。
RAM13には、CPU11が各種の処理を実行する上において必要なデータ等も適宜記憶される。
【0025】
通信部14は、CPU11が、他の装置(例えば、再生制御装置20)との間で通信を行うための通信制御を行う。
センサ部15は、加速度センサやジャイロセンサで構成され、ウェアラブルカメラ10を装着した作業者の動きを測定する。このようなセンサ部15の測定結果に基づいて、CPU11は、キャリブレーションをした後の、撮像部18と作業者とのズレの補正等の処理を行うことができる。
【0026】
記憶部16は、DRAM(Dynamic Random Access Memory)等の半導体メモリで構成され、各種データを記憶する。
入力部17は、各種ボタン及びタッチパネル等で構成され、ユーザの指示操作に応じて各種情報を入力する。
【0027】
撮像部18は、レンズ及び撮像素子等を備えた撮像装置によって構成され、視野画像を撮像する。
アイトラッキング部19は、LED(Light Emitting Diode)等の発光素子と、アイトラッキング用の撮像装置によって構成され、注視点を計測する。具体的には、アイトラッキング部19は、発光素子を発光させることにより作業者の角膜上に光の反射点を生じさせると共に、その作業者の眼球の画像をアイトラッキング用の撮像装置で撮像する。そして、アイトラッキング部19は、撮像された眼球の画像を解析することにより、作業者の注視点を示す情報として、注視点の位置に対応する二次元座標の座標値を算出する。
【0028】
これら撮像部18やアイトラッキング部19は、作業者がウェアラブルカメラ10を装着した状態において、視野画像の撮影や注視点の測定を行うのに適した位置に配置される。例えば、撮像部18のレンズは、ウェアラブルカメラ10における眼鏡のブリッジ部分に配置される。また、例えば、アイトラッキング部19の発光装置やアイトラッキング用の撮像装置は、ウェアラブルカメラ10における眼鏡のレンズ周辺に配置される。
【0029】
ウェアラブルカメラ10では、これら各部が協働することにより、「撮影処理」を行なう。
ここで、撮影処理は、ウェアラブルカメラ10が、視野画像と注視点の位置を示す情報とに基づいて、時間的に連続した複数の複数の画像データからなる動画を生成する一連の処理である。
【0030】
この撮影処理が実行される場合、
図2に示すように、CPU11において、視野画像撮影部111と、注視点計測部112と、画像データ生成部113と、画像データ送信部114と、が機能する。
また、記憶部16の一領域には、画像データ記憶部161が設けられる。
以下で特に言及しない場合も含め、これら機能ブロック間では、処理を実現するために必要なデータを、適切なタイミングで適宜送受信する。
【0031】
視野画像撮影部111は、撮像部18を用いて、所定の周期(すなわち、所定のフレームレート)で視野画像を撮影する。そして、視野画像撮影部111は、撮影により得られた視野画像を画像データ生成部113に対して出力する。
【0032】
注視点計測部112は、アイトラッキング部19を用いて、視野画像撮影部111による撮影と同様の所定の周期(すなわち、所定のフレームレート)で注視点の位置に対応する二次元座標の座標値を算出する。そして、注視点計測部112は、算出した注視点の位置に対応する座標値を画像データ生成部113に対して出力する。
【0033】
画像データ生成部113は、視野画像撮影部111から入力された視野画像と、注視点計測部112から入力された注視点の位置に対応する座標値とを、フレーム単位で対応付けする(すなわち、合成する)ことにより、注視点の情報を含んだ画像データを生成する。そして、画像データ生成部113は、生成した画像データを画像データ記憶部161に記憶させる。
視野画像撮影部111、注視点計測部112、及び画像データ生成部113は、作業者による作業が継続している間、このような画像データの生成のための処理を繰り返すことにより、ユーザUの視野画像と注視点の変化を示す、時間的に連続した複数の画像データを生成する。
【0034】
画像データ送信部114は、画像データ生成部113により生成されて、画像データ記憶部161に記憶されている、時間的に連続した複数の画像データを、動画データの形式に変換して再生制御装置20に対して送信する。なお、この複数の画像データを動画データの形式に変換する処理は、複数の画像データを受信した再生制御装置20が行うようにしてもよい。
【0035】
[再生制御装置の構成]
次に、再生制御装置20の構成について、
図3のブロック図を参照して説明をする。
図3に示すように、再生制御装置20は、CPU21と、ROM22と、RAM23と、通信部24と、記憶部25と、入力部26と、出力部27と、ドライブ28と、を備えている。これら各部は、信号線により接続されており、相互に信号を送受する。
【0036】
CPU21は、ROM22に記録されているプログラム、又は、記憶部25からRAM23にロードされたプログラムに従って各種の処理(例えば、後述する学習処理や再生制御処理)を実行する。
RAM23には、CPU21が各種の処理を実行する上において必要なデータ等も適宜記憶される。
【0037】
通信部24は、CPU21が、他の装置(例えば、ウェアラブルカメラ10)との間で通信を行うための通信制御を行う。
記憶部25は、DRAM(Dynamic Random Access Memory)等の半導体メモリで構成され、各種データを記憶する。
【0038】
入力部26は、各種ボタン及びタッチパネル、又はマウス及びキーボード等の外部入力装置で構成され、ユーザの指示操作に応じて各種情報を入力する。
出力部27は、ディスプレイやスピーカ等で構成され、画像や音声を出力する。
ドライブ28には、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等よりなる、リムーバブルメディア(図示を省略する。)が適宜装着される。ドライブ28よってリムーバブルメディアから読み出されたプログラムは、必要に応じて記憶部25にインストールされる。
【0039】
再生制御装置20では、これら各部が協働することにより、「学習処理」と、「再生制御処理」とを行なう。
ここで、学習処理は、再生制御装置20が、ウェアラブルカメラ10から受信した動画データから抽出される特徴量を含む入力データと、閲覧者から取得した所定の場面(ここでは、切開場面)を示すラベルとの組を教師データとして機械学習を行うことにより、学習モデルを構築(学習モデルの更新を含む)する一連の処理である。
また、再生制御処理は、再生制御装置20が、動画内の複数の画像データから抽出した特徴量と、学習処理により構築された学習モデルとに基づいて、所定の場面を検出すると共に、所定の場面であるか否かに基づいて、複数の画像データからなる動画の再生を制御する一連の処理である。
【0040】
これら学習処理や再生制御処理が実行される場合、
図3に示すように、CPU21において、画像データ取得部211と、領域検出部212と、注視点検出部213と、特徴量抽出部214と、が機能する。
また、記憶部25の一領域には、動画データ記憶部251と、学習モデル記憶部252と、が設けられる。
以下で特に言及しない場合も含め、これら機能ブロック間では、処理を実現するために必要なデータを、適切なタイミングで適宜送受信する。
【0041】
画像データ取得部211は、ウェアラブルカメラ10から複数の画像データを変換した動画データを、受信することにより取得する。そして、画像データ取得部211は、取得した複数の画像データを変換した動画データを動画データ記憶部251に記憶させる。なお、画像データを動画データの形式に変換する処理を再生制御装置20で行うようにしてもよい点については、画像データ送信部114の説明において上述した通りである。
【0042】
領域検出部212は、動画データ記憶部251に記憶されている動画データ内の各視野画像(すなわち、各フレーム)のそれぞれに対して、エッジ検出等の既存の手法を用いた画像認識を行うことにより、作業者の動作部位(ここでは、作業者の手)が含まれる領域である対象領域を検出する。
【0043】
注視点検出部213は、動画データ記憶部251に記憶されている動画データ内の各視野画像(すなわち、各フレーム)のそれぞれから、画像データ生成部113が画像データ生成時に画像データに含ませた、作業者の注視点の情報(ここでは、注視点の位置を示す座標値)を検出する。
【0044】
これら対象領域の検出及び注視点の情報の検出について、
図4を参照して説明する。
図4は、対象領域と注視点の検出について説明する模式図である。
図4に示すように、視野画像の一例である視野画像31は、動作部位32、動作部位33、メス34、及びマーキング35といった撮影された物体の画像を含む。また、視野画像31には、対象領域の境界36、及び注視点37を併せて図示する。
【0045】
視野画像31は、作業者である助手の補助のもと、作業者であるユーザUが切開をしている場面を撮影した視野画像である。
動作部位32は、作業者であるユーザU(執刀医)の動作部位の手である。一方で、動作部位33は、作業者である助手の動作部位の手である。
【0046】
メス34は、作業者であるユーザU(執刀医)が患者を切開するために用いているメスである。マーキング35は、手術部位を明確とするためにスキンマーカにより患者に引かれた線である。
【0047】
対象領域の境界36は、領域検出部212により検出された対象領域と、それ以外の領域である非対象領域の境界である。本例では、動作部位32及び動作部位33が含まれることから対象領域の境界36の内側が対象領域として検出され、外側が非対象領域として検出されている。なお、本例では対象領域は、1つの円型形状の領域として検出されているが、本実施形態を実装する環境等に応じて、各動作部位に対応して複数の領域として検出されるようにしてもよいし、円型以外の形状の領域として検出されるようにしてもよい。
【0048】
注視点37は、領域検出部212により検出された注視点の位置を示す座標値に対応する点である。これは、視野画像を撮影した際に、作業者であるユーザU(執刀医)が実際に注視していた注視点に対応する。
【0049】
領域検出部212及び注視点検出部213は、このように検出した対象領域と、注視点の情報とを、特徴量抽出部214に対して出力する。
【0050】
特徴量抽出部214は、領域検出部212及び注視点検出部213の検出結果や動画データの間での変化等に基づいて、動画データ内の各動画データ(すなわち、各フレーム)それぞれの特徴量を抽出する。
【0051】
第1の特徴量として、作業者であるユーザU(執刀医)の視線の動き(すなわち、注視点の移動)に基づいた特徴量の抽出について
図5を参照して説明する。
図5は、注視点の移動距離について説明する模式図である。まず、第nフレーム(nは1以上の整数値)の視野画像である視野画像41-nにおいて、注視点42-nとして示す位置に注視点が検出されたとする。次に、注視点が移動し、第mフレーム(m=n+1)の視野画像である視野画像41-mにおいて、注視点42-mとして示す位置に注視点が検出されたとする。この場合、注視点42-nから注視点42-mまでの距離が注視点の移動距離となる。この場合に、特徴量抽出部214は、第1の特徴量を、例えば、<注視点の移動に基づく特徴量の算出式>として示す以下の数式により算出することにより抽出する。
【0052】
<注視点の移動に基づく特徴量の算出式>
ユークリッド距離/単位時間
ただし、ユークリッド距離は注視点42-n及び注視点42-mの座標値の成分ごとの差分の2乗和の正の平方根であり、単位時間は視野画像の撮影時のフレームレートに対応する隣接するフレームの間隔である。
【0053】
第2の特徴量として、作業者であるユーザU(執刀医)の視野画像における背景変化に基づいた特徴量の抽出について
図6を参照して説明する。
図6は、背景の移動量について説明する模式図である。まず、第nフレーム(nは1以上の整数値)の視野画像内の非対象領域(すなわち、背景)である非対象領域43-nにおいて、物体44-nとして示す位置に手術台が撮影されたとする。次に、作業者であるユーザU(執刀医)の頭部の向きが変わったことから、第mフレーム(m=n+1)の視野画像内容の非対象領域である非対象領域43-mにおいて、物体44-mとして示す位置に手術台が撮影されたとする。
【0054】
この場合に、特徴量抽出部214は、第2の特徴量を算出するために、まずフレーム間の物体(ここでは、手術台)の動きを示す移動ベクトル(図中の矢印に相当)を算出する。この移動ベクトルの算出は、例えば、オプティカルフローのLukas-Kanade法に基づいて行うことができる。また、この場合の追跡する特徴点の検出は、例えば、コーナー検出等の既存の手法を用いることができる。ここで、本実施形態では、算出した全ての特徴点の移動ベクトルをそのまま特徴量として利用するのではなく、背景が大きく動いているか否かということを基準として特徴量とする。そこで、特徴量抽出部214は、第2の特徴量を、フレーム間における算出した全ての移動ベクトルの平均値を算出することにより抽出する。なお、ここでは、非対象領域におけるフレーム間における全ての移動ベクトルの平均値を第2の特徴量としているが、対象領域及び非対象領域双方におけるフレーム間における全ての移動ベクトルの平均値を第2の特徴量とするようにしてもよい。
【0055】
第3の特徴量として、作業者であるユーザU(執刀医)の動作部位(ここでは、手)の動きに基づいた特徴量の抽出について
図7を参照して説明する。
図7は、動作部位の移動量について説明する模式図である。まず、第nフレーム(nは1以上の整数値)の視野画像内の対象領域である対象領域45-nにおいて、動作部位-46nとして示す位置に動作部位である手が撮影されたとする。次に、作業者であるユーザU(執刀医)の手が移動したことから、第mフレーム(m=n+1)の視野画像内の対象領域である対象領域45-mにおいて、動作部位-46mとして示す位置に動作部位である手が撮影されたとする。
【0056】
この場合に、特徴量抽出部214は、第3の特徴量を算出するために、まずフレーム間の動作部位(ここでは、手)の動きを示す移動ベクトル(図中の矢印に相当)を算出する。この移動ベクトルの算出は、例えば、第2の特徴量と同様にして、オプティカルフローのLukas-Kanade法に基づいて行うことができる。ただし、動作部位の種類によっては、特徴点を十分に検出できない可能性がある。このような場合には、手に対応する画素全てを対象として、オプティカルフローのGunnar-Farneback法に基づいて移動ベクトルを算出するようにしてもよい。何れの場合であっても、特徴量抽出部214は、第3の特徴量を、第2の特徴量と同様の考えで、フレーム間における移動部位について算出した全ての移動ベクトルの平均値を算出することにより抽出する。
【0057】
そして、特徴量抽出部214は、算出することにより抽出したこれら3つの特徴量のそれぞれを出力する。出力先は、学習処理の場合には学習部215であり、再生制御処理の場合には場面検出部216である。
【0058】
学習部215は、特徴量抽出部214が抽出した3つの特徴量を含む入力データと、閲覧者から取得した所定の場面(ここでは、切開場面)を示すラベルとの組を教師データとして機械学習を行うことにより、学習モデルを構築(学習モデルの更新を含む)する。
ここで、学習対象とする動画データ内の各画像データの3つの特徴量については、上述したように特徴量抽出部214から入力されることにより取得される。
【0059】
ラベルは、予め閲覧者が学習対象とする動画を参照して、所定の場面(ここでは、切開場面)に対応する画像データに対して、ラベル付けのための操作を行うことにより生成される。例えば、切開場面であれば、メスを切り込む瞬間からメスを患部から離す瞬間までに対応する画像データに対してラベル付けを行う操作を行う。この操作に応じて、メスを切り込む瞬間からメスを患部から離す瞬間までに対応する画像データそれぞれに正解を示す情報(例えば、値「1」)を付与し、それ以外の画像データには不正解を示す情報(例えば、値「0」)を付与する。このラベル付けの処理により、学習部215は、各画像データのそれぞれについてラベルを取得することができる。このラベル付けの処理は、再生制御装置20により行われてもよいし、他の装置で行われて、その結果を再生制御装置20が取得するようにしてもよい。
【0060】
学習部215は、このようにして取得した3つの特徴量と、対応するラベルとを組にして教師データを生成する。そして、学習部215は、この教師データを用いて、例えば、教師ありの機械学習を行う。この場合、学習部215は、例えば、パーセプトロンを組み合わせて構成したニューラルネットワークにより、機械学習を行う。具体的には、教師データに含まれる特徴量をニューラルネットワークの入力層に対して入力データとして与え、ニューラルネットワークの出力層の出力がラベルと同じとなるように、各パーセプトロンについての重み付けを変更しながら学習を繰り返す。例えば、フォワードプロパゲーション(Forward-propagation)と呼ばれる手法で出力した後に、バックプロパゲーション(Back-propaation、誤差逆伝搬法とも呼ばれる。)という手法により各パーセプトロンの出力の誤差を小さくするように重み付け値を調整することを繰り返す。
学習部215は、このようにして、教師データの特徴を学習し、入力から結果を推定するための学習モデルを帰納的に獲得する。
【0061】
なお、機械学習の手法は必ずしも限定されず、例えば、一般的な全結合層のみのニューラルネットワークを用いてもよいし、RNN(Recurrent Neural Network)等の再帰型ニューラルネットワークを用いてもよい。
【0062】
そして、学習部215は、機械学習を終了する所定の条件が満たされると、構築した学習モデルを学習モデル記憶部252に記憶させる。機械学習を終了する所定の条件は、任意に設定することができるが、例えば、出力とラベルの誤差が所定の基準以下となることや、重み付けの調整の繰り返し回数が所定回数に達したことや、機械学習を開始してから所定時間が経過したこと等を所定の条件とすることができる。なお、学習モデルを構築するとは、新たに学習モデルを作成することのみならず、既存の学習モデルを新たな教師データにより更新することも含むものとする。
【0063】
場面検出部216は、特徴量抽出部214が抽出した3つの特徴量と、学習部215が構築して学習モデル記憶部252に記憶させた学習モデルとに基づいて、所定の場面(ここでは、切開場面)を検出する。ここで、再生制御対象とする動画データ内の各画像データの3つの特徴量については、上述したように特徴量抽出部214から入力されることにより取得される。
【0064】
場面検出部216は、このようにして取得した3つの特徴量を、学習モデルの入力層に対して入力データとして与え、ニューラルネットワークの出力層の出力に基づいて所定の場面(ここでは、切開場面)を検出する。例えば、場面検出部216は、出力層の出力が正解を示す情報(例えば、値「1」又は「所定の閾値以上の1に近い値」)であれば、その画像データは、所定の場面に対応する画像データであるとして検出する。
一方で、場面検出部216は、出力層の出力が不正解を示す情報(例えば、値「0」又は「所定の閾値未満の0に近い値」)であれば、その画像データは、所定の場面に対応する画像データとしては検出しない。すなわち、他の場面に対応する画像データとして検出する。
【0065】
そして、場面検出部216は、動画データ内の全ての画像データに対して、この検出する処理を行うと共に、検出した所定の場面に対応する画像データが何れの画像データであるかを示す情報を動画データに追加する。また、場面検出部216は、このように情報を追加した動画データを再生制御部217に対して出力すると共に、動画データ記憶部251に記憶させる。
【0066】
再生制御部217は、場面検出部216が情報を追加した動画データの再生において、場面検出部216が追加した情報に基づいて、再生する画像データが所定の場面に対応する画像データであるか否かを判定し、判定結果に基づいて再生に関する制御を行う。具体的に、再生制御部217は、動画データに含まれる、複数の画像データを連続的に再生する場合に、所定の場面に対応する画像データの再生の態様(以下、「第1の態様」と称する。)と、それ以外の画像データ(すなわち、他の場面に対応する画像データ)の再生の態様(以下、「第2の態様」と称する。)と、を異ならせる。
【0067】
前提として、所定の場面は、例えば、閲覧者が閲覧の目的とする場面であるので、他の場面よりも見やすい態様でユーザに閲覧させることが望ましい。
そこで、再生制御部217は、例えば、第1の態様での再生速度を、第2の態様での再生速度よりも遅くする。例えば、第1の態様での再生速度を、撮影時のフレームレートに沿った等速としたり、それよりも遅い再生速度(いわゆる、スロー再生)としたりする。一方で、第2の態様での再生速度を、撮影時のフレームレートに沿った等速よりも早い再生速度(いわゆる、早送り)とする。これにより、所定の場面を、他の場面よりもじっくりと閲覧者に閲覧させることができる。
【0068】
他にも、再生制御部217は、例えば、第1の態様で再生する場合に、所定の場面に対応する画像データの一部の領域を拡大して再生する。一方で、第2の態様で再生する場合に、特に拡大等の処理は行わない。これにより、所定の場面を、他の場面よりも事細かにユーザに閲覧させることができる。この場合に、拡大する領域としては、例えば、領域検出部212が検出した対象領域としたり、注視点検出部213が検出した注視点の周辺の領域としたり、動作部位の周辺の領域としたり、作業者が使用する道具(ここでは、メス)の周辺の領域としたりすることができる。
【0069】
なお、再生制御部217は、このように再生速度を異ならせることと、拡大を行うことの双方を組み合わせて行うようにしてもよい。また、他にも、例えば、第1の態様として、所定の場面であることを示すテキストを表示することや、所定の場面であることを示す音を出力するようにしてもよい。更に、他にも、例えば、第1の態様として、所定の場面に対応する、説明等のテキスト(例えば、切開場面において、切開の方法について解説するテキスト等)を表示するようにしてもよい。
【0070】
図8は、このような再生制御部217による再生の制御を伴う、再生時のユーザインタフェースの一例について示す模式図である。
図8に示すように、再生画面51は、再生領域52、シークバー53、スライダー54、所定の場面箇所55、及び操作用アイコン群56を含む。
【0071】
再生領域52は、再生制御対象とする動画の再生画像が表示される。シークバー53は、閲覧者の操作に応じて動画の再生位置を調整するために利用される。スライダー54は、現在の再生箇所を示す。所定の場面箇所55は、シークバー53において、検出された所定の場面に対応する箇所を示す。図中では、所定の場面箇所55をハッチングで表す。操作用アイコン群56は、いわゆる停止ボタンや、いわゆる早送りボタンや、いわゆる巻き戻しボタンに対応するアイコンである。
【0072】
閲覧者は、再生開始指示操作のみを行えば、再生領域52を参照することによって、所定の場面か否かに応じて異なる態様で再生される動画の再生画像を閲覧することができる。また、所定の場面箇所55が表示されていることから、閲覧者は、スライダー54や操作用アイコン群56を操作する場合に、所定の場面に容易に到達することができる。そのため、閲覧者は、従来のように、所定の場面に到達するために煩雑な操作を行うような必要はなくなる。すなわち、本実施形態によれば、再生に関する制御によって、より適切に閲覧者であるユーザの閲覧を支援することができる。
【0073】
[撮影処理]
次に、
図9を参照して、ウェアラブルカメラ10が実行する撮影処理の流れについて説明する。
図9は、ウェアラブルカメラ10が実行する撮影処理の流れを説明するフローチャートである。撮影処理は、作業を開始する作業者等のユーザからの、撮影開始指示操作に伴い実行される。
【0074】
ステップS11において、視野画像撮影部111は、撮像部18を用いて、所定の周期(すなわち、所定のフレームレート)で視野画像を撮影する。
ステップS12において、注視点計測部112は、アイトラッキング部19を用いて、視野画像撮影部111による撮影と同様の所定の周期(すなわち、所定のフレームレート)で注視点の位置に対応する二次元座標の座標値を算出する。
【0075】
ステップS13において、画像データ生成部113は、視野画像撮影部111から入力された視野画像と、注視点計測部112から入力された注視点の位置に対応する座標値とを、フレーム単位で対応付けする(すなわち、合成する)ことにより、注視点の情報を含んだ画像データを生成する。
【0076】
ステップS14において、画像データ生成部113は、作業を終了した作業者等のユーザからの、撮影終了指示操作があったか否かを判定する。撮影終了指示操作があった場合は、ステップS14においてYesと判定され、処理はステップS15に進む。一方で、撮影終了指示操作がない場合は、ステップS14においてNoと判定され、処理はステップS11から再度繰り返される。
【0077】
ステップS15において、画像データ送信部114は、画像データ生成部113により生成された、時間的に連続した複数の画像データを、動画データの形式に変換して再生制御装置20に対して送信する。これにより、本処理は終了する。
【0078】
[学習処理]
次に、
図10を参照して、再生制御装置20が実行する学習処理の流れについて説明する。
図10は、再生制御装置20が実行する学習処理の流れを説明するフローチャートである。学習処理は、閲覧者等のユーザからの、学習開始指示操作に伴い実行される。
【0079】
ステップS21において、画像データ取得部211は、ウェアラブルカメラ10から複数の画像データを変換した動画データを、受信することにより取得する。
ステップS22において、動画データ内の各視野画像(すなわち、各フレーム)のそれぞれに対して、画像認識を行うことにより、作業者の動作部位(ここでは、作業者の手)が含まれる領域である対象領域を検出する。
【0080】
ステップS23において、注視点検出部213は、動画データ内の各視野画像(すなわち、各フレーム)のそれぞれから、画像データ生成部113が画像データ生成時に画像データに含ませた、作業者の注視点の情報(ここでは、注視点の位置を示す座標値)を検出する。
ステップS24において、特徴量抽出部214は、領域検出部212及び注視点検出部213の検出結果や動画データの間での変化等に基づいて、動画データ内の各動画データ(すなわち、各フレーム)それぞれの特徴量を抽出する。
【0081】
ステップS25において、学習部215は、閲覧者の操作に基づいて生成された所定の場面(ここでは、切開場面)を示すラベルを取得する。
ステップS26において、学習部215は、特徴量と、対応するラベルとを組にして教師データを生成し、この教師データを用いて機械学習を行う。
【0082】
ステップS27において、学習部215は、機械学習を終了する所定の条件が満たされたか否かを判定する。なお、この機械学習を終了する所定の条件の具体的な内容については、学習部215の説明において上述した通りである。機械学習を終了する所定の条件が満たされた場合は、ステップS27においてYesと判定され、処理はステップS28に進む。一方で、機械学習を終了する所定の条件が満たされていない場合は、ステップS27においてNoと判定され、処理はステップS26を再度繰り返す。
【0083】
ステップS28において、学習部215は、機械学習の結果に基づいて、学習モデルを構築(学習モデルの更新を含む)する。これにより、本処理は終了する。
【0084】
[再生制御処理]
次に、
図11を参照して、再生制御装置20が実行する再生制御処理の流れについて説明する。
図11は、再生制御装置20が実行する再生制御処理の流れを説明するフローチャートである。再生制御処理は、閲覧者等のユーザからの、再生開始指示操作に伴い実行される。
【0085】
処理対象とする動画データが学習対象とする動画データから動画再生制御の対象とする動画データに代わる以外は、ステップS31からステップS34までの処理内容と、ステップS21からステップS24までの処理内容は同じであるので、重複する説明を省略する。
【0086】
ステップS35において、場面検出部216は、特徴量抽出部214が抽出した特徴量と、学習部215が構築した学習モデルとに基づいて、所定の場面(ここでは、切開場面)を検出する。そして、動画データ内の全ての画像データに対して、この検出する処理を行う。
ステップS36において、場面検出部216は、検出した所定の場面に対応する画像データが何れの画像データであるかを示す情報を動画データに追加する。
【0087】
ステップS37において、再生制御部217は、場面検出部216が所定の場面に対応する画像データが何れの画像データであるかを示す情報を追加した動画データを再生する。なお、ステップS36とステップS37は連続して実行されてもよいが、ステップS36の終了後、閲覧者等のユーザからの、再生開始指示操作に伴いステップS37が実行されてもよい。
【0088】
ステップS38において、再生制御部217は、再生する動画データ内の画像データが所定の場面に対応する画像データであるか否かを判定する。所定の場面に対応する画像データである場合は、ステップS38においてYesと判定され、処理はステップS39に進む。一方で、所定の場面に対応する画像データでない場合(すなわち、他の場面に対応する画像データである場合)は、ステップS38においてNoと判定され、処理はステップS40に進む。
【0089】
ステップS39において、再生制御部217は、所定の場面に対応する画像データを第1の態様で再生する。
ステップS40において、再生制御部217は、他の場面に対応する画像データを第2の態様で再生する。
【0090】
ステップS41において、218は、動画を最後まで再生したことにより動画が終了したか否かを判定する。動画が終了した場合は、ステップS41においてYesと判定され、本処理は終了する。一方で、動画が終了していない場合は、ステップS41においてNoと判定され、処理はステップS38から再度繰り返される。
【0091】
以上説明した、撮影処理、学習処理、及び再生制御処理によれば、再生に関する制御によって、より適切にユーザの閲覧を支援することができる。
例えば、これらの処理によれば、長時間となりがちな出術の動画から、動画の閲覧の目的となる切開場面を検出し、この検出した切開場面を、他の場面(例えば、準備場面や片付け画面)よりも、閲覧者であるユーザにとってより見やすい態様で閲覧できるようにする。これにより、閲覧者であるユーザは、再生制御のための煩雑な操作を行うことなく、容易に切開場面を閲覧することができる。また、画像データ内の自転車や人物といった、画像認識によって識別可能な汎用的な手がかりに基づいて単純に機械学習を繰り返すような場合よりも、所定の場面を検出するために適切な注視点等の特徴量に基づいて、より短期間な機械学習で所定の場面を検出することができる。
【0092】
[変形例]
以上、本発明の実施形態について説明したが、この実施形態は例示に過ぎず、本発明の技術的範囲を限定するものではない。本発明は、本発明の要旨を逸脱しない範囲で、その他の様々な実施形態を取ることが可能である共に、省略及び置換等種々の変形を行うことができる。この場合に、これら実施形態及びその変形は、本明細書等に記載された発明の範囲及び要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
一例として、以上説明した本発明の実施形態を、以下の変形例のようにして変形してもよい。
【0093】
<第1の変形例>
上述した実施形態では、手術における所定の場面(ここでは、切開場面)の特徴を適切に表していると考えられる3つの特徴量を用いて、学習モデルの構築及び所定の場面の検出を行っていた。これに限らず、検出しようとする所定の場面がどのような場面かに応じて、他の特徴量を追加して用いるようにしてもよいし、他の特徴量を代わりに用いるようにしてもよい。
【0094】
例えば、上述した実施形態では、作業者の手を動作部位としていたが、指や足といった作業者の他の部位を動作部位として特徴量を抽出して、これを用いるようにしてもよい。他にも、作業者の用いる道具(例えば、メス)等を動作部位として特徴量を抽出して、これを用いるようにしてもよい。
他にも、例えば、作業が行われる場所の周辺環境や、患部の形状や色の変遷等を考慮するために、各画素が示す色情報や明度情報の変化から特徴量を抽出して、これを用いるようにしてもよい。
【0095】
他にも、例えば、協働作業の場面をより精度高く検出するために、動作部位の数(例えば、手の数)を特徴量として抽出して、これを用いるようにしてもよい。協働作業においては、検出される手の数が3つ以上になる可能性が高いと考えられる。そのため、手のような動作部位の数も特徴量とすることで、より精度高く協働作業を検出することができる。また、協働作業を行う作業者それぞれにウェアラブルカメラ10を装着し、それぞれのウェアラブルカメラ10が撮影した各作業者の視野画像の画像データそれぞれから特徴量を抽出して、これを用いるようにしてもよい。すなわち、複数の視野画像から特徴量を抽出して、これを用いるようにしてもよい。例えば、協働作業においては、各作業者の注視点が近傍になる可能性が高いと考えられる。そのため、複数の視野画像から特徴量を抽出して、これを用いることで、より精度高く協働作業を検出することができる。また、この場合に、検出した場面に応じて各作業者の視野画像の何れを再生するべきかについて機械学習(又は設定)しておき、各作業者の視野画像の何れを再生するかを機械学習結果(又は設定内容)に基づいて切り替えるようにしてもよい。
【0096】
他にも、例えば、所定の場面として検出したい場面が、複数種類(例えば、切開場面と、縫合場面)存在する場合は、それぞれの場面に応じた複数種類のラベル付けを行うようにすればよい。この場合に、複数種類の場面が所定の順番で行われることが分かっているのであれば、その所定の順番も特徴量の1つとして、これを用いるようにしてもよい。例えば、切開場面が行われた後に、縫合場面が行われることは手術計画から分かるので、この順番に基づいて、各時間帯で行わる可能性が高い作業の種類を、特徴量の1つとして用いるようにしてもよい。或いは、学習モデルの出力において、各場面それぞれについての尤度の値が出力されるような場合に、各時間帯で行わる可能性が高い作業の種類について尤度が高くなるように重み付けを行うようにしてもよい。すなわち、場面が所定の順番を示す手術計画のような情報を、特徴量としたり、出力される尤度の重み付けに利用したりしてもよい。
【0097】
<第2の変形例>
ユーザが、抽出した各特徴量に任意の拡大倍率の重み付けを行って、学習モデルの構築及び所定の場面の検出を行えるようにしてもよい。例えば、抽出した特徴量それそれに対応したスライダー等の、重み付けの程度を調整するユーザインタフェースを用意する。そして、このユーザインタフェースを利用したユーザの操作に応じて、何れの特徴量にどの程度の重み付けを行うのかを設定する。そして、各特徴量に、設定に応じた重み付けを行って、学習モデルの構築及び所定の場面の検出を行う。重み付けを行うことができる特徴量は、例えば、上述した3つの特徴量以外にも、検出した動作部位の存在の有無、検出した動作部位のサイズ、検出した各特徴量の画面中心からの距離、検出した動作部位と注視点の距離、等であってよい。
【0098】
<第3の変形例>
上述の実施形態では、ウェアラブルカメラ10により撮影処理を行い、動画データを生成することを想定していた。これに限らず、他の装置により撮影処理を行い、動画データを生成するようにしてもよい。例えば、内視鏡等の医療機器により撮影処理を行い、動画データを生成するようにしてもよい。すなわち、本実施形態での再生制御の対象とする動画データを、ウェアラブルカメラ10以外の装置による撮影で生成された動画データとしてもよい。他にも、例えば、ウェアラブルカメラ10(或いは、撮影処理を行う他の装置)と、再生制御装置20とを一体にして実現するようにしてもよい。
【0099】
以上のように、本実施形態に係る再生制御装置20は、画像データ取得部211と、領域検出部212と、特徴量抽出部214と、場面検出部216と、再生制御部217と、を備える。
画像データ取得部211は、時間的に連続した複数の画像データを取得する。
領域検出部212は、複数の画像データそれぞれの画像内から所定の対象を含んだ対象領域を検出する。
特徴量抽出部214は、複数の画像データ間の画像の変化と、当該変化している領域が対象領域であるか否かと、に基づいて複数の画像データそれぞれから特徴量を抽出する。
場面検出部216は、特徴量を学習モデルに入力することにより、所定の場面に対応する画像データを検出する。
再生制御部217は、場面検出部216が検出した所定の場面に対応する画像データを示す情報に基づいて、複数の画像データの再生を制御する。
このように、再生制御装置20は、動画内の複数の画像データから抽出した特徴量と、学習モデルとに基づいて、所定の場面を検出すると共に、所定の場面であるか否かに基づいて、複数の画像データからなる動画の再生を制御することができる。
従って、再生制御装置20によれば、再生に関する制御によって、より適切にユーザの閲覧を支援することができる。
【0100】
再生制御部217は、複数の画像データを連続的に再生する場合に、場面検出部216が検出した所定の場面に対応する画像データの再生の態様と、それ以外の画像データの再生の態様とを異ならせる。
これにより、所定の場面を、他の場面よりも見やすい態様でユーザに閲覧させることができる。
【0101】
再生制御部217は、複数の画像データを連続的に再生する場合に、場面検出部216が検出した所定の場面に対応する画像データの再生速度を、それ以外の画像データの再生速度よりも遅くする。
これにより、所定の場面を、他の場面よりもじっくりとユーザに閲覧させることができる。
【0102】
再生制御部217は、複数の画像データを連続的に再生する場合に、場面検出部216が検出した所定の場面に対応する画像データの一部の領域を拡大して再生する。
これにより、所定の場面を、他の場面よりも事細かにユーザに閲覧させることができる。
【0103】
所定の場面は、連続的に再生される複数の画像データの閲覧の目的となる場面であって、複数のユーザによる協働作業が行われている場面である。
所定の対象は、協働作業を行う複数のユーザそれぞれの部位である。
複数の画像データは、協働作業を行う何れかのユーザの視野に相当する空間を撮影した画像データである。
これにより、閲覧の目的となる協働作業が行われている際の、作業者を行うユーザの視野に相当する画像を、画像を閲覧するユーザに閲覧させることができる。
【0104】
再生制御装置20は、注視点検出部213をさらに備える。
注視点検出部213は、複数の画像データの撮影時に撮影対象を視認したユーザの注視点を検出する。
特徴量抽出部214は、複数の画像データ間の撮影対象を視認したユーザの注視点の変化に基づいて、複数の画像データそれぞれから特徴量をさらに抽出する。
これにより、ユーザの注視点の変化という指標も考慮して、精度高く所定の場面を検出することができる。
【0105】
再生制御装置20は、学習部215をさらに備える。
学習部215は、特徴量を含む入力データと、所定の場面に対応する画像データを示すラベルとの組を教師データとして機械学習を行うことにより、学習モデルを構築する
これにより、動画内の複数の画像データから抽出した特徴量に基づいて、所定の場面を検出するための学習モデルを構築することができる。
【0106】
所定の場面は、所定の順番で行われる複数の場面である。
教師データには、所定の順番を示す情報も含まれる。
これにより、所定の順番を示す情報(例えば、手術の作業の順番を示す手術計画)に基づいた学習を行い、より精度高く所定の場面を検出することができる学習モデルを構築することができる。
【0107】
[ハードウェアやソフトウェアによる機能の実現]
上述した実施形態による一連の処理を実行させる機能は、ハードウェアにより実現することもできるし、ソフトウェアにより実現することもできるし、これらの組み合わせにより実現することもできる。換言すると、上述した一連の処理を実行する機能が、再生制御システムSの何れかにおいて実現されていれば足り、この機能をどのような態様で実現するのかについては、特に限定されない。
【0108】
例えば、上述した一連の処理を実行する機能を、演算処理を実行するプロセッサによって実現する場合、この演算処理を実行するプロセッサは、シングルプロセッサ、マルチプロセッサ及びマルチコアプロセッサ等の各種処理装置単体によって構成されるものの他、これら各種処理装置と、ASIC(Application Specific Integrated Circuit)又はFPGA(Field-Programmable Gate Array)等の処理回路とが組み合わせられたものを含む。
【0109】
また、例えば、上述した一連の処理を実行する機能を、ソフトウェアにより実現する場合、そのソフトウェアを構成するプログラムは、ネットワーク又は記録媒体を介してコンピュータにインストールされる。この場合、コンピュータは、専用のハードウェアが組み込まれているコンピュータであってもよいし、プログラムをインストールすることで所定の機能を実行することが可能な汎用のコンピュータ(例えば、汎用のパーソナルコンピュータ等の電子機器一般)であってもよい。また、プログラムを記述するステップは、その順序に沿って時系列的に行われる処理のみを含んでいてもよいが、並列的或いは個別に実行される処理を含んでいてもよい。また、プログラムを記述するステップは、本発明の要旨を逸脱しない範囲内において、任意の順番に実行されてよい。
【0110】
このようなプログラムを記録した記録媒体は、コンピュータ本体とは別に配布されることによりユーザに提供されてもよく、コンピュータ本体に予め組み込まれた状態でユーザに提供されてもよい。この場合、コンピュータ本体とは別に配布される記憶媒体は、例えば、磁気ディスク(フロッピディスクを含む)、光ディスク、又は光磁気ディスク等により構成される。光ディスクは、例えば、CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)、或いはBlu-ray(登録商標) Disc(ブルーレイディスク)等により構成される。光磁気ディスクは、例えば、MD(Mini Disc)等により構成される。また、コンピュータ本体に予め組み込まれた状態でユーザに提供される記録媒体は、例えば、プログラムが記録されている
図2のROM12、
図3のROM22、
図2の記憶部16、或いは
図3の記憶部25に含まれるハードディスク等により構成される。
【符号の説明】
【0111】
10 ウェアラブルカメラ、20 再生制御装置、11,21 CPU、12,22 ROM、13,23 RAM、14,24 通信部、15 センサ部、16,25 記憶部、17,26 入力部、18 撮像部、19 アイトラッキング部、27 出力部、28 ドライブ、111 視野画像撮影部、112 注視点計測部、113 画像データ生成部、114 画像データ送信部、161 画像データ記憶部、211 画像データ取得部、212 領域検出部、213 注視点検出部、214 特徴量抽出部、215 学習部、216 場面検出部、217 再生制御部、251 動画データ記憶部、217 学習モデル記憶部、S 再生制御システム、U ユーザ