IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ダイキン工業株式会社の特許一覧 ▶ フェアリーデバイセズ株式会社の特許一覧

特許7429016画像処理方法、コンピュータプログラム及び画像処理装置
<>
  • 特許-画像処理方法、コンピュータプログラム及び画像処理装置 図1
  • 特許-画像処理方法、コンピュータプログラム及び画像処理装置 図2
  • 特許-画像処理方法、コンピュータプログラム及び画像処理装置 図3
  • 特許-画像処理方法、コンピュータプログラム及び画像処理装置 図4
  • 特許-画像処理方法、コンピュータプログラム及び画像処理装置 図5
  • 特許-画像処理方法、コンピュータプログラム及び画像処理装置 図6
  • 特許-画像処理方法、コンピュータプログラム及び画像処理装置 図7
  • 特許-画像処理方法、コンピュータプログラム及び画像処理装置 図8
  • 特許-画像処理方法、コンピュータプログラム及び画像処理装置 図9
  • 特許-画像処理方法、コンピュータプログラム及び画像処理装置 図10
  • 特許-画像処理方法、コンピュータプログラム及び画像処理装置 図11
  • 特許-画像処理方法、コンピュータプログラム及び画像処理装置 図12
  • 特許-画像処理方法、コンピュータプログラム及び画像処理装置 図13
  • 特許-画像処理方法、コンピュータプログラム及び画像処理装置 図14
  • 特許-画像処理方法、コンピュータプログラム及び画像処理装置 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-30
(45)【発行日】2024-02-07
(54)【発明の名称】画像処理方法、コンピュータプログラム及び画像処理装置
(51)【国際特許分類】
   G06T 7/254 20170101AFI20240131BHJP
   G06T 5/50 20060101ALI20240131BHJP
【FI】
G06T7/254 Z
G06T5/50
【請求項の数】 12
(21)【出願番号】P 2022101248
(22)【出願日】2022-06-23
(65)【公開番号】P2024002193
(43)【公開日】2024-01-11
【審査請求日】2023-06-21
(73)【特許権者】
【識別番号】000002853
【氏名又は名称】ダイキン工業株式会社
(73)【特許権者】
【識別番号】513190830
【氏名又は名称】Fairy Devices株式会社
(74)【代理人】
【識別番号】100114557
【弁理士】
【氏名又は名称】河野 英仁
(74)【代理人】
【識別番号】100078868
【弁理士】
【氏名又は名称】河野 登夫
(72)【発明者】
【氏名】パトラワラ ウィラフ
(72)【発明者】
【氏名】セナティ アニシュラム
(72)【発明者】
【氏名】バティア ワンシュ
【審査官】片岡 利延
(56)【参考文献】
【文献】特表2001-527304(JP,A)
【文献】特開平10-257436(JP,A)
【文献】米国特許出願公開第2020/0349357(US,A1)
【文献】特開2005-151069(JP,A)
【文献】特開2008-109290(JP,A)
【文献】国際公開第2007/039995(WO,A1)
【文献】特開2021-131738(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/254
G06T 5/50
(57)【特許請求の範囲】
【請求項1】
画像処理装置が、
動画像から場面変化位置の候補を検出し、
前記動画像を構成するフレームの中から、場面の主要フレームとなり得る候補フレームを検出し、
前記候補フレームの中から主要フレームを決定し、
場面変化位置の候補及び主要フレームの時系列的な順序に基づき、
時系列的に並ぶ2つの場面変化位置の候補の間に主要フレームが存在しない場合、前記2つの場面変化位置を候補からいずれか一方を除外して、場面変化位置を決定し、
時系列的に並び且つ類似する2つの主要フレームの間に場面変化位置の候補が存在する場合、当該場面変化位置を候補から除外して、場面変化位置を決定することで、
場面変化位置の候補の中から場面変化位置を決定する、
画像処理方法。
【請求項2】
各フレームの統計値を算出し、
2つのフレームの統計値の差異に基づいて、場面変化位置の候補を検出する、
請求項1に記載の画像処理方法。
【請求項3】
各フレームのハッシュ値を算出し、
2つのフレームのハッシュ値の差異に基づいて、場面変化位置の候補を検出する、
請求項1に記載の画像処理方法。
【請求項4】
各フレームからエッジを抽出し、
2つのフレームの間のエッジの変化に基づいて、候補フレームを検出する、
請求項1に記載の画像処理方法。
【請求項5】
候補フレームから特徴点を抽出し、
複数の候補フレームの間での特徴点の比較結果に基づいて、候補フレームを除外することで、候補フレームの中から主要フレームを決定する、
請求項1に記載の画像処理方法。
【請求項6】
決定した場面変化位置及び主要フレームに関する情報を前記動画像に対応付けて記憶し、
場面変化位置又は主要フレームの選択を受け付け、
選択された場面変化位置又は主要フレームに基づく前記動画像の再生を行う、
請求項1に記載の画像処理方法。
【請求項7】
決定した場面変化位置及び主要フレームに関する情報と、前記動画像に関する文字情報とを対応付けて記憶する、
請求項に記載の画像処理方法。
【請求項8】
空調関連機器の施工又は修理の作業を撮影した動画像を取得し、
取得した動画像について場面変化位置及び主要フレームを決定し、
決定した場面変化位置及び主要フレームに関する情報と、空調関連機器に関する文字情報とを対応付けて記憶する、
請求項に記載の画像処理方法。
【請求項9】
決定した場面変化位置及び主要フレームに基づいて前記動画像から部分動画像を抽出し、
抽出した部分動画像を結合して要約動画像を生成する、
請求項1に記載の画像処理方法。
【請求項10】
決定した主要フレームを、空調関連機器の施工又は修理の作業を撮影した動画像の主要フレームの入力に対して施工又は修理の種別を分類する学習モデルへ入力し、
当該学習モデルが出力する分類結果を取得し、
取得した分類結果に基づいて、前記動画像又は前記動画像に含まれる場面の表題を決定する、
請求項1に記載の画像処理方法。
【請求項11】
コンピュータに、
動画像から場面変化位置の候補を検出し、
前記動画像を構成するフレームの中から、場面の主要フレームとなり得る候補フレームを検出し、
前記候補フレームの中から主要フレームを決定し、
場面変化位置の候補及び主要フレームの時系列的な順序に基づき、
時系列的に並ぶ2つの場面変化位置の候補の間に主要フレームが存在しない場合、前記2つの場面変化位置を候補からいずれか一方を除外して、場面変化位置を決定し、
時系列的に並び且つ類似する2つの主要フレームの間に場面変化位置の候補が存在する場合、当該場面変化位置を候補から除外して、場面変化位置を決定することで、
場面変化位置の候補の中から場面変化位置を決定する
処理を実行させる、コンピュータプログラム。
【請求項12】
動画像から場面変化位置の候補を検出する場面変化位置候補検出部と、
前記動画像を構成するフレームの中から、場面の主要フレームとなり得る候補フレームを検出する候補フレーム検出部と、
前記候補フレームの中から主要フレームを決定する主要フレーム決定部と、
場面変化位置の候補及び主要フレームの時系列的な順序に基づき、時系列的に並ぶ2つの場面変化位置の候補の間に主要フレームが存在しない場合、前記2つの場面変化位置を候補からいずれか一方を除外して、場面変化位置を決定し、時系列的に並び且つ類似する2つの主要フレームの間に場面変化位置の候補が存在する場合、当該場面変化位置を候補から除外して、場面変化位置を決定することで、場面変化位置の候補の中から場面変化位置を決定する場面変化位置決定部と
を備える、画像処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動画像に対する画像処理を行う画像処理方法、コンピュータプログラム及び画像処理装置に関する。
【背景技術】
【0002】
動画像における場面(シーン又はショット等)の変化を検出する画像処理の技術が広く用いられている。これらの技術では、例えば動画像を構成する複数のフレームに対し、時系列的に連続するフレーム間での画素値を比較し、この比較結果に基づいて場面の変化の有無が判断される。また近年では、場面変化を検出するよう予め機械学習がなされた学習モデルを用いる方法も開発されている。
【0003】
特許文献1においては、ビデオ内からシーン変化を検出し、連続したシーンの変化の数をカウントすることによって速い動きのシーンを検出し、シーンからキーフレームを選択する方法が提案されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特表2003-519946号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
フレーム間の画素値を比較して場面検出を行う方法では、例えば動画像を撮影しているカメラが撮影中に揺れた箇所などを誤って場面の変化と判断する虞がある。また機械学習がなされた学習モデルを用いる方法では、機械学習に用いられた動画像とは異なる状況が撮影された動画像に対して場面変化の検出精度が低下する虞があると共に、導入のために必要なコストの上昇が懸念される。
【0006】
本発明は、斯かる事情に鑑みてなされたものであって、その目的とするところは、動画像から場面の変化を精度よく検出することが期待できる画像処理方法、コンピュータプログラム及び画像処理装置を提供することにある。
【課題を解決するための手段】
【0007】
第1の態様に係る画像処理方法は、画像処理装置が、動画像から場面変化位置の候補を検出し、前記動画像を構成するフレームの中から、場面の主要フレームとなり得る候補フレームを検出し、前記候補フレームの中から主要フレームを決定し、場面変化位置の候補及び主要フレームの時系列的な順序に基づいて、場面変化位置の候補の中から場面変化位置を決定する。
【0008】
第2の態様に係る画像処理方法は、第1の態様に係る画像処理方法であって、時系列的に並ぶ2つの場面変化位置の候補の間に主要フレームが存在しない場合、前記2つの場面変化位置を候補からいずれか一方を除外することで、場面変化位置を決定する。
【0009】
第3の態様に係る画像処理方法は、第1の態様又は第2の態様に係る画像処理方法であって、時系列的に並び且つ類似する2つの主要フレームの間に場面変化位置の候補が存在する場合、当該場面変化位置を候補から除外することで、場面変化位置を決定する。
【0010】
第4の態様に係る画像処理方法は、第1の態様から第3の態様までのいずれか1つに係る画像処理方法であって、各フレームの統計値を算出し、2つのフレームの統計値の差異に基づいて、場面変化位置の候補を検出する。
【0011】
第5の態様に係る画像処理方法は、第1の態様から第4の態様までのいずれか1つに係る画像処理方法であって、各フレームのハッシュ値を算出し、2つのフレームのハッシュ値の差異に基づいて、場面変化位置の候補を検出する。
【0012】
第6の態様に係る画像処理方法は、第1の態様から第5の態様までのいずれか1つに係る画像処理方法であって、各フレームからエッジを抽出し、2つのフレームの間のエッジの変化に基づいて、候補フレームを検出する。
【0013】
第7の態様に係る画像処理方法は、第1の態様から第6の態様までのいずれか1つに係る画像処理方法であって、候補フレームから特徴点を抽出し、複数の候補フレームの間での特徴点の比較結果に基づいて、候補フレームを除外することで、候補フレームの中から主要フレームを決定する。
【0014】
第8の態様に係る画像処理方法は、第1の態様から第7の態様までのいずれか1つに係る画像処理方法であって、決定した場面変化位置及び主要フレームに関する情報を前記動画像に対応付けて記憶し、場面変化位置又は主要フレームの選択を受け付け、選択された場面変化位置又は主要フレームに基づく前記動画像の再生を行う。
【0015】
第9の態様に係る画像処理方法は、第8の態様に係る画像処理方法であって、決定した場面変化位置及び主要フレームに関する情報と、前記動画像に関する文字情報とを対応付けて記憶する。
【0016】
第10の態様に係る画像処理方法は、第9の態様に係る画像処理方法であって、空調関連機器の施工又は修理の作業を撮影した動画像を取得し、取得した動画像について場面変化位置及び主要フレームを決定し、決定した場面変化位置及び主要フレームに関する情報と、空調関連機器に関する文字情報とを対応付けて記憶する。
【0017】
第11の態様に係る画像処理方法は、第1の態様から第10の態様までのいずれか1つに係る画像処理方法であって、決定した場面変化位置及び主要フレームに基づいて前記動画像から部分動画像を抽出し、抽出した部分動画像を結合して要約動画像を生成する。
【0018】
第12の態様に係る画像処理方法は、第1の態様から第11の態様までのいずれか1つに係る画像処理方法であって、決定した主要フレームを、空調関連機器の施工又は修理の作業を撮影した動画像の主要フレームの入力に対して施工又は修理の種別を分類する学習モデルへ入力し、当該学習モデルが出力する分類結果を取得し、取得した分類結果に基づいて、前記動画像又は前記動画像に含まれる場面の表題を決定する。
【0019】
第13の態様に係るコンピュータプログラムは、コンピュータに、動画像から場面変化位置の候補を検出し、前記動画像を構成するフレームの中から、場面の主要フレームとなり得る候補フレームを検出し、前記候補フレームの中から主要フレームを決定し、場面変化位置の候補及び主要フレームの時系列的な順序に基づいて、場面変化位置の候補の中から場面変化位置を決定する処理を実行させる。
【0020】
第14の態様に係る画像処理装置は、動画像から場面変化位置の候補を検出する場面変化位置候補検出部と、前記動画像を構成するフレームの中から、場面の主要フレームとなり得る候補フレームを検出する候補フレーム検出部と、前記候補フレームの中から主要フレームを決定する主要フレーム決定部と、場面変化位置の候補及び主要フレームの時系列的な順序に基づいて、場面変化位置の候補の中から場面変化位置を決定する場面変化位置決定部とを備える。
【発明の効果】
【0021】
一実施形態による場合は、動画像から場面の変化を精度よく検出することが期待できる。
【図面の簡単な説明】
【0022】
図1】本実施の形態に係る情報処理システムの概要を説明するための模式図である。
図2】本実施の形態に係るサーバ装置の構成を示すブロック図である。
図3】本実施の形態に係る端末装置の構成を示すブロック図である。
図4】本実施の形態に係る情報処理システムが行う場面変化位置及びキーフレームの検出処理を説明するための模式図である。
図5】HSLヒストグラムの一例を示す模式図である。
図6】動画像におけるフレーム間の相違度の算出結果の一例を示す模式図である。
図7】エッジ抽出の一例を示す模式図である。
図8】動画像におけるフレーム間のエッジ変化率の算出結果の一例を示す模式図である。
図9】候補フレームから抽出したキーポイントの一例を示す模式図である。
図10】キーポイントのマッチング結果の一例を示す模式図である。
図11】サーバ装置による場面変化位置の決定方法を説明するための模式図である。
図12】本実施の形態においてサーバ装置が行う処理の手順を示すフローチャートである。
図13】本実施の形態においてサーバ装置が行う処理の手順を示すフローチャートである。
図14】端末装置による再生画面の一例を示す模式図である。
図15】本実施の形態に係るサーバ装置が用いる学習モデルを説明するための模式図である。
【発明を実施するための形態】
【0023】
本発明の実施形態に係る情報処理システムの具体例を、以下に図面を参照しつつ説明する。なお、本発明はこれらの例示に限定されるものではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
【0024】
<システム構成>
図1は、本実施の形態に係る情報処理システムの概要を説明するための模式図である。本実施の形態に係る情報処理システムでは、空調設備101の施行又は修理等の作業を行う作業者102は、自身の頭部に装着したヘッドセット等に備えられたカメラ103にて作業の様子を撮影する。なお本実施の形態においては、作業者102が装着したヘッドセット等のウェアラブルデバイスに搭載されたカメラ103を用いて撮影が行われるものとするが、これに限るものではなく、空調設備101及び作業者102の周辺にカメラ103を設置して作業を撮影してもよい。また、図1に示した空調設備101はエアコン(エアーコンディショナー)の室内機であるが、これに限るものではなく、空調設備101は例えばエアコンの室外機、換気装置、サーキュレータ、空気清浄機、暖房器具又は除湿乾燥機等の種々の空調関連機器であってよい。またカメラ103により、空調関連機器以外の様々な機器の施工又は修理等の作業を撮影してよく、これらの機器について施工又は修理等以外の様々な作業を撮影してよい。
【0025】
カメラ103により撮影された動画像は、サーバ装置1へ与えられる。サーバ装置1は、一又は複数の作業者により撮影された動画像を取得して、取得した動画像をデータベースに蓄積する。カメラ103からサーバ装置1への動画像の提供方法は、例えばカメラ103に通信機能が備えられている場合には、有線又は無線の通信によりカメラ103からサーバ装置1へ直接的に動画像を送信する方法が採用され得る。また、カメラ103が通信機能を備えていない場合、例えばカメラ103がメモリカード又は光ディスク等の記録媒体に動画像を記録し、記録媒体を介してカメラ103からサーバ装置1へ動画像を提供することができる。また例えばカメラ103及びサーバ装置1の間にPC(パーソナルコンピュータ)又はスマートフォン等の端末装置を介在させて、端末装置がカメラ103から動画像を取得してサーバ装置1へ送信してもよい。カメラ103からサーバ装置1への動画像の提供方法は、どのような方法が採用されてもよい。
【0026】
サーバ装置1は、LAN(Local Area Network)又はインターネット等のネットワークを介して一又は複数の端末装置3との通信を行うことができる。端末装置3は、例えばPC又はスマートフォン等の汎用的な情報処理装置であり、本実施の形態においては例えば空調設備101の施工又は修理等の作業を学ぶ非熟練のユーザが、熟練の作業者が行う作業を撮影した動画像を視聴するために用いられる。サーバ装置1は、端末装置3からの要求に基づいて、データベースに記憶した複数の動画像の中から所望の動画像を取得して端末装置3へ送信する。端末装置3は、サーバ装置1から受信した動画像を表示(再生)する。
【0027】
本実施の形態に係るサーバ装置1は、カメラ103から取得した動画像から場面(シーン又はショット等)の検出及びキーフレーム(主要フレーム)の検出を行い、これらの検出結果に関する情報を動画像と共にデータベースに記憶する。カメラ103の撮影により得られる動画像は、1秒間に数十枚程度のフレーム(静止画像)を連ねて構成されており、キーフレームはこれら複数のフレームの中で場面に関する重要な情報を保持するフレームである。サーバ装置1は、動画像と共に場面及びキーフレームに関する情報を端末装置3へ送信する。端末装置3は、動画像と共に場面及びキーフレームに関する情報をサーバ装置1から受信し、例えば動画像を再生する際にユーザから場面又はキーフレームの選択を受け付けて、選択された場面又はキーフレームから動画像の再生を開始することができる。
【0028】
本実施の形態に係るサーバ装置1は、カメラ103が撮影した動画像から、まず場面変化位置の候補を検出する処理を行う。またサーバ装置1は、カメラ103が撮影した動画像から、キーフレームとなり得る候補フレームを検出する処理を行う。次いでサーバ装置1は、動画像から検出された複数の候補フレームの中から、例えば類似する候補フレームを除外することにより、キーフレームを決定する処理を行う。次いでサーバ装置1は、動画像から検出された複数の場面変化位置の候補の中から、例えば連続する2つの場面変化位置の候補の間にキーフレームが存在するか否かに基づいて、この動画像における場面変化位置を決定する処理を行う。これらの手順で動画像から場面変化位置及びキーフレームを検出することによって、サーバ装置1は、動画像に適した場面変化位置及びキーフレームを精度よく検出することが期待できる。
【0029】
<装置構成>
図2は、本実施の形態に係るサーバ装置1の構成を示すブロック図である。本実施の形態に係るサーバ装置1は、処理部11、記憶部(ストレージ)12及び通信部(トランシーバ)13等を備えて構成されている。なお本実施の形態においては、1つのサーバ装置にて処理が行われるものとして説明を行うが、複数のサーバ装置が分散して処理を行ってもよい。
【0030】
処理部11は、CPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)又は量子プロセッサ等の演算処理装置、ROM(Read Only Memory)及びRAM(Random Access Memory)等を用いて構成されている。処理部11は、記憶部12に記憶されたサーバプログラム12aを読み出して実行することにより、カメラ103が撮影した動画像から場面変化位置及びキーフレームを検出する処理、及び、データベースに記憶した動画像を端末装置3へ提供する処理等の種々の処理を行う。
【0031】
記憶部12は、例えばハードディスク等の大容量の記憶装置を用いて構成されている。記憶部12は、処理部11が実行する各種のプログラム、及び、処理部11の処理に必要な各種のデータを記憶する。本実施の形態において記憶部12は、処理部11が実行するサーバプログラム12aを記憶する。また記憶部12には、カメラ103が撮影した動画像を蓄積する動画像DB(データベース)12bが設けられている。
【0032】
本実施の形態においてサーバプログラム(プログラム製品)12aは、メモリカード又は光ディスク等の記録媒体99に記録された態様で提供され、サーバ装置1は記録媒体99からサーバプログラム12aを読み出して記憶部12に記憶する。ただし、サーバプログラム12aは、例えばサーバ装置1の製造段階において記憶部12に書き込まれてもよい。また例えばサーバプログラム12aは、遠隔の他のサーバ装置等が配信するものをサーバ装置1が通信にて取得してもよい。例えばサーバプログラム12aは、記録媒体99に記録されたものを書込装置が読み出してサーバ装置1の記憶部12に書き込んでもよい。サーバプログラム12aは、ネットワークを介した配信の態様で提供されてもよく、記録媒体99に記録された態様で提供されてもよい。
【0033】
動画像DB12bは、カメラ103が撮影した動画像を記憶して蓄積するデータベースである。また動画像DB12bは、これらの動画像に対応付けて、動画像から検出された場面変化位置及びキーフレームに関する情報を記憶する。
【0034】
通信部13は、携帯電話通信網、無線LAN(Local Area Network)及びインターネット等を含むネットワークNを介して、種々の装置との間で通信を行う。本実施の形態において通信部13は、ネットワークNを介して、一又は複数の端末装置3及びカメラ103との間で通信を行う。通信部13は、処理部11から与えられたデータを他の装置へ送信すると共に、他の装置から受信したデータを処理部11へ与える。
【0035】
なお記憶部12は、サーバ装置1に接続された外部記憶装置であってよい。またサーバ装置1は、複数のコンピュータを含んで構成されるマルチコンピュータであってよく、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。またサーバ装置1は、上記の構成に限定されず、例えば可搬型の記憶媒体に記憶された情報を読み取る読取部、操作入力を受け付ける入力部、又は、画像を表示する表示部等を含んでもよい。
【0036】
また本実施の形態に係るサーバ装置1には、記憶部12に記憶されたサーバプログラム12aを処理部11が読み出して実行することにより、場面変化位置候補検出部11a、候補フレーム検出部11b、キーフレーム決定部11c、場面変化位置決定部11d及びDB処理部11e等が、ソフトウェア的な機能部として処理部11に実現される。なお本図においては、処理部11の機能部として、動画像に関連する機能部を図示し、これ以外の処理に関する機能部は図示を省略している。
【0037】
場面変化位置候補検出部11aは、カメラ103が撮影した動画像から場面(シーン又はショット等)が変化する位置の候補を検出する処理を行う。場面変化位置候補検出部11aは、動画像を構成する各フレームについて、時系列的に連続する2つのフレームの比較を行い、2つのフレームの差異を示す値を算出する。場面変化位置候補検出部11aは、算出したこの値が所定の閾値を超えた場合に、動画像における場面の変化が生じたと判定し、この2つのフレームのうち先のフレームを場面の最後とし、後のフレームを次の場面の最初とする。場面変化位置候補検出部11aは、場面の最初(又は最後)のフレームの位置を、動画像の場面変化位置の候補とし、この位置を示す情報(動画像の最初からこの位置までの時間又はフレーム数等)を記憶する。
【0038】
また本実施の形態において場面変化位置候補検出部11aは、2つのフレームの差異を示す値として、2種類の値を算出する。2つのフレームの差異を示す1つ目の値は、「バタチャリヤ距離(Bhattacharyya Distance)」である。バタチャリヤ距離は、2つの確率分布の距離を求めるための尺度の1つである。場面変化位置候補検出部11aは、フレームに含まれる複数の画素値についてHSL(色相、彩度、輝度)のヒストグラムを、比較する2つのフレームについてそれぞれ作成する。場面変化位置候補検出部11aは、2つのフレームについて作成した2つのHSLヒストグラムから、この2つのヒストグラムの差異を示すバタチャリヤ距離を算出する。場面変化位置候補検出部11aは、算出したバタチャリヤ距離が予め定められた閾値を超える場合に、この2つのフレームの位置を場面変化位置の候補とすることができる。
【0039】
2つのフレームの差異を示す2つ目の値は、「pHash(Perseptual Hash)の距離」である。入力情報に対して所定の演算処理を行うことで所定長(例えば64ビット、256ビット等)の値を算出したものがハッシュ値であり、pHashは入力画像の特徴を有するハッシュ値である。場面変化位置候補検出部11aは、2つのフレームからそれぞれpHashを算出し、算出した2つのpHashの距離(例えばハミング距離)を算出する。場面変化位置候補検出部11aは、算出したpHashの距離が予め定められた閾値を超える場合に、この2つのフレームの位置を場面変化位置の候補とすることができる。
【0040】
場面変化位置候補検出部11aは、バタチャリヤ距離に基づく場面変化位置の候補の検出と、pHashの距離に基づく場面変化位置の候補の検出とを行い、少なくとも一方の方法で場面変化位置の候補として検出された場面変化位置の候補を、最終的な場面変化位置の候補とすることができる。なお場面変化位置候補検出部11aは、両方の方法で場面変化位置の候補として検出された場面変化位置の候補を、最終的な場面変化位置の候補としてもよい。また場面変化位置候補検出部11aは、バタチャリヤ距離に基づく場面変化位置の候補の検出と、pHashの距離に基づく場面変化位置の候補の検出とのいずれか一方のみを行ってもよく、この2つ以外の方法で場面変化位置の候補を検出してもよい。また場面変化位置候補検出部11aは、算出したバタチャリヤ距離及びpHashの距離の平均値又は合計値等を相違度として算出し、算出した相違度が閾値を超える場合に、2つのフレームの位置を場面変化位置の候補としてもよい。
【0041】
候補フレーム検出部11bは、カメラ103が撮影した動画像からキーフレームとなり得る候補フレームを検出する処理を行う。候補フレーム検出部11bは、動画像を構成する各フレームについてエッジを抽出する処理を行って、時系列的に連続する2つのフレームのエッジの比較を行い、2つのフレームのエッジの変化率を算出する。候補フレーム検出部11bは、算出したエッジ変化率が所定の閾値より小さい(即ちエッジの変化が小さい)場合、この2つのフレームのうち時系列的に先のフレーム(後のフレームでもよい)をキーフレームとなり得る候補フレームとする。
【0042】
キーフレーム決定部11cは、候補フレーム検出部11bが検出した候補フレームの候補の中から、動画像のキーフレームを決定する処理を行う。キーフレーム決定部11cは、動画像から検出された複数の候補フレームについて特徴量を抽出し、特徴を比較することで複数の候補フレームの中から類似する候補フレームを探索する。キーフレーム決定部11cは、類似する複数の候補フレームの中から、いずれか1つの候補フレームを最終的なキーフレームとして残し、これ以外の候補フレームを除外する。キーフレーム決定部11cは、例えば類似する2つの候補フレームが存在する場合、時系列的に先の候補フレームを残し、後の候補フレームを除外することができる。キーフレーム決定部11cは、例えば類似する3つの候補フレームが存在する場合、時系列的に真ん中の候補フレームを残し、前後の候補フレームを除外することができる。
【0043】
また本実施の形態においてキーフレーム決定部11cは、各候補フレームからの特徴量の抽出として、ORB(Oriented FAST and Rotated BRIEF)によるキーポイントの抽出を行う。キーフレーム決定部11cは、例えば2つの候補フレームからそれぞれ抽出したキーポイントのマッチングを行い、2つの候補フレームの間で一致するキーポイントの数又は割合等の値を算出し、この値が閾値を超えるか否かに基づいて2つの候補フレームが類似するか否かを判定することができる。なおキーフレーム決定部11cは、ORBのキーフレーム以外の特徴量を抽出して候補フレームが類似するか否かを判定してよい。
【0044】
場面変化位置決定部11dは、キーフレーム決定部11cが決定したキーフレームに基づいて、場面変化位置候補検出部11aが検出した場面変化位置の候補の中から、最終的な場面変化位置を決定する処理を行う。場面変化位置決定部11dは、場面変化位置の候補とキーフレームとの時系列的な順序関係を調べ、時系列的に前後する2つの場面変化位置の候補の間に、キーフレームが存在するか否かを判定する。本実施の形態においては、場面変化位置により定まる場面(即ち、先の場面変化位置から後の場面変化位置までの時間の動画像に写された場面)には少なくとも1つのキーフレームが含まれていることを条件とする。場面変化位置決定部11dは、前後する2つの場面変化位置の候補の間にキーフレームが存在しない場合、少なくとも一方の場面変化位置の候補が適切ではないと判断し、これを除外する。場面変化位置決定部11dは、動画像から検出されたすべての場面変化位置の候補について上記の処理を繰り返し行って不適切な候補を除外し、最終的に残った場面変化位置の候補を最終的な場面変化位置と決定する。
【0045】
又は、場面変化位置決定部11dは、場面変化位置候補検出部11aが検出した場面変化位置の候補について、最終的な場面変化位置と決定してもよい。この場合、場面変化位置決定部11dは、2つの場面変化位置の間にキーフレームが存在しない場合、この2つの場面変化位置の間の動画像(即ち場面)を、動画像全体から除外する。なお場面の除外は、例えば動画像のデータからこの場面のデータを取り除いて再生時間が短縮された動画像のデータを生成することにより行われてもよく、また例えば動画像のデータ自体は変化させずに、この動画像に関して保持される場面の構成情報から該当する場面に関する情報を取り除くことにより行われてもよい。
【0046】
DB処理部11eは、カメラ103が撮影した動画像と、この動画像について場面変化位置決定部11dが決定した場面変化位置及びキーフレーム決定部11cが決定したキーフレームに関する情報とを対応付けて記憶部12の動画像DB12bに記憶する。またDB処理部11eは、端末装置3から動画像の再生要求を受け付け、再生を要求された動画像のデータを動画像DB12bから読み出し、読み出した動画像と、この動画像に対応付けられた場面変化位置及びキーフレームに関する情報とを要求元の端末装置3へ送信する。
【0047】
図3は、本実施の形態に係る端末装置3の構成を示すブロック図である。本実施の形態に係る端末装置3は、処理部31、記憶部(ストレージ)32、通信部(トランシーバ)33、表示部(ディスプレイ)34及び操作部35等を備えて構成されている。端末装置3は、例えば空調設備101の施工又は修理等の技術を学ぶ非熟練者のユーザなどが使用する装置であり、例えばスマートフォン、タブレット型端末装置又はパーソナルコンピュータ等の情報処理装置を用いて構成され得る。
【0048】
処理部31は、CPU又はMPU等の演算処理装置、ROM及びRAM等を用いて構成されている。処理部31は、記憶部32に記憶されたプログラム32aを読み出して実行することにより、サーバ装置1の動画像DB12bに蓄積された動画像の検索処理、及び、これらの動画像の表示(再生)処理等の処理を行う。
【0049】
記憶部32は、例えばフラッシュメモリ等の不揮発性のメモリ素子又はハードディスク等の記憶装置等を用いて構成されている。記憶部32は、処理部31が実行する各種のプログラム、及び、処理部31の処理に必要な各種のデータを記憶する。本実施の形態において記憶部32は、処理部31が実行するプログラム32aを記憶している。本実施の形態においてプログラム32aは遠隔のサーバ装置等により配信され、これを端末装置3が通信にて取得し、記憶部32に記憶する。ただしプログラム32aは、例えば端末装置3の製造段階において記憶部32に書き込まれてもよい。例えばプログラム32aは、メモリカード又は光ディスク等の記録媒体98に記録されたプログラム32aを端末装置3が読み出して記憶部32に記憶してもよい。例えばプログラム32aは、記録媒体98に記録されたものを書込装置が読み出して端末装置3の記憶部32に書き込んでもよい。プログラム32aは、ネットワークを介した配信の態様で提供されてもよく、記録媒体98に記録された態様で提供されてもよい。
【0050】
通信部33は、携帯電話通信網、無線LAN及びインターネット等を含むネットワークNを介して、種々の装置との間で通信を行う。本実施の形態において通信部33は、ネットワークNを介して、サーバ装置1との間で通信を行う。通信部33は、処理部31から与えられたデータを他の装置へ送信すると共に、他の装置から受信したデータを処理部31へ与える。
【0051】
表示部34は、液晶ディスプレイ等を用いて構成されており、処理部31の処理に基づいて種々の画像及び文字等を表示する。操作部35は、ユーザの操作を受け付け、受け付けた操作を処理部31へ通知する。例えば操作部35は、機械式のボタン又は表示部34の表面に設けられたタッチパネル等の入力デバイスによりユーザの操作を受け付ける。また例えば操作部35は、マウス及びキーボード等の入力デバイスであってよく、これらの入力デバイスは端末装置3に対して取り外すことが可能な構成であってもよい。
【0052】
また本実施の形態に係る端末装置3は、記憶部32に記憶されたプログラム32aを処理部31が読み出して実行することにより、検索処理部31a及び表示処理部31b等がソフトウェア的な機能部として処理部31に実現される。なおプログラム32aは、本実施の形態に係る情報処理システムに専用のプログラムであってもよく、インターネットブラウザ又はウェブブラウザ等の汎用のプログラムであってもよい。
【0053】
検索処理部31aは、サーバ装置1の動画像DB12bに記憶された多数の動画像に対する検索処理を行う。検索処理部31aは、ユーザから様々な検索条件の入力を受け付け、受け付けた検索条件をサーバ装置1へ送信する。端末装置3から検索条件を受信したサーバ装置1は、検索条件に該当する動画像を動画像DB12bから抽出し、抽出した動画像の一覧情報などを検索結果として端末装置3へ送信する。端末装置3はサーバ装置1から検索結果を受信して表示し、検索処理部31aは、検索結果に基づいて再生する動画像の選択をユーザから受け付け、選択された動画像の送信をサーバ装置1に要求する。
【0054】
表示処理部31bは、検索条件の入力を受け付ける画面の表示、サーバ装置1から検索結果として送信される情報の表示、及び、動画像の再生(表示)等の表示処理を行う。検索処理部31aによる動画像の送信要求に応じて、サーバ装置1は要求された動画像を動画像DB12bから読み出し、この動画像に関連する種々の情報(例えば場面変化位置及びキーフレームの情報)と共に、動画像を要求元の端末装置3へ送信する。サーバ装置1から動画像を受信した端末装置3の表示処理部31bは、受信した動画像を再生して表示部34に表示する。また表示処理部31bは、動画像と共に送信される情報を受信し、受信した情報に含まれる場面変化位置及びキーフレームの情報に基づいて、例えば動画像の再生位置をユーザが指定した場面変化位置又はキーフレームまでスキップするなどの処理を行ってよい。
【0055】
<場面変化位置及びキーフレームの検出処理>
図4は、本実施の形態に係る情報処理システムが行う場面変化位置及びキーフレームの検出処理を説明するための模式図である。本実施の形態に係る情報処理システムが扱う動画像は、図4の上段に示すように、例えば1秒間に数十枚程度のフレーム(静止画像)を連ねたものである。また動画像は、複数の場面に分割され得る。本実施の形態において場面は、例えば映像制作においてシーン又はショット等と呼ばれ得るものであり、動画像に写された人又は物等の動作が一区切りする単位である。また本実施の形態において1つの場面は、図4の下段に示すように、少なくとも1つのキーフレームを含む複数のフレームを連ねたものであり、最初のフレーム及び最後のフレームが場面変化位置として扱われる。
【0056】
本実施の形態に係る情報処理システムのサーバ装置1は、空調設備101の施工又は修理等の作業をカメラ103で撮影した動画像を通信又は記録媒体等を介して取得し、取得した動画像を動画像DB12bに記憶する。このときにサーバ装置1は、取得した動画像の場面変化位置及びキーフレームの検出処理を行い、検出した場面変化位置及びキーフレームに関する情報を動画像に対応付けて動画像DB12bに記憶する。
【0057】
(1)場面変化位置の候補の検出
カメラ103から取得した動画像に対して、サーバ装置1は、まず動画像に含まれる場面変化位置の候補を検出する処理を行う。本実施の形態に係るサーバ装置1は、動画像を構成する複数のフレームについて、時系列的に連続する2つのフレームの差異を示す値を算出し、算出した値が所定の閾値を超えるか否かを判定する。サーバ装置1は、フレームの差異を示す値が閾値を超える場合に、連続する2つのフレームの位置を場面変化位置の候補とする。本実施の形態においてサーバ装置1は、フレームの差異を示す値として、HSLヒストグラムのバタチャリヤ距離と、ハッシュ値の距離との2つの値を算出する。
【0058】
図5は、HSLヒストグラムの一例を示す模式図であり、サンプルとなる1つのフレームについてH(色相)、S(彩度)及びL(輝度)の値に対する画素数の分布を示したグラフである。図5のグラフは、横軸をHSLの値とし、縦軸を画素数としている。図5のグラフには、Hの分布を実線で示し、Sの分布を破線で示し、Lの分布を一点鎖線で示している。サーバ装置1は、動画像を構成する各フレームについてHSLヒストグラムを算出する。サーバ装置1は、例えばRGBの値で与えられるフレームの画素値をHSLの値に変換し、HSLの値毎にフレームに含まれる画素数をカウントすることでHSLヒストグラムを算出することができる。
【0059】
サーバ装置1は、動画像に含まれる全てのフレームについてHSLヒストグラムの算出を行い、各フレームについて時系列的に連続する1つ前のフレームとの間でHSLヒストグラムの差異を示す値を算出する。本実施の形態においてサーバ装置1は、HSLヒストグラムの差異を示す値としてバタチャリヤ距離を算出する。なおバタチャリヤ距離の算出方法は、既存の技術であるため、詳細な説明は省略する。また本実施の形態においてサーバ装置1は、各フレームのHSLヒストグラムを算出し、フレーム間のバタチャリヤ距離を算出しているが、これに限るものではなく、サーバ装置1はHSLヒストグラム以外の統計値を算出してもよく、バタチャリヤ距離以外の値をフレーム間の差異を示す値として算出してよい。
【0060】
またサーバ装置1は、動画像に含まれる全てのフレームについてハッシュ値、例えばpHashを算出する。pHashは、画像を離散コサイン変換等により周波数変換し、低周波成分を抽出してハッシュ値を算出したものである。更にサーバ装置1は、各フレームについて時系列的に連続する1つ前のフレームとの間でpHashのハミング距離を、フレームの差異を示す値として算出する。pHashには、2つの画像が類似するほど、この2つの画像のpHashのハミング距離が小さくなるという特性がある。なおpHash及びハミング距離の算出方法は、既存の技術であるため、詳細な説明は省略する。また本実施の形態においてサーバ装置1は、各フレームのpHashを算出し、フレーム間のpHashのハミング距離を算出しているが、これに限るものではなく、サーバ装置1はpHash以外のハッシュ値(例えばaHash(Average Hash)など)を算出してもよく、ハミング距離以外の値をフレーム間の差異を示す値として算出してよい。
【0061】
このように本実施の形態に係るサーバ装置1は、各フレームについて時系列的に連続する1つ前のフレームとの間で、HSLヒストグラムのバタチャリヤ距離と、pHashのハミング距離との2つの値を、2つのフレームの差異を示す値として算出する。本実施の形態においては、サーバ装置1が算出したバタチャリヤ距離及びハミング距離の2つの値の平均値(重み付き平均値)を算出し、算出した平均値をフレーム間の相違度とする。
【0062】
図6は、動画像におけるフレーム間の相違度の算出結果の一例を示す模式図であり、動画像の再生時間における相違度の変化を示したグラフである。図6のグラフの横軸は時間(動画像の再生時間)であり、縦軸はフレーム間の相違度である。サーバ装置1は、動画像に含まれる全てのフレームについて1つ前のフレームとの相違度を算出し、この相違度が所定の閾値を超えるか否かを判定する。図6において実線で示す波形が相違度の変化であり、破線の水平線が閾値を示している。
【0063】
サーバ装置1は、算出した相違度が所定の閾値を超える時点を、場面変化位置の候補とする。図6において一点鎖線の垂直線がサーバ装置1により動画変化位置の候補とされた時点である。なお図6において場面変化位置の候補とされた時点は3つであり、この時点以外にも相違度が閾値を超える時点が存在している。これは、本実施の形態においてサーバ装置1が、場面変化位置の候補の時点を検出した後、所定時間は場面変化位置の候補を検出しないよう制限しているためである。このような制限を設けることで、類似した場面変化位置の候補が大量に検出されることを抑制することが期待できる。
【0064】
(2)候補フレームの検出
サーバ装置1は、カメラ103が撮影した動画像に含まれる全てのフレームから、キーフレームの候補となる候補フレームを検出する処理を行う。なお候補フレームの検出処理は、上記の場面変化位置の検出処理より先に行われてもよく、後に行われてもよく、同時に行われてもよい。本実施の形態に係るサーバ装置1は、動画像を構成する複数のフレームについて、エッジを抽出する画像処理を行う。
【0065】
図7は、エッジ抽出の一例を示す模式図である。図7の左側には、動画像に含まれる1つのフレームに相当する画像(フレーム画像)の一例が示されている。図7の右側には、このフレームの画像から抽出したエッジについて、エッジに相当する画素を白色とし、エッジ以外の画素を黒色とした2値の画像(エッジ画像)が示されている。サーバ装置1は、動画像に含まれる各フレームに対して例えばキャニー法によるエッジ検出処理(Canny Edge Detection)を行うことで、各フレームの画像からエッジを抽出することができる。画像からエッジを抽出する画像処理は、既存の技術であるため、詳細な説明を省略する。なおサーバ装置1によるフレーム画像からのエッジの抽出は、どのような画像処理により行われてもよい。
【0066】
動画像に含まれる各フレームのエッジを抽出したサーバ装置1は、時系列的に連続する2つのフレームについて、この2つのフレームのエッジを比較してエッジ変化率を算出する。サーバ装置1は、2つのフレーム画像から抽出された2つのエッジ画像を比較し、例えばエッジの画素が非エッジの画素に変化した数、及び、非エッジの画素がエッジの画素に変化した数の合計数を算出し、1つのフレームの全画素数に対するこの合計数の割合を算出し、算出した割合をエッジ変化率とすることができる。なお、エッジの変化率はフレーム間でエッジがどの程度変化するかを示す指標であればどのような値であってもよく、上記のエッジ変化率の算出方法は一例であってこれに限るものではなく、サーバ装置1は、どのような方法でエッジ変化率を算出してもよい。
【0067】
図8は、動画像におけるフレーム間のエッジ変化率の算出結果の一例を示す模式図であり、動画像の再生時間におけるエッジ変化率の変化を示したグラフである。図8のグラフの横軸は時間(動画像の再生時間)であり、縦軸はフレーム間のエッジ変化率である。サーバ装置1は、動画像に含まれる全てのフレームについて1つ前のフレームとの比較を行ってエッジ変化率を算出し、このエッジ変化率が所定の閾値を超えるか否かを判定する。図8において水平方向の直線が閾値を示している。
【0068】
サーバ装置1は、算出したエッジ変化率が所定の閾値を下回る時点(閾値未満の時点)のフレームを、キーフレームの候補となる候補フレームとする。図8において垂直方向の直線が、サーバ装置1により候補フレームとされたフレームの時点を示している。図8においては、動画の前半に3つの候補フレームが検出され、動画の後半に1つの候補フレームが検出されていることが示されている。なお図8にはこれら4つの候補フレームの他にも、エッジ変化率が閾値を下回る時点が存在しており、サーバ装置1はこれらの時点についても候補フレームを検出してよい。
【0069】
(3)キーフレームの決定
サーバ装置1は、動画像に含まれる全フレームから検出した候補フレームについて、例えば所定時間内に複数の候補フレームが存在する場合、これら複数の候補フレームの中から類似する候補フレームを除去することによって、最終的なキーフレームを決定する処理を行う。なおサーバ装置1は、キーフレームを決定する処理を候補フレームを検出する処理の後に行うが、キーフレームを決定する処理を場面変化位置の候補を検出する処理の前に行ってもよく、後に行ってもよく、並列的に行ってもよい。
【0070】
本実施の形態に係るサーバ装置1は、例えば各候補フレームの特徴量を抽出する処理を行い、2つの候補フレームについて特徴量を比較して類似度を算出し、算出した類似度が閾値を超える場合に、この2つの候補フレームが類似していると判定する。本実施の形態においてサーバ装置1は、各候補フレームの特徴量として、ORBによるキーポイントを抽出する。ORBは、FAST(Features from Accelerated Segment Test)によるキーポイントの検出と、BRIEF(Binary Robust Independent Elementary Features)による特徴量記述子とを組み合わせる手法である。これらのORB、FAST及びBRIEF等の技術は既存のものであるため、詳細な説明は省略する。なおサーバ装置1によるキーポイントの抽出は、例えばSIFT(Scale Invariant Feature Transform)又はSURF(Speeded-Up Robust Features)等のORB以外の方法で行われてもよい。またサーバ装置1は、キーポイント以外の特徴量をフレームから抽出してもよい。図9は、候補フレームから抽出したキーポイントの一例を示す模式図である。図9に示す2つの画像は、類似する2つの候補フレーム(候補フレーム1及び候補フレーム2)についてキーポイントを抽出したものであり、抽出されたキーポイントが画像上に円形の点で示されている。
【0071】
次いでサーバ装置1は、2つの候補フレームから抽出されたキーポイントを比較して、一致するキーポイントを探索する処理、いわゆるキーポイントのマッチング処理を行う。ORB等の方法で抽出されたキーポイントのマッチング処理は、既存の技術であるため、本実施の形態においては詳細な説明は省略する。図10は、キーポイントのマッチング結果の一例を示す模式図である。図10に示す例は、図9に示した2つの候補フレームのキーポイントについて、対応する(マッチする)キーポイント同士を直線で結ぶことで、キーポイントのマッチング結果を示している。
【0072】
サーバ装置1は、例えば2つの候補フレームから抽出されたキーポイントの総数と、2つの候補フレームの間でのキーポイントのマッチ数とをカウントし、キーポイントの総数に対するマッチ数の割合を類似度として算出する。サーバ装置1は、算出した類似度が所定の閾値を超えるか否かを判定し、類似度が閾値を超える場合にこの2つの候補フレームが類似していると判断することができる。
【0073】
サーバ装置1は、類似する他の候補フレームが存在しない候補フレームを、動画像に含まれるキーフレームと決定する。またサーバ装置1は、動画像中に類似する複数の候補フレームが含まれている場合、これら複数の候補フレームの中から適宜に1つの候補フレームを選択してキーフレームと決定し、選択しなかった一又は複数の候補フレームをキーフレームの候補から除外する。このときにサーバ装置1は、類似する候補フレームを2つ存在する場合、例えば時系列的に先の候補フレームをキーフレームとし、後の候補フレームをキーフレームの候補から除外する。またサーバ装置1は、類似する候補フレームが3つ存在する場合、例えば時系列的に2番目の候補フレームをキーフレームとし、1番目及び3番目の候補フレームをキーフレームの候補から除外する。なお類似する複数の候補フレームから1つの候補フレームをキーフレームとして選択する方法は、上記の方法に限らず、サーバ装置1はどのような方法で類似する複数の候補フレームから1つのキーフレームを選択してもよい。
【0074】
(4)場面変化位置の決定
動画像から場面変化位置の候補を検出し、且つ、キーフレームを検出した後、サーバ装置1は、場面変化位置の候補の中から、場面変化位置を決定する処理を行う。本実施の形態においてサーバ装置1は、場面変化位置の候補とキーフレームとの時系列的な順序関係に基づいて、場面変化位置の候補から最終的な場面変化位置を決定することにより、動画像に含まれる場面を決定する。本実施の形態において動画像の場面は、図4の下段に示したように、少なくとも1つのキーフレームを含むことを条件としている。
【0075】
図11は、サーバ装置1による場面変化位置の決定方法を説明するための模式図である。図示の例は、サーバ装置1が動画像に対して上述の処理を行うことによって、3つの場面変化位置の候補1~3と、2つのキーフレーム1,2とを検出した状態が示されている。時系列的に、場面変化位置の候補1、場面変化位置の候補2、場面変化位置の候補3の順で並び、場面変化位置の候補2,3の間にキーフレーム1及びキーフレーム2がこの順で並んでいる。場面変化位置の候補1,2の間にキーフレームは存在していない。場面変化位置の候補1、2の間に存在する複数のフレームで構成される動画像を場面候補1とし、場面変化位置の候補2,3の間に存在する複数のフレーム(2つのキーフレーム1,2を含む)で構成される動画像を場面候補2とする。
【0076】
本実施の形態において動画像には一又は複数の場面を含み、1つの場面には一又は複数のキーフレームを含む。図11に示した場面変化位置候補1,2を前後の場面変化位置とする場面候補1には、キーフレームが含まれておらず、本実施の形態における場面に相当しない。サーバ装置1は、時系列的に連続する2つの場面変化位置の候補の間にキーフレームが含まれていない場合、2つの場面変化位置の候補のいずれか一方を除外することにより、キーフレームが含まれていない場面候補をキーフレームが含まれる場面候補に連結する。図11に示す例の場合にサーバ装置1は、例えば場面変化位置の候補2を除外することで、場面変化位置の候補2の前後に存在する場面候補1,2を連結して1つの場面とし、場面変化位置の候補1,3を最終的な場面変化位置とする。
【0077】
なお上記の例においてサーバ装置1は、キーフレームを含まない場面候補1について時系列的に後ろの場面変化位置の候補2を除外して、場面候補1を時系列的に後ろの場面候補2と連結したが、これに限るものではない。サーバ装置1は、例えば時系列的に前の場面変化位置の候補1を除外して、場面候補1をそれ以前の場面候補に連結してもよい。サーバ装置1は、キーフレームを含まない場面候補について、時系列的に前側の場面変化位置の候補を除外してもよく、後ろ側の場面変化位置の候補を除外してもよい。サーバ装置1がいずれの場面変化位置の候補を除外するかは、例えば予め定められていてもよく、また例えば前後の場面候補の長さ又はキーフレームの数等に応じていずれか一方を選択してもよい。
【0078】
また更にサーバ装置1は、時系列的に連続し且つ類似する2つのキーフレームの間に場面変化位置の候補が存在する場合、この場面変化位置の候補を除外してもよい。サーバ装置1は、2つのキーフレームが類似するか否かを、候補フレームの中からキーフレームを決定した際に算出した類似度を用いて判断することができる。サーバ装置1は、時系列的に連続する2つのキーフレームについて、キーポイントのマッチング結果に基づく類似度を算出し、算出した類似度が所定の閾値(ただし候補フレームが類似するか否かを判定した際の閾値より小さい値)を超える場合に、2つのキーフレームが類似すると判断する。サーバ装置1は、類似する2つのキーフレームの間に存在する場面変化位置の候補を除外し、この場面変化位置の候補の前後の場面候補を連結して1つの場面とすることができる。
【0079】
またサーバ装置1は、2つの場面変化位置の間にキーフレームが存在しない場合、この2つの場面変化位置の間の場面を、動画像全体から除外してもよい。図11に示した例において、場面変化位置の候補1,2の間にキーフレームが存在していない場合、サーバ装置1は、この間の動画像に重要な情報を含んでいないと推定し、場面変化位置の候補1,2の間の場面候補1を動画像から除外してもよい。またこのときにサーバ装置1は、場面候補1と共に、場面変化位置の候補1又は2のいずれか一方を除外してよい。
【0080】
サーバ装置1は、動画像に含まれる全ての場面変化位置及びキーフレームを決定した後、決定した場面変化位置及びキーフレームに関する情報をこの動画像に対応付けて動画像DB12bに記憶する。またサーバ装置1は、端末装置3から動画像DB12bに記憶された動画像の送信要求が与えられた場合、要求された動画像とこれに対応付けられた場面変化位置及びキーフレームに関する情報とを動画像DB12bから読み出して、要求元の端末装置3へ送信する。端末装置3は、動画像と共にサーバ装置1から受信した場面変化位置及びキーフレームに関する情報を用いて、例えばユーザから場面選択を受け付け、受け付けた場面から動画像を再生して表示することができる。
【0081】
図12及び図13は、本実施の形態においてサーバ装置1が行う処理の手順を示すフローチャートである。本実施の形態に係るサーバ装置1の処理部11は、例えば通信部13にてカメラ103との通信を行うことにより、カメラ103により撮影された空調設備101の施工又は修理の動画像を取得する(ステップS1)。処理部11の場面変化位置候補検出部11aは、ステップS1にて取得した動画像に含まれる各フレームのHSLヒストグラムを算出する(ステップS2)。場面変化位置候補検出部11aは、ステップS2にて算出した各フレームのHSLヒストグラムに基づいて、時系列的に連続する2つのフレームのHSLヒストグラム間のバタチャリヤ距離を算出する(ステップS3)。
【0082】
次いで場面変化位置候補検出部11aは、ステップS1にて取得した動画像に含まれる各フレームのpHashを算出する(ステップS4)。場面変化位置候補検出部11aは、ステップS4にて算出した各フレームのpHashに基づいて、時系列的に連続する2つのフレームのpHash間のハミング距離を算出する(ステップS5)。場面変化位置候補検出部11aは、ステップS3にて算出したバタチャリヤ距離とステップS5にて算出したハミング距離とに基づいて、時系列的に連続する2つのフレームの相違度を算出する(ステップS6)。相違度は、例えばバタチャリヤ距離及びハミング距離の合計値又は平均値等が用いられ得る。場面変化位置候補検出部11aは、ステップS6にて算出した相違度と所定の閾値とを比較し、相違度が閾値を超える2つのフレーム(又はこの2つのフレーム間)を、場面変化位置の候補として検出する(ステップS7)。
【0083】
また処理部11の候補フレーム検出部11bは、ステップS1にて取得した動画像に含まれる各フレームのエッジを抽出する(ステップS8)。候補フレーム検出部11bは、ステップS8にて抽出したエッジに基づいて、各フレームと時系列的にこのフレームの1つ前のフレームとの間のエッジの変化率を算出する(ステップS9)。候補フレーム検出部11bは、ステップS9にて算出したエッジの変化率と所定の閾値とを比較し、エッジの変化率が閾値を超えないフレームを、キーフレームの候補となる候補フレームとして検出する(ステップS10)。
【0084】
処理部11のキーフレーム決定部11cは、ステップS10にて検出した各候補フレームについて、ORBのキーポイントを抽出する(ステップS11)。キーフレーム決定部11cは、ステップS11にて抽出した各候補フレームのキーポイントに基づいて、候補フレームの間でのキーポイントのマッチングを行う(ステップS12)。キーフレーム決定部11cは、ステップS12のキーポイントのマッチング結果に基づいて、候補フレーム間の類似度を算出する(ステップS13)。キーフレーム決定部11cは、類似度が閾値を超える複数の候補フレームについて、複数の候補フレームから1つのフレームを選択してキーフレームとし、これ以外の候補フレームを除外することによって、キーフレームを決定する(ステップS14)。
【0085】
処理部11の場面変化位置決定部11dは、ステップS7にて検出した場面変化位置の候補と、ステップS14にて決定したキーフレームとに基づき、時系列的に連続する2つの場面変化位置の候補の間に存在する場面候補の中から、キーフレームを含まない場面候補を検索する(ステップS15)。場面変化位置決定部11dは、ステップS15にて検索したキーフレームを含まない場面候補を規定する前後2つの場面変化位置の候補のうち、いずれか一方の場面変化位置の候補を取り除く(ステップS16)。場面変化位置決定部11dは、ステップS16にて取り除かれなかった場面変化位置の候補を、最終的な場面変化位置として決定する(ステップS17)。処理部11のDB処理部11eは、ステップS1にて取得した動画像、ステップS17にて決定した場面変化位置及びステップS14にて決定したキーフレームに関する情報を対応付けて動画像DB12bに記憶し(ステップS19)、処理を終了する。
【0086】
<動画像の再生処理>
本実施の形態に係る情報処理システムでは、サーバ装置1が上述の処理により決定した動画像の場面変化位置及びキーフレームに関する情報を、この動画像に対応付けて動画像DB12bに記憶している。また動画像DB12bには、例えば動画像の撮影者が付与した動画像のタイトル(表題)又は説明等の文字列、動画像の撮影日時、並びに、動画像の撮影場所等の様々な情報が対応付けて記憶される。また本実施の形態において動画像DB12bには、空調設備101の施工又は修理等の作業を撮影した動画像が記憶され、動画像には施工又は修理等の作業の対象となった空調設備101の名称又は商品番号等の文字情報が対応付けて記憶される。
【0087】
端末装置3は、例えばユーザからキーワードとなる文字列の入力を受け付け、受け付けた文字列をサーバ装置1へ送信して動画像の検索を要求する。端末装置3からの要求に応じてサーバ装置1は、与えられたキーワードの文字列をタイトル、説明分、空調設備101の名称又は商品番号等に含む動画像を動画像DB12bから検索し、該当する動画像に関する情報を検索結果として要求元の端末装置3へ送信する。サーバ装置1から検索結果を受信した端末装置3は、入力されたキーワードに該当する動画像のタイトル及び撮影日時等の情報を一覧表示する。
【0088】
また端末装置3は、検索結果として一覧表示した動画像の中から、再生する動画像の選択をユーザから受け付け、選択された動画像の送信をサーバ装置1に要求する。端末装置3からの要求に応じてサーバ装置1は、選択された動画像と、この動画像に対応付けられた場面変化位置及びキーフレームに関する情報とを動画像DB12bから読み出して要求元の端末装置3へ送信する。サーバ装置1から動画像と場面変化位置及びキーフレームに関する情報とを受信した端末装置3は、表示部34に動画像の再生画面を表示し、この画面において動画像を再生して表示する。
【0089】
図14は、端末装置3による再生画面の一例を示す模式図である。図示の再生画面には、画面の上側中央に動画像を表示するための動画像表示領域が設けられ、この領域の下方に4つの操作ボタンが横方向に並べて設けられている。4つの操作ボタンは、左側から、シーン(場面)の最初へ戻すためのボタン(戻すボタン)、動画像を再生するためのボタン(再生ボタン)、1つ後のシーンへスキップするためのボタン(スキップボタン)、動画像の再生を停止するためのボタン(停止ボタン)である。端末装置3は、これらの操作ボタンに対するユーザの操作を受け付けて、動画像の再生及び停止等の処理を行う。また端末装置3は、戻すボタン及びスキップボタンによる動画像のシーンチェンジを、サーバ装置1から受信した場面変化位置に基づいて行う。例えば端末装置3は、戻すボタンに対する操作がなされた場合、動画像の現在の再生時点より前の最も近い場面変化位置から再生を開始する。また例えば端末装置3は、スキップボタンに対する操作がなされた場合、動画像の現在の再生時点より後の最も近い場面変化位置から再生を開始する。
【0090】
また再生画面において端末装置3は、4つの操作ボタンの下方に、再生時間を示すプログレスバーを表示し、プログレスバーに動画像の場面変化位置を示す区切りを示す。図示の例は、動画像に3つの場面が含まれている場合のものであり、動画変化位置を示す太垂直線の2つの区切りがプログレスバーに示されている。また端末装置3は、プログレスバーの下方に、この動画像に含まれる一又は複数のキーフレームの縮小画像を適宜の配置で表示する。端末装置3は、これらのキーフレームが動画像中に登場する時間的なタイミングを、キーフレームの画像とプログレスバーとを結ぶ矢印で示す。この矢印は、プログレスバーが示す動画像の再生時間において、対応するキーフレームが登場する時間的な位置を指し示している。端末装置3は、再生画面に表示したキーフレームに対するクリック又はタップ等の操作を受け付けた場合に、操作を受け付けたキーフレームに対応する時点から動画像を再生する。
【0091】
なお、図14に示す動画像の表示方法は一例であってこれに限るものではなく、端末装置3はどのような方法で動画像の表示を行ってもよい。
【0092】
<要約動画像の生成処理>
本実施の形態に係る情報処理システムでは、上述の処理により決定した動画像の場面変化位置及びキーフレームに基づいて、動画像のダイジェスト動画像(要約動画像)を生成する処理をサーバ装置1が行う。サーバ装置1は、動画像から一又は複数の部分動画像を抽出して(切り出して)連結することによって、元の動画像よりも再生時間が短いダイジェスト動画像を生成する。
【0093】
本実施の形態に係るサーバ装置1は、動画像全体から、場面変化位置から所定時間(例えば数秒~数十秒)の部分動画像と、キーフレームの前後の所定時間の部分動画像とを抽出する。サーバ装置1は、動画像から抽出したこれら複数の部分動画像を時系列順に連結することによって、ダイジェスト動画像を生成する。サーバ装置1は、生成したダイジェスト動画像を、元の動画像に対応付けて動画像DB12bに記憶する。
【0094】
サーバ装置1は、例えばカメラ103から動画像を取得した際にダイジェスト動画像を生成してもよく、また例えば端末装置3からの要求に応じてダイジェスト動画像を生成してもよく、これら以外のタイミングでダイジェスト動画像を生成してもよい。またサーバ装置1は、例えば端末装置3からの動画像の検索要求に対して検索結果を送信する際に、検索結果として該当する動画像のダイジェスト動画像を動画像DB12bから読み出して端末装置3へ送信してもよい。端末装置3は、動画像の検索結果として、検索条件に合致した複数の動画像のタイトル等の情報と共に、ダイジェスト動画像を一覧表示してもよい。
【0095】
<タイトル生成処理>
本実施の形態に係る情報処理システムでは、動画像のタイトル、動画像に含まれる場面のタイトル、又は、動画像に含まれるキーフレームのタイトル等を、機械学習がなされた学習モデル、いわゆるAI(Artificial Intelligence)を用いてサーバ装置1が自動生成することができる。図15は、本実施の形態に係るサーバ装置1が用いる学習モデルを説明するための模式図である。本実施の形態に係るサーバ装置1が用いる学習モデルは、動画像に含まれるキーフレームを入力として受け付け、このキーフレームに写されている空調設備101の施工又は修理の種別を分類結果として出力するよう予め機械学習がなされた学習モデルである。
【0096】
本実施の形態に係る学習モデルは、例えばCNN(Convolutional Neural Network)又はDNN(Deep Neural Network)等の構成の学習モデルが採用され得る。学習モデルは、例えば画像と、この画像に写された施工又は修理の種別とが対応付けられた学習用のデータを用いて、いわゆる教師ありの機械学習を行うことによって生成され得る。学習モデルの教師あり学習の処理は、既存の技術であるため詳細な説明は省略するが、サーバ装置1は、例えば勾配降下法、確率的勾配降下法又は誤差逆伝播法等の手法により学習モデルの学習を行うことができる。
【0097】
サーバ装置1は、機械学習により生成した学習モデルを記憶部12に記憶している。サーバ装置1は、動画像に含まれるキーフレームの検出を行った後、検出された一又は複数のキーフレームをそれぞれ学習モデルへ入力し、学習モデルが出力する分類結果を取得する。学習モデルが出力する空調設備101の施工又は修理の種別は、例えばエアコン(エアコンディショナー)の室外機の施工又はエアコンの室内機の修理等である。サーバ装置1は、例えば動画像に含まれる各キーフレームについて、学習モデルを用いた施工又は修理の種別の分類をそれぞれ行い、全てのキーフレームについて分類結果を取得し、取得した分類結果に基づいて動画像のタイトル及び場面のタイトルを生成する。
【0098】
サーバ装置1は、動画像に含まれる複数のキーフレームの分類結果から、例えば最も多い分類結果など、1つの分類結果を適宜に選択する。サーバ装置1は、例えば選択した分類結果と、この動画像が撮影された日時とを組み合わせた「XXXX年YY月ZZ日:エアコンンの室外機の施工」等の文字列を、この動画像のタイトルとすることができる。またサーバ装置1は、動画像に含まれる各場面について、この場面に含まれるキーフレームの分類結果を適宜に1つ選択し、選択した分類結果を相当する「エアコンの室内機の修理」等の文字列を場面のタイトルとすることができる。なおサーバ装置1による、施工又は修理の種別の分類結果に基づいてタイトルを生成する方法は、上記のものに限らず、どのような方法が採用されてもよい。
【0099】
またサーバ装置1は、キーフレームに写されている空調設備101の施工又は修理の種別を分類する学習モデルに代えて、キーフレームの入力を受け付けて、このキーフレームのタイトルの文字列を生成する学習モデルを用いてもよい。このような学習モデルは、例えば画像を特徴量に変換するCNN等の学習モデルと、特徴量を基にタイトルの文字列を生成するRNN(Recurrent Neural Network)、LSTM(Long Short Term Memory)、BERT(Bidirectional Encoder Representations from Transformers)又はGPT-3(Generative Pre-trained Transformer - 3)等の学習モデルとを組み合わせて構成され得る。
【0100】
サーバ装置1は、キーフレームに基づいて生成した動画像のタイトル及び動画像に含まれる場面のタイトルを、この動画像に対応付けて動画像DB12bに記憶する。なお、例えば動画像の撮影者等がこの動画像又は場面のタイトルを入力した場合には、サーバ装置1は、入力されたタイトルを動画像DB12bに記憶し、学習モデルを用いたタイトルの生成を行わなくてもよい。また端末装置3は、例えば図14に示した再生画面において、動画像のタイトルを最上部等に表示し、一又は複数のキーフレームの画像に対応付けて場面のタイトルを表示することができる。
【0101】
<まとめ>
以上の構成の本実施の形態に係る情報処理システムでは、カメラ103が撮影した動画像からサーバ装置1が場面変化位置の候補を検出し、動画像を構成する複数のフレームの中から場面のキーフレーム(主要フレーム)となり得る候補フレームを検出し、候補フレームの中からキーフレームを決定し、場面変化位置の候補及びキーフレームの時系列的な順序に基づいて、場面変化位置の候補の中から場面変化位置を決定する。これにより本実施の形態に係る情報処理システムは、動画像から場面の変化を精度よく検出することが期待できる。
【0102】
また本実施の形態に係る情報処理システムでは、時系列的に並ぶ2つの場面変化位置の候補の間にキーフレームが存在しない場合、サーバ装置1は、この2つの場面変化位置の候補からいずれか一方を除外することで、場面変化位置を決定する。また本実施の形態に係る情報処理システムでは、時系列的に連続し且つ類似する2つのキーフレームの間に場面変化位置の候補が存在する場合、サーバ装置1は、この場面変化位置の候補を除外することで、場面変化位置を決定してもよい。これらにより本実施の形態に係る情報処理システムは、動画像から検出した場面変化位置の候補の中から精度よく場面変化位置を決定することが期待できる。
【0103】
また本実施の形態に係る情報処理システムでは、動画像に含まれる各フレームの統計値(HSLヒストグラム)をサーバ装置1が算出し、時系列的に連続する2つのフレームの統計値の差異(相違度)に基づいて、場面変化位置の候補を検出する。また本実施の形態に係る情報処理システムでは、動画像に含まれる各フレームのハッシュ値(pHash)をサーバ装置1が算出し、時系列的に連続する2つのフレームのハッシュ値の差異に基づいて、場面変化位置の候補を検出する。これにより本実施の形態に係る情報処理システムは、動画像から場面変化位置の候補を精度よく検出することが期待できる。
【0104】
また本実施の形態に係る情報処理システムでは、動画像に含まれる各フレームからエッジをサーバ装置1が抽出し、時系列的に連続する2つのフレームの間のエッジの変化(変化率)に基づいて候補フレームを検出する。また本実施の形態に係る情報処理システムでは、候補フレームから特徴点(キーポイント)をサーバ装置1が抽出し、複数の候補フレーム間での特徴点の比較結果に基づいて類似する候補フレームを除外することで、候補フレームの中からキーフレームを決定する。これらにより本実施の形態に係る情報処理システムは、動画像から候補フレームを精度よく検出し、候補フレームの中からキーフレームを精度よく決定することが期待できる。
【0105】
また本実施の形態に係る情報処理システムでは、決定した場面変化位置及びキーフレームに関する情報を、サーバ装置1が動画像に対応付けて動画像DB12bに記憶する。端末装置3は、場面変化位置又はキーフレームの選択をユーザから受け付け、受け付けた場面変化位置又はキーフレームに基づく動画像の再生を行う。これにより本実施の形態に係る情報処理システムは、ユーザが必要とする場面等から動画像を再生することが期待できる。
【0106】
また本実施の形態に係る情報処理システムでは、決定した場面変化位置及びキーフレームに関する情報と、動画像のタイトル、説明、撮影日時、撮影場所、施工又は修理の対象となった空調設備(空調関連機器)101の名称又は商品番号等の文字情報とを対応付けて、サーバ装置1が動画像DB12bに記憶する。これによりユーザは、動画像に対応付けられた文字情報に基づいて、キーワード等を入力して動画像を検索することができる。
【0107】
また本実施の形態に係る情報処理システムでは、決定した場面変化位置及びキーフレームに基づいて動画像から部分動画像を抽出し、抽出した部分動画像を結合して要約動画像(ダイジェスト動画像)を生成する。これにより本実施の形態に係る情報処理はユーザに要約動画像を提供することができ、ユーザは要約動画像を利用して再生時間が長い動画像であってもその概要を容易に把握することが期待できる。
【0108】
また本実施の形態に係る情報処理システムでは、決定したキーフレームをサーバ装置1が予め機械学習がなされた学習モデルへ入力し、学習モデルが出力する情報に基づいて動画像又は動画像に含まれる場面の表題(タイトル)を決定する。これにより本実施の形態に係る情報処理システムは、動画像の撮影者が表題を入力しない場合であっても、動画像に対して自動的に表題を付与することができる。
【0109】
今回開示された実施形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
【符号の説明】
【0110】
1 サーバ装置(画像処理装置)
3 端末装置
11 処理部
11a 場面変化位置候補検出部
11b 候補フレーム検出部
11c キーフレーム決定部(主要フレーム決定部)
11d 場面変化位置決定部
11e DB処理部
12 記憶部
12a サーバプログラム(コンピュータプログラム)
12b 動画像DB
13 通信部
31 処理部
31a 検索処理部
31b 表示処理部
32 記憶部
32a プログラム
33 通信部
34 表示部
35 操作部
101 空調設備(空調関連機器)
102 作業者
103 カメラ
N ネットワーク
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15