IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

<>
  • 特許-情報処理装置、制御方法及びプログラム 図1
  • 特許-情報処理装置、制御方法及びプログラム 図2
  • 特許-情報処理装置、制御方法及びプログラム 図3
  • 特許-情報処理装置、制御方法及びプログラム 図4
  • 特許-情報処理装置、制御方法及びプログラム 図5
  • 特許-情報処理装置、制御方法及びプログラム 図6
  • 特許-情報処理装置、制御方法及びプログラム 図7
  • 特許-情報処理装置、制御方法及びプログラム 図8
  • 特許-情報処理装置、制御方法及びプログラム 図9
  • 特許-情報処理装置、制御方法及びプログラム 図10
  • 特許-情報処理装置、制御方法及びプログラム 図11
  • 特許-情報処理装置、制御方法及びプログラム 図12
  • 特許-情報処理装置、制御方法及びプログラム 図13
  • 特許-情報処理装置、制御方法及びプログラム 図14
  • 特許-情報処理装置、制御方法及びプログラム 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-15
(45)【発行日】2024-01-23
(54)【発明の名称】情報処理装置、制御方法及びプログラム
(51)【国際特許分類】
   H04N 5/91 20060101AFI20240116BHJP
   H04N 5/92 20060101ALI20240116BHJP
【FI】
H04N5/91
H04N5/92 010
【請求項の数】 9
(21)【出願番号】P 2022527324
(86)(22)【出願日】2020-05-26
(86)【国際出願番号】 JP2020020770
(87)【国際公開番号】W WO2021240651
(87)【国際公開日】2021-12-02
【審査請求日】2022-11-14
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100107331
【弁理士】
【氏名又は名称】中村 聡延
(74)【代理人】
【識別番号】100104765
【弁理士】
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100131015
【弁理士】
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】渡辺 はるな
(72)【発明者】
【氏名】菊池 克
(72)【発明者】
【氏名】白石 壮馬
(72)【発明者】
【氏名】鍋藤 悠
【審査官】川中 龍太
(56)【参考文献】
【文献】特開2012-070283(JP,A)
【文献】特開2020-035095(JP,A)
【文献】特開平06-266398(JP,A)
【文献】国際公開第2015/178078(WO,A1)
【文献】特開2016-219879(JP,A)
【文献】特開2014-033417(JP,A)
【文献】特開2002-125199(JP,A)
【文献】米国特許出願公開第2018/0075877(US,A1)
【文献】中国特許出願公開第110798752(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 5/91 - 5/956
(57)【特許請求の範囲】
【請求項1】
映像データ又は音データの少なくとも一方を含む入力データを取得する入力データ取得手段と、
前記入力データの重要度を算出する重要度算出手段と、
前記重要度の算出を評価する対象として指定された区間に対応する前記重要度の算出における前記入力データの注目箇所を特定する注目箇所特定手段と、
前記区間に対応する入力データを、前記注目箇所を強調した態様により表示装置に表示させる表示制御手段と、
を有する情報処理装置。
【請求項2】
前記重要度算出手段は、映像データ又は音データの少なくとも一方を含むデータが入力された場合に当該データの重要度を推論するように学習された推論器に基づき、前記入力データの重要度を算出する、請求項1に記載の情報処理装置。
【請求項3】
前記推論器は、多層構造を有し、
前記注目箇所特定手段は、前記推論器の中間層の出力に基づき、前記注目箇所を特定する、請求項2に記載の情報処理装置。
【請求項4】
前記入力データは、前記映像データを含み、
前記注目箇所特定手段は、前記注目箇所として、前記重要度の算出における注目領域を、前記映像データを構成する画像内において特定する、請求項1~3のいずれか一項に記載の情報処理装置。
【請求項5】
前記入力データは、前記映像データを含み、
前記注目箇所特定手段は、前記注目箇所として、前記重要度の算出における注目画像を、前記映像データを構成する画像から特定する、請求項1~3のいずれか一項に記載の情報処理装置。
【請求項6】
前記入力データは、前記音データを含み、
前記注目箇所特定手段は、前記重要度の算出において注目した前記音データの区間又は周波数を特定する、請求項1~3のいずれか一項に記載の情報処理装置。
【請求項7】
前記入力データは、前記映像データ及び前記音データの両方を含み、
前記注目箇所特定手段は、前記重要度の算出における、前記映像データと前記音データとの夫々の注目の度合を特定する、請求項1~6のいずれか一項に記載の情報処理装置。
【請求項8】
コンピュータにより、
映像データ又は音データの少なくとも一方を含む入力データを取得し、
前記入力データの重要度を算出し、
前記重要度の算出を評価する対象として指定された区間に対応する前記重要度の算出における前記入力データの注目箇所を特定し、
前記区間に対応する入力データを、前記注目箇所を強調した態様により表示装置に表示させる、
制御方法。
【請求項9】
映像データ又は音データの少なくとも一方を含む入力データを取得する入力データ取得手段と、
前記入力データの重要度を算出する重要度算出手段と、
前記重要度の算出を評価する対象として指定された区間に対応する前記重要度の算出における前記入力データの注目箇所を特定する注目箇所特定手段と、
前記区間に対応する入力データを、前記注目箇所を強調した態様により表示装置に表示させる表示制御手段
としてコンピュータを機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、ダイジェストの生成に関する処理を行う情報処理装置、制御方法及び記憶媒体の技術分野に関する。
【背景技術】
【0002】
素材となる映像データを編集してダイジェストを生成する技術が存在する。例えば、特許文献1には、グランドでのスポーツイベントの映像ストリームからハイライトを確認して製作する方法が開示されている。また、非特許文献1は、畳み込みニューラルネットワークの判断根拠の可視化技術であるGrad-CAM(Gradient-weighted Class Activation Mapping)に関する情報を開示している。
【先行技術文献】
【特許文献】
【0003】
【文献】特表2019-522948号公報
【非特許文献】
【0004】
【文献】Ramprasaath R. Selvaraju, Michael Cogswell, Abhishek Das, Ramakrishna Vedantam, Devi Parikh, Dhruv Batra, Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization, [令和2年4月27日検索], インターネット<URL: https://arxiv.org/pdf/1610.02391.pdf>
【発明の概要】
【発明が解決しようとする課題】
【0005】
素材となる映像に対して重要度を算出し、その重要度に基づいてダイジェスト生成を行う場合、重要度を算出するモデルの精度が十分に高いことが要求される。よって、このような場合では、重要度を算出するモデルが十分な精度を有しているか適切に評価することが必要となる。
【0006】
本開示の目的は、ダイジェスト生成において用いられる重要度の算出モデルの評価に好適な情報を取得することが可能な情報処理装置、制御方法及び記憶媒体を提供することである。
【課題を解決するための手段】
【0007】
情報処理装置の一の態様は、映像データ又は音データの少なくとも一方を含む入力データを取得する入力データ取得手段と、前記入力データの重要度を算出する重要度算出手段と、前記重要度の算出を評価する対象として指定された区間に対応する前記重要度の算出における前記入力データの注目箇所を特定する注目箇所特定手段と、前記区間に対応する入力データを、前記注目箇所を強調した態様により表示装置に表示させる表示制御手段と、
を有する情報処理装置である。
【0008】
制御方法の一の態様は、コンピュータにより、映像データ又は音データの少なくとも一方を含む入力データを取得し、前記入力データの重要度を算出し、前記重要度の算出を評価する対象として指定された区間に対応する前記重要度の算出における前記入力データの注目箇所を特定し、前記区間に対応する入力データを、前記注目箇所を強調した態様により表示装置に表示させる、制御方法である。
【0009】
プログラムの一の態様は、映像データ又は音データの少なくとも一方を含む入力データを取得する入力データ取得手段と、前記入力データの重要度を算出する重要度算出手段と、前記重要度の算出を評価する対象として指定された区間に対応する前記重要度の算出における前記入力データの注目箇所を特定する注目箇所特定手段と、前記区間に対応する入力データを、前記注目箇所を強調した態様により表示装置に表示させる表示制御手段としてコンピュータを機能させるプログラムである。
【発明の効果】
【0010】
本開示によれば、ダイジェスト生成において用いられる重要度の算出において注目された箇所を好適に特定することができる。
【図面の簡単な説明】
【0011】
図1】第1実施形態における注目箇所可視化システムの構成を示す。
図2】情報処理装置のハードウェア構成を示す。
図3】情報処理装置の機能ブロックの一例である。
図4】(A)重要度推論器に1回毎に入力されるサンプルデータが1枚の画像から構成される場合の注目箇所を示す図である。(B)重要度推論器に1回毎に入力されるサンプルデータが複数の画像から構成される場合の注目箇所を示す第1の例である。(C)重要度推論器に1回毎に入力されるサンプルデータが複数の画像から構成される場合の注目箇所を示す第2の例である。
図5】重要度推論器情報を生成するシステムの概略構成図である。
図6】学習精度評価画面の第1表示例である。
図7】学習精度評価画面の第2表示例である。
図8】第1実施形態において情報処理装置が実行する注目箇所可視化処理の手順を示すフローチャートの一例である。
図9】変形例における情報処理装置の機能ブロック図の一例を示す。
図10】学習精度評価画面の第3表示例である。
図11】学習精度評価画面の第4表示例である。
図12】学習精度評価画面の第5表示例である。
図13】変形例における注目箇所可視化システムの構成を示す。
図14】第2実施形態における情報処理装置の機能ブロック図である。
図15】第2実施形態において情報処理装置が実行するフローチャートの一例である。
【発明を実施するための形態】
【0012】
以下、図面を参照しながら、情報処理装置、制御方法及び記憶媒体の実施形態について説明する。
【0013】
<第1実施形態>
(1)システム構成
図1は、第1実施形態に係る注目箇所可視化システム100の構成を示す。注目箇所可視化システム100は、映像データ(音データを含んでもよい。以下同じ。)を編集した編集データ(所謂、ダイジェスト)の生成において注目された箇所(単に「注目箇所」とも呼ぶ。)の可視化を行うシステムである。注目箇所可視化システム100は、主に、情報処理装置1と、入力装置2と、表示装置3と、記憶装置4とを備える。以後では、ダイジェストの生成において編集される対象となるデータを「素材データ」とも呼ぶ。
【0014】
情報処理装置1は、通信網を介し、又は、無線若しくは有線による直接通信により、入力装置2、及び表示装置3とデータ通信を行う。また、情報処理装置1は、注目箇所の可視化の対象となる素材データ(「入力データDi」とも呼ぶ。)が入力された場合に、入力データDiのダイジェスト生成における注目箇所を特定する。なお、入力データDiは、記憶装置4に記憶された任意の素材データであってもよく、記憶装置4以外の外部装置から情報処理装置1に供給される素材データであってもよい。そして、情報処理装置1は、特定した注目箇所に関する情報を表示装置3に表示させる。この場合、情報処理装置1は、特定した注目箇所に関する情報を表示するための表示信号「S1」を生成し、生成した表示信号S1を表示装置3に供給する。
【0015】
入力装置2は、ユーザ入力を受け付ける任意のユーザインターフェースであり、例えば、ボタン、キーボード、マウス、タッチパネル、音声入力装置などが該当する。入力装置2は、ユーザ入力に基づき生成した入力信号「S2」を、情報処理装置1へ供給する。表示装置3は、例えば、ディスプレイ、プロジェクタ等であり、情報処理装置1から供給される表示信号S1に基づき、所定の表示を行う。
【0016】
記憶装置4は、情報処理装置1の処理に必要な各種情報を記憶するメモリである。記憶装置4は、例えば、重要度推論器情報D1を記憶する。重要度推論器情報D1は、映像データが入力された場合に当該映像データの重要度を推論するように学習された推論器(「重要度推論器」とも呼ぶ。)のパラメータを含む。上述の重要度は、ダイジェストの生成において入力データDiを構成する各区間が重要区間であるか又は非重要区間であるかを判定するための基準となる指標である。なお、重要度推論器の学習モデルは、ニューラルネットワーク又はサポートベクターマシンなどの任意の機械学習に基づく学習モデルであってもよい。例えば、上述の重要度推論器のモデルが畳み込みニューラルネットワークなどのニューラルネットワークである場合、重要度推論器情報D1は、層構造、各層のニューロン構造、各層におけるフィルタ数及びフィルタサイズ、並びに各フィルタの各要素の重みなどの各種パラメータを含む。また、記憶装置4には、入力データDiの候補となるダイジェスト生成の素材データが記憶されてもよい。
【0017】
なお、記憶装置4は、情報処理装置1に接続又は内蔵されたハードディスクなどの外部記憶装置であってもよく、フラッシュメモリなどの記憶媒体であってもよい。また、記憶装置4は、情報処理装置1とデータ通信を行うサーバ装置であってもよい。また、記憶装置4は、複数の装置から構成されてもよい。
【0018】
なお、図1に示す注目箇所可視化システム100の構成は一例であり、当該構成に種々の変更が行われてもよい。例えば、入力装置2及び表示装置3は、一体となって構成されてもよい。この場合、入力装置2及び表示装置3は、情報処理装置1と一体となるタブレット型端末として構成されてもよい。また、情報処理装置1は、複数の装置から構成されてもよい。この場合、情報処理装置1を構成する複数の装置は、予め割り当てられた処理を実行するために必要な情報の授受を、これらの複数の装置間において行う。
【0019】
(2)情報処理装置のハードウェア構成
図2は、情報処理装置1のハードウェア構成を示す。情報処理装置1は、ハードウェアとして、プロセッサ11と、メモリ12と、インターフェース13とを含む。プロセッサ11、メモリ12及びインターフェース13は、データバス19を介して接続されている。
【0020】
プロセッサ11は、メモリ12に記憶されているプログラムを実行することにより、所定の処理を実行する。プロセッサ11は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、量子プロセッサなどのプロセッサである。
【0021】
メモリ12は、RAM(Random Access Memory)、ROM(Read Only Memory)などの各種の揮発性メモリ及び不揮発性メモリにより構成される。また、メモリ12には、情報処理装置1が実行するプログラムが記憶される。また、メモリ12は、作業メモリとして使用され、記憶装置4から取得した情報等を一時的に記憶する。なお、メモリ12は、記憶装置4として機能してもよい。同様に、記憶装置4は、情報処理装置1のメモリ12として機能してもよい。なお、情報処理装置1が実行するプログラムは、メモリ12以外の記憶媒体に記憶されてもよい。
【0022】
インターフェース13は、情報処理装置1と他の装置とを電気的に接続するためのインターフェースである。例えば、情報処理装置1と他の装置とを接続するためのインターフェースは、プロセッサ11の制御に基づき他の装置とデータの送受信を有線又は無線により行うためのネットワークアダプタなどの通信インターフェースであってもよい。他の例では、情報処理装置1と他の装置とはケーブル等により接続されてもよい。この場合、インターフェース13は、他の装置とデータの授受を行うためのUSB(Universal Serial Bus)、SATA(Serial AT Attachment)などに準拠したハードウェアインターフェースを含む。
【0023】
なお、情報処理装置1のハードウェア構成は、図2に示す構成に限定されない。例えば、情報処理装置1は、入力装置2又は表示装置3の少なくとも一方を含んでもよい。また、情報処理装置1は、スピーカなどの音出力装置と接続又は内蔵してもよい。
【0024】
(3)機能ブロック
図3は、情報処理装置1のプロセッサ11の機能ブロックの一例である。情報処理装置1のプロセッサ11は、機能的には、入力データ取得部14と、重要度算出部15と、注目箇所特定部16と、出力制御部17とを有する。なお、図3では、データの授受が行われるブロック同士を実線により結んでいるが、データの授受が行われるブロックの組合せは図3に限定されない。後述する他の機能ブロックの図においても同様である。
【0025】
入力データ取得部14は、入力データDiを取得し、取得した入力データDiを重要度算出部15及び出力制御部17へ供給する。この場合、例えば、入力データ取得部14は、外部装置からインターフェース13を介して受信した映像データを、入力データDiとして取得する。他の例では、入力データ取得部14は、記憶装置4又はメモリ12に記憶された映像データのうち入力装置2へのユーザ入力に基づく入力信号S2により指定された映像データを、入力データDiとして取得する。
【0026】
重要度算出部15は、入力データ取得部14から供給された入力データDiに基づき、入力データDiの時系列での重要度を算出する。そして、重要度算出部15は、算出した時系列での重要度を示す情報(「重要度情報Ii」とも呼ぶ。)を出力制御部17へ供給する。この場合、重要度算出部15は、重要度推論器情報D1を参照することで重要度推論器を構成し、入力データDiを重要度推論器に入力することで重要度情報Iiを生成する。例えば、重要度推論器には、入力データDiを所定の時間長に相当する単位区間ごとに区切ったデータ(「サンプルデータ」とも呼ぶ。)が入力される。ここで、重要度推論器は、サンプルデータが入力された場合に、入力されたサンプルデータに対する区間での重要度を推論するように学習された学習モデルである。この場合、重要度算出部15は、例えば、入力データDiを単位区間ごとに区切った全てのサンプルデータを重要度推論器に順次入力することで、入力データDiの時系列の重要度を取得する。
【0027】
また、重要度算出部15は、重要度の算出過程において生成される中間の算出結果を示す情報(「中間算出情報Im」とも呼ぶ。)を注目箇所特定部16に供給する。この場合、例えば、重要度推論器は3層以上の多層構造を有し、重要度算出部15は、上述のサンプルデータが入力された場合の重要度推論器の中間層の出力値(例えば予測クラスの出力に対する勾配)を、中間算出情報Imとして注目箇所特定部16に供給する。この場合、中間算出情報Imは、例えば、サンプルデータを構成する1又は複数の画像(フレーム)の各々に対するピクセル又はサブピクセル毎の注目度(注目の度合)を示すマップ情報であってもよく、サンプルデータを構成する複数の画像に対する画像毎の注目度を示す情報であってもよい。なお、重要度算出部15は、例えば、畳み込みニューラルネットワークの判断根拠の可視化技術であるGrad-CAM又はその発展手法に準じた手法を用いることで、上述の中間算出情報Imを生成することができる。
【0028】
注目箇所特定部16は、重要度算出部15から供給される中間算出情報Imに基づき、入力データDiにおける注目箇所を特定し、特定した注目箇所を示す情報(「注目箇所情報In」とも呼ぶ。)を出力制御部17に供給する。注目箇所特定部16の処理の詳細については後述する。
【0029】
出力制御部17は、入力データ取得部14から供給される入力データDiと、重要度算出部15から供給される重要度情報Iiと、注目箇所特定部16から供給される注目箇所情報Inとに基づき、注目箇所を明示するための表示信号S1を生成する。そして、出力制御部17は、生成した表示信号S1を、インターフェース13を介して表示装置3へ供給する。出力制御部17による表示例については後述する。なお、出力制御部17は、表示装置3に加えて、音を出力するための音出力装置の制御をさらに行ってもよい。例えば、出力制御部17は、注目箇所に関するガイダンス音声などを音出力装置に出力させてもよい。
【0030】
なお、図3において説明した入力データ取得部14、重要度算出部15、注目箇所特定部16及び出力制御部17の各構成要素は、例えば、プロセッサ11が記憶装置4又はメモリ12に格納されたプログラムを実行することによって実現できる。また、必要なプログラムを任意の不揮発性記憶媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。なお、これらの各構成要素は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組み合わせ等により実現してもよい。また、これらの各構成要素は、例えばFPGA(field-programmable gate array)又はマイコン等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、上記の各構成要素から構成されるプログラムを実現してもよい。このように、各構成要素は、プロセッサ以外のハードウェアを含む任意のコントローラにより実現されてもよい。以上のことは、後述する他の実施の形態においても同様である。
【0031】
(4)注目箇所の特定
次に、図3で説明した注目箇所特定部16による注目箇所の特定の具体例について、図4(A)~図4(C)を参照して説明する。
【0032】
図4(A)は、重要度推論器に1回毎に入力されるサンプルデータが1枚の画像から構成される場合に注目箇所特定部16が特定した画像内の注目箇所を示す図である。
【0033】
この場合、重要度算出部15は、サンプルデータとして画像8を重要度推論器に入力し、画像8に対応する中間算出情報Imを注目箇所特定部16に供給する。この場合、例えば、中間算出情報Imは、画像8内でのピクセル又はサブピクセル単位での注目度のマップ情報である。そして、注目箇所特定部16は、重要度算出部15から供給される中間算出情報Imに基づき、枠9に囲まれた画像8の領域を、注目箇所に相当する領域(「注目領域」とも呼ぶ。)として特定する。ここでは、注目箇所特定部16は、上述のマップ情報における注目度が所定の閾値以上となる箇所を全て又は所定割合(例えば9割)以上含む最小の矩形領域を、注目領域として特定している。なお、注目箇所特定部16は、矩形領域を注目領域として特定する代わりに、任意の形状の領域を注目領域として特定してもよい。この場合、注目箇所特定部16は、注目度が所定の閾値以上となる箇所(部分領域)をそのまま注目領域として特定してもよい。
【0034】
図4(B)は、重要度推論器に1回毎に入力されるサンプルデータが複数の画像から構成される場合に注目箇所特定部16が特定した注目箇所を示す第1の例である。
【0035】
この場合、重要度算出部15は、サンプルデータとして3枚の画像8a~8cを重要度推論器に入力し、重要度推論器の中間算出結果を示す中間算出情報Imを注目箇所特定部16に供給する。この場合、中間算出情報Imは、例えば、画像8a~8cの各々に対するピクセル又はサブピクセル単位での注目度のマップ情報となっている。そして、注目箇所特定部16は、重要度算出部15から供給された上述のマップ情報に基づき、枠9aに囲まれた画像8aの部分領域、枠9bに囲まれた画像8bの部分領域、及び枠9cに囲まれた画像8cの部分領域を、注目箇所に相当する注目領域として特定する。
【0036】
このように、サンプルデータを構成する画像が複数である場合、注目箇所特定部16は、サンプルデータを構成する画像の各々における注目領域を、注目箇所として特定してもよい。なお、図4(A)の例と同様、注目領域は、矩形領域に限らず、任意の形状の領域であってもよい。
【0037】
図4(C)は、重要度推論器に1回毎に入力されるサンプルデータが複数の画像である場合に注目箇所特定部16が特定した注目箇所を示す第2の例である。
【0038】
この場合、重要度算出部15は、サンプルデータとして3枚の画像8a~8cを重要度推論器に入力し、重要度推論器の中間算出結果を示す中間算出情報Imを注目箇所特定部16に供給する。この場合、中間算出情報Imは、サンプルデータを構成する画像8a~8cの各々に対する画像単位での注目度を示す情報となっている。そして、注目箇所特定部16は、中間算出情報Imに基づき、注目箇所に相当する画像(「注目画像」とも呼ぶ。)を特定する。この場合、注目箇所特定部16は、例えば、最も注目度が高い画像、又は、注目度が所定の閾値以上となる画像を、注目画像として特定する。図4(C)の例では、注目箇所特定部16は、画像8bを注目画像として特定している。
【0039】
このように、サンプルデータを構成する画像が複数である場合、注目箇所特定部16は、画像単位により注目箇所を特定してもよい。
【0040】
(5)重要度推論器の学習
次に、重要度推論器情報D1の生成について説明する。図5は、重要度推論器情報D1を生成する学習システムの概略構成図である。上記学習システムは、学習データD2を参照可能な学習装置6を有する。
【0041】
学習装置6は、例えば図2に示す情報処理装置1の構成と同一構成を有し、主に、プロセッサ21と、メモリ22と、インターフェース23とを有している。学習装置6は、情報処理装置1であってもよく、情報処理装置1以外の任意の装置であってもよい。
【0042】
学習データD2は、重要度推論器の入力データとなる映像データと、重要か非重要かを示す正解ラベルとの複数の組み合わせを含む学習データセットである。学習データD2には、非重要であることを示す正解ラベルと関連付けられた映像データ(非重要データ)と、重要であることを示す正解ラベルと関連付けられた映像データ(重要データ)との両方が含まれている。なお、重要度推論器の入力データとなる映像データは、1枚以上の画像を含むデータとなる。
【0043】
学習装置6は、学習データD2を用い、映像データを入力データとした場合に、対応する正解ラベルが示す重要度を出力するような重要度推論器の学習を行う。この場合、学習装置6は、例えば、非重要であることを示す正解ラベルの場合には重要度が最低値であるとみなし、重要であることを示す正解ラベルの場合には重要度が最大値であるとみなしてもよい。そして、学習装置6は、学習データD2に含まれる映像データを重要度推論器に入力した場合の重要度推論器の出力と、入力された映像データに対応する正解ラベルとの誤差(損失)が最小となるように、重要度推論器のパラメータを決定する。損失を最小化するように上述のパラメータを決定するアルゴリズムは、勾配降下法や誤差逆伝播法などの機械学習において用いられる任意の学習アルゴリズムであってもよい。
【0044】
そして、学習装置6は、学習により得られた重要度推論器のパラメータを、重要度推論器情報D1として生成する。なお、生成された重要度推論器情報D1は、記憶装置4と学習装置6とのデータ通信により直ちに記憶装置4に記憶されてもよく、着脱可能な記憶媒体を介して記憶装置4に記憶されてもよい。
【0045】
(6)表示例
次に、出力制御部17が表示装置3に表示させる画面の表示例について説明する。概略的には、出力制御部17は、入力データDiに対応する任意の区間が指定された場合に、指定された区間に対応する重要度の算出において注目された注目箇所を、当該区間に対応するサンプルデータと関連付けて表示装置3に表示させる。これにより、出力制御部17は、注目箇所に関する情報を画面上で閲覧者に好適に確認させる。この場合、閲覧者は、重要度推論器が正しい箇所を注目箇所として捉えて重要度の算出を行っているか否かを判定し、重要度推論器の学習精度の評価を行う。以後では、出力制御部17が表示装置3に表示させる画面を、「学習精度評価画面」とも呼ぶ。
【0046】
図6は、学習精度評価画面の第1表示例である。第1表示例では、出力制御部17は、ユーザが指定した区間に対応する入力データDiの画像を並べて表示し、かつ、当該画像において注目箇所を強調表示する学習精度評価画面を表示装置3に表示させる。この場合、出力制御部17は、入力データDi、重要度情報Ii及び注目箇所情報Inに基づき表示信号S1を生成し、生成した表示信号S1を表示装置3に供給することで、表示装置3に学習精度評価画面を表示させている。
【0047】
出力制御部17は、第1表示例に係る学習精度評価画面上に、ユーザが指定した区間に対応するサンプルデータ及び注目箇所を表示する注目箇所表示領域30と、注目箇所を可視化する区間を指定するシークバー38とを設けている。
【0048】
ここで、シークバー38は、入力データDiの再生時間長(ここでは40分)を明示したバーであり、注目箇所を可視化する対象となる区間(ここでは12分30秒に対応する区間)を指定するスライド39が設けられている。ここで、出力制御部17は、入力装置2が生成する入力信号S2に基づき、ユーザが指定した位置にスライド39をシークバー38上で移動させる。
【0049】
出力制御部17は、スライド39により指定された区間に対応するサンプルデータを入力データDiから抽出し、抽出したサンプルデータを構成する画像に関連付けて、対応する注目箇所を注目箇所表示領域30上において表示する。図6の例では、出力制御部17は、12分30秒に対応する区間に対応するサンプルデータを構成する画像31a~31cを並べて表示すると共に、各画像の注目領域を示す矩形枠32a~32cを画像31Aa上に表示する。
【0050】
このように、第1表示例では、出力制御部17は、ユーザが指定した区間に対応するサンプルデータに対して注目箇所特定部16が特定した注目箇所を、好適に閲覧者に提示することができる。これにより、閲覧者は、重要度推論器が正しい箇所を注目箇所として捉えて重要度の算出を行っているか否か確認し、重要度推論器の学習精度の評価を行うことが可能となる。なお、出力制御部17は、サンプルデータが1枚の画像からなる場合には、当該画像内の注目箇所となる部分領域を図4(A)と同様に表示する学習精度評価画面を表示装置3に表示させる。なお、出力制御部17は、学習精度評価画面上において、ユーザが指定した区間に対して算出された重要度をさらに表示してもよい。
【0051】
図7は、学習精度評価画面の第2表示例である。第2表示例では、出力制御部17は、ユーザが指定した区間に対応する入力データDiの画像を並べて表示し、かつ、これらの画像のうち注目画像を強調表示する学習精度評価画面を表示装置3に表示させている。出力制御部17は、第2表示例に係る学習精度評価画面上に、第1表示例と同様、注目箇所表示領域30と、シークバー38とを設けている。
【0052】
第2表示例では、注目箇所特定部16は、注目箇所としてサンプルデータ毎に注目画像を特定し、注目画像を示す注目箇所情報Inを出力制御部17に供給する。そして、出力制御部17は、シークバー38により指定された区間に対応するサンプルデータを入力データDiから抽出し、抽出したサンプルデータを構成する画像31a~31cを注目箇所表示領域30上に表示する。このとき、出力制御部17は、注目箇所情報Inに基づき、注目画像として特定された画像31bを、縁取り効果により強調表示する。
【0053】
このように、第2表示例では、出力制御部17は、ユーザが指定した区間に対応するサンプルデータに対して注目箇所特定部16が特定した注目画像を閲覧者に提示し、重要度推論器の学習精度の評価を好適に閲覧者に実行させる。なお、出力制御部17は、中間算出情報Imに基づき、サンプルデータを構成する各画像(図7では画像31a~31c)の注目度を特定し、特定した画像毎の注目度を各画像に対応付けてさらに表示してもよい。
【0054】
(7)処理フロー
図8は、第1実施形態において情報処理装置1が実行する注目箇所可視化処理の手順を示すフローチャートの一例である。情報処理装置1は、図8に示すフローチャートの処理を、例えば、入力データDiを指定するユーザ入力を検知した場合、又は、入力データDiを外部装置から受信した場合等に実行する。
【0055】
まず、情報処理装置1の入力データ取得部14は、入力データDiを取得する(ステップS11)。次に、情報処理装置1の重要度算出部15は、重要度推論器に入力可能な1サンプル分のデータであるサンプルデータを入力データDiから抽出する(ステップS12)。この場合、重要度算出部15は、例えば、入力データDiにおいて未抽出の区間に対応するサンプルデータを、再生時刻が早い区間から順に抽出する。
【0056】
そして、重要度算出部15は、ステップS12で抽出されたサンプルデータに対する重要度を算出する(ステップS13)。この場合、重要度算出部15は、重要度推論器情報D1を参照することで重要度推論器を構成し、当該重要度推論器に上述のサンプルデータを入力することで、重要度を算出する。
【0057】
また、情報処理装置1の注目箇所特定部16は、ステップS12で抽出されたサンプルデータについて、重要度算出における注目箇所を特定する(ステップS14)。この場合、注目箇所特定部16は、重要度算出部15から供給される中間算出情報Imに基づき、サンプルデータを構成する各画像内における注目領域、又は、サンプルデータを構成する画像間での注目画像を、注目箇所として特定する。
【0058】
次に、情報処理装置1は、入力データDiの全体に対してステップS12~ステップS14の処理が実行済みであるか否か判定する(ステップS15)。そして、情報処理装置1は、入力データDiの全体に対してステップS12~ステップS14の処理が実行済みでない場合(ステップS15;No)、ステップS12へ処理を戻す。この場合、情報処理装置1は、入力データDiのうち未抽出の区間に対応するサンプルデータを対象として、ステップS12~ステップS14の処理を実行する。
【0059】
一方、入力データDiの全体に対してステップS12~ステップS14の処理が実行済みである場合(ステップS15;Yes)、情報処理装置1の出力制御部17は、注目箇所に関する情報の出力制御を行う(ステップS16)。この場合、出力制御部17は、入力データ取得部14から供給される入力データDi、重要度算出部15から供給される重要度情報Ii、及び注目箇所特定部16から供給される注目箇所情報Inに基づき、図6及び図7に例示される学習精度評価画面の表示信号S1を生成し、表示信号S1を表示装置3へ供給する。
【0060】
(8)変形例
次に、上記実施形態に好適な各変形例について説明する。以下の変形例は任意に組み合わせて上述の実施形態に適用してもよい。
【0061】
(変形例1)
情報処理装置1は、学習精度評価画面において注目箇所の正誤に関する情報を指定するユーザ入力があった場合、ユーザ入力により指定された正誤に関する情報に基づき、重要度推論器の学習を行ってもよい。
【0062】
図9は、本変形例における情報処理装置1Aのプロセッサ11の機能ブロック図の一例を示す。本変形例に係るプロセッサ11は、入力データ取得部14と、重要度算出部15と、注目箇所特定部16と、出力制御部17と、学習部18とを有する。なお、図9では、図3に示す情報処理装置1と同一構成要素について同一の符号を付し、以後においてその説明を省略する。
【0063】
学習部18は、学習精度評価画面において注目箇所の正誤又は正しい注目箇所の少なくとも一方を指定する入力信号S2に基づき、重要度推論器の学習を行うことで、重要度推論器情報D1を更新する。例えば、学習部18は、入力信号S2に基づき、学習精度評価画面において示した注目箇所の正誤が指定されたことを検知した場合、提示したサンプルデータ及び注目箇所と、指定された正誤とに基づき、中間算出情報Imを出力する重要度推論器の学習を行う。例えば、注目箇所が正しいことを入力信号S2が示す場合、学習部18は、学習精度評価画面において示したサンプルデータ及び注目箇所の組み合わせを正例とみなして重要度推論器の学習を行う。また、学習部18は、学習精度評価画面において正しい注目箇所がユーザ入力により指定された場合には、重要度推論器に入力したサンプルデータと、ユーザ入力により指定された注目箇所との組合せを用いて、中間算出情報Imを出力する重要度推論器の学習を行う。
【0064】
図10は、学習精度評価画面の第3表示例を示す。第3表示例では、出力制御部17は、注目箇所をサンプルデータと関連付けて表示すると共に、表示した注目箇所の正誤の指定及び誤りの場合の正しい注目箇所の指定に関する入力を受け付ける学習精度評価画面を表示装置3に表示させている。なお、一例として、第3表示例では、サンプルデータは、1枚の画像から構成されるものとする。
【0065】
この場合、出力制御部17は、シークバー38により指定された区間(ここでは、25分39秒に対応する区間)に対応するサンプルデータを入力データDiから抽出し、抽出したサンプルデータである画像31を、注目領域を示す矩形枠32と共に注目箇所表示領域30上に表示する。また、出力制御部17は、学習精度評価画面上において、注目箇所表示領域30に提示した注目箇所(ここでは注目領域)が妥当であるか又は不適であるかを選択するためのボタンであるラジオボタン33を表示する。
【0066】
さらに、出力制御部17は、注目箇所が不適となる場合に、正解となる注目箇所を画像上で指定すべき旨のメッセージを表示し、画像31上において、正解となる注目箇所の指定を受け付ける。図10の例では、出力制御部17は、ポインタのドラッグアンドドロップ操作により指定された破線の矩形枠35を、画像31上に表示している。
【0067】
そして、決定ボタン34が選択された場合、出力制御部17は、ラジオボタン33の選択結果及び画像31上での矩形枠35の位置の指定に関する情報を、学習部18に供給する。そして、学習部18は、出力制御部17から供給された情報に基づき、注目箇所の決定に用いた中間算出情報Imを出力する重要度推論器の学習を行う。
【0068】
このように、本変形例によれば、ユーザによるフィードバックを受け付けて重要度推論器の精度を向上させることも可能となる。なお、情報処理装置1Aは、注目画像を注目箇所表示領域30上において提示する場合には、サンプルデータとなる複数の画像から正しい注目画像を指定するユーザ入力を、学習精度評価画面上で受け付ける。
【0069】
(変形例2)
情報処理装置1は、入力データDiに音データが含まれる場合に、音データを勘案した重要度の算出及び当該重要度における注目箇所の特定を行ってもよい。
【0070】
図11は、学習精度評価画面の第4表示例を示す。第4表示例では、入力データDiは、映像データと音データとの両方を含み、重要度算出部15は、映像データと音データの両方に基づいて重要度を算出する。この場合、重要度推論器は、映像データ及び音データを含むサンプルデータを入力データとし、当該サンプルデータに対する重要度を推論するように学習されている。
【0071】
出力制御部17は、注目箇所表示領域30上では、シークバー38により指定された区間に対応する画像31を表示すると共に、画像31に対応する音データを再生するための音再生アイコン37を表示する。ここでは、一例として、1つのサンプルデータには、学習精度評価画面の第3表示例と同様、1枚の画像が含まれているものとする。また、出力制御部17は、音再生アイコン37が選択されたことを検知した場合、サンプルデータに対応する音データの再生を行う。
【0072】
さらに、出力制御部17は、注目箇所表示領域30上において、映像データ(ここでは画像)と音データとの重要度算出における注目の度合を明示している。この場合、例えば、重要度算出部15は、映像データと音データとの夫々の注目度を少なくとも示す中間算出情報Imを注目箇所特定部16に供給する。そして、注目箇所特定部16は、重要度算出部15から供給された中間算出情報Imに基づき、映像データと音データとの注目度の比を少なくとも示す注目箇所情報Inを、出力制御部17に供給する。そして、出力制御部17は、注目箇所情報Inに基づき、映像データと音データとの重要度算出における注目の割合(ここでは8:2)を認識し、上記割合を夫々に対する注目の度合として注目箇所情報In上に表示する。
【0073】
なお、サンプルデータが複数枚の画像を含む場合には、出力制御部17は、例えば、当該複数枚の画像を並べて注目箇所表示領域30上に表示し、かつ、当該複数枚の画像からなる映像データと音データとの注目の度合を夫々表示する。
【0074】
このように、変形例2に係る情報処理装置1は、映像データ及び音データの両方に基づき重要度を算出する場合であっても、重要度算出における注目箇所を好適に可視化することができる。
【0075】
(変形例3)
情報処理装置1は、音データのみに基づいて入力データDiの重要度を算出してもよい。この場合、情報処理装置1は、音データにおける注目箇所を特定し、当該注目箇所に関する情報を表示してもよい。
【0076】
図12は、学習精度評価画面の第5表示例を示す。第5表示例に係る学習精度評価画面は、音データに基づくダイジェスト生成における重要度を算出する重要度推論器の学習精度を評価する画面であって、シークバー38と、音波形表示領域41と、音スペクトログラム表示領域42と、を有する。
【0077】
この場合、出力制御部17は、シークバー38により指定された区間(ここでは、7分13秒)に対応する、音データからなるサンプルデータを入力データDiから抽出する。そして、出力制御部17は、抽出した音データの波形を音波形表示領域41に表示し、当該音データの周波数スペクトルの算出結果に相当する画像を音スペクトログラム表示領域42に表示する。
【0078】
また、出力制御部17は、注目箇所特定部16から供給される注目箇所情報Inに基づき、注目箇所に相当する周波数領域を特定し、特定した周波数領域を音スペクトログラム表示領域42上において強調表示している。ここでは、一例として、重要度算出部15は、周波数ごとの注目度を示す中間算出情報Imを注目箇所特定部16に供給する。そして、注目箇所特定部16は、中間算出情報Imに基づき、注目度が高い周波数領域を注目箇所として特定し、特定した周波数領域を示す注目箇所情報Inを出力制御部17に供給している。なお、注目箇所特定部16は、サンプルデータにおける所定の周波数領域を注目箇所として特定する代わりに、サンプルデータに対応する区間において特に注目度が高い区間(サブ区間)を注目箇所として特定してもよい。この場合、出力制御部17は、注目箇所特定部16から供給される注目箇所情報Inが示すサブ区間を音波形表示領域41又は音スペクトログラム表示領域42上で強調表示してもよい。
【0079】
このように、情報処理装置1は、音データに基づきダイジェスト生成に必要な指標である重要度を算出する場合であっても、重要度算出における注目箇所を好適に可視化することができる。
【0080】
(変形例4)
注目箇所可視化システム100は、サーバクライアントモデルであってもよい。
【0081】
図13は、変形例4における注目箇所可視化システム100Bの構成を示す。図13に示すように、注目箇所可視化システム100Bは、主に、サーバとして機能する情報処理装置1Bと、注目箇所可視化に必要な情報を記憶する記憶装置4と、クライアントとして機能する端末装置5とを有する。情報処理装置1Bと端末装置5とは、ネットワーク7を介してデータ通信を行う。
【0082】
端末装置5は、入力機能、表示機能、及び通信機能を有する端末であり、図1に示される入力装置2及び表示装置3として機能する。端末装置5は、例えば、パーソナルコンピュータ、タブレット型端末、PDA(Personal Digital Assistant)などであってもよい。端末装置5は、図示しないユーザ入力に基づく情報などを、情報処理装置1Aに送信する。
【0083】
情報処理装置1Aは、図1に示す情報処理装置1と同一構成を有し、図8に示す注目箇所可視化処理を実行する。ここで、ステップS16の出力制御では、注目箇所に関する情報を示す表示信号を、ネットワーク7を介して端末装置5へ送信する。これにより、情報処理装置1Aは、重要度算出において注目された注目箇所に関する情報を、端末装置5の閲覧者に好適に提示することができる。
【0084】
<第2実施形態>
図14は、第2実施形態における情報処理装置1Xの機能ブロック図である。情報処理装置1Xは、主に、入力データ取得手段14Xと、重要度算出手段15Xと、注目箇所特定手段16Xとを有する。
【0085】
入力データ取得手段14Xは、映像データ又は音データの少なくとも一方を含む入力データ「Di」を取得する。映像データは、少なくとも1枚の画像から構成されるデータである。入力データ取得手段14Xは、第1実施形態における入力データ取得部14とすることができる。
【0086】
重要度算出手段15Xは、入力データDiの重要度を算出する。この場合、重要度算出手段15Xは、入力データDiを所定時間長の単位区間ごとに区切り、区切った区間ごとに重要度を算出してもよい。この場合、重要度算出手段15Xは、入力データDiに対する時系列での重要度を算出する。重要度算出手段15Xは、第1実施形態における重要度算出部15とすることができる。
【0087】
注目箇所特定手段16Xは、重要度の算出における入力データDiの注目箇所を特定する。なお、重要度算出手段15Xが入力データDiに対する時系列での重要度を算出する場合には、注目箇所特定手段16Xは、少なくともいずれかの重要度に対する注目箇所を特定してもよい。注目箇所特定手段16Xは、第1実施形態における注目箇所特定部16とすることができる。
【0088】
図15は、第2実施形態において情報処理装置1Xが実行するフローチャートの一例である。まず、入力データ取得手段14Xは、映像データ又は音データの少なくとも一方を含む入力データDiを取得する(ステップS21)。重要度算出手段15Xは、入力データDiの重要度を算出する(ステップS22)。注目箇所特定手段16Xは、重要度の算出における入力データDiの注目箇所を特定する(ステップS23)。
【0089】
第2実施形態に係る情報処理装置1Xは、映像データ又は音データの少なくもいずれか一方を含む入力データに対する重要度算出における注目箇所を好適に特定することができる。
【0090】
なお、上述した各実施形態において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータであるプロセッサ等に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記憶媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記憶媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記憶媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
【0091】
その他、上記の各実施形態の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。
【0092】
[付記1]
映像データ又は音データの少なくとも一方を含む入力データを取得する入力データ取得手段と、
前記入力データの重要度を算出する重要度算出手段と、
前記重要度の算出における前記入力データの注目箇所を特定する注目箇所特定手段と、
を有する情報処理装置。
【0093】
[付記2]
前記重要度算出手段は、映像データ又は音データの少なくとも一方を含むデータが入力された場合に当該データの重要度を推論するように学習された推論器に基づき、前記入力データの重要度を算出する、付記1に記載の情報処理装置。上記の「映像データ」は、1枚の画像データから構成されてもよい。
【0094】
[付記3]
前記推論器は、多層構造を有し、
前記注目箇所特定手段は、前記推論器の中間層の出力に基づき、前記注目箇所を特定する、付記2に記載の情報処理装置。
【0095】
[付記4]
前記入力データは、前記映像データを含み、
前記注目箇所特定手段は、前記注目箇所として、前記重要度の算出における注目領域を、前記映像データを構成する画像内において特定する、付記1~3のいずれか一項に記載の情報処理装置。
【0096】
[付記5]
前記入力データは、前記映像データを含み、
前記注目箇所特定手段は、前記注目箇所として、前記重要度の算出における注目画像を、前記映像データを構成する画像から特定する、付記1~3のいずれか一項に記載の情報処理装置。
【0097】
[付記6]
前記入力データは、前記音データを含み、
前記注目箇所特定手段は、前記重要度の算出において注目した前記音データの区間又は周波数を特定する、付記1~3のいずれか一項に記載の情報処理装置。
【0098】
[付記7]
前記入力データは、前記映像データ及び前記音データの両方を含み、
前記注目箇所特定手段は、前記重要度の算出における、前記映像データと前記音データとの夫々の注目の度合を特定する、付記1~6のいずれか一項に記載の情報処理装置。
【0099】
[付記8]
前記注目箇所に関する情報を表示装置に表示させる出力制御手段をさらに有する付記1~7のいずれか一項に記載の情報処理装置。
【0100】
[付記9]
前記出力制御手段は、前記入力データに対応する任意の区間が指定された場合に、指定された区間に対応する前記重要度の算出において注目された前記注目箇所を、前記区間に対応する前記入力データと関連付けて前記表示装置に表示させる、付記8に記載の情報処理装置。
【0101】
[付記10]
前記注目箇所の正誤又は正しい注目箇所の少なくとも一方の指定を受け付ける正誤指定手段と、
前記指定に基づき、前記重要度の算出に用いる推論器の学習を行う学習手段と、
をさらに有する、付記1~9のいずれか一項に記載の情報処理装置。
【0102】
[付記11]
前記重要度は、前記入力データのダイジェストの生成において基準となる指標である、付記1~10のいずれか一項に記載の情報処理装置。
【0103】
[付記12]
コンピュータにより、
映像データ又は音データの少なくとも一方を含む入力データを取得し、
前記入力データの重要度を算出し、
前記重要度の算出における前記入力データの注目箇所を特定する、
制御方法。
【0104】
[付記13]
映像データ又は音データの少なくとも一方を含む入力データを取得する入力データ取得手段と、
前記入力データの重要度を算出する重要度算出手段と、
前記重要度の算出における前記入力データの注目箇所を特定する注目箇所特定手段
としてコンピュータを機能させるプログラムが格納された記憶媒体。
【0105】
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。
【符号の説明】
【0106】
1、1A、1B、1X 情報処理装置
2 入力装置
3 表示装置
4 記憶装置
5 端末装置
6 学習装置
100、100B 注目箇所可視化システム
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15