(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022189441
(43)【公開日】2022-12-22
(54)【発明の名称】画像処理装置、画像処理方法、及びプログラム
(51)【国際特許分類】
H04N 5/232 20060101AFI20221215BHJP
G06T 7/70 20170101ALI20221215BHJP
G06T 7/00 20170101ALI20221215BHJP
【FI】
H04N5/232 290
H04N5/232 190
G06T7/70 B
G06T7/00 660A
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2021098015
(22)【出願日】2021-06-11
(71)【出願人】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】100090273
【弁理士】
【氏名又は名称】國分 孝悦
(72)【発明者】
【氏名】李 ぼん晶
【テーマコード(参考)】
5C122
5L096
【Fターム(参考)】
5C122DA02
5C122EA61
5C122FH10
5C122FH14
5C122FH18
5C122FJ04
5C122FK28
5C122FK37
5C122FK42
5C122GA21
5C122GA34
5C122HA04
5C122HA48
5C122HA65
5C122HA86
5C122HA88
5C122HB01
5C122HB05
5L096CA04
5L096FA67
5L096HA02
5L096MA03
(57)【要約】
【課題】撮影した動画のカメラ目線が望ましいシーンに対して目線補正を行うことで、自然な目線補正動画を作成する。
【解決手段】画像処理装置であって、動画データを取得する取得手段と、前記動画データの物体情報と音声情報を検出する検出手段と、前記物体情報と音声情報から目線補正情報を判定する判定手段と、前記目線補正情報に基づいて目線を補正した前記動画データを出力する出力手段と、を備えることを特徴とする。
【選択図】
図5
【特許請求の範囲】
【請求項1】
動画データを取得する取得手段と、
前記動画データの物体情報と音声情報を検出する検出手段と、
前記物体情報と音声情報から目線補正情報を判定する判定手段と、
前記目線補正情報に基づいて目線を補正した前記動画データを出力する出力手段と、
を備えることを特徴とする画像処理装置。
【請求項2】
前記判定手段は、前記動画データに対して、人物の正面顔から目線補正対象シーンかを判定することを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記判定手段は、前記動画データに対して、写っている前記物体情報から目線補正対象シーンかを判定することを特徴とする請求項1または2に記載の画像処理装置。
【請求項4】
前記判定手段は、前記動画データに対して、録音されている前記音声情報から目線補正対象シーンかを判定することを特徴とする請求項1または2に記載の画像処理装置。
【請求項5】
前記判定手段は、前記動画データに対して、前記物体情報と音声情報の組合せから目線補正対象シーンかを判定することを特徴とする請求項1または2に記載の画像処理装置。
【請求項6】
前記判定手段は、前記動画データに写っている前記物体情報について、目線を補正することが望ましいかを示すスコアを関連付けたテーブルを参照することにより、前記動画データが目線補正対象シーンかを判定するための前記スコアを算出することを特徴とする請求項3に記載の画像処理装置。
【請求項7】
前記判定手段は、前記動画データに録音されている前記音声情報について、目線を補正することが望ましいかを示すスコアを関連付けたテーブルを参照することにより、前記動画データが目線補正対象シーンかを判定するための前記スコアを算出することを特徴とする請求項4に記載の画像処理装置。
【請求項8】
前記判定手段は、前記動画データの前記物体情報と音声情報の組合せについて、目線を補正することが望ましいかを示すスコアを関連付けたテーブルを参照することにより、前記動画データが目線補正対象シーンかを判定するための前記スコアを算出することを特徴とする請求項5に記載の画像処理装置。
【請求項9】
前記判定手段は、前記動画データから動画シーンに分割することにより、前記動画シーンが目線補正対象シーンかを判定することを特徴とする請求項1乃至8の何れか1項に記載の画像処理装置。
【請求項10】
前記判定手段は、目線を補正した前記動画データから取得された前記物体情報と音声情報を学習することにより得られる学習データを利用して、前記動画データが目線補正対象シーンかを判定することを特徴とする請求項1乃至9の何れか1項に記載の画像処理装置。
【請求項11】
前記動画データにおける目線補正を行ったシーンに対して、目線補正を行ったことをユーザに知らせる表示アイコンを付与することを特徴とする請求項1乃至10の何れか1項に記載の画像処理装置。
【請求項12】
前記目線補正情報に基づいて、目線を補正するか否かがユーザにより選択可能であることを特徴とする請求項1乃至11の何れか1項に記載の画像処理装置。
【請求項13】
前記判定手段は、前記動画データの前記物体情報と前記音声情報を機械学習された学習モデルに入力することにより、前記動画データが目線補正対象シーンかを判定することを特徴とする請求項1に記載の画像処理装置。
【請求項14】
動画データを取得する取得工程と、
前記動画データの物体情報と音声情報を検出する検出工程と、
前記物体情報と音声情報から目線補正情報を判定する判定工程と、
前記目線補正情報に基づいて目線を補正した前記動画データを出力する出力工程と、
を含むことを特徴とする画像処理方法。
【請求項15】
請求項1乃至13の何れか1項に記載の画像処理装置の各手段としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置、画像処理方法、及びプログラムに関する。
【背景技術】
【0002】
近年、動画での情報発信はテレビ番組だけではなく、SNSを通じた動画配信が増えており、撮影した動画をより印象的に見せるための動画加工技術が注目を集めている。従来から、撮影した動画をシーンごとに分割したり、エフェクトを付与したりしてより印象的な動画を生成する加工技術が知られている。また、最近では、テレビ電話等においてユーザの目線を補正し通話者同士が目を合わせて対話できるアプリケーションが登場している。特許文献1では、テレビ会議、鏡機能、セルフ撮影等の動作中、カメラと表示部とで目線差異が発生する場合に、ユーザの目線をカメラ目線に補正することが記載されている。特許文献2では、被写体の複数の顔画像データから美しい顔を生成してより自然なカメラ目線の画像を生成することが記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2013-182616号公報
【特許文献2】特開2016-85579号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、上述した動画加工技術は、テレビ会議や自撮りといったシチュエーションに用途が限られており、テレビ番組や複数のシーンが存在する動画においては期待するような目線補正の効果を得ることが難しいという課題がある。例えば、ユーザの目線差異をカメラ目線に補正する機能は、ユーザが任意に補正対象シーンを選ぶことが出来ない。そのため、補正するシーンを誤ると、かえって不自然な動画に加工されてしまうという課題がある。
【0005】
本発明はかかる課題に鑑みなされたものであり、撮影した動画のカメラ目線が望ましいシーンに対して目線補正を行うことで、自然な目線補正動画を作成するものである。
【課題を解決するための手段】
【0006】
上記の課題を解決するために、本発明に係る画像処理装置は、動画データを取得する取得手段と、前記動画データの物体情報と音声情報を検出する検出手段と、前記物体情報と音声情報から目線補正情報を判定する判定手段と、前記目線補正情報に基づいて目線を補正した前記動画データを出力する出力手段と、を備えることを特徴とする。
【発明の効果】
【0007】
本発明によれば、撮影した動画のカメラ目線が望ましいシーンに対して目線補正を行うことで、自然な目線補正動画を作成することができる。
【図面の簡単な説明】
【0008】
【
図3】画像処理装置のハードウェア構成例を示す図である。
【
図6】目線補正シーン判定処理の詳細を示すフローチャートである。
【
図7】物体情報テーブル及び音声情報テーブルの一例を示す図である。
【
図8】補正情報付与処理の詳細を示すフローチャートである。
【
図9】表示される動画データの表示例を示す図である。
【
図10】動画補正処理の変形例を示すフローチャートである。
【発明を実施するための形態】
【0009】
以下、図面を参照して本発明の実施形態について説明する。
【0010】
まず、本実施形態に係る画像処理装置の詳細について説明する前に、本実施形態に係る画像処理装置が行う動画の補正例について説明する。
図1は、撮影動画の物体情報と音声情報から被写体の目線をカメラ目線に補正した例を示す。画像処理装置は、カメラ目線が望ましいシーンを判定し、当該シーンに対して被写体の目線補正を行っている。
図1(a),(b)の各図は、上段に目線補正前のシーンを示し、下段に目線補正後のシーンを示す。
図1(a)では、吹き出し内に表示される「ニュースをお伝え致します。」を、動画内の被写体11aが発話しているシーンを示す。
図1(a)では、動画内の原稿10という物体情報と、発話に含まれる「ニュース」、「伝え」という音声情報から、目線補正対象シーンと判定され、被写体11aの目線が、被写体11bのようにカメラ目線に補正されている。
図1(b)では、吹き出し内に表示される「×××映画、是非劇場でご覧ください!」を、動画内の被写体13aが発話しているシーンを示す。
図1(b)では、動画内のポスター12という物体情報と、発話に含まれる「映画」、「劇場」、「ご覧ください」という音声情報から、目線補正対象シーンと判定され、被写体13aの目線が、被写体13bのようにカメラ目線に補正されている。
【0011】
図2は、撮影動画の音声情報から被写体の目線をカメラ目線に補正した例を示す。画像処理装置は、動画に人物以外の物体が写っていない場合でも、カメラ目線が望ましいシーンを判定し、当該シーンに対して被写体の目線補正を行うことができる。
図2(a)は、原稿10が写っていないことを除き、
図1(a)と同様である。
図2(a)では、発話に含まれる「ニュース」、「お伝え」という音声情報から、目線補正対象シーンと判定され、被写体21aの目線が、被写体21bのようにカメラ目線に補正されている。
図2(b)は、ポスター12が写っていないことを除き、
図1(b)と同様である。
図2(b)では、発話に含まれる「映画」、「劇場」、「ご覧ください」という音声情報から、目線補正対象シーンと判定され、被写体22aの目線が、被写体22bのようにカメラ目線に補正されている。
【0012】
続いて、
図3及び
図4を用いて、本実施形態に係る画像処理装置の構成について説明する。
図3は、画像処理装置301のハードウェア構成例を示す。画像処理装置301は、CPU302、ROM303、RAM304、記憶装置305、入力装置306、通信I/F307、GPUボード308、及び表示装置309により構成される。これら各構成部は、バス310を介して通信可能に接続されている。
【0013】
CPU302は、画像処理装置301の全体を制御する。ROM303は、画像処理プログラムや初期データ等変更を必要としないプログラムやパラメータを格納する読み取り専用のメモリである。ROM303には、予め学習されたカメラ目線が望ましいシーンにおける物体情報、及び音声情報が記憶されている。音声情報は、「ニュース」、「映画」、「伝える」、「ご覧ください」等の名詞や動詞に分割して記憶されている。RAM304は、入力情報や画像処理における演算結果等を一時的に記憶するためのメモリである。記憶装置305は、画像処理装置301に固定して設置されたハードディスクやメモリカード、或いは画像処理装置301から着脱可能なメモリカードやフレキシブルディスク、ICカード等である。記憶装置305には、目線補正する前や後の動画データや、動画データから検出された情報(人物領域に関する情報、動画データに写っている物体情報、動画データに録音されている音声情報等)が記憶されている。
【0014】
入力装置306は、キーボード、マウス、タッチパネル等である。CPU302は、入力装置306からの入力情報に基づき、後述するフローチャートの処理に必要な情報や各種のコマンドを受け付ける。通信I/F(インターフェース)307は、CPU302の制御下で、外部装置やクラウド等との間でデータの送受信を行う。GPUボード308は、汎用グラフィックボードであり、CPU302の制御下で、画像処理の演算や表示装置309に動画データを表示するために必要な処理を行う。表示装置309は、液晶表示デバイス等の電子ディスプレイデバイスである。表示装置309は、CPU302の制御下で、後述するフローチャートの処理に必要な情報(動画データに関する情報、補正に関する情報)等を入力するためのUI(ユーザインタフェース)画面や、これらの情報に基づいて生成された動画データを表示する。なお、入力装置306及び表示装置309は、画像処理装置301に内蔵される構成でもよく、不図示の入出力I/Fを介して有線通信又は無線通信で連携される構成でもよい。また、タッチパネルディスプレイのように一体的に構成されてもよい。
【0015】
図4は、画像処理装置301の機能構成例を示す。画像処理装置301は、動画データ取得部401、動画分割部402、物体検出部403、音声検出部404、目線補正シーン判定部405、目線補正部406、補正情報付与部407、動画表示部408、及び学習部410を有する。画像処理装置301は、CPU302がROM303等に記憶されるプログラムをRAM304に展開して実行することにより、これら各機能部として機能する。また画像処理装置301は、物体情報から目線補正対象シーンかを判定する際に利用される物体情報テーブル411と、音声情報から目線補正対象シーンかを判定する際に利用される音声情報テーブル412とを記憶する。
【0016】
動画データ取得部401は、記憶装置305等から補正対象の動画データを取得する。動画分割部402は、動画データ取得部401で取得した動画データを所定のタイミングごとに分割する。以下、分割した動画データを「動画シーン」と称する。動画分割部402は、動画シーンを物体検出部403及び音声検出部404に順次提供する。
物体検出部403は、動画分割部402から動画シーンを受け取ると、動画シーンから人物の正面顔を検出する。また物体検出部403は、動画シーンに写っている物体情報を検出する。
音声検出部404は、動画分割部402から動画シーンを受け取ると、動画シーンに録音されている音声情報を検出する。
【0017】
目線補正シーン判定部405は、物体検出部403の検出結果、及び音声検出部404の検出結果から、動画シーンが目線補正対象シーンかを判定する。本実施形態において、目線補正シーン判定部405は、物体情報テーブル411及び音声情報テーブル412を用いて判定する。目線補正シーン判定部405は、判定結果を目線補正部406及び補正情報付与部407に提供する。物体情報テーブル411及び音声情報テーブル412の詳細については、後述する。目線補正部406は、目線補正シーン判定部405で目線補正対象シーンと判定された動画シーンに対して、物体検出部403で検出した人物の目線を検出し、目線をカメラ目線に補正する。
【0018】
補正情報付与部407は、動画シーンに対して目線補正情報を付与する。目線補正情報は、目線補正するしないを表した情報である。補正情報付与部407は、目線補正シーン判定部405で目線補正対象と判定された動画シーンに対して、「目線補正対象シーン」という目線補正情報を付与する。一方で、目線補正対象外と判定された動画シーンに対しては、「目線補正対象外シーン」という目線補正情報を付与する。
動画表示部408は、目線補正した動画シーンを結合した動画データを表示装置309に出力する。学習部410は、「目線補正対象シーン」の目線補正情報が付与された動画シーンから検出された物体情報と音声情報を用いて、物体情報テーブル411及び音声情報テーブル412に保持されるデータを更新する。
【0019】
続いて、
図5~
図9を用いて、本実施形態に係る画像処理装置301が実行する動画補正処理について説明する。
図5は、動画補正処理の全体の流れを示すフローチャートである。
図5のフローチャートは、CPU302がROM303等に記憶されるプログラムをRAM304に展開して実行することにより実現される。
図5のフローチャートは、入力装置306の操作により撮影後の動画データが処理対象として指定されたことにより開始する。以下、フローチャートの各工程(ステップ)は、それら符号の先頭にはS(ステップ)を付与して説明する。
【0020】
まずS501において、動画データ取得部401は、指定された動画データを記憶装置305からRAM304に読み出す。
次にS502において、動画分割部402は、S501で読み出した動画データを分割する。例えば、動画シーンの切り替わりのタイミングで分割したり、指定された時間(例えば、30秒)で分割したりする。
次にS503において、物体検出部403は、S502で分割された動画シーンのうち、対象の動画シーンから人物の正面顔を検出する。例えば、人物領域の画像特徴とのマッチングを行うことにより検出する。物体検出部403が正面顔を検出できた場合には、処理はS504へ進む。一方で正面顔を検出できなかった場合には、S504以降の処理をスキップし、対象の動画シーンに対して補正情報付与部407が「目線補正対象外シーン」の目線補正情報を付与して、処理はS508へ進む。尚、正面顔が検出されなかった場合でもS504以降の処理を実施するケースもある。
【0021】
S504において、物体検出部403は、記憶装置305が記憶する物体検出用の学習済みモデルを用いて、対象の動画シーンに写っている物体情報を検出する。例えば、対象の動画シーンに写っている人物の背景に存在する物体情報を検出する。
次にS505において、音声検出部404は、対象の動画シーンに録音されている音声情報を単語に分割して検出する。
次にS506において、目線補正シーン判定部405は、S503で検出された正面顔情報、S504で検出された物体情報、及びS505で検出された音声情報に基づいて、動画シーンが目線補正対象シーンかを判定する。S506で実行される目線補正シーン判定処理の詳細については
図6のフローチャートで後述する。
【0022】
次にS507において、補正情報付与部407は、S506の判定結果に応じて、対象の動画シーンに対して目線補正情報を付与する。S507で実行される補正情報付与処理の詳細については
図8のフローチャートで後述する。
次にS508において、動画分割部402は、S502で分割された動画シーンのうちのすべてについて目線補正情報が付与されたか否かを判定する。動画分割部402がすべてに目線補正情報が付与されたと判定した場合、処理はS509へ進み、目線補正情報が付与されていない動画シーンがあると判定した場合、次の動画シーンを対象にして、処理はS503へ進む。画像処理装置301は、すべての動画シーンに対して目線補正情報が付与されるまで、S503~S507の処理を繰り返し行う。
S509において、動画表示部408は、目線補正後のすべての動画シーンを結合して表示装置309に出力する。また、動画表示部408は、目線補正が行われた動画シーンにはユーザが認識できるような明示的な表示を行ってもよい。以上のようにして、本実施形態に係る動画補正処理が終了する。
【0023】
<目線補正シーン判定処理>
次に、S506で実行される目線補正シーン判定処理の詳細について説明する。
図6は、目線補正シーン判定処理を示すフローチャートである。
図6のフローチャートは、CPU302がROM303等に記憶されるプログラムをRAM304に展開して実行することにより実現される。本実施形態において、目線補正シーン判定処理は、ROM303等に記憶される物体情報テーブル411及び音声情報テーブル412を用いて実行される。
図7(a)は、物体情報テーブル411の一例を示す。
図7(b)は、音声情報テーブル412の一例を示す。
【0024】
物体情報テーブル411には、目線補正スコア算出時に参照する物体情報が保存蓄積されている。目線補正スコアは、目線補正対象か否かを判定するための値であり、目線補正が望ましい程高い値を持つ。物体情報テーブル411には、「原稿」、「ポスター」等の物体情報が登録されており、各物体情報に関連付けて目線補正スコアが設定されている。
図7(a)に示すように、目線補正スコアは原稿(3)、ポスター(3)のように物体ごとに設定される。かっこ内は、目線補正スコアを表す。
音声情報テーブル412には、目線補正スコア算出時に参照する音声情報が保存蓄積されている。音声情報テーブル412には、「ニュース」、「お伝え」等の音声情報が登録されており、各音声情報に関連付けて目線補正スコアが設定されている。
図7(b)に示すように、目線補正スコアはニュース(3)、お伝え(2)のように単語ごとに設定される。かっこ内は、目線補正スコアを表す。
【0025】
本実施形態において、目線補正シーン判定部405は、動画シーンに対して目線補正対象シーンか否かを判定する際に、物体情報テーブル411及び音声情報テーブル412に保持されるデータを用いて目線補正スコアを算出し、目線補正対象シーンかを判定する。本実施形態において、各物体情報及び各音声情報に関連付けられる目線補正スコアは、学習データを利用して随時更新される。学習データの詳細については
図8で後述する。なお、目線補正スコアは、不図示のUI画面を介して追加・変更が可能である。この場合には、目線補正が望ましいシーンで検出されやすい物体や発話されやすい単語の目線補正スコアが高くなるように設定されてもよい。また同様に、目線補正が望ましくないシーン(例えば、他人としゃべっている)で検出されやすい物体や発話されやすい単語の目線補正スコアが低くなるように設定されてもよい。これにより、ユーザの意図を反映した画像加工が可能となる。なお、物体情報テーブル411及び音声情報テーブル412は、外部装置から取得することも可能である。
【0026】
次に
図6のフローチャートについて説明する。まずS601において、目線補正シーン判定部405は、
図5のS504で検出された物体情報について、物体情報テーブル411を参照し、物体の目線補正スコアを算出する。なお複数の物体情報が検出された場合には、それらの目線補正スコアを合算することにより、物体の目線補正スコアを算出する。
次にS602において、目線補正シーン判定部405は、
図5のS505で検出された音声情報について、音声情報テーブル412を参照し、音声の目線補正スコアを算出する。なお複数の音声情報が検出された場合には、それらの目線補正スコアを合算することにより、音声の目線補正スコアを算出する。
【0027】
続いてS603において、目線補正シーン判定部405は、S601及びS602で算出した物体及び音声の各目線補正スコアを合計し、予め設定された閾値と比較して、比較結果に基づき目線補正対象かを判定する。物体及び音声の各目線補正スコアは、シーンの種類によって重み付けをして判定してもよい。例えば、目線補正スコアSは、S=A×物体の目線補正スコア+B×音声の目線補正スコア(A:物体の重み付け係数、B:音声の重み付け係数)により算出される。係数A,Bは、シーンの種類ごとに用意されてもよい。また、物体及び音声の特定の組合せに対するスコアを用意し、特定の組合せが検出された場合、スコアを加算、又は減算してもよい。更には、所定の係数を乗じてもよい。また、物体情報と音声情報の組み合わせに関連付けて目線補正スコアが設定されたテーブルが別途用意されてもよい。更に、シーンの種類ごとに物体情報テーブルや音声情報テーブルが用意されてもよい。更に、S503で検出された正面顔情報から所定の目線の動きが検出された場合、スコアを加算、又は減算してもよい。また、テーブル形式でなくともプログラムコード上で分岐等を用いて、テーブルと同様のことを実現してもよい。また、
図5のS504で物体情報を検出できなかった場合は、S601をスキップして音声情報のみで目線補正対象シーンかの判定を行ってもよい。
【0028】
S603において、目線補正シーン判定部405は、算出された目線補正スコアが閾値以上であれば目線補正対象として、処理はS604へ進み、閾値未満であれば目線補正対象外として、S604以降の処理をスキップし、処理は
図5のフローチャートに戻る。例えば、
図1(a)の動画シーンの場合、「原稿、ニュース、お伝え」の目線補正スコアが加算され、目線補正スコア合計は8となる。閾値が5の場合、
図1(a)の動画シーンは、目線補正対象と判定される。なお、閾値は動画データの種類によって段階的に設定されてもよい。
S604において、目線補正部406は、S503で検出された正面顔情報を用いて、被写体の目線を検出する。次にS605において、目線補正部406は、S604で検出された目線をカメラ目線に補正する。その後処理は
図5のフローチャートに戻る。
【0029】
<補正情報付与処理>
次に、S507で実行される補正情報付与処理の詳細について説明する。
図8は、補正情報付与処理を示すフローチャートである。
図8のフローチャートは、CPU302がROM303等に記憶されるプログラムをRAM304に展開して実行することにより実現される。
S801において、補正情報付与部407は、
図5のS506の判定結果に応じて、対象の動画シーンが目線補正対象かの判定を行う。補正情報付与部407が目線補正対象と判定した場合には、対象の動画シーンに対して「目線補正対象シーン」の目線補正情報を付与し(S802)、処理はS804へ進む。補正情報付与部407が目線補正対象外と判定した場合には、対象の動画シーンに対して「目線補正対象外シーン」の目線補正情報を付与し(S803)、処理は
図5のフローチャートに戻る。
S804において、学習部410は、対象の動画シーンに写っている物体情報を取得し、S805において、対象の動画シーンに録音されている音声情報を単語に分割して取得する。
【0030】
S806において、学習部410は、学習データの蓄積保存を行う。学習データは、目線補正対象と判定された動画シーンにおける物体情報及び音声情報の出現回数から学習した目線補正スコアである。具体的には、学習部410は、S804で取得した物体情報及びS805で取得した音声情報の出現回数から、相対的に目線補正スコアを決定し、物体情報テーブル411及び音声情報テーブル412に保存する。例えば、5つの動画データにおける目線補正対象シーンにおいて、物体情報として「原稿」が5回、「マイク」が2回、「机」が1回検出された場合、「原稿」、「マイク」、「机」の各目線補正スコアをそれぞれ、3、2、1とする。音声情報も同様に目線補正スコアが決定され、保存される。これにより、様々な動画におけるカメラ目線が望ましいシーンを判定でき、よりカメラ目線が望ましいシーンの検出精度を上げることが可能となる。
【0031】
次に、
図9を参照して、
図5のS509で表示装置309に表示される動画データの表示例について説明する。
図9(a)は、表示画面901の一例を示す。
図9(a)に示す表示画面901には、動画表示エリア902、終了指示ボタン903、目線補正情報表示アイコン904、撮影指示ボタン905、動画読込指示ボタン906、動画保存指示ボタン907、及び目線補正取消指示ボタン908が表示される。
図9(a)に示す例では、動画表示エリア902に「目線補正対象シーン」の目線補正情報が付与された動画データが表示されている。ユーザが画面をタッチすると再生中の動画を一時停止させることが出来る。終了指示ボタン903が指示されると、表示されている動画データに対する処理をすべて破棄し、画面が閉じられる。
目線補正情報表示アイコン904は、目線補正シーン判定部405で目線補正対象と判定された動画シーンが表示されている場合に、目線補正を行っていることをユーザに明示的に知らせる指示をするアイコンである。ユーザはアイコンが表示されている間、目線補正が行われているシーンであることを容易に認識できる。
【0032】
撮影指示ボタン905は、撮影中の動画データに対して目線補正シーン判定部405で目線補正要否を判定し、対象シーンにおいてカメラ目線に補正する指示をするボタンである。即ち、撮影指示ボタン905が指示されると、後述する
図10に示すフローチャートの処理の実行が開始される。
動画読込指示ボタン906は、撮影後の動画データに対して目線補正シーン判定部405で目線補正要否を判定し、対象シーンにおいてカメラ目線に補正する指示をするボタンである。即ち、動画読込指示ボタン906が指示されると、
図5に示すフローチャートの処理の実行が開始される。
動画保存指示ボタン907は、目線補正した動画データを記憶装置305に保存することを指示するボタンである。
目線補正取消指示ボタン908は、撮影指示ボタン905又は動画読込指示ボタン906が指示されている場合に、目線補正が行われているシーンに対して目線補正の取り消しを指示するボタンである。
図9(a)では、動画表示エリア902に目線補正が行われているシーンが表示されているため、目線補正取消指示ボタン908が表示されている。目線補正取消指示ボタン908の操作により、目線補正後の動画データを確認した上で、目線補正をするか否かがユーザにより任意に選択可能となる。
【0033】
図9(b)では、動画表示エリア902に目線補正が行われていないシーンが表示されているため、目線補正取消指示ボタン908に代えて、目線補正実行指示ボタン909が表示されている。
目線補正実行指示ボタン909は、撮影指示ボタン905又は動画読込指示ボタン906が指示されている場合に、目線補正が行われていないシーンに対して目線補正の実行を指示するボタンである。目線補正実行指示ボタン909の操作により、目線補正対象外と判定された動画シーンに対しても、目線補正をするか否かがユーザにより任意に選択可能となる。目線補正取消指示ボタン908や目線補正実行指示ボタン909が操作されると、画像処理装置301は、その時点での動画シーンを目線補正したり目線補正前の状態に戻したりして、動画表示エリア902に表示する。また画像処理装置301は、動画シーンに付与されている目線補正情報の書き換えを行う。その後画像処理装置301は、目線補正情報が書き換えられた動画シーンから取得された物体情報や音声情報を用いて学習データの修正を行う。これにより、カメラ目線が望ましいシーンの検出精度を更に高めることができる。
【0034】
以上のような、本実施形態に係る画像処理装置によれば、撮影した動画のカメラ目線が望ましいシーンに対して目線補正を行うことが可能となる。これにより、自然な目線補正動画を生成することができる。
【0035】
本実施形態の第1の変形例として、撮影中の動画データに対して目線補正要否を判定する場合について説明する。
図10は、撮影中の動画データに対する動画補正処理を示すフローチャートである。
図10のフローチャートは、CPU302がROM303等に記憶されるプログラムをRAM304に展開して実行することにより実現される。
図10のフローチャートは、入力装置306の操作により撮影中の動画データが処理対象として指定されたことにより開始する。なお、S1001の処理とS1002以降の処理は、並行して実行される。
【0036】
まず、S1001において、動画データ取得部401は、カメラ等からリアルタイムに入力された動画データをRAM304に読み出す。
次にS1002において、物体検出部403は、取得した動画データから人物の正面顔を検出する。正面顔を検出できた場合には、処理はS1003へ進む。一方で正面顔を検出できなかった場合には、S1003以降の処理をスキップし、処理はS1007へ進む。尚、正面顔が検出されなかった場合でもS1003以降の処理を実施するケースもある。S1003~S1006において、画像処理装置301は、
図5のS504~S507と同様に、物体検出と音声検出を行い、検出した物体情報と音声情報から目線補正対象かを判定し、その時点における動画データに対して目線補正情報を付与する。S1007において、動画表示部408は、目線補正後の動画データを表示装置309に出力する。以上のようにして、第1の変形例に係る動画補正処理が終了する。
以上のような第1の変形例によれば、よりリアルタイムに目線補正をした動画を生成することが可能となる。これにより、よりリアルタイムな動画配信にも対応することができる。
【0037】
本実施形態の第2の変形例として、画像処理装置301は、物体情報と音声情報を学習モデルに入力することにより得られるスコアに基づいて、目線補正シーンかを判定してもよい。この場合、学習部410は、SVM(サポートベクターマシン)アルゴリズム等の機械学習アルゴリズムに従った学習モデルに対して、入力データと教師データの複数の組を用いて学習を行うことで学習済モデルを生成する。入力データとしては、多数の動画データから検出された物体情報と音声情報である。また、入力データとして、これらの他に、目線の動きを示す情報やシーンの種類を示す情報等を用いてもよいし、これらのうちの幾つかを選択的に用いてもよい。教師データとしては、目線補正が望ましいシーンか否かを示すスコア情報である。学習部410は、これらのデータを用いて学習を行うことにより、動画シーンから検出された物体情報と音声情報から、目線補正対象シーンかを判定する学習済みモデルを生成する。上記の機械学習アルゴリズムの具体例としては、SVMアルゴリズムの他に、最近傍法、ナイーブベイズ法、決定木等が挙げられる。また、ニューラルネットワークを利用して、学習するための特徴量、結合重み付け係数を自ら生成する深層学習(ディープラーニング)も挙げられる。上記アルゴリズムのうち利用可能なものを適宜用いて本実施形態に適用することができる。
【0038】
学習部410に生成された学習済モデルを用いて判定を行う場合には、目線補正シーン判定部405は、動画シーンから検出された物体情報と音声情報を学習済みモデルに入力して、出力されたスコア情報を用いて判定を行う。例えば、出力されたスコア情報が所定の閾値以上であれば、入力された動画シーンが目線補正対象であると判定し、出力されたスコア情報が所定の閾値未満であれば、入力された動画シーンが目線補正対象外であると判定する。
【0039】
以上、本発明を実施形態と共に説明したが、上記実施形態は本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。
【0040】
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。