IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特許7393374画像を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
<>
  • 特許-画像を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム 図1
  • 特許-画像を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム 図2
  • 特許-画像を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム 図3
  • 特許-画像を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム 図4
  • 特許-画像を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム 図5
  • 特許-画像を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-28
(45)【発行日】2023-12-06
(54)【発明の名称】画像を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
(51)【国際特許分類】
   G06T 7/246 20170101AFI20231129BHJP
【FI】
G06T7/246
【請求項の数】 19
【外国語出願】
(21)【出願番号】P 2021037660
(22)【出願日】2021-03-09
(65)【公開番号】P2022013648
(43)【公開日】2022-01-18
【審査請求日】2021-10-18
(31)【優先権主張番号】202010613379.9
(32)【優先日】2020-06-30
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】ヂャン・チョンチュエン
(72)【発明者】
【氏名】ホー・ビン
【審査官】小池 正彦
(56)【参考文献】
【文献】米国特許出願公開第2020/0074185(US,A1)
【文献】特開2011-059898(JP,A)
【文献】Xin Li, et al.,Target-Aware Deep Tracking,2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),米国,IEEE,2019年06月20日,1369-1378,https://ieeexplore.ieee.org/document/8953816
【文献】Luca Bertinetto, et al.,Fully-Convolutional Siamese Networks for Object Tracking,arXiv,米国,2016年06月30日,https://arxiv.org/pdf/1606.09549v1.pdf
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/246
(57)【特許請求の範囲】
【請求項1】
対象画像フレームと対象オブジェクトがマーキングされた少なくとも1つの画像フレームとが含まれる対象ビデオを取得する対象ビデオ取得ステップと、
前記少なくとも1つの画像フレームにおけるマーキングされた対象オブジェクトに基づいて、前記対象画像フレームにおいて前記対象オブジェクトに対する検索領域を確定する検索領域確定ステップと、
前記検索領域に基づいて、前記対象オブジェクトの中心位置の情報を確定する中心位置情報確定ステップと、
前記対象画像フレームにおいて、前記対象オブジェクトの前記中心位置を中心とし、前記対象オブジェクトの1つ前のフレームにおけるマーキング領域と同じの領域を分割の対象となる対象オブジェクト領域として作成する対象オブジェクト領域確定ステップと、
前記分割の対象となる対象オブジェクト領域に基づいて、前記対象画像フレームを分割する分割ステップとを含み、
前記検索領域確定ステップは、前記対象画像フレームの1つ前のフレームにおける前記対象オブジェクトの位置を円心とし、前記対象画像フレームの2つ前のフレームから前記1つ前のフレームまでの前記対象オブジェクトの移動距離を半径とした円形領域を取得し、前記円形領域に基づいて前記対象画像フレームにおける前記対象オブジェクトの検索領域を特定するステップを含み、
前記中心位置情報確定ステップは、前記検索領域における上位の特徴を抽出してフィルタリングし、前記検索領域におけるフィルタリングにより得られた前記少なくとも1つの画像フレームのマーキング領域における中心位置の上位の特徴と同様である上位の特徴の位置を、前記対象オブジェクトの前記中心位置の情報とするステップを含む、画像を処理するための方法。
【請求項2】
前記検索領域確定ステップは、
前記対象画像フレームの1つ前のフレームにおける前記対象オブジェクトの中心位置を起点とし、前記対象画像フレームの前の3つのフレームにおける前記対象オブジェクトの移動距離の和の平均値を半径とし、進行方向に構成される扇形領域を前記対象画像フレームにおける検索領域とするステップをさらに含み、
前記進行方向は前記対象画像フレームの前の3つのフレームに基づいて確定された前記対象オブジェクトの移動方向及び該移動方向間のなす角からなる方向である
請求項1に記載の方法。
【請求項3】
前記検索領域確定ステップは、
前記対象オブジェクトの平均移動速度を確定するステップであって、前記対象画像フレームの前の所定数のフレームの画像において、隣接する2フレーム毎における前記対象オブジェクトの位置の変化距離と、フレーム毎の所定時間とに基づいて、隣接する2フレーム毎の対象移動速度を算出し、隣接する2フレーム毎の対象移動速度を加算し平均値を取って、前記対象画像フレームにおける前記対象オブジェクトの平均移動速度とするステップと、
前記マーキング領域の位置情報と前記平均移動速度とに基づいて、前記検索領域を確定するステップとをさらに含む、請求項2に記載の方法。
【請求項4】
前記上位の特徴は、特徴の細部を表すものであり、模様特徴を含む、請求項1に記載の方法。
【請求項5】
前記対象オブジェクト領域確定ステップは、
前記中心位置の情報と前記マーキング領域とに基づいて、初期領域を確定するステップと、
前記初期領域の第1の特徴及び前記少なくとも1つの画像フレームのマーキング領域の第2の特徴を確定するステップと、
前記第1の特徴と前記第2の特徴とに基づいて、対象オブジェクト領域を確定するステップとを含み、
前記第2の特徴は前記第1の特徴のタイプに対応する特徴であり、前記タイプは上位の特徴および下位の特徴を含み、
前記下位の特徴は特徴の意味部分を表すものであり、色、輪郭を含む、請求項1に記載の方法。
【請求項6】
前記初期領域の第1の特徴及び前記少なくとも1つの画像フレームのマーキング領域の第2の特徴を確定するステップは、
前記初期領域と、前記少なくとも1つの画像フレームのマーキング領域との下位の特徴及び上位の特徴をそれぞれ抽出するステップと、
前記初期領域における下位の特徴と上位の特徴とを融合して、前記第1の特徴を取得するステップと、
前記少なくとも1つの画像フレームのマーキング領域における下位の特徴と上位の特徴とを融合して、前記第2の特徴を取得するステップとを含む、請求項5に記載の方法。
【請求項7】
前記第1の特徴と前記第2の特徴とに基づいて、対象オブジェクト領域を確定するステップは、
前記第1の特徴と前記第2の特徴との差異を確定するステップと、
前記第1の特徴と前記第2の特徴との差異が所定条件を満たさない場合、オーバーラップ率予測ネットワークによって前記初期領域の位置および輪郭を更新し、更新後の初期領域を前記対象オブジェクト領域とするステップとを含む、請求項5に記載の方法。
【請求項8】
前記分割ステップは、
前記少なくとも1つの画像フレームにおける前記対象オブジェクトの第3の特徴を抽出するステップと、
前記対象オブジェクト領域における前記対象オブジェクトの第4の特徴を抽出するステップと、
前記第4の特徴から前記第3の特徴にマッチングする第5の特徴を確定するステップと、
前記第5の特徴に基づいて、前記対象画像フレームを分割するステップとを含む、請求項1に記載の方法。
【請求項9】
対象画像フレームと対象オブジェクトがマーキングされた少なくとも1つの画像フレームとが含まれる対象ビデオを取得するように構成されるビデオ取得ユニットと、
前記少なくとも1つの画像フレームにおけるマーキングされた対象オブジェクトに基づいて、前記対象画像フレームにおいて前記対象オブジェクトに対する検索領域を確定するように構成される検索領域確定ユニットと、
前記検索領域に基づいて、前記対象オブジェクトの中心位置の情報を確定するように構成される中心位置情報確定ユニットと、
前記対象画像フレームにおいて、前記対象オブジェクトの前記中心位置を中心とし、前記対象オブジェクトの1つ前のフレームにおけるマーキング領域と同じの領域を分割の対象となる対象オブジェクト領域として作成するように構成される対象オブジェクト領域確定ユニットと、
前記分割の対象となる対象オブジェクト領域に基づいて、前記対象画像フレームを分割するように構成される分割ユニットとを備え、
前記検索領域確定ユニットは、前記対象画像フレームの1つ前のフレームにおける前記対象オブジェクトの位置を円心とし、前記対象画像フレームの2つ前のフレームから前記1つ前のフレームまでの前記対象オブジェクトの移動距離を半径とした円形領域を取得し、前記円形領域に基づいて前記対象画像フレームにおける前記対象オブジェクトの検索領域を特定するように構成され、
前記中心位置情報確定ユニットは、前記検索領域における上位の特徴を抽出してフィルタリングし、前記検索領域におけるフィルタリングにより得られた前記少なくとも1つの画像フレームのマーキング領域における中心位置の上位の特徴と同様である上位の特徴の位置を、前記対象オブジェクトの前記中心位置の情報とするように構成される、画像を処理するための装置。
【請求項10】
前記検索領域確定ユニットはさらに、
前記対象画像フレームの1つ前のフレームにおける前記対象オブジェクトの中心位置を起点とし、前記対象画像フレームの前の3つのフレームにおける前記対象オブジェクトの移動距離の和の平均値を半径とし、進行方向に構成される扇形領域を前記対象画像フレームにおける検索領域とするように構成され、
前記進行方向は前記対象画像フレームの前の3つのフレームに基づいて確定された前記対象オブジェクトの移動方向及び該移動方向間のなす角からなる方向である、請求項9に記載の装置。
【請求項11】
前記検索領域確定ユニットはさらに、
前記対象オブジェクトの平均移動速度を確定するステップであって、前記対象画像フレームの前の所定数のフレームの画像において、隣接する2フレーム毎における前記対象オブジェクトの位置の変化距離と、フレーム毎の所定時間とに基づいて、隣接する2フレーム毎の対象移動速度を算出し、隣接する2フレーム毎の対象移動速度を加算し平均値を取って、前記対象画像フレームにおける前記対象オブジェクトの平均移動速度とするステップと、
前記マーキング領域の位置情報と前記平均移動速度とに基づいて、前記検索領域を確定するステップと、を行うように構成される、請求項10に記載の装置。
【請求項12】
前記上位の特徴は、特徴の細部を表すものであり、模様特徴を含む、請求項9に記載の装置。
【請求項13】
前記対象オブジェクト領域確定ユニットはさらに、
前記中心位置の情報と前記マーキング領域とに基づいて、初期領域を確定し、
前記初期領域の第1の特徴及び前記少なくとも1つの画像フレームのマーキング領域の第2の特徴を確定し、
前記第1の特徴と前記第2の特徴とに基づいて、対象オブジェクト領域を確定するように構成され、
前記第2の特徴は前記第1の特徴のタイプに対応する特徴であり、前記タイプは上位の特徴および下位の特徴を含み、
前記下位の特徴は特徴の意味部分を表すものであり、色、輪郭を含む、請求項9に記載の装置。
【請求項14】
前記対象オブジェクト領域確定ユニットはさらに、
前記初期領域と、前記少なくとも1つの画像フレームのマーキング領域との下位の特徴及び上位の特徴をそれぞれ抽出し、
前記初期領域の下位の特徴と上位の特徴とを融合して、前記第1の特徴を取得し、
前記少なくとも1つの画像フレームのマーキング領域における下位の特徴と上位の特徴とを融合して、前記第2の特徴を取得するように構成される、請求項13に記載の装置。
【請求項15】
前記対象オブジェクト領域確定ユニットはさらに、
前記第1の特徴と前記第2の特徴との差異を確定し、
前記第1の特徴と前記第2の特徴との差異が所定条件を満たさない場合、オーバーラップ率予測ネットワークによって前記初期領域の位置および輪郭を更新し、更新後の初期領域を前記対象オブジェクト領域とするように構成される、請求項13に記載の装置。
【請求項16】
前記分割ユニットはさらに、
前記少なくとも1つの画像フレームにおける前記対象オブジェクトの第3の特徴を抽出し、
前記対象オブジェクト領域における前記対象オブジェクトの第4の特徴を抽出し、
前記第4の特徴から前記第3の特徴にマッチングする第5の特徴を確定し、
前記第5の特徴に基づいて、前記対象画像フレームを分割する、請求項9に記載の装置。
【請求項17】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されるメモリとを備え、
前記メモリには、前記少なくとも1つのプロセッサにより実行可能な指令が格納されており、前記指令は前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1~8のいずれか1項に記載の方法を実行させる、ことを特徴とする画像を処理するための電子機器。
【請求項18】
コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令は請求項1~8のいずれか1項に記載の方法をコンピュータに実行させるために使用される、ことを特徴とする非一時的コンピュータ可読記憶媒体。
【請求項19】
プロセッサにより実行されると、請求項1~8のいずれか一項に記載の方法を実現する、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は画像処理分野に関し、具体的には、人工知能、ディープラーニング、コンピュータビジョンの分野に関し、特に、画像を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムに関する。
【背景技術】
【0002】
スマートフォン及びモバイルインターネットの普及及び発展に伴い、ビデオ作成と転送のコストが絶えずに低下しており、ビデオはその豊富な表現能力によってコンテンツ生成分野で益々多くのユーザに好まれており、簡単で使いやすい自動化ビデオ編集技術の需要が益々大きくなっている。近年、対象追跡と密接に関連するビデオ対象分割が益々多くの注目を集めている。しかし、既存の対象追跡方法では多くの場合、精細な対象分割結果を提供することができない。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本出願は、画像を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムを提供している。
【課題を解決するための手段】
【0004】
本出願の第1の態様によれば、画像を処理するための方法を提供し、対象画像フレームと対象オブジェクトがマーキングされた少なくとも1つの画像フレームとが含まれる対象ビデオを取得するステップと、少なくとも1つの画像フレームにおけるマーキングされた対象オブジェクトに基づいて、対象画像フレームにおいて対象オブジェクトに対する検索領域を確定するステップと、検索領域において、対象オブジェクトの中心位置情報を確定するステップと、少なくとも1つの画像フレームのマーキング領域と中心位置情報とに基づいて、対象オブジェクト領域を確定するステップと、対象オブジェクト領域に基づいて、対象画像フレームを分割するステップとを含む。
【0005】
本出願の第2の態様によれば、対象画像フレームと対象オブジェクトがマーキングされた少なくとも1つの画像フレームとが含まれる対象ビデオを取得するように構成されるビデオ取得ユニットと、少なくとも1つの画像フレームにおけるマーキングされた対象オブジェクトに基づいて、対象画像フレームにおいて対象オブジェクトに対する検索領域を確定するように構成される検索領域確定ユニットと、検索領域に基づいて、対象オブジェクトの中心位置情報を確定するように構成される中心位置情報確定ユニットと、少なくとも1つの画像フレームのマーキング領域と中心位置情報とに基づいて、対象オブジェクト領域を確定するように構成される対象オブジェクト領域確定ユニットと、対象オブジェクト領域に基づいて、対象画像フレームを分割するように構成される分割ユニットとを備える画像を処理するための装置を提供する。
【0006】
本出願の第3の態様では、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されるメモリとを備え、メモリには、少なくとも1つのプロセッサにより実行可能な指令が格納されており、指令は少なくとも1つのプロセッサにより実行されると、少なくとも1つのプロセッサに上記の画像を処理するための方法を実行させる、画像を処理するための電子機器を提供する。
【0007】
本出願の第4の態様では、コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体を提供し、前記コンピュータ指令は上記の画像を処理するための方法をコンピュータに実行させるために使用される。
【0008】
第5の態様では、本出願の実施形態は、プロセッサにより実行されると、上記の画像を処理するための方法を実現する、コンピュータプログラムを提供する。
【0009】
本出願の技術によって、従来の対象追跡方法では多くの場合精細な対象分割結果を提供できないという問題を解決して、対象オブジェクトをロバストに位置特定するとともに精細な対象分割結果を提供することができる。
【0010】
本明細書で説明されている内容は、本出願の実施形態の重要な点や重要な特徴を示すためのものではなく、本出願の範囲を限定するためのものでもないことを理解すべきである。本出願のその他の特徴は以下の説明により容易に理解されるようになる。
【0011】
図面は本技術的手段をよりよく理解するためのものであって、本出願を限定するものではない。
【図面の簡単な説明】
【0012】
図1】本出願の一実施形態が適用可能な例示的なシステムアーキテクチャである。
図2】本出願による画像を処理するための方法の一実施形態のフローチャートである。
図3】本出願による画像を処理するための方法の1つの応用シーンの概略図である。
図4】本出願による画像を処理するための方法のもう1つの実施形態のフローチャートである。
図5】本出願による画像を処理するための装置の一実施形態の構造概略図である。
図6】本出願の実施形態の画像を処理するための方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0013】
以下は図面を参照して本出願の例示的な実施形態を説明し、ここでは理解を助けるため、本出願の実施形態の様々な詳細が記載されるが、これらは単なる例示であるに過ぎない。従って、本出願の範囲および要旨を逸脱しない限り、当業者が本明細書の実施形態に対して様々な変更と修正を行うことができることを理解すべきである。なお、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。
【0014】
なお、本出願の実施形態および実施形態における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面および実施形態を参照しながら本出願を詳細に説明する。
【0015】
図1は、本出願の画像を処理するための方法又は画像を処理するための装置の実施形態を適用することができる例示的なシステムアーキテクチャ100を示す。
【0016】
図1に示されるように、システムアーキテクチャ100は、カメラ101、102、ネットワーク103、サーバ104、及び端末装置105を含むことができる。ネットワーク103は、カメラ101、102と、サーバ104、端末装置105との間に通信リンクを提供するための媒体として使用される。ネットワーク103は、有線、無線通信リンク又は光ファイバーケーブルなどの様々な接続タイプを含むことができる。
【0017】
カメラ101、102は、ネットワーク103を介してサーバ104、端末装置105と情報のやり取りをして、メッセージなどを送受信することができる。カメラ101、102はビデオを採集し、採集したビデオをサーバ104又は端末装置105に送信するか、又はローカルに記憶することができる。カメラ101、102は、ビデオ又は画像を撮影するために、街灯柱、信号機柱、映画撮影用ポール又は運動場に設置された撮影ポールに固定されてもよい。
【0018】
サーバ104又は端末装置105は、カメラ101、102から採集されたビデオ又は画像を取得するとともに、ビデオ又は画像を処理して、ビデオ又は画像における対象オブジェクトを追跡及び分割することができる。サーバ104又は端末装置105には、画像処理アプリケーションなどの様々な通信クライアントアプリケーションがインストールされていてもよい。
【0019】
端末装置105はハードウェアであってもよく、ソフトウェアであってもよい。端末装置105がハードウェアである場合、スマートフォン、タブレットコンピュータ、電子書籍リーダー、車載コンピュータ、ラップトップコンピュータ及びデスクトップコンピュータなど様々な電子機器であってもよいが、これらに限定されない。端末装置105がソフトウェアである場合は、上記に挙げられた電子機器にインストールされてもよい。端末装置105がソフトウェアである場合、上記の電子機器にインストールされてもよい。複数のソフトウェア又はソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実施されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実施されてもよい。ここでは、具体的な限定をしない。
【0020】
なお、本出願の実施形態により提供される画像を処理するための方法はサーバ104又は端末装置105によって実行可能である。応じて、画像を処理するための装置はサーバ104又は端末装置105に設けられてもよい。
【0021】
なお、図1におけるカメラ、ネットワーク、サーバ及び端末装置の数が単なる例示的なものである。実施の必要性に応じて、任意の数のカメラ、ネットワーク、サーバ及び端末装置を有することができる。
【0022】
引き続き図2を参照し、本出願による画像を処理するための方法の一実施形態のフロー200を示す。本実施形態の画像を処理するための方法は、以下のステップを含む。
【0023】
ステップ201、対象ビデオを取得する。
本実施形態では、画像を処理するための実行主体(例えば、図1に示す端末装置104)は、有線接続又は無線接続により対象ビデオを取得することができる。対象ビデオはカメラによってリアルタイムに撮影されてもよく、他の電子機器から取得されてもよい。対象ビデオは対象画像フレームと対象オブジェクトがマーキングされた少なくとも1つの画像フレームとを含むことができる。前記画像フレームには対象オブジェクトの輪郭、形態などの情報が含まれている。対象オブジェクトに対するマーキングは、対象オブジェクトの輪郭に対するマーキングであってもよい。マーキングされた対象オブジェクトは、人、車両などであってもよい。
【0024】
ステップ202、少なくとも1つの画像フレームにおけるマーキングされた対象オブジェクトに基づいて、対象画像フレームにおいて対象オブジェクトに対する検索領域を確定する。
【0025】
実行主体は、対象ビデオにおける対象画像フレームと対象オブジェクトがマーキングされた少なくとも1つの画像フレームとを取得した後、少なくとも1つの画像フレームにおけるマーキングされた対象オブジェクトに基づいて、対象画像フレームにおいて対象オブジェクトに対する検索領域を確定することができる。具体的には、実行主体は、対象画像フレームの1つ前のフレームにおける対象オブジェクトの位置を円心とし、対象画像フレームの直前の2つフレームにおける対象オブジェクトの移動距離を半径とした円形領域を対象画像フレームにおける対象オブジェクトの検索領域としてもよい。例えば、n番目の画像フレームにおいて対象オブジェクトに対する検索領域を確定するために、n-2番目の画像フレームからn-1番目の画像フレームまでの対象オブジェクトの移動距離Lを半径とし、n-1番目の画像フレームにおける対象オブジェクトの位置を円心とした円形領域を、対象画像フレームにおける対象オブジェクトに対する検索領域とする。
【0026】
ステップ203、検索領域に基づいて、対象オブジェクトの中心位置情報を確定する。
実行主体は、対象画像フレームにおける対象オブジェクトに対する検索領域を取得した後、検索領域に基づいて対象オブジェクトの中心位置情報を確定することができる。具体的には、実行主体は、対象画像フレームの1つ前のフレームにおける対象オブジェクトの中心位置情報と、直前の2つのフレームにおける対象オブジェクトの移動軌跡に反映される移動方向とに基づいて、1つ前のフレームから対象画像フレームに至る対象オブジェクトの移動方向を予測することができる。具体的には、例えば、この確定された移動方向において、n-2番目の画像フレームからn-1番目の画像フレームに至る対象オブジェクトの移動距離Lと対象画像フレームの1つ前のフレーム(すなわち、n-1番目の画像フレーム)における対象オブジェクトの中心位置とに基づいて、検索領域における対象オブジェクトの中心位置情報は、確定された移動方向において、n-1番目の画像フレームにおける対象オブジェクトの中心位置を起点とし、距離Lを移動した後の位置を終点とすると、該終点が検索領域における対象オブジェクトの中心位置である。
【0027】
ステップ204、対象オブジェクトが位置するマーキング領域と中心位置情報とに基づいて、対象オブジェクト領域を確定する。
【0028】
実行主体は、対象オブジェクトの中心位置情報を取得した後、対象オブジェクトが位置するマーキング領域と中心位置情報とに基づいて、対象オブジェクト領域を確定することができる。該検索領域内で対象画像フレームの1つ前のフレームの対象オブジェクトの外形輪郭サイズを基準として、対象画像フレームにおいて対象オブジェクトの中心位置を中心とし、対象画像フレームの1つ前のフレームの対象オブジェクトの外形輪郭サイズと同じの対象オブジェクト外形輪郭を作成してそれを分割すべき対象オブジェクト領域とする。
【0029】
ステップ205、対象オブジェクト領域に基づいて、対象画像フレームを分割する。
実行主体は対象オブジェクト領域を取得した後、対象オブジェクト領域に基づいて対象画像フレームを分割することができる。具体的には、実行主体は、ターゲット認識又は意味分割方法により対象画像フレームにおける対象オブジェクト領域が示す対象オブジェクトを抽出することで、対象画像フレームを分割することができる。分割とは、対象オブジェクトの外形輪郭を対象画像フレームから分離することである。
【0030】
引き続き図3を参照し、本出願による画像を処理するための方法の1つの応用シーンの概略図である。図3の応用シーンでは、カメラ301は、ビデオ302を採集するための撮影ポールに固定される。カメラ301によって採集されたビデオ302には、対象画像フレーム305のn番目フレーム、対象オブジェクトAがマーキングされた少なくとも1つの画像フレーム303のn‐2番目フレーム、304のn‐1番目フレームが含まれている。ラップトップポータブルコンピュータ(図示せず)がカメラ301から対象ビデオ302を取得した後、303のn‐2番目フレーム又は304のn‐1番目フレームにおけるマーキングされた対象オブジェクトAに基づいて、305のn番目フレームにおける対象オブジェクトAに対する破線で囲まれた検索領域Dを確定する。ラップトップポータブルコンピュータ(図示せず)は、検索領域Dに基づいて、対象オブジェクトAの中心位置Bの情報を確定するとともに、303のn‐2番目フレーム又は304のn‐1番目フレームのマーキング領域と中心位置Bとに基づいて対象オブジェクト領域Cを確定し、対象オブジェクト領域Cに基づいて、305のn番目フレームにおける、対象オブジェクト領域Cと重なる対象オブジェクトを分割する。
【0031】
本実施形態は、対象オブジェクトをロバストに位置特定するとともに精細な対象分割結果を提供することができる。
【0032】
引き続き図4を参照し、本出願による画像を処理するための方法の別の1つの実施形態のプロセス400を示す。図4に示すように、本実施形態の画像を処理するための方法は、以下のステップを含むことができる。
【0033】
ステップ401、対象ビデオを取得する。
ステップ401の原理はステップ201の原理と同様であり、ここでは説明を省略する。
【0034】
ステップ402、マーキング領域に基づいて、検索領域を確定する。
本実施形態では、実行主体は対象ビデオを取得した後、マーキング領域に基づいて、検索領域を確定することができる。具体的には、実行主体は、対象画像フレームの前の3つのフレームにおける対象オブジェクトの移動距離の和の平均値を検索半径とし、対象画像フレームの1つ前のフレームにおける対象オブジェクトの中心位置を起点とし、該起点と検索半径とを連結し、進行方向に構成される扇形検索領域を対象画像フレームにおける検索領域とすることで、検索領域を高精度に確定することができ、対象オブジェクトの分割をより正確に実現することができる。うち、前記進行方向は前のいくつかの画像フレームに基づいて確定された対象オブジェクトの移動方向及び該移動方向間のなす角からなる方向であってもよい。
【0035】
具体的には、ステップ402は以下のステップ4021~4022に基づいて確定することができる。
【0036】
ステップ4021、対象オブジェクトの平均移動速度を確定する。
実行主体は、対象ビデオにおける対象画像フレームと対象オブジェクトがマーキングされた少なくとも1つの画像フレームとを取得した後、対象オブジェクトの平均移動速度を確定することができる。例示的に、実行主体は、n番目の画像フレームを対象画像フレームとし、前のmフレームの画像において隣接する2フレーム毎における対象オブジェクト位置の変化距離と、フレーム毎の所定時間とに基づいて、隣接する2フレーム毎の対象移動速度を算出し、得られた前のmフレームの画像における、隣接する2フレーム毎の対象移動速度を加算し平均値を取って、前のmフレームの画像における対象オブジェクトの移動速度を得、n番目フレーム画像(すなわち、対象画像フレーム)における対象オブジェクトの平均移動速度とする。
【0037】
ステップ4022、マーキング領域の位置情報と平均移動速度とに基づいて、検索領域を確定する。
【0038】
実行主体は、対象オブジェクトの平均移動速度を得た後、少なくとも1つの画像フレームにおける対象オブジェクトの位置情報及び平均移動速度に基づいて、検索領域を確定することができる。例示的に、実行主体はn番目の画像フレームを対象画像フレームとして確定する。n‐1番目の画像フレームにおける対象オブジェクトの中心位置に基づいて検索中心を確定し、前のn‐1フレームの画像フレームにおける対象オブジェクトの平均移動速度に基づいて検索半径を確定し、これにより構成される領域をn番目の画像フレームの検索領域として確定する。n‐1番目の画像フレームにおける対象オブジェクトの中心領域が1番目の画像フレームにおけるマーキングされた対象オブジェクトに基づいて確定されてもよいことが理解できる。例えば、3番目の画像フレームにおける対象オブジェクトの中心領域は、2番目の画像フレームにおける対象オブジェクトの中心領域に基づいて確定することができ、2番目の画像フレームにおける対象オブジェクトの中心領域は、1番目の画像フレームにおける確定された対象オブジェクトの中心領域に基づいて確定することができ、1番目の画像フレームにおける対象オブジェクトの特徴、位置および輪郭は手動でマーキングされ得る。うち、対象オブジェクトの特徴は、色、エッジなどの下位の特徴であってもよく、模様、比較的区別性のある特徴(例えば、牛の頭、犬の頭など)、識別性を有する肝心な特徴(例えば、ヒト、動物など)の上位の特徴であってもよい。
【0039】
本実施形態では、少なくとも1つの画像フレームにおける対象オブジェクトの位置情報及び平均移動速度に基づいて検索領域を確定することにより、検索領域の確定がより正確になって、対象オブジェクト追跡の精度を向上させることができる。
【0040】
ステップ403、検索領域に基づいて、対象オブジェクトの中心位置情報を確定する。
ステップ403の原理はステップ203の原理と同様であり、ここではその説明を省略する。
【0041】
具体的には、ステップ403は以下のステップ4031~4033に基づいて確定することができる。
【0042】
ステップ4031、前記検索領域の上位の特徴を抽出する。
実行主体は、検索領域を得た後、検索領域の上位の特徴を抽出することができる。具体的には、上位の特徴は、いくつかの格子状模様のような模様特徴であってもよく、例えば、犬の頭、ヒトの頭、牛の頭など比較的に区別性のある特徴であってもよく、例えば、ヒト、動物など識別性を有する肝心な特徴であってもよい。
【0043】
ステップ4032、抽出された上位の特徴をフィルタリングする。
実行主体は、検索領域の上位の特徴を抽出した後、抽出された上位の特徴をフィルタリングすることができる。具体的には、抽出された上位の特徴をフィルタリングすることで抽出された特徴を変更又は強化することができ、フィルタリングによって、上位の特徴の模様、タイプなどのいくつかの特に重要な特徴を抽出することができ、或いは、下位の特徴における色、輪郭などの重要でない特徴を除去することができる。本実施形態におけるフィルタリングは、少なくとも1つの画像フレームのマーキング領域における中心位置の上位の特徴に基づいて、対象画像フレームの検索領域のうち該上位の特徴と同様又は特に近い上位の特徴を抽出することであってもよい。
【0044】
ステップ4033、フィルタリングされた特徴に基づいて、対象オブジェクトの中心位置情報を確定する。
【0045】
実行主体は、抽出された上位の特徴をフィルタリングした後、フィルタリングされた特徴に基づいて、対象オブジェクトの中心位置情報を確定することができる。具体的には、実行主体は、フィルタリングにより得られた少なくとも1つの画像フレームのマーキング領域における中心位置の上位の特徴と同様又は特に近い上位の特徴の検索領域における位置を、対象オブジェクトの中心位置としてもよい。
【0046】
本実施形態では、抽出された上位の特徴をフィルタリングすることにより、抽出された上位の特徴を強化することができ、それにより、上位の特徴を用いて対象オブジェクトの中心位置情報を確定する精度を向上させることができる。
【0047】
ステップ404、少なくとも1つの画像フレームのマーキング領域と中心位置情報とに基づいて、対象オブジェクト領域を確定する。
【0048】
ステップ404の原理はステップ204の原理と同様であり、ここではその説明を省略する。
【0049】
具体的には、ステップ404は以下のステップ4041~4043に基づいて確定することができる。
【0050】
ステップ4041、中心位置情報とマーキング領域とに基づいて、初期領域を確定する。
【0051】
実行主体は、対象オブジェクトの中心位置情報を取得した後、中心位置情報とマーキング領域とに基づいて、初期領域を確定することができる。具体的には、実行主体は、対象オブジェクトの中心位置と、少なくとも1つの画像フレームにおいて対象オブジェクトにマーキングされた輪郭特徴とを組み合わせて初期領域を構成してもよい。もちろん、実行主体は、任意の形状及びサイズの、対象オブジェクトの中心位置を囲む領域を初期領域としてもよいが、本出願では初期領域の形状及びサイズに対して具体的な限定をしない。
【0052】
ステップ4042、初期領域の第1の特徴と少なくとも1つの画像フレームのマーキング領域の第2の特徴とを確定する。
【0053】
実行主体は、初期領域を得た後、初期領域の第1の特徴と少なくとも1つの画像フレームのマーキング領域の第2の特徴とを確定することができる。具体的には、実行主体は初期領域を得た後、初期領域における上位の特徴を初期領域の第1の特徴として抽出し、少なくとも1つの画像フレームのマーキング領域の上位の特徴を少なくとも1つの画像フレームのマーキング領域の第2の特徴として抽出してもよい。もちろん、実行主体は初期領域を得た後、初期領域における下位の特徴を初期領域の第1の特徴として抽出し、少なくとも1つの画像フレームのマーキング領域の下位の特徴を少なくとも1つの画像フレームのマーキング領域の第2の特徴として抽出してもよい。具体的には、上位の特徴は比較的に区別性があり、比較的に識別性がある特徴であり、いくつかの格子状模様、猫の頭、犬の頭、ヒト、動物などのような模様特徴であってもよい。下位の特徴は、例えば、色、輪郭などの特徴であってもよい。
【0054】
具体的には、ステップ4042はさらに以下のステップ40421~40423に基づいて確定することができる。
【0055】
ステップ40421、初期領域及び少なくとも1つの画像フレームのマーキング領域における下位の特徴及び上位の特徴をそれぞれ抽出する。
【0056】
実行主体は、事前訓練された残差ニューラルネットワークResNet50を介して、初期領域及び少なくとも1つの画像フレームのマーキング領域の下位の特徴及び上位の特徴を抽出することができる。事前訓練された残差ニューラルネットワークResNet50は、より深い階層の特徴を抽出することができるため、対象オブジェクトの中心位置の確定がより正確になる。具体的には、下位の特徴の意味情報は比較的少ないが、下位の特徴に対応する対象オブジェクトの位置は正確であり、上位の特徴の意味情報は比較的豊富であるが、上位の特徴に対応する対象オブジェクトの位置は比較的おおまかである。上位の特徴は細部を表すものであり、例えば、いくつかの格子状模様、猫の頭、犬の頭、ヒト、動物などのような模様特徴であってもよい。下位の特徴は意味特徴を表すものであり、例えば、色、輪郭などの特徴であってもよい。
【0057】
ステップ40422、初期領域の下位の特徴と上位の特徴とを融合して、第1の特徴を取得する。
【0058】
実行主体は、初期領域の下位の特徴と上位の特徴とをFPN(feature pyramid networks)によって融合することで、第1の特徴を得ることができる。FPN(feature pyramid networks)は、通常のCNNモデルを用いて画像中の各次元の特徴を効率よく抽出する方法である。FPN(feature pyramid networks)アルゴリズムは、下位の特徴の高解像度と上位の特徴の高意味情報を同時に利用し、これらの異なる層の特徴を融合することで分割の効果を達成する。また、分割は融合後の特徴層ごとに単独で行われる。具体的には、入力された初期領域における上位の特徴をx、次元サイズをh×w×cとする。入力された初期領域における下位の特徴をx、次元サイズをh×w×cとし、うち、h≦h、w≦wである。まず、ベクトル畳み込み演算Conv1により上位の特徴を共通空間にマッピングし、次に、双線形補間により上位の特徴の空間次元を下位の特徴と同様になるように補間し、再びベクトル畳み込み演算Conv2により下位の特徴を共通空間にマッピングし、最後に、2つの特徴を加算して第1の特徴を得る。すなわち、第1の特徴x=BilinearUpsample(Conv1(X1))+Conv2(X2)である。
【0059】
ステップ40423、少なくとも1つの画像フレームのマーキング領域における下位の特徴と上位の特徴とを融合して、第2の特徴を取得する。
【0060】
実行主体は、少なくとも1つの画像フレームのマーキング領域における下位の特徴と上位の特徴とをFPN(feature pyramid networks)によって融合することで、第2の特徴を得ることができる。FPN(feature pyramid networks)は、通常のCNNモデルを用いて画像中の各次元の特徴を効率よく抽出する方法である。FPN(feature pyramid networks)アルゴリズムは、下位の特徴の高解像度と上位の特徴の高意味情報を同時に利用し、これらの異なる層の特徴を融合することで分割の効果を達成する。また、分割は融合後の特徴層ごとに単独で行われる。具体的には、入力された少なくとも1つの画像フレームのマーキング領域における上位の特徴をx、次元サイズをh×w×cとする。入力された少なくとも1つの画像フレームのマーキング領域における下位の特徴をx、次元サイズをh×w×cとし、うち、h≦h、w≦wである。まず、ベクトル畳み込み演算Conv1により上位の特徴を共通空間にマッピングし、次に、双線形補間により上位の特徴の空間次元を下位の特徴と同様に補間し、再びベクトル畳み込み演算Conv2により下位の特徴を共通空間にマッピングし、最後に、2つの特徴を加算して第2の特徴を得る。すなわち、第2の特徴x=BilinearUpsample(Conv1(x))+Conv2(x)である。
【0061】
本実施形態では、下位の特徴と上位の特徴とを融合することにより、実行主体が対象オブジェクトの位置及び輪郭を予測する回帰能力を強化することができる。また、実行主体が対象オブジェクトの位置及び輪郭を予測することは、融合後の上位の特徴と下位の特徴の特徴層ごとに互いに干渉せずに単独で行うことができ、実行主体の予測の精度を向上させることができる。
【0062】
ステップ4043、第1の特徴と第2の特徴とに基づいて、対象オブジェクト領域を確定する。
【0063】
実行主体は、第1の特徴及び第2の特徴を得た後、第1の特徴及び第2の特徴に基づいて、対象オブジェクト領域を確定することができる。具体的には、実行主体は、第1の特徴と第2の特徴との重なり状況に基づいて、移動勾配の方向を確定し、それにより融合された第1の特徴と第2の特徴とが完全に一致するまで、初期領域の移動方向及び移動ステップ長を確定し、そのときの初期領域を対象オブジェクト領域として確定する。勾配の方向とは、第1の特徴と第2の特徴とが多く重なる方向である。
【0064】
本実施形態では、初期領域の第1の特徴と、少なくとも1つの画像フレームのマーキング領域の第2の特徴とを比較することにより、対象オブジェクトが位置する領域を確定する精度を向上させることができる。
【0065】
具体的には、ステップ4043は以下のステップ40431~40432に基づいて確定することができる。
【0066】
ステップ40431、第1の特徴と第2の特徴との差異を確定する。
第2の特徴には対象オブジェクトのすべての特徴が含まれている。実行主体は、融合された第1の特徴及び第2の特徴を得た後、初期領域の第1の特徴と、少なくとも1つの画像フレームのマーキング領域における第2の特徴とを比較して、第2の特徴に存在し第1の特徴に存在しない特徴を得る。例えば、第2の特徴には色、輪郭、模様が存在し、第1の特徴には輪郭及び色のみが存在し模様がない場合に、模様が第1の特徴と第2の特徴との差異である。
【0067】
ステップ40432、差異と所定条件とに基づいて、初期領域を更新し、更新後の初期領域を対象オブジェクト領域とする。
【0068】
実行主体は、第1の特徴と第2の特徴との差異を得た後、オーバーラップ率予測ネットワークを介して、初期領域と少なくとも1つの画像フレームのマーキング領域とのオーバーラップ率を予測することができ、該オーバーラップ率は第1の特徴と第2の特徴との差異を示し、実行主体は差異及び所定条件に基づいて、初期領域を更新し、更新後の初期領域を対象オブジェクト領域とする。第1の特徴と第2の特徴との差異がある箇所は、初期領域と少なくとも1つの画像フレームのマーキング領域とのオーバーラップ率の大きさを反映することができ、差異が大きいほどオーバーラップ率が小さく、差異が小さいほどオーバーラップ率が大きい。具体的には、オーバーラップ率予測ネットワークは、第1の特徴と第2の特徴の差異の所在位置に基づいて、例えば、模様の位置に基づいて、初期領域と少なくとも1つの画像フレームのマーキング領域の勾配を取得し、該勾配の方向がオーバーラップ率を大きくする方向である。実行主体は、勾配が示す方向に初期領域を移動させ、初期領域と少なくとも1つの画像フレームのマーキング領域における第1の特徴と第2の特徴との間のオーバーラップ率をリアルタイムで取得し、オーバーラップ率が所定条件を満たしていない場合(所定条件は、オーバーラップ率が98%又は99%に達することであってもよく、本出願は所定条件に対して具体的な限定をしない)、オーバーラップ率予測ネットワークによって、取得したオーバーラップ率の勾配をリアルタイムで計算し、実行主体は該勾配に基づいて再度初期領域を該勾配の方向に沿って移動させるとともに、得られたオーバーラップ率が最大になるまで、初期領域の位置及び輪郭などの情報をリアルタイムで更新し、このときの更新後の初期領域を対象オブジェクト領域とする。
【0069】
本実施形態では、初期領域の特徴を少なくとも1つの画像フレームにおけるマーキング領域の特徴と比較することにより、初期領域の特徴と少なくとも1つの画像フレームのマーキング領域における特徴とが最大に重なるように、初期領域の位置及び輪郭を調整することで、対象オブジェクト領域を正確に確定することができる。
【0070】
ステップ405、対象オブジェクト領域に基づいて、対象画像フレームを分割する。
実行主体は対象オブジェクト領域を取得した後、対象オブジェクト領域に基づいて、対象画像フレームを分割することができる。具体的には、対象オブジェクト領域を長方形領域とし、該長方形領域を取得した後、長方形領域の長さ及び幅に基づいて、該長方形領域を囲む正方形画像領域を確定する。例示的に、長方形領域の長さと幅をそれぞれx、yとする。その場合、正方形の辺の長さは
【0071】
【数1】
【0072】
である。ここで、αは事前に設定された検索範囲パラメータであり、本出願はこれに対して特に限定しない。
【0073】
該長方形領域を囲む正方形画像領域を取得した後、該正方形画像領域における対象オブジェクトの輪郭を分割することで、対象画像フレームの分割を実現する。
【0074】
ステップ405の原理はステップ205の原理と同様であり、ここではその説明を省略する。
【0075】
具体的には、ステップ405は以下のステップ4051~4054に基づいて確定することができる。
【0076】
ステップ4051、少なくとも1つの画像フレームにおける対象オブジェクトの第3の特徴を抽出する。
【0077】
実行主体は、残差ニューラルネットワークResNet50によって、対象画像フレームの前の少なくとも1つの画像フレームにおける対象オブジェクトの上位の特徴、下位の特徴、及び/又は上位と下位とが融合した後の特徴を第3の特徴として抽出する。第3の特徴は、例えば、輪郭特徴、色特徴、模様特徴、長さ特徴、カテゴリ特徴であり得る。
【0078】
ステップ4052、対象オブジェクト領域における対象オブジェクトの第4の特徴を抽出する。
【0079】
ステップ405での正方形画像領域を取得した後、実行主体は、残差ニューラルネットワークResNet50によって、対象オブジェクト領域を囲む正方形画像領域における上位の特徴、下位の特徴、及び/又は上位と下位とが融合した後の特徴を第4の特徴として抽出する。第4の特徴は、例えば、輪郭特徴、色特徴、模様特徴、長さ特徴、面積特徴、体積特徴、カテゴリ特徴であり得る。
【0080】
ステップ4053、第4の特徴から第3の特徴にマッチングする第5の特徴を確定する。
【0081】
実行主体は、取得した第4の特徴を第3の特徴と比較し、第4の特徴から第3の特徴にマッチングする第5の特徴を確定する。ステップ4052及びステップ4053で列挙された第3の特徴及び第4の特徴に基づいて、第5の特徴が輪郭特徴、色特徴、模様特徴、長さ特徴、及びカテゴリ特徴であることを確定することができる。
【0082】
ステップ4054、第5の特徴に基づいて、対象画像フレームを分割する。
第5の特徴は対象オブジェクトの輪郭、色、模様、長さ、及びカテゴリを表すために使用され、実行主体は示された輪郭、色、模様、長さ、及びカテゴリに基づいて、対象画像フレームにおける対象オブジェクトを正確に分割することができる。
【0083】
具体的には、該実施形態では、実行主体は、シャムネットワーク(Siamese network)構造のセグメンテーションネットワークを用いて、対象オブジェクト領域を取り囲む正方形画像領域において第4の特徴に対応する第5の特徴に基づいて、対象オブジェクトの輪郭、色、模様、長さ及びカテゴリを確定することができ、それにより対象オブジェクトに対する分割を正確に実現することができる。具体的には、シャムネットワークは2つのブランチを持つネットワークであり、第1のブランチは少なくとも1つの画像フレームにおける対象オブジェクトの第3の特徴を抽出し、第3の特徴に基づいて該シャムネットワークに対応するモデルパラメータを取得し、第2のブランチは対象オブジェクト領域における対象オブジェクトの第4の特徴を抽出し、第3の特徴と対応するモデルパラメータとに基づいて、第4の特徴から第3の特徴にマッチングする第5の特徴を抽出し、第5の特徴に基づいて対象画像フレームにおける対象オブジェクトを正確に分割することで、対象オブジェクトに対する分割の精度が向上される。
【0084】
さらに図5を参照し、上記各図に示された方法に対する実施として、本出願は画像を処理するための装置の一実施形態を提供し、該装置の実施形態は図2に示された方法の実施形態と互いに対応し、該装置は具体的に様々な電子機器に適用可能である。
【0085】
図5に示されているように、本実施形態の画像を処理するための装置500はビデオ取得ユニット501、検索領域確定ユニット502、中心位置情報確定ユニット503、対象オブジェクト領域確定ユニット504及び分割ユニット505を含む。
【0086】
ビデオ取得ユニット501は、対象画像フレームと対象オブジェクトがマーキングされた少なくとも1つの画像フレームとを含む対象ビデオを取得するように構成される。
【0087】
検索領域確定ユニット502は、少なくとも1つの画像フレームにおけるマーキングされた対象オブジェクトに基づいて、対象画像フレームにおける対象オブジェクトに対する検索領域を確定するように構成される。
【0088】
中心位置情報確定ユニット503は、検索領域に基づいて、対象オブジェクトの中心位置情報を確定するように構成される。
【0089】
対象オブジェクト領域確定ユニット504は、対象オブジェクトが位置するマーキング領域と中心位置情報とに基づいて、対象オブジェクト領域を確定するように構成される。
【0090】
分割ユニット505は、対象オブジェクト領域に基づいて、対象画像フレームを分割するように構成される。
【0091】
本実施形態のいくつかのオプション的な実施形態では、検索領域確定ユニット502はさらに、マーキング領域に基づいて、検索領域を確定するように構成される。
【0092】
本実施形態のいくつかのオプション的な実施形態では、検索領域確定ユニット502はさらに、対象オブジェクトの平均移動速度を確定し、マーキング領域の位置情報と平均移動速度とに基づいて、検索領域を確定するように構成される。
【0093】
本実施形態のいくつかのオプション的な実施形態では、中心位置情報確定ユニット503はさらに、検索領域の上位の特徴を抽出し、抽出された上位の特徴をフィルタリングし、フィルタリングされた特徴に基づいて、対象オブジェクトの中心位置情報を確定するように構成される。
【0094】
本実施形態のいくつかのオプション的な実施形態では、対象オブジェクト領域確定ユニット504はさらに、中心位置情報とマーキング領域とに基づいて初期領域を確定し、初期領域の第1の特徴及び少なくとも1つの画像フレームのマーキング領域における第2の特徴を確定し、第1の特徴及び第2の特徴に基づいて、対象オブジェクト領域を確定するように構成される。
【0095】
本実施形態のいくつかのオプション的な実施形態では、対象オブジェクト領域確定ユニット504はさらに、初期領域及び少なくとも1つの画像フレームのマーキング領域における下位の特徴及び上位の特徴をそれぞれ抽出し、初期領域の下位の特徴及び上位の特徴を融合して、第1の特徴を取得し、少なくとも1つの画像フレームのマーキング領域における下位の特徴及び上位の特徴を融合して、第2の特徴を取得するように構成される。
【0096】
本実施形態のいくつかのオプション的な実施形態では、対象オブジェクト領域確定ユニット504はさらに、第1の特徴と第2の特徴との差異を確定し、差異及び所定条件に基づいて、初期領域を更新し、更新後の初期領域を対象オブジェクト領域とするように構成される。
【0097】
本実施形態のいくつかのオプション的な実施形態では、分割ユニット505はさらに、少なくとも1つの画像フレームにおける対象オブジェクトの第3の特徴を抽出し、対象オブジェクト領域における対象オブジェクトの第4の特徴を抽出し、第4の特徴から第3の特徴にマッチングする第5の特徴を確定し、第5の特徴に基づいて、対象画像フレームを分割するように構成される。
【0098】
画像を処理するための装置500に記載されているユニット501~ユニット505はそれぞれ図2に説明した方法の各ステップに対応していることが理解される。従って、画像を処理するための方法に対して説明した操作及び特徴は、装置500及びその中に含まれるユニットにも同様に適用可能であり、ここではその説明を省略する。
【0099】
本出願の実施形態に基づいて、本出願はさらに電子機器及び可読記憶媒体を提供する。
図6に示すように、本出願の実施形態による画像を処理するための方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークベンチ、パーソナル・デジタル・アシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他適切なコンピュータなどさまざまな形態のデジタルコンピュータを表すことを目的としている。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似するコンピューティングデバイス等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで記述および/または要求した本出願の実施形態を限定することを意図するものではない。
【0100】
図6に示すように、該電子機器は、1つ又は複数のプロセッサ601、メモリ602、及び高速インターフェース及び低速インターフェースを含む様々なコンポーネントを接続するためのインターフェースを含む。各コンポーネントは、互いに異なるバス605で接続されており、共通のマザーボードに実装されていてもよく、又は必要に応じて他の形態で実装されていてもよい。プロセッサは、電子機器内で実行される指令を処理することができ、メモリ内又はメモリに格納されて外部入出力装置(インターフェースなどに接続された表示装置)にGUIのグラフィック情報を表示させる指令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバス605を複数のメモリ及び複数のメモリと共に使用してもよい。同様に、複数の電子機器を接続することができ、それぞれの機器はいくつかの必要な操作(例えば、サーバアレイ、一組のブレードサーバ、又はマルチプロセッサシステムとして)を提供する。図6では1つのプロセッサ601を例とする。
【0101】
メモリ602は本出願による非一時的コンピュータ可読記憶媒体である。前記メモリは、少なくとも1つのプロセッサによって実行可能な指令を格納しており、前記少なくとも1つのプロセッサに本出願による画像を処理するための方法を実行させる。本出願の非一時的コンピュータ可読記憶媒体は、本出願による画像を処理するための方法をコンピュータに実行させるためのコンピュータ指令を格納する。
【0102】
メモリ602は、非一時的コンピュータ可読記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム並びに、例えば本出願の実施形態における画像を処理するための方法に対応するプログラム指令/ユニット(例えば、図5に示すビデオ取得ユニット501、検索領域確定ユニット502、中心位置情報確定ユニット503及び対象オブジェクト領域確定ユニット504及び分割ユニット505)などのユニットを格納することができる。プロセッサ601は、メモリ602に格納されている非一時的なソフトウェアプログラム、指令及びモジュールを動作させることにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記方法の実施形態における画像を処理するための方法を実現する。
【0103】
メモリ602は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを記憶できるプログラム記憶領域、および画像を処理するための方法を実行する電子機器の使用に作成されるデータ等を記憶できるデータ記憶領域を備えてもよい。また、メモリ602は高速ランダムアクセスメモリを含むことができ、また非一時的メモリ(例えば、少なくとも1つの磁気ディスク記憶装置、フラッシュメモリデバイスまたはその他の非一時的ソリッドステート記憶装置)を含み得る。いくつかの実施形態において、メモリ602は任意選択でプロセッサ601に対して遠隔に設置されたメモリを含み、これらのリモートメモリはネットワークを介して画像を処理するための方法を実行する電子機器に接続することができる。上記ネットワークとしては、例えば、インターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信網およびこれらの組み合わせなどが挙げられるが、それらに限定されない。
【0104】
画像を処理するための方法を実行する電子機器はさらに入力装置603及び出力装置604を含むことができる。プロセッサ601、メモリ602、入力装置603及び出力装置604は、バス605又はその他の形態で接続されていてもよく、図6ではバス605を介して接続されている例を示している。
【0105】
入力装置603は、入力されたデジタル又は文字情報を受け取り、画像を処理するための方法を実行する電子機器のユーザ設定や機能制御に関するキー信号入力を生成することができ、例えば、タッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングデバイス、1つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置を含む。出力装置604は、表示装置、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モータ)などを含み得る。該表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ及びプラズマディスプレイを含むがそれらに限定されない。いくつかの実施形態において、表示装置はタッチスクリーンであってもよい。
【0106】
ここで記述するシステムおよび技術の各実施形態はデジタル電子回路システム、集積回路システム、特定用途向け集積回路(Application Specific Integrated Circuit,ASIC)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実装され得る。これらの各実施形態は、1つまたは複数のコンピュータプログラムに実装され、該1つまたは複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および/または解釈することができ、該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置および少なくとも1つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を該記憶システム、該少なくとも1つの入力装置および該少なくとも1つの出力装置に伝送することを含み得る。
【0107】
これらのコンピュータプログラムは、プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとも呼ばれ、プログラマブルプロセッサの機械命令を含み、且つ高度プロセスおよび/またはオブジェクト指向のプログラミング言語、および/またはアセンブリ言語/機械語により実装され得る。ここで、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械指令および/またはデータをプログラマブルプロセッサに供給するための任意のコンピュータプログラム、機器、および/または装置(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を意味し、機械可読信号である機械命令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに供給するための任意の信号を意味する。
【0108】
ユーザとのやりとりを行うために、ここで記述するシステムと技術は、ユーザに情報を表示するための表示装置(例えば、陰極線管(Cathode Ray Tube,CRT)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを備えるコンピュータ上で実装することができ、ユーザが該キーボードおよび該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置もユーザとのやりとりを行うことに用いることができる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく、且つ音入力、音声入力若しくは触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。
【0109】
ここで記述したシステムおよび技術は、バックグラウンドコンポーネントを含む演算システム(例えば、データサーバ)に実施されてもよく、またはミドルウェアコンポーネントを含む演算システム(例えば、アプリケーションサーバ)に実施されてもよく、またはフロントエンドコンポーネントを含む演算システム(例えば、グラフィカルユーザインタフェースまたはウェブブラウザを有するユーザコンピュータ)に実施されてもよく、ユーザは該グラフィカルユーザインタフェースまたはウェブブラウザを介してここで記述したシステムおよび技術の実施形態とやりとりを行っていてもよく、またはこのようなバックグラウンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含む演算システムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等の任意の形態または媒体を介してデジタルデータ通信により接続されていてもよい。通信ネットワークとしては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)およびインターネットなどを含む。
【0110】
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント-サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。
【0111】
本出願の実施形態の技術的手段によれば、対象オブジェクトをロバストに位置特定するとともに精細な対象分割結果を提供することができる。
【0112】
上記に示した様々な形態のプロセスを用いて、ステップを順番変更したり、追加したり又は削除したりすることができることを理解すべきである。本出願が開示する技術的手段の望ましい結果を実現することができれば、例えば、本出願に記載された各ステップは並行して又は順番通りに又は異なる順番で実行されてもよく、本明細書はここでは限定しない。
【0113】
上記具体的な実施形態は、本出願の保護範囲を限定するものではない。設計要件および他の要因に従って、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを当業者は理解すべきである。本出願の趣旨および原理を逸脱せずに行われたあらゆる修正、均等置換および改善などは、いずれも本出願の保護範囲内に含まれるべきである。
図1
図2
図3
図4
図5
図6