(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022028854
(43)【公開日】2022-02-16
(54)【発明の名称】サンプル画像生成方法、装置及び電子機器
(51)【国際特許分類】
G06T 7/70 20170101AFI20220208BHJP
G06T 3/00 20060101ALI20220208BHJP
【FI】
G06T7/70
G06T3/00 700
【審査請求】有
【請求項の数】15
【出願形態】OL
【公開請求】
(21)【出願番号】P 2021190061
(22)【出願日】2021-11-24
(31)【優先権主張番号】202011536978.1
(32)【優先日】2020-12-23
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】516262169
【氏名又は名称】北京百度網訊科技有限公司
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus,No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110002468
【氏名又は名称】特許業務法人後藤特許事務所
(72)【発明者】
【氏名】陳 思利
(72)【発明者】
【氏名】劉 趙梁
(72)【発明者】
【氏名】趙 洋
(57)【要約】 (修正有)
【課題】既存の第一画像に基づいたサンプル画像の生成を実現可能で、サンプル画像取得の効率を向上するサンプル画像生成方法、装置及び電子機器を提供する。
【解決手段】方法は、ターゲット平面物体の第一表示平面が含まれる第一画像を取得し、第一画像をマッピングして、第二表示平面が含まれる第二画像を得る。第二画像は、ターゲット平面物体の正面図であり、第二表示平面は、第一表示平面が第二画像にマッピングされることで得られるものである。方法はさらに、第二画像の第一領域を取得する。第一領域には、第二表示平面の位置する領域が含まれ、且つ、第一領域が、第二表示平面の位置する領域よりも大きい。方法はまた、第一領域の画像に従って、サンプル画像を生成する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ターゲット平面物体の第一表示平面が含まれる第一画像を取得することと、
前記第一画像をマッピングして、第二表示平面が含まれる第二画像を得ることと、
前記第二画像の第一領域を取得することと、
前記第一領域の画像に従って、サンプル画像を生成することとを含み、
前記第二画像は、前記ターゲット平面物体の正面図であり、前記第二表示平面は、前記第一表示平面が前記第二画像にマッピングされることで得られるものであり、
前記第一領域には、前記第二表示平面の位置する領域が含まれ、且つ前記第一領域が、前記第二表示平面の位置する領域よりも大きい、サンプル画像生成方法。
【請求項2】
前記の前記第二画像の第一領域を取得することは、
前記第二表示平面の位置する領域の境界を開始位置として、前記第二表示平面の位置する領域から離れる方向に向かって、前記第二画像の境界まで延在するか、或いは、前記第二画像における他の表示平面の位置する領域の境界まで延在して、境界領域であって、その中間位置に前記第二表示平面が位置される境界領域を得ることと、
前記第二表示平面の位置する領域が含まれ、且つ前記第二表示平面の位置する領域よりも大きい前記第一領域を、前記境界領域内で確定することとを含む、請求項1に記載の方法。
【請求項3】
前記第一画像には、前記第一表示平面の第一頂点位置が更に含まれ、
前記の前記第一画像をマッピングして、第二表示平面が含まれる第二画像を得ることは、
前記第一頂点位置が前記第二画像にマッピングされた第二頂点位置を確定することと、
前記第一頂点位置及び前記第二頂点位置に従って、前記第一画像から前記第二画像への前記第一表示平面のマッピングの射影変換を確定することと、
前記射影変換に従って、前記第一画像をマッピングして、前記第二表示平面が含まれる前記第二画像を得ることとを含む、請求項1に記載の方法。
【請求項4】
前記の前記第一頂点位置が前記第二画像にマッピングされた第二頂点位置を確定することは、
前記第一頂点位置に従って、前記第一頂点位置に対応する三次元空間位置を得ることと、
前記三次元空間位置に従って、前記第一表示平面のアスペクト比を得ることと、
前記アスペクト比及び前記第一画像の寸法サイズに従って、前記第一表示平面が前記第二画像にマッピングされた寸法サイズを確定することと、
前記第一表示平面が前記第二画像にマッピングされた寸法サイズに従って、前記第一表示平面が前記第二画像にマッピングされた第二頂点位置を確定することとを含む、請求項3に記載の方法。
【請求項5】
前記第一画像を取得することは、
画像データセットであって、前記第一画像及び第三画像を含み、前記第一画像及び前記第三画像の両方に前記ターゲット平面物体の表示平面が含まれ、前記第一画像における表示平面と前記第三画像における表示平面とが、異なる姿勢を有する画像データセットから、前記第一画像を取得することを含む、請求項1に記載の方法。
【請求項6】
前記の前記第一領域の画像に従って、サンプル画像を生成することは、
前記第二画像における第一領域の画像を取得することと、
前記第一領域の画像に対してランダム射影変換を行って、第一中間画像を得ることと、
事前取得された背景画像を前記第一中間画像に付加して、第二中間画像を得ることと、
前記第二中間画像に対してランダム照明変換を行って、サンプル画像を得ることとを含む、請求項1に記載の方法。
【請求項7】
ターゲット平面物体の第一表示平面が含まれる第一画像を取得するための第一取得モジュールと、
前記第一画像をマッピングして、第二表示平面が含まれる第二画像を得るためのマッピングモジュールであって、前記第二画像は、前記ターゲット平面物体の正面図であり、前記第二表示平面は、前記第一表示平面が前記第二画像にマッピングされることで得られるものであるマッピングモジュールと、
前記第二画像の第一領域を取得するための第二取得モジュールであって、前記第一領域には、前記第二表示平面の位置する領域が含まれ、且つ前記第一領域が、前記第二表示平面の位置する領域よりも大きい第二取得モジュールと、
前記第一領域の画像に従って、サンプル画像を生成するための生成モジュールとを含む、サンプル画像生成装置。
【請求項8】
前記第一取得モジュールは、
前記第二表示平面の位置する領域の境界を開始位置として、前記第二表示平面の位置する領域から離れる方向に向かって、前記第二画像の境界まで延在するか、或いは、前記第二画像における他の表示平面の位置する領域の境界まで延在して、境界領域であって、その中間位置に前記第二表示平面が位置される境界領域を得るための第一取得サブモジュールと、
前記第二表示平面の位置する領域が含まれ、且つ前記第二表示平面の位置する領域よりも大きい前記第一領域を、前記境界領域内で確定するための第一確定サブモジュールとを含む、請求項7に記載の装置。
【請求項9】
前記第一画像には、前記第一表示平面の第一頂点位置が更に含まれ、
前記マッピングモジュールは、
前記第一頂点位置が前記第二画像にマッピングされた第二頂点位置を確定するための第二確定サブモジュールと、
前記第一頂点位置及び前記第二頂点位置に従って、前記第一画像から前記第二画像への前記第一表示平面のマッピングの射影変換を確定するための第三確定サブモジュールと、
前記射影変換に従って、前記第一画像をマッピングして、前記第二表示平面が含まれる前記第二画像を得るためのマッピングサブモジュールとを含む、請求項7に記載の装置。
【請求項10】
前記第二確定サブモジュールは、
前記第一頂点位置に従って、前記第一頂点位置に対応する三次元空間位置を得るための第一取得ユニットと、
前記三次元空間位置に従って、前記第一表示平面のアスペクト比を得るための第二取得ユニットと、
前記アスペクト比及び前記第一画像の寸法サイズに従って、前記第一表示平面が前記第二画像にマッピングされた寸法サイズを確定するための第一確定ユニットと、
前記第一表示平面が前記第二画像にマッピングされた寸法サイズに従って、前記第一表示平面が前記第二画像にマッピングされた第二頂点位置を確定するための第二確定ユニットとを含む、請求項9に記載の装置。
【請求項11】
前記第一取得モジュールは、
画像データセットであって、前記第一画像及び第三画像を含み、前記第一画像及び前記第三画像の両方に前記ターゲット平面物体の表示平面が含まれ、前記第一画像における表示平面と前記第三画像における表示平面とが、異なる姿勢を有する画像データセットから、前記第一画像を取得するために用いられる、請求項7に記載の装置。
【請求項12】
前記生成モジュールは、
前記第二画像における第一領域の画像を取得するための第二取得サブモジュールと、
前記第一領域の画像に対してランダム射影変換を行って、第一中間画像を得るための第三取得サブモジュールと、
事前取得された背景画像を前記第一中間画像に付加して、第二中間画像を得るための第四取得サブモジュールと、
前記第二中間画像に対してランダム照明変換を行って、サンプル画像を得るための第五取得サブモジュールとを含む、請求項7に記載の装置。
【請求項13】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリとを含む電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行されることが可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサが請求項1~6の何れか一項に記載の方法を実行可能となる、電子機器。
【請求項14】
コンピュータ命令を記憶した非一時的なコンピュータ読取可能な記憶媒体であって、前記コンピュータ命令は、請求項1~6の何れか一項に記載の方法をコンピュータに実行させるためのものである、コンピュータ読取可能な記憶媒体。
【請求項15】
コンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムがプロセッサによって実行されると、請求項1~6の何れか一項に記載の方法が実現される、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像処理の技術分野、具体的に拡張現実及び深層学習の技術に関し、特に、サンプル画像生成方法、装置及び電子機器に関する。
【背景技術】
【0002】
屋内平面物体とは、掛け絵、広告板、看板、ポスタ等の平面物体を指す。平面物体検出ネットワークは、画像(カメラや携帯電話等で収集されたもの)にターゲット平面物体(即ち、訓練データ内に現れた平面物体)が含まれているかどうかを検出するためのニューラルネットワークである。平面物体検出ネットワークは、様々な応用シーンに使用可能であり、一例として、拡張現実AR(Augmented Reality)効果を実現するために、検出された平面物体に仮想物体を重畳させる(例えば美術館では、名画に説明文を重畳させる等)。また、平面物体検出ネットワークは、屋内測位やナビゲーション等のシーンでも使用可能である。
【0003】
平面物体検出ネットワークを訓練するには、多数の実物画像を収集して、収集された画像内でターゲット平面物体をラベリングし、十分な訓練データセットを生成して、平面物体検出ネットワークのロバスト性を保証する必要がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示は、サンプル画像生成方法、装置及び電子機器を提供する。
【課題を解決するための手段】
【0005】
本開示の第一局面によれば、
ターゲット平面物体の第一表示平面が含まれる第一画像を取得することと、
前記第一画像をマッピングして、第二表示平面が含まれる第二画像を得ることと、
前記第二画像の第一領域を取得することと、
前記第一領域の画像に従って、サンプル画像を生成することとを含み、
前記第二画像は、前記ターゲット平面物体の正面図であり、前記第二表示平面は、前記第一表示平面が前記第二画像にマッピングされることで得られるものであり、
前記第一領域には、前記第二表示平面の位置する領域が含まれ、且つ前記第一領域が、前記第二表示平面の位置する領域よりも大きい、サンプル画像生成方法を提供している。
【0006】
本開示の第二局面によれば、
ターゲット平面物体の第一表示平面が含まれる第一画像を取得するための第一取得モジュールと、
前記第一画像をマッピングして、第二表示平面が含まれる第二画像を得るためのマッピングモジュールであって、前記第二画像は、前記ターゲット平面物体の正面図であり、前記第二表示平面は、前記第一表示平面が前記第二画像にマッピングされることで得られるものであるマッピングモジュールと、
前記第二画像の第一領域を取得するための第二取得モジュールであって、前記第一領域には、前記第二表示平面の位置する領域が含まれ、且つ前記第一領域が、前記第二表示平面の位置する領域よりも大きい第二取得モジュールと、
前記第一領域の画像に従って、サンプル画像を生成するための生成モジュールとを含む、サンプル画像生成装置を提供している。
【0007】
本開示の第三局面によれば、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリとを含む電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行されることが可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサが第一局面の何れか一項に記載の方法を実行可能となる、電子機器を提供している。
【0008】
本開示の第四局面によれば、コンピュータ命令を記憶した非一時的なコンピュータ読取可能な記憶媒体であって、前記コンピュータ命令は、第一局面の何れか一項に記載の方法を前記コンピュータに実行させるためのものである、コンピュータ読取可能な記憶媒体を提供している。
【0009】
本開示の第五局面によれば、コンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムがプロセッサによって実行されると、第一局面に記載の方法が実現される、コンピュータプログラム製品を提供している。
【発明の効果】
【0010】
本開示に係る方法によれば、既存の第一画像に基づいたサンプル画像の生成、サンプル画像取得のコストの削減、サンプル画像取得の効率の向上を実現可能である。
【0011】
理解されないのは、この部分で説明された内容は、本開示の実施例における肝心又は重要な特徴を特定することを意図せず、本開示の範囲を制限するためのものでもない。本開示の他の特徴は、以下の説明により、理解され易くなるであろう。
【0012】
図面は、本技術案をより好く理解するためのものであり、本開示に対する制限を構成するものではない。
【図面の簡単な説明】
【0013】
【
図1】本開示の実施例によるサンプル画像生成方法のフローチャートである。
【
図2a】本開示の実施例による第一画像の模式図である。
【
図2b】本開示の実施例による第二画像の模式図である。
【
図3】本開示の実施例によるサンプル画像生成装置の構造図である。
【
図4】本開示の実施例に係るサンプル画像生成方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0014】
以下、図面を参照して本開示の例示的な実施例を説明する。理解を助けるために、その中には、本開示の実施例の様々な詳細を含むが、これらの詳細は、単に例示的なものであると理解されたい。したがって、当業者であれば、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更及び修正を加えることができると認識すべきである。同様に、説明の明確化及び簡素化のために、以下の説明では、周知の機能及び構造についての記載が省略される。
【0015】
図1を参照して、
図1は、本開示の実施例によるサンプル画像生成方法のフローチャートである。本実施例は、
図1示すように、電子機器によって実行されるサンプル画像生成方法を提供しており、この方法は、以下のステップ101~104を含む。
【0016】
ステップ101、第一表示平面が含まれる第一画像を取得する。
【0017】
本開示による方法は、少量のサンプル画像に基づいて、より多くのサンプル画像を生成するという目的を実現するものであり、第一画像は、既存の少量のサンプル画像の中の画像とされてもよい。第一画像には、少なくとも1つの第一表示平面が含まれ、これらの第一表示平面は、異なるターゲット平面物体の表示平面であってもよいし、同じターゲット平面物体の異なる角度での表示平面であってもよく、第一画像における第一表示平面のいずれについても、本開示によるサンプル画像生成方法を用いて新しいサンプル画像を生成することが可能である。第一表示平面は、ターゲット平面物体を撮影することで得られるものであり、ターゲット平面物体は、掛け絵、広告板、看板、ポスタ等の平面物体を含む。
【0018】
ステップ102、前記第一画像をマッピングして、第二表示平面が含まれる第二画像を得、前記第二画像は、前記ターゲット平面物体の正面図であり、前記第二表示平面は、前記第一表示平面が前記第二画像にマッピングされることで得られるものである。
【0019】
第一画像をマッピングして、ターゲット平面物体が正面図の視方向で第二画像に表示されるようにし、即ち、第二表示平面は、ターゲット平面物体の正面図であり、第二表示平面は、第一表示平面が第二画像にマッピングされることで得られるものである。
図2aは第一画像を示し、
図2bは第二画像を示し、符号11は床領域を示し、符号12は天井領域を示し、符号13は壁領域を示している。
図2aには、それぞれA及びBと記す2枚のポスタの第一表示平面が含まれ、
図2bには、それぞれC及びDと記す2枚のポスタの第二表示平面が含まれており、Aと記す第一表示平面は、Cと記す第二表示平面にマッピングされ、Bと記す第一表示平面は、Dと記す第二表示平面にマッピングされ、C及びDと記す第二表示平面は、それぞれ2枚のポスタの正面図になっている。
【0020】
区別を容易にするために、第一画像におけるターゲット平面物体の表示平面を第一表示平面と称し、第二画像におけるターゲット平面物体の表示平面を第二表示平面と称する。
【0021】
ステップ103、前記第二画像の第一領域を取得し、前記第一領域には、前記第二表示平面の位置する領域が含まれ、且つ前記第一領域が、前記第二表示平面の位置する領域よりも大きい。
【0022】
第二表示平面の位置する領域は、第一領域の中心位置にあってもよく、例えば、第二表示平面の中心位置と第一領域の中心位置とが重なり合ってもよい。さらに、第一領域には、第二画像における他の表示平面の位置する領域が含まれず、例えば、第一画像に複数の第一表示平面がある場合、各第一表示平面が何れも第二画像にマッピングされることで、第二画像に複数の第二表示平面が含まれるようになり、第二画像における他の表示平面の位置する領域とは、現在注目している第二表示平面以外の他の第二表示平面の位置する領域となる。現在注目している第二表示平面とは、第一領域に含まれる第二表示平面となる。
図2b示すように、Cと記す第二表示平面を現在注目していれば、Dと記す第二表示平面は、他の表示平面に属する。
【0023】
ステップ104、前記第一領域の画像に従って、サンプル画像を生成する。
【0024】
第一領域を第二画像から切り出して、第一領域の画像を得て、当該第一領域の画像に基づいてサンプル画像を生成してもよく、例えば、第一領域の画像に対してランダム射影変換やランダム照明変換等を行って、サンプル画像を得てもよい。
【0025】
さらに、得られたサンプル画像と、既存の少量のサンプル画像とを訓練セットとして、平面物体検出ネットワークモデルを訓練して、平面物体検出ネットワークモデルのロバスト性を向上させることが可能である。
【0026】
本実施例において、ターゲット平面物体の第一表示平面が含まれる第一画像を取得し、前記第一画像をマッピングして、第二表示平面が含まれる第二画像を得、前記第二画像は、前記ターゲット平面物体の正面図であり、前記第二表示平面は、前記第一表示平面が前記第二画像にマッピングされることで得られるものであり、前記第二画像の第一領域を取得し、前記第一領域には、前記第二表示平面の位置する領域が含まれ、且つ前記第一領域が、前記第二表示平面の位置する領域よりも大きく、前記第一領域の画像に従って、サンプル画像を生成するようにしている。既存の第一画像に基づいたサンプル画像の生成を実現可能であり、サンプル画像取得のコスト、例えば時間コスト及び人件費を削減し、サンプル画像取得の効率を向上させている。
【0027】
本開示による一実施例において、第一画像を取得するステップ101は、
画像データセットであって、前記第一画像及び第三画像を含み、前記第一画像及び前記第三画像の両方に前記ターゲット平面物体の表示平面が含まれ、前記第一画像における表示平面と前記第三画像における表示平面とが、異なる姿勢を有する画像データセットから、前記第一画像を取得することを含む。
【0028】
本開示による方法は、少量のサンプル画像に基づいて、より多くのサンプル画像を生成するという目的を実現するものであり、第一画像は、既存の少量のサンプル画像の中の画像とされてもよい。画像データセットは、少量のサンプル画像を含み、画像データセットにおける画像は、ラベリング済みの画像であってもよく、例えば、画像における第一表示平面の頂点位置がラベリングされていてもよい。
【0029】
同じターゲット平面物体について、画像データセットにおける少なくとも2枚の画像には、当該ターゲット平面物体の表示平面が含まれ、且つこれらの少なくとも2枚の画像に含まれるターゲット平面物体の表示平面は、異なる姿勢を有する。つまり、画像データセットは、第一画像及び第三画像を含み、第一画像及び第三画像の両方にターゲット平面物体の表示平面が含まれ、第一画像における表示平面と、第三画像における表示平面とは、異なる姿勢、例えば異なる回転角度及び並進量を有する。
【0030】
第一画像におけるターゲット平面物体の表示平面を第一表示平面と称し、第一表示平面は、ターゲット平面物体を撮影することで得られるものであり、ターゲット平面物体は、掛け絵、広告板、看板、ポスタ等の平面物体を含む。さらに、第三画像における表示平面も、ターゲット平面物体を撮影することで得られてもよい。画像データセットにおける画像は、何れも第一画像と見なすことが可能であり、即ち、画像データセットにおける第三画像を処理する際、第一画像を処理する形で新しいサンプル画像を生成して、画像データセットに基づいて生成されるサンプル画像に多様性を持たせるようにしてもよい。
【0031】
本実施例において、画像データセットであって、前記第一画像及び第三画像を含み、前記第一画像及び前記第三画像の両方に前記ターゲット平面物体の表示平面が含まれ、前記第一画像における表示平面と前記第三画像における表示平面とが、異なる姿勢を有する画像データセットから、前記第一画像を取得することで、その後で得られるサンプル画像に多様性を持たせることができるため、サンプル画像を用いて平面物体検出ネットワークモデルを訓練する際、平面物体検出ネットワークモデルのロバスト性を向上させることができる。
【0032】
本開示による一実施例において、前記第一画像には、前記第一表示平面の第一頂点位置が更に含まれ、
前記第一画像をマッピングして、第二表示平面が含まれる第二画像を得るステップ102は、
前記第一頂点位置が前記第二画像にマッピングされた第二頂点位置を確定するステップと、
前記第一頂点位置及び前記第二頂点位置に従って、前記第一画像から前記第二画像への前記第一表示平面のマッピングの射影変換を確定するステップと、
前記射影変換に従って、前記第一画像をマッピングして、前記第二表示平面が含まれる前記第二画像を得るステップとを含む。
【0033】
上記において、第一表示平面の頂点位置が第一頂点位置と称され、第一表示平面は、複数の第一頂点位置を有してもよく、例えば、
図2aにおいて、Aと記す第一表示平面は、4つの第一頂点位置を有している。さらに、第一表示平面は、少なくとも4つの第一頂点位置を含む。第一頂点位置は、事前に手動ラベリングの方式でラベリングされておいてもよい。
【0034】
本実施例において、第一頂点位置を第二画像における第二頂点位置にマッピングして、第一画像における第一頂点位置及び第二画像における第二頂点位置に従って、第一画像と第二画像との間の射影変換を求めて得ることができる。射影変換に基づいて第一画像をマッピングして、第二画像が得られ、第二画像における第二表示平面は、第一画像における第一表示平面から射影変換によって得られるものとなる。
【0035】
上記において、第一表示平面の第一頂点位置をマッピングして、第二頂点位置を得てから、第一頂点位置及び第二頂点位置に基づいて射影変換を取得し、射影変換に従って第一画像をマッピングして、第二画像を得るようにしている。第二画像を得る過程は、計算が簡単で、処理効率が高いため、その後のサンプル画像取得の効率を向上させることができる。
【0036】
本開示による一実施例において、前記第一頂点位置が前記第二画像にマッピングされた第二頂点位置を確定するステップは、
前記第一頂点位置に従って、前記第一頂点位置に対応する三次元空間位置を得るステップと、
前記三次元空間位置に従って、前記第一表示平面のアスペクト比を得るステップと、
前記アスペクト比及び前記第一画像の寸法サイズに従って、前記第一表示平面が前記第二画像にマッピングされた寸法サイズを確定するステップと、
前記第一表示平面が前記第二画像にマッピングされた寸法サイズに従って、前記第一表示平面が前記第二画像にマッピングされた第二頂点位置を確定するステップとを含む。
【0037】
図2aに示すものを例にすると、第一表示平面は、4つの第一頂点位置を含み、当該4つの第一頂点の三次元空間内での位置がそれぞれ計算される。本開示では、その計算方式が限定されず、例えば、運動からの構造復元SFM(Structure From Motion)アルゴリズムを用いて計算されてもよい。第一頂点位置の各々は、1つの三次元空間位置に対応し、4つの第一頂点位置は、4つの三次元空間位置に対応している。4つの三次元空間位置に従って、第一表示平面のアスペクト比を計算して得ることができる。アスペクト比及び第一画像の寸法サイズに従って、第一表示平面が前記第二画像にマッピングされた寸法サイズ、即ち第二表示平面のサイズを確定できる。
【0038】
例えば、アスペクト比が1:2であり、第一画像のサイズが640×480である場合、ターゲット平面物体の正面図(即ち第二画像)内での寸法を長さ150、幅300になるように設定可能であり、当該寸法は、第二表示平面の寸法となり、もし第二表示平面の中心位置と第二画像の中心位置とを重ね合わせれば、中心点の座標は(x,y)=(320,240)となり、第二表示平面の左上隅の頂点の座標(即ち第二頂点位置)は(320-(150/2)),240-(300/2))=(245,90)となり、第二表示平面の他の3つの頂点の座標については、同様な方式で得ることが可能である。
【0039】
本実施例における第一頂点位置が第二画像にマッピングされた第二頂点位置を確定する過程は、計算方式が簡単で効率的であり、その後のサンプル画像取得の効率を向上させることができる。
【0040】
本開示による一実施例において、前記第二画像の第一領域を取得するステップ103は、
前記第二表示平面の位置する領域の境界を開始位置として、前記第二表示平面の位置する領域から離れる方向に向かって、前記第二画像の境界まで延在するか、或いは、前記第二画像における他の表示平面の位置する領域の境界まで延在して、境界領域であって、その中間位置に前記第二表示平面が位置される境界領域を得るステップと、
前記第二表示平面の位置する領域が含まれ、且つ前記第二表示平面の位置する領域よりも大きい前記第一領域を、前記境界領域内で確定するステップとを含む。
【0041】
上記において、第一領域は、境界領域内で選択され、境界領域を越えてはいけない。第一領域には、第二表示平面の位置する領域が含まれ、且つ第一領域は、前記第二表示平面の位置する領域よりも大きく、境界領域以下である。第二表示平面は、第一領域の中心位置にあることが好ましい。例えば、第二表示平面の中心位置と第一領域の中心位置とは重ね合わせられ、且つ第二表示平面の各辺は、それぞれ第一領域の辺に平行である。
【0042】
第二表示平面は、境界領域の中間位置にあり、中間位置については、第二表示平面の位置する領域が境界領域の中心位置にあると理解することができ、例えば、第二表示平面の中心位置と境界領域の中心位置とは重ね合わせられ、且つ第二表示平面の各辺は、それぞれ境界領域の辺に平行である。中間位置については、第二表示平面の位置する領域が境界領域の中心位置付近にあると理解することもでき、例えば、第二表示平面の中心位置と境界領域の中心位置との間の距離差は、事前設定された閾値未満であり、且つ第二表示平面の各辺は、それぞれ境界領域の辺に平行である。
【0043】
図2b示すように、符号14に示す破線枠で囲まれた領域は、上記方式で取得された境界領域になっており、第一領域は、境界領域内でランダムに選択可能でありながら、次の要件を満たす必要がある。即ち、第一領域に第二表示平面の位置する領域が含まれ、且つ第一領域が、第二表示平面の位置する領域よりも大きい一方で、第一領域が境界領域を超えないという要件である。
【0044】
本実施例において、設定された境界領域に他の表示平面を含ませないことで、得られた第一領域に他の表示平面が存在することを回避できるため、生成されたサンプル画像における他の表示平面による干渉が低減され、サンプル画像の可用性が向上される。
【0045】
本開示による一実施例において、前記第一領域の画像に従って、サンプル画像を生成するステップ104は、
前記第二画像における第一領域の画像を取得するステップと、
前記第一領域の画像に対してランダム射影変換を行って、第一中間画像を得るステップと、
事前取得された背景画像を前記第一中間画像に付加して、第二中間画像を得るステップと、
前記第二中間画像に対してランダム照明変換を行って、サンプル画像を得るステップとを含む。
【0046】
具体的に、第一領域が確定された後、第二画像から第一領域を切り出して、第一領域の画像(以下、領域画像と略す)を得て、次に、ランダム射影変換によって領域画像を処理して、第一中間画像を得て、第一中間画像を事前取得されたランダム背景画像に貼り付けて、第二中間画像を得て、更に、第二中間画像に対してランダム照明変換を行ってもよい。ランダム照明変換については、ニューラルネットワークフレームワークの下の変換関数を使用可能であるが、ここで限定しない。最終的には、サンプル画像が得られる。
【0047】
上記において、第一領域が確定された後、第一領域の画像に対してランダム射影変換を行い、背景画像を付加し、ランダム照明変換等の処理を行うことで、現実のシーンをシミュレートし、多様性のあるサンプル画像を得るようにしているため、平面物体検出ネットワークモデルの訓練セットにおけるサンプル画像のシーンカバレッジを向上させ、最終的に平面物体検出ネットワークモデルのロバスト性を向上させることができる。
【0048】
以下、本開示によるサンプル画像生成方法について例を挙げて説明する。
【0049】
本開示に係るサンプル画像生成方法によれば、少量のラベリング済みのデータ(即ち第一画像)に基づいて、より多くの訓練データ(即ちサンプル画像)を生成可能で、訓練データセット生成のコストを削減可能である。
【0050】
以下、手動で収集され且つラベリング済みの小さなデータセットをデータセットSと称す。生成されるデータセットであって、より多くの数及びより多くの変換となる大きなデータセットをデータセットLと称す。
【0051】
データセットSにおける画像は、次の要件を満たす必要がある。即ち、同じターゲット平面物体が、異なる姿勢、例えば異なる回転角度及び/又は異なる並進量で、データセットの少なくとも2枚の画像に現れなければならないという要件である。
【0052】
データセットSからデータセットLを生成する過程は、次の通りである。
【0053】
データセットSにおける各々の画像(即ち第一画像)について、ターゲット平面物体の第一画像内での第一表示平面に対し、求められた射影変換を利用して、第一表示平面を、ターゲット平面物体の正面図である第二表示平面に変換する。説明に値するのは、第一表示平面の各々は、1つの射影変換に対応しており、当該射影変換によれば、第一画像を、第二画像にマッピングすることができる。第一画像における第一表示平面については、手動ラベリングの方式で、第一表示平面の頂点位置がラベリングされてもよい。
【0054】
第一画像にn個の第一表示平面がある場合、n枚の正面図(即ち第二画像)が生成され、つまり、第一表示平面の各々は、1枚の第二画像に対応し、nは正整数である。
【0055】
射影変換の計算過程は、次の通りである。
【0056】
ターゲット平面物体について、第一画像にてラベリングされた4つの角点(即ち第一表示平面の4つの頂角)の三次元(3D)空間内での位置を計算する。その計算方式が多く、本開示では限定しないが、SFMアルゴリズムを用いて相対的な位置姿勢R(回転行列を指す)及びt(並進ベクトルを指す)を計算し、更に、R、t及び第一表示平面の4つの頂角位置に従い、三角測量によって得てもよい。
【0057】
4つの点の三次元空間内での位置に従って、ターゲット平面物体のアスペクト比を計算する。
【0058】
アスペクト比及び第一画像のサイズに従って、ターゲット平面物体の正面図内でのサイズを選定することで、ターゲット平面物体の正面図内での4つの点の座標(当該座標は、2次元座標である)を計算する。
【0059】
例えば、アスペクト比が1:2であり、第一画像のサイズが640×480である場合、ターゲット平面物体の正面図(即ち第二画像)内での寸法を長さ150、幅300になるように設定可能であり、当該寸法は、第二表示平面の寸法となり、もし第二表示平面の中心位置と第二画像の中心位置とを重ね合わせれば、中心点の座標は(x,y)=(320,240)となり、第二表示平面の左上隅の頂点の座標(即ち第二頂点位置)は(320-(150/2)),240-(300/2))=(245,90)となり、第二表示平面の他の3つの頂点の座標については、同様な方式で得ることが可能である。
【0060】
正面図内での4つの角点の座標、及び、第一表示平面にてラベリング済みの対応する4つの角点の座標に従って、第一画像と第二画像との間の射影変換を求めて得ることができる。射影変換は、その自由度が8であり、4つの点であって、その中の任意の3点が同一線上にない4つの点によって求めて得ることができる。
【0061】
何れのターゲット平面物体の第一表示平面についても、上記計算方式を用いて、対応する射影変換を得ることが可能である。
【0062】
正面図における第一領域の値の範囲を確定する。第一領域は、第二表示平面の位置する領域を含み、第二表示平面の位置する領域よりも大きく且つ境界領域以下である。
【0063】
上記の例において、第二表示平面の位置する領域は、(245,90)、(245,390)、(395,390)及び(395,90)の4つの角点からなる矩形領域である。
【0064】
境界領域は、第二表示平面の位置する領域を中心として、矩形の範囲を、画像の境界に達するまで又は別の平面物体に接するまで外へ拡張した最大領域であってもよく、その詳細について、
図2bの関連記載を参照されたい。
【0065】
第一領域の値の範囲内で1つの領域をランダムに選択し、この領域をランダム射影変換によって変換してランダムな背景画像に貼り付け、ランダム照明変換(ニューラルネットワークフレームワークの下の変換関数を使用可能であり、例えばpytorchにおけるtransforms.ColorJitter)を加えて、サンプル画像を得る。上記サンプル画像をランダムに生成する過程は、オフラインで遂行されてもよいし、オンラインで遂行されてもよい。
【0066】
上記過程では、少量のラベリング済みのデータを用いて、より多くの訓練データを自動的に生成し、訓練を通じてロバストな平面物体検出ネットワークモデルを得ることができ、訓練データセット生成のコストを削減している。
【0067】
図3を参照して、
図3は、本開示の実施例によるサンプル画像生成装置の構造図である。本実施例は、
図3示すように、電子機器によって実行されるサンプル画像生成装置であって、
ターゲット平面物体の第一表示平面が含まれる第一画像を取得するための第一取得モジュール301と、
前記第一画像をマッピングして、第二表示平面が含まれる第二画像を得るためのマッピングモジュールであって、前記第二画像は、前記ターゲット平面物体の正面図であり、前記第二表示平面は、前記第一表示平面が前記第二画像にマッピングされることで得られるものであるマッピングモジュール302と、
前記第二画像の第一領域を取得するための第二取得モジュールであって、前記第一領域には、前記第二表示平面の位置する領域が含まれ、且つ前記第一領域が、前記第二表示平面の位置する領域よりも大きい第二取得モジュール303と、
前記第一領域の画像に従って、サンプル画像を生成するための生成モジュール304とを含む、サンプル画像生成装置300を提供している。
【0068】
さらに、前記第一取得モジュールは、
前記第二表示平面の位置する領域の境界を開始位置として、前記第二表示平面の位置する領域から離れる方向に向かって、前記第二画像の境界まで延在するか、或いは、前記第二画像における他の表示平面の位置する領域の境界まで延在して、境界領域であって、その中間位置に前記第二表示平面が位置される境界領域を得るための第一取得サブモジュールと、
前記第二表示平面の位置する領域が含まれ、且つ前記第二表示平面の位置する領域よりも大きい前記第一領域を、前記境界領域内で確定するための第一確定サブモジュールとを含む。
【0069】
さらに、前記第一画像には、前記第一表示平面の第一頂点位置が更に含まれ、
前記マッピングモジュール302は、
前記第一頂点位置が前記第二画像にマッピングされた第二頂点位置を確定するための第二確定サブモジュールと、
前記第一頂点位置及び前記第二頂点位置に従って、前記第一画像から前記第二画像への前記第一表示平面のマッピングの射影変換を確定するための第三確定サブモジュールと、
前記射影変換に従って、前記第一画像をマッピングして、前記第二表示平面が含まれる前記第二画像を得るためのマッピングサブモジュールとを含む。
【0070】
さらに、前記第二確定サブモジュールは、
前記第一頂点位置に従って、前記第一頂点位置に対応する三次元空間位置を得るための第一取得ユニットと、
前記三次元空間位置に従って、前記第一表示平面のアスペクト比を得るための第二取得ユニットと、
前記アスペクト比及び前記第一画像の寸法サイズに従って、前記第一表示平面が前記第二画像にマッピングされた寸法サイズを確定するための第一確定ユニットと、
前記第一表示平面が前記第二画像にマッピングされた寸法サイズに従って、前記第一表示平面が前記第二画像にマッピングされた第二頂点位置を確定するための第二確定ユニットとを含む。
【0071】
さらに、前記第一取得モジュール301は、
画像データセットであって、前記第一画像及び第三画像を含み、前記第一画像及び前記第三画像の両方に前記ターゲット平面物体の表示平面が含まれ、前記第一画像における表示平面と前記第三画像における表示平面とが、異なる姿勢を有する画像データセットから、前記第一画像を取得するために用いられる。
【0072】
さらに、前記生成モジュール304は、
前記第二画像における第一領域の画像を取得するための第二取得サブモジュールと、
前記第一領域の画像に対してランダム射影変換を行って、第一中間画像を得るための第三取得サブモジュールと、
事前取得された背景画像を前記第一中間画像に付加して、第二中間画像を得るための第四取得サブモジュールと、
前記第二中間画像に対してランダム照明変換を行って、サンプル画像を得るための第五取得サブモジュールとを含む。
【0073】
本開示の実施例に係るサンプル画像生成装置300は、ターゲット平面物体の第一表示平面が含まれる第一画像を取得し、前記第一画像をマッピングして、第二表示平面が含まれる第二画像を得て、前記第二画像は、前記ターゲット平面物体の正面図であり、前記第二表示平面は、前記第一表示平面が前記第二画像にマッピングされることで得られるものであり、前記第二画像の第一領域を取得し、前記第一領域には、前記第二表示平面の位置する領域が含まれ、且つ前記第一領域が、前記第二表示平面の位置する領域よりも大きく、前記第一領域の画像に従って、サンプル画像を生成するようにしている。既存の第一画像に基づいたサンプル画像の生成を実現可能であり、サンプル画像取得の時間コスト及び人件費を削減し、サンプル画像取得の効率を向上させている。
【0074】
本開示の実施例によれば、本開示には、電子機器、コンピュータプログラム製品、及び、読取可能な記憶媒体が更に提供されている。
【0075】
図4は、本開示の実施例を実施するために使用できる例示的な電子機器400のブロック図を模式的に示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークベンチ、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを目的としている。電子機器は、パーソナルデジタル処理、セルラフォン、スマートフォン、ウェアラブルデバイス、及びその他の同様のコンピューティング装置など、様々な形態のモバイル装置を表すこともできる。本明細書で示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は単なる例であり、本明細書で説明及び/又は要求される本開示の実現を制限することを意図するものではない。
【0076】
図4示すように、機器400は、読取専用メモリ(ROM)402に記憶されたコンピュータプログラム、又は、記憶ユニット408からランダムアクセスメモリ(RAM)403にロードされたコンピュータプログラムに従って、各種の適切な動作及び処理を実行可能なコンピューティングユニット401を含む。RAM403には、機器400の操作に必要な各種のプログラム及びデータが記憶されてもよい。コンピューティングユニット401と、ROM402とRAM403とは、バス404を介して互いに接続されている。入力/出力(I/O)インターフェース405も、バス404に接続されている。
【0077】
機器400における複数のコンポーネントは、I/Oインターフェース405に接続されており、前記複数のコンポーネントは、例えばキーボード、マウス等の入力ユニット406、例えば様々な類型のディスプレイ、スピーカ等の出力ユニット407、例えば磁気ディスク、光ディスク等の記憶ユニット408、及び、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット409を含む。通信ユニット409は、機器400がインターネット等のコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他の機器と情報/データを交換することを可能にする。
【0078】
コンピューティングユニット401は、処理及びコンピューティング能力を有する様々な汎用及び/又は専用処理構成要素とすることができる。コンピューティングユニット401のいくつかの例としては、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な専用人工知能(AI)コンピューティングチップ、機械学習モデルアルゴリズムを実行する様々なコンピューティングユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラ等を含むが、これらに限定されない。コンピューティングユニット401は、上述した各方法及び処理、例えばサンプル画像生成方法を実行する。例えば、いくつかの実施例において、サンプル画像生成方法は、記憶ユニット404等の機械読取可能な媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM402及び/又は通信ユニット409を介して機器400にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM403にロードされてコンピューティングユニット401によって実行されると、上述したサンプル画像生成方法の1つ又は複数のステップを実行可能となる。代替的に、他の実施例において、コンピューティングユニット401は、他の任意の適切な方式によって(例えば、ファームウェアを通じて)、サンプル画像生成方法を実行するように構成されてもよい。
【0079】
本明細書において上述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、複合プログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現可能である。これらの様々な実施例は、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈可能な1つ又は複数のコンピュータプログラムで実施されてもよく、当該プログラマブルプロセッサは、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に送信可能な専用又は汎用のプログラマブルプロセッサであってもよい。
【0080】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成することが可能である。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、こうした場合、プログラムコードがプロセッサ又はコントローラによって実行されると、フローチャート及び/又はブロック図に規定された機能及び/又は操作が実施される。プログラムコードは、全てマシン上で、又は、部分的にマシン上で、スタンドアロンソフトウェアパッケージの一部として、部分的にリモートマシン上で、又は全部でリモートマシン又はサーバ上で実行することが可能である。
【0081】
本開示の記載において、機械読取可能な媒体は、命令実行システム、装置やデバイスによって使用されるか、或いは命令実行システム、装置やデバイスと組み合わせて使用されるプログラムを包含又は記憶可能な有形の媒体であってもよい。機械読取可能な媒体は、機械読取可能な信号媒体又は機械読取可能な記憶媒体であってもよい。機械読取可能な媒体は、電子、磁気、光学、電磁気、赤外線、又は半導体のシステム、装置やデバイス、又はこれらの任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械読取可能な記憶媒体のより具体的な例としては、1つ又は複数の線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、消去可能なプログラマブル読取専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読取専用メモリ(CD-ROM)、光学記憶機器、磁気記憶機器、又はこれらの任意の適切な組み合わせが含まれる。
【0082】
ユーザとのインタラクションを提供するために、本明細書に記載のシステム及び技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティング装置(例えば、マウス又はトラックボール)とを有するコンピュータ上で実施されてもよく、ユーザは、当該キーボード及び当該ポインティング装置を介してコンピュータに入力を提供可能である。他の種類の装置を使用してユーザとのインタラクションを提供してもよい。例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、また、任意の形式(音響入力、音声入力、又は触覚入力を含む)を用いてユーザからの入力を受信してもよい。
【0083】
本明細書に記載のシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとして)、又はミドルコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はWebブラウザを備えたユーザコンピュータ。ユーザは、当該グラフィカルユーザインターフェース又は当該Webブラウザを介して、ここで説明されるシステム及び技術の実施形態とインタラクションできる)、又はこのようなバックエンドコンポーネント、ミドルコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステム内で実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互接続してもよい。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット及びブロックチェーンネットワークが含まれる。
【0084】
コンピュータシステムは、クライアントとサーバとを含むことが可能である。一般的に、クライアントとサーバとは互いに離れており、通常は通信ネットワークを介してインタラクションする。それぞれのコンピュータで実行され且つ互いにクライアント-サーバの関係を持つコンピュータプログラムによってクライアントとサーバとの関係を生成する。サーバとしては、従来の物理ホスト及びVPSサービス(「Virtual Private Server」、又は「VPS」と略す)に存在する管理の困難さ及びサービスのスケーラビリティの弱さの欠点を解決するために、クラウドコンピューティングサーバとも呼ばれるクラウドサーバ、又は、クラウドコンピューティングサービスシステムにおけるホスト製品の1つとなるクラウドホストであってもよい。サーバは、分散型システムのサーバ、又は、ブロックチェーンと組み合わせたサーバであってもよい。
【0085】
なお、上記の様々な形態のフローを使用して、ステップを並べ替え、追加又は削除可能であることを理解されたい。例えば、本開示で説明された各ステップは、並列、順次、又は異なる順序で実行可能である。本開示で掲載された技術案の望ましい結果を達成できればよく、本明細書は、これについて限定しない。
【0086】
上記の具体的な実施形態は、本開示の保護範囲に対する制限を構成するものではない。当業者でれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、及び置き換えを行えることを理解するべきである。本開示の精神及び原則内で行われた修正、同等の置き換え、及び改善は、何れも本開示の保護範囲に含まれるものとする。