(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-09-01
(54)【発明の名称】画像ラベリング方法、装置、電子デバイス、記憶媒体及びコンピュータプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20220825BHJP
G06V 10/82 20220101ALI20220825BHJP
【FI】
G06T7/00 660B
G06V10/82
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021547719
(86)(22)【出願日】2020-12-10
(85)【翻訳文提出日】2021-08-16
(86)【国際出願番号】 CN2020135498
(87)【国際公開番号】W WO2021238151
(87)【国際公開日】2021-12-02
(31)【優先権主張番号】202010470248.X
(32)【優先日】2020-05-28
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】520180323
【氏名又は名称】上▲海▼商▲湯▼智能科技有限公司
【氏名又は名称原語表記】SHANGHAI SENSETIME INTELLIGENT TECHNOLOGY CO., LTD.
【住所又は居所原語表記】Room 1605A, Building 3, 391 Guiping Road, Xuhui District, Shanghai 200233 China
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】▲楊▼昆霖
(72)【発明者】
【氏名】夏▲鵬▼程
(72)【発明者】
【氏名】侯▲軍▼
(72)【発明者】
【氏名】伊▲帥▼
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA02
5L096CA04
5L096DA02
5L096FA69
5L096GA34
5L096HA09
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
本開示の実施例は、画像ラベリング方法、装置、電子デバイス、記憶媒体及びコンピュータプログラムに関する。当該方法は、ラベリング対象画像と第1スケール指標を取得するステップであって、前記ラベリング対象画像に第1人物の人物点ラベルが含まれ、前記第1人物の人物点ラベルが第1人物点の第1位置を含み、前記第1スケール指標が第1サイズと第2サイズの間のマッピングを表し、前記第1サイズが前記第1位置にある第1基準物体のサイズであり、前記第2サイズが実世界での前記第1基準物体のサイズである、ステップと、前記第1スケール指標が第1閾値以上である場合、前記第1人物点に基づいて画素点隣接領域を構築するステップであって、前記画素点隣接領域に前記第1人物点とは異なる第2画素点が含まれる、ステップと、前記第2画素点の位置を前記第1人物の人物点ラベルとして使用するステップと、を含む。
【特許請求の範囲】
【請求項1】
画像ラベリング方法であって、
ラベリング対象画像と第1スケール指標を取得するステップであって、前記ラベリング対象画像に第1人物の人物点ラベルが含まれ、前記第1人物の人物点ラベルが第1人物点の第1位置を含み、前記第1スケール指標が第1サイズと第2サイズの間のマッピングを表し、前記第1サイズが前記第1位置にある第1基準物体のサイズであり、前記第2サイズが実世界での前記第1基準物体のサイズである、ステップと、
前記第1スケール指標が第1閾値以上である場合、前記第1人物点に基づいて画素点隣接領域を構築するステップであって、前記画素点隣接領域に前記第1人物点とは異なる第1画素点が含まれる、ステップと、
前記第1画素点の位置を前記第1人物の人物点ラベルとして使用するステップと、を含む、画像ラベリング方法。
【請求項2】
前記方法は、
第1長さを取得するステップであって、前記第1長さが実世界での前記第1人物の長さである、ステップと、
前記第1位置、前記第1スケール指標及び前記第1長さに基づいて、前記第1人物の少なくとも1つの人物フレームの位置を取得するステップと、
前記少なくとも1つの人物フレームの位置を前記第1人物の人物フレームラベルとして使用するステップと、をさらに含むことを特徴とする
請求項1に記載の方法。
【請求項3】
前記少なくとも1つの人物フレームの位置は、第2位置を含み、
前記第1位置、前記第1スケール指標及び前記第1長さに基づいて、前記第1人物の少なくとも1つの人物フレームの位置を取得するステップは、
前記第1スケール指標と前記第1長さとの積を決定し、ラベリング対象画像内の前記第1人物の第2長さを取得するステップと、
前記第1位置と前記第2長さに基づいて、第1人物フレームの位置を前記第2位置として決定するステップであって、前記第1人物フレームの中心が前記第1人物点であり、y軸方向の前記第1人物フレームの最大長さが前記第2長さ以上である、ステップと、を含むことを特徴とする
請求項2に記載の方法。
【請求項4】
前記第1人物フレームの形状は矩形であり、
前記第1位置と前記第2長さに基づいて、第1人物フレームの位置を決定するステップは、
前記第1位置と前記第2長さに基づいて、前記第1人物フレームの対角頂点の座標を決定するステップであって、前記対角頂点が第1頂点と第2頂点を含み、前記第1頂点と前記第2頂点の両方が第1線分上の点であり、前記第1線分が前記第1人物フレームの対角線である、ステップを含むことを特徴とする
請求項3に記載の方法。
【請求項5】
前記第1人物フレームの形状は、正方形であり、前記ラベリング対象画像の画素座標系における前記第1位置の座標は(p、q)であり、
前記第1位置と前記第2長さに基づいて、前記第1人物フレームの対角頂点の座標を決定するステップは、
前記pと第3長さの間の差を決定して第1横座標を取得し、前記qと前記第3長さの間の差を決定して第1縦座標を取得し、前記pと前記第3長さの間の和を決定して第2横座標を取得し、前記qと前記第3長さの間の和を決定して第2縦座標を取得するステップであって、前記第3長さが前記第2長さの半分である、ステップと、
前記第1横座標を前記第1頂点の横座標として使用し、前記第1縦座標を前記第1頂点の縦座標として使用し、前記第2横座標を前記第2頂点の横座標として使用し、前記第2縦座標を前記第2頂点の縦座標として使用するステップと、を含むことを特徴とする
請求項4に記載の方法。
【請求項6】
前記第1スケール指標を取得するステップは、
前記ラベリング対象画像に対して物体検出処理を行い、第1物体フレームと第2物体フレームを取得するステップと、
y軸方向の前記第1物体フレームの長さに基づいて第3長さを取得し、y軸方向の前記第2物体フレームの長さに基づいて第4長さを取得するステップであって、前記y軸が前記ラベリング対象画像の画素座標系の縦軸である、ステップと、
前記第3長さと実世界での第1物体の第5長さに基づいて第2スケール指標を取得し、前記第4長さと実世界での第2物体の第6長さに基づいて第3スケール指標を取得するステップであって、前記第1物体が前記第1物体フレームに含まれる検出オブジェクトであり、前記第2物体が前記第2物体フレームに含まれる検出オブジェクトであり、前記第2スケール指標が第3サイズと第4サイズの間のマッピングを表し、前記第3サイズが第2スケール位置にある第2基準物体のサイズであり、前記第4サイズが実世界での前記第2基準物体のサイズであり、前記第2スケール位置が前記ラベリング対象画像内の前記第1物体フレームの位置に基づいて決定された位置であり、前記第3スケール指標が第5サイズと第6サイズの間のマッピングを表し、前記第5サイズが第3スケール位置にある第3基準物体のサイズであり、前記第6サイズが実世界での前記第3基準物体のサイズであり、前記第3スケール位置が前記ラベリング対象画像内の前記第2物体フレームの位置に基づいて決定された位置である、ステップと、
前記第2スケール指標と前記第3スケール指標に対してカーブフィッティング処理を行い、前記ラベリング対象画像のスケール指標図を取得するステップであって、前記スケール指標図の第1画素値が第7サイズと第8サイズの間のマッピングを表し、前記第7サイズが第4スケール位置にある第4基準物体のサイズであり、前記第8サイズが実世界での前記第4基準物体のサイズであり、前記第1画素値が第2画素点の画素値であり、前記第4スケール位置が前記ラベリング対象画像内の第3画素点の位置であり、前記スケール指標図内の前記第2画素点の位置が前記ラベリング対象画像内の前記第3画素点の位置と同じである、ステップと、
前記スケール指標図と前記第1位置に基づいて、前記第1スケール指標を取得するステップと、を含むことを特徴とする
請求項2-5のいずれか一項に記載の方法。
【請求項7】
前記第1人物の人物点ラベルがラベリング済み人物点ラベルに属し、前記第1人物の人物フレームラベルがラベリング済み人物フレームラベルに属し、前記方法は、
トレーニングされるべきネットワークを取得するステップと、
前記トレーニングされるべきネットワークを用いて前記ラベリング対象画像を処理し、前記少なくとも1つの人物点の位置と少なくとも1つの人物フレームの位置を取得するステップと、
前記ラベリング済み人物点ラベルと前記少なくとも1つの人物点の位置の間の差に基づいて、第1差を取得するステップと、
前記ラベリング済み人物フレームラベルと前記少なくとも1つの人物フレームの位置の間の差に基づいて、第2差を取得するステップと、
前記第1差と前記第2差に基づいて、前記トレーニングされるべきネットワークの損失を取得するステップと、
前記損失に基づいて前記トレーニングされるべきネットワークのパラメータを更新し、人群測位ネットワークを取得するステップと、をさらに含むことを特徴とする
請求項6に記載の方法。
【請求項8】
前記ラベリング済み人物点ラベルは、第2人物の人物点ラベルをさらに含み、前記第2人物の人物点ラベルは、前記第2人物点の第3位置を含み、前記少なくとも1つの人物点の位置は、第4位置と第5位置を含み、前記第4位置は、前記第1人物の人物点の位置であり、前記第5位置は、前記第2人物の人物点の位置であり、
前記ラベリング済み人物点ラベルと前記少なくとも1つの人物点の位置の間の差に基づいて、第1差を取得するステップの前に、前記方法は、
第4スケール指標を取得するステップであって、前記第4スケール指標が第9サイズと第10サイズの間のマッピングを表し、前記第9サイズが前記第3位置にある第5基準物体のサイズであり、前記第10サイズが実世界での前記第5基準物体のサイズである、ステップをさらに含み、
前記ラベリング済み人物点ラベルと前記少なくとも1つの人物点の位置の間の差に基づいて、第1差を取得するステップは、
前記第1位置と前記第4位置の間の差に基づいて第3差を取得し、前記第3位置と前記第5位置の間の差に基づいて第4差を取得するステップと、
前記第1スケール指標と前記第4スケール指標に基づいて、前記第3差の第1重みと前記第4差の第2重みを取得するステップであって、前記第1スケール指標が前記第4スケール指標よりも小さい場合、前記第1重みが前記第2重みよりも大きく、前記第1スケール指標が前記第4スケール指標よりも大きい場合、前記第1重みが前記第2重みよりも小さく、前記第1スケール指標が前記第4スケール指標に等しい場合、前記第1重みが前記第2重みに等しいステップと、
前記第1重みと前記第2重みに基づいて、前記第3差と前記第4差を重み付けして合計し、前記第1差を取得するステップと、を含むことを特徴とする
請求項7に記載の方法。
【請求項9】
前記第4スケール指標を取得するステップは、
前記スケール指標図と前記第3位置に基づいて、前記第4スケール指標を取得するステップを含むことを特徴とする
請求項8に記載の方法。
【請求項10】
前記トレーニングされるべきネットワークを用いて前記ラベリング対象画像を処理し、前記少なくとも1つの人物点の位置と少なくとも1つの人物フレームの位置を取得するステップは、
前記ラベリング対象画像に対して特徴抽出処理を行い、第1特徴データを取得するステップと、
前記第1特徴データに対してダウンサンプリング処理を行い、前記少なくとも1つの人物フレームの位置を取得するステップと、
前記第1特徴データに対してアップサンプリング処理を行い、前記少なくとも1つの人物点の位置を取得するステップと、を含むことを特徴とする
請求項7-9のいずれか一項に記載の方法。
【請求項11】
前記第1特徴データに対してダウンサンプリング処理を行い、前記少なくとも1つの人物フレームの位置を取得するステップは、
前記第1特徴データに対してダウンサンプリング処理を行い、第2特徴データを取得するステップと、
前記第2特徴データに対して畳み込み処理を行い、前記少なくとも1つの人物フレームの位置を取得するステップと、を含み、
前記第1特徴データに対してアップサンプリング処理を行い、前記少なくとも1つの人物点の位置を取得するステップは、
前記第1特徴データに対してアップサンプリング処理を行い、第3特徴データを取得するステップと、
前記第2特徴データと前記第3特徴データに対して融合処理を行い、第4特徴データを取得するステップと、
前記第4特徴データに対してアップサンプリング処理を行い、前記少なくとも1つの人物点の位置を取得するステップと、を含むことを特徴とする
請求項10に記載の方法。
【請求項12】
前記方法は、
処理されるべき画像を取得するステップと、
前記人群測位ネットワークを用いて前記処理されるべき画像を処理し、第3人物の人物点の位置と前記第3人物の人物フレームの位置を取得するステップであって、前記第3人物が前記処理されるべき画像内の人物である、ステップと、をさらに含むことを特徴とする
請求項7-11のいずれか一項に記載の方法。
【請求項13】
画像ラベリング装置であって、
ラベリング対象画像と第1スケール指標を取得するように構成される取得ユニットであって、前記ラベリング対象画像に第1人物の人物点ラベルが含まれ、前記第1人物の人物点ラベルに第1人物点の第1位置が含まれ、前記第1スケール指標が第1サイズと第2サイズの間のマッピングを表し、前記第1サイズが前記第1位置にある第1基準物体のサイズであり、前記第2サイズが実世界での前記第1基準物体のサイズである、取得ユニットと、
前記第1スケール指標が第1閾値以上である場合、前記第1人物点に基づいて画素点隣接領域を構築するように構成される構築ユニットであって、前記画素点隣接領域に前記第1人物点とは異なる第1画素点が含まれる、構築ユニットと、
前記第1画素点の位置を前記第1人物の人物点ラベルとして使用するように構成される第1処理ユニットと、を備える、画像ラベリング装置。
【請求項14】
電子デバイスであって、
コンピュータ命令を含んでいるコンピュータプログラムコードを記憶するように構成されるメモリと、
前記コンピュータ命令を呼び出して、請求項1-12のいずれか一項に記載の方法を実行するように構成されるプロセッサと、を備える、電子デバイス。
【請求項15】
コンピュータに、請求項1-12のいずれか一項に記載の方法を実行させるためのコンピュータプログラムを記憶した、コンピュータ可読記憶媒体。
【請求項16】
コンピュータに、請求項1-12のいずれか一項に記載の方法を実行させる、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願への相互参照)
本開示は、出願番号が202010470248.Xであり、出願日が2020年5月28日である中国特許に基づいて提案され、当該中国特許出願の優先権を主張し、当該中国特許の全ての内容がここで参照により本開示に組み込まれる。
【0002】
本開示は、コンピュータビジョン技術分野に関し、画像ラベリング方法、装置、電子デバイス、記憶媒体及びコンピュータプログラムに関する。
【背景技術】
【0003】
コンピュータビジョン技術の急速な発展に伴い、人物測位モデルを含む様々なコンピュータビジョンモデルが登場している。人物測位モデルを用いて測位する前に、人物測位モデルをトレーニングする必要がある。トレーニング画像のラベリング情報は、トレーニング画像内の人物領域内の画素点の位置である。
【0004】
現在、トレーニング画像の人物領域内の画素点の位置を手動でラベリングし、人物点ラベルを取得することができるが、人物点ラベルの精度が低い。
【発明の概要】
【課題を解決するための手段】
【0005】
本開示の実施例は、画像ラベリング方法、装置、電子デバイス、記憶媒体及びコンピュータプログラムを提供する。
【0006】
第1態様による画像ラベリング方法は、ラベリング対象画像と第1スケール指標を取得するステップであって、前記ラベリング対象画像に第1人物の人物点ラベルが含まれ、前記第1人物の人物点ラベルが第1人物点の第1位置を含み、前記第1スケール指標が第1サイズと第2サイズの間のマッピングを表し、前記第1サイズが前記第1位置にある第1基準物体のサイズであり、前記第2サイズが実世界での前記第1基準物体のサイズである、ステップと、前記第1スケール指標が第1閾値以上である場合、前記第1人物点に基づいて画素点隣接領域を構築するステップであって、前記画素点隣接領域に前記第1人物点とは異なる第1画素点が含まれる、ステップと、前記第1画素点の位置を前記第1人物の人物点ラベルとして使用するステップと、を含む。
【0007】
この態様では、ラベリング済み人物点とラベリング済み人物点のスケール指標で、人物領域にラベリングされていない画素点が存在するか否かを決定する。人物領域にラベリングされていない画素点が存在することを決定した場合、ラベリング済み人物点に基づいて画素点隣接領域を構築し、画素点隣接領域内のラベリング済み人物点以外の画素点の位置を、当該人物領域に対応する人物のラベルとして使用することにより、ラベリング精度が向上する。
【0008】
本開示の任意の実施形態と組み合わせて、前記方法は、第1長さを取得するステップであって、前記第1長さが実世界での前記第1人物の長さである、ステップと、前記第1位置、前記第1スケール指標及び前記第1長さに基づいて、前記第1人物の少なくとも1つの人物フレームの位置を取得するステップと、前記少なくとも1つの人物フレームの位置を前記第1人物の人物フレームとして使用するステップと、をさらに含む。
【0009】
本開示の任意の実施形態と組み合わせて、前記少なくとも1つの人物フレームの位置は第2位置を含み、前記第1位置、前記第1スケール指標及び前記第1長さに基づいて、前記第1人物の少なくとも1つの人物フレームの位置を取得するステップは、前記第1スケール指標と前記第1長さの積を決定し、ラベリング対象画像内の前記第1人物の第2長さを取得するステップと、前記第1位置と前記第2長さに基づいて、第1人物フレームの位置を前記第2位置として決定するステップであって、前記第1人物フレームの中心が前記第1人物点であり、y軸方向の前記第1人物フレームの最大長さが前記第2長さ以上である、ステップと、を含む。
【0010】
本開示の任意の実施形態と組み合わせて、前記第1人物フレームの形状は矩形であり、前記第1位置と前記第2長さに基づいて、第1人物フレームの位置を決定するステップは、前記第1位置と前記第2長さに基づいて、前記第1人物フレームの対角頂点の座標を決定するステップであって、前記対角頂点が第1頂点と第2頂点を含み、前記第1頂点と前記第2頂点の両方が第1線分上の点であり、前記第1線分が前記第1人物フレームの対角線である、ステップを含む。
【0011】
本開示の任意の実施形態と組み合わせて、前記第1人物フレームの形状は正方形であり、前記ラベリング対象画像の画素座標系における前記第1位置の座標は(p、q)であり、前記第1位置と前記第2長さに基づいて、前記第1人物フレームの対角頂点の座標を決定するステップは、前記pと第3長さの間の差を決定して第1横座標を取得し、前記qと前記第3長さの間の差を決定して第1縦座標を取得し、前記pと前記第3長さの間の和を決定して第2横座標を取得し、前記qと前記第3長さの間の和を決定して第2縦座標を取得するステップであって、前記第3長さが前記第2長さの半分である、ステップと、前記第1横座標を前記第1頂点の横座標として使用し、前記第1縦座標を前記第1頂点の縦座標として使用し、前記第2横座標を前記第2頂点の横座標として使用し、前記第2縦座標を前記第2頂点の縦座標として使用するステップと、を含む。
【0012】
本開示の任意の実施形態と組み合わせて、第1スケール指標を取得するステップは、前記ラベリング対象画像に対して物体検出処理を行い、第1物体フレームと第2物体フレームを取得するステップと、y軸方向の前記第1物体フレームの長さに基づいて第3長さを取得し、y軸方向の前記第2物体フレームの長さに基づいて第4長さを取得するステップであって、前記y軸が前記ラベリング対象画像の画素座標系の縦軸である、ステップと、前記第3長さと実世界での第1物体の第5長さに基づいて第2スケール指標を取得し、前記第4長さと実世界での第2物体の第6長さに基づいて第3スケール指標を取得するステップであって、前記第1物体が前記第1物体フレームに含まれる検出オブジェクトであり、前記第2物体が前記第2物体フレームに含まれる検出オブジェクトであり、前記第2スケール指標が第3サイズと第4サイズの間のマッピングを表し、前記第3サイズが第2スケール位置にある第2基準物体のサイズであり、前記第4サイズが実世界での前記第2基準物体のサイズであり、前記第2スケール位置が前記ラベリング対象画像内の前記第1物体フレームの位置に基づいて決定された位置であり、前記第3スケール指標が第5サイズと第6サイズの間のマッピングを表し、前記第5サイズが第3スケール位置にある第3基準物体のサイズであり、前記第6サイズが実世界での前記第3基準物体のサイズであり、前記第3スケール位置が前記ラベリング対象画像内の前記第2物体フレームの位置に基づいて決定された位置である、ステップと、前記第2スケール指標と前記第3スケール指標に対してカーブフィッティング処理を行い、前記ラベリング対象画像のスケール指標図を取得するステップであって、前記スケール指標図の第1画素値が第7サイズと第8サイズの間のマッピングを表し、前記第7サイズが第4スケール位置にある第4基準物体のサイズであり、前記第8サイズが実世界での前記第4基準物体のサイズであり、前記第1画素値が第2画素点の画素値であり、前記第4スケール位置が前記ラベリング対象画像内の第3画素点の位置であり、前記スケール指標図内の前記第2画素点の位置が前記ラベリング対象画像内の前記第3画素点の位置と同じである、ステップと、前記スケール指標図と前記第1位置に基づいて、前記第1スケール指標を取得するステップと、を含む。
【0013】
本開示の任意の実施形態と組み合わせて、前記第1人物の人物点ラベルがラベリング済み人物点ラベルに属し、前記第1人物の人物フレームラベルがラベリング済み人物フレームラベルに属し、前記方法は、トレーニングされるべきネットワークを取得するステップと、前記トレーニングされるべきネットワークを用いて前記ラベリング対象画像を処理し、前記少なくとも1つの人物点の位置と少なくとも1つの人物フレームの位置を取得するステップと、前記ラベリング済み人物点ラベルと前記少なくとも1つの人物点の位置の間の差に基づいて、第1差を取得するステップと、前記ラベリング済み人物フレームラベルと前記少なくとも1つの人物フレームの位置の間の差に基づいて、第2差を取得するステップと、前記第1差と前記第2差に基づいて、前記トレーニングされるべきネットワークの損失を取得するステップと、前記損失に基づいて前記トレーニングされるべきネットワークのパラメータを更新し、人群測位ネットワークを取得するステップと、をさらに含む。
【0014】
本開示の任意の実施形態と組み合わせて、前記ラベリング済み人物点ラベルは、第2人物の人物点ラベルをさらに含み、前記第2人物の人物点ラベルは、前記第2人物点の第3位置を含み、前記少なくとも1つの人物点の位置は、第4位置と第5位置を含み、前記第4位置は、前記第1人物の人物点の位置であり、前記第5位置は、前記第2人物の人物点の位置である。
【0015】
前記ラベリング済み人物点ラベルと前記少なくとも1つの人物点の位置の間の差に基づいて、第1差を取得するステップの前に、前記方法は、第4スケール指標を取得するステップであって、前記第4スケール指標が第9サイズと第10サイズの間のマッピングを表し、前記第9サイズが前記第3位置にある第5基準物体のサイズであり、前記第10サイズが実世界での前記第5基準物体のサイズである、ステップをさらに含む。
【0016】
前記ラベリング済み人物点ラベルと前記少なくとも1つの人物点の位置の間の差に基づいて、第1差を取得するステップは、前記第1位置と前記第4位置の間の差に基づいて第3差を取得し、前記第3位置と前記第5位置の間の差に基づいて、第4差を取得するステップと、前記第1スケール指標と前記第4スケール指標に基づいて、前記第3差の第1重みと前記第4差の第2重みを取得するステップであって、前記第1スケール指標が前記第4スケール指標よりも小さい場合、前記第1重みが前記第2重みよりも大きく、前記第1スケール指標が前記第4スケール指標よりも大きい場合、前記第1重みが前記第2重みよりも小さく、前記第1スケール指標が前記第4スケール指標に等しい場合、前記第1重みが前記第2重みに等しいステップと、前記第1重みと前記第2重みに基づいて、前記第3差と前記第4差を重み付けして合計し、前記第1差を取得するステップと、を含む。
【0017】
本開示の任意の実施形態と組み合わせて、第4スケール指標を取得するステップは、前記スケール指標図と前記第3位置に基づいて、前記第4スケール指標を取得するステップを含む。
【0018】
本開示の任意の実施形態と組み合わせて、前記トレーニングされるべきネットワークを用いて前記ラベリング対象画像を処理し、前記少なくとも1つの人物点の位置と少なくとも1つの人物フレームの位置を取得するステップは、前記ラベリング対象画像に対して特徴抽出処理を行い、第1特徴データを取得するステップと、前記第1特徴データに対してダウンサンプリング処理を行い、前記少なくとも1つの人物フレームの位置を取得するステップと、前記第1特徴データに対してアップサンプリング処理を行い、前記少なくとも1つの人物点の位置を取得するステップと、を含む。
【0019】
本開示の任意の実施形態と組み合わせて、前記第1特徴データに対してダウンサンプリング処理を行い、前記少なくとも1つの人物フレームの位置を取得するステップは、前記第1特徴データに対してダウンサンプリング処理を行い、第2特徴データを取得するステップと、前記第2特徴データに対して畳み込み処理を行い、前記少なくとも1つの人物フレームの位置を取得するステップと、を含み、前記第1特徴データに対してアップサンプリング処理を行い、前記少なくとも1つの人物点の位置を取得するステップは、前記第1特徴データに対してアップサンプリング処理を行い、第3特徴データを取得するステップと、前記第2特徴データと前記第3特徴データに対して融合処理を行い、第4特徴データを取得するステップと、前記第4特徴データに対してアップサンプリング処理を行い、前記少なくとも1つの人物点の位置を取得するステップと、を含む。
【0020】
本開示の任意の実施形態と組み合わせて、前記方法は、処理されるべき画像を取得するステップと、前記人群測位ネットワークを用いて前記処理されるべき画像を処理し、第3人物の人物点の位置と前記第3人物の人物フレームの位置を取得するステップであって、前記第3人物が前記処理されるべき画像内の人物である、ステップと、をさらに含む。
【0021】
第2態様による画像ラベリング装置は、
ラベリング対象画像と第1スケール指標を取得するように構成される取得ユニットであって、前記ラベリング対象画像に第1人物の人物点ラベルが含まれ、前記第1人物の人物点ラベルが第1人物点の第1位置を含み、前記第1スケール指標が第1サイズと第2サイズの間のマッピングを表し、前記第1サイズが前記第1位置にある第1基準物体のサイズであり、前記第2サイズが実世界での前記第1基準物体のサイズである、取得ユニットと、
前記第1スケール指標が第1閾値以上である場合、前記第1人物点に基づいて画素点隣接領域を構築するように構成される構築ユニットであって、前記画素点隣接領域に前記第1人物点とは異なる第1画素点が含まれる、構築ユニットと、
前記第1画素点の位置を前記第1人物の人物点ラベルとして使用するように構成される第1処理ユニットと、を備える。
【0022】
本開示の任意の実施形態と組み合わせて、前記取得ユニットは、さらに、
第1長さを取得するように構成され、前記第1長さが実世界での前記第1人物の長さであり、
前記装置は、第2処理ユニットをさらに備え、前記第2処理ユニットは、
前記第1位置、前記第1スケール指標及び前記第1長さに基づいて、前記第1人物の少なくとも1つの人物フレームの位置を取得し、前記少なくとも1つの人物フレームの位置を前記第1人物の人物フレームとして使用するように構成される。
【0023】
本開示の任意の実施形態と組み合わせて、前記少なくとも1つの人物フレームの位置は第2位置を含み、
前記第2処理ユニットは、
前記第1スケール指標と前記第1長さの積を決定し、ラベリング対象画像内の前記第1人物の第2長さを取得し、前記第1位置と前記第2長さに基づいて、第1人物フレームの位置を前記第2位置として決定するように構成され、前記第1人物フレームの中心が前記第1人物点であり、y軸方向の前記第1人物フレームの最大長さが前記第2長さ以上である。
【0024】
本開示の任意の実施形態と組み合わせて、前記第1人物フレームの形状は矩形であり、
前記第2処理ユニットは、
前記第1位置と前記第2長さに基づいて、前記第1人物フレームの対角頂点の座標を決定するように構成され、前記対角頂点が第1頂点と第2頂点を含み、前記第1頂点と前記第2頂点の両方が第1線分上の点であり、前記第1線分が前記第1人物フレームの対角線である。
【0025】
本開示の任意の実施形態組み合わせると、前記第1人物フレームの形状は、正方形であり、前記ラベリング対象画像の画素座標系における前記第1位置の座標は(p、q)であり、
前記第2処理ユニットは、
前記pと第3長さの間の差を決定して第1横座標を取得し、前記qと前記第3長さの間の差を決定して第1縦座標を取得し、前記pと前記第3長さの間の和を決定して第2横座標を取得し、前記qと前記第3長さの間の和を決定して第2縦座標を取得し、前記第3長さが前記第2長さの半分であり、
前記第1横座標を前記第1頂点の横座標として使用し、前記第1縦座標を前記第1頂点の縦座標として使用し、前記第2横座標を前記第2頂点の横座標として使用し、前記第2縦座標を前記第2頂点の縦座標として使用するように構成される。
【0026】
本開示の任意の実施形態と組み合わせて、前記取得ユニットは、
前記ラベリング対象画像に対して物体検出処理を行い、第1物体フレームと第2物体フレームを取得し、
y軸方向の前記第1物体フレームの長さに基づいて第3長さを取得し、y軸方向の前記第2物体フレームの長さに基づいて第4長さを取得し、前記y軸が前記ラベリング対象画像の画素座標系の縦軸であり、
前記第3長さと実世界での第1物体の第5長さに基づいて第2スケール指標を取得し、前記第4長さと実世界での第2物体の第6長さに基づいて第3スケール指標を取得し、前記第1物体が前記第1物体フレームに含まれる検出オブジェクトであり、前記第2物体が前記第2物体フレームに含まれる検出オブジェクトであり、前記第2スケール指標が第3サイズと第4サイズの間のマッピングを表し、前記第3サイズが第2スケール位置にある第2基準物体のサイズであり、前記第4サイズが実世界での前記第2基準物体のサイズであり、前記第2スケール位置が前記ラベリング対象画像内の前記第1物体フレームの位置に基づいて決定された位置であり、前記第3スケール指標が第5サイズと第6サイズの間のマッピングを表し、前記第5サイズが第3スケール位置にある第3基準物体のサイズであり、前記第6サイズが実世界での前記第3基準物体のサイズであり、前記第3スケール位置が前記ラベリング対象画像内の前記第2物体フレームの位置に基づいて決定された位置であり、
前記第2スケール指標と前記第3スケール指標に対してカーブフィッティング処理を行い、前記ラベリング対象画像のスケール指標図を取得し、前記スケール指標図の第1画素値が第7サイズと第8サイズの間のマッピングを表し、前記第7サイズが第4スケール位置にある第4基準物体のサイズであり、前記第8サイズが実世界での前記第4基準物体のサイズであり、前記第1画素値が第2画素点の画素値であり、前記第4スケール位置が前記ラベリング対象画像内の第3画素点の位置であり、前記スケール指標図内の前記第2画素点の位置が前記ラベリング対象画像内の前記第3画素点の位置と同じであり、
前記スケール指標図と前記第1位置に基づいて、前記第1スケール指標を取得するように構成される。
【0027】
本開示の任意の実施形態と組み合わせて、前記第1人物の人物点ラベルがラベリング済み人物点ラベルに属し、前記第1人物の人物フレームラベルがラベリング済み人物フレームラベルに属し、前記取得ユニットは、さらに、
トレーニングされるべきネットワークを取得するように構成され、
前記装置は、第3処理ユニットをさらに備え、前記第3処理ユニットは、
前記トレーニングされるべきネットワークを用いて前記ラベリング対象画像を処理し、前記少なくとも1つの人物点の位置と少なくとも1つの人物フレームの位置を取得し、
前記ラベリング済み人物点ラベルと前記少なくとも1つの人物点の位置の間の差に基づいて第1差を取得し、
前記ラベリング済み人物フレームラベルと前記少なくとも1つの人物フレームの位置の間の差に基づいて、第2差を取得し、
前記第1差と前記第2差に基づいて、前記トレーニングされるべきネットワークの損失を取得し、
前記損失に基づいて前記トレーニングされるべきネットワークのパラメータを更新し、人群測位ネットワークを取得するように構成される。
【0028】
本開示の任意の実施形態と組み合わせて、前記ラベリング済み人物点ラベルは、第2人物の人物点ラベルをさらに含み、前記第2人物の人物点ラベルは、前記第2人物点の第3位置を含み、前記少なくとも1つの人物点の位置は、第4位置と第5位置を含み、前記第4位置は、前記第1人物の人物点の位置であり、前記第5位置は、前記第2人物の人物点の位置であり、
前記取得ユニットは、さらに、前記ラベリング済み人物点ラベルと前記少なくとも1つの人物点の位置の間の差に基づいて、第1差を取得するステップの前に、第4スケール指標を取得するように構成され、前記第4スケール指標が第9サイズと第10サイズの間のマッピングを表し、前記第9サイズが前記第3位置にある第5基準物体のサイズであり、前記第10サイズが実世界での前記第5基準物体のサイズであり、
前記第3処理ユニットは、
前記第1位置と前記第4位置の間の差に基づいて第3差を取得し、前記第3位置と前記第5位置の間の差に基づいて第4差を取得し、
前記第1スケール指標と前記第4スケール指標に基づいて、前記第3差の第1重みと前記第4差の第2重みを取得し、前記第1スケール指標が前記第4スケール指標よりも小さい場合、前記第1重みが前記第2重みよりも大きく、前記第1スケール指標が前記第4スケール指標よりも大きい場合、前記第1重みが前記第2重みよりも小さく、前記第1スケール指標が前記第4スケール指標に等しい場合、前記第1重みが前記第2重みに等しく、
前記第1重みと前記第2重みに基づいて、前記第3差と前記第4差を重み付けして合計し、前記第1差を取得するように構成される。
【0029】
本開示の任意の実施形態と組み合わせて、前記取得ユニットは、
前記スケール指標図と前記第3位置に基づいて、前記第4スケール指標を取得するように構成される。
【0030】
本開示の任意の実施形態と組み合わせて、前記第3処理ユニットは、
前記ラベリング対象画像に対して特徴抽出処理を行い、第1特徴データを取得し、
前記第1特徴データに対してダウンサンプリング処理を行い、前記少なくとも1つの人物フレームの位置を取得し、
前記第1特徴データに対してアップサンプリング処理を行い、前記少なくとも1つの人物点の位置を取得するように構成される。
【0031】
本開示の任意の実施形態と組み合わせて、前記第3処理ユニットは、
前記第1特徴データに対してダウンサンプリング処理を行い、第2特徴データを取得し、
前記第2特徴データに対して畳み込み処理を行い、前記少なくとも1つの人物フレームの位置を取得するように構成され、
前記第1特徴データに対してアップサンプリング処理を行い、前記少なくとも1つの人物点の位置を取得するステップは、
前記第1特徴データに対してアップサンプリング処理を行い、第3特徴データを取得するステップと、
前記第2特徴データと前記第3特徴データに対して融合処理を行い、第4特徴データを取得するステップと、
前記第4特徴データに対してアップサンプリング処理を行い、前記少なくとも1つの人物点の位置を取得するステップと、を含む。
【0032】
本開示の任意の実施形態と組み合わせて、前記取得ユニットは、さらに、
処理されるべき画像を取得するように構成され、
前記装置は、第4処理ユニットをさらに備え、前記第4処理ユニットは、
前記人群測位ネットワークを用いて前記処理されるべき画像を処理し、第3人物の人物点の位置と前記第3人物の人物フレームの位置を取得するように構成され、前記第3人物が前記処理されるべき画像内の人物である。
【0033】
第3態様によるプロセッサは、上記の第1態様及びその任意の可能な実現方式の方法を実行するように構成される。
【0034】
第4態様による電子デバイスは、プロセッサ、送信装置、入力装置、出力装置とメモリを備え、前記メモリは、コンピュータプログラムコードを記憶するように構成され、前記コンピュータプログラムコードは、コンピュータ命令を含み、前記プロセッサは前記コンピュータ命令を実行して、上記第1態様及びその任意の可能な実現方式の方法を実行するように構成される。
【0035】
第5態様によるコンピュータ可読記憶媒体は、コンピュータプログラムを記憶しており、前記コンピュータプログラムがプログラム命令を含み、前記プログラム命令がプロセッサに実行されると、前記プロセッサに上記の第1態様及びそのいずれかの可能な実現方式における方法を実行させる。
【0036】
第6態様によるコンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子デバイスで実行されると、前記電子デバイスでのプロセッサに上記第1態様及びその任意の可能な実現方式の方法を実行させる。
【0037】
以上の一般的な説明及び以下の詳細な説明が例示的及び解釈的なものだけであり、本開示を制限するものではないことを理解すべきである。
【図面の簡単な説明】
【0038】
【
図1】本開示の実施例による人群画像の概略図である。
【
図2】本開示の実施例による画素座標系の概略図である。
【
図3】本開示の実施例による画像ラベリング方法のフローチャートである。
【
図5】本開示の実施例によるラベリング対象画像の概略図である。
【
図6】本開示の実施例による別の画像ラベリング方法のフローチャートである。
【
図7】本開示の実施例による別の画像ラベリング方法のフローチャートである。
【
図8】本開示の実施例によるインジケータプレートの概略図である。
【
図9】本開示の実施例による別の画像ラベリング方法のフローチャートである。
【
図10】本開示の実施例による同じ位置にある要素の概略図である。
【
図11】本開示の実施例による人群測位ネットワークの構造概略図である。
【
図12】本開示の実施例によるバックボーンネットワークの構造概略図である。
【
図13】本開示の実施例による人物点分岐と人物フレーム分岐の構造概略図である。
【
図14】本開示の実施例による画像ラベリング装置の構造概略図である。
【
図15】本発明の実施例による画像ラベリング装置のハードウェア構造概略図ある。
【発明を実施するための形態】
【0039】
本開示の実施例又は背景技術における技術的解決策をより明確に説明するために、以下に本開示の実施例又は背景技術で使用される必要がある図面を説明する。
【0040】
ここでの添付図面は本明細書に組み込まれて本明細書の一部を構成し、これらの図面は、本開示に一致する実施例を示し、明細書と共に本開示の技術案を解釈することに用いられる。
【0041】
当業者が本開示の実施例によって提供される技術的解決策をより良く理解するために、以下に本開示の実施例の図面と組み合わせて本開示の実施例における技術的解決策を明確且つ完全に説明し、明らかに、説明される実施例は、本開示の実施例の一部だけであり、全ての実施例ではない。本開示の実施例に基づき、当業者が創造的な労力を要せずに得る全ての他の実施例は、本開示の保護範囲に属する。
【0042】
本開示の明細書と特許請求の範囲及び上記図面における用語「第一」、「第二」」などは、異なるオブジェクトを区別するために用いられるが、特定の順序を説明するためのものではない。また、用語「包括」と「有する」及びそれらのいかなる変形は、非排他的な包含をカバーすることを意図する。例えば一連のステップ又はユニットを含むプロセス、方法、システム、製品又はデバイスは、示されたステップ又はユニットに限定されず、任意に、示されないステップ又はユニットを含み、又は、任意に、これらのプロセス、方法、製品又はデバイス固有の他のステップ又はユニットを含む。
【0043】
本明細書に言及される「実施例」は、実施例と組み合わせて説明される特定の特徴、構造又は特性が本開示の少なくとも1つの実施例に含まれてもよいことを意味する。本明細書の様々な位置に現れる当該フレーズは、必ずしも同じ実施例を指すわけではなく、他の実施例と相互に排他的に独立した実施例又は代替実施形態ではない。当業者は、本明細書で説明される実施例が他の実施例と組合わせられてもよいことを明示的及び暗黙的に理解できる。
【0044】
まず、以下に示されるいくつかの概念を定義する。いくつかの可能な実現方式では、画像内の近くの人物に対応する画像スケールは大きく、画像内の遠くの人物に対応する画像スケールは小さい。本開示の実施例における「遠い」とは、画像内の物体に対応する現実の人物と上記画像を収集するためのイメージングデバイスとの間の距離が遠いことを指し、「近い」は、画像内の人物に対応する現実の人物と上記画像を収集するためのイメージングデバイスとの間の距離が近いことを指す。
【0045】
画像では、近くの人物がカバーしている画素点領域の面積は、遠くの人物がカバーしている画素領域の面積よりも大きい。例えば、
図1では、人物Aは人物Bよりも近くの人物であり、かつ人物Aがカバーしている画素点領域の面積は、人物Bがカバーしている画素点領域の面積よりも大きい。近くの人物がカバーしている画素点領域のスケールは大きく、遠くの人物がカバーしている画素点領域のスケールは小さい。つまり、人物がカバーしている画素点領域の面積は、人物がカバーしている画素領域のスケールと正の相関関係にある。
【0046】
いくつかの可能な実現方式では、画像内の位置はすべて画像の画素座標に基づく位置を指す。本開示の実施例における画素座標系の横座標は、画素点が位置する列の数を示すために用いられ、画素座標系における縦座標は、画素点が位置する行の数を示すために用いられる。例えば、
図2に示す画像では、画像の左上隅を座標原点Oとし、画像の行に平行な方向をX軸の方向とし、画像の列に平行な方向をY軸の方向として画素座標系XOYを構築する。横座標と縦座標の単位はすべて画素点である。例えば、
図2内の画素点A
11の座標は(1、1)であり、画素点A
23の座標は(3、2)であり、画素点A
42の座標は(2、4)であり、画素点A
34の座標は(4、3)であり、このように類推する。
【0047】
いくつかの可能な実現方式では、[a、b]は、a以上かつb以下の値の範囲を表し、(c、d]は、c以上かつd以下の値の範囲を表し、[e、f)はe以上かつfの値の範囲を表す。
【0048】
本開示の実施例の実行本体は、画像ラベリング装置である。選択可能に、画像ラベリング装置は、携帯電話、コンピュータ、サーバー、タブレットコンピュータのいずれかであってもよい。以下に本開示の実施例における図面を参照して本開示の実施例を説明する。
【0049】
図3を参照すると、
図3は本開示の実施例による画像ラベリング方法のフローチャートである。
【0050】
ステップ301において、ラベリング対象画像と第1スケール指標を取得する。
【0051】
いくつかの可能な実現方式では、ラベリング対象画像は、任意の画像であってもよい。例えば、ラベリング対象画像は、人物を含む。ラベリング対象画像は、胴体、四肢(以下に胴体と四肢が人体と呼ばれる)を含めず、人頭のみを含むことができる。ラベリング対象画像は、人頭を含めず、人体のみを含むこともできる。ラベリング対象画像は、下肢又は上肢のみを含むこともできる。本開示の実施例では、ラベリング対象画像に含まれる人体領域が限定されない。また、例えば、ラベリング対象画像は、動物を含むことができる。また、例えば、ラベリング対象画像は、植物を含むことができる。本開示の実施例では、ラベリング対象画像に含まれる内容が限定されない。
【0052】
ラベリング対象画像では、人物点がカバーしている画素点領域は、人物領域と見なされても良く、人物領域は、人体がカバーしている画素点領域である。例えば、第1人物点がカバーしている領域は、人頭がカバーしている画素点領域に属する。また、例えば、第1人物点がカバーしている領域は、腕がカバーしている画素点領域に属する。また、例えば、第1人物点がカバーしている領域は、胴体がカバーしている画素点領域に属する。
【0053】
いくつかの可能な実現方式では、ラベリング対象画像には第1人物の人物点ラベルが含まれている。第1人物の人物点ラベルは第1人物点の第1位置を含む。即ち、ラベリング対象画像内の第1位置は、第1人物の人物領域である。
【0054】
いくつかの可能な実現方式では、画像では、ある位置のスケール指標(上記第1スケール指標、及び以下に示される第2スケール指標、第3スケール指標、第4スケール指標を含む)は、当該位置にある物体のサイズと実世界での当該物体のサイズの間のマッピング関係を表す。
【0055】
1つの可能な実現方式では、ある位置のスケール指標は、当該位置で実世界での1メートルを示すために必要がある画素点の数を表す。例えば、
図4に示す画像において、画素点A
31の位置のスケール指標が50であり、画素点A
13の位置のスケール指標は20であると仮定する。画素点A
31の位置は、実世界での1メートルに必要な画素点の数が50であることを示し、画素点A
13の位置は、実世界での1メートルに必要な画素点の数が20であることを示す。
【0056】
別の可能な実現方式では、ある位置のスケール指標は、当該位置にある物体のサイズと実世界での当該物体のサイズとの比を表す。例えば、
図4に示す画像において、物体1は、画素点A
13の位置にあり、物体2は、画素点A
31の位置にあると仮定する。画素点A
31の位置のスケール指標が50であり、画素点A
13の位置のスケール指標は20である。画像内の物体1のサイズと実世界での物体1のサイズとの比が20であり、画像内の物体2のサイズと実世界での物体2のサイズとの比が50である。
【0057】
別の可能な実現方式では、ある位置のスケール指標は、当該位置にある物体のサイズと実世界での当該物体のサイズとの比の逆数を表す。例えば、
図4に示す画像において、物体1は、画素点A
13の位置にあり、物体2は、画素点A
31の位置にあると仮定する。画素点A
31の位置のスケール指標が50であり、画素点A
13の位置のスケール指標は20である。実世界での物体1のサイズと画像内の物体1のサイズとの比が20であり、実世界での物体2のサイズと画像内の物体2のサイズとの比が50である。
【0058】
任意に、スケールが同じである位置のスケール指標は同じである。例えば、
図4に示す画像では、画素点A
11のスケール、画素点A
12のスケール、画素点A
13のスケールは、すべて同じであり、画素点A
21のスケール、画素点A
22のスケール、画素点A
23のスケールはすべて同じあり、画素点A
31、画素点A
32のスケール、画素点A
33のスケールはすべて同じである。それに応じて、画素点A
11のスケール指標、画素点A
12のスケール指標、画素点A
13のスケール指標は、すべて同じであり、画素点A
21のスケール指標、画素点A
22のスケール指標、画素点A
23のスケール指標はすべて同じあり、画素点A
31のスケール指標、画素点A
32のスケール指標、画素点A
33のスケール指標はすべて同じである。
【0059】
いくつかの可能な実現方式では、第1スケール指標は、第1位置のスケール指標である。第1基準物体が第1位置にあると仮定すると、第1スケール指標は、第1サイズと第2サイズの間のマッピングを表し、ここで、第1サイズは、ラベリング対象画像内の第1基準物体のサイズであり、第2サイズは、実世界での第1基準物体のサイズである。
【0060】
ラベリング対象画像を取得するための実現方式では、画像ラベリング装置は、ユーザが入力コンポーネントを介して入力したラベリング対象画像を受信する。上記入力コンポーネントは、キーボード、マウス、タッチスクリーン、タッチパッド及びオーディオ入力デバイスなどを含む。
【0061】
ラベリング対象画像を取得するための別の実現方式では、画像ラベリング装置は、第1端末か送信されたラベリング対象画像を受信する。任意に、第1端末は、携帯電話、コンピュータ、タブレットコンピュータ、サーバー、ウェアラブルデバイスのいずれか1つであってもよい。
【0062】
ラベリング対象画像を取得するための別の実現方式では、画像ラベリング装置は、イメージングコンポーネントによってラベリング対象画像を収集することができる。任意に、上記イメージングコンポーネントはカメラであってもよい。
【0063】
第1スケール指標を取得するための実現方式では、画像ラベリング装置は、ユーザが入力コンポーネントを介して入力した第1スケール指標を受信する。上記入力コンポーネントは、キーボード、マウス、タッチスクリーン、タッチパッド及びオーディオ入力デバイスなどを含む。
【0064】
第1スケール指標を取得するための別の実現方式では、画像ラベリング装置は、第2端末から送信された第1スケール指標を受信する。任意に、第2端末は、携帯電話、コンピュータ、タブレットコンピュータ、サーバー、ウェアラブルデバイスのいずれか1つであってもよい。第2端末は、第1端末と同じであってもよいし、異なっていてもよい。
【0065】
ステップ302において、上記第1スケール指標が第1閾値以上である場合、上記第1人物点に基づいて画素点隣接領域を構築する。
【0066】
従来の画像ラベリング方法では、ラベリング対象画像内の人物領域に含まれる画素点の位置を手動でラベリングして人物点ラベルを取得する。ラベリング対象画像には面積が大きい人物領域が存在する可能性があるため、従来方法により得られた人物点ラベル(例えばラベリング対象画像に含まれる人物点ラベル)は、人物領域全体を完全にカバーできない可能性がある。
【0067】
ラベリング対象画像では、画素座標系のx軸から離れるほど、人物領域の面積が大きくなり、ラベリング対象画像内のある位置のスケール指標は、当該位置とx軸の間の距離を表すために用いられてもよい。画像ラベリング装置は、スケール指標に基づいて、人物領域とx軸の間の距離を決定し、さらに当該人物領域にラベリングされていない画素点が存在するか否かを決定する。
【0068】
ラベリング対象画像内のある位置の「スケール指標」が「当該位置とx軸の間の距離」と正の相関関係にあるため、画像ラベリング装置は、スケール指標が第1閾値以上であるか否かに基づいて、当該位置の人物領域にラベリングされていない画素点が存在するか否かを決定する。
【0069】
1つの可能な実現方式では、第1スケール指標が第1閾値以上であることは、第1人物の人物領域にラベリングされていない画素点が存在することを表す。任意に、第1閾値の大きさは、実際のニーズに応じて決定されてもよい。任意に、第1閾値が16である。
【0070】
人物領域内のラベリングされていない画素点は、通常、人物領域の境界に近く、かつ人物領域にラベリング済み画素点は、通常、人物領域の中心に近い。したがって、人物領域にラベリングされていない画素点が存在することを決定した場合、画像ラベリング装置は、ラベリング済み画素点に基づいて画素点隣接領域を構築し、当該画素点隣接領域にラベリング済み画素点以外の画素点を含ませ、ラベリング済み画素点以外の当該画素点をラベリングすることができる。
【0071】
1つの可能な実現方式では、第1スケール指標が第1閾値以上である場合、画像ラベリング装置は、第1人物点に基づいて画素点隣接領域を構築し、当該画素点隣接領域に第1人物点とは異なる少なくとも1つの画素点(第1画素点など)が含まれる。
【0072】
いくつかの可能な実現方式では、画素点隣接領域を構築する方式は限定されない。例えば、
図5に示すラベリング対象画像では、第1人物点は画素点A
32であると仮定する。画像ラベリング装置は、画素点A
32との距離が1つの画素点である画素点を画素点隣接領域内の画素点として画素点隣接領域を構築することができる。画素点A
32に基づいて、当該画素点隣接領域は、画素点A
21、画素点A
22、画素点A
23、画素点A
31、画素点A
32、画素点A
33、画素点A
41、画素点A
42、画素点A
43を含む。
【0073】
画像ラベリング装置は、第1人物点に基づいて2*2のサイズの画素点隣接領域を構築することもできる。画素点A32に基づいて、当該画素点隣接領域は、画素点A21、画素点A22、画素点A31、画素点A32を含む。
【0074】
画像ラベリング装置は、画素点A32を円心とし、1.5つの画素点を半径として画素点隣接領域を構築することもできる。画素点A32に基づいて、当該画素点隣接領域は、画素点A21の領域の一部、画素点A22、画素点A23の領域の一部、画素点A31、画素点A32、画素点A33、画素点A41の領域の一部、画素点A42、画素点A43の領域の一部を含む。
【0075】
人物領域の面積が大きいほど、人物領域内のラベリングされていない画素点の数は多くなる可能性がある。1つの任意の実施形態として、第1スケール指標が[第1閾値、第2閾値)にある場合、第1人物点との距離が1つの画素である画素点を画素点隣接領域内の画素点として画素点隣接領域を構築し、第1スケール指標が第2閾値以上である場合、第1人物点との距離が2つの画素点である画素点を画素点隣接領域内の画素点として画素点隣接領域を構築する。
【0076】
ステップ303において、上記第1画素点の位置を第1人物の人物点ラベルとして使用する。
【0077】
第1人物点に基づいて画素点隣接領域を構築した後、画像ラベリング装置は、第1画素点をラベリングし、即ち第1画素点の位置を第1人物の人物点ラベルとして使用することができる。
【0078】
任意に、画像ラベリング装置は、画素点隣接領域内の第1人物点以外のすべての画素点をラベリングし、即ち画素点隣接領域内の第1人物点以外のすべての画素点の位置を第1人物の人物点ラベルとして使用することができる。
【0079】
いくつかの可能な実現方式では、ラベリング済み人物点とラベリング済み人物点のスケール指標で、人物領域にラベリングされていない画素点が存在するか否かを決定する。人物領域にラベリングされていない画素点が存在することを決定した場合、ラベリング済み人物点に基づいて画素点隣接領域を構築し、画素点隣接領域内のラベリング済み人物点以外の画素点の位置を、当該人物領域に対応する人物のラベルとして使用することにより、ラベリング精度が向上する。
【0080】
図6を参照すると、
図6は本開示の実施例による別の画像ラベリング方法のフローチャートである。
【0081】
ステップ601において、第1長さを取得する。
【0082】
いくつかの可能な実現方式では、第1長さは、実世界での第1人物の長さである。例えば、第1長さは、実世界での第1人物の身長であってもよい。また、例えば、第1長さは、実世界での第1人物の顔の長さであってもよい。また、例えば、第1長さは、実世界での第1人物の頭部の長さであってもよい。
【0083】
第1長さを取得するための実現方式では、画像ラベリング装置は、ユーザが入力コンポーネントを介して入力した第1長さを受信する。上記入力コンポーネントは、キーボード、マウス、タッチスクリーン、タッチパッド及びオーディオ入力デバイスなどを含む。
【0084】
第1長さを取得するための実現方式では、画像ラベリング装置は、第3端末から送信された第1長さを受信する。任意に、第3端末は、携帯電話、コンピュータ、タブレットコンピュータ、サーバー、ウェアラブルデバイスのいずれか1つであってもよい。第3端末は、第1端末と同じであってもよいし、異なっていてもよい。
【0085】
ステップ602において、上記第1位置、上記1スケール指標及び上記第1長さに基づいて、上記第1人物の少なくとも1つの人物フレームの位置を取得する。
【0086】
いくつかの可能な実現方式では、人物フレームに含まれる画素点領域は、人物領域と見なされてもよい。例えば、第1人物の人物フレームには、第1人物の人物領域が含まれる。
【0087】
いくつかの可能な実現方式では、人物フレームは、任意の形状であってもよく、本開示の実施例では人物フレームの形状は限定されない。任意に、人物フレームの形状は、矩形、菱形、円形、楕円形、多角形の少なくも1つを含む。
【0088】
いくつかの可能な実現方式では、ラベリング対象画像内の人物フレームの位置の表現形態は、人物フレームの形状に応じて決定されてもよい。例えば、人物フレームの形状が矩形である場合、人物フレームの位置は、人物フレーム内の任意の1ペアの対角の座標を含むことができ、ここで、1ペアの対角とは人物フレームの対角線上の2つの頂点を指す。また、例えば、人物フレームの形状が矩形である場合、人物フレームの位置は、人物フレームの幾何学的中心の位置、人物フレームの長さ及び人物フレームの幅を含むことができる。また、例えば、人物フレームの形状が円形である場合、人物フレームの位置は、人物フレームの円心、人物フレームの半径を含むことができる。
【0089】
第1位置、1スケール指標及び第1長さに基づいて、第1人物の少なくとも1つの人物フレームの位置を取得することができる。以下に第1人物フレームを取得することを例として、第1位置、第1スケール指標及び第1長さに基づいて人物フレームの位置を取得するための実現プロセスを詳細に説明する。
【0090】
1つの可能な実現方式では、第1スケール指標と第1長さとの積を計算することにより、ラベリング対象画像内の第1人物の第2長さを取得することができる。第1位置と第2長さに基づいて、第1人物フレームの位置を第2位置として決定することができ、ここで、第1人物フレームの中心は、第1人物点であり、y軸方向の第1人物フレームの最大長さは第2長さ以上である。
【0091】
いくつかの可能な実現方式では、y軸は、ラベリング対象画像内の画素座標系の縦軸である。y軸方向の最大長さの意味について次の例を参照することができる。例えば、矩形フレームabcdは人物フレーム1であり、aの座標は(4、8)、bの座標は(6、8)、cの座標は(6、12)、dの座標は(4、12)である。y軸方向の人物フレーム1の長さは12-8=4である。
【0092】
第1人物フレームの位置を決定するための実現方式では、第1位置と第2長さに基づいて、第1人物フレームの対角頂点の座標を決定する。対角頂点の座標を第1人物フレームの位置として使用する。
【0093】
いくつかの可能な実現方式では、対角頂点は、第1頂点と第2頂点を含み、第1頂点と第2頂点は、第1人物フレームの任意の対角線上の2つの頂点である。例えば、第1人物フレームの対角線は、第1線分を含み、対角頂点は、第1頂点と第2頂点を含む。第1頂点と第2頂点の両方は、第1線分上の点である。
【0094】
任意に、ラベリング対象画像内の画素座標における第1位置の座標は(p、q)であると仮定する。第2長さの半分を計算し、第3長さを取得する。pと第3長さの間の差を決定して第1横座標を取得し、qと第3長さの間の差を決定して第1縦座標を取得し、pと第3長さの間の和を決定して第2横座標を取得し、qと第3長さの間の和を決定して第2縦座標を取得する。
【0095】
第1横座標を第1頂点の横座標とし、第1縦座標を第1頂点の縦座標とし、第2横座標を第2頂点の横座標とし、第2縦座標を第2頂点の縦座標として使用する。
【0096】
例えば、p=20、q=18、即ち第1位置の座標は(20、18)である。第2長さは20であり、即ち第3長さは10であると仮定する。第1横座標は20-10=0、第1縦座標は18-10=8、第2横座標は20+10=30、第2縦座標は18+10=18である。第1頂点の座標は(10、8)であり、第2頂点の座標は(30、18)である。
【0097】
任意に、ラベリング対象画像内の画素座標における第1位置の座標は(p、q)であると仮定する。第2長さの半分を計算し、第3長さを取得する。pと第3長さの間の和を決定して第3横座標を取得し、qと第3長さの間の差を決定して第3縦座標を取得し、pと第3長さの間の差を決定して第4横座標を取得し、qと第3長さの間の和を決定して第4縦座標を取得する。
【0098】
第3横座標を第1頂点の横座標とし、第3縦座標を第1頂点の縦座標とし、第4横座標を第2頂点の横座標とし、第4縦座標を第2頂点の縦座標として使用する。
【0099】
例えば、p=20、q=18、即ち第1位置の座標は(20、18)である。第2長さは20であり、即ち第3長さは10であると仮定する。第3横座標は20+10=30、第3縦座標は18-10=8、第4横座標は20-10=10、第4縦座標は18+10=18である。第1頂点の座標は(30、8)であり、第2頂点の座標は(10、18)である。
【0100】
第1人物フレームの位置を決定するための別の実現方式では、第1位置と第2長さに基づいて、第1人物フレームの位置を第2位置として決定する。第1人物フレームの形状は円形であり、第1人物フレームの円心は第1人物点であり、第1人物フレームの直径は第2長さである。
【0101】
第1人物フレームの位置を決定するための別の実現方式では、第1位置と第2長さに基づいて、第1人物フレームの位置を第2位置として決定する。第1人物フレームの形状は矩形であり、第1人物フレームの中心は第1人物点であり、第1人物フレームの長さは第1値と第2長さとの積であり、第1人物フレームの幅は第2値と第2長さの積である。任意に、第1値が1であり、第2値が1/4である。
【0102】
ステップ603において、上記少なくとも1つの人物フレームの位置を上記第1人物の人物フレームラベルとして使用する。
【0103】
いくつかの可能な実現方式では、ラベリング済み人物点とラベリング済み人物点のスケール指標で、人物フレームの位置を取得する。人物フレームの位置を対応する人物のラベルとして使用することにより、ラベリング対象画像の人物フレームラベルをラベリングする。
【0104】
図7を参照すると、
図7は本開示の実施例によって提供される第1スケール指標を取得するための可能な実現方法のフローチャートである。
【0105】
ステップ701において、上記ラベリング対象画像に対して物体検出処理を行い、第1物体フレームと第2物体フレームを取得する。
【0106】
いくつかの可能な実現方式では、実世界での物体検出処理の検出オブジェクトの長さが決定された値に近い。例えば、顔の平均の長さは20センチであり、物体検出処理の検出オブジェクトは、顔であってもよい。また、例えば、人間の平均の身長は1.65メートルであり、物体検出処理の検出オブジェクトは、人体であってもよい。また、例えば、待合室では、
図8に示すインジケータプレートの高さがいずれも決定されたもの(例えば、2.5メートル)であり、物体検出処理の検出オブジェクトは、インジケータプレートであってもよい。任意に、物体検出処理は顔検出処理である。
【0107】
1つの可能な実現方式では、ラベリング対象画像に対する物体検出処理は、畳み込みニューラルネットワークによって実現されてもよい。ラベリング情報を含む画像をトレーニングデータとして畳み込みニューラルネットワークをトレーニングすることにより、トレーニングされた畳み込みニューラルネットワークは、画像に対する物体検出処理を完了することができる。トレーニングデータのうちの画像のラベリング情報は、物体フレームの位置情報であり、当該物体フレームは、物体検出処理の検出オブジェクトを含む。
【0108】
別の可能な実施形態では、物体検出処理は、人物検出アルゴリズムにより実現されてもよく、ここで、人物検出アルゴリズムは、1回だけ見る(YOLO:you only look once)アルゴリズム、ターゲット検出アルゴリズム(DMP:deformable part model)、単一画像マルチターゲット検出アルゴリズム(SSD:single shot multi-Box detector)、Faster-RCNN(Region Convolutional Neural Networks:エリア畳み込みニューラルネットワーク)アルゴリズムなどの1つであってもよく、本開示の実施例では、物体検出処理を実現するための人物検出アルゴリズムが限定されていない。
【0109】
いくつかの可能な実現方式では、第1物体フレームに含まれる検出オブジェクトは、第2物体フレームに含まれる検出オブジェクトと異なる。例えば、第1物体フレームに含まれる検出オブジェクトは、張三の顔であり、第2物体フレームに含まれる検出オブジェクトは、李四の顔である。また、例えば、第1物体フレームに含まれる検出オブジェクトは、張三の顔であり、第2物体フレームに含まれる検出オブジェクトは、インジケータプレートである。
【0110】
ステップ702において、y軸方向の上記第1物体フレームの長さに基づいて第3長さを取得し、y軸方向の上記第2物体フレームの長さに基づいて第4長さを取得する。
【0111】
画像ラベリング装置は、第1物体フレームの位置に基づいて、y軸方向の第1物体フレームの長さ、即ち第3長さを取得することができる。画像処理では、第2物体フレームの位置に基づいて、y軸方向の第2物体フレームの長さ、即ち第4長さを取得することができる。
【0112】
ステップ703において、上記第3長さと実世界での第1物体の第5長さに基づいて第2スケール指標を取得し、上記第4長さと実世界での第2物体の第6長さに基づいて第3スケール指標を取得する。
【0113】
いくつかの可能な実現方式では、第2スケール指標は、第2スケール位置のスケール指標であり、ここで、第2スケール位置は、第1物体フレーム位置に基づいてラベリング対象画像において決定された位置である。第2基準物体が第2スケール位置にあると仮定すると、第2スケール指標は、第3サイズと第4サイズの間のマッピングを表し、ここで、第3サイズは、ラベリング対象画像内の第2基準物体のサイズであり、第4サイズは、実世界での第2基準物体のサイズである。第3スケール指標は、第3スケール位置のスケール指標であり、第3スケール位置は、第2物体フレームの位置に基づいてラベリング対象画像において決定された位置である。第3基準物体が第3スケール位置にあると仮定すると、第3スケール指標は、第5サイズと第6サイズの間のマッピングを表し、ここで、第5サイズは、ラベリング対象画像内の第3基準物体のサイズであり、第6サイズは、実世界での第3基準物体のサイズである。
【0114】
いくつかの可能な実現方式では、1つの物体フレームの位置に基づいて1つの物体点を決定することができる。例えば、物体フレーム1の形状は矩形である。画像ラベリング装置は、物体フレーム1の位置に基づいて物体フレーム1の任意の1つの頂点の位置を決定することができ、さらに物体フレーム1の任意の頂点を物体点として使用することができる。
【0115】
また、例えば、物体フレーム1の形状は矩形abcdである。矩形abcdの中心は点eである。画像ラベリング装置は、物体フレーム1の位置に基づいて点eの座標を決定し、さらに点eを物体点として使用することができる。
【0116】
また、例えば、物体フレーム1の形状は円形である。画像ラベリング装置は、物体フレーム1の位置に基づいて円形上の任意の1つの点の位置を決定することができ、さらに円形上の任意の点を物体点として使用することができる。
【0117】
画像ラベリング装置は、第1物体フレームの位置に基づいて、第1物体点を決定する。画像ラベリング装置は、第2物体フレームの位置に基づいて、第2物体点を決定する。
【0118】
任意に、第1物体点は、第1物体フレームの幾何学的中心、第1物体フレームの頂点である。第2物体点は、第2物体フレームの幾何学的中心、第2物体フレームの頂点である。
【0119】
第1物体点の位置及び第2物体点の位置が決定された後、画像ラベリング装置は、第1物体点の位置を第2スケール位置とし、第2物体点の位置を第3スケール位置として使用することができる。
【0120】
いくつかの可能な実現方式では、第1物体と第2物体の両方は、物体検出処理の検出オブジェクトである。第1物体は、第1物体フレームに含まれる検出オブジェクトであり、第2物体は、第2物体フレームに含まれる検出オブジェクトである。実世界での第1物体の長さが第5長さであり、実世界での第2物体の長さが第6長さである。例えば、第1物体と第1物体の両方は顔であり、第5長さと第6長さの両方は20センチであってもよい。また、例えば、第1物体が顔であり、第2物体が人体であり、第5長さが20センチであってもよく、第6長さは170センチであってもよい。
【0121】
第3長さが
【0122】
【0123】
第4長さが
【0124】
【0125】
第5長さが
【0126】
【0127】
第6長さが
【0128】
【0129】
第2スケール指標が
【0130】
【0131】
第3スケール指標が
【0132】
【0133】
であると仮定する。
【0134】
1つの可能な実現方式では
【0135】
【0136】
は式(1)を満たしている:
【0137】
【0138】
ここで、
【0139】
【0140】
は正数である。任意に、
【0141】
【0142】
別の可能な実現方式では
【0143】
【0144】
は式(2)を満たしている:
【0145】
【0146】
ここで、
【0147】
【0148】
は正数であり、
【0149】
【0150】
は実数である。任意に、
【0151】
【0152】
さらなる別の可能な実現方式では
【0153】
【0154】
は式(3)を満たしている:
【0155】
【0156】
ここで、
【0157】
【0158】
は正数であり、
【0159】
【0160】
は実数である。任意に、
【0161】
【0162】
ステップ704において、上記第2スケール指標と上記第3スケール指標に対してカーブフィッティング処理を行い、上記ラベリング対象画像のスケール指標図を取得する。
【0163】
ラベリング対象画像では、スケールと縦座標との関係が線形相関と見なされてもよく、スケール指標がスケールを表すために用いられるため、画像ラベリング装置は、第2スケール指標と第3スケール指標に対してカーブフィッティング処理を行うことにより、ラベリング対象画像のスケール指標図を取得することができる。当該スケール指標図には、ラベリング対象画像内の任意の画素点の位置のスケール指標が含まれる。
【0164】
スケール指標図内の第2画素点を例とする。第2画素点の画素値(即ち第1画素値)は40であり、スケール指標図内の第2画素点の位置はラベリング対象画像内の第3画素点の位置と同じである仮定する。ラベリング対象画像内の第3画素点の位置(即ち第4スケール位置)のスケール指標は、第1画素値である。第4基準物体が第4スケール位置にあると仮定すると、第1画素値は、第7サイズと第8サイズの間のマッピングを表し、ここで、第7サイズは、第4スケール位置にある第4基準物体のサイズであり、第8サイズは、実世界での前記第4基準物体のサイズである。
【0165】
ステップ705において、上記スケール指標図と上記第1位置に基づいて、上記第1スケール指標を取得する。
【0166】
ステップ704で説明されるように、スケール指標図には、ラベリング対象画像内の任意の画素点の位置のスケール指標が含まれる。したがって、スケール指標図と第1位置に基づいて、第1人物点のスケール指標、即ち第1スケール指標を決定することができる。
【0167】
いくつかの可能な実現方式では、第3長さと第5長さに基づいて第2スケール指標を取得し、第4長さと第6長さに基づいて第3スケール指標を取得する。第2スケール指標と第3スケール指標に対してカーブフィッティング処理を行い、スケール指標図を取得し、さらにスケール指標図に基づいてラベリング対象画像内の任意の画素点の位置のスケール指標を決定することができる。
【0168】
1つの選択可能な実施形態として、本開示の実施例における人物点(第1人物点を含む)は、人頭点であってもよく、人物フレーム(第1人物フレームを含む)は、人頭フレームであってもよい。人頭点がカバーしている画素点領域と人頭フレームがカバーしている画素領域の両方は、人頭領域である。
【0169】
1つの選択可能な実施形態では、画像ラベリング装置がラベリング済み人物点ラベルに基づいて人物フレームラベルを取得した後、ラベリング対象画像をトレーニングデータとしてニューラルネットワークをトレーニングすることができる。当該トレーニング方法の実行本体は、画像ラベリング装置であってもよく、ラベリング装置ではなくてもよく、本開示の実施例では、トレーニング方法の実行本体は限定されない。説明を容易にするために、以下にトレーニングプロセスの実行本体は、トレーニング装置と呼ばれ、任意に、トレーニング装置は、携帯電話、コンピュータ、タブレットコンピュータ、サーバー、プロセッサのいずれか1つであってもよい。
【0170】
図9を参照すると、
図9は本開示の実施例によるニューラルネットワークトレーニング法のフローチャートである。
【0171】
ステップ901において、トレーニングされるべきネットワークを取得する。
【0172】
いくつかの可能な実現方式では、トレーニングされるべきネットワークは、任意のニューラルネットワークである。例えば、トレーニングされるべきネットワークは、畳み込み層、プーリング層、正規化層、完全接続層、ダウンサンプリング層、アップサンプリング層のうちの少なくとも1つのネットワーク層で積み重ねられて構成されてもよい。本開示の実施例では、トレーニングされるべきネットワークの構造は限定されない。
【0173】
トレーニングされるべきネットワークを取得するための実現方式では、トレーニング装置は、ユーザが入力コンポーネントを介して入力したトレーニングされるべきネットワークを受信する。上記入力コンポーネントは、キーボード、マウス、タッチスクリーン、タッチパッド及びオーディオ入力デバイスなどを含む。
【0174】
トレーニングされるべきネットワークを取得するための別の実現方式では、トレーニング装置は、第4端末から送信されたトレーニングされるべきネットワークを受信する。任意に、上記第4端末は、携帯電話、コンピュータ、タブレットコンピュータ、サーバー、ウェアラブルデバイスのいずれか1つであってもよい。第4端末は、第1端末と同じであってもよいし、異なっていてもよく、本開示の実施例で限定されない。
【0175】
トレーニングされるべきネットワークを取得するための別の実現方式では、レーニング装置は、それ自体の記憶部材から、予め記憶されたトレーニングされるべきネットワークを取得することができる。
【0176】
ステップ902において、上記トレーニングされるべきネットワークを用いて上記ラベリング対象画像を処理し、上記少なくとも1つの人物点の位置と少なくとも1つの人物フレームの位置を取得する。
【0177】
トレーニング装置は、トレーニングされるべきネットワークを用い、少なくとも1つの人物を含むラベリング対象画像を処理することにより、各人物の少なくとも1つの人物点の位置と各人物の少なくとも1つの人物フレームの位置を取得することができる。
【0178】
1つの可能な実現方式では、トレーニングされるべきネットワークは、ラベリング対象画像に対して特徴抽出処理を行い、第1特徴データを取得する。第1特徴データに対してダウンサンプリング処理を行い、少なくとも1つの人物フレームの位置を取得しする。第1特徴データに対してアップサンプリング処理を行い、少なくとも1つの人物点の位置を取得する。
【0179】
いくつかの可能な実現方式では、特徴抽出処理は、畳み込み処理であってもよいし、プーリング処理であってもよいし、畳み込み処理とプーリング処理の組み合わせであってもよく、本開示の実施例では特徴抽出処理の実現方式が限定されない。
【0180】
任意に、多層の畳み込み層によってラベリング対象画像に対して段階的に畳み込み処理を行い、ラベリング対象画像に対する特徴抽出処理を実現し、ラベリング対象画像の語義情報が含まれる第1特徴データを取得する。
【0181】
任意に、ダウンサンプリング処理は、畳み込み処理、プーリング処理の1つ又は複数の組み合わせを含む。例えば、ダウンサンプリング処理は畳み込み処理である。また、例えば、ダウンサンプリング処理はプーリング処理であってもよい。また、例えば、ダウンサンプリング処理は畳み込み処理とプーリング処理であってもよい。
【0182】
任意に、アップサンプリング処理は、バイリニア補間処理、最近隣補間処理、高次補間、逆畳み込み処理の少なくとも1つを含む。
【0183】
1つの任意の実施形態として、トレーニング装置は、以下のステップを実行することにより、第1特徴データに対してダウンサンプリング処理を行い、少なくとも1つの人物フレームの位置を取得することができる。
【0184】
ステップ1において、第1特徴データに対してダウンサンプリング処理を行い、第2特徴データを取得する。
【0185】
トレーニング装置は、第1特徴データに対してダウンサンプリング処理を行うことにより、第1特徴データのサイズを縮小しながら第1特徴データの語義情報(即ちラベリング対象画像の語義情報)を抽出し、第2特徴データを取得することができる。
【0186】
ステップ2において、第2特徴データに対して畳み込み処理を行い、少なくとも1つの人物フレームの位置を取得する。
【0187】
トレーニング装置は、第2特徴データに対して畳み込み処理を行うことにより、第2特徴データに含まれる語義情報を用い、少なくとも1つの人物フレームの位置を取得することができる。
【0188】
ステップ1とステップ2を実行することで少なくとも1つの人物フレームの位置を取得する場合、トレーニング装置は、以下のステップを実行することにより、第1特徴データに対してアップサンプリング処理を行い、少なくとも1つの人物フレームの位置を取得することができる。
【0189】
ステップ3において、第1特徴データに対してアップサンプリング処理を行い、第3特徴データを取得する。
【0190】
ラベリング対象画像では人物間の距離が非常に小さい可能性があり、画像ラベリング装置は、ラベリング対象画像によって特徴抽出処理を行い、ラベリング対象画像のサイズを縮小しながら第1特徴データを抽出し、したがって、第1特徴データには少なくとも2つの人物領域が重畳する可能性がある。これにより、後で取得される人物点の精度が明らかに低下する。このステップでは、トレーニング装置は、第1特徴データに対してアップサンプリング処理を行うことにより、第1特徴データのサイズを大きくし、さらに少なくとも2つの人物領域の重畳の発生確率を低減させる。
【0191】
ステップ4において、第2特徴データと第3特徴データに対して融合処理を行い、第4特徴データを取得する。
【0192】
サンプリング待ち画像の人物フレームラベルにサンプリング待ち画像のスケール情報(サンプリング待ち画像内の異なる位置のスケールを含む)が含まれるため、人物フレームラベルを用い、ステップ2に基づいて少なくとも1つの人物フレームの位置を取得する場合、第2特徴データにもラベリング対象画像のスケール情報が含まれる。トレーニング装置は、第2特徴データと第3特徴データに対して融合処理を行うことにより、第3特徴データ内のスケール情報を豊かにして第4特徴データを取得することができる。
【0193】
1つの任意の実施形態として、第2特徴データのサイズが第3特徴データのサイズよりも小さい場合、トレーニング装置は、トレーニングされるべきネットワークを用いて第2特徴データに対してアップサンプリング処理を行い、サイズが第3特徴データのサイズと同じである第5特徴データを取得する。第5特徴データと第3特徴データに対して融合処理を行い、第4特徴データを取得する。
【0194】
任意に、融合処理は、チャネル次元での結合(concatnate)、同じ位置にある要素の合計のうちの1つであってもよい。
【0195】
いくつかの可能な実現方式では、2つのデータ内のの同じ位置にある要素について次の例を参照できる。例えば、
図10に示すように、データA内の要素A
11の位置がデータB内の要素B
11の位置と同じであり、データA内の要素A
12の位置がデータB
12内の要素kの位置と同じであり、データA内の要素A
13の位置がデータB内の要素B
13の位置と同じであり、データA内の要素A
21の位置がデータB内の要素B
21の位置と同じであり、データA内の要素A
22の位置がデータB内の要素B
22の位置と同じであり、データA内の要素A
23の位置がデータB内の要素B
23の位置と同じであり、データA内の要素A
31の位置がデータB内の要素B
31の位置と同じであり、データA内の要素A
32の位置がデータB内の要素B
32の位置と同じであり、データA内の要素A
33の位置がデータB内の要素B
33の位置と同じである。
【0196】
ステップ5において、第4特徴データに対してアップサンプリング処理を行い、少なくとも1つの人物点の位置を取得する。
【0197】
トレーニング装置は、第4特徴データに対してアップサンプリング処理を行うことにより、第4特徴データに含まれる語義情報を用い、少なくとも1つの人物点の位置を取得することができる。
【0198】
第4特徴データにサンプリング待ち画像のスケール情報が含まれるため、第4特徴データに対してアップサンプリング処理を行い、少なくとも1つの人物点の位置を取得し、少なくとも1つの人物点の位置の精度を向上させることができる。
【0199】
ステップ903において、上記ラベリング済み人物点ラベルと上記少なくとも1つの人物点の位置の間の差に基づいて第1差を取得する。
【0200】
任意に、ラベリング済み人物点ラベルと少なくとも1つの人物点の位置をバイナリクロスエントロピー損失関数(binary cross entropy loss function)に代入すると、第1差を取得することができる。
【0201】
例えば、ラベリング済み人物点ラベルは、人物点aの位置と人物点bの位置を含む。少なくとも1つの人物点は、人物点cの位置と人物点dの位置を含む。人物点aと人物点cの両方は第1人物の人物点であり、人物bと人物dの両方は、第2人物の人物点である。人物点aの位置と人物点cの位置をバイナリクロスエントロピー関数に代入して、差Aを取得する。人物点bの位置と人物点dの位置をバイナリクロスエントロピー関数に代入して、差Bを取得する。ここで、第1差は、差Aであってもよいし、第1差は差Bであってもよいし、第1差は、差Aと差Bの和であってもよい。
【0202】
1つの任意の実施方式として、画像ラベリング装置は、ステップ903の前に、以下のステップを実行することができる。
【0203】
ステップ6において、第4スケール指標を取得する。
【0204】
いくつかの可能な実現方式では、ラベリング対象画像のラベリング済み人物点ラベルには第2人物の人物点ラベルも含まれる。第2人物の人物点ラベルには第2人物点の第3位置が含まれている。
【0205】
いくつかの可能な実現方式では、第4スケール指標は、第3位置のスケール指標である。第5基準物体が第3位置にあると仮定すると、第4スケール指標は、第9サイズと第10サイズの間のマッピングを表し、ここで、第9サイズは、ラベリング対象画像内の第5基準物体のサイズであり、第10サイズは、実世界での第5基準物体のサイズである。
【0206】
第4スケール指標を取得するための実現方式では、画像ラベリング装置は、ユーザが入力コンポーネントを介して入力した第1スケール指標を受信する。上記入力コンポーネントは、キーボード、マウス、タッチスクリーン、タッチパッド及びオーディオ入力デバイスなどを含む。
【0207】
第4スケール指標を取得するための別の実現方式では、画像ラベリング装置は、第2端末から送信された第1スケール指標を受信する。任意に、第5端末は、携帯電話、コンピュータ、タブレットコンピュータ、サーバー、ウェアラブルデバイスのいずれか1つであってもよい。第5端末は、第1端末と同じであってもよいし、異なっていてもよい。
【0208】
第4スケール指標が取得された後、画像ラベリング装置は、ステップ903の実行中に以下のステップを実行する。
【0209】
ステップ7において、上記第1位置と上記第4位置の間の差に基づいて第3差を取得し、上記第3位置と上記第5位置の間の差に基づいて第4差を取得する。
【0210】
いくつかの実現方式では、トレーニング装置がステップ902又はステップ6を実行することで取得した少なくとも1つの人物点の位置は、第4位置と第5位置を含み、第4位置は、第1人物の人物点の位置であり、第5位置は、第2人物の人物点の位置である。
【0211】
第1位置は第1人物のラベリング済み人物点ラベルであり、第3位置は、第2人物のラベリング済み人物点ラベルである。第4位置は、トレーニングされるべきネットワークを用いてラベリング対象画像を処理することによって得られた第1人物の人物点ラベルであり、第5位置は、トレーニングされるべきネットワークを用いてラベリング対象画像を処理することによって得られた第2人物の人物点ラベルである。
【0212】
画像ラベリング装置は、第1位置と第4位置の間の差に基づいて第3差を取得することができ、第3位置と第5位置の間の差に基づいて第4差を取得することができる。
【0213】
任意に、第1位置と第4位置をバイナリクロスエントロピー関数に代入すると第3差を取得することができ、第3位置と第5位置をバイナリクロスエントロピー関数に代入すると第4差を取得することができる。
【0214】
第1位置と第4位置の差が
【0215】
【0216】
第3差が
【0217】
【0218】
第3位置と第5位置の差が
【0219】
【0220】
第4差が
【0221】
【0222】
であると仮定する。
【0223】
1つの可能な実現方式では、
【0224】
【0225】
は式(4)を満たしている:
【0226】
【0227】
ここで、
【0228】
【0229】
は正数である。任意に、
【0230】
【0231】
別の可能な実現方式では、
【0232】
【0233】
は式(5)を満たしている:
【0234】
【0235】
ここで、
【0236】
【0237】
は正数であり、
【0238】
【0239】
は実数である。任意に、
【0240】
【0241】
さらなる別の可能な実現方式では、
【0242】
【0243】
は式(6)を満たしている:
【0244】
【0245】
ここで、
【0246】
【0247】
は正数であり、
【0248】
【0249】
は実数である。任意に、
【0250】
【0251】
ステップ8において、上記第1スケール指標と上記第4スケール指標に基づいて、上記第3差の第1重みと上記第4差の第2重みを取得する。
【0252】
ラベリング対象画像では、近くの人物領域の面積が遠くの人物領域の面積よりも大きく、近くの人物領域の人物点の数が遠くの人物領域の人物点の数よりも多い。トレーニングされるべきネットワークをトレーニングすることによって得られたネットワークがトレーニングされたネットワークであると仮定すると、訓練されたネットワークは、近くの人物に対する検出精度が高い(即ち近くの人物点の位置の精度が遠くの人物点の位置の精度よりも高い)。
【0253】
トレーニングされたネットワークによる遠くの人物の検出精度を向上させるために、トレーニング装置は、人物点のスケール指標に基づいて人物点に対応する差の重みを決定する。近くの人物点に対応する差の重みを遠くの人物点の差の重みよりも小さくする。
【0254】
1つの可能な実現方式では、第1スケール指標が第4スケール指標よりも小さい場合、第1重みは第2重みよりも大きく、第1スケール指標が第4スケール指標よりも大きい場合、第1重みは第2重みよりも小さく、第1スケール指標が第4スケール指標に等しい場合、第1重みは第2重みに等しい。
【0255】
1つの任意の実施形態として、重みの大きいが人物点のスケール指標と負の相関関係にある。第1重みと第1スケール指標を例とすると、第1重みが
【0256】
【0257】
であり、第1スケール指標が
【0258】
【0259】
であり、スケール指標図内の最大画素値が
【0260】
【0261】
と仮定する場合、
【0262】
【0263】
は式(7)を満たしている:
【0264】
【0265】
ステップ9において、上記第1重みと上記第2重みに基づいて、上記第3差と上記第4差を重み付けして合計し、上記第1差を取得する。
【0266】
第1重みが
【0267】
【0268】
、
第2重みが
【0269】
【0270】
第3差が
【0271】
【0272】
であり、第4差が
【0273】
【0274】
第1差が
【0275】
【0276】
であると仮定する。
【0277】
1つの可能な実現方式では、
【0278】
【0279】
は式(8)を満たしている:
【0280】
【0281】
ここで、
【0282】
【0283】
は実数である。任意に、
【0284】
【0285】
別の可能な実現方式では、
【0286】
【0287】
は式(9)を満たしている:
【0288】
【0289】
ここで、
【0290】
【0291】
は実数であり、
【0292】
【0293】
はいずれも正数である。任意に、
【0294】
【0295】
さらなる別の可能な実現方式では、
【0296】
【0297】
式(10)を満たしている:
【0298】
【0299】
ここは
【0300】
【0301】
実数であり、
【0302】
【0303】
はいずれも正数である。任意に、
【0304】
【0305】
ステップ904において、上記ラベリング済み人物フレームラベルと上記少なくとも1つの人物フレームの位置の間の差に基づいて、第2差を取得する。
【0306】
任意に、ラベリング済み人物フレームラベルと少なくとも1つの人物フレームの位置をバイナリクロスエントロピー損失関数に代入すると、第2差を取得することができる。
【0307】
例えば、ラベリング済み人物フレームラベルは、人物フレームaの位置と人物フレームbの位置を含む。少なくとも1つの人物フレームは、人物フレームcの位置と人物フレームdの位置を含む。人物フレームaと人物フレームcの両方は、第1人物の人物フレームであり、人物フレームbと人物フレームdの両方は、第2人物の人物フレームである。人物フレームaの位置と人物フレームcの位置をバイナリクロスエントロピー関数に代入して、差Aを取得する。人物フレームbの位置と人物フレームdの位置をバイナリクロスエントロピー関数に代入して、差Bを取得する。ここで、差Aと差Bの両方は第1差である。
【0308】
ステップ905において、上記第1差と上記第2差に基づいて、上記トレーニングされるべきネットワークの損失を取得する。
【0309】
第1差が
【0310】
【0311】
第2差が
【0312】
【0313】
トレーニングされるべきネットワークの損失が
【0314】
【0315】
である仮定する。
【0316】
1つの可能な実現方式では、
【0317】
【0318】
は式(11)を満たしている:
【0319】
【0320】
ここで、
【0321】
【0322】
は正数である。任意に、
【0323】
【0324】
別の可能な実現方式では、
【0325】
【0326】
は式(12)を満たしている:
【0327】
【0328】
ここで、
【0329】
【0330】
は正数であり、
【0331】
【0332】
は実数である。任意に、
【0333】
【0334】
別の可能な実現方式では、
【0335】
【0336】
は式(13)を満たしている:
【0337】
【0338】
ここで、
【0339】
【0340】
は正数であり、
【0341】
【0342】
は実数である。任意に、
【0343】
【0344】
ステップ906において、上記損失に基づいて上記トレーニングされるべきネットワークのパラメータを更新し、人群測位ネットワークを取得する。
【0345】
任意に、画像ラベリング装置は、トレーニングされるべきネットワークの損失に基づいてトレーニングされるべきネットワークのパラメータを逆勾配伝播の方式で更新することにより、人群測位ネットワークを取得することができる。
【0346】
人群測位ネットワークに基づいて人物を含む画像を処理することにより、画像内の各人物の人物点及び各人物の人物フレームを取得することができる。
【0347】
1つの任意の実施形態として、
図11を参照すると、
図11は本開示の実施例による人群測位ネットワークの構造概略図である。
【0348】
当該人群測位ネットワークを用いてラベリング対象画像を処理することにより、ラベリング対象画像内の各人物の人物点の位置と各人物の人物フレームの位置を取得することができる。人物の人物点の位置と人物の人物フレームの位置に基づいて、当該人物の位置を決定することができる。
【0349】
図11に示すように、人群測位ネットワークは、バックボーンネットワーク、人物フレーム分岐及び人物点分岐を含む。人物フレーム分岐と人物点分岐は、スケール情報融合が行われてもよい。
図12はバックボーンネットワークの構造概略図である。当該バックボーンネットワークには、合計13層の畳み込み層と4層のプーリング層が含まれている。
図13は人物フレーム分岐と人物点分岐の構造概略図である。人物フレーム分岐には合計3層のダウンサンプリング層と1層の畳み込み層が含まれ、人物点分岐には合計3層のアップサンプリング層が含まれる。
【0350】
バックボーンネットワークによってラベリング対象画像を処理することにより、第1特徴データを取得することができ、当該処理プロセスの実現方式については「トレーニング待ちニューラルネットワークによってラベリング対象画像に対して特徴抽出処理を行い、第1特徴データを取得する」という実現方式を参照することができる。人物フレーム分岐によって第1特徴データを処理することにより、少なくとも1つの人物フレームの位置を取得することができ、当該処理プロセスについてはステップ1とステップ2を参照することができる。人物点分岐によって第1特徴データを処理することにより、少なくとも1つの人物点の位置を取得することができ、当該処理プロセスについてはステップ3、ステップ4とステップ5を参照することができ、ここで、ステップ4は
図11に示す「スケール情報融合」である。
【0351】
1つの任意の実施形態として、本開示の実施例によって提供される技術的解決策に基づいて人群測位ネットワークを用いて画像を処理し、人物点の位置と人物フレームの位置を取得することができ、さらに人物点の位置と人物フレームの位置に基づいて、画像内の人物の位置を決定することができる。
【0352】
人群測位ネットワークを用いて画像を処理する実行本体は画像ラベリング装置であってもよいし、トレーニング装置であってもよいし、画像ラベリング装置及びトレーニング装置とは異なる装置であってもよい。説明を容易にするために、以下に人群測位ネットワークを用いて画像を処理する実行本体は画像処理装置と呼ばれる。任意に、画像処理装置は、携帯電話、コンピュータ、タブレットコンピュータ、サーバー、プロセッサのいずれか1つであってもよい。
【0353】
1つの可能な実現方式では、画像処理装置は、処理されるべき画像を取得し、人群測位ネットワークを用いて処理されるべき画像を処理し、第3人物の人物点の位置と第3人物の人物フレームの位置を取得し、第3人物が処理されるべき画像内の人物である。さらに第3人物の人物点の位置に基づいて処理されるべき画像内の第3人物の位置を決定し、又は第3人物の人物フレームの位置に基づいて処理されるべき画像内の第3人物の位置を決定し、又は第3人物の人物点の位置と第3人物の人物フレームの位置に基づいて処理されるべき画像内の第3人物の位置を決定することができる。
【0354】
例えば、第3人物の人物点の位置は(9、10)であり、第3人物の人物フレームの形状は矩形であり、第3人物の人物フレームの位置は、矩形の1ペアの対角頂点の座標(6、8)、(12、14)を含む。第3人物の人物点の位置を処理されるべき画像内の第3人物の位置とし、処理されるべき画像内の第3人物の位置を(9、10)として決定する。第3人物の人物フレームの位置を処理されるべき画像内の第3人物の位置とし、処理されるべき画像内の矩形の人物フレームに含まれる画素点領域を第3人物がカバーしている画素点領域として決定し、矩形の人物フレームの4つの頂点の座標がそれぞれ(6、8)、(6、14)、(12、14)、(12、8)である。
【0355】
1つの選択可能な実施形態として、本開示の実施例における人物点(第2人物点、ステップ902における少なくとも1つの人物点、第3人物の人物点を含む)は、人頭点であってもよく、人物フレーム(ステップ902における少なくとも1つの人物フレーム、第3人物の人物フレーム)は頭部フレームであってもよい。人頭点がカバーしている画素点領域と人頭フレームがカバーしている画素領域の両方は、人頭領域である。
【0356】
本開示の実施例によって提供される技術的解決策に基づいて、本開示の実施例は、1つの可能な適用シナリオをさらに提供する。
【0357】
画像ラベリング装置は、顔検出データセットを用いて検出畳み込みニューラルネットワーク(任意の畳み込みニューラルネットワークであってもよい)をトレーニングし、顔検出ネットワークを取得する。当該顔検出データセットの画像のすべてにはラベリング情報が含まれ、ラベリング情報は、顔フレームの位置を含む。任意に、当該顔データセットはWider Faceである。
【0358】
画像ラベリング装置は、顔検出ネットワークを用いて人群データセットを処理し、人群データセットの各画像の顔検出結果及び各顔検出結果の信頼度を取得する。当該人群データセットの各画像には少なくとも1つの人頭が含まれ、かつ各画像には少なくとも1つの人頭点ラベルが含まれる。任意に、信頼度が第3閾値よりも高い顔検出結果を第1中間結果として使用する。任意に、第3閾値が0.7である。
【0359】
画像ラベリング装置は、実世界での顔の長さ(例えば20センチ)を取得し、当該長さと第1中間結果に基づいて、人群データセットの各画像のスケール指標図を取得する。
【0360】
画像ラベリング装置は、本開示の実施例によって提供される技術的解決策、人群データセット及び人群データセットの各画像のスケール指標図に基づいて、人群データセットの各画像の人頭点ラベル及び人頭フレームラベルをラベリングし、ラベリングされた人群データセットを取得することができる。
【0361】
画像ラベリング装置は、ラベリングされた人群データセットを用いて第2検出ネットワーク(ネットワーク構造について人群測位ネットワークのネットワーク構造を参照できる)をトレーニングし、測位ネットワークを取得する。測位ネットワークは、画像内の各人頭の人頭点の位置と各人頭の人頭フレームの位置を検出するために用いられてもよい。
【0362】
当業者は、具体的な実施形態の上記の方法において、各ステップの書き込み順序が厳密な実行順序を意味して実施プロセスに対する制限を構成せず、各ステップの実行順序がその機能及び可能な内部論理で決定されるべきである。
【0363】
以上に本開示の実施例の方法を詳細に説明し、以下に本開示の実施例の装置を提供する。
【0364】
図14を参照すると、
図14は本開示の実施例による画像ラベリング装置の構造概略図である。前記画像ラベリング装置1は、取得ユニット11、構築ユニット12、第1処理ユニット13、第2処理ユニット14、第3処理ユニット15、第4処理ユニット16を備える。
【0365】
取得ユニット11は、ラベリング対象画像と第1スケール指標を取得するように構成され、前記ラベリング対象画像に第1人物の人物点ラベルが含まれ、前記第1人物の人物点ラベルが第1人物点の第1位置を含み、前記第1スケール指標が第1サイズと第2サイズの間のマッピングを表し、前記第1サイズが前記第1位置にある第1基準物体のサイズであり、前記第2サイズが実世界での前記第1基準物体のサイズである。
【0366】
構築ユニット12は、前記第1スケール指標が第1閾値以上である場合、前記第1人物点に基づいて画素点隣接領域を構築するように構成され、前記画素点隣接領域に前記第1人物点とは異なる第1画素点が含まれる。
【0367】
第1処理ユニット13は、前記第1画素点の位置を前記第1人物の人物点ラベルとして使用するように構成される。
【0368】
本開示の任意の実施形態と組み合わせて、前記取得ユニット11は、さらに、
第1長さを取得するように構成され、前記第1長さが実世界での前記第1人物の長さである。
【0369】
前記装置は、第2処理ユニットをさらに備え、前記第2処理ユニット14は、
前記第1位置、前記第1スケール指標及び前記第1長さに基づいて、前記第1人物の少なくとも1つの人物フレームの位置を取得し、
前記少なくとも1つの人物フレームの位置を前記第1人物の人物フレームラベルとして使用するように構成される。
【0370】
本開示の任意の実施形態と組み合わせて、前記少なくとも1つの人物フレームの位置は第2位置を含み、
前記第2処理ユニット14は、
前記第1スケール指標と前記第1長さとの積を決定し、ラベリング対象画像内の前記第1人物の第2長さを取得し、
前記第1位置と前記第2長さに基づいて、第1人物フレームの位置を前記第2位置として決定するように構成され、前記第1人物フレームの中心は、前記第1人物点であり、y軸方向の前記第1人物フレームの最大長さは前記第2長さ以上である。
【0371】
本開示の任意の実施形態と組み合わせて、前記第1人物フレームの形状は矩形であり、
前記第2処理ユニット14は、
前記第1位置と前記第2長さに基づいて、前記第1人物フレームの対角頂点の座標を決定するように構成され、前記対角頂点が第1頂点と第2頂点を含み、前記第1頂点と前記第2頂点の両方が第1線分上の点であり、前記第1線分が前記第1人物フレームの対角線である。
【0372】
本開示の任意の実施形態組み合わせると、前記第1人物フレームの形状は、正方形であり、前記ラベリング対象画像の画素座標系における前記第1位置の座標は(p、q)であり、
前記第2処理ユニット14は、
前記pと第3長さの間の差を決定して第1横座標を取得し、前記qと前記第3長さの間の差を決定して第1縦座標を取得し、前記pと前記第3長さの間の和を決定して第2横座標を取得し、前記qと前記第3長さの間の和を決定して第2縦座標を取得し、前記第3長さが前記第2長さの半分であり、
前記第1横座標を前記第1頂点の横座標として使用し、前記第1縦座標を前記第1頂点の縦座標として使用し、前記第2横座標を前記第2頂点の横座標として使用し、前記第2縦座標を前記第2頂点の縦座標として使用するように構成される。
【0373】
本開示の任意の実施形態と組み合わせて、前記取得ユニット11は、
前記ラベリング対象画像に対して物体検出処理を行い、第1物体フレームと第2物体フレームを取得し、
y軸方向の前記第1物体フレームの長さに基づいて第3長さを取得し、y軸方向の前記第2物体フレームの長さに基づいて第4長さを取得し、前記y軸が前記ラベリング対象画像の画素座標系の縦軸であり、
前記第3長さと実世界での第1物体の第5長さに基づいて第2スケール指標を取得し、前記第4長さと実世界での第2物体の第6長さに基づいて第3スケール指標を取得し、前記第1物体が前記第1物体フレームに含まれる検出オブジェクトであり、前記第2物体が前記第2物体フレームに含まれる検出オブジェクトであり、前記第2スケール指標が第3サイズと第4サイズの間のマッピングを表し、前記第3サイズが第2スケール位置にある第2基準物体のサイズであり、前記第4サイズが実世界での前記第2基準物体のサイズであり、前記第2スケール位置が前記ラベリング対象画像内の前記第1物体フレームの位置に基づいて決定された位置であり、前記第3スケール指標が第5サイズと第6サイズの間のマッピングを表し、前記第5サイズが第3スケール位置にある第3基準物体のサイズであり、前記第6サイズが実世界での前記第3基準物体のサイズであり、前記第3スケール位置が前記ラベリング対象画像内の前記第2物体フレームの位置に基づいて決定された位置であり、
前記第2スケール指標と前記第3スケール指標に対してカーブフィッティング処理を行い、前記ラベリング対象画像のスケール指標図を取得し、前記スケール指標図の第1画素値が第7サイズと第8サイズの間のマッピングを表し、前記第7サイズが第4スケール位置にある第4基準物体のサイズであり、前記第8サイズが実世界での前記第4基準物体のサイズであり、前記第1画素値が第2画素点の画素値であり、前記第4スケール位置が前記ラベリング対象画像内の第3画素点の位置であり、前記スケール指標図内の前記第2画素点の位置が前記ラベリング対象画像内の前記第3画素点の位置と同じであり、
前記スケール指標図と前記第1位置に基づいて、前記第1スケール指標を取得するように構成される。
【0374】
本開示の任意の実施形態と組み合わせて、前記第1人物の人物点ラベルがラベリング済み人物点ラベルに属し、前記第1人物の人物フレームラベルがラベリング済み人物フレームラベルに属し、前記取得ユニット11は、さらに、
トレーニングされるべきネットワークを取得するように構成され、
前記装置は、第3処理ユニット15をさらに備え、前記第3処理ユニット15は、
前記トレーニングされるべきネットワークを用いて前記ラベリング対象画像を処理し、前記少なくとも1つの人物点の位置と少なくとも1つの人物フレームの位置を取得し、
前記ラベリング済み人物点ラベルと前記少なくとも1つの人物点の位置の間の差に基づいて第1差を取得し、
前記ラベリング済み人物フレームラベルと前記少なくとも1つの人物フレームの位置の間の差に基づいて、第2差を取得し、
前記第1差と前記第2差に基づいて、前記トレーニングされるべきネットワークの損失を取得し、
前記損失に基づいて前記トレーニングされるべきネットワークのパラメータを更新し、人群測位ネットワークを取得するように構成される。
【0375】
本開示の任意の実施形態と組み合わせて、前記ラベリング済み人物点ラベルは第2人物の人物点ラベルをさらに含み、前記第2人物の人物点ラベルは前記第2人物点の第3位置を含み、前記少なくとも1つの人物点の位置は、第4位置と第5位置を含み、前記第4位置は、前記第1人物の人物点の位置であり、前記第5位置は、前記第2人物の人物点の位置であり、
前記取得ユニット11は、さらに、前記ラベリング済み人物点ラベルと前記少なくとも1つの人物点の位置の間の差に基づいて第1差を取得するステップの前に、第4スケール指標を取得するように構成され、前記第4スケール指標が第9サイズと第10サイズの間のマッピングを表し、前記第9サイズが前記第3位置にある第5基準物体のサイズであり、前記第10サイズが実世界での前記第5基準物体のサイズであり、
前記第3処理ユニット15は、
前記第1位置と前記第4位置の間の差に基づいて第3差を取得し、前記第3位置と前記第5位置の間の差に基づいて第4差を取得し、
前記第1スケール指標と前記第4スケール指標に基づいて、前記第3差の第1重みと前記第4差の第2重みを取得し、前記第1スケール指標が前記第4スケール指標よりも小さい場合、前記第1重みが前記第2重みよりも大きく、前記第1スケール指標が前記第4スケール指標よりも大きい場合、前記第1重みが前記第2重みよりも小さく、前記第1スケール指標が前記第4スケール指標に等しい場合、前記第1重みが前記第2重みに等しく、
前記第1重みと前記第2重みに基づいて、前記第3差と前記第4差を重み付けして合計し、前記第1差を取得するように構成される。
【0376】
本開示の任意の実施形態と組み合わせて、前記取得ユニット11は、
前記スケール指標図と前記第3位置に基づいて、前記第4スケール指標を取得するように構成される。
【0377】
本開示の任意の実施形態と組み合わせて、前記第3処理ユニット15は、
前記ラベリング対象画像に対して特徴抽出処理を行い、第1特徴データを取得し、
前記第1特徴データに対してダウンサンプリング処理を行い、前記少なくとも1つの人物フレームの位置を取得し、
前記第1特徴データに対してアップサンプリング処理を行い、前記少なくとも1つの人物点の位置を取得するように構成される。
【0378】
本開示の任意の実施形態と組み合わせて、前記第3処理ユニット15は、
前記第1特徴データに対してダウンサンプリング処理を行い、第2特徴データを取得し、
前記第2特徴データに対して畳み込み処理を行い、前記少なくとも1つの人物フレームの位置を取得するように構成され、
前記第1特徴データに対してアップサンプリング処理を行い、前記少なくとも1つの人物点の位置を取得するステップは、
前記第1特徴データに対してアップサンプリング処理を行い、第3特徴データを取得するステップと、
前記第2特徴データと前記第3特徴データに対して融合処理を行い、第4特徴データを取得するステップと、
前記第4特徴データに対してアップサンプリング処理を行い、前記少なくとも1つの人物点の位置を取得するステップと、を含む。
【0379】
本開示の任意の実施形態と組み合わせて、前記取得ユニット11は、さらに、
処理されるべき画像を取得するように構成され、
前記装置は、第4処理ユニット16をさらに備え、前記第4処理ユニット16は、
前記人群測位ネットワークを用いて前記処理されるべき画像を処理し、第3人物の人物点の位置と前記第3人物の人物フレームの位置を取得するように構成され、前記第3人物が前記処理されるべき画像内の人物である。
【0380】
いくつかの実現方式では、ラベリング済み人物点とラベリング済み人物点のスケール指標に基づいて、人物領域にラベリングされていない画素点が存在するか否かを決定する。人物領域にラベリングされていない画素点が存在することを決定した場合、ラベリング済み人物点に基づいて画素点隣接領域を構築し、画素点隣接領域内のラベリング済み人物点以外の画素点の位置を、当該人物領域に対応する人物のラベルとして使用することにより、ラベリング精度が向上する。
【0381】
いくつかの実施例では、本開示の実施例によって提供される装置が備える機能又はそれに含まれるモジュールは、上記の方法の実施例で説明される方法を実行するように構成され、上記の方法の実施例の説明を参照することで実現されてもよく、簡潔にするために、ここで説明を省略する。
【0382】
図15は本発明の実施例による画像ラベリング装置のハードウェア構造概略図ある。当該画像ラベリング装置2は、プロセッサ21、メモリ22、入力装置23、出力装置24を備える。当該プロセッサ21、メモリ22、入力装置23及び出力装置24は、コネクタを介して結合され、当該コネクタは、様々なインターフェース、伝送ライン又はバスなどを含むが、本開示の実施例で限定されない。本開示の様々な実施例では、結合は、特定の方式の相互接続を指し、直接接続又は他のデバイスを介した間接接続を含み、例えば様々なインターフェイス、伝送ライン、バスなどを介して接続することができる。
【0383】
プロセッサ21は、1つ又は複数のグラフィックス処理ユニット(GPU:graphics processing unit)であってもよく、プロセッサ21がGPUである場合、当該GPUは、シングルコアGPUであってもよいし、マルチコアGPUであってもよい。任意に、プロセッサ21は、複数のGPUから構成されるプロセッサグループであてもよく、複数のプロセッサは、1つ又は複数のバスを介して互いに結合される。任意に、当該プロセッサは、他のタイプのプロセッサなどであってもよく、本開示の実施例では限定されない。
【0384】
メモリ22は、コンピュータプログラム命令、及び本開示の実施例によって提供される技術的解決策を実行するためのプログラムコードを含む様々なタイプのコンピュータプログラムコードを記憶するために用いられてもよい。任意に、メモリ22は、ランダムアクセスメモリ(RAM:Access Memory)、読み取り専用メモリ(ROM:Read-Only Memory)、消去可能なプログラマブル読み取り専用メモリ(EPROM:Erasable Programmable Read Only Memory)、又はポータブル読み取り専用メモリ(CD-ROM:Compact Disc Read-Only Memory)を含むがこれらに限定されず、当該メモリ22は、関連する命令及びデータの記憶に用いられる。
【0385】
入力装置23は、データ及び/又は信号を入力するために用いられ、出力装置24は、データ及び/又は信号を出力するために用いられる。入力装置23と出力装置24は、独立したデバイスであってもよいし、一体型デバイスであってもよい。
【0386】
いくつかの可能な実現方式では、メモリ22は、関連する命令を記憶するためだけでなく、関連するデータを記憶するために用いられてもよいことが理解でき、例えば、当該メモリ22は、入力装置23を介して取得されたラベリング対象画像を記憶するために用いられてもよく、又は、当該メモリ22は、プロセッサ21によって取得された第2画素点の位置などを記憶するために用いられてもよく、本開示の実施例では当該メモリに記憶されているデータが限定されない。
【0387】
図15は画像ラベリング装置の簡略化された設計のみを示していることが理解できる。実際の応用中、画像ラベリング装置は、さらに任意の数の入力/出力装置、プロセッサ、メモリなどを含むがこれらに限定されない他の必要なコンポーネントをそれぞれ含むことができ、本開示の実施例を実施できるすべの画像ラベリング装置は、本開示の保護範囲内にある。
【0388】
当業者であれば、本明細書で開示される実施例と組み合わせて説明された各例のユニット及びアルゴリズムステップは、電子ハードウェア、又はコンピュータソフトウェアと電子ハードウェアの組み合わせで実現されてもいよいと理解できる。これらの機能がハードウエア又はソフトウエアで実行されるかは、技術的解決策の特定アプリケーションと設計制約条件に依存する。当業者は各特定のアプリケーションに対して異なる方法を用いて記述される機能を実現することができるが、このような実現は本開示の範囲を超えると考えられるべきではない。
【0389】
当業者は、説明を容易及び簡潔にするために、上述したシステム、装置及びユニットの動作プロセスについて、前記方法の実施例における対応するプロセスを参照でき、ここで説明を省略することを明確に理解することができる。当業者は、本開示の各実施例が異なる重点で説明されることを明確に理解することができ、説明を容易及び簡潔にするために同一又は類似の部分は異なる実施例においては省略される可能性がり、したがって、ある実施例で説明されな部分又は詳しく説明されない部分については、他の実施例の記載を参照することができる。
【0390】
本開示で提供されるいくつかの実施例では、開示されるシステム、装置及び方法は、他の方式により実現されてもよいと理解すべきである。例えば、上記の装置の実施例は、例示的なものだけであり、例えば、前記ユニットの区分は、論理機能的区分だけであり、実際に実現するプロセスに他の区分方式もあり得て、例えば複数のユニット又はコンポーネントは組み合わせられてもよく又は別のシステムに統合されてもよく、又はいくつかの特徴は無視されてもよく、又は実行されなくてもよい。また、示される又は議論される相互結合又は直接結合又は通信接続はいくつかのインターフェース、装置又はユニットを介した間接的結合又は通信接続であってもよく、電気的、機械的又は他の形態であってもよい。
【0391】
分離部材として説明された前記ユニットは物理的に分離するものであってもよく又は物理的に分離するものでなくてもよく、ユニットとして表示された部材は、物理的要素であってもよく又は物理的ユニットでなくてもよく、即ち1つの箇所に位置してもよく、又は複数のネットワークユニットに分布してもよい。実際のニーズに応じてそのうちの一部又は全てのユニットを選択して本実施例の解決策の目的を達成することができる。
【0392】
また、本開示の各実施例における各機能ユニットは1つの処理ユニットに統合されてもよく、個々のユニットは単独で物理的に存在してもよく、2つ以上のユニットは1つのユニットに統合されてもよい。
【0393】
上記実施例では、ソフトウェア、ハードウェア、ファームウェア又はそれらの任意の組み合わせによって全て又は部分的に実行されてもよい。ソフトウェアで実現するプロセスでは、コンピュータプログラム製品の形で全て又は部分的に実現することができる。前記コンピュータプログラム製品は、1つ又は複数のコンピュータ命令を含む。コンピュータで前記コンピュータプログラム命令をロードして実行する場合、本開示の実施例に従って説明されたプロセス又は機能を全て部分的に生成する。前記コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、又は他のプログラマブルデバイスであってもよい。前記コンピュータ命令は、コンピュータ可読記憶媒体に記憶されてもよく、又は前記コンピュータ可読記憶媒体を介して伝送されてもよい。前記コンピュータ命令は1つウェブサイト、コンピュータ、サーバー又はデータセンターから有線(例えば同軸ケーブル、光ファイバ、デジタル加入者線(DSL:digital subscriber line)又は無線(例えば赤外線、無線、マイクロ波など)を介して別のウェブサイト、コンピュータ、サーバー又はデータセンターに伝送されてもよい。前記コンピュータ可読記憶媒体は、コンピュータがアクセスできるいかなる利用可能な媒体であってもよく、又は1つ又は複数の利用可能な媒体で集積されたサーバー、データセンターなどを含むデータ記憶デバイスであってもよい。前記利用可能な媒体は、磁気媒体(例えばフロッピー(登録商標)ディスク、ハードディスク、磁気テープ)、光学媒体(例えばデジタルビデオディスク(DVD:Digital Video Disc))、又は半導体媒体(例えばソリッドステートディスク(SSD:Solid State Disk))などであってもよい。
【0394】
当業者は、上記実施例の方法の全て又は一部のフローを実現することを理解し、当該フローは、コンピュータプログラムで関連するハードウェアを指令して完了されてもよく、当該プログラムがコンピュータ可読記憶媒体に記憶されてもよく、当該プログラムが、実行中、上記の各方法の実施例のフローを含むことができる。前記憶媒体は読み出し専用メモリ(ROM:read-only memory)又はランダムアクセスメモリ(RAM:random access memory)、磁気ディスク又は光ディスク等のプログラムコードを記憶できる様々な媒体を含む。
【国際調査報告】