IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 清華大学の特許一覧 ▶ 同方威視技術股▲分▼有限公司の特許一覧

特許7426350セマンティックベースの透視画像検索方法及びその装置、電子機器ならびにコンピュータ読取り可能な記憶媒体
<>
  • 特許-セマンティックベースの透視画像検索方法及びその装置、電子機器ならびにコンピュータ読取り可能な記憶媒体 図1
  • 特許-セマンティックベースの透視画像検索方法及びその装置、電子機器ならびにコンピュータ読取り可能な記憶媒体 図2
  • 特許-セマンティックベースの透視画像検索方法及びその装置、電子機器ならびにコンピュータ読取り可能な記憶媒体 図3
  • 特許-セマンティックベースの透視画像検索方法及びその装置、電子機器ならびにコンピュータ読取り可能な記憶媒体 図4
  • 特許-セマンティックベースの透視画像検索方法及びその装置、電子機器ならびにコンピュータ読取り可能な記憶媒体 図5
  • 特許-セマンティックベースの透視画像検索方法及びその装置、電子機器ならびにコンピュータ読取り可能な記憶媒体 図6
  • 特許-セマンティックベースの透視画像検索方法及びその装置、電子機器ならびにコンピュータ読取り可能な記憶媒体 図7
  • 特許-セマンティックベースの透視画像検索方法及びその装置、電子機器ならびにコンピュータ読取り可能な記憶媒体 図8
  • 特許-セマンティックベースの透視画像検索方法及びその装置、電子機器ならびにコンピュータ読取り可能な記憶媒体 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-24
(45)【発行日】2024-02-01
(54)【発明の名称】セマンティックベースの透視画像検索方法及びその装置、電子機器ならびにコンピュータ読取り可能な記憶媒体
(51)【国際特許分類】
   G06T 7/11 20170101AFI20240125BHJP
   G06F 16/53 20190101ALI20240125BHJP
【FI】
G06T7/11
G06F16/53
【請求項の数】 10
(21)【出願番号】P 2021042729
(22)【出願日】2021-03-16
(65)【公開番号】P2021149970
(43)【公開日】2021-09-27
【審査請求日】2021-03-16
(31)【優先権主張番号】202010184164.X
(32)【優先日】2020-03-16
(33)【優先権主張国・地域又は機関】CN
【前置審査】
(73)【特許権者】
【識別番号】502192546
【氏名又は名称】清華大学
【氏名又は名称原語表記】Tsinghua University
【住所又は居所原語表記】Tsinghua University,Haidian District,Beijing 100084,P.R.China
(73)【特許権者】
【識別番号】503414751
【氏名又は名称】同方威視技術股▲分▼有限公司
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】張 麗
(72)【発明者】
【氏名】陳 志 強
(72)【発明者】
【氏名】李 元 景
(72)【発明者】
【氏名】▲シン▼ 宇 翔
(72)【発明者】
【氏名】孟 凡 華
(72)【発明者】
【氏名】李 強
(72)【発明者】
【氏名】李 葦
(72)【発明者】
【氏名】傅 ▲ガン▼
【審査官】山田 辰美
(56)【参考文献】
【文献】特開2017-097853(JP,A)
【文献】特開2019-215647(JP,A)
【文献】特開2018-128897(JP,A)
【文献】特開2018-180646(JP,A)
【文献】吉川 悠斗,Mask R-CNNを用いたアイカメラ映像解析手法の検討,電子情報通信学会技術研究報告 Vol.118 No.485,日本,一般社団法人電子情報通信学会,2019年,Vol.118 No.485,p.121-p.125
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/11
G06F 16/53
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
被検対象が含まれる空間に対する透視画像を透視画像取得装置によって取得することと、
前記透視画像を第1方法によってセマンティック区画することで複数のセマンティック領域ユニットを取得することと、
特徴抽出ネットワークを第2方法によって構築することと、
前記透視画像及びその前記複数のセマンティック領域ユニットのそれぞれに基づき、それぞれのセマンティック領域ユニットに対する特徴を前記特徴抽出ネットワークによって抽出することと、
それぞれのセマンティック領域ユニットに対する特徴に基づき、当該セマンティック領域ユニットに最も似ている画像を画像特徴ライブラリから検索することで、当該セマンティック領域ユニットにおける被検対象の確定を補助することと、を含み、
前記透視画像を前記第1方法によって前記セマンティック区画することで前記複数のセマンティック領域ユニットを取得することは、前記被検対象の視覚的形態に従って、前記第1方法を使用し前記透視画像内の前記被検対象を含む空間を前記複数のセマンティック領域ユニットに分割することを含み、前記複数のセマンティック領域ユニットのそれぞれは、視覚的に分割可能な独立した対象領域であり、
前記透視画像及びその前記複数のセマンティック領域ユニットのそれぞれに基づき、それぞれのセマンティック領域ユニットに対する特徴を前記特徴抽出ネットワークによって抽出することは、
前記透視画像に基づき、前記透視画像に対する特徴図を前記特徴抽出ネットワークによって取得することと、
前記透視画像におけるそれぞれのセマンティック領域ユニットの座標に基づき、それぞれのセマンティック領域ユニットに対する相応的な特徴を前記特徴図から取得することと、を含み、
取得されたそれぞれのセマンティック領域ユニットに対する相応的な特徴に対して特徴次元固定を行うことで、それぞれのセマンティック領域ユニットに対する相応的な特徴が同じ大きさの特徴次元に正規化されるようにすること、をさらに含む、
セマンティックベースの透視画像検索方法。
【請求項2】
前記第1方法は、選択的検索、似物性方法、及び領域推薦ネットワークRPNを使う方法のうちの1種以上である、
請求項1に記載のセマンティックベースの透視画像検索方法。
【請求項3】
前記第2方法は、基礎ネットワークResnetに特徴ピラミッドネットワークFPNを取り入れる方法である、
請求項1に記載のセマンティックベースの透視画像検索方法。
【請求項4】
前記画像特徴ライブラリは容疑物を有しない過去の透視画像に基づいて構築されたものであるとともに、
前記画像特徴ライブラリを構築するための透視画像には1つ以上のコンテンツ情報が記録される、
請求項1に記載のセマンティックベースの透視画像検索方法。
【請求項5】
前記コンテンツ情報に基づき、セマンティック領域ユニットに最も似ている画像を前記画像特徴ライブラリから検索する、
請求項4に記載のセマンティックベースの透視画像検索方法。
【請求項6】
セマンティック領域ユニットに最も似ている画像は予定数の画像である、
請求項1に記載のセマンティックベースの透視画像検索方法。
【請求項7】
前記被検対象に関する情報を表示ユニットによって表示すること、をさらに含む、
請求項1に記載のセマンティックベースの透視画像検索方法。
【請求項8】
被検対象が含まれる閉空間に対する透視画像を取得するように配置される透視画像取得モジュールと、
前記透視画像を第1方法によってセマンティック区画することで複数のセマンティック領域ユニットを取得するように配置される画像セマンティック区画モジュールと、
特徴抽出ネットワークを第2方法によって構築するとともに、前記透視画像及びその前記複数のセマンティック領域ユニットのそれぞれに基づき、それぞれのセマンティック領域ユニットに対する特徴を前記特徴抽出ネットワークによって抽出するように配置される特徴抽出モジュールと、
それぞれのセマンティック領域ユニットに対する特徴に基づき、当該セマンティック領域ユニットに最も似ている画像を画像特徴ライブラリから検索することで、当該セマンティック領域ユニットにおける被検対象の確定を補助するように配置される画像検索モジュールと、を含み、
前記画像セマンティック区画モジュールは、前記被検対象の視覚的形態に従って、前記第1方法を使用し前記透視画像内の前記被検対象を含む前記閉空間を前記複数のセマンティック領域ユニットに分割するように構成され、前記複数のセマンティック領域ユニットのそれぞれは、視覚的に分割可能な独立した対象領域であり、
前記特徴抽出モジュールは、
前記透視画像に基づき、前記透視画像に対する特徴図を前記特徴抽出ネットワークによって取得し、
前記透視画像におけるそれぞれのセマンティック領域ユニットの座標に基づき、それぞれのセマンティック領域ユニットに対する相応的な特徴を前記特徴図から取得するように構成され、
取得されたそれぞれのセマンティック領域ユニットに対する相応的な特徴に対して特徴次元固定を行うことで、それぞれのセマンティック領域ユニットに対する相応的な特徴が同じ大きさの特徴次元に正規化される、
セマンティックベースの透視画像検索装置。
【請求項9】
1つ以上のプロセッサと、1つ以上のプログラムを記憶するためのメモリとを備える電子機器であって、
前記1つ以上のプログラムが前記1つ以上のプロセッサによって実行されるとき、前記1つ以上のプロセッサが請求項1~7のいずれか1項に記載の方法を実現する、
電子機器。
【請求項10】
実行可能な命令が記憶され、
前記命令がプロセッサに実行されるとき、プロセッサが請求項1~7のいずれか1項に記載の方法を実現する、
コンピュータ読取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は画像識別分野に関し、より具体的には、セマンティックベースの透視画像検索方法、セマンティックベースの透視画像検索装置、電子機器及びコンピュータ読取り可能な記憶媒体に関する。
【背景技術】
【0002】
透視画像を利用して閉空間(例えば、コンテナ、トランク、列車の箱、箱式貨車、トラックなど)における被検対象に対して検査を行うことは、通関及び他のセキュリティ業務に用いられる重要な手段の一つである。透視画像の結像原理によって、透視画像は自然画像と大きな差異がある。このような差異によって、検査員が画像を直感的に理解する難易度が増加するため、検査員のデリケートな物品に対する鋭感が低下し、相応的なセキュリティ業務に対して大きな挑戦をもたらすようになる。
【発明の概要】
【発明が解決しようとする課題】
【0003】
したがって、より効率的で精密な透視画像検索方法が求められている。
【課題を解決するための手段】
【0004】
従来技術の課題を解決するために、本開示はセマンティックベースの透視画像検索方法及びその装置を提供している。本開示による方法は、画像セマンティック理解段階、画像特徴表示段階、及び画像検索段階という3つの段階を有する。
【0005】
画像セマンティック理解段階では、透視画像に対してセマンティック要素抽出を行い、画像を視覚的に分割できる独立的物体領域に区画する。独立的物体領域は即ちセマンティック領域であり、後続の検索では区画されたそれぞれのセマンティック領域を個別に検索する。
【0006】
画像特徴表示段階では、区画されたそれぞれの画像セマンティック領域に対して特徴表示を行い、当該特徴は画像のそれぞれのセマンティック領域の主要情報を説明することができる。
【0007】
画像検索段階では、ある準則に従って過去画像特徴ライブラリからそれぞれの透視画像のセマンティック領域について検索する。
【0008】
要するに、以上の3つの段階では、透視画像に対してセマンティック領域区画を行い、それぞれの領域について過去類似領域及びその過去申告情報を検索し、検査員がそれぞれの画像セマンティック領域について対比分析することを補助することができる。
【0009】
画像セマンティック理解段階では、主に、異なる視覚的形態又は異なる放置形式に従って、透視画像を視覚的に分割できる異なるセマンティック領域に分割する。かつ、すべてのセマンティック領域は透視画像の物体範囲全体を覆う必要がある。当該課題を解決する関連技術は主に似物性推薦方法(objectness proposal)である。深層学習分野において、領域推薦ネットワーク(Region Proposal Net,RPN)を用いる方法を採用することが一般的である。当該段階では、画像検索が指向性及び局所性を有するようにし、画像の各独立的領域に対して精細化検索を行うことができる。
【0010】
画像特徴表示段階では、主に、前の段階で区画された画像セマンティック領域に対して特徴表示を行う。本段階では深層学習技術を利用して画像に対して特徴表示を行う。伝統的な表示方法に比べ、深層学習方法は大きなメリットを有する。伝統的な方法で抽出された特徴は通常人為的に設計した一定の特徴であり、ある程度の限界性を有する。深層学習に基づく方法は、トレーニングデータ自体の特性に基づいてより有効な特徴を自主的に学習し、より適性を有し、画像検索にはより有利となる。
【0011】
画像検索段階で検索される基本的なユニットは、第1段階で区画された画像範囲全体を覆うそれぞれのセマンティック領域である。それぞれの領域に対して、過去画像において最も似ている画像領域をマッチし、類似画像領域の申告情報及び類似度情報を提供し、検査員が透視画像の各領域について対比することを補助し、検査員の各領域に対する理解を補助し、混雑な透視画像に対してそれぞれの領域を検索する特徴を有する。それぞれの区画領域を検索する前に、予め過去画像特徴ライブラリを構築する必要があることに留意すべきである。過去画像特徴ライブラリにおける各特徴は、区画されたセマンティック領域を基本的なユニットとし、当該特徴が属する貨物類別、領域画像の帰属、領域が入る画像の申告情報、物体領域座標などを説明するための情報を有する必要がある。
【0012】
具体的には、本開示の第1方面は、セマンティックベースの透視画像検索方法を提供している。当該方法は、被検対象が含まれる空間に対する透視画像を透視画像取得装置によって取得することと、前記透視画像を第1方法によってセマンティック区画することで複数のセマンティック領域ユニットを取得することと、特徴抽出ネットワークを第2方法によって構築することと、前記透視画像及びその前記複数のセマンティック領域ユニットのそれぞれに基づき、それぞれのセマンティック領域ユニットに対する特徴を前記特徴抽出ネットワークによって抽出することと、それぞれのセマンティック領域ユニットに対する特徴に基づき、当該セマンティック領域ユニットに最も似ている画像を画像特徴ライブラリから検索することで、当該セマンティック領域ユニットにおける被検対象の確定を補助することと、を含んでもよい。
【0013】
第1方面に基づき、前記第1方法は、選択的検索、似物性方法、領域推薦ネットワークRPNを使う方法のうちの1種以上である。
【0014】
第1方面に基づき、前記第2方法は、基礎ネットワークResnetに特徴ピラミッドネットワークFPNを取り入れる方法である。
【0015】
第1方面に基づき、前記透視画像及びその前記複数のセマンティック領域ユニットのそれぞれに基づき、それぞれのセマンティック領域ユニットに対する特徴を前記特徴抽出ネットワークによって抽出することは、前記透視画像に基づき、前記透視画像に対する特徴図を前記特徴抽出ネットワークによって取得することと、前記透視画像におけるそれぞれのセマンティック領域ユニットの座標に基づき、それぞれのセマンティック領域ユニットに対する相応的な特徴を前記特徴図から取得することと、を含む。
【0016】
第1方面に基づき、前記方法は、取得されたそれぞれのセマンティック領域ユニットに対する相応的な特徴に対して特徴次元固定を行うことで、それぞれのセマンティック領域ユニットに対する相応的な特徴が同じ大きさの特徴次元に正規化されるようにすること、をさらに含んでもよい。
【0017】
第1方面に基づき、前記画像特徴ライブラリは容疑物を有しない過去の透視画像に基づいて構築されたものであるとともに、前記画像特徴ライブラリを構築するための透視画像には1つ以上のコンテンツ情報が記録される。
【0018】
第1方面に基づき、前記コンテンツ情報に基づき、セマンティック領域ユニットに最も似ている画像を前記画像特徴ライブラリから検索する。
【0019】
第1方面に基づき、セマンティック領域ユニットに最も似ている画像は予定数の画像である。
【0020】
第1方面に基づき、前記方法は、前記被検対象に関する情報を表示ユニットによって表示すること、をさらに含んでもよい。
【0021】
本開示の第2方面は、セマンティックベースの透視画像検索装置を提供している。当該装置は、被検対象が含まれる閉空間に対する透視画像を取得するように配置される透視画像取得モジュールと、前記透視画像を第1方法によってセマンティック区画することで複数のセマンティック領域ユニットを取得するように配置される画像セマンティック区画モジュールと、特徴抽出ネットワークを第2方法によって構築するとともに、前記透視画像及びその前記複数のセマンティック領域ユニットのそれぞれに基づき、それぞれのセマンティック領域ユニットに対する特徴を前記特徴抽出ネットワークによって抽出するように配置される特徴抽出モジュールと、それぞれのセマンティック領域ユニットに対する特徴に基づき、当該セマンティック領域ユニットに最も似ている画像を画像特徴ライブラリから検索することで、当該セマンティック領域ユニットにおける被検対象の確定を補助するように配置される画像検索モジュールと、を含んでもよい。
【0022】
本開示の第3方面は、電子機器を提供している。当該電子機器は、1つ以上のプロセッサと、1つ以上のプログラムを記憶するためのメモリとを備えてもよい。だたし、前記1つ以上のプログラムが前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサが第1方面に記載の方法を実現する。
【0023】
本開示の第4方面は、実行可能な命令が記憶されるコンピュータ読取り可能な記憶媒体を提供している。当該命令がプロセッサに実行されるとき、プロセッサが第1方面に記載の方法を実現する。
【0024】
以上の方面に基づき、画像検索技術を利用して透視画像のそれぞれのセマンティック領域のために類似画像及び申告情報の推薦を提供し、通関、荷物検査などのセキュリティ分野においてプラスの効果がある。従来の技術手段はパターン認識を利用し、領域全体に対して検索を行うものであり、被検対象のセマンティック要素を考慮していない。実際の応用において、混雑な被検対象に対して、視覚的に分割できるセマンティック領域を最も小さいユニットとして検索する必要がある。
【0025】
本開示は画像セマンティック情報を考慮し、画像に対してセマンティック要素抽出を行い、透視画像の各セマンティック領域を基本的なユニットとして検索し、各セマンティック領域の類似物体領域及び申告情報などを提供し、検査員が画像領域の対比を行えるようにして検査を補助する能力を向上させる。
【0026】
図面を参照しながら本開示の実施例を詳しく説明することによって、本開示の上記内容、他の実施例及び特徴はより明確になる。
【図面の簡単な説明】
【0027】
図1図1は本開示実施例によるセマンティックベースのコンテナ貨物検索方法の概略構造を模式的に示す。
図2図2は本開示実施例によるセマンティックベースのコンテナ貨物検索方法のフローチャートを模式的に示す。
図3図3は本開示実施例によるセマンティック領域区画を行う前後の貨物透視画像を模式的に示す。
図4図4は本開示実施例によるそれぞれのセマンティック領域ユニットの特徴を抽出するための第1実施例のフローチャートを模式的に示す。
図5図5は本開示実施例によるそれぞれのセマンティック領域ユニットの特徴を抽出するための第2実施例のフローチャートを模式的に示す。
図6図6は本開示実施例によるそれぞれのセマンティック領域ユニットの特徴を抽出するための第3実施例のフローチャートを模式的に示す。
図7図7は本開示実施例によるそれぞれのセマンティック領域ユニットに対して検索を行うためのフローチャートを模式的に示す。
図8図8は本開示実施例によるセマンティックベースのコンテナ貨物検索装置のブロック図を模式的に示す。
図9図9は本開示実施例によるセマンティックベースのコンテナ貨物検索方法の実現に適用する電子機器のブロック図を模式的に示す。
【発明を実施するための形態】
【0028】
以下、本開示の具体的な実施例を詳しく説明する。ここで説明する実施例は例示として説明するためのものに過ぎず、本開示を制限するものではないことに留意すべきである。以下の説明において、本開示を完全に理解させるために、多くの特定の詳細が説明されている。しかしながら、当業者であれば明らかに分かるように、これら特定の詳細を採用して本開示を実現する必要がない。他の例において、本開示を曖昧にすることを避けるために、周知の回路、材料、又は方法は詳しく説明されていない。
【0029】
明細書全文において、「1つの実施例」、「実施例」、「1つの例示」又は「例示」への言及は、当該実施例又は例示を参照して説明した特定の特徴、構成又は特性が本開示の少なくとも1つの実施例に含まれることを意味する。したがって、明細書全文に渡る「1つの実施例において」、「実施例において」、「1つの例示」又は「例示」という表現は必ずしも同一の実施例又は例示を指すとは限らない。また、任意の適切な組み合わせ及び/又はサブコンビネーションによって、特定の特徴、構成又は特性を1つ以上の実施例又は例示に取り入れることができる。
【0030】
ある要素は、別の要素に「結合」又は「接続」されると記載される場合、他の要素に直接結合又は接続されてもよく、中間要素を介在させながら他の要素に結合又は接続されてもよいと理解されたい。逆に、ある要素が別の要素に「直接結合される」又は「直接接続される」と記載される場合、中間要素は存在しない。
【0031】
また、ここで使用する「及び/又は」という用語は、1つ以上の関連して列挙された項目の任意及びすべての組み合わせを含む。
【0032】
関連文脈には明確な提示がない限り、用語に対応する単数形の名詞は、1つ以上のものを含み得ると理解されたい。例えばここで使用する「A又はB」、「AとBの少なくとも1つ」、「A又はBの少なくとも1つ」、「A、B又はC」、「A、B及びCの少なくとも1つ」及び「A、B又はCの少なくとも1つ」のような表現のそれぞれは、前記複数の表現のうちの1つにおいて、一緒に列挙された項目のすべての可能な組み合わせを含み得る。例えばここで使用する「第1」及び「第2」或いは「第一」及び「第二」のような用語は、相応の部品を別部品と簡単に区別させるためのものであり、かつ他の点(例えば、重要性又は順序)において前記部品を制限するものではない。
【0033】
例えばここで使用する「モジュール」という用語は、ハードウェア、ソフトウェア又はファームウェアで実現されるユニットを含んでもよく、かつ他の用語(例えば、「論理」、「論理ブロック」、「部分」又は「回路」)と互いに交換可能に使用されてもよい。モジュールは、1つ以上の機能を実行するように配置された単一の集積部品、又は当該単一の集積部品の最小ユニット又は部分であってもよい。例えば、実施例に基づき、専用集積回路(ASIC)の形でモジュールを実現してもよい。
【0034】
本開示の様々な実施例及びそのうちの用語は、説明される技術特徴を具体的な実施例に限定するためのものではなく、相応の実施例に対する様々な変更、同等物又は代替物を含むものであると理解されたい。本明細書で明確に定義されていない限り、すべての用語は、本明細書に示唆される意味、当業者によって理解される意味、及び/又は辞書、論文などで定義される意味を含めて、可能な限り広い意味に解釈される。
【0035】
また、当業者であれば理解できるように、ここで提供する図面は何れも説明するためのものであり、かつ図面は必ずしも縮尺通りに描かれたものであるとは限らない。図面の説明について、類似な符号は類似又は相関な要素を示すことができる。以下、図面を参照しながら本開示を例示的に説明する。
【0036】
近年、人工知能と深層学習技術が発展し続け、次第に製品化されるのに従って、人工知能手段によってセキュリティ検査を実現するようになっている。現在、人工知能手段を利用して透視画像を検査する技術はすでに存在しているが、従来の人工知能手段は、透視画像のうちのコンテナ検査の知能化方向に向き、リスク予測に向くものが多い。
【0037】
画像検索技術は、主に自然画像検索と医学透視画像検索に集中して広く使用されている。現在、透視画像に対する検索技術も存在しているが、従来の技術は伝統的な機械学習を利用して透視画像を検索するものであり、透視画像のセマンティック情報を考慮せず、セマンティック要素を抽出せず、即ち画像全体のみに対して検索を行うものであり、透視画像領域全体に対する検索はやや粗雑で不正確である。しかしながら、実際、視覚的形態が多様な同種の物体或いは多種の物体が同一の透視画像に現れる可能性が高いため、このとき、各独立的領域を徹底的に検査するために、透視画像における視覚的に分割できる画像領域ごとに個別に検索する必要がある。
【0038】
上記の課題を解決するために、本開示の実施例は、より効率的で精密なセマンティックベースの透視画像検索方法及び当該方法を実行する装置を提供している。前記方法は、被検対象が含まれる空間に対する透視画像を透視画像取得装置によって取得することと、前記透視画像を第1方法によってセマンティック区画することで複数のセマンティック領域ユニットを取得することと、特徴抽出ネットワークを第2方法によって構築することと、前記透視画像及びその前記複数のセマンティック領域ユニットのそれぞれに基づき、それぞれのセマンティック領域ユニットに対する特徴を前記特徴抽出ネットワークによって抽出することと、それぞれのセマンティック領域ユニットに対する特徴に基づき、画像特徴ライブラリから当該セマンティック領域ユニットに最も似ている画像領域を検索し、当該セマンティック領域ユニットにおける被検対象の確定又は理解を補助するようにすることと、を含む。
【0039】
以下、図面及び具体的な実施例を参照しながら本開示を詳しく説明する。
説明を明確かつ容易にするために、以下の説明において、コンテナを被検対象が含まれる空間の具体的な例示とし、相応的には、コンテナ中の貨物を被検対象の具体的な例示とする。しかしながら、当業者であれば理解できるように、コンテナ、貨物及び対応する説明用語(例えば、セマンティックベースのコンテナ貨物検索方法、セマンティックベースのコンテナ貨物検索装置など)は何れも制限作用を有せず、説明を容易にするためのものである。当業者は当該方法を使用する場面によって説明用語を変更することができる。
【0040】
図1は本開示実施例によるセマンティックベースのコンテナ貨物検索方法の概略構造100を模式的に示す。
【0041】
当該概略構造100は、透視画像取得装置101、コンテナ102、中央処理ユニット103及び記憶装置104を含んでもよい。だたし、透視画像取得装置101、処理装置103及び記憶装置104は互いに通信可能である。
【0042】
透視画像取得装置101はコンテナ102に対して透視撮影を行うことで、コンテナ102内部の貨物透視画像を取得するように配置されてもよい。
【0043】
図1は透視画像取得装置を1つのみ示しているが、当業者であれば理解できるように、透視画像取得装置は2つ以上であってもよい。また、透視画像取得装置をコンテナ102に対して異なる位置に設置してもよい。
【0044】
中央処理ユニット103は、透視画像取得装置102から貨物透視画像を取得し、貨物透視画像をセマンティック区画することで貨物透視画像における貨物が占める領域を複数のセマンティック領域ユニットに区画するとともに、複数のセマンティック領域ユニットのそれぞれに対して検索を行うことでそれぞれのセマンティック領域ユニットにおける貨物の理解又は確定を補助するように配置されてもよい。
【0045】
中央処理ユニット103は、プロセッサ(図示せず)及び通信モジュール(図示せず)などを含んでもよい。
【0046】
中央処理ユニット103のプロセッサは、セマンティックベースのコンテナ貨物検索方法に関連する任意の操作を実行するように配置されてもよい。
【0047】
通信モジュールは、プロセッサ(例えば、アプリケーションプロセッサ(AP))に独立して操作できる1つ以上の通信プロセッサを備えるとともに、有線通信及び/又は無線通信を支持するようになってもよい。本開示実施例によれば、通信モジュールは、無線通信モジュール(例えば、セルラー通信モジュール、短距離無線通信モジュール又はグローバルナビゲーション衛星システム(GNSS)通信モジュール)或いは有線通信モジュール(例えば、ローカルエリアネットワーク(LAN)通信モジュール又は電力線通信(PLC)モジュール)を含んでもよい。これら通信モジュールのうちの1つは、第1ネットワーク(例えば、ブルートゥース(登録商標)、ワイファイ(Wi-Fi)直結又は赤外線通信協会(IrDA)のような短距離通信ネットワーク)或いは第2ネットワーク(例えば、セルラーネットワーク、インターネット、又はコンピュータネットワーク(例えば、LAN又は広域ネットワーク(WAN))のような長距離通信ネットワーク)を介して外部電子装置と通信してもよい。これら各種タイプの通信モジュールを単一の部品(例えば、ワンチップ)として実現してもよく、互いに離間する複数の部品(例えば、複数のチップ)として実現してもよい。無線通信モジュールは、ユーザ識別モジュールに記憶されるユーザ情報(例えば、国際モバイル加入者識別コード(IMSI))を用いて通信ネットワーク(例えば第1ネットワーク或いは第2ネットワーク)における電子装置を識別して検証してもよい。
【0048】
また、中央処理ユニット103は、現在検索されている領域における貨物に関する情報(例えば、類別など)を表示又はアナウンスするためのディスプレイ、マイクロホンなどをさらに含んでもよい。
【0049】
記憶装置104は、中央処理ユニット103がセマンティックベースのコンテナ貨物検索方法に関連する任意の操作を実行する際に必要なデータや命令、及び/又はセマンティックベースのコンテナ貨物検索方法に関連する任意の操作を実行する際に生じるデータや命令などを記憶するように配置されてもよい。
【0050】
1つの例示的な実施例において、記憶装置104は、過去貨物画像、貨物画像に関連する申告情報、画像シリアルナンバ、過去画像における各貨物領域の各自の画像における座標、各貨物領域の特徴、各領域における貨物申告情報、領域における貨物を表す広義的な類別情報、及び製品名税番号などを記憶してもよい。
【0051】
以上、記憶装置104に記憶されるいくつかの例示的な情報のみが挙げられている。当業者であれば理解できるように、必要、特定な実現方式、操作などに応じて記憶装置104に各種の情報を記憶してもよい。
【0052】
図2は本開示実施例によるセマンティックベースのコンテナ貨物検索方法のフローチャートを模式的に示す。
【0053】
図2に示すように、当該方法は以下の操作を有する。
操作S201において、透視画像取得装置は、コンテナに対して透視像結を行うことでコンテナ内の貨物透視画像を取得し、貨物が占める領域を明らかに見えるようにする。
【0054】
操作S203において、中央処理ユニットは、透視画像取得装置から貨物透視画像を取得し、取得された貨物透視画像を第1方法によってセマンティック区画することで、貨物透視画像における貨物が占める領域の画像を複数のセマンティック領域ユニットに区画する。
【0055】
例示的な実施例において、複数のセマンティック領域ユニットは互いの重なり程度が小さく、例えば、重なり領域がそれぞれのセマンティック領域ユニットの10%、5%、3%又はそれより小さい部分を占める。
【0056】
セマンティック領域ユニットは、エッジが互いに重なるが、重なり領域がないことが好ましい。
【0057】
例えば図3に示すように、貨物透視画像をセマンティック区画するとは、貨物の視覚的形態又は放置形式に従って、貨物が占める領域を視覚的に分割できる領域に分割することをいう。貨物透視画像をセマンティック区画すると、図3における各破線枠領域は貨物のそれぞれのセマンティックユニット領域であり、すべてのセマンティックユニット領域が貨物全体を覆う。以後の操作は何れもセマンティック領域ユニットを基本的な単位として実行するものである。
【0058】
例示的な実施例において、貨物透視画像に対してセマンティック領域区画を行う第1方法は、選択的検索(selective search)、似物性(objectness)技術、及び深層学習において広く使用される領域推薦ネットワーク(Region Proposal Net,RPN)などを含んでもよいが、これらに限らない。
【0059】
本実施例において、RPN技術を例として説明する。
RPN技術は手動でマークされた大量の物体枠に対して学習し、第1モデルを取得する。貨物透視画像に対してセマンティック領域区画を行う間、まず第1モデルを用いて、マークした際の物体枠に類似する物体枠を予測し、画像の物体領域に対して推薦を行う。
【0060】
なお、貨物検査の必要から、本開示における物体枠はすべての貨物領域を覆う必要がある。したがって、本開示で使用されるRPNネットワークは慣例的な目標検出で使用されるものと異なり、予測された物体枠に基づいてRPNネットワークの目標関数をさらに限定することで、物体枠が最終的に貨物領域を完全に覆うようにする必要がある。
【0061】
操作S205において、中央処理ユニットは特徴抽出ネットワークを第2方法によって構築する。ただし、第2方法は上記第1方法と異なる。
【0062】
例示的な実施例において、第2方法は基礎ネットワークResnetに特徴ピラミッドネットワークFPNネットワーク構造を取り入れる方法であってもよいが、これに限らない。
【0063】
操作S207において、操作S201において取得された貨物透視画像と操作S203において取得された複数のセマンティック領域ユニットとに基づき、それぞれのセマンティック領域ユニットの特徴を特徴抽出ネットワークによって抽出する。
【0064】
操作S209において、それぞれのセマンティック領域ユニットの特徴に基づき、当該セマンティック領域ユニットに最も似ている画像を画像特徴ライブラリから検索し、当該セマンティック領域ユニットにおける貨物の確定又は理解を補助するようにする。
【0065】
例示的には、当該セマンティック領域ユニットに最も似ている画像は場合によって1つの最も類似な画像であってもよいが、複数の類似度が最も高い画像であってもよい。
【0066】
本開示において、検索される基本的なユニットはセマンティック区画後のそれぞれのセマンティック領域ユニットであるため、それぞれのセマンティック領域ユニットの特徴を取得する必要がある。
【0067】
図4は本開示実施例によるそれぞれのセマンティック領域ユニットの特徴を抽出するための第1実施例のフローチャートを模式的に示す。
【0068】
図4に示すように、当該方法は以下の操作を有する。
操作S401において、それぞれのセマンティック領域ユニットに対して正規化操作を行い、一定の大きさのセマンティック領域ユニットを取得する。
【0069】
操作S403において、正規化されたセマンティック領域ユニットを特徴抽出ネットワークに入力する。
【0070】
操作S405において、入力される正規化されたセマンティック領域ユニットを特徴抽出ネットワークによって処理し、当該セマンティック領域ユニットの特徴を取得する。
【0071】
図5は本開示実施例によるそれぞれのセマンティック領域ユニットの特徴を抽出するための第2実施例のフローチャートを模式的に示す。
【0072】
図5に示すように、当該方法は以下の操作を有する。
操作S501において、貨物透視画像全体を特徴抽出ネットワークに入力する。
【0073】
操作S503において、入力される貨物透視画像全体を特徴抽出ネットワークによって処理し、貨物透視画像全体の特徴図を取得する。
【0074】
例示的には、貨物透視画像全体のP4層の特徴図をFPNネットワークによって取得する。
【0075】
操作S505において、貨物透視画像全体におけるそれぞれのセマンティック領域ユニットの座標に基づき、取得された貨物透視画像全体の特徴図から当該セマンティック領域ユニットに対する特徴を切り出す。
【0076】
図6は本開示実施例によるそれぞれのセマンティック領域ユニットの特徴を抽出するための第3実施例のフローチャートを模式的に示す。
【0077】
図6に示すように、当該方法は以下の操作を有する。
操作S601~S605は図5における操作S501~S505と一致するため、ここでは説明を省略する。
【0078】
操作S607において、取得されたそれぞれのセマンティック領域ユニットに対する特徴に対して特徴次元固定操作を行うことで、それぞれのセマンティック領域ユニットに対する特徴が同じ大きさの特徴次元に正規化されるようにする。
【0079】
例示的には、Roi-poolingを採用して特徴次元固定操作を実行してもよい。
図7は本開示実施例によるそれぞれのセマンティック領域ユニットに対して検索を行うフローチャートを模式的に示す。
【0080】
図7に示すように、当該方法は以下の操作を有する。
操作S701において、画像特徴ライブラリを過去画像によって構築する。
【0081】
例示的には、画像特徴ライブラリを構築するための過去画像における各画像は単一類別で容疑物を有しない画像であってもよい。
【0082】
例示的には、画像特徴ライブラリを構築するための過去画像及び検索中の貨物透視画像はコンテンツ情報を有してもよい。例示的には、コンテンツ情報は画像シリアルナンバ、それぞれのセマンティック領域ユニットのその貨物透視画像における座標、各領域の特徴表示、貨物申告情報、貨物を表す広義的な類別情報(例えば、製品名税番号或いは画像貨物全体特徴)を含んでもよいが、これらに限らない。
【0083】
操作S703において、貨物透視画像全体のコンテンツ情報に基づき、画像特徴図から予備画像を検索する。
【0084】
操作S705において、それぞれのセマンティック領域ユニットについて、セマンティック領域ユニットに対する特徴に基づいて予備画像から類似度が最も高い画像を選択する。
【0085】
例示的な実施例において、類似度が最も高い画像は1つ以上であってもよい。
例示的な実施例において、ユークリッド距離に基づいて類似度が最も高い画像を確定してもよい。
【0086】
別の実施例において、特徴ライブラリにおける画像のすべてを予備画像とし、当該すべての画像から類似する画像(1つ以上)を見つけるようになってもよい。
【0087】
図8は本開示実施例によるセマンティックベースのコンテナ貨物検索装置800のブロック図を模式的に示す。
【0088】
図8に示すように、セマンティックベースのコンテナ貨物検索装置800は透視画像取得モジュール810、画像セマンティック区画モジュール830、特徴抽出モジュール850及び画像検索モジュール870を含んでもよい。
【0089】
透視画像取得モジュール810はコンテナ内の貨物透視画像を取得するように配置されてもよい。
【0090】
画像セマンティック区画モジュール830は、貨物透視画像を第1方法によってセマンティック区画することで複数のセマンティック領域ユニットを取得するように配置されてもよい。
【0091】
特徴抽出モジュール850は、特徴抽出ネットワークを第2方法によって構築し、前記貨物透視画像及びその前記複数のセマンティック領域ユニットのそれぞれに基づいてそれぞれのセマンティック領域ユニットに対する特徴を前記特徴抽出ネットワークによって抽出するように配置されてもよい。
【0092】
画像検索モジュール870は、それぞれのセマンティック領域ユニットに対する特徴に基づき、当該セマンティック領域ユニットに最も似ている画像を画像特徴ライブラリから検索することで、当該セマンティック領域ユニットにおける貨物の類別を確定するように配置されてもよい。
【0093】
上記モジュール810、830、850及び870以外、セマンティックベースのコンテナ貨物検索装置800は上記各種の操作を対応的に実行するための他のモジュールをさらに含んでもよい。
【0094】
例えば、セマンティックベースのコンテナ貨物検索装置800は、ユーザに各種の情報(例えば、過去類似画像及びマッチング情報を表すもの)を表示するための表示モジュールをさらに含んでもよい。
【0095】
また、上記モジュール810、830、850及び870による操作以外、モジュール810、830、850及び870はさらに前述において説明した操作における任意の適切な操作を適応的に実行してもよい。
【0096】
記載を明確かつ簡潔にするために、ここでは各モジュール及びそれらによる対応的な操作の説明を省略する。
【0097】
本開示の実施例による複数のモジュールの機能を1つのモジュールで実現してもよい。本開示実施例による1つのモジュールを複数のモジュールに分割して実現してもよい。本開示実施例によるモジュールは、少なくとも部分的に例えばフィールド・プログラマブル・ゲート・アレイ(FPGA)、プログラマブル・ロジック・アレイ(PLA)、チップ上システム、基板上システム、パッケージ上システム、専用集積回路(ASIC)のようなハードウェア回路として実現されてもよく、回路を集積又はパッケージする任意の他の合理的な方式のハードウェア又はファームウェアによって実現されてもよく、ソフトウェア、ハードウェア及びファームウェアの3つの実現方式のうちの任意の1つ以上の適当な組み合わせによって実現されてもよい。また、本開示実施例によるモジュールは、少なくとも部分的にコンピュータプログラムモジュールとして実現され、当該コンピュータプログラムモジュールが運転する際に、相応の機能を実行するようになってもよい。
【0098】
本開示の実施例によれば、上記モジュールのうちの少なくとも1つは、少なくとも部分的に例えばフィールド・プログラマブル・ゲート・アレイ(FPGA)、プログラマブル・ロジック・アレイ(PLA)、チップ上システム、基板上システム、パッケージ上システム、専用集積回路(ASIC)のようなハードウェア回路として実現されてもよく、回路を集積又はパッケージする任意の他の合理的な方式のハードウェア又はファームウェアによって実現されてもよく、ソフトウェア、ハードウェア及びファームウェアの3つの実現方式のうちの任意の1つ以上の適当な組み合わせによって実現されてもよい。選択的に、上記モジュールのうちの少なくとも1つは、少なくとも部分的にコンピュータプログラムモジュールとして実現され、当該コンピュータプログラムモジュールが運転する際に、相応の機能を実行するようになってもよい。
【0099】
図9は本開示実施例による前述のセマンティックベースのコンテナ貨物検索方法の実現に適用する電子機器のブロック図を模式的に示す。図9に示す電子機器は1つの例示に過ぎず、本開示実施例の機能及び使用範囲をなんら制限すべきではない。
【0100】
図9に示すように、本開示実施例による電子機器900はプロセッサ901を備え、当該プロセッサ901は、リードオンリーメモリ(ROM)902に記憶されるプログラム或いは記憶部分908からランダムアクセスメモリ(RAM)903にロードしたプログラムによって各種の適当な動作及び処理を実行するようになってもよい。プロセッサ901は、例えば汎用マイクロプロセッサ(例えばCPU)、命令セットプロセッサ及び/又は関連チップセット及び/又は専用マイクロプロセッサ(例えば、専用集積回路(ASIC))などを有してもよい。プロセッサ901は、キャッシング目的のためのオンボードメモリをさらに有してもよい。プロセッサ901は、本開示実施例による方法工程の異なる動作を実行するための単一処理ユニット又は複数の処理ユニットを有してもよい。
【0101】
RAM903には、電子機器900の操作に必要な各種のプログラム及びデータが記憶される。プロセッサ901、ROM902及びRAM903はバス904によって互いに接続される。プロセッサ901は、ROM902及び/又はRAM903におけるプログラムを実行することで本開示実施例による方法工程の各種の操作を実行する。なお、前記プログラムはROM902及びRAM903以外の1つ以上のメモリに記憶されてもよい。プロセッサ801は前記1つ以上のメモリに記憶されるプログラムを実行することで本開示実施例による方法工程の各種の操作を実行してもよい。
【0102】
本開示の実施例によれば、電子機器900は、入出力(I/O)インターフェース905をさらに含んでもよい。入出力(I/O)インターフェース905もバス904に接続される。電子機器800は、I/Oインターフェース905に接続される部品のうちの1つ以上を有してもよく、前記部品は、キーボード、マウスなどを有する入力部分906と、例えば陰極線管(CRT)、液晶ディスプレイ(LCD)など及びラウドスピーカーなどを有する出力部分907と、ハードディスクなどを有する記憶部分908と、例えばLANカード、モデムなどを有するネットワークインターフェースカードの通信部分909とを含む。通信部分909は、例えばインターネットのようなネットワークによって通信処理を実行する。ドライバ910も必要に応じてI/Oインターフェース905に接続される。例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのような取り外し可能な媒体911は必要に応じてドライバ910に取り付けられることにより、読み出されたコンピュータプログラムが必要に応じて記憶部分908にインストールされるようにする。
【0103】
本開示の実施例によれば、本開示実施例による方法工程はコンピュータソフトウェアプログラムとして実現されてもよい。例えば、本開示の実施例はコンピュータプログラム製品を含み、当該コンピュータプログラム製品は、コンピュータ読取り可能な記憶媒体に記憶されてフローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを備える。このような実施例において、当該コンピュータプログラムは通信部分909によってネットワークからダウンロードされてインストールされ、及び/又は取り外し可能な媒体911からインストールされてもよい。当該コンピュータプログラムはプロセッサ901によって実行される際に、本開示実施例のシステムにおいて限定される上記機能を実行する。本開示の実施例によれば、上記説明したシステム、機器、装置、モジュール、ユニットなどはコンピュータプログラムモジュールによって実現されることができる。
【0104】
本開示はさらにコンピュータ読取り可能な記憶媒体を提供している。当該コンピュータ読取り可能な記憶媒体は、上記実施例に記載の機器/装置/システムに含まれるものであってもよく、当該機器/装置/システムに取り付けられずに単独で存在するものであってもよい。上記コンピュータ読取り可能な記憶媒体は1つ以上のプログラムを記憶する。上記1つ以上のプログラムが実行されるとき、本開示実施例の方法を実現する。
【0105】
本開示の実施例によれば、コンピュータ読取り可能な記憶媒体は、例えばポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能でプログラミング可能なリードオンリーメモリ(EPROM又はフラッシュメモリ)、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光メモリ、磁気メモリ、或いはこれらの任意の適切な組み合わせのような不揮発性のコンピュータ読取り可能な記憶媒体であってもよいが、これらに限らない。本開示において、コンピュータ読取り可能な記憶媒体は、プログラムを含むまたは記憶する任意の有形の媒体であってもよい。当該プログラムは、命令実行システム、装置又は部品に使用され、或いはそれらに組み合わせて使用されることができる。例えば、本開示の実施例によれば、コンピュータ読取り可能な記憶媒体は、上記説明したROM902及び/又はRAM903及び/又はROM902とRAM903以外の1つ以上のメモリを含んでもよい。
【0106】
図面におけるフローチャートとブロック図は、本開示における各種実施例によるシステム、方法及びコンピュータプログラム製品で実現可能な体系構造、機能及び操作を示している。この点について、フローチャート又はブロック図におけるそれぞれのブロックは、所定のロジック機能を実現するための実行可能な命令を1つ以上含む1つのモジュール、プログラムセグメント、またはコードの一部を表すことができる。なお、いくつかの代替の実現方式では、ブロックに記載された機能は、記載された順序と異なる順序で発生することもできる。例えば、接続している前後2つのブロックは、ほぼ並行して実行されることもでき、関連機能によって逆の順序で実行することもできる。なお、ブロック図又はフローチャートにおけるそれぞれのブロック、及びブロックの組み合わせは、所定の機能又は操作を実行する、ハードウェアに基づく専用システムによって実現されてもよく、専用ハードウェアとコンピュータ命令との組み合わせによって実現されてもよい。
【0107】
当業者であれば理解できるように、本開示の各実施例及び/又は技術案に記載の特徴について、本開示に明確に記載されていなくても、多種の組み合わせ及び/又は結合を行うことができる。特に、本開示の主旨及び教示から逸脱しない限り、本開示の各実施例及び/又は技術案に記載の特徴について、多種の組み合わせ及び/又は結合を行うことができる。これらの組み合わせ及び/又は結合のすべては何れも本開示の範囲に入る。
【0108】
以上、本開示の実施例を説明した。しかしながら、これら実施例は説明のためのものに過ぎず、本開示の範囲を制限するためのものではない。以上に各実施例のそれぞれを説明したが、各実施例における手段を有利に組み合わせて使用できないことを意味していない。本開示の範囲は添付した請求の範囲及びその同等なものに限定される。本開示を逸脱しない範囲において、当業者は多種の代替及び補正を行うことができる。これら代替及び補正は何れも本開示の範囲に入るべきである。
図1
図2
図3
図4
図5
図6
図7
図8
図9