(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-01
(45)【発行日】2024-04-09
(54)【発明の名称】オブジェクト検出装置、オブジェクト検出システム及びオブジェクト検出方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20240402BHJP
【FI】
G06T7/00 350C
(21)【出願番号】P 2020194858
(22)【出願日】2020-11-25
【審査請求日】2023-05-11
(73)【特許権者】
【識別番号】000233055
【氏名又は名称】株式会社日立ソリューションズ
(74)【代理人】
【識別番号】110000062
【氏名又は名称】弁理士法人第一国際特許事務所
(72)【発明者】
【氏名】▲とう▼ 紫薇
(72)【発明者】
【氏名】孔 全
(72)【発明者】
【氏名】秋良 直人
(72)【発明者】
【氏名】吉永 智明
【審査官】▲広▼島 明芳
(56)【参考文献】
【文献】特開2019-021313(JP,A)
【文献】John B. Sigman, et al.,Background Adaptive Faster R-CNN for Semi-Supervised Convolutional Object Detection of Threats in X-Ray Images,arxiv,米国,2020年10月02日,https://arxiv.org/pdf/2010.01202.pdf
【文献】Yuhu Shan, et al.,Pixel and Feature Level Based Domain Adaption for Object Detection in Autonomous Driving,arxiv,米国,2019年08月11日,https://arxiv.org/pdf/1810.00345.pdf
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
(57)【特許請求の範囲】
【請求項1】
X線画像におけるオブジェクトを検出するためのオブジェクト検出装置であって、
ソースドメインに対応するソースドメイン画像と、ターゲットドメインに対応するターゲットドメイン画像とを含む入力画像セットを受け付ける画像入力部と、
前記入力画像セットに対するドメイン変換処理を行い、前記ソースドメイン画像を前記ターゲットドメインに変換した疑似ターゲットドメイン画像と、前記ターゲットドメイン画像を前記ソースドメイン画像に変換した疑似ソースドメイン画像とを含む変換画像セットを生成するドメイン変換部と、
前記入力画像セットと、前記変換画像セットとで画像ペアを生成するペア生成部と、
前記画像ペアに含まれる各画像について、特徴マップを抽出する特徴抽出部と、
前記特徴マップに基づいて、前記画像ペアに含まれる各画像におけるオブジェクトのカテゴリー及び位置を示す予測結果を生成する検出予測部と、
所定のX線画像を解析することで、前記X線画像におけるオブジェクトのカテゴリー及び位置を示す検出結果を生成するオブジェクト検出部と、
を含むことを特徴とするオブジェクト検出装置。
【請求項2】
前記ペア生成部は、
前記入力画像セットと、前記変換画像セットとの中から、撮影内容が所定の類似度基準を満たす第1の画像及び第2の画像をポジティブペアとし、
前記入力画像セットと、前記変換画像セットとの中から、撮影内容が所定の類似度基準を満たさない第3の画像及び第4の画像をネガティブペアとする、
ことを特徴とする、請求項1に記載のオブジェクト検出装置。
【請求項3】
前記特徴抽出部は、
前記ポジティブペアに含まれる第1の画像について第1の特徴マップを抽出し、
前記ポジティブペアに含まれる第2の画像について第2の特徴マップを抽出し、
前記ネガティブペアに含まれる第3の画像について第3の特徴マップを抽出し、
前記ネガティブペアに含まれる第4の画像について第4の特徴マップを抽出し、
前記オブジェクト検出装置は、
前記第1の特徴マップと前記第2の特徴マップとの乖離度である第1の乖離度を計算し、
前記第3の特徴マップと前記第4の特徴マップとの乖離度である第2の乖離度を計算する画像乖離度計算部と、
を更に含むことを特徴とする、請求項2に記載のオブジェクト検出装置。
【請求項4】
前記オブジェクト検出装置は、
前記ポジティブペアに含まれる第1の画像及び第2の画像について、前記第1の乖離度を減算させるための第1の適応損失パラメータを計算し、
前記ネガティブペアに含まれる第3の画像及び第4の画像について、前記第2の乖離度を向上させるための第2の適応損失パラメータを計算するための適応損失計算部と、
を更に含むことを特徴とする、請求項3に記載のオブジェクト検出装置。
【請求項5】
前記予測結果と、前記オブジェクトの実際のカテゴリー及び実際の位置を示すグラウンドトゥルースとを比較することで、前記オブジェクト検出部による検出損失を示す検出損失パラメータを計算するための検出損失計算部と、
前記検出損失パラメータと、前記第1の適応損失パラメータ及び前記第2の適応損失パラメータとを用いて、前記オブジェクト検出部のパラメータを更新することで前記オブジェクト検出部を訓練するパラメータ更新部と、
を更に含むことを特徴とする、請求項4に記載のオブジェクト検出装置。
【請求項6】
前記オブジェクト検出部が深層ニューラルネットワークである、
ことを特徴とする、請求項5に記載のオブジェクト検出装置。
【請求項7】
X線画像におけるオブジェクトを検出するためのオブジェクト検出システムであって、
X線画像を解析し、オブジェクトを検出するためのオブジェクト検出装置と、
前記X線画像を撮影し、前記オブジェクト検出装置に送信するためのX線装置とが通信ネットワークを介して接続されており、
前記オブジェクト検出装置は、
ソースドメインに対応するソースドメイン画像と、ターゲットドメインに対応するターゲットドメイン画像とを含む入力画像セットを受け付ける画像入力部と、
前記入力画像セットに対するドメイン変換処理を行い、前記ソースドメイン画像を前記ターゲットドメインに変換した疑似ターゲットドメイン画像と、前記ターゲットドメイン画像を前記ソースドメイン画像に変換した疑似ソースドメイン画像とを含む変換画像セットを生成するドメイン変換部と、
前記入力画像セットと、前記変換画像セットとで画像ペアを生成するペア生成部と、
前記画像ペアに含まれる各画像について、特徴マップを抽出する特徴抽出部と、
前記特徴マップに基づいて、前記画像ペアに含まれる各画像におけるオブジェクトのカテゴリー及び位置を示す予測結果を生成する検出予測部と、
前記X線装置から受信した前記X線画像を解析することで、前記X線画像におけるオブジェクトのカテゴリー及び位置を示す検出結果を生成し、前記検出結果を所定の通知先に送信するオブジェクト検出部と、
を含むことを特徴とするオブジェクト検出システム。
【請求項8】
X線画像におけるオブジェクトを検出するためのオブジェクト検出方法であって、
ソースドメインに対応するソースドメイン画像と、ターゲットドメインに対応するターゲットドメイン画像とを含む入力画像セットを受け付ける工程と、
前記入力画像セットに対するドメイン変換処理を行い、前記ソースドメイン画像を前記ターゲットドメインに変換した疑似ターゲットドメイン画像と、前記ターゲットドメイン画像を前記ソースドメイン画像に変換した疑似ソースドメイン画像とを含む変換画像セットを生成する工程と、
前記入力画像セットと、前記変換画像セットとの中から、撮影内容が所定の類似度基準を満たす第1の画像及び第2の画像をポジティブペアとし、前記入力画像セットと、前記変換画像セットとの中から、撮影内容が所定の類似度基準を満たさない第3の画像及び第4の画像をネガティブペアとすることで画像ペアを生成する工程と、
前記ポジティブペアに含まれる第1の画像について第1の特徴マップを抽出し、前記ポジティブペアに含まれる第2の画像について第2の特徴マップを抽出し、前記ネガティブペアに含まれる第3の画像について第3の特徴マップを抽出し、前記ネガティブペアに含まれる第4の画像について第4の特徴マップを抽出する工程と、
前記第1の特徴マップと前記第2の特徴マップとの乖離度である第1の乖離度を計算し、
前記第3の特徴マップと前記第4の特徴マップとの乖離度である第2の乖離度を計算する工程と、
前記ポジティブペアに含まれる第1の画像及び第2の画像について、前記第1の乖離度を減算させるための第1の適応損失パラメータを計算し、前記ネガティブペアに含まれる第3の画像及び第4の画像について、前記第2の乖離度を向上させるための第2の適応損失パラメータを計算する工程と、
前記第1の特徴マップ、前記第2の特徴マップ、前記第3の特徴マップ、及び前記第4の特徴マップに基づいて、前記画像ペアに含まれる各画像におけるオブジェクトのカテゴリー及び位置を示す予測結果を生成する工程と、
前記予測結果と、前記オブジェクトの実際のカテゴリー及び実際の位置を示すグラウンドトゥルースとを比較することで、オブジェクト検出による検出損失を示す検出損失パラメータを計算する工程と、
前記検出損失パラメータと、前記第1の適応損失パラメータ及び前記第2の適応損失パラメータとを用いて、オブジェクト検出用の深層ニューラルネットワークのパラメータを更新することでオブジェクト検出用の深層ニューラルネットワークを訓練する工程と、
訓練済みの前記オブジェクト検出用の深層ニューラルネットワークを用いて、所定のX線画像を解析することで、前記X線画像におけるオブジェクトのカテゴリー及び位置を示す検出結果を生成する工程と、
を含むことを特徴とするオブジェクト検出方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、オブジェクト検出装置、オブジェクト検出システム及びオブジェクト検出方法に関する。
【背景技術】
【0002】
近年、IT化の進展に伴い、社会に多数のセンサが配置され、極めて大量のデータが蓄積されている。そうした中、集積された画像データを活用する様々な方策が検討されている。特に、写真、動画、画像等の映像コンテンツが増える中、その映像におけるオブジェクトを自在に特定し、オブジェクトのカテゴリーや位置を正確に検出するニーズが高まっている。
【0003】
オブジェクト検出手段の一つとして、いわゆる深層ニューラルネットワーク(Deep Neural Network;DNN)が知られている。DNNの発展により、オブジェクト検出は、例えばX線画像解析等、様々な場面で活用することが可能となった。
【0004】
しかし、DNNで高精度のオブジェクト検出を実現するためには、DNNを訓練するためのラベル付き学習データが大量に必要となり、DNNを応用する場面によっては、このようなラベル付き学習データを入手することが困難な場合や、膨大なコストや労力を要する場合がある。そのため、入手が比較的に容易なドメインの学習データは大量に入手されるのに対して、入手が困難なドメインの学習データは少量となり、学習データが少ないドメインでのオブジェクト検出精度が限定される。
【0005】
上記の課題を解決するために、入手しやすいドメインのラベル付き学習データを活用し、DNNを訓練する手段として、例えば特開2019-032821号公報(特許文献1)がある。
【0006】
特許文献1には「コストがかかり、退屈であり、ミスを起こしやすい手作業による訓練データのラベル付けの必要性を減らす方法を提供する。方法は、対象カメラにより撮影された画像を画風目標画像として用い、あらゆる写実的な入力画像を変換後画像に変換する画風変換を行う画風変換ネットワークを訓練する。変換後画像は、入力画像の内容を有し、入力画像の写実品質が維持されており、画風目標画像の画風と一致する画風である。訓練済みの画風変換ネットワークを用いて、原訓練データセットの訓練画像を変換後訓練画像に変換し、各変換後訓練画像を原訓練データセットの対応する訓練画像の訓練ラベルでラベル付けして、水増し訓練データセットを作成し、水増し訓練データセットを用いて、特定の作業を行うようにディープニューラルネットワーク(DNN)を訓練する」技術が記載されている。
【先行技術文献】
【特許文献】
【0007】
【発明の概要】
【発明が解決しようとする課題】
【0008】
特許文献1では、画風変換ネットワークを用いて、特定のソースドメインに対応するラベル付き画像をターゲットのドメイン(特許文献1に記載の「目標画風」)に変換することで、当該ターゲットドメインに対応するラベル付き画像を取得し、このように取得した画像データを用いてDNNを訓練することが記載されている。
【0009】
しかし、特許文献1は、ターゲットドメインターゲットドメインに変換した疑似ターゲットドメインの画像(特許文献1に記載の「画風目標画像」)と、実際のターゲットドメインとの間で良好な近似精度が実現できることを前提としており、X線画像等のような、ソースドメインとターゲットドメインとの差が大きい(いわゆる「ドメインギャップ」が存在する)画像の場合、ターゲットドメインに変換した疑似ターゲットドメインの画像のラベルを用いてDNNを訓練したとしても、ターゲットドメインの画像に対するオブジェクト検出精度が限定されてしまう。
【0010】
そこで、本開示は、入手しやすいドメインのラベル付き学習データを活用し、ソースドメインとターゲットドメインとのドメインギャップを短縮させた上でDNNを訓練する。これによって、本開示は、X線画像等のような、ソースドメインとターゲットドメインとの差が大きい画像の場合であっても、高精度なオブジェクト検出手段を提供することを目的とする。
【課題を解決するための手段】
【0011】
上記の課題を解決するために、代表的な本開示のオブジェクト検出装置の一つは、X線画像におけるオブジェクトを検出するためのオブジェクト検出装置であって、ソースドメインに対応するソースドメイン画像と、ターゲットドメインに対応するターゲットドメイン画像とを含む入力画像セットを受け付ける画像入力部と、前記入力画像セットに対するドメイン変換処理を行い、前記ソースドメイン画像を前記ターゲットドメインに変換した疑似ターゲットドメイン画像と、前記ターゲットドメイン画像を前記ソースドメイン画像に変換した疑似ソースドメイン画像とを含む変換画像セットを生成するドメイン変換部と、前記入力画像セットと、前記変換画像セットとで画像ペアを生成するペア生成部と、前記画像ペアに含まれる各画像について、特徴マップを抽出する特徴抽出部と、前記特徴マップに基づいて、前記画像ペアに含まれる各画像におけるオブジェクトのカテゴリー及び位置を示す予測結果を生成する検出予測部と、所定のX線画像を解析することで、前記X線画像におけるオブジェクトのカテゴリー及び位置を示す検出結果を生成するオブジェクト検出部とを含む。
【発明の効果】
【0012】
本開示によれば、入手しやすいドメインのラベル付き学習データを活用し、ソースドメインとターゲットドメインとのドメインギャップを短縮させた上でDNNを訓練することで、X線画像等のような、ソースドメインとターゲットドメインとの差が大きい画像の場合であっても、高精度なオブジェクト検出手段を提供することができる。
上記以外の課題、構成及び効果は、以下の発明を実施するための形態における説明により明らかにされる。
【図面の簡単な説明】
【0013】
【
図1】
図1は、本開示の実施形態を実施するためのコンピュータシステムを示す図である。
【
図2】
図2は、本開示の実施形態に係るオブジェクト検出システムの構成の一例を示す図である。
【
図3】
図3は、本開示の実施形態に係るX線画像の一例を示す図である。
【
図4】
図4は、本開示の実施形態に係るオブジェクト検出装置におけるオブジェクト検出学習部の論理構成を示す図である。
【
図5】
図5は、本開示の実施形態に係るドメイン変換部によるドメイン変換処理の一例を示す図である。
【
図6】
図6は、本開示の実施形態に係る画像ペア生成部による画像ペア生成処理の一例を示す図である。
【
図7】
図7は、本開示の実施形態に係るドメインギャップ短縮の一例を示す図である。
【
図8】
図8は、本開示の実施形態に係るオブジェクト検出部訓練方法の一例を示す図である。
【
図9】
図9は、本開示の実施形態に係るオブジェクト検出処理の一例を示す図である。
【発明を実施するための形態】
【0014】
以下、図面を参照して、本開示の実施形態について説明する。なお、この実施形態により本開示が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
【0015】
上述したように、DNNを訓練するためのラベル付き学習データが大量に必要となり、DNNを応用する場面によっては、このようなラベル付き学習データを入手することが困難な場合や、膨大なコストや労力を要する場合がある。そのため、入手が比較的に容易なドメインの学習データは大量に入手されるのに対して、入手が困難なドメインの学習データは少量となり、学習データが少ないドメインでのオブジェクト検出精度が限定される。
従って、入手が困難なターゲットドメインの学習データを収集せずに、入手しやすいドメイン(以下、「ソースドメイン」という;英:「source domain」)のラベル付き学習データのみを活用し、任意のターゲットドメイン(英:「target domain」)に対して高精度のオブジェクト検出結果を生成できるDNNを訓練する手段があれば望ましい。
【0016】
ここでの「ドメイン」とは、画像の表示を規定するパラメータの集合を意味する。例えば、画像の色、鮮鋭度(シャープネス)、解像度、明るさ、コントラスト等の各種表示設定は、画像のドメインを規定するパラメータとなる。つまり、ドメインとは、データの集まりを意味するものである。
ソースドメインに対応するソースドメイン画像と、ターゲットドメインに対応するターゲットドメイン画像とで、上述した表示設定のパラメータが大きく相違すると、ソースドメインとターゲットドメインとの間でいわゆる「ドメインギャップ」が存在する。
【0017】
このようなドメインギャップが存在すると、例えばオブジェクト検出用のDNNがソースドメインのラベル付きデータによって訓練されたとしても、ラベル無しのドメインであるターゲットドメインの画像に対しては高精度のオブジェクト検出結果を生成することができない。
【0018】
そこで、上記の課題を鑑み、本開示の実施形態では、ラベル付きのソースドメイン画像及びラベル無しのターゲットドメイン画像を含む入力画像セットに加えて、ソースドメイン画像をターゲットドメインに変換した疑似ターゲットドメイン画像と、ターゲットドメイン画像をソースドメインに変換した疑似ソースドメイン画像とを含む変換画像セット用いてオブジェクト検出用のDNNを訓練する。これによって、本開示の実施形態では、ソースドメインとターゲットドメインとのドメインギャップを短縮すると共に、ターゲットドメインの画像についても高精度のオブジェクト検出結果を生成することができる。
【0019】
次に、
図1を参照して、本開示の実施形態を実施するためのコンピュータシステム300について説明する。本明細書で開示される様々な実施形態の機構及び装置は、任意の適切なコンピューティングシステムに適用されてもよい。コンピュータシステム300の主要コンポーネントは、1つ以上のプロセッサ302、メモリ304、端末インターフェース312、ストレージインタフェース314、I/O(入出力)デバイスインタフェース316、及びネットワークインターフェース318を含む。これらのコンポーネントは、メモリバス306、I/Oバス308、バスインターフェースユニット309、及びI/Oバスインターフェースユニット310を介して、相互的に接続されてもよい。
【0020】
コンピュータシステム300は、プロセッサ302と総称される1つ又は複数の汎用プログラマブル中央処理装置(CPU)302A及び302Bを含んでもよい。ある実施形態では、コンピュータシステム300は複数のプロセッサを備えてもよく、また別の実施形態では、コンピュータシステム300は単一のCPUシステムであってもよい。各プロセッサ302は、メモリ304に格納された命令を実行し、オンボードキャッシュを含んでもよい。
【0021】
ある実施形態では、メモリ304は、データ及びプログラムを記憶するためのランダムアクセス半導体メモリ、記憶装置、又は記憶媒体(揮発性又は不揮発性のいずれか)を含んでもよい。メモリ304は、本明細書で説明する機能を実施するプログラム、モジュール、及びデータ構造のすべて又は一部を格納してもよい。例えば、メモリ304は、オブジェクト検出アプリケーション350を格納していてもよい。ある実施形態では、オブジェクト検出アプリケーション350は、後述する機能をプロセッサ302上で実行する命令又は記述を含んでもよい。
【0022】
ある実施形態では、オブジェクト検出アプリケーション350は、プロセッサベースのシステムの代わりに、またはプロセッサベースのシステムに加えて、半導体デバイス、チップ、論理ゲート、回路、回路カード、および/または他の物理ハードウェアデバイスを介してハードウェアで実施されてもよい。ある実施形態では、オブジェクト検出アプリケーション350は、命令又は記述以外のデータを含んでもよい。ある実施形態では、カメラ、センサ、または他のデータ入力デバイス(図示せず)が、バスインターフェースユニット309、プロセッサ302、またはコンピュータシステム300の他のハードウェアと直接通信するように提供されてもよい。
【0023】
コンピュータシステム300は、プロセッサ302、メモリ304、表示システム324、及びI/Oバスインターフェースユニット310間の通信を行うバスインターフェースユニット309を含んでもよい。I/Oバスインターフェースユニット310は、様々なI/Oユニットとの間でデータを転送するためのI/Oバス308と連結していてもよい。I/Oバスインターフェースユニット310は、I/Oバス308を介して、I/Oプロセッサ(IOP)又はI/Oアダプタ(IOA)としても知られる複数のI/Oインタフェースユニット312,314,316、及び318と通信してもよい。
【0024】
表示システム324は、表示コントローラ、表示メモリ、又はその両方を含んでもよい。表示コントローラは、ビデオ、オーディオ、又はその両方のデータを表示装置326に提供することができる。また、コンピュータシステム300は、データを収集し、プロセッサ302に当該データを提供するように構成された1つまたは複数のセンサ等のデバイスを含んでもよい。
【0025】
例えば、コンピュータシステム300は、心拍数データやストレスレベルデータ等を収集するバイオメトリックセンサ、湿度データ、温度データ、圧力データ等を収集する環境センサ、及び加速度データ、運動データ等を収集するモーションセンサ等を含んでもよい。これ以外のタイプのセンサも使用可能である。表示システム324は、単独のディスプレイ画面、テレビ、タブレット、又は携帯型デバイスなどの表示装置326に接続されてもよい。
【0026】
I/Oインタフェースユニットは、様々なストレージ又はI/Oデバイスと通信する機能を備える。例えば、端末インタフェースユニット312は、ビデオ表示装置、スピーカテレビ等のユーザ出力デバイスや、キーボード、マウス、キーパッド、タッチパッド、トラックボール、ボタン、ライトペン、又は他のポインティングデバイス等のユーザ入力デバイスのようなユーザI/Oデバイス320の取り付けが可能である。ユーザは、ユーザインターフェースを使用して、ユーザ入力デバイスを操作することで、ユーザI/Oデバイス320及びコンピュータシステム300に対して入力データや指示を入力し、コンピュータシステム300からの出力データを受け取ってもよい。ユーザインターフェースは例えば、ユーザI/Oデバイス320を介して、表示装置に表示されたり、スピーカによって再生されたり、プリンタを介して印刷されたりしてもよい。
【0027】
ストレージインタフェース314は、1つ又は複数のディスクドライブや直接アクセスストレージ装置322(通常は磁気ディスクドライブストレージ装置であるが、単一のディスクドライブとして見えるように構成されたディスクドライブのアレイ又は他のストレージ装置であってもよい)の取り付けが可能である。ある実施形態では、ストレージ装置322は、任意の二次記憶装置として実装されてもよい。メモリ304の内容は、ストレージ装置322に記憶され、必要に応じてストレージ装置322から読み出されてもよい。I/Oデバイスインタフェース316は、プリンタ、ファックスマシン等の他のI/Oデバイスに対するインターフェースを提供してもよい。ネットワークインターフェース318は、コンピュータシステム300と他のデバイスが相互的に通信できるように、通信経路を提供してもよい。この通信経路は、例えば、ネットワーク330であってもよい。
【0028】
ある実施形態では、コンピュータシステム300は、マルチユーザメインフレームコンピュータシステム、シングルユーザシステム、又はサーバコンピュータ等の、直接的ユーザインターフェースを有しない、他のコンピュータシステム(クライアント)からの要求を受信するデバイスであってもよい。他の実施形態では、コンピュータシステム300は、デスクトップコンピュータ、携帯型コンピュータ、ノートパソコン、タブレットコンピュータ、ポケットコンピュータ、電話、スマートフォン、又は任意の他の適切な電子機器であってもよい。
【0029】
次に、
図2を参照して、本開示の実施形態に係るオブジェクト検出システムについて説明する。
【0030】
図2は、本開示の実施形態に係るオブジェクト検出システム200の構成の一例を示す図である。
図2に示すように、本開示に係るオブジェクト検出システム200は、主にX線装置211、通信ネットワーク202、及びオブジェクト検出装置201からなる。X線装置211及びオブジェクト検出装置201は、通信ネットワーク202を介して接続されている。
【0031】
通信ネットワーク202は、例えばローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、衛星ネットワーク、ケーブルネットワーク、Wi―Fiネットワーク、またはそれらの任意の組み合わせを含むものであってもよい。また、X線装置211とオブジェクト検出装置201の接続は、有線であってもよく、無線であってもよい。
【0032】
X線装置211は、X線画像を撮影する装置である。X線装置211は、例えばX線を放射するX線発生器と、反射するX線を検出し、解析するX線検出器とからなる。本開示に係るX線装置211の種類は特に限定されず、荷物用のX線装置であってもよく、後方散乱X線検査装置であってもよく、医療用のX線装置であってもよい。X線装置211は、所定の被写体のX線画像を撮影し、通信ネットワーク202を介してオブジェクト検出装置201に送信するように構成されている。
なお、
図2では、X線画像を処理する構成として、X線装置211を含む場合の構成を一例として示しているが、本開示はこれに限定されず、X線装置211は、例えば任意のカメラ、センサ、又はオブジェクト検出の対象となる入力画像を提供する他の装置であってもよい。
【0033】
オブジェクト検出装置201は、例えばX線装置211から送信されるX線画像におけるオブジェクトのカテゴリー及び位置を検出するためのコンピューティングデバイスである。オブジェクト検出装置201は、例えばデスクトップコンピュータ、サーバコンピュータ、ラップトップコンピューター、タブレットコンピュータ、ワークステーション、携帯端末、または他の種類のコンピューティングデバイスとして構成されてもよい。
【0034】
図2に示すように、オブジェクト検出装置201は、メモリ207に格納された命令を実行するためのプロセッサ203と、オブジェクト検出装置201の内部・外部デバイス間の通信を制御するためのI/Oインターフェース204と、通信ネットワーク202を介しての通信を制御するためのネットワークインターフェース205と、ユーザからの入力を受け付けるためのユーザI/Oインターフェース206と、本開示の実施形態に係るオブジェクト検出手段のそれぞれの機能を実行するための機能部を格納するメモリ207と、これらの構成要素の双方通信を制御するためのバス212とを含む。
【0035】
また、
図2に示すように、オブジェクト検出装置201のメモリ207は、ソースドメインに対応するソースドメイン画像と、ターゲットドメインに対応するターゲットドメイン画像とを含む入力画像セットや、X線装置から送信されるX線画像等を受け付ける画像入力部208と、入力画像セットに対するドメイン変換処理を行い、ソースドメイン画像をターゲットドメインに変換した疑似ターゲットドメイン画像と、ターゲットドメイン画像をソースドメイン画像に変換した疑似ソースドメイン画像とを含む変換画像セットを生成するドメイン変換部210と、高精度の疑似ターゲットドメイン画像及び疑似ソースドメイン画像を生成するようにドメイン変換部210を学習するドメイン変換学習部215と、検出精度を向上させるようにオブジェクト検出部220を学習するオブジェクト検出学習部225と、学習された後、X線装置211から送信されるX線画像におけるオブジェクトのカテゴリーや位置を検出するオブジェクト検出部220と、ソースドメイン画像を格納するためのソースドメイン画像ストレージ部230と、ターゲットドメイン画像を格納するためのターゲットドメイン画像ストレージ部235と、疑似ソースドメイン画像を格納するための疑似ソースドメイン画像ストレージ部240と、疑似ターゲットドメイン画像を格納するための疑似ターゲットドメイン画像ストレージ部245とを含む。
【0036】
本開示の実施形態に係るオブジェクト検出部220は、深層ニューラルネットワークとして構成されてもよい。後述するように、ラベル付きのソースドメイン画像及びラベル無しのターゲットドメイン画像を含む入力画像セットに加えて、ソースドメイン画像をターゲットドメインに変換した疑似ターゲットドメイン画像と、ターゲットドメイン画像をソースドメインに変換した疑似ソースドメイン画像とを含む変換画像セット用いてオブジェクト検出部220となる深層ニューラルネットワークを訓練することで、ソースドメインとターゲットドメインとのドメインギャップを短縮すると共に、ターゲットドメインの画像についても高精度のオブジェクト検出結果を生成することができる。
【0037】
なお、オブジェクト検出装置201に含まれるそれぞれの機能部は、
図1に示すコンピュータシステム300におけるオブジェクト検出アプリケーション350を構成するソフトウエアモジュールであってもよく、独立した専用ハードウェアデバイスであってもよい。また、上記の機能部は、同一のコンピューティング環境に実施されてもよく、分散されたコンピューティング環境に実施されてもよい。
【0038】
以上説明したオブジェクト検出システム200によれば、入手しやすいドメインのラベル付き学習データを活用し、ソースドメインとターゲットドメインとのドメインギャップを短縮させた上でDNNを訓練することで、通信ネットワーク202を介してX線装置211等の外部装置から受信したX線画像におけるオブジェクトのカテゴリー及び位置を検出することができる。
【0039】
次に、
図3を参照して、本開示の実施形態に係るX線画像について説明する。
【0040】
図3は、本開示の実施形態に係るX線画像の一例を示す図である。
上述したように、本開示の実施形態に係るオブジェクト検出装置(例えば、
図2に示すオブジェクト検出装置201)は、ソースドメイン(例えば、ラベル付き学習データが豊富なドメイン)に対応するラベル付き画像であるソースドメイン画像と、ターゲットドメイン(例えば、ラベル付き学習データが少ないドメイン)に対応するラベル無し画像であるターゲットドメイン画像とを入力とする。これらのソースドメイン画像と、ターゲットドメイン画像は、後述するように、オブジェクト検出装置を訓練する際に用いられる学習データの一部となる。
【0041】
図3は、本開示の実施形態に係るソースドメイン画像361及びターゲットドメイン画像362の一例を示す。ソースドメイン画像361は、ラベル付きの画像であるため、ソースドメイン画像361における各オブジェクトのカテゴリー及び位置を示すメタデータは、ソースドメイン画像361に添付されている。
一方、ターゲットドメイン画像362は、ラベル無しの画像であるため、ターゲットドメイン画像362における各オブジェクトのカテゴリー及び位置が不明である。
【0042】
ソースドメイン画像361及びターゲットドメイン画像362は、例えば、異なるX線装置によって撮影された、又は、同一のX線装置で異なる撮影設定で撮影されたため、ドメインが異なるX線画像となっている。このため、ソースドメイン画像361とターゲットドメイン画像362とで、色、鮮鋭度(シャープネス)等、様々な表示設定が相違しており、ソースドメインとターゲットドメインとの間でいわゆる「ドメインギャップ」が存在する。
【0043】
このようなドメインギャップが存在すると、例えばオブジェクト検出用のDNNがソースドメインのラベル付きデータによって訓練されたとしても、ラベル無しのドメインであるターゲットドメインの画像に対しては高精度のオブジェクト検出結果を生成することができない。
そこで、後述するように、本開示では、ソースドメインとターゲットドメインとの距離を短縮し、ドメインギャップを縮小することで、ラベル無しのドメインの画像に対しても、高精度のオブジェクト検出結果を生成することが可能となる。
【0044】
次に、
図4を参照して、本開示の実施形態に係るオブジェクト検出装置におけるオブジェクト検出学習部の論理構成について説明する。
【0045】
図4は、本開示の実施形態に係るオブジェクト検出装置201におけるオブジェクト検出学習部225の論理構成を示す図である。
上述したように、本開示の実施形態に係るオブジェクト検出装置201におけるオブジェクト検出学習部225は、検出精度を向上させるようにオブジェクト検出部(例えば、
図2に示すオブジェクト検出部220)のパラメータを調整することでオブジェクト検出部を訓練するための機能部である。
【0046】
図4に示すように、オブジェクト検出学習部225は、ペア生成部365、特徴抽出部368、画像乖離度計算部369、適応損失計算部370、検出予測部371、検出損失計算部372、及びパラメータ更新部373を含む。
【0047】
まず、ペア生成部365は、ソースドメイン画像361と、ターゲットドメイン画像362とを含む入力画像セットと、当該入力画像セットに対するドメイン変換処理を施すことによって得られる、疑似ソースドメイン画像363と、疑似ターゲットドメイン画像364とを含む変換画像セットとを入力する。
図3を参照して説明したように、ソースドメイン画像361は、所定のソースドメインに対応するラベル付き画像であり、ターゲットドメイン画像362は、ソースドメインと異なるドメインであるターゲットドメインに対応するラベル無し画像である。
なお、
図4では、説明の便宜上、ペア生成部365は、ソースドメイン画像361と、ターゲットドメイン画像362、疑似ソースドメイン画像363、及び疑似ターゲットドメイン画像364を1つずつ入力する場合を一例として示しているが、本開示はこれに限定されない。実際には、ペア生成部365は、ソースドメイン画像361と、ターゲットドメイン画像362、疑似ソースドメイン画像363、及び疑似ターゲットドメイン画像364のそれぞれについて、複数の画像を含むバッチを入力してもよい。
【0048】
疑似ソースドメイン画像363は、上述したドメイン変換部(例えば、
図2に示すドメイン変換部210)を用いて、ターゲットドメイン画像362をソースドメインに変換することで得られた画像である。
なお、疑似ソースドメイン画像363は、ラベル無しの画像であるターゲットドメイン画像362から変換された画像であるため、ターゲットドメイン画像362と同様に、ラベル無しの画像である。
【0049】
疑似ターゲットドメイン画像364は、上述したドメイン変換部を用いて、ソースドメイン画像361をターゲットドメインに変換することで得られた画像である。
なお、疑似ターゲットドメイン画像364は、ラベル付きの画像であるソースドメイン画像361から変換された画像であるため、ソースドメイン画像361と同様に、ラベル付きの画像である。また、本開示では、入力画像セットに対するドメイン変換処理を施すことで得られる変換画像セットにおける各画像を「疑似」と呼ぶのは、実際のソースドメイン及びターゲットドメインと完全には一致しないからである。
【0050】
ソースドメイン画像361と、ターゲットドメイン画像362と、疑似ソースドメイン画像363と、疑似ターゲットドメイン画像364とを入力したペア生成部365は、画像ペアを生成する。より具体的には、ペア生成部365は、入力画像セットに含まれる各画像と、変換画像セットに含まれる各画像とを組み合わせたペアを生成してもよい。また、ペア生成部365は、
入力画像セットと、変換画像セットとの中から、撮影内容(オブジェクトのカテゴリーや配置)が所定の類似度基準を満たす画像をポジティブペア366とし、入力画像セットと、変換画像セットとの中から、撮影内容が所定の類似度基準を満たさない画像をネガティブペア367とする。
なお、画像ペアの詳細については、
図6を参照して説明するため、ここではその説明を省略する。
【0051】
特徴抽出部368は、ペア生成部によって生成された画像ペアを入力した後、これらの画像ペアに含まれる各画像について、特徴マップを抽出する。ここでは、画像ペアに含まれる各画像の特徴マップを抽出する手段は、例えばいわゆる畳み込みニューラルネットワーク等の既存の手段を用いてもよく、本開示では特に限定されない。特徴抽出部368によって作成される各画像の特徴マップは、画像乖離度計算部369と、検出予測部371とに転送される。
【0052】
画像乖離度計算部369は、各画像ペアに含まれるそれぞれの画像の特徴マップを比較することで、当該画像ペアのそれぞれの画像の特徴分布の乖離度を計算する。ここでの乖離度とは、画像の特徴分布の距離を示す値であり、画像ペアの特徴分布の乖離度が大きい程、上述したドメインギャップが大きいことを示す。
なお、画像ペアの特徴分布の乖離度の計算の詳細については後述するため、ここではその説明を省略する。
【0053】
適応損失計算部370は、ペア生成部365によって生成される画像ペアの中で、ポジティブペアの乖離度を減算させる第1の適応損失パラメータと、ネガティブペアの乖離度を向上させる第2の適応損失パラメータとを計算する。
なお、適応損失パラメータの計算の詳細については後述するため、ここではその説明を省略する。
【0054】
検出予測部371は、特徴抽出部368によって生成された各画像ペアの特徴マップから、各画像におけるオブジェクトのカテゴリー及び位置を予測し、オブジェクトの予測したカテゴリー及び位置を示す予測結果を生成する。ここでの検出予測部371として、例えばオブジェクト検出部220を構成する深層ニューラルネットワークを訓練前の状態で用いてもよい。
【0055】
検出損失計算部372は、検出予測部371によって生成された予測結果と、オブジェクトの実際のカテゴリー及び実際の位置を示すグラウンドトゥルースとを比較することで、検出予測部371による検出損失を示す検出損失パラメータを計算する。
なお、検出損失パラメータの計算の詳細については後述するため、ここではその説明を省略する。
【0056】
パラメータ更新部373は、適応損失計算部370によって計算される第1の適応損失パラメータ及び第2の適応損失パラメータと、検出損失計算部372によって計算される検出損失パラメータに基づいて、オブジェクト検出部(例えば、
図2に示すオブジェクト検出部220)を構成する深層ニューラルネットワークのパラメータを調整することで、オブジェクト検出部を訓練する。
【0057】
以上説明したオブジェクト検出学習部225の構成によれば、適応損失パラメータと、検出損失パラメータとに基づいてオブジェクト検出部を訓練することで、オブジェクト検出部は、予測結果とグラウンドトゥルースとの差を最小化するように学習され、ターゲットドメインの画像についても、高精度のオブジェクト検出結果を生成することができるようになる。また、このように、入手しやすいドメインのラベル付き学習データのみを用いてオブジェクト検出部を訓練することができるため、入手が困難なターゲットドメインの学習データを収集することが不要となり、深層ニューラルネットワークによるオブジェクト検出手段を導入するコストを抑えることができる。
【0058】
次に、
図5を参照して、本開示の実施形態に係るドメイン変換部によるドメイン変換処理について説明する。
【0059】
図5は、本開示の実施形態に係るドメイン変換部210によるドメイン変換処理の一例を示す図である。上述したように、本開示の実施形態に係るドメイン変換部210は、ソースドメイン(例えば、ラベル付き学習データが豊富なドメイン)に対応するラベル付き画像であるソースドメイン画像505をターゲットドメインに変換した疑似ターゲットドメイン画像511と、ターゲットドメイン(例えば、ラベル付き学習データが少ないドメイン)に対応するラベル無し画像であるターゲットドメイン画像507をソースドメインに変換した疑似ソースドメイン画像509とを生成する。
【0060】
図5は、本開示の実施形態に係るソースドメイン画像505、ターゲットドメイン画像507、疑似ソースドメイン画像509、及び疑似ターゲットドメイン画像511の一例をしている。また、
図5に示す各画像における三角及び丸は、画像における2種類のカテゴリーのオブジェクト(例えば、水筒と腕時計)を示している。
なお、
図5では、説明の便宜上、2種類のカテゴリーのオブジェクトを含む画像を一例として示しているが、本開示はこれに限定されず、任意の数のカテゴリーを含む画像であってもよい。
【0061】
ソースドメイン画像505とターゲットドメイン画像507とは、例えば、異なるX線装置によって撮影された、又は、同一のX線装置で異なる撮影設定で撮影されたため、ドメインが異なるX線画像となっている。このため、ソースドメイン画像505とターゲットドメイン画像507とで、色、鮮鋭度(シャープネス)等、様々な表示設定が相違しており、ソースドメインとターゲットドメインとの間ではドメインギャップが存在し、それぞれの画像の特徴分布が大きく乖離している。
【0062】
このようなドメインギャップが存在すると、例えばオブジェクト検出用のDNNがソースドメインのラベル付きデータによって訓練されたとしても、ラベル無しのドメインであるターゲットドメインの画像に対しては高精度のオブジェクト検出結果を生成することができない。
そこで、本開示では、ドメイン変換部を用いて、それぞれの画像に対するドメイン変換処理を行うことで、ドメインギャップを短縮し、ソースドメインとターゲットドメインとを接近させることができる。
【0063】
本開示に係るドメイン変換処理では、ドメイン変換部は、画像におけるオブジェクトの位置等を変えずに、それぞれの画像の色、明るさ、鮮鋭度(シャープネス)等の表示設定パラメータを、他方の画像のドメインに整合させるように調整する。より具体的には、ドメイン変換部210は、ソースドメイン画像505の色、明るさ、鮮鋭度等をターゲットドメインに整合させるように調整し、疑似ターゲットドメイン画像511を生成する。同様に、ドメイン変換部210は、ターゲットドメイン画像507の色、明るさ、鮮鋭度等の表示設定パラメータをソースドメインに整合させるように調整し、疑似ソースドメイン画像509を生成する。
【0064】
このドメイン変換処理によれば、画像間のドメインギャップが短縮される。また、このように画像間のドメインギャップが短縮された画像をオブジェクト検出用のDNNを訓練するために用いることで、例えばターゲットドメインに対応する大量の学習データを収集しなくても、ターゲットドメインの画像にについて高精度のオブジェクト検出結果を生成することが可能となる。
【0065】
次に、
図6を参照して、本開示の実施形態に係る画像ペア生成部による画像ペア生成処理について説明する。
【0066】
図6は、本開示の実施形態に係るペア生成部による画像ペア生成処理の一例を示す図である。上述したように、本開示の実施形態に係る画像ペア生成部(例えば、
図4に示す画像ペア生成部365)は、ソースドメイン画像と、ターゲットドメイン画像とを含む入力画像セットと、疑似ソースドメイン画像と、疑似ターゲットドメイン画像とを含む変換画像セットとを入力し、入力画像セットに含まれる各画像と、変換画像セットに含まれる各画像とを組み合わせたペアを生成してもよい。
【0067】
一例として、ソースドメイン画像605A、ソースドメイン画像605B、及びソースドメイン画像605Cとの3つのソースドメイン画像と、これらの3つのソースドメイン画像をターゲットドメインに変換した疑似ターゲットドメイン画像610A、疑似ターゲットドメイン画像610B、及び疑似ターゲットドメイン画像610Cとの3つのターゲットドメイン画像があるとする。この場合、画像ペア生成部は、ソースドメイン画像605Aと疑似ターゲットドメイン画像610A、ソースドメイン画像605Aと疑似ターゲットドメイン画像610B、ソースドメイン画像605Aと疑似ターゲットドメイン画像610C、ソースドメイン画像605Bと疑似ターゲットドメイン画像610A、ソースドメイン画像605Bと疑似ターゲットドメイン画像610B、ソースドメイン画像605Bと疑似ターゲットドメイン画像610C、ソースドメイン画像605Cと疑似ターゲットドメイン画像610A、ソースドメイン画像605Cと疑似ターゲットドメイン画像610B、及びソースドメイン画像605Cと疑似ターゲットドメイン画像610Cとの9つの画像ペアを生成する。
【0068】
また、画像ペア生成部は、この9つのペアの中から、撮影内容(オブジェクトの形状や配置)が所定の類似度基準を満たす画像をポジティブペア612とし、撮影内容が所定の類似度基準を満たさない画像をネガティブペア614とする。ここでの類似度基準とは、ユーザに予め設定されてもよい。また、画像の類似度は、既存の画像類似度アルゴリズムによって判定されてもよく、ここでは特に限定されない。
図5では、ポジティブペア612は実線で示され、ネガティブペア614は点線で示される。このように、それぞれのソースドメイン画像と、当該ソースドメイン画像から生成された疑似ターゲットドメイン画像とがポジティブペア612となり、それ以外の画像の組み合わせはネガティブペア614となる。
【0069】
より具体的には、ソースドメイン画像605Aと疑似ターゲットドメイン画像610A、ソースドメイン画像605Bと疑似ターゲットドメイン画像610B、及びソースドメイン画像605Cと疑似ターゲットドメイン画像610Cとがポジティブペア612となり、ソースドメイン画像605Aと疑似ターゲットドメイン画像610B、ソースドメイン画像605Aと疑似ターゲットドメイン画像610C、ソースドメイン画像605Bと疑似ターゲットドメイン画像610A、ソースドメイン画像605Bと疑似ターゲットドメイン画像610C、ソースドメイン画像605Cと疑似ターゲットドメイン画像610A、及びソースドメイン画像605Cと疑似ターゲットドメイン画像610Bとがネガティブペア614となる。
【0070】
後述するように、ペア生成部によって生成される画像ペアの中で、ポジティブペア612の乖離度を減算させ、ネガティブペア614の乖離度を向上させることで、オブジェクトのカテゴリーの識別力(つまり、検出精度)を高めつつ、ドメインギャップを短縮することができる。
【0071】
次に、
図7を参照して、本開示の実施形態に係るドメインギャップ短縮について説明する。
【0072】
図7は、本開示の実施形態に係るドメインギャップ短縮の一例を示す図である。上述したように、本開示の実施形態に係る適応損失計算部(例えば、
図3に示す適応損失計算部370)と、検出損失計算部(例えば、
図3に示す検出損失計算部372)とによって生成されるパラメータに基づいてオブジェクト検出部のパラメータを更新することで、異なるドメインに対応する画像のドメインギャップを短縮することができる。
【0073】
図7は、適応損失計算部及び検出損失計算部によるドメインギャップ短縮の一例を示す。上述したように、適応損失計算部は、ペア生成部によって生成される画像ペアの中で、ポジティブペアの乖離度を減算させる第1の適応損失パラメータと、ネガティブペアの乖離度を向上させる第2の適応損失パラメータとを計算し、オブジェクト検出部は、これらのパラメータに基づいて訓練される。
これにより、
図7に示すように、ポジティブペアの乖離度を減算させると、ソースドメイン画像505及び疑似ターゲットドメイン画像511と、ターゲットドメイン画像507及び疑似ソースドメイン画像509との間で、同一のカテゴリーの特徴分布が互いに接近する。また、ネガティブペアの乖離度を向上させると、ソースドメイン画像505及び疑似ターゲットドメイン画像511と、ターゲットドメイン画像507及び疑似ソースドメイン画像509との間で、異なるカテゴリーの特徴分布が更に乖離する。
【0074】
また、検出損失計算部は、上述したように、検出予測部によって生成された予測結果と、オブジェクトの実際のカテゴリー及び実際の位置を示すグラウンドトゥルースとを比較することで、検出損失パラメータを計算し、オブジェクト検出部は、このパラメータに基づいて訓練される。これにより、オブジェクト検出部は、異なるカテゴリーをより高精度で認識できるようになる。
【0075】
このように、適応損失計算部及び検出損失計算部によるパラメータを用いてオブジェクト検出部のパラメータを更新し、画像のドメインギャップを短縮することで、オブジェクト検出部は、ラベル無しのターゲットドメインの画像に対しても、高精度のオブジェクト検出結果を生成することができるようになる。
【0076】
次に、
図8を参照して、本開示の実施形態に係るオブジェクト検出部訓練方法について説明する。
【0077】
図8は、本開示の実施形態に係るオブジェクト検出部訓練方法800の一例を示す図である。
図8に示すオブジェクト検出部訓練方法800は、例えば
図2に示すオブジェクト検出装置201の各機能部によって実行され、オブジェクト検出部を学習させるための方法である。
【0078】
まず、ステップS810では、画像入力部(例えば、
図2に示す画像入力部208)は、
ソースドメインに対応するソースドメイン画像とターゲットドメインに対応するターゲットドメイン画像とを含む入力画像セットを受け付ける。ここで、ソースドメイン画像と、ターゲットドメイン画像とは、例えば学習用にユーザに選択された画像であってもよく、過去にオブジェクト検出装置に接続されているX線装置から送信された画像の中で、学習用に選択された画像であってもよい。
なお、ソースドメイン画像及びターゲットドメイン画像の詳細については、
図3を参照して説明したため、ここではその説明を省略する。
【0079】
次に、ステップS820では、ドメイン変換部(例えば、
図2に示すドメイン変換部210)は、ステップS810で画像入力部によって受け付けられた入力画像セットに対するドメイン変換処理を行い、ソースドメイン画像をターゲットドメインに変換した疑似ターゲットドメイン画像と、ターゲットドメイン画像をソースドメイン画像に変換した疑似ソースドメイン画像とを含む変換画像セットを生成する。
なお、ドメイン変換処理の詳細については、
図5を参照して説明したため、ここではその説明を省略する。
【0080】
次に、ステップS830では、ペア生成部(例えば、
図4に示すペア生成部365)は、ソースドメイン画像と、ターゲットドメイン画像と、疑似ソースドメイン画像と、疑似ターゲットドメイン画像とを入力し、画像ペアを生成する。例えば、上述したように、ペア生成部は、入力画像セットと、変換画像セットとの中から、撮影内容(オブジェクトのカテゴリーや配置)が所定の類似度基準を満たす画像をポジティブペアとし、入力画像セットと、変換画像セットとの中から、撮影内容が所定の類似度基準を満たさない画像をネガティブペアとする。
なお、画像ペアを生成する処理の詳細については、
図6を参照して説明したため、ここではその説明を省略する。
【0081】
次に、ステップS840では、特徴抽出部(例えば、
図4に示す特徴抽出部368)は、ステップS830で生成された画像ペアに含まれる各画像について、特徴マップを抽出する。ここでの特徴抽出部は、画像におけるオブジェクトのカテゴリー及び配置に応じて特徴マップを抽出するように、学習された畳み込みニューラルネットワークであってもよい。また、ここでの特徴マップとは、例えば1次元ベクトルであってもよく、2次元又は3次元のマトリックス表現であってもよい。
【0082】
次に、ステップS850では、画像乖離度計算部(例えば、
図4に示す画像乖離度計算部369)は、ステップS840で生成された特徴マップを用いて、各画像ペアの乖離度を計算する。ここでの乖離度とは、画像の特徴分布の距離を示す値であり、画像ペアの特徴分布の乖離度が大きい程、上述したドメインギャップが大きいことを示す。ここでの乖離度を計算する手法として、例えば数式1に示すように、多次元空間に投影される2つのベクトル間の角度のコサインを計算するコサイン類似度法を用いてもよい。
【数1】
ここで、u及びvは、ソースドメインSのi番目の画像の特徴マップf
i
s及び疑似ターゲットドメインT’のi番目の画像の特徴マップf
i
T’におけるベクトルであってもよい。このように、画像乖離度計算部、ペア生成部によって生成される各ポジティブペア及び各ネガティブペアについて、当該ペアの乖離度を計算する。
例えば、第1の画像に対応する第1の特徴マップ及び第2の画像に対応する第2の特徴マップとを含むポジティブペアがあり、第3の画像に対応する第3の特徴マップ及び第4の画像に対応する第4の特徴マップを含むネガティブペアがある場合、画像乖離度計算部は、第1の特徴マップと第2の特徴マップとの乖離度である第1の乖離度を計算し、第3の特徴マップと第4の特徴マップとの乖離度である第2の乖離度を計算してもよい。
【0083】
次に、適応損失計算部(例えば、
図4に示す適応損失計算部370)は、ポジティブペアに含まれる画像の乖離度(例えば、第1の乖離度)を減算させるための第1の適応損失パラメータを計算し、ネガティブペアに含まれる画像の乖離度(例えば、第2の乖離度)を向上させるための第2の適応損失パラメータを計算する。
【0084】
ポジティブペアに含まれる画像の乖離度を減算させるのは、撮影内容(オブジェクトのカテゴリー及び配置)が類似している画像について、ドメインギャップを短縮させるためのドメイン不変特徴(domain invariant features;つまり、ドメインによって変化しない特徴)を特徴抽出部に抽出させるように訓練するためである。これにより、ソースドメインと疑似ターゲットドメイン、及びターゲットドメインと疑似ソースドメインとの特徴分布が接近する。
また、ネガティブペアに含まれる画像の乖離度を向上させるのは、撮影内容(オブジェクトのカテゴリー及び配置)が類似していない画像について、異なる特徴を特徴抽出部に抽出させるように訓練するためである。これにより、異なるオブジェクトの識別力(つまり、検出精度)を向上させることができる。
【0085】
ここでの適応損失パラメータは、例えば以下の数式2から求められる。
なお、以下の数式2は、ソースドメイン及び疑似ターゲットドメインの適応損失パラメータL
adp
S,T’
を計算するための数式であるが、ターゲットドメイン及び疑似ソースドメインの適応損失パラメータL
adp
S’,Tを計算するために用いられてもよい。
【数2】
数式2では、分子はポジティブペアの乖離度(例えば、第1の乖離度)であり、分母は、ネガティブペアの乖離度(例えば、第2の乖離度)である。従って、ポジティブペアの乖離度を減算し、ネガティブペアの乖離度を向上すると、適応損失パラメータがより小さい値となる。
なお、分母に示されるネガティブペアの乖離度は、複数のネガティブペアの乖離度の和であってもよい。1つのポジティブペアに対して、多数のネガティブペアの乖離度を合わせて数式2の分母とすることで、異なるオブジェクトの識別力(つまり、検出精度)を更に向上させることができる。
【0086】
次に、ステップS860では、検出予測部(例えば、
図4に示す検出予測部371)は、ステップS840で生成された各画像ペアの特徴マップを用いて、各画像におけるオブジェクトのカテゴリー及び位置を予測し、オブジェクトの予測したカテゴリー及び位置を示す予測結果を生成する。ここでの検出予測部は、例えば所定の対象領域(Region of Interest、 ROI)についての領域提案を生成するRPN(Region Proposal Network)と、各ROIのカテゴリーを特定する分類器(classification head)と、各ROIのバウンディングボックスの座標を調整するためのボックス回帰器(Box regression head)とを含むFaster R-CNNであってもよい。
【0087】
次に、検出損失計算部(例えば、
図4に示す検出損失計算部372)は、検出予測部
によって生成された予測結果と、オブジェクトの実際のカテゴリー及び実際の位置を示すグラウンドトゥルースとを比較することで、検出予測部による検出損失パラメータを計算する。ここでの検出損失パラメータは、検出予測部によって生成された予測結果と、オブジェクトの実際のカテゴリー及び実際の位置を示すグラウンドトゥルースとの距離を計算することで得られるRPN損失、分類損失(classification loss)、及び回帰損失(Regression loss)を含んでもよい。
なお、ここでの検出損失パラメータは、ラベル付きのデータ(つまり、ソースドメイン画像及び疑似ターゲットドメイン画像)についてのみ計算される。
【0088】
次に、ステップS870では、パラメータ更新部(例えば、
図4に示すパラメータ更新部373)は、適応損失計算部によって計算される第1の適応損失パラメータ及び第2の適応損失パラメータと、検出損失計算部によって計算される検出損失に基づいて、オブジェクト検出部のパラメータを調整することで、オブジェクト検出部を訓練する。
【0089】
以上説明したオブジェクト検出部訓練方法800によれば、適応損失パラメータと、検出損失パラメータとに基づいてオブジェクト検出部のパラメータを調整することで、オブジェクト検出部は、予測結果とグラウンドトゥルースとの差を最小化するために訓練され、例えばラベル付き学習データが少ないターゲットドメインの画像についても、高精度のオブジェクト検出結果を生成することができるようになる。
【0090】
次に、
図9を参照して、本開示の実施形態に係るオブジェクト検出処理について説明する。
【0091】
図9は、本開示の実施形態に係るオブジェクト検出処理900の一例を示す図である。
図9に示すオブジェクト検出処理900は、例えば
図8に示すオブジェクト検出部訓練方法800で訓練されたオブジェクト検出装置の各機能部によって実行され、所定のX線画像におけるオブジェクトのカテゴリー及び位置を検出するための処理である。
【0092】
まず、ステップS910では、画像入力部(例えば、
図2に示す画像入力部208)は、
ターゲットドメイン画像を受け付ける。ここでは、画像入力部は、例えばターゲットドメインでのX線画像を取得するように構成されたX線装置から送信される画像を入力してもよい。
【0093】
次に、ステップS920では、特徴抽出部(例えば、
図4に示す特徴抽出部368)は、ステップS910で画像入力部によって受け付けられたターゲットドメイン画像について、特徴マップを抽出する。上述したように、ここでの特徴抽出部は、画像におけるオブジェクトのカテゴリー及び配置に応じて特徴マップを抽出するように、学習された畳み込みニューラルネットワークであってもよい。また、ここでの特徴マップとは、例えば1次元ベクトルであってもよく、2次元又は3次元のマトリックス表現であってもよい。
【0094】
次に、ステップS930では、オブジェクト検出部(例えば、
図2に示すオブジェクト検出部220)は、ステップS920で抽出された特徴マップに基づいて、ターゲットドメイン画像における各オブジェクトのカテゴリー及び位置を検出し、これらの各オブジェクトのカテゴリー及び位置を示すデータを検出結果として生成する。
【0095】
次に、ステップS940では、オブジェクト検出部は、ステップS930で生成した検出結果情報を出力する。ここでは、オブジェクト検出部は、検出結果を、例えば通信ネットワークを介して、所定の通知先(X線装置の管理者等)に送信してもよい。
【0096】
以上説明したオブジェクト検出処理900によれば、オブジェクト検出装置は、ラベル無し学習データが少ないターゲットドメインのX線画像についても、高精度のオブジェクト検出結果を生成することができる。
【0097】
以上、本開示の実施の形態について説明したが、本開示は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
【符号の説明】
【0098】
200 オブジェクト検出システム
201 オブジェクト検出装置
202 通信ネットワーク
203 プロセッサ
204 I/Oインターフェース
205 ネットワークインターフェース
206 ユーザI/Oインターフェース
207 メモリ
208 画像入力部
210 ドメイン変換部
211 X線装置
215 ドメイン変換学習部
220 オブジェクト検出部
225 オブジェクト検出学習部
230 ソースドメイン画像ストレージ部
235 ターゲットドメイン画像ストレージ部
240 疑似ソースドメイン画像ストレージ部
245 疑似ターゲットドメイン画像ストレージ部
361 ソースドメイン画像
362 ターゲットドメイン画像
363 疑似ソースドメイン画像
364 疑似ターゲットドメイン画像
365 ペア生成部
366 ポジティブペア
367 ネガティブペア
368 特徴抽出部
369 画像乖離度計算部
370 適応損失計算部
371 検出予測部
372 検出損失計算部
373 パラメータ更新部