IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッドの特許一覧

特許7085007画像認識方法、コンピュータ装置及びプログラム
<>
  • 特許-画像認識方法、コンピュータ装置及びプログラム 図1
  • 特許-画像認識方法、コンピュータ装置及びプログラム 図2
  • 特許-画像認識方法、コンピュータ装置及びプログラム 図3
  • 特許-画像認識方法、コンピュータ装置及びプログラム 図4
  • 特許-画像認識方法、コンピュータ装置及びプログラム 図5
  • 特許-画像認識方法、コンピュータ装置及びプログラム 図6
  • 特許-画像認識方法、コンピュータ装置及びプログラム 図7
  • 特許-画像認識方法、コンピュータ装置及びプログラム 図8
  • 特許-画像認識方法、コンピュータ装置及びプログラム 図9
  • 特許-画像認識方法、コンピュータ装置及びプログラム 図10
  • 特許-画像認識方法、コンピュータ装置及びプログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-06-07
(45)【発行日】2022-06-15
(54)【発明の名称】画像認識方法、コンピュータ装置及びプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220608BHJP
   G06V 10/82 20220101ALI20220608BHJP
   A61B 3/14 20060101ALN20220608BHJP
【FI】
G06T7/00 350C
G06V10/82
A61B3/14
【請求項の数】 16
(21)【出願番号】P 2020543014
(86)(22)【出願日】2019-04-18
(65)【公表番号】
(43)【公表日】2021-05-20
(86)【国際出願番号】 CN2019083151
(87)【国際公開番号】W WO2019218835
(87)【国際公開日】2019-11-21
【審査請求日】2020-08-11
(31)【優先権主張番号】201810467783.2
(32)【優先日】2018-05-16
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514187420
【氏名又は名称】テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】スン,シン
(72)【発明者】
【氏名】ジャン,イ
(72)【発明者】
【氏名】ジエン,シンヤン
(72)【発明者】
【氏名】グオ,シアオウエイ
(72)【発明者】
【氏名】ジョウ,シュアン
(72)【発明者】
【氏名】チャン,ジィア
【審査官】新井 則和
(56)【参考文献】
【文献】特開2017-045341(JP,A)
【文献】特開2018-032391(JP,A)
【文献】特開2008-009728(JP,A)
【文献】特開平06-231258(JP,A)
【文献】中国特許出願公開第107818313(CN,A)
【文献】山本 和慶 外3名,データドリブンなアプローチを用いた漫画画像中の吹き出しの話者推定,映像情報メディア学会技術報告 Vol. 42 No. 4,日本,一般社団法人映像情報メディア学会,2018年02月08日,pp. 287-292
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
G06V 10/00-10/98
A61B 3/14
(57)【特許請求の範囲】
【請求項1】
画像認識方法であって、
コンピュータ装置が認識待ち画像を取得するステップと、
前記コンピュータ装置が、前記認識待ち画像における細部を強調するために、前記認識待ち画像に対して前処理を行い、前処理画像を取得するステップと、
前記コンピュータ装置が、機械学習モデルにおける第一サブモデルにより、前記認識待ち画像に対応する第一画像特徴を取得し、前記機械学習モデルにおける第二サブモデルにより、前記前処理画像に対応する第二画像特徴を取得するステップと、
前記コンピュータ装置が、前記第一画像特徴及び前記第二画像特徴に基づいて、前記認識待ち画像が前記機械学習モデルに対応する所定クラスに属する第一確率を決定するステップと、
を含み、
前記認識待ち画像は眼底画像であり、前記所定クラスは正常、軽症非増殖糖尿病網膜症、中等症非増殖糖尿病網膜症、重症非増殖糖尿病網膜症、及び増殖糖尿病網膜症を含む、画像認識方法。
【請求項2】
請求項1に記載の画像認識方法であって、
前記コンピュータ装置が、前記第一画像特徴及び前記第二画像特徴に基づいて、前記認識待ち画像が前記機械学習モデルに対応する所定クラスに属する第一確率を決定するステップは、
前記コンピュータ装置が前記第一画像特徴及び前記第二画像特徴を前記機械学習モデルの出力層に入力することと、
前記コンピュータ装置が、前記機械学習モデルの出力層により、前記第一画像特徴及び前記第二画像特徴に基づいて、前記認識待ち画像が前記機械学習モデルに対応する所定クラスに属する第一確率を決定することと、
を含む、画像認識方法。
【請求項3】
請求項2に記載の画像認識方法であって、
前記第一サブモデルは第一特徴検出サブモデルを含み、前記第二サブモデルは第二特徴検出サブモデルを含み、前記機械学習モデルは、前記第一特徴検出サブモデルと結合される第一全結合層及び前記第二特徴検出サブモデルと結合される第二全結合層をさらに含み、前記第一全結合層及び前記第二全結合層はともに前記出力層に結合され、
前記コンピュータ装置は、前記第一特徴検出サブモデル及び前記第一全結合層により、前記認識待ち画像に対応する第一画像特徴を取得することを実現し、
前記コンピュータ装置は、前記第二特徴検出サブモデル及び前記第二全結合層により、前記前処理画像に対応する第二画像特徴を取得することを実現する、画像認識方法。
【請求項4】
請求項1に記載の画像認識方法であって、
前記コンピュータ装置が、前記第一画像特徴及び前記第二画像特徴に基づいて、前記認識待ち画像が前記機械学習モデルに対応する所定クラスに属する第一確率を決定するステップは、
前記コンピュータ装置が、前記機械学習モデルにより、前記第一画像特徴に基づいて、前記認識待ち画像が前記機械学習モデルに対応する所定クラスに属する第二確率を取得することと、
前記コンピュータ装置が、前記機械学習モデルにより、前記第二画像特徴に基づいて、前記前処理画像が前記機械学習モデルに対応する所定クラスに属する第三確率を取得することと、
前記コンピュータ装置が、前記第二確率及び前記第三確率に基づいて演算を行い、前記認識待ち画像が前記機械学習モデルに対応する所定クラスに属する第一確率を決定することと、
を含む、画像認識方法。
【請求項5】
請求項4に記載の画像認識方法であって、
前記第一サブモデルは第一分類サブモデルを含み、前記第二サブモデルは第二分類サブモデルを含み、
前記コンピュータ装置は、前記第一分類サブモデルにより、前記認識待ち画像に対応する第一画像特徴を取得し、及び前記第一画像特徴に基づいて、前記認識待ち画像が前記機械学習モデルに対応する所定クラスに属する第二確率を取得することを実現し、
前記コンピュータ装置は、前記第二分類サブモデルにより、前記前処理画像に対応する第二画像特徴を取得し、及び前記第二画像特徴に基づいて、前記前処理画像が前記機械学習モデルに対応する所定クラスに属する第三確率を取得することを実現する、画像認識方法。
【請求項6】
請求項1に記載の画像認識方法であって、
前記コンピュータ装置が前記認識待ち画像に対して前処理を行う方法は、
前記コンピュータ装置が前記認識待ち画像におけるターゲットを参照対象サイズに調整することと、
前記コンピュータ装置が前記認識待ち画像における無効領域をトリミングし、前記無効領域を含まない画像を取得することと、
前記コンピュータ装置が前記認識待ち画像を参照画像サイズに調整することと、
前記コンピュータ装置が前記認識待ち画像の画像属性を調整することであって、前記画像属性がコントラスト及びグレースケールのうちの少なくとも1つを含むことと、
のうちの少なくとも1つ又は2つ以上の組み合わせを含む、画像認識方法。
【請求項7】
請求項1に記載の画像認識方法であって、
前記コンピュータ装置が前記認識待ち画像に対して前処理を行う方法は、
前記コンピュータ装置が前記認識待ち画像におけるターゲットを参照対象サイズに調整し、第一調整画像を取得することと、
前記コンピュータ装置が前記第一調整画像における無効領域をトリミングし、前記無効領域を含まない第二調整画像を取得することと、
前記コンピュータ装置が前記第二調整画像を参照画像サイズに調整し、第三調整画像を取得することと、
を含み、
前記前処理画像は、前記第三調整画像に基づいて取得される、画像認識方法。
【請求項8】
請求項7に記載の画像認識方法であって、
前記コンピュータ装置が前記認識待ち画像に対して前処理を行う方法は、
前記コンピュータ装置がターゲット調整画像の画像属性に対して調整を行うことであって、前記ターゲット調整画像が前記第一調整画像、前記第二調整画像及び前記第三調整画像のうちのいずれか1つを含み、前記画像属性がコントラスト及びグレースケールのうちの少なくとも1つを含むことをさらに含む、画像認識方法。
【請求項9】
請求項1に記載の画像認識方法であって、
前記前処理画像の数は1よりも大きく、各前記前処理画像は異なる前処理方法により取得される、画像認識方法。
【請求項10】
請求項3に記載の画像認識方法であって、
前記コンピュータ装置が前記機械学習モデルを決定する方法は、
前記コンピュータ装置が前記機械学習モデルに対応する所定クラスに属する第一画像サンプルを取得することと、
前記コンピュータ装置が前記第一画像サンプルに対してデータエンハンスメント処理を行い、第一訓練画像を取得することと、
前記コンピュータ装置が前記第一画像サンプルに対して前記前処理を行い、前記前処理後の前記第一画像サンプルに対して前記データエンハンスメント処理を行い、第二訓練画像を取得することと、
前記コンピュータ装置が前記第一訓練画像に基づいてモデル訓練を行い、前記第一特徴検出サブモデルを取得することと、
前記コンピュータ装置が前記第二訓練画像に基づいてモデル訓練を行い、前記第二特徴検出サブモデルを取得することと、
前記コンピュータ装置が前記第一訓練画像、前記第二訓練画像、前記第一特徴検出サブモデル及び前記第二特徴検出サブモデルに基づいて共同でモデル訓練を行い、前記第一全結合層、前記第二全結合層及び前記出力層を決定することと、
を含む、画像認識方法。
【請求項11】
請求項5に記載の画像認識方法であって、
前記コンピュータ装置が前記機械学習モデルを決定する方法は、
前記コンピュータ装置が前記機械学習モデルに対応する所定クラスに属する第二画像サンプルを取得することと、
前記コンピュータ装置が前記第二画像サンプルに対してデータエンハンスメント処理を行い、第三訓練画像を取得することと、
前記コンピュータ装置が前記第二画像サンプルに対して前記前処理を行い、前記前処理後の前記第二画像サンプルに対して前記データエンハンスメント処理を行い、第四訓練画像を取得することと、
前記コンピュータ装置が前記第三訓練画像に基づいてモデル訓練を行い、前記第一分類サブモデルを取得し、また、前記第四訓練画像に基づいてモデル訓練を行い、前記第二分類サブモデルを取得することと、
を含む、画像認識方法。
【請求項12】
請求項10又は11に記載の画像認識方法であって、
前記データエンハンスメント処理は、
前記コンピュータ装置が幾何学的変換方法に対応する第一変換パラメータを取得することと、
前記コンピュータ装置が前記第一変換パラメータ及び該第一変換パラメータに対応する幾何学的変換方法に基づいて、画像に対して幾何学的変換処理を行うことと、
を含む、画像認識方法。
【請求項13】
請求項10又は11に記載の画像認識方法であって、
前記データエンハンスメント処理は、
前記コンピュータ装置が画像属性調整方法に対応する第二変換パラメータを取得することと、
前記コンピュータ装置が前記第二変換パラメータ及び該第二変換パラメータに対応する画像属性調整方法に基づいて、画像に対して画像属性調整処理を行うことと、
を含む、画像認識方法。
【請求項14】
請求項1に記載の画像認識方法であって、
記機械学習モデルは畳み込みニューラルネットワークモデルを含む、画像認識方法。
【請求項15】
記憶器;及び
前記記憶器に接続される処理器を含むコンピュータ装置であって、
前記記憶器には、コンピュータプログラムが記憶されており、
前記処理器は、前記コンピュータプログラムを実行することにより、請求項1乃至14のうちの何れか1項に記載の画像認識方法を実現するように構成される、コンピュータ装置。
【請求項16】
コンピュータに、請求項1乃至14のうちのいずれか1項に記載の画像認識方法を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2018年5月16日に中国専利局に出願した、出願番号が2018104677832、発明の名称が「画像認識方法、装置、記憶媒体及びコンピュータ装置」である中国特許出願に基づく優先権を主張するものであり、その全内容を参照によりここに援用する。
【0002】
本発明は、コンピュータ技術分野に関し、特に、画像認識方法、記憶媒体及びコンピュータ装置に関する。
【背景技術】
【0003】
周知のように、画像がキャリー(Carry)する情報を認識することにより、画像に対して分類を行うことができ、即ち、幾つかのクラス(Class)のうちから画像の属するクラスを確定することができる。眼底画像を例にとると、それは、糖尿病網膜症の症状を反映するために用いることができる。これにより、任意の眼底画像について、正常(normal)、軽症非増殖糖尿病網膜症(Mild NPDR(non-proliferative diabetic retinopathy))、中等症非増殖糖尿病網膜症(Moderate NPDR)、重症非増殖糖尿病網膜症(Severe NPDR)、及び増殖糖尿病網膜症(PDR(proliferative diabetic retinopathy))という5つのクラス(カテゴリーとも言う)のうちから該眼底画像の属するクラスを確定することができる。
【0004】
従来の方法では、主に人工方式(手動)で画像に対して判別を行うことで、画像の属するクラスを確定する。例えば、医師が肉眼で眼底画像を観察し、経験に基づいて、該眼底画像が正常、軽症非増殖糖尿病網膜症、中等症非増殖糖尿病網膜症、重症非増殖糖尿病網膜症及び増殖糖尿病網膜症のうちのどのクラスに属するかを確定する。
【発明の概要】
【発明が解決しようとする課題】
【0005】
上述したことに鑑み、本発明の目的は、従来の方法において認識の効率及び正確さが低下するという技術的問題を解決することができる画像認識方法、記憶媒体及びコンピュータ装置を提供することにある。
【課題を解決するための手段】
【0006】
画像認識方法であって、
コンピュータ装置が認識待ち画像を取得し;
コンピュータ装置が前記認識待ち画像に対して前処理を行い、前処理画像を取得し;
コンピュータ装置が機械学習モデルにおける第一サブモデルにより前記認識待ち画像に対応する第一画像特徴を取得し、また、前記機械学習モデルにおける第二サブモデルにより前記前処理画像に対応する第二画像特徴を取得し;及び
コンピュータ装置が前記第一画像特徴及び前記第二画像特徴に基づいて、前記認識待ち画像が前記機械学習モデルに対応するクラスに属する第一確率を確定することを含む、画像認識方法。
【0007】
画像認識装置であって、
認識待ち画像を取得するための認識待ち画像取得モジュール;
前記認識待ち画像に対して前処理を行い、前処理画像を取得するための前処理画像取得モジュール;
機械学習モデルにおける第一サブモデルにより前記認識待ち画像に対応する第一画像特徴を取得し、また、前記機械学習モデルにおける第二サブモデルにより前記前処理画像に対応する第二画像特徴を取得するための画像特徴取得モジュール;
前記第一画像特徴及び前記第二画像特徴に基づいて、前記認識待ち画像が前記機械学習モデルに対応するクラスに属する第一確率を確定するための予測確率確定モジュールを含む、画像認識装置。
【0008】
コンピュータプログラムを記憶したコンピュータ可読記憶媒体であって、
前記コンピュータプログラムは、処理器により実行されるときに、
認識待ち画像を取得し;
前記認識待ち画像に対して前処理を行い、前処理画像を取得し;
機械学習モデルにおける第一サブモデルにより前記認識待ち画像に対応する第一画像特徴を取得し、また、前記機械学習モデルにおける第二サブモデルにより前記前処理画像に対応する第二画像特徴を取得し;及び
前記第一画像特徴及び前記第二画像特徴に基づいて、前記認識待ち画像が前記機械学習モデルに対応するクラスに属する第一確率を確定するステップを実現する、コンピュータ可読記憶媒体。
【0009】
記憶器及び処理器を含むコンピュータ装置であって、
前記記憶器には、コンピュータプログラムが記憶されており、前記処理器は、前記コンピュータプログラムを実行するときに、
認識待ち画像を取得し;
前記認識待ち画像に対して前処理を行い、前処理画像を取得し;
機械学習モデルにおける第一サブモデルにより前記認識待ち画像に対応する第一画像特徴を取得し、また、前記機械学習モデルにおける第二サブモデルにより前記前処理画像に対応する第二画像特徴を取得し;及び
前記第一画像特徴及び前記第二画像特徴に基づいて、前記認識待ち画像が前記機械学習モデルに対応するクラスに属する第一確率を確定するステップを実現する、コンピュータ装置。
【図面の簡単な説明】
【0010】
図1】一実施例における画像認識方法のアプリケーション環境を示す図である。
図2】一実施例における画像認識方法のフローチャートである。
図3】一実施例における機械学習モデルの構成を示す図である。
図4】一実施例における機械学習モデルの構成を示す図である。
図5】一実施例における機械学習モデルの構成を示す図である。
図6】一実施例における機械学習モデルの構成を示す図である。
図7】一実施例における機械学習モデル確定ステップのフローチャートである。
図8】一実施例における機械学習モデル確定ステップのフローチャートである。
図9】一実施例における画像認識方法のフローチャートである。
図10】一実施例における画像認識装置の構成を示す図である。
図11】一実施例におけるコンピュータ装置の構成を示す図である。
【発明を実施するための形態】
【0011】
本発明の目的、技術的手段及び効果をより明らかにするために、以下、図面及び実施例を参照しながら本発明について詳細に説明する。理解すべきは、ここで説明される特定の実施例は本発明を説明するためにのみ用いられ、本発明を限定するために用いられないということである。
【0012】
なお、本明細書に使用される用語「第一」、「第二」などは、命名において類似した対象を区別するために用いられるが、これらの対象自体は、これらの用語に限定されない。理解すべきは、本発明の技術的範囲を逸脱しない限り、これらの用語は適切な状況下で交換することができるということである。例えば、「第一全結合層」を「第二全結合層」と記載し、また同様に、「第二全結合層」を「第一全結合層」と記載しても良い。
【0013】
また、理解すべきは、用語「包含する」、「含む」、「有する」及びそれらのいずれの変形は非排他的な包含をカバーすることを意図するということである。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、プロダクト又は装置は、明確にリストされたステップ又はユニットに必ずしも限定されず、明確にリストされていないもの或いはこれらのプロセス、方法、及びプロダクト固有の他のステップ又はユニットをさらに含んでも良い。また、用語「及び/又は」は、リストされている1つ又は複数の関連項目のいずれか1つ及びすべての組み合わせを含む。
【0014】
本発明の各実施例による画像認識方法は、図1に示すようなアプリケーション環境に適用することができる。該アプリケーション環境は、端末110及びサーバ120を含み、端末110及びサーバ120は、ネットワークにより接続される。具体的には、端末110は、認識待ち画像を取得し、該認識待ち画像をサーバ120に伝送することができる。サーバ120は、該認識待ち画像を得た後に該認識待ち画像に対して前処理を行い、該認識待ち画像及び前処理後の認識待ち画像をともに機械学習モデルに入力し、そして、該機械学習モデルにより、該認識待ち画像が機械学習モデルに対応するクラスに属する確率を出力することができる。
【0015】
理解すべきは、他の実施例において、端末110が認識待ち画像を取得し後に、直接、端末110により認識待ち画像に対して前処理を行い、該認識待ち画像及び前処理後の認識待ち画像を一緒に機械学習モデルに入力し、そして、該機械学習モデルにより、該認識待ち画像が機械学習モデルに対応するクラスに属する確率を出力しても良いということである。また、機械学習モデルは、サーバ120により訓練を行うことで取得されても良く、端末110により訓練を行うことで取得されても良い。
【0016】
そのうち、端末110は、デスクトップ端末又は移動端末であっても良く、移動端末は、携帯電話、タブレットコンピュータ、ノートブックコンピュータ、携帯情報端末(PDA)、ウェアラブルデバイス、医用画像装置などのうちの少なくとも1つを含んでも良い。サーバ120は、独立した物理サーバ又は複数の物理サーバからなるサーバ群により実現されても良い。
【0017】
幾つかの実施例において、図2に示すように、画像認識方法が提供される。以下、該方法がコンピュータ装置(例えば、上述した図1における端末110又はサーバ120)に適用されるケースを例として説明を行う。該方法は、以下のようなステップS202乃至S208を含んでも良い。
【0018】
S202:コンピュータ装置が認識待ち画像を取得する。
【0019】
そのうち、認識待ち画像は、画像認識が行われることを待つ画像である。画像認識とは、画像を幾つかの候補クラスのうちの1つ又は複数のクラスに分類し、即ち、画像の属するクラスを確定することを指す。実際の応用にあたって、候補クラスは、実際のニーズに応じて事前設定されても良い。また、認識待ち画像は、未処理のオリジナル画像である。理解すべきは、認識待ち画像は各種の画像、例えば、人物画像、動物画像、風景画像などを含んでも良いということである。
【0020】
例えば、コンピュータ装置は、他のコンピュータ装置が伝送する画像を取得し、該画像を認識待ち画像とすることができる。例えば、上述した図1におけるサーバ120は、端末110が伝送する画像を取得し、該画像を認識待ち画像とする。コンピュータ装置は、自装置で生成する画像を取得し、該画像を認識待ち画像とすることもできる。また、コンピュータ装置は、さらに、ネットワークから画像をクロール(crawl)し、該画像を認識待ち画像とすることもできる。
【0021】
幾つかの実施例において、認識待ち画像は、医用画像を含んでも良い。そのうち、医用画像とは、医療や医学研究を行うために生体又は生体の或る部分から取得した内部組織画像を指し、例えば、非侵襲的に得られた内部組織画像である。医用画像は、例えば、眼底画像を含んでも良く、眼底は、生体上で血管を直接観察することができる部位である。眼底撮影装置(例えば、眼底カメラ)により眼底画像を取得することができ、眼底画像は、糖尿病網膜症、高血圧、緑内障、動脈硬化などの疾患の症状を反映するために用いられる。また、医用画像は、肺部病変領域画像を含んでも良く、例えば、肺部病変領域に対してコンピュータ断層撮影(Computed Tomography、CT)を行うことにより得られたCT画像又は核磁気共鳴(Magnetic Resonance、MR)画像法により得られたMR画像であり、肺部病変領域画像は、肺がんなどの疾患の症状を反映するために用いられる。
【0022】
幾つかの実施例において、認識待ち画像は、視覚的な形式を有する画像ファイル、例えば、JPEGフォーマットの画像ファイルであっても良い。また、認識待ち画像は、視覚的な形式を有しない画像データ、例えば、数値で示される各画素(pixel)の画素値の集合であっても良い。
【0023】
S204:コンピュータ装置が認識待ち画像に対して前処理を行い、前処理画像を取得する。
【0024】
そのうち、前処理画像は、前処理後の認識待ち画像であり、即ち、認識待ち画像に対して前処理を行った後に得られた画像である。画像に対して前処理を行う目的は、画像におけるターゲット(対象)を強調することにある。これにより、オリジナルの認識待ち画像に比べ、前処理後の認識待ち画像は、画像におけるターゲット(対象)をより目立つように示すことができ、即ち、認識待ち画像における細部を強調することができる。
【0025】
理解すべきは、ターゲットは、実際のニーズに応じて確定されても良く、それ相応に、認識待ち画像に対して前処理を行うときに、具体的な前処理方法は、認識待ち画像において強調する必要のあるターゲットに基づいて確定されても良いということである。眼底画像を例とすれば、対応する疾患の症状を判断する正確性を向上させるために、眼底画像における血管部分及び微小動脈瘤部分をターゲットとしても良く、即ち、眼底画像に対して前処理を行うことで、眼底画像における血管及び微小動脈瘤を強調することができる。
【0026】
S206:コンピュータ装置が機械学習モデルにおける第一サブモデルにより認識待ち画像に対応する第一画像特徴を取得し、また、機械学習モデルにおける第二サブモデルにより前処理画像に対応する第二画像特徴を取得する。
【0027】
そのうち、機械学習の英語名は、Machine Learningであり、MLと略称される。機械学習モデルは、サンプルを用いて学習を行うことで、特定の能力を具備するようになる。本実施例における機械学習モデルは、事前訓練により得られた、画像分類能力を具備するモデルである。
【0028】
さらに細分化すると、機械学習は、深層学習(英語名は、deep learningであり、DLと略称される)を含んでも良い。本実施例では、深層学習の方法を採用することで、モデルの入力特徴を手動で定義するステップを省略することができる。この場合、人間の参加を必要とする従来の機械学習の制限がなくなり、また、モデルの入力画像(認識待ち画像及び前処理画像)における情報が十分にマイニングされるため、画像分類の正確性及び安定性を向上させることができる。また、深層学習を採用するときに、サンプルの数を増やすことで、モデルの出力結果の正確性をさらに向上させることもできる。
【0029】
なお、機械学習モデルは、ニューラルネットワークモデル、例えば、畳み込みニューラルネットワーク(convolution neural network、CNN)モデルを採用しても良い。それ相応に、深層学習を行うときに、機械学習モデルは、深層学習モデルであっても良い。
【0030】
幾つかの実施例において、コンピュータ装置は、機械学習モデルのモデル構成を事前設定することで、初期機械学習モデルを取得し、そして、各クラスに属する画像サンプルを用いて訓練を行うことで、機械学習モデルのモデルパラメータを取得することができる。これにより、認識待ち画像に対して画像認識を行う必要があるときに、コンピュータ装置は、事前訓練により得られたモデルパラメータを取得し、そして、該モデルパラメータを初期機械学習モデルに導入することで、機械学習モデルを取得することができる。
【0031】
本実施例では、該機械学習モデルは、第一サブモデル及び第二サブモデルを含む。第一サブモデルは、認識待ち画像に対応する第一画像特徴を得るために用いられ、第二サブモデルは、前処理画像に対応する第二画像特徴を得るために用いられる。これで分かるように、機械学習モデルの内部では、互いに独立した2つのサブモデルにより、第一画像特徴及び第二画像特徴をそれぞれ得ることができる。
【0032】
また、他の実施例において、機械学習モデルは、2つよりも多いサブモデルを含んでも良く、例えば、第一サブモデル及び第二サブモデルの他に、機械学習モデルは、第三サブモデル、第四サブモデルなどをさらに含んでも良い。そのうち、異なるサブモデルは、異なるバージョンの認識待ち画像に対応する画像特徴を得るために用いられる。異なるバージョンの認識待ち画像は、オリジナルバージョンの認識待ち画像(いずれの処理も行われていない認識待ち画像)及び前処理バージョンの認識待ち画像(前処理後の認識待ち画像)を含んでも良い。また、異なる前処理方法は、異なる前処理バージョンの認識待ち画像に対応しても良い。
【0033】
そのうち、画像特徴は、画像の特性を反映するために用いることができる。画像の特性に基づいて画像に対して画像分類を行うことができ、即ち、画像の画像特徴を抽出し、そして、画像特徴に基づいて該画像に対して画像分類を行うことができる。このプロセスでは、画像特徴は、画像分類を行う根拠である。本実施例では、第一画像特徴は、認識待ち画像に対応する画像特徴であり、第二画像特徴は、前処理画像に対応する画像特徴である。
【0034】
具体的には、第一画像特徴及び第二画像特徴はともに、機械学習モデルにより取得される高次元特徴である。幾つかの実施例において、データ構造について言えば、第一画像特徴及び第二画像特徴はともに、1次元ベクトルであっても良く、例えば、1024個の浮動小数点数を含むアレイ(Array)である。
【0035】
本実施例では、任意の認識待ち画像に対して画像認識を行うときに、該認識待ち画像及び該認識待ち画像に対して前処理を行った後に得られた前処理画像を一緒に機械学習モデルに入力することができる。そして、機械学習モデルにおける第一サブモデルは、該認識待ち画像に対して特徴抽出を行い、該認識待ち画像に対応する第一画像特徴を取得し、機械学習モデルにおける第二サブモデルは、該前処理画像に対して特徴抽出処理を行い、該前処理画像に対応する第二画像特徴を取得する。その後、該第一画像特徴及び該第二画像特徴に基づいて後続の処理が行われる。
【0036】
具体的には、機械学習モデルは、2つの入力チャンネルを含んでも良い。これにより、機械学習モデルにおける1つの入力チャンネルにより、認識待ち画像を該機械学習モデルにおける第一サブモデルに入力し、また、もう1つの入力チャンネルにより、前処理画像を該機械学習モデルにおける第二サブモデルに入力することができる。
【0037】
S208:コンピュータ装置が第一画像特徴及び第二画像特徴に基づいて、認識待ち画像が該機械学習モデルに対応するクラスに属する第一確率を確定する。
【0038】
理解すべきは、画像がその関連する事物の属性を反映するために用いられ得るということである。例えば、人物画像は、画像における人物の性別を反映することができ(以下、例E-1と略称する)、また例えば、眼底画像は、糖尿病網膜症の性質及び程度を反映することができる(以下、E-2と略称する)。これに基づいて、クラスは、画像が反映する事物の属性に関連する幾つかのクラスである。例えば、例E-1について、2つのクラスを設定しても良く、それぞれは、男性及び女性であり、例E-2について、5つのクラスを設定しても良く、それぞれは、正常、軽症非増殖糖尿病網膜症、中等症非増殖糖尿病網膜症、重症非増殖糖尿病網膜症、及び増殖糖尿病網膜症である。
【0039】
本実施例では、第一画像特徴及び第二画像特徴により、共同で、対応する認識待ち画像の属する機械学習モデルに対応するクラスを反映する。認識待ち画像の分類は、2クラス分類であっても良く、多クラス分類であっても良い。認識待ち画像の2クラス分類の場合、認識待ち画像について言えば、その候補クラスの総数が2に等しいことであり、例えば、上述の例E-1である。認識待ち画像の多クラス分類の場合、認識待ち画像について言えば、その候補クラスの総数が2よりも大きいことであり、例えば、上述の例E-2は、認識待ち画像の5クラス分類である。
【0040】
本実施例では、第一画像特徴及び第二画像特徴に基づいて、認識待ち画像がそれぞれ各クラスに属する第一確率を確定する。例えば、各クラスがそれぞれAクラス、Bクラス、及びCクラスである場合、第一画像特徴及び第二画像特徴に基づいて、認識待ち画像がAクラスに属する第一確率、Bクラスに属する第一確率、及びCクラスに属する第一確率をそれぞれ確定する。
【0041】
そのうち、第一確率は、認識待ち画像がその対応するクラスに属する可能性の大小を反映するために用いられる。例えば、認識待ち画像がAクラスに属する第一確率は、認識待ち画像がAクラスに属する可能性の大小を反映するために用いられる。具体的には、認識待ち画像が或るクラスに属する第一確率が大きいほど、該認識待ち画像が該クラスに属する可能性が大きく、逆に、認識待ち画像が或るクラスに属する第一確率が小さいほど、該認識待ち画像が該クラスに属する可能性が小さい。これにより、認識待ち画像がそれぞれ各クラスに属する第一確率に基づいて、該認識待ち画像の属するクラスをさらに確定することができる。
【0042】
実際の応用にあたって、認識待ち画像がそれぞれ各クラスに属する第一確率に基づいて、該認識待ち画像が反映し得る事物の属性をさらに予測することができる。認識待ち画像が眼底画像であるケースを例とすると、認識待ちの眼底画像がそれぞれ正常、軽症非増殖糖尿病網膜症、中等症非増殖糖尿病網膜症、重症非増殖糖尿病網膜症、及び増殖糖尿病網膜症に属する各第一確率に基づいて、該眼底画像の所有者の糖尿病網膜症の症状を予測することができる。
【0043】
上述の画像認識方法により、認識待ち画像を得た後に、認識待ち画像に対して前処理を行い、そして、機械学習モデルにおける第一サブモデル及び第二サブモデルにより、それぞれ、認識待ち画像に対応する第一画像特徴及び前処理後の認識待ち画像に対応する第二画像特徴を取得し、それから、第一画像特徴及び第二画像特徴に基づいて、共同で、認識待ち画像が機械学習モデルに対応するクラスに属する確率を確定する。一方では、機械学習モデルによる認識待ち画像の自動分類は、マニュアルインタープリテーション(Manual Interpretation)に比べ、より正確になり、他方では、前処理後の認識待ち画像は、画像における細部を強調することができるため、第一画像特徴及び第二画像特徴を組み合わせると、オリジナルの認識待ち画像における基本情報だけでなく、前処理後の認識待ち画像において強調された細部情報も利用することができ、これで分かるように、認識待ち画像に基づいて情報利用を十分に行っている(即ち、認識待ち画像における情報を十分にマイニングしている)ので、認識の正確性をより一層向上させることができる。
【0044】
幾つかの実施例において、第一画像特徴及び第二画像特徴に基づいて、認識待ち画像が機械学習モデルに対応するクラスに属する第一確率を確定するステップ、即ち、ステップS208は、次のようなステップを含んでも良く、即ち、第一画像特徴及び第二画像特徴を機械学習モデルの出力層に入力し;及び、機械学習モデルの出力層により、第一画像特徴及び第二画像特徴に基づいて、認識待ち画像が機械学習モデルに対応するクラスに属する第一確率を確定する。
【0045】
本実施例では、機械学習モデルは、第一サブモデル及び第二サブモデルを含むことに加えて、出力層をさらに含む。機械学習モデルの出力層は、第一画像特徴及び第二画像特徴に基づいて、認識待ち画像が機械学習モデルに対応するクラスに属する第一確率を確定し出力するために用いられる。
【0046】
幾つかの実施例において、出力層は、正規化指数(softmax)層であっても良い。softmax層は、画像分類の最終分類結果を得る能力を具備する。具体的には、softmax層は、第一画像特徴及び第二画像特徴を入力とし、そして、第一画像特徴及び第二画像特徴に基づいて行列乗算処理、ベクトル加算処理及び正規化処理を順次行うことで、認識待ち画像の最終分類結果、即ち、認識待ち画像が機械学習モデルに対応するクラスに属する第一確率を取得することができる。
【0047】
本実施例では、機械学習モデルにより、認識待ち画像に対応する第一画像特徴及び前処理画像に対応する第二画像特徴を得た後に、引き続いて機械学習モデルにより、第一画像特徴及び第二画像特徴に基づいて、認識待ち画像が機械学習モデルに対応するクラスに属する第一確率を確定するタスクを完成する。即ち、ユーザが直接、認識待ち画像及び前処理画像をともに機械学習モデルに入力することができ、そして、機械学習モデルは自ら、各タスクを完成することで、認識待ち画像が機械学習モデルに対応するクラスに属する第一確率を出力することができる。画像認識のプロセスにおいて機械学習モデルの入力特徴を手動で定義する必要がないため、エンドツーエンドの学習(end-to-end learning)を実現し、ワークフローを簡略化することができる。
【0048】
幾つかの実施例において、図3に示すように、前述の第一サブモデルは、第一特徴検出サブモデルを含み、第二サブモデルは、第二特徴検出サブモデルを含み、機械学習モデルは、さらに、第一特徴検出サブモデルと結合される第一全結合層及び第二特徴検出サブモデルと結合される第二全結合層を含み、また、第一全結合層及び第二全結合層はともに、出力層と結合される。この場合、第一特徴検出サブモデル及び第一全結合層により、認識待ち画像に対応する第一画像特徴を取得するステップを実現し、また、第二特徴検出サブモデル及び第二全結合層により、前処理画像に対応する第二画像特徴を取得するステップを実現することができる。
【0049】
そのうち、特徴検出サブモデルは、その入力画像に対して画像特徴抽出処理を行い、該入力画像に対応する中間画像特徴を得るために用いられる。特徴検出サブモデルについて言えば、その取得する中間画像特徴は、特徴検出サブモデルのモデルパラメータに基づいて確定することができる。具体的には、第一特徴検出サブモデルは、認識待ち画像に対して画像特徴抽出処理を行い、該認識待ち画像に対応する中間画像特徴を得るために用いられる。同様に、第二特徴検出サブモデルは、前処理画像に対して画像特徴抽出処理を行い、該前処理画像に対応する中間画像特徴を得るために用いられる。
【0050】
幾つかの実施例において、第一特徴検出サブモデル及び第二特徴検出サブモデルは、モデル構成が一致するように保つことができ、両者は、モデルパラメータのみが異なっても良い。また、両者のモデル構成はともに、任意の適した畳み込みニューラルネットワークモデルに基づいて調整を行うことにより取得されても良く、例えば、両者のモデル構成はともに、inceptionV3モデルの最末端の出力層を除去した後に残された構成であっても良い。また、inceptionV3モデルの他に、他の畳み込みニューラルネットワークモデルに対して調整を行うことで、第一特徴検出サブモデル及び第二特徴検出サブモデルのモデル構成を取得しても良く、他の畳み込みニューラルネットワークモデルは、例えば、RestNetモデル(又はResNetモデル)、VGG(Visual Geometry Group)モデル、DenseNetモデルなどである。他の実施例において、実際のニーズに応じて、第一特徴検出サブモデル及び第二特徴検出サブモデルのモデル構成は異なっても良い。
【0051】
全結合層は、その入力特徴、及び該全結合層に対応するモデルパラメータに対して行列乗算処理を行うことで、対応するターゲット画像特徴を得るために使用することができる。具体的には、第一全結合層は、第一特徴検出サブモデルと結合される。理解すべきは、第一特徴検出サブモデルの出力が第一全結合層の入力であるということである。この場合、第一全結合層は、第一特徴検出サブモデルが出力する中間画像特徴と、該第一全結合層に対応するモデルパラメータとに対して行列乗算処理を行うことで、認識待ち画像に対応する第一画像特徴を取得するために用いることができる。同様に、第二全結合層は、第二特徴検出サブモデルと結合され、第二特徴検出サブモデルの出力は、第二全結合層の入力である。この場合、第二全結合層は、第二特徴検出サブモデルが出力する中間画像特徴と、該第二全結合層に対応するモデルパラメータとに対して行列乗算処理を行うことで、前処理画像に対応する第二画像特徴を得るために使用することができる。
【0052】
また、機械学習モデルの内部において、第一全結合層及び第二全結合層はともに、出力層と結合される。理解すべきは、第一全結合層の出力及び第二全結合層の出力がともに出力層の入力であるということである。この場合、出力層は、第一全結合層が出力する第一画像特徴及び第二全結合層が出力する第二画像特徴に基づいて、共同で、認識待ち画像が機械学習モデルに対応するクラスに属する第一確率を確定し、そして、確定した確率を出力することができる。
【0053】
本実施例では、コンピュータ装置は、認識待ち画像及び前処理画像を得た後に、認識待ち画像を機械学習モデルにおける第一特徴検出サブモデルに入力し、また、前処理画像を該機械学習モデルにおける第二特徴検出サブモデルに入力する。それから、該機械学習モデルの内部において、一方では、第一特徴検出サブモデルは、認識待ち画像に対して画像特徴抽出処理を行い、抽出により取得した中間画像特徴を第一全結合層に出力し、そして、第一全結合層は、該中間画像特徴に基づいて、認識待ち画像に対応する第一画像特徴を取得し出力層に出力し、他方では、第二特徴検出サブモデルは、前処理画像に対して画像特徴抽出処理を行い、抽出により取得した中間画像特徴を第二全結合層に出力し、そして、第二全結合層は、該中間画像特徴に基づいて、認識待ち画像に対応する第二画像特徴を取得し出力層に出力する。その後、出力層は、受け取った第一画像特徴及び第二画像特徴に基づいて、認識待ち画像が機械学習モデルに対応するクラスに属する第一確率を確定し、そして、確定した確率を出力する。
【0054】
また、前述のように、機械学習モデルは、2つの入力チャンネルを含んでも良い。このときに、そのうちの1つの入力チャンネルにより認識待ち画像を該機械学習モデルにおける第一特徴検出サブモデルに入力し、また、もう1つの入力チャンネルにより前処理画像を該機械学習モデルにおける第二特徴検出サブモデルに入力することができる。
【0055】
幾つかの実施例において、第一画像特徴及び第二画像特徴に基づいて、認識待ち画像が機械学習モデルに対応するクラスに属する第一確率を確定するステップ、即ち、ステップS208は、次のようなステップを含んでも良く、即ち、機械学習モデルにより、第一画像特徴に基づいて、認識待ち画像が機械学習モデルに対応するクラスに属する第二確率を取得し;機械学習モデルにより、第二画像特徴に基づいて、前処理画像が機械学習モデルに対応するクラスに属する第三確率を取得し;及び、第二確率及び第三確率に基づいて演算を行い、認識待ち画像が機械学習モデルに対応するクラスに属する第一確率を確定する。
【0056】
そのうち、第二確率は、認識待ち画像がその対応するクラスに属する可能性の大小を予備的に反映するために用いられる。第三確率は、前処理画像がその対応するクラスに属する可能性の大小を反映するために用いられる。
【0057】
本実施例では、機械学習モデルにより、認識待ち画像に対応する第一画像特徴及び前処理画像に対応する第二画像特徴を得た後に、引き続いて機械学習モデルにより、認識待ち画像が機械学習モデルに対応するクラスに属する第二確率、及び、前処理画像が機械学習モデルに対応するクラスに属する第三確率を取得することができる。これまでのところ、機械学習モデルは、そのタスクを完了している。その後、コンピュータ装置で実行される非機械学習モデルの他の機能モジュールにより、第二確率及び第三確率に基づいて演算を行うことで、認識待ち画像が機械学習モデルに対応するクラスに属する第一確率を得るタスクを実現することができる。或いは、第二確率及び第三確率を得た後に、人工方式又は他のコンピュータ装置で、第二確率及び第三確率に基づいて演算を行うタスクを完成しても良い。理解すべきは、第一確率は、認識待ち画像がその対応するクラスに属する可能性の大小を最終的に反映するために用いられるということである。
【0058】
本実施例では、第一画像特徴に基づいて、認識待ち画像がそれぞれ各クラスに属する第二確率を取得する。例えば、各クラスがそれぞれAクラス、Bクラス、及びCクラスである場合、第一画像特徴に基づいて、認識待ち画像がAクラスに属する第二確率、Bクラスに属する第二確率、及びCクラスに属する第二確率を確定する。同様に、第二画像特徴に基づいて、認識待ち画像がそれぞれ各クラスに属する第三確率を取得する。例えば、クラスがAクラス、Bクラス、及びCクラスを含む場合、第二画像特徴に基づいて、前処理画像がAクラスに属する第三確率、Bクラスに属する第三確率、及びCクラスに属する第三確率を確定する。
【0059】
本実施例では、演算は、平均の計算を含んでも良い。幾つかの実施例において、平均の計算は、具体的には、加重平均の計算であっても良い。例えば、認識待ち画像がAクラスに属する第二確率、第二確率に対応する重み(ウェイト)、前処理画像がAクラスに属する第三確率、及び第三確率に対応する重みに基づいて加重平均の計算を行い、認識待ち画像がAクラスに属する第一確率を取得することができる。
【0060】
幾つかの実施例において、図4に示すように、前述の第一サブモデルは、第一分類サブモデルを含み、第二サブモデルは、第二分類サブモデルを含む。この場合、第一分類サブモデルにより、前述した、認識待ち画像に対応する第一画像特徴を取得し、及び第一画像特徴に基づいて、認識待ち画像が機械学習モデルに対応するクラスに属する第二確率を取得するステップを実現し、また、第二分類サブモデルにより、前述した、前処理画像に対応する第二画像特徴を取得し、及び第二画像特徴に基づいて、前処理画像が機械学習モデルに対応するクラスに属する第三確率を取得するステップを実現することができる。
【0061】
そのうち、第一分類サブモデルは、認識待ち画像に対しいて画像特徴抽出処理を行い、該認識待ち画像に対応する第一画像特徴を取得し、そして、該第一画像特徴に基づいて、認識待ち画像が機械学習モデルに対応するクラスに属する第二確率を確定するために用いられる。同様に、第二分類サブモデルは、前処理画像に対して画像特徴抽出処理を行い、該前処理画像に対応する第二画像特徴を取得し、そして、該第二画像特徴に基づいて、前処理画像が機械学習モデルに対応するクラスに属する第三確率を確定するために用いられる。
【0062】
幾つかの実施例において、第一分類サブモデル及び第二分類サブモデルは、モデル構成が一致するように保つことができ、両者は、モデルパラメータのみが異なっても良い。また、両者のモデル構成はともに、任意の適した畳み込みニューラルネットワークモデルを採用しても良く、このような畳み込みニューラルネットワークモデルは、例えば、inceptionV3モデル、RestNetモデル(又はResNetモデル)、VGG(Visual Geometry Group)モデル、又はDenseNetモデルである。他の実施例において、第一分類サブモデル及び第二分類サブモデルのモデル構成は異なっても良い。
【0063】
本実施例では、コンピュータ装置は、認識待ち画像及び前処理画像を得た後に、認識待ち画像を機械学習モデルにおける第一分類サブモデルに入力し、また、前処理画像を該機械学習モデルにおける第二分類サブモデルに入力する。それから、該機械学習モデルの内部において、一方では、第一分類サブモデルは、認識待ち画像に対して画像特徴抽出処理を行い、該認識待ち画像に対応する第一画像特徴を取得し、そして、該第一画像特徴に基づいて、該認識待ち画像が機械学習モデルに対応するクラスに属する第二確率を確定し出力し、他方では、第二分類サブモデルは、前処理画像に対して画像特徴抽出処理を行い、該前処理画像に対応する第二画像特徴を取得し、そして、第二画像特徴に基づいて、該前処理画像が機械学習モデルに対応するクラスに属する第三確率を確定し出力する。その後、コンピュータ装置で実行される非機械学習モデルの他の機能モジュール(図4では、演算モジュールと称されるものである)により、第一分類サブモデルが出力する各第二確率及び第二分類サブモデルが出力する各第三確率に基づいて演算を行い、認識待ち画像が機械学習モデルに対応する各クラスに属する第一確率を取得することができる。
【0064】
また、前述のように、機械学習モデルは、2つの入力チャンネルを含んでも良い。このときに、そのうちの1つの入力チャンネルにより認識待ち画像を該機械学習モデルにおける第一分類サブモデルに入力し、また、もう1つの入力チャンネルにより前処理画像を該機械学習モデルにおける第二分類サブモデルに入力することができる。
【0065】
幾つかの実施例において、前述した、認識待ち画像に対して前処理を行う方法は、以下のようなステップのうちの少なくとも1つ又は2つ以上の組み合わせを含む。
【0066】
コンピュータ装置が前記認識待ち画像におけるターゲットを参照対象サイズに調整し;
コンピュータ装置が前記認識待ち画像における無効領域をトリミングし、前記無効領域を含まない画像を取得し;
コンピュータ装置が前記認識待ち画像を参照画像サイズに調整し;
コンピュータ装置が前記認識待ち画像の画像属性に対して調整を行い、前記画像属性は、コントラスト及びグレースケールのうちの少なくとも1つを含む。
【0067】
コンピュータ装置は、認識待ち画像について言えば、上述の任意の1つのステップ又は少なくとも2つのステップの組み合わせにより前処理を行うことで、認識待ち画像における細部を強調することができる。
【0068】
幾つかの実施例において、前述した、認識待ち画像に対しいて前処理を行う方法は、次のようなステップを含んでも良く、即ち、コンピュータ装置が認識待ち画像におけるターゲットを参照対象サイズに調整し、第一調整画像を取得し;コンピュータ装置が第一調整画像における無効領域をトリミングし、第二調整画像を取得し、第二調整画像には、無効領域が含まれず;及び、コンピュータ装置が第二調整画像を参照画像サイズに調整し、第三調整画像を取得する。前処理画像は、第三調整画像に基づいて取得される。
【0069】
本実施例では、コンピュータ装置は、ターゲットを参照対象サイズに調整し、第一調整画像を得ることができる。具体的には、認識待ち画像に含まれるターゲットに対して拡大縮小処理を行うことにより実現される。そのうち、ターゲットは、認識待ち画像に含まれる画像内容であり、且つ強調する必要のある対象である。理解すべきは、ターゲットが実際のニーズに応じて設定されても良いということである。例えば、人物画像について、事前に画像内の人物の口をターゲットと設定し、固定した幅(width)を参照対象サイズとしても良い。この場合、ダ・ヴィンチの「モナ・リザ」という絵の画像を認識待ち画像とするときに、該画像内のモナ・リザという人物の口部分に対して拡大縮小処理を行うことで、口部分のサイズを上述の固定した幅に調整することができる。また例えば、眼底画像について、事前に画像内の眼球をターゲットと設定し、固定した半径を参照対象サイズと設定しても良い。この場合、認識待ち画像としての任意の眼底画像について、該眼底画像における眼球に対して拡大縮小処理を行うことで、該眼底画像内の眼球の半径を上述の固定した半径に調整することができる。幾つかの実施例において、参照対象サイズは、所定の対象のサイズであっても良く、認識待ち画像におけるターゲット以外の他の対象のサイズであっても良い。例えば、眼底画像について言えば、そのうちの1つの眼球をターゲットと設定し、もう1つの眼球を参照対象と設定しても良い。この場合、眼底画像における1つの眼球をもう1つの眼球のサイズに調整することができる。
【0070】
その後、コンピュータ装置は、第一調整画像(即ち、認識待ち画像のターゲットを参照対象サイズに調整した後に得られた画像)における無効領域をトリミングし、第二調整画像を取得する。第二調整画像には、無効領域が含まれない。言い換えれば、コンピュータ装置は、第一調整画像における無効領域をトリミングし、トリミングした後に残された、該無効領域が含まれない画像を第二調整画像とする。そのうち、無効領域は、認識待ち画像が機械学習モデルに対応するクラスに属する第一確率を確定するというタスクにプラスの効果がない画像領域である。幾つかの実施例において、無効領域は、有効な内容情報を具備しない領域、例えば、空白領域を含んでも良い。
【0071】
その後、第二調整画像(即ち、第一調整画像の無効領域をトリミングした後に得られた画像)を参照画像サイズに調整し、第三調整画像を取得する。幾つかの実施例において、第三調整画像は、前処理画像である。なお、コンピュータ装置は、機械学習モデルを訓練するときに、機械学習モデルに入力する訓練画像の画像サイズを設定することができる。これにより、統一した画像サイズの訓練画像(固定したサイズの入力)に基づいて機械学習モデルを訓練することで、機械学習モデルの複雑度を大幅に低減することができる。これに基づいて、認識待ち画像に対して画像認識を行うときに、コンピュータ装置は、機械学習モデルと関連付けられる参照画像サイズを照会することができる。その後、認識待ち画像に対して前処理を行うプロセスにおいて、第二調整画像の現在の画像サイズと参照画像サイズとの比較を行い、現在の画像サイズが参照画像サイズと一致しないときに、コンピュータ装置は、現在の画像サイズを参照画像サイズに調整することができる。例えば、参照画像サイズは、512*512の解像度であっても良い。
【0072】
なお、上述した、訓練機械学習モデルに用いられる訓練画像の画像サイズを統一するという設定は、訓練画像の画像サイズを限定することでない。訓練機械学習モデルの訓練画像の画像サイズは、統一した画像サイズでなくても良い。
【0073】
幾つかの実施例において、前述した、認識待ち画像に対して前処理を行う方法は、さらに、次のようなステップを含んでも良く、即ち、ターゲット調整画像の画像属性に対して調整を行い、ターゲット調整画像は、第一調整画像、第二調整画像及び第三調整画像のうちのいずれか1つを含み、画像属性は、コントラスト及びグレースケールのうちの少なくとも1つを含む。
【0074】
具体的には、認識待ち画像に対して前処理を行うプロセスにおいて、前述した、画像に含まれるターゲットを参照対象サイズに調整し、画像における無効領域を除去し、及び画像を参照画像サイズに調整するという3つの処理ステップの他に、画像のコントラストを調整することをさらに行っても良い。或いは、上述の3つの処理ステップ以外に、画像のグレースケールを調整することをさらに行っても良いい。或いは、上述の3つのステップの他に、画像のコントラスト及び画像のグレースケールの両方を調整することをさらに行っても良い。また、画像属性は、コントラスト及びグレースケールに限られず、他の実施例において、輝度などがさらに含まれても良い。このときに、画像属性は、コントラスト、グレースケール及び輝度のうちの少なくとも1つを含む。
【0075】
そのうち、画像のコントラストを調整するときに、具体的には、画像における各画素の各画素値(R、G、B)に対して次のような処理を行っても良く、即ち、該画素の所在する画素範囲内の平均値を減算し、そして、各画素値に所定の数値を乗算することで、各画素間の差を増加させる。理解すべきは、所定の数値は実際のニーズに応じて設定されても良いということである。例えば、所定の数値は、4と設定されても良い。また、画像のグレースケールを調整するときに、画像に50%のグレースケールを増加させても良い。なお、ターゲット調整画像の画像属性に対して調整を行うことは、ターゲット調整画像の特徴を強調することができる。眼底画像を例にとると、眼底画像のコントラスト及びグレースケールに対して上述のような調整を行った後に、眼底画像における血管部分、テクスチャ特徴などをより目立つようにすることができる。
【0076】
なお、画像属性の調整ステップは、ターゲットを参照対象サイズに調整するというステップの前にあっても良く、即ち、先に認識待ち画像の画像属性を調整し、それから、調整後の認識待ち画像におけるターゲットを参照対象サイズに調整し、第一調整画像を取得し、そして、該第一調整画像に基づいて後続の処理を行っても良い。或いは、画像属性の調整ステップは、ターゲットを参照対象サイズに調整し、画像における無効領域をトリミングし、及び画像を参照画像サイズに調整するという3つの処理ステップのうちのいずれか1つの直後にあっても良い。例えば、画像における無効領域をトリミングするステップの直後に位置し、即ち、先に第二調整画像の画像属性を調整し、それから、画像属性調整後の第二調整画像を参照画像サイズに調整することで、第三調整画像を取得する。
【0077】
幾つかの実施例において、前処理画像の数が1よりも大きく、また、各前処理画像は、異なる前処理方法により取得される。
【0078】
理解すべきは、任意の認識待ち画像に対して画像認識を行うプロセスにおいて、単一の前処理方法を採用して該認識待ち画像に対して前処理を行う場合、得られた前処理画像の数は1に等しいということである。
【0079】
本実施例では、任意の認識待ち画像に対して画像認識を行うプロセスにおいて、それぞれ2種類以上の異なる前処理方法を使用して認識待ち画像に対して前処理を行うことができる。この場合、各種類の前処理方法により、この種類の前処理方法に対応する1つの前処理画像を得ることができる。これにより、それぞれ各種類の異なる前処理方法を採用して認識待ち画像に対して前処理を行った後に、取得した、各種類の前処理方法にそれぞれ対応する(一対一対応する)各前処理画像の総数もそれ相応に2以上である。例えば、それぞれ前処理方法W1、前処理方法W2及び前処理方法W3という3種類の前処理方法を使用して認識待ち画像POに対して前処理を行うときに、前処理方法W1に一意に対応する前処理画像Pd1、前処理方法W2に一意に対応する前処理画像Pd2、及び前処理方法W3に一意に対応する前処理画像Pd3を得ることができる(以下、例E-3と略称する)。
【0080】
その後、コンピュータ装置は、認識待ち画像及び各前処理画像をともに機械学習モデルに入力し、該機械学習モデルにより、それぞれ、認識待ち画像に対応する第一画像特徴及び各前処理画像にそれぞれに対応する各第二画像特徴を取得することができる。それから、コンピュータ装置は、認識待ち画像に対応する第一画像特徴及び各前処理画像にそれぞれに対応する各第二画像特徴に基づいて、共同で、該認識待ち画像が機械学習モデルに対応するクラスに属する第一確率を確定する。
【0081】
なお、異なる前処理方法により、認識待ち画像に含まれる情報をさらにマイニングすることで、モデルの出力結果の正確性をより一層向上させることができる。
【0082】
なお、機械学習モデルが前述の第一特徴検出サブモデル、第二特徴検出サブモデル、第一全結合層、第二全結合層及び出力層を含む場合、第二特徴検出サブモデルの数及び第二全結合層の数はすべて、前処理画像の数にマッチしている。具体的には、前処理画像の数が1に等しいときに、第二特徴検出サブモデルの数及び第二全結合層の数はともに1に等しい。前処理画像の数が1よりも大きいときに、第二特徴検出サブモデルの数及び第二全結合層の数はすべて1よりも大きく、且つすべて前処理画像の数と一致している。
【0083】
例を挙げて説明する。例E-3について、図5に示すように、機械学習モデルは、認識待ち画像POに対応する第一画像特徴F1を得るための第一特徴検出サブモデルMT1、前処理画像Pd1に対応する第二画像特徴F21-1を得るための第二特徴検出サブモデルMT2-1、前処理画像Pd2に対応する第二画像特徴F21-2を得るための第二特徴検出サブモデルMT2-2、前処理画像Pd3に対応する第二画像特徴F21-3を得るための第二特徴検出サブモデルMT2-3、第一全結合層FC1、第二全結合層FC2-1、第二全結合層FC2-2、第二全結合層FC2-3、及び出力層Sを含む。そのうち、第一特徴検出サブモデルMT1は、第一全結合層FC1と結合され、第二特徴検出サブモデルMT2-1は、第二全結合層FC2-1と結合され、第二特徴検出サブモデルMT2-2は、第二全結合層FC2-2と結合され、第二特徴検出サブモデルMT2-3は、第二全結合層FC2-3と結合される。また、第一全結合層FC1、第二全結合層FC2-1、第二全結合層FC2-2、及び第二全結合層FC2-3はすべて、出力層Sと結合される。これにより、出力層Sは、第一全結合層FC1の出力結果、第二全結合層FC2-1の出力結果、第二全結合層FC2-2の出力結果、及び第二全結合層FC2-3の出力結果に基づいて、共同で、認識待ち画像POが機械学習モデルに対応するクラスに属する第一確率G11を確定することができる。
【0084】
なお、機械学習モデルが前述の第一分類サブモデル及び第二分類サブモデルを含む場合、第二分類サブモデルの数は、前処理画像の数とマッチしている。具体的には、前処理画像の数が1よりも大きいときに、第二分類サブモデルの数は1よりも大きく、且つすべて前処理画像の数と一致している。これにより、コンピュータ装置は、第一分類サブモデルが出力する第二確率及び各第二分類サブモデルが出力する第三確率に対して演算を行い、認識待ち画像が機械学習モデルに対応するクラスに属する第一確率を得ることができる。
【0085】
例を挙げて説明する。例E-3について、図6に示すように、機械学習モデルは、第一分類サブモデルMC1、第二分類サブモデルMC2-1、第二分類サブモデルMC2-2、及び第二分類サブモデルMC2-3を含む。そのうち、第一分類サブモデルMC1は、認識待ち画像POに対して画像特徴抽出処理を行い、該認識待ち画像POに対応する第一画像特徴F1を取得し、そして、該第一画像特徴F1に基づいて、認識待ち画像POが機械学習モデルに対応するクラスに属する第二確率G2を確定するために用いられる。第二分類サブモデルMC2-1は、前処理画像Pd1に対して画像特徴抽出処理を行い、該前処理画像Pd1に対応する第二画像特徴F21-1を取得し、そして、該第二画像特徴F21-1に基づいて、該前処理画像Pd1が機械学習モデルに対応するクラスに属する第三確率G3-1を確定するために用いられる。第二分類サブモデルMC2-2は、前処理画像Pd2に対して画像特徴抽出処理を行い、該前処理画像Pd2に対応する第二画像特徴F21-2を取得し、そして、該第二画像特徴F21-2に基づいて、該前処理画像Pd2が機械学習モデルに対応するクラスに属する第三確率G3-2を確定するために用いられる。第二分類サブモデルMC2-3は、前処理画像Pd3に対して画像特徴抽出処理を行い、該前処理画像Pd3に対応する第二画像特徴F21-3を取得し、そして、該第二画像特徴F21-3に基づいて、該前処理画像Pd3が機械学習モデルに対応するクラスに属する第三確率G3-3を確定するために用いられる。これにより、コンピュータ装置は、第一分類サブモデルMC1が出力する第二確率G2、第二分類サブモデルMC2-1が出力する第三確率G3-1、第二分類サブモデルMC2-2が出力する第三確率G3-2、及び第二分類サブモデルMC2-3が出力する第三確率G3-3に対して演算を行い、認識待ち画像POが機械学習モデルに対応するクラスに属する第一確率G12を確定することができる。
【0086】
なお、機械学習モデルは、3つ以上の入力チャンネルを含んでも良い。これにより、機械学習モデルにおけるそのうちの1つの入力チャンネルにより認識待ち画像を該機械学習モデルに入力し、また、該機械学習モデルにおける該入力チャンネル以外の各入力チャンネルにより、それぞれ、各前処理方法に対応する各前処理画像を機械学習モデルに入力することができる。
【0087】
幾つかの実施例において、機械学習モデルにおける1つの入力チャンネルにより認識待ち画像を該機械学習モデルにおける第一特徴検出サブモデルに入力し、また、該入力チャンネル以外の他の各入力チャンネルにより、それぞれ、各前処理方法に一対一に対応する各前処理画像をその対応する第二特徴検出サブモデルに入力することができる。
【0088】
幾つかの実施例において、機械学習モデルにおける1つの入力チャンネルにより認識待ち画像を該機械学習モデルの第一分類サブモデルに入力し、また、該入力チャンネル以外の他の各入力チャンネルにより、それぞれ、各前処理方法に一対一に対応する各前処理画像を、その対応する第二分類サブモデルに入力することができる。
【0089】
幾つかの実施例において、図7に示すように、機械学習モデルの確定方法は、以下のようなステップS702乃至ステップS712を含んでも良い。
【0090】
S702:機械学習モデルに対応するクラスに属する第一画像サンプルを取得し;
S704:第一画像サンプルに対してデータエンハンスメント処理を行い、第一訓練画像を取得し;
S706:第一画像サンプルに対して前処理を行い、そして、前処理後の第一画像サンプルに対してデータエンハンスメント処理を行い、第二訓練画像を取得し;
S708:第一訓練画像に基づいてモデル訓練を行い、第一特徴検出サブモデルを取得し;
S710:第二訓練画像に基づいてモデル訓練を行い、第二特徴検出サブモデルを取得し;
S712:第一訓練画像、第二訓練画像、第一特徴検出サブモデル、及び第二特徴検出サブモデルに基づいて、共同でモデル訓練を行い、第一全結合層、第二全結合層、及び出力層を確定する。
【0091】
そのうち、第一画像サンプルは、未処理の画像サンプルである。第一画像サンプルは、真の分類結果が既知である画像である。コンピュータ装置は、各第一画像サンプルの分類ラベルを得ることができる。そのうち、分類ラベルは、その対応する画像サンプルの既知の真の分類結果を示すために用いられる。即ち、任意の第一画像サンプルについて言えば、その分類ラベルは、該第一画像サンプルのリアルに属するクラスを確定するために用いることができる。幾つかの実施例において、分類ラベルが示す真の分類結果は、手動分析により確定されても良く、例えば、関連する技術分野の専門家の分析により確定することができる。
【0092】
第一訓練画像は、データエンハンスメント処理後の第一画像サンプルであり、即ち、第一画像サンプルに対してデータエンハンスメント処理を行った後に得られた画像である。理解すべきは、第一訓練画像の分類ラベルがその対応する第一画像サンプルの分類ラベルと一致しているということである。
【0093】
第二訓練画像は、前処理が行われてからデータエンハンスメント処理がさらに行った後の第一画像サンプルであり、即ち、先に第一画像サンプルに対して前処理を行い、それから、前処理後の第一画像サンプルに対してデータエンハンスメント処理を行った後に取得された画像である。理解すべきは、第二訓練画像の分類ラベルがその対応する第一画像サンプルの分類ラベルと一致しているということである。
【0094】
なお、第一画像サンプル及び前処理後の第一画像サンプルに対してすべてデータエンハンスメント処理を行うことは、その1つの目的は、訓練データの数を拡充することにあり、もう1つの目的は、訓練により取得される機械学習モデルの汎化能力を向上させることにある。
【0095】
本実施例では、コンピュータ装置は、第一訓練画像に基づいてモデル訓練を行い、第一特徴検出サブモデルを取得し、また、第二訓練画像に基づいてモデル訓練を行い、第二特徴検出サブモデルを取得することができる。その後、コンピュータ装置は、モデル統合処理を行うことで、第一特徴検出サブモデルの最末端に1つの全結合層を結合し、第二特徴検出サブモデルの最末端にもう1つの全結合層を結合し、この2つの全結合層を1つの出力層に結合し、そして、この2つの全結合層及び1つの出力層を初期化する。そして、第一特徴検出サブモデルのモデルパラメータ及び第二特徴検出サブモデルのモデルパラメータを不変に保つ場合、第一訓練画像、第二訓練画像、第一特徴検出サブモデル、及び第二特徴検出サブモデルに基づいてモデル訓練を行い、共同でこの2つの全結合層のモデルパラメータ及び1つの出力層のモデルパラメータを確定する。理解すべきは、この2つの全結合層のモデルパラメータ及び1つの出力層のモデルパラメータが確定されていれば、第一全結合層、第二全結合層、及び出力層が確定されており、そして、機械学習モデル全体が確定されているということである。
【0096】
具体的には、コンピュータ装置は、各第一訓練画像及び各第二訓練画像を使用して教師あり学習でモデル訓練を行うことができる。また、訓練プロセスでは、訓練終了条件が満足されるまで、分類ラベルと、機械学習モデルが自ら確定した分類結果との間の差に基づいて、機械学習モデルのモデルパラメータを調整しながら訓練を続け、訓練終了時のモデルパラメータを機械学習モデルのモデルパラメータとして良い。具体的には、機械学習モデルのsoftmax層を用いて、該機械学習モデルが自ら確定した分類結果と、その対応するサンプルの分類ラベルとの比較を行い、損失関数を計算し、そして、損失関数に基づいて勾配逆伝播を行うことで、該機械学習モデルのモデルパラメータを調整することができる。そのうち、損失関数は、任意の適した損失関数であっても良く、例えば、交差エントロピー損失関数である。
【0097】
そのうち、訓練終了条件は、モデル訓練が終了する条件である。訓練終了条件は、所定の反復回数に達したこと、又は、モデルパラメータ調整後の機械学習モデルの分類パフォーマンス指標が所定の指標に達したことであっても良い。
【0098】
また、第一訓練画像に基づいてモデル訓練を行い、第一特徴検出サブモデルを取得するという訓練プロセスは、転移学習方法を採用することができる。転移学習を用いてモデル訓練を行うときに、具体的な訓練方法は、任意の適した転移学習方法を採用しても良い。例えば、transfer learning方法を採用しても良く、即ち、転移訓練を行うときに、下位層のネットワークを1つの特徴抽出器として使用する。また例えば、fine tuning方法を採用しても良く、即ち、転移訓練を行うときに、すべて又はほとんどの層が訓練される。
【0099】
幾つかの実施例において、コンピュータ装置は、機械学習モデルを訓練し記憶し、機械学習モデルを使用する必要のあるときに直接取得して使用することができる。また、コンピュータ装置は、機械学習モデルのモデルパラメータのみを記憶し、機械学習モデルを使用する必要のあるときにモデルパラメータを得て初期の機械学習モデルに導入した後に機械学習モデルを取得して使用することもできる。
【0100】
なお、サンプル及びサンプルに対して追加された分類ラベルに基づいて、教師あり学習による訓練を行って機械学習モデルを得ることは、教師なし学習による訓練を行うことに比べ、機械学習モデルの分類正確性を向上させることができる。また、従来の教師あり学習による訓練を行うことに比べ、機械学習モデルの入力特徴の手動定義を避け、機械学習モデルの訓練効率及び正確性を向上させることができる。
【0101】
幾つかの実施例において、図8に示すように、機械学習モデルの確定方法は、以下のようなステップS802乃至ステップS808を含んでも良い。
【0102】
S802:機械学習モデルに対応するクラスに属する第二画像サンプルを取得し;
S804:第二画像サンプルに対してデータエンハンスメント処理を行い、第三訓練画像を取得し;
S806:第二画像サンプルに対して前処理を行い、そして、前処理後の第二画像サンプルに対してデータエンハンスメント処理を行い、第四訓練画像を取得し;
S808:第三訓練画像に基づいてモデル訓練を行い、第一分類サブモデルを取得し、また、第四訓練画像に基づいてモデル訓練を行い、第二分類サブモデルを取得する。
【0103】
本実施例と図7に示す実施例との主な相違点は、訓練を行う必要のある機械学習モデルのモデル構成が異なることにある。本実施例では、訓練により取得する機械学習モデルは、第一分類サブモデル及び第二分類サブモデルを含む。これにより、モデル訓練プロセスでは、第三訓練画像に基づいてモデル訓練を行い、第一分類サブモデルを取得し、また、第四訓練画像に基づいてモデル訓練を行い、第二分類サブモデルを取得した後に、機械学習モデル全体を確定している。
【0104】
なお、本実施例では、第二画像サンプルに対する限定は、前述の第一画像サンプルに対する具体的な限定と同じであっても良く、用語「第一」及び「第二」は、異なる実施例における命名を区別するためにのみ使用される。第三訓練画像は、前述の第一訓練画像と同様であり、第四訓練画像は、前述の第二訓練画像と同様である。また、本実施例では、機械学習モデルのモデル構成に係る内容以外の他の内容について、すべて、前述の図7に示す実施例における限定を参照することができる。
【0105】
幾つかの実施例において、画像に対してデータエンハンスメント処理を行う方法は、次のようなステップを含んでも良く、即ち、幾何学的変換方法に対応する第一変換パラメータを取得し;及び、第一変換パラメータ及び該第一変換パラメータに対応する幾何学的変換方法に基づいて、画像に対して幾何学的変換処理を行う。
【0106】
そのうち、幾何学的変換方法は、画像の画素値を変えない画像変換方法である。幾何学的変換方法は、画像反転、画像トリミング、画像拡大縮小、画像回転などのうちの少なくとも1つを含んでも良い。第一変換パラメータは、幾何学的変換処理に係る操作パラメータであり、例えば、画像回転角度、画像拡大縮小率などである。そのうち、第一変換パラメータは、ランダムにすることができるが、もちろん、事前設定されたものであっても良い。
【0107】
具体的には、画像に対して幾何学的変換処理を行うステップは、次のようなことのうちの少なくとも1つを含んでも良く、即ち、反転の確率に基づいて、画像を所定の方向に沿って反転させ;ランダムなトリミングパラメータに基づいて、画像のフレームをトリミングし;ランダムな画像サイズ調整値に基づいて、画像の画像サイズを調整し;及び、ランダムな回転角度に基づいて、画像を回転する。
【0108】
また、反転の確率に基づいて画像を所定の方向に沿って反転することは、例えば、50%の確率に基づいて画像を左右反転又は上下反転することを含む。ランダムなトリミングパラメータに基づいて画像のフレームをトリミングすることは、例えば、画像の高さ及び幅に対して0%乃至20%のフレームトリミングを行うことを含む。画像サイズ調整値に基づいて画像の画像サイズを調整することは、例えば、画像の画像サイズを原図の90%乃至110%に拡大縮小することを含む。また、ランダムな回転角度に基づいて画像を回転することは、例えば、画像を-180°乃至180°ランダム回転することを含む。
【0109】
幾つかの実施例において、画像に対してデータエンハンスメント処理を行う方法は、次のようなステップを含んでも良く、即ち、画像属性調整方法に対応する第二変換パラメータを取得し;及び、第二変換パラメータ及び該第二変換パラメータに対応する画像属性調整方法に基づいて、画像に対して画像属性調整処理を行う。
【0110】
画像属性調整方法は、画像の画素値を変える画像変換方法である。画像属性調整は、画像輝度の調整、画像コントラストの調整などのうちの少なくとも1つを含んでも良い。第二変換パラメータは、画像属性調整処理に係る操作パラメータであり、例えば、画像輝度、画像コントラストなどである。そのうち、第二変換パラメータは、ランダムにすることができるが、もちろん、事前設定されたものであっても良い。
【0111】
具体的には、画像に対して画像属性調整処理を行うステップは、次のようなことのうちの少なくとも1つを含んでも良く、即ち、ランダムな輝度調整値に基づいて、画像における各画素の輝度を調整し;及び、コントラスト調整値に基づいて、画像における各画素のコントラストを調整する。
【0112】
また、ランダムな輝度調整値に基づいて画像における各画素の輝度を調整することは、例えば、画像における各画素の輝度に対して-20乃至20ランダム増加させることを含む。また、コントラスト調整値に基づいて画像における各画素のコントラストを調整することは、例えば、画像における各画素に0.8から1.2までの範囲にある1つのランダムな値を乗算することを含む。
【0113】
幾つかの実施例において、図9に示すように、画像認識方法が提供される。以下、該方法に係る認識待ち画像が眼底画像であるケースを例として説明を行う。該方法は、具体的には、以下のようなステップS902乃至ステップS920を含んでも良い。
【0114】
S902:機械学習モデルに対応するクラスに属する第一画像サンプルを取得し、第一画像サンプルに対してデータエンハンスメント処理を行って第一訓練画像を取得し、第一画像サンプルに対して前処理を行い、前処理後の第一画像サンプルに対してデータエンハンスメント処理を行って第二訓練画像を取得し、第一訓練画像に基づいてモデル訓練を行って第一特徴検出サブモデルを取得し、第二訓練画像に基づいてモデル訓練を行って第二特徴検出サブモデルを取得し、第一訓練画像、第二訓練画像、第一特徴検出サブモデル、及び第二特徴検出サブモデルに基づいて共同でモデル訓練を行って第一全結合層、第二全結合層、及び出力層を確定することで、機械学習モデルを確定し;
S904:認識待ち眼底画像を取得し;
S906:認識待ち眼底画像に対して前処理を行い、前処理眼底画像を取得し;
S908:認識待ち眼底画像を機械学習モデルの第一特徴検出サブモデルに入力し;
S910:第一特徴検出サブモデルにより認識待ち眼底画像に対応する中間画像特徴を取得し、そして、該中間画像特徴を機械学習モデルの第一全結合層に出力し;
S912:第一全結合層により第一特徴検出サブモデルからの中間画像特徴に基づいて認識待ち眼底画像に対応する第一画像特徴を取得し、そして、該第一画像特徴を機械学習モデルの出力層に出力し;
S914:前処理眼底画像を機械学習モデルの第二特徴検出サブモデルに入力し;
S916:第二特徴検出サブモデルにより前処理眼底画像に対応する中間画像特徴を取得し、そして、該中間画像特徴を機械学習モデルの第二全結合層に出力し;
S918:第二全結合層により第二特徴検出サブモデルからの中間画像特徴に基づいて前処理眼底画像に対応する第二画像特徴を取得し、そして、該第二画像特徴を機械学習モデルの出力層に出力し;
S920:機械学習モデルの出力層により、第一全結合層からの第一画像特徴及び第二全結合層からの第二画像特徴に基づいて、共同で、認識待ち眼底画像がそれぞれ正常、軽症非増殖糖尿病網膜症、中等症非増殖糖尿病網膜症、重症非増殖糖尿病網膜症、及び増殖糖尿病網膜症という5つのクラスに属する第一確率を確定する。
【0115】
なお、本実施例における各技術的特徴に対する限定は、前述の各実施例において対応する技術的特徴に対する限定と同じであっても良いが、ここでは、その詳しい説明を省略する。
【0116】
上述の画像認識方法により、認識待ち眼底画像を得た後に、認識待ち眼底画像に対して前処理を行い、そして、機械学習モデにより、それぞれ、認識待ち眼底画像に対応する第一画像特徴及び前処理後の認識待ち眼底画像に対応する第二画像特徴を取得し、それから、第一画像特徴及び第二画像特徴に基づいて、共同で、認識待ち眼底画像が機械学習モデルに対応するクラスに属する確率を確定する。一方では、機械学習モデルによる認識待ち画像の自動分類は、マニュアルインタープリテーション(manual interpretation)に比べ、より正確になり、他方では、前処理後の認識待ち画像は、画像における細部を強調することができるため、第一画像特徴及び第二画像特徴を組み合わせると、オリジナルの認識待ち画像における基本情報だけでなく、前処理後の認識待ち画像において強調された細部情報も利用することができ、これで分かるように、認識待ち画像に基づいて情報利用を十分に行っている(即ち、認識待ち画像における情報を十分にマイニングしている)ので、認識の正確性をより一層向上させることができる。
【0117】
理解すべきは、前述の各実施例に係るフローチャートにおける各ステップは、矢印の指示で順次示されているが、これらのステップは、必ずしも矢印により指示される順序に従って実行されないということである。特段の説明がない限り、これらのステップの実行は、厳密な順序に限定されず、これらのステップは、他の順序で実行されても良い。また、各フローチャートにおける少なくとも一部のステップが複数のサブステップ又は複数の段階を含んでも良く、これらのサブステップ又は段階は、必ずしも同一時刻に実行されず、異なる時刻に実行されても良く、また、これらのサブステップ又は段階の実行も、必ずしも順次実行でなく、他のステップ或いは他のステップのサブステップ又は段階の少なくとも一部と交互又は交替で実行されても良い。
【0118】
幾つかの実施例において、図10に示すように、画像認識装置1000が提供される。該装置は、以下のようなモジュール1002乃至1008を含んでも良い。
【0119】
認識待ち画像取得モジュール1002:認識待ち画像を取得するために用いられ;
前処理画像取得モジュール1004:認識待ち画像に対して前処理を行い、前処理画像を取得するために用いられ;
画像特徴取得モジュール1006:機械学習モデルにおける第一サブモデルにより認識待ち画像に対応する第一画像特徴を取得し、また、機械学習モデルにおける第二サブモデルにより前処理画像に対応する第二画像特徴を取得するために用いられ;及び
予測確率確定モジュール1008:第一画像特徴及び第二画像特徴に基づいて、認識待ち画像が機械学習モデルに対応するクラスに属する第一確率を確定するために用いられる。
【0120】
上述の画像認識装置1000により、認識待ち画像を得た後に、認識待ち画像に対して前処理を行い、そして、機械学習モデルにおける第一サブモデル及び第二サブモデルにより、それぞれ、認識待ち画像に対応する第一画像特徴及び前処理後の認識待ち画像に対応する第二画像特徴を取得し、それから、第一画像特徴及び第二画像特徴に基づいて、共同で、認識待ち画像が機械学習モデルに対応するクラスに属する確率を確認する。一方では、機械学習モデルによる認識待ち画像の自動分類は、マニュアルインタープリテーション(Manual Interpretation)に比べ、より正確になり、他方では、前処理後の認識待ち画像は、画像における細部を強調することができるため、第一画像特徴及び第二画像特徴を組み合わせると、オリジナルの認識待ち画像における基本情報だけでなく、前処理後の認識待ち画像において強調された細部情報も利用することができ、これで分かるように、認識待ち画像に基づいて情報利用を十分に行っている(即ち、認識待ち画像における情報を十分にマイニングしている)ので、認識の正確性をより一層向上させることができる。
【0121】
幾つかの実施例において、予測確率確定モジュール1008は、以下のようなユニットを含んでも良い。
【0122】
画像特徴出力ユニット:第一画像特徴及び第二画像特徴を機械学習モデルの出力層に入力するために用いられ;及び
第一予測確率確定ユニット:機械学習モデルの出力層により、第一画像特徴及び第二画像特徴に基づいて、認識待ち画像が機械学習モデルに対応するクラスに属する第一確率を確定するために用いられる。
【0123】
幾つかの実施例において、第一サブモデルは、第一特徴検出サブモデルを含み、第二サブモデルは、第二特徴検出サブモデルを含み、機械学習モデルは、さらに、第一特徴検出サブモデルと結合される第一全結合層及び第二特徴検出サブモデルと結合される第二全結合層を含み、また、第一全結合層及び第二全結合層はともに、出力層と結合される。この場合、画像特徴取得モジュール1006は、第一特徴検出サブモデル及び第一全結合層により、認識待ち画像に対応する第一画像特徴を取得し、また、第二特徴検出サブモデル及び第二全結合層により、前処理画像に対応する第二画像特徴を取得するために使用することができる。
【0124】
幾つかの実施例において、予測確率確定モジュール1008は、以下のようなユニットを含んでも良い。
【0125】
第二予測確率確定ユニット:機械学習モデルにより、第一画像特徴に基づいて、認識待ち画像が機械学習モデルに対応するクラスに属する第二確率を取得するために用いられ;
第三予測確率確定ユニット:機械学習モデルにより、第二画像特徴に基づいて、前処理画像が機械学習モデルに対応するクラスに属する第三確率を取得するために用いられ;及び
第四予測確率確定ユニット:第二確率及び第三確率に基づいて演算を行い、認識待ち画像が機械学習モデルに対応するクラスに属する第一確率を確定するために用いられる。
【0126】
幾つかの実施例において、第一サブモデルは、第一分類サブモデルを含み、第二サブモデルは、第二分類サブモデルを含む。この場合、第二予測確率確定ユニットは、第一分類サブモデルにより、認識待ち画像に対応する第一画像特徴を取得し、第一画像特徴に基づいて、認識待ち画像が機械学習モデルに対応するクラスに属する第二確率を取得するために用いられることができる。第三予測確率確定ユニットは、第二分類サブモデルにより、前処理画像に対応する第二画像特徴を取得し、第二画像特徴に基づいて、前処理画像が機械学習モデルに対応するクラスに属する第三確率を確定するために使用することができる。
【0127】
幾つかの実施例において、前処理画像取得モジュール1004は、以下のようなユニットを含んでも良い。
【0128】
第一調整画像取得ユニット:認識待ち画像におけるターゲットを参照対象サイズに調整し、第一調整画像を取得するために用いられ;
第二調整画像取得ユニット:第一調整画像における無効領域をトリミングし、第二調整画像を取得するために用いられ、第二調整画像には、前記無効領域が含まれず;及び
第三調整画像取得ユニット:第二調整画像を参照画像サイズに調整し、第三調整画像を取得するために用いられる。
【0129】
そのうち、前処理画像は、前記第三調整画像に基づいて取得される。
【0130】
幾つかの実施例において、前処理画像取得モジュール1004は、さらに、画像属性調整ユニットを含んでも良く、それは、ターゲット調整画像の画像属性に対して調整を行うために用いられ、ターゲット調整画像は、第一調整画像、第二調整画像及び第三調整画像のうちのいずれか1つを含み、画像属性は、コントラスト及びグレースケールのうちの少なくとも1つを含む。
【0131】
幾つかの実施例において、前処理画像の数は、1よりも大きく、また、各前処理画像は、異なる前処理方法により取得される。
【0132】
幾つかの実施例において、画像認識装置1000は、さらに、第一モデル訓練モジュールを含んでも良く、該第一モデル訓練モデルは、以下のようなユニットを含んでも良い。
【0133】
第一サンプル取得ユニット:機械学習モデルに対応するクラスに属する第一画像サンプルを取得するために用いられ;
第一訓練画像取得ユニット:第一画像サンプルに対してデータエンハンスメント処理を行い、第一訓練画像を取得するために用いられ;
第二訓練画像取得ユニット:第一画像サンプルに対して前処理を行い、そして、前処理後の第一画像サンプルに対してデータエンハンスメント処理を行い、第二訓練画像を取得するために用いられ;
第一サブモデル訓練ユニット:第一訓練画像に基づいてモデル訓練を行い、第一特徴検出サブモデルを取得するために用いられ;
第二サブモデル訓練ユニット:第二訓練画像に基づいてモデル訓練を行い、第二特徴検出サブモデルを取得するために用いられ;及び
第一モデル確定ユニット:第一訓練画像、第二訓練画像、第一特徴検出サブモデル、及び第二特徴検出サブモデルに基づいて共同でモデル訓練を行い、第一全結合層、第二全結合層及び出力層を確定するために用いられる。
【0134】
幾つかの実施例において、画像認識装置1000は、さらに、第二モデル訓練モジュールを含んでも良く、該第二モデル訓練モデルは、以下のようなユニットを含んでも良い。
【0135】
第二サンプル取得ユニット:機械学習モデルに対応するクラスに属する第二画像サンプルを取得するために用いられ;
第三訓練画像取得ユニット:第二画像サンプルに対してデータエンハンスメント処理を行い、第三訓練画像を取得するために用いられ;
第四訓練画像取得ユニット:第二画像サンプルに対して前処理を行い、そして、前処理後の第二画像サンプルに対してデータエンハンスメント処理を行い、第四訓練画像を取得するために用いられ;及び
第二モデル確定ユニット:第三訓練画像に基づいてモデル訓練を行い、第一分類サブモデルを取得し、また、第四訓練画像に基づいてモデル訓練を行い、第二分類サブモデルを取得するために用いられる。
【0136】
幾つかの実施例において、第一訓練画像取得ユニット又は第三訓練画像取得ユニットが画像に対してデータエンハンスメント処理を行う方法は、次のようなことのうちの少なくとも1つを含んでも良く、即ち、反転の確率に基づいて画像を所定の方向に沿って反転し;ランダムなトリミングパラメータに基づいて画像のフレームをトリミングし;ランダムな輝度調整値に基づいて画像における各画素の輝度を調整し;ランダムなコントラスト調整値に基づいて画像における各画素のコントラストを調整し;ランダムな画像サイズ調整値に基づいて画像の画像サイズを調整し;及び、ランダムな回転角度に基づいて画像を回転する。
【0137】
幾つかの実施例において、認識待ち画像は、医用画像を含み、機械学習モデルは、畳み込みニューラルネットワークモデルを含む。
【0138】
なお、上述の画像認識装置1000に係る技術的特徴の具体的な限定については、前述の画像認識方法に係る対応する技術的特徴に対しての限定を参照することができるが、ここでは、その詳しい説明を省略する。また、上述画像認識装置1000における各モジュールは、全部又は一部がソフトウェア、ハードウェア及びその組み合わせにより実現されても良い。上述の各モジュールは、ハードウェアの形でコンピュータ装置における処理器に組み込む又はそれと独立することができ、また、ソフトウェアの形でコンピュータ装置における記憶器に記憶することもできる。これにより、処理器は、各モジュールに対応する操作を呼び出して実行することができる。
【0139】
幾つかの実施例において、記憶器及び処理器を含むコンピュータ装置が提供される。記憶器には、コンピュータプログラムが記憶されており、処理器は、コンピュータプログラムを実行するときに、本発明の任意の実施例による画像認識方法におけるステップを実現することができる。
【0140】
1つの具体例において、該コンピュータ装置は、図1に示すサーバ120であっても良く、その内部構成は、図11に示されている。該コンピュータ装置は、システムバスにより接続される処理器、記憶器及びネットワークインターフェースを含む。そのうち、該処理器は、計算及び制御能力を提供するために用いられる。該記憶器は、不揮発性記憶媒体及びメモリを含み、該不揮発性記憶媒体には、オペレーティングシステム、コンピュータプログラム及びデータベースが記憶されており、該メモリは、不揮発性記憶媒体におけるオペレーティングシステム及びコンピュータプログラムの実行に環境を提供するために用いられる。該ネットワークインターフェースは、外部の端末とネットワークにより接続され、通信を行うために用いられる。該コンピュータプログラムは、処理器により実行されるときに、本発明の任意の実施例による画像認識方法におけるステップを実現することができる。
【0141】
当業者が理解すべきは、図11に出す構成は、本発明の技術的手段に関連する一部の構成のみであり、本発明の技術的手段が応用されるコンピュータ装置を限定しないということである。具体的なコンピュータ装置は、図示よりも多い又は少ない部品を含んでも良く、又は、他の部品と組み合わせても良く、又は、異なる部品配置を有しても良い。
【0142】
幾つかの実施例において、本発明による画像認識装置1000は、コンピュータプログラムとして実現されても良い。コンピュータプログラムは、図11に示すようなコンピュータ装置で実行される。コンピュータ装置の記憶器には、該画像認識装置1000を構成する各プログラムモジュール、例えば、図10に示す認識待ち画像取得モジュール1002、前処理画像取得モジュール1004、画像特徴取得モジュール1006及び予測確率確定モジュール1008が記憶されても良い。各プログラムモジュールにより構成されるコンピュータプログラムは、処理器に、本発明の各実施例による画像認識方法におけるステップを実行させることができる。例えば、図11に示すコンピュータ装置は、図10に示すような画像認識装置1000における認識待ち画像取得モジュール1002によりステップS202を実行し、前処理画像取得モジュール1004によりステップS204を実行し、画像特徴取得モジュール1006によりステップS206を実行し、予測確率確定モジュール1008によりステップS208を実行しても良い。
【0143】
また、当業者が理解すべきは、上述の実施例に係る方法における全部又は一部のフローは、コンピュータプログラムによって関連するハードウェアを指令することで実現されても良いということである。前記プログラムは、不揮発性コンピュータ可読取記憶媒体に記憶されても良く、該プログラムが実行されるときには、上述の各方法の実施例におけるフローが含まれても良い。そのうち、本発明による各実施例に使用される、記憶器、記憶、データベース又は他の媒体についてのいずれの参照は、不揮発性及び/又は揮発性記憶器を含んでも良い。不揮発記憶器は、リードオンリーメモリ(ROM)、プログラマブルROM(PROM)、消去可能なプログラマブルROM(EPROM)、電気的に消去可能なプログラマブルROM(EEPROM)又はフレッシュメモリを含んでも良い。揮発性記憶器は、ランダムアクセスメモリ(RAM)又は外部高速キャッシュメモリを含んでも良い。限定ではなく説明として、RAMは、様々な形で利用することができ、例えば、静的RAM(SRAM)、動的RAM(DRAM)、同期DRAM(SDRAM)、ダブルデータレートSDRAM(DDRSDRAM)、強化型SDRAM(ESDRAM)、同期リンク(Synchlink)DRAM(SLDRAM)、メモリバス(Rambus)直接RAM(RDRAM)、直接メモリバス動的RAM(DRDRAM)、メモリバス動的RAM(RDRAM)などである。
【0144】
これにより、幾つかの実施例において、コンピュータ可読記憶媒体が提供され、その中には、コンピュータプログラムが記憶されており、該コンピュータプログラムは、処理器により実行されるときに、本発明の任意の実施例による画像認識方法におけるステップを実行することができる。
【0145】
また、上述の実施例における技術的特徴は、任意に組み合わせることができる。説明を簡潔にするために、上述の実施例における技術的特徴のすべての可能な組み合わせについては説明しないが、これらの技術的特徴の組み合わせに矛盾がない限り、そのすべては、本明細書記載の範囲内にあるとする。
【0146】
以上、本発明の好ましい実施形態を説明したが、本発明はこのような実施形態に限定されず、本発明の趣旨を逸脱しない限り、本発明に対するあらゆる変更は本発明の技術的範囲に属する。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11