(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-01-25
(54)【発明の名称】人工知能ニューラルネットワークの推論または訓練に対する、故意に歪みを制御する撮像装置の利用
(51)【国際特許分類】
G06T 7/00 20170101AFI20230118BHJP
G06V 10/82 20220101ALI20230118BHJP
G06V 10/774 20220101ALI20230118BHJP
【FI】
G06T7/00 350C
G06V10/82
G06V10/774
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022528630
(86)(22)【出願日】2020-11-17
(85)【翻訳文提出日】2022-07-12
(86)【国際出願番号】 IB2020060824
(87)【国際公開番号】W WO2021099942
(87)【国際公開日】2021-05-27
(32)【優先日】2019-11-18
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】520250822
【氏名又は名称】イマーヴィジョン インコーポレイテッド
【氏名又は名称原語表記】IMMERVISION INC.
【住所又は居所原語表記】2020 Robert-Bourassa Boulevard,Suite 2320,Montreal,Quebec H3A 2A5,Canada
(74)【代理人】
【識別番号】100087653
【氏名又は名称】鈴江 正二
(72)【発明者】
【氏名】ルーレ・パトリス
(72)【発明者】
【氏名】コネン・ピエール
(72)【発明者】
【氏名】ニニ・パスカル
(72)【発明者】
【氏名】ティボー・シモン
(72)【発明者】
【氏名】ペアレント・ジョスリン
(72)【発明者】
【氏名】ナタシン・ヴィアチェスラヴ
(72)【発明者】
【氏名】ブーケ・ジュリー
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096CA02
5L096DA01
5L096DA02
5L096EA01
5L096GA34
5L096HA11
5L096JA22
5L096KA04
(57)【要約】
【課題】故意に歪ませた画像を利用して畳み込みニューラルネットワークを訓練して使う方法を与える。また、既存の様々なデータセットから歪んだ画像を生成する装置を使ってニューラルネットワークを訓練する方法についても説明する。
【解決手段】画像を故意に歪ませて、他の領域よりも画素数が多い関心領域を作成することにより、ニューラルネットワークの出力結果を改善する。歪んだ画像は撮像装置によって作成される。この撮像装置は、歪んだ画像を出力するように特別に設計された光学系、または、正常な画像から歪んだ画像を作成する画像歪曲操作のアルゴリズムのソフトウェアもしくはハードウェアを含む。
【選択図】
図2
【特許請求の範囲】
【請求項1】
人工知能ニューラルネットワークの出力を改善する目的で、制御された歪みのあるデジタル画像の入力ファイルの少なくとも1つに対し、前記ニューラルネットワークを用いた推論処理を行う方法であって、
a.撮像装置によって作成された、制御された歪みのあるデジタル画像の入力ファイルを、ニューラルネットワークによって受信するステップと、
b.前記ニューラルネットワークによって前記デジタル画像の入力ファイルに対して推論処理を行うステップと、
c.前記推論処理によって前記デジタル画像の入力ファイルから導出された解釈データを、前記ニューラルネットワークによって出力するステップと
を含み、
前記ニューラルネットワークが、
計算装置で実行されるアルゴリズムまたはソフトウェアのコードによって形成されており、
制御された歪みのあるデジタル画像に備えて訓練されている
ことを特徴とする方法。
【請求項2】
前記ニューラルネットワークから出力される前記解釈データが、デジタル画像の出力ファイルであり、
d.前記出力ファイルのデジタル画像に対して歪み補正を行って、前記制御された歪みの少なくとも一部を除去するステップ
を更に含む、請求項1に記載の方法。
【請求項3】
前記撮像装置が、デジタル画像の歪みを制御された歪みに故意に変える装置である、請求項1に記載の方法。
【請求項4】
前記撮像装置が少なくとも1台のカメラシステムを含み、
前記少なくとも1台のカメラシステムが少なくとも1つの光学系で構成されている、
請求項1に記載の方法。
【請求項5】
前記ニューラルネットワークが、深層学習によって訓練されている機械学習ニューラルネットワークである、請求項1に記載の方法。
【請求項6】
前記ニューラルネットワークが、制御された歪みのあるデジタル画像のファイルを利用する訓練を受けている、請求項1に記載の方法。
【請求項7】
前記ニューラルネットワークから出力される前記解釈データが、画像深度情報、物体認識の結果、物体分類の結果、物体セグメンテーションの結果、オプティカルフローの推定結果、エッジと線との接続の結果、SLAMの結果、または、超解像で得られた画像である、請求項1に記載の方法。
【請求項8】
前記撮像装置から得られる入力ファイルのデジタル画像の制御された歪みが、時間によって異なる、請求項1に記載の方法。
【請求項9】
前記デジタル画像の入力ファイルが追加の情報またはパラメーターを含む、請求項1に記載の方法。
【請求項10】
前記入力ファイルの、制御された歪みのあるデジタル画像が、
制御された歪みのないデジタル画像よりも解像度が少なくとも10%高い領域である関心領域
を少なくとも1つ含む、
請求項1に記載の方法。
【請求項11】
制御された歪みのあるデジタル画像の入力ファイルの少なくとも1つに対する推論処理に用いられる人工知能ニューラルネットワークを訓練する方法であって、
a.制御された歪みのない元のデジタル画像のファイルを、画像変換装置によって受信するステップと、
b.前記画像変換装置により、目的の制御された歪みの選択を受け付けるステップと、
c.前記画像変換装置によって前記元のデジタル画像のファイルを、前記目的の制御された歪みのある変換後のデジタル画像の出力ファイルに変換するステップと、
d.前記変換後のデジタル画像の出力ファイルを利用してニューラルネットワークに、制御された歪みのあるデジタル画像のファイルに対する推論処理に備えた訓練を行うステップと
を含む方法。
【請求項12】
前記画像変換装置が、変換のアルゴリズムをソフトウェアまたはハードウェアで実行するように構成されている、請求項11に記載の方法。
【請求項13】
前記目的の制御された歪みが、回転対称性がある径方向における樽型歪み、回転対称性がある自由形状の歪み、回転対称性がない自由形状の歪み、画像の一部の伸び、または、画像全体の伸びである、請求項11に記載の方法。
【請求項14】
前記ニューラルネットワークの訓練が、勾配降下法、誤差逆伝播法、遺伝的アルゴリズム、焼きなまし法、または、ランダム最適化アルゴリズムによって行われる、請求項11に記載の方法。
【請求項15】
前記制御された歪みのない元のデジタル画像の画角が、前記目的の制御された歪みのある変換後のデジタル画像の画角とは異なる、請求項11に記載の方法。
【請求項16】
データ拡張を用いて、元のデジタル画像の単一のファイルから変換後のデジタル画像のファイルを複数作成する、請求項11に記載の方法。
【請求項17】
前記変換後のデジタル画像は、前記元のデジタル画像に対し、回転、並進、拡大縮小、相似変換、および、鏡映のうち少なくとも1つが行われた結果である、請求項16に記載の方法。
【請求項18】
人工知能ニューラルネットワークの出力を改善する目的で、制御された歪みのあるデジタル画像の入力ファイルの少なくとも1つに対し、前記ニューラルネットワークを用いた推論処理を行う方法であって、
a.撮像装置によって作成された、制御された歪みのあるデジタル画像の入力ファイルを、画像変換装置によって受信するステップと、
b.前記画像変換装置により、前記デジタル画像の入力ファイルを変換後のデジタル画像のファイルに変換するステップと、
c.計算装置で実行されるアルゴリズムまたはソフトウェアのコードによって形成されているニューラルネットワークにより、前記変換後のデジタル画像のファイルに対して推論処理を行うステップと、
d.前記推論処理によって前記変換後のデジタル画像のファイルから導出された解釈データを、前記ニューラルネットワークによって出力するステップと
を含む、
ことを特徴とする方法。
【請求項19】
前記変換後のデジタル画像が、制御された歪みのうち標準化されているものを含む、請求項18に記載の方法。
【請求項20】
前記画像変換装置が前記入力ファイルのデジタル画像から前記制御された歪みの少なくとも一部を除去する、請求項18に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
この出願は、2019年11月18日を出願日とする米国特許仮出願第62/936,647号(現在、審査中)に対する優先権主張を伴うものであり、その開示内容の全体がこの明細書に、参照されることによって組み込まれる。
【0002】
本発明の実施形態は人工知能の畳み込みニューラルネットワークとその使用とに関し、特に、歪みを制御する撮像装置を利用してそのニューラルネットワークを適切に用いる方法に関する。
【背景技術】
【0003】
デジタル画像の処理または分析に人工知能を用いることには人気がますます集まっている。これは、パーソナルコンピュータもしくはモバイル機器、または、大企業の提供する大きめのサーバーファームにおいて、利用可能な処理能力がますます向上していることによる。人工知能の使用量の増加はまた、その新たな能力が広範囲に応用可能であることによっても説明がつく。
【0004】
デジタル画像の分析に用いられるニューラルネットワークの中で最も一般的な種類は、畳み込みニューラルネットワークである。これは、ニューラルネットワークの複数の層で畳み込み操作が行われるものを意味する。デジタル画像の一般的な用途においてそれらの処理にニューラルネットワーク(NN)を用いるというアイデアは、畳み込みニューラルネットワーク(CNN)の使用も含め、米国特許9,715,642、10,360,494等、過去の事例においてすでに見られる。特定の用途に対する畳み込みニューラルネットワークの使用も、米国特許出願公開2018/0032844のような物体認識、米国特許10,268,947のような顔認識、米国特許10,353,271のような深度推定、米国特許出願公開2018/0150684のような年齢/性別推定等、過去の事例においてすでに見られる。
【0005】
しかし、既存の畳み込みニューラルネットワークが処理する画像は、入力時の解像度が大幅に制限される。特に大局的な画像分析の必要な用途では、単一の画像からの深度推定のように、画像を小分けにして各部を順番に処理することができないからである。これらのニューラルネットワークが、10ギガバイト程度のRAMを含むGPUを実装する最新のコンピューターを利用する場合でも、現時点で分析および処理の可能な画像の解像度が約512×512に制限される。この解像度は25万画素程度であり、最新のモバイル機器またはカメラで利用可能な2-5千万画素を大幅に下回る。このように、デジタル画像の特定の用途においては、有効な処理が可能な解像度が制限される。その結果、ニューラルネットワークによる処理または分析は、入力画像の最大解像度を利用すれば達成されるであろうものよりも拙い。この制限は、処理能力が大幅に制限される埋め込みシステムが使われる用途では、更に一層厳しい。
【0006】
関心のある物体の画素数は増やすが、画像の総画素数は増やす必要のない方法の1つに制御された歪みを故意に用いるものがある。画像の解像度を、光学系、ハードウェア、またはソフトウェアによって故意に変更するというアイデアは、米国特許6,844,990、6,865,028、9,829,700、10,204,398等、過去の事例においてすでに見られる。しかし、これらの撮像装置から得られる歪みのある画像は既存の畳み込みニューラルネットワークではうまく分析も処理もされない。故意に制御された歪みのある画像の利用には、新たな種類のニューラルネットワークまたは訓練方法が必要である。ニューラルネットワークに高解像度の入力を与える別の方法として、画像の全体から小領域を1つ切り取ってそれだけをニューラルネットワークの内部で分析することがある。しかし、画像の全体から小領域または関心のある領域が切り取られると、光景全体の情報とつながりとが損なわれる。それらは、ニューラルネットワークが最良の出力を与えるのに光景全体から大局的な情報を引き出す必要のある用途では、重要である。
【0007】
デジタル画像の中でも、制御された歪みがよくある種類は広角画像、特に全体の画角が一般に約80°よりも広いものである。しかし、そのような広角画像が関連のグランドトゥルースデータを含むことは、制御された歪みのない画角の狭い画像と比べて稀である。既存のニューラルネットワークの訓練に利用される既存の大画像のデータセットのほとんどは、歪みのない画角の狭い画像をベースにしているので、故意に制御された歪みのある広角画像または画角の狭い画像を利用してニューラルネットワークを訓練するには、新たな訓練方法が必要である。
【発明の概要】
【0008】
上記の問題をすべて解決する目的で本発明の実施形態は、故意に選ばれた歪みのある画像を利用して畳み込みニューラルネットワークを訓練して使う方法を提供する。
【0009】
本発明による好ましい実施形態ではその方法がまず撮像装置に、制御された歪みのあるデジタル画像のファイルを作成させる。この撮像装置は、歪みのある画像を作成する装置であれば何でもよく、仮想画像生成機、画像の歪み加工用のソフトウェアもしくはハードウェアを実行する装置、または、制御された歪みのある画像を光学系と、その焦点面に設置された画像センサーとで直に取り込む装置である。この撮像装置が出力可能な画像は、輪郭が一定である静的な歪み、または、輪郭が経時変化可能である動的な歪みを含む。好ましい実施形態では、撮像装置から出力される制御された歪みのある画像が、少なくとも1つの関心領域を含む。関心領域は、制御された歪みのない通常のデジタル画像よりも解像度(画角1°あたりの画素数として計算される。)が少なくとも10%高い。制御された歪みのある画像はその後、ニューラルネットワーク(どの種類でもよい。)に入力される。このニューラルネットワークは畳み込み層を少なくとも1つ含む。これはよくあることだが、本発明にとっては必須ではない。このニューラルネットワークは、アルゴリズムの実行機能を持つどのような物理的装置でも動作可能であり、制御された歪みのある画像を利用する特別な訓練を受けていれば、歪みのある上記の画像が入力されてもそれを処理できる。この画像が、歪みのある画像を利用する特別な訓練を受けたニューラルネットワークに入力された結果、画素数が増やされていた関心領域についてのより詳細な解釈データが出力される。解釈データはその後、関心領域の外側の画像部分についても結果の改善に役立てることができる。改善対象の解釈データはニューラルネットワークの用途に応じて何でもよく、画像深度情報、物体認識の結果、物体分類の結果、物体セグメンテーションの結果、オプティカルフローの推定結果、エッジと線との接続の結果、SLAM(自己位置推定と環境地図作成とを同時に行う技術)の結果、または、超解像で得られた画像等である。本発明の実施形態のいくつかでは、ニューラルネットワークから出力される解釈データも、制御された歪みのある画像であってもよい。この場合、この画像が人間によって観察されるか否かに応じ、必要であれば、画像の歪みを補正して元の形に戻す処理により、歪みのない最終的な出力画像を得ることができる。必要に応じて選択されるこの処理は、ニューラルネットワークの出力が別のアルゴリズムのユニット、コンピューター、または自動化されている他の処理によって直に利用される場合は不要である。
【0010】
故意に制御された歪みのあるデジタル画像の入力ファイルを畳み込みニューラルネットワークに利用させるには、それらの画像に備えた特別な訓練をそのニューラルネットワークに受けさせねばならない。本発明による上記の方法は、制御された歪みのない既存の大画像のデータセットから歪みのある画像のデータセットを生成する装置を利用する。既存の画像のデータセットは、通常のレンズで、故意には歪みが生じさせられることなく取り込まれた様々な種類の物体の画像を含むので、発明者が提案するニューラルネットワークの訓練に直には利用できない。歪みのある画像のデータセットを生成する装置は、既存のデータセットから元の画像を処理して故意に歪みを加える。その歪みはどのような種類であってもよく、回転対称性のある歪み、自由形状の歪み(特定の物体に中心があっても、そうでなくてもよい。)、または画像の隅の伸びであってもよい。結果として得られた歪みのある画像のデータセットはその後、必要であれば、データ拡張、すなわち、回転、並進、拡大縮小、相似変換、および鏡映等の操作によって拡大され、ニューラルネットワークの訓練に利用される画像の状態数が増やされてもよい。そのデータセットの拡大には、正距方位図法、球面収差補正、透視図の傾き補正等、どのような種類の投影法も利用可能である。こうして、制御された歪みのある画像で生成された新たなデータセットがニューラルネットワークの訓練に利用される。ニューラルネットワークによる、制御された歪みのある画像の使い方の学習はどのような種類であってもよく、教師ありでも教師なしでもよい。
【0011】
本発明による他の方法のいくつかでは、撮像装置から出力された元の画像が、歪みの有無にかかわらず、まず、境界の明確な、標準化されている表示に変換される。この表示には、標準化されている、故意に制御された歪みが含まれる。歪みの標準化は、輪郭が標準化されている歪みを利用する特別な訓練を受けたニューラルネットワークの使用を目的としている。これにより、歪みの輪郭が更新される度にニューラルネットワークに長時間の訓練を受け直させることを回避できる。標準化されているこの表示には、元の画像の取り込み方法とその表示の要件とに応じて、失われたテクスチャーについての情報の領域があってもなくてもよい。
【0012】
本発明による別の実施形態のいくつかでは、撮像装置から出力された元の画像がまず、画像の歪みを除去し、または最小限に抑える処理を受ける。処理後の画像は、制御された歪みのない画像を利用するようにすでに訓練されている既存のニューラルネットワークで利用される。これにより、新たなニューラルネットワークに、撮像装置からの出力の結果として得られる特定の歪みの輪郭に備えた訓練を受けさせなくてもよい。
【図面の簡単な説明】
【0013】
上記の概要は、後述される発明の好ましい実施形態についての詳細な説明と共に、添付の図面に関連付けて読まれることで、より良く理解されるであろう。発明の説明を目的として、図面には現時点で好ましい実施形態が示されている。しかし、示されている配置および手段の詳細に発明が限定されないことは、理解されるべきである。
【0014】
【
図1】先行技術によるニューラルネットワークを用いた通常の画像に対する推論処理を示す。
【0015】
【
図2】ニューラルネットワークの出力の改善を目的とする、制御された歪みのある画像に対するニューラルネットワークを用いた推論処理を示す。
【0016】
【
図3】制御された歪みのある画像に対する処理能力の改善を目的とする、深層学習による人工知能ニューラルネットワークの訓練方法を示す。
【0017】
【
図4】ソフトウェアまたはハードウェアによる画像変換アルゴリズムを利用して、元のデータセットから歪みのあるデータセットを作成する方法を示す。
【0018】
【
図5】歪みのある画像を処理する能力について、制御された歪みのある画像を利用しない訓練を受けた推論ニューラルネットワークと、制御された歪みのある画像を利用する訓練を受けたニューラルネットワークとの間の比較を示す。
【0019】
【
図6】撮像装置から出力された画像に含まれる制御された歪みが、ニューラルネットワークの中で推論処理にかけられる前に、経時的に変化する例を示す。
【0020】
【
図7】推論処理を目的としてニューラルネットワークに画像が入力される前に、その歪みの輪郭が標準化されているものに変換される例を示す。
【0021】
【
図8】推論処理を目的としてニューラルネットワークに画像が入力される前に、その画像の歪みを補正する例を示す。
【発明を実施するための形態】
【0022】
単語「a」、「an」は、請求の範囲および明細書の対応部分で使用される場合、「少なくとも1つ」を意味する。
【0023】
図1は、先行技術による人工知能ニューラルネットワークを用いた通常の画像に対する推論処理を示す。人工知能ニューラルネットワーク100が通常の画像110に対して画像処理を行い、その結果140を出力する。ニューラルネットワークはどのような種類であってもよい。実施形態のいくつかではニューラルネットワークが、深層機械学習等での訓練を受ける畳み込みニューラルネットワーク(CNN)であってもよい。ただし、本発明による実施形態が常にそうであるわけではなく、他のニューラルネットワークが使われてもよい。さらに、そのニューラルネットワークは、画像の畳み込みを行うものであってもなくてもよい。いくつかの実施形態では、ニューラルネットワークが敵対的生成ネットワーク(GAN)であってもよい。入力対象である通常の画像110が、推論処理を目的としてニューラルネットワークに、入力層120の入力ノードを通して入力される。ノードの正確な数は用途に依存するので、入力ノードが3つである図はニューラルネットワークの一例に過ぎず、入力されるデジタル画像の処理に使用可能なニューラルネットワークの種類を限定するものではない。ニューラルネットワークがまた、この例の図に示されている層125、130のような未知数の隠れ層を含んでもよい。各隠れ層にはノードがいくつあってもよい。ニューラルネットワークが複数の下位ネットワークまたは下位層も含んでもよい。それぞれが異なるタスクを処理する。それらのタスクには、畳み込み、プーリング(最大プーリング、平均プーリング、もしくは他の種類のプーリング)、ストライディング、パディング、ダウンサンプリング、アップサンプリング、多機能の融合、整流された線形変換、連結、全結合、または平坦化等が含まれるが、これらには限られない。ニューラルネットワークが最終の出力層135も含んでもよい。出力層がいくつの出力ノードで構成されていてもよい。この例の図では破線が、制御された歪みのある画像を利用する訓練を受けていないニューラルネットワークのノードを表す。ニューラルネットワークから出力される解釈データ140は、元のデジタル画像が入力された結果である。その種類は多様であり、画像深度情報、物体認識の結果、物体分類の結果、物体セグメンテーションの結果、オプティカルフローの推定結果、エッジと線との接続の結果、SLAMの結果、または、超解像で得られた画像等を含むが、これらには限られない。入力されるデジタル画像110には、関心領域を生み出す制御された歪みがないので、画素数の増やされている部分がない。したがって、ニューラルネットワークの出力は既存の先行技術に則っている。具体的には、
図1の例に示されている用途は入力画像からの深度マップの生成である。結果として得られる深度マップは画像内のどの場所も解像度が低い。それには、
図2の例では関心のある物体とされる自動車も含まれる。
【0024】
図2は、人工知能ニューラルネットワークの出力の改善を目的とする、制御された歪みのある画像に対するニューラルネットワークを用いた推論処理を示す。この方法はまず撮像装置205に、制御された歪みのある画像を作成させる。撮像装置205は、関心領域の画素数を増加させるように制御された歪みのあるデジタル画像のファイルを作成する装置であれば、どのような種類であってもよい。撮像装置205には、仮想画像生成機、ソフトウェアもしくはハードウェアによって画像の歪み加工用のアルゴリズムを実行する装置、または、デジタル画像の歪みを故意に変化させる装置が含まれるが、これらに本発明の範囲が制限されるわけではない。デジタル画像の歪みを故意に変化させる装置はどのような種類であってもよく、パーソナルコンピュータ(PC)、スマートフォン、タブレット、もしくは埋め込みシステムのように、中央処理装置(CPU)、メモリ装置、およびデジタル画像ファイルを送受信する手段を備えたコンピュータ、またはデジタル画像の歪みを変換する機能を持つ他のどのような装置であってもよい。ただし、これらには限られない。撮像装置205が、特定用途向け集積回路(ASIC)またはフィールドプログラマブルゲートアレイ(FPGA)等のハードウェアで主に実行されるアルゴリズムに則って動作してもよい。撮像装置205が、カメラシステムを少なくとも1台備えた装置であってもよい。このカメラシステムは、制御された歪み等を含む画像を形成する光学系を少なくとも1つ備えている。この光学系は、屈折光学素子、反射光学素子、回折光学素子、メタ物質から成る光学素子、またはその他の光学素子のどのような組み合わせで形成されていてもよい。この光学系が、結果として画像に加える歪みの輪郭をリアルタイムに変化させて順応させることを目的とする能動的な光学素子、例えば、変形可能な鏡、液体レンズ、または空間光変調器も備えていてもよい。この光学系は、非球面または自由形状の光学素子を使って少なくとも1つの領域の解像度を上げることにより、歪みを更にうまく制御できる。本発明による実施形態のいくつかでは光学系が、好ましくは、対角線方向の画角が60°よりも広い広角レンズである。この広角レンズは複数の光学素子を含み、これらは、前方のグル-プ、絞り、および後方のグル-プの順に分かれている。広角レンズは像面に画像を形成する。
【0025】
撮像装置205の出力は、故意に制御された歪みのある画像210である。
図2の例では、簡単化を目的として画像が1つしか示されていないが、本発明による方法は複数の画像にも対応可能である。これらの画像が1つのデジタル動画に組み込まれていても、そうでなくてもよい。このデジタル画像210には制御された歪みがあり、少なくとも1つの関心領域を定めている。関心領域では、通常のデジタル画像110よりも、(画角1°あたりの画素数として計算される)解像度(すなわち倍率)が少なくとも10%高い。本発明による他のいくつかの実施形態では、関心領域における画角1°あたりの画素数が、歪みのない画像のそれよりも、少なくとも20%、30%、40%、または50%多いように、制御された歪みが定められる。このような解像度の関心領域を少なくとも1つ作成することにより、撮像装置205は全体の画角を、関心領域のない画像のそれと等しく維持してもよいし、変えてもよい。
【0026】
故意に制御された歪みのあるデジタル画像210のファイルは人工知能ニューラルネットワーク200に入力される。ニューラルネットワーク200はどのような種類であってもよく、深層学習による訓練を受ける機械学習ニューラルネットワークを含む。しかし、これに限らず、畳み込みニューラルネットワーク(CNN)等が含まれてもよい。ニューラルネットワーク200は、物理的な計算装置で実行されて入力データ(どのような種類であってもよい。)を解釈するアルゴリズムまたはソフトウェアコード等を含み、制御された歪みのある画像の処理に備えた訓練を受ける。この物理的な計算装置が、そのアルゴリズム等を実行する機能を持つどのようなハードウェアであってもよく、パーソナルコンピュータ、携帯電話、タブレット、自動車、ロボット、または、埋め込みシステム等であってもよいが、これらには限られない。この物理的な計算装置は以下のいずれを備えていてもよい。電子メインボード(マザーボード)、少なくとも1つのプロセッサー、中央処理装置(CPU)の一部または全部、メモリ(RAM、ROM等)、ドライブ(ハードディスクドライブ、SSD等)、画像処理ユニット(GPU)、テンソルプロセッシングユニット(TPU)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、または、ニューラルネットワークにデジタル画像の入力ファイルを、解釈の結果を示す出力データに変換させる他の要素。
【0027】
図2の例では人工知能ニューラルネットワーク200が、制御された歪みのある画像を利用する特別な訓練を受けている。この訓練は、後で
図3に基づいて説明されるように、それらの画像を更にうまく処理することを目的としている。制御された歪みのあるデジタル画像210の入力ファイルはニューラルネットワーク200により、入力層220の入力ノードを通して受信される。ノードの数は用途に依存する。図が示す3つの入力ノードはニューラルネットワークの一例に過ぎず、入力されるデジタル画像の処理に利用可能なニューラルネットワークの種類を限定するわけではない。ニューラルネットワーク200はまた、この例の図に示されている層225、230のような未知数の隠れ層を含んでもよい。各隠れ層にはノードがいくつあってもよい。ニューラルネットワーク200が複数の下位ネットワークまたは下位層も含んでもよい。それぞれが異なるタスクを処理する。それらのタスクには、畳み込み、プーリング(最大プーリング、平均プーリング、もしくは他の種類のプーリング)、ストライディング、パディング、ダウンサンプリング、アップサンプリング、多機能の融合、整流された線形変換、連結、全結合、または平坦化等が含まれるが、これらには限られない。ニューラルネットワーク200が出力層235も含んでもよい。出力層がいくつの出力ノードで構成されていてもよい。この例の図では実線が、制御された歪みのある画像を利用する訓練を受けたニューラルネットワークのノードを表し、ニューラルネットワーク200内を左から右へ、すなわちニューラルネットワーク200の入力層から出力層へ向かう矢印が、ニューラルネットワーク200の推論処理の流れを表す。ニューラルネットワーク200はその後、デジタル画像の入力ファイルに対して推論処理を行い、解釈データを出力する。ニューラルネットワーク200から出力される解釈データ240は、制御された歪みのあるデジタル画像210の入力ファイルから得られる。その種類は多様であり、画像深度情報、物体認識の結果、物体分類の結果、物体セグメンテーションの結果、オプティカルフローの推定結果、エッジと線との接続の結果、SLAMの結果、または、超解像で得られた画像等を含むが、これらには限られない。
【0028】
入力ファイルのデジタル画像210には、画像内に関心領域を生み出す制御された歪みがあるので、画素数が増やされている部分が少なくとも1つはある。したがって、人工知能ニューラルネットワーク200から出力される解釈の結果は、先行技術の出力140のような、制御された歪みのないデジタル画像の入力ファイルから得られる結果よりも改善される。この改善は、たとえば人工知能のアルゴリズムの用途が、
図2に模式的に示されているような単一の画像からの深度マップの推定である場合、その深度マップの解像度を表す画素数の増加に伴うその深度マップの高精度化であってもよい。上記の改善が、対象の物体の画素数の増加に伴う物体分類、または物体認識の性能の向上であってもよく、他のどのような結果の改善であってもよい。少なくとも1つの画像についての改善は、ニューラルネットワークの出力が定性的であるか、定量的であるかに応じて異なる方法で評価可能である。その評価の対象には、出力とグランドトゥルースデータとの間の差の相対値(%単位で計算される。)もしくは絶対値(ニューラルネットワークの用途に適した単位で計算される。)の減少量、二乗平均平方根(RMS)誤差、平均相対誤差、(10を底とする)平均対数誤差、または閾値の精度等が含まれるが、これらには限られない。上記の改善の程度は、適合率(Pスコア)、再現率(Rスコア)、Fスコア等のような、出力の含む真陽性の数、偽陰性の数、真陰性の数、および偽陽性の数に基づく点数としても計算可能である。上記の改善の程度を、特にニューラルネットワークが分類を行う等、その出力が定性的である場合には、その出力が得られる確率、すなわちその出力の信頼度の上昇の程度として測ることもできる。実施形態のいくつかでは、元の画像に制御された歪みのある場合とない場合との間での改善の程度が、制御された歪みのあるデジタル画像の入力ファイルの大きなデータセットから得られる結果と、制御された歪みのないデジタル画像の入力ファイルの同様に大きなデータセットから得られる結果との間の比較により、それらの間での精度の上昇の割合として測られる。
【0029】
図2の例ではニューラルネットワークの出力がデジタル画像ファイルである。しかし、そうである場合に常に限られるわけではなく、出力が、文字、光信号、触覚的なフィードバック、その他、制御された歪みのある画像をニューラルネットワークに入力することで得られるどのような出力であってもよい。出力がデジタル画像240のファイルである場合、その画像が人間によって観察されるのであれば、その画像が必要に応じて画像の歪み補正で更に処理されて、制御された歪みの少なくとも一部が除去されることにより、制御された歪みが低減し、または完全に除去されたデジタル画像250のファイルが与えられてもよい。必要に応じて追加されるこの歪み補正は、プロセッサーで形成されるコンピューターで動作するソフトウェアのアルゴリズムに則って、または、デジタル画像240の出力ファイルを処理してその歪みを除去し、修正し、または加工するように構成されているハードウェアで直に行われる。
【0030】
必要に応じて追加されるこの歪み補正は、出力画像が人を介さずに、ソフトウェアもしくはハードウェアによるアルゴリズム、またはその他のコンピューターによって利用されるべき場合には、不要であるかも知れない。本発明の実施形態のいくつかでは、ニューラルネットワーク200の全体がいくつかの下位ネットワークから成る。これらの下位ネットワークは、画像の大局的な構造とその各部の局所的な構造とを分析し、それらの結果を組み合わせるように構成されている。画像の大局的な構造の解析を目的として下位ネットワークは、いくつかのダウンサンプリング層と、それらの後に続く層であり、解像度を元の画像での値に戻すアップサンプリング層とを含む。これらの層が畳み込みを使っても使わなくてもよい。画像の各部の局所的な構造の解析を目的として下位ネットワークは、たとえば、元の画像からいくつかの部分を直に切り取ることにより、または、その画像の大局的な構造の解析に利用されるダウンサンプリング用またはアップサンプリング用の下位ネットワークから中間層へ入力させることにより、それらの部分を処理可能であってもよい。ただし、その構成に限られるわけではない。画像の大局的な構造の解析に利用される下位ネットワークと、画像の局所的な構造の解析に利用される下位ネットワークとから得られた結果がその後、平均化層または結合/畳み込み層等で組み合わされることにより、ニューラルネットワーク全体の最終的な出力が生成可能である。
【0031】
図3は、制御された歪みのある画像に対する処理能力の改善を目的とする深層学習による人工知能ニューラルネットワークの訓練方法を示す。
図3の例では、簡単化を目的として画像が1つしか示されていないが、本発明による方法はデジタル動画にも対応可能である。ニューラルネットワークのこの訓練方法は、教師あり学習、半教師あり学習、および教師なし学習のいずれによってもよく、まず大型の画像用データベースに、制御された歪みが故意には加えられていない画像310を用意する。このデータベースに格納されている画像データをしばしばデータセットとも呼ぶ。
図3の例では、制御された歪みのない元の画像310が1匹の猫の画像であり、その身体の寸法のバランス(プロポーション)が通常のものである。与えられた画像の大きなデータセットを利用してニューラルネットワークに、教師あり学習、半教師あり学習、または教師なし学習による訓練を受けさせることを可能にする目的で、本発明による方法は、そのデータセットの表す元の画像310をソフトウェアまたはハードウェアによる画像変換アルゴリズム320で処理し、目的の輪郭を持つ制御された歪みを元の画像310に与える。その与え方は、
図2の撮像装置205から出力されたデジタル画像210への与え方と同様である。画像変換アルゴリズム320は画像変換装置で実行される。これについては、
図4を参照しながら更に説明する。本発明による実施形態のいくつかでは、画像そのものに加え、それらの処理の結果として必要とされる、それらに対応する画像(グランドトゥルース画像として、よく知られている。)にも同じ方法で、故意に制御された歪みが加えられてもよい。目的の制御された歪みはどのような種類であってもよい。それには以下のものが含まれるが、これらには限られない。回転対称性がある径方向における樽型歪み。これは例330に示されているようなものであり、広角画像によく現れる。自由形状の歪み。これには回転対称性があってもなくてもよく、例340に示されているように特定の物体に中心があっても、そうでなくてもよい。画像の一部の伸び、すなわち糸巻き型歪み。これは、例350に示されているように画像の隅にしか見られなくても、画像の他のどのような部分に見られてもよい。例360に示されているような画像全体の伸び、すなわち糸巻き型歪み。それらの他に、画角1°あたりの画素数が完全な画像よりも少なくとも10%多い関心領域を少なくとも1つ生み出す歪みであれば、どのような種類であってもよい。完全な画像とは、球面収差が補正済みである、画素の密度とサイズとが一様な画像の意味であっても、所定のニューラルネットワークにとっては理想的な他のどのような画像の意味であってもよい。本発明による他の実施形態のいくつかでは関心領域における画角1°あたりの画素数が、歪みのない画像のそれよりも、少なくとも20%、30%、40%、または50%多いように、制御された歪みが定められる。
【0032】
制御された歪みのある画像が新たに生成される。それらはいずれも、歪みのない元の画像と比べ、画角が同じであっても、異なっていてもよい。新たに生成された画像の画角が元の画像の画角よりも広い場合、画像の残り部分がどのような画像で埋められてもよい。その画像は、コンピューターによって生成された背景画像、他の画像から抽出された背景画像、多重に複製された元の画像、元のデータセットから引き出された複数の画像、外挿による画像、または空白等、画角から失われた部分を埋め尽くすのに必要な種類であればどのような画像であってもよい。
【0033】
画像330、340、350、および/または360のような、制御された歪みのある画像で生成された新たなデータセットはその後、ニューラルネットワーク370の訓練に利用される。ニューラルネットワーク370は、制御された歪みのあるこれらの画像の使い方を学習する。
図3の例では、模式的に示されているニューラルネットワーク370の中の矢印が右から左へ、すなわちニューラルネットワーク370の出力層から入力層へ向かう。これらは誤差逆伝播法によるニューラルネットワーク370の訓練の流れを表し、他の図において左から右へ向かう矢印が表す、入力層から出力層への推論処理の流れとは異なる。ニューラルネットワーク370の学習は、教師あり学習(ニューラルネットワークに入力される画像と、結果としてそのニューラルネットワークから出力されるべきグランドトゥルース画像との対が既知とされる。)であってもよく、教師なし学習(ニューラルネットワークに入力される画像が、結果としてそのニューラルネットワークから出力されるかは未知であるグランドトゥルース画像に関連付けられる。)であってもよい。新たな画像のデータセットはそれらの他にも、教師あり学習と教師なし学習とのハイブリッド型(半教師あり学習として知られている。)等、ニューラルネットワークに学習させ、更にそれを強化する深層学習のどのような種類にも、画像のデータセットを利用して人工知能を訓練するどのような方法にも、利用可能である。ニューラルネットワークの訓練の際には、各層のノード間での重みの最適化にどのような技術が用いられてもよい。その技術には、勾配降下法、誤差逆伝播法、遺伝的アルゴリズム、焼きなまし法、ランダム最適化アルゴリズム等が含まれる。ただし、これらは本発明の範囲を制限するものではない。ニューラルネットワークの最適化に用いられる損失関数(コスト関数またはエネルギー関数としても知られている。)は、本発明による方法では、ニューラルネットワークに求められる用途に応じてどのような種類であってもよい。本発明の実施形態のいくつかでは、画角が一般に約60°よりも広い広角画像を分析し、または処理する訓練をニューラルネットワークに受けさせる際、仮想的な3次元空間から生成された広角画像がその訓練に利用されてもよい。既存の広角画像が、所望の用途において必要とされるグランドトゥルース画像を伴うことはかなり稀であり、存在しないこともよくあるからである。広角画像の小さなデータセットしか存在せず、正確な訓練にはそのデータセットの拡大が必要である場合、すでに存在する本物の広角画像に、仮想的に生成された広角画像が組み合わされて利用されることがあってもよい。
【0034】
図4は、画像変換装置で動作するソフトウェアまたはハードウェアによる画像変換アルゴリズムを利用して、元のデータセットから歪みのある画像のデータセットを作成する方法を示す。この方法はまず、元の画像のデータセットを用意する(ステップ410)。インターネットにはこのようなデータセットが複数、利用可能に公開されており、それらには、天然の実物、人工物、仮想物、またはそれらの混合等の画像が含まれる。上記のデータセットが含む静止画または動画の表す物体としては、文字、人の顔、動物、建物、ストリートビュー等、様々な種類の人工知能ニューラルネットワークの訓練に役立つ様々な種類のものが選択可能である。既存のデータセットの画像は、通常のレンズを通し、故意には歪みが生じさせられることなく取り込まれ、または、通常の光景から、制御された歪みが加えられることなく生成されている。この方法は次に、上記のデータセットから画像の1つを対象として選択する(ステップ420)。
図4に示されている方法の例では、元のデータセットから画像が1つしか変換されていない。しかし、データセットを新たに生成するという実際の場合には、同じ方法が所望数の元の画像に連続して適用可能である。また、本発明による方法は、複数の画像ファイルからのデータセットの作成にも対応可能である。そのデータセットが1つのデジタル動画のファイルとして組み立てられても、そうでなくてもよい。本発明による実施形態のいくつかでは、元の画像を処理するステップ410に加え、元の画像と、それらの画像に対応する、結果として必要な画像(グランドトゥルース画像としてよく知られている。)との両方に同じ方法で、故意に制御された歪みを加えるステップが設けられている。
【0035】
上記の方法の次のステップ430では、故意に制御された歪みとして必要なもの、すなわち目的の制御された歪みと必要な画角とが選択される。目的の制御された歪みは、新たなデータセットを利用して訓練されるべきニューラルネットワークに求められる特定の用途に依存するが、どのような種類であってもよい。その歪みは、回転対称性がある径方向における樽型歪み(広角画像によく現れる。)、自由形状の歪み(回転対称性があってもなくてもよく、特定の物体に中心があっても、そうでなくてもよい。)、画像の一部の伸び、すなわち糸巻き型歪み(画像の隅のみに見られても、画像の他のどのような部分に見られてもよい。)、画像全体の伸び、すなわち糸巻き型歪み、その他、画角1°あたりの画素数が(ステップ410で用意された)元のデータセットの含む元の画像よりも少なくとも10%多い関心領域を少なくとも1つ生み出す歪みであれば、どのような種類であってもよい。ただし、これらには限られない。元の画像は一般に、画素の密度が一様なものであっても、球面収差が補正されたものであってもよい。本発明による他の実施形態のいくつかでは、関心領域における画角1°あたりの画素数が(ステップ410で用意された)元のデータセットの含む歪みのない元の画像のそれよりも少なくとも20%、30%、40%、または50%多いように、制御された歪みが定められる。選択される画角も、新たなデータセットを利用して訓練されるべきニューラルネットワークに求められる特定の用途に依存するが、超狭角から超広角までの間でどのように異なる値であってもよい。変換後の画像は元の画像と画角が異なっていても、そうでなくてもよい。
【0036】
目的の制御された歪みと必要な画角とが選択された後、次のステップは画像の変換ステップ440である。この変換用に備えられている画像変換装置は、ソフトウェアまたはハードウェアによる画像変換アルゴリズムを実行するように構成されている。この画像変換装置では、歪み加工等、いくつかの画像処理が可能であるが、これには限られない。画像処理は、歪み加工用の画像変換アルゴリズムまたは他の画像処理アルゴリズムを実行する機能を持つ装置がハードウェアを操作し、または、ソフトウェアを実行することによって行われる。デジタル画像の歪みを変化させる画像変換装置はどのような種類であってもよく、中央処理装置(CPU)、メモリ装置、およびデジタル画像ファイルを送受信する手段を備えたコンピュータであってもよいが、これには限られない。画像変換装置が、パーソナルコンピュータ(PC)、スマートフォン、タブレット、埋め込みシステム等、デジタル画像の歪みを変換する機能を持つ他のどのような装置であってもよい。歪みを変換する装置が、特定用途向け集積回路(ASIC)またはフィールドプログラマブルゲートアレイ(FPGA)等のハードウェアで主に実行されるアルゴリズムに則って動作してもよい。
【0037】
ステップ440では、画像変換装置が歪みのない元のデジタル画像のファイルを受信すると共に、目的の制御された歪みの選択を受け付け、その後、元のデジタル画像の入力ファイルを、目的の制御された歪みのあるデジタル画像の出力ファイルに変換する。ステップ440の出力はステップ450で処理される。ステップ450では、所望の歪みのある所望の画角のデジタル画像が1つ、メモリまたは記憶ドライブに保存される。関連するグランドトゥルース情報、または変換後の新たなデジタル画像の分類は、元のデータセットにおいてすでに利用可能な情報から既知であり、または、他の何らかの方法によって決定される。その方法には、集合の類似性に関する理論(near set theory)に基づく一般的な近似アルゴリズム、または、元の画像と新たな画像との間でのトポロジー類似性の比較が含まれる。その後のステップ460では、ステップ450で扱われた歪みのある1つの画像が、必要に応じ、変換処理を受けた複数の類似するデジタル画像の作成に利用される。この作成では、ニューラルネットワークの訓練に利用される画像の全体の状態、向き、サイズ、または、位置の数を増やすのに、データ拡張、すなわち、回転、並進、拡大縮小、相似変換、鏡映、その他の画像変換操作が用いられる。画像のデータセットの拡大には、正距方位図法、球面収差補正、透視図の傾き補正等、どのような種類の投影法も用いられてもよい。データ拡張ステップ460の結果として得られた画像はすべて、この方法の最終ステップである次のステップ470において、故意の歪みを含む画像の新たなデータセットに加えられる。この新たなデータセットがニューラルネットワークの訓練に利用される。特に、この新たなデータセットの変換されたデジタル画像が、デジタル画像に対する推論処理に備えたニューラルネットワークの訓練に利用される。
【0038】
図5は、制御された歪みのある画像を利用しない訓練を受けたニューラルネットワークと、制御された歪みのある画像を利用する訓練を受けたニューラルネットワークとの間での能力の比較を示す。
図5の例では、簡単化を目的として画像が1つしか示されていないが、本発明による方法は複数の画像にも対応可能である。これらの画像が1つのデジタル動画に組み込まれていても、そうでなくてもよい。歪みのある元の画像510は、たとえば5人のグループ写真であり、
図2に示されているような撮像装置から得られ、画像の四隅へ向かうにつれて画角1°あたりの画素数が増えている。この種の画像の歪みは、対角線方向の画角が60°を超える広角の撮像装置では共通しており、画像の形が四隅で伸びて画像の中心から四隅へ向かうにつれて画角1°あたりの画素数が増え、物体の中の直線が画像の中でも、できる限り真っ直ぐに保たれる。画像のこのような伸びは、古典的な画像処理を用いた自動分析または人工知能に基づく画像処理アルゴリズムによる出力の最適化を困難にする。顔の寸法のバランスが画像処理アルゴリズムの使用対象ではないからである。この理由により、歪みのある画像510が、歪みのある画像を利用する訓練を受けていないニューラルネットワーク520に入力された場合は、その出力530が劣る。
図5の例では、ニューラルネットワークの出力が人々の分類および認識である。ただし、これは本発明による出力の一例に過ぎず、ニューラルネットワークからの出力が他の画像処理または画像分析の結果であっても、本発明は利用可能である。ウィンドウ530内の出力結果が示すように、人A、Eの画像が伸びているので、それらの形をニューラルネットワーク520は画像処理アルゴリズムにより、人として分類することすらできなかった。人B、Dの画像はそこまでは伸びていない。それらの形をニューラルネットワーク520は画像処理アルゴリズムにより、人として分類することはできたが、認識することはできなかった。ニューラルネットワーク520の画像処理アルゴリズムにより、中央にいる人Cだけが認識された。画像の中央では画角1°あたりの画素数がほとんど一定であり、人の顔の寸法のバランスが保たれるからである。同じ歪みのある画像510が、歪みのある画像を利用する訓練を受けたニューラルネットワーク540に入力された場合、
図3に示されているように、その出力結果550が改善される。この場合、そのニューラルネットワーク540が、プロポーションに歪みのある人々の認識に使用されるので、5人全員を正しく認識することができた。
図5の例は用途が分類および認識である。しかし、本発明の方法による、歪みのある画像を利用する訓練を受けた畳み込みニューラルネットワークは、入力ファイルのデジタル画像に制御された歪みのある場合にはどのような用途についても、改善された能力を発揮する。
【0039】
図6は、撮像装置から出力されたデジタル画像に含まれる制御された歪みが、動画の1つのシーケンスを形成する複数のフレームのように、経時的に変化する例を示す。この例では撮像装置が、歪みを経時的に変化させる能動的な光学素子を備えたカメラシステム、画像の歪みを直に変換することのできるハードウェア、または、ソフトウェアによる画像変換アルゴリズムを実行可能な機器(コンピューター、携帯電話、タブレット、埋め込みシステム、ASIC、FPGA等)であってもよい。
図6の例では、撮像装置の出力が、動いている猫の3つの画像610、620、630である。これらは、動画の1つのシーケンスから3つの異なる時刻に取り込まれ、または生成された、異なる時刻を表す画像であり、解像度が上げられている領域を利用して関心のある物体を追跡することができる。画像610に追加されている故意に制御された歪みは、歪んだメッシュ605によって表されている。このメッシュ内の円形領域607と画像610内の円形領域612とは、局所的拡大によって画像に歪みが加えられた領域を表す。この歪みは、より多くの画素をニューラルネットワークに与えるのに必要な程度である。全体の画角が同じであれば、倍率の上げられた領域が倍率の下げられた領域で囲まれる。これにより、関心領域での画素数の増加と画角の拡大とが打ち消され、同じ総数の画素の中で全体が同じ画角を保つ。ただし、これは常には必要でなく、他の実施形態のいくつかではある領域での倍率の上昇が、別の領域での倍率の下降で打ち消されるのではなく、全体の画角の縮小で打ち消されてもよい。
【0040】
図では縦軸によって表されている後続の時間領域では同様な局所的拡大が画像620、630で行われる。これらの画像のぞれぞれには歪んだメッシュ615、625が適用される。各メッシュの円形領域617、627と各画像の円形領域622、632とが、拡大された局所領域を表す。
図6の例では、拡大された局所領域が画像1つあたりに1つしかない。しかし、これは発明の範囲を制限するものではない。本発明は、1つの画像内の複数の局所領域を同時に拡大するようにも実施可能である。故意に制御された歪みのある画像はその後、人工知能ニューラルネットワーク645に入力される。このニューラルネットワーク645は、
図3についての説明のとおり、歪みのある画像を利用する学習によって訓練されたものである。歩いている猫の周囲が拡大されているので、ニューラルネットワーク645の入力は、その猫の周囲に、より多量の画素情報を含む。ニューラルネットワーク645には、解像度が上げられている物体の画像が入力されるので、その出力の結果650が改善される。
【0041】
図6の例では、3つの画像のすべてについて、ニューラルネットワーク645が動いている猫を認識できた。ただし、ニューラルネットワーク645の用途は認識には限られない。他のどのような用途においてもそれに合うように、本発明による結果650はどのような種類であってもよい。
図6は、1つの比較として、撮像装置から出力される4つめの画像640も示す。ただし、その出力時刻には、関心のある物体をリアルタイムに追跡する制御された歪みはない。故意に制御された歪みが画像640に加えられていないことは一様なメッシュ635によって表されている。画像640はその後、ニューラルネットワーク655によって処理され、その出力が結果650である。ニューラルネットワーク655はニューラルネットワーク645と同一であっても、異なっていてもよい。この例では、関心のある物体の解像度が十分な高さではないので、ニューラルネットワーク655が画像内の猫を特定できなかった。本発明の実施形態のいくつかでは、ニューラルネットワークが、その入力または出力のうち、異なる時刻に取り込まれ、または生成された少なくとも2枚の画像フレームを組み合わせるように構成されている。これにより、1つの動画の中で連続する画像フレームの間では重みと時間順とに一貫性が生じるので、結果が改善される。このような動画処理は、必要であれば、回帰型ニューラルネットワークを用いて実行されてもよい。
【0042】
図7は、ニューラルネットワークに画像が入力される前にその歪みが、標準化されている輪郭を持つ制御された歪みに変換される例を示す。この例では、関心のある物体が人の顔である。ただし、本発明による方法の対象はどのような種類の物体にも限られず、他のどのような物体であってもよい。この例はまず、元の画像710を取得する。元の画像710には、制御された歪みがすでにあっても、まだなくてもよい。この画像の供給元はどのような撮像装置であってもよく、光学系を含む装置等、仮想画像の生成または変換の機能を持つどのような装置であってもよい。
図7の例では、検出された人々の顔が個別に、制御された歪みのある画像に対して統一されている標準的なフォーマットに変換される。画像710の中の3つの顔が、ソフトウェアまたはハードウェアによる画像変換アルゴリズム720を用いて変換され、標準化されている制御された歪みのあるデジタル画像730、740、750に変えられる。適用される変換は、たとえば顔の画像内での位置または向きに応じ、どの顔に対しても同じであってもよく、顔ごとに異なってもよい。画像変換アルゴリズム720は、ソフトウェアによるアルゴリズムを実行するプロセッサーを備えたコンピューター、ASIC、FPGA等、画像の歪みの輪郭を変換するように構成されているどのようなハードウェアで実行されてもよい。
【0043】
標準化されている制御された歪みのある画像の例730、750では、人の顔が撮像装置の方を真っ直ぐには向いていなかったので、それらの顔の一部がカメラに取り込まれなかった結果、標準化されている表示に変換されると黒い領域が現れる。歪みのある画像740では、顔が撮像装置の方を真っ直ぐに向いていたので、標準化されている表示に変換されても、情報の欠落を表す黒い領域が現れない。画像のフォーマットが標準のものであるので、ニューラルネットワーク760は、歪みのある画像に備えた訓練を1回受ければ十分であり、受信可能な種類ごとに訓練を受けなくてもよい。これが、歪みの標準的なフォーマットの使用の主要な利点である。すなわち、同じフォーマットの使用により、歪みのある画像の新たなデータセットを生成してニューラルネットワークを訓練し直すのにコストと時間とをかける必要がない。この例では、ニューラルネットワーク760から結果として得られる出力770が、すべての顔について認識の成功を示す。すなわち、画像の含む故意の歪みが標準的であるので処理能力が向上する。ただし、ニューラルネットワークの用途に応じ、その出力はどのような種類であってもよい。この例の方法が改善されるのは、人の顔を覆うM×Nの画素(Mは、入力されるデジタル画像内の行数であり、Nは列数である。)が最大化されるように、制御された歪みの標準化されている輪郭が選択されるからである。しかし、
図7に模式的に示されているものは、デジタル画像の変換用に標準化されている投影法の一例でしかなく、他のどのような投影法が本発明の方法に則って利用されてもよい。そのような投影法には、正距円筒図法、または、円形状、矩形状、もしくは自由形状の所定領域の拡大等が含まれるが、これらには限られない。
【0044】
図8は、画像変換装置が入力ファイルのデジタル画像から、制御された歪みの少なくとも一部を除去する例を示す。この除去ではその画像が、ニューラルネットワークに入力される前に処理されてその歪みが補正され、変換後の画像がニューラルネットワークに入力される。この例では、関心のある物体が人の顔である。しかし、本発明による方法は対象が物体のどのような種類にも限られず、どのような物体にも適用可能である。この例はまず、歪みのある元の画像810を用意する。この画像の供給元は、光学系を含むどのような撮像装置であっても、仮想画像の生成または変換の機能を持つどのような装置であってもよい。
図8の例では、検出された人々の顔がすべて、ソフトウェアまたはハードウェアによる画像変換アルゴリズム820に則って処理され、歪みの少なくとも一部が除去される。画像変換アルゴリズム820は、ソフトウェアによるアルゴリズムを実行するプロセッサーを備えたコンピューター、ASIC、FPGA等、画像の歪みの輪郭を変換するように構成されているどのようなハードウェアで実行されてもよい。画像変換アルゴリズム820が元の画像810に対する歪み補正により、歪みを除去し、修正し、変化させ、または加工することにより、歪みのない顔の画像830、840、850が得られる。画像830、840、850はその後、故意に制御された歪みがない画像を利用する訓練を受けた通常のニューラルネットワーク860に入力される。その出力が結果870である。この例では、ニューラルネットワーク860からの結果870が、すべての顔の認識の成功を示す。この理由はおそらく、元の画像810の中の歪みがニューラルネットワークへの入力前に除去されたことにある。この例の出力は人の顔の認識結果には限られず、ニューラルネットワークの用途に応じてどのような種類であってもよい。
【0045】
本発明による他の実施形態のいくつかでは、ニューラルネットワークに入力される前の元の画像が追加の情報またはパラメーターを含む。これらは、デジタル画像ファイルのメタデータ、または、画像内の可視マーク、不可視マーク、もしくは透かしの中に書き込まれても、別の供給元からニューラルネットワークへ送信されてもよい。これらの追加の情報またはパラメーターを利用して、画像変換アルゴリズムまたはニューラルネットワーク自体が結果を更に改善することを支援することも可能である。
【0046】
上記の図面と例とはすべて、故意に制御された歪みを利用してニューラルネットワークからの出力結果を改善する方法を示す。これらの例のすべてでは、撮像装置、カメラ、またはレンズが、超狭角から超広角までの間のどのような画角であってもよい。ニューラルネットワークは、少なくとも入力層と出力層とを持つものであれば、どのような種類であってもよい。これらの例の列挙は、網羅的なリストの作成も、本発明の範囲と精神との限定も意図していない。発明の広い概念から外れることなく上記の例と実施形態とに変更を加えられることは、当業者には理解されるであろう。それ故、本発明が、開示された特定の例にも実施形態にも限定されず、添付の請求の範囲で定義されているような本発明の精神と範囲との中で行われる変更にも及ぶことを意図するものであることは、当業者には理解される。
【国際調査報告】