特許第6968966号(P6968966)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ホソ ユニバーシティ アカデミック コオペレーション ファウンデーションの特許一覧

特許6968966ディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法
<>
  • 特許6968966-ディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法 図000015
  • 特許6968966-ディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法 図000016
  • 特許6968966-ディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法 図000017
  • 特許6968966-ディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法 図000018
  • 特許6968966-ディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法 図000019
  • 特許6968966-ディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法 図000020
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】6968966
(24)【登録日】2021年10月29日
(45)【発行日】2021年11月24日
(54)【発明の名称】ディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20211111BHJP
   G06N 20/00 20190101ALI20211111BHJP
   G06N 7/00 20060101ALI20211111BHJP
【FI】
   G06T7/00 350C
   G06N20/00
   G06N7/00 150
【請求項の数】8
【全頁数】13
(21)【出願番号】特願2020-182394(P2020-182394)
(22)【出願日】2020年10月30日
【審査請求日】2020年10月30日
(31)【優先権主張番号】10-2020-0074204
(32)【優先日】2020年6月18日
(33)【優先権主張国】KR
【早期審査対象出願】
(73)【特許権者】
【識別番号】520425187
【氏名又は名称】ホソ ユニバーシティ アカデミック コオペレーション ファウンデーション
(74)【代理人】
【識別番号】100149870
【弁理士】
【氏名又は名称】芦北 智晴
(72)【発明者】
【氏名】イム ドンヒョク
(72)【発明者】
【氏名】アン ジンヒョン
【審査官】 粕谷 満成
(56)【参考文献】
【文献】 特開2020−009446(JP,A)
【文献】 米国特許出願公開第2018/0096192(US,A1)
【文献】 田屋 侑希 他,画像キャプション生成におけるシーングラフ特徴量の効果,言語処理学会第26回年次大会 発表論文集,言語処理学会,2020年03月09日,pp.267-270
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06N 20/00
G06N 7/00
(57)【特許請求の範囲】
【請求項1】
画像を入力するステップと、
ディープラーニングに基づくオブジェクト検出方法を用いて前記画像からオブジェクトを検出するステップと、
PLSIを利用して、画像内のコンテキスト状況(context)を検出し、検出されたコンテキスト状況によって、検出されたオブジェクトを上位範囲から下位範囲に限定化するステップと、
検出されたコンテキスト状況を利用して、ディープラーニングに基づく関係検出及びオントロジ方法を用いて、オブジェクト同士の関係を検出するステップと、
下位範囲に限定化されたオブジェクトと、検出されたオブジェクト同士の関係とを用いて、入力画像に対するシーングラフを生成するステップと、からなることを特徴とする、ディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法。
【請求項2】
前記PLSIを用いて画像アノテーションを行い、オブジェクトにタグ(tag)を付けて画像タグリストを生成し、それに基づいてコンテキスト状況を判断することを特徴とする、請求項1に記載のディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法。
【請求項3】
前記PLSIを用いる画像アノテーションにおいて、EMアルゴリズムのための次の目的関数を特徴とする、請求項2に記載のディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法。
【数1】
ここで、dは、画像、Wは、画像に表示されるオブジェクトを表し、Zは、潜在的主題(context)を意味し、目的関数で用いられるn(w,d)は、画像においてオブジェクトが有する重み(画像においてオブジェクトが表示される回数、画像においてオブジェクトが占める割合)を示す。
【請求項4】
前記EMアルゴリズムは、以下のようなE−ステップと、
【数2】
以下のようなM−ステップと、
【数3】
からなることを特徴とする、請求項3に記載のディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法。
【請求項5】
ディープラーニングに基づくオブジェクト検出方法は、領域の提案と分類が同時に行われる1−段階ディテクタから構成されることを特徴とする、請求項2に記載のディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法。
【請求項6】
前記ディープラーニングに基づくオブジェクト検出方法は、領域の提案(オブジェクトが含まれているエリアの判定)と、分類との2段階からなる2−段階ディテクタから構成されることを特徴とする、請求項2に記載のディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法。
【請求項7】
前記ディープラーニングに基づく関係検出は、上、下、接触、後、前のような位置を示す関係を用いる、空間特徴を活用する空間関係検出であることを特徴とする、請求項2に記載のディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法。
【請求項8】
ディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法において、コンテキストに合ったオブジェクト同士の関係のみを考慮することを特徴とする、請求項1ないしのいずれか1項に記載のディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法に関し、特に、ディープラーニングを利用した画像オブジェクトの意味関係を認識する際にPLSIを導入して、画像内のオブジェクトを認識し、認識したオブジェクト同士の関係を見出すディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法に関する。
【背景技術】
【0002】
人工知能(Artificial Intelligence;AI)システムは、人間レベルの知能を具現するコンピュータシステムであり、従来のRuleに基づくスマートシステムとは異なり、機械が自ら学習して判断し、賢くなるシステムである。人工知能システムは、使用すればするほど認識率が向上し、ユーザの好みをより正確に把握できるようになることから、従来のRuleに基づくスマートシステムは、徐々にディープラーニングに基づく人工知能システムに置き換えられている。
【0003】
人工知能技術は、機械学習(ディープラーニング)及び機械学習を活用した要素技術から構成されている。機械学習は、入力データの特徴を自ら分類/学習するアルゴリズム技術であり、要素技術は、ディープランニングなどの機械学習アルゴリズムを活用して人間の脳における認知、判断などの機能を模写する技術であって、言語的理解、視覚的理解、推論/予測、知識表現、動作制御などの技術分野から構成される。
【0004】
このような人工知能技術は、様々な方法に応用されており、その応用の1つである視覚的理解は、人間の視覚のように物事を認識して処理する技術であって、オブジェクト認識、オブジェクト追跡、映像検索、人の認識、シーンの理解、空間の理解、映像改善などが含まれる。
【0005】
このようなディープラーニングによる視覚的理解、すなわちシーングラフ(scene graph)は、一般的に画像オブジェクトの検出と画像オブジェクトの関係検出からなる。
【0006】
画像分析分野において、シーングラフは、画像の有する意味的情報をグラフモデルによって説明してくれる方法である。図1は、シーングラフ及びキャプションの生成例を示している。このようなシーングラフモデルは、1次的に画像内のオブジェクトを認識し、オブジェクト同士の関係を見出す過程からなる。
【0007】
図1を参照すると、まず、画像が入力されると、複数のキャプション領域(caption region)(図面では破線で表示)を検出し、検出した各キャプション領域内のオブジェクト(object)を検出する。このように、視覚的なシーンを理解することで、「女性が空中に浮いている(The woman is on air)」(破線 A)と、「女性が白い傘を持っている(A woman with a whit umbrella)」といった局部的なキャプションを行い、そして検出されたキャプション領域からオブジェクトを検出することにより、「女性が傘を持っている」と「女性が白いドレスを着ている」のような画像内のオブジェクトとオブジェクトとの間の関係を画像グラフで生成する。
【0008】
画像オブジェクトの検出は、ディープラーニング分野において様々な研究と方法が提示されているが、通常、1−段階ディテクタ(1−stage detector)と2−段階ディテクタ(2−stage detector)の2種類に分けられる。
【0009】
まず、2−段階ディテクタは、領域の提案(regional proposal)(オブジェクトが含まれているエリアの判定)と、分類(classificatio)との2段階からなる。これに対し、1−段階ディテクタは、領域の提案と分類が同時に行われる。
【0010】
そして、画像オブジェクトの関係(relationship)の検出は、言語資源を活用した検出と、空間特徴を活用する空間関係検出と、オントロジ(ontology)を活用した関係検出とに分けられる。
【0011】
言語資源を活用した検出は、オブジェクト対に対する言語関係を事前に定義しておき、画像から得られたオブジェクトから可能な関係を検出するものである。
【0012】
図2は、言語資源を活用した検出の例を示す。
【0013】
図2を参照すると、画像が入力されると、まず、画像から人とバイクを認識し、「人がバイクに乗っている」という人とバイクの関係を検出し、それから「人がヘルメットを着用している」という人とヘルメットの関係と、「バイクが車輪を有する」というバイクと車輪の関係とを検出する。
【0014】
空間特徴を活用する空間関係検出は、画像内のオブジェクトの空間位置に対する関係を検出するものであり、主に、上(above)、下(under)、接触(on)、後(behind)、前(in front of)などの位置を示す関係に焦点を置くことを特徴とする。
【0015】
オントロジとは、ある一定の範囲で用いられる単語の概念、特徴、関連関係などを表現して単語に対する一般的な知識が明示的に表れ、単語同士の関係定義によって文章の意味を把握することができるものであり、オントロジを活用した関係検出は、知識ベースを活用してオブジェクト同士の関係を識別する方法である。
【0016】
画像をオントロジで表現するために、タグ予測(tag prediction)を行い、タグを知識グラフに埋め込む(embedding)。それから関係を定義するために概念網(concep−net)を用いるが、このモデルは、単語と単語との間の関係を定義し、スコアを与え、与えられたスコアを、いくつかの数式を経て関係を隠しベクトル空間(hidden vector space)に保存する方式を採用して知識グラフに埋め込む方法を用いる。
【0017】
以上で説明したような、従来のシーングラフの生成方法は、主に画像内のオブジェクト(object)を見出した後、オブジェクト同士の関係を見出すことに留まり、オブジェクト同士の関係を誤って検出した場合と、オブジェクト同士の関係をより細かく検出することができないといった欠点がある。
【発明の概要】
【発明が解決しようとする課題】
【0018】
従って、本発明の目的は、画像を活用した画像グラフの生成において、ディープラーニング及びPLSIを適用して、画像オブジェクト同士の単純な関係ではなく、画像オブジェクト同士の意味的関係を検出することができる、ディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法を提供するものである。
【課題を解決するための手段】
【0019】
本発明の目的を達成するために、本発明に係るディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法は、画像を入力するステップと、ディープラーニングに基づくオブジェクト検出方法を用いて前記画像からオブジェクトを検出するステップと、PLSIを利用して、画像内のコンテキスト状況(context)を検出するステップと、ディープラーニングに基づく関係検出及びオントロジ方法を用いて、オブジェクト同士の関係を検出するステップと、入力画像に対するシーングラフを生成するステップと、からなる。
【0020】
本発明に係るディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法は、PLSIを用いて画像アノテーションを行い、オブジェクトにタグ(tag)を付けて画像タグリストを生成し、それに基づいてコンテキスト状況を判断する。
【0021】
本発明に係るディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法において、PLSIを用いる画像アノテーションでは、EMアルゴリズムのための次の目的関数(尤度関数)を含み、
【数1】
ここで、dは、画像を表し、wは、画像に表示されるオブジェクトを表し、zは、潜在的主題(context)を意味し、n(w,d)は、画像においてオブジェクトが有する重みを示す。
【0022】
本発明に係るディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法において、目的関数が最大となる値を求めるためのEMアルゴリズムは、以下のようなE−ステップと、
【数2】
以下のようなM−ステップと、
【数3】
からなる。
【0023】
本発明に係るディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法において、コンテキスト状況を検出するステップで検出されたオブジェクトを上位範囲から下位範囲に限定化する。
【0024】
本発明に係るディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法において、ディープラーニングに基づくオブジェクト検出方法は、領域の提案と分類が同時に行われる1−段階ディテクタから構成される。
【0025】
本発明に係るディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法において、ディープラーニングに基づくオブジェクト検出方法は、領域の提案(オブジェクトが含まれているエリアの判定)と、分類との2段階からなる2−段階ディテクタから構成される。
【0026】
本発明に係るディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法において、ディープラーニングに基づくオブジェクト検出方法は、上、下、接触、後、前のような位置を示す関係を用いる、空間特徴を活用する空間関係検出である。
【0027】
本発明に係る、ディープラーニング及びPLSIに基づく画像オブジェクトの意味関係を認識する方法において、コンテキストに合ったオブジェクト同士の関係のみを考慮する。
【発明の効果】
【0028】
本願発明に基づいてPLSIを用いる方法は、オブジェクトを見出してから、画像内のコンテキスト状況を検出した後、コンテキスト状況に合ったオブジェクトの意味関係を見出す方法であり、公知の方法では、オブジェクト同士の単純な関係のみを考慮する。従って、本願発明に係る方法は、コンテキストに合ったオブジェクト同士の関係のみを考慮するため、意味的により具体的且つ正確な関係を導出することができるといった効果がある。
【図面の簡単な説明】
【0029】
図1】画像内のオブジェクトとそのオブジェクト同士の関係をグラフで表現する方法を示す図である。
図2】言語資源を活用した関係検出を示すものであり、画像から得られた人とバイクの関係、人とヘルメットの関係、バイクと車輪の関係を検出する様子を示す図である。
図3】PLSIモデリングを概略的に示す図である。
図4】PLSIを用いた画像アノテーションを説明する図である。
図5】PLSIを用いた画像アノテーションモデリングを概略的に示す図である。
図6】本発明に係るシーングラフの生成を示す図である。
【発明を実施するための形態】
【0030】
本発明は、その技術的思想や主な特徴から逸脱することなく、他の様々な形態で実施されることができる。従って、本発明の実施形態は、あらゆる点で単なる例示にすぎず、限定的に解釈してはならない。
【0031】
以下、本発明が属する技術分野における通常の知識を有する者が本発明を容易に実施できる程度に詳しく説明するために、添付図面を参照し、本発明の最も好ましい実施形態を詳細に説明する。
【0032】
本発明は、従来公知の画像グラフの生成技術とは異なり、PLSI(Probabilistic Latent Semantic Indexing)を用いる。
【0033】
PLSIとは、単語と文書の間をつなぐ、我々の目に見えない潜在的な構造があると仮定し、単語と文書出現確率をモデル化した確率モデルである。図3は、一般的なPLSIモデルを示す。PLSIモデルは、文書が特定の主題に合った単語を含んでいることを仮定している。dは文書、Wは単語を表し、Zは潜在的主題(topic)を意味する。dとwは観測することができるデータであり、Zは観測することができない。
【0034】
PLSIは、(d,W)を作り出すことを目的とする。すなわち、ある文書に如何なる単語が含まれているかを確率によって予測するものである。このような過程は、以下の通りである。
【0035】
まず、文書dを確率P(d)により選択し、次に主題Zを確率P(Z|d)により選択して、最後に単語Wを確率P(W|Z)により生成する。そして、これをベイズ確率で表現すると、次の通りである。
【0036】
【数4】
【0037】
そのための目的関数は、以下のように定義することができる。
【0038】
【数5】
【0039】
PLSIは、m個の単語、n個の文書、k個の主題(トピック)について尤度関数を最大化することを目標とする。目的関数(尤度関数)は、文書で登場した単語が多項分布属性を有しているので多項分布式を適用し、目的関数においてn(w,d)は、j番目の文書にi番目の単語が登場した回数を示す。
【0040】
従って、前記のような目的関数が最大となる値を得るために、EMアルゴリズムを繰り返し適用する。
【0041】
EMアルゴリズムは、期待値最大化アルゴリズム(expectation−maximization algorithm)であって、観測されていない潜在変数に依存する確率モデルにおいて最大尤度(maximum likelihood)や最大事後確率(maximum a posteriori;MAP)を有する母数の推定値を求める反復アルゴリズムである。
【0042】
EMアルゴリズムは、母数に関する推定値から対数尤度(log likelihood)の期待値を求める期待値(E)ステップと、この期待値を最大化する母数推定値を求める最大化(M)ステップを交互に適用する。最大化ステップで計算した変数値は、次の期待値ステップの推定値として用いられる。
【0043】
前記目的関数に適用するEMアルゴリズムにおいて、E−ステップは、次の通りであり、
【数6】
M−ステップは、次のように表現することができる。
【0044】
【数7】
【0045】
図4は、PLSIを用いた画像アノテーションを概略的に示す図である。
【0046】
図4に示すように、画像にアノテーションを行い、オブジェクトにタグ(tag)を付けて画像タグリストを生成し、それに基づいてコンテキスト状況(context)は遊び(playing)であると判断する。前記画像タグリストは、ハスキー、犬、芝生、ボールからなり、コンテキスト状況から、ハスキーのタイプは犬であり、ハスキーがボールを持って遊んでおり、ハスキーは芝生の上にあり、芝生は緑であるといったコンテキストが成立する。
【0047】
図5には、本発明の提案するPLSIを用いた画像アノテーションモデルが示されている。
【0048】
前記アノテーションモデルにおいて、EMアルゴリズムのための目的関数は、従来のPLSIと同じである。dは画像、Wは画像に表示されるオブジェクトを表し、Zは潜在的主題(context)を意味する。
【0049】
【数8】
【0050】
文書に用いられるPLSIと異なる点は、n(w,d)が、j番目の文書においてI番目の単語が登場する回数を示すのに対し、本モデルでは、ユーザが重みを与えることができる点である。例えば、従来のPLSIと同様に、1つの画像に表示されるオブジェクトの数で値を表現することができ、画像は、多くの単語を含む文書とは異なり、数個のオブジェクトのみを含むことができるので、画像においてオブジェクトが有する割合値を与えられるようにする。
【0051】
前記の目的関数を最大とするパラメータを求めるために、EMアルゴリズムを次のように計算することができる。EMアルゴリズムは、同時に最適の値を求めることのできない複数の変数を繰り返し計算して最適化する方法である。まず、すべての値をランダム値で初期化してから、1つのパラメータを固定した後、他のパラメータ値を更新し、このような過程を繰り返し行う。
【0052】
E−ステップ
【数9】
【0053】
M−ステップ
【数10】
【0054】
図6を参照して、前記のようなプロセスを適用して画像グラフを生成する方法をより詳細に説明すると、次の通りである。
【0055】
まず、画像を入力する。それから、従来のディープラーニングに基づくオブジェクト検出方法を用いて、入力された画像からオブジェクトを検出する。前記従来のディープラーニングに基づくオブジェクト検出方法は、前述した1−段階ディテクタまたは2−段階ディテクタからなる。
【0056】
その後、PLSIを利用して、画像内のコンテキスト状況(context)を検出する。図6に示すように、コンテキスト状況によって人というオブジェクトが選手オブジェクトに置き換えられ、ボールというオブジェクトは、バスケットボールというオブジェクトに具体化される。つまり、包括的な上位範囲のオブジェクトが、より詳細な下位範囲のオブジェクトに限定化される。
【0057】
その後、コンテキストを利用して、従来のディープラーニングに基づく関係検出、例えば、空間特徴を活用する空間関係検出とオントロジ方法を用いて、オブジェクト同士の関係を見出す。
【0058】
図6において、選手とボールの関係は、スロー(throws)、ホールド(hold)、キック(kick)、ヘッド(head)などのいくつかの意味的関係が成立可能であるが、PLSIで見出した文脈は、バスケットボール(basketball)であるため、入力された画像からすると、ホールドまたはスローである確率が高い。また、選手というオブジェクトとボールというオブジェクトとの間の距離を見ると、ホールドである確率が非常に高い。それから、前記ステップを経た後、入力画像に対するシーングラフを生成する。
【0059】
以上で説明したように、公知のシーングラフの生成方法では、主に画像内のオブジェクト(object)を見出した後、オブジェクト同士の関係を見出している。しかしながら、本願発明に基づいたPLSIを用いる方法では、オブジェクトを見出した後、画像内のコンテキスト状況をPLSIで検出し、コンテキスト状況に合ったオブジェクトの意味関係を見出す方法である。公知の方法では、オブジェクト同士の単純な関係のみを考慮しているのに対し、本願発明に係る方法では、コンテキストに合ったオブジェクト同士の関係のみを考慮するため、意味的により具体的且つ正確な関係を導出することができるといった効果がある。
【0060】
以上のような技術的な構成によって本発明の技術的課題が達成されるものであり、ここでは限定された実施形態及び図面によって説明されているが、これらに限定されることなく、本発明が属する技術分野における通常の知識を有する者により、本発明の技術思想と以下に記載される特許請求の範囲の均等範囲内で様々な修正及び変形が可能であることは言うまでもない。
【要約】      (修正有)
【課題】画像オブジェクト同士の単純な関係ではなく、画像オブジェクト同士の意味的関係を検出することができる方法を提供する。
【解決手段】方法は、画像を入力するステップと、ディープラーニングに基づくオブジェクト検出方法を用いて画像からオブジェクトを検出するステップと、PLSIを利用して、画像内のコンテキスト状況を検出するステップと、ディープラーニングに基づく関係検出及びオントロジ方法を用いて、オブジェクト同士の関係を検出するステップと、入力画像に対するシーングラフを生成するステップと、からなる。
【選択図】図6
図1
図2
図3
図4
図5
図6