特許6968966 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ホソ　ユニバーシティ　アカデミック　コオペレーション　ファウンデーションの特許一覧

特許6968966ディープラーニング及びＰＬＳＩに基づく画像オブジェクトの意味関係を認識する方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】6968966

(24)【登録日】2021年10月29日

(45)【発行日】2021年11月24日

(54)【発明の名称】ディープラーニング及びＰＬＳＩに基づく画像オブジェクトの意味関係を認識する方法

(51)【国際特許分類】

G06T 7/00 20170101AFI20211111BHJP

G06N 20/00 20190101ALI20211111BHJP

G06N 7/00 20060101ALI20211111BHJP

【ＦＩ】

G06T7/00 350C

G06N20/00

G06N7/00 150

【請求項の数】8

【全頁数】13

(21)【出願番号】特願2020-182394(P2020-182394)

(22)【出願日】2020年10月30日

【審査請求日】2020年10月30日

(31)【優先権主張番号】10-2020-0074204

(32)【優先日】2020年6月18日

(33)【優先権主張国】KR

【早期審査対象出願】

(73)【特許権者】

【識別番号】520425187

【氏名又は名称】ホソユニバーシティアカデミックコオペレーションファウンデーション

(74)【代理人】

【識別番号】100149870

【弁理士】

【氏名又は名称】芦北智晴

(72)【発明者】

【氏名】イムドンヒョク

(72)【発明者】

【氏名】アンジンヒョン

【審査官】粕谷満成

(56)【参考文献】

【文献】特開２０２０−００９４４６（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１８／００９６１９２（ＵＳ，Ａ１）

【文献】田屋侑希他，画像キャプション生成におけるシーングラフ特徴量の効果，言語処理学会第２６回年次大会発表論文集，言語処理学会，2020年03月09日，pp.267-270

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｔ７／００

Ｇ０６Ｎ２０／００

Ｇ０６Ｎ７／００

(57)【特許請求の範囲】

【請求項1】

画像を入力するステップと、
ディープラーニングに基づくオブジェクト検出方法を用いて前記画像からオブジェクトを検出するステップと、
ＰＬＳＩを利用して、画像内のコンテキスト状況（ｃｏｎｔｅｘｔ）を検出し、検出されたコンテキスト状況によって、検出されたオブジェクトを上位範囲から下位範囲に限定化するステップと、
検出されたコンテキスト状況を利用して、ディープラーニングに基づく関係検出及びオントロジ方法を用いて、オブジェクト同士の関係を検出するステップと、
下位範囲に限定化されたオブジェクトと、検出されたオブジェクト同士の関係とを用いて、入力画像に対するシーングラフを生成するステップと、からなることを特徴とする、ディープラーニング及びＰＬＳＩに基づく画像オブジェクトの意味関係を認識する方法。

【請求項2】

前記ＰＬＳＩを用いて画像アノテーションを行い、オブジェクトにタグ（ｔａｇ）を付けて画像タグリストを生成し、それに基づいてコンテキスト状況を判断することを特徴とする、請求項１に記載のディープラーニング及びＰＬＳＩに基づく画像オブジェクトの意味関係を認識する方法。

【請求項3】

前記ＰＬＳＩを用いる画像アノテーションにおいて、ＥＭアルゴリズムのための次の目的関数を特徴とする、請求項２に記載のディープラーニング及びＰＬＳＩに基づく画像オブジェクトの意味関係を認識する方法。

【数1】

ここで、ｄ_ｉは、画像、Ｗ_ｊは、画像に表示されるオブジェクトを表し、Ｚ_ｋは、潜在的主題（ｃｏｎｔｅｘｔ）を意味し、目的関数で用いられるｎ（ｗ_ｊ，ｄ_ｉ）は、画像においてオブジェクトが有する重み（画像においてオブジェクトが表示される回数、画像においてオブジェクトが占める割合）を示す。

【請求項4】

前記ＥＭアルゴリズムは、以下のようなＥ−ステップと、

【数2】

以下のようなＭ−ステップと、

【数3】

からなることを特徴とする、請求項３に記載のディープラーニング及びＰＬＳＩに基づく画像オブジェクトの意味関係を認識する方法。

【請求項5】

ディープラーニングに基づくオブジェクト検出方法は、領域の提案と分類が同時に行われる１−段階ディテクタから構成されることを特徴とする、請求項２に記載のディープラーニング及びＰＬＳＩに基づく画像オブジェクトの意味関係を認識する方法。

【請求項6】

前記ディープラーニングに基づくオブジェクト検出方法は、領域の提案（オブジェクトが含まれているエリアの判定）と、分類との２段階からなる２−段階ディテクタから構成されることを特徴とする、請求項２に記載のディープラーニング及びＰＬＳＩに基づく画像オブジェクトの意味関係を認識する方法。

【請求項7】

前記ディープラーニングに基づく関係検出は、上、下、接触、後、前のような位置を示す関係を用いる、空間特徴を活用する空間関係検出であることを特徴とする、請求項２に記載のディープラーニング及びＰＬＳＩに基づく画像オブジェクトの意味関係を認識する方法。

【請求項8】

ディープラーニング及びＰＬＳＩに基づく画像オブジェクトの意味関係を認識する方法において、コンテキストに合ったオブジェクト同士の関係のみを考慮することを特徴とする、請求項１ないし７のいずれか１項に記載のディープラーニング及びＰＬＳＩに基づく画像オブジェクトの意味関係を認識する方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ディープラーニング及びＰＬＳＩに基づく画像オブジェクトの意味関係を認識する方法に関し、特に、ディープラーニングを利用した画像オブジェクトの意味関係を認識する際にＰＬＳＩを導入して、画像内のオブジェクトを認識し、認識したオブジェクト同士の関係を見出すディープラーニング及びＰＬＳＩに基づく画像オブジェクトの意味関係を認識する方法に関する。

【背景技術】

【0002】

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ；ＡＩ）システムは、人間レベルの知能を具現するコンピュータシステムであり、従来のＲｕｌｅに基づくスマートシステムとは異なり、機械が自ら学習して判断し、賢くなるシステムである。人工知能システムは、使用すればするほど認識率が向上し、ユーザの好みをより正確に把握できるようになることから、従来のＲｕｌｅに基づくスマートシステムは、徐々にディープラーニングに基づく人工知能システムに置き換えられている。

【0003】

人工知能技術は、機械学習（ディープラーニング）及び機械学習を活用した要素技術から構成されている。機械学習は、入力データの特徴を自ら分類／学習するアルゴリズム技術であり、要素技術は、ディープランニングなどの機械学習アルゴリズムを活用して人間の脳における認知、判断などの機能を模写する技術であって、言語的理解、視覚的理解、推論／予測、知識表現、動作制御などの技術分野から構成される。

【0004】

このような人工知能技術は、様々な方法に応用されており、その応用の１つである視覚的理解は、人間の視覚のように物事を認識して処理する技術であって、オブジェクト認識、オブジェクト追跡、映像検索、人の認識、シーンの理解、空間の理解、映像改善などが含まれる。

【0005】

このようなディープラーニングによる視覚的理解、すなわちシーングラフ（ｓｃｅｎｅｇｒａｐｈ）は、一般的に画像オブジェクトの検出と画像オブジェクトの関係検出からなる。

【0006】

画像分析分野において、シーングラフは、画像の有する意味的情報をグラフモデルによって説明してくれる方法である。図１は、シーングラフ及びキャプションの生成例を示している。このようなシーングラフモデルは、１次的に画像内のオブジェクトを認識し、オブジェクト同士の関係を見出す過程からなる。

【0007】

図１を参照すると、まず、画像が入力されると、複数のキャプション領域（ｃａｐｔｉｏｎｒｅｇｉｏｎ）（図面では破線で表示）を検出し、検出した各キャプション領域内のオブジェクト（ｏｂｊｅｃｔ）を検出する。このように、視覚的なシーンを理解することで、「女性が空中に浮いている（Ｔｈｅｗｏｍａｎｉｓｏｎａｉｒ）」（破線 A）と、「女性が白い傘を持っている（Ａｗｏｍａｎｗｉｔｈａｗｈｉｔｕｍｂｒｅｌｌａ）」といった局部的なキャプションを行い、そして検出されたキャプション領域からオブジェクトを検出することにより、「女性が傘を持っている」と「女性が白いドレスを着ている」のような画像内のオブジェクトとオブジェクトとの間の関係を画像グラフで生成する。

【0008】

画像オブジェクトの検出は、ディープラーニング分野において様々な研究と方法が提示されているが、通常、１−段階ディテクタ（１−ｓｔａｇｅｄｅｔｅｃｔｏｒ）と２−段階ディテクタ（２−ｓｔａｇｅｄｅｔｅｃｔｏｒ）の２種類に分けられる。

【0009】

まず、２−段階ディテクタは、領域の提案（ｒｅｇｉｏｎａｌｐｒｏｐｏｓａｌ）（オブジェクトが含まれているエリアの判定）と、分類（ｃｌａｓｓiｆｉｃａｔｉｏ）との２段階からなる。これに対し、１−段階ディテクタは、領域の提案と分類が同時に行われる。

【0010】

そして、画像オブジェクトの関係（ｒｅｌａｔｉｏｎｓｈｉｐ）の検出は、言語資源を活用した検出と、空間特徴を活用する空間関係検出と、オントロジ（ｏｎｔｏｌｏｇｙ）を活用した関係検出とに分けられる。

【0011】

言語資源を活用した検出は、オブジェクト対に対する言語関係を事前に定義しておき、画像から得られたオブジェクトから可能な関係を検出するものである。

【0012】

図２は、言語資源を活用した検出の例を示す。

【0013】

図２を参照すると、画像が入力されると、まず、画像から人とバイクを認識し、「人がバイクに乗っている」という人とバイクの関係を検出し、それから「人がヘルメットを着用している」という人とヘルメットの関係と、「バイクが車輪を有する」というバイクと車輪の関係とを検出する。

【0014】

空間特徴を活用する空間関係検出は、画像内のオブジェクトの空間位置に対する関係を検出するものであり、主に、上（ａｂｏｖｅ）、下（ｕｎｄｅｒ）、接触（ｏｎ）、後（ｂｅｈｉｎｄ）、前（ｉｎｆｒｏｎｔｏｆ）などの位置を示す関係に焦点を置くことを特徴とする。

【0015】

オントロジとは、ある一定の範囲で用いられる単語の概念、特徴、関連関係などを表現して単語に対する一般的な知識が明示的に表れ、単語同士の関係定義によって文章の意味を把握することができるものであり、オントロジを活用した関係検出は、知識ベースを活用してオブジェクト同士の関係を識別する方法である。

【0016】

画像をオントロジで表現するために、タグ予測（ｔａｇｐｒｅｄｉｃｔｉｏｎ）を行い、タグを知識グラフに埋め込む（ｅｍｂｅｄｄｉｎｇ）。それから関係を定義するために概念網（ｃｏｎｃｅｐ−ｎｅｔ）を用いるが、このモデルは、単語と単語との間の関係を定義し、スコアを与え、与えられたスコアを、いくつかの数式を経て関係を隠しベクトル空間（ｈｉｄｄｅｎｖｅｃｔｏｒｓｐａｃｅ）に保存する方式を採用して知識グラフに埋め込む方法を用いる。

【0017】

以上で説明したような、従来のシーングラフの生成方法は、主に画像内のオブジェクト（ｏｂｊｅｃｔ）を見出した後、オブジェクト同士の関係を見出すことに留まり、オブジェクト同士の関係を誤って検出した場合と、オブジェクト同士の関係をより細かく検出することができないといった欠点がある。

【発明の概要】

【発明が解決しようとする課題】

【0018】

従って、本発明の目的は、画像を活用した画像グラフの生成において、ディープラーニング及びＰＬＳＩを適用して、画像オブジェクト同士の単純な関係ではなく、画像オブジェクト同士の意味的関係を検出することができる、ディープラーニング及びＰＬＳＩに基づく画像オブジェクトの意味関係を認識する方法を提供するものである。

【課題を解決するための手段】

【0019】

本発明の目的を達成するために、本発明に係るディープラーニング及びＰＬＳＩに基づく画像オブジェクトの意味関係を認識する方法は、画像を入力するステップと、ディープラーニングに基づくオブジェクト検出方法を用いて前記画像からオブジェクトを検出するステップと、ＰＬＳＩを利用して、画像内のコンテキスト状況（ｃｏｎｔｅｘｔ）を検出するステップと、ディープラーニングに基づく関係検出及びオントロジ方法を用いて、オブジェクト同士の関係を検出するステップと、入力画像に対するシーングラフを生成するステップと、からなる。

【0020】

本発明に係るディープラーニング及びＰＬＳＩに基づく画像オブジェクトの意味関係を認識する方法は、ＰＬＳＩを用いて画像アノテーションを行い、オブジェクトにタグ（ｔａｇ）を付けて画像タグリストを生成し、それに基づいてコンテキスト状況を判断する。

【0021】

本発明に係るディープラーニング及びＰＬＳＩに基づく画像オブジェクトの意味関係を認識する方法において、ＰＬＳＩを用いる画像アノテーションでは、ＥＭアルゴリズムのための次の目的関数（尤度関数）を含み、

【数1】

ここで、ｄ_ｉは、画像を表し、ｗ_ｊは、画像に表示されるオブジェクトを表し、ｚ_ｋは、潜在的主題（ｃｏｎｔｅｘｔ）を意味し、ｎ（ｗ_ｊ，ｄ_ｉ）は、画像においてオブジェクトが有する重みを示す。

【0022】

本発明に係るディープラーニング及びＰＬＳＩに基づく画像オブジェクトの意味関係を認識する方法において、目的関数が最大となる値を求めるためのＥＭアルゴリズムは、以下のようなＥ−ステップと、

【数2】

以下のようなＭ−ステップと、

【数3】

からなる。

【0023】

本発明に係るディープラーニング及びＰＬＳＩに基づく画像オブジェクトの意味関係を認識する方法において、コンテキスト状況を検出するステップで検出されたオブジェクトを上位範囲から下位範囲に限定化する。

【0024】

本発明に係るディープラーニング及びＰＬＳＩに基づく画像オブジェクトの意味関係を認識する方法において、ディープラーニングに基づくオブジェクト検出方法は、領域の提案と分類が同時に行われる１−段階ディテクタから構成される。

【0025】

本発明に係るディープラーニング及びＰＬＳＩに基づく画像オブジェクトの意味関係を認識する方法において、ディープラーニングに基づくオブジェクト検出方法は、領域の提案（オブジェクトが含まれているエリアの判定）と、分類との２段階からなる２−段階ディテクタから構成される。

【0026】

本発明に係るディープラーニング及びＰＬＳＩに基づく画像オブジェクトの意味関係を認識する方法において、ディープラーニングに基づくオブジェクト検出方法は、上、下、接触、後、前のような位置を示す関係を用いる、空間特徴を活用する空間関係検出である。

【0027】

本発明に係る、ディープラーニング及びＰＬＳＩに基づく画像オブジェクトの意味関係を認識する方法において、コンテキストに合ったオブジェクト同士の関係のみを考慮する。

【発明の効果】

【0028】

本願発明に基づいてＰＬＳＩを用いる方法は、オブジェクトを見出してから、画像内のコンテキスト状況を検出した後、コンテキスト状況に合ったオブジェクトの意味関係を見出す方法であり、公知の方法では、オブジェクト同士の単純な関係のみを考慮する。従って、本願発明に係る方法は、コンテキストに合ったオブジェクト同士の関係のみを考慮するため、意味的により具体的且つ正確な関係を導出することができるといった効果がある。

【図面の簡単な説明】

【0029】

【図1】画像内のオブジェクトとそのオブジェクト同士の関係をグラフで表現する方法を示す図である。

【図2】言語資源を活用した関係検出を示すものであり、画像から得られた人とバイクの関係、人とヘルメットの関係、バイクと車輪の関係を検出する様子を示す図である。

【図3】ＰＬＳＩモデリングを概略的に示す図である。

【図4】ＰＬＳＩを用いた画像アノテーションを説明する図である。

【図5】ＰＬＳＩを用いた画像アノテーションモデリングを概略的に示す図である。

【図6】本発明に係るシーングラフの生成を示す図である。

【発明を実施するための形態】

【0030】

本発明は、その技術的思想や主な特徴から逸脱することなく、他の様々な形態で実施されることができる。従って、本発明の実施形態は、あらゆる点で単なる例示にすぎず、限定的に解釈してはならない。

【0031】

以下、本発明が属する技術分野における通常の知識を有する者が本発明を容易に実施できる程度に詳しく説明するために、添付図面を参照し、本発明の最も好ましい実施形態を詳細に説明する。

【0032】

本発明は、従来公知の画像グラフの生成技術とは異なり、ＰＬＳＩ（ＰｒｏｂａｂｉｌｉｓｔｉｃＬａｔｅｎｔＳｅｍａｎｔｉｃＩｎｄｅｘｉｎｇ）を用いる。

【0033】

ＰＬＳＩとは、単語と文書の間をつなぐ、我々の目に見えない潜在的な構造があると仮定し、単語と文書出現確率をモデル化した確率モデルである。図３は、一般的なＰＬＳＩモデルを示す。ＰＬＳＩモデルは、文書が特定の主題に合った単語を含んでいることを仮定している。ｄ_ｉは文書、Ｗ_ｊは単語を表し、Ｚ_ｋは潜在的主題（ｔｏｐｉｃ）を意味する。ｄ_ｉとｗ_ｊは観測することができるデータであり、Ｚ_ｋは観測することができない。

【0034】

ＰＬＳＩは、（ｄ_ｉ，Ｗ_ｊ）を作り出すことを目的とする。すなわち、ある文書に如何なる単語が含まれているかを確率によって予測するものである。このような過程は、以下の通りである。

【0035】

まず、文書ｄ_ｉを確率Ｐ（ｄ_ｉ）により選択し、次に主題Ｚ_ｋを確率Ｐ（Ｚ_ｋ｜ｄ_ｉ）により選択して、最後に単語Ｗ_ｊを確率Ｐ（Ｗ_ｊ｜Ｚ_ｋ）により生成する。そして、これをベイズ確率で表現すると、次の通りである。

【0036】

【数4】

【0037】

そのための目的関数は、以下のように定義することができる。

【0038】

【数5】

【0039】

ＰＬＳＩは、ｍ個の単語、ｎ個の文書、ｋ個の主題（トピック）について尤度関数を最大化することを目標とする。目的関数（尤度関数）は、文書で登場した単語が多項分布属性を有しているので多項分布式を適用し、目的関数においてｎ（ｗ_ｊ，ｄ_ｉ）は、ｊ番目の文書にｉ番目の単語が登場した回数を示す。

【0040】

従って、前記のような目的関数が最大となる値を得るために、ＥＭアルゴリズムを繰り返し適用する。

【0041】

ＥＭアルゴリズムは、期待値最大化アルゴリズム（ｅｘｐｅｃｔａｔｉｏｎ−ｍａｘｉｍｉｚａｔｉｏｎａｌｇｏｒｉｔｈｍ）であって、観測されていない潜在変数に依存する確率モデルにおいて最大尤度（ｍａｘｉｍｕｍｌｉｋｅｌｉｈｏｏｄ）や最大事後確率（ｍａｘｉｍｕｍａｐｏｓｔｅｒｉｏｒｉ；ＭＡＰ）を有する母数の推定値を求める反復アルゴリズムである。

【0042】

ＥＭアルゴリズムは、母数に関する推定値から対数尤度（ｌｏｇｌｉｋｅｌｉｈｏｏｄ）の期待値を求める期待値（Ｅ）ステップと、この期待値を最大化する母数推定値を求める最大化（Ｍ）ステップを交互に適用する。最大化ステップで計算した変数値は、次の期待値ステップの推定値として用いられる。

【0043】

前記目的関数に適用するＥＭアルゴリズムにおいて、Ｅ−ステップは、次の通りであり、

【数6】

Ｍ−ステップは、次のように表現することができる。

【0044】

【数7】

【0045】

図４は、ＰＬＳＩを用いた画像アノテーションを概略的に示す図である。

【0046】

図４に示すように、画像にアノテーションを行い、オブジェクトにタグ（ｔａｇ）を付けて画像タグリストを生成し、それに基づいてコンテキスト状況（ｃｏｎｔｅｘｔ）は遊び（ｐｌａｙｉｎｇ）であると判断する。前記画像タグリストは、ハスキー、犬、芝生、ボールからなり、コンテキスト状況から、ハスキーのタイプは犬であり、ハスキーがボールを持って遊んでおり、ハスキーは芝生の上にあり、芝生は緑であるといったコンテキストが成立する。

【0047】

図５には、本発明の提案するＰＬＳＩを用いた画像アノテーションモデルが示されている。

【0048】

前記アノテーションモデルにおいて、ＥＭアルゴリズムのための目的関数は、従来のＰＬＳＩと同じである。ｄ_ｉは画像、Ｗ_ｊは画像に表示されるオブジェクトを表し、Ｚ_ｋは潜在的主題（ｃｏｎｔｅｘｔ）を意味する。

【0049】

【数8】

【0050】

文書に用いられるＰＬＳＩと異なる点は、ｎ（ｗ_ｊ，ｄ_ｉ）が、ｊ番目の文書においてＩ番目の単語が登場する回数を示すのに対し、本モデルでは、ユーザが重みを与えることができる点である。例えば、従来のＰＬＳＩと同様に、１つの画像に表示されるオブジェクトの数で値を表現することができ、画像は、多くの単語を含む文書とは異なり、数個のオブジェクトのみを含むことができるので、画像においてオブジェクトが有する割合値を与えられるようにする。

【0051】

前記の目的関数を最大とするパラメータを求めるために、ＥＭアルゴリズムを次のように計算することができる。ＥＭアルゴリズムは、同時に最適の値を求めることのできない複数の変数を繰り返し計算して最適化する方法である。まず、すべての値をランダム値で初期化してから、１つのパラメータを固定した後、他のパラメータ値を更新し、このような過程を繰り返し行う。

【0052】

Ｅ−ステップ

【数9】

【0053】

Ｍ−ステップ

【数10】

【0054】

図６を参照して、前記のようなプロセスを適用して画像グラフを生成する方法をより詳細に説明すると、次の通りである。

【0055】

まず、画像を入力する。それから、従来のディープラーニングに基づくオブジェクト検出方法を用いて、入力された画像からオブジェクトを検出する。前記従来のディープラーニングに基づくオブジェクト検出方法は、前述した１−段階ディテクタまたは２−段階ディテクタからなる。

【0056】

その後、ＰＬＳＩを利用して、画像内のコンテキスト状況（ｃｏｎｔｅｘｔ）を検出する。図６に示すように、コンテキスト状況によって人というオブジェクトが選手オブジェクトに置き換えられ、ボールというオブジェクトは、バスケットボールというオブジェクトに具体化される。つまり、包括的な上位範囲のオブジェクトが、より詳細な下位範囲のオブジェクトに限定化される。

【0057】

その後、コンテキストを利用して、従来のディープラーニングに基づく関係検出、例えば、空間特徴を活用する空間関係検出とオントロジ方法を用いて、オブジェクト同士の関係を見出す。

【0058】

図６において、選手とボールの関係は、スロー（ｔｈｒｏｗｓ）、ホールド（ｈｏｌｄ）、キック（ｋｉｃｋ）、ヘッド（ｈｅａｄ）などのいくつかの意味的関係が成立可能であるが、ＰＬＳＩで見出した文脈は、バスケットボール（ｂａｓｋｅｔｂａｌｌ）であるため、入力された画像からすると、ホールドまたはスローである確率が高い。また、選手というオブジェクトとボールというオブジェクトとの間の距離を見ると、ホールドである確率が非常に高い。それから、前記ステップを経た後、入力画像に対するシーングラフを生成する。

【0059】

以上で説明したように、公知のシーングラフの生成方法では、主に画像内のオブジェクト（ｏｂｊｅｃｔ）を見出した後、オブジェクト同士の関係を見出している。しかしながら、本願発明に基づいたＰＬＳＩを用いる方法では、オブジェクトを見出した後、画像内のコンテキスト状況をＰＬＳＩで検出し、コンテキスト状況に合ったオブジェクトの意味関係を見出す方法である。公知の方法では、オブジェクト同士の単純な関係のみを考慮しているのに対し、本願発明に係る方法では、コンテキストに合ったオブジェクト同士の関係のみを考慮するため、意味的により具体的且つ正確な関係を導出することができるといった効果がある。

【0060】

以上のような技術的な構成によって本発明の技術的課題が達成されるものであり、ここでは限定された実施形態及び図面によって説明されているが、これらに限定されることなく、本発明が属する技術分野における通常の知識を有する者により、本発明の技術思想と以下に記載される特許請求の範囲の均等範囲内で様々な修正及び変形が可能であることは言うまでもない。

【要約】（修正有）

【課題】画像オブジェクト同士の単純な関係ではなく、画像オブジェクト同士の意味的関係を検出することができる方法を提供する。
【解決手段】方法は、画像を入力するステップと、ディープラーニングに基づくオブジェクト検出方法を用いて画像からオブジェクトを検出するステップと、ＰＬＳＩを利用して、画像内のコンテキスト状況を検出するステップと、ディープラーニングに基づく関係検出及びオントロジ方法を用いて、オブジェクト同士の関係を検出するステップと、入力画像に対するシーングラフを生成するステップと、からなる。
【選択図】図６

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

特許第6968966号(P6968966)IP Force 特許公報掲載プロジェクト 2022.1.31 β版