IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッドの特許一覧

特許7121819画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム
<>
  • 特許-画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム 図1
  • 特許-画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム 図2
  • 特許-画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム 図3
  • 特許-画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム 図4
  • 特許-画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム 図5
  • 特許-画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-08-09
(45)【発行日】2022-08-18
(54)【発明の名称】画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220810BHJP
   G06F 16/58 20190101ALI20220810BHJP
   G06F 16/532 20190101ALI20220810BHJP
【FI】
G06T7/00 300F
G06F16/58
G06F16/532
【請求項の数】 15
【外国語出願】
(21)【出願番号】P 2021030712
(22)【出願日】2021-02-26
(65)【公開番号】P2021163477
(43)【公開日】2021-10-11
【審査請求日】2021-03-17
(31)【優先権主張番号】202010260503.8
(32)【優先日】2020-04-03
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】512015127
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
(74)【代理人】
【識別番号】110000578
【氏名又は名称】名古屋国際特許業務法人
(72)【発明者】
【氏名】チャン ジャオ
【審査官】千葉 久博
(56)【参考文献】
【文献】特開2016-167236(JP,A)
【文献】特開2004-287670(JP,A)
【文献】米国特許出願公開第2019/0294705(US,A1)
【文献】国際公開第2008/152805(WO,A1)
【文献】服部峻, 外2名,“文書中の地物画像を言語的記述で代替するための地物の外観情報のWebからの抽出”,情報処理学会論文誌,日本,社団法人情報処理学会,2007年06月15日,第48巻, 第SIG 11(TOD 34)号,p.69-82
【文献】Kraisak Kesorn, 外1名,"Semantic representation of text captions to aid sport image retrieval",2008 International Symposium on Intelligent Signal Processing and Communications Systems,米国,IEEE,2009年02月11日
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06F 16/58
G06F 16/532
(57)【特許請求の範囲】
【請求項1】
参照画像情報ライブラリから目標画像にマッチする参照画像の記述情報を取得することと、
前記参照画像の記述情報から、前記参照画像に関連付けられたオブジェクトを識別する複数の実体を確定することと、
前記参照画像情報ライブラリに基づいて、前記複数の実体の特徴パラメータを確定することと、
前記複数の実体から、同じ実体からなる実体の組を少なくとも1組確定することと、
前記少なくとも1組のそれぞれに対し、当該組の実体の特徴パラメータの統計結果を確定することであって、前記統計結果は、当該組の実体の特徴パラメータの合計値または平均値であることと、
前記統計結果に基づいて、各組の実体が前記目標画像におけるオブジェクトを識別する正確度を確定することと、
前記少なくとも1組の実体から、対応する正確度が閾値よりも高い1組の目標実体を選択することと、
前記1組の目標実体に基づいて、前記目標画像の記述情報を生成することと、を含む画像処理方法。
【請求項2】
参照画像情報ライブラリから目標画像にマッチする参照画像の記述情報を取得することと、
前記参照画像の記述情報から、前記参照画像に関連付けられたオブジェクトを識別する複数の実体を確定することと、
前記参照画像情報ライブラリに基づいて、前記複数の実体の特徴パラメータを確定することと、
前記特徴パラメータに基づいて、前記複数の実体のそれぞれが前記目標画像におけるオブジェクトを識別する正確度を確定することと、
前記複数の実体から、対応する正確度が閾値よりも高い目標実体を選択することと、
前記目標実体に基づいて、前記目標画像の記述情報を生成することと、を含む画像処理方法。
【請求項3】
前記方法は、
ネットワーク画像、ユーザ入力画像、及び外部記憶装置内の画像のうちの少なくとも1つの画像の記述情報を含む補足画像情報を取得することと、
前記補足画像情報に基づいて前記参照画像情報ライブラリを更新することと、
を含む請求項1または2に記載の方法。
【請求項4】
前記少なくとも1つの実体を確定することは、
固有表現識別技術を用いて前記参照画像の記述情報から前記複数の実体を取得することを含む請求項1または2に記載の方法。
【請求項5】
前記特徴パラメータを確定することは、
前記参照画像情報ライブラリから前記参照画像の画像ソースに関連する情報を確定することと、
前記参照画像の画像ソースに関連する情報に基づいて、
前記複数の実体が位置する前記画像ソースのコンテンツが表示された回数と、
前記画像ソースのコンテンツの閲覧回数と、
前記画像ソースのコンテンツのクリック回数と、
前記複数の実体の、前記画像ソースのコンテンツにおける出現回数と、
前記複数の実体の前記画像ソースのコンテンツにおける位置に対応する重みと、
前記複数の実体と前記目標画像とのマッチング度と、
前記複数の実体が位置する前記画像ソースのコンテンツと前記目標画像とのマッチング度と、のうちの少なくとも1つを確定することと、を含む請求項1または2に記載の方法。
【請求項6】
前記記述情報は、前記参照画像のテキスト情報および構造化情報の少なくとも一方を含む請求項1または2に記載の方法。
【請求項7】
参照画像情報ライブラリから目標画像にマッチする参照画像の記述情報を取得するように構成される参照画像記述情報取得モジュールと、
前記参照画像の記述情報から、前記参照画像に関連付けられたオブジェクトを識別する複数の実体を確定するように構成される実体確定モジュールと、
前記参照画像情報ライブラリに基づいて、前記複数の実体の特徴パラメータを確定するように構成される特徴パラメータ確定モジュールと、
前記複数の実体から、同じ実体からなる実体の組を少なくとも1組確定するように構成される実体組確定モジュールと、
前記少なくとも1組のそれぞれに対し、当該組の実体の特徴パラメータの統計結果を確定するように構成される統計結果確定モジュールであって、前記統計結果は、当該組の実体の特徴パラメータの合計値または平均値である、モジュールと、
前記統計結果に基づいて、各組の実体が前記目標画像におけるオブジェクトを識別する正確度を確定するように構成される正確度確定モジュールと、
前記複数の実体から、対応する正確度が閾値よりも高い目標実体を選択するように構成される目標実体組選択モジュールと、
前記目標実体に基づいて、前記目標画像の記述情報を生成するように構成される目標画像記述情報生成モジュールと、を含む画像処理装置。
【請求項8】
参照画像情報ライブラリから目標画像にマッチする参照画像の記述情報を取得するように構成される参照画像記述情報取得モジュールと、
前記参照画像の記述情報から、前記参照画像に関連付けられたオブジェクトを識別する複数の実体を確定するように構成される実体確定モジュールと、
前記参照画像情報ライブラリに基づいて、前記複数の実体の特徴パラメータを確定するように構成される特徴パラメータ確定モジュールと、
前記特徴パラメータに基づいて、前記複数の実体のそれぞれが前記目標画像におけるオブジェクトを識別する正確度を確定するように構成される正確度確定モジュールと、
前記複数の実体から、対応する正確度が閾値よりも高い目標実体を選択するように構成される目標実体選択モジュールと、
前記目標実体に基づいて、前記目標画像の記述情報を生成するように構成される記述情報生成モジュールと、を含む画像処理装置。
【請求項9】
ネットワーク画像、ユーザ入力画像、及び外部記憶装置内の画像のうちの少なくとも1つの画像の記述情報を含む補足画像情報を取得するように構成される補足画像情報取得モジュールと、
前記補足画像情報に基づいて前記参照画像情報ライブラリを更新するように構成される参照画像情報ライブラリ更新モジュールと、
をさらに含む請求項7または8に記載の装置。
【請求項10】
前記実体確定モジュールは、
固有表現識別技術を用いて前記参照画像の記述情報から前記少なくとも1つの実体を取得するように構成される実体取得モジュールを含む請求項7または8に記載の装置。
【請求項11】
前記特徴パラメータ確定モジュールは、
前記参照画像情報ライブラリから前記参照画像の画像ソースに関連する情報を確定するように構成される画像ソース関連情報確定モジュールと、
前記参照画像の画像ソースに関連する情報に基づいて、
前記複数の実体が位置する前記画像ソースのコンテンツが表示された回数と、
前記画像ソースのコンテンツの閲覧回数と、
前記画像ソースのコンテンツのクリック回数と、
前記複数の実体の、前記画像ソースのコンテンツにおける出現回数と、
前記複数の実体の前記画像ソースのコンテンツにおける位置に対応する重みと、
前記複数の実体と前記目標画像とのマッチング度と、
前記複数の実体が位置する前記画像ソースのコンテンツと前記目標画像とのマッチング度と、のうちの少なくとも1つを確定するように構成される特徴パラメータ情報確定モジュールと、
を含む請求項7または8に記載の装置。
【請求項12】
前記記述情報は、前記参照画像のテキスト情報および構造化情報の少なくとも一方を含む請求項7または8に記載の装置。
【請求項13】
1つまたは複数のプロセッサと、
1つまたは複数のプログラムを格納するための記憶装置であって、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項1~のいずれか1項に記載の方法を実現させる記憶装置と、を備える電子機器。
【請求項14】
コンピュータプログラムが格納されるコンピュータ可読記憶媒体であって、
前記プログラムがプロセッサによって実行されると、請求項1~のいずれか1項に記載の方法を実現する、コンピュータ可読記憶媒体。
【請求項15】
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項1~のいずれか一項に記載の方法を実現する、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の実施形態は、主に人工知能の分野に関し、より詳細には、画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラムに関する。
【背景技術】
【0002】
ネットワーク閲覧により見られた画像又は生活中に見られた物事に対して、ユーザは画像を利用して検索して見られた画像情報又は物事の記述情報(例えば、名称)をさらに調査するニーズがある可能性がある。具体的には、ユーザが国を知らない国旗、名前を知らない建物、絵画作品、有名人などを発見した場合、既知の画像に基づいてその画像の記述情報を確定し、その記述情報を回答としてユーザにフィードバックする必要がある。従来の画像の記述情報を確定する方式は、一般的に画像及び/又は情報ソースの急速な発展変化(例えば、リアルタイム変化のインターネット知識更新)に対応することができず、固定又は特定の知識集合に限定され、画像の記述情報が十分ではない。
【発明の概要】
【0003】
本開示の例示的な実施形態によれば、画像処理のための解決策が提供される。
【0004】
本開示の第1態様において、画像処理方法を提供する。該方法は参照画像情報ライブラリから目標画像とマッチする参照画像の記述情報を取得することを含むことができる。該方法は、参照画像の記述情報から、前記参照画像に関連付けられたオブジェクトを識別する少なくとも1つの実体を確定することをさらに含む。かつ、該方法は、少なくとも1つの実体に基づいて目標画像の記述情報を生成することをさらに含むことができる。
【0005】
本開示の第2態様において、参照画像情報ライブラリから目標画像にマッチする参照画像の記述情報を取得するように構成される参照画像記述情報取得モジュールと、前記参照画像の記述情報から、前記参照画像に関連付けられたオブジェクトを識別する少なくとも1つの実体を確定するように構成される実体確定モジュールと、前記少なくとも1つの実体に基づいて、前記目標画像の記述情報を生成するように構成される目標画像記述情報生成モジュールと、を含む画像処理装置を提供する。
【0006】
本開示の第3態様において、1つまたは複数のプロセッサと、
1つまたは複数のプログラムを格納するための記憶装置であって、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに本開示の第1態様に記載の方法を実現させる記憶装置と、を備える電子機器を提供する。
【0007】
本開示の第4態様において、コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、該プログラムがプロセッサによって実行されると、本開示の第1態様に記載の方法を実現するコンピュータ可読記憶媒体を提供する。
【0008】
本開示の第5態様において、コンピュータプログラムであって、前記コンピュータプログラムがプロセッサにより実行されると、本開示の第1態様に記載の方法を実現する、コンピュータプログラムを提供する。
【0009】
発明の概要に記載された内容は、本開示の実施形態のかなめ又は重要な特徴を限定することを意図するものではなく、本開示の範囲を限定するものでもない。本発明の他の特徴は、以下の説明によって容易に理解されるであろう。
【図面の簡単な説明】
【0010】
図面を踏まえて以下の詳細な説明を参照すれば、本開示の各実施形態の上述したもの並びに他の特徴、利点及び態様は、より明らかになるであろう。添付図面において、同一又は類似の図面符号は、同一又は類似の要素を表す。
図1】本開示のいくつかの実施形態が実現可能な例示的な環境を示す模式図である。
図2】本開示の実施形態に係る画像処理のためのプロセスを示すフローチャートである。
図3】本開示の実施形態に係る目標画像の記述情報を生成するためのプロセスを示すフローチャートである。
図4】本開示の実施形態に係る目標画像の記述情報を生成するための他のプロセスを示すフローチャートである。
図5】本開示の実施形態に係る目標画像を処理するための装置のブロック図である。
図6】本開示の複数の実施形態を実施することができるコンピューティングデバイスを示すブロック図である。
【発明を実施するための形態】
【0011】
以下、添付図面を参照しながら本開示の実施形態を更に詳しく説明する。本発明のいくつかの実施例が図面に示されているが、本発明は様々な形態で具現化されてもよく、本明細書に記載の実施例に限定されると解釈されるべきではなく、逆に、これらの実施例は、本発明をより明確かつ完全に理解するために提供されていることを理解されたい。なお、本開示の図面及び実施形態は例示的なものにすぎず、本開示の保護範囲を限定するものではない。
【0012】
本開示の実施形態の説明では、用語「…を含む」およびそれに類似する用語は、「…を含むがそれらに限定されない」という非限定の表現として理解されるべきである。「…に基づいて」という用語は、「…に少なくとも部分的に基づいて」と理解されるべきである。「1つの実施形態」または「該実施形態」という用語は、「少なくとも1つの実施形態」と理解されるべきである。なお、「第1」、「第2」等の用語は、異なるオブジェクトまたは同一のオブジェクトを意味することができる。以下では、他の明確か暗黙的な定義がさらに含まれ得る。
【0013】
画像に基づいて該画像の記述情報を確定する過程において、一般的に分類モデルを訓練する方式により、訓練された分類モデルを利用してユーザが検索しようとする画像の記述情報を確定することができる。しかしながら、インターネットの知識更新はリアルタイムに変化して発展するため、絶えず新しい知識に基づいて分類モデルを訓練する必要があり、これは一般的に大きな人的資源コストを必要とする。
【0014】
また、さらに簡単な検索の方式により、シソーラス及びそれに対応する画像を収集することができ、そのうちの1つの画像がユーザが検索したい画像とマッチする場合、該画像に対応するシソーラスが回答として選択されてユーザにフィードバックされる。しかしながら、大きな人的資源コストをかけないと、この方式は依然としてリアルタイムに更新されたインターネット知識に対応することができない。また、シソーラスは一般的に比較的統一的な実体名詞に関連するため、確定された記述情報が不十分である可能性もある。
【0015】
本開示の実施形態によれば、画像処理の改良方案が提案される。この方案では、ユーザが入力した目標画像とマッチする参照画像が存在するウェブページのテキスト情報抽出に関する実体を用いて目標画像を記述する。具体的には、まず画像ソース及び/又は情報ソースに基づいて構築された参照画像情報ライブラリを取得することができ、参照画像情報ライブラリには少なくとも参照画像及びその記述情報が含まれる。目標画像と参照画像情報ライブラリにおける参照画像を比較することにより、目標画像とマッチする参照画像を見つけることができ、さらに該参照画像の記述情報を確定することができる。次に、確定された記述情報から少なくとも1つの実体を取得し、少なくとも1つの実体に基づいて目標画像の記述情報を確定することができる。このようにすると、絶えずに更新される画像及び情報ソースに基づいて正確な記述情報を十分に提供することができ、それにより人的資源コストを効果的に節約し、且つユーザ体験を顕著に向上することができる。
【0016】
図1は、本開示のいくつかの実施形態が実現可能な例示的な環境100を示す模式図である。この例示的な環境100において、目標画像110はユーザが入力した検索しようとする画像であってもよく、例えばユーザがネットワーク上の画像をコピー又はスナップショットして得られた画像であってもよく、又はユーザがある被写体を撮影した写真であってもよい。別の例として、目標画像110は、後続の記述情報の生成のための、ある画像処理システムによって自動的に取得されたネットワーク画像または外部記憶装置内の画像であってもよい。上記の実施形態は本開示を説明するためのものであり、本開示を具体的に限定するものではない。
【0017】
図1に示すように、目標画像110の記述情報を確定するために、目標画像110はコンピューティングデバイス120に入力される。いくつかの実施形態では、コンピューティングデバイス120は、パーソナルコンピュータ、サーバコンピュータ、携帯型またはノート型の装置、モバイルデバイス(例えば、携帯電話、パーソナルデジタルアシスタント(PDA)、メディアプレーヤ等)、マルチプロセッサシステム、消費電子製品、小型コンピュータ、大型コンピュータ、またはこれらのシステムまたは装置のいずれかを含む分散計算環境などが挙げられるが、これらに限られない。
【0018】
いくつかの実施形態では、コンピューティングデバイス120は、通信接続された参照画像情報ライブラリ130から目標画像110とマッチする参照画像の記述情報を取得し、該参照画像の記述情報に基づいて目標画像110の記述情報140を確定するために、クラウド側に位置してもよい。参照画像情報ライブラリ130には、複数の参照画像とそれに対応する記述情報が含まれる。図1に示すように、参照画像情報ライブラリ130には、一例として、複数の情報集合132、134および136が含まれており、各情報集合には、1つの参照画像とそれに対応する記述情報が格納されている。参照画像の記述情報は、参照画像のテキスト情報および構造化情報の少なくとも一方を含み得る。
【0019】
一例として、図1に示すように、コンピューティングデバイス120が、複数の情報集合132、134、および136から目標画像110とマッチする参照画像151を見つけると、対応する情報集合から参照画像151の記述情報を取得し、その記述情報から複数の実体、例えば実体1、実体2、実体3などを抽出することができる。さらに、コンピューティングデバイス120は、これらの実体から、それらのそれぞれの複数の特徴パラメータ、例えば、特徴パラメータA、特徴パラメータB、特徴パラメータCなどを統計する。
【0020】
コンピューティングデバイス120の処理を経て、上記実体及び特徴パラメータに基づいて目標画像110の記述情報140を確定し、且つそれを処理結果としてユーザにフィードバックすることができる。一例として、記述情報140は、ユーザが目標画像110の関連知識情報を知りたいという要求を満たすように、目標画像110に関連するオブジェクトの特定の名称を記述するために使用されてもよい。
【0021】
図1に示される環境は、例示的なものに過ぎず、本開示を特定的に限定するものではないことを理解されたい。
【0022】
図2は、本開示の実施形態に係る画像処理のためのプロセス200を示すフローチャートである。いくつかの実施形態では、方法200は、図6に示す装置において実現されてもよい。以下、図1を参照して、本開示の実施形態に係る目標画像110の処理プロセス200について説明する。理解を容易にするために、以下の説明に言及する特定のデータはいずれも例示的なものであり、本開示の保護範囲を限定するものではない。
【0023】
ステップ202において、コンピューティングデバイス120は、参照画像情報ライブラリ130から目標画像110にマッチする参照画像の記述情報を取得することができる。一例として、図1に示すように、情報集合134内の参照画像が目標画像110とマッチしていると確定された場合、情報集合134から対応する記述情報を取得する。本開示の実施形態によれば、参照画像の記述情報は、参照画像のテキスト情報および構造化情報のうちの少なくとも一方を含み得る。これにより、参照画像とその全ての関連テキスト情報を関連づけることができ、後続の実体ワードの抽出プロセスに役立つ。一例として、インターネット上のすべてのコンテンツをネットワーククローラなどの知識獲得技術を介してスクレイピングし、ウェブページ内の画像、画像周辺のテキスト情報、およびウェブページの構造化情報、例えば<title>tagのテキストコンテンツ、特定のウェブサイトの可視タイトルなどを抽出することができる。画像周辺のテキスト情報とウェブページの構造化情報は、参照画像の記述情報を構成する。これらの情報は、参照画像情報ライブラリ130に対応して格納され、ネットワーククローラなどの知識獲得技術に基づいてリアルタイムまたは定期的に更新される。参照画像情報ライブラリ130の画像は参照画像と呼ばれ、該画像が位置するウェブページは画像ソース(又は「ソースファイル」)と呼ばれる。
【0024】
いくつかの実施形態では、目標画像110が受信された後、コンピューティングデバイス120は、目標画像110の特徴ベクトルを抽出し、抽出された特徴ベクトルを参照画像リポジトリ130内の各画像の特徴ベクトルと照合することができる。参照画像情報ライブラリ130では一致度が所定の閾値よりも大きい画像が見つかった場合には、その画像を参照画像とし、その参照画像に対応する記述情報を取得する。参照画像を確定する上述の方法は、例示的なものに過ぎず、本開示を具体的に限定するものではないことを理解されたい。例えば、参照画像の記述情報に加えて、該画像が位置する画像ソースを取得することもできる。このようにすることで、目標画像110とマッチする参照画像とその記述情報を迅速に確定することができ、該参照画像の記述情報への次の処理プロセスに役立つ。
【0025】
ステップ204において、コンピューティングデバイス120は、上述の参照画像の記述情報から、参照画像に関連付けられたオブジェクトを識別する少なくとも1つの実体を確定することができる。一例として、固有表現識別(NER)技術を用いて参照画像の記述情報から少なくとも1つの実体を取得することができる。一例として、参照画像の記述情報は、参照画像のテキスト情報および構造化情報である。NER技術によってこれらの情報から複数の実体、例えば複数の実体名詞を抽出して、候補の実体名詞集合を形成することができる。このようにして、目標画像110に関連する実体ワードを、人手を介さずに候補として取得することができる。
【0026】
好ましくは、これらの実体名詞は上記ウェブページのスクレイピング記憶を行う時にNERを用いて抽出して記憶することができる。代替的に、または追加的に、これらの実体名詞は、参照画像の実体として確定された後にNERを使用して、抽出されてもよい。
【0027】
ステップ206において、コンピューティングデバイス120は、上記少なくとも1つの実体に基づいて、目標画像110の記述情報140を生成することができる。なお、生成された記述情報140は、上記参照画像の記述情報とは全く異なる。上記参照画像の記述情報は画像周辺のテキスト情報及びウェブページの構造化情報を含み、記述情報140は、目標画像110を簡単に記述するための1つ又は複数の実体ワードのみを含み得る。コンピューティングデバイス120は、目標画像110の記述情報140を様々な方法で確定することができることも理解されるべきである。例えば、図3は、本開示の実施形態による、目標画像110の記述情報140を生成するためのプロセス300のフローチャートを示す。理解を容易にするために、以下の説明に言及する具体的なプロセスはいずれも例示的であり、本開示の保護範囲を限定するものではない。
【0028】
ステップ302において、複数の実体があると判定されると、コンピューティングデバイス120は、参照画像情報ライブラリ130に基づいて、これらの実体の特徴パラメータを確定することができる。これらの実体の特徴パラメータは、それらが存在する画像ソースのコンテンツに表示された回数、該画像ソースのコンテンツの閲覧回数、該画像ソースのコンテンツのクリック回数、画像ソースのコンテンツにおけるこれらの実体の出現回数、及び画像ソースのコンテンツにおけるこれらの実体の位置に対応する重みのうちの少なくとも1つのパラメータを含むことができる。
【0029】
ステップ304において、コンピューティングデバイス120は、上記複数の実体から、同じ実体である少なくとも1組の実体を確定することができる。一例として、複数の参照画像及びその記述情報が確定された後、これらの記述情報から複数の実体を確定することができる。各参照画像の相関関係により、確定された複数の実体の中に同じ実体が存在する。したがって、同じ実体を1組の実体として確定することができる。
【0030】
ステップ306において、コンピューティングデバイス120は、上記少なくとも1組の実体の対応する特徴パラメータの統計結果を確定することができる。一例として、コンピューティングデバイス120は、上記1組の実体の対応する特徴パラメータの統計結果、例えば、合計値、平均値などの統計情報を確定することができる。例えば、該1組の実体が位置する画像ソースのコンテンツに表示された回数の和、これらの実体が画像ソースのコンテンツにおける出現回数の和、及びこれらの実体がその画像ソースのコンテンツにおける位置に対応する重みの平均値等を計算することができる。当然のことながら、上記計算方法は例示的なものに過ぎず、本開示を限定するものではない。
【0031】
その後、コンピューティングデバイス120は、上記統計結果に基づいて目標画像110の記述情報140を生成することができる。このように、人工マーキングの作業を主に記述情報生成モデルの訓練部分のみに集中することができ、それにより人的資源コストを低減できる。記述情報140は、様々な方法で生成することができることを理解されたい。一例として、ステップ308において、上記少なくとも1組の実体の、目標画像110内のオブジェクトを識別する正確度を確定する。正確度とは、上記少なくとも1組の実体と目標画像110内のオブジェクトとのマッチング度を示すために使用されてもよいし、上記少なくとも1組の実体が目標画像110内のオブジェクトを正確に識別する確率を示すために使用されてもよいことを理解されたい。一例として、このプロセスは、スコアリングモデルを訓練することによって実現され得る。例えば、該特徴訓練に基づく勾配ブースティング決定木(GBDT,Gradient Boosting Decision Tree)アルゴリズムを使用して、各実体が目標画像110内のオブジェクトと関連しているかどうかをスコア化する。スコアが高いほど、実体が目標画像110内のオブジェクトとのマッチング度合いが高いか、または実体が目標画像110内のオブジェクトを正しく識別する確率が高いと示される。
【0032】
その後、ステップ310において、コンピューティングデバイス120は、上記少なくとも1組の実体から、対応する正確度が閾値よりも高い1組の目標実体を選択することができる。一例として、各実体のスコアに基づいて、より高いまたは最も高いスコアの実体を選択することができる。最も高いスコアを有する実体ワードのスコアが設定された閾値よりも低ければ、今回の検索において正しい実体がないと判定し、そうでなければより高い又は最も高いスコアを有する実体を出力する。さらに、ステップ312において、コンピューティングデバイス120は、該組の目標実体に基づいて、目標画像110の記述情報140を生成することができる。
【0033】
このようにして、訓練されたスコアリングモデルに基づいて、複数の参照画像に関連する記述情報の中から、目標画像110に最も関連する実体ワードを確定することができ、それによって、目標画像110の最も正確な記述情報140をユーザに提供することができる。また、人工マーキングの作業を主にスコアリングモデルの訓練部分に集中するため、それにより人的資源コストを低減できる。
【0034】
さらに、コンピューティングデバイス120は、以下のようにして、目標画像110の記述情報140を確定することもできる。図4は、本開示の実施形態による、目標画像110の記述情報140を生成するための別のプロセス400のフローチャートを示す。理解を容易にするために、以下の説明に言及する具体的なプロセスはいずれも例示的であり、本開示の保護範囲を限定するものではない。
【0035】
ステップ402において、複数の実体があると判定された場合、コンピューティングデバイス120は、参照画像情報ライブラリ130に基づいて、これらの実体の特徴パラメータを確定することができる。これらの実体の特徴パラメータは、それらが存在する画像ソースのコンテンツに表示された回数、該画像ソースのコンテンツの閲覧回数、該画像ソースのコンテンツのクリック回数、画像ソースのコンテンツにおけるこれらの実体の出現回数、及び画像ソースのコンテンツにおけるこれらの実体の位置に対応する重みのうちの少なくとも1つのパラメータを含むことができる。
【0036】
ステップ404において、コンピューティングデバイス120は、上記特徴パラメータに基づいて、これらの実体の各々が目標画像110内のオブジェクトを識別する正確度を確定することができる。一例として、このプロセスは、深層学習モデルを訓練することによって実現され得る。例えば、長短期記憶ネットワーク(LSTM)またはTransformerモデルなどのシーケンスモデルを使用して、各実体の特徴パラメータに基づいて、各実体が目標画像110内のオブジェクトにヒットする確率を予測する。
【0037】
ステップ406において、コンピューティングデバイス120は、上記複数の実体から、対応する正確度が閾値よりも高い目標実体を選択することができる。一例として、ヒット確率がより高いまたは最も高い実体を選択することができる。高い又は最も高いヒット確率が設定された閾値未満であれば、今回の検索に正しい実体がないと判定し、そうでなければ高い又は最も高いヒット確率を有する実体を出力する。さらに、ステップ408において、コンピューティングデバイス120は、該目標実体に基づいて、目標画像110の記述情報140を生成することができる。
【0038】
以上のようにして、訓練された学習モデルに基づいて、複数の参照画像に関連付けられた記述情報の中から、目標画像110に最も関連する実体ワードを確定することができ、目標画像110の最も正確な記述情報140をユーザに提供することができる。また、人工マーキングの作業を主に学習モデルの訓練部分に集中するため、それにより人的資源コストを低減できる。
【0039】
さらに、いくつかの実施形態では、コンピューティングデバイス120は、参照画像情報ライブラリ130を更新することもできる。この更新プロセスは、種々の方式で実現することができる。一実施形態では、コンピューティングデバイス120は、ネットワーク画像、ユーザ入力画像、および外部記憶装置内の画像などの様々な補足画像情報を取得し、そのような補足画像情報に基づいて参照画像情報ライブラリ130を更新することができる。ネットワーク画像は、例えば、インターネットまたは他のネットワークを介して取得されネットワークデバイスに記憶された画像であってもよい。ユーザ入力画像は、例えば、ユーザが携帯電話、カメラなどの端末装置を介して撮影しコンピューティングデバイス120に送信した画像であってもよい。外部記憶装置内の画像は、例えば、リムーバブル記憶装置、クラウド記憶装置等に記憶された画像であってもよい。具体的には、参照画像情報ライブラリは、定期的にまたは随時に更新してもよい。例えば、参照画像情報ライブラリは、ネットワーク画像、ユーザ入力画像、および外部記憶装置内の画像に基づいて更新されてもよい。参照画像情報ライブラリの作成および更新プロセスは、記述情報を確定するプロセス全体にわたって、ネットワーククローラなどの知識獲得技術によって自動的かつ定期的に実現されてもよい。確定された実体に基づいて目標画像の記述情報を生成するプロセスは人工訓練のモデルによって実現することができる。このようにして、参照画像情報ライブラリは、絶えず変化し、迅速に更新されるインターネットの知識集合に基づいて、不要な手動介入なしに更新され得る。
【0040】
いくつかの実施形態では、特徴パラメータは、以下のように確定することができる。まず、コンピューティングデバイス120は、参照画像情報ライブラリ130から参照画像の画像ソースに関する情報を確定することができる。その後、コンピューティングデバイス120は、該参照画像の画像ソースに関する情報に基づいて、これらの実体の特徴パラメータを確定することができる。これらの実体の特徴パラメータは、それらが存在する画像ソースのコンテンツに表示された回数、該画像ソースのコンテンツの閲覧回数、該画像ソースのコンテンツのクリック回数、画像ソースのコンテンツにおけるこれらの実体の出現回数、これらの実体の画像ソースのコンテンツにおける位置に対応する重み、実体と目標画像とのマッチング度、実体が所在する画像ソースのコンテンツと目標画像とのマッチング度のうちの少なくとも1つのパラメータを含むことができる。このようにして、個々の実体と目標画像110との関連性を異なる次元で検出することができ、それによって正確な記述情報140を確定するためのより包括的な評価体系を提供する。特徴パラメータを確定する上記の方法は、単なる例示であり、本開示の範囲を限定するものではないことを理解されたい。
【0041】
理解されるように、本開示の画像処理方式の従来の画像認識方式に対する利点は、ネットワークに新たな実体情報(例えば、新スター、新建築、新製品等)が現れるたびに、本開示の画像処理方式は従来の画像認識方式のように画像認識モデルを手動で訓練する必要がない。なぜならば、本開示は、ネットワーククローラなどの知識獲得技術を用いて参照画像情報ライブラリ130を更新し、訓練されたモデルを用いて参照画像の記述情報から実体を抽出し、訓練されたモデルを用いて実体の統計結果に基づいて目標画像110の記述情報140を生成するからである。本開示の全てのモデルは、新しい実体情報が現れるたびに再訓練する必要はない。それにより、多くの人工介入を行わない前提で絶えず更新されたインターネットの知識集合を十分にカバーすることによりユーザーに正確な記述情報を確定することができ、それにより人的資源コストを節約し、且つユーザー体験を向上させる。
【0042】
図5は、本開示の実施形態に係る目標画像110を処理するための装置500のブロック図を示す。図5に示すように、装置500は、参照画像情報ライブラリから目標画像にマッチする参照画像の記述情報を取得するように構成される参照画像記述情報取得モジュール502と、参照画像の記述情報から、参照画像に関連付けられたオブジェクトを識別する少なくとも1つの実体を確定するように構成される実体確定モジュール504と、少なくとも1つの実体に基づいて、目標画像の記述情報を生成するように構成される目標画像記述情報生成モジュール506と、を含む。
【0043】
いくつかの実施形態において、装置500は、ネットワーク画像、ユーザ入力画像、及び外部記憶装置内の画像のうちの少なくとも1つの画像の記述情報を含む補足画像情報を取得するように構成される補足画像情報取得モジュール(図示せず)と、補足画像情報に基づいて参照画像情報ライブラリを更新するように構成される参照画像情報ライブラリ更新モジュール(図示せず)と、を含み得る。
【0044】
いくつかの実施形態において、実体確定モジュール504は、
固有表現識別技術を用いて参照画像の記述情報から少なくとも1つの実体を取得するように構成される実体取得モジュール(図示せず)を含み得る。
【0045】
いくつかの実施形態において、少なくとも1つの実体は、複数の実体を含み、目標画像記述情報生成モジュール506は、前記参照画像情報ライブラリに基づいて、前記複数の実体の特徴パラメータを確定するように構成される特徴パラメータ確定モジュール(図示せず前記複数の実体から、同じ実体である少なくとも1組の実体を確定するように構成される実体組確定モジュール(図示せず)と)と、前記少なくとも1組の実体の対応する特徴パラメータの統計結果を確定するように構成される統計結果確定モジュール(図示せず)と、前記統計結果に基づいて、前記少なくとも1組の実体が前記目標画像におけるオブジェクトを識別する正確度を確定するように構成される正確度確定モジュール(図示せず)と、前記少なくとも1組の実体から、対応する正確度が閾値よりも高い1組の目標実体を選択するように構成される目標実体組選択モジュール(図示せず)と、前記1組の目標実体に基づいて、前記目標画像の記述情報を生成するように構成される記述情報生成モジュール(図示せず)とを含み得る。
【0046】
いくつかの実施形態において、少なくとも1つの実体は、複数の実体を含み、目標画像記述情報生成モジュール506は、前記参照画像情報ライブラリに基づいて、前記複数の実体の特徴パラメータを確定するように構成される特徴パラメータ確定モジュール(図示せず)と、
前記特徴パラメータに基づいて、前記複数の実体のそれぞれが前記目標画像におけるオブジェクトを識別する正確度を確定するように構成される正確度確定モジュール(図示せず)と、前記複数の実体から、対応する正確度が閾値よりも高い目標実体を選択するように構成される目標実体選択モジュール(図示せず)と、前記目標実体に基づいて、前記目標画像の記述情報を生成するように構成される記述情報生成モジュール(図示せず)と、を含み得る。
【0047】
いくつかの実施形態において、特徴パラメータ確定モジュールは、前記参照画像情報ライブラリから前記参照画像の画像ソースに関連する情報を確定するように構成される画像ソース関連情報確定モジュール(図示せず)と、前記参照画像の画像ソースに関連する情報に基づいて、前記少なくとも1つの実体が位置する前記画像ソースのコンテンツが表示された回数と、前記画像ソースのコンテンツの閲覧回数と、前記画像ソースのコンテンツのクリック回数と、前記少なくとも1つの実体の、前記画像ソースのコンテンツにおける出現回数と、前記少なくとも1つの実体の前記画像ソースのコンテンツにおける位置に対応する重みと、前記少なくとも1つの実体と前記目標画像とのマッチング度と、前記少なくとも1つの実体が位置する前記画像ソースのコンテンツと前記目標画像とのマッチング度と、の少なくとも1つを確定するように構成される特徴パラメータ情報確定モジュール(図示せず)と、を含み得る。
【0048】
いくつかの実施形態において、記述情報は、参照画像のテキスト情報および構造化情報の少なくとも一方を含む。
【0049】
図6は、本開示の複数の実施形態を実施することができるコンピューティングデバイス600を示すブロック図である。装置600は、図1のコンピューティングデバイス120を実施するために使用可能である。図に示すように、装置600は、読み出し専用メモリ(ROM)602に記憶されているコンピュータプログラム命令又は記憶ユニット608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラム命令によって様々な適当な動作及び処理を実行することができる中央処理装置(CPU)601を備える。RAM603には、装置600の動作に必要な様々なプログラム及びデータが更に格納されることが可能である。CPU601、ROM602及びRAM603は、バス604を介して互いに接続されている。入力/出力(I/O)インターフェース605もバス504に接続されている。
【0050】
装置600において、キーボード、マウスなどの入力ユニット606と、様々なタイプのディスプレイ、スピーカなどの出力ユニット607と、磁気ディスク、光ディスクなどの記憶ユニット608と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット609とを含む複数のコンポーネントは、I/Oインターフェース605に接続されている。通信ユニット609は、装置600がインターネットなどのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他の装置と情報又はデータの交換を可能にする。
【0051】
処理ユニット601は、上述した各方法並びにプロセス200、300および400のような処理を実行する。例えば、いくつかの実施形態では、プロセス200、300および400は、記憶ユニット608などの機械可読媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施形態では、コンピュータプログラムの一部又は全部は、ROM602及び/又は通信ユニット609を介して装置600にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM603にロードされ、CPU601によって実行されると、上述したプロセス200、300および400の1つまたは複数のステップを実行可能である。あるいは、他の実施形態では、CPU601は、他の任意の適切な手段によって(例えば、ファームウェアによって)プロセス200、300および400を実行するように構成され得る。
【0052】
本明細書で説明した機能は、少なくとも部分的に1つまたは複数のハードウェアロジックコンポーネントによって実行され得る。例えば、非限定的に、採用できる汎用型のハードウェアロジックコンポーネントには、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)などが含まれる。
【0053】
本開示の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語のあらゆる組み合わせで作成され得る。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび/またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。
【0054】
本開示のコンテキストでは、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置またはデバイスが使用するため、または命令実行システム、装置またはデバイスと組み合わせて使用するためのプログラムを含むか、または格納することができる。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置またはデバイス、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、1本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、コンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、またはこれらのあらゆる適切な組み合わせが含まれ得る。
【0055】
また、各動作は、特定の順序で示されているが、所望の結果を得られるために、このような動作は示された特定の順序にてまたは順を追って実行されることを要求するか、または、図に示されたすべての動作が実行されることを要求するものと理解されるべきである。特定の環境では、マルチタスクと並列処理が有利である可能性がある。同様に、上記ではいくつかの具体的な実施詳細を説明したが、これらは本開示の範囲への制限と解釈されるべきではない。個別の実施形態のコンテキストで説明された、いくつかの特徴は、単一の実施において組み合わせて実施されることもできる。逆に、単一の実施のコンテキストで説明された様々な特徴は、複数の実施において、個別にまたは任意の適切なサブセットで実施されることもできる。
【0056】
本主題は、構造特徴および/または方法のロジック動作に特定された言語で記述されたが、特許請求の範囲内に限定される主題が、必ずしも上記に記載された特定の特徴または動作に限定されるものではないことを理解されたい。逆に、上述した特定の特徴および動作は、特許請求の範囲を実施するための例示的な形態にすぎない。
図1
図2
図3
図4
図5
図6