IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 三菱電機株式会社の特許一覧

特許7682408画像認識システム、画像認識装置、文章特徴抽出装置、プログラムおよび画像認識方法
<>
  • 特許-画像認識システム、画像認識装置、文章特徴抽出装置、プログラムおよび画像認識方法 図1
  • 特許-画像認識システム、画像認識装置、文章特徴抽出装置、プログラムおよび画像認識方法 図2
  • 特許-画像認識システム、画像認識装置、文章特徴抽出装置、プログラムおよび画像認識方法 図3
  • 特許-画像認識システム、画像認識装置、文章特徴抽出装置、プログラムおよび画像認識方法 図4
  • 特許-画像認識システム、画像認識装置、文章特徴抽出装置、プログラムおよび画像認識方法 図5
  • 特許-画像認識システム、画像認識装置、文章特徴抽出装置、プログラムおよび画像認識方法 図6
  • 特許-画像認識システム、画像認識装置、文章特徴抽出装置、プログラムおよび画像認識方法 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2025-05-15
(45)【発行日】2025-05-23
(54)【発明の名称】画像認識システム、画像認識装置、文章特徴抽出装置、プログラムおよび画像認識方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20250516BHJP
【FI】
G06T7/00 350B
【請求項の数】 16
(21)【出願番号】P 2024569411
(86)(22)【出願日】2024-04-23
(86)【国際出願番号】 JP2024015829
【審査請求日】2024-11-22
【早期審査対象出願】
(73)【特許権者】
【識別番号】000006013
【氏名又は名称】三菱電機株式会社
(74)【代理人】
【識別番号】100118762
【弁理士】
【氏名又は名称】高村 順
(72)【発明者】
【氏名】飯野 晋
(72)【発明者】
【氏名】内藤 美里
(72)【発明者】
【氏名】山田 和彦
【審査官】山田 辰美
(56)【参考文献】
【文献】特開2022-106147(JP,A)
【文献】Alee Radford et.al,Learning Transforable Visual Models From Natural Language Supervision,arXiv,米国,Cornell University,2021年02月26日,p.1-p.48,https://arxiv.org/pdf/2103.00020v1
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
(57)【特許請求の範囲】
【請求項1】
認識対象の画像データから検出対象を検出する画像認識システムであって、
文章特徴抽出装置と、画像認識装置と、を備え、
前記文章特徴抽出装置は、
前記検出対象を指定するための自然言語の語句を取得する文章取得部と、
前記自然言語の語句から画像の特徴量と比較可能な特徴量である文章特徴を抽出する文章特徴抽出部と、
前記文章特徴を送信する文章特徴送信部と、
を有し、
前記画像認識装置は、
前記文章特徴抽出装置から前記文章特徴を受信する文章特徴受信部と、
前記文章特徴受信部が受信した前記文章特徴を記憶する文章特徴記憶部と、
前記画像データを取得する画像取得部と、
前記画像データから画像内で前記検出対象が存在する領域の候補である候補領域、および、前記候補領域内の画像の特徴量である画像特徴を抽出する画像解析部と、
前記文章特徴記憶部に記憶された前記文章特徴と、前記候補領域に対応する前記画像特徴とを比較して、比較結果を出力する特徴比較部と、
前記比較結果に基づいて、前記検出対象の検出結果を生成する検出結果生成部と、
を有し、
前記文章特徴抽出部の処理を、前記画像認識装置とは別の装置である前記文章特徴抽出装置で実行する
ことを特徴とする画像認識システム。
【請求項2】
前記画像解析部は、前記画像データから前記自然言語の語句で指定された前記検出対象を検出するための学習済モデルのうちの一部であって、出力が自然言語の入力に依存しない第1の部分モデルを実行する
ことを特徴とする請求項1に記載の画像認識システム。
【請求項3】
前記文章特徴抽出部は、前記画像データから前記自然言語の語句で指定された前記検出対象を検出するための学習済モデルの一部であって、出力が画像データの入力に依存しない第2の部分モデルを実行する
ことを特徴とする請求項1に記載の画像認識システム。
【請求項4】
前記特徴比較部は、前記画像データから前記自然言語の語句で指定された前記検出対象を検出するための学習済モデルの一部であって、自然言語の入力に依存しない第1の部分モデルの出力と、画像データの入力に依存しない第2の部分モデルの出力とを入力として受け付けて、前記比較結果を出力する第3の部分モデルを実行する
ことを特徴とする請求項1に記載の画像認識システム。
【請求項5】
前記文章特徴抽出装置は、
前記文章取得部が新たな前記自然言語の語句を取得する毎に、前記文章特徴抽出部によって、新たな前記自然言語の語句から前記文章特徴を抽出し、抽出した前記文章特徴を前記文章特徴送信部によって送信する
ことを特徴とする請求項に記載の画像認識システム。
【請求項6】
認識対象の画像データから検出対象を検出する画像認識システムであって、
画像認識装置と、前記画像認識装置よりも演算処理能力が高い文章特徴抽出装置と、を備え、
前記文章特徴抽出装置は、
前記検出対象を指定するための自然言語の語句を取得する文章取得部と、
前記自然言語の語句から画像の特徴量と比較可能な特徴量である文章特徴を抽出する文章特徴抽出部と、
前記文章特徴を送信する文章特徴送信部と、
を有し、
前記画像認識装置は、
前記文章特徴抽出装置から前記文章特徴を受信する文章特徴受信部と、
前記画像データを取得する画像取得部と、
前記画像データから画像内で前記検出対象が存在する領域の候補である候補領域、および、前記候補領域内の画像の特徴量である画像特徴を抽出する画像解析部と、
前記文章特徴と、前記候補領域に対応する前記画像特徴とを比較して、比較結果を出力する特徴比較部と、
前記比較結果に基づいて、前記検出対象の検出結果を生成する検出結果生成部と、
を有し、
前記文章特徴抽出部の処理を、前記画像認識装置とは別の装置である前記文章特徴抽出装置で実行する
ことを特徴とする画像認識システム。
【請求項7】
認識対象の画像データから検出対象を検出する画像認識装置であって、
画像の特徴量と比較可能な特徴量であって前記検出対象を指定するための自然言語の語句から抽出された文章特徴を前記画像認識装置の外部から受信する文章特徴受信部と、
前記文章特徴受信部が受信した前記文章特徴を記憶する文章特徴記憶部と、
前記画像データを取得する画像取得部と、
前記画像データから画像内で前記検出対象が存在する領域の候補である候補領域、および、前記候補領域内の画像の特徴量である画像特徴を抽出する画像解析部と、
前記文章特徴記憶部に記憶された前記文章特徴と、前記候補領域に対応する前記画像特徴とを比較して、比較結果を出力する特徴比較部と、
前記比較結果に基づいて、前記検出対象の検出結果を生成する検出結果生成部と、
を備える
ことを特徴とする画像認識装置。
【請求項8】
前記画像解析部は、前記画像データから前記自然言語の語句で指定された前記検出対象を検出するための学習済モデルのうちの一部であって、出力が自然言語の入力に依存しない第1の部分モデルを実行する
ことを特徴とする請求項に記載の画像認識装置。
【請求項9】
前記特徴比較部は、前記学習済モデルの一部であって、前記第1の部分モデルの出力と、前記学習済モデルの一部であって画像データの入力に依存しない第2の部分モデルの出力とを入力として受け付けて、前記比較結果を出力する第3の部分モデルを実行する
ことを特徴とする請求項に記載の画像認識装置。
【請求項10】
画像データから検出する検出対象を指定するための自然言語の語句を取得する文章取得部と、
前記自然言語の語句から画像の特徴量と比較可能な特徴量である文章特徴を抽出する文章特徴抽出部と、
前記文章特徴を、前記画像データから前記検出対象を検出する画像認識装置に送信する文章特徴送信部と、
を備え
新たな前記自然言語の語句を入力されたとき、前記文章特徴抽出部は、前記画像データから前記自然言語の語句で指定された前記検出対象を検出するための学習済モデルの一部であって、出力が画像データの入力に依存しない第2の部分モデルを実行することによって前記文章特徴を抽出し、前記文章特徴送信部は、抽出された前記文章特徴を前記画像認識装置に送信し、
前記検出対象の変更がなく新たな前記自然言語の語句が入力されないとき、新たな前記画像データが取得されても前記第2の部分モデルの実行を省略する
ことを特徴とする文章特徴抽出装置。
【請求項11】
コンピュータを、認識対象の画像データから検出対象を検出する画像認識装置として機能させるためのプログラムであって、
画像の特徴量と比較可能な特徴量であって、当該コンピュータとは異なるコンピュータにおいて前記検出対象を指定するための自然言語の語句から抽出された文章特徴を受信するステップと、
受信した前記文章特徴を前記画像認識装置として機能させるコンピュータ内に記憶するステップと、
前記画像データを取得するステップと、
前記画像データから画像内で前記検出対象が存在する領域の候補である候補領域、および、前記候補領域内の画像の特徴量である画像特徴を抽出するステップと、
前記画像認識装置として機能させるコンピュータ内に記憶された前記文章特徴と、前記候補領域に対応する前記画像特徴とを比較して、比較結果を出力するステップと、
前記比較結果に基づいて、前記検出対象の検出結果を生成するステップと、
を前記画像認識装置として機能させるコンピュータに実行させる
ことを特徴とするプログラム。
【請求項12】
コンピュータを、文章特徴抽出装置として機能させるためのプログラムであって、
画像データから検出する検出対象を指定するための自然言語の語句を取得するステップと、
新たな前記自然言語の語句を入力されたとき、前記画像データから前記自然言語の語句で指定された前記検出対象を検出するための学習済モデルの一部であって、出力が画像データの入力に依存しない第2の部分モデルを実行することによって前記自然言語の語句から画像の特徴量と比較可能な特徴量である文章特徴を抽出するステップと、
前記文章特徴を、前記文章特徴抽出装置として機能させるコンピュータとは異なるコンピュータであって、前記画像データから前記検出対象を検出する画像認識装置として機能するコンピュータに送信するステップと、
を前記文章特徴抽出装置として機能させるコンピュータに実行させ
前記検出対象の変更がなく新たな前記自然言語の語句が入力されないとき、新たな前記画像データが取得されても前記文章特徴を抽出するステップを省略して前記第2の部分モデルを実行しない
ことを特徴とするプログラム。
【請求項13】
認識対象の画像データから検出対象を検出する画像認識方法であって、
文章特徴抽出装置が、前記検出対象を指定するための自然言語の語句を取得するステップと、
前記文章特徴抽出装置が、前記自然言語の語句から画像の特徴量と比較可能な特徴量である文章特徴を抽出するステップと、
前記文章特徴抽出装置が、抽出した前記文章特徴を画像認識装置に送信するステップと、
前記画像認識装置が、前記文章特徴抽出装置から前記文章特徴を受信するステップと、
受信した前記文章特徴を前記画像認識装置の有する文章特徴記憶部に記憶するステップと、
前記画像認識装置が、前記画像データを取得するステップと、
前記画像認識装置が、前記画像データから画像内で前記検出対象が存在する領域の候補である候補領域、および、前記候補領域内の画像の特徴量である画像特徴を抽出するステップと、
前記画像認識装置が、前記文章特徴記憶部に記憶された前記文章特徴と、前記候補領域に対応する前記画像特徴とを比較して、比較結果を生成するステップと、
前記画像認識装置が、前記比較結果に基づいて、前記検出対象の検出結果を生成するステップと、
を含
ことを特徴とする画像認識方法。
【請求項14】
コンピュータを、文章特徴抽出装置として機能させるためのプログラムであって、
画像データから検出する検出対象を指定するための自然言語の語句を、新たな前記自然言語の語句が入力される毎に取得するステップと、
前記自然言語の語句から画像の特徴量と比較可能な特徴量である文章特徴を抽出するステップと、
前記文章特徴を、前記文章特徴抽出装置として機能させるコンピュータとは異なるコンピュータであって、受信した前記文章特徴を記憶し、記憶された前記文章特徴を用いて前記画像データから前記検出対象を検出する画像認識装置として機能するコンピュータに送信するステップと、
を前記文章特徴抽出装置として機能させるコンピュータに実行させる
ことを特徴とするプログラム。
【請求項15】
請求項1に記載のプログラムを実行する画像認識装置を備えた画像認識システム。
【請求項16】
請求項12または14に記載のプログラムを実行する文章特徴抽出装置を備えた画像認識システム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像データから自然言語の語句で指定された検出対象を検出する画像認識システム、画像認識装置、文章特徴抽出装置、プログラムおよび画像認識方法に関する。
【背景技術】
【0002】
画像データから検出対象を検出する画像認識技術では、人工知能の発達に伴って高精度化が著しく、高度なセキュリティシステムなどの実現が期待されている。人工知能で用いられる学習済モデルは、従来の画像認識技術と比較して計算量が非常に多く、例えば監視カメラのように計算能力に制限のある機器では実装することが困難であった。
【0003】
上述の問題に対して、非特許文献1には、Grounding DINO(self-DIstillation with NO labels:ラベル無自己蒸留)と呼ばれる技術が開示されている。Grounding DINOは、従来の深層ニューラルネットワーク(DNN)と比較して10倍から100倍の膨大な画像データと、ペアとなる自然言語で示された語句とを入力として、事前にDNNモデルを学習することで、より広い範囲の物体カテゴリの検出に対応することが可能な技術である。また、Grounding DINOでは、推論時には検出対象となる物体カテゴリを自然言語の語句で指定することにより、DNNモデルの再学習なしに検出対象となる物体カテゴリを変更したり追加したりすることが可能である。
【先行技術文献】
【非特許文献】
【0004】
【文献】Shilong Liu,他10名,“Grounding DINO:Marrying DINO with Grounded Pre-Training for Open-Set Object Detection”, [online], [令和5年12月1日検索],インターネット<URL:https://arxiv.org/pdf/2303.05499.pdf>
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、非特許文献1に開示された技術でも、依然として、学習済モデルを用いて、自然言語で入力される語句で指定された検出対象を画像データから検出する推論処理の計算量が非常に大きく、画像認識装置の計算能力に制限がある場合には実装することが困難であるという問題があった。
【0006】
本開示は、上記に鑑みてなされたものであって、画像認識装置の計算能力に制限がある場合であっても、学習済モデルを用いて、自然言語で入力される語句で指定された検出対象を画像データから検出する推論処理を実装することが可能な画像認識システムを得ることを目的とする。
【課題を解決するための手段】
【0007】
上述した課題を解決し、目的を達成するために、本開示の画像認識システムは、認識対象の画像データから検出対象を検出する画像認識システムであって、文章特徴抽出装置と、画像認識装置と、を備える。文章特徴抽出装置は、検出対象を指定するための自然言語の語句を取得する文章取得部と、自然言語の語句から画像の特徴量と比較可能な特徴量である文章特徴を抽出する文章特徴抽出部と、文章特徴を送信する文章特徴送信部と、を有する。画像認識装置は、文章特徴抽出装置から文章特徴を受信する文章特徴受信部と、文章特徴受信部が受信した文章特徴を記憶する文章特徴記憶部と、画像データを取得する画像取得部と、画像データから画像内で検出対象が存在する領域の候補である候補領域、および、候補領域内の画像の特徴量である画像特徴を抽出する画像解析部と、文章特徴記憶部に記憶された文章特徴と、候補領域に対応する画像特徴とを比較して、比較結果を出力する特徴比較部と、比較結果に基づいて、検出対象の検出結果を生成する検出結果生成部と、を有する。画像認識システムは、文章特徴抽出部の処理を、画像認識装置とは別の装置である文章特徴抽出装置で実行することを特徴とする。
【発明の効果】
【0008】
本開示によれば、画像認識装置の計算能力に制限がある場合であっても、学習済モデルを用いて、自然言語で入力される語句で指定された検出対象を画像データから検出する推論処理を実装することが可能な画像認識システムを得ることができるという効果を奏する。
【図面の簡単な説明】
【0009】
図1】実施の形態1にかかる画像認識システムの構成図
図2図1に示す画像認識システムが用いるDNNモデルの構成例を示す図
図3図1に示す画像認識システムの動作例を説明するためのフローチャート
図4】実施の形態2にかかる画像認識システムの構成図
図5図4に示す画像認識システムの動作例を説明するためのフローチャート
図6】実施の形態1,2にかかる画像認識システムの機能を実現するための専用のハードウェアを示す図
図7】実施の形態1,2にかかる画像認識システムの機能を実現するための制御回路の構成を示す図
【発明を実施するための形態】
【0010】
以下に、本開示の実施の形態にかかる画像認識システム、画像認識装置、文章特徴抽出装置、プログラムおよび画像認識方法を図面に基づいて詳細に説明する。
【0011】
実施の形態1.
図1は、実施の形態1にかかる画像認識システム10の構成図である。画像認識システム10は、画像認識装置1000と、文章特徴抽出装置2000と、結果表示部3000とを有する。画像認識システム10は、学習済モデルを用いて推論処理を行うことによって、自然言語で入力される語句で指定された検出対象を画像データから検出する機能を有する。学習済モデルは、例えば、Grounding DINOのような技術を用いて生成されたものであってよい。画像認識システム10において、推論処理は、画像認識装置1000と文章特徴抽出装置2000とで分担して実行される。
【0012】
具体的には、以下の実施の形態では、推論処理のうち負荷の高い処理、換言すれば計算量の多い処理として文章の特徴を抽出する処理を、文章特徴抽出装置2000で実行し、その他の処理を画像認識装置1000で実行する。ここでは、画像認識装置1000と文章特徴抽出装置2000とで分担する処理の割り当てを人間が予め決めることとするが、他の決め方であってもよい。
【0013】
なお、本開示の一例として、文章特徴抽出装置2000が複数の装置で構成されていたり、文章特徴抽出装置2000が複数の演算装置を備えていたりする場合であっても、これらに含まれる複数の演算装置を1つのまとまりとして扱うこととする。同様に、画像認識装置1000が複数の装置で構成されていたり、画像認識装置1000が複数の演算装置を備えていたりする場合であっても、これらに含まれる複数の演算装置を1つのまとまりとして扱うこととする。つまり、画像認識装置1000及び文章特徴抽出装置2000のそれぞれの演算装置の構成によらず、上述の推論処理を実行するまとまりとして扱うこととする。これにより、例えば、画像認識装置1000が1つの演算装置を有する1台の撮像装置であって、文章特徴抽出装置2000が複数の演算装置を有する1以上のサーバ装置であっても、画像認識装置1000及び文章特徴抽出装置2000をそれぞれ1つのまとまりとして演算処理能力の比較をすることができる。そして、本開示の例では、画像認識装置1000よりも文章特徴抽出装置2000のほうが演算処理能力が高いものとする。
【0014】
画像認識装置1000は、画像取得部1100と、画像解析部1200と、文章特徴受信部1300と、特徴比較部1400と、検出結果生成部1500と、検出結果送信部1600とを有する。画像認識装置1000は、画像取得部1100で取得した画像に指定された物体が映っているかどうか、また、映っている場合にはその物体の画像内に占める領域を認識し、認識結果を結果表示部3000へ送信する。画像認識装置1000は、例えば、画像認識のための処理装置または処理ソフトウェアを実行できるマイコンを内蔵した監視カメラ、デジタルカメラまたは監視カメラを接続した計算機などである。画像認識装置1000は、上記の例に限定されない。また、本実施の形態では簡単のため、画像認識システム10は、1台の画像認識装置1000を有することとしたが、実施に当たっては、画像認識システム10は、複数台の画像認識装置1000を有してもよい。
【0015】
文章特徴抽出装置2000は、文章取得部2100と、文章特徴抽出部2200と、文章特徴送信部2300とを有する。文章特徴抽出装置2000は、画像認識装置1000とは異なる装置である。文章特徴抽出装置2000は、画像認識システム10のユーザが、画像認識装置1000に検出させたい物体カテゴリを、自然言語で入力される語句によって指定すると、入力された自然言語の語句から文章特徴を抽出し、抽出した文章特徴を画像認識装置1000に送信する。ここで、文章特徴は、画像の特徴量と比較可能な特徴量である。
【0016】
結果表示部3000は、画像認識装置1000が画像から物体検出を行った結果を表示するための装置である。結果表示部3000は、表示機能を有していればよく、具体的な構成については特に制限はない。
【0017】
以下、画像認識システム10の各部の詳細について説明する。画像取得部1100は、処理対象の画像データを取得し、取得した画像データを画像解析部1200に出力する。画像取得部1100は、例えば、CCD(Charge Coupled Devices)、CMOS(Complementary Metal Oxide Semiconductor)などのイメージセンサ、或いは、計算機に接続されたデジタルカメラ、監視カメラなどの撮像装置である。
【0018】
画像解析部1200は、画像取得部1100によって取得された画像データ内で物体が映っていると考えられる領域である候補領域を複数抽出し、抽出した複数の候補領域のそれぞれに含まれる特徴量である画像特徴を抽出する。画像解析部1200は、抽出した複数の候補領域と、各候補領域に対応する画像特徴とを、特徴比較部1400に出力する。画像解析部1200は、事前に学習済のDNNモデルのうちの一部であって、出力が、自然言語の入力に依存せず、画像データの入力にのみ依存する部分である第1の部分モデルを用いて、候補領域および画像特徴の抽出を行う。
【0019】
画像解析部1200は、候補領域の数と同数の画像特徴を抽出することができる。例えば、画像解析部1200は、N個の候補領域を抽出した場合、N個の画像特徴を抽出することができる。
【0020】
ここで、候補領域を示す情報の表現形式は、画像中で候補領域の範囲を表すことができれば、特に制限はない。例えば、候補領域の形状を幾何学形状として、幾何学形状の位置を指定することで候補領域を表すことができる。幾何学形状は、例えば、矩形のような多角形であってもよいし、円であってもよい。候補領域の形状が多角形である場合、多角形の頂点の座標、辺の長さ、重心の座標などを用いて候補領域の位置を表すことができる。例えば、候補領域の形状が矩形である場合、矩形の4つの頂点座標で候補領域を表してもよいし、矩形の4つの頂点のうち対角線上に位置する2つの頂点の座標の組み合わせによって候補領域を表してもよいし、矩形の4つの頂点のうちの1つの座標と矩形の各辺の長さの数値とによって候補領域を表してもよいし、矩形の重心座標と矩形の各辺の長さの数値とによって候補領域を表してもよい。頂点座標、重心座標、各辺の長さの数値は、画像サイズと実座標との組み合わせであってもよいし、画像サイズに対する相対値であってもよい。
【0021】
文章特徴受信部1300は、文章特徴抽出装置2000から送信された文章特徴を受信し、受信した文章特徴を特徴比較部1400へ出力する。文章特徴は、指定された物体カテゴリの数だけあり、指定された物体カテゴリがM個ある場合には、文章特徴もM個受信される。文章特徴がQ次元ベクトルである場合には、文章特徴受信部1300は、M個のQ次元ベクトルのデータを受信することになる。
【0022】
特徴比較部1400は、画像解析部1200が出力する各候補領域に対応するN個の画像特徴と、文章特徴受信部1300が出力するM個の文章特徴とを比較して類似度計算を行い、各画像特徴がM個の文章特徴のうちのどれに最も類似しているかを算出する。特徴比較部1400は、類似度の算出結果を比較結果として検出結果生成部1500へ出力する。特徴比較部1400は、事前に学習済のDNNモデルのうちの一部であって、画像解析部1200が実行する第1の部分モデルの出力と、後述する文章特徴抽出部2200が実行する第2の部分モデルの出力とを入力として受け付けて、類似度を比較結果として出力する第3の部分モデルを実行することによって、上述の処理を行う。
【0023】
検出結果生成部1500は、特徴比較部1400が出力する比較結果に基づいて、各候補領域が最も類似している文章特徴に対応する物体カテゴリを特定し、特定した物体カテゴリを検出結果として、検出結果送信部1600に出力する。また、物体カテゴリと候補領域の重複がある場合には、冗長な結果を検出結果から取り除く。
【0024】
検出結果送信部1600は、検出結果生成部1500が出力する検出結果を、結果表示部3000へ出力する。
【0025】
結果表示部3000は、検出結果送信部1600から受信した検出結果に基づいて、画像認識システム10のユーザに対して、所望の方法で検出結果の表示を行う。検出結果の表示方法については、特に制限はない。
【0026】
文章取得部2100は、画像認識システム10のユーザが画像認識装置1000に検出させたい物体カテゴリの自然言語の語句による入力を受け付け、受け付けた語句を文章特徴抽出部2200に出力する。文章取得部2100は、例えば、キーボード、タッチセンサなどの入力手段を用いた文字入力、マイクを用いた音声認識、予め作成された語句リストのデータを記憶装置から読み出すなどの方法で、自然言語の語句の入力を受け付けることができる。また、入力を受ける語句は複数あってよく、各語句は物体カテゴリに対応する。
【0027】
文章特徴抽出部2200は、文章取得部2100で取得された自然言語の語句から文章特徴を抽出し、抽出した文章特徴を、文章特徴送信部2300へ出力する。文章特徴抽出部2200は、入力された自然言語の語句が複数ある場合には、それぞれの語句について文章特徴の抽出を行う。語句がM個ある場合、文章特徴抽出部2200は、M個の文章特徴の抽出を行う。文章特徴抽出部2200は、事前に学習済のDNNモデルのうちの一部であって、出力が、画像データの入力に依存せず、自然言語の語句の入力にのみ依存する第2の部分モデルを実行することによって、上述の処理を行う。
【0028】
文章特徴送信部2300は、文章特徴抽出部2200が出力する文章特徴を、画像認識装置1000の文章特徴受信部1300へ送信する。文章特徴送信部2300は、文章特徴が複数個ある場合には、それらの文章特徴を全て送信する。
【0029】
図2は、図1に示す画像認識システム10が用いるDNNモデル#0の構成例を示す図である。DNNモデル#0は、入力を画像データおよび自然言語の語句とし、画像内から自然言語の語句に対応する物体を検出するように学習された学習済モデルである。このDNNモデル#0は、3つの部分モデルから構成されている。DNNモデル#1は、出力が、画像データの入力にのみ依存し、自然言語の語句の入力に依存せず、独立して動作させることが可能な第1の部分モデルである。DNNモデル#1は、画像データを入力として、画像内で検出対象が存在する領域の候補である候補領域と、候補領域毎の画像特徴とを出力する。DNNモデル#1は、画像解析部1200の処理に対応する。DNNモデル#2は、出力が、自然言語の語句の入力にのみ依存し、画像データの入力に依存せず、独立して動作させることが可能な第2の部分モデルである。DNNモデル#2は、自然言語の語句を入力として、語句毎の文章特徴を出力する。自然言語の語句は、画像認識装置1000で検出させたい物体カテゴリを示すものであり、図2の例では、「男性」、「女性」、「杖を持った人」、「自転車に乗った人」といった、人物を検出するための語句が例示されている。DNNモデル#2は、文章特徴抽出部2200の処理に対応する。DNNモデル#3は、DNNモデル#0のうち、DNNモデル#1およびDNNモデル#2の部分を除いた残りであり、第3の部分モデルである。DNNモデル#3は、DNNモデル#1の出力およびDNNモデル#2の出力を入力とし、文章特徴量と画像特徴量との類似度を計算する。DNNモデル#3は、特徴比較部1400の処理に対応する。
【0030】
ここで、画像認識システム10において基本的な処理の流れの説明をする前に、必要な初期処理について説明する。
【0031】
まず、事前に、DNNモデル#0を準備する。DNNモデル#0は、十分に巨大なデータセットを用いて学習されている。画像内の領域の表現形式については、画像解析部1200の説明において上述したものに従う。
【0032】
続いて、DNNモデル#1、DNNモデル#2、DNNモデル#3と同じ構造を持つDNNモデルをそれぞれ定義し、学習済のDNNモデル#0から重み係数をそれぞれのDNNモデルの対応する層にコピーしたうえで、DNNモデル#1を画像解析部1200に、DNNモデル#2を文章特徴抽出部2200に、DNNモデル#3を特徴比較部1400に、それぞれ配置する。各DNNモデルは、それぞれ画像認識装置1000、文章特徴抽出装置2000で計算可能な形で定義されているものとする。
【0033】
以上が初期処理の内容である。続いて、画像認識システム10での処理内容について説明する。図3は、図1に示す画像認識システム10の動作例を説明するためのフローチャートである。画像認識装置1000は、画像取得部1100が画像データを取得するたびに以下の処理を行う。まず、画像取得部1100は、周期的に画像データを取得する(ステップS2110)。取得周期は、画像認識システム10の用途に応じて予め定められる。
【0034】
続いて画像解析部1200は、取得された画像データに対して、DNNモデル#1を用いて、複数の候補領域の抽出と、各候補領域内の画像特徴の抽出とを行う(ステップS2120)。ここで得られた候補領域の数をN個とする。候補領域および画像特徴が得られたら、特徴比較部1400は、候補領域が複数ある場合には、候補領域の中から1つを選択して、候補領域毎の特徴量比較処理を開始し(ステップS2130)、文章特徴受信部1300が文章特徴を受信するのを待機する。
【0035】
一方、文章特徴抽出装置2000では、上述のステップS2110からステップS2130の処理と並行して、以下の処理が行われる。文章取得部2100は、画像認識システム10のユーザが入力する自然言語の語句を取得する文章取得処理を行い(ステップS2210)、取得した自然言語の語句を、文章特徴抽出部2200に出力する。自然言語の語句は、画像認識装置1000で検出させたい物体カテゴリを示すものである。
【0036】
文章特徴抽出部2200は、文章取得部2100が出力する自然言語の語句から文章特徴を抽出する文章特徴抽出処理を開始する(ステップS2220)。文章特徴抽出部2200は、DNNモデル#2を用いて、与えられた自然言語の語句から文章特徴の抽出を行う(ステップS2230)。文章特徴抽出部2200は、文章取得部2100が取得した全ての語句を処理済みであるか否かを判断する(ステップS2240)。未だ処理済みでない語句がある場合(ステップS2240:No)、文章特徴抽出部2200は、次の語句について、ステップS2230の処理を繰返す。全ての語句を処理済みである場合(ステップS2240:Yes)、文章特徴抽出部2200は、文章特徴抽出処理を終了する(ステップS2250)。文章特徴抽出部2200は、自然言語の語句の個数をM個とした場合、ステップS2220からステップS2250の処理をM回繰り返す。
【0037】
各自然言語の語句に対応するM個の文章特徴が得られたら、文章特徴送信部2300は、画像認識装置1000が有する文章特徴受信部1300へ、文章特徴を自然言語の語句と対応づけて送信する(ステップS2260)。
【0038】
文章特徴受信部1300が自然言語の語句および文章特徴を受信すると、特徴比較部1400は、受信した自然言語の語句の中から1つを選択して、語句毎の特徴量比較処理を開始する(ステップS2140)。特徴比較部1400は、選択された候補領域の画像特徴と、選択された語句の文章特徴との特徴量比較を行う(ステップS2150)。具体的には、特徴比較部1400は、DNNモデル#3を用いて、画像特徴と文章特徴との類似度を計算する。
【0039】
特徴比較部1400は、対象の候補領域について、全ての語句と特徴量を比較済みであるか否かを判断する(ステップS2160)。未だ比較済みでない語句がある場合(ステップS2160:No)、特徴比較部1400は、次の語句を選択して、ステップS2150から処理を繰返す。全ての語句と比較済みである場合(ステップS2160:Yes)、特徴比較部1400は、対象の候補領域について、語句毎の特徴量比較処理を終了し(ステップS2170)、全ての候補領域について特徴量を比較済みであるか否かを判断する(ステップS2180)。未だ比較済みでない候補領域がある場合(ステップS2180:No)、特徴比較部1400は、次の候補領域を選択して、ステップS2140から処理を繰返す。全ての候補領域について特徴量を比較済みである場合(ステップS2180:Yes)、特徴比較部1400は、候補領域毎の特徴量比較処理を終了する(ステップS2190)。ここで、M個の語句の文章特徴とN個の候補領域の画像特徴との全ての組み合わせについて類似度の計算が終わると、特徴比較部1400は、候補領域毎に、類似度が最も高い語句を記憶する。
【0040】
検出結果生成部1500は、特徴比較部1400の比較結果を取得すると、各候補領域の情報が画像データの幅および高さに対して相対値であれば、候補領域の情報を元の画像座標基準値へ換算し、候補領域同士が重なっているものがあれば、領域の重なりの大きさと、対応づけられた文章特徴同士とを比較し、重なりが十分に大きく、且つ、対応づけられた文章特徴が同一のものが複数あれば、重複している候補領域であると判断して、重複したもののうち1つを残して不要な候補領域を除去し(ステップS2310)、検出結果を生成し、生成した検出結果を検出結果送信部1600へ出力する。
【0041】
検出結果送信部1600は、検出結果生成部1500が出力する検出結果を結果表示部3000へ送信する(ステップS2320)。検出結果を送信すると、画像認識装置1000は、次の画像データの取得を待機し、再びステップS2110から処理を開始する。
【0042】
以上が実施の形態1にかかる画像認識システム10における物体検出を行う処理の流れである。通常、DNNモデル#0の処理は一体の計算装置を用いて行われるところ、本実施の形態においては、画像データの特徴抽出結果に依存しない、文章特徴の抽出処理を分離して、他の計算機で実施することで、計算能力に制限のある機器、例えば、監視カメラなどの組込機器での物体検出を容易にしている。DNNモデル#0は、画像データと、画像データから検出する検出対象となる物体のカテゴリを指定する自然言語の語句とを入力として受け付け、検出結果を出力する学習済モデルであり、十分に巨大なデータセットを用いて学習されている。このため、画像認識システム10のユーザは、検出対象となる物体カテゴリを変更したい場合には、文章取得部2100へ与える自然言語の語句を変更するだけで、DNNモデルの再学習なしで検出対象となる物体カテゴリを変更することができる。
【0043】
なお、図3のステップS2130からステップS2190のループでは、1つの画像特徴に対して複数の文章特徴毎の比較処理を行うループを、画像特徴の数だけ繰り返すという順番で行っているが、ループの順序を逆にしてもよい。すなわち、1つの文章特徴に対して複数の画像特徴毎の比較処理を行うループを、文章特徴の数だけ繰り返すという順番で行っても同じ結果が得られる。
【0044】
また、特徴比較部1400の処理は、DNNモデル#3を用いるとしたが、DNNモデル#0の構造によっては、この部分は必ずしもDNNモデルでなくても構わない。例えば、特徴比較部1400は、画像特徴と文章特徴とのコサイン類似度を計算するような処理部であってもよいし、或いは、画像特徴と文章特徴とのユークリッド距離を計算するような処理部であってもよい。ただし、DNNモデル#0を事前に学習するときに、上記した処理部を適用して十分に学習されていることが前提となる。
【0045】
また、説明のため、図1では結果表示部3000と文章特徴抽出装置2000とを別体として示したが、文章特徴抽出装置2000が結果表示部3000の機能を兼ねてもよい。
【0046】
以上説明したように、実施の形態1によれば、画像認識装置1000と文章特徴抽出装置2000とを備え、認識対象の画像データから検出対象を検出する画像認識システム10を提供することができる。文章特徴抽出装置2000は、検出対象を指定するための自然言語の語句を取得する文章取得部2100と、自然言語の語句から画像の特徴量と比較可能な特徴量である文章特徴を抽出する文章特徴抽出部2200と、文章特徴を送信する文章特徴送信部2300と、を有する。画像認識装置1000は、文章特徴抽出装置2000から文章特徴を受信する文章特徴受信部1300と、画像データを取得する画像取得部1100と、画像データから画像内で検出対象が存在する領域の候補である候補領域、および、候補領域内の画像の特徴量である画像特徴を抽出する画像解析部1200と、文章特徴と、候補領域に対応する画像特徴とを比較して、比較結果を出力する特徴比較部1400と、比較結果に基づいて、検出対象の検出結果を生成する検出結果生成部1500と、を有する。画像認識システム10は、文章特徴抽出部2200の処理を、画像認識装置1000とは別の装置である文章特徴抽出装置2000で実行することを特徴とする。これにより、自然言語の語句から文章特徴を抽出する負荷の高い処理を、画像認識装置1000とは異なる装置である文章特徴抽出装置2000で実行させることができるため、画像認識装置1000の計算能力に制限がある場合であっても、学習済モデルを用いて、自然言語で入力される語句で指定された検出対象を画像データから検出する推論処理を実装することが可能になる。
【0047】
なお、画像解析部1200は、画像データから自然言語の語句で指定された検出対象を検出するための学習済モデルであるDNNモデル#0のうちの一部であって、出力が自然言語の入力に依存しない第1の部分モデルであるDNNモデル#1を実行することによって実現される。DNNモデル#0は、例えば、生成AI(Artificial Intelligence)である。画像データおよび自然言語の語句のようにマルチモーダルなデータを入力とする生成AIは、計算量が非常に多く、必要な計算能力が非常に高くなるため、監視カメラのような組込機器で動作させる場合には、計算能力が足りず、実装が困難な場合がある。本実施の形態の技術を用いることで、監視カメラのような組込機器において、計算能力が足りず、マルチモーダルなデータをまとめて処理することが困難な場合であっても、処理負荷の高い一部の処理を外部装置で実行することが可能になる。
【0048】
また、画像認識システム10において、文章特徴抽出部2200は、画像データから自然言語の語句で指定された検出対象を検出するための学習済モデルであるDNNモデル#0の一部であって、出力が画像データの入力に依存しない第2の部分モデルであるDNNモデル#2を実行することによって実現されてもよい。
【0049】
また、画像認識システム10において、特徴比較部1400は、画像データから自然言語の語句で指定された検出対象を検出するための学習済モデルであるDNNモデル#0の一部であって、自然言語の入力に依存しない第1の部分モデルであるDNNモデル#1の出力と、画像データの入力に依存しない第2の部分モデルであるDNNモデル#2の出力とを入力として受け付けて、文章特徴と画像特徴との比較結果を出力する第3の部分モデルであるDNNモデル#3を実行することによって実現されてもよい。
【0050】
実施の形態1によれば、認識対象の画像データから検出対象を検出する画像認識装置1000を提供することもできる。画像認識装置1000は、画像の特徴量と比較可能な特徴量であって検出対象を指定するための自然言語の語句から抽出された文章特徴を画像認識装置1000の外部から受信する文章特徴受信部1300と、画像データを取得する画像取得部1100と、画像データから画像内で検出対象が存在する領域の候補である候補領域、および、候補領域内の画像の特徴量である画像特徴を抽出する画像解析部1200と、文章特徴と、候補領域に対応する画像特徴とを比較して、比較結果を出力する特徴比較部1400と、比較結果に基づいて、検出対象の検出結果を生成する検出結果生成部1500と、を備えることを特徴とする。
【0051】
また、画像認識装置1000において、画像解析部1200は、画像データから自然言語の語句で指定された検出対象を検出するための学習済モデルであるDNNモデル#0のうちの一部であって、出力が自然言語の入力に依存しない第1の部分モデルであるDNNモデル#1を実行することによって実現されてもよい。また、画像認識装置1000において、特徴比較部1400は、上記の学習済モデルであるDNNモデル#0の一部であって、第1の部分モデルであるDNNモデル#1の出力と、上記の学習済モデルであるDNNモデル#0の一部であって画像データの入力に依存しない第2の部分モデルであるDNNモデル#2の出力とを入力として受け付けて、比較結果を出力する第3の部分モデルであるDNNモデル#3を実行することによって実現されてもよい。
【0052】
また、実施の形態1によれば、文章特徴抽出装置2000を提供することもできる。文章特徴抽出装置2000は、画像データから検出する検出対象を指定するための自然言語の語句を取得する文章取得部2100と、自然言語の語句から画像の特徴量と比較可能な特徴量である文章特徴を抽出する文章特徴抽出部2200と、文章特徴を、画像データから検出対象を検出する画像認識装置1000に送信する文章特徴送信部2300と、を備えることを特徴とする。
【0053】
文章特徴抽出装置2000において、文章特徴抽出部2200は、画像データから自然言語の語句で指定された検出対象を検出するための学習済モデルであるDNNモデル#0の一部であって、出力が画像データの入力に依存しない第2の部分モデルであるDNNモデル#2を実行することによって実現することができる。
【0054】
また、ハードウェア構成については後述するが、実施の形態1によれば、コンピュータを、認識対象の画像データから検出対象を検出する画像認識装置1000として機能させるためのプログラムを提供することもできる。このプログラムは、画像の特徴量と比較可能な特徴量であって、当該コンピュータとは異なるコンピュータにおいて検出対象を指定するための自然言語の語句から抽出された文章特徴を受信するステップと、画像データを取得するステップと、画像データから画像内で検出対象が存在する領域の候補である候補領域、および、候補領域内の画像の特徴量である画像特徴を抽出するステップと、文章特徴と、候補領域に対応する画像特徴とを比較して、比較結果を出力するステップと、比較結果に基づいて、検出対象の検出結果を生成するステップと、を画像認識装置1000として機能させるコンピュータに実行させることができる。
【0055】
また、実施の形態1によれば、コンピュータを、文章特徴抽出装置2000として機能させるためのプログラムを提供することもできる。このプログラムは、画像データから検出する検出対象を指定するための自然言語の語句を取得するステップと、自然言語の語句から画像の特徴量と比較可能な特徴量である文章特徴を抽出するステップと、文章特徴を、文章特徴抽出装置2000として機能させるコンピュータとは異なるコンピュータであって、画像データから検出対象を検出する画像認識装置1000として機能するコンピュータに送信するステップと、を文章特徴抽出装置2000として機能させるコンピュータに実行させることができる。
【0056】
また、実施の形態1によれば、認識対象の画像データから検出対象を検出する画像認識方法を提供することができる。この画像認識方法は、検出対象を指定するための自然言語の語句から画像の特徴量と比較可能な特徴量である文章特徴を抽出するステップと、画像データから画像内で検出対象が存在する領域の候補である候補領域、および、候補領域内の画像の特徴量である画像特徴を抽出するステップと、文章特徴と、候補領域に対応する画像特徴とを比較して、比較結果を生成するステップと、比較結果に基づいて、検出対象の検出結果を生成するステップと、を含む。また、この画像認識方法は、文章特徴を抽出するステップの処理と、画像特徴を抽出するステップの処理とを異なる装置で実行することを特徴とする。例えば、画像認識装置1000および文章特徴抽出装置2000を備える画像認識システム10により実行され、文章特徴抽出装置2000が文章特徴を抽出するステップを実行し、画像認識装置1000が候補領域および画像特徴を抽出するステップと、比較結果を生成するステップと、検出結果を生成するステップとを実行することができる。また、画像認識方法は、自然言語の語句を取得するステップと、抽出した文章特徴を送信するステップと、文章特徴を受信するステップと、をさらに含んでもよい。この場合、文章特徴抽出装置2000が、自然言語の語句を取得するステップと、抽出した文章特徴を送信するステップと、を実行し、画像認識装置1000が、文章特徴を受信するステップを実行し、受信した文章特徴を用いて比較結果を生成するステップを実行する。上述の画像認識方法において、記載した各ステップの処理は、必ずしも、記載した順で実行される必要はない。画像認識方法は、同時並行で実行される複数のステップを含んでいてもよい。また、画像認識方法において、記載した各ステップの処理は、必ずしも連続して実行される一連の処理でなくてもよく、異なるタイミングで実行される複数の処理を含んでいてもよい。
【0057】
実施の形態2.
図4は、実施の形態2にかかる画像認識システム20の構成図である。画像認識システム20は、画像認識装置1050と、文章特徴抽出装置2000と、結果表示部3000とを有する。画像認識システム20は、画像認識システム10の画像認識装置1000の代わりに画像認識装置1050を有する。以下、実施の形態1と異なる点を主に説明し、実施の形態1と同様の部分については詳細な説明を省略する。
【0058】
画像認識システム20は、文章特徴の抽出処理を、検出対象となる物体カテゴリの変更または追加があったときのみ実行する。
【0059】
画像認識装置1050は、画像取得部1100と、画像解析部1200と、文章特徴受信部1300と、特徴比較部1400と、検出結果生成部1500と、検出結果送信部1600とを有する。画像認識装置1050は、画像認識装置1000の構成に加えて、文章特徴記憶部1350を有する。
【0060】
文章特徴記憶部1350は、文章特徴受信部1300が文章特徴抽出装置2000から受信する文章特徴を記憶する。文章特徴記憶部1350は、複数の文章特徴を記憶することが可能であり、記憶した文章特徴を特徴比較部1400に出力することができる。
【0061】
図5は、図4に示す画像認識システム20の動作例を説明するためのフローチャートである。図5は、図3のフローチャートにステップS2330を加えたものである。ステップS2330以外のステップは図3と同一であるため、各ステップの詳細については説明を省略し、以下、図3と異なる動作のみ説明する。
【0062】
画像認識システム20では、文章特徴の抽出処理であるステップS2210からステップS2250までの一連の処理は、画像特徴抽出処理と必ずしも並列に実行されず、基本的には、画像特徴抽出処理よりも早い任意のタイミングで独立して実行される。文章特徴送信部2300が、ステップS2260で文章特徴を送信したのち、文章特徴受信部1300は、受信した文章特徴を、文章特徴記憶部1350へ記憶させる(ステップS2330)。
【0063】
文章特徴記憶部1350へ文章特徴が記憶された後、特徴比較部1400は、ステップS2150で、文章特徴と画像特徴との比較処理を実行する。以降の処理は、図3と同様である。
【0064】
また、任意のタイミングでステップS2210の文章取得処理が起こると、文章特徴抽出装置2000は、再度、ステップS2220からステップS2260の処理を実行して、文章特徴受信部1300は、文章特徴記憶部1350の内容を更新する。
【0065】
以上、実施の形態2にかかる画像認識システム20において、画像認識装置1050は、文章特徴受信部1300が受信した文章特徴を記憶する文章特徴記憶部1350をさらに有し、特徴比較部1400は、文章特徴記憶部1350に記憶された文章特徴と画像特徴とを比較することができる。このような構成を有することにより、画像データの取得よりも前に、文章特徴の抽出を実行して画像認識装置1050に記憶しておくことが可能になる。これにより、検出対象の変更がない場合には、文章特徴の抽出を実行する必要がなくなり、特徴比較部1400は、文章特徴の受信を待つことなく、予め文章特徴記憶部1350に記憶された文章特徴を使用して特徴量比較処理を実行することが可能になる。したがって、画像認識装置1050のスループットが向上するとともに、画像認識システム20全体としての計算負荷を低減することができる。
【0066】
この場合、文章特徴抽出装置2000は、文章取得部2100が新たな自然言語の語句を取得する毎に、文章特徴抽出部2200によって、新たな自然言語の語句から文章特徴を抽出し、抽出した文章特徴を文章特徴送信部2300によって画像認識装置1050へ送信することができる。新たな自然言語の語句の取得は、例えば、画像認識処理の実行毎に行われなくてもよく、最初に検出対象が設定された後は、検出対象の変更、つまり、検出対象の物体カテゴリを追加したり、検出対象に設定した物体カテゴリを削除したりといった変更が行われるまでは、基本的には、文章特徴記憶部1350に記憶された文章特徴を用いて画像認識が実行される。物体カテゴリの追加が行われる場合、文章取得部2100が、新たな自然言語の語句を取得するため、文章特徴抽出部2200によって、新たに文章特徴の抽出が行われる。通常、DNNモデルを用いて、自然言語の語句および画像データを入力とした推論処理を行う場合、画像取得のたびにDNNモデル全体を動作させる必要がある。この場合、検出対象の変更がなければ、実際には文章特徴抽出部2200の処理内容および結果に変化はないため、計算効率が悪い。これに対して、実施の形態2の技術によれば、検出対象の変更が行われない限り、文章特徴の抽出処理が省略されるため、画像認識装置1050のスループットが向上するとともに、画像認識システム20全体としての計算負荷を低減することができる。
【0067】
ここで、画像認識システム10,20の機能を実現するためのハードウェア構成について説明する。文章取得部2100、文章特徴抽出部2200、画像取得部1100、画像解析部1200、特徴比較部1400および検出結果生成部1500は、処理回路により実現される。これらの処理回路は、専用のハードウェアにより実現されてもよいし、CPU(Central Processing Unit)を用いた制御回路であってもよい。
【0068】
上記の処理回路が、専用のハードウェアにより実現される場合、これらは、図6に示す処理回路90により実現される。図6は、実施の形態1,2にかかる画像認識システム10,20の機能を実現するための専用のハードウェアを示す図である。処理回路90は、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)、またはこれらを組み合わせたものである。
【0069】
上記の処理回路が、CPUを用いた制御回路で実現される場合、この制御回路は例えば図7に示す構成の制御回路91である。図7は、実施の形態1,2にかかる画像認識システム10,20の機能を実現するための制御回路の構成を示す図である。図7に示すように、制御回路91は、プロセッサ92と、メモリ93とを備える。プロセッサ92は、CPUであり、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、DSP(Digital Signal Processor)などとも呼ばれる。メモリ93は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable ROM)、EEPROM(登録商標)(Electrically EPROM)などの不揮発性または揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD(Digital Versatile Disk)などである。
【0070】
上記の処理回路が制御回路91により実現される場合、プロセッサ92がメモリ93に記憶された、各構成要素の処理に対応するプログラムを読み出して実行することにより実現される。また、メモリ93は、プロセッサ92が実行する各処理における一時メモリとしても使用される。プロセッサ92が実行するプログラムは、記憶媒体に記憶された状態で提供されてもよいし、インターネットのような通信路を介して提供されてもよい。
【0071】
また、文章特徴受信部1300、検出結果送信部1600および文章特徴送信部2300の機能は、図示しない通信装置を用いて実現することができる。また、画像取得部1100の機能は、上述の通り、イメージセンサや撮像装置を用いて実現することができる。文章特徴記憶部1350は、記憶装置を用いて実現することができる。
【0072】
以上の実施の形態に示した構成は、一例を示すものであり、別の公知の技術と組み合わせることも可能であるし、実施の形態同士を組み合わせることも可能であるし、要旨を逸脱しない範囲で、構成の一部を省略、変更することも可能である。
【0073】
例えば、図1および図4では、簡単のため、画像認識装置1000,1050を1台、文章特徴抽出装置2000を1台のみ示しているが、画像認識システム10,20は、複数の画像認識装置1000,1050を備えていてもよい。文章特徴抽出装置2000は、複数台の画像認識装置1000,1050に文章特徴を送信することができる。また、必要とされる計算能力に応じて、画像認識システム10,20は、複数台の文章特徴抽出装置2000を備えていてもよい。
【0074】
また、上記の実施の形態では、画像認識装置1000,1050の画像解析部1200が複数の候補領域を抽出した場合について説明したが、画像から抽出できる候補領域が1つの場合もある。この場合、図3および図5のステップS2130からステップS2190のループ処理が1回だけ実行されることとなる。
【0075】
なお、上記の実施の形態では、画像認識装置1000,1050は、文章特徴抽出装置2000から直接、文章特徴を受信することとしたが、かかる例に限定されない。画像認識装置1000,1050以外で文章特徴抽出処理が行われればよく、例えば、文章特徴抽出装置2000が抽出した文章特徴を、文章特徴抽出装置2000以外のコンピュータで記憶しておき、画像認識装置1000,1050は、文章特徴を記憶するコンピュータから文章特徴を受信してもよい。
【符号の説明】
【0076】
10,20 画像認識システム、90 処理回路、91 制御回路、92 プロセッサ、93 メモリ、1000,1050 画像認識装置、1100 画像取得部、1200 画像解析部、1300 文章特徴受信部、1350 文章特徴記憶部、1400 特徴比較部、1500 検出結果生成部、1600 検出結果送信部、2000 文章特徴抽出装置、2100 文章取得部、2200 文章特徴抽出部、2300 文章特徴送信部、3000 結果表示部。
【要約】
画像認識システム(10)は、文章特徴抽出装置(2000)と、画像認識装置(1000)と、を備える。文章特徴抽出装置(2000)は、ユーザが入力した自然言語の語句を取得する文章取得部(2100)と、自然言語の語句から文章特徴を抽出する文章特徴抽出部(2200)と、文章特徴を送信する文章特徴送信部(2300)と、を有する。画像認識装置(1000)は、文章特徴抽出装置(2000)から文章特徴を受信する文章特徴受信部(1300)と、画像データを取得する画像取得部(1100)と、画像データから候補領域、および、候補領域内の画像の特徴量である画像特徴を抽出する画像解析部(1200)と、文章特徴と、候補領域に対応する画像特徴とを比較して、比較結果を出力する特徴比較部(1400)と、比較結果に基づいて、検出対象の検出結果を生成する検出結果生成部(1500)と、を有する。
図1
図2
図3
図4
図5
図6
図7