(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025004942
(43)【公開日】2025-01-16
(54)【発明の名称】情報処理装置、情報処理方法、コンピュータプログラム、学習モデル、学習モデルの生成方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20250108BHJP
G06V 10/82 20220101ALI20250108BHJP
G06V 30/194 20220101ALI20250108BHJP
【FI】
G06T7/00 350C
G06V10/82
G06T7/00 660A
G06T7/00 300B
G06V30/194
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2023104858
(22)【出願日】2023-06-27
(71)【出願人】
【識別番号】503136772
【氏名又は名称】株式会社ユニテックス
(74)【代理人】
【識別番号】110003292
【氏名又は名称】弁理士法人三栄国際特許事務所
(72)【発明者】
【氏名】三田篤志
【テーマコード(参考)】
5B064
5L096
【Fターム(参考)】
5B064AB13
5B064DA27
5L096FA44
5L096FA46
5L096HA11
5L096JA11
5L096JA16
5L096KA15
5L096MA07
(57)【要約】
【課題】高い精度で画像を分類することができる。
【解決手段】少なくとも顔または数字を備える少なくとも1枚の画像に関する画像情報を取得する取得部と、画像から所定の領域の特徴量を算出する算出部と、画像を入力すると、特徴量に対応した識別記号を出力する学習済モデルである識別学習モデルを使用して、識別結果である識別記号を出力する識別部と、識別結果に基づいて、識別記号毎に画像を分類する分類部とを備えることを特徴とする情報処理装置
【選択図】
図1
【特許請求の範囲】
【請求項1】
少なくとも顔または数字を備える少なくとも1枚の画像に関する画像情報を取得する取得部と、
前記画像から所定の領域の特徴量を算出する算出部と、
前記画像を入力すると、前記特徴量に対応した識別記号を出力する学習済モデルである識別学習モデルを使用して、前記識別結果である前記識別記号を出力する識別部と、
前記識別結果に基づいて、前記識別記号毎に前記画像を分類する分類部
とを備えることを特徴とする情報処理装置。
【請求項2】
前記算出部は、
前記画像から顔領域の特徴量である顔特徴量を算出する顔特徴量算出部と、
前記画像から数字領域の特徴量である数字特徴量を算出する数字特徴量算出部
とを備えることを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記識別部は、
前記画像を入力すると、前記顔特徴量に対応した前記顔の人物名を出力する学習済モデルである顔学習モデルを使用して、前記人物名を出力する顔識別部と、
前記画像を入力すると、前記数字特徴量に対応した前記数字を出力する学習済モデルである数字学習モデルを使用して、前記数字を出力する数字識別部
とを備えることを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記分類部は、前記顔識別部および前記数字識別部による識別結果に基づいて、前記人物名毎および前記数字毎に分類することを特徴とする請求項3に記載の情報処理装置。
【請求項5】
少なくとも顔または数字を備える少なくとも1枚の画像に関する画像情報を読み込む読込ステップと、
前記画像から所定の領域の特徴量を算出する算出ステップと、
前記画像を入力すると、前記特徴量に対応した識別記号を出力する学習済モデルである識別学習モデルを使用して、前記識別結果である前記識別記号を出力する識別ステップと、
前記識別結果に基づいて、前記識別記号毎に前記画像を分類する分類ステップ
とを含むことを特徴とする情報処理方法。
【請求項6】
前記算出ステップは、
前記画像から顔領域の特徴量である顔特徴量を算出する顔特徴量算出ステップと、
前記画像から数字領域の特徴量である数字特徴量を算出する数字特徴量算出ステップ
とを含むことを特徴とする請求項5に記載の情報処理方法。
【請求項7】
前記識別ステップは、
前記画像を入力すると、前記顔特徴量に対応した前記顔の人物名を出力する学習済モデルである顔学習モデルを使用して、前記人物名を出力する顔識別ステップと、
前記画像を入力すると、前記数字特徴量に対応した前記数字を出力する学習済モデルである数字学習モデルを使用して、前記数字を出力する数字識別ステップ
とを含むことを特徴とする請求項6に記載の情報処理方法。
【請求項8】
前記分類ステップは、前記顔識別ステップおよび前記数字識別ステップによる識別結果に基づいて、前記人物名毎および前記数字毎に分類することを特徴とする請求項7に記載の情報処理方法。
【請求項9】
少なくとも顔または数字を備える少なくとも1枚の画像に関する画像情報を読み込む読込ステップと、
前記画像から所定の領域の特徴量を算出する算出ステップと、
前記画像を入力すると、前記特徴量に対応した識別記号を出力する学習済モデルである識別学習モデルを使用して、前記識別結果である前記識別記号を出力する識別ステップと、
前記識別結果に基づいて、前記識別記号毎に前記画像を分類する分類ステップ
とを含む処理をコンピュータに実行させることを特徴とするコンピュータプログラム。
【請求項10】
少なくとも1種類の顔および/または少なくとも1つの数字を含む1組の数字列を備える画像を入力する入力層と、
前記画像の顔領域から算出した顔特徴量に基づいて前記顔に対応する人物名および/または前記画像の数字領域から算出した数字特徴量に基づいて前記数字を出力する出力層と、
前記画像から算出された前記顔特徴量および/または前記数字特徴量に基づいてパラメータが学習される中間層とを備え、
前記画像が前記入力層に入力された場合、前記中間層による演算を経て、前記人物名および/または前記数字を前記出力層から出力するようにコンピュータに機能させる学習モデル。
【請求項11】
少なくとも1種類の顔および/または少なくとも1つの数字を含む1組の数字列を備える画像と、前記顔に対応する人物名および/または前記数字列とを備える教師データを取得する教師データ取得ステップと、
前記画像が入力されると、前記教師データに基づいて、前記人物名および/または前記数字列を出力する学習モデルを生成する学習モデル生成ステップ
とを含むことを特徴とする学習モデル生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像データの分類に関し、とくに、画像に撮像された顔や数字を識別し、識別結果に基づいて、画像データが備える属性ごとに画像データを分類する学習モデル、学習モデルの生成方法、情報処理装置、情報処理方法、コンピュータプログラムに関する。
【背景技術】
【0002】
従来から、コンピュータによる画像データの識別および分類する処理が行われている。識別および分類方法としては、画像データが有する電子データとしてのメタデータ、またはExchangeable image file format(以下において、「Exif」とする)写真用のメタデータをコンピュータが読み取り識別し、識別したデータに基づいて、分類していくものである。電子データとしてのメタデータには、データの名前、日付時刻、種類、サイズ、作成日時などがあり、Exifには、撮影日時、位置情報、画像全体の解像度などがある。メタデータ以外の情報に基づいて、画像データを識別および分類するのは困難であるという課題があった。そのような課題を解消するため、例えば、画像データに関する、各種メタデータ以外の情報を予め作成し、当該情報に基づいて画像データを分類する方法が知られている(引用文献1)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、画像に撮像された内容を自動的に識別し、分類することができず、依然として、撮像された内容を手動で作成しなければならないために、当該作成処理に膨大な時間を費やさなければならないという問題がある。
【0005】
本発明は斯かる事情に鑑みてなされたものであり、画像に撮像された顔や数字を識別し、識別結果に基づいて、画像データが備える属性ごとに画像データを分類する学習モデル、学習モデルの生成方法、情報処理装置、情報処理方法、コンピュータプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の一様態に係る情報処理装置は、少なくとも顔または数字を備える少なくとも1枚の画像に関する画像情報を取得する取得部と、前記画像から所定の領域の特徴量を算出する算出部と、前記画像を入力すると、前記特徴量に対応した識別記号を出力する学習済モデルである識別学習モデルを使用して、前記識別結果である前記識別記号を出力する識別部と、前記識別結果に基づいて、前記識別記号毎に前記画像を分類する分類部
とを備える。
【0007】
本発明の一様態に係る情報処理方法は、少なくとも顔または数字を備える少なくとも1枚の画像に関する画像情報を読み込む読込ステップと、前記画像から所定の領域の特徴量を算出する算出ステップと、前記画像を入力すると、前記特徴量に対応した識別記号を出力する学習済モデルである識別学習モデルを使用して、前記識別結果である前記識別記号を出力する識別ステップと、前記識別結果に基づいて、前記識別記号毎に前記画像を分類する分類ステップとを含む。
【0008】
本発明の一様態に係るコンピュータプログラムは、少なくとも顔または数字を備える少なくとも1枚の画像に関する画像情報を読み込む読込ステップと、前記画像から所定の領域の特徴量を算出する算出ステップと、前記画像を入力すると、前記特徴量に対応した識別記号を出力する学習済モデルである識別学習モデルを使用して、前記識別結果である前記識別記号を出力する識別ステップと、前記識別結果に基づいて、前記識別記号毎に前記画像を分類する分類ステップ
とを含む処理をコンピュータに実行させる。
【0009】
本発明の一様態に係る学習モデルは、少なくとも1種類の顔および/または少なくとも1つの数字を含む1組の数字列を備える画像を入力する入力層と、前記画像の顔領域から算出した顔特徴量に基づいて前記顔に対応する人物名および/または前記画像の数字領域から算出した数字特徴量に基づいて前記数字を出力する出力層と、前記画像から算出された前記顔特徴量および/または前記数字特徴量に基づいてパラメータが学習される中間層とを備え、前記画像が前記入力層に入力された場合、前記中間層による演算を経て、前記人物名および/または前記数字を前記出力層から出力するようにコンピュータに機能させる学習モデル。
【0010】
本発明の一様態に係る学習モデル生成方法は、少なくとも1種類の顔および/または少なくとも1つの数字を含む1組の数字列を備える画像と、前記顔に対応する人物名および/または前記数字列とを備える教師データを取得する教師データ取得ステップと、前記画像が入力されると、前記教師データに基づいて、前記人物名および/または前記数字列を出力する学習モデルを生成する学習モデル生成ステップとを含むことを特徴とする学習モデル生成方法。
【発明の効果】
【0011】
本発明によれば、画像に撮像されている顔画像および/または数字画像から、正確な人物名および数字を自動的に高精度で迅速に認識、識別および特定を実施することができる。
したがって、認識、識別および特定した人物名および数字に基づいて、画像データを分類および保存することができる。
そのため、ユーザは人物名検索、数字検索等の検索方式を活用可能となる。
また、所定の機械学習モデルを用いた識別器としての顔および数字の識別が学習処理を実行する際の学習時間を有効に短縮することを目的とする。
【0012】
なお、本発明により、画像に撮像されている顔画像および/または数字画像から、正確な人物名および数字を自動的に高精度で迅速に認識、識別および特定し、認識、識別および特定した人物名および数字に基づいて、画像データを分類および保存することができるため、ユーザは人物名検索、数字検索等の様々な方式の検索によって、目的の画像を簡易、簡便、迅速および確実に検出可能になることから、国連が主導する持続可能な開発目標(SDGs)の目標9「産業と技術革新の基盤をつくろう」に貢献することが可能となる。
【図面の簡単な説明】
【0013】
【
図1】本発明の実施形態1に係る情報処理装置の概略構成を示すブロック図である。
【
図2】本発明の実施形態1に係る情報処理装置が画像を識別して分類する処理を示すフローチャート図である。
【
図3】本発明の実施形態1に係る情報処理装置が画像を識別して分類する処理を示すフローチャート図である。
【
図4】本発明の実施形態1に係る情報処理装置の概略構成を示すブロック図である。
【
図5】本発明の実施形態1に係る情報処理装置が画像を識別して分類する処理を示すフローチャート図である。
【
図6】本発明の実施形態1に係る情報処理装置が画像を識別して分類する処理を示すフローチャート図である。
【
図7】本発明の実施形態1に係る情報処理装置の元画像に対する前処理を説明する概要図である。
【
図8】本発明の実施形態1に係る情報処理装置の元画像に対する前処理を説明する概要図である。
【
図9】本発明の実施形態1に係る情報処理装置の元画像に対する前処理を説明する概要図である。
【
図10】本発明の実施形態1に係る情報処理装置の元画像に対する前処理を説明する概要図である。
【
図11】本発明の実施形態1に係る情報処理装置の元画像に対する前処理を説明する概要図である。
【
図12】本発明の実施形態1に係る情報処理装置の元画像に対する前処理を説明する概要図である。
【
図13】本発明の実施形態1に係る情報処理装置の元画像に対する前処理を説明する概要図である。
【
図14】本発明の実施形態1に係る情報処理装置の元画像に対する前処理を説明する概要図である。
【
図15】本発明の実施形態1に係る情報処理装置の元画像に対する前処理を説明する概要図である。
【
図16】本発明の実施形態1に係る情報処理装置の元画像に対する前処理を説明する概要図である。
【
図17】本発明の実施形態1に係る情報処理装置の元画像に対する前処理を説明する概要図である。
【
図18】本発明の実施形態1に係る情報処理装置の元画像に対する前処理を説明する概要図である。
【
図19】本発明の実施形態1に係る情報処理装置の元画像に対する前処理を説明する概要図である。
【
図20】本発明の実施形態1に係る情報処理装置の元画像に対する前処理を説明する概要図である。
【
図21】本発明の実施形態1に係る情報処理装置の元画像に対する前処理を説明する概要図である。
【
図22】本発明の実施形態1に係る情報処理装置の元画像に対する前処理を説明する概要図である。
【
図23】本発明の実施形態1に係る情報処理装置の元画像に対する前処理を説明する概要図である。
【
図24】本発明の実施形態1に係る情報処理装置の元画像に対する前処理を説明する概要図である。
【
図25】本発明の実施形態1に係る情報処理装置による特徴量の算出方法を説明する概要図である。
【
図26】本発明の実施形態1に係る情報処理装置による特徴量の算出方法を説明する概要図である。
【
図27】本発明の実施形態1に係る情報処理装置による特徴量の算出方法を説明する概要図である。
【
図28】本発明の実施形態1に係る情報処理装置による特徴量の算出方法を説明する概要図である。
【
図29】本発明の実施形態1に係る情報処理装置による特徴量の算出方法を説明する概要図である。
【
図30】本発明の実施形態1に係る情報処理装置による特徴量の算出方法を説明する概要図である。
【
図31】本発明の実施形態1に係る情報処理装置による特徴量の算出方法を説明する概要図である。
【
図32】本発明の実施形態1に係る情報処理装置による特徴量の算出方法を説明する概要図である。
【
図33】本発明の実施形態1に係る情報処理装置による特徴量の算出方法を説明する概要図である。
【
図34】本発明の実施形態1に係る情報処理装置による特徴量の算出方法を説明する概要図である。
【
図35】本発明の実施形態1に係る学習モデルの生成処理に関する説明図である。
【
図36】本発明の実施形態1に係る学習モデルの生成処理に関する説明図である。
【
図37】本発明の実施形態1に係る学習モデルの生成処理に関する説明図である。
【
図38】本発明の実施形態1に係る学習モデルの生成処理に関する説明図である。
【
図39】本発明の実施形態1に係る画像処理に関するフローチャート図である。
【
図40】本発明の実施形態1に係る画像処理に関するフローチャート図である。
【
図41】本発明の実施形態1に係る学習モデルの生成処理に関する説明図である。
【
図42】本発明の実施形態1に係る学習モデルの生成処理に関する説明図である。
【
図43】本発明の実施形態1に係る学習モデルの生成処理に関する説明図である。
【
図44】本発明の実施形態1に係る学習モデルの生成処理に関する説明図である。
【
図45】本発明の実施形態1に係る学習モデルの生成処理に関する説明図である。
【
図46】本発明の実施形態1に係る学習モデルの生成処理に関する説明図である。
【
図47】本発明の実施形態1に係る学習モデルの生成処理に関する説明図である。
【
図48】本発明の実施形態1に係る情報処理装置の分類処理に関する説明図である。
【
図49】本発明の実施形態1に係る情報処理装置の分類処理に関する説明図である。
【
図50】本発明の実施形態1に係る情報処理装置の分類処理に関する説明図である。
【
図51】本発明の実施形態1に係る情報処理装置の分類処理に関する説明図である。
【
図52】本発明の実施形態1に係る情報処理装置の分類処理に関する説明図である。
【
図53】本発明の実施形態1に係る情報処理装置の分類処理に関する説明図である。
【
図54】本発明の実施形態1に係る情報処理装置の分類処理に関する説明図である。
【
図55】本発明の実施形態1に係る情報処理装置の分類処理に関する説明図である。
【
図56】本発明の実施形態1に係る情報処理装置の分類処理に関する説明図である。
【
図57】本発明の実施形態1に係る情報処理装置の機能を実現するハードウェア構成図である。
【発明を実施するための形態】
【0014】
以下、本発明の実施形態について図面を参照して説明する。ただし、以下の実施の形態に記載されている構成要素は単なる例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。なお、本明細書における文言「画像」および「図面」は、文脈によって、共に概念を示す場合もあり、具体的なデータを示す場合もある。「画像」は視覚的に定着された事象を指し、撮像された任意の事象含む。そのため、画像に人物の顔が撮像されている場合は、その一部または全部を指して「顔画像」、画像に数字が撮像されている場合は、その一部または全部を指して「数字画像」と記載する。
【0015】
なお、説明の便宜上、添付図面の各図に付与された同一または類似の符号および名称は、特に言及が無い限り、同一または類似の要素、同一部分または相当部分を示すものとし、また同様の構造および/または機能を有する要素を意図し、必要以上に詳細な説明は省略する場合がある。
【0016】
さらに、各実施形態の説明において同一または類似の要素に関する重複する説明は、適宜簡略化あるいは省略する。また、各実施形態で示される特徴は、互いに矛盾しない限り他の実施形態にも適用可能である。
また、本実施形態において「~」の記号を用いて数値範囲を表す場合があるが、「~」の前後に記載される数値は当該数値範囲に含まれる。
【0017】
(実施形態1)
[情報処理装置/情報処理方法]
図1は、本発明の実施形態1に係る情報処理装置1の概略構成を示すブロック図である。
情報処理装置1は、種々の情報処理、情報の送受信が可能な情報処理装置であり、コンピュータである。コンピュータには、使用目的、仕様、スペック、性能等により、パーソナルコンピュータ(パソコン)、ワークステーション、サーバコンピュータ(サーバ)、メインフレーム、スーパーコンピュータ(スパコン)、ウルトラコンピュータ、ミニコンピュータ(ミニコン)、オフィスコンピュータ(オフコン)、ポケットコンピュータ(ポケコン)、マイクロコンピュータ(マイコン)、携帯情報端末(PDA)およびシーケンサ(PLC:プログラマブルロジックコントローラ)等のように分類されるが、情報処理装置は、これらのすべてが適用可能である。また、インターネット等のネットワークNを介して通信可能に接続されたクラウドコンピュータが、情報処理装置1の処理を実行することも可能である。
本発明の実施形態1に係る情報処理装置1は、パーソナルコンピュータとし、以下に説明する。
【0018】
本発明の実施形態1に係る情報処理装置1は、画像データを読み込み、読み込んだ画像データに基づいて画像処理(加工処理)等された画像等のデータを学習モデルに入力し、画像データに撮像されている顔の人物および/または数字と一致する顔を有する人物の名称および/または数字をそれぞれ出力するよう学習モデルを学習させ、画像データを入力した際に、識別ラベルまたは識別記号である人物名および/または数字を、機械学習により学習済みの学習モデル62を用いて出力し、人物名および/または数字に基づいて画像データを分類する処理を行う。
学習モデル62は、人工知能ソフトウェアの一部であるプログラムモジュールとしての利用が想定される。
情報処理装置1は、
図1に示すように、情報処理装置1は、取得部10、第1記憶部20、第2記憶部60および制御部100を備える。
【0019】
制御部100は、1つまたは複数のCPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)等の演算処理装置を有し、第2記憶部60に記憶されたプログラム63を読み出して実行することにより、情報処理装置1に係る種々の情報処理、制御処理等を行う。
図1の各機能部は、制御部100がプログラム63に基づいて動作することにより実行される。
【0020】
制御部100は、機能部として、画像から所定の領域の特徴量を算出する算出部30と、画像を入力すると、特徴量に対応した識別記号を出力する学習済モデルである識別学習モデルを使用して、識別結果である識別記号を出力する識別部40と、識別結果に基づいて、識別記号毎に画像を分類し、分類結果を出力する分類部50とを備える。
【0021】
取得部10は、第1記憶部20に蓄積された静止画像および動画像の画像等のデータを読み込んで、少なくとも顔または数字を備える少なくとも1枚の画像に関する画像情報を取得する。
【0022】
算出部30は、取得部10から出力された画像データ等を入力し、画像データが有する特定の情報の特徴量を算出する。算出部30は、さらに、画像データに表示された人間の顔についての特徴量を算出する顔特徴量算出部31と、画像データに表示された数字についての特徴量を算出する数字特徴量算出部32を備える。
【0023】
識別部40は、算出部30が算出した特徴量に応じて識別記号を出力する。ここで識別記号とは、顔特徴量については該当する顔を有する人間の名称であり、数字特徴量については数字である。すなわち識別部40は、顔特徴量および数字特徴量に基づいて、識別学習モデルにより人間の顔および数字を識別記号の形式で識別する。
【0024】
分類部50は、識別部40が識別した識別記号に基づいて、画像データを分類して出力し、第2記憶部60に蓄積する。分類方法は、後述するように、予め設定した分類ルールに基づいて行う。
【0025】
第2記憶部60は、大容量メモリ、ハードディスク等であり、制御部100が処理を実行するために必要なプログラム63、その他のデータを備えている。また、第2記憶部60は、図面/情報DB61および学習モデル62を備えている。図面/情報DB61は、画像、画像に撮像された人物名、人物名に対応付けられた数字、画像の撮像日時、画像データのデータ形式等に関するデータを格納したデータベースである。
【0026】
第2記憶部60に記憶されるプログラム63は、プログラム63を読み取り可能に記録した記録媒体より提供されてもよい。記録媒体は、例えば、USB(Universal Serial Bus)メモリ、SD(Secure Digital)カード、マイクロSDカード、コンパクトフラッシュ(登録商標)等の可搬型のメモリである。記録媒体に記録されるプログラム63は、図に示していない読取装置を用いて記録媒体から読み取られ、補助記憶部60に保存される。また、情報処理装置1が外部通信装置と通信可能な通信部を備える場合、第2記憶部60に記憶されるプログラム63は、図示していない通信部を介した通信により提供されてもよい。
【0027】
なお、第2記憶部60には、情報処理装置1に接続された外部記憶装置を適用可能である。また、情報処理装置1には、複数のコンピュータからなるマルチコンピュータを適用可能であり、ソフトウェアによって仮想的に構築された仮想マシンも適用可能である。
【0028】
また、制御部100は、第2記憶部60が備える図面/情報DB61、学習モデル62およびプログラム63が有するデータおよびプログラムを追加、削除および編集も実施可能である。
【0029】
本願は、様々な例示的な実施の形態および実施例が記載されているが、1つ、または複数の実施の形態に記載された様々な特徴、態様、および機能は特定の実施の形態の適用に限られるのではなく、単独で、または様々な組み合わせで実施の形態に適用可能である。したがって、例示されていない無数の変形例が、本願明細書に開示される技術の範囲内において想定される。
すなわち、本実施例により、開示技術が限定されるものではない。また、以下に示す各実施例は、矛盾を起こさない範囲で適宜変形しても良い。
【0030】
たとえば、少なくとも1つの構成要素を変形する場合、追加する場合または省略する場合、さらには、少なくとも1つの構成要素を抽出し、他の実施の形態の構成要素と組み合わせる場合が含まれるものとする。また、図において、同一符号は、同一または相当部分を示す。
【0031】
さらに、以下に示す実施の形態は、本発明の理解を容易にするための例示に過ぎず、本発明を限定して解釈するためのものではない。本発明は、その趣旨を逸脱することなく、変更、改良することができると共に、本発明にはその均等物が含まれることは言うまでもない。
【0032】
また、図示した各部の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各部の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置で行われる各種処理機能は、CPU(Central Processing Unit)(またはMPU(Micro Processing Unit)、MCU(Micro Controller Unit)等のマイクロコンピュータ)上で、その全部または任意の一部を実行するようにしても良い。また、各種処理機能は、CPU(またはMPU、MCU等のマイクロコンピュータ)で解析実行するプログラム上、またはワイヤードロジックによるハードウェア上で、その全部または任意の一部を実行するようにしても良いことは言うまでもない。
図2は、報処理装置1が画像を識別して分類する処理を示すフローチャート図である。
ステップ1(S01)で、取得部10は、顔画像および/または数字画像を備える画像データを読み込む。
ステップ2(S02)で、算出部30は、所定のルールに則って画像の特徴量を算出する。
ステップ3(S03)で、識別部40は、学習済モデルである識別学習モデルを使用して、算出部30が算出した特徴量に対応する識別記号を出力する。
ステップ4(S04)で、分類部50は、識別記号に応じて画像データを分類する。
【0033】
図3は、情報処理装置1が、画像を識別して分類する処理を示すフローチャートであって、画像の種類に応じた異なる特徴量を算出するフローチャート図である。
ステップ1(S01)で、取得部10は、顔画像および/または数字画像を備える画像データを読み込む。
ステップ2-1(S021)で、顔特徴量算出部31は、所定のルールに則って顔画像の特徴量である顔特徴量を算出する。
ステップ2-2(S022)で、数字特徴量算出部32は、所定のルールに則って数字画像の特徴量である数字特徴量を算出する。
ステップ3(S03)で、識別部40は、学習済モデルである識別学習モデルを使用して、算出部30が算出した特徴量に対応する識別記号を出力する。
ステップ4(S04)で、分類部50は、識別記号に応じて画像データを分類する。
図4は、情報処理装置1が前処理部70を更に備える場合のブロック図の一部である。
情報処理装置1は、算出部30での処理の速度等を最適化するための前処理部70を備えることが可能である。
前処理部70は、算出部30の処理の高速化および精度の向上を目的とする。
前処理部70は、顔認識前処理部71および数字認識前処理部72を更に備える。
【0034】
顔認識前処理部71は、取得部10から出力された画像データ等を入力し、画像データが有する顔に関する情報の前処理を実施する。顔認識前処理部71は、前処理の実施後、前処理が施された画像データを算出部30が備える顔特徴量算出部31に出力する。
【0035】
数字認識前処理部72は、取得部10から出力された画像データ等を入力し、画像データが有する数字に関する情報の前処理を実施する。数字認識前処理部72は、前処理の実施後、前処理が施された画像データを算出部30が備える数字特徴量算出部32に出力する。
【0036】
図5は、情報処理装置1が画像を識別して分類する処理を示すフローチャート図である。
ステップ1(S11)で、取得部10は、顔画像および/または数字画像を備える画像データを読み込む。
ステップ2(S12)で、前処理部70は、算出部30の処理の速度や精度が向上するように画像データの前処理を実施する。
ステップ3(S13)で、算出部30は、所定のルールに則って前処理部70が前処理した画像データにおける画像の特徴量を算出する。
ステップ4(S14)で、識別部40は、学習済モデルである識別学習モデルを使用して、算出部30が算出した特徴量に対応する識別記号を出力する。
ステップ5(S15)で、分類部50は、識別記号に応じて画像データを分類する。
【0037】
図6は、情報処理装置1が、画像を識別して分類する処理を示すフローチャートであって、画像の種類に応じた異なる前処理を実施し、画像の種類に応じた異なる特徴量を算出するフローチャート図である。
ステップ1(S11)で、取得部10は、顔画像および/または数字画像を備える画像データを読み込む。
【0038】
ステップ2-1(S121)で、顔認識前処理部71は、顔特徴量算出部31の処理の速度や精度が向上するように画像データにおける顔画像の前処理を実施する。
【0039】
ステップ2-2(S122)で、数字認識前処理部72は、数字特徴量算出部32の処理の速度や精度が向上するように画像データにおける数字画像の前処理を実施する。
【0040】
ステップ3-1(S131)で、顔特徴量算出部31は、所定のルールに則って顔認識前処理部71が前処理した画像データにおける顔画像の特徴量である顔特徴量を算出する。
【0041】
ステップ3-2(S132)で、数字特徴量算出部32は、所定のルールに則って数字認識前処理部72が前処理した画像データにおける数字画像の特徴量である数字特徴量を算出する。
ステップ4(S14)で、識別部40は、学習済モデルである識別学習モデルを使用して、算出部30が算出した特徴量に対応する識別記号を出力する。
ステップ5(S15)で、分類部50は、識別記号に応じて画像データを分類する。
[画像縮小化処理]
【0042】
図7は、前処理部70が備える顔認識前処理部71の元画像に対する前処理を説明する概要図である。顔画像認識のための前処理である顔画像前処理の実施内容である。
顔認識前処理部71は、元画像を縮小化して画像Aを取得する。
【0043】
顔認識前処理部71は、画像の縮小のために、画像データを縦または横の最大が1024ピクセルになるよう、元のピクセル数を整数で除算したピクセル数に縮小する。この際、アスペクト比に影響がないように、縦横ともに同整数で除算する。
画像を縮小することで、処理の負荷が軽減され、処理の高速化に寄与するという効果を発揮する。
[顔明瞭エリア抽出処理]
【0044】
図8は、前処理部70が備える顔認識前処理部71の元画像に対する前処理を説明する概要図である。顔画像認識のための前処理である顔画像前処理の実施内容である。
つぎに、顔認識前処理部71は、画像データに写った顔画像における顔の明瞭エリアを抽出するために、以下のような処理を施す。
【0045】
明瞭エリアのみを顔認識の対象とすることで、処理対象領域の減少によって処理への負荷が軽減され、処理の高速化に貢献するという効果を奏する。さらに、明瞭エリアを対象とするため、顔または数字の認定精度の向上に寄与するという効果を奏する。
(1)顔認識前処理部71は、縮小画像Aを例えばバイラテラルフィルタにより平滑化し、
図8に示すような画像Bを取得する。
ここで、バイラテラルフィルタとは、基本的な平滑化のフィルタ処理の一つであり、エッジ保存平滑化フィルタの一種である。
画像処理では、2値化などの抽出処理の前処理としてノイズ軽減やエッジなどの特徴を強調するために「フィルタ処理」が頻繁に使用される。
【0046】
バイラテラルフィルタは、後述するガウシアンフィルタがベースのフィルタである。ガウシアンフィルタでは画面全体を一様にぼかしていたのが、バイラテラルフィルタでは画像のエッジとなる部分を残しながらぼかしていく。
バイラテラルフィルタはガウシアンフィルタのカーネルに輝度差に基づいて重みを付けることで、エッジ保存する平滑化を実現できる。
なお、平滑化またはスムージング処理とは、平易には画像をぼかすことであり、画素値の変化を滑らかにすることである。
ノイズやエッジは、画素値の急激な変化であるため、平滑化により、ノイズやエッジを消したり、目立たなくしたりすることができる。
【0047】
このように、ローパスフィルタおよびハイパスフィルタを用いて画像を処理することで、画像に入っている不鮮明な部分を鮮明化したり、含まれているノイズを取り除いたりすることが可能となる。
(2)顔認識前処理部71は、画像Bにガウシアンフィルタを使用したガウシアンぼかしを実施し、
図9に一部を示す画像Cを取得する。
【0048】
図9は、前処理部70が備える顔認識前処理部71の元画像に対する前処理を説明する概要図である。顔画像認識のための前処理である顔画像前処理の実施内容である。
【0049】
ここで、ガウシアンフィルタとは、画像をぼかして滑らかにするフィルタであって、いわゆるガウスぼかしと呼ばれる平滑化フィルタ処理であり、平滑化の重み付けにガウス関数を利用したフィルタ処理である。
ガウシアンぼかしとは、ガウス関数をもちいて画像をぼかす処理である。
デジタルカメラの撮像画像などからのノイズの除去、アンシャープマスク処理、エッジ抽出の前処理などに応用できる。
【0050】
ガウス関数によって与えられる確率分布であるガウス分布は、処理対象となる中央の注目画素が最も重みが大きくなり、外側の画素ほど重みが小さくなるよう計算されている。
そのため、他のフィルタよりも元々の画像に近い形を維持できる。
しかしながら、ガウシアンフィルタは注目画素の近傍領域に対して重み付け平均した値を出力する。
これはガウシアンフィルタが注目画素の近傍の画素のみを考慮した関数であることを意味する。
【0051】
近傍領域内の画素が似たような値を持っているか否か、注目画素がエッジ上に存在するか否かなどは考慮されない。結果としてガウシアンフィルタはエッジの劣化が不可避である。
(3)顔認識前処理部71は、画像Bおよび画像Cの差分画像を作成し、
図10に示すような画像Dを取得する。
【0052】
図10は、前処理部70が備える顔認識前処理部71の元画像に対する前処理を説明する概要図である。顔画像認識のための前処理である顔画像前処理の実施内容である。
【0053】
(4)顔認識前処理部71は、顔領域検出のため、画像Dを、
図11に示すように、例えば縦に8分割、横に10分割し、それぞれの領域で画素値の偏差を求める。
【0054】
図11は、前処理部70が備える顔認識前処理部71の元画像に対する前処理を説明する概要図である。顔画像認識のための前処理である顔画像前処理の実施内容である。
(5)顔認識前処理部71は、顔領域検出のため、偏差が予め設定した閾値を超える値の領域のみを並べ、最も大きな連続領域を抽出する。
図12は、前処理部70が備える顔認識前処理部71の元画像に対する前処理を説明する概要図である。
顔画像認識のための前処理である顔画像前処理の実施内容である。
【0055】
本実施例では、網掛け部分(実線横格子パターンのセルおよび実線左下がり斜線格子パターンのセル)が、偏差が閾値以上の領域を示す。実線左下がり斜線格子パターンのセルは、最終的に抽出される領域を示している。
顔認識前処理部71は、当該最も大きな連続領域を顔領域として認定する。
【0056】
明瞭エリア抽出処理を実施することで、注目部分のみを処理対象とすることによる高速化に加え、非注目部分に映る人物を教師データ内の似た人物と誤判定してしまう可能性を削減することができるという効果を奏する。
[顔識別処理]
【0057】
つづいて、算出部30が備える顔特徴量算出部31は、前処理の実施により得られた、
図12に示す最も大きな連続領域である実線左下がり斜線格子パターンのセルの領域について特徴量を算出する。
【0058】
顔特徴量算出部31は、算出した特徴量を、後述する顔識別用の学習済みモデルの学習時に使用した全教師データの特徴量の平均値と、同様に学習時に使用した全教師データの特徴量の標準偏差を用いて、次のように標準化する。
【0059】
ただし、V’は顔識別用の学習済みモデルの標準化後の特徴量、μは顔識別用の学習済みモデルの学習時に使用した全教師データの特徴量の平均値、σは顔識別用の学習済みモデルの学習時に使用した全教師データの特徴量の標準偏差とする。
【0060】
つぎに、識別部40が備える顔識別部41は、標準化した特徴量V‘を後述する学習済みモデルへ入力することにより、正解値の特徴量である推定結果の顔ラベルを取得することができ、さらに確度情報も取得することができる。
ここで、顔識別処理によって得られる顔ラベルは、学習した教師ラベルと同一で、顔画像に対応し、正解の分類である人物名等が該当する。
また確度は、正解ラベルとして取得した顔ラベルの正解の度合いを示しており、相対的には他のラベルとの相違度を示す数値である。
正解ラベルとして取得する顔ラベルは、付属する確度が最も大きいものとなる。
【0061】
このようにして、顔識別処理対象の画像データから複数の異なる顔ラベルが得られた場合、当該画像データには複数の人物の顔が表示されていると識別されたことになる。
【0062】
また、同一画像データに、同一顔ラベルが複数識別された場合、すなわち、ひとつの画像に同一人物が複数写っていると識別された場合は、確度が最大のものを該当する正解の顔ラベルとして採用する。
【0063】
[画像縮小化処理]
数字認識前処理部72は、元画像1を縮小化して画像A1を取得する。
図13は、前処理部70が備える数字認識前処理部72の元画像に対する前処理を説明する概要図である。数字画像認識のための前処理である数字画像前処理の実施内容である。
【0064】
数字認識前処理部72は、画像の縮小のために、画像データを縦または横の最大が1024ピクセルになるよう、元のピクセル数を整数で除算したピクセル数に縮小する。この際、アスペクト比に影響がないように、縦横ともに同整数で除算する。
画像を縮小することで、処理の負荷が軽減され、処理の高速化に寄与するという効果を発揮する。
[二値化処理]
つぎに、数字認識前処理部72は、縮小化で得られた画像A1を二値化して画像B1を取得する。
図14は、前処理部70が備える数字認識前処理部72の元画像に対する前処理を説明する概要図である。
数字画像認識のための前処理である数字画像前処理の実施内容である。
【0065】
数字認識前処理部72は、画像A1に表示された数字部分を白、その他の領域を黒として二値化を実施する。
数字認識前処理部72は、画像に表示された数字の背景色を指定することも可能である。すなわち、
図15に示すように、画像に複数の数字が表示されており、各数字の背景色が異なる際、二値化処理する数字は背景が赤のみに該当する数字、背景が青のみに該当する数字等、数字の背景を指定して処理することも可能である。
数字認識前処理部72の二値化処理により、数字が強調され、他の模様等と区別しやすくなるという効果を奏する。
【0066】
図15は、前処理部70が備える数字認識前処理部72の元画像に対する前処理を説明する概要図である。数字画像認識のための前処理である数字画像前処理の実施内容である。
【0067】
図15(a)は、背景が赤色で数字が黒色の3,背景が青色で数字が黒色の5、背景が黄で数字が黒色の7および背景が緑で数字が黒色の9が同時に写されている画像を示している。
【0068】
図15(b)は、背景が赤色で数字が白色の3,背景が青色で数字が白色の5、背景が黄で数字が白色の7および背景が緑で数字が白色の9が同時に写されている画像を示している。
【0069】
本発明にかかる数字識別処理における二値化処理は、数字の色と背景の色とのコントラストによって、数字を黒およびその他を白とすることも可能であり、数字を白およびその他を黒とすることも可能である。
また、白は数字および黒はその他と固定し、黒の数字についてはその他として処理することも可能である。
【0070】
さらに、二値化処理の判定で白は数字および黒はその他と固定し、黒の数字および白のその他のみ判定された場合、数字およびその他における明度を反転させて、その後の処理を継続することも可能である。
【0071】
[数字領域認識処理]
つぎに、数字認識前処理部72は、前処理にて作成した
図16に示す画像C1について、以下の条件をすべて満たす数字領域であって、検出した各数字領域を二値化処理後の画像から切り出したものを数字の識別処理を実施する数字識別領域として認識する。
図16は、前処理部70が備える数字認識前処理部72の元画像に対する前処理を説明する概要図である。
【0072】
図16に示すように、数字認識前処理部72は、
図14の画像B1から数字の領域である画像C1取得する。
取得する数字は、
図16の画像B1において破線で示されるような数字に外接する矩形領域として切り取られた構成となる。
(ア)数字領域が画像の端を含まないこと。
これは、そもそも画像の端が、数字の境界線を構成する要素とはなり得る確率が非常に小さいためである。
図17は、前処理部70が備える数字認識前処理部72の元画像に対する前処理を説明する概要図である。
【0073】
図17に示すように、画像D1では、数字らしき領域(画像C1における数字の3に該当する)が画像の右端を含むため、数字認識前処理部72は数字識別領域と認識しない。
【0074】
(イ)数字領域の面積が想定最小面積より大きく、想定最大面積よりも小さいこと。
ここで、想定最小面積Dminおよび想定最大面積Dmaxは、処理精度を適切にするために予め定めた閾値であり、設定されたパラメータである。
【0075】
例えば、想定最小面積Dminは元画像サイズの一定の縮小サイズでもよく、想定最大面積Dmaxは、想定最小面積Dminにおける元画像サイズの縮小サイズよりも大きい一定の縮小サイズであるよう定めることができる。
【0076】
このようにして、
図18に示すように、数字領域認識処理においては、想定最小面積および想定最大面積の範囲内にある数字領域のみを数字識別領域として数字識別処理の対象とすることができる。
図18は、前処理部70が備える数字認識前処理部72の元画像に対する前処理を説明する概要図である。
(ウ)元画像中の数字領域内を横方向に走査したとき、同一行に輝度の勾配が左向きのものと右向きのものとが一定の距離D
grad内で存在すること。
【0077】
なお、輝度の勾配とは、数字領域が黒の場合、
図19に示すような外側から内側へ、白から黒に向かうベクトルとして求められる。
図19に記載の矢印は輝度の勾配ベクトルを示している。
図19は、前処理部70が備える数字認識前処理部72の元画像に対する前処理を説明する概要図である。
【0078】
このとき、二値化処理後の数字を黒とし、数字の背景を白とすると、
図20に示すような勾配ベクトルを得ることができる。数字の5を構成する縦線部分の判定において、格子パターンの矢印では矢印間の距離D1が予め設定した矢印間の距離D
gradよりも長いので判定対象外とし、右下がり対角ストライプパターンの矢印D2、D3では予め設定した矢印間の距離D
gradよりも短いので判定対象とする。
【0079】
したがって、
図20に記載の数字の5は、一定の距離D
grad内に左右それぞれの勾配ベクトルを持つ縦線部分が存在するため、数字識別領域として数字識別処理の対象とすることができる。
図20は、前処理部70が備える数字認識前処理部72の元画像に対する前処理を説明する概要図である。
【0080】
なお、
図16の画像C1および
図17の画像D1に示すそれぞれの数字領域は、条件(ア)~(ウ)を満たすため、数字認識前処理部72は数字2および3をそれぞれ含む矩形領域である数字領域を数字識別領域として認識する。
ここで、上記条件(ア)~(ウ)を満たした数字識別領域のうち、重なっているもしくは隣接しているものについては結合して1つの数字識別領域とする。
[数字識別領域の統合処理]
【0081】
数字は一桁だけでなく二桁以上の複数の桁も存在するため、上記条件を満たしたエリアのうち、重なっている数字領域もしくは隣接している数字領域については、結合した1つの数字領域としてみなす。
【0082】
なお、数字領域に関する隣接の距離である数字領域隣接距離Dnumは、複数桁として成立する数字列の距離から経験則的に予め設定することも可能であり、印字される環境ごとに予め設定することも可能である。
【0083】
例えば、ユニフォームの背番号の数字のサイズ、場所、位置等の構成および仕様は、ユニフォームを製作するメーカーごとに決まっているため、当該構成および仕様に従って数字領域の統合処理を予め設定することが可能である。
また、車体のナンバープレート等なども同様である。
【0084】
ただし、法規上公道走行が可能な車両でタイムアタックをする自動車競技であるラリーや、参戦チームが独自に開発した車体でレースが行われるフォーミュラ1などで車体に付される数字は、一定の基準に則って構成されてはいるが、当該基準には一定の範囲があるため、車体によって数字の構成等には差異があるため、「車体に付される数字」における経験則に基づいて数字領域隣接距離Dnumを設定することができる。
ここで、数字領域隣接距離Dnumは、各数字領域の最近接の辺間の距離である。
【0085】
複数の数字において複数桁として結合処理するか否かの判定は、例えば、1.実際の数字領域隣接距離Dnumが、判定基準となる数字領域隣接距離Dtと同一であるか否か、すなわちDnum=DtまたはDnum≠Dtを条件としても可能であり、2.画像を取得した環境等の状態により、実体から変形(布などの生地の場合、シワなどで領域等の形状が変異するため)が生じる誤差を考慮して、予め設定した閾値Dt以下であるか否か、すなわちDnum≦DtまたはDnum>Dtを条件としても可能である。
【0086】
ただし、数字の付された環境や撮像環境等を考慮した場合、判定式によって判定結果が異なってくるため、一定の範囲を含む判定式の方が正確な結果を生じやすいといえる。
【0087】
図21(a)では、実際の数字領域隣接距離D
num=D
aが判定基準となる数字領域隣接距離D
tよりも小さいため2桁の数字と判定し、数字認識前処理部72は数字領域を結合させる。
【0088】
図21(b)では、2つの数字の数字領域が重なっており、実際の数字領域隣接距離D
num=D
bが数字領域隣接距離Dtよりも小さいため、数字認識前処理部72は2桁の数字と判定し、数字領域を結合させる。
【0089】
一方、
図21(c)では、実際の数字領域隣接距離D
num=D
cが判定基準となる数字領域隣接距離D
tよりも大きいため、数字認識前処理部72は2つの数字は1桁の別個の数字と判定する。
図21は、前処理部70が備える数字認識前処理部72の元画像に対する前処理を説明する概要図である。
図22は、前処理部70が備える数字認識前処理部72の元画像に対する前処理を説明する概要図である。
【0090】
なお、輝度の勾配は、背景が黒、数字が白の数字領域に対しては、外側から内側へ黒から白に向かうベクトルとして規定することも可能である。
図22の矢印が輝度の勾配ベクトルに該当する。
図23は、前処理部70が備える数字認識前処理部72の元画像に対する前処理を説明する概要図である。
数字が白で数字の背景が黒の場合、
図22に示す勾配ベクトルのルールに基づくと、
図23に示すような勾配ベクトルを表示することができる。
図24は、前処理部70が備える数字認識前処理部72の元画像に対する前処理を説明する概要図である。
【0091】
図24に示すように、同一画像中に、数字領域が白の領域と黒の領域の2つの領域が併存する場合は、
図19および
図22に示す勾配ベクトルのルールをそれぞれを用いて数字識別領域を認識することも可能である。
ただし、本実施の形態では、数字領域が白であり、背景が黒であるものとして説明する。
図25は、算出部30が備える数字特徴量算出部32が数字識別領域の特徴量の算出方法を説明する概要図である。
図25(c)、(d)は、それぞれ数字3および5の数字識別領域である
図25(a)、(b)に対する上下反転画像を示している。
【0092】
なお、
図25~28では、説明明確化のため、便宜的に数字の領域を黒色、その他の領域を白色で記載している。
図25(a)および
図25(c)から明らかなように、数字3は上下を反転しても形状が近似しているため、相関係数は大きいと言える。
一方、
図25(b)および
図25(d)から明らかなように、数字5は上下を反転すると形状が大きく異なるため、相関係数は小さいと言える。
[数字識別処理]
つづいて、算出部30が備える数字特徴量算出部32は、前処理の実施により得られた数字識別領域について以下(A)~(N)の特徴量を算出する。
以下において算出する特徴量は、2桁以下の数字に対する処理を示している。
(A)元画像の画素のアスペクト比
(B)外接矩形である数字識別領域の上下反転した画像と、反転前の画像との相関係数
【0093】
数字特徴量算出部32は、
図25(a)、(b)に示す数字識別領域と、
図25(a)、(b)に示す数字識別領域を上下反転した画像である
図25(c)、(d)に示す数字識別領域とについて、それぞれの相関係数を算出する。
図25(a)、(c)の相関係数は、
図25(a)の画素値をx、
図25(c)の画素値をyとして(B)に記載の式で算出される。
図25(b)、(d)の相関係数は、
図25(b)の画素値をx、
図25(d)の画素値をyとして(B)に記載の式で算出される。
なお、相関係数γは、以下の式で算出する。
ただし、S
xyはxの画素値とyの画素値との共分散、σ
xはxの画素値から求めた標準偏差、σ
yはyの画素値から求めた標準偏差である。
ここで、
図25(a)の数字識別領域の縦×横=20ピクセル(画素)×10ピクセル(画素)とすると、xの画素値は20×10=200となる。
【0094】
(C)外接矩形である数字識別領域を左右反転した画像と反転前の画像との相関係数
数字特徴量算出部32は、
図26(a)、(b)に示す数字識別領域と、
図26(a)、(b)に示す数字識別領域を左右反転した画像である
図26(c)、(d)に示す数字識別領域とについて、それぞれの相関係数を算出する。
図26(a)、(c)の相関係数は、
図26(a)の画素値をx、
図26(c)の画素値をyとして(B)に記載の式で算出される。
図26(b)、(d)の相関係数は、
図26(b)の画素値をx、
図26(d)の画素値をyとして(B)に記載の式で算出される。
(D)数字識別領域の左半分のみについて、上下反転した画像と反転前の画像との相関係数
数字特徴量算出部32は、上下反転した画像である
図27(e)と反転前の画像である
図27(c)との相関関係を特徴量として算出する。
(E)数字識別領域の左半分のみについて、左右反転した画像と反転前の画像との相関係数
数字特徴量算出部32は、左右反転した画像である
図27(f)と反転前の画像である
図27(c)との相関関係を特徴量として算出する。
(F)数字識別領域の右半分のみについて、上下反転した画像と反転前の画像との相関係数
数字特徴量算出部32は、上下反転した画像である
図27(g)と反転前の画像である
図27(d)との相関関係を特徴量として算出する。
(G)数字識別領域の右半分のみについて、左右反転した画像と反転前の画像との相関係数
数字特徴量算出部32は、左右反転した画像である
図27(h)と反転前の画像である
図27(d)との相関関係を特徴量として算出する。
【0095】
ここでは説明明確化のため2桁の数字で説明したが、1桁の数字であっても、数字領域を2分割(幅の半分で均等に分割)し、それぞれ分割した領域に対して左右反転と上下反転の相関係数を特徴量として算出する。
(H)結合した領域の数
複数桁の数字が存在する場合には桁の数が該当する。
(I)数字の外接矩形である数字識別領域に対する数字文字領域の面積の割合
数字特徴量算出部32は、
図28(d)、(h)に示した矩形領域に対する
図28(c)、(g)に示した数字文字領域の面積の割合を算出する。
(J)数字文字領域の周囲長
ここで、周囲長とは、数字の外形(アウトライン)の長さ、すなわち、
図17の画像D1における数字を構成している境界線(枠線)の長さが該当する。
(K)数字文字領域の外形を直線で近似したときの点の数
図29(a)は画像データから取得した数字であり、
図29(b)は当該数字のアウトラインを直線近似した構成を示している。
【0096】
つぎに、
図30(a)は直線同士の交点に■を付加した構成、
図30(b)は画像データから取得した数字を排除し、近似した直線と当該直線同士の点による構成を示している。
(K)における点とは、直線の交点である■であり、当該実施例においては18個の点が付されている。
また、直線による近似法は、最小二乗近似法などが該当する。
なお、直線により近似することで数字の歪みを補正することができる。
(L)数字文字領域の外形を直線で近似したときの凸包の点の数
【0097】
図31(a)の黒色実線の図は、
図30(b)の凸包を示している。与えられた点をすべて包含する最小の凸多角形(凸多面体)である凸包は、
図30(b)に示す図形から閉領域の内側に向かう点(灰色の点と直線)を除いた点を結んだ図形で示される。
たとえば、
図31(b)の黒色実線の構成は凸包とは言えない。
点AとBを結ぶ直線上の点Cが黒色実線で構成される図形内に含まれないので、黒色実線で構成される
図31(b)は凸包ではない。
【0098】
詳細には、
図32(a)の破線で示す多角形の点から、
図32(b)の丸で囲まれた点を削除し、残りの点を実線で結線した結果、
図32(c)に示す実線の凸包を得ることができる。
(M)数字文字領域の外形を直線で近似したときの点の数と、その凸包の点の数との差
【0099】
数字文字領域の外形を直線で近似したときの点の数とは、
図30(b)における点■の数18であり、その凸包の点の数は
図31(a)に示す点■の数11であるため、その差は
図30(b)から
図31(a)に形成する際に削除した
図31(a)に示す灰色の点の数に相当し、7となる。
(N)数字識別領域を例えば9x9で分割した各分割領域について、分割領域の面積に対する分割領域内の白画素の割合
【0100】
数字特徴量算出部32は、
図33(a)に示す数字識別領域を
図33(b)に示すように9×9の領域に分割し、
図34(a)の分割領域ごとに分割領域に対する白画素の割合を
図34(b)に示すような数字として取得する。
【0101】
数字特徴量算出部32は、上記(A)~(N)で算出した特徴量を、後述する数字識別用の学習済みモデルの作成時に算出した全教師データの特徴量の平均値と全教師データの特徴量の標準偏差を用いて、次のように標準化する。
【0102】
ただし、V’は数字識別用の学習済みモデルの標準化後の特徴量、μは数字識別用の学習済みモデルの学習時に使用した全教師データの特徴量の平均値、σは数字識別用の学習済みモデルの学習時に使用した全教師データの特徴量の標準偏差とする。
【0103】
つぎに、識別部40が備える数字識別部42は、標準化した特徴量V'を後述する学習済みモデルへ入力することにより、正解値の特徴量である推定結果の数字ラベルを取得することができ、さらに確度情報も取得することができる。
ここで、数字識別処理によって得られる数字ラベルは、学習した教師ラベルと同一で、数字画像に対応し、正解の分類である数字等が該当する。
【0104】
また確度は、正解ラベルとして取得した数字ラベルの正解の度合いを示しており、相対的には他のラベルとの相違度を示す数値である。
正解ラベルとして取得する数字ラベルは、付属する確度が最も大きいものとなる。
【0105】
このようにして、数字識別処理対象の画像データから複数の異なる数字ラベルが得られた場合、当該画像データには複数の数字が表示されていると識別されたことになる。
【0106】
また、同一画像データに、同一数字ラベルが複数識別された場合、すなわち、ひとつの画像に同一数字(背番号等)が複数写っていると識別された場合は、確度が最大のものを該当する正解の数字ラベルとして採用する。
図26は、算出部30が備える数字特徴量算出部32が数字識別領域の特徴量の算出方法を説明する概要図である。
【0107】
図26(c)、(d)は、それぞれ数字8および3の数字識別領域である
図26(a)、(b)に対する左右反転画像を示している。
図26(a)および
図26(c)から明らかなように、数字8は左右を反転しても形状が近似しているため、相関係数は大きいと言える。一方、
図26(b)および
図26(d)から明らかなように、数字3は左右を反転すると形状が大きく異なるため、相関係数は小さいと言える。
図27は、算出部30が備える数字特徴量算出部32が数字識別領域の特徴量の算出方法を説明する概要図である。
【0108】
図27(a)は、2桁の数字が含まれている数字識別領域を示している。
図27(b)は、縦の破線の位置で幅方向、左右均等に仮想的な分割をする分割領域を示している。
【0109】
図27(c)および(d)は、
図27(b)の破線において仮想的に分割した後のそれぞれの領域を示している。
図27(e)は、
図27(c)を上下反転した図である。
図27(f)は、
図27(c)を左右反転した図である。
図27(g)は、
図27(d)を上下反転した図である。
図27(h)は、
図27(d)を左右反転した図である。
図28は、算出部30が備える数字特徴量算出部32が数字識別領域の特徴量の算出方法を説明する概要図である。
【0110】
図28(b)、(f)は、
図28(a)、(e)に示す数字8および3に対する数字識別領域を示している。
図28(c)、(d)は、数字8に対する数字識別領域を数字文字領域および矩形領域に分解したものである。
図28(c)、(d)の対角ストライプ右下がりパターンで塗り潰した領域が数字文字領域である。
【0111】
図28(c)、(d)から明らかなように、数字を構成する線により閉じた領域は数字文字領域とする。
図28(g)、(h)は、数字3に対する数字識別領域を数字文字領域および矩形領域に分解したものである。
【0112】
図28(b)から明らかなように、
図28(c)に示す数字8の数字文字領域は、
図28(d)に示す矩形領域に対して割合が大きいことがわかる。
図28(f)から明らかなように、
図28(g)に示す数字3の数字文字領域は、
図28(h)に示す数字領域に対して割合が小さいことがわかる。同様に、数字0、6および9も、矩形領域に対して数字文字領域の割合が大きいことは明らかである。
図34は、算出部30が備える数字特徴量算出部32が数字領域の特徴量の算出方法を説明する概要図である。
【0113】
図34(a)は、
図33(b)の分割領域のみを抜粋表示したものであり、
図34(b)は、
図34(a)に示す各分割領域に対する白色の画素が占める割合を数字でマッピングしたものである。
したがって、
図34(b)は、数字文字領域が含む数字の形状を表す特徴量を示している。
【0114】
[学習モデル]
図35は、本発明の実施形態1に係る学習モデルの生成処理に関する説明図である。
図35では、機械学習を行って、
図1に示す学習モデル62を生成する処理を概念的に示している。
図35に示すように、学習モデル62を生成するニューラルネットワークは、情報を受け取る入力層、入力層から情報を受け継ぎ、多種多様な計算を行うのが中間層、および入力層と中間層で重みをかけ、活性化関数で処理された値が示す出力層を備える。出力層で得られた結果を教師データと照合し、出力層から入力層に向けて誤差の修正や調整を行うことで、多くの中間層をもつ複雑なニューラルネットワークでも、より適切な学習を行うことが可能となる。
図36は、学習モデル62の生成処理に関する概略図を示している。
図36は、機械学習を行って学習モデル32を生成する処理を概念的に示している。
【0115】
図36に示すように、入力層は、教師データとして入力データが備える画像および画像に撮像されている人物の名称に関する情報の入力を受け付ける複数のニューロンを有し、入力された画像等の情報を中間層に受け渡す。
【0116】
具体的には、入力された画像データおよび人物名は、画像に撮像された顔に関する特徴量である顔特徴量および画像に撮像された顔を有する人物の人物名に処理され入力層に入力される。
中間層は、画像から顔特徴量および人物名に関する情報を抽出する複数のニューロンを有し、抽出した情報を出力層に受け渡す。
【0117】
なお、
図35において、中間層の層数は3とされているが、これに限定されない。例えば学習モデル62がCNNである場合、中間層は、入力層から入力された各画素の画素値を畳み込むコンボリューション層と、コンボリューション層で畳み込んだ画素値をマッピングするプーリング層とが交互に連結された構成を有し、画像の特定の特徴量等を圧縮しながら最終的に画像の特徴量を抽出する。
図1において、コンボリューション層、およびプーリング層の記載は省略している。
出力層は、
図36に示すように、中間層から出力された顔特徴量等に基づいて、入力した画像に撮像されている人物名を出力する。
【0118】
さらに、入力層は、教師データとして入力データが備える画像および画像に撮像されている数字に関する情報の入力を受け付ける複数のニューロンを有し、入力された画像等の情報を中間層に受け渡す。
【0119】
具体的には、入力された画像データおよび数字は、画像に撮像された数字に関する特徴量である数字特徴量および画像に撮像された数字に処理され入力層に入力される。
中間層は、画像から数字特徴量および数字に関する情報を抽出する複数のニューロンを有し、抽出した情報を出力層に受け渡す。
出力層は、
図36に示すように、中間層から出力された数字特徴量等に基づいて、入力した画像に撮像されている数字を出力する。
【0120】
学習モデル62は、入力された画像から抽出された顔特徴量および数字特徴量が、画像と同時に入力された顔を有する人物の人物名および数字とそれぞれ一致するよう学習され、画像を入力した際に、画像に撮像されている人物の人物名および数字の情報を出力するよう学習される。
【0121】
機械学習モデルは、その層数や関数の種別などに制限はなく、既知の機械学習モデルから任意のものを採用し得る。なお、機械学習モデルは、例えば、畳み込みニューラルネットワークなどを含むニューラルネットワークモデル、決定木モデル、ランダムフォレストモデル、k近傍法、二分木探索、サポートベクターマシン、ベイジアンネットワーク、回帰木、ナイーブベイズ、多層パーセプトロン、線形回帰、ロジスティック回帰等、状態量とラベルとの関係を学習し、状態量から状態を推定する様々な既知の方法を有する他の学習アルゴリズムで構築された種々の学習済みモデルから採用されてもよく、機械学習モデルの種別によって制限されない。
【0122】
本発明の実施形態1に係る学習モデルには、サポートベクターマシン(SVM:Support Vector Machine)を採用するのが効果的である。
【0123】
サポートベクターマシンとは、1992年にVapnikらにより提案された教師あり機械学習でクラス分類を扱う方法であり(非特許文献1:V.N.Vapnik, The Nature of Statistical Learning Theory (2nd edition), Springer-Verlag, New York(1999)参照)、現在パターン分類や関数近似の手法として注目されている。一般的なパターン分類では、線形分離可能な問題よりも線形分離不可能な問題の方が圧倒的に多いとされているが、サポートベクターマシンでは、あるパターン分類問題が線形分離不可能な場合、ある非線形写像によって線形分離が可能な状態にすることができ、最適な分離超平面を求めることができる。
図37は、識別学習モデルである顔学習モデルおよび数字学習モデルの生成処理に関する説明図である。
【0124】
サポートベクターマシンは基本的に2クラス分類を扱うため、例えば
図37に示す条件1~3の部分のそれぞれに適用する方法が考えられる。条件1では、クラス1とそれ以外の2クラスへの分類、条件2ではクラス1を除いた上でクラス2とそれ以外の2クラスへの分類といった方法が考えられる。このとき、説明変数に関しては、決定木と同様、変数別逸脱指標のセットを与えればよい。また、学習ベクトル量子化法とは、Kohonenらにより提案された教師あり機械学習であり、クラス分類を扱う方法である(非特許文献2:T.Kohonen.et.al, Statistical Pattern Recognition with Neural Networks : Benchmarking Studies, Pro-ceeding of The Second Annual IEEE ICNN, Vol.1, 1988参照)。
【0125】
サポートベクターマシンには、二つの集合A、Bの完全分離を目的としたハードマージン法と、ある程度の誤判別(ノイズ)を許容したソフトマージン法が存在する。
【0126】
さらに、サポートベクターマシンは、ニューラルネットを利用したパターン識別器であり、結合荷重(シナプス荷重)を乗算した複数の線形入力素子(ニューロン)の値の総和が予め設定された閾値を超えるか否かを示す出力値を出力する層状ニューラルネットである。
【0127】
また、サポートベクターマシンは、学習データ、すなわち、一対の入力特徴ベクトルxおよび出力値yから、各データ点との距離、すなわち、入力特徴ベクトルxとの距離(マージン)が最大となる分離平面(超平面)を求めるマージン最大化という基準により、前記線形入力素子のパラメータを学習、すなわち、結合荷重ベクトルωを更新している。
【0128】
ここで、決定木(けっていぎ・ディシジョンツリー・decision tree)とは、分類木と回帰木を組み合わせたもので、ツリー(樹形図)によってデータを分析する手法であり、特定の特徴がよく現れるようなデータのかたまりを見つけ、その分類ルールを生成する機械学習の手法である。
図38は、学習モデルの生成処理に関する概略図である。
図38は、教師データに基づいて、学習モデルが学習する流れを包括的に示す図である。
【0129】
教師データとして、画像情報には画像データ情報、画像の位置情報、画像の撮影日時等を選択でき、人物名称情報にはスポーツの画像における選手名や試験を受ける受験生の人物名を選択でき、数字情報にはスポーツの画像における背番号や試験を受ける受験生の受験番号を選択できる。
【0130】
[抽出処理]
図39は、本発明の実施形態1に係る画像処理に関するフローチャート図である。
図39は、
図1に示す情報処理装置1が備える制御部10による特徴量抽出処理の処理手順の一例を示すフローチャートである。
例えば、
図1に示す情報処理装置1が備える取得部10は、画像情報を読み込む(S11)。つぎに、制御部10は、画像に撮像された顔および/または数字の特徴量を算出(S12)。つぎに、制御部10は、人物名および/または数字を出力する(S13)。
[学習モデル生成方法]
図40は、本発明の実施形態1に係る学習モデルの生成処理に関するフローチャート図である。
図40は、情報処理装置1が備える制御部10による学習モデル62の生成処理の処理手順の一例を示すフローチャートである。
図1に示す制御部10は、画像情報、人物名情報および数字情報を教師データとして取得する(S21)。
【0131】
つぎに、制御部10は、教師データを入力すると、画像に基づいて、人物名情報および数字情報と一致するそれぞれ一致する画像に撮像された人物の人物名情報および数字情報を出力する学習モデル62(学習済みモデル)を生成する(S22)。
【0132】
具体的には、制御部10は、教師データとして入力データが備える画像情報、人物名情報および数字情報をニューラルネットワークの入力層に入力し、人物名情報および数字情報にそれぞれ対応した画像に撮像された人物の人物名情報および数字情報を出力層から出力する。
【0133】
制御部10は、画像情報が含む人物名情報および数字情報を、教師データの正解値である人物名情報および数字情報と比較し、出力層から出力される人物名情報および数字情報が正解値に近づくよう、中間層での演算処理に用いるパラメータ(重み等)を最適化する。当該パラメータは、例えばニューロン間の重み(結合係数)、各ニューロンで用いられる活性化関数の係数などである。パラメータの最適化の方法は特に限定されないが、例えば情報処理装置1は誤差逆伝播法を用いて各種パラメータの最適化を行うことできる。
図41は、顔学習モデルおよび数字学習モデルの生成処理に関する概略図である。
図41に示すように、学習モデル62は、顔学習機能を備える顔学習モデルおよび数字学習機能を有する数字学習モデルを有する。
図42は、顔学習モデルおよび数字学習モデルの生成処理に関する概略図である。
【0134】
また、学習モデル62は、
図38に示すようにモデル自体が顔学習機能および数字学習機能を有してもよく、
図42に示すように、それぞれの機能を有する独立したモデルから構成されてもよい。
図43は、顔学習モデルおよび数字学習モデルの生成処理に関する概略図である。
図43は、人物Aの顔が撮像された様々な画像および人物Aの人物名を入力し、当該画像から人物Aの人物名を出力するよう学習する様子を示している。
図44は、顔学習モデルおよび数字学習モデルの生成処理に関する概略図である。
【0135】
図44は、数字が撮像された様々な画像および撮像された数字に該当する数字である17を入力し、当該画像から17を出力するよう学習する様子を示している。
図45は、顔学習モデルおよび数字学習モデルの生成処理に関する概略図である。
【0136】
図45は、学習モデル62が、顔学習機能および数字学習機能を有する場合に、様々な画像から、画像に撮像された人物Aの人物名および/または数字17を出力するよう学習する様子を示している。
ここで、入力される画像がサッカーの試合のものであれば、人物名はサッカーの選手名に該当し、数字は背番号に該当する。
図46は、顔学習モデルおよび数字学習モデルの生成処理に関する概略図である。
【0137】
図46(a)は、入力された画像に基づいて、顔学習機能を有する学習済みの学習モデル62から、画像に撮像されている人物の名称である人物名を出力する流れを説明した図である。
【0138】
図46(b)は、入力された画像に基づいて、数字学習機能を有する学習済みの学習モデル62から、画像に撮像されている数字を出力する流れを説明した図である。
図47は、顔学習モデルおよび数字学習モデルの推定処理に関する概略図である。
【0139】
図47は、学習モデル62が、顔学習機能および数字学習機能を有する場合に、入力された画像に基づいて、顔学習機能および数字学習機能を有する学習済みの学習モデル62から、画像に撮像されている人物の名称である人物名および/または数字を出力する流れを説明した図である。
ここで、入力される画像がサッカーの試合のものであれば、人物名はサッカーの選手名に該当し、数字は背番号に該当する。
図48は、情報処理装置1の分類処理に関する説明図である。
分類部50は、入力された画像を、学習モデル62が推定した結果に基づいて、
図48に列挙した属性に分類することができる。
また、分類部50は、分類方法として、
図48に記載の各属性の属性名やそれらの組み合わせのファイル名にリネームすることが可能である。
また、分類部50は、
図48に記載の各属性の属性名フォルダを作成し、属性名に合わせて画像を移動または複製することも可能である。
図49は、情報処理装置1の分類処理に関する説明図である。
図49に示すように、分類部50は、入力された画像について、
図48に示した属性名の組み合わせに画像データのファイル名をリネームすることができる。
図50は、情報処理装置1の分類処理に関する説明図である。
図50に示すように、分類部50がリネームした画像データは、パソコンの画面上では、
図50(a)~(d)のように表示される。
図51は、情報処理装置1の分類処理に関する説明図である。
図51に示すように、分類部50は、
図48に示した属性名を組み合わせた名称のフォルダに、取得した画像データを移動または複製をすることができる。
図52は、情報処理装置1の分類処理に関する説明図である。
【0140】
図52に示すように、分類部50は取得した画像データを、画像に撮像されている選手の名称のフォルダに、選手名および背番号で構成されたファイル名の画像データを格納するよう分類することができる。
図53は、情報処理装置1の分類処理に関する説明図である。
【0141】
図53に示すように、分類部50は取得した画像データを、画像に撮像されている選手の名称のフォルダに、さらに日付と対戦チーム名で構成されたサブフォルダを作成して格納するよう分類することができる。
図54は、情報処理装置1の分類処理に関する説明図である。
【0142】
図54に示すように、分類部50は取得した画像データを、画像に撮像されている選手の名称と背番号で構成されたフォルダに、さらに日付と対戦チーム名で構成されたサブフォルダを作成して格納するよう分類することができる。
図55は、情報処理装置1の分類処理に関する説明図である。
【0143】
図55に示すように、分類部50は取得した画像データを、日付と対戦チーム名で構成されたフォルダに、さらに選手名ごとのサブフォルダを作成して格納するよう分類することができる。
図56は、情報処理装置1の分類処理に関する説明図である。
【0144】
図56に示すように、分類部50は取得した画像データを、対戦チーム名で構成されたフォルダに、さらに日付ごとのサブフォルダを作成し、日付フォルダの下に選手名ごとサブフォルダを作成して格納するよう分類することができる。
[ハードウェア構成]
図57は、本発明に係る情報処理装置1の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【0145】
本発明の実施形態1に係る情報処理装置1は、例えば
図57に示すような構成のコンピュータ120によっても実現可能である。
図57は、情報処理装置1の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【0146】
コンピュータ100は、CPU(Central Processing Unit)101、RAM102、ROM103、記憶装置104、通信インタフェース(I/F)105、入出力インタフェース(I/F)106およびメディアインタフェース(I/F)107を有する。
【0147】
CPU101は、ROM103または記憶装置104に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM103は、コンピュータ100の起動時にCPU101によって実行されるブートプログラムや、コンピュータ100のハードウェアに依存するプログラム等を格納する。
【0148】
記憶装置104は、CPU101によって実行されるプログラムおよび該プログラムによって使用されるデータ等を格納する。通信インタフェース105は、ネットワークN108を介して他の機器からデータを受信してCPU101へ送り、CPU101が生成したデータをネットワークN108を介して他の機器へ送信する。
【0149】
CPU101は、入出力インタフェース106を介して、ディスプレイやプリンタ等の出力装置およびキーボードやマウス等の入力装置を制御する。CPU101は、入出力インタフェース106を介して、入力装置からデータを取得する。また、CPU101は、生成したデータを入出力インタフェース106を介して出力装置へ出力する。
【0150】
メディアインタフェース107は、記録媒体108に格納されたプログラムまたはデータを読み取り、RAM102を介してCPU101に提供する。CPU101は、該プログラムを、メディアインタフェース107を介して記録媒体108からRAM102上にロードし、ロードしたプログラムを実行する。記録媒体108は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0151】
例えば、コンピュータ100が本発明の実施形態1に係る情報処理装置1として機能する場合、コンピュータ100のCPU101は、RAM102上にロードされたプログラムまたはデータを実行することにより、識別部20を実現する。コンピュータ100のCPU101は、これらのプログラムまたはデータを記録媒体108から読み取って実行するが、他の例として、他の装置からLAN、インターネット等のネットワークN108を介してこれらのプログラムまたはデータを取得してもよい。
【0152】
以上、本発明の実施形態1に係るいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の行に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0153】
(変形例)
本発明は上述した実施形態に限定されるものではなく、種々の変形が可能である。上述した実施形態は本発明を理解しやすく説明するために例示したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について削除し、もしくは他の構成の追加・置換をすることが可能である。また、図中に示した制御線や情報線は説明上必要と考えられるものを示しており、製品上で必要な全ての制御線や情報線を示しているとは限らない。
実際には殆ど全ての構成が相互に接続されていると考えてもよい。上記実施形態に対して可能な変形は、例えば以下のようなものである。
【0154】
(1)上記実施形態における情報処理装置は一般的なコンピュータによって実現できるため、
図2、3、5および6に示したフローチャート、その他上述した各種処理を実行するプログラム等を記憶媒体に格納し、または伝送路を介して頒布してもよい。
【0155】
(2)
図2、3、5および6に示した処理、その他上述した各処理は、上記実施形態ではプログラムを用いたソフトウェア的な処理として説明したが、その一部または全部をASIC(Application Specific Integrated Circuit;特定用途向けIC)、あるいはFPGA(Field Programmable Gate Array)等を用いたハードウェア的な処理に置き換えてもよい。
【0156】
(3)上記実施形態において記憶される各種データは、ネットワークN108に接続された他のサーバコンピュータ等(図示せず)に記憶させるようにしてもよい。すなわち、回転文字識別装置として、記憶部の存在場所は限定されない。
【0157】
さらに、今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【0158】
また、以上に説明した処理または動作において、あるステップにおいて、そのステップではまだ利用することができないはずのデータを利用しているなどの処理または動作上の矛盾が生じない限りにおいて、処理または動作を自由に変更することができる。また以上に説明してきた各実施例は、本発明を説明するための例示であり、本発明はこれらの実施例に限定されるものではない。本発明は、その要旨を逸脱しない限り、種々の形態で実施することができる。
【符号の説明】
【0159】
1 情報処理装置
10 取得部
20 第1記憶部
30 算出部
31 顔特徴量算出部
32 数字特徴量算出部
40 識別部
41 顔識別部
42 数字識別部
50 分類部
60 第2記憶部
61 図面/情報DB
62 学習モデル
63 プログラム
70 前処理部
71 顔認識前処理部
72 数字認識前処理部
108 ネットワーク