(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022033153
(43)【公開日】2022-02-28
(54)【発明の名称】情報処理装置
(51)【国際特許分類】
G06F 8/30 20180101AFI20220218BHJP
G06T 7/00 20170101ALI20220218BHJP
G06N 20/00 20190101ALI20220218BHJP
【FI】
G06F8/30
G06T7/00 350B
G06N20/00 130
【審査請求】有
【請求項の数】3
【出願形態】OL
(21)【出願番号】P 2021198561
(22)【出願日】2021-12-07
(62)【分割の表示】P 2020539874の分割
【原出願日】2020-02-03
(31)【優先権主張番号】P 2019017194
(32)【優先日】2019-02-01
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】516256294
【氏名又は名称】株式会社コンピュータマインド
(74)【代理人】
【識別番号】100126000
【弁理士】
【氏名又は名称】岩池 満
(74)【代理人】
【識別番号】100154748
【弁理士】
【氏名又は名称】菅沼 和弘
(72)【発明者】
【氏名】萱沼 常人
(72)【発明者】
【氏名】古賀 直樹
(57)【要約】
【課題】学習機能を有する装置等についての営業の効率化を図ることを課題とする。
【解決手段】画像取得部111は、画像取得処理を実行する。アノテーション部112は、画像BFに対し、画像BFの注釈となり得る所定情報を付与する。学習部113は、画像BFを教師画像TFとする学習を行い、モデルを生成する。デプロイ部114は、生成されたモデルを所定の環境下で推論ライブラリ部102は、推論ライブラリ処理を実行する。使用可能な状態として、モデルファイルMFを生成する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
画像に対し、当該画像の注釈となり得る所定情報を付与するアノテーション手段と、
前記所定情報が付与された前記画像を教師画像とする学習を行い、モデルを生成する学習手段と、
生成された前記モデルを所定の環境下で使用可能な状態にするデプロイ手段と、
生成された前記モデルを読み込むことで推論処理を実行するプログラムの構成部品をライブラリ化するライブラリ手段と、
ライブラリ化された前記構成部品であって、別途開発された既存のアプリケーションプログラムが実行される他の情報処理装置であって前記構成部品のライセンスを有する前記他の情報処理装置に搭載されると、当該アプリケーションプログラムにおける一機能として前記推論処理を実行させる前記構成部品をライセンス管理する管理手段と、
を備え、
前記アノテーション手段、前記学習手段、前記デプロイ手段、前記ライブラリ手段、及び前記管理手段による一連の処理をスタンドアロンで実行可能とする、
情報処理装置。
【請求項2】
情報処理装置が実行する情報処理方法であって、
画像に対し、当該画像の注釈となり得る所定情報を付与するアノテーションステップと、
前記所定情報が付与された前記画像を教師画像とする学習を行い、モデルを生成する学習ステップと、
生成された前記モデルを所定の環境下で使用可能な状態にするデプロイステップと、
生成された前記モデルを読み込むことで推論処理を実行するプログラムの構成部品をライブラリ化するライブラリステップと、
ライブラリ化された前記構成部品であって、別途開発された既存のアプリケーションプログラムが実行される他の情報処理装置であって前記構成部品のライセンスを有する前記他の情報処理装置に搭載されると、当該アプリケーションプログラムにおける一機能として前記推論処理を実行させる前記構成部品を、ライセンス管理する管理ステップと、
を含み、
前記アノテーションステップ、前記学習ステップ、前記デプロイステップ、前記ライブラリステップ、及び前記管理ステップによる一連の処理を前記情報処理装置がスタンドアロンで実行可能とする、
情報処理方法。
【請求項3】
コンピュータに、
画像に対し、当該画像の注釈となり得る所定情報を付与するアノテーションステップと、
前記所定情報が付与された前記画像を教師画像とする学習を行い、モデルを生成する学習ステップと、
生成された前記モデルを所定の環境下で使用可能な状態にするデプロイステップと、
生成された前記モデルを読み込むことで推論処理を実行するプログラムの構成部品をライブラリ化するライブラリステップと、
ライブラリ化された前記構成部品であて、別途開発された既存のアプリケーションプログラムが実行される他の情報処理装置であって前記構成部品のライセンスを有する前記他の情報処理装置に搭載されると、当該アプリケーションプログラムにおける一機能として前記推論処理を実行させる前記構成部品を、ライセンス管理する管理ステップと、
を含み、
前記アノテーションステップ、前記学習ステップ、前記デプロイステップ、前記ライブラリステップ、及び前記管理ステップによる一連の処理を前記コンピュータにスタンドアロンで実行させる、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置に関する。
【背景技術】
【0002】
ディープラーニング等の技術を用いた学習機能を有する装置は従来から存在する。(特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の学習機能を有する装置は、特定の学習等のみを行う専用機として製造されるため汎用性がなかった。
つまり、ディープラーニング等の技術を用いた学習機能には、パッケージソリューションが存在しない。このため、各種各様な学習機能を有する装置等の開発提供を請け負う者が顧客に見積金額を提示する際、その算定根拠の説明に困難を伴うことが多かった。
【0005】
本発明は、このような状況に鑑みてなされたものであり、学習機能を有する装置等についての営業の効率化を図ることを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するため、本発明の一態様の情報処理装置は、
画像に対し、当該画像の注釈となり得る所定情報を付与するアノテーション手段と、
前記所定情報が付与された前記画像を教師画像とする学習を行い、モデルを生成する学習手段と、
生成された前記モデルを所定の環境下で使用可能な状態にするデプロイ手段と、
を備える。
【発明の効果】
【0007】
本発明によれば、学習機能を有する装置等についての営業の効率化を図ることができる。
【図面の簡単な説明】
【0008】
【
図1】本発明の情報処理装置の一実施形態に係る情報処理装置の機能の概要を示すフロー図である。
【
図2】
図1の情報処理装置のハードウェア構成を示すブロック図である。
【
図3】
図2の情報処理装置が実行する各種処理に必要となる機能的構成の一例を示す機能ブロック図である。
【
図4】モデリング機能における処理の流れを示す図である。
【
図6】「DeepEye Predictor」の発行方法を示す図である。
【
図7】発行後の「DeepEye Predictor」を示す図である。
【発明を実施するための形態】
【0009】
以下、本発明の実施形態について図面を用いて説明する。
【0010】
図1は、本発明の情報処理装置の一実施形態の機能の概要を示すフロー図である。
なお、以下、情報処理装置1の処理は、画像のデータが対象となるが、以下、特に断りのない限り「データ」を省略して、単に「画像」と略記する。
また、「画像」は、静止画像と動画像とを含む広義な概念である。
【0011】
図1に示すように、情報処理装置1の機能には、「モデリング機能」と、「推論ライブラリ機能」とが含まれる。
【0012】
情報処理装置1の機能のうち「モデリング機能」とは、教師用データの素材としての画像BFに対して、正解等の注釈がついたデータを教師用データとして、ディープランニング等を用いた学習を行うことで、画像識別・物体検出・セグメンテーションのモデルを所定フォーマットのファイルMF(以下、「モデルファイルMF」と呼ぶ)を生成する機能のことをいう。
ここで、モデルファイルMFとは、後述する推論処理においてモデルとして使用されるファイルフォーマットに従って生成されるファイルをいう。
具体的には例えば、情報処理装置1は、モデリング機能を発揮することで、画像取得処理(ステップS1)、アノテーション処理(ステップS2)、学習処理(ステップS3)、及びデプロイ処理(ステップS4)を順次実行して、モデルファイルMFを生成する。
【0013】
ここで、「画像取得処理」とは、教師用データの素材となる画像BFを取得する処理をいう。
「アノテーション処理」とは、取得された画像BFに対し、教師用データとして用いる情報(正解の内容等の注釈)をメタデータとして付与する処理をいう。メタデータが付与された画像BFは、教師用データとしての画像TF(以下、「教師画像TF」と呼ぶ)として教師DB401に記憶されて管理される。
「学習処理」とは、教師画像TFを用いて、ディープラーニング等の技術を用いた学習を行うことで、画像識別・物体検出・セグメンテーションのモデルを生成又は更新する処理をいう。
「デプロイ処理」とは、生成されたモデルについて、モデルファイルMFについて、所定の環境下で使用することができるように、モデルファイルMFとする処理をいう。
情報処理装置1においてモデリング機能が発揮されるにより生成されたモデルファイルMFは、後述するモデルDB402に記憶されて管理される。なお、モデルDB402に記憶されているモデルファイルMFは、バージョン毎に管理されており、例えば
図1に示すように、Ver.(バージョン)1乃至n(nは1以上の整数値)の夫々が管理されている。
【0014】
情報処理装置1の機能のうち「推論ライブラリ機能」とは、モデリング機能により生成されたモデルファイルMFを読み込むことで、推論処理を実行可能とするプログラムを構成する部品をライブラリ化させる機能のことをいう。以下、推論ライブラリ機能によりライブラリ化されたものを「ディープラーニングパッケージソリューション」と呼ぶ。
このようにすることで、ユーザ(図示せず)により開発されたアプリケーションプログラムに対して、ディープラーニングパッケージソリューションを搭載させるだけで、ディープラーニングの機能を有する独自のシステムを容易に構築することができる。
【0015】
以上のように、情報処理装置1のモデリング機能及び推論ライブラリ機能により、学習機能を有する装置の開発を行う者における宣伝・営業の容易化を可能とする、学習機能のパッケージソリューションを提供することができる。
【0016】
即ち、ディープラーニングを用いた画像識別・物体検出・セグメンテーションのモデルの作成を行う統合ソフトウェア(例えば上述のディープラーニングパッケージソリューション)を開発して販売することができる。
また、ソフトウェア単体での販売を行わずに、ハードウェアとのセットで販売することができる。また、ソフトウェア環境が既に構築された状態でディープラーニングパッケージソリューションを出荷することができる。
これにより、ユーザは、ハードウェアの導入とともに即時使用可能とすることができる。また例えば、ディープラーニングの営業の効率化を図ることができる。また例えば、受託開発への展開を図ることができる。また例えば、ライセンスビジネスへの展開を図ることができる。
【0017】
また、本実施形態によれば、ディープラーニング機能を有する装置の営業上の問題を解消することができる。例えば、従来からあるディープラーニング機能を有する装置の営業上の問題点として、以下のような問題が存在していた。即ち、ディープラーニング機能を有する装置には、定型のパッケージソリューションが存在しない。このため、営業を行う場合、営業部門のスタッフのマンパワーに依存せざるを得なかった。また、顧客への価格根拠の説明が難しいという問題があった。
このような問題に対して、本実施形態によれば、(1)パッケージ販売の宣伝・営業が行い易くなる、(2)パッケージ販売で完結すれば、「それでよし」とすることができる、(3)顧客からの要求があれば、コンサルタント契約の締結等に繋げることができる、といったことが実現可能となる。
【0018】
本実施形態の特徴は、換言すると、「誰でも簡単にAI(ディープラーニング)の開発にチャレンジできる」というものである。
ここで、従来からある技術のみを用いて、ディープラーニング機能を発揮させる環境を構築することもできる。例えば、パーソナルコンピュータを自前で用意し、これにオープンソースソフトウェアをいくつかインストールすれば、ディープラーニング機能を発揮させる環境を自前で構築することができる。
しかしながら、ディープラーニング機能を発揮させる環境を自前で構築するためには、Linux(登録商標)やソフトウェアに関する十分な知識が必要となる。このため、このような知識を持ち合わせていない者が、ディープラーニング機能を発揮させる環境を自前で構築しようとしても、そこには多くのハードルが存在する。また、ディープラーニング機能を発揮させる環境を構築することができたとしても、データ管理、アノテーション、学習、及び推論を実行するためのソフトウェアは、夫々異なるのが一般的である。また、データ管理、及び学習済みのモデルの管理を自前で行わなければならない。さらに、多くのオープンソースソフトウェアは、システムエンジニアにより使用されることを前提として作られているため、専門用語を理解する必要があるだけではなく、多くの複雑なパラメータの設定を行う必要がある。本実施形態が適用される製品である「DeepEye」は、これらの多くのハードルを取り除くことができる製品である。
【0019】
上述したように、モデリング機能には、アノテーション処理(ステップS2)、学習処理(ステップS3)、デプロイ処理(ステップS4)が含まれる。また、推論ライブラリ機能には、モデリング機能によりデプロイ処理がなされたこと生成された、モデルファイルを読み込んで実際に推論を行うプログラム部品が提供される。
【0020】
また、本実施形態によれば、例えば以下のようなサービスを実現させることができる。即ち、ブラウザ版の「DeepEye Machine Vision」として、大学向けの教育コンテンツとして提供することができる。この場合、Acamemic版として安価で提供できることもできる。また、メーカ製品向けのOEM(Original Equipment Manufacturer)として提供することもできる。この場合、GUI(Graphical User Interface)を顧客向けにカスタマイズして、製品のサービス又はオプションとして提供してもらうことができる。
【0021】
次に、モデリング機能及び推論ライブラリ機能を発揮させるための各種処理を実行する情報処理装置1のハードウェア構成について説明する。
図2は、
図1の情報処理装置1のハードウェア構成を示すブロック図である。
【0022】
情報処理装置1は、GPU(Graphics Processing Unit)10と、CPU(Central Processing Unit)11と、ROM(Read Only Memory)12と、RAM(Random Access Memory)13と、バス14と、入出力インターフェース15と、出力部16と、入力部17と、記憶部18と、通信部19と、ドライブ20とを備えている。
【0023】
GPU10は、ROM12に記録されているプログラム、又は、記憶部18からRAM13にロードされたプログラムに従って定型的な演算処理を実行する。具体的には、GPU10は、学習処理及び推論処理に必要となる膨大な演算の並列処理を繰り返し実行することで、ディープラーニングの演算を高速化させる。また、GPU10は、画像描写を行う際に必要となる演算処理を行う。
RAM13には、GPU10が演算処理を実行する上において必要なデータ等も適宜記憶される。
【0024】
CPU11は、ROM12に記録されているプログラム、又は、記憶部18からRAM13にロードされたプログラムに従って各種の処理を実行する。
RAM13には、CPU11が各種の処理を実行する上において必要なデータ等も適宜記憶される。
【0025】
GPU10、CPU11、ROM12及びRAM13は、バス14を介して相互に接続されている。このバス14にはまた、入出力インターフェース15も接続されている。入出力インターフェース15には、出力部16、入力部17、記憶部18、通信部19及びドライブ20が接続されている。
【0026】
出力部16は各種液晶ディスプレイ等で構成され、各種情報を出力する。
入力部17は、各種ハードウェア鉛等で構成され、各種情報を入力する。
記憶部18は、DRAM(Dynamic Random Access Memory)等で構成され、各種データを記憶する。
通信部19は、インターネットを含むネットワークNを介して他の装置との間で行う通信を制御する。
【0027】
ドライブ20は、必要に応じて設けられる。ドライブ20には磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等よりなる、リムーバブルメディア30が適宜装着される。ドライブ20によってリムーバブルメディア30から読み出されたプログラムは、必要に応じて記憶部18にインストールされる。またリムーバブルメディア30は、記憶部18に記憶されている各種データも、記憶部18と同様に記憶することができる。
【0028】
具体的には例えば、次のようなハードウェア構成とすることができる。即ち、OSが「Ubuntu 16.0.4LTS」、CPU(例えば
図2のCPU11)が「Core i7-8700K」、メモリ(例えば
図2のRAM13)の容量が32GB、SSD(Soild State Drive)が500G SATA SSD、HDD(Hard Disk Drive)が3TB(TeraByte)、ODD(Optical Disk Drive)が「DVD Super Multi」、電源が1000W、GPU(例えば
図2のGPU10)が「Geforce RTX 2080Ti」であることが示されている。
【0029】
次に、
図2のハードウェア構成を有する情報処理装置1の機能的構成について説明する。
図3は、
図2の情報処理装置1が実行する各種処理に必要となる機能的構成の一例を示す機能ブロック図である。
【0030】
図3に示すように、情報処理装置1のGPU10(また、図示はしないがCPU11)においては、モデリング処理が実行される場合には、モデリング部101が機能する。また、推論ライブラリ処理が実行される場合には、推論ライブラリ部102が機能する。
なお、情報処理装置1の記憶部18の一領域には、教師DB401と、モデルDB402と、ライブラリDB403とが設けられている。
【0031】
ここで、「モデリング処理」とは、上述の
図1のモデリング機能が発揮された情報処理装置1により実行される一連の処理、即ち、画像取得処理(例えば
図1のステップS1)、アノテーション処理(例えば
図1のステップS2)、学習処理(例えば
図1のステップS3)、及びデプロイ処理(例えば
図1のステップS4)が順次実行される処理をいう。
「推論ライブラリ処理」とは、上述の
図1の推論ライブラリ機能が発揮された情報処理装置1により実行される一連の処理をいう。
【0032】
モデリング部101は、画像取得部111と、アノテーション部112と、学習部113と、デプロイ部114とを有する。
【0033】
画像取得部111は、画像取得処理(例えば
図1のステップS1)を実行する。具体的には、画像取得部111は、教師用データの素材となる画像BFを取得する。
【0034】
アノテーション部112は、アノテーション処理(例えば
図1のステップS2)を実行する。具体的には、アノテーション部112は、取得された画像BFに対し、教師用データとして用いる情報(正解の内容等の注釈)をメタデータとして付与する。
【0035】
学習部113は、学習処理(例えば
図1のステップS3)を実行する。具体的には、学習部113は、教師画像TFを用いて、ディープラーニング等の技術を用いた学習を行うことで、画像識別・物体検出・セグメンテーションのモデルを生成又は更新する。
【0036】
デプロイ部114は、デプロイ処理(例えば
図1のステップS4)を実行する。具体的には、デプロイ部114は、生成されたモデルについて、モデルファイルMFについて、所定の環境下で使用することができるように、モデルファイルMFとする。
【0037】
推論ライブラリ部102は、推論ライブラリ処理を実行する。
【0038】
即ち、ライブラリ化部121は、上述のモデリング機能により生成されたモデルファイルMFを読み込むことで、推論処理を実行可能とするプログラムを構成する部品をライブラリ化する。
【0039】
以上の機能的構成を有する情報処理装置1が上述のモデリング処理及び推論ライブラリ処理を実行することによりディープラーニングパッケージソリューションが生成される。これにより、顧客が開発するアプリケーションプログラムに、ディープラーニングパッケージソリューションを搭載させるだけで、ディープラーニングの機能を有するユーザ独自のシステムを容易に構築することができる。
【0040】
図4は、モデリング機能における処理の流れを示す図である。
【0041】
図4に示すように、モデリング機能では、画像BFの取得、アノテーション(例えば上述のアノテーション処理)、アノテーションにより生成された教師データ(例えば上述の教師画像TF)に基づく学習(例えば上述の学習処理)、学習により生成されたモデルのデプロイ(例えば上述のモデルファイルMFを生成するデプロイ処理)を行う。なお、学習の結果は、レポートとして出力することもできる。
【0042】
具体的には例えば、情報処理装置1は、画像取得処理(ステップS1)として、モデリング機能を発揮させて、例えばワインボトルに貼付されたラベル(以下、「ワインラベル」と呼ぶ)の画像BFを取得する。
情報処理装置1は、アノテーション処理(ステップS2)として、画像BFに対して、メタデータ(例えばそのワインラベルにより特定されるワインの情報、具体的には例えば銘柄、産地、製造年等)を付与することで、教師画像TFを生成する。
情報処理装置1は、学習処理(ステップS3)として、教師画像TFを用いた学習を行うことで、ワインラベル(それを被写体として含む画像)から、そのワインラベルが示すワインの銘柄等を推論するモデルを生成する。
情報処理装置1は、デプロイ処理(ステップS4)として、そのモデルについてのモデルファイルMFとして、ワインラベルの「.DEEPファイル」を生成する。
【0043】
【0044】
図5に示すように、推論ライブラリ機能によれば、ユーザは、自身が開発したアプリケーションプログラムに「DeepEye Predictor」(上述のディープラーニングパッケージソリューション)を搭載することができる。これにより、ユーザは、ディープラーニングを用いたシステムを構築することができる。Windows(登録商標)及びUbuntu等のOS(Operating System)に対応させることもできる。
【0045】
また、「DeepEye Predictor」は、C++、C♯、Pythonなどの各種言語に対応したライブラリで提供される。例えばDLL(Dynamic Link Library)等で提供される。
【0046】
図6は、「DeepEye Predictor」の発行方法を示す図である。
【0047】
図6に示すように、「DeepEye Predictor」は、ライセンス管理用サーバとして機能する情報処理装置1においてライセンス管理される。このため、作成済みのモデル(.DEEPファイル)からライブラリが作成される場合には、インターネット等を介してライセンス管理用情報処理装置(情報処理装置1)から「DeepEye Predictor」が発行される。
【0048】
図7は、発行後の「DeepEye Predictor」を示す図である。
【0049】
図7に示すように、ライブラリ化された後は、スタンドアロンで使用することができるため、アプリケーションプログラムとして各種の装置内に組み込むことができる。
【0050】
具体的には例えば、ユーザが、ワインラベルを撮像した画像からワインの銘柄等の情報を抽出可能とするアプリケーションプログラム(以下、「ワイン銘柄アプリ」と呼ぶ)を開発した場合を想定する。
この場合、ワイン銘柄アプリに、「DeepEye Predictor」(ディープラーニングパッケージソリューション)を搭載させることで、ディープラーニングを用いたシステムとすることができる。
そして、ワインラベルの「.DEEPファイル」(モデルファイルMF)を読み込んでライブラリ化させることにより、顧客は、スタンドアロンで使用することができるワイン銘柄アプリを開発することができる。
【0051】
以上をまとめると、本実施形態によれば、以下のような効果が期待できる。
即ち、本実施形態によれば、ユーザがディープラーニングのライブラリ(環境構築)を意識せずにAI環境を実現できる。即ち、従来のディープラーニングの開発では、エンジニアが環境構築を行うことが必須となっており、これが手間となっていた。これに対して、本実施形態によるディープラーニングは、ハードウェアが一体になったディープラーニングツールが用いられるため、環境構築の手間が不要となる。つまり、ディープラーニングツールを入手すれば、直ちに目的に応じたディープラーニングの開発が可能となる。これにより、ディープラーニングの開発を行うユーザの利便性を向上させることができる。
【0052】
また例えば、本実施形態によれば、アノテーション、学習、テスト、デプロイまでの処理を一連の流れで行うことができる。ディープラーニングの開発においてアノテーション、学習、テストを一連の流れで行えるということは、従来の手法を用いたディープラーニングの開発のプロセスに比べて大幅な時間削減効果を期待することができる。また、複雑な手順やノウハウを覚える必要が無いという意味でも、効率化につなげることができる。
【0053】
また例えば、本実施形態によれば、作成された推論モデルを、他のアプリケーションから実行することができる。具体的には、本実施形態が適用される上述の「DeepEye Predictor」経由で、ディープラーニングの機能を容易に組み込むことができる。これにより、既存のアプリケーションプログラムにディープラーニング機能を追加することを低コストで実現させることができる。また、アノテーションから既存のアプリケーションプログラムへの組み込みをユーザが「自前で」行えるということは、企業が持つ機密データを外部に漏らすことなくディープラーニングを活用できることにつながる。
【0054】
また例えば、本実施形態によれば、AI開発の知識が無い者であっても、GUIベースでディープラーニングを試すことができる。具体的には、ハイパーパラメータの設定、ネットワークの選択、及び可視化機能(Gradcam)の表示が可能となる。また、画像分類アノテーションがドラッグ アンド ドロップの操作で容易に実施することができる。即ち、GUIベースで、様々なネットワークを、パラメータ調整のみで評価できる。このように、本実施形態によれば、AI開発の知識が無い者であっても、与えられた選択肢から選ぶ操作を行うだけで良いので、ユーザの利便性の面や、ユーザの拡大という面で大きなメリットが期待できる。
【0055】
さらに例えば、本実施形態によれば、複数のエッジデバイスへのデプロイが可能となる。また、ブラウザであっても上記同様のアプリケーションプログラムが使用可能となる。また、マルチプラットフォーム(Windows・Ubuntu)への対応が可能となる。
【0056】
以上、本発明の一実施形態について説明したが、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。
【0057】
例えば、上述の実施形態では、画像の被写体としてワインラベルについて説明したが、これは一例に過ぎず、あらゆる物体を被写体とすることができる。
【0058】
また、
図2に示すハードウェア構成は、本発明の目的を達成するための例示に過ぎず、特に限定されない。
【0059】
また、
図3に示す機能ブロック図は、例示に過ぎず、特に限定されない。即ち、上述した一連の処理を全体として実行できる機能が情報処理システムに備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは、特に
図3の例に限定されない。
【0060】
また、機能ブロックの存在場所も、
図3に限定されず、任意でよい。
また、1つの機能ブロックは、ハードウェア単体で構成してもよいし、ソフトウェア単体で構成してもよいし、それらの組み合わせで構成してもよい。
【0061】
各機能ブロックの処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。
コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えば情報処理装置の他汎用のスマートフォンやパーソナルコンピュータであってもよい。
【0062】
このようなプログラムを含む記録媒体は、各ユーザにプログラムを提供するために装置本体とは別に配布される、リムーバブルメディアにより構成されるだけではなく、装置本体に予め組み込まれた状態で各ユーザに提供される記録媒体等で構成される。
【0063】
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に添って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的或いは個別に実行される処理をも含むものである。
【0064】
また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものである。
【0065】
以上まとめると、本発明が適用される情報処理装置は、次のような構成を取れば足り、各種各様な実施形態を取ることができる。
即ち、本発明が適用される情報処理装置(例えば情報処理装置1)は、
画像(例えば
図1の画像BF)に対し、当該画像の注釈となり得る所定情報(例えばメタデータ)を付与するアノテーション手段(例えば
図3のアノテーション部112)と、
前記所定情報が付与された前記画像を教師画像(例えば教師画像TF)とする学習を行い、モデルを生成する学習手段(例えば
図3の学習部113)と、
生成された前記モデルを所定の環境下(例えばユーザが構築するシステム)で使用可能な状態(例えばモデルファイルMF)にするデプロイ手段(例えば
図3のデプロイ部114)と、
を備える。
【0066】
これにより、学習機能を有する装置の開発を行う者における宣伝・営業の容易化を可能とする、ディープラーニングパッケージソリューションを提供することができる。
【0067】
また、前記モデルを読み込むことで推論処理を実行するプログラムの構成部品をライブラリ化するライブラリ手段(例えばライブラリ化部121)をさらに備えることができる。
【0068】
これにより、ユーザは、ユーザが開発したアプリケーションプログラムに、ディープラーニングパッケージソリューションを搭載することができるので、ディープラーニングを用いたシステムを容易に構築することができる。
【0069】
その他として、非ブラウザアプリケーションで、ディープラーニングを用いた画像分類、物体検知、セグメンテーションタスクが実行可能になる。
学習だけでなく、それぞれのタスクでアノテーション機能がある。つまり、アノテーション機能までが内包されている。
Data Augmentationの設定可能である。データの複製機能がある。
ディープラーニングの検証結果等をVisual studioのようにプロジェクト単位で管理可能である。データ、学習済みデータ、アーキテクト、モデルが一貫して管理可能である。
(エクスプローラからアプリに)ドラッグ アンド ドロップなど簡易な操作でアノテーション可能である。
PCだけでなくJetson、FPGA、iPhone(登録商標)、MOVIDIUS、ARMなど多彩なデバイスにデプロイ可能である。
現状行っている作業のステータスが容易に可能である。アノテーション>学習>推論>デプロイなどの状態を見える化させることができる。
深層学習モデルの可視化機能(Gradcam)がパッケージング化されている。
各層での重みの値や途中計算結果を見える化させることにより、学習データにフィードバックが出来、学習データの工夫が可能となる。
分類の結果をコンフュージョンマトリクスで視覚的に表示できる。
【符号の説明】
【0070】
1:情報処理装置、10:GPU、11:CPU、12:ROM、13:RAM、14:バス、15:入出力インターフェース、16:出力部、17:入力部、18:記憶部、19:通信部、20:ドライブ、30:リムーバブルメディア、101:モデリング部、102:推論ライブラリ部、111:画像取得部、112:アノテーション部、113:学習部、114:デプロイ部、121:ライブラリ化部、401:教師DB、402:モデルDB、BF:画像、TF:教師画像、MF:モデルファイル