特開2024-39138 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 凸版印刷株式会社の特許一覧

特開2024-39138モデル選択装置、モデル選択方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024039138

(43)【公開日】2024-03-22

(54)【発明の名称】モデル選択装置、モデル選択方法、及びプログラム

(51)【国際特許分類】

G06V 10/70 20220101AFI20240314BHJP

G06N 20/20 20190101ALI20240314BHJP

【ＦＩ】

G06V10/70

G06N20/20

【審査請求】未請求

【請求項の数】11

【出願形態】ＯＬ

(21)【出願番号】P 2022143469

(22)【出願日】2022-09-09

(71)【出願人】

【識別番号】000003193

【氏名又は名称】ＴＯＰＰＡＮホールディングス株式会社

(74)【代理人】

【識別番号】100149548

【弁理士】

【氏名又は名称】松沼泰史

(74)【代理人】

【識別番号】100139686

【弁理士】

【氏名又は名称】鈴木史朗

(74)【代理人】

【識別番号】100169764

【弁理士】

【氏名又は名称】清水雄一郎

(74)【代理人】

【識別番号】100147267

【弁理士】

【氏名又は名称】大槻真紀子

(72)【発明者】

【氏名】山岸健太

(72)【発明者】

【氏名】岡敏生

(72)【発明者】

【氏名】石井達也

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096BA17

5L096EA39

5L096FA33

5L096KA01

5L096KA04

(57)【要約】

【課題】ドメインの異なる複数の学習済みモデルの中から転移学習への適応に最適な学習済みモデルを選択することで、転移学習された学習済みモデルの精度を向上することが可能なモデル選択装置、モデル選択方法、及びプログラムを提供する。
【解決手段】互いに共通のクラスを有する異なるドメインごとに、識別対象を示す入力データを入力として前記識別対象を識別可能に学習した学習済みモデルを生成するドメイン学習部と、前記異なるドメインごとに生成された学習済みモデルの中から、各々の学習済みモデルが前記識別対象を識別した識別結果に基づき、転移学習への適応に最適な学習済みモデルを選択する最適モデル選択部と、を備えるモデル選択装置。
【選択図】図１

【特許請求の範囲】

【請求項1】

互いに共通のクラスを有する異なるドメインごとに、識別対象を示す入力データを入力として前記識別対象を識別可能に学習した学習済みモデルを生成するドメイン学習部と、
前記異なるドメインごとに生成された学習済みモデルの中から、各々の学習済みモデルが前記識別対象を識別した識別結果に基づき、転移学習への適応に最適な学習済みモデルを選択する最適モデル選択部と、
を備えるモデル選択装置。

【請求項2】

前記最適な学習済みモデルを選択するための指標として、前記異なるドメインごとに生成された学習済みモデルごとに前記識別結果の分散を算出するドメインスコア計算部、
をさらに備え、
前記最適モデル選択部は、算出された前記分散に基づき、前記最適な学習済みモデルを選択する、
請求項１に記載のモデル選択装置。

【請求項3】

前記異なるドメインごとに生成された学習済みモデルに基づき、アンサンブル学習を行うアンサンブル学習部、
をさらに備え、
前記最適モデル選択部は、前記アンサンブル学習の結果に基づき、前記最適な学習済みモデルを選択する、
請求項１に記載のモデル選択装置。

【請求項4】

前記異なるドメインごとに生成された学習済みモデルの各々に対して、転移先のドメインについて転移学習を行う転移学習部、
をさらに備え、
前記アンサンブル学習部は、転移学習された前記学習済みモデルに対して、前記アンサンブル学習を行う、
請求項３に記載のモデル選択装置。

【請求項5】

前記アンサンブル学習部は、前記アンサンブル学習を行う際のアンサンブルさせる学習済みモデルの学習において、任意の活性化関数を用いて前記学習済みモデルにおける分散表現としての重みを算出する、
請求項３に記載のモデル選択装置。

【請求項6】

前記アンサンブル学習部は、アンサンブルの重みをｓｏｆｔｍａｘ値に基づいて算出する、
請求項５に記載のモデル選択装置。

【請求項7】

前記入力データは、識別対象である文字を示す画像データであり、
前記ドメインごとに生成された学習済みモデルは、各々が識別対象とする文字が書かれた年代が異なり、筆記具で書かれた文字を示す画像データを用いて学習したモデルである、
請求項１に記載のモデル選択装置。

【請求項8】

前記ドメイン学習部は、異なるクラス間の対応関係を示す対応マップデータを有し、選択されたクラスに対して、前記対応マップデータに基づいて学習済みモデル間のクラスを統合する処理を行う、
請求項１に記載のモデル選択装置。

【請求項9】

前記入力データは、前記入力データが行画像として与えられている場合にはドメインの区切れ目ごとに区切られた行単位の画像を入力データとして扱い、前記入力データが行画像として与えられていない場合には文字単位の画像を入力データとして扱う、
請求項１に記載のモデル選択装置。

【請求項10】

ドメイン学習部は、互いに共通のクラスを有する異なるドメインごとに、識別対象を示す入力データを入力として前記識別対象を識別可能に学習した学習済みモデルを生成するドメイン学習過程と、
最適モデル選択部が、前記異なるドメインごとに生成された学習済みモデルの中から、各々の学習済みモデルが前記識別対象を識別した識別結果に基づき、転移学習への適応に最適な学習済みモデルを選択する最適モデル選択過程と、
を含むモデル選択方法。

【請求項11】

コンピュータを、
互いに共通のクラスを有する異なるドメインごとに、識別対象を示す入力データを入力として前記識別対象を識別可能に学習した学習済みモデルを生成するドメイン学習手段と、
前記異なるドメインごとに生成された学習済みモデルの中から、各々の学習済みモデルが前記識別対象を識別した識別結果に基づき、転移学習への適応に最適な学習済みモデルを選択する最適モデル選択手段と、
として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、モデル選択装置、モデル選択方法、及びプログラムに関する。

【背景技術】

【0002】

近年、機械学習を用いて、入力データを識別する識別器の作成が行われている。大量の入力データと少量の入力データについてそれぞれの識別器を作成する場合、通常の機械学習では大量の入力データを用いた機械学習と少量の入力データを用いた機械学習によりそれぞれの識別器を作成する。この場合、少量の入力データを用いた機械学習によって作成された識別器では、その識別精度が低い傾向にある。このため、近年では、大量の入力タを用いて学習させた識別器（学習済みモデル）を少量の入力データに適応させる技術である転移学習が用いられることが多くなってきた。

【0003】

これらの入力データの学習では、例えば、ＣＲＮＮ（ＣｏｎｖｏｌｕｔｉｏｎＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓ）と呼ばれるモデルに入力データを入力して識別対象を学習させることによって、学習済みＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ）を得ることができる。

【0004】

通常、転移学習を行う際には、大量の入力データにより学習済みモデルを作成し、その学習済みモデルを再利用する。これにより、転移学習ではラベル付けされた少量の入力データを入力として学習を行うことができ、転移学習における学習時間の削減や精度の向上が見込める。

【0005】

しかしながら、転移学習において再利用可能な学習済みモデルが複数ある場合、どの学習済みモデルが転移学習に最も適しているか（例えば最も精度がよいか）を事前に知ることは困難である。

【0006】

さらに、入力データの種類や入力値の取りうる値、出力するデータの種類や出力の取りうる値、確率分布などが異なる（即ちドメインが異なる）場合において、学習させたモデルに対して同じモデルを使いまわせるような技術は確立されてきた。しかしながら、種別が異なる識別対象（例えば書かれた年代が異なる手書き文字など）に対して、そのドメインを判別して適切な学習済みモデルを選択するという手法は存在しなかった。

【0007】

下記特許文献１には、分類器群(弱識別器群)を評価するために、ベクトルの分散関係に基づいて、特定の分類器群を選択する技術が開示されている。
また、下記特許文献２には、ソース言語からＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ：光学文字認識）によって読み取ったＯＣＲテキストをターゲット言語に翻訳する技術が開時されている。当該技術では、翻訳の複雑度を判別し、その複雑度に基づいてソース言語からターゲット言語へのＯＣＲテキストの機械語翻訳を実行することで、翻訳されたＯＣＲテキストを取得することができる。

【先行技術文献】

【特許文献】

【0008】

【特許文献1】特開２０１９－１９１７１１号公報

【特許文献2】米国特許第９５１４３７７号明細書

【発明の概要】

【発明が解決しようとする課題】

【0009】

ところで、識別器では、入力データによって識別精度が高くなるドメインが異なる場合がある。この場合、転移学習を適用するにあたり、どのドメインにおける識別精度が高くなるかを事前に判定し、最も識別精度が高い識別器を転移学習に用いることが望ましい。しかしながら、上記特許文献１及び特許文献２の技術では、事前にドメインごとの識別精度を考慮することは困難であった。

【0010】

上述の課題を鑑み、本発明の目的は、ドメインの異なる学習済みモデルの中から転移学習への適応に最適な学習済みモデルを選択することで、転移学習された学習済みモデルの精度を向上することが可能なモデル選択装置、モデル選択方法、及びプログラムを提供することにある。

【課題を解決するための手段】

【0011】

上述の課題を解決するために、本発明の一態様に係るモデル選択装置は、互いに共通のクラスを有する異なるドメインごとに、識別対象を示す入力データを入力として前記識別対象を識別可能に学習した学習済みモデルを生成するドメイン学習部と、前記異なるドメインごとに生成された学習済みモデルの中から、各々の学習済みモデルが前記識別対象を識別した識別結果に基づき、転移学習への適応に最適な学習済みモデルを選択する最適モデル選択部と、を備える。

【0012】

本発明の一態様に係るモデル選択方法は、ドメイン学習部が、互いに共通のクラスを有する異なるドメインごとに、識別対象を示す入力データを入力として前記識別対象を識別可能に学習した学習済みモデルを生成するドメイン学習過程と、最適モデル選択部が、前記異なるドメインごとに生成された学習済みモデルの中から、各々の学習済みモデルが前記識別対象を識別した識別結果に基づき、転移学習への適応に最適な学習済みモデルを選択する最適モデル選択過程と、を含む。

【0013】

本発明の一態様に係るプログラムは、コンピュータを、互いに共通のクラスを有する異なるドメインごとに、識別対象を示す入力データを入力として前記識別対象を識別可能に学習した学習済みモデルを生成するドメイン学習手段と、前記異なるドメインごとに生成された学習済みモデルの中から、各々の学習済みモデルが前記識別対象を識別した識別結果に基づき、転移学習への適応に最適な学習済みモデルを選択する最適モデル選択手段と、として機能させる。

【発明の効果】

【0014】

本発明によれば、ドメインの異なる学習済みモデルの中から転移学習への適応に最適な学習済みモデルを選択することで、転移学習された学習済みモデルの精度を向上することができる。

【図面の簡単な説明】

【0015】

【図1】第１の実施形態に係るモデル選択装置の機能構成の一例を示すブロック図である。

【図2】第１の実施形態に係る転移学習候補となる学習済みモデルの生成処理の流れの一例を示すフローチャートである。

【図3】第１の実施形態に係る学習済みモデルの選択処理の流れの一例を示すフローチャートである。

【図4】第２の実施形態に係るモデル選択装置の機能構成の一例を示すブロック図である。

【図5】第２の実施形態に係る学習済みモデルの選択処理の流れの一例を示すフローチャートである。

【発明を実施するための形態】

【0016】

以下、図面を参照しながら本発明の実施形態について詳しく説明する。

【0017】

＜１．第１の実施形態＞
図１から図３を参照して、第１の実施形態について説明する。
第１の実施形態では、入力データに含まれる識別対象を識別する識別器について、対象とするドメインが異なる識別器ごとに識別対象を識別可能に学習した学習済みモデルの中から、各学習済みモデルのドメインスコアに基づき、転移学習への適応に最適な学習済みモデルを選択するモデル選択装置について説明する。なお、各ドメインは、互いに共通のクラスを有するものとする。

【0018】

以下では、識別対象が手書き文字であり、入力データが手書き文字を示す画像データである例について説明する。
この場合のドメインは、例えば、テキスト情報を含む古典籍や古文書などの種類である。それぞれのドメインは、この種類によって分類されており、ドメインごとにそれぞれの種類のデータが混合していることはないものとする。
クラスは、例えば、文字種である。文字種とは、漢字、平仮名、片仮名などの分類のことである。一例として、漢字で示された文字を含むドメイン同士は同じクラスに分類され、共通のクラスを有するといえる。平仮名と片仮名についても同様である。また、クラスは、文字の書体であってもよい。文字の書体は、例えば、楷書体、行書体、草書体などの分類である。一例として、楷書体で示された文字を含むドメイン同士は同じクラスに分類され、共通のクラスを有するといえる。行書体と草書体についても同様である。

【0019】

また、識別対象が手書き文字である場合の学習済みモデルは、手書きＯＣＲエンジンにてニューラルネットワークを用いた学習によってドメインごとに生成される。なお、ＯＣＲはＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｚａｔｉｏｎの略で、画像の中にあるテキストを認識し、テキストデータとして変換する技術のことを指す。
生成後、各学習済みモデルについて、テキストデータを含む手書き領域部分の画像データを入力として得られる出力に基づき、ドメインスコアが算出される。算出後、各学習済みモデルの中から、算出されたドメインスコアに基づき、転移学習への適応に最適な学習済みモデルが選択される。

【0020】

また、ドメインごとに生成された学習済みモデルの各々が識別対象とする手書き文字は、学習済みモデルごとに手書き文字が書かれた年代が異なるものとする。また、当該学習済みモデルは、筆記具で書かれた手書き文字を示す画像データを用いて学習したモデルであるものとする。
また、モデル選択装置は、画像データが行画像として与えられている場合、ドメインの区切れ目ごとに区切られた行単位（例えば一行単位）の画像を入力データとして扱う。一方、モデル選択装置は、入力データが行画像として与えられていない場合、文字ごとに区切られた文字単位の画像を入力データとして扱ってもよい。

【0021】

＜１－１．モデル選択装置の機能構成＞
図１を参照して、第１の実施形態に係るモデル選択装置の機能構成について説明する。図１は、第１の実施形態に係るモデル選択装置の機能構成の一例を示すブロック図である。図１に示すように、モデル選択装置１０は、記憶部１１０と、モデル分析部１２０と、モデル評価部１３０と、最適モデル選択部１４０とを備える。

【0022】

（１）記憶部１１０
記憶部１１０は、各種情報を記憶する機能を有する。記憶部１１０は、記憶媒体、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、フラッシュメモリ、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓｒｅａｄ／ｗｒｉｔｅＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、またはこれらの記憶媒体の任意の組み合わせによって構成される。
記憶部１１０は、各種情報を記憶するためのデータベース（ＤＢ）を備えてもよい。例えば、図１に示すように、記憶部１１０は、入力画像ＤＢ１１１と、モデル管理ＤＢ１１２と、計算結果ＤＢ１１３とを備える。

【0023】

（１－１）入力画像ＤＢ１１１
入力画像ＤＢ１１１は、学習済みモデルを生成する際の入力として用いられる入力データと、生成された学習済みモデルから出力を得る際の入力として用いられる入力データが格納されるデータベースである。

【0024】

（１－２）モデル管理ＤＢ１１２
モデル管理ＤＢ１１２は、後述するドメイン学習部１２１によって生成された学習済みのモデルであり、転移学習が適応される候補となる学習済みモデルを記憶する。

【0025】

（１－３）計算結果ＤＢ１１３
計算結果ＤＢ１１３は、転移学習の適応に最適な学習済みモデルを選択するための指標を記憶する。当該指標は、例えば、後述するモデル評価部１３０によって算出されるドメインスコアである。

【0026】

（２）モデル分析部１２０
モデル分析部１２０は、入力画像ＤＢ１１１より取り出したテキスト情報を含む画像データを分析し、転移学習へ適応の候補となる学習済みモデルを取り出す機能を有する。
図１に示すように、モデル分析部１２０は、ドメイン学習部１２１を備える。

【0027】

（２－１）ドメイン学習部１２１
ドメイン学習部１２１は、ドメインごとの学習済みモデルを生成する機能を有する。例えば、ドメイン学習部１２１は、入力画像ＤＢ１１１からテキスト情報を含む画像データを取得し、各画像データを入力として文字種の判別（識別）を行い学習することで、ドメインごとの学習済みモデルを生成して出力する。生成した学習済みモデルは、モデル管理ＤＢ１１２に格納される。

【0028】

なお、ドメイン学習部１２１は、異なるクラス間の対応関係を示す対応マップデータを有してもよい。この場合、ドメイン学習部１２１は、選択されたクラスに対して、対応マップデータに基づいて学習済みモデル間のクラスを統合する処理を行う。一例として、対応マップデータが漢字と平仮名との対応関係を示す場合、例えば読みが「あ」である漢字の識別結果と平仮名の「あ」の識別結果とを同じものとみなすことができる。これにより、ドメイン学習部１２１は、異なるクラスを有するドメインを共通のクラスを有するドメインとして扱うことができる。

【0029】

（３）モデル評価部１３０
モデル評価部１３０は、学習済みモデルを評価する機能を有する。例えば、モデル評価部１３０は、ドメインの異なる学習済みモデルごとに分散を算出し、算出結果に基づき各学習済みモデルを評価する。
図１に示すように、モデル評価部１３０は、確率分布計算部１３１と、情報行列計算部１３２と、ドメインスコア計算部１３３とを備える。

【0030】

（３－１）確率分布計算部１３１
確率分布計算部１３１は、確率分布を算出する機能を有する。例えば、確率分布計算部１３１は、ドメイン学習部１２１にて得られた学習済みモデルを入力として、転移学習の対象となる画像データ（入力データ）の確率分布を算出する。確率分布計算部１３１は、ドメインごとの全ての学習済みモデルについて、確率分布を算出する。

【0031】

（３－２）情報行列計算部１３２
情報行列計算部１３２は、情報行列を算出する機能を有する。例えば、情報行列計算部１３２は、確率分布計算部１３１によって算出された確率分布を入力として、当該確率分布をベクトルとし、勾配を計算することで情報行列を生成する。

【0032】

（３－３）ドメインスコア計算部１３３
ドメインスコア計算部１３３は、ドメインスコアを算出する機能を有する。ドメインスコア計算部１３３は、最適な学習済みモデルを選択するための指標として、ドメイン学習部１２１によって生成された学習済みモデルごとに、手書き文字を識別した識別結果の分散をドメインスコアとして算出する。例えば、ドメインスコア計算部１３３は、情報行列計算部１３２によって算出された情報行列を入力として、ドメインごとにドメインスコアを算出する。算出したドメインスコアは、計算結果ＤＢ１１３に格納される。

【0033】

（４）最適モデル選択部１４０
最適モデル選択部１４０は、転移学習への適応に最適な学習済みモデルを選択する機能を有する。例えば、最適モデル選択部１４０は、ドメイン学習部１２１によって生成されモデル管理ＤＢ１１２に格納された学習済みモデルの中から、各々の学習済みモデルが手書き文字を識別した識別結果に基づき、転移学習への適応に最適な学習済みモデルを選択する。第１の実施形態では、最適モデル選択部１４０は、ドメインスコア計算部１３３によって算出されて計算結果ＤＢ１１３に格納されたドメインスコアに基づき、モデル管理ＤＢ１１２から最適な学習済みモデルを選択する。

【0034】

＜１－２．処理の流れ＞
以上、第１の実施形態に係るモデル選択装置１０の機能構成について説明した。続いて、図２及び図３を参照して、第１の実施形態に係る処理の流れについて説明する。以下では、一例として、テキスト情報を含む画像データを入力として扱うＯＣＲシステムについて、学習させた学習済みモデルを出力したのちに、新しい入力データにおいて最適な学習済みモデルを利用する例について説明する。なお、テキスト情報を含む画像データは、行画像を判別するためにＩＤ、幅、高さ、行画像の幅の開始位置を特定するためのｘ座標、行画像の高さの開始位置を特定するためのｙ座標、文字列の属性などを含み、１つの画像データの中に複数行にわたって文字列があるものとする。

【0035】

（１）転移学習候補となる学習済みモデルの生成処理
まず、図２を参照して、転移学習候補となる学習済みモデルの生成処理の流れの一例について説明する。図２は、第１の実施形態に係る転移学習候補となる学習済みモデルの生成処理の流れの一例を示すフローチャートである。

【0036】

図２に示すように、まず、ドメイン学習部１２１は、入力画像ＤＢ１１１からテキストデータを含む画像データを取得する（ステップＳ１０１）。
次いで、ドメイン学習部１２１は、取得した画像データが二値化されているか否かを確認する（ステップＳ１０２）。二値化されていない場合（ステップＳ１０２／ＮＯ）、処理をステップＳ１０３へ進める。一方、二値化されている場合（ステップＳ１０２／ＹＥＳ）、処理をステップＳ１０４へ進める。

【0037】

処理がステップＳ１０３へ進んだ場合、ドメイン学習部１２１は、画像データの二値化を行う（ステップＳ１０３）。例えば、ドメイン学習部１２１は、判別分離法を行うことで分離度が最大となる閾値を求め、自動的に画像の二値化を行う。二値化後、処理をステップＳ１０４へ進める。

【0038】

処理がステップＳ１０４へ進んだ場合、ドメイン学習部１２１は、画像データを画像ごとに矩形画像に切り出す（ステップＳ１０４）。例えば、ドメイン学習部１２１は、幅、高さ、行画像の幅の開始位置を特定するためのｘ座標、行画像の高さの開始位置を特定するためのｙ座標から１行の外接矩形を特定し、当該外接矩形に基づき矩形画像を生成する。そして、ドメイン学習部１２１は、矩形画像ごとに対応する文字列を出力する。

【0039】

次いで、ドメイン学習部１２１は、学習におけるラベル情報の作成が必要であるか否かを確認する（ステップＳ１０５）。ラベル情報が用意されていない場合はラベル情報の作成が必要であると判定し（ステップＳ１０５／ＹＥＳ）、処理をステップＳ１０６へ進める。一方、ラベル情報が用意されている場合はラベル情報の作成が必要でないと判定し（ステップＳ１０５／ＮＯ）、処理をステップＳ１０７へ進める。

【0040】

処理がステップＳ１０６へ進んだ場合、ドメイン学習部１２１は、ラベル情報を作成する（ステップＳ１０６）。第１の実施形態では、学習用に文字種セマンティックセグメンテーション（ＳＳ）を作成している。文字種ＳＳでは、文字種ごとの単位で正解としてのラベル付けをし、クラスに用いる。ラベル情報の作成後、処理をステップＳ１０７へ進める。

【0041】

処理がステップＳ１０７へ進んだ場合、ドメイン学習部１２１は、ドメインごとに、ラベル情報をもとに矩形画像を用いて文字種の推定を行う（ステップＳ１０７）。
次いで、ドメイン学習部１２１は、ドメインごとにラベル情報を用いて手書き部分推定のニューラルネットワークを用い学習する（ステップＳ１０８）。これらのネットワーク構造は、例えばＦＣＮ（ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ）の形態をとり得る。
そして、ドメイン学習部１２１は、ドメインごとに生成した学習済みモデルを出力し、モデル管理ＤＢ１１２に格納して保存する（ステップＳ１０９）。

【0042】

（２）学習済みモデルの選択処理の流れ
次に、図３を参照して、学習済みモデルの選択処理の流れの一例について説明する。図３は、第１の実施形態に係る学習済みモデルの選択処理の流れの一例を示すフローチャートである。

【0043】

図３に示すように、まず、モデル評価部１３０は、矩形画像データを取得する（ステップＳ２０１）。例えば、モデル評価部１３０は、図２のステップＳ１０１からステップＳ１０４と同様にして、テキストデータを含む二値化された矩形画像データを取得する。

【0044】

次いで、モデル評価部１３０は、モデル管理ＤＢ１１２において保存されているドメインごとに学習済みモデルが複数あるか否かを確認する（ステップＳ２０２）。１つのドメインについて学習済みモデルが複数ある場合（ステップＳ２０２／ＹＥＳ）、処理をステップＳ２０３へ進める。一方、１つのドメインについて学習済みモデルが複数ない場合（ステップＳ２０２／ＮＯ）、処理をステップＳ２０４へ進める。

【0045】

処理がステップＳ２０３へ進んだ場合、モデル評価部１３０は、複数ある学習済みモデルの中から、そのドメイン内で最も適した学習済みモデルを選択する（ステップＳ２０３）。選択後、処理をステップＳ２０４へ進める。なお、ステップＳ２０２にて、学習済みモデルが保存されていないドメインが検出された場合、当該学習済みモデルに関しては最適な学習済みモデルを選択する際のドメインの候補から除外する。

【0046】

処理がステップＳ２０４へ進んだ場合、確率分布計算部１３１は、モデル管理ＤＢ１１２に格納された学習済みモデルについて、その出力から確率分布を算出する（ステップＳ２０４）。例えば、確率分布計算部１３１は、学習済みモデルを入力として、ターゲットデータセットのダミーラベル分布を算出する。

【0047】

次いで、情報行列計算部１３２は、情報行列を算出する（ステップＳ２０５）。例えば、情報行列計算部１３２は、確率分布計算部１３１によってダミーラベル分布として算出された確率分布の各パラメータごとの勾配を算出し、その転置行列との積をとることで入力データと確率分布から情報行列を算出する。

【0048】

次いで、情報行列計算部１３２は、ドメインごとのクラスに重複が有るか否かを確認する（ステップＳ２０６）。重複がない場合（ステップＳ２０６／ＮＯ）、処理をステップＳ２０７へ進める。一方、重複がある場合（ステップＳ２０６／ＹＥＳ）、処理をステップＳ２０８へ進める。

【0049】

処理がステップＳ２０７へ進んだ場合、情報行列計算部１３２は、情報行列のフィルタリングを行う（ステップＳ２０７）。当該フィルタリングでは、情報行列から異なるフィルタ間の相関は重要でないとし、すべてのフィルタパラメータが平均化される。これにより、完全な情報行列から近似を行うことで簡易化することができる。フィルタリング後、処理をステップＳ２０８へ進める。

【0050】

処理がステップＳ２０８へ進んだ場合、ドメインスコア計算部１３３は、ドメインごとに情報行列より固定長のベクトルを出力する（ステップＳ２０８）。第１の本実施形態では、この固定長のベクトルがドメインスコアに相当する。ドメインスコア計算部１３３は、学習済みモデルごとに情報行列の大きさが異なるため、対角成分のみを取り出し、その対角成分を同じフィルタでの値を平均し、固定長のベクトルを出力する。

【0051】

次いで、ドメインスコア計算部１３３は、学習済みモデルごとの対称性を確認する（ステップＳ２０９）。対称性がない（非対称）場合（ステップＳ２０９／ＮＯ）、処理をステップＳ２１０へ進める。一方、対称性がある場合（ステップＳ２０９／ＹＥＳ）、処理をステップＳ２１１へ進める。

【0052】

処理がステップＳ２１０へ進んだ場合、ドメインスコア計算部１３３は、非対称である類似度でドメインごとにドメインスコアを計算する（ステップＳ２１０）計算後、処理をステップＳ２１２へ進める。
処理がステップＳ２１１へ進んだ場合、ドメインスコア計算部１３３は、コサイン類似度で学習済みモデルをベクトル化し、ドメインスコアを計算する（ステップＳ２１１）。計算後、処理をステップＳ２１２へ進める。
なお、計算されたドメインスコアは、計算結果ＤＢ１１３に格納され保存される。

【0053】

処理がステップＳ２１２へ進んだ場合、最適モデル選択部１４０は、ドメインスコアの算出結果に基づき、最適な学習済みモデルの選択を行う（ステップＳ２１２）。例えば、最適モデル選択部１４０は、それぞれのドメインに対して行ったドメインスコアの算出において、最も小さいスコアを示す学習済みモデルを最適な学習済みモデルとして選択する。

【0054】

以上説明したように、第１の実施形態に係るモデル選択装置１０は、互いに共通のクラスを有する異なるドメインごとに、識別対象を示す入力データを入力として識別対象を識別可能に学習した学習済みモデルを生成するドメイン学習部１２１と、異なるドメインごとに生成された学習済みモデルの中から、各々の学習済みモデルが識別対象を識別した識別結果に基づき、転移学習への適応に最適な学習済みモデルを選択する最適モデル選択部１４０とを備える。

【0055】

かかる構成により、第１の実施形態に係るモデル選択装置１０は、事前にドメインの違いによる識別器の識別精度の違いを考慮した上で、転移学習に適応する学習済みモデルを選択することができる。
よって、第１の実施形態に係るモデル選択装置１０は、ドメインの異なる学習済みモデルの中から転移学習への適応に最適な学習済みモデルを選択することで、転移学習された学習済みモデルの精度を向上することを可能とする。

【0056】

また、第１の実施形態に係るモデル選択装置１０は、最適な学習済みモデルを選択するための指標として、異なるドメインごとに生成された学習済みモデルごとに識別結果の分散を算出するドメインスコア計算部１３３、をさらに備え、最適モデル選択部１４０は、算出されたドメインスコアに基づき、最適な学習済みモデルを選択する。
かかる構成により、第１の実施形態に係るモデル選択装置１０は、入力データの真値と入力データの学習済みモデルの確率分布とを用いることにより、入力データから推論するための最適なモデルを、より精度高く選択することができる。また、最適なモデルの選択にかかる時間を短縮することもできる。

【0057】

＜２．第２の実施形態＞
以上、第１の実施形態について説明した。続いて、図４及び図５を参照して、第２の実施形態について説明する。
上述した第１の実施形態では、転移学習の候補となる学習済みモデルの中から、各学習済みモデルのドメインスコアに基づき、最適な学習済みモデルを選択する例について説明したが、かかる例に限定されない。第２の実施形態では、転移学習の候補となる学習済みモデルに対するアンサンブル学習に基づき、最適な学習済みモデルを選択する例について説明する。
なお、以下では、第１の実施形態での説明と重複する説明については、適宜省略する。

【0058】

＜２－１．モデル選択装置の機能構成＞
図４を参照して、第２の実施形態に係るモデル選択装置１０ａの機能構成について説明する。図４は、第２の実施形態に係るモデル選択装置１０ａの機能構成の一例を示すブロック図である。図４に示すように、モデル選択装置１０ａは、記憶部１１０ａと、モデル分析部１２０ａと、最適モデル選択部１４０ａとを備える。

【0059】

（１）記憶部１１０ａ
記憶部１１０ａは、第１の実施形態に係る記憶部１１０と同様の記憶媒体によって各種情報を記憶する機能を有する。図４に示すように、記憶部１１０ａは、入力画像ＤＢ１１１と、モデル管理ＤＢ１１２ａと、計算結果ＤＢ１１３とを備える。

【0060】

（１－１）入力画像ＤＢ１１１
第２の実施形態に係る入力画像ＤＢ１１１の機能は、第１の実施形態に係る入力画像ＤＢ１１１の機能と同様であるため、その説明を省略する。

【0061】

（１－２）モデル管理ＤＢ１１２ａ
モデル管理ＤＢ１１２ａは、後述する転移学習部１２２によって生成された学習済みモデルであり、後述するアンサンブル学習部１２３によってアンサンブル学習が適応される学習済みモデルを記憶する。

【0062】

（１－３）計算結果ＤＢ１１３
第２の実施形態に係る計算結果ＤＢ１１３の機能は、第１の実施形態に係る計算結果ＤＢ１１３の機能と同様であるため、その説明を省略する。

【0063】

（２）モデル分析部１２０ａ
図４に示すように、モデル分析部１２０ａは、第１の実施形態に係るモデル分析部１２０と同様のドメイン学習部１２１に加え、転移学習部１２２と、アンサンブル学習部１２３とをさらに備える。

【0064】

（２－１）ドメイン学習部１２１
第２の実施形態に係るドメイン学習部１２１の機能は、第１の実施形態に係るドメイン学習部１２１の機能と同様であるため、その説明を省略する。

【0065】

（２－２）転移学習部１２２
転移学習部１２２は、学習済みモデルに対して、転移学習を行う機能を有する。例えば、転移学習部１２２は、ドメイン学習部１２１によって生成された学習済みモデルの各々に対して、転移先のドメインについて対象となる画像データを用いて転移学習を行う。

【0066】

（２－３）アンサンブル学習部１２３
アンサンブル学習部１２３は、異なるドメインごとに生成された学習済みモデルに基づき、アンサンブル学習を行う機能を有する。例えば、アンサンブル学習部１２３は、転移学習部１２２によって転移学習された学習済みモデルを入力として、当該学習済みモデルに対してアンサンブル学習を行う。

【0067】

アンサンブル学習部１２３は、アンサンブル学習を行う際のアンサンブルさせる学習済みモデルの学習において、任意の活性化関数を用いて学習済みモデルにおける分散表現としての重みを算出する。アンサンブル学習部１２３は、活性化関数として例えばソフトマックス（ｓｏｆｔｍａｘ）関数を用いて、アンサンブルの重みをｓｏｆｔｍａｘ値に基づいて算出する。なお、アンサンブル学習部１２３が用いる活性化関数は、出力の値が１．０となるように変換して出力する関数であればソフトマックス関数に限定されず、例えばシグモイド（ｓｉｇｍｏｉｄ）関数やＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）関数など、他の活性化関数であってもよい。

【0068】

（３）最適モデル選択部１４０ａ
最適モデル選択部１４０ａは、第１の実施形態に係る最適モデル選択部１４０ａと同様に、ドメイン学習部１２１によって生成されモデル管理ＤＢ１１２に格納された学習済みモデルの中から、各々の学習済みモデルが手書き文字を識別した識別結果に基づき、転移学習への適応に最適な学習済みモデルを選択する。第２の実施形態では、最適モデル選択部１４０ａは、アンサンブル学習部１２３によるアンサンブル学習の結果に基づき、モデル管理ＤＢ１１２から最適な学習済みモデルを選択する。

【0069】

＜２－２．処理の流れ＞
以上、第２の実施形態に係るモデル選択装置１０ａの機能構成について説明した。続いて、図５を参照して、第２の実施形態に係る処理の流れについて説明する。以下では、第１の実施形態と同様に、テキスト情報を含む画像データを入力として扱うＯＣＲシステムについて、学習させた学習済みモデルを出力したのちに、新しい入力データにおいて最適な学習済みモデルを利用する例について説明する。なお、テキスト情報を含む画像データは、行画像を判別するためにＩＤ、幅、高さ、行画像の幅の開始位置を特定するためのｘ座標、行画像の高さの開始位置を特定するためのｙ座標、文字列の属性などを含み、１つの画像データの中に複数行にわたって文字列があるものとする。

【0070】

（１）転移学習候補となる学習済みモデルの生成処理
第２の実施形態に係る転移学習候補となる学習済みモデルの生成処理は、第１の実施形態にて図２を参照して説明した処理と同様であるため、その説明を省略する。

【0071】

（２）学習済みモデルの選択処理の流れ
次に、図５を参照して、学習済みモデルの選択処理の流れの一例について説明する。図５は、第２の実施形態に係る学習済みモデルの選択処理の流れの一例を示すフローチャートである。

【0072】

図５に示すステップＳ３０１からステップＳ３０３までの処理は、第１の実施形態にて図３を参照して説明したステップＳ２０１からステップＳ３０３の処理と同様であるため、その説明を省略する。

【0073】

処理がステップＳ３０４に進んだ場合、転移学習部１２２は、ドメイン学習部１２１で生成されたすべての学習済みモデルに対して、画像データ（入力データ）を用いて転移学習を行う（ステップＳ３０４）。転移学習された学習済みモデル（転移モデル）は、モデル管理ＤＢ１１２ａに格納され保存される。

【0074】

次いで、アンサンブル学習部１２３は、重み付けにアルゴリズムを用いるか否かを確認する（ステップＳ３０５）。アルゴリズムを用いる場合（ステップＳ３０５／ＹＥＳ）、処理をステップＳ３０６へ進める。一方、アルゴリズムを用いない場合（ステップＳ３０５／ＮＯ）、処理をステップＳ３０７へ進める。

【0075】

処理がステップＳ３０６へ進んだ場合、アンサンブル学習部１２３は、ラベル推定の確率を算出する（ステップＳ３０６）。例えば、アンサンブル学習部１２３は、任意の活性化関数を用いてラベル推定の確率を算出する。具体的に、アンサンブル学習部１２３は、学習済みモデルごとのラベル推定の確率を算出したものを平均し、任意の活性化関数で標準化することで、全体の出力としてのラベル推定の確率を算出する。算出後、処理をステップＳ３１１へ進める。

【0076】

処理がステップＳ３０７へ進んだ場合、アンサンブル学習部１２３は、学習済みモデル単位でラベルを取得する（ステップＳ３０７）。
次いで、アンサンブル学習部１２３は、取得したラベルの数に応じて、そのラベルの推定結果に対して、類推結果の数で多数決を取る（ステップＳ３０８）。アンサンブル学習部１２３は、多数決の結果数が多いものを類推するラベルとして決定する。この時、アンサンブル学習部１２３は、類推結果の数に対して若い順にＩＤを割り振り、その数を計算結果ＤＢ１１３に格納する。

【0077】

次いで、アンサンブル学習部１２３は、多数決の結果における類推数が一致するか否かを確認する（ステップＳ３０９）。一致する場合（ステップＳ３０９／ＹＥＳ）、処理をステップＳ３１０へ進める。一方、一致しない場合（ステップＳ３０９／ＮＯ）、処理をステップＳ３１１へ進める。
処理がステップＳ３１０へ進んだ場合、アンサンブル学習部１２３は、割り振ったＩＤが若い類推結果のラベルを選択する（ステップＳ３１０）。選択後、処理をステップＳ３１１へ進める。

【0078】

処理がステップＳ３１１へ進んだ場合、アンサンブル学習部１２３は、アンサンブル学習を行い、その結果を出力する（ステップＳ３１１）。重み付けにアルゴリズムを用いない場合、アンサンブル学習部１２３は、集計関数をラベルの多数決として、アンサンブル精度を出力する。一方、重み付けにアルゴリズムを用いる場合、アンサンブル学習部１２３は、集計関数を確率の平均とし、アンサンブル精度を出力する。
そして、最適モデル選択部１４０ａは、そのアンサンブルにおける学習済みモデルを最適な学習済みモデルとして選択する（ステップＳ３１２）。

【0079】

以上説明したように、第２の実施形態に係るモデル選択装置１０ａは、互いに共通のクラスを有する異なるドメインごとに、識別対象を示す入力データを入力として識別対象を識別可能に学習した学習済みモデルを生成するドメイン学習部１２１と、異なるドメインごとに生成された学習済みモデルの中から、各々の学習済みモデルが識別対象を識別した識別結果に基づき、転移学習への適応に最適な学習済みモデルを選択する最適モデル選択部１４０ａとを備える。

【0080】

かかる構成により、第２の実施形態に係るモデル選択装置１０ａは、事前にドメインの違いによる識別器の識別精度の違いを考慮した上で、転移学習に適応する学習済みモデルを選択することができる。
よって、第２の実施形態に係るモデル選択装置１０ａは、ドメインの異なる学習済みモデルの中から転移学習への適応に最適な学習済みモデルを選択することで、転移学習された学習済みモデルの精度を向上することを可能とする。

【0081】

また、第２の実施形態に係るモデル選択装置１０ａは、異なるドメインごとに生成された学習済みモデルに基づき、アンサンブル学習を行うアンサンブル学習部１２３、をさらに備え、最適モデル選択部１４０は、アンサンブル学習の結果に基づき、最適な学習済みモデルを選択する。
かかる構成により、第２の実施形態に係るモデル選択装置１０ａは、入力データの求める項目の真値と、学習済みモデルにその入力データを入力して推論することによって得られる目的変数の誤差を評価することにより、入力データから推論するための最適なモデルを、より精度高く選択することができる。また、最適なモデルの選択にかかる時間を短縮することもできる。

【0082】

以上、本発明の実施形態について説明した。なお、上述した実施形態におけるモデル選択装置１０及び１０aの一部又は全部の機能をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ（Field Programmable Gate Array）等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

【0083】

以上、図面を参照してこの発明の実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

【符号の説明】

【0084】

１０，１０ａ…モデル選択装置、１１０，１１０ａ…記憶部、１１１…入力画像ＤＢ、１１２，１１２ａ…モデル管理、１１３…計算結果ＤＢ、１２０，１２０ａ…モデル分析部、１２１…ドメイン学習部、１２２…転移学習部、１２３…アンサンブル学習部、１３０…モデル評価部、１３１…確率分布計算部、１３２…情報行列計算部、１３３…ドメインスコア計算部、１４０，１４０ａ…最適モデル選択部

【図1】

【図2】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版