特開2024-71824 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＫＤＤＩ株式会社の特許一覧

特開2024-71824学習装置、情報処理装置、学習方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024071824

(43)【公開日】2024-05-27

(54)【発明の名称】学習装置、情報処理装置、学習方法、及びプログラム

(51)【国際特許分類】

G06N 3/08 20230101AFI20240520BHJP

G06N 20/00 20190101ALI20240520BHJP

【ＦＩ】

G06N3/08

G06N20/00 130

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2022182261

(22)【出願日】2022-11-15

(71)【出願人】

【識別番号】000208891

【氏名又は名称】ＫＤＤＩ株式会社

(74)【代理人】

【識別番号】110004222

【氏名又は名称】弁理士法人創光国際特許事務所

(74)【代理人】

【識別番号】100166006

【弁理士】

【氏名又は名称】泉通博

(74)【代理人】

【識別番号】100154070

【弁理士】

【氏名又は名称】久恒京範

(74)【代理人】

【識別番号】100153280

【弁理士】

【氏名又は名称】寺川賢祐

(72)【発明者】

【氏名】王亜楠

(72)【発明者】

【氏名】和田真弥

(57)【要約】（修正有）

【課題】感情の認識モデルの認識性能を向上させる。
【解決手段】情報処理システムの学習装置１は、所定のラベルが対応付けられている第１ベクトルデータを複数の層から構成される第１ニューラルネットワークに入力したときに、当該第１ベクトルデータに対応付けられているラベルを出力するように第１ニューラルネットワークの各層のパラメータを学習する第１学習部１２２と、第１学習部１２２が学習した第１ニューラルネットワークを構成する各層のパラメータを、複数の層から構成される第２ニューラルネットワークの各層に設定する設定部１２４と、第１ベクトルデータに対応付けられているラベルと同じラベルが対応付けられている第２ベクトルデータを第２ニューラルネットワークに入力したときに、当該第２ベクトルデータに対応付けられているラベルを出力するように第２ニューラルネットワークの各層のパラメータを学習する第２学習部１２３と、を有する。
【選択図】図２

【特許請求の範囲】

【請求項1】

所定のラベルが対応付けられている第１ベクトルデータを複数の層から構成される第１ニューラルネットワークに入力したときに、当該第１ベクトルデータに対応付けられている前記ラベルを出力するように前記第１ニューラルネットワークを構成する各層のパラメータを学習する第１学習部と、
前記第１学習部が学習した前記第１ニューラルネットワークを構成する各層のパラメータを、複数の層から構成される第２ニューラルネットワークを構成する各層に設定する設定部と、
前記第１ベクトルデータに対応付けられている前記ラベルと同じ前記ラベルが対応付けられている第２ベクトルデータを前記第２ニューラルネットワークに入力したときに、当該第２ベクトルデータに対応付けられている前記ラベルを出力するように前記第２ニューラルネットワークを構成する各層のパラメータを学習する第２学習部と、
を有する学習装置。

【請求項2】

前記ラベルが対応付けられているモーダルデータを取得するモーダルデータ取得部と、
前記モーダルデータを当該モーダルデータに対応するモーダルの種類とは異なる他の種類のモーダルの特徴が表現された前記第１ベクトルデータに変換する第１変換部と、
前記モーダルデータを当該モーダルデータに対応するモーダルの特徴が表現された前記第２ベクトルデータに変換する第２変換部と、
をさらに有する、
請求項１に記載の学習装置。

【請求項3】

前記第１変換部は、前記モーダルデータを、それぞれモーダルの種類が異なる複数の前記第１ベクトルデータに変換し、
前記第１変換部が変換した前記第１ベクトルデータごとに、前記第１学習部が実行する処理と、前記設定部が実行する処理と、前記第２学習部が実行する処理とを順番に実行させる学習制御部をさらに有し、
前記学習制御部は、前記第２学習部が実行する処理を実行させた後において、前記第１学習部が実行する処理を実行させる前に、前記設定部に対して、前記第２学習部が学習した前記第２ニューラルネットワークを構成する各層のパラメータを、前記第１ニューラルネットワークを構成する各層に設定する処理を実行させる、
請求項２に記載の学習装置。

【請求項4】

前記学習制御部は、前記第１変換部が変換した前記第１ベクトルデータごとに各処理を順番に実行させた後に、再度、前記第１変換部が変換した前記第１ベクトルデータごとに各処理を順番に実行させる、
請求項３に記載の学習装置。

【請求項5】

請求項２から４のいずれか一項に記載の学習装置が生成した前記第２ニューラルネットワークを構成する各層のパラメータを学習モデルとして記憶する記憶部と、
前記モーダルデータとモーダルが同じ種類の同種データを取得する同種データ取得部と、
前記記憶部が記憶する学習モデルを前記同種データ取得部が取得した前記同種データに適用することにより、前記同種データに対応するラベルを出力するモデル適用部と、
を有する情報処理装置。

【請求項6】

コンピュータが実行する、
所定のラベルが対応付けられている第１ベクトルデータを複数の層から構成される第１ニューラルネットワークに入力したときに、当該第１ベクトルデータに対応付けられている前記ラベルを出力するように前記第１ニューラルネットワークを構成する各層のパラメータを学習するステップと、
学習した前記第１ニューラルネットワークを構成する各層のパラメータを、複数の層から構成される第２ニューラルネットワークを構成する各層に設定するステップと、
前記第１ベクトルデータに対応付けられている前記ラベルと同じ前記ラベルが対応付けられている第２ベクトルデータを前記第２ニューラルネットワークに入力したときに、当該第２ベクトルデータに対応付けられている前記ラベルを出力するように前記第２ニューラルネットワークを構成する各層のパラメータを学習するステップと、
を有する学習方法。

【請求項7】

コンピュータを、
所定のラベルが対応付けられている第１ベクトルデータを複数の層から構成される第１ニューラルネットワークに入力したときに、当該第１ベクトルデータに対応付けられている前記ラベルを出力するように前記第１ニューラルネットワークを構成する各層のパラメータを学習する第１学習部、
前記第１学習部が学習した前記第１ニューラルネットワークを構成する各層のパラメータを、複数の層から構成される第２ニューラルネットワークを構成する各層に設定する設定部、及び
前記第１ベクトルデータに対応付けられている前記ラベルと同じ前記ラベルが対応付けられている第２ベクトルデータを前記第２ニューラルネットワークに入力したときに、当該第２ベクトルデータに対応付けられている前記ラベルを出力するように前記第２ニューラルネットワークを構成する各層のパラメータを学習する第２学習部、
として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、学習装置、情報処理装置、学習方法、及びプログラムに関する。

【背景技術】

【0002】

従来、コミュニケーションシーンに参加している人間同士の雰囲気を認識する技術が提案されている。例えば、非特許文献１には、画像から顔、ポーズ、ジェスチャ、視線などの特徴量を抽出して、既知の深層学習手法を利用してグループレベルでの感情の認識モデルを実現するための技術が開示されている。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Xin Guo, Bin Zhu, Luisa F. Polania, Charles Boncelet, and Kenneth E. Barner. 2018. Group-Level Emotion Recognition using Hybrid Deep Models based on Faces, Scenes, Skeletons and Visual Attentions. ACM International Conference on Multimodal Interaction 2018.

【発明の概要】

【発明が解決しようとする課題】

【0004】

上記の技術は、画像に含まれる視覚特徴を抽出して複数のモデルを構築し、それらのモデルで認識した結果を融合することで雰囲気認識の実現を試みる技術である。しかしながら、画像のような１つのモーダルの種類のデータから抽出された特徴（例えば、顔特徴や表情特徴等）だけでは、実用的な認識性能を担保することが難しい場合がある。

【0005】

そこで、本発明はこれらの点に鑑みてなされたものであり、モデルの認識性能を向上させることを目的とする。

【課題を解決するための手段】

【0006】

本発明の第１の態様にかかる学習装置は、所定のラベルが対応付けられている第１ベクトルデータを複数の層から構成される第１ニューラルネットワークに入力したときに、当該第１ベクトルデータに対応付けられている前記ラベルを出力するように前記第１ニューラルネットワークを構成する各層のパラメータを学習する第１学習部と、前記第１学習部が学習した前記第１ニューラルネットワークを構成する各層のパラメータを、複数の層から構成される第２ニューラルネットワークを構成する各層に設定する設定部と、前記第１ベクトルデータに対応付けられている前記ラベルと同じ前記ラベルが対応付けられている第２ベクトルデータを前記第２ニューラルネットワークに入力したときに、当該第２ベクトルデータに対応付けられている前記ラベルを出力するように前記第２ニューラルネットワークを構成する各層のパラメータを学習する第２学習部と、を有する。

【0007】

前記学習装置は、前記ラベルが対応付けられているモーダルデータを取得するモーダルデータ取得部と、前記モーダルデータを当該モーダルデータに対応するモーダルの種類とは異なる他の種類のモーダルの特徴が表現された前記第１ベクトルデータに変換する第１変換部と、前記モーダルデータを当該モーダルデータに対応するモーダルの特徴が表現された前記第２ベクトルデータに変換する第２変換部と、をさらに有してもよい。

【0008】

前記第１変換部は、前記モーダルデータを、それぞれモーダルの種類が異なる複数の前記第１ベクトルデータに変換してもよいし、前記学習装置は、前記第１変換部が変換した前記第１ベクトルデータごとに、前記第１学習部が実行する処理と、前記設定部が実行する処理と、前記第２学習部が実行する処理とを順番に実行させる学習制御部をさらに有してもよいし、前記学習制御部は、前記第２学習部が実行する処理を実行させた後において、前記第１学習部が実行する処理を実行させる前に、前記設定部に対して、前記第２学習部が学習した前記第２ニューラルネットワークを構成する各層のパラメータを、前記第１ニューラルネットワークを構成する各層に設定する処理を実行させてもよい。

【0009】

前記学習制御部は、前記第１変換部が変換した前記第１ベクトルデータごとに各処理を順番に実行させた後に、再度、前記第１変換部が変換した前記第１ベクトルデータごとに各処理を順番に実行させてもよい。

【0010】

本発明の第２の態様にかかる情報処理装置は、前記学習装置が生成した前記第２ニューラルネットワークを構成する各層のパラメータを学習モデルとして記憶する記憶部と、前記モーダルデータとモーダルが同じ種類の同種データを取得する同種データ取得部と、前記記憶部が記憶する学習モデルを前記同種データ取得部が取得した前記同種データに適用することにより、前記同種データに対応するラベルを出力するモデル適用部と、を有する。

【0011】

本発明の第３の態様にかかる学習方法は、コンピュータが実行する、所定のラベルが対応付けられている第１ベクトルデータを複数の層から構成される第１ニューラルネットワークに入力したときに、当該第１ベクトルデータに対応付けられている前記ラベルを出力するように前記第１ニューラルネットワークを構成する各層のパラメータを学習するステップと、学習した前記第１ニューラルネットワークを構成する各層のパラメータを、複数の層から構成される第２ニューラルネットワークを構成する各層に設定するステップと、前記第１ベクトルデータに対応付けられている前記ラベルと同じ前記ラベルが対応付けられている第２ベクトルデータを前記第２ニューラルネットワークに入力したときに、当該第２ベクトルデータに対応付けられている前記ラベルを出力するように前記第２ニューラルネットワークを構成する各層のパラメータを学習するステップと、を有する。

【0012】

本発明の第４の態様にかかるプログラムは、コンピュータを、所定のラベルが対応付けられている第１ベクトルデータを複数の層から構成される第１ニューラルネットワークに入力したときに、当該第１ベクトルデータに対応付けられている前記ラベルを出力するように前記第１ニューラルネットワークを構成する各層のパラメータを学習する第１学習部、前記第１学習部が学習した前記第１ニューラルネットワークを構成する各層のパラメータを、複数の層から構成される第２ニューラルネットワークを構成する各層に設定する設定部、及び前記第１ベクトルデータに対応付けられている前記ラベルと同じ前記ラベルが対応付けられている第２ベクトルデータを前記第２ニューラルネットワークに入力したときに、当該第２ベクトルデータに対応付けられている前記ラベルを出力するように前記第２ニューラルネットワークを構成する各層のパラメータを学習する第２学習部、として機能させる。

【発明の効果】

【0013】

本発明によれば、モデルの認識性能を向上させることができるという効果を奏する。

【図面の簡単な説明】

【0014】

【図1】情報処理システムの概要を説明するための図である。

【図2】学習装置の機能構成を模式的に示す図である。

【図3】情報処理装置の機能構成を模式的に示す図である。

【図4】学習制御部による処理の制御を模式的に表した図である。

【図5】学習装置が実行する学習処理の流れを説明するためのフローチャートである。

【発明を実施するための形態】

【0015】

［情報処理システムＳの概要］
図１は、情報処理システムＳの概要を説明するための図である。情報処理システムＳは、所定のモーダルデータを認識するために用いられるシステムである。所定のモーダルデータは、例えば、複数の人物の間の状態又は行動等（例えば雰囲気）を示すデータであり、複数の人物を被写体として含む画像データ、複数の人物の音声を含む音声データ、複数の人物間の状態又は行動等を文章で表した文字列データ、センサが検出した複数の人物それぞれの生体データ等である。

【0016】

「所定のモーダルデータの認識」は、例えば、複数の人物間の雰囲気の認識である。雰囲気は、例えば、画像データに含まれる被写体同士の雰囲気の良し悪しを示す概念である。「所定のモーダルデータの認識」は、これに限らず、音声認識、画像認識、感情認識等であってもよい。情報処理システムＳは、学習装置１と、情報処理装置２とを有する。

【0017】

学習装置１は、所定のモーダルデータを認識するために用いられる学習モデルを生成するコンピュータである。学習モデルは、複数の層から構成されるニューラルネットワークを利用して、所定のモーダルの特徴が表現されたベクトルデータを入力したときに、当該ベクトルデータに対応するラベルを出力する機械学習モデルである。所定のモーダルは、例えば、画像、音声、文字列、センシング等である。

【0018】

情報処理装置２は、所定のモーダルデータを認識するための認識処理を実行するコンピュータである。情報処理装置２は、それぞれ異なる複数のモーダルの知識が反映された学習モデルを用いて認識処理を実行する。

【0019】

学習装置１は、学習モデルを生成するとき、それぞれモーダルの種類が異なる複数のベクトルデータと、ラベル（複数のベクトルデータに共通するラベル）とが対応付けられたデータを教師データとして用いる。複数のベクトルデータは、例えば、複数の人物を被写体として含む画像データの特徴が表現されたベクトルデータ、画像データに含まれる被写体の音声データの特徴が表現されたベクトルデータ、画像データに含まれる被写体の状態又は行動等を文章で表した説明文の特徴が表現されたベクトルデータ、画像データに含まれる被写体の生体データの特徴が表現されたベクトルデータ等である。ラベルは、例えば、複数の人物を被写体として含む画像データの特徴が表現されたベクトルデータから得られる雰囲気を示す。

【0020】

「画像データに含まれる被写体の状態又は行動等を文章で表した説明文」とは、画像データに含まれる被写体（人物以外も含む）を描写した文章であり、少なくとも名詞と動詞とを含む文章である。説明文の具体例としては、例えば、「二人の男性が口論をしている」、「３人の女性がカフェで紅茶を飲んでいる」、「会議室の白板にグラフが描かれている」等である。

【0021】

この教師データを用いることにより、学習装置１は、それぞれモーダルの種類が異なる複数のベクトルデータの知識が反映された学習モデルを生成することができる。
以下、図１を参照して、学習装置１が実行する処理の概要を説明する。

【0022】

図１において、教師データＴ（第１教師データＴ１及び第２教師データＴ２）は、学習に用いられる教師データである。

【0023】

第１教師データＴ１は、第１モーダル（例えば音声）の特徴が表現された第１ベクトルデータＶ１と、ラベルＬとが対応付けられたデータである。第１ベクトルデータＶ１は、例えば、情報処理装置２が実行する認識処理において認識する対象のモーダルデータとはモーダルの種類が異なる他の種類のモーダルの特徴が表現されたベクトルデータである。

【0024】

第２教師データＴ２は、第１モーダルとは異なる種類の第２モーダル（例えば画像）の特徴が表現された第２ベクトルデータＶ２と、第１教師データＴ１に含まれるラベルＬと同じラベルＬとが対応付けられたデータである。第２ベクトルデータＶ２は、例えば、情報処理装置２が実行する認識処理において認識する対象のモーダルデータと同じ種類のモーダルの特徴が表現されたベクトルデータである。

【0025】

一例として、ラベルＬは１から５までの５段階の数値で表現され、数値が大きいほど雰囲気がよいことを示す。図１に例示する教師データＴでは、雰囲気を示すラベルＬが「５」であり、雰囲気がよいことを示している。

【0026】

第１ニューラルネットワークＮ１は、第１ベクトルデータＶ１を入力したときに、第１ベクトルデータＶ１の元となった第１教師データＴ１に含まれるラベルＬを出力するためのニューラルネットワークである。第２ニューラルネットワークＮ２は、第２ベクトルデータＶ２を入力したときに、第２ベクトルデータＶ２の元となった第２教師データＴ２に含まれるラベルＬを出力するためのニューラルネットワークである。第２ニューラルネットワークＮ２は、情報処理装置２が実行する認識処理において用いられるニューラルネットワークである。第１ニューラルネットワークＮ１と第２ニューラルネットワークＮ２とは、入力層、出力層、及び中間層を含む複数の層から構成されるニューラルネットワークであって、共通する複数の層から構成されるニューラルネットワークである。

【0027】

既知の技術であるため詳細な説明は省略するが、学習装置１は、第１ニューラルネットワークＮ１に第１ベクトルデータＶ１を入力したときの出力と教師データＴに含まれるラベルＬとの誤差を逆伝搬することにより、第１ニューラルネットワークＮ１を構成するパラメータを学習する。第２ニューラルネットワークＮ２の学習についても同様である。

【0028】

学習モデルにおいては、１つの種類のモーダルに基づく知識が反映される場合より、それぞれ異なる複数の種類のモーダルに基づく知識が反映された場合の方が、認識性能が向上し得る。そこで、学習装置１は、第１ニューラルネットワークＮ１の学習処理を実行した後において、第１ニューラルネットワークＮ１を構成する各層のパラメータを、第２ニューラルネットワークＮ２を構成する各層に設定してから、第２ニューラルネットワークＮ２の学習処理を実行する。

【0029】

上述したように、第１ニューラルネットワークＮ１は、第１ベクトルデータＶ１を入力したときに第１ベクトルデータＶ１に対応するラベルＬを出力するように学習される。すなわち、第１ニューラルネットワークＮ１は、第１モーダルに基づく情報ないし知識が学習されるニューラルネットワークと言えるため、第１ニューラルネットワークＮ１を構成する各層のパラメータには、第１モーダルに基づく知識が含まれると考えられる。

【0030】

したがって、第１ニューラルネットワークＮ１を構成する各層のパラメータを、第２ニューラルネットワークＮ２を構成する各層に設定することにより、第１モーダに基づく知識を第２ニューラルネットワークＮ２に反映させることができる。その後、第２ニューラルネットワークＮ２は、第２ベクトルデータＶ２を入力したときに第２ベクトルデータＶ２に対応付けられているラベルＬを出力するように学習されることで、第２ニューラルネットワークＮ２を構成する各層のパラメータに対して第２モーダルに基づく知識をさらに反映させることができる。これにより、第２ニューラルネットワークＮ２の学習モデルは、それぞれモーダルの種類が異なる複数のベクトルデータの知識に基づいて、ラベルが未知である１つのモーダルの種類のベクトルデータを認識することができる。その結果、学習装置１は、学習モデルの認識性能を向上させることができる。

【0031】

［学習装置１の構成］
図２は、学習装置１の機能構成を模式的に示す図である。学習装置１は、記憶部１１と制御部１２とを備える。図２において、矢印は主なデータの流れを示しており、図２に示していないデータの流れがあってもよい。図２において、各機能ブロックはハードウェア（装置）単位の構成ではなく、機能単位の構成を示している。そのため、図２に示す機能ブロックは単一の装置内に実装されてもよく、あるいは複数の装置内に分かれて実装されてもよい。機能ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてもよい。

【0032】

記憶部１１は、学習装置１を実現するコンピュータのＢＩＯＳ（Basic Input Output System）等を格納するＲＯＭ（Read Only Memory）や学習装置１の作業領域となるＲＡＭ（Random Access Memory）、ＯＳ（Operating System）やアプリケーションプログラム、当該アプリケーションプログラムの実行時に参照される種々の情報を格納するＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等の大容量記憶装置である。

【0033】

制御部１２は、学習装置１のＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等のプロセッサであり、記憶部１１に記憶されたプログラムを実行することによって、学習制御部１２１、第１学習部１２２、第２学習部１２３、設定部１２４、モーダルデータ取得部１２５、第１変換部１２６及び第２変換部１２７として機能する。学習制御部１２１、第１学習部１２２、第２学習部１２３、設定部１２４、モーダルデータ取得部１２５、第１変換部１２６及び第２変換部１２７の機能の詳細については後述する。

【0034】

なお、図２は、学習装置１が単一の装置で構成されている場合の例を示している。しかしながら、学習装置１は、例えばクラウドコンピューティングシステムのように複数のプロセッサやメモリ等の計算リソースによって実現されてもよい。この場合、制御部１２を構成する各部は、複数の異なるプロセッサの中の少なくともいずれかのプロセッサがプログラムを実行することによって実現される。

【0035】

［情報処理装置２の構成］
図３は、情報処理装置２の機能構成を模式的に示す図である。情報処理装置２は、記憶部２１と制御部２２とを備える。図３において、矢印は主なデータの流れを示しており、図３に示していないデータの流れがあってもよい。図３において、各機能ブロックはハードウェア（装置）単位の構成ではなく、機能単位の構成を示している。そのため、図３に示す機能ブロックは単一の装置内に実装されてもよく、あるいは複数の装置内に分かれて実装されてもよい。機能ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてもよい。

【0036】

記憶部２１は、情報処理装置２を実現するコンピュータのＢＩＯＳ等を格納するＲＯＭや情報処理装置２の作業領域となるＲＡＭ、ＯＳやアプリケーションプログラム、当該アプリケーションプログラムの実行時に参照される種々の情報を格納するＨＤＤやＳＳＤ等の大容量記憶装置である。

【0037】

制御部２２は、情報処理装置２のＣＰＵやＧＰＵ等のプロセッサであり、記憶部２１に記憶されたプログラムを実行することによって、同種データ取得部２２１及びモデル適用部２２２として機能する。同種データ取得部２２１及びモデル適用部２２２の機能の詳細については後述する。

【0038】

なお、図３は、情報処理装置２が単一の装置で構成されている場合の例を示している。しかしながら、情報処理装置２は、例えばクラウドコンピューティングシステムのように複数のプロセッサやメモリ等の計算リソースによって実現されてもよい。この場合、制御部２２を構成する各部は、複数の異なるプロセッサの中の少なくともいずれかのプロセッサがプログラムを実行することによって実現される。

【0039】

［学習処理］
まず、学習装置１が実行する学習処理について説明する。学習制御部１２１は、第１学習部１２２が実行する処理と、第２学習部１２３が実行する処理と、設定部１２４が実行する処理とを制御する。

【0040】

第１学習部１２２は、第１教師データＴ１を用いて第１ニューラルネットワークＮ１を学習する。具体的には、第１学習部１２２は、第１教師データＴ１においてラベルＬが対応付けられている第１ベクトルデータＶ１を第１ニューラルネットワークＮ１に入力したときに、当該第１ベクトルデータＶ１に対応付けられているラベルＬを出力するように第１ニューラルネットワークＮ１を構成する各層のパラメータを学習する。

【0041】

第２学習部１２３は、第２教師データＴ２を用いて第２ニューラルネットワークＮ２を学習する。具体的には、第２学習部１２３は、第２教師データＴ２において第１ベクトルデータＶ１に対応付けられているラベルＬと同じラベルＬが対応付けられている第２ベクトルデータＶ２を第２ニューラルネットワークＮ２に入力したときに、当該第２ベクトルデータＶ２に対応付けられているラベルＬを出力するように第２ニューラルネットワークＮ２を構成する各層のパラメータを学習する。

【0042】

ここで、第２学習部１２３は、第１学習部１２２が学習した第１ニューラルネットワークを構成する各層のパラメータを初期パラメータとして用いて、第２ニューラルネットワークＮ２を構成する各層のパラメータを学習する。具体的には、まず、設定部１２４は、第１学習部１２２が学習した第１ニューラルネットワークＮ１を構成する各層のパラメータを、第２ニューラルネットワークＮ２を構成する各層に設定する。そして、第２学習部１２３は、第２ニューラルネットワークＮ２を構成する各層にパラメータが設定された後に、第２ベクトルデータＶ２を第２ニューラルネットワークＮ２に入力したときに、当該第２ベクトルデータＶ２に対応付けられているラベルＬを出力するように第２ニューラルネットワークＮ２を構成する各層のパラメータを学習する。

【0043】

第１ベクトルデータＶ１及び第２ベクトルデータＶ２は、例えば、同じモーダルデータから変換されたベクトルデータである。第１ベクトルデータＶ１に対応するモーダルと、モーダルデータ又は第２ベクトルデータＶ２に対応するモーダルとは、それぞれ異なる種類のモーダルである。

【0044】

具体的には、まず、モーダルデータ取得部１２５は、ラベルＬが対応付けられているモーダルデータを取得する。そして、第１変換部１２６は、モーダルデータ取得部１２５が取得したモーダルデータを当該モーダルデータに対応するモーダルの種類とは異なる他の種類のモーダルの特徴が表現された第１ベクトルデータＶ１に変換する。

【0045】

例えば、モーダルデータのモーダルが画像である場合、第１変換部１２６は、画像とは異なる他の種類のモーダル（例えば、音声、文字列又はセンシング）の特徴が表現された第１ベクトルデータＶ１に変換する。第１変換部１２６は、例えば、既知の第１変換器（例えば、ＣＬＩＰ（Contrastive Language-Image Pre-Training）、ＤＡＬＬ・Ｅ等のモデル）を用いて、モーダルデータを第１ベクトルデータＶ１に変換する。

【0046】

第２ベクトルデータＶ２に対応するモーダルと、モーダルデータに対応するモーダルとは、同じ種類のモーダルである。具体的には、第２変換部１２７は、モーダルデータ取得部１２５が取得したモーダルデータを当該モーダルデータに対応するモーダルの特徴が表現された第２ベクトルデータＶ２に変換する。例えば、モーダルデータのモーダルが画像である場合、第２変換部１２７は、画像の特徴が表現された第２ベクトルデータＶ２に変換する。第２変換部１２７は、例えば、既知の第２変換器（例えば、ＶＧＧ（Visual Geometry Group）等のモデル）を用いて、モーダルデータを第２ベクトルデータＶ２に変換する。このようにすることで、学習装置１は、それぞれモーダルの種類が異なる複数のベクトルデータを作成することができる。

【0047】

上記において、学習装置１が、取得した１つのモーダルデータをそれぞれモーダルの種類が異なる複数のベクトルデータに変換する例を説明したが、これに限らない。例えば、学習装置１は、それぞれモーダルの種類が異なる複数のモーダルデータを、それぞれに対応する複数のベクトルデータに変換してもよい。

【0048】

具体的には、まず、モーダルデータ取得部１２５は、それぞれ共通のラベルＬが対応付けられている複数のモーダルデータであって、それぞれモーダルの種類が異なる複数のベクトルデータを取得する。そして、第１変換部１２６は、モーダルデータ取得部１２５が取得した複数のモーダルデータのうち、情報処理装置２が実行する認識処理において認識する対象のモーダルデータとはモーダルの種類が異なる他の種類のモーダルデータに対応するモーダルの特徴が表現された第１ベクトルデータＶ１に変換する。また、第２変換部１２７は、モーダルデータ取得部１２５が取得した複数のモーダルデータのうち、情報処理装置２が実行する認識処理において認識する対象のモーダルデータと同じモーダルの種類のモーダルデータに対応するモーダルの特徴が表現された第２ベクトルデータＶ２に変換する。

【0049】

例えば、モーダルデータ取得部１２５が、複数のモーダルデータとして、画像データ、音声データ及び文字列データを取得した場合であって、情報処理装置２が実行する認識処理において認識する対象のモーダルデータのモーダルが画像である場合、第１変換部１２６は、音声データを音声の特徴が表現された第１ベクトルデータＶ１に変換し、文字列データを文字列の特徴が表現された第１ベクトルデータＶ１に変換する。また、第２変換部１２７は、画像データを画像の特徴が表現された第２ベクトルデータＶ２に変換する。

【0050】

学習装置１は、それぞれモーダルの種類が異なる複数のモーダルデータのうちのいずれかを、他の種類のモーダルの特徴が表現された第１ベクトルデータＶ１に変換してもよい。例えば、モーダルデータ取得部１２５が、複数のモーダルデータとして、画像データ及び音声データを取得した場合において、まず、第１変換部１２６は、画像データ及び音声データの中から、第１ベクトルデータＶ１に変換するために用いるモーダルデータを選択する。そして、第１変換部１２６は、選択したモーダルデータ（例えば画像データ）を、画像とは異なる他の種類のモーダル（例えば文字列）の特徴が表現された第１ベクトルデータＶ１に変換する。第１変換部１２６は、例えば、複数のモーダルデータの中から、情報処理装置２が実行する認識処理において認識する対象のモーダルデータのモーダルの種類と同じ種類のモーダルデータを選択し、選択したモーダルデータを、当該モーダルとは異なる他の種類のモーダルの特徴が表現された第１ベクトルデータＶ１に変換する。

【0051】

学習制御部１２１は、第１変換部１２６及び第２変換部１２７それぞれによる第１ベクトルデータＶ１及び第２ベクトルデータＶ２への変換後に、第１学習部１２２が実行する第１ベクトルデータＶ１（第１教師データＴ１）に基づく処理と、設定部１２４が実行する処理と、第２学習部１２３が実行する第２ベクトルデータＶ２（第２教師データＴ２）に基づく処理とを順番に実行させる。学習制御部１２１は、それぞれモーダルの種類が異なる複数の第１ベクトルデータＶ１を用いて、第１学習部１２２が実行する処理と、設定部１２４が実行する処理と、第２学習部１２３が実行する処理とを実行させてもよい。

【0052】

具体的には、まず、第１変換部１２６は、モーダルデータを、それぞれモーダルの種類が異なる複数の第１ベクトルデータＶ１に変換する。第１変換部１２６は、例えば、モーダルの種類ごとに、当該モーダルの種類ごとに異なる第１変換器を用いて、モーダルデータを第１ベクトルデータＶ１に変換する。

【0053】

そして、学習制御部１２１は、第１変換部１２６が変換した第１ベクトルデータＶ１ごとに、第１学習部１２２が実行する当該第１ベクトルデータＶ１に基づく処理と、設定部１２４が実行する処理と、第２学習部１２３が実行する第２ベクトルデータＶ２に基づく処理とを順番に実行させる。このとき、学習制御部１２１は、第２学習部１２３が実行する処理を実行させた後において、第１学習部１２２が実行する処理を実行させる前に、設定部１２４に対して、第２学習部１２３が学習した第２ニューラルネットワークＮ２を構成する各層のパラメータを、第１ニューラルネットワークＮ１を構成する各層に設定する処理を実行させる。

【0054】

図４は、学習制御部１２１による処理の制御を模式的に表した図である。図４においては、第１変換部１２６が、第１ベクトルデータＶ１ａと、第１ベクトルデータＶ１ｂとを変換した例を説明する。第１教師データＴ１ａは、第１ベクトルデータＶ１ａとラベルＬとが対応付けられたデータである。また、第１教師データＴ１ｂは、第１ベクトルデータＶ１ｂとラベルＬ（第１教師データＴ１ａに含まれるラベルＬ及び第２教師データＴ２に含まれるラベルＬそれぞれと同じラベル）とが対応付けられたデータである。例えば、第１ベクトルデータＶ１ａは、音声の特徴が表現されたベクトルデータであり、第１ベクトルデータＶ１ｂは、文字列の特徴が表現されたベクトルデータであり、第２ベクトルデータＶ２は、画像の特徴が表現されたベクトルデータである。

【0055】

この場合において、まず、学習制御部１２１は、図４（ａ）に示す第１学習部１２２が実行する第１教師データＴ１ａに基づく処理と、設定部１２４が実行する処理と、図４（ｂ）に示す第２学習部１２３が実行する第２教師データＴ２に基づく処理とを順番に実行させる。学習制御部１２１は、第２学習部１２３が実行する第２教師データＴ２に基づく処理を実行した後の第２ニューラルネットワークＮ２を構成する各層のパラメータを、第１ニューラルネットワークＮ１ｂを構成する各層に設定する処理を設定部１２４に実行させる。

【0056】

そして、学習制御部１２１は、図４（ｃ）に示す第１学習部１２２が実行する第１教師データＴ１ｂに基づく処理と、設定部１２４が実行する処理と、図４（ｄ）に示す第２学習部１２３が実行する第２教師データＴ２に基づく処理とを順番に実行させる。このようにすることで、学習装置１は、第２ニューラルネットワークＮ２を構成する各層のパラメータに対して複数の第１モーダルに基づく知識を反映させることができる。

【0057】

学習制御部１２１は、各処理を繰り返し実行させてもよい。具体的には、学習制御部１２１は、第１変換部１２６が変換した第１ベクトルデータごとに各処理を順番に実行させた後に、再度、第１変換部１２６が変換した第１ベクトルデータごとに各処理を順番に実行させる。

【0058】

図４に示す例において、学習制御部１２１は、図４（ａ）から図４（ｄ）までに示す各処理を実行させた後に、再度、図４（ａ）から図４（ｄ）までに示す各処理を実行させる。このとき、学習制御部１２１は、図４（ａ）から図４（ｄ）までに示す各処理を実行させた後の図４（ｄ）に示す第２ニューラルネットワークＮ２を構成する各層のパラメータを、図４（ａ）に示す第１ニューラルネットワークＮ１ａを構成する各層に設定する処理を設定部１２４に実行させた後に、再度、図４に示す各処理を実行させる。このように、学習装置１は、各処理を繰り返し実行することで、第２ニューラルネットワークＮ２における認識性能のロバスト性を向上させることができる。

【0059】

［認識処理］
続いて、情報処理装置２が実行する認識処理について説明する。情報処理装置２において、記憶部２１は、上述した学習装置１が生成した第２ニューラルネットワークＮ２を構成する各層のパラメータを学習モデルとして記憶している。

【0060】

同種データ取得部２２１は、同種データを取得する。同種データは、学習装置１のモーダルデータ取得部１２５が取得したモーダルデータとモーダルが同じ種類のデータである。

【0061】

モデル適用部２２２は、記憶部２１が記憶する学習モデルを同種データ取得部２２１が取得した同種データに適用することにより、同種データに対応するラベルＬを出力する。具体的には、まず、モデル適用部２２２は、第２変換器を用いて、同種データ取得部２２１が取得した同種データをベクトルデータに変換する。そして、モデル適用部２２２は、記憶部２１が記憶する学習モデルを、変換したベクトルデータに適用することにより、同種データに対応するラベルＬを出力する。これにより、情報処理装置２は、それぞれ異なる複数のモーダルの知識が反映された学習モデルを用いて、同種データを認識することができる。

【0062】

上記において、モデル適用部２２２が、学習モデルを同種データに適用することにより、同種データに対応するラベルＬを出力する例を説明したが、これに限らない。例えば、モデル適用部２２２は、学習モデルを、学習装置１のモーダルデータ取得部１２５が取得したモーダルデータとモーダルの種類が異なる他種データに適用することにより、他種データに対応するラベルＬを出力してもよい。

【0063】

例えば、まず、モデル適用部２２２は、第１変換器を用いて、他種データを、学習装置１のモーダルデータ取得部１２５が取得したモーダルデータとモーダルが同じ種類のベクトルデータに変換する。そして、モデル適用部２２２は、記憶部２１が記憶する学習モデルを、変換したベクトルデータに適用することにより、他種データに対応するラベルＬを出力する。

【0064】

また、例えば、モデル適用部２２２は、第２変換器を用いて、他種データとモーダルが同じ種類のベクトルデータに変換し、学習モデルを、変換したベクトルデータに適用することにより、他種データに対応するラベルＬを出力してもよい。また、例えば、同種データ取得部２２１が、モーダルが未知の未知データを取得した場合、まず、モデル適用部２２２は、未知データのモーダルの種類を判定する。モデル適用部２２２は、例えば、公知の技術を用いて未知データのモーダルの種類を判定する。そして、モデル適用部２２２は、判定したモーダルの種類に対応する変換器（第１変換器又は第２変換器）を用いて未知データをベクトルデータに変換し、学習モデルを、変換したベクトルデータに適用することにより、未知データに対応するラベルＬを出力してもよい。

【0065】

［学習処理の流れ］
続いて、学習処理の流れについて説明する。図５は、学習装置１が実行する学習処理の流れを説明するためのフローチャートである。本フローチャートにおける処理は、例えば学習装置１が起動したときに開始する。

【0066】

モーダルデータ取得部１２５は、ラベルＬが対応付けられているモーダルデータを取得する（Ｓ１）。学習装置１は、モーダルデータを、モーダルの種類がそれぞれ異なる複数のベクトルデータに変換する（Ｓ２）。具体的には、第１変換部１２６は、モーダルデータ取得部１２５が取得したモーダルデータを当該モーダルデータに対応するモーダルの種類とは異なる他の種類のモーダルの特徴が表現された一以上の第１ベクトルデータＶ１に変換する。また、第２変換部１２７は、モーダルデータ取得部１２５が取得したモーダルデータを当該モーダルデータに対応するモーダルの特徴が表現された第２ベクトルデータＶ２に変換する。

【0067】

学習制御部１２１は、Ｓ３からＳ７までの処理の実行を制御する。第１学習部１２２は、第１教師データＴ１においてラベルＬが対応付けられている第１ベクトルデータＶ１を第１ニューラルネットワークＮ１に入力したときに、当該第１ベクトルデータＶ１に対応付けられているラベルＬを出力するように第１ニューラルネットワークＮ１を構成する各層のパラメータを学習する（Ｓ３）。

【0068】

設定部１２４は、第１学習部１２２が学習した第１ニューラルネットワークＮ１を構成する各層のパラメータを、第２ニューラルネットワークＮ２を構成する各層に設定する（Ｓ４）。第２学習部１２３は、第２教師データＴ２において第１ベクトルデータＶ１に対応付けられているラベルＬと同じラベルＬが対応付けられている第２ベクトルデータＶ２を第２ニューラルネットワークＮ２に入力したときに、当該第２ベクトルデータＶ２に対応付けられているラベルＬを出力するように第２ニューラルネットワークＮ２を構成する各層のパラメータを学習する（Ｓ５）。

【0069】

学習制御部１２１は、すべてのベクトルデータで学習したか否かを判定する（Ｓ６）。学習制御部１２１が、すべてのベクトルデータで学習していないと判定した場合（Ｓ６においてＮＯの場合）、すなわち、学習に用いられていない第１ベクトルデータＶ１が存在する場合、設定部１２４に対して、第２学習部１２３が学習した第２ニューラルネットワークＮ２を構成する各層のパラメータを、第１ニューラルネットワークＮ１を構成する各層に設定させ（Ｓ７）、処理をＳ３に戻す。一方、学習制御部１２１は、すべてのベクトルデータで学習したと判定した場合（Ｓ６においてＹＥＳの場合）、すなわち、学習に用いられていない第１ベクトルデータＶ１が存在しない場合、処理を終了させる。

【0070】

［学習装置１が奏する効果］
以上説明したように、学習装置１によれば、ベクトルデータを入力とするニューラルネットワークの学習モデルに、それぞれモーダルの種類が異なる複数のベクトルデータの知識を反映させることができる。これにより、第２ニューラルネットワークＮ２の学習モデルは、それぞれモーダルの種類が異なる複数のベクトルデータの知識に基づいて、ラベルＬが未知であるベクトルデータを認識することができる。その結果、学習装置１は、学習モデルの認識性能を向上させることができる。

【0071】

なお、本発明により、国連が主導する持続可能な開発目標（SDGs）の目標９「産業と技術革新の基盤をつくろう」に貢献することが可能となる。

【0072】

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。

【符号の説明】

【0073】

１学習装置
１１記憶部
１２制御部
１２１学習制御部
１２２第１学習部
１２３第２学習部
１２４設定部
１２５モーダルデータ取得部
１２６第１変換部
１２７第２変換部
２情報処理装置
２１記憶部
２２制御部
２２１同種データ取得部
２２２モデル適用部
Ｓ情報処理システム

【図1】

【図2】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版