特開2024-55624 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-55624機械学習プログラム、情報処理装置および機械学習方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024055624

(43)【公開日】2024-04-18

(54)【発明の名称】機械学習プログラム、情報処理装置および機械学習方法

(51)【国際特許分類】

G06N 3/082 20230101AFI20240411BHJP

G06F 40/216 20200101ALI20240411BHJP

【ＦＩ】

G06N3/08 120

G06F40/216

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2022162705

(22)【出願日】2022-10-07

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】鎌田裕一

【テーマコード（参考）】

5B091

【Ｆターム（参考）】

5B091EA01

(57)【要約】

【課題】学習データにはない文章入力に対しても、認識精度を向上させる。
【解決手段】情報処理装置１は、ニューラルネットワークで構成されたモジュールを複数組み合わせて構築される機械学習モデルの学習において、画像および画像に関する質問文を組とする学習データの質問文に含まれる複数の単語に対して、単語間の係り受けを解析し、解析の結果に基づいて、複数のモジュールそれぞれに対して適用する重みを決定し、
前記複数のモジュールそれぞれに対して適用する重みに基づいて、前記複数のモジュールから、前記機械学習モデルで用いられるモジュールの組み合わせの選択を制御する。かかる情報処理装置１の処理は、例えば、自然言語をクエリとする画像検索アプリケーションに適用することができる。
【選択図】図１

【特許請求の範囲】

【請求項1】

ニューラルネットワークで構成されたモジュールを複数組み合わせて構築される機械学習モデルの学習において、
画像および画像に関する質問文を組とする学習データの質問文に含まれる複数の単語に対して、単語間の係り受けを解析し、
解析の結果に基づいて、複数のモジュールそれぞれに対して適用する重みを決定し、
前記複数のモジュールそれぞれに対して適用する重みに基づいて、前記複数のモジュールから、前記機械学習モデルで用いられるモジュールの組み合わせの選択を制御する
処理をコンピュータに実行させることを特徴とする機械学習プログラム。

【請求項2】

前記解析する処理は、
係り受け解析を用いて、前記質問文に含まれる各単語の係り先と係り受けタグ情報とを特定し、
前記決定する処理は、
各単語のエンベッディングに、各単語に対する係り受けタグのエンベッディングを加算し、前記質問文に含まれる各単語の係り先の位置を表す行列を用いて、各係り先の単語のエンベッディングの位置に対して、係り元の単語群の情報に線形変換した値を足し合わせ、足し合わせた配列を、係り先の単語のエンベッディング列に足し合わせて、係り受け情報を加味した係り受け単語のエンベッディング列を生成し、
前記係り受け単語のエンベッディング列を用いて、前記複数のモジュールそれぞれに対して適用する重みを決定する
ことを特徴とする請求項１に記載の機械学習プログラム。

【請求項3】

前記重みを決定する処理は、トランスフォーマーブロックで構成された複数のモジュールそれぞれに対して、前記係り受け単語のエンベッディング列および前記画像の物体特徴量を入力して出力を計算し、ＭＬＰ処理で前記複数のモジュールの出力を重み付き平均して、重み付き平均した出力を次層への入力として、予め定められた個数の層分の処理を行い、
最終層の出力を前記ＭＬＰ処理し、回答を出力し、
誤差逆伝播法で前記ニューラルネットワークを学習し、各モジュールに適用する重みを決定する
ことを特徴とする請求項２に記載の機械学習プログラム。

【請求項4】

ニューラルネットワークで構成されたモジュールを複数組み合わせて構築される機械学習モデルの学習において、
画像および画像に関する質問文を組とする学習データの質問文に含まれる複数の単語に対して、単語間の係り受けを解析する解析部と、
解析の結果に基づいて、複数のモジュールそれぞれに対して適用する重みを決定する決定部と、
前記複数のモジュールそれぞれに対して適用する重みに基づいて、前記複数のモジュールから、前記機械学習モデルで用いられるモジュールの組み合わせの選択を制御する制御部と、
を有することを特徴とする情報処理装置。

【請求項5】

ニューラルネットワークで構成されたモジュールを複数組み合わせて構築される機械学習モデルの学習において、
画像および画像に関する質問文を組とする学習データの質問文に含まれる複数の単語に対して、単語間の係り受けを解析し、
解析の結果に基づいて、複数のモジュールそれぞれに対して適用する重みを決定し、
前記複数のモジュールそれぞれに対して適用する重みに基づいて、前記複数のモジュールから、前記機械学習モデルで用いられるモジュールの組み合わせの選択を制御する
処理をコンピュータが実行することを特徴とする機械学習方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、機械学習プログラムなどに関する。

【背景技術】

【0002】

ニューラルモジュールの組み合わせ（プログラム）を制御して機械学習する手法が開示されている。

【0003】

例えば、第１の技術では、機械学習の学習データであるＣＬＥＶＲデータセットの質問文を構成する句や節を組み合わせ、ＣＬＥＶＲデータセットでは直接的には登場しない質問の仕方によって精度を評価するＣＬＯＳＵＲＥデータセットが提案されている（例えば、非特許文献１参照）。ここでいうＣＬＥＶＲデータセットとは、３Ｄレンダリング画像のコンテンツに対する質問文のデータセットのことをいう。ＣＬＯＳＵＲＥデータセットとは、学習データであるＣＬＥＶＲデータセットでは直接的には登場しない質問の仕方によって精度を評価するためのデータセットのことをいう。ＣＬＯＳＵＲＥデータセットについては、ＣＬＥＶＲデータセットで学習した後のニューラルモジュールネットワークモデルのテストで、精度が悪くなることが開示されている。このため、第１の技術では、文章特徴量で画像特徴量を変調する手法（ＦｉＬＭ）を、ニューラルモジュールに適用することにより、ＣＬＯＳＵＲＥデータセットでの精度を向上させる。

【0004】

なお、図７は、ＣＬＥＶＲおよびＣＬＯＳＵＲＥデータセットおよびニューラルモジュールの組み合わせを示す参考図である。図７左図は、ＣＬＥＶＲおよびＣＬＯＳＵＲＥデータセットを示す参考図である。図７右図は、ニューラルモジュールの組み合わせ（プログラム）を示す参考図である。図７右図に示すＰ１は、ＣＬＥＶＲデータセットの質問文Ｑ１を構成する句や節をニューラルモジュールとしたモジュールの組み合わせ（プログラム）である。モジュールの下の括弧は、引数である。Ｐ２は、ＣＬＥＶＲデータセットの質問文Ｑ２を構成する句や節をニューラルモジュールとしたモジュールの組み合わせ（プログラム）である。Ｐ１およびＰ２は、それぞれ質問文Ｑ１およびＱ２に対するモジュールの組み合わせ（プログラム）の正解である。Ｐ３は、ＣＬＯＳＵＲＥデータセットの質問文Ｑ３を構成する句や節をニューラルモジュールとしたモジュールの組み合わせであって、ＣＬＥＶＲデータセットの質問文に登場しない質問の仕方を持つモジュールの組み合わせ（プログラム）である。

【0005】

また、第２の技術では、ＣＬＥＶＲプログラムの各処理を学習するニューラルモジュールを用意する。学習処理は、入力する質問文の要求に対する回答に必要となる、モジュール処理の組み合わせを制御するための重みも学習により自動生成する（例えば、非特許文献２参照）。なお、図８は、ＣＬＥＶＲプログラムの学習を示す参考図である。図８で示す「ｆｉｎｄ」，「ｔｒａｎｓｆｏｒｍ」，・・・，「ａｎｓｗｅｒ」および「ｃｏｍｐａｒｅ」がモジュール処理の組み合わせであり、このモジュール処理の組み合わせを制御するための重みＷ^（ｔ）も学習により自動生成される。

【0006】

第１の技術および第２の技術では、学習時に、入力する質問文に対する回答に必要な各ニューラルモジュールと、モジュールの組み合わせ（プログラム）を予め用意して、学習する。すなわち、第１の技術および第２の技術は、学習時に、質問文に対する正解のプログラムのとおりにニューラルモジュールを構成して学習する。

【先行技術文献】

【非特許文献】

【0007】

【非特許文献1】“CLOSURE Assessing Systematic Generalization of CLEVR Models”,arXiv:1912.05783

【非特許文献2】“Explainable Neural Computation via Stack Neural Module Networks”,In:ECCV 2018

【発明の概要】

【発明が解決しようとする課題】

【0008】

第１の技術および第２の技術では、学習時に、質問文に対する正解のモジュールの組み合わせ（プログラム）を用意する必要がある。しかしながら、様々な入力としてのタスク（質問文）を解くために必要なモジュールの組み合わせ（プログラム）の正解を、あらかじ用意するのは困難であるという問題がある。

【0009】

本発明は、１つの側面では、学習データにはない文章入力に対しても、認識精度を向上させることを目的とする。

【課題を解決するための手段】

【0010】

１つの態様では、機械学習プログラムが、ニューラルネットワークで構成されたモジュールを複数組み合わせて構築される機械学習モデルの学習において、画像および画像に関する質問文を組とする学習データの質問文に含まれる複数の単語に対して、単語間の係り受けを解析し、解析の結果に基づいて、複数のモジュールそれぞれに対して適用する重みを決定し、前記複数のモジュールそれぞれに対して適用する重みに基づいて、前記複数のモジュールから、前記機械学習モデルで用いられるモジュールの組み合わせの選択を制御する、処理をコンピュータに実行させる。

【発明の効果】

【0011】

１実施態様によれば、学習データにはない文章入力に対しても、認識精度を向上させることができる。

【図面の簡単な説明】

【0012】

【図1】図１は、実施例に係る情報処理装置の機能構成の一例を示すブロック図である。

【図2】図２は、実施例に係る係り受け解析の一例を示す図である。

【図3】図３は、実施例に係る係り先行列の生成方法を示す図である。

【図4】図４は、実施例に係る機械学習の流れの一例を示す図である。

【図5】図５は、実施例に係る機械学習処理のフローチャートの一例を示す図である。

【図6】図６は、機械学習プログラムを実行するコンピュータの一例を示す図である。

【図7】図７は、ＣＬＥＶＲおよびＣＬＯＳＵＲＥデータセットおよびモジュールの組み合わせを示す参考図である。

【図8】図８は、ＣＬＥＶＲプログラムの学習を示す参考図である。

【発明を実施するための形態】

【0013】

以下に、本願の開示する機械学習プログラム、情報処理装置および機械学習方法の実施例を図面に基づいて詳細に説明する。なお、本発明は、実施例により限定されるものではない。

【実施例0014】

図１は、実施例に係る情報処理装置の機能構成の一例を示すブロック図である。図１に示される情報処理装置１は、ニューラルモジュールの組み合わせを制御する重み分布を機械学習する際に、学習データに含まれる文章の係り受けを解析した結果を利用する。そして、情報処理装置１は、テスト時に、学習データにはない入力文章であっても、学習時に用いられた文章内の句・節の組み合わせで構成された入力文章に対しての認識精度を向上させる。すなわち、情報処理装置１は、ＣＬＥＶＲの学習データにはないＣＬＯＳＵＲＥの入力文章であっても、入力文章に対しての認識精度を向上させる。

【0015】

情報処理装置１は、制御部１０と、記憶部２０とを有する。制御部１０は、ミニバッチ作成部１１、係り受け解析処理部１２、ニューラルネットワーク処理部１３および学習処理部１４を有する。記憶部２０は、学習データ記憶部２１およびネットワーク重み記憶部２２を有する。なお、係り受け解析処理部１２は、解析部の一例である。ニューラルネットワーク処理部１３および学習処理部１４は、決定部および制御部の一例である。

【0016】

学習データ記憶部２１は、学習データを記憶する。学習データは、質問文、画像および回答を１つのデータセットとするトレーニングデータである。質問文は、画像に対する質問の文章である。例えば、質問文は、３Ｄレンダリング画像のコンテンツに対する質問文である。画像がｃｕｂｅやｃｙｌｉｎｄｅｒなどの色付きのコンテンツを描画した３Ｄレンダリング画像である場合の質問文の一例として、「There is another cube that is the same size as the brown cube; what is the color?」が挙げられる。

【0017】

ネットワーク重み記憶部２２は、ニューラルネットワークの重みを記憶する。なお、ネットワーク重み記憶部２２は、学習処理部１４によって更新される。

【0018】

ミニバッチ作成部１１は、ミニバッチ学習で用いられる学習データを作成する。例えば、ミニバッチ作成部１１は、学習データ記憶部２１から、ミニバッチ学習で用いられるバッチサイズ分の学習データを取得する。ここでいうミニバッチ学習とは、学習で用いられるパラメータの更新方法のことをいい、バッチサイズ分の学習データで纏めて学習し、重みなどのパラメータを更新する。バッチサイズは、１より大きく、全学習データの数より小さく、予め決定される。学習データには、質問文、画像および回答が含まれる。

【0019】

係り受け解析処理部１２は、質問文の係り受けを解析する。例えば、係り受け解析処理部１２は、ミニバッチ作成部１１によって作成された学習データを学習の入力として受け付ける。係り受け解析処理部１２は、学習データの質問文を、単語に分割する。単語の分割は、例えば、形態素解析を用いれば良く、いかなる従来手法を用いても良い。係り受け解析処理部１２は、係り受け解析（Dependency Parsing）を用いて、各単語同士の係り先情報と係り受けタグ情報を解析する。ここでいう係り受けタグとは、単語間の句、節などの関係性を示すタグのことをいい、係り受け解析時に使用される。

【0020】

ここで、係り受け解析の一例を、図２を参照して説明する。図２は、実施例に係る係り受け解析の一例を示す図である。図２に示すように、学習データの質問文として、「There is another cube that is the same size as the brown cube; what is the color?」が表わされている。各単語が空白で分割される。係り受け解析処理部１２は、かかる質問文について、係り受け解析を行う。そして、係り受け解析処理部１２は、係り受け解析によって、係り先情報と係り受けタグ情報を取得する。ここでは、係り先情報として、係り受け元の単語から係り受け先の単語へ矢印で表わされている。一例として、係り受けタグ情報として、係り受け元を示す単語「ｔｈｅｒｅ」の係り受けタグは、「ｅｘｐｌ」であり、「嘘辞」という意味を示す。係り受け先を示す単語「ｉｓ」の係り受けタグは、「ｃｃｏｍｐ」であり、「補文」という意味を示す。すなわち、係り受け先を示す単語「ｉｓ」に対して係り受け元を示す単語「ｔｈｅｒｅ」が「嘘辞」という意味（Dependency Relations）であることを示す。このような係り受け解析の結果を利用して、後述する学習処理部１４は、ニューラルネットワークを構成する各ニューラルモジュールの重みを決定する。なお、以降、「係り受け先」のことを「係り先」という。「係り受け元」のことを「係り元」という。また、「ニューラルモジュール」のことを「モジュール」という場合がある。

【0021】

なお、係り受けタグの一覧は、例えば、「ｈｔｔｐｓ：／／ｑｉｉｔａ．ｃｏｍ／ｋｅｉ＿０３２４／ｉｔｅｍｓ／４００ｆ６３９ｂ２ｆ１８５ｂ３９ａ０ｃｆ」や「ｈｔｔｐｓ：／／ｕｎｉｖｅｒｓａｌｄｅｐｅｎｄｅｎｃｉｅｓ．ｏｒｇ／ｕ／ｄｅｐ／」に開示されている。

【0022】

図１に戻って、ニューラルネットワーク処理部１３は、ニューラルネットワークを処理する。

【0023】

例えば、ニューラルネットワーク処理部１３は、入力として受け付けた質問文の各単語をそれぞれ単語ｅｍｂｅｄｄｉｎｇに変換する。また、ニューラルネットワーク処理部１３は、係り受け解析によって解析された、各単語に対応する係り受けタグをそれぞれ係り受けタグｅｍｂｅｄｄｉｎｇに変換する。ここでいうｅｍｂｅｄｄｉｎｇは、自然言語を計算が可能な形に変換することをいう。ここでいう単語ｅｍｂｅｄｄｉｎｇは、単語をベクトル空間にコード化したものであって、意味が類似する単語同士は距離が近いベクトルになる。ここでいう係り受けタグｅｍｂｅｄｄｉｎｇは、係り受けタグをベクトル空間にコード化したものであって、意味が類似するタグ同士は距離が近いベクトルになる。

【0024】

そして、ニューラルネットワーク処理部１３は、各単語ｅｍｂｅｄｄｉｎｇに、各単語に対応する係り受けタグｅｍｂｅｄｄｉｎｇを足し合わせて係り先単語ｅｍｂｅｄｄｉｎｇ列を出力する。そして、ニューラルネットワーク処理部１３は、係り受け解析によって解析された、質問文に含まれる単語の係り先を「０」、「１」のハードアテンション（ハードな注意）で表した係り先行列を用いて、各係り先単語のｅｍｂｅｄｄｉｎｇの位置に対して、係り元単語群のｅｍｂｅｄｄｉｎｇに線形変換した値を足し合わせる。そして、ニューラルネットワーク処理部１３は、各係り先単語のｅｍｂｅｄｄｉｎｇの位置に係り元単語ｅｍｂｅｄｄｉｎｇを足し合わせた結果を示す配列を、係り先単語ｅｍｂｅｄｄｉｎｇ列に足し合わせて、係り受け情報を加味した単語ｅｍｂｅｄｄｉｎｇ列を生成する。生成された単語ｅｍｂｅｄｄｉｎｇ列は、係り受け単語ｅｍｂｅｄｄｉｎｇ列である。

【0025】

そして、ニューラルネットワーク処理部１３は、ニューラルモジュールの数をＭ個として、Ｔｒａｎｓｆｏｒｍｅｒブロックで構成されるＭ個全てのモジュールに対して入力を与えて出力を計算する。ここでいうＭ個は、学習に必要なモジュールの数であり、ニューラルネットワークによって定められる。また、ここでいう入力は、質問文の先頭から最後尾までの係り受け単語ｅｍｂｅｄｄｉｎｇと、画像から生成される物体特徴量とを含む。物体特徴量は、画像から物体を切り出して特徴量を計算したものである。なお、物体特徴量は、いかなる手法を用いて計算されても良い。

【0026】

そして、ニューラルネットワーク処理部１３は、Ｍ個のモジュールの出力を重み付き平均するための重み分布を、入力した文章の先頭を表す特殊トークン（ＢＯＳトークン）から多層パーセプトロン（ＭＬＰ：Multilayer perceptron）処理で計算する。そして、ニューラルネットワーク処理部１３は、重み付き平均したモジュール出力を次の層への入力とし、ＭＬＰ処理を最終層まで繰り返す。

【0027】

学習処理部１４は、ニューラルネットワークを学習する。例えば、学習処理部１４は、最終層の出力からＭＬＰ処理を行い、回答を出力する。一例として、学習処理部１４は、質問に対して予め用意された選択肢からのクラス分類として回答を出力する。そして、学習処理部１４は、出力した回答と正解となる回答との誤差から誤差逆伝播法でニューラルネットワークを学習する。そして、学習処理部１４は、ニューラルネットワークの各モジュールに適用する重みを更新し、ネットワーク重み記憶部２２に格納する。

【0028】

これにより、学習処理部１４は、学習データに含まれる文章内の句・節の組み合わせで構成された新たな入力文章（質問文）であれば、学習データにはない入力文章であっても、入力文章に対しての認識精度を向上させることができる。つまり、従来技術では、質問文を解くために必要な各モジュール機能とその組み合わせ（プログラム列）とを予め用意しなければならなかった。この制約を取り外すためには、汎用的なニューラルネットワークで構成されたモジュール群によって、質問文、画像および回答を含む学習データから自動的に要求されるモジュール機能とその組み合わせを学習する必要がある。そこで、学習処理部１４は、係り受け解析によって節・句に分割された質問文の情報があれば、学習データにないモジュールの組み合わせ（プログラム列）の新たな入力文章（質問文）に対して、句・節の単位では学習データと同じものであるということを特定できる。

【0029】

［係り先行列の生成方法］
図３は、実施例に係る係り先行列の生成方法を示す図である。図３に示すように、係り先行列は、質問文に含まれる単語の係り先を「０」、「１」のハードアテンション（ハードな注意）で表した行列である。係り先行列は、各要素について、列を係り元の単語とし、行を係り先の単語として、係り先の単語の行と係り元の単語の列とが交わる行列を「１」で表わす。

【0030】

一例として、「There is another cube・・・」という質問文に対して、「ｔｈｅｒｅ」が係り元であり、「ｉｓ」が係り先であると解析される。すると、２行目は「ｉｓ」を示し、１列目は「ｔｈｅｒｅ」を示すので、係り先行列の２行１列の要素に「１」が設定される。また、同じ質問文に対して、「ｃｕｂｅ」が係り元であり、「ｉｓ」が係り先であると解析される。すると、２行目は「ｉｓ」を示し、４列目は「ｃｕｂｅ」を示すので、係り先行列の２行４列の要素に「１」が設定される。また、同じ質問文に対して、「ａｎｏｔｈｅｒ」が係り元であり、「ｃｕｂｅ」が係り先であると解析される。すると、４行目は「ｃｕｂｅ」を示し、３列目は「ａｎｏｔｈｅｒ」を示すので、係り先行列の４行３列の要素に「１」が設定される。

【0031】

かかる係り先行列を用いて、ニューラルネットワーク処理部１３は、係り先単語のｅｍｂｅｄｄｉｎｇの位置に対して、係り元単語群のｅｍｂｅｄｄｉｎｇに線形変換した値を足し合わせ、係り受け情報を加味した係り受け単語ｅｍｂｅｄｄｉｎｇを生成する。

【0032】

［機械学習の流れの一例］
図４は、実施例に係る機械学習の流れの一例を示す図である。図４に示すように、係り受け解析処理部１２は、学習データとして質問文、画像を含む学習データを受け付ける（ａ１）。ここでは、ミニバッチ作成部１１が、学習データ記憶部２１から、ミニバッチ学習で用いられるバッチサイズ分の学習データを抽出する。そして、係り受け解析処理部１２が、バッチサイズ分の学習データを受け付ける。そして、バッチサイズ分の学習データごとに、以下のａ２～ａ７の処理が実施される。

【0033】

係り受け解析処理部１２は、質問文を単語に分割し、単語ｅｍｂｅｄｄｉｎｇ列を入力して、各単語同士の係り受け解析を実施し、各単語同士の係り先情報と係り受けタグ情報を出力する（ａ２）。

【0034】

続いて、ニューラルネットワーク処理部１３は、単語ｅｍｂｅｄｄｉｎｇ列に、係り受けタグｅｍｂｅｄｄｉｎｇ列を足し合わせる（ａ３）。そして、ニューラルネットワーク処理部１３は、足し合わせた結果を示す係り先単語ｅｍｂｅｄｄｉｎｇ列を、係り元単語群のｅｍｂｅｄｄｉｎｇに線形変換する行列（Ｖａｌｕｅ）によって計算処理を行い、係り元単語ｅｍｂｅｄｄｉｎｇ列を出力する（ａ４）。なお、Ｖａｌｕｅの線形変換行列（ＦＣ_ｖ）は、学習により更新されるパラメータで構成される行列であり、初期値は乱数である。

【0035】

また、ニューラルネットワーク処理部１３は、各単語同士の係り先情報を用いて、係り先行列を生成する（ａ５）。係り先行列は、係り受け解析によって解析された、質問文に含まれる単語の係り先を０、１のハードアテンション（ハードな注意）で表した行列である。

【0036】

そして、ニューラルネットワーク処理部１３は、係り先単語に対する係り元単語群のｅｍｂｅｄｄｉｎｇのみを符号ａ７で係り先単語ｅｍｂｅｄｄｉｎｇ列に加算するために、係り元単語ｅｍｂｅｄｄｉｎｇ列を、係り先行列に乗算する（ａ６）。例えば、単語ｅｍｂｅｄｄｉｎｇ列が（ｅ１，・・・，ｅｓ）であり、係り受けタグｅｍｂｅｄｄｉｎｇ列が（ｔ１，・・・，ｔｓ）であるとする。係り先行列が図３で示す行列であるとする。すると、係り元単語ｅｍｂｅｄｄｉｎｇ列は、（ＦＣ_ｖ（ｔ１＋ｅ１），・・・，ＦＣ_ｖ（ｔｓ＋ｅｓ））と計算される。そして、係り元単語ｅｍｂｅｄｄｉｎｇ列を係り先行列に乗算した結果は、（０，ＦＣ_ｖ（ｔ２＋ｅ２）＋ＦＣ_ｖ（ｔ４＋ｅ４），０，ＦＣ_ｖ（ｔ３＋ｅ３），・・・）と計算される。すなわち、係り先行列に指定した「１」の位置は、係り元の単語に対する係り先の単語の位置であるので、この位置に係り元の単語のｅｍｂｅｄｄｉｎｇ列が予め足し合わせられる。

【0037】

そして、ニューラルネットワーク処理部１３は、係り先単語ｅｍｂｅｄｄｉｎｇ列に対して、係り先行列で指定した位置に足し合わせられた係り元単語ｅｍｂｅｄｄｉｎｇ列を足し合わせる（ａ７）。この結果、係り受け単語ｅｍｂｅｄｄｉｎｇ列が生成される。係り受け単語ｅｍｂｅｄｄｉｎｇ列は、係り先行列が図３で示す行列であった場合、イメージとして、「Ｔｈｅｒｅ」，「Ｔｈｅｒｅｉｓｃｕｂｅ」，「ａｎｏｔｈｅｒ」，「ａｎｏｔｈｅｒｃｕｂｅｉｓ」，・・・を各要素とするｅｍｂｅｄｄｉｎｇ列となる。

【0038】

そして、ニューラルネットワーク処理部１３は、バッチサイズ分の学習データからそれぞれ生成された係り受け単語ｅｍｂｅｄｄｉｎｇ列をＬａｙｅｒＮｏｒｍ（Layer Normalization）によって正規化して出力する。

【0039】

続いて、ニューラルネットワーク処理部１３は、モジュール数をＭ個として、Ｔｒａｎｓｆｏｒｍｅｒブロックで構成された１層目のＭ個全てのモジュールに対して、ＬａｙｅｒＮｏｒｍによって出力を正規化した係り受け単語ｅｍｂｅｄｄｉｎｇ列を入力する。加えて、ニューラルネットワーク処理部１３は、１層目のＭ個全てのモジュールに対して、画像から生成される物体特徴量列を入力する（ａ８）。ここでは、係り受け単語ｅｍｂｅｄｄｉｎｇ列の先頭（ＢＯＳ）から最後尾（ＥＯＳ）までの係り受け単語ｅｍｂｅｄｄｉｎｇが入力される。物体特徴量列の先頭（ＢＯＩ）から後尾（ＢＯＥ）までの物体特徴量が入力される。

【0040】

そして、ニューラルネットワーク処理部１３は、Ｍ個のモジュールの出力を重み付き平均するための重み分布を、入力した文章の先頭を表す特殊トークン（ＢＯＳトークン）から多層パーセプトロン（ＭＬＰ）処理で計算する。そして、ニューラルネットワーク処理部１３は、重み付き平均した出力を次の層への入力とし、ＭＬＰ処理を最終のＬ層目まで繰り返す。

【0041】

そして、学習処理部１４は、最終のＬ層の出力からＭＬＰ処理（ＭＬＰ_ｈｅａｄ）して、選択肢からのクラス分類として回答を出力する。そして、学習処理部１４は、出力した回答と正解となる回答との誤差から誤差逆伝播法でニューラルネットワークを学習する。そして、学習処理部１４は、ニューラルネットワークの各モジュールに適用する重みを更新し、ネットワーク重み記憶部２２に格納する。

【0042】

そして、ミニバッチ作成部１１、係り受け解析処理部１２、ニューラルネットワーク処理部１３および学習処理部１４は、学習処理を規定回数分繰り返して、ニューラルネットワークの各モジュールに適用する重みを更新し、ネットワーク重み記憶部２２に格納する。

【0043】

この後、学習処理部１４では、モジュールの組み合わせについて、学習されたＭＬＰ_ｃｔｒｌが、入力した学習データおよび各モジュールに適用した重みに応じて選択する。

【0044】

［機械学習処理のフローチャート］
ここで、情報処理装置１によって行われる機械学習処理のフローチャートの一例を、図５を参照して説明する。図５は、実施例に係る機械学習処理のフローチャートの一例を示す図である。図５に示すように、情報処理装置１は、ニューラルネットワークの重みをランダム値で初期化する（ステップＳ１１）。情報処理装置１は、学習ループであるステップＳ１３～ステップＳ２３を規定回数のＮｅｐｏｃｈ分繰り返す（ステップＳ１２，Ｓ２４）。

【0045】

情報処理装置１は、学習データからミニバッチを作成する（ステップＳ１３）。例えば、ミニバッチ作成部１１は、学習データ記憶部２１から、ミニバッチ学習で用いられるバッチサイズ分の学習データを取得する。情報処理装置１は、ミニバッチを作成された学習データについて、係り受け解析で、入力する文章（質問文）の各単語の係り先と係り受けタグ情報を特定する（ステップＳ１４）。

【0046】

情報処理装置１は、各単語ｅｍｂｅｄｄｉｎｇに係り受けタグｅｍｂｅｄｄｉｎｇを加算して（ステップＳ１５）、係り先単語ｅｍｂｅｄｄｉｎｇ列を生成する。

【0047】

そして、情報処理装置１は、各単語の係り先を「０」、「１」で表した係り先行列と、係り元単語群のｅｍｂｅｄｄｉｎｇを線形変換する行列を用いて、係り先単語のｅｍｂｅｄｄｉｎｇに係り受け情報を加算し、係り受け単語ｅｍｂｅｄｄｉｎｇを生成する（ステップＳ１６）。例えば、情報処理装置１は、係り先単語ｅｍｂｅｄｄｉｎｇ列に、係り元単語群のｅｍｂｅｄｄｉｎｇを線形変換する行列（Ｖａｌｕｅ）を乗算して、係り元単語ｅｍｂｅｄｄｉｎｇ列を出力する。また、情報処理装置１は、各単語同士の係り先情報を用いて、係り先行列を生成する。そして、情報処理装置１は、係り元単語ｅｍｂｅｄｄｉｎｇ列を、係り先行列に乗算して、係り先行列で指定した係り先単語の位置に、係り元単語群のみを予め足し合わせる。そして、情報処理装置１は、係り先単語ｅｍｂｅｄｄｉｎｇ列に対して、予め足し合わせられた係り元単語ｅｍｂｅｄｄｉｎｇ列を足し合わせる。この結果、係り受け単語ｅｍｂｅｄｄｉｎｇ列が生成される。

【0048】

続いて、情報処理装置１は、モジュール処理のループであるステップＳ１８～ステップＳ２０をＬ層分繰り返す（ステップＳ１７，Ｓ２１）。情報処理装置１は、全モジュールに対して入力データ（係り受け単語ｅｍｂｅｄｄｉｎｇ列、物体特徴量）を与えて、出力を計算する（ステップＳ１８）。情報処理装置１は、入力データの先頭のトークンから、ＭＬＰ処理でモジュール出力に対する重み分布を計算する（ステップＳ１９）。そして、情報処理装置１は、重み付き平均したモジュール出力を、次層への入力データに設定する（ステップＳ２０）。

【0049】

そして、情報処理装置１は、モジュール処理がＬ層分終了すると、最終層の出力をＭＬＰ処理し、クラス分類として回答を出力する（ステップＳ２２）。そして、情報処理装置１は、誤差逆伝播法でニューラルネットワークの重みを更新する（ステップＳ２３）。

【0050】

そして、情報処理装置１は、学習ループを規定回数Ｎｅｐｏｃｈ分終了すると、ニューラルネットワークの重みに応じて、モジュールの組み合わせを選択する（ステップＳ２５）。そして、情報処理装置１は、機械学習処理を終了する。

【0051】

［実施例の効果］
上記実施例によれば、情報処理装置１は、ニューラルネットワークで構成されたモジュールを複数組み合わせて構築される機械学習モデルの学習において、画像および画像に関する質問文を組とする学習データの質問文に含まれる複数の単語に対して、単語間の係り受けを解析する。情報処理装置１は、解析の結果に基づいて、複数のモジュールそれぞれに対して適用する重みを決定する。情報処理装置１は、複数のモジュールそれぞれに対して適用する重みに基づいて、複数のモジュールから、機械学習モデルで用いられるモジュールの組み合わせの選択を制御する。かかる構成によれば、情報処理装置１は、学習データの単語間の係り受けを学習に用いることで、学習データにある単語間の係り受け（句・節）を組み合わせた文章入力であって学習データにはない文章入力に対しても認識精度を向上させることができる。

【0052】

また、上記実施例によれば、情報処理装置１は、係り受け解析を用いて、質問文に含まれる各単語の係り先と係り受けタグ情報とを特定する。情報処理装置１は、各単語のエンベッディングに、各単語に対する係り受けタグのエンベッディングを加算する。そして、情報処理装置１は、質問文に含まれる各単語の係り先の位置を表す行列を用いて、各係り先の単語のエンベッディングの位置に対して、係り元の単語群のエンベッディングに線形変換した値を足し合わせ、足し合わせた配列を、係り先の単語のエンベッディング列に足し合わせて、係り受け情報を加味した係り受け単語エンベッディング列を生成する。係る構成によれば、情報処理装置１は、質問文に含まれる各単語の係り先の位置を表す行列を用いて、係り先の単語のエンベッディング列に加算すべき係り元の単語のエンベッディングの配列を生成することで、係り受け情報を加味した係り受け単語エンベッディング列を生成できる。

【0053】

また、上記実施例によれば、情報処理装置１は、トランスフォーマーブロックで構成された複数のモジュールそれぞれに対して、係り受け単語エンベッディング列および画像の物体特徴量を入力して出力を計算し、ＭＬＰ処理で複数のモジュールの出力を重み付き平均する。情報処理装置１は、重み付き平均した出力を次層への入力として、予め定められた個数の層分の処理を行う。情報処理装置１は、最終層の出力をＭＬＰ処理し、回答を出力する。そして、情報処理装置１は、誤差逆伝播法でニューラルネットワークを学習し、各モジュールに適用する重みを決定する。かかる構成によれば、情報処理装置１は、トランスフォーマーブロックで構成された複数のモジュールの重みを学習することができ、モジュールの重みに基づき、モジュールの組合せを選択できる。

【0054】

なお、図示した情報処理装置１の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、情報処理装置１の分散・統合の具体的態様は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、記憶部２０を情報処理装置１の外部装置としてネットワーク経由で接続するようにしても良い。

【0055】

また、上記実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図１に示した情報処理装置１と同様の機能を実現する機械学習プログラムを実行するコンピュータの一例を説明する。ここでは、情報処理装置１と同様の機能を実現する機械学習プログラムを一例として説明する。図６は、機械学習プログラムを実行するコンピュータの一例を示す図である。

【0056】

図６に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ（Central Processing Unit）２０３と、ユーザからのデータの入力を受け付ける入力装置２１５と、表示装置２０９とを有する。また、コンピュータ２００は、記憶媒体からプログラムなどを読取るドライブ装置２１３と、ネットワークを介して他のコンピュータとの間でデータの授受を行う通信Ｉ／Ｆ（Interface）２１７とを有する。また、コンピュータ２００は、各種情報を一時記憶するメモリ２０１と、ＨＤＤ（Hard Disk Drive）２０５を有する。そして、メモリ２０１、ＣＰＵ２０３、ＨＤＤ２０５、表示制御部２０７、表示装置２０９、ドライブ装置２１３、入力装置２１５、通信Ｉ／Ｆ２１７は、バス２１９で接続されている。

【0057】

ドライブ装置２１３は、例えばリムーバブルディスク２１１用の装置である。ＨＤＤ２０５は、機械学習プログラム２０５ａおよび機械学習処理関連情報２０５ｂを記憶する。通信Ｉ／Ｆ２１７は、ネットワークと装置内部とのインターフェースを司り、他のコンピュータからのデータの入出力を制御する。通信Ｉ／Ｆ２１７には、例えば、モデムやＬＡＮアダプタなどを採用することができる。

【0058】

表示装置２０９は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する表示装置である。表示装置２０９は、例えば、液晶ディスプレイや有機ＥＬ（Electro Luminescence）ディスプレイなどを採用することができる。

【0059】

ＣＰＵ２０３は、機械学習プログラム２０５ａを読み出して、メモリ２０１に展開し、プロセスとして実行する。かかるプロセスは情報処理装置１の各機能部に対応する。機械学習処理関連情報２０５ｂには、例えば、学習データ記憶部２１、ネットワーク重み記憶部２２が含まれる。そして、例えばリムーバブルディスク２１１が、機械学習プログラム２０５ａなどの各情報を記憶する。

【0060】

なお、機械学習プログラム２０５ａについては、必ずしも最初からＨＤＤ２０５に記憶させておかなくても良い。例えば、コンピュータ２００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に当該プログラムを記憶させておく。そして、コンピュータ２００がこれらから機械学習プログラム２０５ａを読み出して実行するようにしても良い。

【0061】

また、上記実施例で説明した情報処理装置１が行う機械学習処理は、自然言語をクエリとする画像検索アプリケーションに適用可能である。例えば、画像に対する質問（クエリ）と画像とを入力して、対象物を検索する画像検索アプリケーションに適用することができる。

【符号の説明】

【0062】

１情報処理装置
１０制御部
１１ミニバッチ作成部
１２係り受け解析処理部
１３ニューラルネットワーク処理部
１４学習処理部
２０記憶部
２１学習データ記憶部
２２ネットワーク重み記憶部

【図1】