IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フェアリーデバイセズ株式会社の特許一覧

特開2024-27475ドメイン適応のための学習装置、学習済みモデルの生成方法、推論装置、及びプログラム
<>
  • 特開-ドメイン適応のための学習装置、学習済みモデルの生成方法、推論装置、及びプログラム 図1
  • 特開-ドメイン適応のための学習装置、学習済みモデルの生成方法、推論装置、及びプログラム 図2
  • 特開-ドメイン適応のための学習装置、学習済みモデルの生成方法、推論装置、及びプログラム 図3
  • 特開-ドメイン適応のための学習装置、学習済みモデルの生成方法、推論装置、及びプログラム 図4
  • 特開-ドメイン適応のための学習装置、学習済みモデルの生成方法、推論装置、及びプログラム 図5
  • 特開-ドメイン適応のための学習装置、学習済みモデルの生成方法、推論装置、及びプログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024027475
(43)【公開日】2024-03-01
(54)【発明の名称】ドメイン適応のための学習装置、学習済みモデルの生成方法、推論装置、及びプログラム
(51)【国際特許分類】
   G06N 20/00 20190101AFI20240222BHJP
【FI】
G06N20/00 130
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022130296
(22)【出願日】2022-08-17
(71)【出願人】
【識別番号】513190830
【氏名又は名称】Fairy Devices株式会社
(74)【代理人】
【識別番号】100116850
【弁理士】
【氏名又は名称】廣瀬 隆行
(74)【代理人】
【識別番号】100165847
【弁理士】
【氏名又は名称】関 大祐
(72)【発明者】
【氏名】佐藤 可直
(72)【発明者】
【氏名】朱 治
(57)【要約】
【課題】ドメイン適応においてソースドメインとターゲットドメインにおける精度を両立させる。
【解決手段】学習装置100は、ソースドメインとターゲットドメインの訓練データの特徴量を抽出する特徴量抽出器110と、特徴量のソースドメインの推定ラベルを出力するソースドメイン認識器120と、特徴量のターゲットドメインの推定ラベルを出力するターゲットドメイン認識器130と、特徴量がどちらのドメインであるかを弁別し推定ドメインを出力するドメイン弁別器140を備える。学習装置は、ソースドメインの推定ラベルと既知の正解ラベルを比較してソースドメイン認識器を訓練し、ターゲットドメインの推定ラベルと既知の正解ラベルを比較してターゲットドメイン認識器を訓練し、ドメイン弁別器が出力した推定ドメインと既知の正解ドメインを比較して特徴量抽出器とドメイン弁別器を互いに敵対するように訓練する。
【選択図】図2
【特許請求の範囲】
【請求項1】
ソースドメインデータとターゲットドメインデータを含む訓練データの特徴量を抽出する特徴量抽出器(110)と、
前記特徴量を入力とし、ソースドメインのラベル構成に対応した推定ラベルを出力するソースドメイン認識器(120)と、
前記特徴量を入力とし、ターゲットドメインのラベル構成に対応した推定ラベルを出力するターゲットドメイン認識器(130)と、
前記特徴量を入力として、当該特徴量がソースドメインとターゲットドメインのどちらであるかを弁別して、推定ドメインを出力するドメイン弁別器(140)と、
前記ソースドメイン認識器が出力した前記推定ラベルと既知の正解ラベルとの比較結果に基づいて、前記ソースドメイン認識器を訓練するソースドメインラベル比較部(150)と、
前記ターゲットドメイン認識器が出力した前記推定ラベルと既知の正解ラベルとの比較結果に基づいて、前記ターゲットドメイン認識器を訓練するターゲットドメインラベル比較部(160)と、
前記ドメイン弁別器が出力した前記推定ドメインと既知の正解ドメインとの比較結果に基づいて、前記特徴量抽出器及び前記ドメイン弁別器を互いに敵対するように訓練するドメイン比較部(170)を備える
学習装置。
【請求項2】
前記ドメイン比較部は、前記特徴量抽出器を前記ドメイン弁別器を騙すように訓練し、前記ドメイン弁別器をドメインを正しく弁別するように訓練する
請求項1に記載の学習装置。
【請求項3】
前記ターゲットドメインデータがラベル有りのデータ及びラベル無しのデータを含む場合、これら両方のデータを用いた半教師あり学習により、前記特徴量抽出器、前記ソースドメイン認識器、前記ターゲットドメイン認識器、前記ドメイン弁別器を訓練する
請求項1に記載の学習装置。
【請求項4】
コンピュータを請求項1に記載の学習装置として機能させるための学習プログラム。
【請求項5】
ソースドメインデータとターゲットドメインデータを含む訓練データを特徴量抽出器(110)に入力し、当該訓練データの特徴量を抽出する工程と、
前記特徴量をソースドメイン認識器(120)に入力し、ソースドメインのラベル構成に対応した推定ラベルを出力する工程と、
前記特徴量をターゲットドメイン認識器(130)に入力し、ターゲットドメインのラベル構成に対応した推定ラベルを出力する工程と、
前記特徴量をドメイン弁別器(140)に入力し、当該特徴量がソースドメインとターゲットドメインのどちらであるかを弁別して、推定ドメインを出力する工程と、
前記ソースドメイン認識器が出力した前記推定ラベルと既知の正解ラベルとの比較結果に基づいて、少なくとも前記ソースドメイン認識器を訓練する工程と、
前記ターゲットドメイン認識器が出力した前記推定ラベルと既知の正解ラベルとの比較結果に基づいて、少なくとも前記ターゲットドメイン認識器を訓練する工程と、
前記ドメイン弁別器が出力した前記推定ドメインと既知の正解ドメインとの比較結果に基づいて、前記特徴量抽出器及び前記ドメイン弁別器を互いに敵対するように訓練する工程を含み、
これにより、学習済みの特徴量抽出器(210)、学習済みのソースドメイン認識器(220)、及び学習済みのターゲットドメイン認識器(230)を含む学習済みモデルを得る、
学習済みモデルの生成方法。
【請求項6】
ソースドメインデータとターゲットドメインデータを含む対象データの特徴量を抽出する学習済みの特徴量抽出器(210)と、
前記特徴量を入力とし、ソースドメインのラベル構成に対応した推定ラベルを出力する学習済みのソースドメイン認識器(220)と、
前記特徴量を入力とし、ターゲットドメインのラベル構成に対応した推定ラベルを出力する学習済みのターゲットドメイン認識器(230)を備え、
前記学習済みの特徴量抽出器、前記学習済みのソースドメイン認識器、及び前記学習済みのターゲットドメイン認識器は、請求項5に記載の方法に従って訓練されたものである
推論装置。
【請求項7】
前記学習済みのソースドメイン認識器が出力した前記推定ラベルと前記学習済みのターゲットドメイン認識器が出力した推定ラベルのいずれか一方を、所定の基準に従って選択する選択部(250)をさらに備える
請求項6に記載の推論装置。
【請求項8】
前記特徴量を入力として、当該特徴量がソースドメインとターゲットドメインのどちらであるかを弁別して、推定ドメインを出力する学習済みのドメイン弁別器(240)をさらに備え、
前記選択部は、前記学習済みのドメイン弁別器が出力した前記推定ドメインに基づいて、前記学習済みのソースドメイン認識器が出力した前記推定ラベルと前記学習済みのターゲットドメイン認識器が出力した推定ラベルのいずれか一方を選択する
請求項7に記載の推論装置。
【請求項9】
コンピュータを請求項6に記載の推論装置として機能させるための推論プログラム。
【請求項10】
ソースドメインデータとターゲットドメインデータを含む対象データを学習済みの特徴量抽出器(210)に入力し、当該対象データの特徴量を抽出する工程と、
前記特徴量を学習済みのソースドメイン認識器(220)に入力し、ソースドメインのラベル構成に対応した推定ラベルを出力する工程と、
前記特徴量を学習済みのターゲットドメイン認識器(230)に入力し、ターゲットドメインのラベル構成に対応した推定ラベルを出力する工程を含み、
前記学習済みの特徴量抽出器、前記学習済みのソースドメイン認識器、及び前記学習済みのターゲットドメイン認識器は、請求項5に記載の方法に従って訓練されたものである
推論方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ソースドメインをターゲットドメインに適応するための学習装置、学習プログラム、及び学習済みモデルの生成方法に関する。また、本発明は、ここで得られた学習済みモデルを利用して対象データの推論を行うための推論装置、推論プログラム、推論方法に関する。
【背景技術】
【0002】
統計的機械学習では、ラベルが付与された訓練データを用いてモデルを訓練する。この技術は、画像認識・音声認識・自然言語処理などに様々な分野において活用されている。一方、学習済みモデルを用いてラベルを推論しようとする対象データの分布が、この学習済みモデルの学習時に用いられた訓練データの分布と異なっている場合には、対象データの推論精度が低くなってしまうという問題が知られている。この問題をドメインミスマッチという。
【0003】
本願明細書では、すでに十分なラベルが付与された大規模な訓練データを「ソースドメインデータ」といい、このソースドメインデータが属する分布を「ソースドメイン」という。また、ソースドメインデータから得られた知識(情報)を適応して別の分布において高い精度で機能するモデルを訓練するための訓練データを「ターゲットドメインデータ」といい、このターゲットドメインデータが属する分布を「ターゲットドメイン」という。なお、これらの用語は、ドメイン適応の技術分野で良く知られており、当該技術分野において用いられている用語の意義と相違はない。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特許第7062747号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、ターゲットドメインデータに十分なラベルが付与されている場合には、ソースドメインの学習済みモデルをターゲットドメインデータセットで再度最適化する転移学習という手法が利用できる。しかしながら、ターゲットドメインデータにラベルを付与する作業には多大なコストと時間を要するため、ターゲットドメインにおいて大量のラベル付きデータを準備することは現実的ではない。
【0006】
さらに、転移学習などの従来のドメイン適応技術においては、ソースドメインにおける精度が劇的に劣化してしまうという破滅的忘却(catastrophic forgetting)と呼ばれる現象が知られている。ソースドメインでは一般的であるがターゲットドメインにおいては稀にしか含まれないデータも存在する。このような稀なデータをターゲットドメインおいて十分な量だけ探し出してラベルを付与することは、膨大なコストと時間を要するため現実的ではない。従って、転移学習によりターゲットドメインに適応されたモデルは、ターゲットドメインでは稀なデータに対して、適切な精度で推論を行うことができない。すなわち、ソースドメインで一般的なデータであったとしても、ターゲットドメインで稀であるようなデータについては、ドメイン適応後に元の水準の精度を保つことができない。
【0007】
また、ターゲットドメインにおいて少量のデータにしかラベルが付与されていない場合に、ソースドメインとターゲットドメインの両方のデータを用いるドメイン適応の技術(例えば敵対的ドメイン適応)を用いてターゲットドメインに適応したモデルを訓練することもできる。しかし、例えば敵対的ドメイン適応によってモデルを訓練するためには、ソースドメインとターゲットドメインにおけるラベルの構成(タスクとも言う)が厳密に一致していなければならない。感情音声認識を例に挙げると、ソースドメインにおいて音声データを「平静」「怒り」の2クラスに分類するラベルが付与されている場合には、ターゲットドメインにおいて「平静」「喜び」「怒り」の3クラスに分類するモデルは、従来のドメイン適応の技術では訓練することはできない。また、ソースドメインにおいて覚醒度(arousal)と感情値(valence)が連続値として付与されている場合には、ターゲットドメインにおいて「平静」「喜び」「怒り」の3クラスに分類するモデルは、従来のドメイン適応の技術では訓練することはできない。
【0008】
また、特許文献1には、ターゲットドメインのサンプルがソースドメインのサンプルに十分対応しない場合であっても高精度な処理結果を得ることを目的とした学習装置が開示されている。この学習装置は、特徴空間におけるターゲットドメインに含まれる第1のクラスのサンプルの分布に基づいて、ターゲットドメインの第2のクラスの疑似サンプルを生成した後、特徴空間において、ソースドメインに含まれる第1のクラスのサンプル及び第2のクラスのサンプルの分布を、ターゲットドメインに含まれる第1のクラスのサンプル及び第2のクラスの疑似サンプルの分布に近づくよう機械学習によりデータ変換することとしている。これにより、ソースドメインをターゲットドメインにドメイン適応させる際に、ソースドメインのサンプル分布をターゲットドメインのサンプル分布に十分に近づけることができるとされている。しかしながら、特許文献1の学習装置のようにソースドメイのサンプルの分布をターゲットドメインのサンプルの分布に近づけるようにデータ変換すると、学習時にソースドメインのサンプルの情報が損なわれ、ソースドメインにおける推論精度が劣化するという転移学習が抱える問題を依然として解決することができない。
【0009】
そこで、本発明は、ソースドメインと異なるラベル構成のターゲットドメインデータが与えられた場合でも、ソースドメインとターゲットドメインにおける精度を両立させつつ、ターゲットドメインに適応したモデルを訓練できるドメイン適応技術を提供することを主な目的とする。
【課題を解決するための手段】
【0010】
本発明の発明者は、上記の従来技術の問題を解決する手段について鋭意検討した結果、基本的に、ソースドメインとターゲットドメインのそれぞれのラベルを認識するための2つの認識器と、訓練データのドメインを弁別する弁別器とを設け、2つの認識器と弁別器とで特徴量抽出器を共有するとともに、この特徴量抽出器を弁別器と敵対するように訓練することとした。このように、敵対的学習によってソースドメインとターゲットドメインにおいてデータの特徴量が共通する部分を特徴量空間において融合させ、異なる部分は融合させないように訓練することで、ソースドメインとターゲットドメインにおける精度を両立させつつ、ターゲットドメインに適応したモデルを訓練できるようになるという知見を得た。そして、本発明者は、上記知見に基づけば、従来技術の課題を解決できることに想到し、本発明を完成させた。具体的に説明すると、本発明は以下の構成又は工程を有する。
【0011】
本発明の第1の側面は、学習装置100に関する。学習装置100は、特徴量抽出器110、ソースドメイン認識器120、ターゲットドメイン認識器130、ドメイン弁別器140、ソースドメインラベル比較部150、ターゲットドメインラベル比較部160、及びドメイン比較部170を備える特徴量抽出器110、ソースドメイン認識器120、ターゲットドメイン認識器130、及びドメイン弁別器140は、それぞれ入力層と出力層の間に一又は複数の中間層(隠れ層)を持ち、機械学習により各ノードの結合強度の重み(パラメータ)を調整可能なニューラルネットワークモデルとなっている。
【0012】
特徴量抽出器110は、ソースドメインデータとターゲットドメインデータを含む訓練データ101の特徴量を抽出する。ソースドメイン認識器120は、特徴量抽出器110から出力された特徴量を入力とし、ソースドメインのラベル構成に対応した推定ラベル121を出力する。ターゲットドメイン認識器130は、特徴量抽出器110から出力された特徴量を入力とし、ターゲットドメインのラベル構成に対応した推定ラベル131を出力する。ドメイン弁別器140は、特徴量抽出器110から出力された特徴量を入力として、当該特徴量がソースドメインとターゲットドメインのどちらであるかを弁別して、推定ドメイン141を出力する。ソースドメインラベル比較部150は、ソースドメイン認識器120が出力した推定ラベル121と既知の正解ラベル151との比較結果に基づいて、少なくともソースドメイン認識器120を訓練する。このとき、当該比較結果に基づいて、ソースドメイン認識器120に加えて特徴量抽出器110を訓練することとしてもよい。ターゲットドメインラベル比較部160は、ターゲットドメイン認識器130が出力した推定ラベル131と既知の正解ラベル161との比較結果に基づいて、少なくともターゲットドメイン認識器130を訓練する。このとき、当該比較結果に基づいて、ターゲットドメイン認識器130に加えて特徴量抽出器110を訓練することとしてもよい。ドメイン比較部170は、ドメイン弁別器140が出力した推定ドメイン141と既知の正解ドメイン171との比較結果に基づいて、特徴量抽出器110及びドメイン弁別器140を互いに敵対するように訓練する。このとき、ドメイン比較部170は、特徴量抽出器110をドメイン弁別器140を騙すように訓練し、ドメイン弁別器140をドメインを正しく弁別するように訓練することが好ましい。すなわち、ドメイン比較部170は、特徴量抽出器110が抽出した特徴量からドメイン弁別器140がドメインを分類できないように、特徴量抽出器110を訓練する。
【0013】
上記構成のように、例えば敵対的学習により特徴量抽出器110及びドメイン弁別器140を互いに敵対するように訓練することで、特徴量抽出器110は、ドメインを弁別できる情報をなるべく含まない特徴量を出力するように訓練される。これにより、特徴量空間において、ソースドメインデータとターゲットドメインデータとの共通部分が融合するように特徴量抽出器110が訓練されることとなる。そして、このようして訓練された特徴量抽出器110をソースドメイン認識器120とターゲットドメイン認識器130とで共有し、特徴量抽出器110から出力された訓練データの特徴量を両方の認識器120,130へと入力することにより、ソースドメインとターゲットドメインにおける精度を両立させることが可能となる。
【0014】
本発明に係る学習装置100は、ターゲットドメインデータがラベル有りのデータ及びラベル無しのデータを含む場合、これら両方のデータを用いた半教師あり学習により、特徴量抽出器110、ソースドメイン認識器120、ターゲットドメイン認識器130、ドメイン弁別器を訓練する。このように、半教師あり学習を利用することで、ターゲットドメインデータに含まれるラベル無しデータも各モデルの訓練に活用することができる。
【0015】
本発明の第2の側面は、学習プログラムに関する。本発明に係る学習プログラムは、コンピュータを上記した第1の側面に係る学習装置100として機能させるためのプログラムである。この学習プログラムは、コンピュータに予め実装されたものであってもよいし、インターネットを通じてコンピュータにダウンロードされるものであってもよい。また、学習プログラムは、CR-ROM等のコンピュータが読み取り可能な記録媒体に格納されていてもよい。
【0016】
本発明の第3の側面は、学習済みモデルの生成方法に関する。本発明に係る学習済みプログラムの生成方法では、ソースドメインデータとターゲットドメインデータを含む訓練データを特徴量抽出器110に入力し、当該訓練データの特徴量を抽出する(特徴量抽出工程)。また、特徴量抽出器110が出力した特徴量をソースドメイン認識器120に入力し、ソースドメインのラベル構成に対応した推定ラベルを出力する(ソースドメイン推定ラベル出力工程)。また、特徴量抽出器110が出力した特徴量をターゲットドメイン認識器130に入力し、ターゲットドメインのラベル構成に対応した推定ラベルを出力する(ターゲットドメイン推定ラベル出力工程)。また、特徴量抽出器110が出力した特徴量をドメイン弁別器140に入力し、当該特徴量がソースドメインとターゲットドメインのどちらであるかを弁別して、推定ドメインを出力する(推定ドメイン出力工程)。ここまでの工程には特に前後関係はなく、全ての工程を並列的に行えばよい。次に、ソースドメインラベル比較部150は、ソースドメイン認識器120が出力した推定ラベルと既知の正解ラベルとの比較結果に基づいて、少なくともソースドメイン認識器を訓練する(ソースドメイン認識器訓練工程)。このとき、当該比較結果に基づいて、ソースドメイン認識器120に加えて特徴量抽出器110を訓練することとしてもよい。また、ターゲットドメインラベル比較部160は、ターゲットドメイン認識器130が出力した推定ラベルと既知の正解ラベルとの比較結果に基づいて、少なくともターゲットドメイン認識器130を訓練する(ターゲットドメイン認識器訓練工程)。このとき、当該比較結果に基づいて、ターゲットドメイン認識器130に加えて特徴量抽出器110を訓練することとしてもよい。また、ドメイン比較部170は、ドメイン弁別器140が出力した推定ドメインと既知の正解ドメインとの比較結果に基づいて、特徴量抽出器110及びドメイン弁別器140を互いに敵対するように訓練する(特徴量抽出器・ドメイン弁別器訓練工程)。なお、各訓練工程には特に前後関係はなく、全ての工程を並列的に行えばよい。そして、上記工程により、少なくとも学習済みの特徴量抽出器210、学習済みのソースドメイン認識器220、及び学習済みのターゲットドメイン認識器230を含む学習済みモデルが得られる。なお、この学習済みモデルは、さらに、学習済みのドメイン弁別器240を含むものであってもよい。
【0017】
本発明の第4の側面は、推論装置200に関する。本発明に係る推論装置200は、基本的に、前述した第1の側面に係る学習装置100等において訓練したモデルを利用して、対象データの推論を行う。なお、本願明細書において「推論」とは、例えば分類、回帰、検知、予測など、対象データを機械学習で得られたモデルに当てはめてその結果を導く処理を意味する。推論装置200の利用分野としては、例えば音声信号処理、自然言語処理、画像処理、時系列データ処理などの分野が挙げられるが、これに限定されない。推論装置200は、学習済みの特徴量抽出器210、学習済みのソースドメイン認識器220、及び学習済みのターゲットドメイン認識器230を備える。学習済みの特徴量抽出器210は、ソースドメインデータとターゲットドメインデータを含む対象データの特徴量を抽出する。学習済みのソースドメイン認識器220は、特徴量抽出器210から出力された特徴量を入力とし、ソースドメインのラベル構成に対応した推定ラベル121を出力する。学習済みのソースドメイン認識器220は、特徴量抽出器210から出力された特徴量を入力とし、ターゲットドメインのラベル構成に対応した推定ラベル131を出力する。ここで、学習済みの特徴量抽出器210、学習済みのソースドメイン認識器220、及び学習済みのターゲットドメイン認識器230は、前述した第3の側面に係る学習モデルの生成方法に従って訓練されたものである。
【0018】
本発明に係る推論装置200は、選択部250をさらに備えることが好ましい。選択部250は、学習済みのソースドメイン認識器220が出力した推定ラベルと学習済みのターゲットドメイン認識器230が出力した推定ラベルのいずれか一方を、所定の基準に従って選択する。このように、推定ラベルの選択を推論装置200(コンピュータ)によって自動的に行うこととしてもよい。ただし、選択部250は必須の構成ではなく、ソースドメイン認識器220とターゲットドメイン認識器230のそれぞれが推定ラベルを出力することで推論処理を終了としてもよい。
【0019】
本発明に係る推論装置200は、学習済みのドメイン弁別器240をさらに備えることとしてもよい。ドメイン弁別器240は、特徴量抽出器210から出力された特徴量を入力として、当該特徴量がソースドメインとターゲットドメインのどちらであるかを弁別して、推定ドメイン241を出力する。この場合に、選択部250は、ドメイン弁別器240が出力した推定ドメイン241に基づいて、学習済みのソースドメイン認識器220が出力した推定ラベルと学習済みのターゲットドメイン認識器230が出力した推定ラベルのいずれか一方を選択することが好ましい。
【0020】
本発明の第5の側面は、推論プログラムに関する。本発明に係る推論プログラムは、コンピュータを上記した第4の側面に係る推論装置200として機能させるためのプログラムである。この推論プログラムは、コンピュータに予め実装されたものであってもよいし、インターネットを通じてコンピュータにダウンロードされるものであってもよい。また、推論プログラムは、CR-ROM等のコンピュータが読み取り可能な記録媒体に格納されていてもよい。
【0021】
本発明の第6の側面は、推論方法に関する。本発明に係る推論装置200は、基本的に、前述した第1の側面に係る学習装置100等において訓練したモデルを利用して、対象データの推論を行う。まず、ソースドメインデータとターゲットドメインデータを含む対象データを学習済みの特徴量抽出器210に入力して、当該対象データの特徴量を抽出する(特徴量抽出工程)。また、特徴量抽出器210が出力した特徴量を学習済みのソースドメイン認識器220に入力し、ソースドメインのラベル構成に対応した推定ラベルを出力する(ソースドメイン推定ラベル出力工程)。また、特徴量抽出器210が出力した特徴量を学習済みのターゲットドメイン認識器230に入力し、ターゲットドメインのラベル構成に対応した推定ラベルを出力する(ターゲットドメイン推定ラベル出力工程)。ここまでの工程には特に前後関係はなく、全ての工程を並列的に行えばよい。ここで、学習済みの特徴量抽出器210、学習済みのソースドメイン認識器220、及び学習済みのターゲットドメイン認識器230は、前述した第3の側面に係る学習モデルの生成方法に従って訓練されたものである。
【発明の効果】
【0022】
本発明によれば、ドメイン適応において、ソースドメインと異なるラベル構成のターゲットドメインデータが与えられた場合でも、ソースドメインとターゲットドメインにおける精度を両立させつつ、ターゲットドメインに適応したモデルを精度良く訓練することができる。
【0023】
すなわち、従来の転移学習ベースのドメイン適応は、ソースドメインにおける精度が著しく劣化することを許容していた。これに対して、本発明は、ソースドメイン認識器120とターゲットドメイン認識器130という、ソースドメインとターゲットドメインのラベルの推定についてそれぞれ異なる認識器を備えることで、マルチタスク学習モデルを実現し、ソースドメインとターゲットドメインにおける精度を両立させている。この点において、本発明は、従来の転移学習の手法とは本質的に異なる。
【0024】
さらに、従来の敵対的ドメイン適応は、ソースドメインとターゲットドメインが完全に区別できなくなることを目標としている。これは、従来技術が、ソースドメインとターゲットドメインのラベル構成の完全な一致を前提として、両ドメインに共通する単一の認識器を用いるという発想に起因している。これに対して、本発明は、前述した通り、ソースドメイン認識器120とターゲットドメイン認識器130という各々異なる認識器を用いることとしており、その結果、ソースドメインとターゲットドメインのラベル構成は完全に一致している必要がない。このため、本発明では、ソースドメインとターゲットドメインにおいてデータの特徴が一致する部分は、特徴量抽出器110とドメイン弁別器140との敵対的学習により融合させ、異なる部分は融合させないことを目標としている。この点において本発明は、従来の敵対的ドメイン適応の手法と本質的に異なる。
【0025】
このように、本発明は、「マルチタスク学習モデル」と「敵対的ドメイン適応」の両方を利用し、各損失(ソースドメインとターゲットドメインの認識器の損失、およびドメイン弁別器の損失)に対して重み付けパラメータを導入した。これにより、ソースドメインとターゲットドメインにおいてデータの特徴が重なる部分のみが特徴量空間において融合されるように特徴量抽出器110を訓練するとともに、かつ、ソースドメインとターゲットドメインのラベル構成(タスク)の両方が同様に高い精度を達成するように各認識器120,130を訓練することを実現した。
【図面の簡単な説明】
【0026】
図1図1は、本発明が想定しているソースドメインとターゲットドメインの一例を示している。
図2図2は、本発明に係る学習装置のモデル構造の例を示したブロック図である。
図3図3は、本発明に係る推論装置のモデル構造の例を示したブロック図である。
図4図4は、本発明における学習フェーズと推論フェーズを例を挙げて模式的に示している。
図5図5は、本発明に半教師あり学習を適用した実施形態の例を示したブロック図である。
図6図6は、本発明に係る学習装置及び推論装置として機能するコンピュータのハードウェア構成の一例を示している。
【発明を実施するための形態】
【0027】
以下、図面を用いて本発明を実施するための形態について説明する。本発明は、以下に説明する形態に限定されるものではなく、以下の形態から当業者が自明な範囲で適宜変更したものも含む。
【0028】
まず、図1を参照して、本発明で想定している訓練データとタスク(ラベル構成)について説明する。ここでは、ソースドメインの訓練データ(ソースドメインデータ)としてラベル付きの大規模なデータセットがあると想定する。また、ターゲットドメインの訓練データ(ターゲットデータ)としては大規模あるいは小規模なデータで、その全部あるいは一部だけにラベルが付与されていることを想定する。後述するように、半教師あり学習を適用する実施形態では、ターゲットデータの一部だけにラベルが付与されている場合にも対応可能である。さらに、ソースドメインとターゲットドメインのタスクが完全に一致している場合だけでなく、部分的に異なる場合、あるいは完全に異なっている場合もあることを想定する。本発明は、ドメイン適応に際してソースドメインデータを有効に活用するという点において、従来の転移学習ベースのドメイン適応手法(ソースドメインの学習済みモデルをターゲットドメインデータセットで再度最適化する手法)とは異なっている。
【0029】
例えば、図1に示すように、ソースドメインデータとしては汎用コーパスを利用し、ターゲットドメインデータとしては、顧客の持つ独自のデータであって、その一部についてのみ正解のラベルが付与されている場合を考える。なお、ターゲットドメインデータには、クラウドソーシングなどにより、人間の手作業でラベルが付与されることが多いが、データ量が膨大になると全てのデータにラベルを付与することが困難になる。また、機械学習により解く問題は、典型的なケースとして、ソースドメインとターゲットドメインのタスクは共が分類問題であることを考える。ただし、ソースドメインとターゲットドメインのクラスは部分的にしか重複しておらず、ドメイン適応後には両者の和集合のクラスに対して分類を実施することを考える。
【0030】
図1では、人の音声を解析してその感情認識する場合(感情音声認識)の例を示している。このとき、ソースドメインデータには、感情を分類するためのタスクとして「平静」「喜び」「怒り」「悲しみ」「驚き」の5パターンのいずれかのラベルが付与されており、ターゲットドメインデータの一部には、「平静」「怒り」「いらだち」「激怒」「嫌悪」「疑問」の6パターンのいずれかのラベルが付与されており、ターゲットドメインデータの残部にはラベルが付与されていない。「平静」のラベルは両ドメインにて共通しているが、「喜び」はターゲットドメインでは稀であることから、ラベル付きのターゲットドメインデータは準備できていない。また、ソースドメインの「怒り」は、ターゲットドメインでは「怒り」「いらだち」「激怒」に分割されている。また、ソースドメインの「悲しみ」は、ターゲットドメインでは削除され、一方で「嫌悪」が追加されている。また、ソースドメインの「驚き」は、ターゲットドメインの「疑問」と部分的に重複する。このような状況では、ソースドメインとターゲットドメインのタスク(ラベル構成)が不一致であることから、既存のドメイン適応の技術(例えば敵対的ドメイン適応)は利用できない。また、ターゲットドメインでは稀である「喜び」についても、ドメイン適応後のモデルでは認識することが求められるため、ソースドメインの精度も元の水準を維持する必要がある。さらに、ターゲットドメインにおけるラベル無しのデータも有効活用することが好ましい。このような状況は現実ではしばしば発生することから、本発明はこのような状況を想定してその解決手段を提案するものである。
【0031】
なお、ソースドメインとターゲットドメインは各々複数個あっても構わない。また、ソースドメインとターゲットドメインのタスクも各々複数個あっても構わない。ターゲットドメインにおいて、ラベルが付与されているデータの割合は問わないが、ラベル付きデータがまったく存在しない場合は考えないものとする。また、簡単のための説明を省略するが、ソースドメインにラベルなしデータがあっても構わない(後述のとおり、ターゲットドメインと同様に、ソースドメインに対しても半教師あり学習を利用することが可能である)。
【0032】
図2は、学習フェーズにおける本発明のモデル構造を示している。すなわち、図2は、本発明に係る学習装置100の一例を示すものである。学習装置100は、汎用的なコンピュータにより実現できる。学習装置100は、入出力インターフェースを介して入力された情報を、ストレージやメインメモリ等の記憶装置に記憶されている所定のコンピュータプログラムに従って、プロセッサ等の制御演算装置によって演算し、その演算結果をインターフェース介して出力する。図示されるように、学習装置100は、プロセッサ等の制御演算装置の機能ブロックとして、特徴量抽出器110、ソースドメイン認識器120、ターゲットドメイン認識器130、及びドメイン弁別器140を備える。これらの要素110,120,130,140は、それぞれ入力層と出力層の間に一又は複数の中間層を持つニューラルネットワークモデルであり、統計的機械学習により各ノードの結合強度の重みを調整される。この学習装置100は、訓練データ101によってこれらの要素110,120,130,140を訓練して、重みが調整された学習済みモデルを得ることを目的としたものである。また、学習装置100は、これらの要素110,120,130,140を訓練するための要素として、ソースドメインラベル比較部150、ターゲットドメインラベル比較部160、及びドメイン比較部170を備えており、これらもプロセッサ等の制御演算装置により実現される。
【0033】
訓練データ101には、ソースドメインデータとターゲットドメインデータは区別されずに含まれている。なお、ここでは簡単のため全ての訓練データ101に正解ラベル151,161が付与されていることを前提としている。訓練データ101は、まず、訓練データ101は、ソースドメインデータであるかターゲットドメインデータであるかは区別されずに特徴量抽出器110に入力される。特徴量抽出器110は、訓練データ101から本質的な情報(特徴量)を抽出するものであり、例えば階層型ニューラルネットワークなどの公知の手法を用いればよい。特徴量抽出器110から出力される特徴量(ニューラルネットワークの隠れ空間に埋め込まれた特徴量)は、ソースドメイン認識器120、ターゲットドメイン認識器130、及びドメイン弁別器140のそれぞれに入力される。
【0034】
ソースドメイン認識器120とターゲットドメイン認識器130は、ソースドメインとターゲットドメインのタスクにそれぞれ個別に設けられた認識モデルである。つまり、ソースドメイン認識器120は、訓練データ101の特徴量が入力されると、ソースドメインのタスクに応じた推定ラベル121を出力するニューラルネットワークモデルである。一方で、ターゲットドメイン認識器130は、訓練データ101の特徴量が入力されると、ターゲットドメインのタスクに応じた推定ラベル131を出力するニューラルネットワークモデルである。各認識器が解く問題は、前述の通り、分類、回帰、検知、予測など、どのような機械学習の問題であってもよい。特徴量抽出器110、ソースドメイン認識器120、及びターゲットドメイン認識器130の関係性に着目すると、このモデルは、ソースドメインのタスクとターゲットドメインのタスクの各々対応する異なる認識器120,130が特徴量抽出器110を共有した構造になっており、「マルチタスク学習」のモデルに帰着する。
【0035】
ソースドメイン認識器120が出力した推定ラベル121は、ソースドメインラベル比較部150に入力される。ソースドメインラベル比較部150は、この推定ラベル121と、訓練データ101に付与されているソースドメインの正解ラベルとを比較し、それらの不一致であった場合に特徴量抽出器110とソースドメイン認識器120にペナルティを与えるために、特徴量抽出器110とソースドメイン認識器120に与える損失が定義されている。なお、訓練データ101がターゲットドメインのものである場合には、ソースドメイン認識器120が出力した推定ラベル121が正解となることはないため損失は与えられない。同様に、ターゲットドメイン認識器130が出力した推定ラベル131は、ターゲットドメインラベル比較部160に入力される。ターゲットドメインラベル比較部160は、この推定ラベル131と、訓練データ101に付与されているターゲットドメインの正解ラベルとを比較し、それらの不一致であった場合に特徴量抽出器110とターゲットドメイン認識器130にペナルティを与えるために、特徴量抽出器110とターゲットドメイン認識器130に与える損失が定義されている。なお、訓練データ101がソースドメインのものである場合には、ターゲットドメイン認識器130が出力した推定ラベル121が正解となることはないため損失は与えられない。これにより、特徴量抽出器110とソースドメイン認識器120とターゲットドメイン認識器130をそれぞれ訓練する。なお、ソースドメイン認識器120とターゲットドメイン認識器130に与える損失には、重み付けを調整することができる。ソースドメインとターゲットドメインの損失に対する重みは、どちらタスクをどの程度優先するかを制御するためのパラメータとなる。
【0036】
ドメイン弁別器140は、ソースドメイン認識器120が訓練データ101から抽出した特徴量が入力されると、この特徴量を持つ訓練データ101がソースドメインとターゲットドメインのどちらに対応するものであるかを弁別した推定ドメイン141を出力するニューラルネットワークモデルである。ドメイン弁別器140が出力した推定ドメイン141は、ドメイン比較部170に入力される。ドメイン比較部170は、この推定ドメイン141と、元の訓練データ101の正解ドメイン171を比較する。ドメイン比較部170は、推定ドメイン141と正解ドメイン171が不一致であった場合にドメイン弁別器140にペナルティを与えるために、ドメイン弁別器140に与える損失が定義されている。これにより、ドメイン弁別器140を訓練する。一方で、ドメイン比較部170は、ドメイン弁別器140が出力した推定ドメイン141と正解ドメイン171が一致していた場合には、特徴量抽出器110にペナルティを与えるために、特徴量抽出器110に与える損失が定義されている。
【0037】
このように、学習フェーズにおいて、特徴量抽出器110とドメイン弁別器140は互いに敵対するように訓練される。つまり、ドメイン弁別器140は、訓練データ101のドメインを正しく推定(弁別)するように訓練される一方で、特徴量抽出器110はドメイン弁別器140を騙すように訓練される。このため、特徴量抽出器110とドメイン弁別器140の関係性に着目すると、特徴量抽出器110はGAN(敵対的生成ネットワーク)における生成器に対応し、ドメイン弁別器140はGANにおける弁別器に対応する。このように、特徴量抽出器110とドメイン弁別器140を敵対的に訓練する手法としては、例えば、特徴量抽出器110とドメイン弁別器140の間に勾配反転層(gradient reversal layer)を挿入しておく方法がある。また、これに限られず、他の敵対的学習の手法を用いてもよい。敵対的学習を用いることにより、特徴量抽出器110は、ドメイン弁別器140がドメインを弁別できる情報をなるべく含まない特徴量を出力するように訓練される。これにより、特徴量空間においてソースドメインとターゲットドメインの重なる部分を融合する。一方で、従来のドメイン適応手法のように、ソースドメインの学習済みモデルをターゲットドメインデータセットで再度最適化するといったような処理は本発明では行われない。このため、ソースドメインのうち、ターゲットドメインと異なる部分は、特徴量空間において融合されずに元の水準が維持される。このため、ソースドメインにおける推論精度の劣化は限定的である。なお、ドメイン弁別器140の敵対的損失の重み(例えば勾配反転層が誤差逆伝播の際に乗じる係数)は、調整することが可能であり、特徴量空間における融合度合いを制御するパラメータになっている。
【0038】
上記した特徴量抽出器110、ソースドメイン認識器120、ターゲットドメイン認識器130、及びドメイン弁別器140の訓練を、大量の訓練データ101を用いて繰り返し行うことで、ニューラルネットワークの重み(パラメータ)がソースドメイン及びターゲットドメイン向けに最適化された学習済みモデルが得られる。図3に示されるように、この学習済みモデルには、学習済みの特徴量抽出器210、学習済みのソースドメイン認識器220、学習済みのターゲットドメイン認識器230、及び学習済みのドメイン弁別器240が含まれており、この学習済みモデルは、対象データ201に対する推論を行う推論装置200に適用される。
【0039】
図3は、推論フェーズにおける本発明のモデル構造を示している。すなわち、図3は、本発明に係る推論装置200の一例を示すものである。推論装置200は、前述した学習装置100と同様に、汎用的なコンピュータにより実現できる。推論装置200は学習装置100と同じコンピュータにより実現されてもよいし、学習装置100により生成された学習済みモデルを別のコンピュータに適用することにより、推論装置200は学習装置100とは異なるコンピュータにより実現されてもよい。また、この学習済みモデルは複製も可能である。推論装置200は、入出力インターフェースを介して入力された情報を、ストレージやメインメモリ等の記憶装置に記憶されている所定のコンピュータプログラムに従って、プロセッサ等の制御演算装置によって演算し、その演算結果をインターフェース介して出力する。図示されるように、推論装置200は、プロセッサ等の制御演算装置の機能ブロックとして、前述した学習済みモデル(210,220,230,240)に加えて選択部250を備えている。
【0040】
推論フェーズでは、ラベルが未知である対象データ201が学習済みモデルに入力される。なお、対象データ201は、ソースドメイン又はターゲットドメインに関連するデータであることを想定している。対象データ201は、まず、学習済みの特徴量抽出器210に入力される。特徴量抽出器210は、対象データ201の特徴量を抽出して、学習済みのソースドメイン認識器220、学習済みのターゲットドメイン認識器230、及び学習済みのドメイン弁別器240へと出力する。ソースドメイン認識器220とターゲットドメイン認識器230は、入力された特徴量に基づいて、それぞれ対象データ201の推定ラベル221,231を選択部250に出力する。なお、対象データ201によっては、ソースドメイン認識器220とターゲットドメイン認識器230の両方が推定ラベル221,231を出力する場合もあるし、いずれか一方の認識器が推定不可となり、いずれか他方のみが推定ラベルを出力する場合もある。対象データ201によっては両方の認識器220,230が推定不可となる場合もあるが、この場合には学習済みモデルに入力する対象データ201の選択を誤った可能性が高い。また、ドメイン弁別器240は、入力された特徴量に基づいて、対象データ201のドメインを弁別し、その結果として推定ドメイン241を出力する。これらの学習済みモデルの推論結果から、最終的な結論を得る方法としては、いくつかの典型的な方法が考えられる。
【0041】
第一の方法としては、ソースドメイン認識器220とターゲットドメイン認識器230の両方から推定ラベル221,231が出力された場合、ドメイン弁別器240の結果によらず、ターゲットドメイン認識器230を優先して、このターゲットドメイン認識器230が出力した推定ラベル231を選択部250が採用するという方法がある。つまり、推論フェーズに学習済みモデルに入力される対象データ201のラベルは、ターゲットドメインの訓練データ101に含まれていたラベルに限られると仮定すると、常にターゲットドメイン認識器230がより正解に近い推定ラベル231を出力するといえる。このため、選択部250は、ソースドメイン認識器220とターゲットドメイン認識器230の両方から出力された推定ラベル221,231が競合する場合、ターゲットドメイン認識器230が出力した推定ラベル231が正解であると判断すればよい。また、この方法の応用としては、対象データ201の推定ドメインがソースドメインであった場合には、推論結果を不明とみなし(すなわち推論に失敗したものとみなし)てもよい。例えば、ドメイン弁別器240が対象データ201の推定ドメインがソースドメインであると判断した場合、あるいは、ソースドメイン認識器220のみから推定ラベル221が出力され、ターゲットドメイン認識器230からは推定不可であるとして推定ラベル231が出力されなかった場合は、選択部250は、対象データ201の推論に失敗したと判断してもよい。なお、訓練データ201のドメインの弁別が不要である場合には、図3に示したモデルからドメイン弁別器240を省略することもできる。
【0042】
第二の方法としては、ソースドメイン認識器220とターゲットドメイン認識器230の両方から推定ラベル221,231が出力された場合に、ドメイン弁別器240が出力した推定ドメイン241に対応する認識器220,230の推論結果を選択部250が採用するという方法がある。すなわち、ドメイン弁別器240が対象データ201はターゲットドメインであると推定した場合、選択部250は、ターゲットドメイン認識器230から出力される推定ラベル231を採用する。同様に、ドメイン弁別器240が対象データ201はソースドメインであると推定した場合、選択部250は、ソースドメイン認識器220から出力される推定ラベル221を採用する。これは、推論時に入力される対象データ201のラベルが、例えばターゲットドメインでは数が非常に稀であるなどの理由により、ターゲットドメインの訓練データ101には含まれていなかったラベルである可能性を排除できない場合に有効である。この場合、非常に稀であるなどの理由によりターゲットドメインの訓練データ101には含まれていなかったラベルを、ソースドメインを有効活用して精度良く認識することが可能となる。
【0043】
上記した第一の方法と第二の方法のいずれであっても、選択部250は、ソースドメイン認識器220あるいはターゲットドメイン認識器230が出力するスコアが最大であるような推定ラベルを採用すればよい。また、推定ラベルのスコアの信頼度が所定の閾値より低かった場合(例えばchance rateと同水準の値であった場合など)には、選択部250は、最終的な推論結果を不明としてもよい。すなわち、推定ラベルのスコアが所定値以下である場合、推論結果の信頼性が低く、推論に失敗したものとみなすことができる。なお、上記の方法に限らず、選択部250は、最終的な推論結果を決定するために、ソースドメイン認識器220の出力、ターゲットドメイン認識器230の出力、ドメイン弁別器240の出力のすべて用いることが可能である。
【0044】
続いて、図4を参照して、本発明における学習フェーズと推論フェーズの概念を例を挙げて説明する。この例では、学習フェーズにおいて、ソースドメインの訓練データ(ソースドメインデータ)とターゲットドメインの訓練データ(ターゲットドメインデータ)のラベル構成は、完全には一致しておらず、部分的にのみ共通している。図示した例は、感情音声認識に関するものであるが、ソースドメインデータとターゲットドメインデータのラベルは、「平静」「怒り」において共通しているものの、例えばソースドメインデータの「悲しみ」と「驚き」のラベルはターゲットドメインには存在しない。また、ソースドメインデータの「喜び」は、ターゲットドメインには一応存在するものの、ターゲットドメインには稀にしか含まれないため、ターゲットドメインデータ(訓練データ)は用意されていない。このような状況において、従来の転移学習ベースのドメイン適応を利用すると、ドメイン適応後のモデルでは、ソースドメインデータしか用意されていない「悲しみ」「驚き」「喜び」のデータの認識精度が劣化するという課題があり、本発明はこのような課題の解決手段を提供する。
【0045】
すなわち、前述した通り、例えば敵対的学習により特徴量抽出器110及びドメイン弁別器140を互いに敵対するように訓練することで、学習済みの特徴量抽出器210は、ドメインを弁別できる情報をなるべく含まない特徴量を出力するように訓練されたものとなる。これにより、特徴量空間において、ソースドメインデータとターゲットドメインデータとの共通部分(積集合部分)が融合される。このため、学習フェーズにおいてターゲットドメインデータに例えば「喜び」のデータが含まれていなくても、推論フェーズではこの「喜び」のデータを、学習済みのソースドメイン認識器220により精度良く認識することが可能である。また、一方で、前述したとおり、本発明では、ソースドメイン認識器220とターゲットドメイン認識器230という、ソースドメインとターゲットドメインのラベルの推定についてそれぞれ異なる認識器を備えることで、マルチタスク学習モデルを実現し、ソースドメインとターゲットドメインにおける精度を両立させている。つまり、ソースドメインにおける認識精度が劣化しない。このため、ターゲットドメインには存在せず、ソースドメインのみに存在する「悲しみ」や「驚き」といったデータも、学習済みのソースドメイン認識器220により精度良く認識することが可能となる。当然、ターゲットドメインのみに存在する「激怒」「いらだち」「嫌悪」「疑問」といったデータは、学習済みのターゲットドメイン認識器230により精度良く認識することが可能である。
【0046】
図5は、例えば図1に示した例のようにターゲットドメインの訓練データにラベル無しのものが含まれている場合に、これを訓練データとして利用するための実施形態を示している。なお、ここでは、ターゲットドメインの訓練データにラベル無しのデータが含まれている場合を例に挙げて説明するが、ソースドメインの訓練データにラベル無しのデータが含まれている場合にも同様の処理を行うことができる。
【0047】
本実施形態では、図2に示した学習プロセスに加えて、ターゲットドメインのラベル無しデータも活用するために半教師あり学習を用いる。半教師あり学習としては、NST(Noisy Student Training)や、Self-training with noisy studentと呼ばれる手法を用いることができる。ここでは、NSTの学習プロセスを例に挙げて説明する。
【0048】
図5に示されるように、まず、ラベル有りデータ101(訓練データ)のみを用いてモデルを学習させる。この学習プロセスは、図2に示したものである。このようにして得られた学習済みモデルを、第0世代の教師モデル100aとする(初期化)。
【0049】
次に、ここで得られた第0世代の教師モデル100aを用いて、ラベル無しデータ102に対して推論を行い、推定ラベルを出力する。ここで出力した推定ラベルの信頼度が高い場合には、それを擬似ラベル103aとして、ラベル無しデータ102に付与する。なお、推定ラベルの擬似ラベル103aとするかどうかの信頼度の閾値は適宜調整することができる。これにより、擬似ラベルが付与されたラベル無しデータ102a(第0世代)が得られる。
【0050】
次に、ラベル有りデータ101に、ラベル無しデータ102のうち、擬似ラベル103aが付与されたラベル無しデータ102aを、追加する。ここで擬似ラベル103aを正解ラベルとみなす。
【0051】
このようにして得られたデータ(ラベル又は擬似ラベルが付与されたデータ)を用いて、第1世代の生徒モデル100bを学習させる。この際に、データ拡張により訓練データの数を増やす。データ拡張手法としては公知のものを適宜採用することができる。
【0052】
次に、第1世代の生徒モデル100bを新たな教師モデル(第1世代の教師モデル)として用いて、ラベル無しデータ102に対して推論を行い、推定ラベルを出力する。ここで出力した推定ラベルの信頼度が高い場合には、それを新たな擬似ラベル103bとして、ラベル無しデータ102に付与する。これにより、擬似ラベルが付与されたラベル無しデータ102b(第1世代)が得られる。
【0053】
ここまでに説明した工程を複数世代に亘って繰り返し行うことで訓練データの量を徐々に増やすことができる。つまり、初期化時の教師モデル100aを第0世代と呼び、それを元に擬似ラベル付与とモデル学習を繰り返すことに世代が1つ増えるものとする。世代を経るにつれ、擬似ラベルを付与するデータの基準(例えばスコアの信頼度の閾値、あるいはスコアの信頼度でソートして規定数のデータのみを採用するなど)を緩めていくことで、生徒モデルの訓練データの量を徐々に増やしていることが可能である。また、訓練セットとは別に準備したバリデーションセットを用いて、最適な世代、および各損失の重みなどのパラメータを最適化することとしてもよい。このようにして、ターゲットドメイン(またはソースドメイン)にラベル無しの訓練データが含まれる場合でも、これを利用してモデルの訓練を行うことができる。
【0054】
また、半教師あり学習によるモデルの訓練過程において、敵対的ドメイン弁別タスクの重みを訓練の経過とともに変化させることも可能である。敵対的ドメイン弁別タスクの重みを調節するには、全体の損失におけるドメイン弁別器の損失に対する重みづけ係数を変更してもよいし、勾配反転層が誤差を伝播させる際に乗じる係数を変更してもよい。例えば、勾配反転層の係数を変更させる場合であって、半教師あり学習の手法としてNST(Noisy Student Training)を採用した場合について述べる。一例として、敵対的ドメイン弁別タスクの重みづけ係数を、+1の時にドメイン弁別器と勾配反転層を備えて、0の時に勾配反転層を備えているがドメイン弁別器を備えておらず、-1の時にドメイン弁別器を備えているが勾配反転層は備えていないモデルが対応するように定義する。NSTの各世代において、敵対的ドメイン弁別タスクの重みづけ係数を-1から+1まで徐々に変化させることが可能である。すなわち、訓練過程の序盤においては、特徴量抽出器が出力する特徴量にソースドメインとターゲットドメインを弁別するための情報が含まれてよい。したがって、訓練過程の序盤においては、ソースドメインのターゲットドメイン識別タスクはより簡単になり、ラベルなしデータに付与される擬似ラベルがより正確になることが期待される。訓練過程の中盤から終盤においては、特徴量抽出器が出力する特徴量にソースドメインとターゲットドメインを弁別するために有効な情報が含まれないようにモデルを学習させる。したがって、ソースドメインとターゲットドメインの識別タスクは難しくなっていくが、特徴量空間においてソースドメインとターゲットドメインが融合されていく。すなわち、最終的には敵対的ドメイン適応を用いてモデルを学習させることになる。このように、敵対的ドメイン弁別タスクの重みを訓練の経過とともに変化させることにより、モデルが学習すべきタスクの難易度を徐々に上げていくような訓練の戦略を採用することも可能である。
【0055】
本実施形態では、図2に示した特徴量抽出器110、ソースドメイン認識器120、ターゲットドメイン認識器130、及びドメイン弁別器140から構成されるモデルに対して、ラベル有りの訓練データとラベル無しの訓練データデータの両方を用いて、半教師あり学習による訓練を行う。これにより、互いにタスク(ラベル構成)の異なるソースドメインとターゲットドメインを、ラベル無しデータをも含めて、モデル訓練に利用することを可能としている。
【0056】
なお、半教師あり学習において、特徴量抽出器110、ソースドメイン認識器120、ターゲットドメイン認識器130、及びドメイン弁別器140に与える各損失に対する重みパラメータは、世代ごとに異なっていてもよい。世代が若い時点においてはターゲットドメインの訓練データが少ないため、ターゲットドメインのラベル無しデータ対して正しい擬似ラベルを推定することは難しい。そこで、例えば、最初は擬似ラベルを付与する基準を厳しくしておき(信頼できる少数の擬似ラベルのみ採用する)、世代を経るにつれ、徐々に基準を緩和して訓練データ数を増やしていくことが好ましい。また、ソースドメインのラベル無しデータも利用する場合には、ソースドメインとターゲットドメインで擬似ラベルを付与する基準は同一でなくてもよい。ソースドメインにおいては、ラベル有りデータが最初から大量にあることが想定されるため、例えば第1世代においてすべてのデータに擬似ラベルを付与しても構わない。
【0057】
なお、NSTの初期化ステップで得られる第0世代の教師モデル100aは、ラベル有りデータのみを用いて訓練されたモデル、すなわち教師あり学習により訓練されたモデルに他ならない。第0世代が最もよいバリデーションセットに対して最も高い精度を達成した場合には、教師あり学習モデルが選ばれることになる。このように、本実施形態は、半教師あり学習の代わりに教師あり学習を用いた場合を内包している。
【0058】
図9は、コンピュータ300のハードウェア構成例を示すブロック図である。コンピュータ300は、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)などのプロセッサ310と、メインメモリ320と、ストレージ330と、入出力用のインターフェース340を備える。前述した学習装置100及び推論装置200は、いずれもこのような構成のコンピュータ300に実装することができる。
【0059】
具体的には、学習装置100及び/又は推論装置200用のプログラムが、ストレージ330に記憶されている。プロセッサ310は、各プログラムをストレージ330から読み出してメインメモリ320に展開し、当該プログラムに従った処理を実行する。また、プロセッサ310は、各プログラムに従って、前述した各プロセスの実行に必要となる記憶領域をメインメモリ320に確保する。プロセッサ310への情報入力とプロセッサ310からの情報出力はインターフェース340を介して行われる。例えば、コンピュータ300には、インターフェース340を介して入力デバイスが接続されていてもよいし、このインターフェース340を介して表示デバイスや通信デバイスが接続されていてもよい。
【0060】
前述した学習装置100(図2参照)がこのコンピュータ300に実装される場合、特徴量抽出器110、ソースドメイン認識器120、ターゲットドメイン認識器130、ドメイン弁別器140、ソースドメインラベル比較部150、ターゲットドメインラベル比較部160、及びドメイン比較部170の動作を実行するためのプログラムが、ストレージ330に記憶されている。また、訓練データ101とそれに対応する正解ラベル151,161や正解ドメイン171もストレージ330に記憶されている。プロセッサ310は、プログラムをストレージ330から読み出してメインメモリ320に展開し、このストレージ330に記憶されているデータを読み込みながら、当該プログラムに従った処理を実行する。また、プロセッサ310は、処理途中で発生する各推定ラベル121,131や推定ドメイン141をメインメモリ320に一時的に記憶したり、あるいはストレージ330に書き出したりしながら、プログラムに従った処理を実行する。
【0061】
また、同様に、前述した推論装置200(図3参照)がこのコンピュータ300に実装される場合、学習済みの特徴量抽出器210、学習済みのソースドメイン認識器220、学習済みのターゲットドメイン認識器230、学習済みのドメイン弁別器240、及び選択部250の動作を実行するためのプログラムが、ストレージ330に記憶されている。また、対象データ201もストレージ330に記憶されている。プロセッサ310は、プログラムをストレージ330から読み出してメインメモリ320に展開し、このストレージ330に記憶されているデータを読み込みながら、当該プログラムに従った処理を実行する。また、プロセッサ310は、処理途中で発生する各推定ラベル221,231や推定ドメイン241をメインメモリ320に一時的に記憶したり、あるいはストレージ330に書き出したりしながら、プログラムに従った処理を実行する。
【0062】
以上、本願明細書では、本発明の内容を表現するために、図面を参照しながら本発明の実施形態の説明を行った。ただし、本発明は、上記実施形態に限定されるものではなく、本願明細書に記載された事項に基づいて当業者が自明な変更形態や改良形態を包含するものである。
【符号の説明】
【0063】
100…学習装置
101…訓練データ
110…特徴量抽出器
120…ソースドメイン認識器
121…ソースドメイン推定ラベル
130…ターゲットドメイン認識器
131…ターゲットドメイン推定ラベル
140…ドメイン弁別器
141…推定ドメイン
150…ソースドメインラベル比較部
151…ソースドメイン正解ラベル
160…ターゲットドメインラベル比較部
161…ターゲットドメイン正解ラベル
170…ドメイン比較部
171…正解ドメイン
200…推論装置
210…学習済みの特徴量抽出器
220…学習済みのソースドメイン認識器
221…ソースドメイン推定ラベル
230…学習済みのターゲットドメイン認識器
231…ターゲットドメイン推定ラベル
240…学習済みのドメイン弁別器
241…推定ドメイン
250…選択部
300…コンピュータ
310…プロセッサ
320…メインメモリ
330…ストレージ
340…インターフェース
図1
図2
図3
図4
図5
図6