特開2019-207491(P2019-207491A)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧
特開2019-207491モデル学習装置、モデル学習方法、及びプログラム
<>
  • 特開2019207491-モデル学習装置、モデル学習方法、及びプログラム 図000146
  • 特開2019207491-モデル学習装置、モデル学習方法、及びプログラム 図000147
  • 特開2019207491-モデル学習装置、モデル学習方法、及びプログラム 図000148
  • 特開2019207491-モデル学習装置、モデル学習方法、及びプログラム 図000149
  • 特開2019207491-モデル学習装置、モデル学習方法、及びプログラム 図000150
  • 特開2019207491-モデル学習装置、モデル学習方法、及びプログラム 図000151
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2019-207491(P2019-207491A)
(43)【公開日】2019年12月5日
(54)【発明の名称】モデル学習装置、モデル学習方法、及びプログラム
(51)【国際特許分類】
   G06N 20/00 20190101AFI20191108BHJP
   G06T 7/00 20170101ALI20191108BHJP
【FI】
   G06N99/00 153
   G06T7/00 350C
【審査請求】未請求
【請求項の数】7
【出願形態】OL
【全頁数】30
(21)【出願番号】特願2018-101735(P2018-101735)
(22)【出願日】2018年5月28日
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】特許業務法人太陽国際特許事務所
(72)【発明者】
【氏名】梅田 崇之
(72)【発明者】
【氏名】村崎 和彦
(72)【発明者】
【氏名】安藤 慎吾
(72)【発明者】
【氏名】杵渕 哲也
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096CA01
5L096GA30
5L096HA11
5L096JA11
5L096KA04
(57)【要約】
【課題】低コストかつ高精度に異なる複数のタスク・ドメインを同時に学習することができるようにする。
【解決手段】学習部160が、学習データに基づいて、ターゲットドメインのデータを入力としてターゲット特徴表現を出力するターゲットエンコーダ、ソースドメインのデータを入力としてソース特徴表現を出力するソースエンコーダ、ターゲットドメイン又はソースドメインのデータを入力として共通特徴表現を出力するコモンエンコーダ、ターゲットエンコーダ及びコモンエンコーダの出力を入力として、ターゲットドメインのデータに対するタスクの実行結果を出力するターゲットデコーダ、及びソースエンコーダ及びコモンエンコーダの出力を入力として、ソースドメインのデータに対するタスクの実行結果を出力するソースデコーダを用いて、ターゲットデコーダの出力が教師データと一致し、かつ、ソースデコーダの出力が教師データと一致するように学習する。
【選択図】図1
【特許請求の範囲】
【請求項1】
ターゲットドメインのデータに対するタスク、及びソースドメインのデータに対するタスクが異なるか、または前記ターゲットドメイン及び前記ソースドメインが異なる、前記ターゲットドメインのデータに対するタスクの実行結果を出力するためのモデル、及び前記ソースドメインのデータに対するタスクの実行結果を出力するためのモデルを学習するモデル学習装置であって、
前記ターゲットドメインのデータと前記ターゲットドメインのデータに対するタスクの実行結果である教師データとの組、及び前記ソースドメインのデータと前記ソースドメインのデータに対するタスクの実行結果である教師データの組である学習データの入力を受け付ける入力部と、
前記学習データに基づいて、
前記ターゲットドメインのデータを入力としてターゲット特徴表現を出力するターゲットエンコーダ、
前記ソースドメインのデータを入力としてソース特徴表現を出力するソースエンコーダ、
前記ターゲットドメインのデータ又は前記ソースドメインのデータを入力として共通特徴表現を出力するコモンエンコーダ、
前記ターゲットエンコーダの出力及び前記コモンエンコーダの出力を入力として、前記ターゲットドメインのデータに対するタスクの実行結果を出力するターゲットデコーダ、及び
前記ソースエンコーダの出力及び前記コモンエンコーダの出力を入力として、前記ソースドメインのデータに対するタスクの実行結果を出力するソースデコーダを用いて、
前記ターゲットデコーダの出力が、前記教師データと一致し、かつ、前記ソースデコーダの出力が、前記教師データと一致するように、前記ターゲットエンコーダ、前記ソースエンコーダ、前記コモンエンコーダ、前記ターゲットデコーダ、及び前記ソースデコーダを学習する学習部と、
を含むモデル学習装置。
【請求項2】
前記学習部は、
前記ターゲットデコーダの出力と、前記教師データとが一致することを表す損失関数、
前記ソースデコーダの出力と、前記教師データとが一致することを表す損失関数、
前記ターゲットドメインのデータを入力としたときの前記コモンエンコーダの出力と、前記ソースドメインのデータを入力としたときの前記コモンエンコーダの出力とが同一の表現となることを表す損失関数、
前記ターゲットデコーダの出力と、前記ターゲットドメインのデータを入力としたときの前記コモンエンコーダの出力とが異なる表現となることを表す損失関数、及び
前記ソースデコーダの出力と、前記ソースドメインのデータを入力としたときの前記コモンエンコーダの出力とが異なる表現となることを表す損失関数を用いて、
前記ターゲットエンコーダ、前記ソースエンコーダ、前記コモンエンコーダ、前記ターゲットデコーダ、及び前記ソースデコーダを学習する請求項1記載のモデル学習装置。
【請求項3】
前記ターゲットデコーダは、
前記ターゲットエンコーダの出力及び前記コモンエンコーダの出力を足し合わせたもの、または、前記ターゲットエンコーダの出力及び前記コモンエンコーダの出力を結合したものを入力とし、
前記ソースデコーダは、
前記ソースエンコーダの出力及び前記コモンエンコーダの出力を足し合わせたもの、または、前記ソースエンコーダの出力及び前記コモンエンコーダの出力を結合したものを入力とする
請求項1又は2記載のモデル学習装置。
【請求項4】
前記ターゲットエンコーダ、前記ソースエンコーダ、前記コモンエンコーダ、前記ターゲットデコーダ、及び前記ソースデコーダの各々は、多層構造ニューラルネットワークである請求項1乃至3の何れか1項記載のモデル学習装置。
【請求項5】
前記ターゲットデコーダは、
前記ターゲットエンコーダの出力及び前記コモンエンコーダの出力を入力とし、
更に、前記ターゲットエンコーダの中間層で得られる中間表現及び前記コモンエンコーダの中間層で得られる中間表現を用いて、前記ターゲットドメインのデータに対するタスクの実行結果を出力し、
前記ソースデコーダは、
前記ソースエンコーダの出力及び前記コモンエンコーダの出力を入力とし、
更に、前記ソースエンコーダの中間層で得られる中間表現及び前記コモンエンコーダの中間層で得られる中間表現を用いて、前記ソースドメインのデータに対するタスクの実行結果を出力する
請求項4記載のモデル学習装置。
【請求項6】
ターゲットドメインのデータに対するタスク、及びソースドメインのデータに対するタスクが異なるか、または前記ターゲットドメイン及び前記ソースドメインが異なる、前記ターゲットドメインのデータに対するタスクの実行結果を出力するためのモデル、及び前記ソースドメインのデータに対するタスクの実行結果を出力するためのモデルを学習するモデル学習方法であって、
入力部が、前記ターゲットドメインのデータと前記ターゲットドメインのデータに対するタスクの実行結果である教師データとの組、及び前記ソースドメインのデータと前記ソースドメインのデータに対するタスクの実行結果である教師データの組である学習データの入力を受け付け、
学習部が、前記学習データに基づいて、
前記ターゲットドメインのデータを入力としてターゲット特徴表現を出力するターゲットエンコーダ、
前記ソースドメインのデータを入力としてソース特徴表現を出力するソースエンコーダ、
前記ターゲットドメインのデータ又は前記ソースドメインのデータを入力として共通特徴表現を出力するコモンエンコーダ、
前記ターゲットエンコーダの出力及び前記コモンエンコーダの出力を入力として、前記ターゲットドメインのデータに対するタスクの実行結果を出力するターゲットデコーダ、及び
前記ソースエンコーダの出力及び前記コモンエンコーダの出力を入力として、前記ソースドメインのデータに対するタスクの実行結果を出力するソースデコーダを用いて、
前記ターゲットデコーダの出力が、前記教師データと一致し、かつ、前記ソースデコーダの出力が、前記教師データと一致するように、前記ターゲットエンコーダ、前記ソースエンコーダ、前記コモンエンコーダ、前記ターゲットデコーダ、及び前記ソースデコーダを学習する
を含むモデル学習方法。
【請求項7】
コンピュータを、請求項1乃至5の何れか1項記載のモデル学習装置の各部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明はモデル学習装置、モデル学習方法、及びプログラムに係り、特に複数のドメインやタスクを同時に学習するためのモデル学習装置、モデル学習方法、及びプログラムに関する。
【背景技術】
【0002】
機械学習技術の高度化により、従来人間が行っていた社会の様々な行動を機械に代替させることで効率化されつつある。
【0003】
例えば、車の自動運転においては機械学習に基づく画像認識が重要な役割を果たしている。画像に写る標識の位置の認識(Detection)、標識中の文字認識(Classification)、走行ラインを決定するために白線、車や人など周辺物体のピクセルレベルでの認識(Segmentation)など、画像認識一つとっても必要とされる出力はさまざまである。このような要求を満たすために、従来からタスクごとに適した機械学習手法が発明されている。
【0004】
通常機械学習においてはタスクごとに膨大な学習データが必要であるため、学習データの作成、学習時間、学習結果の検証に非常に計算コスト及び人的コストを要する。すなわち上記のように多数のタスクの複合によって実現されるプロダクトにおいて、各タスクを個別に学習する場合には、これらコストはタスク数によって大きく増える。
【0005】
このような問題を解決するために、例えば非特許文献1に開示されている技術では、DetectionとSegmentationとの両タスクに共通して重要な要素であるマルチスケールを組み込んだ特徴表現によって、同一のモデルによる異なるタスクの学習を実現している。
【0006】
また、学習データの作成コストが大きい理由の一つがドメインによる違いである。上記自動運転を例にとれば車を認識する際に、車載カメラ(ドメイン)からの車の「見え」とカタログなどの記載画像(ドメイン)の車の「見え」は大きく異なるため、カタログで学習した車認識器を車載カメラに適用すると精度が落ちる。
【0007】
そのため、あるドメインで使用するモデルは、同じドメインのデータで学習する必要がある。しかしながら、先の例において、後者の画像は比較的入手が容易であるが、前者の画像は入手も困難であり車種や車の位置などのアノテーションコストが大きい。
【0008】
このような問題を解決するために、例えば非特許文献2に開示されている技術では、2つのドメインに共通する特徴表現および各ドメインに固有な特徴表現を学習し、共通する特徴表現のみを使うことで、異なる2つのドメインに共通して使用可能な識別器の学習を実現している。
【先行技術文献】
【非特許文献】
【0009】
【非特許文献1】Hariharan, B., Arbelaez, P., Girshick, R., & Malik, J. "Hypercolumns for object segmentation and fine-grained localization", In Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 447-456.
【非特許文献2】Bousmalis, K., Trigeorgis, G., Silberman, N., Krishnan, D., & Erhan, D., "Domain separation networks", In Advances in Neural Information Processing Systems, 2016, pp. 343-351.
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかし、非特許文献1、2に開示されている技術では、異なるタスクやドメインに共通する特徴表現を用いることで、タスクやドメインに依存しないモデルの学習を可能にしていた。しかしながら、いずれの技術も各タスクや各ドメイン固有の特徴表現を考慮していないため、各タスクに特化したモデルに比べると十分な精度を得られないという問題があった。
【0011】
非特許文献1に開示されている技術では、Detection、Segmentation双方に共通して有効なスケール情報のみを抽出して特徴表現を定義しており、Detectionのみに有効なスケール情報、Segmentationのみに有効なスケール情報といった、個々のタスクに有効な情報を用いていない。
【0012】
また、非特許文献2に開示されている技術では、ドメイン共通な特徴表現を得る際に、一種の制約としてドメイン固有の特徴表現を用いているが、モデルを学習する際の入力にはドメイン固有の特徴表現を用いていない。また、スケール情報を固定しているため、多様なスケール情報が有効なDetectionやSegmentationに適用すると十分な精度が得られず、有効なタスクが限定される。
【0013】
したがって、異なるタスクや異なるドメインを同時に学習する汎用的な学習方法は確立されていなかった。
【0014】
本発明は上記の点に鑑みてなされたものであり、低コストかつ高精度に異なる複数のタスク・ドメインを同時に学習することができるモデル学習装置、モデル学習方法、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0015】
本発明に係るモデル学習装置は、ターゲットドメインのデータに対するタスク、及びソースドメインのデータに対するタスクが異なるか、または前記ターゲットドメイン及び前記ソースドメインが異なる、前記ターゲットドメインのデータに対するタスクの実行結果を出力するためのモデル、及び前記ソースドメインのデータに対するタスクの実行結果を出力するためのモデルを学習するモデル学習装置であって、前記ターゲットドメインのデータと前記ターゲットドメインのデータに対するタスクの実行結果である教師データとの組、及び前記ソースドメインのデータと前記ソースドメインのデータに対するタスクの実行結果である教師データの組である学習データの入力を受け付ける入力部と、前記学習データに基づいて、前記ターゲットドメインのデータを入力としてターゲット特徴表現を出力するターゲットエンコーダ、前記ソースドメインのデータを入力としてソース特徴表現を出力するソースエンコーダ、前記ターゲットドメインのデータ又は前記ソースドメインのデータを入力として共通特徴表現を出力するコモンエンコーダ、前記ターゲットエンコーダの出力及び前記コモンエンコーダの出力を入力として、前記ターゲットドメインのデータに対するタスクの実行結果を出力するターゲットデコーダ、及び前記ソースエンコーダの出力及び前記コモンエンコーダの出力を入力として、前記ソースドメインのデータに対するタスクの実行結果を出力するソースデコーダを用いて、前記ターゲットデコーダの出力が、前記教師データと一致し、かつ、前記ソースデコーダの出力が、前記教師データと一致するように、前記ターゲットエンコーダ、前記ソースエンコーダ、前記コモンエンコーダ、前記ターゲットデコーダ、及び前記ソースデコーダを学習する学習部と、を備えて構成される。
【0016】
また、本発明に係るモデル学習方法は、ターゲットドメインのデータに対するタスク、及びソースドメインのデータに対するタスクが異なるか、または前記ターゲットドメイン及び前記ソースドメインが異なる、前記ターゲットドメインのデータに対するタスクの実行結果を出力するためのモデル、及び前記ソースドメインのデータに対するタスクの実行結果を出力するためのモデルを学習するモデル学習方法であって、入力部が、前記ターゲットドメインのデータと前記ターゲットドメインのデータに対するタスクの実行結果である教師データとの組、及び前記ソースドメインのデータと前記ソースドメインのデータに対するタスクの実行結果である教師データの組である学習データの入力を受け付け、学習部が、前記学習データに基づいて、前記ターゲットドメインのデータを入力としてターゲット特徴表現を出力するターゲットエンコーダ、前記ソースドメインのデータを入力としてソース特徴表現を出力するソースエンコーダ、前記ターゲットドメインのデータ又は前記ソースドメインのデータを入力として共通特徴表現を出力するコモンエンコーダ、前記ターゲットエンコーダの出力及び前記コモンエンコーダの出力を入力として、前記ターゲットドメインのデータに対するタスクの実行結果を出力するターゲットデコーダ、及び前記ソースエンコーダの出力及び前記コモンエンコーダの出力を入力として、前記ソースドメインのデータに対するタスクの実行結果を出力するソースデコーダを用いて、前記ターゲットデコーダの出力が、前記教師データと一致し、かつ、前記ソースデコーダの出力が、前記教師データと一致するように、前記ターゲットエンコーダ、前記ソースエンコーダ、前記コモンエンコーダ、前記ターゲットデコーダ、及び前記ソースデコーダを学習する。
【0017】
本発明に係るモデル学習装置及びモデル学習方法によれば、入力部が、ターゲットドメインのデータと当該ターゲットドメインのデータに対するタスクの実行結果である教師データとの組、及びソースドメインのデータと当該ソースドメインのデータに対するタスクの実行結果である教師データの組である学習データの入力を受け付ける。
【0018】
そして、学習部が、学習データに基づいて、ターゲットドメインのデータを入力としてターゲット特徴表現を出力するターゲットエンコーダ、ソースドメインのデータを入力としてソース特徴表現を出力するソースエンコーダ、ターゲットドメインのデータ又はソースドメインのデータを入力として共通特徴表現を出力するコモンエンコーダ、ターゲットエンコーダの出力及びコモンエンコーダの出力を入力として、ターゲットドメインのデータに対するタスクの実行結果を出力するターゲットデコーダ、及びソースエンコーダの出力及びコモンエンコーダの出力を入力として、ソースドメインのデータに対するタスクの実行結果を出力するソースデコーダを用いて、ターゲットデコーダの出力が、教師データと一致し、かつ、ソースデコーダの出力が、教師データと一致するように、ターゲットエンコーダ、ソースエンコーダ、コモンエンコーダ、ターゲットデコーダ、及びソースデコーダを学習する。
【0019】
このように、学習データに基づいて、ターゲットドメインのデータを入力としてターゲット特徴表現を出力するターゲットエンコーダ、ソースドメインのデータを入力としてソース特徴表現を出力するソースエンコーダ、ターゲットドメインのデータ又はソースドメインのデータを入力として共通特徴表現を出力するコモンエンコーダ、ターゲットエンコーダの出力及びコモンエンコーダの出力を入力として、ターゲットドメインのデータに対するタスクの実行結果を出力するターゲットデコーダ、及びソースエンコーダの出力及びコモンエンコーダの出力を入力として、ソースドメインのデータに対するタスクの実行結果を出力するソースデコーダを用いて、ターゲットデコーダの出力が、教師データと一致し、かつ、ソースデコーダの出力が、教師データと一致するように学習することにより、低コストかつ高精度に異なる複数のタスク・ドメインを同時に学習することができる。
【0020】
また、本発明に係るモデル学習装置の前記学習部は、前記ターゲットデコーダの出力と、前記教師データとが一致することを表す損失関数、前記ソースデコーダの出力と、前記教師データとが一致することを表す損失関数、前記ターゲットドメインのデータを入力としたときの前記コモンエンコーダの出力と、前記ソースドメインのデータを入力としたときの前記コモンエンコーダの出力とが同一の表現となることを表す損失関数、前記ターゲットデコーダの出力と、前記ターゲットドメインのデータを入力としたときの前記コモンエンコーダの出力とが異なる表現となることを表す損失関数、及び前記ソースデコーダの出力と、前記ソースドメインのデータを入力としたときの前記コモンエンコーダの出力とが異なる表現となることを表す損失関数を用いて、前記ターゲットエンコーダ、前記ソースエンコーダ、前記コモンエンコーダ、前記ターゲットデコーダ、及び前記ソースデコーダを学習することができる。
【0021】
また、本発明に係るモデル学習装置の前記ターゲットデコーダは、前記ターゲットエンコーダの出力及び前記コモンエンコーダの出力を足し合わせたもの、または、前記ターゲットエンコーダの出力及び前記コモンエンコーダの出力を結合したものを入力とし、前記ソースデコーダは、前記ソースエンコーダの出力及び前記コモンエンコーダの出力を足し合わせたもの、または、前記ソースエンコーダの出力及び前記コモンエンコーダの出力を結合したものを入力とすることができる。
【0022】
また、本発明に係るモデル学習装置の前記ターゲットエンコーダ、前記ソースエンコーダ、前記コモンエンコーダ、前記ターゲットデコーダ、及び前記ソースデコーダの各々は、多層構造ニューラルネットワークである構成とすることができる。
【0023】
また、本発明に係るモデル学習装置の前記ターゲットデコーダは、前記ターゲットエンコーダの出力及び前記コモンエンコーダの出力を入力とし、更に、前記ターゲットエンコーダの中間層で得られる中間表現及び前記コモンエンコーダの中間層で得られる中間表現を用いて、前記ターゲットドメインのデータに対するタスクの実行結果を出力し、前記ソースデコーダは、前記ソースエンコーダの出力及び前記コモンエンコーダの出力を入力とし、更に、前記ソースエンコーダの中間層で得られる中間表現及び前記コモンエンコーダの中間層で得られる中間表現を用いて、前記ソースドメインのデータに対するタスクの実行結果を出力することができる。
【0024】
本発明に係るプログラムは、上記のモデル学習装置の各部として機能させるためのプログラムである。
【発明の効果】
【0025】
本発明のモデル学習装置、モデル学習方法、およびプログラムによれば、低コストかつ高精度に異なる複数のタスク・ドメインを同時に学習することができる。
【図面の簡単な説明】
【0026】
図1】本発明の実施の形態に係るモデル学習装置の構成を示すブロック図である。
図2】本発明の実施の形態に係るモデル学習装置に係るモデルの一例を示す図である。
図3】本発明の実施の形態に係るモデル学習装置のモデル学習処理ルーチンを示すフローチャートである。
図4】本発明の実施の形態に係るモデル学習装置の計算処理ルーチンを示すフローチャートである。
図5】本発明の実施の形態に係るタスク処理装置の構成を示すブロック図である。
図6】本発明の実施の形態に係るタスク処理装置のタスク処理ルーチンを示すフローチャートである。
【発明を実施するための形態】
【0027】
以下、本発明の実施の形態について図面を用いて説明する。
【0028】
<本発明の実施の形態に係るモデル学習装置の構成>
図1を参照して、本発明の実施の形態に係るモデル学習装置10の構成について説明する。図1は、本発明の実施の形態に係るモデル学習装置10の構成を示すブロック図である。
【0029】
モデル学習装置10は、ターゲットドメインのデータに対するタスク、及びソースドメインのデータに対するタスクが異なるか、またはターゲットドメイン及びソースドメインが異なる、ターゲットドメインのデータに対するタスクの実行結果を出力するためのモデル、及びソースドメインのデータに対するタスクの実行結果を出力するためのモデルを学習する。
【0030】
なお、本実施形態では、データの種類が画像データ

である場合を例に説明する。
【0031】
図2は、当該モデルの例を示すイメージ図である。図2に示すように、ターゲットドメインのデータに対するタスクの実行結果を出力するためのモデルは、コモンエンコーダ(Common Encoder)、及びターゲットエンコーダ(Target Encoder)の2つのエンコーダと、ターゲットデコーダ(Target Decoder)の1つのデコーダとで表され、ソースドメインのデータに対するタスクの実行結果を出力するためのモデルは、コモンエンコーダ、及びソースエンコーダ(Source Encoder)の2つのエンコーダと、ソースデコーダ(Source Decoder)の1つのデコーダとで表される。各エンコーダ及び各デコーダは、多層構造のニューラルネットワークを用いて構成されている。
【0032】
各エンコーダ及び各デコーダは、同様のネットワーク構成を持つ。
【0033】
なお、各デコーダの最終層に関しては、タスクに応じてレイヤーを変更しても良い。例えば、ターゲットデコーダは識別問題を扱うためにクラス数分の確率値を出力するレイヤーを設定し、ソースデコーダはセグメンテーション問題を扱うために、縦軸の座標×横軸の座標×クラス数のピクセル毎に各クラスの確率値を示すテンソルを出力するレイヤーを設定することができる。
【0034】
モデル学習装置10は、各エンコーダ及び各デコーダのパラメータを学習する。
【0035】
モデル学習装置10は、CPUと、RAMと、後述するモデル学習処理ルーチン及び計算処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
【0036】
図1に示すように、本実施形態に係るモデル学習装置10は、入力部100と、共通符号化部110と、ターゲット符号化部120と、ターゲット復号部130と、ソース符号化部140と、ソース復号部150と、学習部160とを備えて構成される。
【0037】
入力部100は、ターゲットドメインのデータとターゲットドメインのデータに対するタスクの実行結果である教師データとの組、及びソースドメインのデータとソースドメインのデータに対するタスクの実行結果である教師データの組である学習データの入力を受け付ける。
【0038】
具体的には、入力部100は、ターゲットドメインの画像データ

と、画像データ

に対するタスクの実行結果である教師データ

との組、及びソースドメインの画像データ

と、画像データ

に対するタスクの実行結果である教師データ

の組である学習データの入力を受け付ける。
【0039】
そして、入力部100は、受け付けた学習データに含まれる画像データ

と、画像データ

とを、共通符号化部110に、画像データ

をターゲット符号化部120に、画像データ

をソース符号化部140に、教師データ

と、教師データ

とを、学習部160にそれぞれ渡す。
【0040】
共通符号化部110は、ターゲットドメインのデータ又はソースドメインのデータを入力として共通特徴表現を出力するコモンエンコーダを用いて、符号化処理を実行する。
【0041】
具体的には、コモンエンコーダは、画像データ

を入力とし、入力された画像データ

に対し複数の層によって畳み込み(conv)及びプーリング(Pooling)を行い、圧縮された共通特徴表現

を出力する。
【0042】
また、コモンエンコーダの各中間層の出力を中間表現CE−n(nは1以上レイヤー数N以下の数)として表す。本実施形態では、図2のように中間層が2つあるので、各中間層の出力を、中間表現CE−1、CE−2と表す。
【0043】
コモンエンコーダは、入力データのドメインによらず同一のパラメータを持つネットワークを用いる。また、共通特徴表現

を得るためのネットワークは任意の構成を採用することができ、例えばVGG等を用いることができる。
【0044】
ここで、コモンエンコーダは、入力データのドメインによらず同一のパラメータを持つネットワークを用いるが、便宜上画像データ

が入力された時の出力を共通特徴表現

と、画像データ

が入力された時の出力を共通特徴表現

とする。
【0045】
そして、共通符号化部110は、コモンエンコーダを用いた符号化処理により得られた共通特徴表現

と中間表現CE−1及びCE−2とを、ターゲット復号部130に、共通特徴表現

と中間表現CE−1及びCE−2とを、ソース復号部150に、共通特徴表現



とを、学習部160にそれぞれ渡す。
【0046】
ターゲット符号化部120は、ターゲットドメインのデータを入力としてターゲット特徴表現を出力するターゲットエンコーダを用いて、符号化処理を実行する。
【0047】
具体的には、ターゲットエンコーダは、画像データ

を入力とし、入力された画像データ

に対し複数の層によって畳み込み及びプーリングを行い、圧縮されたターゲット特徴表現

を出力する。
【0048】
また、ターゲットエンコーダの各中間層の出力を中間表現TE−nとして表す。本実施形態では、図2のように中間層が2つあるので、各中間層の出力を、中間表現TE−1、TE−2と表す。
【0049】
そして、ターゲット符号化部120は、ターゲットエンコーダを用いた符号化処理により得られたターゲット特徴表現

と、TE−1及びTE−2とを、ターゲット復号部130に、ターゲット特徴表現

を学習部160にそれぞれ渡す。
【0050】
ターゲット復号部130は、ターゲットエンコーダの出力及びコモンエンコーダの出力を入力として、ターゲットドメインのデータに対するタスクの実行結果を出力するターゲットデコーダを用いて、復号処理を実行する。
【0051】
具体的には、まず、ターゲット復号部130は、ターゲットエンコーダの出力であるターゲット特徴表現

及びコモンエンコーダの出力である共通特徴表現

を足し合わせた

をターゲットデコーダの入力とする。なお、ターゲット特徴表現

及びコモンエンコーダの出力である共通特徴表現

を足し合わせる際に、両者に重み付けをしてもよく、また、足し合わせるのではなく両者を結合したものを

としてもよい。
【0052】
このように、ターゲット特徴表現

及びコモンエンコーダの出力である共通特徴表現

を同時にターゲットデコーダに入力することにより、非特許文献1及び2と異なり、ドメイン・タスク固有の表現及び共通の表現双方を考慮することで、各ドメイン・タスクに特化したモデルより学習に使える情報が増え、低コストで、精度の高いモデルの学習を実現することができる。
【0053】
次に、ターゲットデコーダは、入力された

に対して、逆畳み込み(deconvolution/upconvolution)を行う。逆畳み込みの出力データTD−4のサイズは、ターゲットデコーダの2つ目の中間層の出力である中間表現TE−2及びコモンエンコーダの2つ目の中間層の出力である中間表現CE−2と同じである。
【0054】
そして、ターゲットデコーダは、得られたTD−4に、中間表現TE−2及びCE−2を結合した特徴表現に対して、畳み込みを行い、TD−3を求める。
【0055】
次に、ターゲットデコーダは、得られたTD−3に対して更に逆畳み込みを行い、TD−2を求める。TD−2のサイズは、中間表現TE−1及びCE−1と同じである。
【0056】
そして、ターゲットデコーダは、得られたTD−2に中間表現TE−1及びCE−1を結合した特徴表現に対して、畳み込みを行い、TD−1を求める。このTD−1に対して畳み込みを行い、ターゲットデコーダの出力

とする。ここで、ターゲットデコーダの出力

は、教師データ

と同形式のデータであり、ターゲットドメインのデータに対するタスクの実行結果に関する当該モデルによる推定結果となる。
【0057】
そして、ターゲット復号部130は、ターゲットデコーダにより得られた

を、学習部160に渡す。
【0058】
ソース符号化部140は、ソースドメインのデータを入力としてソース特徴表現を出力するソースエンコーダを用いて、符号化処理を実行する。
【0059】
具体的には、ソースエンコーダは、画像データ

を入力とし、入力された画像データ

に対し複数の層によって畳み込み及びプーリングを行い、圧縮されたソース特徴表現

を出力する。
【0060】
また、ソースエンコーダの各中間層の出力を中間表現SE−nとして表す。本実施形態では、図2のように中間層が2つあるので、各中間層の出力を、中間表現SE−1、SE−2と表す。
【0061】
そして、ソース符号化部140は、ソースエンコーダの処理により得られたソース特徴表現

と、SE−1及びSE−2とを、ソース復号部150に、ソース特徴表現

を学習部160にそれぞれ渡す。
【0062】
ソース復号部150は、ソースエンコーダの出力及びコモンエンコーダの出力を入力として、ソースドメインのデータに対するタスクの実行結果を出力するソースデコーダを用いて、復号処理を実行する。
【0063】
具体的には、まず、ソース復号部150は、ターゲット復号部130と同様に、ソースエンコーダの出力であるソース特徴表現

及びコモンエンコーダの出力である共通特徴表現

を足し合わせた

をソースデコーダの入力とする。なお、ソース特徴表現

及びコモンエンコーダの出力である共通特徴表現

を足し合わせる際に、両者に重み付けをしてもよく、また、足し合わせるのではなく両者を結合したものを

としてもよい。
【0064】
次に、ソースデコーダは、入力された

に対して、逆畳み込みを行う。逆畳み込みの出力データSD−4のサイズは、ソースデコーダの2つ目の中間層の出力である中間表現SE−2及びコモンエンコーダの2つ目の中間層の出力である中間表現CE−2と同じである。
【0065】
そして、ソースデコーダは、得られたSD−4に、中間表現SE−2及びCE−2を結合した特徴表現に対して、畳み込みを行い、SD−3を求める。
【0066】
次に、ソースデコーダは、得られたSD−3に対して更に逆畳み込みを行い、SD−2を求める。SD−2のサイズは、中間表現SE−1及びCE−1と同じである。
【0067】
そして、ソースデコーダは、得られたSD−2に中間表現SE−1及びCE−1を結合した特徴表現に対して、畳み込みを行い、SD−1を求める。このSD−1に対して畳み込みを行い、ソースデコーダの出力

とする。ここで、ソースデコーダの出力

は、教師データ

と同形式のデータであり、ソースドメインのデータに対するタスクの実行結果に関する当該モデルによる推定結果となる。
【0068】
そして、ソース復号部150は、ソースデコーダにより得られた

を、学習部160に渡す。
【0069】
学習部160は、学習データに基づいて、ターゲットエンコーダの出力と、教師データとが一致することを表す損失関数、ソースデコーダの出力と、教師データとが一致することを表す損失関数、ターゲットドメインのデータを入力としたときのコモンエンコーダの出力と、ソースドメインのデータを入力としたときのコモンエンコーダの出力とが同一の表現となることを表す損失関数、ターゲットデコーダの出力と、ターゲットドメインのデータを入力としたときのコモンエンコーダの出力とが異なる表現となることを表す損失関数、及びソースデコーダの出力と、ソースドメインのデータを入力としたときのコモンエンコーダの出力とが異なる表現となることを表す損失関数を用いて、ターゲットエンコーダ、ソースエンコーダ、コモンエンコーダ、ターゲットデコーダ、及びソースデコーダを学習する。
【0070】
具体的には、学習部160は、得られたターゲット特徴表現

、ソース特徴表現

、共通特徴表現



、ターゲットデコーダの出力

、ソースデコーダの出力

、教師データ

及び

を用いて、下記式(1)のような損失関数を定義し、当該損失関数を最小化するような各エンコーダ及び各デコーダのパラメータを学習する。
【0071】
【数1】
【0072】
ここで、α、β、γ、及びδは、各項の影響度を調整するハイパーパラメータであり、例えば、α=β=γ=δ=0.25等とする。
【0073】
上記式(1)において、Ltarget及びLsouceは、タスクに応じた損失関数を用いる。
【0074】
例えば、ターゲットドメイン及びソースドメインのいずれもクラス識別問題をタスクとするのであれば、Ltarget及びLsouceを、交差エントロピーを用いて下記式(2)及び(3)のように設定する。
【0075】
【数2】
【0076】
ここで、Kはクラス数であり、

はターゲットドメインの画像データについてのi番目のクラスの確率値(推定結果)であり、

は、ターゲットドメインの画像データがi番目のクラスに含まれるか否かの2値(教師データ)である。同様に、

はソースドメインの画像データについてのi番目のクラスの確率値(推定結果)であり、

は、ソースドメインの画像データがi番目のクラスに含まれるか否かの2値(教師データ)である。
【0077】
また、

である。
【0078】
また、例えば、ターゲットドメイン及びソースドメインのいずれもクラス毎のセグメンテーションをタスクとするのであれば、Ltarget及びLsouceを、ピクセル毎に算出したラベルに対する交差エントロピーを用いて、下記式(4)及び(5)のように設定する。
【0079】
【数3】
【0080】
ここで、Kはクラス数であり、

は画像や教師データの位置を示すベクターであり、

はターゲットドメインの画像データの座標

におけるi番目のクラスの確率値(推定結果)であり、

は、ターゲットドメインの画像データの座標

がi番目のクラスに含まれるか否かの2値(教師データ)である。同様に、

はソースドメインの画像データの座標

におけるi番目のクラスの確率値(推定結果)であり、

は、ソースドメインの画像データの座標

がi番目のクラスに含まれるか否かの2値(教師データ)である。
【0081】
また、

である。
【0082】
また、例えば、参考文献1に示されるDiceスコアを損失関数Ltarget及びLsouceとして用いてもよい。
[参考文献1]Fidon, L., Li, W., Garcia-Peraza-Herrera, L. C., Ekanayake, J., Kitchen, N., Ourselin, S., & Vercauteren, T, Generalised wasserstein dice score for imbalanced multi-class segmentation using holistic convolutional networks. arXiv preprint arXiv:1707.00478, 2017.
【0083】
また、例えば、ターゲットドメイン及びソースドメインのタスクが異なる場合は、それぞれに応じた損失関数を設定する。例えば、ターゲットドメインのタスクがクラス毎のセグメンテーション、ソースドメインのタスクがクラス識別問題の場合、下記式(6)及び式(7)のように、損失関数Ltarget及びLsouceを設定する。
【0084】
【数4】
【0085】
また、上記式(1)において、Lsimは、共通特徴表現

及び

が、入力ドメインを問わずに同一の表現になるような制約を与える損失関数である。すなわち、損失関数Lsimは、異なるドメインデータを入力したときのコモンエンコーダの出力が同じような表現になるようにするためのものである。
【0086】
例えば、MSE(最小二乗誤差)を用いて、下記式(8)のように、損失関数Lsimを設定する。
【0087】
【数5】
【0088】
また、他の例として、参考文献2に示されるMMD損失や、参考文献3に示されるDANNロスを用いても良い。
【0089】
[参考文献2]Gretton, A., Borgwardt, K. M., Rasch, M. J., Scholkopf, B., & Smola, A, A kernel two-sample test. Journal of Machine Learning Research, 13(Mar) , 2012, 723-773.
【0090】
[参考文献3]Ajakan, H., Germain, P., Larochelle, H., Laviolette, F., & Marchand, M, Domain-adversarial neural networks. arXiv preprint arXiv:1412.4446, 2014.
【0091】
また、上記式(1)において、Ldiffは、ターゲット特徴表現

及び共通特徴表現

が異なる表現となり、ソース特徴表現

及び共通特徴表現

が異なる表現になるような制約を与える損失関数である。
【0092】
例えば、損失関数Ldiffを、MSEの逆数を用いて、下記式(9)のように設定する。
【0093】
【数6】
【0094】
また、他の例として、非特許文献2に示されるように直交条件を加えて、下記式(10)のように損失関数Ldiffを設定してもよい。
【0095】
【数7】
【0096】
ここで、式(10)において、||・||は、二乗フロベニウスノルムを示す。
【0097】
すなわち、学習部160がこのような損失関数(式(1))に基づいて学習を行うことで、ターゲットドメイン・タスク、ソースドメイン・タスクそれぞれに対するモデルを得ることができる。
【0098】
そして、学習部160は、学習したターゲットエンコーダのパラメータを、ターゲット符号化部120に、学習したソースエンコーダのパラメータをソース符号化部140に、学習したコモンエンコーダのパラメータを共通符号化部110に、学習したターゲットデコーダのパラメータをターゲット復号部130に、学習したソースデコーダのパラメータをソース復号部150に、それぞれ渡す。
【0099】
<本発明の実施の形態に係るモデル学習装置の作用>
図3は、本発明の実施の形態に係るモデル学習処理ルーチンを示すフローチャートである。
【0100】
入力部100に学習データが入力されると、モデル学習装置10において、図3に示すモデル学習処理ルーチンが実行される。
【0101】
まず、ステップS100において、入力部100は、ターゲットドメインのデータ

とターゲットドメインのデータ

に対するタスクの実行結果である教師データ

との組、及びソースドメインのデータ

とソースドメインのデータ

に対するタスクの実行結果である教師データ

の組である学習データの入力を受け付ける。
【0102】
次に、ステップS110において、共通符号化部110は、ターゲットドメインのデータ

を入力として、コモンエンコーダを用いて符号化処理を実行することにより、共通特徴表現

と、中間表現CE−1、CE−2とを取得する。また、共通符号化部110は、ソースドメインのデータ

を入力として、コモンエンコーダを用いて符号化処理を実行することにより、共通特徴表現

と、中間表現CE−1、CE−2とを取得する。
【0103】
ステップS120において、ターゲット符号化部120は、ターゲットドメインのデータ

を入力としてターゲットエンコーダを用いて符号化処理を実行することにより、ターゲット特徴表現

と、中間表現TE−1、TE−2とを取得する。
【0104】
ステップS130において、ターゲット復号部130は、ターゲットエンコーダの出力であるターゲット特徴表現

及びコモンエンコーダの出力である共通特徴表現

を足し合わせた

を計算する。
【0105】
ステップS140において、ターゲット復号部130は、上記ステップS130により計算された

と、上記ステップS110によりターゲットドメインのデータについて得られた中間表現CE−1、CE−2と、上記ステップS120により得られた中間表現TE−1、TE−2とを入力として、ターゲットデコーダを用いて、復号処理を実行して、

を取得する。
【0106】
ステップS150において、ソース符号化部140は、ソースドメインのデータ

を入力としてソースエンコーダを用いて、符号化処理を実行することにより、ソース特徴表現

と、中間表現SE−1、SE−2とを取得する。
【0107】
ステップS160において、ソース復号部150は、ソースエンコーダの出力であるソース特徴表現

及びコモンエンコーダの出力である共通特徴表現

を足し合わせた

を計算する。
【0108】
ステップS170において、ソース復号部150は、上記ステップS160により計算された

と、上記ステップS110によりソースドメインのデータについて得られた中間表現CE−1、CE−2と、上記ステップS150で得られた中間表現SE−1、SE−2とを入力として、ソースデコーダを用いて復号処理を実行して、

を取得する。
【0109】
ステップS180において、学習部160は、上記ステップS110〜S170により得られたターゲット特徴表現

、ソース特徴表現

、共通特徴表現



、ターゲットデコーダの出力

、ソースデコーダの出力

、教師データ

及び

を用いて、上記式(1)のような損失関数を定義し、当該損失関数を最小化するような各エンコーダ及び各デコーダのパラメータを学習する。
【0110】
ステップS190において、学習部160は、学習したターゲットエンコーダのパラメータを、ターゲット符号化部120に、学習したソースエンコーダのパラメータをソース符号化部140に、学習したコモンエンコーダのパラメータを共通符号化部110に、学習したターゲットデコーダのパラメータをターゲット復号部130に、学習したソースデコーダのパラメータをソース復号部150に、それぞれ渡す。
【0111】
ステップS200において、学習部160は、終了条件を満たすか否かを判定する。
【0112】
終了条件を満たしていない場合(ステップS200のNO)、上記ステップS100に戻り、再度学習データを取得してステップS110〜S190の処理を繰り返す。
【0113】
一方、終了条件を満たす場合(ステップS200のYES)、処理を終了する。
【0114】
ここで、上記ステップS140におけるターゲットデコーダの計算処理について説明する。図4は、計算処理ルーチンを示すフローチャートである。
【0115】
ステップS300において、ターゲットデコーダは、入力された

に対して、逆畳み込みを行い、TD−4を求める。
【0116】
ステップS310において、ターゲットデコーダは、上記ステップS300により得られたTD−4に、中間表現TE−2及びCE−2を結合した特徴表現に対して、畳み込みを行い、TD−3を求める。
【0117】
ステップS320において、ターゲットデコーダは、上記ステップS310により得られたTD−3に対して更に逆畳み込みを行い、TD−2を求める。
【0118】
ステップS330において、ターゲットデコーダは、上記ステップS320により得られたTD−2に中間表現TE−1及びCE−1を結合した特徴表現に対して、畳み込みを行い、TD−1を求める。
【0119】
ステップS340において、ターゲットデコーダは、上記ステップS330により得られたTD−1に対して畳み込みを行い、ターゲットデコーダの出力

として、リターンする。
【0120】
また、上記ステップS170におけるソースデコーダの計算処理については、上記図4の計算処理ルーチンと同様であるため、説明を省略する。
【0121】
以上説明したように、本発明の実施形態に係るモデル学習装置によれば、学習データに基づいて、ターゲットドメインのデータを入力としてターゲット特徴表現を出力するターゲットエンコーダ、ソースドメインのデータを入力としてソース特徴表現を出力するソースエンコーダ、ターゲットドメインのデータ又はソースドメインのデータを入力として共通特徴表現を出力するコモンエンコーダ、ターゲットエンコーダの出力及びコモンエンコーダの出力を入力として、ターゲットドメインのデータに対するタスクの実行結果を出力するターゲットデコーダ、及びソースエンコーダの出力及びコモンエンコーダの出力を入力として、ソースドメインのデータに対するタスクの実行結果を出力するソースデコーダを用いて、ターゲットデコーダの出力が、教師データと一致し、かつ、ソースデコーダの出力が、教師データと一致するように学習することにより、低コストかつ高精度に異なる複数のタスク・ドメインを同時に学習することができる。
【0122】
<本発明の実施の形態に係るタスク処理装置の構成>
本発明の実施の形態に係るタスク処理装置20の構成について説明する。なお、上記実施の形態に係るモデル学習装置10と同様の構成については、同一の符号を付して詳細な説明は省略する。図5は、本発明の実施の形態に係るタスク処理装置20の構成を示すブロック図である。
【0123】
タスク処理装置20は、モデル学習装置10により学習されたモデルを用いて、ターゲットドメインのデータに対するタスクを実行する。なお、本実施形態では、ターゲットドメインのデータの種類が画像データ

である場合を例に説明する。
【0124】
タスク処理装置20は、CPUと、RAMと、後述するタスク処理ルーチン及び計算処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
【0125】
図5に示すように、本実施形態に係るタスク処理装置20は、入力部200と、共通符号化部110と、ターゲット符号化部120と、ターゲット復号部130と、ソース符号化部140と、ソース復号部150と、出力部270とを備えて構成される。
【0126】
入力部200は、ターゲットドメインの画像データ

の入力を受け付ける。
【0127】
そして、入力部200は、受け付けたターゲットドメインの画像データ

を、共通符号化部110と、ターゲット符号化部120とに渡す。
【0128】
共通符号化部110、ターゲット符号化部120、及びターゲット復号部130は、モデル学習装置10により学習されたコモンエンコーダ、ターゲットエンコーダ、及びターゲットデコーダの各パラメータを保持し、機能的にはモデル学習装置10における処理と同様の処理を行う。
【0129】
出力部270は、ターゲット復号部130により得られた当該タスク処理の結果である

を、出力する。
【0130】
なお、モデル学習装置10により学習されたモデルを用いて、ソースドメインの画像データ

に対するタスクを実行する場合には、タスク処理装置20において、ターゲット符号化部120及びターゲット復号部130の代わりに、ソース符号化部140及びソース復号部150を用いればよい。
【0131】
この場合、入力部200は、受け付けたソースドメインの画像データ

を、共通符号化部110と、ソース符号化部140とに渡す。
【0132】
ソース符号化部140及びソース復号部150は、モデル学習装置10により学習されたソースエンコーダ、及びソースデコーダの各パラメータを保持し、機能的にはモデル学習装置10における処理と同様の処理を行う。
【0133】
そして、出力部270は、ソース復号部150により得られた当該タスク処理の結果である

を、出力する。
【0134】
<本発明の実施の形態に係るタスク処理装置の作用>
図6は、本発明の実施の形態に係るタスク処理ルーチンを示すフローチャートである。なお、上記実施の形態に係るモデル学習処理ルーチンと同様の処理については、同一の符号を付して詳細な説明は省略する。
【0135】
入力部200にターゲットドメインの画像データ

が入力されると、タスク処理装置20において、図6に示すタスク処理ルーチンが実行される。
【0136】
ステップS400において、入力部200は、ターゲットドメインの画像データ

の入力を受け付ける。
【0137】
ステップS410において、共通符号化部110は、ターゲットドメインのデータ

を入力として、コモンエンコーダを用いて、符号化処理を実行することにより、共通特徴表現

と、中間表現CE−1、CE−2とを取得する。
【0138】
ステップS460において、出力部270は、ステップS150により得られた当該タスク処理の結果である

を出力する。
【0139】
なお、モデル学習装置10により学習されたモデルを用いて、ソースドメインの画像データ

に対するタスクを実行する場合も、ソース符号化部140及びソース復号部150を用いて同様の処理を行うため、説明を省略する。
【0140】
以上説明したように、本実施形態に係るタスク処理装置によれば、学習データに基づいて、ターゲットドメインのデータを入力としてターゲット特徴表現を出力するターゲットエンコーダ、ソースドメインのデータを入力としてソース特徴表現を出力するソースエンコーダ、ターゲットドメインのデータ又はソースドメインのデータを入力として共通特徴表現を出力するコモンエンコーダ、ターゲットエンコーダの出力及びコモンエンコーダの出力を入力として、ターゲットドメインのデータに対するタスクの実行結果を出力するターゲットデコーダ、及びソースエンコーダの出力及びコモンエンコーダの出力を入力として、ソースドメインのデータに対するタスクの実行結果を出力するソースデコーダを用いて、ターゲットデコーダの出力が、教師データと一致し、かつ、ソースデコーダの出力が、教師データと一致するように学習したモデルを用いることにより、低コストかつ高精度に異なるタスクを実行することができる。
【0141】
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0142】
例えば、各エンコーダ及び各デコーダは、上記図2に示したネットワーク構成例よりも多層になるように構成してもよいし、少ない層で構成してもよい。
【0143】
また、ターゲットデコーダは、ターゲットエンコーダからの複数の中間表現と、コモンエンコーダからの複数の中間表現とを入力とする場合を例に説明したが、これに限定されるものではなく、ターゲットデコーダは、ターゲットエンコーダからの少なくとも1つの中間表現と、コモンエンコーダからの少なくとも1つの中間表現とを入力とするようにすればよい。
【0144】
例えば、ターゲットエンコーダにおいてTE−2を求める層を省略し、ソースエンコーダにおいてSE−2を求める層を省略し、コモンエンコーダにおいてCE−2を求める層を省略し、ターゲットデコーダにおいて、TD−4及びTD−3を求める層を省略し、ソースデコーダにおいて、SD−4及びSD−3を求める層を省略する構成とすることもできる。この場合、ターゲットデコーダは、

をTD−2のサイズに逆畳み込みして、TE−1及びCE−1と結合し、後続の処理を行う。
【0145】
また、上述の実施形態において、コモンエンコーダ、ターゲットエンコーダ、及びターゲットデコーダの中間層の出力のサイズが同じ構成になるものとして記載した。しかし、これに限定されるものではない。
【0146】
例えば、ターゲットデコーダが中間表現TD−2とTE−1と、CE−1とを結合できればよく、コモンエンコーダ、ターゲットエンコーダ、及びターゲットデコーダの中間表現の縦横サイズ(上記図2のcopyにおける立方体で表される中間表現TD−2と中TE−1及びCE−1の縦横のサイズ)が同じであれば、チャンネル数(奥行き)の長さは異なっていてもよい。
【0147】
例えば、中間表現のサイズが3*3*10と3*3*20である場合に、チャンネル数のみ異なり、結合することができるため、採用することができる。一方、中間表現のサイズが3*3*10と5*5*20である場合には、縦横のサイズが異なることから結合することができず、このような構成を本実施形態において採用することはできない。
【0148】
なお、ソースドメインについてのコモンエンコーダ、ソースエンコーダ、及びソースデコーダについても同様である。
【0149】
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
【符号の説明】
【0150】
10 モデル学習装置
20 タスク処理装置
100 入力部
110 共通符号化部
120 ターゲット符号化部
130 ターゲット復号部
140 ソース符号化部
150 ソース復号部
160 学習部
200 入力部
270 出力部
図1
図2
図3
図4
図5
図6