特開2023-135777 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ソフトバンクモバイル株式会社の特許一覧 ▶ 学校法人明星学苑の特許一覧

特開2023-135777情報処理装置、情報処理方法及び情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023135777

(43)【公開日】2023-09-29

(54)【発明の名称】情報処理装置、情報処理方法及び情報処理プログラム

(51)【国際特許分類】

G06N 3/08 20230101AFI20230922BHJP

G06N 3/045 20230101ALI20230922BHJP

【ＦＩ】

G06N3/08

G06N3/04 154

【審査請求】有

【請求項の数】12

【出願形態】ＯＬ

(21)【出願番号】P 2022041040

(22)【出願日】2022-03-16

(11)【特許番号】

(45)【特許公報発行日】2023-07-19

(71)【出願人】

【識別番号】501440684

【氏名又は名称】ソフトバンク株式会社

(71)【出願人】

【識別番号】500132214

【氏名又は名称】学校法人明星学苑

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】堀隆之

(72)【発明者】

【氏名】鈴木裕真

(72)【発明者】

【氏名】岡本秀明

(72)【発明者】

【氏名】植木一也

(57)【要約】

【課題】異なる複数の種類の情報を共通の潜在空間に埋め込むことができる複数の種類のエンコーダの精度をそれぞれ向上させることができる。
【解決手段】本願に係る情報処理装置は、異なる複数の種類の情報それぞれに対応するそれぞれの特徴情報を共通の潜在空間にマッピングするようそれぞれ学習させた複数の種類のエンコーダを取得する取得部と、複数の種類のエンコーダそれぞれに対応する複数の種類のデコーダそれぞれを生成するデコーダ生成部と、異なる複数の種類の情報のうち、一の種類の情報と、複数の種類のデコーダのうち、一の種類の情報とは異なる他の種類の情報に対応するデコーダである他のデコーダを用いて生成された他の種類の情報とに基づいて、複数の種類のエンコーダをそれぞれ再学習させるエンコーダ生成部と、を備える。
【選択図】図２

【特許請求の範囲】

【請求項1】

異なる複数の種類の情報それぞれに対応するそれぞれの特徴情報を共通の潜在空間にマッピングするようそれぞれ学習させた複数の種類のエンコーダを取得する取得部と、
前記複数の種類のエンコーダそれぞれに対応する複数の種類のデコーダそれぞれを生成するデコーダ生成部と、
前記異なる複数の種類の情報のうち、一の種類の情報と、前記複数の種類のデコーダのうち、前記一の種類の情報とは異なる他の種類の情報に対応するデコーダである他のデコーダを用いて生成された前記他の種類の情報とに基づいて、前記複数の種類のエンコーダをそれぞれ再学習させるエンコーダ生成部と、
を備える情報処理装置。

【請求項2】

前記取得部は、
異なる２種類の情報それぞれに対応するそれぞれの特徴情報を共通の潜在空間にマッピングするようそれぞれ学習させた２種類のエンコーダを取得し、
前記デコーダ生成部は、
前記２種類のエンコーダそれぞれに対応する２種類のデコーダそれぞれを生成し、
前記エンコーダ生成部は、
前記異なる２種類の情報のうち、一方の種類の情報と、前記２種類のデコーダのうち、前記一方の種類の情報とは異なる他方の種類の情報に対応するデコーダである他方のデコーダを用いて生成された前記他方の種類の情報とに基づいて、前記２種類のエンコーダをそれぞれ再学習させる、
請求項１に記載の情報処理装置。

【請求項3】

前記エンコーダ生成部は、
前記２種類のエンコーダのうち、前記一方の種類の情報に対応するエンコーダである一方のエンコーダを用いて、前記一方の種類の情報から、前記一方の種類の情報に対応する特徴情報である一方の特徴情報を生成し、前記２種類のエンコーダのうち、前記他方の種類の情報に対応するエンコーダである他方のエンコーダを用いて、前記他方のデコーダを用いて生成された前記他方の種類の情報から、前記他方の種類の情報に対応する特徴情報である他方の特徴情報を生成し、生成された前記一方の特徴情報および前記他方の特徴情報をそれぞれ前記共通の潜在空間にマッピングするよう前記２種類のエンコーダをそれぞれ再学習させる、
請求項２に記載の情報処理装置。

【請求項4】

前記エンコーダ生成部は、
前記他方のデコーダを用いて、前記一方のエンコーダを用いて生成された前記一方の特徴情報から、前記他方の種類の情報を生成する、
請求項３に記載の情報処理装置。

【請求項5】

前記エンコーダ生成部は、
前記２種類のデコーダのうち、前記一方の種類の情報に対応するデコーダである一方のデコーダを用いて、前記他方のエンコーダを用いて生成された前記他方の特徴情報から、前記一方の種類の情報を生成し、前記一方のデコーダを用いて生成された前記一方の種類の情報と、前記一方のエンコーダに入力された前記一方の種類の情報とに基づいて、前記２種類のエンコーダをそれぞれ再学習させる、
請求項３または４に記載の情報処理装置。

【請求項6】

前記デコーダ生成部は、
前記一方の種類の情報と、前記２種類のデコーダのうち、前記一方の種類の情報に対応するデコーダである一方のデコーダを用いて生成された前記一方の種類の情報とに基づいて学習させた前記一方のデコーダである学習済み第１デコーダ、および、前記他方の種類の情報と、前記他方のデコーダを用いて生成された前記他方の種類の情報とに基づいて学習させた前記他方のデコーダである学習済み第２デコーダを生成し、
前記エンコーダ生成部は、
前記一方の種類の情報と、前記学習済み第２デコーダを用いて生成された前記他方の種類の情報とに基づいて、前記２種類のエンコーダをそれぞれ再学習させる、
請求項２～５のいずれか１つに記載の情報処理装置。

【請求項7】

前記デコーダ生成部は、
前記２種類のエンコーダのうち、前記一方の種類の情報に対応するエンコーダである一方のエンコーダを用いて、前記一方の種類の情報から、前記一方の種類の情報に対応する特徴情報である一方の特徴情報を生成し、前記一方のデコーダを用いて、前記一方のエンコーダを用いて生成された前記一方の特徴情報から、前記一方の種類の情報を生成し、
前記２種類のエンコーダのうち、前記他方の種類の情報に対応するエンコーダである他方のエンコーダを用いて、前記他方の種類の情報から、前記他方の種類の情報に対応する特徴情報である他方の特徴情報を生成し、前記他方のデコーダを用いて、前記他方のエンコーダを用いて生成された前記他方の特徴情報から、前記他方の種類の情報を生成する、
請求項６に記載の情報処理装置。

【請求項8】

前記取得部は、
前記一方の種類の情報と、前記一方の種類の情報に対応する前記他方の種類の情報との組に基づいてそれぞれ学習させた前記２種類のエンコーダを取得する、
請求項２～７のいずれか１つに記載の情報処理装置。

【請求項9】

前記異なる２種類の情報は、画像およびテキストである、
請求項２～８のいずれか１つに記載の情報処理装置。

【請求項10】

前記デコーダ生成部は、
機械学習により学習させた機械学習モデルである前記２種類のデコーダそれぞれを生成し、
前記エンコーダ生成部は、
機械学習により学習させた機械学習モデルである前記２種類のエンコーダをそれぞれ再学習させる、
請求項２～９のいずれか１つに記載の情報処理装置。

【請求項11】

情報処理装置が実行するプログラムにより実現される情報処理方法であって、
異なる複数の種類の情報それぞれに対応するそれぞれの特徴情報を共通の潜在空間にマッピングするようそれぞれ学習させた複数の種類のエンコーダを取得する取得工程と、
前記複数の種類のエンコーダそれぞれに対応する複数の種類のデコーダそれぞれを生成するデコーダ生成工程と、
前記異なる複数の種類の情報のうち、一の種類の情報と、前記複数の種類のデコーダのうち、前記一の種類の情報とは異なる他の種類の情報に対応するデコーダである他のデコーダを用いて生成された前記他の種類の情報とに基づいて、前記複数の種類のエンコーダをそれぞれ再学習させるエンコーダ生成工程と、
を含む情報処理方法。

【請求項12】

異なる複数の種類の情報それぞれに対応するそれぞれの特徴情報を共通の潜在空間にマッピングするようそれぞれ学習させた複数の種類のエンコーダを取得する取得手順と、
前記複数の種類のエンコーダそれぞれに対応する複数の種類のデコーダそれぞれを生成するデコーダ生成手順と、
前記異なる複数の種類の情報のうち、一の種類の情報と、前記複数の種類のデコーダのうち、前記一の種類の情報とは異なる他の種類の情報に対応するデコーダである他のデコーダを用いて生成された前記他の種類の情報とに基づいて、前記複数の種類のエンコーダをそれぞれ再学習させるエンコーダ生成手順と、
をコンピュータに実行させる情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

【背景技術】

【0002】

近年、言語と画像など異なる種類の情報（異なるモダリティに属する情報ともいう）を組み合わせたマルチモーダル技術の研究が盛んに行われている。例えば、言語と画像を組み合わせたマルチモーダル技術として、画像から画像の説明文（キャプション）を生成する技術や、画像と文章の相互検索が可能な技術などが知られている。

【0003】

また、上記のようなマルチモーダル技術を実現するために、画像と言語（以下、テキストともいう）など異なる２種類の情報を共通の潜在空間（マルチモーダル空間ともいう）に埋め込む技術が用いられる。例えば、画像の内容を示すテキストと画像の組を含むデータセットを用いて、画像とテキストを共通の潜在空間に埋め込むよう画像エンコーダおよびテキストエンコーダをそれぞれ学習させる技術が知られている。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】Alec Radford、他１１名、“Learning Transferable Visual Models From Natural Language Supervision”、［online］、February 2021、［令和４年２月２８日検索］、インターネット＜URL：https://arxiv.org/abs/2103.00020＞

【発明の概要】

【発明が解決しようとする課題】

【0005】

異なる複数の種類の情報を共通の潜在空間に埋め込むことができる複数の種類のエンコーダの精度をそれぞれ向上させることを可能とする技術が求められている。

【0006】

本願は、異なる複数の種類の情報を共通の潜在空間に埋め込むことができる複数の種類のエンコーダの精度をそれぞれ向上させることができる情報処理装置、情報処理方法及び情報処理プログラムを提供することを目的とする。

【課題を解決するための手段】

【0007】

本願に係る情報処理装置は、異なる複数の種類の情報それぞれに対応するそれぞれの特徴情報を共通の潜在空間にマッピングするようそれぞれ学習させた複数の種類のエンコーダを取得する取得部と、前記複数の種類のエンコーダそれぞれに対応する複数の種類のデコーダそれぞれを生成するデコーダ生成部と、前記異なる複数の種類の情報のうち、一の種類の情報と、前記複数の種類のデコーダのうち、前記一の種類の情報とは異なる他の種類の情報に対応するデコーダである他のデコーダを用いて生成された前記他の種類の情報とに基づいて、前記複数の種類のエンコーダをそれぞれ再学習させるエンコーダ生成部と、を備える。

【0008】

また、前記取得部は、異なる２種類の情報それぞれに対応するそれぞれの特徴情報を共通の潜在空間にマッピングするようそれぞれ学習させた２種類のエンコーダを取得し、前記デコーダ生成部は、前記２種類のエンコーダそれぞれに対応する２種類のデコーダそれぞれを生成し、前記エンコーダ生成部は、前記異なる２種類の情報のうち、一方の種類の情報と、前記２種類のデコーダのうち、前記一方の種類の情報とは異なる他方の種類の情報に対応するデコーダである他方のデコーダを用いて生成された前記他方の種類の情報とに基づいて、前記２種類のエンコーダをそれぞれ再学習させる。

【0009】

また、前記エンコーダ生成部は、前記２種類のエンコーダのうち、前記一方の種類の情報に対応するエンコーダである一方のエンコーダを用いて、前記一方の種類の情報から、前記一方の種類の情報に対応する特徴情報である一方の特徴情報を生成し、前記２種類のエンコーダのうち、前記他方の種類の情報に対応するエンコーダである他方のエンコーダを用いて、前記他方のデコーダを用いて生成された前記他方の種類の情報から、前記他方の種類の情報に対応する特徴情報である他方の特徴情報を生成し、生成された前記一方の特徴情報および前記他方の特徴情報をそれぞれ前記共通の潜在空間にマッピングするよう前記２種類のエンコーダをそれぞれ再学習させる。

【0010】

また、前記エンコーダ生成部は、前記他方のデコーダを用いて、前記一方のエンコーダを用いて生成された前記一方の特徴情報から、前記他方の種類の情報を生成する。

【0011】

また、前記エンコーダ生成部は、前記２種類のデコーダのうち、前記一方の種類の情報に対応するデコーダである一方のデコーダを用いて、前記他方のエンコーダを用いて生成された前記他方の特徴情報から、前記一方の種類の情報を生成し、前記一方のデコーダを用いて生成された前記一方の種類の情報と、前記一方のエンコーダに入力された前記一方の種類の情報とに基づいて、前記２種類のエンコーダをそれぞれ再学習させる。

【0012】

また、前記デコーダ生成部は、前記一方の種類の情報と、前記２種類のデコーダのうち、前記一方の種類の情報に対応するデコーダである一方のデコーダを用いて生成された前記一方の種類の情報とに基づいて学習させた前記一方のデコーダである学習済み第１デコーダ、および、前記他方の種類の情報と、前記他方のデコーダを用いて生成された前記他方の種類の情報とに基づいて学習させた前記他方のデコーダである学習済み第２デコーダを生成し、前記エンコーダ生成部は、前記一方の種類の情報と、前記学習済み第２デコーダを用いて生成された前記他方の種類の情報とに基づいて、前記２種類のエンコーダをそれぞれ再学習させる。

【0013】

また、前記デコーダ生成部は、前記２種類のエンコーダのうち、前記一方の種類の情報に対応するエンコーダである一方のエンコーダを用いて、前記一方の種類の情報から、前記一方の種類の情報に対応する特徴情報である一方の特徴情報を生成し、前記一方のデコーダを用いて、前記一方のエンコーダを用いて生成された前記一方の特徴情報から、前記一方の種類の情報を生成し、前記２種類のエンコーダのうち、前記他方の種類の情報に対応するエンコーダである他方のエンコーダを用いて、前記他方の種類の情報から、前記他方の種類の情報に対応する特徴情報である他方の特徴情報を生成し、前記他方のデコーダを用いて、前記他方のエンコーダを用いて生成された前記他方の特徴情報から、前記他方の種類の情報を生成する。

【0014】

また、前記取得部は、前記一方の種類の情報と、前記一方の種類の情報に対応する前記他方の種類の情報との組に基づいてそれぞれ学習させた前記２種類のエンコーダを取得する。

【0015】

また、前記異なる２種類の情報は、画像およびテキストである。

【0016】

また、前記デコーダ生成部は、機械学習により学習させた機械学習モデルである前記２種類のデコーダそれぞれを生成し、前記エンコーダ生成部は、機械学習により学習させた機械学習モデルである前記２種類のエンコーダをそれぞれ再学習させる。

【0017】

本願に係る情報処理方法は、情報処理装置が実行するプログラムにより実現される情報処理方法であって、異なる複数の種類の情報それぞれに対応するそれぞれの特徴情報を共通の潜在空間にマッピングするようそれぞれ学習させた複数の種類のエンコーダを取得する取得工程と、前記複数の種類のエンコーダそれぞれに対応する複数の種類のデコーダそれぞれを生成するデコーダ生成工程と、前記異なる複数の種類の情報のうち、一の種類の情報と、前記複数の種類のデコーダのうち、前記一の種類の情報とは異なる他の種類の情報に対応するデコーダである他のデコーダを用いて生成された前記他の種類の情報とに基づいて、前記複数の種類のエンコーダをそれぞれ再学習させるエンコーダ生成工程と、を含む。

【0018】

本願に係る情報処理プログラムは、異なる複数の種類の情報それぞれに対応するそれぞれの特徴情報を共通の潜在空間にマッピングするようそれぞれ学習させた複数の種類のエンコーダを取得する取得手順と、前記複数の種類のエンコーダそれぞれに対応する複数の種類のデコーダそれぞれを生成するデコーダ生成手順と、前記異なる複数の種類の情報のうち、一の種類の情報と、前記複数の種類のデコーダのうち、前記一の種類の情報とは異なる他の種類の情報に対応するデコーダである他のデコーダを用いて生成された前記他の種類の情報とに基づいて、前記複数の種類のエンコーダをそれぞれ再学習させるエンコーダ生成手順と、をコンピュータに実行させる。

【発明の効果】

【0019】

実施形態の一態様によれば、異なる複数の種類の情報を共通の潜在空間に埋め込むことができる複数の種類のエンコーダの精度をそれぞれ向上させることができる。

【図面の簡単な説明】

【0020】

【図1】図１は、従来技術に係る画像とテキストを共通の潜在空間に埋め込むことができる２種類のエンコーダの学習処理の一例について説明するための図である。

【図2】図２は、実施形態に係る情報処理装置の構成例を示す図である。

【図3】図３は、実施形態に係る第１の学習段階に係る学習処理の一例について説明するための図である。

【図4】図４は、実施形態に係る第２の学習段階に係る学習処理の一例について説明するための図である。

【図5】図５は、実施形態に係る第３の学習段階に係る学習処理の一例について説明するための図である。

【図6】図６は、実施形態に係る第３の学習段階に係る学習処理の一例について説明するための図である。

【図7】図７は、実施形態に係る情報処理手順を示すフローチャートである。

【図8】図８は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

【発明を実施するための形態】

【0021】

以下に、本願に係る情報処理装置、情報処理方法及び情報処理プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

【0022】

（実施形態）
〔１．はじめに〕
本明細書における「画像」とは、カメラ（撮像装置）によって撮像された映像などの動画であってもよいし、映像に含まれる各シーン（静止画像）であってもよい。また、本明細書における「言語表現」とは、文章、フレーズ、またはキーワード等の文字情報（以下、テキスト）であってよい。

【0023】

近年、画像の特徴を示す画像特徴量と、画像の内容を言語で表現した言語表現の特徴を示す言語特徴量を対応付けて共通の潜在空間（共通空間ともいう）に埋め込む技術は、ＶＳＥ（Visual-Semantic Embedding）と呼ばれている。また、ＶＳＥの技術を用いて生成された機械学習モデル（以下、ＶＳＥモデルともいう）を用いて、クエリ画像とマッチするテキストを検索する技術やクエリ文とマッチする画像を検索する技術（以下、「画像－テキスト間検索」と記載する）が知られている。以下では、言語表現のことをテキストと記載する。また、画像やテキスト等の「データから抽出された特徴量を潜在空間にマッピングする」ことを、画像やテキスト等の「データを潜在空間に埋め込む」と呼んでいる。

【0024】

具体的には、ＶＳＥモデルは、画像から画像の特徴を示す画像特徴量を抽出する画像エンコーダ、および、テキストからテキストの特徴を示すテキスト特徴量を抽出するテキストエンコーダを備える。例えば、ＶＳＥモデルを用いて画像からテキストを検索する場合、ＶＳＥモデルの画像エンコーダに画像を入力して、画像特徴量に対応する特徴ベクトル（以下、画像の特徴ベクトルともいう）を生成する。続いて、ＶＳＥモデルは、生成した画像の特徴ベクトルを、テキスト特徴量に対応する特徴ベクトル（以下、テキストの特徴ベクトルともいう）との共通の潜在空間にマッピングしたのち、画像の特徴ベクトルと類似するテキストの特徴ベクトルに対応するテキストを検索結果として出力する。例えば、ＶＳＥモデルは、画像の特徴ベクトルとテキストの特徴ベクトルとの類似度が所定の閾値を超えるようなテキストの特徴ベクトルに対応するテキストを検索結果として出力する。

【0025】

また、ＶＳＥモデルを用いてテキストから画像を検索する場合、テキストをＶＳＥモデルのテキストエンコーダに入力して、テキストの特徴ベクトルを生成する。続いて、ＶＳＥモデルは、生成したテキストの特徴ベクトルを、画像の特徴ベクトルとの共通の潜在空間にマッピングしたのち、テキストの特徴ベクトルと類似する画像の特徴ベクトルに対応する画像を検索結果として出力する。例えば、ＶＳＥモデルは、テキストの特徴ベクトルと画像の特徴ベクトルとの類似度が所定の閾値を超えるような画像の特徴ベクトルに対応する画像を検索結果として出力する。

【0026】

例えば、上述したような画像－テキスト間検索の検索精度を向上させるために、画像およびテキストを共通の潜在空間に埋め込むことができる画像エンコーダおよびテキストエンコーダの精度をそれぞれ向上させることを可能とする技術が求められている。

【0027】

図１は、従来技術に係る画像とテキストを共通の潜在空間に埋め込むことができる２種類のエンコーダの学習処理の一例について説明するための図である。図１の左上に示す画像エンコーダは、画像を入力した場合に、画像の特徴を示す画像特徴量を出力する。例えば、画像特徴量は、画像エンコーダに入力される画像よりも次元数の低いベクトル等で表現される。以下では、画像特徴量のことを、画像の特徴ベクトルまたは画像の特徴情報と記載する場合がある。また、図１の左下に示すテキストエンコーダは、テキストを入力した場合に、テキストの特徴を示すテキスト特徴量を出力する。例えば、テキスト特徴量は、テキストエンコーダに入力されるテキストよりも次元数の低いベクトル等で表現される。以下では、テキスト特徴量のことを、テキストの特徴ベクトルまたはテキストの特徴情報と記載する場合がある。

【0028】

図１に示す学習処理は、ＣＬＩＰ（Contrastive Language-Image Pre-training；対照的言語画像事前トレーニング）と呼ばれる。ＣＬＩＰでは、画像とその画像の内容を示すテキストの組（ペアデータともいう）を用意する。そして、ペアデータに対応する画像の特徴ベクトルとテキストの特徴ベクトルとの類似度が大きくなるように画像エンコーダおよびテキストエンコーダをそれぞれ学習させる。一方、ペアデータではない画像の特徴ベクトルとテキストの特徴ベクトルとの類似度が小さくなるように画像エンコーダおよびテキストエンコーダをそれぞれ学習させる。このようにして、ＣＬＩＰでは、画像の特徴情報とテキストの特徴情報を共通の潜在空間に埋め込むよう画像エンコーダおよびテキストエンコーダをそれぞれ学習させる。

【0029】

上述したように、従来技術に係る学習方法（ＣＬＩＰ）では、画像とその画像の内容を示すテキストのペアデータを用いて、画像とテキストの対応関係を画像エンコーダおよびテキストエンコーダにそれぞれ学習させる。しかしながら、画像とその画像の内容を示すテキストのペアデータの数は少ない。そのため、従来技術に係る学習方法では、画像エンコーダおよびテキストエンコーダにそれぞれ十分な量の学習をさせることができるとは限らない。したがって、従来技術に係る学習方法により生成される画像エンコーダおよびテキストエンコーダの精度を向上させるには、改善の余地がある。

【0030】

これに対し、本願の一実施形態に係る情報処理装置は、ペアデータではないデータに基づいて画像およびテキストを共通の潜在空間に埋め込むことができる画像エンコーダおよびテキストエンコーダをそれぞれ学習させる。具体的には、本願の一実施形態に係る情報処理装置は、以下の第１の学習段階～第３の学習段階の３つの学習段階により、画像エンコーダおよびテキストエンコーダをそれぞれ学習させる。

【0031】

より具体的には、情報処理装置は、従来技術に係る学習方法（ＣＬＩＰ）により、画像およびテキストそれぞれに対応する特徴情報を共通の潜在空間にマッピングするようそれぞれ学習させた画像エンコーダおよびテキストエンコーダを取得する（第１の学習段階）。続いて、情報処理装置は、変分オートエンコーダ（Variational Auto-Encoder；ＶＡＥ）などの一般的なエンコーダとデコーダの学習のうち、エンコーダを固定し、デコーダの学習のみを行わせることで、画像エンコーダに対応する画像デコーダ、および、テキストエンコーダに対応するテキストデコーダをそれぞれ生成する（第２の学習段階）。

【0032】

続いて、情報処理装置は、第１の学習段階で取得された画像エンコーダ（または、テキストエンコーダ）を用いて、画像（または、テキスト）から、画像の特徴ベクトル（または、テキストの特徴ベクトル）を生成する。続いて、情報処理装置は、第２の学習段階で生成されたテキストデコーダ（または、画像デコーダ）を用いて、生成された画像の特徴ベクトル（または、テキストの特徴ベクトル）から、テキスト（または、画像）を生成する。続いて、情報処理装置は、第１の学習段階で取得されたテキストエンコーダ（または、画像エンコーダ）を用いて、生成されたテキスト（または、画像）からテキストの特徴ベクトル（または、画像の特徴ベクトル）を生成する。続いて、情報処理装置は、第２の学習段階で生成された画像デコーダ（または、テキストデコーダ）を用いて、生成されたテキストの特徴ベクトル（または、画像の特徴ベクトル）から、画像（または、テキスト）を生成する。続いて、情報処理装置は、画像デコーダ（または、テキストデコーダ）を用いて生成された画像（または、テキスト）と、画像エンコーダ（または、テキストエンコーダ）に入力された画像（または、テキスト）とに基づいて、画像デコーダおよびテキストエンコーダをそれぞれ再学習させる（第３の学習段階）。

【0033】

これにより、本願の一実施形態に係る情報処理装置は、画像およびテキストのうち、一方の種類の情報しか存在しない（画像とテキストのペアデータが存在しない）場合であっても、あらかじめ生成された２種類のデコーダを用いて、一方のエンコーダ（例えば、テキストエンコーダ）に入力された一方の種類の情報（例えば、テキスト）に対応する一方の種類の情報（例えば、テキスト）を生成することができる。これにより、本願の一実施形態に係る情報処理装置は、一方の種類の情報しか存在しない（画像とテキストのペアデータが存在しない）場合であっても、一方のエンコーダ（例えば、テキストエンコーダ）に入力された一方の種類の情報（例えば、テキスト）と、一方のデコーダ（例えば、テキストデコーダ）を用いて生成された一方の種類の情報（例えば、テキスト）とに基づいて、画像デコーダおよびテキストエンコーダをそれぞれ再学習させることができる。また、上述したように、画像とテキストの組であるペアデータの数と比べると、ペアデータではない画像だけのデータやテキストだけのデータの数は多い。したがって、本願の一実施形態に係る情報処理装置は、より多くの学習データに基づいて画像エンコーダおよびテキストエンコーダをそれぞれ再学習させることができるので、画像およびテキストを共通の潜在空間に埋め込むことができる画像エンコーダおよびテキストエンコーダの精度をそれぞれ向上させることを可能とすることができる。

【0034】

なお、図１に示す画像エンコーダは、画像から画像特徴量を抽出することができる任意の公知技術により実現されてよい。例えば、画像エンコーダは、畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）を備えてよい。そして、画像エンコーダは、ＣＮＮを用いて、画像から画像特徴量を抽出してよい。また、例えば、画像エンコーダは、物体認識用に開発されたＲｅｓＮｅｔ（Residual Network）（Kaiming He et al., 2015）、ＡｌｅｘＮｅｔ（Krizhevsky et al., 2012）、ＶＧＧＮｅｔ（Simonyan et al., 2014）、ＧｏｏｇＬｅＮｅｔ（Szegedy et al., 2014）、ＳＥＮｅｔ（Squeeze-and-Excitation Networks）（Jie Hu et al., 2018））、ＥｆｆｉｃｉｅｎｔＮｅｔ（Tan et al., 2019）、またはＺＦＮｅｔ（Matthew et al., 2013）を備えてよい。そして、画像エンコーダは、ＲｅｓＮｅｔ、ＡｌｅｘＮｅｔ、ＶＧＧＮｅｔ、ＧｏｏｇＬｅＮｅｔ、ＳＥＮｅｔ、ＥｆｆｉｃｉｅｎｔＮｅｔ、またはＺＦＮｅｔを用いて、画像から画像特徴量を抽出してよい。また、例えば、画像エンコーダは、物体検出用に開発されたＦａｓｔｅｒＲ－ＣＮＮ（Shaoqing Ren et al., 2015）、ＹＯＬＯ（You Look Only Onse）（Joseph Redmon et al., 2015）、またはＳＳＤ（Single Shot MultiBox Detector）（Wei Liu., 2015）を備えてよい。そして、画像エンコーダは、ＦａｓｔｅｒＲ－ＣＮＮ、ＹＯＬＯ、またはＳＳＤを用いて、画像から画像特徴量を抽出してよい。

【0035】

また、図１に示すテキストエンコーダは、テキストからテキスト特徴量を抽出することができる任意の公知技術により実現されてよい。例えば、テキストエンコーダは、再帰型ニューラルネットワーク（ＲＮＮ：Recurrent Neural Network）を備えてよい。そして、テキストエンコーダは、ＲＮＮを用いて、テキストからテキスト特徴量を抽出してよい。また、例えば、テキストエンコーダは、ＧＲＵ（Gated Recurrent Unit）またはＬＳＴＭ（Long Short Term Memory）を備えてよい。そして、テキストエンコーダは、ＧＲＵまたはＬＳＴＭを用いて、テキストからテキスト特徴量を抽出してよい。また、例えば、テキストエンコーダは、Ｔｒａｎｓｆｏｒｍｅｒ（Ashish Vaswani et al., 2017）、ＴｒａｎｓｆｏｒｍｅｒをベースとしたＢＥＲＴ（Bidirectional Encoder Representations from Transformers）、ＧＰＴ－３（Generative Pre-Training3）またはＴ５（Text-to-Text Transfer Transformer）を備えてよい。そして、テキストエンコーダは、Ｔｒａｎｓｆｏｒｍｅｒ、ＢＥＲＴ、ＧＰＴ－３またはＴ５を用いて、テキストからテキスト特徴量を抽出してよい。

【0036】

〔２．情報処理装置の構成〕
図２は、実施形態に係る情報処理装置１００の構成例を示す図である。情報処理装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。

【0037】

（通信部１１０）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部１１０は、ネットワークと有線または無線で接続され、例えば、画像データセットを保持する外部のデータベースとの間で情報の送受信を行う。

【0038】

（記憶部１２０）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。具体的には、記憶部１２０は、各種プログラム（情報処理プログラムの一例）を記憶する。また、記憶部１２０は、画像とその画像の内容を示すテキストのペアデータを記憶する。また、記憶部１２０は、取得部１３１によって学習された画像エンコーダおよびテキストエンコーダに関する情報を記憶する。また、記憶部１２０は、デコーダ生成部１３２によって生成された学習済み画像デコーダおよび学習済みテキストデコーダに関する情報を記憶する。また、記憶部１２０は、エンコーダ生成部１３３によって生成された学習済み画像エンコーダおよび学習済みテキストエンコーダに関する情報を記憶する。

【0039】

（制御部１３０）
制御部１３０は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、情報処理装置１００内部の記憶装置に記憶されている各種プログラム（情報処理プログラムの一例に相当）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、コントローラであり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。

【0040】

制御部１３０は、取得部１３１と、デコーダ生成部１３２と、エンコーダ生成部１３３を機能部として有し、以下に説明する情報処理の作用を実現または実行してよい。なお、制御部１３０の内部構成は、図２に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、各機能部は、制御部１３０の機能を示したものであり、必ずしも物理的に区別されるものでなくともよい。

【0041】

（取得部１３１）
取得部１３１は、異なる２種類の情報それぞれに対応する特徴情報を共通の潜在空間にマッピングするようそれぞれ学習させた２種類のエンコーダを取得する。例えば、取得部１３１は、２種類のエンコーダとして、従来技術に係る学習方法（ＣＬＩＰ）により、テキストおよび画像それぞれに対応する特徴情報を共通の潜在空間にマッピングするようそれぞれ学習させたテキストエンコーダＭ１および画像エンコーダＭ２を取得する（第１の学習段階）。

【0042】

なお、テキストエンコーダＭ１および画像エンコーダＭ２は、機械学習により学習させた機械学習モデルであってよい。例えば、テキストエンコーダＭ１および画像エンコーダＭ２は、図１の説明においてなお書きに記載した機械学習モデルのいずれであってもよい。例えば、テキストエンコーダＭ１は、再帰型ニューラルネットワークであってよい。また、画像エンコーダＭ２は、畳み込みニューラルネットワークであってよい。

【0043】

図３は、実施形態に係る第１の学習段階に係る学習処理の一例について説明するための図である。図３では、取得部１３１は、画像とその画像の内容を示すテキストのペアデータに基づいて、テキストに対応する特徴情報（例えば、テキストの特徴ベクトル）および画像に対応する特徴情報（例えば、画像の特徴ベクトル）を共通の潜在空間にマッピングするようテキストエンコーダＭ１および画像エンコーダＭ２を学習させる。

【0044】

より具体的には、取得部１３１は、記憶部１２０を参照して、画像とその画像の内容を示すテキストのペアデータをＮ個（Ｎは２以上の自然数）取得する。続いて、取得部１３１は、Ｎ個のペアデータに含まれるＮ個のテキストをテキストエンコーダＭ１にそれぞれ入力する。テキストエンコーダＭ１は、Ｎ個のテキストからＮ個のテキストそれぞれのテキストの特徴ベクトル（Ｔ_１～Ｔ_Ｎと記載する）を生成する。また、取得部１３１は、Ｎ個のペアデータに含まれるＮ個の画像を画像エンコーダＭ２にそれぞれ入力する。画像エンコーダＭ２は、Ｎ個の画像からＮ個の画像それぞれの画像の特徴ベクトル（I_１～Ｉ_Ｎと記載する）を生成する。

【0045】

続いて、取得部１３１は、ペアである画像の特徴ベクトルとテキストの特徴ベクトルの内積（I_１・Ｔ_１、I_２・Ｔ_２、…、Ｉ_Ｎ・Ｔ_Ｎ）を最大化し、ペアではない画像の特徴ベクトルとテキストの特徴ベクトルの内積を最小化するように、テキストエンコーダＭ１および画像エンコーダＭ２のパラメータをそれぞれ学習させる。より具体的には、取得部１３１は、テキストエンコーダＭ１および画像エンコーダＭ２それぞれの目的関数（損失関数ともいう）の値がそれぞれの条件を満たすまでテキストエンコーダＭ１および画像エンコーダＭ２のパラメータをそれぞれ学習させる。例えば、取得部１３１は、テキストエンコーダＭ１の目的関数（損失関数ともいう）の値が第１閾値以下となるまでテキストエンコーダＭ１を学習させる。また、取得部１３１は、画像エンコーダＭ２の目的関数（損失関数ともいう）の値が第２閾値以下となるまで画像エンコーダＭ２を学習させる。取得部１３１は、テキストエンコーダＭ１および画像エンコーダＭ２それぞれの目的関数（損失関数ともいう）の値がそれぞれの条件を満たしたと判定した場合、第１の学習段階に係る学習処理を終了する。また、取得部１３１は、第１の学習段階に係る学習処理を完了した時点におけるテキストエンコーダＭ１および画像エンコーダＭ２を取得する。

【0046】

（デコーダ生成部１３２）
デコーダ生成部１３２は、取得部１３１によって取得された２種類のエンコーダそれぞれに対応する２種類のデコーダそれぞれを生成する。例えば、デコーダ生成部１３２は、変分オートエンコーダ（Variational Auto-Encoder；ＶＡＥ）などの一般的なエンコーダとデコーダの学習のうち、エンコーダを固定し、デコーダの学習のみを行わせることで、取得部１３１によって取得されたテキストエンコーダＭ１に対応するテキストデコーダＭ３、および、画像エンコーダＭ２に対応する画像デコーダＭ４をそれぞれ生成する（第２の学習段階）。

【0047】

なお、テキストデコーダＭ３および画像デコーダＭ４は、機械学習により学習させた機械学習モデルであってよい。例えば、テキストデコーダＭ３および画像デコーダＭ４は、図１の説明においてなお書きに記載した機械学習モデルのいずれであってもよい。例えば、テキストデコーダＭ３は、再帰型ニューラルネットワークであってよい。また、画像デコーダＭ４は、畳み込みニューラルネットワークであってよい。

【0048】

図４は、実施形態に係る第２の学習段階に係る学習処理の一例について説明するための図である。図４の上段では、デコーダ生成部１３２は、取得部１３１によって取得されたテキストエンコーダＭ１を固定し、テキストエンコーダＭ１に対応するテキストデコーダＭ３を学習させる。具体的には、デコーダ生成部１３２は、取得部１３１によって取得されたテキストエンコーダＭ１を用いて、テキスト＃２から、テキスト＃２に対応するテキストの特徴ベクトルＶ２１を生成する。例えば、デコーダ生成部１３２は、取得部１３１によって取得されたテキストエンコーダＭ１にテキスト＃２を入力することで、テキストエンコーダＭ１から出力されるテキストの特徴ベクトルＶ２１を取得する。

【0049】

続いて、デコーダ生成部１３２は、テキストデコーダＭ３を用いて、テキストエンコーダＭ１を用いて生成されたテキストの特徴ベクトルＶ２１から、テキスト＃２´を生成する。例えば、デコーダ生成部１３２は、テキストエンコーダＭ１を用いて生成されたテキストの特徴ベクトルＶ２１をテキストデコーダＭ３に入力することで、テキストデコーダＭ３から出力されるテキスト＃２´を取得する。

【0050】

続いて、デコーダ生成部１３２は、テキストエンコーダＭ１に入力されたテキスト＃２と、テキストデコーダＭ３から出力されるテキスト＃２´とに基づいて、テキストデコーダＭ３を学習させる。より具体的には、デコーダ生成部１３２は、テキストエンコーダＭ１に入力されたテキスト＃２と、テキストデコーダＭ３から出力されるテキスト＃２´との類似度が所定の閾値以上となるようにテキストデコーダＭ３を学習させる。例えば、デコーダ生成部１３２は、テキストデコーダＭ３の目的関数（損失関数ともいう）の値が第３閾値以下となるまでテキストデコーダＭ３を学習させる。デコーダ生成部１３２は、テキストデコーダＭ３の目的関数（損失関数ともいう）の値が第３閾値以下となったと判定した場合、第２の学習段階に係るテキストデコーダＭ３の学習処理を終了する。また、デコーダ生成部１３２は、第２の学習段階に係る学習処理を完了した時点におけるテキストデコーダＭ３を学習済みテキストデコーダＭ３として取得する。

【0051】

図４の下段では、デコーダ生成部１３２は、取得部１３１によって取得された画像エンコーダＭ２を固定し、画像エンコーダＭ２に対応する画像デコーダＭ４を学習させる。具体的には、デコーダ生成部１３２は、取得部１３１によって取得された画像エンコーダＭ２を用いて、画像＃２から、画像＃２に対応する画像の特徴ベクトルＶ２２を生成する。例えば、デコーダ生成部１３２は、取得部１３１によって取得された画像エンコーダＭ２に画像＃２を入力することで、画像エンコーダＭ２から出力される画像の特徴ベクトルＶ２２を取得する。

【0052】

続いて、デコーダ生成部１３２は、画像デコーダＭ４を用いて、画像エンコーダＭ２を用いて生成された画像の特徴ベクトルＶ２２から、画像＃２´を生成する。例えば、デコーダ生成部１３２は、画像エンコーダＭ２を用いて生成された画像の特徴ベクトルＶ２２を画像デコーダＭ４に入力することで、画像デコーダＭ４から出力される画像＃２´を取得する。

【0053】

続いて、デコーダ生成部１３２は、画像エンコーダＭ２に入力された画像＃２と、画像デコーダＭ４から出力される画像＃２´とに基づいて、画像デコーダＭ４を学習させる。より具体的には、デコーダ生成部１３２は、画像エンコーダＭ２に入力された画像＃２と、画像デコーダＭ４から出力される画像＃２´との類似度が所定の閾値以上となるように画像デコーダＭ４を学習させる。例えば、デコーダ生成部１３２は、画像デコーダＭ４の目的関数（損失関数ともいう）の値が第４閾値以下となるまで画像デコーダＭ４を学習させる。デコーダ生成部１３２は、画像デコーダＭ４の目的関数（損失関数ともいう）の値が第４閾値以下となったと判定した場合、第２の学習段階に係る画像デコーダＭ４の学習処理を終了する。また、デコーダ生成部１３２は、第２の学習段階に係る学習処理を完了した時点における画像デコーダＭ４を学習済み画像デコーダＭ４として取得する。

【0054】

（エンコーダ生成部１３３）
エンコーダ生成部１３３は、デコーダ生成部１３２によって生成された２種類のデコーダのうち、一方の種類の情報に対応するデコーダである一方のデコーダを用いて、取得部１３１によって取得された他方のエンコーダを用いて生成された他方の特徴情報から、一方の種類の情報を生成する。また、エンコーダ生成部１３３は、デコーダ生成部１３２によって生成された一方のデコーダを用いて生成された一方の種類の情報と、取得部１３１によって取得された一方のエンコーダに入力された一方の種類の情報とに基づいて、取得部１３１によって取得された２種類のエンコーダをそれぞれ再学習させる（第３の学習段階）。

【0055】

図５は、実施形態に係る第３の学習段階に係る学習処理の一例について説明するための図である。図５では、画像とテキストのうち、テキストに基づく学習処理について説明する。図５では、エンコーダ生成部１３３は、デコーダ生成部１３２によって生成された学習済みテキストデコーダＭ３および学習済み画像デコーダＭ４を固定し、取得部１３１によって取得されたテキストエンコーダＭ１および画像エンコーダＭ２を再学習させる。

【0056】

具体的には、エンコーダ生成部１３３は、取得部１３１によって取得されたテキストエンコーダＭ１を用いて、テキスト＃３１から、テキスト＃３１に対応するテキストの特徴ベクトルＶ３１を生成する。例えば、エンコーダ生成部１３３は、取得部１３１によって取得されたテキストエンコーダＭ１にテキスト＃３１を入力することで、テキストエンコーダＭ１から出力されるテキストの特徴ベクトルＶ３１を取得する。

【0057】

続いて、エンコーダ生成部１３３は、デコーダ生成部１３２によって生成された学習済み画像デコーダＭ４を用いて、テキストエンコーダＭ１を用いて生成されたテキストの特徴ベクトルＶ３１から、画像＃３１´を生成する。例えば、エンコーダ生成部１３３は、テキストエンコーダＭ１を用いて生成されたテキストの特徴ベクトルＶ３１を学習済み画像デコーダＭ４に入力することで、学習済み画像デコーダＭ４から出力される画像＃３１´を取得する。

【0058】

続いて、エンコーダ生成部１３３は、取得部１３１によって取得された画像エンコーダＭ２を用いて、画像＃３１´から、画像＃３１´に対応する画像の特徴ベクトルＶ３１´を生成する。例えば、エンコーダ生成部１３３は、取得部１３１によって取得された画像エンコーダＭ２に画像＃３１´を入力することで、画像エンコーダＭ２から出力される画像の特徴ベクトルＶ３１´を取得する。

【0059】

続いて、エンコーダ生成部１３３は、デコーダ生成部１３２によって生成された学習済みテキストデコーダＭ３を用いて、画像エンコーダＭ２を用いて生成された画像の特徴ベクトルＶ３１´から、テキスト＃３１´を生成する。例えば、エンコーダ生成部１３３は、画像エンコーダＭ２を用いて生成された画像の特徴ベクトルＶ３１´を学習済みテキストデコーダＭ３に入力することで、学習済みテキストデコーダＭ３から出力されるテキスト＃３１´を取得する。

【0060】

続いて、エンコーダ生成部１３３は、テキストエンコーダＭ１に入力されたテキスト＃３１と、学習済みテキストデコーダＭ３から出力されるテキスト＃３１´とに基づいて、テキストエンコーダＭ１および画像エンコーダＭ２を再学習させる。より具体的には、エンコーダ生成部１３３は、テキストエンコーダＭ１に入力されたテキスト＃３１と、学習済みテキストデコーダＭ３から出力されるテキスト＃３１´との類似度が所定の閾値以上となるようにテキストエンコーダＭ１および画像エンコーダＭ２を再学習させる。例えば、エンコーダ生成部１３３は、テキストエンコーダＭ１および画像エンコーダＭ２それぞれの目的関数（損失関数ともいう）の値がそれぞれの条件を満たすまでテキストエンコーダＭ１および画像エンコーダＭ２のパラメータをそれぞれ学習させる。例えば、エンコーダ生成部１３３は、テキストエンコーダＭ１の目的関数（損失関数ともいう）の値が第５閾値以下となるまでテキストエンコーダＭ１を学習させる。また、エンコーダ生成部１３３は、画像エンコーダＭ２の目的関数（損失関数ともいう）の値が第６閾値以下となるまで画像エンコーダＭ２を学習させる。エンコーダ生成部１３３は、テキストエンコーダＭ１および画像エンコーダＭ２それぞれの目的関数（損失関数ともいう）の値がそれぞれの条件を満たしたと判定した場合、第３の学習段階に係る学習処理を終了する。また、エンコーダ生成部１３３は、第３の学習段階に係る学習処理を完了した時点におけるテキストエンコーダＭ１および画像エンコーダＭ２を学習済みテキストエンコーダＭ１および学習済み画像エンコーダＭ２として取得してよい。

【0061】

図６は、実施形態に係る第３の学習段階に係る学習処理の一例について説明するための図である。図６では、画像とテキストのうち、画像に基づく学習処理について説明する点が図５と異なる。図６では、図５と同様に、エンコーダ生成部１３３は、デコーダ生成部１３２によって生成された学習済みテキストデコーダＭ３および学習済み画像デコーダＭ４を固定し、取得部１３１によって取得されたテキストエンコーダＭ１および画像エンコーダＭ２を再学習させる。

【0062】

具体的には、エンコーダ生成部１３３は、取得部１３１によって取得された画像エンコーダＭ２を用いて、画像＃３２から、画像＃３２に対応する画像の特徴ベクトルＶ３２を生成する。例えば、エンコーダ生成部１３３は、取得部１３１によって取得された画像エンコーダＭ２に画像＃３２を入力することで、画像エンコーダＭ２から出力される画像の特徴ベクトルＶ３２を取得する。

【0063】

続いて、エンコーダ生成部１３３は、デコーダ生成部１３２によって生成された学習済みテキストデコーダＭ３を用いて、画像エンコーダＭ２を用いて生成された画像の特徴ベクトルＶ３２から、テキスト＃３２´を生成する。例えば、エンコーダ生成部１３３は、画像エンコーダＭ２を用いて生成された画像の特徴ベクトルＶ３２を学習済みテキストデコーダＭ３に入力することで、学習済みテキストデコーダＭ３から出力されるテキスト＃３２´を取得する。

【0064】

続いて、エンコーダ生成部１３３は、取得部１３１によって取得されたテキストエンコーダＭ１を用いて、テキスト＃３２´から、テキスト＃３２´に対応するテキストの特徴ベクトルＶ３２´を生成する。例えば、エンコーダ生成部１３３は、取得部１３１によって取得されたテキストエンコーダＭ１にテキスト＃３２´を入力することで、テキストエンコーダＭ１から出力されるテキストの特徴ベクトルＶ３２´を取得する。

【0065】

続いて、エンコーダ生成部１３３は、デコーダ生成部１３２によって生成された学習済み画像デコーダＭ４を用いて、テキストエンコーダＭ１を用いて生成されたテキストの特徴ベクトルＶ３２´から、画像＃３２´を生成する。例えば、エンコーダ生成部１３３は、テキストエンコーダＭ１を用いて生成されたテキストの特徴ベクトルＶ３２´を学習済み画像デコーダＭ４に入力することで、学習済み画像デコーダＭ４から出力される画像＃３２´を取得してよい。

【0066】

続いて、エンコーダ生成部１３３は、画像エンコーダＭ２に入力された画像＃３２と、学習済み画像デコーダＭ４から出力される画像＃３２´とに基づいて、テキストエンコーダＭ１および画像エンコーダＭ２を再学習させる。より具体的には、エンコーダ生成部１３３は、画像エンコーダＭ２に入力された画像＃３２と、学習済み画像デコーダＭ４から出力される画像＃３２´との類似度が所定の閾値以上となるようにテキストエンコーダＭ１および画像エンコーダＭ２を再学習させる。例えば、エンコーダ生成部１３３は、テキストエンコーダＭ１および画像エンコーダＭ２それぞれの目的関数（損失関数ともいう）の値がそれぞれの条件を満たすまでテキストエンコーダＭ１および画像エンコーダＭ２のパラメータをそれぞれ学習させる。例えば、エンコーダ生成部１３３は、テキストエンコーダＭ１の目的関数（損失関数ともいう）の値が第７閾値以下となるまでテキストエンコーダＭ１を学習させる。また、エンコーダ生成部１３３は、画像エンコーダＭ２の目的関数（損失関数ともいう）の値が第８閾値以下となるまで画像エンコーダＭ２を学習させる。エンコーダ生成部１３３は、テキストエンコーダＭ１および画像エンコーダＭ２それぞれの目的関数（損失関数ともいう）の値がそれぞれの条件を満たしたと判定した場合、第３の学習段階に係る学習処理を終了する。また、エンコーダ生成部１３３は、第３の学習段階に係る学習処理を完了した時点におけるテキストエンコーダＭ１および画像エンコーダＭ２を学習済みテキストエンコーダＭ１および学習済み画像エンコーダＭ２として取得してよい。

【0067】

〔３．情報処理の手順〕
図７は、実施形態に係る情報処理手順を示すフローチャートである。図７に示す例では、情報処理装置１００の取得部１３１は、画像の特徴情報およびテキストの特徴情報を共通の潜在空間にマッピングするように画像エンコーダおよびテキストエンコーダをそれぞれ学習させる（ステップＳ１）。取得部１３１は、画像エンコーダおよびテキストエンコーダそれぞれの目的関数の値がそれぞれの条件を満たすか否かを判定する（ステップＳ２）。

【0068】

取得部１３１は、画像エンコーダおよびテキストエンコーダそれぞれの目的関数の値がそれぞれの条件を満たさないと判定した場合（ステップＳ２；Ｎｏ）、ステップＳ１の学習を繰り返す。一方、取得部１３１によって画像エンコーダおよびテキストエンコーダそれぞれの目的関数の値がそれぞれの条件を満たすと判定された場合（ステップＳ２；Ｙｅｓ）、情報処理装置１００のデコーダ生成部１３２は、画像エンコーダに対応する画像デコーダ、および、テキストエンコーダに対応するテキストデコーダをそれぞれ学習させる（ステップＳ３）。デコーダ生成部１３２は、画像デコーダおよびテキストデコーダそれぞれの目的関数の値がそれぞれの条件を満たすか否かを判定する（ステップＳ４）。

【0069】

デコーダ生成部１３２は、画像デコーダおよびテキストデコーダそれぞれの目的関数の値がそれぞれの条件を満たさないと判定した場合（ステップＳ４；Ｎｏ）、ステップＳ３の学習を繰り返す。一方、デコーダ生成部１３２によって画像デコーダおよびテキストデコーダそれぞれの目的関数の値がそれぞれの条件を満たすと判定された場合（ステップＳ４；Ｙｅｓ）、情報処理装置１００のエンコーダ生成部１３３は、画像の特徴情報およびテキストの特徴情報を共通の潜在空間にマッピングするように画像エンコーダおよびテキストエンコーダをそれぞれ再学習させる（ステップＳ５）。エンコーダ生成部１３３は、画像エンコーダおよびテキストエンコーダそれぞれの目的関数の値がそれぞれの条件を満たすか否かを判定する（ステップＳ６）。

【0070】

エンコーダ生成部１３３は、画像エンコーダおよびテキストエンコーダそれぞれの目的関数の値がそれぞれの条件を満たさないと判定した場合（ステップＳ６；Ｎｏ）、ステップＳ５の学習を繰り返す。一方、エンコーダ生成部１３３によって画像エンコーダおよびテキストエンコーダそれぞれの目的関数の値がそれぞれの条件を満たすと判定された場合（ステップＳ６；Ｙｅｓ）、エンコーダ生成部１３３は、学習処理を終了する。

【0071】

〔４．変形例〕
上述した実施形態に係る処理は、上記実施形態以外にも種々の異なる形態にて実施されてよい。

【0072】

〔４－１．第３の学習段階に係る学習処理の変形例〕
上述した実施形態では、エンコーダ生成部１３３が、第３の学習段階に係る学習処理の一例として、一方のデコーダを用いて生成された一方の種類の情報と、一方のエンコーダに入力された一方の種類の情報とに基づいて、２種類のエンコーダをそれぞれ再学習させる場合について説明したが、これに限られない。具体的には、エンコーダ生成部１３３は、第３の学習段階に係る学習処理の変形例として、画像とテキストのうち、一方の種類の情報と、デコーダ生成部１３２によって生成された２つの学習済みデコーダのうち、一方の種類の情報とは異なる他方の種類の情報に対応する学習済みデコーダを用いて生成された他方の種類の情報とに基づいて、画像エンコーダおよびテキストエンコーダをそれぞれ再学習させてもよい。なお、図５および図６の説明と重複する内容については記載を省略する。

【0073】

より具体的には、上述した図５において、エンコーダ生成部１３３は、テキスト＃３１と、デコーダ生成部１３２によって生成された学習済み画像デコーダＭ４を用いて生成された画像＃３１´とに基づいて、テキストエンコーダＭ１および画像エンコーダＭ２をそれぞれ再学習させてもよい。例えば、エンコーダ生成部１３３は、取得部１３１によって取得されたテキストエンコーダＭ１を用いて、テキスト＃３１から、テキスト＃３１に対応するテキストの特徴ベクトルＶ３１を生成する。続いて、エンコーダ生成部１３３は、デコーダ生成部１３２によって生成された学習済み画像デコーダＭ４を用いて、テキストエンコーダＭ１を用いて生成されたテキストの特徴ベクトルＶ３１から、画像＃３１´を生成する。続いて、エンコーダ生成部１３３は、取得部１３１によって取得された画像エンコーダＭ２を用いて、画像＃３１´から、画像＃３１´に対応する画像の特徴ベクトルＶ３１´を生成する。

【0074】

続いて、エンコーダ生成部１３３は、テキストエンコーダＭ１を用いて生成されたテキストの特徴ベクトルＶ３１、および、画像エンコーダＭ２を用いて生成された画像の特徴ベクトルＶ３１´をそれぞれ共通の潜在空間にマッピングするようテキストエンコーダＭ１および画像エンコーダＭ２をそれぞれ再学習させる。より具体的には、エンコーダ生成部１３３は、テキストの特徴ベクトルＶ３１と、画像の特徴ベクトルＶ３１´との類似度が所定の閾値以上となるようにテキストエンコーダＭ１および画像エンコーダＭ２を再学習させる。

【0075】

また、上述した図６において、エンコーダ生成部１３３は、画像＃３２と、デコーダ生成部１３２によって生成された学習済みテキストデコーダＭ３を用いて生成されたテキスト＃３２´とに基づいて、テキストエンコーダＭ１および画像エンコーダＭ２をそれぞれ再学習させてもよい。例えば、エンコーダ生成部１３３は、取得部１３１によって取得された画像エンコーダＭ２を用いて、画像＃３２から、画像＃３２に対応する画像の特徴ベクトルＶ３２を生成する。続いて、エンコーダ生成部１３３は、デコーダ生成部１３２によって生成された学習済みテキストデコーダＭ３を用いて、画像エンコーダＭ２を用いて生成された画像の特徴ベクトルＶ３２から、テキスト＃３２´を生成する。続いて、エンコーダ生成部１３３は、取得部１３１によって取得されたテキストエンコーダＭ１を用いて、テキスト＃３２´から、テキスト＃３２´に対応するテキストの特徴ベクトルＶ３２´を生成する。

【0076】

続いて、エンコーダ生成部１３３は、画像エンコーダＭ２を用いて生成された画像の特徴ベクトルＶ３２、および、テキストエンコーダＭ１を用いて生成されたテキストの特徴ベクトルＶ３２´をそれぞれ共通の潜在空間にマッピングするようテキストエンコーダＭ１および画像エンコーダＭ２をそれぞれ再学習させる。より具体的には、エンコーダ生成部１３３は、画像の特徴ベクトルＶ３２と、テキストの特徴ベクトルＶ３２´との類似度が所定の閾値以上となるようにテキストエンコーダＭ１および画像エンコーダＭ２を再学習させる。

【0077】

〔４－２．異なる２種類の情報のその他の組み合わせ〕
上述した実施形態では、異なる２種類の情報が、画像およびテキストである場合について説明したが、異なる２種類の情報は、対応関係を有し得るデータであればいかなるデータの組み合わせであってもよい。例えば、異なる２種類の情報は、テキストおよび音声データの組み合わせであってもよい。また、異なる２種類の情報は、画像および音声データの組み合わせであってもよい。また、異なる２種類の情報は、画像および電波信号の組み合わせであってもよい。また、異なる２種類の情報は、ＲＧＢ画像およびサーマル画像の組み合わせであってもよい。また、異なる２種類の情報は、音楽、画像、もしくは映像、および、音楽、画像、もしくは映像に対応するテキスト（音楽、画像、もしくは映像の内容を示す説明文、または、音楽もしくは映像に含まれる音声データの書き起こし）の組み合わせであってもよい。

【0078】

〔４－３．異なる２種類以上の情報の組み合わせ〕
上述した実施形態では、情報処理装置１００が、異なる２種類の情報それぞれに対応する特徴情報を共通の潜在空間にマッピングするようそれぞれ学習させた２種類のエンコーダを再学習させる場合について説明したが、異なる情報の種類は２種類以上であってもよい。

【0079】

具体的には、取得部１３１は、異なるＭ種類（Ｍは２以上の自然数）の情報それぞれに対応するそれぞれの特徴情報を共通の潜在空間にマッピングするようそれぞれ学習させたＭ種類のエンコーダを取得してよい。例えば、取得部１３１は、相互に対応する異なるＭ種類の情報の組データに基づいてそれぞれ学習させたＭ種類のエンコーダを取得してよい。また、デコーダ生成部１３２は、Ｍ種類のエンコーダそれぞれに対応するＭ種類のデコーダそれぞれを生成してよい。また、エンコーダ生成部１３３は、異なるＭ種類の情報のうち、一の種類の情報と、Ｍ種類のデコーダのうち、一の種類の情報とは異なる他の種類の情報に対応するデコーダである他のデコーダを用いて生成された他の種類の情報とに基づいて、Ｍ種類のエンコーダをそれぞれ再学習させてよい。例えば、エンコーダ生成部１３３は、Ｍ種類のエンコーダのうち、一の種類の情報に対応するエンコーダである一のエンコーダを用いて、一の種類の情報から、一の種類の情報に対応する特徴情報である一の特徴情報を生成し、Ｍ種類のエンコーダのうち、他の種類の情報に対応するエンコーダである他のエンコーダを用いて、他のデコーダを用いて生成された他の種類の情報から、他の種類の情報に対応する特徴情報である他の特徴情報を生成し、生成された一の特徴情報および他の特徴情報をそれぞれ共通の潜在空間にマッピングするようＭ種類のエンコーダをそれぞれ再学習させてよい。

【0080】

また、エンコーダ生成部１３３は、Ｍ種類のデコーダのうち、一の種類の情報に対応するデコーダである一のデコーダを用いて、一の種類の情報とは異なる他の種類の情報に対応するエンコーダである他のエンコーダを用いて生成された他の特徴情報から、一の種類の情報を生成し、一のデコーダを用いて生成された一の種類の情報と、一のエンコーダに入力された一の種類の情報とに基づいて、Ｍ種類のエンコーダをそれぞれ再学習させてよい。

【0081】

〔５．効果〕
上述したように、実施形態に係る情報処理装置１００は、取得部１３１とデコーダ生成部１３２とエンコーダ生成部１３３を備える。取得部１３１は、異なる複数の種類の情報それぞれに対応するそれぞれの特徴情報を共通の潜在空間にマッピングするようそれぞれ学習させた複数の種類のエンコーダを取得する。デコーダ生成部１３２は、複数の種類のエンコーダそれぞれに対応する複数の種類のデコーダそれぞれを生成する。エンコーダ生成部１３３は、異なる複数の種類の情報のうち、一の種類の情報と、複数の種類のデコーダのうち、一の種類の情報とは異なる他の種類の情報に対応するデコーダである他のデコーダを用いて生成された他の種類の情報とに基づいて、複数の種類のエンコーダをそれぞれ再学習させる。

【0082】

これにより、情報処理装置１００は、異なるＭ種類（Ｍは２以上の自然数）の情報のうち、例えば、（Ｍ－１）種類の情報が欠けており、Ｍ種類の情報の組データが存在しない場合であっても、少なくとも１種類の情報が存在すれば、存在する１種類の情報とは異なる他の（Ｍ－１）種類の情報に対応するデコーダを用いて、存在する１種類の情報に対応する他の（Ｍ－１）種類の情報を生成することができる。これにより、情報処理装置１００は、異なるＭ種類の情報の組データが存在しない場合であっても、少なくとも１種類の情報と、デコーダを用いて生成された他の種類の情報との組に基づいて、Ｍ種類のエンコーダをそれぞれ再学習させることができる。また、複数の種類の情報の組データの数と比べると、組データではない１種類の情報の数は多い。したがって、情報処理装置１００は、より多くの学習データに基づいて複数の種類のエンコーダをそれぞれ再学習させることができるので、異なる複数の種類の情報を共通の潜在空間に埋め込むことができる複数の種類のエンコーダの精度をそれぞれ向上させることができる。また、情報処理装置１００は、異なる複数の種類の情報を共通の潜在空間に埋め込むことができる複数の種類のエンコーダの精度をそれぞれ向上させることができるため、持続可能な開発目標（ＳＤＧｓ）の目標９「産業と技術革新の基盤をつくろう」の達成に貢献できる。

【0083】

また、取得部１３１は、異なる２種類の情報それぞれに対応する特徴情報を共通の潜在空間にマッピングするようそれぞれ学習させた２種類のエンコーダを取得する。デコーダ生成部１３２は、２種類のエンコーダそれぞれに対応する２種類のデコーダそれぞれを生成する。エンコーダ生成部１３３は、異なる２種類の情報のうち、一方の種類の情報と、２種類のデコーダのうち、一方の種類の情報とは異なる他方の種類の情報に対応するデコーダである他方のデコーダを用いて生成された他方の種類の情報とに基づいて、２種類のエンコーダをそれぞれ再学習させる。

【0084】

このように、情報処理装置１００は、一方の種類の情報しか存在しない（異なる２種類の情報のペアデータが存在しない）場合であっても、一方の種類の情報とは異なる他方の種類の情報に対応するデコーダを用いて、一方の種類の情報に対応する他方の種類の情報を生成することができる。これにより、情報処理装置１００は、一方の種類の情報しか存在しない（異なる２種類の情報のペアデータが存在しない）場合であっても、一方の種類の情報と、デコーダを用いて生成された他方の種類の情報との組に基づいて、２種類のエンコーダをそれぞれ再学習させることができる。また、上述したように、異なる２種類の情報のペアデータの数と比べると、ペアデータではない一方の種類の情報の数は多い。したがって、情報処理装置１００は、より多くの学習データに基づいて２種類のエンコーダをそれぞれ再学習させることができるので、異なる２種類の情報を共通の潜在空間に埋め込むことができる２種類のエンコーダの精度をそれぞれ向上させることができる。

【0085】

また、エンコーダ生成部１３３は、２種類のエンコーダのうち、一方の種類の情報に対応するエンコーダである一方のエンコーダを用いて、一方の種類の情報から、一方の種類の情報に対応する特徴情報である一方の特徴情報を生成し、２種類のエンコーダのうち、他方の種類の情報に対応するエンコーダである他方のエンコーダを用いて、他方のデコーダを用いて生成された他方の種類の情報から、他方の種類の情報に対応する特徴情報である他方の特徴情報を生成し、生成された一方の特徴情報および他方の特徴情報をそれぞれ共通の潜在空間にマッピングするよう２種類のエンコーダをそれぞれ再学習させる。

【0086】

これにより、情報処理装置１００は、一方の種類の情報しか存在しない（異なる２種類の情報のペアデータが存在しない）場合であっても、一方の種類の情報に対応する特徴情報と、デコーダを用いて生成された他方の種類の情報に対応する特徴情報との組に基づいて、２種類のエンコーダをそれぞれ再学習させることができる。

【0087】

また、エンコーダ生成部１３３は、他方のデコーダを用いて、一方のエンコーダを用いて生成された一方の特徴情報から、他方の種類の情報を生成する。

【0088】

これにより、情報処理装置１００は、一方の種類の情報しか存在しない（異なる２種類の情報のペアデータが存在しない）場合であっても、一方の種類の情報に対応する他方の種類の情報を生成することができる。

【0089】

また、エンコーダ生成部１３３は、２種類のデコーダのうち、一方の種類の情報に対応するデコーダである一方のデコーダを用いて、他方のエンコーダを用いて生成された他方の特徴情報から、一方の種類の情報を生成し、一方のデコーダを用いて生成された一方の種類の情報と、一方のエンコーダに入力された一方の種類の情報とに基づいて、２種類のエンコーダをそれぞれ再学習させる。

【0090】

これにより、情報処理装置１００は、一方の種類の情報しか存在しない（異なる２種類の情報のペアデータが存在しない）場合であっても、２種類のデコーダを用いて、一方のエンコーダに入力された一方の種類の情報に対応する一方の種類の情報を生成することができる。これにより、情報処理装置１００は、一方の種類の情報しか存在しない（異なる２種類の情報のペアデータが存在しない）場合であっても、一方のデコーダを用いて生成された一方の種類の情報と、一方のエンコーダに入力された一方の種類の情報とに基づいて、２種類のエンコーダをそれぞれ再学習させることができる。また、上述したように、異なる２種類の情報のペアデータの数と比べると、ペアデータではない一方の種類の情報の数は多い。したがって、情報処理装置１００は、より多くの学習データに基づいて２種類のエンコーダをそれぞれ再学習させることができるので、異なる２種類の情報を共通の潜在空間に埋め込むことができる２種類のエンコーダの精度をそれぞれ向上させることができる。

【0091】

また、デコーダ生成部１３２は、一方の種類の情報と、２種類のデコーダのうち、一方の種類の情報に対応するデコーダである一方のデコーダを用いて生成された一方の種類の情報とに基づいて学習させた一方のデコーダである学習済み第１デコーダ、および、他方の種類の情報と、他方のデコーダを用いて生成された他方の種類の情報とに基づいて学習させた他方のデコーダである学習済み第２デコーダを生成する。エンコーダ生成部１３３は、一方の種類の情報と、学習済み第２デコーダを用いて生成された他方の種類の情報とに基づいて、２種類のエンコーダをそれぞれ再学習させる。

【0092】

これにより、情報処理装置１００は、一方の種類の情報しか存在しない（異なる２種類の情報のペアデータが存在しない）場合であっても、２種類のエンコーダそれぞれに対応する２種類のデコーダそれぞれを生成ことができる。

【0093】

また、デコーダ生成部１３２は、２種類のエンコーダのうち、一方の種類の情報に対応するエンコーダである一方のエンコーダを用いて、一方の種類の情報から、一方の種類の情報に対応する特徴情報である一方の特徴情報を生成し、一方のデコーダを用いて、一方のエンコーダを用いて生成された一方の特徴情報から、一方の種類の情報を生成し、２種類のエンコーダのうち、他方の種類の情報に対応するエンコーダである他方のエンコーダを用いて、他方の種類の情報から、他方の種類の情報に対応する特徴情報である他方の特徴情報を生成し、他方のデコーダを用いて、他方のエンコーダを用いて生成された他方の特徴情報から、他方の種類の情報を生成する。

【0094】

これにより、情報処理装置１００は、一方の種類の情報しか存在しない（異なる２種類の情報のペアデータが存在しない）場合であっても、２種類のエンコーダそれぞれに対応する一方の種類の情報に基づいて、精度の高い２種類のデコーダそれぞれを生成することができる。

【0095】

また、取得部１３１は、一方の種類の情報と、一方の種類の情報に対応する他方の種類の情報との組に基づいてそれぞれ学習させた２種類のエンコーダを取得する。

【0096】

これにより、情報処理装置１００は、異なる２種類の情報それぞれに対応する特徴情報を共通の潜在空間にマッピングするようそれぞれ学習させた２種類のエンコーダを取得することができる。

【0097】

また、異なる２種類の情報は、画像およびテキストである。

【0098】

このように、情報処理装置１００は、画像およびテキストのうち、一方の種類の情報しか存在しない（画像とテキストのペアデータが存在しない）場合であっても、一方の種類のデータ（例えば、画像（またはテキスト））とは異なる他方の種類の情報（例えば、テキスト（または画像））に対応するデコーダを用いて、一方の種類の情報（例えば、画像（またはテキスト））に対応する他方の種類の情報（例えば、テキスト（または画像））を生成することができる。これにより、情報処理装置１００は、一方の種類の情報しか存在しない（画像とテキストのペアデータが存在しない）場合であっても、一方の種類の情報（例えば、画像（またはテキスト））と、デコーダを用いて生成された他方の種類の情報（例えば、テキスト（または画像））との組に基づいて、画像エンコーダおよびテキストエンコーダをそれぞれ再学習させることができる。また、上述したように、画像とテキストの組であるペアデータの数と比べると、ペアデータではない画像だけのデータやテキストだけのデータの数は多い。したがって、情報処理装置１００は、より多くの学習データに基づいて画像エンコーダおよびテキストエンコーダをそれぞれ再学習させることができるので、画像およびテキストを共通の潜在空間に埋め込むことができる画像エンコーダおよびテキストエンコーダの精度をそれぞれ向上させることができる。

【0099】

また、デコーダ生成部１３２は、機械学習により学習させた機械学習モデルである２種類のデコーダそれぞれを生成する。エンコーダ生成部１３３は、機械学習により学習させた機械学習モデルである前記２種類のエンコーダをそれぞれ再学習させる。

【0100】

これにより、情報処理装置１００は、２種類のデコーダおよび２種類のエンコーダを機械学習により学習させることで、より精度の高い２種類のデコーダおよび２種類のエンコーダを生成することができる。

【0101】

〔６．ハードウェア構成〕
また、上述してきた実施形態に係る情報処理装置１００は、例えば図８に示すような構成のコンピュータ１０００によって実現される。図８は、情報処理装置１００の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を備える。

【0102】

ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

【0103】

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、所定の通信網を介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータを所定の通信網を介して他の機器へ送信する。

【0104】

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、生成したデータを入出力インターフェイス１６００を介して出力装置へ出力する。

【0105】

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラムまたはデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

【0106】

例えば、コンピュータ１０００が実施形態に係る情報処理装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１３０の機能を実現する。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを記録媒体１８００から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。

【0107】

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

【0108】

〔７．その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

【0109】

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

【0110】

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

【0111】

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。

【符号の説明】

【0112】

１００情報処理装置
１１０通信部
１２０記憶部
１３０制御部
１３１取得部
１３２デコーダ生成部
１３３エンコーダ生成部

【図1】