IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 独立行政法人産業技術総合研究所の特許一覧

特開2024-46835情報処理装置、情報通信装置、情報処理方法および情報処理プログラム
<>
  • 特開-情報処理装置、情報通信装置、情報処理方法および情報処理プログラム 図1
  • 特開-情報処理装置、情報通信装置、情報処理方法および情報処理プログラム 図2
  • 特開-情報処理装置、情報通信装置、情報処理方法および情報処理プログラム 図3
  • 特開-情報処理装置、情報通信装置、情報処理方法および情報処理プログラム 図4
  • 特開-情報処理装置、情報通信装置、情報処理方法および情報処理プログラム 図5
  • 特開-情報処理装置、情報通信装置、情報処理方法および情報処理プログラム 図6
  • 特開-情報処理装置、情報通信装置、情報処理方法および情報処理プログラム 図7
  • 特開-情報処理装置、情報通信装置、情報処理方法および情報処理プログラム 図8
  • 特開-情報処理装置、情報通信装置、情報処理方法および情報処理プログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024046835
(43)【公開日】2024-04-05
(54)【発明の名称】情報処理装置、情報通信装置、情報処理方法および情報処理プログラム
(51)【国際特許分類】
   G06N 20/00 20190101AFI20240329BHJP
   G06N 3/08 20230101ALI20240329BHJP
【FI】
G06N20/00
G06N3/08
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022152153
(22)【出願日】2022-09-26
【国等の委託研究の成果に係る記載事項】(出願人による申告)令和2年度国立研究開発法人科学技術振興機構「ムーンショット型研究開発事業(脳内情報表現の解読と数理基盤技術の開発)」委託研究、産業技術力強化法第17条の適用を受ける特許出願
(71)【出願人】
【識別番号】301021533
【氏名又は名称】国立研究開発法人産業技術総合研究所
(74)【代理人】
【識別番号】100105924
【弁理士】
【氏名又は名称】森下 賢樹
(72)【発明者】
【氏名】林 隆介
(72)【発明者】
【氏名】中村 大樹
(57)【要約】      (修正有)
【課題】異なる表現形式で表現されたデータ群の間で、データを、共通の形式に変換する。
【解決手段】異なる表現形式で表現された少なくとも2つのデータ群の間でデータを変換する情報処理装置は、第1のデータ群および第2のデータ群を、対照学習を用いるなどしてN次元超球面上に射影するデータ射影部と、N次元超球面上に射影されたデータ群同士の分布が一致するように変換するデータ変換部と、を備える。データ射影部は、対照学習の正規化係数を最初に大きな値に設定することにより、第1のデータ群および第2のデータ群をそれぞれN次元超球面上の狭い領域へと射影し、データ変換部が容易にデータ群間の分布の一致が学習できるようにする。データ射影部は、正規化係数を徐々に小さな値に設定することにより、N次元超球面上における第1のデータ群および第2のデータ群の射影範囲を拡大する。データ変換部は、データ分布の形状が一致するように学習する。
【選択図】図1
【特許請求の範囲】
【請求項1】
異なる表現形式で表現された少なくとも2つのデータ群の間でデータを変換する情報処理装置であって、
第1のデータ群および第2のデータ群を、対照学習を用いるなどしてN次元超球面上に射影するデータ射影部と、
前記N次元超球面上に射影されたデータ群同士の分布が一致するように変換するデータ変換部と、
を備え、
前記データ射影部は、
対照学習の正規化係数を最初に大きな値に設定することにより、第1のデータ群および第2のデータ群をそれぞれN次元超球面上の狭い領域へと射影し、データ変換部が容易にデータ群間の分布の一致が学習できるようにし、
その後、正規化係数を徐々に小さな値に設定することにより、N次元超球面上における第1のデータ群および第2のデータ群の射影範囲を拡大し、
前記データ変換部は、データ分布の形状が一致するように学習することを特徴とする情報処理装置。
【請求項2】
温度パラメータτにおける対照学習を行う際に、最大化すべき条件付き確率P(i|v)を
【数3】
としたとき、正規化係数Zを操作することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記データ変換部は、Maximum Mean Discrepancyを用いて、前記N次元超球面上における前記第1のデータ群および前記第2のデータ群のデータ分布間の距離を判定することを特徴とする請求項1または2に記載の情報処理装置。
【請求項4】
前記データ変換部は、敵対的生成ネットワークを用いて、前記N次元超球面上における前記第1のデータ群および前記第2のデータ群のデータ分布の形状が一致するように学習することを特徴とする請求項1または2に記載の情報処理装置。
【請求項5】
前記第1のデータ群から第1の特徴表現ベクトルを生成する第1の特徴表現ベクトル生成部と、
前記第2のデータ群から第2の特徴表現ベクトルを生成する第2の特徴表現ベクトル生成部と、
をさらに備え、
前記データ射影部は、前記第1の特徴表現ベクトルおよび前記第2の特徴表現ベクトルを、対照学習を用いるなどしてそれぞれ前記N次元超球面上に射影し、
前記データ変換部は、前記N次元超球面上に射影された前記第1の特徴表現ベクトルおよび前記第2の特徴表現ベクトルをそれぞれ第1の変換および第2の変換によって、第1の共通変数表現ベクトルおよび第2の共通変数表現ベクトルに変換し、
前記第1の共通変数表現ベクトルおよび前記第2の共通変数表現ベクトルは、前記第1の変換および前記第2の変換の逆変換により、それぞれ前記第1の特徴表現ベクトルおよび前記第2の特徴表現ベクトルに戻ることを特徴とする請求項1または2に記載の情報処理装置。
【請求項6】
異なる表現形式で表現された少なくとも2つのデータ群の間でデータを通信する情報通信装置であって、
第1のデータ群および第2のデータ群を、対照学習を用いるなどしてN次元超球面上に射影するデータ射影部と、
前記N次元超球面上に射影されたデータ群同士の分布が一致するように変換するデータ変換部と、
変換されたデータ間の送信および受信を行うデータ通信部と、
を備え、
前記データ射影部は、
対照学習の正規化係数を最初に大きな値に設定することにより、第1のデータ群および第2のデータ群をそれぞれN次元超球面上の狭い領域へと射影し、データ変換部が容易にデータ群の重なりが学習できるようにし、
その後、正規化係数を徐々に小さな値に設定することにより、N次元超球面上における第1のデータ群および第2のデータ群の射影範囲を拡大し、
前記データ変換部は、データ分布の形状が一致するように学習することを特徴とする情報通信装置。
【請求項7】
異なる表現形式で表現された少なくとも2つのデータ群の間でデータを変換する情報処理方法であって、
第1のデータ群および第2のデータ群を、対照学習を用いるなどしてN次元超球面上に射影するデータ射影ステップと、
前記N次元超球面上に射影されたデータ群同士の分布が一致するように変換するデータ変換ステップと、
を含み、
前記データ射影ステップは、
対照学習の正規化係数を最初に大きな値に設定することにより、第1のデータ群および第2のデータ群をそれぞれN次元超球面上の狭い領域へと射影、
その後、正規化係数を徐々に小さな値に設定することにより、N次元超球面上における第1のデータ群および第2のデータ群の射影範囲を拡大し、
前記データ変換ステップは、データ分布の形状が一致するように学習することを特徴とする情報処理方法。
【請求項8】
異なる表現形式で表現された少なくとも2つのデータ群の間でデータを変換する情報処理プログラムであって、
第1のデータ群および第2のデータ群を、対照学習を用いるなどしてN次元超球面上に射影するデータ射影ステップと、
前記N次元超球面上に射影されたデータ群同士の分布が一致するように変換するデータ変換ステップと、
をコンピュータに実行させ、
前記データ射影ステップは、
対照学習の正規化係数を最初に大きな値に設定することにより、第1のデータ群および第2のデータ群をそれぞれN次元超球面上の狭い領域へと射影、
その後、正規化係数を徐々に小さな値に設定することにより、N次元超球面上における第1のデータ群および第2のデータ群の射影範囲を拡大し、
前記データ変換ステップは、データ分布の形状が一致するように学習することを特徴とする情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報通信装置、情報処理方法および情報処理プログラムに関する。
【背景技術】
【0002】
画像データとテキストデータに共通する共通特徴ベクトルを生成し、この共通特徴ベクトルを脳活動特徴ベクトルと比較して、脳活動特徴ベクトルを、最も相関が高いベクトルを生成するチャネルへ選択的に供給する技術が提案されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2018-205885
【発明の概要】
【発明が解決しようとする課題】
【0004】
近年、様々な分野で、複数のデータ群の間でデータを共有または通信することが求められている。このとき、あるデータ群と別のデータ群とでは、データの表現形式が異なる場合がある。例えば、日本語で表現されたデータ群と英語で表現されたデータ群、あるいは異なる人の脳が認識した各人の脳内における情報のデータ群などである。このような異なる表現形式を持つデータ群の間で情報を共有または通信するためには、データを表現形式に依存しない共通の表現形式に変換することが必要となる。
【0005】
本発明はこうした状況に鑑みてなされたものであり、その目的は、異なる表現形式で表現されたデータ群の間で、データを、それぞれの表現形式に依存しない共通の形式に変換することにある。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本発明のある態様の情報処理装置は、異なる表現形式で表現された少なくとも2つのデータ群の間でデータを変換する情報処理装置であって、第1のデータ群および第2のデータ群を、対照学習を用いるなどしてN次元超球面上に射影するデータ射影部と、N次元超球面上に射影されたデータ群同士の分布が一致するように変換するデータ変換部と、を備える。データ射影部は、対照学習の正規化係数を最初に大きな値に設定することにより、第1のデータ群および第2のデータ群をそれぞれN次元超球面上の狭い領域へと射影し、データ変換部が容易にデータ群間の一致が学習できるようにする。その後、データ射影部は、正規化係数を徐々に小さな値に設定することにより、N次元超球面上における第1のデータ群および第2のデータ群の射影範囲を拡大する。データ変換部は、データ分布の形状が一致するように学習する。
【0007】
ある実施の形態の情報処理装置では、温度パラメータτにおける対照学習は、式(1)で与えられる条件付き確率P(i|v)が最大になるように学習する。ただし、i番目のデータサンプルに対応するN次元超球面上の特徴表現ベクトルをfとし、全データサンプルの特徴表現ベクトルからなる行列をvとする。Tは行列の転置を表す。
【数1】
このとき、正規化係数Zは、データ群の特徴表現ベクトルを用いて
【数2】
と定義する方法が広く利用されている。jはインデックス、nはデータサンプル数である。しかし、操作可能な正規化係数Zとして、式(3)に基づいて対照学習を行うことも可能である。
【数3】
【0008】
ある実施の形態の情報処理装置では、データ変換部は、Maximum Mean Discrepancyを用いて、N次元超球面上における第1のデータ群および第2のデータ群のデータ分布間の距離を判定してもよい。
【0009】
ある実施の形態の情報処理装置では、データ変換部は、敵対的生成ネットワークを用いて、N次元超球面上における第1のデータ群および第2のデータ群のデータ分布の形状が一致するように学習してもよい。
【0010】
ある実施の形態の情報処理装置は、第1のデータ群から第1の特徴表現ベクトルを生成する第1の特徴表現ベクトル生成部と、第2のデータ群から第2の特徴表現ベクトルを生成する第2の特徴表現ベクトル生成部と、をさらに備えてもよい。このとき、データ射影部は、第1の特徴表現ベクトルおよび第2の特徴表現ベクトルをそれぞれN次元超球面上に射影する。データ変換部は、N次元超球面上に射影された第1の特徴表現ベクトルおよび第2の特徴表現ベクトルをそれぞれ第1の変換および第2の変換によって、それぞれ第1および第2の共通変数表現ベクトルに変換する。第1および第2の共通変数表現ベクトルは、第1の変換および第2の変換の逆変換により、それぞれ第1の特徴表現ベクトルおよび第2の特徴表現ベクトルに戻る。
【0011】
本発明の別の態様は、情報通信装置である。この装置は、異なる表現形式で表現された少なくとも2つのデータ群の間でデータを通信する情報通信装置であって、第1のデータ群および第2のデータ群を、対照学習を用いるなどしてN次元超球面上に射影するデータ射影部と、N次元超球面上に射影されたデータ群同士の分布が一致するように変換するデータ変換部と、変換されたデータ間の送信および受信を行うデータ通信部と、を備える。データ射影部は、対照学習の正規化係数を最初に大きな値に設定することにより、第1のデータ群および第2のデータ群をそれぞれN次元超球面上の狭い領域へと射影し、データ変換部が容易にデータ群の重なりが学習できるようにする。その後、データ射影部は、正規化係数を徐々に小さな値に設定することにより、N次元超球面上における第1のデータ群および第2のデータ群の射影範囲を拡大する。データ変換部は、データ分布の形状が一致するように学習する。
【0012】
本発明のさらに別の態様は、情報処理方法である。この方法は、異なる表現形式で表現された少なくとも2つのデータ群の間でデータを変換する情報処理方法であって、第1のデータ群および第2のデータ群を、対照学習を用いるなどしてN次元超球面上に射影するデータ射影ステップと、N次元超球面上に射影されたデータ群同士の分布が一致するように変換するデータ変換ステップと、を含む。データ射影ステップは、対照学習の正規化係数を最初に大きな値に設定することにより、第1のデータ群および第2のデータ群をそれぞれN次元超球面上の狭い領域へと射影する。その後、データ射影ステップは、正規化係数を徐々に小さな値に設定することにより、N次元超球面上における第1のデータ群および第2のデータ群の射影範囲を拡大する。データ変換ステップは、データ分布の形状が一致するように学習する。
【0013】
本発明のさらに別の態様は、情報処理プログラムである。このプログラムは、異なる表現形式で表現された少なくとも2つのデータ群の間でデータを変換する情報処理プログラムであって、第1のデータ群および第2のデータ群を、対照学習を用いるなどしてN次元超球面上に射影するデータ射影ステップと、N次元超球面上に射影されたデータ群同士の分布が一致するように変換するデータ変換ステップと、をコンピュータに実行させる。データ射影ステップは、対照学習の正規化係数を最初に大きな値に設定することにより、第1のデータ群および第2のデータ群をそれぞれN次元超球面上の狭い領域へと射影する。その後、データ射影ステップは、正規化係数を徐々に小さな値に設定することにより、N次元超球面上における第1のデータ群および第2の射影範囲を拡大する。データ変換ステップは、データ群のデータ分布の形状が一致するように学習する。
【0014】
なお、以上の構成要素の任意の組合せ、本発明の表現を装置、方法、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
【発明の効果】
【0015】
本発明によれば、異なる表現形式で表現されたデータ群の間で、データを、それぞれの表現形式に依存しない共通の形式に変換することができる。
【0016】
また本発明によれば、異なる表現形式で表現されたデータ群の間で、一方のデータを他方の表現形式に変換することができる。このときの様子を図7に示す。
【図面の簡単な説明】
【0017】
図1】第1の実施の形態に係る情報処理装置の機能ブロック図である。
図2】データがN次元超球面上に射影した直後の(すなわち初期状態の)データ分布を示す図である。
図3】正規化係数Zを最初に大きな値(すなわちZ=10)に設定することにより、第1のデータ群および第2のデータ群をそれぞれN次元超球面上の狭い領域へと射影される様子を示す図である。
図4】正規化係数を徐々に小さな値(すなわちZ=10)に設定することにより、N次元超球面上における第1のデータ群および第2のデータ群の射影範囲が広がり、かつデータ変換部によってデータ分布の形状の一致が学習される様子を示す図である(第1のデータ群の表現形式に、第2のデータ群を変換して表示した様子)。
図5】第2の実施の形態に係る情報処理装置の機能ブロック図である。
図6】第2の実施の形態に係る情報処理装置の動作を模式的に示す図である。
図7】異なる表現形式で表現されたデータ群の間で、一方のデータを他方の表現形式に変換する様子を模式的に示す図である。
図8】第3の実施の形態に係る情報通信装置の機能ブロック図である。
図9】第4の実施の形態に係る情報処理方法および第5の実施の形態に係る情報処理プログラムの処理手順を示すフローチャートである。
【発明を実施するための形態】
【0018】
以下、本発明を好適な実施の形態をもとに各図面を参照しながら説明する。実施の形態及び変形例では、同一又は同等の構成要素、部材には同一の符号を付するものとし、適宜重複した説明は省略する。また、各図面における部材の寸法は、理解を容易にするために適宜拡大、縮小して示す。また、各図面において実施の形態を説明する上で重要でない部材の一部は省略して表示する。また、第1、第2などの序数を含む用語が多様な構成要素を説明するために用いられるが、こうした用語は一つの構成要素を他の構成要素から区別する目的でのみ用いられ、この用語によって構成要素が限定されるものではない。
【0019】
[第1の実施の形態]
図1は、第1の実施の形態に係る情報処理装置1の機能ブロック図である。情報処理装置1は、データ射影部10と、データ変換部20と、を備える。
【0020】
情報処理装置1は、第1のデータ群および第2のデータ群に接続される。第1のデータ群および第2のデータ群は、それぞれ異なる表現形式で表現されたデータから成るデータの集合であり、日本語で表現された対象のデータ群と英語で表現された対象のデータ群、あるいは異なる人の脳が認識した対象の各人の脳内における情報のデータ群などがその例である。第1のデータ群と第2のデータ群とでは表現形式が異なるため、これらのデータ群の間でこのまま直接データを共有したり通信したりすることはできない。
【0021】
第1のデータ群および第2のデータ群は、それぞれ情報処理装置1のデータ射影部10に入力される。データ射影部10は、対照学習を用いるなどして、第1のデータ群および第2のデータ群をN次元超球面上に射影する。
【0022】
前述のように、第1のデータ群と第2のデータ群とでは、データの表現形式が互いに異なる。従ってN次元超球面上に射影されたこれらのデータは、一見全く異なるデータ分布を持つ。しかしながら、これらのデータ同士が共通する概念構造を持つ場合がある。例えば第1のデータ群が日本語で表現されたデータの集合で、第2のデータ群が英語で表現されたデータの集合だった場合、「ネコ」「ライオン」「自動車」といった概念は、N次元超球面上それぞれ異なる位置に射影される。しかしながらどちらのデータ群においても、「ネコ」と「ライオン」といった類似する概念は、ベクトル表現として近い位置に表現される。一方「ネコ」と「自動車」といった類似しない概念は、ベクトル表現として遠い位置に表現される。このように異なる表現形式のデータ群であっても、概念同士の関係構造は共通する性質を持つ場合には、共通の表現形式でデータを記述しなおすことができると考えられる。
【0023】
データ射影部10は、対照学習を用いるなどして、データをN次元超球面上に射影する。対照学習は機械学習の手法の一つであり、似たデータは近くに、似ていないデータは遠くに射影されるように学習する。
【0024】
対照学習では、似たデータ同士のN次元超球面上の距離を最小化しながら、異なるデータ同士のN次元超球面上の距離を最大化する。一つ一つのデータサンプルの分離を学習したい場合、式(1)で記述される条件付き確率を最大化するように学習が行われる。
【数1】
このとき、従来の対照学習では、データ全体がN次元超球面上に広く分布するように学習が行われる。このため、条件付き確率を与える式(1)の分母である正規化係数Z(式(2))は、データ全体の分布の広がりに相当し、学習開始時に最初に読み込んだデータの集合(機械学習の分野では、1Batchとも呼ばれる)等で計算され、以後は定数として保存した値を使い続けるか、学習毎に再計算されていた。これに対し本発明者らは、正規化係数を定数とするのはなく、式(3)のように、制御可能な変数Zとし、人為的にその大きさを変えることにより、射影されたデータ分布の広がりと形状を制御できることに気が付いた。さらに本発明者らは、正規化係数を最初に大きな値に設定し、その後徐々に小さな値に設定することにより、異なる表現形式を持つデータ群の分布形状を一致させることができ、その結果両者の対応関係を解くことができることを見出した。
【0025】
データ射影部10は、対照学習の正規化係数を最初に大きな値に設定することにより、第1のデータ群および第2のデータ群をそれぞれN次元超球面上の1点ないし狭い範囲へと射影し、その後、正規化係数を徐々に小さな値に設定することにより、N次元超球面上における第1のデータ群および第2のデータ群のデータ分布範囲を広げるように学習する。
【0026】
データ変換部20は、N次元超球面上に射影された、第1のデータ群および第2のデータ群の分布が一致するように、データ群をそれぞれ変換する。両データ群が1点ないし狭い範囲へと射影されている場合、両データ群が重なるように変換するのは比較的容易に実現することができる。その後、データ射影部10の正規化係数を徐々に小さな値に設定することにより、N次元超球面上における第1のデータ群および第2のデータ群のデータ分布範囲を広げるのにあわせて、データ変換部20は、両データ分布が一致するように学習する。
【0027】
図2図4を用いて、データ射影部10が、対照学習を用いてN次元超球面上に射影した2つのデータ群を、データ変換部20が、両データ群の分布を一致させるように変換するときの動作を説明する。これらの図面では、第2のデータ群を第1のデータ群のデータ形式に合わせ込むことにより変換データを生成している。図2図4において、左図は第1のデータ群のデータ分布を、右図は第2のデータ群のデータ分布を、中央図は第2のデータ群の第1のデータ群の表現形式への合わせ込み(データ変換)結果を、それぞれ示す。
【0028】
図2は、データ射影部10がデータをN次元超球面上に射影した直後の(すなわち初期状態の)データ分布を示す。第1のデータ群(左図)と第2のデータ群(右図)とでは、一見その分布が大きく異なる。中央図には、第2のデータ群が、第1のデータ群の表現形式上に変換されたデータ分布(初期状態における変換先データ表現形式)が示されている。
【0029】
図3は、データ射影部10が、正規化係数Zを最初に大きな値(すなわちZ=10)に設定することにより、第1のデータ群および第2のデータ群をそれぞれN次元超球面上の狭い領域に分布するデータ群として表現する様子を示す。第1のデータ群(左図)および第2のデータ群(右図)は、N次元超球面上の非常に凝集した領域にマッピングされている(第1のデータ群は細い線状、第2のデータ群はほぼ点状)。これにより、データ変換部20による両者のデータの一致の学習は非常に容易なものとなる。中央図には、第2のデータ群が、非常に小さい領域(非常に短く細い線状)の第1のデータ群の表現形式に変換された様子が示されている。
【0030】
図4は、データ射影部10が、正規化係数を徐々に小さな値(すなわちZ=10)に設定することにより、N次元超球面上における第1のデータ群および第2のデータ群の分布が広がるように射影する様子を示す。正規化係数を大きな値から小さな値に緩和することにより、第1のデータ群および第2のデータ群は、N次元超球面上でより大きな領域に拡張される。データ変換部20は、両者の分布の形状が一致するように学習を行う。中央図には、第2のデータ群が、より広い領域に広がる第1のデータ群の表現形式に変換された様子が示されている。
【0031】
以上述べたように、データ射影部10は、対照学習の正規化係数を最初に大きな値に設定することにより、第1のデータ群および第2のデータ群をそれぞれN次元超球面上の狭い領域のデータ群として表現することができる。これにより、データ変換部20は容易に、両者の表現形式の一致を学習することができる。その後、データ射影部10は、正規化係数を徐々に小さな値に設定しながら、N次元超球面上における第1のデータ群および第2のデータ群の射影範囲を広げる。データ変換部20は、両者のデータ分布の形状が一致するように学習することにより、第1のデータ群および第2のデータ群の表現形式を高い精度で一致させることができる。
【0032】
表現形式の異なるデータ群を一致させる別の方法として、類似性の高い要素同士は近くに、類似性の低い要素同士は遠くに多次元超球面上でマッピングする対照学習を行った後、アンカーポイントと呼ばれる対応要素の抽出を行い、このアンカーポイントの一致と、2つのデータ分布全体の一致を実現させる機械学習手法も考えられる。しかしこの手法では、対応する要素でないものがアンカーポイントとして抽出されてしまうと、データ表現間の変換精度や共通情報表現の抽出精度が大幅に低下してしまうという問題がある。またアンカーポイントの抽出プロセスは、対照学習を含めた機械学習手法とは独立した情報処理を必要とするため、効率が悪いという欠点もある。
【0033】
これに対して本実施の形態によれば、アンカーポイントの抽出を必要とすることなく、異なるデータ表現形式間のデータ変換および共通表現の抽出が可能である。さらに、同じ機械学習プロセスの中で正規化係数を操作するだけで目的を達成できるため、演算効率が飛躍的に改善される。さらにはアンカーポイントの抽出精度に依存しないため、データ変換や共通表現の抽出精度の改善といった効果を得ることもできる。
【0034】
本発明の1つの実施例では、温度パラメータτにおける対照学習が最大化すべき条件確率P(i|v)を
【数3】
とし、正規化係数Zを操作する。
【0035】
この実施例によれば、対照学習が最大化すべき条件付き確率を具体的に定義することができる。
【0036】
データ変換部20は、Maximum Mean Discrepancy(MMD)を用いて、N次元超球面上における第1のデータ群および第2のデータ群のデータ分布間の距離を判定してもよい。
【0037】
この実施例によれば、データ分布間の距離をより正確に判定することができる。
【0038】
データ変換部は、敵対的生成ネットワーク(GAN)を用いて、N次元超球面上における第1のデータ群および第2のデータ群のデータ分布の形状が一致するように学習してもよい。
【0039】
この実施例によれば、データ分布の形状の一致の学習をより効率的に行うことができる。これ以外の方法でデータ分布の形状の一致を学習させてもよい。
【0040】
[第2の実施の形態]
図5は、第2の実施の形態に係る情報処理装置2の機能ブロック図である。情報処理装置2は、データ射影部10と、データ変換部20と、第1の特徴表現ベクトル生成部30と、第2の特徴表現ベクトル生成部40と、を備える。すなわち、情報処理装置2は、図1の情報処理装置1の構成に加えて、第1の特徴表現ベクトル生成部30と、第2の特徴表現ベクトル生成部40と、を備えている。情報処理装置2のその他の構成は、情報処理装置1の構成と共通である。
【0041】
第1の特徴表現ベクトル生成部30は、第1のデータ群から第1の特徴表現ベクトルを生成する。第2の特徴表現ベクトル生成部40は、第2のデータ群から第2の特徴表現ベクトルを生成する。
【0042】
データ射影部10は、第1の特徴表現ベクトルおよび第2の特徴表現ベクトルをそれぞれN次元超球面上に射影する。
【0043】
データ変換部20は、N次元超球面上に射影された第1の特徴表現ベクトルおよび第2の特徴表現ベクトルをそれぞれ第1の変換Fおよび第2の変換Gによって、第1および第2の共通変数表現ベクトルに変換する。第1および第2の共通変数表現ベクトルは、第1の変換Fおよび第2の変換Gの逆変換F’およびG’により、それぞれ第1の特徴表現ベクトルおよび第2の特徴表現ベクトルに戻る。
【0044】
図6に、情報処理装置2の動作を模式的に示す。
【0045】
第1の特徴表現ベクトル生成部30は、第1のデータ群に含まれる表現形式に対応した第1の特徴表現ベクトルを生成する。例えば第1の特徴表現ベクトル生成部30は、第1のデータ群がn個のデータから成る場合、これらn個のデータからn個の第1の特徴表現ベクトル
Sa=[Sa_1,Sa_2,…,Sa_n]
を生成する。ここでnは自然数である。
【0046】
同様に第2の特徴表現ベクトル生成部40は、第2のデータ群に含まれる表現形式に対応した第2の特徴表現ベクトルを生成する。例えば第2の特徴表現ベクトル生成部40は、第2のデータ群がm個のデータから成る場合、これらm個の情報からm個の第2の特徴表現ベクトル
Sb=[Sb_1,Sb_2,…,Sb_m]
を生成する。ここでmは自然数である。
【0047】
データ射影部10は、第1の特徴表現ベクトルSaおよび第2の特徴表現ベクトルSbをそれぞれN次元超球面上に射影する。
【0048】
データ変換部20は、N次元超球面上に射影された第1の特徴表現ベクトルSaおよび第2の特徴表現ベクトルSbをそれぞれ第1の変換Fおよび第2の変換Gによって、それぞれ第1および第2の共通変数表現ベクトル
Sa’=F・Sa=[Sa_1’,Sa_2’,…,Sa_n’]
Sb’=G・Sb=[Sb_1’,Sb_2’,…,Sb_m’]
に変換する。第1および第2の共通変数表現ベクトルSa’およびSb’は、第1の変換Fおよび第2の変換Gの逆変換F’およびG’により、それぞれ第1の特徴表現ベクトルSaおよび第2の特徴表現ベクトルSbに戻る。すなわち、
Sa=F-1・G・G-1・F・Sa
Sb=G-1・F・F-1・G・Sb
となる。
【0049】
本実施の形態によれば、異なるデータ表現形式間のデータ変換をより正確に実行することができる。
【0050】
[第3の実施の形態]
図8は、第3の実施の形態に係る情報通信装置3の機能ブロック図である。情報通信装置3は、データ射影部10と、データ変換部20と、データ通信部50と、を備える。すなわち情報通信装置3は、図1の情報処理装置1の構成に加えて、データ通信部50をさらに備えている。情報通信装置3のその他の構成は、情報処理装置1の構成と共通である。
【0051】
データ通信部50は、第1のデータ群を入力としてデータ射影部10を経由しデータ変換部20で表現形式が変換されたデータを第2のデータ群の情報元に送信し、第2のデータ群を入力としてデータ射影部10を経由しデータ変換部20で表現形式が変換されたデータを第1のデータ群の情報元に送信する。
【0052】
本実施の形態によれば、異なる表現形式を持つデータ群を扱うシステム間でデータを送受信することができる。
【0053】
[第4の実施の形態]
図9は、第4の実施の形態に係る情報処理方法の処理手順を示すフローチャートである。この方法は、データ射影ステップS10と、データ変換ステップS20と、を含む。
【0054】
データ射影ステップS10は、異なる表現形式で表現された第1のデータ群および第2のデータ群を、対照学習を用いるなどしてN次元超球面上に射影する。
【0055】
続いてデータ変換ステップS20は、N次元超球面上に射影されたデータ群同士の分布が一致するように変換する。
【0056】
データ射影ステップS10は、対照学習の正規化係数を最初に大きな値に設定することにより、第1のデータ群および第2のデータ群を、それぞれN次元超球面上の狭い領域へと射影する。その後、データ射影ステップS10は、正規化係数を徐々に小さな値に設定することにより、N次元超球面上における第1のデータ群および第2のデータ群の射影範囲を拡大する。データ変換ステップS20は、データ分布の形状が一致するように学習する。
【0057】
本実施の形態によれば、異なるデータ表現形式間のデータ変換をコンピュータを用いて実行することができる。
【0058】
[第5の実施の形態]
第5の実施の形態は、情報処理プログラムである。このプログラムは、図9に示される処理フローの各ステップをコンピュータに実行させる。
【0059】
データ射影ステップS10は、異なる表現形式で表現された第1のデータ群および第2のデータ群を、対照学習を用いるなどしてN次元超球面上に射影する。
【0060】
続いてデータ変換ステップS20は、N次元超球面上に射影されたデータ群同士の分布が一致するように変換する。
【0061】
データ射影ステップS10は、対照学習の正規化係数を最初に大きな値に設定することにより、第1のデータ群および第2のデータ群を、それぞれN次元超球面上の狭い領域へと射影する。その後、データ射影ステップS10は、正規化係数を徐々に小さな値に設定することにより、N次元超球面上における第1のデータ群および第2のデータ群の射影範囲を拡大する。データ変換ステップS20は、データ分布の形状が一致するように学習する。
【0062】
この実施の形態によれば、異なるデータ表現形式間のデータ変換を実行するプログラムを、コンピュータのソフトウェアとして実装することができる。
【0063】
以上、本発明の実施例を基に説明した。これらの実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
【0064】
実施の形態及び変形例を抽象化した技術的思想を理解するにあたり、その技術的思想は実施の形態及び変形例の内容に限定的に解釈されるべきではない。前述した実施の形態及び変形例は、いずれも具体例を示したものにすぎず、構成要素の変更、追加、削除等の多くの設計変更が可能である。実施の形態では、このような設計変更が可能な内容に関して、「実施の形態」との表記を付して強調している。しかしながら、そのような表記のない内容でも設計変更が許容される。
【符号の説明】
【0065】
1・・情報処理装置、
2・・情報処理装置、
3・・情報通信装置、
10・・データ射影部、
20・・データ変換部、
30・・第1の特徴表現ベクトル生成部、
40・・第2の特徴表現ベクトル生成部、
50・・データ通信部、
S10・・データ射影ステップ、
S20・・データ変換ステップ、
Sa・・第1の特徴表現ベクトル、
Sb・・第2の特徴表現ベクトル、
Sa’・・第1の共通変数表現ベクトル、
Sb’・・第2の共通変数表現ベクトル。
図1
図2
図3
図4
図5
図6
図7
図8
図9