特開2022-19422 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人九州大学の特許一覧

特開2022-19422学習装置、推論装置、学習方法、推論方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022019422

(43)【公開日】2022-01-27

(54)【発明の名称】学習装置、推論装置、学習方法、推論方法及びプログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20220120BHJP

G06N 3/08 20060101ALI20220120BHJP

G06N 99/00 20190101ALI20220120BHJP

【ＦＩ】

G06N20/00

G06N3/08

G06N99/00 180

【審査請求】未請求

【請求項の数】15

【出願形態】ＯＬ

(21)【出願番号】P 2020123246

(22)【出願日】2020-07-17

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(71)【出願人】

【識別番号】504145342

【氏名又は名称】国立大学法人九州大学

(74)【代理人】

【識別番号】110001634

【氏名又は名称】特許業務法人志賀国際特許事務所

(72)【発明者】

【氏名】武小萌

(72)【発明者】

【氏名】木村昭悟

(72)【発明者】

【氏名】柏野邦夫

(72)【発明者】

【氏名】アタルサイハンガントゥグス

(72)【発明者】

【氏名】内田誠一

(57)【要約】

【課題】人手によって設計された特徴表現の使用に依存することなく、より複雑な特徴表現を導出及び使用可能な配列整列であると同時に、単調で連続的な対応関数を導出及び使用可能を実現することが可能である学習装置、推論装置、学習方法、推論方法及びプログラムを提供する。
【解決手段】学習装置は、第１配列に基づく第１特徴配列と第２配列に基づく第２特徴配列とを用いて、第１特徴配列と第２特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意機構と、同じクラスに第１配列と第２配列とが属するか否かを表すラベルと第１特徴配列と第２特徴配列とに応じた値である目的関数値を、重み行列に基づいて導出する目的関数値導出部と、目的関数値に基づいて所定の学習処理を実行することによって学習結果を生成する更新部とを備える。
【選択図】図２

【特許請求の範囲】

【請求項1】

第１配列に基づく第１特徴配列と第２配列に基づく第２特徴配列とを用いて、前記第１特徴配列と前記第２特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意機構と、
同じクラスに前記第１配列と前記第２配列とが属するか否かを表すラベルと前記第１特徴配列と前記第２特徴配列とに応じた値である目的関数値を、前記重み行列に基づいて導出する目的関数値導出部と、
前記目的関数値に基づいて所定の学習処理を実行することによって学習結果を生成する更新部と
を備える学習装置。

【請求項2】

前記目的関数値導出部は、前記第１特徴配列と前記第２特徴配列との間又は前記第２特徴配列と前記重み行列から導出された特徴配列との間の差分若しくは類似度が前記ラベルに関連付けられるように、前記目的関数値を定める、
請求項１に記載の学習装置。

【請求項3】

第１配列に基づく第１特徴配列と第２配列に基づく第２特徴配列とを用いて、前記第１特徴配列と前記第２特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意機構と、
現在の時刻における前記第２配列の要素に対する前記第１特徴配列の各要素の重みと前記第１特徴配列とに基づいて、現在の時刻における前記第２配列の要素を導出する復号化部と、
正解配列と前記第２配列とに応じた値である目的関数値を導出する目的関数値導出部と、
前記目的関数値に基づいて所定の学習処理を実行することによって学習結果を生成する更新部と
を備える学習装置。

【請求項4】

前記第１配列の要素と前記第２配列の要素とに対応関係がある場合、単調性制約と連続性制約とのうちの少なくとも一方を表す制約関数値を前記重み行列に基づいて導出する制約関数値導出部
を備え、
前記単調性制約は、前記第２配列の要素の添字の増加につれて、前記第２配列の要素との対応関係にある前記第１配列の要素の添字が減少しないという制約であり、
前記連続性制約は、前記第２配列において隣り合う要素の添字が連続している場合に、前記第２配列において隣り合う要素の添字との対応関係にある前記第１配列の要素の添字同士の差が所定の正値以下であるという制約であり、
前記更新部は、前記目的関数値と前記制約関数値とに基づいて所定の学習処理を実行することによって学習結果を生成する、
請求項１から請求項３のいずれか一項に記載の学習装置。

【請求項5】

前記制約関数値導出部は、前記単調性制約と前記連続性制約とのうちの少なくとも一方が満たされる度合いが大きいほど、前記制約関数値を小さくする、
請求項４に記載の学習装置。

【請求項6】

前記制約関数値導出部は、前記重み行列と所定の等差数列との積を対応配列として導出し、前記対応配列における全ての要素に関する全ての局所的な前記単調性制約の関数値の総和又は平均を単調性の前記制約関数値として導出する、
請求項４又は請求項５に記載の学習装置。

【請求項7】

前記制約関数値導出部は、前記重み行列と所定の等差数列との積を対応配列として導出し、前記対応配列の各要素について前記対応配列の要素の１個前の要素と前記対応配列の要素との差の絶対値を導出し、導出された絶対値から所定の正数を減算し、減算結果の数値と０とのうちの最大値を局所的な前記連続性制約の関数値として導出し、前記対応配列における全ての要素に関する全ての局所な前記連続性制約の関数値の総和又は平均を連続性の前記制約関数値として導出する、
請求項４又は請求項５に記載の学習装置。

【請求項8】

第１配列に基づく第１特徴配列と第２配列に基づく第２特徴配列とを用いて、前記第１特徴配列と前記第２特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意機構と、
前記第１特徴配列と前記第２特徴配列と前記重み行列とに基づいて、前記第１配列と前記第２配列との間の距離を導出する照合部と、
前記距離に基づいて所定の推論処理を実行することによって推論結果を生成する推論部と
を備える推論装置。

【請求項9】

第１配列に基づく第１特徴配列と第２配列に基づく第２特徴配列とを用いて、前記第１特徴配列と前記第２特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意機構と、
前記第１特徴配列と前記重み行列とに基づいて第２配列を導出する復号化部と、
前記第２配列に基づいて所定の推論処理を実行することによって推論結果を生成する推論部と
を備える推論装置。

【請求項10】

学習装置が実行する学習方法であって、
第１配列に基づく第１特徴配列と第２配列に基づく第２特徴配列とを用いて、前記第１特徴配列と前記第２特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意ステップと、
同じクラスに前記第１配列と前記第２配列とが属するか否かを表すラベルと前記第１特徴配列と前記第２特徴配列とに応じた値である目的関数値を、前記重み行列に基づいて導出する目的関数値導出ステップと、
前記目的関数値に基づいて所定の学習処理を実行することによって学習結果を生成する更新ステップと
を含む学習方法。

【請求項11】

推論装置が実行する推論方法であって、
第１配列に基づく第１特徴配列と第２配列に基づく第２特徴配列とを用いて、前記第１特徴配列と前記第２特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意ステップと、
前記第１特徴配列と前記第２特徴配列と前記重み行列とに基づいて、前記第１配列と前記第２配列との間の距離を導出する照合ステップと、
前記距離に基づいて所定の推論処理を実行することによって推論結果を生成する推論ステップと
を含む推論方法。

【請求項12】

学習装置が実行する学習方法であって、
第１配列に基づく第１特徴配列と第２配列に基づく第２特徴配列とを用いて、前記第１特徴配列と前記第２特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意ステップと、
現在の時刻における前記第２配列の要素に対する前記第１特徴配列の各要素の重みと前記第１特徴配列とに基づいて、現在の時刻における前記第２配列の要素を導出する復号化ステップと、
正解配列と前記第２配列とに応じた値である目的関数値を導出する目的関数値導出ステップと、
前記目的関数値に基づいて所定の学習処理を実行することによって学習結果を生成する更新ステップと
を含む学習方法。

【請求項13】

推論装置が実行する推論方法であって、
第１配列に基づく第１特徴配列と第２配列に基づく第２特徴配列とを用いて、前記第１特徴配列と前記第２特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意ステップと、
前記第１特徴配列と前記重み行列とに基づいて第２配列を導出する復号化ステップと、
前記第２配列に基づいて所定の推論処理を実行することによって推論結果を生成する推論ステップと
を含む推論方法。

【請求項14】

請求項１から請求項７のいずれか一項に記載の学習装置としてコンピュータを機能させるためのプログラム。

【請求項15】

請求項８又は請求項９に記載の推論装置としてコンピュータを機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、学習装置、推論装置、学習方法、推論方法及びプログラムに関する。

【背景技術】

【0002】

配列とは、順番に並べられた一続きのデータである。配列の例として、音声信号と音響信号と生体信号とがある。配列の各データは、数値や数値ベクトルなどであり、配列の要素と呼ばれる。配列の各データは、自然数などの添字を用いて識別される。

【0003】

配列整列とは、複数の配列において互いに類似する領域を特定できるように、各配列の要素を整列させることである。配列の関係性を知る手がかりが配列整列によって与えられるので、配列整列は、例えば、動作認識、音声分析、生体信号分類及び署名認証等の多くの応用問題において重要である。特に、２個の配列の間に、局所的な変移と速度の変化とに関する非線形の時間変動が存在する場合、配列整列が必要となる。配列整列の代表的な方法として、動的時間伸縮法がある（非特許文献１参照）。

【0004】

動的時間伸縮法では、２個の配列における各要素間の距離が導出される。対応関係にある要素間の距離の合計が最小になるように、２個の配列における各要素間の対応関係が検出される。対応関係とは、互いに対応している２個の要素の組み合わせ、又は、互いに対応している２個の要素の添字の組み合わせである。

【0005】

動的時間伸縮法では、処理の並列化が困難である。このため、動的時間伸縮法と深層学習とを組み合わせることは難しい。また、動的時間伸縮法は、人手によって設計された特徴表現の使用に依存し、より複雑な特徴表現が必要な場合に性能が不十分である。従って、動的時間伸縮法は、所定の目的の応用問題には最適でない場合が多い。

【0006】

機械翻訳、音声合成及び音声変換等の分野では、深層学習と組み合わせることが容易な配列整列の方法として、注意機構を使用する方法がある（非特許文献２、３参照）。注意機構は、第１配列と第２配列との２個の配列に関して、第２配列の各要素に対する第１配列の各要素の重みを導出する。導出された各重みは、第１配列と第２配列との２個の配列の各要素が対応関係にある確率を表す。注意機構を使用する配列整列の方法では、第２配列の各要素に対する第１配列の各要素の重みに基づいて第１配列の各要素が並べ替えられることによって、配列整列が実現される。

【先行技術文献】

【非特許文献】

【0007】

【非特許文献1】Hiroaki Sakoe and Seibi Chiba, "Dynamic programming algorithm optimization for spoken word recognition," IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. 26, No. 1, pp. 43-49, 1978.

【非特許文献2】Dzmitry Bahdanau, KyungHyun Cho, and Yoshua Bengio, "Neural machine translation by jointly learning to align and translate," In ICLR, 2015.

【非特許文献3】Minh-Thang Luong, Hieu Pham, and Christopher D. Manning, "Effective approaches to attention-based neural machine translation," In EMNLP, pp. 1412-1421, 2015.

【発明の概要】

【発明が解決しようとする課題】

【0008】

第２配列の添字を独立変数とし、第２配列の添字との対応関係にある第１配列の添字を従属変数とする関数（以下「対応関数」という。）を用いて、２個の配列の各要素間の対応関係は表される。照合又は分類などの応用問題では、同じクラスに属する２個の配列において、対応関数が単調で連続的である場合が多い。これに対して、異なるクラスに属する２個の配列において、対応関数が非単調又は非連続的である場合が多い。

【0009】

このような性質が利用されることによって、同じクラスに２個の配列が属するか否かを判定することが可能である。例えば、単調で連続的な対応関数が２個の配列から導出され、対応関係にある要素間の距離の合計が導出可能である。この合計が大きい場合には、異なるクラスに２個の配列が属すると判定することができる。

【0010】

このような性質を利用する代表的な配列整列方法として、動的時間伸縮法がある。しかしながら、動的時間伸縮法は、人手によって設計された特徴表現の使用に依存し、より複雑な特徴表現が必要な場合に性能が不十分である。従って、動的時間伸縮法は、所定の目的の応用問題には最適でない場合が多い。

【0011】

これに対して注意機構は、人手によって設計された特徴表現に依存しない。しかしながら従来では、注意機構を使用して照合又は分類などの応用問題を解決することができない。なぜなら、２個の配列の各要素が対応関係にある確率を従来の注意機構が導出したとしても、対応関数を確率から導出することができないためである。また、従来の注意機構が対応関数を導出したとしても、対応関数が単調で連続的であることを保証する方法がないためである。

【0012】

従って、従来の注意機構を使用して整列された配列の間の距離が照合又は分類等の応用問題に適用された場合、配列間の距離が非常に小さく導出されることが多い。このため、異なるクラスに属する２個の配列を正しく区別することができないことが多い。

【0013】

図１０は、重み行列の例を示す図である。重み行列は、２個の配列の各要素が対応関係にある確率を表す行列である。図１０では、第１配列は一例として「ＬＩＳＴＥＮ」であり、第２配列は一例として「ＳＩＬＥＮＴ」である。値が「１」である重み行列の要素は、該当する要素が対応関係にあることを表す。

【0014】

図１０における左側に示された重み行列は、従来の注意機構によって導出された重み行列である。このように従来の注意機構は、非単調で非連続的な対応関数を導出する。異なるクラスに２個の配列が属していても、図１０における左側に示された重み行列では、対応関係にある要素間の距離の合計が０となっているため、２個の配列を正しく区別することができていない。

【0015】

このため、照合又は分類などの応用問題において、図１０における右側に示された重み行列における「１」の並び方のように単調で連続的な対応関数を導出及び使用可能な配列整列方法が必要とされている。このような配列整列方法によって、配列間の距離又は類似度が正しく導出され、異なるクラスに属する配列であるか否かを正しく推論することが可能である。

【0016】

音声合成又は音声変換などの応用問題では、第１配列を第２配列に変換することが目的である。第１配列と第２配列との間において、局所的な変移と速度の変化とに関する非線形の時間変動が存在する場合、配列整列が必要となる。例えば、日本人の英語音声をアメリカ人の英語音声に変換する場合、英語音声のテンポに変動が存在するため、音声信号の配列を整列する必要がある。すなわち、２個の配列の各要素間の対応関係が推定され、推定された対応関係を使用して第１配列が整列され、整列された第１配列が第２配列に変換される必要がある。このような場合でも、２個の配列の間における対応関数が単調で連続的であることが多い。

【0017】

しかしながら、従来の注意機構を使用する方法では、単調で連続的な対応関数を注意機構が導出できるように、数理モデルの学習を誘導（ガイド）する機能がない。このため、注意機構が十分な性能を提供できるようになるまでには、長い学習時間が必要である場合が多い。

【0018】

このため、音声合成又は音声変換などの応用問題においても、上述の配列整列方法が必要とされている。このような配列整列方法によって、音声合成又は音声変換などの推論精度の向上と学習時間の短縮とを両立させることが可能である。

【0019】

上記事情に鑑み、本発明は、人手によって設計された特徴表現の使用に依存することなく、より複雑な特徴表現を導出及び使用可能であると同時に、単調で連続的な対応関数を導出及び使用可能な配列整列を実現することが可能である学習装置、推論装置、学習方法、推論方法及びプログラムを提供することを目的としている。

【課題を解決するための手段】

【0020】

本発明の一態様は、第１配列に基づく第１特徴配列と第２配列に基づく第２特徴配列とを用いて、前記第１特徴配列と前記第２特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意機構と、同じクラスに前記第１配列と前記第２配列とが属するか否かを表すラベルと前記第１特徴配列と前記第２特徴配列とに応じた値である目的関数値を、前記重み行列に基づいて導出する目的関数値導出部と、前記目的関数値に基づいて所定の学習処理を実行することによって学習結果を生成する更新部とを備える学習装置である。

【0021】

本発明の一態様は、第１配列に基づく第１特徴配列と第２配列に基づく第２特徴配列とを用いて、前記第１特徴配列と前記第２特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意機構と、現在の時刻における前記第２配列の要素に対する前記第１特徴配列の各要素の重みと前記第１特徴配列とに基づいて、現在の時刻における前記第２配列の要素を導出する復号化部と、正解配列と前記第２配列とに応じた値である目的関数値を導出する目的関数値導出部と、前記目的関数値に基づいて所定の学習処理を実行することによって学習結果を生成する更新部とを備える学習装置である。

【0022】

本発明の一態様は、第１配列に基づく第１特徴配列と第２配列に基づく第２特徴配列とを用いて、前記第１特徴配列と前記第２特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意機構と、前記第１特徴配列と前記第２特徴配列と前記重み行列とに基づいて、前記第１配列と前記第２配列との間の距離を導出する照合部と、前記距離に基づいて所定の推論処理を実行することによって推論結果を生成する推論部とを備える推論装置である。

【0023】

本発明の一態様は、第１配列に基づく第１特徴配列と第２配列に基づく第２特徴配列とを用いて、前記第１特徴配列と前記第２特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意機構と、前記第１特徴配列と前記重み行列とに基づいて第２配列を導出する復号化部と、前記第２配列に基づいて所定の推論処理を実行することによって推論結果を生成する推論部とを備える推論装置である。

【0024】

本発明の一態様は、学習装置が実行する学習方法であって、第１配列に基づく第１特徴配列と第２配列に基づく第２特徴配列とを用いて、前記第１特徴配列と前記第２特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意ステップと、同じクラスに前記第１配列と前記第２配列とが属するか否かを表すラベルと前記第１特徴配列と前記第２特徴配列とに応じた値である目的関数値を、前記重み行列に基づいて導出する目的関数値導出ステップと、前記目的関数値に基づいて所定の学習処理を実行することによって学習結果を生成する更新ステップとを含む学習方法である。

【0025】

本発明の一態様は、推論装置が実行する推論方法であって、第１配列に基づく第１特徴配列と第２配列に基づく第２特徴配列とを用いて、前記第１特徴配列と前記第２特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意ステップと、前記第１特徴配列と前記第２特徴配列と前記重み行列とに基づいて、前記第１配列と前記第２配列との間の距離を導出する照合ステップと、前記距離に基づいて所定の推論処理を実行することによって推論結果を生成する推論ステップとを含む推論方法である。

【0026】

本発明の一態様は、学習装置が実行する学習方法であって、第１配列に基づく第１特徴配列と第２配列に基づく第２特徴配列とを用いて、前記第１特徴配列と前記第２特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意ステップと、現在の時刻における前記第２配列の要素に対する前記第１特徴配列の各要素の重みと前記第１特徴配列とに基づいて、現在の時刻における前記第２配列の要素を導出する復号化ステップと、正解配列と前記第２配列とに応じた値である目的関数値を導出する目的関数値導出ステップと、前記目的関数値に基づいて所定の学習処理を実行することによって学習結果を生成する更新ステップとを含む学習方法である。

【0027】

本発明の一態様は、推論装置が実行する推論方法であって、第１配列に基づく第１特徴配列と第２配列に基づく第２特徴配列とを用いて、前記第１特徴配列と前記第２特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する注意ステップと、前記第１特徴配列と前記重み行列とに基づいて第２配列を導出する復号化ステップと、前記第２配列に基づいて所定の推論処理を実行することによって推論結果を生成する推論ステップとを含む推論方法である。

【0028】

本発明の一態様は、上記に記載の学習装置としてコンピュータを機能させるためのプログラムである。

【0029】

本発明の一態様は、上記に記載の推論装置としてコンピュータを機能させるためのプログラムである。

【発明の効果】

【0030】

本発明により、人手によって設計された特徴表現の使用に依存することなく、より複雑な特徴表現を導出及び使用可能であると同時に、単調で連続的な対応関数を導出及び使用可能な配列整列を実現することが可能である。

【図面の簡単な説明】

【0031】

【図1】第１実施形態における、推論装置の構成例を示す図である。

【図2】第１実施形態における、学習装置の構成例を示す図である。

【図3】第１実施形態における、対応配列の例を示す図である。

【図4】第１実施形態における、単調性制約関数値の導出例を示す図である。

【図5】第１実施形態における、連続性制約関数値の導出例を示す図である。

【図6】第２実施形態における、推論装置の構成例を示す図である。

【図7】第２実施形態における、学習装置の構成例を示す図である。

【図8】各実施形態における、推論装置のハードウェア構成例を示す図である。

【図9】各実施形態における、学習装置のハードウェア構成例を示す図である。

【図10】重み行列の例を示す図である。

【発明を実施するための形態】

【0032】

本発明の実施形態について、図面を参照して詳細に説明する。
以下では、配列の照合又は分類などの応用問題において、注意機構が使用される。これによって、人手によって設計された特徴表現の使用に依存することなく、より複雑な特徴表現を導出及び使用可能な配列整列が実現される。

【0033】

以下では、単調性制約と連続性制約とのうちの少なくとも一方を表す制約関数値が新たに提案される。単調で連続的な対応関数を注意機構が導出できるように、制約関数値が最小化されることによって、符号化部と注意機構とを含む数理モデルの学習を誘導（ガイド）することが可能である。

【0034】

以下、単調性制約とは、第１配列の要素と第２配列の要素とに対応関係があり、第２配列の要素の添字（番号）の増加につれて、第２配列の要素との対応関係にある第１配列の要素の添字（番号）が減少しないという制約である。以下、連続性制約とは、第１配列の要素と第２配列の要素とに対応関係があり、第２配列において隣り合う要素の添字（番号）が連続している場合に、第２配列において隣り合う要素の添字との対応関係にある第１配列の要素の添字同士の差が所定の正値以下であるという制約である。

【0035】

（第１実施形態）
第１実施形態では、照合又は分類などの応用問題に、学習方法及び推論方法が適用される。照合又は分類などの応用問題として、例えば、動作認識、音声認識、生体信号分類及び署名認証等がある。

【0036】

学習段階において、学習装置が注意機構を用いて、数理モデルの学習を実行する。すなわち学習段階において、学習装置は、多数のパラメータを持つ数理モデルを、学習データを用いて学習する。学習装置は、数理モデルのパラメータの数値を決定することによって、学習済の数理モデルを生成する。実行段階において、推論装置は、学習済の数理モデルを用いて、推論処理を実行する。例えば、推論装置は、照合又は分類等の目的のタスクを実行する。

【0037】

まず、実行段階における、照合又は分類などの応用問題に適用される推論方法について説明する。

【0038】

図１は、第１実施形態における、推論装置１の構成例を示す図である。第１実施形態の実行段階では、照合又は分類などの応用問題に推論方法が適用される。推論装置１は、第１配列と第２配列を入力として取得する。例えば、動作認識では、推論装置１は、人体における複数の特徴点（例えば、関節位置）の座標などを時間順に並べた配列を、入力として取得する。署名認証では、推論装置１は、署名収集装置のディスプレイにおける署名座標又は筆圧などを時間順に並べた配列を、入力として取得する。推論装置１は、第１配列と第２配列の間の距離を導出する。推論装置１は、距離に基づいて推論処理を実行する。推論装置１は、推論結果を所定の外部装置（不図示）に出力する。

【0039】

距離は、照合又は分類などの応用問題を解決するために使用可能である。例えば、分類問題では、推論装置１は、クラスが既知である学習配列と、クラスが未知である目標配列との間の距離を導出する。推論装置１は、Ｋ近傍法又はサポートベクターマシンなどを使用して、目標配列のクラスを推定する。探索問題では、推論装置１は、クエリ配列とデータベースにある配列との間の距離を導出する。推論装置１は、距離が最も短い配列を、探索結果として導出する。

【0040】

推論装置１は、符号化部１０－１と、符号化部１０－２と、注意機構１１と、照合部１２と、推論部１３とを備える。

【0041】

推論装置１の機能部の詳細を説明する。
＜符号化部１０＞
符号化部１０－１は、第１配列を入力として取得する。符号化部１０－２は、第２配列を入力として取得する。符号化部１０－１は、第１特徴配列（第１特徴表現）を注意機構１１と照合部１２とに出力する。符号化部１０－２は、第２特徴配列（第２特徴表現）を注意機構１１と照合部１２とに出力する。

【0042】

符号化部１０－１の動作は、符号化部１０－２の動作と同様である。このため以下では、符号化部１０－１の動作について説明する。また以下では、符号化部１０－１と符号化部１０－２とに共通する事項については、符号の一部を省略して、「符号化部１０」と表記する。符号化部１０は、第１配列に基づいて、数値又は数値ベクトルを要素とする配列を第１特徴配列として導出する。

【0043】

＜符号化部１０の第１例＞
符号化部１０の第１例では、符号化部１０は、人工ニューラルネットワークを使用して、第１特徴配列を第１配列から導出する。学習段階において、人工ニューラルネットワークのパラメータは、学習データに基づいて決定される。

【0044】

符号化部１０の第１例の処理の詳細は、以下の通りである。
符号化部１０の第１例では、符号化部１０は、第１配列の長さを，所定の長さ（例えば、１０２４）に変更する。これは、人工ニューラルネットワークの学習が実行される場合に、バッチ学習又はミニバッチ学習を使用可能とするために必要である。第１配列の各要素は、１次元の数値又は多次元の数値ベクトルである。

【0045】

長さが変更された第１配列の要素の各次元について、当該次元の全ての数値の平均が０になり、当該次元の全ての数値の分散が１になるように、符号化部１０は、当該次元の全ての数値を正規化する。正規化された第１配列は、例えば、「１×１０２４×５」のテンソルである。この「１０２４」は、配列の長さの例である。この「５」は、配列の要素の次元数の例である。

【0046】

符号化部１０は、正規化された第１配列を、畳み込みニューラルネットワークに入力する。畳み込みニューラルネットワークは、例えば、１個の「１×７×６４」の畳み込み層と、１個の最大プーリング層と、２個の「１×３×６４」の畳み込み層を備える。各畳み込み層の直後には、バッチ正規化層が備えられる。バッチ正規化層に続いて、ＲｅＬＵ層が活性化関数として備えられる。最後のＲｅＬＵ層は、多次元の数値ベクトルを要素とする配列を出力する。

【0047】

符号化部１０は、多次元の数値ベクトルを要素とする配列の各要素について、当該要素の全ての数値のＬ２ノルムが１になるように、当該要素の全ての数値を正規化する。符号化部１０は、正規化された配列を第１特徴配列として、注意機構１１と照合部１２とに出力する。符号化部１０の第１例では、畳み込みニューラルネットワークの代わりに、再帰型ニューラルネットワークなどが使用されてもよい。

【0048】

＜符号化部１０の第２例＞
符号化部１０の第２例では、符号化部１０は、入力された第１配列を第１特徴配列として、注意機構１１と照合部１２とに出力する。符号化部１０の第２例では、符号化部１０は、パラメータを持たない。

【0049】

＜注意機構１１＞
注意機構１１は、第１特徴配列を、符号化部１０－１から取得する。注意機構１１は、第２特徴配列を、符号化部１０－２から取得する。注意機構１１は、第１特徴配列の各要素と第２特徴配列の各要素とに基づいて、第２特徴配列の各要素に対する第１特徴配列の各要素の重みを導出する。第２特徴配列の各要素に対する、第１特徴配列の各要素の重みは、２個の要素が対応関係にある確率を表す。重みが大きいほど、２個の要素が対応関係にある確率が高い。注意機構１１は、重み行列を照合部１２に出力する。

【0050】

＜注意機構１１の第１例＞
注意機構１１の第１例では、注意機構１１は、人工ニューラルネットワークを使用して、第１特徴配列の各要素と第２特徴配列の各要素とに基づいて、第２特徴配列の各要素に対する第１特徴配列の各要素の重みを導出する。学習段階において、人工ニューラルネットワークのパラメータは、学習データに基づいて決定される。

【0051】

注意機構１１の第１例の処理の詳細は、以下の通りである。
注意機構１１の第１例では、注意機構１１は、第１特徴配列の各要素である数値ベクトルと、第２特徴配列の各要素である数値ベクトルとを、数値ベクトルの次元方向に沿って連結する。注意機構１１は、連結された数値ベクトルを、人工ニューラルネットワークに入力する。

【0052】

人工ニューラルネットワークは、例えば、３個の全結合層を備える。３個の全結合層において、１個目の全結合層が６４個の隠れユニットを有し、２個目の全結合層が１６個の隠れユニットを有し、３個目の全結合層が１個の隠れユニットを有する。１個目の全結合層の直後において、活性化関数としてＲｅＬＵ層が備えられる。２個目の全結合層の直後において、活性化関数としてＲｅＬＵ層が備えられる。３個目の全結合層は、１個の実数を出力する。

【0053】

第２特徴配列の各要素について、注意機構１１は、当該要素と第１特徴配列の各要素とを用いて導出された実数を全て含む配列を、Ｓｏｆｔｍａｘ関数を用いて正規化する。この導出された実数を全て含む配列とは、第１特徴配列の各要素に対して出力された実数を配列としてまとめたものである。導出された実数を全て含む配列は、第１特徴配列の要素数と同じ数の実数を含む。注意機構１１は、第２特徴配列の各要素に対する第１特徴配列の各要素の重みとして、正規化された実数を導出する。注意機構１１は、第２特徴配列の各要素に対する第１特徴配列の各要素の重みを全て含む行列を、重み行列として照合部１２に出力する。

【0054】

＜注意機構１１の第２例＞
注意機構１１の第２例の処理の詳細は、以下の通りである。
注意機構１１の第２例では、注意機構１１は、第１特徴配列の各要素と第２特徴配列の各要素との内積を導出する。注意機構１１は、第２特徴配列の各要素について、第２特徴配列の各要素と第１特徴配列の各要素との内積を全て含む配列を、Ｓｏｆｔｍａｘ関数によって正規化する。注意機構１１は、第２特徴配列の各要素に対する第１特徴配列の各要素の重みとして、正規化された内積を導出する。注意機構１１は、第２特徴配列の各要素に対する第１特徴配列の各要素の重みを全て含む行列を、重み行列として照合部１２に出力する。

【0055】

注意機構１１の第２例では、注意機構１１は、パラメータを持たない。符号化部１０と注意機構１１とを含む数理モデルを学習するためには、数理モデルがパラメータを持たなければ、数理モデルを学習することができない。従って、符号化部１０の第２例が使用される場合には、注意機構１１の第２例を使用することはできない。すなわち、パラメータを持たない符号化部１０が使用される場合には、パラメータを持たない注意機構１１を使用することはできない。

【0056】

＜照合部１２＞
照合部１２は、第１特徴配列を符号化部１０－１から取得する。照合部１２は、第２特徴配列を符号化部１０－２から取得する。照合部１２は、重み行列を注意機構１１から取得する。照合部１２は、第１特徴配列と第２特徴配列と重み行列とに基づいて、第１配列と第２配列との間の距離を導出する。照合部１２は、第１配列と第２配列との間の距離（距離情報）を、推論部１３に出力する。なお、照合部１２は、所定の外部装置（不図示）に距離（距離情報）を出力してもよい。

【0057】

＜照合部１２の第１例＞
照合部１２の第１例では、照合部１２は、重み行列を使用して、第１特徴配列の各要素に対して重み付けを実行する。照合部１２は、重み付けによって得られた新しい特徴配列を、変換特徴配列として導出する。照合部１２は、変換特徴配列と第２特徴配列との間の距離を、第１配列と第２配列との間の距離として導出する。

【0058】

照合部１２の第１例の処理の詳細は、以下の通りである。
照合部１２の第１例では、照合部１２は、第２特徴配列の各要素について、第２特徴配列の各要素に対する第１特徴配列の各要素の重みを用いて、第１特徴配列の全ての要素の加重総和を導出する。これによって、第２特徴配列の各要素との対応関係にある第１特徴配列の要素が、加重総和として特定（抽出又は生成）される。すなわち、第２特徴配列の各要素との対応関係にある第１特徴配列の要素が整列される。従って、第１配列と第２配列との間に存在する局所的な変移と速度の変化とに関する非線形の時間変動が補償される。

【0059】

照合部１２は、第２特徴配列の各要素（数値又は数値ベクトル）と、当該要素に対して導出された第１特徴配列の全ての要素の加重総和（数値又は数値ベクトル）との距離（例えば、ユークリッド距離）を、局所距離として導出する。第１配列と第２配列との間の時間変動が既に補償されているため、第２特徴配列の各要素と当該要素に対して導出された加重総和とが対応関係にある確率は高い。従って、第２特徴配列の各要素と当該要素に対して導出された加重総和との距離を照合部１２が導出することによって、第１特徴配列と第２特徴配列との間の局所的な差異をより正しく表す距離を照合部１２が導出することが可能になる。

【0060】

照合部１２は、第２特徴配列の全ての要素に関する全ての局所距離の総和又は平均を導出する。照合部１２は、局所距離の総和又は平均を、第１配列と第２配列との間の距離として推論部１３に出力する。ここで、第１特徴配列は「Ｘ∈Ｒ^Ｗ×Ｋ」と表記され、第２特徴配列は「Ｙ∈Ｒ^Ｗ×Ｋ」と表記される。「Ｗ」は、特徴配列の長さを表す。「Ｋ」は、特徴配列の要素である数値又は数値ベクトルの次元数を表す。「Ｘ」のｊ番目の行ベクトル「ｘ_ｊ∈Ｒ^１×Ｋ」は、「Ｘ」のｊ番目の要素を表す。同様に、「Ｙ」のｉ番目の行ベクトル「ｙ_ｉ∈Ｒ^１×Ｋ」は、「Ｙ」のｉ番目の要素を表す。

【0061】

重み行列は「Ｐ∈Ｒ^Ｗ×Ｗ」と表記される。「Ｐ」のｉ番目の行ベクトル「ｐ_ｉ∈Ｒ^１×Ｗ」は、「ｙ_ｉ」に対する「x_１，…，ｘ_Ｗ」の重み「ｐ_ｉ１，…，ｐ_ｉＷ」を含む。「ｐ_ｉ」のｊ番目の要素「ｐ_ｉｊ」は、「ｙ_ｉ」に対する「ｘ_ｊ」の重みを表す。

【0062】

「ｐ_ｉ」がＳｏｆｔｍａｘ関数によって正規化されているので、「ｐ_ｉ１，…，ｐ_ｉＷ」の合計は１である。従って、第１配列と第２配列との間の距離は、式（１）のように表される。

【0063】

【数1】

【0064】

ここで、「ｐ_ｉＸ」は、「ｙ_ｉ」に対する「ｘ_１，…，ｘ_Ｗ」の加重総和を表す。「||ｐ_ｉＸ－ｙ_ｉ||」は、「ｐ_ｉＸ」と「ｙ_ｉ」との間のユークリッド距離、すなわち局所距離を表す。

【0065】

＜照合部１２の第２例＞
照合部１２の第２例では、照合部１２は、第１特徴配列の各要素と第２特徴配列の各要素との間の距離を導出する。照合部１２は、重み行列を使用して、距離に対して重み付けを実行する。照合部１２は、重みに基づいて、第１配列と第２配列との間の距離を導出する。

【0066】

照合部１２の第２例の処理の詳細は、以下の通りである。
照合部１２の第２例では、照合部１２は、第１特徴配列の各要素と第２特徴配列の各要素との間の距離（例えば、ユークリッド距離）を、局所距離として導出する。照合部１２は、重み行列を使用して、局所距離の加重総和又は加重平均を導出する。照合部１２は、第１配列と第２配列との間の距離として、局所距離の加重総和又は加重平均を推論部１３に出力する。

【0067】

第２特徴配列の各要素に対する第１特徴配列の各要素の重みは、２個の要素が対応関係にある確率を表す。重みが大きいほど、２個の要素が対応関係にある確率が高い。照合部１２は、対応関係にある確率の高い２個の要素に対して、２個の要素の間の局所距離に対してより大きい重みを付与する。照合部１２は、対応関係にある確率の低い２個の要素に対して、２個の要素の間の局所距離に対してより小さい重みを付与する。

【0068】

これによって、第１配列と第２配列との間に存在する局所的な変移と速度の変化とに関する非線形の時間変動が補償される。また、第１配列と第２配列との間の距離が、より正しく導出される。

【0069】

照合部１２の第１例と同様に、照合部１２の第２例では、第１特徴配列は「Ｘ∈Ｒ^Ｗ×Ｋ」と表記され、第２特徴配列は「Ｙ∈Ｒ^Ｗ×Ｋ」と表記される。特徴配列の長さは「Ｗ」と表記される。「Ｘ」のｊ番目の要素が「ｘ_ｊ∈Ｒ^１×Ｋ」と表記され、「Ｙ」のｉ番目の要素は「ｙ_ｉ∈Ｒ^１×Ｋ」と表記される。重み行列は「Ｐ∈Ｒ^Ｗ×Ｗ」と表記される。「ｙ_ｉ」に対する「ｘ_ｊ」の重みは「ｐ_ｉｊ∈Ｐ」と表記される。従って、第１配列と第２配列との間の距離は、式（２）のように表される。

【0070】

【数2】

【0071】

ここで、「||ｘ_ｊ－ｙ_ｉ||」は、「ｘ_ｊ」と「ｙ_ｉ」との間のユークリッド距離、すなわち局所距離を表す。

【0072】

＜推論部１３＞
推論部１３は、第１配列と第２配列との間の距離として、局所距離の加重総和又は加重平均を、照合部１２から取得する。推論部１３は、第１配列と第２配列との間の距離に基づいて推論処理を実行する。推論部１３は、所定の外部装置（不図示）に推論結果を出力する。推論処理は、特定の推論処理に限定されない。例えば、複数人の手書き署名の筆者が推論される場合、筆者が未知である署名（第１配列）と筆者が既知である署名（第２配列）とが学習済の数理モデルに入力される。推論部１３は、照合部１２から取得された第１配列と第２配列との間の距離が最も短い第２配列の筆者ＩＤ（identification number）を、第１配列の筆者ＩＤ（推論結果）として出力する。各筆者について第２配列が複数存在する場合には、推論部１３は、距離の平均値が最も短い筆者ＩＤを、推論結果として出力してもよい。

【0073】

次に、学習段階における、照合又は分類などの応用問題に適用される学習方法について説明する。

【0074】

図２は、第１実施形態における、学習装置２の構成例を示す図である。第１実施形態の学習段階では、照合又は分類などの応用問題に学習方法が適用される。学習装置２は、第１配列と第２配列とラベルとを、入力として取得する。学習装置２は、目的関数値と制約関数値とを導出する。学習装置２は、目的関数値と制約関数値とに基づいて、学習済の数理モデル（学習結果）を所定の外部装置（不図示）に出力する。また、学習装置２は、学習済の数理モデルを、実行段階よりも前に推論装置１に出力する。

【0075】

第１配列と第２配列とラベルとは、所定の目的（例えば、照合又は分類）のタスクを実行するための数理モデルを学習装置２が学習するために使用される学習データである。ラベルは、同じクラスに第１配列と第２配列とが属するか否かを表す。目的関数値と制約関数値とは、数理モデルを学習装置２が学習するために使用される。例えば、多数の学習データを使用して導出された目的関数値と制約関数値との加重総和又は加重平均が可能な限り小さくなるように（例えば、最小になるように）、学習装置２は数理モデルのパラメータを更新する。学習データの数が多いほど、数理モデルの性能が向上する。学習データの数は、例えば、２万から３万程度である。

【0076】

学習装置２は、符号化部２０－１と、符号化部２０－２と、注意機構２１と、目的関数値導出部２２と、制約関数値導出部２３と、更新部２４とを備える。

【0077】

学習装置２の機能部の詳細を説明する。
＜符号化部２０＞
符号化部２０－１は、第１配列を入力として取得する。符号化部２０－２は、第２配列を入力として取得する。符号化部２０－１の動作は、符号化部２０－２の動作と同様である。学習段階における符号化部２０－１の処理は、実行段階における符号化部１０－１の処理と同じである。学習段階における符号化部２０－２の処理は、実行段階における符号化部１０－２の処理と同じである。

【0078】

符号化部２０－１は、第１特徴配列を注意機構２１と目的関数値導出部２２とに出力する。符号化部２０－２は、第２特徴配列を注意機構２１と目的関数値導出部２２とに出力する。以下では、符号化部２０－１と符号化部２０－２とに共通する事項については、符号の一部を省略して、「符号化部２０」と表記する。

【0079】

＜注意機構２１＞
注意機構２１は、第１特徴配列を符号化部２０－１から取得する。注意機構２１は、第２特徴配列を符号化部２０－２から取得する。学習段階における注意機構２１の処理は、実行段階における注意機構１１の処理と同じである。注意機構２１は、重み行列を目的関数値導出部２２と制約関数値導出部２３とに出力する。

【0080】

＜目的関数値導出部２２＞
目的関数値導出部２２は、ラベルを入力として取得する。目的関数値導出部２２は、第１特徴配列と第２特徴配列とを、符号化部２０から取得する。目的関数値導出部２２は、重み行列を注意機構２１から取得する。目的関数値導出部２２は、第１特徴配列と第２特徴配列と重み行列とに基づいて、第１特徴配列と第２特徴配列との間の差分を導出する。目的関数値導出部２２は、導出された差分がラベルに関連付けられるように、目的関数値を導出する。

【0081】

同じクラスに第１配列と第２配列とが属する場合、差分が大きいほど、目的関数値が大きくなる。異なるクラスに第１配列と第２配列とが属する場合、差分が小さいほど、目的関数値が大きくなる。目的関数値導出部２２は、このような目的関数値を更新部２４に出力する。

【0082】

＜目的関数値導出部２２の第１例＞
実行段階において照合部１２の第１例が使用される場合、学習段階において、目的関数値導出部２２の第１例が使用されるほうが、目的関数値導出部２２の第２例が使用されるよりも望ましい。目的関数値導出部２２の第１例では、目的関数値導出部２２は、重み行列を使用して、第１特徴配列の各要素に対して重み付けを実行する。目的関数値導出部２２は、重み付けによって得られた新しい特徴配列を、変換特徴配列として導出する。目的関数値導出部２２は、変換特徴配列と第２特徴配列との間の差分を導出する。目的関数値導出部２２は、導出された差分がラベルに関連付けられるように、目的関数値を導出する。

【0083】

目的関数値導出部２２の第１例の処理の詳細は、以下の通りである。
目的関数値導出部２２の第１例では、目的関数値導出部２２は、第２特徴配列の各要素について、第２特徴配列の各要素に対する第１特徴配列の各要素の重みを用いて、第１特徴配列の全ての要素の加重総和を導出する。

【0084】

これによって、第２特徴配列の各要素との対応関係にある第１特徴配列の要素が、加重総和として特定（抽出又は生成）される。すなわち、第２特徴配列の各要素との対応関係にある第１特徴配列の要素が整列される。従って、第１配列と第２配列との間に存在する局所的な変移と速度の変化とに関する非線形の時間変動が補償される。

【0085】

目的関数値導出部２２は、第１特徴配列の全ての要素の加重総和（数値又は数値ベクトル）と、第２特徴配列の各要素（数値又は数値ベクトル）との距離（例えば、ユークリッド距離）を、局所距離として導出する。目的関数値導出部２２は、局所距離を用いて、局所目的関数値を導出する。同じクラスに第１配列と第２配列とが属する場合、局所距離が長いほど、局所目的関数値が大きくなる。異なるクラスに第１配列と第２配列とが属する場合、局所距離が短いほど、局所目的関数値が大きくなる。

【0086】

目的関数値導出部２２は、第２特徴配列の全ての要素に関する全ての局所目的関数値の総和又は平均を導出する。目的関数値導出部２２は、局所目的関数値の総和又は平均を、目的関数値として更新部２４に出力する。ここで、第１特徴配列は「Ｘ∈Ｒ^Ｗ×Ｋ」と表記される。第２特徴配列は「Ｙ∈Ｒ^Ｗ×Ｋ」と表記される。特徴配列の長さは「Ｗ」と表記される。「Ｘ」のｊ番目の要素は「ｘ_ｊ∈Ｒ^１×Ｋ」と表記される。「Ｙ」のｉ番目の要素は「ｙｉ∈Ｒ^１×Ｋ」と表記される。

【0087】

重み行列は、「Ｐ∈Ｒ^Ｗ×Ｗ」と表記される。「Ｐ」のｉ番目の行ベクトル「ｐ_ｉ∈Ｒ^１×Ｗ」は、「ｙ_ｉ」に対する「ｘ_１，…，ｘ_Ｗ」の重み「ｐ_ｉ１，…，ｐ_ｉＷ」を含む。ラベルが「ｚ∈｛０,１｝」と表記される。同じクラスに第１配列と第２配列とが属する場合に、ラベルが「ｚ＝１」となる。異なるクラスに第１配列と第２配列とが属する場合に、ラベルが「ｚ＝０」となる。従って、目的関数値は、式（３）のように表される。

【0088】

【数3】

【0089】

ここで、「ｐ_ｉＸ」は、「ｙ_ｉ」に対する「ｘ_１，…，ｘ_Ｗ」の加重総和を表す。「|｜ｐ_ｉＸ－ｙ_ｉ||」は、「ｐ_ｉＸ」と「ｙ_ｉ」との間のユークリッド距離、すなわち局所距離を表す。「τ」は、ハイパーパラメータであって、正の実数である。

【0090】

学習段階では、更新部２４は、多数の学習データを使用して導出された目的関数値と制約関数値との加重総和又は加重平均が可能な限り小さくなるように（例えば、最小になるように）、符号化部２０と注意機構２１とを含む数理モデルのパラメータを更新する。目的関数値が最小化されることによって、同じクラスに第１配列と第２配列とが属する場合において数理モデルが局所距離をより小さく導出するようにパラメータが更新される。

【0091】

同じクラスに第１配列と第２配列とが属する場合において第２特徴配列の各要素と類似する第１特徴配列の要素を数理モデルがより正しく特定できるように、目的関数値導出部２２の第１例の目的関数値に基づいて、パラメータが更新される。すなわち、同じクラスに第１配列と第２配列とが属する場合において第２特徴配列の各要素との対応関係にある第１特徴配列の要素を数理モデルがより正しく特定できるように、目的関数値導出部２２の第１例の目的関数値に基づいて、パラメータが更新される。

【0092】

このように学習された数理モデルが使用されることによって、第１特徴配列の各要素と第２特徴配列の各要素との間の対応関係が、より正しく特定される。第１配列と第２配列との間の距離が、より正しく導出される。また、人手によって設計された特徴表現の使用に依存することなく、動的時間伸縮法と比べてより複雑な特徴表現を導出及び使用可能な配列整列が実現される。

【0093】

＜目的関数値導出部２２の第２例＞
実行段階において照合部１２の第２例が使用される場合、学習段階において、目的関数値導出部２２の第２例が使用されたほうが、目的関数値導出部２２の第１例が使用されるよりも望ましい。目的関数値導出部２２の第２例では、目的関数値導出部２２は、第１特徴配列の各要素と第２特徴配列の各要素との間の距離を導出する。目的関数値導出部２２は、重み行列を使用して、距離に対して重み付けを実行する。目的関数値導出部２２は、第１特徴配列と第２特徴配列との間の類似度を導出する。目的関数値導出部２２は、導出された類似度がラベルに関連付けられるように、目的関数値を導出する。

【0094】

目的関数値導出部２２の第２例の処理の詳細は、以下の通りである。
目的関数値導出部２２の第２例では、目的関数値導出部２２は、第１特徴配列の各要素と第２特徴配列の各要素の間の距離（例えば、ユークリッド距離）を、局所距離として導出する。目的関数値導出部２２は、重み行列を使用して、局所距離の加重総和又は加重平均を導出する。目的関数値導出部２２は、導出された加重総和又は加重平均がラベルに関連付けられるように、目的関数値を導出する。

【0095】

ここで、第１特徴配列が「Ｘ∈Ｒ^Ｗ×Ｋ」と表記される。第２特徴配列が「Ｙ∈Ｒ^Ｗ×Ｋ」と表記される。特徴配列の長さが「Ｗ」と表記される。「Ｘ」のｊ番目の要素が「ｘ_ｊ∈Ｒ^１×Ｋ」と表記される。「Ｙ」のｉ番目の要素が「ｙ_ｉ∈Ｒ^１×Ｋ」と表記される。重み行列が「Ｐ∈Ｒ^Ｗ×Ｗ」と表記される。「ｙ_ｉ」に対する「ｘ_ｊ」の重みが「ｐ_ｉｊ∈Ｐ」と表記される。ラベルが「ｚ∈｛０,１｝」と表記される。同じクラスに第１配列と第２配列とが属する場合に、ラベルが「ｚ＝１」となる。異なるクラスに第１配列と第２配列とが属する場合に、ラベルが「ｚ＝０」となる。従って、第１特徴配列と第２特徴配列との間の類似度は、式（４）のように表される。

【0096】

【数4】

【0097】

ここで、「||ｘ_ｊ－ｙ_ｉ||」は、「ｘ_ｊ」と「ｙ_ｉ」との間のユークリッド距離、すなわち局所距離を表す。目的関数値は、式（５）のように表される。

【0098】

【数5】

【0099】

学習段階では、多数の学習データを使用して導出された目的関数値が可能な限り小さくなるように（例えば、最小になるように）、更新部２４は、符号化部２０と注意機構２１とを含む数理モデルのパラメータを更新する。目的関数値が最小化されることによって、同じクラスに第１配列と第２配列とが属する場合において数理モデルが局所距離をより小さく導出するようにパラメータが更新される。

【0100】

同じクラスに第１配列と第２配列とが属する場合、対応関係にある確率が高い２個の要素に対してより大きい重みが導出されるように、更新部２４は数理モデルのパラメータを更新する。同じクラスに第１配列と第２配列とが属する場合、対応関係にある確率が低い２個の要素に対してより小さい重みが導出されるように、更新部２４は数理モデルのパラメータを更新する。すなわち、第１特徴配列の各要素と第２特徴配列の各要素との間の対応関係がより正しく特定できるように、数理モデルのパラメータが更新される。

【0101】

このようにして学習された数理モデルが使用されることによって、第１特徴配列の各要素と第２特徴配列の各要素との間の対応関係がより正しく特定され、第１配列と第２配列との間の距離をより正しく導出することができる。また、人手によって設計された特徴表現の使用に依存することなく、動的時間伸縮法と比べてより複雑な特徴表現を導出及び使用可能な配列整列を実現することができる。

【0102】

＜制約関数値導出部２３＞
制約関数値導出部２３は、重み行列を注意機構２１から取得する。制約関数値導出部２３は、重み行列を使用して、制約関数値を導出する。制約関数値導出部２３は、単調性制約と連続性制約とのうちの少なくとも一方を満たす度合いが大きいほど制約関数値が小さくなるように、制約関数値を導出する。制約関数値導出部２３は、制約関数値を更新部２４に出力する。

【0103】

符号化部２０と注意機構２１とを含む数理モデルは、制約関数値が最小化されることによって、第１特徴配列の各要素と第２特徴配列の各要素との間の対応関係が単調性制約と連続性制約とのうちの少なくとも一方を満たす重み行列を導出するように学習される。

【0104】

制約関数値導出部２３の処理の詳細は、以下の通りである。
重み行列は、第１特徴配列の各要素と第２特徴配列の各要素とが対応関係にある確率を表す行列であり、対応関係そのものではない。従って、単調性制約と連続性制約とのうちの少なくとも一方が満たされる度合いに関して、度合いを重み行列から直接評価することはできない。

【0105】

単調性制約と連続性制約とのうちの少なくとも一方が満たされる度合いを評価するために、対応関数のような形に重み行列を変換する必要がある。この対応関数は、例えば、第２特徴配列の各要素の添字を独立変数とし、第２特徴配列の各要素の添字との対応関係にある第１特徴配列の要素の添字を従属変数とした関数である。

【0106】

そこで、制約関数値導出部２３は、重み行列と所定の等差数列との積を、対応配列として導出する。等差数列とは、隣り合う要素ごとに共通の差を持つ数列である。

【0107】

図３は、第１実施形態における、対応配列の例を示す図である。図３における上側には、単調性制約と連続性制約とが満たされた場合について、重み行列の例と、等差数列の例と、対応配列の例とが表されている。図３における下側には、単調性制約と連続性制約とが満たされていない場合について、重み行列の例と、等差数列の例と、対応配列の例とが表されている。すなわち、等号の左辺には、重み行列と等差数列「［１,２,３,４］^Ｔ」との積が表されている。重み行列の各行は正規化済みであり、重み行列の各行では要素の合計が１である。等号の右辺には、対応配列が表されている。

【0108】

等差数列を用いて導出された対応配列の添字は、第２特徴配列の各要素の添字（番号）を表す。対応配列の要素である数値は、第２特徴配列の各要素との対応関係にある第１特徴配列の要素の添字（番号）を表す。なお、対応配列の要素である数値は、第２特徴配列の各要素との対応関係にある第１特徴配列の要素の添字に比例する数値を表してもよい。

【0109】

図３では、重み行列と等差数列とを使用して、対応配列が導出されている。例えば、図３における上側に表された例では、第２特徴配列の１番目の要素が第１特徴配列の１番目の要素との対応関係にあることを、対応配列が表している。第２特徴配列の２番目の要素が第１特徴配列の２番目の要素との対応関係にあることを、対応配列が表している。第２特徴配列の３番目の要素が第１特徴配列の２番目の要素との対応関係にあることを、対応配列が表している。

【0110】

第２特徴配列の４番目の要素との対応関係にある第１特徴配列の要素の添字は、整数を用いて表されているのではなく、実数を用いて「３．６」と表されている。このような対応配列が使用されることによって、単調性制約と連続性制約とのうちの少なくとも一方が満たされる度合いを評価することが可能になる。

【0111】

対応配列を使用して導出される制約関数値は、単調性制約と連続性制約とのうちの少なくとも一方が満たされる度合いが大きいほど小さくなる必要がある。なお、勾配法を使用して学習装置２が数理モデルを学習するために、重み行列又は対応配列に対して制約関数値が微分可能であることが望ましい。また、より高速な学習を可能とするために、制約関数値の導出の並列化が容易であることが望ましい。

【0112】

制約関数値導出部２３は、単調性制約関数値と連続性制約関数値とのうちの少なくとも一方を、制約関数値として導出する。

【0113】

＜単調性制約関数値＞
制約関数値導出部２３は、対応配列の各要素について、対応配列の要素の１個前の要素と対応配列の要素との大きさを比較することによって、局所的な単調性制約の関数値（以下「局所単調性制約関数値」という。）を導出する。局所単調性制約関数値は、対応配列の要素の１個前の要素が対応配列の要素よりも大きい場合、これら２個の要素の差の絶対値となる。局所単調性制約関数値は、対応配列の要素の１個前の要素が対応配列の要素以下である場合、０となる。

【0114】

制約関数値導出部２３は、対応配列における全ての要素に関する全ての局所単調性制約関数値の総和又は平均を導出する。制約関数値導出部２３は、局所単調性制約関数値の総和又は平均を、単調性制約関数値として更新部２４に出力する。

【0115】

ここで、重み行列は「Ｐ∈Ｒ^Ｗ×Ｗ」と表記される。特徴配列の長さは「Ｗ」と表記される。対応配列は「Ｆ∈Ｒ^Ｗ×１」と表記される。「Ｆ」のｉ番目の要素は「ｆ_ｉ」と表記される。従って、単調性制約関数値は、式（６）のように表される。

【0116】

【数6】

【0117】

ここで、「ｆ_０」は０である。畳み込みニューラルネットワークのライブラリを使用して式（６）が実装されることによって、単調性制約関数値がより高速に導出される。

【0118】

図４は、第１実施形態における、単調性制約関数値の導出例を示す図である。図４における上側には、単調性制約と連続性制約とが満たされた場合について、単調性制約関数値の導出例が表されている。図４における下側には、単調性制約と連続性制約とが満たされていない場合について、単調性制約関数値の導出例が表されている。

【0119】

図４には、左側から順に、対応配列の例と、フィルタの例と、対応配列において隣り合う２個の要素の差と、局所単調性制約関数値の例と、単調性制約関数値の例とが表されている。図４において、丸印に「×」の記号は畳み込みを表す。「損失」は単調性制約関数値を表す。対応配列が単調性制約を満たす度合いが大きいほど、より小さい単調性制約関数値が導出される。対応配列が単調性制約を満たす度合いが小さいほど、より大きい単調性制約関数値が導出される。

【0120】

図４において、対応配列とフィルタ「［１,－１］^Ｔ」との畳み込みの結果として、対応配列において隣り合う２個の要素の差が導出される。制約関数値導出部２３は、隣り合う２個の要素の差の配列に対して、「ＲｅＬＵ」を活性化関数として適用する。このようにして、局所単調性制約関数値が導出される。局所単調性制約関数値の配列における全ての要素の平均が導出されることによって、式（６）のような単調性制約関数値が容易に導出される。

【0121】

なお、フィルタは、対応配列において位置が互いに近い２個の要素の差を導出可能な任意のフィルタでよい。例えば、「［１,０,－１］^Ｔ」又は「［２,１,－１,－２］^Ｔ」等のフィルタが、「［１,－１］^Ｔ」の代わりに使用されてもよい。

【0122】

＜連続性制約関数値＞
制約関数値導出部２３は、対応配列の各要素について、対応配列の要素の１個前の要素と対応配列の要素との差の絶対値を導出する。制約関数値導出部２３は、所定の正数を、導出された絶対値から減算する。この所定の正数は、ハイパーパラメータであり、例えば、１、２又は３などの正の整数である。「１．５」などの実数がハイパーパラメータとして使用されてもよい。

【0123】

制約関数値導出部２３は、減算結果の数値と０とのうちの最大値を、局所的な連続性制約の関数値（以下「局所連続性制約関数値」という。）として導出する。制約関数値導出部２３は、対応配列における全ての要素に関する全ての局所連続性制約関数値の総和又は平均を導出する。制約関数値導出部２３は、局所連続性制約関数値の総和又は平均を、連続性制約関数値として更新部２４に出力する。

【0124】

重み行列は「Ｐ∈Ｒ^Ｗ×Ｗ」と表記される。特徴配列の長さは「Ｗ」と表記される。対応配列は「Ｆ∈Ｒ^Ｗ×１」と表記される。「Ｆ」のｉ番目の要素は「ｆ_ｉ」と表記される。従って、連続性制約関数値は、式（７）のように表される。

【0125】

【数7】

【0126】

ここで、「ｆ_０」は０である。畳み込みニューラルネットワークのライブラリを使用して式（７）が実装されることによって、連続性制約関数値がより高速に導出される。

【0127】

図５は、第１実施形態における、連続性制約関数値の導出例を示す図である。図５における上側には、単調性制約と連続性制約とが満たされた場合について、連続性制約関数値の導出例が表されている。図５における下側には、単調性制約と連続性制約とが満たされていない場合について、連続性制約関数値の導出例が表されている。

【0128】

図４には、左側から順に、対応配列の例と、フィルタの例と、所定の正数の例と、対応配列において隣り合う２個の要素の差の絶対値から所定の正数が減算された結果と、局所連続性制約関数値の例と、連続性制約関数値の例とが表されている。図５において、丸印に「×」の記号は畳み込みを表す。「損失」は、連続性制約関数値を表す。

【0129】

図５において、対応配列とフィルタ「［－１,１］^Ｔ」との畳み込みによって、対応配列において隣り合う２個の要素の差が導出される。制約関数値導出部２３は、隣り合う２個の要素の差の配列における各要素の絶対値を導出する。制約関数値導出部２３は、所定の正数（図５では、１）を、導出された絶対値から減算する。制約関数値導出部２３は、減算結果の配列に対して、「ＲｅＬＵ」を活性化関数として適用する。このようにして、局所連続性制約関数値が導出される。局所連続性制約関数値の配列における全ての要素の平均が導出されることによって、式（７）のような連続性制約関数値が容易に導出される。

【0130】

【0131】

図５に表されているように、対応配列が連続性制約を満たす度合いが大きいほど、より小さい連続性制約関数値が導出される。対応配列が連続性制約を満たす度合いが小さいほど、より大きい連続性制約関数値が導出される。

【0132】

＜更新部２４＞
更新部２４は、目的関数値を目的関数値導出部２２から取得する。更新部２４は、制約関数値を制約関数値導出部２３から取得する。更新部２４は、目的関数値と制約関数値とに基づいて学習処理を実行する。学習処理は、特定の学習処理に限定されない。更新部２４は、制約関数値と目的関数値との加重総和又は加重平均が可能な限り小さくなるように（例えば、最小になるように）、符号化部２０と注意機構２１とを含む数理モデルのパラメータを更新する。更新部２４は、所定の外部装置（不図示）に学習済の数理モデル（学習結果）を出力する。

【0133】

以上のように、学習段階において、注意機構２１は、第１配列に基づく第１特徴配列と第２配列に基づく第２特徴配列とを用いて、第１特徴配列と第２特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する。目的関数値導出部２２は、同じクラスに第１配列と第２配列とが属するか否かを表すラベルと第１特徴配列と第２特徴配列とに応じた値である目的関数値を、重み行列に基づいて導出する。制約関数値導出部２３は、単調性制約と連続性制約とのうちの少なくとも一方を表す制約関数値を、重み行列に基づいて導出する。更新部２４は、目的関数値と制約関数値とに基づいて所定の学習処理を実行することによって学習結果を生成する。目的関数値は、例えば、第１特徴配列と第２特徴配列との間の差分又は類似度と、ラベルとに応じた値である。更新部２４は、数理モデルを更新する。

【0134】

学習段階において更新された数理モデルは、実行段階において推論処理の実行に使用される。実行段階において、注意機構１１は、第１配列に基づく第１特徴配列と第２配列に基づく第２特徴配列とを用いて、第１特徴配列と第２特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する。照合部１２は、第１特徴配列と第２特徴配列と重み行列とに基づいて、第１配列と第２配列との間の距離を導出する。推論部１３は、距離に基づいて所定の推論処理を実行することによって推論結果を生成する。

【0135】

このように、単調性制約と連続性制約とのうちの少なくとも一方を表す制約関数値を用いて学習された数理モデルを用いて符号化部が特徴配列を導出することによって、有効に働く重み行列を注意機構が特徴配列に基づいて生成する。

【0136】

これによって、人手によって設計された特徴表現の使用に依存することなく、より複雑な特徴表現を導出及び使用可能であると同時に、単調で連続的な対応関数を導出及び使用可能な配列整列を実現することが可能である。人手によって設計された特徴表現の使用に依存することなく、より複雑な特徴表現を実現することが可能である。また、推論精度の向上と学習時間の短縮とを両立させることが可能である。

【0137】

学習装置２、学習方法及びプログラムによれば、注意機構１１が単調で連続的な対応関数を導出できるように、更新部２４が数理モデルを学習する際に数理モデルの学習を誘導（ガイド）することが可能になる。学習済の数理モデルにおける注意機構１１が使用されることによって、照合又は分類などの応用問題において、配列間の距離又は類似度を正しく導出することが可能である。異なるクラスに属する配列であるか否かを正しく推論することが可能である。また、注意機構１１が十分な性能を提供できるようになるまでの学習時間（数理モデルの学習に必要とされる時間）を短縮することが可能になる。

【0138】

（第２実施形態）
第２実施形態は、音声等の連続データの合成又は変換などの応用問題に学習方法及び推論方法を適用するための実施形態である。音声合成とは、人間の音声を人工的に作り出すことであり、例えば、音声を文章から合成することである。音声変換とは、個人の音声を別の個人又はキャラクタの音声に変換することである。

【0139】

なお、連続データとなるように不連続データ（例えば、手書き署名）が予め補正されるのであれば、第２実施形態における学習方法及び推論方法を不連続データに対して使うことは可能である。

【0140】

第２実施形態は、学習段階と実行段階とに分けられる。学習段階では、学習装置は、学習データを使用して、多数のパラメータを持つ数理モデルを学習する。学習装置は、数理モデルのパラメータの数値を決定する。実行段階では推論装置は、学習済の数理モデルを使用して、所定の目的（例えば、音声合成、音声変換）のタスクを実行する。

【0141】

まず、実行段階における、音声合成又は音声変換などの応用問題に適用される推論方法について説明する。

【0142】

図６は、第２実施形態における、推論装置３の構成例を示す図である。音声合成では、第１配列の要素は、例えば、文章の各単語の特徴を表す数値ベクトルである。文章の各単語の特徴は、例えば、単語のＯｎｅ－Ｈｏｔベクトルである。第２配列の要素は、例えば、音声の各時刻又は各フレームの特徴を表す数値ベクトルである。

【0143】

音声変換では、第１配列の要素は、例えば、音声の各時刻又は各フレームの特徴を表す数値ベクトルである。音声の各時刻又は各フレームの特徴は、例えば、所定の抽出方法（参考文献１：Masanori Morise, Fumiya Yokomori, Kenji Ozawa, "WORLD: A vocoder-based high-quality speech synthesis system for real-time applications, " IEICE Trans. Inf. Syst. 99-D (7): 1877-1884 (2016)）を用いて抽出された、メルケプストラム係数と対数Ｆ０パターンとを含む多次元ベクトルである。第２配列の要素は、例えば、第１配列の音声の個人とは別の個人又はキャラクタの音声における、各時刻又は各フレームの特徴を表す数値ベクトルである。

【0144】

推論装置３は、第１符号化部３０と、第２符号化部３１と、注意機構３２と、復号化部３３と、推論部３４とを備える。

【0145】

第１符号化部３０は、第１配列を入力として取得する。第１符号化部３０は、第１配列に対する符号化処理を例えば１回だけ実行することによって。第１特徴配列を導出する。第１符号化部３０は、第１特徴配列を注意機構３２と復号化部３３とに出力する。

【0146】

第２符号化部３１は、１個前の時刻における第２配列の要素を、復号化部３３から取得する。第２符号化部３１は、１個前の時刻における第２配列の要素に対する符号化処理を実行することによって、１個前の時刻における第２特徴配列の要素を導出する。第２符号化部３１は、１個前の時刻における第２特徴配列の要素を、注意機構３２に出力する。

【0147】

注意機構３２は、第１特徴配列を、第１符号化部３０から取得する。注意機構３２は、１個前の時刻における第２特徴配列の要素を、第２符号化部３１から取得する。注意機構３２は、１個前の時刻における第２特徴配列の要素と第１特徴配列の各要素とを使用して、現在の時刻における第２配列の要素に対する第１特徴配列の各要素の重みを導出する。注意機構３２は、現在の時刻における第２配列の要素に対する第１特徴配列の各要素の重みを、重み行列として復号化部３３に出力する。

【0148】

復号化部３３は、第１特徴配列を第１符号化部３０から取得する。復号化部３３は、現在の時刻における第２配列の要素に対する第１特徴配列の各要素の重みを、重み行列として注意機構３２から取得する。復号化部３３は、現在の時刻における第２配列の要素に対する第１特徴配列の各要素の重みと、第１特徴配列とに基づいて、現在の時刻における第２配列の要素を導出する。復号化部３３は、現在の時刻における第２配列の要素を、第２符号化部３１と推論部３４とに出力する。なお、復号化部３３は、現在の時刻における第２配列の要素を、所定の外部装置（不図示）に出力してもよい。

【0149】

第２符号化部３１は、現在の時刻における第２配列の要素を、復号化部３３から取得する。第２符号化部３１は、現在の時刻における第２配列の要素を使用して、現在の時刻における第２特徴配列の要素を導出する。第２符号化部３１は、現在の時刻における第２特徴配列の要素を、注意機構３２に出力する。

【0150】

このように、信号が第２符号化部３１から出発し、注意機構３２と復号化部３３とを信号が経由し、第２符号化部３１に信号が再び戻るという循環が、推論装置３に存在する。最初の時刻において第２配列の要素が初期化されてから、初期化された第２配列の要素が第２符号化部３１に入力され、最後の時刻において第２配列の要素が復号化部３３から出力されるまでの単位時間ごとに、この循環における推論処理が繰り返される。

【0151】

注意機構３２は、第２配列の各要素に対する第１特徴配列の各要素の重みを全て含む行列を、重み行列として復号化部３３に出力する。また、復号化部３３は、全ての時刻における第２配列の各要素を、第２配列として推論部３４に出力する。

【0152】

推論部３４は、第２配列を、復号化部３３から取得する。推論部３４は、第２配列に基づいて推論結果を生成する。音声合成又は音声変換等の応用問題では、推論結果は、音声信号である。推論部３４は、所定の外部装置（不図示）に推論結果を出力する。

【0153】

推論装置３の機能部の詳細を説明する。
＜第１符号化部３０＞
第１符号化部３０は、第１配列を入力として取得する。第１符号化部３０は、第１配列を使用して、数値又は数値ベクトルを要素とする配列を、第１特徴配列として導出する。例えば、第１符号化部３０は、参考文献２（Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly,Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, RJ-Skerrv Ryan, Rif A. Saurous, Yannis Agiomyrgiannakis, and Yonghui Wu, "Natural TTS synthesis by conditioning wavenet on MEL spectrogram predictions," In ICASSP, pp.4779-4783, 2018.）の人工ニューラルネットワークを使用して、第１特徴配列を第１配列から導出する。第１符号化部３０は、人工ニューラルネットワークのパラメータを、学習段階において学習データを使用して決定する。第１符号化部３０は、第１特徴配列を注意機構３２と復号化部３３に出力する。

【0154】

第１符号化部３０の処理の詳細は、以下の通りである。
第１配列は、例えば、「1×Ｎ×５１２」のテンソルである。「Ｎ」は配列の長さを表す。「５１２」は、配列の要素の次元数の例である。第１符号化部３０は、第１配列を人工ニューラルネットワークに入力する。

【0155】

人工ニューラルネットワークは、例えば、３個の「１×５×５１２」の畳み込み層と、１個の双方向長短期記憶（Bidirectional Long Short-Term Memory : BiLSTM）（以下「双方向ＬＳＴＭ」という。）とを備える。各畳み込み層の直後にバッチ正規化層が備えられる。バッチ正規化層の直後において、活性化関数としてＲｅＬＵ層が備えられる。双方向ＬＳＴＭは、合計５１２個の隠れユニットを有する。第１符号化部３０の双方向ＬＳＴＭは、数値又は数値ベクトルを要素とする配列を第１特徴配列として、注意機構３２と復号化部３３とに出力する。

【0156】

＜第２符号化部３１＞
第２符号化部３１は、第２配列を復号化部３３から取得する。１個前の時刻における第２配列の要素を、復号化部３３から取得する。第２符号化部３１は、１個前の時刻における第２配列の要素を使用して、１個前の時刻における第２特徴配列の要素として、数値又は数値ベクトルを導出する。数値又は数値ベクトルの導出には、例えば、上述の参考文献２の人工ニューラルネットワークを使用することができる。人工ニューラルネットワークのパラメータは、学習段階で学習データを使用して決定される。第２符号化部３１は、第２特徴配列を注意機構３２に出力する。

【0157】

第２符号化部３１の処理の詳細は、以下の通りである。
１個前の時刻における第２配列の各要素は、例えば、５１２次元の数値ベクトルである。第２符号化部３１は、１個前の時刻における第２配列の各要素を、人工ニューラルネットワークに入力する。この人工ニューラルネットワークは、例えば、２個の全結合層を備える。各全結合層は２５６個の隠れユニットを有する。各全結合層の直後には、活性化関数としてＲｅＬＵ層が備えられる。最後の全結合層は、１個前の時刻における第２特徴配列の要素として、数値又は数値ベクトルを注意機構３２に出力する。

【0158】

＜注意機構３２＞
注意機構３２は、第１特徴配列を第１符号化部３０から取得する。注意機構３２は、第２特徴配列を第２符号化部３１から取得する。注意機構３２は、１個前の時刻における第２特徴配列の要素と、第１特徴配列の各要素とを使用して、現在の時刻に対する第２配列の要素に対する第１特徴配列の各要素の重みを導出する。注意機構３２として、例えば、人工ニューラルネットワークが使用されてもよいし、人工ニューラルネットワーク以外の数理モデル（例えば、線形回帰モデル、多項式回帰モデル、ロジスティック回帰モデル）が使用されてもよい。人工ニューラルネットワークのパラメータは、学習段階において、学習データを使用して決定される。注意機構３２は、重み行列を復号化部３３に出力する。

【0159】

注意機構３２の処理の詳細は、以下の通りである。
注意機構３２は、１個前の時刻における第２特徴配列の要素である数値ベクトルと、第１特徴配列の各要素である数値ベクトルとを、数値ベクトルの次元方向に沿って連結する。注意機構３２は、連結された数値ベクトルを、人工ニューラルネットワークに入力する。人工ニューラルネットワークは、例えば、３個の全結合層を備える。３個の全結合層において、１個目の全結合層が６４個の隠れユニットを有し、２個目の全結合層が１６個の隠れユニットを有し、３個目の全結合層が１個の隠れユニットを有する。１個目の全結合層の直後において、活性化関数としてＲｅＬＵ層が備えられる。２個目の全結合層の直後において、活性化関数としてＲｅＬＵ層が備えられる。３個目の全結合層は、１個の実数を出力する。

【0160】

注意機構３２は、１個前の時刻における第２特徴配列の要素と第１特徴配列の各要素とを使用して導出された実数を全て含む配列を、Ｓｏｆｔｍａｘ関数によって正規化する。この導出された実数を全て含む配列とは、第１特徴配列の各要素に対して出力された実数を配列としてまとめたものである。導出された実数を全て含む配列は、第１特徴配列の要素数と同じ数の実数を含む。注意機構３２は、現在の時刻における第２配列の要素に対する第１特徴配列の各要素の重みとして、正規化された実数を導出する。注意機構３２は、現在の時刻における第２配列の要素に対する第１特徴配列の各要素の重みを全て含む行列を、重み行列として復号化部３３に出力する。

【0161】

＜復号化部３３＞
復号化部３３は、第１特徴配列を第１符号化部３０から取得する。復号化部３３は、重み行列を注意機構３２から取得する。復号化部３３は、現在の時刻における第２配列の要素に対する第１特徴配列の各要素の重みを使用して、第１特徴配列の各要素に対して重み付けを実行する。復号化部３３は、重み付けによって得られた数値又は数値ベクトルを使用して、現在の時刻における第２配列の要素を導出する。例えば、復号化部３３は、上述の参考文献２の人工ニューラルネットワークを使用して、現在の時刻における第２配列の要素を導出する。復号化部３３は、人工ニューラルネットワークのパラメータを、学習段階において学習データを使用して決定する。復号化部３３は、第２配列を推論部３４に出力する。

【0162】

復号化部３３の処理の詳細は、以下の通りである。
復号化部３３は、現在の時刻における第２配列の要素に対する第１特徴配列の各要素の重みを用いて、第１特徴配列の全ての要素の加重総和を導出する。これによって、現在の時刻における第２配列の要素との対応関係にある第１特徴配列の要素が、加重総和として特定（抽出又は生成）される。すなわち、現在の時刻における第２配列の要素との対応関係にある第１特徴配列の要素が整列される。従って、第１配列と第２配列との間に存在する局所的な変移と速度の変化とに関する非線形の時間変動が補償される。

【0163】

ここで、第１特徴配列は「Ｘ∈Ｒ^Ｗ×Ｋ」と表記される。重み行列は「Ｐ∈Ｒ^Ｗ×Ｗ」と表記される。現在の時刻における第２配列の要素に対する第１特徴配列の各要素の重みを全て含む行ベクトルは「ｐ_ｉ∈Ｒ^１×Ｗ」と表記される。現在の時刻は「ｉ」と表記される。現在の時刻における第２配列の要素に対する第１特徴配列の全ての要素の加重総和は、「ｐ_ｉＸ」と表記される。

【0164】

加重総和は、例えば、１２８次元の数値ベクトルである。復号化部３３は、この数値ベクトルを、人工ニューラルネットワークに入力する。人工ニューラルネットワークは、例えば、２個の双方向ＬＳＴＭと１個の全結合層とを備える。各双方向ＬＳＴＭは、１０２４個の隠れユニットを有する。全結合層は、数値又は数値ベクトルを、現在の時刻における第２配列の要素として推論部３４に出力する。

【0165】

なお、復号化部３３は、第２符号化部３１から出力された第２特徴配列と、第１特徴配列と、重み行列とを使用して、第２配列を導出してもよい。この場合、復号化部３３は、加重総和である数値ベクトルと、１個前の時刻における第２特徴配列の要素である数値ベクトルとを、数値ベクトルの次元方向に沿って連結する。復号化部３３は、連結された数値ベクトルを、人工ニューラルネットワークに入力する。

【0166】

＜推論部３４＞
推論部３４は、第２配列を復号化部３３から取得する。推論部３４は、第２配列に基づいて推論結果を生成する。音声合成又は音声変換等の応用問題では、推論結果は、音声信号である。推論部３４は、例えば、所定の生成方法（参考文献３：Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew W. Senior, Koray Kavukcuoglu, "WaveNet: A generative model for raw audio, " SSW 2016: 125.）を用いて、第２配列に基づいて音声信号を生成する。推論部３４は、所定の外部装置（不図示）に推論結果を出力する。

【0167】

次に、学習段階における、音声合成又は音声変換などの応用問題に適用される学習方法について説明する。

【0168】

図７は、第２実施形態における、学習装置４の構成例を示す図である。第２実施形態の学習段階では、音声合成又は音声変換などの応用問題に学習方法が適用される。学習装置４は、第１配列と正解配列とを入力として取得する。学習装置４は、目的関数値と制約関数値とを導出する。学習装置４は、目的関数値と制約関数値とに基づいて数理モデルを学習し、学習済の数理モデル（学習結果）を、所定の外部装置（不図示）に出力する。また、学習装置４は、学習済の数理モデルを、実行段階よりも前に推論装置３に出力する。

【0169】

第１配列と正解配列とは、所定の目的（例えば、音声合成又は音声変換）のタスクを実行するための数理モデルを学習するために使用される学習データである。目的関数値と制約関数値とは、数理モデルを学習装置４が学習するために使用される。例えば、多数の学習データを使用して導出された目的関数値と制約関数値との加重総和又は加重平均が可能な限り小さくなるように（例えば、最小になるように）、学習装置４は、数理モデルのパラメータを更新する。学習データの数が多いほど、数理モデルの性能が向上する。学習データの数は、例えば、２万から３万程度である。

【0170】

学習装置４は、第１符号化部４０と、第２符号化部４１と、注意機構４２と、復号化部４３と、目的関数値導出部４４と、制約関数値導出部４５と、更新部４６とを備える。

【0171】

第１符号化部４０は、第１配列を入力として取得する。第１符号化部４０は、第１配列に対する符号化処理を例えば１回だけ実行することによって。第１特徴配列を導出する。第１符号化部４０は、第１特徴配列を注意機構４２と復号化部４３とに出力する。

【0172】

第２符号化部４１は、１個前の時刻における第２配列の要素を、復号化部４３から取得する。第２符号化部４１は、１個前の時刻における第２配列の要素に対する符号化処理を実行することによって、１個前の時刻における第２特徴配列の要素を導出する。

【0173】

注意機構４２は、第１特徴配列を、第１符号化部４０から取得する。注意機構４２は、１個前の時刻における第２特徴配列の要素を、第２符号化部４１から取得する。注意機構４２は、１個前の時刻における第２特徴配列の要素と第１特徴配列の各要素とを使用して、現在の時刻における第２配列の要素に対する第１特徴配列の各要素の重みを導出する。注意機構３２は、現在の時刻における第２配列の要素に対する第１特徴配列の各要素の重みを、重み行列として復号化部４３に出力する。

【0174】

復号化部４３は、第１特徴配列を第１符号化部４０から取得する。復号化部４３は、現在の時刻における第２配列の要素に対する第１特徴配列の各要素の重みを、重み行列として注意機構４２から取得する。復号化部４３は、現在の時刻における第２配列の要素に対する第１特徴配列の各要素の重みと、第１特徴配列とに基づいて、現在の時刻における第２配列の要素を導出する。復号化部４３は、現在の時刻における第２配列の要素を、第２符号化部４１と目的関数値導出部４４とに出力する。

【0175】

第２符号化部４１は、現在の時刻における第２配列の要素を、復号化部４３から取得する。第２符号化部４１は、現在の時刻における第２配列の要素を使用して、現在の時刻における第２特徴配列の要素を導出する。第２符号化部４１は、現在の時刻における第２特徴配列の要素を、注意機構４２に出力する。

【0176】

このように、信号が第２符号化部４１から出発し、注意機構４２と復号化部４３とを信号が経由し、第２符号化部４１に信号が再び戻るという循環が、学習装置４に存在する。この循環では、最初の時刻において第２配列の要素が初期化されてから、初期化された第２配列の要素が第２符号化部４１に入力され、最後の時刻において第２配列の要素が復号化部４３から出力されるまでの単位時間ごとに、学習処理が繰り返される。

【0177】

注意機構４２は、第２配列の各要素に対する第１特徴配列の各要素の重みを全て含む行列を、重み行列として復号化部４３に出力する。また、復号化部４３は、全ての時刻における第２配列の各要素を、第２配列として第２符号化部４１と目的関数値導出部４４とに出力する。

【0178】

目的関数値導出部４４は、正解配列を入力として取得する。目的関数値導出部４４は、第２配列を復号化部４３から取得する。目的関数値導出部４４は、正解配列と第２配列とに基づいて、目的関数値を導出する。目的関数値導出部４４が目的関数値を導出する処理は、例えば１回だけ実行される。目的関数値導出部４４は、目的関数値を更新部４６に出力する。

【0179】

制約関数値導出部４５は、重み行列を注意機構４２から取得する。制約関数値導出部４５は、重み行列を使用して、制約関数値を導出する。制約関数値導出部４５が制約関数値を導出する処理は、例えば１回だけ実行される。制約関数値導出部４５は、制約関数値を更新部４６に出力する。

【0180】

更新部４６は、目的関数値を目的関数値導出部４４から取得する。更新部４６は、制約関数値を制約関数値導出部４５から取得する。更新部４６は、目的関数値と制約関数値とに基づいて学習処理を実行する。更新部４６は、制約関数値と目的関数値との加重総和又は加重平均が可能な限り小さくなるように（例えば、最小になるように）、第１符号化部４０と第２符号化部４１と注意機構４２と復号化部４３とを含む数理モデルを更新する。更新部４６は、所定の外部装置（不図示）に、学習済の数理モデル（学習結果）を出力する。

【0181】

学習装置４の機能部の詳細を説明する。
＜第１符号化部４０＞
第１符号化部４０は、第１配列を入力として取得する。学習段階における第１符号化部４０が実行する処理は、実行段階における第１符号化部３０が実行する処理と同じである。第１符号化部４０は、第１特徴配列を注意機構４２と復号化部４３に出力する。

【0182】

＜第２符号化部４１＞
第２符号化部４１は、第２配列を復号化部４３から取得し、第２特徴配列を注意機構４２に出力する。学習段階における第２符号化部４１の処理は、実行段階における第２符号化部３１の処理と同じである。なお、学習段階における第２符号化部４１は、第２配列を入力として使用する代わりに、正解配列を入力として使用してもよい。この場合、第２配列に対して実行される全ての処理は、第２配列の代わりに使用される正解配列に対して実行される。

【0183】

＜注意機構４２＞
注意機構４２は、第１特徴配列を第１符号化部４０から取得する。注意機構４２は、第２特徴配列を第２符号化部４１から取得する。学習段階における注意機構４２の処理は、実行段階における注意機構３２の処理と同じである。注意機構４２は、重み行列を復号化部４３と制約関数値導出部４５とに出力する。

【0184】

＜復号化部４３＞
復号化部４３は、第１特徴配列を第１符号化部４０から取得する。復号化部４３は、重み行列を注意機構４２から取得する。学習段階における復号化部４３の処理は、実行段階における復号化部３３の処理と同じである。復号化部４３は、第２配列を目的関数値導出部４４に出力する。

【0185】

＜目的関数値導出部４４＞
目的関数値導出部４４は、正解配列を入力として取得する。目的関数値導出部４４は、第２配列を復号化部４３から取得する。目的関数値導出部４４は、正解配列と第２配列との間の差分を導出する。目的関数値導出部４４は、導出された差分が大きいほど値が大きくなるような目的関数値を導出する。目的関数値導出部４４は、目的関数値を更新部４６に出力する。

【0186】

目的関数値導出部４４の処理の詳細は、以下の通りである。
目的関数値導出部４４は、例えば、正解配列と第２配列との間の残差平方和（類似度）を、目的関数値として導出する。ここで、正解配列は「Ｚ^＊」と表記される。第２配列は「Ｚ」と表記される。従って、目的関数値は、式（８）のように表される。

【0187】

【数8】

【0188】

ここで、「||・||」は、Ｌ２ノルムを表す。

【0189】

＜制約関数値導出部４５＞
制約関数値導出部４５は、重み行列を注意機構４２から取得する。制約関数値導出部４５は、重み行列を使用して、制約関数値を導出する。ここで、単調性制約と連続性制約とのうちの少なくとも一方を満たす度合いが大きいほど、制約関数値が小さくなるように、制約関数値は導出される。制約関数値導出部４５は、制約関数値を更新部４６に出力する。

【0190】

制約関数値が最小化されることによって、第１特徴配列の各要素と第２配列の各要素との間の対応関係が単調性制約と連続性制約とのうちの少なくとも一方を満たすという重み行列を導出するように数理モデルは学習される。この数理モデルは、第１符号化部４０と、第２符号化部４１と、注意機構４２と、復号化部４３とを含む。

【0191】

制約関数値導出部４５の処理の詳細は、以下の通りである。
重み行列とは、第１特徴配列の各要素と第２配列の各要素とが対応関係にある確率を表す行列である。重み行列は、対応関係そのものではない。従って、単調性制約と連続性制約とのうちの少なくとも一方が満たされる度合いを、重み行列からは直接評価することができない。

【0192】

単調性制約と連続性制約とのうちの少なくとも一方が満たされる度合いを評価することができるようになるためには、重み行列が変換される必要がある。例えば、第２配列の各要素の時刻を独立変数とし、第２配列の各要素の時刻との対応関係にある第１特徴配列の要素の添字を従属変数とした関数（対応関数）のような形に、重み行列が変換される必要がある。このために、制約関数値導出部４５は、重み行列と所定の等差数列との積を、対応配列として導出する。等差数列とは、各項（各要素）がその直前の項（要素）に一定数（公差）を加えて得られる数列である。

【0193】

例えば図３では、「［１,２,３,４］^Ｔ」が等差数列である。等差数列を用いて導出された対応配列において、対応配列の添字は第２配列の各要素の時刻を表す。対応配列の要素である数値は、第２配列の各要素との対応関係にある第１特徴配列の要素の添字又は添字に比例する数値を表す。図３における上側に表された例では、第２配列の１番目の要素が、第１特徴配列の１番目の要素との対応関係にある。第２配列の２番目の要素が第１特徴配列の２番目の要素との対応関係にある。第２配列の３番目の要素が、第１特徴配列の２番目の要素との対応関係にあることを、対応配列が表している。第２配列の４番目の要素との対応関係にある第１特徴配列の要素の添字は、整数を用いて表されているのではなく、実数を用いて「３．６」と表されている。このような対応配列が使用されることによって、単調性制約と連続性制約とのうちの少なくとも一方が満たされる度合いを評価することが可能になる。

【0194】

対応配列を使用して導出される制約関数値は、単調性制約と連続性制約とのうちの少なくとも一方が満たされる度合いが大きいほど値が小さくなる必要がある。なお、勾配法を使用して学習装置４が数理モデルを学習するために、重み行列又は対応配列に対して制約関数値が微分可能であることが望ましい。また、より高速な学習を可能にするために、制約関数値の導出の並列化が容易であることが望ましい。

【0195】

制約関数値導出部４５は、単調性制約関数値と連続性制約関数値とのうちの少なくとも一方を、制約関数値として導出する。

【0196】

＜単調性制約関数値＞
第２実施形態における単調性制約関数値に関する説明は、第１実施形態における単調性制約関数値に関する説明と同様である。

【0197】

＜連続性制約関数値＞
第２実施形態における連続性制約関数値に関する説明は、第１実施形態における連続性制約関数値に関する説明と同様である。

【0198】

＜更新部４６＞
更新部４６は、目的関数値を目的関数値導出部４４から取得する。更新部４６は、制約関数値を制約関数値導出部４５から取得する。更新部４６は、目的関数値と制約関数値とに基づいて学習処理を実行する。更新部４６は、所定の外部装置（不図示）に、学習済の数理モデル（学習結果）を出力する。学習処理は、特定の学習処理に限定されない。

【0199】

以上のように、注意機構４２は、第１配列に基づく第１特徴配列と第２配列に基づく第２特徴配列とを用いて、第１特徴配列と第２特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する。復号化部４３は、現在の時刻における第２配列の要素に対する第１特徴配列の各要素の重みと、第１特徴配列とに基づいて、現在の時刻における第２配列の要素を導出する。目的関数値導出部４４は、正解配列と第２配列とに応じた値である目的関数値を導出する。制約関数値導出部４５は、重み行列に基づいて制約関数値を導出する。更新部４６は、目的関数値と制約関数値とに基づいて所定の学習処理を実行することによって、第１符号化部４０と第２符号化部４１と注意機構４２と復号化部４３とを含む数理モデルのパラメータを更新し、学習結果を生成する。目的関数値は、例えば、正解配列と第２配列との間の差分又は残差平方和である。更新部４６は、数理モデルを更新する。

【0200】

学習段階において更新された数理モデルは、実行段階において推論処理の実行に使用される。実行段階において、注意機構３２は、第１配列に基づく第１特徴配列と第２配列に基づく第２特徴配列とを用いて、第１特徴配列と第２特徴配列との各要素が対応関係にある確率を表す行列である重み行列を生成する。復号化部３３は、第１特徴配列と重み行列とに基づいて、第２配列を導出する。推論部３４は、第２配列に基づいて所定の推論処理を実行することによって推論結果を生成する。

【0201】

このように、単調性制約と連続性制約とのうちの少なくとも一方を表す制約関数値を用いて学習された数理モデルを用いて符号化部が特徴配列を導出することによって、有効に働く重み行列を注意機構が生成する。

【0202】

これによって、人手によって設計された特徴表現の使用に依存することなく、音声合成又は音声変換などの応用問題に対して、より複雑な特徴表現を導出及び使用可能であると同時に、単調で連続的な対応関数を導出及び使用可能な配列整列を実現することが可能である。人手によって設計された特徴表現の使用に依存することなく、音声合成又は音声変換などの応用問題に対して、より複雑な特徴表現を実現することが可能である。また、音声合成又は音声変換などの推論精度の向上と学習時間の短縮とを両立させることが可能である。

【0203】

図８は、各実施形態における、推論装置１のハードウェア構成例を示す図である。推論装置１の各機能部のうちの一部又は全部は、ＣＰＵ（Central Processing Unit）等のプロセッサ１００が、不揮発性の記録媒体（非一時的な記録媒体）を有する記憶部２００に記憶されたプログラムを実行することにより、ソフトウェアとして実現される。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ（Read Only Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置などの非一時的な記録媒体である。通信部３００は、推論装置１による処理結果を外部装置（不図示）に送信する。通信部３００は、通信回線を経由してプログラムを受信してもよい。表示部４００は、推論装置１による処理結果を表示する。表示部４００は、例えば、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイである。

【0204】

推論装置１の各機能部のうちの一部又は全部は、例えば、ＬＳＩ（Large Scale Integration circuit）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）又はＦＰＧＡ（Field Programmable Gate Array）等を用いた電子回路（electronic circuit又はcircuitry）を含むハードウェアを用いて実現されてもよい。なお、推論装置３のハードウェア構成例は、推論装置１のハードウェア構成例と同様である。

【0205】

図９は、各実施形態における、学習装置２のハードウェア構成例を示す図である。学習装置２の各機能部のうちの一部又は全部は、ＣＰＵ等のプロセッサ１０１が、不揮発性の記録媒体（非一時的な記録媒体）を有する記憶部２０１に記憶されたプログラムを実行することにより、ソフトウェアとして実現される。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置などの非一時的な記録媒体である。通信部３０１は、学習装置２による処理結果を外部装置（不図示）に送信する。通信部３０１は、通信回線を経由してプログラムを受信してもよい。表示部４０１は、学習装置２による処理結果を表示する。表示部４０１は、例えば、液晶ディスプレイ、有機ＥＬディスプレイである。

【0206】

学習装置２の各機能部のうちの一部又は全部は、例えば、ＬＳＩ、ＡＳＩＣ、ＰＬＤ又はＦＰＧＡ等を用いた電子回路（electronic circuit又はcircuitry）を含むハードウェアを用いて実現されてもよい。なお、学習装置４のハードウェア構成例は、学習装置２のハードウェア構成例と同様である。

【0207】

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

【産業上の利用可能性】

【0208】

本発明は、学習装置及び推論装置に適用可能である。

【符号の説明】

【0209】

１…推論装置、２…学習装置、３…推論装置、４…学習装置、１０…符号化部、１１…注意機構、１２…照合部、１３…推論部、２０…符号化部、２１…注意機構、２２…目的関数値導出部、２３…制約関数値導出部、２４…更新部、３０…第１符号化部、３１…第２符号化部、３２…注意機構、３３…復号化部、３４…推論部、４０…第１符号化部、４１…第２符号化部、４２…注意機構、４３…復号化部、４４…目的関数値導出部、４５…制約関数値導出部、４６…更新部、１００…プロセッサ、１０１…プロセッサ、２００…記憶部、２０１…記憶部、３００…通信部、３０１…通信部、４００…表示部、４０１…表示部

【図1】