特開2024-10859 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特開2024-10859変換装置およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024010859

(43)【公開日】2024-01-25

(54)【発明の名称】変換装置およびプログラム

(51)【国際特許分類】

G06N 3/08 20230101AFI20240118BHJP

G06N 20/00 20190101ALI20240118BHJP

G06V 40/20 20220101ALI20240118BHJP

G06V 10/82 20220101ALI20240118BHJP

G06V 10/774 20220101ALI20240118BHJP

G09B 21/00 20060101ALI20240118BHJP

G09B 21/04 20060101ALI20240118BHJP

【ＦＩ】

G06N3/08

G06N20/00 130

G06V40/20

G06V10/82

G06V10/774

G09B21/00 Z

G09B21/04

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2022112408

(22)【出願日】2022-07-13

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】100141139

【弁理士】

【氏名又は名称】及川周

(74)【代理人】

【識別番号】100171446

【弁理士】

【氏名又は名称】高田尚幸

(74)【代理人】

【識別番号】100114937

【弁理士】

【氏名又は名称】松本裕幸

(74)【代理人】

【識別番号】100171930

【弁理士】

【氏名又は名称】木下郁一郎

(72)【発明者】

【氏名】梶山岳士

(72)【発明者】

【氏名】遠藤伶

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096BA08

5L096CA04

5L096DA02

5L096DA04

5L096FA02

5L096GA51

5L096HA11

5L096KA04

5L096KA15

(57)【要約】

【課題】映像を単語列に変換する変換装置において、負例（不正解の単語列）による機械学習も可能とする。
【解決手段】第１エンコーダー部は、映像特徴量を基にニューラルネットワークによる計算を行うことによって、状態ベクトルを求めて出力する。第２エンコーダー部は、与えられる単語列を基にニューラルネットワークによる計算を行うことによって、意味情報を表す状態ベクトルを求めて出力する。学習用データ供給部は、映像と当該映像に対応する正解語列との対を学習用に供給する。負例データ生成部は、学習用データ供給部が供給する前記正解語列に基づいて不正解語列を生成する。ロス算出部は、正解誤差と不正解誤差を算出する。制御部は、正解誤差と不正解誤差との両方に基づいて少なくとも第１エンコーダー部のニューラルネットワークの誤差逆伝播による学習を行うように制御する。
【選択図】図１

【特許請求の範囲】

【請求項1】

映像特徴量を基にニューラルネットワークによる計算を行うことによって、意味情報を表す状態ベクトルを求めて出力する第１エンコーダー部と、
前記第１エンコーダー部が出力する前記状態ベクトルを基にニューラルネットワークによる計算を行うことによって、単語列を推定して出力するデコーダー部と、
与えられる単語列を基にニューラルネットワークによる計算を行うことによって、意味情報を表す状態ベクトルを求めて出力する第２エンコーダー部と、
映像と当該映像に対応する正解語列との対を学習用に供給する学習用データ供給部と、
前記学習用データ供給部が供給する前記正解語列に基づいて不正解語列を生成する負例データ生成部と、
（１）前記学習用データ供給部が供給する前記映像の映像特徴量を基に前記第１エンコーダー部が出力する第１の状態ベクトルと、前記学習用データ供給部が供給する前記正解語列を基に前記第２エンコーダー部が出力する第２の状態ベクトルと、の間の誤差である正解誤差を求めるとともに、（２）前記第１の状態ベクトルと、前記学習用データ供給部が供給する前記正解語列に基づいて前記負例データ生成部が生成した不正解語列、を基に前記第２エンコーダー部が出力する第２の状態ベクトルと、の間の誤差である不正解誤差を求める、ロス算出部と、
前記正解誤差と前記不正解誤差との両方に基づいて少なくとも前記第１エンコーダー部のニューラルネットワークの誤差逆伝播による学習を行うように制御する制御部と、
を備える変換装置。

【請求項2】

前記ロス算出部は、求めた前記正解誤差と前記不正解誤差との両方に基づく誤差である合成誤差を求め、
前記制御部は、前記合成誤差に基づいて少なくとも前記第１エンコーダー部のニューラルネットワークの誤差逆伝播による学習を行うように制御するものであり、
前記正解誤差の値が大きい程、前記合成誤差の値は大きく、
前記不正解誤差の値が大きい程、前記合成誤差の値は小さい、
請求項１に記載の変換装置。

【請求項3】

前記合成誤差は、前記ロス算出部が式（１）によって求めるＬ_{ｔｒｉｐｌｅｔ}である、

【数1】

（ただし、式（１）において、
ｄ_{ｐｏｓｉｔｉｖｅ}は、前記正解誤差であり、
ｄ_{ｎｅｇａｔｉｖｅ}は、前記不正解誤差であり、
αは、適宜定められる値である）
請求項２に記載の変換装置。

【請求項4】

前記制御部は、前記正解誤差の値が所定の閾値より大きい場合には前記正解誤差に基づいて前記第１エンコーダー部のニューラルネットワークの誤差逆伝播を行うように制御し、前記正解誤差の値が前記閾値以下である場合には前記合成誤差に基づいて前記第１エンコーダー部のニューラルネットワークの誤差逆伝播を行うように制御するものである、
請求項２に記載の変換装置。

【請求項5】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、変換装置およびプログラムに関する。

【背景技術】

【0002】

手話を撮影した映像を基に発話内容を自動認識する技術が研究されている。このような技術は、聴覚障害者と健聴者の間のコミュニケーションを補助する技術として期待されている。

【0003】

特許文献１には、手話映像の自動認識を行うための構成が記載されている。特許文献１に記載された装置は、映像を基に記号列を生成する。生成される記号列は、手話単語列である。特許文献１に記載されている技術では、ニューラルネットワークを用いて手話映像の自動認識を行っている。ここでは、ニューラルネットワークの学習効率を上げるために誤差逆伝播の経路長を短くする工夫が導入されている。具体的には下記の通りである。

【0004】

手話映像を自動的に認識するためのしくみとして、エンコーダーとデコーダーとを直列に接続した構成が用いられる。エンコーダーおよびデコーダーは、それぞれ、ニューラルネットワークを用いて実現される。エンコーダーは、入力映像（手話映像）の特徴量を入力し、状態ベクトルを出力する。デコーダーは、上記エンコーダーから出力される状態ベクトルを入力し、推定語列（手話単語列、記号列、ラベル列）を出力する。この構成において学習を行う場合には、学習用データ（入力映像と正解語列との対）に基づいて、入力映像から得られた推定語列と正解語列との間の誤差（ロス）に基づいて、デコーダーおよびエンコーダーの経路での誤差逆伝播を行う。これにより、エンコーダーおよびデコーダーがそれぞれ持つニューラルネットワークの内部パラメーターが最適化される。

【0005】

前記の特許文献１に記載されている技術では、上記の構成（エンコーダーとデコーダーとを直列に接続した構成）での学習に加えて、別のしくみでの学習を導入している。特許文献１に記載されている技術では、上記のエンコーダー（入力映像の特徴量を基に状態ベクトルを出力するエンコーダー。便宜的に「第１エンコーダー」と呼ぶ。）とは別に、第２エンコーダーを設けている。第２エンコーダーは、正解単語列（手話単語列、記号列、ラベル列）を基に状態ベクトルを求めるニューラルネットワークを備えている。そして、第１エンコーダーから出力される状態ベクトルと第２エンコーダーから出力される状態ベクトルとの間の誤差（ロス）を算出し、その誤差に基づいて誤差逆伝播を行い、第１エンコーダーおよび第２エンコーダーの両方の学習を行う。

【0006】

つまり、特許文献１の技術では、基本的な構成（エンコーダーとデコーダーとを直列に接続した構成）での学習に加えて、第１エンコーダーからの出力と第２エンコーダーからの出力との間での誤差に基づく学習を行っている。つまり、特許文献１の技術では、より経路の短い誤差逆伝播を導入している。このように特許文献１の技術では、経路の短い伝播を行うことにより、勾配損失の影響を抑制したエンコーダーの学習を可能としている。

【先行技術文献】

【特許文献】

【0007】

【特許文献1】特開２０２１－０９９７１３号公報

【発明の概要】

【発明が解決しようとする課題】

【0008】

しかしながら、従来技術には次のような問題がある。即ち、特許文献１に示される装置では、第２エンコーダー（特許文献１の手法において追加的に設けているエンコーダー。特許文献１の実施形態に記載された「第２エンコーダー部６０」。）への入力は、常に正例（正解データ）の単語列のみである。このため、特許文献１の技術では、負例（不正解データ）による第１エンコーダー（映像特徴量を入力して状態ベクトルを出力するエンコーダー。特許文献１の実施形態に記載された「エンコーダー部２０」）の学習を行えないという問題がある。

【0009】

本発明は、上記の課題認識に基づいて行なわれたものであり、特許文献１に記載された構成を有する変換装置において、負例（不正解の単語列）による学習も可能とする変換装置およびプログラムを提供しようとするものである。

【課題を解決するための手段】

【0010】

［１］上記の課題を解決するため、本発明の一態様による変換装置は、映像特徴量を基にニューラルネットワークによる計算を行うことによって、意味情報を表す状態ベクトルを求めて出力する第１エンコーダー部と、前記第１エンコーダー部が出力する前記状態ベクトルを基にニューラルネットワークによる計算を行うことによって、単語列を推定して出力するデコーダー部と、与えられる単語列を基にニューラルネットワークによる計算を行うことによって、意味情報を表す状態ベクトルを求めて出力する第２エンコーダー部と、映像と当該映像に対応する正解語列との対を学習用に供給する学習用データ供給部と、前記学習用データ供給部が供給する前記正解語列に基づいて不正解語列を生成する負例データ生成部と、（１）前記学習用データ供給部が供給する前記映像の映像特徴量を基に前記第１エンコーダー部が出力する第１の状態ベクトルと、前記学習用データ供給部が供給する前記正解語列を基に前記第２エンコーダー部が出力する第２の状態ベクトルと、の間の誤差である正解誤差を求めるとともに、（２）前記第１の状態ベクトルと、前記学習用データ供給部が供給する前記正解語列に基づいて前記負例データ生成部が生成した不正解語列、を基に前記第２エンコーダー部が出力する第２の状態ベクトルと、の間の誤差である不正解誤差を求める、ロス算出部と、前記正解誤差と前記不正解誤差との両方に基づいて少なくとも前記第１エンコーダー部のニューラルネットワークの誤差逆伝播による学習を行うように制御する制御部と、を備える。

【0011】

上記［１］の構成によると、負例データ生成部は、不正解語列を自動的に生成する。ロス算出部は、正解語列に基づく正解誤差だけではなく、不正解語列に基づく不正解誤差を算出する。そして、制御部は、正解誤差と不正解誤差との両方に基づいて第１エンコーダー部のニューラルネットワークの学習を行う。つまり、第１エンコーダー部の学習を、不正解語列に基づいて行える。なお、この第１エンコーダー部のニューラルネットワークの学習を行う際に、同じ誤差に基づいて第２エンコーダー部のニューラルネットワークの学習を行うようにしてもよい。そして、学習後の第１エンコーダー部が出力する状態ベクトルに基づいて、デコーダー部が、単語列を推定することができる。

【0012】

［２］また、本発明の一態様は、上記［１］の変換装置において、前記ロス算出部は、求めた前記正解誤差と前記不正解誤差との両方に基づく誤差である合成誤差を求め、前記制御部は、前記合成誤差に基づいて少なくとも前記第１エンコーダー部のニューラルネットワークの誤差逆伝播による学習を行うように制御するものであり、前記正解誤差の値が大きい程、前記合成誤差の値は大きく、前記不正解誤差の値が大きい程、前記合成誤差の値は小さい、としたものである。

【0013】

上記［２］の構成によると、正解誤差の値が大きい程、合成誤差の値は大きい。また、不正解誤差の値が大きい程、合成誤差の値は小さい。このような合成誤差に基づいて第１エンコーダー部のニューラルネットワークの学習を行うことにより、学習後の第１エンコーダー部が出力する状態ベクトルは、正解誤差に対応する情報により近づき、不正解誤差に対応する情報からはより遠ざかる。

【0014】

［３］また、本発明の一態様として、上記［２］の変換装置において、前記合成誤差は、前記ロス算出部が下記の式（１）によって求めるＬ_{ｔｒｉｐｌｅｔ}である（ただし、式（１）において、ｄ_{ｐｏｓｉｔｉｖｅ}は、前記正解誤差であり、ｄ_{ｎｅｇａｔｉｖｅ}は、前記不正解誤差であり、αは、適宜定められる値である）。

【0015】

上記［３］の構成において、トリプレット誤差Ｌ_{ｔｒｉｐｌｅｔ}は、前記合成誤差の具体的な一例である。

【0016】

［４］また、本発明の一態様は、上記［２］または［３］の変換装置において、前記制御部は、前記正解誤差の値が所定の閾値より大きい場合には前記正解誤差に基づいて前記第１エンコーダー部のニューラルネットワークの誤差逆伝播を行うように制御し、前記正解誤差の値が前記閾値以下である場合には前記合成誤差に基づいて前記第１エンコーダー部のニューラルネットワークの誤差逆伝播を行うように制御するものである。

【0017】

上記［４］の構成によると、正解誤差が閾値より大きい段階においては正解誤差がより小さくなる方向だけに集中して第１エンコーダー部のニューラルネットワークの学習を行うことができる。且つ、正解誤差がその閾値以下となった段階においては、正解誤差がより小さくなり且つ不正解誤差がより大きくなることが両立する方向に、第１エンコーダー部のニューラルネットワークの学習を行うことができる。

【0018】

［５］また、本発明の一態様は、映像特徴量を基にニューラルネットワークによる計算を行うことによって、意味情報を表す状態ベクトルを求めて出力する第１エンコーダー部と、前記第１エンコーダー部が出力する前記状態ベクトルを基にニューラルネットワークによる計算を行うことによって、単語列を推定して出力するデコーダー部と、与えられる単語列を基にニューラルネットワークによる計算を行うことによって、意味情報を表す状態ベクトルを求めて出力する第２エンコーダー部と、映像と当該映像に対応する正解語列との対を学習用に供給する学習用データ供給部と、前記学習用データ供給部が供給する前記正解語列に基づいて不正解語列を生成する負例データ生成部と、（１）前記学習用データ供給部が供給する前記映像の映像特徴量を基に前記第１エンコーダー部が出力する第１の状態ベクトルと、前記学習用データ供給部が供給する前記正解語列を基に前記第２エンコーダー部が出力する第２の状態ベクトルと、の間の誤差である正解誤差を求めるとともに、（２）前記第１の状態ベクトルと、前記学習用データ供給部が供給する前記正解語列に基づいて前記負例データ生成部が生成した不正解語列、を基に前記第２エンコーダー部が出力する第２の状態ベクトルと、の間の誤差である不正解誤差を求める、ロス算出部と、前記正解誤差と前記不正解誤差との両方に基づいて少なくとも前記第１エンコーダー部のニューラルネットワークの誤差逆伝播による学習を行うように制御する制御部と、を備える変換装置、としてコンピューターを機能させるためのプログラムである。

【発明の効果】

【0019】

本発明によれば、正解語列に基づく正解誤差だけではなく、不正解語列に基づく不正解誤差も用いて、第１エンコーダー部の学習を行うことができる。つまり、本発明によれば、負例も用いた学習により、第１エンコーダー部の精度を高めることが可能となる。

【図面の簡単な説明】

【0020】

【図1】本発明の実施形態による変換装置の概略機能構成を示すブロック図である。

【図2】同実施形態における、第１エンコーダー部および第２エンコーダー部と、それらの入出力データの概略を示すブロック図である。

【図3】同実施形態による変換装置が、学習モードにおいて第１パターンによる学習を行う際の処理手順を示すフローチャートである。

【図4】同実施形態による変換装置が、学習モードにおいて第２パターンによる学習を行う際の処理手順を示すフローチャートである。

【図5】同実施形態による変換装置が、変換実行モードで稼働する場合の処理手順を示すフローチャートである。

【図6】同実施形態による変換装置の内部構成の例を示すブロック図である。

【発明を実施するための形態】

【0021】

次に、本発明の一実施形態について、図面を参照しながら説明する。本実施形態は、前記の特許文献１に記載された変換装置をさらに改善するものである。具体的には、本実施形態では、映像を基に状態ベクトルを生成するエンコーダーの学習効果を改善する。そのために、本実施形態の変換装置は、学習用データが持つ正例（正解の単語列）を基に負例（不正解の単語列）を生成する機能を有する。

【0022】

本実施形態は、供給される正例だけではなく、変換装置が生成した負例をも用いて、エンコーダーの学習を行う。具体的には、本実施形態では、下の式（１）によって算出されるトリプレットロス（トリプレット誤差）Ｌ_{ｔｒｉｐｌｅｔ}に基づいたニューラルネットワークの学習を行う。

【0023】

【数1】

【0024】

式（１）において、ｄ_{ｐｏｓｉｔｉｖｅ}は、ニューラルネットワークからの出力（その時点における推定値）と正例との間の距離である。また、ｄ_{ｎｅｇａｔｉｖｅ}は、ニューラルネットワークからの出力（その時点における推定値）と負例との間の距離である。αは、ハイパーパラメーターである。αは「マージン」とも呼ばれる。αの値は、適宜与えられる。αを、非負値としてよい。また、αの値を可変として機械学習によって求めるようにしてもよい。また、ｍａｘは、実引数のうちの最大値を返す最大値関数である。

【0025】

つまり、式（１）で算出されるトリプレットロスＬ_{ｔｒｉｐｌｅｔ}は、ニューラルネットワークからの出力が、正例により近くなり且つ負例からはより遠ざかるような学習作用をもたらす誤差（ロス、損失）である。

【0026】

本実施形態の変換装置は、ｄ_{ｎｅｇａｔｉｖｅ}を計算するために、擬似的な負例のデータを自動的に生成する。本実施形態は、これにより、エンコーダーの学習改善を図る。

【0027】

図１は、本実施形態による変換装置の概略機能構成を示すブロック図である。図示するように、変換装置１は、入力部１０と、第１エンコーダー部２０と、デコーダー部３０と、出力部４０と、第１ロス算出部５０と、第２エンコーダー部６０と、第２ロス算出部７０と、学習用データ供給部８０と、制御部９０と、負例データ生成部１１０とを含んで構成される。これらの各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ（ＳＳＤ）といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。

【0028】

上記構成を有する変換装置１は、手話の動作を含む映像を入力し、その映像に映された手話の動作に対応する単語列の情報を出力する。変換装置１が出力する単語列とは、単語に相当する手話動作（手話動作は、手話ラベル（手話単語、グロス）に対応する）を表す記号の列である。つまり、変換装置１は、手話の映像を単語列に変換する。

【0029】

変換装置１は、内部に機械学習可能なモデルを含んで構成される。機械学習可能なモデルは、例えば、ニューラルネットワークである。変換装置１は、学習モードあるいは変換実行モードのいずれかのモードで動作する。学習モードにおいては、変換装置１は、学習用データに基づいて上記モデルの学習を行う。具体的には、変換装置１は、モデルの内部パラメーターの最適化を行う。例えばニューラルネットワークを用いてモデルが構成される場合には、内部パラメーターの最適化を行う手法として、誤差逆伝播等の手法を利用することができる。変換実行モードにおいては、変換装置１は、学習済みのモデルに基づいて、未知の入力映像を基に、その映像に対応する単語列を求め（推測し）、得られた単語列を出力する。

【0030】

変換装置１が学習モードで稼働する場合には、第１パターンによる学習と第２パターンによる学習とを併用する。第１パターンによる学習とは、正例の学習用データのみを用いて、エンコーダー（下記の第１エンコーダー部２０）とデコーダー（下記のデコーダー部３０）との学習を行うものである。第２パターンによる学習とは、正例および負例の学習用データを併用して、第１エンコーダー（下記の第１エンコーダー部２０）と第２エンコーダー（下記の第２エンコーダー部６０）との学習を行うものである。第２パターンによる学習においては、デコーダーの学習は行われない。なお、第２パターンの学習においても、負例の学習用データを用いた学習が効果的ではないと考えられる状況においては、正例の学習用データのみに基づいて、第１エンコーダーと第２エンコーダーとの学習が行われる。第１パターンおよび第２パターンのそれぞれの学習の手順については、後でフローチャートを参照しながら説明する。

【0031】

一例として、変換装置１は、モデルの学習を行う際に、第１パターンによる学習と第２パターンによる学習とを交互に行うようにしてもよい。あるいは、変換装置１は、第１パターンによる学習を複数回行った後で、第２パターンによる学習を複数回行い、以後はこれを繰り返すようにしてもよい。

【0032】

変換装置１を構成する各部の機能は、次の通りである。

【0033】

入力部１０は、変換対象の入力映像を外部から取得して第１エンコーダー部２０に渡す。変換装置１が変換実行モードで稼働する場合に、入力部１０が入力映像を外部から取得する。

【0034】

第１エンコーダー部２０は、入力部１０あるいは学習用データ供給部８０から渡される映像を基に、その映像の意味を抽出し、抽出された意味の情報を含んだ状態ベクトルを出力する。つまり、状態ベクトルは、意味を表現する意味表現データである。つまり、第１エンコーダー部２０は、映像特徴量を基にニューラルネットワークによる計算を行うことによって、意味情報を表す状態ベクトルを求めて出力する。変換装置１が変換実行モードで稼働する場合には、第１エンコーダー部２０は、出力する状態ベクトルをデコーダー部３０に渡す。変換装置１が学習モードで稼働する場合には、第１パターンの学習においては、第１エンコーダー部２０は出力する状態ベクトルをデコーダー部３０に渡す。第２パターンの学習においては、第１エンコーダー部２０は、出力する状態ベクトルを第２ロス算出部７０に渡す。

【0035】

第１エンコーダー部２０は、内部にニューラルネットワークを含むように構成される。第１エンコーダー部２０が持つニューラルネットワークは、機械学習可能である。第１エンコーダー部２０は、一例として、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、再帰型ニューラルネットワーク）を用いて実現され得る。

【0036】

なお、第１エンコーダー部２０が持つＲＮＮには、入力映像（フレーム画像の系列）が直接入力されるわけではない。第１エンコーダー部２０が持つＲＮＮには、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏａｎｌＮｅｕｒａｌＮｅｔｗｏｒｋ，畳み込みニューラルネットワーク）を用いて抽出したフレーム画像の画像特徴量が入力されるようにする。

【0037】

デコーダー部３０は、第１エンコーダー部２０が出力した状態ベクトルを基に、単語列を算出し、出力する。デコーダー部３０が出力する単語列は、各々の単語に対応するベクトルの列である。変換装置１が変換実行モードで稼働する場合には、デコーダー部３０は、出力する単語列を出力部４０に渡す。変換装置１が学習モード（第１パターンの学習）で稼働する場合には、デコーダー部３０は、出力する単語列を第１ロス算出部５０に渡す。デコーダー部３０もまた、第１エンコーダー部２０と同様に、内部にニューラルネットワークを含むように構成される。デコーダー部３０は、一例として、ＲＮＮを用いて実現され得る。つまり、デコーダー部３０は、第１エンコーダー部２０が出力する状態ベクトルを基にニューラルネットワークによる計算を行うことによって、単語列を推定して出力する。

【0038】

出力部４０は、デコーダー部３０から単語列を渡される場合に、その単語列を外部に出力する。つまり、変換装置１が変換実行モードで稼働する場合に、出力部４０は、入力映像に対応する単語列（入力映像の認識結果である推定語列）を、外部に出力する。

【0039】

第１ロス算出部５０は、ニューラルネットワークの学習のためのロス（損失、誤差）を算出する。具体的には、第１ロス算出部５０は、第１パターンの学習において、デコーダー部３０が出力する単語列と、学習用データ供給部８０から供給される正解語列と、の間のロスを算出する。第１ロス算出部５０が算出したロスは、デコーダー部３０および第１エンコーダー部２０がそれぞれ持つニューラルネットワークの誤差逆伝播にために用いられる。

【0040】

第２エンコーダー部６０は、学習用データ供給部８０が供給する語列を基に、その語列の意味を抽出し、その結果として状態ベクトルを出力する。学習用データ供給部８０が供給する語列のデータは、正解語列である場合と不正解語列である場合とがある。正解語列を基に第２エンコーダー部６０が算出した状態ベクトルは、前記の式（１）におけるｄ_{ｐｏｓｉｔｉｖｅ}を求めるために用いられる。不正解語列を基に第２エンコーダー部６０が算出した状態ベクトルは、前記の式（１）におけるｄ_{ｎｅｇａｔｉｖｅ}を求めるために用いられる。第２エンコーダー部６０もまた、第１エンコーダー部２０と同様に、内部にニューラルネットワークを含むように構成される。第２エンコーダー部６０は、一例として、ＲＮＮを用いて実現され得る。つまり、第２エンコーダー部６０は、学習用データ供給部８０から与えられる単語列を基にニューラルネットワークによる計算を行うことによって、意味情報を表す状態ベクトルを求めて出力する。

【0041】

第２ロス算出部７０は、ニューラルネットワークの誤差逆伝播を行うためのロスを算出する。具体的には、第２ロス算出部７０は、第２パターンの学習のためのロスを算出する。つまり、第２ロス算出部７０は、第１エンコーダー部２０が出力した状態ベクトルと第２エンコーダー部６０が出力した状態ベクトルとの間のロスを求める。また、第２ロス算出部７０は、正解語列に基づいて求められたｄ_{ｐｏｓｉｔｉｖｅ}と、不正解語列に基づいて求められたｄ_{ｎｅｇａｔｉｖｅ}とを用いて、前記の式（１）により、トリプレットロスＬ_{ｔｒｉｐｌｅｔ}を算出する。なお、第２ロス算出部７０を単に「ロス算出部」と呼んでもよい。

【0042】

つまり、第２ロス算出部７０は、学習用データ供給部８０が供給する映像（学習用データ）の映像特徴量を基に第１エンコーダー部２０が出力する第１の状態ベクトルと、学習用データ供給部８０が供給する正解語列（学習用データ）を基に第２エンコーダー部６０が出力する第２の状態ベクトルと、の間の誤差である正解誤差（ｄ_{ｐｏｓｉｔｉｖｅ}）を求める。また、第２ロス算出部７０は、前記第１の状態ベクトルと、学習用データ供給部８０が供給する正解語列に基づいて負例データ生成部１１０が生成する不正解語列、を基に第２エンコーダー部６０が出力する第２の状態ベクトルと、の間の誤差である不正解誤差（ｄ_{ｎｅｇａｔｉｖｅ}）を求める。

【0043】

また、第２ロス算出部７０は、求めた正解誤差と不正解誤差との両方に基づく誤差である合成誤差を求める。なお、合成誤差は、次のようなものである。正解誤差の値が大きい程、合成誤差の値は大きい。また、不正解誤差の値が大きい程、合成誤差の値は小さい。合成誤差の一例は、第２ロス算出部７０が、前記の式（１）によって求めるトリプレット誤差Ｌ_{ｔｒｉｐｌｅｔ}である。

【0044】

学習用データ供給部８０は、変換装置１が機械学習を行うための学習用データを供給する。学習用データ供給部８０は、入力映像と正解語列の対を１件の正例の学習用データとして供給する。また、学習用データ供給部８０は、上記の正解語列に基づいて、負例データ生成部１１０に不正解語列を生成するよう指示する。学習用データ供給部８０は、入力映像とその不正解語列の対を、上記正例の学習用データに対応する１件の負例の学習用データとして供給する。このように、学習用データ供給部８０が、１つの入力映像に関して、正例の学習用データ（正解語列）と負例の学習用データ（不正解語列）の両方を供給するため、第２ロス算出部７０は、上記のｄ_{ｐｏｓｉｔｉｖｅ}とｄ_{ｎｅｇａｔｉｖｅ}とに基づいてトリプレットロスＬ_{ｔｒｉｐｌｅｔ}を算出することが可能となる。つまり、学習用データ供給部８０は、少なくとも映像と当該映像に対応する正解語列との対を、学習用に供給するものである。

【0045】

なお、学習用データ供給部８０が供給する不正解語列のデータは、正解語列に基づいて機械的に生成される擬似的な負例である。この不正解語列を「不完全正解語列」と呼んでもよい。

【0046】

負例データ生成部１１０は、学習用データ供給部８０からの指示に基づき負例データを生成する。具体的には、負例データ生成部１１０は、学習用データ供給部８０から渡される正解語列を基に不正解語列を生成し、その不正解語列を負例データとして学習用データ供給部８０に返す。

【0047】

負例データ生成部１１０による処理方法の一例は、次の通りである。負例データ生成部１１０は、学習用データ供給部８０から正解語列を受け取る。この正解語列は、Ｗｏｒｄ_１－・・・－Ｗｏｒｄ_Ｕと表わされ得る。つまり、正解語列は、Ｕ個の単語の列である。Ｗｏｒｄ_１からＷｏｒｄ_Ｕまでの各々の単語は、手話ラベル（記号）である。負例データ生成部１１０は、上記の正解語列を構成するＵ個の単語のうちの任意のｍ個の単語を、それぞれ他の単語に置き換えることによって、不正解語列を生成する。なお、１≦ｍ≦Ｕである。ｍの値を、１または２等としてもよいし、１≦ｍ≦Ｕの範囲内でランダムに選択された値としてもよい。また、ｍ個の単語を置き換える際の置き換え後の単語は、例えば、ランダムに選択された単語であってよい。あるいは、置き換え後の単語を、置き換え前の単語と類似の文法的性質を持つ単語に限定してもよい。

【0048】

制御部９０は、変換装置１全体の動作を制御する。具体的には、制御部９０は、変換装置１が、学習モードで稼働するか変換実行モードで稼働するかを制御する。制御部９０は、その時点での稼働モードに依存した動作を行うように各機能部を制御する。また、制御部９０は、変換装置１が学習モードで稼働する際に、第１パターンによる学習を行うか第２パターンによる学習を行うかを制御する。

【0049】

また、制御部９０は、変換装置１による機械学習の手順を具体的に制御する。

【0050】

つまり、第１パターンの学習を行う場合には、制御部９０は、学習用データに含まれる映像が第１エンコーダー部２０に供給されるように制御するとともに、第１エンコーダー部２０およびデコーダー部３０にニューラルネットワークの順方向の処理を行わせる。また、制御部９０は、学習用データに含まれる正解語列が第１ロス算出部５０に供給されるように制御する。また、制御部９０は、第１ロス算出部５０が算出したロスに基づいて、デコーダー部３０および第１エンコーダー部２０がそれぞれ持つニューラルネットワークの誤差逆伝播を行わせる。

【0051】

また、第２パターンの学習を行う場合には、制御部９０は、負例データ生成部１１０に、不正解語列を生成させる。また、制御部９０は、学習用データに含まれる映像が第１エンコーダー部２０に供給されるように制御するとともに、学習用データに含まれる正解語列データや負例データ生成部１１０によって生成された不正解語列が第２エンコーダー部６０に供給されるように制御する。また、制御部９０は、第１エンコーダー部２０および第２エンコーダー部６０のそれぞれが持つニューラルネットワークに、順方向の処理を行わせる。また、制御部９０は、第２ロス算出部７０にロスを算出させる。第２ロス算出部７０は、状況に応じて、正解誤差（ｄ_{ｐｏｓｉｔｉｖｅ}）、不正解誤差（ｄ_{ｎｅｇａｔｉｖｅ}）、およびトリプレット誤差（Ｌ_{ｔｒｉｐｌｅｔ}）のうちの必要なものを算出する。また、制御部９０は、第２ロス算出部７０が算出したロスに基づいて、第１エンコーダー部２０や第２エンコーダー部６０のそれぞれのニューラルネットワークの誤差逆伝播を行わせるよう制御する。

【0052】

また、制御部９０は、映像と正解語列との対の集合（学習用データ）に含まれる各対が、順次、学習のために使用されるように制御する。また、制御部９０は、ニューラルネットワークの学習に関する終了条件を判定し、学習を終了させるか否かを制御する。制御部９０は、例えば、所定回数（所定エポック数）の処理が完了したときに学習を終了させるようにしてよい。また、制御部９０は、例えば、ニューラルネットワークの内部パラメーターの値の学習による変化が収束したか否かを判定し、その判定結果に基づいて学習を終了させるか否かを決定してもよい。

【0053】

また、制御部９０は、正解誤差と不正解誤差との両方に基づいて少なくとも第１エンコーダー部２０のニューラルネットワークの誤差逆伝播による学習を行うように制御する。制御部９０が、正解誤差と不正解誤差との両方に基づいて、さらに第２エンコーダー部６０のニューラルネットワークの誤差逆伝播による学習を行うように制御してもよい。なお、制御部９０は、前記の合成誤差に基づいて少なくとも第１エンコーダー部２０のニューラルネットワークの誤差逆伝播による学習を行うように制御するものであってよい。

【0054】

また、制御部９０は、前記正解誤差の値が所定の閾値より大きい場合には前記正解誤差に基づいて前記第１エンコーダー部のニューラルネットワークの誤差逆伝播を行うように制御し、前記正解誤差の値が前記閾値以下である場合には前記合成誤差に基づいて前記第１エンコーダー部のニューラルネットワークの誤差逆伝播を行うように制御するものであってよい。その具体的な手順については、後でフローチャートを参照しながら説明する。

【0055】

図２は、第１エンコーダー部２０および第２エンコーダー部６０と、それらの入出力データの概略を示すブロック図である。図示するように、第１エンコーダー部２０は、内部にニューラルネットワーク２２０を備えて構成される。また、第２エンコーダー部６０は、内部にニューラルネットワーク２６０を備えて構成される。

【0056】

第１エンコーダー部２０に設けられたニューラルネットワーク２２０は、入力映像に含まれるフレーム画像の情報を入力し、その意味を表す情報を持つ状態ベクトルを出力する。なお、前述の通り、ＣＮＮが、入力されるフレーム画像の特徴を表す特徴量（特徴ベクトル）を出力する。そして、ＲＮＮが、そのフレーム画像の特徴量を入力し状態ベクトルを出力する。第２エンコーダー部６０に設けられたニューラルネットワーク２６０は、単語列の情報を入力し、その意味を表す情報を持つ状態ベクトルを出力する。なお、単語列は、学習用データ供給部８０から供給されるデータであり、正解語列または不正解語列のいずれかである。

【0057】

第２ロス算出部７０は、第１エンコーダー部２０のニューラルネットワーク２２０から出力される状態ベクトルと、第２エンコーダー部６０のニューラルネットワーク２６０から出力される状態ベクトルと、の間のロスを算出する。第２ロス算出部７０は、学習用データ供給部８０から供給される正解語列に対応するロスであるｄ_{ｐｏｓｉｔｉｖｅ}を算出する場合と、学習用データ供給部８０から供給される不正解語列に対応するロスであるｄ_{ｎｅｇａｔｉｖｅ}を算出する場合とがある。さらに、第２ロス算出部は、これらのｄ_{ｐｏｓｉｔｉｖｅ}およびｄ_{ｎｅｇａｔｉｖｅ}を基に、式（１）により、トリプレットロスＬ_{ｔｒｉｐｌｅｔ}を算出することができる。

【0058】

ニューラルネットワーク２２０および２６０の誤差逆伝播を行う場合には、上記のｄ_{ｐｏｓｉｔｉｖｅ}あるいはトリプレットロスＬ_{ｔｒｉｐｌｅｔ}を用いる。このような学習を行うことにより、ニューラルネットワーク２２０および２６０が出力する状態ベクトルは、正解語列に対応した状態ベクトルに近づき、且つ、不正解語列に対応した状態ベクトルから遠ざかる。

【0059】

次に、変換装置１の動作手順について説明する。学習モードでの動作（第１パターンの学習（図３）および第２パターンの学習（図４））と、変換実行モードでの動作（図５）とのそれぞれについて、フローチャートを参照しながら説明する。

【0060】

図３は、変換装置１が、学習モードにおいて第１パターンによる学習を行う際の処理手順を示すフローチャートである。このフローチャートは、１対の入力映像および正解語列に対応する処理を示すものである。以下、このフローチャートに沿って処理手順を説明する。

【0061】

ステップＳ１において、学習用データ供給部８０は、入力映像と正解語列の対（正例）のデータを１件取得する。学習用データ供給部８０は、この対に含まれる入力映像を、第１エンコーダー部２０に供給する。また、学習用データ供給部８０は、この対に含まれる正解語列を、第１ロス算出部５０に供給する。

【0062】

ステップＳ２において、学習用データ供給部８０は、ステップＳ１において取得された入力映像のデータを、第１エンコーダー部２０に供給する。第１エンコーダー部２０は、渡された入力映像のデータに基づいて、ニューラルネットワークの順伝播の処理を行う。これにより、第１エンコーダー部２０は、状態ベクトルを出力する。この状態ベクトルは、デコーダー部３０に渡される。

【0063】

ステップＳ３において、デコーダー部３０は、ステップＳ２の処理によって第１エンコーダー部２０から出力された状態ベクトルを入力し、ニューラルネットワークの順伝播の処理を行う。この結果として、デコーダー部３０は、推定語列を出力する。この推定語列は、元の入力映像に対応する語列として推定されたものである。デコーダー部３０は、この推定語列を、第１ロス算出部５０に渡す。

【0064】

ステップＳ４において、第１ロス算出部５０は、デコーダー部３０から出力された推定語列と、学習用データ供給部８０から供給される（ステップＳ１）正解語列との間のロスを算出する。このロスは、ステップＳ５からＳ６までにおける誤差逆伝播の処理の基となる。

【0065】

ステップＳ５において、変換装置１は、上記のロスに基づいて、デコーダー部３０が持つニューラルネットワークの誤差逆伝播を行う。これにより、デコーダー部３０の内部パラメーターの値が更新される。

【0066】

ステップＳ６において、変換装置１は、上記のステップＳ５に引き続き、第１エンコーダー部２０が持つニューラルネットワークの誤差逆伝播を行う。これにより、第１エンコーダー部２０の内部パラメーターの値が更新される。

【0067】

図４は、変換装置１が、学習モードにおいて第２パターンによる学習を行う際の処理手順を示すフローチャートである。このフローチャートは、１件の入力映像、正解語列、および不正解語列の組に対応する処理を示すものである。以下、このフローチャートに沿って処理手順を説明する。

【0068】

ステップＳ１１において、学習用データ供給部８０は、入力映像と正解語列の対（正例）のデータを１件取得する。

【0069】

ステップＳ１２において、負例データ生成部１１０は、ステップＳ１１において取得された正解語列を基に、不正解語列を生成する。負例データ生成部１１０は、生成した不正解語列のデータを学習用データ供給部８０に渡す。

【0070】

ステップＳ１３において、学習用データ供給部８０は、ステップＳ１１において取得された入力映像のデータを、第１エンコーダー部２０に供給する。第１エンコーダー部２０は、渡された入力映像のデータに基づいて、ニューラルネットワークの順伝播の処理を行う。これにより、第１エンコーダー部２０は、状態ベクトルを出力する。

【0071】

ステップＳ１４において、学習用データ供給部８０は、ステップＳ１１において取得された正解語列のデータを、第２エンコーダー部６０に供給する。第２エンコーダー部６０は、渡された正解語列のデータに基づいて、順伝播の処理を行う。これにより、第２エンコーダー部６０は、状態ベクトルを出力する。

【0072】

ステップＳ１５において、第２ロス算出部７０は、第１エンコーダー部２０から出力された状態ベクトルと、第２エンコーダー部６０から出力された状態ベクトルとの間のロスを算出する。ここで算出されるロスは、前記の式（１）におけるｄ_{ｐｏｓｉｔｉｖｅ}である。

【0073】

ステップＳ１６において、制御部９０は、ステップＳ１５において算出されたロス（第１エンコーダー部２０から出力された状態ベクトルと、第２エンコーダー部６０から出力された状態ベクトルと、の間のロス）が所定の閾値より大きいか否かを判定する。ロスが閾値よりも大きい場合（ステップＳ１６：ＹＥＳ）には、ステップＳ２０の処理に飛ぶ。ロスが閾値以下である場合（ステップＳ１６：ＮＯ）には、次のステップＳ１７の処理に飛ぶ。

【0074】

なお、上記の閾値は適宜定めればよい。一例として、閾値を０．０１などとしてよい。

【0075】

言い換えれば、ステップＳ１５において算出されたロスが所定の閾値よりも大きい場合には、そのロス（正例のみに基づくロス）によってニューラルネットワークの内部パラメーターの調整を行うようにする。また、ステップＳ１５において算出されたロスがその閾値以下である場合には、正例だけではなく負例にも基づいて算出されるトリプレットロスによってニューラルネットワークの内部パラメーターの調整を行うようにする。

【0076】

ステップＳ１７に進んだ場合、同ステップにおいて、学習用データ供給部８０は、ステップＳ１２において生成された不正解語列（負例）を第２エンコーダー部６０に供給する。第２エンコーダー部６０は、渡された不正解語列のデータに基づいて、順伝播の処理を行う。これにより、第２エンコーダー部６０は、状態ベクトルを出力する。

【0077】

ステップＳ１８において、第２ロス算出部７０は、第１エンコーダー部２０から出力された状態ベクトル（ステップＳ１３）と、第２エンコーダー部６０から出力された状態ベクトル（ステップＳ１７）との間のロスを算出する。ここで算出されるロスは、前記の式（１）におけるｄ_{ｎｅｇａｔｉｖｅ}である。

【0078】

ステップＳ１９において、第２ロス算出部７０は、前記の式（１）により、トリプレットロスＬ_{ｔｒｉｐｌｅｔ}を算出する。式（１）に表しているように、第１エンコーダー部２０から出力される状態ベクトルが正解語列（正例）に基づいて第２エンコーダー部６０によって算出される状態ベクトルに近い程、トリプレットロスＬ_{ｔｒｉｐｌｅｔ}の値は小さくなる。また、第１エンコーダー部２０から出力される状態ベクトルが不正解語列（負例）に基づいて第２エンコーダー部６０によって算出される状態ベクトルに近い程、トリプレットロスＬ_{ｔｒｉｐｌｅｔ}の値は大きくなる。

【0079】

次にステップＳ２０およびＳ２１の誤差逆伝播の処理に移る。なお、ステップＳ１６においてロスが閾値より大きい（ステップＳ１６：ＹＥＳ）と判定されていた場合には、ステップＳ１５で算出されたロスＬ_{ｐｏｓｉｔｉｖｅ}に基づく逆伝播を行うようにする。ステップＳ１６においてロスが閾値以下である（ステップＳ１６：ＮＯ）と判定されていた場合には、ステップＳ１９で算出されたトリプレットロスＬ_{ｔｒｉｐｌｅｔ}に基づく逆伝播を行うようにする。

【0080】

ステップＳ２０において、変換装置１は、上記のロスに基づいて、第２エンコーダー部６０が持つニューラルネットワークの誤差逆伝播を行う。これにより、第２エンコーダー部６０の内部パラメーターの値が更新される。

【0081】

ステップＳ２１において、変換装置１は、上記のロスに基づいて、第１エンコーダー部２０が持つニューラルネットワークの誤差逆伝播を行う。これにより、第１エンコーダー部２０の内部パラメーターの値が更新される。

【0082】

図５は、変換装置１が、変換実行モードで稼働する場合の処理手順を示すフローチャートである。変換装置１が変換実行モードで稼働するのは、ニューラルネットワークの学習が完了していることが前提である。以下、このフローチャートに沿って処理手順を説明する。

【0083】

ステップＳ５１において、入力部１０は、入力映像を取得する。入力部１０は、その入力映像に含まれるフレーム画像を、第１エンコーダー部２０に渡す。

【0084】

ステップＳ５２において、第１エンコーダー部２０は、ステップＳ５１で取得された入力映像に基づいて、ニューラルネットワークの順伝播の処理を行う。その結果として、第１エンコーダー部２０は状態ベクトルを出力する。この状態ベクトルは、デコーダー部３０に渡される。

【0085】

ステップＳ５３において、デコーダー部３０は、ステップＳ５２において第１エンコーダー部２０から出力された状態ベクトルを入力として、ニューラルネットワークの順伝播の処理を行う。その結果として、デコーダー部３０は、単語列を出力する。この単語列は、入力映像に移る手話動作に対応する単語列である。言い換えれば、この単語列は、その手話動作の内容を表すものとして推定された推定語列である。つまり、この単語列は、入力映像に映る手話動作の認識結果である。デコーダー部３０は、この単語列を出力部４０に渡す。

【0086】

ステップＳ５４において、出力部４０は、ステップＳ５３においてデコーダー部３０から出力された単語列を、変換結果（手話動作の認識結果）として外部に出力する。

【0087】

変換装置１は、例えば、第１パターンの学習と第２パターンの学習とを交互に繰り返して行うようにしてよい。また、変換装置１は、すべての学習用データを順次適用して行うことを、繰り返し行うようにしてよい。変換装置１は、学習用データを用いた機械学習についての既存手法を用いる場合がある。

【0088】

図６は、変換装置１の内部構成の例を示すブロック図である。変換装置１は、コンピューターを用いて実現され得る。図示するように、そのコンピューターは、中央処理装置９０１と、ＲＡＭ９０２と、入出力ポート９０３と、入出力デバイス９０４や９０５等と、バス９０６と、を含んで構成される。コンピューター自体は、既存技術を用いて実現可能である。中央処理装置９０１は、ＲＡＭ９０２等から読み込んだプログラムに含まれる命令を実行する。中央処理装置９０１は、各命令にしたがって、ＲＡＭ９０２にデータを書き込んだり、ＲＡＭ９０２からデータを読み出したり、算術演算や論理演算を行ったりする。ＲＡＭ９０２は、データやプログラムを記憶する。ＲＡＭ９０２に含まれる各要素は、アドレスを持ち、アドレスを用いてアクセスされ得るものである。なお、ＲＡＭは、「ランダムアクセスメモリー」の略である。入出力ポート９０３は、中央処理装置９０１が外部の入出力デバイス等とデータのやり取りを行うためのポートである。入出力デバイス９０４や９０５は、入出力デバイスである。入出力デバイス９０４や９０５は、入出力ポート９０３を介して中央処理装置９０１との間でデータをやりとりする。バス９０６は、コンピューター内部で使用される共通の通信路である。例えば、中央処理装置９０１は、バス９０６を介してＲＡＭ９０２のデータを読んだり書いたりする。また、例えば、中央処理装置９０１は、バス９０６を介して入出力ポートにアクセスする。

【0089】

なお、実施形態における変換装置１の少なくとも一部の機能をコンピューターおよびプログラムで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。つまり、「コンピューター読み取り可能な記録媒体」とは、非一過性の（non-transitory）コンピューター読み取り可能な記録媒体であってよい。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

【0090】

以上説明したように、本実施形態によると、変換装置１は、ｄ_{ｐｏｓｉｔｉｖｅ}（正解誤差）を小さくして、ｄ_{ｎｅｇａｔｉｖｅ}（不完全誤差）を大きくするような学習を行う。また、変換装置１は、そのような学習を行うための不正解語列（不完全語列）を自動的に生成する。つまり、第１エンコーダー部２０は、正解語列と不正解語列（不完全語列）の違いを学習することができ、映像の認識精度の向上が図られる。

【0091】

上記実施形態の実証実験を行った結果は、次の通りである。実証実験においては、学習用データとして、手話映像（入力映像）と正解語列との対を６０００対準備し、変換装置１の学習を行った。また、評価用データとして手話映像と正解語列の対を１０００対用いて、手話映像に基づく変換を行った結果の推定語列の誤り率を評価した。従来技術（特許文献１に記載された手法）と比較して、誤り率が１．５％低くなったことを確認できた。

【0092】

以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。

【0093】

［変形例］
上記実施形態では、第２パターンによる学習（図４）を行う際に、ｄ_{ｐｏｓｉｔｉｖｅ}（正解誤差）が所定の閾値以下である場合にのみ、トリプレット誤差Ｌ_{ｔｒｉｐｌｅｔ}に基づく逆伝播を行うようにした（図４のステップＳ１６における判断）。変形例としては、このステップＳ１６での判定を行わず、常にトリプレット誤差Ｌ_{ｔｒｉｐｌｅｔ}に基づく逆伝播を行うようにしてもよい。

【0094】

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

【産業上の利用可能性】

【0095】

本発明は、例えば、映像からの意味抽出や映像の認識等の処理に利用することができる。その一例として、言語表現的な内容を含む映像を、他の言語表現に変換するために利用することが考えられる。但し、本発明の利用範囲はここに例示したものには限られない。

【符号の説明】

【0096】

１変換装置
１０入力部
２０エンコーダー部
３０デコーダー部
４０出力部
５０第１ロス算出部
６０第２エンコーダー部
７０第２ロス算出部（ロス算出部）
８０学習用データ供給部
９０制御部
１１０負例データ生成部
２２０，２６０ニューラルネットワーク
９０１中央処理装置
９０２ＲＡＭ
９０３入出力ポート
９０４，９０５入出力デバイス
９０６バス

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版