特許7455000 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特許7455000変換装置、学習装置、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-03-14

(45)【発行日】2024-03-25

(54)【発明の名称】変換装置、学習装置、およびプログラム

(51)【国際特許分類】

G06T 7/20 20170101AFI20240315BHJP

G06N 3/0895 20230101ALI20240315BHJP

G06T 7/00 20170101ALI20240315BHJP

【ＦＩ】

G06T7/20 300A

G06N3/0895

G06T7/00 350C

【請求項の数】 9

(21)【出願番号】P 2020092329

(22)【出願日】2020-05-27

(65)【公開番号】P2021189596

(43)【公開日】2021-12-13

【審査請求日】2023-04-20

(73)【特許権者】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】100141139

【弁理士】

【氏名又は名称】及川周

(74)【代理人】

【識別番号】100171446

【弁理士】

【氏名又は名称】高田尚幸

(74)【代理人】

【識別番号】100114937

【弁理士】

【氏名又は名称】松本裕幸

(74)【代理人】

【識別番号】100171930

【弁理士】

【氏名又は名称】木下郁一郎

(72)【発明者】

【氏名】梶山岳士

(72)【発明者】

【氏名】遠藤伶

【審査官】新井則和

(56)【参考文献】

【文献】特開２０１８－０８１５４６（ＪＰ，Ａ）

【文献】梶山岳士外，深層学習を用いた日本手話認識の評価実験，２０１９年映像情報メディア学会年次大会，2019年08月30日

【文献】Bowen Shi, Karen Livescu，Multitask training with unlabeled data for end-to-end sign language fingerspelling recognition，2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)，2017年12月16日，https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8268962

【文献】渡邊滉大，亀山渉，時空間的特徴を考慮したＤＮＮによる手話翻訳手法の比較検討，電子情報通信学会技術研究報告Ｖｏｌ．１１９Ｎｏ．４５６，2020年02月27日，pp. 273-278

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／２０

Ｇ０６Ｔ７／００

Ｇ０６Ｎ３／０８９５

(57)【特許請求の範囲】

【請求項1】

入力される画像系列を基に状態データを生成するエンコーダー部と、
前記状態データを基に記号列を生成するデコーダー部と、
前記画像系列に含まれるそれぞれの画像から切出した所定の部分画像に少なくとも基づいて状態データを生成する第２エンコーダー部と、
前記エンコーダー部および前記第２エンコーダー部への入力の基となる学習用画像系列と、前記学習用画像系列に対応する前記記号列の正解である正解記号列との対を供給する学習データ供給部と、
前記学習用画像系列に基づいて前記エンコーダー部または前記第２エンコーダー部のいずれかが生成する状態データ、に基づいて前記デコーダー部が生成する記号列である学習用推定記号列と、前記学習用画像系列に対応して前記学習データ供給部が供給する前記正解記号列と、の差を表すロスを算出するロス算出部と、
前記学習用画像系列に基づいて前記エンコーダー部が生成する状態データと、当該学習用画像系列に基づいて前記第２エンコーダー部が生成する状態データと、の差を表す第２ロスを算出する第２ロス算出部と、
第１学習処理モードと、第２学習処理モードと、推定処理モードとを適宜切り替えて実行させるように制御する制御部と、
を備え、
前記第１学習処理モードにおいては、学習データ供給部が供給する前記学習用画像系列と前記正解記号列とに基づいて前記ロス算出部が算出した前記ロス、に基づいて、前記デコーダー部の内部パラメーターを調整するとともに、前記エンコーダー部または前記第２エンコーダー部のいずれかであって前記ロス算出部が前記ロスを算出する際の基となった前記状態データを生成した側の内部パラメーターを調整し、
前記第２学習処理モードにおいては、学習データ供給部が供給する前記学習用画像系列に基づいて前記第２ロス算出部が算出した前記第２ロス、に基づいて少なくとも前記エンコーダー部の内部パラメーターを調整し、
前記推定処理モードにおいては、前記エンコーダー部が推定対象の画像系列を基に状態データを生成し、前記エンコーダー部が生成した前記状態データを基に、前記デコーダー部が、前記記号列を生成する、
変換装置。

【請求項2】

前記ロス算出部は、前記エンコーダー部が生成する前記状態データに基づいて前記ロスを算出する、
請求項１に記載の変換装置。

【請求項3】

前記ロス算出部は、前記第２エンコーダー部が生成する前記状態データに基づいて前記ロスを算出する、
請求項１に記載の変換装置。

【請求項4】

前記第２エンコーダー部は、前記画像系列に含まれる切出される前の元の前記画像にも基づいて前記状態データを生成する、
請求項３に記載の変換装置。

【請求項5】

入力される画像系列を基に状態データを生成するエンコーダー部と、
前記状態データを基に記号列を生成するデコーダー部と、
を備え、
前記エンコーダー部は、機械学習により定まる内部パラメーターを有し、定められた前記内部パラメーターに基づいて、前記画像系列を基に前記状態データを生成するものであり、
前記内部パラメーターは、前記エンコーダー部が学習用画像系列に基づいて生成した状態データと、第２エンコーダー部が前記画像系列に含まれる画像から切出した所定の部分画像に少なくとも基づいて生成した状態データと、の差を表すロスに基づいて調整済みである、
変換装置。

【請求項6】

前記画像系列は、手話を表す映像であり、
前記第２エンコーダー部は、前記画像系列に含まれる手指を含む領域の前記部分画像に少なくとも基づいて前記状態データを生成する、
請求項１から５までのいずれか一項に記載の変換装置。

【請求項7】

入力される画像系列を基に状態データを生成するエンコーダー部と、
前記状態データを基に記号列を生成するデコーダー部と、
前記画像系列に含まれるそれぞれの画像の所定の部分画像に少なくとも基づいて状態データを生成する第２エンコーダー部と、
前記エンコーダー部および前記第２エンコーダー部への入力の基となる学習用画像系列と、前記学習用画像系列に対応する前記記号列の正解である正解記号列との対を供給する学習データ供給部と、
前記学習用画像系列に基づいて前記エンコーダー部または前記第２エンコーダー部のいずれかが生成する状態データ、に基づいて前記デコーダー部が生成する記号列である学習用推定記号列と、前記学習用画像系列に対応して前記学習データ供給部が供給する前記正解記号列と、の差を表すロスを算出するロス算出部と、
前記学習用画像系列に基づいて前記エンコーダー部が生成する状態データと、当該学習用画像系列に基づいて前記第２エンコーダー部が生成する状態データと、の差を表す第２ロスを算出する第２ロス算出部と、
第１学習処理モードと、第２学習処理モードとを適宜切り替えて実行させるように制御する制御部と、
を備え、
前記第１学習処理モードにおいては、学習データ供給部が供給する前記学習用画像系列と前記正解記号列とに基づいて前記ロス算出部が算出した前記ロス、に基づいて、前記デコーダー部の内部パラメーターを調整するとともに、前記エンコーダー部または前記第２エンコーダー部のいずれかであって前記ロス算出部が前記ロスを算出する際の基となった前記状態データを生成した側の内部パラメーターを調整し、
前記第２学習処理モードにおいては、学習データ供給部が供給する前記学習用画像系列に基づいて前記第２ロス算出部が算出した前記第２ロス、に基づいて少なくとも前記エンコーダー部の内部パラメーターを調整する、
学習装置。

【請求項8】

コンピューターを、
請求項１から６までのいずれか一項に記載の変換装置、
として機能させるためのプログラム。

【請求項9】

コンピューターを、
請求項７に記載の学習装置、
として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、変換装置、学習装置、およびプログラムに関する。

【背景技術】

【0002】

映像に映されている内容を自動的に認識する技術は、人のコミュニケーションを補助する手段としての活用が期待されている。その一例として、手話をカメラ等で撮影して、その映像（画像）を自動的に認識する技術は、聴覚障害者と健聴者との間のコミュニケーションへの活用が期待される。

【0003】

非特許文献１には、手話言語のひとつであるドイツ手話を自動認識してドイツ語へ変換する研究について記載されている。例えば、非特許文献１内のFigure 2は、手話言語を口語言語に翻訳するための手話翻訳機の概略構成を示している。このFigure 2が示す手話翻訳機は、エンコーダーとデコーダーを含んで構成される。エンコーダーおよびデコーダーは、それぞれ、再帰型ニューラルネットワーク（ＲＮＮ，recurrent neural network）を用いている。エンコーダーは、フレーム画像の系列を入力し、特徴ベクトルを生成する。
デコーダーは、エンコーダーによって生成された特徴ベクトルを入力し、語の系列を生成する。

【0004】

非特許文献２の第２章には、深層学習を用いた手話認識について記載されている。非特許文献２の図２等では、日本手話の話者の映像から、上半身、左手、右手の部位を切出して利用することが記載されている。

【先行技術文献】

【非特許文献】

【0005】

【文献】Necati Cihan Camgoz，Simon Hadfield，Oscar Koller，Hermann Ney，Richard Bowden，”Neural Sign Language Translation” ，In IEEE Conference on Computer Vision and Pattern Recognition (CVPR) ，2018．

【文献】梶山岳士，遠藤伶，加藤直人，河合吉彦，金子浩之，「深層学習を用いた日本手話認識の評価実験」，２０１９年映像情報メディア学会年次大会講演予稿集，11B-2，2019．

【発明の概要】

【発明が解決しようとする課題】

【0006】

カメラを用いて撮影される映像の内容（例えば、人のジェスチャー等）を認識する技術は、例えば、非接触型のヒューマンマシンインターフェースが望まれる適用領域で実用化されてきた。非接触型のインターフェースが望まれる領域とは、例えば、食品工場や医療現場など、衛生面での考慮が求められる領域である。しかしながら、例えば手話言語のような、連続する複雑な人の動きを、自動認識して別の言語に変換する技術は、実用レベルに達していない。

【0007】

日本で使用される手話言語のひとつである日本手話の自動認識に関しても、実用例は報告されていない。

【0008】

また、入力される手話映像が予め単語単位に区切られていない場合には、映像を基に手話単語の単位に自動的に区切って手話単語を自動認識することは、さらに困難である。

【0009】

また、映像の中の特定部位を切出して認識に利用することは有効であると考えられるが、例えば非特許文献２に記載されているような、左手および右手のそれぞれの部位の映像を自動的に切出すためには、相応の計算量を必要とするという問題がある。

【0010】

本発明は、上記の課題認識に基づいて行なわれたものであり、入力データ（例えば、所定の単位（例えば変換先の単語等の区切り）に区切られていない映像（フレーム画像の系列））を入力し、その映像内の特定の部分領域を切出す処理を行うことなく、その入力データに対応する記号列（例えば、所定の言語表現における単語列）を出力することができるようにする変換装置、学習装置、およびプログラムを提供しようとするものである。

【課題を解決するための手段】

【0011】

［１］上記の課題を解決するため、本発明の一態様による変換装置は、入力される画像系列を基に状態データを生成するエンコーダー部と、前記状態データを基に記号列を生成するデコーダー部と、前記画像系列に含まれるそれぞれの画像から切出した所定の部分画像に少なくとも基づいて状態データを生成する第２エンコーダー部と、前記エンコーダー部および前記第２エンコーダー部への入力の基となる学習用画像系列と、前記学習用画像系列に対応する前記記号列の正解である正解記号列との対を供給する学習データ供給部と、前記学習用画像系列に基づいて前記エンコーダー部または前記第２エンコーダー部のいずれかが生成する状態データ、に基づいて前記デコーダー部が生成する記号列である学習用推定記号列と、前記学習用画像系列に対応して前記学習データ供給部が供給する前記正解記号列と、の差を表すロスを算出するロス算出部と、前記学習用画像系列に基づいて前記エンコーダー部が生成する状態データと、当該学習用画像系列に基づいて前記第２エンコーダー部が生成する状態データと、の差を表す第２ロスを算出する第２ロス算出部と、第１学習処理モードと、第２学習処理モードと、推定処理モードとを適宜切り替えて実行させるように制御する制御部と、を備え、前記第１学習処理モードにおいては、学習データ供給部が供給する前記学習用画像系列と前記正解記号列とに基づいて前記ロス算出部が算出した前記ロス、に基づいて、前記デコーダー部の内部パラメーターを調整するとともに、前記エンコーダー部または前記第２エンコーダー部のいずれかであって前記ロス算出部が前記ロスを算出する際の基となった前記状態データを生成した側の内部パラメーターを調整し、前記第２学習処理モードにおいては、学習データ供給部が供給する前記学習用画像系列に基づいて前記第２ロス算出部が算出した前記第２ロス、に基づいて前記エンコーダー部および前記第２エンコーダー部の内部パラメーターを調整し、前記推定処理モードにおいては、前記エンコーダー部が推定対象の画像系列を基に状態データを生成し、前記エンコーダー部が生成した前記状態データを基に、前記デコーダー部が、前記記号列を生成する、ものである。

【0012】

［２］また、本発明の一態様は、上記の変換装置において、前記ロス算出部は、前記エンコーダー部が生成する前記状態データに基づいて前記ロスを算出する、ものである。

【0013】

［３］また、本発明の一態様は、上記の変換装置において、前記ロス算出部は、前記第２エンコーダー部が生成する前記状態データに基づいて前記ロスを算出する、ものである。

【0014】

［４］また、本発明の一態様は、上記の変換装置において、前記第２エンコーダー部は、前記画像系列に含まれる切出される前の元の前記画像にも基づいて前記状態データを生成する、ものである。

【0015】

［５］また、本発明の一態様による変換装置は、入力される画像系列を基に状態データを生成するエンコーダー部と、前記状態データを基に記号列を生成するデコーダー部と、を備え、前記エンコーダー部は、機械学習により定まる内部パラメーターを有し、定められた前記内部パラメーターに基づいて、前記画像系列を基に前記状態データを生成するものであり、前記内部パラメーターは、前記エンコーダー部が学習用画像系列に基づいて生成した状態データと、第２エンコーダー部が前記画像系列に含まれる画像から切出した所定の部分画像に少なくとも基づいて生成した状態データと、の差を表すロスに基づいて調整済みである、変換装置である。

【0016】

［６］また、本発明の一態様は、上記の変換装置において、前記画像系列は、手話を表す映像であり、前記第２エンコーダー部は、前記画像系列に含まれる手指を含む領域の前記部分画像に少なくとも基づいて前記状態データを生成する、ものである。

【0017】

［７］また、本発明の一態様による学習装置は、入力される画像系列を基に状態データを生成するエンコーダー部と、前記状態データを基に記号列を生成するデコーダー部と、前記画像系列に含まれるそれぞれの画像の所定の部分画像に少なくとも基づいて状態データを生成する第２エンコーダー部と、前記エンコーダー部および前記第２エンコーダー部への入力の基となる学習用画像系列と、前記学習用画像系列に対応する前記記号列の正解である正解記号列との対を供給する学習データ供給部と、前記学習用画像系列に基づいて前記エンコーダー部または前記第２エンコーダー部のいずれかが生成する状態データ、に基づいて前記デコーダー部が生成する記号列である学習用推定記号列と、前記学習用画像系列に対応して前記学習データ供給部が供給する前記正解記号列と、の差を表すロスを算出するロス算出部と、前記学習用画像系列に基づいて前記エンコーダー部が生成する状態データと、当該学習用画像系列に基づいて前記第２エンコーダー部が生成する状態データと、の差を表す第２ロスを算出する第２ロス算出部と、第１学習処理モードと、第２学習処理モードとを適宜切り替えて実行させるように制御する制御部と、を備え、前記第１学習処理モードにおいては、学習データ供給部が供給する前記学習用画像系列と前記正解記号列とに基づいて前記ロス算出部が算出した前記ロス、に基づいて、前記デコーダー部の内部パラメーターを調整するとともに、前記エンコーダー部または前記第２エンコーダー部のいずれかであって前記ロス算出部が前記ロスを算出する際の基となった前記状態データを生成した側の内部パラメーターを調整し、前記第２学習処理モードにおいては、学習データ供給部が供給する前記学習用画像系列に基づいて前記第２ロス算出部が算出した前記第２ロス、に基づいて前記エンコーダー部および前記第２エンコーダー部の内部パラメーターを調整する、ものである。

【0018】

［８］また、本発明の一態様は、コンピューターを、上記［１］から［６］までのいずれかに記載の変換装置、として機能させるためのプログラムである。

【0019】

［９］また、本発明の一態様は、コンピューターを、上記［７］に記載の学習装置、として機能させるためのプログラムである。

【発明の効果】

【0020】

本発明によれば、入力画像系列から記号列への自動変換処理において、入力データの中の一部のみを切出すための計算量を削減することが可能となる。

【図面の簡単な説明】

【0021】

【図1】本発明の第１実施形態による変換装置の概略機能構成を示すブロック図である。

【図2】同実施形態による変換装置のさらに詳細な構成（第１学習処理モード、および推定処理モードのための構成）を示すブロック図である。

【図3】同実施形態による変換装置のさらに詳細な構成（第２学習処理モードのための構成）を示すブロック図である。

【図4】同実施形態によるエンコーダー部のより詳細な構成例を示すブロック図である。

【図5】同実施形態によるデコーダー部のより詳細な構成例を示すブロック図である。

【図6】同実施形態による第２エンコーダー部のより詳細な構成例を示すブロック図である。

【図7】同実施形態による変換装置が機械学習処理を行う際の手順の一例を示すフローチャートである。

【図8】同実施形態による変換装置の評価結果を示すグラフである。

【図9】第２実施形態による変換装置の概略機能構成を示すブロック図である。

【図10】同実施形態による変換装置のさらに詳細な構成（第３学習処理モードのための構成）を示すブロック図である。

【図11】同実施形態による変換装置のさらに詳細な構成（第４学習処理モードのための構成）を示すブロック図である。

【図12】同実施形態による変換装置のさらに詳細な構成（推定処理モードのための構成）を示すブロック図である。

【図13】同実施形態による変換装置が機械学習処理を行う際の手順の一例を示すフローチャートである。

【図14】同実施形態によるによる変換装置の評価結果を示すグラフである。

【発明を実施するための形態】

【0022】

次に、本発明の複数の実施形態について、図面を参照しながら説明する。

【0023】

［第１実施形態］
図１は、本実施形態による変換装置の概略機能構成を示すブロック図である。図示するように、変換装置１は、入力部１０と、画像縮小部７１１と、エンコーダー部２１と、デコーダー部３１と、出力部４０と、ロス算出部５０１と、画像切出し部７２１と、画像縮小部７１２と、第２エンコーダー部２２と、第２ロス算出部７０１と、学習データ供給部８０１と、制御部９０１とを含んで構成される。これらの各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ（ＳＳＤ）といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。

【0024】

変換装置１は、画像の系列を入力し、その画像の系列に基づく変換処理を行い、記号の系列を出力する。変換装置１は、内部に、機械学習可能なエンコーダー部およびデコーダー部を備え、それらエンコーダー部およびデコーダー部の入出力の関係を機械学習することができる。エンコーダー部およびデコーダー部のそれぞれは、例えば、ニューラルネットワークを用いて実現される。特に、エンコーダー部およびデコーダー部のそれぞれは、例えば、再帰型ニューラルネットワーク（ＲＮＮ）を用いて実現され得る。なお、変換装置１が学習済みのエンコーダー部およびデコーダー部を備えるようにしてもよく、この場合には、変換装置１は、必ずしも機械学習処理を行わなくてもよい。なお、上記の画像の系列は、映像である。例えば、上記の画像の系列は、手話による視覚表現を含む映像である。また、変換装置１が出力する記号の系列は、例えば、言語表現である。出力される記号の系列は、例えば、手話映像に対応する、グロス表記と呼ばれる中間表現である。グロス表記は、文字を持たない手話言語において、手話のフレーズまたは文章を構成する一連の動作を、手話の単語に相当する短い区間で区切り、文字によって書き起こした記号列である。日本手話のグロス表記では、手話の単語の意味に近い日本語の単語をラベルとして用いる。つまり、本実施形態による変換装置１は、手話の映像を入力し、映像の自動認識処理を行い、その映像に対応するラベル列（記号列あるいは語列）を出力するものであってよい。

【0025】

なお、変換装置１に入力される手話映像は、単語等の単位に予め区切られているものではない。また、その手話映像には、区切り位置を示すメタ情報も、付与されていない。

【0026】

入力部１０は、外部から変換対象の画像系列を取得する。画像系列は、例えば、手話を表す映像である。

【0027】

画像縮小部７１１は、入力部１０または学習データ供給部８０１から渡される画像を縮小する。縮小する際には、例えば、サンプリング等の手法を用いる。

【0028】

エンコーダー部２１は、入力される画像系列を基に状態ベクトル（状態データ）を生成する。状態ベクトルは、抽象的な特徴を表すデータである。つまり、エンコーダー部２１は、画像系列を基に、エンコーディング処理を行い、当該画像系列の特徴を表す状態ベクトルを生成する。画像系列は、例えば、手話を表す画像である。

【0029】

デコーダー部３１は、エンコーダー部２１が出力する状態ベクトル（状態データ）を基に記号列を生成する。つまり、デコーダー部３１は、抽象的な状態を基に、デコーディング処理を行い、記号の列を生成する。ここで、デコーダー部３１が生成する記号列は、例えば、何らかの言語表現である。デコーダー部３１が生成する記号列の具体例は、手話に対応するグロス表記である。

【0030】

出力部４０は、デコーダー部３１が生成した記号列を、外部に出力する。つまり、出力部４０は、入力される画像系列が表す手話に対応するグロス表記（記号列）を外部に出力する。なお、出力部４０が記号列を外部に出力するのは、後述する推定処理モードの時だけであってもよい。

【0031】

ロス算出部５０１は、学習データ供給部８０１が供給する学習用画像系列に基づいてエンコーダー部２１が生成する状態ベクトル（状態データ）、に基づいてデコーダー部３１が生成する記号列である学習用推定記号列と、上記の学習用画像系列に対応して学習データ供給部８０１が供給する正解記号列と、の差を表すロス（損失）を算出する。ロス算出部５０１は、ロスとして、例えば、交差エントロピー誤差を算出する。

【0032】

画像切出し部７２１は、入力部１０または学習データ供給部８０１から渡される画像に含まれる所定の部分画像を切出して出力する。例えば元の画像系列が手話の映像である場合、画像切出し部７２１は、手話の話者の手指を含む領域のみを上記部分画像として切出して出力する。なお、画像切出し部７２１が、話者の左手の手指を含む部分画像の系列と、話者の右手の手指を含む部分画像の系列とを、それぞれ別に切出して別系列として出力してもよい。つまり、画像切出し部７２１が切出すのは、元の画像系列を翻訳したり理解したりするときに、画像内において相対的に重要性が高い領域を含む部分画像である。ここで「重要性が高い領域」とは、出力される記号列の特徴をよく表す領域である。

【0033】

なお、画像切出し部７２１は、画像認識等の既存技術を用いて、切出すべき部分（例えば、左手の手指を含む領域、あるいは右手の手指を含む領域等）を自動的に特定する。画像切出し部７２１は、与えられる元の画像において切出すべき特定の領域の座標（部分画像が四角形の場合、部分画像の左上の始点の座標と、右下の終点の座標によって、その領域を特定可能）を決定し、決定された画像を切出す。画像切出し部７２１が部分画像を切出すことにより、画像の特徴をよく表す部分をクローズアップした画像を得るのと同等の効果がある。ただし、画像認識等の技術を用いて所望の特定領域を切出すためには、それなりの計算量を要する。例えば推定処理においてリアルタイムに画像を切出す処理を行うためには大きな計算資源を必要とし、高コストである。

【0034】

画像縮小部７１２は、画像切出し部７２１によって切出された画像を、所定のサイズに縮小する。

【0035】

第２エンコーダー部２２は、画像系列に含まれるそれぞれの画像から切出した所定の部分画像に少なくとも基づいて、状態ベクトル（状態データ）を生成する。つまり、画像系列が手話を表す映像である場合に、第２エンコーダー部は、画像内の手指を含む領域の部分画像に少なくとも基づいて状態データを生成する。

【0036】

第２ロス算出部７０１は、学習用画像系列に基づいてエンコーダー部２１が生成する状態ベクトル（状態データ）と、同じ学習用画像系列に基づいて第２エンコーダー部２２が生成する状態ベクトル（状態データ）と、の差を表す第２ロスを算出する。第２ロス算出部７０１は、ロスとして、例えば、交差エントロピー誤差を算出する。

【0037】

学習データ供給部８０１は、エンコーダー部２１および第２エンコーダー部２２への入力の基となる学習用の画像系列（学習用画像系列）と、その学習用画像系列に対応する記号列の正解である正解記号列との対を供給する。

【0038】

制御部９０１は、変換装置１の全体の動作を制御する。具体的には、制御部９０１は、第１学習処理モードと、第２学習処理モードと、推定処理モードとを適宜切り替えて実行するように、変換装置１内の各部を制御する。具体的には、制御部９０１は、各モードにおいて各部が次のように動作するよう制御を行う。

【0039】

第１学習処理モードにおいては、学習データ供給部８０１が供給する学習用画像系列と正解記号列とに基づいてロス算出部５０１が算出したロスを算出する。算出されたロスに基づき、デコーダー部３１は、その内部パラメーターを調整する。また、上記のロスに基づいて、さらに、エンコーダー部２１は、その内部パラメーターを調整する。なお、本実施形態におけるエンコーダー部２１は、ロス算出部５０１がロスを算出する際の基となった状態ベクトル（状態データ）を生成した側である。

【0040】

第２学習処理モードにおいては、学習データ供給部８０１が供給する学習用画像系列に基づいて第２ロス算出部７０１が算出した第２ロス、に基づいて、エンコーダー部２１および第２エンコーダー部２２のそれぞれが、内部パラメーターを調整する。

【0041】

推定処理モードにおいては、エンコーダー部２１が推定対象の画像系列（入力部１０が供給する画像系列）を基に状態ベクトル（状態データ）を生成する。デコーダー部３１は、エンコーダー部２１が生成した状態ベクトル（状態データ）を基に、記号列を生成する。ここでデコーダー部３１が生成する記号列は、推定記号列である。

【0042】

つまり、変換装置１は、３種類のモードで動作する。それらは、上記の通り、第１学習処理モードと、第２学習処理モードと、推定処理モードである。つまり、変換装置１は、第１学習処理モードと第２学習処理モードとの２種類の学習を行う。これら３種類のモードについて、次にそれぞれ説明する。

【0043】

［第１学習処理モード］
第１学習処理モードでは、変換装置１は、学習データ供給部８０１が供給する学習データを用いて、エンコーダー部２１およびデコーダー部３１の学習を行う。第１学習処理モードにおいて学習データ供給部８０１が供給する学習データは、入力画像列と正解語列との対の集合である。つまり、第１学習処理モードにおいて、画像縮小部７１１は、学習データ供給部８０１が供給する入力画像列を縮小する。エンコーダー部２１は、画像縮小部７１１によって縮小された入力画像列を基に、エンコーディング処理を行う。エンコーダー部２１は、エンコーディング処理の結果として、状態ベクトルを出力する。デコーダー部３１は、エンコーダー部２１が出力した状態ベクトルを基に、デコーディング処理を行う。デコーダー部３１は、デコーディング処理の結果として、推定語列を出力する。デコーダー部３１は、出力した推定語列を、ロス算出部５０１に渡す。一方、学習データ供給部８０１は、画像縮小部７１１に渡した入力画像列に対応する正解語列を、ロス算出部５０１に渡す。ロス算出部５０１は、デコーダー部３１から渡された推定語列と、学習データ供給部８０１から渡された正解語列との、ロスを算出する。そして、エンコーダー部２１およびデコーダー部３１の系列は、ロス算出部５０１によって算出されたロスに基づいて、誤差逆伝播法により、それぞれの内部パラメーターの更新を行う。この一連の処理を繰り返すことにより、エンコーダー部２１とデコーダー部３１のそれぞれの学習が行われる。

【0044】

［第２学習処理モード］
第２学習処理モードでは、変換装置１は、学習データ供給部８０１が供給する学習データを用いて、エンコーダー部２１および第２エンコーダー部２２の学習を行う。第２学習処理モードにおいて学習データ供給部８０１が供給する学習データは、入力画像列である。つまり、第２学習処理モードにおいて、画像縮小部７１１は、学習データ供給部８０１が供給する入力画像列を縮小する。エンコーダー部２１は、画像縮小部７１１によって縮小された入力画像列を基に、エンコーディング処理を行う。エンコーダー部２１は、エンコーディング処理の結果として、状態ベクトルを出力する。エンコーダー部２１は、画像縮小部７１１から出力された画像列に基づく状態ベクトルを、第２ロス算出部７０１に渡す。一方、学習データ供給部８０１が供給する学習データ（入力画像列）は、画像切出し部７２１にも渡される。画像切出し部７２１は、入力画像列が含む各画像から特定の範囲の画像のみを切出して出力する。つまり、画像切出し部７２１は、切出された画像の列を出力する。画像縮小部７１２は、画像切出し部７２１から出力された画像列を縮小する。第２エンコーダー部２２は、画像縮小部７１２によって縮小された画像列を基に、エンコーディング処理を行う。第２エンコーダー部２２は、エンコーディング処理の結果として状態ベクトルを出力する。第２エンコーダー部２２は、画像切出し部７２１によって切出された画像列に基づく状態ベクトルを、第２ロス算出部７０１に渡す。第２ロス算出部７０１は、エンコーダー部２１から渡された状態ベクトルと、第２エンコーダー部２２から渡された状態ベクトルとの、ロスを算出する。そして、エンコーダー部２１および第２エンコーダー部２２のそれぞれは、第２ロス算出部７０１によって算出されたロスに基づいて、誤差逆伝播法により、それぞれの内部パラメーターの更新を行う。この一連の処理を繰り返すことにより、エンコーダー部２１と第２エンコーダー部２２のそれぞれの学習が行われる。

【0045】

第２学習処理モードにおいて、エンコーダー部２１は切出し処理を行わない画像列に基づく状態ベクトルを出力するものであり、第２エンコーダー部２２は切出し処理が行われた画像列に基づいて状態ベクトルを出力するものである。つまり、両者は、互いに異なる情報に基づいてそれぞれ状態ベクトルを出力するものである。しかし、上述した第２学習処理モードでの学習処理は、エンコーダー部２１および第２エンコーダー部２２が、同一の、または近い、状態ベクトルを出力する方向に、作用する。言い換えれば、第２学習処理モードでは、エンコーダー部２１は、画像切出し部７２１によって切出されなかった画像（上半身全体を含む画像であり、手指に関しては弱い特徴量を持つ画像）と、画像切出し部７２１によって切出された画像（特に手指に関して強い特徴量を持つ画像）との対応関係を学習する。その結果、エンコーダー部２１は、手指に関しては弱い特徴量を持つ上半身全体を含む画像が入力されるにも関わらず、手指の特徴の変化に対して感度の良い状態ベクトルを出力できるようになる。

【0046】

実際には、変換装置１は、例えば、第１学習処理モードの処理と第２学習処理モードの処理を、交互に実行することができる。

【0047】

［推定処理モード］
推定処理モードは、エンコーダー部２１やデコーダー部３１の学習が十分に完了した状態で、未知の入力画像列に基づく変換処理を行うものである。つまり、入力部１０は、入力画像系列を取得し、画像縮小部７１１に渡す。画像縮小部７１１は、入力画像を縮小し、縮小された画像の系列を出力する。エンコーダー部２１は、画像縮小部７１１から渡された画像の系列に基づき、エンコーディング処理を行い、その結果として状態ベクトルを出力する。デコーダー部３１は、エンコーダー部２１から出力された状態ベクトルに基づき、デコーディング処理を行い、その結果として推定語列を出力する。出力部４０は、デコーダー部３１が出力した推定語列を、入力画像列に対応する語列（変換結果）として出力する。

【0048】

前述の学習方法により、変換装置１のエンコーダー部２１やデコーダー部３１は良好な学習結果を持っている。よって、推定処理モードで出力される変換結果は、入力画像列に対応した精度の高いものとなる。

【0049】

図２は、変換装置１のさらに詳細な構成を示すブロック図である。具体的には、図２は、第１学習処理モードおよび推定処理モードにおいて、エンコーダー部２１が出力する状態ベクトルをデコーダー部３１が取得して処理する部分の構成を示す。

【0050】

エンコーダー部２１は、内部にニューラルネットワーク２００１を有している。ニューラルネットワーク２００１には、画像縮小部７１１から渡されるフレーム画像の系列ｆｒａｍｅ_１，ｆｒａｍｅ_２，・・・，ｆｒａｍｅ_ｒが入力される。第１学習処理モードにおいては、これらのフレーム画像は、学習データ供給部８０１が供給した入力データに基づくものである。推定処理モードにおいては、これらのフレーム画像は、入力部１０が取得した入力画像系列に基づくものである。ニューラルネットワーク２００１は、フレーム画像の系列ｆｒａｍｅ_１，ｆｒａｍｅ_２，・・・，ｆｒａｍｅ_ｒに基づいて算出される状態ベクトルを出力する。エンコーダー部２１は、入力されるフレーム画像の系列に基づいて生成した状態ベクトルを、デコーダー部３１に渡す。

【0051】

デコーダー部３１は、内部にニューラルネットワーク３００１を有している。ニューラルネットワーク３００１には、エンコーダー部２１のニューラルネットワーク２００１で生成された状態ベクトルが入力される。ニューラルネットワーク３００１は、入力される状態ベクトルに基づいて算出される語の列ｗｏｒｄ_１，ｗｏｒｄ_２，・・・，ｗｏｒｄ_ｕ－１,ｗｏｒｄ_ｕを出力する。これらの語は、いずれも、前述のグロス表記における記号である。また、ニューラルネットワーク３００１は、語列の最後に、特殊記号である＜ｅｏｓ＞を出力する。＜ｅｏｓ＞は、シーケンスの終わり（end of sequence）を表す記号である。ニューラルネットワーク３００１が出力する語の列は、推定語列とも呼ばれる。

【0052】

ニューラルネットワーク２００１および３００１の各々は、学習モード（第１学習処理モード）で動作する際に、学習データに基づく機械学習処理を行うことによって、内部のパラメーターを調整する。ニューラルネットワーク２００１および３００１の各々は、推定処理モードで動作する際には、機械学習処理において調整済みの内部パラメーターを用いて、出力を算出する。エンコーダー部２１とデコーダー部３１とが推定処理モードで動作する際には、ニューラルネットワーク３００１が出力する推定語列が、入力映像に対応する変換結果である。

【0053】

機械学習処理についてさらに詳しく書く。ニューラルネットワーク３００１が出力する推定語列は、正解データである正解語列と比較することができる。正解語列は、入力映像に対応する形で、学習データ供給部８０１によって供給される。ロス算出部５０１は、ニューラルネットワーク３００１が出力する推定語列と、学習データ供給部８０１から供給される正解語列とから、ロスを算出する。ロス算出部５０１によって算出されたロスに基づき、ニューラルネットワーク２００１および３００１は、誤差逆伝播を行い、内部のパラメーターを更新する。

【0054】

図３は、変換装置１のさらに詳細な構成を示すブロック図である。具体的には、図３は、第２学習処理モードにおいて、エンコーダー部２１が出力する状態ベクトルと、第２エンコーダー部２２が出力する状態ベクトルとに基づいて、第２ロス算出部７０１がロスを算出する処理の部分の構成を示す。

【0055】

エンコーダー部２１は、図２を参照して説明したように、内部にニューラルネットワーク２００１を有している。ニューラルネットワーク２００１には、画像縮小部７１１から渡されるフレーム画像の系列ｆｒａｍｅ_１，ｆｒａｍｅ_２，・・・，ｆｒａｍｅ_ｒが入力される。これらのフレーム画像は、学習データ供給部８０１が供給した入力データに基づくものである。エンコーダー部２１は、入力されるフレーム画像の系列に基づいて生成した状態ベクトルを、第２ロス算出部７０１に渡す。

【0056】

第２エンコーダー部２２は、内部にニューラルネットワーク２００２を有している。ニューラルネットワーク２００２には、画像縮小部７１２から渡されるフレーム画像の系列が入力される。これらの画像は、画像切出し部７２１によって切出された後に、画像縮小部７１２によって縮小されたものである。ニューラルネットワーク２００２に入力されるフレーム画像の系列は、エンコーダー部２１のニューラルネットワーク２００１に入力されるフレーム画像の系列に対応するものである。ニューラルネットワーク２００２に入力されるフレーム画像の系列は、画像切出し部７２１によって、例えば、手話の話者の右手を含んで切出された画像の系列と、左手を含んで切出された画像の系列との、２つの系列から成る。ニューラルネットワーク２００２は、切出された画像の系列ｆｒａｍｅ_１，ｆｒａｍｅ_２，・・・，ｆｒａｍｅ_ｒ（右手の画像の系列および左手の画像の系列）に基づいて算出される状態ベクトルを出力する。第２エンコーダー部２２は、画像の系列に基づいて生成した状態ベクトルを、第２ロス算出部７０１に渡す。

【0057】

ニューラルネットワーク２００１および２００２の各々は、第２学習処理モードで動作する際に、学習データに基づく機械学習処理を行うことによって、内部のパラメーターを調整する。第２ロス算出部７０１は、ニューラルネットワーク２００１が出力する状態ベクトルと、ニューラルネットワーク２００２が出力する状態ベクトルとから、ロスを算出する。第２ロス算出部７０１によって算出されたロスに基づき、ニューラルネットワーク２００１および２００２は、誤差逆伝播を行い、内部のパラメーターを更新する。

【0058】

図４は、エンコーダー部２１のより詳細な構成例を示すブロック図である。図示するように、エンコーダー部２１は、内部に再帰型ニューラルネットワーク（ＲＮＮ，recurrent neural network）を含むように構成される。この図ではＲＮＮの時間的な再帰構造を左から右方向に展開して表現している。図示する構成例では、エンコーダー部２１は、入力されるフレーム画像列ｆｒａｍｅ_１，ｆｒａｍｅ_２，・・・，ｆｒａｍｅ_ｒの各フレームに対応して、第１層から第Ｎ層までのＲＮＮを持つ。Ｎは、正整数である。例えば、Ｎを２以上且つ６以下程度の値としてよい。しかし、Ｎは、ここに例示した範囲に限定されるものではない。エンコーダー部２１を構成するため、時間の進行につれて（フレーム画像の進行につれて）、Ｎ層のＲＮＮの回路を順次再利用する。第１層のＲＮＮには、フレーム画像が入力される。第1層のＲＮＮには直接フレーム画像を入力するのではなく、事前にフレーム画像を不図示のＣＮＮ（Convolutional Neural Network，畳み込みニューラルネットワーク）などの特徴を抽出する回路に入力し、その出力である特徴ベクトルを第1層のＲＮＮに入力しても良い。第１層のＲＮＮからの出力は、同じフレーム画像に対応する第２層のＲＮＮと、次のフレーム画像に対応する第１層のＲＮＮとに、渡される。また、第ｉ層（１＜ｉ＜Ｎ）のＲＮＮは、同じフレーム画像に対応する第（ｉ－１）層のＲＮＮからの出力と、前のフレーム画像に対応する第ｉ層のＲＮＮからの出力とを受け取る。そして、その第ｉ層のＲＮＮからの出力は、同じフレーム画像に対応する第（ｉ＋１）層のＲＮＮと、次のフレーム画像に対応する第ｉ層のＲＮＮとに、渡される。また、第Ｎ層のＲＮＮは、同じフレーム画像に対応する第（Ｎ－１）層のＲＮＮからの出力と、前のフレーム画像に対応する第Ｎ層のＲＮＮからの出力とを受け取る。そして、その第Ｎ層のＲＮＮからの出力は、次のフレーム画像に対応する第Ｎ層のＲＮＮに渡される。最後のフレーム画像（図４においては、ｆｒａｍｅ_ｒ）に対応するＲＮＮからの出力は、状態ベクトルである。エンコーダー部２１は、生成した状態ベクトルを、デコーダー部３１や第２ロス算出部７０１に渡す。

【0059】

図４を参照して説明したように、エンコーダー部２１は、論理的には、Ｎ行ｒ列のマトリクス状に配置されたＲＮＮを用いて構成される。ただし、Ｎは層の数であり、ｒは入力される画像の系列の長さである。

【0060】

図５は、デコーダー部３１のより詳細な構成例を示すブロック図である。図示するように、デコーダー部３１は、内部にＲＮＮを含んで構成される。この図ではＲＮＮの時間的な再帰構造を左から右方向に展開して表現している。図示する構成例では、デコーダー部３１は、出力する語列（推定語列）ｗｏｒｄ_１，ｗｏｒｄ_２，・・・，ｗｏｒｄ_ｕ－１,ｗｏｒｄ_ｕ，および＜ｅｏｓ＞の各記号に対応して、第１層から第Ｎ層までのＲＮＮを持つ。ここでのＮの値は、エンコーダー部２１（図４参照）のＮの値に合わせる。つまり、デコーダー部３１は、論理的には、エンコーダー部２１の内部構成と同様の、Ｎ行（ｕ＋１）列のマトリクス状に配置されたＲＮＮを用いて構成される。デコーダー部３１におけるＲＮＮのマトリクス内での、データの受け渡しの流れも、エンコーダー部２１のＲＮＮのマトリクス内におけるそれと同様である。ここで、（ｕ＋１）は、出力系列の長さである。ただし、この出力系列の長さは、＜ｅｏｓ＞等の特殊記号を含む長さであってもよい。

【0061】

デコーダー部３１は、エンコーダー部２１が生成した状態ベクトルを、入力データとして取得する。また、デコーダー部３１の第Ｎ層のＲＮＮは、順次、推定語列（ｗｏｒｄ_１，ｗｏｒｄ_２，・・・，ｗｏｒｄ_ｕ－１,ｗｏｒｄ_ｕ，および＜ｅｏｓ＞）を出力する。デコーダー部３１は、生成した推定語列を、出力部４０やロス算出部５０１に渡す。

【0062】

図６は、第２エンコーダー部２２のより詳細な構成例を示すブロック図である。図示するように、第２エンコーダー部２２は、内部にＲＮＮを含んで構成される。この図ではＲＮＮの時間的な再帰構造を左から右方向に展開して表現している。図示する構成例では、第２エンコーダー部２２は、画像の系列ｆｒａｍｅ_１，ｆｒａｍｅ_２，ｆｒａｍｅ_３，・・・，ｆｒａｍｅ_ｕに対応して、第１層から第Ｎ層までのＲＮＮを持つ。図３に示す例では、第２エンコーダー部２２に入力される画像は、第１の画像の系列と、第２の画像の系列との、２系列から成る。ここでのＮの値は、エンコーダー部２１（図４参照）のＮの値に合わせる。つまり、第２エンコーダー部２２は、論理的には、エンコーダー部２１の内部構成と同様の、Ｎ行ｒ列のマトリクス状に配置されたＲＮＮを用いて構成される。第２エンコーダー部２２におけるＲＮＮのマトリクス内での、データの受け渡しの流れも、エンコーダー部２１のＲＮＮのマトリクス内におけるそれと同様である。

【0063】

上で説明した通り、第２エンコーダー部２２の入力系列の長さは、エンコーダー部２１の入力系列の長さに等しい。

【0064】

第２エンコーダー部２２は、画像縮小部７１２から渡される画像の系列のデータを入力として取得する。第２エンコーダー部２２の第１層のＲＮＮは、順次、ｆｒａｍｅ_１，ｆｒａｍｅ_２，・・・，ｆｒａｍｅ_ｒを入力する。第２エンコーダー部２２は、この画像の系列を基に生成した状態ベクトルを、第２ロス算出部７０１に渡す。

【0065】

エンコーダー部２１（図４）および第２エンコーダー部２２（図６）に入力される画像について、次に説明する。

【0066】

図４においてエンコーダー部２１への入力の基となる画像系列は、例えば縦１０２４画素×横１０２４画素程度の解像度（ただし、この解像度には限定されない）を有する映像である。入力部１０あるいは学習データ供給部８０１が、この映像を供給する。画像縮小部７１１は、上記の映像を構成する各フレーム画像を、例えば縦２５６画素×横２５６画素程度の解像度（ただし、この解像度には限定されない）の画像に縮小する。エンコーダー部２１のニューラルネットワーク２００１は、この縮小後の画像を入力とする。

【0067】

図６において第２エンコーダー部２２への入力の基となる画像系列は、エンコーダー部２１への入力と同じ、例えば縦１０２４画素×横１０２４画素程度の解像度を有する映像である。学習データ供給部８０１が、この映像を供給する。画像切出し部７２１は、上記の画像の一部を切出し、１つまたは複数の切出し画像の系列を出力する。図示する例では、画像切出し部７２１は、左手を含む手指画像の系列と、右手を含む手指画像の系列とを出力する。画像縮小部７１２は、画像切出し部７２１が出力する画像の各々を、例えば縦２５６画素×横２５６画素程度の解像度（ただし、この解像度には限定されない）の画像に縮小する。第２エンコーダー部２２のニューラルネットワーク２００２は、この縮小後の画像を入力とする。

【0068】

図７は、変換装置１が機械学習処理を行う際の手順の一例を示すフローチャートである。以下では、このフローチャートを参照しながら、学習処理の手順について説明する。

【0069】

ステップＳ１０１において、学習データ供給部８０１は、学習用データとして、１個の入力データを供給する。入力データは、映像データである。学習データ供給部８０１は、入力データを、フレーム画像データの系列として、画像縮小部７１１および画像切出し部７２１にそれぞれ渡す。出力データは、上記の入力データに対応する正解語列のデータである。学習データ供給部８０１は、また、上記の入力データに対応する出力データ（正解語列データ）を、ロス算出部５０１に渡す。

【0070】

画像縮小部７１１は、学習データ供給部８０１から渡されたフレーム画像データの系列を縮小する。画像縮小部７１１は、縮小後の画像の系列を、エンコーダー部２１に渡す。
画像切出し部７２１は、学習データ供給部８０１から渡されたフレーム画像データの系列を基に、画像の切出しを行う。対象が手話の画像である場合、例えば、画像切出し部７２１は、渡された画像内の、左手を含む領域の部分画像と、右手を含む領域の部分画像とを、それぞれ切出す。画像切出し部７２１は、切出した後の画像の系列を、画像縮小部７１２に渡す。画像縮小部７１２は、画像切出し部７２１から渡された画像の系列を縮小する。画像縮小部７１２は、縮小後の画像の系列を、第２エンコーダー部２２に渡す。

【0071】

次に、ステップＳ１０２において、エンコーダー部２１は、ステップＳ１０１で渡された画像の系列を基に、順伝播を行う。即ち、エンコーダー部２１は、エンコーディング処理を行う。エンコーダー部２１は、順伝播の結果として、状態ベクトルを出力する。

【0072】

次に、ステップＳ１０３において、第２エンコーダー部２２は、ステップＳ１０１で渡された画像の系列を基に、順伝播を行う。即ち、第２エンコーダー部２２は、エンコーディング処理を行う。第２エンコーダー部２２は、順伝播の結果として、状態ベクトルを出力する。

【0073】

次に、ステップＳ１０４において、第２ロス算出部７０１は、エンコーダー部２１から出力された状態ベクトル（ステップＳ１０２）と、第２エンコーダー部２２から出力された状態ベクトル（ステップＳ１０３）とを基に、ロスを算出する。

【0074】

次に、ステップＳ１０５において、エンコーダー部２１は、ステップＳ１０４において第２ロス算出部７０１が算出したロスに基づいて、誤差逆伝播を行う。この誤差逆伝播により、エンコーダー部２１は、内部のニューラルネットワークの各ノードにおける演算パラメーターの値を更新する。

【0075】

次に、ステップＳ１０６において、第２エンコーダー部２２は、ステップＳ１０４において第２ロス算出部７０１が算出したロスに基づいて、誤差逆伝播を行う。この誤差逆伝播により、第２エンコーダー部２２は、内部のニューラルネットワークの各ノードにおける演算パラメーターの値を更新する。

【0076】

以上、ステップＳ１０２からＳ１０６までの一連の処理は、エンコーダー部２１の出力と第２エンコーダー部２２の出力との差分に基づき、エンコーダー部２１および第２エンコーダー部２２の各々が内部に持つパラメーターの値を調整する処理である。つまり、前述の、第２学習処理モードの処理である。

【0077】

次に、ステップＳ１０７において、エンコーダー部２１は、ステップＳ１０１で渡された画像の系列（既に縮小済の画像の系列）を基に、順伝播を行う。エンコーダー部２１は、順伝播の結果として、状態ベクトルを出力する。本ステップで生成した状態ベクトルを、エンコーダー部２１は、デコーダー部３１に渡す。

【0078】

次に、ステップＳ１０８において、デコーダー部３１は、ステップＳ１０７においてエンコーダー部２１が出力した状態ベクトルに基づいて、順伝播を行う。つまり、デコーダー部３１は、デコーディングの処理を行う。その結果として、デコーダー部３１は、語の列（推定語列）を出力する。この推定語列は、＜ｅｏｓ＞（エンド・オブ・シーケンス）等の特殊記号を含んでもよい。

【0079】

次に、ステップＳ１０９において、ロス算出部５０１は、ステップＳ１０１で学習データ供給部８０１から渡された正解語列のデータと、ステップＳ１０８においてデコーダー部３１が求めた推定語列のデータとを基に、ロスを算出する。

【0080】

次に、ステップＳ１１０において、デコーダー部３１は、ステップＳ１０９において算出されたロスに基づいて、誤差逆伝播を行う。この誤差逆伝播により、デコーダー部３１は、内部のニューラルネットワークの各ノードにおける演算パラメーターの値を更新する。この誤差逆伝播は、さらに、エンコーダー部２１にも波及する。

【0081】

次に、ステップＳ１１１において、エンコーダー部２１は、ステップＳ１１０におけるデコーダー部３１の誤差逆伝播の処理の延長として、エンコーダー部２１が持つニューラルネットワークの誤差逆伝播を行う。この誤差逆伝播により、エンコーダー部２１は、内部のニューラルネットワークの各ノードにおける演算パラメーターの値を更新する。

【0082】

以上、ステップＳ１０７からＳ１１１までの一連の処理は、エンコーダー部２１およびデコーダー部３１の順伝播処理によって得られた推定語列と、学習データ供給部８０１から与えられた正解語列との差分に基づき、エンコーダー部２１およびデコーダー部３１の各々が内部に持つニューラルネットワークのパラメーターを調整する処理である。つまり、前述の、第１学習処理モードの処理である。

【0083】

ステップＳ１１２において、制御部９０１は、全ての学習データを用いた機械学習処理を完了したか否かを判定する。全ての学習データを処理済みである場合（ステップＳ１１２：ＹＥＳ）には、次のステップＳ１１３に進む。まだ学習データ（入出力データ対）が残っている場合（ステップＳ１１２：ＮＯ）には、次のデータを処理するためにステップＳ１０１に戻る。

【0084】

ステップＳ１１３に進んだ場合には、制御部９０１は、現在の学習データの集合を用いた学習処理の所定回数の繰り返しが完了したか否かを判定する。なお、この回数は、例えば、予め定めておくものとする。所定回数の処理が完了した場合（ステップＳ１１３：ＹＥＳ）には、本フローチャート全体の処理を終了する。所定回数の処理が完了していない場合（ステップＳ１１３：ＮＯ）には、次の回の処理を行うためにステップＳ１０１に戻る。なお、本ステップにおいて、予め定めておいた回数に基づいて全体の処理を終了するか否かの判断を行う代わりに、他の判断基準に基づいた判断を行うようにしてもよい。一例として、更新対象であるニューラルネットワークのパラメーター集合の値の収束状況（十分に収束しているか否か）に基づいて、全体の処理を終了するか否かの判断を行うようにしてもよい。

【0085】

以上の処理の手順により、エンコーダー部２１およびデコーダー部３１の学習が進む。学習により、エンコーダー部２１およびデコーダー部３１のそれぞれの内部のパラメーターが調整されるため、エンコーダー部２１およびデコーダー部３１は、より精度良く、入力データ（具体例としては、画像の系列。さらに具体的な例としては、手話を表す映像。
）に対応する出力データ（具体例としては、記号の列。さらに具体的な例としては、手話に対応するグロス表記の単語列。）を生成するようになる。

【0086】

以上、説明した手順では、ロス算出部５０１が算出したロスに基づいてエンコーダー部２１のパラメーターを更新するだけでなく、第２ロス算出部７０１が算出したロスにも基づいてエンコーダー部２１のパラメーターを更新する。第２ロス算出部７０１は、エンコーダー部２１と第２エンコーダー部２２とがそれぞれ算出する状態ベクトルの差をロスとして算出する。この手法により、エンコーダー部２１は、切出された画像の特徴（例えば、手指の状態や動作）をより良好に反映した状態ベクトルを出力する。したがって、変換装置１は、入力映像に対応して、精度の高い推定語列を生成することが期待される。

【0087】

図７に示した手順では、第２ロス算出部７０１が算出したロスに基づく学習（ステップＳ１０２からＳ１０６までの、エンコーダー部２１および第２エンコーダー部２２の学習、第２学習処理モード）と、ロス算出部５０１が算出したロスに基づく学習（ステップＳ１０７からＳ１１１までの、エンコーダー部２１およびデコーダー部３１の学習、第１学習処理モード）とを、個別且つ交互に実施している。これは、前述の制御部９０１によるモードの切り替えの例である。つまり、制御部９０１は、学習処理の際に、学習データ供給部８０１が供給する学習用入力データと正解データとの対ごとに、第１学習処理モードと第２学習処理モードとを繰り返して実行するよう制御する。しかしながら、これら両者の学習を計算グラフ上で同時に行うようにしてもよい。言い換えれば、データの依存関係に応じて同時に実行できる学習処理を同時変更的に行うようにしても良い。

【0088】

また、ある入出力データ対に関して、第１学習処理モードの学習を行った後で第２楽章処理モードの学習を行うようにしてもよい。

【0089】

図８は、第１実施形態による変換装置１の評価結果を示すグラフである。このグラフの横軸は、学習データ数、つまり学習に用いた延べ文数である。横軸における「１Ｍ」は、百万を表す。このグラフの縦軸は、上記の学習データ数に対応する単語誤り率である。単語誤り率は、変換装置が出力する記号列と正解語列との編集距離をもとに算出した評価指標であり、良好な推定結果ほど低い値を示す。学習に用いた学習用データは、１２，０００対の、手話映像と正解グロス列（正解記号列）との対である。評価に用いたデータ数（手話映像とその正解グロス列）は、１，０００個である。実線のグラフは、第１実施形態の変換装置による処理結果を示す。破線のグラフは、比較対象であり、従来技術による変換装置による処理結果を示す。両者のグラフを比較すると、すべての学習データ数において、ほぼ、第１実施形態の処理結果の方が、従来技術の処理結果よりも良好、即ち単語誤り率が低い。ただし、一部の延べ学習データ数においては、第１実施形態の処理結果は、従来技術の処理結果と、同等である。また、従来技術を用いる場合の単語誤り率の最小値が０．５２であるのに対して、第１実施形態を用いる場合の単語誤り率の最小値は０．５０である。つまり、第１実施形態が実現する単語誤り率の最小値は、従来技術が実現する単語誤り率の最小値よりも、２ポイント分、良好である。

【0090】

以上説明したように、本実施形態によれば、学習時には画像切出し部７２１による画像切出しの処理を必要とするが、推定処理モードの時には、画像切出し部７２１による処理を必要としない。一方で、エンコーダー部２１は、切出されていない画像を基に、第２エンコーダー部２２に近い状態ベクトルを出力できるように学習可能である。つまり、本実施形態によれば、学習時には、画像切出し部７２１による処理を必要とし、それなりに大きな計算資源を必要とする。しかしながら、推定時には、そのように大きな計算資源を必要としない。本実施形態による変換装置１を画像認識装置等として用いる場合、推定時には大きな計算資源を必要とせず、比較的低コストで、リアルタイムの処理を行うことが可能となる。

【0091】

［第２実施形態］
次に、本発明の第２実施形態について説明する。なお、前実施形態において既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。

【0092】

図９は、本実施形態による変換装置２の概略機能構成を示すブロック図である。図示するように、変換装置２は、入力部１０と、画像縮小部７１３と、エンコーダー部２３と、デコーダー部３１と、出力部４０と、ロス算出部５０２と、画像切出し部７２２と、画像縮小部７１４と、第２エンコーダー部２４と、第２ロス算出部７０２と、学習データ供給部８０２と、制御部９０２とを含んで構成される。

【0093】

入力部１０は、第１実施形態における入力部１０と同様の機能を持つ。

【0094】

画像縮小部７１３は、第１実施形態における画像縮小部７１１と同様の機能を持つ。

【0095】

エンコーダー部２３は、第１実施形態におけるエンコーダー部２１と同様の機能を持つ。

【0096】

デコーダー部３１は、第１実施形態におけるデコーダー部３１と同様の機能を持つ。

【0097】

出力部４０は、第１実施形態における出力部４０と同様の機能を持つ。

【0098】

ロス算出部５０２は、第１実施形態におけるロス算出部５０１と類似の機能を持つ。
ただし、ロス算出部５０２は、学習データ供給部８０２が供給する学習用画像系列に基づいて第２エンコーダー部２４が生成する状態ベクトル（状態データ）、に基づいてデコーダー部３１が生成する記号列である学習用推定記号列と、上記の学習用画像系列に対応して学習データ供給部８０２が供給する正解記号列と、の差を表すロス（損失）を算出する。ロス算出部５０２は、ロスとして、例えば、交差エントロピー誤差を算出する。
つまり、ロス算出部５０２が算出するロスは、エンコーダー部２３ではなく、第２エンコーダー部２４の学習のために用いられる。

【0099】

画像切出し部７２２は、第１実施形態における画像切出し部７２１と同様の機能を持つ。つまり、元の画像系列が手話の映像である場合、画像切出し部７２２は、手話の話者の手指を含む領域のみを上記部分画像として切出して出力する。なお、画像切出し部７２２が、話者の左手の手指を含む部分画像の系列と、話者の右手の手指を含む部分画像の系列とを、それぞれ別々に切出して別系列として出力してもよい。

【0100】

画像縮小部７１４は、渡された画像を所定のサイズに縮小して出力する。本実施形態において、画像縮小部７１４は、学習データ供給部８０２から渡された元の画像系列の画像（画像切出し部７２２によって切出されなかった全体の画像）と、画像切出し部７２２によって切出された部分画像との、両方をそれぞれ出力する。

【0101】

第２エンコーダー部２４は、第１実施形態における第２エンコーダー部２２と類似の機能を持つ。但し、本実施形態における第２エンコーダー部２４は、画像切出し部７２２によって切出された後の画像だけではなく、画像系列に含まれる切出される前の元の画像にも基づいて、状態ベクトル（状態データ）を生成する。

【0102】

第２ロス算出部７０２は、学習用画像系列に基づいてエンコーダー部２３が生成する状態ベクトル（状態データ）と、同じ学習用画像系列に基づいて第２エンコーダー部２４が生成する状態ベクトル（状態データ）と、の差を表す第２ロスを算出する。第２ロス算出部７０２は、ロスとして、例えば、交差エントロピー誤差を算出する。

【0103】

学習データ供給部８０２は、エンコーダー部２３および第２エンコーダー部２４への入力の基となる学習用の画像系列（学習用画像系列）と、その学習用画像系列に対応する記号列の正解である正解記号列との対を供給する。

【0104】

制御部９０２は、変換装置２の全体の動作を制御する。具体的には、制御部９０２は、第３学習処理モードと、第４学習処理モードと、推定処理モードとを適宜切り替えて実行するように、変換装置２内の各部を制御する。なお、第３学習処理モードを、「第２実施形態における第１学習処理モード」と呼んでもよい。同様に、第４学習処理モードを、「第２実施形態における第２学習処理モード」と呼んでもよい。具体的には、制御部９０２は、各モードにおいて各部が次のように動作するよう制御を行う。

【0105】

第３学習処理モードにおいては、学習データ供給部８０２が供給する学習用画像系列と正解記号列とに基づいてロス算出部５０２が算出したロスを算出する。算出されたロスに基づき、デコーダー部３１は、その内部パラメーターを調整する。また、上記のロスに基づいて、さらに、第２エンコーダー部２４は、その内部パラメーターを調整する。なお、本実施形態における第２エンコーダー部２４は、ロス算出部５０２がロスを算出する際の基となった状態ベクトル（状態データ）を生成した側である。

【0106】

第４学習処理モードにおいては、学習データ供給部８０２が供給する学習用画像系列に基づいて第２ロス算出部７０２が算出した第２ロス、に基づいて、エンコーダー部２３が、内部パラメーターを調整する。

【0107】

推定処理モードにおいては、エンコーダー部２３が推定対象の画像系列（入力部１０が供給する画像系列）を基に状態ベクトル（状態データ）を生成する。デコーダー部３１は、エンコーダー部２３が生成した状態ベクトル（状態データ）を基に、記号列を生成する。ここでデコーダー部３１が生成する記号列は、推定記号列である。

【0108】

変換装置２は、３種類のモードで動作する。それらは、第３学習処理モードと、第４学習処理モードと、推定処理モードである。つまり、変換装置２は、第３学習処理モードと第４学習処理モードとの２種類の学習を行う。これら３種類のモードについて、次にそれぞれ説明する。

【0109】

［第３学習処理モード］
第３学習処理モードでは、変換装置２は、学習データ供給部８０２が供給する学習データを用いて、第２エンコーダー部２４およびデコーダー部３１の学習を行う。第３学習処理モードにおいて学習データ供給部８０２が供給する学習データは、入力画像系列と正解語列との対の集合である。つまり、第３学習処理モードにおいて、画像切出し部７２２は、学習データ供給部８０２が供給する入力画像系列から、所定の切出し処理を行い、切出された画像の系列を出力する。例えば、入力画像系列が手話映像である場合、画像切出し部７２２は、手話の話者の特定の部位（例えば、左手と右手）を含むクローズアップ画像を切出す。画像切出し部７２２は、例えば、左手を含むように切出された画像の系列と、右手を含むように切出された画像の系列とを、出力する。画像縮小部７１４は、供給される画像系列に含まれる各画像を縮小する。画像縮小部７１４は、例えば、学習データ供給部８０２が供給する入力画像系列と、画像切出し部７２２が出力した上記の左手のクローズアップ画像の系列と、画像切出し部７２２が出力した上記の右手のクローズアップ画像の系列とを、それぞれ縮小する。この場合、画像縮小部７１４は、手話の話者の上半身全体の縮小された画像の系列と、左手の縮小された画像の系列と、右手の縮小された画像の系列とを出力する。第２エンコーダー部２４は、画像縮小部７１４によって縮小された上記３つの縮小された画像の系列を基に、エンコーディング処理を行う。第２エンコーダー部２４は、エンコーディング処理の結果として、状態ベクトルを出力する。デコーダー部３１は、第２エンコーダー部２４が出力した状態ベクトルを基に、デコーディング処理を行う。デコーダー部３１は、デコーディング処理の結果として、推定語列を出力する。デコーダー部３１は、出力した推定語列を、ロス算出部５０２に渡す。一方、学習データ供給部８０２は、供給した入力画像系列に対応する正解語列を、ロス算出部５０２に渡す。ロス算出部５０２は、デコーダー部３１から渡された推定語列と、学習データ供給部８０２から渡された正解語列との、ロスを算出する。そして、第２エンコーダー部２４およびデコーダー部３１から成る系列は、ロス算出部５０２によって算出されたロスに基づいて、誤差逆伝播法により、それぞれのニューラルネットワークの内部パラメーターの更新を行う。この一連の処理を繰り返すことにより、第２エンコーダー部２４とデコーダー部３１のそれぞれの学習が行われる。つまり、デコーダー部３１は、正解語列に近い推定語列を出力するように、学習を行う。また、第２エンコーダー部２４は、デコーダー部３１が正解語列に近い推定語列を出力しやすくなるような状態ベクトルを出力するように、学習を行う。

【0110】

［第４学習処理モード］
第４学習処理モードでは、変換装置１は、学習データ供給部８０２が供給する学習データを用いて、エンコーダー部２３の学習を行う。具体的には、学習データ供給部８０２が供給する画像系列を基に、エンコーダー部２３が、第２エンコーダー部２４が出力するのと同様の状態ベクトル、あるいは第２エンコーダー部２４が出力する状態ベクトルに近い状態ベクトルを出力するように、学習を行う。第４学習処理モードにおいて学習データ供給部８０２が供給する学習データは、入力画像系列である。つまり、第４学習処理モードにおいて、画像切出し部７２２は、学習データ供給部８０２が供給する入力画像系列から、第３学習処理モードにおける場合と同様の切出し処理を行い、切出された画像の系列を出力する。また、画像縮小部７１４は、第３学習処理モードにおける場合と同様に、供給される画像系列に含まれる各画像を縮小する。つまり、画像縮小部７１４は、学習データ供給部８０２が供給する入力画像系列と、画像切出し部７２２が出力した上記の左手のクローズアップ画像の系列と、画像切出し部７２２が出力した上記の右手のクローズアップ画像の系列とを、それぞれ縮小する。第２エンコーダー部２４は、画像縮小部７１４によって縮小された画像列を基に、エンコーディング処理を行う。第２エンコーダー部２４は、そのエンコーディング処理の結果として状態ベクトルを出力する。第２エンコーダー部２４は、生成した状態ベクトルを、第２ロス算出部７０２に渡す。一方、画像縮小部７１３は、学習データ供給部８０２が供給する入力画像系列に含まれる各画像を縮小する。エンコーダー部２３は、画像縮小部７１３によって縮小された画像系列を基に、エンコーディング処理を行う。エンコーダー部２３は、エンコーディング処理の結果として、状態ベクトルを出力する。エンコーダー部２３は、画像縮小部７１３から出力された画像列に基づく状態ベクトルを、第２ロス算出部７０２に渡す。第２ロス算出部７０２は、エンコーダー部２３から渡された状態ベクトルと、第２エンコーダー部２４から渡された状態ベクトルとの、ロスを算出する。そして、エンコーダー部２３は、第２ロス算出部７０２によって算出されたロスに基づいて、誤差逆伝播法により、内部パラメーターの更新を行う。この一連の処理を繰り返すことにより、エンコーダー部２３の学習が行われる。

【0111】

なお、第４学習モードにおいて、エンコーダー部２３のみが、第２ロス算出部７０２が算出したロスに基づく、誤差逆伝播法によるパラメーターの更新を行う。第４学習モードにおいては、第２エンコーダー部２４のパラメーターの更新は行わない。第２エンコーダー部２４の学習は、第３学習モードにおいて行われるものである。第４学習モードにおいては、第２エンコーダー部２４が出力する状態ベクトルは、正解として扱われる。

【0112】

第４学習処理モードでは、エンコーダー部２３は、画像切出し部７２２によって切出されなかった画像（上半身全体を含む画像であり、手指に関しては弱い特徴量を持つ画像）と、画像切出し部７２２によって切出された画像（特に手指に関して強い特徴量を持つ画像）との対応関係を学習する。そのような学習の結果、エンコーダー部２３は、手指に関しては弱い特徴量を持つ上半身全体を含む画像が入力されるにも関わらず、手指の特徴の変化に対して感度の良い状態ベクトルを出力できるようになる。

【0113】

変換装置２は、例えば、第３学習処理モードの処理と第４学習処理モードの処理を、交互に実行することができる。あるいは、変換装置２は、第３学習処理モードの処理を十分に行った後で、つまり第２エンコーダー部２４の学習が完了した後で、第４学習処理モードの処理を行うようにしてもよい。

【0114】

［推定処理モード］
推定処理モードは、エンコーダー部２３やデコーダー部３１の学習が十分に完了した状態で、未知の入力画像列に基づく変換処理を行うものである。つまり、入力部１０は、入力画像系列を取得し、画像縮小部７１３に渡す。画像縮小部７１３は、入力画像を縮小し、縮小された画像の系列を出力する。エンコーダー部２３は、画像縮小部７１３から渡された画像の系列に基づき、エンコーディング処理を行い、その結果として状態ベクトルを出力する。デコーダー部３１は、エンコーダー部２１から出力された状態ベクトルに基づき、デコーディング処理を行い、その結果として推定語列を出力する。出力部４０は、デコーダー部３１が出力した推定語列を、入力画像列に対応する語列（変換結果）として出力する。

【0115】

前述の学習方法により、変換装置２のエンコーダー部２３やデコーダー部３１は良好な学習結果を持っている。よって、推定処理モードで出力される変換結果は、入力画像列に対応した精度の高いものとなる。

【0116】

図１０は、変換装置２のさらに詳細な構成を示すブロック図である。具体的には、図１０は、第３学習処理モードで変換装置２が動作する場合の、第２エンコーダー部２４が出力する状態ベクトルをデコーダー部３１が取得して処理する部分の構成を示す。

【0117】

第２エンコーダー部２４は、内部にニューラルネットワーク２００４を有している。ニューラルネットワーク２００４には、画像縮小部７１４から渡される、縮小後の画像の系列ｆｒａｍｅ_１，ｆｒａｍｅ_２，・・・，ｆｒａｍｅ_ｒが入力される。第３学習処理モードにおいては、これらの画像の系列は、学習データ供給部８０２が供給した入力データに基づくものである。図示する例では、第２エンコーダー部２４のニューラルネットワーク２００４には、画像切出し部７２２による切出し処理が行われなかった画像の系列（例えば、手話の話者の上半身全体の映像）と、画像切出し部７２２による切出し処理が行われた結果である複数の画像の系列（例えば、手話の話者の、左手を含む部分画像の系列と、右手を含む部分画像の系列）と、が入力される。第２エンコーダー部２４は、これらの画像の系列に基づいて生成した状態ベクトルを、デコーダー部３１に渡す。

【0118】

デコーダー部３１は、第１実施形態の場合と同様に、内部にニューラルネットワーク３００１を有している。ニューラルネットワーク３００１には、第２エンコーダー部２４のニューラルネットワーク２００４で生成された状態ベクトルが入力される。ニューラルネットワーク３００１は、入力される状態ベクトルに基づいて算出される語の列ｗｏｒｄ_１，ｗｏｒｄ_２，・・・，ｗｏｒｄ_ｕ－１,ｗｏｒｄ_ｕを出力する。これらの語は、いずれも、前述のグロス表記における記号である。また、ニューラルネットワーク３００１は、語列の最後に、特殊記号である＜ｅｏｓ＞を出力する。ニューラルネットワーク３００１が出力する語の列は、推定語列とも呼ばれる。

【0119】

ニューラルネットワーク２００４および３００１の各々は、学習モード（第３学習処理モード）で動作する際に、学習データに基づく機械学習処理を行うことによって、内部のパラメーターを調整する。

【0120】

機械学習処理についてさらに詳しく書く。ニューラルネットワーク３００１が出力する推定語列は、正解データである正解語列と比較することができる。正解語列は、入力映像に対応する形で、学習データ供給部８０２によって供給される。ロス算出部５０２は、ニューラルネットワーク３００１が出力する推定語列と、学習データ供給部８０２によって供給される正解語列とから、ロスを算出する。ロス算出部５０２によって算出されたロスに基づき、ニューラルネットワーク２００４および３００１は、誤差逆伝播を行い、内部のパラメーターを更新する。

【0121】

図１１は、変換装置２のさらに詳細な構成を示すブロック図である。具体的には、図１１は、第４学習処理モードで変換装置２が動作する場合の、エンコーダー部２３および第２エンコーダー部２４のそれぞれが状態ベクトルを生成する処理の部分の構成を示す。

【0122】

第２エンコーダー部２４は、図１０を参照して説明したように、内部にニューラルネットワーク２００４を有している。ニューラルネットワーク２００４には、画像縮小部７１４から渡される画像の系列ｆｒａｍｅ_１，ｆｒａｍｅ_２，・・・，ｆｒａｍｅ_ｒが入力される。前述の通り、ニューラルネットワーク２００４に入力される画像の系列は、画像切出し部７２２による切出し処理が行われなかった画像の系列（例えば、手話の話者の上半身全体の映像）と、画像切出し部７２２による切出し処理が行われた結果である複数の画像の系列（例えば、手話の話者の、左手を含む部分画像の系列と、右手を含む部分画像の系列）と、である。これらの画像は、学習データ供給部８０２が供給した入力データに基づくものである。第２エンコーダー部２４は、入力される画像の系列に基づいて生成した状態ベクトルを、第２ロス算出部７０２に渡す。

【0123】

エンコーダー部２３は、内部にニューラルネットワーク２００３を有している。ニューラルネットワーク２００３には、画像縮小部７１３から渡されるフレーム画像の系列が入力される。これらの画像は、切出し処理を行った画像ではなく、学習データ供給部８０２が供給した映像に含まれる各画像を画像縮小部７１３が単に縮小したものである。つまり、図示する例では、手話の話者の上半身全体を含む画像である。ニューラルネットワーク２００３に入力される画像の系列は、上記のニューラルネットワーク２００４に入力されるフレーム画像の系列に対応するものである。ニューラルネットワーク２００３は、入力される画像の系列に基づいて状態ベクトルを算出する。エンコーダー部２３は、入力される画像の系列に基づいて生成した状態ベクトルを、第２ロス算出部７０２に渡す。

【0124】

ニューラルネットワーク２００３は、第４学習処理モードで動作する際に、学習データに基づく機械学習処理を行うことによって、内部のパラメーターを調整する。第２ロス算出部７０２は、ニューラルネットワーク２００３が出力する状態ベクトルと、ニューラルネットワーク２００４が出力する状態ベクトルとから、ロスを算出する。第２ロス算出部７０２によって算出されたロスに基づき、ニューラルネットワーク２００３は、誤差逆伝播を行い、内部のパラメーターを更新する。

【0125】

図１２は、変換装置２のさらに詳細な構成を示すブロック図である。具体的には、図１２は、推定処理モードで変換装置２が動作する場合の、エンコーダー部２３およびデコーダー部３１からなる系列が推定語列を算出するための構成を示す。推定処理モードで動作する前に、エンコーダー部２３およびデコーダー部３１の学習は完了している。

【0126】

エンコーダー部２３のニューラルネットワーク２００３は、画像縮小部７１３から渡される画像の系列を基に、状態ベクトルを生成する。ニューラルネットワーク２００３に入力される画像の系列は、図示する例では、手話の話者の上半身全体の画像の系列である。エンコーダー部２３は、算出した状態ベクトルを、デコーダー部３１に渡す。

【0127】

デコーダー部３１のニューラルネットワーク３００１は、エンコーダー部２３から渡される状態ベクトルに基づいて、推定語列を出力する。ニューラルネットワーク３００１が出力する推定語列は、ｗｏｒｄ_１，ｗｏｒｄ_２，・・・，ｗｏｒｄ_ｕ－１,ｗｏｒｄ_ｕである。ニューラルネットワーク３００１は、ｗｏｒｄ_ｕの後に、＜ｅｏｓ＞を出力する。

【0128】

推定処理モードにおいて、デコーダー部３１が出力した推定語列は、入力された映像（画像の系列）に基づく変換結果として、出力部４０によって外部に出力される。

【0129】

なお、ニューラルネットワーク２００３および２００４の構成は、第１実施形態において図４を参照しながら説明したものと同様である。つまり、ニューラルネットワーク２００３および２００４は、論理的には、Ｎ行ｒ列のマトリクス状に配置されたＲＮＮを用いて構成される。ただし、Ｎは層の数であり、ｒは入力される画像の系列の長さである。また、ニューラルネットワーク３００１の構成は、第１実施形態において図５を参照しながら説明した通りである。つまり、デコーダー部３１は、論理的には、Ｎ行（ｕ＋１）列のマトリクス状に配置されたＲＮＮを用いて構成される。ただし、（ｕ＋１）は、出力される記号系列の長さである。

【0130】

入力部１０や学習データ供給部８０２が供給する画像の系列は、例えば、縦１０２４画素×横１０２４画素の解像度を持つ画像から成る。画像縮小部７１３や７１４は、入力されるそのような画像を、サンプリング等により、縦２５６画素×横２５６画素のサイズに縮小する。

【0131】

図１３は、変換装置２が機械学習処理を行う際の手順の一例を示すフローチャートである。以下では、このフローチャートを参照しながら、学習処理の手順について説明する。なお、第１実施形態と同様の点については説明を省略する場合がある。

【0132】

ステップＳ２０１において、学習データ供給部８０２は、学習用データとして、１個の入力データを供給する。入力データは、映像データである。学習データ供給部８０２は、入力データを、画像縮小部７１３および画像切出し部７２２にそれぞれ渡す。学習データ供給部８０２が供給する出力データは、上記の入力データに対応する正解語列のデータである。学習データ供給部８０２は、正解語列データを、ロス算出部５０２に渡す。

【0133】

画像縮小部７１３は、学習データ供給部８０２から渡された画像データを縮小する。画像縮小部７１３は、縮小後の画像の系列を、エンコーダー部２３に渡す。
画像切出し部７２２は、学習データ供給部８０２から渡された画像データの系列を基に、画像の部分の切出しを行う。画像切出し部７２２は、切出した後の画像の系列を、画像縮小部７１４に渡す。
画像縮小部７１４は、学習データ供給部８０２から渡された元の画像の系列と、画像切出し部７２２から渡された切出し後の画像の系列を、それぞれ縮小する。画像縮小部７１４は、縮小後の画像の系列を、第２エンコーダー部２４に渡す。

【0134】

次に、ステップＳ２０２において、エンコーダー部２３は、ステップＳ２０１で渡された画像の系列を基に、順伝播を行う。つまり、エンコーダー部２１は、エンコーディング処理を行い、その順伝播の結果として、状態ベクトルを出力する。

【0135】

次に、ステップＳ２０３において、第２エンコーダー部２４は、ステップＳ２０１で渡された画像の系列を基に、順伝播を行う。つまり、第２エンコーダー部２４は、エンコーディング処理を行い、その順伝播の結果として、状態ベクトルを出力する。

【0136】

次に、ステップＳ２０４において、第２ロス算出部７０２は、エンコーダー部２３から出力された状態ベクトルと、第２エンコーダー部２４から出力された状態ベクトルとを基に、ロスを算出する。

【0137】

次に、ステップＳ２０５において、エンコーダー部２３は、ステップＳ２０４において第２ロス算出部７０２が算出したロスに基づいて、誤差逆伝播を行う。これにより、エンコーダー部２３は、内部のニューラルネットワークの各ノードにおける演算パラメーターの値を更新する。

【0138】

以上の、ステップＳ２０２からＳ２０５までの一連の処理は、エンコーダー部２３の出力と第２エンコーダー部２４の出力との差分に基づき、エンコーダー部２３および第２エンコーダー部２４の各々が内部に持つパラメーターの値を調整する処理である。つまり、前述の、第４学習処理モードの処理である。

【0139】

次に、ステップＳ２０６において、第２エンコーダー部２４は、ステップＳ２０１で渡された画像の系列を基に、順伝播を行う。第２エンコーダー部２４は、順伝播の結果として生成した状態ベクトルを、デコーダー部３１に渡す。

【0140】

次に、ステップＳ２０７において、デコーダー部３１は、ステップＳ２０６において第２エンコーダー部２４が出力した状態ベクトルに基づいて、順伝播を行う。つまり、デコーダー部３１は、デコーディングの処理を行う。その結果として、デコーダー部３１は、推定語列を出力する。この推定語列は、＜ｅｏｓ＞（エンド・オブ・シーケンス）等の特殊記号を含んでもよい。

【0141】

次に、ステップＳ２０８において、ロス算出部５０２は、ステップＳ２０１で学習データ供給部８０２から渡された正解語列のデータと、ステップＳ２０７においてデコーダー部３１が出力した推定語列のデータとを基に、ロスを算出する。

【0142】

次に、ステップＳ２０９において、デコーダー部３１は、ステップＳ２０８において算出されたロスに基づいて、誤差逆伝播を行う。これにより、デコーダー部３１は、内部のニューラルネットワークの各ノードにおける演算パラメーターの値を更新する。この誤差逆伝播は、さらに、第２エンコーダー部２４にも波及する。

【0143】

次に、ステップＳ２１０において、第２エンコーダー部２４は、ステップＳ２０９におけるデコーダー部３１の誤差逆伝播の処理の延長として、第２エンコーダー部２４が持つニューラルネットワークの誤差逆伝播を行う。これにより、第２エンコーダー部２４は、内部のニューラルネットワークの各ノードにおける演算パラメーターの値を更新する。

【0144】

以上、ステップＳ２０６からＳ２１０までの一連の処理は、第２エンコーダー部２４およびデコーダー部３１の順伝播処理によって得られた推定語列と、学習データ供給部８０２が与える正解語列との差分に基づき、第２エンコーダー部２４およびデコーダー部３１の各々が内部に持つニューラルネットワークのパラメーターを調整する処理である。つまり、前述の、第３学習処理モードの処理である。

【0145】

ステップＳ２１１において、制御部９０１は、全ての学習データを用いた機械学習処理を完了したか否かを判定する。全ての学習データを処理済みである場合（ステップＳ２１１：ＹＥＳ）には、次のステップＳ２１２に進む。まだ学習データ（入出力データ対）が残っている場合（ステップＳ２１１：ＮＯ）には、次のデータを処理するためにステップＳ２０１に戻る。

【0146】

ステップＳ２１２に進んだ場合には、制御部９０２は、現在の学習データの集合を用いた学習処理の所定回数の繰り返しが完了したか否かを判定する。なお、この回数は、例えば、予め定めておくものとする。所定回数の処理が完了した場合（ステップＳ２１２：ＹＥＳ）には、本フローチャート全体の処理を終了する。所定回数の処理が完了していない場合（ステップＳ２１２：ＮＯ）には、次の回の処理を行うためにステップＳ２０１に戻る。なお、本ステップにおいて、予め定めておいた回数に基づいて全体の処理を終了するか否かの判断を行う代わりに、他の判断基準に基づいた判断を行うようにしてもよい。一例として、更新対象であるニューラルネットワークのパラメーター集合の値の収束状況（十分に収束しているか否か）に基づいて、全体の処理を終了するか否かの判断を行うようにしてもよい。

【0147】

以上、説明した手順では、ロス算出部５０２が算出したロスに基づいて第２エンコーダー部２４のパラメーターを更新する。また、第２ロス算出部７０２が算出したロスに基づいて、エンコーダー部２３が第２エンコーダー部２４と同じ（あるいは近い）状態ベクトルを出力するようになる方向に、エンコーダー部２３のパラメーターを更新する。言い換えれば、エンコーダー部２３は、画像切出し部７２１による入力画像の切出しを行わない場合にも、切出しを行った場合の画像の特徴（例えば、手指の状態や動作）をより良好に反映した状態ベクトルを出力する。したがって、変換装置２は、入力映像に対応して、精度の高い推定語列を生成することが期待される。

【0148】

図１３に示した手順では、第２ロス算出部７０２が算出したロスに基づく学習（ステップＳ２０２からＳ２０５までの学習、第４学習処理モード）と、ロス算出部５０２が算出したロスに基づく学習（ステップＳ２０６からＳ２１０までの学習、第３学習処理モード）とを、個別且つ交互に実施している。これは、前述の制御部９０２によるモードの切り替えの例である。つまり、制御部９０１は、学習処理の際に、学習データ供給部８０１が供給する学習用入力データと正解データとの対ごとに、第１学習処理モードと第２学習処理モードとを繰り返して実行するよう制御する。
しかしながら、これら第３学習処理モードの学習と第４学習処理モードの学習とを計算グラフ上で同時に行うようにしてもよい。言い換えれば、データの依存関係に応じて同時に実行できる学習処理を同時変更的に行うようにしても良い。
また、ある入出力データ対に関して、第３学習処理モードの学習を行った後で第４学習処理モードの学習を行うようにしてもよい。
また、第３学習処理モードと第４学習処理モードとを交互に実行する代わりに、第３学習処理モードによる第２エンコーダー部２４の学習が完了した後で第４学習処理モードを実行するようにしてもよい。

【0149】

図１４は、第２実施形態の評価結果を示すグラフである。このグラフの横軸は、学習のエポック数である。エポック数とは、「一つの訓練データを何回繰り返して学習させるか」を表す回数である。このグラフの縦軸は、上記のエポック数に対応する単語誤り率である。単語誤り率は、変換装置が出力する記号列と正解語列との編集距離をもとに算出した評価指標であり、良好な推定結果ほど低い値を示す。学習に用いた学習用データは、１０，０００対の、手話映像と正解グロス列（正解記号列）との対である。評価に用いたデータ数（手話映像とその正解グロス列）は、１，０００個である。実線のグラフは、第２実施形態の変換装置による処理結果を示す。破線のグラフは、比較対象であり、従来技術による変換装置による処理結果を示す。第２実施形態の変換装置の単語誤り率と従来技術による単語誤り率とを比較すると、エポック数に応じて、第２実施形態の変換装置の単語誤り率の方が低い場合と、従来技術による単語誤り率の方が低い場合とがある。第２実施形態の変換装置の単語誤り率も、従来技術による単語誤り率も、エポック数が進むにつれて、単語誤り率は、概ね低下していく。第２実施形態の変換装置の単語誤り率の最低値は、０．４９である。一方、従来技術による変換装置の単語誤り率の最低値は、０．５２である。つまり、十分な回数の学習を行った場合には、第２実施形態の変換装置の単語誤り率は、従来技術による変換装置の単語誤り率よりも、３ポイント分、良好な値を示す。

【0150】

以上説明したように、本実施形態によれば、学習時には画像切出し部７２２による画像切出しの処理を必要とするが、推定処理モードの時には、画像切出し部７２２による処理を必要としない。一方で、エンコーダー部２３は、切出されていない画像を基に、第２エンコーダー部２４に近い状態ベクトルを出力できるように学習可能である。つまり、本実施形態によれば、学習時には、画像切出し部７２２による処理を必要とし、それなりに大きな計算資源を必要とするものの、推定時には、そのように大きな計算資源を必要としない。本実施形態による変換装置２を画像認識装置等として用いる場合、推定時には大きな計算資源を必要とせず、比較的低コストで、リアルタイムの処理（変換処理、認識処理等）を行うことが可能となる。

【0151】

なお、上述した各実施形態における変換装置１、２の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

【0152】

以上説明したいずれかの実施形態によれば、切出された画像（クローズアップ画像）が持つ特徴を利用した変換を行うことができ、且つ、推定処理モードの際には切出された画像を得るための計算を節約することができる。

【0153】

以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。複数の実施形態および変形例を、組み合わせることが可能な限りにおいて、組み合わせて実施してもよい。

【0154】

［変形例１］
エンコーダー部やデコーダー部は、予め機械学習済みであってもよい。つまり、変換装置は、機械学習済み（即ち、ニューラルネットワークの内部パラメーターは調整済み）の状態で、入力される画像系列を基に、記号列を生成する。変形例１の具体的な構成は、次の通りである。即ち、エンコーダー部は、入力される画像系列を基に状態データを生成する。デコーダー部は、上記の状態データを基に記号列を生成する。上記のエンコーダー部は、機械学習により定まる内部パラメーターを有する。エンコーダー部は、定められた内部パラメーターに基づいて、画像系列を基に状態データを生成するものである。そのエンコーダー部の内部パラメーターは、エンコーダー部が学習用画像系列に基づいて生成した状態データと、エンコーダー部とは異なる第２エンコーダー部が画像系列に含まれる画像から切出した所定の部分画像に少なくとも基づいて生成した状態データと、の差を表すロスに基づいて調整済みである。

【0155】

［変形例２］
第１実施形態や第２実施形態で説明した変換装置の構成を用いて、学習装置として構成してもよい。学習装置は、エンコーダー部やデコーダー部の学習を行わせる。変換装置１あるいは２の構成を持つ学習装置は、機械学習の手法を用いて、エンコーダー部２１あるいは２３、第２エンコーダー部２２あるいは２４、デコーダー部３１の学習処理を行う。このような変換装置１あるいは２を、単に学習装置と呼んでもよい。このような学習装置は、前述の推定処理モードでは動作しない。学習装置は、適宜、制御部の制御に基づいて、第１学習処理モード、第２学習処理モード、第３学習処理モード、第４学習処理モードのいずれかで動作する。

【0156】

［変形例３］
変換装置１あるいは２が、画像縮小部（７１１、７１２、７１３、７１４）を持たなくてもよい。エンコーダー部（２１、２３）や第２エンコーダー部（２２、２４）が、所定のサイズ（固定サイズ）の画像を入力できれば十分である。

【0157】

［変形例４］
上記の各実施形態では、入力される画像系列が手話の映像である場合について説明した。しかしながら、入力される画像系列が、他のものを映した映像であってもよい。この場合、画像切出し部（７２１，７２２）は、目的に応じて適切な部分画像を切出すようにする。画像切出し部が切出す部分画像は、必ずしも手指を含むクローズアップでなくてもよい。画像切出し部が切出す部分画像は、出力しようとする記号列の特徴によく整合する特徴を表す部分画像であることが望ましい。本実施形態は、手話の翻訳に限らず、映像理解一般、あるいは映像から記号列への翻訳（変換）一般に適用することができる。

【0158】

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

【産業上の利用可能性】

【0159】

本発明は、例えば、映像を基に記号列を生成するあらゆる適用領域（一例として、映像理解等）に利用することができる。特に手話映像を対象とした処理を行う場合には、聴覚障害者と健聴者のコミュニケーションに利用したり、手話学習者の教育に利用したり、することができる。但し、本発明の利用範囲はここに例示したものには限られない。

【符号の説明】

【0160】

１，２変換装置（学習装置）
１０入力部
２１エンコーダー部
２２第２エンコーダー部
２３エンコーダー部
２４第２エンコーダー部
３１デコーダー部
４０出力部
５０１，５０２ロス算出部
７０１，７０２第２ロス算出部
７１１，７１２，７１３，７１４画像縮小部
７２１，７２２画像切出し部
８０１，８０２学習データ供給部
９０１，９０２制御部
２００１，２００２，２００３，２００４，３００１ニューラルネットワーク

【図1】