(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-04
(45)【発行日】2024-07-12
(54)【発明の名称】翻訳装置、手話映像生成装置、およびプログラム
(51)【国際特許分類】
G06F 40/44 20200101AFI20240705BHJP
G09B 21/00 20060101ALI20240705BHJP
G06F 3/0481 20220101ALI20240705BHJP
【FI】
G06F40/44
G09B21/00 E
G09B21/00 F
G06F3/0481
(21)【出願番号】P 2020082537
(22)【出願日】2020-05-08
【審査請求日】2023-04-20
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100141139
【氏名又は名称】及川 周
(74)【代理人】
【識別番号】100171446
【氏名又は名称】高田 尚幸
(74)【代理人】
【識別番号】100114937
【氏名又は名称】松本 裕幸
(74)【代理人】
【識別番号】100171930
【氏名又は名称】木下 郁一郎
(72)【発明者】
【氏名】宮▲崎▼ 太郎
(72)【発明者】
【氏名】森田 祐介
【審査官】長 由紀子
(56)【参考文献】
【文献】特開2015-069359(JP,A)
【文献】特開2020-064370(JP,A)
【文献】米国特許出願公開第2003/0135356(US,A1)
【文献】森田 祐介 外3名,手話単語のサブワード分割を利用した日本手話翻訳,電子情報通信学会2020年総合大会講演論文集 情報・システム1,日本,一般社団法人電子情報通信学会,2020年03月03日,pp.40
【文献】加藤 直人,日本語テキストから手話CGへの翻訳技術,NHK技研R&D,第134号,日本,日本放送協会,2012年07月15日,pp.45-52
【文献】加藤 直人 外4名,気象情報の手話CGシステムの開発と評価,NHK技研R&D,第175号,日本,日本放送協会,2019年05月15日,pp.40-52
【文献】村田 匡輝 外2名,読点の用法的分類に基づく自動読点挿入,情報処理学会研究報告 平成22年度1 [CD-ROM] ,日本,社団法人情報処理学会,2010年05月27日,pp.1-8
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-58
G09B 21/00-06
G06F 3/048-0489
(57)【特許請求の範囲】
【請求項1】
機械学習可能
に構成され、ソース言語に対応する入力記号列を基に状態ベクトルを生成するエンコーダー部と、
機械学習可能
に構成され、前記エンコーダー部から出力される前記状態ベクトルを基に、出力値を出力するデコーダー部と、
機械学習可能
に構成され、前記デコーダー部が出力する前記出力値に基づいて、ターゲット言語に対応する出力記号列を出力する出力部と、
機械学習可能
に構成され、前記デコーダー部が出力する前記出力値に基づいて、前記出力部が出力する前記出力記号列に含まれる出力記号に対応して、付加的な出力記号である特殊記号の出力の要否を判定する特殊記号判定部と、
翻訳処理モードと機械学習モードとのいずれのモードであるかに基づいて、
1)前記翻訳処理モードのときには、前記入力記号列に基づいて前記出力部が前記出力記号列を出力し且つ前記特殊記号判定部が前記特殊記号の要否を出力するよう制御し、
2)前記機械学習モードのときには、学習用データとして、前記入力記号列と、正解データである前記出力記号列および前記特殊記号の要否の情報と、の組を供給して、前記学習用データとしての前記入力記号列に基づいて前記出力部が出力する前記出力記号列および前記特殊記号判定部が出力する前記特殊記号の要否と、前記正解データとの差を用いて、前記出力部と前記特殊記号判定部と前記デコーダー部と前記エンコーダー部とが機械学習処理を行うよう制御する、
制御部と、
を備
え、
前記ターゲット言語は、手話言語であ
り、
前記特殊記号判定部は、
前記デコーダー部が出力する前記出力値に基づいて、手話におけるうなずきの動作を表す前記特殊記号の出力の要否を判定するうなずき判定部と、
前記デコーダー部が出力する前記出力値に基づいて、手話における指差しの動作を表す前記特殊記号の出力の要否を判定する指差し判定部と、
を含む、
翻訳装置。
【請求項2】
請求項
1に記載の翻訳装置と、
前記特殊記号判定部による判定結果に基づいて、前記出力部が出力する前記出力記号列に、必要な前記特殊記号を付加して、統合記号列を出力する後処理部と、
前記統合記号列に含まれる記号に対応する動きの情報を動きデータベースから読み出し、前記統合記号列に対応する前記動きの系列に基づいて映像を生成する映像生成部と、
を備える手話映像生成装置。
【請求項3】
コンピューターを、
請求項
1に記載の翻訳装置、
として機能させるためのプログラム。
【請求項4】
コンピューターを、
請求項
2に記載の手話映像生成装置、
として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、翻訳装置、手話映像生成装置、およびプログラムに関する。
【背景技術】
【0002】
自然言語による文章を、手話言語に翻訳するための技術が研究されている。
【0003】
特許文献1には、用例翻訳手法を用いて日本語から手話への翻訳を行う技術が記載されている。
特許文献2には、日本語文と手話文との対訳コーパスに基づき、手話における非手指動作(顔表情等)を検出する技術が記載されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2013-186673号公報
【文献】特開2015-166902号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
手話においては、指差しやうなずきといった動作のように、元の日本語文の中には対応する表現がない単語が使われている。しかしながら、上記のような従来技術では、機械翻訳の処理によって指差しやうなずきといった動作を出力する手法が存在しない。
【0006】
指差しやうなずきといった動作は、手話の文中に頻出する。発明者らが手話コーパスを分析した結果によると、指差しの動作は1文に1.75回出現し、うなずきの動作は1文に4.91回出現する。また、指差しやうなずきは手話において重要な役割がある。指差しやうなずきが正しい位置に表出されない場合には、意味を読み取るのに困難が生じたり、誤解を生じたりする場合がある。
【0007】
一般に、機械学習の手法では,データの偏りは性能に悪影響を及ぼす。そのため、手話翻訳において、上記のように出現頻度の高いうなずきや指差しは、性能の劣化の大きな原因となり得る。
【0008】
本発明は、上記の課題認識に基づいて行なわれたものであり、うなずきや指差しなどといった動作に対応する記号を含む翻訳結果を性能良く出力することのできる翻訳装置、手話映像生成装置、およびプログラムを提供しようとするものである。
【課題を解決するための手段】
【0009】
[1]上記の課題を解決するため、本発明の一態様による翻訳装置は、機械学習可能なモデルを備え、ソース言語に対応する入力記号列を基に状態ベクトルを生成するエンコーダー部と、機械学習可能なモデルを備え、前記エンコーダー部から出力される前記状態ベクトルを基に、出力値を出力するデコーダー部と、機械学習可能なモデルを備え、前記デコーダー部が出力する前記出力値に基づいて、ターゲット言語に対応する出力記号列を出力する出力部と、機械学習可能なモデルを備え、前記デコーダー部が出力する前記出力値に基づいて、前記出力部が出力する前記出力記号列に含まれる出力記号に対応して、付加的な出力記号である特殊記号の出力の要否を判定する特殊記号判定部と、翻訳処理モードと機械学習モードとのいずれのモードであるかに基づいて、1)前記翻訳処理モードのときには、前記入力記号列に基づいて前記出力部が前記出力記号列を出力し且つ前記特殊記号判定部が前記特殊記号の要否を出力するよう制御し、2)前記機械学習モードのときには、学習用データとして、前記入力記号列と、正解データである前記出力記号列および前記特殊記号の要否の情報と、の組を供給して、前記学習用データとしての前記入力記号列に基づいて前記出力部が出力する前記出力記号列および前記特殊記号判定部が出力する前記特殊記号の要否と、前記正解データとの差を用いて、前記出力部と前記特殊記号判定部と前記デコーダー部と前記エンコーダー部とが機械学習処理を行うよう制御する、制御部と、を備える。
【0010】
[2]また、本発明の一態様は、上記の翻訳装置において、前記ターゲット言語は、手話言語とするものである。
【0011】
[3]また、本発明の一態様は、上記の翻訳装置において、前記特殊記号判定部は、前記デコーダー部が出力する前記出力値に基づいて、手話におけるうなずきの動作を表す前記特殊記号の出力の要否を判定するうなずき判定部と、前記デコーダー部が出力する前記出力値に基づいて、手話における指差しの動作を表す前記特殊記号の出力の要否を判定する指差し判定部と、を含むものである。
【0012】
[4]また、本発明の一態様による手話映像生成装置は、上記[2]または[3]に記載の翻訳装置と、前記特殊記号判定部による判定結果に基づいて、前記出力部が出力する前記出力記号列に、必要な前記特殊記号を付加して、統合記号列を出力する後処理部と、前記統合記号列に含まれる記号に対応する動きの情報を動きデータベースから読み出し、前記統合記号列に対応する前記動きの系列に基づいて映像を生成する映像生成部と、を備えるものである。
【0013】
[5]また、本発明の一態様は、コンピューターを、上記[1]から[3]までのいずれか一項に記載の翻訳装置、として機能させるためのプログラムである。
【0014】
[6]また、本発明の一態様は、コンピューターを、上記[4]に記載の手話映像生成装置、として機能させるためのプログラムである。
【発明の効果】
【0015】
本発明によれば、出力部からの系列の出力と、特殊記号判定部が判定する特殊記号の要否とを、別々に求めることができ、全体として翻訳の精度が向上する。また、高精度の翻訳結果に基づいて、手話映像を生成することが可能となる。
【図面の簡単な説明】
【0016】
【
図1】本発明の実施形態による翻訳装置の概略機能構成を示すブロック図である。
【
図2】同実施形態によるエンコーダー部の内部の構成例を示すブロック図である。
【
図3】同実施形態によるデコーダー部の内部の構成例を示すブロック図である。
【
図4】同実施形態による手話映像生成装置の概略機能構成を示すブロック図である。
【
図5】同実施形態の第1変形例によるデコーダー部の特徴的部分の構成を示すブロック図である。
【
図6】同実施形態の第2変形例による翻訳装置の処理手順を示すフローチャートである。
【
図7】実施例による翻訳装置からの出力と、予め用意された正解とを対比するための概略図である。
【発明を実施するための形態】
【0017】
次に、本発明の実施形態について、図面を参照しながら説明する。
【0018】
本実施形態による翻訳装置は、自然言語の文章を、手話の単語列に翻訳する機能を持つ。なお、以下において、日本語の文章を例として説明するが、他の言語(英語、中国語、ドイツ語、フランス語、ロシア語、スペイン語、韓国語等)からの手話の単語列への翻訳も、同様に行える。翻訳装置は、一例として、「警察は今後捜査を進める方針です」という日本語の文を入力する。翻訳装置は、学習済みのモデルを内部に持ち、上記入力文にこのモデルを適用する。その結果、「警察,pt3,将来3,調べる,する,計画,N,<e>」という手話単語列(記号列)を出力する。本実施形態による手話映像生成装置は、この手話単語列を基に、コンピューターグラフィクス(CG)を用いて、手話の動きを表す映像断片を生成し、それらの映像断片をつなぎ合わせることによって手話映像(CGアニメーション)を作成する。
【0019】
なお、上記の手話単語列の例における「<e>」は、翻訳の最後を表す記号である。また、逆に、翻訳の先頭を表す記号としては「<s>」を用いる。
つまり、翻訳処理の際に最初に入力する記号が「<s>」であり、翻訳処理が終了したときに出力される記号が「<e>」である。
【0020】
本実施形態による翻訳装置は、ニューラル機械翻訳(NMT)の技術を利用する。機械翻訳処理は、入力記号集合の要素からなる入力記号列を受け入れて、出力記号集合の要素からなる出力記号列を出力するものである。出力記号列は、入力記号列に依存する。通常は、入力記号集合と出力記号集合とは互いに異なる集合である。ニューラル機械翻訳は、ニューラルネットワークを用いて、機械翻訳処理を実現する。
【0021】
上で例示した手話単語列に含まれる「N」や「pt3」は、特殊記号である。例えば、特殊記号「N」は、手話におけるうなずきの動作に対応する。うなずきは、手話において、文の切れ目や並列する単語の区切りを表現する動作である。また、特殊記号「pt3」は、手話における指差しの動作に対応する。指差しは、直前の単語を指差すことを表す動作である。指差しにより、その単語の意味を強調したり、次に続く文の主語であることを強調したりする。
【0022】
なお、本実施形態の説明で用いる用語の意味は、次の通りである。
FFNNは、フィードフォワードニューラルネットワーク(Feed-Forward Neural Network)を意味するものである。FFNNは、ベクトルの線形変換を行うモデルである。
RNNは、再帰型ニューラルネットワーク(Recurrent Neural Network)を意味するものである。RNNは、系列データにおける過去の入力系列からの影響を考慮したモデルである。
Transformerは、機械翻訳の研究で主流として用いられるモデルである。Transformerも過去の入力系列を考慮したニューラルネットワークである。Transformerについては、下記文献に記載されている。
文献:Vaswani et al. “Attention is all you need” in Advances in neural information processing systems, pp. 5998-6008 (2017).
【0023】
図1は、本実施形態による翻訳装置1の概略機能構成を示すブロック図である。図示するように、翻訳装置1は、エンコーダー部11と、デコーダー部12と、埋め込み部14と、出力部16と、うなずき判定部17と、指差し判定部18と、制御部20と、を含んで構成される。これらの各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ(SSD)といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。各機能部について、次に説明する。
【0024】
エンコーダー部11は、入力文(翻訳元の文)に相当するデータを取得し、モデルの作用によって状態ベクトルを生成し、出力する。具体的には、エンコーダー部11は、埋め込み部14が出力するデータを取得し、処理する。エンコーダー部11は、出力する状態ベクトルを、デコーダー部12に渡す。エンコーダー部11は、機械学習可能なモデルを含んで構成される。このモデルは、予め学習済みであってもよい。つまり、エンコーダー部11は、機械学習可能なモデルを備え、ソース言語に対応する入力記号列を基に状態ベクトルを生成する。エンコーダー部11は、例えば、RNNまたはTransformerを用いて実現される。エンコーダー部11のさらに詳細な構成例は、後で、別の図面を参照しながら説明する。
【0025】
デコーダー部12は、エンコーダー部11から状態ベクトルを受け取り、モデルの作用によって出力値のデータを生成し、出力する。デコーダー部12は、出力値のデータを、出力部16と、うなずき判定部17と、指差し判定部18とに渡す。デコーダー部12は、機械学習可能なモデルを含んで構成される。モデルは、予め学習済みであってもよい。つまり、デコーダー部12は、機械学習可能なモデルを備え、エンコーダー部11から出力される状態ベクトルを基に、出力値を出力する。デコーダー部12は、例えば、RNNまたはTransformerを用いて実現される。デコーダー部12のさらに詳細な構成例は、後で、別の図面を参照しながら説明する。
【0026】
埋め込み部14は、入力される日本語文(翻訳元の文)が含む語のそれぞれを、エンコーダー部11が処理できる形のベクトル値に変換する。埋め込み部14は、変換後のベクトル値をエンコーダー部11に渡す。埋め込み部14は、「埋め込み層」(Embedding Layer)とも呼ばれる。埋め込み部14は、例えば、FFNNを用いて実現される。
【0027】
出力部16は、デコーダー部12が出力する出力値を基に、出力語(記号)を生成し、出力する。出力語の列は、例えば、手話の表現に対応する単語列(記号列)である。この出力語列は、例えば、手話言語のグロス表記による単語列である。本実施形態による出力部16は、後述する特殊記号を出力するものではない。特殊記号とは、例えば、手話におけるうなずきの動作に対応する記号(「N」)や、指差しの動作に対応する記号(「pt3」)である。うなずきの動作に対応する記号(「N」)や、指差しの動作に対応する記号(「pt3」)の要否の情報は、別途、後述するうなずき判定部17や指差し判定部18から出力される。つまり、出力部16は、機械学習可能なモデルを備え、デコーダー部12が出力する出力値に基づいて、ターゲット言語に対応する出力記号列を出力する。出力部16は、出力層(Output Layer)とも呼ばれる。出力部16は、機械学習可能なモデルを含んで構成される。モデルは、予め学習済みであってもよい。
出力部16は、例えば、FFNNを用いて実現される。
【0028】
上記のターゲット言語は、典型的には手話言語、またはそれと同等の言語であってよい。
【0029】
うなずき判定部17は、デコーダー部12が出力する出力値を基に、出力系列内の現在位置において、うなずきの動作に対応する記号(「N」)の要否を判定し、その判定結果(必要または不要)を出力する。つまり、うなずき判定部17は、デコーダー部12が出力する出力値に基づいて、手話におけるうなずきの動作を表す特殊記号の出力の要否を判定する。なお、うなずき判定部17は、出力部16が出力する出力記号列に含まれる出力記号のそれぞれに対応して、付加的な出力記号である特殊記号(ここでは「N」)の出力の要否を判定する。うなずき判定部17は、うなずき判定層とも呼ばれる。うなずき判定部17は、は、機械学習可能なモデルを含んで構成される。モデルは、予め学習済みであってもよい。うなずき判定部17は、例えば、FFNNを用いて実現される。
【0030】
指差し判定部18は、デコーダー部12が出力する出力値を基に、出力系列内の現在位置において、指差しの動作に対応する記号(「pt3」)の要否を判定し、その判定結果(必要または不要)を出力する。つまり、指差し判定部18は、デコーダー部12が出力する出力値に基づいて、手話における指差しの動作を表す特殊記号の出力の要否を判定する。なお、指差し判定部18は、出力部16が出力する出力記号列に含まれる出力記号のそれぞれに対応して、付加的な出力記号である特殊記号(ここでは「pt3」)の出力の要否を判定する。指差し判定部18は、指差し判定層とも呼ばれる。指差し判定部18は、機械学習可能なモデルを含んで構成される。モデルは、予め学習済みであってもよい。指差し判定部18は、例えば、FFNNを用いて実現される。
【0031】
上記のうなずき判定部17および指差し判定部18は、ともに、機械学習可能なモデルを備え、デコーダー部12が出力する出力値に基づいて、出力部16が出力する出力記号列に含まれる出力記号に対応して、付加的な出力記号である特殊記号の出力の要否を判定する特殊記号判定部の機能を持つものと捉えることができる。特殊記号判定部の機能として、うなずきや指差し以外の特殊な動作に対応する特殊記号の出力の要否を判定するものであってもよい。
【0032】
制御部20は、翻訳装置全体の動作を制御する。また、制御部20は、各部が処理するためのデータを供給する。また、制御部20は、各部が出力するデータを取り出し、取り出したデータを必要な機能部に供給する。制御部20は、特に、翻訳装置1の動作モードを管理する。動作モードとは、翻訳処理モードおよび機械学習モードである。翻訳処理モードにおいて、制御部20は、翻訳装置1が、機械学習済みのモデルを用いて、入力データを基に出力データ(出力記号列)を算出するよう制御する。機械学習モードにおいて、制御部20は、翻訳装置1が、学習用データを用いて、モデルの機械学習を行う。モデルがニューラルネットワークである場合、翻訳装置1は、処理結果と正解データとの差分(ロス)に基づいて、誤差逆伝播法(バックプロパゲーション)によってモデルのパラメーターを更新する。なお、このような機械学習の処理自体としては、既存の技術を用いることができる。
【0033】
具体的には、制御部20は、翻訳処理モードと機械学習モードとのいずれのモードであるかに基づいた制御を行う。翻訳処理モードのときには、制御部20は、入力記号列に基づいて出力部16が出力記号列を出力し且つ特殊記号判定部(うなずき判定部17および指差し判定部18)が特殊記号の要否を出力するよう制御する。機械学習モードのときには、制御部20は、学習用データとして、前記入力記号列と、正解データである前記出力記号列および前記特殊記号の要否の情報と、の組を供給する。そして、制御部20は、学習用データとしての入力記号列に基づいて出力部16が出力する出力記号列および前記特殊記号判定部が出力する前記特殊記号の要否と、正解データとの差を算出する。そして、制御部20は、出力部16と特殊記号判定部(うなずき判定部17および指差し判定部18)とデコーダー部12とエンコーダー部11とが機械学習処理を行うよう制御する。つまり、制御部20は、誤差逆伝播法の手法により、各部がモデル(ニューラルネットワーク)のパラメーターを更新する処理を行うよう制御する。
【0034】
図2は、エンコーダー部11の内部の構成例を示すブロック図である。図示するように、本例のエンコーダー部11は、階層構成を有するRNNを用いて実現される。RNNの階層数をNとする。Nは、適宜定められる正整数である。例えば、Nは、2以上且つ6以下程度の整数としてもよい。ただし、Nを他の正整数としてもよい。
【0035】
図2ではRNNの時間的な再帰構造を左から右方向に展開して表現している。図示する構成例では、エンコーダー部11は、入力される記号列<s>,word
1,word
2,・・・,word
u-1,word
u,<e>に対応して、第1層から第N層までのRNNを持つ。同図の下側から、第1層(最下層)、第2層、・・・、第N層(最上層)である。第1層には、埋め込み部14で処理された記号(入力文内の語に対応する記号。語の特徴を表す記号。)が入力される。第1層のRNNからの出力は、当該入力記号に対応する第2層のRNNと、次の入力記号に対応する第1層のRNNとに、渡される。また、第i層(1<i<N)のRNNは、同じ入力記号に対応する第(i-1)層のRNNからの出力と、前の入力記号に対応する第i層のRNNからの出力とを受け取る。そして、その第i層のRNNからの出力は、同じ入力記号に対応する第(i+1)層のRNNと、次の入力記号に対応する第i層のRNNとに、渡される。また、第N層のRNNは、同じ入力記号に対応する第(N-1)層のRNNからの出力と、前の入力記号に対応する第N層のRNNからの出力とを受け取る。そして、その第N層のRNNからの出力は、次の入力記号に対応する第N層のRNNに渡される。最後の入力記号(
図2においては、最右側の列)に対応するRNNからの出力は、状態ベクトルである。エンコーダー部11は、生成した状態ベクトルを、デコーダー部12に渡す。
【0036】
図2を参照して説明したように、エンコーダー部11は、論理的には、N行r列のマトリクス状に配置されたRNNを用いて構成される。ただし、Nは層の数であり、rは入力される記号の系列の長さである。
【0037】
なお、ここではRNNの例を用いて説明したが、この処理と同等の処理を、Transformerなどの系列データを扱うことができるニューラルネットワーク用いて実現することも可能である。
【0038】
図3は、デコーダー部12の内部の構成例を示すブロック図である。図示するように、本例のデコーダー部12は、階層構成を有するRNNを用いて実現される。デコーダー部12におけるRNNの階層数は、エンコーダー部11の階層数と同じNである。
【0039】
デコーダー部12は、エンコーダー部11が生成した状態ベクトルを、入力データとして取得する。また、デコーダー部12の第N層のRNNは、ベクトル列v1,v2,・・・,vuを生成し、出力する。uは、正整数であり、出力系列長である。ベクトルvj(1≦j≦u)は、j番目の、出力記号symjと、うなずき判定結果Njと、指差し判定結果PTjとについての情報を持つものである。デコーダー部12の第N層のRNNは、生成したベクトル列v1,v2,・・・,vuを、出力部16と、うなずき判定部17と、指差し判定部18とに渡す。
【0040】
図3ではRNNの時間的な再帰構造を左から右方向に展開して表現している。図示する構成例では、デコーダー部12は、出力するベクトル列v
1,v
2,・・・,v
uの各ベクトルに対応して、第1層から第N層までのRNNを持つ。つまり、デコーダー部12は、論理的には、N行u列のマトリクス状に配置されたRNNを用いて構成される。同図の下側から、第1層(最下層)、第2層、・・・、第N層(最上層)である。デコーダー部12におけるRNNのマトリクス内での、データの受け渡しの流れは、次の通りである。マトリクスの第1列(図における最左列)の各層のRNNは、エンコーダー部11の対応する層から、状態ベクトルの信号を受け取る。また、マトリクスの第1層(最下層)のRNNには、その時点までに、出力部16から出力済である出力記号の列が入力される。つまり、デコーダー部12は、自身の出力の前方をも参照している。第1層のRNNからの出力は、同一列の第2層のRNNと、次の列(図において一つ右の列)の第1層のRNNとに、渡される。また、第i層(1<i<N)のRNNは、同じ入力記号に対応する第(i-1)層のRNNからの出力と、前の入力記号に対応する第i層のRNNからの出力とを受け取る。そして、その第i層のRNNからの出力は、同じ入力記号に対応する第(i+1)層のRNNと、次の入力記号に対応する第i層のRNNとに、渡される。また、第N層のRNNは、同じ入力記号に対応する第(N-1)層のRNNからの出力と、前の入力記号に対応する第N層のRNNからの出力とを受け取る。そして、その第N層のRNNからの出力は、次の列の第N層のRNNに渡される。また、第N層のRNNは、前述の通り、生成したベクトル列v
j(1≦j≦u)を、出力部16と、うなずき判定部17と、指差し判定部18とに渡す。
【0041】
図4は、本実施形態による手話映像生成装置3の概略機能構成を示すブロック図である。図示するように、手話映像生成装置3は、翻訳装置1と、入力部4と、後処理部5と、動きデータベース6と、映像生成部7と、映像出力部8と、を含んで構成される。ここで、翻訳装置1については、
図1等を用いて既に説明した通りである。他の構成要素である入力部4や、後処理部5や、動きデータベース6や、映像生成部7や、映像出力部8の各部は、例えば、電子回路を用いて実現される。また、各部は、必要に応じて、半導体メモリーや磁気ディスク装置で実現される記憶手段を持ってもよい。各部は、また、コンピューターとプログラムとで実現されてもよい。各部の機能は、次に説明する通りである。
【0042】
入力部4は、翻訳対象となる文(例えば、日本語による文)を、適切な形態で、翻訳装置1に供給する。入力部4が翻訳装置1に供給するデータは、例えば、単語の列や、文字の列などといった形態のデータである。
【0043】
後処理部5は、翻訳装置1から出力される情報の後処理を行い、その処理後の情報を映像生成部7に渡す。具体的には、後処理部5は、翻訳装置1の出力部16とうなずき判定部17と指差し判定部18のそれぞれからの出力を統合し、最終的な手話単語列(記号列)を出力する。さらに具体的には、後処理部5は、特殊記号判定部(うなずき判定部17と指差し判定部18)による判定結果(必要または不要)に基づいて、出力部16が出力する出力記号列に、必要な特殊記号(うなずきの動作や、指差しの動作を表す記号)を付加して、統合記号列を出力する。
【0044】
動きデータベース6は、後処理部5から出力される統合記号列に含まれる記号に対応する動きの情報を記憶するものである。後述する映像生成部7は、統合記号列から順次取り出す記号をキーとして動きデータベース6を検索することにより、各記号に対応する動き(手話の表現のための、手指や、身体のその他の部位の動き)の情報を獲得できる。動きデータベース6は、記号の種類に対応付けて、上記の動きの情報を記憶する。
【0045】
映像生成部7は、後処理部5から渡される統合記号列に基づき、動きデータベース6から手話の表現のための動きの情報を読み出し、統合記号列に対応する動きの系列に基づいて映像を生成する。映像生成部7が生成する映像は、手話による表現の映像である。映像生成部7が映像を生成する方法は任意である。一例としては、動きデータベース6は、記号に対応する動きの情報を用いて、CGモデル(人の形のモデル等)の部位を動かし、CG映像を生成する。このCGモデルは、人の腕、手、指を動かしたり、人の首関節部分を動かしたり(例えばうなずいたりする動作等)、人の上半身の向きを変えたり、人の顔のパーツを動かしたりすることのできるものである。なお、CGによる人等の映像の表現自体は、既存の技術を用いて行うことができる。映像生成部7は、生成した映像を、映像出力部8に渡す。
【0046】
映像出力部8は、映像生成部7が生成した映像(手話映像)を、出力する。映像出力部8は、例えば、表示装置に映像を表示させる。あるいは、映像出力部8は、ケーブル等を介して、映像信号を送出するようにしてもよい。
【0047】
以上の各部の機能を組み合わせて構成される手話映像生成装置3は、入力される文章(例えば、日本語等の言語で記述された文章)を、手話に対応した記号列に変換する。この手話に対応した記号列は、うなずきに対応する記号や、指差しに対応する記号などの、特殊記号を含んでもよい。そして、手話映像生成装置3は、この記号列を基に、手話の製造を生成し、出力する。つまり、手話映像生成装置3は、入力される日本語等の文章を基に、当該文章に対応する手話映像を生成し、出力する。
【0048】
次に、上記実施形態の変形例について説明する。なお、複数の変形例を組み合わせて実施するようにしてもよい。
【0049】
[第1変形例]
上記実施形態のデコーダー部12は、第N層(最上層)からの出力を、出力部16とうなずき判定部17と指差し判定部18とに渡していた。第1変形例では、例えば、第N層以外の層からも、出力信号(推定結果)を出力する。Nは、例えば、6であってよい。
【0050】
図5は、第1変形例によるデコーダー部62の特徴的部分の構成を示すブロック図である。第1変形例では、翻訳装置は、デコーダー部62と、出力部66と、うなずき判定部67と、指差し判定部68と、を含んで構成される。この第1変形例において、デコーダー部62からの出力を、出力部66とうなずき判定部67と指差し判定部68とに渡す点は、上記の実施形態と同様である。第1変形例の特徴は、第(N-1)層からの出力を指差し判定部68に渡し、第(N-2)層からの出力をうなずき判定部67に渡す点である。さらに、その他の層からの出力を、出力部66や、うなずき判定部67や、指差し判定部68に渡すようにしてもよい。例えば
図5に示す構成の場合には、第N層からの出力と、第(N-1)層からの出力と、第(N-2)層からの出力とが、それぞれ、出力部66と、うなずき判定部67と、指差し判定部68とに合うように、ニューラルネットワークの学習が行われることも可能である。
【0051】
[第2変形例]
上記実施形態の翻訳装置1では、出力部16からの出力と、うなずき判定部17による判定結果と、指差し判定部18による判定結果とを、すべて同時に求めていた。第2変形例では、出力部16による手話単語(特殊記号以外の出力記号)の出力を先にすべて終えた上で、後からうなずき判定や指差し判定を上記実施形態と同様に計算する。
【0052】
図6は、第2変形例による翻訳装置の処理手順を示すフローチャートである。このフローチャートに沿って手順を説明する。
【0053】
まず、ステップS101において、第2変形例の翻訳装置1のエンコーダー部11は、埋め込み部14から渡される入力記号列を受け入れ、順次処理する。エンコーダー部11は、状態ベクトルを生成し、デコーダー部12に渡す。
入力記号列の例は、前記の入力文例「警察は今後捜査を進める方針です」に対応する記号列である。
【0054】
次に、ステップS102において、デコーダー部12は、エンコーダー部11から渡される状態ベクトルを処理し、出力部16が、順次、出力記号列を出力する。出力部16が出力する出力記号は、上記実施形態でも説明した通り、その都度、デコーダー部12の第1層からの入力にも用いられる。なお、本ステップの段階では、うなずき判定部17と指差し判定部18のそれぞれは、判定処理を行わない。
出力部16が出力する出力記号列(手話単語列)の例は、「警察,将来3,調べる,する,計画,<e>」である。この出力記号列には、当然、「N」や「pt3」は含まれない。
【0055】
次に、ステップS103において、第2変形例の翻訳装置1は、ステップS102において出力された記号列「警察,将来3,調べる,する,計画,<e>」のすべてを、デコーダー部12の第1層から入力させる。
【0056】
次に、ステップS104において、デコーダー部12は、ステップS103で取得した記号列全体「警察,将来3,調べる,する,計画,<e>」にも基づいて処理を行う。これにより、うなずき判定部17と指差し判定部18とのそれぞれは、順次、それぞれ、うなずき判定結果の系列と指差し判定結果の系列とを出力する。
うなずき判定部17からの出力の系列は、出力部16からの出力記号列と対応する形で、例えば、「不要,不要,不要,不要,不要,必要」である。また、指差し判定部18からの出力の系列は、出力部16からの出力記号列と対応する形で、例えば、「必要,不要,不要,不要,不要,不要」である。
【0057】
ステップS103で得られた出力「警察,将来3,調べる,する,計画,<e>」と、ステップS104で得られた出力(うなずき判定部17および指差し判定部18のそれぞれの判定結果)とを総合すると、「警察,pt3,将来3,調べる,する,計画,N,<e>」という記号列が得られる。例えば、後処理部5(
図4)が、出力部16、うなずき判定部17、指差し判定部18からの出力を用いて後処理を行う。
【0058】
第2変形例では、出力部16が出力したすべての記号(手話単語)に基づいて、前後の文脈を考慮した系列ラベリングを行うことが可能になる。つまり、うなずき判定部17や指差し判定部18からの出力を、出力部16が出力した記号列全体に基づくものとすることができる。言い換えれば、第2変形例は、うなずき判定部17や指差し判定部18が、出力記号列の後方からの依存にも対応した系列ラベリングを行うことが可能になる。
【0059】
なお、上述した実施形態における翻訳装置や手話映像生成装置の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM、DVD-ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0060】
以上、説明したように、本実施形態によれば、特殊記号判定部(うなずき判定部17や指差し判定部18など)は、デコーダー部12が出力する出力値に基づいて、出力部16が出力する個々の記号に対応して、付加的な出力記号である特殊記号の出力の要否を判定する。ここでの特殊記号は、他の出力記号(通常の単語に対応した記号)と比べて、出現頻度が特異的に高いものである。また、特殊記号は、例えば、うなずきや指差しといったターゲット言語(手話)に特有の表現に対応するものである。つまり、特殊記号に対応する、翻訳元の文の言語における語・表現がない。このように、特殊記号と、その他の普通の記号とを分けて扱うことによって、出現頻度の高い特殊記号がその他の普通の記号の列の生成に悪影響を与えない。言い換えれば、通常の機械翻訳の技術を利用して、特殊記号以外の普通の記号の列を生成することができる。本実施形態では、特殊記号の要否については、手話単語の系列を入力とした系列ラベリングの手法を用いて判定することができる。このように、手話単語の系列と、特殊記号の要否とを、別々に出力するように構成したことにより、モデルの学習時のデータの偏りを抑制し,手話単語の翻訳性能を向上させることができる。また、うなずきや指差しに関しても、別の処理を行うことにより、正しい結果を得ることができる。
【0061】
[実施例]
上記の翻訳装置の実施例について説明する。発明者らは、コンピューターを用いて翻訳装置1を実現し、手話コーパスに含まれる13万文対(日本語による入力文と、手話による出力文との対)を用いて翻訳装置1の機械学習を行った。このように学習済みの翻訳装置1は、学習用データには含まれない日本語入力文「文部科学省は,今月下旬に中間報告を行い,来月末に最終報告をまとめることにしています」に対応して、下記の出力文(特殊記号を含む出力記号列)を出力した。即ち、本実施形態の翻訳装置1からの出力は、「N,文,科学,県,pt3,N,月曜日,最低,中,間,答える,N,する,N,月曜日,最低,まで,答える,つまり,計画,N」であった。一方、上記の日本語入力文に対応する正解文は、「N,文,科学,県,pt3,N,将来,N,月曜日,下,辺り,N,中,間,N,答える,する,N,月曜日,最低,辺り,N,まで,答える,つまり,N,計画,N」である。
【0062】
図7は、上記の実施例による翻訳装置からの出力のデータと、予め用意された正解データとを対比するための概略図である。同図では、出力と正解とのそれぞれにおいて、文内での記号の順序に応じた番号を表示している。出力データのうち、下線を付した記号(第1番目から第6番目までと、第9番目から第21番目まで)の部分は、正しく翻訳できている部分である。正解データのうち、下線を付した記号(第7番目から第8番目までと、第10番目から第11番目までと、第21番目)の部分は、正しく翻訳できていない部分である。
【0063】
出力データの例を示したように、本実施形態による翻訳結果はまずまず良好である。実用の場合に、翻訳装置1からの出力を人手で修正するにしても、大きな修正を必要としない程度の翻訳が実現できている。機械翻訳の評価尺度であるBLEU(Bilingual Evaluation Understudy)値では、本実施形態は、21.49を達成している。
【0064】
以上、この発明の実施形態および変形例について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【産業上の利用可能性】
【0065】
本発明は、例えば、コンテンツ配信事業に利用したり、聴覚障害者と健聴者のコミュニケーションに利用したり、手話学習者の教育に利用したりすることができる。ただし、本発明の利用範囲はここに例示したものには限られない。
【符号の説明】
【0066】
1 翻訳装置
3 手話映像生成装置
4 入力部
5 後処理部
6 動きデータベース
7 映像生成部
8 映像出力部
11 エンコーダー部
12 デコーダー部
14 埋め込み部
16 出力部
17 うなずき判定部
18 指差し判定部
20 制御部
62 デコーダー部
66 出力部
67 うなずき判定部
68 指差し判定部