IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

<>
  • 特許-翻訳装置およびプログラム 図1
  • 特許-翻訳装置およびプログラム 図2
  • 特許-翻訳装置およびプログラム 図3
  • 特許-翻訳装置およびプログラム 図4
  • 特許-翻訳装置およびプログラム 図5
  • 特許-翻訳装置およびプログラム 図6
  • 特許-翻訳装置およびプログラム 図7
  • 特許-翻訳装置およびプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-01
(45)【発行日】2024-08-09
(54)【発明の名称】翻訳装置およびプログラム
(51)【国際特許分類】
   G06F 40/284 20200101AFI20240802BHJP
   G06T 13/40 20110101ALI20240802BHJP
   G09B 21/00 20060101ALI20240802BHJP
【FI】
G06F40/284
G06T13/40
G09B21/00 F
【請求項の数】 6
(21)【出願番号】P 2020101095
(22)【出願日】2020-06-10
(65)【公開番号】P2021196708
(43)【公開日】2021-12-27
【審査請求日】2023-05-15
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100141139
【弁理士】
【氏名又は名称】及川 周
(74)【代理人】
【識別番号】100171446
【弁理士】
【氏名又は名称】高田 尚幸
(74)【代理人】
【識別番号】100114937
【弁理士】
【氏名又は名称】松本 裕幸
(74)【代理人】
【識別番号】100171930
【弁理士】
【氏名又は名称】木下 郁一郎
(72)【発明者】
【氏名】内田 翼
【審査官】成瀬 博之
(56)【参考文献】
【文献】特開2013-186673(JP,A)
【文献】特開2014-109988(JP,A)
【文献】米国特許第08566075(US,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/20-40/58
G06T 13/40
G09B 21/00-21/06
G06F 16/00-16/958
G06F 3/048-3/0489
(57)【特許請求の範囲】
【請求項1】
自然言語で記述された自然言語テキストデータを取得し、前記自然言語テキストデータの翻訳処理を行うことによって手話ラベルからなる翻訳結果の手話ラベル列を出力する翻訳部と、
前記手話ラベルと、前記手話ラベルに対応するモーションを表すモーションデータとを、関連付けて記憶するモーションデータベースと、
前記翻訳部が出力した前記手話ラベル列に含まれる各々の前記手話ラベルについて、対応する前記モーションデータが存在するか否かを、前記モーションデータベースに照会する照会部と、
前記照会部が照会した結果として前記モーションデータが存在しない前記手話ラベルを、他の手話ラベル列に置換する置換部と、
を備え、
前記照会部は、前記置換部が前記手話ラベルを置換した場合には置換後の前記手話ラベル列の中に、対応する前記モーションデータが存在しない手話ラベルが存在しなくなるまで、モーションデータベースへの照会を繰り返すものであり、
前記置換部は、
置換対象である前記手話ラベルが手話表現における類辞である場合に、類辞である当該手話ラベルに含まれる自然言語テキストの翻訳処理を行うことによって手話ラベルからなる第2手話ラベル列で、当該手話ラベルを置換する再翻訳部、
を含む、
翻訳装置。
【請求項2】
自然言語で記述された自然言語テキストデータを取得し、前記自然言語テキストデータの翻訳処理を行うことによって手話ラベルからなる翻訳結果の手話ラベル列を出力する翻訳部と、
前記手話ラベルと、前記手話ラベルに対応するモーションを表すモーションデータとを、関連付けて記憶するモーションデータベースと、
前記翻訳部が出力した前記手話ラベル列に含まれる各々の前記手話ラベルについて、対応する前記モーションデータが存在するか否かを、前記モーションデータベースに照会する照会部と、
前記照会部が照会した結果として前記モーションデータが存在しない前記手話ラベルを、他の手話ラベル列に置換する置換部と、
を備え、
前記照会部は、前記置換部が前記手話ラベルを置換した場合には置換後の前記手話ラベル列の中に、対応する前記モーションデータが存在しない手話ラベルが存在しなくなるまで、モーションデータベースへの照会を繰り返すものであり、
前記置換部は、
置換対象である前記手話ラベルが手話表現における類辞ではない場合に、手話ラベル間の類似度に基づいて、当該手話ラベルを置換可能な他の手話ラベル置換する類似語置換部、
を含
翻訳装置。
【請求項3】
自然言語で記述された自然言語テキストデータを取得し、前記自然言語テキストデータの翻訳処理を行うことによって手話ラベルからなる翻訳結果の手話ラベル列を出力する翻訳部と、
前記手話ラベルと、前記手話ラベルに対応するモーションを表すモーションデータとを、関連付けて記憶するモーションデータベースと、
前記翻訳部が出力した前記手話ラベル列に含まれる各々の前記手話ラベルについて、対応する前記モーションデータが存在するか否かを、前記モーションデータベースに照会する照会部と、
前記照会部が照会した結果として前記モーションデータが存在しない前記手話ラベルを、他の手話ラベル列に置換する置換部と、
を備え、
前記照会部は、前記置換部が前記手話ラベルを置換した場合には置換後の前記手話ラベル列の中に、対応する前記モーションデータが存在しない手話ラベルが存在しなくなるまで、モーションデータベースへの照会を繰り返すものであり、
前記置換部は、
置換対象である前記手話ラベルが手話表現における類辞である場合に、類辞である当該手話ラベルに含まれる自然言語テキストの翻訳処理を行うことによって手話ラベルからなる第2手話ラベル列で、当該手話ラベルを置換する再翻訳部と、
置換対象である前記手話ラベルが手話表現における類辞ではない場合に、手話ラベル間の類似度に基づいて、当該手話ラベルを置換可能な他の手話ラベルで置換する類似語置換部と、
を備え、
前記置換部は、置換対象である前記手話ラベルが手話表現における類辞であるか否かを判定し、類辞である場合には前記再翻訳部が前記手話ラベルを前記第2手話ラベル列で置換し、類辞でない場合には前記類似語置換部が前記手話ラベルを前記他の手話ラベルで置換する、
翻訳装置。
【請求項4】
前記手話ラベル列の中の手話ラベルのすべてについて対応する前記モーションデータが存在するようになった手話ラベル列である置換完了手話ラベル列を、前記照会部から受け取り、前記置換完了手話ラベル列の中の各手話ラベルに対応する前記モーションデータを前記モーションデータベースから読み出して、それらの前記モーションデータを合成することによって前記置換完了手話ラベル列に対応するモーションデータを生成するモーション生成部、
を備える請求項1からまでのいずれか一項に記載の翻訳装置。
【請求項5】
前記モーション生成部が生成した前記モーションデータに基づいてアニメーション映像を生成するアニメーション生成部、
をさらに備える請求項に記載の翻訳装置。
【請求項6】
請求項1から5までのいずれか一項に記載の翻訳装置、としてコンピューターを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、翻訳装置およびプログラムに関する。
【背景技術】
【0002】
コンピュータグラフィックス(CG)アニメーションを利用した自然言語文(例えば日本語文)から手話への翻訳技術は、様々な分野において広く使用される可能性を持つ技術である。従来技術において一般的なCGアニメーション向けの手話翻訳では、入力情報となる自然言語文(テキストデータ)と、対応する手話ラベルの組み合わせで用例コーパスを構築している。そして、その用例コーパスを利用して生成した統計モデルやニューラルネットワークによって、日本語文等のテキストデータから手話ラベルへの翻訳を実現している。その翻訳結果である手話ラベルを基に、各ラベルに対応するモーションデータを読み込み、CGアバターで再生することでアニメーションを生成する方法がとられる。上記のモーションデータは基本的に単語単位(手話ラベル単位)で取り扱われる。複数の単語のモーションデータを接続することで手話アニメーションの文章を生成するようにしている。
【0003】
例えば、特許文献1には、入力されるテキストの翻訳処理を行うことによって手話を出力する手話翻訳装置が記載されている。その翻訳処理の手段は、漢字手話のみを学習データとした統計的翻訳や、ルールベース翻訳や、文字単位の学習データを用いた統計的翻訳や、単語単位の学習データを用いた統計的翻訳といった手法を含む。また、手話翻訳装置が持つ翻訳結果統合手段は、複数の翻訳結果をスコアによって評価することにより統合している。
【0004】
自然言語文テキストが手話ラベル列に翻訳された後には、手話翻訳装置は、各手話ラベル列に対応する手話単語モーションデータを予め準備したデータベース等から読み込む。手話翻訳装置は、このようにして文章単位で合成したモーションデータを、CGアバターを用いたアニメーションとして再生する。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2014-021180号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、従来技術により自然言語文を手話に翻訳する場合には、次のような問題がある。即ち、手話ラベルに対応するモーションデータが存在しない場合には、その手話ラベル列に対応する箇所のモーションデータが欠落してしまうという問題がある。モーションデータが存在しない場合には、その部分のCGアニメーションを生成することができない。なお、手話ラベルに対応するモーションデータが存在しないという問題は、単にモーションデータの整備が不足しているというだけの問題ではなく、より本質的な問題である。
【0007】
上記のようにすべての手話ラベルに対応するモーションデータを予め準備できない要因は、大きく2つある。
【0008】
第1の要因は類辞(classifier、クラシファイアー)である。類辞は手話に特有の表現方法である。翻訳結果として出力された手話ラベル列が類辞の手話ラベルを含むときに、その手話ラベルに対応するモーションデータが存在しない場合が非常に多くある。手話における類辞は、文脈に応じて非常に多くのバリエーションがある。具体的には、異なる入力文に基づいて翻訳処理を行えばその文に特有の類辞が翻訳結果の一部として出力される、と言っても過言ではないほどのバリエーションがある。その程度の多さのバリエーションのために、すべての類辞に対応するモーションデータを事前に用意することは事実上不可能である。
【0009】
第2の要因は、上記の類辞ではないが、手話ラベルに対応するモーションデータが存在しない場合である。類辞を除いても、手話ラベルに対応する単語の種類は膨大であり、すべての単語に対応するモーションデータを事前に用意することは困難である。
【0010】
上記2種類のいずれの要因についても、新たにモーションデータを用意することによる解決は現実的ではない。何故なら、新たなモーションデータを用意するためには、実際の人による手話の動作のモーションキャプチャーを実施する必要があるためである。上記の第1の要因についても第2の要因についても、手話ラベルのバリエーションは非常に多く、且つその利用頻度も少ないため、コストをかけてモーションキャプチャーを実施することは現実的ではない。
【0011】
本発明は、上記の課題認識に基づいて行なわれたものであり、手話ラベルに対応するモーションデータが不足している場合にも、翻訳前の自然言語文(日本語文等)全体の意味を適切に表す翻訳結果を出力することのできる翻訳装置およびプログラムを提供しようとするものである。
【課題を解決するための手段】
【0012】
[1]上記の課題を解決するため、本発明の一態様による翻訳装置は、自然言語で記述された自然言語テキストデータを取得し、前記自然言語テキストデータの翻訳処理を行うことによって所定のラベルからなるラベル列を出力する翻訳部と、前記ラベルと、前記ラベルに対応するモーションを表すモーションデータとを、関連付けて記憶するモーションデータベースと、前記翻訳部が出力した前記ラベル列に含まれる各々の前記ラベルについて、対応する前記モーションデータが存在するか否かを、前記モーションデータベースに照会する照会部と、前記照会部が照会した結果として前記モーションデータが存在しない前記ラベルを、他のラベル列に置換する置換部とを備えるものである。
【0013】
[2]また、本発明の一態様は、上記の翻訳装置において、前記置換部は、置換対象である前記ラベルが手話表現における類辞である場合に、類辞である当該ラベルに含まれる自然言語テキストの翻訳処理を行うことによって所定のラベルからなる第2ラベル列で、当該ラベルを置換する再翻訳部、を含むものである。
【0014】
[3]また、本発明の一態様は、上記の翻訳装置において、前記置換部は、置換対象である前記ラベルが手話表現における類辞ではない場合に、ラベル間の類似度に基づいて、当該ラベルを置換可能な他のラベルで、当該ラベルを置換する類似語置換部、を含むものである。
【0015】
[4]また、本発明の一態様は、上記の翻訳装置において、前記置換部は、前記再翻訳部と、前記類似語置換部とを備える。前記置換部は、置換対象である前記ラベルが手話表現における類辞であるか否かを判定し、類辞である場合には前記再翻訳部が前記ラベルを前記第2ラベル列で置換し、類辞でない場合には前記類似語置換部が前記ラベルを前記他のラベルで置換する、というものである。
【0016】
[5]また、本発明の一態様は、上記の翻訳装置において、前記照会部は、前記置換部が前記ラベルを置換した場合には置換後の前記ラベル列の中に、対応する前記モーションデータが存在しないラベルが存在しなくなるまで、モーションデータベースへの照会を繰り返すものであり、さらに、前記ラベル列の中のラベルのすべてについて対応する前記モーションデータが存在するようになったラベル列である置換完了ラベル列を、前記照会部から受け取り、前記置換完了ラベル列の中の各ラベルに対応する前記モーションデータを前記モーションデータベースから読み出して、それらの前記モーションデータを合成することによって前記置換完了ラベル列に対応するモーションデータを生成するモーション生成部、を備えるものである。
【0017】
[6]また、本発明の一態様は、上記の翻訳装置において、前記モーション生成部が生成した前記モーションデータに基づいてアニメーション映像を生成するアニメーション生成部、をさらに備えるものである。
【0018】
[7]また、本発明の一態様は、自然言語で記述された自然言語テキストデータを取得し、前記自然言語テキストデータの翻訳処理を行うことによって所定のラベルからなるラベル列を出力する翻訳部と、前記ラベルと、前記ラベルに対応するモーションを表すモーションデータとを、関連付けて記憶するモーションデータベースと、前記翻訳部が出力した前記ラベル列に含まれる各々の前記ラベルについて、対応する前記モーションデータが存在するか否かを、前記モーションデータベースに照会する照会部と、前記照会部が照会した結果として前記モーションデータが存在しない前記ラベルを、他のラベル列に置換する置換部と、を備える翻訳装置、としてコンピューターを機能させるためのプログラムである。
【発明の効果】
【0019】
本発明によれば、翻訳装置は、翻訳結果に対応して欠落のないモーションデータを出力することが可能となる。
【図面の簡単な説明】
【0020】
図1】本発明の実施形態による翻訳装置の概略機能構成を示すブロック図である。
図2】同実施形態による手話モーションデータベースが持つデータの構成を示す概略図である。
図3】同実施形態による翻訳装置がテキストデータを基にアニメーション映像を生成するための処理手順を示すフローチャートである。
図4】同実施形態による翻訳装置による翻訳処理に係るデータ例であり、翻訳対象となる日本語テキストデータを示す概略図である。
図5】同実施形態による翻訳装置による翻訳処理に係るデータ例であり、翻訳処理を行った結果の、手話ラベル列のデータを示す概略図である。
図6】同実施形態による翻訳装置による翻訳処理に係るデータ例であり、翻訳処理を行いさらにラベルを置換処理した結果のラベル列のデータを示す概略図である。
図7】同実施形態によるアニメーション生成部が作成したアニメーション映像の時間推移を示す概略図である。
図8】同実施形態による翻訳装置等の内部構成(コンピューターの構成)の例を示すブロック図である。
【発明を実施するための形態】
【0021】
次に、本発明の一実施形態について、図面を参照しながら説明する。
【0022】
図1は、本実施形態による翻訳装置の概略機能構成を示すブロック図である。図示するように、翻訳装置1は、手話モーションデータベース21と、日本語-手話翻訳部111と、モーション照会部112と、判定部113と、再翻訳部114と、類似語置換部115と、手話モーション読込部121と、手話モーション合成部122と、キャラクターデータ記憶部31と、アニメーション生成部32とを含んで構成される。なお、判定部113と、再翻訳部114と、類似語置換部115とを併せた機能を、置換部110と呼ぶ。また、日本語-手話翻訳部111と、モーション照会部112と、判定部113と、再翻訳部114と、類似語置換部115とを併せた機能を、手話翻訳機能部11と呼ぶ。また、手話モーション読込部121と、手話モーション合成部122とを合わせた機能を、モーション生成部12と呼ぶ。
【0023】
上に列挙した機能部のそれぞれは、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ(SSD)といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。
【0024】
上記の機能構成を持つ翻訳装置1は、外部の日本語テキストデータ72を取得し、その日本語テキストデータの翻訳処理を行うことによって、コンピューターグラフィックス(CG)による手話アニメーション映像を生成する。日本語テキストデータ72は、例えば、情報記録媒体ないしは記憶媒体に書き込まれているデータである。あるいは、日本語テキストデータ72は、通信回線を通して翻訳装置1に供給されるデータであってもよい。なお、日本語テキストデータ72は、例えば、音声認識装置71から与えられるものであってもよい。音声認識装置71は、例えば、テレビ放送の番組内のスピーチの音声等の認識処理を行い、その認識結果として日本語テキストデータ72を出力する。音声認識装置71自体は、既存の音声認識処理技術を用いて実現可能である。なお、日本語テキストデータ72は、必ずしも音声認識装置71から出力されるものである必要はない。日本語テキストデータ72は、いかなる方法で作成されたものであってもよい。例えば、日本語テキストデータ72は、ユーザーがキーボードやタッチパネル等を用いてキー入力して作成されたものであってもよい。
【0025】
翻訳装置1を構成する各部の機能は、次に説明する通りである。
【0026】
手話モーションデータベース21は、日本語-手話翻訳部111等が出力する翻訳結果に含まれるラベルや、再翻訳部114や類似語置換部115が出力するラベルと、前記ラベルに対応するモーションを表すモーションデータとを、関連付けて記憶する。なお、手話モーションデータベース21は、単に「モーションデータベース」とも呼ばれる。
【0027】
手話モーションデータベース21が記憶するモーションデータは、例えば、実際の人の手指や顔表情などを含んだ実際の動きをモーションキャプチャーして、BVH(Biovision Hierarchy)などの形式で保存したデータである.本実施形態では、単語単位(手話ラベル単位)で、人の手話の動作を収録して、予めラベルと関連付けた形で手話モーションデータベース21に格納しておくようにする。手話モーションデータベース21は、例えば、リレーショナルデータベースのデータベース管理システム(DBMS)を用いて実現される。手話モーションデータベース21は、SQL等の照会用言語による照会を受け付け、結果を照会元に返す。照会元は、例えば「特定のラベルを有するラベルとモーションデータとの組を返せ」という意味の照会を、手話モーションデータベース21に行うことができる。そのラベルとモーションデータとの組が格納されている場合には、手話モーションデータベース21は、その組を照会元に返す。そのラベルとモーションデータとの組が格納されていない場合には、手話モーションデータベース21は、例えば「NIL」(空集合)を返す。
【0028】
日本語-手話翻訳部111は、自然言語で記述された自然言語テキストデータを取得し、前記自然言語テキストデータの翻訳処理を行うことによって所定のラベルからなるラベル列を出力する。ここで、自然言語テキストデータは、例えば、日本語のテキストデータである。また、日本語-手話翻訳部111が出力するラベル列は、例えば、日本手話の手話ラベル列である。なお、日本語-手話翻訳部111は、単に「翻訳部」とも呼ばれる。日本語-手話翻訳部111の機能自体は、既存技術(例えば、前記の特許文献1)を用いて実現可能なものである。
【0029】
日本語-手話翻訳部111は、翻訳処理を行う際に、必要ならば形態素解析処理を行って日本語テキストデータを形態素列に変換するなどの処理を行う。日本語-手話翻訳部111は、形態素列と出力ラベル列との統計的関係を表す統計モデルを、予め持っておく。統計モデルは、例えばニューラルネットワーク等を用いて、機械学習処理によって構築してもよい。このような機械学習処理は既存の技術である。ただし、日本語-手話翻訳部111が上記の統計モデルを構築する方法は、機械学習を用いる方法に限らず、任意である。
【0030】
日本語-手話翻訳部111が出力する手話ラベル列のデータの形式は、任意である。例えば、手話ラベル列は、ラベルの種類ごとにユニークに与えられた番号の列であってもよい。また、例えば、手話ラベル列は、後で図5を参照しながら説明するような、コンマで区切られた文字列で表わされてもよい。
【0031】
モーション照会部112は、日本語-手話翻訳部111等が出力する翻訳結果に含まれるラベルや、再翻訳部114や類似語置換部115が出力するラベルについて、そのラベルに対応するモーションデータが存在するか否かを、手話モーションデータベース21に照会する。なお、モーション照会部112は、単に「照会部」とも呼ばれる。
【0032】
モーション照会部112は、モーションデータに対応付かないラベルがある場合には、置換部110にそのラベルを置換させる。ラベルを置換する具体的な方法については、後述する。なお、モーション照会部112は、置換部110がラベルを置換した場合には、置換後のラベル列の中に、対応するモーションデータが存在しないラベルが存在しなくなるまで、モーションデータベースへの照会を繰り返すことができる。つまり、モーション照会部112は、モーションデータが存在しないラベルが残っている限りは、そのラベルを置換部110に置換させる処理を繰り返すことができる。翻訳結果であるラベル列に含まれるすべてのラベルがモーションデータに紐づいている状態になった場合には、モーション照会部112は、そのラベル列を手話モーション読込部121に渡す。
【0033】
判定部113は、置換対象であるラベルが手話表現における類辞であるか否かを判定する。なお、ラベルが類辞ではない場合には、そのラベルは置換対象の単語である。例えば、日本語-手話翻訳部111が出力するラベル列において、類辞には分類記号を付けるようにすることができる。分類記号としては、一例として[](角括弧)を用いることができる。なお、他の分類記号を用いてもよい。判定部113は、例えば、このように特定の分類記号が付いているかどうかを検査することにより、あるラベルが類辞であるか否かを判定できる。なお判定部113が、他の方法を用いてラベルが類辞であるか否かを判定するようにしてもよい。
【0034】
判定部113は、あるラベルが類辞であると判定した場合には、そのラベルを置換するために再翻訳部114に渡す。判定部113は、あるラベルが類辞ではない(単語である)と判定した場合には、そのラベルを置換するために類似語置換部115に渡す。
【0035】
再翻訳部114は、翻訳結果であるラベル列に含まれ置換対象であるラベルが手話表現における類辞である場合に、類辞である当該ラベルに含まれる自然言語テキスト(本実施形態では、日本語テキスト)の翻訳処理を行うことによって所定のラベルからなる第2ラベル列で、当該ラベルを置換する。なお、類辞であるラベルが前述の分類記号([]等)を含んでいる場合には、再翻訳部114は、その分類記号を除去してから日本語テキストの翻訳処理を行う。なお、上記の「第2ラベル列」とは、再翻訳部114による翻訳処理の結果として出力されたラベル列である。
【0036】
なお、再翻訳部114の機能自体は、前述の日本語-手話翻訳部111と同様の技術を用いて実現可能である。
【0037】
類似語置換部115は、翻訳結果であるラベル列に含まれ置換対象である前記ラベルが手話表現における類辞ではない場合に、ラベル間の類似度に基づいて、当該ラベルを置換可能な他のラベルで、当該ラベルを置換するものである。類似語置換部115は、単語間(ラベル間)の類似度のデータを予め持っておく。類似語置換部115は、例えば、置換対象のラベルとの間の類似度が最も高いラベルで、置換対象のラベルを置換する。
【0038】
なお、類似語置換部115が、手話モーションデータベース21を参照するようにしてもよい。この場合、類似語置換部115は、置換対象のラベルとの間の類似度に基づいて、手話モーションデータベース21においてモーションデータと関連付けられているラベルの中で最も類似度の高いラベルで、置換対象のラベルを置換することができる。
【0039】
類似語置換部115は、例えば、既存技術を用いて機械学習処理などにより単語間の類似度のモデルを構築することができる。一例として、Word2vecのモデルは、大規模なテキストのコーパスに基づいた機械学習により、単語の特徴を表す数百次元程度のベクトル空間を生成することができる。この空間内での距離が、単語間の類似度を表す。また、類似語置換部115が、公開されている学習済みのモデルを利用してもよい。
参考文献:Word2vec(Wikipedia),URL:https://en.wikipedia.org/wiki/Word2vec
ただし、類似語置換部115が、他の方法でラベル間の類似度を算出するようにしてもよい。
【0040】
手話モーション読込部121は、モーション照会部112から手話ラベル列を受け取り、その手話ラベル列に含まれる各ラベルについて手話モーションデータベース21への照会を行う。これにより、手話モーション読込部121は、手話ラベル列に含まれるすべてのラベルについてのモーションデータを取得する。手話モーション読込部121は、取得したこれらのモーションデータを手話モーション合成部122に渡す。
【0041】
手話モーション合成部122は、モーションデータを合成する。つまり、手話モーション合成部122は、手話モーション読込部121が取得したモーションデータを、翻訳結果の手話ラベル列にしたがって時系列に並べ、またラベル間のモーションを接続する。あるラベルのモーションデータと次のラベルのモーションデータとを接続する処理は「わたり」と呼ばれる。手話モーション合成部122は、この接続処理に、一例として線形補間の方法を用いることができる。ただし、手話モーション合成部122が他の方法を用いて接続処理を行ってもよい。
【0042】
キャラクターデータ記憶部31は、コンピューターグラフィクスで表現する人のキャラクター(アバター)の特徴のデータを記憶する。キャラクターデータ記憶部31が記憶するデータは、例えば、キャラクターの体型や、髪形や、髪色や、衣服のデザイン等の情報を含むものであってよい。
【0043】
アニメーション生成部32は、モーション生成部12の手話モーション合成部122が生成したモーションデータに基づいて、アニメーション映像を生成する。具体的には、アニメーション生成部32は、キャラクターデータ記憶部31から上記のキャラクターのデータを読み込むとともに、手話モーション合成部122から渡されるモーションデータを用いて、アニメーション映像の各フレームの画像をレンダリングする。コンピューターグラフィクスのレンダリング処理自体は、既存の技術を利用して実現可能である。
【0044】
置換部110と、手話翻訳機能部11と、モーション生成部12とのそれぞれは、上で説明した機能部の複数をまとめた機能である。これらの各部を次に説明する。
【0045】
置換部110は、翻訳結果であるラベル列の少なくとも一部を置換する。具体的には、置換部110は、モーション照会部112が照会した結果としてモーションデータが存在しなかったラベルを、他のラベル列に置換する。ただし、ここでの「他のラベル列」は、長さが1のラベル列(1個のラベル)であってもよい。本実施形態での置換部110は、具体的には、前記の判定部113と再翻訳部114と類似語置換部115とを含むように構成される。このような構成により、置換部110の判定部113は、置換対象であるラベルが手話表現における類辞であるか否かを判定する。ラベルが類辞である場合には、置換部110は、前記ラベルを再翻訳部114に置換させる。ラベルが類辞でない場合には、置換部110は、前記ラベルを類似語置換部115に置換させる。
【0046】
手話翻訳機能部11は、日本語テキストデータを読み込み、翻訳処理を行って、その日本語テキストデータに対応する手話ラベル列を出力する。なお、手話翻訳機能部11が出力する手話ラベル列に含まれる各ラベルは、手話モーションデータベース21においてモーションデータに関連付けられている。手話翻訳機能部11は、翻訳結果におけるモーションデータの欠落をなくすために、上記の置換部110によるラベルの置換を行う。置換部110による置換を行った結果の手話ラベル列を「置換完了ラベル列」と呼ぶ。
【0047】
モーション生成部12は、置換完了ラベル列を手話翻訳機能部11のモーション照会部112から受け取り、その置換完了ラベル列の中の各ラベルに対応するモーションデータを手話モーションデータベース21から読み出して、それらのモーションデータを合成することによって、前記置換完了ラベル列に対応するモーションデータを生成する。置換完了ラベル列とは、ラベル列内のラベルのすべてについて対応するモーションデータが存在するようになったラベル列である。
【0048】
図2は、手話モーションデータベース21が持つデータの構成を示す概略図である。図示するように、手話モーションデータベース21は、表形式のデータを記憶する。この表は、ラベルと、モーションの、データ項目を含む。ラベルは、手話表現における1つの単語等に対応するものである。モーションは、人の動作を記述したデータである。モーションは、人の上半身や、腕や、手や、指や、顔表情などの動きの情報を含むデータである。このオーションのデータは、例えば、BVH(Biovision Hierarchy)などといった形式を持つデータである。図示するデータにおいて、ラベルとモーションとは1対1に対応付けられている。ラベルを鍵として手話モーションデータベース21に対する照会が行われた場合に、手話モーションデータベース21は、そのラベルとモーションとの対の有無を回答する。また、そのラベルとモーションとの対が存在する場合には、手話モーションデータベース21は、そのモーションのデータを回答する。
【0049】
図示する例では、手話モーションデータベース21は、N、pt3、雨が降る、ある、一部、風2、心配2、地域、突然、夢2、様子などといったラベルと、それぞれのラベルに対応するモーションのデータとを記憶している。ここに例示したラベルのうち、Nは、うなずきの動作を表すラベルである。また、pt3は、指差しの動作を表すラベルである。その他のラベル(「雨が降る」等)は、単語に対応するラベルである。
【0050】
図3は、翻訳装置1の処理手順を示すフローチャートである。以下、このフローチャートに沿って手順を説明する。
【0051】
ステップS11において、日本語-手話翻訳部111は、日本語テキストデータ72を読み込む。
【0052】
ステップS12において、日本語-手話翻訳部111は、ステップS11で読み込んだ日本語テキストデータを手話に翻訳する。その結果として、日本語-手話翻訳部111は、手話ラベル列を出力する。
【0053】
ステップS13において、モーション照会部112は、翻訳結果である手話ラベル列を基に、そのラベル列に含まれるラベルについてのモーションの照会を行う。具体的には、モーション照会部112は、各々のラベルが、モーションデータを持つか否かを手話モーションデータベース21に照会する。手話モーションデータベース21は、モーション照会部112からの照会に応じて、テーブルを検索し、対象のラベルに関連付けられたモーションデータが存在するか否かを応答する。また、対象のラベルに関連付けられたモーションデータが存在する場合には、手話モーションデータベース21は、そのモーションデータをモーション照会部112返す。
【0054】
ステップS14において、モーション照会部112は、翻訳結果の手話ラベル列に含まれるすべてのラベルについてモーションデータが存在するか否かを判定する。すべてのラベルについてモーションデータが存在する場合(ステップS14:YES)には、ステップS18に進む。少なくとも一部のラベルについてモーションデータが存在しない場合(ステップS14:NO)には、ステップS15に進む。
【0055】
ステップS15に進んだ場合、判定部113は、モーションデータに関連付けられていないラベルについての判定を行う。具体的には、判定部113は、そのラベルが類辞であるか単語であるかを、例えばラベルが特定の分類記号を持っているか否かによって判定する。
【0056】
そのラベルが類辞である場合、つまり、そのラベルが類辞であることを示す特定の分類記号を持つ場合(ステップS15:類辞)には、判定部113は、そのラベル(類辞)を、再翻訳部114に渡す。そして、ステップS16の処理に進む。一方、そのラベルが単語である場合、つまり、そのラベルが類辞であることを示す特定の分類記号を持たない場合(ステップS15:単語)には、判定部113は、そのラベル(単語)を、類似語置換部115に渡す。そして、ステップS17の処理に進む。
【0057】
ステップS16に進んだ場合、再翻訳部114は、判定部113から渡された類辞についての再翻訳処理を行う。具体的には、再翻訳部114は、その類辞が含む日本語テキストを、手話のラベル列に翻訳する処理を行う。本ステップにおいて再翻訳部114が実行する処理は、基本的に、日本語-手話翻訳部111が行う翻訳処理と同様のものである。再翻訳部114は、再翻訳の結果である手話ラベル列を出力する。つまり、再翻訳部114は、再翻訳の結果である手話ラベル列を、置換用のデータとしてモーション照会部112に渡す。モーション照会部112は、置換対象であった類辞の代わりにその再翻訳の結果である手話ラベル列を、元の手話ラベル列内に埋め込む。本ステップの処理が終了した後は、ステップS13に戻る。ステップS13に戻ってから、モーション照会部112は、置換したデータ(再翻訳の結果である手話ラベル列)に含まれるラベルがモーションデータと関連付けられているものであるか否かを、再度、手話モーションデータベース21に照会する。
【0058】
ステップS17に進んだ場合、類似語置換部115は、判定部113から渡された単語を他の単語(類似単語)で置換する処理を行う。このとき、類似語置換部115は、例えば予め準備しておいた単語間の類似度のデータを参照する。本ステップの処理が終了した後は、ステップS13に戻る。ステップS13に戻ってから、モーション照会部112は、置換したデータ(置換された単語(または単語列)に該当する手話ラベル列)に含まれるラベルがモーションデータと関連付けられているものであるか否かを、再度、手話モーションデータベース21に照会する。
【0059】
一方、ステップS18に進んだ場合、つまり、翻訳結果であるラベル列(置換部110によって置換されたラベルを含むものであってもよい)の中のすべてのラベルがモーションデータに関連付けられている場合、手話モーション読込部121が、手話モーションデータベース21から、モーションデータを読み込む。つまり、手話モーション読込部121は、翻訳結果であるラベル列内の各ラベルに対応する形で、モーションデータを獲得する。
【0060】
ステップS19において、手話モーション合成部122は、手話モーション読込部121が取得した各ラベルに対応するモーションデータを合成する。これにより、手話モーション合成部122は、翻訳結果であるラベル列に対応する、一連の合成されたモーションデータを出力する。手話モーション合成部122が出力するモーションデータも、例えば、前述のBVH形式のデータであってよい。
【0061】
ステップS20において、アニメーション生成部32は、キャラクターデータ記憶部31から読み出したキャラクター(アバター)のデータと、手話モーション合成部122が出力したモーションデータとを用いて、コンピューターグラフィクスのレンダリング処理を行う。つまり、キャラクターデータ記憶部31は、映像のフレーム画像をレンダリングする。そして、キャラクターデータ記憶部31は、それらのフレーム画像の系列をアニメーション映像として出力する。アニメーション生成部32は、生成した映像を再生して画面等に表示させてもよい。また、アニメーション生成部32は、生成した映像のデータを外部に出力してもよい。アニメーション生成部32が生成した映像を、放送映像の一部として送出してもよい。
【0062】
図4図5図6のそれぞれは、翻訳装置1による翻訳処理に係る実際のデータの例を示す概略図である。図4は、翻訳対象となる日本語テキストデータを示す。図5は、日本語-手話翻訳部が翻訳処理を行った結果の、手話ラベル列のデータを示す。この図5のデータには、モーションデータを持たないラベルが含まれている。図6は、翻訳結果のラベル列のうちのモーションデータを持たないラベルを、モーションデータを持つ他のラベル(またはラベル列)で置換した結果のデータを示す。
【0063】
図4に示す通り、翻訳装置1に入力される翻訳対象の文の例は、日本語テキストデータであり、「局地的に激しい雨が降り、突風の吹くおそれがあります。」というものである。
【0064】
図5は、日本語-手話翻訳部111が、図4の日本語テキストデータを処理した結果のデータであり、手話ラベル列である。この手話ラベル列は、「地域, pt3, N, [部分的に雨が降る様子], 夢2, N, 突然, 風2, 心配2, ある, N」というデータである。このデータ内のコンマは、ラベルの区切りである。日本語-手話翻訳部111からの出力である上記データに基づいて、モーション照会部112は、これらのラベルのそれぞれがモーションデータに対応付けられているか否かを、手話モーションデータベース21に照会する。本例では、「地域」、「pt3」、「N」(Nは複数回出現)、「夢2」、「突然」、「風2」、「心配2」、「ある」のそれぞれのラベルに関しては、手話モーションデータベース21がモーションデータを記憶している。しかしながら、「[部分的に雨が降る様子]」というラベルに関しては、手話モーションデータベース21はモーションデータを持たない。そこで、モーション照会部112は、この「[部分的に雨が降る様子]」というラベルを、置換するために置換部110に渡す。
【0065】
置換部110内の判定部113は、モーション照会部112から渡された「[部分的に雨が降る様子]」というラベルが、類辞であるか、単語であるかを判定する。一例として、判定部113は、[]という分類記号の有無に基づいて、当該ラベルが類辞であるか単語であるかを判定する。ここでは、ラベルが[]という分類記号を持つ場合にはそのラベルは類辞である。ラベルが[]という分類記号を持たない場合にはそのラベルは単語である。「[部分的に雨が降る様子]」は[]という分類記号を持つため、判定部113は、このラベルが類辞であると判定する。判定結果に基づき、判定部113は、このラベルを、再翻訳部114に渡す。再翻訳部114は、「[部分的に雨が降る様子]」という類辞の中に含まれる「部分的に雨が降る様子」という日本語テキストデータを翻訳する。再翻訳部114は、前述の通り、日本語-手話翻訳部111と同様の、日本語から手話への翻訳機能を持ち、この日本語テキストデータの翻訳処理を行う。その結果、再翻訳部114は、翻訳結果として、「一部, 雨が降る, 様子」という手話ラベル列を出力する。
【0066】
図6は、モーション照会部112が、上記の再翻訳の結果である「一部, 雨が降る, 様子」という手話ラベル列で、元の類辞を置換した結果のデータである。即ち、置換後の手話ラベル列は、「地域, pt3, N, 一部, 雨が降る, 様子, 夢2, N, 突然, 風2, 心配2, ある, N」である。つまり、図5に示すデータにおける類辞「[部分的に雨が降る様子]」を、ラベル列「一部, 雨が降る, 様子」で置換したデータが、図6に示すものである。
【0067】
図6に示したラベル列に含まれるラベルは、いずれも、手話モーションデータベース21が記憶する情報においてモーションデータに関連付けられているものである。そのことをモーション照会部112が判定すると、翻訳結果の手話ラベル列は、手話翻訳機能部11からモーション生成部12に渡される。即ち、翻訳結果の手話ラベル列は、モーション照会部112から手話モーション読込部121に渡される。モーション生成部12は、その手話ラベル列に基づいて文全体のモーションデータを生成する。アニメーション生成部32は、その文全体のモーションデータに基づいてCGによる手話アニメーション映像を生成する。
【0068】
なお、ここで説明した図4図5図6のデータは、当初の翻訳結果に含まれていた類辞を置換した処理の例を示している。当初の翻訳結果に、モーションデータに紐づかない単語が含まれていた場合には、判定部113の判定により、そのラベルは類似語置換部115に渡される。そして、類似語置換部115は、そのラベルを、他のラベルに置き換える。一例として、上記のラベル列内のラベル「夢2」のモーションデータが手話モーションデータベース21に存在しなかった場合、判定部113は、このラベル「夢2」を、類辞ではなく単語であると判定する(類辞であることを示す分類記号である[]を持たないため)。判定部113は、ラベル「夢2」を、類似語置換部115に渡す。類似語置換部115は、予め準備しておいた単語間の類似度のデータに基づいて、このラベル「夢2」を、最も類似する単語(例えば「願望」)に置き換える。ラベル「願望」に対応するモーションデータが手話モーションデータベース21内に存在する時には、このラベル「願望」が、モーションデータの生成の際に使用される。
【0069】
図7は、手話翻訳機能部11が出力した手話ラベル列に基づいてアニメーション生成部32が作成したアニメーション映像の時間推移を示す概略図である。同図における(1)から(7)までのフレームは、それぞれ、「地域」、「pt3」、「N」、「一部」、「雨が降る」、「様子」、「夢2」のラベルに対応する。ここでは、「夢2」より後のラベルと、その映像とを省略して示している。既に述べたように、手話モーション読込部121は、各ラベルに対応するモーションデータを手話モーションデータベース21から読み出す。そして、手話モーション合成部122は、ラベル列の順序にしたがって、それらのモーションデータを時系列に合成する。一方、人のキャラクター(アバター)の外観等に関するデータは、キャラクターデータ記憶部31に記憶されている。アニメーション生成部32は、キャラクターデータ記憶部31から読み出したキャラクターのデータを用いて、そのキャラクターがモーションデータにしたがったモーションを行うようにフレーム画像のレンダリングを行う。このフレーム画像の系列を、アニメーション生成部32は、図7に示すようなアニメーション映像として出力する。
【0070】
図8は、上述した実施形態において翻訳装置や音声認識装置等の各装置の内部構成の例を示すブロック図である。各装置は、コンピューターを用いて実現され得る。図示するように、そのコンピューターは、中央処理装置901と、RAM902と、入出力ポート903と、入出力デバイス904や905等と、バス906と、を含んで構成される。コンピューター自体は、既存技術を用いて実現可能である。中央処理装置901は、RAM902等から読み込んだプログラムに含まれる命令を実行する。中央処理装置901は、各命令にしたがって、RAM902にデータを書き込んだり、RAM902からデータを読み出したり、算術演算や論理演算を行ったりする。RAM902は、データやプログラムを記憶する。RAM902に含まれる各要素は、アドレスを持ち、アドレスを用いてアクセスされ得るものである。なお、RAMは、「ランダムアクセスメモリー」の略である。入出力ポート903は、中央処理装置901が外部の入出力デバイス等とデータのやり取りを行うためのポートである。入出力デバイス904や905は、入出力デバイスである。入出力デバイス904や905は、入出力ポート903を介して中央処理装置901との間でデータをやりとりする。バス906は、コンピューター内部で使用される共通の通信路である。例えば、中央処理装置901は、バス906を介してRAM902のデータを読んだり書いたりする。また、例えば、中央処理装置901は、バス906を介して入出力ポートにアクセスする。
【0071】
なお、上述した実施形態における翻訳装置や音声認識装置等の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM、DVD-ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0072】
従来技術を用いる場合には、翻訳結果として出力される手話ラベル列の中にモーションデータを持たないラベルがある場合には、その部分の映像が欠落した手話映像しか生成することができなかった。一方、本実施形態によれば、モーションデータを持たないラベルを、置換部110が置換する。これにより、モーションデータを持つラベルのみからなる手話ラベル列を出力することができる。例えば、翻訳結果が類辞に対応するラベルを含む場合に、再翻訳部114が再翻訳の処理を行うことにより、その類辞を、他のラベルの列で置換することができる。また例えば、翻訳結果がモーションデータを持たない単語のラベルを含む場合に、類似語置換部115がその単語を他の単語(または単語列)で置換することができる。これらにより、本実施形態では、欠落のない映像を生成することができる。
【0073】
なお、NHKの手話ニュースコーパス(約17万5千文)によると、それらのすべての文のうち、類辞が存在する文の割合は15.6%である。さらに、類辞以外にも、モーションデータを持たない単語に対応するラベルが、翻訳結果の一部として出力され得る。本実施形態を用いると、それらの翻訳結果を改善することができる。
【0074】
以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。なお、複数の変形例を、組み合わせることが可能な限りにおいて、組み合わせて実施してもよい。
【0075】
[第1変形例]上記実施形態では日本語のテキストデータを処理対象としたが、使用する言語の種類は日本語に限らずなんでもよい。例えば、英語、ドイツ語、フランス語、イタリア語、ロシア語、スペイン語、中国語、韓国語等、任意の言語を使用することができる。また翻訳先の手話も日本手話に限らず、他の手話であってもよい。
【0076】
[第2変形例]上記実施形態では、自然言語によるテキストデータに基づいて手話の映像を生成したが、生成する映像を手話の映像に限定する必要はない。自然言語によるテキストデータをラベル列に翻訳し、そのラベル列に含まれるラベルごとのモーションデータを用いて任意のアニメーション映像を生成するようにしてよい。
【0077】
[第3変形例]上記実施形態による翻訳装置1は、手話翻訳機能部11と、モーション生成部12と、アニメーション生成部32とのすべてを備えるものであった。変形例として、翻訳装置は、手話翻訳機能部11とモーション生成部12のみを備え、アニメーション生成部32を持たないようにしてもよい。そのような翻訳装置は、入力される自然言語テキストデータに対応して、モーションデータの欠落がないラベル列のデータを出力することができる。さらに変形例として、翻訳装置は、手話翻訳機能部11のみを備え、モーション生成部12やアニメーション生成部32を持たないようにしてもよい。そのような翻訳装置は、入力される自然言語テキストデータに対応して、ラベル列のデータを出力することができ、そのラベル列に含まれるすべてのラベルがモーションデータに関連付けられているようにすることができる。
【0078】
[第4変形例]上記実施形態による翻訳装置1は、再翻訳部114と類似語置換部115との両方を備えていた。変形例として、翻訳装置が、再翻訳部114を備え、類似語置換部115を持たない構成としてもよい。このような翻訳装置は、類辞にあたるラベルを他のラベルで置換することにより、モーションデータに関連付けられているラベルのみから成るラベル列を生成することができる。また、さらなる変形例として、翻訳装置が、類似語置換部115を備え、再翻訳部114を持たない構成としてもよい。このような翻訳装置は、単語のラベルを他の単語(類似単語)のラベルで置換することにより、モーションデータに関連付けられているラベルのみから成るラベル列を生成することができる。
【0079】
以上、この発明の実施形態および変形例について、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【産業上の利用可能性】
【0080】
本発明は、例えば、文章を基に動きのある映像を生成するあらゆる産業に利用可能である。本発明は、特に、自然言語文を基に手話の映像を自動的に生成する技術として利用可能である。そのような産業は、コンテンツ制作に係る事業を含む。但し、本発明の利用範囲はここに例示したものには限られない。
【符号の説明】
【0081】
1 翻訳装置
11 手話翻訳機能部
12 モーション生成部
21 手話モーションデータベース(モーションデータベース)
31 キャラクターデータ記憶部
32 アニメーション生成部
71 音声認識装置
72 日本語テキストデータ
110 置換部
111 日本語-手話翻訳部(翻訳部)
112 モーション照会部(照会部)
113 判定部
114 再翻訳部
115 類似語置換部
121 手話モーション読込部
122 手話モーション合成部
図1
図2
図3
図4
図5
図6
図7
図8