特許7531317 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 日本放送協会の特許一覧

特許7531317翻訳装置およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-08-01

(45)【発行日】2024-08-09

(54)【発明の名称】翻訳装置およびプログラム

(51)【国際特許分類】

G06F 40/284 20200101AFI20240802BHJP

G06T 13/40 20110101ALI20240802BHJP

G09B 21/00 20060101ALI20240802BHJP

【ＦＩ】

G06F40/284

G06T13/40

G09B21/00 F

【請求項の数】 6

(21)【出願番号】P 2020101095

(22)【出願日】2020-06-10

(65)【公開番号】P2021196708

(43)【公開日】2021-12-27

【審査請求日】2023-05-15

(73)【特許権者】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】100141139

【弁理士】

【氏名又は名称】及川周

(74)【代理人】

【識別番号】100171446

【弁理士】

【氏名又は名称】高田尚幸

(74)【代理人】

【識別番号】100114937

【弁理士】

【氏名又は名称】松本裕幸

(74)【代理人】

【識別番号】100171930

【弁理士】

【氏名又は名称】木下郁一郎

(72)【発明者】

【氏名】内田翼

【審査官】成瀬博之

(56)【参考文献】

【文献】特開２０１３－１８６６７３（ＪＰ，Ａ）

【文献】特開２０１４－１０９９８８（ＪＰ，Ａ）

【文献】米国特許第０８５６６０７５（ＵＳ，Ｂ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ４０／２０－４０／５８

Ｇ０６Ｔ１３／４０

Ｇ０９Ｂ２１／００－２１／０６

Ｇ０６Ｆ１６／００－１６／９５８

Ｇ０６Ｆ３／０４８－３／０４８９

(57)【特許請求の範囲】

【請求項1】

自然言語で記述された自然言語テキストデータを取得し、前記自然言語テキストデータの翻訳処理を行うことによって手話ラベルからなる翻訳結果の手話ラベル列を出力する翻訳部と、
前記手話ラベルと、前記手話ラベルに対応するモーションを表すモーションデータとを、関連付けて記憶するモーションデータベースと、
前記翻訳部が出力した前記手話ラベル列に含まれる各々の前記手話ラベルについて、対応する前記モーションデータが存在するか否かを、前記モーションデータベースに照会する照会部と、
前記照会部が照会した結果として前記モーションデータが存在しない前記手話ラベルを、他の手話ラベル列に置換する置換部と、
を備え、
前記照会部は、前記置換部が前記手話ラベルを置換した場合には置換後の前記手話ラベル列の中に、対応する前記モーションデータが存在しない手話ラベルが存在しなくなるまで、モーションデータベースへの照会を繰り返すものであり、
前記置換部は、
置換対象である前記手話ラベルが手話表現における類辞である場合に、類辞である当該手話ラベルに含まれる自然言語テキストの翻訳処理を行うことによって手話ラベルからなる第２手話ラベル列で、当該手話ラベルを置換する再翻訳部、
を含む、
翻訳装置。

【請求項2】

【請求項3】

【請求項4】

前記手話ラベル列の中の手話ラベルのすべてについて対応する前記モーションデータが存在するようになった手話ラベル列である置換完了手話ラベル列を、前記照会部から受け取り、前記置換完了手話ラベル列の中の各手話ラベルに対応する前記モーションデータを前記モーションデータベースから読み出して、それらの前記モーションデータを合成することによって前記置換完了手話ラベル列に対応するモーションデータを生成するモーション生成部、
を備える請求項１から３までのいずれか一項に記載の翻訳装置。

【請求項5】

前記モーション生成部が生成した前記モーションデータに基づいてアニメーション映像を生成するアニメーション生成部、
をさらに備える請求項４に記載の翻訳装置。

【請求項6】

請求項１から５までのいずれか一項に記載の翻訳装置、としてコンピューターを機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、翻訳装置およびプログラムに関する。

【背景技術】

【0002】

コンピュータグラフィックス（ＣＧ）アニメーションを利用した自然言語文（例えば日本語文）から手話への翻訳技術は、様々な分野において広く使用される可能性を持つ技術である。従来技術において一般的なＣＧアニメーション向けの手話翻訳では、入力情報となる自然言語文（テキストデータ）と、対応する手話ラベルの組み合わせで用例コーパスを構築している。そして、その用例コーパスを利用して生成した統計モデルやニューラルネットワークによって、日本語文等のテキストデータから手話ラベルへの翻訳を実現している。その翻訳結果である手話ラベルを基に、各ラベルに対応するモーションデータを読み込み、ＣＧアバターで再生することでアニメーションを生成する方法がとられる。上記のモーションデータは基本的に単語単位（手話ラベル単位）で取り扱われる。複数の単語のモーションデータを接続することで手話アニメーションの文章を生成するようにしている。

【0003】

例えば、特許文献１には、入力されるテキストの翻訳処理を行うことによって手話を出力する手話翻訳装置が記載されている。その翻訳処理の手段は、漢字手話のみを学習データとした統計的翻訳や、ルールベース翻訳や、文字単位の学習データを用いた統計的翻訳や、単語単位の学習データを用いた統計的翻訳といった手法を含む。また、手話翻訳装置が持つ翻訳結果統合手段は、複数の翻訳結果をスコアによって評価することにより統合している。

【0004】

自然言語文テキストが手話ラベル列に翻訳された後には、手話翻訳装置は、各手話ラベル列に対応する手話単語モーションデータを予め準備したデータベース等から読み込む。手話翻訳装置は、このようにして文章単位で合成したモーションデータを、ＣＧアバターを用いたアニメーションとして再生する。

【先行技術文献】

【特許文献】

【0005】

【文献】特開２０１４－０２１１８０号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、従来技術により自然言語文を手話に翻訳する場合には、次のような問題がある。即ち、手話ラベルに対応するモーションデータが存在しない場合には、その手話ラベル列に対応する箇所のモーションデータが欠落してしまうという問題がある。モーションデータが存在しない場合には、その部分のＣＧアニメーションを生成することができない。なお、手話ラベルに対応するモーションデータが存在しないという問題は、単にモーションデータの整備が不足しているというだけの問題ではなく、より本質的な問題である。

【0007】

上記のようにすべての手話ラベルに対応するモーションデータを予め準備できない要因は、大きく２つある。

【0008】

第１の要因は類辞（classifier、クラシファイアー）である。類辞は手話に特有の表現方法である。翻訳結果として出力された手話ラベル列が類辞の手話ラベルを含むときに、その手話ラベルに対応するモーションデータが存在しない場合が非常に多くある。手話における類辞は、文脈に応じて非常に多くのバリエーションがある。具体的には、異なる入力文に基づいて翻訳処理を行えばその文に特有の類辞が翻訳結果の一部として出力される、と言っても過言ではないほどのバリエーションがある。その程度の多さのバリエーションのために、すべての類辞に対応するモーションデータを事前に用意することは事実上不可能である。

【0009】

第２の要因は、上記の類辞ではないが、手話ラベルに対応するモーションデータが存在しない場合である。類辞を除いても、手話ラベルに対応する単語の種類は膨大であり、すべての単語に対応するモーションデータを事前に用意することは困難である。

【0010】

上記２種類のいずれの要因についても、新たにモーションデータを用意することによる解決は現実的ではない。何故なら、新たなモーションデータを用意するためには、実際の人による手話の動作のモーションキャプチャーを実施する必要があるためである。上記の第１の要因についても第２の要因についても、手話ラベルのバリエーションは非常に多く、且つその利用頻度も少ないため、コストをかけてモーションキャプチャーを実施することは現実的ではない。

【0011】

本発明は、上記の課題認識に基づいて行なわれたものであり、手話ラベルに対応するモーションデータが不足している場合にも、翻訳前の自然言語文（日本語文等）全体の意味を適切に表す翻訳結果を出力することのできる翻訳装置およびプログラムを提供しようとするものである。

【課題を解決するための手段】

【0012】

［１］上記の課題を解決するため、本発明の一態様による翻訳装置は、自然言語で記述された自然言語テキストデータを取得し、前記自然言語テキストデータの翻訳処理を行うことによって所定のラベルからなるラベル列を出力する翻訳部と、前記ラベルと、前記ラベルに対応するモーションを表すモーションデータとを、関連付けて記憶するモーションデータベースと、前記翻訳部が出力した前記ラベル列に含まれる各々の前記ラベルについて、対応する前記モーションデータが存在するか否かを、前記モーションデータベースに照会する照会部と、前記照会部が照会した結果として前記モーションデータが存在しない前記ラベルを、他のラベル列に置換する置換部とを備えるものである。

【0013】

［２］また、本発明の一態様は、上記の翻訳装置において、前記置換部は、置換対象である前記ラベルが手話表現における類辞である場合に、類辞である当該ラベルに含まれる自然言語テキストの翻訳処理を行うことによって所定のラベルからなる第２ラベル列で、当該ラベルを置換する再翻訳部、を含むものである。

【0014】

［３］また、本発明の一態様は、上記の翻訳装置において、前記置換部は、置換対象である前記ラベルが手話表現における類辞ではない場合に、ラベル間の類似度に基づいて、当該ラベルを置換可能な他のラベルで、当該ラベルを置換する類似語置換部、を含むものである。

【0015】

［４］また、本発明の一態様は、上記の翻訳装置において、前記置換部は、前記再翻訳部と、前記類似語置換部とを備える。前記置換部は、置換対象である前記ラベルが手話表現における類辞であるか否かを判定し、類辞である場合には前記再翻訳部が前記ラベルを前記第２ラベル列で置換し、類辞でない場合には前記類似語置換部が前記ラベルを前記他のラベルで置換する、というものである。

【0016】

［５］また、本発明の一態様は、上記の翻訳装置において、前記照会部は、前記置換部が前記ラベルを置換した場合には置換後の前記ラベル列の中に、対応する前記モーションデータが存在しないラベルが存在しなくなるまで、モーションデータベースへの照会を繰り返すものであり、さらに、前記ラベル列の中のラベルのすべてについて対応する前記モーションデータが存在するようになったラベル列である置換完了ラベル列を、前記照会部から受け取り、前記置換完了ラベル列の中の各ラベルに対応する前記モーションデータを前記モーションデータベースから読み出して、それらの前記モーションデータを合成することによって前記置換完了ラベル列に対応するモーションデータを生成するモーション生成部、を備えるものである。

【0017】

［６］また、本発明の一態様は、上記の翻訳装置において、前記モーション生成部が生成した前記モーションデータに基づいてアニメーション映像を生成するアニメーション生成部、をさらに備えるものである。

【0018】

［７］また、本発明の一態様は、自然言語で記述された自然言語テキストデータを取得し、前記自然言語テキストデータの翻訳処理を行うことによって所定のラベルからなるラベル列を出力する翻訳部と、前記ラベルと、前記ラベルに対応するモーションを表すモーションデータとを、関連付けて記憶するモーションデータベースと、前記翻訳部が出力した前記ラベル列に含まれる各々の前記ラベルについて、対応する前記モーションデータが存在するか否かを、前記モーションデータベースに照会する照会部と、前記照会部が照会した結果として前記モーションデータが存在しない前記ラベルを、他のラベル列に置換する置換部と、を備える翻訳装置、としてコンピューターを機能させるためのプログラムである。

【発明の効果】

【0019】

本発明によれば、翻訳装置は、翻訳結果に対応して欠落のないモーションデータを出力することが可能となる。

【図面の簡単な説明】

【0020】

【図1】本発明の実施形態による翻訳装置の概略機能構成を示すブロック図である。

【図2】同実施形態による手話モーションデータベースが持つデータの構成を示す概略図である。

【図3】同実施形態による翻訳装置がテキストデータを基にアニメーション映像を生成するための処理手順を示すフローチャートである。

【図4】同実施形態による翻訳装置による翻訳処理に係るデータ例であり、翻訳対象となる日本語テキストデータを示す概略図である。

【図5】同実施形態による翻訳装置による翻訳処理に係るデータ例であり、翻訳処理を行った結果の、手話ラベル列のデータを示す概略図である。

【図6】同実施形態による翻訳装置による翻訳処理に係るデータ例であり、翻訳処理を行いさらにラベルを置換処理した結果のラベル列のデータを示す概略図である。

【図7】同実施形態によるアニメーション生成部が作成したアニメーション映像の時間推移を示す概略図である。

【図8】同実施形態による翻訳装置等の内部構成（コンピューターの構成）の例を示すブロック図である。

【発明を実施するための形態】

【0021】

次に、本発明の一実施形態について、図面を参照しながら説明する。

【0022】

図１は、本実施形態による翻訳装置の概略機能構成を示すブロック図である。図示するように、翻訳装置１は、手話モーションデータベース２１と、日本語－手話翻訳部１１１と、モーション照会部１１２と、判定部１１３と、再翻訳部１１４と、類似語置換部１１５と、手話モーション読込部１２１と、手話モーション合成部１２２と、キャラクターデータ記憶部３１と、アニメーション生成部３２とを含んで構成される。なお、判定部１１３と、再翻訳部１１４と、類似語置換部１１５とを併せた機能を、置換部１１０と呼ぶ。また、日本語－手話翻訳部１１１と、モーション照会部１１２と、判定部１１３と、再翻訳部１１４と、類似語置換部１１５とを併せた機能を、手話翻訳機能部１１と呼ぶ。また、手話モーション読込部１２１と、手話モーション合成部１２２とを合わせた機能を、モーション生成部１２と呼ぶ。

【0023】

上に列挙した機能部のそれぞれは、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ（ＳＳＤ）といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。

【0024】

上記の機能構成を持つ翻訳装置１は、外部の日本語テキストデータ７２を取得し、その日本語テキストデータの翻訳処理を行うことによって、コンピューターグラフィックス（ＣＧ）による手話アニメーション映像を生成する。日本語テキストデータ７２は、例えば、情報記録媒体ないしは記憶媒体に書き込まれているデータである。あるいは、日本語テキストデータ７２は、通信回線を通して翻訳装置１に供給されるデータであってもよい。なお、日本語テキストデータ７２は、例えば、音声認識装置７１から与えられるものであってもよい。音声認識装置７１は、例えば、テレビ放送の番組内のスピーチの音声等の認識処理を行い、その認識結果として日本語テキストデータ７２を出力する。音声認識装置７１自体は、既存の音声認識処理技術を用いて実現可能である。なお、日本語テキストデータ７２は、必ずしも音声認識装置７１から出力されるものである必要はない。日本語テキストデータ７２は、いかなる方法で作成されたものであってもよい。例えば、日本語テキストデータ７２は、ユーザーがキーボードやタッチパネル等を用いてキー入力して作成されたものであってもよい。

【0025】

翻訳装置１を構成する各部の機能は、次に説明する通りである。

【0026】

手話モーションデータベース２１は、日本語－手話翻訳部１１１等が出力する翻訳結果に含まれるラベルや、再翻訳部１１４や類似語置換部１１５が出力するラベルと、前記ラベルに対応するモーションを表すモーションデータとを、関連付けて記憶する。なお、手話モーションデータベース２１は、単に「モーションデータベース」とも呼ばれる。

【0027】

手話モーションデータベース２１が記憶するモーションデータは、例えば、実際の人の手指や顔表情などを含んだ実際の動きをモーションキャプチャーして、ＢＶＨ（Biovision Hierarchy）などの形式で保存したデータである．本実施形態では、単語単位（手話ラベル単位）で、人の手話の動作を収録して、予めラベルと関連付けた形で手話モーションデータベース２１に格納しておくようにする。手話モーションデータベース２１は、例えば、リレーショナルデータベースのデータベース管理システム（ＤＢＭＳ）を用いて実現される。手話モーションデータベース２１は、ＳＱＬ等の照会用言語による照会を受け付け、結果を照会元に返す。照会元は、例えば「特定のラベルを有するラベルとモーションデータとの組を返せ」という意味の照会を、手話モーションデータベース２１に行うことができる。そのラベルとモーションデータとの組が格納されている場合には、手話モーションデータベース２１は、その組を照会元に返す。そのラベルとモーションデータとの組が格納されていない場合には、手話モーションデータベース２１は、例えば「ＮＩＬ」（空集合）を返す。

【0028】

日本語－手話翻訳部１１１は、自然言語で記述された自然言語テキストデータを取得し、前記自然言語テキストデータの翻訳処理を行うことによって所定のラベルからなるラベル列を出力する。ここで、自然言語テキストデータは、例えば、日本語のテキストデータである。また、日本語－手話翻訳部１１１が出力するラベル列は、例えば、日本手話の手話ラベル列である。なお、日本語－手話翻訳部１１１は、単に「翻訳部」とも呼ばれる。日本語－手話翻訳部１１１の機能自体は、既存技術（例えば、前記の特許文献１）を用いて実現可能なものである。

【0029】

日本語－手話翻訳部１１１は、翻訳処理を行う際に、必要ならば形態素解析処理を行って日本語テキストデータを形態素列に変換するなどの処理を行う。日本語－手話翻訳部１１１は、形態素列と出力ラベル列との統計的関係を表す統計モデルを、予め持っておく。統計モデルは、例えばニューラルネットワーク等を用いて、機械学習処理によって構築してもよい。このような機械学習処理は既存の技術である。ただし、日本語－手話翻訳部１１１が上記の統計モデルを構築する方法は、機械学習を用いる方法に限らず、任意である。

【0030】

日本語－手話翻訳部１１１が出力する手話ラベル列のデータの形式は、任意である。例えば、手話ラベル列は、ラベルの種類ごとにユニークに与えられた番号の列であってもよい。また、例えば、手話ラベル列は、後で図５を参照しながら説明するような、コンマで区切られた文字列で表わされてもよい。

【0031】

モーション照会部１１２は、日本語－手話翻訳部１１１等が出力する翻訳結果に含まれるラベルや、再翻訳部１１４や類似語置換部１１５が出力するラベルについて、そのラベルに対応するモーションデータが存在するか否かを、手話モーションデータベース２１に照会する。なお、モーション照会部１１２は、単に「照会部」とも呼ばれる。

【0032】

モーション照会部１１２は、モーションデータに対応付かないラベルがある場合には、置換部１１０にそのラベルを置換させる。ラベルを置換する具体的な方法については、後述する。なお、モーション照会部１１２は、置換部１１０がラベルを置換した場合には、置換後のラベル列の中に、対応するモーションデータが存在しないラベルが存在しなくなるまで、モーションデータベースへの照会を繰り返すことができる。つまり、モーション照会部１１２は、モーションデータが存在しないラベルが残っている限りは、そのラベルを置換部１１０に置換させる処理を繰り返すことができる。翻訳結果であるラベル列に含まれるすべてのラベルがモーションデータに紐づいている状態になった場合には、モーション照会部１１２は、そのラベル列を手話モーション読込部１２１に渡す。

【0033】

判定部１１３は、置換対象であるラベルが手話表現における類辞であるか否かを判定する。なお、ラベルが類辞ではない場合には、そのラベルは置換対象の単語である。例えば、日本語－手話翻訳部１１１が出力するラベル列において、類辞には分類記号を付けるようにすることができる。分類記号としては、一例として［］（角括弧）を用いることができる。なお、他の分類記号を用いてもよい。判定部１１３は、例えば、このように特定の分類記号が付いているかどうかを検査することにより、あるラベルが類辞であるか否かを判定できる。なお判定部１１３が、他の方法を用いてラベルが類辞であるか否かを判定するようにしてもよい。

【0034】

判定部１１３は、あるラベルが類辞であると判定した場合には、そのラベルを置換するために再翻訳部１１４に渡す。判定部１１３は、あるラベルが類辞ではない（単語である）と判定した場合には、そのラベルを置換するために類似語置換部１１５に渡す。

【0035】

再翻訳部１１４は、翻訳結果であるラベル列に含まれ置換対象であるラベルが手話表現における類辞である場合に、類辞である当該ラベルに含まれる自然言語テキスト（本実施形態では、日本語テキスト）の翻訳処理を行うことによって所定のラベルからなる第２ラベル列で、当該ラベルを置換する。なお、類辞であるラベルが前述の分類記号（［］等）を含んでいる場合には、再翻訳部１１４は、その分類記号を除去してから日本語テキストの翻訳処理を行う。なお、上記の「第２ラベル列」とは、再翻訳部１１４による翻訳処理の結果として出力されたラベル列である。

【0036】

なお、再翻訳部１１４の機能自体は、前述の日本語－手話翻訳部１１１と同様の技術を用いて実現可能である。

【0037】

類似語置換部１１５は、翻訳結果であるラベル列に含まれ置換対象である前記ラベルが手話表現における類辞ではない場合に、ラベル間の類似度に基づいて、当該ラベルを置換可能な他のラベルで、当該ラベルを置換するものである。類似語置換部１１５は、単語間（ラベル間）の類似度のデータを予め持っておく。類似語置換部１１５は、例えば、置換対象のラベルとの間の類似度が最も高いラベルで、置換対象のラベルを置換する。

【0038】

なお、類似語置換部１１５が、手話モーションデータベース２１を参照するようにしてもよい。この場合、類似語置換部１１５は、置換対象のラベルとの間の類似度に基づいて、手話モーションデータベース２１においてモーションデータと関連付けられているラベルの中で最も類似度の高いラベルで、置換対象のラベルを置換することができる。

【0039】

類似語置換部１１５は、例えば、既存技術を用いて機械学習処理などにより単語間の類似度のモデルを構築することができる。一例として、Word2vecのモデルは、大規模なテキストのコーパスに基づいた機械学習により、単語の特徴を表す数百次元程度のベクトル空間を生成することができる。この空間内での距離が、単語間の類似度を表す。また、類似語置換部１１５が、公開されている学習済みのモデルを利用してもよい。
参考文献：Word2vec（Wikipedia），ＵＲＬ：https://en.wikipedia.org/wiki/Word2vec
ただし、類似語置換部１１５が、他の方法でラベル間の類似度を算出するようにしてもよい。

【0040】

手話モーション読込部１２１は、モーション照会部１１２から手話ラベル列を受け取り、その手話ラベル列に含まれる各ラベルについて手話モーションデータベース２１への照会を行う。これにより、手話モーション読込部１２１は、手話ラベル列に含まれるすべてのラベルについてのモーションデータを取得する。手話モーション読込部１２１は、取得したこれらのモーションデータを手話モーション合成部１２２に渡す。

【0041】

手話モーション合成部１２２は、モーションデータを合成する。つまり、手話モーション合成部１２２は、手話モーション読込部１２１が取得したモーションデータを、翻訳結果の手話ラベル列にしたがって時系列に並べ、またラベル間のモーションを接続する。あるラベルのモーションデータと次のラベルのモーションデータとを接続する処理は「わたり」と呼ばれる。手話モーション合成部１２２は、この接続処理に、一例として線形補間の方法を用いることができる。ただし、手話モーション合成部１２２が他の方法を用いて接続処理を行ってもよい。

【0042】

キャラクターデータ記憶部３１は、コンピューターグラフィクスで表現する人のキャラクター（アバター）の特徴のデータを記憶する。キャラクターデータ記憶部３１が記憶するデータは、例えば、キャラクターの体型や、髪形や、髪色や、衣服のデザイン等の情報を含むものであってよい。

【0043】

アニメーション生成部３２は、モーション生成部１２の手話モーション合成部１２２が生成したモーションデータに基づいて、アニメーション映像を生成する。具体的には、アニメーション生成部３２は、キャラクターデータ記憶部３１から上記のキャラクターのデータを読み込むとともに、手話モーション合成部１２２から渡されるモーションデータを用いて、アニメーション映像の各フレームの画像をレンダリングする。コンピューターグラフィクスのレンダリング処理自体は、既存の技術を利用して実現可能である。

【0044】

置換部１１０と、手話翻訳機能部１１と、モーション生成部１２とのそれぞれは、上で説明した機能部の複数をまとめた機能である。これらの各部を次に説明する。

【0045】

置換部１１０は、翻訳結果であるラベル列の少なくとも一部を置換する。具体的には、置換部１１０は、モーション照会部１１２が照会した結果としてモーションデータが存在しなかったラベルを、他のラベル列に置換する。ただし、ここでの「他のラベル列」は、長さが１のラベル列（１個のラベル）であってもよい。本実施形態での置換部１１０は、具体的には、前記の判定部１１３と再翻訳部１１４と類似語置換部１１５とを含むように構成される。このような構成により、置換部１１０の判定部１１３は、置換対象であるラベルが手話表現における類辞であるか否かを判定する。ラベルが類辞である場合には、置換部１１０は、前記ラベルを再翻訳部１１４に置換させる。ラベルが類辞でない場合には、置換部１１０は、前記ラベルを類似語置換部１１５に置換させる。

【0046】

手話翻訳機能部１１は、日本語テキストデータを読み込み、翻訳処理を行って、その日本語テキストデータに対応する手話ラベル列を出力する。なお、手話翻訳機能部１１が出力する手話ラベル列に含まれる各ラベルは、手話モーションデータベース２１においてモーションデータに関連付けられている。手話翻訳機能部１１は、翻訳結果におけるモーションデータの欠落をなくすために、上記の置換部１１０によるラベルの置換を行う。置換部１１０による置換を行った結果の手話ラベル列を「置換完了ラベル列」と呼ぶ。

【0047】

モーション生成部１２は、置換完了ラベル列を手話翻訳機能部１１のモーション照会部１１２から受け取り、その置換完了ラベル列の中の各ラベルに対応するモーションデータを手話モーションデータベース２１から読み出して、それらのモーションデータを合成することによって、前記置換完了ラベル列に対応するモーションデータを生成する。置換完了ラベル列とは、ラベル列内のラベルのすべてについて対応するモーションデータが存在するようになったラベル列である。

【0048】

図２は、手話モーションデータベース２１が持つデータの構成を示す概略図である。図示するように、手話モーションデータベース２１は、表形式のデータを記憶する。この表は、ラベルと、モーションの、データ項目を含む。ラベルは、手話表現における１つの単語等に対応するものである。モーションは、人の動作を記述したデータである。モーションは、人の上半身や、腕や、手や、指や、顔表情などの動きの情報を含むデータである。このオーションのデータは、例えば、ＢＶＨ（Biovision Hierarchy）などといった形式を持つデータである。図示するデータにおいて、ラベルとモーションとは１対１に対応付けられている。ラベルを鍵として手話モーションデータベース２１に対する照会が行われた場合に、手話モーションデータベース２１は、そのラベルとモーションとの対の有無を回答する。また、そのラベルとモーションとの対が存在する場合には、手話モーションデータベース２１は、そのモーションのデータを回答する。

【0049】

図示する例では、手話モーションデータベース２１は、Ｎ、ｐｔ３、雨が降る、ある、一部、風２、心配２、地域、突然、夢２、様子などといったラベルと、それぞれのラベルに対応するモーションのデータとを記憶している。ここに例示したラベルのうち、Ｎは、うなずきの動作を表すラベルである。また、ｐｔ３は、指差しの動作を表すラベルである。その他のラベル（「雨が降る」等）は、単語に対応するラベルである。

【0050】

図３は、翻訳装置１の処理手順を示すフローチャートである。以下、このフローチャートに沿って手順を説明する。

【0051】

ステップＳ１１において、日本語－手話翻訳部１１１は、日本語テキストデータ７２を読み込む。

【0052】

ステップＳ１２において、日本語－手話翻訳部１１１は、ステップＳ１１で読み込んだ日本語テキストデータを手話に翻訳する。その結果として、日本語－手話翻訳部１１１は、手話ラベル列を出力する。

【0053】

ステップＳ１３において、モーション照会部１１２は、翻訳結果である手話ラベル列を基に、そのラベル列に含まれるラベルについてのモーションの照会を行う。具体的には、モーション照会部１１２は、各々のラベルが、モーションデータを持つか否かを手話モーションデータベース２１に照会する。手話モーションデータベース２１は、モーション照会部１１２からの照会に応じて、テーブルを検索し、対象のラベルに関連付けられたモーションデータが存在するか否かを応答する。また、対象のラベルに関連付けられたモーションデータが存在する場合には、手話モーションデータベース２１は、そのモーションデータをモーション照会部１１２返す。

【0054】

ステップＳ１４において、モーション照会部１１２は、翻訳結果の手話ラベル列に含まれるすべてのラベルについてモーションデータが存在するか否かを判定する。すべてのラベルについてモーションデータが存在する場合（ステップＳ１４：ＹＥＳ）には、ステップＳ１８に進む。少なくとも一部のラベルについてモーションデータが存在しない場合（ステップＳ１４：ＮＯ）には、ステップＳ１５に進む。

【0055】

ステップＳ１５に進んだ場合、判定部１１３は、モーションデータに関連付けられていないラベルについての判定を行う。具体的には、判定部１１３は、そのラベルが類辞であるか単語であるかを、例えばラベルが特定の分類記号を持っているか否かによって判定する。

【0056】

そのラベルが類辞である場合、つまり、そのラベルが類辞であることを示す特定の分類記号を持つ場合（ステップＳ１５：類辞）には、判定部１１３は、そのラベル（類辞）を、再翻訳部１１４に渡す。そして、ステップＳ１６の処理に進む。一方、そのラベルが単語である場合、つまり、そのラベルが類辞であることを示す特定の分類記号を持たない場合（ステップＳ１５：単語）には、判定部１１３は、そのラベル（単語）を、類似語置換部１１５に渡す。そして、ステップＳ１７の処理に進む。

【0057】

ステップＳ１６に進んだ場合、再翻訳部１１４は、判定部１１３から渡された類辞についての再翻訳処理を行う。具体的には、再翻訳部１１４は、その類辞が含む日本語テキストを、手話のラベル列に翻訳する処理を行う。本ステップにおいて再翻訳部１１４が実行する処理は、基本的に、日本語－手話翻訳部１１１が行う翻訳処理と同様のものである。再翻訳部１１４は、再翻訳の結果である手話ラベル列を出力する。つまり、再翻訳部１１４は、再翻訳の結果である手話ラベル列を、置換用のデータとしてモーション照会部１１２に渡す。モーション照会部１１２は、置換対象であった類辞の代わりにその再翻訳の結果である手話ラベル列を、元の手話ラベル列内に埋め込む。本ステップの処理が終了した後は、ステップＳ１３に戻る。ステップＳ１３に戻ってから、モーション照会部１１２は、置換したデータ（再翻訳の結果である手話ラベル列）に含まれるラベルがモーションデータと関連付けられているものであるか否かを、再度、手話モーションデータベース２１に照会する。

【0058】

ステップＳ１７に進んだ場合、類似語置換部１１５は、判定部１１３から渡された単語を他の単語（類似単語）で置換する処理を行う。このとき、類似語置換部１１５は、例えば予め準備しておいた単語間の類似度のデータを参照する。本ステップの処理が終了した後は、ステップＳ１３に戻る。ステップＳ１３に戻ってから、モーション照会部１１２は、置換したデータ（置換された単語（または単語列）に該当する手話ラベル列）に含まれるラベルがモーションデータと関連付けられているものであるか否かを、再度、手話モーションデータベース２１に照会する。

【0059】

一方、ステップＳ１８に進んだ場合、つまり、翻訳結果であるラベル列（置換部１１０によって置換されたラベルを含むものであってもよい）の中のすべてのラベルがモーションデータに関連付けられている場合、手話モーション読込部１２１が、手話モーションデータベース２１から、モーションデータを読み込む。つまり、手話モーション読込部１２１は、翻訳結果であるラベル列内の各ラベルに対応する形で、モーションデータを獲得する。

【0060】

ステップＳ１９において、手話モーション合成部１２２は、手話モーション読込部１２１が取得した各ラベルに対応するモーションデータを合成する。これにより、手話モーション合成部１２２は、翻訳結果であるラベル列に対応する、一連の合成されたモーションデータを出力する。手話モーション合成部１２２が出力するモーションデータも、例えば、前述のＢＶＨ形式のデータであってよい。

【0061】

ステップＳ２０において、アニメーション生成部３２は、キャラクターデータ記憶部３１から読み出したキャラクター（アバター）のデータと、手話モーション合成部１２２が出力したモーションデータとを用いて、コンピューターグラフィクスのレンダリング処理を行う。つまり、キャラクターデータ記憶部３１は、映像のフレーム画像をレンダリングする。そして、キャラクターデータ記憶部３１は、それらのフレーム画像の系列をアニメーション映像として出力する。アニメーション生成部３２は、生成した映像を再生して画面等に表示させてもよい。また、アニメーション生成部３２は、生成した映像のデータを外部に出力してもよい。アニメーション生成部３２が生成した映像を、放送映像の一部として送出してもよい。

【0062】

図４、図５、図６のそれぞれは、翻訳装置１による翻訳処理に係る実際のデータの例を示す概略図である。図４は、翻訳対象となる日本語テキストデータを示す。図５は、日本語－手話翻訳部が翻訳処理を行った結果の、手話ラベル列のデータを示す。この図５のデータには、モーションデータを持たないラベルが含まれている。図６は、翻訳結果のラベル列のうちのモーションデータを持たないラベルを、モーションデータを持つ他のラベル（またはラベル列）で置換した結果のデータを示す。

【0063】

図４に示す通り、翻訳装置１に入力される翻訳対象の文の例は、日本語テキストデータであり、「局地的に激しい雨が降り、突風の吹くおそれがあります。」というものである。

【0064】

図５は、日本語－手話翻訳部１１１が、図４の日本語テキストデータを処理した結果のデータであり、手話ラベル列である。この手話ラベル列は、「地域，ｐｔ３，Ｎ，［部分的に雨が降る様子］，夢２，Ｎ，突然，風２，心配２，ある，Ｎ」というデータである。このデータ内のコンマは、ラベルの区切りである。日本語－手話翻訳部１１１からの出力である上記データに基づいて、モーション照会部１１２は、これらのラベルのそれぞれがモーションデータに対応付けられているか否かを、手話モーションデータベース２１に照会する。本例では、「地域」、「ｐｔ３」、「Ｎ」（Ｎは複数回出現）、「夢２」、「突然」、「風２」、「心配２」、「ある」のそれぞれのラベルに関しては、手話モーションデータベース２１がモーションデータを記憶している。しかしながら、「［部分的に雨が降る様子］」というラベルに関しては、手話モーションデータベース２１はモーションデータを持たない。そこで、モーション照会部１１２は、この「［部分的に雨が降る様子］」というラベルを、置換するために置換部１１０に渡す。

【0065】

置換部１１０内の判定部１１３は、モーション照会部１１２から渡された「［部分的に雨が降る様子］」というラベルが、類辞であるか、単語であるかを判定する。一例として、判定部１１３は、［］という分類記号の有無に基づいて、当該ラベルが類辞であるか単語であるかを判定する。ここでは、ラベルが［］という分類記号を持つ場合にはそのラベルは類辞である。ラベルが［］という分類記号を持たない場合にはそのラベルは単語である。「［部分的に雨が降る様子］」は［］という分類記号を持つため、判定部１１３は、このラベルが類辞であると判定する。判定結果に基づき、判定部１１３は、このラベルを、再翻訳部１１４に渡す。再翻訳部１１４は、「［部分的に雨が降る様子］」という類辞の中に含まれる「部分的に雨が降る様子」という日本語テキストデータを翻訳する。再翻訳部１１４は、前述の通り、日本語－手話翻訳部１１１と同様の、日本語から手話への翻訳機能を持ち、この日本語テキストデータの翻訳処理を行う。その結果、再翻訳部１１４は、翻訳結果として、「一部，雨が降る，様子」という手話ラベル列を出力する。

【0066】

図６は、モーション照会部１１２が、上記の再翻訳の結果である「一部，雨が降る，様子」という手話ラベル列で、元の類辞を置換した結果のデータである。即ち、置換後の手話ラベル列は、「地域，ｐｔ３，Ｎ，一部，雨が降る，様子，夢２，Ｎ，突然，風２，心配２，ある，Ｎ」である。つまり、図５に示すデータにおける類辞「［部分的に雨が降る様子］」を、ラベル列「一部，雨が降る，様子」で置換したデータが、図６に示すものである。

【0067】

図６に示したラベル列に含まれるラベルは、いずれも、手話モーションデータベース２１が記憶する情報においてモーションデータに関連付けられているものである。そのことをモーション照会部１１２が判定すると、翻訳結果の手話ラベル列は、手話翻訳機能部１１からモーション生成部１２に渡される。即ち、翻訳結果の手話ラベル列は、モーション照会部１１２から手話モーション読込部１２１に渡される。モーション生成部１２は、その手話ラベル列に基づいて文全体のモーションデータを生成する。アニメーション生成部３２は、その文全体のモーションデータに基づいてＣＧによる手話アニメーション映像を生成する。

【0068】

なお、ここで説明した図４、図５、図６のデータは、当初の翻訳結果に含まれていた類辞を置換した処理の例を示している。当初の翻訳結果に、モーションデータに紐づかない単語が含まれていた場合には、判定部１１３の判定により、そのラベルは類似語置換部１１５に渡される。そして、類似語置換部１１５は、そのラベルを、他のラベルに置き換える。一例として、上記のラベル列内のラベル「夢２」のモーションデータが手話モーションデータベース２１に存在しなかった場合、判定部１１３は、このラベル「夢２」を、類辞ではなく単語であると判定する（類辞であることを示す分類記号である［］を持たないため）。判定部１１３は、ラベル「夢２」を、類似語置換部１１５に渡す。類似語置換部１１５は、予め準備しておいた単語間の類似度のデータに基づいて、このラベル「夢２」を、最も類似する単語（例えば「願望」）に置き換える。ラベル「願望」に対応するモーションデータが手話モーションデータベース２１内に存在する時には、このラベル「願望」が、モーションデータの生成の際に使用される。

【0069】

図７は、手話翻訳機能部１１が出力した手話ラベル列に基づいてアニメーション生成部３２が作成したアニメーション映像の時間推移を示す概略図である。同図における（１）から（７）までのフレームは、それぞれ、「地域」、「ｐｔ３」、「Ｎ」、「一部」、「雨が降る」、「様子」、「夢２」のラベルに対応する。ここでは、「夢２」より後のラベルと、その映像とを省略して示している。既に述べたように、手話モーション読込部１２１は、各ラベルに対応するモーションデータを手話モーションデータベース２１から読み出す。そして、手話モーション合成部１２２は、ラベル列の順序にしたがって、それらのモーションデータを時系列に合成する。一方、人のキャラクター（アバター）の外観等に関するデータは、キャラクターデータ記憶部３１に記憶されている。アニメーション生成部３２は、キャラクターデータ記憶部３１から読み出したキャラクターのデータを用いて、そのキャラクターがモーションデータにしたがったモーションを行うようにフレーム画像のレンダリングを行う。このフレーム画像の系列を、アニメーション生成部３２は、図７に示すようなアニメーション映像として出力する。

【0070】

図８は、上述した実施形態において翻訳装置や音声認識装置等の各装置の内部構成の例を示すブロック図である。各装置は、コンピューターを用いて実現され得る。図示するように、そのコンピューターは、中央処理装置９０１と、ＲＡＭ９０２と、入出力ポート９０３と、入出力デバイス９０４や９０５等と、バス９０６と、を含んで構成される。コンピューター自体は、既存技術を用いて実現可能である。中央処理装置９０１は、ＲＡＭ９０２等から読み込んだプログラムに含まれる命令を実行する。中央処理装置９０１は、各命令にしたがって、ＲＡＭ９０２にデータを書き込んだり、ＲＡＭ９０２からデータを読み出したり、算術演算や論理演算を行ったりする。ＲＡＭ９０２は、データやプログラムを記憶する。ＲＡＭ９０２に含まれる各要素は、アドレスを持ち、アドレスを用いてアクセスされ得るものである。なお、ＲＡＭは、「ランダムアクセスメモリー」の略である。入出力ポート９０３は、中央処理装置９０１が外部の入出力デバイス等とデータのやり取りを行うためのポートである。入出力デバイス９０４や９０５は、入出力デバイスである。入出力デバイス９０４や９０５は、入出力ポート９０３を介して中央処理装置９０１との間でデータをやりとりする。バス９０６は、コンピューター内部で使用される共通の通信路である。例えば、中央処理装置９０１は、バス９０６を介してＲＡＭ９０２のデータを読んだり書いたりする。また、例えば、中央処理装置９０１は、バス９０６を介して入出力ポートにアクセスする。

【0071】

なお、上述した実施形態における翻訳装置や音声認識装置等の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

【0072】

従来技術を用いる場合には、翻訳結果として出力される手話ラベル列の中にモーションデータを持たないラベルがある場合には、その部分の映像が欠落した手話映像しか生成することができなかった。一方、本実施形態によれば、モーションデータを持たないラベルを、置換部１１０が置換する。これにより、モーションデータを持つラベルのみからなる手話ラベル列を出力することができる。例えば、翻訳結果が類辞に対応するラベルを含む場合に、再翻訳部１１４が再翻訳の処理を行うことにより、その類辞を、他のラベルの列で置換することができる。また例えば、翻訳結果がモーションデータを持たない単語のラベルを含む場合に、類似語置換部１１５がその単語を他の単語（または単語列）で置換することができる。これらにより、本実施形態では、欠落のない映像を生成することができる。

【0073】

なお、ＮＨＫの手話ニュースコーパス（約１７万５千文）によると、それらのすべての文のうち、類辞が存在する文の割合は１５．６％である。さらに、類辞以外にも、モーションデータを持たない単語に対応するラベルが、翻訳結果の一部として出力され得る。本実施形態を用いると、それらの翻訳結果を改善することができる。

【0074】

以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。なお、複数の変形例を、組み合わせることが可能な限りにおいて、組み合わせて実施してもよい。

【0075】

［第１変形例］上記実施形態では日本語のテキストデータを処理対象としたが、使用する言語の種類は日本語に限らずなんでもよい。例えば、英語、ドイツ語、フランス語、イタリア語、ロシア語、スペイン語、中国語、韓国語等、任意の言語を使用することができる。また翻訳先の手話も日本手話に限らず、他の手話であってもよい。

【0076】

［第２変形例］上記実施形態では、自然言語によるテキストデータに基づいて手話の映像を生成したが、生成する映像を手話の映像に限定する必要はない。自然言語によるテキストデータをラベル列に翻訳し、そのラベル列に含まれるラベルごとのモーションデータを用いて任意のアニメーション映像を生成するようにしてよい。

【0077】

［第３変形例］上記実施形態による翻訳装置１は、手話翻訳機能部１１と、モーション生成部１２と、アニメーション生成部３２とのすべてを備えるものであった。変形例として、翻訳装置は、手話翻訳機能部１１とモーション生成部１２のみを備え、アニメーション生成部３２を持たないようにしてもよい。そのような翻訳装置は、入力される自然言語テキストデータに対応して、モーションデータの欠落がないラベル列のデータを出力することができる。さらに変形例として、翻訳装置は、手話翻訳機能部１１のみを備え、モーション生成部１２やアニメーション生成部３２を持たないようにしてもよい。そのような翻訳装置は、入力される自然言語テキストデータに対応して、ラベル列のデータを出力することができ、そのラベル列に含まれるすべてのラベルがモーションデータに関連付けられているようにすることができる。

【0078】

［第４変形例］上記実施形態による翻訳装置１は、再翻訳部１１４と類似語置換部１１５との両方を備えていた。変形例として、翻訳装置が、再翻訳部１１４を備え、類似語置換部１１５を持たない構成としてもよい。このような翻訳装置は、類辞にあたるラベルを他のラベルで置換することにより、モーションデータに関連付けられているラベルのみから成るラベル列を生成することができる。また、さらなる変形例として、翻訳装置が、類似語置換部１１５を備え、再翻訳部１１４を持たない構成としてもよい。このような翻訳装置は、単語のラベルを他の単語（類似単語）のラベルで置換することにより、モーションデータに関連付けられているラベルのみから成るラベル列を生成することができる。

【0079】

以上、この発明の実施形態および変形例について、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

【産業上の利用可能性】

【0080】

本発明は、例えば、文章を基に動きのある映像を生成するあらゆる産業に利用可能である。本発明は、特に、自然言語文を基に手話の映像を自動的に生成する技術として利用可能である。そのような産業は、コンテンツ制作に係る事業を含む。但し、本発明の利用範囲はここに例示したものには限られない。

【符号の説明】

【0081】

１翻訳装置
１１手話翻訳機能部
１２モーション生成部
２１手話モーションデータベース（モーションデータベース）
３１キャラクターデータ記憶部
３２アニメーション生成部
７１音声認識装置
７２日本語テキストデータ
１１０置換部
１１１日本語－手話翻訳部（翻訳部）
１１２モーション照会部（照会部）
１１３判定部
１１４再翻訳部
１１５類似語置換部
１２１手話モーション読込部
１２２手話モーション合成部

【図1】