特開2022-164367 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特開2022-164367翻訳装置およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022164367

(43)【公開日】2022-10-27

(54)【発明の名称】翻訳装置およびプログラム

(51)【国際特許分類】

G06F 40/40 20200101AFI20221020BHJP

G06F 40/295 20200101ALI20221020BHJP

G09B 21/00 20060101ALI20221020BHJP

G06T 13/80 20110101ALI20221020BHJP

【ＦＩ】

G06F40/40

G06F40/295

G09B21/00 F

G06T13/80 B

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2021069808

(22)【出願日】2021-04-16

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】100141139

【弁理士】

【氏名又は名称】及川周

(74)【代理人】

【識別番号】100171446

【弁理士】

【氏名又は名称】高田尚幸

(74)【代理人】

【識別番号】100114937

【弁理士】

【氏名又は名称】松本裕幸

(74)【代理人】

【識別番号】100171930

【弁理士】

【氏名又は名称】木下郁一郎

(72)【発明者】

【氏名】内田翼

(72)【発明者】

【氏名】森田祐介

【テーマコード（参考）】

5B050

5B091

【Ｆターム（参考）】

5B050BA08

5B050BA12

5B050EA19

5B091AA11

5B091AB06

(57)【要約】

【課題】元の自然言語テキストに含まれる固有名詞の意味を維持して手話を出力することのできる、翻訳装置およびプログラムを提供する。
【解決手段】翻訳装置は、翻訳部と、手話モーションデータベースと、固有名詞モーション合成部とを含む。翻訳部は、自然言語テキストを、手話ラベル列に変換する。手話ラベル列内において固有名詞相当の部分は特定されている。手話モーションデータベースは、手話ラベルと手話モーションとの対応関係を保持する。固有名詞モーション合成部は、前記翻訳部が出力した前記手話ラベル列の中の、前記固有名詞マーカーが付けられた手話ラベル列に基づいて、各々の前記手話ラベルに対応する手話モーションを前記手話モーションデータベースから読み出して、それらの前記手話モーションを通常より短いわたり長で順次接続することによって、固有名詞に対応する手話モーションを合成する。
【選択図】図１

【特許請求の範囲】

【請求項1】

入力されたテキストの形態素解析処理を行って形態素列を出力するとともに、前記形態素列に含まれる形態素が固有名詞である場合には当該形態素が固有名詞であることを表すデータを付与する形態素解析部と、
機械学習済みのモデルに基づいて、形態素解析部から出力された前記形態素列を手話ラベル列に変換するとともに、変換後の手話ラベル列の中の、固有名詞であることを表すデータが付与された形態素に対応する手話ラベル列の部分に固有名詞マーカーを付ける翻訳部と、
手話ラベルと手話モーションとの対応関係を保持する手話モーションデータベースと、
前記翻訳部が出力した前記手話ラベル列の中の、前記固有名詞マーカーが付けられた手話ラベル列に基づいて、各々の前記手話ラベルに対応する手話モーションを前記手話モーションデータベースから読み出して、それらの前記手話モーションを第１わたり長で順次接続することによって、固有名詞に対応する手話モーションを合成する固有名詞モーション合成部と、
前記翻訳部が出力した前記手話ラベル列の中の、前記固有名詞マーカーが付けられていない手話ラベル列に基づいて、各々の前記手話ラベルに対応する手話モーションを前記手話モーションデータベースから読み出して、それらの前記手話モーションを第２わたり長で順次接続して固有名詞以外に対応する手話モーションを合成するとともに、前記翻訳部が出力した前記手話ラベル列に基づいて前記固有名詞モーション合成部によって合成された前記固有名詞に対応する手話モーションを、前記固有名詞以外に対応する手話モーションにさらに接続することによって、前記テキストに対応する手話モーションを合成する手話モーション合成部と、
を備え、
前記第１わたり長は、前記第２わたり長よりも短い、
翻訳装置。

【請求項2】

前記固有名詞に対応する手話モーションに含まれる各々の手話ラベルの再生速度は、前記固有名詞以外に対応する手話モーションに含まれる各々の手話ラベルの再生速度よりも速くする、
請求項１に記載の翻訳装置。

【請求項3】

前記形態素解析部が固有名詞であることを表すデータを付与した前記形態素について、当該固有名詞の読みを推定する固有名詞読み推定部と、
前記読みの音と手話モーションの一部である口型モーションとの対応関係を保持する口型モーションデータベースと、
をさらに備え、
前記固有名詞モーション合成部は、推定された前記固有名詞の読みが含むそれぞれの音に対応する口型モーションを前記口型モーションデータベースから読み出して、それらの口型モーションを前記読みに基づいて順次接続することによって前記固有名詞に対応する口型モーションを合成するとともに、前記固有名詞に対応する手話モーションにおける口型に関するデータを、合成した前記固有名詞に対応する口型モーションで置換する、
請求項１または２に記載の翻訳装置。

【請求項4】

前記手話モーション合成部が生成した、前記テキストに対応する手話モーションデータ、に基づいてアニメーション映像を生成するアニメーション生成部、
をさらに備える請求項１から３までのいずれか一項に記載の翻訳装置。

【請求項5】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、翻訳装置およびプログラムに関する。

【背景技術】

【0002】

コンピュータグラフィックス（ＣＧ）アニメーションを利用した、日本語テキストから手話（日本手話）への翻訳処理の技術は、様々な分野において広く使用される可能性を持つ。

【0003】

従来の一般的なＣＧアニメーション向けの手話翻訳の手法では、テキスト化した日本語（入力情報）と、対応する手話ラベル列（出力情報）との組み合わせで用例コーパスを構築する。そして、その用例コーパスを利用して生成した統計モデルやニューラルネットワークを用いて、日本語テキストから複数の手話ラベルを時系列に列挙した手話ラベル列への翻訳を実現している。さらに、その翻訳結果である手話ラベル列を基に、各手話ラベルに対応するモーションデータを読み込み、そのモーションをＣＧアバターで再生することによって、手話のアニメーションを生成する。

【0004】

モーションデータは基本的に手話の単語（ラベル）の単位に対応するデータである。手話ラベル列に対応して、モーションデータを時系列に接続することによって、手話文に対応するモーションを生成することが可能である。

【0005】

なお、翻訳処理への入力となる日本語テキストに固有名詞が含まれる場合には、出力される手話ラベル列においてその固有名詞を構成する手話ラベルの列が含まれる。

【0006】

日本語テキストを基に手話のＣＧアニメーションを生成する手法としては、次の方法が考えられる。まず、次の２つのいずれかの手法により、日本語テキストを手話ラベル列に変換する。第１の手法では、予め日本語テキストから手話に翻訳した定型文の、文章単位でのモーションデータを複数用意しておく。また、日本語テキストの内容に応じて、定型文に含まれる固有名詞などの部分を差し替える。第２の手法では、任意の日本語文テキストを手話ラベル列に翻訳する。これらのいずれかの手法を用いることにより、日本語テキストを、手話ラベル列に変換できる。次に、手話ラベル列の各単語に対応する手話単語モーションデータを読み込み，文章単位で合成したモーションを、ＣＧアバターを用いて合成する。

【0007】

上記の第１の手法を用いて手話ラベル列を生成する場合には、定型文を利用するため、翻訳処理が不要で精度の高い手話を出力することが実現できる。しかしながら、生成できる手話文は、事前に用意しておいたパターンに限定されるという問題がある。第２の手法である翻訳を用いて手話ラベル列を生成する場合には、生成できる文章パターンの種類に制限はないが、日本語テキストから手話ラベルへの翻訳精度の問題は生じ得る。

【0008】

特許文献１や特許文献２には、日本語テキストを基に、手話ＣＧアニメーションを生成するための手話ラベル列を生成するための機械翻訳を行う技術が記載されている。これらの文献に記載された技術では、日本語テキストと手話ラベル列との対訳データであるコーパスを利用して、機械翻訳処理のための学習を行うようにしている。

【先行技術文献】

【特許文献】

【0009】

【特許文献1】特開２０１３－１８６６７３号公報

【特許文献2】特開２０１４－０２１１８０号公報

【発明の概要】

【発明が解決しようとする課題】

【0010】

従来技術では、翻訳結果である手話ラベル列には日本語テキストの品詞の情報が引き継がれない。このため、出力された手話ラベルの語順が正しくとも、空間を活用した変形や品詞ごとのまとまりなど各手話ラベルの関係性を考慮したモーション合成が再現不可能である。

【0011】

つまり従来技術では，手話ラベルへの翻訳精度が高くても、すべての手話ラベルに対応する手話表現が独立したＣＧアニメーションとなってしまう。これにより、生成されるＣＧアニメーションでは、元の日本語テキストに含まれていた表現の意味が変わってしまうという問題がある。

【0012】

翻訳処理の結果に含まれる固有名詞を構成する手話ラベルのそれぞれは、他の一般語に対応する手話ラベルと区別されず扱われるため、ＣＧアニメーションを生成した際に、元の固有名詞としての意味を表わさなくなってしまうという問題があった。つまり、手話で表現したときの固有名詞の意味が変わってしまうということである。

【0013】

本発明は、上記の問題を解決するために為されたものである。即ち、本発明は、自然言語テキストから手話ラベル列への翻訳を行って手話のアニメーションを生成する際に、元の自然言語テキストに含まれる固有名詞の意味を維持して手話を出力することのできる、翻訳装置およびプログラムを提供しようとするものである。

【課題を解決するための手段】

【0014】

［１］上記の課題を解決するため、本発明の一態様による翻訳装置は、入力されたテキストの形態素解析処理を行って形態素列を出力するとともに、前記形態素列に含まれる形態素が固有名詞である場合には当該形態素が固有名詞であることを表すデータを付与する形態素解析部と、機械学習済みのモデルに基づいて、形態素解析部から出力された前記形態素列を手話ラベル列に変換するとともに、変換後の手話ラベル列の中の、固有名詞であることを表すデータが付与された形態素に対応する手話ラベル列の部分に固有名詞マーカーを付ける翻訳部と、手話ラベルと手話モーションとの対応関係を保持する手話モーションデータベースと、前記翻訳部が出力した前記手話ラベル列の中の、前記固有名詞マーカーが付けられた手話ラベル列に基づいて、各々の前記手話ラベルに対応する手話モーションを前記手話モーションデータベースから読み出して、それらの前記手話モーションを第１わたり長で順次接続することによって、固有名詞に対応する手話モーションを合成する固有名詞モーション合成部と、前記翻訳部が出力した前記手話ラベル列の中の、前記固有名詞マーカーが付けられていない手話ラベル列に基づいて、各々の前記手話ラベルに対応する手話モーションを前記手話モーションデータベースから読み出して、それらの前記手話モーションを第２わたり長で順次接続して固有名詞以外に対応する手話モーションを合成するとともに、前記翻訳部が出力した前記手話ラベル列に基づいて前記固有名詞モーション合成部によって合成された前記固有名詞に対応する手話モーションを、前記固有名詞以外に対応する手話モーションにさらに接続することによって、前記テキストに対応する手話モーションを合成する手話モーション合成部と、を備え、前記第１わたり長は、前記第２わたり長よりも短い、というものである。

【0015】

［２］また、本発明の一態様は、上記の翻訳装置において、前記固有名詞に対応する手話モーションに含まれる各々の手話ラベルの再生速度は、前記固有名詞以外に対応する手話モーションに含まれる各々の手話ラベルの再生速度よりも速くする、というものである。

【0016】

［３］また、本発明の一態様は、上記の翻訳装置において、前記形態素解析部が固有名詞であることを表すデータを付与した前記形態素について、当該固有名詞の読みを推定する固有名詞読み推定部と、前記読みの音と手話モーションの一部である口型モーションとの対応関係を保持する口型モーションデータベースと、をさらに備え、前記固有名詞モーション合成部は、推定された前記固有名詞の読みが含むそれぞれの音に対応する口型モーションを前記口型モーションデータベースから読み出して、それらの口型モーションを前記読みに基づいて順次接続することによって前記固有名詞に対応する口型モーションを合成するとともに、前記固有名詞に対応する手話モーションにおける口型に関するデータを、合成した前記固有名詞に対応する口型モーションで置換する、というものである。

【0017】

［４］また、本発明の一態様は、上記の翻訳装置において、前記手話モーション合成部が合成した、前記テキストに対応する手話モーションデータ、に基づいてアニメーション映像を生成するアニメーション生成部、をさらに備える。

【0018】

［５］また、本発明の一態様は、入力されたテキストの形態素解析処理を行って形態素列を出力するとともに、前記形態素列に含まれる形態素が固有名詞である場合には当該形態素が固有名詞であることを表すデータを付与する形態素解析部と、機械学習済みのモデルに基づいて、形態素解析部から出力された前記形態素列を手話ラベル列に変換するとともに、変換後の手話ラベル列の中の、固有名詞であることを表すデータが付与された形態素に対応する手話ラベル列の部分に固有名詞マーカーを付ける翻訳部と、手話ラベルと手話モーションとの対応関係を保持する手話モーションデータベースと、前記翻訳部が出力した前記手話ラベル列の中の、前記固有名詞マーカーが付けられた手話ラベル列に基づいて、各々の前記手話ラベルに対応する手話モーションを前記手話モーションデータベースから読み出して、それらの前記手話モーションを第１わたり長で順次接続することによって、固有名詞に対応する手話モーションを合成する固有名詞モーション合成部と、前記翻訳部が出力した前記手話ラベル列の中の、前記固有名詞マーカーが付けられていない手話ラベル列に基づいて、各々の前記手話ラベルに対応する手話モーションを前記手話モーションデータベースから読み出して、それらの前記手話モーションを第２わたり長で順次接続して固有名詞以外に対応する手話モーションを合成するとともに、前記翻訳部が出力した前記手話ラベル列に基づいて前記固有名詞モーション合成部によって合成された前記固有名詞に対応する手話モーションを、前記固有名詞以外に対応する手話モーションにさらに接続することによって、前記テキストに対応する手話モーションを合成する手話モーション合成部と、を備え、前記第１わたり長は、前記第２わたり長よりも短い、翻訳装置、としてコンピューターを機能させるためのプログラムである。

【発明の効果】

【0019】

本発明によれば、翻訳装置は、固有名詞の部分に相当する手話ラベル間のわたりの長さを、固有名詞以外の部分に相当する手話ラベル間のわたりの長さよりも短くする。つまり、翻訳装置は、固有名詞としてのまとまりを認識しやすい手話のモーションデータを合成することができる。

【図面の簡単な説明】

【0020】

【図1】本発明の実施形態による、テキストから手話への翻訳を行う翻訳装置の概略機能構成を示したブロック図である。

【図2】同実施形態によるテキスト取得部が外部から取得する日本語テキストの一例を示す概略図である。

【図3】同実施形態による翻訳部が出力する翻訳結果データ（出力ラベル列や、固有名詞の読みなどを含むデータ）の一例を示す概略図である。

【図4】同実施形態による口型モーションデータベースが保持するデータの形式の一例を示す概略図である。

【図5】同実施形態による手話モーションデータベースが保持するデータの形式の一例を示す概略図である。

【図6】同実施形態による手話モーション合成部が合成したモーションデータに基づくＣＧアニメーションの例を示す概略図である。

【図7】同実施形態の翻訳装置によるテキストから手話への翻訳処理の手順を示すフローチャートである。

【図8】同実施形態による翻訳装置が参照する設定値の少なくとも一部を示した概略図である。

【図9】同実施形態による翻訳装置の内部構成の例を示すブロック図である。

【発明を実施するための形態】

【0021】

次に、本発明の一実施形態について、図面を参照しながら説明する。本実施形態の翻訳装置は、自然言語テキストを手話ラベル列に翻訳する。また、翻訳装置は、翻訳処理によって得られた手話ラベル列を基に手話のアニメーション動画を生成する。本実施形態では、翻訳元の自然言語テキストは、日本語のテキストである。また、翻訳結果として出力される手話は、日本手話である。ただし、日本語以外の言語で記述されたテキストを翻訳元としてもよい。また、日本手話以外の手話を出力するようにしてもよい。

【0022】

本実施形態の翻訳装置は、日本語テキストを手話ラベル列に翻訳する際に、品詞の情報（具体的には固有名詞の情報）を維持したまま翻訳処理を行う。つまり、翻訳処理の結果として出力される手話ラベル列は、どのラベルが固有名詞に相当するものであるかを表す情報を持つ。具体的には、翻訳装置が翻訳結果として出力する手話ラベル列において、固有名詞１語に相当する手話ラベル列を１つにまとめたうえで、そのまとまりに対して固有名詞であることを表すマーカーを付ける。

【0023】

翻訳装置は、その固有名詞の情報を基に手話ラベル列からモーションを合成する際に、固有名詞に相当するラベル列に特有の処理を加える。具体的には、固有名詞であることを表すマーカーが付与されたラベル列にまとまりに対しては、翻訳装置は、手話ラベル列間のわたり長を短縮したり、モーションの速度を調整したりする。つまり、翻訳装置がモーションを合成する際に、固有名詞としてのまとまりを考慮した処理を行うことが可能となる。また、翻訳装置は、固有名詞の読みに対応した口型を有するアニメーションを生成する。

【0024】

なお、わたりとは、１つの手話ラベルに相当するモーションの終わりのポイントから、他の手話ラベルに相当するモーションの始まりのポイントまでの、モーションの移行（接続）の部分である。
わたり長とは、上記のわたりの部分に相当する時間の長さである。わたり長は、例えば、秒単位あるいはフレーム数などの数値で表わされ得る。
また、口型とは、手話のモーションのうちの口の動きに相当する部分である。手話のモーションは、例えばモデル化された人の骨格の関節部分の動きのデータとして表わされ得るものである。手話のモーションのうちの口型のモーションは、上記関節部分の動きのうちの、口周りの関節の動きのデータとして表わされ得るものである。つまり、手話モーションの一部が口型モーションである。

【0025】

既存技術による翻訳装置は、自然言語テキストを基に翻訳した結果である手話ラベル列の語順のみを参照して、手話のＣＧアニメーションを生成していた。よって、既存技術の翻訳装置は、固有名詞に関して、誤った手話のＣＧアニメーションを生成する可能性があった。それに対して、本実施形態は、固有名詞を一つのまとまりとして再現した、抑揚のあるＣＧアニメーションを生成することができる。つまり、本実施形態の翻訳装置は、入力される日本語テキストの意味により近い手話のＣＧアニメーションを出力することが可能となる。

【0026】

図１は、本実施形態による翻訳装置の概略機能構成を示す機能ブロック図である。図示するように、翻訳装置１は、テキスト取得部１１と、形態素解析部１２と、固有名詞読み推定部１３と、翻訳部１４と、口型モーションデータベース２１と、手話モーションデータベース２２と、固有名詞モーション合成部２３と、手話モーション合成部２４と、ＣＧアニメーション生成部３１とを含んで構成される。テキスト取得部１１と、形態素解析部１２と、固有名詞読み推定部１３と、翻訳部１４とは、日本語のテキストを手話ラベル列に翻訳するための機能を有する。口型モーションデータベース２１と、手話モーションデータベース２２と、固有名詞モーション合成部２３と、手話モーション合成部２４とは、手話ラベル列を基に手話のモーションのデータを生成するための機能を有する。ＣＧアニメーション生成部３１は、手話モーションのデータを基にアニメーションを生成する。

【0027】

これらの各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ（ＳＳＤ）といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。各部の具体的な機能は、次の通りである。

【0028】

テキスト取得部１１は、外部から、翻訳対象の日本語テキストを取得する。テキスト取得部１１は、例えばキーボードやタッチパネルから手で入力された日本語テキストを取得する。あるいは、テキスト取得部１１は、音声認識技術を用いて発話された音声を認識することによって日本語テキストを取得してもよい。あるいは、テキスト取得部１１は、外部の記録媒体等に記録されている日本語テキストを取得してもよい。また、テキスト取得部１１は、その他の方法によって日本語テキストを取得してもよい。テキスト取得部１１は、取得した日本語テキストを、形態素解析部１２に渡す。

【0029】

形態素解析部１２は、テキスト取得部１１から渡された日本語テキストの形態素解析の処理を行う。なお、形態素解析処理自体は、既存技術を用いて実行することができる。形態素解析部１２を実現するための技術の一例は、KyTea（キューティー、http://www.phontron.com/kytea/index-ja.html）等である。ただし、ここで利用可能な技術はKyTeaには限定されない。形態素解析部１２は、日本語テキストを形態素の列に分割するとともに、各々の形態素の品詞を特定する。形態素解析部１２は、各形態素に、品詞の情報を付与する。品詞の一つとして、固有名詞が含まれる。つまり、元の日本語テキストに含まれていた固有名詞は、一つの形態素として区分され、固有名詞であることを表す情報を付与される。

【0030】

形態素解析部１２は、形態素解析処理の結果を翻訳部１４に渡す。また、元の日本語テキストに固有名詞が含まれていた場合には、形態素解析部１２は、形態素解析処理の結果を固有名詞読み推定部１３にも渡す。

【0031】

つまり、形態素解析部１２は、入力されたテキストの形態素解析処理を行って形態素列を出力するとともに、前記形態素列に含まれる形態素が固有名詞である場合には当該形態素が固有名詞であることを表すデータを付与する。

【0032】

固有名詞読み推定部１３は、日本語テキスト内に固有名詞が含まれていた場合に、上記の形態素解析処理の結果に基づいて、それらの固有名詞を抽出し、各固有名詞の日本語での読みを推定する。固有名詞の読みを推定する処理も、既存技術を用いて実現可能である。例えば、前記のKyTeaなどの既存のテキスト解析技術を利用して、漢字等を用いて表記された固有名詞の読みを推定することが可能である。ただし、KyTea以外の手法を用いて固有名詞の読みを推定するようにしてもよい。固有名詞読み推定部１３は、推定結果である固有名詞の読み方を、例えば片仮名表記のデータとして出力する。固有名詞読み推定部１３は、推定結果である読みのデータを、翻訳部１４に渡す。

【0033】

つまり、固有名詞読み推定部１３は、形態素解析部１２が固有名詞であることを表すデータを付与した形態素について、当該固有名詞の読みを推定する。

【0034】

翻訳部１４に渡される段階で、形態素に分割されたテキストが固有名詞を含む場合には、その形態素列は、固有名詞であることを表す記号（例えば、「＄ＮＥ＄」など）を伴っている。また、テキスト中の固有名詞に関しては、固有名詞読み推定部１３によって推定された読みのデータ（例えば、固有名詞「東北南部」に対して、読み「トウホクナンブ」等）が付与されている。

【0035】

翻訳部１４は、取得された日本語テキストに対応する形態素列を、手話ラベル列に翻訳する処理を行う。翻訳部１４は、機械学習の手法を用いた翻訳器の技術を用いて実現される。機械学習を用いた翻訳の技術自体は、既存技術に属する。また、テキストから手話への翻訳の手法については、前述の特許文献１や特許文献２にも記載されている。翻訳部１４は、一例として、ニューラルネットワークを用いて実現される。翻訳部１４において、ニューラルネットワーク等の翻訳モデルを、予め機械学習しておくようにする。機械学習の際には、入力データ（日本語テキストに基づく形態素列）と、出力データ（正解の手話ラベル列）とを、学習データとして用いる。翻訳部１４は、出力した手話ラベル列を、固有名詞モーション合成部２３と手話モーション合成部２４のそれぞれに渡す。

【0036】

本実施形態では、翻訳部１４は、固有名詞としてのまとまりの単位を表す情報を、翻訳結果のデータ内においても含める。言い換えれば、翻訳部１４は、出力する手話ラベル列において、元のテキストにおける固有名詞に対応する手話ラベル列については、固有名詞であることを表すマーカーを付加する。また、翻訳部１４は、固有名詞読み推定部１３から受け取った固有名詞の読みのデータを、翻訳結果のデータ内に含める。翻訳部１４が出力する手話ラベル列の例については、後で図３を参照しながら説明する。

【0037】

なお、翻訳部１４が出力する翻訳結果に含まれる手話ラベルのそれぞれは、次に説明するモーションキャプチャーデータのデータ番号（モーションを特定する番号）に対応する。つまり、翻訳部１４が出力する翻訳結果は、時系列に並んだモーションデータの列に対応するものである。

【0038】

つまり、翻訳部１４は、機械学習済みのモデル（翻訳モデル）に基づいて、形態素解析部１２から出力された前記形態素列を手話ラベル列に変換するとともに、変換後の手話ラベル列の中の、固有名詞であることを表すデータが付与された形態素に対応する手話ラベル列の部分に固有名詞マーカーを付ける。

【0039】

口型モーションデータベース２１および手話モーションデータベース２２は、手話のモーションを表すデータを記憶しているデータベースである。ＣＧアニメーションの生成において利用する手話のモーションデータは、例えば、手指、口型、顔表情などを含んだ実際の人による手話の動きをモーションキャプチャーして、ＢＶＨ（Biovision Hierarchy）などの形式で保存したものである。ＣＧアニメーションの生成で利用するために、手話のモーションデータは単語単位（手話ラベル列単位）で収録され、データベース（口型モーションデータベース２１または手話モーションデータベース２２）に保存されている。翻訳装置１は、単語単位（手話ラベル列単位）のモーションデータを時系列に並べて、単語間を接続することで文章としての手話のモーションのデータを生成する。

【0040】

口型モーションデータベース２１は、上記のモーションデータのうち、口型のモーションを表すデータを記憶するものである。口型のモーションは、発話する際の各音に対応するものである。口型モーションデータベース２１は、例えば、母音「ａ」、「ｉ」、「ｕ」、「ｅ」、「ｏ」のそれぞれと、撥音「ｎ」とに対応する口型モーションのデータを保持する。なお、口型モーションデータベース２１が、さらに他の口型モーションのデータを持っていてもよい。つまり、口型モーションデータベース２１は、読みの音と、手話モーションの一部である口型モーションと、の対応関係を保持する。

【0041】

手話モーションデータベース２２は、上記のモーションデータの全体（口以外のモーションを含む）を表すデータを記憶するものである。つまり、手話モーションデータベース２２は、手指の動きや、顔の表情といったモーションに対応するデータを保持する。なお、手話モーションデータベース２２が記憶する手話モーションデータは、口型モーションを含んでいてもよいし、含んでいなくてもよい。手話モーションデータベース２２は、手話ラベル（または手話ラベルに対応する番号等）に対応する形で、手話モーションデータを記憶する。手話モーションデータベース２２は、手話ラベルに対応付ける形で、その手話ラベルに応じたモーションのデータを保持する。即ち、手話モーションデータベース２２は、手話ラベルと手話モーションとの対応関係を保持するものである。

【0042】

固有名詞モーション合成部２３は、手話のモーションのうち、元のテキストにおいて固有名詞する部分のモーションを合成する。つまり、固有名詞モーション合成部２３は、固有名詞に対応する手話ラベル列の部分について、固有名詞としてのまとまりを表現するための手話のモーションを合成する。具体的には、固有名詞モーション合成部２３は、口型モーションデータベース２１および手話モーションデータベース２２を参照して、固有名詞に特有の手話のモーションを合成する。固有名詞モーション合成部２３は、合成した結果であるモーションのデータを、手話モーション合成部２４に渡す。固有名詞モーション合成部２３のさらに詳細な処理の内容は、次の通りである。

【0043】

固有名詞モーション合成部２３は、翻訳部１４が出力する手話ラベル列のうち、固有名詞に相当する部分（固有名詞のマーカーが付与されている部分）を抽出する。

【0044】

固有名詞モーション合成部２３は、固有名詞に相当する部分に含まれる各手話ラベルについて、口型以外のモーション（手指のモーションや、顔の表情（口型以外））のデータを手話モーションデータベース２２から取得する。そして、固有名詞モーション合成部２３は、それらの手話ラベルのそれぞれに対応する手話のモーションを時系列に連結する。手話ラベルと手話ラベルとを接続する「わたり」の部分については、固有名詞モーション合成部２３は、例えば、前のモーションの終了部分と次のモーションの先頭部分とを線形補間する。わたりの部分のモーションの接続の処理自体は、既存技術を用いて実行することができる。

【0045】

固有名詞モーション合成部２３は、次に、固有名詞部分の手話モーションの時間調整を行う。具体的には、固有名詞モーション合成部２３は、１つの固有名詞内の手話ラベル間のわたりの部分についてのわたり長（接続フレーム数、接続時間長）が、固有名詞以外の手話ラベル間のわたり長よりも短くなるように調整する。さらに、固有名詞モーション合成部２３は、固有名詞部分に含まれるそれぞれの手話ラベルに相当するモーションの速度を、固有名詞部分以外の手話ラベルに相当するモーションの速度よりも速くなるように調整してもよい。これらの調整により、固有名詞モーション合成部２３は、１つの固有名詞に相当する部分の手話のモーションのまとまりを表現できるようにする。つまり、固有名詞モーション合成部２３は、固有名詞に対応する手話モーションに含まれる各々の手話ラベルの再生速度が、固有名詞以外に対応する手話モーションに含まれる各々の手話ラベルの再生速度よりも速くなるようにする。

【0046】

固有名詞モーション合成部２３は、次に、口型モーションを合成する。具体的には、固有名詞モーション合成部２３は、上記の時間調整が完了した固有名詞モーションについて、当該固有名詞の全体のフレーム数から、その時間長（発話長）を求める。また、固有名詞モーション合成部２３は、その固有名詞に関連付けられる読みのデータ（固有名詞読み推定部１３によって推定された読み方）に基づいて、時系列の口型モーションを生成する。つまり、固有名詞モーション合成部２３は、読みのデータの一音ずつについて、口型モーションデータベース２１から口型モーションのデータを取得する。そして、固有名詞モーション合成部２３は、固有名詞の読みの音の順に口型モーションのデータを並べて、音と音の間の口型を接続する処理を行う。ここでも、モーションの接続は既存技術を利用して実現可能であり、例えば、口型の補間処理などが用いられる。また、固有名詞モーション合成部２３は、固有名詞の読みに対応する一連の口型モーションの全体が上で求めた時間長（発話長、フレーム数）に合うように、モーションの速度を調整する。ここで生成された口型モーションは、口周りの関節の動きを表すデータである。

【0047】

そして、固有名詞モーション合成部２３は、調整した口型モーションを、上記の固有名詞の手話モーションと合成する。具体的には、固有名詞モーション合成部２３は、既に合成している固有名詞部分の手話モーションの口周りの関節情報を、上記速度調整後の口型モーションで置換する。これにより、固有名詞に関して、手指や、顔の表情や、口型などのすべてを統合したモーションデータが生成される。

【0048】

つまり、固有名詞モーション合成部２３は、翻訳部１４が出力した前記手話ラベル列の中の、前記固有名詞マーカーが付けられた手話ラベル列に基づいて、各々の前記手話ラベルに対応する手話モーションを手話モーションデータベース２２から読み出す。そして、固有名詞モーション合成部２３は、それらの手話モーションを所定の第１わたり長で順次接続することによって、固有名詞に対応する手話モーションを合成する。第１わたり長は、固有名詞のモーションを合成するためのわたり長である。

【0049】

また、固有名詞モーション合成部２３は、推定された固有名詞の読みが含むそれぞれの音に対応する口型モーションを、口型モーションデータベース２１から読み出す。固有名詞モーション合成部２３は、それらの口型モーションを、推定された読みに基づいて順次接続することによって、固有名詞に対応する口型モーションを合成する。また、固有名詞モーション合成部２３は、固有名詞に対応する手話モーションにおける口型に関するデータ（口型モーションがない場合を含む）を、合成した固有名詞に対応する口型モーションで置換する。

【0050】

なお、固有名詞モーション合成部２３は、翻訳部１４が出力する翻訳結果に含まれるすべての固有名詞の各々について、上記の固有名詞モーションの合成の処理を行う。

【0051】

手話モーション合成部２４は、翻訳部１４から翻訳結果の手話ラベル列を受け取るとともに、固有名詞モーション合成部２３からそれぞれの固有名詞についてのモーションデータを受け取る。そして、手話モーション合成部２４は、固有名詞部分以外の手話ラベル列について、手話モーションデータベース２２から、手話のモーションデータを取得する。また、手話モーション合成部２４は、手話ラベル列に対応する順序で、手話のモーションを連結する。その際、手話モーション合成部２４は、ラベル間の接続の処理（前述の手話モーションの補間等）も行う。手話モーション合成部２４は、このようにして生成した固有名詞部分以外の手話モーションと、固有名詞モーション合成部２３から受け取った固有名詞部分の手話モーションとを、つなぎ合わせ、全体として元の日本語テキストに対応する全体的な手話モーションのデータを生成する。

【0052】

つまり、手話モーション合成部２４は、翻訳部１４が出力した前記手話ラベル列の中の、前記固有名詞マーカーが付けられていない手話ラベル列に基づいて、各々の前記手話ラベルに対応する手話モーションを手話モーションデータベース２２から読み出す。そして、手話モーション合成部２４は、それらの前記手話モーションを第２わたり長で順次接続して固有名詞以外に対応する手話モーションを合成する。そして手話モーション合成部２４は、翻訳部１４が出力した前記手話ラベル列に基づいて固有名詞モーション合成部２３によって合成された前記固有名詞に対応する手話モーションを、前記固有名詞以外に対応する手話モーションにさらに接続する。これによって、手話モーション合成部２４は、元のテキストに対応する手話モーションのデータを合成する。なお、上記の第２わたり長は、固有名詞以外の部分の手話ラベル間のわたりの長さである。なお、第１わたり長が、第２わたり長（固有名詞以外の部分の通常のわたり長）よりも短くなるようにする。

【0053】

手話モーション合成部２４は、得られた手話モーションのデータを、ＣＧアニメーション生成部３１に渡す。このモーションデータは、手指や、顔の表情や、口型（口の周りの関節）のモーションのすべてを含む。

【0054】

ＣＧアニメーション生成部３１は、手話モーション合成部２４から渡されたモーションデータに基づいて、ＣＧアニメーションを生成する。具体的には、ＣＧアニメーション生成部３１は、モーションデータに含まれる各関節の動きに対応したアニメーションを生成する。モーションデータからＣＧアニメーションを生成する処理自体は、既存技術を利用して実現可能である。なお、ＣＧアニメーション生成部３１は、単に「アニメーション生成部」とも呼ばれる。

【0055】

具体的には、ＣＧアニメーション生成部３１は、複数のＣＧアバターのデータを予め保持している。ＣＧアニメーション生成部３１は、手話モーション合成部２４から渡されたモーションデータを、特定のＣＧアバターに適用し、アニメーションのレンダリングを行うことによって、そのＣＧアバターが手話の動作をするＣＧアニメーションを生成する。

【0056】

つまり、ＣＧアニメーション生成部３１は、手話モーション合成部２４が合成した入力テキストに対応する手話モーションデータに基づいて、アニメーション映像を生成する。

【0057】

次に、翻訳装置１の処理におけるデータの詳細について説明する。

【0058】

図２は、テキスト取得部１１が外部から取得する日本語テキストの一例を示す概略図である。図示するテキストの例は、「今夜までに降る雪の量は、いずれも多いところで東北南部の太平洋側で２０ｃｍ。」というものである。このテキストの文において、「東北南部」および「太平洋側」の２つが固有名詞である。形態素解析部１２は、形態素解析処理の結果として、これら「東北南部」および「太平洋側」に、固有名詞の品詞情報を付与する。

【0059】

図３は、翻訳部１４が出力する翻訳結果データの一例を示す概略図である。この翻訳結果データは、手話ラベル列とその他の情報とを含む。ここで図示する翻訳結果の例は、図２の日本語テキストを基に翻訳部１４が翻訳した結果である。図３に示すデータの例は、コンマ（comma）で区切られる記号（ラベル等）の列である。ここで、「暗い」、「まで」、「雪」、「量」、「たくさん」、「場所」などの各々は、手話における単語に相当するラベルである。また、Ｎは、特殊な記号であり、手話におけるうなずきの動作に対応するものである。また、［首かしげ］や［空書］は、手話におけるその他の動作に対応するものである。

【0060】

本実施形態の翻訳部１４が出力するデータの特徴は、「ＰＮ｛・・・｝＿Ｍ｛・・・｝」という表記である。これは、元のテキストに含まれる固有名詞（proprietary noun）に対応するデータである。言い換えれば、この「ＰＮ｛・・・｝＿Ｍ｛・・・｝」というデータは、固有名詞のマーカーである。翻訳部１４は、前述の通り、元のテキストに含まれる固有名詞の情報を受け取る。翻訳部１４は、入力される固有名詞に対応して、この固有名詞のマーカーのデータを出力する。固有名詞のマーカーに含まれる「ＰＮ｛・・・｝」というデータは、その固有名詞に対応する手話ラベル列を格納するためのデータである。また、同じくマーカーに含まれる「Ｍ｛・・・｝」というデータは、その固有名詞に関する読みを格納するためのデータである。

【0061】

具体的には、図３に示すデータにおける「ＰＮ｛東，北，暑い｝＿Ｍ｛トウホクナンブ｝」は、図２のテキストにおける固有名詞「東北南部」に対応する。この「東，北，暑い」という手話ラベル列は、「東北南部」の手話による表現を表す。また、「トウホクナンブ」は、固有名詞「東北南部」について固有名詞読み推定部１３が推定した読みのデータである。また、図３に示すデータにおける「ＰＮ｛とても，あたり｝＿Ｍ｛タイヘイヨウガワ｝」は、図２のテキストにおける固有名詞「太平洋側」に対応する。この「とても，あたり」という手話ラベル列は、「太平洋側」の手話による表現を表す。また、「タイヘイヨウガワ」は、固有名詞「太平洋側」について固有名詞読み推定部１３が推定した読みのデータである。

【0062】

つまり、入力となる日本語テキストに固有名詞が含まれる場合、翻訳部１４は、その固有名詞に対応する翻訳結果を、固有名詞マーカーで表わしたデータとして出力する。また、翻訳部１４は、固有名詞読み推定部１３から渡される固有名詞の読み（読みの推定結果）を、そのまま、「Ｍ｛・・・｝」という形式のデータに含めて出力する。また、翻訳部１４は、固有名詞に対応する手話ラベル列（翻訳結果）を、「ＰＮ｛・・・｝」という形式のデータに含めて出力する。

【0063】

図４は、口型モーションデータベース２１が保持するデータの形式の一例を示す概略図である。図示するように、口型モーションデータベース２１は、例えば表形式のデータを保持する。この表は、音（読みの要素）および口型モーションの各項目を持つ。つまり、口型モーションデータベース２１は、音に対応して口型モーションのデータを保持する。音は、例えば、ａ，ｉ，ｕ，ｅ，ｏ，ｎといった音、あるいはその他の音である。口型モーションのデータは、各音に対応する口周りのモーションを表すデータである。

【0064】

図５は、手話モーションデータベース２２が保持するデータの形式の一例を示す概略図である。図示するように、図示するように、手話モーションデータベース２２は、例えば表形式のデータを保持する。この表は、手話ラベルおよび手話モーションの各項目を持つ。つまり、手話モーションデータベース２２は、手話ラベルのそれぞれに対応して手話モーションのデータを保持する。手話モーションのデータは、手話の動作に対応するモーション（手指や顔の表情の動き）を表すデータである。

【0065】

図６は、手話モーション合成部２４が合成したモーションデータに基づく、ＣＧアニメーションの例を示す概略図である。ここで図示するアニメーションは、図３の翻訳結果（手話ラベル列）における「・・・，言う，Ｎ，ＰＮ｛東，北，暑い｝＿Ｍ｛トウホクナンブ｝，ＰＮ｛とても，あたり｝＿Ｍ｛タイヘイヨウガワ｝，Ｎ，２０，・・・」の部分に対応する。この一連のアニメーションの中で、区間Ａは固有名詞「東北南部」に対応する。また、区間Ｂは固有名詞「太平洋側」に対応する。

【0066】

前述の通り、固有名詞モーション合成部２３は、「東，北，暑い」のラベル列に相当する手話モーションの速度を、固有名詞以外の部分の手話モーションの速度より速くする。また、固有名詞モーション合成部２３は、「東，北，暑い」のラベル列におけるラベル間の接続時間を、固有名詞以外の部分におけるラベル間の接続時間よりも短くする。また、固有名詞モーション合成部２３は、「東，北，暑い」のラベル列に相当する部分の口型を、「ヒガシ／キタ／アツイ」ではなく「トウホクナンブ」に対応する口型とする。即ち、固有名詞モーション合成部２３は、「トウホクナンブ」に対応する母音および撥音の列である「ｏ／ｕ／ｏ／ｕ／ａ／ｎ／ｕ」のそれぞれの音に対応する口型モーションを口型モーションデータベース２１から読み出す。固有名詞モーション合成部２３は、それらの口型モーションを接続して、固有名詞「東北南部」に対応するモーションを合成する。これにより、ＣＧアニメーション生成部３１は、「東北南部」という固有名詞と認識しやすい手話のアニメーションを生成することとなる。

【0067】

また、同様に、固有名詞モーション合成部２３は、「とても，あたり」のラベル列に相当する手話モーションの速度を、固有名詞以外の部分の手話モーションの速度より速くする。また、固有名詞モーション合成部２３は、「とても，あたり」のラベル列におけるラベル間の接続時間を、固有名詞以外の部分におけるラベル間の接続時間よりも短くする。また、固有名詞モーション合成部２３は、「とても，あたり」のラベル列に相当する部分の口型を、「トテモ／アタリ」ではなく「タイヘイヨウガワ」に対応する口型とする。即ち、固有名詞モーション合成部２３は、「タイヘイヨウガワ」に対応する母音の列である「ａ／ｉ／ｅ／ｉ／ｏ／ｕ／ａ／ａ」のそれぞれの音に対応する口型モーションを口型モーションデータベース２１から読み出す。固有名詞モーション合成部２３は、それらの口型モーションを接続して、固有名詞「太平洋側」に対応するモーションを合成する。これにより、ＣＧアニメーション生成部３１は、「太平洋側」という固有名詞と認識しやすい手話のアニメーションを生成することとなる。

【0068】

図７は、翻訳装置１による処理の手順を示すフローチャートである。以下、このフローチャートに沿って動作手順を説明する。

【0069】

まず、ステップＳ１１において、翻訳装置１のテキスト取得部１１は、手話への翻訳の対象となる日本語テキストを外部から取得する。

【0070】

次に、ステップＳ１２において、形態素解析部１２は、ステップＳ１１において取得された日本語テキスト（文、文章）の形態素解析処理を行う。その結果、形態素解析部１２は、日本語テキストを形態素に区切るとともに、それぞれの形態素の品詞情報を付与する。ここで、一部の形態素は固有名詞である可能性がある。

【0071】

次に、ステップＳ１３において、翻訳装置１は、ステップＳ１２の形態素解析処理の結果において、固有名詞が含まれるか否かを判定する。固有名詞が含まれる場合には（ステップＳ１３：ＹＥＳ）、ステップＳ１４に進む。固有名詞が含まれない場合には（ステップＳ１３：ＮＯ）、ステップＳ１５に飛ぶ。

【0072】

次に、ステップＳ１４に進んだ場合には、同ステップにおいて、固有名詞読み推定部１３は、検出された固有名詞の読みを推定する。元の日本語テキスト内に複数の固有名詞が含まれる場合には、固有名詞読み推定部１３は、それらのそれぞれの固有名詞の読みを推定する。

【0073】

次に、ステップＳ１５において、翻訳部１４は、ステップＳ１１において取得された日本語テキストの手話ラベル列への翻訳処理を行う。なお、日本語テキストに固有名詞が含まれる場合には、翻訳結果である手話ラベル列においても固有名詞としてのまとまりを示す情報（固有名詞のマーカー）が維持されている。また、日本語テキストに固有名詞が含まれる場合には、翻訳部１４は、ステップＳ１４で推定された結果である固有名詞の読みのデータを、翻訳結果であるラベル列の中に含めるようにする（図３も参照）。

【0074】

次に、ステップＳ１６において、翻訳装置１は、ステップＳ１５で生成された翻訳結果（手話ラベル列のデータ）が、固有名詞のマーカーを含むか否かを判定する。翻訳結果のデータが固有名詞のマーカーを含む場合（ステップＳ１６：ＹＥＳ）には、ステップＳ１７に進む。翻訳結果のデータが固有名詞のマーカーを含まない場合（ステップＳ１６：ＮＯ）には、ステップＳ１９に飛ぶ。

【0075】

次に、ステップＳ１７に進んだ場合には、同ステップにおいて、固有名詞モーション合成部２３は、固有名詞用の手話モーションのデータを読み込み、合成する。

【0076】

具体的には、固有名詞モーション合成部２３は、翻訳部１４が出力した翻訳結果に含まれているそれぞれの固有名詞について、手話モーションデータを手話モーションデータベース２２から読み込む。固有名詞モーション合成部２３は、固有名詞に該当する手話ラベル列が含む手話ラベルのそれぞれに関しての手話モーションデータを、手話モーションデータベース２２から読み込む。つまり、具体例としては、図３に示した翻訳結果のうちの固有名詞部分の１つ「ＰＮ｛東，北，暑い｝＿Ｍ｛トウホクナンブ｝」について、固有名詞モーション合成部２３は、「東」、「北」、「暑い」というそれぞれのラベルについて、対応する手話モーションを手話モーションデータベース２２から読み込む。そして、固有名詞モーション合成部２３は、読み込んだ手話モーションを手話ラベル列の順にしたがって順次連結する。上記の「｛東，北，暑い｝」というラベル列の場合には、固有名詞モーション合成部２３は、「東」に対応する手話モーションと、「北」に対応する手話モーションと、「暑い」に対応する手話モーションとを連結する。ただし、手話ラベルから手話ラベルへのわたりの部分については、固有名詞モーション合成部２３は、線形補間等による接続を行う。なお、固有名詞モーション合成部２３は、予め固有名詞用に決められている速度で手話のモーションを実行させるようにする。また、固有名詞モーション合成部２３は、わたりの部分の接続時間の長さが予め固有名詞用に決められている長さとなるようにする。

【0077】

上記のステップＳ１７の処理により、固有名詞モーション合成部２３は、固有名詞に関して、口型以外のモーションのデータを作成する。このステップＳ１７の処理を終えた段階では、固有名詞部分の口型のモーションは、手話モーションデータベース２２から読み込んだモーションデータのままの状態である。

【0078】

その次に、ステップＳ１８において、固有名詞モーション合成部２３は、固有名詞用の口型モーションのデータを読み込み、合成する。

【0079】

具体的には、固有名詞モーション合成部２３は、翻訳部１４が出力した翻訳結果に含まれているそれぞれの固有名詞について、その読みの各音についての口型モーションデータを、口型モーションデータベース２１から読み込む。具体例としては、図３に示した翻訳結果のうちの固有名詞部分の１つ「ＰＮ｛東，北，暑い｝＿Ｍ｛トウホクナンブ｝」について、固有名詞モーション合成部２３は、ト、ウ、ホ、ク、ナ、ン、ブの各音について、対応する口型モーションを口型モーションデータベース２１から読み込む。図４に例示したように口型モーションデータベース２１が母音および撥音のそれぞれに対応する口型モーションのデータを保持する場合には、固有名詞モーション合成部２３は、ｏ、ｕ、ｏ、ｕ、ａ、ｎ、ｕの各音に対応する口型モーションのデータを読み込む。そして、固有名詞モーション合成部２３は、読み込んだ口型モーションを音の列の順にしたがって順次連結する。上記の「｛トウホクナンブ｝」という読みの場合には、固有名詞モーション合成部２３は、ｏ、ｕ、ｏ、ｕ、ａ、ｎ、ｕのそれぞれの音に対応する口型モーションをその順に連結する。このとき、固有名詞モーション合成部２３は、連結された口型モーションの全体の時間長が、ステップＳ１７で合成した当該固有名詞の手話モーションの時間長に整合するように、口型モーションンの速度を調整する。さらに、固有名詞モーション合成部２３は、ステップＳ１７で合成した当該固有名詞の手話モーションに含まれる口型モーションのデータを、ステップＳ１７で生成した当該固有名詞の読みに対応する口型モーションのデータで置換する。

【0080】

上記のステップＳ１８の処理により、固有名詞モーション合成部２３は、固有名詞の読みに対応した口型モーションのデータを生成できる。さらに、固有名詞モーション合成部２３は、固有名詞に対応する手話モーションデータ（ステップＳ１７で合成）中の口型モーションのデータを、上記の読みに対応した口型モーションのデータで置き換える。つまり、ステップＳ１７およびＳ１８の処理により、固有名詞モーション合成部２３は、固有名詞として正しく認識することのできる手話モーションのデータを生成する。なお、固有名詞モーション合成部２３は、合成された固有名詞の手話モーションのデータを、手話モーション合成部２４に渡す。

【0081】

次に、ステップＳ１９において、手話モーション合成部２４は、固有名詞部分以外の手話ラベルについての手話モーションデータを、手話モーションデータベース２２から読み込む。具体的には、手話モーション合成部２４は、翻訳部１４が出力した翻訳結果の中の固有名詞部分以外のすべての手話ラベル（Ｎや、［空書］や、［首かしげ］などといった動作のラベルを含む）のそれぞれについて、手話モーションデータベース２２からモーションデータを読み込む。

【0082】

次に、ステップＳ２０において、手話モーション合成部２４は、入力されたテキストに対する全体の手話モーションを合成する。具体的には、手話モーション合成部２４は本ステップにおいて、ステップＳ１９で読み込んだモーションデータを、翻訳結果である手話ラベル列の順にしたがって、連結する。また、手話モーション合成部２４は、ステップＳ１７およびＳ１８の処理で合成された手話データを、翻訳部１４が出力した手話ラベル列の順にしたがって、連結する。本ステップにおいて手話モーション合成部２４が複数の手話モーションを連結する場合には、わたりの部分のモーションを補間処理等によって生成する。また、手話モーション合成部２４は、わたりの部分の時間長（フレーム数）が、固有名詞以外のわたり長として予め定められた長さとなるように調整する。

【0083】

ステップＳ２０の処理により、ステップＳ１１で取得されたテキストの全体に対応する手話のモーションデータが出来上がる。手話モーション合成部２４は、完成した全体のモーションデータを、ＣＧアニメーション生成部３１に渡す。

【0084】

次に、ステップＳ２１において、ＣＧアニメーション生成部３１は、ステップＳ２０で完成した手話のモーションデータに基づいて、ＣＧアニメーションを生成する。具体的には、ＣＧアニメーション生成部３１は、予め保持しているアバターあるいは指定されたアバターの定義を用いて、アバターがモーションデータにしたがった動作をするように、各フレームのアニメーション画像をレンダリングする。それらのフレーム画像を時系列に並べ、必要に応じて適宜符号化したものが、日本語テキストを翻訳した結果である手話を表す動画である。

【0085】

図８は、翻訳装置１が処理を行うために参照する設定値の少なくとも一部を示した概略図である。図示するように、翻訳装置１は、固有名詞内のラベル間わたり長を設定可能な値としている。この項目の設定値は、例えば、「０．２５秒」である。また、翻訳装置１は、固有名詞内以外でのラベル間わたり長を設定可能な値としている。この項目の設定値は、例えば、「０．６０秒」である。また、翻訳装置１は、固有名詞内のラベルの再生速度比率（固有名詞以外のラベルの再生速度の何倍か）を設定可能な値としている。この項目の設定値は、例えば、「１．３０」である。また、翻訳装置１がその他の設定項目を有していてもよい。なお、ここで図示した設定値は単なる例である。翻訳装置１を使用するにあたっては、これらの設定値を項目ごとに予め定めた適切な値に設定しておくことができる。

【0086】

図９は、実施形態として説明した翻訳装置１の内部構成の例を示すブロック図である。翻訳装置１は、コンピューターを用いて実現され得る。図示するように、そのコンピューターは、中央処理装置９０１と、ＲＡＭ９０２と、入出力ポート９０３と、入出力デバイス９０４や９０５等と、バス９０６と、を含んで構成される。コンピューター自体は、既存技術を用いて実現可能である。中央処理装置９０１は、ＲＡＭ９０２等から読み込んだプログラムに含まれる命令を実行する。中央処理装置９０１は、各命令にしたがって、ＲＡＭ９０２にデータを書き込んだり、ＲＡＭ９０２からデータを読み出したり、算術演算や論理演算を行ったりする。ＲＡＭ９０２は、データやプログラムを記憶する。ＲＡＭ９０２に含まれる各要素は、アドレスを持ち、アドレスを用いてアクセスされ得るものである。なお、ＲＡＭは、「ランダムアクセスメモリー」の略である。入出力ポート９０３は、中央処理装置９０１が外部の入出力デバイス等とデータのやり取りを行うためのポートである。入出力デバイス９０４や９０５は、入出力デバイスである。入出力デバイス９０４や９０５は、入出力ポート９０３を介して中央処理装置９０１との間でデータをやりとりする。バス９０６は、コンピューター内部で使用される共通の通信路である。例えば、中央処理装置９０１は、バス９０６を介してＲＡＭ９０２のデータを読んだり書いたりする。また、例えば、中央処理装置９０１は、バス９０６を介して入出力ポートにアクセスする。

【0087】

なお、上述した実施形態における翻訳装置１の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。つまり、「コンピューター読み取り可能な記録媒体」とは、非一過性の（non-transitory）コンピューター読み取り可能な記録媒体であってよい。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

【0088】

以上説明したように、本実施形態による翻訳装置１は、入力テキスト中に固有名詞が含まれる場合に、固有名詞として認識しやすい間（ま）を持つ手話のモーションを出力することができる。また、本実施形態による翻訳装置１は、入力テキスト中に固有名詞が含まれる場合に、固有名詞の読みに対応した口型を有する手話のモーションを出力することができる。

【0089】

以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。なお、組み合わせることが可能な限りにおいて、複数の変形例を組み合わせて実施してもよい。

【0090】

［変形例１］
上記の実施形態では、翻訳対象として入力されるテキストは、日本語で記述されたテキストであった。代わりに、他の自然言語で記述されたテキストを翻訳対象として取り込むようにしてもよい。また、上記の実施形態では、翻訳結果として出力される手話ラベル列は、日本手話のラベル列であった。また、翻訳装置１は、翻訳結果である日本手話のラベル列を基に、日本手話のＣＧアニメーションを生成する機能を有していた。代わりに、翻訳結果が、他の種類の手話のラベル列であってもよい。また、翻訳装置１がその手話（日本手話以外の手話）のラベル列に基づいて、当該ラベル列に対応する種類の手話（日本手話以外）のＣＧアニメーションを生成するようにしてもよい。これらの場合にも、翻訳装置は、入力テキスト中に出現する固有名詞をひとまとまりのラベル列として扱うことにより、固有名詞として正しく認識される手話を出力することが可能となる。

【0091】

［変形例２］
上記の実施形態では、固有名詞の部分に対応する手話のモーションを、ひとまとまりの固有名詞として認識できるように、わたりの時間長を短くしたり、各ラベルに対応する手話モーションの速度を速めたりしていた。このような調整を、時間調整と便宜的に呼ぶ。また、上記の実施形態では、時間調整だけではなく、固有名詞の読みの推定結果に基づく口型モーションのデータを合成し、その口型モーションのデータに対応する口周りの動きを、ＣＧアニメーションで実現していた。このような調整を、口型調整と便宜的に呼ぶ。変形例２としては、翻訳装置１が、上記の時間調整のみを行い、口型調整を行わないようにしてもよい。また逆に、翻訳装置１が、上記の口型調整のみを行い、時間調整を行わないようにしてもよい。このような変形例２を実施する場合にも、従来技術による手話翻訳よりは、固有名詞としてより認識されやすい手話のモーションを実現することが可能となる。

【0092】

［変形例３］
上記実施形態では、固有名詞モーション合成部２３は、固有名詞に対応する手話モーションに含まれる各々の手話ラベルの再生速度が、固有名詞以外に対応する手話モーションに含まれる各々の手話ラベルの再生速度よりも速くなるようにした。変形例として、必ずしもそのようにしなくてもよい。即ち、固有名詞モーション合成部２３は、固有名詞に対応する手話モーションに含まれる各々の手話ラベルの再生速度が、固有名詞以外に対応する手話モーションに含まれる各々の手話ラベルの再生速度と同程度となるようにしてもよい。

【0093】

［変形例３］
上記実施形態では、固有名詞モーション合成部２３は、固有名詞に対応する口型モーションで、固有名詞に対応する手話モーションにおける口型に関するデータ（口型モーションがない場合を含む）を、置換するようにした。変形例として、固有名詞モーション合成部２３が、推定された読みに基づく口型モーションの置換を行わないようにしてもよい。その場合にも、翻訳装置１が出力する手話のモーションでは、口型モーション以外の、わたりの長さや、手話ラベルに対応するモーションの再生速度によって、固有名詞を認識しやすくなっている。

【0094】

以上、この発明の実施形態（変形例を含む）について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

【産業上の利用可能性】

【0095】

本発明は、例えば、手話の生成に利用することができる。手話を効率的に生成することによるメリットが得られる産業は、例えば、コンテンツ制作および配信の事業等である。但し、本発明の利用範囲はここに例示したものには限られない。

【符号の説明】

【0096】

１翻訳装置
１１テキスト取得部
１２形態素解析部
１３固有名詞読み推定部
１４翻訳部
２１口型モーションデータベース
２２手話モーションデータベース
２３固有名詞モーション合成部
２４手話モーション合成部
３１ＣＧアニメーション生成部（アニメーション生成部）
９０１中央処理装置
９０２ＲＡＭ
９０３入出力ポート
９０４，９０５入出力デバイス
９０６バス

【図1】