(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022164367
(43)【公開日】2022-10-27
(54)【発明の名称】翻訳装置およびプログラム
(51)【国際特許分類】
G06F 40/40 20200101AFI20221020BHJP
G06F 40/295 20200101ALI20221020BHJP
G09B 21/00 20060101ALI20221020BHJP
G06T 13/80 20110101ALI20221020BHJP
【FI】
G06F40/40
G06F40/295
G09B21/00 F
G06T13/80 B
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2021069808
(22)【出願日】2021-04-16
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100141139
【弁理士】
【氏名又は名称】及川 周
(74)【代理人】
【識別番号】100171446
【弁理士】
【氏名又は名称】高田 尚幸
(74)【代理人】
【識別番号】100114937
【弁理士】
【氏名又は名称】松本 裕幸
(74)【代理人】
【識別番号】100171930
【弁理士】
【氏名又は名称】木下 郁一郎
(72)【発明者】
【氏名】内田 翼
(72)【発明者】
【氏名】森田 祐介
【テーマコード(参考)】
5B050
5B091
【Fターム(参考)】
5B050BA08
5B050BA12
5B050EA19
5B091AA11
5B091AB06
(57)【要約】
【課題】元の自然言語テキストに含まれる固有名詞の意味を維持して手話を出力することのできる、翻訳装置およびプログラムを提供する。
【解決手段】翻訳装置は、翻訳部と、手話モーションデータベースと、固有名詞モーション合成部とを含む。翻訳部は、自然言語テキストを、手話ラベル列に変換する。手話ラベル列内において固有名詞相当の部分は特定されている。手話モーションデータベースは、手話ラベルと手話モーションとの対応関係を保持する。固有名詞モーション合成部は、前記翻訳部が出力した前記手話ラベル列の中の、前記固有名詞マーカーが付けられた手話ラベル列に基づいて、各々の前記手話ラベルに対応する手話モーションを前記手話モーションデータベースから読み出して、それらの前記手話モーションを通常より短いわたり長で順次接続することによって、固有名詞に対応する手話モーションを合成する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
入力されたテキストの形態素解析処理を行って形態素列を出力するとともに、前記形態素列に含まれる形態素が固有名詞である場合には当該形態素が固有名詞であることを表すデータを付与する形態素解析部と、
機械学習済みのモデルに基づいて、形態素解析部から出力された前記形態素列を手話ラベル列に変換するとともに、変換後の手話ラベル列の中の、固有名詞であることを表すデータが付与された形態素に対応する手話ラベル列の部分に固有名詞マーカーを付ける翻訳部と、
手話ラベルと手話モーションとの対応関係を保持する手話モーションデータベースと、
前記翻訳部が出力した前記手話ラベル列の中の、前記固有名詞マーカーが付けられた手話ラベル列に基づいて、各々の前記手話ラベルに対応する手話モーションを前記手話モーションデータベースから読み出して、それらの前記手話モーションを第1わたり長で順次接続することによって、固有名詞に対応する手話モーションを合成する固有名詞モーション合成部と、
前記翻訳部が出力した前記手話ラベル列の中の、前記固有名詞マーカーが付けられていない手話ラベル列に基づいて、各々の前記手話ラベルに対応する手話モーションを前記手話モーションデータベースから読み出して、それらの前記手話モーションを第2わたり長で順次接続して固有名詞以外に対応する手話モーションを合成するとともに、前記翻訳部が出力した前記手話ラベル列に基づいて前記固有名詞モーション合成部によって合成された前記固有名詞に対応する手話モーションを、前記固有名詞以外に対応する手話モーションにさらに接続することによって、前記テキストに対応する手話モーションを合成する手話モーション合成部と、
を備え、
前記第1わたり長は、前記第2わたり長よりも短い、
翻訳装置。
【請求項2】
前記固有名詞に対応する手話モーションに含まれる各々の手話ラベルの再生速度は、前記固有名詞以外に対応する手話モーションに含まれる各々の手話ラベルの再生速度よりも速くする、
請求項1に記載の翻訳装置。
【請求項3】
前記形態素解析部が固有名詞であることを表すデータを付与した前記形態素について、当該固有名詞の読みを推定する固有名詞読み推定部と、
前記読みの音と手話モーションの一部である口型モーションとの対応関係を保持する口型モーションデータベースと、
をさらに備え、
前記固有名詞モーション合成部は、推定された前記固有名詞の読みが含むそれぞれの音に対応する口型モーションを前記口型モーションデータベースから読み出して、それらの口型モーションを前記読みに基づいて順次接続することによって前記固有名詞に対応する口型モーションを合成するとともに、前記固有名詞に対応する手話モーションにおける口型に関するデータを、合成した前記固有名詞に対応する口型モーションで置換する、
請求項1または2に記載の翻訳装置。
【請求項4】
前記手話モーション合成部が生成した、前記テキストに対応する手話モーションデータ、に基づいてアニメーション映像を生成するアニメーション生成部、
をさらに備える請求項1から3までのいずれか一項に記載の翻訳装置。
【請求項5】
入力されたテキストの形態素解析処理を行って形態素列を出力するとともに、前記形態素列に含まれる形態素が固有名詞である場合には当該形態素が固有名詞であることを表すデータを付与する形態素解析部と、
機械学習済みのモデルに基づいて、形態素解析部から出力された前記形態素列を手話ラベル列に変換するとともに、変換後の手話ラベル列の中の、固有名詞であることを表すデータが付与された形態素に対応する手話ラベル列の部分に固有名詞マーカーを付ける翻訳部と、
手話ラベルと手話モーションとの対応関係を保持する手話モーションデータベースと、
前記翻訳部が出力した前記手話ラベル列の中の、前記固有名詞マーカーが付けられた手話ラベル列に基づいて、各々の前記手話ラベルに対応する手話モーションを前記手話モーションデータベースから読み出して、それらの前記手話モーションを第1わたり長で順次接続することによって、固有名詞に対応する手話モーションを合成する固有名詞モーション合成部と、
前記翻訳部が出力した前記手話ラベル列の中の、前記固有名詞マーカーが付けられていない手話ラベル列に基づいて、各々の前記手話ラベルに対応する手話モーションを前記手話モーションデータベースから読み出して、それらの前記手話モーションを第2わたり長で順次接続して固有名詞以外に対応する手話モーションを合成するとともに、前記翻訳部が出力した前記手話ラベル列に基づいて前記固有名詞モーション合成部によって合成された前記固有名詞に対応する手話モーションを、前記固有名詞以外に対応する手話モーションにさらに接続することによって、前記テキストに対応する手話モーションを合成する手話モーション合成部と、
を備え、
前記第1わたり長は、前記第2わたり長よりも短い、
翻訳装置、としてコンピューターを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、翻訳装置およびプログラムに関する。
【背景技術】
【0002】
コンピュータグラフィックス(CG)アニメーションを利用した、日本語テキストから手話(日本手話)への翻訳処理の技術は、様々な分野において広く使用される可能性を持つ。
【0003】
従来の一般的なCGアニメーション向けの手話翻訳の手法では、テキスト化した日本語(入力情報)と、対応する手話ラベル列(出力情報)との組み合わせで用例コーパスを構築する。そして、その用例コーパスを利用して生成した統計モデルやニューラルネットワークを用いて、日本語テキストから複数の手話ラベルを時系列に列挙した手話ラベル列への翻訳を実現している。さらに、その翻訳結果である手話ラベル列を基に、各手話ラベルに対応するモーションデータを読み込み、そのモーションをCGアバターで再生することによって、手話のアニメーションを生成する。
【0004】
モーションデータは基本的に手話の単語(ラベル)の単位に対応するデータである。手話ラベル列に対応して、モーションデータを時系列に接続することによって、手話文に対応するモーションを生成することが可能である。
【0005】
なお、翻訳処理への入力となる日本語テキストに固有名詞が含まれる場合には、出力される手話ラベル列においてその固有名詞を構成する手話ラベルの列が含まれる。
【0006】
日本語テキストを基に手話のCGアニメーションを生成する手法としては、次の方法が考えられる。まず、次の2つのいずれかの手法により、日本語テキストを手話ラベル列に変換する。第1の手法では、予め日本語テキストから手話に翻訳した定型文の、文章単位でのモーションデータを複数用意しておく。また、日本語テキストの内容に応じて、定型文に含まれる固有名詞などの部分を差し替える。第2の手法では、任意の日本語文テキストを手話ラベル列に翻訳する。これらのいずれかの手法を用いることにより、日本語テキストを、手話ラベル列に変換できる。次に、手話ラベル列の各単語に対応する手話単語モーションデータを読み込み,文章単位で合成したモーションを、CGアバターを用いて合成する。
【0007】
上記の第1の手法を用いて手話ラベル列を生成する場合には、定型文を利用するため、翻訳処理が不要で精度の高い手話を出力することが実現できる。しかしながら、生成できる手話文は、事前に用意しておいたパターンに限定されるという問題がある。第2の手法である翻訳を用いて手話ラベル列を生成する場合には、生成できる文章パターンの種類に制限はないが、日本語テキストから手話ラベルへの翻訳精度の問題は生じ得る。
【0008】
特許文献1や特許文献2には、日本語テキストを基に、手話CGアニメーションを生成するための手話ラベル列を生成するための機械翻訳を行う技術が記載されている。これらの文献に記載された技術では、日本語テキストと手話ラベル列との対訳データであるコーパスを利用して、機械翻訳処理のための学習を行うようにしている。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開2013-186673号公報
【特許文献2】特開2014-021180号公報
【発明の概要】
【発明が解決しようとする課題】
【0010】
従来技術では、翻訳結果である手話ラベル列には日本語テキストの品詞の情報が引き継がれない。このため、出力された手話ラベルの語順が正しくとも、空間を活用した変形や品詞ごとのまとまりなど各手話ラベルの関係性を考慮したモーション合成が再現不可能である。
【0011】
つまり従来技術では,手話ラベルへの翻訳精度が高くても、すべての手話ラベルに対応する手話表現が独立したCGアニメーションとなってしまう。これにより、生成されるCGアニメーションでは、元の日本語テキストに含まれていた表現の意味が変わってしまうという問題がある。
【0012】
翻訳処理の結果に含まれる固有名詞を構成する手話ラベルのそれぞれは、他の一般語に対応する手話ラベルと区別されず扱われるため、CGアニメーションを生成した際に、元の固有名詞としての意味を表わさなくなってしまうという問題があった。つまり、手話で表現したときの固有名詞の意味が変わってしまうということである。
【0013】
本発明は、上記の問題を解決するために為されたものである。即ち、本発明は、自然言語テキストから手話ラベル列への翻訳を行って手話のアニメーションを生成する際に、元の自然言語テキストに含まれる固有名詞の意味を維持して手話を出力することのできる、翻訳装置およびプログラムを提供しようとするものである。
【課題を解決するための手段】
【0014】
[1]上記の課題を解決するため、本発明の一態様による翻訳装置は、入力されたテキストの形態素解析処理を行って形態素列を出力するとともに、前記形態素列に含まれる形態素が固有名詞である場合には当該形態素が固有名詞であることを表すデータを付与する形態素解析部と、機械学習済みのモデルに基づいて、形態素解析部から出力された前記形態素列を手話ラベル列に変換するとともに、変換後の手話ラベル列の中の、固有名詞であることを表すデータが付与された形態素に対応する手話ラベル列の部分に固有名詞マーカーを付ける翻訳部と、手話ラベルと手話モーションとの対応関係を保持する手話モーションデータベースと、前記翻訳部が出力した前記手話ラベル列の中の、前記固有名詞マーカーが付けられた手話ラベル列に基づいて、各々の前記手話ラベルに対応する手話モーションを前記手話モーションデータベースから読み出して、それらの前記手話モーションを第1わたり長で順次接続することによって、固有名詞に対応する手話モーションを合成する固有名詞モーション合成部と、前記翻訳部が出力した前記手話ラベル列の中の、前記固有名詞マーカーが付けられていない手話ラベル列に基づいて、各々の前記手話ラベルに対応する手話モーションを前記手話モーションデータベースから読み出して、それらの前記手話モーションを第2わたり長で順次接続して固有名詞以外に対応する手話モーションを合成するとともに、前記翻訳部が出力した前記手話ラベル列に基づいて前記固有名詞モーション合成部によって合成された前記固有名詞に対応する手話モーションを、前記固有名詞以外に対応する手話モーションにさらに接続することによって、前記テキストに対応する手話モーションを合成する手話モーション合成部と、を備え、前記第1わたり長は、前記第2わたり長よりも短い、というものである。
【0015】
[2]また、本発明の一態様は、上記の翻訳装置において、前記固有名詞に対応する手話モーションに含まれる各々の手話ラベルの再生速度は、前記固有名詞以外に対応する手話モーションに含まれる各々の手話ラベルの再生速度よりも速くする、というものである。
【0016】
[3]また、本発明の一態様は、上記の翻訳装置において、前記形態素解析部が固有名詞であることを表すデータを付与した前記形態素について、当該固有名詞の読みを推定する固有名詞読み推定部と、前記読みの音と手話モーションの一部である口型モーションとの対応関係を保持する口型モーションデータベースと、をさらに備え、前記固有名詞モーション合成部は、推定された前記固有名詞の読みが含むそれぞれの音に対応する口型モーションを前記口型モーションデータベースから読み出して、それらの口型モーションを前記読みに基づいて順次接続することによって前記固有名詞に対応する口型モーションを合成するとともに、前記固有名詞に対応する手話モーションにおける口型に関するデータを、合成した前記固有名詞に対応する口型モーションで置換する、というものである。
【0017】
[4]また、本発明の一態様は、上記の翻訳装置において、前記手話モーション合成部が合成した、前記テキストに対応する手話モーションデータ、に基づいてアニメーション映像を生成するアニメーション生成部、をさらに備える。
【0018】
[5]また、本発明の一態様は、入力されたテキストの形態素解析処理を行って形態素列を出力するとともに、前記形態素列に含まれる形態素が固有名詞である場合には当該形態素が固有名詞であることを表すデータを付与する形態素解析部と、機械学習済みのモデルに基づいて、形態素解析部から出力された前記形態素列を手話ラベル列に変換するとともに、変換後の手話ラベル列の中の、固有名詞であることを表すデータが付与された形態素に対応する手話ラベル列の部分に固有名詞マーカーを付ける翻訳部と、手話ラベルと手話モーションとの対応関係を保持する手話モーションデータベースと、前記翻訳部が出力した前記手話ラベル列の中の、前記固有名詞マーカーが付けられた手話ラベル列に基づいて、各々の前記手話ラベルに対応する手話モーションを前記手話モーションデータベースから読み出して、それらの前記手話モーションを第1わたり長で順次接続することによって、固有名詞に対応する手話モーションを合成する固有名詞モーション合成部と、前記翻訳部が出力した前記手話ラベル列の中の、前記固有名詞マーカーが付けられていない手話ラベル列に基づいて、各々の前記手話ラベルに対応する手話モーションを前記手話モーションデータベースから読み出して、それらの前記手話モーションを第2わたり長で順次接続して固有名詞以外に対応する手話モーションを合成するとともに、前記翻訳部が出力した前記手話ラベル列に基づいて前記固有名詞モーション合成部によって合成された前記固有名詞に対応する手話モーションを、前記固有名詞以外に対応する手話モーションにさらに接続することによって、前記テキストに対応する手話モーションを合成する手話モーション合成部と、を備え、前記第1わたり長は、前記第2わたり長よりも短い、翻訳装置、としてコンピューターを機能させるためのプログラムである。
【発明の効果】
【0019】
本発明によれば、翻訳装置は、固有名詞の部分に相当する手話ラベル間のわたりの長さを、固有名詞以外の部分に相当する手話ラベル間のわたりの長さよりも短くする。つまり、翻訳装置は、固有名詞としてのまとまりを認識しやすい手話のモーションデータを合成することができる。
【図面の簡単な説明】
【0020】
【
図1】本発明の実施形態による、テキストから手話への翻訳を行う翻訳装置の概略機能構成を示したブロック図である。
【
図2】同実施形態によるテキスト取得部が外部から取得する日本語テキストの一例を示す概略図である。
【
図3】同実施形態による翻訳部が出力する翻訳結果データ(出力ラベル列や、固有名詞の読みなどを含むデータ)の一例を示す概略図である。
【
図4】同実施形態による口型モーションデータベースが保持するデータの形式の一例を示す概略図である。
【
図5】同実施形態による手話モーションデータベースが保持するデータの形式の一例を示す概略図である。
【
図6】同実施形態による手話モーション合成部が合成したモーションデータに基づくCGアニメーションの例を示す概略図である。
【
図7】同実施形態の翻訳装置によるテキストから手話への翻訳処理の手順を示すフローチャートである。
【
図8】同実施形態による翻訳装置が参照する設定値の少なくとも一部を示した概略図である。
【
図9】同実施形態による翻訳装置の内部構成の例を示すブロック図である。
【発明を実施するための形態】
【0021】
次に、本発明の一実施形態について、図面を参照しながら説明する。本実施形態の翻訳装置は、自然言語テキストを手話ラベル列に翻訳する。また、翻訳装置は、翻訳処理によって得られた手話ラベル列を基に手話のアニメーション動画を生成する。本実施形態では、翻訳元の自然言語テキストは、日本語のテキストである。また、翻訳結果として出力される手話は、日本手話である。ただし、日本語以外の言語で記述されたテキストを翻訳元としてもよい。また、日本手話以外の手話を出力するようにしてもよい。
【0022】
本実施形態の翻訳装置は、日本語テキストを手話ラベル列に翻訳する際に、品詞の情報(具体的には固有名詞の情報)を維持したまま翻訳処理を行う。つまり、翻訳処理の結果として出力される手話ラベル列は、どのラベルが固有名詞に相当するものであるかを表す情報を持つ。具体的には、翻訳装置が翻訳結果として出力する手話ラベル列において、固有名詞1語に相当する手話ラベル列を1つにまとめたうえで、そのまとまりに対して固有名詞であることを表すマーカーを付ける。
【0023】
翻訳装置は、その固有名詞の情報を基に手話ラベル列からモーションを合成する際に、固有名詞に相当するラベル列に特有の処理を加える。具体的には、固有名詞であることを表すマーカーが付与されたラベル列にまとまりに対しては、翻訳装置は、手話ラベル列間のわたり長を短縮したり、モーションの速度を調整したりする。つまり、翻訳装置がモーションを合成する際に、固有名詞としてのまとまりを考慮した処理を行うことが可能となる。また、翻訳装置は、固有名詞の読みに対応した口型を有するアニメーションを生成する。
【0024】
なお、わたりとは、1つの手話ラベルに相当するモーションの終わりのポイントから、他の手話ラベルに相当するモーションの始まりのポイントまでの、モーションの移行(接続)の部分である。
わたり長とは、上記のわたりの部分に相当する時間の長さである。わたり長は、例えば、秒単位あるいはフレーム数などの数値で表わされ得る。
また、口型とは、手話のモーションのうちの口の動きに相当する部分である。手話のモーションは、例えばモデル化された人の骨格の関節部分の動きのデータとして表わされ得るものである。手話のモーションのうちの口型のモーションは、上記関節部分の動きのうちの、口周りの関節の動きのデータとして表わされ得るものである。つまり、手話モーションの一部が口型モーションである。
【0025】
既存技術による翻訳装置は、自然言語テキストを基に翻訳した結果である手話ラベル列の語順のみを参照して、手話のCGアニメーションを生成していた。よって、既存技術の翻訳装置は、固有名詞に関して、誤った手話のCGアニメーションを生成する可能性があった。それに対して、本実施形態は、固有名詞を一つのまとまりとして再現した、抑揚のあるCGアニメーションを生成することができる。つまり、本実施形態の翻訳装置は、入力される日本語テキストの意味により近い手話のCGアニメーションを出力することが可能となる。
【0026】
図1は、本実施形態による翻訳装置の概略機能構成を示す機能ブロック図である。図示するように、翻訳装置1は、テキスト取得部11と、形態素解析部12と、固有名詞読み推定部13と、翻訳部14と、口型モーションデータベース21と、手話モーションデータベース22と、固有名詞モーション合成部23と、手話モーション合成部24と、CGアニメーション生成部31とを含んで構成される。テキスト取得部11と、形態素解析部12と、固有名詞読み推定部13と、翻訳部14とは、日本語のテキストを手話ラベル列に翻訳するための機能を有する。口型モーションデータベース21と、手話モーションデータベース22と、固有名詞モーション合成部23と、手話モーション合成部24とは、手話ラベル列を基に手話のモーションのデータを生成するための機能を有する。CGアニメーション生成部31は、手話モーションのデータを基にアニメーションを生成する。
【0027】
これらの各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ(SSD)といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。各部の具体的な機能は、次の通りである。
【0028】
テキスト取得部11は、外部から、翻訳対象の日本語テキストを取得する。テキスト取得部11は、例えばキーボードやタッチパネルから手で入力された日本語テキストを取得する。あるいは、テキスト取得部11は、音声認識技術を用いて発話された音声を認識することによって日本語テキストを取得してもよい。あるいは、テキスト取得部11は、外部の記録媒体等に記録されている日本語テキストを取得してもよい。また、テキスト取得部11は、その他の方法によって日本語テキストを取得してもよい。テキスト取得部11は、取得した日本語テキストを、形態素解析部12に渡す。
【0029】
形態素解析部12は、テキスト取得部11から渡された日本語テキストの形態素解析の処理を行う。なお、形態素解析処理自体は、既存技術を用いて実行することができる。形態素解析部12を実現するための技術の一例は、KyTea(キューティー、http://www.phontron.com/kytea/index-ja.html)等である。ただし、ここで利用可能な技術はKyTeaには限定されない。形態素解析部12は、日本語テキストを形態素の列に分割するとともに、各々の形態素の品詞を特定する。形態素解析部12は、各形態素に、品詞の情報を付与する。品詞の一つとして、固有名詞が含まれる。つまり、元の日本語テキストに含まれていた固有名詞は、一つの形態素として区分され、固有名詞であることを表す情報を付与される。
【0030】
形態素解析部12は、形態素解析処理の結果を翻訳部14に渡す。また、元の日本語テキストに固有名詞が含まれていた場合には、形態素解析部12は、形態素解析処理の結果を固有名詞読み推定部13にも渡す。
【0031】
つまり、形態素解析部12は、入力されたテキストの形態素解析処理を行って形態素列を出力するとともに、前記形態素列に含まれる形態素が固有名詞である場合には当該形態素が固有名詞であることを表すデータを付与する。
【0032】
固有名詞読み推定部13は、日本語テキスト内に固有名詞が含まれていた場合に、上記の形態素解析処理の結果に基づいて、それらの固有名詞を抽出し、各固有名詞の日本語での読みを推定する。固有名詞の読みを推定する処理も、既存技術を用いて実現可能である。例えば、前記のKyTeaなどの既存のテキスト解析技術を利用して、漢字等を用いて表記された固有名詞の読みを推定することが可能である。ただし、KyTea以外の手法を用いて固有名詞の読みを推定するようにしてもよい。固有名詞読み推定部13は、推定結果である固有名詞の読み方を、例えば片仮名表記のデータとして出力する。固有名詞読み推定部13は、推定結果である読みのデータを、翻訳部14に渡す。
【0033】
つまり、固有名詞読み推定部13は、形態素解析部12が固有名詞であることを表すデータを付与した形態素について、当該固有名詞の読みを推定する。
【0034】
翻訳部14に渡される段階で、形態素に分割されたテキストが固有名詞を含む場合には、その形態素列は、固有名詞であることを表す記号(例えば、「$NE$」など)を伴っている。また、テキスト中の固有名詞に関しては、固有名詞読み推定部13によって推定された読みのデータ(例えば、固有名詞「東北南部」に対して、読み「トウホクナンブ」等)が付与されている。
【0035】
翻訳部14は、取得された日本語テキストに対応する形態素列を、手話ラベル列に翻訳する処理を行う。翻訳部14は、機械学習の手法を用いた翻訳器の技術を用いて実現される。機械学習を用いた翻訳の技術自体は、既存技術に属する。また、テキストから手話への翻訳の手法については、前述の特許文献1や特許文献2にも記載されている。翻訳部14は、一例として、ニューラルネットワークを用いて実現される。翻訳部14において、ニューラルネットワーク等の翻訳モデルを、予め機械学習しておくようにする。機械学習の際には、入力データ(日本語テキストに基づく形態素列)と、出力データ(正解の手話ラベル列)とを、学習データとして用いる。翻訳部14は、出力した手話ラベル列を、固有名詞モーション合成部23と手話モーション合成部24のそれぞれに渡す。
【0036】
本実施形態では、翻訳部14は、固有名詞としてのまとまりの単位を表す情報を、翻訳結果のデータ内においても含める。言い換えれば、翻訳部14は、出力する手話ラベル列において、元のテキストにおける固有名詞に対応する手話ラベル列については、固有名詞であることを表すマーカーを付加する。また、翻訳部14は、固有名詞読み推定部13から受け取った固有名詞の読みのデータを、翻訳結果のデータ内に含める。翻訳部14が出力する手話ラベル列の例については、後で
図3を参照しながら説明する。
【0037】
なお、翻訳部14が出力する翻訳結果に含まれる手話ラベルのそれぞれは、次に説明するモーションキャプチャーデータのデータ番号(モーションを特定する番号)に対応する。つまり、翻訳部14が出力する翻訳結果は、時系列に並んだモーションデータの列に対応するものである。
【0038】
つまり、翻訳部14は、機械学習済みのモデル(翻訳モデル)に基づいて、形態素解析部12から出力された前記形態素列を手話ラベル列に変換するとともに、変換後の手話ラベル列の中の、固有名詞であることを表すデータが付与された形態素に対応する手話ラベル列の部分に固有名詞マーカーを付ける。
【0039】
口型モーションデータベース21および手話モーションデータベース22は、手話のモーションを表すデータを記憶しているデータベースである。CGアニメーションの生成において利用する手話のモーションデータは、例えば、手指、口型、顔表情などを含んだ実際の人による手話の動きをモーションキャプチャーして、BVH(Biovision Hierarchy)などの形式で保存したものである。CGアニメーションの生成で利用するために、手話のモーションデータは単語単位(手話ラベル列単位)で収録され、データベース(口型モーションデータベース21または手話モーションデータベース22)に保存されている。翻訳装置1は、単語単位(手話ラベル列単位)のモーションデータを時系列に並べて、単語間を接続することで文章としての手話のモーションのデータを生成する。
【0040】
口型モーションデータベース21は、上記のモーションデータのうち、口型のモーションを表すデータを記憶するものである。口型のモーションは、発話する際の各音に対応するものである。口型モーションデータベース21は、例えば、母音「a」、「i」、「u」、「e」、「o」のそれぞれと、撥音「n」とに対応する口型モーションのデータを保持する。なお、口型モーションデータベース21が、さらに他の口型モーションのデータを持っていてもよい。つまり、口型モーションデータベース21は、読みの音と、手話モーションの一部である口型モーションと、の対応関係を保持する。
【0041】
手話モーションデータベース22は、上記のモーションデータの全体(口以外のモーションを含む)を表すデータを記憶するものである。つまり、手話モーションデータベース22は、手指の動きや、顔の表情といったモーションに対応するデータを保持する。なお、手話モーションデータベース22が記憶する手話モーションデータは、口型モーションを含んでいてもよいし、含んでいなくてもよい。手話モーションデータベース22は、手話ラベル(または手話ラベルに対応する番号等)に対応する形で、手話モーションデータを記憶する。手話モーションデータベース22は、手話ラベルに対応付ける形で、その手話ラベルに応じたモーションのデータを保持する。即ち、手話モーションデータベース22は、手話ラベルと手話モーションとの対応関係を保持するものである。
【0042】
固有名詞モーション合成部23は、手話のモーションのうち、元のテキストにおいて固有名詞する部分のモーションを合成する。つまり、固有名詞モーション合成部23は、固有名詞に対応する手話ラベル列の部分について、固有名詞としてのまとまりを表現するための手話のモーションを合成する。具体的には、固有名詞モーション合成部23は、口型モーションデータベース21および手話モーションデータベース22を参照して、固有名詞に特有の手話のモーションを合成する。固有名詞モーション合成部23は、合成した結果であるモーションのデータを、手話モーション合成部24に渡す。固有名詞モーション合成部23のさらに詳細な処理の内容は、次の通りである。
【0043】
固有名詞モーション合成部23は、翻訳部14が出力する手話ラベル列のうち、固有名詞に相当する部分(固有名詞のマーカーが付与されている部分)を抽出する。
【0044】
固有名詞モーション合成部23は、固有名詞に相当する部分に含まれる各手話ラベルについて、口型以外のモーション(手指のモーションや、顔の表情(口型以外))のデータを手話モーションデータベース22から取得する。そして、固有名詞モーション合成部23は、それらの手話ラベルのそれぞれに対応する手話のモーションを時系列に連結する。手話ラベルと手話ラベルとを接続する「わたり」の部分については、固有名詞モーション合成部23は、例えば、前のモーションの終了部分と次のモーションの先頭部分とを線形補間する。わたりの部分のモーションの接続の処理自体は、既存技術を用いて実行することができる。
【0045】
固有名詞モーション合成部23は、次に、固有名詞部分の手話モーションの時間調整を行う。具体的には、固有名詞モーション合成部23は、1つの固有名詞内の手話ラベル間のわたりの部分についてのわたり長(接続フレーム数、接続時間長)が、固有名詞以外の手話ラベル間のわたり長よりも短くなるように調整する。さらに、固有名詞モーション合成部23は、固有名詞部分に含まれるそれぞれの手話ラベルに相当するモーションの速度を、固有名詞部分以外の手話ラベルに相当するモーションの速度よりも速くなるように調整してもよい。これらの調整により、固有名詞モーション合成部23は、1つの固有名詞に相当する部分の手話のモーションのまとまりを表現できるようにする。つまり、固有名詞モーション合成部23は、固有名詞に対応する手話モーションに含まれる各々の手話ラベルの再生速度が、固有名詞以外に対応する手話モーションに含まれる各々の手話ラベルの再生速度よりも速くなるようにする。
【0046】
固有名詞モーション合成部23は、次に、口型モーションを合成する。具体的には、固有名詞モーション合成部23は、上記の時間調整が完了した固有名詞モーションについて、当該固有名詞の全体のフレーム数から、その時間長(発話長)を求める。また、固有名詞モーション合成部23は、その固有名詞に関連付けられる読みのデータ(固有名詞読み推定部13によって推定された読み方)に基づいて、時系列の口型モーションを生成する。つまり、固有名詞モーション合成部23は、読みのデータの一音ずつについて、口型モーションデータベース21から口型モーションのデータを取得する。そして、固有名詞モーション合成部23は、固有名詞の読みの音の順に口型モーションのデータを並べて、音と音の間の口型を接続する処理を行う。ここでも、モーションの接続は既存技術を利用して実現可能であり、例えば、口型の補間処理などが用いられる。また、固有名詞モーション合成部23は、固有名詞の読みに対応する一連の口型モーションの全体が上で求めた時間長(発話長、フレーム数)に合うように、モーションの速度を調整する。ここで生成された口型モーションは、口周りの関節の動きを表すデータである。
【0047】
そして、固有名詞モーション合成部23は、調整した口型モーションを、上記の固有名詞の手話モーションと合成する。具体的には、固有名詞モーション合成部23は、既に合成している固有名詞部分の手話モーションの口周りの関節情報を、上記速度調整後の口型モーションで置換する。これにより、固有名詞に関して、手指や、顔の表情や、口型などのすべてを統合したモーションデータが生成される。
【0048】
つまり、固有名詞モーション合成部23は、翻訳部14が出力した前記手話ラベル列の中の、前記固有名詞マーカーが付けられた手話ラベル列に基づいて、各々の前記手話ラベルに対応する手話モーションを手話モーションデータベース22から読み出す。そして、固有名詞モーション合成部23は、それらの手話モーションを所定の第1わたり長で順次接続することによって、固有名詞に対応する手話モーションを合成する。第1わたり長は、固有名詞のモーションを合成するためのわたり長である。
【0049】
また、固有名詞モーション合成部23は、推定された固有名詞の読みが含むそれぞれの音に対応する口型モーションを、口型モーションデータベース21から読み出す。固有名詞モーション合成部23は、それらの口型モーションを、推定された読みに基づいて順次接続することによって、固有名詞に対応する口型モーションを合成する。また、固有名詞モーション合成部23は、固有名詞に対応する手話モーションにおける口型に関するデータ(口型モーションがない場合を含む)を、合成した固有名詞に対応する口型モーションで置換する。
【0050】
なお、固有名詞モーション合成部23は、翻訳部14が出力する翻訳結果に含まれるすべての固有名詞の各々について、上記の固有名詞モーションの合成の処理を行う。
【0051】
手話モーション合成部24は、翻訳部14から翻訳結果の手話ラベル列を受け取るとともに、固有名詞モーション合成部23からそれぞれの固有名詞についてのモーションデータを受け取る。そして、手話モーション合成部24は、固有名詞部分以外の手話ラベル列について、手話モーションデータベース22から、手話のモーションデータを取得する。また、手話モーション合成部24は、手話ラベル列に対応する順序で、手話のモーションを連結する。その際、手話モーション合成部24は、ラベル間の接続の処理(前述の手話モーションの補間等)も行う。手話モーション合成部24は、このようにして生成した固有名詞部分以外の手話モーションと、固有名詞モーション合成部23から受け取った固有名詞部分の手話モーションとを、つなぎ合わせ、全体として元の日本語テキストに対応する全体的な手話モーションのデータを生成する。
【0052】
つまり、手話モーション合成部24は、翻訳部14が出力した前記手話ラベル列の中の、前記固有名詞マーカーが付けられていない手話ラベル列に基づいて、各々の前記手話ラベルに対応する手話モーションを手話モーションデータベース22から読み出す。そして、手話モーション合成部24は、それらの前記手話モーションを第2わたり長で順次接続して固有名詞以外に対応する手話モーションを合成する。そして手話モーション合成部24は、翻訳部14が出力した前記手話ラベル列に基づいて固有名詞モーション合成部23によって合成された前記固有名詞に対応する手話モーションを、前記固有名詞以外に対応する手話モーションにさらに接続する。これによって、手話モーション合成部24は、元のテキストに対応する手話モーションのデータを合成する。なお、上記の第2わたり長は、固有名詞以外の部分の手話ラベル間のわたりの長さである。なお、第1わたり長が、第2わたり長(固有名詞以外の部分の通常のわたり長)よりも短くなるようにする。
【0053】
手話モーション合成部24は、得られた手話モーションのデータを、CGアニメーション生成部31に渡す。このモーションデータは、手指や、顔の表情や、口型(口の周りの関節)のモーションのすべてを含む。
【0054】
CGアニメーション生成部31は、手話モーション合成部24から渡されたモーションデータに基づいて、CGアニメーションを生成する。具体的には、CGアニメーション生成部31は、モーションデータに含まれる各関節の動きに対応したアニメーションを生成する。モーションデータからCGアニメーションを生成する処理自体は、既存技術を利用して実現可能である。なお、CGアニメーション生成部31は、単に「アニメーション生成部」とも呼ばれる。
【0055】
具体的には、CGアニメーション生成部31は、複数のCGアバターのデータを予め保持している。CGアニメーション生成部31は、手話モーション合成部24から渡されたモーションデータを、特定のCGアバターに適用し、アニメーションのレンダリングを行うことによって、そのCGアバターが手話の動作をするCGアニメーションを生成する。
【0056】
つまり、CGアニメーション生成部31は、手話モーション合成部24が合成した入力テキストに対応する手話モーションデータに基づいて、アニメーション映像を生成する。
【0057】
次に、翻訳装置1の処理におけるデータの詳細について説明する。
【0058】
図2は、テキスト取得部11が外部から取得する日本語テキストの一例を示す概略図である。図示するテキストの例は、「今夜までに降る雪の量は、いずれも多いところで東北南部の太平洋側で20cm。」というものである。このテキストの文において、「東北南部」および「太平洋側」の2つが固有名詞である。形態素解析部12は、形態素解析処理の結果として、これら「東北南部」および「太平洋側」に、固有名詞の品詞情報を付与する。
【0059】
図3は、翻訳部14が出力する翻訳結果データの一例を示す概略図である。この翻訳結果データは、手話ラベル列とその他の情報とを含む。ここで図示する翻訳結果の例は、
図2の日本語テキストを基に翻訳部14が翻訳した結果である。
図3に示すデータの例は、コンマ(comma)で区切られる記号(ラベル等)の列である。ここで、「暗い」、「まで」、「雪」、「量」、「たくさん」、「場所」などの各々は、手話における単語に相当するラベルである。また、Nは、特殊な記号であり、手話におけるうなずきの動作に対応するものである。また、[首かしげ]や[空書]は、手話におけるその他の動作に対応するものである。
【0060】
本実施形態の翻訳部14が出力するデータの特徴は、「PN{・・・}_M{・・・}」という表記である。これは、元のテキストに含まれる固有名詞(proprietary noun)に対応するデータである。言い換えれば、この「PN{・・・}_M{・・・}」というデータは、固有名詞のマーカーである。翻訳部14は、前述の通り、元のテキストに含まれる固有名詞の情報を受け取る。翻訳部14は、入力される固有名詞に対応して、この固有名詞のマーカーのデータを出力する。固有名詞のマーカーに含まれる「PN{・・・}」というデータは、その固有名詞に対応する手話ラベル列を格納するためのデータである。また、同じくマーカーに含まれる「M{・・・}」というデータは、その固有名詞に関する読みを格納するためのデータである。
【0061】
具体的には、
図3に示すデータにおける「PN{東,北,暑い}_M{トウホクナンブ}」は、
図2のテキストにおける固有名詞「東北南部」に対応する。この「東,北,暑い」という手話ラベル列は、「東北南部」の手話による表現を表す。また、「トウホクナンブ」は、固有名詞「東北南部」について固有名詞読み推定部13が推定した読みのデータである。また、
図3に示すデータにおける「PN{とても,あたり}_M{タイヘイヨウガワ}」は、
図2のテキストにおける固有名詞「太平洋側」に対応する。この「とても,あたり」という手話ラベル列は、「太平洋側」の手話による表現を表す。また、「タイヘイヨウガワ」は、固有名詞「太平洋側」について固有名詞読み推定部13が推定した読みのデータである。
【0062】
つまり、入力となる日本語テキストに固有名詞が含まれる場合、翻訳部14は、その固有名詞に対応する翻訳結果を、固有名詞マーカーで表わしたデータとして出力する。また、翻訳部14は、固有名詞読み推定部13から渡される固有名詞の読み(読みの推定結果)を、そのまま、「M{・・・}」という形式のデータに含めて出力する。また、翻訳部14は、固有名詞に対応する手話ラベル列(翻訳結果)を、「PN{・・・}」という形式のデータに含めて出力する。
【0063】
図4は、口型モーションデータベース21が保持するデータの形式の一例を示す概略図である。図示するように、口型モーションデータベース21は、例えば表形式のデータを保持する。この表は、音(読みの要素)および口型モーションの各項目を持つ。つまり、口型モーションデータベース21は、音に対応して口型モーションのデータを保持する。音は、例えば、a,i,u,e,o,nといった音、あるいはその他の音である。口型モーションのデータは、各音に対応する口周りのモーションを表すデータである。
【0064】
図5は、手話モーションデータベース22が保持するデータの形式の一例を示す概略図である。図示するように、図示するように、手話モーションデータベース22は、例えば表形式のデータを保持する。この表は、手話ラベルおよび手話モーションの各項目を持つ。つまり、手話モーションデータベース22は、手話ラベルのそれぞれに対応して手話モーションのデータを保持する。手話モーションのデータは、手話の動作に対応するモーション(手指や顔の表情の動き)を表すデータである。
【0065】
図6は、手話モーション合成部24が合成したモーションデータに基づく、CGアニメーションの例を示す概略図である。ここで図示するアニメーションは、
図3の翻訳結果(手話ラベル列)における「・・・,言う,N,PN{東,北,暑い}_M{トウホクナンブ},PN{とても,あたり}_M{タイヘイヨウガワ},N,20,・・・」の部分に対応する。この一連のアニメーションの中で、区間Aは固有名詞「東北南部」に対応する。また、区間Bは固有名詞「太平洋側」に対応する。
【0066】
前述の通り、固有名詞モーション合成部23は、「東,北,暑い」のラベル列に相当する手話モーションの速度を、固有名詞以外の部分の手話モーションの速度より速くする。また、固有名詞モーション合成部23は、「東,北,暑い」のラベル列におけるラベル間の接続時間を、固有名詞以外の部分におけるラベル間の接続時間よりも短くする。また、固有名詞モーション合成部23は、「東,北,暑い」のラベル列に相当する部分の口型を、「ヒガシ/キタ/アツイ」ではなく「トウホクナンブ」に対応する口型とする。即ち、固有名詞モーション合成部23は、「トウホクナンブ」に対応する母音および撥音の列である「o/u/o/u/a/n/u」のそれぞれの音に対応する口型モーションを口型モーションデータベース21から読み出す。固有名詞モーション合成部23は、それらの口型モーションを接続して、固有名詞「東北南部」に対応するモーションを合成する。これにより、CGアニメーション生成部31は、「東北南部」という固有名詞と認識しやすい手話のアニメーションを生成することとなる。
【0067】
また、同様に、固有名詞モーション合成部23は、「とても,あたり」のラベル列に相当する手話モーションの速度を、固有名詞以外の部分の手話モーションの速度より速くする。また、固有名詞モーション合成部23は、「とても,あたり」のラベル列におけるラベル間の接続時間を、固有名詞以外の部分におけるラベル間の接続時間よりも短くする。また、固有名詞モーション合成部23は、「とても,あたり」のラベル列に相当する部分の口型を、「トテモ/アタリ」ではなく「タイヘイヨウガワ」に対応する口型とする。即ち、固有名詞モーション合成部23は、「タイヘイヨウガワ」に対応する母音の列である「a/i/e/i/o/u/a/a」のそれぞれの音に対応する口型モーションを口型モーションデータベース21から読み出す。固有名詞モーション合成部23は、それらの口型モーションを接続して、固有名詞「太平洋側」に対応するモーションを合成する。これにより、CGアニメーション生成部31は、「太平洋側」という固有名詞と認識しやすい手話のアニメーションを生成することとなる。
【0068】
図7は、翻訳装置1による処理の手順を示すフローチャートである。以下、このフローチャートに沿って動作手順を説明する。
【0069】
まず、ステップS11において、翻訳装置1のテキスト取得部11は、手話への翻訳の対象となる日本語テキストを外部から取得する。
【0070】
次に、ステップS12において、形態素解析部12は、ステップS11において取得された日本語テキスト(文、文章)の形態素解析処理を行う。その結果、形態素解析部12は、日本語テキストを形態素に区切るとともに、それぞれの形態素の品詞情報を付与する。ここで、一部の形態素は固有名詞である可能性がある。
【0071】
次に、ステップS13において、翻訳装置1は、ステップS12の形態素解析処理の結果において、固有名詞が含まれるか否かを判定する。固有名詞が含まれる場合には(ステップS13:YES)、ステップS14に進む。固有名詞が含まれない場合には(ステップS13:NO)、ステップS15に飛ぶ。
【0072】
次に、ステップS14に進んだ場合には、同ステップにおいて、固有名詞読み推定部13は、検出された固有名詞の読みを推定する。元の日本語テキスト内に複数の固有名詞が含まれる場合には、固有名詞読み推定部13は、それらのそれぞれの固有名詞の読みを推定する。
【0073】
次に、ステップS15において、翻訳部14は、ステップS11において取得された日本語テキストの手話ラベル列への翻訳処理を行う。なお、日本語テキストに固有名詞が含まれる場合には、翻訳結果である手話ラベル列においても固有名詞としてのまとまりを示す情報(固有名詞のマーカー)が維持されている。また、日本語テキストに固有名詞が含まれる場合には、翻訳部14は、ステップS14で推定された結果である固有名詞の読みのデータを、翻訳結果であるラベル列の中に含めるようにする(
図3も参照)。
【0074】
次に、ステップS16において、翻訳装置1は、ステップS15で生成された翻訳結果(手話ラベル列のデータ)が、固有名詞のマーカーを含むか否かを判定する。翻訳結果のデータが固有名詞のマーカーを含む場合(ステップS16:YES)には、ステップS17に進む。翻訳結果のデータが固有名詞のマーカーを含まない場合(ステップS16:NO)には、ステップS19に飛ぶ。
【0075】
次に、ステップS17に進んだ場合には、同ステップにおいて、固有名詞モーション合成部23は、固有名詞用の手話モーションのデータを読み込み、合成する。
【0076】
具体的には、固有名詞モーション合成部23は、翻訳部14が出力した翻訳結果に含まれているそれぞれの固有名詞について、手話モーションデータを手話モーションデータベース22から読み込む。固有名詞モーション合成部23は、固有名詞に該当する手話ラベル列が含む手話ラベルのそれぞれに関しての手話モーションデータを、手話モーションデータベース22から読み込む。つまり、具体例としては、
図3に示した翻訳結果のうちの固有名詞部分の1つ「PN{東,北,暑い}_M{トウホクナンブ}」について、固有名詞モーション合成部23は、「東」、「北」、「暑い」というそれぞれのラベルについて、対応する手話モーションを手話モーションデータベース22から読み込む。そして、固有名詞モーション合成部23は、読み込んだ手話モーションを手話ラベル列の順にしたがって順次連結する。上記の「{東,北,暑い}」というラベル列の場合には、固有名詞モーション合成部23は、「東」に対応する手話モーションと、「北」に対応する手話モーションと、「暑い」に対応する手話モーションとを連結する。ただし、手話ラベルから手話ラベルへのわたりの部分については、固有名詞モーション合成部23は、線形補間等による接続を行う。なお、固有名詞モーション合成部23は、予め固有名詞用に決められている速度で手話のモーションを実行させるようにする。また、固有名詞モーション合成部23は、わたりの部分の接続時間の長さが予め固有名詞用に決められている長さとなるようにする。
【0077】
上記のステップS17の処理により、固有名詞モーション合成部23は、固有名詞に関して、口型以外のモーションのデータを作成する。このステップS17の処理を終えた段階では、固有名詞部分の口型のモーションは、手話モーションデータベース22から読み込んだモーションデータのままの状態である。
【0078】
その次に、ステップS18において、固有名詞モーション合成部23は、固有名詞用の口型モーションのデータを読み込み、合成する。
【0079】
具体的には、固有名詞モーション合成部23は、翻訳部14が出力した翻訳結果に含まれているそれぞれの固有名詞について、その読みの各音についての口型モーションデータを、口型モーションデータベース21から読み込む。具体例としては、
図3に示した翻訳結果のうちの固有名詞部分の1つ「PN{東,北,暑い}_M{トウホクナンブ}」について、固有名詞モーション合成部23は、ト、ウ、ホ、ク、ナ、ン、ブの各音について、対応する口型モーションを口型モーションデータベース21から読み込む。
図4に例示したように口型モーションデータベース21が母音および撥音のそれぞれに対応する口型モーションのデータを保持する場合には、固有名詞モーション合成部23は、o、u、o、u、a、n、uの各音に対応する口型モーションのデータを読み込む。そして、固有名詞モーション合成部23は、読み込んだ口型モーションを音の列の順にしたがって順次連結する。上記の「{トウホクナンブ}」という読みの場合には、固有名詞モーション合成部23は、o、u、o、u、a、n、uのそれぞれの音に対応する口型モーションをその順に連結する。このとき、固有名詞モーション合成部23は、連結された口型モーションの全体の時間長が、ステップS17で合成した当該固有名詞の手話モーションの時間長に整合するように、口型モーションンの速度を調整する。さらに、固有名詞モーション合成部23は、ステップS17で合成した当該固有名詞の手話モーションに含まれる口型モーションのデータを、ステップS17で生成した当該固有名詞の読みに対応する口型モーションのデータで置換する。
【0080】
上記のステップS18の処理により、固有名詞モーション合成部23は、固有名詞の読みに対応した口型モーションのデータを生成できる。さらに、固有名詞モーション合成部23は、固有名詞に対応する手話モーションデータ(ステップS17で合成)中の口型モーションのデータを、上記の読みに対応した口型モーションのデータで置き換える。つまり、ステップS17およびS18の処理により、固有名詞モーション合成部23は、固有名詞として正しく認識することのできる手話モーションのデータを生成する。なお、固有名詞モーション合成部23は、合成された固有名詞の手話モーションのデータを、手話モーション合成部24に渡す。
【0081】
次に、ステップS19において、手話モーション合成部24は、固有名詞部分以外の手話ラベルについての手話モーションデータを、手話モーションデータベース22から読み込む。具体的には、手話モーション合成部24は、翻訳部14が出力した翻訳結果の中の固有名詞部分以外のすべての手話ラベル(Nや、[空書]や、[首かしげ]などといった動作のラベルを含む)のそれぞれについて、手話モーションデータベース22からモーションデータを読み込む。
【0082】
次に、ステップS20において、手話モーション合成部24は、入力されたテキストに対する全体の手話モーションを合成する。具体的には、手話モーション合成部24は本ステップにおいて、ステップS19で読み込んだモーションデータを、翻訳結果である手話ラベル列の順にしたがって、連結する。また、手話モーション合成部24は、ステップS17およびS18の処理で合成された手話データを、翻訳部14が出力した手話ラベル列の順にしたがって、連結する。本ステップにおいて手話モーション合成部24が複数の手話モーションを連結する場合には、わたりの部分のモーションを補間処理等によって生成する。また、手話モーション合成部24は、わたりの部分の時間長(フレーム数)が、固有名詞以外のわたり長として予め定められた長さとなるように調整する。
【0083】
ステップS20の処理により、ステップS11で取得されたテキストの全体に対応する手話のモーションデータが出来上がる。手話モーション合成部24は、完成した全体のモーションデータを、CGアニメーション生成部31に渡す。
【0084】
次に、ステップS21において、CGアニメーション生成部31は、ステップS20で完成した手話のモーションデータに基づいて、CGアニメーションを生成する。具体的には、CGアニメーション生成部31は、予め保持しているアバターあるいは指定されたアバターの定義を用いて、アバターがモーションデータにしたがった動作をするように、各フレームのアニメーション画像をレンダリングする。それらのフレーム画像を時系列に並べ、必要に応じて適宜符号化したものが、日本語テキストを翻訳した結果である手話を表す動画である。
【0085】
図8は、翻訳装置1が処理を行うために参照する設定値の少なくとも一部を示した概略図である。図示するように、翻訳装置1は、固有名詞内のラベル間わたり長を設定可能な値としている。この項目の設定値は、例えば、「0.25秒」である。また、翻訳装置1は、固有名詞内以外でのラベル間わたり長を設定可能な値としている。この項目の設定値は、例えば、「0.60秒」である。また、翻訳装置1は、固有名詞内のラベルの再生速度比率(固有名詞以外のラベルの再生速度の何倍か)を設定可能な値としている。この項目の設定値は、例えば、「1.30」である。また、翻訳装置1がその他の設定項目を有していてもよい。なお、ここで図示した設定値は単なる例である。翻訳装置1を使用するにあたっては、これらの設定値を項目ごとに予め定めた適切な値に設定しておくことができる。
【0086】
図9は、実施形態として説明した翻訳装置1の内部構成の例を示すブロック図である。翻訳装置1は、コンピューターを用いて実現され得る。図示するように、そのコンピューターは、中央処理装置901と、RAM902と、入出力ポート903と、入出力デバイス904や905等と、バス906と、を含んで構成される。コンピューター自体は、既存技術を用いて実現可能である。中央処理装置901は、RAM902等から読み込んだプログラムに含まれる命令を実行する。中央処理装置901は、各命令にしたがって、RAM902にデータを書き込んだり、RAM902からデータを読み出したり、算術演算や論理演算を行ったりする。RAM902は、データやプログラムを記憶する。RAM902に含まれる各要素は、アドレスを持ち、アドレスを用いてアクセスされ得るものである。なお、RAMは、「ランダムアクセスメモリー」の略である。入出力ポート903は、中央処理装置901が外部の入出力デバイス等とデータのやり取りを行うためのポートである。入出力デバイス904や905は、入出力デバイスである。入出力デバイス904や905は、入出力ポート903を介して中央処理装置901との間でデータをやりとりする。バス906は、コンピューター内部で使用される共通の通信路である。例えば、中央処理装置901は、バス906を介してRAM902のデータを読んだり書いたりする。また、例えば、中央処理装置901は、バス906を介して入出力ポートにアクセスする。
【0087】
なお、上述した実施形態における翻訳装置1の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM、DVD-ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。つまり、「コンピューター読み取り可能な記録媒体」とは、非一過性の(non-transitory)コンピューター読み取り可能な記録媒体であってよい。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0088】
以上説明したように、本実施形態による翻訳装置1は、入力テキスト中に固有名詞が含まれる場合に、固有名詞として認識しやすい間(ま)を持つ手話のモーションを出力することができる。また、本実施形態による翻訳装置1は、入力テキスト中に固有名詞が含まれる場合に、固有名詞の読みに対応した口型を有する手話のモーションを出力することができる。
【0089】
以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。なお、組み合わせることが可能な限りにおいて、複数の変形例を組み合わせて実施してもよい。
【0090】
[変形例1]
上記の実施形態では、翻訳対象として入力されるテキストは、日本語で記述されたテキストであった。代わりに、他の自然言語で記述されたテキストを翻訳対象として取り込むようにしてもよい。また、上記の実施形態では、翻訳結果として出力される手話ラベル列は、日本手話のラベル列であった。また、翻訳装置1は、翻訳結果である日本手話のラベル列を基に、日本手話のCGアニメーションを生成する機能を有していた。代わりに、翻訳結果が、他の種類の手話のラベル列であってもよい。また、翻訳装置1がその手話(日本手話以外の手話)のラベル列に基づいて、当該ラベル列に対応する種類の手話(日本手話以外)のCGアニメーションを生成するようにしてもよい。これらの場合にも、翻訳装置は、入力テキスト中に出現する固有名詞をひとまとまりのラベル列として扱うことにより、固有名詞として正しく認識される手話を出力することが可能となる。
【0091】
[変形例2]
上記の実施形態では、固有名詞の部分に対応する手話のモーションを、ひとまとまりの固有名詞として認識できるように、わたりの時間長を短くしたり、各ラベルに対応する手話モーションの速度を速めたりしていた。このような調整を、時間調整と便宜的に呼ぶ。また、上記の実施形態では、時間調整だけではなく、固有名詞の読みの推定結果に基づく口型モーションのデータを合成し、その口型モーションのデータに対応する口周りの動きを、CGアニメーションで実現していた。このような調整を、口型調整と便宜的に呼ぶ。変形例2としては、翻訳装置1が、上記の時間調整のみを行い、口型調整を行わないようにしてもよい。また逆に、翻訳装置1が、上記の口型調整のみを行い、時間調整を行わないようにしてもよい。このような変形例2を実施する場合にも、従来技術による手話翻訳よりは、固有名詞としてより認識されやすい手話のモーションを実現することが可能となる。
【0092】
[変形例3]
上記実施形態では、固有名詞モーション合成部23は、固有名詞に対応する手話モーションに含まれる各々の手話ラベルの再生速度が、固有名詞以外に対応する手話モーションに含まれる各々の手話ラベルの再生速度よりも速くなるようにした。変形例として、必ずしもそのようにしなくてもよい。即ち、固有名詞モーション合成部23は、固有名詞に対応する手話モーションに含まれる各々の手話ラベルの再生速度が、固有名詞以外に対応する手話モーションに含まれる各々の手話ラベルの再生速度と同程度となるようにしてもよい。
【0093】
[変形例3]
上記実施形態では、固有名詞モーション合成部23は、固有名詞に対応する口型モーションで、固有名詞に対応する手話モーションにおける口型に関するデータ(口型モーションがない場合を含む)を、置換するようにした。変形例として、固有名詞モーション合成部23が、推定された読みに基づく口型モーションの置換を行わないようにしてもよい。その場合にも、翻訳装置1が出力する手話のモーションでは、口型モーション以外の、わたりの長さや、手話ラベルに対応するモーションの再生速度によって、固有名詞を認識しやすくなっている。
【0094】
以上、この発明の実施形態(変形例を含む)について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【産業上の利用可能性】
【0095】
本発明は、例えば、手話の生成に利用することができる。手話を効率的に生成することによるメリットが得られる産業は、例えば、コンテンツ制作および配信の事業等である。但し、本発明の利用範囲はここに例示したものには限られない。
【符号の説明】
【0096】
1 翻訳装置
11 テキスト取得部
12 形態素解析部
13 固有名詞読み推定部
14 翻訳部
21 口型モーションデータベース
22 手話モーションデータベース
23 固有名詞モーション合成部
24 手話モーション合成部
31 CGアニメーション生成部(アニメーション生成部)
901 中央処理装置
902 RAM
903 入出力ポート
904,905 入出力デバイス
906 バス