(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-05-12
(45)【発行日】2022-05-20
(54)【発明の名称】手話翻訳装置及びプログラム
(51)【国際特許分類】
G09B 21/00 20060101AFI20220513BHJP
G06F 40/58 20200101ALI20220513BHJP
G10L 15/00 20130101ALI20220513BHJP
【FI】
G09B21/00 F
G06F40/58
G10L15/00 200C
(21)【出願番号】P 2018007445
(22)【出願日】2018-01-19
【審査請求日】2020-11-30
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100141139
【氏名又は名称】及川 周
(74)【代理人】
【識別番号】100171446
【氏名又は名称】高田 尚幸
(74)【代理人】
【識別番号】100114937
【氏名又は名称】松本 裕幸
(74)【代理人】
【識別番号】100171930
【氏名又は名称】木下 郁一郎
(72)【発明者】
【氏名】内田 翼
(72)【発明者】
【氏名】宮▲崎▼ 太郎
【審査官】宮本 昭彦
(56)【参考文献】
【文献】特開2001-186430(JP,A)
【文献】特開2008-134686(JP,A)
【文献】特開平08-006494(JP,A)
【文献】特開2005-064600(JP,A)
【文献】特開2015-115007(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G09B 21/00
G06F 40/20 - 40/58
G10L 15/00
(57)【特許請求の範囲】
【請求項1】
発話内容のテキストを、手話単語を表す手話の動きをフレーム毎に示すモーションデータを並べた手話翻訳情報に変換する手話翻訳部と、
前記発話内容の音声の長さである音声発話長と、前記手話翻訳情報に含まれる前記モーションデータの再生時間を合計した手話発話長とを取得する発話長取得部と、
前記手話発話長が前記音声発話長に近くなるように、前記手話翻訳情報に含まれる前記モーションデータの一部のフレームを削除するデータ編集部と、
を備え
、
前記データ編集部は、前記手話翻訳情報に含まれる複数の前記モーションデータそれぞれが表す前記手話単語の重要度を取得し、複数の前記モーションデータのそれぞれから対応する前記手話単語の重要度に基づいた割合の前記フレームを削除する、
ことを特徴とする手話翻訳装置。
【請求項2】
発話内容のテキストを、手話単語を表す手話の動きをフレーム毎に示すモーションデータを並べた手話翻訳情報に変換する手話翻訳部と、
前記発話内容の音声の長さである音声発話長と、前記手話翻訳情報に含まれる前記モーションデータの再生時間を合計した手話発話長とを取得する発話長取得部と、
前記手話発話長が前記音声発話長に近くなるように、前記手話翻訳情報に含まれる前記モーションデータの一部のフレームを削除するデータ編集部と、
を備え
、
前記データ編集部は、前記手話翻訳情報に含まれる複数の前記モーションデータそれぞれが表す前記手話単語の重要度を取得し、取得した重要度に基づいて前記手話翻訳情報に含まれる複数の前記モーションデータから前記手話単語の単位で前記フレームを削除する、
ことを特徴とする手話翻訳装置。
【請求項3】
前記データ編集部は、前記手話翻訳情報に含まれる複数の前記モーションデータのそれぞれから前記フレームを削除する、
ことを特徴とする請求項
2に記載の手話翻訳装置。
【請求項4】
コンピュータを、請求項1から請求項
3のいずれか一項に記載の手話翻訳装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、手話翻訳装置及びプログラムに関する。
【背景技術】
【0002】
手話のCG(Computer Graphics)アニメーション生成においては、日本語などの音声言語から手話言語へリアルタイム翻訳する手法が用いられている。この手法として、日本語と手話の対訳データであるコーパスを利用した機械翻訳などを用いるものがある(例えば、特許文献1、2参照)。
【0003】
現在、手話のCGアニメーションを生成するためには、まず上述した翻訳手法を用いて翻訳結果となる手話単語列を出力する。次に、手話単語列の各単語に対応する手話のモーションデータを読み込み、文章単位でそれらモーションデータを合成したものをCGモデルで再生する手法が一般的である。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2013-186673号公報
【文献】特開2014-21180号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
音声言語と手話言語では同じ語彙を表す単語であっても発話長が異なることから、アニメーションとして生成された手話と元の音声の長さを完全に一致させることは困難である。さらに、視覚言語であり複雑な身体動作を伴う手話言語の方が、聴覚言語である音声言語に比べ発話長が長くなる場合が多々ある。そのため、テキスト化された音声を手話へリアルタイムに翻訳した場合に、元となる音声から手話を提示するまでに遅延が生じ、発話が重なるにつれその遅延が蓄積される。例えば、テレビ番組に対して、番組音声からリアルタイム翻訳した手話CGアニメーションを付与する場合、メインとなるテレビ番組と音声情報を補間しているはずの手話との間に遅延が生じ、視聴するユーザにとっては大きな負担となる。
【0006】
本発明は、このような事情を考慮してなされたもので、音声からの遅延を低減した手話翻訳を行うことができる手話翻訳装置及びプログラムを提供する。
【課題を解決するための手段】
【0007】
本発明の一態様は、発話内容のテキストを、手話単語を表す手話の動きをフレーム毎に示すモーションデータを並べた手話翻訳情報に変換する手話翻訳部と、前記発話内容の音声の長さである音声発話長と、前記手話翻訳情報に含まれる前記モーションデータの再生時間を合計した手話発話長とを取得する発話長取得部と、前記手話発話長が前記音声発話長に近くなるように、前記手話翻訳情報に含まれる前記モーションデータの一部のフレームを削除するデータ編集部と、を備えることを特徴とする手話翻訳装置である。
【0008】
本発明の一態様は、上述する手話翻訳装置であって、前記データ編集部は、前記手話翻訳情報に含まれる複数の前記モーションデータのそれぞれから前記フレームを削除する。
【0009】
本発明の一態様は、上述する手話翻訳装置であって、前記データ編集部は、前記手話翻訳情報に含まれる複数の前記モーションデータそれぞれが表す前記手話単語の重要度を取得し、複数の前記モーションデータのそれぞれから対応する前記手話単語の重要度に基づいた割合の前記フレームを削除する。
【0010】
本発明の一態様は、上述する手話翻訳装置であって、前記データ編集部は、前記手話翻訳情報に含まれる複数の前記モーションデータそれぞれが表す前記手話単語の重要度を取得し、取得した重要度に基づいて前記手話翻訳情報に含まれる複数の前記モーションデータから前記手話単語の単位で前記フレームを削除する。
【0011】
本発明の一態様は、コンピュータを、上述したいずれかの手話翻訳装置として機能させるためのプログラムである。
【発明の効果】
【0012】
本発明によれば、音声からの遅延を低減した手話翻訳を行うことができる。
【図面の簡単な説明】
【0013】
【
図1】本発明の一実施形態による手話翻訳装置の構成例を示す機能ブロック図である。
【
図2】同実施形態による手話翻訳装置の処理手順の一例を示すフローチャートである。
【
図3】同実施形態による手話翻訳の具体的な例を示す図である。
【発明を実施するための形態】
【0014】
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
コンピュータグラフィックス(CG)アニメーションで利用するリアルタイム手話翻訳技術は、様々な分野において広く使用される可能性を持つ技術である。一般的なCGアニメーション向けの手話翻訳では、入力情報となるテキスト化した日本語などの音声言語を単純に全て手話言語へ翻訳する。本実施形態において、手話言語とは、手話の動き(モーション)を表すデータである。手話言語は、例えば、映像フレーム毎の体の各部の位置を三次元座標などで表すモーションデータでもよく、実際に人が手話の動きを行っている映像データでもよい。以下では、手話言語に、手話のCGに変換可能なモーションデータを用いる場合を例に説明する。以下では、モーションデータを構成する各フレームを、「モーションフレーム」と記載する。
【0015】
素材となるモーションデータを単純に並べて手話言語が生成される場合、手話言語の長さはそれらモーションデータそれぞれの再生時間長を全て足し合わせたものとなる。従来の手話翻訳では、音声言語の発話時間と手話言語の発話(映像によるモーションの表出)時間との間に差が生じる。そのため、実際の利用を想定した場合、発話の度に、手話への翻訳結果に音声言語からの遅延が生じ、さらに時間が経過するにつれその遅延が蓄積されていく。
【0016】
そこで、本実施形態の手話翻訳装置は、上記の問題を改善するため、音声言語の時間的な発話長を考慮することで、音声言語から手話言語への柔軟な翻訳を実現する。1つ目の方法では、手話翻訳を表すモーションデータ列からモーションフレームを間引くことによって、再生速度を上げる。2つ目の方法では、モーションデータ列から重要度が低い手話単語のモーションデータそのものを削除することにより、詳細を省いた意訳の手話翻訳とする。つまり、手話単語の単位で、モーションフレームを削除する。また、1つ目の方法と2つ目の方法を組み合わせることもできる。これらの方法によって、本実施形態の手話翻訳装置は、入力された音声言語の発話長に応じて、日本語テキストから手話への翻訳結果であるモーションデータを最適な形に自動編集し、音声からの遅延を最小化する。本実施形態の手話翻訳装置により、番組の音声に対応した手話映像の遅延を抑えて提示することができ、視聴するユーザの負担を解消することが可能となる。
【0017】
図1は、本発明の一実施形態による手話翻訳装置100の構成例を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。手話翻訳装置100は、音声認識結果有効部20と、手話翻訳部1と、発話長比較部2と、データ編集部3とを備えて構成される。
【0018】
音声認識結果有効部20は、手話翻訳装置100の内部又は外部に備えられた音声認識装置(図示せず)から音声認識結果を取得する。音声認識結果有効部20は、音声認識結果の利用が有効に設定されている場合、音声認識結果として得られた日本語テキストを手話翻訳部1へ入力し、音声認識時に算出される音声の発話時間である音声発話長を発話長比較部2へ入力する。
【0019】
手話翻訳部1は、日本語-手話翻訳部11と、手話モーションデータ列生成部12とを備える。手話翻訳部1は、入力された日本語テキストを手話翻訳する。手話翻訳とは、テキストの発話内容を表す手話モーションデータ列を生成することである。手話モーションデータ列は、1つの手話単語を表す手話モーションデータを1以上並べたものである。CGアニメーションで用いるモーションデータは、手指や顔表情などを含んだ実際の人の動きをモーションキャプチャし、BVH(Biovision Hierarchy)などの形式でモーションデータとして保存したものである。各手話モーションデータは、手話単語単位で手話の動きが収録されたモーションデータである。手話モーションデータを時系列に並べて手話単語間を接続することで、手話の文章を表す手話映像のモーションデータ列を生成する。
【0020】
日本語-手話翻訳部11は、入力された日本語テキストを手話単語列に翻訳する。翻訳結果の手話単語列は、手話モーションデータのデータ番号が時系列に並んだデータである。例えば、日本語-手話翻訳部11は、日本語テキストが示す発話内容「日本の山田選手が…」を、「日本」、「山」、「田」、「選手」、…の手話単語列に変換する。翻訳結果は、これら各手話単語を表す手話モーションデータを特定するデータ番号を、手話単語の出現順に並べたものとなる。日本語-手話翻訳部11は、任意の従来技術により日本語テキストから手話単語列への変換を行う。従来技術として、例えば、特許文献1、2等の機械翻訳の技術を利用することができるが、この限りではない。手話モーションデータ列生成部12は、日本語-手話翻訳部11から出力された手話単語列に、手話単語列を構成するデータ番号それぞれにより特定される手話モーションデータを紐付けて生成した手話翻訳情報を発話長比較部2に出力する。手話モーションデータ列生成部12は、データ番号に対応した手話モーションデータを、手話翻訳部1が備える記憶部(図示せず)又は外部の記憶装置から読み出す。
【0021】
発話長比較部2は、音声発話長算出部21と、手話発話長算出部22と、音声・手話発話長比較部23とを備える。発話長比較部2は、発話内容の音声の長さである音声発話長と、手話翻訳情報に含まれる手話モーションデータの再生時間を合計した手話発話長とを取得する発話長取得部として動作する。
【0022】
音声発話長算出部21は、音声発話長を予測算出する。音声発話長算出部21は、入力された日本語テキストから、発話内容を音声合成した際の総発話時間である音声発話長の予測を算出する。この算出には、既存の音声合成技術などを利用することで実現可能である。音声発話長算出部21は、算出した予測の音声発話長を音声・手話発話長比較部23に出力する。
【0023】
手話発話長算出部22は、手話翻訳部1が生成した手話翻訳情報を入力する。手話発話長算出部22は、手話翻訳結果の手話単語列がCGアニメーション化された時の予測の総発話長である手話発話長を算出する。具体的には、手話発話長算出部22は、手話翻訳情報に含まれる各手話単語の手話モーションデータそれぞれのフレーム長を足し合わせた結果と、1フレーム分の表示時間とを乗算し、予測の手話発話長を算出する。
【0024】
音声・手話発話長比較部23は、音声発話長算出部21から入力した音声発話長と、手話発話長算出部22から入力した手話発話長とを比較する。なお、既存の音声認識技術と組み合わせる際には、音声認識装置が音声認識を行った際の総発話長を保持し、音声発話長算出部21から入力した音声発話長に代えて利用してもよい。その場合、音声・手話発話長比較部23は、音声認識結果有効部20から音声発話長を入力する。音声・手話発話長比較部23は、音声発話長に対する手話発話長の差分である発話長差を算出する。音声・手話発話長比較部23は、音声発話長の方が長い場合、データ編集部3を通過させずに、手話翻訳情報の手話モーションデータ列をそのまま手話翻訳装置100の外部に出力する。音声・手話発話長比較部23は、手話発話長の方が長い場合、手話翻訳情報と、音声発話長と、発話長差とをデータ編集部3に出力する。
【0025】
データ編集部3は、モード選択部31と、間引きモード処理部32と、要約モード処理部33と、重み付け間引きモード処理部34とを備える。モード選択部31は、音声・手話発話長比較部23から入力した発話長差と閾値との比較、または、ユーザによる事前設定に基づいて、手話翻訳情報を間引きモード処理部32、要約モード処理部33、及び、重み付け間引きモード処理部34のうちいずれかに出力する。閾値は、ユーザが設定してもよく、予め決められた値を用いてもよい。
【0026】
間引きモード処理部32は、手話翻訳情報に含まれる手話モーションデータそれぞれから、音声・手話発話長比較部23から入力した発話長差に応じて一定のフレーム間隔のモーションフレームを全て削除する。これにより、各手話単語のモーションの長さを短縮し、必然的に全体の長さが短縮される。間引きモード処理部32は、フレーム長削減率計算部321と、フレーム長変換処理部322とを備える。フレーム長削減率計算部321は、手話翻訳情報に含まれる手話モーションデータ列から削除するモーションフレームの割合である削減率を計算する。フレーム長変換処理部322は、手話翻訳情報に含まれる手話モーションデータそれぞれから、フレーム長削減率計算部321が計算した削減率に応じてモーションフレームを削除する。
【0027】
要約モード処理部33は、手話翻訳情報に含まれる手話モーションデータ列から、手話単語の重要度に応じて、手話単語の単位で手話モーションデータを削除する。これにより、手話翻訳結果の全体の長さを短縮する。要約モード処理部33は、手話単語重要度計算部331と、手話単語省略処理部332とを備える。手話単語重要度計算部331は、手話翻訳情報に含まれる各手話モーションデータが表す手話単語それぞれの重要度を計算する。例えば、手話単語重要度計算部331は、手話単語列を形態素解析し、各手話単語の重要度を品詞に基づいて決定する。手話単語省略処理部332は、手話翻訳情報に含まれる手話モーションデータ列から、手話単語重要度計算部331が計算した手話単語の重要度に基づいて一部の手話モーションデータを削除する。
【0028】
重み付け間引きモード処理部34は、手話単語の重要度に応じて手話モーションデータからモーションフレームを削除する。重み付け間引きモード処理部34は、手話単語重要度計算部341と、フレーム長削減率計算部342と、フレーム長変換処理部343とを備える。手話単語重要度計算部341は、手話単語重要度計算部331と同様に、手話翻訳情報に含まれる各手話モーションデータが表す手話単語それぞれの重要度を計算する。フレーム長削減率計算部342は、手話単語の重要度に応じて各手話モーションデータの削減率を計算する。最も低い削減率は0であってもよい。フレーム長変換処理部343は、手話翻訳情報に含まれる各手話モーションデータから、フレーム長削減率計算部321が計算した削減率に応じてモーションフレームを削除する。
【0029】
図2は,本実施形態の手話翻訳装置100の処理手順の一例を示すフローチャートである。音声認識なしの場合(ステップS105:NO)、手話翻訳装置100は、日本語テキストを読み込む(ステップS110)。日本語-手話翻訳部11は、読み込まれた日本語テキストを、手話モーションデータのデータ番号を時系列に並べた手話単語列に翻訳する(ステップS115)。発話長比較部2の音声発話長算出部21は、ステップS110において読み込まれた日本語テキストから、発話内容を音声合成した際の音声発話長の予測を算出する(ステップS120)。
【0030】
手話モーションデータ列生成部12は、日本語-手話翻訳部11から出力された手話単語列に、各手話単語のデータ番号により特定される手話モーションデータを紐付け、テキストファイルや配列データなどの定型化されたフォーマットにより手話翻訳情報として出力する(ステップS125)。手話発話長算出部22は、手話翻訳情報に含まれる手話モーションデータそれぞれのフレーム長の合計に基づいて、手話単語列がCGアニメーション化された時の手話発話長の予測を算出する(ステップS130)。
【0031】
一方、音声認識ありの場合(ステップS105:YES)、手話翻訳装置100の内部又は外部の音声認識装置が音声認識を行う(ステップS135)。音声認識結果有効部20は、音声認識結果が有効であることが設定されている場合(ステップS140:YES)、音声認識装置による音声認識結果を取得し、手話翻訳部1に出力する。さらに、音声認識結果有効部20は、音声認識装置から音声認識を行った音声の総発話長を取得し、音声・手話発話長比較部23に出力する。
【0032】
手話翻訳部1の日本語-手話翻訳部11は、音声認識結果有効部20から音声認識結果が示す日本語テキストを読み込む(ステップS145)。日本語-手話翻訳部11は、ステップS115と同様の処理を行い、音声認識結果の日本語テキストを手話単語列に翻訳する(ステップS150)。ステップS150の処理の後、手話翻訳装置100は、ステップS125及びステップS130の処理を行う。なお、音声認識結果有効部20に音声認識結果が有効であることが設定されていない場合(ステップS140:NO)、手話翻訳装置100はステップS110からの処理を行う。
【0033】
ステップS130の処理の後、音声・手話発話長比較部23は、音声発話長と手話発話長を比較する(ステップS155)。この音声発話長は、音声認識が有効ではない場合は音声発話長算出部21が算出した音声発話長であり、音声認識が有効の場合は音声認識結果有効部20が音声認識装置から取得した音声認識対象の音声の総発話長である。音声・手話発話長比較部23は、手話発話長が音声発話長以下であると判断した場合(ステップS155:音声≧手話)、手話翻訳情報の手話モーションデータ列をそのまま手話翻訳装置100の外部に出力する。
【0034】
音声・手話発話長比較部23は、手話発話長が音声発話長よりも長いと判断した場合、手話翻訳情報と、手話発話長から音声発話長を減算した発話長差と、音声発話長とをモード選択部31に出力する。モード選択部31は、モードを判断する(ステップS160)。モード選択部31は、発話長差が閾値よりも小さい場合、間引きモードと判断する(ステップS160:間引きモード)。モード選択部31は、手話翻訳情報、発話長差及び音声発話長を間引きモード処理部32に出力する。間引きモード処理部32のフレーム長削減率計算部321は、手話発話長が、音声発話長に近くなるように手話モーションデータ列から削除するモーションフレームの割合である削減率を計算する(ステップS165)。フレーム長削減率計算部321は、発話長差が大きいほど、削除するモーションフレームの間隔が短くなるように削減率を高くするよう調整する。以下に、削除するフレーム間隔を決定する一例を挙げるがこの限りではない。
【0035】
手話翻訳の結果が手話モーションデータA及び手話モーションデータBから構成されており、手話モーションデータA、Bはそれぞれ、150フレームのモーションフレームにより構成されるとする。また、手話モーションデータが60fps(フレーム毎秒)であり、発話長差が+2.0秒であるとする。この場合、発話長差に相当するフレーム数は、(+2.0秒)×(60fps)=120フレームとなる。つまり、手話翻訳情報に含まれる手話モーションデータ列の全体から120フレームのモーションフレームを削除することにより、音声発話長と手話発話長とが等しくなる。
【0036】
手話翻訳の結果は2つの手話モーションデータから構成されるため、各手話モーションデータそれぞれから120/2=60フレームを削除すればよい。ここで、削除するフレーム数60を単純に手話モーションデータのフレーム数150で除算すると60/150=1/2.5となり、削減率1/2(2フレームのうち1フレームを削除)と削減率1/3(3フレームのうち1フレームを削除)の間である。ここでは、高い方の削減率1/2を選択し、フレーム削除間隔を「1」と決定する。150フレームからフレーム削除間隔「1」でフレームを削除すると、150×(削減率1/2)=75フレームを削除することになる。この場合、厳密には60フレーム分を削除することはできないが、手話発話長を音声発話長に近づけることが可能となる。
【0037】
フレーム長変換処理部322は、手話翻訳情報に含まれる各手話モーションデータA、Bのそれぞれから、フレーム長削減率計算部321が算出したフレーム削除間隔に従ってモーションフレームを削除し、手話翻訳装置100の外部に出力する(ステップS170)。なお、フレーム長変換処理部322は、手話発話長を音声発話長に近づけるように、手話翻訳情報に含まれる各手話モーションデータを並べたときの全体のモーションフレームから、均等間隔でモーションフレームを削除してもよい。
【0038】
モード選択部31は、発話長差が閾値以上である場合、要約モードと判断する(ステップS160:要約モード)。モード選択部31は、手話翻訳情報及び音声発話長を要約モード処理部33に出力する。要約モード処理部33の手話単語重要度計算部331は、手話翻訳情報に含まれる各手話モーションデータが表す単語それぞれの重要度を計算する(ステップS175)。重要度の計算には、例えば、以下のように、一般的な形態素解析技術を用いる方法があるが、この限りではない。
【0039】
手話単語重要度計算部331は、手話翻訳情報に含まれる各手話モーションデータが表す単語列に、一文単位で一般的な形態素解析技術を適用して単語単位に分割すると共に、それら各単語に品詞を付与する。手話単語重要度計算部331は、事前に設定された品詞と重要度との対応付けを表すデータ及び単語と重要度との関係を表すデータに基づいて、各単語の重要度を得る。品詞ごとの重要度では、例えば、名詞、固有名詞、動詞等の重要度を高く、助詞や形容詞、副詞は重要度を低くする。単語の重要度は、その単語の前後の単語や、前後の単語の品詞によって決まるものであってもよい。単語の重要度と、単語が分類された品詞の重要度とが異なる場合は、単語の重要度を優先する。これにより、翻訳対象に合わせて重要な単語をチューニングすることができる。例えば、スポーツの番組の音声を手話翻訳する場合、一般的な規則では名詞の優先度が高い場合でも、名詞の単語「選手」の前に名前を表す固有名詞が付加されていた場合は、優先度を低くすることができる。なお、手話単語重要度計算部331は、日本語テキストに形態素解析を行ってもよい。この場合、日本語テキストに含まれる単語の重要度が、その単語に対応した手話単語の重要度として用いられる。
【0040】
手話単語省略処理部332は、音声発話長に近くなるように、手話翻訳情報が示す手話モーションデータ列から、手話単語重要度計算部331が計算した優先度が低い手話単語から順に1以上の手話モーションデータを削除する(ステップS180)。手話単語省略処理部332は、間引きモード処理部32における処理と同様に、音声・手話発話長比較部23が出力した発話長差が大きいほど、削除する手話モーションデータの数が多くなるように、削除する手話モーションデータの数を決定する。その際、手話単語省略処理部332は、削除の結果残った手話モーションデータ列が予め設定された最低限の単語数以下とならないようにする。削除されない最低限の単語数の閾値を予め設定しておくことで、意味を持たない翻訳結果が出力されることを防ぐことが可能である。手話単語省略処理部332は、手話翻訳情報が示す手話モーションデータ列から優先度が低い手話モーションデータを削除した結果を、手話翻訳装置100の外部に出力する。
【0041】
また、モード選択部31は、予め入力された設定に応じて、間引きモードに代えて重み付け間引きモードと判断してもよい(ステップS160:重み付け間引きモード)。モード選択部31は、手話翻訳情報及び音声発話長を重み付け間引きモード処理部34に出力する。重み付け間引きモード処理部34の手話単語重要度計算部341は、手話単語重要度計算部331と同様の処理により、手話翻訳情報に含まれる各手話モーションデータが表す単語それぞれの重要度を計算する(ステップS185)。フレーム長削減率計算部342は、手話単語重要度計算部341が算出した手話単語の重要度に応じて、手話モーションデータ単位で異なる削減数を算出する(ステップS190)。フレーム長削減率計算部342は、重要度が高い手話単語を表す手話モーションデータほど、フレーム長削減率を低くする。これにより、さらに柔軟に発話長を変更することができる。フレーム長変換処理部343は、フレーム長削減率計算部342が計算した各手話モーションデータの削減率に従って、手話モーションデータ列のモーションフレームを削除し、手話翻訳装置100の外部に出力する(ステップS195)。
【0042】
モード選択部31は、発話長差の値に応じてハイブリッドモードと判断することもできる。例えば、モード選択部31は、第一の閾値と第一の閾値より大きな第二の閾値とを用い、発話長差が第一の閾値未満のときは要約モード又は重み付け間引きモードと判断し、第一の閾値以上第二の閾値未満であるときには要約モードと判断する。モード選択部31は、発話長差が第二の閾値以上であるときにはハイブリッドモードと判断する。あるいは、モード選択部31は、予め入力された設定に応じて、要約モードとハイブリッドモードのいずれを行うかを可変にしてもよい。
【0043】
モード選択部31が、ハイブリッドモードと判断した場合(ステップS160:ハイブリッドモード)、まず、要約モード処理部33は、ステップS175~ステップS180と同様の処理を行い、手話モーションデータ単位で大まかに手話発話長を削減する(ステップS200、S205)。要約モード処理部33は、削減後の手話モーションデータ列に更新された手話翻訳情報を間引きモード処理部32に入力する。間引きモード処理部32は、更新された手話翻訳情報を用いてステップS165~ステップS170と同様の処理を行う(ステップS210、S215)。ただし、間引きモード処理部32は、発話長差として、音声発話長と、要約モード処理部33が出力した手話翻訳情報の手話発話長との差分を用いる。これにより、フレーム単位で細かく発話長を調整することが可能となる。
【0044】
手話翻訳部1は、ステップS170、ステップS180、ステップS195又はステップS215の処理の後、次の入力を検出したかを判断する(ステップS220)。手話翻訳部1が次の入力を検出した場合(ステップS220:YES)、手話翻訳装置100は、ステップS105からの処理を繰り返す。手話翻訳部1が次の入力を検出しなかった場合(ステップS220:NO)、手話翻訳装置100は、
図2の処理を終了する。手話翻訳装置100から出力された手話モーションデータ列は、CGグラフィック処理により、手話のモーションを映像化したCGアニメーションに変換される。なお、手話翻訳部1は、ステップS105~ステップS215までの処理を1文の発話内容ごとに行ってもよく、複数文まとめて行ってもよい。
【0045】
図3は、手話翻訳の具体的な例を示す図である。
図3(a)は、従来の手話翻訳技術の例を示す。番組の音声や、テキストから合成した合成音声の発話時間に対し、同じ内容をそのまま翻訳した手話の発話時間には遅延が生じる傾向がある。例えば、早めの口調で“日本の山田選手が・・・”と発話された音声をリアルタイムで手話翻訳し、CGアニメーションを用いて手話言語を提示する。この場合、手話翻訳や、CGアニメーションの合成処理における遅延を考慮しなかったとしても、手話翻訳結果は、“日本”、“山”、“田”、“選手”、・・・、の順に、手を加えていないモーションキャプチャ時の平均的な速度で淡々と手話を発話する手話モーションデータの接続となる。そのため、手話翻訳の対象となった音声からの遅延が徐々に増加してしまう。本実施形態では、
図3(b)に示す間引きモード、
図3(c)に示す要約モードなどにより手話翻訳の発話長を短くし、その問題を解決している。
【0046】
手話翻訳装置100に、手話翻訳の対象となる日本語テキスト“日本の山田選手が・・・”が入力された場合、手話翻訳部1は、手話単語列“日本”、“山”、“田”、“選手”、・・・、を表す手話モーションデータ列を生成する。次に、発話長比較部2は、日本語テキストを音声発話した際の音声発話長と、手話単語列の手話発話長との予測をそれぞれ算出する。発話長比較部2は、それらの発話長を比較し、音声からの手話の遅延を表す発話長差を算出してデータ編集部3へ出力する。データ編集部3のモード選択部31は、例えば発話長差の閾値を10秒に設定していた場合、発話長差が10秒以内の場合は間引きモードを選択し、10秒以上の場合は要約モードを選択する。なお、ユーザが事前に、モード選択部31にモードを設定しておくことで、固定のモードを選択することも可能である。
【0047】
データ編集部3は、間引きモードを選択した場合、
図3(b)に示すように、各手話単語“日本”、“山”、“田”、“選手”、・・・、のそれぞれに対応する手話モーションデータのモーションフレームを、発話長差の値に基づき均等間隔で削除する。モーションフレームの削除によって各手話単語のモーションの再生速度を上げることで、手話の発話長を短縮することが可能となる。
【0048】
データ編集部3は、要約モードを選択した場合、
図3(c)に示すように一つの発話に含まれる各手話単語の重要度を算出する。同図では、“日本”の重要度は4、“山”の重要度は5、“田”の重要度は5、“選手”の重要度は2である。データ編集部3は、発話長差が最小になるように、手話単語列において重要度が低い手話単語“日本”や“選手”の手話モーションデータから先に削除していき、重要度が高い“山”や“田”のみの手話モーションデータ列を手話翻訳情報とする。ディテールを省き意訳の手話翻訳とすることで、手話の発話長を短縮する。
【0049】
データ編集部3は、上述の2つのモードを組み合わせたハイブリッドモードとする場合、手話単語列“日本”、“山”、“田”、“選手”、・・・、において最も重要度が低い“選手”のみを要約モードで削除する。データ編集部3は、残った手話単語列“日本”,“山”,“田”については間引きモードでフレーム長を短縮する。
【0050】
以上説明した実施形態によれば、手話翻訳装置は、手話翻訳部と、発話長取得部と、データ編集部とを備える。発話長取得部は、実施形態の発話長比較部2に対応する。手話翻訳部は、発話内容のテキストを、手話単語を表す手話の動きをフレーム毎に示すモーションデータを並べた手話翻訳情報に変換する。発話長取得部は、発話内容の音声の長さである音声発話長と、手話翻訳情報に含まれるモーションデータの再生時間を合計した手話発話長とを取得する。データ編集部は、手話発話長が音声発話長に近くなるように、手話翻訳情報に含まれるモーションデータの一部のフレームを削除する。例えば、データ編集部は、手話翻訳情報に含まれる複数のモーションデータのそれぞれから均等にフレームを削除する。あるいは、データ編集部は、手話翻訳情報に含まれる複数のモーションデータそれぞれが表す手話単語の重要度を取得し、複数のモーションデータのそれぞれから対応する手話単語の重要度に基づいた割合のフレームを削除する。またあるいは、データ編集部は、手話翻訳情報に含まれる複数のモーションデータそれぞれが表す手話単語の重要度を取得し、取得した重要度に基づいて手話翻訳情報に含まれる複数のモーションデータから手話単語の単位でフレームを削除する。
【0051】
本実施形態の手話翻訳装置は、入力された音声言語の発話長に応じて、手話単語列や各手話モーションデータを最適な形に自動編集することによって、翻訳時の音声からの遅延を最小化し、より手話通訳者などに近い形の自動翻訳を実現することが可能となる。
【0052】
なお、上述の手話翻訳装置100は、内部にコンピュータシステムを有している。そして、手話翻訳装置100の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
【0053】
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
【符号の説明】
【0054】
1…手話翻訳部
2…発話長比較部
3…データ編集部
11…日本語-手話翻訳部
12…手話モーションデータ列生成部
20…音声認識結果有効部
21…音声発話長算出部
22…手話発話長算出部
23…音声・手話発話長比較部
31…モード選択部
32…間引きモード処理部
33…要約モード処理部
34…重み付け間引きモード処理部
100…手話翻訳装置
321、342…フレーム長削減率計算部
322、343…フレーム長変換処理部
331、341…手話単語重要度計算部
332…手話単語省略処理部