特許7072390 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特許7072390手話翻訳装置及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-05-12

(45)【発行日】2022-05-20

(54)【発明の名称】手話翻訳装置及びプログラム

(51)【国際特許分類】

G09B 21/00 20060101AFI20220513BHJP

G06F 40/58 20200101ALI20220513BHJP

G10L 15/00 20130101ALI20220513BHJP

【ＦＩ】

G09B21/00 F

G06F40/58

G10L15/00 200C

【請求項の数】 4

(21)【出願番号】P 2018007445

(22)【出願日】2018-01-19

(65)【公開番号】P2019124901

(43)【公開日】2019-07-25

【審査請求日】2020-11-30

(73)【特許権者】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】100141139

【弁理士】

【氏名又は名称】及川周

(74)【代理人】

【識別番号】100171446

【弁理士】

【氏名又は名称】高田尚幸

(74)【代理人】

【識別番号】100114937

【弁理士】

【氏名又は名称】松本裕幸

(74)【代理人】

【識別番号】100171930

【弁理士】

【氏名又は名称】木下郁一郎

(72)【発明者】

【氏名】内田翼

(72)【発明者】

【氏名】宮▲崎▼ 太郎

【審査官】宮本昭彦

(56)【参考文献】

【文献】特開２００１－１８６４３０（ＪＰ，Ａ）

【文献】特開２００８－１３４６８６（ＪＰ，Ａ）

【文献】特開平０８－００６４９４（ＪＰ，Ａ）

【文献】特開２００５－０６４６００（ＪＰ，Ａ）

【文献】特開２０１５－１１５００７（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０９Ｂ２１／００

Ｇ０６Ｆ４０／２０－４０／５８

Ｇ１０Ｌ１５／００

(57)【特許請求の範囲】

【請求項1】

発話内容のテキストを、手話単語を表す手話の動きをフレーム毎に示すモーションデータを並べた手話翻訳情報に変換する手話翻訳部と、
前記発話内容の音声の長さである音声発話長と、前記手話翻訳情報に含まれる前記モーションデータの再生時間を合計した手話発話長とを取得する発話長取得部と、
前記手話発話長が前記音声発話長に近くなるように、前記手話翻訳情報に含まれる前記モーションデータの一部のフレームを削除するデータ編集部と、
を備え、
前記データ編集部は、前記手話翻訳情報に含まれる複数の前記モーションデータそれぞれが表す前記手話単語の重要度を取得し、複数の前記モーションデータのそれぞれから対応する前記手話単語の重要度に基づいた割合の前記フレームを削除する、
ことを特徴とする手話翻訳装置。

【請求項2】

発話内容のテキストを、手話単語を表す手話の動きをフレーム毎に示すモーションデータを並べた手話翻訳情報に変換する手話翻訳部と、
前記発話内容の音声の長さである音声発話長と、前記手話翻訳情報に含まれる前記モーションデータの再生時間を合計した手話発話長とを取得する発話長取得部と、
前記手話発話長が前記音声発話長に近くなるように、前記手話翻訳情報に含まれる前記モーションデータの一部のフレームを削除するデータ編集部と、
を備え、
前記データ編集部は、前記手話翻訳情報に含まれる複数の前記モーションデータそれぞれが表す前記手話単語の重要度を取得し、取得した重要度に基づいて前記手話翻訳情報に含まれる複数の前記モーションデータから前記手話単語の単位で前記フレームを削除する、
ことを特徴とする手話翻訳装置。

【請求項3】

前記データ編集部は、前記手話翻訳情報に含まれる複数の前記モーションデータのそれぞれから前記フレームを削除する、
ことを特徴とする請求項２に記載の手話翻訳装置。

【請求項4】

コンピュータを、請求項１から請求項３のいずれか一項に記載の手話翻訳装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、手話翻訳装置及びプログラムに関する。

【背景技術】

【0002】

手話のＣＧ（Computer Graphics）アニメーション生成においては、日本語などの音声言語から手話言語へリアルタイム翻訳する手法が用いられている。この手法として、日本語と手話の対訳データであるコーパスを利用した機械翻訳などを用いるものがある（例えば、特許文献１、２参照）。

【0003】

現在、手話のＣＧアニメーションを生成するためには、まず上述した翻訳手法を用いて翻訳結果となる手話単語列を出力する。次に、手話単語列の各単語に対応する手話のモーションデータを読み込み、文章単位でそれらモーションデータを合成したものをＣＧモデルで再生する手法が一般的である。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０１３－１８６６７３号公報

【文献】特開２０１４－２１１８０号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

音声言語と手話言語では同じ語彙を表す単語であっても発話長が異なることから、アニメーションとして生成された手話と元の音声の長さを完全に一致させることは困難である。さらに、視覚言語であり複雑な身体動作を伴う手話言語の方が、聴覚言語である音声言語に比べ発話長が長くなる場合が多々ある。そのため、テキスト化された音声を手話へリアルタイムに翻訳した場合に、元となる音声から手話を提示するまでに遅延が生じ、発話が重なるにつれその遅延が蓄積される。例えば、テレビ番組に対して、番組音声からリアルタイム翻訳した手話ＣＧアニメーションを付与する場合、メインとなるテレビ番組と音声情報を補間しているはずの手話との間に遅延が生じ、視聴するユーザにとっては大きな負担となる。

【0006】

本発明は、このような事情を考慮してなされたもので、音声からの遅延を低減した手話翻訳を行うことができる手話翻訳装置及びプログラムを提供する。

【課題を解決するための手段】

【0007】

本発明の一態様は、発話内容のテキストを、手話単語を表す手話の動きをフレーム毎に示すモーションデータを並べた手話翻訳情報に変換する手話翻訳部と、前記発話内容の音声の長さである音声発話長と、前記手話翻訳情報に含まれる前記モーションデータの再生時間を合計した手話発話長とを取得する発話長取得部と、前記手話発話長が前記音声発話長に近くなるように、前記手話翻訳情報に含まれる前記モーションデータの一部のフレームを削除するデータ編集部と、を備えることを特徴とする手話翻訳装置である。

【0008】

本発明の一態様は、上述する手話翻訳装置であって、前記データ編集部は、前記手話翻訳情報に含まれる複数の前記モーションデータのそれぞれから前記フレームを削除する。

【0009】

本発明の一態様は、上述する手話翻訳装置であって、前記データ編集部は、前記手話翻訳情報に含まれる複数の前記モーションデータそれぞれが表す前記手話単語の重要度を取得し、複数の前記モーションデータのそれぞれから対応する前記手話単語の重要度に基づいた割合の前記フレームを削除する。

【0010】

本発明の一態様は、上述する手話翻訳装置であって、前記データ編集部は、前記手話翻訳情報に含まれる複数の前記モーションデータそれぞれが表す前記手話単語の重要度を取得し、取得した重要度に基づいて前記手話翻訳情報に含まれる複数の前記モーションデータから前記手話単語の単位で前記フレームを削除する。

【0011】

本発明の一態様は、コンピュータを、上述したいずれかの手話翻訳装置として機能させるためのプログラムである。

【発明の効果】

【0012】

本発明によれば、音声からの遅延を低減した手話翻訳を行うことができる。

【図面の簡単な説明】

【0013】

【図1】本発明の一実施形態による手話翻訳装置の構成例を示す機能ブロック図である。

【図2】同実施形態による手話翻訳装置の処理手順の一例を示すフローチャートである。

【図3】同実施形態による手話翻訳の具体的な例を示す図である。

【発明を実施するための形態】

【0014】

以下、図面を参照しながら本発明の実施形態を詳細に説明する。
コンピュータグラフィックス（ＣＧ）アニメーションで利用するリアルタイム手話翻訳技術は、様々な分野において広く使用される可能性を持つ技術である。一般的なＣＧアニメーション向けの手話翻訳では、入力情報となるテキスト化した日本語などの音声言語を単純に全て手話言語へ翻訳する。本実施形態において、手話言語とは、手話の動き（モーション）を表すデータである。手話言語は、例えば、映像フレーム毎の体の各部の位置を三次元座標などで表すモーションデータでもよく、実際に人が手話の動きを行っている映像データでもよい。以下では、手話言語に、手話のＣＧに変換可能なモーションデータを用いる場合を例に説明する。以下では、モーションデータを構成する各フレームを、「モーションフレーム」と記載する。

【0015】

素材となるモーションデータを単純に並べて手話言語が生成される場合、手話言語の長さはそれらモーションデータそれぞれの再生時間長を全て足し合わせたものとなる。従来の手話翻訳では、音声言語の発話時間と手話言語の発話（映像によるモーションの表出）時間との間に差が生じる。そのため、実際の利用を想定した場合、発話の度に、手話への翻訳結果に音声言語からの遅延が生じ、さらに時間が経過するにつれその遅延が蓄積されていく。

【0016】

そこで、本実施形態の手話翻訳装置は、上記の問題を改善するため、音声言語の時間的な発話長を考慮することで、音声言語から手話言語への柔軟な翻訳を実現する。１つ目の方法では、手話翻訳を表すモーションデータ列からモーションフレームを間引くことによって、再生速度を上げる。２つ目の方法では、モーションデータ列から重要度が低い手話単語のモーションデータそのものを削除することにより、詳細を省いた意訳の手話翻訳とする。つまり、手話単語の単位で、モーションフレームを削除する。また、１つ目の方法と２つ目の方法を組み合わせることもできる。これらの方法によって、本実施形態の手話翻訳装置は、入力された音声言語の発話長に応じて、日本語テキストから手話への翻訳結果であるモーションデータを最適な形に自動編集し、音声からの遅延を最小化する。本実施形態の手話翻訳装置により、番組の音声に対応した手話映像の遅延を抑えて提示することができ、視聴するユーザの負担を解消することが可能となる。

【0017】

図１は、本発明の一実施形態による手話翻訳装置１００の構成例を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。手話翻訳装置１００は、音声認識結果有効部２０と、手話翻訳部１と、発話長比較部２と、データ編集部３とを備えて構成される。

【0018】

音声認識結果有効部２０は、手話翻訳装置１００の内部又は外部に備えられた音声認識装置（図示せず）から音声認識結果を取得する。音声認識結果有効部２０は、音声認識結果の利用が有効に設定されている場合、音声認識結果として得られた日本語テキストを手話翻訳部１へ入力し、音声認識時に算出される音声の発話時間である音声発話長を発話長比較部２へ入力する。

【0019】

手話翻訳部１は、日本語－手話翻訳部１１と、手話モーションデータ列生成部１２とを備える。手話翻訳部１は、入力された日本語テキストを手話翻訳する。手話翻訳とは、テキストの発話内容を表す手話モーションデータ列を生成することである。手話モーションデータ列は、１つの手話単語を表す手話モーションデータを１以上並べたものである。ＣＧアニメーションで用いるモーションデータは、手指や顔表情などを含んだ実際の人の動きをモーションキャプチャし、ＢＶＨ（Biovision Hierarchy）などの形式でモーションデータとして保存したものである。各手話モーションデータは、手話単語単位で手話の動きが収録されたモーションデータである。手話モーションデータを時系列に並べて手話単語間を接続することで、手話の文章を表す手話映像のモーションデータ列を生成する。

【0020】

日本語－手話翻訳部１１は、入力された日本語テキストを手話単語列に翻訳する。翻訳結果の手話単語列は、手話モーションデータのデータ番号が時系列に並んだデータである。例えば、日本語－手話翻訳部１１は、日本語テキストが示す発話内容「日本の山田選手が…」を、「日本」、「山」、「田」、「選手」、…の手話単語列に変換する。翻訳結果は、これら各手話単語を表す手話モーションデータを特定するデータ番号を、手話単語の出現順に並べたものとなる。日本語－手話翻訳部１１は、任意の従来技術により日本語テキストから手話単語列への変換を行う。従来技術として、例えば、特許文献１、２等の機械翻訳の技術を利用することができるが、この限りではない。手話モーションデータ列生成部１２は、日本語－手話翻訳部１１から出力された手話単語列に、手話単語列を構成するデータ番号それぞれにより特定される手話モーションデータを紐付けて生成した手話翻訳情報を発話長比較部２に出力する。手話モーションデータ列生成部１２は、データ番号に対応した手話モーションデータを、手話翻訳部１が備える記憶部（図示せず）又は外部の記憶装置から読み出す。

【0021】

発話長比較部２は、音声発話長算出部２１と、手話発話長算出部２２と、音声・手話発話長比較部２３とを備える。発話長比較部２は、発話内容の音声の長さである音声発話長と、手話翻訳情報に含まれる手話モーションデータの再生時間を合計した手話発話長とを取得する発話長取得部として動作する。

【0022】

音声発話長算出部２１は、音声発話長を予測算出する。音声発話長算出部２１は、入力された日本語テキストから、発話内容を音声合成した際の総発話時間である音声発話長の予測を算出する。この算出には、既存の音声合成技術などを利用することで実現可能である。音声発話長算出部２１は、算出した予測の音声発話長を音声・手話発話長比較部２３に出力する。

【0023】

手話発話長算出部２２は、手話翻訳部１が生成した手話翻訳情報を入力する。手話発話長算出部２２は、手話翻訳結果の手話単語列がＣＧアニメーション化された時の予測の総発話長である手話発話長を算出する。具体的には、手話発話長算出部２２は、手話翻訳情報に含まれる各手話単語の手話モーションデータそれぞれのフレーム長を足し合わせた結果と、１フレーム分の表示時間とを乗算し、予測の手話発話長を算出する。

【0024】

音声・手話発話長比較部２３は、音声発話長算出部２１から入力した音声発話長と、手話発話長算出部２２から入力した手話発話長とを比較する。なお、既存の音声認識技術と組み合わせる際には、音声認識装置が音声認識を行った際の総発話長を保持し、音声発話長算出部２１から入力した音声発話長に代えて利用してもよい。その場合、音声・手話発話長比較部２３は、音声認識結果有効部２０から音声発話長を入力する。音声・手話発話長比較部２３は、音声発話長に対する手話発話長の差分である発話長差を算出する。音声・手話発話長比較部２３は、音声発話長の方が長い場合、データ編集部３を通過させずに、手話翻訳情報の手話モーションデータ列をそのまま手話翻訳装置１００の外部に出力する。音声・手話発話長比較部２３は、手話発話長の方が長い場合、手話翻訳情報と、音声発話長と、発話長差とをデータ編集部３に出力する。

【0025】

データ編集部３は、モード選択部３１と、間引きモード処理部３２と、要約モード処理部３３と、重み付け間引きモード処理部３４とを備える。モード選択部３１は、音声・手話発話長比較部２３から入力した発話長差と閾値との比較、または、ユーザによる事前設定に基づいて、手話翻訳情報を間引きモード処理部３２、要約モード処理部３３、及び、重み付け間引きモード処理部３４のうちいずれかに出力する。閾値は、ユーザが設定してもよく、予め決められた値を用いてもよい。

【0026】

間引きモード処理部３２は、手話翻訳情報に含まれる手話モーションデータそれぞれから、音声・手話発話長比較部２３から入力した発話長差に応じて一定のフレーム間隔のモーションフレームを全て削除する。これにより、各手話単語のモーションの長さを短縮し、必然的に全体の長さが短縮される。間引きモード処理部３２は、フレーム長削減率計算部３２１と、フレーム長変換処理部３２２とを備える。フレーム長削減率計算部３２１は、手話翻訳情報に含まれる手話モーションデータ列から削除するモーションフレームの割合である削減率を計算する。フレーム長変換処理部３２２は、手話翻訳情報に含まれる手話モーションデータそれぞれから、フレーム長削減率計算部３２１が計算した削減率に応じてモーションフレームを削除する。

【0027】

要約モード処理部３３は、手話翻訳情報に含まれる手話モーションデータ列から、手話単語の重要度に応じて、手話単語の単位で手話モーションデータを削除する。これにより、手話翻訳結果の全体の長さを短縮する。要約モード処理部３３は、手話単語重要度計算部３３１と、手話単語省略処理部３３２とを備える。手話単語重要度計算部３３１は、手話翻訳情報に含まれる各手話モーションデータが表す手話単語それぞれの重要度を計算する。例えば、手話単語重要度計算部３３１は、手話単語列を形態素解析し、各手話単語の重要度を品詞に基づいて決定する。手話単語省略処理部３３２は、手話翻訳情報に含まれる手話モーションデータ列から、手話単語重要度計算部３３１が計算した手話単語の重要度に基づいて一部の手話モーションデータを削除する。

【0028】

重み付け間引きモード処理部３４は、手話単語の重要度に応じて手話モーションデータからモーションフレームを削除する。重み付け間引きモード処理部３４は、手話単語重要度計算部３４１と、フレーム長削減率計算部３４２と、フレーム長変換処理部３４３とを備える。手話単語重要度計算部３４１は、手話単語重要度計算部３３１と同様に、手話翻訳情報に含まれる各手話モーションデータが表す手話単語それぞれの重要度を計算する。フレーム長削減率計算部３４２は、手話単語の重要度に応じて各手話モーションデータの削減率を計算する。最も低い削減率は０であってもよい。フレーム長変換処理部３４３は、手話翻訳情報に含まれる各手話モーションデータから、フレーム長削減率計算部３２１が計算した削減率に応じてモーションフレームを削除する。

【0029】

図２は，本実施形態の手話翻訳装置１００の処理手順の一例を示すフローチャートである。音声認識なしの場合（ステップＳ１０５：ＮＯ）、手話翻訳装置１００は、日本語テキストを読み込む（ステップＳ１１０）。日本語－手話翻訳部１１は、読み込まれた日本語テキストを、手話モーションデータのデータ番号を時系列に並べた手話単語列に翻訳する（ステップＳ１１５）。発話長比較部２の音声発話長算出部２１は、ステップＳ１１０において読み込まれた日本語テキストから、発話内容を音声合成した際の音声発話長の予測を算出する（ステップＳ１２０）。

【0030】

手話モーションデータ列生成部１２は、日本語－手話翻訳部１１から出力された手話単語列に、各手話単語のデータ番号により特定される手話モーションデータを紐付け、テキストファイルや配列データなどの定型化されたフォーマットにより手話翻訳情報として出力する（ステップＳ１２５）。手話発話長算出部２２は、手話翻訳情報に含まれる手話モーションデータそれぞれのフレーム長の合計に基づいて、手話単語列がＣＧアニメーション化された時の手話発話長の予測を算出する（ステップＳ１３０）。

【0031】

一方、音声認識ありの場合（ステップＳ１０５：ＹＥＳ）、手話翻訳装置１００の内部又は外部の音声認識装置が音声認識を行う（ステップＳ１３５）。音声認識結果有効部２０は、音声認識結果が有効であることが設定されている場合（ステップＳ１４０：ＹＥＳ）、音声認識装置による音声認識結果を取得し、手話翻訳部１に出力する。さらに、音声認識結果有効部２０は、音声認識装置から音声認識を行った音声の総発話長を取得し、音声・手話発話長比較部２３に出力する。

【0032】

手話翻訳部１の日本語－手話翻訳部１１は、音声認識結果有効部２０から音声認識結果が示す日本語テキストを読み込む（ステップＳ１４５）。日本語－手話翻訳部１１は、ステップＳ１１５と同様の処理を行い、音声認識結果の日本語テキストを手話単語列に翻訳する（ステップＳ１５０）。ステップＳ１５０の処理の後、手話翻訳装置１００は、ステップＳ１２５及びステップＳ１３０の処理を行う。なお、音声認識結果有効部２０に音声認識結果が有効であることが設定されていない場合（ステップＳ１４０：ＮＯ）、手話翻訳装置１００はステップＳ１１０からの処理を行う。

【0033】

ステップＳ１３０の処理の後、音声・手話発話長比較部２３は、音声発話長と手話発話長を比較する（ステップＳ１５５）。この音声発話長は、音声認識が有効ではない場合は音声発話長算出部２１が算出した音声発話長であり、音声認識が有効の場合は音声認識結果有効部２０が音声認識装置から取得した音声認識対象の音声の総発話長である。音声・手話発話長比較部２３は、手話発話長が音声発話長以下であると判断した場合（ステップＳ１５５：音声≧手話）、手話翻訳情報の手話モーションデータ列をそのまま手話翻訳装置１００の外部に出力する。

【0034】

音声・手話発話長比較部２３は、手話発話長が音声発話長よりも長いと判断した場合、手話翻訳情報と、手話発話長から音声発話長を減算した発話長差と、音声発話長とをモード選択部３１に出力する。モード選択部３１は、モードを判断する（ステップＳ１６０）。モード選択部３１は、発話長差が閾値よりも小さい場合、間引きモードと判断する（ステップＳ１６０：間引きモード）。モード選択部３１は、手話翻訳情報、発話長差及び音声発話長を間引きモード処理部３２に出力する。間引きモード処理部３２のフレーム長削減率計算部３２１は、手話発話長が、音声発話長に近くなるように手話モーションデータ列から削除するモーションフレームの割合である削減率を計算する（ステップＳ１６５）。フレーム長削減率計算部３２１は、発話長差が大きいほど、削除するモーションフレームの間隔が短くなるように削減率を高くするよう調整する。以下に、削除するフレーム間隔を決定する一例を挙げるがこの限りではない。

【0035】

手話翻訳の結果が手話モーションデータＡ及び手話モーションデータＢから構成されており、手話モーションデータＡ、Ｂはそれぞれ、１５０フレームのモーションフレームにより構成されるとする。また、手話モーションデータが６０ｆｐｓ（フレーム毎秒）であり、発話長差が＋２．０秒であるとする。この場合、発話長差に相当するフレーム数は、（＋２．０秒）×（６０ｆｐｓ）＝１２０フレームとなる。つまり、手話翻訳情報に含まれる手話モーションデータ列の全体から１２０フレームのモーションフレームを削除することにより、音声発話長と手話発話長とが等しくなる。

【0036】

手話翻訳の結果は２つの手話モーションデータから構成されるため、各手話モーションデータそれぞれから１２０／２＝６０フレームを削除すればよい。ここで、削除するフレーム数６０を単純に手話モーションデータのフレーム数１５０で除算すると６０／１５０＝１／２．５となり、削減率１／２（２フレームのうち１フレームを削除）と削減率１／３（３フレームのうち１フレームを削除）の間である。ここでは、高い方の削減率１／２を選択し、フレーム削除間隔を「１」と決定する。１５０フレームからフレーム削除間隔「１」でフレームを削除すると、１５０×（削減率１／２）＝７５フレームを削除することになる。この場合、厳密には６０フレーム分を削除することはできないが、手話発話長を音声発話長に近づけることが可能となる。

【0037】

フレーム長変換処理部３２２は、手話翻訳情報に含まれる各手話モーションデータＡ、Ｂのそれぞれから、フレーム長削減率計算部３２１が算出したフレーム削除間隔に従ってモーションフレームを削除し、手話翻訳装置１００の外部に出力する（ステップＳ１７０）。なお、フレーム長変換処理部３２２は、手話発話長を音声発話長に近づけるように、手話翻訳情報に含まれる各手話モーションデータを並べたときの全体のモーションフレームから、均等間隔でモーションフレームを削除してもよい。

【0038】

モード選択部３１は、発話長差が閾値以上である場合、要約モードと判断する（ステップＳ１６０：要約モード）。モード選択部３１は、手話翻訳情報及び音声発話長を要約モード処理部３３に出力する。要約モード処理部３３の手話単語重要度計算部３３１は、手話翻訳情報に含まれる各手話モーションデータが表す単語それぞれの重要度を計算する（ステップＳ１７５）。重要度の計算には、例えば、以下のように、一般的な形態素解析技術を用いる方法があるが、この限りではない。

【0039】

手話単語重要度計算部３３１は、手話翻訳情報に含まれる各手話モーションデータが表す単語列に、一文単位で一般的な形態素解析技術を適用して単語単位に分割すると共に、それら各単語に品詞を付与する。手話単語重要度計算部３３１は、事前に設定された品詞と重要度との対応付けを表すデータ及び単語と重要度との関係を表すデータに基づいて、各単語の重要度を得る。品詞ごとの重要度では、例えば、名詞、固有名詞、動詞等の重要度を高く、助詞や形容詞、副詞は重要度を低くする。単語の重要度は、その単語の前後の単語や、前後の単語の品詞によって決まるものであってもよい。単語の重要度と、単語が分類された品詞の重要度とが異なる場合は、単語の重要度を優先する。これにより、翻訳対象に合わせて重要な単語をチューニングすることができる。例えば、スポーツの番組の音声を手話翻訳する場合、一般的な規則では名詞の優先度が高い場合でも、名詞の単語「選手」の前に名前を表す固有名詞が付加されていた場合は、優先度を低くすることができる。なお、手話単語重要度計算部３３１は、日本語テキストに形態素解析を行ってもよい。この場合、日本語テキストに含まれる単語の重要度が、その単語に対応した手話単語の重要度として用いられる。

【0040】

手話単語省略処理部３３２は、音声発話長に近くなるように、手話翻訳情報が示す手話モーションデータ列から、手話単語重要度計算部３３１が計算した優先度が低い手話単語から順に１以上の手話モーションデータを削除する（ステップＳ１８０）。手話単語省略処理部３３２は、間引きモード処理部３２における処理と同様に、音声・手話発話長比較部２３が出力した発話長差が大きいほど、削除する手話モーションデータの数が多くなるように、削除する手話モーションデータの数を決定する。その際、手話単語省略処理部３３２は、削除の結果残った手話モーションデータ列が予め設定された最低限の単語数以下とならないようにする。削除されない最低限の単語数の閾値を予め設定しておくことで、意味を持たない翻訳結果が出力されることを防ぐことが可能である。手話単語省略処理部３３２は、手話翻訳情報が示す手話モーションデータ列から優先度が低い手話モーションデータを削除した結果を、手話翻訳装置１００の外部に出力する。

【0041】

また、モード選択部３１は、予め入力された設定に応じて、間引きモードに代えて重み付け間引きモードと判断してもよい（ステップＳ１６０：重み付け間引きモード）。モード選択部３１は、手話翻訳情報及び音声発話長を重み付け間引きモード処理部３４に出力する。重み付け間引きモード処理部３４の手話単語重要度計算部３４１は、手話単語重要度計算部３３１と同様の処理により、手話翻訳情報に含まれる各手話モーションデータが表す単語それぞれの重要度を計算する（ステップＳ１８５）。フレーム長削減率計算部３４２は、手話単語重要度計算部３４１が算出した手話単語の重要度に応じて、手話モーションデータ単位で異なる削減数を算出する（ステップＳ１９０）。フレーム長削減率計算部３４２は、重要度が高い手話単語を表す手話モーションデータほど、フレーム長削減率を低くする。これにより、さらに柔軟に発話長を変更することができる。フレーム長変換処理部３４３は、フレーム長削減率計算部３４２が計算した各手話モーションデータの削減率に従って、手話モーションデータ列のモーションフレームを削除し、手話翻訳装置１００の外部に出力する（ステップＳ１９５）。

【0042】

モード選択部３１は、発話長差の値に応じてハイブリッドモードと判断することもできる。例えば、モード選択部３１は、第一の閾値と第一の閾値より大きな第二の閾値とを用い、発話長差が第一の閾値未満のときは要約モード又は重み付け間引きモードと判断し、第一の閾値以上第二の閾値未満であるときには要約モードと判断する。モード選択部３１は、発話長差が第二の閾値以上であるときにはハイブリッドモードと判断する。あるいは、モード選択部３１は、予め入力された設定に応じて、要約モードとハイブリッドモードのいずれを行うかを可変にしてもよい。

【0043】

モード選択部３１が、ハイブリッドモードと判断した場合（ステップＳ１６０：ハイブリッドモード）、まず、要約モード処理部３３は、ステップＳ１７５～ステップＳ１８０と同様の処理を行い、手話モーションデータ単位で大まかに手話発話長を削減する（ステップＳ２００、Ｓ２０５）。要約モード処理部３３は、削減後の手話モーションデータ列に更新された手話翻訳情報を間引きモード処理部３２に入力する。間引きモード処理部３２は、更新された手話翻訳情報を用いてステップＳ１６５～ステップＳ１７０と同様の処理を行う（ステップＳ２１０、Ｓ２１５）。ただし、間引きモード処理部３２は、発話長差として、音声発話長と、要約モード処理部３３が出力した手話翻訳情報の手話発話長との差分を用いる。これにより、フレーム単位で細かく発話長を調整することが可能となる。

【0044】

手話翻訳部１は、ステップＳ１７０、ステップＳ１８０、ステップＳ１９５又はステップＳ２１５の処理の後、次の入力を検出したかを判断する（ステップＳ２２０）。手話翻訳部１が次の入力を検出した場合（ステップＳ２２０：ＹＥＳ）、手話翻訳装置１００は、ステップＳ１０５からの処理を繰り返す。手話翻訳部１が次の入力を検出しなかった場合（ステップＳ２２０：ＮＯ）、手話翻訳装置１００は、図２の処理を終了する。手話翻訳装置１００から出力された手話モーションデータ列は、ＣＧグラフィック処理により、手話のモーションを映像化したＣＧアニメーションに変換される。なお、手話翻訳部１は、ステップＳ１０５～ステップＳ２１５までの処理を１文の発話内容ごとに行ってもよく、複数文まとめて行ってもよい。

【0045】

図３は、手話翻訳の具体的な例を示す図である。図３（ａ）は、従来の手話翻訳技術の例を示す。番組の音声や、テキストから合成した合成音声の発話時間に対し、同じ内容をそのまま翻訳した手話の発話時間には遅延が生じる傾向がある。例えば、早めの口調で“日本の山田選手が・・・”と発話された音声をリアルタイムで手話翻訳し、ＣＧアニメーションを用いて手話言語を提示する。この場合、手話翻訳や、ＣＧアニメーションの合成処理における遅延を考慮しなかったとしても、手話翻訳結果は、“日本”、“山”、“田”、“選手”、・・・、の順に、手を加えていないモーションキャプチャ時の平均的な速度で淡々と手話を発話する手話モーションデータの接続となる。そのため、手話翻訳の対象となった音声からの遅延が徐々に増加してしまう。本実施形態では、図３（ｂ）に示す間引きモード、図３（ｃ）に示す要約モードなどにより手話翻訳の発話長を短くし、その問題を解決している。

【0046】

手話翻訳装置１００に、手話翻訳の対象となる日本語テキスト“日本の山田選手が・・・”が入力された場合、手話翻訳部１は、手話単語列“日本”、“山”、“田”、“選手”、・・・、を表す手話モーションデータ列を生成する。次に、発話長比較部２は、日本語テキストを音声発話した際の音声発話長と、手話単語列の手話発話長との予測をそれぞれ算出する。発話長比較部２は、それらの発話長を比較し、音声からの手話の遅延を表す発話長差を算出してデータ編集部３へ出力する。データ編集部３のモード選択部３１は、例えば発話長差の閾値を１０秒に設定していた場合、発話長差が１０秒以内の場合は間引きモードを選択し、１０秒以上の場合は要約モードを選択する。なお、ユーザが事前に、モード選択部３１にモードを設定しておくことで、固定のモードを選択することも可能である。

【0047】

データ編集部３は、間引きモードを選択した場合、図３（ｂ）に示すように、各手話単語“日本”、“山”、“田”、“選手”、・・・、のそれぞれに対応する手話モーションデータのモーションフレームを、発話長差の値に基づき均等間隔で削除する。モーションフレームの削除によって各手話単語のモーションの再生速度を上げることで、手話の発話長を短縮することが可能となる。

【0048】

データ編集部３は、要約モードを選択した場合、図３（ｃ）に示すように一つの発話に含まれる各手話単語の重要度を算出する。同図では、“日本”の重要度は４、“山”の重要度は５、“田”の重要度は５、“選手”の重要度は２である。データ編集部３は、発話長差が最小になるように、手話単語列において重要度が低い手話単語“日本”や“選手”の手話モーションデータから先に削除していき、重要度が高い“山”や“田”のみの手話モーションデータ列を手話翻訳情報とする。ディテールを省き意訳の手話翻訳とすることで、手話の発話長を短縮する。

【0049】

データ編集部３は、上述の２つのモードを組み合わせたハイブリッドモードとする場合、手話単語列“日本”、“山”、“田”、“選手”、・・・、において最も重要度が低い“選手”のみを要約モードで削除する。データ編集部３は、残った手話単語列“日本”，“山”，“田”については間引きモードでフレーム長を短縮する。

【0050】

以上説明した実施形態によれば、手話翻訳装置は、手話翻訳部と、発話長取得部と、データ編集部とを備える。発話長取得部は、実施形態の発話長比較部２に対応する。手話翻訳部は、発話内容のテキストを、手話単語を表す手話の動きをフレーム毎に示すモーションデータを並べた手話翻訳情報に変換する。発話長取得部は、発話内容の音声の長さである音声発話長と、手話翻訳情報に含まれるモーションデータの再生時間を合計した手話発話長とを取得する。データ編集部は、手話発話長が音声発話長に近くなるように、手話翻訳情報に含まれるモーションデータの一部のフレームを削除する。例えば、データ編集部は、手話翻訳情報に含まれる複数のモーションデータのそれぞれから均等にフレームを削除する。あるいは、データ編集部は、手話翻訳情報に含まれる複数のモーションデータそれぞれが表す手話単語の重要度を取得し、複数のモーションデータのそれぞれから対応する手話単語の重要度に基づいた割合のフレームを削除する。またあるいは、データ編集部は、手話翻訳情報に含まれる複数のモーションデータそれぞれが表す手話単語の重要度を取得し、取得した重要度に基づいて手話翻訳情報に含まれる複数のモーションデータから手話単語の単位でフレームを削除する。

【0051】

本実施形態の手話翻訳装置は、入力された音声言語の発話長に応じて、手話単語列や各手話モーションデータを最適な形に自動編集することによって、翻訳時の音声からの遅延を最小化し、より手話通訳者などに近い形の自動翻訳を実現することが可能となる。

【0052】

なお、上述の手話翻訳装置１００は、内部にコンピュータシステムを有している。そして、手話翻訳装置１００の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、ＣＰＵ及び各種メモリやＯＳ、周辺機器等のハードウェアを含むものである。

【0053】

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

【符号の説明】

【0054】

１…手話翻訳部
２…発話長比較部
３…データ編集部
１１…日本語－手話翻訳部
１２…手話モーションデータ列生成部
２０…音声認識結果有効部
２１…音声発話長算出部
２２…手話発話長算出部
２３…音声・手話発話長比較部
３１…モード選択部
３２…間引きモード処理部
３３…要約モード処理部
３４…重み付け間引きモード処理部
１００…手話翻訳装置
３２１、３４２…フレーム長削減率計算部
３２２、３４３…フレーム長変換処理部
３３１、３４１…手話単語重要度計算部
３３２…手話単語省略処理部

【図1】

【図2】

【図3】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版