特開2024-27543 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-27543データ生成プログラム、データ生成装置、及びデータ生成方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024027543

(43)【公開日】2024-03-01

(54)【発明の名称】データ生成プログラム、データ生成装置、及びデータ生成方法

(51)【国際特許分類】

G06T 7/20 20170101AFI20240222BHJP

G06V 40/20 20220101ALI20240222BHJP

G06V 10/70 20220101ALI20240222BHJP

G06T 7/00 20170101ALI20240222BHJP

【ＦＩ】

G06T7/20 300A

G06V40/20

G06V10/70

G06T7/00 350B

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2022130426

(22)【出願日】2022-08-18

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110004185

【氏名又は名称】インフォート弁理士法人

(74)【代理人】

【識別番号】100121083

【弁理士】

【氏名又は名称】青木宏義

(74)【代理人】

【識別番号】100138391

【弁理士】

【氏名又は名称】天田昌行

(74)【代理人】

【識別番号】100074099

【弁理士】

【氏名又は名称】大菅義之

(72)【発明者】

【氏名】白石竜也

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096CA04

5L096HA02

5L096JA03

5L096JA11

5L096KA04

(57)【要約】

【課題】単語を表す身体動作の時系列データから、文を表す身体動作の時系列データを生成する。
【解決手段】コンピュータは、第１時系列データに含まれる複数のデータ各々と、第２時系列データに含まれる複数のデータ各々との間の相違度に基づき、対応付け処理を行う。対応付け処理は、第１時系列データに含まれる複数のデータ各々に対して、第２時系列データに含まれる複数のデータのうち何れかのデータを対応付ける処理である。第１時系列データは、複数の単語を含む文を表す身体動作を示し、第２時系列データは、複数の単語それぞれを表す身体動作を示す時系列データを連結することで生成される。コンピュータは、第１時系列データに含まれる複数のデータ各々に対応付けられた、第２時系列データに含まれるデータを用いて、第３時系列データを生成する。コンピュータは、第３時系列データを出力する。
【選択図】図５

【特許請求の範囲】

【請求項1】

コンピュータのためのデータ生成プログラムであって、
前記データ生成プログラムは、
第１時系列データに含まれる複数のデータ各々と、第２時系列データに含まれる複数のデータ各々との間の相違度に基づき、前記第１時系列データに含まれる複数のデータ各々に対して、前記第２時系列データに含まれる複数のデータのうち何れかのデータを対応付け、
前記第１時系列データに含まれる複数のデータ各々に対応付けられた、前記第２時系列データに含まれるデータを用いて、第３時系列データを生成し、
前記第３時系列データを出力する、
処理を前記コンピュータに実行させ、
前記第１時系列データは、複数の単語を含む文を表す身体動作を示し、前記第２時系列データは、前記複数の単語それぞれを表す身体動作を示す時系列データを連結することで生成されることを特徴とするデータ生成プログラム。

【請求項2】

前記何れかのデータを対応付ける処理は、前記第１時系列データと前記第２時系列データとの間で対応付けられた２つのデータの間の相違度の総和が最小になるように、前記第２時系列データに含まれる複数のデータの中から前記何れかのデータを選択する処理を含むことを特徴とする請求項１記載のデータ生成プログラム。

【請求項3】

前記第３時系列データを生成する処理は、
前記第２時系列データから、前記第１時系列データに含まれる複数のデータ各々に対応付けられたデータを抽出する処理と、
抽出されたデータを連結することで前記第３時系列データを生成する処理と、
を含むことを特徴とする請求項１記載のデータ生成プログラム。

【請求項4】

前記抽出されたデータを連結することで前記第３時系列データを生成する処理は、
前記抽出されたデータのうち特定のデータが、前記第１時系列データに含まれる複数のデータのうち特定の複数のデータに対応付けられている場合、前記特定のデータを用いて補間データを生成する処理と、
前記抽出されたデータのうち前記特定のデータと前記特定のデータ以外のデータとの間に、前記補間データを挿入する処理と、
を含むことを特徴とする請求項３記載のデータ生成プログラム。

【請求項5】

前記第３時系列データを、身体動作を単語又は文章に翻訳する機械学習モデルの訓練に用いる訓練データとして出力することを特徴とする請求項１記載のデータ生成プログラム。

【請求項6】

第１時系列データに含まれる複数のデータ各々と、第２時系列データに含まれる複数のデータ各々との間の相違度に基づき、前記第１時系列データに含まれる複数のデータ各々に対して、前記第２時系列データに含まれる複数のデータのうち何れかのデータを対応付ける対応付け部と、
前記第１時系列データに含まれる複数のデータ各々に対応付けられた、前記第２時系列データに含まれるデータを用いて、第３時系列データを生成する生成部と、
前記第３時系列データを出力する出力部とを備え、
前記第１時系列データは、複数の単語を含む文を表す身体動作を示し、前記第２時系列データは、前記複数の単語それぞれを表す身体動作を示す時系列データを連結することで生成されることを特徴とするデータ生成装置。

【請求項7】

第１時系列データに含まれる複数のデータ各々と、第２時系列データに含まれる複数のデータ各々との間の相違度に基づき、前記第１時系列データに含まれる複数のデータ各々に対して、前記第２時系列データに含まれる複数のデータのうち何れかのデータを対応付け、
前記第１時系列データに含まれる複数のデータ各々に対応付けられた、前記第２時系列データに含まれるデータを用いて、第３時系列データを生成し、
前記第３時系列データを出力する、
処理をコンピュータが実行し、
前記第１時系列データは、複数の単語を含む文を表す身体動作を示し、前記第２時系列データは、前記複数の単語それぞれを表す身体動作を示す時系列データを連結することで生成されることを特徴とするデータ生成方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、データ生成技術に関する。

【背景技術】

【0002】

近年、手話を日本語に翻訳するＡＩ（Artificial intelligence）の研究が行われている。日本語の手話としては、日本手話及び日本語対応手話の２種類が知られている。日本手話は、ろう者の母語（自然言語）であり、日本語対応手話は、手で表現する日本語（人工言語）である。日本手話の場合、手の動きだけでなく、顔の動き及び表情も文法的な意味を有する。

【0003】

手話に関連して、特定の概念を表す身体の動作に対応した動作映像を編集する映像編集装置が知られている（例えば、特許文献１を参照）。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２００８－２９４９７３号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

手話には個人差及び地域差があるため、手話を日本語に翻訳する翻訳モデルを機械学習によって生成する場合、機械学習及び評価を行うために、大量の手話映像データを用意することが望ましい。

【0006】

しかしながら、日本手話の大規模なオープンデータは存在しない。また、単語単位であっても十分な量の手話映像データを収集することは難しく、文章単位の手話映像データを大量に収集することはさらに難しい。

【0007】

なお、かかる問題は、手話映像データを用いて翻訳モデルを生成する場合に限らず、身体動作を示す時系列データを様々な用途で用いる場合において生ずるものである。

【0008】

１つの側面において、本発明は、単語を表す身体動作の時系列データから、文を表す身体動作の時系列データを生成することを目的とする。

【課題を解決するための手段】

【0009】

１つの案では、データ生成プログラムは、以下の処理をコンピュータに実行させる。

【0010】

コンピュータは、第１時系列データに含まれる複数のデータ各々と、第２時系列データに含まれる複数のデータ各々との間の相違度に基づき、対応付け処理を行う。対応付け処理は、第１時系列データに含まれる複数のデータ各々に対して、第２時系列データに含まれる複数のデータのうち何れかのデータを対応付ける処理である。

【0011】

第１時系列データは、複数の単語を含む文を表す身体動作を示し、第２時系列データは、複数の単語それぞれを表す身体動作を示す時系列データを連結することで生成される。

【0012】

コンピュータは、第１時系列データに含まれる複数のデータ各々に対応付けられた、第２時系列データに含まれるデータを用いて、第３時系列データを生成する。コンピュータは、第３時系列データを出力する。

【発明の効果】

【0013】

１つの側面によれば、単語を表す身体動作の時系列データから、文を表す身体動作の時系列データを生成することができる。

【図面の簡単な説明】

【0014】

【図1】実施形態のデータ生成装置の機能的構成図である。

【図2】第１のデータ生成処理のフローチャートである。

【図3】モデル生成システムの機能的構成図である。

【図4】第１の処理対象データを示す図である。

【図5】第１の対応付け結果を示す図である。

【図6】第１の合成処理を示す図である。

【図7】第２の合成処理を示す図である。

【図8】第２の処理対象データを示す図である。

【図9】第２の対応付け結果を示す図である。

【図10】第３の合成処理を示す図である。

【図11】第２のデータ生成処理のフローチャートである。

【図12】情報処理装置のハードウェア構成図である。

【発明を実施するための形態】

【0015】

以下、図面を参照しながら、実施形態を詳細に説明する。

【0016】

図１は、実施形態のデータ生成装置の機能的構成例を示している。図１のデータ生成装置１０１は、対応付け部１１１、生成部１１２、及び出力部１１３を含む。

【0017】

図２は、図１のデータ生成装置１０１が行う第１のデータ生成処理の例を示すフローチャートである。第１時系列データは、複数の単語を含む文を表す身体動作を示し、第２時系列データは、複数の単語それぞれを表す身体動作を示す時系列データを連結することで生成される。

【0018】

まず、対応付け部１１１は、第１時系列データに含まれる複数のデータ各々と、第２時系列データに含まれる複数のデータ各々との間の相違度に基づき、対応付け処理を行う（ステップ２０１）。対応付け処理は、第１時系列データに含まれる複数のデータ各々に対して、第２時系列データに含まれる複数のデータのうち何れかのデータを対応付ける処理である。

【0019】

次に、生成部１１２は、第１時系列データに含まれる複数のデータ各々に対応付けられた、第２時系列データに含まれるデータを用いて、第３時系列データを生成する（ステップ２０２）。そして、出力部１１３は、第３時系列データを出力する（ステップ２０３）。

【0020】

図１のデータ生成装置１０１によれば、単語を表す身体動作の時系列データから、文を表す身体動作の時系列データを生成することができる。

【0021】

図３は、図１のデータ生成装置１０１を含むモデル生成システムの機能的構成例を示している。図３のモデル生成システムは、データ生成装置３０１及びモデル生成装置３０２を含む。

【0022】

データ生成装置３０１は、対応付け部３１１、生成部３１２、出力部３１３、及び記憶部３１４を含む。データ生成装置３０１は、図１のデータ生成装置１０１に対応する。対応付け部３１１、生成部３１２、及び出力部３１３は、図１の対応付け部１１１、生成部１１２、及び出力部１１３にそれぞれ対応する。

【0023】

記憶部３１４は、手話映像データ３２１及び映像データ集合３２２を記憶する。手話映像データ３２１は、複数の単語を含む文を表す手話動作を行う手話話者を撮影することで取得される。手話動作は、身体動作に対応し、手話映像データ３２１は、複数の単語を含む文を表す身体動作を示す第１時系列データに対応する。

【0024】

映像データ集合３２２は、様々な単語を表す手話動作を行う複数の手話話者それぞれを撮影することで取得された、複数の手話映像データを含む。映像データ集合３２２は、各単語について、複数の手話話者から取得された複数の手話映像データを含んでいてもよい。映像データ集合３２２に含まれる複数の手話映像データは、複数の単語それぞれを表す身体動作を示す時系列データに対応する。なお、手話映像データ３２１、映像データ集合３２２に含まれるデータは、映像データに示されるデータを単語や文章に翻訳する機械学習モデルの訓練に用いられる、特定の単語又は文章を表現する動作の訓練データであってもよい。

【0025】

手話映像データ３２１と映像データ集合３２２に含まれる各手話映像データは、時系列の複数の画像データを含む。各画像データは、手話映像の各フレームの画像に対応し、手話動作が行われている期間の各時刻における手話話者の動作を示す。

【0026】

画像データは、各時刻におけるフレームの画素値を表す多次元ベクトルであってもよく、フレームから抽出された画像特徴量を表す多次元ベクトルであってもよい。画像特徴量としては、例えば、手話話者の身体の特徴点の座標を用いることができる。身体の特徴点は、目、口、指の関節、腕の関節等である。

【0027】

画像特徴量は、画素値の統計値であってもよく、ＨＯＧ（Histograms of Oriented Gradients）、ＳＩＦＴ（Scaled Invariance Feature Transform）、又はＳＵＲＦ（Speeded－Up Robust Features）であってもよい。画像特徴量は、ＢＲＩＥＦ（Binary Robust Independent Elementary Features）又は顕著性（Saliency）であってもよい。

【0028】

対応付け部３１１は、映像データ集合３２２から、手話映像データ３２１が示す文に含まれる複数の単語各々を示す手話映像データを選択し、選択された複数の手話映像データを時間方向に連結することで、処理対象データを生成する。処理対象データは、第２時系列データに対応する。

【0029】

対応付け部３１１は、手話映像データ３２１に含まれる複数の画像データ各々に対して、処理対象データに含まれる何れかの画像データを対応付ける、対応付け処理を行う。対応付け部３１１は、例えば、ＤＴＷ（Dynamic Time Warping）を用いて対応付け処理を行う。ＤＴＷは、２つの時系列データの間の相違度又は類似度を計算する方法の１つである。

【0030】

この場合、対応付け部３１１は、以下に示す条件Ｃ１及び条件Ｃ２が満たされるように、処理対象データの画像データの中から、手話映像データ３２１の各画像データに対して対応付けられる画像データを選択する。

【0031】

（Ｃ１）手話映像データ３２１と処理対象データとの間で、画像データの時系列が一致する。

【0032】

（Ｃ２）手話映像データ３２１と処理対象データとの間で対応付けられた２つの画像データの間の相違度の総和が最小になる。

【0033】

条件Ｃ１は、手話映像データ３２１と処理対象データとの間で、画像データの時間的な順序が逆転しないことを表す。条件Ｃ２は、手話映像データ３２１と処理対象データとの間の相違度が最小になることを表す。言い換えれば、条件Ｃ２は、手話映像データ３２１と処理対象データとの間の類似度が最大になることを表す。

【0034】

２つの画像データの間の相違度としては、例えば、一方の画像データを表す多次元ベクトルと他方の画像データを表す多次元ベクトルとの間のベクトル間距離を用いることができる。ベクトル間距離は、ユークリッド距離であってもよく、マンハッタン距離であってもよい。

【0035】

条件Ｃ２が満たされるように処理対象データから画像データを選択することで、手話映像データ３２１に含まれる複数の画像データと、処理対象データに含まれる複数の画像データとを精度良く対応付けることができる。

【0036】

図４は、第１の処理対象データの例を示している。例えば、手話映像データ３２１が「私は学校に行きます。」という文を示す場合、処理対象データ４０１は、「私」、「学校」、及び「行く」という３つの単語各々を示す手話映像データを、この順序で連結することで生成される。

【0037】

処理対象データ４０１は、画像データ４１１－１～画像データ４１１－１０を含む。画像データ４１１－１～画像データ４１１－３は、「私」という単語を示す手話映像データである。画像データ４１１－４～画像データ４１１－６は、「学校」という単語を示す手話映像データである。画像データ４１１－７～画像データ４１１－１０は、「行く」という単語を示す手話映像データである。

【0038】

図５は、第１の対応付け結果の例を示している。図５の対応付け結果は、図４の処理対象データ４０１及び図５の手話映像データ５０１に対する対応付け結果を表す。手話映像データ５０１は、手話映像データ３２１に対応し、「私は学校に行きます。」という文を示す。手話映像データ５０１は、画像データ５１１－１～画像データ５１１－８を含む。

【0039】

画像データ５１１－１には、画像データ４１１－１が対応付けられている。画像データ５１１－２及び画像データ５１１－３には、画像データ４１１－３が対応付けられている。画像データ５１１－４及び画像データ５１１－５には、画像データ４１１－５及び画像データ４１１－６がそれぞれ対応付けられている。画像データ５１１－６～画像データ５１１－８には、画像データ４１１－８～画像データ４１１－１０がそれぞれ対応付けられている。

【0040】

画像データ４１１－２、画像データ４１１－４、及び画像データ４１１－７は、何れの画像データにも対応付けられていない。

【0041】

ＤＴＷを用いて対応付け処理を行うことで、手話映像データ３２１と処理対象データの長さが異なる場合であっても、それらのデータを対応付けることができる。

【0042】

対応付け部３１１は、ＤＴＷの亜種又は拡張版を用いて対応付け処理を行うこともできる。ＤＴＷの亜種としては、例えば、一定以上の時間差を有する２つの画像データの対応付けを抑止する制約を課したＤＴＷを用いることができる。ＤＴＷの亜種としては、手話映像データに含まれる最初の所定数の画像データと最後の所定数の画像データとを除外して、残りの画像データを用いて対応付け処理を行うＤＴＷを用いることもできる。

【0043】

ＤＴＷの拡張版としては、Fast DTW、Derivative DTW、Weighted DTW等を用いることができる。

【0044】

次に、生成部３１２は、手話映像データ３２１に含まれる各画像データに対応付けられた画像データを処理対象データから抽出し、抽出された画像データを連結する、合成処理を行うことで、合成データを生成する。これにより、手話映像データ３２１と同じ文を示す別の手話映像データを生成することができる。合成データは、第３時系列データに対応する。

【0045】

図６は、第１の合成処理の例を示している。図６の合成処理は、図５の対応付け結果に基づく合成処理である。合成データ６０１は、画像データ４１１－１、２つの画像データ４１１－３、画像データ４１１－５、画像データ４１１－６、及び画像データ４１１－８～画像データ４１１－１０を含む。

【0046】

合成データ６０１は、「私」、「学校」、及び「行く」という３つの単語各々を示す手話動作を結合した手話動作を示しており、「私は学校に行きます。」という文を示す有効な手話映像データであるため、拡張データとして利用することができる。

【0047】

しかしながら、画像データ４１１－３のように、同じ画像データが重複して処理対象データから抽出された場合、合成データにおいて同じ画像データが連続している重複部分は、一時停止したような手話映像データになってしまう。特に、多数の同じ画像データが連続している場合、手話映像の停止期間が長くなる。

【0048】

そこで、生成部３１２は、処理対象データから抽出された特定の画像データが、手話映像データ３２１に含まれる特定の複数の画像データに対応付けられている場合、補間処理を行うことで、合成データの重複部分を補正してもよい。特定の複数の画像データは、Ｎ個以上（Ｎは２以上の整数）の画像データであってもよい。

【0049】

補間処理において、生成部３１２は、処理対象データから抽出された特定の画像データを用いて補間データを生成し、特定の画像データと特定の画像データ以外の画像データとの間に補間データを挿入する。補間データの生成方法は、線形補間であってもよく、非線形補間であってもよい。補間データを挿入することで、滑らかな手話動作を示すように合成データを補正することができる。

【0050】

図７は、第２の合成処理の例を示している。手話映像データ７０１は、手話映像データ３２１に対応し、画像データ７１１－１～画像データ７１１－６を含む。処理対象データ７０２は、手話映像データ７０１が示す文に含まれる各単語を示す手話映像データを連結することで生成され、画像データ７１２－１～画像データ７１２－９を含む。各画像データ７１２－ｉ（ｉ＝１～９）の矩形内の数字は、画像データの値を表す。

【0051】

画像データ７１１－１～画像データ７１１－４には、画像データ７１２－２が対応付けられている。画像データ７１１－５及び画像データ７１１－６には、画像データ７１２－８及び画像データ７１２－９がそれぞれ対応付けられている。画像データ７１２－２は、特定の画像データに対応し、画像データ７１１－１～画像データ７１１－４は、特定の複数の画像データに対応する。

【0052】

処理対象データ７０２から、画像データ７１１－１～画像データ７１１－６それぞれに対応付けられた画像データ７１２－ｉを抽出して、単純に連結した場合、合成データ７０３が生成される。合成データ７０３は、４個の画像データ７１２－２、画像データ７１２－８、及び画像データ７１２－９を含む。

【0053】

この場合、画像データ７１２－２が連続している重複部分は、一時停止したような手話映像データになってしまう。そこで、生成部３１２は、画像データ７１２－２の値“３”と画像データ７１２－８の値“１”とを用いて線形補間を行うことで、補間データ７１３－１～補間データ７１３－３を生成する。補間データ７１３－１～補間データ７１３－３の値は、それぞれ、“２．５”、“２”、及び“１．５”である。画像データ７１２－８は、特定の画像データ以外の画像データに対応する。

【0054】

次に、生成部３１２は、画像データ７１２－２と画像データ７１２－８の間に補間データ７１３－１～補間データ７１３－３を挿入することで、合成データ７０４を生成する。合成データ７０４は、合成データ７０３の２番目～４番目の画像データ７１２－２を補間データ７１３－１～補間データ７１３－３に置き換えた手話映像データである。

【0055】

図８は、第２の処理対象データの例を示している。手話映像データ８０１は、手話映像データ３２１に対応し、画像データ８１１－１～画像データ８１１－８を含む。処理対象データ８０２は、手話映像データ８０１が示す文に含まれる各単語を示す手話映像データを連結することで生成され、画像データ８１２－１～画像データ８１２－８を含む。各画像データの矩形内の数字は、画像データの値を表す。

【0056】

図９は、第２の対応付け結果の例を示している。図９（ａ）は、図８の手話映像データ８０１及び処理対象データ８０２に対する１つの対応付け結果を示している。画像データ８１１－１～画像データ８１１－８には、画像データ８１２－１～画像データ８１２－８がそれぞれ対応付けられている。

【0057】

画像データ８１１－ｉ（ｉ＝１～８）と画像データ８１２－ｊ（ｊ＝１～８）との間の相違度ｄ（ｉ，ｊ）として、画像データ８１１－ｉの値と画像データ８１２－ｊの値との差分の絶対値を用いた場合、相違度の総和Ｓは次式により計算される。

【0058】

Ｓ＝ｄ（１，１）＋ｄ（２，２）＋ｄ（３，３）＋ｄ（４，４）＋ｄ（５，５）
＋ｄ（６，６）＋ｄ（７，７）＋ｄ（８，８）
＝０＋１＋３＋６＋２＋７＋０＋２
＝２１（１）

【0059】

図９（ｂ）は、図８の手話映像データ８０１及び処理対象データ８０２に対する別の対応付け結果を示している。画像データ８１１－１及び画像データ８１１－２には、画像データ８１２－１及び画像データ８１２－２がそれぞれ対応付けられている。画像データ８１１－３～画像データ８１１－５には、画像データ８１２－５～画像データ８１２－７がそれぞれ対応付けられている。画像データ８１１－６～画像データ８１１－８には、画像データ８１２－８が対応付けられている。

【0060】

画像データ８１２－３及び画像データ８１４－４は、何れの画像データにも対応付けられていない。この場合、相違度の総和Ｓは次式により計算される。

【0061】

Ｓ＝ｄ（１，１）＋ｄ（２，２）＋ｄ（３，５）＋ｄ（４，６）＋ｄ（５，７）
＋ｄ（６，８）＋ｄ（７，８）＋ｄ（８，８）
＝０＋１＋１＋１＋２＋０＋１＋２
＝８（２）

【0062】

したがって、図９（ａ）の対応付け結果における総和Ｓよりも、図９（ｂ）の対応付け結果における総和Ｓの方が小さいため、最終的には図９（ｂ）の対応付け結果が採用される。

【0063】

図１０は、第３の合成処理の例を示している。図１０の合成処理は、図９（ｂ）の対応付け結果に基づく合成処理である。画像データ８１２－８は、特定の画像データに対応し、画像データ８１１－６～画像データ８１１－８は、特定の複数の画像データに対応する。

【0064】

処理対象データ８０２から、画像データ８１１－１～画像データ８１１－８それぞれに対応付けられた画像データ８１２－ｊを抽出して、単純に連結した場合、合成データ８０３が生成される。合成データ８０３は、画像データ８１２－１、画像データ８１２－２、画像データ８１２－５～画像データ８１２－７、及び３つの画像データ８１２－８を含む。

【0065】

この場合、画像データ８１２－８が連続している重複部分は、一時停止したような手話映像データになってしまう。そこで、生成部３１２は、画像データ８１２－７の値“２”と画像データ８１２－８の値“１”とを用いて線形補間を行うことで、補間データ８１３－１及び補間データ８１３－２を生成する。補間データ８１３－１及び補間データ８１３－２の値は、それぞれ、“１．６”及び“１．３”である。画像データ８１２－７は、特定の画像データ以外の画像データに対応する。

【0066】

次に、生成部３１２は、画像データ８１２－７と画像データ８１２－８の間に補間データ８１３－１及び補間データ８１３－２を挿入することで、合成データ８０４を生成する。合成データ８０４は、合成データ８０３の１番目及び２番目の画像データ８１２－８を補間データ８１３－１及び補間データ８１３－２に置き換えた手話映像データである。

【0067】

生成部３１２は、合成処理により生成された合成データを拡張データとして含む映像データ集合３２３を生成し、記憶部３１４に格納する。

【0068】

データ生成装置３０１は、手話映像データ３２１が示す文に含まれる各単語を示す手話映像データを映像データ集合３２２からランダムに選択し、対応付け処理及び合成処理を行って合成データを生成する処理を繰り返す。これにより、複数の拡張データが映像データ集合３２３に追加される。出力部３１３は、複数の拡張データを含む映像データ集合３２３を、モデル生成装置３０２へ出力する。

【0069】

モデル生成装置３０２は、データ生成装置３０１から出力される映像データ集合３２３を機械学習の訓練データとして用いて、機械学習モデルを訓練することで、手話を日本語（単語や文章）に翻訳する翻訳モデルを生成する。この場合、手話映像データ３２１が示す手話動作によって表現される文が、訓練データに対する正解ラベルとして用いられる。

【0070】

図３のモデル生成システムによれば、手話映像データ３２１を用意するだけで、それ以上の映像収集作業を行うことなく、手話映像データのバリエーションを増やすことができる。それぞれ異なる文を示す複数の手話映像データ３２１を用意して、各手話映像データ３２１に対する拡張データを生成することも可能である。各手話映像データ３２１が示す文に含まれる複数の単語それぞれを示す手話映像データの組み合わせを変更することで、その文を示す大量の手話映像データを効率良く生成することができる。

【0071】

さらに、大量の手話映像データを用いて機械学習を行うことで、生成される翻訳モデルの精度が向上する。

【0072】

図１１は、図３のデータ生成装置３０１が行う第２のデータ生成処理の例を示すフローチャートである。まず、対応付け部３１１は、映像データ集合３２２から、手話映像データ３２１が示す文に含まれる各単語を示す手話映像データを選択し、選択された複数の手話映像データを連結することで、処理対象データを生成する（ステップ１１０１）。

【0073】

次に、対応付け部３１１は、手話映像データ３２１に含まれる各画像データに対して、処理対象データに含まれる何れかの画像データを対応付ける、対応付け処理を行う（ステップ１１０２）。

【0074】

次に、生成部３１２は、手話映像データ３２１に含まれる各画像データに対応付けられた画像データを処理対象データから抽出し、抽出された画像データを連結する、合成処理を行うことで、合成データを生成する（ステップ１１０３）。そして、生成部３１２は、合成データを拡張データとして映像データ集合３２３に追加する。

【0075】

処理対象データから抽出された特定の画像データが、手話映像データ３２１に含まれるＮ個以上の画像データに対応付けられている場合、ステップ１１０３において、生成部３１２は、補間処理を行うことで、補間データを含む合成データを生成する。

【0076】

次に、生成部３１２は、追加された拡張データの個数をＫ（Ｋは１以上の整数）と比較する（ステップ１１０４）。拡張データの個数がＫ個未満である場合（ステップ１１０４，ＮＯ）、データ生成装置３０１は、手話映像データ３２１が示す文に含まれる各単語を示す手話映像データの別の組み合わせについて、ステップ１１０１以降の処理を繰り返す。

【0077】

拡張データの個数がＫ個に達した場合（ステップ１１０４，ＹＥＳ）、出力部３１３は、映像データ集合３２３をモデル生成装置３０２へ出力する（ステップ１１０５）。

【0078】

図１のデータ生成装置１０１の構成は一例に過ぎず、データ生成装置１０１の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。

【0079】

図３のモデル生成システムの構成は一例に過ぎず、モデル生成システムの用途又は条件に応じて一部の構成要素を省略又は変更してもよい。例えば、モデル生成装置３０２は、データ生成装置３０１から出力される映像データ集合３２３を用いて、翻訳以外の情報処理を行う学習済みモデルを生成してもよい。

【0080】

図２及び図１１のフローチャートは一例に過ぎず、データ生成装置１０１又はモデル生成システムの構成又は条件に応じて、一部の処理を省略又は変更してもよい。

【0081】

図４～図１０に示した手話映像データ及び処理対象データは一例に過ぎず、手話映像データ及び処理対象データは、手話動作に応じて変化する。

【0082】

式（１）及び式（２）は一例に過ぎず、データ生成装置３０１は、別の計算式を用いてデータ生成処理を行ってもよい。

【0083】

図１２は、図１のデータ生成装置１０１及び図３のデータ生成装置３０１として用いられる情報処理装置（コンピュータ）のハードウェア構成例を示している。図１２の情報処理装置は、ＣＰＵ（Central Processing Unit）１２０１、メモリ１２０２、入力装置１２０３、出力装置１２０４、補助記憶装置１２０５、媒体駆動装置１２０６、及びネットワーク接続装置１２０７を含む。これらの構成要素はハードウェアであり、バス１２０８により互いに接続されている。

【0084】

メモリ１２０２は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等の半導体メモリであり、処理に用いられるプログラム及びデータを記憶する。メモリ１２０２は、図３の記憶部３１４として動作してもよい。

【0085】

ＣＰＵ１２０１（プロセッサ）は、例えば、メモリ１２０２を利用してプログラムを実行することにより、図１の対応付け部１１１及び生成部１１２として動作する。ＣＰＵ１２０１は、メモリ１２０２を利用してプログラムを実行することにより、図３の対応付け部３１１及び生成部３１２としても動作する。

【0086】

入力装置１２０３は、例えば、キーボード、ポインティングデバイス等であり、ユーザ又はオペレータからの指示又は情報の入力に用いられる。出力装置１２０４は、例えば、表示装置、プリンタ等であり、ユーザ又はオペレータへの問い合わせ又は指示、及び処理結果の出力に用いられる。出力装置１２０４は、図１の出力部１１３として動作してもよい。

【0087】

補助記憶装置１２０５は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。補助記憶装置１２０５は、ハードディスクドライブであってもよい。情報処理装置は、補助記憶装置１２０５にプログラム及びデータを格納しておき、それらをメモリ１２０２にロードして使用することができる。補助記憶装置１２０５は、図３の記憶部３１４として動作してもよい。

【0088】

媒体駆動装置１２０６は、可搬型記録媒体１２０９を駆動し、その記録内容にアクセスする。可搬型記録媒体１２０９は、メモリデバイス、フレキシブルディスク、光ディスク、光磁気ディスク等である。可搬型記録媒体１２０９は、ＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、ＤＶＤ（Digital Versatile Disk）、ＵＳＢ（Universal Serial Bus）メモリ等であってもよい。ユーザ又はオペレータは、可搬型記録媒体１２０９にプログラム及びデータを格納しておき、それらをメモリ１２０２にロードして使用することができる。

【0089】

このように、処理に用いられるプログラム及びデータを格納するコンピュータ読み取り可能な記録媒体は、メモリ１２０２、補助記憶装置１２０５、又は可搬型記録媒体１２０９のような、物理的な（非一時的な）記録媒体である。

【0090】

ネットワーク接続装置１２０７は、ＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）等の通信ネットワークに接続され、通信に伴うデータ変換を行う通信インタフェース回路である。情報処理装置は、プログラム及びデータを外部の装置からネットワーク接続装置１２０７を介して受信し、それらをメモリ１２０２にロードして使用することができる。ネットワーク接続装置１２０７は、図１の出力部１１３又は図３の出力部３１３として動作してもよい。

【0091】

図３のモデル生成装置３０２としては、図１２と同様の情報処理装置を用いることができる。

【0092】

なお、情報処理装置が図１２のすべての構成要素を含む必要はなく、情報処理装置の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。例えば、ユーザ又はオペレータとのインタフェースが不要な場合は、入力装置１２０３及び出力装置１２０４を省略することができる。可搬型記録媒体１２０９又は通信ネットワークを使用しない場合は、媒体駆動装置１２０６又はネットワーク接続装置１２０７を省略することができる。

【0093】

開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。

【0094】

図１乃至図１２を参照しながら説明した実施形態に関し、さらに以下の付記を開示する。
（付記１）
コンピュータのためのデータ生成プログラムであって、
前記データ生成プログラムは、
第１時系列データに含まれる複数のデータ各々と、第２時系列データに含まれる複数のデータ各々との間の相違度に基づき、前記第１時系列データに含まれる複数のデータ各々に対して、前記第２時系列データに含まれる複数のデータのうち何れかのデータを対応付け、
前記第１時系列データに含まれる複数のデータ各々に対応付けられた、前記第２時系列データに含まれるデータを用いて、第３時系列データを生成し、
前記第３時系列データを出力する、
処理を前記コンピュータに実行させ、
前記第１時系列データは、複数の単語を含む文を表す身体動作を示し、前記第２時系列データは、前記複数の単語それぞれを表す身体動作を示す時系列データを連結することで生成されることを特徴とするデータ生成プログラム。
（付記２）
前記何れかのデータを対応付ける処理は、前記第１時系列データと前記第２時系列データとの間で対応付けられた２つのデータの間の相違度の総和が最小になるように、前記第２時系列データに含まれる複数のデータの中から前記何れかのデータを選択する処理を含むことを特徴とする付記１記載のデータ生成プログラム。
（付記３）
前記第３時系列データを生成する処理は、
前記第２時系列データから、前記第１時系列データに含まれる複数のデータ各々に対応付けられたデータを抽出する処理と、
抽出されたデータを連結することで前記第３時系列データを生成する処理と、
を含むことを特徴とする付記１記載のデータ生成プログラム。
（付記４）
前記抽出されたデータを連結することで前記第３時系列データを生成する処理は、
前記抽出されたデータのうち特定のデータが、前記第１時系列データに含まれる複数のデータのうち特定の複数のデータに対応付けられている場合、前記特定のデータを用いて補間データを生成する処理と、
前記抽出されたデータのうち前記特定のデータと前記特定のデータ以外のデータとの間に、前記補間データを挿入する処理と、
を含むことを特徴とする付記３記載のデータ生成プログラム。
（付記５）
前記第３時系列データを、身体動作を単語又は文章に翻訳する機械学習モデルの訓練に用いる訓練データとして出力することを特徴とする付記１記載のデータ生成プログラム。
（付記６）
前記文を表す身体動作と前記複数の単語それぞれを表す身体動作は、手話動作であることを特徴とする付記１乃至５の何れか１項に記載のデータ生成プログラム。
（付記７）
第１時系列データに含まれる複数のデータ各々と、第２時系列データに含まれる複数のデータ各々との間の相違度に基づき、前記第１時系列データに含まれる複数のデータ各々に対して、前記第２時系列データに含まれる複数のデータのうち何れかのデータを対応付ける対応付け部と、
前記第１時系列データに含まれる複数のデータ各々に対応付けられた、前記第２時系列データに含まれるデータを用いて、第３時系列データを生成する生成部と、
前記第３時系列データを出力する出力部とを備え、
前記第１時系列データは、複数の単語を含む文を表す身体動作を示し、前記第２時系列データは、前記複数の単語それぞれを表す身体動作を示す時系列データを連結することで生成されることを特徴とするデータ生成装置。
（付記８）
前記対応付け部は、前記第１時系列データと前記第２時系列データとの間で対応付けられた２つのデータの間の相違度の総和が最小になるように、前記第２時系列データに含まれる複数のデータの中から前記何れかのデータを選択することを特徴とする付記７記載のデータ生成装置。
（付記９）
前記生成部は、前記第２時系列データから、前記第１時系列データに含まれる複数のデータ各々に対応付けられたデータを抽出し、抽出されたデータを連結することで前記第３時系列データを生成することを特徴とする付記７記載のデータ生成装置。
（付記１０）
前記生成部は、前記抽出されたデータのうち特定のデータが、前記第１時系列データに含まれる複数のデータのうち特定の複数のデータに対応付けられている場合、前記特定のデータを用いて補間データを生成し、前記抽出されたデータのうち前記特定のデータと前記特定のデータ以外のデータとの間に、前記補間データを挿入することを特徴とする付記９記載のデータ生成装置。
（付記１１）
前記出力部は、前記第３時系列データを、身体動作を単語又は文章に翻訳する機械学習モデルの訓練に用いる訓練データとして出力することを特徴とする付記７記載のデータ生成装置。
（付記１２）
前記文を表す身体動作と前記複数の単語それぞれを表す身体動作は、手話動作であることを特徴とする付記７乃至１１の何れか１項に記載のデータ生成装置。
（付記１３）
第１時系列データに含まれる複数のデータ各々と、第２時系列データに含まれる複数のデータ各々との間の相違度に基づき、前記第１時系列データに含まれる複数のデータ各々に対して、前記第２時系列データに含まれる複数のデータのうち何れかのデータを対応付け、
前記第１時系列データに含まれる複数のデータ各々に対応付けられた、前記第２時系列データに含まれるデータを用いて、第３時系列データを生成し、
前記第３時系列データを出力する、
処理をコンピュータが実行し、
前記第１時系列データは、複数の単語を含む文を表す身体動作を示し、前記第２時系列データは、前記複数の単語それぞれを表す身体動作を示す時系列データを連結することで生成されることを特徴とするデータ生成方法。
（付記１４）
前記何れかのデータを対応付ける処理は、前記第１時系列データと前記第２時系列データとの間で対応付けられた２つのデータの間の相違度の総和が最小になるように、前記第２時系列データに含まれる複数のデータの中から前記何れかのデータを選択する処理を含むことを特徴とする付記１３記載のデータ生成方法。
（付記１５）
前記第３時系列データを生成する処理は、
前記第２時系列データから、前記第１時系列データに含まれる複数のデータ各々に対応付けられたデータを抽出する処理と、
抽出されたデータを連結することで前記第３時系列データを生成する処理と、
を含むことを特徴とする付記１３記載のデータ生成方法。
（付記１６）
前記抽出されたデータを連結することで前記第３時系列データを生成する処理は、
前記抽出されたデータのうち特定のデータが、前記第１時系列データに含まれる複数のデータのうち特定の複数のデータに対応付けられている場合、前記特定のデータを用いて補間データを生成する処理と、
前記抽出されたデータのうち前記特定のデータと前記特定のデータ以外のデータとの間に、前記補間データを挿入する処理と、
を含むことを特徴とする付記１５記載のデータ生成方法。
（付記１７）
前記第３時系列データを、身体動作を単語又は文章に翻訳する機械学習モデルの訓練に用いる訓練データとして出力することを特徴とする付記１３記載のデータ生成方法。
（付記１８）
前記文を表す身体動作と前記複数の単語それぞれを表す身体動作は、手話動作であることを特徴とする付記１３乃至１７の何れか１項に記載のデータ生成方法。

【符号の説明】

【0095】

１０１、３０１データ生成装置
１１１、３１１対応付け部
１１２、３１２生成部
１１３、３１３出力部
３０２モデル生成装置
３１４記憶部
３２１、５０１、７０１、８０１手話映像データ
３２２、３２３映像データ集合
４０１、７０２、８０２処理対象データ
４１１－１～４１１－１０、５１１－１～５１１－８、７１１－１～７１１－６、７１２－１～７１２－９、８１１－１～８１１－８、８１２－１～８１２－８画像データ
６０１、７０３、７０４、８０３、８０４合成データ
７１３－１～７１３－３、８１３－１、８１３－２補間データ
１２０１ＣＰＵ
１２０２メモリ
１２０３入力装置
１２０４出力装置
１２０５補助記憶装置
１２０６媒体駆動装置
１２０７ネットワーク接続装置
１２０８バス
１２０９可搬型記録媒体

【図1】