IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-27542データ生成プログラム、データ生成装置、及びデータ生成方法
<>
  • 特開-データ生成プログラム、データ生成装置、及びデータ生成方法 図1
  • 特開-データ生成プログラム、データ生成装置、及びデータ生成方法 図2
  • 特開-データ生成プログラム、データ生成装置、及びデータ生成方法 図3
  • 特開-データ生成プログラム、データ生成装置、及びデータ生成方法 図4
  • 特開-データ生成プログラム、データ生成装置、及びデータ生成方法 図5
  • 特開-データ生成プログラム、データ生成装置、及びデータ生成方法 図6
  • 特開-データ生成プログラム、データ生成装置、及びデータ生成方法 図7
  • 特開-データ生成プログラム、データ生成装置、及びデータ生成方法 図8
  • 特開-データ生成プログラム、データ生成装置、及びデータ生成方法 図9
  • 特開-データ生成プログラム、データ生成装置、及びデータ生成方法 図10
  • 特開-データ生成プログラム、データ生成装置、及びデータ生成方法 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024027542
(43)【公開日】2024-03-01
(54)【発明の名称】データ生成プログラム、データ生成装置、及びデータ生成方法
(51)【国際特許分類】
   G06T 7/20 20170101AFI20240222BHJP
   G06V 40/20 20220101ALI20240222BHJP
   G06T 7/00 20170101ALI20240222BHJP
   G06V 10/70 20220101ALI20240222BHJP
【FI】
G06T7/20 300A
G06V40/20
G06T7/00 350B
G06V10/70
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022130425
(22)【出願日】2022-08-18
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110004185
【氏名又は名称】インフォート弁理士法人
(74)【代理人】
【識別番号】100121083
【弁理士】
【氏名又は名称】青木 宏義
(74)【代理人】
【識別番号】100138391
【弁理士】
【氏名又は名称】天田 昌行
(74)【代理人】
【識別番号】100074099
【弁理士】
【氏名又は名称】大菅 義之
(72)【発明者】
【氏名】白石 竜也
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096CA05
5L096HA02
5L096JA03
5L096JA11
5L096KA04
(57)【要約】
【課題】身体動作を示す既知の時系列データから別の時系列データを生成する。
【解決手段】コンピュータは、所定の身体動作を示す第1時系列データに含まれる複数のデータ各々と、所定の身体動作を示す第2時系列データに含まれる複数のデータ各々との間の相違度に基づき、対応付け処理を行う。対応付け処理は、第1時系列データに含まれる複数のデータ各々に対して、第2時系列データに含まれる複数のデータのうち何れかのデータを対応付ける処理である。コンピュータは、第1時系列データに含まれる複数のデータ各々と、第1時系列データに含まれる複数のデータ各々に対応付けられたデータとを合成することで、第3時系列データを生成する。コンピュータは、第3時系列データを出力する。
【選択図】図6
【特許請求の範囲】
【請求項1】
所定の身体動作を示す第1時系列データに含まれる複数のデータ各々と、前記所定の身体動作を示す第2時系列データに含まれる複数のデータ各々との間の相違度に基づき、前記第1時系列データに含まれる複数のデータ各々に対して、前記第2時系列データに含まれる複数のデータのうち何れかのデータを対応付け、
前記第1時系列データに含まれる複数のデータ各々と、前記第1時系列データに含まれる複数のデータ各々に対応付けられたデータとを合成することで、第3時系列データを生成し、
前記第3時系列データを出力する、
処理をコンピュータに実行させるためのデータ生成プログラム。
【請求項2】
前記何れかのデータを対応付ける処理は、前記第1時系列データと前記第2時系列データとの間で対応付けられた2つのデータの間の相違度の総和が最小になるように、前記第2時系列データに含まれる複数のデータの中から前記何れかのデータを選択する処理を含むことを特徴とする請求項1記載のデータ生成プログラム。
【請求項3】
前記第3時系列データを生成する処理は、前記第1時系列データに含まれる複数のデータ各々と、前記第1時系列データに含まれる複数のデータ各々に対応付けられたデータとを、所定の比率で合成する処理を含むことを特徴とする請求項1記載のデータ生成プログラム。
【請求項4】
前記何れかのデータを対応付ける処理は、前記所定の身体動作を示す複数の時系列データ各々を処理対象データとして用いて、前記第1時系列データに含まれる複数のデータ各々と、前記処理対象データに含まれる複数のデータ各々との間の相違度に基づき、前記第1時系列データに含まれる複数のデータ各々に対して、前記処理対象データに含まれる複数のデータのうち何れかのデータを対応付ける処理を含み、
前記複数の時系列データは、前記第2時系列データを含み、
前記第3時系列データを生成する処理は、前記第1時系列データに含まれる複数のデータ各々と、前記第1時系列データに含まれる複数のデータ各々に対応付けられた、前記複数の時系列データ各々に含まれるデータとを合成することで、前記第3時系列データを生成する処理を含むことを特徴とする請求項1記載のデータ生成プログラム。
【請求項5】
前記第3時系列データを、身体動作を単語又は文章に翻訳する機械学習モデルの訓練に用いる訓練データとして出力することを特徴とする請求項1記載のデータ生成プログラム。
【請求項6】
所定の身体動作を示す第1時系列データに含まれる複数のデータ各々と、前記所定の身体動作を示す第2時系列データに含まれる複数のデータ各々との間の相違度に基づき、前記第1時系列データに含まれる複数のデータ各々に対して、前記第2時系列データに含まれる複数のデータのうち何れかのデータを対応付ける対応付け部と、
前記第1時系列データに含まれる複数のデータ各々と、前記第1時系列データに含まれる複数のデータ各々に対応付けられたデータとを合成することで、第3時系列データを生成する生成部と、
前記第3時系列データを出力する出力部と、
を備えることを特徴とするデータ生成装置。
【請求項7】
所定の身体動作を示す第1時系列データに含まれる複数のデータ各々と、前記所定の身体動作を示す第2時系列データに含まれる複数のデータ各々との間の相違度に基づき、前記第1時系列データに含まれる複数のデータ各々に対して、前記第2時系列データに含まれる複数のデータのうち何れかのデータを対応付け、
前記第1時系列データに含まれる複数のデータ各々と、前記第1時系列データに含まれる複数のデータ各々に対応付けられたデータとを合成することで、第3時系列データを生成し、
前記第3時系列データを出力する、
処理をコンピュータが実行することを特徴とするデータ生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ生成技術に関する。
【背景技術】
【0002】
近年、手話を日本語に翻訳するAI(Artificial intelligence)の研究が行われている。日本語の手話としては、日本手話及び日本語対応手話の2種類が知られている。日本手話は、ろう者の母語(自然言語)であり、日本語対応手話は、手で表現する日本語(人工言語)である。日本手話の場合、手の動きだけでなく、顔の動き及び表情も文法的な意味を有する。
【0003】
手話に関連して、特定の概念を表す身体の動作に対応した動作映像を編集する映像編集装置が知られている(例えば、特許文献1を参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2008-294973号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
手話には個人差及び地域差があるため、手話を日本語に翻訳する翻訳モデルを機械学習によって生成する場合、機械学習及び評価を行うために、大量の手話映像データを用意することが望ましい。
【0006】
しかしながら、日本手話の大規模なオープンデータは存在しない。また、単語単位であっても十分な量の手話映像データを収集することは難しく、文章単位の手話映像データを大量に収集することはさらに難しい。
【0007】
なお、かかる問題は、手話映像データを用いて翻訳モデルを生成する場合に限らず、身体動作を示す時系列データを様々な用途で用いる場合において生ずるものである。
【0008】
1つの側面において、本発明は、身体動作を示す既知の時系列データから別の時系列データを生成することを目的とする。
【課題を解決するための手段】
【0009】
1つの案では、データ生成プログラムは、以下の処理をコンピュータに実行させる。
【0010】
コンピュータは、所定の身体動作を示す第1時系列データに含まれる複数のデータ各々と、所定の身体動作を示す第2時系列データに含まれる複数のデータ各々との間の相違度に基づき、対応付け処理を行う。対応付け処理は、第1時系列データに含まれる複数のデータ各々に対して、第2時系列データに含まれる複数のデータのうち何れかのデータを対応付ける処理である。
【0011】
コンピュータは、第1時系列データに含まれる複数のデータ各々と、第1時系列データに含まれる複数のデータ各々に対応付けられたデータとを合成することで、第3時系列データを生成する。コンピュータは、第3時系列データを出力する。
【発明の効果】
【0012】
1つの側面によれば、身体動作を示す既知の時系列データから別の時系列データを生成することができる。
【図面の簡単な説明】
【0013】
図1】実施形態のデータ生成装置の機能的構成図である。
図2】第1のデータ生成処理のフローチャートである。
図3】モデル生成システムの機能的構成図である。
図4】第1の手話映像データを示す図である。
図5】第1の対応付け結果を示す図である。
図6】第1の合成処理を示す図である。
図7】第2の手話映像データを示す図である。
図8】第2の対応付け結果を示す図である。
図9】第2の合成処理を示す図である。
図10】第2のデータ生成処理のフローチャートである。
図11】情報処理装置のハードウェア構成図である。
【発明を実施するための形態】
【0014】
以下、図面を参照しながら、実施形態を詳細に説明する。
【0015】
図1は、実施形態のデータ生成装置の機能的構成例を示している。図1のデータ生成装置101は、対応付け部111、生成部112、及び出力部113を含む。
【0016】
図2は、図1のデータ生成装置101が行う第1のデータ生成処理の例を示すフローチャートである。まず、対応付け部111は、所定の身体動作を示す第1時系列データに含まれる複数のデータ各々と、所定の身体動作を示す第2時系列データに含まれる複数のデータ各々との間の相違度に基づき、対応付け処理を行う(ステップ201)。対応付け処理は、第1時系列データに含まれる複数のデータ各々に対して、第2時系列データに含まれる複数のデータのうち何れかのデータを対応付ける処理である。
【0017】
次に、生成部112は、第1時系列データに含まれる複数のデータ各々と、第1時系列データに含まれる複数のデータ各々に対応付けられたデータとを合成することで、第3時系列データを生成する(ステップ202)。そして、出力部113は、第3時系列データを出力する(ステップ203)。
【0018】
図1のデータ生成装置101によれば、身体動作を示す既知の時系列データから別の時系列データを生成することができる。
【0019】
図3は、図1のデータ生成装置101を含むモデル生成システムの機能的構成例を示している。図3のモデル生成システムは、データ生成装置301及びモデル生成装置302を含む。
【0020】
データ生成装置301は、対応付け部311、生成部312、出力部313、及び記憶部314を含む。データ生成装置301は、図1のデータ生成装置101に対応する。対応付け部311、生成部312、及び出力部313は、図1の対応付け部111、生成部112、及び出力部113にそれぞれ対応する。
【0021】
記憶部314は、映像データ集合321を記憶する。映像データ集合321は、同じ手話動作を行うN人(Nは2以上の整数)の手話話者それぞれを撮影することで取得された、N個の手話映像データを含む。N人の手話映像データが示す手話動作は、特定の単語又は文章を表現する動作である。手話動作は、所定の身体動作に対応する。なお、映像データ集合321に含まれるN個の手話映像データは、映像データに示されるデータを単語や文章に翻訳する機械学習モデルの訓練に用いられる、特定の単語又は文章を表現する動作の訓練データであってもよい。
【0022】
各手話映像データは、時系列の複数の画像データを含む。各画像データは、手話映像の各フレームの画像に対応し、手話動作が行われている期間の各時刻における手話話者の動作を示す。
【0023】
画像データは、各時刻におけるフレームの画素値を表す多次元ベクトルであってもよく、フレームから抽出された画像特徴量を表す多次元ベクトルであってもよい。画像特徴量としては、例えば、手話話者の身体の特徴点の座標を用いることができる。身体の特徴点は、目、口、指の関節、腕の関節等である。
【0024】
画像特徴量は、画素値の統計値であってもよく、HOG(Histograms of Oriented Gradients)、SIFT(Scaled Invariance Feature Transform)、又はSURF(Speeded-Up Robust Features)であってもよい。画像特徴量は、BRIEF(Binary Robust Independent Elementary Features)又は顕著性(Saliency)であってもよい。
【0025】
対応付け部311は、映像データ集合321から2つの手話映像データを選択し、それらの手話映像データを手話映像データD1及び手話映像データD2として用いる。手話映像データD1及び手話映像データD2は、所定の身体動作を示す第1時系列データ及び第2時系列データにそれぞれ対応する。
【0026】
対応付け部311は、手話映像データD1に含まれる複数の画像データ各々に対して、手話映像データD2に含まれる何れかの画像データを対応付ける、対応付け処理を行う。対応付け部311は、例えば、DTW(Dynamic Time Warping)を用いて対応付け処理を行う。DTWは、2つの時系列データの間の相違度又は類似度を計算する方法の1つである。
【0027】
この場合、対応付け部311は、以下に示す条件C1及び条件C2が満たされるように、手話映像データD2の画像データの中から、手話映像データD1の各画像データに対して対応付けられる画像データを選択する。
【0028】
(C1)手話映像データD1と手話映像データD2との間で、画像データの時系列が一致する。
【0029】
(C2)手話映像データD1と手話映像データD2との間で対応付けられた2つの画像データの間の相違度の総和が最小になる。
【0030】
条件C1は、手話映像データD1と手話映像データD2との間で、画像データの時間的な順序が逆転しないことを表す。条件C2は、手話映像データD1と手話映像データD2との間の相違度が最小になることを表す。言い換えれば、条件C2は、手話映像データD1と手話映像データD2との間の類似度が最大になることを表す。
【0031】
2つの画像データの間の相違度としては、例えば、一方の画像データを表す多次元ベクトルと他方の画像データを表す多次元ベクトルとの間のベクトル間距離を用いることができる。ベクトル間距離は、ユークリッド距離であってもよく、マンハッタン距離であってもよい。
【0032】
条件C2が満たされるように手話映像データD2から画像データを選択することで、手話映像データD1に含まれる複数の画像データと、手話映像データD2に含まれる複数の画像データとを精度良く対応付けることができる。
【0033】
図4は、第1の手話映像データの例を示している。手話映像データ401は、手話映像データD1に対応し、画像データ411-1~画像データ411-8を含む。手話映像データ402は、手話映像データD2に対応し、画像データ412-1~画像データ412-10を含む。手話映像データ401及び手話映像データ402は、「好き」という単語を表している。
【0034】
図5は、第1の対応付け結果の例を示している。図5の対応付け結果は、図4の手話映像データ401及び手話映像データ402に対する対応付け結果を表す。
【0035】
画像データ411-1には、画像データ412-1が対応付けられている。画像データ411-2及び画像データ411-3には、画像データ412-3が対応付けられている。画像データ411-4及び画像データ411-5には、画像データ412-5及び画像データ412-6がそれぞれ対応付けられている。画像データ411-6~画像データ411-8には、画像データ412-8~画像データ412-10がそれぞれ対応付けられている。
【0036】
画像データ412-2、画像データ412-4、及び画像データ412-7は、何れの画像データにも対応付けられていない。
【0037】
DTWを用いて対応付け処理を行うことで、手話映像データD1と手話映像データD2の長さが異なる場合であっても、それらの手話映像データを対応付けることができる。
【0038】
対応付け部311は、DTWの亜種又は拡張版を用いて対応付け処理を行うこともできる。DTWの亜種としては、例えば、一定以上の時間差を有する2つの画像データの対応付けを抑止する制約を課したDTWを用いることができる。DTWの亜種としては、手話映像データに含まれる最初の所定数の画像データと最後の所定数の画像データとを除外して、残りの画像データを用いて対応付け処理を行うDTWを用いることもできる。
【0039】
DTWの拡張版としては、Fast DTW、Derivative DTW、Weighted DTW等を用いることができる。
【0040】
次に、生成部312は、手話映像データD1と手話映像データD2との間で対応付けられた画像データ同士を所定の比率で合成する、合成処理を行うことで、合成画像データを生成する。そして、生成部312は、複数の合成画像データを含む手話映像データD3を生成する。手話映像データD3は、第3時系列データに対応する。
【0041】
図6は、第1の合成処理の例を示している。図6の合成処理は、図5の対応付け結果に基づく合成処理である。手話映像データ403は、手話映像データD3に対応し、合成画像データ413-1~合成画像データ413-8を含む。
【0042】
合成画像データ413-1は、画像データ411-1及び画像データ412-1を合成することで生成される。合成画像データ413-2は、画像データ411-2及び画像データ412-3を合成することで生成される。合成画像データ413-3は、画像データ411-3及び画像データ412-3を合成することで生成される。合成画像データ413-4は、画像データ411-4及び画像データ412-5を合成することで生成される。
【0043】
合成画像データ413-5は、画像データ411-5及び画像データ412-6を合成することで生成される。合成画像データ413-6は、画像データ411-6及び画像データ412-8を合成することで生成される。合成画像データ413-7は、画像データ411-7及び画像データ412-9を合成することで生成される。合成画像データ413-8は、画像データ411-8及び画像データ412-10を合成することで生成される。
【0044】
一例として、画像データ411-1及び画像データ412-1が多次元ベクトルV1及び多次元ベクトルV2でそれぞれ表され、画像データ411-1の比率がα%であり、画像データ412-1の比率が(100-α)%である場合を想定する。この場合、合成画像データ413-1を表す多次元ベクトルV3は、次式により計算される。
【0045】
V3=(α/100)V1+((100-α)/100)V2 (1)
【0046】
αは、ユーザ又は生成部312によってランダムに決定される。式(1)のV3は、V1とV2の内分点を表している。
【0047】
V1及びV2が画素値を表す場合、V3は、V1が表す画像とV2が表す画像とを重ね合わせた重畳画像の画素値を表す。V1及びV2が身体の特徴点の座標を表す場合、V3は、V1が表す特徴点とV2が表す特徴点の間の座標を表す。
【0048】
このような合成処理により、画像データ411-i(i=1~8)と画像データ412-j(j=1~10)とを所定の比率で合成することで、手話映像データ401及び手話映像データ402から手話映像データ403が生成される。
【0049】
手話映像データ403は、手話映像データ401が示す手話動作と、手話映像データ402が示す手話動作とを混ぜ合わせた、中間的な手話動作を示している。中間的な手話動作を示す手話映像データ403は、「好き」という単語を表す有効な手話映像データであるため、拡張データとして利用することができる。
【0050】
図7は、第2の手話映像データの例を示している。手話映像データ701は、手話映像データD1に対応し、画像データ711-1~画像データ711-8を含む。手話映像データ702は、手話映像データD2に対応し、画像データ712-1~画像データ712-8を含む。各画像データの矩形内の数字は、画像データの値を表す。
【0051】
図8は、第2の対応付け結果の例を示している。図8(a)は、図7の手話映像データ701及び手話映像データ702に対する1つの対応付け結果を示している。画像データ711-1~画像データ711-8には、画像データ712-1~画像データ712-8がそれぞれ対応付けられている。
【0052】
画像データ711-i(i=1~8)と画像データ712-j(j=1~8)との間の相違度d(i,j)として、画像データ711-iの値と画像データ712-jの値との差分の絶対値を用いた場合、相違度の総和Sは次式により計算される。
【0053】
S=d(1,1)+d(2,2)+d(3,3)+d(4,4)+d(5,5)
+d(6,6)+d(7,7)+d(8,8)
=0+1+3+6+2+7+0+2
=21 (2)
【0054】
図8(b)は、図7の手話映像データ701及び手話映像データ702に対する別の対応付け結果を示している。画像データ711-1及び画像データ711-2には、画像データ712-1及び画像データ712-2がそれぞれ対応付けられている。画像データ711-5~画像データ711-7には、画像データ712-3~画像データ712-5がそれぞれ対応付けられている。画像データ711-8には、画像データ712-6~画像データ712-8が対応付けられている。
【0055】
画像データ711-3及び画像データ711-4には、何れの画像データも対応付けられていない。この場合、相違度の総和Sは次式により計算される。
【0056】
S=d(1,1)+d(2,2)+d(5,3)+d(6,4)+d(7,5)
+d(8,6)+d(8,7)+d(8,8)
=0+1+1+1+2+0+1+2
=8 (3)
【0057】
したがって、図8(a)の対応付け結果における総和Sよりも、図8(b)の対応付け結果における総和Sの方が小さいため、最終的には図8(b)の対応付け結果が採用される。
【0058】
図9は、第2の合成処理の例を示している。図9の合成処理は、図8(b)の対応付け結果に基づく合成処理である。手話映像データ703は、手話映像データD3に対応し、合成画像データ713-1~合成画像データ713-8を含む。この例では、画像データ711-iの比率は50%であり、画像データ712-jの比率も50%である。したがって、合成画像データ713-k(k=1~8)の値X3は、画像データ711-iの値X1と画像データ712-jの値X2を用いて、次式により計算される。
【0059】
X3=(50/100)X1+(50/100)X2 (4)
【0060】
合成画像データ713-1は、画像データ711-1及び画像データ712-1を合成することで生成され、その値は1となる。合成画像データ713-2は、画像データ711-2及び画像データ712-2を合成することで生成され、その値は2.5となる。合成画像データ713-3は、画像データ711-5及び画像データ712-3を合成することで生成され、その値は5.5となる。合成画像データ713-4は、画像データ711-6及び画像データ712-4を合成することで生成され、その値は7.5となる。
【0061】
合成画像データ713-5は、画像データ711-7及び画像データ712-5を合成することで生成され、その値は3となる。合成画像データ713-6は、画像データ711-8及び画像データ712-6を合成することで生成され、その値は1となる。合成画像データ713-7は、画像データ711-8及び画像データ712-7を合成することで生成され、その値は1.5となる。合成画像データ713-8は、画像データ711-8及び画像データ712-8を合成することで生成され、その値は2となる。
【0062】
生成部312は、合成処理により生成された手話映像データD3を、拡張データとして映像データ集合321に追加することで、映像データ集合322を生成し、記憶部314に格納する。
【0063】
データ生成装置301は、映像データ集合321からランダムに手話映像データD1及び手話映像データD2を選択し、対応付け処理及び合成処理を行って手話映像データD3を生成する処理を繰り返す。これにより、複数の拡張データが映像データ集合322に追加される。出力部313は、複数の拡張データを含む映像データ集合322を、モデル生成装置302へ出力する。
【0064】
モデル生成装置302は、データ生成装置301から出力される映像データ集合322を機械学習の訓練データとして用いて、機械学習モデルを訓練することで、手話を日本語(単語や文章)に翻訳する翻訳モデルを生成する。この場合、映像データ集合321が示す手話動作によって表現される単語又は文章が、訓練データに対する正解ラベルとして用いられる。
【0065】
図3のモデル生成システムによれば、少数の手話映像データを含む映像データ集合321を用意するだけで、それ以上の映像収集作業を行うことなく、手話映像データのバリエーションを増やすことができる。手話映像データD1及び手話映像データD2の組み合わせ、又は合成処理における各画像データの比率を変更することで、手話話者の人数に対して、拡張データのバリエーションが指数関数的に増加するため、大量の手話映像データを効率良く生成できる。
【0066】
さらに、大量の手話映像データを用いて機械学習を行うことで、生成される翻訳モデルの精度が向上する。
【0067】
図10は、図3のデータ生成装置301が行う第2のデータ生成処理の例を示すフローチャートである。まず、対応付け部311は、映像データ集合321から手話映像データD1及び手話映像データD2を選択する(ステップ1001)。そして、対応付け部311は、手話映像データD1に含まれる各画像データに対して、手話映像データD2に含まれる何れかの画像データを対応付ける、対応付け処理を行う(ステップ1002)。
【0068】
次に、生成部312は、手話映像データD1と手話映像データD2との間で対応付けられた画像データ同士を所定の比率で合成する、合成処理を行うことで、複数の合成画像データを含む手話映像データD3を生成する(ステップ1003)。そして、生成部312は、手話映像データD3を拡張データとして映像データ集合322に追加する。
【0069】
次に、生成部312は、追加された拡張データの個数をK(Kは1以上の整数)と比較する(ステップ1004)。拡張データの個数がK個未満である場合(ステップ1004,NO)、データ生成装置301は、ステップ1001以降の処理を繰り返す。
【0070】
拡張データの個数がK個に達した場合(ステップ1004,YES)、出力部313は、映像データ集合322をモデル生成装置302へ出力する(ステップ1005)。
【0071】
データ生成処理において、データ生成装置301は、映像データ集合321から3個以上の手話映像データを選択し、それらの手話映像データを合成して別の手話映像データを生成することもできる。
【0072】
M個(Mは3以上の整数)の手話映像データを合成する場合、対応付け部311は、映像データ集合321からM個の手話映像データを選択する。そして、対応付け部311は、それらの手話映像データのうちの1つを手話映像データD1として用い、残りのM-1個の手話映像データ各々を手話映像データD2として用いる。手話映像データD2は、処理対象データの一例である。
【0073】
対応付け部311は、手話映像データD1に含まれる複数の画像データ各々に対して、手話映像データD2に含まれる何れかの画像データを対応付ける、対応付け処理を行う。生成部312は、手話映像データD1の各画像データと、その画像データに対応付けられた、M-1個の手話映像データ各々の画像データとを所定の比率で合成する、合成処理を行うことで、合成画像データを生成する。そして、生成部312は、複数の合成画像データを含む手話映像データD3を生成する。
【0074】
一例として、M=3であり、合成される画像データE1、画像データE2、及び画像データE3が、多次元ベクトルU1、多次元ベクトルU2、及び多次元ベクトルU3でそれぞれ表される場合を想定する。画像データE1の比率はα%であり、画像データE2の比率はβ%であり、画像データE3の比率は(100-α-β)%である。この場合、合成画像データを表す多次元ベクトルU4は、次式により計算される。
【0075】
U4=(α/100)U1+(β/100)U2
+((100-α-β)/100)U3 (5)
【0076】
α及びβは、ユーザ又は生成部312によってランダムに決定される。3個以上の手話映像データを合成して拡張データを生成することで、拡張データのバリエーションをさらに増加させることができる。
【0077】
図1のデータ生成装置101の構成は一例に過ぎず、データ生成装置101の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。
【0078】
図3のモデル生成システムの構成は一例に過ぎず、モデル生成システムの用途又は条件に応じて一部の構成要素を省略又は変更してもよい。例えば、モデル生成装置302は、データ生成装置301から出力される映像データ集合322を用いて、翻訳以外の情報処理を行う学習済みモデルを生成してもよい。
【0079】
図2及び図10のフローチャートは一例に過ぎず、データ生成装置101又はモデル生成システムの構成又は条件に応じて、一部の処理を省略又は変更してもよい。
【0080】
図4図9に示した手話映像データは一例に過ぎず、手話映像データは、手話動作に応じて変化する。
【0081】
式(1)~式(5)は一例に過ぎず、データ生成装置301は、別の計算式を用いてデータ生成処理を行ってもよい。
【0082】
図11は、図1のデータ生成装置101及び図3のデータ生成装置301として用いられる情報処理装置(コンピュータ)のハードウェア構成例を示している。図11の情報処理装置は、CPU(Central Processing Unit)1101、メモリ1102、入力装置1103、出力装置1104、補助記憶装置1105、媒体駆動装置1106、及びネットワーク接続装置1107を含む。これらの構成要素はハードウェアであり、バス1108により互いに接続されている。
【0083】
メモリ1102は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)等の半導体メモリであり、処理に用いられるプログラム及びデータを記憶する。メモリ1102は、図3の記憶部314として動作してもよい。
【0084】
CPU1101(プロセッサ)は、例えば、メモリ1102を利用してプログラムを実行することにより、図1の対応付け部111及び生成部112として動作する。CPU1101は、メモリ1102を利用してプログラムを実行することにより、図3の対応付け部311及び生成部312としても動作する。
【0085】
入力装置1103は、例えば、キーボード、ポインティングデバイス等であり、ユーザ又はオペレータからの指示又は情報の入力に用いられる。出力装置1104は、例えば、表示装置、プリンタ等であり、ユーザ又はオペレータへの問い合わせ又は指示、及び処理結果の出力に用いられる。出力装置1104は、図1の出力部113として動作してもよい。
【0086】
補助記憶装置1105は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。補助記憶装置1105は、ハードディスクドライブであってもよい。情報処理装置は、補助記憶装置1105にプログラム及びデータを格納しておき、それらをメモリ1102にロードして使用することができる。補助記憶装置1105は、図3の記憶部314として動作してもよい。
【0087】
媒体駆動装置1106は、可搬型記録媒体1109を駆動し、その記録内容にアクセスする。可搬型記録媒体1109は、メモリデバイス、フレキシブルディスク、光ディスク、光磁気ディスク等である。可搬型記録媒体1109は、CD-ROM(Compact Disk Read Only Memory)、DVD(Digital Versatile Disk)、USB(Universal Serial Bus)メモリ等であってもよい。ユーザ又はオペレータは、可搬型記録媒体1109にプログラム及びデータを格納しておき、それらをメモリ1102にロードして使用することができる。
【0088】
このように、処理に用いられるプログラム及びデータを格納するコンピュータ読み取り可能な記録媒体は、メモリ1102、補助記憶装置1105、又は可搬型記録媒体1109のような、物理的な(非一時的な)記録媒体である。
【0089】
ネットワーク接続装置1107は、WAN(Wide Area Network)、LAN(Local Area Network)等の通信ネットワークに接続され、通信に伴うデータ変換を行う通信インタフェース回路である。情報処理装置は、プログラム及びデータを外部の装置からネットワーク接続装置1107を介して受信し、それらをメモリ1102にロードして使用することができる。ネットワーク接続装置1107は、図1の出力部113又は図3の出力部313として動作してもよい。
【0090】
図3のモデル生成装置302としては、図11と同様の情報処理装置を用いることができる。
【0091】
なお、情報処理装置が図11のすべての構成要素を含む必要はなく、情報処理装置の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。例えば、ユーザ又はオペレータとのインタフェースが不要な場合は、入力装置1103及び出力装置1104を省略することができる。可搬型記録媒体1109又は通信ネットワークを使用しない場合は、媒体駆動装置1106又はネットワーク接続装置1107を省略することができる。
【0092】
開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。
【0093】
図1乃至図11を参照しながら説明した実施形態に関し、さらに以下の付記を開示する。
(付記1)
所定の身体動作を示す第1時系列データに含まれる複数のデータ各々と、前記所定の身体動作を示す第2時系列データに含まれる複数のデータ各々との間の相違度に基づき、前記第1時系列データに含まれる複数のデータ各々に対して、前記第2時系列データに含まれる複数のデータのうち何れかのデータを対応付け、
前記第1時系列データに含まれる複数のデータ各々と、前記第1時系列データに含まれる複数のデータ各々に対応付けられたデータとを合成することで、第3時系列データを生成し、
前記第3時系列データを出力する、
処理をコンピュータに実行させるためのデータ生成プログラム。
(付記2)
前記何れかのデータを対応付ける処理は、前記第1時系列データと前記第2時系列データとの間で対応付けられた2つのデータの間の相違度の総和が最小になるように、前記第2時系列データに含まれる複数のデータの中から前記何れかのデータを選択する処理を含むことを特徴とする付記1記載のデータ生成プログラム。
(付記3)
前記第3時系列データを生成する処理は、前記第1時系列データに含まれる複数のデータ各々と、前記第1時系列データに含まれる複数のデータ各々に対応付けられたデータとを、所定の比率で合成する処理を含むことを特徴とする付記1記載のデータ生成プログラム。
(付記4)
前記何れかのデータを対応付ける処理は、前記所定の身体動作を示す複数の時系列データ各々を処理対象データとして用いて、前記第1時系列データに含まれる複数のデータ各々と、前記処理対象データに含まれる複数のデータ各々との間の相違度に基づき、前記第1時系列データに含まれる複数のデータ各々に対して、前記処理対象データに含まれる複数のデータのうち何れかのデータを対応付ける処理を含み、
前記複数の時系列データは、前記第2時系列データを含み、
前記第3時系列データを生成する処理は、前記第1時系列データに含まれる複数のデータ各々と、前記第1時系列データに含まれる複数のデータ各々に対応付けられた、前記複数の時系列データ各々に含まれるデータとを合成することで、前記第3時系列データを生成する処理を含むことを特徴とする付記1記載のデータ生成プログラム。
(付記5)
前記第3時系列データを、身体動作を単語又は文章に翻訳する機械学習モデルの訓練に用いる訓練データとして出力することを特徴とする付記1記載のデータ生成プログラム。
(付記6)
前記所定の身体動作は手話動作であることを特徴とする付記1乃至5の何れか1項に記載のデータ生成プログラム。
(付記7)
所定の身体動作を示す第1時系列データに含まれる複数のデータ各々と、前記所定の身体動作を示す第2時系列データに含まれる複数のデータ各々との間の相違度に基づき、前記第1時系列データに含まれる複数のデータ各々に対して、前記第2時系列データに含まれる複数のデータのうち何れかのデータを対応付ける対応付け部と、
前記第1時系列データに含まれる複数のデータ各々と、前記第1時系列データに含まれる複数のデータ各々に対応付けられたデータとを合成することで、第3時系列データを生成する生成部と、
前記第3時系列データを出力する出力部と、
を備えることを特徴とするデータ生成装置。
(付記8)
前記対応付け部は、前記第1時系列データと前記第2時系列データとの間で対応付けられた2つのデータの間の相違度の総和が最小になるように、前記第2時系列データに含まれる複数のデータの中から前記何れかのデータを選択することを特徴とする付記7記載のデータ生成装置。
(付記9)
前記生成部は、前記第1時系列データに含まれる複数のデータ各々と、前記第1時系列データに含まれる複数のデータ各々に対応付けられたデータとを、所定の比率で合成することを特徴とする付記7記載のデータ生成装置。
(付記10)
前記対応付け部は、前記所定の身体動作を示す複数の時系列データ各々を処理対象データとして用いて、前記第1時系列データに含まれる複数のデータ各々と、前記処理対象データに含まれる複数のデータ各々との間の相違度に基づき、前記第1時系列データに含まれる複数のデータ各々に対して、前記処理対象データに含まれる複数のデータのうち何れかのデータを対応付け、
前記複数の時系列データは、前記第2時系列データを含み、
前記生成部は、前記第1時系列データに含まれる複数のデータ各々と、前記第1時系列データに含まれる複数のデータ各々に対応付けられた、前記複数の時系列データ各々に含まれるデータとを合成することで、前記第3時系列データを生成することを特徴とする付記7記載のデータ生成装置。
(付記11)
前記出力部は、前記第3時系列データを、身体動作を単語又は文章に翻訳する機械学習モデルの訓練に用いる訓練データとして出力することを特徴とする付記7記載のデータ生成装置。
(付記12)
前記所定の身体動作は手話動作であることを特徴とする付記7乃至11の何れか1項に記載のデータ生成装置。
(付記13)
所定の身体動作を示す第1時系列データに含まれる複数のデータ各々と、前記所定の身体動作を示す第2時系列データに含まれる複数のデータ各々との間の相違度に基づき、前記第1時系列データに含まれる複数のデータ各々に対して、前記第2時系列データに含まれる複数のデータのうち何れかのデータを対応付け、
前記第1時系列データに含まれる複数のデータ各々と、前記第1時系列データに含まれる複数のデータ各々に対応付けられたデータとを合成することで、第3時系列データを生成し、
前記第3時系列データを出力する、
処理をコンピュータが実行することを特徴とするデータ生成方法。
(付記14)
前記何れかのデータを対応付ける処理は、前記第1時系列データと前記第2時系列データとの間で対応付けられた2つのデータの間の相違度の総和が最小になるように、前記第2時系列データに含まれる複数のデータの中から前記何れかのデータを選択する処理を含むことを特徴とする付記13記載のデータ生成方法。
(付記15)
前記第3時系列データを生成する処理は、前記第1時系列データに含まれる複数のデータ各々と、前記第1時系列データに含まれる複数のデータ各々に対応付けられたデータとを、所定の比率で合成する処理を含むことを特徴とする付記13記載のデータ生成方法。
(付記16)
前記何れかのデータを対応付ける処理は、前記所定の身体動作を示す複数の時系列データ各々を処理対象データとして用いて、前記第1時系列データに含まれる複数のデータ各々と、前記処理対象データに含まれる複数のデータ各々との間の相違度に基づき、前記第1時系列データに含まれる複数のデータ各々に対して、前記処理対象データに含まれる複数のデータのうち何れかのデータを対応付ける処理を含み、
前記複数の時系列データは、前記第2時系列データを含み、
前記第3時系列データを生成する処理は、前記第1時系列データに含まれる複数のデータ各々と、前記第1時系列データに含まれる複数のデータ各々に対応付けられた、前記複数の時系列データ各々に含まれるデータとを合成することで、前記第3時系列データを生成する処理を含むことを特徴とする付記13記載のデータ生成方法。
(付記17)
前記第3時系列データを、身体動作を単語又は文章に翻訳する機械学習モデルの訓練に用いる訓練データとして出力することを特徴とする付記13記載のデータ生成方法。
(付記18)
前記所定の身体動作は手話動作であることを特徴とする付記13乃至17の何れか1項に記載のデータ生成方法。
【符号の説明】
【0094】
101、301 データ生成装置
111、311 対応付け部
112、312 生成部
113、313 出力部
302 モデル生成装置
314 記憶部
321、322 映像データ集合
401~403、701~703 手話映像データ
411-1~411-8、412-1~412-10、711-1~711-8、712-1~712-8 画像データ
413-1~413-8、713-1~713-8 合成画像データ
1101 CPU
1102 メモリ
1103 入力装置
1104 出力装置
1105 補助記憶装置
1106 媒体駆動装置
1107 ネットワーク接続装置
1108 バス
1109 可搬型記録媒体
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11