IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-27543データ生成プログラム、データ生成装置、及びデータ生成方法
<>
  • 特開-データ生成プログラム、データ生成装置、及びデータ生成方法 図1
  • 特開-データ生成プログラム、データ生成装置、及びデータ生成方法 図2
  • 特開-データ生成プログラム、データ生成装置、及びデータ生成方法 図3
  • 特開-データ生成プログラム、データ生成装置、及びデータ生成方法 図4
  • 特開-データ生成プログラム、データ生成装置、及びデータ生成方法 図5
  • 特開-データ生成プログラム、データ生成装置、及びデータ生成方法 図6
  • 特開-データ生成プログラム、データ生成装置、及びデータ生成方法 図7
  • 特開-データ生成プログラム、データ生成装置、及びデータ生成方法 図8
  • 特開-データ生成プログラム、データ生成装置、及びデータ生成方法 図9
  • 特開-データ生成プログラム、データ生成装置、及びデータ生成方法 図10
  • 特開-データ生成プログラム、データ生成装置、及びデータ生成方法 図11
  • 特開-データ生成プログラム、データ生成装置、及びデータ生成方法 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024027543
(43)【公開日】2024-03-01
(54)【発明の名称】データ生成プログラム、データ生成装置、及びデータ生成方法
(51)【国際特許分類】
   G06T 7/20 20170101AFI20240222BHJP
   G06V 40/20 20220101ALI20240222BHJP
   G06V 10/70 20220101ALI20240222BHJP
   G06T 7/00 20170101ALI20240222BHJP
【FI】
G06T7/20 300A
G06V40/20
G06V10/70
G06T7/00 350B
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022130426
(22)【出願日】2022-08-18
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110004185
【氏名又は名称】インフォート弁理士法人
(74)【代理人】
【識別番号】100121083
【弁理士】
【氏名又は名称】青木 宏義
(74)【代理人】
【識別番号】100138391
【弁理士】
【氏名又は名称】天田 昌行
(74)【代理人】
【識別番号】100074099
【弁理士】
【氏名又は名称】大菅 義之
(72)【発明者】
【氏名】白石 竜也
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096CA04
5L096HA02
5L096JA03
5L096JA11
5L096KA04
(57)【要約】
【課題】単語を表す身体動作の時系列データから、文を表す身体動作の時系列データを生成する。
【解決手段】コンピュータは、第1時系列データに含まれる複数のデータ各々と、第2時系列データに含まれる複数のデータ各々との間の相違度に基づき、対応付け処理を行う。対応付け処理は、第1時系列データに含まれる複数のデータ各々に対して、第2時系列データに含まれる複数のデータのうち何れかのデータを対応付ける処理である。第1時系列データは、複数の単語を含む文を表す身体動作を示し、第2時系列データは、複数の単語それぞれを表す身体動作を示す時系列データを連結することで生成される。コンピュータは、第1時系列データに含まれる複数のデータ各々に対応付けられた、第2時系列データに含まれるデータを用いて、第3時系列データを生成する。コンピュータは、第3時系列データを出力する。
【選択図】図5
【特許請求の範囲】
【請求項1】
コンピュータのためのデータ生成プログラムであって、
前記データ生成プログラムは、
第1時系列データに含まれる複数のデータ各々と、第2時系列データに含まれる複数のデータ各々との間の相違度に基づき、前記第1時系列データに含まれる複数のデータ各々に対して、前記第2時系列データに含まれる複数のデータのうち何れかのデータを対応付け、
前記第1時系列データに含まれる複数のデータ各々に対応付けられた、前記第2時系列データに含まれるデータを用いて、第3時系列データを生成し、
前記第3時系列データを出力する、
処理を前記コンピュータに実行させ、
前記第1時系列データは、複数の単語を含む文を表す身体動作を示し、前記第2時系列データは、前記複数の単語それぞれを表す身体動作を示す時系列データを連結することで生成されることを特徴とするデータ生成プログラム。
【請求項2】
前記何れかのデータを対応付ける処理は、前記第1時系列データと前記第2時系列データとの間で対応付けられた2つのデータの間の相違度の総和が最小になるように、前記第2時系列データに含まれる複数のデータの中から前記何れかのデータを選択する処理を含むことを特徴とする請求項1記載のデータ生成プログラム。
【請求項3】
前記第3時系列データを生成する処理は、
前記第2時系列データから、前記第1時系列データに含まれる複数のデータ各々に対応付けられたデータを抽出する処理と、
抽出されたデータを連結することで前記第3時系列データを生成する処理と、
を含むことを特徴とする請求項1記載のデータ生成プログラム。
【請求項4】
前記抽出されたデータを連結することで前記第3時系列データを生成する処理は、
前記抽出されたデータのうち特定のデータが、前記第1時系列データに含まれる複数のデータのうち特定の複数のデータに対応付けられている場合、前記特定のデータを用いて補間データを生成する処理と、
前記抽出されたデータのうち前記特定のデータと前記特定のデータ以外のデータとの間に、前記補間データを挿入する処理と、
を含むことを特徴とする請求項3記載のデータ生成プログラム。
【請求項5】
前記第3時系列データを、身体動作を単語又は文章に翻訳する機械学習モデルの訓練に用いる訓練データとして出力することを特徴とする請求項1記載のデータ生成プログラム。
【請求項6】
第1時系列データに含まれる複数のデータ各々と、第2時系列データに含まれる複数のデータ各々との間の相違度に基づき、前記第1時系列データに含まれる複数のデータ各々に対して、前記第2時系列データに含まれる複数のデータのうち何れかのデータを対応付ける対応付け部と、
前記第1時系列データに含まれる複数のデータ各々に対応付けられた、前記第2時系列データに含まれるデータを用いて、第3時系列データを生成する生成部と、
前記第3時系列データを出力する出力部とを備え、
前記第1時系列データは、複数の単語を含む文を表す身体動作を示し、前記第2時系列データは、前記複数の単語それぞれを表す身体動作を示す時系列データを連結することで生成されることを特徴とするデータ生成装置。
【請求項7】
第1時系列データに含まれる複数のデータ各々と、第2時系列データに含まれる複数のデータ各々との間の相違度に基づき、前記第1時系列データに含まれる複数のデータ各々に対して、前記第2時系列データに含まれる複数のデータのうち何れかのデータを対応付け、
前記第1時系列データに含まれる複数のデータ各々に対応付けられた、前記第2時系列データに含まれるデータを用いて、第3時系列データを生成し、
前記第3時系列データを出力する、
処理をコンピュータが実行し、
前記第1時系列データは、複数の単語を含む文を表す身体動作を示し、前記第2時系列データは、前記複数の単語それぞれを表す身体動作を示す時系列データを連結することで生成されることを特徴とするデータ生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ生成技術に関する。
【背景技術】
【0002】
近年、手話を日本語に翻訳するAI(Artificial intelligence)の研究が行われている。日本語の手話としては、日本手話及び日本語対応手話の2種類が知られている。日本手話は、ろう者の母語(自然言語)であり、日本語対応手話は、手で表現する日本語(人工言語)である。日本手話の場合、手の動きだけでなく、顔の動き及び表情も文法的な意味を有する。
【0003】
手話に関連して、特定の概念を表す身体の動作に対応した動作映像を編集する映像編集装置が知られている(例えば、特許文献1を参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2008-294973号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
手話には個人差及び地域差があるため、手話を日本語に翻訳する翻訳モデルを機械学習によって生成する場合、機械学習及び評価を行うために、大量の手話映像データを用意することが望ましい。
【0006】
しかしながら、日本手話の大規模なオープンデータは存在しない。また、単語単位であっても十分な量の手話映像データを収集することは難しく、文章単位の手話映像データを大量に収集することはさらに難しい。
【0007】
なお、かかる問題は、手話映像データを用いて翻訳モデルを生成する場合に限らず、身体動作を示す時系列データを様々な用途で用いる場合において生ずるものである。
【0008】
1つの側面において、本発明は、単語を表す身体動作の時系列データから、文を表す身体動作の時系列データを生成することを目的とする。
【課題を解決するための手段】
【0009】
1つの案では、データ生成プログラムは、以下の処理をコンピュータに実行させる。
【0010】
コンピュータは、第1時系列データに含まれる複数のデータ各々と、第2時系列データに含まれる複数のデータ各々との間の相違度に基づき、対応付け処理を行う。対応付け処理は、第1時系列データに含まれる複数のデータ各々に対して、第2時系列データに含まれる複数のデータのうち何れかのデータを対応付ける処理である。
【0011】
第1時系列データは、複数の単語を含む文を表す身体動作を示し、第2時系列データは、複数の単語それぞれを表す身体動作を示す時系列データを連結することで生成される。
【0012】
コンピュータは、第1時系列データに含まれる複数のデータ各々に対応付けられた、第2時系列データに含まれるデータを用いて、第3時系列データを生成する。コンピュータは、第3時系列データを出力する。
【発明の効果】
【0013】
1つの側面によれば、単語を表す身体動作の時系列データから、文を表す身体動作の時系列データを生成することができる。
【図面の簡単な説明】
【0014】
図1】実施形態のデータ生成装置の機能的構成図である。
図2】第1のデータ生成処理のフローチャートである。
図3】モデル生成システムの機能的構成図である。
図4】第1の処理対象データを示す図である。
図5】第1の対応付け結果を示す図である。
図6】第1の合成処理を示す図である。
図7】第2の合成処理を示す図である。
図8】第2の処理対象データを示す図である。
図9】第2の対応付け結果を示す図である。
図10】第3の合成処理を示す図である。
図11】第2のデータ生成処理のフローチャートである。
図12】情報処理装置のハードウェア構成図である。
【発明を実施するための形態】
【0015】
以下、図面を参照しながら、実施形態を詳細に説明する。
【0016】
図1は、実施形態のデータ生成装置の機能的構成例を示している。図1のデータ生成装置101は、対応付け部111、生成部112、及び出力部113を含む。
【0017】
図2は、図1のデータ生成装置101が行う第1のデータ生成処理の例を示すフローチャートである。第1時系列データは、複数の単語を含む文を表す身体動作を示し、第2時系列データは、複数の単語それぞれを表す身体動作を示す時系列データを連結することで生成される。
【0018】
まず、対応付け部111は、第1時系列データに含まれる複数のデータ各々と、第2時系列データに含まれる複数のデータ各々との間の相違度に基づき、対応付け処理を行う(ステップ201)。対応付け処理は、第1時系列データに含まれる複数のデータ各々に対して、第2時系列データに含まれる複数のデータのうち何れかのデータを対応付ける処理である。
【0019】
次に、生成部112は、第1時系列データに含まれる複数のデータ各々に対応付けられた、第2時系列データに含まれるデータを用いて、第3時系列データを生成する(ステップ202)。そして、出力部113は、第3時系列データを出力する(ステップ203)。
【0020】
図1のデータ生成装置101によれば、単語を表す身体動作の時系列データから、文を表す身体動作の時系列データを生成することができる。
【0021】
図3は、図1のデータ生成装置101を含むモデル生成システムの機能的構成例を示している。図3のモデル生成システムは、データ生成装置301及びモデル生成装置302を含む。
【0022】
データ生成装置301は、対応付け部311、生成部312、出力部313、及び記憶部314を含む。データ生成装置301は、図1のデータ生成装置101に対応する。対応付け部311、生成部312、及び出力部313は、図1の対応付け部111、生成部112、及び出力部113にそれぞれ対応する。
【0023】
記憶部314は、手話映像データ321及び映像データ集合322を記憶する。手話映像データ321は、複数の単語を含む文を表す手話動作を行う手話話者を撮影することで取得される。手話動作は、身体動作に対応し、手話映像データ321は、複数の単語を含む文を表す身体動作を示す第1時系列データに対応する。
【0024】
映像データ集合322は、様々な単語を表す手話動作を行う複数の手話話者それぞれを撮影することで取得された、複数の手話映像データを含む。映像データ集合322は、各単語について、複数の手話話者から取得された複数の手話映像データを含んでいてもよい。映像データ集合322に含まれる複数の手話映像データは、複数の単語それぞれを表す身体動作を示す時系列データに対応する。なお、手話映像データ321、映像データ集合322に含まれるデータは、映像データに示されるデータを単語や文章に翻訳する機械学習モデルの訓練に用いられる、特定の単語又は文章を表現する動作の訓練データであってもよい。
【0025】
手話映像データ321と映像データ集合322に含まれる各手話映像データは、時系列の複数の画像データを含む。各画像データは、手話映像の各フレームの画像に対応し、手話動作が行われている期間の各時刻における手話話者の動作を示す。
【0026】
画像データは、各時刻におけるフレームの画素値を表す多次元ベクトルであってもよく、フレームから抽出された画像特徴量を表す多次元ベクトルであってもよい。画像特徴量としては、例えば、手話話者の身体の特徴点の座標を用いることができる。身体の特徴点は、目、口、指の関節、腕の関節等である。
【0027】
画像特徴量は、画素値の統計値であってもよく、HOG(Histograms of Oriented Gradients)、SIFT(Scaled Invariance Feature Transform)、又はSURF(Speeded-Up Robust Features)であってもよい。画像特徴量は、BRIEF(Binary Robust Independent Elementary Features)又は顕著性(Saliency)であってもよい。
【0028】
対応付け部311は、映像データ集合322から、手話映像データ321が示す文に含まれる複数の単語各々を示す手話映像データを選択し、選択された複数の手話映像データを時間方向に連結することで、処理対象データを生成する。処理対象データは、第2時系列データに対応する。
【0029】
対応付け部311は、手話映像データ321に含まれる複数の画像データ各々に対して、処理対象データに含まれる何れかの画像データを対応付ける、対応付け処理を行う。対応付け部311は、例えば、DTW(Dynamic Time Warping)を用いて対応付け処理を行う。DTWは、2つの時系列データの間の相違度又は類似度を計算する方法の1つである。
【0030】
この場合、対応付け部311は、以下に示す条件C1及び条件C2が満たされるように、処理対象データの画像データの中から、手話映像データ321の各画像データに対して対応付けられる画像データを選択する。
【0031】
(C1)手話映像データ321と処理対象データとの間で、画像データの時系列が一致する。
【0032】
(C2)手話映像データ321と処理対象データとの間で対応付けられた2つの画像データの間の相違度の総和が最小になる。
【0033】
条件C1は、手話映像データ321と処理対象データとの間で、画像データの時間的な順序が逆転しないことを表す。条件C2は、手話映像データ321と処理対象データとの間の相違度が最小になることを表す。言い換えれば、条件C2は、手話映像データ321と処理対象データとの間の類似度が最大になることを表す。
【0034】
2つの画像データの間の相違度としては、例えば、一方の画像データを表す多次元ベクトルと他方の画像データを表す多次元ベクトルとの間のベクトル間距離を用いることができる。ベクトル間距離は、ユークリッド距離であってもよく、マンハッタン距離であってもよい。
【0035】
条件C2が満たされるように処理対象データから画像データを選択することで、手話映像データ321に含まれる複数の画像データと、処理対象データに含まれる複数の画像データとを精度良く対応付けることができる。
【0036】
図4は、第1の処理対象データの例を示している。例えば、手話映像データ321が「私は学校に行きます。」という文を示す場合、処理対象データ401は、「私」、「学校」、及び「行く」という3つの単語各々を示す手話映像データを、この順序で連結することで生成される。
【0037】
処理対象データ401は、画像データ411-1~画像データ411-10を含む。画像データ411-1~画像データ411-3は、「私」という単語を示す手話映像データである。画像データ411-4~画像データ411-6は、「学校」という単語を示す手話映像データである。画像データ411-7~画像データ411-10は、「行く」という単語を示す手話映像データである。
【0038】
図5は、第1の対応付け結果の例を示している。図5の対応付け結果は、図4の処理対象データ401及び図5の手話映像データ501に対する対応付け結果を表す。手話映像データ501は、手話映像データ321に対応し、「私は学校に行きます。」という文を示す。手話映像データ501は、画像データ511-1~画像データ511-8を含む。
【0039】
画像データ511-1には、画像データ411-1が対応付けられている。画像データ511-2及び画像データ511-3には、画像データ411-3が対応付けられている。画像データ511-4及び画像データ511-5には、画像データ411-5及び画像データ411-6がそれぞれ対応付けられている。画像データ511-6~画像データ511-8には、画像データ411-8~画像データ411-10がそれぞれ対応付けられている。
【0040】
画像データ411-2、画像データ411-4、及び画像データ411-7は、何れの画像データにも対応付けられていない。
【0041】
DTWを用いて対応付け処理を行うことで、手話映像データ321と処理対象データの長さが異なる場合であっても、それらのデータを対応付けることができる。
【0042】
対応付け部311は、DTWの亜種又は拡張版を用いて対応付け処理を行うこともできる。DTWの亜種としては、例えば、一定以上の時間差を有する2つの画像データの対応付けを抑止する制約を課したDTWを用いることができる。DTWの亜種としては、手話映像データに含まれる最初の所定数の画像データと最後の所定数の画像データとを除外して、残りの画像データを用いて対応付け処理を行うDTWを用いることもできる。
【0043】
DTWの拡張版としては、Fast DTW、Derivative DTW、Weighted DTW等を用いることができる。
【0044】
次に、生成部312は、手話映像データ321に含まれる各画像データに対応付けられた画像データを処理対象データから抽出し、抽出された画像データを連結する、合成処理を行うことで、合成データを生成する。これにより、手話映像データ321と同じ文を示す別の手話映像データを生成することができる。合成データは、第3時系列データに対応する。
【0045】
図6は、第1の合成処理の例を示している。図6の合成処理は、図5の対応付け結果に基づく合成処理である。合成データ601は、画像データ411-1、2つの画像データ411-3、画像データ411-5、画像データ411-6、及び画像データ411-8~画像データ411-10を含む。
【0046】
合成データ601は、「私」、「学校」、及び「行く」という3つの単語各々を示す手話動作を結合した手話動作を示しており、「私は学校に行きます。」という文を示す有効な手話映像データであるため、拡張データとして利用することができる。
【0047】
しかしながら、画像データ411-3のように、同じ画像データが重複して処理対象データから抽出された場合、合成データにおいて同じ画像データが連続している重複部分は、一時停止したような手話映像データになってしまう。特に、多数の同じ画像データが連続している場合、手話映像の停止期間が長くなる。
【0048】
そこで、生成部312は、処理対象データから抽出された特定の画像データが、手話映像データ321に含まれる特定の複数の画像データに対応付けられている場合、補間処理を行うことで、合成データの重複部分を補正してもよい。特定の複数の画像データは、N個以上(Nは2以上の整数)の画像データであってもよい。
【0049】
補間処理において、生成部312は、処理対象データから抽出された特定の画像データを用いて補間データを生成し、特定の画像データと特定の画像データ以外の画像データとの間に補間データを挿入する。補間データの生成方法は、線形補間であってもよく、非線形補間であってもよい。補間データを挿入することで、滑らかな手話動作を示すように合成データを補正することができる。
【0050】
図7は、第2の合成処理の例を示している。手話映像データ701は、手話映像データ321に対応し、画像データ711-1~画像データ711-6を含む。処理対象データ702は、手話映像データ701が示す文に含まれる各単語を示す手話映像データを連結することで生成され、画像データ712-1~画像データ712-9を含む。各画像データ712-i(i=1~9)の矩形内の数字は、画像データの値を表す。
【0051】
画像データ711-1~画像データ711-4には、画像データ712-2が対応付けられている。画像データ711-5及び画像データ711-6には、画像データ712-8及び画像データ712-9がそれぞれ対応付けられている。画像データ712-2は、特定の画像データに対応し、画像データ711-1~画像データ711-4は、特定の複数の画像データに対応する。
【0052】
処理対象データ702から、画像データ711-1~画像データ711-6それぞれに対応付けられた画像データ712-iを抽出して、単純に連結した場合、合成データ703が生成される。合成データ703は、4個の画像データ712-2、画像データ712-8、及び画像データ712-9を含む。
【0053】
この場合、画像データ712-2が連続している重複部分は、一時停止したような手話映像データになってしまう。そこで、生成部312は、画像データ712-2の値“3”と画像データ712-8の値“1”とを用いて線形補間を行うことで、補間データ713-1~補間データ713-3を生成する。補間データ713-1~補間データ713-3の値は、それぞれ、“2.5”、“2”、及び“1.5”である。画像データ712-8は、特定の画像データ以外の画像データに対応する。
【0054】
次に、生成部312は、画像データ712-2と画像データ712-8の間に補間データ713-1~補間データ713-3を挿入することで、合成データ704を生成する。合成データ704は、合成データ703の2番目~4番目の画像データ712-2を補間データ713-1~補間データ713-3に置き換えた手話映像データである。
【0055】
図8は、第2の処理対象データの例を示している。手話映像データ801は、手話映像データ321に対応し、画像データ811-1~画像データ811-8を含む。処理対象データ802は、手話映像データ801が示す文に含まれる各単語を示す手話映像データを連結することで生成され、画像データ812-1~画像データ812-8を含む。各画像データの矩形内の数字は、画像データの値を表す。
【0056】
図9は、第2の対応付け結果の例を示している。図9(a)は、図8の手話映像データ801及び処理対象データ802に対する1つの対応付け結果を示している。画像データ811-1~画像データ811-8には、画像データ812-1~画像データ812-8がそれぞれ対応付けられている。
【0057】
画像データ811-i(i=1~8)と画像データ812-j(j=1~8)との間の相違度d(i,j)として、画像データ811-iの値と画像データ812-jの値との差分の絶対値を用いた場合、相違度の総和Sは次式により計算される。
【0058】
S=d(1,1)+d(2,2)+d(3,3)+d(4,4)+d(5,5)
+d(6,6)+d(7,7)+d(8,8)
=0+1+3+6+2+7+0+2
=21 (1)
【0059】
図9(b)は、図8の手話映像データ801及び処理対象データ802に対する別の対応付け結果を示している。画像データ811-1及び画像データ811-2には、画像データ812-1及び画像データ812-2がそれぞれ対応付けられている。画像データ811-3~画像データ811-5には、画像データ812-5~画像データ812-7がそれぞれ対応付けられている。画像データ811-6~画像データ811-8には、画像データ812-8が対応付けられている。
【0060】
画像データ812-3及び画像データ814-4は、何れの画像データにも対応付けられていない。この場合、相違度の総和Sは次式により計算される。
【0061】
S=d(1,1)+d(2,2)+d(3,5)+d(4,6)+d(5,7)
+d(6,8)+d(7,8)+d(8,8)
=0+1+1+1+2+0+1+2
=8 (2)
【0062】
したがって、図9(a)の対応付け結果における総和Sよりも、図9(b)の対応付け結果における総和Sの方が小さいため、最終的には図9(b)の対応付け結果が採用される。
【0063】
図10は、第3の合成処理の例を示している。図10の合成処理は、図9(b)の対応付け結果に基づく合成処理である。画像データ812-8は、特定の画像データに対応し、画像データ811-6~画像データ811-8は、特定の複数の画像データに対応する。
【0064】
処理対象データ802から、画像データ811-1~画像データ811-8それぞれに対応付けられた画像データ812-jを抽出して、単純に連結した場合、合成データ803が生成される。合成データ803は、画像データ812-1、画像データ812-2、画像データ812-5~画像データ812-7、及び3つの画像データ812-8を含む。
【0065】
この場合、画像データ812-8が連続している重複部分は、一時停止したような手話映像データになってしまう。そこで、生成部312は、画像データ812-7の値“2”と画像データ812-8の値“1”とを用いて線形補間を行うことで、補間データ813-1及び補間データ813-2を生成する。補間データ813-1及び補間データ813-2の値は、それぞれ、“1.6”及び“1.3”である。画像データ812-7は、特定の画像データ以外の画像データに対応する。
【0066】
次に、生成部312は、画像データ812-7と画像データ812-8の間に補間データ813-1及び補間データ813-2を挿入することで、合成データ804を生成する。合成データ804は、合成データ803の1番目及び2番目の画像データ812-8を補間データ813-1及び補間データ813-2に置き換えた手話映像データである。
【0067】
生成部312は、合成処理により生成された合成データを拡張データとして含む映像データ集合323を生成し、記憶部314に格納する。
【0068】
データ生成装置301は、手話映像データ321が示す文に含まれる各単語を示す手話映像データを映像データ集合322からランダムに選択し、対応付け処理及び合成処理を行って合成データを生成する処理を繰り返す。これにより、複数の拡張データが映像データ集合323に追加される。出力部313は、複数の拡張データを含む映像データ集合323を、モデル生成装置302へ出力する。
【0069】
モデル生成装置302は、データ生成装置301から出力される映像データ集合323を機械学習の訓練データとして用いて、機械学習モデルを訓練することで、手話を日本語(単語や文章)に翻訳する翻訳モデルを生成する。この場合、手話映像データ321が示す手話動作によって表現される文が、訓練データに対する正解ラベルとして用いられる。
【0070】
図3のモデル生成システムによれば、手話映像データ321を用意するだけで、それ以上の映像収集作業を行うことなく、手話映像データのバリエーションを増やすことができる。それぞれ異なる文を示す複数の手話映像データ321を用意して、各手話映像データ321に対する拡張データを生成することも可能である。各手話映像データ321が示す文に含まれる複数の単語それぞれを示す手話映像データの組み合わせを変更することで、その文を示す大量の手話映像データを効率良く生成することができる。
【0071】
さらに、大量の手話映像データを用いて機械学習を行うことで、生成される翻訳モデルの精度が向上する。
【0072】
図11は、図3のデータ生成装置301が行う第2のデータ生成処理の例を示すフローチャートである。まず、対応付け部311は、映像データ集合322から、手話映像データ321が示す文に含まれる各単語を示す手話映像データを選択し、選択された複数の手話映像データを連結することで、処理対象データを生成する(ステップ1101)。
【0073】
次に、対応付け部311は、手話映像データ321に含まれる各画像データに対して、処理対象データに含まれる何れかの画像データを対応付ける、対応付け処理を行う(ステップ1102)。
【0074】
次に、生成部312は、手話映像データ321に含まれる各画像データに対応付けられた画像データを処理対象データから抽出し、抽出された画像データを連結する、合成処理を行うことで、合成データを生成する(ステップ1103)。そして、生成部312は、合成データを拡張データとして映像データ集合323に追加する。
【0075】
処理対象データから抽出された特定の画像データが、手話映像データ321に含まれるN個以上の画像データに対応付けられている場合、ステップ1103において、生成部312は、補間処理を行うことで、補間データを含む合成データを生成する。
【0076】
次に、生成部312は、追加された拡張データの個数をK(Kは1以上の整数)と比較する(ステップ1104)。拡張データの個数がK個未満である場合(ステップ1104,NO)、データ生成装置301は、手話映像データ321が示す文に含まれる各単語を示す手話映像データの別の組み合わせについて、ステップ1101以降の処理を繰り返す。
【0077】
拡張データの個数がK個に達した場合(ステップ1104,YES)、出力部313は、映像データ集合323をモデル生成装置302へ出力する(ステップ1105)。
【0078】
図1のデータ生成装置101の構成は一例に過ぎず、データ生成装置101の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。
【0079】
図3のモデル生成システムの構成は一例に過ぎず、モデル生成システムの用途又は条件に応じて一部の構成要素を省略又は変更してもよい。例えば、モデル生成装置302は、データ生成装置301から出力される映像データ集合323を用いて、翻訳以外の情報処理を行う学習済みモデルを生成してもよい。
【0080】
図2及び図11のフローチャートは一例に過ぎず、データ生成装置101又はモデル生成システムの構成又は条件に応じて、一部の処理を省略又は変更してもよい。
【0081】
図4図10に示した手話映像データ及び処理対象データは一例に過ぎず、手話映像データ及び処理対象データは、手話動作に応じて変化する。
【0082】
式(1)及び式(2)は一例に過ぎず、データ生成装置301は、別の計算式を用いてデータ生成処理を行ってもよい。
【0083】
図12は、図1のデータ生成装置101及び図3のデータ生成装置301として用いられる情報処理装置(コンピュータ)のハードウェア構成例を示している。図12の情報処理装置は、CPU(Central Processing Unit)1201、メモリ1202、入力装置1203、出力装置1204、補助記憶装置1205、媒体駆動装置1206、及びネットワーク接続装置1207を含む。これらの構成要素はハードウェアであり、バス1208により互いに接続されている。
【0084】
メモリ1202は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)等の半導体メモリであり、処理に用いられるプログラム及びデータを記憶する。メモリ1202は、図3の記憶部314として動作してもよい。
【0085】
CPU1201(プロセッサ)は、例えば、メモリ1202を利用してプログラムを実行することにより、図1の対応付け部111及び生成部112として動作する。CPU1201は、メモリ1202を利用してプログラムを実行することにより、図3の対応付け部311及び生成部312としても動作する。
【0086】
入力装置1203は、例えば、キーボード、ポインティングデバイス等であり、ユーザ又はオペレータからの指示又は情報の入力に用いられる。出力装置1204は、例えば、表示装置、プリンタ等であり、ユーザ又はオペレータへの問い合わせ又は指示、及び処理結果の出力に用いられる。出力装置1204は、図1の出力部113として動作してもよい。
【0087】
補助記憶装置1205は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。補助記憶装置1205は、ハードディスクドライブであってもよい。情報処理装置は、補助記憶装置1205にプログラム及びデータを格納しておき、それらをメモリ1202にロードして使用することができる。補助記憶装置1205は、図3の記憶部314として動作してもよい。
【0088】
媒体駆動装置1206は、可搬型記録媒体1209を駆動し、その記録内容にアクセスする。可搬型記録媒体1209は、メモリデバイス、フレキシブルディスク、光ディスク、光磁気ディスク等である。可搬型記録媒体1209は、CD-ROM(Compact Disk Read Only Memory)、DVD(Digital Versatile Disk)、USB(Universal Serial Bus)メモリ等であってもよい。ユーザ又はオペレータは、可搬型記録媒体1209にプログラム及びデータを格納しておき、それらをメモリ1202にロードして使用することができる。
【0089】
このように、処理に用いられるプログラム及びデータを格納するコンピュータ読み取り可能な記録媒体は、メモリ1202、補助記憶装置1205、又は可搬型記録媒体1209のような、物理的な(非一時的な)記録媒体である。
【0090】
ネットワーク接続装置1207は、WAN(Wide Area Network)、LAN(Local Area Network)等の通信ネットワークに接続され、通信に伴うデータ変換を行う通信インタフェース回路である。情報処理装置は、プログラム及びデータを外部の装置からネットワーク接続装置1207を介して受信し、それらをメモリ1202にロードして使用することができる。ネットワーク接続装置1207は、図1の出力部113又は図3の出力部313として動作してもよい。
【0091】
図3のモデル生成装置302としては、図12と同様の情報処理装置を用いることができる。
【0092】
なお、情報処理装置が図12のすべての構成要素を含む必要はなく、情報処理装置の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。例えば、ユーザ又はオペレータとのインタフェースが不要な場合は、入力装置1203及び出力装置1204を省略することができる。可搬型記録媒体1209又は通信ネットワークを使用しない場合は、媒体駆動装置1206又はネットワーク接続装置1207を省略することができる。
【0093】
開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。
【0094】
図1乃至図12を参照しながら説明した実施形態に関し、さらに以下の付記を開示する。
(付記1)
コンピュータのためのデータ生成プログラムであって、
前記データ生成プログラムは、
第1時系列データに含まれる複数のデータ各々と、第2時系列データに含まれる複数のデータ各々との間の相違度に基づき、前記第1時系列データに含まれる複数のデータ各々に対して、前記第2時系列データに含まれる複数のデータのうち何れかのデータを対応付け、
前記第1時系列データに含まれる複数のデータ各々に対応付けられた、前記第2時系列データに含まれるデータを用いて、第3時系列データを生成し、
前記第3時系列データを出力する、
処理を前記コンピュータに実行させ、
前記第1時系列データは、複数の単語を含む文を表す身体動作を示し、前記第2時系列データは、前記複数の単語それぞれを表す身体動作を示す時系列データを連結することで生成されることを特徴とするデータ生成プログラム。
(付記2)
前記何れかのデータを対応付ける処理は、前記第1時系列データと前記第2時系列データとの間で対応付けられた2つのデータの間の相違度の総和が最小になるように、前記第2時系列データに含まれる複数のデータの中から前記何れかのデータを選択する処理を含むことを特徴とする付記1記載のデータ生成プログラム。
(付記3)
前記第3時系列データを生成する処理は、
前記第2時系列データから、前記第1時系列データに含まれる複数のデータ各々に対応付けられたデータを抽出する処理と、
抽出されたデータを連結することで前記第3時系列データを生成する処理と、
を含むことを特徴とする付記1記載のデータ生成プログラム。
(付記4)
前記抽出されたデータを連結することで前記第3時系列データを生成する処理は、
前記抽出されたデータのうち特定のデータが、前記第1時系列データに含まれる複数のデータのうち特定の複数のデータに対応付けられている場合、前記特定のデータを用いて補間データを生成する処理と、
前記抽出されたデータのうち前記特定のデータと前記特定のデータ以外のデータとの間に、前記補間データを挿入する処理と、
を含むことを特徴とする付記3記載のデータ生成プログラム。
(付記5)
前記第3時系列データを、身体動作を単語又は文章に翻訳する機械学習モデルの訓練に用いる訓練データとして出力することを特徴とする付記1記載のデータ生成プログラム。
(付記6)
前記文を表す身体動作と前記複数の単語それぞれを表す身体動作は、手話動作であることを特徴とする付記1乃至5の何れか1項に記載のデータ生成プログラム。
(付記7)
第1時系列データに含まれる複数のデータ各々と、第2時系列データに含まれる複数のデータ各々との間の相違度に基づき、前記第1時系列データに含まれる複数のデータ各々に対して、前記第2時系列データに含まれる複数のデータのうち何れかのデータを対応付ける対応付け部と、
前記第1時系列データに含まれる複数のデータ各々に対応付けられた、前記第2時系列データに含まれるデータを用いて、第3時系列データを生成する生成部と、
前記第3時系列データを出力する出力部とを備え、
前記第1時系列データは、複数の単語を含む文を表す身体動作を示し、前記第2時系列データは、前記複数の単語それぞれを表す身体動作を示す時系列データを連結することで生成されることを特徴とするデータ生成装置。
(付記8)
前記対応付け部は、前記第1時系列データと前記第2時系列データとの間で対応付けられた2つのデータの間の相違度の総和が最小になるように、前記第2時系列データに含まれる複数のデータの中から前記何れかのデータを選択することを特徴とする付記7記載のデータ生成装置。
(付記9)
前記生成部は、前記第2時系列データから、前記第1時系列データに含まれる複数のデータ各々に対応付けられたデータを抽出し、抽出されたデータを連結することで前記第3時系列データを生成することを特徴とする付記7記載のデータ生成装置。
(付記10)
前記生成部は、前記抽出されたデータのうち特定のデータが、前記第1時系列データに含まれる複数のデータのうち特定の複数のデータに対応付けられている場合、前記特定のデータを用いて補間データを生成し、前記抽出されたデータのうち前記特定のデータと前記特定のデータ以外のデータとの間に、前記補間データを挿入することを特徴とする付記9記載のデータ生成装置。
(付記11)
前記出力部は、前記第3時系列データを、身体動作を単語又は文章に翻訳する機械学習モデルの訓練に用いる訓練データとして出力することを特徴とする付記7記載のデータ生成装置。
(付記12)
前記文を表す身体動作と前記複数の単語それぞれを表す身体動作は、手話動作であることを特徴とする付記7乃至11の何れか1項に記載のデータ生成装置。
(付記13)
第1時系列データに含まれる複数のデータ各々と、第2時系列データに含まれる複数のデータ各々との間の相違度に基づき、前記第1時系列データに含まれる複数のデータ各々に対して、前記第2時系列データに含まれる複数のデータのうち何れかのデータを対応付け、
前記第1時系列データに含まれる複数のデータ各々に対応付けられた、前記第2時系列データに含まれるデータを用いて、第3時系列データを生成し、
前記第3時系列データを出力する、
処理をコンピュータが実行し、
前記第1時系列データは、複数の単語を含む文を表す身体動作を示し、前記第2時系列データは、前記複数の単語それぞれを表す身体動作を示す時系列データを連結することで生成されることを特徴とするデータ生成方法。
(付記14)
前記何れかのデータを対応付ける処理は、前記第1時系列データと前記第2時系列データとの間で対応付けられた2つのデータの間の相違度の総和が最小になるように、前記第2時系列データに含まれる複数のデータの中から前記何れかのデータを選択する処理を含むことを特徴とする付記13記載のデータ生成方法。
(付記15)
前記第3時系列データを生成する処理は、
前記第2時系列データから、前記第1時系列データに含まれる複数のデータ各々に対応付けられたデータを抽出する処理と、
抽出されたデータを連結することで前記第3時系列データを生成する処理と、
を含むことを特徴とする付記13記載のデータ生成方法。
(付記16)
前記抽出されたデータを連結することで前記第3時系列データを生成する処理は、
前記抽出されたデータのうち特定のデータが、前記第1時系列データに含まれる複数のデータのうち特定の複数のデータに対応付けられている場合、前記特定のデータを用いて補間データを生成する処理と、
前記抽出されたデータのうち前記特定のデータと前記特定のデータ以外のデータとの間に、前記補間データを挿入する処理と、
を含むことを特徴とする付記15記載のデータ生成方法。
(付記17)
前記第3時系列データを、身体動作を単語又は文章に翻訳する機械学習モデルの訓練に用いる訓練データとして出力することを特徴とする付記13記載のデータ生成方法。
(付記18)
前記文を表す身体動作と前記複数の単語それぞれを表す身体動作は、手話動作であることを特徴とする付記13乃至17の何れか1項に記載のデータ生成方法。
【符号の説明】
【0095】
101、301 データ生成装置
111、311 対応付け部
112、312 生成部
113、313 出力部
302 モデル生成装置
314 記憶部
321、501、701、801 手話映像データ
322、323 映像データ集合
401、702、802 処理対象データ
411-1~411-10、511-1~511-8、711-1~711-6、712-1~712-9、811-1~811-8、812-1~812-8 画像データ
601、703、704、803、804 合成データ
713-1~713-3、813-1、813-2 補間データ
1201 CPU
1202 メモリ
1203 入力装置
1204 出力装置
1205 補助記憶装置
1206 媒体駆動装置
1207 ネットワーク接続装置
1208 バス
1209 可搬型記録媒体
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12