特開2024-21935 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＮＥＣソリューションイノベータ株式会社の特許一覧

特開2024-21935手話翻訳処理装置、手話翻訳処理システム、手話翻訳処理方法、プログラム、及び記録媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024021935

(43)【公開日】2024-02-16

(54)【発明の名称】手話翻訳処理装置、手話翻訳処理システム、手話翻訳処理方法、プログラム、及び記録媒体

(51)【国際特許分類】

G06T 7/20 20170101AFI20240208BHJP

G06T 7/70 20170101ALI20240208BHJP

G06V 40/20 20220101ALI20240208BHJP

G09B 21/00 20060101ALI20240208BHJP

【ＦＩ】

G06T7/20 300A

G06T7/70 A

G06V40/20

G09B21/00 F

【審査請求】有

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2022125151

(22)【出願日】2022-08-05

(71)【出願人】

【識別番号】000232092

【氏名又は名称】ＮＥＣソリューションイノベータ株式会社

(74)【代理人】

【識別番号】100115255

【弁理士】

【氏名又は名称】辻丸光一郎

(74)【代理人】

【識別番号】100201732

【弁理士】

【氏名又は名称】松縄正登

(74)【代理人】

【識別番号】100154081

【弁理士】

【氏名又は名称】伊佐治創

(74)【代理人】

【識別番号】100227019

【弁理士】

【氏名又は名称】安修央

(72)【発明者】

【氏名】岡田浩臣

(72)【発明者】

【氏名】樋口祐樹

(72)【発明者】

【氏名】山本恭聖

(72)【発明者】

【氏名】山本天斗

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA06

5L096CA04

5L096FA69

(57)【要約】（修正有）

【課題】高精度で手話翻訳をする手話翻訳処理装置及び手話翻訳処理システムを提供する。
【解決手段】手話翻訳処理装置において、中央処理装置は、手を含む身体の経時的に撮像された複数の時系列画像を取得する画像取得部と、前記取得した画像から手の骨格座標を含む手の骨格情報を取得する手骨格情報取得部と、前記取得した画像から身体の骨格座標を含む身体の骨格情報を取得する身体骨格情報取得部と、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出する情報統合部と、前記統合して算出した前記手の骨格の位置及び前記手の位置並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定する動作認識部と、を有する。
【選択図】図２

【特許請求の範囲】

【請求項1】

画像取得部、手骨格情報取得部、身体骨格情報取得部、情報統合部、及び動作認識部を含み、
前記画像取得部は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得部は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得部は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合部は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識部は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定する、
手話翻訳処理装置。

【請求項2】

さらに、出力部を含み、
前記出力部は、前記手話単語を文字又は音声によりユーザ端末装置に出力する、請求項１記載の手話翻訳処理装置。

【請求項3】

前記手の骨格座標は、手の骨格検出モデルを用いて検出され、
前記身体の骨格座標は、身体骨格検出モデルを用いて検出され、
前記手の動作情報は、動作認識モデルを用いて認識される、
請求項１又は２記載の手話翻訳処理装置。

【請求項4】

さらに、補正部を含み、
前記手の骨格情報は、さらに、手の検出領域座標を含み、
前記補正部は、前記手の骨格座標から前記手の検出領域座標を補正する、
請求項１又は２記載の手話翻訳処理装置。

【請求項5】

前記手の検出領域座標は、手の検出モデルを用いて検出される、
請求項４記載の手話翻訳処理装置。

【請求項6】

さらに、手の動作情報と手話単語とを紐づけて記憶する記憶部を含み、
前記動作認識部は、前記手の動作情報と、前記紐づけて記憶された手の動作情報及び手話単語とから、手話単語を推定する、
請求項１又は２記載の手話翻訳処理装置。

【請求項7】

手話翻訳処理装置、及びユーザ端末を含み、
前記手話翻訳処理装置が、請求項１又は２記載の手話翻訳処理装置であり、
前記ユーザ端末が、手を含む身体の画像を取得可能であり、
前記画像は、経時的に撮像された複数の時系列画像である、
手話翻訳処理システム。

【請求項8】

画像取得工程、手骨格情報取得工程、身体骨格情報取得工程、情報統合工程、及び動作認識工程を含み、
前記画像取得工程は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得工程は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得工程は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合工程は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識工程は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定する、
手話翻訳処理方法。

【請求項9】

画像取得手順、手骨格情報取得手順、身体骨格情報取得手順、情報統合手順、及び動作認識手順を含み、
前記画像取得手順は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得手順は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得手順は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合手順は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識手順は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定し、
前記各手順をコンピュータに実行させるためのプログラム。

【請求項10】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、手話翻訳処理装置、手話翻訳処理システム、手話翻訳処理方法、プログラム、及び記録媒体に関する。

【背景技術】

【0002】

ろう者と聴者とが会話をする手段として、例えば、特許文献１には、手話情報を音声又は文字に変換するものがある。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２００５‐１９７８８９号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

ここで、特許文献１に記載の発明は、手話パターンライブラリを参照して手話情報を音声又は文字に変換するものである。手話パターンライブラリを参照する場合、性別や背丈、衣服の色などの多種多様なパターンを想定した手話パターンを取得する必要がある。このとき、例えば、ライブラリに保存されたパターンと相違する手話情報が入力された場合、その翻訳精度は低下するという課題がある。

【0005】

そこで、本発明は、高精度で手話翻訳をするための、手話翻訳処理装置、手話翻訳処理システム、手話翻訳処理方法、プログラム、及び記録媒体の提供を目的とする。

【課題を解決するための手段】

【0006】

前記目的を達成するために、本発明の手話翻訳処理装置は、
画像取得部、手骨格情報取得部、身体骨格情報取得部、情報統合部、及び動作認識部を含み、
前記画像取得部は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得部は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得部は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合部は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識部は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定する。

【0007】

本発明の手話翻訳処理システムは、
手話翻訳処理装置、及びユーザ端末を含み、
前記手話翻訳処理装置が、本発明の前記手話翻訳処理装置であり、
前記ユーザ端末が、手を含む身体の画像を取得可能であり、
前記画像は、経時的に撮像された複数の時系列画像である。

【0008】

本発明の手話翻訳処理方法は、
画像取得工程、手骨格情報取得工程、身体骨格情報取得工程、情報統合工程、及び動作認識工程を含み、
前記画像取得工程は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得工程は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得工程は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合工程は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識工程は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定する。

【0009】

本発明のプログラムは、
画像取得手順、手骨格情報取得手順、身体骨格情報取得手順、情報統合手順、及び動作認識手順を含み、
前記画像取得手順は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得手順は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得手順は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合手順は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識手順は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定し、
前記各手順をコンピュータに実行させるためのプログラムである。

【0010】

本発明の記録媒体は、前記本発明のプログラムを記録したコンピュータ読み取り可能な記録媒体である。

【発明の効果】

【0011】

本発明によれば、高精度で手話翻訳をすることができる。

【図面の簡単な説明】

【0012】

【図1】図１は、実施形態１の手話翻訳処理装置の一例の構成を示すブロック図である。

【図2】図２は、実施形態１の手話翻訳処理装置のハードウェア構成の一例を示すブロック図である。

【図3】図３は、実施形態１の手話翻訳処理装置における処理の一例を示すフローチャートである。

【図4】図４は、実施形態２の手話翻訳処理装置の一例の構成を示すブロック図である。

【図5】図５は、実施形態２の手話翻訳処理装置のハードウェア構成の一例を示すブロック図である。

【図6】図６は、実施形態２の手話翻訳処理装置における処理の一例を示すフローチャートである。

【図7】図７は、実施形態４の手話翻訳処理システムの一例を示す説明図である。

【発明を実施するための形態】

【0013】

つぎに、本発明の実施形態について図を用いて説明する。本発明は、以下の実施形態には限定されない。以下の各図において、同一部分には、同一符号を付している。また、各実施形態の説明は、特に言及がない限り、互いの説明を援用でき、各実施形態の構成は、特に言及がない限り、組合せ可能である。

【0014】

［実施形態１］
図１は、本実施形態の手話翻訳処理装置１０の一例の構成を示すブロック図である。図１に示すように、本装置１０は、画像取得部１１、手骨格情報取得部１２、身体骨格情報取得部１３、情報統合部１４、及び動作認識部１５を含む。

【0015】

本装置１０は、例えば、前記各部を含む１つの装置でもよいし、前記各部が、通信回線網を介して接続可能な装置でもよい。また、本装置１０は、前記通信回線網を介して、後述する外部装置と接続可能である。前記通信回線網は、特に制限されず、公知のネットワークを使用でき、例えば、有線でも無線でもよい。前記通信回線網は、例えば、インターネット回線、ＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）、電話回線、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＳＡＮ（ＳｔｏｒａｇｅＡｒｅａＮｅｔｗｏｒｋ）、ＤＴＮ（ＤｅｌａｙＴｏｌｅｒａｎｔＮｅｔｗｏｒｋｉｎｇ）、ＬＰＷＡ（ＬｏｗＰｏｗｅｒＷｉｄｅＡｒｅａ）、Ｌ５Ｇ（ローカル５Ｇ）、等があげられる。無線通信としては、例えば、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ローカル５Ｇ、ＬＰＷＡ等が挙げられる。前記無線通信としては、各装置が直接通信する形態（ＡｄＨｏｃ通信）、インフラストラクチャ（infrastructure通信）、アクセスポイントを介した間接通信等であってもよい。本装置１０は、例えば、システムとしてサーバに組み込まれていてもよい。また、本装置１０は、例えば、本発明のプログラムがインストールされたパーソナルコンピュータ（ＰＣ、例えば、デスクトップ型、ノート型）、スマートフォン、タブレット端末等であってもよい。本装置１０は、例えば、前記各部のうち少なくとも一つがサーバ上にあり、その他の前記各部が端末上にあるような、クラウドコンピューティングやエッジコンピューティング等の形態であってもよい。

【0016】

図２に、本装置１０のハードウェア構成のブロック図を例示する。本装置１０は、例えば、中央処理装置（ＣＰＵ、ＧＰＵ等）１０１、メモリ１０２、バス１０３、記憶装置１０４、入力装置１０５、出力装置１０６、通信デバイス１０７等を含む。本装置１０の各部は、それぞれのインタフェース（Ｉ／Ｆ）により、バス１０３を介して相互に接続されている。

【0017】

中央処理装置１０１は、コントローラ（システムコントローラ、Ｉ／Ｏコントローラ等）等により、他の構成と連携動作し、本装置１０の全体の制御を担う。本装置１０において、中央処理装置１０１により、例えば、本発明のプログラムやその他のプログラムが実行され、また、各種情報の読み込みや書き込みが行われる。具体的には、例えば、中央処理装置１０１が、画像取得部１１、手骨格情報取得部１２、身体骨格情報取得部１３、情報統合部１４、及び動作認識部１５として機能する。中央処理装置１０１は、演算装置として、ＣＰＵ、ＧＰＵ（Graphics Processing Unit）、ＡＰＵ（Accelerated Processing Unit）等の演算装置を備えてもよいし、これらの組合せを備えてもよい。

【0018】

バス１０３は、例えば、外部装置とも接続できる。前記外部装置は、例えば、外部記憶装置（外部データベース等）、プリンタ、外部入力装置、外部表示装置、外部撮像装置等があげられる。本装置１０は、例えば、バス１０３に接続された通信デバイス１０７により、外部ネットワーク（前記通信回線網）に接続でき、外部ネットワークを介して、他の装置と接続することもできる。

【0019】

メモリ１０２は、例えば、メインメモリ（主記憶装置）が挙げられる。中央処理装置１０１が処理を行う際には、例えば、後述する記憶装置１０４に記憶されている本発明のプログラム等の種々の動作プログラムを、メモリ１０２が読み込み、中央処理装置１０１は、メモリ１０２からデータを受け取って、プログラムを実行する。前記メインメモリは、例えば、ＲＡＭ（ランダムアクセスメモリ）である。また、メモリ１０２は、例えば、ＲＯＭ（読み出し専用メモリ）であってもよい。

【0020】

記憶装置１０４は、例えば、前記メインメモリ（主記憶装置）に対して、いわゆる補助記憶装置ともいう。前述のように、記憶装置１０４には、本発明のプログラムを含む動作プログラムが格納されている。記憶装置１０４は、例えば、記録媒体と、記録媒体に読み書きするドライブとの組合せであってもよい。前記記録媒体は、特に制限されず、例えば、内蔵型でも外付け型でもよく、ＨＤ（ハードディスク）、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＣＤ－ＲＷ、ＭＯ、ＤＶＤ、フラッシュメモリー、メモリーカード等が挙げられる。記憶装置１０４は、例えば、記録媒体とドライブとが一体化されたハードディスクドライブ（ＨＤＤ）、及びソリッドステートドライブ（ＳＳＤ）であってもよい。

【0021】

本装置１０において、メモリ１０２及び記憶装置１０４は、ログ情報、外部データベース（図示せず）や外部の装置から取得した情報、本装置１０によって生成した情報、本装置１０が処理を実行する際に用いる情報等の種々の情報を記憶することも可能である。この場合、メモリ１０２及び記憶装置１０４は、例えば、手の動作情報と手話会話とを紐づけて記憶していてもよい。なお、少なくとも一部の情報は、例えば、メモリ１０２及び記憶装置１０４以外の外部サーバに記憶されていてもよいし、複数の端末にブロックチェーン技術等を用いて分散して記憶されていてもよい。

【0022】

本装置１０は、例えば、さらに、入力装置１０５、出力装置１０６を備える。入力装置１０５は、例えば、タッチパネル、トラックパッド、マウス等のポインティングデバイス；キーボード；カメラ、スキャナ等の撮像手段；ＩＣカードリーダ、磁気カードリーダ等のカードリーダ；マイク等の音声入力手段；等があげられる。出力装置１０６は、例えば、ＬＥＤ（ｌｉｇｈｔ-ｅｍｉｔｔｉｎｇｄｉｏｄｅ）ディスプレイ、液晶ディスプレイ等の表示装置；スピーカ等の音声出力装置；プリンタ；等があげられる。本実施形態１において、入力装置１０５と出力装置１０６とは、別個に構成されているが、入力装置１０５と出力装置１０６とは、タッチパネルディスプレイのように、一体として構成されてもよい。

【0023】

つぎに、本実施形態の手話翻訳処理方法の一例を、図３のフローチャートＳ１０に基づき説明する。本実施形態の手話翻訳処理方法は、例えば、図１又は図２の装置１０を用いて、次のように実施する。なお、本実施形態の手話翻訳処理方法は、図１又は図２の装置１０の使用には限定されない。

【0024】

まず、画像取得部１１により、手を含む身体の画像を取得する（Ｓ１１）。ここで、前記画像は、経時的に撮像された複数の時系列画像である。前記身体は、例えば、上半身及び下半身を含む全身でも良いし、上半身のみでもよい。ここで、前記画像の取得は、例えば、本装置１０が備えるカメラなどにより行ってもよいし、本装置１０以外のカメラなどが取得した画像を、通信デバイス１０７を介して取得してもよい。前記画像の取得は、例えば、１フレーム毎に行われる。なお、本発明において「手」という場合は、特に断りがない限り、両手でも良いし、片手でも良い。

【0025】

つぎに、手骨格情報取得部１２により、前記取得した画像から手の骨格情報を取得する（Ｓ１２）。前記手の骨格情報は、手の骨格座標を含む。前記手の骨格情報は、例えば、従来公知の方法により検出し、取得することができる。前記手の骨格は、例えば、手の関節を含む。前記手の骨格座標は、例えば、手の骨格検出モデルを用いて取得しても良い。

【0026】

また、身体骨格情報取得部１３により、前記取得した画像から身体の骨格情報を取得する（Ｓ１３）。前記身体の骨格情報は、身体の骨格座標を含む。前記身体の骨格情報は、例えば、従来公知の方法により検出し、取得することができる。前記身体の骨格座標は、例えば、身体の骨格検出モデルを用いて取得しても良い図３において、図示していないが、例えば、Ｓ１３で取得した身体の骨格座標を保存してもよい。Ｓ１３で取得した身体の骨格座標を保存しておけば、例えば、次フレームで身体の骨格情報を取得する際、保存した身体の骨格座標と次フレームの身体の画像とを統合して、次フレームの身体の骨格座標を取得することができる。このようにすれば、次フレーム以降の身体の骨格座標の取得精度が向上する。

【0027】

なお、図３においては、手を含む身体の画像を取得した後（Ｓ１１）、手の骨格情報の取得（Ｓ１２）と、身体の骨格情報の取得（Ｓ１３）とを、それぞれ同時並行して実施しているが、これはあくまでも例示であり、例えば、手の骨格情報を取得した後に身体の骨格情報を取得しても良く、又は、身体の骨格情報を取得した後に手の骨格情報を取得してもよい。

【0028】

つぎに、情報統合部１４により、前記手の骨格情報及び前記身体の骨格情報を統合する（Ｓ１４）。前記統合した情報をもとに、身体における手の骨格の位置及び手の位置を算出する（Ｓ１５）。

【0029】

つぎに、動作認識部１５により、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定する（Ｓ１６）。前記手話は、特に限定されないが、例えば、日本手話、日本語対応手話、及び中間型手話等があげられる。世界各国で使用されている手話であってもよい。前記手話単語の推定は、例えば、従来公知の方法によりすることができる。前記手の動作情報の認識は、例えば、動作認識モデルを用いて認識してもよい。

【0030】

さらに、本装置１０が、例えば、出力部を含む場合（図示せず）、前記出力部は、前記取得した口語会話を文字または音声によりユーザ端末装置に出力しても良い。前記出力部を含む場合、例えば、中央処理装置１０１が前記出力部として機能しても良い。前記ユーザ端末措置は、例えば、パーソナルコンピュータ（ＰＣ、例えば、デスクトップ型、ノート型）、スマートフォン、タブレット端末等であってもよい。前記出力が文字である場合、例えば、出力装置１０６のＬＥＤディスプレイ、液晶ディスプレイ等の表示装置により出力してもよい。前記出力が音声である場合、例えば、スピーカ等の音声出力装置により出力してもよい。

【0031】

本実施形態によれば、前述のとおり、手の骨格座標及び身体の骨格座標をもとに手話会が推定される。したがって、例えば、手話パターンライブラリを使用した従来の手話翻訳技術とは異なり、ヒトの性別や背丈、衣服の色などの違いによらず、高精度の手話翻訳が可能となる。また、ヒトの性別や背丈、衣服の色などの違いを想定した膨大な手話パターンライブラリを準備する必要がない点にもメリットがある。

【0032】

［実施形態２］
本実施形態は、本発明の手話翻訳処理装置及び手話翻訳処理方法のその他の例である。図４のとおり、本装置１０は、例えば、さらに補正部１６を含んでもよい。また、図５のとおり、例えば、中央処理装置１０１が補正部１６として機能してもよい。

【0033】

つぎに、本実施形態の手話翻訳処理方法の一例を、図６のフローチャートＳ２０に基づき説明する。本実施形態の手話翻訳処理方法は、例えば、図４又は図５の装置１０を用いて、次のように実施する。なお、本実施形態の手話翻訳処理方法は、図４又は図５の装置１０の使用には限定されない。

【0034】

まず、実施形態１のフロー（Ｓ１１）と同じく、手を含む身体の画像を取得する（Ｓ２１）。つぎに、手の骨格情報を取得する。ここで、前記手の骨格情報は、さらに、手の検出領域座標を含み、手の検出領域座標を取得する（Ｓ２２０）。その後、手の骨格座標を取得する（Ｓ２２１）。つぎに、補正部１６は、前記手の骨格座標から前記手の検出領域座標を補正し、保存する（Ｓ２２２）。保存された補正後の座標は、例えば、次フレームの手の骨格座標を取得する際に使用することができる。前記手の骨格情報は、前述のとおり、例えば、従来公知の方法により取得し、取得することができる。前記手の検出領域座標は、例えば、手の検出モデルを用いて取得してもよい。

【0035】

その他のフローは、実施形態１におけるＳ１３からＳ１６のフローと同様である（Ｓ２２～Ｓ２６）。

【0036】

本実施形態のとおり、手の検出領域座標を取得してから手の骨格座標を取得することで、例えば、手の検出領域座標を取得せずに手の骨格座標を取得する場合と比べて、手の骨格情報を素早く取得することができる。また、前述のとおり、手の検出領域座標を補正し、保存することで、例えば、次フレームで手の骨格座標を検出する際の精度が向上する。

【0037】

［実施形態３］
実施形態１及び２において、本装置１０が、さらに記憶部を含む場合、例えば、記憶装置１０４は、前記記憶部として機能する。前記記憶部は、例えば、手の動作情報と手話単語とを紐づけて記憶することができる。このとき、前記動作認識部は、前記手の動作情報と、前記紐づけて記憶された手の動作情報及び手話単語とから、手話単語を推定することができる。

【0038】

［実施形態４］
次に、実施形態１から３のいずれかの装置１０及び、ユーザ端末を含む、手話翻訳処理システムの一例を図７に示す。前記ユーザ端末は、手を含む身体の画像を取得可能である。

【0039】

図７のとおり、ろう者（手話話者）は、本装置１０に対して手話を入力する。図７において、本装置１０は、例えば、スマートフォンやタブレット端末等の機器であってもよく、前記機器が備えるカメラに向かって手話を行い、本装置１０に対して手話を入力してもよい。本装置１０は、例えば、実施形態１から３のいずれかの処理を行って手話翻訳を実施し、その翻訳結果をユーザ端末へ出力する。実施形態１から３のいずれかの処理は、本装置１０を備える前記機器自体が行ってもよいし、本装置１０の各部を備えるサーバが行ってもよい。出力された翻訳結果は、例えば、ユーザ端末の表示画面に文字として表示されてもよいし、スピーカによって音声出力されてもよい。聴者（非手話話者）は、ユーザ端末に出力された手話翻訳の結果を確認することができる。

【0040】

［実施形態５］
本実施形態のプログラムは、前述の各工程を、コンピュータに実行させるためのプログラムである。具体的に、本実施形態のプログラムは、コンピュータに、画像取得手順、手骨格情報取得手順、身体骨格情報取得手順、情報統合手順、及び動作認識手順を実行させるためのプログラムである。

【0041】

前記画像取得手順は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得手順は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得手順は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合手順は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識手順は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定する。

【0042】

また、本実施形態のプログラムは、コンピュータを、画像取得手順、手骨格情報取得手順、身体骨格情報取得手順、情報統合手順、及び動作認識手順として機能させるプログラムということもできる。

【0043】

本実施形態のプログラムは、前記本発明の手話翻訳処理装置および手話翻訳処理方法における記載を援用できる。前記各手順は、例えば、「手順」を「処理」と読み替え可能である。また、本実施形態のプログラムは、例えば、コンピュータ読み取り可能な記録媒体に記録されてもよい。前記記録媒体は、例えば、非一時的なコンピュータ可読記録媒体（non-transitory computer-readable storage medium）である。前記記録媒体は、特に制限されず、例えば、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、ハードディスク（ＨＤ）、光ディスク、フロッピー（登録商標）ディスク（ＦＤ）等があげられる。

【0044】

以上、実施形態を参照して本発明を説明したが、本発明は、上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しうる様々な変更をできる。

【0045】

＜付記＞
上記の実施形態の一部または全部は、以下の付記のように記載されうるが、以下には限られない。
（付記１）
画像取得部、手骨格情報取得部、身体骨格情報取得部、情報統合部、及び動作認識部を含み、
前記画像取得部は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得部は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得部は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合部は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識部は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定する、
手話翻訳処理装置。
（付記２）
さらに、出力部を含み、
前記出力部は、前記手話単語を文字又は音声によりユーザ端末装置に出力する、付記１記載の手話翻訳処理装置。
（付記３）
前記手の骨格座標は、手の骨格検出モデルを用いて検出され、
前記身体の骨格座標は、身体骨格検出モデルを用いて検出され、
前記手の動作情報は、動作認識モデルを用いて認識される、
付記１又は２記載の手話翻訳処理装置。
（付記４）
さらに、補正部を含み、
前記手の骨格情報は、さらに、手の検出領域座標を含み、
前記補正部は、前記手の骨格座標から前記手の検出領域座標を補正する、
付記１から３のいずれかに記載の手話翻訳処理装置。
（付記５）
前記手の検出領域座標は、手の検出モデルを用いて検出される、
付記４記載の手話翻訳処理装置。
（付記６）
さらに、手の動作情報と手話単語とを紐づけて記憶する記憶部を含み、
前記動作認識部は、前記手の動作情報と、前記紐づけて記憶された手の動作情報及び手話単語とから、手話単語を推定する、
付記１から５のいずれかに記載の手話翻訳処理装置。
（付記７）
手話翻訳処理装置、及びユーザ端末を含み、
前記手話翻訳処理装置が、付記１から６のいずれかに記載の手話翻訳処理装置であり、
前記ユーザ端末が、手を含む身体の画像を取得可能であり、
前記画像は、経時的に撮像された複数の時系列画像である、
手話翻訳処理システム。
（付記８）
画像取得工程、手骨格情報取得工程、身体骨格情報取得工程、情報統合工程、及び動作認識工程を含み、
前記画像取得工程は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得工程は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得工程は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合工程は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識工程は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定する、
手話翻訳処理方法。
（付記９）
さらに、出力工程を含み、
前記出力工程は、前記手話単語を文字又は音声によりユーザ端末装置に出力する、付記８記載の手話翻訳処理方法。
（付記１０）
前記手の骨格座標は、手の骨格検出モデルを用いて検出され、
前記身体の骨格座標は、身体骨格検出モデルを用いて検出され、
前記手の動作情報は、動作認識モデルを用いて認識される、
付記８又は９記載の手話翻訳処理方法。
（付記１１）
さらに、補正工程を含み、
前記手の骨格情報は、さらに、手の検出領域座標を含み、
前記補正工程は、前記手の骨格座標から前記手の検出領域座標を補正する、
付記８から１０のいずれかに記載の手話翻訳処理方法。
（付記１２）
前記手の検出領域座標は、手の検出モデルを用いて検出される、
付記１１記載の手話翻訳処理方法。
（付記１３）
前記動作認識工程は、前記手の動作情報と、紐づけて記憶された手の動作情報及び手話単語とから、手話単語を推定する、付記８から１２のいずれかに記載の手話翻訳処理方法。
（付記１４）
画像取得手順、手骨格情報取得手順、身体骨格情報取得手順、情報統合手順、及び動作認識手順を含み、
前記画像取得手順は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得手順は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得手順は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合手順は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識手順は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定し、
前記各手順をコンピュータに実行させるためのプログラム。
（付記１５）
さらに、出力手順を含み、
前記出力手順は、前記手話単語を文字又は音声によりユーザ端末装置に出力する、付記１４記載のプログラム。
（付記１６）
前記手の骨格座標は、手の骨格検出モデルを用いて検出され、
前記身体の骨格座標は、身体骨格検出モデルを用いて検出され、
前記手の動作情報は、動作認識モデルを用いて認識される、
付記１４又は１５記載のプログラム。
（付記１７）
さらに、補正手順を含み、
前記手の骨格情報は、さらに、手の検出領域座標を含み、
前記補正手順は、前記手の骨格座標から前記手の検出領域座標を補正する、
付記１４から１６のいずれかに記載のプログラム。
（付記１８）
前記手の検出領域座標は、手の検出モデルを用いて検出される、
付記１７記載のプログラム。
（付記１９）
前記動作認識手順は、前記手の動作情報と、紐づけて記憶された手の動作情報及び手話単語とから、手話単語を推定する、付記１４から１８のいずれかに記載のプログラム。
（付記２０）
画像取得手順、手骨格情報取得手順、身体骨格情報取得手順、情報統合手順、及び動作認識手順を含み、
前記画像取得手順は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得手順は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得手順は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合手順は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識手順は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定し、
前記各手順をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
（付記２１）
さらに、出力手順を含み、
前記出力手順は、前記手話単語を文字又は音声によりユーザ端末装置に出力する、付記２０記載の記録媒体。
（付記２２）
前記手の骨格座標は、手の骨格検出モデルを用いて検出され、
前記身体の骨格座標は、身体骨格検出モデルを用いて検出され、
前記手の動作情報は、動作認識モデルを用いて認識される、
付記２０又は２１記載の記録媒体。
（付記２３）
さらに、補正手順を含み、
前記手の骨格情報は、さらに、手の検出領域座標を含み、
前記補正手順は、前記手の骨格座標から前記手の検出領域座標を補正する、
付記２０から２２のいずれかに記載の記録媒体。
（付記２４）
前記手の検出領域座標は、手の検出モデルを用いて検出される、
付記２３記載の記録媒体。
（付記２５）
前記動作認識手順は、前記手の動作情報と、紐づけて記憶された手の動作情報及び手話単語とから、手話単語を推定する、付記２０から２４のいずれかに記載の記録媒体。

【産業上の利用可能性】

【0046】

本発明によれば、高精度で手話翻訳をすることができる。本発明は、例えば、ろう者と聴者との円滑なコミュニケーションを目的とした手話翻訳処理装置に適用できるが、適用できる分野は制限されず、手話翻訳処理装置を用いた幅広い分野に適用可能である。

【符号の説明】

【0047】

１０手話翻訳処理装置
１１画像取得部
１２手骨格情報取得部
１３身体骨格情報取得部
１４情報統合部
１５動作認識部
１６補正部
１０１ＣＰＵ
１０２メモリ
１０３バス
１０４記憶装置
１０５入力装置
１０６出力装置
１０７通信デバイス

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【手続補正書】

【提出日】2023-11-06

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

画像取得部、手骨格情報取得部、身体骨格情報取得部、情報統合部、動作認識部、及び補正部を含み、
前記画像取得部は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得部は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標、及び手の検出領域座標を含み、
前記身体骨格情報取得部は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合部は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識部は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定し、
前記補正部は、前記手の骨格座標から前記手の検出領域座標を補正する、
手話翻訳処理装置。

【請求項2】

さらに、出力部を含み、
前記出力部は、前記手話単語を文字又は音声によりユーザ端末装置に出力する、請求項１記載の手話翻訳処理装置。

【請求項3】

【請求項4】

前記手の検出領域座標は、手の検出モデルを用いて検出される、
請求項１又は２記載の手話翻訳処理装置。

【請求項5】

【請求項6】

【請求項7】

画像取得工程、手骨格情報取得工程、身体骨格情報取得工程、情報統合工程、動作認識工程、及び補正工程を含み、
前記画像取得工程は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得工程は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標、及び手の検出領域座標を含み、
前記身体骨格情報取得工程は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合工程は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識工程は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定し、
前記補正工程は、前記手の骨格座標から前記手の検出領域座標を補正する、
手話翻訳処理方法。

【請求項8】

画像取得手順、手骨格情報取得手順、身体骨格情報取得手順、情報統合手順、動作認識手順、及び補正手順を含み、
前記画像取得手順は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得手順は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標、及び手の検出領域座標を含み、
前記身体骨格情報取得手順は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合手順は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識手順は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定し、
前記補正手順は、前記手の骨格座標から前記手の検出領域座標を補正する、
前記各手順をコンピュータに実行させるためのプログラム。

【請求項9】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版