(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024021935
(43)【公開日】2024-02-16
(54)【発明の名称】手話翻訳処理装置、手話翻訳処理システム、手話翻訳処理方法、プログラム、及び記録媒体
(51)【国際特許分類】
G06T 7/20 20170101AFI20240208BHJP
G06T 7/70 20170101ALI20240208BHJP
G06V 40/20 20220101ALI20240208BHJP
G09B 21/00 20060101ALI20240208BHJP
【FI】
G06T7/20 300A
G06T7/70 A
G06V40/20
G09B21/00 F
【審査請求】有
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022125151
(22)【出願日】2022-08-05
(71)【出願人】
【識別番号】000232092
【氏名又は名称】NECソリューションイノベータ株式会社
(74)【代理人】
【識別番号】100115255
【弁理士】
【氏名又は名称】辻丸 光一郎
(74)【代理人】
【識別番号】100201732
【弁理士】
【氏名又は名称】松縄 正登
(74)【代理人】
【識別番号】100154081
【弁理士】
【氏名又は名称】伊佐治 創
(74)【代理人】
【識別番号】100227019
【弁理士】
【氏名又は名称】安 修央
(72)【発明者】
【氏名】岡田 浩臣
(72)【発明者】
【氏名】樋口 祐樹
(72)【発明者】
【氏名】山本 恭聖
(72)【発明者】
【氏名】山本 天斗
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096CA04
5L096FA69
(57)【要約】 (修正有)
【課題】高精度で手話翻訳をする手話翻訳処理装置及び手話翻訳処理システムを提供する。
【解決手段】手話翻訳処理装置において、中央処理装置は、手を含む身体の経時的に撮像された複数の時系列画像を取得する画像取得部と、前記取得した画像から手の骨格座標を含む手の骨格情報を取得する手骨格情報取得部と、前記取得した画像から身体の骨格座標を含む身体の骨格情報を取得する身体骨格情報取得部と、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出する情報統合部と、前記統合して算出した前記手の骨格の位置及び前記手の位置並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定する動作認識部と、を有する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
画像取得部、手骨格情報取得部、身体骨格情報取得部、情報統合部、及び動作認識部を含み、
前記画像取得部は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得部は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得部は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合部は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識部は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定する、
手話翻訳処理装置。
【請求項2】
さらに、出力部を含み、
前記出力部は、前記手話単語を文字又は音声によりユーザ端末装置に出力する、請求項1記載の手話翻訳処理装置。
【請求項3】
前記手の骨格座標は、手の骨格検出モデルを用いて検出され、
前記身体の骨格座標は、身体骨格検出モデルを用いて検出され、
前記手の動作情報は、動作認識モデルを用いて認識される、
請求項1又は2記載の手話翻訳処理装置。
【請求項4】
さらに、補正部を含み、
前記手の骨格情報は、さらに、手の検出領域座標を含み、
前記補正部は、前記手の骨格座標から前記手の検出領域座標を補正する、
請求項1又は2記載の手話翻訳処理装置。
【請求項5】
前記手の検出領域座標は、手の検出モデルを用いて検出される、
請求項4記載の手話翻訳処理装置。
【請求項6】
さらに、手の動作情報と手話単語とを紐づけて記憶する記憶部を含み、
前記動作認識部は、前記手の動作情報と、前記紐づけて記憶された手の動作情報及び手話単語とから、手話単語を推定する、
請求項1又は2記載の手話翻訳処理装置。
【請求項7】
手話翻訳処理装置、及びユーザ端末を含み、
前記手話翻訳処理装置が、請求項1又は2記載の手話翻訳処理装置であり、
前記ユーザ端末が、手を含む身体の画像を取得可能であり、
前記画像は、経時的に撮像された複数の時系列画像である、
手話翻訳処理システム。
【請求項8】
画像取得工程、手骨格情報取得工程、身体骨格情報取得工程、情報統合工程、及び動作認識工程を含み、
前記画像取得工程は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得工程は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得工程は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合工程は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識工程は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定する、
手話翻訳処理方法。
【請求項9】
画像取得手順、手骨格情報取得手順、身体骨格情報取得手順、情報統合手順、及び動作認識手順を含み、
前記画像取得手順は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得手順は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得手順は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合手順は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識手順は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定し、
前記各手順をコンピュータに実行させるためのプログラム。
【請求項10】
画像取得手順、手骨格情報取得手順、身体骨格情報取得手順、情報統合手順、及び動作認識手順を含み、
前記画像取得手順は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得手順は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得手順は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合手順は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識手順は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定し、
前記各手順をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、手話翻訳処理装置、手話翻訳処理システム、手話翻訳処理方法、プログラム、及び記録媒体に関する。
【背景技術】
【0002】
ろう者と聴者とが会話をする手段として、例えば、特許文献1には、手話情報を音声又は文字に変換するものがある。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
ここで、特許文献1に記載の発明は、手話パターンライブラリを参照して手話情報を音声又は文字に変換するものである。手話パターンライブラリを参照する場合、性別や背丈、衣服の色などの多種多様なパターンを想定した手話パターンを取得する必要がある。このとき、例えば、ライブラリに保存されたパターンと相違する手話情報が入力された場合、その翻訳精度は低下するという課題がある。
【0005】
そこで、本発明は、高精度で手話翻訳をするための、手話翻訳処理装置、手話翻訳処理システム、手話翻訳処理方法、プログラム、及び記録媒体の提供を目的とする。
【課題を解決するための手段】
【0006】
前記目的を達成するために、本発明の手話翻訳処理装置は、
画像取得部、手骨格情報取得部、身体骨格情報取得部、情報統合部、及び動作認識部を含み、
前記画像取得部は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得部は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得部は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合部は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識部は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定する。
【0007】
本発明の手話翻訳処理システムは、
手話翻訳処理装置、及びユーザ端末を含み、
前記手話翻訳処理装置が、本発明の前記手話翻訳処理装置であり、
前記ユーザ端末が、手を含む身体の画像を取得可能であり、
前記画像は、経時的に撮像された複数の時系列画像である。
【0008】
本発明の手話翻訳処理方法は、
画像取得工程、手骨格情報取得工程、身体骨格情報取得工程、情報統合工程、及び動作認識工程を含み、
前記画像取得工程は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得工程は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得工程は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合工程は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識工程は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定する。
【0009】
本発明のプログラムは、
画像取得手順、手骨格情報取得手順、身体骨格情報取得手順、情報統合手順、及び動作認識手順を含み、
前記画像取得手順は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得手順は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得手順は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合手順は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識手順は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定し、
前記各手順をコンピュータに実行させるためのプログラムである。
【0010】
本発明の記録媒体は、前記本発明のプログラムを記録したコンピュータ読み取り可能な記録媒体である。
【発明の効果】
【0011】
本発明によれば、高精度で手話翻訳をすることができる。
【図面の簡単な説明】
【0012】
【
図1】
図1は、実施形態1の手話翻訳処理装置の一例の構成を示すブロック図である。
【
図2】
図2は、実施形態1の手話翻訳処理装置のハードウェア構成の一例を示すブロック図である。
【
図3】
図3は、実施形態1の手話翻訳処理装置における処理の一例を示すフローチャートである。
【
図4】
図4は、実施形態2の手話翻訳処理装置の一例の構成を示すブロック図である。
【
図5】
図5は、実施形態2の手話翻訳処理装置のハードウェア構成の一例を示すブロック図である。
【
図6】
図6は、実施形態2の手話翻訳処理装置における処理の一例を示すフローチャートである。
【
図7】
図7は、実施形態4の手話翻訳処理システムの一例を示す説明図である。
【発明を実施するための形態】
【0013】
つぎに、本発明の実施形態について図を用いて説明する。本発明は、以下の実施形態には限定されない。以下の各図において、同一部分には、同一符号を付している。また、各実施形態の説明は、特に言及がない限り、互いの説明を援用でき、各実施形態の構成は、特に言及がない限り、組合せ可能である。
【0014】
[実施形態1]
図1は、本実施形態の手話翻訳処理装置10の一例の構成を示すブロック図である。
図1に示すように、本装置10は、画像取得部11、手骨格情報取得部12、身体骨格情報取得部13、情報統合部14、及び動作認識部15を含む。
【0015】
本装置10は、例えば、前記各部を含む1つの装置でもよいし、前記各部が、通信回線網を介して接続可能な装置でもよい。また、本装置10は、前記通信回線網を介して、後述する外部装置と接続可能である。前記通信回線網は、特に制限されず、公知のネットワークを使用でき、例えば、有線でも無線でもよい。前記通信回線網は、例えば、インターネット回線、WWW(World Wide Web)、電話回線、LAN(Local Area Network)、SAN(Storage Area Network)、DTN(Delay Tolerant Networking)、LPWA(Low Power Wide Area)、L5G(ローカル5G)、等があげられる。無線通信としては、例えば、Wi-Fi(登録商標)、Bluetooth(登録商標)、ローカル5G、LPWA等が挙げられる。前記無線通信としては、各装置が直接通信する形態(Ad Hoc通信)、インフラストラクチャ(infrastructure通信)、アクセスポイントを介した間接通信等であってもよい。本装置10は、例えば、システムとしてサーバに組み込まれていてもよい。また、本装置10は、例えば、本発明のプログラムがインストールされたパーソナルコンピュータ(PC、例えば、デスクトップ型、ノート型)、スマートフォン、タブレット端末等であってもよい。本装置10は、例えば、前記各部のうち少なくとも一つがサーバ上にあり、その他の前記各部が端末上にあるような、クラウドコンピューティングやエッジコンピューティング等の形態であってもよい。
【0016】
図2に、本装置10のハードウェア構成のブロック図を例示する。本装置10は、例えば、中央処理装置(CPU、GPU等)101、メモリ102、バス103、記憶装置104、入力装置105、出力装置106、通信デバイス107等を含む。本装置10の各部は、それぞれのインタフェース(I/F)により、バス103を介して相互に接続されている。
【0017】
中央処理装置101は、コントローラ(システムコントローラ、I/Oコントローラ等)等により、他の構成と連携動作し、本装置10の全体の制御を担う。本装置10において、中央処理装置101により、例えば、本発明のプログラムやその他のプログラムが実行され、また、各種情報の読み込みや書き込みが行われる。具体的には、例えば、中央処理装置101が、画像取得部11、手骨格情報取得部12、身体骨格情報取得部13、情報統合部14、及び動作認識部15として機能する。中央処理装置101は、演算装置として、CPU、GPU(Graphics Processing Unit)、APU(Accelerated Processing Unit)等の演算装置を備えてもよいし、これらの組合せを備えてもよい。
【0018】
バス103は、例えば、外部装置とも接続できる。前記外部装置は、例えば、外部記憶装置(外部データベース等)、プリンタ、外部入力装置、外部表示装置、外部撮像装置等があげられる。本装置10は、例えば、バス103に接続された通信デバイス107により、外部ネットワーク(前記通信回線網)に接続でき、外部ネットワークを介して、他の装置と接続することもできる。
【0019】
メモリ102は、例えば、メインメモリ(主記憶装置)が挙げられる。中央処理装置101が処理を行う際には、例えば、後述する記憶装置104に記憶されている本発明のプログラム等の種々の動作プログラムを、メモリ102が読み込み、中央処理装置101は、メモリ102からデータを受け取って、プログラムを実行する。前記メインメモリは、例えば、RAM(ランダムアクセスメモリ)である。また、メモリ102は、例えば、ROM(読み出し専用メモリ)であってもよい。
【0020】
記憶装置104は、例えば、前記メインメモリ(主記憶装置)に対して、いわゆる補助記憶装置ともいう。前述のように、記憶装置104には、本発明のプログラムを含む動作プログラムが格納されている。記憶装置104は、例えば、記録媒体と、記録媒体に読み書きするドライブとの組合せであってもよい。前記記録媒体は、特に制限されず、例えば、内蔵型でも外付け型でもよく、HD(ハードディスク)、CD-ROM、CD-R、CD-RW、MO、DVD、フラッシュメモリー、メモリーカード等が挙げられる。記憶装置104は、例えば、記録媒体とドライブとが一体化されたハードディスクドライブ(HDD)、及びソリッドステートドライブ(SSD)であってもよい。
【0021】
本装置10において、メモリ102及び記憶装置104は、ログ情報、外部データベース(図示せず)や外部の装置から取得した情報、本装置10によって生成した情報、本装置10が処理を実行する際に用いる情報等の種々の情報を記憶することも可能である。この場合、メモリ102及び記憶装置104は、例えば、手の動作情報と手話会話とを紐づけて記憶していてもよい。なお、少なくとも一部の情報は、例えば、メモリ102及び記憶装置104以外の外部サーバに記憶されていてもよいし、複数の端末にブロックチェーン技術等を用いて分散して記憶されていてもよい。
【0022】
本装置10は、例えば、さらに、入力装置105、出力装置106を備える。入力装置105は、例えば、タッチパネル、トラックパッド、マウス等のポインティングデバイス;キーボード;カメラ、スキャナ等の撮像手段;ICカードリーダ、磁気カードリーダ等のカードリーダ;マイク等の音声入力手段;等があげられる。出力装置106は、例えば、LED(light-emitting diode)ディスプレイ、液晶ディスプレイ等の表示装置;スピーカ等の音声出力装置;プリンタ;等があげられる。本実施形態1において、入力装置105と出力装置106とは、別個に構成されているが、入力装置105と出力装置106とは、タッチパネルディスプレイのように、一体として構成されてもよい。
【0023】
つぎに、本実施形態の手話翻訳処理方法の一例を、
図3のフローチャートS10に基づき説明する。本実施形態の手話翻訳処理方法は、例えば、
図1又は
図2の装置10を用いて、次のように実施する。なお、本実施形態の手話翻訳処理方法は、
図1又は
図2の装置10の使用には限定されない。
【0024】
まず、画像取得部11により、手を含む身体の画像を取得する(S11)。ここで、前記画像は、経時的に撮像された複数の時系列画像である。前記身体は、例えば、上半身及び下半身を含む全身でも良いし、上半身のみでもよい。ここで、前記画像の取得は、例えば、本装置10が備えるカメラなどにより行ってもよいし、本装置10以外のカメラなどが取得した画像を、通信デバイス107を介して取得してもよい。前記画像の取得は、例えば、1フレーム毎に行われる。なお、本発明において「手」という場合は、特に断りがない限り、両手でも良いし、片手でも良い。
【0025】
つぎに、手骨格情報取得部12により、前記取得した画像から手の骨格情報を取得する(S12)。前記手の骨格情報は、手の骨格座標を含む。前記手の骨格情報は、例えば、従来公知の方法により検出し、取得することができる。前記手の骨格は、例えば、手の関節を含む。前記手の骨格座標は、例えば、手の骨格検出モデルを用いて取得しても良い。
【0026】
また、身体骨格情報取得部13により、前記取得した画像から身体の骨格情報を取得する(S13)。前記身体の骨格情報は、身体の骨格座標を含む。前記身体の骨格情報は、例えば、従来公知の方法により検出し、取得することができる。前記身体の骨格座標は、例えば、身体の骨格検出モデルを用いて取得しても良い
図3において、図示していないが、例えば、S13で取得した身体の骨格座標を保存してもよい。S13で取得した身体の骨格座標を保存しておけば、例えば、次フレームで身体の骨格情報を取得する際、保存した身体の骨格座標と次フレームの身体の画像とを統合して、次フレームの身体の骨格座標を取得することができる。このようにすれば、次フレーム以降の身体の骨格座標の取得精度が向上する。
【0027】
なお、
図3においては、手を含む身体の画像を取得した後(S11)、手の骨格情報の取得(S12)と、身体の骨格情報の取得(S13)とを、それぞれ同時並行して実施しているが、これはあくまでも例示であり、例えば、手の骨格情報を取得した後に身体の骨格情報を取得しても良く、又は、身体の骨格情報を取得した後に手の骨格情報を取得してもよい。
【0028】
つぎに、情報統合部14により、前記手の骨格情報及び前記身体の骨格情報を統合する(S14)。前記統合した情報をもとに、身体における手の骨格の位置及び手の位置を算出する(S15)。
【0029】
つぎに、動作認識部15により、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定する(S16)。前記手話は、特に限定されないが、例えば、日本手話、日本語対応手話、及び中間型手話等があげられる。世界各国で使用されている手話であってもよい。前記手話単語の推定は、例えば、従来公知の方法によりすることができる。前記手の動作情報の認識は、例えば、動作認識モデルを用いて認識してもよい。
【0030】
さらに、本装置10が、例えば、出力部を含む場合(図示せず)、前記出力部は、前記取得した口語会話を文字または音声によりユーザ端末装置に出力しても良い。前記出力部を含む場合、例えば、中央処理装置101が前記出力部として機能しても良い。前記ユーザ端末措置は、例えば、パーソナルコンピュータ(PC、例えば、デスクトップ型、ノート型)、スマートフォン、タブレット端末等であってもよい。前記出力が文字である場合、例えば、出力装置106のLEDディスプレイ、液晶ディスプレイ等の表示装置により出力してもよい。前記出力が音声である場合、例えば、スピーカ等の音声出力装置により出力してもよい。
【0031】
本実施形態によれば、前述のとおり、手の骨格座標及び身体の骨格座標をもとに手話会が推定される。したがって、例えば、手話パターンライブラリを使用した従来の手話翻訳技術とは異なり、ヒトの性別や背丈、衣服の色などの違いによらず、高精度の手話翻訳が可能となる。また、ヒトの性別や背丈、衣服の色などの違いを想定した膨大な手話パターンライブラリを準備する必要がない点にもメリットがある。
【0032】
[実施形態2]
本実施形態は、本発明の手話翻訳処理装置及び手話翻訳処理方法のその他の例である。
図4のとおり、本装置10は、例えば、さらに補正部16を含んでもよい。また、
図5のとおり、例えば、中央処理装置101が補正部16として機能してもよい。
【0033】
つぎに、本実施形態の手話翻訳処理方法の一例を、
図6のフローチャートS20に基づき説明する。本実施形態の手話翻訳処理方法は、例えば、
図4又は
図5の装置10を用いて、次のように実施する。なお、本実施形態の手話翻訳処理方法は、
図4又は
図5の装置10の使用には限定されない。
【0034】
まず、実施形態1のフロー(S11)と同じく、手を含む身体の画像を取得する(S21)。つぎに、手の骨格情報を取得する。ここで、前記手の骨格情報は、さらに、手の検出領域座標を含み、手の検出領域座標を取得する(S220)。その後、手の骨格座標を取得する(S221)。つぎに、補正部16は、前記手の骨格座標から前記手の検出領域座標を補正し、保存する(S222)。保存された補正後の座標は、例えば、次フレームの手の骨格座標を取得する際に使用することができる。前記手の骨格情報は、前述のとおり、例えば、従来公知の方法により取得し、取得することができる。前記手の検出領域座標は、例えば、手の検出モデルを用いて取得してもよい。
【0035】
その他のフローは、実施形態1におけるS13からS16のフローと同様である(S22~S26)。
【0036】
本実施形態のとおり、手の検出領域座標を取得してから手の骨格座標を取得することで、例えば、手の検出領域座標を取得せずに手の骨格座標を取得する場合と比べて、手の骨格情報を素早く取得することができる。また、前述のとおり、手の検出領域座標を補正し、保存することで、例えば、次フレームで手の骨格座標を検出する際の精度が向上する。
【0037】
[実施形態3]
実施形態1及び2において、本装置10が、さらに記憶部を含む場合、例えば、記憶装置104は、前記記憶部として機能する。前記記憶部は、例えば、手の動作情報と手話単語とを紐づけて記憶することができる。このとき、前記動作認識部は、前記手の動作情報と、前記紐づけて記憶された手の動作情報及び手話単語とから、手話単語を推定することができる。
【0038】
[実施形態4]
次に、実施形態1から3のいずれかの装置10及び、ユーザ端末を含む、手話翻訳処理システムの一例を
図7に示す。前記ユーザ端末は、手を含む身体の画像を取得可能である。
【0039】
図7のとおり、ろう者(手話話者)は、本装置10に対して手話を入力する。
図7において、本装置10は、例えば、スマートフォンやタブレット端末等の機器であってもよく、前記機器が備えるカメラに向かって手話を行い、本装置10に対して手話を入力してもよい。本装置10は、例えば、実施形態1から3のいずれかの処理を行って手話翻訳を実施し、その翻訳結果をユーザ端末へ出力する。実施形態1から3のいずれかの処理は、本装置10を備える前記機器自体が行ってもよいし、本装置10の各部を備えるサーバが行ってもよい。出力された翻訳結果は、例えば、ユーザ端末の表示画面に文字として表示されてもよいし、スピーカによって音声出力されてもよい。聴者(非手話話者)は、ユーザ端末に出力された手話翻訳の結果を確認することができる。
【0040】
[実施形態5]
本実施形態のプログラムは、前述の各工程を、コンピュータに実行させるためのプログラムである。具体的に、本実施形態のプログラムは、コンピュータに、画像取得手順、手骨格情報取得手順、身体骨格情報取得手順、情報統合手順、及び動作認識手順を実行させるためのプログラムである。
【0041】
前記画像取得手順は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得手順は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得手順は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合手順は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識手順は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定する。
【0042】
また、本実施形態のプログラムは、コンピュータを、画像取得手順、手骨格情報取得手順、身体骨格情報取得手順、情報統合手順、及び動作認識手順として機能させるプログラムということもできる。
【0043】
本実施形態のプログラムは、前記本発明の手話翻訳処理装置および手話翻訳処理方法における記載を援用できる。前記各手順は、例えば、「手順」を「処理」と読み替え可能である。また、本実施形態のプログラムは、例えば、コンピュータ読み取り可能な記録媒体に記録されてもよい。前記記録媒体は、例えば、非一時的なコンピュータ可読記録媒体(non-transitory computer-readable storage medium)である。前記記録媒体は、特に制限されず、例えば、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、ハードディスク(HD)、光ディスク、フロッピー(登録商標)ディスク(FD)等があげられる。
【0044】
以上、実施形態を参照して本発明を説明したが、本発明は、上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しうる様々な変更をできる。
【0045】
<付記>
上記の実施形態の一部または全部は、以下の付記のように記載されうるが、以下には限られない。
(付記1)
画像取得部、手骨格情報取得部、身体骨格情報取得部、情報統合部、及び動作認識部を含み、
前記画像取得部は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得部は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得部は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合部は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識部は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定する、
手話翻訳処理装置。
(付記2)
さらに、出力部を含み、
前記出力部は、前記手話単語を文字又は音声によりユーザ端末装置に出力する、付記1記載の手話翻訳処理装置。
(付記3)
前記手の骨格座標は、手の骨格検出モデルを用いて検出され、
前記身体の骨格座標は、身体骨格検出モデルを用いて検出され、
前記手の動作情報は、動作認識モデルを用いて認識される、
付記1又は2記載の手話翻訳処理装置。
(付記4)
さらに、補正部を含み、
前記手の骨格情報は、さらに、手の検出領域座標を含み、
前記補正部は、前記手の骨格座標から前記手の検出領域座標を補正する、
付記1から3のいずれかに記載の手話翻訳処理装置。
(付記5)
前記手の検出領域座標は、手の検出モデルを用いて検出される、
付記4記載の手話翻訳処理装置。
(付記6)
さらに、手の動作情報と手話単語とを紐づけて記憶する記憶部を含み、
前記動作認識部は、前記手の動作情報と、前記紐づけて記憶された手の動作情報及び手話単語とから、手話単語を推定する、
付記1から5のいずれかに記載の手話翻訳処理装置。
(付記7)
手話翻訳処理装置、及びユーザ端末を含み、
前記手話翻訳処理装置が、付記1から6のいずれかに記載の手話翻訳処理装置であり、
前記ユーザ端末が、手を含む身体の画像を取得可能であり、
前記画像は、経時的に撮像された複数の時系列画像である、
手話翻訳処理システム。
(付記8)
画像取得工程、手骨格情報取得工程、身体骨格情報取得工程、情報統合工程、及び動作認識工程を含み、
前記画像取得工程は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得工程は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得工程は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合工程は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識工程は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定する、
手話翻訳処理方法。
(付記9)
さらに、出力工程を含み、
前記出力工程は、前記手話単語を文字又は音声によりユーザ端末装置に出力する、付記8記載の手話翻訳処理方法。
(付記10)
前記手の骨格座標は、手の骨格検出モデルを用いて検出され、
前記身体の骨格座標は、身体骨格検出モデルを用いて検出され、
前記手の動作情報は、動作認識モデルを用いて認識される、
付記8又は9記載の手話翻訳処理方法。
(付記11)
さらに、補正工程を含み、
前記手の骨格情報は、さらに、手の検出領域座標を含み、
前記補正工程は、前記手の骨格座標から前記手の検出領域座標を補正する、
付記8から10のいずれかに記載の手話翻訳処理方法。
(付記12)
前記手の検出領域座標は、手の検出モデルを用いて検出される、
付記11記載の手話翻訳処理方法。
(付記13)
前記動作認識工程は、前記手の動作情報と、紐づけて記憶された手の動作情報及び手話単語とから、手話単語を推定する、付記8から12のいずれかに記載の手話翻訳処理方法。
(付記14)
画像取得手順、手骨格情報取得手順、身体骨格情報取得手順、情報統合手順、及び動作認識手順を含み、
前記画像取得手順は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得手順は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得手順は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合手順は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識手順は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定し、
前記各手順をコンピュータに実行させるためのプログラム。
(付記15)
さらに、出力手順を含み、
前記出力手順は、前記手話単語を文字又は音声によりユーザ端末装置に出力する、付記14記載のプログラム。
(付記16)
前記手の骨格座標は、手の骨格検出モデルを用いて検出され、
前記身体の骨格座標は、身体骨格検出モデルを用いて検出され、
前記手の動作情報は、動作認識モデルを用いて認識される、
付記14又は15記載のプログラム。
(付記17)
さらに、補正手順を含み、
前記手の骨格情報は、さらに、手の検出領域座標を含み、
前記補正手順は、前記手の骨格座標から前記手の検出領域座標を補正する、
付記14から16のいずれかに記載のプログラム。
(付記18)
前記手の検出領域座標は、手の検出モデルを用いて検出される、
付記17記載のプログラム。
(付記19)
前記動作認識手順は、前記手の動作情報と、紐づけて記憶された手の動作情報及び手話単語とから、手話単語を推定する、付記14から18のいずれかに記載のプログラム。
(付記20)
画像取得手順、手骨格情報取得手順、身体骨格情報取得手順、情報統合手順、及び動作認識手順を含み、
前記画像取得手順は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得手順は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標を含み、
前記身体骨格情報取得手順は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合手順は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識手順は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定し、
前記各手順をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
(付記21)
さらに、出力手順を含み、
前記出力手順は、前記手話単語を文字又は音声によりユーザ端末装置に出力する、付記20記載の記録媒体。
(付記22)
前記手の骨格座標は、手の骨格検出モデルを用いて検出され、
前記身体の骨格座標は、身体骨格検出モデルを用いて検出され、
前記手の動作情報は、動作認識モデルを用いて認識される、
付記20又は21記載の記録媒体。
(付記23)
さらに、補正手順を含み、
前記手の骨格情報は、さらに、手の検出領域座標を含み、
前記補正手順は、前記手の骨格座標から前記手の検出領域座標を補正する、
付記20から22のいずれかに記載の記録媒体。
(付記24)
前記手の検出領域座標は、手の検出モデルを用いて検出される、
付記23記載の記録媒体。
(付記25)
前記動作認識手順は、前記手の動作情報と、紐づけて記憶された手の動作情報及び手話単語とから、手話単語を推定する、付記20から24のいずれかに記載の記録媒体。
【産業上の利用可能性】
【0046】
本発明によれば、高精度で手話翻訳をすることができる。本発明は、例えば、ろう者と聴者との円滑なコミュニケーションを目的とした手話翻訳処理装置に適用できるが、適用できる分野は制限されず、手話翻訳処理装置を用いた幅広い分野に適用可能である。
【符号の説明】
【0047】
10 手話翻訳処理装置
11 画像取得部
12 手骨格情報取得部
13 身体骨格情報取得部
14 情報統合部
15 動作認識部
16 補正部
101 CPU
102 メモリ
103 バス
104 記憶装置
105 入力装置
106 出力装置
107 通信デバイス
【手続補正書】
【提出日】2023-11-06
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
画像取得部、手骨格情報取得部、身体骨格情報取得部、情報統合部、動作認識部、及び補正部を含み、
前記画像取得部は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得部は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標、及び手の検出領域座標を含み、
前記身体骨格情報取得部は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合部は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識部は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定し、
前記補正部は、前記手の骨格座標から前記手の検出領域座標を補正する、
手話翻訳処理装置。
【請求項2】
さらに、出力部を含み、
前記出力部は、前記手話単語を文字又は音声によりユーザ端末装置に出力する、請求項1記載の手話翻訳処理装置。
【請求項3】
前記手の骨格座標は、手の骨格検出モデルを用いて検出され、
前記身体の骨格座標は、身体骨格検出モデルを用いて検出され、
前記手の動作情報は、動作認識モデルを用いて認識される、
請求項1又は2記載の手話翻訳処理装置。
【請求項4】
前記手の検出領域座標は、手の検出モデルを用いて検出される、
請求項1又は2記載の手話翻訳処理装置。
【請求項5】
さらに、手の動作情報と手話単語とを紐づけて記憶する記憶部を含み、
前記動作認識部は、前記手の動作情報と、前記紐づけて記憶された手の動作情報及び手話単語とから、手話単語を推定する、
請求項1又は2記載の手話翻訳処理装置。
【請求項6】
手話翻訳処理装置、及びユーザ端末を含み、
前記手話翻訳処理装置が、請求項1又は2記載の手話翻訳処理装置であり、
前記ユーザ端末が、手を含む身体の画像を取得可能であり、
前記画像は、経時的に撮像された複数の時系列画像である、
手話翻訳処理システム。
【請求項7】
画像取得工程、手骨格情報取得工程、身体骨格情報取得工程、情報統合工程、動作認識工程、及び補正工程を含み、
前記画像取得工程は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得工程は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標、及び手の検出領域座標を含み、
前記身体骨格情報取得工程は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合工程は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識工程は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定し、
前記補正工程は、前記手の骨格座標から前記手の検出領域座標を補正する、
手話翻訳処理方法。
【請求項8】
画像取得手順、手骨格情報取得手順、身体骨格情報取得手順、情報統合手順、動作認識手順、及び補正手順を含み、
前記画像取得手順は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得手順は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標、及び手の検出領域座標を含み、
前記身体骨格情報取得手順は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合手順は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識手順は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定し、
前記補正手順は、前記手の骨格座標から前記手の検出領域座標を補正する、
前記各手順をコンピュータに実行させるためのプログラム。
【請求項9】
画像取得手順、手骨格情報取得手順、身体骨格情報取得手順、情報統合手順、動作認識手順、及び補正手順を含み、
前記画像取得手順は、手を含む身体の画像を取得し、
前記画像は、経時的に撮像された複数の時系列画像であり、
前記手骨格情報取得手順は、前記取得した画像から手の骨格情報を取得し、
前記手の骨格情報は、手の骨格座標、及び手の検出領域座標を含み、
前記身体骨格情報取得手順は、前記取得した画像から身体の骨格情報を取得し、
前記身体の骨格情報は、身体の骨格座標を含み、
前記情報統合手順は、前記手の骨格情報及び前記身体の骨格情報を統合して、身体における手の骨格の位置及び手の位置を算出し、
前記動作認識手順は、前記統合して算出した前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報を時系列順に整理し、前記整理された前記手の骨格の位置及び前記手の位置、並びに前記身体の骨格情報から手の動作情報を認識して手話単語を推定し、
前記補正手順は、前記手の骨格座標から前記手の検出領域座標を補正する、
前記各手順をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。