IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 学校法人慶應義塾の特許一覧

特開2023-104109姿勢推定方法、姿勢推定装置及びプログラム
<>
  • 特開-姿勢推定方法、姿勢推定装置及びプログラム 図1
  • 特開-姿勢推定方法、姿勢推定装置及びプログラム 図2
  • 特開-姿勢推定方法、姿勢推定装置及びプログラム 図3
  • 特開-姿勢推定方法、姿勢推定装置及びプログラム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023104109
(43)【公開日】2023-07-28
(54)【発明の名称】姿勢推定方法、姿勢推定装置及びプログラム
(51)【国際特許分類】
   G01B 17/00 20060101AFI20230721BHJP
   G06N 20/00 20190101ALI20230721BHJP
【FI】
G01B17/00 Z
G06N20/00
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022004911
(22)【出願日】2022-01-17
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】598121341
【氏名又は名称】慶應義塾
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】五十川 麻理子
(72)【発明者】
【氏名】入江 豪
(72)【発明者】
【氏名】木村 昭悟
(72)【発明者】
【氏名】川島 穣
(72)【発明者】
【氏名】柴田 優斗
(72)【発明者】
【氏名】青木 義満
【テーマコード(参考)】
2F068
【Fターム(参考)】
2F068AA46
2F068CC07
2F068FF11
2F068FF24
2F068HH01
(57)【要約】
【課題】暗室環境下や電波を発する機器の使用が制限される環境下においても、オブジェクトの姿勢を非侵襲に推定する。
【解決手段】姿勢推定装置は、音響信号取得部と、特徴量抽出部と、姿勢推定部とを備える。音響信号取得部は、音響信号を取得する。特徴量抽出部は、音響信号取得部が取得した音響信号から音響特徴量を抽出する。姿勢推定部は、音響特徴量とオブジェクトの姿勢を表す姿勢データとの対応を表すモデルである姿勢推定器に、音響信号取得部が抽出した音響特徴量を入力してオブジェクトの推定の姿勢を表す姿勢データを得る。
【選択図】図1
【特許請求の範囲】
【請求項1】
音響信号を取得する音響信号取得ステップと、
前記音響信号取得ステップにおいて取得された前記音響信号から音響特徴量を抽出する特徴量抽出ステップと、
音響特徴量とオブジェクトの姿勢を表す姿勢データとの対応を表すモデルである姿勢推定器に、前記音響信号取得ステップにおいて抽出された前記音響特徴量を入力してオブジェクトの推定の姿勢を表す姿勢データを得る推定ステップと、
を有する姿勢推定方法。
【請求項2】
学習用の音響信号を取得する学習用音響信号取得ステップと、
前記学習用音響信号取得ステップにおいて取得された前記音響信号から音響特徴量を抽出する学習用特徴量抽出ステップと、
学習用特徴量抽出ステップにおいて抽出された前記音響特徴量とオブジェクトの正解の姿勢を表す姿勢データとを用いて前記姿勢推定器を学習する学習ステップとをさらに有し、
前記推定ステップにおいては、前記学習ステップにおいて学習された前記姿勢推定器に、前記特徴量抽出ステップにおいて抽出された前記音響特徴量を入力してオブジェクトの推定の姿勢を表す姿勢データを得る、
請求項1に記載の姿勢推定方法。
【請求項3】
前記音響信号取得ステップ及び学習用音響信号取得ステップにおいては、スピーカーから発せられ、前記オブジェクトにより一部が遮蔽された音響信号を収音するマイクから前記音響信号を取得する、
請求項2に記載の姿勢推定方法。
【請求項4】
前記マイクは、アンビソニックスマイクである、
請求項3に記載の姿勢推定方法。
【請求項5】
前記音響特徴量は、ログメルスペクトログラムである、
請求項1から請求項4のいずれか一項に記載の姿勢推定方法。
【請求項6】
音響信号を取得する音響信号取得部と、
前記音響信号取得部が取得した前記音響信号から音響特徴量を抽出する特徴量抽出部と、
音響特徴量とオブジェクトの姿勢を表す姿勢データとの対応を表すモデルである姿勢推定器に、前記音響信号取得部が抽出した前記音響特徴量を入力してオブジェクトの推定の姿勢を表す姿勢データを得る姿勢推定部と、
を備える姿勢推定装置。
【請求項7】
学習用の音響信号を取得する学習用音響信号取得部と、
前記学習用音響信号取得部が取得した前記音響信号から音響特徴量を抽出する学習用特徴量抽出部と、
学習用特徴量抽出部が抽出した前記音響特徴量とオブジェクトの正解の姿勢を表す姿勢データとを用いて前記姿勢推定器を学習する学習部とをさらに有し、
前記姿勢推定部は、前記学習部において学習された前記姿勢推定器に、前記特徴量抽出部が抽出した前記音響特徴量を入力してオブジェクトの推定の姿勢を表す姿勢データを得る、
請求項6に記載の姿勢推定装置。
【請求項8】
コンピュータに、
請求項1から請求項5のいずれか一項に記載の姿勢推定方法を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、姿勢推定方法、姿勢推定装置及びプログラムに関する。
【背景技術】
【0002】
計測対象となる人にデバイスを装着させる必要のない非侵襲な人物姿勢推定には、ヘルスケア、介護、スポーツなどの様々な分野で大きなニーズがある。従来、非侵襲な人物姿勢推定手法としてカメラ画像・映像を入力とする手法が多く提案されてきた(例えば、非特許文献1参照)。しかし、カメラ画像・映像を入力とする場合は、可視光波長信号を用いるため、暗室環境下で著しく精度が低下してしまうという課題がある。
【0003】
一方で、無線電波信号を入力とすることで暗室環境下においても人物姿勢推定可能な手法が提案されている(例えば、非特許文献2参照)。また、音響情報を活用することで、暗室環境下においてもシーンの情報を復元可能な手法が提案されている(例えば、非特許文献3参照)。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Zhe Cao,Gines Hidalgo,Tomas Simon,Shih-En Wei,Yaser Sheikh,"OpenPose: Realtime Multi-Person 2D Pose Estimation Using Part Affinity Fields",IEEE Transactions on Pattern Analysis and Machine Intelligence,vol.43,no.1,p.172-186,2021.
【非特許文献2】Mingmin Zhao,Tianhong Li,Mohammad Abu Alsheikh,Yonglong Tian,Hang Zhao,Antonio Torralba,Dina Katabi,"Through-Wall Human Pose Estimation Using Radio Signals",IEEE/CVF Computer Vision and Pattern Recognition (CVPR),p.7356-7365,2018.
【非特許文献3】David B. Lindell,Gordon Wetzstein and Vladlen Koltun,"Acoustic Non-Line-of-Sight Imaging",IEEE/CVF Computer Vision and Pattern Recognition (CVPR),2019.
【発明の概要】
【発明が解決しようとする課題】
【0005】
非特許文献2の技術のように無線電波信号を入力とした場合、病室や航空機内などの電波を発する機器の利用が制限される環境下では使用できない。非特許文献3の技術は、無線を使用しないものの、複雑ではない形状のオブジェクトを可視化することを前提としたものであり、オブジェクトの姿勢を推定することは困難であった。
【0006】
上記事情に鑑み、本発明は、暗室環境下や電波を発する機器の使用が制限される環境下においても、オブジェクトの姿勢を非侵襲に推定することができる姿勢推定方法、姿勢推定装置及びプログラムを提供することを目的としている。
【課題を解決するための手段】
【0007】
本発明の一態様は、音響信号を取得する音響信号取得ステップと、前記音響信号取得ステップにおいて取得された前記音響信号から音響特徴量を抽出する特徴量抽出ステップと、音響特徴量とオブジェクトの姿勢を表す姿勢データとの対応を表すモデルである姿勢推定器に、前記音響信号取得ステップにおいて抽出された前記音響特徴量を入力してオブジェクトの推定の姿勢を表す姿勢データを得る推定ステップと、を有する姿勢推定方法である。
【0008】
本発明の一態様は、音響信号を取得する音響信号取得部と、前記音響信号取得部が取得した前記音響信号から音響特徴量を抽出する特徴量抽出部と、音響特徴量とオブジェクトの姿勢を表す姿勢データとの対応を表すモデルである姿勢推定器に、前記音響信号取得部が抽出した前記音響特徴量を入力してオブジェクトの推定の姿勢を表す姿勢データを得る姿勢推定部と、を備える姿勢推定装置である。
【0009】
本発明の一態様は、コンピュータに、上述した姿勢推定方法を実行させるためのプログラムである。
【発明の効果】
【0010】
本発明により、暗室環境下や電波を発する機器の使用が制限される環境下においても、オブジェクトの姿勢を非侵襲に推定することが可能となる。
【図面の簡単な説明】
【0011】
図1】本発明の一実施形態による姿勢推定装置の構成を示す機能ブロック図である。
図2】同実施形態による姿勢推定装置のハードウェア構成例を示す図である。
図3】同実施形態による機器設置環境を示す図である。
図4】同実施形態による姿勢推定装置の処理を示すフロー図である。
【発明を実施するための形態】
【0012】
以下、図面を参照して本発明の実施の形態を詳細に説明する。図1は、本発明の一実施形態による姿勢推定装置1の構成を示す機能ブロック図である。図1では、本実施形態と関係する機能ブロックのみを抽出して示してある。姿勢推定装置1は、音響信号取得部2と、特徴量抽出部3と、姿勢推定器学習部4と、姿勢推定部5とを有する。
【0013】
音響信号取得部2は、マイクが収音した音響信号を取得し、特徴量抽出部3に出力する。特徴量抽出部3は、音響信号取得部2から音響信号を入力し、入力した音響信号から特徴量を抽出する。音響信号から抽出される特徴量を音響特徴量と記載する。
【0014】
姿勢推定器学習部4は、姿勢推定器を学習する。姿勢推定器は、音響特徴量とオブジェクトの姿勢を表す姿勢データとの対応を表すモデルである。姿勢推定器は、例えば、音響特徴量を入力とし、姿勢データを出力するニューラルネットワークである。姿勢データは、オブジェクトの姿勢を表すことができれば任意のデータを用いることができる。例えば、姿勢データは、オブジェクトに含まれる各特徴点の位置を示すデータでもよく、基準の姿勢に対する相対的な姿勢を表すデータでもよく、オブジェクトを構成する各パーツの位置又は領域を表すデータでもよい。また、以下ではオブジェクトが人である場合を例に説明するが、オブジェクトは人に限定されない。姿勢推定器学習部4は、特徴量抽出部3が抽出した音響特徴量と、正解の姿勢データとの組を学習データに用いて、姿勢推定器のネットワークパラメータの値を推定する。ネットワークパラメータの値は、ニューラルネットワークを構成するノード間の結合の重みを表す。ネットワークパラメータは、重みパラメータともいう。
【0015】
姿勢推定部5は、姿勢推定器学習部4において推定されたネットワークパラメータの値を用いた姿勢推定器に、音響信号取得部2が取得した音響信号を入力して、オブジェクトの推定の姿勢を表す姿勢データを姿勢推定結果として得る。
【0016】
姿勢推定装置1は、例えば、コンピュータ装置により実現される。姿勢推定装置1をネットワークに接続される複数のコンピュータ装置により実現してもよい。この場合、姿勢推定装置1の各機能部を、これら複数のコンピュータ装置のいずれにより実現するかは任意とすることができる。また、姿勢推定装置1の同一の機能部を複数のコンピュータ装置により実現してもよい。例えば、姿勢推定器学習部4と、姿勢推定部5とが異なるコンピュータ装置で実現されてもよい。この場合、音響信号取得部2及び特徴量抽出部3は、姿勢推定器学習部4を実現するコンピュータ装置と、姿勢推定部5を実現するコンピュータ装置とのいずれか又は両方において実現されてもよく、さらに他のコンピュータ装置により実現されてもよい。
【0017】
図2は、姿勢推定装置1のハードウェア構成例を示す装置構成図である。姿勢推定装置1は、プロセッサ71と、記憶部72と、通信インタフェース73と、ユーザインタフェース74とを備える。プロセッサ71は、演算や制御を行う中央演算装置である。プロセッサ71は、例えば、CPU(central processing unit)である。プロセッサ71は、記憶部72からプログラムを読み出して実行することにより、音響信号取得部2、特徴量抽出部3、姿勢推定器学習部4及び姿勢推定部5の機能を実現する。記憶部72は、さらに、プロセッサ71が各種プログラムを実行する際のワークエリアなどを有する。通信インタフェース73は、他装置と通信可能に接続するものである。ユーザインタフェース74は、キーボード、ポインティングデバイス(マウス、タブレット等)、ボタン、タッチパネル等の入力装置や、ディスプレイなどの表示装置である。ユーザインタフェース74により、人為的な操作が入力される。
【0018】
なお、音響信号取得部2、特徴量抽出部3、姿勢推定器学習部4及び姿勢推定部5の機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。
【0019】
図3は、音響信号を取得するための機器設置環境を示す図である。音響信号取得部2は、マイク6が収音した音響信号を取得する。本実施形態ではマイクの種類や位置を制限するものではない。しかしながら、マイク6は、音響信号の到来方向を取得可能なアンビソニックスマイクであることが望ましい。また、音響信号の反射や減衰を考慮して、マイク6の位置は、人物7から50cm~2m程度離れた位置に置くことが望ましい。
【0020】
また、本実施形態は、スピーカーの有無による、アクティブセンシングもしくはパッシブセンシングを限定するものではない。しかしながら、より計測可能な音響信号の強度を担保する目的で、図3に示すように、スピーカー8から何らかの音響信号を発し、人物7により少なくとも一部が遮蔽されたその音響信号をマイク6により収音することなどが有効な機器設置方法として挙げられる。
【0021】
図4は、姿勢推定装置1の動作を示すフロー図である。音響信号取得部2は、姿勢推定器の学習用にマイク6が収音した音響信号を取得し、特徴量抽出部3に出力する(ステップS1)。特徴量抽出部3は、ステップS1において音響信号取得部2が取得した学習用の音響信号を入力する。特徴量抽出部3は、音響信号を姿勢推定器学習部4に入力するために、音響信号から抽出した音響特徴量をベクトル化し、特徴量ベクトルfを生成する(ステップS2)。本実施形態では、特徴量ベクトル化のアルゴリズムおよび特徴量ベクトルfの次元などを制限するものではない。しかながら、例えば、音響信号に短時間フーリエ変換を行ってメル尺度に変換した信号情報であるログメルスペクトログラムを音響特徴量として用いるなどの手法が考えられる。これにより、実際の音と人間の音高知覚の差異を吸収し、より効果的な学習が可能になると考えられる。特徴量抽出部3は、生成した音響特徴量を姿勢推定器学習部4に出力する。
【0022】
姿勢推定器学習部4は、ステップS2において特徴量抽出部3が生成した特徴量ベクトルfと、オブジェクトの正解の姿勢を表す値の姿勢データとを学習データとして取得する。正解の姿勢を表す値の姿勢データは、例えば外部の装置から受信してもよく、図示しない入力装置によりユーザが入力してもよく、記録媒体から読み出してもよい。姿勢推定器学習部4は、姿勢推定器に特徴量ベクトルfを入力して得られた姿勢データの値が、正解の姿勢データの値に近づくように、姿勢推定器を学習する(ステップS3)。この学習によって、姿勢推定器として用いられるニューラルネットワークの重みパラメータの値が得られる。本実施形態は、姿勢推定器のネットワーク構造を限定するものではない。しかしながら、例えば、非特許文献1に記載の既存のネットワーク構造を用いることが可能である。姿勢推定器学習部4は、学習によって得られた重みパラメータの値を姿勢推定部5に出力する。
【0023】
姿勢推定器の学習後、音響信号取得部2は、姿勢推定用にマイク6が収音した音響信号を取得し、特徴量抽出部3に出力する(ステップS4)。特徴量抽出部3は、ステップS4において音響信号取得部2が取得した音響信号から、ステップS2と同様の処理により特徴量ベクトルfを生成する(ステップS5)。特徴量抽出部3は、生成した特徴量ベクトルfを姿勢推定部5に出力する。
【0024】
姿勢推定部5は、ステップS3において姿勢推定器学習部4が算出した重みパラメータの値を姿勢推定器に設定する。姿勢推定部5は、ステップS5において特徴量抽出部3が生成した特徴量ベクトルfを姿勢推定器に入力し、人物の推定の姿勢を表す値の姿勢データを推定結果として得る(ステップS6)。姿勢推定部5は、得られた推定結果を出力する。出力は、画面への表示でもよく、印刷装置による印刷でもよく、ネットワークを介して接続される他の装置への送信でもよく、記録媒体への書き込みでもよい。
【0025】
本実施形態によれば、暗室環境下や電波を発する機器の使用が制限される環境下においても、非侵襲に人物等の複雑な形状のオブジェクトの姿勢を推定することが可能となる。
【0026】
上述した実施形態によれば、姿勢推定装置は、音響信号取得部と、特徴量抽出部と、姿勢推定部とを備える。音響信号取得部は、音響信号を取得する。特徴量抽出部は、音響信号取得部が取得した音響信号から音響特徴量を抽出する。音響特徴量は、例えば、ログメルスペクトログラムである。姿勢推定部は、音響特徴量とオブジェクトの姿勢を表す姿勢データとの対応を表すモデルである姿勢推定器に、音響信号取得部が抽出した音響特徴量を入力してオブジェクトの推定の姿勢を表す姿勢データを得る。
【0027】
姿勢推定装置はさらに、学習用音響信号取得部と、学習用特徴量抽出部と、学習部とを備えてもよい。例えば、学習用音響信号取得部は、実施形態の音響信号取得部2に対応し、学習用特徴量抽出部は実施形態の特徴量抽出部3に対応する。学習用音響信号取得部は、学習用の音響信号を取得する。学習用特徴量抽出部は、学習用音響信号取得部が取得した音響信号から音響特徴量を抽出する。学習部は、学習用特徴量抽出部が抽出した音響特徴量とオブジェクトの正解の姿勢を表す姿勢データとを用いて姿勢推定器を学習する。姿勢推定部は、学習部において学習された姿勢推定器に、特徴量抽出部が抽出した音響特徴量を入力してオブジェクトの推定の姿勢を表す姿勢データを得る。
【0028】
音響信号取得部及び学習用音響信号取得部においては、スピーカーから発せられ、オブジェクトにより少なくとも一部が遮蔽された音響信号を収音するマイクから音響信号を取得してもよい。マイクは、例えば、アンビソニックスマイクである。
【0029】
以上、図面を参照して本発明の実施の形態を説明してきたが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行ってもよい。
【符号の説明】
【0030】
1…姿勢推定装置、2…音響信号取得部、3…特徴量抽出部、4…姿勢推定器学習部、5…姿勢推定部、6…マイク、7…人物、8…スピーカー
図1
図2
図3
図4