(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022178269
(43)【公開日】2022-12-02
(54)【発明の名称】情報処理装置および情報処理方法
(51)【国際特許分類】
G06F 16/75 20190101AFI20221125BHJP
G06N 20/00 20190101ALI20221125BHJP
G06T 7/20 20170101ALI20221125BHJP
【FI】
G06F16/75
G06N20/00 130
G06T7/20 300Z
【審査請求】未請求
【請求項の数】4
【出願形態】OL
(21)【出願番号】P 2021084941
(22)【出願日】2021-05-19
(71)【出願人】
【識別番号】000000011
【氏名又は名称】株式会社アイシン
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】毛利 和弥
【テーマコード(参考)】
5B175
5L096
【Fターム(参考)】
5B175DA04
5B175FA03
5L096CA04
5L096DA01
5L096FA18
5L096FA67
5L096FA69
5L096GA51
5L096HA04
5L096MA07
(57)【要約】
【課題】所定の対象物が横断可能な通路を含む撮影領域を撮影して得られた時系列に複数のフレーム画像を用いたユーザによる機械学習用の教師データ作成を支援する。
【解決手段】実施形態の情報処理装置は、所定の対象物が横断可能な通路を含む撮影領域を撮影して得られた時系列に複数のフレーム画像を取得する。また、フレーム画像に写っている対象物について、フレーム画像ごとに、直前の1つ以上のフレーム画像を併せて用いて、変化状態、および、停滞状態、を含む複数の状態情報のいずれかを推定する。また、フレーム画像に写っている対象物ごとに、状態情報と所定の分割ルールに基づいて、時系列に複数のフレーム画像に対して、変化状態のフレーム画像から停滞状態のフレーム画像までの第1のシーケンスと、停滞状態のフレーム画像から変化状態のフレーム画像までの第2のシーケンスと、を分割して取り出してグルーピングする。
【選択図】
図6
【特許請求の範囲】
【請求項1】
所定の対象物が横断可能な通路を含む撮影領域を撮影して得られた時系列に複数のフレーム画像を取得する取得部と、
前記フレーム画像に写っている前記対象物について、前記フレーム画像ごとに、直前の1つ以上の前記フレーム画像を併せて用いて、動きと姿勢の少なくともいずれかに閾値以上の変化がある変化状態、および、動きと姿勢の両方に前記閾値以上の変化がない停滞状態、を含む複数の状態情報のいずれかを推定する状態推定部と、
前記フレーム画像に写っている前記対象物ごとに、前記状態情報と所定の分割ルールに基づいて、時系列に複数の前記フレーム画像に対して、前記変化状態の前記フレーム画像から前記停滞状態の前記フレーム画像までの第1のシーケンスと、前記停滞状態の前記フレーム画像から前記変化状態の前記フレーム画像までの第2のシーケンスと、を分割して取り出してグルーピングするシーケンス分割部と、
グルーピングされた前記第1のシーケンス、前記第2のシーケンスを表示部に表示させる表示制御部と、を備える情報処理装置。
【請求項2】
前記状態推定部は、前記フレーム画像に写っている前記対象物について、前記フレーム画像ごとに、直前の1つ以上の前記フレーム画像を併せて用いて、前記変化状態、前記停滞状態、および、画像処理の結果が不安定である不安定状態、のいずれかの状態情報を推定し、
前記情報処理装置は、グルーピングされた1つ以上の前記第1のシーケンス、1つ以上の前記第2のシーケンスのうち、含まれている前記不安定状態の前記フレーム画像の数が所定の許容数以下のシーケンスを抽出するシーケンス抽出部を、さらに備え、
前記表示制御部は、前記シーケンス抽出部によって抽出されたシーケンスを前記表示部に表示させる、請求項1に記載の情報処理装置。
【請求項3】
グルーピングされた1つ以上の前記第1のシーケンス、1つ以上の前記第2のシーケンスから、予め定められた前記第1のシーケンス、前記第2のシーケンスの抽出割合でシーケンスを抽出するシーケンス抽出部を、さらに備え、
前記表示制御部は、前記シーケンス抽出部によって抽出されたシーケンスを前記表示部に表示させる、請求項1に記載の情報処理装置。
【請求項4】
所定の対象物が横断可能な通路を含む撮影領域を撮影して得られた時系列に複数のフレーム画像を取得する取得ステップと、
前記フレーム画像に写っている前記対象物について、前記フレーム画像ごとに、直前の1つ以上の前記フレーム画像を併せて用いて、動きと姿勢の少なくともいずれかに閾値以上の変化がある変化状態、および、動きと姿勢の両方に前記閾値以上の変化がない停滞状態、を含む複数の状態情報のいずれかを推定する状態推定ステップと、
前記フレーム画像に写っている前記対象物ごとに、前記状態情報と所定の分割ルールに基づいて、時系列に複数の前記フレーム画像に対して、前記変化状態の前記フレーム画像から前記停滞状態の前記フレーム画像までの第1のシーケンスと、前記停滞状態の前記フレーム画像から前記変化状態の前記フレーム画像までの第2のシーケンスと、を分割して取り出してグルーピングするシーケンス分割ステップと、
グルーピングされた前記第1のシーケンス、前記第2のシーケンスを表示部に表示させる表示制御ステップと、を含む情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、情報処理装置および情報処理方法に関する。
【背景技術】
【0002】
従来から、例えば、車載カメラによって撮影した車両前方の撮影画像に基づいて、車道を横断しようとしている歩行者がいるか否かを判定する技術がある。
【0003】
また、そのような判定を教師データありの機械学習技術によって行う場合、事前に、教師データを準備する必要がある。ユーザは、教師データを作成する場合、例えば、時系列に複数のフレーム画像であるシーケンスデータにおける歩行者ごとに、車道を横断する意図の大きさを示すラベルを付与する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2020-184225号公報
【特許文献2】特開2019-520655号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来技術では、シーケンスデータの数が膨大になり、すべてのシーケンスデータにラベルを付与するのが困難な場合がある。また、シーケンスデータを間引くとしても、ランダムに間引くくらいしか方法がなく、改善の余地がある。
【0006】
そこで、本発明が解決しようとする課題は、所定の対象物が横断可能な通路を含む撮影領域を撮影して得られた時系列に複数のフレーム画像を用いたユーザによる機械学習用の教師データ作成を支援可能な情報処理装置および情報処理方法を提供することである。
【課題を解決するための手段】
【0007】
実施形態の情報処理装置は、所定の対象物が横断可能な通路を含む撮影領域を撮影して得られた時系列に複数のフレーム画像を取得する取得部と、前記フレーム画像に写っている前記対象物について、前記フレーム画像ごとに、直前の1つ以上の前記フレーム画像を併せて用いて、動きと姿勢の少なくともいずれかに閾値以上の変化がある変化状態、および、動きと姿勢の両方に前記閾値以上の変化がない停滞状態、を含む複数の状態情報のいずれかを推定する状態推定部と、前記フレーム画像に写っている前記対象物ごとに、前記状態情報と所定の分割ルールに基づいて、時系列に複数の前記フレーム画像に対して、前記変化状態の前記フレーム画像から前記停滞状態の前記フレーム画像までの第1のシーケンスと、前記停滞状態の前記フレーム画像から前記変化状態の前記フレーム画像までの第2のシーケンスと、を分割して取り出してグルーピングするシーケンス分割部と、グルーピングされた前記第1のシーケンス、前記第2のシーケンスを表示部に表示させる表示制御部と、を備える。
【図面の簡単な説明】
【0008】
【
図1】
図1は、本実施形態の情報処理装置の全体構成図である。
【
図2】
図2は、本実施形態における停滞状態のフレーム画像の例を模式的に示す図である。
【
図3】
図3は、本実施形態における変化状態のフレーム画像の例を模式的に示す図である。
【
図4】
図4は、本実施形態におけるフレーム分割の例を模式的に示す図である。
【
図5】
図5は、本実施形態におけるフレーム抽出の例を模式的に示す図である。
【
図6】
図6は、本実施形態の情報処理装置による処理を示すフローチャートである。
【発明を実施するための形態】
【0009】
以下、添付図面を参照して、本発明の情報処理装置および情報処理方法の実施形態について詳細に説明する。
【0010】
図1は、本実施形態の情報処理装置1の全体構成図である。情報処理装置1は、コンピュータ装置であって、記憶部2と、入力部3と、表示部4と、通信部5と、処理部6と、を備える。
【0011】
記憶部2は、各種情報を記憶する手段であって、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、SSD(Solid State Drive)、HDD(Hard Disk Drive)等によって実現される。
【0012】
入力部3は、ユーザによる情報入力手段であって、例えば、キーボード、タッチパネル、ポインティングデバイス、マウス、入力ボタン等によって実現される。
【0013】
表示部4は、各種情報を表示する手段であって、例えば、LCD(Liquid Crystal Display)、有機EL(Electro-Luminescence)等によって実現される。
【0014】
通信部5は、外部装置と通信するための通信インターフェースである。
【0015】
処理部6は、各種演算処理を実行する手段であって、例えば、CPU(Central Processing Unit)によって実現される。処理部6は、機能部として、取得部61と、状態推定部62と、シーケンス分割部63と、シーケンス抽出部64と、表示制御部65と、制御部66と、を備える。
【0016】
取得部61は、外部装置から各種情報を取得する。取得部61は、例えば、所定の対象物が横断可能な通路を含む撮影領域を撮影する撮影部(例えば乗用車等の車両に搭載されたカメラ)によって得られた時系列に複数のフレーム画像を取得する。ここで、所定の対象物は、例えば、人物、動物(犬、猫、鳥など)、車、自動車、自転車などである。以下では、所定の対象物として、人物、すなわち、歩行者である場合を例にとって説明する。
【0017】
状態推定部62は、フレーム画像に写っている歩行者について、フレーム画像ごとに、直前の1つ以上のフレーム画像を併せて用いて、次の3つの状態情報のいずれかを推定する。
(1)変化状態(動きと姿勢の少なくともいずれかに閾値(動きの閾値と姿勢の閾値がそれぞれ設けられている。)以上の変化がある状態)
(2)停滞状態(動きと姿勢の両方に閾値以上の変化がない状態)
(3)不安定状態(画像処理の結果が不安定である状態)
【0018】
ここで、
図2は、本実施形態における停滞状態のフレーム画像の例を模式的に示す図である。
図2のフレーム画像には、車道R、歩道W1、W2、歩行者Mが写っている。歩行者Mは、歩道W2に沿って歩いている。したがって、この歩行者Mは、動きと姿勢の両方に閾値以上の変化がなく、「停滞状態」と判定される。
【0019】
また、
図3は、本実施形態における変化状態のフレーム画像の例を模式的に示す図である。歩行者Mは、直前のフレーム画像での状態から、歩道W2上において車道R側に向かって動き(例えば進行方向等)と姿勢(例えば体の向きや顔の向き等)を変えている。したがって、この歩行者Mは、動きと姿勢の少なくともいずれかに閾値以上の変化があり、「変化状態」と判定される。
【0020】
図1に戻って、状態推定部62についてさらに詳細に説明する。状態推定部62は、物体検出部621と、姿勢推定部622と、物体認識部623と、状態判定部624と、を備える。
【0021】
物体検出部621(Object detection)は、フレーム画像内の歩行者に対し、バウンディングボックスを設定し、また、フレーム画像間におけるバウンディングボックスの対応付けを実施する。物体検出部621は、例えば、「Mask R-CNN」や「Yolo(You Only Look Once)」などの公知技術によって実現される。
【0022】
姿勢推定部622(Pose estimation)は、フレーム画像内の歩行者に対し、関節点の位置を推定する。姿勢推定部622は、例えば、「HRNet(High-Resolution Network)+ DarkPose」や「OpenPose」などの公知技術によって実現される。
【0023】
物体認識部623(Semantic segmentation)は、フレーム画像に対し、画素単位の物体認識を実施する。物体認識部623は、例えば、「BiSeNet(Bilateral Segmentation Network)」や「PanopticSegmentation」などの公知技術によって実現される。
【0024】
状態判定部624は、複数のフレーム画像間で、歩行者について、動きと姿勢の少なくともいずれかに閾値以上の変化があるとき、変化状態と判定する。例えば、状態判定部624は、歩行者が歩道上で歩く方向を変えた場合や、歩行者が頭の向きを変えた場合に、変化状態と判定する。
【0025】
また、状態判定部624は、複数のフレーム画像間で、歩行者について、動きと姿勢の両方に閾値以上の変化がないとき、停滞状態と判定する。例えば、状態判定部624は、歩行者が歩道上で真っすぐに等速で歩いている場合や、歩行者が歩道上で同じ姿勢で立ち止まっている場合に、停滞状態と判定する。
【0026】
また、状態判定部624は、複数のフレーム画像間で、歩行者について、画像処理の結果が不安定であるとき、不安定状態と判定する。例えば、状態判定部624は、SemanticSegmentationの大幅な変化時や、バウンディングボックスの対応付けエラー時や、姿勢推定部622による関節点の算出数が閾値以下の場合に、不安定状態と判定する。
【0027】
シーケンス分割部63は、フレーム画像に写っている歩行者ごとに、状態情報と所定の分割ルールに基づいて、時系列に複数のフレーム画像に対して、以下の2種類のシーケンスを探索して分割して取り出してグルーピングする。
(11)第1のシーケンス(変化状態のフレーム画像から停滞状態のフレーム画像まで)
(12)第2のシーケンス(停滞状態のフレーム画像から変化状態のフレーム画像まで)
【0028】
シーケンス分割部63は、フレーム画像に写っているすべての歩行者について、(11)第1のシーケンスと、(12)第2のシーケンスと、を探索して分割して取り出してグルーピングする。
【0029】
これについて、
図4を参照して説明する。
図4は、本実施形態におけるフレーム分割の例を模式的に示す図である。
図4(a)は、フレーム番号「1」~「30」の時系列の入力フレーム(入力されたフレーム画像)を示す。
【0030】
また、
図4(b)は、入力フレームに写っている歩行者Aについての状態判定部624による状態情報の判定結果を示す。「C」は変化状態を表し、「S」は停滞状態を表し、「U」は不安定状態を表す。
【0031】
また、
図4(c)~(h)は、シーケンス分割部63によってグルーピングされたシーケンスを示す。
図4(c)~(e)は、(11)第1のシーケンス(変化状態のフレーム画像から停滞状態のフレーム画像まで)を示す。なお、
図4(d)のシーケンスseq2は、前半の3つの「C」の間に1つの「S」が入っているが、このように、複数の「C」の間に1つの「S」が入っていたり、複数の「S」の間に1つの「C」が入っていたりすることを許容してよい。これは、グルーピングしたシーケンスをより有意義にするため等の理由による。
【0032】
また、
図4(f)~(h)は、(12)第2のシーケンス(停滞状態のフレーム画像から変化状態のフレーム画像まで)を示す。
【0033】
図1に戻って、シーケンス抽出部64は、グルーピングされた1つ以上の第1のシーケンス、1つ以上の第2のシーケンスから、所定のパラメータに基づいて、シーケンスを抽出する。例えば、シーケンス抽出部64は、グルーピングされた1つ以上の第1のシーケンス、1つ以上の第2のシーケンスのうち、含まれている不安定状態のフレーム画像の数が所定の許容数以下のシーケンスを抽出する。また、例えば、シーケンス抽出部64は、グルーピングされた1つ以上の第1のシーケンス、1つ以上の第2のシーケンスから、予め定められた第1のシーケンス、第2のシーケンスの抽出割合でシーケンスを抽出する。
【0034】
これらについて、
図5を参照して説明する。
図5は、本実施形態におけるフレーム抽出の例を模式的に示す図である。ここでは、シーケンス抽出部64は、以下のパラメータにしたがって、ラベル付け対象シーケンスを抽出する。
<パラメータ1>第1のシーケンスと第2のシーケンスの割合を50%ずつ
<パラメータ2>不安定状態許容数「1」
【0035】
図5(a)は、抽出前のシーケンスであり、歩行者Aのシーケンスseq1~6と、歩行者Bのシーケンスseq1~3がある。そして、
図5(b)は、シーケンス抽出部64による抽出後のシーケンスである。(1)は、歩行者Aのシーケンスseq1である。(2)は、歩行者Bのシーケンスseq2である。
【0036】
(3)は、歩行者Aのシーケンスseq2である。(4)は、歩行者Aのシーケンスseq4である。(5)は、歩行者Aのシーケンスseq5である。(6)は、歩行者Bのシーケンスseq3である。
【0037】
なお、シーケンス抽出に使用するパラメータは、上述のものに限定されない。ほかに、例えば、歩行者ごとに、少なくとも1つ以上のシーケンスを抽出する、という制約のパラメータを用いてもよい。
【0038】
図1に戻って、表示制御部65は、各種情報を表示部4に表示させる。表示制御部65は、例えば、シーケンス抽出部64によって抽出された第1のシーケンス、第2のシーケンスを表示部4に表示させる。
【0039】
制御部66は、各部61~65による処理以外の処理を実行する。制御部66は、例えば、シーケンス抽出部64によって抽出され、表示部4に表示された第1のシーケンス、第2のシーケンスに対するユーザによる入力部3を用いたラベル入力を受け付け、記憶部2に記憶させる。
【0040】
図6は、本実施形態の情報処理装置1による処理を示すフローチャートである。まず、ステップS1において、取得部61は、時系列に複数のフレーム画像(
図2、
図3)を取得する。
【0041】
次に、ステップS2において、状態推定部62は、フレーム画像に写っている歩行者について、フレーム画像ごとに、直前の1つ以上のフレーム画像を併せて用いて、変化状態、停滞状態、不安定状態のいずれかを推定する。
【0042】
次に、ステップS3において、シーケンス分割部63は、フレーム画像に写っている歩行者ごとに、状態情報と所定の分割ルールに基づいて、時系列に複数のフレーム画像に対して、2種類のシーケンス(第1のシーケンス、第2のシーケンス)を探索して分割して取り出してグルーピングする(
図4)。
【0043】
次に、ステップS4において、シーケンス抽出部64は、グルーピングされた1つ以上の第1のシーケンス、1つ以上の第2のシーケンスから、所定のパラメータに基づいて、シーケンスを抽出する(
図5)。
【0044】
次に、ステップS5において、表示制御部65は、ステップS4で抽出された第1のシーケンス、第2のシーケンスを表示部4に表示させる。
【0045】
次に、ステップS6において、制御部66は、ステップS5で表示部4に表示された第1のシーケンス、第2のシーケンスに対するユーザによる入力部3を用いたラベル入力を受け付け、記憶部2に記憶させる。
【0046】
このように、本実施形態の情報処理装置1によれば、時系列に複数のフレーム画像に基づいて、状態推定、シーケンス分割、シーケンス抽出を行って、抽出されたシーケンスを表示部4に表示させる。これにより、膨大な数のシーケンスから、意味のあるシーケンスを優先的に抽出し、表示することで、ユーザによるラベル付け作業を容易かつより有意義にすることができる。
【0047】
また、状態情報として、変化状態、停滞状態のほかに不安定状態も使用し、シーケンス抽出時に、その不安定状態のフレーム画像の数に応じた抽出をすることができる。これにより、例えば、開発当初の時点では、理論構築のためにノイズを減らすように、不安定状態のフレーム画像が少ないシーケンスだけを抽出することができる。また、例えば、開発終盤の時点では、ロバスト性向上のためにノイズをあえて増やすように、不安定状態のフレーム画像が多いシーケンスも抽出することができる。つまり、目的や開発フェーズに応じてノイズの混入割合を調整することで、ラベル付与工数を調整できる。
【0048】
また、シーケンス抽出時に、第1のシーケンスと第2のシーケンスの抽出割合を決めておくことで、ユーザが所望するシーケンスを抽出することができる。つまり、例えば、歩行者の単調な動きのシーケンスが多数を占めるなどの偏った学習データになることを防ぐことができる。
【0049】
また、
図4に示すように、入力シーケンスから、フレーム画像の重複を許容したシーケンス分割を行うことで、歩行者の横断意図の移り変わりをもれなくピックアップできる。つまり、歩行者の一連の動きに関するラベル付与を支援できるので、ラベルの精度が上がる。
【0050】
一方、従来技術で、例えば、機械学習等を用いて、動画から定型作業の開始位置と終了位置を推定し、これを仮ラベルとして、ユーザが仮ラベル区間を確認し、区間の調整・確定をする技術がある。しかし、横断意図(通路を横断する意図)の変化は多様であるので、この従来技術は、本実施形態のような横断意図のラベル付与に関するシーケンス抽出には適さない。
【0051】
また、他の従来技術で、例えば、空中に放たれた物体は放物線軌道に従う等の物理法則の制約を用いることでラベル付与の負担を軽減させる技術がある。しかし、歩行者の横断意図は物理法則に従う事象ではないので、この従来技術は、本実施形態のような横断意図のラベル付与に関するシーケンス抽出には適さない。
【0052】
なお、上述した実施形態における、上記情報処理を実行するためのプログラムを、インストール可能な形式または実行可能な形式のファイルでCD-ROM、フレキシブルディスク(FD)、CD-R、DVD(Digital Versatile Disk)、USB(Universal Serial Bus)メモリ等のコンピュータで読み取り可能な記録媒体に記録して提供するようにしてもよい。また、当該プログラムを、インターネット等のネットワーク経由で提供または配布するようにしてもよい。また、当該プログラムを、ROM等に予め組み込んで提供するようにしてもよい。
【0053】
また、当該プログラムは、上記各機能部を含むモジュール構成となっており、実際のハードウェアとしては、例えば、CPU(プロセッサ回路)がROMまたはHDDから当該プログラムを読み出して実行することにより、上述した各機能部がRAM(主記憶)上にロードされ、上述した各機能部がRAM(主記憶)上に生成されるようになっている。なお、上述した各機能部の一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)などの専用のハードウェアを用いて実現することも可能である。
【0054】
なお、実施形態について説明したが、上記実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。上記新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上記実施形態は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【0055】
例えば、本発明の適用先は、車両に限定されず、移動ロボットなどの他の物体でもよい。
【符号の説明】
【0056】
1…情報処理装置、2…記憶部、3…入力部、4…表示部、5…通信部、6…処理部、61…取得部、62…状態推定部、63…シーケンス分割部、64…シーケンス抽出部、65…表示制御部、66…制御部、621…物体検出部、622…姿勢推定部、623…物体認識部、624…状態判定部、M…歩行者、R…車道、W1、W2…歩道