IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌ・ティ・ティ・コミュニケーションズ株式会社の特許一覧

特開2022-93164情報重畳装置、情報重畳方法、及びプログラム
<>
  • 特開-情報重畳装置、情報重畳方法、及びプログラム 図1
  • 特開-情報重畳装置、情報重畳方法、及びプログラム 図2
  • 特開-情報重畳装置、情報重畳方法、及びプログラム 図3
  • 特開-情報重畳装置、情報重畳方法、及びプログラム 図4
  • 特開-情報重畳装置、情報重畳方法、及びプログラム 図5
  • 特開-情報重畳装置、情報重畳方法、及びプログラム 図6
  • 特開-情報重畳装置、情報重畳方法、及びプログラム 図7
  • 特開-情報重畳装置、情報重畳方法、及びプログラム 図8
  • 特開-情報重畳装置、情報重畳方法、及びプログラム 図9
  • 特開-情報重畳装置、情報重畳方法、及びプログラム 図10
  • 特開-情報重畳装置、情報重畳方法、及びプログラム 図11
  • 特開-情報重畳装置、情報重畳方法、及びプログラム 図12
  • 特開-情報重畳装置、情報重畳方法、及びプログラム 図13
  • 特開-情報重畳装置、情報重畳方法、及びプログラム 図14
  • 特開-情報重畳装置、情報重畳方法、及びプログラム 図15
  • 特開-情報重畳装置、情報重畳方法、及びプログラム 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022093164
(43)【公開日】2022-06-23
(54)【発明の名称】情報重畳装置、情報重畳方法、及びプログラム
(51)【国際特許分類】
   G06T 7/70 20170101AFI20220616BHJP
   H04N 7/18 20060101ALI20220616BHJP
【FI】
G06T7/70 A
H04N7/18 U
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2020206298
(22)【出願日】2020-12-11
(71)【出願人】
【識別番号】399035766
【氏名又は名称】エヌ・ティ・ティ・コミュニケーションズ株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】田良島 周平
【テーマコード(参考)】
5C054
5L096
【Fターム(参考)】
5C054CA04
5C054CC02
5C054FC12
5C054FE09
5C054FE13
5L096CA04
5L096DA01
5L096FA09
5L096FA12
5L096FA66
5L096FA69
5L096FA77
5L096GA34
5L096HA02
5L096JA03
(57)【要約】
【課題】視聴者が、関連情報の内容を把握し易いように、物体に対応付く関連情報を映像に重畳できるようにする。
【解決手段】映像上の物体に対応付く重畳情報を当該映像に重畳するための情報重畳装置であって、前記映像から認識された1以上の物体のそれぞれの位置に基づいて、認識された物体と重複せずに前記重畳情報を重畳可能な位置である候補重畳位置を、前記映像から抽出する候補重畳位置選択部と、前記候補重畳位置の集合と、前記映像から認識された1以上の物体のそれぞれの位置に基づいて、物体と当該物体に対応付く重畳情報との間の距離が小さくなるように、重畳情報の位置を決定する位置決定部とを備える情報重畳装置が提供される。
【選択図】図13
【特許請求の範囲】
【請求項1】
映像上の物体に対応付く重畳情報を当該映像に重畳するための情報重畳装置であって、
前記映像から認識された1以上の物体のそれぞれの位置に基づいて、認識された物体と重複せずに前記重畳情報を重畳可能な位置である候補重畳位置を、前記映像から抽出する候補重畳位置選択部と、
前記候補重畳位置の集合と、前記映像から認識された1以上の物体のそれぞれの位置に基づいて、物体と当該物体に対応付く重畳情報との間の距離が小さくなるように、重畳情報の位置を決定する位置決定部と
を備える情報重畳装置。
【請求項2】
映像上の物体に対応付く重畳情報を当該映像に重畳するための情報重畳装置であって、
前記映像から認識された1以上の物体のそれぞれの位置に基づいて、認識された物体と重複せずに前記重畳情報を重畳可能な位置である候補重畳位置を、前記映像から抽出する候補重畳位置選択部と、
前記候補重畳位置の集合と、前記映像から認識された1以上の物体のそれぞれの位置に基づいて、画像フレーム間での重畳情報の位置の変化が小さくなるように、重畳情報の位置を決定する位置決定部と
を備える情報重畳装置。
【請求項3】
映像上の物体に対応付く重畳情報を当該映像に重畳するための情報重畳装置であって、
前記映像から認識された1以上の物体のそれぞれの位置に基づいて、認識された物体と重複せずに前記重畳情報を重畳可能な位置である候補重畳位置を、前記映像から抽出する候補重畳位置選択部と、
前記候補重畳位置の集合と、前記映像から認識された1以上の物体のそれぞれの位置に基づいて、物体と当該物体に対応付く重畳情報との間の距離が小さくなり、かつ、画像フレーム間での重畳情報の位置の変化が小さくなるように、重畳情報の位置を決定する位置決定部と
を備える情報重畳装置。
【請求項4】
前記位置決定部は、前時刻に物体に重畳情報が重畳されている場合に、その位置と候補重畳位置との距離を小さくすること、及び、前時刻に物体に重畳情報が重畳されていない場合に、物体の位置と候補重畳位置との距離を小さくすることを目的関数とする最適化問題を解くことにより、各物体に対する重畳情報の位置を決定する
請求項3に記載の情報重畳装置。
【請求項5】
映像上の物体に対応付く重畳情報を当該映像に重畳するための情報重畳装置が実行する情報重畳方法であって、
前記映像から認識された1以上の物体のそれぞれの位置に基づいて、認識された物体と重複せずに前記重畳情報を重畳可能な位置である候補重畳位置を、前記映像から抽出する候補重畳位置選択ステップと、
前記候補重畳位置の集合と、前記映像から認識された1以上の物体のそれぞれの位置に基づいて、物体と当該物体に対応付く重畳情報との間の距離が小さくなり、かつ、画像フレーム間での重畳情報の位置の変化が小さくなるように、重畳情報の位置を決定する位置決定ステップと
を備える情報重畳方法。
【請求項6】
コンピュータを、請求項1ないし4のうちいずれか1項に記載の情報重畳装置における各部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像上の物体を認識し、認識した物体に対して関連情報を重畳する技術に関連するものである。
【背景技術】
【0002】
映像上の物体を認識し、認識した物体に対して関連情報を重畳する技術が従来から存在する。映像に映る特定の物体の関連情報を重畳表示することにより、視聴者は主体的に調べることなく情報を入手することができる。
【0003】
入力映像中に映る特定物体を認識し、その関連情報を映像へ重畳表示するための処理には、大きく、特定物体を認識する処理(物体認識処理)と、その処理結果を入力として情報を重畳する処理(情報重畳処理)の2つの処理が含まれる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2009-251774号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
前述した情報重畳処理について、映像から検出された物体の領域に接する位置に関連情報を表示する従来技術がある。しかし、この従来技術では、物体そのものや、あるいは近接する物体を関連情報が隠してしまうことが頻発し、視聴体験の質を損ねてしまう。すなわち、従来の情報重畳処理では、視聴者が、関連情報の内容を把握し易いように関連情報を表示できなかったという課題がある。
【0006】
本発明は上記の点に鑑みてなされたものであり、視聴者が、関連情報の内容を把握し易いように、物体に対応付く関連情報を映像に重畳することを可能とする技術を提供することを目的とする。
【課題を解決するための手段】
【0007】
開示の技術によれば、映像上の物体に対応付く重畳情報を当該映像に重畳するための情報重畳装置であって、
前記映像から認識された1以上の物体のそれぞれの位置に基づいて、認識された物体と重複せずに前記重畳情報を重畳可能な位置である候補重畳位置を、前記映像から抽出する候補重畳位置選択部と、
前記候補重畳位置の集合と、前記映像から認識された1以上の物体のそれぞれの位置に基づいて、物体と当該物体に対応付く重畳情報との間の距離が小さくなるように、重畳情報の位置を決定する位置決定部と
を備える情報重畳装置が提供される。
【発明の効果】
【0008】
開示の技術によれば、視聴者が、関連情報の内容を把握し易いように、物体に対応付く関連情報を映像に重畳することを可能とする技術が提供される。
【図面の簡単な説明】
【0009】
図1】特定物体の関連情報を映像へ重畳表示する例を示す図である。
図2】クラスや属性の判別に失敗する場合の例を示す図である。
図3】クラスや属性の判別に失敗する場合の例を示す図である。
図4】情報提示装置の構成図である。
図5】情報提示装置の動作を説明するための図である。
図6】重畳情報の例を示す図である。
図7】物体認識装置の構成図である。
図8】ラベル判定部の構成図である。
図9】物体認識装置の動作を説明するための図である。
図10】物体の例を示す図である。
図11】ある物体より手前に存在する物体を抽出する方法を説明するための図である。
図12】物体の属性が認識可能な程度見えているか否かを判定する方法を説明するための図である。
図13】情報重畳装置の構成図である。
図14】情報重畳装置の動作を説明するための図である。
図15】候補物体重畳位置を説明するための図である。
図16】装置のハードウェア構成例を示す図である。
【発明を実施するための形態】
【0010】
以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
【0011】
(本実施の形態の概要)
本実施の形態は、入力映像中に映る特定物体を認識し、その関連情報を映像へ重畳表示する技術に関するものである。
【0012】
当該技術の具体例として、図1には、ラグビーの試合映像を入力として、その中に映る選手が認識され、氏名やポジション、身長、体重といった関連情報が当該選手の付近に、パネル画像で提示される例が示されている。
【0013】
このように、映像に映る特定の物体(例:選手)の関連情報を重畳表示することができれば、視聴者は主体的に調べることなく情報を入手することができる。特に、視聴者が対象映像について詳しくない場合、映像に映る物体のうち関心をもったものの詳細を調べる手段は極めて少ないことから、情報を重畳提示することは、視聴者の内容理解を大きく促進できるものと期待される。すなわち、本実施の形態に係る技術は、視聴体験の向上につながる。
【0014】
入力映像中に映る特定物体を認識し、その関連情報を映像へ重畳表示するためには、大きく、特定物体を認識する処理(物体認識処理)と、その処理結果を入力として情報を重畳する処理(情報重畳処理)の2つが必要となる。
【0015】
本実施の形態では、物体認識処理に関わる例を実施例1として説明し、情報重畳処理に関わる例を実施例2として説明している。なお、本実施の形態では、物体認識処理と情報重畳処理とを組み合わせる実施形態を説明しているが、物体認識処理と情報重畳処理とがそれぞれ単独に実施されてもよい。
【0016】
各実施例の装置構成及び動作を説明する前に、まず、課題の詳細を説明する。なお、下記の説明で使用する参考文献名については、明細書の最後にまとめて記載した。
【0017】
(実施例1に関する課題について)
物体認識処理について、最も単純に実現する方法の一つは、例えば参考文献[1]などに開示されている物体検出器を用いて、対象となる物体を映像中の各画像フレームから検出するというものである。この場合、各対象物体毎に、物体検出器を学習するための教師データを用意する必要がある。一般にこのような教師データの収集には無視できないコストがかかる。特に、対象となる異なる物体の見えが似ている場合、例えば図1のような例で同じユニフォームを着た異なる複数選手が対象の場合、それらを見分けるために用意すべき学習データは膨大な量となり、仮にデータが不十分である場合、十分な認識精度を得ることができない。
【0018】
別の方法として、候補となる物体を検出した後に、その各々から所定のクラスや属性を認識検出することで、特定物体を認識することが考えられる。図1の例の場合、具体的には、まず画像フレームから人物を検出し、その全貌の見えからチーム(クラスの具体例)を推定するとともに、参考文献[2]で開示されている方法などで背番号(属性の具体例)を認識することで、チームと背番号との組み合わせから選手を一意に判別するといった方法が考えられる。この方法を用いることで、対象物体それぞれについて学習データを用意する必要がなくなる。
【0019】
しかしこの方法には大きく2つの問題がある。1つ目の問題点は、物体とカメラの位置関係によっては、当該画像フレームにクラスや属性を認識判別するための見えの情報が十分に映り込まず、認識に失敗してしまうことが多い点である。図2図3に例を示す。図2の例において、実線枠で囲われた選手は、その姿のほとんどが点線枠で囲われた選手によって隠れているため、実線枠を見えの領域を手がかりとした場合、チームの推定に失敗してしまう可能性が高い。
【0020】
また、図3の例において、選手の背番号は背中に76とプリントされており、中央の画像では背番号を正確に認識できるが、両端の画像では、選手の姿勢が原因でその一部分(左では6のみ、右では7のみ)しか写り込んでおらず、これらの画像から正確な背番号を認識することは極めて困難である。
【0021】
2つ目の問題点は、全ての検出結果に対しクラス及び属性を認識検出することは計算コストが高い点である。対象となる物体が多数写り込むケースや、リアルタイム処理が要求されるケースでは、その問題はより顕著となる。
【0022】
上記のとおり、候補となる物体のクラスや属性を検出して、特定物体を判別する手法を単純に適用する場合、特定物体を判別するための手がかりとなるクラスや属性の認識精度が低く、また、その処理速度も遅いという課題がある。
【0023】
(実施例2に関する課題について)
次に情報重畳処理について、参考文献[3]では、検出された物体領域に接する位置にそのラベルを表示出力する方法が開示されている。図1の例に示したパネルのような、対象物体と同等かそれ以上のサイズの重畳情報を表示する方法として参考文献[3]を用いた場合、物体そのものや、あるいは近接する物体をパネルが隠してしまうことが頻発し、視聴体験の質を損ねてしまう。
【0024】
上記の課題を解決するために、対象物体を隠すことがないよう、対象物体との重複が発生せずかつ対象物体に近い位置を画像フレーム毎に判定し得られた位置に重畳情報を配置する方法が考えられる。この方法により、視聴者が、重畳情報の内容を把握し易いように重畳情報を表示できる。
【0025】
ただし、この方法では、重畳情報の位置の時間的な一貫性が考慮されていないため、重畳情報の位置が画像フレーム毎に大きく変化してしまい、視聴者が表示されている情報の内容を把握することができない場合が生じ得る。
【0026】
本実施例では、(i)重畳情報が対象物体を遮蔽しない、(ii)対象物体との近接性が保たれていること、(iii)重畳情報位置の時間的な一貫性が保たれていることを同時に満足させるようにしている。これにより、重畳情報の位置が画像フレーム毎に大きく変化することなく、視聴者が、重畳情報の内容を把握し易いように重畳情報を表示できる。
【0027】
(装置の全体構成例)
本実施の形態では、図1に示したラグビー映像からの選手認識及びその情報提示を例として、その実施例について説明する。ただし、ラグビー映像を対象とすることは一例であり、本発明に係る技術はラグビー以外のスポーツを対象とした選手認識にも適用可能であり、また選手以外の特定物体、例えば商品や動物、建造物や標識等を対象としてもよい。
【0028】
図4に、本実施の形態における情報提示装置300の全体構成図を示す。図4に示すように、情報提示装置300は、物体認識部100、映像データ格納部110、情報重畳部200、物体重畳情報格納部210を有する。なお、映像データ格納部110が物体認識部100に含まれていてもよいし、物体重畳情報格納部210が情報重畳部200に含まれていてもよい。また、映像データ格納部110と物体重畳情報格納部210が情報提示装置の外部にあってもよい。
【0029】
情報提示装置300は、1つのコンピュータにより構成されてもよいし、複数のコンピュータがネットワーク接続されることにより構成されてもよい。また、物体認識部100、情報重畳部200をそれぞれ、物体認識装置100、情報重畳装置200と呼んでもよい。後述する実施例1、2では、物体認識装置100、情報重畳装置200と呼んでいる。また、情報提示装置300を、物体認識装置あるいは情報重畳装置と呼んでもよい。
【0030】
映像データ格納部110には、時系列の画像フレームが格納されており、物体認識部100及び情報重畳部200は、映像データ格納部110から読み出された画像フレーム毎に処理を行う。各時刻の画像フレームに対して処理を行うイメージを図5に示す。図5に示すように、時刻t=0の画像フレームから順次、各時刻の画像フレームに対して処理がなされる。物体認識部100及び情報重畳部200の動作の概要は下記のとおりである。これらの詳細については、後述する実施例1、2において説明する。
【0031】
物体認識部100は、映像データ格納部110に格納されている映像データを構成する各時刻の画像フレーム及び直前時刻の物体認識結果を入力として、現在時刻の物体認識結果を出力する。なお、「現在時刻」とは、物体認識あるいは情報重畳の処理対象となっている最新の画像フレームの時刻である。
【0032】
物体重畳情報格納部210には、対象となる各特定物体に重畳する重畳情報が格納されている。本実施の形態における重畳情報の例を図6に示す。図6に示す例の重畳情報は、選手のクラス及び属性の各対についての、重畳対象となるデータ(重畳画像)である。本実施の形態では、クラスは選手の所属するチーム名、属性は背番号である。また以下では、クラス、属性の対を、特定物体のラベルと呼称する。本実施の形態では、図6に示すとおり、特定物体のラベルは、物体のクラスと属性の組み合わせにより一意に定まるものとする。
【0033】
なお、本実施の形態では、「クラス」と「属性」とを使用しているが、いずれも属性の例である。また、「ラベル」も属性の例である。例えば、チーム名を属性1と呼び、背番号を属性2と呼んでもよい。また、クラスを属性の例とした場合において、属性の数は2つに限られず、1つでもよいし、3つ以上でもよい。
【0034】
情報重畳部200は、物体重畳情報格納部210に格納されている物体重畳情報のうちの、現在時刻の画像フレームに映る物体の重畳情報について、直前画像フレームにおける重畳位置をふまえその重畳位置を決定し、現在時刻の画像フレームへ重畳しその結果を出力する。重畳情報が重畳された各時刻の画像フレームは、例えば、ユーザ端末に送信され、ユーザ端末上で重畳情報が重畳された映像として表示される。
【0035】
以下、物体認識部100に相当する物体認識装置100の詳細例を実施例1として説明し、情報重畳部200に相当する情報重畳装置200の詳細例を実施例2として説明する。
【0036】
(実施例1)
<物体認識装置100の構成>
図7に、物体認識装置100の構成例を示す。図7に示すように、物体認識装置100は、映像データ格納部110、検出部120、追跡部130、ラベル判定部140を備える。各部の動作概要は下記のとおりである。
【0037】
映像データ格納部110には、時系列の画像フレームが格納されている。検出部120は、映像データ格納部110に格納されている映像データを構成する各時刻の画像フレームを入力とし、その中に映る物体を検出する。
【0038】
追跡部130は、検出部120が出力する検出結果と過去の追跡結果とを入力として、現在時刻の追跡結果を出力する。ラベル判定部140は、追跡部130が出力する追跡結果及び現在時刻の画像フレームを入力として、各追跡物体の特定物体ラベルを判定する。
【0039】
ここで、追跡部130が出力する追跡結果は、現在時刻の画像フレームに映る各物体の位置の集合と、映像を通じて同一の個体が共有するIDの集合(追跡ID集合)とで構成される。
【0040】
ラベル判定部140では、現在時刻の画像フレームの追跡結果に含まれる追跡IDのうち、過去に特定物体ラベルが割り当てられていないものにのみラベル判定処理を行う。これにより、画像フレームで検出された全ての物体についてラベル判定を行う場合に比べ、ラベル判定を行う回数を削減することが可能となり、結果として、処理全体のスループットを向上させることができる。
【0041】
図8に、ラベル判定部140の構成例を示す。図8に示すように、ラベル判定部140は、クラスビジビリティ判定部141、クラス推定部142、属性ビジビリティ判定部143、属性判定部144を有する。各部の動作概要は下記のとおりである。
【0042】
クラスビジビリティ判定部141は、物体位置集合及び追跡ID集合を入力として、現在時刻の画像フレームに映りかつ特定物体ラベルが割り当てられていない追跡IDの各物体について、クラスに関する見えの情報が写り込んでいるか否かを判定する。
【0043】
クラス推定部142は、クラスビジビリティ判定部141でクラスに関する見えの情報が写り込んでいると判定された追跡IDの各物体について、その見えの情報に基づきクラスを推定する。
【0044】
クラスビジビリティ判定部141では、ある物体において、同一画像フレームに映る他の物体との空間的な重複を評価することで、クラスに関する見えの情報が写り込んでいるか否かを判定する。クラスに関する見えの情報が写り込んでいると判定された物体についてそのクラスを推定することで、クラスの誤推定を抑制することができる。
【0045】
属性ビジビリティ判定部143は、物体位置集合及び追跡ID集合を入力として、現在時刻の画像フレームに映りかつ特定物体ラベルが割り当てられていない追跡IDの各物体について、属性に関する見えの情報が写り込んでいるか否かを判定する。
【0046】
属性推定部144は、属性ビジビリティ判定部143で属性に関する見えの情報が写り込んでいると判定された追跡IDの各物体について、その見えの情報に基づき属性を推定する。
【0047】
属性ビジビリティ判定部143では、ある物体について、同一画像フレームに映る他の物体との空間的な重複と物体の姿勢とを評価することで、属性に関する見えの情報が写り込んでいるか否かを判定する。属性に関する見えの情報が写り込んでいると判定された物体についてその属性を推定することで、属性の誤推定を抑制することができる。
【0048】
なお、ラベル判定部140、「クラスビジビリティ判定部141+クラス推定部142」、「属性ビジビリティ判定部143+属性推定部144」は、いずれも属性判定部の例である。
【0049】
<物体認識装置100の動作詳細>
上述したとおり、物体認識装置100の映像データ格納部110には、時系列の画像フレームが格納されており、検出部120(及び、追跡部130とラベル判定部140)は、映像データ格納部110から読み出された画像フレーム毎に処理を行う。各時刻の画像フレームに対して処理を行うイメージを図9に示す。図9に示すように、時刻t=0の画像フレームから順次、各時刻の画像フレームに対して処理がなされる。以下、図8~12を参照して物体認識装置100の各部の動作の詳細を説明する。
【0050】
<検出部120>
検出部120は、映像における各時刻の画像フレームを入力として、その中に映る物体の位置を検出し、またその姿勢を推定する。物体の位置を定義する方法は任意であり、例えば図10の黒枠で定義されるような、物体を過不足なく囲う矩形で定義すればよい。
【0051】
また、物体の姿勢を定義する方法も任意であり、例えば図10に示すような、物体の関節点(目、肩、腰など、この例では合計17関節)の位置集合として定義すればよい。
【0052】
本実施例1のように、検出対象の物体が人物である場合において、人物の検出及びその姿勢を推定する方法は任意であり、例えば参考文献[1]に開示された技術を用いることができる。このとき、画像中で対象となる領域が定義されたマスクを用意しておき、検出された人物がその中に含まれるか否かを判定することで、結果をフィルタリングした上で出力してもよい。
【0053】
本実施例1では、入力画像中でラグビーコートに含まれる領域が定義されたマスクを用いることで、観客やスタッフに対応する人物の検出結果を除外することができる。また、内部で画像データを所定のサイズへリサイズしたうえで姿勢推定を行ってもよい。
【0054】
<追跡部130>
追跡部130は、検出部120から出力された現在時刻の物体検出結果と過去の追跡結果を入力として、現在時刻の追跡結果を出力する。ここで、追跡結果は、追跡対象の個体毎に割り当てられる追跡IDの集合と、現在時刻における各追跡IDの個体の位置(姿勢を含む)の集合とから構成される。追跡部130は、例えば参考文献[4]で開示されている技術を用いて、上記追跡を行うことができる。
【0055】
<ラベル判定部140>
ラベル判定部140は、追跡部130から出力された現在時刻の追跡結果のうち、ラベルがこれまでに付与されていないIDの個体に対してラベルを割り当てる。前述したとおり、本実施例1におけるラベルはクラスと属性の組み合わせで定義される。
【0056】
図8に示したとおり、ラベル判定部140は、クラスビジビリティ判定部141、クラス推定部142、属性ビジビリティ判定部143、属性推定部144から構成される。以下、各部の動作を説明する。
【0057】
<クラスビジビリティ判定部141>
クラスビジビリティ判定部141は、現在時刻の物体位置集合を入力として、各物体について、それがクラス認識可能な程度見えているか否かを判定し出力する。
【0058】
本実施例1におけるクラスビジビリティ判定部141は、物体がクラス認識可能な程度見えているか否かを判定するために、当該物体より手前に存在する物体によって、当該物体がどの程度隠れていないかを計算し、その値を所定の閾値と比較することとしている。
【0059】
当該物体より手前に存在する物体を抽出する方法は特定の方法に限られず、任意の方法を用いることが可能である。当該物体より手前に存在する物体を抽出する方法の一例を、図11を参照して説明する。
【0060】
図11は、平面の競技コート上に対象となる物体(人物)が存在する場合の例を示している。この場合、各物体の足元に相等する位置の画像上のy座標を比較すればよい。図11の例では、y_1よりもy_2のほうが大きいので、y_1に対応する人物は、y_2に対応する人物の手前に存在すると判断できる。
【0061】
また、当該物体がどの程度隠れていないかの計算についても特定の方法に限定されず、任意の方法を用いることが可能である。例えば、当該物体と手前に存在する各物体とでIntersection-over-Union(IoU)を計算し、その最大値を1から引いた値として、どの程度隠れていないか(つまり、どの程度見えているか)の指標を計算できる。当該指標がビジビリティである。
【0062】
例えば、図11の例において、手前の人物のビジビリティをV1とし、後ろの人物のビジビリティをV2とする。手前の人物は、隠れていないので、V1=1である。また、(「手前の人物の領域」と「後ろの人物の領域」の交わり)÷(「手前の人物の領域」と「後ろの人物の領域」の結び)、つまり、IoUを0.4であるとすると、V2=1-0.4=0.6となる。
【0063】
クラスビジビリティ判定部141は、例えば、後ろの人物について、V2が閾値よりも大きければ、後ろの人物はクラス認識可能な程度見えていると判定する。
【0064】
<クラス推定部142>
クラス推定部142は、現在時刻の追跡結果のうち、クラスが割り当てられておらず、また、クラスビジビリティ判定部141でクラス認識可能な程度見えていると判定された物体について、そのクラスを推定し出力する。クラス推定の方法は、特定の方法に限定されず、任意の方法を用いることが可能である。
【0065】
例えば、物体位置に対応する画像フレーム中の部分領域から参考文献[5]に開示された技術を用いて特徴量を抽出し、その特徴量をSVMなどの識別器に入力することで、その部分領域の物体を所定のクラスへ分類することができる。あるいは、各クラスについて代表的な特徴を事前に定義しておき、部分領域から抽出された特徴をそれらの代表特徴と比較、最も類似したものに対応するクラスを割り当ててもよい。代表特徴を算出する方法は任意であり、例えば各クラスの物体から抽出された特徴を平均するなどすればよい。
【0066】
<属性ビジビリティ判定部143>
属性ビジビリティ判定部143では、現在時刻の物体位置集合を入力として、各物体について、それが属性認識可能な程度見えているか否かを判定し出力する。本実施例1では、各物体が属性認識可能な程度見えているか否かを判定するにあたっては、物体の姿勢情報を用いる。
【0067】
本実施例1では、対象となる物体である選手の背中に背番号がプリントされている。この条件の下、物体の属性が認識可能な程度見えているか否かを判定する方法の例について、図12を参照して説明する。
【0068】
図12の例において、人物の関節点(肩、腰)の画像上の位置により姿勢が表現される。具体的には、図12の場合、属性ビジビリティ判定部143は、左側の肩の位置pls=(xls,yls)、右側の肩の位置prs=(xrs,yrs)、左側の腰の位置plw=(xlw,ylw)、右側の腰の位置prw=(xrw,yrw)を取得する。
【0069】
属性ビジビリティ判定部143は、下記の式を満たすかどうかを判定する。
【0070】
【数1】
上記の式において、plsrsの上部にバーが付されたものは、plsとprsとの間の長さを示す。また、σaspectは、パラメータである。なお、1>σaspect>0である。属性ビジビリティ判定部143は、上記の式を満たすことを検知した場合に、当該人物について、True(属性を含む領域が見えている)と判断し、上記の式を満たさないことを検知した場合に、False(属性を含む領域が見えていない)と判断する。
【0071】
属性ビジビリティ判定部143は、物体の姿勢を用いる方法に加え、又は、物体の姿勢を用いる方法に代えて、クラスビジビリティ判定部141と同様に、物体間の重なりに基づいて対象物体の属性が認識可能な程度見えているか否かを判定してもよい。
【0072】
なお、クラスビジビリティ判定部141は、物体間の重なりを用いる方法に加え、又は、物体間の重なりを用いる方法に代えて、属性ビジビリティ判定部143と同様に、物体の姿勢を用いる方法で、クラス判定が可能か否かを判定してもよい。
【0073】
<属性判定部144>
属性判定144は、現在時刻の追跡結果のうち、属性が割り当てられておらず、また、属性ビジビリティ判定部143で属性認識可能な程度見えていると判定された物体について、その属性を推定し出力する。属性推定には任意の方法を用いることができ、例えば参考文献[2]に開示された技術を用いることができる。
【0074】
<実施例1の効果>
本実施例1によれば、高速に、精度良く、特定物体を認識することが可能になる。
【0075】
(実施例2)
次に、実施例2を説明する。実施例2では、図4の情報提示装置300における情報重畳部200に相当する情報重畳装置200について詳細に説明する。
【0076】
<情報重畳装置200の構成>
図13に、情報重畳装置200の構成例を示す。図13に示すように、情報重畳装置200は、物体重畳情報格納部210と、候補重畳位置選択部220と、対応付け部230と、重畳部240を備える。なお、本実施の形態では、情報重畳装置200は、実施例1の物体認識装置100の処理対象の画像フレーム毎に、物体認識装置100による物体認識結果を入力として処理を行うこととしている。また、当該画像フレームも情報重畳装置200に入力される。
【0077】
ただし、これは例であり、実施例1の物体認識装置100を前提としないで、情報重畳装置200が任意の手法で得られた物体認識結果を入力として動作することとしてもよい。情報重畳装置200の各部の動作概要は下記のとおりである。
【0078】
物体重畳情報格納部210には、例えば図6に示したような重畳情報が格納されている。候補重畳位置選択部220は、物体認識装置100が出力する物体認識結果を入力として、物体情報を重畳表示する位置の候補(候補重畳位置)を選択し、出力する。
【0079】
対応付け部230は、物体認識結果、候補重畳位置、直前の画像フレームにおける物体・重畳位置対応付け結果を入力として、現在時刻の画像フレームにおける物体と重畳位置の対応付けを行う。重畳部240は、対応付け部230による物体・重畳位置の対応付け結果から、現在時刻の画像フレームへ物体重畳情報を重畳し出力する。物体重畳情報が重畳された画像フレームが順次出力されることで、例えば、ユーザ端末に、物体に情報が重畳された映像が表示される。
【0080】
ここで、候補重畳位置選択部220は、現在時刻の画像フレームで認識された物体位置とは重複が生じないような候補重畳位置を出力する。これにより、前述した条件(i)「畳情報が対象物体を遮蔽しない」を満たすことができる。また、対応付け部230は、現在時刻の画像フレームで認識された各物体の近くに重畳情報が表示されることと、直前画像フレームで表示されていた重畳情報は、現在フレームでその位置を極力変えないこととを同時に満たすような目的関数の最適化を通じて各物体の重畳情報表示位置を、候補重畳位置の中から決定する。これにより、前述した条件(ii)「対象物体との近接性が保たれている」、(iii)「重畳情報位置の時間的な一貫性が保たれている」を満たすことができる。
【0081】
<情報重畳装置200の動作詳細>
上述したとおり、情報重畳装置200は、物体認識装置100が処理する画像フレーム毎に、その処理結果である各時刻の物体認識結果を入力として処理を行う。各時刻の物体認識結果に対して処理を行うイメージを図14に示す。図14に示すように、時刻t=0の画像フレームから得られた物体認識結果から順次、各時刻の物体認識結果に対して処理がなされる。以下、図14、15を参照して情報重畳装置200の各部の動作の詳細を説明する。
【0082】
<候補重畳位置選択部220>
候補重畳位置選択部220では、各時刻での物体認識結果を入力として、認識された物体とは重複せず物体重畳情報を重畳可能な位置の候補である候補物体重畳位置を出力する。
【0083】
候補物体重畳位置を出力する方法としては、例えば、例えば図15に示すように、格子状に生成した重畳位置(図15(a)の点線枠)と物体位置(実線枠)との重複を総当りで計算し、いずれの物体とも重複がないもの(図15(b)の点線枠)を抽出し、出力する方法を用いればよい。
【0084】
また、上記の処理の中の重複を計算する方法としては、例えばIntersection-over-Union(IoU)を用いればよい。IoUを用いる場合、例えば、IoU=0となる重畳位置の領域(図15(b)の点線枠)を抽出する。
【0085】
なお、上記の例(図15(b)に示す例)では、候補重畳位置と物体位置との重複を全く許容していないが、所定のパラメータを設定の上、その値を上回らない程度の重複を許容して候補重畳位置を選択してもよい。
【0086】
<対応付け部230>
対応付け部230は、候補重畳位置選択部220により出力された候補重畳位置と、現在時刻で認識されている物体とを対応付け、各物体の情報重畳位置を決定する。
【0087】
より詳細には、対応付け部230は、現在時刻の画像フレームで認識された各物体の近くに重畳情報が表示されることと、直前画像フレームで表示されていた重畳情報が、現在時刻の画像フレームでその位置を極力変えないこととを同時に満たすようその対応付けを決定する。上記の対応付けを行う方法の例を以下で説明する。
【0088】
物体認識装置100で時刻tの画像フレームIから検出された特定物体の集合を{(l,b),...,(l,b),...,(lNt,bNt)}とする。l∈Lは特定物体のラベル、bは検出結果である。bは例えば矩形四隅の情報で定義されるベクトルである。また、現在時刻tの候補重畳位置集合を{c,...,c,...,c)}とする。cは、例えば重畳情報が画像の場合、矩形四隅の情報(ベクトル)である。更に、一つ前の時刻t-1における各物体ラベルl∈Lt-1の情報が重畳された位置を{p,...,p,...}とおく。
【0089】
物体iが候補重畳位置jに対応付くことの妥当さを示す値を{aij}∈RN×Mとして、その値を以下の式(1)のように定義し、対応付け部230が各aijを計算する。
【0090】
【数2】
上記の式(1)におけるdist(m,n)は、位置mとnの距離を出力する関数であり、例えばmとnそれぞれの中心座標のL2ノルムを計算する関数として定義すればよい。式(1)は、時刻t-1に特定物体のラベルlの情報が重畳されている場合には、その位置pt-1 と時刻tの候補重畳位置cとの距離がaijになり、時刻t-1に特定物体のラベルlの情報が重畳されていない場合には、特定物体の位置bと候補重畳位置cとの距離がaijになることを意味する。
【0091】
時刻t-1に特定物体のラベルlが重畳されている場合に、その位置pt-1 と候補重畳位置cとの距離aijを小さくすることは、直前画像フレームで表示されていた重畳情報が、現在フレームでその位置を極力変えないことを意味する。また、特定物体の位置bと候補重畳位置cとの距離aijを小さくすることは、現在時刻の画像フレームで認識された各物体の近くに重畳情報を表示させることを意味する。
【0092】
なお、本実施例では、時刻t-1に特定物体のラベルlの情報が重畳されている場合に、その位置pt-1 と候補重畳位置cとの距離aijを小さくすること(Aとする)と、時刻t-1に特定物体のラベルlの情報が重畳されていない場合に、特定物体の位置bと候補重畳位置cとの距離aijを小さくすること(Bとする)の両方を用いて目的関数を定義して、後述する式(2)の最適化問題を解いているが、AとBのうちのいずれか1つを用いて、後述する式(2)の最適化問題を解いていてもよい。
【0093】
{xij}∈RN×Mを物体iが候補重畳位置jに対応付くときに1、それ以外で0をとるバイナリ行列と定義すると、対応付け部230は、以下の式(2)を満たすような{xij}を求めることで、現在時刻の画像フレームで認識された各物体の近くに重畳情報が表示されることと、直前画像フレームで表示されていた重畳情報が、現在フレームでその位置を極力変えないこととを同時に満たす対応付け{xijを得ることができる。
【0094】
【数3】
上記の式(2)は、1つの物体は1つの候補重畳位置に対応付き、1つの候補重畳位置は、1つ以下の物体に対応付くという制約の下で、aijijの総和を最小にする{xij}を求めることを意味している。式(2)は、任意のアルゴリズムで解くことが可能であり、例えばハンガリアンアルゴリズムを用いて解くことができる。
【0095】
なお、上記の例では、現在時刻の画像フレームで認識された各物体の近くに重畳情報が表示されることと、直前画像フレームで表示されていた重畳情報が、現在フレームでその位置を極力変えないこととを同時に満たす対応付けを決定しているが、これは例である。例えば、現在時刻の画像フレームで認識された各物体の近くに重畳情報が表示されることのみを満たす対応付けを決定してもよいし、直前画像フレームで表示されていた重畳情報が、現在フレームでその位置を極力変えないことのみを満たす対応付けを決定してもよい。
【0096】
<重畳部240>
重畳部240は、対応付け部230で得られた物体・重畳位置の対応付け結果に基づき、現在時刻の画像フレームへ物体重畳情報を重畳し出力する。
【0097】
<実施例2の効果>
以上、説明したとおり、本実施例2によれば、視聴者が、重畳情報の内容を把握し易いように重畳情報を表示できる。より詳細には、例えば、(i)重畳情報が対象物体を遮蔽しない、(ii)対象物体との近接性が保たれていること、(iii)重畳情報位置の時間的な一貫性が保たれていることを同時に満足させるように重畳情報を映像に重畳できる。なお、これら3つを同時に満足させることは必須ではない。少なくとも1つを満足すれば、視聴者が、重畳情報の内容を把握し易いように重畳情報を表示できる。ただし、上記3つを同時に満足させることで、重畳情報の内容を把握し易いように重畳情報を表示できるという効果が最も大きくなる。
【0098】
(ハードウェア構成例)
物体認識装置100、情報重畳装置200、情報提示装置300はいずれも、例えば、コンピュータにプログラムを実行させることにより実現できる。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。なお、以下、物体認識装置100、情報重畳装置200、情報提示装置300を総称して「装置」と呼ぶ。
【0099】
すなわち、当該装置は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、当該装置で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
【0100】
図16は、上記コンピュータのハードウェア構成例を示す図である。図16のコンピュータは、それぞれバスBSで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、入力装置1007、出力装置1008等を有する。なお、これらのうち、一部を備えないこととしてもよい。例えば、表示を行わない場合、表示装置1006を備えなくてもよい。
【0101】
当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
【0102】
メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、当該装置に係る機能を実現する。インタフェース装置1005は、ネットワークに接続するためのインタフェースとして用いられ、送信部及び受信部として機能する。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置1008は演算結果を出力する。
【0103】
(実施例1のまとめ))
本明細書には、少なくとも下記各項の物体認識装置、物体認識方法、及びプログラムが開示されている。
(第1項)
映像から検出された各物体を追跡する追跡部と、
前記追跡部により追跡されている1以上の物体のうち、その属性が未だ判定されていない未判定物体について、当該未判定物体の前記映像上の見え方の情報に基づいて、当該未判定物体の属性を判定可能であるか否かを判断し、判定可能である場合に、当該未判定物体の属性を判定する属性判定部と
を備える物体認識装置。
(第2項)
前記属性判定部は、前記未判定物体が、他の物体に隠されていない度合を示す指標値を算出し、当該指標値と閾値とを比較することにより、前記未判定物体の属性を判定可能であるか否かを判断する
第1項に記載の物体認識装置。
(第3項)
前記属性判定部は、前記未判定物体の姿勢に関する情報に基づいて、前記未判定物体における所定領域が見えているか否かを判断することにより、前記未判定物体の属性を判定可能であるか否かを判断する
第1項又は第2項に記載の物体認識装置。
(第4項)
物体認識装置が実行する物体認識方法であって、
映像から検出された各物体を追跡する追跡ステップと、
前記追跡ステップにより追跡されている1以上の物体のうち、その属性が未だ判定されていない未判定物体について、当該未判定物体の前記映像上の見え方の情報に基づいて、当該未判定物体の属性を判定可能であるか否かを判断し、判定可能である場合に、当該未判定物体の属性を判定する属性判定ステップと、
を備える物体認識方法。
(第5項)
コンピュータを、第1項ないし第3項のうちいずれか1項に記載の物体認識装置における各部として機能させるためのプログラム。
【0104】
(実施例2のまとめ))
本明細書には、少なくとも下記各項の情報重畳装置、学習装置、情報重畳方法、及びプログラムが開示されている。
(第1項)
映像上の物体に対応付く重畳情報を当該映像に重畳するための情報重畳装置であって、
前記映像から認識された1以上の物体のそれぞれの位置に基づいて、認識された物体と重複せずに前記重畳情報を重畳可能な位置である候補重畳位置を、前記映像から抽出する候補重畳位置選択部と、
前記候補重畳位置の集合と、前記映像から認識された1以上の物体のそれぞれの位置に基づいて、物体と当該物体に対応付く重畳情報との間の距離が小さくなるように、重畳情報の位置を決定する位置決定部と
を備える情報重畳装置。
(第2項)
映像上の物体に対応付く重畳情報を当該映像に重畳するための情報重畳装置であって、
前記映像から認識された1以上の物体のそれぞれの位置に基づいて、認識された物体と重複せずに前記重畳情報を重畳可能な位置である候補重畳位置を、前記映像から抽出する候補重畳位置選択部と、
前記候補重畳位置の集合と、前記映像から認識された1以上の物体のそれぞれの位置に基づいて、画像フレーム間での重畳情報の位置の変化が小さくなるように、重畳情報の位置を決定する位置決定部と
を備える情報重畳装置。
(第3項)
映像上の物体に対応付く重畳情報を当該映像に重畳するための情報重畳装置であって、
前記映像から認識された1以上の物体のそれぞれの位置に基づいて、認識された物体と重複せずに前記重畳情報を重畳可能な位置である候補重畳位置を、前記映像から抽出する候補重畳位置選択部と、
前記候補重畳位置の集合と、前記映像から認識された1以上の物体のそれぞれの位置に基づいて、物体と当該物体に対応付く重畳情報との間の距離が小さくなり、かつ、画像フレーム間での重畳情報の位置の変化が小さくなるように、重畳情報の位置を決定する位置決定部と
を備える情報重畳装置。
(第4項)
前記位置決定部は、前時刻に物体に重畳情報が重畳されている場合に、その位置と候補重畳位置との距離を小さくすること、及び、前時刻に物体に重畳情報が重畳されていない場合に、物体の位置と候補重畳位置との距離を小さくすることを目的関数とする最適化問題を解くことにより、各物体に対する重畳情報の位置を決定する
第3項に記載の情報重畳装置。
(第5項)
映像上の物体に対応付く重畳情報を当該映像に重畳するための情報重畳装置が実行する情報重畳方法であって、
前記映像から認識された1以上の物体のそれぞれの位置に基づいて、認識された物体と重複せずに前記重畳情報を重畳可能な位置である候補重畳位置を、前記映像から抽出する候補重畳位置選択ステップと、
前記候補重畳位置の集合と、前記映像から認識された1以上の物体のそれぞれの位置に基づいて、物体と当該物体に対応付く重畳情報との間の距離が小さくなり、かつ、画像フレーム間での重畳情報の位置の変化が小さくなるように、重畳情報の位置を決定する位置決定ステップと
を備える情報重畳方法。
(第6項)
コンピュータを、第1項ないし第4項のうちいずれか1項に記載の情報重畳装置における各部として機能させるためのプログラム。
【0105】
以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【0106】
[参考文献]
[1] X. Zhou, D. Wang, and P. Krahenbuhl. Objects as points. In arXiv preprint arXiv:1904.07850, 2019.
[2] G. Li, S. Xu, X. Liu, L. Li, and C. Wang. Jersey number recognition with semi-supervised spatial transformer network. In CVPR Workshop, 2018.
[3] Y. Wu, A. Kirillov, F. Massa, W.-Y. Lo, and R. Girshick. Detectron2. https://github.com/facebookresearch/detectron2, 2019.
[4] A. Bewley, Z. Ge, L. Ott, F. Ramos, and B. Upcroft. Simple online and realtime tracking. In ICIP, 2016.
[5] K. Zhou, Y. Yang, A. Cavallaro, and T. Xiang. Omni-scale feature learning for person re-identification. In ICCV,2019.
【符号の説明】
【0107】
100 物体認識装置、物体認識部
110 映像データ格納部
120 検出部
130 追跡部
140 ラベル判定部
141 クラスビジビリティ判定部
142 クラス推定部
143 属性ビジビリティ判定部
144 属性判定部
200 情報重畳装置、情報重畳部
210 物体重畳情報格納部
220 候補重畳位置選択部
230 対応付け部
240 重畳部
300 情報提示装置
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
1008 出力装置
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16