IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌイーシー ラボラトリーズ アメリカ インクの特許一覧

<>
  • 特許-複雑な道路の活字のシーン属性注釈 図1
  • 特許-複雑な道路の活字のシーン属性注釈 図2
  • 特許-複雑な道路の活字のシーン属性注釈 図3
  • 特許-複雑な道路の活字のシーン属性注釈 図4
  • 特許-複雑な道路の活字のシーン属性注釈 図5
  • 特許-複雑な道路の活字のシーン属性注釈 図6
  • 特許-複雑な道路の活字のシーン属性注釈 図7
  • 特許-複雑な道路の活字のシーン属性注釈 図8
  • 特許-複雑な道路の活字のシーン属性注釈 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-21
(45)【発行日】2023-09-29
(54)【発明の名称】複雑な道路の活字のシーン属性注釈
(51)【国際特許分類】
   G06T 11/60 20060101AFI20230922BHJP
   G06T 7/00 20170101ALI20230922BHJP
   G06V 10/774 20220101ALI20230922BHJP
【FI】
G06T11/60 300
G06T7/00 350B
G06T7/00 650A
G06V10/774
【請求項の数】 15
(21)【出願番号】P 2021564865
(86)(22)【出願日】2020-06-03
(65)【公表番号】
(43)【公表日】2022-07-06
(86)【国際出願番号】 US2020035804
(87)【国際公開番号】W WO2020251811
(87)【国際公開日】2020-12-17
【審査請求日】2021-11-01
(31)【優先権主張番号】62/860,874
(32)【優先日】2019-06-13
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】16/890,123
(32)【優先日】2020-06-02
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】504080663
【氏名又は名称】エヌイーシー ラボラトリーズ アメリカ インク
【氏名又は名称原語表記】NEC Laboratories America, Inc.
(74)【代理人】
【識別番号】100123788
【弁理士】
【氏名又は名称】宮崎 昭夫
(74)【代理人】
【識別番号】100127454
【弁理士】
【氏名又は名称】緒方 雅昭
(72)【発明者】
【氏名】シュルター、 サミュエル
【審査官】岡本 俊威
(56)【参考文献】
【文献】米国特許出願公開第2018/0373980(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 11/60-11/80
G06T 7/00
G06V 10/774
(57)【特許請求の範囲】
【請求項1】
道路タイポロジシーン注釈のためのコンピュータ化された方法であって、
撮像装置から道路シーンを含む画像を受信すること(601)と、
機械学習モデルを使用して、前記道路シーンを表す値を属性設定のセットに入力すること(603)と、
前記道路シーンに対応するように前記属性設定の値を調整するように構成された注釈インタフェースを実装すること(605)と、
前記属性設定の値に基づいて、それぞれの道路シーンのシミュレートされたオーバーヘッドビューを生成すること(607)とを含
前記属性設定の少なくとも2つの属性が関連付けられ、
前記2つの関連付けられた属性の第2の属性に割り当てられた値に基づいて、前記2つの関連付けられた属性の第1の属性の許容可能な値を制約することをさらに含み、前記第1の属性の前記許容可能な値は、前記第2の属性の前記値への変化に応答して変化する、道路タイポロジシーン注釈のためのコンピュータ化された方法。
【請求項2】
前記属性設定の手動で調整された値に基づいて、前記機械学習モデルを調整することをさらに含む、請求項1に記載のコンピュータ化された方法。
【請求項3】
距離測定値を、前記画像に示される前記道路シーンに関連付けることをさらに含む、請求項1に記載のコンピュータ化された方法。
【請求項4】
前記距離測定値は、光検出および測距(LIDAR)システムを使用して記録される、請求項3に記載のコンピュータ化された方法。
【請求項5】
前記距離測定値は、前記画像に重ね合わされて合成画像を形成し、前記合成画像は、前記インタフェースに表示される、請求項3に記載のコンピュータ化された方法。
【請求項6】
道路タイポロジシーン注釈のためのシステムであって、
コンピュータ可読命令を具体化する非一時的コンピュータ可読記憶媒体(110)と、
前記コンピュータ可読命令に基づいて分類モデル(126)を実装するように構成されたプロセッサ装置(104)とを含み、前記プロセッサはさらに、
撮像装置(160)から道路シーンを含む画像を受信し、
前記分類モデルを使用して、属性設定のセット(130)に前記道路シーンを表す値を入力し、
前記道路シーンに対応するように前記属性設定の値を調整するように構成された注釈インタフェース(128)を実装し、
前記属性設定の値に基づいて、それぞれの道路シーンのシミュレートされたオーバーヘッドビュー(404)を生成するように構成され
前記属性設定の少なくとも2つの属性が関連付けられ、
前記プロセッサは、前記2つの関連付けられた属性の第2の属性に割り当てられた値に基づいて、前記2つの関連付けられた属性の第1の属性の許容可能な値を制約するようにさらに構成され、
前記第1の属性の許容可能な値は、前記第2の属性の前記値への変化に応じて変化する、システム。
【請求項7】
前記プロセッサは、前記属性設定の手動で調整された値に基づいて、前記分類モデルを調整するようにさらに構成される、請求項6に記載のシステム。
【請求項8】
前記プロセッサは、距離測定値を前記画像に示される前記道路シーンに関連付けるようにさらに構成される、請求項に記載のシステム。
【請求項9】
前記距離測定値は、光検出および測距(LIDAR)システムを使用して記録される、請求項に記載のシステム。
【請求項10】
前記距離測定値は、前記画像に重ね合わされて合成画像を形成し、前記合成画像は、前記インタフェースに表示される、請求項に記載のシステム。
【請求項11】
道路タイポロジシーン注釈のためのコンピュータ可読プログラムを備えた非一時的コンピュータ可読記憶媒体であって、前記コンピュータ可読プログラムがコンピュータ上で実行されるときに、前記コンピュータに、
道路シーンを含む画像の受信すること(601)と、
機械学習モデルを使用して、前記道路シーンを表す値を属性設定のセットに入力すること(603)と、
前記道路シーンに対応するように前記属性設定の値を調整するように構成されたインタフェースを実装すること(605)と、
前記属性設定の値に基づいて、それぞれの道路シーンのシミュレートされたオーバーヘッドビューを生成すること(607)とを含む方法を実行させ
前記属性設定の少なくとも2つの属性が関連付けられ、前記2つの関連付けられた属性の第2の属性に割り当てられた値に基づいて、前記2つの関連付けられた属性の第1の属性の許容可能な値を制約することをさらに含み、前記第1の属性の許容可能な値は、前記第2の属性の前記値への変化に応じて変化する、非一時的コンピュータ可読記憶媒体。
【請求項12】
前記属性設定の手動で調整された値に基づいて、前記機械学習モデルを調整することをさらに含む、請求項11に記載の非一時的コンピュータ可読記憶媒体。
【請求項13】
距離測定値を、前記画像に示される前記道路シーンに関連付けることをさらに含む、請求項11に記載の非一時的コンピュータ可読記憶媒体。
【請求項14】
前記距離測定値は、光検出および測距(LIDAR)システムを使用して記録される、請求項13に記載の非一時的コンピュータ可読記憶媒体。
【請求項15】
前記距離測定値は、前記画像に重ね合わされて合成画像を形成し、前記合成画像は、前記インタフェースに表示される、請求項13に記載の非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願情報
本出願は、2019年6月13日に出願された米国仮特許出願第62/860,874号および2020年6月2日に出願された米国実用特許出願第16/890,123号の優先権を主張し、その全体が参照により本明細書に組み込まれる。
【背景技術】
【0002】
本発明は、道路ネットワークをモデル化することに関し、より詳細には、複雑な道路タイポロジのためのシーン属性注釈を生成することに関する。
関連技術の説明
【0003】
自動自動車ナビゲーションシステムは、道路タイポロジの信頼できる正確なモデルから利益を得る。車線の数、横断歩道および歩道の存在、交差点などの道路タイポロジは、道路セグメントのシーン属性と見なすことができる。
【0004】
全地球測位システム(GPS)データが与えられると、道路レイアウトに関するいくつかの情報を決定できるが、正確ではないかもしれない。精度の高いGPSは高価で、地図データの精度は保証されない。このようなデータはしばしば不完全であり、道路レイアウト情報は画像と結合されない。したがって、地図が古い場合、撮影された画像は、道路レイアウトに関係する地図情報と矛盾する可能性がある。
【0005】
さらに、複雑な道路タイポロジを確実に表すのに十分な数の正確なシーン属性を生成することは、しばしば困難である。したがって、例えば、機械学習システムを訓練するための適切な量の道路タイポロジ訓練データは、収集することが困難であり得る。
【発明の概要】
【0006】
本発明の一態様によれば、道路タイポロジシーン注釈付けのための方法が提供される。この方法は、道路シーンを有する画像を受信することを含む。画像は、撮像装置から受信される。さらに、この方法は、機械学習モデルを使用して、道路シーンを表す値を属性設定のセットに入力する。注釈インタフェースは、道路シーンに対応するように属性設定の値を調整するように実装され、構成される。属性設定の値に基づいて、それぞれの道路シーンのシミュレートされたオーバーヘッドビューが生成される。
【0007】
本発明の別の態様によれば、道路タイポロジシーン注釈付けのためのシステムが提供される。システムは、コンピュータ可読命令を実施するコンピュータ可読記憶媒体と、コンピュータ可読命令に基づいて分類モデルを実施するように構成されたプロセッサ装置とを含む。プロセッサ装置はさらに、道路シーンを有する画像を撮像装置から受信するように構成される。さらに、プロセッサ装置は、分類モデルを使用して、属性設定のセットに、道路シーンを表す値を入力する。プロセッサ装置はまた、道路シーンに対応するように属性設定の値を調整するように構成された注釈インタフェースを実装する。属性設定の値に基づいて、プロセッサ装置は、それぞれの道路シーンのシミュレートされたオーバーヘッドビューを生成する。
【0008】
本発明のさらに別の態様によれば、道路タイポロジシーン注釈のためのコンピュータ可読プログラムを含む非一時的コンピュータ可読記憶媒体が提供される。コンピュータ可読プログラムは、コンピュータ上で実行されると、コンピュータに道路シーンを有する画像を受信させる。画像は、撮像装置から受信される。さらに、コンピュータ可読プログラムは、コンピュータに、機械学習モデルを使用して、道路シーンを表す値を属性設定のセットに入力させる。また、コンピュータ可読プログラムは、道路シーンに対応するように属性設定の値を調整するように構成された注釈インタフェースをコンピュータに実装させる。属性設定の値に基づいて、コンピュータ可読プログラムは、コンピュータに、それぞれの道路シーンのシミュレートされたオーバーヘッドビューを生成させる。
【0009】
これらおよび他の特徴および利点は、添付の図面に関連して読まれるべき、その例示的な実施形態の以下の詳細な説明から明らかになるであろう。
【図面の簡単な説明】
【0010】
本開示は、以下の図面を参照して、好ましい実施形態の以下の説明において詳細を提供する。
【0011】
図1】本発明の一実施形態による、道路タイポロジシーン注釈のための高レベルシステムのブロック図である
【0012】
図2】本発明の一実施形態による、道路シーンを含む画像の表現である。
【0013】
図3】本発明の一実施形態による、別の道路シーンを含む画像の表現である。
【0014】
図4】本発明の一実施形態による、道路タイポロジシーン注釈のための注釈インタフェースの表現である。
【0015】
図5】本発明の別の実施形態による、道路タイポロジシーン注釈のための注釈インタフェースの表現である。
【0016】
図6】本発明の別の実施形態による、道路タイポロジシーン注釈付けのための方法を示す流れ図である。
【0017】
図7】本発明の別の実施形態による、道路タイポロジシーン注釈付けのためのシステムのブロック表現である。
【0018】
図8】本発明の別の実施形態による、機械学習モデルを訓練するために使用される道路タイポロジシーン注釈付けのためのシステムのブロック表現である。
【0019】
図9】実際のアプリケーションにおける本発明のグラフィカル・ユーザ・インタフェースの実施形態を示す。
【発明を実施するための形態】
【0020】
複雑な道路タイポロジを認識するための分類モデルなどの訓練機械学習モデル、シーン属性の正確な注釈を有する道路シーンが提供される。シーン属性の実施例には、車線の数、車線の幅、側道および横断歩道の存在およびそれらまでの距離、交通方向等が含まれる。これらの属性は、シーンの意味的および幾何学的特性の両方を記述し、これは、トップビュー(または鳥瞰図)として画像またはビデオに示される道路のタイポロジの再構成を可能にする。
【0021】
特定の道路タイポロジのためのシーン属性を自動的に推論することができることは、自動車産業におけるいくつかの実施形態の適用を可能にすることができる。いくつかの実施形態はまた、保険業界において、例えば、事故シーンを再構築するためのツールとしての用途を見出すことができる。自動車産業からの1つの実施例は、死角推論であり、これは、運転者の注意を必要とするシーンの領域が遮られた場合に運転者に警告を与える。加えて、死角推論は、自動運転車両を実現するために重要であり得る。
【0022】
しかしながら、例えばカメラのような知覚による入力から道路シーンを正確に記述するシーン属性を自動的に推論することは、困難な作業であり得るが、コンピュータビジョンおよび機械学習の分野からの技術の組み合わせを用いて試みることができる。そのようなシステムを構築するために、入力が画像またはビデオであり得、出力が入力を記述する正確なシーン属性であり得る、入力-出力対を含む訓練データの大きなコーパスが必要とされ得る。入力画像またはビデオの取得は、車両にカメラを搭載することによって行うことができる。しかしながら、シーン属性を取得することは、直接的な人間の注釈の努力を伴うことがある。これは、費用がかかり、面倒な方法であり得る。
【0023】
図1は、本発明の一実施形態による、シーン属性注釈システム100を実装するように構成されたシステム100を示す。システム100は、例えば、中央処理装置(CPU)、グラフィカル処理装置(GPU)、構成されたフィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、またはこれらの組合せなどのプロセッサ104を含む。いくつかの実施形態では、プロセッサ104は、ニューラルネットワーク126の機能を実装し、例えば、受け取った画像から道路のタイポロジを識別するように構成された分類モデルなどの機械学習モデルを形成する。
【0024】
分類モデル(1つまたは複数)(126)は、シミュレートされたデータを用いて訓練され得るか、またはシミュレートされたデータと実データとの両方を用いて訓練され得るか、または実データを用いて訓練され得るモデルを含むことができ、実データは、収集されたデータに注釈を付けるために使用されるモデリングツール(例えば、注釈ツール128、130)を用いて注釈付けされた。一例では、ユーザは、まず、シミュレートされたデータのみを用いてモデルを訓練し、次に、注釈付けすることができる実際の画像から予測された属性を抽出し、次いで、これらの値を用いて注釈ツールをロードすることができる。人間のアノテータまたは自動アノテータを使用して、残りのデータを記入し、誤りを訂正することができる。
【0025】
プロセッサ104は、システムバス120を介して、ランダムアクセスメモリ(RAM)106およびリードオンリーメモリ(ROM)108などのメモリ装置と通信している。システムバス120は、例えば、ハードドライブ、ソリッドステートドライブなどの1つまたは複数の大容量記憶装置110にも結合される。ディスプレイ112、ユーザインタフェースコントローラ116、およびネットワークインタフェース114もシステムバス120に結合されている。ユーザインタフェースコントローラ116は、例えば、キーボード142、マウス144、スピーカ140等の様々なヒューマンインタフェース装置(HID)を介して、システム100とユーザとの間のインタフェースを提供する。ネットワークインタフェース114は、ネットワーク150を介して、システム100と、1つまたは複数の画像センサ160などの外部デバイスとの間でデータ通信を送受信する。しかしながら、いくつかの実施形態では、道路シーンを含む画像データを生成した画像センサ160は、シリアル接続(例えば、ユニバーサルシリアルバス(USB)、IEEE RS232シリアル、および同様のもの)または他のデータ入力/出力(I/O)インタフェース146を介してシステム100に直接接続することができる。記憶装置110は、注釈付き道路シーン130を記憶するように構成することができる。いくつかの実施形態では、ストア注釈付き道路シーン130は、1つまたは複数のデータベースに格納することができる。他の実施形態では、注釈付き道路シーン130は、複数のフラットファイルに格納することができる。例えば、複雑な運転シーンのレイアウトは、単一のカメラから得ることができる。3Dシーンをキャプチャする透視画像が与えられると、豊富で解釈可能なシーン記述の予測を導出することができ、これは、オクルージョン推論されたセマンティックトップビューにおいてシーンを表す。
【0026】
ネットワーク150は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット、またはこれらの組み合わせとすることができる。さらに、ネットワーク150は、例えば、イーサネット(IEEE 802.3)、無線LAN(IEEE802.11)などの任意のIEEE 802ファミリのネットワーキングプロトコルを使用して構成することができ、例えば、TCP(Transmission Control Protocol)、UDP(User Datagram Protocol)などを使用してデータを送信することができる。
【0027】
道路シーンを有する画像の一例を図2に示す。図2において、トラック202は歩道および横断歩道204を遮蔽しており、これは正しいシーン属性を予測することによって自動的に推測される。道路206を横断する歩行者は、運転者の車両が衝撃を避けるには近すぎるまで、運転者に見えなくなることがある。さらに、トラック202は、交差する通り208を部分的に覆い隠す。車両が自動化されているか、または早期警報を含む状況では、シーン属性の適切な分析を使用して、自動的に検出されたシーンの危険領域、すなわちトラック202に注意を集中させることができる。例えば、トラック202は、囲むボックス210によって強調表示され、道路シーン212のトップダウンビューを運転者に提示することができ、これにより、自動化されたシステムは、道路のタイポロジおよび危険性を認識させることができる。
【0028】
図3に示されている別の例の道路シーン画像では、トラック202は潜在的に対向してくる自動車302(トップダウンビューに示されている)を遮蔽し、これは運転者または対向車のいずれかが左折しようとする場合に危険となり得る。どちらの車両も相手車両との視線が明確でないため、潜在的に危険な状況が発生する可能性がある。
【0029】
屋外運転シーンのシーン属性に注釈を付けるために、図4に示す本発明の一実施形態は、注釈ツール400を含む。注釈ツール400は、道路シーンの画像402を提示する。さらに、注釈ツール400は、画像402に示された道路タイポロジのシミュレーションまたはレンダリング404を含む。いくつかの実施形態では、注釈ツール400は、画像402で識別された属性値を属性フォーム406に初期入力するように構成することができる。他の実施形態では、属性フォーム406は、最初は空白であり、個人、例えば、注釈付け者からの入力を待つ。いくつかの実施形態では、属性フォーム406は、関連する属性が同じセクションにグループ化されるように、複数のセクションに編成することができる。セクションは、「一般」408、「主要道路属性」410、「交差点」412などの個々のブロックとして表示することができる。他の実施形態では、セクションは、属性フォーム内の別個のタブまたはシート(図示せず)として実装することができる。属性形態402は、部ブロックの各々における様々な属性を示すが、示されている属性は、例示のためのものであり、属性形態406に含めることができる全ての属性、および特定の属性が関連付けられるグループを包含するものではない。
【0030】
道路シーンの属性は、例えば、車線の数、車線の種類(HOV)、一方通行道路、対向する走行方向の追加車線、曲がるための車線、カーブした道路、直線道路、主要道路の回転、主道路上の走行方向間の区切り幅、歩道、縁石または他の区切り、横断歩道、この横断歩道までの距離、側方道路(なし、左、右、両方)、T交差点、交差点区切りなどを含むことができる。これらの属性は、シミュレートされても、実際のものであっても、組み合わせのものであってもよい。これらの属性の代わりに、または追加で、他の属性も存在する可能性があることに注意する。例えば、交通信号および交通標識の存在および位置に注釈を付けることができる。
【0031】
注釈ツール400に提供される値は、属性形態406に入力される属性値によって、表示されるレンダリング404に直接影響を与える。このようにして、注釈付け者は、画像402に対するレンダリング404の検査および比較によって、属性値が画像402に示された道路タイポロジを正しく表すことを容易に検証することができる。いくつかの実施形態では、属性フォーム406内の属性の値に対する変更は、レンダリング404に即座に反映され、注釈付け者は、値が入力されているときに、誤った属性値を容易に識別することができる。一実施形態では、ユーザがインタフェースフォーム406で何らかの変更を行うたびに、フォームのすべての値がプロセッサ104に送られ、プロセッサは、すべての値を取り、シーンをゼロからレンダリングする。これは、レンダリングがフォトリアリスティックな画像を生成するために適切な照明およびシェーディングの詳細を必要とするゲームエンジンのようなものではないことに留意されたい。これは、全ての属性を取得し、トップビュー画像を生成する比較的単純なコード(例えば、-1000行のPythonコード)である。これはミリ秒以下のオーダーで実行でき、ネットワーク伝送がレンダリング自体より遅くなる可能性が高いほど効率的である。
【0032】
ある実施形態では、注釈ツール400は、属性値が他の関連属性または従属属性の値が与えられて実現可能であることを検証するための検証アルゴリズムを提供する。例えば、多車線道路における車線幅の属性値は、道路幅の属性値よりも大きくすることができない。2つ以上の属性値が互いに競合する場合、注釈ツール400は、例えば、属性値を対比色(例えば、赤)で囲むことによって、競合する属性を強調することができる。属性検証は、条件を検証するためにコード内にif/elseステートメントを含むことができる。1つの実施例は、注釈フォームを見るとき、「左側の横断歩道」を「はい」に設定することは、「側道左車線」が「0」に設定された場合にエラーを招くことを含むことができる。別の実施例は、「側道が主要道路を終わらせる」を「はい」に設定することは、側道がない場合にエラーを招くこと、すなわち、「側道左車線」および「側道右車線」が両方とも「0」に設定された場合にエラーを招くことを含むことができる。
【0033】
いくつかの実施態様において、画像402は、図5に示されるように、複数の領域または画素についての奥行きデータ502と重ね合わせることができる。奥行きデータ502は、光検出および測距(LIDAR)システムから取得されたデータに基づいて生成することができる。他の実施形態では、表示画像402および奥行きデータ502の両方を生成するために、ステレオ撮像システムを使用することができる。奥行きデータ502は、例えば、道路の幅、交差点までの距離など、シーンの幾何学的推定値を含む特定の属性値を決定するために、注釈付け者によって見ることができる。
【0034】
一例では、RGB画像を、LIDAR 3Dスキャナから来る奥行きデータと共に使用することができる。また、スキャナを車に搭載し、反射するレーザ光線を撮影することができ、距離を計測することができる。レーザスキャナおよびカメラを較正することができ、これにより、取り込まれたRGB画像との任意の3D点との位置合わせが可能になり、例えば、RGB画像のいくつかの画素までの距離を決定することができる。別のオプションとしては、ステレオセットアップ、例えば、車内で2台のカメラを並べて使用することができる。このセットアップを用いて、画像内の多くの画素までの奥行きを計算することもできる。
【0035】
一般に、奥行き/距離は、現実世界の3D点から来ており、ある座標系、例えばレーザの座標系に存在する。RGBカメラとレーザとの間の較正が与えられると、3D点をカメラ座標系に移動させ、画像平面に投影することができる。次に、これは、画像(画素)内の3D点の位置、ならびに距離を教示する。
【0036】
さらに、いくつかの実施形態では、注釈ツール400は、単一の無関係な画像の代わりに、フレームのシーケンス(例えば、ビデオセグメント、または連続画像)に注釈を付けることができる。注釈ツール400による注釈付け処理において、ビデオセグメントのローフレームレートを選択することができ、これにより、多くの場合、システムは、変更を加えることなく、ビデオセグメント内の前のフレームから現在のフレームに属性をコピーすることができる。その理由は、いくつかの属性が、例えば歩道の存在のように、より長い期間にわたって一定のままであるからである。さらに、より低いフレームレートで注釈を付けることは、固定された注釈付けの量に対するデータの変動性を増加させる。
【0037】
より低いフレームレートは、注釈付けされるべき画像の固定された経費を有する場合、変動性を増加させることができる。毎秒1000フレームのフレームレートを有するビデオを考える。最初の1000フレームに注釈を付けると、実際のビデオの1秒間の注釈しか表示されないが、1秒間はあまり表示されない。自動車は1秒以内に遠くまで運転されず、場面は同じである可能性が高い。また、そのビデオ内の第1の画像と第2の画像とは、1ミリ秒しか経過していないため、ほとんど異なるものではない。
【0038】
同じビデオを取るが、フレームレートを1フレーム/秒に減らす。この場合、1000フレームに注釈を付けることは、1000秒のビデオを見ることを意味する(より大きなフレームレートを有する1秒と比較して)。この場合、1000秒後には、走行距離が長くなり、シーンが変わった可能性があるので、実際のビデオコンテンツのより高い変化が見られるはずである。この場合、同じ数の注釈付きフレームを用いて、より大きなデータ変動性が得られる。
【0039】
図6を参照すると、本発明の一実施形態による注釈ツールを実装するためのコンピュータ実装方法が示されている。ブロック601では、例えば、図4に示す画像402のような、図1に示すカメラ160のような撮像装置によって記録された道路シーンを含む画像が受信される。画像402は、個々の画像の形態であってもよいし、ビデオのセグメントであってもよい。さらに、いくつかの実施形態は、カメラ160から直接画像データ402を受信するように構成することができ、他の実施形態は、以前に記憶された画像データを取り出すためにデータ記憶装置(例えば、図1の記憶装置110)にアクセスするように構成することができる。画像データは、奥行きデータも含むことができる。
【0040】
あるいは、奥行きデータは、別々に受信されてもよい。奥行きデータが画像データから分離されている場合、画像データと奥行きデータとの両方に識別子を提供して、奥行きデータを対応する画像データに関連付けることができる。
ブロック603において、この方法は、例えば、図4の属性設定406のような属性設定のセットに、画像402に描かれた道路シーンを表す値を加えることを含む。図1に示すニューラルネットワーク126のような機械学習モデルは、例えば、ブロック601で受信された画像402および奥行きデータを分析し、属性設定406の属性値を提供するように実施することができる。モデル訓練環境では、機械学習モデル126によって提供される属性値は、最初は正しくないことがある。しかしながら、機械学習モデル126が学習するにつれて、機械学習モデル126によって提供される属性値はより正確になる。
【0041】
ブロック605において、この方法は、例えば、図1に示す注釈インタフェース128のような注釈インタフェースを実施し、この注釈インタフェースは、注釈付け者が、属性設定406の値を、画像402内の道路シーンに対応するように調整することを可能にするように構成される。属性設定406の調整は、いくつかの実施形態では、注釈付け者によって手動で実行することができる。注釈インタフェース128は、機械学習モデル126によって提供される誤った属性値を訂正するために使用することができ、また、注釈付け者が、機械学習モデル126が値を提供していない属性値を入力することができるようにするために使用することができる。
【0042】
ブロック607で、注釈ツール400は、機械学習モデル126または注釈インタフェース128を介して注釈付け者のいずれかによって提供される属性値に基づいて、それぞれの道路シーンのシミュレートされたオーバーヘッドビュー(例えば、鳥瞰図)、例えば、図4のレンダリング404を生成する。いくつかの実施形態では、シミュレートされたオーバーヘッドビュー404は、機械学習モデル126によって提供される初期属性値に基づいて生成することができる。シミュレートされたオーバーヘッドビュー404は、追加の属性値が追加されるときに、または初期属性値が注釈インタフェース128を介して注釈付け者によって修正されるときに、更新することができる。したがって、いくつかの実施形態では、ブロック607の実行は、ブロック603およびブロック605と同時に行うことができる。他の実施形態では、ブロック607は、ブロック605で注釈付け者による属性値エントリの完了時に実行される。ブロック605の完了は、「有効化」などとラベル付けされたボタンなどのグラフィカル・ユーザ・インタフェース(GUI)要素の作動によって信号で伝えることができる。
【0043】
いくつかの実施形態では、図6に示す方法が、画像402または一連の関連画像402について完了すると、機械学習モデル126は、機械学習モデル126によって入力された初期値と比較して、最終的に検証された属性値を分析するように構成することができる。このようにして、機械学習モデル126は、画像402から道路タイポロジをより良く認識するように訓練され得る。
【0044】
図7および図8に示す他の実施形態では、注釈ツール700は、道路シーンを含む画像から訓練データセットを生成するように構成される。注釈ツール700は、注釈インタフェース710およびデータサーバ720を含む。注釈インタフェース710は、画像704および奥行き測定値706を含む入力データ702を受信する。いくつかの実施形態では、入力データ702は、図8に示すように、例えば、関連する奥行き測定値を生成するように構成されたLIDARシステムを装備したカメラ802によって生成することができる。他の実施形態では、カメラ802およびLIDARシステム(図示せず)は、注釈ツール700の別個の構成要素として提供することができる。さらに他の実施形態では、カメラ802は、奥行き測定値を導出することができる立体画像を生成する。
【0045】
入力データ702は、注釈インタフェース710の入力ディスプレイ712上に表示される。入力ディスプレイ712を見る注釈付け者は、属性値を属性設定フォーム714に入力することができる。入力された属性値に基づいて、レンダラ716は、入力ディスプレイ712に表示される画像に示される道路のトップダウンビューを提示するシミュレートされた道路タイポロジを生成する。レンダラ716によって生成されたシミュレートされた道路タイポロジが入力ディスプレイ712上に表示された画像を表すことを注釈付け者が満足すると、注釈付けされた画像およびシミュレートされた道路タイポロジをデータサーバ720に記憶することができる。この実施形態では、注釈付き画像およびシミュレートされた道路タイポロジは、図8に示されている道路タイポロジを認識するように訓練され、訓練データセットとして使用される機械学習モデル806によって検索することができる。
【0046】
ある実施形態では、注釈ツール700は、例えば、シーケンス内の前の画像フレーム704または現在の画像フレーム704の前に保存されたバージョン内の既存の注釈を探すことができる。既存の注釈が見つかった場合、注釈ツール700は、既存の属性をフォーム714にロードすることができる。しかしながら、既存の注釈が存在しない場合、注釈ツール700は、属性設定フォーム714にシーン属性のデフォルト値を入力することができる。
【0047】
入力ディスプレイ712は、注釈付け者に遠近画像704を示すことができる。画像704は、フルカラー(例えば、RGB)画像、またはモノクロ(例えば、グレースケール)画像とすることができる。さらに、いくつかの実施形態では、入力ディスプレイ712は、対応する画像704内の1つ以上の画素についての奥行き測定値706をオーバーレイすることができる。奥行き測定値706は、シーン属性に正確に注釈を付けるのに十分な、画像704内の画素のサブセットに対してのみ提供される必要がある。一実施形態では、マウス・ポインタがその画素の上をホバリングするときに、画素の奥行き測定値706を画像の上に(例えば、テキストとして)示すことができる。画素は、例えば、注釈付け者が関連する奥行き測定値706を有する画素を容易に識別することができるように、赤色で強調表示することができる。また、ボタンなどのGUI要素を注釈インタフェース710上に設けることができ、注釈付け者が奥行き測定値704に関連するすべての画素を見ることができるようにする。
【0048】
属性設定フォーム714は、テキストフィールド、チェックボックスおよびドロップダウンリストの組み合わせを含むことができる。上述したように、属性設定フォーム714は、画像に対して何らかの注釈がすでに存在する場合、ロード時に満たされてもよい。シーン属性の任意の値を変更することは、属性を使用してシミュレートされた道路を生成するために、レンダラ716を呼び出すことができる。
【0049】
レンダラ716は、属性設定フォーム714からのシーン属性の現在の値に従って、トップダウンビューをレンダリングする。レンダラ716は、属性設定フォーム714内の属性値が変化するたびに呼び出すことができ、それによって即時フィードバックを注釈付け者に提供する。
【0050】
データサーバ720は、図8に示す記憶データベース804を含む。いくつかの実施形態において、記憶データベース804は、クラウド記憶装置であってもよい。他の実施形態では、記憶データベース804は、ローカル・エリア・ネットワーク(LAN)を介して注釈インタフェース710によってアクセス可能な記憶装置のローカル・セットで実現することができる。さらに別の実施形態では、記憶データベース804は、注釈インタフェース710に直接結合された1つ以上の記憶装置内に実施可能である。
【0051】
図9を参照すると、本発明の一実施形態を実施するために注釈付け者902によって使用されるワークステーション900が示されている。ワークステーション900は、ディスプレイ装置906に結合されたコンピュータ904を含むことができる。さらに、例えば、キーボード908やマウス910などのユーザインタフェース装置を設けて、注釈付け者902とワークステーション900との間のユーザインタラクションを可能にすることもできる。コンピュータ904は、例えば、図1に示す構成要素を含むことができ、ディスプレイ装置906は、図1のディスプレイ112にも対応することができる。表示装置906は、図4および図5に示される注釈インタフェース400のような注釈インタフェース912の実施形態を表示するように構成される。
【0052】
図9は、デスクトップ型ワークステーション900として構成される本発明の実施形態を示す。しかしながら、他の実施形態では、本発明の注釈ツールは、タブレットフォームファクタで実施することができ、コンピュータ904およびディスプレイデバイスは、個人が保持することができる単一の本体に組み合わされる。さらに、ユーザインタフェース装置、例えば、キーボード908およびマウス910は、ディスプレイ装置906上に配置されたタッチセンシティブ表面オーバーレイおよびオンスクリーンキーボードグラフィカルエレメントによって実装され得る。さらに、カメラをタブレット上に設けることもできる。この実施形態のタブレットフォームファクタは、例えば、自動車事故のシーンを文書化するために、注釈ツールが損害査定人または警察官によって使用されるときなどに、現場での画像注釈を容易にすることができる。
【0053】
本明細書に記載する実施形態は、完全にハードウェアであってもよく、完全にソフトウェアであってもよく、または、ハードウェアおよびソフトウェア要素の両方を含むものであってもよい。好ましい実施形態では、本発明は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むが、これらに限定されないソフトウェアで実施される。
【0054】
実施形態は、コンピュータまたは任意の命令実行システムによって、またはそれに関連して使用するためのプログラムコードを提供する、コンピュータ使用可能またはコンピュータ可読媒体からアクセス可能なコンピュータプログラム製品を含むことができる。コンピュータ使用可能媒体またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれに関連して使用するためのプログラムを格納、通信、伝搬、またはトランスポートする任意の装置を含むことができる。媒体は、磁気、光学、電子、電磁気、赤外線、または半導体システム(または装置またはデバイス)、または伝搬媒体とすることができる。媒体は、半導体または固体ステートメモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、リジッド磁気ディスクおよび光ディスクなどのコンピュータ読み取り可能な記憶媒体を含むことができる。
【0055】
各コンピュータプログラムは、本明細書に記載する手順を実行するために、記憶媒体または装置がコンピュータによって読み取られるときに、コンピュータの操作を構成し制御するために、汎用または特殊目的のプログラム可能コンピュータによって読み取り可能な、機械読み取り可能な記憶媒体または装置(例えば、プログラムメモリまたは磁気ディスク)に実体的に記憶することができる。本発明のシステムはまた、コンピュータプログラムで構成された、コンピュータ読み取り可能な記憶媒体で実施されるものと考えることができ、その場合、構成された記憶媒体は、コンピュータを特定の所定の方法で動作させて、本明細書に記載する機能を実行させる。
【0056】
プログラムコードを記憶および/または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接的または間接的に結合された少なくとも1つのプロセッサを含んでもよい。メモリ要素は、プログラムコードの実際の実行中に採用されるローカルメモリ、バルクストレージ、および実行中にバルクストレージからコードが検索される回数を減らすために少なくとも何らかのプログラムコードの一時記憶を提供するキャッシュメモリを含むことができる。入力/出力またはI/O装置(キーボード、ディスプレイ、ポインティング装置などを含むが、これらに限定されない)は、直接または介在するI/Oコントローラを介してシステムに結合され得る。
【0057】
介在する専用ネットワークまたは公衆ネットワークを介して、データ処理システムを他のデータ処理システムあるいはリモートプリンタまたはストレージデバイスに結合できるようにするために、ネットワークアダプタをシステムに結合することもできる。モデム、ケーブルモデム、およびイーサネット(登録商標)カードは、現在使用可能なネットワークアダプタのタイプの一例に過ぎない。
【0058】
本明細書で採用されるように、「ハードウェアプロセッササブシステム」または「ハードウェアプロセッサ」という用語は、1つ以上の特定のタスクを実行するために協働するプロセッサ、メモリ、ソフトウェアまたはそれらの組み合わせを指すことができる。有用な実施形態では、ハードウェアプロセッササブシステムは、1つまたは複数のデータ処理要素(例えば、論理回路、処理回路、命令実行デバイスなど)を含むことができる。1つまたは複数のデータ処理要素は、中央処理ユニット、画像処理ユニットおよび/または別個のプロセッサまたはコンピューティング要素ベースのコントローラ(たとえば、論理ゲートなど)に含めることができる。ハードウェアプロセッササブシステムは、1つ以上のオンボードメモリ(例えば、キャッシュ、専用メモリアレイ、読み出し専用メモリなど)を含むことができる。いくつかの実施形態では、ハードウェアプロセッササブシステムは、オンボードまたはオフボードにすることができるか、またはハードウェアプロセッササブシステム(例えば、ROM、RAM、基本入出力システム(BIOS)など)によって使用するために専用にすることができる1つ以上のメモリを含むことができる。
【0059】
ある実施形態では、ハードウェアプロセッササブシステムは、1つ以上のソフトウェア要素を含むことができ、実行することができる。1つ以上のソフトウェア要素は、特定の結果を達成するために、オペレーティングシステムおよび/または1つ以上のアプリケーションおよび/または特定のコードを含むことができる。
【0060】
他の実施形態では、ハードウェアプロセッササブシステムは、指定された結果を達成するために1つまたは複数の電子処理機能を実行する専用の専用回路を含むことができる。そのような回路は、1つまたは複数のアプリケーション専用集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、および/またはプログラマブルロジックアレイ(PLA)を含むことができる。
【0061】
ハードウェアプロセッササブシステムのこれらおよび他の変形もまた、本発明の実施形態に従って企図される。
【0062】
本明細書において、本発明の「一実施形態」又は「一実施形態」とは、その他の変形例と同様に、その実施形態に関連して説明した特定の特徴、構造、特性等が、本発明の少なくとも一実施形態に含まれることを意味するものであり、「一実施形態において」又は「一実施形態において」の語句の出現、並びに本明細書全体の様々な箇所に出現する他の変形例は、必ずしも全て同一の実施形態を意味するものではない。しかしながら、本明細書で提供される本発明の教示を前提として、1つまたは複数の実施形態の特徴を組み合わせることができることを理解されたい。
【0063】
以下の「/」、「および/または」、および「少なくとも1つ」、例えば、「A/B」、「Aおよび/またはB」、および「AおよびBの少なくとも1つ」のいずれかの使用は、第1のリストされた実施例(A)のみの選択、または第2のリストされた実施例(B)のみの選択、または両方の実施例(AおよびB)の選択を包含することが意図されることを理解されたい。さらなる例として、「A、B、および/またはC」、および「A、B、およびCの少なくとも1つ」の場合、このような句は、第1のリストされた実施例(A)のみの選択、または第2のリストされた実施例(B)のみの選択、または第3のリストされた実施例(C)のみの選択、または第1および第2のリストされた実施例(AおよびB)のみの選択、または 第1および第3のリストされた実施例(AおよびC)のみの選択、または第2および第3のリストされた実施例(BおよびC)のみの選択、または3つすべての実施例(AおよびBおよびC)の選択を包含することを意図する。これは、列挙された項目の数だけ拡張することができる。
【0064】
上記は、あらゆる点で例示的かつ例示的であるが、限定的ではないと理解されるべきであり、本明細書に開示される本発明の範囲は、詳細な説明からではなく、むしろ特許法によって許容される全範囲に従って解釈されるような特許請求の範囲から決定されるべきである。本明細書に示され、説明された実施形態は、本発明の例示にすぎず、当業者は、本発明の範囲および精神から逸脱することなく、様々な修正を実施することができることを理解されたい。当業者は、本発明の範囲および精神から逸脱することなく、様々な他の特徴の組み合わせを実施することができる。このように、本発明の態様を、特許法によって要求される詳細および特殊性と共に説明してきたが、特許状によって保護されることが請求され、望まれるものは、添付の特許請求の範囲に記載されている。
図1
図2
図3
図4
図5
図6
図7
図8
図9