IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特表2024-516586パラメータ曲線ベースの検出器ネットワーク
<>
  • 特表-パラメータ曲線ベースの検出器ネットワーク 図1
  • 特表-パラメータ曲線ベースの検出器ネットワーク 図2
  • 特表-パラメータ曲線ベースの検出器ネットワーク 図3
  • 特表-パラメータ曲線ベースの検出器ネットワーク 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-04-16
(54)【発明の名称】パラメータ曲線ベースの検出器ネットワーク
(51)【国際特許分類】
   G06V 10/46 20220101AFI20240409BHJP
   G06T 7/60 20170101ALI20240409BHJP
【FI】
G06V10/46
G06T7/60 150D
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023563823
(86)(22)【出願日】2022-04-07
(85)【翻訳文提出日】2023-10-17
(86)【国際出願番号】 EP2022059337
(87)【国際公開番号】W WO2022228857
(87)【国際公開日】2022-11-03
(31)【優先権主張番号】17/242,331
(32)【優先日】2021-04-28
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.Linux
(71)【出願人】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【弁理士】
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【弁理士】
【氏名又は名称】片岡 忠彦
(72)【発明者】
【氏名】ショーシャン、ヨエル
(72)【発明者】
【氏名】ラトナー、バディム
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096EA39
5L096FA08
5L096FA09
5L096FA66
5L096HA11
(57)【要約】
実施形態は、複数の制御点によって定義されるパラメータ曲線を使用して物体の発見および境界予測の精度を改善するような、物体検出のための改善された技術を提供することができる。例えば、ある実施形態では、方法は、プロセッサと、プロセッサからアクセス可能なメモリと、メモリに記憶されてプロセッサによって実行可能なコンピュータ・プログラム命令とを含むコンピュータ・システムに実装することができ、方法は、画像を受信することと、画像中に示される物体に関する複数の特徴を画像から抽出することと、抽出された特徴から、画像中に示される物体をバウンディングするパラメータ曲線を表現する、少なくとも1つの複数の点を生成することと、パラメータ曲線を表現する複数の点を出力することとを含むことができる。
【特許請求の範囲】
【請求項1】
プロセッサと、前記プロセッサからアクセス可能なメモリと、前記メモリに記憶されて前記プロセッサによって実行可能なコンピュータ・プログラム命令とを含むコンピュータ・システムに実装される方法であって、前記方法が、
画像を受信することと、
前記画像中に示される物体に関する複数の特徴を前記画像から抽出することと、
前記抽出された特徴から、前記画像中に示される物体をバウンディングするパラメータ曲線を表現する、少なくとも1つの複数の点を生成することと、
前記パラメータ曲線を表現する前記複数の点を出力することと
を含む、方法。
【請求項2】
前記複数の特徴を抽出することが、回帰モデルを使用して実施される、請求項1に記載の方法。
【請求項3】
グラウンド・トゥルース物体と予測されるアンカとの間のマッチングを、損失関数を使用して最適化すること
をさらに含む、請求項2に記載の方法。
【請求項4】
前記損失関数が、曲線空間、または前記曲線の選択された有限分解のいずれかにおいて計算された、フレシェ距離、ハウスドルフ距離、ボトルネック距離、およびリー代数ベースのメトリクスのうちの少なくとも1つを含む、曲線類似性メトリクスのうちの1つを含む、請求項3に記載の方法。
【請求項5】
曲線距離メトリクスを使用して前記回帰モデルの重みを最適化すること
をさらに含む、請求項3に記載の方法。
【請求項6】
前記生成することが、前記画像中に示される前記物体をバウンディングする複数のパラメータ曲線を表現する、複数の点を生成することを含む、請求項1に記載の方法。
【請求項7】
前記複数のパラメータ曲線が、前記受信した画像全体を覆うように、重なりを伴ってスプレッドされる、請求項6に記載の方法。
【請求項8】
システムであって、プロセッサと、前記プロセッサからアクセス可能なメモリと、前記メモリに記憶されたコンピュータ・プログラム命令とを備え、前記コンピュータ・プログラム命令は、前記プロセッサによって実行可能であって、
画像を受信することと、
前記画像中に示される物体に関する複数の特徴を前記画像から抽出することと、
前記抽出された特徴から、前記画像中に示される物体をバウンディングするパラメータ曲線を表現する、少なくとも1つの複数の点を生成することと、
前記パラメータ曲線を表現する前記複数の点を出力することと
を実行する、システム。
【請求項9】
前記複数の特徴を抽出することが、回帰モデルを使用して実施される、請求項8に記載のシステム。
【請求項10】
グラウンド・トゥルース物体と予測されるアンカとの間のマッチングを、損失関数を使用して最適化すること
をさらに含む、請求項9に記載のシステム。
【請求項11】
前記損失関数が、曲線空間、または前記曲線の選択された有限分解のいずれかにおいて計算された、フレシェ距離、ハウスドルフ距離、ボトルネック距離、およびリー代数ベースのメトリクスのうちの少なくとも1つを含む、曲線類似性メトリクスのうちの1つを含む、請求項10に記載のシステム。
【請求項12】
曲線距離メトリクスを使用して前記回帰モデルの重みを最適化すること
をさらに含む、請求項10に記載のシステム。
【請求項13】
前記生成することが、前記画像中に示される前記物体をバウンディングする複数のパラメータ曲線を表現する、複数の点を生成することを含む、請求項8に記載のシステム。
【請求項14】
前記複数のパラメータ曲線が、前記受信した画像全体を覆うように、重なりを伴ってスプレッドされる、請求項13に記載のシステム。
【請求項15】
プログラム命令が具体化された非一過性のコンピュータ可読記憶を含む、コンピュータ・プログラム製品であって、前記プログラム命令は、コンピュータによって実行可能であって、前記コンピュータに、
画像を受信することと、
前記画像中に示される物体に関する複数の特徴を前記画像から抽出することと、
前記抽出された特徴から、前記画像中に示される物体をバウンディングするパラメータ曲線を表現する、少なくとも1つの複数の点を生成することと、
前記パラメータ曲線を表現する前記複数の点を出力することと
を含む方法を実行させる、コンピュータ・プログラム製品。
【請求項16】
前記複数の特徴を抽出することが、回帰モデルを使用して実施される、請求項15に記載のコンピュータ・プログラム製品。
【請求項17】
グラウンド・トゥルース物体と予測されるアンカとの間のマッチングを、損失関数を使用して最適化すること
をさらに含む、請求項16に記載のコンピュータ・プログラム製品。
【請求項18】
前記損失関数が、曲線空間、または前記曲線の選択された有限分解のいずれかにおいて計算された、フレシェ距離、ハウスドルフ距離、ボトルネック距離、およびリー代数ベースのメトリクスのうちの少なくとも1つを含む、曲線類似性メトリクスのうちの1つを含む、請求項17に記載のコンピュータ・プログラム製品。
【請求項19】
前記生成することが、前記画像中に示される前記物体をバウンディングする複数のパラメータ曲線を表現する、複数の点を生成することを含む、請求項17に記載のコンピュータ・プログラム製品。
【請求項20】
前記複数のパラメータ曲線が、前記受信した画像全体を覆うように、重なりを伴ってスプレッドされる、請求項19に記載のコンピュータ・プログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の制御点によって定義されるパラメータ曲線を使用して物体の発見および境界予測の精度を改善するような、物体検出のための技術に関する。
【背景技術】
【0002】
機械学習ベースの物体検出器は、軸平行境界ボックス(AABB:axis aligned bounding box)を使用して物体予測を実現する。一方で、機械学習ベースの画像セグメント化モデルは、ピクセル(またはピクセルに近い)・レベルのクラス予測を実現する。このような検出器の主な欠点は、AABBは、多くの実際の物体の形状をうまく捉えないことである。セグメント化モデルの主な欠点は、以下のことである:a)ピクセル・レベルの物体は、境界が必ずしも明瞭ではない(例えば、医療用途で)ため、必ずしも明確に定義される訳ではなく、複数のクラスが混じり合っているため、単一のピクセルが複数のクラスに「属する」場合があり、さらに重要なことに、b)一部の用途では、5つの正しいピクセルを既に見つけられた物体に追加することは、まだ発見されていない新しい物体の5つの正しいピクセルを発見することよりもほとんど意味がないため、物体重要性を表現することが困難である(「物体重要性」として知られる)。
【0003】
物体検出パフォーマンスは、次の組合せとして測定することができる:1)一体何の物体が発見されたか、2)境界予測がどれくらい密で正確であったか。普通、両方のパラメータは、物体形状マッチング基準を定義することによって組み合わされ、この基準は、実際の物体グラウンド・トゥルース境界に対する予測と比較され、比較の類似性が一定のしきい値を下回る場合、ミスと考える。
【0004】
したがって、物体の発見および境界予測の精度を改善するような、物体検出のための改善された技術の必要性が生じる。
【発明の概要】
【0005】
実施形態は、複数の制御点によって定義されるパラメータ曲線を使用して物体の発見および境界予測の精度を改善するような、物体検出のための改善された技術を提供することができる。例えば、実施形態は、物体について著しく密な境界予測を提供しつつ、物体重要性を正しく表現することができる。AABB位置の微調整を表現する物体1つ当たりに予測される4つの値の代わりに、実施形態は、K個の曲線制御点を代わりに予測することができる。これは、物体の発見とその形状の記述との間で、より良好なバランスをとり、それによって、優れた物体検出パフォーマンスをもたらすことができる。加えて、実施形態は、物体形状の正則化を実現することができる。加えて、ポリゴンは多くの頂点を含むことがあり、モデルがオーバフィットされる可能性が高いため、多様な形状境界を表現することができる少数の制御点は、ポリゴン形状を予測しようとする技術よりも優れている。
【0006】
例えば、ある実施形態では、方法は、プロセッサと、プロセッサからアクセス可能なメモリと、メモリに記憶されてプロセッサによって実行可能なコンピュータ・プログラム命令とを含むコンピュータ・システムに実装することができ、方法は、画像を受信することと、画像中に示される物体に関する複数の特徴を画像から抽出することと、抽出された特徴から、画像中に示される物体をバウンディングするパラメータ曲線を表現する、少なくとも1つの複数の点を生成することと、パラメータ曲線を表現する複数の点を出力することとを含むことができる。
【0007】
実施形態では、複数の特徴を抽出することは、回帰モデルを使用して実施してもよい。方法は、グラウンド・トゥルース物体と予測されるアンカとの間のマッチングを、損失関数を使用して最適化することを含むことができる。損失関数は、曲線空間、または曲線の選択された有限分解のいずれかにおいて計算された、フレシェ距離、ハウスドルフ距離、ボトルネック距離、およびリー代数ベースのメトリクスのうちの少なくとも1つを含む、曲線類似性メトリクスのうちの1つを含むことができる。方法は、曲線距離メトリクスを使用して回帰モデルの重みを最適化することを含むことができる。生成することは、画像中に示される物体をバウンディングする複数のパラメータ曲線を表現する、複数の点を生成することを含むことができる。複数のパラメータ曲線は、受信した画像全体を覆うように、重なりを伴ってスプレッドされてもよい。
【0008】
ある実施形態では、システムは、プロセッサと、プロセッサからアクセス可能なメモリと、メモリに記憶されたコンピュータ・プログラム命令とを備え、コンピュータ・プログラム命令は、プロセッサによって実行可能であって、画像を受信することと、画像中に示される物体に関する複数の特徴を画像から抽出することと、抽出された特徴から、画像中に示される物体をバウンディングするパラメータ曲線を表現する、少なくとも1つの複数の点を生成することと、パラメータ曲線を表現する複数の点を出力することとを実行することができる。
【0009】
ある実施形態では、コンピュータ・プログラム製品は、プログラム命令が具体化された非一過性のコンピュータ可読記憶を含み、プログラム命令は、コンピュータによって実行可能であって、コンピュータに、画像を受信することと、画像中に示される物体に関する複数の特徴を画像から抽出することと、抽出された特徴から、画像中に示される物体をバウンディングするパラメータ曲線を表現する、少なくとも1つの複数の点を生成することと、パラメータ曲線を表現する複数の点を出力することとを含む方法を実行させることができる。
【0010】
本発明の詳細は、その構造および動作の両方に関して、添付の図面を参照することによって、最良に理解することができる。添付の図面では、同一の参照番号および表記は、同一要素を指す。
【図面の簡単な説明】
【0011】
図1】本技術の実施形態による、ニューラル・ネットワーク・アーキテクチャの例示的な実施形態の図である。
図2】本技術の実施形態による、ニューラル・ネットワーク・アーキテクチャにおける物体検出のプロセスの、例示的なフロー図である。
図3】本技術の実施形態による、アンカおよび予測されるパラメータ曲線を定義する制御点の例示的な図である。
図4】本明細書で説明される実施形態に関与するプロセスを実装することができる、コンピュータ・システムの例示的なブロック図である。
【発明を実施するための形態】
【0012】
実施形態は、複数の制御点によって定義されるパラメータ曲線を使用して物体の発見および境界予測の精度を改善するような、物体検出のための改善された技術を提供することができる。例えば、実施形態は、物体について著しく密な境界予測を提供しつつ、物体重要性を正しく表現することができる。AABB位置の微調整を表現する物体1つ当たりに予測される4つの値の代わりに、実施形態は、K個の曲線制御点を代わりに予測することができる。これは、物体の発見とその形状の記述との間で、より良好なバランスをとり、それによって、優れた物体検出パフォーマンスをもたらすことができる。加えて、実施形態は、物体形状の正則化を実現することができる。加えて、ポリゴンは多くの頂点を含むことがあり、モデルがオーバフィットされる可能性が高いため、多様な形状境界を表現することができる少数の制御点は、ポリゴン形状を予測しようとする技術よりも優れている。
【0013】
図1に、ニューラル・ネットワーク・アーキテクチャ100の例示的な実施形態を示す。これは、ニューラル・ネットワーク・アーキテクチャ100における物体検出のプロセス200の例示的なフロー図である図2と併せて見るのが最良である。この例では、アーキテクチャ100は、特徴抽出サブモジュール102、少なくとも1つの回帰ヘッド104、定義された損失関数106、オプティマイザ108、および正則化110を含むことができる。プロセス200は202で開始し、202では、特徴抽出サブモジュール103は、画像中に示される物体に関する特徴などの関連特徴を、「MAIN_FEATURES」と用語付けて各入力画像112から抽出することができる。204では、1つまたは複数の回帰モデル・ヘッド104は、抽出されたMAIN_FEATURESを入力として受け取ることができ、N個のアンカ点×C個の制御点など、現在の画像中で物体をバウンディングすることができる1つまたは複数のパラメータ曲線を表現する点を出力することができる。206では、損失関数106を適用することができる。損失関数106は、グラウンド・トゥルース物体と予測されるアンカとの間でマッチングを最適化しようとする、定義された損失関数(または部分項)であることができる。208では、オプティマイザ108は、定義された損失関数に従って、モデル重みを最適化することができる。オプティマイザ108は、フレシェ距離、ハウスドルフ距離、ボトルネック距離、リー代数ベースのメトリクスなど、あらゆる曲線距離メトリクスを使用することができる。曲線の選択された有限分解を使用することもでき、それによって、ポリゴンベースのメトリクスもまた利用可能となる。(これは、ポリゴンを直接的に出力するネットワークと等価ではないことに注意されたい)。210では、任意選択の正則化項110は、予測されたパラメータ曲線の形状特性に影響を与えることができる。そのような特性としては、滑らかさ、凸面性などを挙げることができる。212では、1つまたは複数のパラメータ曲線を表現し、現在の画像中の物体をバウンディングすることができる、予測された出力点112を、出力することができる。
【0014】
プロセス200からの出力としての、アンカおよび予測されたパラメータ曲線を定義する制御点の例を、図3に示す。この例では、潜在的な検出を表現する各アンカは、デフォルト302で開始することができる。制御点は、モデルのアンカごとの予測の一部であり、ごく少数の数値を使用して、より複雑な形状を表現できるようにしている。例えば、アンカ302は、デフォルトのアンカに過ぎない。他のアンカは、アンカ304など、同一数の制御点を用いてより複雑な形状を有することができる。プロセス200は、入力画像全体を覆うように、重なりを伴ってスプレッドするアンカ306を予測することができる。オプティマイザ108または正則化項110あるいはその両方は、1つまたは複数のアンカの形状304を、デフォルト形状302から修正することができる。
【0015】
本明細書で説明される実施形態に関与するプロセスおよびコンポーネントを実装することができる、コンピュータ・システム400の例示的なブロック図を、図4に示す。コンピュータ・システム400は、埋め込みプロセッサ、システム・オン・チップ、パーソナル・コンピュータ、ワークステーション、サーバ・システム、およびミニコンピュータもしくはメインフレーム・コンピュータなど、1つまたは複数のプログラムされた汎用コンピュータ・システムを使用して、あるいは分散されたネットワーク化コンピューティング環境内に、実装されてもよい。コンピュータ・システム400は、1つまたは複数のプロセッサ(CPU)402A~402N、入力/出力回路404、ネットワーク・アダプタ406、およびメモリ408を含むことができる。CPU402A~402Nは、本発明の通信システムおよび方法の機能を遂行するために、プログラム命令を実行する。通常、CPU402A~402Nは、INTEL CORE(R)プロセッサなどの、1つまたは複数のマイクロプロセッサである。図4は、コンピュータ・システム400が、単一のマルチプロセッサ・コンピュータ・システムとして実装される実施形態を図示しており、このシステムでは、複数のプロセッサ402A~402Nは、メモリ408、入力/出力回路404、およびネットワーク・アダプタ406などのシステム・リソースを共有する。しかしながら、本発明の通信システムおよび方法はまた、コンピュータ・システム400が、複数のネットワーク化されたコンピュータ・システムとして実装される実施形態を含み、このシステムは、単一プロセッサのコンピュータ・システム、マルチプロセッサのコンピュータ・システム、またはそれらの組合せであってもよい。
【0016】
入力/出力回路404は、データをコンピュータ・システム400に入力するための、またはコンピュータ・システム400からデータを出力するための能力を提供する。例えば、入力/出力回路は、キーボード、マウス、タッチパッド、トラックボール、スキャナ、アナログ-デジタル変換器などの入力デバイス、ビデオ・アダプタ、モニタ、プリンタなどの出力デバイス、およびモデムなどの入力/出力デバイスを含むことができる。ネットワーク・アダプタ406は、デバイス400とネットワーク410とをインターフェースする。ネットワーク410は、インターネットを含むがそれに限定されない、あらゆるパブリックな、または専有のLANまたはWANであってもよい。
【0017】
メモリ408は、コンピュータ・システム400の機能を実行するために、CPU402によって実行されるプログラム命令、ならびにCPU402によって使用および処理されるデータを記憶する。メモリ408としては、例えば、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、プログラマブル読み取り専用メモリ(PROM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、フラッシュ・メモリなどの電子メモリデバイス、および磁気ディスク・ドライブ、テープ・ドライブ、光学ディスク・ドライブなどの電気機械的メモリを挙げることができ、これらは、integrated drive electronics(IDE)インターフェース、またはエンハンストIDE(EIDE)もしくはウルトラダイレクト・メモリ・アクセス(UDMA)など、それらの変形もしくは拡張、あるいはスモール・コンピュータ・システム・インターフェース(SCSI)ベースのインターフェース、または高速SCSI、ワイドSCSI、高速ワイドSCSIなど、それらの変形もしくは拡張、あるいはSerial Advanced Technology Attachment(SATA)、またはそれらの変形もしくは拡張、あるいはファイバ・チャネル調停ループ(FC-AL)インターフェースを使用することができる。
【0018】
メモリ408の内容は、コンピュータ・システム400が実行するようにプログラムされる機能に応じて様々であることができる。図4に示される例では、例示のメモリ内容は、上述のプロセスの実施形態のルーチンおよびデータを表現して示される。しかしながら、当業者であれば、これらのルーチンは、このようなルーチンに関するメモリ内容と共に、1つのシステムまたはデバイスに含まれなくてもよく、むしろ、周知のエンジニアリング検討に基づいて、複数のシステムまたはデバイス間に分散することができることを認識するであろう。本発明のシステムおよび方法は、あらゆる、またはすべてのそのような配置構成を含むことができる。
【0019】
図4に示される例では、メモリ408は、第3の発話生成ルーチン412、モデル・ルーチン414、ボット・ルーチン416、訓練データ418、およびオペレーティング・システム420を含むことができる。第3の発話生成ルーチン412は、上述のように、エンリッチされた訓練データなどのデータを生成するためのソフトウェア、および第3の発話生成を含むことができる。モデル・ルーチン414は、上述のように、テキストからテキストへのモデル化機能性を提供するソフトウェアを含むことができる。ボット・ルーチン416は、上述のように、自動化されたダイアログ・システムを実装するためのソフトウェアを含むことができる。オペレーティング・システム418は、全体的なシステム機能性を提供することができる。
【0020】
図4に示されるように、本発明の通信システムおよび方法は、マルチプロセッサ、マルチタスキング、マルチプロセス、またはマルチスレッドあるいはその組合せのコンピューティングを提供する1つまたは複数のシステム上の実装形態、ならびに単一プロセッサ、単一スレッドのコンピューティングを提供するシステム上の実装形態を含むことができる。マルチプロセッサ・コンピューティングには、2つ以上のプロセッサを使用するコンピューティングの実施が伴う。マルチタスキング・コンピューティングには、2つ以上のオペレーティング・システム・タスクを使用するコンピューティングの実施が伴う。タスクは、実行されるプログラムとオペレーティング・システムによって使用される記録情報との組合せを称するオペレーティング・システムの概念である。プログラムが実行される都度、オペレーティング・システムはそれに対して新しいタスクを作成する。タスクは、プログラムをタスク番号で識別し、他の記録情報をそこに添付するという点で、プログラム用の封筒のようなものである。Linux、UNIX(R)、OS/2(R)、およびWindows(R)を含む、多くのオペレーティング・システムは、多くのタスクを同時に実行することができ、マルチタスキング・オペレーティング・システムと呼ばれる。マルチタスキングは、2つ以上の実行可能ファイルを同時に実行する、オペレーティング・システムの能力である。各実行可能ファイルは、それ自身のアドレス空間で実行され、これは実行可能ファイルがそれらのどのメモリも共有する方法がないことを意味する。どのプログラムも、システム上で実行する他のプログラムのいずれの実行に損害を与えることができないため、これには利点がある。しかしながら、プログラムは、オペレーティング・システムを通じて(または、ファイル・システムに記憶されたファイルを読み取ることによって)以外に情報を交換する方法がない。タスクとプロセスという用語はしばしば互換的に用いられるため、マルチプロセス・コンピューティングは、マルチタスキング・コンピューティングに類似しているが、一部のオペレーティング・システムは両者を区別している。
【0021】
本発明は、統合のあらゆる可能な技術的詳細レベルにおける、システム、方法、またはコンピュータ・プログラム製品あるいはその組合せであってもよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を含むことができる。コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持および記憶することができる有形のデバイスであり得る。
【0022】
コンピュータ可読記憶媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイスまたは前述のあらゆる好適な組合せであってもよいが、それに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的な列挙としては、以下が挙げられる:ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュ・メモリ)、静的ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み取り専用メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリ・スティック、フロッピ・ディスク、命令が記録されたパンチカードまたは溝に刻まれた構造などの機械的にエンコードされたデバイス、および前述のあらゆる好適な組合せ。本明細書において使用される場合、コンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を介して伝搬する電磁波(例えば、光ファイバ・ケーブルを通過する光パルス)、または電線を介して伝送される電気的信号など、一過性の信号そのものであると解釈されてはならない。
【0023】
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から個別のコンピューティング/処理デバイスに、あるいは、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークもしくは無線ネットワークまたはその組合せなどのネットワークを介して、外部のコンピュータまたは外部のストレージ・デバイスに、ダウンロードすることができる。ネットワークは、銅の伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイヤウォール、スイッチ、ゲートウェイ・コンピュータまたはエッジ・サーバあるいはその組合せを含むことができる。それぞれのコンピューティング/処理デバイスのネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、個別のコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶するためにコンピュータ可読プログラム命令を転送する。
【0024】
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路用の設定データ、あるいはSmalltalk(R)、C++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語などの手続き型プログラミング言語もしくは類似するプログラミング言語を含む1つまたは複数のプログラミング言語のあらゆる組合せで記述された、ソース・コードまたはオブジェクト・コードのいずれかであってもよい。コンピュータ可読プログラム命令は、すべてユーザのコンピュータ上で、一部はユーザのコンピュータ上でスタンドアロンのソフトウェア・パッケージとして、一部はユーザのコンピュータ上および一部はリモート・コンピュータ上で、またはすべてリモート・コンピュータ上もしくはサーバ上で、実行することができる。後者のシナリオにおいて、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)もしくはワイド・エリア・ネットワーク(WAN)を含むあらゆるタイプのネットワークを介してユーザのコンピュータに接続することができ、または接続は(例えば、インターネット・サービス・プロバイダを使用してインターネットを通じて)外部のコンピュータに対してなされてもよい。一部の実施形態において、例えば、プログラマブル論理回路、フィールドプログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル論理アレイ(PLA)を含む電子回路は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行し、電子回路を個別化することができる。
【0025】
本発明の態様は、本明細書では、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照しながら説明される。フローチャート図またはブロック図あるいはその両方のそれぞれのブロック、およびフローチャート図またはブロック図あるいはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実装され得ることが理解されよう。
【0026】
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行する命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/作用を実装する手段を作成すべく、汎用コンピュータ、特殊目的コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されて機械を作るものであってよい。これらのコンピュータ可読プログラム命令はまた、命令が記憶されているコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/作用の態様を実装するための命令を含む製造物品を備えるべく、コンピュータ、プログラマブル・データ処理装置、または他のデバイスあるいはその組合せに特定のやり方で機能するように指示することができるコンピュータ可読記憶媒体に記憶されてもよい。
【0027】
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブル装置、または他のデバイスで実行する命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/作用を実装するように、コンピュータ実装プロセスを作るべく、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイス上にロードされ、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実施させるものであってもよい。
【0028】
図面中のフローチャートおよびブロック図は、本発明の様々な実施形態に従って、システム、方法、およびコンピュータ・プログラム製品の可能な実装形態の、アーキテクチャ、機能性、および動作を図示している。この点において、フローチャートまたはブロック図のそれぞれのブロックは、指定される論理機能を実装するための1つまたは複数の実行可能な命令を含む、命令のモジュール、セグメント、または部分を表現することができる。一部の代替的な実装形態では、ブロックで示される機能は図面で示した順とは異なって発生してもよい。例えば、連続して示される2つのブロックは、実際には実質的に同時に実行されてもよく、またはブロックは関与する機能性によっては、時に逆の順で実行されてもよい。ブロック図またはフローチャート図あるいはその両方のそれぞれのブロック、およびブロック図またはフローチャート図あるいはその両方のブロックの組合せは、指定される機能もしくは作用を実施する、または特殊目的ハードウェアとコンピュータ命令との組合せを実行する、特殊目的ハードウェア・ベースのシステムによって実装され得ることにも留意されたい。
【0029】
本発明の具体的な実施形態を説明してきたが、当業者であれば、説明された実施形態に等価な他の実施形態を理解するであろう。したがって、本発明は、具体的な例示の実施形態によって限定されることなく、添付の特許請求の範囲によってのみ限定されることを理解されたい。
図1
図2
図3
図4
【手続補正書】
【提出日】2024-03-26
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
プロセッサと、前記プロセッサからアクセス可能なメモリと、前記メモリに記憶されて前記プロセッサによって実行可能なコンピュータ・プログラム命令とを含むコンピュータ・システムに実装される方法であって、前記方法が、
画像を受信することと、
前記画像中に示される物体に関する複数の特徴を前記画像から抽出することと、
前記抽出された特徴から、前記画像中に示される物体をバウンディングするパラメータ曲線を表現する、少なくとも1つの複数の点を生成することと、
前記パラメータ曲線を表現する前記複数の点を出力することと
を含む、方法。
【請求項2】
前記複数の特徴を抽出することが、回帰モデルを使用して実施される、請求項1に記載の方法。
【請求項3】
グラウンド・トゥルース物体と予測されるアンカとの間のマッチングを、損失関数を使用して最適化すること
をさらに含む、請求項2に記載の方法。
【請求項4】
前記損失関数が、曲線空間、または前記曲線の選択された有限分解のいずれかにおいて計算された、フレシェ距離、ハウスドルフ距離、ボトルネック距離、およびリー代数ベースのメトリクスのうちの少なくとも1つを含む、曲線類似性メトリクスのうちの1つを含む、請求項3に記載の方法。
【請求項5】
曲線距離メトリクスを使用して前記回帰モデルの重みを最適化すること
をさらに含む、請求項3に記載の方法。
【請求項6】
前記生成することが、前記画像中に示される前記物体をバウンディングする複数のパラメータ曲線を表現する、複数の点を生成することを含む、請求項1に記載の方法。
【請求項7】
前記複数のパラメータ曲線が、前記受信した画像全体を覆うように、重なりを伴ってスプレッドされる、請求項6に記載の方法。
【請求項8】
システムであって、プロセッサと、前記プロセッサからアクセス可能なメモリと、前記メモリに記憶されたコンピュータ・プログラム命令とを備え、前記コンピュータ・プログラム命令は、前記プロセッサによって実行可能であって、
画像を受信することと、
前記画像中に示される物体に関する複数の特徴を前記画像から抽出することと、
前記抽出された特徴から、前記画像中に示される物体をバウンディングするパラメータ曲線を表現する、少なくとも1つの複数の点を生成することと、
前記パラメータ曲線を表現する前記複数の点を出力することと
を実行する、システム。
【請求項9】
前記複数の特徴を抽出することが、回帰モデルを使用して実施される、請求項8に記載のシステム。
【請求項10】
グラウンド・トゥルース物体と予測されるアンカとの間のマッチングを、損失関数を使用して最適化すること
をさらに含む、請求項9に記載のシステム。
【請求項11】
前記損失関数が、曲線空間、または前記曲線の選択された有限分解のいずれかにおいて計算された、フレシェ距離、ハウスドルフ距離、ボトルネック距離、およびリー代数ベースのメトリクスのうちの少なくとも1つを含む、曲線類似性メトリクスのうちの1つを含む、請求項10に記載のシステム。
【請求項12】
曲線距離メトリクスを使用して前記回帰モデルの重みを最適化すること
をさらに含む、請求項10に記載のシステム。
【請求項13】
前記生成することが、前記画像中に示される前記物体をバウンディングする複数のパラメータ曲線を表現する、複数の点を生成することを含む、請求項8に記載のシステム。
【請求項14】
前記複数のパラメータ曲線が、前記受信した画像全体を覆うように、重なりを伴ってスプレッドされる、請求項13に記載のシステム。
【請求項15】
プログラム命令が具体化された非一過性のコンピュータ可読記憶を含む、コンピュータ・プログラムであって、コンピュータに、
画像を受信することと、
前記画像中に示される物体に関する複数の特徴を前記画像から抽出することと、
前記抽出された特徴から、前記画像中に示される物体をバウンディングするパラメータ曲線を表現する、少なくとも1つの複数の点を生成することと、
前記パラメータ曲線を表現する前記複数の点を出力することと
を含む方法を実行させる、コンピュータ・プログラム。
【請求項16】
前記複数の特徴を抽出することが、回帰モデルを使用して実施される、請求項15に記載のコンピュータ・プログラム。
【請求項17】
グラウンド・トゥルース物体と予測されるアンカとの間のマッチングを、損失関数を使用して最適化すること
をさらに含む、請求項16に記載のコンピュータ・プログラム。
【請求項18】
前記損失関数が、曲線空間、または前記曲線の選択された有限分解のいずれかにおいて計算された、フレシェ距離、ハウスドルフ距離、ボトルネック距離、およびリー代数ベースのメトリクスのうちの少なくとも1つを含む、曲線類似性メトリクスのうちの1つを含む、請求項17に記載のコンピュータ・プログラム。
【請求項19】
前記生成することが、前記画像中に示される前記物体をバウンディングする複数のパラメータ曲線を表現する、複数の点を生成することを含む、請求項17に記載のコンピュータ・プログラム。
【請求項20】
前記複数のパラメータ曲線が、前記受信した画像全体を覆うように、重なりを伴ってスプレッドされる、請求項19に記載のコンピュータ・プログラム。
【国際調査報告】