(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-05-02
(54)【発明の名称】メディアアイテムからオブジェクトを細分化および除去すること
(51)【国際特許分類】
G06T 7/11 20170101AFI20240424BHJP
G06T 7/00 20170101ALI20240424BHJP
G06T 5/94 20240101ALI20240424BHJP
【FI】
G06T7/11
G06T7/00 350B
G06T5/94
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023561387
(86)(22)【出願日】2022-10-18
(85)【翻訳文提出日】2023-10-05
(86)【国際出願番号】 US2022047033
(87)【国際公開番号】W WO2023069443
(87)【国際公開日】2023-04-27
(32)【優先日】2021-10-18
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】リバ,オーリー
(72)【発明者】
【氏名】カルナド,ニキル
(72)【発明者】
【氏名】金沢 倫次
(72)【発明者】
【氏名】ナーン,ヤエル・プリッチ
(72)【発明者】
【氏名】チェン,ホイジョン
(72)【発明者】
【氏名】ツァイ,ロンチー
【テーマコード(参考)】
5B057
5L096
【Fターム(参考)】
5B057CA08
5B057CA12
5B057CA16
5B057CB08
5B057CB12
5B057CB16
5B057CE11
5B057DB02
5B057DB09
5B057DC22
5L096AA06
5L096EA12
5L096FA02
5L096FA19
5L096JA22
5L096KA04
(57)【要約】
メディアアプリケーションは、メディアアイテムの第1のセットとメディアアイテムの第2のセットとを含む訓練データを生成し、当該メディアアイテムの第1のセットは、当該メディアアイテムの第2のセットに対応し、手で細分化される気を散らすオブジェクトを含む。当該メディアアプリケーションは、訓練データに基づいてセグメンテーション機械学習モデルをトレーニングして、1つ以上の気を散らすオブジェクトを有するメディアアイテムを受信し、当該1つ以上の気を散らすオブジェクトに対応する1つ以上のセグメント化されたオブジェクトのためのセグメンテーションマスクを出力する。
【特許請求の範囲】
【請求項1】
コンピュータで実行される方法であって、
メディアアイテムの第1のセットとメディアアイテムの第2のセットとを含む訓練データを生成することを含み、前記メディアアイテムの第1のセットは、前記メディアアイテムの第2のセットに対応し、手で細分化される気を散らすオブジェクトを含み、前記方法はさらに、
1つ以上の気を散らすオブジェクトを有するメディアアイテムを受信して、前記1つ以上の気を散らすオブジェクトに対応する1つ以上の細分化されたオブジェクトのためのセグメンテーションマスクを出力するために、前記訓練データに基づいてセグメンテーション機械学習モデルをトレーニングすることを含む、方法。
【請求項2】
前記1つ以上の気を散らすオブジェクトは電力線であり、
前記方法は、
1つ以上の断線した電力線を含むメディアアイテムの第1のセットから1つ以上のメディアアイテムを識別することと、
前記訓練データ内の1つ以上の破損した電力線を補正するために、1つ以上のメディアアイテムを増強することとをさらに含む、請求項1に記載の方法。
【請求項3】
前記1つ以上の破損した電力線を補正するために1つ以上のメディアアイテムを増強することは、
対応する1つ以上の拡張メディアアイテムを生成するために、前記1つ以上のメディアアイテムにおける局所的なコントラストを変更することと、
前記1つ以上のメディアアイテムの一部を、対応する1つ以上の拡張メディアアイテムの一部と混合することとを含む、請求項2に記載の方法。
【請求項4】
前記局所的なコントラストは、2つのバイアス曲線を加算するゲイン曲線を使用して修正される、請求項3に記載の方法。
【請求項5】
前記訓練データを生成することは、1つ以上の気を散らすオブジェクトのセグメンテーションマスクに拡張を適用することによって、前記1つ以上のメディアアイテムを拡張することを含む、請求項2に記載の方法。
【請求項6】
前記1つ以上の気を散らすオブジェクトは、カテゴリーに編成され、前記カテゴリーは、電力線、電柱、塔、およびそれらの組み合わせの群から選択される少なくとも1つを含む、請求項1に記載の方法。
【請求項7】
前記セグメンテーション機械学習モデルをトレーニングすることは、
前記訓練データに基づいて大容量の機械学習モデルを生成することと、
前記大容量の機械学習モデルによって細分化された訓練データに対して推論を行うことにより、大容量機械学習モデルをトレーニングされたセグメンテーション機械学習モデルに精製することとを含む、請求項1に記載の方法。
【請求項8】
前記訓練データは、屋外環境オブジェクトの前に前記気を散らすオブジェクトが追加された合成画像をさらに含む、請求項1に記載の方法。
【請求項9】
メディアアイテムから気を散らすオブジェクトを除去するためのコンピュータで実行される方法であって、
ユーザからメディアアイテムを受信することと、
前記メディアアイテム内の1つ以上の気を散らすオブジェクトを識別することと、
トレーニングされたセグメンテーション機械学習モデルに前記メディアアイテムを提供することと、
前記トレーニングされたセグメンテーション機械学習モデルを用いて、前記メディアアイテム内の1つ以上の気を散らすオブジェクトのためのセグメンテーションマスクを出力することと、
出力メディアアイテムを取得するために前記セグメンテーションマスクに一致するメディアアイテムの一部を修復することとを含み、前記1つ以上の気を散らすオブジェクトは前記出力メディアアイテムにはない、方法。
【請求項10】
前記1つ以上の気を散らすオブジェクトはカテゴリーに編成され、前記カテゴリーは、電力線、電柱、塔、およびそれらの組み合わせの群から選択される少なくとも1つを含む、請求項9に記載の方法。
【請求項11】
前記1つ以上の気を散らすオブジェクトをメディアアイテムから除去する提案をユーザに提供することをさらに含む、請求項9に記載の方法。
【請求項12】
前記トレーニングされたセグメンテーション機械学習モデルは、メディアアイテムの第1のセットとメディアアイテムの第2のセットとを含む訓練データを使用してトレーニングされており、前記第1のセットのメディアアイテムは、前記第2のセットのメディアアイテムに対応し、手で細分化される気を散らすオブジェクトを含む、請求項9に記載の方法。
【請求項13】
命令を格納した持続性のコンピュータ可読媒体であって、前記命令は1つ以上のコンピュータによって実行されると、前記1つ以上のコンピュータに複数の演算を実行させ、前記複数の演算は、
メディアアイテムの第1のセットとメディアアイテムの第2のセットとを含む訓練データを生成することを含み、前記メディアアイテムの第1のセットは、前記メディアアイテムの第2のセットに対応し、手で細分化される気を散らすオブジェクトを含み、前記複数の演算はさらに、
1つ以上の気を散らすオブジェクトを有するメディアアイテムを受信して、前記1つ以上の気を散らすオブジェクトに対応する1つ以上の細分化されたオブジェクトのためのセグメンテーションマスクを出力するために、前記訓練データに基づいてセグメンテーション機械学習モデルをトレーニングすることを含む、コンピュータ可読媒体。
【請求項14】
前記1つ以上の気を散らすオブジェクトは電力線であり、前記複数の演算は、
1つ以上の断線した電力線を含むメディアアイテムの第1のセットから1つ以上のメディアアイテムを識別することと、
前記訓練データ内の1つ以上の破損した電力線を補正するために、1つ以上のメディアアイテムを増強することとをさらに含む、請求項13に記載のコンピュータ可読媒体。
【請求項15】
前記1つ以上の破損した電力線を補正するために1つ以上のメディアアイテムを増強することは、
対応する1つ以上の拡張メディアアイテムを生成するために、前記1つ以上のメディアアイテムにおける局所的なコントラストを変更することと、
前記1つ以上のメディアアイテムの一部を、対応する1つ以上の拡張メディアアイテムの一部と混合することとを含む、請求項14に記載のコンピュータ可読媒体。
【請求項16】
前記局所的なコントラストは、2つのバイアス曲線を加算するゲイン曲線を使用して修正される、請求項15に記載のコンピュータ可読媒体。
【請求項17】
前記訓練データを生成することは、1つ以上の気を散らすオブジェクトのセグメンテーションマスクに拡張を適用することによって、前記1つ以上のメディアアイテムを拡張することを含む、請求項13に記載のコンピュータ可読媒体。
【請求項18】
前記1つ以上の気を散らすオブジェクトは、カテゴリーに編成され、前記カテゴリーは、電力線、電柱、塔、およびそれらの組み合わせの群から選択される少なくとも1つを含む、請求項13に記載のコンピュータ可読媒体。
【請求項19】
前記セグメンテーション機械学習モデルをトレーニングすることは、
前記訓練データに基づいて大容量の機械学習モデルを生成することと、
前記大容量の機械学習モデルによって細分化された訓練データに対して推論を行うことにより、大容量機械学習モデルをトレーニングされたセグメンテーション機械学習モデルに精製することとを含む、請求項13に記載のコンピュータ可読媒体。
【請求項20】
前記訓練データは、屋外環境オブジェクトの前に前記気を散らすオブジェクトが追加された合成画像をさらに含む、請求項13に記載のコンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の参照
本出願は、米国特許仮出願63/257,114(2021年10月18日、"Segmenting and Removing Objects from Media Items")に対する優先権を主張し、これは、参照によりその全体が本明細書に組み込まれる。
【背景技術】
【0002】
背景
画像(静的画像、選択的動きを有する画像など)およびビデオのような視覚メディアアイテムのユーザが知覚する品質は、メディアアイテムの焦点を乱す特定のオブジェクトを除去することによって改善することができる。この気を散らすオブジェクトは手で除去することができるが、タスクは困難で不完全である可能性がある。さらに、気を散らすオブジェクトは、メディアアイテムから自動的に除去することが困難であり、なぜならば、そのような除去が、(気を散らすオブジェクトとして誤って識別される)追加のオブジェクトまたはオブジェクトの一部も除去される画像、追加のオブジェクトが除去される場合、過度にトリガされた非現実的な結果、または、除去されたオブジェクトの一部が依然として可視である不完全な細分化をもたらすためである。
【発明の概要】
【発明が解決しようとする課題】
【0003】
ユーザは、気を散らすオブジェクトを除去するために手による画像またはビデオ編集技術を使用できる。しかしながら、このタスクは、煩わしく、不完全であり得る。さらに、気を散らすオブジェクトを自動的に除去することは、追加のオブジェクトまたはオブジェクトの一部も除去されるという誤った陽画(positive)をもたらすため、または、不完全なセグメンテーションが、除去されたオブジェクトの一部は依然として見えるという結果をもたらし得るため、困難である。
【0004】
本明細書に提供される背景技術の説明は、本開示の文脈を概して提示する目的のためにある。現在名前が挙げられている発明者の研究は、この背景技術のセクションに記載されている限りにおいて、出願時に従来技術として適格とされ得ない説明の態様と同様に、本開示に対する従来技術として明示的にも暗示的にも認められない。
【課題を解決するための手段】
【0005】
概要
コンピュータで実行される方法は、メディアアイテムの第1のセットとメディアアイテムの第2のセットとを含む訓練データを生成することを含み、上記メディアアイテムの第1のセットは、上記メディアアイテムの第2のセットに対応し、手で細分化される気を散らすオブジェクトを含む。上記方法はさらに、1つ以上の気を散らすオブジェクトを有するメディアアイテムを受信して、上記1つ以上の気を散らすオブジェクトに対応する1つ以上の細分化されたオブジェクトのためのセグメンテーションマスクを出力するために、上記訓練データに基づいてセグメンテーション機械学習モデルをトレーニングすることを含む。
【0006】
いくつかの実施の形態において、上記1つ以上の気を散らすオブジェクトは電力線であり、上記方法は、1つ以上の断線した電力線を含むメディアアイテムの第1のセットから1つ以上のメディアアイテムを識別することと、上記訓練データ内の1つ以上の破損した電力線を補正するために、1つ以上のメディアアイテムを増強することとをさらに含む。いくつかの実施の形態において、上記1つ以上の破損した電力線を補正するために1つ以上のメディアアイテムを増強することは、対応する1つ以上の拡張メディアアイテムを生成するために、上記1つ以上のメディアアイテムにおける局所的なコントラストを変更することと、上記1つ以上のメディアアイテムの一部を、対応する1つ以上の拡張メディアアイテムの一部と混合することとを含む。いくつかの実施の形態において、上記局所的なコントラストは、2つのバイアス曲線を加算するゲイン曲線を使用して修正される。いくつかの実施の形態において、上記訓練データを生成することは、1つ以上の気を散らすオブジェクトのセグメンテーションマスクに拡張を適用することによって、上記1つ以上のメディアアイテムを拡張することを含む。いくつかの実施の形態において、上記1つ以上の気を散らすオブジェクトは、カテゴリーに編成され、上記カテゴリーは、電力線、電柱、塔、およびそれらの組み合わせの群から選択される少なくとも1つを含む。いくつかの実施の形態において、上記セグメンテーション機械学習モデルをトレーニングすることは、上記訓練データに基づいて大容量の機械学習モデルを生成することと、上記大容量の機械学習モデルによって細分化された訓練データに対して推論を行うことにより、大容量機械学習モデルをトレーニングされたセグメンテーション機械学習モデルに精製することとを含む。いくつかの実施の形態において、上記訓練データは、屋外環境オブジェクトの前に上記気を散らすオブジェクトが追加された合成画像をさらに含む。
【0007】
いくつかの実施の形態において、メディアアイテムから気を散らすオブジェクトを除去するためにコンピュータで実行される方法は、ユーザからメディアアイテムを受信することと、上記メディアアイテム内の1つ以上の気を散らすオブジェクトを識別することと、トレーニングされたセグメンテーション機械学習モデルに上記メディアアイテムを提供することと、上記トレーニングされたセグメンテーション機械学習モデルを用いて、上記メディアアイテム内の1つ以上の気を散らすオブジェクトのためのセグメンテーションマスクを出力することと、出力メディアアイテムを取得するために上記セグメンテーションマスクに一致するメディアアイテムの一部を修復することとを含み、上記1つ以上の気を散らすオブジェクトは上記出力メディアアイテムにはない。
【0008】
上記1つ以上の気を散らすオブジェクトはカテゴリーに編成され、上記カテゴリーは、電力線、電柱、塔、およびそれらの組み合わせの群から選択される少なくとも1つを含む。いくつかの実施の形態において、上記方法は、上記1つ以上の気を散らすオブジェクトをメディアアイテムから除去する提案をユーザに提供することをさらに含む。いくつかの実施の形態において、上記トレーニングされたセグメンテーション機械学習モデルは、メディアアイテムの第1のセットとメディアアイテムの第2のセットとを含む訓練データを使用してトレーニングされており、上記第1のセットのメディアアイテムは、上記第2のセットのメディアアイテムに対応し、手で細分化される気を散らすオブジェクトを含む。
【0009】
いくつかの実施の形態において、持続性のコンピュータ可読媒体は、そこに格納された命令を有しており、上記命令は1つ以上のコンピュータによって実行されると、上記1つ以上のコンピュータに複数の演算を実行させ、上記複数の演算は、メディアアイテムの第1のセットとメディアアイテムの第2のセットとを含む訓練データを生成することを含み、上記メディアアイテムの第1のセットは、上記メディアアイテムの第2のセットに対応し、手で細分化される気を散らすオブジェクトを含み、上記複数の演算はさらに、1つ以上の気を散らすオブジェクトを有するメディアアイテムを受信して、上記1つ以上の気を散らすオブジェクトに対応する1つ以上の細分化されたオブジェクトのためのセグメンテーションマスクを出力するために、上記訓練データに基づいてセグメンテーション機械学習モデルをトレーニングすることを含む。
【0010】
いくつかの実施の形態において、上記1つ以上の気を散らすオブジェクトは電力線であり、上記複数の演算は、1つ以上の断線した電力線を含むメディアアイテムの第1のセットから1つ以上のメディアアイテムを識別することと、上記訓練データ内の1つ以上の破損した電力線を補正するために、1つ以上のメディアアイテムを増強することとをさらに含む。いくつかの実施の形態において、上記1つ以上の破損した電力線を補正するために1つ以上のメディアアイテムを増強することは、対応する1つ以上の拡張メディアアイテムを生成するために、上記1つ以上のメディアアイテムにおける局所的なコントラストを変更することと、上記1つ以上のメディアアイテムの一部を、対応する1つ以上の拡張メディアアイテムの一部と混合することとを含む。いくつかの実施の形態において、上記局所的なコントラストは、2つのバイアス曲線を加算するゲイン曲線を使用して修正される。いくつかの実施の形態において、上記訓練データを生成することは、1つ以上の気を散らすオブジェクトのセグメンテーションマスクに拡張を適用することによって、上記1つ以上のメディアアイテムを拡張することを含む。いくつかの実施の形態において、上記1つ以上の気を散らすオブジェクトは、カテゴリーに編成され、上記カテゴリーは、電力線、電柱、塔、およびそれらの組み合わせの群から選択される少なくとも1つを含む。いくつかの実施の形態において、上記セグメンテーション機械学習モデルをトレーニングすることは、上記訓練データに基づいて大容量の機械学習モデルを生成することと、上記大容量の機械学習モデルによって細分化された訓練データに対して推論を行うことにより、大容量機械学習モデルをトレーニングされたセグメンテーション機械学習モデルに精製することとを含む。いくつかの実施の形態において、上記訓練データは、屋外環境オブジェクトの前に上記気を散らすオブジェクトが追加された合成画像をさらに含む。
【0011】
アプリケーションファイルは、カラーで実行される少なくとも1つの描画を含む。カラードローイングを有するこの特許または特許出願公開のコピーは、要求および必要な料金の支払い時にオフィスによって提供される。
【図面の簡単な説明】
【0012】
【
図1】本明細書で説明されるいくつかの実施形態に従う、メディアアイテムから気を散らすオブジェクトを除去するための例示的なネットワーク環境のブロック図である。
【
図2】本明細書で説明されるいくつかの実施形態に従う、メディアアイテムから気を散らすオブジェクトを除去するための例示的なコンピューティングデバイスのブロック図である。
【
図3】本明細書に記載のいくつかの実施形態に従う、セグメンテーション機械学習モデルをトレーニングするための合成画像を生成する例を示す図である。
【
図4】本明細書で説明されるいくつかの実施形態に従う、異なる局所的なコントラストを伴う例示的な画像を示す図である。
【
図5】本明細書で説明されるいくつかの実施形態に従う、例示的なオリジナル画像、拡張画像、および混合画像を示す図である。
【
図6】本明細書で説明されるいくつかの実施形態に従う、バイアス曲線および当該バイアス曲線が画像のコントラストにどのように影響を及ぼすかの例である。
【
図7】本明細書で説明されるいくつかの実施形態に従う、例示的なオリジナル画像および局所的なコントラストが増加した例示的な画像を示す図である。
【
図8】本明細書で説明されるいくつかの実施形態に従う、バイアス曲線の関数としての異なるオブジェクト間のコントラストの例を示す図である。
【
図9】本明細書で説明されるいくつかの実施形態に従う、変動する輝度を伴う例示的な画像を示す図である。
【
図10】本明細書に記載のいくつかの実施形態に従う、異なるバイアス曲線によって影響を受ける画像の例を示す図である。
【
図11】本明細書に記載のいくつかの実施形態に従う、異なる拡張に基づくセグメンテーションマスクに対する変更を示す図である。
【
図12】本明細書で説明されるいくつかの実施形態に従う、例示的なオリジナル画像と、局所ぼかしおよび拡張されたセグメンテーションマスクを有する例示的な画像とを示す図である。
【
図13】本明細書で説明されるいくつかの実施形態に従う、セグメンテーション機械学習モデルをトレーニングするための例示的な方法のフローチャートである。
【
図14】本明細書で説明されるいくつかの実施形態に従う、メディアアイテムから気を散らすオブジェクトを除去するための例示的な方法のフローチャートである。
【発明を実施するための形態】
【0013】
詳細な説明
例示的な環境100
図1は、例示的な環境100のブロック図を示す。いくつかの実施形態では、環境100は、メディアサーバ101と、ユーザデバイス115aと、ネットワーク105に結合されたユーザデバイス115nとを含む。ユーザ125a,125nは、それぞれのユーザデバイス115a,115nに関連付けられ得る。いくつかの実施形態では、環境100は、
図1に示されていない他のサーバまたはデバイスを含み得る。
図1および残りの図において、参照番号の後の文字、例えば「115a」は、その特定の参照番号を有する要素への参照を表す。次の文字のないテキスト中の参照番号、例えば「115」は、その参照番号を有する要素の実施形態に対する一般的な参照を表す。
【0014】
メディアサーバ101は、プロセッサ、メモリ、およびネットワーク通信ハードウェアを含み得る。いくつかの実施形態では、メディアサーバ101はハードウェアサーバである。メディアサーバ101は、信号線102を介してネットワーク105に通信可能に接続される。信号線102は、イーサネット(登録商標)、同軸ケーブル、光ファイバケーブルのような有線接続、またはWi-Fi(登録商標)、Bluetooth(登録商標)、もしくは他の無線技術などの無線接続であり得る。いくつかの実施形態では、メディアサーバ101は、ネットワーク105を介してユーザデバイス115a,115nの1つまたは複数との間でデータを送受信する。メディアサーバ101は、メディアアプリケーション103aおよびデータベース199を含み得る。
【0015】
データベース199は、機械学習モデル、訓練データセット、画像などを記憶することができる。データベース199は、ユーザ同意を受信すると、ユーザ125に関連付けられたソーシャルネットワークデータ、ユーザ125のユーザ選好などを記憶することができる。
【0016】
ユーザデバイス115は、ハードウェアプロセッサに結合されたメモリを含むコンピューティングデバイスであり得る。たとえば、ユーザデバイス115は、モバイルデバイス、タブレットコンピュータ、携帯電話、ウェアラブルデバイス、ヘッドマウントディスプレイ、モバイル電子メールデバイス、ポータブルゲームプレイヤ、ポータブル音楽プレイヤ、リーダデバイス、またはネットワーク105にアクセスすることが可能な別の電子デバイスを含み得る。
【0017】
図示される実装形態では、ユーザデバイス115aは信号線108を介してネットワーク105に結合され、ユーザデバイス115nは信号線110を介してネットワーク105に結合される。メディアアプリケーション103は、ユーザデバイス115a上のメディアアプリケーション103bおよび/またはユーザデバイス115n上のメディアアプリケーション103cとして記憶され得る。信号線108および110は、イーサネット(登録商標)、同軸ケーブル、光ファイバケーブル等のような有線接続、または、Wi-Fi(登録商標)、Bluetooth(登録商標)、もしくは他の無線技術等のような無線接続であり得る。ユーザデバイス115a,115nは、それぞれユーザ125a,125nによってアクセスされる。
図1のユーザデバイス115a,115nは、例として使用される。
図1は、2つのユーザデバイス115aおよび115nを示すが、本開示は、1つ以上のユーザデバイス115を有するシステムアーキテクチャに適用される。
【0018】
メディアアプリケーション103は、メディアサーバ101および/またはユーザデバイス115上に記憶され得る。いくつかの実施形態では、本明細書で説明される動作は、メディアサーバ101またはユーザデバイス115上で実行される。いくつかの実施形態では、いくつかの動作はメディアサーバ101上で実行されてもよく、いくつかの動作はユーザデバイス115上で実行され得る。動作の実行は、ユーザ設定に従う。たとえば、ユーザ125aは、メディアサーバ101上でではなく、それぞれのデバイス115a上で動作が実行されるべきであるという設定を指定し得る。そのような設定では、本明細書で説明される動作は、ユーザデバイス115a上で完全に実行され、メディアサーバ101上では実行されない。さらに、ユーザ125aは、ユーザの画像および/または他のデータが、メディアサーバ101上にではなく、ユーザデバイス115a上にのみローカルに記憶されることを指定し得る。そのような設定では、ユーザデータはメディアサーバ101に送信されず、または記憶されない。メディアサーバ101へのユーザデータの送信、メディアサーバ101によるそのようなデータの一時的または永続的な記憶、および、メディアサーバ101によるそのようなデータに対する動作の実行は、ユーザがメディアサーバ101による動作の送信、記憶、および実行に同意した場合にのみ実行される。ユーザは、例えば、メディアサーバ101の使用を有効または無効にすることができるように、いつでも設定を変更するオプションが提供される。
【0019】
機械学習モデル(例えば、ニューラルネットワークまたは他のタイプのモデル)は、1つ以上の動作のために利用される場合、特定のユーザ許可とともに、ユーザデバイス115上にローカルに記憶され、利用される。サーバ側モデルは、ユーザによって許可された場合にのみ使用される。モデルトレーニングは、
図5を参照して以下で説明されるように、合成されたデータセットを使用して実行される。さらに、トレーニングされたモデルは、ユーザデバイス115上で使用するために提供され得る。そのような使用中に、ユーザ125によって許可された場合、当該モデルのオンデバイストレーニングが実行され得る。更新されたモデルパラメータは、ユーザ125によって許可された場合、例えば、連合学習を可能にするために、メディアサーバ101に伝送され得る。モデルパラメータは、いかなるユーザデータも含まない。
【0020】
メディアアプリケーション103は、メディアアイテムの第1のセットおよびメディアアイテムの第2のセットを含む訓練データを生成することによって、メディアアイテムから1つまたは複数の気を散らすオブジェクトを除去するようにセグメンテーション機械学習モデルをトレーニングし、メディアアイテムの当該第1のセットは、メディアアイテムの当該第2のセットに対応し、手で細分化される気を散らすオブジェクトを含む。本明細書において、気を散らすオブジェクトは、画像において頻繁に望ましくないオブジェクトの所定のカテゴリに入るオブジェクトであり、本明細書において提示される技術は、「気を散らすオブジェクト」をその背景で置き換えることによって画像からシームレスに除去することを可能にする。本明細書で例示のために使用される気を散らすオブジェクトの例は、電力線、ポール、またはタワーである。メディアアプリケーション103は、訓練データに基づいてセグメンテーション機械学習モデルをトレーニングして、1つ以上の気を散らすオブジェクトを有するメディアアイテムを受信し、1つ以上の気を散らすオブジェクトに対応する1つ以上の細分化されたオブジェクトのためのセグメンテーションマスクを出力し得る。
【0021】
いくつかの実施形態では、メディアアプリケーション103は、中央処理装置(CPU)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、機械学習プロセッサ/コプロセッサ、任意の他のタイプのプロセッサ、またはそれらの組み合せを含むハードウェアを使用して実現され得る。いくつかの実施形態では、メディアアプリケーション103aは、ハードウェアおよびソフトウェアの組み合わせを使用して実現され得る。
【0022】
例示的なコンピューティングデバイス200
図2は、本明細書で説明される1つ以上の特徴を実現するために使用され得る例示的なコンピューティングデバイス200のブロック図である。コンピューティングデバイス200は、任意の好適なコンピュータシステム、サーバ、または他の電子もしくはハードウェアデバイスであり得る。一例では、コンピューティングデバイス200は、メディアアプリケーション103aを実現するために使用されるメディアサーバ101である。別の例では、コンピューティングデバイス200はユーザデバイス115である。
【0023】
いくつかの実施形態では、コンピューティングデバイス200は、全てがバス218を介して結合されたプロセッサ235、メモリ237、入出力(I/O)インターフェイス239、ディスプレイ241、カメラ243、および記憶装置245を含む。プロセッサ235は、信号線222を介してバス218に結合されてもよく、メモリ237は、信号線224を介してバス218に結合されてもよく、I/Oインターフェイス239は、信号線226を介してバス218に結合されてもよく、ディスプレイ241は、信号線228を介してバス218に結合されてもよく、カメラ243は、信号線230を介してバス218に結合されてもよく、記憶装置245は、信号線232を介してバス218に結合され得る。
【0024】
プロセッサ235は、プログラムコードを実行し、コンピューティングデバイス200の基本動作を制御するための1つ以上のプロセッサおよび/または処理回路であり得る。「プロセッサ」は、データ、信号又は他の情報を処理する任意の適切なハードウェアシステム、メカニズム又はコンポーネントを含む。プロセッサは、(例えば、シングルコア、デュアルコア、またはマルチコア構成における)1つ以上のコアを有する汎用中央処理ユニット(CPU)と、(たとえば、マルチプロセッサ構成における)複数の処理ユニットと、グラフィックス処理ユニット(GPU)と、フィールドプログラマブルゲートアレイ(FPGA)と、特定用途向け集積回路(ASIC)と、複合プログラマブル論理デバイス(CPLD)と、機能性を達成するための専用回路、ニューラルネットワークモデルベース処理を実現するための専用プロセッサ、ニューラル回路、行列計算(例えば、行列乗算)のために最適化されたプロセッサ、または他のシステムを有するシステムを含み得る。いくつかの実施形態では、プロセッサ235は、ニューラルネットワーク処理を実現する1つ以上のコプロセッサを含み得る。いくつかの実施形態では、プロセッサ235は、確率的出力を生成するためにデータを処理するプロセッサであってもよく、例えば、プロセッサ235によって生成される出力は、不正確であるかもしれず、または、予期される出力からの範囲内で正確であり得る。処理は、特定の地理的位置に限定される必要はなく、時間的な制限を有する必要もない。例えば、プロセッサは、リアルタイム、オフライン、バッチモード等でその機能を実行し得る。処理の一部は、異なる時間に、異なる場所で、異なる(または同じ)処理システムによって実行され得る。コンピュータは、メモリと通信する任意のプロセッサであり得る。
【0025】
メモリ237は、プロセッサ235によるアクセスのためにコンピューティングデバイス200内に提供され、当該プロセッサまたは一組のプロセッサによる実行のための命令を記憶するために適した、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、電気的に消去可能な読み取り専用メモリ(EEPROM)、フラッシュメモリ等のような、任意の適切なプロセッサ可読記憶媒体であってもよく、プロセッサ235とは別個に配置され、および/またはそれと統合される。メモリ237は、メディアアプリケーション103を含む、プロセッサ235によってコンピューティングデバイス200上で動作するソフトウェアを記憶できる。
【0026】
メモリ237は、オペレーティングシステム262と、他のアプリケーション264と、アプリケーションデータ266とを含み得る。他のアプリケーション264は、例えば、画像ライブラリアプリケーション、画像管理アプリケーション、画像ギャラリアプリケーション、通信アプリケーション、ウェブホスティングエンジン又はアプリケーション、メディア共有アプリケーション等を含むことができる。本明細書で開示される1つ以上の方法は、いくつかの環境およびプラットフォームにおいて、たとえば、任意のタイプのコンピューティングデバイス上で実行できるスタンドアロンコンピュータプログラムとして、ウェブページを有するウェブアプリケーションとして、モバイルコンピューティングデバイス上で実行されるモバイルアプリケーション(「app」)として等で作動できる。
【0027】
アプリケーションデータ266は、コンピューティングデバイス200の他のアプリケーション264またはハードウェアによって生成されるデータであり得る。たとえば、アプリケーションデータ266は、画像ライブラリアプリケーションによって使用される画像、および、他のアプリケーション264(たとえば、ソーシャルネットワーキングアプリケーション)によって識別されるユーザアクションなどを含み得る。
【0028】
I/Oインターフェイス239は、コンピューティングデバイス200を他のシステムおよびデバイスとインターフェイスすることを可能にする機能を提供できる。インターフェイスされたデバイスは、コンピューティングデバイス200の一部として含まれ得るか、または別個であり得、コンピューティングデバイス200と通信し得る。例えば、ネットワーク通信デバイス、記憶デバイス(例えば、メモリ237および/または記憶装置245)、および、入力/出力デバイスは、I/Oインターフェイス239を介して通信できる。いくつかの実施形態では、I/Oインターフェイス239は、入力デバイス(キーボード、ポインティングデバイス、タッチスクリーン、マイクロフォン、スキャナ、センサ等)、および/または、出力デバイス(ディスプレイデバイス、スピーカデバイス、プリンタ、モニタ等)のようなインターフェイスデバイスに接続できる。
【0029】
I/Oインターフェイス239に接続できるインターフェイス接続デバイスのいくつかの例は、コンテンツ、例えば、画像、ビデオ、および/または、本明細書で説明されるような出力アプリケーションのユーザインターフェイスを表示するために、かつ、ユーザからタッチ(またはジェスチャ)入力を受信するために、使用され得るディスプレイ241を含み得る。例えば、ディスプレイ241は、ビューファインダ上にグラフィカルガイドを含むユーザインターフェイスを表示するために利用され得る。ディスプレイ241は、液晶ディスプレイ(LCD)、発光ダイオード(LED)、またはプラズマディスプレイスクリーンのような任意の好適な表示デバイス、陰極線管(CRT)、テレビ、モニタ、タッチスクリーン、3次元ディスプレイスクリーン、または他の視覚表示装置を含み得る。例えば、ディスプレイ241は、モバイルデバイス上に提供されるフラットディスプレイスクリーン、眼鏡フォームファクタもしくはヘッドセットデバイスに埋め込まれた複数の表示スクリーン、またはコンピュータデバイス用のモニタスクリーンであり得る。
【0030】
カメラ243は、画像および/またはビデオを含む、メディアアイテムをキャプチャすることができる任意のタイプの画像キャプチャデバイスであり得る。いくつかの実施形態では、カメラ243は、I/Oインターフェイス239がメディアアプリケーション103に提供する画像またはビデオを捕捉する。
【0031】
記憶装置245は、メディアアプリケーション103に関連するデータを記憶する。たとえば、記憶装置245は、ラベル付けされた画像、機械学習モデル、当該機械学習モデルからの出力などを含む訓練データセットを記憶できる。
【0032】
図2は、オブジェクト検出モジュール202と、セグメンテーションモジュール204と、修復モジュール206と、ユーザインターフェイスモジュール208とを含む、メモリ237に記憶された例示的なメディアアプリケーション103を示す。
【0033】
オブジェクト検出モジュール202は、メディアアイテムの気を散らすオブジェクトを検出する。いくつかの実施形態では、オブジェクト検出モジュール202は、メディアアイテムの気を散らすオブジェクトを検出するためにプロセッサ235によって実行可能な一組の命令を含む。いくつかの実施形態では、オブジェクト検出モジュール202は、コンピューティングデバイス200のメモリ237に記憶され、プロセッサ235によってアクセス可能かつ実行可能であり得る。
【0034】
いくつかの実施形態では、オブジェクト検出モジュール202は、メディアアイテムを受信する。当該メディアアイテムは、コンピューティングデバイス200のカメラ243から、アプリケーションデータ266から、またはI/Oインターフェイス239を介してメディアサーバ101から受信され得る。様々な実施形態では、当該メディアアイテムは、画像、ビデオ、一連の画像(例えば、GIF)などであり得る。
【0035】
オブジェクト検出モジュール202は、メディアアイテム内の1つ以上の気を散らすオブジェクトを検出する。いくつかの実施形態では、オブジェクト検出モジュール202は、気を散らすオブジェクトを、電力線、電柱、または塔を含むカテゴリに分類する。いくつかの実施形態では、オブジェクト検出モジュール202は、オブジェクト優先度を使用して気を散らすオブジェクトを識別し、ここで、オブジェクト優先度は、指定されたパラメータを有するオブジェクトのカテゴリである。たとえば、当該オブジェクト優先度は、電力線、電柱、塔などに対応するものとして識別される画像のセットを含み得る。いくつかの実施形態では、オブジェクト検出モジュール202は、入力としてメディアアイテムを受信し、当該メディアアイテム内の気を散らすオブジェクトの識別を出力するようにトレーニングされる、オブジェクト検出機械学習モデルを使用する。
【0036】
いくつかの実施形態では、セグメンテーションモジュール204は、本明細書ではセグメンテーション機械学習モデルと呼ばれるトレーニング済みモデルを含む(任意選択で、トレーニングも実行する)。いくつかの実施形態では、セグメンテーションモジュール204は、当該機械学習モデルをアプリケーションデータ266(例えば、ユーザデバイス115によってキャプチャされたメディアアイテム)のような入力データに適用し、セグメンテーションマスクを出力するように構成される。いくつかの実施形態では、セグメンテーションモジュール204は、プロセッサ235によって実行されるコードを含み得る。いくつかの実施形態では、セグメンテーションモジュール204は、コンピューティングデバイス200のメモリ237に記憶され、プロセッサ235によってアクセス可能かつ実行可能であり得る。
【0037】
いくつかの実施形態では、セグメンテーションモジュール204は、プロセッサ235が当該セグメンテーション機械学習モデルを適用することを可能にする(例えば、プログラマブルプロセッサのための、フィールドプログラマブルゲートアレイ(FPGA)等のための)回路構成を指定し得る。いくつかの実施形態では、セグメンテーションモジュール204は、ソフトウェア命令、ハードウェア命令、または組み合わせを含み得る。いくつかの実施形態では、セグメンテーションモジュール204は、セグメンテーションモジュール204を呼び出すための、たとえば、アプリケーションデータ266に当該マシンラーニングモデルを適用してセグメンテーションマスクを出力するために、オペレーティングシステム262および/または他のアプリケーション264によって使用され得るアプリケーションプログラミングインターフェイス(API)を提供し得る。
【0038】
いくつかの実施形態では、セグメンテーションモジュール204は、セグメンテーション機械学習モデルをトレーニングするために訓練データを使用する。訓練データは、任意のソース、例えば、トレーニングのために具体的にマークされたデータリポジトリ、機械学習のための訓練データとして使用するための許可が提供されるデータ等から取得され得る。いくつかの実施形態では、トレーニングは、訓練データをユーザデバイス115に直接提供するメディアサーバ101上で行われてもよく、トレーニングは、ユーザデバイス115上でローカルに行われてもよく、または両方の組み合わせであってもよい。以下でより詳細に説明されるように、いくつかの実施形態では、トレーニングはメディアサーバ101上で行われ、トレーニングされたセグメンテーション機械学習モデルの簡略化バージョンがユーザデバイス115上でローカルに使用される。
【0039】
いくつかの実施形態では、訓練データは、メディアアイテムの第1のセット及びメディアアイテムの第2のセットを含む。メディアアイテムの当該第1のセットは、手で細分化される気を散らすオブジェクトを含むことを除いて、メディアアイテムの第2のセットと同様である。例えば、当該気を散らすオブジェクトは、ユーザによって手で注釈を付けられ、細分化され得る。いくつかの実施形態では、訓練データは、気を散らすオブジェクトを、電力線、ポール、および塔の3つの別個のカテゴリに分類する。いくつかの実施形態では、訓練データは、信号機などの追加のカテゴリを含み得る。
【0040】
いくつかの実施形態では、訓練データは、トレーニングされる文脈における活動に基づかないデータ、例えば、シミュレートされた、または、コンピュータで生成された画像/ビデオから生成されたデータなど、トレーニングの目的のために生成された合成データを含み得る。訓練データは、気を散らすオブジェクトを有する合成されたメディアアイテムを含み得る。いくつかの実施形態では、合成メディアは、屋外環境で撮影された画像に追加される電力線、電柱、および/または塔のような屋外環境オブジェクトの前に追加される気を散らすオブジェクトを含む。
【0041】
図3を参照すると、セグメンテーション機械学習モデルをトレーニングするための合成画像を生成するための例300が示されている。第1列の画像はオリジナル画像であり、第2列の画像はセグメンテーションマスクであり、第3列の画像は対応する合成結果を示す。この例では、合成画像は、リアルに見えるように合成された合成画像パッチを含む。例えば、合成画像パッチは、画像の被写体を塞ぎ、メディアアイテムの1%~30%を構成する、電力線のような、気を散らすオブジェクトと、空の60%以上が画像に含まれる背景に気を散らすオブジェクトを有する画像と、背景に対して前景の遮蔽部(occluder)を合成することとを含む。各合成画像パッチは、合成結果と、遮蔽部のセグメンテーションマスク(すなわち、背景を塞ぐ気を散らすオブジェクト)と、グラウンドトルース背景とを含む。
【0042】
いくつかの実施形態では、(例えば、電力線の上の)セグメンテーションマスクが壊れるか弱い場合に、色が特定の中間部分(例えば、照明または他の理由による)で変化すると、訓練データが増強される。別の例では、セグメンテーションマスクは、ポールに取り付けられた標識を識別することに失敗するかもしれない。セグメンテーションモジュール204は訓練データを増強して、気を散らすオブジェクトの検出をより困難にすることによって、セグメンテーション機械学習モデルのトレーニングの品質を改善する。
【0043】
いくつかの実施形態では、電力線の連続性が仮定される場合、セグメンテーションモジュール204は、電力線上に線モデルを適合させ、破壊された部分を接続する。背景が複雑であるいくつかの実施形態では、セグメンテーションモジュール204は、トレーニングのために木のみを使用する代わりに、木の前に電力線およびポールを追加することによって合成メディアアイテムを生成する。
【0044】
セグメンテーションモジュール204は、気を散らすオブジェクトをあまり見えないようにするために訓練データを増強し得る。いくつかの実施形態では、訓練データは壊れた電力線を含み、これは、壊れた電力線と新しいオブジェクトとの間の差を検出することが困難であり得るため、細分化することがより困難である。いくつかの実施形態では、セグメンテーションモジュール204は、訓練データにおける1つ以上の破壊された電力線のセグメンテーションを改善するために電力線の増強を実行する。言い換えれば、セグメンテーションモジュール204は、メディアアイテム内の1つまたは複数の破断電力線を補正する。
【0045】
いくつかの実施形態では、セグメンテーションモジュール204は、コントラストを変更することによって電力線(または他の気を散らすオブジェクト)の増強を実行する。当該コントラストは、メディアアイテムの属性に応じて増加または減少され得る。当該コントラストは、1つ以上の気を散らすオブジェクトを標的にするために局所的に適用されてもよいし、メディアアイテム全体にグローバルに適用されてもよい。
【0046】
図4を参照すると、異なる局所的なコントラストを含む例示的な画像400が示されている。例えば、下の画像の第1の行405において、局所的なコントラストを減少させることは、細分化のための電力線が背景における山および雲に類似しているため、当該電力線を識別することを一層困難にする。
図4における画像の第2の行410では、局所的なコントラストを高めることは、電力線がKODAKサインの一部と同じ黒色の色合いになるので、当該電力線を識別することを一層困難にする。その結果、セグメンテーションモジュール204は、難易度を増加するために、メディアアイテムに応じてコントラストを減少させるか又はコントラストを増加させることによってコントラストを変更し、それによって、セグメンテーション機械学習モデルのトレーニングを改善する。
【0047】
いくつかの実施形態では、セグメンテーションモジュール204は、増強のランダム性を増加させるために、チェッカーボードマスクを用いて、増強画像をオリジナルのメディアアイテムと混合する。いくつかの実施形態では、チェッカーボードマスクW=l(x≠y)は、以下の式を使用して生成される。
【0048】
【0049】
ここで、fcbはチェッカーボード関数であり、Iは画像であり、Iaは増強画像である。
【0050】
図5は、オリジナル画像、増強画像、および混合画像の例500を示す。
図4を参照して述べたように、増強画像は、局所的なコントラストを減少させることによって生成される。したがって、混合画像は、オリジナル画像と局所的なコントラストが低下した増強バージョンとのランダム混合である。
【0051】
いくつかの実施形態では、セグメンテーションモジュール204は、画像にゲイン曲線を適用することによってコントラストを修正し、ゲイン曲線は、2つのバイアス曲線を加算することによって定義される。バイアス曲線は、以下の式によって定義される。
【0052】
【0053】
ここで、fbは、バイアス曲線関数であり、bは(0,1)に入る調整可能なパラメータである。b<1/2であるとき、関数は凹形であり、そうでなければ凸形である。
【0054】
以下のゲイン曲線方程式は、2つのバイアス曲線を加算する。
【0055】
【0056】
ここで、f
gはゲイン曲線の関数である。b<1/2であるとき、関数はs字形であり、セグメンテーションモジュール204が0.5未満のbを画像に適用すると、当該関数はコントラストを増加する。そうでなければ、b値は、コントラストの低下をもたらす。
図6は、ゲイン曲線関数およびbの値が画像のコントラストにどのように影響するかの例600である。b=0.25であるとき、コントラストは増加する。b=0.75であるとき、コントラストは低下する。
【0057】
気を散らすオブジェクト(例えば、電力線)の周りのみでコントラストを変更するために、セグメンテーションモジュール204は、bをマスク値mの関数とし得る。m=0であるとき、セグメンテーションモジュール204は、ゲイン関数が影響を及ぼさないように当該関数に1/2を戻させる。セグメンテーションモジュール204は、依然として、b0を必要とし、これは、完全強度、すなわちm=1のときのb値を示す:
【0058】
【0059】
図7は、オリジナル画像と、上記の数式(4)を使用して生成された増加した局所的なコントラストを有する画像の例700を示す。
【0060】
いくつかの実施形態では、セグメンテーションモジュール204は、コントラストを実際に減少させるべきときに局所的なコントラストを増加させる。これは、コントラストの定義が局所領域内のコントラストではなく、画像全体に対する局所領域のコントラストであるためである。データ増強の目標は、電力線を周囲の空の画素と区別しにくくすることであり、この場合、セグメンテーションモジュール204は、局所領域内のコントラストを減少させる。セグメンテーションモジュール204は、良好な結果を得るためにグローバル画像に対する局所的なコントラストを調整する。
図8は、バイアス曲線の関数としての異なるオブジェクト間のコントラストの例800を示す。
【0061】
いくつかの実施形態では、セグメンテーションモジュール204は、セグメンテーションマスクにおいてコントラストの勾配変化を適用することによって輝度変化をシミュレートする。いくつかの実施形態では、セグメンテーションモジュール204は、メディアアイテムにグローバル輝度を適用して、背景にある気を散らすオブジェクトを隠す。
図9を参照すると、例900は、変化する輝度を有する画像を含む。
図9は、オリジナル画像と、暗い画像と、明るい画像とを含む。暗くされた画像内の電力線は、検出するのがより容易である。その結果、セグメンテーションモジュール204は、電力線を検出する困難さを増大させるグローバル輝度を適用する。
【0062】
いくつかの実施形態では、セグメンテーションモジュール204は、バイアス曲線を使用して画像のグローバル輝度を変更する。b<1/2である場合、セグメンテーションモジュール204は画像を暗くする。そうでなければ、セグメンテーションモジュール204は画像を明るくする。
図10は、異なるバイアス曲線が画像にどのように影響するかの例1000を示す。
【0063】
いくつかの実施形態では、セグメンテーションモジュール204は、メディアアイテム内の気を散らすオブジェクトのセグメンテーションマスクに増強マスクを適用することによって訓練データを増強する。当該増強は、増強マスクの不正確さを考慮し、気を散らすオブジェクトピクセルと背景ピクセルとの間になめらかな遷移を生成するために使用される。
【0064】
バイナリ増強を行う代わりに、いくつかの実施形態では、セグメンテーションモジュール204は、なめらかな増強を適用して、以下の式による遷移を可能にする。
【0065】
【0066】
ここで、fdは、増強関数であり、Iは画像であり、Fは増強フィルタである。当該フィルタの構造は、増強の結果に影響を及ぼす。当該フィルタは、以下の式で定義される。
【0067】
【0068】
ここで、dはフィルタサイズであり、pは、(0,1)に入る調整可能なパラメータである。
【0069】
pが小さいとき、セグメンテーションモジュール204は、大きいが弱い光輪(halo)を生成する。pが大きいとき、セグメンテーションモジュール204は、中心に強い増強を生成する。
図11は、特定のp値を有するセグメンテーションマスクの例1100を示す。p=0.5であるとき、光輪は弱い増強を有する。p=2.0であるとき、光輪は強い増強を有し、セグメンテーションマスクの線は、p=0.5のときのセグメンテーションマスクの線よりも明確でない。
【0070】
いくつかの実施形態では、ぼかしは、隣接するピクセルに混在し、電力線をあまり見えなくすることができるため、セグメンテーションモジュール204は、他のケーブルまたはフェンスのような、偽の陽画に対するより容易な事例を回避するように、電力線の周囲でぼかす。局所的なぼかし演算は、以下のように定義され得る。
【0071】
【0072】
ここで、f
lbは、局所ぼけの関数であり、Mは増強された電力線マスクであり、gはぼけ関数(例えば、ガウス)である。
図12は、オリジナルの画像と、局所的なぼかし及び増強セグメンテーションマスクを有する画像の例1200を示す。
【0073】
いくつかの実施形態では、セグメンテーションモジュール204は、トレーニングに負の例を追加する。いくつかの実施形態では、訓練データは、1/3のネガティブ例を含み、クラスは、木、フェンス、および建物を含む。セグメンテーションモジュール204は、ネガティブ例の量および多様性を増やし得る。追加のクラスは、ワイヤ、ワイヤロープ、バーブ付きワイヤ、ワイヤフェンシング、ピケットフェンス、およびフェンスポストを含み得る。
【0074】
電柱ではない垂直構造物の上に電柱のためのセグメンテーションマスクをセグメンテーションモジュール204が生成するという状況を避けるために、セグメンテーションモジュール204は、推論時間中にヒューリスティックを適用する。例えば、これは、セグメンテーションモジュール204に電力線を取り付けずに電柱を排除させることができる。いくつかの実施形態では、セグメンテーションモジュール204は、幅優先検索(BFS)を実行して、接続されたコンポーネントを取得する。次いで、各電柱コンポーネントについて、セグメンテーションモジュール204は、電力線までの最短距離を計算する。セグメンテーションモジュール204は、電力線が遠すぎる場合(これは調整可能なパラメータであり得る)、電柱オブジェクト全体を除去する。N個のピクセルおよびK個の成分があると仮定すると、BFSはO(N)である。最短距離は、セグメンテーションモジュール204がピクセル対を反復する場合のボトルネックであり、複雑さはO(N2)になる。セグメンテーションモジュール204は、オブジェクトを回転した箱として単純化することができ、このことは複雑性をO(K2)に低減させる。
【0075】
いくつかの実施形態では、メディアサーバ101に記憶されたセグメンテーションモジュール204は、大容量モデルを生成するために訓練データでトレーニングされる。次いで、セグメンテーションモジュール204は、高容量モデルによって細分化された、はるかに大きいデータセットに対して推論を実行することによって、よりコンパクトなニューラルネットワークモデルを含む低容量モデルを生成する。そのようにして、高容量機械学習モデルは、より小さい、すなわち、リソース消費が少なく、訓練されたセグメンテーション機械学習モデルに精製される。トレーニングされたセグメンテーション機械学習モデルは、ユーザデバイス115に記憶されたセグメンテーションモジュール204によって使用される。ブラーおよびコントラストのようなローカル演算は計算的に高価であるため、いくつかの実施形態では、セグメンテーションモジュール204は、ローカル演算を事前計算し、それらをデータセットに追加する。グローバル演算(輝度)は計算的に安価であり、したがって、セグメンテーションモジュール204は、トレーニング中にその分析をオンザフライで実行し、多様性を得るためにランダム性を加える。
【0076】
トレーニングされた機械学習モデルは、1つ以上のモデル形式または構造を含み得る。例えば、モデル形式または構造は、線形ネットワーク、複数の層(例えば、入力層と出力層との間に「隠れ層」があり、各層は線形ネットワークである)を実現するディープラーニングニューラルネットワーク、畳み込みニューラルネットワーク(たとえば、入力データを複数の部分またはタイルに分割(split)または分離(partition)し、1つ以上のニューラルネットワーク層を使用して各タイルを別々に処理し、各タイルの処理から結果を集約するネットワーク)、シーケンス間ニューラルネットワーク(例えば、文中の単語、ビデオ中のフレーム等のような一連のデータを入力として受信し、結果の配列を出力として生成するネットワーク)のような任意のタイプのニューラルネットワークを含むことができる。
【0077】
モデル形式または構造は、様々なノードとノードの層への編成との間の接続性を指定し得る。たとえば、第1の層(たとえば、入力層)のノードは、データを入力データまたはアプリケーションデータとして受信し得る。そのようなデータは、例えば、トレーニングされたモデルが、例えば、メディアアイテムの分析のために使用されるとき、例えば、ノードあたり1つ以上のピクセルを含むことができる。後続の中間層は、モデル形式または構造において指定される接続性に従って、前の層のノードの出力を入力として受信し得る。これらの層は隠れ層と呼ばれることもある。たとえば、第1の層は、前景と背景との間のセグメンテーションを出力し得る。最終層(例えば、出力層)は、機械学習モデルの出力を生成する。たとえば、出力層は、当該メディアアイテムの前景および背景へのセグメンテーションを受け取り、ピクセルがセグメンテーションマスクの一部であるか否かを出力することができる。いくつかの実施形態では、モデル形式または構造はまた、各層内のノードの数および/またはタイプも指定する。
【0078】
異なる実施形態では、トレーニングされたモデルは、1つ以上のモデルを含むことができる。モデルのうちの1つ以上は、モデル構造または形態毎に層に配列される、複数のノードを含み得る。いくつかの実施形態では、当該複数のノードは、例えば、1単位の入力を処理して1単位の出力を生成するように構成された、メモリを持たない計算ノードであり得る。1つのノードによって実行される計算は、例えば、複数のノード入力の各々に重みを掛けるステップと、加重和を取得するステップと、当該加重和をバイアスまたは切片値で調整してノード出力を生成するステップとを含み得る。いくつかの実施形態では、1つのノードによって実行される計算は、ステップ/活性化関数を当該調整された加重和に適用することを含み得る。いくつかの実施形態では、当該ステップ/活性化関数は、非線形関数であり得る。様々な実施形態では、そのような計算は、行列乗算のような演算を含み得る。いくつかの実施形態では、当該複数のノードによる計算は、並列に、例えば、1つのマルチコアプロセッサの複数のプロセッサコアを使用して、グラフィックス処理ユニット(GPU)の個々の処理ユニットを使用して、または専用のニューラル回路を使用して、実行され得る。いくつかの実施形態では、ノードは、メモリを含んでもよく、例えば、後続の入力を処理する際に1つ以上の以前の入力を記憶し、使用することができる。例えば、メモリを有するノードは、ロングショートタームメモリ(LSTM)ノードを含み得る。LSTMノードは、ノードが有限状態機械(FSM)のように動作することを可能にする「状態」を維持するためにメモリを使用し得る。
【0079】
いくつかの実施形態では、トレーニングされたモデルは、個々のノードの埋め込みまたは重みを含み得る。例えば、モデルは、モデル形式または構造によって指定されるような層に編成された複数のノードとして開始され得る。初期化において、それぞれの重みは、モデル形式に従って接続される複数のノード、例えば、ニューラルネットワークの連続層内の複数のノード、の各ペアの間の接続に適用され得る。例えば、当該それぞれの重みは、ランダムに割り当てられてもよく、またはデフォルト値に初期化され得る。当該モデルは、次いで、結果を生成するために、例えば、訓練データを使用して訓練され得る。
【0080】
トレーニングは、教師あり学習技術を適用することを含み得る。教師あり学習では、訓練データは、複数の入力(例えば、手動で注釈を付けられたセグメントおよび合成されたメディアアイテム)と、各入力に対する対応するグランドトルース出力(例えば、当該メディアアイテムの気を散らすオブジェクトを正確に識別するグラウンドトルースセグメンテーションマスク)とを含むことができる。当該モデルの出力とグラウンドトルース出力との比較に基づいて、当該重みの値は、例えば、モデルが当該メディアアイテムのグラウンドトルース出力を生成する確率を高めるように自動的に調整される。
【0081】
いくつかの実施形態では、トレーニング中、セグメンテーションモジュール204は、メディアアイテム内の電力線、電柱、および/または鉄塔を識別するセグメンテーションマスクの品質を示すセグメンテーションスコアと共にセグメンテーションマスクを出力する。当該セグメンテーションスコアは、セグメンテーション機械学習モデルによって出力されたセグメンテーションマスクとグラウンドトルースセグメンテーションマスクとの間の和集合(loU)の交点を反映し得る。いくつかの実施形態では、当該セグメンテーションスコアは、40/100のような総数に対する数値である。当該セグメンテーションスコアの他の表現も可能である。
【0082】
様々な実施形態では、トレーニングされたモデルは、モデル構造に対応する一組の重みまたは埋め込みを含む。いくつかの実施形態では、トレーニングされたモデルは、固定された、例えば、重みを提供するサーバからダウンロードされた一組の重みを含み得る。様々な実施形態では、トレーニングされたモデルは、モデル構造に対応する一組の重みまたは埋め込みを含む。データが省略される実施形態では、セグメンテーションモジュール204は、例えばセグメンテーションモジュール204の開発者による、第三者による等の、以前のトレーニングに基づくトレーニング済みモデルを含み得る。いくつかの実施形態では、トレーニングされたモデルは、固定された、例えば、重みを提供するサーバからダウンロードされた一組の重みを含み得る。
【0083】
いくつかの実施形態では、セグメンテーションモジュール204は、メディアアイテムを受信する。セグメンテーションモジュール204は、当該メディアアイテムを、トレーニングされた機械学習モデルへの入力として提供する。いくつかの実施形態では、トレーニングされた機械学習モデルは、メディアアイテムのクロップ内の1つ以上の気を散らすオブジェクトのためのセグメンテーションマスクと、当該セグメンテーションマスクの品質を示す対応するセグメンテーションスコアとを出力する。
【0084】
いくつかの実施形態では、機械学習モデルは、トレーニングされた機械学習モデルによって出力される各セグメンテーションマスクに対する信頼値を出力する。当該信頼値は、パーセンテージ、0~1の数等として表され得る。例えば、機械学習モデルは、セグメンテーションマスクが1つ以上の気を散らすオブジェクトを正しくカバーしたという信頼に対して85%の信頼値を出力する。
【0085】
修復モジュール206は、1つ以上の気を散らすオブジェクトが存在しない(ソースメディアアイテムから消去された)出力メディアアイテムを生成する。いくつかの実施形態では、修復モジュール206は、当該出力メディアアイテムを生成するためにプロセッサ235によって実行可能な一組の命令を含む。いくつかの実施形態では、修復モジュール206は、コンピューティングデバイス200のメモリ237に記憶され、プロセッサ235によってアクセス可能かつ実行可能であり得る。
【0086】
いくつかの実施形態では、修復モジュール206は、セグメンテーションモジュール204からセグメンテーションマスクを受信する。修復モジュール206は、セグメンテーションマスクに一致するメディアアイテムの一部の修復を実行する。例えば、修復モジュール206は、セグメンテーションマスク内の全てのピクセルを、メディアアイテム内の背景に一致するピクセルで置き換える。いくつかの実施形態では、背景に一致するピクセルは、同じ場所の別のメディアアイテムに基づいてもよい。いくつかの実施形態では、修復モジュール206は、セグメンテーションマスクによって識別されたピクセルを、当該メディアアイテム内の隣接する領域に一致するピクセルに置き換える。
【0087】
いくつかの実施形態では、修復モジュール206は、セグメンテーションモジュール204から入力としてメディアアイテムおよびセグメンテーションマスクを受信し、出力メディアアイテムに1つ以上の気を散らすオブジェクトが存在しない出力メディアアイテムを出力するように、修復機械学習モデルをトレーニングする。
【0088】
いくつかの実施形態では、修復モジュール206は、出力メディアアイテムの品質を決定するために使用される修復信頼性メトリックを生成する。いくつかの実施形態では、評価器(例えば、評価機械学習モデル)は、出力メディアアイテムの品質を決定するために使用される。当該品質は、気を散らすオブジェクトが正しく除去された(例えば、気を散らすオブジェクト、および、影のような関連する特徴のすべてが除去された)か否か、および、修復が識別可能でない(例えば、出力メディアアイテムの修復された領域は、気を散らすオブジェクトの除去が、知覚され得る不正確さをもたらさないように、メディアアイテムの残りの部分と混合している)か否かに基づき得る。
【0089】
ユーザインターフェイスモジュール208は、ユーザインターフェイスを生成する。いくつかの実施形態では、ユーザインターフェイスモジュール208は、ユーザインターフェイスを生成するために、プロセッサ235によって実行可能な一組の命令を含む。いくつかの実施形態では、ユーザインターフェイスモジュール208は、コンピューティングデバイス200のメモリ237に記憶され、プロセッサ235によってアクセス可能かつ実行可能であり得る。
【0090】
ユーザインターフェイスモジュール208は、
図2のモジュールによって実行されるステップおよび
図14を参照して説明されるステップのいずれかを実行する前に、ユーザのメディアアイテムにアクセスする許可をユーザに求めるユーザインターフェイスを生成する。
【0091】
ユーザインターフェイスモジュール208は、メディアアイテムを含むユーザインターフェイスを生成し、1つ以上の気を散らすオブジェクトを除去するための提案を提供する。例えば、ユーザインターフェイスは、各気を散らすオブジェクトを取り囲む輪郭を含み得る。いくつかの実施形態では、ユーザインターフェイスモジュール208は、気を散らすオブジェクトが信頼性の閾値レベルで検出される場合に、および、出力メディアアイテムの品質が品質閾値を満たす場合に、気を散らすオブジェクトを自動的に除去する提案を生成する。これは、気を散らすオブジェクトの自動除去のユーザ経験が満足のいくものであることを保証することができる。
【0092】
ユーザインターフェイスモジュール208は、修復された出力メディアアイテムを含むユーザインターフェイスを生成する。いくつかの実施形態では、出力メディアアイテムは、当該出力メディアアイテムが1つ以上のオブジェクトを消去するように編集されたことを示すように、(視覚的に)ラベル付けされるか、または(コードで、例えば、ステガノグラフィーで(steganographically))マーク付けされ得る。いくつかの実施形態では、ユーザインターフェイスは、出力メディアアイテムを編集、出力メディアアイテムを共有、出力メディアアイテムをフォトアルバムに追加等のためのオプションを含む。出力メディアアイテムを編集するためのオプションは、オブジェクトの消去を取り消す能力を含み得る。
【0093】
いくつかの実施形態では、ユーザインターフェイスモジュール208は、ユーザデバイス115上のユーザからフィードバックを受信する。当該フィードバックは、出力メディアアイテムを投稿するユーザ、出力メディアアイテムを削除するユーザ、出力メディアアイテムを共有するユーザなどの形態をとり得る。
【0094】
例示的方法
図13は、セグメンテーション機械学習モデルをトレーニングするための例示的な方法1300のフローチャートを示す。
図13の方法1300は、ブロック1302で開始できる。フローチャートに示される方法1300は、
図2のコンピューティングデバイス200によって実行され得る。いくつかの実施形態では、方法1300は、ユーザデバイス115、メディアサーバ101によって、または、ユーザデバイス115上で部分的に、およびメディアサーバ101上で部分的に実行される。
【0095】
ブロック1302において、メディアアイテムの第1のセットとメディアアイテムの第2のセットとを含む訓練データが生成され、メディアアイテムの第1のセットは、メディアアイテムの第2のセットに対応し、手で細分化される気を散らすオブジェクトを含む。ブロック1302の後に、ブロック1304が続き得る。
【0096】
ブロック1304において、セグメンテーション機械学習モデルは、訓練データに基づいてトレーニングされ、1つ以上の気を散らすオブジェクトを有するメディアアイテムを受信し、1つ以上の気を散らすオブジェクトに対応する1つ以上の細分化化されたオブジェクトのためのセグメンテーションマスクを出力する。
【0097】
図14は、メディアアイテムから気を散らすオブジェクトを除去するための例示的な方法1400のフローチャートを示す。
図14の方法1400は、ブロック1402で開始し得る。フローチャートに示される方法1400は、
図2のコンピューティングデバイス200によって実行され得る。いくつかの実施形態では、方法1400は、ユーザデバイス115、メディアサーバ101によって、またはユーザデバイス115上で部分的に、およびメディアサーバ101上で部分的に実行される。
【0098】
ブロック1402において、方法1400を実施するためのユーザ許可が受信される。例えば、ユーザは、メディアアイテムを見るために、アプリケーションをロードし得るが、当該メディアアイテムが表示される前に、ユーザインターフェイスは、当該ユーザに関連付けられたメディアアイテムにアクセスするためのユーザ許可を求める。ユーザインターフェイスはまた、当該メディアアイテムの提案のための、当該メディアアイテムを修正するための、ユーザが特定のメディアアイテムのみへのアクセスを許可することを可能にするための、メディアアイテムがユーザ許可なしで記憶またはサーバに転送されないことを確実するための等の許可を求め得る。ブロック1402の後に、ブロック1404が続き得る。
【0099】
ブロック1404において、ユーザ許可が受信されたか否かが判定される。ユーザ許可が受信されなかった場合、ブロック1404の後にブロック1406が続き、方法1400を停止する。ユーザ許可が受信された場合、ブロック1404の後に、ブロック1408が続く。
【0100】
ブロック1408において、メディアアイテムは、ユーザから受信される。例えば、メディアアイテムは、電力線、電柱、又は塔のような気を散らすオブジェクトを含む。ブロック1408の後に、ブロック1410が続き得る。
【0101】
ブロック1410において、1つ以上の気を散らすオブジェクトがメディアアイテムにおいて識別される。ブロック1410の後に、ブロック1412が続き得る。
【0102】
ブロック1412において、メディアアイテムは、トレーニングされたセグメンテーション機械学習モデルに提供される。ブロック1412の後に、ブロック1414が続き得る。
【0103】
ブロック1414において、メディアアイテム内の1つ以上の注意をそらすオブジェクトのためのセグメンテーションマスクは、トレーニングされたセグメンテーション機械学習モデルとともに出力される。ブロック1414の後に、ブロック1416が続き得る。
【0104】
ブロック1416において、セグメンテーションマスクにマッチするメディアアイテムの一部は、出力メディアアイテムを取得するために修復され、1つ以上の気を散らすオブジェクトは、出力メディアアイテムにはない。
【0105】
上記の説明に加えて、ユーザは、本明細書で説明されるシステム、プログラム、または特徴がユーザ情報(例えば、画像および/又はビデオ、ソーシャルネットワーク、ソーシャルアクション、又は活動、職業、(例えば、画像内のオブジェクトに関する)ユーザの好み、又は、ユーザの現在位置を含む、ユーザのメディアアイテムに関する情報)の収集を可能にし得るか否か、およびいつ可能にし得るか、ならびに、ユーザがコンテンツまたは通信をサーバから送られているか否かの両方について、選択することを可能にする制御が、ユーザに提供され得る。加えて、特定のデータは、個人的に識別可能な情報が取り除かれるように、記憶または使用される前に1つ以上の方法で扱われ得る。例えば、ユーザのアイデンティティは、当該ユーザに対して個人的に識別可能な情報が決定できないように扱われることができ、または、ユーザの地理的位置は一般化され、ユーザの特定の位置が決定されないように、位置情報は、(例えば、都市、ZIPコード、または州レベルのように)取得される。したがって、ユーザは、どの情報がユーザに関して収集されるか、その情報がどのように使用されるか、および、どの情報がユーザに提供されるかに対する制御を有し得る。
【0106】
上記の説明では、説明の目的で、本明細書の完全な理解を提供するために、多数の具体的な詳細が述べられている。しかしながら、当業者には、これらの具体的な詳細なしに本開示を実施できることが明らかであろう。いくつかの事例では、説明を不明瞭にすることを回避するために、構造およびデバイスがブロック図の形態で示される。たとえば、実施形態は、主にユーザインターフェイスおよび特定のハードウェアを参照して上記で説明され得る。しかしながら、実施形態は、データおよびコマンドを受信することができる任意のタイプのコンピューティングデバイス、ならびにサービスを提供する任意の周辺デバイスに適用できる。
【0107】
本明細書における「いくつかの実施形態」または「いくつかのインスタンス」への言及は、実施形態またはインスタンスに関連して説明される特定の特徴、構造、または特性が、当該説明の少なくとも1つの実装形態に含まれ得ることを意味する。本明細書の様々な箇所における「いくつかの実施形態では」という語句の出現は、必ずしも全てが同じ実施形態に言及しているわけではない。
【0108】
上記の詳細な説明のいくつかの部分は、コンピュータメモリ内のデータビットに対する演算のアルゴリズムおよび記号表現に関して提示されている。これらのアルゴリズム的な記述および表現は、データ処理技術の当業者によって、彼らの仕事の内容を他の当業者に最も効果的に伝えるために使用される手段である。アルゴリズムは、ここでは、概して、所望の結果をもたらす複数のステップの自己矛盾のないシーケンスであると考えられる。当該複数のステップは、物理量の物理的操作を必要とするものである。通常、必ずしもではないが、これらの量は、記憶され、転送され、組み合わされ、比較され、さもなければ操作されることが可能な電気的または磁気的データの形態をとる。時には、主に共通に使用する理由から、これらのデータを、ビット、値、要素、シンボル、文字、項、数等と呼ぶことが便利であることが分かっている。
【0109】
しかし、これらおよび同様の用語の全ては、適切な物理量に関連付けられるべきであり、これらの量に適用される便利なラベルにすぎないことに留意されたい。以下の議論から明らかであるように特に明記されない限り、説明全体を通して、「処理する」または「計算する」または「計算する」または「決定する」または「表示する」などを含む用語を利用する議論は、コンピュータシステムのレジスタおよびメモリ内の物理(電子)量として表されるデータを操作し、または、コンピュータシステムメモリまたはレジスタまたは他のそのような情報記憶、伝送、もしくはディスプレイデバイス内の物理量として表される他のデータに変換するコンピュータシステム、または、同様の電子コンピューティングデバイスの動作およびプロセスを指すことを理解されたい。
【0110】
本明細書の実施形態はまた、上述の方法の1つ以上のステップを実行するためのプロセッサに関連し得る。プロセッサは、コンピュータに記憶されたコンピュータプログラムによって選択的に起動または再構成される専用プロセッサであり得る。そのようなコンピュータプログラムは、限定はしないが、光ディスク、ROM、CD-ROM、磁気ディスク、RAM、EPROM、EEPROM、磁気または光カード、不揮発性メモリを有するUSBキーを含むフラッシュメモリを含む任意のタイプのディスク、または、電子命令を記憶するのに適した任意のタイプの媒体を含む、非一時的コンピュータ可読記憶媒体に記憶されることができ、各々は、コンピュータシステムバスに結合される。
【0111】
本明細書は、いくつかの完全にハードウェアの実施形態、いくつかの完全にソフトウェアの実施形態、または、ハードウェア要素およびソフトウェア要素の両方を含むいくつかの実施形態の形態をとることができる。いくつかの実施形態では、本明細書は、ファームウェア、常駐ソフトウェア、マイクロコード等を含むが、それらに限定されない、ソフトウェアで実現される。
【0112】
さらに、説明は、コンピュータまたは任意の命令実行システムによって、またはそれに関連して使用するためのプログラムコードを提供するコンピュータが使用可能な又はコンピュータ読み取り可能な媒体からアクセス可能なコンピュータプログラム製品の形態をとることができる。本説明の目的のために、コンピュータが使用可能な又はコンピュータ読み取り可能な媒体は、当該命令実行システム、装置、またはデバイスによって、またはそれらと関連して使用するためのプログラムを、含む、記憶する、通信する、伝搬する、または移送することができる、任意の装置であり得る。
【0113】
プログラムコードを記憶または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接または間接的に結合された少なくとも1つのプロセッサを含む。メモリ要素は、プログラムコードの実際の実行中に使用されるローカルメモリと、大容量記憶装置と、実行中に大容量記憶装置からコードを取り出さなければならない回数を減らすために少なくともいくつかのプログラムコードの一時的な記憶を提供するキャッシュメモリとを含み得る。
【手続補正書】
【提出日】2023-10-25
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピュータで実行される方法であって、
メディアアイテムの第1のセットとメディアアイテムの第2のセットとを含む訓練データを生成することを含み、前記メディアアイテムの第1のセットは、前記メディアアイテムの第2のセットに対応し、手で細分化される気を散らすオブジェクトを含み、前記方法はさらに、
1つ以上の気を散らすオブジェクトを有するメディアアイテムを受信して、前記1つ以上の気を散らすオブジェクトに対応する1つ以上の細分化されたオブジェクトのためのセグメンテーションマスクを出力するために、前記訓練データに基づいてセグメンテーション機械学習モデルをトレーニングすることを含む、方法。
【請求項2】
前記1つ以上の気を散らすオブジェクトは電力線であり、
前記方法は、
1つ以上の断線した電力線を含むメディアアイテムの第1のセットから1つ以上のメディアアイテムを識別することと、
前記訓練データ内の1つ以上の破損した電力線を補正するために、1つ以上のメディアアイテムを増強することとをさらに含む、請求項1に記載の方法。
【請求項3】
前記1つ以上の破損した電力線を補正するために1つ以上のメディアアイテムを増強することは、
対応する1つ以上の拡張メディアアイテムを生成するために、前記1つ以上のメディアアイテムにおける局所的なコントラストを変更することと、
前記1つ以上のメディアアイテムの一部を、対応する1つ以上の拡張メディアアイテムの一部と混合することとを含む、請求項2に記載の方法。
【請求項4】
前記局所的なコントラストは、2つのバイアス曲線を加算するゲイン曲線を使用して修正される、請求項3に記載の方法。
【請求項5】
前記訓練データを生成することは、1つ以上の気を散らすオブジェクトのセグメンテーションマスクに拡張を適用することによって、前記1つ以上のメディアアイテムを拡張することを含む、請求項2に記載の方法。
【請求項6】
前記1つ以上の気を散らすオブジェクトは、カテゴリーに編成され、前記カテゴリーは、電力線、電柱、塔、およびそれらの組み合わせの群から選択される少なくとも1つを含む、請求項1に記載の方法。
【請求項7】
前記セグメンテーション機械学習モデルをトレーニングすることは、
前記訓練データに基づいて大容量の機械学習モデルを生成することと、
前記大容量の機械学習モデルによって細分化された訓練データに対して推論を行うことにより、大容量機械学習モデルをトレーニングされたセグメンテーション機械学習モデルに精製することとを含む、請求項1に記載の方法。
【請求項8】
前記訓練データは、屋外環境オブジェクトの前に前記気を散らすオブジェクトが追加された合成画像をさらに含む、請求項1に記載の方法。
【請求項9】
メディアアイテムから気を散らすオブジェクトを除去するためのコンピュータで実行される方法であって、
ユーザからメディアアイテムを受信することと、
前記メディアアイテム内の1つ以上の気を散らすオブジェクトを識別することと、
トレーニングされたセグメンテーション機械学習モデルに前記メディアアイテムを提供することと、
前記トレーニングされたセグメンテーション機械学習モデルを用いて、前記メディアアイテム内の1つ以上の気を散らすオブジェクトのためのセグメンテーションマスクを出力することと、
出力メディアアイテムを取得するために前記セグメンテーションマスクに一致するメディアアイテムの一部を修復することとを含み、前記1つ以上の気を散らすオブジェクトは前記出力メディアアイテムにはない、方法。
【請求項10】
前記1つ以上の気を散らすオブジェクトはカテゴリーに編成され、前記カテゴリーは、電力線、電柱、塔、およびそれらの組み合わせの群から選択される少なくとも1つを含む、請求項9に記載の方法。
【請求項11】
前記1つ以上の気を散らすオブジェクトをメディアアイテムから除去する提案をユーザに提供することをさらに含む、請求項9に記載の方法。
【請求項12】
前記トレーニングされたセグメンテーション機械学習モデルは、メディアアイテムの第1のセットとメディアアイテムの第2のセットとを含む訓練データを使用してトレーニングされており、前記第1のセットのメディアアイテムは、前記第2のセットのメディアアイテムに対応し、手で細分化される気を散らすオブジェクトを含む、請求項9に記載の方法。
【請求項13】
請求項1~12のいずれかに記載の方法を1つ以上のコンピュータ
に実行
させるためのプログラム。
【国際調査報告】