IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー ラボラトリーズ ライセンシング コーポレイションの特許一覧

<>
  • 特表-顔領域検出および局所的再構成強調 図1
  • 特表-顔領域検出および局所的再構成強調 図2
  • 特表-顔領域検出および局所的再構成強調 図3
  • 特表-顔領域検出および局所的再構成強調 図4
  • 特表-顔領域検出および局所的再構成強調 図5
  • 特表-顔領域検出および局所的再構成強調 図6
  • 特表-顔領域検出および局所的再構成強調 図7
  • 特表-顔領域検出および局所的再構成強調 図8A
  • 特表-顔領域検出および局所的再構成強調 図8B
  • 特表-顔領域検出および局所的再構成強調 図8C
  • 特表-顔領域検出および局所的再構成強調 図8D
  • 特表-顔領域検出および局所的再構成強調 図9
  • 特表-顔領域検出および局所的再構成強調 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-19
(54)【発明の名称】顔領域検出および局所的再構成強調
(51)【国際特許分類】
   G06T 1/00 20060101AFI20240711BHJP
   G06T 7/00 20170101ALI20240711BHJP
【FI】
G06T1/00 340A
G06T7/00 660A
G06T1/00 500B
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024505292
(86)(22)【出願日】2022-07-25
(85)【翻訳文提出日】2024-03-29
(86)【国際出願番号】 US2022038249
(87)【国際公開番号】W WO2023009469
(87)【国際公開日】2023-02-02
(31)【優先権主張番号】21188517.3
(32)【優先日】2021-07-29
(33)【優先権主張国・地域又は機関】EP
(31)【優先権主張番号】63/226,938
(32)【優先日】2021-07-29
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100101683
【弁理士】
【氏名又は名称】奥田 誠司
(74)【代理人】
【識別番号】100155000
【弁理士】
【氏名又は名称】喜多 修市
(74)【代理人】
【識別番号】100188813
【弁理士】
【氏名又は名称】川喜田 徹
(74)【代理人】
【識別番号】100202197
【弁理士】
【氏名又は名称】村瀬 成康
(72)【発明者】
【氏名】ファン,ツォン‐ウェイ
(72)【発明者】
【氏名】スゥ,グワン‐ミーン
【テーマコード(参考)】
5B057
5L096
【Fターム(参考)】
5B057CA01
5B057CA08
5B057CA12
5B057CB01
5B057CB08
5B057CB12
5B057CD05
5B057CE05
5B057CE06
5B057CE18
5B057DC23
5L096AA02
5L096AA06
5L096EA03
5L096EA06
5L096FA18
5L096FA35
5L096GA30
5L096GA51
5L096GA55
(57)【要約】
顔領域を処理する方法および対応するシステムが開示される。開示する方法は、前記顔の顔バウンディングボックス群および信頼度レベルを提供することと、前記画素および前記顔のヒストグラムを生成することと、顔の確率を生成することと、顔確率マップを生成することと、を含む。前記顔確率マップに、顔コントラスト調整および顔彩度調整を適用することができる。
【特許請求の範囲】
【請求項1】
1つ以上の顔を含む入力画像に対して局所的再構成を行う方法であって、
前記入力画像の全画素のヒストグラムを生成することと、
前記1つ以上の顔の顔バウンディングボックス群と基本顔形状モデルとの組み合わせに基づいて、前記1つ以上の顔の基本顔形状群の画素マッピングからなる基本顔形状マップを生成することと、
前記入力画像と前記基本顔形状マップとに基づいて、前記1つ以上の顔のヒストグラム群を生成することと、
前記1つ以上の顔の前記ヒストグラム群に基づいて、前記全画素のヒストグラムの各ビンについて、画素が顔に含まれる確率からなる顔の確率を生成することと、
前記顔の確率に基づいて、各画素が個々に顔の一部である確率に対する前記入力画像の画素マッピングからなる顔確率マップを生成することと、
前記顔確率マップと1つ以上の選択された再構成関数とに基づいて、前記入力画像から再構成画像を生成することと、
を含む、方法。
【請求項2】
前記基本顔形状モデルはバウンディングボックスの内接楕円を含む、請求項1記載の方法。
【請求項3】
前記顔の確率を生成することは、
前記全画素のヒストグラムをフィルタリングして、全画素のフィルタリングされたヒストグラムを生成することと、
前記1つ以上の顔の前記ヒストグラム群をフィルタリングして、前記1つ以上の顔のフィルタリングされたヒストグラム群を生成することと、
を含む、請求項1および2のいずれかに記載の方法。
【請求項4】
前記顔の確率を生成することはさらに、
全画素の前記フィルタリングされたヒストグラムと前記1つ以上の顔のフィルタリングされたヒストグラム群との組み合わせをスケーリングおよび閾値処理することによって、顔の初期確率を生成すること
をさらに含む、請求項3に記載の方法。
【請求項5】
前記顔の初期確率は、YUVチャンネルにおける顔の初期確率を含む、請求項4に記載の方法。
【請求項6】
前記顔の確率を生成することは、
全画素の前記生成されたヒストグラムから、前記1つ以上の顔の前記生成されたヒストグラム群を減算することによって、顔以外のヒストグラムを生成すること
をさらに含む,請求項4および5のいずれかに記載の方法。
【請求項7】
前記顔の確率を生成することは、
前記顔の初期確率と前記顔以外のヒストグラムとに基づいて、顔以外の更新された確率を生成することと、
前記顔の初期確率と前記1つ以上の顔の前記ヒストグラム群とに基づいて、顔の更新された確率を生成すること
をさらに含む、請求項6に記載の方法。
【請求項8】
前記顔の確率を生成することは、
前記顔以外からの更新された確率と前記顔からの更新された確率を組み合わせて、更新された確率を生成することと、
前記更新された確率をフィルタリングして、前記顔の確率を生成することと、。
をさらに含む、請求項7に記載の方法。
【請求項9】
前記フィルタリングはガウシアンフィルタを用いて行われる、請求項8に記載の方法。
【請求項10】
前記顔の確率を生成した後かつ前記顔確率マップを生成する前に、前記顔の確率にローカルな平滑化を行うことにより平滑化された顔の確率を生成することと、
前記平滑化された顔の確率にソフトモルフォロジー演算を適用することにより前記顔確率マップを生成することと、
をさらに含む、請求項1~9のいずれかに記載の方法。
【請求項11】
前記顔の確率を生成した後かつ前記顔確率マップを生成する前に、前記顔の確率にローカルな平滑化を行うことにより平滑化された顔の確率を生成することと、
前記平滑化された顔の確率にソフトモルフォロジー演算を適用することにより前記顔確率マップを生成することと、
をさらに含む、請求項8に記載の方法。
【請求項12】
前記顔確率マップに顔彩度調整および顔コントラスト調整を適用して調整された顔確率マップを生成することと、
前記調整された顔確率マップと1つ以上の選択された再構成関数とに基づいて再構成画像を生成することと、により、
局所的再構成を適用すること
をさらに含む、請求項10および11のいずれかに記載の方法。
【請求項13】
前記1つ以上の顔の前記ヒストグラム群をトリミングすることにより、前記1つ以上の顔の前記ヒストグラム群を格納するのに必要なメモリ空間を削減すること
をさらに含む、請求項1~12のいずれかに記載の方法。
【請求項14】
前記全画素のヒストグラムをフィルタリングすることはガウシアンフィルタを用いて行われ、
前記1つ以上の顔の前記ヒストグラム群をフィルタリングすることは、ガウシアンフィルタを用いて行われる、
請求項3~9のいずれかに記載の方法。
【請求項15】
全画素の前記フィルタリングされたヒストグラムと前記1つ以上の顔のフィルタリングされたヒストグラム群との組み合わせは、前記1つ以上の顔の前記フィルタリングされたヒストグラム群と全画素の前記フィルタリングされたヒストグラムとの比率からなる、請求項4~9のいずれかに記載の方法。
【請求項16】
前記顔以外からの更新された確率と前記顔からの更新された確率とを組み合わせることは、
顔以外からの更新された確率と前記顔からの更新された確率の加重和を生成すること
を含む、請求項8に記載の方法。
【請求項17】
前記顔コントラスト調整を適用することは、顔コントラスト低減比に基づいて前記1つ以上の顔のコントラストを調整することによって行われる、
請求項12に記載の方法。
【請求項18】
前記顔彩度調整を適用することは、顔脱飽和オフセットと顔脱飽和閾値とに基づいて前記1つ以上の顔の彩度を調整することによって行われる、
請求項12に記載の方法。
【請求項19】
請求項1~18のいずれか1つに記載の方法を実行するように構成されたハードウェア、ソフトウェア、またはその両方を含むビデオデコーダ。
【請求項20】
請求項1~18のいずれかに記載の方法をコンピュータに実行させるためのプログラム命令を含む、コンピュータが読み取り可能な非一時的媒体。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願への相互参照)
本出願は、2021年7月29日付け出願の米国仮特許出願第63/226,938号および2021年7月29日付け出願のEP出願第21188517.3号に基づく優先権の利益を主張するものであり、これらを本願に援用する。
【0002】
本開示は、一般に動画像処理に関する。特に、本開示は、顔領域検出および局所的再構成強調(local reshaping enhancement)に関する。
【背景技術】
【0003】
顔検出方法は、画像や動画から人の顔を識別する様々な用途で使用されている。既存の顔領域検出方法の中には、肌色によって顔領域を検出するものもある。グラフカットモデルまたはグラフィカルモデルに基づく方法の中には、画像中の顔のセグメンテーションを予測するために、顔のバウンディングボックスを使用するものもある。最近開発された技術に基づき、セマンティックセグメンテーションタスクおよびインスタンスセグメンテーションタスク用の深層畳み込みニューラルネットワークを顔領域検出に使用することができる。
【発明の概要】
【0004】
本開示の方法および装置は、顔のバウンディングボックスが与えられたとき画像から顔領域を検出し、局所的再構成において顔領域に異なる調整を適用する、効率的なフレームワークを提供する。顔領域の検出は、顔のヒストグラム解析に基づいており、動画クリップの連続フレームに効率的に拡張することができる。検出された顔領域を局所的再構成に適用する際、顔のコントラストおよび彩度を他の画像コンテンツとは別に調整することで、顔のシワやシミなどのディテールが強調されすぎるのを防ぐことができる。
【0005】
本発明のある実施形態は、1つ以上の顔を含む入力画像における顔領域検出方法であって、前記1つ以上の顔のうち各顔の顔バウンディングボックス群および信頼度レベルを提供することと、前記入力画像に基づいて、全画素のヒストグラムを生成することと、前記入力画像および前記顔バウンディングボックス群に基づいて、前記1つ以上の顔のヒストグラム群を生成することと、前記全画素のヒストグラムおよび前記1つ以上の顔の前記ヒストグラム群に基づいて、顔の確率を生成することと、前記顔の確率に基づいて、顔確率マップを生成することと、を含む方法である。本発明の別の実施形態は、上記実施形態の顔領域検出を利用して、前記顔確率マップに顔彩度調整および顔コントラスト調整を適用して調整された顔確率マップを生成することと、前記調整された顔確率マップと1つ以上の選択された再構成関数とに基づいて再構成画像を生成することと、による局所的再構成を適用する。
【0006】
いくつかの実施形態では、方法はコンピュータ実装され得る。例えば、本方法は、1つまたは複数のプロセッサおよび1つまたは複数の非一時的記憶媒体を含む制御システムを介して、少なくとも部分的に実装され得る。
【0007】
本明細書に記載する方法の一部または全ては、1つ以上の非一時的媒体上に格納される命令(例えばソフトウェア)に従って1つまたは複数のデバイスが実施することができる。そのような非一時的媒体は、本明細書に記載されているようなメモリデバイスを含むことができ、ランダムアクセスメモリ(RAM)デバイス、リードオンリーメモリ(ROM)デバイスなどを含むがこれに限定されない。したがって、本開示で説明する主題のいくつかの発明的側面を、ソフトウェアを格納した非一時的媒体に実装することができる。ソフトウェアは、例えば、本明細書に記載されているような制御システムの1つまたは複数の構成要素によって実行可能であり得る。例えば、上記ソフトウェアは、本明細書に記載されている方法の1つ以上を実行するための命令を含み得る。
【0008】
本開示の少なくともいくつかの側面は、装置(単数または複数)によって実装され得る。例えば、1つまたは複数のデバイスが、本明細書において開示する方法を少なくとも部分的に実行するように構成され得る。いくつかの実施態様では、装置は、インターフェースシステムと制御システムとを含んでいてもよい。インターフェースシステムは、1つ以上のネットワークインターフェース、制御システムとメモリシステムとの間の1つ以上のインターフェース、制御システムと別のデバイスとの間の1つ以上のインターフェースおよび/または1つ以上の外部デバイスインターフェースを含み得る。制御システムは、1つ以上の汎用のシングルチップもしくはマルチチッププロセッサ、デジタルシグナルプロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)もしくは他のプログラマブルロジックデバイス、ディスクリートゲートもしくはトランジスタロジック、ディスクリートハードウェアコンポーネント、のうち少なくとも1つを含み得る。したがって、いくつかの実施態様において制御システムは、1つ以上のプロセッサに動作可能に結合された1つ以上のプロセッサおよび1つ以上の非一時的記憶媒体を含み得る。
【0009】
本明細書において記載された主題の1つ以上の実施態様の詳細は、添付の図面および以下の説明に記載されている。他の特徴、側面および利点は以下の説明、図面および特許請求の範囲から明らかになるであろう。以下の図の相対的な寸法は、縮尺通りに描かれていない場合があることに留意されたい。様々な図面における同様の参照番号および名称は一般に同様の要素を示すが、異なる参照番号は異なる図面間で異なる要素を必ずしも指定しない。
【図面の簡単な説明】
【0010】
図1図1は、本開示の一実施形態による顔領域検出および顔調整を伴う局所的再構成を示す例示的な図を示す。
【0011】
図2図2は、本開示の一実施形態による顔領域検出処理の例示的な図を示す。
【0012】
図3図3は、本開示の一実施形態によるグローバルな汎用ヒストグラムを生成する例示的な図を示す。
【0013】
図4図4は、本開示の一実施形態による検出された顔を含む画像を示す。
【0014】
図5図5は、本開示の一実施形態による、画像内の顔の個別ヒストグラムを生成する例示的な図を示す。
【0015】
図6図6は、本開示の一実施形態による顔の初期確率の計算の例示的な図を示す。
【0016】
図7図7は、本開示の一実施形態による適応ソートおよび確率伝播処理の例示的な図を示す。
【0017】
図8A図8Aは、本開示の一実施形態による、顔の確率の例示的なグラフを示す。
図8B図8Bは、顔以外の例示的なヒストグラムを示す。
図8C図8Cは、本開示の一実施形態による、真に顔以外の例示的なヒストグラムを示す。
図8D図8Dは、本開示の一実施形態による、顔以外の更新された確率の例示的なグラフを示す。
【0018】
図9図9は、本開示の一実施形態によるローカルな後処理ステップの詳細を示す例示的な図を示す。
【0019】
図10図10は、本開示の一実施形態による局所的再構成の例示的な図を示す。
【発明を実施するための形態】
【0020】
これまでの画像処理による顔認識方法には、動画に対する欠点があった。例えば、肌色検出は、人により、また照明条件により肌色が異なるため、うまく一般化できない。セグメンテーションを予測することは、動画では計算コストがかかる。また、ニューラルネットワークは、検出の欠落や時間的不整合のため、さらなる演算においてちらつきのアーティファクトを生じる可能性がある。本明細書で提供されるシステムおよび方法は、これらの不都合を回避する。
【0021】
本明細書で使用する「顔バウンディングボックス」とは、顔検出アルゴリズムによって検出される顔の基準点として機能する、想像上の(描画されていない)矩形を指す。
【0022】
本明細書において、「顔のヒストグラム」とは、検出された顔の画像のグループ化されたデータを指す。
【0023】
本明細書で使用する「顔確率マップ」とは、各画素が個別に顔の一部である確率に対しての、画像の画素マッピングを指す。
【0024】
本明細書において、「基本顔形状」または「基本顔形状モデル」とは、検出された顔のサイズおよび形状を概ね表す形状(楕円など)を指し、「基本顔形状マップ」とは、画像中における基本顔形状の画素マッピングを指す。
【0025】
本明細書において、「顔の確率(probability of face)」および「顔以外の確率(probability of non-face)」とは、画素が顔に含まれる確率または顔に含まれない確率の計算値をそれぞれ指す。
【0026】
本明細書で使用される「ソフトモルフォロジー演算」とは、標準的なグレースケールのモルフォロジーで使用される最大値および最小値の演算を、重み付けされた順序統計量(order statistics)に置き換えた、画像内の特徴の形状あるいはモルフォロジーに関連する非線形演算を指す。
【0027】
本明細書で使用する「顔調整」とは、画像における検出された顔領域に対して再構成演算を適用することを指す。
【0028】
図1の例示的な実施形態に示すように、本開示の方法は、顔領域検出(100)を含む。入力画像(11)と事前に検出された顔バウンディングボックス(10)が与えられると、ヒストグラム(12)の特性が解析され、ヒストグラムの各ビンについて顔の確率(13)が予測される。その後、ローカルな後処理(14)が施され、その結果、滑らかさが改善され、生成された顔確率マップ(15)中の小さいノイズが除去される。
【0029】
その後、局所的再構成(100’)処理を適用することができる。顔確率マップ(15)を用いて、顔領域に対する異なる局所的再構成(17)演算が適用される。顔領域におけるコントラストおよび彩度が調整され(16)、再構成画像(18)において自然で視覚的に好ましく見えるようにする。一実施形態において、本開示の出願人によって出願され、その全体を本願に援用する米国仮出願S/N63/086,699号「Adaptive Local Reshaping For SDR-To-HDR Up-Conversion」(2020年10月2日付け出願)で提案されるような、局所的再構成方法を使用することができる。この方法では、各画素のコントラストおよび彩度を容易に調整することができる。
【0030】
図1を引き続き参照すると、本開示の方法は、実世界の変換シナリオに対処するために、局所的再構成のための既存の線形符号化アーキテクチャ(例えば、上述の米国仮出願S/N63/086,699号を参照)と統合することもできる。提示した方法は、最終的な動画品質の時間的安定性を高めるために、線形符号化アーキテクチャにおけるスライディングウィンドウを利用する。
【0031】
A.顔領域検出
図2は、本開示の一実施形態による顔領域検出処理の例示的な図を示す。顔の色は、同じ画像内の他のコンテンツの色とは異なる可能性が高いことから、このような処理は、YUV色空間における顔のヒストグラムの解析に基づいている。ヒストグラム解析ステップ(220)に示すように、入力画像(201)および事前に検出された顔のバウンディングボックス(200)が与えられると、YUV色空間における顔および全画素の汎用ヒストグラム(202)と、検出された各顔の個別ヒストグラム(204)とがまず計算される。基本顔形状モデル(203)は、ヒストグラムを計算するための入力画像(201)中の顔領域の初期的な推測である、基本形状マップを生成するために使用される。ステップ(230)の一部として、YUV色空間における顔の初期確率(205)が汎用ヒストグラム(202)から計算される。次に、適応ソート(206)を使用し、各顔の個別ヒストグラム(204)と汎用ヒストグラム(202)とに基づいて顔の初期確率を精緻化することができる。その後、顔の確率はYUV色空間で反復的に更新され、伝播される(207)。
【0032】
図2をさらに参照して、ローカルな後処理ステップ(240)に示すように、精緻化された顔の確率が与えられると、まず、画像の急激な確率変化によるアーティファクトを回避するために、ローカルな平滑化(208)が実行される。続いて、入力画像(201)の最終的な顔確率マップ(215)から小さいノイズを除去するために、ソフトモルフォロジー演算(209)が反復的に適用される。事前に検出された顔のバウンディングボックス(200)は、顔のバウンディングボックスおよび対応する検出スコアを予測する、任意の種類の顔検出器からのものであってよい。以下では、図2の実施形態に示した様々なステップの詳細について説明する。
【0033】
A.1 ヒストグラム解析
本開示の教示によれば、ヒストグラム解析の一部として、顔の汎用ヒストグラムを計算するための顔領域の初期的な推測を生成するために顔形状モデルが使用される。同じ画像内の異なる顔の色の多様性を捉えるために、各顔の個別ヒストグラムも計算される。
【0034】
A.1.1 グローバルな汎用ヒストグラム
図3は、本開示の一実施形態によるグローバルな汎用ヒストグラムを生成する例示的な図を示す。汎用ヒストグラムとは、すべての顔のヒストグラムまたはすべての画素のヒストグラムを指す。入力画像(31)中の顔の汎用ヒストグラムを計算するために、まず顔の領域が定義される。すでに検出された顔のバウンディングボックス(30)に基づきそれぞれを顔の平均的な形状、すなわち基本顔形状(32)で埋めることにより、顔領域の初期的な推測を得ることができる。W×Hのサイズを有し、バウンディングボックス
【数1】

を伴うNface個の検出された顔を含む入力画像(31)Sが与えられたとする。ここで、cは0から1の間の検出スコア、(x,y)はバウンディングボックスの左上隅の座標(整数または浮動小数点)、(w,h)はk番目の検出された顔のバウンディングボックスのサイズ(整数または浮動小数点)である。すると、基本形状マップ(33)Mを生成することができる。このような基本形状マップは、事前に定義または事前に訓練された基本顔形状(32)モデル(Qと表記)を使用した、顔領域の初期的な推測である。基本顔形状(32)モデルは、検出されたバウンディングボックス内の顔の確率マップである。また、顔の平均的な形状とみなすこともできる。一例として、基本顔形状(32)モデルQは、バウンディングボックスの中実な(solid)内接楕円(すなわち楕円の内側を1、楕円の外側を0)とすることができる。別の例として、基本顔形状(32)モデルは、顔のセグメンテーションの訓練データから学習することもできる。一般に、基本顔形状(32)モデルは、サイズW×Hの確率マップとして保存し、検出された各顔についてリサイズすることができる。
【0035】
図3をさらに参照すると、k番目の検出された顔について、顔形状モデルをリサイズし、バウンディングボックス(30)にフィットするようにシフトすることにより、顔の確率マップM(Q,k)を得ることができる。次に、確率マップに検出スコアcを乗算して、誤検出(false positive detection)(通常は検出スコアが低くなる)による影響を低減する。次に、すべての検出された顔の確率マップを基本形状マップ(33)Mに追加する。Mの最大値は、バウンディングボックスが重複している場合、1にクリップされてもよい。Mにレターボックスがある場合、それらレターボックスは除外される。本開示の出願人により2021年6月11日に出願され、その全体を本願に援用する米国仮出願S/N63/209,602号「Surround Area Detection And Blending For Image Filtering」に記載されているような非アクティブ領域検出器から得られた、非アクティブ領域(レターボックス、ピラーボックス、円、または他の任意の形状を持つパディングされた黒い領域)の確率マップMが与えられると、関心領域(ROI: region of interest)の確率マップは、MROI=1-Mと定義することができ、これに次にMを乗算する。したがって、最終的なMは、次のように定式化することができる。
【数2】

ここで、演算子.*は要素ごとの乗算である。上述の教示をさらに明確にするために、4つの顔が検出された画像(400)を示す図4を参照する。画像(400)は、画像主領域(401)とレターボックス(402)とを含む。また、4つの顔に関連する基本形状マップ(403)と顔バウンディングボックス(404)も示されている。
【0036】
図3を再び参照し、顔検出器からのバウンディングボックス(30)が必ずしも完全であるとは限らないため、実際の顔領域がバウンディングボックス(30)の外側にある場合がある。したがって、バウンディングボックスの外側での顔の確率は0でないかもしれない。このような場合、基本顔形状モデルをフィッティングする前に、xおよびy方向のスケーリング係数f(box,x)およびf(box,y)でバウンディングボックスの中心とスケールを固定してもよい。以下の擬似コードは、内接楕円の基本顔形状モデルから基本形状マップが生成される例を示す。
【表1】
【0037】
引き続き図3を参照すると、基本形状マップ(32)で定義された顔領域が与えられると、顔の汎用ヒストグラム(35)および全画素の汎用ヒストグラム(34)を計算することができる。本開示の一実施形態によれば、顔の汎用ヒストグラム(35)は画素の重み付けカウントとして計算され、ここで重みは基本形状マップ(32)からのものである。一方、全画素の汎用ヒストグラム(34)は、ROI内の全画素のヒストグラムカウントである。計算効率のために、画素はカウント中においてサブサンプル係数shistでサブサンプリングされてもよい。一例として、shistはshist=2として設定されてもよい。サイズH×Wの入力画像(31)のヒストグラムを、YUV色空間で計算してもよい。入力画像のYUVチャンネルをそれぞれS、S、Sとし、各チャンネルのビン数を
【数3】

とする。入力ビット深度Bについて、各チャンネルのビン幅は、
【数4】

のように計算される。
【数5】

の値の例は、
【数6】

である。異なるYUV入力フォーマットについて、各チャンネルでの対応する画素位置が必要になることがある。YUV420入力に対して、YチャンネルはW×H配列として保存され、UおよびVチャンネルはWhalf×Hhalf配列として保存される。ここで、Whalf=W/2およびHhalf=H/2である。したがって、
【数7】

がそれぞれ、ダウンサンプリングされたUおよびVチャンネルを表すために使用される。計算効率のため、Sにおける画素位置(i,j)は、
【数8】

における
【数9】

にマッチさせることができる。他のYUVフォーマットについては、適宜調整することができる。以下の擬似コードは、YUV420入力に対する顔および全画素の汎用ヒストグラムを計算する例である:
【表2】
【0038】
A.1.2 ローカルな顔の個別ヒストグラム
すべての顔のグローバルな汎用ヒストグラムに加えて、各顔のローカルな個別ヒストグラムも、各顔の変動を捉えるために考慮される。これは、図5に示す例示的な図によって説明される。各顔について、基本顔形状(52)モデルは、図3の基本形状マップ(33)を構築する場合と同様に、入力画像(51)に基づいて顔バウンディングボックス(50)内の確率を求めるために使用され、これに続いて重み付けカウントが実行される。しかし、個別ヒストグラム(54)をすべて格納することは、1フレームに含まれる顔の数が多い場合、膨大なメモリ量を消費する可能性があり、複数フレームからのヒストグラムを格納する場合は、さらに深刻な状況になる可能性がある。そこで、メモリを節約するために、各顔の個別ヒストグラム(54)を、できるだけ多くの画素カウントを保ったまま予めトリミング(53)する。以下では、トリミングの例示的なプロセスをより詳細に説明する。
【0039】
図5をさらに参照すると、k番目の顔について、元のヒストグラム
【数10】

が与えられたとき、トリミングされたヒストグラム
【数11】

は、ビン
【数12】

で開始するサイズ
【数13】

の部分配列である。これは以下の式で示される。
【数14】
【0040】
さらに、トリミングされたヒストグラムの保持比rkeep,k、すなわち、トリミング前とトリミング後の総画素カウントの比を、将来の使用のために記録することができる。このような比率は次のようにして求めることができる。
【数15】

より良い結果を得るためには、ヒストグラムをトリミングするために、ヒストグラムの和が最大になるサイズ
【数16】

の連続したビンを見つけてもよい。しかし、ヒストグラムは3次元であるため、計算量が大きくなる可能性がある。そこで、ヒストグラムのトリミングは、Y、U、そしてVチャンネルの順に、一度に1チャンネルずつ行われ得る。パラメータの例は、
【数17】

である。さらに、ほとんどの顔は、例えば90%よりも大きい保持比を有し得る。
【0041】
前述したトリミング処理に引き続き、メモリ制限の可能性を考慮して、個別ヒストグラムを格納するために顔の最大数Nface,maxを設定することができる。その場合、Nface>Nface,maxであれば、Nface,max個の最も重要な顔のみが残される。通常、画像中の大きい顔がより多くの注目を集めるため、バウンディングボックスのサイズが重要度の尺度として使用され得る。さらに、誤検出(false detection)を避けるために、バウンディングボックスの検出スコアを考慮してもよい。したがって、各顔の重要度は、その面積および検出スコアに基づいて、以下の式のように定義することができる。
【数18】

ここで、面積はW*H/Nface,maxで正規化され、1にクリップされる。なぜなら、顔は十分に大きければ重要であると考えられるからである。Nface,maxが分母に入っているのは、より多くの顔を残すことができれば、より小さい顔を考慮することができるからである。重要度が最も高い上位Nface,maxの顔が選択される。Nface,maxの例示的な値は、Nface,max=16である。
【0042】
図5を参照し、YUV420入力に対して内接楕円の基本顔形状(52)モデルを使用して各顔の個別ヒストグラム(54)がどのように計算されるかの例を以下の擬似コードで示す:
【表3】

【表4】

【表5】
【0043】
A.2 確率適応
先に開示したように生成されたヒストグラムを用いて、各ビンの顔の確率を定義することができる。一般に、ある色が顔のヒストグラムにおいてより高い値を持つ場合、それは顔の一部である可能性がより高い。したがって、顔の初期確率は、顔および全画素の汎用ヒストグラムから直接推定することができる。しかし、顔のヒストグラムは、顔領域の初期的な推測にすぎない基本形状マップから推定されるので、YUV色空間においてローカルにヒストグラムに適応させることにより初期確率をさらに精緻化する必要があり得る。そのため、各顔の個別ヒストグラムと顔以外の汎用ヒストグラムに基づく反復的な適応ソートと確率伝播が実施されてもよい。初期確率推定、適応ソート、および確率伝播の詳細は、以下の節で説明する図6図8の例示的な図を通じて示される。
【0044】
A.2.1 初期確率
図6は、本開示の一実施形態による顔の初期確率を計算する例示的な図を示す。まず、顔のヒストグラム(62)と全画素の汎用ヒストグラム(61)との比が以下のように計算される。
【数19】

ここで
【数20】

は、標準偏差σhistを有する3次元ガウシアンフィルタリング(63)である。演算子./は,要素ごとの除算(64)である。ゼロによる除算を避けるため、rface(b)は、
が0であるビンbでは0に設定されてもよい。ガウシアンフィルタリングの目的は,ヒストグラム中のノイズを減らすことである。標準偏差σhistは、例えばσhist=0.25(ビン内)に設定してもよい。次に、スケーリングおよび閾値処理(65)が比に適用され、顔の初期確率が得られる(66)。比が大きいほど、確率は大きくなる。各ビンbについて、以下が適用される:
【数21】

ここで、rとrはヒストグラムの比の閾値である。上式から、rface<rのとき、p(face,init)=0であることがわかる。一方、rface>rのとき、p(face,init)=1であることがわかる。閾値r、rは、例えば、r=0.1、r=0.5に設定することができる。さらに、顔以外のヒストグラム(68)は、ヒストグラムの差(67)shistnonface=histall-histfaceとして定義することができる。後で見るように、顔以外のヒストグラム(68)は、次節で詳述する適応ソート処理で使用される。
【0045】
A.2.2 適応ソート
図7は、本節で説明する適応ソート(700)と、次節で説明する確率伝播(701)処理の例示的な図を示す。図3の基本形状マップ(33)のほとんどの部分は正しいと仮定され、わずかな調整のみが必要な場合であり得る。より具体的には、histnonfaceにおいてカウントされた画素のうち、少なくともθnonface部分が真に顔以外のものであると仮定する。また、各kについて、hist(face,k)においてカウントされた画素のうち、少なくともθface部分が真に顔であると仮定する。このように、顔の初期確率としての顔の確率をまず初期化する。pface←p(face,init)。さらに、累積画素カウントがヒストグラムの総画素カウントのθnonfaceに達するまで、確率が最も低いビンの確率を0に更新する。言い換えれば、顔以外からの更新された確率(74)
【数22】

は以下のように得られる:
【数23】

ここでB(nf)は、確率が0に更新されるビンの集合である。すなわち、
【数24】

ここで、Bは確率が最も低いビンの集合である。上記に開示した方法を、1次元ヒストグラムの場合について、図8A~8Dに示している。顔の確率(81)pface、顔以外のヒストグラム(82)histnonfaceが与えられると、最も確率の低いビンBの確率は、それらのビンの画素カウントの和がヒストグラムの総画素カウントのθnonfaceに達するまで更新される。その結果、真に顔以外のヒストグラム(84)histnonfaceおよび顔以外からの更新された確率(83)
【数25】

が得られる。
【0046】
図7に戻り、顔以外からの更新された確率(74)
【数26】

に関して開示したのと同様に、最も確率の高いビンの確率は、累積画素カウントが各顔のヒストグラムの総画素カウントのθfaceに達するまで1に更新される。すなわち、各顔からの更新された確率(73)は次のように求められる。
【数27】

(f)は、確率が1に更新されるビンの集合である。
【数28】

すべての顔からの更新を考慮することで、すべての顔からの更新された確率(75)を得ることができる。
【数29】

実際には、トリミングされたヒストグラム
【数30】

のみが利用可能な場合がある。さらに、そのようなトリミングされたヒストグラムでは、histface,kの画素カウントのrkeep,k部分のみが残される場合がある。したがって、累積画素カウントはむしろ、
【数31】

の和のθface/rkeep,kに達する必要があるかもしれない。さらに、θface/r(keep,k)>1のとき、トリミングされたヒストグラム中のすべてのビンの確率は1に設定されてもよい。パラメータθnonfaceおよびθfaceの値は経験的に決定されてもよい。一例として、θnonface=0.9かつθface=0.75とする。
【0047】
以下の擬似コードは、顔以外からの確率を計算し得る方法の例を示している。
【表6】
【0048】
以下の擬似コードは、顔からの確率を計算し得る方法の例を示している。
【表7】
【0049】
A.2.3 確率伝播
図7をさらに参照して、ビンは顔領域および顔以外領域の両方に現れる可能性があるため、顔以外および顔からの更新は別々に行われ、合計される。顔以外からの更新された確率(74)
が与えられ、顔からの更新された確率(75)
が与えられたとき、更新された確率(77)
は、ヒストグラムカウントに基づくこれら2つの更新された確率の加重和であり、以下に示すとおりである。
【数32】

ゼロによる除算を避けるために、histallが0であるビンでは
【数33】

は0に設定されてもよい。さらに、確率はソートインデックスに基づいて更新されるため、近隣ビンの間で急激な変化が生じる可能性がある。そのため、3次元ビンにおいてガウシアンフィルタリング(78)を実行して、顔の確率(79)pfaceを滑らかにし、後の処理段における潜在的なアーティファクトを回避してもよい。ガウシアンフィルタの標準偏差σpropは、例えばσprop=0.25に設定され得る。
【0050】
図7を引き続き参照して、本開示の教示に従って、ローカルにYUV色空間において確率をヒストグラムに徐々に適応させるために、適応ソート(700)および確率伝播(701)はnprobada回の反復について形成されてもよい。反復回数nprobadaは、例えば、nprobada=3に設定され得る。
【0051】
A.3 ローカルな後処理
図7を参照すると、顔の確率はYUV色空間で洗練されたが、画素間の空間的関係は考慮されなかった。本開示の実施形態によれば、顔の確率を空間領域でさらに洗練することができる。図9は、図2の実施形態に関して開示したローカルな後処理ステップ(240)の詳細を示す例示的な図である。図示されるように、このような後処理ステップは、視覚的アーティファクトを回避するためのローカルな平滑化(900)と、小さいノイズを除去するためのソフトモルフォロジー演算(901)とを備える。
【0052】
A.3.1 ローカルな平滑化
さらに図9を参照して、まず、入力画像(91)と顔の確率(90)pfaceとの組み合わせを用いて、顔の初期確率マップ(92)M(face,init)を得る。以下の擬似コードは、YUV420入力についての確率マップ(92)の取得方法の一例である。
【表8】
【0053】
図9に戻って、顔の確率(90)はビンに量子化されているため、ビンが非常に少ない場合、各画素についてビン間の確率が補間されてもよい。しかし、顔の確率(90)にはまだ空間情報が含まれていないため、初期確率マップ(92)では近隣画素間で急激な変化が生じる可能性がある。これがもし入力画像(91)の滑らかな領域で発生すると、次の局所的再構成演算で偽エッジやバンディング状のアーティファクトが発生する。入力画像が滑らかな領域において確率マップを滑らかにするために、その全体を本願に援用する[文献1]に記載されているように、確率マップ(92)を入力として、入力画像の正規化されたYチャンネル
【数34】

をガイドとして使用するガイド付き画像フィルタリング(93)を実施してもよい。実装の詳細は、例えば上述の米国仮出願S/N63/086,699号に記載されており、この全体を本願に援用する。ガイド付き画像フィルタリング(93)の結果として、滑らかなマップ(94)が得られる。ガイド付き画像フィルタ(93)に使用され得る例示的なパラメータ値は、[0,1]の範囲かつサイズ1920×1080の正規化入力画像(91)に対し平滑度0.01およびカーネルサイズ51である。異なるサイズの画像について、カーネルサイズは画像サイズ
【数35】

に比例してスケーリングすることができる。また、ガイド付き画像フィルタ(93)はリッジ回帰に基づいており、外れ値によるノイズが発生する可能性があるため、ガイド付き画像フィルタ(93)の出力を[0,1]の間でクリップされてもよい。また、ROIの確率マップは、顔領域がROIの内側になるように適用してもよい。すなわち、
【数36】

である。
【0054】
A.3.2 ソフトモルフォロジー演算
図9を再び参照する。顔領域は通常連続的で滑らかな境界を持つため、確率マップ(92)中の小さいノイズを除去することが必要となる場合がある。小さいノイズとは、確率マップ(92)中の小さい穴や、繋がっていない小さい点のことである。従来、小さいノイズは、閉じたり開いたりすることのようなモルフォロジー演算によって除去することができる。しかし、このような演算は、顔領域の境界を変更することにもなり、これはいくつかの用途においては望ましくない。本開示の教示に従って、そのような類の小さいノイズを除去するために、ソフトモルフォロジー演算(901)を使用することができる。
【0055】
図9のソフトモルフォロジー演算(901)は、本質的に、各画素の重要度をその周囲によって重み付けすることを意味する。入力確率マップ(92)Mfaceが与えられると、ソフトモルフォロジー演算(901)は次のように定義される。
【数37】

ソフトモルフォロジー演算(901)を制御するパラメータには、ガウシアンフィルタリング(95)の標準偏差σmorphと、顔領域を拡大するかどうかを決定するスケーリング係数amorphとが含まれる。演算子.*は要素ごとの乗算である。上記の定義から、各画素はその周囲の画素の加重平均
【数38】

によって乗算されることがわかる。スケーリングおよび閾値処理(97)のステップの一部として、Mface>0である画素について、
【数39】

の場合、その画素値は演算後に増幅される。一方、
【数40】

の場合、画素値は演算後に減少する。つまり、その画素の周囲が高い値である場合にのみ、その画素は保存される。さらに、以下に示すように、確率マップ(92)を徐々に精緻化させるために、この演算をnsoftmorph回繰り返すことができる。
【数41】

ここで
【数42】

は、
【数43】

をnsoftmorph回繰り返すことを意味する。また、ROIの確率マップは、顔領域がROIの内側になるように適用することもできる。すなわち
【数44】

である。パラメータσmorph、amorph、およびnsoftmorphは、例えば、σmorph=25、amorph=3、nsoftmorph=2として設定されてもよい。
【0056】
B.顔調整を伴う局所的再構成
局所的再構成が実行される場合、異なる再構成関数を局所的に異なる画素に適用することができる。再構成関数は、コントラスト、彩度、または他の視覚的特徴のような画像特性を制御および強調することができる。例えば、その全体を本願に援用する上述の米国仮出願S/N63/086,699号を参照されたい。ほとんどの画像コンテンツでは、コントラストおよび彩度が高いほど、一般の人々により良い視聴体験をもたらす。しかし、画像中の顔については、コントラストおよび彩度が高ければ高いほど良いとは限らない。顔のシワやシミなどのディテールが強調されることは好まれないかもしれない。さらに、肌色が変化して不自然に見える彩度が高すぎる顔よりも、彩度の低い顔の方が好まれる場合もある。本開示の教示に従った顔調整を伴う局所的再構成は、そのような問題に対処するために応用することができる。図9を参照して、先に開示した内容に基づいて取得された顔確率マップ(98)に従って、コントラストおよび彩度を調整するために、画像内の他の顔以外領域とは異なる再構成関数を顔領域に適用することができる。
【0057】
図10は、本開示の一実施形態による局所的再構成(110)の例示的な図を示す。顔確率マップ(102)に基づいて、入力画像(101)の各画素に対するコントラスト調整量(103)が決定される。また、入力画像(101)の各画素に対する彩度調整量(104)も決定される。そして、コントラストおよび彩度の調整が再構成関数(105)選択に適用される。選択された再構成関数(105)に基づいて再構成演算(106)が行われることにより、再構成画像(107)が生成される。以下に、局所的再構成(110)の要素の詳細について説明する。
【0058】
B.1.局所的再構成関数選択
図10をさらに参照して、局所的再構成方法(110)は、その全体を本願に援用する上述の米国仮出願S/N63/086,699号に詳述されている再構成関数選択に基づき得る。換言すれば、各画素について、再構成関数のファミリーから選択された個々の再構成関数(105)が、各チャンネルの再構成演算(106)のために適用される。入力画像SとそのYUVチャンネルをS、S、およびS、再構成画像VとそのYUVチャンネルをV、V、およびVとすれば、i番目の画素について、局所的再構成演算は次のように定義できる。
【数45】

ここで
【数46】

は、それぞれ、S、S、S、V、V、Vにおけるi番目の画素である。
【数47】

は、それぞれY、U、Vチャンネルの再構成関数のファミリーである。
【数48】

は、i番目の画素に対して選択された再構成関数の対応するインデックスである。簡単のため、全画素のインデックスをインデックスマップL、LおよびLとする。したがって、入力画像および対応するインデックスマップがあれば、それに応じて各画素の局所的再構成演算を実行することができる。
【0059】
注意深く設計された再構成関数のファミリーを用いて、インデックスマップを調整することにより、再構成画像における明るさ、コントラスト、彩度、または他の視覚的特徴を変更することができる。例えば、その全体を本願に援用する上述の米国仮出願S/N63/086,699号において記載されているように、ローカルなディテールおよびコントラスト強調は以下を用いて行うことができる。
【数49】

あるいは、等価的に、
【数50】

である。ここで、
【数51】

は、例えば[0,1]の範囲で正規化された入力画像のYチャンネルであり、
【数52】

は、対応するエッジ保存フィルタリング画像である。αは各画素の強調強度のマップである。αが大きいほど強調強度が強い。fSL(.)は、画素の明るさに基づいて強調をさらに調整する、画素単位の非線形関数である。L(g)は、画像全体に対する一定のグローバルインデックスであり、再構成画像の明るさや彩度など、全体的な見た目を制御する。さらに、α=0のとき全画素は同じ再構成関数を使用し、これはグローバル再構成と呼ばれ、ローカルなコントラストやディテールの強調がないことを意味する。一例として、再構成関数のファミリーに含まれる4096個の再構成関数が、各チャンネルに対して考慮され得る。使用されるパラメータは、全画素に対してα=3.8*cのようなデフォルト設定であってもよい。ここで、cはモデルパラメータであり、例えば、c=2687.1のように設定され得る。
【0060】
図10を引き続き参照し、前述したことを考慮すると、顔確率マップ(102)が与えられた場合、インデックスマップにおける顔領域のインデックスを調整することにより、再構成画像(107)における顔の見た目を変更することができる。以下の節において、顔コントラスト調整(103)と彩度調整(104)について、より詳細に説明する。
【0061】
B.2 顔コントラスト調整
用途によっては、他の画像コンテンツと同様に顔のシワやシミなどのディテールを強調することが望ましくない場合がある。そのため、ディテールおよびコントラスト強調を行う際に、顔領域の強調強度を下げる必要がある場合がある。
調整されたインデックスマップLは次のように定義され得る。
【数53】

ここで、rfaceは顔コントラスト低減比である。画素iについて、Mface(i)=1とすれば、ΔL(face,c)(i)は、
【数54】

となり、式(22)の
【数55】

と書けることがわかる。式(20)および(21)と比較すると、強調強度はα(i)から(1-rface)*α(i)に低下する。したがって、ΔL(face,c)は、0<rface?1の場合、顔のコントラストを低下させる。rface=0のとき、調整は無い。rface=1のとき、顔の強調強度は0になる。経験的に、顔の強調強度が0である場合、元の強度で強調されている周囲の画像コンテンツと比較して、顔が過度に平滑化されて見えることがある。一例として、rfaceは、rface=0.5として設定されてもよい。
【0062】
B.2 顔彩度調整
一般に、画像の彩度を上げると視聴体験が向上する。しかし、画像の中の顔に関しては、他の画像コンテンツと同じように色彩度を上げることは望ましくないかもしれない。肌色の彩度が過多になると、顔が不自然に見えたり、不健康に見えたりする。図10を参照して、開示された顔彩度調整(104)は、このような問題に対処している。
【0063】
その全体を本願に援用する米国仮出願S/N63/086,699号に記載されているように、一般的に、再構成関数のインデックスが小さいほど、再構成画像の彩度は低くなる。さらに、入力画素が暗いほど、再構成された画素はインデックスに対してより敏感になる。
【0064】
以上のことから、前節で開示したように取得したLに基づいて、調整されたインデックスマップLおよびLをさらに次のように定義することができる。
【数56】

式(23)において、dfaceは顔の脱飽和オフセットである。θsatは脱飽和を制御するための閾値である。したがって、ΔL(face,s)は、dface>0かつθsat>0のとき、顔の彩度を下げる。dfaceが大きいほど、脱飽和が大きい。dface=0のとき、脱飽和は無い。経験的に、パラメータdfaceおよびθsatは、たとえばdface=1024およびθsat=0.5として設定されてもよい。
【0065】
本開示の数々の実施形態を記載した。しかし、本開示の趣旨および範囲から離れることなく様々な改変を成し得ることが理解されるであろう。したがって、本発明は本明細書に記載された形態のいずれかで具体化され得る。これは、本発明のいくつかの部分の構造、特徴、および機能性を説明した以下の列挙実施形態例(Enumerated Example Embodiments:EEE)を含むが、これらに限定されない。
【0066】
EEE1:1つ以上の顔を含む入力画像における顔領域検出方法であって、前記1つ以上の顔のうち各顔の顔バウンディングボックス群および信頼度レベルを提供することと、前記入力画像に基づいて、全画素のヒストグラムを生成することと、前記入力画像および前記顔バウンディングボックス群に基づいて、前記1つ以上の顔のヒストグラム群を生成することと、前記全画素のヒストグラムおよび前記1つ以上の顔の前記ヒストグラム群に基づいて、顔の確率を生成することと、前記顔の確率に基づいて、顔確率マップを生成することと、を含む方法。
【0067】
EEE2:前記1つ以上の顔の前記ヒストグラム群を生成することは、顔バウンディングボックス群と基本顔形状との組み合わせに基づいて、基本顔形状マップを生成することと、前記入力画像と前記基本顔形状マップに基づいて、前記1つ以上の顔の前記ヒストグラム群を生成することとを含む、EEE1に記載の方法。
【0068】
EEE3:前記顔の確率を生成することは、前記全画素のヒストグラムをフィルタリングして、全画素のフィルタリングされたヒストグラムを生成することと、前記1つ以上の顔の前記ヒストグラム群をフィルタリングして、前記1つ以上の顔のフィルタリングされたヒストグラム群を生成することと、を含む、EEE1および2のいずれかに記載の方法。
【0069】
EEE4:前記顔の確率を生成することはさらに、全画素の前記フィルタリングされたヒストグラムと前記1つ以上の顔のフィルタリングされたヒストグラム群との組み合わせをスケーリングおよび閾値処理することによって、顔の初期確率を生成することをさらに含む、EEE3に記載の方法。
【0070】
EEE5:前記顔の初期確率は、YUVチャンネルにおける顔の初期確率を含む、EEE4に記載の方法。
【0071】
EEE6:前記顔の確率を生成することは、全画素の前記生成されたヒストグラムから、前記1つ以上の顔の前記生成されたヒストグラム群を減算することによって、顔以外のヒストグラムを生成することをさらに含む,EEE4および5のいずれかに記載の方法。
【0072】
EEE7:前記顔の確率を生成することは、前記顔の初期確率と前記顔以外のヒストグラムとに基づいて、顔以外の更新された確率を生成することと、前記顔の初期確率と前記1つ以上の顔の前記ヒストグラム群とに基づいて、顔の更新された確率を生成することをさらに含む、EEE6に記載の方法。
【0073】
EEE8:前記顔の確率を生成することは、前記顔以外からの更新された確率と前記顔からの更新された確率を組み合わせて、更新された確率を生成することと、前記更新された確率をフィルタリングして、前記顔の確率を生成することと、。をさらに含む、EEE7に記載の方法。
【0074】
EEE9:前記フィルタリングはガウシアンフィルタを用いて行われる、EEE8に記載の方法。
【0075】
EEE10:前記顔の確率を生成した後かつ前記顔確率マップを生成する前に、前記顔の確率にローカルな平滑化を行うことにより平滑化された顔の確率を生成することと、前記平滑化された顔の確率にソフトモルフォロジー演算を適用することにより前記顔確率マップを生成することと、をさらに含む、EEE1~9のいずれかに記載の方法。
【0076】
EEE11:前記顔の確率を生成した後かつ前記顔確率マップを生成する前に、前記顔の確率にローカルな平滑化を行うことにより平滑化された顔の確率を生成することと、前記平滑化された顔の確率にソフトモルフォロジー演算を適用することにより前記顔確率マップを生成することと、をさらに含む、EEE8に記載の方法。
【0077】
EEE12:前記顔確率マップに顔彩度調整および顔コントラスト調整を適用して調整された顔確率マップを生成することと、前記調整された顔確率マップと1つ以上の選択された再構成関数とに基づいて再構成画像を生成することと、により、局所的再構成を適用することをさらに含む、EEE10および11のいずれかに記載の方法。
【0078】
EEE13:前記1つ以上の顔の前記ヒストグラム群をトリミングすることにより、前記1つ以上の顔の前記ヒストグラム群を格納するのに必要なメモリ空間を削減することをさらに含む、EEE1~12のいずれかに記載の方法。
【0079】
EEE14:前記全画素のヒストグラムをフィルタリングすることはガウシアンフィルタを用いて行われ、前記1つ以上の顔の前記ヒストグラム群をフィルタリングすることは、ガウシアンフィルタを用いて行われる、EEE3~9のいずれかに記載の方法。
【0080】
EEE15:全画素の前記フィルタリングされたヒストグラムと前記1つ以上の顔のフィルタリングされたヒストグラム群との組み合わせは、前記1つ以上の顔の前記フィルタリングされたヒストグラム群と全画素の前記フィルタリングされたヒストグラムとの比率からなる、EEE4~9のいずれかに記載の方法。
【0081】
EEE16:前記顔以外からの更新された確率と前記顔からの更新された確率とを組み合わせることは、顔以外からの更新された確率と前記顔からの更新された確率の加重和を生成することを含む、EEE8に記載の方法。
【0082】
EEE17:前記顔コントラスト調整を適用することは、顔コントラスト低減比に基づいて前記1つ以上の顔のコントラストを調整することによって行われる、EEE12に記載の方法。
【0083】
EEE18:前記顔彩度調整を適用することは、顔脱飽和オフセットと顔脱飽和閾値とに基づいて前記1つ以上の顔の彩度を調整することによって行われる、
EEE12に記載の方法。
【0084】
EEE19:EEE1~18のいずれか1つに記載の方法を実行するように構成されたハードウェア、ソフトウェア、またはその両方を含むビデオデコーダ。
【0085】
EEE20:EEE1~18のいずれかに記載の方法をコンピュータに実行させるためのプログラム命令を含む、コンピュータが読み取り可能な非一時的媒体。
【0086】
本開示は、本明細書に記載したいくつかの発明的側面、およびこれらの発明側面が実施され得る文脈の例を説明する目的で、特定の実施態様に向けられている。しかしながら、本明細書における教示は、様々な異なる方法で適用することができる。さらに、説明される実施形態は、様々なハードウェア、ソフトウェア、ファームウェア等で実装され得る。例えば、本願の側面は、装置、複数のデバイスを含むシステム、方法、コンピュータプログラム製品等において、少なくとも部分的に具現化され得る。したがって、本願の側面は、ハードウェアの実施形態、ソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、および/またはソフトウェアとハードウェアの両方の側面を組み合わせた実施形態の形をとることができる。そのような実施形態は、本明細書では、「回路」、「モジュール」、「デバイス」、「装置」または「エンジン」と呼ばれることがある。本出願のいくつかの側面は、その上に具現化されたコンピュータ読み取り可能なプログラムコードを有する1つ以上の非一時的媒体に具現化されたコンピュータプログラム製品の形をとることができる。このような非一時的媒体としては、例えば、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROMまたはフラッシュメモリ)、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせが挙げられる。従って、本開示の教示は、図に示され、および/または本明細書に記載される実施態様に限定されることを意図するものではなく、広い適用性を有する。
【0087】
上記に提示した例は、当該分野に通常の熟練を有する当業者に対し、本開示の一実施形態を作成して使用する方法を完全に開示かつ説明するものとして提供されているのであって、発明者/発明者らが自らの開示であると考えるものの範囲を限定するようには意図されていない。
【0088】
本明細書中に開示された方法およびシステムを実行するための上記の態様に対する改変であって当該分野の当業者にとって明らかなものは、以下に続く請求項の範囲に含まれるものとして意図されている。本明細書において言及された全ての特許および公開は、本開示が関する当該分野の当業者の技術レベルを示す。本開示に引用された全ての文献は、各文献が個別にその全ての開示内容を援用されている場合と同程度に、援用される。
【0089】
本開示は、特定の方法またはシステムには限定されず、もちろん変化し得ることを理解されたい。また、本明細書で用いられる用語は、特定の実施形態を記載する目的のためだけのものであり、限定するようには意図されていないことも理解されたい。本明細書および添付の請求項において用いるとき、単数形の「ある(a)」、「一つの(an)」、および「この(the)」は、内容によって明らかにそうでないと決まらない限り、複数の指示対象を含む。「複数(plurality)」という用語は、内容によって明らかにそうでないと決まらない限り、2つ以上の指示対象を含む。別途の定義のない限り、本明細書で用いられる全ての技術的および科学的な用語は、本開示が関する当該技術の当業者によって一般に理解されるものと同一の意味を有する。
<参考文献>
[1] He, Kaiming, Jian Sun, and Xiaoou Tang. "Guided image filtering." IEEE Transactions on Pattern Analysis and Machine Intelligence 35, no. 6 (2012): 1397-1409.
図1
図2
図3
図4
図5
図6
図7
図8A
図8B
図8C
図8D
図9
図10
【手続補正書】
【提出日】2024-03-29
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
1つ以上の顔を含む入力画像に対して局所的再構成を行う方法であって、
前記入力画像の全画素のヒストグラムを生成することと、
前記1つ以上の顔の顔バウンディングボックス群と基本顔形状モデルとの組み合わせに基づいて、前記1つ以上の顔の基本顔形状群の画素マッピングからなる基本顔形状マップを生成することと、
前記入力画像と前記基本顔形状マップとに基づいて、前記1つ以上の顔のヒストグラム群を生成することと、
前記1つ以上の顔の前記ヒストグラム群に基づいて、前記全画素のヒストグラムの各ビンについて、画素が顔に含まれる確率からなる顔の確率を生成することと、
前記顔の確率に基づいて、各画素が個々に顔の一部である確率に対する前記入力画像の画素マッピングからなる顔確率マップを生成することと、
前記顔確率マップと1つ以上の選択された再構成関数とに基づいて、前記入力画像から再構成画像を生成することと、
を含む、方法。
【請求項2】
前記基本顔形状モデルはバウンディングボックスの内接楕円を含む、請求項1記載の方法。
【請求項3】
前記顔の確率を生成することは、
前記全画素のヒストグラムをフィルタリングして、全画素のフィルタリングされたヒストグラムを生成することと、
前記1つ以上の顔の前記ヒストグラム群をフィルタリングして、前記1つ以上の顔のフィルタリングされたヒストグラム群を生成することと、
を含む、請求項に記載の方法。
【請求項4】
前記顔の確率を生成することはさらに、
全画素の前記フィルタリングされたヒストグラムと前記1つ以上の顔のフィルタリングされたヒストグラム群との組み合わせをスケーリングおよび閾値処理することによって、顔の初期確率を生成すること
をさらに含む、請求項3に記載の方法。
【請求項5】
前記顔の初期確率は、YUVチャンネルにおける顔の初期確率を含む、請求項4に記載の方法。
【請求項6】
前記顔の確率を生成することは、
全画素の前記生成されたヒストグラムから、前記1つ以上の顔の前記生成されたヒストグラム群を減算することによって、顔以外のヒストグラムを生成すること
をさらに含む,請求項に記載の方法。
【請求項7】
前記顔の確率を生成することは、
前記顔の初期確率と前記顔以外のヒストグラムとに基づいて、顔以外の更新された確率を生成することと、
前記顔の初期確率と前記1つ以上の顔の前記ヒストグラム群とに基づいて、顔の更新された確率を生成すること
をさらに含む、請求項6に記載の方法。
【請求項8】
前記顔の確率を生成することは、
前記顔以外からの更新された確率と前記顔からの更新された確率を組み合わせて、更新された確率を生成することと、
前記更新された確率をフィルタリングして、前記顔の確率を生成することと、。
をさらに含む、請求項7に記載の方法。
【請求項9】
前記フィルタリングはガウシアンフィルタを用いて行われる、請求項8に記載の方法。
【請求項10】
前記顔の確率を生成した後かつ前記顔確率マップを生成する前に、前記顔の確率にローカルな平滑化を行うことにより平滑化された顔の確率を生成することと、
前記平滑化された顔の確率にソフトモルフォロジー演算を適用することにより前記顔確率マップを生成することと、
をさらに含む、請求項に記載の方法。
【請求項11】
前記顔の確率を生成した後かつ前記顔確率マップを生成する前に、前記顔の確率にローカルな平滑化を行うことにより平滑化された顔の確率を生成することと、
前記平滑化された顔の確率にソフトモルフォロジー演算を適用することにより前記顔確率マップを生成することと、
をさらに含む、請求項8に記載の方法。
【請求項12】
前記顔確率マップに顔彩度調整および顔コントラスト調整を適用して調整された顔確率マップを生成することと、
前記調整された顔確率マップと1つ以上の選択された再構成関数とに基づいて再構成画像を生成することと、により、
局所的再構成を適用すること
をさらに含む、請求項10に記載の方法。
【請求項13】
前記1つ以上の顔の前記ヒストグラム群をトリミングすることにより、前記1つ以上の顔の前記ヒストグラム群を格納するのに必要なメモリ空間を削減すること
をさらに含む、請求項に記載の方法。
【請求項14】
前記全画素のヒストグラムをフィルタリングすることはガウシアンフィルタを用いて行われ、
前記1つ以上の顔の前記ヒストグラム群をフィルタリングすることは、ガウシアンフィルタを用いて行われる、
請求項に記載の方法。
【請求項15】
全画素の前記フィルタリングされたヒストグラムと前記1つ以上の顔のフィルタリングされたヒストグラム群との組み合わせは、前記1つ以上の顔の前記フィルタリングされたヒストグラム群と全画素の前記フィルタリングされたヒストグラムとの比率からなる、請求項に記載の方法。
【請求項16】
前記顔以外からの更新された確率と前記顔からの更新された確率とを組み合わせることは、
顔以外からの更新された確率と前記顔からの更新された確率の加重和を生成すること
を含む、請求項8に記載の方法。
【請求項17】
前記顔コントラスト調整を適用することは、顔コントラスト低減比に基づいて前記1つ以上の顔のコントラストを調整することによって行われる、
請求項12に記載の方法。
【請求項18】
前記顔彩度調整を適用することは、顔脱飽和オフセットと顔脱飽和閾値とに基づいて前記1つ以上の顔の彩度を調整することによって行われる、
請求項12に記載の方法。
【請求項19】
請求項1~18のいずれか1つに記載の方法を実行するように構成されたハードウェア、ソフトウェア、またはその両方を含むビデオデコーダ。
【請求項20】
請求項1~18のいずれかに記載の方法をコンピュータに実行させるためのプログラム命令を含む、コンピュータが読み取り可能な非一時的媒体。
【国際調査報告】