(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024025683
(43)【公開日】2024-02-26
(54)【発明の名称】画像における意味的対象領域の発見
(51)【国際特許分類】
G06T 7/00 20170101AFI20240216BHJP
【FI】
G06T7/00 250
G06T7/00 350C
【審査請求】有
【請求項の数】15
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023120395
(22)【出願日】2023-07-25
(31)【優先権主張番号】17/884,607
(32)【優先日】2022-08-10
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】500035823
【氏名又は名称】アビッド テクノロジー インコーポレイテッド
(74)【代理人】
【識別番号】100118902
【弁理士】
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【弁理士】
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100196508
【弁理士】
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100173565
【弁理士】
【氏名又は名称】末松 亮太
(72)【発明者】
【氏名】ロバート・エイ・ゴンサルベス
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096CA02
5L096DA01
5L096EA12
5L096EA35
5L096FA02
5L096FA18
5L096FA32
5L096FA33
5L096FA60
5L096FA69
5L096GA51
5L096HA11
5L096JA05
5L096JA11
5L096KA04
5L096KA15
(57)【要約】 (修正有)
【課題】画像の領域間において、それらの意味的重要度に基づく区別を行わない方法及びシステムを提供する。
【解決手段】方法は、オブジェクトを自動的に検出し、オブジェクトの各々の範囲を示す副画像を画像から抜粋し、訓練されたマルチモーダル・ニューラル・ネットワークとして実装された画像エンコーダを使用することによって、画像全体だけでなく、副画像の各々に対して画像エンベッディングを判定する。副画像の画像エンベッディングと画像全体の画像エンベッディングとの間における類似度を、副画像内に描写されたオブジェクトの意味的重要度の尺度として使用する。意味的重要度が高いオブジェクトは、画像の意味的対象領域を含む。このような領域の知識を使用して、画像圧縮、パンニング及びスキャン並びにコントラスト強調のような、下流側における画像処理タスクを改良しその効率を高める。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ソース画像内において意味的対象領域を判定する方法であって、
前記ソース画像を受信するステップと、
自動オブジェクト検出システムを使用して、前記ソース画像内において複数のオブジェクトを検出するステップと、
前記ソース画像を複数の副画像に再分割するステップであって、各副画像が、前記ソース画像の内、前記検出された複数のオブジェクトの中の1つを含む部分を包含する、ステップと、
訓練されたニューラル・ネットワーク・モデルを使用して、
前記ソース画像に対して画像エンベッディングを生成するステップと、
前記複数の副画像の中の各副画像に対して、当該副画像に対する画像エンベッディングを生成するステップと、
前記複数の副画像の中の各副画像に対して、
前記副画像の画像エンベッディングと前記ソース画像の画像エンベッディングとの間における類似度を判定するステップと、
前記検出されたオブジェクトに対応する前記副画像の画像エンベッディングと前記ソース画像の画像エンベッディングとの間において判定された類似度にしたがって、前記副画像に含まれる前記検出オブジェクトに意味的関心度を割り当てるステップと、
前記副画像に含まれる検出オブジェクトに割り当てられた前記意味的関心度の指示を出力するステップと、
を含む、方法。
【請求項2】
請求項1記載の方法において、前記自動オブジェクト検出システムが、訓練されたニューラル・ネットワーク・モデルである、方法。
【請求項3】
請求項1記載の方法において、前記画像エンベッディングを生成するために使用された、前記訓練されたニューラル・ネットワーク・モデルが、マルチモダル・ニューラル・ネットワークである、方法。
【請求項4】
請求項1記載の方法であって、更に、
前記複数の検出オブジェクトの中の各検出オブジェクトに対して、当該検出オブジェクトにオブジェクト・マスクを生成するステップと、
前記ソース画像のオブジェクト・マスク画像を生成するステップであって、前記複数の検出オブジェクトの中の各検出オブジェクトが、前記ソース画像において当該オブジェクトに生成されたオブジェクト・マスクの階調シルエットと置き換えられる、ステップと、
視覚指示を各階調シルエットに適用するステップであって、前記視覚指示が、前記オブジェクト・マスクに対応する検出オブジェクトに割り当てられた意味的関心度を示す、ステップと、
を含む、方法。
【請求項5】
請求項1記載の方法において、前記複数の検出オブジェクトの中の各検出オブジェクトに割り当てられた前記意味的関心度の指示が、前記ソース画像の画像処理を改良するために使用される、方法。
【請求項6】
請求項5記載の方法において、前記画像処理が画像圧縮を含み、
前記ソース画像の画像処理を改良するステップが、前記副画像に対応する検出オブジェクトに割り当てられた意味的関心度にしたがって、前記複数の副画像の中の各副画像を圧縮するときに割り当てられるビット数を変更するステップを含む、方法。
【請求項7】
請求項6記載の方法において、前記ソース画像がビデオ・ストリームのフレームである、方法。
【請求項8】
請求項5記載の方法において、
前記画像処理が、前記ソース画像の所望のアスペクト比を達成するために、前記ソース画像の一部分をクロップする処理を含み、
前記ソース画像の画像処理を改良するステップが、割り当てられた意味的関心度が高いオブジェクト程、前記ソース画像のクロップ部分内に優先的に保持するステップを含む、方法。
【請求項9】
請求項8記載の方法において、前記クロップされた画像内に優先的に保持されるオブジェクトが、最大の意味的関心度が割り当てられたオブジェクトを含む、方法。
【請求項10】
請求項8記載の方法であって、更に、
前記複数の検出オブジェクトから、検出オブジェクトの部分集合を選択するステップであって、前記選択したオブジェクトの部分集合が、高い意味的関心度が割り当てられた1組のオブジェクトを含む、ステップと、
前記ソース画像内において、前記検出オブジェクトの部分集合の重心を突き止めるステップと、
前記ソース画像内における前記検出オブジェクトの部分集合の重心が、前記クロップ画像の中心に位置するように、前記ソース画像をクロップするステップと、
を含む、方法。
【請求項11】
請求項8記載の方法において、前記ソース画像がビデオ・ストリームのフレームである、方法。
【請求項12】
請求項5記載の方法において、前記画像処理がコントラスト強調を含み、前記コントラスト強調が、前記ソース画像の内、高い意味的関心度が割り当てられた検出オブジェクトを含む領域において、コントラストを高めるステップを含む、方法。
【請求項13】
請求項12記載の方法において、前記ソース画像がビデオ・ストリームのフレームである、方法。
【請求項14】
コンピュータ・プログラム製品であって、
コンピュータ読み取り可能命令がエンコードされている非一時的コンピュータ読み取り可能媒体を備え、前記コンピュータ読み取り可能命令が、処理デバイスによって処理されると、前記処理デバイスに、ソース画像内において意味的対象領域を判定する方法を実行するように命令し、前記方法が、
前記ソース画像を受信するステップと、
自動オブジェクト検出システムを使用して、前記ソース画像内において複数のオブジェクトを検出するステップと、
前記ソース画像を複数の副画像に再分割するステップであって、各副画像が、前記ソース画像の内、前記検出された複数のオブジェクトの中の1つを含む部分を包含する、ステップと、
訓練されたニューラル・ネットワーク・モデルを使用して、
前記ソース画像に対して画像エンベッディングを生成するステップと、
前記複数の副画像の中の各副画像に対して、当該副画像に対する画像エンベッディングを生成するステップと、
前記複数の副画像の中の各副画像に対して、
前記副画像の画像エンベッディングと前記ソース画像の画像エンベッディングとの間における類似度を判定するステップと、
前記検出されたオブジェクトに対応する前記副画像の画像エンベッディングと前記ソース画像の画像エンベッディングとの間において判定された類似度にしたがって、前記副画像に含まれる前記検出オブジェクトに意味的関心度を割り当てるステップと、
前記副画像に含まれる検出オブジェクトに割り当てられた前記意味的関心度の指示を出力するステップと、
を含む、コンピュータ・プログラム製品。
【請求項15】
システムであって、
コンピュータ読み取り可能命令を格納するメモリと、
前記メモリに接続されたプロセッサであって、前記プロセッサが、前記コンピュータ読み取り可能命令を実行すると、ソース画像内において意味的対象領域を判定する方法を前記システムに実行させる、プロセッサと、
を備え、前記方法が、
前記ソース画像を受信するステップと、
自動オブジェクト検出システムを使用して、前記ソース画像内において複数のオブジェクトを検出するステップと、
前記ソース画像を複数の副画像に再分割するステップであって、各副画像が、前記ソース画像の内、前記検出された複数のオブジェクトの中の1つを含む部分を包含する、ステップと、
訓練されたニューラル・ネットワーク・モデルを使用して、
前記ソース画像に対して画像エンベッディングを生成するステップと、
前記複数の副画像の中の各副画像に対して、当該副画像に対する画像エンベッディングを生成するステップと、
前記複数の副画像の中の各副画像に対して、
前記副画像の画像エンベッディングと前記ソース画像の画像エンベッディングとの間における類似度を判定するステップと、
前記検出されたオブジェクトに対応する前記副画像の画像エンベッディングと前記ソース画像の画像エンベッディングとの間において判定された類似度にしたがって、前記副画像に含まれる前記検出オブジェクトに意味的関心度を割り当てるステップと、
前記副画像に含まれる検出オブジェクトに割り当てられた前記意味的関心度の指示を出力するステップと、
を含む、システム。
【発明の詳細な説明】
【従来技術】
【0001】
[001] コンピューティング・システムによって処理される画像は、その画像内において最も重要な品目を含む(contain)特定領域を包含するが、残りの領域は、画像の意味内容に大幅に追加することなく、フレームを埋めるのが一般的である。例えば、重要な人物の画像が、その人物の顔および彼らの身体の一部または全部を表現する(render)部分を含むのはもっともであるが、周囲の領域はこの画像が取り込まれた場所を示す場合もある。他の例では、画像がスポーツの試合からの場面を表すのであれば、最も興味深い領域は、サッカーにおいてゴールを決めたプレーヤ、またはテニスにおいてボールをサーブするプレーヤのような、画像によって取り込まれた主要な行為を描写する(portray)。
【0002】
[002] このような画像上で画像処理タスクを実行するとき、現行のシステムは、画像の領域間において、それらの意味的重要度に基づく区別を行わない。代わりに、コントラスト、シャープネス(sharpness)、および彩度のような、画像の技術的特性を操作して、画像全域にわたる最良の結果を全体として生成する。しかしながら、画像処理システムが、処理されている画像の対象領域を識別する情報にアクセスできれば、画像処理タスクをもっと効率的に実行することができるであろう。
【発明の概要】
【発明が解決しようとする課題】
【0003】
[003] したがって、コンピュータ・システムが画像またはビデオ・ストリーム内部で重要なオブジェクトを発見することを可能にし、ビデオ圧縮、自動パンニングおよびスキャン画像のクロッピング、ならびに自動色補正というようなタスクを、効率を高めて実行できるようになれば、有利であろう。
【課題を解決するための手段】
【0004】
[004] 概して、第1の態様において、ソース画像内において意味的対象領域を判定する方法は、ソース画像を受信するステップと、自動オブジェクト検出システムを使用して、ソース画像内において複数のオブジェクトを検出するステップと、ソース画像を複数の副画像に再分割するステップであって、各副画像が、ソース画像の内、検出した複数のオブジェクトの中の1つを含む一部分を包含する、ステップと、訓練されたニューラル・ネットワーク・モデルを使用して、ソース画像に対して画像エンベッディング(image embedding)を生成するステップと、複数の副画像における副画像毎に、その副画像に対して画像エンベッディングを生成するステップと、複数の副画像における副画像毎に、副画像の画像エンベッディングとソース画像の画像エンベッディングとの間における類似度を判定するステップと、検出されたオブジェクトに対応する副画像の画像エンベッディングとソース画像の画像エンベッディングとの間において判定された類似度に応じて、副画像に含まれる検出オブジェクトに意味的関心度(semantic interest)を割り当てるステップと、副画像に含まれる検出オブジェクトに割り当てられた意味的関心度の指示を出力するステップとを含む。
【0005】
[005] 種々の実施形態は、以下の特徴の内1つ以上を含む。自動オブジェクト検出システムは、訓練されたニューラル・ネットワーク・モデルである。画像エンベッディングを生成するために使用される訓練されたニューラル・ネットワーク・モデルは、マルチモーダル・ニューラル・ネットワークである。複数の検出されたオブジェクトの内、検出されたオブジェクト毎に、この方法は、検出されたオブジェクトにオブジェクト・マスクを生成するステップと、ソース画像のオブジェクト・マスク画像を生成するステップであって、複数の検出されたオブジェクトの中の検出された各オブジェクトが、ソース画像において、そのオブジェクトに生成されたオブジェクト・マスクの階調シルエット(shaded silhouette)と置き換えられる、ステップと、各階調シルエットに視覚的指示を適用する(apply)ステップであって、この視覚的指示が、オブジェクト・マスクに対応する検出オブジェクトに割り当てられた意味的関心度を示す、ステップとを含む。複数の検出オブジェクトの中の検出された各オブジェクトに割り当てられた意味的関心度の指示は、ソース画像の画像処理を改良する(enhance)ために使用される。この画像処理は、画像圧縮を含み、ソース画像の画像処理を改良する処理は、副画像に対応する検出オブジェクトに割り当てられた意味的関心度に応じて、複数の副画像の中の各副画像を圧縮するときに割り当てられるビット数を変更する(vary)処理を含む。ソース画像は、ビデオ・ストリームの中の1フレームである。画像処理は、ソース画像の所望のアスペクト比を達成するために、ソース画像の一部分をクロップする処理を含み、ソース画像の画像処理を改良する処理は、ソース画像のクロップ領域内に、割り当てられた意味的関心度が高いオブジェクト程優先的に保持する処理を含む。クロップ画像内に優先的に保持されるオブジェクトには、最大の意味的関心度が割り当てられたオブジェクトが含まれる。この方法は、更に、複数の検出オブジェクトから、検出オブジェクトの部分集合を選択するステップであって、選択されたオブジェクトの部分集合が、高い意味的関心度が割り当てられたオブジェクトの集合を含む、ステップと、ソース画像内において、この検出オブジェクトの部分集合の重心を突き止めるステップと、ソース画像内における検出オブジェクトの部分集合の重心が、クロップされた画像の中心に位置するように、ソース画像をクロップするステップとを含む。ソース画像は、ビデオ・ストリームの1フレームである。画像処理は、コントラスト強調を含み、コントラスト強調は、ソース画像において、高い意味的関心度が割り当てられた検出オブジェクトを含む領域におけるコントラストを高める(boost)処理を含む。ソース画像は、ビデオ・ストリームの中の1フレームである。
【0006】
[006] 概して、他の態様において、コンピュータ・プログラム製品は、コンピュータ読み取り可能命令がエンコードされた非一時的コンピュータ読み取り可能媒体を備え、コンピュータ読み取り可能命令が、処理デバイスによって処理されると、ソース画像内において意味的対象領域を判定する方法を実行するように、処理デバイスに命令する。この方法は、ソース画像を受信するステップと、自動オブジェクト検出システムを使用して、ソース画像内において複数のオブジェクトを検出するステップと、ソース画像を複数の副画像に再分割するステップであって、各副画像が、検出した複数のオブジェクトの中の1つを含むソース画像の一部分を包含する、ステップと、訓練されたニューラル・ネットワーク・モデルを使用して、ソース画像に対して画像エンベッディング(image embedding)を生成するステップと、複数の副画像における副画像毎に、その副画像に対して画像エンベッディングを生成するステップと、複数の副画像における副画像毎に、副画像の画像エンベッディングとソース画像の画像エンベッディングとの間における類似度を判定するステップと、検出されたオブジェクトに対応する副画像の画像エンベッディングとソース画像の画像エンベッディングとの間において判定された類似度に応じて、副画像に含まれる検出オブジェクトに意味的関心度を割り当てるステップと、副画像に含まれる検出オブジェクトに割り当てられた意味的関心度の指示を出力するステップとを含む。
【0007】
[007] 概して、更に他の態様では、システムは、コンピュータ読み取り可能命令を格納するメモリと、メモリに接続されたプロセッサとを備え、このプロセッサが、コンピュータ読み取り可能命令を実行すると、ソース画像内において意味的対象領域を判定する方法を、このシステムに実行させる。この方法は、ソース画像を受信するステップと、自動オブジェクト検出システムを使用して、ソース画像内において複数のオブジェクトを検出するステップと、ソース画像を複数の副画像に再分割するステップであって、各副画像が、検出した複数のオブジェクトの中の1つを含むソース画像の一部分を包含する、ステップと、訓練されたニューラル・ネットワーク・モデルを使用して、ソース画像に対して画像エンベッディング(image embedding)を生成するステップと、複数の副画像における副画像毎に、その副画像に対して画像エンベッディングを生成するステップと、複数の副画像における副画像毎に、副画像の画像エンベッディングとソース画像の画像エンベッディングとの間における類似度を判定するステップと、検出されたオブジェクトに対応する副画像の画像エンベッディングとソース画像の画像エンベッディングとの間において判定された類似度に応じて、副画像に含まれる検出オブジェクトに意味的関心度を割り当てるステップと、副画像に含まれる検出オブジェクトに割り当てられた意味的関心度の指示を出力するステップとを含む。
【図面の簡単な説明】
【0008】
【
図1】画像内において意味的対象領域を自動的に判定する方法の説明における主要ステップを示す上位流れ図である。
【
図2】説明する方法を世界の指導者の画像に応用する場合を示し、元の画像、検出されたオブジェクト、オブジェクト・マスク、および意味的関心度に応じて階調(shaded)が付けられたオブジェクト・マスクを示す。
【
図3】説明する方法をクロスカントリー・オートバイ競走の画像に応用する場合を示し、元の画像、検出されたオブジェクト、オブジェクト・マスク、および意味的関心度に応じて階調が付けられたオブジェクト・マスクを示す。
【
図4】説明する方法を犬の演芸会(dog talent show)の画像に応用する場合を示し、元の画像、検出されたオブジェクト、オブジェクト・マスク、および意味的対象領域を示す。
【
図5】説明する方法を現代彫刻の画像に応用する場合を示し、元の画像、検出されたオブジェクト、オブジェクト・マスク、および意味的関心度に応じて階調が付けられたオブジェクト・マスクを示す。
【
図6】ビデオ編集アプリケーションにインポートされているビデオ内における意味的対象領域に対するビデオ圧縮を最適化するためのユーザ選択可能なオプションを含む、ビデオ編集アプリケーションのユーザ・インターフェース・ダイアログ・ボックスの模式的スクリーンショットである。
【
図7】意味的対象領域を含むように入力画像(incoming imagery)をクロップするためのユーザ選択可能なオプションを含む、ビデオ編集アプリケーションのユーザ・インターフェース・ダイアログ・ボックスの模式的スクリーンショットである。
【
図8】編集最中のビデオに色補正を実行するときに、意味的対象領域(regions of semantic interest)におけるコントラストを高めるためのユーザ選択可能なオプションを含む、ビデオ編集アプリケーションのユーザ・インターフェース・ダイアログ・ボックスの模式的スクリーンショットである。
【
図9】画像またはビデオの意味的対象領域を判定するシステムの上位ブロック図である。
【発明を実施するための形態】
【0009】
[0017] 2010年台後期および2020年台早期の間に、人工知能(AI)および機械学習(ML)コンピュータ・システムは急速に発展した。一般的な形式の機械学習コンピュータ・システムは、ニューラル・ネットワーク・モデルを使用する。このようなニューラル・ネットワーク・モデルの一部は、画像内におけるオブジェクトを検出するために開発および訓練された。本明細書において説明する方法は、このようなオブジェクト検出システムを、MLベースの画像エンコーダと組み合わせて使用し、画像内部における意味的対象領域を識別する。本明細書において使用する場合、画像の領域は、この画像を作成および共有する人が、この画像について有意であると見なし得るものを含む場合、意味的に関心がある(semantically interesting)と見なされる。例えば、映像が2人の人物とのインタビューを収録する(contain)場合、この場面で意味的に関心がある部分は、背景の植物ではなく、2人の人物であろう。また、料理番組(cooling show)の場合であれば、シェフが実際に使用しているストーブ上にある鍋であろう。特定の場合には、この領域は、画像を取り込む根拠になったコンテンツを表す場合もある。
【0010】
[018]
図1は、画像内部において意味的対象領域を発見するときに伴う、種々のステップを示す上位流れ図である。意味的対象領域を発見しようとしているソース画像102は、この画像内部においてオブジェクト検出104を実行するシステムによって処理される。オブジェクト検出は、訓練されたMLモデルによって、またはエッジ検出もしくはコントラスト分析のような、アルゴリズム的方法によって実行してもよい。適したオブジェクト検出システムの例には、以下が含まれる。Feng Li.et al.によるMask DINO、arXiv:2206.02777;Ze Liu et al.によるSwin Transformer、arXiv:2103.14060;Leonardo Rossi et al.によるGeneric RoI Extractor、arXiv:2004.13665[cs.CV];およびKaiming He et al.によるMask R-CNN、arXiv:1703.06870[cs.CV]。このようなシステムは、通常、毎秒10フレームで処理する(run)ので、ビデオ・ストリーム内部においてオブジェクトを検出するために使用されるとき、新たなフレームが毎秒約30回受信される場合には、特定の画像だけが分析される。分析される画像は、10フレーム毎、15フレーム毎、20フレーム毎というように、任意に選択することができ、または画像の全体的構成が変化するときには、場面の変化に基づいて選択することもできる。分析されるフレーム間の間隔(interval)は、所与のコンピューティング・プラットフォーム上でオブジェクト認識を実行するために要する処理時間に基づいて、自動的に決定することができる。オブジェクト検出システムは、これらが画像内で発見するように訓練された種々のオブジェクトを突き止めるのに有効である。オブジェクト検出システムからの出力は、検出されたオブジェクト毎に、検出されたオブジェクトのクラス、オブジェクトがそのクラスに入る確率スコア、オブジェクト・マスクの最も遠い左、上、右、および下の座標によって定められる境界枠(bounding box)、およびマスクを含む。マスクは、どの画素がそのオブジェクトに属するかを示す境界枠のサイズの二進画像から成る。本明細書において説明する方法では、オブジェクト・クラスおよびスコアが破棄され、オブジェクト・マスクは、
図1の118に示すような、オブジェクト・シルエット(object silhouettes)の「切り抜き」画像を作成するために使用される。オブジェクト検出システムが未知のオブジェクトに遭遇した場合、オブジェクトの存在を識別することはできるが、そのオブジェクトが何であるのか判定することはできない。この状況では、本システムは、全ての可能なオブジェクトにわたって低い確率スコアを出力する。
【0011】
[019] オブジェクト検出104を実行するシステムは、このシステムが検出したオブジェクトを描写するソース画像の副画像106を出力する。例えば、複数の人物を示す画像では、このシステムは、フレームにおける人物の各々を検出することができる。これを
図2に示す。
図2において、世界の指導者の画像202がオブジェクト検出システムに供給され、検出されたオブジェクトを含む画像部分が、画像204においてボックスによって囲まれている。オブジェクト検出システムは、これらの人物を全て発見し、オブジェクト・マスク画像206に示す対応するオブジェクト・マスクがこの場面いっぱいに広がり、背景にこれらの人物を含む。この例は、オブジェクト検出システムが、画像における主要オブジェクトと重要度が低い、即ち、重要度が抹消的な(peripheral)オブジェクトとの間で、それ自体では、どうして区別できないかについて例示する。
【0012】
[020] オブジェクト・エンベッディング(object embedding)を生成するために、画像エンコーダを配備する(deploy)。本明細書において使用する場合、画像エンコーダ(image-encoder)とは、画像およびテキストを互換性のあるベクトル空間にエンコードするように訓練されたマルチモダル・ニューラル・ネットワークを指す。このような、ベクトル空間を潜在空間(latent spaces)と呼び、この潜在空間の中では、「同様の」(similar)ポイントが空間内において互いに近づくように、空間内のポイントが座標を有する。同様の定義は明示的で(explicit)ない。エンベッディングの判定は、互いに対する類似性が分かっている画像の大集合に対してニューラル・ネットワーク・モデルを訓練することによって行われる。画像をエンコードすることによって、このベクトル空間において、その画像に対する意味的エンベッディングを表すベクトルを生成する。潜在空間および意味的エンベッディングは、機械学習およびニューラル・ネットワークの分野では良く知られている。画像エンコーダの例には、以下が含まれる。カリフォルニア州サン・フランシスコのOpenAI社から入手可能な、対照的言語-画像予備訓練システム(CLIP)。Radford, A. et al.,による“Learning Transferable Visual Models From Natural Language Supervision”(自然言語監督からの学習転送可能な視覚モデル)、arXiv:2103.00020v1に記載されており、ここで引用したことによって、本願にもその内容全体が含まれるものとする。カリフォルニア州マウンテン・ビューのGoogle Research社からの言語解釈可能性ツール(LiT)。Tenney, A. et al.,による“The Language Interpretability Tool: Extensible, Interactive Visualizations and Analysis for NLP Models”(言語解釈可能性ツール:NLPモデルに対する拡張可能な相互作用的視覚化および分析)、arXiv:2008.05122v1に記載されており、ここで引用したことによって、本願にもその内容全体が含まれるものとする。ワシントン州、レッドモンドのMicrosoft Corp.社からのビジョン-言語タスクのためのオブジェクト-意味整合予備訓練(Oscar)。Li, X. et al.,による “Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks”(Oscar:ビジョン-言語タスクのためのオブジェクト-意味整合予備訓練)、arXiv:2004.06165に記載されており、ここで引用したことによって、本願にもその内容全体が含まれるものとする。
【0013】
[021] 本明細書において説明する方法では、画像エンコーダによってソース画像全体をエンコードし(108)、画像全体に対する画像エンベッディングを生成する(110)。このエンベッディングは、他の「同様の」画像、即ち、同様のコンテンツを描写する画像または同様の意図(intent)を有する画像に近い潜在空間座標に現れることを予測する(expect)ことができる。訓練されたニューラル・ネットワーク画像エンコーダ・モデルでは、エンベッディング空間において互いに近い画像は、訓練データ集合においてこれらと似ている画像に対するテキスト・キャプション(text caption)の類似性を反映する。一般に使用される類似性尺度は、2つの同一画像には100%の類似性を割り当て、2つの全く似ていない画像には10%の類似性を割り当て、意味的に類似すると見なされる画像には70%以上の類似性を割り当てる。2つの画像間における類似性は、G. Salton and C. Buckley, “Term-weighting Approaches in Automatic Text Retrieval” (自動テキスト検索における用語重み付け手法)Information Processing and Management, 1;24(5):513-23, Jan. 1988に記載されているように、多次元距離メトリックとしてまたはコサイン・メトリック(cosine metric)として判定することができる。この文献をここで引用したことにより、その内容全体が本願にも含まれるものとする。
【0014】
[022] 検出されたオブジェクトを描写する1組の副画像106の各部材も画像エンコーダによってエンコードされ(112)、副画像106の各々に対して画像エンベッディング114を生成する。次のステップにおいて、類似性判定116を実行し、この判定において、画像全体のエンベッディング110を、オブジェクト・エンベッディング114の各々と比較して、これらの相対的類似性を判定する。オブジェクト・エンベッディングの各々の画像全体のエンベッディングに対する類似度は、対応する画像部分において表されるオブジェクトの意味的関心度の尺度として使用される。種々の実施形態において、この類似性(similarity)は、1組の意味的関心度の重み(semantic interest weight)として表され、画像全体のエンベッディングのそれに最も類似するエンベッディングを有する画像部分が、最も高い重みを有する。オブジェクト・エンベッディング潜在空間において、2つのエンベッディング間の類似度(degree of similarity)は、これらのエンベッディング間における多次元距離に対応する。本明細書において使用する場合、意味的に重要なオブジェクトは、高い意味的顕著性(semantic saliency)を有するオブジェクトと呼ぶこともでき、これらの用語は、本明細書では、相互交換可能に使用されるものとする。高い意味的重要度、即ち、顕著性スコアを有するオブジェクトは、場面全体にとって重要であり、画像の意味的対象領域を含む。
【0015】
[023] 検出されたオブジェクトの各々の意味的重みは、オブジェクト・マスク画像118を生成することによって、図で表すことができ、オブジェクト・マスクの各々に対応するエリアは、対応するオブジェクトに割り当てられる意味的重みにしたがってカラー・コード化される。種々の実施形態において、画像118に示すように、マスクには白黒階調(shade of grey)が割り当てられ、オブジェクト・マスクに割り当てられる階調は、対応するオブジェクトの意味的重要度を示す。
図2に示す世界の指導者の画像の例では、説明した方法の結果が、中間階調(grey-scale-shaded)オブジェクト・マスク画像208として示されており、最も意味的重要度が高いオブジェクトは、最も明るい階調を有するオブジェクト・マスク214によって示されるバイデン大統領であると見なされ、2番目に重要なのは、次に明るいオブジェクト・マスク212が付けられたカナダのジャスティン・トルドー総理大臣であり、ドイツの首相、オラフ・ショルツは3番目に明るいオブジェクト・マスク210が付けられている。特定の実施形態では、オブジェクト・マスク画像は、意味的重みのようなテキスト、またはオブジェクトの各々に判定されている意味的重要度を示すアイコンを使用することもできる。
【0016】
[024] 一旦所与のソース画像に対するオブジェクト・マスクが生成され、それらの対応するオブジェクトの顕著性にしたがって順序付けされたなら、マスクおよびそれらのそれぞれの意味的スコアをソース画像と関連付ける。ソース画像のオブジェクト・マスクの各々に対する意味的スコアおよびそれらの対応するオブジェクトとの関連付けは、このデータをソース画像メタデータ内に含ませることによって実施することができる。ソース画像メタデータは、マスク毎に、マスク位置、平均画素値、画素値標準偏差、および低解像度マップを含むことができる。ある実施態様では、データは意味データベースに格納され、意味的情報がソース画像(source imagery)に連結される(keyed)。他の実施態様では、各ソース画像に対応する画像をセグメント化して格納し、各セグメントがオブジェクト・マスクおよびその意味的スコアに対応する。
【0017】
[025] 意味的対象領域の判定は、以下で説明するように、ビデオ圧縮、画像フォーマット変更、および色補正というような、種々の画像処理タスクを最適化するために使用することができる。最適化プロセスをし易くするために、ソース画像102、および各マスクの意味的重要度がタグ付けされたオブジェクト・マスク画像118、または意味的重要度にしたがって階調が付けられたオブジェクト・マスク画像118を、画像処理120を実行するシステムに入力する。
【0018】
[026]
図3、
図4、および
図5は、以上で説明したシステムがどのように実行するかについて、その例を示す。各場合において、これらの図は、ソース画像、オブジェクト検出システムによって検出されたオブジェクトを含む画像の部分を示すためにフレームが重ね合わされた画像、検出されたオブジェクトの空間的範囲(extent)に対応するオブジェクト・マスクを示す画像、および検出されたオブジェクトの各々に判定された意味的関心度にしたがって階調が付けられたオブジェクト・マスクを示し、階調が明るい程、オブジェクトの重要度は高くなる。
図3に示す例では、元の画像302は、クロスカントリー・オートバイ・レースにおける参加者が密集する場面を示し、先行する参加者が後ろに居る参加者を部分的に遮っている。このように密集する場面では、オブジェクト検出システムは、検出されたオブジェクトのオーバーレイ(overlay)がある画像304に示すように、参加者の多くを識別しており、こうして、対象候補領域を構成する多くの候補副画像を、画像エンコーダに供給する。対応するオブジェクト・マスクは、画像306において白で示され、画像308において、それらの意味的関心度にしたがって階調が付けられる。画像308において見られるように、本システムは、レースの先頭に立つ人のオートバイの関心度が最も高く、先頭の右側に非常に接近する競合のオートバイがそれに続くと判定した。このシステムは、ライダーを彼らのオートバイから区別することに成功しており、オートバイに割り当てられる重要度の方が高くなっている。
図4において、犬の演芸会(dog talent show)のソース画像402は、犬の所有者、彼女の犬、および背景にいる様々な人物を含む。画像404および406において示すように、これらの人物の各々がオブジェクト検出システムによって識別されている。画像408における意味的重要度に応じた階調によって、この画像の最も重要な様相(aspect)は犬であることを、本システムが識別するのに成功したことを示す。
図5において、ソース画像502は1つの近代的彫刻を特徴とする。この近代的彫刻の形状は、画像エンコーダを訓練するために使用された1組の画像において特徴となったいずれのオブジェクトとも全く異なってもよい。それにも拘わらず、検出されたオブジェクト画像504、オブジェクト・マスク画像506、および意味的重要度508による階調が付けられたオブジェクト・マスクの画像に示すように、本システムは、この近代的彫刻を、最も高い意味的重要度を有するものとして識別した。
【0019】
[027] これより、画像内において自動的に判定された意味的対象領域をどのように使用して、ビデオ編集の種々の態様を改善することができるか、および/または一層効率的にすることができるかについて、その例を説明する。これらには、例えば、ズームおよびパンニングおよびスキャンによって、組成(composition)を改良すること、例えば、色補正および色強調によって、明瞭さ(clarity)を高めること、および例えば、適応的圧縮を使用して、画像全体の品質を向上させることが含まれる。
【0020】
[028] 1つの応用では、ビデオ圧縮および静止画像圧縮の双方を含む、画像圧縮の効率および品質を改善するために、説明した方法を使用する。ビデオ圧縮では、デフォルトとして、エンコーダは、画像における全てのマイクロブロックを等しく扱い、1つのマイクロブロックは、通例、16×16画素のブロックから成るとする。説明した意味的対象領域の判定を使用することによって、エンコーダは、意味的対象領域の重み付けに応じて、圧縮ビット(comressed bits)を割り当てることができる。これは、場面全体に対して重要度が低いエリアにアーチファクトが増加することを犠牲にして、重要な領域において圧縮アーチファクトを減少させることによって、画像内における意味的に重要なエリアの品質を改善する効果を有する。例えば、1人以上の人物の顔を含む画像では、本システムは高い意味的重みを顔の表情に割り当てることができる。次いで、ビデオ圧縮システムをしかるべく対応させると、顔の表現を一層忠実に圧縮および解凍し、重要度が最も高い顔領域における圧縮アーチファクトを減少または解消することができる。圧縮された画像の品質の1つの尺度に、画素当たりのビット数(BPP:bits per pixel)がある。ここで、ビット数とは、クロミナンス成分を含む、圧縮された画像における総ビット数であり、画素数とはルミナンス成分におけるサンプル数である。0.25~0.5のBPP値を有する画像は、適度な品質であると見なされ、BPP=0.5~0.75を有する画像は非常に良い品質であると見なされ、BPP=0.75~1.5を有する画像は卓越した品質であると見なされ、BPP=1.5~2.0を有する画像は、大抵の場合元の画像とは区別できない。例えば、画像画素の10%を含む意味的対象領域を有する画像において、BPP=0.75を有する全体的圧縮画像を達成するためには、平均して0.75BPPになるように、意味的対象領域に対するBPPを2.0に設定し、画像の残りを0.61に設定すればよい。
【0021】
[029] 一般的なワークフローでは、マサチューセッツ州、バーリントンのAvid Technology,Inc.の製品である、Avid(登録商標)Media Composer(登録商標)のようなビデオ編集アプリケーションによって、ビデオ圧縮を実行する。
図6は、ビデオ編集アプリケーション内におけるメディア作成設定のためのユーザ・インターフェース・ダイアログ・ボックス602の模式的なスクリーンショットである。この図は、ビデオをビデオ編集アプリケーションにインポートするときに、意味的対象領域に基づいて、圧縮の最適化を選択するためのオプション604を示す。同様のダイアログ・ボックスは、キャプチャ・タブ606が選択されてメディア・キャプチャを実行するときに、更にミックスダウン(mixdown)およびトランスコード・タブ608が選択されてミキシング・ダウン(mixing down)およびメディアのトランスコードが実行されるときにも、ユーザに利用可能にしてもよい。
【0022】
[030] 他の応用では、アスペクト比を変更するときに画像をどのようにクロップするか決定するときに、意味的対象領域の自動判定を使用する。このプロセスは一般にパンニングおよびスキャン(pan and scan)と呼ばれている。このようなアスペクト比の変更が必要とされるのは、画像またはビデオ・クリップを、非線形ビデオ編集システムのようなメディア編集アプリケーションにインポートし、ソース画像またはビデオのアスペクト比とは異なるアスペクト比のディスプレイを有するプラットフォーム上に出力するために編集するときに多い。例えば、16×9のアスペクト比(横向き)で編集されたビデオを、スマートフォンのような特定のプラットフォーム上における再生のために、9×16のアスペクト比(縦向き)でエクスポートするのでもよい。この場合、左および右エッジの一方または双方にある素材(material)をクロップする必要がある。何をクロップするかの選択は、画像における最も重要なオブジェクトがクロッピング・プロセスにおいて失われないことを確保するように、意味的対象領域の判定によって誘導される。
【0023】
[031] 種々の実施態様において、本システムは、例えば、最も大きな意味的重みが割り当てられたオブジェクトを追跡し、クロップされた画像内にこれが保持されることを確保する、または水平方向寸法(horizontal dimension)に沿って画像の中心にできるだけ近く配置されることを確保することによって、最も重要なオブジェクトが画像を横切って水平に移動するに連れて、これを追いかけることができる。他の実施態様では、本システムは、上位2つ、3つ、または4つのオブジェクトというように、意味的に最も顕著なオブジェクトの中から数個の保持を最大化することを試す。種々の他の実施態様において、本システムは、意味的重要度の閾値、例えば、70%を使用し、この閾値を満たすまたは超える全てのオブジェクトを追跡し、これらのオブジェクトの水平位置の重心上に、クロップされた画像の中心を据える(center)。クロップされた画像の中に、意味的重要度に合わせて選択されたオブジェクトの全てを保持することができない場合、本システムは、最も高い意味的顕著性を有するオブジェクトを優先して、これらのオブジェクトの部分集合を保持しようとすることができる。本システムは、重要なオブジェクトの位置決めを最適化するために、画像をパンニングすることができる。クロップする量は、元の画像の解像度および目標のディスプレイの解像度によって決まる。例えば、犬と一緒にフリスビーをしている男性の写真では、本システムは、男性、犬、およびフリスビーを、クロップされるフレーム内に維持しようとすることが適切であると思われる。しかし、3つの顕著なオブジェクトを全て示すことができない場合、犬およびフリスビーだけを追いかけ、男性を切り取ることができる。
【0024】
[032]
図7は、ビデオ編集アプリケーション内部に設定値をインポートするためのユーザ・インターフェース・ダイアログ・ボックス702の模式的なスクリーンショットである。この図は、クロップされる画像内に意味的対象領域を含ませるように、異なるアスペクト比を有するフォーマットに画像をクロップする最適化を選択するためのオプション704を示す。このプロセスが実行されるのは、通常、1つのフォーマットのビデオまたは静止画像を、ソース画像のアスペクト比とは異なるアスペクト比のディスプレイ画面を有するデバイスに出力するために、第2フォーマットにする必要があるときである。
【0025】
[033] 意味的対象領域の自動判定を使用すると、色強調も部分的または全体的に自動化することができる。本システムは、識別された対象領域において画素値を分析し、RGB値の平均および標準偏差を計算する。色補正を実行するとき、意味的対象領域内にある値に対するコントラストの傾斜を強める(increase)ために、参照表における曲線を使用する。色強調は、ビデオおよび静止画像に対して実行することができる。ビデオを強調するとき、視聴者には不快になるおそれがある急激な変化を防止するために、連続するフレーム間で、適用される強調パラメータの変化を滑らかにする。このスムージングは、例えば、連続するフレーム間、または連続するフレーム群間におけるコントラストの傾斜に対するパラメータ値の変化率(percentage)または絶対変化量(absolute change)に関して指定することができる。種々の実施形態において、本システムは、意味的対象領域の判定によって重要と見なされた画像エリアにおけるコントラストを、自動的に高める。
図8は、ビデオ編集アプリケーション内における色補正モード設定のためのユーザ・インターフェース・ダイアログ・ボックス802の模式的スクリーンショットである。このインターフェースは、画像に対して色補正を実行するときに、この編集されている画像内において意味的対象領域におけるコントラストを高めることをユーザに可能にするオプション・ボックス804を含む。コントラスト強調は、意味的重要度の閾値を満たすまたは超過するオブジェクトのみに適用すればよい。閾値は、絶対的に設定してもよく、または所与のフレームにおいて処理されるオブジェクトの数に対する制限によって定めてもよい。例えば、本システムは、顕著性によって順序付けられた上位2~4つのオブジェクトのコントラストを自動的に強調することができる。その結果、画像の重要な部分における詳細が明らかとなる。
【0026】
[034]
図9は、画像における意味的対象領域の判定を実施し、この判定を画像処理を改良するために使用するシステムの上位ブロック図である。メディア編集アプリケーションは、非線形ビデオ編集アプリケーションであってもよく、メディア編集システム902上にホストされている。システム902は、スタンドアロン・ワークステーションまたはパーソナル・コンピュータのような汎用コンピュータでよく、あるいはクラウド内に位置するコンピューティング・リソースであってもよい。メディア編集アプリケーションは、静止画像およびビデオ画像を編集するときに関与する種々の機能を実行するために、複数のソフトウェア・モジュールを備えている。明確にするために、
図9は、本明細書において説明した方法を実施するときに直接関わるメディア編集アプリケーションのモジュールのみを示す。ソース画像904は、ローカルに格納することも、クラウドに格納することもでき、画像処理モジュール906に入力される。ソース画像は、静止画像、またはビデオ・ストリームを構成する画像のシーケンスでもよい。コマンド・プロセッサ・モジュール908は、メディア編集アプリケーションによって実行されるコマンドを処理する。コマンドは、ユーザから受けてもよく、またはスクリプトによって自動的に生成することもできる。意味的対象領域を判定するコマンド910を受けたとき、画像処理モジュール906はソース画像904をオブジェクト検出モジュール912に送る。オブジェクト検出モジュールは、先に説明したように、訓練されたニューラル・ネットワーク・モジュールによって実装することができる。オブジェクト検出システムは、オブジェクトを検出し、ソース画像内部で検出されたオブジェクトの空間範囲(spatial extent)を定めるオブジェクト・マスク画像を戻す。次いで、画像処理システムは元の画像を1組の副画像に分割する。各副画像は、元の画像の内、検出されたオブジェクトの1つを描写する部分を含む。次いで、副画像およびソース画像全体を画像エンコーディング・モジュール914に送る。画像エンコーディング・モジュール914は、先に論じたように、訓練されたニューラル・ネットワーク・モデルであってもよい。種々の実施態様において、オブジェクト検出モジュール912および画像エンコーディング・モジュール914は、オブジェクトを検出し、それらの意味的関心度レベルを判定するように訓練された1つのシステム上に実装される。画像エンコーディング・モジュールは、画像全体に対するエンベッディングだけでなく、副画像の各々に対するエンベッディングも返す。次いで、画像処理システムは、類似性判定を実行し、画像全体の「密接性」(closeness)に対する、これらのエンベッディングの密接性にしたがって、種々のオブジェクトの各々の意味的重要度を順序付ける。次いで、画像処理システムは、意味的対象領域情報がタグ付けされたソース画像を格納することができる。タグ付けソース画像は、メディア編集アプリケーションの内、先に説明した画像処理タスクを実行することができる他のモジュールにも利用可能にすることができる。ある実施態様では、先に説明したような種々の画像処理タスクは、GPU(図示せず)のような特殊目的ハードウェアによって加速させることもでき、または画像処理をクラウド・ベース・サービスによって実行することもできる。処理された画像916は、画像処理モジュール906によって出力される。
【0027】
[035] 本明細書において説明したシステムの種々のコンポーネントは、汎用コンピュータ・システムを使用して、コンピュータ・プログラムとして実装することができる。このようなコンピュータ・システムは、通例、情報を操作者に表示する出力デバイス、および入力を操作者から受け取る入力デバイスの双方に接続された主要ユニットを含む。主要ユニットは、一般に、相互接続メカニズムを介してメモリ・システムに接続されたプロセッサを含む。入力デバイスおよび出力デバイスも、相互接続メカニズムを介して、プロセッサおよびメモリ・システムに接続される。
【0028】
[036] 1つ以上の出力デバイスをコンピュータ・システムに接続することもできる。出力デバイスの例には、液晶ディスプレイ(LCD)、プラズマ・ディスプレイ、OLEDディスプレイ、視聴用めがねを必要とするディスプレイおよびめがねがいらないディスプレイを含む種々の立体視ディスプレイ、陰極線管、ビデオ投影システムおよびその他のビデオ出力デバイス、ラウドスピーカ、ヘッドフォンおよびその他のオーディオ出力デバイス、プリンタ、ネットワーク・インターフェース・デバイスを含む、低または高帯域幅ネットワーク上で通信するためのデバイス、ケーブル・モデム、ならびにディスク、テープ、フラッシュ・メモリを含むソリッド・ステート媒体のような記憶デバイスが含まれる
が、これらに限定されるのではない。1つ以上の入力デバイスをコンピュータ・システムに接続することもできる。入力デバイスの例には、キーボード、キーパッド、トラック・ボール、マウス、ペン/スタイラスおよびタブレット、タッチスクリーン、カメラ、通信デバイス、ならびにデータ入力デバイスが含まれるが、これらに限定されるのではない。本発明は、コンピュータ・システムと組み合わせて使用される特定の入力または出力デバイスにも、本明細書において説明したデバイスにも限定されない。
【0029】
[037] コンピュータ・システムは、汎用コンピュータ・システムでもよく、汎用コンピュータ・システムは、コンピュータ・プログラミング言語、スクリプティング言語、またはアセンブリ言語でさえも使用して、プログラム可能である。また、コンピュータ・システムは、特別にプログラミングされた特殊目的ハードウェアでもよい。汎用コンピュータ・システムでは、プロセッサは通例市販のプロセッサである。また、汎用コンピュータは、通例、オペレーティング・システムを有する。オペレーティング・システムは、他のコンピュータ・プログラムの実行を制御し、スケジューリング、デバッギング、入力/出力制御、アカウンティング(accounting)、コンパイル(compilation)、ストレージ割り当て、データ管理およびメモリ管理、ならびに通信制御および関連サービスに対応する(provide)。コンピュータ・システムは、ローカル・ネットワークおよび/またはインターネットのようなワイド・エリア・ネットワークに接続することができる。接続されたネットワークは、コンピュータ上で実行するプログラム命令、ビデオ・データ、静止画像データ、またはオーディオ・データのようなメディア・データ、メタデータ、メディア組成についての報告(review)および承認情報、メディア・アノテーション(media annotation)、および他のデータを、コンピュータ・システムに転送すること、およびコンピュータ・システムから転送することができる。
【0030】
[038] メモリ・システムは、通例、コンピュータ読み取り可能媒体を含む。この媒体は、揮発性または不揮発性、書き込み可能または書き込み不可、および/または再書き込み可能、もしくは再書き込み不可でもよい。メモリ・システムは、通例、データを二進形態で格納する。このようなデータは、マイクロプロセッサによって実行されるアプリケーション・プログラム、またはディスク上に格納されておりアプリケーション・プログラムによって処理される情報を定めることができる。本発明は、特定のメモリ・システムに限定されるのではない。ビデオおよびオーディオのようなタイム・ベースト・メディア(time-based media)は、磁気、光、またはソリッド・ステート・ドライブ上に格納し、これらから入力することができる。これらのドライブは、ローカルなディスクまたはネットワーク接続ディスク(network attached disk)のアレイも含むことができる。
【0031】
[039] 本明細書において説明したようなシステムは、ソフトウェア、ハードウェア、ファームウェア、またはこれら3つの組み合わせで実装することができる。このシステムの種々のエレメントは、個々にまたは組み合わせてのいずれかで、1つ以上のコンピュータ・プログラム製品として実装することができる。コンピュータ・プログラム製品内では、コンピュータ・プログラム命令が、コンピュータによる実行のために、非一時的コンピュータ読み取り可能媒体上に格納されるか、または接続されているローカル・エリア・ネットワークまたはワイド・エリア・ネットワークを通じて、コンピュータ・システムに転送される。プロセスの種々のステップは、コンピュータがこのようなコンピュータ・プログラム命令を実行することによって、実行することができる。コンピュータ・システムは、マイクロプロセッサ・コンピュータ・システムでもよく、またはコンピュータ・ネットワーク上で接続されている複数のコンピュータを含んでもよく、またはクラウド内に実装することもできる。本明細書において説明したコンポーネントは、コンピュータ・プログラムの別個のモジュールでもよく、または別個のコンピュータ・プログラムでもよい。 これらのコンピュータ・プログラムは、別個のコンピュータ上で動作可能な場合もある。これらのコンポーネントによって生成されたデータは、メモリ・システムに格納することができ、または搬送波信号のような種々の通信媒体によって、コンピュータ・システム間で送信することができる。
【0032】
[040] 以上、実施形態例について説明したが、以上の説明は単なる例示であって限定ではなく、一例として提示したに過ぎないことは、当業者には明白なはずである。多数の変更およびその他の実施形態も、当業者の範囲内のことであり、発明の範囲に該当するものとして考えることとする。
【外国語明細書】