IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 三星ディスプレイ株式會社の特許一覧

特開2024-133013欠落不対画像および表形データの多重モード融合方法およびシステム
<>
  • 特開-欠落不対画像および表形データの多重モード融合方法およびシステム 図1
  • 特開-欠落不対画像および表形データの多重モード融合方法およびシステム 図2
  • 特開-欠落不対画像および表形データの多重モード融合方法およびシステム 図3
  • 特開-欠落不対画像および表形データの多重モード融合方法およびシステム 図4
  • 特開-欠落不対画像および表形データの多重モード融合方法およびシステム 図5
  • 特開-欠落不対画像および表形データの多重モード融合方法およびシステム 図6
  • 特開-欠落不対画像および表形データの多重モード融合方法およびシステム 図7
  • 特開-欠落不対画像および表形データの多重モード融合方法およびシステム 図8
  • 特開-欠落不対画像および表形データの多重モード融合方法およびシステム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024133013
(43)【公開日】2024-10-01
(54)【発明の名称】欠落不対画像および表形データの多重モード融合方法およびシステム
(51)【国際特許分類】
   G06N 3/09 20230101AFI20240920BHJP
   G06F 18/15 20230101ALI20240920BHJP
【FI】
G06N3/09
G06F18/15
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2024040024
(22)【出願日】2024-03-14
(31)【優先権主張番号】63/452,638
(32)【優先日】2023-03-16
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】18/339,075
(32)【優先日】2023-06-21
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】512187343
【氏名又は名称】三星ディスプレイ株式會社
【氏名又は名称原語表記】Samsung Display Co.,Ltd.
【住所又は居所原語表記】1, Samsung-ro, Giheung-gu, Yongin-si, Gyeonggi-do, Republic of Korea
(74)【代理人】
【識別番号】110002619
【氏名又は名称】弁理士法人PORT
(72)【発明者】
【氏名】チェン,キセン
(72)【発明者】
【氏名】カウシク バラクリシュナン
(72)【発明者】
【氏名】ク,シュフイ
(72)【発明者】
【氏名】リ,ジャンファン
(57)【要約】
【課題】 欠落および/または不対様式を有するデータセットから効果的に学習することができる多重モード融合遂行方法を提供する。
【解決手段】 本発明の一実施形態による方法は、少なくとも一つの不対様式行と少なくとも一つの対様式行を含むデータ行を含むデータセットを提供し(但し、前記少なくとも一つの対様式行は第1様式と第2様式の両方ともを含み、前記少なくとも一つの不対様式行は前記第1様式を含む)、様式専用符号器によって、前記対様式の第2様式からエンベディングを補間することによって前記少なくとも一つの不対様式行を帰属させ、単一モード予測および二重モード予測に対する帰属に基づいて前記様式専用符号器を潜在空間で訓練し、そして前記単一モード予測および前記二重モード予測に対する信頼度値を生成することを含む。
【選択図】 図8
【特許請求の範囲】
【請求項1】
少なくとも一つの不対様式行(row of unpaired modality)と少なくとも一つの対様式行(row of paired modality)を含むデータ行を含むデータセットを提供し(但し、前記少なくとも一つの対様式行は第1様式と第2様式の両方ともを含み、前記少なくとも一つの不対様式行は前記第1様式を含む)、
様式専用符号器(modality-specific encoder)によって、前記対様式の第2様式からエンベディング(embedding)を補間(interpolating)することによって前記少なくとも一つの不対様式行を帰属させ、
単一モード予測(unimodal prediction)および二重モード予測(bimodal prediction)に対する帰属(imputation)に基づいて前記様式専用符号器を潜在空間(latent space)で訓練し、そして
前記単一モード予測および前記二重モード予測に対する信頼度値(confidence value)を生成すること
を含む方法。
【請求項2】
前記信頼度値を生成することは、前記単一モード予測および前記二重モード予測に対するシャプリー基盤説明(Shapley-based explanation)を計算することを含む、請求項1に記載の方法。
【請求項3】
前記シャプリー基盤説明を計算することは、前記単一モード予測の影響(impact)と前記二重モード予測の影響を所定しきい値と比較する段階を含む、請求項2に記載の方法。
【請求項4】
前記生成された信頼度値に基づいて前記単一モード予測または前記二重モード予測のうちの一つを選択することをさらに含む、請求項3に記載の方法。
【請求項5】
前記第2様式は前記不対様式から欠落した様式であり、
前記エンベディングを補間することは、前記第2様式のK個の以前項目(prior)を選択することを含み、
前記K個の以前項目は、観察様式(observed modality)に最も近いエンベディングを有する前記少なくとも一つの対様式行のK個の標本の前記第2様式のエンベディングである、請求項1に記載の方法。
【請求項6】
前記K個の標本と前記K個の以前項目の間の交差注意(cross-attention)を取ることによって前記K個の以前項目の加重合計を計算することをさらに含む、請求項5に記載の方法。
【請求項7】
前記第1様式は画像様式(image modality)に対応し、前記第2様式は表様式(tabular modality)に対応するか、または
前記第1様式は表様式に対応し、前記第2様式は画像様式に対応する、請求項1に記載の方法。
【請求項8】
視覚認識変換器(vision transformer)を行うことによって前記様式専用符号器を画像様式に対して訓練させることをさらに含む、請求項1に記載の方法。
【請求項9】
特性-トークン化変換器(feature-tokenizer transformer)を行うことによって前記様式専用符号器を表形データ様式に対して訓練させることをさらに含む、請求項1に記載の方法。
【請求項10】
メモリ、そして
プロセッサー
を含み、
前記プロセッサーは前記メモリに記憶された命令を実行して、
少なくとも一つの不対様式行(row of unpaired modality)と少なくとも一つの対様式行(row of paired modality)を含むデータ行を含むデータセットを提供し(但し、前記少なくとも一つの対様式行は第1様式と第2様式の両方ともを含み、前記少なくとも一つの不対様式行は前記第1様式を含む)、
様式専用符号器(modality-specific encoder)によって、前記対様式の第2様式からエンベディング(embedding)を補間(interpolating)することによって前記少なくとも一つの不対様式行を帰属させ、
単一モード予測(unimodal prediction)および二重モード予測(bimodal prediction)に対する帰属(imputation)に基づいて前記様式専用符号器を潜在空間(latent space)で訓練し、
前記単一モード予測および前記二重モード予測に対する信頼度値(confidence value)を生成する
システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は深層学習に関するものであって、より詳しくは、欠落不対画像および表形データを多重モード融合する方法およびシステムに関するものである。
【0002】
本出願は2023年3月16日に米国特許庁に出願した米国特許出願番号第63/452,638号を優先権主張し、ここに引用することによってこの出願の全体内容を本願に含む。
【背景技術】
【0003】
TVおよびモバイル表示装置産業は数年にわたって急速に成長している。新たな種類の表示パネルモジュールと生産方法が考案されるにつれて、向上した装置と品質管理方法を使用して生産過程で品質を維持する必要があるが、これは表示パネルの欠陥によって過度な費用と損失が発生することがあるためである。生産過程で発生する欠陥を識別するための厳密な監視を通じてこのような費用と損失を減らすことができる。
【0004】
例えば、生産過程で発生する欠陥のうちの一部は修理可能である。このような欠陥による損失を最少化するために、センサー装置を使用して表示パネルと関連する特定データを収集することによって修理可能欠陥を識別することができる。しかし、大規模生産および潜在的欠陥の微細な大きさによっては、人間運営者がこのような欠陥を捜し出すことは容易でない。その代わりに、多くの現代技術はコンピュータを使用して様々な種類のセンサーからセンサーデータを収集して生産された表示装置の潜在的欠陥を判断する。例えば、光学カメラや赤外線カメラなどのセンサーを使用して表示パネルの多様な部分の画像を捕捉し、コンピュータ視覚認識(computer vision)を使用して特定特徴および/または表示パネルの特性を識別し、次いで当該表示パネルが生産標準および公差(tolerance)に従って正確に生産されたかどうかを決定する。他の例として、レーザを使用して表示パネルの多様な側面を測定して表示パネルが予想寸法に従って特定公差内で製造されたかを確認することができる。したがって、コンピュータはこのようなセンサーデータを使用して生産過程での欠陥を自動的に判断してこのような欠陥を修理するか欠陥を起こす生産条件または機械を修正してそれ以上欠陥が発生しないようにすることができる。
【0005】
したがって、表示パネルに関して収集したセンサーデータは大抵二つの様式(modality)、即ち、画像と表形データ(tabular data)を含むことができる。画像は例えば表示パネルの上面を捕捉したカメラから提供され、表は測定値(measurement)[例えば、:寸法(dimension)]およびその他関連情報を記録する。修理可能な欠陥と修理不可能な欠陥を効果的に区分するために、多重モード(multimodal)分類器を使用して両側モードからの情報を融合することができる。言い換えれば、一つの画像は当該表形データと関連していて、人工知能(AI:artificial intelligence)を使用するコンピュータソフトウェアをこのような融合モデル(fused model)を使用して訓練させて欠陥の有無を判断するようにする。さらに具体的には、一部多重モード融合技術は完全対様式(complete and paired modalities)に依存し、この技術で各画像は表形データの該当行と対を成す。しかし、欠落記録(missing recording)または異種(heterogeneous)ソースなどのような理由によってモード訓練(modal training)用完全対モードデータセット(modal-complete and paired dataset)を得にくい場合が多い。一つのデータセットは完全対モードデータと残りデータの組み合わせであり、完全対モードデータの比率が小さいことが一般的である。ここで、残りデータは表形データが抜け落ちた画像であるかまたは画像が抜け落ちた表形データである。したがって、見本標本(test sample)に対して常に二つの様式全てを入手することができると見るのは難しい。したがって、高い正確度の分類のために、欠落および/または不対(unpaired)様式を有するデータセットから効果的に学習することができテスト-時間欠落様式(test-time missing modality)にも強力な多重モード融合遂行方法が必要である。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明が解決しようとする課題は、欠落および/または不対様式を有するデータセットから効果的に学習することができる多重モード融合遂行方法を提供することである。
【課題を解決するための手段】
【0007】
本発明の一実施形態による方法は、少なくとも一つの不対様式行(row of unpaired modality)と少なくとも一つの対様式行(row of paired modality)を含むデータ行を含むデータセットを提供し(但し、前記少なくとも一つの対様式行は第1様式と第2様式の両方ともを含み、前記少なくとも一つの不対様式行は前記第1様式を含む)、様式専用符号器(modality-specific encoder)によって、前記対様式の第2様式からエンベディング(embedding)を補間(interpolating)することによって前記少なくとも一つの不対様式行を帰属させ、単一モード予測(unimodal prediction)および二重モード予測(bimodal prediction)に対する帰属(imputation)に基づいて前記様式専用符号器を潜在空間(latent space)で訓練し、そして前記単一モード予測および前記二重モード予測に対する信頼度値(confidence value)を生成することを含む。
【0008】
前記信頼度値生成することは、前記単一モード予測および前記二重モード予測に対するシャプリー基盤説明(Shapley-based explanation)を計算することを含むことができる。
【0009】
前記シャプリー基盤説明計算することは、前記単一モード予測の影響(impact)と前記二重モード予測の影響を所定しきい値と比較することを含むことができる。
【0010】
前記方法は、前記生成された信頼度値に基づいて前記単一モード予測または前記二重モード予測のうちの一つを選択することをさらに含むことができる。
【0011】
前記第2様式は前記不対様式の欠落様式であり、前記エンベディング補間することは前記第2様式のK個の以前項目(prior)を選択することを含み、前記K個の以前項目は前記少なくとも一つの不対様式行で観察様式(observed modality)の最も近いエンベディングを有するK個の標本の前記第2様式エンベディングであってもよい。
【0012】
前記方法は、前記K個の標本と前記K個の以前項目の間の交差注意(cross-attention)を取ることによって前記K個の以前項目の加重合計を計算することをさらに含むことができる。
【0013】
前記第1様式は画像様式(image modality)に該当し、前記第2様式は表様式(tabular modality)に該当し得る。
【0014】
前記第1様式は表様式に該当し、前記第2様式は画像様式に該当し得る。
【0015】
前記方法は、視覚認識変換器(vision transformer)を行うことによって前記様式専用符号器を画像様式に対して訓練させることをさらに含むことができる。
【0016】
前記方法は、特性-トークン化変換器(feature-tokenizer transformer)を行うことによって前記様式専用符号器を表形データ様式に対して訓練させることをさらに含むことができる。
【0017】
本発明の一実施形態によるシステムは、メモリ、そしてプロセッサーを含み、前記プロセッサーは前記メモリに記憶された命令を実行して、少なくとも一つの不対様式行(row of unpaired modality)と少なくとも一つの対様式行(row of paired modality)を含むデータ行を含むデータセットを提供し(但し、前記少なくとも一つの対様式行は第1様式と第2様式の両方ともを含み、前記少なくとも一つの不対様式行は前記第1様式を含む)、様式専用符号器(modality-specific encoder)によって、前記対様式の第2様式からエンベディング(embedding)を補間(interpolating)することによって前記少なくとも一つの不対様式行を帰属させ、単一モード予測(unimodal prediction)および二重モード予測(bimodal prediction)に対する帰属(imputation)に基づいて前記様式専用符号器を潜在空間(latent space)で訓練し、前記単一モード予測および前記二重モード予測に対する信頼度値(confidence value)を生成する。
【0018】
前記信頼度値生成は、前記単一モード予測および前記二重モード予測に対するシャプリー基盤説明(Shapley-based explanation)を計算することを含むことができる。
【0019】
前記シャプリー基盤説明計算は、前記単一モード予測の影響(impact)と前記二重モード予測の影響を所定しきい値と比較することを含むことができる。
【0020】
前記方法は、前記生成された信頼度値に基づいて前記単一モード予測または前記二重モード予測のうちの一つを選択することをさらに含むことができる。
【0021】
前記第2様式は前記不対様式の欠落様式であり、前記エンベディング補間することは前記第2様式のK個の以前項目(prior)を選択することを含み、前記K個の以前項目は前記少なくとも一つの不対様式行で観察様式(observed modality)の最も近いエンベディングを有するK個の標本の前記第2様式エンベディングであってもよい。
【0022】
前記プロセッサーは前記メモリに記憶された命令を実行して、前記K個の標本と前記K個の以前項目の間の交差注意(cross-attention)を取ることによって前記K個の以前項目の加重合計を計算することができる。
【0023】
前記第1様式は画像様式(image modality)に該当し、前記第2様式は表様式(tabular modality)に該当し得る。
【0024】
前記第1様式は表様式に該当し、前記第2様式は画像様式に該当し得る。
【0025】
前記プロセッサーは前記メモリに記憶された命令を実行して、視覚認識変換器(vision transformer)を行うことによって前記様式専用符号器を画像様式に対して訓練させることができる。
【0026】
前記プロセッサーは前記メモリに記憶された命令を実行して、特性-トークン化変換器(feature-tokenizer transformer)を行うことによって前記様式専用符号器を表形データ様式に対して訓練させることができる。
【発明の効果】
【0027】
このようにすることによって欠落および/または不対様式を有するデータセットから効果的に学習することができる。
【図面の簡単な説明】
【0028】
図1】本発明の一実施形態による画像および表形データを含む捕捉センサーデータの例である。
図2】本発明の一実施形態による多重モード深層学習モデルを通過するセンサーデータの例である。
図3】それぞれ本発明の一実施形態による画像事前訓練段階のブロック図の例および表事前訓練段階のブロック図の例である。
図4】それぞれ本発明の一実施形態による画像事前訓練段階(image pre-training stage)のブロック図の例および表事前訓練段階(tabular pre-training stage)のブロック図の例である。
図5】本発明の一実施形態による欠落様式帰属過程を示したブロック図である。
図6】本発明の一実施形態による検査段階のブロック図の例である。
図7】本発明の一実施形態による訓練および推論枠組みのブロック図の例である。
図8】本発明の一実施形態によって欠落不対画像および/または表様式を融合する方法を示したフローチャートである。
図9】本発明の一実施形態による通信網環境内にある電子装置のブロック図である。
【発明を実施するための形態】
【0029】
以下の詳細な説明で、本発明を完全に理解することができるように多くの具体的な項目を提示する。しかし、このような具体的項目がなくても本発明の特徴を実施することができるのを当業者には理解できるはずである。他の事例として、本発明の要旨を曖昧にしないためによく知られた方法、順序、構成要素および回路については詳細に説明しない。
【0030】
本明細書全体で「一実施形態」に関する言及はその実施形態について説明した特定の特徴(feature)、構造(structure)または特性(characteristic)がここで説明する少なくとも一つの実施形態に含まれるということを意味する。したがって、「一実施形態で」、「一実施形態では」または「一実施形態によれば」という文句(または類似の意味を有する他の文句)が明細書全体の多様なところに現れても全て同一の実施形態を言及するのではない。また、一つ以上の実施形態で特定の特徴、構造および特性が適切に結合できる。これと関連してここで使用する「例示の(exemplary)」という単語は「例示、事例、実例、例などとして使われる(serving as an example、instance、or illustration)」ことを意味する。ここで「例示の(exemplary)」ものと説明する実施形態(embodiment)が必ずしも他の実施形態に比べて好ましいかまたは有利であると解釈してはならない。また、一つ以上の実施形態で特定特徴、構造または特性を適切に結合することができる。また、脈絡によって単数用語が対応する複数形態を含むことができ、複数用語が対応する単数形態を含むことができる。同様に、ハイフンでつながれた用語(hyphenated term)[例えば、「2-次元(two-dimensional)」、「8-ビット(8-bit)」、「画素-固有(pixel-specific)」など]は、これに対応するハイフン省略型(non-hyphenated version)[例えば、「2次元(two dimensional)」、「8ビット(8bit)」、「画素固有(pixel-specific)」など]とたまに換えて使用することができ、英語大文字で始まる項目(capitalized entry)(例えば、「Counter Clock」、「Row Select」、「PIXOUT」など)は、これに対応する非大文字型(non-capitalized version)(例えば、「counter clock、「row select」、「pixout」など)と換えて使用することができる。このような間欠的交替使用を互いに符合しないと見なしてはならない。
【0031】
また説明の脈絡によって、一つの用語が該当する複数の形態を含むことができ、複数の用語が該当する一つの形態を含むこともできる。ここで図示し説明する[構成図(component diagram)を含む]様々の図面は例示を目的にして提示したものに過ぎず、一定比率で拡大/縮小して描いたものではない。例えば、明確性のために一部構成要素の大きさを他の構成要素に比べて誇張することもある。また、図面符号は、不適切でない限り、同一/対応または類似の構成要素を示すように様々の図面で繰り返して使用した。
【0032】
ここで使用された用語は特定実施形態を説明する目的で使用するものに過ぎず、本発明を制限しようとするものではない。ここで数を特に言及しなければ単数または複数の場合を全て含む。ある特徴、段階、動作、部分、成分、構成要素などを「含む」という表現は当該部分以外に他の特徴、段階、動作、部分、成分、構成要素なども含むことができるということを意味する。
【0033】
構成要素(element)または層(階)(layer)が他の構成要素または層(階)「の上に」あるかまたはこれらと「連結」または「結合」されていると記載する場合、他の構成要素または層(階)真上にあるかまたは直接連結または結合されている場合だけでなく、中間にまた他の構成要素または層(階)が挟まれている場合も含む。しかし、構成要素または層(階)が他の構成要素または層(階)「真上に」あるかまたはこれらと「直接連結」または「直接結合」されていると記載すれば、中間にまた他の構成要素または層(階)が挟まれていないということを意味する。明細書全体にわたって同一または類似の構成要素については同一図面符号を付けた。ここで「および/または」という表現は羅列されたもののうちの一つまたは二つ以上の全ての組み合わせを含む。
【0034】
「第1」、「第2」などの用語を先行名詞に対する修飾語として使用するが、明確に定義しない限り(例えば、空間的、時間的、論理的など)ある類型の配置を意味するのではない。また、二つ以上の図面で同一または類似の機能を有する部分(part)、部品(component)、ブロック(block)、回路(circuit)、単位(unit)、モジュール(module)を同一の図面符号で示すことができる。しかし、このような使用は図示を簡便にし説明を簡単にするためのものに過ぎず、このような部品または単位の具体的構成または構造が全ての実施形態で同一であるかまたは同一符号で示す部分/モジュールが一部実施形態を実現する唯一の方法であるということを意味しない。
【0035】
別段に定義しない限り、ここで使用する(技術的、科学的用語を含む)全ての用語は本発明の属する技術分野における通常の知識を有する者が一般に理解するものと同一の意味を有する。ここで明らかに定義しない限り、一般に使用される辞典で定義された用語などの用語は関連技術分野で使用する意味と一致する意味を有すると解釈しなければならず、理想化されるかまたは過度に形式的な意味に解釈されないことと理解しなければならない。
【0036】
ここで「モジュール(module)」という用語はモジュールと関連してここで説明する機能を提供するソフトウェア(software)、ファームウエア(firmware)および/またはハードウェア(hardware)の任意の組み合わせを示す。例えば、ソフトウェアはソフトウェアパッケージ(software package)、コードおよび/または命令集合または命令で体現/実施することができ、ここで説明する実施で使用する「ハードウェア」という用語は、例えば、アセンブリー(assembly)、ハードウェア内蔵回路(hardwired circuitry)、プログラム可能回路(programmable circuitry)、状態機械(state machine)回路および/またはプログラム可能回路が実行する命令を記憶するファームウエアなど単独またはこれらの組み合わせを含むことができる。モジュールは、例えば、集積回路(IC:integrated circuit)、SoC(system on-a-chip)、アセンブリーなど(しかし、これに限定されない)さらに大きなシステムの一部を成す回路で集合的または個別的に体現/実施できる。
【0037】
図1は、画像および表形データを含む捕捉センサーデータ(captured sensor data)の例を示す。さらに詳細に説明すれば、一部データ行は画像様式(image modality)を含み、一部データ行は表形データ様式(tabular data modality)[または表様式(tabular modality)]を含み、一部データ行は画像および表形データ様式を全て含む。したがって、画像および表形データを全て含む行は対様式(paired modality)または完全様式(complete modality)と言える。本明細書で「対様式」、「完全様式」および「完全対様式(completely paired modality)」という用語を互いに換えて使用することができる。一方、一部行は画像様式または表様式がないかまたは抜け落ちている。このような行は不対様式(unpaired modality)または不完全様式(incomplete modality)と言える。しかし、センサーが画像データおよび当該表形データの両方ともを常に捕捉するのではないため、捕捉センサーデータには多くの不対様式が含まれる。
【0038】
このような捕捉センサーデータが深層学習モデルのモデルデータセットとして使用されれば、一部技術は不対様式を使用することができない。その代わりに、多くの技術は対様式のみを使用することができ、これにより不対様式は役に立たなくなることがある。したがって、このような対様式要件を達成するための一つの方法は、不完全標本(即ち、不対様式)を無視するかまたは捨てることである。しかし、このようにすれば、既に収集したデータを大量浪費するようになる。この要件を達成するための他の方法は、欠落様式を0または平均値で代置することである。しかし、この方法は画像様式など複合様式(complex modality)に対して難しい過程になるはずである。この要件を達成するための他の方法は、当該行の観察された様式(observed modality)(例えば、表形データ様式が抜け落ちる場合、画像様式、またはその反対)から欠落様式を生成することである。しかし、この技術の短所は、様式の間の相互関係に過度に依存するため、費用が多くかかり情報より雑音がさらに多く入ることがあるということである。したがって、欠落様式があるモデルデータセットを使用するために、浪費がさらに少なく、費用がさらに安く、雑音が少なく発生する向上した技術が必要である。
【0039】
先に言及したように、センサーデータが欠落様式を有することが頻繁であるとしても、多くのモデルは画像および表現データ様式の両方ともで訓練できる。欠落様式があるセンサーデータで検査する間にこのようなモデルを使用すれば、これらモデルがこのようなクエリー標本(query sample)を処理する程度に十分に堅固でないことが判明する。図2はこのような一例を示すものであって、多重モード訓練を受けたモデル(multimodal trained model)を完全様式一行、表形データ様式欠落一行、そして画像様式欠落一行を有するクエリー標本と共に使用する。このような場合、検査中に欠落様式が帰属されても定量的な説明が生成されない。
【0040】
以下、本発明の様々の実施形態によって欠落または不対様式があるデータで多重モード欠陥分類器を訓練させるための効果的、効率的枠組みを構築する技術について説明する。このような枠組みは全てのデータに対する表現(representation)を生成するのに効果的なようにモデルを訓練することによって構築できる。欠落様式は対様式から得ることができるデータを使用することによって効率的に帰属できる。この過程で、様式が対様式として融合できる。一応枠組みが生成されれば、単一モード予測と多重モード(例えば、二重モード)予測の両方ともに効果的なようにモデルを訓練することによって、欠落様式がある検査標本に対する強力な予測を達成することができる。したがって、効果的な枠組みを構築し単一モード予測と多重モード予測の両方ともを生成することによって、欠落様式がある検査標本に対するモデル予測に関する定量的説明を得ることができる。即ち、二つの様式(例えば、画像および表形データ)を結合する理由と方法について説明することができる定量的測定、そして結合された予測の信頼度要因が生成できる。
【0041】
図3および図4はそれぞれ、本発明の一実施形態による画像事前訓練段階(image pre-training stage)のブロック図の例および表事前訓練段階(tabular pre-training stage)のブロック図の例である。これによれば、図3の画像事前訓練段階306は例えば、Kaiming Heなどの論文[He, Kaiming, et al. 「Masked autoencoders are scalable vision learners.」 Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.](ここに引用することによってこの論文の全体内容を本願に含む)に記載された視覚認識変換器(vision transformer)技術など再建事前訓練画像モデル(reconstructive pre-training image model)を符号器(encoder)308として使用することができる。したがって、符号器308は画像の表現(representation)またはエンベディング(embedding)を生成するように訓練できる。本発明の一実施形態によれば、視覚認識変換器技術は原本画像(original image)302の約75%のパッチ(patch)を無作為に隠し(304)、符号器308は符号器出力で隠したパッチ(masked patch)の予測を生成する310。その次に、復号器(decoder)312を使用して原本画像302の形態を最もよく示すように共に画像314を生成することができる。したがって、画像再建符号器308は隠された入力画像を再建するようにこの事前訓練段階で訓練できる。この事前訓練段階終了後に、符号器308を今訓練し、符号器308を動作(例えば、表示パネル欠陥分類システムを動作させる時)に今使用することができる。言い換えれば、隠し(masking)304または復号器312をそれ以上使用しない。
【0042】
本発明の他の実施形態によれば、図4の表事前訓練段階ではDara Bahriなどの論文[Bahri, Dara, et al. 「Scarf: Self-Supervised Contrastive Learning using Random Feature Corruption.」International Conference on Learning Representations. 2021.]およびJinsung Yoonなどの論文[Yoon, Jinsung, et al. 「Vime: Extending the success of self-and semi-supervised learning to tabular domain.」 Advances in Neural Information Processing Systems 33 (2020): 11033-11043.](ここに引用することによってこの論文の全体内容を本願に含む)に記載されたScarfおよびVime技術を結合することによって表形モデルを訓練させ、特性-トークン化変換器(feature-tokenizer transformer)を表の表現またはエンベディングを生成するように表形符号器として訓練させる。特性-トークン化変換器技術に対する詳細な内容はYury Gorishniyなどの論文[Gorishniy, Yury, et al. 「Revisiting deep learning models for tabular data.」 Advances in Neural Information Processing Systems 34 (2021): 18932-18943.](ここに引用することによってこの論文の全体内容を本願に含む)に開示されている。したがって、値がある表形標本(table samples with values)の無作為損傷項目(randomly corrupt entry)はその限界確率(marginal probability)によって選ばれ(draw)、and多段階認識(MLP:multilevel perception)復号器を使用して比較および雑音消去を通じて学習する。したがって、図4に示したように、特性-トークン化変換器など符号器408は無作為損傷された404原本表形入力(original tabular input)402を取り、符号器408の出力は原本表形入力を再建412しようとする努力の一環として復号器410によって復号化される。図3の画像符号器のように、この事前訓練段階終了後に、表形符号器408を今訓練し、符号器408を[画像符号器308と共に]動作(例えば、表示パネル欠陥分類システムを動作させる時)に今使用することができる。言い換えれば、損傷器(corruptor)404または復号器410をそれ以上使用しない。
【0043】
事前訓練段階を終えると、画像様式用モデル符号器と表様式用モデル符号器は欠陥分類などの動作に使用する準備ができたのである。したがって、符号器がデータセットを例えば画像および表形データなどの原始情報(raw information)を収集するセンサーから受信した時、そのデータセットは欠落様式であり得る。即ち、データセットの一部行は画像様式のみを含むかまたは表様式のみを含むことができ、一部行は画像様式と表様式の両方ともを含む完全対を含むことができる。本発明の一実施形態によれば、欠落様式は潜在空間(latent space)に帰属できるが、これは欠落エンベディングを他の観察様式(observed modality)から生成する代わりに、既存の完全対様式のうちの同一な様式の他のエンベディングを補間することによって帰属させるのである。言い換えれば、完全対様式を有する他のデータ行で該当する同一の様式からエンベディングを補間することによって帰属を行う。
【0044】
図5は、本発明の一実施形態による欠落様式帰属過程を示したブロック図である。ここで、データセット502は、画像様式または表様式が抜け落ちた不完全様式であってもよい。したがって、標本に特定様式(emissing)がなければ、対データ(paired data)からK個の以前項目(prior)を選択することができる。例えば、表様式が欠落様式であれば、K個の完全対様式標本からK個の以前項目を選択し(504)、K個の標本から画像様式用エンベディングを補間することができる。本発明の一実施形態によれば、K個の以前項目は観察様式(即ち、画像様式)(eobserved)のエンベディングの間のコサイン類似性(cosine similarity)で測定した時、観察様式のエンベディングに最も近いエンベディングを有する標本として選択される。その次にK個の標本とK個の以前項目の間の交差注意(cross-attention)を取ることによって、欠落様式(即ち、表様式)のK個の以前エンベディングを加重値(wj)で加重合算することができる。加重合計は次いで浅い(shallow)(例えば、2階層)MLPjを通過して表帰属ブロック(tabular imputation block)508で帰属エンベディング(imputation embedding)を生成することができる。最後に、補間エンベディング(interpolated embeddings)を観察エンベディング(observed embeddings)と結合して連結エンベディング(concatenated embeddings)512を生成することができる。
【0045】
同様に、画像様式が欠落様式であれば、K個の完全対様式標本からK個の以前項目を選択し(506)、K個の標本から表様式用エンベディングを補間することができる。本発明の一実施形態によれば、K個の以前項目は観察様式(即ち、表様式)(eobserved)のエンベディングの間のコサイン類似性(cosine similarity)で測定した時、観察様式のエンベディングに最も近いエンベディングを有する標本として選択できる。その次に、K個の標本とK個の以前項目の間の交差注意(cross-attention)を取ることによって、欠落様式(即ち、画像様式)のK個の以前エンベディングを加重値(w)で加重合算することができる。加重合計は次いで浅い(shallow)(例えば、2階層)MLPを通過して画像帰属ブロック(image imputation block)510で帰属エンベディング(imputation embedding)を生成することができ、補間エンベディング(interpolated embeddings)を観察エンベディング(observed embeddings)と結合して連結エンベディング(concatenated embeddings)512を生成することができる。
【0046】
帰属を行った後に、単一モード(例えば、単一様式)予測と二重モード(例えば、二重様式)予測の両方ともを行って欠落様式に対する堅固性を確保するように画像符号器および表符号器それぞれを訓練させることができる。したがってこのために、単一様式予測が信頼できるかを確認し、多重様式予測も信頼できるかを確認するために検査段階で符号器を検査する。
【0047】
図6は、検査段階のブロック図の例である。ここで、原始入力(raw input)から得られたデータセット602を様式専用符号器(modality-specific encoder)、具体的に画像符号器(image encoder)604および表符号器(tabular encoder)606に提供する。ここで、各様式の表現を抽出した後、表現を連結し(608)、これを予測ブロック610に提供することができる。本発明の一実施形態によれば、予測ブロック610は相対的に浅い(例えば、2階層)変換器であってもよい。この方式で、符号器604、606は予測ブロック610と共に微細調整できる。
【0048】
本発明の一実施形態によれば、予測ブロック610(例えば、変換器)は3個の分類トークン(classification token)(CLSi、i∈{I、T、I&T})を有することができ、ここでIは画像基盤予測に該当し、Tは表基盤予測に該当し、I&Tは二重モード基盤予測に該当する。したがって、訓練中に注意(attention)を隠して単一モード分類トークンが当該様式のトークンのみを見るようにする反面、二重モード分類は全てのトークンを見る。このような分類トークンは互いに隠すことができる。本発明の一実施形態によれば、変換器を3個の交差エントロピー損失(cross-entropy loss)で訓練して欠落様式に対する堅固性を確保することができる。さらに詳しい内容はMengmeng Maなどの論文[Ma, Mengmeng, et al. 「Are Multimodal Transformers Robust to Missing Modality?」 Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.](ここに引用することによってこの論文の全体内容を本願に含む)に開示されている。
【0049】
図7は、本発明の一実施形態による訓練および推論枠組みのブロック図の例である。前述のように、予測ブロックは3個の分類トークンを有し、予測ブロックの出力は様式影響説明ブロック(modality impact explainer block)702に供給される。本発明の一実施形態によれば、予測(v)に対する各様式(i)の影響(impact)はシャプリー値(Shapley value)を使用して測定することができ、その様式がある場合とない場合の予測差を確認することによって可能である。したがって、影響説明ブロック702は各様式の重要度(importance)の定量的測定を生成して各様式がモデルにどんな影響を与えることができるかを決定するようにし、これは再びモデルの予測に影響を与える。
【0050】
本発明の一実施形態によれば、Neil Jethaniなどの論文[Jethani, Neil, et al. 「FastSHAP: Real-Time Shapley Value Estimation.」 International Conference on Learning Representations. 2021.](ここに引用することによってこの論文の全体内容を本願に含む)に記載されたFastSHAP推定技術(estimation technique)を使用して償却推定(amortized estimation)を行うことができる。分類モデルをθで媒介変数化(parameterization)すると仮定し、他の多段階認識(MLP:multilevel perception)(β)をシャプリー値(φ’)のプロキシ(proxy)を得る推定器(estimator)として訓練することができる。
【0051】
【数1】
【0052】
MLPは次の損失を最少化するように訓練することができる。
【数2】
【0053】
【0054】
【数3】
【0055】
したがって、シャプリー値を使用して単一モード予測および二重モード予測に対する信頼度値(confidence value)を決定して信頼度値が高いものを選択することができ、符号器はこれを抜け落ちた不対(unpaired)画像と表形データの融合に使用することができる。したがって、製造施設のセンサー装置から原始画像および表形データを持ってきて、製作された製品(例えば、表示パネル)に存在する欠陥を自動的に識別するニューラルネットワークでコンピュータをプログラミングすることができる。
【0056】
図8は、本発明の一実施形態によって欠落不対画像および/または表様式を融合する方法を示したフローチャートである。本発明の一実施形態によれば、データ行を含むデータセットが提供される。各データ行は少なくとも二つの様式に対する列を含むことができる。一例によれば、様式のうちの一つは画像様式であり、他の様式は表様式であってもよい。したがって好ましいシナリオでは、一つのデータ行が画像様式と表様式の両方ともを含む。しかし、本明細書では二つの様式のうちの一つが抜け落ちる場合に一つの様式を提供する方法を提示する。したがって、本発明の一実施形態によれば、データ行は少なくとも一つの不対様式行(row of unpaired modality)と少なくとも一つの対様式データ行(row of data that includes a paired modality)を含むことができる(802)。言い換えれば、不対様式は(例えば、画像様式または表様式であり得る)第1様式を含み、第2様式は抜け落ちることがあり、これによりこの行で様式は不対である(対を成さない)。対様式を含む他の行は第1様式と第2様式を両方とも含み、例えば画像様式と表様式が両方とも存在する。その次に、様式専用符号器(modality-specific encoder)を使用して、対様式中の第2様式からエンベディングを補間することによって、少なくとも一つの不対様式行を帰属させることができる(804)。言い換えれば、欠落様式、この例では第2様式は、入手可能な完全対様式から欠落様式と同一な様式の既存データを補間することによって帰属できる。その次に、様式専用符号器を単一モード予測および二重モード予測の帰属に基づいて潜在空間で訓練させることができ(806)、単一モード予測および二重モード予測に対する信頼度値を生成することができる(808)。本発明の一実施形態によれば、信頼度値は各様式の重要度に対応する定量的測定値であるシャプリー基盤説明を計算することによって生成することができる。したがって、このような説明は各様式がモデルにどんな影響を与えるかを定量化する。
【0057】
図9は、本発明の一実施形態による通信網環境(network environment)900内にある電子装置901のブロック図である。
【0058】
図9を参照すれば、通信網環境900内にある電子装置901は第1通信網998(例えば、短距離無線通信網)を通じて電子装置902と通信するか、または第2通信網999(例えば、長距離無線通信網)を通じて電子装置904またはサーバー908と通信できる。電子装置901はサーバー908を通じて電子装置904と通信できる。電子装置901はプロセッサー(processor)920、メモリ(memory)930、入力装置950、音響出力装置(sound output device)955、表示装置(display device)960、オーディオモジュール(audio module)970、センサーモジュール(sensor module)976、インターフェース(interface)977、触覚モジュール(haptic module)979、カメラモジュール980、電力管理モジュール988、乾電池(battery)989、通信モジュール990、加入者識別モジュール(SIM:subscriber identification module)カード996、またはアンテナモジュール(antenna module)994を含むことができる。本発明の一実施形態によれば、電子装置901の部品のうちの少なくとも一つ(例えば、表示装置960またはカメラモジュール980)を除くか、または電子装置901に一つ以上の他の部品を加えることができる。一部部品は一つの集積回路(IC:integrated circuit)として実現できる。例えば、センサーモジュール976[例えば、指紋センサー(fingerprint sensor)、虹彩センサー(iris sensor)または照度センサー(illuminance sensor)]を表示装置960に内蔵することができる。
【0059】
プロセッサー920は、ソフトウェア(例えば、プログラム940)を実行して自分と連結された電子装置901の少なくとも一つの部品を制御することができ、様々のデータ処理と計算を行うことができる。
【0060】
データ処理と計算の少なくとも一部として、プロセッサー920は揮発性メモリ(volatile memory)932内にある、他の部品(例えば、センサーモジュール976または通信モジュール990)から受信したデータまたは命令をローディングし、揮発性メモリ932内に記憶されたデータまたは命令を処理し、結果データを非揮発性メモリ(non-volatile memory)934内に記憶させる。プロセッサー920は主プロセッサー(main processor)921[例えば、中央処理装置(CPU:central processing unit)またはアプリケーションプロセッサー(AP:application processor)]および補助プロセッサー(auxiliary processor)923[例えば、グラフィック処理装置(GPU:graphics processing unit)、画像信号プロセッサー(ISP:image signal processor)、センサーハブプロセッサー(sensor hub processor)または通信プロセッサー(CP:communication processor)]を含むことができ、補助プロセッサー923は主プロセッサー921と独立して動作するかまたは連係して動作する。追加的に、または代案として、補助プロセッサー923は主プロセッサー921より電力消耗が少ないかまたは特定の関数を実行するのに適したものであり得る。補助プロセッサー923は主プロセッサー921の一部として実現されるかまたは主プロセッサー921と分離実現できる。
【0061】
補助プロセッサー923は、主プロセッサー921が非活動(inactive)状態(例えば、睡眠状態)であるとき、主プロセッサー921の代わりに、主プロセッサー921が活動(active)状態である時(例えば、アプリケーションを実行する時)は主プロセッサー921と共に、電子装置901の部品のうちの少なくとも一つ(例えば、表示装置960、センサーモジュール976または通信モジュール990)と関連する少なくとも一部関数または状態を制御することができる。補助プロセッサー923(例えば、画像信号プロセッサーまたは通信プロセッサー)は補助プロセッサー923と機能的に関連する他の部品(例えば、カメラモジュール980または通信モジュール990)の一部として実現できる。
【0062】
メモリ930は電子装置901の少なくとも一つの部品(例えば、プロセッサー920またはセンサーモジュール976)が使用する様々のデータを記憶することができる。そのようなデータの例としてはソフトウェア(例えば、プログラム940)およびこれと関連した命令のための入力データまたは出力データが挙げられる。メモリ930は揮発性メモリ932または非揮発性メモリ934を含むことができる。非揮発性メモリ934は内部メモリ936および/または外部メモリ938を含むことができる。
【0063】
プログラム940はメモリ930にソフトウェアとして記憶され、例えばオペレーティングシステム(OS:operating system)942、ミドルウェア(middleware)944またはアプリケーション946を含むことができる。
【0064】
入力装置950は、電子装置901の他の部品(例えば、プロセッサー920)が使用する命令またはデータを電子装置901の外部(例えば、ユーザ)から受信できる。入力装置950は、例えば、マイク(microphone)、マウス(mouse)またはキーボード(keyboard)を含むことができる。
【0065】
音響出力装置955は、電子装置901の外部に音響信号を出力することができる。音響出力装置955は、例えば、スピーカまたは受信機を含むことができる。スピーカはマルチメディア再生または記録など汎用であってもよく、受信機は着信呼出(incoming call)を受信するのに使用できる。受信機はスピーカの一部として実現されるか、またはスピーカと独立して実現できる。
【0066】
表示装置960は、電子装置901の外部(例えば、ユーザ)に視覚的に情報を提供することができる。表示装置960は例えば、ディスプレイ(display)、ホログラム装置(hologram device)またはプロジェクター(projector)、そしてこれらのうちの対応する一つを制御するための制御回路を含むことができる。表示装置960は、接触を感知するのに適した接触回路(touch circuitry)または接触で発生した力の強さを測定するのに適したセンサー回路(例えば、圧力センサー)を含むことができる。
【0067】
オーディオモジュール970は、音響を電気信号に変換するか、またはその反対に変換することができる。オーディオモジュール970は、入力装置950を通じて音響を受信するか、または音響出力装置955または電子装置901と直接(例えば、有線で)または無線で連結された外部電子装置902のヘッドホンを通じて音響を出力することができる。
【0068】
センサーモジュール976は、電子装置901の動作状態(例えば、電力または温度)または電子装置901外部の環境状態(例えば、ユーザ状態)を感知し、感知した状態に対応する電気信号またはデータ値を生成することができる。センサーモジュール976は、例えばジェスチャーセンサー(gesture sensor)、ジャイロセンサー(gyro sensor)、気圧センサー(atmospheric pressure sensor)、磁気センサー(magnetic sensor)、加速度センサー(acceleration sensor)、握力センサー(grip sensor)、近接センサー(proximity sensor)、色センサー(color sensor)、赤外線センサー[infrared (IR) sensor]、生体認識センサー(biometric sensor)、温度センサー、湿度センサー(humidity sensor)または照度センサー(illuminance sensor)を含むことができる。
【0069】
インターフェース977は、電子装置901を外部電子装置902と直接(例えば、有線で)または無線で連結するのに使用する一つ以上の特定プロトコル(protocol)を支援することができる。インターフェース977は、例えば高鮮明マルチメディアインターフェース(HDMI(登録商標):high-definition multimedia interface)、汎用直列バス(USB:universal serial bus)インターフェース、SD(secure digital)カードインターフェースまたはオーディオインターフェース(audio interface)を含むことができる。
【0070】
接続端末(connecting terminal)978は、電子装置901を外部電子装置902と物理的に連結できるコネクタ(connector)を含むことができる。接続端末978は、例えばHDMI(登録商標)コネクタ、USBコネクタ、SDカードコネクタまたはオーディオコネクタ(例えば、ヘッドホンコネクタ)を含むことができる。
【0071】
触覚モジュール979は、電気信号をユーザが触覚(tactile sensation)または運動感覚(kinesthetic sensation)を通じて認識できる機械的刺激(mechanical stimulus)(例えば、振動または移動)または電気的刺激(electrical stimulus)に変換することができる。触覚モジュール979は、例えば電動機(motor)、圧電素子(piezoelectric element)または電気刺激器(electrical stimulator)を含むことができる。
【0072】
カメラモジュール980は、静止画像または動画像を撮影することができる。カメラモジュール980は、一つ以上のレンズ、画像センサー(image sensor)、画像信号プロセッサーまたはフラッシュ(flash)を含むことができる。電力管理モジュール988は、電子装置901に供給される電力を管理することができる。電力管理モジュール988は、例えば電力管理集積回路(PMIC:power management integrated circuit)の一部として実現できる。
【0073】
乾電池989は、電子装置901の少なくとも一つの部品に電力を供給することができる。乾電池989は、例えば充電不可能な1次電池(primary cell)、充電可能な二次電池(secondary cell)または燃料電池(fuel cell)を含むことができる。
【0074】
通信モジュール990は、電子装置901と外部電子装置(例えば、電子装置902、電子装置904またはサーバー908)の間の直接(例えば、有線)通信チャンネルまたは無線通信チャンネルの構築および構築された通信チャンネルを通した通信遂行を支援することができる。通信モジュール990はプロセッサー920(例えば、AP)と独立して動作できる一つ以上の通信プロセッサーを含むことができ、直接(例えば、有線)通信または無線通信を支援する。通信モジュール990は無線通信モジュール992[例えば、セルラー通信モジュール(cellular communication module)、短距離無線通信モジュールまたは衛星測位システム(GNSS:global navigation satellite system)通信モジュール]または有線通信モジュール994[例えば、近距離通信網(LAN:local area network)通信モジュールまたは電力線通信(PLC:power line communication)モジュール]を含むことができる。これら通信モジュールは第1通信網998[例えば、ブルートゥース(登録商標)(Bluetooth(登録商標))、ワイファイダイレクト(Wi-Fi(登録商標) Direct)またはIrDA(Infrared Data Association)標準など短距離通信網]または第2通信網999{例えば、セルラー通信網、インターネットまたはコンピュータ通信網[例えば、LANまたは遠隔通信網(WAN:wide area network)]など長距離通信網}を通じて対応する外部電子装置と通信できる。これら多様な種類の通信モジュールは単一部品(例えば、単一IC)として実現されるか、または互いに分離された複数の部品(例えば、複数のIC)として実現できる。無線通信モジュール992は、第1通信網998または第2通信網999など通信網内の電子装置901を加入者識別モジュール996に記憶されている加入者情報[例えば、国際端末器加入者識別子(IMSI:international mobile subscriber identity)]を使用して識別および認証する(authenticate)ことができる。
【0075】
アンテナモジュール997は、電子装置901の外部(例えば、外部電子装置)にまたは外部から信号または電力を伝送または受信することができる。アンテナモジュール997は一つ以上のアンテナを含むことができ、これにより第1通信網998または第2通信網999など通信網に使用される通信方式に適した少なくとも一つのアンテナを例えば通信モジュール990(例えば、無線通信モジュール992)が選択することができる。選択された少なくとも一つのアンテナを通じて通信モジュール990と外部電子装置の間に信号または電力が送信または受信できる。
【0076】
第2通信網999と連結されたサーバー908を通じて電子装置901と外部電子装置904の間に命令またはデータが伝送または受信できる。電子装置902、904のそれぞれは電子装置901と同一な種類の装置であってもよく、異なる種類の装置であってもよい。電子装置901で実行される動作の全部または一部が外部電子装置902、904、サーバ908のうちの少なくとも一つで実行できる。例えば、電子装置901が自動的に、またはユーザまたは他の装置の指示に応じて関数またはサービスを行わなければならないのであれば、電子装置901はその関数やサービスを実行する代わりに、または実行すると共に少なくとも一つの外部電子装置にその関数またはサービスの少なくとも一部を行うことを指示することができる。その指示を受信した少なくとも一つの外部電子装置は指示した関数またはサービスの少なくとも一部、またはその指示と関連する付加サービスを遂行することができ、遂行結果物を電子装置901に伝達することができる。電子装置901はその結果物をさらに処理するか、またはそうでなければそのまま、指示に対する応答の少なくとも一部として提供することができる。このために、例えばクラウドコンピューティング(cloud computing)、分散コンピューティング(distributed computing)またはクライアント-サーバーコンピューティング(client-server computing)技術を使用することができる。
【0077】
本明細書で説明した発明の要旨(subject matter)および動作の体現/実施はデジタル電子回路、または本明細書で説明した構造およびその等価物を含むコンピュータソフトウェア、ファームウエアまたはハードウェア、またはこれらのうちの一つ以上の組み合わせの形態で実施できる。本明細書で説明した発明要旨の体現/実施は、データ処理装置が実行するかまたはデータ処理装置の動作を制御するためにコンピュータ記憶媒体に符号化された一つ以上のコンピュータプログラム、即ち、一つ以上のコンピュータプログラム命令モジュールとして実施できる。その代わりに、または追加的に、プログラム命令は人工的に生成された電波信号(artificially-generated propagated signal)、例えば機械が生成した(machine-generated)電気、光学または電磁気信号に符号化でき、この信号は、データ処理装置の実行のための、適切な受信装置への伝送のための、情報の符号化のために生成される。コンピュータ記憶媒体はコンピュータ可読記憶装置、コンピュータ可読記憶基板(computer-readable storage substrate)、任意(random)または直列(serial)接近メモリアレイまたは装置、またはこれらの組み合わせであるか、またはその内部に含まれてもよい。また、コンピュータ記憶媒体は伝播信号(propagated signal)ではないが、人工的に生成された伝播信号に符号化されたコンピュータプログラム命令のソースまたは宛先(destination)であってもよい。コンピュータ記憶媒体はまた、一つ以上の分離された物理的部品または媒体(例えば、多数枚のCD、ディスクまたは他の記憶装置)であるか、またはその内部に含まれてもよい。また、本明細書で説明した動作はデータ処理装置が一つ以上のコンピュータ可読記憶装置に記憶されるか、または他のソースから受信したデータに対して行う動作として実施できる。
【0078】
本明細書に特定の具体的な実施形態が多く含まれているが、このような実施形態が本発明の範囲を限定すると解釈してはならず、特定体現/実施の固有特徴に関する説明と解釈しなければならない。本明細書で別個の様々な実施形態と関連して説明した特定特徴を一つの実施形態で互いに結合して実施することができる。逆に、一つの実施形態と関連して説明した様々の特徴を様々の実施形態で別個にまたは適切な部分組み合わせ(subcombination)で実施することができる。また、様々の特徴が特定の組み合わせで動作すると前述してそのような特徴を初めに請求することができるが、時には請求した組み合わせから一つ以上の特徴を除外することができ、請求した組み合わせが部分組み合わせまたはその変形に関するものであり得る。
【0079】
同様に、図面に特定の順序で動作を示したが、このような動作を示した特定の順序でまたは順次に行うか、または所期の結果を達成するためには図示の動作を全て行わなければならないと理解してはならない。時によっては多重作業または並列処理が利益であることもある。また、前述の実施形態で様々のシステム部品が分離されているとしても全ての実施形態でそのように分離されなければならないのではなく、言及したプログラム成分とシステムが一般に一つのソフトウェア製品として共に集積されてもよく多数のソフトウェア製品として包装されてもよい。
【0080】
本発明の特定実施形態をここで説明した。その他の実施形態は次の請求範囲の権利範囲内にある。時によっては請求範囲に記載した動作を他の順序で行いながらも所期の成果を収めることができる。また、所期の成果を得るために、添付した図面に示された過程を図示の特定の順序で、または順次に行う必要はない。時によっては多重作業または並列処理がより良いこともある。
【0081】
ここで説明した画期的な概念を広い応用分野で改良または変形することができるのを当業者であれば理解するはずである。したがって、請求した本発明の権利範囲は前述の特定思想の例示のいずれにも限定されず、その代わりに次の請求範囲によって定義される。
【符号の説明】
【0082】
302、314:画像
304:無作為パッチ隠し(random patch masking)
306:画像事前訓練段階
308、408:符号器
312:復号器
410:復号器(ヘッド)
502、602:データセット
508:表帰属ブロック
510:画像帰属ブロック
512:連結エンベディング
604:画像符号器
606:表符号器
610:予測ブロック
702:様式影響説明ブロック
900:通信網環境
901、902、904:電子装置
908:サーバー
920:プロセッサー
921:主プロセッサー
923:補助プロセッサー
930:メモリ
932:揮発性メモリ
934:非揮発性メモリ
936:内部メモリ
938:外部メモリ
940:プログラム
942:運営体制
944:ミドルウェア
946:アプリケーション
950:入力装置
955:音響出力装置
960:表示装置
970:オーディオモジュール
976:センサーモジュール
977:インターフェース
978:接続端末
979:触覚モジュール
980:カメラモジュール
988:電力管理モジュール
989:乾電池
990:通信モジュール
992:無線通信モジュール
994:有線通信モジュール
996:加入者識別モジュール
997:アンテナモジュール
998、999:通信網

図1
図2
図3
図4
図5
図6
図7
図8
図9