特表2024-535731 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル　インコーポレイテッドの特許一覧

特表2024-535731ポインタトランスフォーマネットワークによる読み順

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-10-02

(54)【発明の名称】ポインタトランスフォーマネットワークによる読み順

(51)【国際特許分類】

G06F 40/279 20200101AFI20240925BHJP

【ＦＩ】

G06F40/279

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024513770

(86)(22)【出願日】2022-08-25

(85)【翻訳文提出日】2024-04-05

(86)【国際出願番号】 US2022075454

(87)【国際公開番号】W WO2023034715

(87)【国際公開日】2023-03-09

(31)【優先権主張番号】63/260,831

(32)【優先日】2021-09-01

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＢＬＵＥＴＯＯＴＨ

２．ＥＴＨＥＲＮＥＴ

(71)【出願人】

【識別番号】502208397

【氏名又は名称】グーグルエルエルシー

【氏名又は名称原語表記】ＧｏｏｇｌｅＬＬＣ

【住所又は居所原語表記】１６００ＡｍｐｈｉｔｈｅａｔｒｅＰａｒｋｗａｙ９４０４３ＭｏｕｎｔａｉｎＶｉｅｗ，ＣＡＵ．Ｓ．Ａ．

(74)【代理人】

【識別番号】110001195

【氏名又は名称】弁理士法人深見特許事務所

(72)【発明者】

【氏名】レベック，アンリ

(72)【発明者】

【氏名】トンバーリ，フェデリコ

(72)【発明者】

【氏名】アロヨ，ディエゴ・マルティン

(57)【要約】

複数のレイアウトコンポーネントを含む文書を表す画像を受け取ることと、複数のレイアウトコンポーネントに関連付けられたテキスト情報を特定することと、複数のレイアウトコンポーネントに関連付けられた視覚情報を特定することと、テキスト情報を視覚情報と組み合わせることと、セルフアテンションエンコーダ／デコーダを使用して、組み合わされたテキスト情報および視覚情報に基づいて、複数のレイアウトコンポーネントの読み順を予測することとを含む方法。

【特許請求の範囲】

【請求項1】

複数のレイアウトコンポーネントを含む文書を表す画像を受け取ることと、
前記複数のレイアウトコンポーネントに関連付けられたテキスト情報を特定することと、
前記複数のレイアウトコンポーネントに関連付けられた視覚情報を特定することと、
前記テキスト情報を前記視覚情報と組み合わせることと、
セルフアテンションエンコーダ／デコーダを使用して、前記組み合わされた前記テキスト情報および前記視覚情報に基づいて、前記複数のレイアウトコンポーネントの読み順を予測することと、
を含む方法。

【請求項2】

前記テキスト情報の前記特定は、前記画像からテキストベースのデータを抽出することを含む、請求項１に記載の方法。

【請求項3】

前記テキストベースのデータの前記抽出は、前記テキスト情報を含む埋め込みを生成するように構成されたニューラルネットワークを使用することを含む、請求項２に記載の方法。

【請求項4】

前記ニューラルネットワークは、テキストデータを埋め込みにマッピングする事前トレーニングされたニューラルネットワークであり、
配列が、前記複数のレイアウトコンポーネントの各レイアウトコンポーネントに関連付けられた前記テキストベースのデータを含む要素を含む、
請求項３に記載の方法。

【請求項5】

前記視覚情報の前記特定は、前記画像から視覚ベースのデータを抽出することを含む、請求項１～請求項４のいずれかに記載の方法。

【請求項6】

前記視覚ベースのデータの前記抽出は、前記視覚情報を含む埋め込みを生成するように構成されたニューラルネットワークを使用することを含む、請求項５に記載の方法。

【請求項7】

前記ニューラルネットワークは、２次元畳み込み演算であり、
前記埋め込みは配列を含み、
前記配列は、前記複数のレイアウトコンポーネントの各々に関連付けられた前記視覚ベースのデータを含む要素を含む、
請求項６に記載の方法。

【請求項8】

前記ニューラルネットワークは、複数の２次元畳み込み演算を含み、
前記埋め込みは、関連するレイアウトコンポーネントに関連付けられた前記視覚ベースのデータと、少なくとも１つの追加のレイアウトコンポーネントに関連付けられた前記視覚ベースのデータとを含む要素を含む配列を含む、
請求項６に記載の方法。

【請求項9】

前記テキスト情報は、第１の埋め込みに関連付けられ、
前記視覚情報は、第２の埋め込みに関連付けられ、
前記テキスト情報の前記視覚情報との前記組み合わせは、前記第１の埋め込みを前記第２の埋め込みと連結することを含む、
請求項１～請求項８のいずれかに記載の方法。

【請求項10】

前記セルフアテンションエンコーダ／デコーダは、
前記複数のレイアウトコンポーネントに関連付けられた第１のシーケンスに基づいて埋め込みを生成するように構成されたセルフアテンションエンコーダを含み、前記第１のシーケンスは第１の順序を有し、
前記埋め込みに基づいて第２のシーケンスを生成するように構成されたセルフアテンションデコーダを含み、前記第２のシーケンスは第２の順序を有する、
請求項１～請求項９のいずれかに記載の方法。

【請求項11】

前記セルフアテンションエンコーダ／デコーダは、
セット内の要素の対の間の関係を重み付けし、
前記要素に対する埋め込みを生成する
ように構成されたセルフアテンションエンコーダを含む、請求項１～請求項１０のいずれかに記載の方法。

【請求項12】

前記セルフアテンションエンコーダ／デコーダは、前記組み合わされた前記テキスト情報および前記視覚情報に基づいて、埋め込み内の各要素の影響を決定するように構成されたセルフアテンションエンコーダを含む、請求項１～請求項１１のいずれかに記載の方法。

【請求項13】

前記セルフアテンションエンコーダ／デコーダは、自己回帰推論として動作するように構成されたセルフアテンションデコーダを含む、請求項１～請求項１２のいずれかに記載の方法。

【請求項14】

前記セルフアテンションエンコーダ／デコーダは、前記複数のレイアウトコンポーネントに関連付けられた前記読み順で次のレイアウトコンポーネントを自己回帰的に予測するように構成されたセルフアテンションデコーダを含む、請求項１～請求項１３のいずれかに記載の方法。

【請求項15】

前記セルフアテンションエンコーダ／デコーダは、セルフアテンションエンコーダおよびセルフアテンションデコーダを含み、
前記セルフアテンションデコーダは、前記セルフアテンションエンコーダの要素と前記セルフアテンションデコーダへの入力との間でＱＫＶ外積を実行するように構成されている、請求項１～請求項１４のいずれかに記載の方法。

【請求項16】

少なくとも１つのプロセッサによって実行されると、コンピューティングシステムに請求項１～請求項１５のいずれかに記載の方法を実行させるように構成されている命令が格納されている、非一時的コンピュータ可読記憶媒体。

【請求項17】

請求項１～請求項１５のいずれかに記載の方法を実行する手段を備えた装置。

【請求項18】

装置であって、
少なくとも１つのプロセッサと、
コンピュータプログラムコードを含む少なくとも１つのメモリと、
を備え、
前記少なくとも１つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサにより、前記装置に少なくとも請求項１～１５のいずれかに記載の方法を実行させるように構成されている、装置。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本出願は、２０２１年９月１日に出願された「DEEP READING ORDER WITH POINTER TRANSFORMER NETWORKS」と題する米国仮特許出願第６３／２６０，８３１号に対する優先権を主張するものであり、その開示内容は参照によりその全体が本明細書に組み込まれる。

【0002】

分野
実施態様は、文書、画像などの読み順を検出することに関する。

【背景技術】

【0003】

背景
読み順検出は、あらゆるテキスト認識（text perception）システムの一構成要素である。読み順検出は、レイアウトコンポーネント（例えば、段落、要約、画像など）の間の首尾一貫した順序付けられた関係を特定することを目的とする文書画像理解タスクである。読み順検出アルゴリズムは、多くの場合、手作業で作成された読み順ルールのセットを使用する。しかしながら、これらのルールは、多くの例（例えば、表および受領書）で満足のいく結果を提供できず、異なる言語（例えば、日本語またはアラビア語など、右から左への言語）をサポートするためには、注意深く調整するかまたは手作業で適合させる必要がある。読み順検出は、多くのテキスト関連アプリケーション（例えば、テキストのコピー／貼り付け、テキスト音声変換における読み上げ、文書翻訳など）の一要素となり得る一構成要素である。

【発明の概要】

【発明が解決しようとする課題】

【0004】

概要
一実施態様例では、エンコーダ／デコーダ構造を使用して、文書読み順を予測することができる。エンコーダは、第１のランダムな順序のレイアウトコンポーネントのシーケンスに基づいて埋め込み（embedding）を生成するように構成することができ、デコーダは、その埋め込みに基づいて第２の読み順のレイアウトコンポーネントのシーケンスを生成するように構成することができる。

【0005】

全体的な態様では、デバイス、システム、（コンピュータシステム上で実行することができるコンピュータ実行可能プログラムコードが格納されている）非一時的コンピュータ可読媒体、および／または方法は、複数のレイアウトコンポーネントを含む文書を表す画像を受け取ることと、複数のレイアウトコンポーネントに関連付けられたテキスト情報を特定することと、複数のレイアウトコンポーネントに関連付けられた視覚情報を特定することと、テキスト情報を視覚情報と組み合わせることと、セルフアテンション（self-attention）エンコーダ／デコーダを使用して、組み合わされたテキスト情報および視覚情報に基づいて、複数のレイアウトコンポーネントの読み順を予測することとを含む方法を含むプロセスを実行することができる。

【0006】

実施態様は、以下の特徴の１つまたは複数、またはそれらの任意の組み合わせを含むことができる。

【0007】

例えば、テキスト情報の特定は、画像からテキストベースのデータを抽出することを含む。テキストベースのデータの抽出は、テキスト情報を含む埋め込みを生成するように構成されたニューラルネットワークを使用することを含むことができる。ニューラルネットワークは、テキストデータを埋め込みにマッピングする事前トレーニングされたニューラルネットワークであってもよく、配列が、複数のレイアウトコンポーネントの各レイアウトコンポーネントに関連付けられたテキストベースのデータを含む要素を含むことができる。視覚情報の特定は、画像から視覚ベースのデータを抽出することを含むことができる。視覚ベースのデータの抽出は、視覚情報を含む埋め込みを生成するように構成されたニューラルネットワークを使用することを含むことができる。ニューラルネットワークは、２次元畳み込み演算であってもよく、埋め込みは配列を含むことができ、配列は、複数のレイアウトコンポーネントの各々に関連付けられた視覚ベースのデータを含む要素を含むことができる。ニューラルネットワークは、複数の２次元畳み込み演算を含んでもよく、埋め込みは、関連するレイアウトコンポーネントに関連付けられた視覚ベースのデータと、少なくとも１つの追加のレイアウトコンポーネントに関連付けられた視覚ベースのデータとを含む要素を含む配列を含んでもよい。また、テキスト情報を、第１の埋め込みに関連付けてもよく、視覚情報を、第２の埋め込みに関連付けてもよく、テキスト情報の視覚情報との組み合わせは、第１の埋め込みを第２の埋め込みと連結することを含んでもよい。セルフアテンションエンコーダ／デコーダは、複数のレイアウトコンポーネントに関連付けられた第１のシーケンスに基づいて埋め込みを生成するように構成されたセルフアテンションエンコーダを含んでもよく、第１のシーケンスは第１の順序を有し、埋め込みに基づいて第２のシーケンスを生成するように構成されたセルフアテンションデコーダを含んでもよく、第２のシーケンスは第２の順序を有する。セルフアテンションエンコーダ／デコーダは、セット内の要素の対の間の関係を重み付けし、要素に対する埋め込みを生成するように構成されたセルフアテンションエンコーダを含んでもよい。セルフアテンションエンコーダ／デコーダは、組み合わされたテキスト情報および視覚情報に基づいて、埋め込み内の各要素の影響を決定するように構成されたセルフアテンションエンコーダを含んでもよい。セルフアテンションエンコーダ／デコーダは、自己回帰推論として動作するように構成されたセルフアテンションデコーダを含んでもよい。セルフアテンションエンコーダ／デコーダは、複数のレイアウトコンポーネントに関連付けられた読み順で次のレイアウトコンポーネントを自己回帰的に予測するように構成されたセルフアテンションデコーダを含んでもよい。セルフアテンションエンコーダ／デコーダは、セルフアテンションエンコーダおよびセルフアテンションデコーダを含んでもよく、セルフアテンションデコーダは、セルフアテンションエンコーダの要素とセルフアテンションデコーダへの入力との間でＱＫＶ外積を実行するように構成してもよい。

【0008】

実施態様例は、本明細書で後に記載する詳細な説明および添付の図面からより完全に理解されよう。図面において、同様の要素は同様の参照番号で表されており、図面は、単に例示のためにのみ与えられ、したがって実施態様例を限定するものではない。

【図面の簡単な説明】

【0009】

【図1】一実施態様例によるデータフローブロック図である。

【図2A】一実施態様例によるデータフローブロック図である。

【図2B】一実施態様例によるシーケンスループのブロック図である。

【図3】一実施態様例によるデータフローブロック図である。

【図4】一実施態様例による読み順を生成する方法のブロック図である。

【図5】一実施態様例によるシステムのブロック図である。

【図6】少なくとも１つの実施態様例によるコンピュータデバイスおよびモバイルコンピュータデバイスの一例を示す図である。

【図7】一実施態様例による読み順を絵で示す図である。

【発明を実施するための形態】

【0010】

これらの図は、いくつかの実施態様例において利用される方法、構造、および／または材料の全体的な特徴を例示し、以下に提供する書面による説明を補足するように意図されていることが留意されるべきである。しかしながら、これらの図面は、縮尺通りではなく、任意の所与の実施態様の正確な構造上のまたは性能の特性を正確に反映しない可能性があり、実施態様例によって包含される値または特性の範囲を定義または限定するものとして解釈されるべきではない。例えば、層、領域、および／または構造要素の相対的な厚さおよび位置決めは、明確にするために縮小または誇張している場合がある。さまざまな図面における同様のまたは同一の参照番号の使用は、同様のまたは同一の要素または特徴の存在を示すことが意図されている。

【0011】

詳細な説明
読み順検出の大部分の手法は、読み順検出のために、手作業で開発されたルールベースのアルゴリズム、ヒューリスティック、または学習済みモデルを使用する。レイアウトコンポーネント（段落など）のセットから読み順を抽出する学習済みの手法の１つは、２段階の様式を使用する。最初に、単純ベイズ分類器を使用して、手作業で設計された記述子のセットに基づいて（例えば、２つの段落の位置、形状、タイプ、およびトポロジカルな関係に基づいて）、任意の２つの段落が連続する確率を学習することができる。次いで、これらの確率は、最初に最も可能性の高い最初の段落を見つけ、最も高い確率を持つエッジに沿って徐々にチェーンを成長させることによって、読み順チェーンに変換される。これらの手法は、理論的には適応的な読み順ルールを学習することができるが、対ごとの確率を読み順に変換するために、手作業による特徴量エンジニアリングおよびハードコーディングされたグラフヒューリスティックを必要とする。加えて、学習済みモデルは、多くの場合、１つの文書構造、または科学論文などのよく知られた構造を有する文書に対して有効である。

【0012】

これらの読み順検出の問題を解決することは、機械学習済み（ＭＬ）モデルを使用して、ラベル付けされたデータからレイアウトコンポーネント（例えば、段落、タイトル、要約、画像など）のセットの読み順を予測するように学習することを含むことができる。読み順検出は、不特定の順序でのＮ個の入力レイアウトコンポーネントのセット｛Ｐ１，Ｐ２，…，ＰＮ｝を首尾一貫した読み順｛ＰＣ（ｉ）｝ｉ＝１…Ｎに並べ替えることを含むことができ、ここで、Ｃ（ｉ）ε［１，Ｎ］であり、Ｐはレイアウトコンポーネントを表し、Ｃは位置（例えば、インデックス）ｉでの順序を表す。実施態様は、出力シーケンスの要素（並べ替えられたレイアウトコンポーネント）が入力シーケンスからサンプリングされるべきであるシーケンス対シーケンス問題として読み順をモデル化することができる。実施態様例は、修正されたポインタネットワークを使用して、出力として入力シーケンスのメンバを選択することができる。ポインタネットワークは、入力シーケンスのメンバを出力として選択するためのポインタとしてアテンションを使用することができる。実施態様例は、長・短期記憶（ＬＳＴＭ：Long Short-Term Memory）バックボーンまたはエンコーダ－デコーダ変換モジュールを使用することができる。

【0013】

この手法は、可変サイズの出力セットに一般化することができ、それにより、入力シーケンスにおける段落数が事前に不明である場合に、読み順を検出または予測することを可能にすることができる。この技術により、手作業で設計されたルールに基づく既存の手法、および読み順ルールを学習する手法と比較して、読み順精度を向上させることができる。

【0014】

実施態様例では、読み順は、エンコーダ／デコーダ構造を使用して決定することができる。エンコーダは、第１の順序のレイアウトコンポーネントのシーケンス（例えば、入力シーケンス）に基づいて埋め込みを生成するように構成することができ、デコーダは、埋め込みに基づいて第２の順序のレイアウトコンポーネントのシーケンス（例えば、出力シーケンスまたは読み順シーケンス）を生成するように構成することができる。図１を使用して、エンコーダ／デコーダ構造におけるデータフロー（または情報フロー）を説明することができる。

【0015】

図１は、実施態様例によるデータフロー図のブロック図を示す。図１に示すように、データフローは、文書１０５ブロックと、エンコーダ１１０ブロックと、デコーダ１１５ブロックと、シーケンサ１２０ブロックと、アテンション関数１２５ブロックとを含むことができる。文書１０５は、画像として処理することができる任意の文書を含むことができる。文書１０５は、少なくとも１つのレイアウトコンポーネント（例えば、段落、要約、テキスト、画像など）を含むことができる。実施態様例では、文書および／または画像は、テキストおよび／またはテキストデータを含む。文書１０５に対する読み順を望むことができる。したがって、文書１０５は、文書１０５に対する読み順を生成するように構成されたシステム（例えば、コンピューティングシステム、少なくともメモリおよびプロセッサを含むシステムなど）に対する入力と称することができる。文書１０５を表す画像例７０５－１－１、７０５－１－２を図７に示す。

【0016】

エンコーダ１１０は、画像の一部をレイアウトコンポーネントとして受け取るように構成することができる。例えば、画像７０５－１、７０５－１－２は、特定された複数のレイアウトコンポーネントを示し、各レイアウトコンポーネントの周囲にボックスがある。レイアウトコンポーネント７１５は、画像７０５－１、７０５－１－２に示すレイアウトコンポーネントの１つの例である。エンコーダ１１０によって受け取られたレイアウトコンポーネントは、最初はランダムな順序で配列することができる。言い換えれば、レイアウトコンポーネントに関連する情報をデータ構造に格納し、レイアウトコンポーネントが最初はランダムな順序で格納（配列）されるようにラベル付けすることができる。情報および／またはデータ構造は、埋め込みとして符号化することができる。したがって、エンコーダ１１０は、レイアウトコンポーネントを表す（ランダム順序シーケンスを含む）情報を含む埋め込みを生成するように構成することができる。埋め込みを使用して、離散変数を連続ベクトルとして表現することができる。言い換えれば、埋め込みは、離散（例えば、カテゴリ）変数の連続数値のベクトルへのマッピングであり得る。

【0017】

エンコーダ１１０は、各レイアウトコンポーネントを離散変数として分類し、それらを連続数値のベクトルにマッピングするように構成することができる（例えば、埋め込み）。エンコーダ１１０は、レイアウトコンポーネントを特定し、特定されたレイアウトコンポーネントを分類し、分類された、特定されたレイアウトコンポーネントに基づいて埋め込みを生成するようにトレーニングされる（例えば、事前トレーニングされる）ことを含む、埋め込みを生成するようにトレーニングされた（例えば、事前トレーニングされた）ニューラルネットワーク（例えば、ディープラーニング、２次元（２Ｄ）畳み込みニューラルネットワーク（ＣＮＮ）、ＬＳＴＭ、トランスフォーマ（Transformer）など）であり得る。（エンコーダ１１０の）ニューラルネットワークをトレーニングすることは、ラベル付けされた（したがって、特定された）レイアウトコンポーネントを有する画像を使用することを含むことができる。したがって、トレーニングは、教師あり学習技術を使用することを含むことができる。

【0018】

デコーダ１１５は、連続数値のベクトル（例えば、エンコーダ１１０によって生成されたベクトルまたは埋め込み）を離散変数のシーケンスにマッピングするように構成することができる。離散変数は、カウントすることによって値が得られる変数とすることができる。文書１０５に関連付けられた一定数のレイアウトコンポーネントがあり、各コンポーネントは、離散変数に関連付ける（または離散変数によって特定する）ことができる。したがって、離散変数のシーケンスは、レイアウトコンポーネントの初期シーケンスを表すことができる。離散変数のシーケンスは、（例えば、文書の）レイアウトを表す情報と、レイアウトコンポーネントのインデックスとを含むことができる。言い換えれば、離散変数はレイアウトコンポーネントを表すことができ、シーケンスはレイアウトコンポーネントの順序に関する情報を表す。最初は、シーケンスの順序はランダムな順序であり得る。離散変数のシーケンスはデコーダ１１５の出力である。任意の特定のレイアウトコンポーネントのインデックスは、読み順におけるそのコンポーネントの位置を表す。デコーダの出力は、予測された読み順と称することができる。

【0019】

シーケンサ１２０は、ベクトルに基づいて、順序付けられたシーケンスを読み順１３０として生成するように構成することができる。例えば、（埋め込みの）各ベクトルは、レイアウトコンポーネントに関連する複数の特徴を表すことができる。ベクトルの要素は、レイアウトコンポーネントが読み順の次のレイアウトコンポーネントである確率を表すことができる。最も大きいすなわち最大値を有するベクトルの要素は、順序付けられたシーケンスにおける次のレイアウトコンポーネントを表すことができる。

【0020】

シーケンサ１２０は、順序付けられたシーケンス、例えば出力シーケンスを特定するために、レイアウトコンポーネント（例えば、埋め込み）の反復解析を実行することができる。ベクトルの最初の解析は、読み順での第１のレイアウトコンポーネントを特定することができ、残りのベクトルの第２の解析は、第２のレイアウトコンポーネントを特定することができ、埋め込みにおけるすべてのベクトルが解析されるまで同様に続く。順序付けられたシーケンスに対してレイアウトコンポーネントが選択された後、アテンション関数１２５はセルフアテンション関数であり得る。アテンション関数１２５は、シーケンスにおける位置がそのシーケンスにおける後続の位置に注意を向けないように構成することができる。このマスキングは、位置ｉに対する予測がｉ未満の位置における既知の出力にのみ依存することができることを確実にすることができる。アテンション関数１２５は、対応するベクトルの合計された特徴量または各特徴量を減衰させることができる。例えば、アテンション関数１２５は、対応するベクトルの合計された特徴量または各特徴量を予め決められた値（例えば、－１、０、１）に設定することができる。したがって、選択されたレイアウトコンポーネントを表す合計された特徴量は、最も大きい値すなわち最大値を有する合計された特徴量であってはならない。解析を終了するために停止トークンベクトルを使用することができる。例えば、埋め込み内のベクトルに停止トークン値を追加することができ、解析中のベクトルが停止トークン値に等しい値を有する場合、シーケンサ１２０は解析を終了させることができる。上述したループは、アテンション関数１２５ブロックからデコーダ１１５ブロックへの線および矢印によって表されている。アテンション関数１２５ブロックは、成分または合計成分を減衰させるための基礎として、埋め込みにおけるベクトルを使用することができる。この停止トークンベクトルは、エンコーダ１１０ブロックからアテンション関数１２５への線および矢印によって表されている。

【0021】

いくつかの実施態様では、デコーダ１１５、シーケンサ１２０、およびアテンション関数１２５は、ともに動作する単一のプロセスとして実装することができる。したがって、デコーダ１１５に言及することは、シーケンサ１２０およびアテンション関数１２５が含まれることを暗示することができる。

【0022】

実施態様例では、ニューラルネットワークは、エンコーダ（例えば、エンコーダ１１０）および／またはデコーダ（例えば、デコーダ１１５）として（またはその要素として）使用することができる。ニューラルネットワークは、回帰型ニューラルネットワーク（ＲＮＮ）とすることができる。ニューラルネットワークは、入力シーケンスを、ＲＮＮの第１の層に供給されるコードに変換する符号化ＲＮＮとすることができる（生成ネットワークと呼ばれる場合もある）。各ステップにおいて、ＲＮＮは、入力に対するコンテンツベースのアテンション機構を調節するベクトルを生成することができる。コンテンツベースのアテンション機構は、入力の特徴（例えば、レイアウトコンポーネントのうちの１つ）とメモリに格納された特徴（例えば、以前に処理されたレイアウトコンポーネントに関連付けられた特徴）との間の類似性に基づいてベクトルを作成するように構成することができる。

【0023】

実施態様例は、ソフトマックス関数（または正規化指数関数）を使用することができる。ソフトマックス関数を使用して、予測された出力クラスまたはカテゴリに対する確率分布にネットワークの出力を正規化することができる。ソフトマックス関数の出力を使用して、クラスまたはカテゴリ分布を表すことができる。コンテンツベースのアテンション機構の出力（例えば、ベクトルの特徴）は、入力の長さに等しい辞書サイズを有するソフトマックス分布とすることができる。ソフトマックス分布は、ベクトルの特徴に（例えば、分散された方法で）関連付けられた値に対する重みを生成するように構成された関数に基づくことができる。コンテンツベースのアテンション機構は、エンコーダとデコーダとを接続するインターフェースとすることができる。このインターフェースは、エンコーダの隠れ状態からの情報をデコーダに提供するように構成することができる。隠れ状態または出力は、入力シーケンス（例えば、読み順でないシーケンス）における各レイアウトコンポーネントに対して生成することができる。隠れ状態は、先行する時間ステップからのデータを使用して生成された入力（例えば、入力シーケンスにおける先行するレイアウトコンポーネントの処理への入力）とすることができる。

【0024】

このフレームワークにより、モデルは、入力シーケンスの有用な部分に選択的に焦点を当てることができる。言い換えれば、コンテンツベースのアテンション機構は、関連する特徴（例えば、レイアウトコンポーネントの特徴）を選択的に処理し、他の特徴を無視することができる。コンテンツベースのアテンション機構は、コサイン類似度に基づくアテンション機構とすることができる。機械学習において、コサイン類似度は、２つ以上のベクトル（上述したように、ベクトルはレイアウトコンポーネントを表すことができる）の間の類似度を定量化する測定値とすることができる。コサイン類似度は、ベクトル間の角度のコサインとすることができる。数学的には、コサイン類似度は、ベクトルのドット積と各ベクトルのユークリッドノルムまたは大きさの積との境界として記述することができる。

【0025】

数学的には、ソフトマックス関数（例えば、上述したように、重みを生成するように構成された関数）は、Ｋ個の実数のベクトルｚを入力として取り込み、そのベクトルを、入力数値の指数に比例するＫ個の確率からなる確率分布に正規化することができる。図２Ａに記載するエンコーダ／デコーダは、アテンションエンコーダ（例えば、エンコーダ１１０）および／またはアテンションデコーダ（例えば、デコーダ１１５）の一例であり得る。

【0026】

図２Ａは、実施態様例によるデータフローブロック図を示す。図２Ａに示すように、データフローは、文書１０５ブロックと、エンコーダ１１０ブロックと、デコーダ１１５ブロックと、シーケンサ１２０ブロックと、出力２２０ブロックとを含む。文書１０５は、レイアウトコンポーネント２２５－１、２２５－２、２２５－３、２２５－４、および２２５－５を含む。文書１０５は、エンコーダ１１０に（例えば、画像として）入力される。レイアウトコンポーネント２２５－１、２２５－２、２２５－３、２２５－４、および２２５－５はまた、停止トークン２３０とともに、括弧２４５内にランダムな順序で示す。

【0027】

エンコーダ１１０は、セルフアテンションエンコーダ２０５ブロックを含む。セルフアテンションエンコーダ２０５は、括弧２４５に含まれるレイアウトコンポーネント２２５－１、２２５－２、２２５－３、２２５－４、２２５－５、および停止トークン２３０のランダムな順序を含む埋め込みを生成するように構成することができる。したがって、埋め込み２５０における各ベクトルは、括弧２４５に含まれるレイアウトコンポーネント２２５－１、２２５－２、２２５－３、２２５－４、２２５－５、および停止トークン２３０のうちの１つを表す。

【0028】

セルフアテンションエンコーダ２０５は、シーケンス内の要素のすべての対の間の関係に重み付けを行い、入力、例えば、括弧２４５内の順序付けられていないレイアウトコンポーネントにおけるすべての要素に対する高次元埋め込みを生成する、セルフアテンションモジュールとすることができる。各埋め込みは、デコーダ１１５に含まれるエンコーダ－デコーダアテンション２１０へのクエリ（Query）入力およびキー（Key）入力として使用することができる。セルフアテンションエンコーダ２０５は、入力における各要素が他の要素に与える影響を発見するように、自動的に学習することができる。これは、セルフアテンションエンコーダ２０５を使用することにより、シーケンス間学習に使用される他のエンコーダ／デコーダアルゴリズム（例えば、長・短期記憶（ＬＳＴＭ））を使用するよりも豊富な表現を作成することができるため、有利である。

【0029】

デコーダ１１５は、セルフアテンションデコーダ２１５ブロックを含む。セルフアテンションデコーダ２１５は、ループ内で動作して、出力の各要素を逐次生成することができる。時刻Ｔにおける出力は、時刻Ｔ－１における入力に基づくことができる。例えば、セルフアテンションデコーダ２１５は、入力へのポインタ（例えば、入力シーケンスにおける要素のインデックス）を自己回帰的に予測することができる。いくつかの実施態様では、出力要素は、エンコーダ１１０の出力に対するアテンションのみを使用して読み順を生成するのではなく、入力シーケンスにおける位置（例えば、インデックス）に対応することができる。セルフアテンションデコーダ２１５は、各デコーダステップ（または反復）において、出力として１つを選択するために、入力要素に対して（例えば、ポインタネットワークを使用して）アテンションを適用するように構成することができる。各デコーダステップで選択される要素は、予測された（例えば、自己回帰的に予測された）ポインタとすることができる。自己回帰的に予測されたポインタは、ロジット分布としてモデル化することができる。線および矢印２４０は、停止トークン２３０に対応するベクトルが到達するまで、デコーダが埋め込み（例えば、ベクトル）に対して動作するループとして動作することができることを表す。言い換えれば、停止トークン２３０は、（括弧２４５に示すように）埋め込み２５０に追加することができ、ループの間に、停止トークンが処理されるかまたは操作されると、ループは終了し、デコーダ１１５は処理を完了したことになる。ループの間、停止トークン２３０が最大値を有するベクトルである場合、すべてのベクトル（例えば、レイアウトコンポーネント）が処理されたことになり、ループは終了することができる。

【0030】

デコーダ２１５の１つまたは複数（または各）の層は、エンコーダ入力と、Ｑ・Ｋ、既存のデコーダのＶの要素としての既存のデコーダ要素との間のクエリ（または行列）、キー、バリュー（Value）、（またはトークン）（ＱＫＶ）外積であって、サイズ｜デコーダ入力｜×｜エンコーダ入力｜の行列を生成することができ、その行はエンコーダの入力識別子（ＩＤ）に対するロジットと考えることができ、したがって分類に使用される任意の損失で正則化することができる。シーケンサ１２０は、例えば、関数ａｒｇｍａｘ（）を使用して、次の要素へのインデックス（例えば、ポインタ）を決定することができる。シーケンサ１２０は、補助的なシーケンス開始トークンからなる単一要素シーケンスで開始することができ、別の追加のトークン（例えば、停止トークン２３０またはシーケンス停止）へのポインタが生成されるまで、先行する要素が与えられると各新たなポインタを自己回帰的に予測する。

【0031】

シーケンサ１２０の出力は、線および矢印２４０によって表される各ループの間に出力シーケンス２５５の各要素を生成することができる。出力シーケンス２５５は、ループが完了したときの読み順を表すことができる。ループの反復については、図２Ｂに関して後述する。出力２２０は、各レイアウトコンポーネント２３５－１、２３５－２、２３５－３、２３５－４、および２３５－５を有する文書１０５を読み順で示す。言い換えれば、読み取られると予測される最初のレイアウトコンポーネントは、レイアウトコンポーネント２３５－１とすることができ、読み取られると予測される最後のレイアウトコンポーネントは、レイアウトコンポーネント２３５－５とすることができる。再び図７を参照すると、画像７０５－１－２における点線７２０は、関連する出力シーケンスに基づいて、開始Ｓから終了Ｅまでの読み順を絵で表すことができる。

【0032】

図２Ｂは、一実施態様例によるシーケンスループおよびその出力のブロック図を示す。シーケンスループは、図２Ａのデータフローを実行する機能部分、例えば、線および矢印２４０によって表されているループとすることができる。上述したように、シーケンサ１２０は、例えば、関数ａｒｇｍａｘ（）を使用して、例えば、レイアウトコンポーネントを表す特徴量のベクトル和に基づいて、次の要素へのインデックス（例えば、ポインタ）を決定することができる。関数ａｒｇｍａｘ（）を使用すると、最大値を有するベクトルが次の要素となることができ、これが出力シーケンス２５５に出力される。例えば、各ベクトルは、特定の時間ステップにおいて、各レイアウトコンポーネントが次である尤度を表す。ベクトルの各要素は、対応するレイアウトが出力順において次になる尤度を表す数値とすることができる。最も大きい値を有する（例えば、レイアウトコンポーネントを表す）ベクトルの要素は、読み順において次のレイアウトコンポーネントとすることができる（例えば、そうであるものと予測することができる）。

【0033】

反復２６０－１において、シーケンサ１２０の関数（例えば、ａｒｇｍａｘ（））は、最大値を有するベクトルがレイアウトコンポーネント２２５－４に関連付けられたベクトルである状態で実行される。したがって、シーケンサ１２０は、出力シーケンス２５５に追加されるレイアウトコンポーネント２２５－４として次の要素を出力する（反復２６０－１では、出力シーケンスはコンポーネント２２５－４のみを含む）。反復２６０－２において、シーケンサ１２０の関数は、最大値を有するベクトルがレイアウトコンポーネント２２５－１に関連付けられたベクトルである状態で実行される。したがって、シーケンサ１２０は、次の要素であるレイアウトコンポーネント２２５－１を出力し、それを出力シーケンス２５５に、例えばコンポーネント２２５－４の後に追加する。反復２６０－３において、シーケンサ１２０の関数は、最大値を有するベクトルがレイアウトコンポーネント２２５－２に関連付けられたベクトルである状態で実行される。したがって、シーケンサ１２０は、次の要素としてレイアウトコンポーネント２２５－２を出力し、それをコンポーネント２２５－１の後に出力シーケンス２５５に追加する。

【0034】

反復２６０－４において、シーケンサ１２０の関数は、最大値を有するベクトルがレイアウトコンポーネント２２５－３に関連付けられたベクトルである状態で実行される。したがって、シーケンサ１２０は、出力シーケンス２５５における次の要素としてレイアウトコンポーネント２２５－３を出力する。反復２６０－５において、シーケンサ１２０の関数は、最大値を有するベクトルがレイアウトコンポーネント２２５－５に関連付けられたベクトルである状態で実行される。したがって、シーケンサ１２０は、出力シーケンス２５５における次の要素としてレイアウトコンポーネント２２５－５を出力する。反復２６０－６において、シーケンサ１２０の関数は、最大値を有するベクトルが停止トークン２３０に関連付けられたベクトルである状態で実行される。したがって、シーケンサ１２０は、出力シーケンス２５５における次の要素として停止トークン２３０を出力する。上述したように、埋め込みの各ベクトルは、それぞれのレイアウトコンポーネントを表すことができる。これらのベクトルを生成することについて、図３に関して説明することができる。

【0035】

図３は、一実施態様例によるデータフローブロック図を示す。図３に示すように、データフローは、（入力としての）文書１０５と、レイアウトコンポーネント３０５と、順序付けられたレイアウトコンポーネント３１０と、コンポーネントモデル３１５ブロックと、読み順３２０モデルブロックとを含む。コンポーネントモデル３１５は、文書１０５を入力として取り込んで、少なくとも１つのレイアウトコンポーネント（例えば、段落、要約、テキスト、画像など）をレイアウトコンポーネント３０５として特定するように構成することができる。レイアウトコンポーネント３０５は、レイアウトコンバイナ３３５ブロックを使用して、埋め込み３３０（例えば、最初のまたは第１の埋め込み）と合わせて連結またはリンクすることができ、その後、レイアウトコンバイナ３３５ブロックは、順序付けられたレイアウトコンポーネント３１０を予測（または生成）するために、読み順モデル３２０に入力される。

【0036】

コンポーネントモデル３１５は、入力画像（例えば、文書１０５）に基づいて、少なくとも１つのコンポーネント（例えば、段落、要約、テキスト、画像など）を特定するように構成することができる。コンポーネントモデル３１５は、ニューラルネットワーク、例えば、少なくとも１つの畳み込み３２５ブロック、または畳み込み演算を含むことができる。畳み込み３２５は、２次元（２Ｄ）畳み込み演算とすることができ、その理由は、２Ｄ畳み込み（例えば、ＣＮＮ）は、複数のスケールにまたがる画像情報を捕捉するのに有効であり得るためである。畳み込み３２５は、複数のベクトル３５０を含む埋め込み３３０を生成するように構成することができる。ベクトル３５０の数は、文書１０５に関連付けられた（例えば、文書１０５において特定された）レイアウトコンポーネントの数に基づくことができる。したがって、各ベクトルは、それぞれのレイアウトコンポーネントに対応することができる。各ベクトル３５０は、それぞれのレイアウトコンポーネントに対応するが、少なくとも１つの他のレイアウトコンポーネントに関連付けられた情報（例えば、特徴）も同様に含むことができる。言い換えれば、各連続畳み込み３２５は、ベクトル内の成分間の情報影響を生成することができる。例えば、各ベクトル３５０は、各連続畳み込み３２５の後に、そのそれぞれの成分および隣接する成分に関する情報を含むことができる。この情報影響は、読み順の予測に役立つことができる。

【0037】

畳み込み３２５は、文書１０５を表す画像から特徴を抽出するように構成することができる。特徴は、レイアウトコンポーネント（例えば、段落、タイトル、要約、画像など）、コンポーネントの位置、コンポーネントのサイズ、色、空白（コンポーネントなし）、他のコンポーネントに対するコンポーネントの位置などに基づくことができる。特徴は、数値を使用して表すことができる。畳み込みは、フィルタ（カーネルと呼ばれることもある）とストライドを有することができる。例えば、フィルタは、Ｍ×Ｍグリッドの位置における各チャネルのセルの特徴の組み合わせ（例えば、加算、減算、乗算など）に基づいて生成されたセルの出力をもたらす、ストライドが１の１×１フィルタ（または、ｎ個の出力チャネルへの変換の場合は１×１×ｎ、１×１フィルタは点単位（pointwise）畳み込みと呼ばれることもある）とすることができる。言い換えれば、２つ以上の深さまたはチャネルを有する特徴マップが、単一の深さまたはチャネルを有する特徴マップに結合される。フィルタは、Ｍ×Ｍグリッドまたは特徴マップの各チャネルにおける／各チャネルのためのセルの数がより少ない出力をもたらす、ストライドが１の３×３フィルタとすることができる。出力は、同じ深さまたはチャネルの数（例えば、３×３×ｎフィルタ、ここで、ｎ＝深さまたはチャネルの数、深さ単位（depthwise）フィルタと呼ばれることもある）、または低減した深さまたはチャネルの数（例えば、３×３×ｋフィルタ、ここで、ｋ＜深さまたはチャネルの数）を有することができる。各チャネル、深さ、または特徴マップは、関連するフィルタを有することができる。各関連するフィルタは、チャネルの異なる態様を強調するように構成することができる。言い換えれば、フィルタに基づいて各チャネルから異なる特徴を抽出することができる（これは、深さ単位分離可能（depthwise separable）フィルタと呼ばれることもある）。フィルタ（カーネルまたはマスクと呼ばれることもある）は、１つの重みまたは複数の重みを有することができる。重みは、トレーニング動作中、例えば、コンポーネントモデル３１５のトレーニング中に、変更または学習することができる。言い換えれば、ＭＬモデル（例えば、ＣＮＮ、ＲＮＮなど）において、フィルタ（カーネルまたはマスク）に関連付けられた重みは、トレーニング動作中に修正することができる。他のフィルタも本開示の範囲内にある。

【0038】

別のタイプの畳み込みは、混合（blended）畳み込みと呼ばれることもある、２つ以上の畳み込みの組み合わせとすることができる。例えば、畳み込みは、深さ単位および点単位分離可能畳み込みとすることができる。これは、例えば、２段階の畳み込みを含むことができる。第１の段階は、深さ単位畳み込み（例えば、３×３畳み込み）とすることができる。第２の段階は、点単位畳み込み（例えば、１×１畳み込み）とすることができる。深さ単位および点単位畳み込みは、特徴マップの各チャネルまたは各深さに対して異なるフィルタ（例えば、異なる特徴を抽出するためのフィルタ）を使用することができるという点で、分離可能畳み込みとすることができる。いくつかの実施態様では、第１のタイプの畳み込みを使用してテキストを抽出することができ、一方で、第２のタイプの畳み込みを使用して絵図を抽出することができる。畳み込みは、回帰型ニューラルネットワークと再帰型ニューラルネットワークとの組み合わせ（またはその要素）とすることができる。回帰型ニューラルネットワークは、画像の領域を処理することによって画像から情報を抽出するように構成することができる。再帰型ニューラルネットワークは、シーン内のオブジェクト（例えば、レイアウトコンポーネント）の関係を処理するように構成することができる（例えば、文書１０５は、シーンとすることができ、シーンを含むことができ、またはシーンとみなすことができる）。

【0039】

畳み込みは線形とすることができる。線形畳み込みは、入力に関して、出力を線形時不変（ＬＴＩ：linear time-invariant）として記述する。畳み込みは、正規化線形ユニット（ＲｅＬＵ：rectified linear unit）も含むことができる。ＲｅＬＵは、畳み込みのＬＴＩ出力を正規化し（rectify）、正規化された出力を最大値に制限する、活性化関数である。ＲｅＬＵを使用して、収束を加速させる（例えば、モデルのトレーニングがより効率的になるようにする）ことができる。

【0040】

コンポーネントモデル３１５のトレーニングは、畳み込み３２５に関連する重みを修正すること（例えば、フィルタを構成すること）を含むことができる。コンポーネントモデル３１５は、レイアウトコンポーネントを識別し、レイアウトコンポーネント間の関係を特定するためにトレーニングする（例えば、事前トレーニングする）ことができる。３つの畳み込み３２５を示すが、実施態様例は、４つまたは５つ以上の追加の畳み込み３２５を使用することを含むことができる。

【0041】

コンポーネントモデル３１５における各畳み込み３２５は、関連する重みを有することができる。関連する重みは、ランダムに初期化し、その後、各トレーニング反復（例えば、エポック）において修正することができる。トレーニングは、レイアウトコンポーネント間の識別およびレイアウトコンポーネント間の関係の特定を実装する（または実装するのに役立つ）ことに関連することができる。実施態様例では、ラベル付き入力画像（例えば、好ましい読み順を示すラベルを有する文書１０５）と予測された読み順とを比較することができる。ラベル付き読み順と予測された読み順との差に基づいて、損失を生成することができる。トレーニング反復は、損失が最小化されるまで、および／または、損失が反復ごとに著しく変化しなくなるまで、継続することができる。実施態様例では、損失が小さいほど、予測される読み順がより適切になる。

【0042】

コンポーネントモデル３１５は、レイアウトコンポーネント３０５の埋め込みを生成するように構成することができる。レイアウトコンポーネント３０５の埋め込みは、埋め込み３３０と同じ構造を有することができる。レイアウトコンバイナ３３５は、埋め込み３３０の少なくとも１つとレイアウトコンポーネント３０５とを連結するように構成することができる。例えば、埋め込み３３０のうちの第１のものは、レイアウトコンバイナ３３５によって、レイアウトコンポーネント３０５と連結されるように示されている。埋め込み３３０をレイアウトコンポーネント３０５と連結することにより、埋め込み３３０に関連付けられた（例えば、埋め込み３３０の各ベクトルに関連付けられた）情報の強調をもたらすことができる。

【0043】

レイアウトコンバイナ３３５の出力は、読み順モデル３２０、および読み順モデル３２０の一要素としてのセルフアテンションエンコーダ３４０への入力である。セルフアテンションエンコーダ３４０は、コンテキスト埋め込み３４５を生成するように構成することができ、このコンテキスト埋め込み３４５は、読み順モデル３２０の一要素としてセルフアテンションデコーダ３５５に入力される。セルフアテンションデコーダ３５５は、コンテキスト埋め込み３４５に基づいて、順序付けられたレイアウトコンポーネント３１０として読み順を生成するように構成することができる。コンテキスト埋め込み３４５は、複数のベクトル３６０を含むことができる。ベクトル３６０の数は、文書１０５に関連付けられた（例えば、文書１０５において特定された）レイアウトコンポーネントの数に基づくことができる。各ベクトル３６０は、各レイアウトコンポーネントに関連付けられた情報を含むことができる。各ベクトル３６０は、例えば合計することができる、複数の値（例えば整数値）を含むことができる。

【0044】

セルフアテンションエンコーダ３４０は、例えば、Ｎ＝６個の同一の層のスタックから構成することができる。各層は２つのサブレイヤを有することができる。第１のサブレイヤは、マルチヘッドセルフアテンション機構とすることができる。第２のサブレイヤは、位置単位全結合フィードフォワード（position-wise fully connected feed-forward）ネットワークとすることができる。２つのサブレイヤの各々の周囲に残差接続を適用し、その後、レイヤ正規化を適用することができる。言い換えれば、各サブレイヤの出力はＬａｙｅｒＮｏｒｍ（ｘ＋Ｓｕｂｌａｙｅｒ（ｘ））とすることができる。ここでは、Ｓｕｂｌａｙｅｒ（ｘ）はサブレイヤによって実装される関数である。これらの残差接続を容易にするために、埋め込み層と同様にモデル内のすべてのサブレイヤは、例えばｄ_{ｍｏｄｅｌ}＝５１２の次元の出力を生成する。例えば交差検証を通して、ハイパーパラメータを得ることができる。

【0045】

セルフアテンションデコーダ３５５は、例えば、Ｎ＝６個の同一の層のスタックで構成することもできる。各エンコーダ層の２つのサブレイヤに加えて、デコーダは第３のサブレイヤを挿入することができる。第３のサブレイヤは、エンコーダスタックの出力に対してマルチヘッドアテンションを実行するように構成することができる。エンコーダと同様に、サブレイヤの各々の周囲に残差接続を適用し、その後、レイヤ正規化を適用することができる。位置が後続する位置に注意を向けるのを防止するために、デコーダスタック内のサブレイヤでセルフアテンションを変更することができる。このマスキングは、出力埋め込みが１つの位置だけオフセットされることと組み合わされて、位置ｉに対する予測がｉ未満の位置における既知の出力にのみ依存することができることを確実にすることができる。言い換えれば、コンテキスト埋め込み３４５（例えば、複数のベクトル３６０）に基づいて順序付けられたレイアウトコンポーネント３１０を予測することは、（例えば、レイアウトコンポーネントに対応する）先行して予測されたベクトル３６０に基づくことができる。例えば、図２Ｂを参照すると、反復２６０－３は、反復２６０－１および２６０－２の結果（例えば、レイアウトコンポーネント２２５－４、２２５－１）の影響を受けることができる。さらに、反復２６０－３の結果は、残りのレイアウトコンポーネント、または出力シーケンス２５５に追加されていないレイアウトコンポーネント（例えば、レイアウトコンポーネント２２５－３、２２５－５）によって影響される可能性はない。

【0046】

アテンション関数は、クエリとキーおよびバリューの対のセットとを出力にマッピングするものとして記述することができ、そこでは、クエリ、キー、バリュー、および出力はすべてベクトルとすることができる。エンコーダ－デコーダアテンション層では、クエリは先行するデコーダレイヤから来ることができ、メモリのキーおよびバリューはエンコーダの出力から来ることができる。これにより、デコーダのすべての位置が入力シーケンスの全位置に注意を向けるのを可能にすることができる。出力は、バリューの重み付き和として計算することができ、そこでは、各バリューに割り当てられる重みは、クエリの対応するキーとの適合度関数によって計算される。イントラアテンション（intra-attention）と呼ばれる場合もあるセルフアテンションは、単一シーケンスの異なる位置を、そのシーケンスの表現を計算するために関連付けるアテンション機構である。

【0047】

エンコーダはセルフアテンション層を含むことができる。セルフアテンション層では、キー、バリュー、およびクエリのすべてが、同じ場所、この場合はエンコーダにおける先行する層の出力から来ることができる。エンコーダにおける各位置は、エンコーダの先行する層におけるすべての位置に注意を向けることができる。同様に、デコーダのセルフアテンション層は、デコーダにおける各位置が、その位置までおよびその位置を含むデコーダにおけるすべての位置に注意を向けることができるようにすることができる。

【0048】

図４は、実施形態例による読み順を生成する方法のブロック図を示す。図４に示すように、ステップＳ４０５において、レイアウトコンポーネントを含む文書を表す画像が受け取られる（例えば走査ユニット、カメラ、または記憶媒体から、エンコーダ１１０によって受け取られる）。例えば、文書（例えば、文書１０５）は、画像の形態の任意の可読文書を含むことができる。文書は、少なくとも１つのレイアウトコンポーネント（例えば、段落、要約、テキスト、画像など）を含むことができる。文書の読み順を望むことができる。文書を表す画像例は、図７に示す画像７０５－１、７０５－１－２とすることができる。

【0049】

任意選択的なステップであるステップＳ４１０において、画像に対して光学文字認識（ＯＣＲ）が（例えば、テキスト情報と視覚情報とを識別および／または分離するために）実行される。例えば、ＯＣＲは、スキャンされた文書または画像ファイルからデータを抽出し、次いで、テキストを、後に追加のデータ処理に使用することができる機械可読形式に変換する（例えば、コンピューティングデバイスによって実行される）プロセスとすることができる。実施態様例では、ＯＣＲを使用して画像からテキストベースのデータを抽出することができる。テキストベースのデータは、畳み込みを使用して抽出することができる。言い換えれば、ＯＣＲは、機械学習を使用して実行することができる。いくつかの実施態様では、機械学習は、ニューラルネットワークおよび／または畳み込み演算（例えば、２Ｄ畳み込み演算）を含んでもよい。したがって、ＯＣＲは、（例えば、文書を表す）入力画像のレイアウトコンポーネントに関連付けられたテキストベースのデータを含む少なくとも１つの配列を含む、埋め込みまたはテキスト埋め込みを生成することができる。ベクトルのテキストベースのデータは、単語の類似度、関連する単語のグループ化、テキストの分類または特徴、文書のクラスタリング（例えば、文書内の位置）、自然言語などを表すデータ（例えば、数値）を含むことができる。例えば、図３を参照すると、コンポーネントモデル３１５は、少なくとも文書１０５に対するＯＣＲプロセスを実行するために、畳み込み３２５を使用するように構成することができる。上述したように、コンポーネントモデル３１５は、少なくとも１つのレイアウトコンポーネント（例えば、段落、要約、テキスト、画像など）を特定するように構成することができる。加えて、少なくとも１つのレイアウトコンポーネントがテキストを含む画像を含む場合、コンポーネントモデル３１５は、テキストに対してＯＣＲ動作を実行するように構成することができる。例えば、埋め込み３３０の複数のベクトル３５０のうちの１つまたは複数は、ＯＣＲされたテキストを含むことができる。

【0050】

ステップＳ４１５において、画像に基づいて視覚的埋め込みが生成される。例えば、視覚的埋め込みは、（例えば、文書を表す）入力画像のレイアウトコンポーネントに関連付けられたデータまたは視覚データ（例えば、画像に関連付けられた情報および／または特徴）を含む少なくとも１つの配列を含むことができる。視覚データは、文書内の位置、およびテキスト（例えば、画像に関連付けられたヘッダ）との関係を含むことができる。視覚データは、色、画像のタイプ（例えば、サムネイル、見出しなど）、画像の内容（例えば、人間、車、グラフなど）などを含むことができる。実施態様例では、画像に関連付けられた（例えば、ランダムな順序で配列されている）レイアウトコンポーネントを特定し、視覚的埋め込みとして符号化することができる。言い換えれば、レイアウトコンポーネントに関連付けられた情報をデータ構造に格納し、レイアウトコンポーネントがランダムな順序で配列されるようにラベル付けすることができる。情報および／またはデータ構造は、埋め込みとして符号化することができる。したがって、エンコーダ１１０は、レイアウトコンポーネントを表す（ランダム順シーケンスを含む）情報を含む埋め込みを生成するように構成することができる。例えば、図３を参照すると、コンポーネントモデル３１５は、畳み込み３２５を使用して、文書１０５に関連付けられた画像に基づいて生成される視覚的埋め込みを生成するように構成することができる。

【0051】

埋め込みを使用して、離散変数を連続ベクトルとして表現することができる。言い換えれば、埋め込みは、離散（例えば、カテゴリ）変数の連続数値のベクトルへのマッピングとすることができる。視覚的埋め込みは、レイアウトコンポーネントを特定し、特定されたレイアウトコンポーネントを分類し、分類された、特定されたレイアウトコンポーネントに基づいて埋め込みを生成するようにトレーニングされる（例えば、事前トレーニングされる）ことを含む、埋め込みを生成するようにトレーニングされた（例えば、事前トレーニングされた）ニューラルネットワーク（例えば、ディープラーニング、２次元（２Ｄ）畳み込みニューラルネットワーク（ＣＮＮ））を使用して生成することができる。ニューラルネットワークのトレーニングは、ラベル付けされた（したがって、特定された）レイアウトコンポーネントを有する画像を使用することを含むことができる。トレーニングは、教師あり学習技術を使用することを含むことができる。

【0052】

ステップＳ４２０において、ＯＣＲ出力は、実行された場合、視覚的埋め込みと組み合わされる。例えば、上述したように、ＯＣＲは、（例えば、文書を表す）入力画像のレイアウトコンポーネントに関連付けられたテキストベースのデータを含む少なくとも１つの配列を含む埋め込みを生成することができる。ＯＣＲによって生成された埋め込みは、視覚的埋め込みと同じ構造を有することができる。したがって、ＯＣＲ出力を視覚的埋め込みと組み合わせることにより、レイアウトコンポーネントに関連付けられたテキスト情報および視覚情報を含む埋め込みを生成することができる。組み合わせは、テキスト情報（例えば、配列要素）を視覚情報（例えば、配列要素）と連結することを含むことができる。例えば、図３を参照すると、レイアウトコンバイナ３３５は、テキスト埋め込みと視覚的埋め込みとを結合することができる。

【0053】

ステップＳ４２５において、組み合わされたＯＣＲ出力および視覚的埋め込みを復号することによって、画像内のレイアウトコンポーネントに対する読み順が生成される（すなわち、予測される）。例えば、組み合わされたＯＣＲ出力および視覚的埋め込みは、セルフアテンションエンコーダによって処理することができる。セルフアテンションエンコーダ（例えば、セルフアテンションエンコーダ２０５、３４０）は、コンテキスト埋め込み（例えば、コンテキスト埋め込み３４５）を生成するように構成することができる。生成されたコンテキスト埋め込みは、セルフアテンションデコーダ（例えば、セルフアテンションデコーダ２１５、３５５）によって処理することができる。セルフアテンションデコーダは、図３に関して本明細書で説明したようにコンテキスト埋め込みに基づいて、順序付けられたレイアウトコンポーネントとして、読み順を生成するように構成することができる。したがって、セルフアテンションエンコーダはセルフアテンションエンコーダ３４０とすることができ、セルフアテンションデコーダはセルフアテンションデコーダ３５５とすることができ、埋め込みはコンテキスト埋め込み３４５とすることができる。

【0054】

図５は、実施態様例によるシステムのブロック図を示す。図５の例では、システム（例えば、拡張現実システム、仮想現実システム、および／または文書を読み取る（例えば、テキスト音声変換する、翻訳する）ように構成された任意のシステム）は、コンピューティングシステムまたは少なくとも１つのコンピューティングデバイスを含むことができ、本明細書で説明する技術を実行するように構成された実質的に任意のコンピューティングデバイスを表すと理解されるべきである。このように、デバイスは、本明細書で説明する技術、またはその異なるバージョンもしくは将来のバージョンを実装するために利用することができる、さまざまな構成要素を含むように理解してもよい。一例として、システムは、プロセッサ５０５およびメモリ５１０（例えば、非一時的コンピュータ可読メモリ）を含むことができる。プロセッサ５０５とメモリ５１０とは、バス５１５によって結合する（例えば、通信可能に結合する）ことができる。

【0055】

プロセッサ５０５を利用して、少なくとも１つのメモリ５１０に格納された命令を実行することができる。したがって、プロセッサ５０５は、本明細書で説明したさまざまな特徴および機能、または追加のもしくは代替的な特徴および機能を実行することができる。プロセッサ５０５および少なくとも１つのメモリ５１０は、他のさまざまな目的に利用してもよい。例えば、少なくとも１つのメモリ５１０は、本明細書で説明したモジュールのうちの任意の１つを実行するために使用することができるさまざまなタイプのメモリならびに関連するハードウェアおよびソフトウェアの一例を表すことができる。

【0056】

少なくとも１つのメモリ５１０は、デバイスに関連付けられたデータおよび／または情報を格納するように構成することができる。少なくとも１つのメモリ５１０は、共有リソースであってもよい。したがって、少なくとも１つのメモリ５１０は、より大きいシステム内の他の要素（例えば、画像／ビデオ処理または有線／無線通信）に関連付けられたデータおよび／または情報を格納するように構成してもよい。プロセッサ５０５および少なくとも１つのメモリ５１０をともに利用して、本明細書で説明した技術を実行することができる。このように、本明細書で説明した技術は、メモリ５１０に格納され、プロセッサ５０５によって実行されるコードセグメント（例えば、ソフトウェア）として実行することができる。したがって、メモリ５１０は、コンポーネントモデル３１５、読み順モデル３２０、およびレイアウトコンバイナ３３５を含むことができる。

【0057】

上記で考察したように、コンポーネントモデル３１５は、文書を入力として使用して、少なくとも１つのコンポーネント（例えば、段落、要約、テキスト、画像など）をレイアウトコンポーネントとして特定するように構成することができる。コンポーネントモデル３１５は、レイアウトコンポーネントに関連付けられたテキスト情報に対応する埋め込みと、レイアウトコンポーネントに関連付けられた視覚情報に対応する埋め込みとを生成するように構成することができる。レイアウトコンバイナ３３５は、レイアウトコンポーネントに関連付けられたテキスト情報に対応する埋め込みを、レイアウトコンポーネントに関連付けられた視覚情報に対応する埋め込みと連結するように構成することができる。読み順モデル３２０は、セルフアテンションエンコーダ／デコーダを使用して、結合された埋め込みに基づいて、順序付けられたレイアウトコンポーネントを予測する（または生成する）ように構成することができる。

【0058】

実施態様は、以下の例の１つまたは複数、および／またはそれらの組み合わせを含むことができる。

【0059】

例１．複数のレイアウトコンポーネントを含む文書を表す画像を受け取ることと、複数のレイアウトコンポーネントに関連付けられたテキスト情報を特定することと、複数のレイアウトコンポーネントに関連付けられた視覚情報を特定することと、テキスト情報を視覚情報と組み合わせることと、セルフアテンションエンコーダ／デコーダを使用して、組み合わされたテキスト情報および視覚情報に基づいて、複数のレイアウトコンポーネントの読み順を予測することとを含む方法。

【0060】

例２．例１に記載された方法であって、テキスト情報の特定は、画像からテキストベースのデータを抽出することを含むことができる。

【0061】

例３．例２に記載された方法であって、テキストベースのデータの抽出は、テキスト情報を含む埋め込みを生成するように構成されたニューラルネットワークを使用することを含むことができる。

【0062】

例４．例３に記載された方法であって、ニューラルネットワークは、テキストデータを埋め込みにマッピングする事前トレーニングされたニューラルネットワークとすることができ、配列が、複数のレイアウトコンポーネントの各レイアウトコンポーネントに関連付けられたテキストベースのデータを含む要素を含むことができる。

【0063】

例５．例１～例４のいずれかに記載された方法であって、視覚情報の特定は、画像から視覚ベースのデータを抽出することを含むことができる。

【0064】

例６．例５に記載された方法であって、視覚ベースのデータの抽出は、視覚情報を含む埋め込みを生成するように構成されたニューラルネットワークを使用することを含むことができる。

【0065】

例７．例６に記載された方法であって、ニューラルネットワークは、２次元畳み込み演算とすることができ、埋め込みは配列を含むことができ、配列は、複数のレイアウトコンポーネントの各々に関連付けられた視覚ベースのデータを含む要素を含むことができる。

【0066】

例８．例６に記載された方法であって、ニューラルネットワークは、複数の２次元畳み込み演算を含むことができ、埋め込みは、関連するレイアウトコンポーネントに関連付けられた視覚ベースのデータと、少なくとも１つの追加のレイアウトコンポーネントに関連付けられた視覚ベースのデータとを含む要素を含む配列を含むことができる。

【0067】

例９．例１～例８のいずれかに記載された方法であって、テキスト情報を、第１の埋め込みに関連付けることができ、視覚情報を、第２の埋め込みに関連付けることができ、テキスト情報の視覚情報との組み合わせは、第１の埋め込みを第２の埋め込みと連結することを含むことができる。

【0068】

例１０．例１～例９のいずれかに記載された方法であって、セルフアテンションエンコーダ／デコーダは、複数のレイアウトコンポーネントに関連付けられた第１のシーケンスに基づいて埋め込みを生成するように構成されたセルフアテンションエンコーダを含むことができる。第１のシーケンスは第１の順序を有する。セルフアテンションエンコーダ／デコーダは、埋め込みに基づいて第２のシーケンスを生成するように構成されたセルフアテンションデコーダをさらに含むことができる。第２のシーケンスは第２の順序を有する。

【0069】

例１１．例１～例１０のいずれかに記載された方法であって、セルフアテンションエンコーダ／デコーダは、セット内の要素の対の間の関係を重み付けし、要素に対する埋め込みを生成するように構成されたセルフアテンションエンコーダを含むことができる。

【0070】

例１２．例１～例１１のいずれかに記載された方法であって、セルフアテンションエンコーダ／デコーダは、組み合わされたテキスト情報および視覚情報に基づいて、埋め込み内の各要素の影響を決定するように構成されたセルフアテンションエンコーダを含むことができる。

【0071】

例１３．例１～例１２のいずれかに記載された方法であって、セルフアテンションエンコーダ／デコーダは、自己回帰推論として動作するように構成されたセルフアテンションデコーダを含むことができる。

【0072】

例１４．例１～例１３のいずれかに記載された方法であって、セルフアテンションエンコーダ／デコーダは、複数のレイアウトコンポーネントに関連付けられた読み順で次のレイアウトコンポーネントを自己回帰的に予測するように構成されたセルフアテンションデコーダを含むことができる。

【0073】

例１５．例１～例１４のいずれかに記載された方法であって、セルフアテンションエンコーダ／デコーダは、セルフアテンションエンコーダおよびセルフアテンションデコーダを含むことができ、セルフアテンションデコーダは、セルフアテンションエンコーダの要素とセルフアテンションデコーダへの入力との間でＱＫＶ外積を実行するように構成することができる。

【0074】

例１６．少なくとも１つのプロセッサによって実行されると、コンピューティングシステムに例１～例１５のいずれかに記載された方法を実行させるように構成されている命令が格納されている、非一時的コンピュータ可読記憶媒体。

【0075】

例１７．例１～例１５のいずれかに記載の方法を実行する手段を備えた装置。
例１８．少なくとも１つのプロセッサと、コンピュータプログラムコードを含む少なくとも１つのメモリとを備える装置であって、少なくとも１つのメモリおよびコンピュータプログラムコードは、少なくとも１つのプロセッサにより、装置に少なくとも例１～例１５のいずれかに記載された方法を実行させるように構成されている。

【0076】

図６は、説明した技術で使用することができる、コンピュータデバイス６００およびモバイルコンピュータデバイス６５０の一例を示す。コンピューティングデバイス６００は、プロセッサ６０２と、メモリ６０４と、記憶デバイス６０６と、メモリ６０４および高速拡張ポート６１０に接続する高速インターフェース６０８と、低速バス６１４およびストレージデバイス６０６に接続する低速インターフェース６１２とを含む。構成要素６０２、６０４、６０６、６０８、６１０、および６１２の各々は、さまざまなバスを使用して相互接続されており、共通のマザーボード上に、または必要に応じて他の方法で、搭載することができる。プロセッサ６０２は、コンピューティングデバイス６００内で実行される命令を処理することができ、これらの命令は、高速インターフェース６０８に結合されたディスプレイ６１６などの外部入出力デバイス上にＧＵＩのためのグラフィカル情報を表示するために、メモリ６０４または記憶デバイス６０６に格納された命令を含む。他の実施態様では、複数のメモリおよび複数のタイプのメモリとともに、必要に応じて、複数のプロセッサおよび／または複数のバスを使用してもよい。また、複数のコンピューティングデバイス６００を接続して、（例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）各デバイスが必要な動作の一部を提供してもよい。

【0077】

メモリ６０４は、コンピューティングデバイス６００内の情報を格納する。１つの実施態様では、メモリ６０４は、１つの揮発性メモリユニットまたは複数の揮発性メモリユニットである。別の実施態様では、メモリ６０４は、１つの不揮発性メモリユニットまたは複数の不揮発性メモリユニットである。メモリ６０４は、磁気ディスクまたは光ディスクなどの別の形態のコンピュータ可読媒体であってもよい。

【0078】

記憶デバイス６０６は、コンピューティングデバイス６００に大容量記憶領域を提供することが可能である。１つの実施態様では、記憶デバイス６０６は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークもしくは他の構成のデバイスを含むデバイスの配列などのコンピュータ可読媒体であるか、またはそのようなコンピュータ可読媒体を含むことができる。コンピュータプログラム製品は、情報担体において有形に具現化することができる。コンピュータプログラム製品は、実行されると上述したような１つまたは複数の方法を実行する命令も含むことができる。情報担体は、メモリ６０４、記憶デバイス６０６、またはプロセッサ６０２上のメモリなどのコンピュータ可読媒体または機械可読媒体である。

【0079】

高速コントローラ６０８は、コンピューティングデバイス６００の帯域幅を大量に使用する動作を管理し、一方、低速コントローラ６１２は、帯域幅をそれほど大量に使用しない動作を管理する。こうした機能の割り当ては、単に例示的なものである。１つの実施態様では、高速コントローラ６０８は、メモリ６０４、（例えば、グラフィックプロセッサまたはアクセラレータを介して）ディスプレイ６１６に、かつ、さまざまな拡張カード（図示せず）を受け入れることができる高速拡張ポート６１０に結合されている。実施態様では、低速コントローラ６１２は、記憶デバイス６０６および低速拡張ポート６１４に結合されている。さまざまな通信ポート（例えば、ＵＳＢ、Ｂｌｕｅｔｏｏｔｈ、Ｅｔｈｅｒｎｅｔ、無線Ｅｔｈｅｒｎｅｔ）を含むことができる低速拡張ポートは、キーボード、ポインティングデバイス、スキャナなどの１つまたは複数の入出力デバイス、または、例えばネットワークアダプタを介して、スイッチまたはルータなどのネットワーキングデバイスに結合することができる。

【0080】

コンピューティングデバイス６００は、図に示すように、多数の異なる形態で実装することができる。例えば、標準サーバ６２０として、またはそのようなサーバのグループで複数回、実装してもよい。コンピューティングデバイス６００はまた、ラックサーバシステム６２４の一部として実装してもよい。加えて、ラップトップコンピュータ６２２などのパーソナルコンピュータに実装してもよい。代替的に、コンピューティングデバイス６００からのコンポーネントは、デバイス６５０などのモバイルデバイス（図示せず）内の他のコンポーネントと組み合わせてもよい。このようなデバイスの各々は、１つまたは複数のコンピューティングデバイス６００、６５０を含むことができ、システム全体は、互いに通信する複数のコンピューティングデバイス６００、６５０で構成することができる。

【0081】

コンピューティングデバイス６５０は、他のコンポーネントもあるがとりわけ、プロセッサ６５２と、メモリ６６４と、ディスプレイ６５４などの入出力デバイスと、通信インターフェース６６６と、トランシーバ６６８とを含む。デバイス６５０には、追加の記憶領域を提供するために、マイクロドライブまたは他のデバイスなどの記憶デバイスを設けてもよい。コンポーネント６５０、６５２、６６４、６５４、６６６、および６６８の各々は、さまざまなバスを使用して相互接続されており、コンポーネントのうちのいくつかは、共通のマザーボード上に、または必要に応じて他の方法で搭載することができる。

【0082】

プロセッサ６５２は、メモリ６６４に格納された命令を含む、コンピューティングデバイス６５０内の命令を実行することができる。プロセッサは、別個のかつ複数のアナログプロセッサおよびデジタルプロセッサを含むチップのチップセットとして実装してもよい。プロセッサは、例えば、ユーザインターフェース、デバイス６５０によって実行されるアプリケーション、およびデバイス６５０による無線通信の制御など、デバイス６５０の他のコンポーネントの調整を可能にすることができる。

【0083】

プロセッサ６５２は、ディスプレイ６５４に結合された制御インターフェース６５８およびディスプレイインターフェース６５６を介してユーザと通信することができる。ディスプレイ６５４は、例えば、ＴＦＴＬＣＤ（薄膜トランジスタ液晶ディスプレイ）、およびＬＥＤ（発光ダイオード）もしくはＯＬＥＤ（有機発光ダイオード）ディスプレイ、または他の適切なディスプレイ技術であってもよい。ディスプレイインターフェース６５６は、ディスプレイ６５４を駆動してグラフィカルな情報および他の情報をユーザに提示するための適切な回路を含むことができる。制御インターフェース６５８は、ユーザからコマンドを受け取り、それらをプロセッサ６５２に送出するために変換することができる。加えて、デバイス６５０の他のデバイスとの近距離通信を可能にするように、プロセッサ６５２と通信するように外部インターフェース６６２を設けてもよい。外部インターフェース６６２は、例えば、いくつかの実施態様では有線通信を、または他の実施態様では無線通信を提供することができ、複数のインターフェースを使用してもよい。

【0084】

メモリ６６４は、コンピューティングデバイス６５０内の情報を格納する。メモリ６６４は、１つのコンピュータ可読媒体もしくは複数のコンピュータ可読媒体、１つの揮発性メモリユニットもしくは複数の揮発性メモリユニット、または１つの不揮発性メモリユニットもしくは複数の不揮発性ユニットのうちの１つまたは複数として実装することができる。拡張メモリ６７４を設け、拡張インターフェース６７２を介してデバイス６５０に接続してもよく、それは、例えばＳＩＭＭ（シングルインラインメモリモジュール（Single In-Line Memory Module））カードインターフェースを含んでもよい。このような拡張メモリ６７４は、デバイス６５０のための追加の記憶空間を提供することができ、または、デバイス６５０のためのアプリケーションまたは他の情報を記憶することもできる。具体的には、拡張メモリ６７４は、上記に説明したプロセスを実行または補足する命令を含んでもよく、セキュアな情報もまた含んでもよい。したがって、例えば、拡張メモリ６７４は、デバイス６５０のセキュリティモジュールとして設けてもよく、デバイス６５０のセキュアな使用を可能にする命令でプログラムしてもよい。加えて、ＳＩＭＭカードに識別情報をハッキング不可能な方法で置くなど、ＳＩＭＭカードを介して、セキュアアプリケーションを追加情報とともに提供してもよい。

【0085】

メモリは、後に考察するように、例えば、フラッシュメモリおよび／またはＮＶＲＡＭメモリを含むことができる。１つの実施態様では、コンピュータプログラム製品は、情報担体において有形に具現化される。コンピュータプログラム製品は、実行されると上記に説明したような１つまたは複数の方法を実行する命令を含む。情報担体は、例えば、トランシーバ６６８または外部インターフェース６６２を介して受けることができる、メモリ６６４、拡張メモリ６７４、またはプロセッサ６５２上のメモリ（memory on processor 652, that may be received,）などの、コンピュータ可読媒体または機械可読媒体である。

【0086】

デバイス６５０は、必要な場合はデジタル信号処理回路を含むことができる通信インターフェース６６６を介して、無線通信することができる。通信インターフェース６６６は、とりわけ、ＧＳＭ音声通話、ＳＭＳ、ＥＭＳ、もしくはＭＭＳメッセージング、ＣＤＭＡ、ＴＤＭＡ、ＰＤＣ、ＷＣＤＭＡ（登録商標）、ＣＤＭＡ２０００、またはＧＰＲＳなどのさまざまなモードまたはプロトコルでの通信を可能にすることができる。このような通信は、例えば、無線周波数トランシーバ６６８を介して行うことができる。加えて、Ｂｌｕｅｔｏｏｔｈ、Ｗｉ－Ｆｉ、または他のそのようなトランシーバ（図示せず）を使用するなどして、近距離通信を行ってもよい。加えて、ＧＰＳ（全地球測位システム）受信機モジュール６７０が、追加のナビゲーションおよび位置関連の無線データをデバイス６５０に提供することができ、そうしたデータは、デバイス６５０上で実行しているアプリケーションが必要に応じて使用することができる。

【0087】

デバイス６５０はまた、音声コーデック６６０を使用して可聴的に通信することもでき、音声コーデック６６０は、ユーザから発話情報を受け取り、それを使用可能なデジタル情報に変換することができる。音声コーデック６６０は、同様に、例えば、デバイス６５０のハンドセット内のスピーカなどを通じて、ユーザのために可聴音を生成してもよい。このような音は、音声通話からの音を含んでもよく、録音された音（音声メッセージ、音楽ファイルなど）を含んでもよく、デバイス６５０上で動作するアプリケーションによって生成された音もまた含んでもよい。

【0088】

コンピューティングデバイス６５０は、図に示すように、多くの異なる形態で実装することができる。例えば、コンピューティングデバイス６５０は、携帯電話６８０として実装してもよい。コンピューティングデバイス６５０はまた、スマートフォン６８２、携帯情報端末、または他の同様のモバイルデバイスの一部として実施態様してもよい。

【0089】

本明細書で説明したシステムおよび技術のさまざまな実施態様は、デジタル電子回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実現することができる。これらのさまざまな実施態様は、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および／または解釈可能な１つまたは複数のコンピュータプログラムでの実施態様を含むことができ、プログラマブルプロセッサは、記憶システム、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイスからデータおよび命令を受け取り、それらにデータおよび命令を送出するように結合された、専用または汎用のプロセッサであってもよい。

【0090】

（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる）これらのコンピュータプログラムは、プログラマブルプロセッサ用の機械命令を含み、高水準手続き型および／またはオブジェクト指向プログラミング言語で、かつ／またはアセンブリ／機械言語で実装することができる。本明細書で用いる場合の「機械可読媒体」、「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受け取る機械可読媒体を含む、機械命令および／またはデータをプログラマブルプロセッサに提供するために使用される、任意のコンピュータプログラム製品、装置、および／またはデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指す。「機械可読信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。

【0091】

ユーザとのインタラクションを提供するために、本明細書で説明したシステムおよび技術は、ユーザに情報を表示する表示デバイス（ＬＥＤ（発光ダイオード）、またはＯＬＥＤ（有機ＬＥＤ）、またはＬＣＤ（液晶ディスプレイ）モニタ／スクリーン）と、ユーザがコンピュータに入力を提供することができるキーボードおよびポインティングデバイス（例えばマウスまたはトラックボール）とを有するコンピュータ上で実装することができる。他の種類のデバイスを使用して、ユーザとのインタラクションを同様に提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）とすることができ、ユーザからの入力は、音響入力、音声入力、または触覚入力を含む任意の形式で受け取ることができる。

【0092】

本明細書で説明したシステムおよび技術は、（例えば、データサーバとして）バックエンドコンポーネントを含むコンピューティングシステム、またはミドルウェアコンポーネント（例えば、アプリケーションサーバ）を含むコンピューティングシステム、またはフロントエンドコンポーネント（例えば、ユーザが本明細書で説明したシステムおよび技術の実施態様とインタラクトすることができるグラフィカルユーザインターフェースまたはウェブブラウザを有するクライアントコンピュータ）を含むコンピューティングシステム、またはそのようなバックエンド、ミドルウェア、またはフロントエンドコンポーネントの任意の組み合わせで実装することができる。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体（例えば、通信ネットワーク）によって相互接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク（「ＬＡＮ」）、広域ネットワーク（「ＷＡＮ」）、およびインターネットなどが挙げられる。

【0093】

コンピューティングシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは、一般に、互いに遠隔であり、通常、通信ネットワークを介して相互作用する。クライアントとサーバとの関係は、それぞれのコンピュータ上で実行しており、互いにクライアントとサーバの関係を有する、コンピュータプログラムによって生じる。

【0094】

いくつかの実施態様では、図に示すコンピューティングデバイスは、ＡＲヘッドセット／ＨＭＤデバイス６９０とインターフェースして、挿入されたコンテンツを物理空間内で見るための拡張環境を生成するセンサを含むことができる。例えば、コンピューティングデバイス６５０または図に示す他のコンピューティングデバイスに含まれる１つまたは複数のセンサは、ＡＲヘッドセット／ＨＭＤデバイス６９０に入力を提供することができ、または、概して、ＡＲ空間に入力を提供することができる。センサは、限定されないが、タッチスクリーン、加速度計、ジャイロスコープ、圧力センサ、生体認証センサ、温度センサ、湿度センサ、および周囲光センサを含むことができる。コンピューティングデバイス６５０は、センサを使用して、ＡＲ空間におけるコンピューティングデバイスの絶対位置および／または検出された回転を決定することができ、こうした位置および／または回転は、その後、ＡＲ空間への入力として使用することができる。例えば、コンピューティングデバイス６５０は、コントローラ、レーザーポインタ、キーボード、武器などの仮想オブジェクトとしてＡＲ空間に組み込むことができる。ＡＲ空間に組み込まれると、ユーザによるコンピューティングデバイス／仮想オブジェクトの位置決めにより、ユーザは、ＡＲ空間においていくつかの態様で仮想オブジェクトを見るようにコンピューティングデバイスを位置決めすることができる。例えば、仮想オブジェクトがレーザーポインタを表している場合、ユーザはそれが実際のレーザーポインタであるかのようにコンピューティングデバイスを操作することができる。ユーザは、コンピューティングデバイスを左右に、上下に、円形などに動かし、レーザーポインタを使用するのと同様の方法でデバイスを使用することができる。いくつかの実施態様では、ユーザは、仮想レーザーポインタを使用して目標位置にねらいを定めることができる。

【0095】

いくつかの実施態様では、コンピューティングデバイス６５０に含まれるかまたはコンピューティングデバイス６５０に接続される、１つまたは複数の入力デバイスを、ＡＲ空間への入力として使用することができる。入力デバイスとしては、限定されないが、タッチスクリーン、キーボード、１つまたは複数のボタン、トラックパッド、タッチパッド、ポインティングデバイス、マウス、トラックボール、ジョイスティック、カメラ、マイクロフォン、入力機能を有するイヤホンまたはバッド（bud）、ゲームコントローラ、または他の接続可能な入力デバイスを挙げることができる。コンピューティングデバイスがＡＲ空間に組み込まれたときに、コンピューティングデバイス６５０に含まれる入力デバイスとインタラクトするユーザが、ＡＲ空間で特定の行為を生じさせることができる。

【0096】

いくつかの実施態様では、コンピューティングデバイス６５０のタッチスクリーンは、ＡＲ空間においてタッチパッドとしてレンダリングすることができる。ユーザは、コンピューティングデバイス６５０のタッチスクリーンとインタラクトすることができる。インタラクションは、例えばＡＲヘッドセット／ＨＭＤデバイス６９０において、ＡＲ空間内のレンダリングされたタッチパッド上の動きとしてレンダリングされる。レンダリングされた動きは、ＡＲ空間内の仮想オブジェクトを制御することができる。

【0097】

いくつかの実施態様では、コンピューティングデバイス６５０に含まれる１つまたは複数の出力デバイスは、ＡＲ空間においてＡＲヘッドセット／ＨＭＤデバイス６９０のユーザに出力および／またはフィードバックを提供することができる。出力およびフィードバックは、視覚的、触覚的、または聴覚的であり得る。出力および／またはフィードバックは、限定されないが、振動、１つまたは複数の照明またはストロボのオン／オフまたは点滅および／または閃光、アラームの鳴動、チャイムの再生、曲の再生、およびオーディオファイルの再生を含むことができる。出力デバイスとしては、限定されないが、振動モータ、振動コイル、圧電デバイス、静電デバイス、発光ダイオード（ＬＥＤ）、ストロボ、およびスピーカを挙げることができる。

【0098】

いくつかの実施態様では、コンピューティングデバイス６５０は、コンピュータが生成した３Ｄ環境内の別のオブジェクトとして現れることができる。ユーザによるコンピューティングデバイス６５０とのインタラクション（例えば、回転させること、振ること、タッチスクリーンに触れること、タッチスクリーンを横切って指をスワイプすること）は、ＡＲ空間内のオブジェクトとのインタラクションとして解釈することができる。ＡＲ空間内のレーザーポインタの例では、コンピューティングデバイス６５０は、コンピュータが生成した３Ｄ環境内の仮想レーザーポインタとして現れる。ユーザがコンピューティングデバイス６５０を操作すると、ＡＲ空間内のユーザはレーザーポインタの動きを見る。ユーザは、コンピューティングデバイス６５０においてまたはＡＲヘッドセット／ＨＭＤデバイス６９０において、ＡＲ環境におけるコンピューティングデバイス６５０とのインタラクションからのフィードバックを受け取る。ユーザのコンピューティングデバイスとのインタラクションは、制御可能なデバイスのＡＲ環境において生成されるユーザインターフェースとのインタラクションに変換してもよい。

【0099】

いくつかの実施態様では、コンピューティングデバイス６５０は、タッチスクリーンを含むことができる。例えば、ユーザは、タッチスクリーンとインタラクトして、制御可能なデバイスのユーザインターフェースとインタラクトすることができる。例えば、タッチスクリーンは、制御可能なデバイスの特性を制御することができるスライダなどのユーザインターフェース要素を含むことができる。

【0100】

コンピューティングデバイス６００は、限定されないが、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータを含む、さまざまな形態のデジタルコンピュータおよびデバイスを表すように意図されている。コンピューティングデバイス６５０は、携帯情報端末、携帯電話、スマートフォン、および他の同様のコンピューティングデバイスなど、さまざまな形態のモバイルデバイスを表すように意図されている。ここに示す構成要素、それらの接続および関係、ならびにそれらの機能は、単に例示であるように意図されており、本文書で説明および／または特許請求する本発明の実施態様を制限するようには意図されていない。

【0101】

多くの実施態様について説明してきた。それにもかかわらず、本明細書の趣旨および範囲から逸脱することなく、さまざまな変更が行うことができることが理解されよう。

【0102】

加えて、図に示す論理フローは、望ましい結果を達成するために、図示した特定の順序、または連続した順序を必要としない。加えて、他のステップを提供してもよく、または、説明したフローからステップを削除してもよく、説明したシステムに他の構成要素を追加してもよく、または説明したシステムから構成要素を除去してもよい。したがって、他の実施態様も以下の特許請求の範囲内にある。

【0103】

上記の説明に加えて、ユーザに、本明細書で説明したシステム、プログラム、または特徴が、ユーザ情報（例えば、ユーザの社会的ネットワーク、社会的行為もしくは活動、職業、ユーザの嗜好、またはユーザの現在位置に関する情報）の収集を可能にしてもよいか否か、およびいつ可能にしてよいか、ならびにユーザにサーバからコンテンツまたは通信が送られるか否かの両方に関して、ユーザが選択を行うことを可能にする制御手段を提供してもよい。加えて、あるデータを、それが格納または使用される前に、個人を特定できる情報が削除されるように、１つまたは複数の方法で処理してもよい。例えば、ユーザの身元を、そのユーザについて個人を特定できる情報を決定することができないように処理してもよく、または、位置情報が取得されるユーザの地理的位置（都市、郵便番号、または州レベルまでなど）を一般化して、ユーザの特定の位置を決定することができないようにしてもよい。このように、ユーザは、ユーザに関するいかなる情報が収集されるか、その情報がどのように使用されるか、およびいかなる情報がユーザに提供されるかを制御することができる。

【0104】

説明した実施態様のいくつかの特徴について本明細書で説明したように例示したが、当業者には、多くの改変、置換、変更、および均等物が想到されよう。したがって、添付の特許請求の範囲は、実施態様の範囲内に入るようなすべてのそのような改変および変更を包含するように意図されていることが理解されよう。実施態様は、限定ではなく、単に例示として提示されており、形態および詳細におけるさまざまな変更を行ってもよいことが理解されるべきである。本明細書で説明した装置および／または方法の任意の部分を、相互に排他的な組み合わせを除き、任意の組み合わせで組み合わせることができる。本明細書で説明した実施態様は、説明した異なる実施態様の機能、構成要素、および／または特徴のさまざまな組み合わせおよび／またはサブコンビネーションを含むことができる。

【0105】

実施態様例はさまざまな変更および代替形態を含むことができるが、その実施態様を図面に例として示しており、それらについて本明細書で詳細に説明する（will herein be described）。しかしながら、実施態様例を開示した特定の形態に限定する意図はなく、対照的に、実施態様例は、特許請求の範囲にあるすべての変更形態、均等物、および代替形態を包含するものであることが理解されるべきである。図の説明全体を通して、同様の番号は同様の要素を指す。

【0106】

上記の実施態様例のうちのいくつかは、フローチャートとして示したプロセスまたは方法として説明している。フローチャートは、動作を逐次的なプロセスとして説明しているが、動作の多くは並行して、併せて、または同時に実行してもよい。加えて、動作の順序を並べ替えてもよい。プロセスは、それらの動作が完了した時点で終了してもよいが、図に含まれていない追加のステップを有していてもよい。プロセスは、方法、関数、手続き、サブルーチン、サブプログラムなどに対応することができる。

【0107】

一部をフローチャートによって例示している、上記で考察した方法は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組み合わせによって実装することができる。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実装する場合、必要なタスクを実行するためのプログラムコードまたはコードセグメントは、記憶媒体などの機械可読媒体またはコンピュータ可読媒体に格納することができる。プロセッサは、必要なタスクを実行することができる。

【0108】

本明細書に開示した具体的な構造的および機能的詳細は、実施態様例を説明する目的のために単に代表的なものである。しかしながら、実施態様例は、多くの代替形態で具現化することができ、本明細書に記載した実施態様のみに限定されると解釈されるべきではない。

【0109】

本明細書において、さまざまな要素を説明するために「第１の」、「第２の」などの用語を使用する場合があるが、これらの要素はこれらの用語によって限定されるべきではないことが理解されよう。これらの用語は、１つの要素を別の要素から区別するためにのみ使用されている。例えば、実施態様例の範囲から逸脱することなく、第１の要素を第２の要素と称することができ、同様に、第２の要素を第１の要素と称することができる。本明細書で使用する場合の「および／または」という用語は、関連する列挙した項目のうちの１つまたは複数のありとあらゆる組み合わせを含む。

【0110】

ある要素が別の要素に「接続または結合される」と言及されている場合、その要素は他の要素に直接接続または結合することができ、または介在要素が存在してもよいことが理解されよう。対照的に、ある要素が別の要素に「直接接続または直接結合される」と言及されている場合、介在要素は存在しない。要素間の関係を説明するために使用する他の言い回しも同様に解釈されるべきである（例えば、「間に」に対して「直接間に」、「隣接して」に対して「直接隣接して」など）。

【0111】

本明細書で使用する用語は、単に特定の実施態様を説明することを目的とするものであり、実施態様例を限定するようには意図されていない。本明細書で使用する場合の単数形の「１つの（a、an）」および「その（the）」は、文脈上明確な別段の指示がない限り、複数形も同様に含むように意図されている。「備える（comprises）」、「備えている（comprising）」、「含む（includes）」、および／または「含んでいる（including）」という用語は、本明細書で使用する場合、述べられている特徴、完全体、ステップ、動作、要素、および／または構成要素の存在を指定するが、１つまたは複数の他の特徴、完全体、ステップ、動作、要素、構成要素、および／またはそれらのグループの存在または追加を排除するものではないことがさらに理解されよう。

【0112】

また、いくつかの代替実施態様において、言及した機能／行為は、図に示した順序とは異なる順序で発生する可能性があることも留意されるべきである。例えば、連続して示す２つの図は、関係する機能／行為に応じて、実際には同時に実行してもよく、または、場合により逆の順序で実行してもよい。

【0113】

別段の定義がない限り、本明細書で使用する（技術用語および科学用語を含む）すべての用語は、実施態様例が属する技術分野における当業者によって一般的に理解されるものと同じ意味を有する。用語、例えば、一般的に使用される辞書において定義される用語は、関連技術の背景におけるそれらの意味と一致する意味を有するものとして解釈されるべきであり、本明細書において明示的な定義のない限り、理想化された意味または過度に形式的な意味で解釈されないことがさらに理解されよう。

【0114】

上記の実施態様例の一部、および対応する詳細な説明は、ソフトウェア、またはコンピュータメモリ内のデータビットに対する動作のアルゴリズムおよび記号表現に関して提示している。これらの記述および表現は、当業者が自身の研究内容を他の当業者に効果的に伝えるためのものである。アルゴリズムとは、その用語を本明細書で使用する場合、かつ一般的に使用されているように、所望の結果に至る自己矛盾のない一連のステップであると考えられる。ステップは、物理量の物理的操作を必要とするものである。通常、必ずしもではないが、これらの量は、格納し、転送し、結合し、比較し、他の方法で操作することができる光学、電気、または磁気信号の形式をとる。これらの信号をビット、値、要素、シンボル、文字、項、数などと呼ぶことは、主に一般的な使用の理由から、時に好都合であることが実証されている。

【0115】

上記の例示的な実施態様において、プログラムモジュールまたは機能プロセスとして実装することができる（例えば、フローチャートの形態での）動作の行為および記号表現への言及は、特定のタスクを実行するか、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含み、既存の構造要素において既存のハードウェアを使用して記述および／または実装することができる。このような既存のハードウェアとしては、１つまたは複数の中央処理装置（ＣＰＵ）、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）コンピュータなどを挙げることができる。

【0116】

しかしながら、これらのおよび同様の用語はすべて、適切な物理量と関連付けられるべきであり、これらの量に適用される好都合なラベルに過ぎないことが留意されるべきである。特に別段の定めのない限り、または考察から明らかであるように、「処理」または「演算」または「計算」または「決定」または「表示」などの用語は、コンピュータシステムまたは同様の電子コンピューティングデバイスの動作およびプロセスを指し、コンピュータシステムまたは同様の電子コンピューティングデバイスは、コンピュータシステムのレジスタおよびメモリ内の物理的な電子量として表されるデータを操作して、コンピュータシステムのメモリまたはレジスタまたは他のそのような情報記憶デバイス、伝送デバイスもしくは表示デバイス内の物理量として同様に表される他のデータに変換する。

【0117】

実施態様例のソフトウェアが実行する態様は、典型的には、何らかの形態の非一時的プログラム記憶媒体上で符号化されるか、または何らかのタイプの伝送媒体を介して実装されることも留意されたい。プログラム記憶媒体は、磁気記憶媒体（例えば、フロッピーディスクまたはハードドライブ）であっても、または光学記憶媒体（例えば、コンパクトディスクリードオンリメモリ、すなわちＣＤＲＯＭ）であっても、読み取り専用またはランダムアクセス記憶媒体であってもよい。同様に、伝送媒体は、撚り線対、同軸ケーブル、光ファイバ、または本技術分野で既知である他の好適な伝送媒体であってもよい。実施態様例は、任意の所与の実施態様のこれらの態様によって限定されない。

【0118】

最後に、添付の特許請求の範囲は、本明細書で説明した特徴の特定の組み合わせを記載しているが、本開示の範囲は、以下に特許請求する特定の組み合わせに限定されるものではなく、その代わりに、その特定の組み合わせが現時点で添付の特許請求の範囲に具体的に列挙されているか否かにかかわらず、本明細書で開示した特徴または実施態様の任意の組み合わせを包含するように広がることも留意されるべきである。

【図1】

【図2A】

【図2B】

【図3】

【図4】

【図5】

【図6】

【図7】

【手続補正書】

【提出日】2024-05-15

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

【請求項2】

前記テキスト情報の前記特定は、前記画像からテキストベースのデータを抽出することを含む、請求項１に記載の方法。

【請求項3】

【請求項4】

【請求項5】

前記視覚情報の前記特定は、前記画像から視覚ベースのデータを抽出することを含む、請求項１～請求項４のいずれかに記載の方法。

【請求項6】

【請求項7】

【請求項8】

【請求項9】

前記テキスト情報は、第１の埋め込みに関連付けられ、
前記視覚情報は、第２の埋め込みに関連付けられ、
前記テキスト情報の前記視覚情報との前記組み合わせは、前記第１の埋め込みを前記第２の埋め込みと連結することを含む、請求項１～請求項８のいずれかに記載の方法。

【請求項10】

前記セルフアテンションエンコーダ／デコーダは、
前記複数のレイアウトコンポーネントに関連付けられた第１のシーケンスに基づいて埋め込みを生成するように構成されたセルフアテンションエンコーダを含み、前記第１のシーケンスは第１の順序を有し、
前記埋め込みに基づいて第２のシーケンスを生成するように構成されたセルフアテンションデコーダを含み、前記第２のシーケンスは第２の順序を有する、請求項１～請求項９のいずれかに記載の方法。

【請求項11】

前記セルフアテンションエンコーダ／デコーダは、
セット内の要素の対の間の関係を重み付けし、
前記要素に対する埋め込みを生成するように構成されたセルフアテンションエンコーダを含む、請求項１～請求項１０のいずれかに記載の方法。

【請求項12】

【請求項13】

【請求項14】

【請求項15】

【請求項16】

少なくとも１つのプロセッサによって実行されると、コンピューティングシステムに請求項１～請求項１５のいずれかに記載の方法を実行させるように構成されている命令が格納されている、プログラム。

【請求項17】

請求項１～請求項１５のいずれかに記載の方法を実行する手段を備えた装置。

【請求項18】

装置であって、
少なくとも１つのプロセッサと、
コンピュータプログラムコードを含む少なくとも１つのメモリと、を備え、
前記少なくとも１つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサにより、前記装置に少なくとも請求項１～１５のいずれかに記載の方法を実行させるように構成されている、装置。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版