IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッドの特許一覧

<>
  • 特許-テキストの適合および修正の方法 図1
  • 特許-テキストの適合および修正の方法 図2
  • 特許-テキストの適合および修正の方法 図3
  • 特許-テキストの適合および修正の方法 図4A
  • 特許-テキストの適合および修正の方法 図4B
  • 特許-テキストの適合および修正の方法 図4C
  • 特許-テキストの適合および修正の方法 図5
  • 特許-テキストの適合および修正の方法 図6A
  • 特許-テキストの適合および修正の方法 図6B
  • 特許-テキストの適合および修正の方法 図6C
  • 特許-テキストの適合および修正の方法 図7
  • 特許-テキストの適合および修正の方法 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-07-18
(45)【発行日】2023-07-26
(54)【発明の名称】テキストの適合および修正の方法
(51)【国際特許分類】
   G06V 30/26 20220101AFI20230719BHJP
   G06V 30/00 20220101ALI20230719BHJP
   G06F 40/216 20200101ALI20230719BHJP
   G06F 40/232 20200101ALI20230719BHJP
【FI】
G06V30/26
G06V30/00 Z
G06F40/216
G06F40/232
【請求項の数】 20
【外国語出願】
(21)【出願番号】P 2019166366
(22)【出願日】2019-09-12
(65)【公開番号】P2020166810
(43)【公開日】2020-10-08
【審査請求日】2022-05-27
(31)【優先権主張番号】16/368,312
(32)【優先日】2019-03-28
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】507031918
【氏名又は名称】コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド
(74)【代理人】
【識別番号】110000671
【氏名又は名称】IBC一番町弁理士法人
(72)【発明者】
【氏名】シュバーン アガワル
(72)【発明者】
【氏名】ヨンミャン チャン
【審査官】新井 則和
(56)【参考文献】
【文献】米国特許出願公開第2016/0275070(US,A1)
【文献】特開平11-328318(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/26
G06V 30/00
G06F 40/232
G06F 40/216
(57)【特許請求の範囲】
【請求項1】
コンピューターシステムによって実行されるテキスト認識方法であって、
複数のNグラムによって定義された入力テキストに対して、各々が複数のNグラムによって定義された複数の出力候補テキストを取得するステップと、
各々の前記出力候補テキストについてテキスト適合スコアを計算するステップと、
前記入力テキストに対する出力テキストとするため、前記出力テキストの前記テキスト適合スコアに従って前記出力候補テキストの1つを選択するステップとを含み、
各々の前記出力候補テキストについての前記計算は、
前記入力テキストの各Nグラムおよび前記出力候補テキストの各Nグラムを含む複数のNグラムペア各々のNグラムスコアを決定するため、前記入力テキストのNグラムと、前記出力候補テキストのNグラムと、文字間混同可能性の一式とを使用し、
前記出力候補テキストの前記テキスト適合スコアを計算するため、1つ以上の前記Nグラムペアの前記Nグラムスコアを使用することを含む、テキスト認識方法。
【請求項2】
前記入力テキストは、複数の文字を含む一単語により構成されている、請求項1に記載のテキスト認識方法。
【請求項3】
前記入力テキストはスペースで区切られた複数の単語を含み、入力テキストのNグラムの少なくとも1つは前記スペースを含む、請求項1に記載のテキスト認識方法。
【請求項4】
前記出力テキストを、前記入力テキストを得た画像と関連付けるステップを更に含む、請求項1~3のいずれかに記載のテキスト認識方法。
【請求項5】
前記出力テキストを、前記入力テキストを得た画像内の前記入力テキストの位置と関連付けるステップを更に含む、請求項1~4のいずれかに記載のテキスト認識方法。
【請求項6】
前記出力テキストを含む電子書類を生成するステップを更に含む、請求項1~5のいずれかに記載のテキスト認識方法。
【請求項7】
前記複数のNグラムペアの各々について、前記Nグラムペアの前記Nグラムスコアを計算するために規則を適用し、前記Nグラムペアにおける前記入力テキストの前記Nグラムと前記出力候補テキストの前記Nグラムとの中身の差が1文字位置以下であるとき、前記規則は、前記Nグラムスコアを可能性に基づいた値に設定することを含み、前記可能性に基づいた値は、前記入力テキストにおける前記Nグラムの異なる文字と前記出力候補テキストにおける前記Nグラムの異なる文字との間の混同可能性に基づいている、請求項1~6のいずれかに記載のテキスト認識方法。
【請求項8】
文字数の合計は、前記入力テキストのNグラムおよび前記出力候補テキストのNグラムの各々に等しく、前記可能性に基づいた値は、前記文字数の合計に従って正規化された値である、請求項7に記載のテキスト認識方法。
【請求項9】
前記可能性に基づいた値は最大値を超えず、前記Nグラムペアにおける前記入力テキストの前記Nグラムと前記出力候補テキストの前記Nグラムとが中身の同じ全ての文字位置を有するとき、前記規則は、前記Nグラムスコアを前記最大値に設定することを含む、請求項7または8に記載のテキスト認識方法。
【請求項10】
各々の前記出力候補テキストについて、前記テキスト適合スコアが複数の合計のうち最も大きい合計から決定され、各合計は、マトリクスの1つ以上のセルの各対角により得たNグラムスコアの合計であり、前記セルは第1のマトリクス次元および第2のマトリクス次元に沿って配置され、前記第1のマトリクス次元は順番に配置された前記入力テキストの前記Nグラムに対応し、前記第2のマトリクス次元は順番に配置された前記候補テキストの前記Nグラムに対応し、各セルは前記第1のマトリクス次元の各Nグラムと前記第2のマトリクス次元の各Nグラムとの交差部分によって定義されたNグラムペアの前記Nグラムスコアを含む、請求項1~9のいずれかに記載のテキスト認識方法。
【請求項11】
前記複数の合計のうちで最も大きい前記合計を最大合計といい、前記入力テキストの前記Nグラムの総数または前記出力候補テキストの前記Nグラムの総数に従って、前記最大合計を正規化することにより前記テキスト適合スコアが決定される、請求項10に記載のテキスト認識方法。
【請求項12】
前記入力テキストを第1の入力テキストといい、前記出力候補テキストを第1の出力候補テキストといい、前記複数のNグラムペアを第1複数Nグラムペアといい、前記出力テキストを第1の出力テキストといい、前記方法は、
画像から前記第1の入力テキストおよび第2の入力テキストを得るために、前記画像を評価するステップと、
複数のNグラムによって定義された前記第2の入力テキストに対して、各々が複数のNグラムによって定義された複数の第2の出力候補テキストを取得するステップと、
各々の前記第2の出力候補テキストについてテキスト適合スコアを計算するステップと、
前記第2の入力テキストに対する第2の出力テキストとするため、前記第2の出力テキストの前記テキスト適合スコアに従って前記第2の出力候補テキストの1つを選択するステップとを更に含み、
各々の第2の出力候補テキストについての前記計算は、
前記第2の入力テキストの各Nグラムおよび前記第2の出力候補テキストの各Nグラムを含む第2複数Nグラムペア各々のNグラムスコアを決定するため、前記第2の入力テキストのNグラムと、前記第2の出力候補テキストのNグラムと、文字間混同可能性の前記一式とを使用し、
前記第2出力候補テキストの前記テキスト適合スコアを計算するため、1つ以上の前記第2複数Nグラムペアの前記Nグラムスコアを使用することを含む、請求項1~11のいずれかに記載のテキスト認識方法。
【請求項13】
前記第2の出力テキストを前記画像に関連付けるステップ、前記第2の出力テキストを前記画像内の前記第2の入力テキストの位置に関連付けるステップおよび前記第2の出力テキストを含む電子書類を生成するステップのいずれか、あるいはこれらのステップの組み合わせを更に含む、請求項12に記載のテキスト認識方法。
【請求項14】
プロセッサと、
前記プロセッサと通信可能であり、かつ、前記プロセッサにテキスト認識プロセスを実行させるための命令が格納されたメモリとを備え、
前記テキスト認識プロセスは、
複数のNグラムによって定義された入力テキストに対して、各々が複数のNグラムによって定義された複数の出力候補テキストを取得することと、
各々の前記出力候補テキストについてテキスト適合スコアを計算すること、
前記入力テキストに対する出力テキストとするため、前記出力テキストの前記テキスト適合スコアに従って前記出力候補テキストの1つを選択することとを含み、
各々の出力候補テキストについての前記計算は、
前記入力テキストの各Nグラムおよび前記出力候補テキストの各Nグラムを含む複数のNグラムペア各々のNグラムスコアを決定するため、前記入力テキストのNグラムと、前記出力候補テキストのNグラムと、文字間混同可能性の一式とを使用し、
前記出力候補テキストの前記テキスト適合スコアを計算するため、1つ以上の前記Nグラムペアの前記Nグラムスコアを使用することを含む、テキスト認識システム。
【請求項15】
前記複数のNグラムペアの各々について、前記Nグラムペアの前記Nグラムスコアを計算するために規則を適用し、前記Nグラムペアにおける前記入力テキストの前記Nグラムと前記出力候補テキストの前記Nグラムとの中身の差が1文字位置以下であるとき、前記規則は、前記Nグラムスコアを可能性に基づいた値に設定することを含み、前記可能性に基づいた値は、前記入力テキストにおける前記Nグラムの異なる文字と前記出力候補テキストにおける前記Nグラムの異なる文字との間の混同可能性に基づいている、請求項14に記載のテキスト認識システム。
【請求項16】
文字数の合計は、前記入力テキストのNグラムおよび前記出力候補テキストのNグラムの各々に等しく、前記可能性に基づいた値は、前記文字数の合計に従って正規化された値である、請求項15に記載のテキスト認識システム。
【請求項17】
前記可能性に基づいた値は最大値を超えず、前記Nグラムペアにおける前記入力テキストの前記Nグラムと前記出力候補テキストの前記Nグラムとが中身の同じ全ての文字位置を有するとき、規則は、前記Nグラムスコアを前記最大値に設定することを含む、請求項15または16に記載のテキスト認識システム。
【請求項18】
各々の前記出力候補テキストについて、前記テキスト適合スコアが複数の合計のうち最も大きい合計から決定され、各合計は、マトリクスの1つ以上のセルの各対角により得たNグラムスコアの合計であり、前記セルは第1のマトリクス次元および第2のマトリクス次元に沿って配置され、前記第1のマトリクス次元は順番に配置された前記入力テキストの前記Nグラムに対応し、前記第2のマトリクス次元は順番に配置された前記候補テキストの前記Nグラムに対応し、各セルは前記第1のマトリクス次元の各Nグラムと前記第2のマトリクス次元の各Nグラムとの交差部分によって定義されたNグラムペアの前記Nグラムスコアを含む、請求項14~17のいずれかに記載のテキスト認識システム。
【請求項19】
前記複数の合計のうちで最も大きい前記合計を最大合計といい、前記入力テキストの前記Nグラムの総数または前記出力候補テキストの前記Nグラムの総数に従って、前記最大合計を正規化することにより前記テキスト適合スコアが決定される、請求項18に記載のテキスト認識システム。
【請求項20】
前記入力テキストを第1の入力テキストといい、前記出力候補テキストを第1の出力候補テキストといい、前記複数のNグラムペアを第1複数Nグラムペアといい、前記出力テキストを第1の出力テキストといい、前記テキスト認識プロセスは、
画像から前記第1の入力テキストおよび第2の入力テキストを得るために、前記画像を評価することと、
複数のNグラムによって定義された前記第2の入力テキストに対して、各々が複数のNグラムによって定義された複数の第2の出力候補テキストを取得することと、
各々の前記第2の出力候補テキストについてテキスト適合スコアを計算することと、
前記第2入力テキストに対する第2出力テキストとするため、前記第2出力テキストの前記テキスト適合スコアに従って前記第2出力候補テキストの1つを選択することとを更に含み、
各々の第2の出力候補テキストについての前記計算は、
前記第2の入力テキストの各Nグラムおよび前記第2の出力候補テキストの各Nグラムを含む第2複数Nグラムペア各々のNグラムスコアを決定するため、前記第2の入力テキストのNグラムと、前記第2の出力候補テキストのNグラムと、文字間混同可能性の前記一式とを使用することと、
前記第2出力候補テキストの前記テキスト適合スコアを計算するため、1つ以上の前記第2複数Nグラムペアの前記Nグラムスコアを使用することとを含む、請求項14~19のいずれかに記載のテキスト認識システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、概して、画像処理に関し、より具体的には、画像中の正確なテキスト認識に関する。
【背景技術】
【0002】
コンピューター化されたテキスト認識の方法は、スキャンした画像を編集およびアーカイブするためにテキストに変換するときなど、多くの場面で用いられている。そのようなシステムは、様々なスキャン結果、フォントスタイルおよびテキストサイズの変化に悩まされる。一般的な解決法を開発するうえでの主たる難しさは、テキストの内容を高い正確性で解釈することにある。認識されたテキストは、文字の過不足および/または、文字が視覚的に類似しているとも言われる構造的に類似している場合の文字の誤認(他の文字との混同)(例えば、「c」と認識される「e」)などのエラーを含み得る。この問題に取り組むため、様々なエラー修正および辞書適合の方法が開発されてきた。辞書は、誤ったテキストのための様々な候補を提案し得る。この候補は、レーベンシュタイン距離(Levenshtein distance)およびコサイン類似度(Cosine similarity)などの類似定量化にしたがって、ランク付けされる。これらの定量化はどちらもよく知られている。簡潔には、レーベンシュタイン距離は、他と同一のストリングを作るために必要な単独文字の編集(挿入、削除または置換)のカウントと言える。レーベンシュタイン距離が小さいほど、類似性が高いことを示す。コサイン類似度は、ユークリッドコサインルールを類似定量化に適用したベクトルベースのアプローチである。コサイン類似度の値が大きいほど、類似性が高いことを示す。
【0003】
表1は、入力テキストストリング「bcars」に対して与えられた2つの候補のテキストストリングを示している。候補「bars」は、入力「bcars」よりも文字数が少ない。候補「bears」は、入力「bcars」と文字の数が同じであり、一文字(「e」)のみが同じ場所にある似た文字(「c」)に置換されている。文字「e」と「c」は、どちらも短く、かつ、右側に開口を伴う湾曲部分があるため、構造的に類似している。したがって、候補「bears」は明らかに「bcars」と構造的類似性が高い。しかし、レーベンシュタイン距離は、候補「bears」および「bars」の両方が入力「bcars」と同じレベルで類似していることを示し、コサイン類似度は候補「bears」をより低い類似度にランク付けする。
【0004】
【表1】
【0005】
表2では、入力テキストストリングは「fisten」である。同じ場所で、似た文字(「f」)に代えて、一文字(「l」)のみが存在するので、候補「listen」は、明らかに入力「fisten」に構造的に高い類似性を有する。文字「l」および「f」は、どちらも、高く、かつ、垂直な単独要素を有しているので、構造的に類似している。しかし、コサイン類似度は、両方の候補「listen」および「silent」が、入力「fisten」と同じレベルの類似性であることを示す。
【0006】
【表2】
【0007】
したがって、従来の類似定量化の矛盾に対処できるテキスト認識方法およびシステムが必要である。
【発明の概要】
【発明が解決しようとする課題】
【0008】
簡単にかつ一般的に言えば、本発明はテキスト認識方法およびシステムを対象とする。
【課題を解決するための手段】
【0009】
本発明の一態様では、方法は、複数のNグラムによって定義された入力テキストに対して、各々が複数のNグラムによって定義された複数の出力候補テキストを取得するステップを含む。この方法は、各々の前記出力候補テキストについてテキスト適合スコアを計算するステップを含む。各々の前記出力候補テキストについての前記計算は、前記入力テキストのNグラムと、前記出力候補テキストのNグラムと、前記入力テキストの各Nグラムおよび前記出力テキストの各Nグラムを含む複数のNグラムペア各々のNグラムスコアを決定するための文字間混同可能性の一式とを使用することを含む。各々の前記出力候補テキストについての前記計算は、前記出力候補テキストの前記テキスト適合スコアを計算するために、1つ以上の前記Nグラムペアの前記Nグラムスコアを使用することを含む。この方法は、前記入力テキストに対する出力テキストとするため、前記出力テキストの前記テキスト適合スコアに従って前記出力候補テキストの1つを選択することを含む。
【0010】
本発明の一態様では、システムは、プロセッサと、前記プロセッサと通信可能なメモリとを備えている。前記メモリは命令を格納している。前記プロセッサは、格納された命令に従ってテキスト認識プロセスを実行するように構成されている。前記テキスト認識プロセスは、複数のNグラムによって定義された入力テキストに対して、各々が複数のNグラムによって定義された複数の出力候補テキストを取得することを含む。テキスト認識プロセスは、各々の前記出力候補テキストについてテキスト適合スコアを計算することを含む。各々の出力候補テキストについての前記計算は、前記入力テキストのNグラムと、前記出力候補テキストのNグラムと、前記入力テキストの各Nグラムおよび前記出力テキストの各Nグラムを含む複数のNグラムペア各々のNグラムスコアを決定するための文字間混同可能性の一式とを使用することを含む。各々の出力候補テキストについての前記計算は、前記出力候補テキストの前記テキスト適合スコアを計算するために、1つ以上の前記Nグラムペアの前記Nグラムスコアを使用することを含む。テキスト認識プロセスは、前記入力テキストに対する出力テキストとするため、前記出力テキストの前記テキスト適合スコアに従って前記出力候補テキストの1つを選択することとを含む。
【0011】
本発明の特徴および利点は、添付の図面と併せて読まれる以下の詳細な説明からより容易に理解されるであろう。
【図面の簡単な説明】
【0012】
図1図1は、テキスト認識方法の一例を示すフロー図である。
図2図2は、文字間の混同可能性の一式の表の一例である。
図3図3は、文字間の混同可能性の一式の表の他の例である。
図4A図4Aは、最初の入力テキスト「fisten」に対する3つの出力候補テキスト各々のテキスト適合スコアの計算に用いられるN-グラムスコアマトリクスの例を表す図である。
図4B図4Bは、最初の入力テキスト「fisten」に対する3つの出力候補テキスト各々のテキスト適合スコアの計算に用いられるN-グラムスコアマトリクスの例を表す図である。
図4C図4Cは、最初の入力テキスト「fisten」に対する3つの出力候補テキスト各々のテキスト適合スコアの計算に用いられるN-グラムスコアマトリクスの例を表す図である。
図5図5は、N-グラムスコアを決定するための規則の一例を表すフロー図である。
図6A図6Aは、2番目の入力テキスト「bcars」に対する3つの出力候補テキスト各々のテキスト適合スコアの計算に用いられるN-グラムスコアマトリクスの例を表す図である。
図6B図6Bは、2番目の入力テキスト「bcars」に対する3つの出力候補テキスト各々のテキスト適合スコアの計算に用いられるN-グラムスコアマトリクスの例を表す図である。
図6C図6Cは、2番目の入力テキスト「bcars」に対する3つの出力候補テキスト各々のテキスト適合スコアの計算に用いられるN-グラムスコアマトリクスの例を表す図である。
図7図7は、入力テキスト「Plans&frains」に対する出力候補テキスト「Planes&trains」のテキスト適合スコアの計算に用いられるN-グラムスコアマトリクスの例を表す図である。
図8図8は、テキスト認識システムの一例を示す概略図であり、このシステムは、装置およびこの装置にネットワークを介して接続された外部デバイスを含んでいる。
【発明を実施するための形態】
【0013】
「テキスト(text)」、「ストリング(string)」および「テキスト ストリング(text string)」という用語は同じ意味で使用され、文字のグループを指す。文字のグループは、単一の単語のみで構成されていてもよく、あるいは、スペースおよび句読点を伴う単語のグループで構成されていてもよい。文字のグループでは、文字は任意の記載アルファベット(例えば、英語、ギリシャ語、キリル文字およびヘブライ語)、表音文字および音節文字(例えば、日本および中国で使用される文字)、スクリプト文字(例えば、ヒンディー語およびアラビア語で使用されている)、数学文字、および/または他の文字タイプ用のグループであってもよい。
【0014】
「Nグラム」という用語は、合計N文字で構成される文字のグループを指す。Nグラムという用語は、3グラム(合計N=3文字で構成される文字のグループ)および4グラム(合計N=4文字で構成される文字のグループ)を含む。Nグラムという用語は、任意のNの値を含み、Nは2より大きく、3より大きく、4より大きく、あるいは5より大きくてもよい。
【0015】
ここで、非限定的な例を示す目的で図面をより詳細に参照するが、いくつかの図の中で同様の参照番号は対応するまたは同様の要素を示す。図1には、テキスト認識方法の一例が示されている。文書をスキャンするなどして、画像が取得される。この画像は電子画像である。電子画像は、tiff、jpg、bmp、pdf、またはその他のデータ形式を有していてもよい。
【0016】
ブロック10で、画像はコンピューターにより評価され、1つ以上の入力テキストを認識する。コンピューターは、文字認識アルゴリズムを使用して、1つ以上の入力テキストを認識してもよい。例えば、文書が、元の単語「listen」および「bears」を含むかもしれないが、コンピューターはこれらの元の単語をそれぞれ「fisten」および「bcars」と認識する。認識された単語は、入力テキストの例である。この例では、コンピューターによって認識されたJ=2の入力テキストがあり、各入力テキストは単一の単語で構成されている。認識された各単語はT(j)として表され、jは1からJまで変化する。入力テキストT(1)=fistenおよび入力テキストT(2)=bcarsである。この方法は、入力テキストT(1)=fistenで進める。
【0017】
ブロック11で、現在の入力テキスト、すなわちT(1)=fistenに対して出力候補テキストが取得される。コンピューターは、辞書または他の単語のリストを参照して、出力候補テキストを取得してもよい。例えば、辞書は「fisten」に対する修正案として合計K個の単語を有していてもよい。各々の修正案は、辞書単語と呼ばれてもよい。各々の修正案は、出力候補テキストの一例である。例えば、表3に示すように、出力候補テキストは「silent」、「listen」および「tinsel」である。T(1)=fistenの出力候補テキストのそれぞれは、kが1からKまで変化するC(1、k)で表わされてもよい。この例では、入力テキストT(1)=fistenに対してK=3の出力候補テキストがある。出力候補テキストは、C(1,1)=silent、C(1,2)=listen、およびC(1,3)=tinselである。
【0018】
【表3】
【0019】
ブロック12では、各出力候補テキストC(1,1)=silent、C(1,2)=listenおよびC(1,3)=tinselについて、テキスト適合スコアが計算される。なお、この方法ではこの時点でj=1である。例えば、ブロック13で、各計算は、入力テキスト、即ち、T(1)=fistenのNグラム、現在の出力候補テキスト(silent、listenまたはtinsel)のNグラムおよび文字間の混同可能性の一式を使用することを含む。これらの要素は、複数のNグラムペアのそれぞれに対してNグラムスコアを決定するために使用される。各Nグラムペアは、入力テキスト(fisten)のNグラムのそれぞれおよび出力候補テキストのNグラムのそれぞれ(silent、listenまたはtinsel)を含む。
【0020】
任意のテキストのNグラムは、位置および内容の点で当該テキストに対応するN個の連続した文字一式である。つまり、Nグラムは、当該テキストに、文字として同じ文字値および文字位置を持つ文字を含む。最初のNグラムは、当該テキストの最初にあるN個の連続した文字一式である。2番目のNグラムは、当該テキストの最初の文字に続くN個の連続した文字一式であり、3番目のNグラムは、当該テキストの2番目の文字に続くN個の連続した文字一式であり、等々である。そのNグラムを重ねることで再構築できるという意味では、テキストは、そのNグラムによって定義される。
【0021】
Nグラムは、同じ総数の文字を有する。Nグラムの文字の総数Nは、3、3より大きい、4より大きい、あるいは、5より大きくてもよい。N=3の文字を有するNグラムは、トライグラムと呼ばれる。例えば、テキスト「abcdefg」のトライグラムは、abc、bcd、cde、defおよびefgである。テキスト「abcdefg」は、「abcdefg」がトライグラムを重ね合わせることによって再構築できるという意味では、そのトライグラムによって定義される。
【0022】
例えば、入力テキストT(1)=fistenは、トライグラムfis、ist、steおよびtenによって定義される。候補テキストC(1,1)=silentは、トライグラムsil、ile、lenおよびentによって定義される。これらのNグラムは、入力候補Nグラムペアとなる。例えば、fis(入力テキストの開始トライグラム)は、sil、ile、lenおよびent(出力候補テキスト「silent」のトライグラム)のいずれかとペアとなり得る。また、ist(入力テキストの次のトライグラム)は、sil、ile、lenおよびent(出力候補テキストの「silent」のトライグラム)のいずれかとペアとなり得る。文字間の混同可能性の一式とともにこれらのNグラムは、各々のNグラムペアのNグラムスコアを決定するために使用される。
【0023】
ここで、文字間の混同可能性の一式を説明する。入力テキストを認識する方法には、各文字(a、b、cなど)が誤って別の文字として認識される可能性があるという固有の不確実性がある。例えば、元のテキストの文字a(つまり、元の文字「a」)が文字a、b、およびcとして認識される確率は、それぞれ0.866、0.00、および0.067である。したがって、この方法は、元の文字「a」が文字「a」として正しく認識される確率86.6%であり、文字「b」として誤認識される確率0%であり、文字「c」として誤認識される確率6.7%であることを前提とする。混同可能性の一式の例は、可能性0.866、0.00および0.067を含む。
【0024】
図2は、英語のアルファベットの文字に対する混同可能性の一式の他の例を示している。可能性の一式は、列が認識された文字に対応する表形式で示される。この表は混同マトリックスの一例である。この表では、認識された文字「h」から「y」および元の文字「f」から「x」を省略しており、表には大文字用の追加のセルが含まれてもよいことを理解されたい。
【0025】
図3は、別の、英語のアルファベットの文字に対する混同可能性の一式を示す。図3の表は、混同マトリックスの別の例である。前の例とは異なり、列は元の文字に対応する。したがって、各列の可能性の合計は1.0または100%である。
【0026】
一般に、可能性の一式は画像に含まれるテキストの種類に依存する。ヘブライ語のテキストでは、可能性の一式はヘブライ文字に対するものとなる。可能性の一式は、他のアルファベットの文字(ギリシャ文字、キリル文字、ヘブライ文字など)、表音文字および音節文字(日本および中国で使用される文字など)、スクリプト文字(ヒンディー文字およびアラビア文字など)、数学記号および/または他の種類の文字に対するものであるかもしれないことが考慮される。
【0027】
図4Aは、入力テキストT(1)=fistenおよび出力候補テキストC(1,1)=silentのNグラムペアと、それらのNグラムペアについて計算されたNグラムスコアとを示している。規則を適用することにより、NグラムペアごとにNグラムスコアが計算される。例えば、この規則は、Nグラムペアにおける入力テキストNグラムと出力候補テキストNグラムとの中身の差が1文字位置以下であるとき、Nグラムスコアを可能性に基づいた値に設定することを含んでいてもよい。トライグラムには3つの文字位置があるため、この規則には、中身が同じ2つの文字位置という形の視覚的な類似性を識別する効果がある。
【0028】
図4Aでは、1のNグラムペアを除く全てが、複数の文字位置で中身が異なる。例えば、左上隅のNグラムペアは「fis、sil」である。このNグラムペアには、両方のトライグラムで中身が同じ2文字(即ち、「i」および「s」)があるが、文字「s」は両方のトライグラムで同じ位置にない。両方のトライグラムで、中央の文字位置のみが同じ中身(即ち「i」)を有する。これは、両方のトライグラムが視覚的に十分類似しているわけではないことを示す。したがって、このNグラムスコアは可能性に基づいた値に設定されない。例えば、上述の規則は、Nグラムペアの中身が複数の文字位置で異なるとき、Nグラムスコアを最小値Vminに設定することをさらに含んでいてもよい。
【0029】
図4Aでは、Nグラムペア「ten、len」のみ、1文字位置以下の中身が異なる。このNグラムペアでは、開始文字のみ中身が異なる(tとl)。残りの2つの文字位置は同じ中身である。つまり、文字「e」および「n」は両方のトライグラムで同じ位置を占める。これは、トライグラムが視覚的に類似していることを示す。したがって、上述の規則に従って、Nグラムスコアは可能性に基づいた値に設定される。可能性に基づいた値は、入力テキスト(「fisten」)のNグラム(「ten」)で異なる文字(文字「t」)と出力候補テキスト(「silent」)のNグラム(「len」)で異なる文字(文字「l」)との間の混同可能性に基づく。例えば、可能性に基づいた値(Vp)は、トライグラム(つまり、3文字を有する3グラム)が使用されるとき、式1Aに従って計算されてもよい。
【0030】
【数1】
【0031】
式1Aでは、Vpは、トライグラムペアの3つの文字位置に対応する3つの値の正規化された合計である。この合計は、各Nグラムの合計文字数(3など)に従って正規化される。完全値(1など)は、中身が同じ文字位置に用いられる。部分値は、中身が同じではない文字位置に用いられる。この部分値は、認識された文字(文字「t」)が実際に候補文字(文字「l」)であるとしたときの可能性Pである。この可能性は、文字の混同可能性の一式から取得される。例えば、図3は、元の文字「l」が文字「t」として認識される可能性が0.12または12%であることを示している。同じ確率が、トライグラム「ten」の候補文字「t」に適用される。つまり、画像内の文字「l」に対して文字「t」が誤認識される確率は0.12または12%である。したがって、図4Aに示されるように、Nグラムペア「ten、len」のNグラムスコアは、0.707である。
【0032】
他の例では、4グラム(4文字を有する)が使用されるとき、可能性に基づいた値(Vp)は、式1Bに従って計算され得る。
【0033】
【数2】
【0034】
式1Bでは、Vpは4グラムの4つの文字位置に対応する4つの値の正規化された合計である。この合計は、各4グラムの文字の合計数(4など)によって正規化される。完全値(1など)は、中身が同じ文字位置に用いられる。Nグラムペアの入力テキストのNグラムおよび出力候補テキストのNグラムで、1文字位置以下の中身が異なるという規則のため、式1Bには3つの完全値が存在する。このことは、3つの文字位置の中身が同じであることを意味する。式1Bにおける部分値は可能性Pであり、式1Aと同様の方法で決定される。
【0035】
図4Bは、入力テキストT(1)=fistenおよび出力候補テキストC(1,2)=listenのNグラムペアと、それらのNグラムペアに対して計算されたNグラムスコアとを示している。各Nグラムペアでは、Nグラムスコアが、C(1,1)に適用されたのと同じ規則を適用して計算される。上記の例に引き続き、この規則は、Nグラムペアの入力テキストNグラムおよび出力候補テキストNグラムの中身の差が1文字位置以下であるとき、Nグラムスコアを可能性に基づいた値Vpに設定することを含む。更に、Nグラムペアの中身が複数の文字位置で異なるとき、Nグラムスコアを最小値Vminに設定することを規則は含んでいる。更に、Nグラムペアの入力テキストのNグラムおよび出力候補テキストのNグラムが全ての文字位置で同じ中身であるとき、規則はNグラムスコアを最大値Vmaxに設定することを含んでいる。例えば、トライグラム(つまり、3文字を有する3グラム)が使用されるとき、最大値Vmaxは式2Aに従って計算されてもよい。この例では、Vmax=1である。
【0036】
【数3】
【0037】
式2Aでは、Vmaxは、トライグラムの3つの文字位置に対応する3つの値の正規化された合計である。完全値(1など)は、中身が同じ文字位置に用いられる。内容が同じ3つの文字位置があるため、3つの完全値が存在する。
【0038】
他の例では、4グラム(4文字を有する)が使用されるとき、最大値(Vmax)は式2Bに従って計算されてもよい。
【0039】
【数4】
【0040】
式2Bでは、Vmaxは4グラムの4つの文字位置に対応する4つの値の正規化された合計である。完全値(1など)は、中身が同じ文字位置に用いられる。中身が同じ4つの文字位置があるため、4つの完全値が存在する。
【0041】
図5は、各NグラムペアのNグラムスコアを計算するために適用され得る規則の一例を示す。以下の式3で示される関係は、Vmin、VpおよびVmaxについて、常に当てはまる。Vminは常にVpより小さく、Vpは常にVmaxより小さくなる。
【0042】
【数5】
【0043】
図4Bでは、入力テキストのNグラムおよび出力候補テキストのNグラムについて、全ての文字位置の中身が同じである2つのNグラムペアが存在している。したがって、ブロック50(図5)によれば、これらのNグラムペアに対するNグラムスコアはVmaxに設定される(例えば、Nグラムスコア=1)。図4Bでは、Nグラムペアの入力テキストのNグラムおよび出力候補テキストのNグラムの差が1文字位置以下である1のNグラムペア(「fis、lis」)が存在する。したがって、ブロック51(図5)によれば、Nグラムペア「fis、lis」のNグラムスコアはVpに設定される。この例ではNグラムがトライグラムであるため、Nグラムスコアは式1Aを用いて決定されてもよい。これにより、Nグラムスコア=Vp=0.687となる。残りのNグラムペアはすべて、複数の文字位置で中身が異なる。したがって、ブロック52(図5)によれば、残りのすべてのNグラムペアのNグラムスコアはVminに設定される(例えば、Nグラムスコア=0)。
【0044】
図4Cは、入力テキストT(1)=fistenおよび出力候補テキストC(1,3)=tinselに対するNグラムペアと、それらのNグラムペアについて計算されたNグラムスコアとを示す。Nグラムペアの入力テキストおよび出力候補テキストで、全ての文字位置の中身が同じであるNグラムペアは存在しない。1文字位置以下で、Nグラムペアの入力テキストおよび出力候補テキストの中身の異なるNグラムペアは存在しない。したがって、ブロック52(図5)によれば、すべてのNグラムペアのNグラムスコアはVminに設定される(例えば、Nグラムスコア=0)。
【0045】
再び図1を参照すると、テキスト適合スコアS(j、k)は、ブロック14で、現在の出力候補テキストC(j、k)に対し、C(j、k)および入力テキストT(j)のNグラムペアのうちの1つ以上のNグラムスコアを用いることにより計算される。例えば、テキスト適合スコアS(j、k)は、Nグラムスコアのマトリクスを用いて決定されてもよい。
【0046】
図4Aは、Nグラムスコアのマトリクスの一例を示す。マトリクスは、2次元の表として示される。マトリクスの各セルは、第1のマトリクス次元および第2のマトリクス次元に沿って配置される。第1のマトリクス次元は、順番に配置された入力テキスト(「fisten」)のNグラム(fis、ist、steおよびten)に対応する。第2のマトリクス次元は、順番に配置された候補テキスト(「silient」)のNグラム(sil、ile、len、ent)に対応する。マトリクスの各セルには、第1のマトリクス次元の各Nグラムと第2のマトリクス次元の各Nグラムとの交差部分によって定義されるNグラムペアのNグラムスコアが含まれる。例えば、Nグラムペア「ten、len」のNグラムスコア=0.707は、「ten」と「len」とのマトリクス交差部分によって定義されるマトリクスセルに含まれる。
【0047】
テキスト適合スコアは、複数の合計の中で最も大きい合計から決定される。各合計は、マトリクスの1つ以上のセルの各対角線に沿って得られるNグラムスコアの合計である。以下で明らかになるように、対角線に沿って合計(対角線合計と呼ぶ)を取得すると、入力テキストのNグラムに視覚的に類似した出力候補テキストのNグラムが連続して配置されることが強調される。
【0048】
図4Aでは、合計の一式は{0、0、0.707、0、0、0、0}である。最も大きい合計は、最大合計MaxSumと呼ばれる。図4Aでは、MaxSum=0.707である。したがって、テキスト適合スコアS(1,1)は0.707から決定される。例えば、テキスト適合スコアは、入力テキストのNグラムの総数(A)または出力候補テキストのNグラムの総数(B)に従って、MaxSumを正規化することにより決定されてもよい。AおよびBの値はそれぞれ、入力テキストおよび出力候補テキストの文字の総数に依存する。入力テキストおよび出力候補テキストの文字の総数が等しくないとき、総数AおよびBは等しくならないであろう。したがって、さらなる例では、テキスト適合スコアは、AおよびBのうちより大きい方のMaxSumを正規化することにより、式4に従って決定されてもよい。
【0049】
【数6】
【0050】
図4Aでは、MaxSum=0.707、A=4およびB=4である。図1では、j=1およびk=1であり、ブロック14でテキスト適合スコアS(1,1)が計算される。式4と図3から得られる可能性の値とに従って、テキスト適合スコアS(1,1)=0.707/4=0.177となる。
【0051】
図4Bでは、MaxSum=2.687、A=4およびB=4である。図1では、j=1およびk=2であり、テキスト適合スコアS(1,2)はブロック14で計算される。式4と図3から得られる可能性の値とに従って、テキスト適合スコアS(1,2)=2.687/4=0.672となる。0.672という比較的高いスコアは、連続して配置された、入力テキストのNグラムと視覚的に類似または同一の出力候補テキストのNグラム(list、steおよびten)を合計した結果である。
【0052】
図4Cでは、MaxSum=0、A=4およびB=4である。図1では、j=1およびk=3であり、ブロック14でテキスト適合スコアS(1,3)が計算される。式4に従って、テキスト適合スコアS(1,3)=0/4=0となる。
【0053】
図1のブロック15では、出力候補テキストの1つが選択されて、入力テキストに対する出力テキストとされる。この選択は、選択された出力候補テキストのテキスト適合スコアに従って(つまり、出力テキストのテキスト適合スコアに従って)実行される。表3の例では、出力候補テキスト「listen」が選択され、出力テキストとされる。出力候補テキストに対するテキスト適合スコアよりも、0.672であるそのテキスト適合スコアが大きいためである。したがって、ブロック15でO(1)=listenとなる。「listen」という単語は、ブロック10でシステムによって認識された「fisten」という単語について、修正された出力の例である。
【0054】
上述のように、行列の対角線の合計を取ると、連続して配置された出力候補テキストのNグラムに重点が置かれ、この出力候補テキストのNグラムは入力テキストのNグラムに視覚的に類似している。いずれも入力テキストのNグラムと視覚的に類似または同一である3つの連続して配置されたNグラム(lis、steおよびten)があるため、出力候補テキスト「listen」が選択される。
【0055】
次に、ブロック16で、この方法は、評価されるべき他の入力テキストが残っているかどうかを判定する。上記例に引き続き、ブロック10で入力テキスト「bcars」も認識された。したがって、jが増やされ(j=j+1に設定)、ブロック11~14に従って次の入力テキスト(「bcars」)が評価される。
【0056】
j=2のブロック11では、現在の入力テキスト、つまりT(2)= bcarsに対する出力候補テキストが得られる。表4の例に示されるように、出力候補テキストは「silent」、「listen」および「tinsel」であってもよい。この例では、入力テキストT(2)=bcarsに対するK=3の出力候補テキストがある。出力候補テキストは、C(2,1)=bars、C(2,2)=bears、C(2,3)=boarsである。
【0057】
【表4】
【0058】
図6A~6Cは、入力テキストT(2)=bcarsおよび表4からの3つの出力候補テキストのNグラムペアを示す。
【0059】
図6Aでは、MaxSum=1.667、A=2およびB=3である。図1では、j=2およびk=1であり、ブロック14でテキスト適合スコアS(2,1)が計算される。式4と図3から取得された可能性の値とに従って、テキスト適合スコアS(2,1)=1.667/3=0.556となる。
【0060】
図6Bでは、MaxSum=1.693、A=3およびB=3である。図1では、j=2およびk=2であり、ブロック14でテキスト適合スコアS(2,2)が計算される。式4と図3から取得された可能性の値とに従って、テキスト適合スコアS(2,2)=1.693/3=0.564となる。
【0061】
図6Cでは、MaxSum=1.667、A=3およびB=3である。図1では、j=2およびk=3であり、ブロック14でテキスト適合スコアS(2,3)が計算される。式4と図3から取得された可能性の値とに従って、テキスト適合スコアS(2,3)=1.667/3=0.556となる。
【0062】
図1のブロック15では、出力候補テキストの1つが選択されて、入力テキスト「bcars」に対する出力テキストとされる。表4の例では、0.564のテキスト適合スコアが出力候補テキストのテキストスコアよりも大きいため、出力候補テキスト「bears」が出力テキストとして選択される。したがって、ブロック15でO(2)=bearsとなる。上述のように、対角線合計(マトリクスの対角線上の合計)は、入力テキストのNグラムに視覚的に類似した出力候補テキストのNグラムが連続して配置されていることを強調する。出力候補テキスト「bears」の選択は、文字「c」が「e」である比較的高い8%の可能性と相まって、出力候補テキスト「bears」が入力テキストのNグラムと視覚的に同一または類似の2つの連続して配置されたNグラム(earおよびars)を持つことに起因している。8%の可能性は、候補文字「e」が候補文字「o」と比較して入力文字「c」に対して比較的高い視覚的類似度を有するという事実を反映している。
【0063】
次に、ブロック16で、この方法は、評価されるべき他の入力テキストが残っているかどうかを再び決定する。上記の例に引き続き、ブロック10で認識されたJ=2の入力テキストが存在する。j=Jなので、残りの入力テキストはなく、この方法はブロック17に進む。
【0064】
ブロック17で、この方法は、選択された出力テキスト「listen」および「bears」を画像に関連付ける。これにより、人が単語「listen」または「bears」を含むすべての画像を検索するときの検索操作が容易になる。出力テキスト「listen」および「bears」が現在の画像に関連付けられていれば、このような検索は、現在の画像を選出するであろう。選択された出力テキスト「listen」および「bears」を画像に関連付けることは、画像を出力テキストに符号化することを含んでいてもよい。
【0065】
追加的または代替的に、この方法は、出力テキスト「listen」および「bears」を画像内のそれぞれの入力テキストの位置に関連付ける。これにより、人が画像内の単語「listen」または「bears」という単語の位置を見つけたいときの検索操作を容易にすることができる。そのような検索は、例えば、単語「listen」が画像の中央に位置することを示してもよい。出力テキスト「listen」および「bears」を画像内のそれぞれの位置に関連付けることは、画像を出力テキストおよびそれらの位置に一緒に符号化することを含んでいてもよい。
【0066】
追加的または代替的に、この方法は、出力テキスト「listen」および「bears」を含む電子書類を生成する。例えば、この電子書類は、txtファイル、MS-Word(登録商標)ファイル、PDFファイル、またはその他の形式であってもよい。この形式は、ユーザーが電子文書に追加または編集できるような編集可能な形式であってもよい。
【0067】
上記から、上述の方法は、認識システムに固有のまたは認識システムに割り当てられた誤り統計(文字間の混同可能性)を組み込んでおり、それにより、よりシステムの動作に整合した(他のシステムと比較して、当該システムが所定の文字を誤認識する傾向がより少ないまたはより多い)テキスト適合スコアを決定することができることが理解されよう。さらに、この誤り統計は、文字間の視覚的な類似性(たとえば、文字「c」と「e」)をテキスト適合スコアの因子にすることができる。テキスト適合スコアを正規化することにより、文字の総数が異なり得る複数の出力候補文字の間でのランク付けが容易となる。さらに、個々のNグラムペアのスコアリングおよび対角線合計の使用により、グループレベル(たとえば、N文字のグループ)での視覚的な類似性をテキスト適合スコアの因子にすることができる。
【0068】
図7は、入力テキスト「Plans&frains」および出力候補テキスト「Planes&trains」の例を示している。入力テキストおよび出力候補テキストはともに、文字、スペース(下線で示されている)およびアンパサンド文字(「&」)を含む。Nグラムは、それぞれ4つの合計文字位置を有する4グラムである。一部の4グラムは、スペースおよび/またはアンパサンド文字を含む。Nグラムスコアは、図5の規則に従って決定され、Vmaxは1に設定され、Vminは0に設定される。Vpは、文字間の混同可能性の一式を使用して計算されてもよく、この一式は、アンパサンド文字に対する可能性を含む。図7で対角線合計の最大値(MaxSum)のみがラベル付けされるけれども、対角線合計はNグラムスコアから計算されるであろう。MaxSumは、式4に従ってテキスト適合スコアを計算するために使用されてもよい。
【0069】
図8は、本明細書で説明された方法およびプロセスを実行するように構成された装置80を備える認識システムの例を示す。 装置80は、サーバー、コンピューターワークステーション、パーソナルコンピューター、ラップトップコンピューター、タブレット、スマートフォン、ファクシミリ機、印刷機、プリンターとスキャナーを組み合わせた機能を有する多機能周辺機器(MFP:multi-functional peripheral)、または1つ以上のコンピュータープロセッサおよびメモリを含む他のタイプの機械であってもよい。
【0070】
装置80は、1つ以上のコンピュータープロセッサ81(CPUs)、1つ以上のコンピューターメモリデバイス82、1つ以上の入力デバイス83および1つ以上の出力デバイス84を含む。この1つ以上のコンピュータープロセッサ81は、プロセッサ81と総称される。プロセッサ81は、命令を実行するように構成されている。プロセッサ81は、命令を実行する集積回路を含んでいてもよい。この命令は、本明細書で説明されるプロセスを実行するための1つ以上のソフトウェアモジュールを具体化してもよい。この1つ以上のソフトウェアモジュールは、テキスト認識プログラム85と総称される。
【0071】
1つ以上のコンピューターメモリデバイス82は、メモリ82と総称される。メモリ82は、ランダムアクセスメモリ(RAM:random-access memory)モジュール、読み取り専用メモリ(ROM:read-only memory)モジュールおよび他の電子デバイスのいずれかまたはこれらの組み合わせを含む。メモリ82は、光学ドライブ、磁気ドライブ、ソリッドステートフラッシュドライブおよび他のデータ記憶デバイスなどの大容量記憶デバイスを含んでいてもよい。メモリ82は、テキスト認識プログラム85を格納する非一時的コンピューター可読媒体を含む。メモリ82は、文字間の混同可能性の一式(例えば、図2または図3の可能性)を格納してもよい。
【0072】
1つ以上の入力デバイス83は、入力デバイス83と総称される。入力デバイス83は、カメラおよび光源を有する光学スキャナーを含んでいてもよい。光学スキャナーは、文書ページをスキャンして入力画像を生成するように構成されており、この入力画像は次にブロック10(図1)で評価される。入力デバイス83は、人(ユーザー)がデータを入力し、装置80とやり取りできるようにする。入力デバイス83は、ボタンを有するキーボード、タッチセンシティブスクリーン、マウス、電子ペンおよび他のタイプのデバイスの1つ以上を含んでいてもよい。これらにより、ユーザーは、コンピュータープロセッサ81によるテキスト認識プログラム85の起動が可能となり、および/または、文字間の混同の可能性の一式の識別が可能となり、および/または、上記の検索操作の実行が可能となる。
【0073】
1つ以上の出力デバイス84は、出力デバイス84と総称される。出力デバイス84は、液晶ディスプレイ、プロジェクタ、または他の種類の視覚的ディスプレイデバイスを含んでいてもよい。出力デバイス84は、入力画像を印刷できるプリンターを含んでいてもよい。出力デバイス84は、ブロック15(図1)で選択された出力テキストを表示または印刷するために用いられてもよい。
【0074】
装置80は、ネットワークインターフェース(I/F)86を含んでいる。ネットワークI/F86は、ローカルエリアネットワーク(LAN:local area network)、ワイドエリアネットワーク(WAN:wide area network)、インターネットおよび電話通信キャリアなどのネットワーク87を介して装置80と他のマシンとが通信できるように構成されている。ネットワークI/F86は、ネットワーク87を通じてデバイス89へのアナログまたはデジタル通信を可能にする回路を含んでいてもよい。
【0075】
外部デバイス89は、入力画像を格納していてもよく、ネットワークI/F86は、外部デバイス89から入力を受信し、ブロック10(図1)でプロセッサ81が入力画像を評価できるように構成されていてもよい。外部デバイス89は辞書を格納していてもよく、ネットワークI/F86は、外部デバイス89と通信し、ブロック11(図1)でプロセッサ81がこの辞書を参照できるように構成されていてもよい。外部デバイス89は、文字間の混同の可能性の一式(例えば、図2または図3の可能性)を格納していてもよく、ネットワークI/F86は、ブロック13(図1)で外部デバイス89から可能性の一式を受信するように構成されてもよい。ネットワークI/F86は、外部デバイス89のメモリに、ブロック15(図1)で選択された出力テキスト、および/または出力テキストを含む電子書類、および/または出力テキストに符号化された後の画像を送信するように構成されていてもよい。
【0076】
本発明のいくつかの形態を図示して説明してきたが、本発明の範囲から逸脱しない範囲で様々な変形を行うことができることも明らかであろう。 また、開示された実施形態の特定の特徴および態様の様々なコンビネーションまたはサブコンビネーションは、本発明の様々なモードを形成するために互いに組み合わされ、あるいは、置き換えられ得ることも考えられる。したがって、添付の特許請求の範囲による場合を除き、本発明を限定することは意図されていない。
図1
図2
図3
図4A
図4B
図4C
図5
図6A
図6B
図6C
図7
図8