(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-01-24
(54)【発明の名称】潜在的に隣接しない対を用いたコンピュータによるデータ圧縮および分析
(51)【国際特許分類】
H03M 7/42 20060101AFI20230117BHJP
【FI】
H03M7/42
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022530186
(86)(22)【出願日】2020-11-20
(85)【翻訳文提出日】2022-07-12
(86)【国際出願番号】 US2020061508
(87)【国際公開番号】W WO2021102263
(87)【国際公開日】2021-05-27
(32)【優先日】2019-11-22
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2020-11-18
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】522202757
【氏名又は名称】タカシ・スズキ
(74)【代理人】
【識別番号】100118902
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100196508
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100119781
【氏名又は名称】中村 彰吾
(72)【発明者】
【氏名】タカシ・スズキ
【テーマコード(参考)】
5J064
【Fターム(参考)】
5J064BA09
5J064BC05
5J064BC14
(57)【要約】
複数の文書に構成される記号情報を圧縮するコンピュータによる方法であって、各文書は、複数の記号を有し、方法は、(i)入力文書内の複数の連続および不連続な記号対を自動的に識別するステップと、(ii)各固有の記号対の出現の数をカウントするステップと、(iii)複数の記号対の1つに関連付けられた各位置での置換記号を含む圧縮文書を生成するステップと、を含み、複数の記号対の少なくとも1つは、不連続の記号対に対応する。各不連続の対のために、圧縮文書は、入力文書内の対の不連続の記号の位置の間の距離を示す対応する印を含む。いくつかの場合には、複数の記号対は、入力文書内の対の不連続の記号の位置の間の距離が数の距離の上限未満である、不連続の記号のそれらの対のみを含む。
【特許請求の範囲】
【請求項1】
複数の文書に構成される記号情報を圧縮するコンピュータによる方法であって、各文書は、複数の記号(symbols)を有し、前記方法は、
自動的にコンピュータによって、入力文書として前記複数の文書の第1の文書を用いて、
(a)複数の記号対を識別するステップであって、各記号対は、前記入力文書内の2つの連続または不連続の記号からなり、1つまたは複数の記号対は、前記入力文書内の2つの不連続の記号からなる、ステップと、
(b)前記複数の記号対の各固有の記号対のために、前記固有の記号対の出現の数を識別するカウントを更新するステップと、
(c)2つの不連続の記号からなる1つまたは複数の記号対を含む前記入力文書からの前記複数の記号対の1つに関連付けられた各位置で、(i)前記固有の記号対のための前記カウントが閾値を超える場合、圧縮辞書によって前記複数の記号対の前記1つに合致する前記固有の記号対に関連付けられた置換記号と、(ii)2つの不連続の記号からなる少なくともそれらの記号対のための、前記入力文書内の前記対の前記不連続の記号の位置の間の距離を示す印と、を圧縮文書に含ませることによって、前記圧縮文書を生成するステップと、
を含むコンピュータによる方法。
【請求項2】
前記複数の記号対は、前記入力文書内の前記対の前記不連続の記号の位置の間の前記距離が数の距離の上限未満である、不連続の記号のそれらの対のみを含む、請求項1に記載の方法。
【請求項3】
前記数の距離の上限は、10個の記号である、請求項2に記載の方法。
【請求項4】
前記閾値は、2である、請求項1に記載の方法。
【請求項5】
それぞれの前記固有の記号対のための前記カウントの順に前記圧縮辞書をソートするステップをさらに含む、請求項1に記載の方法。
【請求項6】
前記閾値を超えないカウントを有するすべての固有の記号対を前記圧縮辞書から除外または除去するステップと、
前記閾値を超えるカウントを有する各固有の記号対と置換記号との間の前記圧縮辞書内の関連を作るステップと、
をさらに含む、請求項5に記載の方法。
【請求項7】
前記入力文書として前記圧縮文書を用いて、部分(a)、(b)および(c)を繰り返すことによって追加のパスを実行するステップをさらに含む、請求項1に記載の方法。
【請求項8】
パスの1つによって作成される前記圧縮文書が、直前のパスによって作成された前記圧縮文書から変わらなくなるまで、追加のパスを実行するステップをさらに含む、請求項7に記載の方法。
【請求項9】
前記第1の文書からの各記号は、単語を示す、請求項1に記載の方法。
【請求項10】
部分(a)の前に、テキスト文書の各単語を前記複数の記号の対応する1つに置換することによって、前記第1の文書を作成するステップをさらに含む、請求項9に記載の方法。
【請求項11】
前記第1の文書内の各記号は、英数字を示す、請求項1に記載の方法。
【請求項12】
各置換記号は、前記圧縮辞書内のエントリのアドレスを備え、前記エントリは、置換記号に関連付けられた前記固有の記号対を格納する、請求項1に記載の方法。
【請求項13】
前記複数の文書の他の文書の各々において、部分(a)、(b)および(c)を実行するステップをさらに含み、前記記号対のためのそれぞれの前記カウントは、前記複数の文書のいずれか内のその記号対の以前の出現の前記数を識別する、請求項1に記載の方法。
【請求項14】
部分(c)が前記複数の文書のいずれかにおいて実行される前、部分(a)および(b)は、前記複数の文書の各々において実行される、請求項13に記載の方法。
【請求項15】
部分(c)が前記複数の文書のいずれかにおいて実行される前、前記固有の記号対が前記閾値を超えるカウントを有する場合に限り、各固有の記号対と置換記号との間の前記圧縮辞書内の関連を作るステップをさらに含む、請求項14に記載の方法。
【請求項16】
それぞれの前記固有の記号対のための前記カウントの順に前記圧縮辞書をソートするステップをさらに含む、請求項13に記載の方法。
【請求項17】
前記閾値を超えないカウントを有するすべての固有の記号対を前記圧縮辞書から除去するステップと、
前記閾値を超えるカウントを有する各固有の記号対と置換記号との間の前記圧縮辞書内の関連を作るステップと、
をさらに含む、請求項16に記載の方法。
【請求項18】
パスの1つによって作成される前記圧縮文書が、直前のパスによって作成された前記圧縮文書から変わらなくなるまで、プロセスによって以前に生成された前記圧縮文書を前記入力文書として用いて、部分(a)、(b)および(c)を繰り返すことによって、少なくとも1つの追加のパスを作るために、前記他の文書の各々において部分(a)、(b)および(c)を繰り返すステップをさらに含む、請求項13に記載の方法。
【請求項19】
固有の記号対に関連付けられた置換記号が、前記第1の文書に関連付けられた出力文書内に出現する頻度に基づいて、前記第1の文書に複数の属性の少なくとも1つを割り当てるステップをさらに含む、請求項18に記載の方法。
【請求項20】
前記第1の文書の前記少なくとも1つの属性および関連文書の前記少なくとも1つの属性に基づいて、前記関連文書を示唆するステップをさらに含む、請求項19に記載の方法。
【請求項21】
複数の文書に構成される記号情報を圧縮することができる少なくとも1つのプロセッサを有するコンピュータシステムであって、各文書は、複数の記号を有し、前記コンピュータシステムは、前記プロセッサにより、入力文書として前記複数の文書の第1の文書を用いて、請求項1から20のいずれか一項に記載の方法を自動的に実行するようにプログラムされている、コンピュータシステム。
【請求項22】
複数の文書に構成される記号情報を圧縮するためのコンピュータ命令セットを格納する、一時的な伝搬信号ではないコンピュータ可読記憶媒体であって、各文書は、複数の記号を有し、前記コンピュータ命令セットは、前記コンピュータ上で実行されるとき、前記コンピュータに、入力文書として前記複数の文書の第1の文書を用いて、請求項1から20のいずれか一項に記載の方法を自動的に実行させる、コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
優先権主張
[0001]この出願は、(i)2019年11月22日に出願された米国仮特許出願第62/939,448号および(ii)2020年11月18日に出願された米国非仮特許出願第16/951,954号の優先権を主張し、その両方は全体が本願明細書に参照によって組み込まれる。
【0002】
[0002]本発明の技術分野は、データ圧縮および分析に関する。特に、本発明は、記号によって表現可能なテキストおよび他の情報の改善された可逆圧縮のために有用であると考えられる特定の技術を含む。
【背景技術】
【0003】
本願発明の一実施例は、例えば、潜在的に隣接しない対を用いたコンピュータによるデータ圧縮および分析に関する。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本願発明の一実施例は、例えば、潜在的に隣接しない対を用いたコンピュータによるデータ圧縮および分析に関する。
【課題を解決するための手段】
【0005】
[0003]複数の文書に構成される記号情報を圧縮するコンピュータによる方法が開示される。各文書は、複数の記号を有する。入力文書として複数の文書の第1の文書を用いて、コンピュータは、複数の記号対を自動的に識別する。各記号対は、入力文書内の2つの連続または不連続の記号からなり、少なくとも1つの記号対は、入力文書内の2つの不連続の記号からなる。コンピュータは、各固有の記号対の出現の数をカウントする。コンピュータは、入力文書からの複数の記号対の1つに関連付けられた各位置での対応する置換記号を含む圧縮文書を生成する。少なくとも1つの置換記号は、2つの不連続の記号からなる記号対に対応し、このような各対のために、圧縮文書は、入力文書内の対の不連続の記号の位置の間の距離を示す対応する印を含む。いくつかの場合には、複数の記号対は、入力文書内の対の不連続の記号の位置の間の距離が数の距離の上限未満である、不連続の記号のそれらの対のみを含む。
【0006】
[0004]データ圧縮および分析に関連する目的および利点は、図面に示され、以下の説明または添付の請求の範囲に開示される例を参照すると、明らかになり得る。
[0005]この概要は、詳細な説明においてさらに後述する概念の選択を簡略化された形で導入するために提供される。この概要は、請求される主題の鍵となる特徴または必須の特徴を識別することを意図せず、請求された主題の範囲を決定する際の援助として用いられることも意図しない。
【図面の簡単な説明】
【0007】
【
図1】[0006]本願明細書において開示される圧縮方法によって生成され、使用される記号辞書の一例の視覚表現である。
【
図2】[0007]本願明細書において開示される圧縮方法によって生成され、使用される圧縮辞書の一例の視覚表現である。
【
図3】[0008]本願明細書において開示される圧縮方法に従う記号対の置換の視覚表現である。
【
図4】[0009]本願明細書において開示される圧縮方法の動作を示すフロー図である。
【発明を実施するための形態】
【0008】
[0010]描写される実施形態は、概略的にのみ示される。すべての特徴は、完全に詳細に、または、適切な比率で示されないかもしれない。明確にするため、特定の特徴または構造は、他に対して誇張または縮小されてもよいし、または、完全に省略されてもよい。示される実施形態は、単なる例であり、本開示の範囲または添付の請求の範囲を限定するものとして解釈されるべきではない。
【0009】
[0011]この開示は、出願人が出した米国特許第10,387,377(「本特許」)の拡張または改善とみなされ得るものについて記述し、本特許は、あたかも完全に本願明細書において記載されるかのように、(図面およびコンピュータコードの付録を含む)全体が本願明細書に参照によって組み込まれる。特許の開示は、2018年11月22日に最初に公開された。
【0010】
[0012]説明を簡単にするために、この開示は、最初に、一例の主要な実施形態を記載し、バリエーションの議論はわずかのみである。しかしながら、開示された主要な実施形態およびその均等物がバリエーションを作成するために修正可能であることが意図される。いくつかのバリエーションまたはオプション(または開示された技術を適用するための目的)は、ここで述べられ、いくつかは、ここで要約され、本特許においてより詳細に提供され、いくつかは本特許において記載されているが、この開示に概して等しく適用できる(本願明細書における教示と明らかにかつ必然的に矛盾する任意の部分を除いて)。用語は、本特許と本開示との間でわずかに異なり得る。
【0011】
[0013]本願明細書において記載されている実施形態は、開示を合理化するために、(方法ステップまたは行為を含む)さまざまな特徴を共に分類する。開示のこの方法は、任意の特定の実施形態が、列記されたありとあらゆる特徴を要求するという意図を反映するものとして解釈されるべきではない。また、「実施形態」という用語は、特徴の必須の組み合わせを意味することを意図しない。「実施形態」という用語は、異なる実施形態に関連して、または、全く実施形態に関連せずに述べられる特徴の除外を反映することを意図しない。また、任意の特徴は、明確に述べられない限り、任意の特定のまたはすべての実施形態に「必須である」か「必要である」とみなされるべきではない。
【0012】
[0014]むしろ、本願明細書において述べられる任意の特定の特徴または特徴のグループが、追加の機能を有する特定の「実施形態」に関連して開示される場合であっても、他の特徴から分離可能であると考えられる。加えて、一実施形態からの特徴または特徴のグループは、他でまたは本特許において述べられる特徴と組み合わせることができる(明らかにかつ必然的に矛盾していない限り)。それゆえ、本開示は、特定の実施形態において組み合わせで明確には開示されていないかもしれない特徴の組み合わせを含む、(組み込みを介するものを含む)本開示に出現する任意の適切な1つまたは複数の特徴のセット(すなわち、互換性もなく相互に排他的でもない特徴のセット)を有する任意の実施形態を開示すると理解されたい。
【0013】
[0015]この開示は、概して、1つまたは複数の文書に構成される情報を圧縮する装置および方法を記載する。各圧縮されていない文書は、複数の記号を有する。文書は、任意の長さの記号列(例えば、文、パラグラフ、テキストファイルまたは他の文書のライブラリ)を含むか、または、これらからなることができる。開示は、同様に個々に考慮される複数の文書に適用可能である。圧縮されていないデータのサイズが増加するにつれて、圧縮比は改善されると期待され、それは、複数またはより長い文書を用いて達成可能である。データセットがより大きいほど、開示されたシステムによって生成される置換が多く、より高い圧縮が達成される。
【0014】
[0016]記号は、情報を構成するかまたは伝える任意の符号(例えば、文字、数、非英数字、シラブルまたは単語)とすることができる。記号は、英数字、英数字の別々のグループ、例えば、シラブルもしくは単語、または、さまざまなタイプの数値情報を構成または表現することができる、代表である場合、記号は、任意の方法で符号化された、情報を伝える任意の符号からなることができる。例えば、ASCIIコードは、アルファベットの文字または特殊文字の数値表現である。さまざまな符号化方式が可能である。例えば、他の符号化された記号は、単語を表現することができる。
【0015】
[0017]この開示のために、「ただ1つの」、「単一の」または他の類似の限定が明確に述べられるかまたは特定の文脈に黙示的でない限り、冠詞「a」は「1つまたは複数」と解釈され、同様に、「のうちのただ1つの」、「のうちの単一の」または他の類似の限定が明確に述べられるかまたは特定の文脈に黙示的でない限り、冠詞「the」は「のうちの1つまたは複数の」と解釈される。本開示のために、接続詞「または」は、包括的に解釈されるべきである(例えば、「犬または猫」は「犬または猫またはその両方」として解釈され、例えば、「犬、猫またはネズミ」は、「犬または猫またはネズミまたは任意の2つまたは3つすべて」と解釈される)。ただし、(i)例えば、「…または…のどちらか」、「…のうちのただ1つ」または類似の言葉を使用して、他の意味が明示的に述べられない限り、または、(ii)列挙された代替例のうちの2つ以上が特定の文脈内で相互排他的でない限り、「または」は、相互に排他的ではない代替例を含む組み合わせのみを包含するであろう。
【0016】
[0018]本開示のために、「備える」、「含む」、「有する」という用語およびそれらの変形は、それらが現れる場合はいつでも、オープンエンド用語として解釈されるべきであり、各例の後に「少なくとも」という言葉が付されているのと同じ意味である。
【0017】
[0019]開示されたコンピュータによるデータ圧縮およびデータ分析システム(装置およびプロセスを含む)は、さまざまな目的および利点を提供することができる(必須ではない)。
【0018】
[0020]特に、一般的なテキスト圧縮技術は、典型的には、一度に1つのファイルまたは文書に使用可能である。このような技術は、巨大なデータセット、すなわち、「ビッグデータ」またはデータが多くの異なるコンテナにわたり広がるところに容易に拡大されない。開示されたコンピュータによるデータ圧縮およびデータ分析システムは、ビッグデータのための圧縮を改善する際に利点を有し得る。
【0019】
[0021]また、圧縮技術は、一般的には、特定の記号または記号列が圧縮されていないテキストに出現する回数を追跡しない。それは、有益な情報であり、空間を削減し、処理時間を減少し、または、文脈分析を行うために有用である。開示されたコンピュータによるデータ圧縮およびデータ分析システムは、このような情報を保持することから生ずる利点を有し得る。
【0020】
[0022]一般的なテキスト圧縮技術はまた、典型的には、互いに隣接する記号または記号列の圧縮に依存する。開示されたコンピュータによるデータ圧縮およびデータ分析システムは、隣接するか隣接しない記号の一方または両方に基づいて、圧縮または分析する能力から生ずる利点を有し得る。
【0021】
[0023]他の目的または利点は、以下で開示される例示の実施形態から明らかになり得る。
[0024]ここでの開示は、コンピュータによりデータ圧縮およびデータ分析システムを実施することを考慮する。開示された技術は、コンピュータ命令のセットとしてコンピュータコードでプログラム可能である。汎用コンピュータ上でプログラムされる場合であっても、このようなコンピュータは、少なくとも1つのコンピュータプロセッサを制御し、コンピュータプロセッサに本願明細書において記載されている機能を実行させる特定のプログラムされたコンピュータ命令の存在のため、非汎用かつ特殊目的に適応されるとみなされるであろう。代替例は、プログラム適応の汎用コンピューティング機械よりもむしろ、専用コンピュータまたは専用のコンピュータ機器でも同等に達成可能である。いずれの方法でも、特別にプログラムまたは構造化されたコンピュータは、そのように構成または適応されないコンピュータでは可能でない機能を達成する改善されたコンピューティング機械を備える。
【0022】
[0025]コンピュータ命令(例えば、ハードウェアに組み込まれている機械の代わりに用いられる場合、コンピュータソフトウェア)は、コンピュータにアクセス可能な任意のコンピュータメモリ内に格納可能であるか、または、コンピュータハードウェアに符号化可能である。実施形態が動作する文書は、コンピュータにアクセス可能な同一または異なるコンピュータメモリ内に格納可能である。
【0023】
[0026]「1つのコンピュータ」または「コンピュータ」の参照(または単にコンピュータプログラムされた動作の参照)は、単一のコンピュータまたは複数のコンピュータ、例えば、相互接続されたデバイスのシステムまたは分散処理技術を用いたデバイスのセットでの実施を可能にすると理解されたい。各コンピュータデバイスはまた、1つまたは複数のプロセッサを利用してもよい。
【0024】
[0027]「ステップ」という単語は、方法の場合、コンピュータ動作または行為または段階を意味することを意図し、または、装置の場合、このような動作または行為を実行するようにプログラムされるコンピュータ装置を意味することを意図する。単語は、いかなる特別な法律の意味も有することを意図しない。
【0025】
[0028]開示は、方法またはプロセスに焦点を当てるが、開示は、このような方法またはプロセスを実施する機器または装置、例えばコンピュータならびにこのような方法またはプロセスを実施するようにコンピュータを制御する、有形媒体に格納されるコンピュータ命令を等しく意味すると理解されたい。
【0026】
[0029]ここで開示される例示の主要な実施形態は、各記号が単語を表す一連の記号に対して、および、単一の文書に対して示される。それらの選択は、説明を簡単にするために選択されているが、上述した「文書」および「記号」の定義に示すように、他の代替例は可能である。
【0027】
[0030]図示する主要な方法は、以下のステップを含む。
[0031]ステップ1:文書101(
図1参照)を通して、パスを作り、文書101内の単語を関連付けられた記号(S1、S2、S3、…、Sn、…と付される)に置換しながら、記号をそれぞれの記号が象徴する単語に関連させる記号辞書(例えば、
図1の表140)を作成する。
【0028】
[0032]記号を含む文書111は、述べられる方法に対する入力文書とみなされてもよい。記号のバージョン(入力文書111)を別のメモリ位置に格納しながら、元の文書101を保持することが望まれ得る。
【0029】
[0033]パスの間、重複について点検し、発見される場合、各単語のインスタンスの数のカウントをインクリメントする。
[0034]パスが終了すると、記号辞書は、一連のエントリを含み、各々は、記号(例えば、表140の列150)と、その記号に関連付けられた単語(例えば、表140の列160)と、単語が文書内に出現する回数のカウント(例えば、表140の列170)と、を有する。
【0030】
[0035]複数の対応する記号の文書(例えば、112、113、114、…)が複数の元の文書(例えば、102、103、104、…)から同じ符号化によって作成される場合、結果として効率的になり得る。記号辞書は、標準化メモリとして見ることができ、複数の文書の一部または全部の符号化または復号を可能にする。
【0031】
[0036]ステップ2:オプションで、頻度の順序によって辞書をソートする。
[0037]ステップ3:分類段階10(例えば、
図4参照)において、固有の記号対の表を作成し、入力文書111(および、存在する場合入力文書112、113、114、…)を通してパスを作り、隣接するかまたは隣接しない固有の記号対の表を作成する。
【0032】
[0038]例えば、文書111内の出現順を用いて、第1および第2の位置の記号からなる対で開始し、次に、第1および第3の位置の記号、さらに次に、第1および最後の位置の記号に到達するまで続ける。
【0033】
[0039]オプションで、数の上限を課して、位置の数を制限することができるので、プロセスは上限未満によって分離される位置のみを考慮する。例えば、上限が10の単語である場合(文書は10超の単語を有する)、プロセスは、第1および最後の位置の記号を通してよりはむしろ、第1および第10の位置の記号を通して続ける。
【0034】
[0040]第1の出現する記号を含む対のすべて(または限定数)を完了した後、第2の位置の記号によって対になる記号で続ける。第2および第3の位置の記号で開始し、次に、第2および第4における記号の、そして、第2および最後の位置を通して(または上限が例えば10の場合、第2および第11を通して)続ける。
【0035】
[0041]次に、最後から2番目および最後の位置の記号を通してプロセスを繰り返し続ける。そのとき、(上限がないと仮定すると)すべての組み合わせが考慮されている。
[0042]並列処理コンピュータは、必要に応じて分類段階10を有用に支援することができる。なぜなら、特に、ビッグデータのシナリオでは、組み合わせの数が記号の数の階乗で拡大し、直ちに大きくなり得るためである。数の上限はまた、可能な組み合わせの数を減少し、この段階の速度を改善するために課され得る。コンピュータがより高速およびより高性能になるにつれて、この段階の速度は、考慮の重要性が低下する。
【0036】
[0043]上述した各位置の記号対が登場するとき、その対が初めて登場している場合、それを表(例えば、
図2の表200)に追加し、または、同じ対が1つまたは複数の異なる位置対で以前に登場していたので、表200がそれをすでに含む場合、記号対に関連付けられた表のカウンタをインクリメントする。
【0037】
[0044]表200は、圧縮辞書とみなされてもよく、圧縮辞書は、格納された固有の記号対をそれぞれの置換記号に関連付け、異なる記号対が入力文書111(または複数の入力文書111、112、113、…)内に出現する回数のカウントを保つ。
【0038】
[0045]ステップ4:記号対の出現の頻度に基づいて、表200(圧縮辞書)をソートする。ソートは、より頻繁に出現する記号対を、頻繁に出現しない記号対よりアクセスしやすいメモリ位置に配置するという利点がある。これは、後述する置換段階20の間、検索時間の減少を潜在的に促進する。
【0039】
[0046]ステップ5:オプションで、閾値を用いて表200を切り捨てる。例えば、特定の記号の対が各々1つの位置のみで発生したことをカウンタが示す場合、エントリは、表から除去可能である。他の例では、表は、1回または2回のみ発生した記号対を反映するエントリを除去するために切り捨て可能である。より高い閾値も同様に用いることができる。このステップは、行われる場合、おそらく圧縮の程度に関する何らかの損失のみを犠牲にし、さらに計算のオーバヘッドを減少することができる。
【0040】
[0047]ステップ6:置換段階20(例えば、
図4参照)において、記号対の表200を用いて、入力文書111を通るさらなるパスを作り、記号対を置換記号に置換する。各置換記号は、対応する記号対の1つを示す。記号対の2つの要素が発見される位置の間の距離を特定する置換記号データを格納する(例えば、間にある記号の数であり、隣接する記号の場合、ゼロの距離が割り当て可能であり、他の距離方式が使用可能である)。
【0041】
[0048]例えば、最も頻繁に発生する対から開始し、文書内の第1の位置から開始し、記号対の第1の要素の第1の発生(位置1)を求めて入力文書を調べる。位置1の直後の位置から、同じ記号対の第2の要素の第1の発生の位置(位置2)を見つけるまで順方向に検索する。上述したオプションの数の上限が位置の数を制限する場合、ここの「順方向検索」プロセスは、その数の位置の後で停止するであろう。同じ記号対の第2の要素が発見されるとき(位置2)、3つの行為を実行する。(a)位置1の記号を、(圧縮辞書からの)記号対を示す置換記号に置換する。(b)位置1と位置2との間の距離を特定するデータを含める。(c)位置2の記号を削除する。
【0042】
[0049]2つの位置の間の距離は、2つの位置の間の場所のカウントを示す数(例えば、単語または記号の数)、2つの位置の数の差または他の任意の方法によって特定可能である。一対の2つの記号が隣接する位置に生ずる場合、位置の間の語数を特定するシステムでは、距離は「0」とみなすことができる。いくつかの実施形態において、数は、隣接する位置のために、完全にドロップしてもよい。この段落に記載されている相対的なアドレス指定の代わりに、必要に応じて、一対の第2の記号の絶対的な位置を用いることができる。
【0043】
[0050]次に、位置1の後の次の位置から開始して、同じ記号対の第1の要素の次の発生の位置(位置3)を見つけるまで順方向に検索する。位置3の後の次の位置から、存在する場合再び数の上限によって制限されながら、同じ記号対の第2の要素の次の発生の位置(位置4)を見つけるまで順方向に検索する。位置3の記号を、記号対を示す同じ置換記号に置換し、位置3に位置3と位置4との間の距離を示す印を含ませ、位置4の記号を削除する。最も頻繁に発生する記号対のすべてのインスタンスが使い果たされるまで続ける。
【0044】
[0051]次の最も頻繁に発生する対に関してプロセスを繰り返す。これによって、今回は第2の対を示す異なる置換記号の挿入が生じ、これは、圧縮辞書においても発見される。(おそらく切り捨てられた)圧縮辞書において、すべての記号対のためにプロセスを再び繰り返す。
【0045】
[0052]
図3の例では、記号対「S5 S1」は、2回出現し、第1のインスタンスにおいて(それらの間の1つの記号または記号位置を示す)「R2;1」によって置換され、第2のインスタンスにおいて(それらの間の3つの記号または記号位置を示す)「R2;3」によって置換される。同様に、その例では、記号対「S2 S79」は「R3;4」によって置換され、「S75 S4」は「R4;2」によって置換される。文書111において、出現する表200から、他の記号対に基づいて、さらなる置換を行うことができる。
【0046】
[0053]圧縮辞書が、2つの異なる記号対が共通して1つの記号を有するインスタンスを含んでもよいことに留意されたい。例えば、最も頻繁に発生する記号対は、単語1を単語2と組み合わせて象徴してもよく、一方、頻繁に発生しない記号対は、単語3を単語2と組み合わせて象徴してもよい。説明のために、一番上の対は、単語「is…a」を象徴してもよく、一方、他の対は、「are…a」を象徴する。このような場合、文書を通る後のパスにおける置換の数は、結果として、圧縮辞書内に記録される頻度より少ない置換になり得る。なぜなら、共通の単語のいくつかのインスタンスが、以前のパスの間「使い果たされ」、したがってより低いランクの記号対の異なる要素と組み合わせるために利用できないからである。しかしながら、より頻繁に発生する記号対により高い優先度を与えることが有利であるとみなされるので、これは問題ではない。いくつかの場合には、特定の記号対の置換の数が、この影響の結果として、閾値(またはおそらく異なる閾値あるいはおそらくゼロまで)未満に減少する場合、その記号対は、同様に切り捨てられ、無効なエントリまたは価値が限られるとみなされるエントリのさらなる評価および記憶を回避する。
【0047】
[0054]ステップ7:圧縮段階30(例えば、
図4参照)において、残りの記号(置換および置換されていない元の記号)を、それらが順番になるように、すなわち、間にある空のメモリ位置を除去するようにシフトすることによって、圧縮出力文書を生成する。
図3の例において、出力文書321は、このような圧縮の前が示されており、空間が除去されると、文書111より短くなる。
【0048】
[0055]置換段階20が完全に終了した後、シフトすることが望まれ得る。なぜなら、置換段階20全体が終了した後シフトが発生しないと、述べられる測定値は、それらの位置の間の単語の実際の数を識別しないか、または、曖昧さを含み得るからである。例えば、
図3において、「S5 S1」の第2のインスタンスは、任意のシフトが発生する前に(すなわち、「S2」を「R3;4」に置換することに起因して、シフトによって「S79」の位置が除去される前に)、(「S5」の第2の発生の位置で)それらの間の3つの記号または記号位置を示す「R2;3」によって置換される。
【0049】
[0056]あるいは、ステップ7は、ステップ6の間、各削除が行われるとき、各記号対のための各「パス」の後か、または、(特定された数の削除またはパスの後のような)いくつかの他のパターンにおいて行うことができる。シフトを高速に行うことができる場合、これは、空のメモリ位置を点検する必要を回避し得る。
【0050】
[0057]一番上のランクの記号対を用いて置換を行った後であるが、次のランクの記号対のためのプロセスが発生する前に、シフトが発生すると仮定する。一番上のランクの記号対の記号の一方が中間にある位置から、すなわち、より低いランクの記号対の2つの記号の間から削除された場合、より低いランクの記号対の2つの記号の間の距離を示す数は、それらの位置の間の単語の数を正確には列挙しない。
図3の例において、「S79」の位置がすでに除去された場合、「S5 S1」の第2の発生は、上述しかつ
図3に示される「R2;3」の代わりに、「R2;2」によって「S5」の位置で置換されるであろう。それにもかかわらず、それは、隣接する残りの記号(置換されていない単語を識別する記号または単語対の第1の要素を示す置換記号)の間の位置を依然として識別することができる。
【0051】
[0058]置換段階20が完全に終了する前にシフトが行われる場合、さらに、プロセスは、除去されたメモリ位置にわたる他の距離測定値を調整しなければならない。例えば、位置10が、その対の第1および第2の記号の位置の間に3つのメモリ位置が存在したことを示す数3を有する置換記号を含むと仮定する。言い換えれば、数3は、対の第2の記号が位置13の後で発見されたことを示す。位置15が位置14の除去によって1つの位置低くシフトすることに留意されたい。ここで、それが後の対の第2の要素であるので、後の置換によってメモリ位置12の削除が生じると仮定する。そのとき、シフトが直ちに行われる場合、位置13は位置12にシフトする。ここで、位置10で述べられる、第1の対のための数3は、今や、その対の第1および第2の記号の位置の間には、2つのメモリ位置のみが存在する(すなわち、その第1の対の第2の要素は、今や、位置12であるものの後発見される)ことを示すように、数2に変更されなければならない。このような調整を達成するために、シフトを行うとすぐに、このような即時のシフトの実施形態は、以前の位置のデータ(存在する場合最大距離の上限の影響を受ける)を点検し、メモリ位置が削除された後の位置を参照する数をどれが有するのかを決定する。
【0052】
[0059]置換およびシフトの結果、それが発生するときはいつでも、文書は圧縮する。プロセスがステップ6および7を完了するとき、それらが組み合わせられるか否かを問わず、圧縮された表321(ブランクは除去されている、
図3参照)は、出力文書とみなすことができる。
【0053】
[0060]また、あるいは、入力文書を表現する一連の記号に上書きする代わりに、入力文書も同様に保ちながら、出力文書を異なるメモリ位置内に書くことができる。しかしながら、(記号を含む)入力文書が(実際の単語を含む)元の文書とは別に第1の場所内に保存された場合、元の文書が存在し、入力文書がいずれにしろワーキングコピーとして作用するので、おそらく入力文書を保存する必要はない。
【0054】
[0061]ステップ8:オプションで、出力文書を他のサイクルのための入力文書として用いて圧縮プロセスを繰り返し、さらにオプションで、再帰的にこのようなサイクルを繰り返す。
【0055】
[0062]第1のこのような追加のサイクル(第2のサイクル全体)の初めに、所定の位置の記号は、単一の単語を表現せず、むしろ、規定の距離によって分離された単語対を表現する。このような記号が入力文書内のいくつかの位置で発生する場合、それは、単語対が所定の分離とともに共通に用いられることを示す。文書は、所定のフレーズまたは所定の形の使用の繰り返しを含んでもよい。例えば、さまざまな文は、「<主語>は<目的語>である」という単語で開始するように出現してもよく、ここで、主語および目的語は、異なる文においては異なるが、「The」および「is」という単語は、頻繁に、固定した隣接しない距離で対にされ得る。これは、もちろん、より実質的な単語とともに発生してもよく、より実質的な単語のパターンは、もちろん、分析のためのより興味深い情報を提供する。このような単語対が異なる単語対の近くに共通に出現する場合、第1の追加のサイクルにおいて、それらの2つの記号対は、入力文書においてそのサイクルまで頻繁に互いに関連付けられて出現する。したがって、存在する場合第2のサイクルは、関連付けられた「対の対」を、(各対の間の指定された間隔を有する)4つの単語を示す単一の第2のレベルの置換記号に置換させるであろう。存在する場合第2のレベル置換記号において動作する第3のサイクルは、8つの単語の組み合わせを示す第3のレベル置換記号を作成する等であろう。
【0056】
[0063]このような再帰的なプロセスは、一定のサイクル数動作することができる。または、さらなる可能な置換が検出されなくなるまで、プロセスは再帰的にサイクルを実行することができ、それは結果として、最高の可能な圧縮になる。または、最大に達する前に、さらなる可能な置換が検出されない限り、プロセスは、最大のサイクル数繰り返すことができる。
【0057】
[0064]切り捨てが要求される場合、または、上限が用いられる場合(両方の場合において、それらのオプションは第1のサイクルに関連して述べられるので)、連続したサイクルの間適用されるこのような数は、第1のサイクルの間適用される対応する数と異なることができるか、または、同じ数を使用することができる。
【0058】
[0065]置換記号は、圧縮辞書内の置換された記号対のアドレスとすることができる。いくつかの場合、置換記号は、スプレッドシートにおける単なる行識別子とすることができる。再帰的なサイクルを有するいくつかの場合において、置換記号はスプレッドシートにおける行識別子に関連付けられたアドレスの単なる部分とすることができ、列は、連続サイクルを表現し、文脈から列が以前のサイクルを意味すると仮定することができる。このような実施形態は、このことによりさらなる空間削減を達成することができ、圧縮辞書にアクセスするのに必要な検索時間を減少することができる。
【0059】
[0066]本特許は、圧縮技術のさまざまな使用および圧縮技術を適用する方法を述べる。同様に、上述した変更されたプロセスは、圧縮に適用可能であり、または、本特許内に列挙されるさまざまな他の目的のいずれかのためとすることができる。
【0060】
[0067]例えば、いくつかの実施形態では、システムは、置換記号のパターンおよび関連付けられたカウントを用いて、コンテンツを分析するかまたはテキストを調査することができる。特に再帰的なサイクルが用いられる場合、高次の置換記号の存在を用いて、異なる文書の間の関係を推定し、2つのテキストが何らかの方法で関係することを提案することができる。文書の圧縮中に生成されるメタデータ、例えば、特定の対が出現する回数を用いて文書を分析し、その間の類似点を発見することができる。
【0061】
[0068]システムは、(上述したように)単語以外によって象徴され得るさまざまな種類のデータを分析するために適用可能であり、それは、さらに他の適用につながり得る。1つの例は、異なる顔面の寸法または特性の数値(または他)の符号化に基づく顔認識であり、これを用いて、例えば、安全な位置、例えば、物理的場所(例えば、建物)またはデバイス(例えば、コンピュータシステム、データベースまたはその安全な部分)へのアクセスを制御することができる。システムは、顔を認識するために用いるだけではなく、さらに(またはその代わりに)、特定の測定値が人間の顔を表現するか否かを区別するために、または、顔認識システムを改善するために用いることができる。
【0062】
[0069]システムはまた、(例えば広告に関する)好みまたは関心を推定するか、または、興味がある特徴を決定するために用いることもできる。
[0070]上で列挙した番号付きのステップの任意の組み合わせは(記載されているオプションの有無にかかわらず)、本願明細書において記載されている適用(圧縮またはその他)の任意の選択された1つと組み合わせて、この開示によって教示される例示の実施形態とみなすことができる。
【0063】
[0071]動作される記号が単語である、圧縮プロセスの1つの例示の実施態様のためのコンピュータコード(Microsoft Excel 2016のMicrosoft Visual Basic for Applications 7.1)は、上述したように本願明細書において参照によって組み込まれる米国仮特許出願第62/939,448号に開示されている。
【0064】
[0072]「プログラムされたコンピュータによる機械」を用いて実装した、本願明細書に開示されるシステムおよび方法は、ソフトウェアを介してプログラムされた汎用または特殊用途のコンピュータまたはサーバまたは他のプログラム可能なハードウェアデバイスとして、あるいは、ハードワイヤリングを介して「プログラムされた」ハードウェアまたは機器として、あるいは、その2つの組み合わせとして実装可能である。「コンピュータ」または「サーバ」は、単一の機械を備えてもよいし、(単一の場所または複数の遠隔地に配置された)複数の対話型機械を備えてもよい。使用される場合、コンピュータプログラムまたは他のソフトウェアコードは、マイクロコード、マシンコード、ネットワークベースまたはウェブベースまたは一緒に動作する分散型ソフトウェアモジュール、RAM、ROM、CD-ROM、CD-R、CD-R/W、DVD-ROM、DVD±R、DVD±R/W、ハードドライブ、サムドライブ、フラッシュメモリ、光媒体、磁気媒体、半導体媒体、または、任意の将来のコンピュータ可読記憶装置の代替物におけるプログラミングを含むことによって、有形の非一時的な一時的または恒久的な記憶装置または可換型媒体に実装可能である。データセットの電子的な印は、本願明細書において言及される有形の非一時的なコンピュータ可読媒体のいずれかから読み出し可能であるか、受信可能であるか、または、いずれかに格納可能である。
【0065】
[0073]上記に加えて、以下の例は本開示または添付の特許請求の範囲内に含まれる。
[0074]例1.複数の文書に構成される記号情報を圧縮するコンピュータによる方法であって、各文書は、複数の記号を有し、方法は、自動的にコンピュータによって、入力文書として複数の文書の第1の文書を用いて、(a)複数の記号対を識別するステップであって、各記号対は、入力文書内の2つの連続または不連続の記号からなり、1つまたは複数の記号対は、入力文書内の2つの不連続の記号からなる、ステップと、(b)複数の記号対の各固有の記号対のために、固有の記号対の出現の数を識別するカウントを更新するステップと、(c)2つの不連続の記号からなる1つまたは複数の記号対を含む入力文書からの複数の記号対の1つに関連付けられた各位置で、(i)固有の記号対のためのカウントが閾値を超える場合、圧縮辞書によって複数の記号対の1つに合致する固有の記号対に関連付けられた置換記号と、(ii)2つの不連続の記号からなる少なくともそれらの記号対のための、入力文書内の対の不連続の記号の位置の間の距離を示す印と、を圧縮文書に含ませることによって、圧縮文書を生成するステップと、を含むコンピュータによる方法。
【0066】
[0075]例2.複数の記号対は、入力文書内の対の不連続の記号の位置の間の距離が数の距離の上限未満である、不連続の記号のそれらの対のみを含む、例1に記載の方法。
[0076]例3.数の距離の上限は、10個の記号である、例2に記載の方法。
【0067】
[0077]例4.閾値は、2である、例1から3のいずれか1つに記載の方法。
[0078]例5.それぞれの固有の記号対のためのカウントの順に圧縮辞書をソートするステップをさらに含む、例1から4のいずれか1つに記載の方法。
【0068】
[0079]例6.閾値を超えないカウントを有するすべての固有の記号対を圧縮辞書から除外または除去するステップと、閾値を超えるカウントを有する各固有の記号対と置換記号との間の圧縮辞書内の関連を作るステップと、をさらに含む、例5に記載の方法。
【0069】
[0080]例7.入力文書として圧縮文書を用いて、部分(a)、(b)および(c)を繰り返すことによって追加のパスを実行するステップをさらに含む、例1から6のいずれか1つに記載の方法。
【0070】
[0081]例8.パスの1つによって作成される圧縮文書が、直前のパスによって作成された圧縮文書から変わらなくなるまで、追加のパスを実行するステップをさらに含む、例7に記載の方法。
【0071】
[0082]例9.第1の文書からの各記号は、単語を示す、例1から8のいずれか1つに記載の方法。
[0083]例10.部分(a)の前に、テキスト文書の各単語を複数の記号の対応する1つに置換することによって、第1の文書を作成するステップをさらに含む、例9に記載の方法。
【0072】
[0084]例11.第1の文書内の各記号は、英数字を示す、例1から10のいずれか1つに記載の方法。
[0085]例12.各置換記号は、圧縮辞書内のエントリのアドレスを備え、エントリは、置換記号に関連付けられた固有の記号対を格納する、例1から11のいずれか1つに記載の方法。
【0073】
[0086]例13.複数の文書の他の文書の各々において、部分(a)、(b)および(c)を実行するステップをさらに含み、記号対のためのそれぞれのカウントは、複数の文書のいずれか内のその記号対の以前の出現の数を識別する、例1から12のいずれか1つに記載の方法。
【0074】
[0087]例14.部分(c)が複数の文書のいずれかにおいて実行される前、部分(a)および(b)は、複数の文書の各々において実行される、例13に記載の方法。
[0088]例15.部分(c)が複数の文書のいずれかにおいて実行される前、固有の記号対が閾値を超えるカウントを有する場合に限り、各固有の記号対と置換記号との間の圧縮辞書内の関連を作るステップをさらに含む、例14に記載の方法。
【0075】
[0089]例16.それぞれの固有の記号対のためのカウントの順に圧縮辞書をソートするステップをさらに含む、例13から15のいずれか1つに記載の方法。
[0090]例17.閾値を超えないカウントを有するすべての固有の記号対を圧縮辞書から除外または除去するステップと、閾値を超えるカウントを有する各固有の記号対と置換記号との間の圧縮辞書内の関連を作るステップと、をさらに含む、例16に記載の方法。
【0076】
[0091]例18.パスの1つによって作成される圧縮文書が、直前のパスによって作成された圧縮文書から変わらなくなるまで、プロセスによって以前に生成された圧縮文書を入力文書として用いて、部分(a)、(b)および(c)を繰り返すことによって、少なくとも1つの追加のパスを作るために、他の文書の各々において部分(a)、(b)および(c)を繰り返すステップをさらに含む、例13から17のいずれか1つに記載の方法。
【0077】
[0092]例19.固有の記号対に関連付けられた置換記号が、第1の文書に関連付けられた出力文書内に出現する頻度に基づいて、第1の文書に複数の属性の少なくとも1つを割り当てるステップをさらに含む、例18に記載の方法。
【0078】
[0093]例20.第1の文書の少なくとも1つの属性および関連文書の少なくとも1つの属性に基づいて、関連文書を示唆するステップをさらに含む、例19に記載の方法。
[0094]例21.複数の文書に構成される記号情報を圧縮することができる少なくとも1つのプロセッサを有するコンピュータシステムであって、各文書は、複数の記号を有し、コンピュータシステムは、プロセッサにより、入力文書として複数の文書の第1の文書を用いて、例1から20のいずれか1つに記載の方法を自動的に実行するようにプログラムされている、コンピュータシステム。
【0079】
[0095]例22.複数の文書に構成される記号情報を圧縮するためのコンピュータ命令セットを格納する、一時的な伝搬信号ではないコンピュータ可読記憶媒体であって、各文書は、複数の記号を有し、コンピュータ命令セットは、コンピュータ上で実行されるとき、コンピュータに、入力文書として複数の文書の第1の文書を用いて、例1から20のいずれか1つに記載の方法を自動的に実行させる、コンピュータ可読記憶媒体。
【0080】
[0096]本開示および添付の特許請求の範囲のために、実施形態、例または請求項の要素、ステップ、限定または他の部分の任意のラベル付け(例えば、第1、第2、第3など、(a)、(b)、(c)など、または(i)、(ii)、(iii)など)は、明確にするためだけであり、そのようにラベル付けされた部分の何らかの順序付けまたは優先順位を暗示するものとして解釈されるべきではない。任意のそのような順序付けや優先順位が意図されている場合、それは実施形態、例または請求項に明示的に列挙されるか、いくつかの場合には、実施形態、例または請求項の特定の内容に基づいて暗黙的または内在的なものとなる。添付の特許請求の範囲において、米国特許法第112条(f)の規定が装置クレームに行使されるように望まれる場合、「手段」という用語がその装置クレームに現れる。それらの規定が方法クレームに行使されるように望まれる場合、「ためのステップ」という用語がその方法クレームに現れる。逆に、「手段」または「ためのステップ」という用語がクレームに現れない場合、米国特許法第112条(f)の規定は、そのクレームに対する行使を意図しない。
【0081】
[0097]要約は、特許文献の中で特定の主題を探している人々への援助として必要に応じて提供される。しかしながら、要約は、その中に列挙されている任意の要素、特徴または限定を、任意の特定の請求項によって必然的に包含されることを意味することを意図しない。各請求項に包含される主題の範囲は、その請求項のみの列挙によって決定されるものである。
【手続補正書】
【提出日】2022-07-26
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
(a)複数の文書に構成される記号情報を圧縮するように構成される少なくとも1つのプロセッサと、(b)複数の文書に構成される記号情報を圧縮するためのコンピュータ命令セットを格納するように構成されるコンピュータ可読記憶媒体と、を備えるコンピュータシステムであって、前記複数の文書の各々は、複数の記号を有し、前記コンピュータシステムは、以下のプロセスを実行するように構成される、すなわち、
入力文書として前記複数の文書の第1の文書を利用して、前記コンピュータシステムを自動的に利用して、
(a)複数の記号対を識別し、各記号対は、前記入力文書内の2つの連続または2つの不連続の記号からなり、前記記号対の少なくとも1つは、前記入力文書内の前記2つの不連続の記号からなり、
(b)前記複数の記号対の各固有の記号対のために、前記固有の記号対の出現の数のカウントを更新し、
(c)前記入力文書からの前記複数の記号対の1つに関連付けられた各位置で、(i)前記固有の記号対のための前記カウントが閾値を超える場合、圧縮辞書によって前記複数の記号対の前記1つに合致する前記固有の記号対に関連付けられた置換記号と、(ii)2つの不連続の記号からなる少なくとも前記記号対のための、前記入力文書内の前記対の前記不連続の記号の位置の間の距離を示す印と、を含む圧縮文書を生成する、
コンピュータシステム。
【請求項2】
前記複数の記号対は、前記入力文書内の前記対の前記不連続の記号の位置の間の前記距離が数の距離の上限未満である、不連続の記号の前記対のみを含む、請求項1に記載のコンピュータシステム。
【請求項3】
前記数の距離の上限は、10個の記号である、請求項2に記載のコンピュータシステム。
【請求項4】
前記閾値は、2である、請求項1から3のいずれか一項に記載のコンピュータシステム。
【請求項5】
前記コンピュータシステムは、それぞれの前記固有の記号対のための前記カウントの順に前記圧縮辞書をソートするようにさらに構成される、請求項1から4のいずれか一項に記載のコンピュータシステム。
【請求項6】
前記コンピュータシステムは、前記閾値を超えないカウントを有するすべての固有の記号対を前記圧縮辞書から除外または除去するようにさらに構成される、請求項1から5のいずれか一項に記載のコンピュータシステム。
【請求項7】
前記コンピュータシステムは、前記閾値を超えるカウントを有する各固有の記号対と置換記号との間の前記圧縮辞書内の関連を作るようにさらに構成される、請求項1から6のいずれか一項に記載のコンピュータシステム。
【請求項8】
前記コンピュータシステムは、前記入力文書として前記圧縮文書を用いて、部分(a)、(b)および(c)を繰り返すことによって追加のパスを実行するようにさらに構成される、請求項1から7のいずれか一項に記載のコンピュータシステム。
【請求項9】
前記コンピュータシステムは、パスの1つによって作成される前記圧縮文書が、直前のパスによって作成された前記圧縮文書から変わらなくなるまで、追加のパスを実行するようにさらに構成される、請求項8に記載のコンピュータシステム。
【請求項10】
前記第1の文書からの各記号は、単語を示す、請求項1から9のいずれか一項に記載のコンピュータシステム。
【請求項11】
前記第1の文書からの少なくとも1つの記号は、単語を示す、請求項1から9のいずれか一項に記載のコンピュータシステム。
【請求項12】
前記コンピュータシステムは、部分(a)の前に、テキスト文書の各単語を対応する記号に置換することによって、前記第1の文書を作成するようにさらに構成される、請求項10または11に記載のコンピュータシステム。
【請求項13】
前記第1の文書内の各記号は、英数字を示す、請求項1から9のいずれか一項に記載のコンピュータシステム。
【請求項14】
前記第1の文書内の少なくとも1つの記号は、英数字を示す、請求項1から9または11のいずれか一項に記載のコンピュータシステム。
【請求項15】
前記コンピュータシステムは、部分(a)の前に、各英数字を対応する記号に置換することによって、前記第1の文書を作成するようにさらに構成される、請求項13または14に記載のコンピュータシステム。
【請求項16】
各置換記号は、前記圧縮辞書内のエントリのアドレスを備え、前記エントリは、置換記号に関連付けられた前記固有の記号対を格納する、請求項1から15のいずれか一項に記載のコンピュータシステム。
【請求項17】
前記コンピュータシステムは、前記第1の文書以外の前記複数の文書の各々において、部分(a)、(b)および(c)を実行するようにさらに構成され、前記記号対のためのそれぞれの前記カウントは、前記第1の文書以外の前記複数の文書のいずれか内のその記号対の以前の出現の前記数を識別する、請求項1から16のいずれか一項に記載のコンピュータシステム。
【請求項18】
前記コンピュータシステムは、部分(c)が前記複数の文書のいずれかにおいて実行される前、前記複数の文書の各々において部分(a)および(b)を実行するように構成される、請求項17に記載のコンピュータシステム。
【請求項19】
前記コンピュータシステムは、部分(c)が前記複数の文書のいずれかにおいて実行される前、前記固有の記号対が前記閾値を超えるカウントを有する場合、各固有の記号対と置換記号との間の前記圧縮辞書内の関連を作るようにさらに構成される、請求項1から18のいずれか一項に記載のコンピュータシステム。
【請求項20】
前記コンピュータシステムは、それぞれの前記固有の記号対のための前記カウントの順に前記圧縮辞書をソートするようにさらに構成される、請求項1から19のいずれか一項に記載のコンピュータシステム。
【請求項21】
前記コンピュータシステムは、前記閾値を超えないカウントを有するすべての固有の記号対を前記圧縮辞書から除去し、前記閾値を超えるカウントを有する各固有の記号対と置換記号との間の前記圧縮辞書内の関連を作るようにさらに構成される、請求項1から20のいずれか一項に記載のコンピュータシステム。
【請求項22】
前記コンピュータシステムは、パスの1つによって作成される第2の圧縮文書が、直前のパスによって作成された前記圧縮文書から変わらなくなるまで、部分(a)、(b)および(c)を実行することによって以前に生成された圧縮文書を前記入力文書として用いて、部分(a)、(b)および(c)を繰り返すことによって、追加のパスを作るために、前記第1の文書以外の前記複数の文書の各々において部分(a)、(b)および(c)を繰り返すようにさらに構成される、請求項14から18のいずれか一項に記載のコンピュータシステム。
【請求項23】
前記コンピュータシステムは、固有の記号対に関連付けられた置換記号が、前記第1の文書に関連付けられた出力文書内に出現する頻度に基づいて、前記第1の文書に複数の属性の少なくとも1つを割り当てるようにさらに構成される、請求項1から19のいずれか一項に記載のコンピュータシステム。
【請求項24】
前記コンピュータシステムは、前記第1の文書の前記複数の属性の前記少なくとも1つおよび関連文書の少なくとも1つの属性に基づいて、前記関連文書を示唆するようにさらに構成される、請求項23に記載のコンピュータシステム。
【請求項25】
前記コンピュータ可読記憶媒体は、一時的な伝搬信号ではない、請求項1から24のいずれか一項に記載のコンピュータシステム。
【国際調査報告】