特許7173351 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7173351制御方法、制御プログラムおよび情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13A
13B
13C
14
15
16
17
18
19

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-11-08

(45)【発行日】2022-11-16

(54)【発明の名称】制御方法、制御プログラムおよび情報処理装置

(51)【国際特許分類】

G06F 40/216 20200101AFI20221109BHJP

G06F 40/44 20200101ALI20221109BHJP

G16B 30/00 20190101ALI20221109BHJP

【ＦＩ】

G06F40/216

G06F40/44

G16B30/00

【請求項の数】 10

(21)【出願番号】P 2021536595

(86)(22)【出願日】2019-08-01

(86)【国際出願番号】 JP2019030379

(87)【国際公開番号】W WO2021019789

(87)【国際公開日】2021-02-04

【審査請求日】2021-12-07

(73)【特許権者】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】片岡正弘

(72)【発明者】

【氏名】尾上聡

(72)【発明者】

【氏名】酒井彬

【審査官】萩島豪

(56)【参考文献】

【文献】特開２０１９－０８３４７７（ＪＰ，Ａ）

【文献】国際公開第２０１９／００３５１６（ＷＯ，Ａ１）

【文献】国際公開第２０１４／１４７６７２（ＷＯ，Ａ１）

【文献】米国特許第５００６８４９（ＵＳ，Ａ）

【文献】米国特許出願公開第２０１７／１６１３６２（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ４０／００－４０／５８

Ｇ１６Ｂ３０／００

(57)【特許請求の範囲】

【請求項1】

単語及び前記単語の語義の組みの出現頻度に応じた長さの符号を前記単語及び前記語義の組みに対応付ける圧縮辞書を取得し、
前記圧縮辞書により、いずれかの単語及び前記いずれかの単語の語義の組みと、前記いずれかの単語及び前記いずれかの単語の語義の組みに対応付けられた符号とを取得し、
同一の長さの複数の固定長符号それぞれを単語及び語義の組みに対応付けて記憶する記憶部を参照して、前記複数の固定長符号のうち、取得した前記いずれかの単語及び前記いずれかの単語の語義の組みに対応付けられた固定長符号を特定し、
特定した前記固定長符号を、取得した前記符号に対応付ける変換辞書を生成し、
前記変換辞書に基づき、テキストデータが符号化された圧縮データに含まれる各符号に対応づけられた各固定長符号を特定する
処理をコンピュータが実行することを特徴とする制御方法。

【請求項2】

前記圧縮辞書は、複数の意味を有する多義語の各意味、または、複数の熟語で使用される成句の各意味に対して、前記符号を対応付け、
前記記憶部は、前記多義語の各意味または前記成句の各意味と、前記固定長符号とを対応付けて記憶し、
前記生成する処理は、前記多義語の各意味に対応する各符号または前記成句の各意味に対応する各符号と、前記記憶部に記憶される各固定長符号とを対応付けた前記変換辞書を生成することを特徴とする請求項１に記載の制御方法。

【請求項3】

前記圧縮辞書は、タンパク質を形成するコドンであって予め定められる基準コドンを含む各形態素のコドン配列に対して、前記符号を対応付け、
前記記憶部は、前記各形態素のコドン配列と、前記固定長符号とを対応付けて記憶し、
前記生成する処理は、前記各形態素のコドン配列に対応する各符号と、前記記憶部に記憶される各固定長符号とを対応付けた前記変換辞書を生成することを特徴とする請求項１に記載の制御方法。

【請求項4】

前記複数の固定長符号それぞれとベクトル値とを対応付けたベクトル値一覧を取得し、
データベースに格納されるデータを前記データベースから取り出さずに、前記データに対応する符号を特定し、
特定された前記符号に対応する固定長符号を、前記ベクトル値一覧に基づきベクトル値に変換して、ベクトルデータを生成し、
前記ベクトルデータを用いて機械学習を実行する、処理を前記コンピュータが実行することを特徴とする請求項１に記載の制御方法。

【請求項5】

前記複数の固定長符号それぞれとベクトル値とを対応付けたベクトル値一覧を取得し、
前記圧縮データに含まれる各符号に対応する各固定長符号を、前記ベクトル値一覧に基づきベクトル値に変換して、前記圧縮データからベクトルデータを生成し、
前記ベクトルデータを用いて機械学習を実行する、処理を前記コンピュータが実行することを特徴とする請求項１に記載の制御方法。

【請求項6】

前記テキストデータは、第１の言語で生成されたデータであって、正解情報として第２の言語で訳された訳語が設定されており、
前記特定する処理は、前記テキストデータを形態素解析して得られる各単語が符号化された符号化データに含まれる各符号に対応する各固定長符号を特定し、
前記生成する処理は、前記各固定長符号を前記ベクトル値に変換して、前記圧縮データから前記ベクトルデータを生成し、
前記機械学習を実行する処理は、前記ベクトルデータを説明変数、前記正解情報を目的変数として、テキストデータを前記第２の言語に翻訳する翻訳モデルの学習を実行することを特徴とする請求項５に記載の制御方法。

【請求項7】

前記機械学習を実行する処理は、制限ボルツマンマシンの関数を用いて、前記翻訳モデルの学習を実行することを特徴とする請求項６に記載の制御方法。

【請求項8】

単語及び前記単語の語義の組みの出現頻度に応じた長さの符号を前記単語及び前記語義の組みに対応付ける圧縮辞書を取得し、
前記圧縮辞書により、いずれかの単語及び前記いずれかの単語の語義の組みと、前記いずれかの単語及び前記いずれかの単語の語義の組みに対応付けられた符号とを取得し、
同一の長さの複数の固定長符号それぞれを単語及び語義の組みに対応付けて記憶する記憶部を参照して、前記複数の固定長符号のうち、取得した前記いずれかの単語及び前記いずれかの単語の語義の組みに対応付けられた固定長符号を特定し、
特定した前記固定長符号を、取得した前記符号に対応付ける変換辞書を生成し、
前記変換辞書に基づき、テキストデータが符号化された圧縮データに含まれる各符号に対応づけられた各固定長符号を特定する
処理をコンピュータに実行させることを特徴とする制御プログラム。

【請求項9】

単語及び前記単語の語義の組みの出現頻度に応じた長さの符号を前記単語及び前記語義の組みに対応付ける圧縮辞書を取得する取得部と、
前記圧縮辞書により、いずれかの単語及び前記いずれかの単語の語義の組みと、前記いずれかの単語及び前記いずれかの単語の語義の組みに対応付けられた符号とを取得する取得部と、
同一の長さの複数の固定長符号それぞれを単語及び語義の組みに対応付けて記憶する記憶部を参照して、前記複数の固定長符号のうち、取得した前記いずれかの単語及び前記いずれかの単語の語義の組みに対応付けられた固定長符号を特定する特定部と、
特定した前記固定長符号を、取得した前記符号に対応付ける変換辞書を生成する生成部と、
前記変換辞書に基づき、テキストデータが符号化された圧縮データに含まれる各符号に対応づけられた各固定長符号を特定する特定部と
を有することを特徴とする情報処理装置。

【請求項10】

テキストデータに含まれる各単語に割り当てられた可変長の圧縮符号それぞれに対して、各固定長符号を割り当て、
前記可変長の圧縮符号それぞれに対応する各固定長符号と、ニューラルネットワークを適用した機械翻訳への入力に利用される２００次元のベクトル値とを対応付ける
処理をコンピュータが実行することを特徴とする制御方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、制御方法、制御プログラムおよび情報処理装置に関する。

【背景技術】

【0002】

近年、ニューラルネットワークを活用した翻訳技術が利用されている。具体的には、入力されたテキストを符号化し、意味を持つ単位の単語に分割する形態素解析を行い、ＣＢＯＷ（Continuous Bag－of－Words）モデルなどを用いて各単語のベクトルを生成する。そして、ＲＮＮ（Recurrent Neural Network）などのニューラルネットワークを用いて、各単語のベクトルの総当たり演算を実行し、演算結果に基づき翻訳を実行する。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２００６－０４８６８５号公報

【文献】特開２０１８－０６８７５２号公報

【非特許文献】

【0004】

【文献】Piotr Bojanowski，Edouard Grave，Armand Joulin，and Tomas Mikolovr、“EnrichingWord Vectors with Subword Information”、arXiv preprint arXiv：1607.04606，2016

【文献】Armand Joulin，Edouard Grave，Piotr Bojanowski，and Tomas Mikolov、“Bag of Tricks for Efficient Text Classification”、arXiv preprint arXiv：1607.01759，2016

【発明の概要】

【発明が解決しようとする課題】

【0005】

ところで、上記技術では、ＣＰＵ（Central Processing Unit）とＧＰＵ（Graphics Processing Unit）により処理を分担することで、高速化を実現しているが、熟語や各単語の語形変化に対応したベクトル変換が繰り返し実行されるので、結果的に、処理速度が低下する。

【0006】

例えば、ベクトル生成までの処理をＣＰＵが実行し、ベクトルを取得して演算を実行する処理をＧＰＵが実行することで、処理を分担させている。ところが、ＺＩＰ（登録商標）で圧縮されたテキストを伸長し、字句解析（形態素解析）したテキストに熟語や語形変化が多く存在する場合、基本形の単語とは別のベクトル変換が多発するので、ＧＰＵがＣＰＵからベクトルを取得する時間が長時間化し、処理速度の低下が発生する。一方、「cool」などの多義語や「take out」などのストップワードで構成される成句に対するベクトル割当ての最適化や高速化が残存する問題もある。

【0007】

一つの側面では、ベクトル生成や機械学習の処理速度や精度を向上させることができる制御方法、制御プログラムおよび情報処理装置を提供することを目的とする。

【課題を解決するための手段】

【0008】

第１の案では、制御方法は、コンピュータが、単語及び前記単語の語義の組みの出現頻度に応じた長さの符号を前記単語及び前記語義の組みに対応付ける圧縮辞書を取得する処理を実行する。制御方法は、コンピュータが、前記圧縮辞書により、いずれかの単語及び前記いずれかの単語の語義の組みと、前記いずれかの単語及び前記いずれかの単語の語義の組みに対応付けられた符号とを取得する処理を実行する。制御方法は、コンピュータが、同一の長さの複数の固定長符号それぞれを単語及び語義の組みに対応付けて記憶する記憶部を参照して、前記複数の固定長符号のうち、取得した前記いずれかの単語及び前記いずれかの単語の語義の組みに対応付けられた固定長符号を特定する処理を実行する。制御方法は、コンピュータが、特定した前記固定長符号を、取得した前記符号に対応付ける変換辞書を生成し、前記変換辞書に基づき、テキストデータが符号化された圧縮データに含まれる各符号に対応づけられた各固定長符号を特定する処理を実行する。

【発明の効果】

【0009】

一実施形態によれば、ベクトル生成や機械学習の処理速度や精度を向上させることができる。

【図面の簡単な説明】

【0010】

【図1】図１は、実施例１にかかる情報処理装置を説明する図である。

【図2】図２は、実施例１にかかる情報処理装置の機能構成を示す機能ブロック図である。

【図3】図３は、静的辞書および動的辞書を説明する図である。

【図4】図４は、ＮＮＣとベクトルデータとの対応付けを説明する図である。

【図5】図５は、多義語の静的符号化と動的符号化を説明する図である。

【図6】図６は、成句の静的符号化と動的符号化を説明する図である。

【図7】図７は、多義語や成句の動的符号からＮＮＣの生成を説明する図である。

【図8】図８は、語形変化の動的符号からＮＮＣの生成を説明する図である。

【図9】図９は、実施例１の学習例を説明する図である。

【図10】図１０は、処理の流れを示すフローチャートである。

【図11】図１１は、処理の高速化を説明する図である。

【図12】図１２は、関連技術を塩基配列へ適したときの問題点を説明する図である。

【図13A】図１３Ａは、ゲノムに含まれるタンパク質を特定する処理を説明するための図である。

【図13B】図１３Ｂは、突然変異が発生した塩基配列データの評価を高速化する例を説明する図である。

【図13C】図１３Ｃは、実施例２にかかる処理を説明する図である。

【図14】図１４は、実施例２の学習例を説明する図である。

【図15】図１５は、データベースに適用したときの問題点を説明する図である。

【図16】図１６は、実施例３にかかるデータベースへの適用例を説明する図である。

【図17】図１７は、情報処理装置のハードウェア構成を示す図である。

【図18】図１８は、コンピュータで動作するプログラムの構成例を示す図である。

【図19】図１９は、実施形態のシステムにおける装置の構成例を示す図である。

【発明を実施するための形態】

【0011】

以下に、本発明にかかる制御方法、制御プログラムおよび情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

【実施例1】

【0012】

［情報処理装置１０の説明］
図１は、実施例１にかかる情報処理装置１０を説明する図である。図１に示すように、情報処理装置１０は、テキストデータから翻訳結果を予測する機械学習モデルのコンピュータの一例である。例えば、情報処理装置１０は、目的変数として「日本語テキストへの翻訳」が設定された英文のテキストデータを学習データとして、特徴量を生成し、その特徴量をもとに機械学習モデルを用いて機械翻訳を行う。

【0013】

ここで、情報処理装置１０は、テキストデータに含まれる各単語に割り当てられる圧縮符号一覧と、ニューラルネットワークコード（ＮＮＣ）テーブルと、ベクトルテーブルとを対応付ける。

【0014】

圧縮符号一覧は、出現頻度が高い高頻度単語に静的に設定される圧縮符号である静的コード（静的符号）と、出現頻度が低く、出現順に動的に割当てられる圧縮符号である動的コード（動的符号）とを含む、可変長の情報である。例えば、静的コードは、goやtakeなどの単語の基本形に予め割当てられる符号であり、動的コードは、goesやtakesなどの単語の語形変化、coolなどの多義語、take offなどの成句に割り当てられる符号である。

【0015】

ＮＮＣテーブルは、演算処理を効率化するために、ＧＰＵ（Graphics Processing Unit）が高速に読み出すことができる固定長（例えば３２ビット（４バイト））で設定される符号の一覧である。ベクトルテーブルは、機械学習モデルの学習時に入力データとなるベクトルデータの各ベクトル値を含む情報である。また、ベクトルデータは、各ＮＮＣに対応付けられた２００次元のベクトル値である。

【0016】

このような状態において、情報処理装置１０は、学習データであるテキストデータが入力されると、圧縮符号一覧にしたがって、テキストデータ内の各単語に静的コードまたは動的コードを割当てて、圧縮ファイルを生成する。続いて、情報処理装置１０は、圧縮ファイル内の各圧縮符号を、圧縮符号一覧とＮＮＣテーブルとの対応関係に基づいて、ＮＮＣに変換した後、ＮＮＣテーブルとベクトルテーブルとの対応関係にしたがって、各ＮＮＣをベクトル値に変換する。

【0017】

このようにして、情報処理装置１０は、テキストデータをベクトル値に変換して機械学習モデルの学習を実行する。したがって、情報処理装置１０は、一般的な圧縮ファイルを用いたときに繰り返される、圧縮符号の読み込み、伸長、形態素解析、ハッシュ関数によるアドレス演算などを削減でき、大幅な高速化を図ることができ、処理速度を向上させることができる。

【0018】

［機能構成］
図２は、実施例１にかかる情報処理装置１０の機能構成を示す機能ブロック図である。図２に示すように、情報処理装置１０は、通信部１１、記憶部１２、制御部２０を有する。

【0019】

通信部１１は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどである。例えば、通信部１１は、管理者などのユーザ端末から学習開始や学習終了の指示、学習データ、予測対象のデータなどを受信し、学習結果や予測結果などをユーザ端末に送信する。

【0020】

記憶部１２は、各種データや制御部２０が実行するプログラムなどを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部１２は、テキストデータ１３、静的辞書１４、動的辞書１５、ＮＮＣテーブル１６、ベクトルテーブル１７を記憶する。

【0021】

テキストデータ１３は、翻訳モデルに学習に利用される学習データである。例えば、テキストデータ１３は、目的変数として「日本語テキストへの翻訳」が設定された英文のテキストデータである。

【0022】

静的辞書１４は、出現頻度の高い単語と、当該単語に予め割当てられた圧縮符号との対応付けを記憶するデータベースなどである。動的辞書１５は、静的辞書１４に登録されていない出現頻度の低い単語であって、符号化対象のテキストデータに登場した単語と、当該単語に割当てられた圧縮符号との対応付けを記憶するデータベースである。なお、図示しないバッファ部などを用いて、多義語や成句などの単語に対して、動的辞書１５に割り当てられる符号とその単語の語義との対応関係を管理することができ、例えば特開２０１９－１２４６８号公報などの技術を採用することができる。

【0023】

図３は、静的辞書１４および動的辞書１５を説明する図である。図３に示す辞書は、静的辞書１４および動的辞書１５をあわせた辞書であり、圧縮符号とビットマップ型転置インデックスのＹ軸は、１対１に対応付けられている。図３に示す横軸の「０＊ｈ」から「６＊ｈ」、「７＊＊＊ｈ」から「９＊＊＊ｈ」までが静的辞書１４に対応し、「Ａ＊＊＊ｈ」から「Ｅ＊＊＊ｈ」、および「Ｆ＊＊＊＊＊ｈ」までが動的辞書１５に対応する。

【0024】

図３の上部の横方向の項目は、最初の１６進数を０～Ｆの１６進で表記しており、「＊」は、後続する１６進数を示している。例えば、「１＊ｈ」は、「１０ｈ」から「１Ｆｈ」であることを示す。「７＊＊＊ｈ」は「７０００ｈ」から「７ＦＦＦｈ」を１６進表記で示している。「Ｆ＊＊＊＊＊ｈ」は「Ｆ０００００ｈ」から「ＦＦＦＦＦＦｈ」を１６進表記で示している。

【0025】

「０＊ｈ」、「６＊ｈ」の符号については、１バイトの符号である。「０＊ｈ」、「１＊ｈ」の符号は、共通の制御コードが対応付けられている。また、「２＊ｈ」～「３＊ｈ」の符号は、英語の、「４＊ｈ」～「５＊ｈ」の符号は、日本語の、「６＊ｈ」の符号は、数値の高頻度に出現する単語の中でも特に頻度の高い超高頻度単語が予め対応付けられている。

【0026】

また、「７＊＊＊ｈ」～「Ｅ＊＊＊ｈ」の符号については、２バイトの符号である。「７＊＊＊ｈ」の符号は、英語の高頻度に出現する単語が、「８＊＊＊ｈ」の符号は、日本語の高頻度に出現する単語が、「９＊＊＊ｈ」の符号は、数値や第３国語の高頻度に出現する単語が予め対応付けられている。「Ａ＊＊＊ｈ」～「Ｅ＊＊＊ｈ」の符号については、低頻度単語が出現した際に符号を動的に割り当てる。なお、「Ｆ＊＊＊＊＊ｈ」は、符号の不足に対応するため、３バイトの符号としている。

【0027】

ＮＮＣテーブル１６は、１／２／３バイトの可変長の圧縮符号に対して、４バイト（３２ビット）の同一の長さの固定長であるＮＮＣを対応付ける情報である。例えば、ＮＮＣテーブル１６は、静的辞書１４に記憶される静的コードとＮＮＣとを静的に対応付ける。また、ＮＮＣテーブル１６は、動的辞書１５に新たに登録された単語については、当該単語に付与された動的コードにＮＮＣを新たに対応付ける。なお、各静的コードとＮＮＣとの対応付けは、静的変換テーブルなどを予め生成しておくことで、静的な対応付けを管理することができる。

【0028】

ベクトルテーブル１７は、固定長符号のＮＮＣとベクトルデータの２００次元のベクトル値とを対応付ける情報である。例えば、ベクトルテーブル１７は、モデル学習のためのベクトル生成のために、ＮＮＣとベクトルデータとを１対１で対応付ける。このベクトルテーブル１７により、テキストデータ内の単語に対応するＮＮＣから、機械学習を行うベクトルデータを特定することができる。

【0029】

図４は、ＮＮＣとベクトルデータとの対応付けを説明する図である。図４に示すように、ＮＮＣテーブル１６の先頭コードとベクトルテーブル１７の先頭アドレスを用いて、相対アドレスや絶対アドレスにより、ＮＮＣとベクトルデータとを対応付けることができる。例えば、相対アドレスの場合、ＮＮＣの相対コード×８００バイトにより、ベクトルテーブル１７内の位置を特定して対応付ける。また、絶対アドレスの場合、ベクトルテーブル１７の先頭アドレス＋相対アドレス、または、絶対コード－先頭コードにより、ベクトルテーブル１７内の位置を特定して対応付ける。

【0030】

制御部２０は、情報処理装置１０全体を司る処理部であり、例えばプロセッサなどである。例えば、制御部２０は、符号化部２１、変換部２２、ベクトル化部２３、学習部２４を有する。なお、符号化部２１、変換部２２、ベクトル化部２３、学習部２４は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。

【0031】

符号化部２１は、テキストデータ１３を符号化する処理部である。具体的には、符号化部２１は、形態素解析等の手法を用いてテキストデータ１３を単語に分割し、各単語を符号化する。例えば、符号化部２１は、単語が静的辞書１４に登録されている場合には、静的辞書１４に設定される該当の静的コードに変換する。

【0032】

また、符号化部２１は、単語が静的辞書１４に登録されていない場合、動的辞書１５を参照して登録されているか否かを判定する。そして、符号化部２１は、単語が動的辞書１５に既に登録されている場合には、動的辞書１５に設定される該当の動的コードに変換する。一方、符号化部２１は、単語が動的辞書１５に既に登録されていない場合には、動的辞書１５に新たに登録して動的コードを割当てた後、当該動的コードに変換する。

【0033】

図５は、多義語の静的符号化と動的符号化を説明する図である。ここでは、多義語である「cool」を例にして説明する。図５に示すように、符号化部２１は、「冷たい」の意味で利用される単語「cool」を基本形として「cool（１）」と識別する。そして、符号化部２１は、「cool（１）」に対応する単語「cool」に対して、静的辞書１４において静的コード「712Ah」が割り当てられていることから、ハッシュフィルタにおいて「cool」へのポインタと「cool」の静的コード「712Ah」とを対応付けて格納する。

【0034】

また、符号化部２１は、「かっこいい」の意味で利用される単語「cool」を「cool（５）」と識別し、静的辞書１４に登録されていないことから、動的コードを割当てる。具体的には、符号化部２１は、「cool（５）」に対応する単語「cool」に動的コード「A002h」を割当てて、種別（５＝多義語）とともに動的辞書１５に登録する。そして、符号化部２１は、ハッシュフィルタにおいて「cool（５）」に対応する「cool」へのポインタと動的コード「A002h」とを対応付けて格納する。また、符号化部２１は、符号の復号時に「cool（５）」の意味で復号するために、動的辞書１５のバッファ部に、動的コード「A002h」に割り当てた「cool（５）」の静的コード「712Ah」とIDである５を対応付けて管理する。つまり、バッファ部には、単語（cool）及び語義（かっこいい）の組みが特定できる情報が格納される。

【0035】

このようにして、符号化部２１は、多義語である「cool」の意味ごとに、静的コードまたは動的コードを割当てることができ、意味を区別して符号化することができる。なお、多義語について、どの意味で利用されているかは、ユーザが指定することもでき、前後の単語関係を意味ごとに管理しておくことで、自動で特定することもできる。

【0036】

また、図６は、成句の静的符号化と動的符号化を説明する図である。ここでは、「take off」などに利用される「take」を例にして説明する。図６に示すように、符号化部２１は、単語「take」を基本形として「take（１）」と識別する。そして、符号化部２１は、「take（１）」に対応する単語「take」に対して、静的辞書１４において静的コード「7A3Ch」が割り当てられていることから、ハッシュフィルタにおいて「take」へのポインタと「take」の静的コード「7A3Ch」とを対応付けて格納する。なお、図６において、複数の「take」に同じ静的コードが割り当てられているのは、複数の意味の「take」を同じ符号で符号化するためである。

【0037】

また、符号化部２１は、「off」と連結して「take off」として利用される単語「take」を「take（７）」で識別し、静的辞書１４に登録されていないことから、動的コードを割当てる。具体的には、符号化部２１は、「take（７）」に対応する単語「take」に動的コード「A003h」を割当てて、種別（６＝成句）とともに動的辞書１５に登録する。そして、符号化部２１は、ハッシュフィルタにおいて「take（７）」に対応する単語「take」へのポインタと動的コード「A003h」とを対応付けて格納する。また、符号化部２１は、符号の復号時に「take（７）」の意味で復号するために、動的辞書１５のバッファ部に、動的コード「A003h」に割り当てた「take」の静的コード「7A3Ch」とIDである７を対応付けて管理する。

【0038】

このようにして、符号化部２１は、成句である「take」の意味ごとに、静的コードまたは動的コードを割当てることができ、意味を区別して符号化することができる。なお、どのような成句であるかは、ユーザが指定することもでき、前後の単語関係を意味ごとに管理しておくことで、自動で特定することもできる。

【0039】

図２に戻り、変換部２２は、符号化部２１により符号化された圧縮ファイルをＮＮＣに変換する処理部である。具体駅には、変換部２２は、ＮＮＣテーブル１６にしたがって、圧縮ファイルに含まれる各圧縮符号に対応するＮＮＣを特定し、各圧縮符号を各ＮＮＣに変換する。すなわち、変換部２２は、圧縮ファイル内の可変長の各圧縮符号を固定長のＮＮＣに置換する。

【0040】

ここで、動的コードが割り当てられる単語について、当該単語の基本形の静的コードとＮＮＣとの対応付けである基本形変換テーブルを用いて、動的コードからＮＮＣに変換する方法について具体的に説明する。例えば、多義語「cool」について、基本形である「冷たい」の意味の「cool（1）」の静的コードとＮＮＣとの対応付けを説明し、「かっこいい」の意味の「cool（5）」の動的コードからＮＮＣに変換する方法を説明する。なお、多義語や成句については、予めＮＮＣと１対Ｎで対応付けられている。

【0041】

図７は、基本形変換テーブルを用いて、多義語や成句の動的符号からＮＮＣを生成を説明する図である。図７の（ａ）は多義語の例であり、図７の（ｂ）は成句の例である。変換部２２は、多義語において、圧縮ファイルの動的辞書にその単語の基本形とその単語の意味を特定する語義ＩＤを格納する。

【0042】

具体的には、図７の（ａ）に示すように、変換部２２は、単語「cool」の静的コード「712Ah」と、当該ＮＮＣの位置「00001321h」とを対応付けて基本形変換テーブルに格納する。変換部２２は、この基本形変換テーブルを用いて、「かっこいい」の意味を持つ「cool（５）」の動的符号「A002h」のバッファの情報「cool△712Ah＋ID」から、「00001321h」を獲得し、IDである５を加算し、ＮＮＣを生成する。また、図７の（ｂ）に示すように、単語「take」の静的コード「7A3Ch」と、当該ＮＮＣの位置「00002E7Fh」とを対応付けて基本形変換テーブルに格納する。変換部２２は、この基本形変換テーブルを用いて、成句「take（７）」の動的符号「A003h」のバッファの情報「take△7A3Ch＋ID」から、「00002E7Fh」を獲得し、IDである７を加算し、ＮＮＣを生成する。

【0043】

図８は、語形変化や熟語の動的符号からＮＮＣの生成を説明する図である。変換部２２は、多義語や成句に加え、語形変化の動的符号からＮＮＣを生成する。具体的には、図８に示すように、変換部２２は、語形変化した「goes」の動的符号「71B1h」のバッファの情報「go△71B1h＋ID」から、基本形変換テーブルを用いて「000019CDh」を獲得し（IDの加算は不要）、ＮＮＣを生成する。

【0044】

なお、熟語とＮＮＣテーブルは１対１に対応付けられており、動的符号のバッファの情報の文字列をもとにＮＮＣを獲得することができる。具体的に、変換部２２は、熟語「White House」は、動的符号「A000h」のバッファの情報「White△House」の文字列とＮＮＣテーブルの文字列部を比較し、ＮＮＣ「0053A34Bh」を獲得する。

【0045】

図２に戻り、ベクトル化部２３は、変換部２２により変換されたＮＮＣをベクトル値に変換する処理部である。具体的には、ベクトル化部２３は、静的コードに対応付けられる静的なＮＮＣについては、ベクトル値を予め割当てて、ベクトルテーブル１７で管理する。また、ベクトル化部２３は、動的コードについては、動的コードに対してＮＮＣが割与えられると、動的にベクトル値を割当てて、ベクトルテーブル１７で管理する。

【0046】

そして、ベクトル化部２３は、各テキストデータ１３についてＮＮＣの割当てが実行された後、ベクトル値の割当てを実行することで、圧縮符号（静的コード、動的コード）とＮＮＣとベクトル値とを対応付けて動的に管理する。この結果、ベクトル化部２３は、各テキストデータ１３から変換された各ＮＮＣを、ベクトルテーブル１７を参照して、ベクトル値に変換してベクトルデータを生成して、学習部２４に出力する。

【0047】

学習部２４は、テキストデータ１３から生成されたベクトルデータを用いて、機械学習を実行する処理部である。具体的には、学習部２４は、ベクトルデータをＲＮＮ（Recurrent Neural Network）に入力し、ＲＮＮからの出力と正解情報であるラベル（和訳）との誤差が小さくなるように、ＲＮＮの各種パラメータ等を学習する。そして、学習部２４は、学習が完了すると、各パラメータを含む学習結果を記憶部１２に格納する。

【0048】

図９は、実施例１の学習例を説明する図である。図９では、教師データとして、入力データ「I take lunch out of store.」と、出力データ「私は店からランチを買って出る」とを用いる例で説明する。図９に示すように、学習部２４は、テキストデータ「I take lunch out of store.」から、圧縮符号化およびＮＮＣ化を経て、生成されたベクトルデータ「V1，V2，・・・，Vn」をＲＮＮの各入力層に入力する。

【0049】

そして、学習部２４は、ＲＮＮの出力層からの出力結果を取得する。続いて、学習部２４は、静的辞書１４および動的辞書１５等を参照して、各出力結果を復号して単語を取得することで、翻訳結果を取得する。その後、学習部２４は、テキストデータの正確な訳であるラベル「私は店からランチを買って出る」と、ＲＮＮの翻訳結果との誤差が小さくなるように、ＲＮＮを学習する。

【0050】

なお、学習完了後、情報処理装置１０は、翻訳対象のテキストデータが入力されると、学習時と同様、圧縮符号化、ＮＮＣ化、ベクトル化を実行してベクトルデータを生成して、学習済みのＲＮＮに入力する。そして、情報処理装置１０は、学習済みのＲＮＮの出力結果を翻訳結果としてユーザに出力する。

【0051】

［処理の流れ］
図１０は、処理の流れを示すフローチャートである。図１０に示すように、符号化部２１は、処理開始が指示されると（Ｓ１０１：Ｙｅｓ）、テキストデータ１３を記憶部１２から取得し（Ｓ１０２）、形態素解析等により単語に分割する（Ｓ１０３）。

【0052】

続いて、符号化部２１は、単語を１つ選択し（Ｓ１０４）、静的辞書１４に登録済みか否かを判定する（Ｓ１０５）。ここで、符号化部２１は、静的辞書１４に登録済みの場合（Ｓ１０５：Ｙｅｓ）、静的辞書１４に基づき符号化する（Ｓ１０６）。なお、静的辞書に登録済みの場合、ＮＮＣテーブル１６およびベクトルテーブル１７への対応付けも完了している。

【0053】

一方、符号化部２１は、静的辞書１４に未登録の場合（Ｓ１０５：Ｎｏ）、動的辞書１５に登録済みか否かを判定する（Ｓ１０７）。ここで、符号化部２１は、動的辞書１５に登録済みの場合（Ｓ１０７：Ｙｅｓ）、動的辞書１５に基づき符号化する（Ｓ１０８）。なお、動的辞書に登録済みの場合、ＮＮＣテーブル１６およびベクトルテーブル１７への対応付けも完了している。

【0054】

一方、符号化部２１は、動的辞書１５に未登録の場合（Ｓ１０７：Ｎｏ）、動的辞書１５に新たに符号を割当て、当該単語を符号化する（Ｓ１０９）。続いて、変換部２２は、割り当てた符号（動的コード）にＮＮＣを新規に割当てる（Ｓ１１０）。さらに、ベクトル化部２３は、新規に割当てたＮＮＣにベクトル値を新規に割当てる（Ｓ１１１）。

【0055】

その後、テキストデータ内に未処理の単語が存在する場合（Ｓ１１２：Ｎｏ）、Ｓ１０２以降が繰り返される。一方、テキストデータ内の全単語について処理が完了すると（Ｓ１１２：Ｙｅｓ）、Ｓ１１３以降が実行される。

【0056】

具体的には、変換部２２が、ＮＮＣテーブル１６にしたがって、テキストデータ１３が符号化された圧縮ファイルの各圧縮符号をＮＮＣに変換し、ベクトル化部２３が、ベクトルテーブル１７にしたがって、各ＮＮＣをベクトル値に変換する（Ｓ１１３）。

【0057】

続いて、学習部２４は、テキストデータ１３から生成されたベクトルデータを用いて、翻訳モデルの機械学習を実行する（Ｓ１１４）。その後、学習を継続する場合（Ｓ１１５：Ｎｏ）、Ｓ１０２以降が繰り返され、学習を終了するタイミングである場合（Ｓ１１５：Ｙｅｓ）、学習が終了される。

【0058】

［効果］
上述したように、情報処理装置１０は、４バイトの固定長のＮＮＣの符号に、単語のベクトルテーブル１７を対応付ける。また、情報処理装置１０は、可変長の圧縮符号の動的辞書から動的コード変換テーブルを生成し、ＮＮＣにコード変換する。そして、情報処理装置１０は、ＣＢＯＷ関数などを用いて、各単語の200次元のベクトル値を算出し、単語のベクトルテーブル１７に格納する。

【0059】

次に、情報処理装置１０は、ＲＮＮの機械学習において、圧縮ファイルをリードし、可変長の圧縮符号を固定長のＮＮＣにコード変換し、ＮＮＣの符号に対応付けられた単語のベクトルテーブル１７から200次元のベクトル値を取得する。その後、情報処理装置１０は、単語毎の総当たり演算を行い、ＲＮＮの機械学習を行う。

【0060】

図１１は、処理の高速化を説明する図である。図１１に示すように、一般的に利用される関連技術の場合、符号化を行う圧縮、圧縮符号を読み込み、圧縮符号の伸張、字句解析（形態素解析）をＣＰＵが実行し、その後のハッシュ演算、ベクトル取得、関数演算をＧＰＵが実行する。この場合、各テキストデータを用いて学習する際に、伸張と字句解析を符号の数だけ繰り返すとともに、ハッシュ演算も符号の数だけ繰り返すことになるので、処理時間が長くなる。

【0061】

一方、実施例１の場合、単語符号化と圧縮符号の読み込みとをＣＰＵが実行し、ベクトル取得と関数演算をＧＰＵで分担する。このように、単語単位で符号化し、圧縮符号とＮＮＣとベクトル値とを対応付けて管理するので、関連技術において繰り返される、伸長、字句解析、ハッシュ関数によるアドレス演算などを削減でき、大幅な高速化が図れる。

【実施例2】

【0062】

ところで、実施例１では、テキストデータを用いた例を説明したが、実施例１による手法は、ゲノムの塩基配列にも適用することができる。そこで、実施例２では、ゲノムの塩基配列に適用した例を説明する。

【0063】

図１２は、従来の技術を塩基配列へ適したときの問題点を説明する図である。図１２に示すように、従来の圧縮技術では、入力データを最長一致文字列に符号を割り当てるので、ＣＵＧやＡＣＵ、ＧＡＵなどのコドン単位にアミノ酸として意味を持つ場合であっても、コドン単位に符号化できずに、コドンの途中で符号化の分断が発生する。この場合、意味を持つコドン単位に符号化することができないので、機械学習の精度が低下する。

【0064】

そこで、実施例２では、例えばタンパク質やアミノ酸などのように、意味を持つ単位に形態素解析して、符号化、ＮＮＣ化、ベクトル化を実行する。ここでは、一例として、タンパク質やアミノ酸などを含む治験データを入力データとして学習する例を説明する。なお、治験データには、ラベルとして副作用が設定されているものとする。つまり、タンパク質などの組み合わせを特徴量として、副作用の発生や強さを予測する機械学習モデルを構築する。

【0065】

図１３Ａは、ゲノムに含まれるタンパク質を特定する処理を説明するための図である。図１３Ａに示すように、第２符号化部２１０は、コドン圧縮ファイル２００ａ、コドン転置インデックス２００ｂ、タンパク質辞書２１０Ａ、辞書インデックス２１０Ｂ、タンパク質ＨＭＭ２１０Ｃを基にして、タンパク質圧縮ファイル２２０ａおよびタンパク質転置インデックス２２０ｂを生成する。

【0066】

第２符号化部２１０は、辞書インデックス２１０Ｂを基にして、コドン圧縮ファイル２００ａに含まれる各タンパク質のコドン符号配列の切れ目を特定する。第２符号化部２１０は、各切れ目の間のコドン符号配列と、タンパク質辞書２１０Ａとを基にして、各切れ目の間のコドン符号配列に対応するタンパク質の符号を特定し、コドン符号配列を、タンパク質の符号に変換する。

【0067】

第２符号化部２１０は、タンパク質の符号（切れ目）に続くコドン符号配列が、複数のタンパク質の符号に該当する場合には、タンパク質ＨＭＭ２１０Ｃを基にして、該当する複数のタンパク質の符号のうち、最も共起率の高いタンパク質の符号を特定する。第２符号化部２１０は、切れ目に続くコドン符号配列を、特定したタンパク質の符号に変換する。第２符号化部２１０は、上記処理を繰り返し実行することで、タンパク質圧縮ファイル２２０ａを生成する。

【0068】

上記のように、コドン圧縮ファイル２００ａに含まれるタンパク質と、このタンパク質に後続するタンパク質の共起率を算出することで、タンパク質ＨＭＭ２１０Ｃを生成する。タンパク質ＨＭＭ２１０Ｃを用いることで、コドン圧縮ファイル２００ａのコドン符号配列を、正しいタンパク質単位で切り出すことができる。正しいタンパク質単位で切り出すことで、コドン圧縮ファイル２００ａをタンパク質単位で符号化したタンパク質圧縮ファイル２２０ａを生成することができる。また、コドン圧縮ファイル２００ａに含まれるタンパク質の配列を特定できるので、タンパク質を容易に特定可能となる。

【0069】

図１３Ｂは、突然変異が発生した塩基配列データの評価を高速化する例を説明する図である。図１３Ｂに示すように、情報処理装置１０が、評価対象となる評価対象ゲノムデータ２００ａに対して、突然変異「挿入」を発生させることで、新たな突然変異ゲノムデータ２５０ａを生成する。情報処理装置１０は、突然変異ゲノムデータ２５０ａの基準コドン「ＡＡＡ（６Ａｈ）」を、基準位置２００βを基にして特定する。

【0070】

情報処理装置１０は、突然変異ゲノムデータ２５０ａに対して、タンパク質の単位で、形態素解析を実行することで、突然変異ゲノムデータ２５０ａに含まれる複数の形態素を特定する。たとえば、一つの形態素には、タンパク質に対応するコドン配列が含まれる。

【0071】

情報処理装置１０は、突然変異ゲノムデータ２５０ａに対して実行した形態素解析の結果と、所定のタンパク質（既存のタンパク質）の符号と、コドン単位の符号の配列とを対応付ける静的辞書の情報であるタンパク質辞書情報とを比較し、突然変異ゲノムデータ２５０ａの形態素が、タンパク質辞書情報のコドン配列にヒットした場合には、突然変異ゲノムデータ２５０ａの形態素を、タンパク質の符号に変換する。本実施例では、符号化したタンパク質を、適宜、タンパク質α、β、γ等のギリシャ文字によって表記する。

【0072】

情報処理装置１０は、基準コドンを含む形態素のコドン配列が、タンパク質辞書情報のコドン配列にヒットしない場合には、基準コドンを含む形態素のコドン配列が、動的辞書情報２５０Ａのコドン配列にヒットするか否かを判定する。情報処理装置は、基準コドンを含む形態素のコドン配列が、動的辞書情報２５０Ａのコドン配列にヒットしない場合には、突然変異ゲノムデータ２５０ａに類似する癌ゲノムは、癌ゲノムＤＢに存在しないと判定する。

【0073】

これに対して、情報処理装置１０は、基準コドンを含む形態素のコドン配列が、動的辞書情報２５０Ａのコドン配列にヒットする場合には、突然変異ゲノムデータ２５０ａに類似する癌ゲノムは、癌ゲノムＤＢに存在すると判定する。たとえば、基準コドン「ＡＡＡ（６Ａｈ）」を含むコドン配列「ＵＵＣ（４１ｈ）／ＡＡＡ（６Ａｈ）／ＧＵＡ（７２ｈ）」は、動的辞書情報２５０Ａに存在しているため、情報処理装置は、突然変異ゲノムデータ２５０ａに類似する癌ゲノムは、癌ゲノムＤＢに存在すると判定する。

【0074】

情報処理装置１０は、基準コドンを含む形態素のコドン配列が、動的辞書情報２５０Ａのコドン配列にヒットする場合には、登録番号によって、コドン配列を符号化する。情報処理装置１０は、上記処理を実行することで、タンパク質単位に符号化した、突然変異ゲノムデータ２５１ａを生成する。以下の説明では、類似度の評価のため、動的符号に符号化した、基準コドンを含む未知のタンパク質を便宜上、「基準タンパク質」と表記する。

【0075】

図１３Ｃは、実施例２にかかる処理を説明する図である。図１３Ｃに示すように、実施例２にかかる情報処理装置１０は、実施例１による手法によって、各タンパク質に静的コードや動的コードを割当てて、静的辞書１４や動的辞書１５を更新する。

【0076】

そして、情報処理装置１０は、実施例１による手法によって、各タンパク質に割り当てた符号にＮＮＣを割当てる。例えば、情報処理装置１０は、タンパク質（１）に割り当てられた符号にＮＮＣ（１）を割当て、タンパク質（２）に割り当てられた符号にＮＮＣ（２）を割当てて、ＮＮＣテーブル１６を生成する。

【0077】

また、情報処理装置１０は、実施例１による手法によって、各ＮＮＣにベクトル値を割当てる。例えば、情報処理装置１０は、タンパク質（１）のＮＮＣ（１）にはＶ（１）を割当て、タンパク質（２）のＮＮＣ（２）にはＶ（２）を割当てて、ベクトルテーブル１７を生成する。

【0078】

このようにして、情報処理装置１０は、タンパク質やアミノ酸などを含む治験データを受け付けると、静的辞書１４や動的辞書１５にしたがって符号化し、ＮＮＣテーブル１６にしたがってＮＮＣ化し、ベクトルテーブル１７にしたがって、治験データのベクトル化を実行する。その後、情報処理装置１０は、ベクトル化されたベクトルデータをＲＮＮに入力して学習を実行する。

【0079】

図１４は、実施例２の学習例を説明する図である。図１４は、教師データとして、入力データ「治験データ」、出力データ「副作用」を用いる例で説明する。図１４に示すように、情報処理装置１０は、入力データ「治験データ」を意味のある単位で分割した後、圧縮符号化およびＮＮＣ化を実行し、ベクトルデータ「V1，V2，・・・，Vn」を生成して、ＲＮＮの各入力層に入力する。

【0080】

そして、情報処理装置１０は、ＲＮＮの出力層からの出力結果を取得する。続いて、情報処理装置１０は、静的辞書１４および動的辞書１５等を参照して、各出力結果を復号して単語を取得することで、翻訳結果を取得する。その後、学習部２４は、入力データに設定される「副作用」と、ＲＮＮの翻訳結果との誤差が小さくなるように、ＲＮＮを学習する。

【0081】

このようにすることで、情報処理装置１０は、区切りのない塩基配列を、意味を持つ単位に分割して学習することができる。この結果、情報処理装置１０は、塩基配列の特徴と副作用との関係性を学習することができ、新薬開発等にも役立てることができる。

【実施例3】

【0082】

ところで、上記実施例１ではテキストデータが入力された場合について、また、上記実施例２では塩基配列が入力された場合について、一般的なファイルシステムにおける処理やその流れを説明したが、これに限定されず、データベース（ＤＢ）に適用することができる。

【0083】

図１５は、従来のデータベースの問題点を説明する図である。図１５に示すように、従来技術では、テキストはＬＺ７８系圧縮され登録されているが、テキスト伸長されて、ＤＢからエクスポートされ、ＴｅｎｓｏｒＦｌｏｗなどでベクトル生成や機械学習が行われている。

【0084】

ベクトル生成やＲＮＮ機械学習は多次元解析であり、ＳＱＬ言語で処理でき、本来、ＤＢに適している。現在では、気象予測などの数値入力の分野では、In－Database分析技術とも呼ばれ、ＡＩ（Artificial Intelligence）分析としての応用技術が普及している。

【0085】

しかし、テキストデータのＡＩ分析では、意味ある単位の単語に字句解析（形態素解析）する必要があり、ＤＢからエクスポートされ、ＴｅｎｓｏｒＦｌｏｗなどにより分析されているのが実状である。

【0086】

つまり、従来技術では、テキストデータを図１５の（ａ）に示す、テキスト伸長とＤＢエクスポートの繰返し、１５の（ｂ）に示す字句解析とハッシュ演算を繰り返すことになる。このようにすることで、多義語や成句などによる精度低下を抑制することになるが、処理の遅延が発生する。そこで、実施例３では、従来技術で繰り返し行われる処理を省略することで、処理の高速化を実現する。

【0087】

図１６は、実施例３にかかるデータベースへの適用例を説明する図である。図１６に示すように、情報処理装置１０は、単語の符号化を工夫し、テキスト伸長とＤＢのエクスポートの処理を見直しして、In－Database分析技術を活用して、多次元解析を行う。具体的には、情報処理装置１０は、データベースからデータを取り出さずに、単語単位に圧縮された、圧縮符号を読み込み、ＮＮＣに変換し、ベクトル生成やＲＮＮ機械学習を実行する。また、情報処理装置１０は、単語圧縮においては、字句解析（形態素解析）、ハッシュ演算による静的コードまたは動的コードの取得、符号化、インデックス生成、ベクトル生成などを実行する。なお、各単語の圧縮符号とＮＮＣとベクトルデータとの対応付けは、実施例１と同様の手法を用いる。

【0088】

このように、実施例３にかかる情報処理装置１０は、従来技術におけるテキスト伸長やＤＢエクスポートおよび字句解析やハッシュ演算の繰返しを省略することができるので、処理の高速化を実現することができる。

【実施例4】

【0089】

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。例えば、圧縮符号化などは、特開２０１８－１９５０２８号公報などの技術を採用することができる。

【0090】

［機械学習モデル］
上述したニューラルネットワーク機械学習モデルには、Softmax関数を適用した機械学習を採用しているが、他の機械学習を用いることもできる。また、制限ボルツマンマシンの関数を用いて学習することもできる。また、日本語と英語を例にして説明したが、言語を限定するものではなく、他の言語でも同様に処理することができる。

【0091】

［各種対応付け］
上記実施例では、基本形変換テーブルや動的変換テーブルを用いて、各テーブル等を対応付ける例を説明したが、これに限定されず、アドレス変換やポインタなどの技術を用いることもできる。

【0092】

［ハードウェア構成］
図１７は、情報処理装置１０のハードウェア構成を示す図である。図１７の例に示すように、コンピュータ４００は、各種演算処理を実行するＣＰＵ４０１と、ユーザからのデータ入力を受け付ける入力装置４０２と、モニタ４０３とを有する。また、コンピュータ４００は、記憶媒体からプログラム等を読み取る媒体読取装置４０４と、他の装置と接続するためのインタフェース装置４０５と、他の装置と無線により接続するための無線通信装置４０６とを有する。また、コンピュータ４００は、各種情報を一時記憶するＲＡＭ４０７と、ハードディスク装置４０８とを有する。また、各装置４０１～４０８は、バス４０９に接続される。

【0093】

ハードディスク装置４０８には、例えば図２に示した符号化部２１、変換部２２、ベクトル化部２３、学習部２４の各処理部と同様の機能を有する情報処理プログラムが記憶される。また、ハードディスク装置４０８には、情報処理プログラムを実現するための各種データが記憶される。

【0094】

ＣＰＵ４０１は、ハードディスク装置４０８に記憶された各プログラムを読み出して、ＲＡＭ４０７に展開して実行することで各種の処理を行う。これらのプログラムは、コンピュータ４００を、例えば図２に示した符号化部２１、変換部２２、ベクトル化部２３、学習部２４として機能させることができる。

【0095】

なお、上記の情報処理プログラムは、必ずしもハードディスク装置４０８に記憶されている必要はない。例えば、コンピュータ４００が読み取り可能な記憶媒体に記憶されたプログラムを、コンピュータ４００が読み出して実行するようにしてもよい。コンピュータ４００が読み取り可能な記憶媒体は、例えば、ＣＤ－ＲＯＭやＤＶＤディスク、ＵＳＢ（Universal Serial Bus）メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、ＬＡＮ（Local Area Network）等に接続された装置にこのプログラムを記憶させておき、コンピュータ４００がこれらからプログラムを読み出して実行するようにしてもよい。

【0096】

［プログラム構成］
図１８は、コンピュータ４００で動作するプログラムの構成例を示す図である。コンピュータ４００において、図１７に示すハードウェア群２６（４０１～４０９）の制御を行なうＯＳ（オペレーティング・システム）２７が動作する。ＯＳ２７に従った手順でＣＰＵ４０１が動作して、ハードウェア群２６の制御・管理が行なわれることにより、アプリケーションプログラム２９やミドルウェア２８に従った処理がハードウェア群２６で実行される。さらに、コンピュータ４００において、ミドルウェア２８またはアプリケーションプログラム２９が、ＲＡＭ４０７に読み出されてＣＰＵ４０１により実行される。

【0097】

ＣＰＵ４０１により圧縮機能が呼び出された場合、ミドルウェア２８またはアプリケーションプログラム２９の少なくとも一部に基づく処理を行なうことで、（それらの処理をＯＳ２７に基づいてハードウェア群２６を制御して）圧縮部１１０の機能が実現される。圧縮機能は、それぞれアプリケーションプログラム２９自体に含まれてもよいし、アプリケーションプログラム２９に従って呼び出されることで実行されるミドルウェア２８の一部であってもよい。

【0098】

アプリケーションプログラム２９（またはミドルウェア２８）の圧縮機能により得られる圧縮ファイルは、部分的に伸張することも可能である。圧縮ファイルの途中を伸張する場合には、伸張対象の部分までの圧縮データの伸張処理が抑制されるため、ＣＰＵ４０１の負荷が抑制される。また、伸張対象の圧縮データを部分的にＲＡＭ４０７上に展開するので、ワークエリアも削減される。

【0099】

［システム］
図１９は、実施形態のシステムにおける装置の構成例を示す図である。図１９のシステムは、コンピュータ４００ａ、コンピュータ４００ｂ、基地局３００およびネットワーク４０を含む。コンピュータ４００ａは、無線または有線の少なくとも一方により、コンピュータ４００ｂと接続されたネットワーク４０に接続している。

【0100】

上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

【0101】

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

【0102】

さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

【符号の説明】

【0103】

１０情報処理装置
１１通信部
１２記憶部
１３テキストデータ
１４静的辞書
１５動的辞書
１６ＮＮＣテーブル
１７ベクトルテーブル
２０制御部
２１符号化部
２２変換部
２３ベクトル化部
２４学習部

【図1】