特許7574857 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 富士通株式会社の特許一覧

特許7574857情報処理プログラム、情報処理方法および情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-10-21

(45)【発行日】2024-10-29

(54)【発明の名称】情報処理プログラム、情報処理方法および情報処理装置

(51)【国際特許分類】

G06F 40/30 20200101AFI20241022BHJP

G06F 40/247 20200101ALI20241022BHJP

G06F 16/36 20190101ALI20241022BHJP

【ＦＩ】

G06F40/30

G06F40/247

G06F16/36

【請求項の数】 5

(21)【出願番号】P 2022558763

(86)(22)【出願日】2020-10-30

(86)【国際出願番号】 JP2020040875

(87)【国際公開番号】W WO2022091359

(87)【国際公開日】2022-05-05

【審査請求日】2023-02-20

(73)【特許権者】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】片岡正弘

(72)【発明者】

【氏名】岩本昭次

(72)【発明者】

【氏名】川名賢治

【審査官】長由紀子

(56)【参考文献】

【文献】国際公開第２０２０／０２１６０９（ＷＯ，Ａ１）

【文献】特開２０１０－２８２５１７（ＪＰ，Ａ）

【文献】Guthrie, Joe A 外３名，「Subject-Dependent Co-Occurrence and Word Sense Disambiguation」，29th Annual Meeting of the Association for Computational Lingusitics [online]，Association for Computational Lingusistics，1991年06月30日，pp.146-152，[検索日2020.11.24] https://www.aclweb.org/ anthology/P91-1019.pdf， DOI10.3115/981344.981363

【文献】橋本隼人、森信介，ＰｏｉｎｃａｒｅＥｍｂｅｄｄｉｎｇを用いた単語の埋め込みベクトルの獲得，言語処理学会第２４回年次大会発表論文集［ｏｎｌｉｎｅ］，言語処理学会，2018年03月05日，pp.1187-1190，URL:http://www.anlp.jp/proceedings/ annual_meeting/2018/pdf_dir/C6-2.pdf

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ４０／００－５８

Ｇ０６Ｆ１６／３６

(57)【特許請求の範囲】

【請求項1】

コンピュータに、
所定の文書データに含まれる複数の単語を、シソーラスに定義されたカテゴリごとに分類し、前記所定の文書データに含まれるある意味区分に区別した多義語と、前記ある意味区分に区別した多義語と共起する単語のカテゴリとを関係を基にして、意味区分ごとに区別した多義語に対する各カテゴリの共起率を定義した共起率テーブルを生成し、
入力テキストに対して形態素解析を実行することで、前記入力テキストを複数の単語に分割し、
前記複数の単語の属するカテゴリをそれぞれ特定し、
特定したカテゴリと、前記共起率テーブルとを基にして、前記入力テキストに含まれる複数の単語のうち、前記多義語および前記多義語の意味区分とを特定し、
前記入力テキストに含まれる前記多義語に、前記多義語の意味区分に応じたベクトルを割り当てる
処理を実行させることを特徴とする情報処理プログラム。

【請求項2】

ポアンカレエンベッディングを実行することで、単語のベクトル、意味区分ごとに区別した多義語のベクトルを算出する処理を更に実行し、前記ベクトルを割り当てる処理は、前記ベクトルを算出する処理の算出結果を基にして、前記入力テキストに含まれる前記多義語および前記単語にベクトルを割り当てることを特徴とする請求項１に記載の情報処理プログラム。

【請求項3】

前記ベクトルを算出する処理は、前記ポアンカレエンベッディングによって、熟語、専門用語の単語ベクトルを更に算出することを特徴とする請求項２に記載の情報処理プログラム。

【請求項4】

コンピュータが実行する情報処理方法であって、
所定の文書データに含まれる複数の単語を、シソーラスに定義されたカテゴリごとに分類し、前記所定の文書データに含まれるある意味区分に区別した多義語と、前記ある意味区分に区別した多義語と共起する単語のカテゴリとを関係を基にして、意味区分ごとに区別した多義語に対する各カテゴリの共起率を定義した共起率テーブルを生成し、
入力テキストに対して形態素解析を実行することで、前記入力テキストを複数の単語に分割し、
前記複数の単語の属するカテゴリをそれぞれ特定し、
特定したカテゴリと、前記共起率テーブルとを基にして、前記入力テキストに含まれる複数の単語のうち、前記多義語および前記多義語の意味区分とを特定し、
前記入力テキストに含まれる前記多義語に、前記多義語の意味区分に応じたベクトルを割り当てる
処理を実行することを特徴とする情報処理方法。

【請求項5】

所定の文書データに含まれる複数の単語を、シソーラスに定義されたカテゴリごとに分類し、前記所定の文書データに含まれるある意味区分に区別した多義語と、前記ある意味区分に区別した多義語と共起する単語のカテゴリとを関係を基にして、意味区分ごとに区別した多義語に対する各カテゴリの共起率を定義した共起率テーブルを生成する生成部と、
入力テキストに対して形態素解析を実行することで、前記入力テキストを複数の単語に分割し、前記複数の単語の属するカテゴリをそれぞれ特定し、特定したカテゴリと、前記共起率テーブルとを基にして、前記入力テキストに含まれる複数の単語のうち、前記多義語および前記多義語の意味区分とを特定し、前記入力テキストに含まれる前記多義語に、前記多義語の意味区分に応じたベクトルを割り当てる割当部と、
を含む情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理プログラム等に関する。

【背景技術】

【0002】

文章や文（以下、単に文）を解析し、文に含まれる各単語をベクトルで表現する従来技術として、Word2Vec（Skip-Gram ModelまたはCBOW）等がある。表記の異なる単語であっても、意味が類似している単語同士は、ベクトルの値も類似するという特徴がある。以下の説明では、単語のベクトルを、「単語ベクトル」と表記する。たとえば、Word2Vecでは、単語ベクトルを２００次元で表現する。

【0003】

文を構成する複数の単語の各単語ベクトルを集積することで、文のベクトルが算出される。以下の説明では、文のベクトルを「文ベクトル」と表記する。表記の異なる文であっても、意味が類似している文同士は、文ベクトルの値も類似するという特徴がある。たとえば、「私はリンゴが好きです。」の文の意味と、「リンゴは私の好物です。」の文の意味は同じであり、「私はリンゴが好きです。」の文ベクトルと、「リンゴは私の好物です。」の文ベクトルとは類似することになる。

【0004】

なお、単語に単語ベクトル（数値）を割当てる技術として、Poincare Embeddingsと呼ばれる技術も存在する。この技術では、単語とそのカテゴリとを定義しておき、定義されたカテゴリを基にして、単語をポアンカレ空間に埋め込む。そして、ポアンカレ空間において、埋め込まれた単語に応じたベクトルが、該当する単語に割当てられる。

【先行技術文献】

【特許文献】

【0005】

【文献】特開２０１５－２２３９８号公報

【文献】特開２０１８－２０６２６３号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、上述した従来技術では、多義語の複数の語義（意味）に対して、適切なベクトルを割り当てることができず、ベクトルを用いた解析や翻訳などの精度が低下するという問題がある。

【0007】

たとえば、英語の文「Ichiro is cool.」に含まれる単語「cool（１）」と、「This room is cool.」に含まれる単語「cool（２）」とは、異なる語義（意味）の「cool」である。なお、カッコ書きの数字は、意味の異なる「cool」を区別するために便宜的に付与するものである。

【0008】

上記の「cool（１）」と、「cool（２）」とに同一のベクトル（数値）を割り当ててしまうと、「Ichiro is cool.」および「This room is cool.」に文ベクトルを適切に割り当てることができない。

【0009】

ここで、多義語の複数の語義（意味）に対して、意味区分毎に単語ベクトルを予め設定しておくことが考えられる。この場合には、英語の文「Ichiro is cool.」に含まれる「cool」が、「cool（１）」に対応するのか「cool（２）」に対応するのかを区別する場合にＨＭＭ（Hidden Markov Model）等を用いて推定することになるが、多義語の全ての意味区分に対して、ＨＭＭのパラメータを設定しようとすると、登録対象となる情報が膨大となり、現実的ではない。なお、take offやtake outのように、ストップワードと呼ばれる出現頻度の高い前置詞と連結することで、多義語と同様に、異なる意味を持つ熟語のベクトルについても、対策が必要である。

【0010】

１つの側面では、本発明は、適切なベクトルを割り当て、ベクトルを用いた解析の精度を向上させることができる情報処理プログラム、情報処理方法および情報処理装置を提供することを目的とする。

【課題を解決するための手段】

【0011】

第１の案では、コンピュータに次の処理を実行させる。コンピュータは、入力テキストに対して形態素解析を実行することで、入力テキストを複数の単語に分割する。コンピュータは、意味区分ごとに区別した多義語および単語のカテゴリの共起率を定義した共起率テーブルと、入力テキストに含まれる複数の単語とを基にして、入力テキストに含まれる複数の単語のうち、多義語および多義語の意味区分とを特定する。コンピュータは、入力テキストに含まれる多義語に、多義語の意味区分に応じたベクトルを割り当てる。

【発明の効果】

【0012】

適切なベクトルを割り当て、ベクトルを用いた解析の精度を向上させることができる。

【図面の簡単な説明】

【0013】

【図1】図１は、本実施例１に係る情報処理装置の処理を説明するための図である。

【図2】図２は、本実施例１に係る情報処理装置の構成を示す機能ブロック図である。

【図3】図３は、第１辞書データのデータ構造の一例を示す図である。

【図4】図４は、第２辞書データのデータ構造の一例を示す図である。

【図5】図５は、第１教師データの一例を示す図である。

【図6】図６は、第２教師データの一例を示す図である。

【図7】図７は、第１共起率テーブルのデータ構造の一例を示す図である。

【図8】図８は、第２共起率テーブルのデータ構造の一例を示す図である。

【図9】図９は、第１カテゴリテーブルのデータ構造の一例を示す図である。

【図10】図１０は、第２カテゴリテーブルのデータ構造の一例を示す図である。

【図11】図１１は、第１ベクトルテーブルのデータ構造の一例を示す図である。

【図12】図１２は、第２ベクトルテーブルのデータ構造の一例を示す図である。

【図13】図１３は、本実施例１に係る割当部の処理を説明するための図である。

【図14】図１４は、本実施例１に係る情報処理装置の処理手順の一例を示すフローチャート（１）である。

【図15】図１５は、本実施例１に係る情報処理装置の処理手順の一例を示すフローチャート（２）である。

【図16】図１６は、ベクトルの次元圧縮を説明するための図（１）である。

【図17】図１７は、ベクトルの次元圧縮を説明するための図（２）である。

【図18】図１８は、本実施例２に係る情報処理装置の処理を説明するための図である。

【図19】図１９は、本実施例２に係る情報処理装置の構成を示す機能ブロック図である。

【図20】図２０は、塩基ファイルのデータ構造の一例を示す図である。

【図21】図２１は、変換テーブルのデータ構造の一例を示す図である。

【図22】図２２は、コドン圧縮ファイルのデータ構造の一例を示す図である。

【図23】図２３は、コドン転置インデックスのデータ構造の一例を示す図である。

【図24】図２４は、タンパク質辞書のデータ構造の一例を示す図である。

【図25】図２５は、タンパク質ＨＭＭのデータ構造の一例を示す図である。

【図26】図２６は、タンパク質圧縮ファイルのデータ構造の一例を示す図である。

【図27】図２７は、タンパク質転置インデックスのデータ構造の一例を示す図である。

【図28】図２８は、カテゴリテーブルのデータ構造の一例を示す図である。

【図29】図２９は、ベクトルテーブルのデータ構造の一例を示す図である。

【図30】図３０は、第２符号化部の処理を説明するための図である。

【図31】図３１は、本実施例２に係る情報処理装置の処理手順を示すフローチャートである。

【図32】図３２は、実施例１の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

【図33】図３３は、実施例２の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

【発明を実施するための形態】

【0014】

以下に、本願の開示する情報処理プログラム、情報処理方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

【実施例1】

【0015】

図１は、本実施例１に係る情報処理装置の処理を説明するための図である。図１では一例として、情報処理装置が、日本語の入力テキストｄａ１，ｄａ２に文ベクトルを割り当てる場合について説明する。たとえば、入力テキストｄａ１の文を「苺は甘い。」とする。入力テキストｄａ２の文を「彼の考えは甘い。」とする。

【0016】

ここでは、情報処理装置が、第１共起率テーブル１４３ａと、第１カテゴリテーブル１４４ａと、第１ベクトルテーブル１４５ａとを用いて処理を行うものとする。

【0017】

第１共起率テーブル１４３ａは、意味区分ごとに区別した多義語と、単語のカテゴリとの共起率の関係を保持する。本実施例１では、単語とカッコ付きの数字との組によって、多義語となる単語を区別する。図１では、多義語「甘い」を「甘い（１）」、「甘い（２）」によって区別する。

【0018】

「甘い（１）」の意味を「砂糖、みつなど糖分の味がする」とする。「甘い（１）」が含まれる文において、カテゴリＩＤ「α」によって特定される単語の共起率が「７８％」である旨が示される。「甘い（１）」が含まれる文において、カテゴリＩＤ「β」によって特定される単語の共起率が「６３％」である旨が示される。「甘い（１）」が含まれる文において、カテゴリＩＤ「η」によって特定される単語の共起率が「１％」である旨が示される。「甘い（１）」が含まれる文において、カテゴリＩＤ「ζ」によって特定される単語の共起率が「２％」である旨が示される。

【0019】

情報処理装置は、多義語「甘い」が含まれる文において共起する他の単語が、カテゴリＩＤ「α」、「β」に対応する単語である場合、多義語「甘い」を、多義語「甘い（１）」と特定する。

【0020】

「甘い（２）」の意味を「厳しさにかけているさま」とする。「甘い（２）」が含まれる文において、カテゴリＩＤ「α」によって特定される単語の共起率が「１％」である旨が示される。「甘い（２）」が含まれる文において、カテゴリＩＤ「β」によって特定される単語の共起率が「２％」である旨が示される。「甘い（２）」が含まれる文において、カテゴリＩＤ「η」によって特定される単語の共起率が「８１％」である旨が示される。「甘い（２）」が含まれる文において、カテゴリＩＤ「ζ」によって特定される単語の共起率が「７１％」である旨が示される。

【0021】

情報処理装置は、多義語「甘い」が含まれる文において共起する他の単語が、カテゴリＩＤ「η」、「ζ」に対応する単語である場合、多義語「甘い」を、多義語「甘い（２）」と特定する。

【0022】

第１カテゴリテーブル１４４ａは、カテゴリＩＤと、単語とを対応付けるテーブルである。各単語は、シソーラスに基づいて、各カテゴリＩＤに分類されている。たとえば、苺、リンゴ、葡萄等の果物は、カテゴリＩＤ「α」に分類されている。彼、彼女等のように人に関する単語は、カテゴリＩＤ「η」に分類されている。ここでは説明を省略するが、他の単語も、いずれかのカテゴリＩＤに分類されているものとする。

【0023】

第１ベクトルテーブル１４５ａは、各単語に割り当てる単語ベクトルを保持する。多義語については、意味区分ごとに単語ベクトルが設定される。各単語の単語ベクトルは、ポアンカレエンベッディング（Poincare Embeddings）と呼ばれる従来技術によって、予め算出されているものとする。

【0024】

情報処理装置が、入力テキストｄａ１の文ベクトルを割り当てる処理について説明する。情報処理装置は、入力テキストｄａ１に対して形態素解析を実行することで、単語ｗ１－１，ｗ１－２，ｗ１－３に分割する。単語ｗ１－１，ｗ１－２，ｗ１－３のうち、単語ｗ１－３が多義語となる。たとえば、情報処理装置は、辞書データを用いて、多義語を特定する。

【0025】

情報処理装置は、単語ｗ１－３と共起する単語ｗ１－１，ｗ１－２と、第１カテゴリテーブル１４４ａとを比較して、単語ｗ１－１のカテゴリＩＤ「α」を特定する。単語ｗ１－２のカテゴリＩＤに関する説明は省略する。

【0026】

情報処理装置は、単語ｗ１－３に対応する多義語「甘い」、および、共起するｗ１－１のカテゴリＩＤ「α」の関係と、第１共起率テーブル１４３ａとを比較し、単語ｗ１－３が、多義語「甘い（１）」に対応することを特定する。

【0027】

情報処理装置は、単語ｗ１－１，ｗ１－２，ｗ１－３と、第１ベクトルテーブル１４５ａとを比較して、単語ｗ１－１，ｗ１－２，ｗ１－３に対応する単語ベクトルＶ_１－１，Ｖ_１－２，Ｖ_（１）をそれぞれ割り当てる。ここで、単語ｗ１－３に割り当てられる単語ベクトルは、「甘い（１）」に関する固有の単語ベクトルＶ_（１）となる。情報処理装置は、単語ベクトルＶ_１－１，Ｖ_１－２，Ｖ_（１）を集積することで、文ベクトル「Ｖ１」を算出する。情報処理装置は、入力テキストｄａ１に、文ベクトル「Ｖ１」を割り当てる。

【0028】

情報処理装置が、入力テキストｄａ２の文ベクトルを割り当てる処理について説明する。情報処理装置は、入力テキストｄａ２に対して形態素解析を実行することで、単語ｗ２－１，ｗ２－２，ｗ２－３，ｗ２－４，ｗ２－５に分割する。単語ｗ２－１，ｗ２－２，ｗ２－３，ｗ２－４，ｗ２－５のうち、単語ｗ２－５が多義語となる。たとえば、情報処理装置は、辞書データを用いて、多義語を特定する。

【0029】

情報処理装置は、単語ｗ２－５と共起する単語ｗ２－１，ｗ２－２，ｗ２－３，ｗ２－４と、第１カテゴリテーブル１４４ａとを比較して、単語ｗ２－１のカテゴリＩＤ「η」を特定する。単語ｗ２－２～ｗ２－４のカテゴリＩＤに関する説明は省略する。

【0030】

情報処理装置は、単語ｗ２－５に対応する多義語「甘い」、および、共起するｗ２－１のカテゴリＩＤ「η」の関係と、第１共起率テーブル１４３ａとを比較して、単語ｗ２－５が、多義語「甘い（２）」に対応することを特定する。

【0031】

情報処理装置は、単語ｗ２－１～ｗ２－５と、第１ベクトルテーブル１４５ａとを比較して、単語ｗ２－１～ｗ２－５に対応する単語ベクトルＶ_２－１，Ｖ_２－２，Ｖ_２－３，Ｖ_２－４，Ｖ_（２）をそれぞれ割り当てる。ここで、単語ｗ２－５に割り当てられる単語ベクトルは、「甘い（２）」に関する固有の単語ベクトルＶ_（２）となる。情報処理装置は、単語ベクトルＶ_２－１，Ｖ_２－２，Ｖ_２－３，Ｖ_２－４，Ｖ_（２）を集積することで、文ベクトル「Ｖ２」を算出する。情報処理装置は、入力テキストｄａ２に、文ベクトル「Ｖ２」を割り当てる。

【0032】

上記のように、本実施例１に係る情報処理装置は、意味区分ごとに区別した多義語と他の単語のカテゴリとの共起率を定義した第１共起率テーブル１４３ａを用いて、入力テキストに含まれる多義語の意味を特定し、多義語の意味に応じた単語ベクトルを割り当てる。このように、入力テキストに多義語が含まれている場合に、多義語の意味に応じた単語ベクトルを割り当てるため、入力テキストに対応する文ベクトルの精度を高精度化することができる。

【0033】

また、情報処理装置は、シソーラスに基づいて、単語をカテゴリＩＤに分類しておき、意味区分に区別した多義語と、カテゴリＩＤとの共起率を定義した第１共起率テーブル１４３ａを用いて、処理を行う。このため、単語ごとの共起率を定義する従来型のＨＭＭと比較して、第１共起率テーブル１４３ａのデータ量を少なくすることができる。

【0034】

次に、本実施例１に係る情報処理装置の構成について説明する。図２は、本実施例１に係る情報処理装置の構成を示す機能ブロック図である。図２に示すように、この情報処理装置１００は、通信部１１０、入力部１２０、表示部１３０、記憶部１４０、制御部１５０を有する。

【0035】

通信部１１０は、有線又は無線で外部装置等に接続され、外部装置等との間で情報の送受信を行う。たとえば、通信部１１０は、ＮＩＣ（Network Interface Card）等によって実現される。通信部１１０は、図示しないネットワークに接続されていてもよい。

【0036】

入力部１２０は、各種の情報を、情報処理装置１００に入力する入力装置である。入力部１２０は、キーボードやマウス、タッチパネル等に対応する。

【0037】

表示部１３０は、制御部１５０から出力される情報を表示する表示装置である。表示部１３０は、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイ、タッチパネル等に対応する。

【0038】

記憶部１４０は、第１辞書データ１４１ａ、第２辞書データ１４１ｂ、第１教師データ１４２ａ、第２教師データ１４２ｂ、第１共起率テーブル１４３ａ、第２共起率テーブル１４３ｂを有する。記憶部１４０は、第１カテゴリテーブル１４４ａ、第２カテゴリテーブル１４４ｂ、第１ベクトルテーブル１４５ａ、第２ベクトルテーブル１４５ｂを有する。記憶部１４０は、第１テキストデータ１４６ａ、第２テキストデータ１４６ｂを有する。記憶部１４０は、たとえば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。

【0039】

第１辞書データ１４１ａは、日本語の単語辞書のフォーマットを拡張した辞書データであり、日本語の単語のほかに、日本語の多義語、熟語、専門用語等が登録される。図３は、第１辞書データのデータ構造の一例を示す図である。たとえば、第１辞書データ１４１ａは、単語文字列、品詞、分類、多義語フラグ等を対応付ける。

【0040】

単語文字列は、活用や表記揺れなどを考慮した、文中において文字列として実際に出現する単語の形式を示すもの（表層形）である。品詞は、文中の単語の品詞を示す。分類は、文中の単語の分類を示す。多義語フラグは、単語文字列が多義語であるかを示すフラグである。多義語である場合には、多義語フラグが「１」となる。多義語でない場合には、多義語フラグが「０」となる。

【0041】

第２辞書データ１４１ｂは、英語の単語辞書のフォーマットを拡張した辞書データであり、英語の単語のほかに、英語の多義語、熟語、専門用語等が登録される。図４は、第２辞書データのデータ構造の一例を示す図である。たとえば、第２辞書データ１４１ｂは、単語文字列、品詞、分類、多義語フラグ等を対応付ける。

【0042】

単語文字列、品詞、分類、多義語フラグに関する説明は、図３で行った説明と同様である。

【0043】

第１教師データ１４２ａは、日本語に関する第１共起率テーブル１４３ａの各共起率（パラメータ）を算出する場合に用いられるデータである。図５は、第１教師データの一例を示す図である。図５に示すように、第１教師データ１４２ａは、複数の日本語の文が含まれている。また、文に含まれる単語のうち、多義語となる単語には、単語とカッコ書きの数字との組によって、区別されている。甘い（１）と、甘い（２）とは、別の意味区分の単語となる。

【0044】

第２教師データ１４２ｂは、英語に関する第２共起率テーブル１４３ｂの各共起率（パラメータ）を算出する場合に用いられるデータである。図６は、第２教師データの一例を示す図である。図６に示すように、第２教師データ１４２ｂは、複数の英語の文が含まれている。また、文に含まれる単語のうち、多義語となる単語には、単語とカッコ書きの数字との組によって、区別されている。cool（１）と、cool（２）とは、別の意味区分の単語となる。

【0045】

第１共起率テーブル１４３ａは、意味区分ごとに区別した多義語（日本語の多義語）と、単語（日本語の単語）のカテゴリとの共起率の関係を保持する。図７は、第１共起率テーブルのデータ構造の一例を示す図である。図７に示すように、単語とカッコ書きの数字との組によって、同一の単語文字列の多義語を区別する。図７に関する第１共起率テーブル１４３ａに関する説明は、図１で行った第１共起率テーブル１４３ａに関する説明と同様である。

【0046】

第２共起率テーブル１４３ｂは、意味区分ごとに区別した多義語（英語の多義語）と、単語（英語の単語）のカテゴリとの共起率の関係を保持する。図８は、第２共起率テーブルのデータ構造の一例を示す図である。図８に示すように、単語とカッコ書きの数字との組によって、同一の単語文字列の多義語を区別する。

【0047】

「coo1（１）」の意味は「涼しい」である。「coo1（１）」が含まれる文において、カテゴリＩＤ「ε」によって特定される単語の共起率が「７５％」である旨が示される。「coo1（１）」が含まれる文において、カテゴリＩＤ「λ」によって特定される単語の共起率が「６０％」である旨が示される。「coo1（１）」が含まれる文において、カテゴリＩＤ「η」によって特定される単語の共起率が「１％」である旨が示される。「coo1（１）」が含まれる文において、カテゴリＩＤ「ζ」によって特定される単語の共起率が「２％」である旨が示される。

【0048】

情報処理装置１００は、多義語「coo1」が含まれる文において共起する他の単語が、カテゴリＩＤ「ε」、「λ」に対応する単語である場合、多義語「coo1」を、多義語「coo1（１）」と特定する。

【0049】

「coo1（２）」の意味は「冷静、沈着」である。「coo1（２）」が含まれる文において、カテゴリＩＤ「ε」によって特定される単語の共起率が「１％」である旨が示される。「coo1（２）」が含まれる文において、カテゴリＩＤ「λ」によって特定される単語の共起率が「２％」である旨が示される。「coo1（２）」が含まれる文において、カテゴリＩＤ「η」によって特定される単語の共起率が「７７％」である旨が示される。「coo1（２）」が含まれる文において、カテゴリＩＤ「ζ」によって特定される単語の共起率が「７５％」である旨が示される。

【0050】

情報処理装置１００は、多義語「coo1」が含まれる文において共起する他の単語が、カテゴリＩＤ「η」、「ζ」に対応する単語である場合、多義語「coo1」を、多義語「coo1（２）」と特定する。

【0051】

第１カテゴリテーブル１４４ａは、カテゴリＩＤと、日本語の単語とを対応付けるテーブルである。図９は、第１カテゴリテーブルのデータ構造の一例を示す図である。図９に示すように、第１カテゴリテーブル１４４ａは、カテゴリＩＤと、単語とを対応付ける。カテゴリＩＤは、カテゴリを一意に識別する情報である。単語は、シソーラスに基づいて、各カテゴリＩＤに分類されているものとする。

【0052】

たとえば、単語「苺」、「リンゴ」、「葡萄」等は、カテゴリＩＤ「α」に分類される。単語「クッキー」、「ケーキ」、「アイスクリーム」等は、カテゴリＩＤ「β」に分類される。単語「彼」、「彼女」、「おまえ」、「あいつ」等は、カテゴリＩＤ「η」に分類される。単語「考え」、「希望」、「アイデア」等は、カテゴリ「ζ」に分類される。

【0053】

第２カテゴリテーブル１４４ｂは、カテゴリＩＤと、英語の単語とを対応付けるテーブルである。図１０は、第２カテゴリテーブルのデータ構造の一例を示す図である。図１０に示すように、第２カテゴリテーブル１４４ｂは、カテゴリＩＤと、単語とを対応付ける。カテゴリＩＤは、カテゴリを一意に識別する情報である。単語は、シソーラスに基づいて、各カテゴリＩＤに分類されているものとする。

【0054】

たとえば、単語「room」、「place」、「hall」等は、カテゴリＩＤ「ε」に分類される。単語「temperature」、「air」、「atmosphere」等は、カテゴリＩＤ「λ」に分類される。単語「he」、「she」、「you」、「chap」等は、カテゴリＩＤ「η」に分類される。単語「thought」、「hope」、「idea」等は、カテゴリ「ζ」に分類される。

【0055】

第１ベクトルテーブル１４５ａは、日本語の単語の単語ベクトルを定義する。また、多義語については、意味区分ごとに、異なる単語ベクトルが対応付けられる。図１１は、第１ベクトルテーブル１４５ａのデータ構造の一例を示す図である。図１１に示すように、この第１ベクトルテーブル１４５ａは、単語と、単語ベクトルとを対応付ける。単語ベクトルの次元を２００次元とする。

【0056】

たとえば、多義語「甘い」については、意味区分ごとに単語ベクトルが対応付けられる。「甘い（１）」には、単語ベクトル（２００次元）「Ｖｊ１－１～Ｖｊ１－２００」が対応付けられる。「甘い（２）」には、単語ベクトル（２００次元）「Ｖｊ２－１～Ｖｊ２－２００」が対応付けられる。

【0057】

第２ベクトルテーブル１４５ｂは、英語の単語の単語ベクトルを定義する。また、多義語については、意味区分ごとに、異なる単語ベクトルが対応付けられる。熟語については、熟語を構成する複数の単語に対して、一つの単語ベクトルが対応付けられる。図１２は、第２ベクトルテーブル１４５ｂのデータ構造の一例を示す図である。図１２に示すように、この第２ベクトルテーブル１４５ｂは、単語と、単語ベクトルとを対応付ける。単語ベクトルの次元を２００次元とする。

【0058】

たとえば、多義語「cool」については、意味区分ごとに単語ベクトルが対応付けられる。「cool（１）」には、単語ベクトル（２００次元）「Ｖｅ１－１～Ｖｅ１－２００」が対応付けられる。「cool（２）」には、単語ベクトル（２００次元）「Ｖｅ２－１～Ｖｅ２－２００」が対応付けられる。

【0059】

また、熟語「take off」については、一つの単語ベクトル（２００次元）「Ｖｅ４－１～Ｖｅ４－２００」が対応付けられる。熟語「take out」については、一つの単語ベクトル（２００次元）「Ｖｅ５－１～Ｖｅ５－２００」が対応付けられる。

【0060】

図１１、図１２で説明した単語ベクトルは、ポアンカレエンベッディングと呼ばれる技術を用いて予め算出されているものとする。

【0061】

ポアンカレエンベディングでは、ポアンカレ空間に埋め込まれた位置に応じて、ベクトルが割り当てられるものであり、また、類似する情報ほど、近い位置に埋め込まれるという特徴がある。このため、同一の共通概念に分類される各基本情報は、ポアンカレ空間において、それぞれ近い位置に埋め込まれるため、類似のベクトルが割り当てられる。たとえば、日本語の単語「甘い（１）」と、英語の単語「sweet」とは、類似の意味であるため、類似の単語ベクトルが割り当てられる。

【0062】

第１テキストデータ１４６ａは、複数の日本語の文（入力テキスト）を含むデータである。後述する制御部１５０は、第１テキストデータ１４６ａに含まれる入力テキストに対して文ベクトルを割り当てる処理を行う。

【0063】

第２テキストデータ１４６ｂは、複数の英語の文（入力テキスト）を含むデータである。後述する制御部１５０は、第２テキストデータ１４６ｂに含まれる入力テキストに対して文ベクトルを割り当てる。

【0064】

制御部１５０は、受付部１５１、算出部１５２、生成部１５３、割当部１５４を有する。制御部１５０は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ(Micro Processing Unit)により実現される。また、制御部１５０は、例えばＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実行されてもよい。

【0065】

受付部１５１は、ネットワークを介して、外部装置等から、各種のデータを受け付け、受け付けたデータを記憶部１４０に格納する。たとえば、受付部１５１は、第１辞書データ１４１ａ、第２辞書データ１４１ｂ、第１教師データ１４２ａ、第２教師データ１４２ｂ、第１カテゴリテーブル１４４ａ、第２カテゴリテーブル１４４ｂを受け付け、記憶部１４０に格納する。

【0066】

算出部１５２は、ポアンカレエンベッディングを実行することで、各単語、熟語、専門用語等の単語ベクトルを算出する。算出部１５２は、非特許文献「Valentin Khrulkov1 et al.「Hyperbolic Image Embeddings」Cornell University,2019 April 3」等に記載された技術を基にして、単語、熟語、専門用語等の単語ベクトルを算出し、第１ベクトルテーブル１４５ａ、第２ベクトルテーブル１４５ｂに登録する。

【0067】

なお、ポアンカレエンベッディングを実行する外部装置によって、事前に各単語の単語ベクトルが算出されている場合には、受付部１５１は、外部装置から、第１ベクトルテーブル１４５ａ、第２ベクトルテーブル１４５ｂを受け付け、記憶部１４０に格納する。

【0068】

生成部１５３は、第１共起率テーブル１４３ａと、第２共起率テーブル１４３ｂとを生成する処理部である。生成部１５３は、生成した第１共起率テーブル１４３ａと、第２共起率テーブル１４３ｂとを記憶部１４０に格納する。

【0069】

生成部１５３が、第１共起率テーブル１４３ａを生成する処理の一例について説明する。生成部１５３は、第１教師データ１４２ａに含まれる日本語の文に対して形態素解析を実行することで、複数の単語に分割する。生成部１５３は、分割した複数の単語から、多義語を特定する。図５で説明したように、第１教師データ１４２ａには、多義語が、単語とカッコつきの数字との組によって識別可能に定義されている。以下の説明では、生成部１５３が、多義語「甘い（１）」の共起率を算出する処理について説明する。

【0070】

生成部１５３は、多義語「甘い（１）」と共起する単語を検出し、検出した単語と、第１カテゴリテーブル１４４ａとを比較することで、多義語「甘い（１）」と共起する単語のカテゴリＩＤを特定する。ここで、多義語と共起する単語は、多義語と同一の文に含まれる単語であってもよいし、多義語と同一文の前方に位置する単語であってもよいし、多義語と同一文の後方の単語であってもよい。

【0071】

たとえば、第１教師データ１４２ａにおいて、多義語「甘い（１）」がＭ_Ａ回出現したとする。また、多義語「甘い（１）」と共起する単語のカテゴリＩＤ「α」が、Ｌ_Ａ回出現したとする。この場合には、多義語「甘い（１）」とカテゴリＩＤ「α」との共起率は「Ｌ_Ａ／Ｍ_Ａ×１００」となる。生成部１５３は、各多義語（単語とカッコつきの数字との組）について、上記処理を繰り返すことで、第１共起率テーブル１４３ａを生成する。

【0072】

続いて、生成部１５３が、第２共起率テーブル１４３ｂを生成する処理の一例について説明する。生成部１５３は、第２教師データ１４２ｂに含まれる英語の文に対して形態素解析を実行することで、複数の単語に分割する。生成部１５３は、分割した複数の単語から、多義語を特定する。図６で説明したように、第２教師データ１４２ｂには、多義語が、単語とカッコつきの数字との組によって識別可能に定義されている。以下の説明では、生成部１５３が、多義語「cool（１）」の共起率を算出する処理について説明する。

【0073】

生成部１５３は、多義語「cool（１）」と共起する単語を検出し、検出した単語と、第２カテゴリテーブル１４４ｂとを比較することで、多義語「cool（１）」と共起する単語のカテゴリＩＤを特定する。ここで、多義語と共起する単語は、多義語と同一の文に含まれる単語であってもよいし、多義語と同一文の前方に位置する単語であってもよいし、多義語と同一文の後方の単語であってもよい。

【0074】

たとえば、第２教師データ１４２ｂにおいて、多義語「cool（１）」がＭ_Ｂ回出現したとする。また、多義語「cool（１）」と共起する単語のカテゴリＩＤ「α」が、Ｌ_Ｂ回出現したとする。この場合には、多義語「cool（１）」とカテゴリＩＤ「α」との共起率は「Ｌ_Ｂ／Ｍ_Ｂ×１００」となる。生成部１５３は、各多義語（単語とカッコつきの数字との組）について、上記処理を繰り返すことで、第２共起率テーブル１４３ｂを生成する。

【0075】

割当部１５４は、第１テキストデータ１４６ａに含まれる日本語の入力テキストに対して文ベクトルを割り当てる。また、割当部１５４は、第２テキストデータ１４６ｂに含まれる英語の入力テキストに対して文ベクトルを割り当てる。

【0076】

図１３は、本実施例１に係る割当部の処理を説明するための図である。まず、割当部１５４が、第１テキストデータ１４６ａに含まれる日本語の文（入力テキストｄａ１）に対して文ベクトルを割り当てる処理について説明する。

【0077】

割当部１５４は、入力テキストｄａ１に対して形態素解析を実行することで、単語ｗ１－１，ｗ１－２，ｗ１－３に分割する。単語ｗ１－１，ｗ１－２，ｗ１－３のうち、単語ｗ１－３が多義語となる。割当部１５４は、第１辞書データ１４１ａを用いて、多義語「甘い」を特定する。

【0078】

割当部１５４は、単語ｗ１－３と共起する単語ｗ１－１，ｗ１－２と、第１カテゴリテーブル１４４ａとを比較して、単語ｗ１－１のカテゴリＩＤ「α（果物）」を特定する。単語ｗ１－２のカテゴリＩＤに関する説明は省略する。

【0079】

割当部１５４は、単語ｗ１－３に対応する多義語「甘い」、および、共起するｗ１－１のカテゴリＩＤ「α」の関係と、第１共起率テーブル１４３ａとを比較し、意味区分ごとの共起率を特定する。図７において、多義語「甘い（１）」とカテゴリＩＤ「α」との共起率は「７８％」である。一方、多義語「甘い（２）」とカテゴリＩＤ「α」との共起率は「１％」である。割当部１５４は、「甘い（１）」とカテゴリＩＤ「α」との共起率が最大となるため、単語ｗ１－３が、多義語「甘い（１）」に対応することを特定する。

【0080】

割当部１５４は、単語ｗ１－１，ｗ１－２，ｗ１－３と、第１ベクトルテーブル１４５ａとを比較して、単語ｗ１－１，ｗ１－２，ｗ１－３に対応する単語ベクトルＶ_１－１，Ｖ_１－２，Ｖ_（１）をそれぞれ割り当てる。図示を省略するが、単語ベクトルＶ_１－１，Ｖ_１－２，Ｖ_（１）は、２００次元のベクトルとする。

【0081】

割当部１５４は、単語ベクトルＶ_１－１，Ｖ_１－２，Ｖ_（１）を集積することで、文ベクトル「Ｖ１」を算出する。割当部１５４は、入力テキストｄａ１に、文ベクトル「Ｖ１」を割り当てる。割当部１５４は、第１テキストデータ１４６ａに含まる他の入力テキストについても、上記処理を繰り返し実行することで、文ベクトルを割り当てる。

【0082】

続いて、割当部１５４が、第２テキストデータ１４６ｂに含まれる英語の文（入力テキストｄａ３）に対して文ベクトルを割り当てる処理について説明する。

【0083】

割当部１５４は、入力テキストｄａ３に対して形態素解析を実行することで、単語ｗ３－１，ｗ３－２，ｗ３－３に分割する。単語ｗ３－１，ｗ３－２，ｗ３－３のうち、単語ｗ３－３が多義語となる。割当部１５４は、第２辞書データ１４１ｂを用いて、多義語「cool」を特定する。

【0084】

割当部１５４は、単語ｗ３－３と共起する単語ｗ３－１，ｗ３－２と、第２カテゴリテーブル１４４ｂとを比較する。たとえば、単語ｗ３－１のカテゴリＩＤを「η（人）」とする。単語ｗ３－２のカテゴリＩＤに関する説明は省略する。

【0085】

割当部１５４は、単語ｗ３－３に対応する多義語「cool」、および、共起するｗ３－１のカテゴリＩＤ「η」の関係と、第２共起率テーブル１４３ｂとを比較し、意味区分ごとの共起率を特定する。図８において、多義語「cool（１）」とカテゴリＩＤ「η」との共起率は「１％」である。一方、多義語「cool（２）」とカテゴリＩＤ「η」との共起率は「７７％」である。割当部１５４は、「cool（２）」とカテゴリＩＤ「η」との共起率が最大となるため、単語ｗ３－３が、多義語「cool（２）」に対応することを特定する。

【0086】

割当部１５４は、単語ｗ３－１，ｗ３－２，ｗ３－３と、第２ベクトルテーブル１４５ｂとを比較して、単語ｗ３－１，ｗ３－２，ｗ３－３に対応する単語ベクトルＶ_３－１，Ｖ_３－２，Ｖ_（３）をそれぞれ割り当てる。図示を省略するが、単語ベクトルＶ_３－１，Ｖ_３－２，Ｖ_（３）は、２００次元のベクトルとする。

【0087】

割当部１５４は、単語ベクトルＶ_３－１，Ｖ_３－２，Ｖ_（３）を集積することで、文ベクトル「Ｖ３」を算出する。割当部１５４は、入力テキストｄａ３に、文ベクトル「Ｖ３」を割り当てる。割当部１５４は、第２テキストデータ１４６ｂに含まる他の入力テキストについても、上記処理を繰り返し実行することで、文ベクトルを割り当てる。

【0088】

次に、本実施例１に係る情報処理装置１００の処理手順の一例について説明する。図１４は、本実施例１に係る情報処理装置の処理手順の一例を示すフローチャート（１）である。図１４に示すように、情報処理装置１００の割当部１５４は、第１テキストデータ１４６ａから入力テキストを取得する（ステップＳ１０１）。

【0089】

割当部１５４は、入力テキストに対して形態素解析を実行し、複数の単語に分割する（ステップＳ１０２）。割当部１５４は、第１辞書データ１４１ａを基にして、複数の単語から、多義語を特定する（ステップＳ１０３）。割当部１５４は、第１カテゴリテーブル１４４ａを基にして、複数の単語のカテゴリＩＤを特定する（ステップＳ１０４）。

【0090】

割当部１５４は、多義語および共起するカテゴリＩＤと、第１共起率テーブル１４３ａとを基にして、多義語の意味区分を特定する（ステップＳ１０５）。割当部１５４は、第１ベクトルテーブル１４５ａを基にして、各単語、多義語の単語ベクトルを特定する（ステップＳ１０６）。

【0091】

割当部１５４は、各単語、多義語の単語ベクトルを集積することで、文ベクトルを算出する（ステップＳ１０７）。割当部１５４は、入力テキストに文ベクトルを割り当てる（ステップＳ１０８）。

【0092】

図１５は、本実施例１に係る情報処理装置の処理手順の一例を示すフローチャート（２）である。図１４に示すように、情報処理装置１００の割当部１５４は、第２テキストデータ１４６ｂから入力テキストを取得する（ステップＳ２０１）。

【0093】

割当部１５４は、入力テキストに対して形態素解析を実行し、複数の単語に分割する（ステップＳ２０２）。割当部１５４は、第２辞書データ１４１ｂを基にして、複数の単語から、多義語を特定する（ステップＳ２０３）。割当部１５４は、第２カテゴリテーブル１４４ｂを基にして、複数の単語のカテゴリＩＤを特定する（ステップＳ２０４）。

【0094】

割当部１５４は、多義語および共起するカテゴリＩＤと、第２共起率テーブル１４３ｂとを基にして、多義語の意味区分を特定する（ステップＳ２０５）。割当部１５４は、第２ベクトルテーブル１４５ｂを基にして、各単語、多義語の単語ベクトルを特定する（ステップＳ２０６）。

【0095】

割当部１５４は、各単語、多義語の単語ベクトルを集積することで、文ベクトルを算出する（ステップＳ２０７）。割当部１５４は、入力テキストに文ベクトルを割り当てる（ステップＳ２０８）。

【0096】

次に、本実施例１に係る情報処理装置１００の効果について説明する。情報処理装置１００は、意味区分ごとに区別した多義語と他の単語のカテゴリとの共起率を定義した第１共起率テーブル１４３ａ（第２共起率テーブル１４３ｂ）を用いて、入力テキストに含まれる多義語の意味を特定する。情報処理装置１００は、特定した結果を基にして、多義語の意味に応じた単語ベクトルを割り当てる。このように、入力テキストに多義語が含まれている場合に、多義語の意味に応じた単語ベクトルを割り当てるため、入力テキストに対応する文ベクトルの精度を高精度化することができる。

【0097】

情報処理装置１００は、シソーラスに基づいて、単語をカテゴリＩＤに分類しておき、意味区分に区別した多義語と、カテゴリＩＤとの共起率を定義した第１共起率テーブル１４３ａ（第２共起率テーブル１４３ｂ）を用いて、処理を行う。このため、単語ごとの共起率を定義する従来型のＨＭＭと比較して、第１共起率テーブル１４３ａ（第２共起率テーブル１４３ｂ）のデータ量を少なくすることができる。また、カテゴリに対応付けたＨＭＭにより、平均的な照合回数が減少するため、処理の高速化を図ることができる。

【0098】

情報処理装置１００は、各単語の単語ベクトルを、ポアンカレエンベッディングを実行することで算出する。これによって、意味に応じた単語ベクトルを割り当てることができる。また、複数の単語からなる熟語に対して、意味に応じた一つの単語ベクトルを割り当てることもできる。

【0099】

ここで、実施例１で説明した情報処理装置１００のその他の処理１について説明する。情報処理装置１００は、日本語の第１文と、かかる第１文を英語に翻訳した第２文とを対応付けた教師データを用いて、ＲＮＮ（Recurrent Neural Network）機械学習を実行し、日本語を英語に翻訳する機械学習モデルを生成してもよい。

【0100】

たとえば、情報処理装置１００は、教師データに含まれる第１文を形態素解析し、各単語に単語ベクトルを割り当てる。また、情報処理装置１００は、上記の処理を行うことで、第１文に多義語が含まれる場合には、多義語の意味区分に対応した単語ベクトルを割り当ている。

【0101】

同様にして、情報処理装置１００は、教師データに含まれる第２文を形態素解析し、各単語に単語ベクトルを割り当てる。また、情報処理装置１００は、上記の処理を行うことで、第２文に多義語が含まれる場合には、多義語の意味区分に対応した単語ベクトルを割り当ている。

【0102】

情報処理装置１００は、第１文の各単語に割り当てた単語ベクトルと、第２文の各単語に割り当てた単語ベクトルとの関係を用いて、ＲＮＮ機械学習を実行する。

【0103】

続いて、実施例１で説明した情報処理装置１００のその他の処理２について説明する。実施例１で説明した第１ベクトルテーブル１４５ａ、第２ベクトルテーブル１４５ｂの単語ベクトルは、２００次元のベクトルであったが、次元圧縮を実行して、低次元（たとえば、３次元）の単語ベクトルに変換してもよい。

【0104】

図１６および図１７は、ベクトルの次元圧縮を説明するための図である。図１６について説明する。情報処理装置１００の算出部１５２は、２００次元に成分分解された、２００本の基底ベクトルａ_ｉｅ_ｉ（ｉ＝１～２００）を円状（半円状）に等分に分散配置する。なお、成分分解前のベクトルＡと、成分分解された各基底ベクトルａ_ｉｅ_ｉとの関係は、式（１）によって定義される。

【0105】

【数1】

【0106】

図１７について説明する。算出部１５２は、基底ベクトルａ_１ｅ_１に対して、残りの基底ベクトルａ_２ｅ_２～ａ_２００ｅ_２００をそれぞれ直交変換し、直交変換した各基底ベクトルａ_２ｅ_２～ａ_２００ｅ_２００の値を積算することで、基底ベクトルａ_１ｅ_１の値を算出する。

【0107】

算出部１５２は、基底ベクトルａ_６７ｅ_６７に対して、残りの基底ベクトルａ_１ｅ_１（実線＋矢印）、ａ_２ｅ_２、ａ_３ｅ_３～ａ_６６ｅ_６６、ａ_６８ｅ_６８～ａ_２００ｅ_２００をそれぞれ直交変換し、直交変換した各基底ベクトルａ_１ｅ_１～ａ_６６ｅ_６６、ａ_６８ｅ_６８～ａ_２００ｅ_２００の値を積算することで、基底ベクトルａ_６７ｅ_６７の値を算出する。

【0108】

算出部１５２は、基底ベクトルａ_１３１ｅ_１３１に対して、残りの基底ベクトルａ_１ｅ_１～ａ_１３０ｅ_１３０、ａ_１３２ｅ_１３２～ａ_２００ｅ_２００をそれぞれ直交変換し、直交変換した各基底ベクトルａ_１ｅ_１～ａ_１３０ｅ_１３０、ａ_１３２ｅ_１３２～ａ_２００ｅ_２００の値を積算することで、基底ベクトルａ_１３１ｅ_１３１の値を算出する。

【0109】

算出部１５２は、２００次元のベクトルを次元圧縮した圧縮ベクトルの各成分を「基底ベクトルａ_１ｅ_１の値、基底ベクトルａ_６７ｅ_６７の値、基底ベクトルａ_１３１ｅ_１３１の値」とする。算出部１５２は、他の次元も同様にして、算出する。なお、算出部１５２は、ＫＬ展開等を用いて、次元圧縮を行ってもよい。算出部１５２は、上記の次元圧縮を、第１ベクトルテーブル１４５ａ、第２ベクトルテーブル１４５ｂの各単語ベクトルについてそれぞれ実行することで、単語ベクトルを次元圧縮する。

【0110】

上記のように次元圧縮を実行することで、２００次元の単語ベクトルを取り扱う場合と比較して、単語ベクトルに関連する計算量を削減することが可能になる。なお、次元圧縮された単語ベクトルは、２００次元に不可逆ではあるが、復元することができる。

【実施例2】

【0111】

本実施例２に係る情報処理装置は「塩基ファイル」を取り扱う。塩基ファイルは、複数の塩基記号Ａ，Ｇ，Ｃ，Ｔ（またはＵ）が配列された情報であり、３塩基の組み合せのコドンが所定のアミノ酸に対応する。また、連続する複数のアミノ酸の組み合わせが、所定のタンパク質に対応し、複数のタンパク質の組み合わせが、一次構造に対応する。さらに、複数の一次構造の組み合わせが、高次構造となる。

【0112】

本実施例２では一例として、タンパク質にベクトルを割り当てる場合について説明する。図１８は、本実施例２に係る情報処理装置の処理を説明するための図である。図１８では、情報処理装置が、タンパク質ＨＭＭ２４６と、カテゴリテーブル２５０と、ベクトルテーブル２５１とを用いて処理を行うものとする。

【0113】

タンパク質ＨＭＭ２４６は、タンパク質と、タンパク質のカテゴリとの共起率の関係を保持する。たとえば、タンパク質Ｐ１と、カテゴリＩＤ「ＣＬ１」によって特定されるタンパク質との共起率が「７８％」である旨が示される。タンパク質Ｐ１と、カテゴリＩＤ「ＣＬ２」によって特定されるタンパク質との共起率が「６３％」である旨が示される。タンパク質Ｐ１と、カテゴリＩＤ「ＣＬ３」によって特定されるタンパク質との共起率が「１％」である旨が示される。タンパク質Ｐ１と、カテゴリＩＤ「ＣＬ４」によって特定されるタンパク質との共起率が「２％」である旨が示される。

【0114】

タンパク質Ｐ２と、カテゴリＩＤ「ＣＬ１」によって特定されるタンパク質との共起率が「１％」である旨が示される。タンパク質Ｐ２と、カテゴリＩＤ「ＣＬ２」によって特定されるタンパク質との共起率が「２％」である旨が示される。タンパク質Ｐ２と、カテゴリＩＤ「ＣＬ３」によって特定されるタンパク質との共起率が「８１％」である旨が示される。タンパク質Ｐ２と、カテゴリＩＤ「ＣＬ４」によって特定されるタンパク質との共起率が「７１％」である旨が示される。

【0115】

カテゴリテーブル２５０は、カテゴリＩＤと、タンパク質とを対応付けるテーブルである。同一の特性を持つタンパク質同士は、同一のカテゴリＩＤに分類される。タンパク質Ａ１、タンパク質Ａ２、タンパク質Ａ３等は、カテゴリＩＤ「ＣＬ１」に分類される。タンパク質Ｂ１、タンパク質Ｂ２、タンパク質Ｂ３等は、カテゴリＩＤ「ＣＬ２」に分類される。図示を省略するが、「トロンビン」、「キモトリプシン」、「ナットウキナーゼ」は、同一のカテゴリＩＤに分類される。

【0116】

ベクトルテーブル２５１は、各タンパク質に割り当てるベクトルを保持する。各タンパク質のベクトルは、ポアンカレエンベッディング（Poincare Embeddings）と呼ばれる従来技術によって、予め算出されているものとする。

【0117】

情報処理装置１００は、塩基ファイル２４１の先頭から、各種の辞書データを用いて、タンパク質の区切りを特定し、タンパク質の種別を特定していく。各種の辞書データについては後述する。情報処理装置は、タンパク質の種別を特定していく過程において、複数のタンパク質の種別が候補に挙がる場合がある。

【0118】

図１８に示す例では、タンパク質Ａ１に続くタンパク質の候補が、タンパク質Ｐ１、または、タンパク質Ｐ２のいずれかとなる場合を示している。

【0119】

情報処理装置は、タンパク質Ａ１と、カテゴリテーブル２５０とを基にして、タンパク質Ａ１のカテゴリＩＤ「ＣＬ１」を特定する。情報処理装置は、タンパク質ＨＭＭ２４６を基にして、カテゴリＩＤ「ＣＬ１」と、タンパク質Ｐ１との共起率「７８％」を特定する。情報処理装置は、タンパク質ＨＭＭ２４６を基にして、カテゴリＩＤ「ＣＬ１」と、タンパク質Ｐ２との共起率「１％」を特定する。

【0120】

情報処理装置は、カテゴリＩＤ「ＣＬ１」とタンパク質Ｐ１との共起率が、カテゴリＩＤ「ＣＬ１」とタンパク質Ｐ２との共起率よりも大きいため、タンパク質Ａ１に続くタンパク質を、タンパク質Ｐ１として特定する。情報処理装置は、タンパク質Ｐ１に続くタンパク質についても、共起率を基にして、タンパク質の種別を特定する処理を繰り返し実行する。

【0121】

情報処理装置は、タンパク質の特定が終了した後に、ベクトルテーブル２５１を基にして、タンパク質に対してベクトルを割り当てる。図１８に示す例では、情報処理装置は、タンパク質Ａ１にベクトルＶｐ１を割り当て、タンパク質Ａ１にベクトルＶｐ２を割り当てる。情報処理装置は、塩基ファイル２４１に含まれる各タンパク質のベクトルを積算することで、塩基ファイル２４１のベクトルを算出する。

【0122】

上記のように、本実施例２に係る情報処理装置は、タンパク質とタンパク質のカテゴリとの共起率を定義したタンパク質ＨＭＭ２４６を基にして、塩基ファイル２４１に含まれるタンパク質の種別を特定し、ベクトルを割り当てる。これによって、塩基ファイル２４１に含まれるタンパク質の種別が一意に特定できなくても、共起率を用いて、正確なタンパク質の種別を特定でき、適切なベクトルを割り当てることができる。

【0123】

また、情報処理装置は、タンパク質の類似性を基にして、タンパク質をカテゴリＩＤに分類しておき、タンパク質と、カテゴリＩＤとの共起率を定義したタンパク質ＨＭＭ２４６を用いて、処理を行う。このため、タンパク質ごとの共起率を定義する場合とＨＭＭと比較して、タンパク質ＨＭＭ２４６のデータ量を少なくすることができる。

【0124】

次に、本実施例２に係る情報処理装置の構成について説明する。図１９は、本実施例２に係る情報処理装置の構成を示す機能ブロック図である。図１９に示すように、この情報処理装置２００は、通信部２１０、入力部２２０、表示部２３０、記憶部２４０、制御部２６０を有する。

【0125】

通信部２１０は、有線又は無線で外部装置等に接続され、外部装置等との間で情報の送受信を行う。たとえば、通信部２１０は、ＮＩＣ等によって実現される。通信部２１０は、図示しないネットワークに接続されていてもよい。

【0126】

入力部２２０は、各種の情報を、情報処理装置２００に入力する入力装置である。入力部２２０は、キーボードやマウス、タッチパネル等に対応する。

【0127】

表示部２３０は、制御部２６０から出力される情報を表示する表示装置である。表示部２３０は、液晶ディスプレイ、有機ＥＬディスプレイ、タッチパネル等に対応する。

【0128】

記憶部２４０は、塩基ファイル２４１、変換テーブル２４２、コドン圧縮ファイル２４３、コドン転置インデックス２４４、タンパク質辞書２４５、タンパク質ＨＭＭ２４６を有する。また、記憶部２４０は、辞書インデックス２４７、タンパク質圧縮ファイル２４８、タンパク質転置インデックス２４９、カテゴリテーブル２５０、ベクトルテーブル２５１を有する。記憶部２４０は、たとえば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。

【0129】

塩基ファイル２４１は、複数の塩基が配列された情報を保持するファイルである。図２０は、塩基ファイルのデータ構造の一例を示す図である。ＤＮＡまたはＲＮＡの塩基は４種類で、「Ａ」、「Ｇ」、「Ｃ」、「Ｔ」または「Ｕ」の記号で示される。３つの塩基配列がひとかたまりで６４種のコドンと呼ばれ、２０種類のアミノ酸を決定する。それぞれのアミノ酸は、「Ａ」～「Ｙ」の記号で示される。

【0130】

変換テーブル２４２は、コドンと、コドンに対応する符号とを対応付けるテーブルである。図２１は、変換テーブルのデータ構造の一例を示す図である。図２１に示すように、各コドンと、各符号とが対応付けられる。たとえば、コドン「ＵＵＵ」の符号は「４０ｈ（０１００００００）」となる。「ｈ」は１６進数を示すものである。

【0131】

コドン圧縮ファイル２４３は、符号化された複数のコドンが配列された情報を保持するファイルである。図２２は、コドン圧縮ファイルのデータ構造の一例を示す図である。図２２に示すように、コドン圧縮ファイル２４３は、コドン単位の符号が配列する情報となる。本実施例２では便宜上、符号の隣に、符号化前の塩基（コドン）を括弧書きで示す。たとえば、コドン「ＡＵＧ」は、符号「６３ｈ」に変換されるが、変換された符号を「（ＡＵＧ）６３ｈ」と表記する。「ｈ」は１６進数であることを示すものである。

【0132】

コドン転置インデックス２４４は、コドン圧縮ファイル２４３の先頭からのオフセットと、コドンの種別（コドンの符号）とを対応付ける情報である。図２３は、コドン転置インデックスのデータ構造の一例を示す図である。図２３において、コドン転置インデックス２４４の横軸は、オフセットに対応する軸である。コドン転置インデックス２４４の縦軸は、コドンの種別（コドンの符号）に対応する軸である。コドン転置インデックス２４４は、「０」または「１」のビットマップで示され、初期状態では全てのビットマップが「０」に設定される。

【0133】

たとえば、コドン圧縮ファイル２４３の先頭のコドンの符号のオフセットを「０」とする。コドン圧縮ファイル２４３の先頭から７番目の位置に、コドンの符号「（ＡＵＧ）６３ｈ」が含まれる場合、コドン転置インデックス２４４のオフセット「６」の列と、コドンの符号「（ＡＵＧ）６３ｈ」の行とが交差する位置のビットが「１」となる。

【0134】

タンパク質辞書２４５は、タンパク質の情報と、タンパク質に対応するコドン符号配列とを対応付ける情報である。図２４は、タンパク質辞書のデータ構造の一例を示す図である。図２４に示すように、このタンパク質辞書２４５は、タンパク質情報と、アミノ酸符号配列と、コドン符号配列とを対応付ける。

【0135】

タンパク質情報には、タンパク質の「符号」と、タンパク質の属する「グループ」と、タンパク質の「名称」とが含まれる。アミノ酸符号配列は、タンパク質の符号（タンパク質の種別）に対応するアミノ酸の符号の配列である。コドン符号配列は、タンパク質の符号（タンパク質の種別）に対応するコドンの符号の配列である。

【0136】

たとえば、タンパク質「一型コラーゲン」は、グループ「コラーゲン」に属し、符号は「８０００ｈ」となる。符号「８０００ｈ」に対するアミノ酸符号配列は「02h46h59h・・・03h」となる。また、コドン符号配列は「02h63h78h・・・03h」となる。

【0137】

タンパク質ＨＭＭ２４６は、タンパク質と、このタンパク質に後続するタンパク質が属するカテゴリＩＤとの共起率に関する情報を保持する。図２５は、タンパク質ＨＭＭのデータ構造の一例を示す図である。図２５に示すように、このタンパク質ＨＭＭ２４６は、タンパク質情報と、共起率とを対応付ける。

【0138】

タンパク質情報には、タンパク質の「符号」と、タンパク質の属する「グループ」と、タンパク質の「名称」とが含まれる。共起率には、タンパク質と、カテゴリＩＤとの共起率がそれぞれ設定される。

【0139】

たとえば、タンパク質ＨＭＭ２４６の１行目のレコードについて説明する。タンパク質の符号「８０００ｈ」の次に後続するタンパク質が、カテゴリＩＤ「ＣＬ１」のタンパク質となる確率（共起率）は、「７８％」である。タンパク質の符号「８０００ｈ」の次に後続するタンパク質が、カテゴリＩＤ「ＣＬ２」のタンパク質となる確率（共起率）は、「６３％」である。タンパク質の符号「８０００ｈ」の次に後続するタンパク質が、カテゴリＩＤ「ＣＬ３」のタンパク質となる確率（共起率）は、「１％」である。タンパク質の符号「８０００ｈ」の次に後続するタンパク質が、カテゴリＩＤ「ＣＬ４」のタンパク質となる確率（共起率）は、「２％」である。

【0140】

辞書インデックス２４７は、コドン圧縮ファイル２４３に含まれる各コドン符号配列（タンパク質に対応するコドン符号配列のかたまり）の切れ目のオフセットを保持する情報である。たとえば、辞書インデックス２４７において、各切れ目は、コドン圧縮ファイル２４３の先頭からのオフセットで示される。本実施例２では一例として、切れ目を、後続のコドン符号配列の先頭のコドン符号のオフセットで示す。なお、コドン符号配列に加え、アミノ酸符号配列（以降省略）に対応付けてもよい。

【0141】

タンパク質圧縮ファイル２４８は、複数のタンパク質の符号が配列された情報を保持するファイルである。図２６は、タンパク質圧縮ファイルのデータ構造の一例を示す図である。図２６に示すように、タンパク質圧縮ファイル２４８は、タンパク質単位の符号が配列する情報となる。

【0142】

タンパク質転置インデックス２４９は、タンパク質圧縮ファイル２４８の先頭からのオフセットと、タンパク質の種別（タンパク質の符号）とを対応付ける情報である。図２７は、タンパク質転置インデックスのデータ構造の一例を示す図である。図２７において、タンパク質転置インデックス２４９の横軸は、オフセットに対応する軸である。タンパク質転置インデックス２４９の縦軸は、タンパク質の種別（タンパク質の符号）に対応する軸である。タンパク質転置インデックス２４９は、「０」または「１」のビットマップで示され、初期状態では全てのビットマップが「０」に設定される。

【0143】

たとえば、タンパク質圧縮ファイル２４８の先頭のタンパク質の符号のオフセットを「０」とする。タンパク質圧縮ファイル２４８の先頭から８番目の位置に、タンパク質の符号「８０００ｈ（一型コラーゲン）」が含まれる場合、タンパク質転置インデックス２４９のオフセット「７」の列と、タンパク質の符号「８０００ｈ（一型コラーゲン）」の行とが交差する位置のビットが「１」となる。

【0144】

カテゴリテーブル２５０は、タンパク質（タンパク質の符号）が属するカテゴリＩＤを定義するテーブルである。図２８は、カテゴリテーブルのデータ構造の一例を示す図である。図２８に示すように、カテゴリテーブル２５０は、カテゴリＩＤと、タンパク質の符号とを対応付ける。たとえば、タンパク質の符号「8000h」、「8001h」、「8002h」等は、カテゴリＩＤ「ＣＬ１」に対応付けられる。同一のカテゴリＩＤに対応付けられるタンパク質は、類似の特性をもつタンパク質となる。

【0145】

ベクトルテーブル２５１は、タンパク質の符号に割り当てられたベクトルを保持する。図２９は、ベクトルテーブルのデータ構造の一例を示す図である。図２９に示すように、このベクトルテーブル２５１は、タンパク質の符号と、ベクトルとを対応付ける。タンパク質の符号のベクトルは、ポアンカレエンベッディングと呼ばれる技術を用いて予め算出されているものとする。

【0146】

制御部２６０は、受付部２６１と、第１符号化部２６２と、第２符号化部２６３と、割当部２６４とを有する。制御部２６０は、たとえば、ＣＰＵやＭＰＵにより実現される。また、制御部２６０は、例えばＡＳＩＣやＦＰＧＡ等の集積回路により実行されてもよい。

【0147】

受付部２６１は、通信部１１０を介して、ネットワークに接続された外部装置（図示略）から、各種の情報を取得する処理部である。たとえば、受付部２６１は、外部装置から、塩基ファイル２４１を取得した場合、塩基ファイル２４１を、記憶部２４０に格納する。なお、受付部２６１は、塩基ファイル２４１がＺＩＰ等で圧縮されている場合、圧縮された塩基ファイル２４１を伸長する。

【0148】

第１符号化部２６２は、塩基ファイル２４１および変換テーブル２４２を基にして、コドン圧縮ファイル２４３を生成する処理部である。第１符号化部２６２は、塩基ファイル２４１から、３つずつ塩基を取り出し、取り出した３つの塩基と、変換テーブル２４２とを比較して、３つの塩基（コドン）に対応する符号を特定し、３つの塩基を符号に変換する。たとえば、第１符号化部２６２は、コドン「ＡＵＧ」を符号「６３ｈ」に変換する。第１符号化部２６２は、上記処理を繰り返し実行することで、コドン圧縮ファイル２４３を生成する。

【0149】

第１符号化部２６２は、コドン圧縮ファイル２４３を生成する際に、コドン転置インデックス２４４を生成する。たとえば、第１符号化部２６２は、変換したコドンの符号と、コドン圧縮ファイル２４３の符号のオフセットとに対応するコドン転置インデックス２４４のビットマップに「１」を設定する。

【0150】

第２符号化部２６３は、タンパク質圧縮ファイル２４８およびタンパク質転置インデックス２４９を生成する処理部である。

【0151】

第２符号化部２６３は、辞書インデックス２４７を基にして、コドン圧縮ファイル２４３に含まれる各タンパク質のコドン符号配列の切れ目を特定する。第２符号化部２６３は、各切れ目の間のコドン符号配列と、タンパク質辞書２４５とを基にして、各切れ目の間のコドン符号配列に対応するタンパク質の符号を特定し、コドン符号配列を、タンパク質の符号に変換する。

【0152】

ここで、第２符号化部２６３は、タンパク質の符号（切れ目）に続くコドン符号配列が、複数のタンパク質の符号に該当する場合には、タンパク質ＨＭＭ２４６を基にして、該当する複数のタンパク質の符号のうち、最も共起率の高いタンパク質の符号を特定する。

【0153】

図３０は、第２符号化部の処理を説明するための図である。図３０に示すように、コドン圧縮ファイル２４３のある切れ目のオフセットＰからオフセットＮ_Ａまでのコドン符号配列が、タンパク質Ａの符号（たとえば、８０１１ｈ）に対応し、かつ、オフセットＰからオフセットＮ_Ｂまでのコドンの符号配列が、タンパク質Ｂの符号（たとえば、８２２５ｈ）と一致する場合がある。また、直前のタンパク質の符号を「８０００ｈ」とする。

【0154】

第２符号化部２６３は、タンパク質Ａの符号「８０１１ｈ」と、カテゴリテーブル２５０とを比較して、タンパク質Ａのカテゴリが、カテゴリＩＤ「ＣＬ１」であることを特定する。第２符号化部２６３は、タンパク質Ｂの符号「８２２５ｈ」と、カテゴリテーブル２５０とを比較して、タンパク質Ａのカテゴリが、カテゴリＩＤ「ＣＬ４」であることを特定する。

【0155】

第２符号化部２６３は、直線のタンパク質の符号「８０００ｈ」およびカテゴリＩＤ「ＣＬ１」と、タンパク質ＨＭＭ２４６とを比較して、共起率「７８％」を特定する。第２符号化部２６３は、直線のタンパク質の符号「８０００ｈ」およびカテゴリＩＤ「ＣＬ４」と、タンパク質ＨＭＭ２４６とを比較して、共起率「２％」を特定する。

【0156】

第２符号化部２６３は、タンパク質の符号「８０００ｈ」とカテゴリＩＤ「ＣＬ１」との共起率が、タンパク質の符号「８０００ｈ」とカテゴリＩＤ「ＣＬ４」との共起率よりも大きいため、符号「８０００ｈ」に続くタンパク質の符号を「８０１１ｈ」と特定する。第２符号化部２６３は、特定した符号「８０１１ｈ」によって、コドン符号配列を変換する。たとえば、第２符号化部２６３は、図３０のオフセットＰ～Ｐ＋Ｎ_Ａのコドンの符号をタンパク質Ａの符号とし、オフセットＰ＋Ｎ_Ａ＋１を切れ目として、上記処理を繰り返し実行することで、タンパク質圧縮ファイル２４８を生成する。

【0157】

第２符号化部２６３は、タンパク質圧縮ファイル２４８を生成する際に、タンパク質転置インデックス２４９を生成する。タンパク質転置インデックス２４９は、タンパク質圧縮ファイル２４８の先頭からのオフセットと、タンパク質の符号とを対応付ける情報である。

【0158】

割当部２６４は、タンパク質圧縮ファイル２４８に含まれる各タンパク質の符号と、ベクトルテーブル２５１とを比較して、タンパク質の符号にベクトルを割り当てる処理部である。割当部２６４は、タンパク質圧縮ファイル２４８に含まれる各タンパク質の符号に割り当てたベクトルを集積することで、タンパク質圧縮ファイル２４８のベクトルを算出してもよい。

【0159】

次に、本実施例２に係る情報処理装置２００の処理手順の一例について説明する。図３１は、本実施例２に係る情報処理装置の処理手順を示すフローチャートである。図３１に示すように、情報処理装置２００の第１符号化部２６２は、塩基ファイル２４１をコドン単位で圧縮し、コドン圧縮ファイル２４３およびコドン転置インデックス２４４を生成する（ステップＳ３０１）。

【0160】

情報処理装置２００の第２符号化部２６３は、タンパク質辞書２４５と、コドン転置インデックス２４４とを基にして、コドン圧縮ファイル２４３に含まれるタンパク質の符号を特定する（ステップＳ３０２）。

【0161】

第２符号化部２６３は、コドン圧縮ファイル２４３に含まれるタンパク質の切れ目を、辞書インデックス２４７に登録する（ステップＳ３０３）。第２符号化部２６３は、タンパク質辞書２４５と辞書インデックス２４７とを基にして、コドン圧縮ファイル２４３に含まれる、後続のタンパク質の符号を特定する（ステップＳ３０４）。

【0162】

第２符号化部２６３は、後続のタンパク質の符号の候補が複数存在する場合に、タンパク質ＨＭＭ２４６、カテゴリテーブル２５０を基にして、タンパク質の符号を特定する（ステップＳ３０５）。

【0163】

第２符号化部２６３は、タンパク質圧縮ファイル２４８、タンパク質転置インデックス２４９、辞書インデックス２４７を更新する（ステップＳ３０６）。情報処理装置２００の割当部２６４は、ベクトルテーブル２５１を基にして、タンパク質の符号にベクトルを割り当てる（ステップＳ３０７）。

【0164】

情報処理装置２００は、終端に達していない場合には（ステップＳ３０８，Ｎｏ）、ステップＳ３０４に移行する。一方、情報処理装置２００は、終端に達した場合には（ステップＳ３０８，Ｙｅｓ）、処理を終了する。

【0165】

次に、本実施例２に係る情報処理装置２００の効果について説明する。情報処理装置２００は、タンパク質とタンパク質のカテゴリとの共起率を定義したタンパク質ＨＭＭ２４６を基にして、塩基ファイル２４１に含まれるタンパク質の種別を特定し、ベクトルを割り当てる。これによって、塩基ファイル２４１に含まれるタンパク質の種別が一意に特定できなくても、共起率を用いて、正確なタンパク質の種別を特定でき、適切なベクトルを割り当てることができる。

【0166】

また、情報処理装置２００は、タンパク質の類似性を基にして、タンパク質をカテゴリＩＤに分類しておき、タンパク質と、カテゴリＩＤとの共起率を定義したタンパク質ＨＭＭ２４６を用いて、処理を行う。このため、タンパク質ごとの共起率を定義する場合とＨＭＭと比較して、タンパク質ＨＭＭ２４６のデータ量を少なくすることができる。また、カテゴリに対応付けたＨＭＭにより、平均的な照合回数が減少するため、処理の高速化を図ることができる。

【0167】

なお、本実施例２に係る情報処理装置２００は、タンパク質に関する共起率を定義したタンパク質ＨＭＭ２４６を用いて、塩基ファイル２４１に含まれる各タンパク質にベクトルを割り当てたがこれに限定されるものではない。たとえば、情報処理装置２００は、タンパク質の一次構造に関する共起率を定義した一次構造ＨＭＭを用いて、塩基ファイル２４１に含まれる各タンパク質の一次構造にベクトルを割り当ててもよい。

【0168】

また、塩基ファイル２４１に限らず、化学構造式を含む化学構造式ファイルに関しても、本願発明を適用可能である。化学構造式ファイルには、複数の官能基が含まれている。情報処理装置２００は、かかる官能基にベクトルを割り振る場合に、複数の官能基の候補が存在する場合には、官能基ＨＭＭを用いて、出現頻度の高い官能基を特定し、特定した官能基に応じたベクトルを割り当てる。また、類似する複数の官能基については、同一のカテゴリＩＤを割り当て、官能基ＨＭＭのデータ削減を図ってもよい。

【0169】

次に、上記実施例１に示した情報処理装置１００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図３２は、実施例１の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

【0170】

図３２に示すように、コンピュータ３００は、各種演算処理を実行するＣＰＵ３０１と、ユーザからのデータの入力を受け付ける入力装置３０２と、ディスプレイ３０３とを有する。また、コンピュータ３００は、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置３０４と、インタフェース装置３０５とを有する。また、コンピュータ３００は、各種情報を一時記憶するＲＡＭ３０６と、ハードディスク装置３０７とを有する。そして、各装置３０１～３０７は、バス３０８に接続される。

【0171】

ハードディスク装置３０７は、受付プログラム３０７ａ、算出プログラム３０７ｂ、生成プログラム３０７ｃ、割当プログラム３０７ｄを有する。また、ＣＰＵ３０１は、各プログラム３０７ａ～３０７ｅを読み出してＲＡＭ３０６に展開する。

【0172】

受付プログラム３０７ａは、受付プロセス３０６ａとして機能する。算出プログラム３０７ｂは、算出プロセス３０６ｂとして機能する。生成プログラム３０７ｃは、生成プロセス３０６ｃとして機能する。割当プログラム３０７ｄは、割当プロセス３０６ｄとして機能する。

【0173】

受付プロセス３０６ａの処理は、受付部１５１の処理に対応する。算出プロセス３０６ｂの処理は、算出部１５２の処理に対応する。生成プロセス３０６ｃの処理は、生成部１５３の処理に対応する。割当プロセス３０６ｄの処理は、割当部１５４の処理に対応する。

【0174】

なお、各プログラム３０７ａ～３０７ｄについては、必ずしも最初からハードディスク装置３０７に記憶させておかなくても良い。例えば、コンピュータ３００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤ、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ３００が各プログラム３０７ａ～３０７ｄを読み出して実行するようにしてもよい。

【0175】

続いて、上記実施例２に示した情報処理装置２００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図３３は、実施例２の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

【0176】

図３３に示すように、コンピュータ４００は、各種演算処理を実行するＣＰＵ４０１と、ユーザからのデータの入力を受け付ける入力装置４０２と、ディスプレイ４０３とを有する。また、コンピュータ４００は、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置４０４と、インタフェース装置４０５とを有する。また、コンピュータ４００は、各種情報を一時記憶するＲＡＭ４０６と、ハードディスク装置４０７とを有する。そして、各装置４０１～４０７は、バス４０８に接続される。

【0177】

ハードディスク装置４０７は、受付プログラム４０７ａ、第１符号化プログラム４０７ｂ、第２符号化プログラム４０７ｃ、割当プログラム４０７ｄを有する。また、ＣＰＵ４０１は、各プログラム４０７ａ～４０７ｄを読み出してＲＡＭ４０６に展開する。

【0178】

受付プログラム４０７ａは、受付プロセス４０６ａとして機能する。第１符号化プログラム４０７ｂは、第１符号化プロセス４０６ｂとして機能する。第２符号化プログラム４０７ｃは、第２符号化プロセス４０６ｃとして機能する。割当プログラム４０７ｄは、割当プロセス４０６ｄとして機能する。

【0179】

受付プロセス４０６ａの処理は、受付部２６１の処理に対応する。第１符号化プロセス４０６ｂの処理は、第１符号化部２６２の処理に対応する。第２符号化プロセス４０６ｃの処理は、第２符号化部２６３の処理に対応する。割当プロセス４０６ｄの処理は、割当部２６４の処理に対応する。

【0180】

なお、各プログラム４０７ａ～４０７ｄについては、必ずしも最初からハードディスク装置３０７に記憶させておかなくても良い。例えば、コンピュータ４００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤ、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ４００が各プログラム４０７ａ～４０７ｄを読み出して実行するようにしてもよい。

【符号の説明】

【0181】

１００，２００情報処理装置
１１０，２１０通信部
１２０，２２０入力部
１３０，２３０表示部
１４０，２４０記憶部
１４１ａ第１辞書データ
１４１ｂ第２辞書データ
１４２ａ第１教師データ
１４２ｂ第２教師データ
１４３ａ第１共起率テーブル
１４３ｂ第２共起率テーブル
１４４ａ第１カテゴリテーブル
１４４ｂ第２カテゴリテーブル
１４５ａ第１ベクトルテーブル
１４５ｂ第２ベクトルテーブル
１４６ａ第１テキストデータ
１４６ｂ第２テキストデータ
１５０，２６０制御部
１５１，２６１受付部
１５２算出部
１５３生成部
１５４，２６４割当部
２４１塩基ファイル
２４２変換テーブル
２４３コドン圧縮ファイル
２４４コドン転置インデックス
２４５タンパク質辞書
２４６タンパク質ＨＭＭ
２４７辞書インデックス
２４８タンパク質圧縮ファイル
２４９タンパク質転置インデックス
２５０カテゴリテーブル
２５１ベクトルテーブル
２６２第１符号化部
２６３第２符号化部

【図1】