特許7342972 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7342972情報処理プログラム、情報処理方法および情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-09-04

(45)【発行日】2023-09-12

(54)【発明の名称】情報処理プログラム、情報処理方法および情報処理装置

(51)【国際特許分類】

G06F 16/31 20190101AFI20230905BHJP

G06F 16/383 20190101ALI20230905BHJP

G06F 16/901 20190101ALI20230905BHJP

G06F 16/908 20190101ALI20230905BHJP

【ＦＩ】

G06F16/31

G06F16/383

G06F16/901

G06F16/908

【請求項の数】 6

(21)【出願番号】P 2021565275

(86)(22)【出願日】2019-12-19

(86)【国際出願番号】 JP2019049967

(87)【国際公開番号】W WO2021124535

(87)【国際公開日】2021-06-24

【審査請求日】2022-02-02

(73)【特許権者】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】片岡正弘

(72)【発明者】

【氏名】大山承剛

(72)【発明者】

【氏名】尾上聡

【審査官】三橋竜太郎

(56)【参考文献】

【文献】特開２０１９－２０４３６２（ＪＰ，Ａ）

【文献】特開２００５－１８２６９６（ＪＰ，Ａ）

【文献】特表２０１９－５２５２７２（ＪＰ，Ａ）

【文献】特開２０１８－０４５５３７（ＪＰ，Ａ）

【文献】特開２０１９－１０１９９３（ＪＰ，Ａ）

【文献】特開２０１９－１５９８２６（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／００－１６／９５８

(57)【特許請求の範囲】

【請求項1】

異なる複数種類の品詞の複数の語彙であって、同義または所定以上類似する前記複数の語彙を同一の概念番号に対応付けた類似語彙情報に基づいて、前記同一の概念番号に対応付けられた前記複数の語彙を、ベクトル空間の近似した位置に埋め込み、
第１の文と第２の文それぞれについて、文に含まれる複数の語彙それぞれの前記ベクトル空間におけるベクトルに基づいて、前記文のベクトルを算出し、
前記第１の文のベクトルと前記第２の文のベクトルとに基づいて、第１の文と第２の文との類似性を判定する
処理をコンピュータに実行させることを特徴とする情報処理プログラム。

【請求項2】

前記ベクトル空間におけるベクトルの次元を圧縮する処理を更に実行させ、前記文のベクトルを算出する処理は、次元を圧縮したベクトルを基にして、前記文のベクトルを算出することを特徴とする請求項１に記載の情報処理プログラム。

【請求項3】

前記ベクトル空間は、ポアンカレ空間であり、前記ポアンカレ空間に埋め込まれた語彙の位置を基にして、前記語彙のベクトルを割り当てる処理を更に実行することを特徴とする請求項１に記載の情報処理プログラム。

【請求項4】

前記第２の文のベクトルと、文章中における前記第２の文の位置を示すオフセットとを対応付けたインデックス情報を生成し、前記類似性の判定結果と、前記インデックス情報とを基にして、類似性のある第２の文を抽出する処理を更に実行することを特徴とする請求項１に記載の情報処理プログラム。

【請求項5】

異なる複数種類の品詞の複数の語彙であって、同義または所定以上類似する前記複数の語彙を同一の概念番号に対応付けた類似語彙情報に基づいて、前記同一の概念番号に対応付けられた前記複数の語彙を、ベクトル空間の近似した位置に埋め込み、
第１の文と第２の文それぞれについて、文に含まれる複数の語彙それぞれの前記ベクトル空間におけるベクトルに基づいて、前記文のベクトルを算出し、
前記第１の文のベクトルと前記第２の文のベクトルとに基づいて、第１の文と第２の文との類似性を判定する
処理をコンピュータが実行することを特徴とする情報処理方法。

【請求項6】

異なる複数種類の品詞の複数の語彙であって、同義または所定以上類似する前記複数の語彙を同一の概念番号に対応付けた類似語彙情報に基づいて、前記同一の概念番号に対応付けられた前記複数の語彙を、ベクトル空間の近似した位置に埋め込みを行う単語ベクトル算出部と、
第１の文と第２の文それぞれについて、文に含まれる複数の語彙それぞれの前記ベクトル空間におけるベクトルに基づいて、前記文のベクトルを算出する文ベクトル算出部と、
前記第１の文のベクトルと前記第２の文のベクトルとに基づいて、第１の文と第２の文との類似性を判定する類似性判定部と
を有することを特徴とする情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理プログラム等に関する。

【背景技術】

【0002】

文章や文（以下、単に文）を解析し、文に含まれる各単語をベクトルで表現する従来技術として、Word2vec（Skip-Gram ModelまたはCBOW）等がある。表記の異なる単語であっても、意味が類似している単語同士は、ベクトルの値も類似するという特徴がある。以下の説明では、単語のベクトルを、「単語ベクトル」と表記する。たとえば、word2vecでは、単語ベクトルを２００次元で表現する。

【0003】

文に含まれる単語の単語ベクトルを集積することで、文のベクトルを算出する。以下の説明では、文のベクトルを「文ベクトル」と表記する。表記の異なる文であっても、意味が類似している文同士は、文ベクトルの値も類似するという特徴がある。たとえば、「私はリンゴが好きです。」の文の意味と、「リンゴは私の好物です。」の文の意味は同じであり、「私はリンゴが好きです。」の文ベクトルと、「リンゴは私の好物です。」の文ベクトルとは類似しなければならない。

【0004】

なお、単語にベクトルを割当てる技術として、Poincare Embeddingsと呼ばれる技術も存在する。この技術では、単語とカテゴリとの関係を定義しておき、定義された関係を基にして、単語をポアンカレ空間に埋め込む。そして、ポアンカレ空間において、埋め込まれた単語の位置に応じたベクトルが、単語に割当てられる。

【0005】

図３２は、ポアンカレ空間への埋め込みを説明するための図である。たとえば、カテゴリ「肉食動物」に対して、単語「トラ」、「ジャガー」等が定義されている場合、ポアンカレ空間Ｐに対して、単語「肉食動物」、単語「トラ」、単語「ジャガー」が埋め込まれる。そして、ポアンカレ空間Ｐの位置に応じたベクトルが、単語「肉食動物」、単語「トラ」、単語「ジャガー」に割当てられる。

【先行技術文献】

【非特許文献】

【0006】

【文献】Valentin Khrulkov1 et al.「Hyperbolic Image Embeddings」Cornell University,2019 April 3

【発明の概要】

【発明が解決しようとする課題】

【0007】

Word2vecでは、文に含まれる単語の単語ベクトルを算出する場合、対象となる単語の前後に出現する単語を基にして、対象となる単語の単語ベクトルを算出している。そのため、類似の意味の単語であっても、文の内容に応じて、単語ベクトルの値が変化し得る。また、類似の意味の単語であっても、単語の品詞に応じて、単語の前後に出現し得る単語が異なるため、同一の意味の単語同士の単語ベクトルの値が必ずしも類似しない場合がある。

【0008】

たとえば、品詞「形容詞」の「好き」と、品詞「名詞」の「好物」は同じ意味であるが、品詞が異なる。そのため、「好き」と「好物」を含む各文を比較すると、「好き」の前後に出現する単語の傾向と、「好物」の前後に出現する単語の傾向とが異なり、「好き」の単語ベクトルと、「好物」の単語ベクトルとが異なる。

【0009】

従って、Word2vecを用いて算出した単語ベクトルを用いて、文ベクトルを算出すると、同じ意味の文の文ベクトルの値が乖離する場合があり、文ベクトルを精度よく算出できていない。このため、文ベクトルを利用して各文の類似性を判定する場合に、判定精度が低下するという問題がある。

【0010】

また、ポアンカレ空間に、単に、同じ品詞の複数の単語を埋め込む従来の手法では、word2vecの場合と同様に、文ベクトルを精度よく算出することができない。

【0011】

さらに、Word2vecでは、単語ベクトルが２００次元のため、文ベクトルを算出する場合に、演算量とデータ量が多くなるという問題がある。主成分分析など、ベクトルの次元圧縮・復元する技術が存在する。しかし、単語毎に異なる次元で圧縮・復元が行われるため、文ベクトルの算出には適していない。Poincare Embeddingsも同様である。

【0012】

１つの側面では、本発明は、文ベクトルを精度よく、効率的に算出し、類似性の判定精度を向上させることができる情報処理プログラム、情報処理方法および情報処理装置を提供することを目的とする。

【課題を解決するための手段】

【0013】

第１の案では、コンピュータに次の処理を実行させる。コンピュータは、異なる複数種類の品詞について、同義または所定以上類似する語彙を対応付けた類似語彙情報に基づいて、複数の語彙のベクトル空間への埋め込みを行う。コンピュータは、第１の文と第２の文それぞれについて、文に含まれる複数の語彙それぞれのベクトル空間におけるベクトルに基づいて、文のベクトルを算出する。コンピュータは、第１の文のベクトルと第２の文のベクトルとに基づいて、第１の文と第２の文との類似性を判定する。

【発明の効果】

【0014】

文ベクトルを精度よく、効率的に算出し、類似性の判定精度を向上させることができる。

【図面の簡単な説明】

【0015】

【図1】図１は、参考技術を説明するための図である。

【図2】図２は、本実施例１に係る情報処理装置の処理を説明するための図である。

【図3】図３は、本実施例１に係る類似語彙情報を説明するための図である。

【図4】図４は、ポアンカレ空間への埋め込み結果の一例を示す図である。

【図5】図５は、本実施例１に係る情報処理装置の構成を示す機能ブロック図である。

【図6】図６は、テキストデータのデータ構造の一例を示す図である。

【図7】図７は、本実施例１に係る類似語彙情報のデータ構造の一例を示す図である。

【図8】図８は、本実施例１に係る単語ベクトルテーブルのデータ構造の一例を示す図である。

【図9】図９は、本実施例１に係る圧縮単語ベクトルテーブルのデータ構造の一例を示す図である。

【図10】図１０は、本実施例１に係る圧縮文ベクトルデータのデータ構造の一例を示す図である。

【図11】図１１は、本実施例１に係る転置インデックスのデータ構造の一例を示す図である。

【図12】図１２は、本実施例１に係る次元圧縮部の処理を説明するための図（１）である。

【図13】図１３は、本実施例１に係る次元圧縮部の処理を説明するための図（２）である。

【図14】図１４は、本実施例１に係る情報処理装置の処理手順を示すフロチャート（１）である。

【図15】図１５は、本実施例１に係る情報処理装置の処理手順を示すフロチャート（２）である。

【図16】図１６は、類似語彙情報のその他のデータ構造を説明するための図である。

【図17】図１７は、本実施例２に係る情報処理装置の処理を説明するための図である。

【図18】図１８は、本実施例２に係る類似タンパク質情報のデータ構造を示す図である。

【図19】図１９は、本実施例２に係る情報処理装置の構成を示す機能ブロック図である。

【図20】図２０は、ゲノムを説明するための図である。

【図21】図２１は、アミノ酸と塩基、およびコドンとの関係を示す図である。

【図22】図２２は、本実施例２に係るタンパク質辞書のデータ構造の一例を示す図である。

【図23】図２３は、本実施例２に係る一次構造データのデータ構造の一例を示す図である。

【図24】図２４は、本実施例２に係るタンパク質ベクトルテーブルのデータ構造の一例を示す図である。

【図25】図２５は、本実施例２に係る圧縮タンパク質ベクトルテーブルのデータ構造の一例を示す図である。

【図26】図２６は、本実施例２に係る圧縮一次構造ベクトルデータのデータ構造の一例を示す図である。

【図27】図２７は、本実施例２に係る転置インデックスのデータ構造の一例を示す図である。

【図28】図２８は、本実施例２に係る情報処理装置の処理手順を示すフロチャート（１）である。

【図29】図２９は、本実施例２に係る情報処理装置の処理手順を示すフロチャート（２）である。

【図30】図３０は、実施例１の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

【図31】図３１は、実施例２の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

【図32】図３２は、ポアンカレ空間への埋め込みを説明するための図である。

【発明を実施するための形態】

【0016】

以下に、本願の開示する情報処理プログラム、情報処理方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

【実施例1】

【0017】

本実施例１に係る情報処理装置の説明を行う前に、文ベクトルを算出する参考技術について説明する。図１は、参考技術を説明するための図である。図１に示すように、参考技術では、Word2vecによって、テキストデータ１０に含まれる各単語の単語ベクトルを算出することで、単語ベクトルテーブル１１を生成する。単語ベクトルテーブル１１では、単語と、単語ベクトルとが対応付けられる。たとえば、単語ベクトルテーブル１１の単語ベクトルの次元は、２００次元となる。

【0018】

参考技術では、単語ベクトルテーブル１１を用いて、テキストデータ１０に含まれる各文の文ベクトルを算出する。参考技術では、文を複数の単語に分割し、各単語の単語ベクトルを集積することで、文の文ベクトルを算出する。参考技術では、単語ベクトルテーブル１１に登録された２００次元の単語ベクトルを用いて、文ベクトルデータ１２を算出する。

【0019】

また、参考技術では、主成分分析を利用することで、文ベクトルの次元数を圧縮する。次元数を圧縮した文ベクトルを、「圧縮文ベクトル」と表記する。参考技術は、他の複数の文について、上記処理を繰り返し実行することで、他の複数の文に対する圧縮文ベクトルを算出し、圧縮文ベクトルデータ１２Ａを生成する。

【0020】

参考技術では、Word2vecによって、テキストデータ１０に含まれる各単語の単語ベクトルを２００次元で算出している。そのため、文ベクトルを算出する場合に、２００次元の単語ベクトルをそのまま集積しているため、演算量が大きくなってしまう。さらに、各文の類似度を比較する場合、主成分分析では、圧縮文ベクトルが共通な次元に圧縮されていないため、圧縮文ベクトルのままでは評価することができない。そのため、文毎に２００次元の文ベクトルに復元し類似度を比較する必要があり、演算量が増加する。

【0021】

一方、参考技術では、それぞれの単語ベクトルを主成分分析し、圧縮単語ベクトルテーブル１１Ａを生成する。そして、圧縮単語ベクトルテーブル１１Ａを用いて、テキストデータ１０に含まれる各文の文ベクトルを算出し、圧縮文ベクトルデータ１２Ｂを生成する。しかし、主成分分析では、各単語ベクトルが共通では無く、個別に次元圧縮されるため、文ベクトルの算出には適さない。

【0022】

同様に、Poincare Embeddingsにおいても、２００次元による文ベクトルの算出や、主成分分析による圧縮単語ベクトルテーブルの問題が発生する。

【0023】

続いて、本実施例１に係る情報処理装置の処理の一例について説明する。図２は、本実施例１に係る情報処理装置の処理を説明するための図である。図２に示すように、情報処理装置は、類似語彙情報１４２を基にして、テキストデータ１４１に含まれる単語を、ポアンカレ空間に埋め込み、単語ベクトルを算出する。

【0024】

図３は、本実施例１に係る類似語彙情報を説明するための図である。図３では、本実施例１で用いる類似語彙情報１４２と、従来技術のPoincare Embeddingsで用いる定義情報５とを示す。

【0025】

類似語彙情報１４２は、概念番号と、単語と、品詞とを対応付ける。定義情報５との比較を行うために、単語に対応する品詞を便宜的に示す。類似語彙情報１４２は、同義または所定以上類似する複数の単語（語彙）を、同一の概念番号に対応付ける。たとえば、概念番号「Ｉ１０１」には、単語「好き」、単語「好物」、単語「愛玩」等が対応付けられる。単語「好き」の品詞は「形容詞」、単語「好物」の品詞は「名詞」、単語「愛玩」の品詞は「名詞」であり、品詞が異なる単語であっても、意味が類似していれば、同一の概念番号に対応付けられる。

【0026】

定義情報５は、カテゴリと、単語とを対応付ける。ここでは、類似語彙情報１４２との比較を行うために、単語に対応する品詞を便宜的に示す。定義情報５では、品詞が名詞となる単語をカテゴリ毎に分類している。図３に示す例では、カテゴリ「肉食動物」に対して、単語「トラ」、単語「ジャガー」、単語「ライオン」が対応付けられている。定義情報５の単語の品詞は、名詞に限定されている。

【0027】

すなわち、類似語彙情報１４２では、定義情報５と比較して、単語の品詞の種類によらず、同義または所定以上類似する複数の単語を、同一の概念番号に割当てている。本実施例１に係る情報処理装置は、ポアンカレ空間に単語を埋め込む場合に、類似語彙情報１４２で定義された同一の概念番号に対応する各単語を、ポアンカレ空間上の近似した位置に集約する。

【0028】

図４は、ポアンカレ空間への埋め込み結果の一例を示す図である。図４に示すように、単語「好き」、単語「好物」、単語「愛玩」は、同一の概念番号が割当てられているため、ポアンカレ空間Ｐにおいて、近似した位置ｐ１に埋め込まれる。情報処理装置は、ポアンカレ空間Ｐの位置ｐ１に応じた単語ベクトルを、単語「好き」、単語「好物」、単語「愛玩」にそれぞれ割り当てる。これによって、同一の概念番号に対応する単語には、近似した単語ベクトルが割り当てられる。ポアンカレ空間の位置に対応するベクトルの次元は適宜設定可能であるが、本実施例１では、２００次元とする。

【0029】

図２の説明に戻る。情報処理装置は、テキストデータ１４１に含まれる他の単語についても、類似語彙情報１４２を基にして、ポアンカレ空間への埋め込みを行うことで、単語ベクトルを算出し、単語ベクトルテーブル１４３を生成する。単語ベクトルテーブル１４３では、単語と、単語ベクトルとが対応付けられる。たとえば、単語ベクトルテーブル１４３の単語ベクトルの次元は、２００次元となる。

【0030】

情報処理装置は、文ベクトルを算出する前に、単語ベクトルテーブル１４３に格納された各単語ベクトルの次元を圧縮する。たとえば、情報処理装置は、２００次元の単語ベクトルを、１９次元（１９次元は一例）の単語ベクトルに圧縮することで、次元を圧縮した単語ベクトルを生成する。次元を圧縮した単語ベクトルを、「圧縮単語ベクトル」と表記する。情報処理装置は、単語ベクトルテーブル１４３の各単語ベクトルを圧縮することで、圧縮単語ベクトルテーブル１４４を生成する。

【0031】

情報処理装置は、圧縮単語ベクトルテーブル１４４を用いて、テキストデータ１４１に含まれる各文の圧縮文ベクトルを算出する。情報処理装置は、文を複数の単語に分割し、各単語の圧縮単語ベクトルを圧縮単語ベクトルテーブル１４４から取得する。情報処理装置は、各単語ベクトルを集積することで、文の圧縮文ベクトルを算出する。情報処理装置は、他の複数の文について、上記処理を繰り返し実行することで、他の複数の文に対する圧縮文ベクトルを算出し、１９次元の圧縮文ベクトルデータ１４５を生成する。

【0032】

本実施例１に係る情報処理装置では、類似語彙情報１４２を基にして、ポアンカレ空間への埋め込みを行うことで、単語ベクトルを算出し、単語ベクトルテーブル１４３を生成する。参考技術で説明したWord2vecにとは異なり、同義または所定以上類似する複数の単語に、近似した単語ベクトルを割り当てた単語ベクトルテーブル１４３を生成することができる。このため、単語ベクトルテーブル１４３を用いて文ベクトルを算出すると、同じ意味の文の文ベクトル同士は、類似する文ベクトルとなり、文ベクトルを精度よく算出することができる。また、複数の文ベクトルを比較して、類似性を判定する場合、文ベクトルを精度よく算出できているので、類似性の判定精度が向上する。

【0033】

また、情報処理装置では、単語ベクトルテーブル１４３を共通な１９次元に圧縮した圧縮単語ベクトルテーブル１４４を生成しておき、圧縮単語ベクトルを用いて、圧縮文ベクトルを算出するため、参考技術の２００次元での文ベクトル演算量と比較して、演算量を大幅に削減することができる。さらに、各文の類似度も共通な１９次元の圧縮文ベクトルのまま評価することができ、参考技術の２００次元の文ベクトルに復元し、２００次元での類似度の評価に比べ、演算量を大幅に削減することができる。

【0034】

次に、本実施例１に係る情報処理装置の構成について説明する。図５は、本実施例１に係る情報処理装置の構成を示す機能ブロック図である。図５に示すように、情報処理装置１００は、通信部１１０と、入力部１２０と、表示部１３０と、記憶部１４０と、制御部１５０とを有する。

【0035】

通信部１１０は、ネットワークを介して外部装置（図示略）との間で情報通信を実行する処理部である。通信部１１０は、ＮＩＣ（Network Interface Card）等の通信装置に対応する。たとえば、後述する制御部１５０は、通信部１１０を介して、外部装置と情報をやり取りする。

【0036】

入力部１２０は、各種の情報を、情報処理装置１００に入力する入力装置である。入力部１２０は、キーボードやマウス、タッチパネル等に対応する。ユーザは、入力部１２０を操作して、後述するクエリデータ１４７を入力してもよい。

【0037】

表示部１３０は、制御部１５０から出力される情報を表示する表示装置である。表示部１３０は、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイ、タッチパネル等に対応する。表示部１３０は、制御部１５０から出力される情報を表示する。

【0038】

記憶部１４０は、テキストデータ１４１、類似語彙情報１４２、単語ベクトルテーブル１４３、圧縮単語ベクトルテーブル１４４、圧縮文ベクトルデータ１４５と、転置インデックス１４６と、クエリデータ１４７とを有する。記憶部１４０は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子や、ＨＤＤ（Hard Disk Drive）などの記憶装置に対応する。

【0039】

テキストデータ１４１は、複数の文を含む情報（文章）である。文は、句読点によって区切られる。図６は、テキストデータのデータ構造の一例を示す図である。図６に示すように、テキストデータ１４１には、複数の文が含まれる。テキストデータ１４１の内容は、図６に限定されるものではない。

【0040】

類似語彙情報１４２は、同義または所定以上類似する複数の単語（語彙）を、同一の概念番号に対応付ける情報である。図７は、本実施例１に係る類似語彙情報のデータ構造の一例を示す図である。図７に示すように、類似語彙情報１４２は、概念番号と、単語と、品詞とを対応付ける。たとえば、概念番号「Ｉ１０１」には、単語「好き」、単語「好物」、単語「愛玩」等が対応付けられる。単語「好き」の品詞は「形容詞」、単語「好物」の品詞は「名詞」、単語「愛玩」の品詞は「名詞」である。類似語彙情報１４２には、必ずしも、品詞の情報が含まれていなくてもよい。

【0041】

単語ベクトルテーブル１４３は、各単語の単語ベクトルの情報を保持するテーブルである。図８は、本実施例１に係る単語ベクトルテーブルのデータ構造の一例を示す図である。図８に示すように、この単語ベクトルテーブル１４３は、単語と、単語ベクトルとを対応付ける。各単語ベクトルは、ポアンカレ空間に対する埋め込みにより、算出される単語ベクトルであり、たとえば、２００次元のベクトルとする。

【0042】

圧縮単語ベクトルテーブル１４４は、次元圧縮した各単語ベクトル（圧縮単語ベクトル）の情報を保持するテーブルである。図９は、本実施例１に係る圧縮単語ベクトルテーブルのデータ構造の一例を示す図である。図９に示すように、この圧縮単語ベクトルテーブル１４４は、単語と、圧縮単語ベクトルとを対応付ける。たとえば、圧縮単語ベクトルの次元を１９次元とするが、これに限定されるものではない。

【0043】

圧縮文ベクトルデータ１４５は、テキストデータ１４１に含まれる各文の圧縮文ベクトルの情報を保持するテーブルである。図１０は、本実施例１に係る圧縮文ベクトルデータのデータ構造の一例を示す図である。図１０に示すように、この圧縮文ベクトルデータ１４５は、文ＩＤと、圧縮文ベクトルとを対応付ける。文ＩＤは、テキストデータ１４１に含まれる文を一意に識別する情報である。圧縮文ベクトルは、文ＩＤにより識別される文の圧縮文ベクトルである。たとえば、文ＩＤ「ＳＥ１」の圧縮文ベクトルは、「S_Vec₁1 S_Vec₂１ S_Vec_３１・・・S_Vec₁₉１ )となる。「S_Vec₁1 S_Vec₂１ S_Vec_３１・・・S_Vec₁₉１」をまとめて、S_Vec1と表記する。他の圧縮文ベクトルも同様である。

【0044】

転置インデックス１４６は、文の圧縮文ベクトルと、かかる圧縮文ベクトルに対応する文のテキストデータ１４１上の位置（オフセット）とを対応付けるものである。たとえば、テキストデータ１４１の先頭の単語のオフセットが「０」となり、先頭からＭ番目の単語のオフセットが「Ｍ－１」となる。図１１は、本実施例１に係る転置インデックスのデータ構造の一例を示す図である。図１１に示す転置インデックス１４６において、横軸はテキストデータ１４１のオフセットを示す。縦軸は、文の圧縮文ベクトルに対応する。たとえば、圧縮文ベクトル「S_Vec1」の文の先頭の単語が、テキストデータ１４１のオフセット「３」、「３０」に位置することを示す。

【0045】

クエリデータ１４７は、類似検索で指定される文のデータである。本実施例１では一例として、クエリデータ１４７に含まれる文を１文とする。

【0046】

図５の説明に戻る。制御部１５０は、取得部１５１、単語ベクトル算出部１５２、次元圧縮部１５３、文ベクトル算出部１５４、類似性判定部１５５を有する。制御部１５０は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などによって実現できる。また、制御部１５０は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジックによっても実現できる。

【0047】

取得部１５１は、外部装置または入力部１２０から、各種の情報を取得する処理部である。たとえは、取得部１５１は、テキストデータ１４１、類似語彙情報１４２、クエリデータ１４７等を受け付けた場合、受け付けたテキストデータ１４１、類似語彙情報１４２、クエリデータ１４７等を、記憶部１４０に格納する。

【0048】

単語ベクトル算出部１５２は、テキストデータ１４１に含まれる単語（語彙）を、ポアンカレ空間に埋め込み、ポアンカレ空間に埋め込んだ単語の位置に応じた単語ベクトルを算出する処理部である。単語ベクトル算出部１５２は、ポアンカレ空間に単語を埋め込む場合、類似語彙情報１４２を参照し、同一の概念番号に対応する各単語を、近似した位置に埋め込む。

【0049】

たとえば、単語ベクトル算出部１５２は、単語「好き」、単語「好物」、単語「愛玩」をポアンカレ空間上の近似した位置に埋め込み、位置に応じた単語ベクトルを算出する。単語ベクトル算出部１５２は、単語と、単語ベクトルとを対応付けて、単語ベクトルテーブル１４３に登録する。単語ベクトル算出部１５２は、他の単語についても上記処理を繰り返し実行することで、単語に対応する単語ベクトルを算出し、単語ベクトルテーブル１４３に登録する。

【0050】

次元圧縮部１５３は、単語ベクトルテーブル１４３に格納された単語ベクトルの次元を圧縮することで、圧縮単語ベクトルテーブル１４４を生成する処理部である。次元圧縮部１５３は、２００次元に成分分解された、２００本の各ベクトルａ_ｉｅ_ｉ（ｉ＝１～２００）を円状に等分に分散配置する。「ｅ_ｉ」は、基底ベクトルである。以下の説明では、成分分解されたベクトルを基底ベクトルと表記する。次元圧縮部１５３は、素数の基底ベクトルを一つ選択し、その基底ベクトルに他の次元の基底ベクトルを直交変換した値を積算する。次元圧縮部１５３は、分散する１９次元の１または、素数の基底ベクトルに対して、上記処理を実行することで、２００次元のベクトルを、１９次元のベクトルに次元圧縮する。たとえば、次元圧縮部１５３は、「１」、「１１」、「２３」、「４１」、「４３」、「５３」、「６１」、「７３」、「８３」、「９７」、「１０７」、「１１３」、「１２７」、「１３７」、「１４９」、「１５７」、「１６７」、「１７９」、「１９１」の１または、素数の基底ベクトルの値をそれぞれ算出することで、１９次元のベクトルに次元圧縮する。

【0051】

なお、本実施例では一例として、１９次元のベクトルとして説明するが、他の次元のベクトルであってもよい。素数「３以上」で分割され、分散する１または、素数の基底ベクトルを選択することで、非可逆ではあるが、高精度な次元復元を実現できる。なお、分割する素数を大きくすると、精度が向上するが、圧縮率が低下する。

【0052】

図１２、図１３は、本実施例１に係る次元圧縮部の処理を説明するための図である。図１２に示すように、次元圧縮部１５３は、２００次元に成分分解された、２００本の基底ベクトルａ_ｉｅ_ｉ（ｉ＝１～２００）を円状（半円状）に等分に分散配置する。なお、成分分解前のベクトルＡと、成分分解された各基底ベクトルａ_ｉｅ_ｉとの関係は、式（１）によって定義される。図１２では一例として、２００次元を３次元に圧縮する場合について説明するが、２００次元を１９次元に圧縮する場合についても同様である。

【0053】

【数1】

【0054】

図１３に示すように、まず、次元圧縮部１５３は、基底ベクトルａ_１ｅ_１に対して、残りの基底ベクトルａ_２ｅ_２～ａ_２００ｅ_２００をそれぞれ直交変換し、直交変換した各基底ベクトルａ_２ｅ_２～ａ_２００ｅ_２００の値を積算することで、基底ベクトルａ_１ｅ_１の値を算出する。

【0055】

次元圧縮部１５３は、基底ベクトルａ_６７ｅ_６７に対して、残りの基底ベクトルａ_１ｅ_１（実線＋矢印）、ａ_２ｅ_２、ａ_３ｅ_３～ａ_６６ｅ_６６、ａ_６８ｅ_６８～ａ_２００ｅ_２００をそれぞれ直交変換し、直交変換した各基底ベクトルａ_１ｅ_１～ａ_６６ｅ_６６、ａ_６８ｅ_６８～ａ_２００ｅ_２００の値を積算することで、基底ベクトルａ_６７ｅ_６７の値を算出する。

【0056】

次元圧縮部１５３は、基底ベクトルａ_１３１ｅ_１３１に対して、残りの基底ベクトルａ_１ｅ_１～ａ_１３０ｅ_１３０、ａ_１３２ｅ_１３２～ａ_２００ｅ_２００をそれぞれ直交変換し、直交変換した各基底ベクトルａ_１ｅ_１～ａ_１３０ｅ_１３０、ａ_１３２ｅ_１３２～ａ_２００ｅ_２００の値を積算することで、基底ベクトルａ_１３１ｅ_１３１の値を算出する。

【0057】

次元圧縮部１５３は、２００次元のベクトルを次元圧縮した圧縮ベクトルの各成分を「基底ベクトルａ_１ｅ_１の値、基底ベクトルａ_６７ｅ_６７の値、基底ベクトルａ_１３１ｅ_１３１の値」とする。次元圧縮部１５３は、他の次元も同様にして、算出する。なお、次元圧縮部１５３は、ＫＬ展開等を用いて、次元圧縮を行ってもよい。次元圧縮部１５３は、上記の次元圧縮を、単語ベクトルテーブル１４３の各単語についてそれぞれ実行することで、圧縮単語ベクトルテーブル１４４を生成する。

【0058】

図５の説明に戻る。文ベクトル算出部１５４は、テキストデータ１４１に含まれる各文の文ベクトルを算出する処理部である。文ベクトル算出部１５４は、テキストデータ１４１を先頭から走査し、文を抽出する。テキストデータ１４１に含まれる各文は、句読点によって区切られているものとする。

【0059】

文ベクトル算出部１５４は、文に対して、形態素解析を実行することで、文を複数の単語に分割する。文ベクトル算出部１５４は、文に含まれる単語と、圧縮単語ベクトルテーブル１４４とを比較して、文に含まれる各単語の圧縮単語ベクトルを取得する。文ベクトル算出部１５４は、文に含まれる各単語の圧縮単語ベクトルを集積（合算）することで、圧縮文ベクトルを算出する。文ベクトル算出部１５４は、文に対して文ＩＤを割り当て、文ＩＤと、圧縮文ベクトルとを対応付けて、圧縮文ベクトルデータ１４５に登録する。

【0060】

また、文ベクトル算出部１５４は、転置インデックス１４６を参照し、圧縮文ベクトルに対応する文のオフセットと、圧縮文ベクトルとの交差する部分にフラグ「１」を設定する。たとえば、文ベクトル算出部１５４は、オフセット「３」、「３０」に、圧縮文ベクトル「S_Vec1」の文が位置する場合には、オフセット「３」の列と、圧縮文ベクトル「S_Vec1」の行とが交差する部分と、オフセット「３０」の列と、圧縮文ベクトル「S_Vec1」の行とが交差する部分にフラグ「１」を設定する。

【0061】

文ベクトル算出部１５４は、テキストデータ１４１に含まれる他の文についても、上記処理を繰り返し実行することで、圧縮文ベクトルデータ１４５に対する圧縮文ベクトルの登録、転置インデックス１４６へのフラグの設定を実行する。

【0062】

類似性判定部１５５は、第１の文のベクトルと、第２の文のベクトルとの類似性を判定する処理部である。ここでは一例として、第１の文のベクトルを、クエリデータ１４７に含まれる文の圧縮文ベクトルとする。第２の文のベクトルを、圧縮文ベクトルデータ１４５の圧縮文ベクトル（転置インデックス１４６の縦軸に配置された圧縮文ベクトル）として説明を行うが、これに限定されるものではない。

【0063】

類似性判定部１５５は、クエリデータ１４７に含まれる文に対して、形態素解析を実行することで、文を複数の単語に分割する。類似性判定部１５５は、文に含まれる単語と、圧縮単語ベクトルテーブル１４４とを比較して、文に含まれる各単語の圧縮単語ベクトルを取得する。類似性判定部１５５は、文に含まれる各単語の圧縮単語ベクトルを集積（合算）することで、圧縮文ベクトルを算出する。以下の説明では、クエリデータ１４７の圧縮文ベクトルを、「第１圧縮文ベクトル」と表記する。圧縮文ベクトルデータ１４５に登録された圧縮文ベクトル（転置インデックス１４６の縦軸に配置された圧縮文ベクトル）を、「第２圧縮文ベクトル」と表記する。

【0064】

類似性判定部１５５は、式（２）を基にして、第１圧縮文ベクトルと、第２圧縮文ベクトルとの類似度を算出する。たとえば、第１圧縮文ベクトルと、第２圧縮文ベクトルとの距離が近いほど、類似度が大きくなる。

【0065】

【数2】

【0066】

類似性判定部１５５は、第１圧縮文ベクトルとの類似度が閾値以上となる第２圧縮文ベクトルを特定する。以下の説明では、第１圧縮文ベクトルとの類似度が閾値以上となる第２圧縮文ベクトルを、「特定圧縮文ベクトル」と表記する。

【0067】

類似性判定部１５５は、転置インデックス１４６の各第２圧縮文ベクトルの行のうち、特定圧縮文ベクトルに対応する行のフラグを基にして、特定圧縮文ベクトルに対応する文のオフセットを特定する。たとえば、特定圧縮文ベクトルが「S_Vec1」となる場合には、オフセット「３」、「３０」が特定される。

【0068】

類似性判定部１５５は、特定したオフセットを基にして、圧縮単語文ベクトルに対応する文を、テキストデータ１４１から取得する。類似性判定部１５５は、取得した文を、クエリデータ１４７で指定した文に類似する文として、表示部１３０に出力して表示する。

【0069】

次に、本実施例１に係る情報処理装置１００の処理手順の一例について説明する。図１４は、本実施例１に係る情報処理装置の処理手順を示すフロチャート（１）である。図１４に示すように、情報処理装置１００の取得部１５１は、テキストデータ１４１を取得し、記憶部１４０に格納する（ステップＳ１０１）。

【0070】

情報処理装置１００の単語ベクトル算出部１５２は、テキストデータ１４１の各単語について、類似語彙情報１４２を基にして、ポアンカレ空間への埋め込みを実行し、単語ベクトルを算出する（ステップＳ１０２）。単語ベクトル算出部１５２は、単語ベクトルテーブル１４３を生成する（ステップＳ１０３）。

【0071】

情報処理装置１００の次元圧縮部１５３は、単語ベクトルテーブル１４３の各単語ベクトルについて次元圧縮を実行する（ステップＳ１０４）。次元圧縮部１５３は、圧縮単語ベクトルテーブル１４４を生成する（ステップＳ１０５）。

【0072】

情報処理装置１００の文ベクトル算出部１５４は、テキストデータ１４１から文を抽出する（ステップＳ１０６）。文ベクトル算出部１５４は、圧縮単語ベクトルテーブル１４４を基にして、文に含まれる各単語の単語圧縮ベクトルを特定する（ステップＳ１０７）。

【0073】

文ベクトル算出部１５４は、各単語圧縮ベクトルを集積して、圧縮文ベクトルを算出し、圧縮文ベクトルデータ１４５に登録する（ステップＳ１０８）。文ベクトル算出部１５４は、テキストデータ１４１の文のオフセットと、圧縮文ベクトルとの関係を基にして、転置インデックス１４６を生成する（ステップＳ１０９）。

【0074】

図１５は、本実施例１に係る情報処理装置の処理手順を示すフロチャート（２）である。図１５に示すように、情報処理装置１００の取得部１５１は、クエリデータ１４７を取得し、記憶部１４０に格納する（ステップＳ２０１）。

【0075】

情報処理装置１００の類似性判定部１５５は、圧縮単語ベクトルテーブル１４４を基にして、クエリデータ１４７の文に含まれる各単語の単語圧縮ベクトルを特定する（ステップＳ２０２）。類似性判定部１５５は、各単語の単語圧縮ベクトルを集積して、クエリデータ１４７の圧縮文データ（第１圧縮文ベクトル）を算出する（ステップＳ２０３）。

【0076】

類似性判定部１５５は、第１圧縮文ベクトルと、転置インデックス１４６の各第２圧縮文データとの類似性を判定する（ステップＳ２０４）。類似性判定部１５５は、第１圧縮文ベクトルとの類似度が閾値以上となる第２圧縮文ベクトル（特定圧縮文ベクトル）を特定する（ステップＳ２０５）。

【0077】

類似性判定部１５５は、特定圧縮文ベクトルと、転置インデックス１４６とを基にして、オフセットを特定する（ステップＳ２０６）。類似性判定部１５５は、オフセットを基にして、テキストデータ１４１から文を抽出し、表示部１３０に出力する（ステップＳ２０７）。

【0078】

次に、本実施例１に係る情報処理装置１００の効果について説明する。情報処理装置１００は、類似語彙情報１４２を基にして、ポアンカレ空間への埋め込みを行うことで、単語ベクトルを算出し、単語ベクトルテーブル１４３を生成する。参考技術で説明したWord2vecにとは異なり、同義または所定以上類似する複数の単語に、近似した単語ベクトルを割り当てた単語ベクトルテーブル１４３を生成することができる。このため、単語ベクトルテーブル１４３を用いて文ベクトルを算出すると、同じ意味の文の文ベクトル同士は、類似する文ベクトルとなり、文ベクトルを精度よく算出することができる。また、複数の文ベクトルを比較して、類似性を判定する場合、文ベクトルを精度よく算出できているので、類似性の判定精度が向上する。たとえば、クエリデータ１４７で指定された文に類似する文を、テキストデータ１４１から適切に検索することができる。

【0079】

情報処理装置１００は、単語ベクトルテーブル１４３の次元を圧縮した圧縮単語ベクトルテーブル１４４を生成しておき、圧縮単語ベクトルを用いて、文ベクトルを算出するため、参考技術の文ベクトル演算量と比較して、演算量を削減することができる。

【0080】

ところで、図７で説明した類似語彙情報１４２のデータ構造は一例であり、図１６に示すデータ構造であってもよい。図１６は、類似語彙情報のその他のデータ構造を説明するための図である。図１６に示すように、類似語彙情報１４２は、品詞は「名詞」で同じであるが、コーヒーのカテゴリとして同一の各単語「ブラジル」、「コロンビア」、「キリマンジェロ」、「エスプレッソ」、「アメリカン」等を同一の概念番号に対応付けてもよい。各単語「ブラジル」、「コロンビア」、「キリマンジェロ」は、産地や国を示す単語である。「エスプレッソ」、「アメリカン」は料理名を示す単語である。情報処理装置１００の単語ベクトル算出部１５２は、図１６に示す類似語彙情報１４２を用いて、ポアンカレ空間への埋め込みを実行し、単語ベクトルを算出してもよい。

【実施例2】

【0081】

実施例１では、複数の単語を含む文の文ベクトルを算出し、各文ベクトルの類似性を判定する場合について説明したがこれに限定されるものではない。たとえば、複数のタンパク質を含むタンパク質の一次構造（以下、単に一次構造）についても、一つのタンパク質を一つの単語と、また、一つの一次構造を一つの文と見なすことで、タンパク質と一次構造のベクトルを算出することができる。一次構造のベクトルを用いることで、各一次構造の類似性を判定することができる。

【0082】

図１７は、本実施例２に係る情報処理装置の処理を説明するための図である。図１７に示すように、情報処理装置は、類似タンパク質情報２４２を基にして、タンパク質の一次構造データ２４１に含まれる各タンパク質を単語と見なして、ポアンカレ空間に埋め込み、タンパク質のベクトルを算出する。以下の説明では、タンパク質のベクトルを「タンパク質ベクトル」と表記する。

【0083】

図１８は、本実施例２に係る類似タンパク質情報のデータ構造を示す図である。類似タンパク質情報２４２は、概念番号と、タンパク質と、由来と、ステムとを対応付ける。類似タンパク質情報２４２は、類似の特性を持つタンパク質を、同一の概念番号に対応付ける。たとえば、概念番号「Ｉ１０１」には、タンパク質「トロンビン」、「キモトリプシン」、「ナットウキナーゼ」等が対応付けられる。

【0084】

由来は、タンパク質の由来を示すものである。たとえば、タンパク質「トロンビン」の由来は、「血液凝固因子」である。タンパク質「キモトリプシン」の由来は、「酵素」である。タンパク質「ナットウキナーゼ」の由来は、「酵素」となる。ステムは、由来に応じて、タンパク質の名称の語尾に付与されるものである。タンパク質「トロンビン」、「キモトリプシン」は、例外的に、語尾がステムに対応していない。

【0085】

すなわち、類似タンパク質情報２４２では、タンパク質の由来によらず、類似の特性を有する複数のタンパク質を、同一の概念番号に割当てている。本実施例２に係る情報処理装置は、ポアンカレ空間にタンパク質を埋め込む場合に、類似タンパク質情報２４２で定義された同一の概念番号に対応する各タンパク質を、ポアンカレ空間上の近似した位置に集約する。

【0086】

図１７の説明に戻る。情報処理装置は、一次構造データ２４１に含まれる他のタンパク質についても、類似タンパク質情報２４２を基にして、ポアンカレ空間への埋め込みを行うことで、タンパク質ベクトルを算出し、タンパク質ベクトルテーブル２４３を生成する。タンパク質ベクトルテーブル２４３では、タンパク質と、タンパク質ベクトルとが対応付けられる。たとえば、タンパク質ベクトルテーブル２４３のタンパク質ベクトルの次元は、２００次元となる。

【0087】

情報処理装置は、一次構造のベクトルを算出する前に、タンパク質ベクトルテーブル２４３に含まれる各タンパク質ベクトルの次元を圧縮する。たとえば、情報処理装置は、２００次元のタンパク質ベクトルを、１９次元（１９次元は一例）のタンパク質ベクトルに圧縮することで、圧縮したタンパク質ベクトルを生成する。次元を圧縮したタンパク質ベクトルを、「圧縮タンパク質ベクトル」と表記する。情報処理装置は、タンパク質ベクトルテーブル２４３の各タンパク質ベクトルを圧縮することで、圧縮タンパク質ベクトルテーブル２４４を生成する。

【0088】

情報処理装置は、圧縮タンパク質ベクトルテーブル２４４を用いて、一次構造データ２４１に含まれる各一次構造の圧縮タンパク質ベクトルを算出する。情報処理装置は、一次構造を複数のタンパク質に分割し、各タンパク質の圧縮タンパク質ベクトルを圧縮タンパク質ベクトルテーブル２４４から取得する。情報処理装置は、各圧縮タンパク質ベクトルを集積することで、１９次元の一次構造のベクトルを算出する。以下の説明において、一次構造のベクトルを、「圧縮一次構造ベクトル」と表記する。情報処理装置は、他の複数の一次構造について、上記処理を繰り返し実行することで、他の複数の一次構造に対する圧縮一次構造ベクトルを算出し、圧縮一次構造ベクトルデータ２４５を生成する。

【0089】

本実施例２に係る情報処理装置では、類似タンパク質情報２４２を基にして、ポアンカレ空間への埋め込みを行うことで、タンパク質ベクトルを算出し、タンパク質ベクトルテーブル２４３を生成する。これにより、類似の特性を有する複数のタンパク質に対して、近似したタンパク質ベクトルを割り当てたタンパク質ベクトルテーブル２４３を生成することができる。このため、タンパク質ベクトルテーブル２４３を用いて一次構造のベクトルを算出すると、類似の特定を持つ一次構造同士は、類似する一次構造のベクトルとなり、一次構造ベクトルを精度よく算出することができる。また、複数の一次構造のベクトルを比較して、類似性を判定する場合、一次構造のベクトルを精度よく算出できているので、類似性の判定精度が向上する。

【0090】

また、情報処理装置では、タンパク質ベクトルテーブル２４３の次元を圧縮した圧縮タンパク質ベクトルテーブル２４４を生成しておき、圧縮タンパク質ベクトルを用いて、圧縮された一次構造のベクトルを算出する。このため、一次構造のベクトルを算出してから次元圧縮を行う場合と比較して、演算量を削減することができる。

【0091】

次に、本実施例２に係る情報処理装置の構成について説明する。図１９は、本実施例２に係る情報処理装置の構成を示す機能ブロック図である。図１９に示すように、情報処理装置２００は、通信部２１０と、入力部２２０と、表示部２３０と、記憶部２４０と、制御部２５０とを有する。

【0092】

通信部２１０は、ネットワークを介して外部装置（図示略）との間で情報通信を実行する処理部である。通信部２１０は、ＮＩＣ等の通信装置に対応する。たとえば、後述する制御部２５０は、通信部２１０を介して、外部装置と情報をやり取りする。

【0093】

入力部２２０は、各種の情報を、情報処理装置２００に入力する入力装置である。入力部２２０は、キーボードやマウス、タッチパネル等に対応する。ユーザは、入力部２２０を操作して、後述するクエリデータ２４７を入力してもよい。

【0094】

表示部２３０は、制御部２５０から出力される情報を表示する表示装置である。表示部２３０は、液晶ディスプレイ、有機ＥＬディスプレイ、タッチパネル等に対応する。表示部２３０は、制御部２５０から出力される情報を表示する。

【0095】

記憶部２４０は、タンパク質辞書２４０ａ、一次構造データ２４１、類似タンパク質情報２４２、タンパク質ベクトルテーブル２４３を有する。記憶部２４０は、圧縮タンパク質ベクトルテーブル２４４、圧縮一次構造ベクトルデータ２４５、転置インデックス２４６、クエリデータ１４７を有する。記憶部２４０は、ＲＡＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

【0096】

タンパク質辞書２４０ａの説明を行う前に、ゲノムについて説明する。図２０は、ゲノムを説明するための図である。ゲノム１は、複数のアミノ酸が連結する遺伝子情報である。ここで、アミノ酸は、複数の塩基、コドンによって決定される。また、ゲノム１には、タンパク質１ａが含まれる。タンパク質１ａは、２０種類のアミノ酸が複数結合し、鎖状に多数が連結したものである。タンパク質１ａの構造には、一次構造、二次構造、三次（高次）構造が存在する。タンパク質１ｂは、高次構造のタンパク質である。本実施例２では、一次構造について取り扱うが、二次構造、三次構造を対象としてもよい。

【0097】

ＤＮＡおよびＲＮＡの塩基は４種類で、「Ａ」、「Ｇ」、「Ｃ」、「Ｔ」または「Ｕ」の記号で示される。また、３つの塩基配列がひとかたまりで、２０種類のアミノ酸を決定する。それぞれのアミノ酸は、「Ａ」～「Ｙ」の記号で示される。図２１は、アミノ酸と塩基、およびコドンとの関係を示す図である。３つの塩基配列のかたまりは「コドン」と呼ばれる。各塩基の並びで、コドンが決定され、コドンが決定されるとアミノ酸が決定される。

【0098】

図２１に示すように、一つのアミノ酸に対して、複数種類のコドンが対応付けられる。このためコドンが決まると、アミノ酸が決まるが、アミノ酸が決まっても、コドンが一意に特定されるものではない。たとえば、アミノ酸「アラニン（Ala）」は、コドン「ＧＣＵ」、「ＧＣＣ」、「ＧＣＡ」、または、「ＧＣＧ」に対応付けられる。

【0099】

タンパク質辞書２４０ａは、タンパク質と、タンパク質に対応する塩基配列とを対応付ける情報である。塩基配列により、タンパク質が一致に決定される。図２２は、本実施例２に係るタンパク質辞書のデータ構造の一例を示す図である。図２２に示すように、タンパク質辞書２４０ａは、タンパク質と、塩基配列とを対応付ける。本実施例２のタンパク質辞書２４０ａでは、タンパク質と、塩基配列とを対応付ける場合について説明するが、塩基配列の代わりに、コドン配列またはアミノ酸配列を、タンパク質と対応付けて定義してもよい。

【0100】

一次構造データ２４１は、複数のタンパク質から構成される複数の一次構造を含む情報である。図２３は、本実施例２に係るタンパク質の一次構造データのデータ構造の一例を示す図である。図２３に示すように、タンパク質の一次構造データ２４１には、複数の一次構造が含まれる。ここで、一次構造には、複数のタンパク質が含まれ、各タンパク質は、塩基配列（あるいは、コドン配列またはアミノ酸配列）によって設定される。一次構造データ２４１に含まれる各一次構造には、癌化の恐れのあるタンパク質、あるいは、癌化したタンパク質を含む。

【0101】

類似タンパク質情報２４２は、類似の特性を持つタンパク質を、同一の概念番号に対応付ける情報である。類似タンパク質情報２４２のデータ構造は、図１８で説明したものに対応する。

【0102】

タンパク質ベクトルテーブル２４３は、各タンパク質のタンパク質ベクトルの情報を保持するテーブルである。図２４は、本実施例２に係るタンパク質ベクトルテーブルのデータ構造の一例を示す図である。図２４に示すように、このタンパク質ベクトルテーブル２４３は、タンパク質と、タンパク質ベクトルとを対応付ける。各タンパク質ベクトルは、ポアンカレ空間に対する埋め込みにより、算出されるタンパク質ベクトルであり、たとえば、２００次元のベクトルとする。

【0103】

圧縮タンパク質ベクトルテーブル２４４は、次元圧縮した各タンパク質ベクトル（圧縮タンパク質ベクトル）の情報を保持するテーブルである。図２５は、本実施例２に係る圧縮タンパク質ベクトルテーブルのデータ構造の一例を示す図である。図２５に示すように、この圧縮タンパク質ベクトルテーブル２４４は、タンパク質と、圧縮タンパク質ベクトルとを対応付ける。たとえば、圧縮タンパク質ベクトルの次元を１９次元とするが、これに限定されるものではない。

【0104】

圧縮一次構造ベクトルデータ２４５は、一次構造データ２４１に含まれる各一次構造の圧縮一次構造ベクトルの情報を保持するテーブルである。図２６は、本実施例２に係る圧縮一次構造ベクトルデータのデータ構造の一例を示す図である。図２６に示すように、この圧縮一次構造ベクトルデータ２４５は、一次構造ＩＤと、圧縮一次構造ベクトルとを対応付ける。一次構造ＩＤは、一次構造データ２４１に含まれる一次構造を一意に識別する情報である。圧縮一次構造ベクトルは、一次構造ＩＤにより識別される一次構造の圧縮一次構造ベクトルである。たとえば、一次構造ＩＤ「ＤＥ１」の圧縮一次構造ベクトルは、「S_Vec₁1 S_Vec₂１ S_Vec_３１・・・S_Vec₁₉１ )となる。「S_Vec₁1 S_Vec₂１ S_Vec_３１・・・S_Vec₁₉１」をまとめて、S_Vec1と表記する。他の圧縮一次構造ベクトルも同様である。

【0105】

転置インデックス２４６は、一次構造の圧縮一次構造ベクトルと、かかる圧縮一次構造ベクトルに対応する一次構造の一次構造データ２４１上の位置（オフセット）とを対応付けるものである。たとえば、一次構造データ２４１の先頭のタンパク質のオフセットが「０」となり、先頭からＭ番目のタンパク質のオフセットが「Ｍ－１」となる。図２７は、本実施例２に係る転置インデックスのデータ構造の一例を示す図である。図２７に示す転置インデックス２４６において、横軸は一次構造データ２４１のオフセットを示す。縦軸は、圧縮一次構造ベクトルに対応する。たとえば、圧縮一次構造ベクトル「S_Vec1」の一次構造の先頭のタンパク質が、一次構造データ２４１のオフセット「３」、「１０」に位置することを示す。

【0106】

クエリデータ２４７は、類似検索で指定される一次構造のデータである。本実施例１では一例として、クエリデータ２４７に含まれる一次構造を１つとする。クエリデータ２４７で指定される一次構造には、癌化の恐れのあるタンパク質、あるいは、癌化したタンパク質を含む。

【0107】

図１９の説明に戻る。制御部２５０は、取得部２５１、タンパク質ベクトル算出部２５２、次元圧縮部２５３、一次構造ベクトル算出部２５４、類似性判定部２５５を有する。制御部２５０は、ＣＰＵやＭＰＵなどによって実現できる。また、制御部２５０は、ＡＳＩＣやＦＰＧＡなどのハードワイヤードロジックによっても実現できる。

【0108】

取得部２５１は、外部装置または入力部２２０から、各種の情報を取得する処理部である。たとえは、取得部２５１は、タンパク質辞書２４０ａ、一次構造データ２４１、類似タンパク質情報２４２、クエリデータ２４７等を受け付けた場合、受け付けたタンパク質辞書２４０ａ、一次構造データ２４１、類似タンパク質情報２４２、クエリデータ２４７等を、記憶部２４０に格納する。

【0109】

タンパク質ベクトル算出部２５２は、タンパク質辞書２４０ａと、一次構造データ２４１とを比較して、一次構造データ２４１に含まれるタンパク質を抽出し、抽出したタンパク質を一つの単語と見なして、ポアンカレ空間に埋め込む。タンパク質ベクトル算出部２５２は、ポアンカレ空間に埋め込んだタンパク質の位置に応じたタンパク質ベクトルを算出する。タンパク質ベクトル算出部２５２は、ポアンカレ空間にタンパク質を埋め込む場合、類似タンパク質情報２４２を参照し、同一の概念番号に対応する各タンパク質を、近似した位置に埋め込む。

【0110】

たとえば、タンパク質ベクトル算出部２５２は、タンパク質「トロンビン」、タンパク質「キモトリプシン」、タンパク質「ナットウキナーゼ」をポアンカレ空間上の近似した位置に埋め込み、位置に応じたタンパク質ベクトルを算出する。タンパク質ベクトル算出部２５２は、タンパク質と、タンパク質ベクトルとを対応付けて、タンパク質ベクトルテーブル２４３に登録する。タンパク質ベクトル算出部２５２は、他の単語についても上記処理を繰り返し実行することで、タンパク質に対応するタンパク質ベクトルを算出し、タンパク質ベクトルテーブル２４３に登録する。

【0111】

次元圧縮部２５３は、タンパク質ベクトルテーブル２４３に格納されたタンパク質ベクトルの次元を圧縮することで、圧縮タンパク質ベクトルテーブル２４４を生成する処理部である。次元圧縮部２５３が、タンパク質ベクトルの次元を圧縮する処理は、実施例１の次元圧縮部１５３が、単語ベクトルの次元を圧縮する処理と同様である。

【0112】

一次構造ベクトル算出部２５４は、一次構造データ２４１に含まれる各一次構造のベクトルを算出する処理部である。一次構造ベクトル算出部２５４は、一次構造データ２４１を先頭から走査し、一次構造を抽出する。一次構造データ２４１に含まれる各一次構造の区切りは予め設定されているものとする。

【0113】

一次構造ベクトル算出部２５４は、一次構造と、タンパク質辞書２４０ａとを比較して、一次構造に含まれる各タンパク質を特定する。一次構造ベクトル算出部２５４は、一次構造に含まれるタンパク質と、圧縮タンパク質ベクトルテーブル２４４とを比較して、一次構造に含まれる各タンパク質の圧縮タンパク質ベクトルを取得する。一次構造ベクトル算出部２５４は、一次構造に含まれる各タンパク質の圧縮タンパク質ベクトルを集積（合算）することで、圧縮一次構造ベクトルを算出する。一次構造ベクトル算出部２５４は、一次構造に対して、一次構造ＩＤを割り当て、一次構造ＩＤと、圧縮一次構造ベクトルとを対応付けて、圧縮一次構造ベクトルデータ２４５に登録する。

【0114】

また、一次構造ベクトル算出部２５４は、転置インデックス２４６を参照し、圧縮一次構造ベクトルに対応する一次構造のオフセットと、圧縮一次構造ベクトルとの交差する部分にフラグ「１」を設定する。たとえば、一次構造ベクトル算出部２５４は、オフセット「３」、「１０」に、圧縮一次構造ベクトル「S_Vec1」の一次構造が位置する場合には、オフセット「３」の列と、圧縮一次構造ベクトル「S_Vec1」の行とが交差する部分と、オフセット「１０」の列と、圧縮一次構造ベクトル「S_Vec1」の行とが交差する部分にフラグ「１」を設定する。

【0115】

一次構造ベクトル算出部２５４は、一次構造データ２４１に含まれる他の一次構造についても、上記処理を繰り返し実行することで、圧縮一次構造ベクトルデータ２４５に対する圧縮一次構造ベクトルの登録、転置インデックス２４６へのフラグの設定を実行する。

【0116】

類似性判定部２５５は、第１の一次構造のベクトルと、第２の一次構造のベクトルとの類似性を判定する処理部である。ここでは一例として、第１の一次構造のベクトルを、クエリデータ２４７に含まれる一次構造の圧縮一次構造ベクトルとする。第２の一次構造のベクトルを、圧縮一次構造ベクトルデータ２４５の圧縮一次構造ベクトル（転置インデックス２４６の縦軸に配置された圧縮一次構造ベクトル）として説明を行うが、これに限定されるものではない。

【0117】

類似性判定部２５５は、クエリデータ２４７に含まれる一次構造と、タンパク質辞書２４０ａとを比較して、クエリデータ２４７に含まれる一次構造に含まれるタンパク質を抽出する。類似性判定部２５５は、一次構造に含まれるタンパク質と、圧縮タンパク質ベクトルテーブル２４４とを比較して、一次構造に含まれる各タンパク質の圧縮タンパク質ベクトルを取得する。類似性判定部２５５は、一次構造に含まれる各タンパク質の圧縮タンパク質ベクトルを集積（合算）することで、圧縮一次構造ベクトルを算出する。

【0118】

以下の説明では、クエリデータ２４７の圧縮一次構造ベクトルを、「第１圧縮構造ベクトル」と表記する。圧縮一次構造ベクトルデータ２４５に登録された圧縮一次構造ベクトル（転置インデックス２４６の縦軸に配置された圧縮一次構造ベクトル）を、「第２圧縮構造ベクトル」と表記する。

【0119】

類似性判定部２５５は、実施例１で示した式（２）を基にして、第１圧縮構造ベクトルと、第２圧縮構造ベクトルとの類似度を算出する。たとえば、第１圧縮構造ベクトルと、第２圧縮構造ベクトルとの距離が近いほど、類似度が大きくなる。

【0120】

類似性判定部２５５は、第１圧縮構造ベクトルとの類似度が閾値以上となる第２圧縮構造ベクトルを特定する。以下の説明では、第１圧縮構造ベクトルとの類似度が閾値以上となる第２圧縮構造ベクトルを、「特定圧縮構造ベクトル」と表記する。

【0121】

類似性判定部２５５は、転置インデックス２４６の各第２圧縮構造ベクトルの行のうち、特定圧縮構造ベクトルに対応する行のフラグを基にして、特定圧縮構造ベクトルに対応する一次構造のオフセットを特定する。たとえば、特定圧縮構造ベクトルが「S_Vec1」となる場合には、オフセット「３」、「１０」が特定される。

【0122】

類似性判定部２５５は、特定したオフセットを基にして、圧縮単語構造ベクトルに対応する一次構造を、一次構造データ２４１から取得する。類似性判定部２５５は、取得した一次構造を、クエリデータ２４７で指定した一次構造に類似する一次構造として、表示部２３０に出力して表示する。

【0123】

次に、本実施例２に係る情報処理装置２００の処理手順の一例について説明する。図２８は、本実施例２に係る情報処理装置の処理手順を示すフロチャート（１）である。図１４に示すように、情報処理装置２００の取得部２５１は、一次構造データ２４１を取得し、記憶部２４０に格納する（ステップＳ３０１）。

【0124】

情報処理装置２００のタンパク質ベクトル算出部２５２は、一次構造データ２４１の各タンパク質について、類似タンパク質情報２４２を基にして、ポアンカレ空間への埋め込みを実行し、タンパク質ベクトルを算出する（ステップＳ３０２）。タンパク質ベクトル算出部２５２は、タンパク質ベクトルテーブル２４３を生成する（ステップＳ３０３）。

【0125】

情報処理装置２００の次元圧縮部２５３は、タンパク質ベクトルテーブル２４３の各タンパク質ベクトルについて次元圧縮を実行する（ステップＳ３０４）。次元圧縮部２５３は、圧縮タンパク質ベクトルテーブル２４４を生成する（ステップＳ３０５）。

【0126】

情報処理装置２００の一次構造ベクトル算出部２５４は、一次構造データ２４１から一次構造を抽出する（ステップＳ３０６）。一次構造ベクトル算出部２５４は、圧縮タンパク質ベクトルテーブル２４４を基にして、一次構造に含まれる各タンパク質の圧縮タンパク質ベクトルを特定する（ステップＳ３０７）。

【0127】

一次構造ベクトル算出部２５４は、各圧縮タンパク質ベクトルを集積して、圧縮一次構造ベクトルを算出し、圧縮一次構造ベクトルデータ２４５に登録する（ステップＳ３０８）。一次構造ベクトル算出部２５４は、一次構造データ２４１の一次構造のオフセットと、圧縮一次構造ベクトルとの関係を基にして、転置インデックス２４６を生成する（ステップＳ３０９）。

【0128】

図２９は、本実施例２に係る情報処理装置の処理手順を示すフロチャート（２）である。図２９に示すように、情報処理装置２００の取得部２５１は、クエリデータ２４７を取得し、記憶部２４０に格納する（ステップＳ４０１）。

【0129】

情報処理装置２００の類似性判定部２５５は、圧縮タンパク質ベクトルテーブル２４４を基にして、クエリデータ２４７に含まれる各タンパク質の圧縮タンパク質ベクトルを特定する（ステップＳ４０２）。類似性判定部２５５は、各タンパク質の圧縮タンパク質ベクトルを集積して、クエリデータ２４７の圧縮一次構造データ（第１圧縮構造ベクトル）を算出する（ステップＳ４０３）。

【0130】

類似性判定部２５５は、第１圧縮構造ベクトルと、転置インデックス２４６の各第２圧縮構造データとの類似性を判定する（ステップＳ４０４）。類似性判定部２５５は、第１圧縮構造ベクトルとの類似度が閾値以上となる第２圧縮構造ベクトル（特定圧縮構造ベクトル）を特定する（ステップＳ４０５）。

【0131】

類似性判定部１５５は、特定圧縮構造ベクトルと、転置インデックス２４６とを基にして、オフセットを特定する（ステップＳ４０６）。類似性判定部２５５は、オフセットを基にして、一次構造データ２４１から文を抽出し、表示部２３０に出力する（ステップＳ４０７）。

【0132】

次に、本実施例２に係る情報処理装置２００の効果について説明する。情報処理装置２００は、類似タンパク質情報２４２を基にして、ポアンカレ空間への埋め込みを行うことで、タンパク質ベクトルを算出し、タンパク質ベクトルテーブル２４３を生成する。これにより、類似の特性を有する複数のタンパク質に対して、近似したタンパク質ベクトルを割り当てたタンパク質ベクトルテーブル２４３を生成することができる。このため、タンパク質ベクトルテーブル２４３を用いて一次構造のベクトルを算出すると、類似の特定を持つ一次構造同士は、類似する一次構造のベクトルとなり、一次構造ベクトルを精度よく算出することができる。また、複数の一次構造のベクトルを比較して、類似性を判定する場合、一次構造のベクトルを精度よく算出できているので、類似性の判定精度が向上する。

【0133】

また、情報処理装置では、タンパク質ベクトルテーブル２４３の次元を圧縮した圧縮タンパク質ベクトルテーブル２４４を生成しておき、圧縮タンパク質ベクトルを用いて、一次構造のベクトルを算出する。このため、一次構造のベクトルを算出してから次元圧縮を行う場合と比較して、演算量を削減することができる。

【0134】

次に、上記実施例に示した情報処理装置１００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図３０は、実施例１の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

【0135】

図３０に示すように、コンピュータ３００は、各種演算処理を実行するＣＰＵ３０１と、ユーザからのデータの入力を受け付ける入力装置３０２と、ディスプレイ３０３とを有する。また、コンピュータ３００は、記憶媒体からプログラム等を読み取る読み取り装置３０４と、有線または無線ネットワークを介して、外部装置との間でデータの授受を行う通信装置３０５とを有する。また、コンピュータ３００は、各種情報を一時記憶するＲＡＭ３０６と、ハードディスク装置３０７とを有する。そして、各装置３０１～３０７は、バス３０８に接続される。

【0136】

ハードディスク装置３０７は、取得プログラム３０７ａ、単語ベクトル算出プログラム３０７ｂ、次元圧縮プログラム３０７ｃ、文ベクトル算出プログラム３０７ｄ、類似性判定プログラム３０７ｅを有する。また、ＣＰＵ３０１は、各プログラム３０７ａ～３０７ｅを読み出してＲＡＭ３０６に展開する。

【0137】

取得プログラム３０７ａは、取得プロセス３０６ａとして機能する。単語ベクトル算出プログラム３０７ｂは、単語ベクトル算出プロセス３０６ｂとして機能する。次元圧縮プログラム３０７ｃは、次元圧縮プロセス３０６ｃとして機能する。文ベクトル算出プログラム３０７ｄは、文ベクトル算出プロセス３０６ｄとして機能する。類似性判定プログラム３０７ｅは、類似性判定プロセス３０６ｅとして機能する。

【0138】

取得プロセス３０６ａの処理は、取得部１５１の処理に対応する。単語ベクトル算出プロセス３０６ｂの処理は、単語ベクトル算出部１５２の処理に対応する。次元圧縮プロセス３０５ｃは、次元圧縮部１５３の処理に対応する。文ベクトル算出プロセス３０６ｄは、文ベクトル算出部１５４の処理に対応する。類似性判定プロセス３０５ｅは、類似性判定部１５５の処理に対応する。

【0139】

なお、各プログラム３０７ａ～３０７ｅについては、必ずしも最初からハードディスク装置３０７に記憶させておかなくても良い。例えば、コンピュータ３００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤ、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ３００が各プログラム３０７ａ～３０７ｅを読み出して実行するようにしてもよい。

【0140】

次に、上記実施例に示した情報処理装置２００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図３１は、実施例２の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

【0141】

図３１に示すように、コンピュータ４００は、各種演算処理を実行するＣＰＵ４０１と、ユーザからのデータの入力を受け付ける入力装置４０２と、ディスプレイ４０３とを有する。また、コンピュータ４００は、記憶媒体からプログラム等を読み取る読み取り装置４０４と、有線または無線ネットワークを介して、外部装置との間でデータの授受を行う通信装置４０５とを有する。また、コンピュータ４００は、各種情報を一時記憶するＲＡＭ４０６と、ハードディスク装置４０７とを有する。そして、各装置４０１～４０７は、バス４０８に接続される。

【0142】

ハードディスク装置４０７は、取得プログラム４０７ａ、タンパク質ベクトル算出プログラム４０７ｂ、次元圧縮プログラム４０７ｃ、一次構造ベクトル算出プログラム４０７ｄ、類似性判定プログラム４０７ｅを有する。また、ＣＰＵ４０１は、各プログラム４０７ａ～４０７ｅを読み出してＲＡＭ４０６に展開する。

【0143】

取得プログラム４０７ａは、取得プロセス４０６ａとして機能する。タンパク質ベクトル算出プログラム４０７ｂは、タンパク質ベクトル算出プロセス４０６ｂとして機能する。次元圧縮プログラム４０７ｃは、次元圧縮プロセス４０６ｃとして機能する。一次構造ベクトル算出プログラム４０７ｄは、一次構造ベクトル算出プロセス４０６ｄとして機能する。類似性判定プログラム４０７ｅは、類似性判定プロセス４０６ｅとして機能する。

【0144】

取得プロセス４０６ａの処理は、取得部２５１の処理に対応する。タンパク質ベクトル算出プロセス４０６ｂの処理は、タンパク質ベクトル算出部２５２の処理に対応する。次元圧縮プロセス４０５ｃは、次元圧縮部２５３の処理に対応する。一次構造ベクトル算出プロセス４０６ｄは、一次構造ベクトル算出部２５４の処理に対応する。類似性判定プロセス４０５ｅは、類似性判定部２５５の処理に対応する。

【0145】

なお、各プログラム４０７ａ～４０７ｅについては、必ずしも最初からハードディスク装置４０７に記憶させておかなくても良い。例えば、コンピュータ４００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤ、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ４００が各プログラム４０７ａ～４０７ｅを読み出して実行するようにしてもよい。

【符号の説明】

【0146】

１１０，２１０通信部
１２０，２２０入力部
１３０，２３０表示部
１４０，２４０記憶部
１４１テキストデータ
１４２類似語彙情報
１４３単語ベクトルテーブル
１４４圧縮単語ベクトルテーブル
１４５圧縮文ベクトルデータ
１４６，２４６転置インデックス
１４７，２４７クエリデータ
１５０，２５０制御部
１５１，２５１取得部
１５２単語ベクトル算出部
１５３，２５３次元圧縮部
１５４文ベクトル算出部
１５５，２５５類似性判定部
２４０ａタンパク質辞書
２４１一次構造データ
２４２類似タンパク質情報
２４３タンパク質ベクトルテーブル
２４４圧縮タンパク質ベクトルテーブル
２４５圧縮一次構造ベクトルデータ
２５２タンパク質ベクトル算出部
２５４一次構造ベクトル算出部

【図1】