特開2024-165355 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2024-165355同義語抽出装置、同義語抽出方法、および同義語抽出プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024165355

(43)【公開日】2024-11-28

(54)【発明の名称】同義語抽出装置、同義語抽出方法、および同義語抽出プログラム

(51)【国際特許分類】

G06F 40/247 20200101AFI20241121BHJP

G06F 40/216 20200101ALI20241121BHJP

【ＦＩ】

G06F40/247

G06F40/216

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2023081494

(22)【出願日】2023-05-17

(71)【出願人】

【識別番号】000005108

【氏名又は名称】株式会社日立製作所

(74)【代理人】

【識別番号】110001678

【氏名又は名称】藤央弁理士法人

(72)【発明者】

【氏名】岩山真

(57)【要約】

【課題】文脈を考慮した同義語抽出の適正化を図ること。
【解決手段】同義語抽出装置は、文内の語の同義語を出力するように学習された言語モデルにアクセス可能であり、言語モデルは、文を構成する語を文の文脈に依存しない第１埋め込み表現に変換する第１層と、語の出現位置、語が出現する文、および語の第１埋め込み表現に基づいて、文の文脈に依存する第２埋め込み表現を生成する第２層とを有し、対象文内の対象語以外の語を同義語候補とし、第１層を用いて対象語に関する第１埋め込み表現と同義語候補に関する第１埋め込み表現とを生成して語類似度を算出し、対象文内の対象語を同義語候補に置き換えた同義語文とし、第１層および第２層を用いて対象文に関する第２埋め込み表現と同義語文に関する第２埋め込み表現とを生成して文脈類似度を算出し、語類似度と文脈類似度とに基づいて同義語を抽出する。
【選択図】図１

【特許請求の範囲】

【請求項1】

プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有し、文内の語の同義語を出力するように学習された言語モデルにアクセス可能な同義語抽出装置であって、
前記言語モデルは、第１層と、第２層と、を有し、
前記第１層は、前記文を構成する語を前記文の文脈に依存しない第１埋め込み表現に変換し、
前記第２層は、前記語の出現位置、前記語が出現する文、および前記語の前記第１埋め込み表現に基づいて、前記文の文脈に依存する第２埋め込み表現を生成し、
前記プロセッサは、
対象文内の対象語以外の語を同義語候補とし、前記第１層を用いて、前記対象語に関する第１埋め込み表現と、前記同義語候補に関する第１埋め込み表現と、を生成し、前記対象語に関する第１埋め込み表現と、前記同義語候補に関する第１埋め込み表現と、に基づいて、前記対象語と前記同義語候補との類似度である語類似度を算出する語類似度算出処理と、
前記対象文内の対象語を前記同義語候補に置き換えた同義語文とし、前記第１層および前記第２層を用いて、前記対象文に関する第２埋め込み表現と、前記同義語文に関する第２埋め込み表現と、を生成し、前記対象文に関する第２埋め込み表現と、前記同義語文に関する第２埋め込み表現と、に基づいて、前記対象文と前記同義語文との類似度である文脈類似度を算出する文脈類似度算出処理と、
前記語類似度と前記文脈類似度とに基づいて、前記同義語を抽出する同義語抽出処理と、
を実行することを特徴とする同義語抽出装置。

【請求項2】

請求項１に記載の同義語抽出装置であって、
前記語類似度算出処理では、前記プロセッサは、前記対象語を構成する各トークンに関する第１埋め込み表現の平均値と、前記同義語候補を構成する各トークンに関する第１埋め込み表現の平均値と、に基づいて、前記語類似度を算出する、
ことを特徴とする同義語抽出装置。

【請求項3】

請求項１に記載の同義語抽出装置であって、
前記プロセッサは、
前記第１層を用いて、複数の同義語候補集合の各々の同義語候補集合内の同義語候補に関する第１埋め込み表現を生成し、前記語類似度算出処理により、前記語類似度を前記同義語候補ごとに前記同義語候補集合別に算出して、前記同義語候補集合ごとの前記語類似度の集合を前記語類似度に関する条件に基づいてプーリングし、プーリングした語類似度に対応する特定の同義語候補集合を出力する同義語候補プーリング処理と、
前記語類似度算出処理により、前記対象語と前記特定の同義語候補集合内の特定の同義語候補との特定の語類似度を前記特定の同義語候補ごとに算出し、前記特定の同義語候補ごとの前記特定の語類似度をアンサンブルする同義語候補アンサンブル処理と、を実行し、
前記文脈類似度算出処理では、前記プロセッサは、前記対象文内の対象語を前記同義語候補アンサンブル処理によるアンサンブル結果に置き換えた特定の同義語文とし、前記対象文と前記特定の同義語文との文脈類似度を算出する、
することを特徴とする同義語抽出装置。

【請求項4】

請求項１に記載の同義語抽出装置であって、
前記プロセッサは、
複数の前記言語モデルの各々の言語モデルについて、文の集合に対する適合度を算出し、前記適合度に基づいて、複数の前記言語モデルの中から特定の言語モデルを選択する選択処理を実行し、
前記プロセッサは、前記選択処理によって選択された特定の言語モデルを用いて、前記語類似度算出処理および前記文脈類似度算出処理を実行する、
ことを特徴とする同義語抽出装置。

【請求項5】

プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有し、文内の語の同義語を出力するように学習された言語モデルにアクセス可能な同義語抽出装置が実行する同義語抽出方法であって、
前記言語モデルは、第１層と、第２層と、を有し、
前記第１層は、前記文を構成する語を前記文の文脈に依存しない第１埋め込み表現に変換し、
前記第２層は、前記語の出現位置、前記語が出現する文、および前記語の前記第１埋め込み表現に基づいて、前記文の文脈に依存する第２埋め込み表現を生成し、
前記プロセッサは、
対象文内の対象語以外の語を同義語候補とし、前記第１層を用いて、前記対象語に関する第１埋め込み表現と、前記同義語候補に関する第１埋め込み表現と、を生成し、前記対象語に関する第１埋め込み表現と、前記同義語候補に関する第１埋め込み表現と、に基づいて、前記対象語と前記同義語候補との類似度である語類似度を算出する語類似度算出処理と、
前記対象文内の対象語を前記同義語候補に置き換えた同義語文とし、前記第１層および前記第２層を用いて、前記対象文に関する第２埋め込み表現と、前記同義語文に関する第２埋め込み表現と、を生成し、前記対象文に関する第２埋め込み表現と、前記同義語文に関する第２埋め込み表現と、に基づいて、前記対象文と前記同義語文との類似度である文脈類似度を算出する文脈類似度算出処理と、
前記語類似度と前記文脈類似度とに基づいて、前記同義語を抽出する同義語抽出処理と、
を実行することを特徴とする同義語抽出方法。

【請求項6】

文内の語の同義語を出力するように学習された言語モデルを用いた同時語抽出をプロセッサに実行させる同義語抽出プログラムであって、
前記言語モデルは、第１層と、第２層と、を有し、
前記第１層は、前記文を構成する語を前記文の文脈に依存しない第１埋め込み表現に変換し、
前記第２層は、前記語の出現位置、前記語が出現する文、および前記語の前記第１埋め込み表現に基づいて、前記文の文脈に依存する第２埋め込み表現を生成し、
前記プロセッサに、
対象文内の対象語以外の語を同義語候補とし、前記第１層を用いて、前記対象語に関する第１埋め込み表現と、前記同義語候補に関する第１埋め込み表現と、を生成し、前記対象語に関する第１埋め込み表現と、前記同義語候補に関する第１埋め込み表現と、に基づいて、前記対象語と前記同義語候補との類似度である語類似度を算出する語類似度算出処理と、
前記対象文内の対象語を前記同義語候補に置き換えた同義語文とし、前記第１層および前記第２層を用いて、前記対象文に関する第２埋め込み表現と、前記同義語文に関する第２埋め込み表現と、を生成し、前記対象文に関する第２埋め込み表現と、前記同義語文に関する第２埋め込み表現と、に基づいて、前記対象文と前記同義語文との類似度である文脈類似度を算出する文脈類似度算出処理と、
前記語類似度と前記文脈類似度とに基づいて、前記同義語を抽出する同義語抽出処理と、
を実行させることを特徴とする同義語抽出プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、同義語を抽出する同義語抽出装置、同義語抽出方法、および同義語抽出プログラムに関する。

【背景技術】

【0002】

チャットボットなどの質問応答システムの多くは、ユーザからの質問と、システムにあらかじめ登録されている想定質問とを比較し、ユーザ質問に対し最も適切な想定質問に対応している回答を出力する。たとえば、行政手続きに関する質問応答システムでは、想定質問として「引っ越ししたがどうすればよい？」というテキストが登録されている。

【0003】

ところが、ユーザは同じ意図でも様々な表現で質問するため、「引っ越ししたがどうすればよい」以外にも「転居したがどうすればよい？」「住所変更したがどうすればよい？」なども想定質問として登録しておく必要がある。この例の場合、「引っ越し」の同義語である「転居」「住所変更」などで想定質問のバリエーションを増やすことになる。質問応答システムの回答精度を向上させるには、想定質問内の語に対し、できるだけ多くの同義語を用意しておくことが望ましい。

【0004】

非特許文献１は、大量のテキストから語の埋め込み表現を学習しておき、埋め込み表現間の類似度が高い語同士を同義語として扱うベクトル空間での単語表現の効率的な推定を開示する。埋め込み表現とは数百次元の実数ベクトルであり、埋め込み表現間の類似度には余弦が用いられる。周辺の単語から対象単語が予測できるように、または逆に、対象単語から周辺の単語が予測できるように学習が進行する。

【0005】

ところが、学習後は周辺の単語を無視するため、文脈に応じた語の多義性が扱えなかった。たとえば、「引っ越ししたがどうすればよい？」という文脈でも、「引っ越しの費用を教えて」という文脈でも、「引っ越し」の埋め込み表現は同一になる。そのため、前者の文脈では、「引っ越し」と「住所変更」は同義語であるが、後者の文脈ではこれらは同義関係ではないといった、文脈依存の語の多義性を扱えなかった。

【0006】

非特許文献２では、大量のテキストから学習した言語モデルを用い、文脈に依存した語の埋め込み表現を取得する、ＢＥＲＴに基づく字句置換を開示する。「引っ越ししたがどうすればよい？」と「引っ越しの費用を教えて」では同じ「引っ越し」でも埋め込み表現が異なる。よって、非特許文献２の技術は、同じ語でも、文脈に応じて異なる同義語を抽出する。

【先行技術文献】

【非特許文献】

【0007】

【非特許文献1】“ＥｆｆｉｃｉｅｎｔＥｓｔｉｍａｔｉｏｎｏｆＷｏｒｄＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｉｎＶｅｃｔｏｒＳｐａｃｅ”，ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆＷｏｒｋｓｈｏｐａｔＩＣＬＲ，２０１３．

【非特許文献2】“ＢＥＲＴ－ｂａｓｅｄＬｅｘｉｃａｌＳｕｂｓｔｉｔｕｔｉｏｎ”，ＡＣＬ２０１９，２０１９．

【発明の概要】

【発明が解決しようとする課題】

【0008】

ところが、非特許文献２の技術では、語の埋め込み表現が文脈の影響を強く受けすぎ、同義関係にない語までもが同義語として抽出されてしまうことが多い。たとえば、「引っ越しの費用を教えて」という文脈での「引っ越し」に対し、「購入」「問い合わせ」なども同義語として抽出されてしまう。

【0009】

本発明は、文脈を考慮した同義語抽出の適正化を図ることを目的とする。

【課題を解決するための手段】

【0010】

本願において開示される発明の一側面となる同義語抽出装置は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有し、文内の語の同義語を出力するように学習された言語モデルにアクセス可能な同義語抽出装置であって、前記言語モデルは、第１層と、第２層と、を有し、前記第１層は、前記文を構成する語を前記文の文脈に依存しない第１埋め込み表現に変換し、前記第２層は、前記語の出現位置、前記語が出現する文、および前記語の前記第１埋め込み表現に基づいて、前記文の文脈に依存する第２埋め込み表現を生成し、前記プロセッサは、対象文内の対象語以外の語を同義語候補とし、前記第１層を用いて、前記対象語に関する第１埋め込み表現と、前記同義語候補に関する第１埋め込み表現と、を生成し、前記対象語に関する第１埋め込み表現と、前記同義語候補に関する第１埋め込み表現と、に基づいて、前記対象語と前記同義語候補との類似度である語類似度を算出する語類似度算出処理と、前記対象文内の対象語を前記同義語候補に置き換えた同義語文とし、前記第１層および前記第２層を用いて、前記対象文に関する第２埋め込み表現と、前記同義語文に関する第２埋め込み表現と、を生成し、前記対象文に関する第２埋め込み表現と、前記同義語文に関する第２埋め込み表現と、に基づいて、前記対象文と前記同義語文との類似度である文脈類似度を算出する文脈類似度算出処理と、前記語類似度と前記文脈類似度とに基づいて、前記同義語を抽出する同義語抽出処理と、を実行することを特徴とする。

【発明の効果】

【0011】

本発明の代表的な実施の形態によれば、文脈を考慮した同義語抽出の適正化を図ることができる。前述した以外の課題、構成および効果は、以下の実施例の説明により明らかにされる。

【図面の簡単な説明】

【0012】

【図1】図１は、本実施例の同義語抽出装置の構成例を示すブロック図である。

【図2】図２は、ｔｒａｎｓｆｏｒｍｅｒと呼ばれる言語モデルの模式図である。

【図3】図３は、埋込層抽出を示す説明図である。

【図4】図４は、語類似度計算の処理例を示す説明図である。

【図5】図５は、文脈類似度計算の処理例を示す説明図である。

【図6】図６は、類似度統合の処理例を示す説明図である。

【図7】図７は、同義語抽出制御による同義語抽出の処理例１を示す説明図である。

【図8】図８は、同義語候補プーリングによる複数の言語モデルの各埋込層を用いた同義語抽出の処理例を示す説明図である。

【図9】図９は、同義語候補アンサンブルによる複数の言語モデルの各埋込層を用いた同義語候補アンサンブルの処理例を示す説明図である。

【図10】図１０は、同義語抽出制御による同義語抽出の処理例２を示す説明図である。

【図11】図１１は、言語モデル選択による言語モデル選択処理の一例を示す説明図である。

【図12】図１２は、同義語抽出画面の一例を示す説明図である。

【発明を実施するための形態】

【0013】

本実施例では、文中の語に対し、その語の同義語を抽出する同義語抽出装置の実施例について説明する。

【0014】

＜同義語抽出装置１０１の構成＞
図１は、本実施例の同義語抽出装置１０１の構成例を示すブロック図である。同義語抽出装置１０１は、入力装置１０２、出力装置１０３、通信装置１０４、演算装置１０５、メモリ１０６、および補助記憶装置１０７を含む計算機として構成される。

【0015】

入力装置１０２は、ユーザからのコマンドやテキスト、音声等のセンサデータなどの入力を受け付ける。たとえば、キーボードや、マウスや、タッチパネル、マイクなどのデバイスである。

【0016】

出力装置１０３は、液晶や有機ＥＬ、ＣＲＴにより画面を表示するディスプレイ、紙を印刷出力するプリンタ、音声出力するスピーカを含む。ディスプレイ装置である。なお、入力装置１０２および出力装置１０３を設けず、ネットワークを介して接続された他の計算機を入力装置１０２および出力装置１０３として機能させてもよい。

【0017】

通信装置１０４は、たとえば、所定のプロトコルに従って、同義語抽出装置１０１による処理内容を外部機器に送信したり、外部機器から情報を受信したりする。

【0018】

演算装置１０５は、プロセッサを含み、メモリ１０６に格納されたプログラムを実行する。メモリ１０６は、不揮発性の記憶素子であるＲＯＭおよび不揮発性の記憶素子であるＲＡＭを含む。ＲＯＭは、不変のプログラム（たとえば、ＢＩＯＳ）などを格納する。ＲＡＭは、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）のような高速かつ揮発性の記憶素子であり、演算装置１０５が実行するプログラムおよびプログラムの実行時に使用されるデータを一時的に格納する。

【0019】

補助記憶装置１０７は、たとえば、磁気記憶装置（ＨＤＤ）、フラッシュメモリ（ＳＳＤ）等で構成される大容量かつ不揮発性の記憶装置であり、演算装置１０５が実行するプログラムおよびプログラムの実行時に使用されるデータを格納する。すなわち、プログラムは、補助記憶装置１０７から読み出されて、メモリ１０６にロードされて、演算装置１０５によって実行される。

【0020】

演算装置１０５が実行するプログラムは、リムーバブルメディア（ＣＤ－ＲＯＭ、フラッシュメモリなど）またはネットワークを介して同義語抽出装置１０１に提供され、非一時的記憶媒体である不揮発性の補助記憶装置１０７に格納される。このため、同義語抽出装置１０１は、リムーバブルメディアからデータを読み込むインタフェースを有するとよい。

【0021】

同義語抽出装置１０１は、物理的に一つの計算機上で構成され、または、論理的または物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで処理してもよく、複数の物理的計算機資源上に構築された仮想計算機上で処理してもよい。

【0022】

演算装置１０５は、メモリ１０６にロードされたプログラムに従って処理を実行することで、同義語抽出装置１０１として機能する。

【0023】

言語モデル１１５は、深層学習により学習された言語モデルであって、複数個あってもよい。埋込層１１６は、言語モデル１１５から抽出した埋込層であって、複数個あってもよい。言語モデル１１５および埋込層１１６は、同義語抽出装置１０１と通信装置１０４によりアクセス可能な他のコンピュータに記憶されていてもよい。

【0024】

埋込層抽出１０８は、言語モデル１１５から埋込層１１６を抽出し、補助記憶装置１０７に保存する処理を演算装置１０５に実行させるソフトウェアモジュールである。

【0025】

語類似度計算１０９は、任意の埋込層１１６を用いて、対象語と同義語候補との文脈非依存の類似度を計算する処理を演算装置１０５に実行させるソフトウェアモジュールである。この類似度を語類似度と呼ぶ。

【0026】

文脈類似度計算１１０は、任意の言語モデル１１５を用いて、対象文と対象文内の対象語を同義語で置き換えた置換文との類似度を計算する処理を演算装置１０５に実行させるソフトウェアモジュールである。この類似度を文脈類似度と呼ぶ。

【0027】

類似度統合１１１は、語類似度と文脈類似度を統合した統合類似度を計算する処理を演算装置１０５に実行させるソフトウェアモジュールである。

【0028】

同義語抽出制御１１７は、対象語に対する同義語を抽出する処理を演算装置１０５に実行させるソフトウェアモジュールである。

【0029】

具体的には、たとえば、演算装置１０５は、同義語抽出制御１１７により、まず、全ての同義語候補に対し対象語との語類似度を計算し、語類似度が大きい同義語候補を選び、選んだ各同義語候補に対して文脈類似度を計算する。文脈類似度の計算コストが大きいため、文脈類似度の計算対象となる同義語候補を語類似度で絞り込んでいる。

【0030】

つぎに、演算装置１０５は、同義語抽出制御１１７により、語類似度と文脈類似度を統合した統合類似度を計算し、統合類似度がしきい値Ｔａ以上である同義語候補、または、統合類似度が上位Ｎａ番目（Ｎａはあらかじめ設定された１以上の整数）までの同義語候補を、同義語として抽出する。以降、このような同義語候補を、統合類似度が高い同義語候補と称す。

【0031】

同義語候補プーリング１１２は、複数の埋込層１１６を用いて、同義語候補を集める処理を演算装置１０５に実行させるソフトウェアモジュールである。

【0032】

同義語候補アンサンブル１１３は、複数の埋込層１１６を用いて、複数の語類似度を計算し、これらの語類似度をアンサンブル（平均）する処理を演算装置１０５に実行させるソフトウェアモジュールである。

【0033】

同義語抽出制御１１７は、複数の埋込層１１６を用いて、対象語に対する同義語を抽出する処理を演算装置１０５に実行させるソフトウェアモジュールでもある。

【0034】

具体的には、たとえば、演算装置１０５は、同義語抽出制御１１７により、同義語候補プーリング１１２で集めた同義語候補に対し、同義語候補アンサンブル１１３で語類似度を計算し、この語類似度がしきい値Ｔｂ以上である同義語候補、または、語類似度が上位Ｎｂ番目（Ｎｂはあらかじめ設定された１以上の整数）までの同義語候補に対して文脈類似度を計算する。以降、このような同義語候補を、語類似度が高い同義語候補と称す。

【0035】

そして、演算装置１０５は、同義語抽出制御１１７により、語類似度と文脈類似度とを統合した統合類似度がしきい値Ｔｃ以上である同義語候補、または、統合類似度が上位Ｎｃ番目（Ｎｃはあらかじめ設定された１以上の整数）までの同義語候補を同義語として抽出する。以降、このような同義語候補を、統合類似度が高い同義語候補と称す。

【0036】

言語モデル選択１１４は、語類似度計算１０９、同義語候補プーリング１１２，同義語候補プーリング１１２、同義語候補アンサンブル１１３で用いる、一つまたは複数の埋込層１１６を自動で選択したり、文脈類似度計算１１０で用いる言語モデル１１５を自動で選択したりする処理を演算装置１０５に実行させるソフトウェアモジュールである。
。

【0037】

＜言語モデル１１５＞
同義語抽出の詳細を説明する前に、図２を用いて、言語モデル１１５と埋込層１１６の詳細を説明する。

【0038】

図２は、ｔｒａｎｓｆｏｒｍｅｒと呼ばれる言語モデル１１５の模式図である。言語モデル１１５は、対象語を含む文の集合を第１訓練データとし、各文の対象語の同義語を第１正解データとする第１訓練データセットを用いて学習されたモデルである。対象語の同義語は、たとえば、補助記憶装置１０７内の不図示の同義語辞書により特定される。この第１訓練データセットは、言語モデル１１５に保持されている。同義語抽出時（予測時）では、対象語が選択されると、文の集合のうち対象語以外の語が同義語候補として用いられる。

【0039】

具体的には、たとえば、言語モデル１１５には文２００が入力される。図２は、「引っ越ししたがどうすればよい」という文２００を入力した例を示す。実際は、トークナイザというプログラムにより入力文２００をトークンに分割して、トークン列２０１が言語モデル１１５に入力される。図２では、「引っ越し」「した」「が」「どう」「すれ」「ば」「よい」という７個のトークンからなるトークン列２０１が入力されている。

【0040】

トークン列２０１の各トークンは、入力埋込層２０２で数百次元のベクトルに変換される。このベクトルのことを埋め込み表現とよぶ。入力埋込層２０２は、トークンの種類数（ｖｏｃａｂ＿ｓｉｚｅ）と埋め込み表現の次元数（７６８）からなる行列であり、行列の値は、第２訓練データセット（第１訓練データから得られた既存のトークン列２０１である第２訓練データと第２訓練データから得られた埋め込み表現２０３（第２正解データ）との組み合わせ）から学習される。第２訓練データセットは、入力埋込層２０２に保持されている。

【0041】

埋め込み表現２０３は、文脈に依存しない埋め込み表現である。つまり、どのような文脈に現れても「引っ越し」は同じ埋め込み表現になる。本実施例では、入力埋込層２０２は埋込層１１６として用いられる。

【0042】

図３は、埋込層抽出１０８を示す説明図である。つまり、埋込層抽出１０８により、与えられた言語モデル１１５から、入力埋込層２０２を埋込層１１６として分離して保存する処理が実行される。

【0043】

図２に戻り、言語モデル１１５は、入力埋込層２０２の出力である埋め込み表現２０３の各々に、位置インデックスと文インデックスとの加算処理（２０４）を実行し、トークンごとの加算結果２０５を出力する。位置インデックスは、入力されたトークン列２０１の先頭からの出現位置を表した実数値であり、文インデックスは、トークン列２０１内の対象トークンが１文目に現れるトークンか２文目に現れるトークンかを区別した実数値である。加算結果２０５の各々は、７６８次元の埋め込み表現である。

【0044】

つぎに、言語モデル１１５は、ｔｒａｎｓｆｏｒｍｅｒ層２０６で、加算結果２０５の各々である７６８次元の埋め込み表現を、同じ７６８次元の埋め込み表現２０７に変換する。ただし、言語モデル１１５は、ａｔｔｅｎｔｉｏｎと呼ばれる機構により、対象トークン以外のトークンとの関連性を計算した上で、出力の７６８次元の値を埋め込み表現２０７として計算する。ｔｒａｎｓｆｏｒｍｅｒ層２０６のパラメータも第３訓練データセット（第２正解データから得られた加算結果２０５である第３訓練データと第３訓練データから得られた埋め込み表現２０７（第３正解データ）との組み合わせ）から学習される。第３訓練データセットは、ｔｒａｎｓｆｏｒｍｅｒ層２０６に保持されている。

【0045】

ｔｒａｎｓｆｏｒｍｅｒ層２０６の出力である埋め込み表現２０７は、埋め込み表現２０３とは異なり、文脈に依存する。つまり、同じ「引っ越し」でも現れる文脈により埋め込み表現２０７が異なる。

【0046】

言語モデル１１５は、ｔｒａｎｓｆｏｒｍｅｒ層２０６による埋め込み表現２０７への変換を１回以上繰り返し、埋め込み表現２１０を出力する。

【0047】

出力埋込層２１１は、最上位の埋め込み表現２１０を、トークンの種類数（ｖｏｃａｂ＿ｓｉｚｅ）の次元に変換し、トークンの種類数の実数ベクトル２１２を出力する。実数ベクトル２１２は、入力された文２００の文脈に合った単語の埋め込み表現を表している。言語モデル１１５の学習時には、言語モデル１１５は、トークン列２０１内の「引っ越し」をマスク化して入力し、実数ベクトル２１２において、マスク化した「引っ越し」に相当する次元の値が最大値になるように全てのパラメータをバックプロパゲーションで更新する。

【0048】

つまり、言語モデル１１５は、同義語候補の集合を定義しており、対象語を含む文が入力されると対象語の同義語を、同義語候補の集合の中から選択して出力するように学習されたモデルである。

【0049】

非特許文献２の技術は、「引っ越し」の同義語を抽出する際に、「引っ越し」に対応する出力ベクトルの値をソートし、上位のインデックスに相当するトークンを「引っ越し」の同義語とする。しかし、「引っ越し」の埋め込み表現として、文脈依存の埋め込み表現２１０が使われるため、文脈の影響を強く受けすぎる。この例の場合、「引っ越し」とは同義ではないが「ｘしたがどうすればよい」（ｘはマスク）という文脈に良く符合する「結婚」などの値が大きくなる。

【0050】

本実施例では、文脈の影響を考慮する前に、まずは、「引っ越し」という対象語そのものとの類似度がしきい値Ｔｂ以上であるトークン、または、類似度が上位Ｎｂ番目までのトークンを、語類似度が高い同義語候補とする。

【0051】

＜語類似度計算１０９＞
図４は、語類似度計算１０９の処理例を示す説明図である。トークナイズ４０３、埋め込み表現抽出４０６、埋め込み表現平均４０９、および埋め込み表現間類似度計算４１２は、語類似度計算１０９内のソフトウェアモジュールである。

【0052】

演算装置１０５は、語類似度計算１０９により、対象語ｗ（４０１）と同義語候補ｓ（４０２）との語類似度を計算する。

【0053】

まず、演算装置１０５は、トークナイズ４０３により、対象語ｗ（４０１）および同義語候補ｓ（４０２）をそれぞれトークンに分割する。トークン列４０４は、対象語ｗ（４０１）をトークナイズした結果得られるトークンｗｔ１，ｗｔ２，…である。トークン列４０５は、同義語候補ｓ（４０２）をトークナイズした結果得られるトークンｓｔ１，ｓｔ２，…である。たとえば、対象語ｗが「所有者」である場合、この対象語ｗをトークナイズした結果得られるトークン列４０４は、ｗｔ１＝「所有」，ｗｔ２＝「者」となる。

【0054】

つぎに、演算装置１０５は、埋め込み表現抽出４０６により、トークン列４０４およびトークン列４０５の各トークンの埋め込み表現を抽出し、埋め込み表現列４０７および埋め込み表現列４０８を出力する。演算装置１０５は、埋め込み表現列４０７，４０８を抽出する際は、埋込層１１６を用いる。たとえば、トークンｗｔ１の埋め込み表現はｅｍｂ（ｗｔ１）になる。埋め込み表現は数百次元の実数ベクトルである。図２の言語モデル１１５から抽出した入力埋込層２０２を用いる場合、埋め込み表現の次元数は７６８次元である。

【0055】

つぎに、演算装置１０５は、埋め込み表現平均４０９により、対象語ｓ（４０１）から抽出した埋め込み表現列４０７を平均して、単一の埋め込み表現ｗ＿ｅｍｂ（ｗ）（４１０）を出力する。同様にして、演算装置１０５は、同義語候補ｓ（４０２）に対しても埋め込み表現ｗ＿ｅｍｂ（ｓ）（４１１）を出力する。

【0056】

最後に、演算装置１０５は、埋め込み表現間類似度計算４１２により、対象語ｗ（４０１）に対する埋め込み表現ｗ＿ｅｍｂ（ｗ）（４１０）と、同義語候補ｓ（４０２）に対する埋め込み表現ｗ＿ｅｍｂ（ｓ）（４１１）との余弦ｃｏｓ（ｗ＿ｅｍｂ（ｗ），ｗ＿ｅｍｂ（ｓ））を計算して、語類似度ｗ＿ｓｉｍ（ｗ，ｓ）（４１３）を出力する。

【0057】

対象語ｗと同義語候補ｓとの語類似度ｗ＿ｓｉｍ（ｗ，ｓ）は、対象語ｗが現れる文脈を考慮していない。そこで、本実施例では、演算装置１０５は、対象語ｗが現れる対象文と、対象文内の対象語ｗを同義語候補ｓに置き換えた同義語文と、の間の類似度を計算することで、同義語の文脈依存性を考慮する。この類似度が文脈類似度である。

【0058】

＜文脈類似度計算１１０＞
図５は、文脈類似度計算１１０の処理例を示す説明図である。語置換５０４、トークナイズ５０６、文脈埋め込み表現計算５０９、文脈埋め込み表現平均５１２、および埋め込み表現間類似度計算５１５は、文脈類似度計算１１０内のソフトウェアモジュールである。

【0059】

演算装置１０５は、文脈類似度計算１１０により、対象文ｃ（５０１）に対する、対象語ｗ（４０１）と同義語候補ｓ（４０２）との文脈類似度を計算する。

【0060】

最初に、演算装置１０５は、語置換５０４により、対象文ｃ（５０１）内の対象語ｗ（４０１）を同義語候補ｓ（４０２）で置き換えて、同義語文ｃｓ（５０５）を作成する。たとえば、対象文ｃ（５０１）が「引っ越ししたがどうすればよい」、対象語ｗ（４０１）が「引っ越し」、同義語候補ｓ（４０２）が「転居」の場合、同義語文ｃｓ（５０５）は「転居したがどうすればよい」になる。以降では、演算装置１０５は、対象文ｃ（５０１）と同義語文ｃｓ（５０５）の類似度を計算する。

【0061】

演算装置１０５は、トークナイズ５０６により、対象文ｃ（５０１）および同義語文ｃｓ（５０５）をトークンに分割し、トークン列５０７，５０８を出力する。トークン列５０７は、トークンｗｔ１，ｗｔ２，…の配列であり、トークン列５０８は、トークンｓｔ１，ｓｔ２，…の配列である。

【0062】

つぎに、演算装置１０５は、文脈埋め込み表現計算５０９により、トークン列５０７およびトークン列５０８の各トークンの埋め込み表現を抽出し、埋め込み表現列５１０，５１１を得る。埋め込み表現を抽出する際は、言語モデル１１５を用いる。埋め込み表現列５１０は、埋め込み表現ｅｍｂ（ｗｔ１），ｅｍｂ（ｗｔ２），…の配列であり、埋め込み表現列５１１は、埋め込み表現ｅｍｂ（ｓｔ１），ｅｍｂ（ｓｔ２），…の配列である。埋め込み表現列５１０，５１１は、図２の最上位の埋め込み表現２１０の配列であり、文脈依存の埋め込み表現になる。たとえば、対象文ｃ（５０１）についてのトークンｗｔ１の埋め込み表現はｅｍｂ（ｗｔ１｜ｃ）になる。

【0063】

つぎに、演算装置１０５は、文脈埋め込み表現平均５１２により、対象語文脈（５０１）から抽出した埋め込み表現列５１０を平均して、単一の埋め込み表現ｃ＿ｅｍｂ（ｃ）（５１３）を出力する。同様にして、演算装置１０５は、文脈埋め込み表現平均５１２により、同義語文ｃｓ（５０５）に対しても埋め込み表現ｃ＿ｅｍｂ（ｃｓ）（５１４）を出力する。

【0064】

最後に、演算装置１０５は、埋め込み表現間類似度計算５１５により、対象文ｃ（５０１）に対する埋め込み表現ｃ＿ｅｍｂ（ｃ）（５１３）と、同義語文ｃｓ（５０５）に対する埋め込み表現ｃ＿ｅｍｂ（ｃｓ）（５１４）と、の余弦ｃｏｓ（ｃ＿ｅｍｂ（ｃ），ｃ＿ｅｍｂ（ｃｓ））を計算して、語類似度ｃ＿ｓｉｍ（ｗ，ｓ）（５１６）を出力する。

【0065】

＜類似度統合１１１＞
図６は、類似度統合１１１の処理例を示す説明図である。演算装置１０５は、類似度統合１１１により、図４で計算した語類似度４１３と、図５で計算した文脈類似度５１６とを統合して、統合類似度６００を出力する。対象語ｗに対して、統合類似度６００が大きい同義語候補ｓほど、同義語らしいと判断される。

【0066】

演算装置１０５は、類似度統合１１１により、語類似度ｗ＿ｓｉｍ（ｗ，ｓ）（４１３）と文脈類似度ｃ＿ｓｉｍ（ｗ，ｓ）（５１６）とを統合し、統合類似度ｗｃ＿ｓｉｍ（ｗ，ｓ）（６００）を計算する。本実施例では、演算装置１０５は、係数αを用いて語類似度４１３と文脈類似度５１６を加算する。具体的には、たとえば、統合類似度６００は、下記式（１）により算出される。

【0067】

ｗｃ＿ｓｉｍ（ｗ，ｓ）＝（1－α）＊ｗ＿ｓｉｍ（ｗ，ｓ）＋α＊ｃ＿ｓｉｍ（ｗ，ｓ）・・・（１）

【0068】

＜同義語抽出＞
図７は、同義語抽出制御１１７による同義語抽出の処理例１を示す説明図である。図７では、語類似度計算１０９（図４）、文脈類似度計算１１０（図５）、および類似度統合１１１（図６）を組み合わせて同義語を抽出する例を示す。

【0069】

入力データは対象語４０１と対象語４０１が現れる対象文５０１である。また、語類似度４１３を計算するための埋込層１１６と、文脈類似度５１６を計算するための言語モデル１１５もあらかじめ指定される。なお、これらの埋込層１１６と言語モデル１１５は任意のものを選択してよい。

【0070】

まず、演算装置１０５は、同義語抽出制御１１７により、同義語候補集合７０３を求める。図７では、埋込層１１６で定義されているトークン集合を同義語候補集合７０３とするが、任意の文字列の集合を同義語候補集合としてもよい。たとえば、演算装置１０５は、ｗｏｒｄｎｅｔなどの既存の辞書を用いて、対象語４０１の同義語を抽出し、これらを同義語候補集合７０３としてもよい。または、演算装置１０５は、埋込層１１６から抽出した同義語候補集合７０３に、既存の辞書から抽出した同義語候補４０２を加えてもよい。

【0071】

演算装置１０５は、語類似度計算１０９により、同義語候補集合７０３の各同義語候補に対し語類似度計算処理を実行して、語類似度４１３の集合である語類似度集合７０５を出力する。

【0072】

演算装置１０５は、語類似度ソート／選択７０６により、語類似度集合７０５を語類似度４１３の降順にソートし、上位の任意個数Ｎｂまたはしきい値Ｔｂ以上の対象語４０１を選択し、新たな語類似度集合７０７を出力する。語類似度集合７０７には、語類似度４１３が高い同義語候補４０２が含まれる。

【0073】

演算装置１０５は、文脈類似度計算１１０により、語類似度集合７０７内の語類似度４１３が高い同義語候補４０２に対して、文脈類似度計算処理を実行して、文脈類似度５１６を計算し、文脈類似度集合７０９を出力する。

【0074】

語類似度４１３の計算コストに比べて文脈類似度５１６の計算コストは大きい。具体的には、語類似度４１３を計算する際は、埋込層１１６の１層から埋め込み表現を得るに対し、文脈類似度５１６を計算する際は、言語モデル１１５の多層を用いて埋め込み表現を得るためである。そのため、本実施例では、一例として、語類似度４１３が高い同義語候補４０２に対してのみ文脈類似度５１６を計算する。ただし、語類似度４１３が高くない同義語候補４０２に対して文脈類似度５１６を計算することを妨げない。

【0075】

演算装置１０５は、類似度統合１１１により、類似度統合処理を実行して、語類似度集合７０７と文脈類似度集合７０９とを統合し、統合類似度集合７１１を出力する。

【0076】

最後に、演算装置１０５は、統合類似度ソート／選択７１２により、統合類似度集合７１１を統合類似度６００の降順にソートし、上位の任意個数Ｎｃまたはしきい値Ｔｃ以上の同義語候補４０２を選択し、新たな統合類似度集合７１３を出力する。統合類似度集合７１３内の同義語候補４０２（統合類似度が高い同義語候補）が、対象語４０１の同義語である。

【0077】

これまでは、単一の埋込層を用いた同義語抽出について説明してきたが、以降では、複数の埋込層を用いた同義語抽出方法について説明する。

【0078】

図８は、同義語候補プーリング１１２による複数の言語モデルの各埋込層を用いた同義語抽出の処理例を示す説明図である。まず、演算装置１０５は、複数の埋込層である第１埋込層８０１－１，…，第ｉ埋込層８０１－ｉ，…，第ｎ埋込層８０１－ｎ（ｉは１≦ｉ≦ｎを満たす整数。ｎは、２以上の整数、図２の入力埋込層２０２に相当。）の各々から同義語候補集合（第１同義語候補集合８０２－１，…，第ｉ同義語候補集合８０２－ｉ，…，第ｎ同義語候補集合８０２－ｎ）を収集する。

【0079】

図８において、対象語４０１が入力されると、第ｉ埋込層８０１－ｉで定義されているトークン集合を、第ｉ同義語候補集合８０２－ｉとする。つぎに、演算装置１０５は、対象語４０１と、第ｉ同義語候補集合８０２－ｉ内の各同義語候補に対し、図４で説明した類似度計算処理を用いて語類似度４１３を計算する。演算装置１０５は、これらの語類似度４１３を降順にソートし、上位の任意個数またはしきい値以上の語類似度４１３を選択し、第ｉ語類似度集合８０４－ｉを出力する。以上の処理が、第ｉ語類似度計算／ソート／選択８０３－ｉである。

【0080】

演算装置１０５は、第ｉ語類似度計算／ソート／選択８０３－ｉを、第ｉ埋込層８０１－ｉに対して実行し、第１同義語候補集合８０２－１，…，第ｉ同義語候補集合８０２－ｉ，…，第ｎ同義語候補集合８０２－ｎを出力する。

【0081】

プーリング８００では、演算装置１０５は、ｎ個の語類似度集合（第１語類似度集合８０４－１，…，第ｉ語類似度集合８０４－ｉ，…，第ｎ語類似度集合８０４－ｎ）の和集合を計算し、新たな語類似度集合８１０を出力する。この語類似度集合８１０の各語類似度に対応する同義語候補の集合が、第１埋込層８０１－１，…，第ｉ埋込層８０１－ｉ，…，第ｎ埋込層８０１－ｎから抽出した同義語候補集合となる（以下、同義語候補集合８１０と表記する）。

【0082】

第１埋込層８０１－１，…，第ｉ埋込層８０１－ｉ，…，第ｎ埋込層８０１－ｎから同義語候補を抽出することで、各第ｉ埋込層８０１－ｉが前提としているトークナイザに応じて、様々な同義語候補の抽出が可能になる。

【0083】

たとえば、単語辞書ベースのトークナイザを前提とした第ｉ埋込層８０１－ｉからは、「オーナー」の同義語候補として「所有者」が抽出できない。「所有者」は、通常、「所有」と「者」という２つのトークンに分割されるからである。一方、統計ベースのトークナイザでは、コーパスに「所有者」が頻出していれば、「所有者」が一つのトークンとして抽出できる場合がある。よって、このようなトークナイザを用いる第ｉ埋込層８０１－ｉを加えることで、「オーナー」の同義語候補として「所有者」が抽出できる。

【0084】

第１埋込層８０１－１，…，第ｉ埋込層８０１－ｉ，…，第ｎ埋込層８０１－ｎから抽出した上記同義語候補集合８１０に対し、演算装置１０５は、同じく第１埋込層８０１－１，…，第ｉ埋込層８０１－ｉ，…，第ｎ埋込層８０１－ｎを用いて語類似度４１３を計算する。

【0085】

図９は、同義語候補アンサンブル１１３による複数の言語モデルの各埋込層を用いた同義語候補アンサンブルの処理例を示す説明図である。同義語候補アンサンブル１１３は、対象語ｗ（４０１）と同義語候補ｓ（４０２）の語類似度を、言語モデルごとに算出し、アンサンブルした結果である。同義語候補アンサンブル１１３は、同義語候補ｓ（４０２）毎に実行された結果である。図９では、対象語４０１と、同義語候補ｓ（４０２）、および、第１埋込層８０１－１，…，第ｉ埋込層８０１－ｉ，…，第ｎ埋込層８０１－ｎが与えられている。同義語候補ｓ（４０２）は、図８で抽出した同義語候補集合８１０の各要素である。また、図９のｎ個の埋込層は、図８のｎ個の埋込層と同じとしたが、異なってもよい。

【0086】

第ｉ埋込層８０１－ｉに関しては、演算装置１０５は、語類似度計算９００-ｉで、対象語ｗ（４０１）と同義語候補ｓ（４０２）に対し、図４で説明した語類似度計算処理を用いて、語類似度ｗ＿ｓｉｍｉ（ｗ，ｓ）（９０１－ｉ）を計算する。

【0087】

アンサンブル９１０では、演算装置１０５は、計算したＮ個の語類似度９０１－１，…，９０１－ｉ，…，９０１－ｎを平均して、アンサンブルした語類似度ｗ＿ｓｉｍ（ｗ，ｓ）（９２０）を出力する。

【0088】

語類似度９０１－ｉは、用いる第ｉ埋込層８０１－ｉに依存して、正確であったり不正確であったりする。本実施例のように、第１埋込層８０１－１，…，第ｉ埋込層８０１－ｉ，…，第ｎ埋込層８０１－ｎから計算した語類似度９０１－１，…，９０１－ｉ，…，９０１－ｎをアンサンブルすることで、語類似度９０１－ｉの個別の第ｉ埋込層８０１－ｉへの依存度を軽減することができる。

【0089】

図１０は、同義語抽出制御１１７による同義語抽出の処理例２を示す説明図である。図１０では、同義語候補プーリング１１２（図８）、同義語候補アンサンブル１１３（図９）を適用して、同義語を抽出する処理である。

【0090】

対象語４０１と対象語４０１が現れる対象文５０１が入力データである。また、同義語候補プーリング１１２と同義語候補アンサンブル１１３で用いる複数の埋込層１１６と、文脈類似度５１６を計算するための言語モデル１１５もあらかじめ用意される。なお、複数の埋込層１１６および言語モデル１１５は任意のものを選択してよい。

【0091】

まず、演算装置１０５は、同義語候補プーリング１１２（図８）を用いて、同義語候補集合８１０を抽出する。つぎに、演算装置１０５は、同義語候補アンサンブル１１３（図９）を用いて、語類似度集合１００６を出力する。語類似度集合１００６は、１以上の語彙類似度の集合である。語類似度集合１００６が同義語候補集合になる。既に述べたように、複数の埋込層を用いることで、同義語候補の多様性が増し、かつ、語類似度９０１－ｉの個別の第ｉ埋込層８０１－ｉへの依存度が低減する。

【0092】

文脈類似度計算１１０では、演算装置１０５は、図５で説明した文脈類似度計算処理を用いて、同義語候補集合１００６の各同義語候補に対し、対象語４０１との文脈類似度５１６を計算し、文脈類似度集合１００８を出力する。

【0093】

類似度統合１１１では、演算装置１０５は、図６で説明した類似度統合処理を用いて、語類似度集合１００６と文脈類似度集合１００８とを統合し、統合類似度集合１０１２を出力する。この集合の同義語候補が、抽出された同義語になる。

【0094】

図７の同義語抽出処理も図１０の同義語抽出処理も、用いる埋込層１１６と言語モデル１１５は、あらかじめ選んでおいた。これらの埋込層１１６，言語モデル１１５を自動で選択することも可能である。なお、埋込層の場合は、埋込層の抽出元である言語モデルを選択することになる。

【0095】

図１１は、言語モデル選択１１４による言語モデル選択処理の一例を示す説明図である。図１１では、同義語抽出処理に適した言語モデルを、与えられた言語モデル集合１１０２から自動で選択する例を示す。

【0096】

言語モデルを選択するには、同義語抽出の対象となる領域の文集合１１０１を与えておく。この文集合１１０１は、対象領域の文集合であれば何でもよい。モデル適合度計算１１０３では、演算装置１０５は、選択対象である言語モデル集合１１０２の各言語モデルが、与えた文集合１１０１にどれだけ良く適合しているかを、たとえば公知の尺度であるｐｅｒｐｌｅｘｉｓｉｔｙで測定する。

【0097】

モデル適合度ソート／選択１１０４では、演算装置１０５は、言語モデル集合１１０２をモデル適合度の降順にソートし、上位から任意の個数またはモデル適合度がしきい値以上の言語モデルである言語モデル集合１１０５を選択する。

【0098】

図１２は、同義語抽出画面の一例を示す説明図である。同義語抽出画面１２０１は、出力装置１０３に表示される。同義語抽出画面１２０１は、対象語入力領域１２０２と、文脈入力領域１２０３と、辞書リスト１２０４と、言語モデルリスト１２０５と、自動選択ボタン１２０６と、文集合ファイル指定ボタン１２０７と、同義語候補抽出ボタン１２０８と、同義語候補リスト１２０９と、保存ボタン１２１０と、追加ボタン１２１１と、言語モデルリスト１２１２と、自動選択ボタン１２１３と、文集合ファイル指定ボタン１２１４と、同義語候補ランキングボタン１２１５と、同義語候補リスト１２１６と、保存ボタン１２１７と、を有する。

【0099】

対象語入力領域１２０２は、ユーザ操作により、対象語４０１が入力される領域である。文脈入力領域１２０３は、ユーザ操作により、対象文５０１が入力される領域である。

【0100】

辞書リスト１２０４には、選択可能な辞書がリスト化され、ラジオボタンによりユーザが選択可能である。言語モデルリスト１２０５には、同義語候補の抽出元として用いる埋込層１１６がリスト化され、ラジオボタンによりユーザが選択可能である。

【0101】

自動選択ボタン１２０６は、ユーザの押下により、言語モデルリスト１２０５内の言語モデルを自動選択するためのユーザインタフェースである。

【0102】

文集合ファイル指定ボタン１２０７は、ユーザの押下により、文集合を指定するためのユーザインタフェースである。ユーザは、文集合ファイル指定ボタン１２０７で文集合を指定して、自動選択ボタン１２０６を押下することで、指定した文集合に適した言語モデル（埋込層）を自動選択することができる。本処理は、図１１で説明した言語モデル選択処理で実行される。

【0103】

同義語候補抽出ボタン１２０８は、ユーザの押下により、辞書リスト１２０４で選択された辞書および言語モデルリスト１２０５で選択された言語モデル（埋込層）を用いて、同義語候補をリストアップするためのユーザインタフェースである。

【0104】

同義語候補リスト１２０９には、同義語候補抽出ボタン１２０８の押下によりリストアップされた同義語候補集合１００６（図１０を参照）が表示される。つまり、語類似度９０１－ｉが大きい同義語候補がリストアップされる。同義語候補リスト１２０９において、スコアには語類似度９０１－ｉが表示される。ユーザは、リストアップされた同義語候補から適切な同義語候補を選択することができる。また、ユーザは、表示されている同義語候補の文字列を直接編集して変更することもできる。

【0105】

保存ボタン１２１０は、ユーザの押下により、同義語候補リスト１２０９の同義語を補助記憶装置１０７に保存するためのユーザインタフェースである。追加ボタン１２１１は、ユーザの押下により、同義語候補リスト１２０９にあらたな行を追加し、新たな同義語候補を入力するためのユーザインタフェースである。

【0106】

言語モデルリスト１２１２には、同義語候補のランキングで用いる言語モデルがリスト化され、ラジオボタンによりユーザが選択可能である。

【0107】

自動選択ボタン１２１３は、ユーザの押下により、言語モデルリスト１２１２内の言語モデルを自動選択するためのユーザインタフェースである。

【0108】

文集合ファイル指定ボタン１２１４は、ユーザの押下により、文集合を指定するためのユーザインタフェースである。ユーザは、文集合ファイル指定ボタン１２１４で文集合を指定して、自動選択ボタン１２１３を押下することで、指定した文集合に適した言語モデル（埋込層）を自動選択することができる。本処理は、図１１で説明した言語モデル選択処理で実行される。

【0109】

同義語候補ランキングボタン１２１５は、ユーザの押下により、同義語候補リスト１２０９でランキングされている同義語候補を、言語モデルリスト１２１２で選択された言語モデルを用いてランク付けするためのユーザインタフェースである。

【0110】

同義語候補リスト１２１６には、同義語候補リスト１２０９で選択された同義語候補が、言語モデルリスト１２１２で選択された言語モデルを用いてランク付けされた同義語候補が表示される。

【0111】

保存ボタン１２１７は、ユーザの押下により、同義語候補リスト１２１６の同義語を補助記憶装置１０７に保存するためのユーザインタフェースである。

【0112】

つまり、演算装置１０５は、同義語候補リスト１２０９で選択された同義語候補に対し、言語モデルリスト１２１２で選択された言語モデルを用いて文脈類似度を計算し、既に計算済みの語類似度と統合した統合類似度でソートする。ユーザはこの中から適切な同義語を選択し、保存ボタン１２１７を押下して、選択した同義語を補助記憶装置１０７に保存することができる。

【0113】

以上説明したように、本実施例によれば、文脈非依存性と文脈依存性のバランスがとれた同義語抽出が可能になる。また、複数の言語モデルを用いることで、高精度で安定した同義語抽出が可能になる。

【0114】

なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例および同等の構成が含まれる。たとえば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。

【0115】

また、前述した各構成、機能、処理部、処理手段等は、それらの一部または全部を、たとえば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。

【0116】

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置、または、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）カード、ＳＤカード、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）の記録媒体に格納することができる。

【0117】

また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。

【符号の説明】

【0118】

１０１同義語抽出装置
１０５演算装置
１０８埋込層抽出
１０９語類似度計算
１１０文脈類似度計算
１１１類似度統合
１１２同義語候補プーリング
１１３同義語候補アンサンブル
１１４言語モデル選択
１１５言語モデル
１１６埋込層
１１７同義語抽出制御

【図1】