特開2024-58900 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-58900情報処理プログラム、情報処理方法および情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024058900

(43)【公開日】2024-04-30

(54)【発明の名称】情報処理プログラム、情報処理方法および情報処理装置

(51)【国際特許分類】

G06F 16/35 20190101AFI20240422BHJP

【ＦＩ】

G06F16/35

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2022166303

(22)【出願日】2022-10-17

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】梁俊

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175DA01

5B175FA03

5B175HB03

(57)【要約】

【課題】特定ドメインに関係のないノイズを除いて、特定ドメインに関係のあるデータを選択すること。
【解決手段】情報処理装置は、第１ドメインに属する文の第１ベクトルと、第２ドメインに属する文の第２ベクトルとを基にして、第１ベクトルに類似する第２ベクトルの文を選択する。情報処理装置は、第１ドメインに属する文を用いて訓練した分類器に、選択した文を入力することで、選択した文が、第１ドメインに属する文であるか否かを判定する。情報処理装置は、判定結果を基にして、選択した複数の文から、第１ドメインに属する文を抽出する。
【選択図】図４

【特許請求の範囲】

【請求項1】

第１ドメインに属する文の第１ベクトルと、第２ドメインに属する文の第２ベクトルとを基にして、第１ベクトルに類似する第２ベクトルの文を選択し、
前記第１ドメインに属する文を用いて訓練した分類器に、選択した文を入力することで、前記選択した文が、前記第１ドメインに属する文であるか否かを判定し、
判定結果を基にして、選択した複数の文から、前記第１ドメインに属する文を抽出する
処理をコンピュータに実行させることを特徴とする情報処理プログラム。

【請求項2】

ある文の入力データと、前記ある文が前記第１ドメインに属する文であるか否かを示すラベルとの組を学習データとして、前記分類器を訓練する処理を更にコンピュータに実行させることを特徴とする請求項１に記載の情報処理プログラム。

【請求項3】

前記分類器は、文が入力された場合に、入力された文が前記第１ドメインに属する文である尤度を出力し、前記判定する処理は、前記選択した文を、前記分類器に入力した際に出力される尤度が閾値以上である場合に、前記選択した文が、前記第１ドメインに属する文であると判定することを特徴とする請求項１に記載の情報処理プログラム。

【請求項4】

前記抽出する処理によって抽出された文と、前記第１ドメインに属する文とを基にして、言語モデルを訓練する処理を更にコンピュータに実行させることを特徴とする請求項１に記載の情報処理プログラム。

【請求項5】

第１ドメインに属する文の第１ベクトルと、第２ドメインに属する文の第２ベクトルとを基にして、第１ベクトルに類似する第２ベクトルの文を選択し、
前記第１ドメインに属する文を用いて訓練した分類器に、選択した文を入力することで、前記選択した文が、前記第１ドメインに属する文であるか否かを判定し、
判定結果を基にして、選択した複数の文から、前記第１ドメインに属する文を抽出する
処理をコンピュータが実行することを特徴とする情報処理方法。

【請求項6】

第１ドメインに属する文の第１ベクトルと、第２ドメインに属する文の第２ベクトルとを基にして、第１ベクトルに類似する第２ベクトルの文を選択し、
前記第１ドメインに属する文を用いて訓練した分類器に、選択した文を入力することで、前記選択した文が、前記第１ドメインに属する文であるか否かを判定し、
判定結果を基にして、選択した複数の文から、前記第１ドメインに属する文を抽出する
処理を実行する制御部を有する情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理プログラム等に関する。

【背景技術】

【0002】

自然言語処理において、ドメイン適応（Domain Adaptation）と呼ばれる技術がある。たとえば、ドメイン適応は、Sourceドメインと、Targetドメインとのサンプル間のドメインshiftを軽減するという問題に取り組む技術である。

【0003】

図７は、ドメイン上のデータ分布の一例を示す図である。図７に示す例では、空間上に、Original ＬＭ domainのデータ１０、Target domainのデータ１１、Target domain downstream taskのデータ１２が含まれる。

【0004】

Original ＬＭ domainのデータ１０は、インターネット上に存在する文のデータに対応する。Target domainのデータ１１は、Target domainのコーパスデータである。Target domain downstream taskのデータ１２は、downstream taskを実行するために選択された文のデータである。

【0005】

以下では、Original ＬＭ domainのデータ１０、Target domainのデータ１１、Target domain downstream taskのデータ１２を用いた、ドメイン適応の従来技術の一例について説明する。

【0006】

図８は、ドメイン適応の従来技術を説明するための図である。たとえば、従来技術によるドメイン適応では、ステップＳ１０、ステップＳ１１、ステップＳ１２の順に、処理を実行する。ドメイン適応を実行する従来の装置を、従来装置と表記する。

【0007】

従来装置は、ステップＳ１０において、Original ＬＭ domainのデータ１０を用いて、第１モデル１０ａ（Pretrained language model）の学習を実行する。第１モデル１０ａは、自然言語処理モデルである。第１モデル１０ａは、ＮＮ（Neural Network）等である。たとえば、第１モデル１０ａに文を入力すると、文に含まれる各単語のベクトルが出力される。

【0008】

従来装置は、ステップＳ１１において、Target domainのデータ１１を用いて、第１モデル１０ａの再学習を実行することで、第２モデル１１ａ（Re-pretrained language model）を得る。

【0009】

従来装置は、ステップＳ１２において、第２モデル１１ａを、NERモデル１２ａに接続し、Target domain downstream taskのデータ１２を用いて、第２モデル１１ａ、NERモデル１２ａに対するFine-tuningを実行する。NERモデル１２ａは、分類モデルである。NERモデル１２ａは、ＮＮ等である。

【0010】

ステップＳ１０、Ｓ１１では、Original ＬＭ domainのデータ１０、Target domainのデータ１１に正解ラベルは付与されておらず、教師なし学習が実行される。ステップＳ１２では、Target domain downstream taskのデータ１２に正解ラベルが付与されており、教師あり学習が実行される。

【0011】

ここで、Target domainのデータ１１に含まれる複数の文のうち、より多くの文が、downstream taskに関連する文であるほど、downstream taskのパフォーマンスを高めることができる。たとえば、従来技術では、Bag-of-wordsに基づくデータセレクション方法によって、Target domainのデータ１１に含まれる複数の文から、downstream taskに関連する文を選択する。Bag-of-wordsに基づくデータセレクションを実行する従来の装置も、従来装置と表記する。

【0012】

図９は、Bag-of-wordsに基づくデータセレクション方法を説明するための図である。従来装置は、Downstream task sentenceを、VAMPIRE等によって、ベクトルに変換し、VAMPIREエンベッディングスペースに配置する。Downstream task sentenceは、Target domain downstream taskのデータ１２に含まれる文のデータである。従来装置は、他のDownstream task sentenceについても同様に、上記処理を実行する。VAMPIREエンベッディングスペース上の各Downstream task sentenceを「三角印」で表す。

【0013】

従来装置は、Target domain sentenceを、VAMPIREによって、ベクトルに変換し、VAMPIREエンベッディングスペースに配置する。Target domain sentenceは、Target domainのデータ１１に含まれる文のデータである。従来装置は、他のTarget domain sentenceについても同様に、上記処理を実行する。VAMPIREエンベッディングスペース上の各Target domain sentenceを「丸印」で表す。

【0014】

従来装置は、VAMPIREエンベッディングスペース上のDownstream task sentenceと、Target domain sentenceとの類似度を測定し、Top-kのTarget domain sentenceを選択する。図９に示す例では、k=50の円に含まれる各Target domain sentenceを、downstream taskに関連する文として選択する。

【先行技術文献】

【非特許文献】

【0015】

【非特許文献1】Suchin Gururangan et al.「Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks」continarXiv:2004.10964v3 [cs.CL] 5 May 2020

【発明の概要】

【発明が解決しようとする課題】

【0016】

しかしながら、上述した従来技術では、Downstream task sentenceと関係のないTarget domain sentenceを選択してしまうという問題がある。

【0017】

Bag-of-wordsに基づくデータセレクション方法では、文の文脈情報を考えておらず、VAMPIREエンベッディングスペース上の類似度によって、文を選択している。このため、Bag-of-wordsに基づくデータセレクション方法で選択した文は、Downstream task sentenceと関係のないノイズとなる場合が多い。

【0018】

図１０は、従来技術の問題を説明するための図である。図１０に示す例では、Downstream task domainを「Electronic medical records domain」とし、Downstream taskではないdomainを「Disease explanation documents domain」とする。文１５を、「Behcet's disease is globalized and infectious.」とする。

【0019】

たとえば、文１５は、VAMPIREエンベッディングスペース上において、「Electronic medical records domain」の文に類似し、また、「Disease explanation documents domain」の文にも類似する。

【0020】

文１５の文脈情報と、「Electronic medical records domain」との文脈情報とが異なっている場合、Bag-of-wordsに基づくデータセレクション方法で、文１５を選択すると、選択した文１５はノイズとなってしまう。

【0021】

すなわち、Downstream task等の特定ドメインに関係のないノイズを除いて、特定ドメインに関係のあるデータを選択することが求められる。

【0022】

１つの側面では、本発明は、Downstream taskに関係のないノイズを除いて、Downstream taskに関係のあるデータを選択することができる情報処理プログラム、情報処理方法および情報処理装置を提供することを目的とする。

【課題を解決するための手段】

【0023】

第１の案では、コンピュータに次の処理を実行させる。コンピュータは、第１ドメインに属する文の第１ベクトルと、第２ドメインに属する文の第２ベクトルとを基にして、第１ベクトルに類似する第２ベクトルの文を選択する。コンピュータは、第１ドメインに属する文を用いて訓練した分類器に、選択した文を入力することで、選択した文が、第１ドメインに属する文であるか否かを判定する。コンピュータは、判定結果を基にして、選択した複数の文から、第１ドメインに属する文を抽出する。

【発明の効果】

【0024】

特定ドメインに関係のないノイズを除いて、特定ドメインに関係のあるデータを選択することができる。

【図面の簡単な説明】

【0025】

【図1】図１は、本実施例に係る情報処理装置の処理を説明するための図（１）である。

【図2】図２は、本実施例に係る情報処理装置の処理を説明するための図（２）である。

【図3】図３は、本実施例に係る情報処理装置の効果を説明するための図である。

【図4】図４は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。

【図5】図５は、本実施例に係る情報処理装置の処理手順を示すフローチャートである。

【図6】図６は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

【図7】図７は、ドメイン上のデータ分布の一例を示す図である。

【図8】図８は、ドメイン適応の従来技術を説明するための図である。

【図9】図９は、Bag-of-wordsに基づくデータセレクション方法を説明するための図である。

【図10】図１０は、従来技術の課題を説明するための図である。

【発明を実施するための形態】

【0026】

以下に、本願の開示する情報処理プログラム、情報処理方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

【実施例0027】

図１および図２は、本実施例に係る情報処理装置の処理を説明するための図である。まず、図１について説明する。情報処理装置は、Downstream taskデータ３０と、Specific Domainデータ４０とを基にして、Bag-of-wordsに基づくデータセレクションを実行する。たとえば、Downstream taskデータ３０は、図７で説明したTarget domain downstream taskのデータ１２に対応するデータである。Specific Domainデータ４０は、図７で説明したTarget domainのデータ１１に対応するデータである。

【0028】

本実施例では、情報処理装置が処理するデータの粒度を「文」として説明するが、「文章」の粒度で処理を実行してもよい。

【0029】

情報処理装置が実行する、Bag-of-wordsに基づくデータセレクションについて説明する。情報処理装置は、Downstream taskデータ３０に含まれる各文を、VAMPIRE等によって、ベクトルに変換し、VAMPIREエンベッディングスペースに配置する。Downstream taskデータ３０に含まれる文のベクトルを「第１ベクトル」と表記する。

【0030】

情報処理装置は、Specific Domainデータ４０に含まれる各文を、VAMPIRE等によって、ベクトルに変換し、VAMPIREエンベッディングスペースに配置する。Specific Domainデータ４０に含まれる文のベクトルを「第２ベクトル」と表記する。

【0031】

情報処理装置は、VAMPIREエンベッディングスペースの各第１ベクトルと、各第２ベクトルとを類似度を計算し、第１ベクトルと類似する第２ベクトルの文を選択する。たとえば、情報処理装置は、図９で説明した処理と同様にして、第１ベクトルと類似する第２ベクトルの文を選択する。なお、情報処理装置は、第１ベクトルの平均ベクトルとの距離が、閾値未満となる第２ベクトルの文を選択してもよい。

【0032】

情報処理装置は、Downstream taskデータ３０の各文と、Bag-of-wordsに基づくデータセレクションによって選択した文を、データクラスタ５０に登録する。

【0033】

続いて、情報処理装置は、データクラスタ５０に含まれる文を、分類器Ｍ１に入力し、分類器Ｍ１の出力データを基にして、分類器Ｍ１に入力した文が、Downstream taskデータ３０に属する文であるか否かを判定する。

【0034】

たとえば、分類器Ｍ１の出力データには、分類器Ｍ１に入力した文が、Downstream taskデータ３０の文である確からしさの値が含まれる。以下の説明では、分類器Ｍ１に入力した文が、Downstream taskデータ３０の文（Downstream taskデータ３０のドメインに属する文）である確からしさの値を「尤度」と表記する。

【0035】

情報処理装置は、分類器Ｍ１の出力データの尤度が、閾値以上である場合に、分類器Ｍ１に入力した文が、Downstream taskデータ３０に属する文であると判定する。情報処理装置は、データクラスタ５０に含まれる各文について上記処理を繰り返し実行する。情報処理装置は、データクラスタ５０に含まれる各文のうち、Downstream taskデータ３０に属する文であると判定した文を抽出し、抽出データ６０とする。

【0036】

ここで、分類器Ｍ１は、Downstream taskデータ３０の各文に基づいて、予め訓練された分類器である。分類器Ｍ１は、ＮＮ等である。たとえば、分類器Ｍ１を訓練する場合に利用された学習データセットには、複数の学習データが含まれる。学習データには、入力データと、ラベルとの組が設定される。入力データは、文のデータである。ラベルは、入力データの文がDownstream taskデータ３０に属する文である場合には「１」が設定される。一方、ラベルは、入力データの文がDownstream taskデータ３０に属さない文である場合には「０」が設定される。

【0037】

次に、図２の説明に移行する。情報処理装置は、Downstream taskデータ３０の各文と、抽出データ６０とを基にして、言語モデルＭ２の学習を実行する。言語モデルＭ２は、Bidirectional Encoder Representations from Transformers（BERT）等である。

【0038】

情報処理装置は、言語モデルＭ２を、ＮＥＲ（Name Entity Recognition）モデルＭ３に接続する。言語モデルＭ２の出力結果が、ＮＥＲモデルＭ３に入力され、ＮＥＲモデルＭ３から、分類結果が出力される。情報処理装置は、言語モデルＭ２およびＮＥＲモデルＭ３に対して、Fine-tuningを実行する。たとえば、言語モデルＭ２に文を入力すると、ＮＥＲから、文に含まれる各単語のラベルが出力される。

【0039】

上記のように、本実施例に係る情報処理装置によれば、Bag-of-wordsに基づき選択した文を、訓練済みの分類器Ｍ１に入力し、選択した文が、Downstream taskデータ３０に属する文であるか否かを判定する。情報処理装置は、選択した文のうち、Downstream taskデータ３０に属する文を、抽出する。これによって、Downstream taskに関係のないノイズを除いて、Downstream taskに関係のあるデータを選択することができる。

【0040】

図３は、本実施例に係る情報処理装置の効果を説明するための図である。図３に示す例では、Downstream task domainを「Electronic medical records domain」とし、Downstream taskではないdomainを「Disease explanation documents domain」とする。文１５を、「Behcet's disease is globalized and infectious.」とする。

【0041】

たとえば、文１５は、VAMPIREエンベッディングスペース上において、「Electronic medical records domain」の文に類似し、また、「Disease explanation documents domain」の文にも類似する。図１０で説明したように、文１５の文脈情報と、「Electronic medical records domain」との文脈情報とが異なっている場合、Bag-of-wordsに基づくデータセレクション方法で、文１５をそのまま選択すると、選択した文１５はノイズとなってしまう。

【0042】

これに対して、本実施例の情報処理装置は、文１５を、分類器Ｍ１に入力し、文１５が、「Electronic medical records domain」に属する文であるか否かを判定する。たとえば、文１５が、「Electronic medical records domain」に属する文であれば、文１５を選択することで、Downstream task Domainに対していい影響（Positive）を与えることができる。一方、文１５が、「Electronic medical records domain」に属さない文であれば、文１５を選択しないことで、Downstream task Domainに対して悪い影響（negative）を与えることを抑止できる。

【0043】

次に、図１、２に示した処理を実行する情報処理装置の構成例について説明する。図４は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図４に示すように、この情報処理装置１００は、通信部１１０と、入力部１２０と、表示部１３０と、記憶部１４０と、制御部１５０とを有する。

【0044】

通信部１１０は、ネットワークを介して、外部装置等との間でデータ通信を実行する。後述する制御部１５０は、通信部１１０を介して、外部装置との間でデータをやり取りする。

【0045】

入力部１２０は、情報処理装置１００の制御部１５０に各種の情報を入力する入力装置である。入力部１２０は、キーボードやマウス、タッチパネル等に対応する。

【0046】

表示部１３０は、制御部１５０から出力される情報を表示する表示装置である。

【0047】

記憶部１４０は、Downstream taskデータ３０と、Specific Domainデータ４０と、データクラスタ５０と、抽出データ６０と、学習データセット１４１とを有する。また、記憶部１４０は、分類器Ｍ１と、言語モデルＭ２と、ＮＥＲモデルＭ３とを有する。記憶部１４０は、メモリなどの記憶装置である。

【0048】

Downstream taskデータ３０、Specific Domainデータ４０、データクラスタ５０、抽出データ６０に関する説明は、図１で説明した、Downstream taskデータ３０と、Specific Domainデータ４０と、データクラスタ５０と、抽出データ６０と同様である。

【0049】

分類器Ｍ１に関する説明は、図１で説明した分類器Ｍ１に関する説明と同様である。言語モデルＭ２、ＮＥＲモデルＭ３に関する説明は、図２で説明した言語モデルＭ２、ＮＥＲモデルＭ３に関する説明と同様である。

【0050】

学習データセット１４１は、分類器Ｍ１を訓練する場合に利用するデータである。学習データセット１４１には、複数の学習データが含まれる。学習データには、入力データと、ラベルとの組が設定される。入力データは、文のデータである。ラベルは、入力データの文がDownstream taskデータ３０に属する文である場合には「１」が設定される。一方、ラベルは、入力データの文がDownstream taskデータ３０に属さない文である場合には「０」が設定される。

【0051】

制御部１５０は、選択部１５１と、判定部１５２と、言語モデル訓練部１５３と、調整部１５４と、分類器訓練部１５５とを有する。制御部１５０は、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等である。

【0052】

選択部１５１は、Downstream taskデータ３０と、Specific Domainデータ４０とを基にして、Bag-of-wordsに基づくデータセレクションを実行する。

【0053】

たとえば、選択部１５１は、Downstream taskデータ３０に含まれる各文を、VAMPIRE等によって、第１ベクトルに変換する。選択部１５１は、Specific Domainデータ４０に含まれる各文を、VAMPIRE等によって、第２ベクトルに変換する。

【0054】

選択部１５１は、VAMPIREエンベッディングスペースの各第１ベクトルと、各第２ベクトルとを類似度を計算し、第１ベクトルと類似する第２ベクトルの文を選択する。選択部１５１は、Downstream taskデータ３０の各文と、Bag-of-wordsに基づくデータセレクションによって選択した文を、データクラスタ５０に登録する。

【0055】

判定部１５２は、データクラスタ５０に含まれる文を、訓練済みの分類器Ｍ１に入力し、分類器Ｍ１の出力データを基にして、分類器Ｍ１に入力した文が、Downstream taskデータ３０に属する文であるか否かを判定する。

【0056】

判定部１５２は、分類器Ｍ１の出力データの尤度が、閾値以上である場合に、分類器Ｍ１に入力した文が、Downstream taskデータ３０に属する文であると判定する。判定部１５２は、データクラスタ５０に含まれる各文について上記処理を繰り返し実行する。判定部１５２は、データクラスタ５０に含まれる各文のうち、Downstream taskデータ３０に属する文であると判定した文を抽出し、抽出データ６０とする。

【0057】

言語モデル訓練部１５３は、Downstream taskデータ３０の各文と、抽出データ６０の各文とを基にして、言語モデルＭ２の学習（訓練）を実行する。

【0058】

調整部１５４は、Downstream taskデータ３０を用いて、言語モデルＭ２およびＮＥＲモデルＭ３のFine-tuningを実行する。

【0059】

分類器訓練部１５５は、学習データセット１４１を基にして、分類器Ｍ１を訓練する。分類器訓練部１５５は、誤差逆伝播法に基づいて、分類器Ｍ１に入力データを入力し、分類器Ｍ１の出力と、ラベルとの誤差が小さくなるように、分類器Ｍ１を訓練する。

【0060】

次に、本実施例に係る情報処理装置１００の処理手順の一例について説明する。図５は、本実施例に係る情報処理装置の処理手順を示すフローチャートである。図５に示すように、情報処理装置１００の選択部１５１は、Downstream taskデータ３０と、Specific Domainデータ４０とを基にして、Bag-of-wordsに基づくデータセレクションを実行する（ステップＳ１０１）。

【0061】

情報処理装置１００の判定部１５２は、データクラスタ５０の文を、訓練済みの分類器Ｍ１に入力し、文がDownstream taskデータ３０に属する文であるか否かを判定する（ステップＳ１０２）。判定部１５２は、判定結果を基にして、データクラスタ５０から文を抽出し、抽出データ６０に登録する（ステップＳ１０３）。

【0062】

情報処理装置１００の言語モデル訓練部１５３は、Downstream taskデータ３０の各文と、抽出データ６０の各文とを基にして、言語モデルＭ２の学習（訓練）を実行する（ステップＳ１０４）。

【0063】

情報処理装置１００の調整部１５４は、Downstream taskデータ３０を用いて、言語モデルＭ２およびＮＥＲモデルＭ３のFine-tuningを実行する（ステップＳ１０５）。

【0064】

次に、本実施例に係る情報処理装置１００の効果について説明する。情報処理装置１００は、Bag-of-wordsに基づき選択した文を、訓練済みの分類器Ｍ１に入力し、選択した文が、Downstream taskデータ３０に属する文であるか否かを判定する。情報処理装置１００は、選択した文のうち、Downstream taskデータ３０に属する文を抽出する。これによって、Downstream task等の特定ドメインに関係のないノイズを除いて、特定ドメインに関係のあるデータを選択することができる。

【0065】

情報処理装置１００は、学習データセット１４１を基にして、分類器Ｍ１を訓練する。これによって、Bag-of-wordsに基づき選択した文が、Downstream taskデータ３０に属する文であるか否かを判定することができる。

【0066】

情報処理装置１００は、Bag-of-wordsに基づき選択した文を、訓練済みの分類器Ｍ１に入力し、分類器Ｍ１から出力される尤度が閾値以上である場合に、対象の文が、Downstream taskデータ３０に属する文であるか否かを判定する。これによって、Downstream taskデータ３０に属する文であるか否かを効率的に判定することができる。

【0067】

情報処理装置１００は、Bag-of-wordsに基づき選択した文のうち、分類器Ｍ１を用いて、Downstream taskデータ３０に属する文を抽出し、抽出した文を用いて、言語モデルＭ２を訓練する。これによって、ノイズを除いた分によって、言語モデルＭ２を訓練でき、Downstream Taskのパフォーマンスを向上させることができる。

【0068】

次に、上述した情報処理装置１００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図６は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

【0069】

図６に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０１と、ユーザからのデータの入力を受け付ける入力装置２０２と、ディスプレイ２０３とを有する。また、コンピュータ２００は、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置２０４と、インタフェース装置２０５とを有する。また、コンピュータ２００は、各種情報を一時記憶するＲＡＭ２０６と、ハードディスク装置２０７とを有する。そして、各装置２０１～２０７は、バス２０８に接続される。

【0070】

ハードディスク装置２０７は、選択プログラム２０７ａ、判定プログラム２０７ｂ、言語モデル訓練プログラム２０７ｃ、調整プログラム２０７ｄ、分類器訓練プログラム２０７ｅを有する。また、ＣＰＵ２０１は、各プログラム２０７ａ～２０７ｅを読み出してＲＡＭ２０６に展開する。

【0071】

選択プログラム２０７ａは、選択プロセス２０６ａとして機能する。判定プログラム２０７ｂは、判定プロセス２０６ｂとして機能する。言語モデル訓練プログラム２０７ｃは、言語モデル訓練プロセス２０６ｃとして機能する。調整プログラム２０７ｄは、調整プロセス２０６ｄとして機能する。分類器訓練プログラム２０７ｅは、分類器訓練プロセス２０６ｅとして機能する。

【0072】

選択プロセス２０６ａの処理は、選択部１５１の処理に対応する。判定プロセス２０６ｂの処理は、判定部１５２の処理に対応する。言語モデル訓練プロセス２０６ｃの処理は、言語モデル訓練部１５３の処理に対応する。調整プロセス２０６ｄの処理は、調整部１５４の処理に対応する。分類器訓練プロセス２０６ｅの処理は、分類器訓練部１５５の処理に対応する。

【0073】

なお、各プログラム２０７ａ～２０７ｅについては、必ずしも最初からハードディスク装置２０７に記憶させておかなくても良い。例えば、コンピュータ２００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤ、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ２００が各プログラム２０７ａ～２０７ｅを読み出して実行するようにしてもよい。

【0074】

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

【0075】

（付記１）第１ドメインに属する文の第１ベクトルと、第２ドメインに属する文の第２ベクトルとを基にして、第１ベクトルに類似する第２ベクトルの文を選択し、
前記第１ドメインに属する文を用いて訓練した分類器に、選択した文を入力することで、前記選択した文が、前記第１ドメインに属する文であるか否かを判定し、
判定結果を基にして、選択した複数の文から、前記第１ドメインに属する文を抽出する
処理をコンピュータに実行させることを特徴とする情報処理プログラム。

【0076】

（付記２）ある文の入力データと、前記ある文が前記第１ドメインに属する文であるか否かを示すラベルとの組を学習データとして、前記分類器を訓練する処理を更にコンピュータに実行させることを特徴とする付記１に記載の情報処理プログラム。

【0077】

（付記３）前記分類器は、文が入力された場合に、入力された文が前記第１ドメインに属する文である尤度を出力し、前記判定する処理は、前記選択した文を、前記分類器に入力した際に出力される尤度が閾値以上である場合に、前記選択した文が、前記第１ドメインに属する文であると判定することを特徴とする付記１に記載の情報処理プログラム。

【0078】

（付記４）前記抽出する処理によって抽出された文と、前記第１ドメインに属する文とを基にして、言語モデルを訓練する処理を更にコンピュータに実行させることを特徴とする付記１に記載の情報処理プログラム。

【0079】

（付記５）第１ドメインに属する文の第１ベクトルと、第２ドメインに属する文の第２ベクトルとを基にして、第１ベクトルに類似する第２ベクトルの文を選択し、
前記第１ドメインに属する文を用いて訓練した分類器に、選択した文を入力することで、前記選択した文が、前記第１ドメインに属する文であるか否かを判定し、
判定結果を基にして、選択した複数の文から、前記第１ドメインに属する文を抽出する
処理をコンピュータが実行することを特徴とする情報処理方法。

【0080】

（付記６）ある文の入力データと、前記ある文が前記第１ドメインに属する文であるか否かを示すラベルとの組を学習データとして、前記分類器を訓練する処理を更にコンピュータが実行することを特徴とする付記５に記載の情報処理方法。

【0081】

（付記７）前記分類器は、文が入力された場合に、入力された文が前記第１ドメインに属する文である尤度を出力し、前記判定する処理は、前記選択した文を、前記分類器に入力した際に出力される尤度が閾値以上である場合に、前記選択した文が、前記第１ドメインに属する文であると判定することを特徴とする付記５に記載の情報処理方法。

【0082】

（付記８）前記抽出する処理によって抽出された文と、前記第１ドメインに属する文とを基にして、言語モデルを訓練する処理を更にコンピュータが実行することを特徴とする付記５に記載の情報処理方法。

【0083】

（付記９）第１ドメインに属する文の第１ベクトルと、第２ドメインに属する文の第２ベクトルとを基にして、第１ベクトルに類似する第２ベクトルの文を選択し、
前記第１ドメインに属する文を用いて訓練した分類器に、選択した文を入力することで、前記選択した文が、前記第１ドメインに属する文であるか否かを判定し、
判定結果を基にして、選択した複数の文から、前記第１ドメインに属する文を抽出する
処理を実行する制御部を有する情報処理装置。

【0084】

（付記１０）前記制御部は、ある文の入力データと、前記ある文が前記第１ドメインに属する文であるか否かを示すラベルとの組を学習データとして、前記分類器を訓練する処理を更に実行することを特徴とする付記９に記載の情報処理装置。

【0085】

（付記１１）前記分類器は、文が入力された場合に、入力された文が前記第１ドメインに属する文である尤度を出力し、前記判定する処理は、前記選択した文を、前記分類器に入力した際に出力される尤度が閾値以上である場合に、前記選択した文が、前記第１ドメインに属する文であると判定することを特徴とする付記９に記載の情報処理装置。

【0086】

（付記１２）前記制御部は、前記抽出する処理によって抽出された文と、前記第１ドメインに属する文とを基にして、言語モデルを訓練する処理を更に実行することを特徴とする付記９に記載の情報処理装置。

【符号の説明】

【0087】

１００情報処理装置
１１０通信部
１２０入力部
１３０表示部
１４０記憶部
１４１学習データセット
１５０制御部
１５１選択部
１５２判定部
１５３言語モデル訓練部
１５４調整部
１５５分類器訓練部

【図1】