IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-58900情報処理プログラム、情報処理方法および情報処理装置
<>
  • 特開-情報処理プログラム、情報処理方法および情報処理装置 図1
  • 特開-情報処理プログラム、情報処理方法および情報処理装置 図2
  • 特開-情報処理プログラム、情報処理方法および情報処理装置 図3
  • 特開-情報処理プログラム、情報処理方法および情報処理装置 図4
  • 特開-情報処理プログラム、情報処理方法および情報処理装置 図5
  • 特開-情報処理プログラム、情報処理方法および情報処理装置 図6
  • 特開-情報処理プログラム、情報処理方法および情報処理装置 図7
  • 特開-情報処理プログラム、情報処理方法および情報処理装置 図8
  • 特開-情報処理プログラム、情報処理方法および情報処理装置 図9
  • 特開-情報処理プログラム、情報処理方法および情報処理装置 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024058900
(43)【公開日】2024-04-30
(54)【発明の名称】情報処理プログラム、情報処理方法および情報処理装置
(51)【国際特許分類】
   G06F 16/35 20190101AFI20240422BHJP
【FI】
G06F16/35
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2022166303
(22)【出願日】2022-10-17
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】梁 俊
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
5B175HB03
(57)【要約】
【課題】特定ドメインに関係のないノイズを除いて、特定ドメインに関係のあるデータを選択すること。
【解決手段】情報処理装置は、第1ドメインに属する文の第1ベクトルと、第2ドメインに属する文の第2ベクトルとを基にして、第1ベクトルに類似する第2ベクトルの文を選択する。情報処理装置は、第1ドメインに属する文を用いて訓練した分類器に、選択した文を入力することで、選択した文が、第1ドメインに属する文であるか否かを判定する。情報処理装置は、判定結果を基にして、選択した複数の文から、第1ドメインに属する文を抽出する。
【選択図】図4
【特許請求の範囲】
【請求項1】
第1ドメインに属する文の第1ベクトルと、第2ドメインに属する文の第2ベクトルとを基にして、第1ベクトルに類似する第2ベクトルの文を選択し、
前記第1ドメインに属する文を用いて訓練した分類器に、選択した文を入力することで、前記選択した文が、前記第1ドメインに属する文であるか否かを判定し、
判定結果を基にして、選択した複数の文から、前記第1ドメインに属する文を抽出する
処理をコンピュータに実行させることを特徴とする情報処理プログラム。
【請求項2】
ある文の入力データと、前記ある文が前記第1ドメインに属する文であるか否かを示すラベルとの組を学習データとして、前記分類器を訓練する処理を更にコンピュータに実行させることを特徴とする請求項1に記載の情報処理プログラム。
【請求項3】
前記分類器は、文が入力された場合に、入力された文が前記第1ドメインに属する文である尤度を出力し、前記判定する処理は、前記選択した文を、前記分類器に入力した際に出力される尤度が閾値以上である場合に、前記選択した文が、前記第1ドメインに属する文であると判定することを特徴とする請求項1に記載の情報処理プログラム。
【請求項4】
前記抽出する処理によって抽出された文と、前記第1ドメインに属する文とを基にして、言語モデルを訓練する処理を更にコンピュータに実行させることを特徴とする請求項1に記載の情報処理プログラム。
【請求項5】
第1ドメインに属する文の第1ベクトルと、第2ドメインに属する文の第2ベクトルとを基にして、第1ベクトルに類似する第2ベクトルの文を選択し、
前記第1ドメインに属する文を用いて訓練した分類器に、選択した文を入力することで、前記選択した文が、前記第1ドメインに属する文であるか否かを判定し、
判定結果を基にして、選択した複数の文から、前記第1ドメインに属する文を抽出する
処理をコンピュータが実行することを特徴とする情報処理方法。
【請求項6】
第1ドメインに属する文の第1ベクトルと、第2ドメインに属する文の第2ベクトルとを基にして、第1ベクトルに類似する第2ベクトルの文を選択し、
前記第1ドメインに属する文を用いて訓練した分類器に、選択した文を入力することで、前記選択した文が、前記第1ドメインに属する文であるか否かを判定し、
判定結果を基にして、選択した複数の文から、前記第1ドメインに属する文を抽出する
処理を実行する制御部を有する情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理プログラム等に関する。
【背景技術】
【0002】
自然言語処理において、ドメイン適応(Domain Adaptation)と呼ばれる技術がある。たとえば、ドメイン適応は、Sourceドメインと、Targetドメインとのサンプル間のドメインshiftを軽減するという問題に取り組む技術である。
【0003】
図7は、ドメイン上のデータ分布の一例を示す図である。図7に示す例では、空間上に、Original LM domainのデータ10、Target domainのデータ11、Target domain downstream taskのデータ12が含まれる。
【0004】
Original LM domainのデータ10は、インターネット上に存在する文のデータに対応する。Target domainのデータ11は、Target domainのコーパスデータである。Target domain downstream taskのデータ12は、downstream taskを実行するために選択された文のデータである。
【0005】
以下では、Original LM domainのデータ10、Target domainのデータ11、Target domain downstream taskのデータ12を用いた、ドメイン適応の従来技術の一例について説明する。
【0006】
図8は、ドメイン適応の従来技術を説明するための図である。たとえば、従来技術によるドメイン適応では、ステップS10、ステップS11、ステップS12の順に、処理を実行する。ドメイン適応を実行する従来の装置を、従来装置と表記する。
【0007】
従来装置は、ステップS10において、Original LM domainのデータ10を用いて、第1モデル10a(Pretrained language model)の学習を実行する。第1モデル10aは、自然言語処理モデルである。第1モデル10aは、NN(Neural Network)等である。たとえば、第1モデル10aに文を入力すると、文に含まれる各単語のベクトルが出力される。
【0008】
従来装置は、ステップS11において、Target domainのデータ11を用いて、第1モデル10aの再学習を実行することで、第2モデル11a(Re-pretrained language model)を得る。
【0009】
従来装置は、ステップS12において、第2モデル11aを、NERモデル12aに接続し、Target domain downstream taskのデータ12を用いて、第2モデル11a、NERモデル12aに対するFine-tuningを実行する。NERモデル12aは、分類モデルである。NERモデル12aは、NN等である。
【0010】
ステップS10、S11では、Original LM domainのデータ10、Target domainのデータ11に正解ラベルは付与されておらず、教師なし学習が実行される。ステップS12では、Target domain downstream taskのデータ12に正解ラベルが付与されており、教師あり学習が実行される。
【0011】
ここで、Target domainのデータ11に含まれる複数の文のうち、より多くの文が、downstream taskに関連する文であるほど、downstream taskのパフォーマンスを高めることができる。たとえば、従来技術では、Bag-of-wordsに基づくデータセレクション方法によって、Target domainのデータ11に含まれる複数の文から、downstream taskに関連する文を選択する。Bag-of-wordsに基づくデータセレクションを実行する従来の装置も、従来装置と表記する。
【0012】
図9は、Bag-of-wordsに基づくデータセレクション方法を説明するための図である。従来装置は、Downstream task sentenceを、VAMPIRE等によって、ベクトルに変換し、VAMPIREエンベッディングスペースに配置する。Downstream task sentenceは、Target domain downstream taskのデータ12に含まれる文のデータである。従来装置は、他のDownstream task sentenceについても同様に、上記処理を実行する。VAMPIREエンベッディングスペース上の各Downstream task sentenceを「三角印」で表す。
【0013】
従来装置は、Target domain sentenceを、VAMPIREによって、ベクトルに変換し、VAMPIREエンベッディングスペースに配置する。Target domain sentenceは、Target domainのデータ11に含まれる文のデータである。従来装置は、他のTarget domain sentenceについても同様に、上記処理を実行する。VAMPIREエンベッディングスペース上の各Target domain sentenceを「丸印」で表す。
【0014】
従来装置は、VAMPIREエンベッディングスペース上のDownstream task sentenceと、Target domain sentenceとの類似度を測定し、Top-kのTarget domain sentenceを選択する。図9に示す例では、k=50の円に含まれる各Target domain sentenceを、downstream taskに関連する文として選択する。
【先行技術文献】
【非特許文献】
【0015】
【非特許文献1】Suchin Gururangan et al.「Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks」continarXiv:2004.10964v3 [cs.CL] 5 May 2020
【発明の概要】
【発明が解決しようとする課題】
【0016】
しかしながら、上述した従来技術では、Downstream task sentenceと関係のないTarget domain sentenceを選択してしまうという問題がある。
【0017】
Bag-of-wordsに基づくデータセレクション方法では、文の文脈情報を考えておらず、VAMPIREエンベッディングスペース上の類似度によって、文を選択している。このため、Bag-of-wordsに基づくデータセレクション方法で選択した文は、Downstream task sentenceと関係のないノイズとなる場合が多い。
【0018】
図10は、従来技術の問題を説明するための図である。図10に示す例では、Downstream task domainを「Electronic medical records domain」とし、Downstream taskではないdomainを「Disease explanation documents domain」とする。文15を、「Behcet's disease is globalized and infectious.」とする。
【0019】
たとえば、文15は、VAMPIREエンベッディングスペース上において、「Electronic medical records domain」の文に類似し、また、「Disease explanation documents domain」の文にも類似する。
【0020】
文15の文脈情報と、「Electronic medical records domain」との文脈情報とが異なっている場合、Bag-of-wordsに基づくデータセレクション方法で、文15を選択すると、選択した文15はノイズとなってしまう。
【0021】
すなわち、Downstream task等の特定ドメインに関係のないノイズを除いて、特定ドメインに関係のあるデータを選択することが求められる。
【0022】
1つの側面では、本発明は、Downstream taskに関係のないノイズを除いて、Downstream taskに関係のあるデータを選択することができる情報処理プログラム、情報処理方法および情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0023】
第1の案では、コンピュータに次の処理を実行させる。コンピュータは、第1ドメインに属する文の第1ベクトルと、第2ドメインに属する文の第2ベクトルとを基にして、第1ベクトルに類似する第2ベクトルの文を選択する。コンピュータは、第1ドメインに属する文を用いて訓練した分類器に、選択した文を入力することで、選択した文が、第1ドメインに属する文であるか否かを判定する。コンピュータは、判定結果を基にして、選択した複数の文から、第1ドメインに属する文を抽出する。
【発明の効果】
【0024】
特定ドメインに関係のないノイズを除いて、特定ドメインに関係のあるデータを選択することができる。
【図面の簡単な説明】
【0025】
図1図1は、本実施例に係る情報処理装置の処理を説明するための図(1)である。
図2図2は、本実施例に係る情報処理装置の処理を説明するための図(2)である。
図3図3は、本実施例に係る情報処理装置の効果を説明するための図である。
図4図4は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。
図5図5は、本実施例に係る情報処理装置の処理手順を示すフローチャートである。
図6図6は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
図7図7は、ドメイン上のデータ分布の一例を示す図である。
図8図8は、ドメイン適応の従来技術を説明するための図である。
図9図9は、Bag-of-wordsに基づくデータセレクション方法を説明するための図である。
図10図10は、従来技術の課題を説明するための図である。
【発明を実施するための形態】
【0026】
以下に、本願の開示する情報処理プログラム、情報処理方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
【実施例0027】
図1および図2は、本実施例に係る情報処理装置の処理を説明するための図である。まず、図1について説明する。情報処理装置は、Downstream taskデータ30と、Specific Domainデータ40とを基にして、Bag-of-wordsに基づくデータセレクションを実行する。たとえば、Downstream taskデータ30は、図7で説明したTarget domain downstream taskのデータ12に対応するデータである。Specific Domainデータ40は、図7で説明したTarget domainのデータ11に対応するデータである。
【0028】
本実施例では、情報処理装置が処理するデータの粒度を「文」として説明するが、「文章」の粒度で処理を実行してもよい。
【0029】
情報処理装置が実行する、Bag-of-wordsに基づくデータセレクションについて説明する。情報処理装置は、Downstream taskデータ30に含まれる各文を、VAMPIRE等によって、ベクトルに変換し、VAMPIREエンベッディングスペースに配置する。Downstream taskデータ30に含まれる文のベクトルを「第1ベクトル」と表記する。
【0030】
情報処理装置は、Specific Domainデータ40に含まれる各文を、VAMPIRE等によって、ベクトルに変換し、VAMPIREエンベッディングスペースに配置する。Specific Domainデータ40に含まれる文のベクトルを「第2ベクトル」と表記する。
【0031】
情報処理装置は、VAMPIREエンベッディングスペースの各第1ベクトルと、各第2ベクトルとを類似度を計算し、第1ベクトルと類似する第2ベクトルの文を選択する。たとえば、情報処理装置は、図9で説明した処理と同様にして、第1ベクトルと類似する第2ベクトルの文を選択する。なお、情報処理装置は、第1ベクトルの平均ベクトルとの距離が、閾値未満となる第2ベクトルの文を選択してもよい。
【0032】
情報処理装置は、Downstream taskデータ30の各文と、Bag-of-wordsに基づくデータセレクションによって選択した文を、データクラスタ50に登録する。
【0033】
続いて、情報処理装置は、データクラスタ50に含まれる文を、分類器M1に入力し、分類器M1の出力データを基にして、分類器M1に入力した文が、Downstream taskデータ30に属する文であるか否かを判定する。
【0034】
たとえば、分類器M1の出力データには、分類器M1に入力した文が、Downstream taskデータ30の文である確からしさの値が含まれる。以下の説明では、分類器M1に入力した文が、Downstream taskデータ30の文(Downstream taskデータ30のドメインに属する文)である確からしさの値を「尤度」と表記する。
【0035】
情報処理装置は、分類器M1の出力データの尤度が、閾値以上である場合に、分類器M1に入力した文が、Downstream taskデータ30に属する文であると判定する。情報処理装置は、データクラスタ50に含まれる各文について上記処理を繰り返し実行する。情報処理装置は、データクラスタ50に含まれる各文のうち、Downstream taskデータ30に属する文であると判定した文を抽出し、抽出データ60とする。
【0036】
ここで、分類器M1は、Downstream taskデータ30の各文に基づいて、予め訓練された分類器である。分類器M1は、NN等である。たとえば、分類器M1を訓練する場合に利用された学習データセットには、複数の学習データが含まれる。学習データには、入力データと、ラベルとの組が設定される。入力データは、文のデータである。ラベルは、入力データの文がDownstream taskデータ30に属する文である場合には「1」が設定される。一方、ラベルは、入力データの文がDownstream taskデータ30に属さない文である場合には「0」が設定される。
【0037】
次に、図2の説明に移行する。情報処理装置は、Downstream taskデータ30の各文と、抽出データ60とを基にして、言語モデルM2の学習を実行する。言語モデルM2は、Bidirectional Encoder Representations from Transformers(BERT)等である。
【0038】
情報処理装置は、言語モデルM2を、NER(Name Entity Recognition)モデルM3に接続する。言語モデルM2の出力結果が、NERモデルM3に入力され、NERモデルM3から、分類結果が出力される。情報処理装置は、言語モデルM2およびNERモデルM3に対して、Fine-tuningを実行する。たとえば、言語モデルM2に文を入力すると、NERから、文に含まれる各単語のラベルが出力される。
【0039】
上記のように、本実施例に係る情報処理装置によれば、Bag-of-wordsに基づき選択した文を、訓練済みの分類器M1に入力し、選択した文が、Downstream taskデータ30に属する文であるか否かを判定する。情報処理装置は、選択した文のうち、Downstream taskデータ30に属する文を、抽出する。これによって、Downstream taskに関係のないノイズを除いて、Downstream taskに関係のあるデータを選択することができる。
【0040】
図3は、本実施例に係る情報処理装置の効果を説明するための図である。図3に示す例では、Downstream task domainを「Electronic medical records domain」とし、Downstream taskではないdomainを「Disease explanation documents domain」とする。文15を、「Behcet's disease is globalized and infectious.」とする。
【0041】
たとえば、文15は、VAMPIREエンベッディングスペース上において、「Electronic medical records domain」の文に類似し、また、「Disease explanation documents domain」の文にも類似する。図10で説明したように、文15の文脈情報と、「Electronic medical records domain」との文脈情報とが異なっている場合、Bag-of-wordsに基づくデータセレクション方法で、文15をそのまま選択すると、選択した文15はノイズとなってしまう。
【0042】
これに対して、本実施例の情報処理装置は、文15を、分類器M1に入力し、文15が、「Electronic medical records domain」に属する文であるか否かを判定する。たとえば、文15が、「Electronic medical records domain」に属する文であれば、文15を選択することで、Downstream task Domainに対していい影響(Positive)を与えることができる。一方、文15が、「Electronic medical records domain」に属さない文であれば、文15を選択しないことで、Downstream task Domainに対して悪い影響(negative)を与えることを抑止できる。
【0043】
次に、図1、2に示した処理を実行する情報処理装置の構成例について説明する。図4は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図4に示すように、この情報処理装置100は、通信部110と、入力部120と、表示部130と、記憶部140と、制御部150とを有する。
【0044】
通信部110は、ネットワークを介して、外部装置等との間でデータ通信を実行する。後述する制御部150は、通信部110を介して、外部装置との間でデータをやり取りする。
【0045】
入力部120は、情報処理装置100の制御部150に各種の情報を入力する入力装置である。入力部120は、キーボードやマウス、タッチパネル等に対応する。
【0046】
表示部130は、制御部150から出力される情報を表示する表示装置である。
【0047】
記憶部140は、Downstream taskデータ30と、Specific Domainデータ40と、データクラスタ50と、抽出データ60と、学習データセット141とを有する。また、記憶部140は、分類器M1と、言語モデルM2と、NERモデルM3とを有する。記憶部140は、メモリなどの記憶装置である。
【0048】
Downstream taskデータ30、Specific Domainデータ40、データクラスタ50、抽出データ60に関する説明は、図1で説明した、Downstream taskデータ30と、Specific Domainデータ40と、データクラスタ50と、抽出データ60と同様である。
【0049】
分類器M1に関する説明は、図1で説明した分類器M1に関する説明と同様である。言語モデルM2、NERモデルM3に関する説明は、図2で説明した言語モデルM2、NERモデルM3に関する説明と同様である。
【0050】
学習データセット141は、分類器M1を訓練する場合に利用するデータである。学習データセット141には、複数の学習データが含まれる。学習データには、入力データと、ラベルとの組が設定される。入力データは、文のデータである。ラベルは、入力データの文がDownstream taskデータ30に属する文である場合には「1」が設定される。一方、ラベルは、入力データの文がDownstream taskデータ30に属さない文である場合には「0」が設定される。
【0051】
制御部150は、選択部151と、判定部152と、言語モデル訓練部153と、調整部154と、分類器訓練部155とを有する。制御部150は、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等である。
【0052】
選択部151は、Downstream taskデータ30と、Specific Domainデータ40とを基にして、Bag-of-wordsに基づくデータセレクションを実行する。
【0053】
たとえば、選択部151は、Downstream taskデータ30に含まれる各文を、VAMPIRE等によって、第1ベクトルに変換する。選択部151は、Specific Domainデータ40に含まれる各文を、VAMPIRE等によって、第2ベクトルに変換する。
【0054】
選択部151は、VAMPIREエンベッディングスペースの各第1ベクトルと、各第2ベクトルとを類似度を計算し、第1ベクトルと類似する第2ベクトルの文を選択する。選択部151は、Downstream taskデータ30の各文と、Bag-of-wordsに基づくデータセレクションによって選択した文を、データクラスタ50に登録する。
【0055】
判定部152は、データクラスタ50に含まれる文を、訓練済みの分類器M1に入力し、分類器M1の出力データを基にして、分類器M1に入力した文が、Downstream taskデータ30に属する文であるか否かを判定する。
【0056】
判定部152は、分類器M1の出力データの尤度が、閾値以上である場合に、分類器M1に入力した文が、Downstream taskデータ30に属する文であると判定する。判定部152は、データクラスタ50に含まれる各文について上記処理を繰り返し実行する。判定部152は、データクラスタ50に含まれる各文のうち、Downstream taskデータ30に属する文であると判定した文を抽出し、抽出データ60とする。
【0057】
言語モデル訓練部153は、Downstream taskデータ30の各文と、抽出データ60の各文とを基にして、言語モデルM2の学習(訓練)を実行する。
【0058】
調整部154は、Downstream taskデータ30を用いて、言語モデルM2およびNERモデルM3のFine-tuningを実行する。
【0059】
分類器訓練部155は、学習データセット141を基にして、分類器M1を訓練する。分類器訓練部155は、誤差逆伝播法に基づいて、分類器M1に入力データを入力し、分類器M1の出力と、ラベルとの誤差が小さくなるように、分類器M1を訓練する。
【0060】
次に、本実施例に係る情報処理装置100の処理手順の一例について説明する。図5は、本実施例に係る情報処理装置の処理手順を示すフローチャートである。図5に示すように、情報処理装置100の選択部151は、Downstream taskデータ30と、Specific Domainデータ40とを基にして、Bag-of-wordsに基づくデータセレクションを実行する(ステップS101)。
【0061】
情報処理装置100の判定部152は、データクラスタ50の文を、訓練済みの分類器M1に入力し、文がDownstream taskデータ30に属する文であるか否かを判定する(ステップS102)。判定部152は、判定結果を基にして、データクラスタ50から文を抽出し、抽出データ60に登録する(ステップS103)。
【0062】
情報処理装置100の言語モデル訓練部153は、Downstream taskデータ30の各文と、抽出データ60の各文とを基にして、言語モデルM2の学習(訓練)を実行する(ステップS104)。
【0063】
情報処理装置100の調整部154は、Downstream taskデータ30を用いて、言語モデルM2およびNERモデルM3のFine-tuningを実行する(ステップS105)。
【0064】
次に、本実施例に係る情報処理装置100の効果について説明する。情報処理装置100は、Bag-of-wordsに基づき選択した文を、訓練済みの分類器M1に入力し、選択した文が、Downstream taskデータ30に属する文であるか否かを判定する。情報処理装置100は、選択した文のうち、Downstream taskデータ30に属する文を抽出する。これによって、Downstream task等の特定ドメインに関係のないノイズを除いて、特定ドメインに関係のあるデータを選択することができる。
【0065】
情報処理装置100は、学習データセット141を基にして、分類器M1を訓練する。これによって、Bag-of-wordsに基づき選択した文が、Downstream taskデータ30に属する文であるか否かを判定することができる。
【0066】
情報処理装置100は、Bag-of-wordsに基づき選択した文を、訓練済みの分類器M1に入力し、分類器M1から出力される尤度が閾値以上である場合に、対象の文が、Downstream taskデータ30に属する文であるか否かを判定する。これによって、Downstream taskデータ30に属する文であるか否かを効率的に判定することができる。
【0067】
情報処理装置100は、Bag-of-wordsに基づき選択した文のうち、分類器M1を用いて、Downstream taskデータ30に属する文を抽出し、抽出した文を用いて、言語モデルM2を訓練する。これによって、ノイズを除いた分によって、言語モデルM2を訓練でき、Downstream Taskのパフォーマンスを向上させることができる。
【0068】
次に、上述した情報処理装置100と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図6は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
【0069】
図6に示すように、コンピュータ200は、各種演算処理を実行するCPU201と、ユーザからのデータの入力を受け付ける入力装置202と、ディスプレイ203とを有する。また、コンピュータ200は、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置204と、インタフェース装置205とを有する。また、コンピュータ200は、各種情報を一時記憶するRAM206と、ハードディスク装置207とを有する。そして、各装置201~207は、バス208に接続される。
【0070】
ハードディスク装置207は、選択プログラム207a、判定プログラム207b、言語モデル訓練プログラム207c、調整プログラム207d、分類器訓練プログラム207eを有する。また、CPU201は、各プログラム207a~207eを読み出してRAM206に展開する。
【0071】
選択プログラム207aは、選択プロセス206aとして機能する。判定プログラム207bは、判定プロセス206bとして機能する。言語モデル訓練プログラム207cは、言語モデル訓練プロセス206cとして機能する。調整プログラム207dは、調整プロセス206dとして機能する。分類器訓練プログラム207eは、分類器訓練プロセス206eとして機能する。
【0072】
選択プロセス206aの処理は、選択部151の処理に対応する。判定プロセス206bの処理は、判定部152の処理に対応する。言語モデル訓練プロセス206cの処理は、言語モデル訓練部153の処理に対応する。調整プロセス206dの処理は、調整部154の処理に対応する。分類器訓練プロセス206eの処理は、分類器訓練部155の処理に対応する。
【0073】
なお、各プログラム207a~207eについては、必ずしも最初からハードディスク装置207に記憶させておかなくても良い。例えば、コンピュータ200に挿入されるフレキシブルディスク(FD)、CD-ROM、DVD、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ200が各プログラム207a~207eを読み出して実行するようにしてもよい。
【0074】
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。
【0075】
(付記1)第1ドメインに属する文の第1ベクトルと、第2ドメインに属する文の第2ベクトルとを基にして、第1ベクトルに類似する第2ベクトルの文を選択し、
前記第1ドメインに属する文を用いて訓練した分類器に、選択した文を入力することで、前記選択した文が、前記第1ドメインに属する文であるか否かを判定し、
判定結果を基にして、選択した複数の文から、前記第1ドメインに属する文を抽出する
処理をコンピュータに実行させることを特徴とする情報処理プログラム。
【0076】
(付記2)ある文の入力データと、前記ある文が前記第1ドメインに属する文であるか否かを示すラベルとの組を学習データとして、前記分類器を訓練する処理を更にコンピュータに実行させることを特徴とする付記1に記載の情報処理プログラム。
【0077】
(付記3)前記分類器は、文が入力された場合に、入力された文が前記第1ドメインに属する文である尤度を出力し、前記判定する処理は、前記選択した文を、前記分類器に入力した際に出力される尤度が閾値以上である場合に、前記選択した文が、前記第1ドメインに属する文であると判定することを特徴とする付記1に記載の情報処理プログラム。
【0078】
(付記4)前記抽出する処理によって抽出された文と、前記第1ドメインに属する文とを基にして、言語モデルを訓練する処理を更にコンピュータに実行させることを特徴とする付記1に記載の情報処理プログラム。
【0079】
(付記5)第1ドメインに属する文の第1ベクトルと、第2ドメインに属する文の第2ベクトルとを基にして、第1ベクトルに類似する第2ベクトルの文を選択し、
前記第1ドメインに属する文を用いて訓練した分類器に、選択した文を入力することで、前記選択した文が、前記第1ドメインに属する文であるか否かを判定し、
判定結果を基にして、選択した複数の文から、前記第1ドメインに属する文を抽出する
処理をコンピュータが実行することを特徴とする情報処理方法。
【0080】
(付記6)ある文の入力データと、前記ある文が前記第1ドメインに属する文であるか否かを示すラベルとの組を学習データとして、前記分類器を訓練する処理を更にコンピュータが実行することを特徴とする付記5に記載の情報処理方法。
【0081】
(付記7)前記分類器は、文が入力された場合に、入力された文が前記第1ドメインに属する文である尤度を出力し、前記判定する処理は、前記選択した文を、前記分類器に入力した際に出力される尤度が閾値以上である場合に、前記選択した文が、前記第1ドメインに属する文であると判定することを特徴とする付記5に記載の情報処理方法。
【0082】
(付記8)前記抽出する処理によって抽出された文と、前記第1ドメインに属する文とを基にして、言語モデルを訓練する処理を更にコンピュータが実行することを特徴とする付記5に記載の情報処理方法。
【0083】
(付記9)第1ドメインに属する文の第1ベクトルと、第2ドメインに属する文の第2ベクトルとを基にして、第1ベクトルに類似する第2ベクトルの文を選択し、
前記第1ドメインに属する文を用いて訓練した分類器に、選択した文を入力することで、前記選択した文が、前記第1ドメインに属する文であるか否かを判定し、
判定結果を基にして、選択した複数の文から、前記第1ドメインに属する文を抽出する
処理を実行する制御部を有する情報処理装置。
【0084】
(付記10)前記制御部は、ある文の入力データと、前記ある文が前記第1ドメインに属する文であるか否かを示すラベルとの組を学習データとして、前記分類器を訓練する処理を更に実行することを特徴とする付記9に記載の情報処理装置。
【0085】
(付記11)前記分類器は、文が入力された場合に、入力された文が前記第1ドメインに属する文である尤度を出力し、前記判定する処理は、前記選択した文を、前記分類器に入力した際に出力される尤度が閾値以上である場合に、前記選択した文が、前記第1ドメインに属する文であると判定することを特徴とする付記9に記載の情報処理装置。
【0086】
(付記12)前記制御部は、前記抽出する処理によって抽出された文と、前記第1ドメインに属する文とを基にして、言語モデルを訓練する処理を更に実行することを特徴とする付記9に記載の情報処理装置。
【符号の説明】
【0087】
100 情報処理装置
110 通信部
120 入力部
130 表示部
140 記憶部
141 学習データセット
150 制御部
151 選択部
152 判定部
153 言語モデル訓練部
154 調整部
155 分類器訓練部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10