IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7707638機械学習プログラム、機械学習方法および情報処理装置
<>
  • 特許-機械学習プログラム、機械学習方法および情報処理装置 図1
  • 特許-機械学習プログラム、機械学習方法および情報処理装置 図2
  • 特許-機械学習プログラム、機械学習方法および情報処理装置 図3
  • 特許-機械学習プログラム、機械学習方法および情報処理装置 図4
  • 特許-機械学習プログラム、機械学習方法および情報処理装置 図5
  • 特許-機械学習プログラム、機械学習方法および情報処理装置 図6
  • 特許-機械学習プログラム、機械学習方法および情報処理装置 図7
  • 特許-機械学習プログラム、機械学習方法および情報処理装置 図8
  • 特許-機械学習プログラム、機械学習方法および情報処理装置 図9
  • 特許-機械学習プログラム、機械学習方法および情報処理装置 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-07-07
(45)【発行日】2025-07-15
(54)【発明の名称】機械学習プログラム、機械学習方法および情報処理装置
(51)【国際特許分類】
   G06F 40/44 20200101AFI20250708BHJP
   G06F 40/295 20200101ALI20250708BHJP
   G06F 40/211 20200101ALI20250708BHJP
【FI】
G06F40/44
G06F40/295
G06F40/211
【請求項の数】 4
(21)【出願番号】P 2021080360
(22)【出願日】2021-05-11
(65)【公開番号】P2022174517
(43)【公開日】2022-11-24
【審査請求日】2024-02-08
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】梁 俊
(72)【発明者】
【氏名】森田 一
【審査官】長 由紀子
(56)【参考文献】
【文献】特開2019-215705(JP,A)
【文献】中国特許出願公開第111753062(CN,A)
【文献】特開2008-226104(JP,A)
【文献】特開2018-124914(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-58
(57)【特許請求の範囲】
【請求項1】
特定の文書から、固有表現と前記固有表現と依存関係を有する動詞との組合せである複数の第1の組合せを特定し、複数の文章のそれぞれから、固有表現と前記固有表現と依存関係を有する動詞との組合せである複数の第2の組合せを特定し、
前記複数の第1の組合せそれぞれをベクトル化した複数の第1のベクトル値と、前記複数の第2の組合せそれぞれをベクトル化した複数の第2のベクトル値とを生成し
前記特定の文書に対応する前記複数の第1のベクトル値それぞれの類似度の平均値である第1の平均値と、前記複数の文章それぞれに対応する、前記複数の第2のベクトル値それぞれの類似度の平均値である複数の第2の平均値とを算出し、
前記複数の文章それぞれに対応する前記複数の第2の平均値のうち、前記特定の文書の前記第1の平均値との類似度が閾値以上である前記第2の平均値を特定し、
前記複数の文章のうち、特定された前記第2の平均値に対応する一又は複数の文章を特定し、
前記一又は複数の文章に基づいて、機械学習モデルの訓練を実行する、
処理をコンピュータに実行させることを特徴とする機械学習プログラム。
【請求項2】
前記特定する処理は、
前記特定の文章に含まれる動詞のうち、前記固有表現と依存関係を有する動詞として、前記固有表現からの距離が最も近い動詞を特定し、前記固有表現と前記距離が最も近い動詞との組合せを前記第1の組合せとして特定し、
前記複数の文章に含まれる動詞のうち、前記固有表現と依存関係を有する動詞として、前記固有表現からの距離が最も近い動詞を特定し、前記固有表現と前記距離が最も近い動詞との組合せを前記第2の組合せとして特定する、
ことを特徴とする請求項に記載の機械学習プログラム。
【請求項3】
特定の文書から、固有表現と前記固有表現と依存関係を有する動詞との組合せである複数の第1の組合せを特定し、複数の文章のそれぞれから、固有表現と前記固有表現と依存関係を有する動詞との組合せである複数の第2の組合せを特定し、
前記複数の第1の組合せそれぞれをベクトル化した複数の第1のベクトル値と、前記複数の第2の組合せそれぞれをベクトル化した複数の第2のベクトル値とを生成し
前記特定の文書に対応する前記複数の第1のベクトル値それぞれの類似度の平均値である第1の平均値と、前記複数の文章それぞれに対応する、前記複数の第2のベクトル値それぞれの類似度の平均値である複数の第2の平均値とを算出し、
前記複数の文章それぞれに対応する前記複数の第2の平均値のうち、前記特定の文書の前記第1の平均値との類似度が閾値以上である前記第2の平均値を特定し、
前記複数の文章のうち、特定された前記第2の平均値に対応する一又は複数の文章を特定し、
前記一又は複数の文章に基づいて、機械学習モデルの訓練を実行する、
処理をコンピュータが実行することを特徴とする機械学習方法。
【請求項4】
特定の文書から、固有表現と前記固有表現と依存関係を有する動詞との組合せである複数の第1の組合せを特定し、複数の文章のそれぞれから、固有表現と前記固有表現と依存関係を有する動詞との組合せである複数の第2の組合せを特定し、
前記複数の第1の組合せそれぞれをベクトル化した複数の第1のベクトル値と、前記複数の第2の組合せそれぞれをベクトル化した複数の第2のベクトル値とを生成し
前記特定の文書に対応する前記複数の第1のベクトル値それぞれの類似度の平均値である第1の平均値と、前記複数の文章それぞれに対応する、前記複数の第2のベクトル値それぞれの類似度の平均値である複数の第2の平均値とを算出し、
前記複数の文章それぞれに対応する前記複数の第2の平均値のうち、前記特定の文書の前記第1の平均値との類似度が閾値以上である前記第2の平均値を特定し、
前記複数の文章のうち、特定された前記第2の平均値に対応する一又は複数の文章を特定し、
前記一又は複数の文章に基づいて、機械学習モデルの訓練を実行する、
制御部を有することを特徴とする情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習モデルの生成に関する。
【背景技術】
【0002】
機械学習モデルを利用する多くの分野では、あるドメインの訓練データを用いて生成された機械学習モデルを他のドメインに適用するドメイン適応(Domain Adaptation)に関する技術が利用されている。ドメイン適応は、十分な訓練データを有するソースドメインから得られた知識を、目標であるターゲットドメイン(目標ドメイン)に適用することで、ターゲットドメインにおいて高い精度で働く識別器などを生成する。ここで、ドメインとは、例えばデータの集まりを示す。
【0003】
例えば、自然言語処理の分野においては、ソースドメインを用いて生成された事前学習言語モデル(Pretrained Language Model)をターゲットドメイン側に適用する際に、ターゲットドメイン側の訓練データを用いて事前学習言語モデルの再訓練が行われる。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2016-024759号公報
【文献】特開2016-162308号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、ドメイン側の訓練データを用いて機械学習モデルを再訓練した場合に、不適切な訓練データが含まれることがあり、再訓練後の機械学習モデルの精度が劣化することがある。例えば、ターゲットドメイン内には様々なサブドメインに属する訓練データが含まれており、特定のサブドメインに適用する機械学習モデルの再訓練を実行する場合、ターゲットドメインから該当する訓練データを選択することが行われる。しかし、この選択が正確ではないと、様々なサブドメインの訓練データが含まれてしまい、機械学習モデルの精度が劣化する。
【0006】
一つの側面では、機械学習モデルの精度劣化を抑制することができる機械学習プログラム、機械学習方法および情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
第1の案では、機械学習プログラムは、複数の文章のそれぞれから、固有表現と前記固有表現と依存関係を有する動詞とを特定し、前記固有表現と前記固有表現と依存関係を有する動詞とに基づいて、前記複数の文章のそれぞれをベクトル化し、前記ベクトル化の処理により生成された複数のベクトルに基づいて、前記複数の文章のうち、特定の文章と閾値以上類似する一又は複数の文章を特定し、前記一又は複数の文章に基づいて、機械学習モデルの訓練を実行する、処理をコンピュータに実行させる。
【発明の効果】
【0008】
一実施形態によれば、機械学習モデルの精度劣化を抑制することができる。
【図面の簡単な説明】
【0009】
図1図1は、実施例1にかかる情報処理装置を説明する図である。
図2図2は、実施例1にかかる情報処理装置の機能構成を示す機能ブロック図である。
図3図3は、コーパスデータDBに記憶される情報の例を示す図である。
図4図4は、文章の固有表現と動詞のセットの特定例を説明する図である。
図5図5は、各文章における動詞セットのsyntactic representationを算出する例を説明する図である。
図6図6は、文章のsyntactic representationを算出する例を説明する図である。
図7図7は、コーパスデータの選択例を説明する図である。
図8図8は、コーパスデータを用いた訓練を説明する図である。
図9図9は、機械学習モデルの訓練処理の流れを示すフローチャートである。
図10図10は、ハードウェア構成例を説明する図である。
【発明を実施するための形態】
【0010】
以下に、本願の開示する機械学習プログラム、機械学習方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
【0011】
図1は、実施例1にかかる情報処理装置10を説明する図である。図1に示す情報処理装置10は、あるタスクに適用する機械学習モデルを生成する際に、コーパスデータに含まれるデータから適切なデータを抽出し、抽出したデータを訓練データに用いた機械学習により機械学習モデルを生成する。
【0012】
ここで、本実施例では、一例として、機械学習モデルのドメイン適応時を例にして説明するが、機械学習モデルの生成時など他のシチュエーションにも適用することができる。具体的には、情報処理装置10が、ソースドメインのデータを訓練データに用いて生成された機械学習モデルを、複数のサブドメイン1、2、3を含むターゲットドメイン(Target Domain)から適切なサブドメイン3のデータを用いた再訓練により、機械学習モデルをドメイン適応させる例で説明する。
【0013】
ここで、ドメイン適応としては、Bag-of-Words(BoW)に基づいた2つの文書(sentence)間の類似度に基づき、ドメイン適応のために使用する訓練データを選択する手法が利用されることが多い。しかし、この手法では、類似度を計算するとき、文章の固有表現(Named Entity)と動詞のsyntactic情報を考慮してないので、データ選択が十分ではなく、ドメイン適応後の機械学習モデルの精度がよくないことがある。
【0014】
例えば、機械学習モデルをバイオメディカルサブドメインへドメイン適応させる例を考える。すなわち、ダウンストリームタスク(Downstream Task)にバイオメディカルサブドメインの固有表現抽出(NER:Named Entity Recognition)だけを行う例を考える。「Lactococcus lactis」のような単語は、バイオメディカルサブドメインにもニュースサブドメインにも使用される単語であることから、両方のサブドメインがドメイン適応用のコーパスデータ(訓練データ)として選択される。この結果、機械学習モデルは、バイオメディカルサブドメインにもニュースサブドメインにも適用するように訓練されるので、バイオメディカルサブドメインのデータ(ダウンストリームタスク)への精度が低下する。
【0015】
そこで、実施例1にかかる情報処理装置10は、文章に登場する固有表現と動詞との組合せに基づくsyntactic情報を用いて、ドメイン適応の訓練データを選択することで、機械学習モデルの精度劣化を抑制する。
【0016】
具体的には、情報処理装置10は、ターゲットドメインに含まれる複数の文章のそれぞれから、固有表現と、固有表現と依存関係を有する動詞とを特定する。続いて、情報処理装置10は、固有表現と固有表現と依存関係を有する動詞とに基づいて、複数の文章のそれぞれをベクトル化する。そして、情報処理装置10は、ベクトル化の処理により生成された複数のベクトルに基づいて、複数の文章のうち、ダウンストリームタスクに該当する特定の文章と閾値以上類似する一又は複数の文章を特定する。その後、情報処理装置10は、一又は複数の文章に基づいて、機械学習モデルの訓練により機械学習モデルのドメイン適応を実行する。
【0017】
例えば、情報処理装置10は、各文章の比較対象として、固有表現と動詞との組合せにより得られるベクトル(ベクトルデータ)を生成する。そして、情報処理装置10は、各文章のベクトルを比較することで、ダウンストリームタスクの文章のベクトルと類似する文書を、ドメイン適応用の訓練データとして選択する。その後、情報処理装置10は、選択した訓練データ(文書)を用いて、機械学習モデルの再訓練を実行する。
【0018】
このように、情報処理装置10は、ダウンストリームタスクの文章の特徴量をベクトル化し、ベクトル値を用いた類似度判定により、ドメイン適応用の訓練データとして選択して再訓練を実行するので、ドメイン適応後の機械学習モデルの精度劣化を抑制することができる。
【0019】
図2は、実施例1にかかる情報処理装置10の機能構成を示す機能ブロック図である。図2に示すように、情報処理装置10は、通信部11、記憶部12、制御部20を有する。
【0020】
通信部11は、他の装置との間の通信を制御する。例えば、通信部11は、管理者端末などから、ソースドメインを用いて生成された機械学習モデルを取得し、管理者端末などに、制御部20により処理結果を送信する。
【0021】
記憶部12は、各種データや制御部20が実行するプログラムなどを記憶する。この記憶部12は、事前学習言語モデル13、タスクDB14、コーパスデータDB15、言語モデル16を記憶する。
【0022】
事前学習言語モデル13は、ソースドメインに属する訓練データを用いて生成された機械学習モデルである。例えば、事前学習言語モデル13は、ドメイン適応対象の機械学習モデルであって、固有表現抽出を実行する機械学習モデルの一例であり、例えば文章をベクトル表現に変換する。
【0023】
タスクDB14は、ドメイン適応後の機械学習モデルが判定対象とするタスクに該当する少なくとも1つの文章を記憶するデータベースである。すなわち、タスクDB14に記憶される文章は、上記ダウンストリームタスクや特定の文章に対応する。例えば、タスクDB14は、バイオメディカルサブドメインに属する文章を記憶する。
【0024】
コーパスデータDB15は、事前学習言語モデル13のドメイン適応に利用する文章を記憶するデータベースである。このコーパスデータDB15は、ターゲットドメインに対応する複数のサブドメインに区分された文章を記憶する。図3は、コーパスデータDB15に記憶される情報の例を示す図である。図3に示すように、コーパスデータDB15は、ニュースサブドメインに属する文章、バイオメディカルサブドメインに属する文章、スポーツサブドメインに属する文章などを記憶する。
【0025】
言語モデル16は、ドメイン適用後の言語モデルである。すなわち、言語モデル16は、情報処理装置10により最終的に生成されるNER用の機械学習モデルである。上記例で説明すると、言語モデル16は、事前学習言語モデル13をダウンストリームタスクにドメイン適応させた機械学習モデルである。
【0026】
制御部20は、情報処理装置10全体を司る処理部であり、特定部21、ベクトル化処理部22、選択部23、訓練部24を有する。
【0027】
特定部21は、複数の文章のそれぞれから、固有表現と固有表現と依存関係を有する動詞とを特定する。例えば、特定部21は、タスクDB14に記憶されるダウンストリームタスクに該当する各文章、および、コーパスデータDB15に記憶されるターゲットドメインに属する各文章を対象に、固有表現と固有表現と依存関係を有する動詞とを特定する。ここで、依存関係としては、例えば距離や予め想定しておいた組合せなどを採用することができる。例えば、特定部21は、固有表現と最も近い位置に出現する動詞を特定し、固有表現と動詞との組合せを生成する。
【0028】
ベクトル化処理部22は、固有表現と固有表現と依存関係を有する動詞とに基づいて、複数の文章のそれぞれをベクトル化する。具体的には、ベクトル化処理部は、ダウンストリームタスクに該当する各文章について、特定部21により特定された各組合せをベクトル化することで、各文章をベクトル化する。また、ベクトル化処理部は、ターゲットドメインに属する各文章について、特定部21により特定された各組合せをベクトル化することで、各文章をベクトル化する。なお、ベクトル化の一例については、後述する。
【0029】
選択部23は、ベクトル化処理部22によるベクトル化の処理により生成された複数のベクトルに基づいて、ターゲットドメインに属する各文章のうち、ダウンストリームタスクと閾値以上類似する一又は複数の文章を特定する。すなわち、選択部23は、ドメイン適応に適した文章を選択する。
【0030】
訓練部24は、選択部23により選択された一又は複数の文章に基づいて、事前学習言語モデル13の機械学習を実行する。すなわち、訓練部24は、選択部23により選択されたターゲットドメインの文書を用いて、事前学習言語モデル13の機械学習を実行することにより、ドメイン適応された言語モデル16を生成する。そして、訓練部24は、生成した言語モデル16を記憶部12に格納する。
【0031】
ここで、上述したドメイン適応の処理を具体的に説明する。図4は、文章の固有表現と動詞のセットの特定例を説明する図である。なお、一例として、ダウンストリームタスクに属する文書で説明するが、ターゲットドメインに属する各文書についても同様の処理が実行される。
【0032】
図4に示すように、特定部21は、文章1「the force-distance curves were analyzed to determine the physical and nanomechanical properties of L. lactis pili.」に形態素解析など実行する。そして、特定部21は、固有表現として、「the force-distance」、「L. lactis pili.」、「the physical and nanomechanical properties」を抽出する。同様に、特定部21は、動詞として、「curves」、「analyzed」、「determine」を特定する。
【0033】
次に、ベクトル化処理部22は、固有表現と動詞のセットを用いて、文書をベクトル化する。具体的には、ベクトル化処理部22は、特定部21により特定された固有表現とその固有表現に最も近い動詞とのセットをベクトル化して、「syntactic representation」を算出する。
【0034】
図5は、各文章における動詞セットのsyntactic representationを算出する例を説明する図であり、図6は、文章のsyntactic representationを算出する例を説明する図である。
【0035】
図5に示すように、ベクトル化処理部22は、各固有表現と各動詞との出現位置にしたがって、一番近い動詞セット(組合せ)として、組合せ1「the force-distance、curves」、組合せ2「L. lactis pili.,determine」、組合せ3「the physical and nanomechanical properties,determine」を特定する。そして、ベクトル化処理部22は、生成済みである機械学習モデルの一例である「word embedding architecture」に、各組合せ1~3それぞれを入力し、ベクトル表現(ベクトルデータ)であるemb(組合せ1)、emb(組合せ2)、emb(組合せ3)を生成する。
【0036】
このようにして、ベクトル化処理部22は、文章1「the force-distance curves were analyzed to determine the physical and nanomechanical properties of L. lactis pili.」に対して、ベクトル表現「emb(組合せ1)、emb(組合せ2)、emb(組合せ3)」を生成する。
【0037】
その後、ベクトル化処理部22は、文章1全体の統合的なベクトル表現を生成する。図6に示すように、例えば、ベクトル化処理部22は、emb(組合せ1)、emb(組合せ2)、emb(組合せ3)それぞれの類似度を算出し、その類似度の平均値を「syntactic representation」として算出する。なお、類似度の算出には、コサイン類似度やユークリッド距離などの公知の算出手法を採用することができる。また、類似度の平均値に限らず、ベクトル表現の平均値(平均ベクトル)や合計値でもよい。
【0038】
次に、選択部23は、ベクトル化処理部22により生成された各文書の「syntactic representation」の類似度により、ドメイン適応用のコーパスデータを選択する。
【0039】
図7は、コーパスデータの選択例を説明する図である。図7に示すように、ベクトル化処理部22は、ダウンストリームタスクに属する「文書1、文書2、文書3」のそれぞれについて、上記「syntactic representation」を算出する。同様に、ベクトル化処理部22は、ターゲットドメインに属する「文書A、文書B、文書C・・・」のそれぞれについて、上記「syntactic representation」を算出する。
【0040】
そして、選択部23は、ダウンストリームタスクに属する「文書1、文書2、文書3」のそれぞれの「syntactic representation」と、ターゲットドメインに属する各文書の「syntactic representation」の類似度を算出する。なお、類似度の算出には、コサイン類似度やユークリッド距離などの公知の算出手法を採用することができる。
【0041】
続いて、選択部23は、ターゲットドメインの文書Aに対するダウンストリームタスクに属する各文書(文書1、文書2、文書3)の類似度の平均値を算出する。すなわち、選択部23は、ターゲットドメインの文書Aと文書1との類似度、文書Aと文書2との類似度、文書Aと文書3との類似度を算出する。そして、選択部23は、文書Aに対して、各類似度の平均値を算出する。
【0042】
同様に、選択部23は、ターゲットドメインの文書Bに対するダウンストリームタスクに属する各文書(文書1、文書2、文書3)の類似度の平均値を算出し、ターゲットドメインの文書Cに対するダウンストリームタスクに属する各文書(文書1、文書2、文書3)の類似度の平均値を算出する。その後、選択部23は、ターゲットドメインの各文書のうち、平均値が高い上位k個の文書(文書A・・・文書L)を選択して、新たなコーパスデータを生成する。
【0043】
次に、訓練部24は、選択部23により選択された文書を用いて、機械学習モデルの訓練を実行する。図8は、コーパスデータを用いた訓練を説明する図である。図8に示すように、訓練部24は、新たなコーパスデータである上位k個の文書を用いて、事前学習言語モデル13の再訓練を実行して、ドメイン適応後の言語モデル16を生成する。
【0044】
なお、訓練手法は、NERに用いる機械学習モデルに対する公知の訓練手法を採用することができる。例えば、訓練部24は、ダウンストリームタスクが「バイオメディカルドメイン」の場合、選択された各文書の固有表現を抽出してベクトル化し、文書から得られた各ベクトル表現にラベル「バイオメディカルドメイン」を付与する。そして、訓練部24は、各ベクトルを事前学習言語モデル13に入力して、事前学習言語モデル13が各固有表現を「バイオメディカルドメイン」の固有表現と認識するように、事前学習言語モデル13の訓練を実行して、ダウンストリームタスクのドメインに適応した言語モデル16を生成する。
【0045】
次に、上述した処理の流れを説明する。図9は、機械学習モデルの訓練処理の流れを示すフローチャートである。図9に示すように、特定部21は、ダウンストリームタスクを選択する(S101)。例えば、特定部21は、管理者の指示やスケジュール等にしたがって、ダウンストリームタスクの文章を1つ以上選択する。
【0046】
そして、ベクトル化処理部22は、各ダウンストリームタスクの文章について、「syntactic representation」を算出する(S102)。例えば、ベクトル化処理部22は、特定部21により特定された固有表現とその固有表現に最も近い動詞とのセットをベクトル化して、「syntactic representation」を算出する。
【0047】
また、特定部21は、ターゲットドメインの各文章を選択する(S103)。例えば、特定部21は、ターゲットドメインに各サブドメインに関係なく、ターゲットドメインに属する各文章を選択する。
【0048】
そして、ベクトル化処理部22は、ターゲットドメインの各文章について、「syntactic representation」を算出する(S104)。例えば、ベクトル化処理部22は、特定部21により特定された固有表現とその固有表現に最も近い動詞とのセットをベクトル化して、「syntactic representation」を算出する。
【0049】
その後、選択部23は、ターゲットドメインに属する各文書について、ダウンストリームタスクの各文書との類似度の平均値を算出する(S105)。例えば、選択部23は、ターゲットドメインに属する各文書の「syntactic representation」とダウンストリームタスクに属する各文書の各「syntactic representation」との類似度を算出する。そして、選択部23は、ターゲットドメインに属する各文書について、類似度の平均値を算出する。
【0050】
そして、選択部23は、ターゲットドメインに属する各文書から、類似度が高い上位k個の文章を選択する(S106)。その後、訓練部24は、上記k個の文章を訓練データとして、言語モデルを生成する(S107)。
【0051】
上述したように、情報処理装置10は、ターゲットドメインから適切な文章を選択し、その文章を用いたドメイン適応により機械学習モデルを生成することができるので、その機械学習モデルを用いることにより、ダウンストリームタスクをより正確に判定することができる。また、情報処理装置10は、不要な訓練データを用いた訓練を抑制できるので、ドメイン適応にかかる時間を短縮することができる。
【0052】
また、情報処理装置10は、固有表現を用いて文章をベクトル化し、文章の特徴量を抽出し、特徴量によりドメイン適応の文章を選択する各ステップ(処理)を実行することで、ダウンストリームタスクに適応した機械学習モデルを生成することができる結果、ダウンストリームタスクをより正確に判定することができる。
【0053】
また、情報処理装置10は、固有表現に一番近い動詞を特定し、固有表現と動詞とのセットに基づいたベクトルを生成することができるので、文書の特徴を表すベクトル表現の精度を向上することができる。この結果、情報処理装置10は、正確なベクトル表現を用いて類似文書を選択できるので、高精度の機械学習モデルを生成することができる。
【0054】
また、情報処理装置10は、固有表現を用いて文章をベクトル化し、文章の特徴量を抽出し、特徴量によりドメイン適応の文章を選択する各ステップ(処理)を実行するアプリケーションを提供することもできる。また、情報処理装置10は、上記ステップにさらに、ダウンストリームタスクに適応した機械学習モデルを生成するまでを含めたアプリケーションを提供することもできる。
【0055】
上記実施例で用いたデータ例、上記k(kは任意の整数)個、数値例、ドメイン数、ドメイン例、文章、具体例等は、あくまで一例であり、任意に変更することができる。
【0056】
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
【0057】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0058】
さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
【0059】
図10は、ハードウェア構成例を説明する図である。図10に示すように、情報処理装置10は、通信装置10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、図10に示した各部は、バス等で相互に接続される。
【0060】
通信装置10aは、ネットワークインタフェースカードなどであり、他の装置との通信を行う。HDD10bは、図5に示した機能を動作させるプログラムやDBを記憶する。
【0061】
プロセッサ10dは、図2に示した各処理部と同様の処理を実行するプログラムをHDD10b等から読み出してメモリ10cに展開することで、図2等で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、情報処理装置10が有する各処理部と同様の機能を実行する。具体的には、プロセッサ10dは、特定部21、ベクトル化処理部22、選択部23、訓練部24等と同様の機能を有するプログラムをHDD10b等から読み出す。そして、プロセッサ10dは、特定部21、ベクトル化処理部22、選択部23、訓練部24等と同様の処理を実行するプロセスを実行する。
【0062】
このように、情報処理装置10は、プログラムを読み出して実行することで機械学習方法を実行する情報処理装置として動作する。また、情報処理装置10は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、情報処理装置10によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。
【0063】
このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD-ROM、MO(Magneto-Optical disk)、DVD(Digital Versatile Disc)などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。
【符号の説明】
【0064】
10 情報処理装置
11 通信部
12 記憶部
13 事前学習言語モデル
14 タスクDB
15 コーパスデータDB
16 言語モデル
20 制御部
21 特定部
22 ベクトル化処理部
23 選択部
24 訓練部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10