(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-20
(45)【発行日】2024-06-28
(54)【発明の名称】情報処理装置、情報処理方法、及び情報処理プログラム
(51)【国際特許分類】
G06F 16/35 20190101AFI20240621BHJP
【FI】
G06F16/35
(21)【出願番号】P 2021134681
(22)【出願日】2021-08-20
【審査請求日】2023-03-15
(73)【特許権者】
【識別番号】500257300
【氏名又は名称】LINEヤフー株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】山城 颯太
【審査官】松尾 真人
(56)【参考文献】
【文献】特開2020-106880(JP,A)
【文献】米国特許出願公開第2013/0066818(US,A1)
【文献】特開2013-254421(JP,A)
【文献】大林 弘明,データ拡張を用いた固有表現抽出の精度向上,言語処理学会第25回年次大会 発表論文集 [online],言語処理学会,2019年03月04日,pp.1253~1256,Internet<URL:http://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/P7-3.pdf>
【文献】渡辺 尚吾,商品カテゴリ情報に着目した教師データ収集による商品名抽出手法,2011年度人工知能学会全国大会(第25回)論文集 [CD-ROM] ,社団法人人工知能学会,2011年06月03日,2F3-1
【文献】赤崎 智,ソーシャルメディアストリームからの新固有表現の発見,一般社団法人 人工知能学会 第32回全国大会論文集DVD [DVD-ROM] 2018年度 人工知能学会全国大会(第32回),(一社)人工知能学会,2018年06月08日,2C2-03
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06F 40/20-40/58
G06Q 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
所定の種別に該当する文字列である抽出対象文字列を文字情報から抽出するモデルの学習に用いるためのラベルが付された第1文字情報を含む学習用データセットと、前記ラベルが付されていない文字情報であ
って、前記所定の種別が固有表現の場合、固有表現に対応する所定の対象についての解説が記載されたコンテンツに含まれる文字情報である第2文字情報とを取得する取得部と、
前記学習用データセットのうち、前記第2文字情報と類似する前記第1文字情報を類似文字情報として選択し、
前記第2文字情報中の前記抽出対象文字列である前記所定の対象の固有表現を第2文字列として特定し、前記類似文字情報中の前記抽出対象文字列である第1文字列を、前
記第2文字列に変更することにより、前記第2文字列を含み、前記モデルの学習に利用可能な文字情報である変更文字情報を生成する生成部と、
を備えることを特徴とする情報処理装置。
【請求項2】
前記取得部は、
所定のコンテンツから抽出された前記第2文字情報を取得する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記取得部は、
インターネット上で提供される前記所定のコンテンツから抽出された前記第2文字情報を取得する
ことを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記取得部は、
所定の対象を解説する解説コンテンツから抽出された前記第2文字情報を取得する
ことを特徴とする請求項2または請求項3に記載の情報処理装置。
【請求項5】
前記取得部は、
前記第1文字列が示す対象とは異なる対象を解説する前記解説コンテンツから抽出された前記第2文字情報を取得する
ことを特徴とする請求項4に記載の情報処理装置。
【請求項6】
前記取得部は、
インターネット百科事典内のコンテンツから抽出された前記第2文字情報を取得する
ことを特徴とする請求項2~5のいずれか1項に記載の情報処理装置。
【請求項7】
前記生成部は、
前記学習用データセットから、前記第2文字情報との類似度に基づいて前記類似文字情報を選択し、前記類似文字情報中の前記第1文字列を、前記第2文字情報中の前記第2文字列に変更することにより、前記変更文字情報を生成する
ことを特徴とする請求項1~6のいずれか1項に記載の情報処理装置。
【請求項8】
前記生成部は、
前記学習用データセットのうち、前記第2文字情報との類似度が最大である前記第1文字情報を前記類似文字情報として選択する
ことを特徴とする請求項7に記載の情報処理装置。
【請求項9】
前記生成部は、
前記学習用データセット中の各第1文字情報がベクトル化された第1ベクトルの各々と、前記第2文字情報がベクトル化された第2ベクトルとの類似度に基づいて、前記類似文字情報を選択する
ことを特徴とする請求項7または請求項8に記載の情報処理装置。
【請求項10】
前記生成部は、
前記第1文字列が前記所定の種別に該当することを示す種別ラベルを前記第2文字列の種別ラベルとする前記変更文字情報を生成する
ことを特徴とする請求項1~9のいずれか1項に記載の情報処理装置。
【請求項11】
前記取得部は、
固有表現に該当する前記抽出対象文字列を文字情報から抽出する前記モデルの学習に用いられる前記学習用データセットを取得し、
前記生成部は、
前記類似文字情報中の固有表現である前記第1文字列を、前記第2文字情報中の固有表現である前記第2文字列に変更することにより、前記変更文字情報を生成する
ことを特徴とする請求項1~10のいずれか1項に記載の情報処理装置。
【請求項12】
前記生成部により生成された前記変更文字情報を用いた機械学習の処理により、前記モデルを学習する学習部、
をさらに備える
ことを特徴とする請求項1~11のいずれか1項に記載の情報処理装置。
【請求項13】
前記学習部は、
文字情報の入力に応じて、当該文字情報に前記抽出対象文字列が含まれる場合、前記抽出対象文字列を出力する前記モデルを学習する
ことを特徴とする請求項12に記載の情報処理装置。
【請求項14】
前記学習部は、
前記変更文字情報から前記第2文字列が抽出されるように前記モデルを学習する
ことを特徴とする請求項13に記載の情報処理装置。
【請求項15】
コンピュータが実行する情報処理方法であって、
所定の種別に該当する文字列である抽出対象文字列を文字情報から抽出するモデルの学習に用いるためのラベルが付された第1文字情報を含む学習用データセットと、前記ラベルが付されていない文字情報であ
って、前記所定の種別が固有表現の場合、固有表現に対応する所定の対象についての解説が記載されたコンテンツに含まれる文字情報である第2文字情報とを取得する取得工程と、
前記学習用データセットのうち、前記第2文字情報と類似する前記第1文字情報を類似文字情報として選択し、
前記第2文字情報中の前記抽出対象文字列である前記所定の対象の固有表現を第2文字列として特定し、前記類似文字情報中の前記抽出対象文字列である第1文字列を、前
記第2文字列に変更することにより、前記第2文字列を含み、前記モデルの学習に利用可能な文字情報である変更文字情報を生成する生成工程と、
を含むことを特徴とする情報処理方法。
【請求項16】
所定の種別に該当する文字列である抽出対象文字列を文字情報から抽出するモデルの学習に用いるためのラベルが付された第1文字情報を含む学習用データセットと、前記ラベルが付されていない文字情報であ
って、前記所定の種別が固有表現の場合、固有表現に対応する所定の対象についての解説が記載されたコンテンツに含まれる文字情報である第2文字情報とを取得する取得手順と、
前記学習用データセットのうち、前記第2文字情報と類似する前記第1文字情報を類似文字情報として選択し、
前記第2文字情報中の前記抽出対象文字列である前記所定の対象の固有表現を第2文字列として特定し、前記類似文字情報中の前記抽出対象文字列である第1文字列を、前
記第2文字列に変更することにより、前記第2文字列を含み、前記モデルの学習に利用可能な文字情報である変更文字情報を生成する生成手順と、
をコンピュータに実行させることを特徴とする情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。
【背景技術】
【0002】
機械学習等によりモデルを学習するために用いるデータの生成に関する様々な技術が提供されている。例えば、帳票の手書き文字領域に記入される複数の単語が登録されたデータベースと、手書き文字画像のデータセットとに基づいて文字列画像及び正解ラベルを含む学習用データを生成する技術が提供されている(例えば特許文献1等)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記の従来技術には、改善の余地がある。例えば、従来技術では手書き文字画像、すなわち画像を対象としており、文字情報を対象とするモデルの生成に用いるデータを生成することは難しい。そのため、モデルの学習に利用可能な文字情報を効率的に生成することが望まれている。
【0005】
本願は、上記に鑑みてなされたものであって、モデルの学習に利用可能な文字情報を効率的に生成する情報処理装置、情報処理方法、及び情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本願に係る情報処理装置は、所定の種別に該当する文字列である抽出対象文字列を文字情報から抽出するモデルの学習に用いるためのラベルが付された第1文字情報を含む学習用データセットと、前記ラベルが付されていない文字情報である第2文字情報とを取得する取得部と、前記学習用データセットのうち、前記第2文字情報と類似する前記第1文字情報を類似文字情報として選択し、前記類似文字情報中の前記抽出対象文字列である第1文字列を、前記第2文字情報中の前記抽出対象文字列である第2文字列に変更することにより、前記第2文字列を含み、前記モデルの学習に利用可能な文字情報である変更文字情報を生成する生成部と、を備えたことを特徴とする。
【発明の効果】
【0007】
実施形態の一態様によれば、モデルの学習に利用可能な文字情報を効率的に生成することができるという効果を奏する。
【図面の簡単な説明】
【0008】
【
図1】
図1は、実施形態に係る情報処理システムによる処理の一例を示す図である。
【
図3】
図3は、ベクトル変換処理の一例を示す図である。
【
図4】
図4は、実施形態に係る情報処理装置の構成例を示す図である。
【
図5】
図5は、実施形態に係る学習用データ記憶部の一例を示す図である。
【
図6】
図6は、実施形態に係るモデル情報記憶部の一例を示す図である。
【
図7】
図7は、実施形態に係る情報処理装置による処理の一例を示すフローチャートである。
【
図8】
図8は、ハードウェア構成の一例を示す図である。
【発明を実施するための形態】
【0009】
以下に、本願に係る情報処理装置、情報処理方法、及び情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法、及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0010】
(実施形態)
〔1.情報処理〕
図1を用いて、実施形態に係る情報処理の一例について説明する。
図1は、実施形態に係る情報処理システムによる処理の一例を示す図である。
図1では、情報処理装置100が生成した学習用データを用いて固有表現を抽出するモデルM1を生成する場合を一例として説明する。
【0011】
まず、情報処理システム1の構成について説明する。
図1に示すように、情報処理システム1は、端末装置10と、情報処理装置100とが含まれる。端末装置10と、情報処理装置100とは図示しない所定の通信網を介して、有線または無線により通信可能に接続される。なお、
図1に示した情報処理システム1には、複数台の端末装置10や、複数台の情報処理装置100が含まれてもよい。
【0012】
情報処理装置100は、ラベルが付された文字情報(以下「第1文字情報」ともいう)中の文字列を、ラベルが付されていない文字情報(以下「第2文字情報」ともいう)中の文字列で変換して、モデルの学習に利用可能な文字情報を生成するコンピュータである。情報処理装置100は、第1文字情報中で所定の種別に該当する文字列(以下「第1文字列」ともいう)を、第2文字情報中で所定の種別に該当すると推定される文字列(以下「第2文字列」ともいう)に変換する。
図1の例では、所定の種別が固有表現である場合を一例として説明する。
【0013】
これにより、情報処理装置100は、第2文字列を含み、モデルの学習に利用可能な文字情報(以下「変更文字情報」ともいう)を生成する。
図1では、情報処理装置100は、所定の編集者ED1により人手でラベル付与された(人手ラベル付き訓練データ)等の第1文字情報を含む学習用データを用いて、新たに学習用データとして用いられる変更文字情報を生成する。
【0014】
端末装置10は、データ(文字情報)にラベル(正解情報)を付与し、人手で訓練データ(学習用データ)を生成するために利用されるデバイス(コンピュータ)である。端末装置10は、データに対するラベルを付与する所定の編集者ED1によって利用される。端末装置10は、例えば、スマートフォンや、タブレット型端末や、ノート型PC(Personal Computer)や、デスクトップPCや、携帯電話機や、PDA(Personal Digital Assistant)等により実現される。
図1は、端末装置10がデスクトップPCである場合を示す。
【0015】
例えば、所定の編集者ED1は、端末装置10を操作して、各文字情報にラベルを付与する。例えば、端末装置10は、所定の編集者ED1の操作に応じて、
図2中に示すラベル付きデータである第1文字情報LD1のように、文字情報中の各文字列が該当する種別(属性)を示す情報(ラベル)を正解情報として付与する。
【0016】
例えば、端末装置10は、文字情報のうち所定の種別に該当する文字列が含まれる位置(範囲)を示すラベルを文字情報に付加する。例えば、ラベル文字情報のうち組織名等の固有名詞(固有表現)に該当する文字列を示すラベルを文字情報に付加する。端末装置10は、所定の編集者ED1の操作に応じて、文字情報にラベルを付与することにより、学習用データを生成する。端末装置10は、人手で生成された訓練データ(学習用データ)を情報処理装置100へ送信する。
【0017】
また、情報処理システム1は、ユーザによって利用されるデバイスであるユーザ端末を含んでもよい。ユーザ端末は、例えば、スマートフォンや、タブレット型端末や、ノート型PCや、デスクトップPCや、携帯電話機や、PDA等により実現され、ユーザに様々なサービスを提供する。ユーザ端末は、ユーザの操作に応じて処理を実行し、情報を表示する。
【0018】
また、情報処理システム1は、インターネット百科事典に関するサービスをユーザに提供するサービス提供装置を含んでもよい。なお、ここでいうインターネット百科事典とは例えばWikipedia等であってもよい。サービス提供装置は、所定の対象を解説する解説コンテンツに関する情報を提供する。サービス提供装置は、情報処理装置100からの要求に応じて、所定の対象を解説する解説コンテンツの情報を情報処理装置100に送信する。サービス提供装置は、ユーザ端末からの要求に応じて、所定の対象を解説する解説コンテンツの情報をユーザ端末に送信する。
【0019】
以下、
図1を用いて、情報処理の一例を説明する。まず、所定の編集者ED1は、各文字情報にラベルを付与する(ステップS11)。例えば、所定の編集者ED1は、ラベルが付されていない文字情報の内容を確認し、文字情報中で固有表現に該当する文字列に、その文字列が固有表現であることを示すラベルを付すことにより、人手ラベル付き訓練データを生成する。例えば、所定の編集者ED1は、端末装置10を操作して、
図2中に示すラベル付きデータである第1文字情報LD1のように、文字情報中の各文字列が該当する種別(属性)を示す情報(ラベル)を正解情報として付与してもよいが、
図2の詳細は後述する。
【0020】
所定の編集者ED1は、各文字情報にラベルを付与が完了した後、端末装置10を操作して、人手ラベル付き訓練データを情報処理装置100へ送信する(ステップS12)。端末装置10は、所定の編集者ED1の操作に応じて、所定の編集者ED1がラベルを付した人手ラベル付き訓練データを情報処理装置100へ送信する。
【0021】
これにより、情報処理装置100は、人手ラベル付き訓練データを取得する。そして、情報処理装置100は、取得した人手ラベル付き訓練データを第1文字情報として学習用データセットDS1に追加する。具体的には、情報処理装置100は、端末装置10から受信した人手ラベル付き訓練データを学習に用いるデータとして学習用データ記憶部121(
図5参照)に登録する。
【0022】
そして、情報処理装置100は、学習用データセットDS1中の第1文字情報群を用いて、新たな文字情報を生成する処理を行う。
図1では、情報処理装置100は、コンテンツから抽出された第2文字情報UD1を対象として、新たな文字情報を生成する処理を行う。ここで、第2文字情報UD1は、ラベルが付されていない文字情報である。例えば、第2文字情報UD1は、
図2中に示す第2文字情報UD1のように、所定の対象(
図2の例では「X曜日の〇〇」)についての解説が記載されたコンテンツに含まれる文字情報である。なお、第2文字情報UD1の抽出対象となるコンテンツは、インターネット百科事典内で提供されるコンテンツ等の様々なコンテンツであってもよい。第2文字情報UD1には、固有表現の第2文字列として「X曜日の〇〇」が含まれる。なお、X曜日の〇〇と抽象的に示すが、X曜日の〇〇は、実在する固有名詞(固有名称)であり、かつ新たに出現したアーティスト(組織名)を示す新語であるものとする。
【0023】
情報処理装置100は、学習用データセットDS1のうち、第2文字情報UD1に類似する第1文字情報を選択する(ステップS13)。例えば、情報処理装置100は、各文字情報をベクトル化して、ベクトルの類似度を基に、類似文字情報を選択してもよい。この場合、情報処理装置100は、学習用データセットDS1中の各第1文字情報がベクトル化された第1ベクトルの各々と、第2文字情報UD1がベクトル化された第2ベクトルとの類似度に基づいて、類似文字情報を選択する。
【0024】
例えば、情報処理装置100は、第2ベクトルとのコサイン類似度が最大の第1ベクトルに対応する第1文字情報を類似文字情報として選択する。なお、ベクトル間の類似関係は、コサイン類似度に限らず、任意の指標が用いられてもよく、例えば、ユークリッド距離やマハラノビス距離等が用いられてもよい。例えば、情報処理装置100は、文字情報をベクトルに変換するモデルM2を用いて、各文字情報をベクトルに変換する。例えば、情報処理装置100は、word2vec(「w2v」ともいう)に関する種々の技術を用いて学習されたモデルM2を用いて、各文字情報をベクトルに変換する。
【0025】
例えば、情報処理装置100は、第2文字情報UD1中の名詞に対応する各文字列をモデルM2に入力し、モデルM2が出力したベクトルの平均を第2文字情報UD1のベクトル(第2ベクトル)とする。また、情報処理装置100は、第1文字情報LD1中の名詞に対応する各文字列をモデルM2に入力し、モデルM2が出力したベクトルの平均を第1文字情報LD1のベクトル(第1ベクトル)とする。なお、上記は一例に過ぎず、情報処理装置100は、第2文字情報UD1全体をベクトル変換したものを第2ベクトルとし、第1文字情報LD1全体をベクトル変換したものを第1ベクトルとしてもよい。
【0026】
図1では、情報処理装置100は、学習用データセットDS1のうち、第2文字情報UD1との類似度が最大である第1文字情報LD1を類似文字情報として選択する。第1文字情報LD1には、固有表現の第1文字列として「アーティストA」が含まれる。
【0027】
なお、アーティストAと抽象的に示すが、アーティストAは、実在する固有名詞(固有名称)であるものとする。また、情報処理装置100は、第2文字情報UD1に類似する第1文字情報がない場合、第2文字情報UD1を処理対象から除外してもよい。例えば、情報処理装置100は、第2文字情報UD1との類似度が所定値以上の第1文字情報がない場合、第2文字情報UD1を処理対象から除外してもよい。
【0028】
そして、情報処理装置100は、類似文字情報中の第1文字列を第2文字列に変換することにより、第2文字列を含み、モデルの学習に利用可能な変更文字情報を生成する(ステップS14)。
図1では、情報処理装置100は、第1文字情報LD1中の固有表現「アーティストA」を、第2文字情報UD1中の固有表現「X曜日の〇〇」に変換する。これにより、情報処理装置100は、第1文字情報LD1中の第1文字列である「アーティストA」が第2文字列である「X曜日の〇〇」に変換された変更文字情報CD1を生成する。すなわち、情報処理装置100は、第2文字列である「X曜日の〇〇」を含み、モデルM1の学習に利用可能な変更文字情報CD1を生成する。
【0029】
情報処理装置100は、生成した変更文字情報を第1文字情報として学習に用いるデータに追加する(ステップS15)。
図1では、情報処理装置100は、第1文字情報LD1中の第1文字列である「アーティストA」が第2文字列である「X曜日の〇〇」に変換された変更文字情報CD1を学習用データセットDS1に追加する。例えば、情報処理装置100は、「X曜日の〇〇」を含む変更文字情報CD1に、変更文字情報CD1中の「X曜日の〇〇」が固有表現であることを示すラベルを対応付けて、第1文字情報として学習用データ記憶部121に格納する。
【0030】
そして、情報処理装置100は、変更文字情報CD1が追加された学習用データセットDS1を用いて、モデルM1を学習する(ステップS16)。情報処理装置100は、学習用データセットDS1を用いて、モデルM1の重み等のパラメータを学習(更新)する。モデルM1の学習処理には、任意の手法が採用可能である。
【0031】
例えば、情報処理装置100は、モデルM1に入力された文字情報に固有表現が含まれる場合、固有表現を示す情報を出力するようにモデルM1を学習する。例えば、情報処理装置100は、モデルM1に変更文字情報CD1が入力された場合に、モデルM1が文字列「X曜日の〇〇」を出力するようにモデルM1を学習する。例えば、モデルM1は、再帰型ニューラルネットワーク(Recurrent Neural Network:RNN)やRNNを拡張したLSTM(Long Short-Term Memory units)等のネットワークであってもよい。なお、上記は一例に過ぎず、モデルM1は、文字情報から所定の種別の文字列を抽出可能であれば、再帰型ニューラルネットワークに限らず、どのようなネットワーク構成が採用されてもよい。
【0032】
上述したように、情報処理装置100は、既にラベルが付されたデータ(第1文字情報)の第1文字列を他の文字列(第2文字列)に変換して、新たな学習用データを生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。
図1の例では、情報処理装置100は、新語である「X曜日の〇〇」を含む文字情報を学習用データに追加することができるため、固有表現が新語である場合であっても適切に抽出する可能性が高いモデルを学習することができる。このように、学習データ中にこれらのような新語の例が十分に含まれていれば、機械学習モデルがこれら新語に対処できる可能性が上がるため、情報処理システム1では、新語の固有表現が含まれた学習データを生成し、水増しすることにより、新語であっても適切に抽出する可能性が高いモデルを学習することができる。
【0033】
〔1-1.処理例〕
ここで、
図2、3を参照して、
図1で説明した内容に関する処理例を説明する。
図2は、生成処理の一例を示す図である。
図3は、ベクトル変換処理の一例を示す図である。
【0034】
図2に示すように、第2文字情報UD1は、例えばWikipediaなどのインターネット百科事典のコンテンツCTを対象として抽出された文字情報である。新語のような新たに生まれた固有表現については、情報処理システム1では、十分な情報が手元にない場合が多い。そのため、情報処理装置100は、例えばインターネット百科事典に直近(例えば1カ月以内等)で追加されたリンク数の多いエントリーを収集する。これにより、情報処理装置100は、例えばインターネット百科事典内の解説コンテンツを取得する。
【0035】
そして、情報処理装置100は、解説コンテンツに付けられたタグから、解説コンテンツ中に含まれる文字列のうち固有表現を推定する。例えば、情報処理装置100は、解説コンテンツのHTML(Hyper Text Markup Language)を解析し、各種の情報を推定してもよい。例えば、情報処理装置100は、解説コンテンツのHTMLを解析し、解説コンテンツの見出しの部分を、解説コンテンツが説明する対象であると推定する。
【0036】
また、例えば、情報処理装置100は、解説コンテンツに付されたタグが、音楽ユニット等の組織名等である場合、解説コンテンツの見出しの部分が示す対象が固有表現であると推定する。例えば、情報処理装置100は、解説コンテンツに付されたタグが示すカテゴリが、音楽ユニット等の組織名等である場合、解説コンテンツの見出しの部分が示す対象が固有表現であると推定してもよい。
【0037】
そして、情報処理装置100は、解説コンテンツの見出し部分が示す文字列を第2文字列とし、解説コンテンツ中の見出し部分に続く文章とともに第2文字情報として抽出してもよい。なお、上記は一例に過ぎず、第2文字情報は様々な情報を含む情報であってもよい。また、情報処理装置100は、解析コンテンツから抽出された第2文字情報をサービス提供装置から取得してもよい。
【0038】
例えば、インターネット百科事典のコンテンツCTは、例えば5万エントリー等と多数あり、また収集するコストは低い。一方で、人手ラベル付き訓練データが含まれる学習用データセットDS1については生成するコストが高く、例えば3000個等と少数である。そこで、情報処理装置100は、コンテンツCTと人手ラベル付き訓練データMD1とを用いて、新たな学習用データを自動で生成する。
【0039】
例えば、情報処理装置100は、コンテンツCTに含まれる解説コンテンツのうち、説明する対象が新語であるコンテンツ(「新語コンテンツ」ともいう)を選択する。例えば、情報処理装置100は、各解説コンテンツが説明する対象のうち、学習用データセットDS1中の第1文字情報に固有表現として含まれない対象を新語であると推定する。そして、情報処理装置100は、説明する対象が新語であると推定したコンテンツを新語コンテンツとして選択する。情報処理装置100は、新語コンテンツから第2文字情報を生成する。
【0040】
例えば、情報処理装置100は、解説コンテンツの見出し部分が示す文字列(第2文字列)と、解説コンテンツ中の見出し部分に続く文章とを抽出することにより、第2文字情報を生成する。情報処理装置100は、見出しが「X曜日の〇〇」である解説コンテンツから、見出し部分が示す第2文字列「X曜日の〇〇」と、解説コンテンツ中の見出し部分に続く文章とを抽出することにより、第2文字情報UD1を生成する。
【0041】
そして、情報処理装置100は、学習用データセットDS1のうち、第2文字情報UD1に類似する第1文字情報を選択する。例えば、情報処理装置100は、学習用データセットDS1中の各第1文字情報と第2文字情報UD1との各々をベクトル化して、ベクトルの類似度を基に、類似文字情報を選択する。情報処理装置100は、学習用データセットDS1中の各第1文字情報と第2文字情報UD1との各々をベクトル化する。情報処理装置100は、文字情報をベクトルに変換するモデルM2を用いて、各文字情報をベクトルに変換する。
【0042】
図3では、情報処理装置100は、第2文字情報UD1をモデルM2に入力することより、モデルM2に第2文字情報UD1をベクトル化したベクトルVC1を出力させることにより、第2文字情報UD1をベクトルに変換する。また、情報処理装置100は、第1文字情報LD1をモデルM2に入力することより、モデルM2に第1文字情報LD1をベクトル化したベクトルVC2を出力させることにより、第1文字情報LD1をベクトルに変換する。なお、
図3では、第1文字情報LD1のみを図示するが、情報処理装置100は、学習用データセットDS1中の各第1文字情報をベクトル化するものとする。
【0043】
例えば、情報処理装置100は、第2文字情報UD1のベクトルVC1とのコサイン類似度が最大であるベクトルに対応する第1文字情報を類似文字情報として選択する。
図2では、情報処理装置100は、固有表現の第1文字列として「アーティストA」が含まれる第1文字情報LD1を類似文字情報として選択する。このように、情報処理装置100は、学習データ中の文(ベクトル)と最もよく似た説明文(ベクトル)を持つエントリーを対象として、処理を実行する。これにより、情報処理装置100は、元文と関連のないエントリーが選ばれる可能性を抑制することができる。これにより、情報処理装置100は、学習データ中の文と似た説明文を持つエントリーを対象として、処理を実行する。
【0044】
そして、情報処理装置100は、第1文字情報LD1中の固有表現「アーティストA」を、第2文字情報UD1中の固有表現「X曜日の〇〇」に変換する。これにより、情報処理装置100は、第1文字情報LD1中の第1文字列である「アーティストA」が第2文字列である「X曜日の〇〇」に変換された変更文字情報CD1を生成する。
図2の例では、情報処理装置100は、固有表現の一例である組織名のラベル部分に「X曜日の〇〇」が配置された変更文字情報CD1を生成する。これにより、情報処理装置100は、自動的(人工的)に作成された新しい学習用データを用いてモデルを学習することができる。
【0045】
なお、上記の処理は一例に過ぎず、情報処理装置100は、変更文字情報を生成可能であれば、どのような処理を行ってもよい。例えば、情報処理装置100は、学習用データセットDS1から一の第1文字情報を選択し、コンテンツCTの中から、選択した第1文字情報(選択第1文字情報)に類似する第2文字情報を選択してもよい。この場合、情報処理装置100は、選択第1文字情報に類似する第2文字情報がない場合、選択第1文字情報を処理対象から除外してもよい。例えば、情報処理装置100は、選択第1文字情報との類似度が所定値以上の第2文字情報がない場合、選択第1文字情報を処理対象から除外してもよい。
【0046】
〔1-2.その他例〕
上述した処理は一例に過ぎず、情報処理システム1は、様々な処理を行ってもよい。例えば、上述した処理では、固有表現を抽出するモデルを学習する場合を示したが、学習されるモデルは、固有表現を抽出するモデルに限られない。例えば、モデルは、入力された記事等のテキストについて、キーワード抽出して、主題や人工物名等を見つけて、ウィキなどのリンクをはるモデルであってもよい。また、例えば、モデルは、人名、クレジットカードの番号等の個人情報のマスキングするために用いるモデルであってもよい。また、キーワード関連の処理を行うためのモデルであれば、任意のモデルが採用可能である。
【0047】
例えば、情報処理システム1は、置換する文字列と類似する文字列を見つけて、置き換えることで学習データを拡張してもよい。例えば、情報処理システム1は、インターネット百科事典でのリンクの類似性が高いコンテンツやインターネット百科事典の記事内容が近いコンテンツを対象としてもよい。例えば、情報処理システム1は、w2vやs2v等のベクトル化に関する任意の技術を用いて、名詞だけベクトル化して、平均化してもよい。また、情報処理システム1は、要約を作ってベクトル化してもよい。
【0048】
例えば、情報処理システム1は、学習データ内の各単語(組織名、人工物等)を、インターネット百科事典の同一ページ内から抽出して組み替えることで、新しい変更文字情報を生成してもよい。また、文字情報は、説明文章が含まれていればよく、訓練データの元と、置き換える元のデータとは違うものであってもよい。また、情報処理システム1は、適用したいカテゴリごとにモデルを作ってもよい。例えば、情報処理システム1は、日本の音楽ユニット等、インターネット百科事典のカテゴリごとに学習用データを生成し、カテゴリごとの学習用データを用いて、カテゴリごとのモデルを生成してもよい。
【0049】
〔2.情報処理装置の構成〕
次に、
図4を用いて、実施形態に係る情報処理装置100の構成について説明する。
図4は、実施形態に係る情報処理装置100の構成例を示す図である。
図4に示すように、情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、情報処理装置100は、情報処理装置100の管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
【0050】
(通信部110)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、所定の通信網(ネットワーク)と有線または無線で接続され、端末装置10との間で情報の送受信を行う。
【0051】
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部120は、
図4に示すように、学習用データ記憶部121と、モデル情報記憶部122と、コンテンツ情報記憶部123とを有する。
【0052】
(学習用データ記憶部121)
実施形態に係る学習用データ記憶部121は、学習に用いるデータに関する各種情報を記憶する。学習用データ記憶部121は、学習に用いる学習データ(データセット)を記憶する。
図5は、実施形態に係る学習用データ記憶部の一例を示す図である。例えば、学習用データ記憶部121は、学習に用いる学習データや精度評価(測定)に用いる評価用データ等の種々のデータに関する各種情報を記憶する。
図5に、実施形態に係る学習用データ記憶部121の一例を示す。
図5の例では、学習用データ記憶部121は、「データセットID」、「データID」、「データ」、「ラベル」、「日時」といった項目が含まれる。
【0053】
「データセットID」は、データセットを識別するための識別情報を示す。「データID」は、データを識別するための識別情報を示す。また、「データ」は、データIDにより識別されるデータに対応するデータを示す。
【0054】
「ラベル」は、対応するデータに付されるラベル(正解ラベル)を示す。例えば、「ラベル」は、対応するデータ(文字情報)中の各文字列がどの種別に該当するかを示す情報(正解情報)であってもよい。例えば、「ラベル」は、文字情報のうち所定の種別に該当する文字列が含まれる位置(範囲)を示す正解情報である。例えば、「ラベル」は、文字情報のうち組織名等の固有名詞(固有表現)に該当する文字列を示す正解情報であってもよい。また、「ラベル」は、人名や地名などといった固有名詞、日付表現、時間表現等の固有表現に該当する文字列を示す正解情報であってもよい。
【0055】
また、「日時」は、対応するデータに関する時間(日時)を示す。なお、
図5の例では、「DA1」等で図示するが、「日時」には、「2021年8月12日17時48分37秒」等の具体的な日時であってもよいし、「バージョンXXのモデル学習から使用開始」等、そのデータがどのモデルの学習から使用が開始されたかを示す情報が記憶されてもよい。
【0056】
図5の例では、データセットID「DS1」により識別されるデータセット(データセットDS1)には、データID「DID1」、「DID2」、「DID3」等により識別される複数のデータが含まれることを示す。例えば、データID「DID1」、「DID2」、「DID3」等により識別される各データ(学習用データ)は、モデルの学習に用いられる文字情報(文字データ)等である。
【0057】
例えば、データID「DID1」により識別されるデータDT1は、ラベルLB1が付されたラベル有りデータであり、日時DA1でのモデルの学習から使用が開始されたことを示す。また、例えば、データID「DID4」により識別されるデータDT4は、ラベル無しデータとして取集され、予測ラベルであるラベルLB4が付されたデータであり、日時DA4でのモデルの学習から使用が開始されたことを示す。
【0058】
なお、学習用データ記憶部121は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、学習用データ記憶部121は、各データが学習用データであるか、評価用データであるか等を特定可能に記憶してもよい。例えば、学習用データ記憶部121は、学習用データと評価用データとを区別可能に記憶する。学習用データ記憶部121は、各データが学習用データや評価用データであるかを識別する情報を記憶してもよい。情報処理装置100は、学習用データとして用いられる各データと正解情報とに基づいて、モデルを学習する。情報処理装置100は、評価用データとして用いられる各データと正解情報とに基づいて、モデルの精度を算出する。情報処理装置100は、評価用データを入力した場合にモデルが出力する出力結果と、正解情報とを比較した結果を収集することにより、モデルの精度を算出する。
【0059】
(モデル情報記憶部122)
実施形態に係るモデル情報記憶部122は、モデルに関する情報を記憶する。例えば、モデル情報記憶部122は、学習処理により学習(生成)された学習済みモデル(モデル)の情報(モデルデータ)を記憶する。
図6は、実施形態に係るモデル情報記憶部の一例を示す図である。
図6に示した例では、モデル情報記憶部122は、「モデルID」、「用途」、「モデルデータ」といった項目が含まれる。
【0060】
「モデルID」は、モデルを識別するための識別情報を示す。「用途」は、対応するモデルの用途を示す。「モデルデータ」は、モデルのデータを示す。
図6等では「モデルデータ」に「MDT1」といった概念的な情報が格納される例を示したが、実際には、モデルの構成(ネットワーク構成)の情報やパラメータに関する情報等、そのモデルを構成する種々の情報が含まれる。例えば、「モデルデータ」には、ネットワークの各層におけるノードと、各ノードが採用する関数と、ノードの接続関係と、ノード間の接続に対して設定される接続係数とを含む情報が含まれる。
【0061】
図6に示す例では、モデルID「M1」により識別されるモデル(モデルM1)は、用途が「固有表現抽出」であることを示す。すなわち、モデルM1は、入力された文字情報中で固有表現に該当する文字列を示す情報(文字列等)を出力するモデルであることを示す。また、モデルM1のモデルデータは、モデルデータMDT1であることを示す。
【0062】
また、モデルID「M2」により識別されるモデル(モデルM2)は、用途が「ベクトル変換」であることを示す。すなわち、モデルM2は、入力された情報(例えば文字情報)をベクトル変換したベクトルを出力するモデルであることを示す。モデルM2のモデルデータは、モデルデータMDT2であることを示す。
【0063】
なお、モデル情報記憶部122は、上記に限らず、目的に応じて種々の情報を記憶してもよい。
【0064】
(コンテンツ情報記憶部123)
実施形態に係るコンテンツ情報記憶部123は、コンテンツに関する各種情報を記憶する。例えば、コンテンツ情報記憶部123は、第2文字情報の抽出対象となるコンテンツに関する各種情報を記憶する。例えば、コンテンツ情報記憶部123は、インターネット上で提供される所定のコンテンツの情報を記憶する。例えば、コンテンツ情報記憶部123は、所定の対象を解説する解説コンテンツの情報を記憶する。例えば、コンテンツ情報記憶部123は、インターネット百科事典内のコンテンツの情報を記憶する。例えば、コンテンツ情報記憶部123は、インターネット百科事典に関するサービスをユーザに提供するサービス提供装置から受信したコンテンツの情報を記憶する。
【0065】
コンテンツ情報記憶部123は、所定のコンテンツから抽出された第2文字情報を記憶する。コンテンツ情報記憶部123は、インターネット上で提供される所定のコンテンツから抽出された第2文字情報を記憶する。コンテンツ情報記憶部123は、所定の対象を解説する解説コンテンツから抽出された第2文字情報を記憶する。コンテンツ情報記憶部123は、第1文字列が示す対象とは異なる対象を解説する解説コンテンツから抽出された第2文字情報を記憶する。コンテンツ情報記憶部123は、インターネット百科事典内のコンテンツから抽出された第2文字情報を記憶する。
【0066】
なお、上記は一例に過ぎず、コンテンツ情報記憶部123は、様々なコンテンツ等の情報を記憶してもよい。
【0067】
(制御部130)
図4の説明に戻って、制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
【0068】
図4に示すように、制御部130は、取得部131と、生成部132と、学習部133と、処理部134と、提供部135とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、
図4に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、
図4に示した接続関係に限られず、他の接続関係であってもよい。
【0069】
(取得部131)
取得部131は、通信部110を介して、外部の情報処理装置から各種情報を受信する。取得部131は、端末装置10から各種情報を受信する。取得部131は、端末装置10から受信したラベル付きの訓練データ(文字情報)を学習用データとして記憶部120へ格納する。取得部131は、端末装置10から受信したラベル付き文字情報を、モデルの学習に用いるデータ(学習データ)として学習用データ記憶部121に登録する。また、取得部131は、インターネット百科事典に関するサービスをユーザに提供するサービス提供装置からコンテンツの情報を受信する。取得部131は、サービス提供装置から第2文字情報を受信してもよい。
【0070】
取得部131は、記憶部120から各種の情報を取得する。取得部131は、学習用データ記憶部121から学習に用いるデータを取得する。取得部131は、モデル情報記憶部122からモデルの情報を取得する。
【0071】
取得部131は、所定のコンテンツから抽出された第2文字情報を取得する。取得部131は、インターネット上で提供される所定のコンテンツから抽出された第2文字情報を取得する。取得部131は、所定の対象を解説する解説コンテンツから抽出された第2文字情報を取得する。取得部131は、第1文字列が示す対象とは異なる対象を解説する解説コンテンツから抽出された第2文字情報を取得する。取得部131は、インターネット百科事典内のコンテンツから抽出された第2文字情報を取得する。
【0072】
(生成部132)
生成部132は、各種情報を生成する。例えば、生成部132は、記憶部120に記憶された情報(データ)から各種情報(データ)を生成する。生成部132は、生成した情報を記憶部120に登録する。例えば、生成部132は、学習用データ記憶部121や、モデル情報記憶部122や、コンテンツ情報記憶部123等に記憶された情報(データ)から各種情報を生成する。
【0073】
生成部132は、各種情報を選択する。生成部132は、学習用データセットから、所定の条件を満たす文字情報を選択する。生成部132は、学習用データセットから、第2文字情報との類似度に基づいて類似文字情報を選択する。生成部132は、学習用データセットのうち、第2文字情報との類似度が最大である第1文字情報を類似文字情報として選択する。生成部132は、学習用データセット中の各第1文字情報がベクトル化された第1ベクトルの各々と、第2文字情報がベクトル化された第2ベクトルとの類似度に基づいて、類似文字情報を選択する。
【0074】
生成部132は、各種情報を推定する。生成部132は、文字情報に含まれる文字列のうち新語を推定する。例えば、生成部132は、各解説コンテンツが説明する対象のうち、学習用データセットDS1中の第1文字情報に固有表現として含まれない対象を新語であると推定する。そして、生成部132は、説明する対象が新語であると推定したコンテンツを新語コンテンツとして選択する。生成部132は、新語コンテンツから第2文字情報を生成する。
【0075】
生成部132は、類似文字情報中の第1文字列を、第2文字情報中の第2文字列に変更することにより、変更文字情報を生成する。生成部132は、第1文字列が所定の種別に該当することを示す種別ラベルを第2文字列の種別ラベルとする変更文字情報を生成する。生成部132は、類似文字情報中の固有表現である第1文字列を、第2文字情報中の固有表現である第2文字列に変更することにより、変更文字情報を生成する。
【0076】
(学習部133)
学習部133は、モデルを学習する。学習部133は、外部の情報処理装置からの情報や記憶部120に記憶された情報に基づいて、各種情報を学習する。学習部133は、学習用データ記憶部121に記憶された情報に基づいて、各種情報を学習する。学習部133は、学習により生成したモデルをモデル情報記憶部122に格納する。
【0077】
学習部133は、生成部132が生成した文字情報を含む学習用データを用いてモデルを学習する。学習部133は、生成部132により生成された変更文字情報を用いた機械学習の処理により、モデルを学習する。学習部133は、文字情報の入力に応じて、当該文字情報に抽出対象文字列が含まれる場合、抽出対象文字列を出力するモデルを学習する。学習部133は、変更文字情報から第2文字列が抽出されるようにモデルを学習する。
【0078】
学習部133は、学習処理を行う。学習部133は、各種学習を行う。学習部133は、取得部131により取得された情報に基づいて、各種情報を学習する。学習部133は、モデルを学習(生成)する。学習部133は、モデル等の各種情報を学習する。学習部133は、学習によりモデルを生成する。学習部133は、種々の機械学習に関する技術を用いて、モデルを学習する。例えば、学習部133は、モデル(ネットワーク)のパラメータを学習する。学習部133は、種々の機械学習に関する技術を用いて、モデルを学習する。
【0079】
学習部133は、学習用データ記憶部121に記憶された学習用データ(教師データ)に基づいて、学習処理を行う。学習部133は、モデル(ネットワーク)のパラメータを学習する。学習部133は、接続されたノード間の接続係数(重み)等のパラメータを学習する。学習部133は、種々の機械学習に関する技術を用いて、モデルを学習する。学習部133は、モデルに入力するデータと、そのデータが入力された場合の出力を示す正解データとを用いて行う学習処理、すなわち教師有り学習の手法によりモデルのパラメータを学習する。なお、上記は一例であり、学習部133は、モデルのパラメータを学習可能であれば、どのような学習処理により、モデルのパラメータを学習してもよい。
【0080】
学習部133は、モデルM1を生成する。学習部133は、ネットワークのパラメータを学習する。例えば、学習部133は、モデルM1のネットワークのパラメータを学習する。学習部133は、学習用データ記憶部121に記憶された学習用データを用いて、学習処理を行うことにより、モデルM1を生成する。例えば、学習部133は、固有表現抽出に用いられるモデルを生成する。学習部133は、モデルM1のネットワークのパラメータを学習することにより、モデルM1を生成する。
【0081】
学習部133による学習の手法は特に限定されないが、例えば、ラベルとデータ(文字情報)とを紐づけた学習用データを用意し、その学習用データを多層ニューラルネットワークに基づいた計算モデルに入力して学習してもよい。学習部133は、再帰型ニューラルネットワーク(RNN)やRNNを拡張したLSTMに基づく手法を用いてもよい。
【0082】
例えば、学習部133は、Seq2Seq(Sequence to Sequence Model)であるモデルM1を学習してもよい。例えば、Seq2Seqは、RNNの一種であるLSTMを構成要素とするEncoder-Decoderモデルである。例えば、モデルM1は、
図2の第2文字情報UD1に対応する文字情報が入力された場合、「X曜日の〇〇」という文字列を出力する。このように、Seq2SeqであるモデルM1は、第2文字情報UD1に対応する文字情報が入力されるEncoder側でベクトル化を行い、Decoder側で「X曜日の〇〇」を出力するようにRNNの学習を行う。
【0083】
(処理部134)
処理部134は、各種の処理を実行する。処理部134は、学習部133により学習されたモデルM1を用いた処理を実行する。処理部134は、文字情報をモデルM1に入力し、モデルM1が出力した文字列を固有表現の文字列とする。例えば、処理部134は、文字情報をモデルM1に入力し、モデルM1が出力した文字列を新語であるとする。
【0084】
処理部134は、文字情報をモデルM1に入力し、モデルM1が出力した文字列を固有表現の文字列を示す情報を外部装置へ提供部135に送信させる。
【0085】
(提供部135)
提供部135は、通信部110を介して、外部装置へ情報を送信する。提供部135は、ユーザが利用する端末装置10へ情報提供サービスを提供する。例えば、提供部135は、学習部133により学習されたモデルM1を端末装置10へ送信する。提供部135は、処理部134による処理結果を示す情報を端末装置10へ送信する。
【0086】
提供部135は、処理部134による処理結果を示す情報を提供する。提供部135は、新語を示す情報を端末装置10に送信する。提供部135は、固有表現を示す情報を端末装置10に送信する。
【0087】
〔3.処理フロー〕
次に、
図7を用いて、実施形態に係る情報処理システム1による情報処理の手順について説明する。
図7は、実施形態に係る情報処理装置による処理の一例を示すフローチャートである。
【0088】
図7に示すように、情報処理装置100は、所定の種別に該当する文字列である抽出対象文字列を文字情報から抽出するモデルの学習に用いるためのラベルが付された第1文字情報を含む学習用データセット文字情報を取得する(ステップS101)。
【0089】
情報処理装置100は、ラベルが付されていない文字情報である第2文字情報を取得する(ステップS102)。情報処理装置100は、学習用データセットのうち、第2文字情報と類似する第1文字情報を類似文字情報として選択する(ステップS103)。
【0090】
情報処理装置100は、類似文字情報中の抽出対象文字列である第1文字列を、第2文字情報中の抽出対象文字列である第2文字列に変更することにより、第2文字列を含み、モデルの学習に利用可能な変更文字情報を生成する(ステップS104)。
【0091】
〔4.効果〕
上述してきたように、実施形態に係る情報処理装置100は、取得部131と、生成部132とを有する。取得部131は、所定の種別に該当する文字列である抽出対象文字列を文字情報から抽出するモデルの学習に用いるためのラベルが付された第1文字情報を含む学習用データセットと、ラベルが付されていない文字情報である第2文字情報とを取得する。生成部132は、学習用データセットのうち、第2文字情報と類似する第1文字情報を類似文字情報として選択し、類似文字情報中の抽出対象文字列である第1文字列を、第2文字情報中の抽出対象文字列である第2文字列に変更することにより、第2文字列を含み、モデルの学習に利用可能な文字情報である変更文字情報を生成する。
【0092】
このように、実施形態に係る情報処理装置100は、既存の学習用データに含まれる文字情報の文字列を変換することで新たな学習用データを生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。
【0093】
また、実施形態に係る情報処理装置100において、取得部131は、所定のコンテンツから抽出された第2文字情報を取得する。
【0094】
このように、実施形態に係る情報処理装置100は、所定のコンテンツから抽出された第2文字情報の第2文字列に第1文字情報の第1文字列を変換して新たな学習用データを生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。
【0095】
また、実施形態に係る情報処理装置100において、取得部131は、インターネット上で提供される所定のコンテンツから抽出された第2文字情報を取得する。
【0096】
このように、実施形態に係る情報処理装置100は、インターネット上で提供される所定のコンテンツから抽出された第2文字情報の第2文字列に第1文字情報の第1文字列を変換して新たな学習用データを生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。
【0097】
また、実施形態に係る情報処理装置100において、取得部131は、所定の対象を解説する解説コンテンツから抽出された第2文字情報を取得する。
【0098】
このように、実施形態に係る情報処理装置100は、所定の対象を解説する解説コンテンツから抽出された第2文字情報の第2文字列に第1文字情報の第1文字列を変換して新たな学習用データを生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。
【0099】
また、実施形態に係る情報処理装置100において、取得部131は、第1文字列が示す対象とは異なる対象を解説する解説コンテンツから抽出された第2文字情報を取得する。
【0100】
このように、実施形態に係る情報処理装置100は、第1文字列が示す対象とは異なる対象を解説する解説コンテンツから抽出された第2文字情報の第2文字列に第1文字情報の第1文字列を変換して新たな学習用データを生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。
【0101】
また、実施形態に係る情報処理装置100において、取得部131は、インターネット百科事典内のコンテンツから抽出された第2文字情報を取得する。
【0102】
このように、実施形態に係る情報処理装置100は、インターネット百科事典内のコンテンツから抽出された第2文字情報の第2文字列に第1文字情報の第1文字列を変換して新たな学習用データを生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。
【0103】
また、実施形態に係る情報処理装置100において、生成部132は、学習用データセットから、第2文字情報との類似度に基づいて類似文字情報を選択し、類似文字情報中の第1文字列を、第2文字情報中の第2文字列に変更することにより、変更文字情報を生成する。
【0104】
このように、実施形態に係る情報処理装置100は、学習用データセットから、第2文字情報との類似度に基づいて類似文字情報を選択して、選択した類似文字情報を用いて変更文字情報を生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。
【0105】
また、実施形態に係る情報処理装置100において、生成部132は、学習用データセットのうち、第2文字情報との類似度が最大である第1文字情報を類似文字情報として選択する。
【0106】
このように、実施形態に係る情報処理装置100は、学習用データセットのうち第2文字情報との類似度が最大である第1文字情報を用いて変更文字情報を生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。
【0107】
また、実施形態に係る情報処理装置100において、生成部132は、学習用データセット中の各第1文字情報がベクトル化された第1ベクトルの各々と、第2文字情報がベクトル化された第2ベクトルとの類似度に基づいて、類似文字情報を選択する。
【0108】
このように、実施形態に係る情報処理装置100は、学習用データセットのうちベクトル化した状態で第2文字情報と類似する第1文字情報を用いて変更文字情報を生成することにより、モデルの学習に利用可能な文字情報を効率的に生成することができる。
【0109】
また、実施形態に係る情報処理装置100において、生成部132は、第1文字列が所定の種別に該当することを示す種別ラベルを第2文字列の種別ラベルとする変更文字情報を生成する。
【0110】
このように、実施形態に係る情報処理装置100は、学習用データセットから、第1文字列のラベルを第2文字列のラベルとして用いることで、自動的に第2文字列にラベルが付与されるため、モデルの学習に利用可能な文字情報を効率的に生成することができる。
【0111】
また、実施形態に係る情報処理装置100において、取得部131は、固有表現に該当する抽出対象文字列を文字情報から抽出するモデルの学習に用いられる学習用データセットを取得する。生成部132は、類似文字情報中の固有表現である第1文字列を、第2文字情報中の固有表現である第2文字列に変更することにより、変更文字情報を生成する。
【0112】
このように、実施形態に係る情報処理装置100は、文字情報中の固有表現を他の固有表現に変換することで、新たな学習用データを生成することにより、固有表現を抽出するモデルの学習に利用可能な文字情報を効率的に生成することができる。
【0113】
また、実施形態に係る情報処理装置100は、学習部133を有する。学習部133は、生成部132により生成された変更文字情報を用いた機械学習の処理により、モデルを学習する。
【0114】
これにより、実施形態に係る情報処理装置100は、変更文字情報を用いた機械学習の処理により、モデルを学習することより、生成した情報を用いて適切にモデルを学習することができる。
【0115】
また、実施形態に係る情報処理装置100において、学習部133は、文字情報の入力に応じて、当該文字情報に抽出対象文字列が含まれる場合、抽出対象文字列を出力するモデルを学習する。
【0116】
これにより、実施形態に係る情報処理装置100は、生成した情報を用いて抽出対象文字列を出力するモデルを学習することができる。
【0117】
また、実施形態に係る情報処理装置100において、学習部133は、変更文字情報から第2文字列が抽出されるようにモデルを学習する。
【0118】
これにより、実施形態に係る情報処理装置100は、生成した情報を用いて抽出対象文字列を出力するモデルを学習することができる。
【0119】
〔5.ハードウェア構成〕
また、上述した実施形態に係る情報処理装置100や端末装置10は、例えば
図8に示すような構成のコンピュータ1000によって実現される。以下、情報処理装置100を例に挙げて説明する。
図8は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力I/F(Interface)1060、入力I/F1070、ネットワークI/F1080がバス1090により接続された形態を有する。
【0120】
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。演算装置1030は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等により実現される。
【0121】
一次記憶装置1040は、RAM(Random Access Memory)等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等により実現される。二次記憶装置1050は、内蔵ストレージであってもよいし、外付けストレージであってもよい。また、二次記憶装置1050は、USBメモリやSD(Secure Digital)メモリカード等の取り外し可能な記憶媒体であってもよい。また、二次記憶装置1050は、クラウドストレージ(オンラインストレージ)やNAS(Network Attached Storage)、ファイルサーバ等であってもよい。
【0122】
出力I/F1060は、ディスプレイ、プロジェクタ、及びプリンタ等といった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインターフェイスであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力I/F1070は、マウス、キーボード、キーパッド、ボタン、及びスキャナ等といった各種の入力装置1020から情報を受信するためのインターフェイスであり、例えば、USB等により実現される。
【0123】
また、出力I/F1060及び入力I/F1070はそれぞれ出力装置1010及び入力装置1020と無線で接続してもよい。すなわち、出力装置1010及び入力装置1020は、ワイヤレス機器であってもよい。
【0124】
また、出力装置1010及び入力装置1020は、タッチパネルのように一体化していてもよい。この場合、出力I/F1060及び入力I/F1070も、入出力I/Fとして一体化していてもよい。
【0125】
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、又は半導体メモリ等から情報を読み出す装置であってもよい。
【0126】
ネットワークI/F1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
【0127】
演算装置1030は、出力I/F1060や入力I/F1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
【0128】
例えば、コンピュータ1000が情報処理装置100として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部130の機能を実現する。また、コンピュータ1000の演算装置1030は、ネットワークI/F1080を介して他の機器から取得したプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行してもよい。また、コンピュータ1000の演算装置1030は、ネットワークI/F1080を介して他の機器と連携し、プログラムの機能やデータ等を他の機器の他のプログラムから呼び出して利用してもよい。
【0129】
〔6.その他〕
以上、本願の実施形態を説明したが、これら実施形態の内容により本発明が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。
【0130】
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0131】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。
【0132】
例えば、上述した情報処理装置100は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットホーム等をAPI(Application Programming Interface)やネットワークコンピューティング等で呼び出して実現するなど、構成は柔軟に変更できる。
【0133】
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0134】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
【符号の説明】
【0135】
1 情報処理システム
100 情報処理装置
120 記憶部
121 学習用データ記憶部
122 モデル情報記憶部
123 コンテンツ情報記憶部
130 制御部
131 取得部
132 生成部
133 学習部
134 処理部
135 提供部
10 端末装置