(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-19
(45)【発行日】2023-09-27
(54)【発明の名称】変数データ生成装置、予測モデル生成装置、変数データ生産方法、予測モデル生産方法、プログラム及び記録媒体
(51)【国際特許分類】
G06F 16/90 20190101AFI20230920BHJP
G06N 20/00 20190101ALI20230920BHJP
G06F 18/2113 20230101ALI20230920BHJP
【FI】
G06F16/90
G06N20/00
G06F18/2113
(21)【出願番号】P 2019085733
(22)【出願日】2019-04-26
【審査請求日】2022-03-07
(73)【特許権者】
【識別番号】000232092
【氏名又は名称】NECソリューションイノベータ株式会社
(74)【代理人】
【識別番号】100115255
【氏名又は名称】辻丸 光一郎
(74)【代理人】
【識別番号】100154081
【氏名又は名称】伊佐治 創
(72)【発明者】
【氏名】川村 武人
【審査官】早川 学
(56)【参考文献】
【文献】特開2018-010570(JP,A)
【文献】野守耕爾ほか1名,“三位一体アプローチによるテキストデータモデリング法の開発 -宿泊施設の口コミデータを用いた評価推論モデルの構築-”,一般社団法人 人工知能学会 第28回全国大会論文集,2014年05月12日,1L2-OS-17a オーガナイズドセッション 1,pp.1~4
【文献】小林のぞみ、ほか4名,“意見抽出のための評価表現の収集”,自然言語処理,日本,言語処理学会,2005年07月10日,第12巻, 第3号,pp.203~222
【文献】割石奈生ほか,テキストマイニングによる営業日報の分析,電子情報通信学会技術研究報告,一般社団法人電子情報通信学会,2015年12月11日,Vol.115,No.381,pp.37-42
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06N 20/00
G06F 18/00-18/40
(57)【特許請求の範囲】
【請求項1】
テキストデータ取得手段、変数グループ分類手段、変数スコア化手段、及び、変数データ出力手段、を含み、
前記テキストデータ取得手段は、テキストデータを取得し、
前記変数グループ分類手段は、前記テキストデータの部分テキストを、複数の変数グループに分類し、
前記変数スコア化手段は、単語段階評価基準テーブル、及び、単語抽出カウント手段、を含み、
前記単語段階評価基準テーブルは、単語毎に段階評価基準を含み、
前記単語抽出カウント手段は、前記変数グループのテキストデータから、前記単語段階評価基準テーブルにある単語及び前記単語の類義語と共通する単語を抽出し、かつ、前記抽出した共通する単語の個数をカウントし、
前記単語抽出カウント手段は、さらに、単語ベクトル化手段を含み、
前記単語ベクトル化手段は、前記変数グループのテキストデータと前記単語段階評価基準テーブルの双方に共通する単語をベクトル化し、
前記単語抽出カウント手段は、前記ベクトル化された共通する単語のベクトルと他の単語のベクトルとを比較し、予め定めた基準に基づき、前記ベクトル化された共通する単語の類義語を抽出し、
前記変数スコア化手段は、
前記カウントされた単語の個数及び前記単語段階評価基準テーブルの段階評価基準を基に、複数の前記変数グループのうち、少なくとも一つのグループのデータについて、他のグループのデータに関連付けてスコア化し、
前記変数データ出力手段は、スコア化された前記グループの各データを目的変数とし、かつ、スコア化された前記グループに関連付けられたグループの各データを説明変数として、出力する、
機械学習用の変数データ生成装置。
【請求項2】
前記変数スコア化手段は、単語段階評価基準テーブル生成手段を含み、
前記単語段階評価基準テーブル生成手段は、前記テキストデータ取得手段で取得した複数の日本語テキストデータを形態素解析して単語に分解し、日本語評価極性辞書(用
言編)に掲載されている単語と共通する単語を抽出し、
前記抽出された単語及び前記抽出された単語についての日本語評価極性辞書の評価情報を紐づけてテーブルにする、
請求項
1記載の変数データ生成装置。
【請求項3】
前記テキストデータ取得手段が取得するテキストデータが、旅行内容データ、旅行客データ、及び、旅行ガイドデータであり、
前記変数グループ分類手段は、前記旅行内容データを旅行内容変数に分類し、前記旅行客データを旅行客変数に分類し、前記旅行ガイドデータを旅行ガイド変数に分類する、
請求項1
または2記載の変数データ生成装置。
【請求項4】
変数データ生成手段、変数データ入力手段、機械学習手段、及び、予測モデル出力手段を含み、
前記変数データ生成手段は、請求項1から
3のいずれか一項に記載の変数データ生成装置であり、
前記変数データ入力手段により、前記変数データ生成手段で生成された目的変数データ及び説明変数データを、前記機械学習手段に入力し、
前記機械学習手段は、機械学習により、予測モデルを生成し、
前記予測モデル出力手段は、生成された前記予測モデルを出力する、
予測モデル生成装置。
【請求項5】
テキストデータ取得工程、変数グループ分類工程、変数スコア化工程、及び、変数データ出力工程、を含み、
前記テキストデータ取得工程は、テキストデータを取得し、
前記変数グループ分類工程は、前記テキストデータの部分テキストを、複数の変数グループに分類し、
前記変数スコア化工程は、単語段階評価基準テーブル、及び、単語抽出カウント工程、を含み、
前記単語段階評価基準テーブルは、単語毎に段階評価基準を含み、
前記単語抽出カウント工程は、前記変数グループのテキストデータから、前記単語段階評価基準テーブルにある単語及び前記単語の類義語と共通する単語を抽出し、かつ、前記抽出した共通する単語の個数をカウントし、
前記単語抽出カウント工程は、さらに、単語ベクトル化工程を含み、
前記単語ベクトル化工程は、前記変数グループのテキストデータと前記単語段階評価基準テーブルの双方に共通する単語をベクトル化し、
前記単語抽出カウント工程は、前記ベクトル化された共通する単語のベクトルと他の単語のベクトルとを比較し、予め定めた基準に基づき、前記ベクトル化された共通する単語の類義語を抽出し、
前記変数スコア化工程は、
前記カウントされた単語の個数及び前記単語段階評価基準テーブルの段階評価基準を基に、複数の前記変数グループのうち、少なくとも一つのグループのデータについて、他のグループのデータに関連付けてスコア化し、
前記変数データ出力工程は、スコア化された前記グループの各データを目的変数とし、かつ、スコア化された前記グループに関連付けられたグループの各データを説明変数として、出力し、前記各工程が、コンピュータにより実行される、
機械学習用の変数データ生産方法。
【請求項6】
変数データ生成工程、変数データ入力工程、機械学習工程、及び、予測モデル出力工程を含み、
前記変数データ生成工程は、請求項
5記載の変数データ生産方法により実施され、
前記変数データ入力工程により、前記変数データ生成工程で生成された目的変数データ及び説明変数データを、前記機械学習工程に入力し、
前記機械学習工程は、機械学習により、予測モデルを生成し、
前記予測モデル出力工程は、生成された前記予測モデルを出力し、前記各工程が、コンピュータにより実行される、
予測モデル生産方法。
【請求項7】
請求項
5記載の方法をコンピュータに実行させるためのプログラム。
【請求項8】
請求項6記載の方法をコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、変数データ生成装置、予測モデル生成装置、変数データ生産方法、予測モデル生産方法、プログラム及び記録媒体に関する。
【背景技術】
【0002】
近年、機械学習の技術が進み、自動翻訳、音声認識、及び、画像認識(顔認証等)等の分野で利用されている。機械学習は、多量の学習データが必要である。例えば、特許文献1には、機械学習用の学習データを作成するために必要な膨大な量の情報収集に要する労力とコストを抑えるシステムが開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
旅行及び保険等のサービス分野では、ガイドの報告書及び営業報告書等のテキストデータがあり、これらのテキストデータを利用すれば、機械学習により、サービス提供に有用な予測モデルを生成できる可能性がある。しかしながら、これらのテキストデータから、機械学習の学習データ(目的変数データ及び説明変数データ)を自動的に生成する技術は無かった。
【0005】
そこで、本発明は、テキストデータから、目的変数データ及び説明変数データを自動的に生成可能な変数データ生成装置及び変数データ生産方法の提供を目的とする。
【課題を解決するための手段】
【0006】
前記目的を達成するために、本発明の機械学習用の変数データ生成装置は、テキストデータ取得手段、変数グループ分類手段、変数スコア化手段、及び、変数データ出力手段、を含み、前記テキストデータ取得手段は、テキストデータを取得し、前記変数グループ分類手段は、前記テキストデータを、複数の変数グループに分類し、前記変数スコア化手段は、複数の前記変数グループのうち、少なくとも一つのグループのデータについて、他のグループのデータに関連付けてスコア化し、前記変数データ出力手段は、スコア化された前記グループの各データを目的変数とし、かつ、スコア化された前記グループに関連付けられたグループの各データを説明変数として、出力する、装置である。
【0007】
本発明の変数データ生産方法は、テキストデータ取得工程、変数グループ分類工程、変数スコア化工程、及び、変数データ出力工程、を含み、前記テキストデータ取得工程は、テキストデータを取得し、前記変数グループ分類工程は、前記テキストデータを、複数の変数グループに分類し、前記変数スコア化工程は、複数の前記変数グループのうち、少なくとも一つのグループのデータについて、他のグループのデータに関連付けてスコア化し、前記変数データ出力工程は、スコア化された前記グループの各データを目的変数とし、かつ、スコア化された前記グループに関連付けられたグループの各データを説明変数として、出力する、方法である。
【発明の効果】
【0008】
本発明によれば、機械学習に必要な目的変数データ及び説明変数データを自動的に生成することが可能である。
【図面の簡単な説明】
【0009】
【
図1】
図1は、実施形態1の装置の一例の構成を示すブロック図である。
【
図2】
図2は、実施形態1の装置のハードウエア構成の一例を示すブロック図である。
【
図3】
図3は、実施形態1の装置における処理の一例を示すフローチャートである。
【
図4】
図4は、実施形態2における変数データ生成装置及び予測モデル生成装置の概念の一例を示す模式図である。
【
図5】
図5は、実施形態2の装置におけるガイドレポートの一例を示す模式図である。
【
図6】
図6は、実施形態2の装置におけるポジネガテーブルの一例を示す模式図である。
【
図7】
図7は、実施形態2の装置における目的変数「ガイド」が、訪日客毎にスコア化されたスコアテーブルの一例を示す表である。
【
図8】
図8は、実施形態2の装置における予測モデルから適合度を予測する一例を示す模式図である。
【
図9】
図9は、実施形態2の装置における予測モデルから適合度を予測する一例を示す模式図である。
【
図10】
図10は、実施形態2の装置における予測モデルから適合度を予測する一例を示す模式図である。
【
図11】
図11は、実施形態2の装置における予測モデルから適合度を予測する一例を示す模式図である。
【
図12】
図12は、実施形態2の装置におけるレコメンドの内容の一例を示す表である。
【発明を実施するための形態】
【0010】
本発明の変数データ生成装置において、前記変数スコア化手段は、単語段階評価基準テーブル、及び、単語抽出カウント手段、を含み、前記単語段階評価基準テーブルは、単語毎に段階評価基準を含み、前記単語抽出カウント手段は、前記変数グループのテキストデータから、前記単語段階評価基準テーブルにある単語と共通する単語を抽出し、かつ、前記抽出した共通する単語の個数をカウントし、前記変数スコア化手段は、前記抽出カウントされた単語の個数及び前記単語段階評価基準テーブルの段階評価基準を基に、前記グループのデータをスコア化する、という態様であってもよい。
【0011】
前記態様の本発明の変数データ生成装置において、前記単語抽出カウント手段は、前記変数グループのテキストデータから、前記単語段階評価基準テーブルにある単語及び前記単語の類義語と共通する単語を抽出し、かつ、前記抽出した共通する単語の個数をカウントする、という態様であってもよい。
【0012】
前記態様の本発明の装置において、前記単語抽出カウント手段は、さらに、単語ベクトル化手段を含み、前記単語ベクトル化手段は、前記変数グループのテキストデータと前記単語段階評価基準テーブルの双方に共通する単語をベクトル化し、前記単語抽出カウント手段は、前記共通する単語のベクトルと他の単語のベクトルとを比較し、予め定めた基準に基づき、前記共通する単語と類義語を抽出する、という態様であってもよい。
【0013】
前記態様の本発明の装置において、前記単語段階評価基準テーブルにある各単語が、前記単語ベクトル化手段により、ベクトル化されており、前記単語抽出カウント手段は、前記共通する単語のベクトルと前記単語段階評価基準テーブルの各単語のベクトルとを比較し、予め定めた基準に基づき、前記単語段階評価基準テーブルの各単語から、前記共通する単語の類義語を抽出する、という態様であってもよい。
【0014】
本発明の変数データ生成装置において、前記変数スコア化手段は、単語段階評価基準テーブル生成手段を含み、前記単語段階評価基準テーブル生成手段は、前記テキストデータ取得手段で取得した複数の日本語テキストデータを形態素解析して単語に分解し、日本語評価極性辞書(用言編)に掲載されている単語と共通する単語を抽出し、前記抽出された単語及び前記抽出された単語についての日本語評価極性辞書の評価情報を紐づけてテーブルにする、という態様であってもよい。
【0015】
本発明の変数データ生成装置において、前記テキストデータ取得手段が取得するテキストデータが、旅行内容データ、旅行客データ、及び、旅行ガイドデータであり、前記変数グループ分類手段は、前記旅行内容データを旅行内容変数に分類し、前記旅行客データを旅行客変数に分類し、前記旅行ガイドデータを旅行ガイド変数に分類する、という態様であってもよい。
【0016】
本発明の予測モデル生成装置は、変数データ生成手段、変数データ入力手段、機械学習手段、及び、予測モデル出力手段を含み、前記変数データ生成手段は、本発明の変数データ生成装置であり、前記変数データ入力手段により、前記変数データ生成手段で生成された目的変数データ及び説明変数データを、前記機械学習手段に入力し、前記機械学習手段は、機械学習により、予測モデルを生成し、前記予測モデル出力手段は、生成された前記予測モデルを出力する、装置である。
【0017】
本発明の変数データ生産方法において、前記変数スコア化工程は、単語段階評価基準テーブルを使用する単語抽出カウント工程、を含み、前記単語段階評価基準テーブルは、単語毎に段階評価基準を含み、前記単語抽出カウント工程は、前記変数グループのテキストデータから、前記単語段階評価基準テーブルにある単語と共通する単語を抽出し、かつ、前記抽出した共通する単語の個数をカウントし、前記変数スコア化工程は、前記抽出カウントされた単語の個数及び前記単語段階評価基準テーブルの段階評価基準を基に、前記グループのデータをスコア化する、という態様であってもよい。
【0018】
前記態様の本発明の変数データ生産方法において、前記単語抽出カウント工程は、前記変数グループのテキストデータから、前記単語段階評価基準テーブルにある単語及び前記単語の類義語と共通する単語を抽出し、かつ、前記抽出した共通する単語の個数をカウントする、という態様であってもよい。
【0019】
前記態様の本発明の変数データ生産方法において、前記単語抽出カウント工程は、さらに、単語ベクトル化工程を含み、前記単語ベクトル化工程は、前記変数グループのテキストデータと前記単語段階評価基準テーブルの双方に共通する単語をベクトル化し、前記単語抽出カウント工程は、前記共通する単語のベクトルと他の単語のベクトルとを比較し、予め定めた基準に基づき、前記共通する単語と類義語を抽出する、という態様であってもよい。
【0020】
前記態様の本発明の変数データ生産方法において、前記単語段階評価基準テーブルにある各単語が、前記単語ベクトル化工程により、ベクトル化されており、前記単語抽出カウント工程は、前記共通する単語のベクトルと前記単語段階評価基準テーブルの各単語のベクトルとを比較し、予め定めた基準に基づき、前記単語段階評価基準テーブルの各単語から、前記共通する単語の類義語を抽出する、という態様であってもよい。
【0021】
本発明の変数データ生産方法において、前記変数スコア化工程は、単語段階評価基準テーブル生成工程を含み、前記単語段階評価基準テーブル生成工程は、前記テキストデータ取得工程で取得した複数の日本語テキストデータを形態素解析して単語に分解し、日本語評価極性辞書(用言編)に掲載されている単語と共通する単語を抽出し、前記抽出された単語及び前記抽出された単語についての日本語評価極性辞書の評価情報を紐づけてテーブルにする、という態様であってもよい。
【0022】
本発明の変数データ生産方法において、前記テキストデータ取得工程が取得するテキストデータが、旅行内容データ、旅行客データ、及び、旅行ガイドデータであり、前記変数グループ分類工程は、前記旅行内容データを旅行内容変数に分類し、前記旅行客データを旅行客変数に分類し、前記旅行ガイドデータを旅行ガイド変数に分類する、という態様であってもよい。
【0023】
本発明の予測モデル生産方法は、変数データ生成工程、変数データ入力工程、機械学習工程、及び、予測モデル出力工程を含み、前記変数データ生成工程は、本発明の変数データ生産方法により実施され、前記変数データ入力工程により、前記変数データ生成工程で生成された目的変数データ及び説明変数データを、前記機械学習工程に入力し、前記機械学習工程は、機械学習により、予測モデルを生成し、前記予測モデル出力工程は、生成された前記予測モデルを出力する、という方法である。
【0024】
本発明のプログラムは、本発明の方法をコンピュータ上で実行可能なプログラムである。
【0025】
本発明の記録媒体は、本発明のプログラムを記録しているコンピュータ読み取り可能な記録媒体である。
【0026】
次に、本発明の実施形態について図を用いて説明する。本発明は、以下の実施形態には限定されない。以下の各図において、同一部分には、同一符号を付している。また、各実施形態の説明は、特に言及がない限り、互いの説明を援用でき、各実施形態の構成は、特に言及がない限り、組合せ可能である。
【0027】
[実施形態1]
図1は、本実施形態の変数データ生成装置1の一例の構成を示すブロック図である。
図1に示すように、本装置1は、テキストデータ取得手段11、変数グループ分類手段12、変数スコア化手段13、及び、変数データ出力手段14を含む。同図に示すように、変数スコア化手段13は、単語段階評価基準テーブル15及び単語抽出カウント手段16を含んでいても良い。単語抽出カウント手段16は、単語ベクトル化手段17を含んでいてもよい。単語ベクトル化手段17は、単語をベクトル化して数値情報に変換する手段であり、例えば、word2vecが使用できる。
【0028】
本装置1の形態は、特に制限されないが、サーバ、パーソナルコンピュータ(PC、例えば、デスクトップ型、ノート型)が挙げられる。また、本装置1の構成手段11~17は、別々の装置がネットワーク(通信回線網)で接続された態様であってもよい。
【0029】
図2に、本装置1のハードウエア構成のブロック図を例示する。本装置1は、例えば、中央演算装置(CPU、GPU等)101、メモリ102、バス103、記憶装置104、入力装置105、表示装置(ディスプレイ)106、通信デバイス107等を有する。本装置1の各部は、それぞれのインタフェース(I/F)により、バス103を介して相互に接続されている。
【0030】
中央演算装置(中央処理装置)101は、本装置1の全体の制御を担う。本装置1において、中央演算装置101により、例えば、本発明のプログラムやその他のプログラムが実行され、また、各種情報の読み込みや書き込みが行われる。具体的には、例えば、中央演算装置101が、テキストデータ取得手段11、変数グループ分類手段12、変数スコア化手段13、及び、変数データ出力手段14として機能する。なお、本発明では、機械学習を実施するので、中央演算装置101は、GPUが好ましい。
【0031】
バス103は、例えば、外部機器とも接続できる。前記外部機器は、例えば、外部記憶装置(外部データベース等)、プリンター等があげられる。本装置1は、例えば、バス103に接続された通信デバイス107により、外部ネットワーク(通信回線網)に接続でき、外部ネットワークを介して、他の装置又は機器と接続することもできる。他の装置としては、例えば、管理者の端末(PC、サーバ、スマートフォン、タブレット等)がある。
【0032】
本装置1は、例えば、さらに、入力装置105、ディスプレイ106を有する。入力装置105は、例えば、タッチパネル、キーボード、マウス等である。ディスプレイ106は、例えば、LEDディスプレイ、液晶ディスプレイ等が挙げられる。
【0033】
本装置1において、メモリ102及び記憶装置104は、管理者からのアクセス情報及びログ情報、並びに、外部データベース(図示せず)から取得した情報を記憶することも可能である。
【0034】
本装置1において、テキストデータ取得手段11は、例えば、通信デバイス107により、外部ネットワークを介して、テキストデータを取得してもよい。前記外部ネットワークとしては、インターネット回線、WWW(World Wide Web)、電話回線、LAN(Local Area Network)、DTN(Delay Tolerant Networking)等がある。通信デバイス107による通信は、有線でも無線でもよい。無線通信としては、WiFi(Wireless Fidelity)、Bluetooth(登録商標)等が挙げられる。前記無線通信としては、各装置が直接通信する形態(Ad Hoc通信)、アクセスポイントを介した間接通信のいずれであってもよい。
【0035】
メモリ102は、例えば、メインメモリ(主記憶装置)が挙げられる。メインメモリは、例えば、RAM(ランダムアクセスメモリ)である。また、メモリ102は、例えば、ROM(読み出し専用メモリ)であってもよい。記憶装置104は、例えば、記憶媒体と、記憶媒体に読み書きするドライブとの組合せであってもよい。前記記憶媒体は、特に制限されず、例えば、内蔵型でも外付け型でもよく、HD(ハードディスク)、CD-ROM、CD-R、CD-RW、MO、DVD、フラッシュメモリー、メモリーカード等が挙げられる。記憶装置104は、例えば、記憶媒体とドライブとが一体化されたハードディスクドライブ(HDD)であってもよい。
【0036】
図3のフローチャートに、本装置1の処理の一例を示す。まず、テキストデータ取得手段11により、テキストデータを取得する(S1)。変数グループ分類手段12により、前記テキストデータを、複数の変数グループに分類する(S2)。変数スコア化手段13により、複数の前記変数グループのうち、少なくとも一つのグループのデータについて、他のグループのデータに関連付けてスコア化する(S3)。変数データ出力手段14により、スコア化された前記グループの各データを目的変数とし、かつ、スコア化された前記グループに関連付けられたグループの各データを説明変数として、出力する(S4)。前記出力された目的変数データ及び説明変数データを、後述する機械学習手段に入力すれば、機械学習手段は、機械学習により、説明変数から目的変数を予測する予測モデルを生成する。
【0037】
本発明において、機械学習は特に制限されず、例えば、決定木、ランダムフォレスト、ニューラルネットワークを用いた学習(ディープラーニング)等が使用できる。
【0038】
本発明の変数データ生成装置において、前述のように、変数スコア化手段13は、単語段階評価基準テーブル15、及び、単語抽出カウント手段16を含む態様であってもよい。単語段階評価基準テーブル15は、単語毎に段階評価基準を含む。単語抽出カウント手段16は、変数グループのテキストデータから、単語段階評価基準テーブル15にある単語と共通する単語を抽出し、かつ、前記抽出した共通する単語の個数をカウントする。変数スコア化手段13は、抽出カウントされた単語の個数及び単語段階評価基準テーブル15の段階評価基準を基に、前記グループのデータをスコア化する。スコア化の例は、実施形態2で示す。
【0039】
本発明の変数データ生成装置1において、前述のように、単語抽出カウント手段16は、変数グループのテキストデータから、単語段階評価基準テーブル15にある単語及び前記単語の類義語と共通する単語を抽出し、かつ、前記抽出した共通する単語の個数をカウントする、という態様であってもよい。この場合、単語抽出カウント手段16は、さらに、単語ベクトル化手段17を含むという態様であってもよい。この場合、単語ベクトル化手段17は、変数グループのテキストデータと単語段階評価基準テーブル15の双方に共通する単語をベクトル化(複数次元の数値化)し、単語抽出カウント手段16は、前記共通する単語のベクトルと他の単語のベクトルとを比較し、予め定めた基準に基づき、前記共通する単語と類義語を抽出する、という態様であってもよい。
【0040】
単語ベクトル化手段17としては、前述のように、例えば、word2vec等が使用できる。以下、単語のベクトル化の例として、単語「楽しい」を例に挙げて説明する。単語ベクトル化手段17は、例えば、「楽しい」と共起する他の単語との関係に基づいて、特徴量を演算し、前記演算した特徴量を「楽しい」のベクトルとする。すなわち、前記ベクトルは、単語の定義や意味的特徴が反映された分散表現として生成される。そのため、「楽しい」と類似する単語(類義語)は、前記ベクトルと類似するベクトルになる。
【0041】
つぎに、前記類義語の抽出について、下記表1を用いて説明する。なお、下記表1は、例示であって、これに限定されない。前記類義語の抽出は、例えば、前述と同様にword2vec等が使用できる。
【0042】
【0043】
表1における「楽しい」は、前記変数グループのテキストデータと単語段階評価基準テーブル15の双方に共通する単語である。まず、前述のように、単語ベクトル化手段17により、「楽しい」をベクトル化する。つぎに、単語抽出カウント手段16により、「楽しい」のベクトルと他の単語のベクトルとを比較する。前記他の単語は、特に限定されず、例えば、単語段階評価基準テーブル15にある各単語でもよいし、外部データベース等にある各単語でもよい。単語段階評価基準テーブル15にある各単語を使用する場合、前記各単語は、単語ベクトル化手段17により、ベクトル化される。一方で、外部データベース等にある各単語を使用する場合も同様に、前記各単語は、単語ベクトル化手段17により、ベクトル化されてもよい。
【0044】
つぎに、単語抽出カウント手段16により、予め定めた基準に基づき、「楽しい」の類義語(例えば、「幸せ」、「充実」及び「愉しい」等)が抽出される。前記類義語は、前記他の単語が単語段階評価基準テーブル15にある各単語の場合、前記単語段階評価基準テーブルの各単語から抽出される。一方で、前記類義語は、前記他の単語が外部データベース等にある各単語の場合、単語段階評価基準テーブル15にない単語を抽出することができる。前記予め定めた基準とは、特に限定されず、例えば、品詞等である。表1において、項目「採用」とは、前記類義語として採用したか否かを表している。表1において、「幸せ」、「充実」及び「愉しい」は、「楽しい」の類義語として採用されており、採用した類義語の品詞の形態を項目「採用」に表している。また、表1において、項目「順位」とは、後述する類似度に基づき、「楽しい」と類似する単語の順序を表している。さらに、表1において項目「類似度」とは、前記共通する単語と前記各類義語との類似の程度を算出した値を表している。
【0045】
[実施形態2]
次に、
図4から
図12に基づき本発明の変数データ生成装置1及び予測モデル生成装置2の例について説明する。
【0046】
図4に、変数データ生成装置1と、変数データ生成装置1で生成された変数データを用いて予測モデルを生成する予測モデル生成装置2の概念を示す。同図に示す概念では、テキストデータとして、ガイドデータ(例えば、ガイドレポート)を用いて変数データを生成する。同図に示すように、ガイドデータ(ガイドレポートのテキストデータ)及び旅行会社が保有するテキストデータを、テキストデータ取得手段11が取得し、変数データ生成装置1により、テキスト分析(変数グループ分類、及び、変数スコア化)する。ガイドデータとしては、例えば、観光内容、買い物、体験(感想)、食事等に関するガイドの報告書データがある。旅行会社保有データは、例えば、旅行内容(訪問先、移動手段、期間、費用等)データ、ガイドデータ、旅行客データ等がある。
【0047】
図5に、ガイドレポートの一例を示す。
図5に示すように、ガイドレポートは、作成年月日、作成したガイドの氏名、旅行日、旅行客(A国からの4名、男性2名、女性2名等)、天気(晴れ時々曇り等)、行程(スポットA、スポットB、スポットC等の訪問したスポット等)、旅行客の印象又は感想(旅行客が感じたこと、又は、ガイドが観察した旅行客の印象等)が記載されている。
【0048】
テキスト分析では、ポジ(ポジティブ)ネガ(ネガティブ)テーブル(すなわち、単語段階評価基準テーブル15)に基づき、例えば、ツアー毎にポジネガラベル付きの変数ガイドデータを作成する。本例では、変数ガイドデータが、目的変数となる。
【0049】
図6に、ポジネガテーブルの例を示す。同図では、単語(word)毎に識別記号(ID)が付与され、ポジティブ(P)か、ネガティブ(N)かが記載されており、ポジティブまたはネガティブ判断の基準となる。例えば、IDがA1のword「雨」はネガティブ(N)であり、IDがA2のword「晴」はポジティブ(P)となる。また、前記類義語とは、前記共通する単語と類似する単語である。そのため、前記類義語が、前記ポジネガテーブルに記載されていなくても、前記共通する単語に基づき、ポジネガ判断が可能である。図示していないが、例えば、ポジネガテーブルにおいて、単語「楽しい」がポジティブである場合、「楽しい」の類義語である「幸せ」、「充実」及び「愉しい」等も同様にポジティブとなる。
【0050】
本発明において、単語段階評価基準テーブルは、ポジネガテーブルのように、二段階評価でもよいが、これに限定されず、例えば、三段階評価、五段階評価等の多段階評価であってもよい。
【0051】
本発明において、ポジネガテーブルは、特に制限されず、例えば、「日本語評価極性辞書(用言編)」(小林のぞみ,乾健太郎,松本裕治,立石健二,福島俊一. 意見抽出のための評価表現の収集. 自然言語処理,Vol.12, No.3, pp.203-222, 2005.)を用いても良い。
【0052】
図7に目的変数「ガイド」が訪日客毎にスコア化されたスコアテーブルを示す。同図に示すように、スコアは、ガイドデータ及び旅行会社のデータで出現して抽出された単語(word)の数、及び、評価基準(P=1、N=-1)に基づき、算出されるものである。例えば、ガイドAのスコアは「8」となっており、関連付けられた訪日客A(中国)に対し、高評価になっている。また、ガイドFのスコアは「-1」であり、関連付けられた訪日客F(加国)に対し、低評価(マイナス評価)になっている。同図に示す、訪日客に関するデータは「説明変数」となり、また、スコア化されたガイドデータは、目的変数となり、これらの変数を機械学習(機械学習のフレームワーク)に入力すれば、予測モデルが生成される。
【0053】
次に、
図4に示すように、変数データ生成装置1は、テキスト分析前のガイドデータから説明変数を生成する。前記ガイドデータは、例えば、旅行客情報、ガイド情報及びツアー実施情報等の情報から構成されている。これらの情報は、例えば、ツアー実施後にガイドの報告書及び営業報告書等のテキストデータとして記録される。前記説明変数は、前記ガイドデータを構成する情報であり、且つ、テキスト化されていないデータである。具体的に、前記旅行客情報としては、例えば、国籍、年齢、性別、グループ構成、希望、訪問回数、宿泊先、食事制限等が挙げられる。また、前記ガイド情報としては、例えば、性別、年齢、通訳案内士資格の有無、資格取得時期、ガイド実施経験数等が挙げられる。また、前記ツアー実施情報としては、例えば、ツアー、スポット、ガイド日時、ツアー時間、天気、気温、スポット評価、スポットでの消費金額、消費した物及びサービス等が挙げられる。前記説明変数の生成は、例えば、上記例示した説明変数の中から、最もツアー成功(すなわち、高評価なスコア)に起因する情報を、過去のデータから検出することで、実施される。変数データ生成装置1は、例えば、前記検出された情報に対し、特徴フラグを付与することで、ツアー成功への影響度が高い説明変数を生成できる。
【0054】
本例において、目的変数(例えば、ツアー毎にポジネガラベルが付いたガイドデータ)に、スポット区分付与をしてもよい。スポット区分とは、スポットを説明する区分のことである。スポット区分付与について、前記スポットとして「明治神宮」を例に挙げて説明する。スポット区分付与は、「明治神宮」に関する説明文を形態素解析して単語を抽出する。前記抽出された単語の中からスポット名である「明治神宮」以外に多く抽出された単語(例えば、神社等)を前記スポット区分として付与する。前記説明文は、例えば、Web siteから取得した情報であってもよく、前記説明文を複数取得してもよい。
【0055】
なお、図示していないが、説明変数には、オープンデータも付加情報として、追加してもよい。オープンデータとは、例えば、web site上で自由に収集できるデータであり、旅行実施の際の年月日、時刻、平日・休日、現地天気、現地気温、日照時間(日の出時間、日の入り時間)等がある。これらのオープンデータも、説明変数としては有用な場合がある。
【0056】
図4に示すように、目的変数及び説明変数を機械学習のフレームワーク(例えば、ランダムフォレスト)に入力することで、予測モデルを生成することができる。機械学習のフレームワークはオープンソースのものを使用してもよい。また、本例において、レコメンド機能を採用してもよい。レコメンド機能としては、例えば、協調フィルタリングがある。そして、予測モデルを搭載した旅行適合度予測装置が生成される。旅行適合度予測装置は、説明関数に関するデータを入力すれば、適合度を予測(シミュレーション)して、シミュレーション(予測)結果を出力する。その際、レコメンド機能がある場合は、適合度のレコメンド(推奨)の順位をつけて、シミュレーション結果を出力してもよい。
【0057】
本発明では、旅行内容データ、旅行客データ、及び、旅行ガイドデータの少なくとも一つのデータを目的変数とし、他のデータを説明変数として、それぞれ3通りの機械学習を実施すれば、3つの予測モデルが生成され、3つの予測モデルを旅行適合度予測装置に搭載すれば、
図8に示すように、三方向の予測(シミュレーション)が可能となる。本例の旅行適合度予測装置は、例えば、旅行内容データを入力すれば、推奨旅行客及び推奨旅行ガイドの少なくとも一方が出力され、旅行客データを入力すれば、推奨旅行内容及び推奨旅行ガイドの少なくとも一方が出力され、旅行ガイドデータを入力すれば、推奨旅行客及び推奨旅行内容を出力する。したがって、本例の旅行適合度予測装置は、旅行客、旅行ガイド、及び、旅行提供者(旅行会社)において、有用に使用することが可能である。
【0058】
図9は、入力データとして「旅行客データ」を入力した例である。グループ人数、出身国、性別、年齢及び趣味嗜好等の旅行客データを旅行適合度予測装置に入力すれば、推奨ガイドと推奨旅行内容が出力される。
【0059】
図10は、入力データとして「旅行内容データ」を入力した例である。期間(季節)、エリア、訪問先、費用等の旅行内容データを旅行適合度予測装置に入力すれば、推奨旅行客と推奨ガイドが出力される。
【0060】
図11は、入力データとして「ガイドデータ」を入力した例である。年齢、性別、使用可能言語、得意地域、得意分野(歴史等)、通訳案内士資格の有無、資格取得時期、ガイド実施経験数等のガイドデータを旅行適合度予測装置に入力すれば、推奨旅行客と推奨旅行内容が出力される。
【0061】
図12は、本例の旅行適合度予測装置が出力する予測結果において、旅行客に対するレコメンドの内容を示す。同図に示すように、推奨ガイドが1位から5位まで示されており、かつ、推奨ガイド毎に、推奨スポット(訪問先)が1位から5位まで示されている。なお、図示していないが、本例の旅行適合度予測装置によれば、前記推奨スポットと同様に、ツアー(スポットの組合せ)、天気、気温、ツアー時間及びスポットを訪れる時間等の情報も推奨可能である。本例の旅行適合度予測装置は、前記推奨可能な情報を単独で推奨してもよいし、組み合わせて推奨してもよい。さらに、推奨ガイドA等の出力以外に、推奨ガイド等を実施するのに適したガイドデータの形式で出力することも可能である。前記ガイドデータは、例えば、前述と同様である。また、前記予測結果の出力は、同図に示すような旅行客基点だけではなく、例えば、スポットまたはガイドを基点とした出力も可能である。スポット基点としては、例えば、前記スポットに対し、満足度が上がる推奨旅行客の順位及びツアーガイドの順位等が出力される。一方で、ガイド基点としては、例えば、前記ガイドに対し、相性が良い推奨旅行客の順位及びツアースポットの順位等が出力される。
【0062】
以上、実施形態を参照して本発明を説明したが、本発明は、上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しうる様々な変更をできる。
【0063】
<付記>
上記の実施形態の一部または全部は、以下の付記のように記載されうるが、以下には限られない。
(付記1)
テキストデータ取得手段、変数グループ分類手段、変数スコア化手段、及び、変数データ出力手段、を含み、
前記テキストデータ取得手段は、テキストデータを取得し、
前記変数グループ分類手段は、前記テキストデータを、複数の変数グループに分類し、
前記変数スコア化手段は、複数の前記変数グループのうち、少なくとも一つのグループのデータについて、他のグループのデータに関連付けてスコア化し、
前記変数データ出力手段は、スコア化された前記グループの各データを目的変数とし、かつ、スコア化された前記グループに関連付けられたグループの各データを説明変数として、出力する、
機械学習用の変数データ生成装置。
(付記2)
前記変数スコア化手段は、単語段階評価基準テーブル、及び、単語抽出カウント手段、を含み、
前記単語段階評価基準テーブルは、単語毎に段階評価基準を含み、
前記単語抽出カウント手段は、前記変数グループのテキストデータから、前記単語段階評価基準テーブルにある単語と共通する単語を抽出し、かつ、前記抽出した共通する単語の個数をカウントし、
前記変数スコア化手段は、前記抽出カウントされた単語の個数及び前記単語段階評価基準テーブルの段階評価基準を基に、前記グループのデータをスコア化する、
付記1記載の変数データ生成装置。
(付記3)
前記単語抽出カウント手段は、前記変数グループのテキストデータから、前記単語段階評価基準テーブルにある単語及び前記単語の類義語と共通する単語を抽出し、かつ、前記抽出した共通する単語の個数をカウントする、
付記2記載の変数データ生成装置。
(付記4)
前記単語抽出カウント手段は、さらに、単語ベクトル化手段を含み、
前記単語ベクトル化手段は、前記変数グループのテキストデータと前記単語段階評価基準テーブルの双方に共通する単語をベクトル化し、
前記単語抽出カウント手段は、前記共通する単語のベクトルと他の単語のベクトルとを比較し、予め定めた基準に基づき、前記共通する単語の類義語を抽出する、
付記3記載の変数データ生成装置。
(付記5)
前記単語段階評価基準テーブルにある各単語が、前記単語ベクトル化手段により、ベクトル化されており、
前記単語抽出カウント手段は、前記共通する単語のベクトルと前記単語段階評価基準テーブルの各単語のベクトルとを比較し、予め定めた基準に基づき、前記単語段階評価基準テーブルの各単語から、前記共通する単語の類義語を抽出する、付記4記載の変数データ生成装置。
(付記6)
前記変数スコア化手段は、単語段階評価基準テーブル生成手段を含み、
前記単語段階評価基準テーブル生成手段は、前記テキストデータ取得手段で取得した複数の日本語テキストデータを形態素解析して単語に分解し、日本語評価極性辞書(用言編)に掲載されている単語と共通する単語を抽出し、
前記抽出された単語及び前記抽出された単語についての日本語評価極性辞書の評価情報を紐づけてテーブルにする、
付記1から5のいずれかに記載の変数データ生成装置。
(付記7)
前記テキストデータ取得手段が取得するテキストデータが、旅行内容データ、旅行客データ、及び、旅行ガイドデータであり、
前記変数グループ分類手段は、前記旅行内容データを旅行内容変数に分類し、前記旅行客データを旅行客変数に分類し、前記旅行ガイドデータを旅行ガイド変数に分類する、
付記1から6のいずれかに記載の変数データ生成装置。
(付記8)
変数データ生成手段、変数データ入力手段、機械学習手段、及び、予測モデル出力手段を含み、
前記変数データ生成手段は、付記1から7のいずれかに記載の変数データ生成装置であり、
前記変数データ入力手段により、前記変数データ生成手段で生成された目的変数データ及び説明変数データを、前記機械学習手段に入力し、
前記機械学習手段は、機械学習により、予測モデルを生成し、
前記予測モデル出力手段は、生成された前記予測モデルを出力する、
予測モデル生成装置。
(付記9)
テキストデータ取得工程、変数グループ分類工程、変数スコア化工程、及び、変数データ出力工程、を含み、
前記テキストデータ取得工程は、テキストデータを取得し、
前記変数グループ分類工程は、前記テキストデータを、複数の変数グループに分類し、
前記変数スコア化工程は、複数の前記変数グループのうち、少なくとも一つのグループのデータについて、他のグループのデータに関連付けてスコア化し、
前記変数データ出力工程は、スコア化された前記グループの各データを目的変数とし、かつ、スコア化された前記グループに関連付けられたグループの各データを説明変数として、出力する、
機械学習用の変数データ生産方法。
(付記10)
前記変数スコア化工程は、単語段階評価基準テーブルを使用する単語抽出カウント工程、を含み、
前記単語段階評価基準テーブルは、単語毎に段階評価基準を含み、
前記単語抽出カウント工程は、前記変数グループのテキストデータから、前記単語段階評価基準テーブルにある単語と共通する単語を抽出し、かつ、前記抽出した共通する単語の個数をカウントし、
前記変数スコア化工程は、前記抽出カウントされた単語の個数及び前記単語段階評価基準テーブルの段階評価基準を基に、前記グループのデータをスコア化する、
付記9記載の変数データ生産方法。
(付記11)
前記単語抽出カウント工程は、前記変数グループのテキストデータから、前記単語段階評価基準テーブルにある単語及び前記単語の類義語と共通する単語を抽出し、かつ、前記抽出した共通する単語の個数をカウントする、
付記10記載の変数データ生産方法。
(付記12)
前記単語抽出カウント工程は、さらに、単語ベクトル化工程を含み、
前記単語ベクトル化工程は、前記変数グループのテキストデータと前記単語段階評価基準テーブルの双方に共通する単語をベクトル化し、
前記単語抽出カウント工程は、前記共通する単語のベクトルと他の単語のベクトルとを比較し、予め定めた基準に基づき、前記共通する単語の類義語を抽出する、
付記11記載の変数データ生成方法。
(付記13)
前記単語段階評価基準テーブルにある各単語が、前記単語ベクトル化工程により、ベクトル化されており、
前記単語抽出カウント工程は、前記共通する単語のベクトルと前記単語段階評価基準テーブルの各単語のベクトルとを比較し、予め定めた基準に基づき、前記単語段階評価基準テーブルの各単語から、前記共通する単語の類義語を抽出する、付記12記載の変数データ生成方法。
(付記14)
前記変数スコア化工程は、単語段階評価基準テーブル生成工程を含み、
前記単語段階評価基準テーブル生成工程は、前記テキストデータ取得工程で取得した複数の日本語テキストデータを形態素解析して単語に分解し、日本語評価極性辞書(用言編)に掲載されている単語と共通する単語を抽出し、
前記抽出された単語及び前記抽出された単語についての日本語評価極性辞書の評価情報を紐づけてテーブルにする、
付記9から13のいずれかに記載の変数データ生産方法。
(付記15)
前記テキストデータ取得工程が取得するテキストデータが、旅行内容データ、旅行客データ、及び、旅行ガイドデータであり、
前記変数グループ分類工程は、前記旅行内容データを旅行内容変数に分類し、前記旅行客データを旅行客変数に分類し、前記旅行ガイドデータを旅行ガイド変数に分類する、
付記9から14のいずれかに記載の変数データ生産方法。
(付記16)
変数データ生成工程、変数データ入力工程、機械学習工程、及び、予測モデル出力工程を含み、
前記変数データ生成工程は、付記9から15のいずれかに記載の変数データ生産方法により実施され、
前記変数データ入力工程により、前記変数データ生成工程で生成された目的変数データ及び説明変数データを、前記機械学習工程に入力し、
前記機械学習工程は、機械学習により、予測モデルを生成し、
前記予測モデル出力工程は、生成された前記予測モデルを出力する、
予測モデル生産方法。
(付記17)
付記9から16のいずれかに記載の方法をコンピュータ上で実行可能なプログラム。
(付記18)
付記17記載のプログラムを記録しているコンピュータ読み取り可能な記録媒体。
【産業上の利用可能性】
【0064】
本発明によれば、機械学習に必要な目的変数データ及び説明変数データを自動的に生成することが可能である。このため、本発明によれば、機械学習を利用して様々な予測モデルを生成でき、機械学習を利用した様々な分野に有用である。
【符号の説明】
【0065】
1 変数データ生成装置
2 予測モデル生成装置
11 テキストデータ取得手段
12 変数グループ分類手段
13 変数スコア化手段
14 変数データ出力手段
15 単語段階評価基準テーブル
16 単語抽出カウント手段
17 単語ベクトル化手段
101 中央演算装置
102 メモリ
103 バス
104 記憶装置
105 入力装置
106 表示装置
107 通信デバイス