(58)【調査した分野】(Int.Cl.,DB名)
自然人、法人、法人でない団体、またはその他のマッチング対象者同士を組み合わせるマッチング処理を実行するコンピュータにより構成されたマッチングシステムであって、
新たなマッチング対象者としてのマッチングの希望者を含まない多数のマッチング対象者の各々についての自己の特徴を記述したテキストデータからなる自己データと、マッチング相手に対するニーズを記述したテキストデータからなるニーズデータとをそれぞれ結合して得られた多数の結合テキストデータを用いて、ソフトクラスタリングまたはニューラル言語モデルによるトピック推定処理を実行して得られた、各マッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値を、マッチング対象者の識別情報と関連付けて記憶するとともに、当該トピック推定処理を実行して得られた各トピックにおける各単語の出現確率を記憶するトピックモデル記憶手段と、
マッチングの希望者についての前記自己データおよび前記ニーズデータを、当該希望者の識別情報と関連付けて記憶する希望者データ記憶手段と、
この希望者データ記憶手段に記憶されているマッチングの希望者についての前記自己データと前記ニーズデータとを結合し、当該希望者の結合テキストデータを作成する処理を実行する結合テキストデータ作成手段と、
この結合テキストデータ作成手段により作成した希望者の結合テキストデータ、および、前記トピックモデル記憶手段に記憶されている各トピックにおける各単語の出現確率を用いて、希望者の結合テキストデータにおける各トピックの出現確率を示すトピック値を予測する処理を実行する希望者トピック値予測手段と、
この希望者トピック値予測手段により求めた希望者の結合テキストデータにおける各トピックの出現確率を示すトピック値と、前記トピックモデル記憶手段に記憶されているマッチング相手となる各候補者としてのマッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値とを用いて、希望者と各候補者とからなる複数のペアについてのマッチング用特徴データを作成する処理を実行するマッチング用特徴データ作成手段と、
このマッチング用特徴データ作成手段により作成した複数のマッチング用特徴データの各々を入力データとして、選定されるか否かの2クラス分類で予め学習されてマッチングモデル記憶手段に記憶されたマッチングモデルを用いて、教師あり分類モデルによる分類処理を行うことにより、マッチングの希望者に対して各候補者が選定される確度を示すスコアを出力する処理を実行するマッチング処理手段と
を備えたことを特徴とするマッチングシステム。
自然人、法人、法人でない団体、またはその他のマッチング対象者同士を組み合わせるマッチング処理を実行するコンピュータにより構成されたマッチングシステムであって、
新たなマッチング対象者としてのマッチングの希望者を含まない多数のマッチング対象者の各々についての自己の特徴を記述したテキストデータからなる自己データ、および、マッチング相手に対するニーズを記述したテキストデータからなるニーズデータを、マッチング対象者の識別情報と関連付けて記憶するマッチング対象者データ記憶手段と、
マッチングの希望者についての前記自己データおよび前記ニーズデータを、当該希望者の識別情報と関連付けて記憶する希望者データ記憶手段と、
前記マッチング対象者データ記憶手段に記憶されている各マッチング対象者の前記自己データと前記ニーズデータとをそれぞれ結合するとともに、前記希望者データ記憶手段に記憶されている希望者の前記自己データと前記ニーズデータとを結合し、希望者を含む多数のマッチング対象者の結合テキストデータを作成する処理を実行する結合テキストデータ作成手段と、
この結合テキストデータ作成手段により作成された希望者を含む多数のマッチング対象者の結合テキストデータを用いて、ソフトクラスタリングまたはニューラル言語モデルにより、希望者を含む各マッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値を求めるトピック推定処理を実行するトピック推定手段と、
このトピック推定手段によるトピック推定処理で得られた希望者を含む各マッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値を、希望者を含む各マッチング対象者の識別情報と関連付けて記憶するトピックモデル記憶手段と、
このトピックモデル記憶手段に記憶されている希望者およびそのマッチング相手となる各候補者としてのマッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値を用いて、希望者と各候補者とからなる複数のペアについてのマッチング用特徴データを作成する処理を実行するマッチング用特徴データ作成手段と、
このマッチング用特徴データ作成手段により作成した複数のマッチング用特徴データの各々を入力データとして、選定されるか否かの2クラス分類で予め学習されてマッチングモデル記憶手段に記憶されたマッチングモデルを用いて、教師あり分類モデルによる分類処理を行うことにより、マッチングの希望者に対して各候補者が選定される確度を示すスコアを出力する処理を実行するマッチング処理手段と
を備えたことを特徴とするマッチングシステム。
自然人、法人、法人でない団体、またはその他のマッチング対象者同士を組み合わせるマッチング処理を実行するコンピュータにより構成されたマッチングシステムであって、
特定目的のマッチングを行う既存のマッチング対象者としての特定対象者を含む多数のマッチング対象者の各々についての自己の特徴を記述したテキストデータからなる自己データと、マッチング相手に対するニーズを記述したテキストデータからなるニーズデータとをそれぞれ結合して得られた多数の結合テキストデータを用いて、ソフトクラスタリングまたはニューラル言語モデルによるトピック推定処理を実行して得られた、各マッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値を、マッチング対象者の識別情報と関連付けて記憶するトピックモデル記憶手段と、
このトピックモデル記憶手段に記憶されている各マッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値を用いて、特定対象者とこの特定対象者のマッチング相手となる各候補者とからなる複数のペア、複数の特定対象者の各々とこれらの複数の特定対象者のマッチング相手となる各候補者とからなる複数のペア、特定対象者と他の複数の特定対象者の各々とからなる複数のペアについての複数のマッチング用特徴データを作成するか、または、特定対象者同士のペアについての1つのマッチング用特徴データを作成する処理を実行するマッチング用特徴データ作成手段と、
このマッチング用特徴データ作成手段により作成した複数のマッチング用特徴データの各々を入力データとして、または、1つのマッチング用特徴データを入力データとして、選定されるか否かの2クラス分類で予め学習されてマッチングモデル記憶手段に記憶されたマッチングモデルを用いて、教師あり分類モデルによる分類処理を行うことにより、特定対象者に対して各候補者または他の特定対象者が選定される確度を示すスコアを出力する処理を実行するマッチング処理手段と
を備えたことを特徴とするマッチングシステム。
各マッチング対象者の結合テキストデータについての各単語のTFIDF値またはその他の単語重要度指標値からなる単語重要度ベクトルを算出する処理を実行する単語重要度ベクトル算出手段と、
この単語重要度ベクトル算出手段により算出した結合テキストデータについての単語重要度ベクトルを、マッチング対象者の識別情報と関連付けて記憶する単語重要度ベクトル記憶手段とを備え、
前記マッチング用特徴データ作成手段は、
前記単語重要度ベクトル記憶手段に記憶されている前記ペアの一方の結合テキストデータについての単語重要度ベクトルと、前記ペアの他方の結合テキストデータについての単語重要度ベクトルとの内積またはコサイン類似度を求め、求めた単語重要度ベクトルの内積またはコサイン類似度を、前記マッチング用特徴データに含める処理を実行する構成とされている
ことを特徴とする請求項1〜4のいずれかに記載のマッチングシステム。
【発明の概要】
【発明が解決しようとする課題】
【0008】
前述したように、従来のビジネスマッチングサービスでは、キーワードマッチに基づいてマッチング相手を選定する手法がよく用いられていたが、この手法では、以下のような問題点があった。
【0009】
企業情報やマッチングニーズを特定のキーワードに変換した上での検索を必要とするため、キーワードへの変換作業が必要となるので、その作業に手間や時間がかかり、サービス担当者の負担が大きいという問題があった。
【0010】
また、このキーワードへの変換作業は、ノウハウに大きく依存しており、属人的な作業であることから、サービス担当者間で作業内容のばらつきが生じる、すなわちサービス担当者が変われば、作業内容が異なるものとなり、選定結果も違ったものになるという問題があった。
【0011】
さらに、マッチングニーズをキーワードへ変換した際に、情報の欠落が生じ、所望の検索結果が得られない可能性もあるという問題があった。
【0012】
そして、検索キーワードの変更により、出力結果が大きく異なる可能性があり、機会損失に繋がりやすいという問題もあった。
【0013】
また、検索により得られた結果(選定されたマッチング相手の候補)には、定量的な指標がなく、複数の検索結果(マッチング相手の候補として選定された複数の企業)を同列に扱う必要性があるため、所望の相手を見つける際の負担が大きいという問題がった。すなわち、サービス担当者が候補の絞り込みを行う段階、あるいは、マッチングを希望する企業(ビジネスマッチングサービスの提供を受ける依頼企業)が、サービス担当者から提示された候補の中から、最終的な絞り込みを行う段階のいずれにおいても、定量的な指標がないので、時間や手間がかかるという問題があった。
【0014】
また、以上のような問題は、企業と企業とを繋ぐビジネスマッチングサービスに限らず、個人と個人、個人と団体、団体と団体のように、各種のマッチングサービスを行う場合に同様にいえることである。個人と個人、個人と団体、団体と団体のマッチングが混在するサービスには、例えば、不動産売買における売り手と買い手とのマッチングサービスがある。また、個人と個人とのマッチングは、例えば、専門的知識を求める者と専門家(弁護士や税理士等)とのマッチング、婚活支援サービス等であり、個人と団体とのマッチングは、例えば、就職希望者と採用企業とを繋ぐ就職活動や求人活動の支援サービス等であり、団体と団体とのマッチングは、例えば、事業承継の支援サービス、野球チームの練習試合の相手を探す支援サービス等である。
【0015】
本発明の目的は、マッチング対象者の持つ特徴やニーズを的確に反映することができ、かつ、サービス担当者の負担軽減を図ることができるマッチングシステムおよびプログラムを提供するところにある。
【課題を解決するための手段】
【0016】
本発明は、大別すると、マッチングの希望者についての希望者データを含めたトピックモデルの再学習を行わない場合(例えば、後述する
図8の場合等)と、希望者データを含めてトピックモデルの再学習を行う場合(例えば、後述する
図9の場合等)と、既存のマッチング対象者の中で特定目的のマッチングを行う場合(例えば、後述する
図10の場合等)との3通りの基本構成がある。
【0017】
<希望者データを含めたトピックモデルの再学習を行わない場合(例えば、後述する
図8の場合等)の本発明の基本構成>
【0018】
本発明は、自然人、法人、法人でない団体、またはその他のマッチング対象者同士を組み合わせるマッチング処理を実行するコンピュータにより構成されたマッチングシステムであって、
新たなマッチング対象者としてのマッチングの希望者を含まない多数のマッチング対象者の各々についての自己の特徴を記述したテキストデータからなる自己データと、マッチング相手に対するニーズを記述したテキストデータからなるニーズデータとをそれぞれ結合して得られた多数の結合テキストデータを用いて、ソフトクラスタリングまたはニューラル言語モデルによるトピック推定処理を実行して得られた、各マッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値を、マッチング対象者の識別情報と関連付けて記憶するとともに、当該トピック推定処理を実行して得られた各トピックにおける各単語の出現確率を記憶するトピックモデル記憶手段と、
マッチングの希望者についての自己データおよびニーズデータを、当該希望者の識別情報と関連付けて記憶する希望者データ記憶手段と、
この希望者データ記憶手段に記憶されているマッチングの希望者についての自己データとニーズデータとを結合し、当該希望者の結合テキストデータを作成する処理を実行する結合テキストデータ作成手段と、
この結合テキストデータ作成手段により作成した希望者の結合テキストデータ、および、トピックモデル記憶手段に記憶されている各トピックにおける各単語の出現確率を用いて、希望者の結合テキストデータにおける各トピックの出現確率を示すトピック値を予測する処理を実行する希望者トピック値予測手段と、
この希望者トピック値予測手段により求めた希望者の結合テキストデータにおける各トピックの出現確率を示すトピック値と、トピックモデル記憶手段に記憶されているマッチング相手となる各候補者としてのマッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値とを用いて、希望者と各候補者とからなる複数のペアについてのマッチング用特徴データを作成する処理を実行するマッチング用特徴データ作成手段と、
このマッチング用特徴データ作成手段により作成した複数のマッチング用特徴データの各々を入力データとして、選定されるか否かの2クラス分類で予め学習されてマッチングモデル記憶手段に記憶されたマッチングモデルを用いて、教師あり分類モデルによる分類処理を行うことにより、マッチングの希望者に対して各候補者が選定される確度を示すスコアを出力する処理を実行するマッチング処理手段と
を備えたことを特徴とするものである。
【0019】
ここで、「マッチング対象者」には、自然人、法人、法人でない団体、その他の者が含まれる。法人でない団体には、いわゆる任意団体が含まれ、例えば、設立登記前の会社、町内会、政治団体、マンションの管理組合、サークル、学会、地域の野球チームやサッカーチーム等が含まれる。従って、例えば、野球チームやサッカーチーム等の練習試合の相手を探すマッチング処理も、本発明の適用対象となる。また、法人でない団体には、法人内の部署(会社内の部、課、係、工場、事業所、大学内の研究室、学部、学科等)のように、団体内の団体も含まれる。さらに、「マッチング対象者」には、国や地方公共団体も含まれる。
【0020】
また、例えば、ビジネスパートナーを探す場合は、通常は、企業同士のマッチングであるから、団体(法人であるか否かは問わない)と団体とのマッチングであるが、一方または双方が、個人経営の事務所等であれば、個人(自然人)と団体、個人と個人のマッチングにもなる。また、ビジネスマッチングサービスには、一方が大学やその研究室のような非営利団体である場合も含まれ、従って、産学連携の支援サービスも含まれる。さらには、双方が大学やその研究室のような非営利団体である場合も含まれ、従って、共同研究のパートナーを探す支援サービスも含まれる。
【0021】
また、ビジネスマッチングの他には、例えば、不動産売買の売り手と買い手とのマッチング、事業承継の支援サービスでの承継元の企業(事業を譲渡する企業)と承継先の企業(事業を引き継ぐ企業)とのマッチング、専門的知識を求める者と専門家(弁護士や税理士等)とのマッチング、婚活支援サービスでのマッチング等があり、これらのマッチングサービスには、個人(自然人)と個人とのマッチング、個人と団体(法人であるか否かは問わない)とのマッチング、団体と団体とのマッチング、それらの混在型のマッチングがあるのは、ビジネスマッチングの場合と同様である。混在型のマッチングというのは、例えば、不動産売買の売り手および買い手の双方について、個人も団体も含める場合等である。
【0022】
また、個人(自然人)と団体(法人であるか否かは問わない)とのマッチングには、例えば、就職活動や求人活動の支援サービスでの就職希望者と採用企業とのマッチング、あるいは、人事異動の支援サービスでの従業員と会社内の部署とのマッチング等がある。従って、マッチングされるマッチング対象者同士は、対等な関係だけではなく、主従関係に置かれる者であってもよい。
【0023】
さらに、「その他」の「マッチング対象者」には、例えば、ロボットや一部の動物のように、マッチングを行ううえで、人とみなせる者を含み、要するに、自己の特徴やニーズを記述したテキストデータを用意できる者であればよい。この際、テキストデータの記述は、必ずしも自分で行うことができる必要はなく、他人(人間)に代理してもらってもよいので、自己の特徴およびニーズを保有していれば、本発明の「マッチング対象者」となり得る。従って、「マッチング対象者」の「者」は、人間や、人間の集合である団体(法人であるか否かは問わない)に限られないので、例えば、人間と家政婦ロボットとのマッチング、人間とペットロボットとのマッチング、ロボット同士のマッチング、人間とペット用の動物とのマッチング、動物と動物園とのマッチング、動物と調教師とのマッチング等にも、本発明を適用することができる。
【0024】
また、「ニーズデータ」についての「マッチング相手に対するニーズを記述」とは、マッチング相手に求める事項の記述でもよく、望んでいる自身の将来の状態を示す記述でもよく、マッチング相手に直接的または間接的に向けられた記述であればよい。従って、マッチング相手の行為を中心とした記述でもよく、自身の行為を中心とした記述でもよい。
【0025】
さらに、「マッチング処理手段」における「確度を示すスコア」は、確からしさの程度や度合いを示すスコアであり、尤度や確率の値(0〜1、0〜100%)でもよく、あるいは、尤度や確率の値に限らず、閾値処理をした後の値または結果や、何らかのフィルタをかけた後の値または結果を出力してもよく、要するに、程度や度合いを示すスコアを出力すればよい趣旨であり、連続的な数値でもよく、段階的な指標(例えば、「95%以上、90%以上95%未満、85%以上90%未満、…」、あるいは「非常に大、大、やや大、中、やや小、小、非常に小」のような指標)でもよい。そして、「マッチング処理手段」は、出力したスコアを高い順に並べる等の2次的な処理を行う構成としてもよい。
【0026】
このような本発明のマッチングシステムにおいては、多数のマッチング対象者の自己データとニーズデータとを結合して結合テキストデータを作成し、これらの結合テキストデータを用いて、ソフトクラスタリングまたはニューラル言語モデルによるトピック推定処理を実行してトピック分布(各マッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値)を求め、求めたトピック分布を用いて、教師あり分類モデルによる機械学習を行うことによりマッチングモデルを構築し、そのマッチングモデルによりマッチングの希望者と各候補者とのマッチングを行うので、手動によるキーワード変換作業が不要となり、属人的な操作の排除を実現することが可能となる。
【0027】
このため、従来のようなキーワード変換作業に要する時間や手間が省かれ、サービス担当者の負荷軽減が図られる。また、ノウハウに基づく個人判断を伴う作業がなくなるので、サービス担当者間の作業内容のばらつきを無くすことができ、一律なサービスの提供が可能となる。
【0028】
さらに、トピック推定処理で得られたトピック分布を利用してマッチングモデルの機械学習を行うので、マッチング対象者の登録情報(自己データ、ニーズデータ)を多面的に、かつ、的確に捉えた特徴量(マッチング用特徴データ)を作成し、適切なスコアリングを実施することができる。このため、情報の欠落が抑えられる。従って、従来のキーワードマッチの場合には、マッチングニーズをキーワードへ変換した際に、情報の欠落が生じ、所望の検索結果が得られない可能性もあったが、そのような事態を回避することが可能となる。そして、従来手法では、検索キーワードの変更により、出力結果が大きく異なる可能性があり、機会損失に繋がりやすいという問題もあったが、そのような問題も解消される。
【0029】
また、マッチングの希望者に対し、登録されているマッチング対象者の全部を候補者とし、希望者と各候補者とのマッチング確度のスコアリングを実施することができるため、機会損失に陥りにくい。また、スコアの高低を参照し、稼働可能性の高いマッチング対象者の情報を任意の件数閲覧することができる。稼働可能性の高いマッチング対象者とは、例えば、ビジネスマッチングであれば、実際に共同で、提携して、または協力して事業を行う可能性の高いマッチング相手であり、不動産売買のマッチングであれば、実際に売買交渉が開始され、または売買契約が成立する可能性の高いマッチング相手であり、婚活マッチングであれば、実際に付き合い、または結婚する可能性の高いマッチング相手である。
【0030】
さらに、登録されているマッチング対象者の全部を候補者とし、機械的にスコアリングを実施することができるため、マッチング対象者の登録が増加しても、それに伴うサービス担当者の負担の増加を回避することが可能となる。
【0031】
また、マッチング用特徴データを作成する際には、ソフトクラスタリングまたはニューラル言語モデルによるトピック推定処理を実行して得られたトピック分布(各トピックの出現確率を示すトピック値)を用いるので、希望者や各候補者の属性データ(希望者データや各候補者のマッチング対象者データ)として、トピックに相当する情報(例えば、ビジネスマッチングであれば、業種(事業分野)が考えられる。)を用意しておく必要がないので、この点でもサービス担当者の負担軽減が図られ、これらにより前記目的が達成される。
【0032】
<希望者データを含めてトピックモデルの再学習を行う場合(例えば、後述する
図9の場合等)の本発明の基本構成>
【0033】
本発明は、自然人、法人、法人でない団体、またはその他のマッチング対象者同士を組み合わせるマッチング処理を実行するコンピュータにより構成されたマッチングシステムであって、
新たなマッチング対象者としてのマッチングの希望者を含まない多数のマッチング対象者の各々についての自己の特徴を記述したテキストデータからなる自己データ、および、マッチング相手に対するニーズを記述したテキストデータからなるニーズデータを、マッチング対象者の識別情報と関連付けて記憶するマッチング対象者データ記憶手段と、
マッチングの希望者についての自己データおよびニーズデータを、当該希望者の識別情報と関連付けて記憶する希望者データ記憶手段と、
マッチング対象者データ記憶手段に記憶されている各マッチング対象者の自己データとニーズデータとをそれぞれ結合するとともに、希望者データ記憶手段に記憶されている希望者の自己データとニーズデータとを結合し、希望者を含む多数のマッチング対象者の結合テキストデータを作成する処理を実行する結合テキストデータ作成手段と、
この結合テキストデータ作成手段により作成された希望者を含む多数のマッチング対象者の結合テキストデータを用いて、ソフトクラスタリングまたはニューラル言語モデルにより、希望者を含む各マッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値を求めるトピック推定処理を実行するトピック推定手段と、
このトピック推定手段によるトピック推定処理で得られた希望者を含む各マッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値を、希望者を含む各マッチング対象者の識別情報と関連付けて記憶するトピックモデル記憶手段と、
このトピックモデル記憶手段に記憶されている希望者およびそのマッチング相手となる各候補者としてのマッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値を用いて、希望者と各候補者とからなる複数のペアについてのマッチング用特徴データを作成する処理を実行するマッチング用特徴データ作成手段と、
このマッチング用特徴データ作成手段により作成した複数のマッチング用特徴データの各々を入力データとして、選定されるか否かの2クラス分類で予め学習されてマッチングモデル記憶手段に記憶されたマッチングモデルを用いて、教師あり分類モデルによる分類処理を行うことにより、マッチングの希望者に対して各候補者が選定される確度を示すスコアを出力する処理を実行するマッチング処理手段と
を備えたことを特徴とするものである。
【0034】
ここで、「マッチング対象者」、「ニーズデータ」についての「マッチング相手に対するニーズを記述」、「マッチング処理手段」における「確度を示すスコア」の意味は、前述した<希望者データを含めたトピックモデルの再学習を行わない場合の本発明の基本構成>と同様である。
【0035】
このような本発明のマッチングシステムにおいては、前述した<希望者データを含めたトピックモデルの再学習を行わない場合の本発明の基本構成>と同様な作用・効果が得られる。
【0036】
<既存のマッチング対象者の中で特定目的のマッチングを行う場合(例えば、後述する
図10の場合等)の本発明の基本構成>
【0037】
本発明は、自然人、法人、法人でない団体、またはその他のマッチング対象者同士を組み合わせるマッチング処理を実行するコンピュータにより構成されたマッチングシステムであって、
特定目的のマッチングを行う既存のマッチング対象者としての特定対象者を含む多数のマッチング対象者の各々についての自己の特徴を記述したテキストデータからなる自己データと、マッチング相手に対するニーズを記述したテキストデータからなるニーズデータとをそれぞれ結合して得られた多数の結合テキストデータを用いて、ソフトクラスタリングまたはニューラル言語モデルによるトピック推定処理を実行して得られた、各マッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値を、マッチング対象者の識別情報と関連付けて記憶するトピックモデル記憶手段と、
このトピックモデル記憶手段に記憶されている各マッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値を用いて、特定対象者とこの特定対象者のマッチング相手となる各候補者とからなる複数のペア、複数の特定対象者の各々とこれらの複数の特定対象者のマッチング相手となる各候補者とからなる複数のペア、特定対象者と他の複数の特定対象者の各々とからなる複数のペアについての複数のマッチング用特徴データを作成するか、または、特定対象者同士のペアについての1つのマッチング用特徴データを作成する処理を実行するマッチング用特徴データ作成手段と、
このマッチング用特徴データ作成手段により作成した複数のマッチング用特徴データの各々を入力データとして、または、1つのマッチング用特徴データを入力データとして、選定されるか否かの2クラス分類で予め学習されてマッチングモデル記憶手段に記憶されたマッチングモデルを用いて、教師あり分類モデルによる分類処理を行うことにより、特定対象者に対して各候補者または他の特定対象者が選定される確度を示すスコアを出力する処理を実行するマッチング処理手段と
を備えたことを特徴とするものである。
【0038】
ここで、「マッチング対象者」、「ニーズデータ」についての「マッチング相手に対するニーズを記述」、「マッチング処理手段」における「確度を示すスコア」の意味は、前述した<希望者データを含めたトピックモデルの再学習を行わない場合の本発明の基本構成>と同様である。
【0039】
また、「特定目的のマッチングを行う既存のマッチング対象者としての特定対象者」は、新たなマッチング対象者としてのマッチングの希望者とは異なり、既にマッチング対象者データ(マッチング対象者の属性データ)が得られていて、そのデータを含めたトピック推定処理が行われ、トピックモデルが構築されている場合のマッチング対象者であり、特定目的で、その者を含めて既存の他のマッチング対象者とのマッチングを行うことが必要となった者である。
【0040】
さらに、「特定目的」は、新たなマッチング対象者としてのマッチングの希望者によるマッチングの依頼があった場合と同様に、ある既存のマッチング対象者(特定対象者)により、他の既存のマッチング対象者とのマッチングの依頼があった場合にその依頼に応えるという標準的な特定目的でもよいが、次のような特殊な特定目的も含まれる。
【0041】
例えば、依頼のあった複数の既存のマッチング対象者(例えば、10社、10人等)に対し、既存のマッチング対象者の中から、集団ミーティング等を行うのに適している同数の各候補者(例えば、10社、10人等)を選ぶという特定目的がある。この場合、依頼主である複数の既存のマッチング対象者(例えば、10社、10人等)が、複数の特定対象者であり、各候補者は、複数の特定対象者以外の既存のマッチング対象者である。集団ミーティング等というのは、1対1の組合せではなく、多対多の組合せであり、多対多の適切な組合せを得るために、多数の1対1の組合せ(ペア)についてのスコアを出力することになる。より具体的には、例えば、企業同士の集団見合いに相当する名詞交換会のセッティング、あるいは主従関係がある場合であれば、例えば、複数の採用者(例えば、音楽プロダクション等)と複数の応募者(例えば、音楽家等)とによる合同オーディションのセッティングを行う場合等が挙げられる。なお、同数の各候補者を選ぶというのは、一例であり、同数に限定されるものではなく、依頼主である複数の既存のマッチング対象者の数と、選ぶ各候補者の数との比率は、任意であり、どちらの数が多くてもよい。
【0042】
また、特定対象者同士のペアについてマッチングの確度(互いがマッチする確度)を求め、その相性を調査するという特定目的も含まれる。例えば、マッチングの確度を求める対象として、企業Aと企業Bという2つの企業は決まっていて、それらの企業Aと企業Bとが取引や共同作業等を行い得る関係にあるか否かを、データに基づき客観的に判断する依頼があったときに、企業Aと企業Bとの間のスコアを出力する場合等がある。この場合、依頼を持ち込むのは、企業Aまたは企業Bのいずれか一方でもよく、企業Aおよび企業Bの双方の共同依頼でもよく、どちらの場合も、企業Aおよび企業Bは、特定対象者である。
【0043】
さらに、特定対象者と他の複数の特定対象者の各々とからなる複数のペアについてマッチングの確度を求め、それらの相性を調査するという特定目的も含まれる。例えば、マッチングの確度を求める対象として、企業Aとそのマッチング相手となる企業B,C,Dとが決まっていて、企業Aと企業Bとの間のスコア、企業Aと企業Cとの間のスコア、企業Aと企業Dとの間のスコアを出力する場合等がある。この場合、依頼を持ち込むのは、通常、企業Aであるが、企業A,B,C,Dは、いずれも特定対象者である。なお、企業Cが、企業Aと企業Bとのペア(依頼主を含まないペア)についてのスコアの算出を依頼し、それらの相性を調査してもよい。
【0044】
このような本発明のマッチングシステムにおいては、前述した<希望者データを含めたトピックモデルの再学習を行わない場合の本発明の基本構成>と同様な作用・効果が得られるうえ、既存のマッチング対象者による特定目的での様々な依頼に対応することが可能となる。
【0045】
<トピック値の積、およびトピック値の差の絶対値を、合成変数として用いる構成>
【0046】
また、前述したマッチングシステムにおいて、
マッチング用特徴データ作成手段は、
ペアの双方の各トピック値を用いて、同一のトピックについての双方のトピック値の積からなる合成変数、および、同一のトピックについての双方のトピック値の差の絶対値からなる合成変数を求め、求めた各合成変数をマッチング用特徴データとする処理を実行する構成とされていることが望ましい。
【0047】
このようにトピック値の積、およびトピック値の差の絶対値を、合成変数として用いる構成とした場合には、ペアとなるマッチング対象者の双方(希望者と候補者との双方、特定対象者と候補者との双方、または、特定対象者と他の特定対象者との双方)のトピック分布(各トピック値)をそのままマッチング用特徴データとして用いる場合に比べ、適切なスコアリングを行うことが可能となる。
【0048】
すなわち、ペア双方のトピック分布をそのままマッチング用特徴データとして用いると、学習時において、学習用データに偏りが生じ、偏った学習が行われる可能性がある。より具体的には、例えば、学習用データに、多く現れるパターン(ここでは、多く現れるトピック分布)に対し、比較的高いスコアを与えるマッチングモデル(スコアリングモデル)が構築される可能性がある。これに対し、マッチング対象者のペアの特徴を示すような新たな合成変数を生成することで、偏った学習を回避することが可能となる。
【0049】
ペア双方のトピック値の積は、ペア双方のトピック分布の重なり度合いを表し、ペア双方のトピック値の差の絶対値は、ペア双方のトピック分布の差異・広がりを表していると考えられる。
【0050】
<TFIDFベクトルまたはその他の単語重要度ベクトルの内積またはコサイン類似度を、マッチング用特徴データに含める構成>
【0051】
さらに、前述したマッチングシステムにおいて、
各マッチング対象者の結合テキストデータについての各単語のTFIDF値またはその他の単語重要度指標値からなる単語重要度ベクトルを算出する処理を実行する単語重要度ベクトル算出手段と、
この単語重要度ベクトル算出手段により算出した結合テキストデータについての単語重要度ベクトルを、マッチング対象者の識別情報と関連付けて記憶する単語重要度ベクトル記憶手段とを備え、
マッチング用特徴データ作成手段は、
単語重要度ベクトル記憶手段に記憶されているペアの一方の結合テキストデータについての単語重要度ベクトルと、ペアの他方の結合テキストデータについての単語重要度ベクトルとの内積またはコサイン類似度を求め、求めた単語重要度ベクトルの内積またはコサイン類似度を、マッチング用特徴データに含める処理を実行する構成としてもよい。
【0052】
ここで、「単語重要度ベクトル算出手段」による単語重要度ベクトルの算出対象は、新たなマッチング対象者としてのマッチングの希望者がいる場合には、その希望者を含めた各マッチング対象者の結合テキストデータとなる。
【0053】
このようにTFIDFベクトルまたはその他の単語重要度ベクトルの内積またはコサイン類似度を、マッチング用特徴データに含める構成とした場合には、単語重要度により、結合テキストデータに含まれる特徴を、より強調したマッチング用特徴データを作成することが可能となり、より適切なスコアリングを行うことが可能となる。
【0054】
また、ペア双方の単語重要度ベクトルは、そのままマッチング用特徴データとして用いることもできるが、ここでは、ペア双方の単語重要度ベクトルの内積またはコサイン類似度を求め、求めた単語重要度ベクトルの内積またはコサイン類似度を、マッチング用特徴データとして用いるので、マッチング用特徴データの次元数を小さくできるとともに、前述したトピック分布で合成変数を生成した場合と同様に、そのまま用いるのではなく、合成変数を生成することで、より適切なスコアリングを行うことが可能となる。
【0055】
<ニーズフラグをマッチング用特徴データに含める構成>
【0056】
また、前述したマッチングシステムにおいて、
自己データおよびニーズデータには、マッチング相手に対するニーズの種類を示す少なくとも1つのニーズフラグが付随し、
マッチング用特徴データ作成手段は、
ペアの双方のニーズフラグを、マッチング用特徴データに含める処理を実行する構成としてもよい。
【0057】
ここで、「少なくとも1つのニーズフラグ」は、既存のマッチング対象者については、各マッチング対象者についての自己データおよびニーズデータとともに、マッチング対象者の識別情報と関連付けてマッチング対象者データ記憶手段に記憶しておけばよい。また、新たなマッチング対象者としてのマッチングの希望者がいる場合には、マッチングの希望者についての自己データおよびニーズデータとともに、希望者の識別情報と関連付けて希望者データ記憶手段に記憶しておけばよい。
【0058】
このようにニーズフラグをマッチング用特徴データに含める構成とした場合には、ペア双方(希望者および候補者の双方、特定対象者および候補者の双方、特定対象者および他の特定対象者の双方)の持つニーズの種類がマッチング用特徴データに反映されるので、より適切なスコアリングを行うことが可能となる。
【0059】
<ニーズフラグによる合成変数をマッチング用特徴データに含める構成>
【0060】
そして、上述したニーズフラグをマッチング用特徴データに含める構成とした場合において、
マッチング用特徴データ作成手段は、
ぺアの双方のニーズフラグを用いて、双方のニーズフラグの論理和、論理積、排他的論理和、否定論理和、否定論理積、否定排他的論理和、算術和、またはその他の合成変数を求め、求めた合成変数をマッチング用特徴データに含める処理を実行する構成としてもよい。
【0061】
このようにニーズフラグによる合成変数をマッチング用特徴データに含める構成とした場合には、前述したトピック分布で合成変数を生成した場合と同様に、ニーズフラグをそのまま用いるのではなく、合成変数を生成して用いることで、より適切なスコアリングを行うことが可能となる。
【0062】
<ビジネスマッチングを行う構成>
【0063】
また、以上に述べたマッチングシステムにおいて、
マッチング対象者は、ビジネスを行う自然人、法人、法人でない団体、またはその他のマッチング対象者であり、
マッチング処理は、ビジネスを行うマッチング対象者同士を組み合わせるビジネスマッチング処理であり、
トピック推定手段は、レイテント・ディリクレ・アロケーションによりトピック推定処理を実行する構成とすることができる。
【0064】
このようにビジネスマッチングを行う構成とした場合には、トピック推定処理で得られる各トピックとして、業種(事業分野)を想定することができるので、結合テキストデータの特徴を的確に反映したマッチング用特徴データを作成することができ、適切なスコアリングを行うことが可能となる。すなわち、ビジネスマッチングを行う場合、自己データとニーズデータとを結合した結合テキストデータには、ビジネスに関連する記述が多いことから、トピックとして、業種(事業分野)を想定することができるので、レイテント・ディリクレ・アロケーション(LDA)で指定するトピック数を、分類したい業種(事業分野)の数に設定することができる。このため、システム構築者の設計イメージと、LDAによるトピック推定処理の結果とを一致させやすいので、適切なシステム設計を行うことが可能となる。なお、LDAにより得られた各トピックが、具体的にどのような業種(事業分野)に対応するのかは問題ではなく、明確な対応関係があるわけではなく、対応関係を知る必要もなく、トピック分布が得られればよい。
【0065】
<プログラムの発明>
【0066】
そして、本発明のプログラムは、以上に述べたマッチングシステムとして、コンピュータを機能させるためのものである。
【0067】
なお、上記のプログラムまたはその一部は、例えば、光磁気ディスク(MO)、コンパクトディスク(CD)、デジタル・バーサタイル・ディスク(DVD)、フレキシブルディスク(FD)、磁気テープ、読出し専用メモリ(ROM)、電気的消去および書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、フラッシュディスク等の記録媒体に記録して保存や流通等させることが可能であるとともに、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等の有線ネットワーク、あるいは無線通信ネットワーク、さらにはこれらの組合せ等の伝送媒体を用いて伝送することが可能であり、また、搬送波に載せて搬送することも可能である。さらに、上記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。
【発明の効果】
【0068】
以上に述べたように本発明によれば、ソフトクラスタリングまたはニューラル言語モデルによるトピック推定処理を実行して得られたトピック分布を用いて、教師あり分類モデルによる機械学習を行うことによりマッチングモデルを構築し、そのマッチングモデルによりマッチングの希望者と各候補者とのマッチング、あるいは、特定対象者と各候補者とのマッチングや特定対象者間のマッチングを行うので、マッチング対象者の持つ特徴やニーズを的確に反映したマッチング用特徴データを作成して適切なスコアリングを行うことができ、かつ、サービス担当者の負担軽減を図ることができるという効果がある。
【発明を実施するための形態】
【0070】
以下に本発明の一実施形態について図面を参照して説明する。
図1には、本実施形態のマッチングシステム10の全体構成が示されている。このマッチングシステム10は、事業者(主として企業であるが、個人や、大学等の非営利団体でもよい。)に対し、ビジネスパートナー(産学連携を含む。)となる事業者を紹介するビジネスマッチングサービスを実施するためのシステムである。
【0071】
図2には、マッチング対象者データ記憶手段42に記憶されているマッチング対象者データの具体例が示され、
図3には、結合テキストデータの作成からトピック分布の推定までのデータの具体例が示されている。また、
図4には、マッチング用特徴データに含める合成変数の作成方法、
図5には、運用時におけるマッチング用特徴データの作成方法、
図6には、学習時におけるマッチング用特徴データの準備方法の説明がそれぞれ示されている。さらに、
図7には、事前に行う学習処理の流れ、
図8には、希望者データを含めたトピックモデルの再学習を行わない場合の運用時の処理の流れ、
図9には、希望者データを含めてトピックモデルの再学習を行う場合の運用時の処理の流れがそれぞれフローチャートで示されている。
【0072】
<マッチングシステム10の全体構成>
【0073】
図1において、マッチングシステム10は、コンピュータにより構成され、本体20と、例えば液晶ディスプレイ等の表示手段70と、例えばマウスやキーボードやタッチパネル等の入力手段80とを備えている。
【0074】
本体20は、マッチングに関する各種処理を実行する処理手段30と、この処理手段30による処理に必要となる各種データを記憶する希望者データ記憶手段41、マッチング対象者データ記憶手段42、不要語辞書記憶手段43、トピックモデル記憶手段44、単語重要度ベクトル記憶手段45、マッチングモデル記憶手段46、学習用データ記憶手段47、およびマッチング候補選定実績リスト記憶手段48とを備えて構成されている。
【0075】
処理手段30は、入力受付手段31と、結合テキストデータ作成手段32と、トピック推定手段33と、希望者トピック値予測手段34と、単語重要度ベクトル算出手段35と、マッチング用特徴データ作成手段36と、マッチング処理手段37と、学習手段38と、学習用データ準備手段39とを含んで構成されている。
【0076】
ここで、処理手段30に含まれる各手段31〜39は、マッチングシステム10の本体20の内部に設けられた中央演算処理装置(CPU)、およびこのCPUの動作手順を規定する1つまたは複数のプログラムにより実現される。また、各記憶手段41〜48としては、例えば、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)等を採用することができる。なお、希望者データ記憶手段41は、主メモリ上に形成されるだけでもよいが(揮発性メモリでもよいが)、スコアリング後には、希望者データは、新たに登録されるマッチング対象者データとして、それまでに登録されていたマッチング対象者データとともに、不揮発性メモリであるマッチング対象者データ記憶手段42に記憶されて登録される。従って、希望者データ記憶手段41と、マッチング対象者データ記憶手段42とは、説明の便宜上、別々の記憶手段として記載しているが、データ形式は同じであるため、同じ記憶手段にまとめてもよい。
【0077】
また、
図1では、マッチングシステム10は、スタンドアロンの構成で記載されているが、ネットワークを介して通信を行うシステム構成としてもよい。サーバ・クライアント型のマッチングシステム10とする場合には、本体20を1台または複数台のサーバにより構成し、表示手段70および入力手段80は端末側に設けることができる。この際、ネットワークは、インターネットのような外部ネットワークでもよく、イントラネットやLAN等の内部ネットワークでもよく、それらの組合せでもよく、有線であるか、無線であるか、有線・無線の混在型であるかは問わない。端末は、主としてサービス担当者の端末となるが、マッチングの希望者が希望者データ(希望者の属性データ)を自分で直接に入力し、あるいはマッチングの結果(スコアリングの結果)を画面等で直接に参照する場合には、ネットワークをインターネットのような外部ネットワークとし、希望者(マッチング対象者)の端末を設置してもよい。また、システムの構築・維持・更新等の管理を行うシステム管理者の端末も設置することになる。
【0078】
<マッチングシステム10の詳細構成>
【0080】
入力受付手段31は、マッチングの希望者(マッチングサービスの提供を受ける依頼者)についての希望者データ(希望者の属性データ、
図2参照)の入力を受け付け、希望者データ記憶手段41に記憶させる処理を実行するものである。希望者データの入力は、主として、サービス担当者が、入力手段80を操作し、希望者自身により記述された書類や、希望者から聞き取った情報に基づき行う。マッチングシステム10をネットワーク構成とする場合には、サービス担当者の端末から入力してもよく、希望者自身が操作する希望者の端末から入力してもよい。また、入力受付手段31は、別のコンピュータで入力されてUSBメモリやDVD等の記録媒体に記録されている希望者データを取り込み、希望者データ記憶手段41に記憶させる処理を実行してもよい。
【0081】
図2に示すように、希望者データは、それまでに(希望者によるマッチングの依頼前に)登録されているマッチング対象者データと同じデータ形式であり、入力受付手段31により新たに付与された案件番号(マッチング対象者の識別情報)と、自己業種(取扱商品)と、自己所在地と、年商と、少なくとも1つ(ここでは、一例として7つとする。)のニーズフラグと、希望業種(マッチング相手の業種)と、希望地域(マッチング相手の所在地)と、自己PR(自由記述形式のテキストデータ)と、ニーズ詳細(自由記述形式のテキストデータ)とを対応させたデータである。
【0082】
ここで、ニーズフラグは、ニーズの種類を示すデータ(該当するか否かの1,0のデータ)であり、
図2では、一例として7個設けられているが、ニーズフラグの設置個数は任意であり、1つでも、複数でもよい。また、内容やその粗さの度合いの設定も任意であり、例えば、「売ります」というニーズフラグと、「買います」というニーズフラグとを設けてもよく、さらに細かく、例えば、「部品を売ります」、「材料を売ります」、「部品を買います」、「材料を買います」等のニーズフラグを設けてもよい。なお、例えば、「売ります」と「販売先を求めています」とは同じ内容であり、「買います」と「仕入れ先を求めています」も同じ内容であるため、表現上の相違は問題にならない。
【0083】
同様に、「弊社にて製造します」というニーズフラグと、「貴社で製造してください」というニーズフラグとを設けてもよく、さらに細かく、例えば、「部品を製造します」、「材料を製造します」、「部品を製造してください」、「材料を製造してください」等のニーズフラグを設けてもよい。その他には、例えば、「システムを構築します」、「システムの構築をお願いします」、「製品・商品を輸送します」、「製品・商品を輸送してください」、「広告を引き受けます」、「広告をお願いします」、「人材を派遣します」、「人材の派遣をお願いします」、「小売りします」、「小売店を求めています」、「全国展開を引き受けます」、「全国展開をお願いしたい」、「不動産を提供します」、「不動産の提供を求めています」、「サービスを提供します」、「サービスの提供を求めています」、「納品は当日または翌日です」、「納期は当日または翌日として欲しい」等のニーズフラグを設けることができる。また、「その他」というニーズフラグを設けてもよい。
【0084】
<結合テキストデータ作成手段32の構成>
【0085】
結合テキストデータ作成手段32は、[α]結合テキストデータの作成処理と、[β]不要な記号やタグ等の除去処理と、[γ]形態素解析で単語に分解し、名詞のみを抽出する処理と、[δ]不要な単語の除去処理とを実行するものである。なお、[α]の処理を実行して得られたデータと、[α]〜[δ]の処理を実行して得られたデータとは、ともに結合テキストデータと呼ぶ。この際、[γ]の処理を経た後は、単語に分解された状態となるが、トピック推定を行ううえで、[α]の処理を実行して得られたデータと同等な情報を持ち合わせているので、説明の便宜上、結合テキストデータと呼ぶ。また、[δ]までの処理を経た結合テキストデータを特に区別して呼ぶときは、処理後の結合テキストデータと呼ぶ。
【0086】
この結合テキストデータ作成手段32による[α]〜[δ]の処理は、希望者データを含めたトピックモデルの再学習を行わない場合(
図8参照)の運用時の処理では、希望者データ記憶手段41に記憶されているマッチングの希望者についての希望者データ(希望者の属性データ、
図2参照)を用いて実行される。得られた処理後の結合テキストデータは、希望者の識別情報(案件番号)と関連付けて、図示されない結合テキストデータ記憶手段または希望者データ記憶手段41に記憶させておいてもよい。この場合、トピックモデルの再学習を行わないので、希望者以外のマッチング対象者(希望者によるマッチングの依頼前から登録されているマッチング対象者)についての結合テキストデータは必要ないので、マッチング対象者データ記憶手段42に記憶されている各マッチング対象者データを用いた上記[α]〜[δ]の処理は行われない。
【0087】
一方、希望者データを含めてトピックモデルの再学習を行う場合(
図9参照)の運用時の処理では、上記[α]〜[δ]の処理は、希望者データ記憶手段41に記憶されている希望者データ(希望者の属性データ、
図2参照)を用いて実行されるだけではなく、マッチング対象者データ記憶手段42に記憶されている各マッチング対象者データ(希望者によるマッチングの依頼前から登録されているマッチング対象者の属性データ、
図2参照)を用いた上記[α]〜[δ]の処理も実行される。この場合、トピックモデルの再学習を行うので、双方の結合テキストデータが必要だからである。なお、事前の学習処理(希望者によるマッチングの依頼前における学習処理)でマッチング対象者データ記憶手段42に記憶されている各マッチング対象者データを用いて上記[α]〜[δ]の処理を実行して得られた処理後の結合テキストデータが保存されている場合には、その保存されている処理後の結合テキストデータを用いればよいので、運用時の処理で、上記[α]〜[δ]の処理を再度実行する必要はない。
【0088】
また、事前の学習処理(希望者によるマッチングの依頼前における学習処理)においても、学習用データ準備手段39による指示を受けて、結合テキストデータ作成手段32による上記[α]〜[δ]の処理が実行される。この場合は、希望者によるマッチングの依頼前の時期であるので、希望者データ記憶手段41に記憶されている希望者データ(希望者の属性データ、
図2参照)は、存在しない状態であることから、マッチング対象者データ記憶手段42に記憶されている各マッチング対象者データを用いた上記[α]〜[δ]の処理だけが実行される。上述したように、この事前の学習処理で、上記[α]〜[δ]の処理を実行して得られた処理後の結合テキストデータは、保存しておいてもよい。例えば、得られた処理後の結合テキストデータを、マッチング対象者の識別情報(案件番号)と関連付けて、図示されない結合テキストデータ記憶手段またはマッチング対象者データ記憶手段42に記憶させておいてもよい。なお、本願では、学習は、希望者によるマッチングの依頼後に行われる再学習(希望者データを含めた再学習)と、希望者によるマッチングの依頼前に行われる通常の学習(希望者データが存在しない段階での学習)とがあり、特にこれらを区別するときには、前者の学習を、運用時の学習(再学習)と呼び、後者の学習を、事前の学習と呼ぶものとする。
【0089】
[α]結合テキストデータの作成処理では、結合テキストデータ作成手段32は、
図2に示すように、希望者データや各マッチング対象者データを構成する自己業種(取扱商品)および自己PR(自由記述形式のテキストデータ)を合わせたテキストデータからなる自己データと、希望業種(マッチング相手の業種)およびニーズ詳細(自由記述形式のテキストデータ)を合わせたテキストデータからなるニーズデータとを結合することにより、結合テキストデータを作成する。得られた結合テキストデータは、1つの文書データとして取り扱われる。
【0090】
この際、結合テキストデータ作成手段32は、
図3に示すように、句点(。)を挟んで自己業種、自己PR(自由記述形式)、希望業種、ニーズ詳細(自由記述形式)を結合する。なお、ここでは、自己業種を含めて自己データとし、希望業種を含めてニーズデータとしているが、自己業種を含めずに自己PR(自由記述形式)だけを自己データとしてもよく、希望業種を含めずにニーズ詳細(自由記述形式)だけをニーズデータとしてもよい。
【0091】
また、結合テキストデータ作成手段32により作成する結合テキストデータは、テキストデータであるから、自己業種や希望業種が選択式の記号や番号(1,2,…等)になっている場合には、それらの業種をテキストデータ(電機、建築・土木、IT、…等)に変換してから結合する。一方、自己業種や希望業種が自由記述形式になっているか、あるいはマッチングサービス提供者側で予め用意した業種の中から選択した業種をテキストで記述するようになっている場合には、既にテキストデータになっているので、そのまま結合することができる。
【0092】
さらに、マッチングサービス提供者側で予め用意した業種の中から選択した業種(記号や番号で選択指定されているか、テキストで記述されているかは問わない。)と、マッチング対象者が自由記述形式で記述した業種とが併用されている場合(予め用意された業種の中に、該当する業種が無いときに、該当する業種を自由記述形式で記述するようになっている場合)には、自由記述形式で記述した業種だけを、自己データやニーズデータに含めてもよい。このようにする場合は、自由記述形式で記述した自己業種や希望業種だけが、自己PR(自由記述形式)やニーズ詳細(自由記述形式)と同等な情報であると考えていることになる。
【0093】
そして、
図2および
図3での図示は省略されているが、自由記述形式の「その他」の欄がある場合には、「その他」の欄に記述されたテキストデータを、自己PR(自由記述形式)やニーズ詳細(自由記述形式)と同等な情報であると考え、それも結合して結合テキストデータに含めるようにしてもよい。
【0094】
[β]不要な記号やタグ等の除去処理では、結合テキストデータ作成手段32は、[α]の処理で得られた結合テキストデータから、例えば、☆、<br>等を削除する。
【0095】
[γ]形態素解析で単語に分解し、名詞のみを抽出する処理では、結合テキストデータ作成手段32は、
図3に示すように、先ず、[β]の処理で得られた結合テキストデータを用いて形態素解析を実行し、結合テキストデータを単語に分解(分割)し、分かち書きにする。この形態素解析は、既存の解析ツールを利用して実行することができる。
【0096】
この際、形態素解析用に、単語や類義語の辞書を作成し、図示されない単語辞書記憶手段や類義語辞書記憶手段に記憶しておいてもよい。単語辞書には、例えば「イヤホン」、「インスタグラム」、「オーガニック」等、既存の解析ツールの辞書に含まれていない単語を登録する。また、類義語辞書には、例えば「バッテリー」、「バッテリ」等の表記のゆれ単語を登録する。
【0097】
[δ]不要な単語の除去処理では、結合テキストデータ作成手段32は、単語の絞り込みを行う。先ず、単語の品詞や出現回数に基づいて、単語をフィルタリングする。具体的には、名詞の一部(例えば「一般」、「サ変接続」等)だけを残し、他の単語は捨てる。また、全ての結合テキストデータ(全てのマッチング対象者の結合テキストデータ)の集合において、出現回数が、例えば3回未満の単語は捨てる。各単語と出現回数との関係は、図示されない単語出現回数記憶手段に記憶されている。従って、新しいマッチング対象者としての希望者の結合テキストデータが増えた場合には、そこに含まれる単語の出現回数が加算されるので、例えば3回という閾値を超える場合もあり、これにより、捨てられていた単語が活かされるようになる場合もある。また、新しいマッチング対象者としての希望者の結合テキストデータが増えた場合に、その結合テキストデータに全く新出の単語が現れ、その出現回数が、例えば3回という閾値を超えていれば、その新出の単語は、捨てられる単語ではなく、活かされる単語となる。
【0098】
次に、結合テキストデータ作成手段32は、不要語辞書記憶手段43に記憶されている不要語(ノイズ単語)を排除する。具体的には、例えば、「企業」、「ニーズ」、「サポート」等のような業種に関係なく出現すると考えられる単語は、不要語として排除する。また、例えば、「京都」、「関東」、「東日本」等の国内の地名は、不要語として排除する。但し、例えば、「欧州」、「中国」、「大連」等、海外の地名は残しておく。不要語として登録する単語は、例えば、1,000〜2,000単語等である。
【0099】
図3の例では、結合テキストデータ作成手段32による以上の[α]〜[δ]の処理を経た後に残る単語は、先頭から順番に、「飲食」、「店舗」、「酒類」、「ブランド」、「飲食」、「食品」、「酒類」、「食品」、「ブランド」、「泡盛」、…となる。従って、
図3に示すように、残った各単語とそれらの出現回数との関係が得られ、この関係が、トピック推定を行うために必要な情報となる。すなわち、1つの文書データとして取り扱われる結合テキストデータ(i=00001234)における各単語の出現回数となる。i=00001234は、案件番号であり、マッチング対象者の識別情報であるとともに、結合テキストデータ(文書データ)の番号でもある。案件番号は、連続番号である必要はないが(飛び飛びの番号でもよいが)、次のトピック推定の説明も含め、ここでは、説明の便宜上、番号は、詰めて考えることにする。
【0101】
トピック推定手段33は、希望者データを含めてトピックモデルの再学習を行う場合(
図9参照)に、結合テキストデータ作成手段32により作成された希望者を含む多数のマッチング対象者の結合テキストデータを用いて、ソフトクラスタリングまたはニューラル言語モデルで、ギブスサンプリング等を行うことにより、希望者を含む各マッチング対象者の結合テキストデータ(i)における各トピックの出現確率を示すトピック値(縦ベクトルπ(i))、および、各トピックにおける各単語の出現確率(行列β)を求めるトピック推定処理を実行し、このトピック推定処理で得られたπ(i)およびβを、トピックモデルとしてトピックモデル記憶手段44に記憶させる処理を実行するものである。
【0102】
但し、希望者データを含めてトピックモデルの再学習を行う場合(
図9参照)の運用時の処理では、各トピックにおける各単語の出現確率(行列β)は使用しない。
【0103】
また、
図7に示す事前の学習処理(希望者によるマッチングの依頼前における学習処理)においても、学習用データ準備手段39による指示を受けて、トピック推定手段33によるトピック推定処理が実行され、各結合テキストデータ(i)における各トピックの出現確率を示すトピック値(縦ベクトルπ(i))、および、各トピックにおける各単語の出現確率(行列β)が求められ、このトピック推定処理で得られたπ(i)およびβが、トピックモデルとしてトピックモデル記憶手段44に記憶される。この事前の学習処理では、希望者データは存在せず、従って、希望者の結合テキストデータは作成されないので、結合テキストデータ作成手段32により作成された多数の既登録のマッチング対象者の結合テキストデータを用いて、トピック推定処理が実行される。
【0104】
トピック推定処理を実行する際のソフトクラスタリングまたはニューラル言語モデルについては、本実施形態では、一例として、レイテント・ディリクレ・アロケーション(LDA:Latent Dirichlet Allocation、潜在的ディリクレ配分法)を採用する。なお、ここでいうニューラル言語モデルの「モデル」は、アルゴリズムおよびパラメータを含めた概念であり、一方、トピックモデル記憶手段44に記憶されるトピックモデルの「モデル」は、学習結果として得られるパラメータ(学習結果データ)を指す概念である。従って、
図1に示すように、アルゴリズムにより実現されるトピック推定手段33および希望者トピック値予測手段34と、トピックモデルを記憶するトピックモデル記憶手段44とにより、推定器50が構成されている。
【0105】
また、レイテント・ディリクレ・アロケーション(LDA)の他には、例えば、ファジー・Cミーンズ(Fuzzy c-means)、混合分布モデル、非負値行列因子分解(NMF:Non-negative Matrix Factorization)、pLSI(probabilistic Latent Semantic Indexing)、Doc2Vec、SCDV(Sparse Compose Document Vecotors)等を採用することができる。例えば、Doc2Vecを実装する場合には、既存のGensimと呼ばれるライブラリを用いることができる。
【0106】
ここで、各結合テキストデータ(i)における各トピックの出現確率を示すトピック値は、
図7および
図9に示すように、K次元の縦ベクトルπ(i)であり、本願では、これをトピック分布と呼んでいる。iは文書番号であり、i=1〜nのとき、nは文書数であるが、この文書数nは、本発明では、結合テキストデータの数(すなわち、マッチング対象者の数)に相当し、本実施形態のビジネスマッチングでは、登録企業数に相当し、例えば、n=約10万社等である。Kはトピック数であり、システムの構築者が指定する。従って、トピック分布は、トピック番号=1〜Kの各トピック値π(i,1),π(i,2),π(i,3),…,π(i,K)により構成される。例えば、本実施形態のビジネスマッチングでは、トピックとして20業種を想定し、K=20等とすることができる。但し、トピック数Kは20に限定されるものではなく、また、トピックとして必ずしも業種を想定しなければならないわけではなく、本実施形態がビジネスマッチングであるから、最も容易に当て嵌めて考えることができる業種を想定してシステム設計を行っているに過ぎない。
【0107】
また、各トピックにおける各単語の出現確率は、
図7および
図9に示すように、K行p列の行列βで表すことができる。Kはトピック数である。pは単語数であり、例えば、p=約3,000語等である。
【0108】
図3に示すように、1つの文書データとして取り扱われる結合テキストデータ(i=00001234)から直接に得られる情報は、その結合テキストデータに含まれる各単語とそれらの出現回数との関係を示すデータである。そして、各単語の出現回数が判れば、それぞれの単語の出現回数を、全ての単語の出現回数の和で除することにより、ある1つの結合テキストデータにおける各単語の出現確率が判るので、これが既知の情報となる。トピック推定手段33は、多数の結合テキストデータのそれぞれにおける各単語とそれらの出現回数との関係を示すデータを既知の情報として、それらの既知の情報を用いて、ギブスサンプリング等を行うことにより、各結合テキストデータ(i)におけるトピック分布π(i)(トピック番号=1〜Kの各トピックの出現確率を示すトピック値)、および、各トピックにおける各単語の出現確率(K行p列の行列β)を求める。なお、K行p列の行列βと、K次元の縦ベクトルで示されるトピック分布π(i)とが得られているときに、結合テキストデータ(i)における各単語(1〜p番目の単語)の出現確率を算出するには、行列βの転置行列(p行K列)と、トピック分布π(i)(K次元の縦ベクトル)とを、この順で掛ける演算を行うことになる。
【0109】
<希望者トピック値予測手段34の構成>
【0110】
希望者トピック値予測手段34は、希望者データを含めたトピックモデルの再学習を行わない場合(
図8参照)に、結合テキストデータ作成手段32により作成した希望者の処理後の結合テキストデータ、および、トピックモデル記憶手段44に記憶されている各トピックにおける各単語の出現確率(K行p列の行列β)を用いて、希望者の結合テキストデータにおける各トピックの出現確率を示すトピック値(K次元の縦ベクトルπ(i)で表されるトピック分布)を予測する処理を実行するものである。
【0111】
ここでは、
図3に示すように、希望者の結合テキストデータにおける各単語とそれらの出現回数との関係(すなわち、1つの文書データとして取り扱われる希望者の結合テキストデータにおける各単語の出現確率)と、各トピック(トピック番号=1〜K)における各単語(1〜p番目の単語)の出現確率(K行p列の行列β)とが既知の情報である。従って、希望者トピック値予測手段34は、これらの既知の情報から、希望者の結合テキストデータにおける各トピックの出現確率を示すトピック値(K次元の縦ベクトルπ(i)で表されるトピック分布)を予測する。
【0112】
なお、希望者の結合テキストデータの中に、各トピックにおける各単語の出現確率(K行p列の行列β)として用意されている各単語(1〜p番目の単語)に含まれない新出の単語が存在する場合には、その新出の単語を含めた予測は行うことができないので、その新出の単語は無いものとして、希望者の結合テキストデータにおけるトピック分布の予測を行う。従って、この新出の単語の情報は、その後に行われるトピック推定手段33によるトピック推定処理で、トピックモデル記憶手段44に記憶されるトピックモデルに反映されることになる。
【0113】
<単語重要度ベクトル算出手段35の構成>
【0114】
単語重要度ベクトル算出手段35は、希望者を含む各マッチング対象者の結合テキストデータについての各単語のTFIDF値またはその他の単語重要度指標値からなる単語重要度ベクトルを算出し、得られた単語重要度ベクトルを、マッチング対象者(希望者を含む)の識別情報と関連付けて単語重要度ベクトル記憶手段45に記憶させる処理を実行するものである。なお、単語重要度ベクトルの算出に用いる結合テキストデータは、結合テキストデータ作成手段32による[δ]までの処理を経た後に残った単語の集合である。
【0115】
ここで、単語重要度指標値は、本実施形態では、一例として、TFIDF値を採用しているが、これに限定されるものではなく、例えば、Okapi−BM25等でもよい。なお、TF(Term Frequency)は、文書(ここでは、結合テキストデータ)における単語の出現頻度であり、ある1つの結合テキストデータにおける各単語の出現回数を、その結合テキストデータにおける全単語の出現回数の和で除した値である。IDF(Inverse Document Frequency)は、逆文書頻度であり、全文書数(ここでは、結合テキストデータの総数)を、各単語を含む結合テキストデータの数で除した値についてロガリズム(log)をとった値である。
【0116】
単語重要度ベクトルは、単語数をpとすると、p次元のベクトルであり、例えば、p=約3,000語等であれば、約3,000次元のベクトルとなる。この単語重要度ベクトルは、正規化(例えば、L2ノルム正規化)の処理を行っておくことが好ましい。
【0117】
<マッチング用特徴データ作成手段36の構成>
【0118】
マッチング用特徴データ作成手段36は、
図2に示すように、結合テキストデータにおけるトピック分布π(i)(トピック番号=1〜Kの各トピックの出現確率を示すトピック値)と、結合テキストデータについての単語重要度ベクトル(本実施形態では、一例として、TFIDFベクトルとする。)と、希望者および各候補者についてのニーズフラグや年商とを用いて、マッチング処理手段37およびマッチングモデル記憶手段46からなる識別器60への入力データとなるマッチング用特徴データを作成する処理を実行するものである。但し、
図2の下部に記載されているのは、マッチングの希望者と候補者とからなるペアのうちの一方の側のマッチング用特徴データであり、合成変数を作成する前の状態のマッチング用特徴データである。
【0119】
より詳細には、マッチング用特徴データ作成手段36は、希望者データを含めたトピックモデルの再学習を行わない場合(
図8参照)の運用時の処理では、希望者トピック値予測手段34により求めた希望者の結合テキストデータにおけるトピック分布(各トピックの出現確率を示すトピック値)と、トピックモデル記憶手段44に記憶されている各候補者の結合テキストデータにおけるトピック分布(各トピックの出現確率を示すトピック値)と、単語重要度ベクトル算出手段35により算出されて単語重要度ベクトル記憶手段45に記憶されている希望者および各候補者の結合テキストデータについての単語重要度ベクトル(TFIDFベクトル等)と、希望者データ記憶手段41に記憶されている希望者データに含まれるニーズフラグや年商と、マッチング対象者データ記憶手段42に記憶されている各候補者のマッチング対象者データに含まれるニーズフラグや年商とを用いて、
図5に示すように、希望者と各候補者とからなる複数のペアについてのマッチング用特徴データを作成する。
【0120】
また、マッチング用特徴データ作成手段36は、希望者データを含めてトピックモデルの再学習を行う場合(
図9参照)の運用時の処理では、トピック推定手段33によるトピック推定処理で得られてトピックモデル記憶手段44に記憶されている希望者および各候補者の結合テキストデータにおけるトピック分布(各トピックの出現確率を示すトピック値)と、単語重要度ベクトル算出手段35により算出されて単語重要度ベクトル記憶手段45に記憶されている希望者および各候補者の結合テキストデータについての単語重要度ベクトル(TFIDFベクトル等)と、希望者データ記憶手段41に記憶されている希望者データに含まれるニーズフラグや年商と、マッチング対象者データ記憶手段42に記憶されている各候補者のマッチング対象者データに含まれるニーズフラグや年商とを用いて、
図5に示すように、希望者と各候補者とからなる複数のペアについてのマッチング用特徴データを作成する。
【0121】
さらに、マッチング用特徴データ作成手段36は、
図7に示す事前の学習処理(希望者によるマッチングの依頼前における学習処理)においても、学習用データ準備手段39による指示を受けて、マッチング用特徴データを作成する。この際、
図7に示す事前の学習処理では、希望者によるマッチングの依頼前の段階であるため、希望者は存在しないことから、希望者と各候補者とからなる複数のペアについてのマッチング用特徴データを作成するのではなく、
図6に示すように、学習用データとして、多数のマッチング対象者のペア(学習であるから、希望者と候補者とに相当するペア)についてのマッチング用特徴データを作成するが、この詳細については、
図7を用いて後述する。具体的には、マッチング用特徴データ作成手段36は、
図7に示す事前の学習処理では、トピック推定手段33によるトピック推定処理で得られてトピックモデル記憶手段44に記憶されている各マッチング対象者の結合テキストデータにおけるトピック分布(各トピックの出現確率を示すトピック値)と、単語重要度ベクトル算出手段35により算出されて単語重要度ベクトル記憶手段45に記憶されている各マッチング対象者の結合テキストデータについての単語重要度ベクトル(TFIDFベクトル等)と、マッチング対象者データ記憶手段42に記憶されている各マッチング対象者のマッチング対象者データに含まれるニーズフラグや年商とを用いて、多数のマッチング対象者のペアについてのマッチング用特徴データを作成する。
【0122】
また、
図2では、各案件番号(マッチング対象者の識別情報)についてのマッチング用特徴データ(但し、
図2は合成変数を作成する前の状態)は、トピック分布と、単語重要度ベクトル(例えばTFIDFベクトル等)と、ニーズフラグと、年商とで構成されているが、
図2中の二点鎖線で示すように、単語重要度ベクトル、ニーズフラグ、年商は、マッチング用特徴データの作成に必須のものではなく、使用しないという選択もできる。また、
図2での図示は省略されているが、マッチング用特徴データの作成に、文書長を使用してもよい。この文書長としては、例えば、結合テキストデータ作成手段32による[α]結合テキストデータの作成処理を行った状態、または[β]不要な記号やタグ等の除去処理を行った状態の結合テキストデータの文字数(すなわち、[γ]の形態素解析で単語に分解される前の状態の結合テキストデータの文字数)、あるいは、[δ]までの処理を経た状態の処理後の結合テキストデータの単語の総数等を用いることができる。
【0123】
さらに、
図4に示すように、マッチング用特徴データの作成では、合成変数を含めることが、適切なスコアリングを行ううえで効果的である。
【0124】
図4(A)に示すように、各トピック値により合成変数を作成する場合は、希望者Xのトピック分布π(X)と、候補者Yのトピック分布π(Y)との積からなる合成変数の分布λ(XY)を求め、これをマッチング用特徴データに含めることができる。なお、
図4(A)において、λ(XY)=π(X)*π(Y)という表記を行っているが、ベクトルの内積を求めるわけではなく、ベクトルの対応する要素同士の積を求めるという意味である。すなわち、同じトピックについてのトピック値同士の積であるから、トピック番号=1のトピック値同士の積、トピック番号=2のトピック値同士の積、…、トピック番号=K(Kはトピック数)のトピック値同士の積を求める。より正確な表記にすると、λ(XY,1)=π(X,1)*π(Y,1)、λ(XY,2)=π(X,2)*π(Y,2)、…、λ(XY,K)=π(X,K)*π(Y,K)となる。従って、K次元ベクトルであるトピック分布π(X)と、K次元ベクトルであるトピック分布π(Y)とから、K次元ベクトルである合成変数の分布λ(XY)を求めることになる。
【0125】
また、
図4(A)に示すように、希望者Xのトピック分布π(X)と、候補者Yのトピック分布π(Y)との差の絶対値からなる合成変数の分布μ(XY)を求め、これをマッチング用特徴データに含めることができる。差ではなく、差の絶対値としているのは、方向性を無くすためであり、μ(XY)とμ(YX)とを同じにするため(順番を変えても同じになるようにするため)である。この場合は、ベクトルの対応する要素間の差の絶対値を求める。すなわち、同じトピックについてのトピック値間の差の絶対値であるから、トピック番号=1のトピック値間の差の絶対値、トピック番号=2のトピック値間の差の絶対値、…、トピック番号=K(Kはトピック数)のトピック値間の差の絶対値を求める。より正確な表記にすると、μ(XY,1)=|π(X,1)−π(Y,1)|、μ(XY,2)=|π(X,2)−π(Y,2)|、…、μ(XY,K)=|π(X,K)−π(Y,K)|となる。従って、K次元ベクトルであるトピック分布π(X)と、K次元ベクトルであるトピック分布π(Y)とから、K次元ベクトルである合成変数の分布μ(XY)を求めることになる。
【0126】
なお、
図4(A)の例において、トピック分布の積からなる合成変数の分布λ(XY)と、トピック分布の差の絶対値からなる合成変数の分布μ(XY)との双方を、マッチング用特徴データに含めることが好ましいが、積の分布λ(XY)、差の絶対値の分布μ(XY)のうち、いずれか一方を使用してもよい。
【0127】
さらに、
図4(B)に示すように、各ニーズフラグにより合成変数を作成する場合は、対応するニーズフラグ同士(同じ種類のニーズフラグ同士)の論理和(OR)、論理積(AND)、排他的論理和(XOR)、否定論理和(NOR)、否定論理積(NAND)、否定排他的論理和(NXOR)、算術和等を採用することができる。
図4(B)の例では、論理和(OR)、論理積(AND)、算術和による合成変数が示されている。この例は、論理和(OR)、論理積(AND)、算術和等による複数タイプ(3タイプ)の合成変数の全部を使用するという意味ではなく、いずれか1タイプの合成変数を選んで使用すればよいという趣旨で記載している。なお、複数タイプの合成変数を、マッチング用特徴データに含めてもよい。
【0128】
そして、各ニーズフラグにより合成変数を作成する場合は、対応するニーズフラグ同士ではなく、異なる種類のニーズフラグに跨って、合成変数を作成してもよい。例えば、ニーズフラグの中に、(1)売ります、(2)買います、のように内容的に関連するニーズフラグがある場合に、(1)および(2)のニーズフラグを用いて、上述した論理和(OR)等による合成変数を作成してもよい。
【0129】
また、
図4(C)に示すように、年商により合成変数を作成する場合は、双方の年商の比の値等を採用することができる。比の値による合成変数M(XY)とする場合、希望者Xの年商をS(X)、希望者Yの年商をS(Y)とすると、方向性を持たせて、M(XY)=S(X)/S(Y)、あるいは、M(XY)=S(Y)/S(X)としてもよい。また、方向性を無くすため、M(XY)=S(X)/S(Y)またはS(Y)/S(X)のうちの大きい方の値、あるいは、M(XY)=S(X)/S(Y)またはS(Y)/S(X)のうちの小さい方の値としてもよい。方向性を持たせた場合には、M(XY)とM(YX)とが異なる値となる。
【0130】
さらに、
図4での図示は省略されているが、文書長により合成変数を作成する場合は、双方の文書長の比の値等を採用することができる。比の値による合成変数とする場合、方向性を待たせてもよく、方向性を無くしてもよいのは、上述した年商の場合と同様である。
【0132】
マッチング処理手段37は、マッチング用特徴データ作成手段36により作成した複数のマッチング用特徴データの各々(希望者と各候補者とからなる複数のペアのそれぞれのマッチング用特徴データ)を入力データとして、選定されるか否かの2クラス分類で予め学習されてマッチングモデル記憶手段46に記憶されたマッチングモデルを用いて、教師あり分類モデルによる分類処理を行うことにより、マッチングの希望者に対して各候補者が選定される確度を示すスコアを出力する処理を実行するものである。
【0133】
この際、スコアは、候補者毎(希望者と候補者とからなるペア毎)に出力される。スコアは、例えば、尤度で出力する場合には、0〜1の範囲の値で出力され、スコアが1に近い程、マッチング相手として相応しい候補者であることを示している。
【0134】
ここで、「教師あり分類モデル」の「モデル」は、アルゴリズムおよびパラメータを含む概念であり、マッチングモデル記憶手段46に記憶されたマッチングモデルの「モデル」は、学習で得られたパラメータ(学習結果データ)だけの概念である。従って、アルゴリズムにより実現されるマッチング処理手段37と、マッチングモデルを記憶するマッチングモデル記憶手段46とにより、識別器60が構成されている。
【0135】
また、「教師あり分類モデル」は、選定されるか否かの2クラス分類による機械学習を行うことができる手法であれば、いずれの機械学習手法でもよい。例えば、SGD分類器(SGD Classifier:Stochastic Gradient Descent Classifier)、K近傍法分類器(K-Neighbors Classifier)、単純ベイズ分類器(Naive Bayes Classifier)、サポート・ベクター・マシン分類器(SVC:Support Vector Classifier)、ランダム・フォレスト分類器(Random Forest Classifier)、多層パーセプトロン分類器(MLP Classifier:Multi Layer Perceptron Classifier)、ニューラル・ネットワーク等を採用することができる。
【0136】
なお、識別器60は、同じ入力データ(マッチング用特徴データ)を、上記のような複数種類の分類器へ入力し、それぞれから出力されるスコアを統合してもよく(例えば、それぞれの分類器から出力されるスコアの平均値等を統合スコアとしてもよく)、また、統合の際に重み付けをしてもよい(それぞれの分類器から出力されるスコアの加重平均値等を統合スコアとしてもよい)。
【0137】
また、マッチング処理手段37は、出力したスコアを、表示手段70に画面表示する処理や、表示手段70がネットワークを介して接続された端末に設けられている場合には、スコアのデータを、ネットワークを介して端末へ送信し、あるいは、電子メールに添付して送信する処理も実行する。さらに、スコアの印刷、音声出力等を、適宜行うようにしてもよい。
【0138】
また、マッチング処理手段37は、出力したスコアを、数値が高い順に並べる等の2次的な処理を行う構成としてもよい。この2次的な処理には、後述する変形の形態(
図10参照)における特定目的のマッチングを行うためのスコアを用いた最適化計算等も含まれる。
【0140】
学習手段38は、学習用データ準備手段39により作成されて学習用データ記憶手段47に記憶されている学習用データ(多数のマッチング用特徴データの各々について、選定・非選定のラベル(タグ)を付したアノテーション後のデータ、
図6参照)を用いて、教師あり分類モデルによる学習処理を行い、得られたマッチングモデル(ここでは、学習結果データとしてのパラメータを意味する。)を、マッチングモデル記憶手段46に記憶させる処理を実行するものである。
【0141】
この学習手段38による学習処理は、
図7に示す事前に行う学習処理(希望者によるマチングの依頼前に行う処理)であり、この学習処理で得られるマッチングモデルには、新規モデルも、更新後のモデルも含まれる。
【0142】
なお、結合テキストデータの数を増やしてトピック推定手段33によるトピック推定処理を再度実行すると、厳密に言えば、各結合テキストデータにおけるトピック分布は、若干、異なる値となるので、それらのトピック分布を用いて作成される各マッチング用特徴データも、若干、異なる状態となる。そして、そのような若干異なる各マッチング用特徴データを用いて学習手段38による学習処理を行えば、マッチングモデル記憶手段46に記憶させるマッチングモデルは、若干異なる状態となる。しかし、追加する結合テキストデータが、1つまたは比較的少数であれば、トピック分布は殆ど変化しないので、マッチングモデル記憶手段46に記憶されているマッチングモデルについては、再学習せずに、そのまま用いることができる。
【0143】
従って、
図9のように希望者データを含めてトピックモデルの再学習を行う場合の運用時の処理では、マッチングモデル記憶手段46に記憶されているマッチングモデルについては、再学習せずに、そのまま用いることができる。
【0144】
一方、
図9の場合において、トピックモデルの再学習を行うことに加え、マッチングモデル記憶手段46に記憶されているマッチングモデルについても再学習し、更新後のマッチングモデルを用いて、マッチング処理手段37によりスコアを出力するようにしてもよい。この場合のマッチングモデルの再学習では、新たなマッチング対象者としての希望者については、既登録のマッチング対象者との間での選定・非選定のタグ付けを行うことができないので、希望者データは用いずに、既登録のマッチング対象者のマッチング対象者データを用いるだけでよい。つまり、選定・非選定のタグ付けが行われている既登録のマッチング対象者のペアについてのマッチング用特徴データのうち、トピック分布の部分だけを更新してマッチングモデルの再学習を行えばよい。
【0146】
学習用データ準備手段39は、学習用データとして、多数のマッチング用特徴データの各々について、選定・非選定のラベル(タグ)を付したアノテーション後のデータ(
図6参照)を作成し、タグ付けされた多数のマッチング用特徴データを、マッチング対象者の識別情報のペアと関連付けて学習用データ記憶手段47に記憶させる処理を実行するものである。
【0147】
この際、学習用データ準備手段39は、結合テキストデータ作成手段32、トピック推定手段33、単語重要度ベクトル算出手段35、およびマッチング用特徴データ作成手段36に指示を出し、それぞれの処理を実行させることにより、多数のマッチング用特徴データを用意する。
【0148】
また、各マッチング用特徴データについての選定・非選定のタグ付け処理は、マッチング候補選定実績リスト記憶手段48に記憶されているマッチング候補選定実績リストを用いて実行される。
【0150】
希望者データ記憶手段41は、
図2に示すように、新たなマッチング対象者としての希望者(マッチングの依頼者)についての属性データ(希望者データ)として、自己業種(取扱商品)と、自己所在地と、年商と、少なくとも1つ(ここでは、一例として7つとする。)のニーズフラグと、希望業種(マッチング相手の業種)と、希望地域(マッチング相手の所在地)と、自己PR(自由記述形式のテキストデータ)と、ニーズ詳細(自由記述形式のテキストデータ)とを、希望者に付与された案件番号(マッチング対象者の識別情報)と関連付けて記憶するものである。
【0151】
マッチング対象者データ記憶手段42は、
図2に示すように、登録されているマッチング対象者についての属性データ(マッチング対象者データ)として、自己業種(取扱商品)と、自己所在地と、年商と、少なくとも1つ(ここでは、一例として7つとする。)のニーズフラグと、希望業種(マッチング相手の業種)と、希望地域(マッチング相手の所在地)と、自己PR(自由記述形式のテキストデータ)と、ニーズ詳細(自由記述形式のテキストデータ)とを、案件番号(マッチング対象者の識別情報)と関連付けて記憶するものである。従って、このマッチング対象者データ記憶手段42に記憶されるマッチング対象者データは、希望者データ記憶手段41に記憶される希望者データとデータ形式が同じである。
【0152】
不要語辞書記憶手段43は、結合テキストデータ作成手段32による[δ]不要な単語の除去処理で用いる不要語(ノイズ単語)を記憶するものである。不要語には、例えば、「企業」、「ニーズ」、「サポート」等のような業種に関係なく出現すると考えられる単語と、例えば、「京都」、「関東」、「東日本」等の国内の地名とがある。
【0153】
トピックモデル記憶手段44は、トピック推定手段33によるトピック推定処理で得られた各マッチング対象者(
図9の場合には、希望者を含む)の結合テキストデータにおけるトピック分布(トピック番号=1〜Kの各トピックの出現確率を示すトピック値:縦ベクトルπ(i)の各要素であるπ(i,1),π(i,2),…,π(i,K))を、マッチング対象者(
図9の場合には、希望者を含む)の識別情報(i)と関連付けて記憶するとともに、このトピック推定処理で得られた各トピック(トピック番号=1〜K)における各単語(1〜p番目の単語)の出現確率(K行p列の行列βの各要素)を記憶するものである。
【0154】
単語重要度ベクトル記憶手段45は、単語重要度ベクトル算出手段35により算出した各マッチング対象者(希望者を含む)の結合テキストデータについての単語重要度ベクトル(各単語のTFIDF値またはその他の単語重要度指標値)を、マッチング対象者(希望者を含む)の識別情報と関連付けて記憶するものである。
【0155】
マッチングモデル記憶手段46は、教師あり分類モデルによる識別器60を構成するマッチングモデル(学習結果データとしてのパラメータ)を記憶するものである。このマッチングモデルは、学習手段38による学習処理で得られたものである。
【0156】
学習用データ記憶手段47は、
図6に示すように、学習用データ準備手段39により作成した学習用データ(マッチングモデルの学習用データ)として、選定・非選定のタグ付けを行った多数のマッチング用特徴データを、マッチング対象者の識別情報のペアと関連付けて記憶するものである。
【0157】
マッチング候補選定実績リスト記憶手段48は、過去においてマッチングの希望者の依頼に基づきサービス担当者によりマッチングの候補者として実際に選定されたマッチング対象者の識別情報(案件番号)と、希望者の識別情報(案件番号)との組合せからなるマッチング候補選定実績リストを記憶するものである。
【0159】
このような本実施形態においては、以下のようにしてマッチングシステム10により、事前の学習処理(マッチングの希望者による依頼がある前の学習処理)が行われる。
【0160】
図7において、先ず、学習用データ準備手段39により、結合テキストデータ作成手段32に指示を出し、マッチング対象者データ記憶手段42に記憶されている全ての既登録のマッチング対象者についての属性データ(マッチング対象者データ)から、
図2および
図3に示すように、自己データとして、自己業種および自己PR(自由記述形式のテキストデータ)を取得するとともに、ニーズデータとして、希望業種およびニーズ詳細(自由記述形式のテキストデータ)を取得し、結合テキストデータ作成手段32による[α]の処理を実行し、取得した自己データおよびニーズデータを結合して、全ての既登録のマッチング対象者についての結合テキストデータを作成する(ステップS1)。
【0161】
次に、結合テキストデータ作成手段32により、
図2および
図3に示すように、[α]の処理で得られた結合テキストデータに対し、[β]不要な記号やタグ等の除去処理と、[γ]形態素解析で単語に分解し、名詞のみを抽出する処理と、[δ]不要な単語の除去処理とを実行し、全ての既登録のマッチング対象者についての処理後の結合テキストデータを作成する(ステップS2)。[δ]までの処理を経た状態では、処理後の結合テキストデータは、
図3の下部に示すように、各単語とそれらの出現回数との関係を示すデータであり、これにより結合テキストデータにおける各単語の出現確率が得られたことになる。なお、[α]〜[δ]の処理については、結合テキストデータ作成手段32の説明で既に詳述しているので、ここでは詳しい説明を省略する。
【0162】
続いて、学習用データ準備手段39により、トピック推定手段33に指示を出し、全ての既登録のマッチング対象者についての処理後の結合テキストデータ(
図3の下部参照)を用いて、ソフトクラスタリングまたはニューラル言語モデル(本実施形態では、一例として、LDAとする。)によるトピック推定処理を実行し、各結合テキストデータ(i)における各トピック(トピック番号=1〜K)の出現確率を示すトピック値(K次元の縦ベクトルπ(i))、および、各トピック(トピック番号=1〜K)における各単語(1〜p番目の単語)の出現確率(K行p列の行列β)を求め、得られたπ(i)およびβを、トピックモデルとしてトピックモデル記憶手段44に記憶させる(ステップS3)。
【0163】
以上がトピックモデル記憶手段44に記憶されているトピックモデル(π(i)、β)についての新規モデルの構築およびモデルの更新の処理の流れである。そして、以下では、マッチングモデル記憶手段46に記憶されているマッチングモデルについての新規モデルの構築およびモデルの更新の処理の流れを説明する。
【0164】
図7において、先ず、学習用データ準備手段39により、単語重要度ベクトル算出手段35に指示を出し、全ての既登録のマッチング対象者の結合テキストデータ(結合テキストデータ作成手段32による[δ]までの処理を経た後に残った単語の集合)についての単語重要度ベクトル(各単語のTFIDF値またはその他の単語重要度指標値)を算出し、算出した単語重要度ベクトルを、マッチング対象者の識別情報(案件番号)と関連付けて単語重要度ベクトル記憶手段45に記憶させる(ステップS4)。なお、
図7は、事前の学習処理であるから、マッチングの希望者は存在しないため、ここでは、希望者の結合テキストデータについての単語重要度ベクトルの算出は行われない。
【0165】
次に、学習用データ準備手段39により、マッチング用特徴データ作成手段36に指示を出し、
図6に示すように、マッチングモデル記憶手段46に記憶させるマッチングモデルの学習用データとして、多数のマッチング対象者のペアについてのマッチング用特徴データを作成し、作成した多数のペアのマッチング用特徴データを、マッチング対象者の識別情報(案件番号)のペアと関連付けて学習用データ記憶手段47に記憶させる。なお、
図7に示す事前の学習処理では、希望者は存在しないので、
図5に示す運用時の処理のように希望者と各候補者とからなる複数のペアについてのマッチング用特徴データを作成するのではない。
【0166】
具体的には、学習用データ準備手段39により、マッチング候補選定実績リスト記憶手段48に記憶されているマッチング候補選定実績リストを用いて、学習用データとしてのマッチング用特徴データを作成するための多数のマッチング対象者の識別情報(案件番号)のぺアを用意する(ステップS5)。マッチング候補選定実績リストには、過去においてマッチングの希望者の依頼に基づきサービス担当者によりマッチングの候補者として実際に選定されたマッチング対象者の識別情報(案件番号)と、希望者の識別情報(案件番号)とのペアが記録されているので、それらのマッチング対象者の識別情報(案件番号)のペアを、正例(正解データ)とし、選定・非選定の別として「1(選定)」のタグ付けを行う。一方、マッチング候補選定実績リストに記録されているペア以外のペアを、負例(不正解データ)とし、選定・非選定の別として「0(非選定)」のタグ付けを行う。これにより、例えば、正例(正解データ)を1万件、負例(不正解データ)を2万件のように用意する。
【0167】
なお、負例(不正解データ)については、ランダムにサンプリングしたマッチング対象者の識別情報(案件番号)を組み合わせたペアであって、かつ、マッチング候補選定実績リストに記録されているペア以外のペアとすることができる。また、ランダムにサンプリングするのではなく、既登録のマッチング対象者の識別情報(案件番号)の全ての組合せ(総当たりの組合せ)のペアから、マッチング候補選定実績リストに記録されているペアを除いたものを、負例(不正解データ)としてもよい。
【0168】
それから、マッチング用特徴データ作成手段36により、学習用データとしてのマッチング用特徴データを作成するために上記のステップS5で用意した全てのマッチング対象者の識別情報(案件番号)のペア(全ての正解ペア、および、全ての不正解ペア)について、トピック推定手段33によるトピック推定処理で得られてトピックモデル記憶手段44に記憶されている各マッチング対象者の結合テキストデータにおけるトピック分布π(i)(トピック番号=1〜Kの各トピックの出現確率を示すトピック値)、並びに、マッチング対象者データ記憶手段42に記憶されている各マッチング対象者のマッチング対象者データに含まれるニーズフラグおよび年商を取得し、
図4に示すようにして合成変数(ここでは、一例として、トピック分布の積、トピック分布の差の絶対値、ニーズフラグの論理和、年商の比の値等とする。)を算出する(ステップS6)。
【0169】
続いて、マッチング用特徴データ作成手段36により、学習用データとしてのマッチング用特徴データを作成するために前述したステップS5で用意した全てのマッチング対象者の識別情報(案件番号)のペア(全ての正解ペア、および、全ての不正解ペア)について、単語重要度ベクトル算出手段35により算出されて単語重要度ベクトル記憶手段45に記憶されている各マッチング対象者の結合テキストデータについての単語重要度ベクトル(TFIDFベクトル等)を取得し、単語重要度ベクトルの内積を算出する(ステップS7)。
【0170】
そして、
図6に示すように、前述したステップS5で用意した全てのマッチング対象者の識別情報(案件番号)のペア(全ての正解ペア、および、全ての不正解ペア)に、前述したステップS6で算出した合成変数(トピック分布の積、トピック分布の差の絶対値、ニーズフラグの論理和、年商の比の値等)、および、上記のステップS7で算出した単語重要度ベクトル(TFIDFベクトル等)の内積を対応付けて、学習用データとしてのマッチング用特徴データとし、これを学習用データ記憶手段47に記憶させる。なお、
図6に示すように、合成変数(トピック分布の積、トピック分布の差の絶対値、ニーズフラグの論理和、年商の比の値等)ではなく、ペア双方のトピック分布、ペア双方のニーズフラグ、ペア双方の年商を、マッチング用特徴データに含めるようにしてもよく、あるいは図示は省略されているが、単語重要度ベクトルについても、単語重要度ベクトルの内積ではなく、双方の単語重要度ベクトルを、マッチング用特徴データに含めるようにしてもよい。
【0171】
その後、学習手段38により、学習用データ準備手段39により作成されて学習用データ記憶手段47に記憶されている学習用データ(多数のマッチング用特徴データの各々について、選定・非選定のタグ付けをしたデータ、
図6参照)を用いて、教師あり分類モデルによる学習処理を行い、得られたマッチングモデル(学習結果データとしてのパラメータ)を、マッチングモデル記憶手段46に記憶させる(ステップS8)。
【0172】
<希望者データを含めたトピックモデルの再学習を行わない場合の運用時の処理の流れ:
図8>
【0173】
図8において、先ず、マッチングの希望者から依頼を受けたサービス担当者、または希望者自身が、入力手段80を操作し、希望者の属性データ(希望者データ)を入力すると、入力受付手段31により、この入力が受け付けられ、入力された希望者データが希望者データ記憶手段41に記憶される(ステップS21)。なお、
図1では、
図8の場合の処理やデータの流れは、主として実線で示され、一方、後述する
図9の場合の処理やデータの流れは、主として点線で示されている。また、前述した
図7の事前学習の場合の処理やデータの流れは、主として二点鎖線で示されている。
【0174】
次に、結合テキストデータ作成手段32により、希望者データ記憶手段41に記憶されているマッチングの希望者についての希望者データ(希望者の属性データ)から、
図2および
図3に示すように、自己データとして、自己業種および自己PR(自由記述形式のテキストデータ)を取得するとともに、ニーズデータとして、希望業種およびニーズ詳細(自由記述形式のテキストデータ)を取得し、結合テキストデータ作成手段32による[α]の処理を実行し、取得した自己データおよびニーズデータを結合して、希望者についての結合テキストデータを作成する(ステップS22)。
【0175】
さらに、結合テキストデータ作成手段32により、
図2および
図3に示すように、[α]の処理で得られた結合テキストデータに対し、[β]不要な記号やタグ等の除去処理と、[γ]形態素解析で単語に分解し、名詞のみを抽出する処理と、[δ]不要な単語の除去処理とを実行し、希望者についての処理後の結合テキストデータを作成する(ステップS23)。[δ]までの処理を経た状態では、処理後の結合テキストデータは、
図3の下部に示すように、各単語とそれらの出現回数との関係を示すデータであり、これにより結合テキストデータにおける各単語の出現確率が得られたことになる。なお、[α]〜[δ]の処理については、結合テキストデータ作成手段32の説明で既に詳述しているので、ここでは詳しい説明を省略する。
【0176】
続いて、希望者トピック値予測手段34により、結合テキストデータ作成手段32により作成した希望者の処理後の結合テキストデータ、および、トピックモデル記憶手段44に記憶されている各トピックにおける各単語の出現確率(K行p列の行列β)を用いて、希望者の結合テキストデータにおける各トピックの出現確率を示すトピック値(K次元の縦ベクトルπ(i)で表されるトピック分布)を予測する(ステップS24)。行列βは、
図7の事前の学習で得られているトピックモデルである。
図7の事前の学習で、i=1〜n(nは、マッチング対象者の数であり、本実施形態では企業数となり、文書数に相当する)のn個の結合テキストデータを用いてトピックモデルを構築したとすると、希望者の結合テキストデータは、i=(n+1)番目の結合テキストデータであるから、トピックモデルの学習には用いられていないが、行列βを用いれば、i=(n+1)番目の結合テキストデータにおけるトピック分布π(i)(i=n+1)を予測することができる。但し、i=(n+1)番目の希望者の処理後の結合テキストデータの中に、行列βに存在しない新出の単語(1〜p番目の単語以外の単語)が含まれている場合には、予測することはできないので、その新出の単語は、無いものとして取り扱う。
【0177】
それから、単語重要度ベクトル算出手段35により、希望者の結合テキストデータ(結合テキストデータ作成手段32による[δ]までの処理を経た後に残った単語の集合)についての単語重要度ベクトル(各単語のTFIDF値またはその他の単語重要度指標値)を算出し、算出した単語重要度ベクトルを、希望者の識別情報(案件番号)と関連付けて単語重要度ベクトル記憶手段45に記憶させる(ステップS25)。なお、希望者以外のマッチング対象者の結合テキストデータについての単語重要度ベクトルは、
図7の事前の学習処理で算出され、単語重要度ベクトル記憶手段45に記憶されている。
【0178】
続いて、マッチング用特徴データ作成手段36により、
図5に示すように、希望者の識別情報(案件番号)と、マッチング相手の候補者となる全ての既登録のマッチング対象者の識別情報(案件番号)とからなる複数のペアを用意する。
図5の例では、希望者Xの案件番号が、i=00100001であり、候補者Yの案件番号が、i=00000001〜00100000であるから、1人(1個人、1法人、または1団体)の希望者に対し、既登録者全員である10万の候補者が組み合わされ、10万のペアが用意されている。従って、マッチング用特徴データ作成手段36により、これらの複数のペア(10万のペア)についてのマッチング用特徴データが作成されることになる。
【0179】
具体的には、マッチング用特徴データ作成手段36により、上記のように用意した複数のペアについて、希望者トピック値予測手段34により求めた希望者の結合テキストデータにおけるトピック分布π(i)(i=n+1)(トピック番号=1〜Kの各トピックの出現確率を示すトピック値)と、トピックモデル記憶手段44に記憶されている各候補者の結合テキストデータにおけるトピック分布π(i)(i=1〜n)(トピック番号=1〜Kの各トピックの出現確率を示すトピック値)と、希望者データ記憶手段41に記憶されている希望者データに含まれるニーズフラグおよび年商と、マッチング対象者データ記憶手段42に記憶されている各候補者のマッチング対象者データに含まれるニーズフラグおよび年商とを用いて、
図4に示すようにして合成変数(ここでは、一例として、トピック分布の積、トピック分布の差の絶対値、ニーズフラグの論理和、年商の比の値等とする。)を算出する(ステップS26)。
【0180】
続いて、マッチング用特徴データ作成手段36により、上記のステップS26で用意した複数のペアについて、単語重要度ベクトル算出手段35により算出されて単語重要度ベクトル記憶手段45に記憶されている希望者および各候補者の結合テキストデータについての単語重要度ベクトル(TFIDFベクトル等)を取得し、単語重要度ベクトルの内積を算出する(ステップS27)。
【0181】
そして、マッチング用特徴データ作成手段36により、
図5に示すように、前述したステップS26で用意した複数のペア(案件番号のペア)に、前述したステップS26で算出した合成変数(トピック分布の積、トピック分布の差の絶対値、ニーズフラグの論理和、年商の比の値等)、および、上記のステップS27で算出した単語重要度ベクトル(TFIDFベクトル等)の内積を対応付けることにより、希望者と各候補者とからなる複数のペアについてのマッチング用特徴データを作成する(ステップS28)。なお、
図5に示すように、合成変数(トピック分布の積、トピック分布の差の絶対値、ニーズフラグの論理和、年商の比の値等)ではなく、ペア双方のトピック分布、ペア双方のニーズフラグ、ペア双方の年商を、マッチング用特徴データに含めるようにしてもよく、あるいは図示は省略されているが、単語重要度ベクトルについても、単語重要度ベクトルの内積ではなく、双方の単語重要度ベクトルを、マッチング用特徴データに含めるようにしてもよい。
【0182】
その後、マッチング処理手段37により、マッチング用特徴データ作成手段36により作成した複数のペアについてのマッチング用特徴データの各々(希望者と各候補者とからなる複数のペアのそれぞれのマッチング用特徴データ)を入力データとして、選定されるか否かの2クラス分類で予め学習されてマッチングモデル記憶手段46に記憶されたマッチングモデルを用いて、教師あり分類モデルによる分類処理を行うことにより、マッチングの希望者に対して各候補者が選定される確度を示すスコアを出力する(ステップS29)。
【0183】
<希望者データを含めてトピックモデルの再学習を行う場合の運用時の処理の流れ:
図9>
【0184】
図9において、先ず、マッチングの希望者から依頼を受けたサービス担当者、または希望者自身が、入力手段80を操作し、希望者の属性データ(希望者データ)を入力すると、入力受付手段31により、この入力が受け付けられ、入力された希望者データが希望者データ記憶手段41に記憶される(ステップS41)。なお、
図1では、
図9の場合の処理やデータの流れは、主として点線で示され、一方、前述した
図8の場合の処理やデータの流れは、主として実線で示さている。また、前述した
図7の事前学習の場合の処理やデータの流れは、主として二点鎖線で示されている。
【0185】
次に、結合テキストデータ作成手段32により、希望者データ記憶手段41に記憶されている希望者データ(マッチングの希望者の属性データ)、および、マッチング対象者データ記憶手段42に記憶されている各マッチング対象者データ(希望者によるマッチングの依頼前から登録されているマッチング対象者の属性データ)から、
図2および
図3に示すように、自己データとして、自己業種および自己PR(自由記述形式のテキストデータ)を取得するとともに、ニーズデータとして、希望業種およびニーズ詳細(自由記述形式のテキストデータ)を取得し、結合テキストデータ作成手段32による[α]の処理を実行し、取得した自己データおよびニーズデータを結合して、全てのマッチング対象者(希望者を含む)についての結合テキストデータを作成する(ステップS42)。
【0186】
さらに、結合テキストデータ作成手段32により、
図2および
図3に示すように、[α]の処理で得られた結合テキストデータに対し、[β]不要な記号やタグ等の除去処理と、[γ]形態素解析で単語に分解し、名詞のみを抽出する処理と、[δ]不要な単語の除去処理とを実行し、全てのマッチング対象者(希望者を含む)についての処理後の結合テキストデータを作成する(ステップS43)。[δ]までの処理を経た状態では、処理後の結合テキストデータは、
図3の下部に示すように、各単語とそれらの出現回数との関係を示すデータであり、これにより全てのマッチング対象者(希望者を含む)についての結合テキストデータにおける各単語の出現確率が得られたことになる。
【0187】
なお、
図7に示す事前の学習処理(希望者によるマッチングの依頼前における学習処理)でマッチング対象者データ記憶手段42に記憶されている各マッチング対象者データを用いて上記[α]〜[δ]の処理を実行して得られた処理後の結合テキストデータが保存されている場合には、その保存されている処理後の結合テキストデータを用いればよいので、ステップS42,S43で、希望者以外のマッチング対象者についての上記[α]〜[δ]の処理を再度実行する必要はない。
【0188】
続いて、トピック推定手段33により、結合テキストデータ作成手段32により作成された希望者を含む多数のマッチング対象者の処理後の結合テキストデータ(
図3の下部参照)を用いて、ソフトクラスタリングまたはニューラル言語モデルで、ギブスサンプリング等を行うことにより、希望者(i=n+1)を含む各マッチング対象者の結合テキストデータ(i)におけるトピック分布π(i)(i=1〜(n+1))(トピック番号=1〜Kの各トピックの出現確率を示すトピック値であり、K次元の縦ベクトルπ(i))、および、各トピック(トピック番号=1〜K)における各単語(1〜p番目の単語)の出現確率(K行p列の行列β)を求めるトピック推定処理を実行し、このトピック推定処理で得られたπ(i)(i=1〜(n+1))およびβを、トピックモデルとしてトピックモデル記憶手段44に記憶させる(ステップS44)。
【0189】
それから、単語重要度ベクトル算出手段35により、希望者の結合テキストデータ(結合テキストデータ作成手段32による[δ]までの処理を経た後に残った単語の集合)についての単語重要度ベクトル(各単語のTFIDF値またはその他の単語重要度指標値)を算出し、算出した単語重要度ベクトルを、希望者の識別情報(案件番号)と関連付けて単語重要度ベクトル記憶手段45に記憶させる(ステップS45)。なお、希望者以外のマッチング対象者の結合テキストデータについての単語重要度ベクトルは、
図7の事前の学習処理で算出され、単語重要度ベクトル記憶手段45に記憶されている。
【0190】
続いて、マッチング用特徴データ作成手段36により、
図5に示すように、希望者の識別情報(案件番号)と、マッチング相手の候補者となる全ての既登録のマッチング対象者の識別情報(案件番号)とからなる複数のペアを用意する。前述した
図8の場合と同様である。
【0191】
具体的には、マッチング用特徴データ作成手段36により、上記のように用意した複数のペアについて、トピックモデル記憶手段44に記憶されている希望者および各候補者の結合テキストデータにおけるトピック分布π(i)(i=1〜(n+1))(トピック番号=1〜Kの各トピックの出現確率を示すトピック値)と、希望者データ記憶手段41に記憶されている希望者データに含まれるニーズフラグおよび年商と、マッチング対象者データ記憶手段42に記憶されている各候補者のマッチング対象者データに含まれるニーズフラグおよび年商とを用いて、
図4に示すようにして合成変数(ここでは、一例として、トピック分布の積、トピック分布の差の絶対値、ニーズフラグの論理和、年商の比の値等とする。)を算出する(ステップS46)。
【0192】
そして、以降のステップS47,S48,S49の処理は、前述した
図8のステップS27,S28,S29と同様である。
【0194】
このような本実施形態によれば、次のような効果がある。すなわち、マッチングシステム10では、多数のマッチング対象者の自己データとニーズデータとを結合して結合テキストデータを作成し、これらの結合テキストデータを用いて、ソフトクラスタリングまたはニューラル言語モデルによるトピック推定処理を実行してトピック分布(各マッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値)を求め、求めたトピック分布を用いて、教師あり分類モデルによる機械学習を行うことによりマッチングモデルを構築し、そのマッチングモデルによりマッチングの希望者と各候補者とのマッチングを行うので、手動によるキーワード変換作業が不要となり、属人的な操作の排除を実現することができる。
【0195】
このため、従来のようなキーワード変換作業に要する時間や手間を省くことができ、サービス担当者の負荷軽減を図ることができる。また、ノウハウに基づく個人判断を伴う作業がなくなるので、サービス担当者間の作業内容のばらつきを無くすことができ、一律なサービスの提供を実現することができる。
【0196】
さらに、トピック推定処理で得られたトピック分布を利用してマッチングモデルの機械学習を行うので、マッチング対象者の登録情報(自己データ、ニーズデータ)を多面的に、かつ、的確に捉えた特徴量(マッチング用特徴データ)を作成し、適切なスコアリングを実施することができる。このため、情報の欠落を抑えることができる。従って、従来のキーワードマッチの場合には、マッチングニーズをキーワードへ変換した際に、情報の欠落が生じ、所望の検索結果が得られない可能性もあったが、そのような事態を回避することができる。そして、従来手法では、検索キーワードの変更により、出力結果が大きく異なる可能性があり、機会損失に繋がりやすいという問題もあったが、そのような問題も解消することができる。
【0197】
また、マッチングの希望者に対し、登録されているマッチング対象者の全部を候補者とし、希望者と各候補者とのマッチング確度のスコアリングを実施することができるため、機会損失に陥りにくい。また、スコアの高低を参照し、稼働可能性の高いマッチング対象者(本実施形態では、実際に共同で、提携して、または協力して事業を行う可能性の高い企業)の情報を任意の件数閲覧することができる。
【0198】
さらに、登録されているマッチング対象者の全部を候補者とし、機械的にスコアリングを実施することができるため、マッチング対象者の登録が増加しても、それに伴うサービス担当者の負担の増加を回避することができる。
【0199】
また、マッチング用特徴データを作成する際には、ソフトクラスタリングまたはニューラル言語モデルによるトピック推定処理を実行して得られたトピック分布(各トピックの出現確率を示すトピック値)を用いるので、希望者や各候補者の属性データ(希望者データや各候補者のマッチング対象者データ)として、トピックに相当する情報(本実施形態では、業種(事業分野)が考えられる。)を用意しておく必要がないので、この点でもサービス担当者の負担軽減を図ることができる。
【0200】
さらに、マッチング用特徴データ作成手段36は、
図4に示すように、トピック値の積、およびトピック値の差の絶対値を、合成変数として用いることができる。このため、希望者と候補者との双方(ペアとなるマッチング対象者の双方)のトピック分布(各トピック値)をそのままマッチング用特徴データとして用いる場合に比べ、適切なスコアリングを行うことができる。
【0201】
すなわち、ペア双方のトピック分布をそのままマッチング用特徴データとして用いると、学習時において、学習用データに偏りが生じ、偏った学習が行われる可能性がある。より具体的には、例えば、学習用データに、多く現れるパターン(ここでは、多く現れるトピック分布)に対し、比較的高いスコアを与えるマッチングモデル(スコアリングモデル)が構築される可能性がある。これに対し、マッチング対象者のペアの特徴を示すような新たな合成変数を生成することで、偏った学習を回避することができる。
【0202】
なお、ペア双方のトピック値の積は、ペア双方のトピック分布の重なり度合いを表し、ペア双方のトピック値の差の絶対値は、ペア双方のトピック分布の差異・広がりを表していると考えられる。
【0203】
そして、合成変数を用いることによる効果は、次のような実験[1]、[2]を行うことで確認することができた。すなわち、既登録のマッチング対象者(ここでは企業)の属性データ(マッチング対象者データ)を用いて、案件番号(マッチング対象者の識別情報)のペアについてのマッチング用特徴データを多数用意し、それらを学習用データ(70%)と、評価用データ(30%)とに分割した。学習用データ(70%)および評価用データ(30%)の各々には、正例(正解データ)および負例(不正解データ)が含まれている。
【0204】
トピック推定処理用の「ソフトクラスタリングまたはニューラル言語モデル」には、LDAを採用し、マッチング処理用(スコアリング用)の「教師あり分類モデル」には、ランダム・フォレストを採用した。
【0205】
実験[1]では、ペア双方の7つのニーズフラグを合成変数とすることなく、そのまま7×2=14次元のデータとして、マッチング用特徴データに含めるとともに、ペア双方のトピック分布(トピック数K=20)についても、合成変数とすることなく、そのまま20×2=40次元のデータとして、マッチング用特徴データに含め、合計で54次元のマッチング用特徴データを作成した。
【0206】
一方、実験[2]では、ペア双方の7つのニーズフラグによる合成変数(論理和)を算出し、7次元のデータとして、マッチング用特徴データに含めるとともに、ペア双方のトピック分布(トピック数K=20)についても、2種類の合成変数(積、および、差の絶対値)を算出し、20×2=40次元のデータとして、マッチング用特徴データに含め、さらにペア双方の文書長の合成変数(比の値)を算出し、1次元のデータとして、マッチング用特徴データに含め、合計で48次元のマッチング用特徴データを作成した。
【0207】
そして、学習用データ(70%)を用いて、マッチングモデル(スコアリング用のモデル)の学習を行った。この際、正例(正解データ)には、選定(=1)のタグ付けを行い、負例(不正解データ)には、非選定(=0)のタグ付けを行っている。
【0208】
続いて、上記の学習を行って構築したマッチングモデル(スコアリング用のモデル)に対し、評価用データ(30%)を入力し、スコアを得た。スコアが0.5以上になった案件は、選定されたものとして評価し、0.5未満になった案件は、選定されなかったものとして評価した。
【0209】
実験[1]では、適合率(Precision)=0.767、再現率(Recall)=0.750、F1値(適合率と再現率との調和平均)=0.756となった。また、正確度(Accuracy)=0.833となった。
【0210】
一方、実験[2]では、適合率(Precision)=0.781、再現率(Recall)=0.803、F1値(適合率と再現率との調和平均)=0.792となった。また、正確度(Accuracy)=0.854となった。
【0211】
従って、実験[1]および実験[2]の双方において、適合率、再現率、F1値、正確度のいずれについても高い数値が得られたので、本発明の効果が顕著に示されるとともに、実験[2]の方が、実験[1]よりも高い数値であったため、合成変数を用いると、より適切なスコアリングを行うことができることがわかった。
【0212】
また、マッチングシステム10は、単語重要度ベクトル算出手段35を備えているので、TFIDFベクトルまたはその他の単語重要度ベクトルの内積を、マッチング用特徴データに含めることができる。このため、単語重要度により、結合テキストデータに含まれる特徴を、より強調したマッチング用特徴データを作成することができ、より適切なスコアリングを行うことができる。
【0213】
さらに、ペア双方の単語重要度ベクトルは、そのままマッチング用特徴データとして用いることもできるが、本実施形態では、ペア双方の単語重要度ベクトルの内積を求め、求めた内積をマッチング用特徴データとして用いることができるので、マッチング用特徴データの次元数を小さくできるとともに、前述したトピック分布で合成変数を生成した場合と同様に、そのまま用いるのではなく、合成変数を生成することで、より適切なスコアリングを行うことができる。
【0214】
また、マッチング用特徴データ作成手段36は、ニーズフラグをマッチング用特徴データに含めることができるので、希望者および各候補者の持つニーズの種類がマッチング用特徴データに反映されるため、より適切なスコアリングを行うことができる。
【0215】
そして、マッチング用特徴データ作成手段36は、ニーズフラグによる合成変数(例えば、双方のニーズフラグの論理和、論理積、排他的論理和、否定論理和、否定論理積、否定排他的論理和、算術和等)をマッチング用特徴データに含めることができるので、前述したトピック分布で合成変数を生成した場合と同様に、ニーズフラグをそのまま用いるのではなく、合成変数を生成して用いることで、より適切なスコアリングを行うことができる。
【0216】
また、マッチングシステム10は、ビジネスマッチングを行うシステムであるため、トピック推定処理で得られる各トピックとして、業種(事業分野)を想定することができる。このため、結合テキストデータの特徴を的確に反映したマッチング用特徴データを作成することができ、適切なスコアリングを行うことができる。すなわち、ビジネスマッチングを行う場合、自己データとニーズデータとを結合した結合テキストデータには、ビジネスに関連する記述が多いことから、トピックとして、業種(事業分野)を想定することができるので、レイテント・ディリクレ・アロケーション(LDA)で指定するトピック数Kを、分類したい業種(事業分野)の数に設定することができる。このため、システム構築者の設計イメージと、LDAによるトピック推定処理の結果とを一致させやすいので、適切なシステム設計を行うことができる。
【0218】
なお、本発明は前記実施形態に限定されるものではなく、本発明の目的を達成できる範囲内での変形等は本発明に含まれるものである。
【0219】
例えば、前記実施形態では、新たなマッチング対象者として、1人(1個人、1法人、または1団体)の希望者(マッチングの依頼者)が現れたときに、希望者データを含めたトピックモデルの再学習を行わない場合(
図8参照)の運用時の処理と、希望者データを含めてトピックモデルの再学習を行う場合(
図9参照)の運用時の処理とに分けて、説明を行っていたが、次のような運用を行うことができる。すなわち、1人の希望者が現れる都度に、
図9のようにトピックモデルの再学習を行うのではなく、複数の希望者について、
図8のようにトピックモデルの再学習を行わずに対応し、ある程度の数の希望者が現れたら、
図9のようにトピックモデルの再学習を行って対応してもよい。具体的には、例えば、1人目から9人目までの希望者が現れたときには、
図8のようにトピックモデルの再学習を行わずに対応し、10人目の希望者が現れたときに、その10人目の希望者についての希望者データを含めて(当然、1人目から9人目までの希望者についての希望者データも含まれるが、その時には、これらの9人の希望者データは、既に登録済のマッチング対象者データになっていてマッチング対象者データ記憶手段42のほうに記憶されている。)、
図9のようにトピックモデルの再学習を行って対応してもよい。
【0220】
また、トピックモデルの更新(再学習)は、いつ行ってもよく、希望者が現れたタイミングで行う必要はない。つまり、必ずしも
図9のように運用時の処理として行う必要はない。具体的には、例えば、1人目から10人目までの希望者が現れたときには、
図8のようにトピックモデルの再学習を行わずに対応する。そして、11人目の希望者が現れる前に、1人目から10人目までの希望者についての希望者データ(この段階では、10人の希望者データは、既に登録済のマッチング対象者データになっていてマッチング対象者データ記憶手段42のほうに記憶されている。)を含めて再学習を行い、トピックモデルの更新を行う。従って、この場合のトピックモデルの更新は、
図7に示す事前の学習に相当する。そして、11人目の希望者が現れたときには、更新後のトピックモデルで対応することになるが、
図8のように、11人目の希望者データを含めたトピックモデルの再学習を行わずに対応する。
【0221】
さらに、前記実施形態では、
図8および
図9に示すように、新たなマッチング対象者としてのマッチングの希望者(依頼者)が現れたときに、この希望者と各候補者とのマッチングを行う構成とされていたが、
図10に示すように、既登録(既存)のマッチング対象者の中で、特定目的のマッチングを行う構成としてもよい。この特定目的には、標準的な特定目的と、特殊な特定目的とがある。
【0222】
標準的な特定目的は、既登録(既存)のマッチング対象者が、例えば10万社であったとすると、その中の1社が、特定対象者として入力指定され、残りの99,999社が各候補者となり、99,999のペアについてのマッチング用特徴データが作成され、特定対象者に対して各候補者が選定される確度を示すスコアとして、99,999個のスコアが出力される。
【0223】
特殊な特定目的としては、既登録(既存)のマッチング対象者が、例えば10万社であったとすると、その中の複数社(例えば、10社)が、特定対象者として入力指定され、残りの99,990社が各候補者となり、この残りの99,990社の中から、複数の特定対象者(例えば、10社)が集団ミーティング等を行うのに適している同数(例えば、10社)の各候補者を選ぶ。この場合は、複数の特定対象者(例えば、10社)の各々と、残りの99,990社の各候補者とのマッチング用特徴データが作成され、複数の特定対象者(例えば、10社)の各々に対して各候補者が選定される確度を示すスコアとして、10×99,990個のスコアが出力される。そして、出力されたスコアを用いて、最適化計算処理を行い、複数の特定対象者(例えば、10社)の全てが満足するような同数(例えば、10社)の各候補者を選ぶ。但し、同数というのは、一例であり、同数に限定されるものではない。なお、複数の特定対象者(例えば、10社)のうちの1社に対する上位10位以内のスコアの各候補者は、複数の特定対象者(例えば、10社)のうちの別の1社に対する上位10位以内のスコアの各候補者と一致しないのが通常である。従って、最適化計算処理を行い、選ばれた同数(例えば、10社)の各候補者が、複数の特定対象者(例えば、10社)のいずれから見ても適切なマッチング相手であるようにする。
【0224】
この最適化計算処理のルールは任意であり、例えば、複数の特定対象者A,B,C,D,…(例えば、10社)が指定されたときに、特定対象者Aに対する同数(例えば、10社)の各候補者のスコアの合計値、特定対象者Bに対する同数(例えば、10社)の各候補者のスコアの合計値、特定対象者Cに対する同数(例えば、10社)の各候補者のスコアの合計値…を求め、これらの合計値の合計値が最大になるように、同数(例えば、10社)の各候補者を選ぶことができる。
【0225】
また、複数の特定対象者(例えば、10社)の各々に対するスコアの順位が1位の各候補者を選び、重複が生じた場合に、スコアの順位が2位以下の候補者を選ぶといったルールでもよい。例えば、特定対象者Aに対するスコアの順位が1位の候補者、特定対象者Bに対するスコアの順位が1位の候補者、特定対象者Cに対するスコアの順位が1位の候補者、…を選び、選んだ各候補者に重複がなければ、それで同数(例えば、10社)の候補者を決定する。一方、例えば、特定対象者Aに対するスコアの順位が1位の候補者と、特定対象者Bに対するスコアの順位が1位の候補者とが一致していた場合には、候補者が1社足りない状態となるので、特定対象者Aに対するスコアの順位が2位の候補者と、特定対象者Bに対するスコアの順位が2位の候補者とのうち、スコアが大きいほうの候補者を選ぶ。また、例えば、特定対象者Aに対するスコアの順位が1位の候補者と、特定対象者Bに対するスコアの順位が1位の候補者と、特定対象者Cに対するスコアの順位が1位の候補者とが一致していた場合には、候補者が2社足りない状態となるので、特定対象者Aに対するスコアの順位が2位の候補者と、特定対象者Bに対するスコアの順位が2位の候補者と、特定対象者Cに対するスコアの順位が2位の候補者との中から、スコアが大きい候補者を2社選ぶ。この際、特定対象者Aに対するスコアの順位が2位の候補者と、特定対象者Bに対するスコアの順位が2位の候補者と、特定対象者Cに対するスコアの順位が2位の候補者とが一致していた場合には、その候補者を選ぶとともに、候補者が1社足りない状態となるので、特定対象者Aに対するスコアの順位が3位の候補者と、特定対象者Bに対するスコアの順位が3位の候補者と、特定対象者Cに対するスコアの順位が3位の候補者とのうち、スコアが最も大きい候補者を選ぶ。なお、同数ではなく、例えば2倍の数の各候補者を選ぶときには、例えば、複数の特定対象者(例えば、10社)の各々に対するスコアの順位が1位および2位の各候補者を選び、重複が生じた場合には、同様な調整処理を行えばよい。
【0226】
図10において、先ず、特定対象者(既存のマッチング対象者の中の1社または複数社)から依頼を受けたサービス担当者、または特定対象者自身が、入力手段80を操作し、特定対象者の識別情報を入力して特定対象者の指定を行うと、入力受付手段31により、この入力が受け付けられる(ステップS61)。なお、この受付時点では、
図7の事前の学習処理により、トピックモデルおよびマッチングモデルは既に構築されている。
【0227】
この際、特定対象者(1社)と各候補者との間のスコアを算出するという標準的な特定目的の場合には、その特定対象者(1社)の識別情報を指定すればよく、集団ミーティングや集団面接や合同オーディション等のために複数の特定対象者(例えば、10社)と各候補者との間のスコアを算出するという特殊な特定目的の場合には、それらの複数の特定対象者(例えば、10社)の識別情報を指定すればよい。なお、選ぶ各候補者の数(例えば、同数、2倍の数、3倍の数等、あるいは5社、10社、15社、20社等の数値)も指定する。また、特定対象者(企業)同士の相性を調査するという特殊な特定目的の場合には、ぺア双方の特定対象者の識別情報を指定する。さらに、ある特定対象者(1社)と他の複数の特定対象者(例えば、10社)との相性を調査するという特殊な特定目的の場合には、各ペア双方の特定対象者の識別情報を指定すればよく、例えば、特定対象者Aと他の複数の特定対象者B,C,Dとの相性(AとB、AとC、AとDの各相性)を調査する場合には、特定対象者Aの識別情報と、特定対象者B,C,Dの各識別情報とを指定する。
【0228】
そして、以降のステップS62,S63,S64,S65の処理は、前述した
図8のステップS26,S27,S28,S29と略同様であり、ペアが異なるだけである。すなわち、
図8では、新たなマッチング対象者としてのマッチングの希望者がペアに含まれていたが、
図10では、特定対象者(既存のマッチング対象者)がペアに含まれている点が異なるだけである。
【0229】
また、前記実施形態では、マッチングシステム10は、ビジネスパートナーを紹介するビジネスマッチングを行うシステムであったが、本発明のマッチングシステムは、これに限定されるものではなく、例えば、不動産売買の仲介サービスでの売り手と買い手とのマッチング、事業承継の支援サービスでの承継元の企業(事業を譲渡する企業)と承継先の企業(事業を引き継ぐ企業)とのマッチング、婚活支援サービスでの男女のマッチング、就職希望者と採用企業とのマッチング、進学を希望する高校生と学生を集めたい大学とのマッチング、人事異動を希望する従業員と人材を募集する会社内の部署とのマッチング等を行うシステムでもよく、要するに、自己データおよびニーズデータを用意することができるマッチング対象者同士のマッチングを行うシステムであればよい。この際、自己データおよびニーズデータの用意は、自力で行うことができる必要はなく、代理の者が行ってもよいので、動物であっても、その意思の記述を人間が代理することができる場合には、その動物は、マッチング対象者となり得るため、例えば、動物と動物園とのマッチング、動物と調教師とのマッチング、動物同士のマッチング等を行うシステムも、本発明のマッチングシステムに含まれる。
【0230】
具体的には、例えば、不動産売買の仲介サービスでの売り手と買い手とのマッチングシステムの場合には、多数の売り手の属性データ(マッチング対象者データ)と、多数の買い手の属性データ(マッチング対象者データ)とを用いて、売り手と買い手との多数のペアのマッチング用特徴データを用意する。そして、これらの多数のペアのマッチング用特徴データに対し、例えば、過去においてマッチング相手の候補者として紹介した実績のあるペアについてのマッチング用特徴データを、正例(正解データ)として選定(=1)のタグ付けを行い、それ以外のペアについてのマッチング用特徴データを、負例(不正解データ)として非選定(=0)のタグ付けを行い、マッチングモデルの学習を行う。なお、売り手や買い手の属性データ(マッチング対象者データ)に含まれる自己データは、不動産の特徴を示しているともいえるが、不動産はニーズデータを持ち得ないので、自己データについても、不動産の特徴ではなく、売り手や買い手の特徴を示しているものと考える。また、売り手や買い手は、個人でも団体でもよいので、不動産売買の仲介サービスは、個人と個人、個人と団体、団体と団体のマッチングが混在した状態となる。
【0231】
同様に、事業承継の支援サービスでの承継元の企業(事業を譲渡する企業)と承継先の企業(事業を引き継ぐ企業)とのマッチングシステムの場合には、多数の承継元の企業の属性データ(マッチング対象者データ)と、多数の承継先の企業の属性データ(マッチング対象者データ)とを用いて、承継元の企業と承継先の企業との多数のペアのマッチング用特徴データを用意し、マッチングモデルの学習を行う。承継元の企業(事業を譲渡する企業)のニーズデータには、どのような企業に事業を引き継いで欲しいか等の記載がある。
【0232】
また、婚活支援サービスでの男女のマッチングを行うマッチングシステムの場合には、多数の男性の属性データ(マッチング対象者データ)と、多数の女性の属性データ(マッチング対象者データ)とを用いて、多数の男女ペアのマッチング用特徴データを用意する。そして、これらの多数の男女ペアのマッチング用特徴データに対し、例えば、過去においてマッチング相手の候補者として紹介した実績のある男女ペアについてのマッチング用特徴データを、正例(正解データ)として選定(=1)のタグ付けを行い、それ以外の男女ペアについてのマッチング用特徴データを、負例(不正解データ)として非選定(=0)のタグ付けを行い、マッチングモデルの学習を行う。
【0233】
なお、男女を区別することなく、マッチング対象者のペアについてのマッチング用特徴データを用意し、すなわち、男女ペアのみならず、男性同士のペアや、女性同士のペアのマッチング用特徴データを用意し、マッチングモデルの学習を行ってもよい。同性同士のタグ付けでは、友人として紹介した実績のあるペアについてのマッチング用特徴データを、正例(正解データ)として選定(=1)のタグ付けを行うこと等ができる。運用時におけるマッチング処理の際には、マッチングの希望者が男性であり、女性とのマッチングを希望している場合には、希望者である男性と、登録されている全ての女性とからなる複数のペアについてのマッチング用特徴データを作成し、それらをマッチングモデルに入力し、女性である各候補者が選定される確度を示すスコアを出力すればよい。また、マッチングの希望者が男性であり、女性とのマッチングを希望するとともに、友人を探すことも希望している場合には、希望者である男性と、登録されている全ての男女とからなる複数のペアについてのマッチング用特徴データを作成し、それらをマッチングモデルに入力すればよい。スコアの高い女性は、お付き合いに発展する可能性の高い女性であり、スコアの高い男性は、友人として紹介するのに相応しい男性である。
【0234】
また、転属を希望する従業員と、人材を確保したい会社内の部署とのマッチング、診察を希望する病人と、患者を確保したい病院とのマッチング、入学を希望する学生と、学生を募集したい学校とのマッチング等のように、マッチング対象者間に主従関係がある場合のマッチングでも、婚活支援サービスにおいて男女ペアのマッチング用特徴データを用意した場合と同様にして、マッチングモデルの学習を行い、構築されたマッチングモデルでスコアリングを行うことができる。
【解決手段】マッチングシステム10は、多数のマッチング対象者の自己データとニーズデータとを結合して結合テキストデータを作成し、これらの結合テキストデータを用いて、ソフトクラスタリングまたはニューラル言語モデルによるトピック推定処理を実行してトピック分布(各マッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値)を求め、求めたトピック分布を用いて、教師あり分類モデルによる機械学習を行うことによりマッチングモデルを構築し、そのマッチングモデルにより希望者と各候補者とのマッチングを行い、各候補者が選定される確度を示すスコアを出力する。