IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社野村総合研究所の特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-11
(45)【発行日】2024-07-22
(54)【発明の名称】自然言語処理装置およびプログラム
(51)【国際特許分類】
   G06F 16/30 20190101AFI20240712BHJP
   G06F 40/30 20200101ALI20240712BHJP
【FI】
G06F16/30
G06F40/30
【請求項の数】 5
(21)【出願番号】P 2020049602
(22)【出願日】2020-03-19
(65)【公開番号】P2021149613
(43)【公開日】2021-09-27
【審査請求日】2023-03-02
(73)【特許権者】
【識別番号】000155469
【氏名又は名称】株式会社野村総合研究所
(74)【代理人】
【識別番号】110002273
【氏名又は名称】弁理士法人インターブレイン
(72)【発明者】
【氏名】牧 純一郎
(72)【発明者】
【氏名】飛田 敏
(72)【発明者】
【氏名】渡邉 修一
(72)【発明者】
【氏名】堀 洋祐
(72)【発明者】
【氏名】永島 淳
【審査官】甲斐 哲雄
(56)【参考文献】
【文献】特開2018-112853(JP,A)
【文献】特開2005-025465(JP,A)
【文献】特開2019-012457(JP,A)
【文献】特開2009-294939(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06F 40/00-40/58
(57)【特許請求の範囲】
【請求項1】
企業に関する事業特性ワード及び業種のうちの少なくとも一方である分類語に紐づけられる複数のセンテンスを管理するデータベースに関して、前記複数のセンテンスに含まれる単語の分散ベクトルを算出する第1算出部と、
各センテンスに含まれる単語の分散ベクトルを平均化することによって、当該センテンスの分散ベクトルを算出する第2算出部と、
同じ分類語に紐づけられる各センテンスの分散ベクトルを平均化することによって、当該分類語の分散ベクトルを算出する第3算出部と、を備え
前記分類語の前記分散ベクトルは、前記事業特性ワードの意義を表す事業特性ワードベクトル及び前記業種の意義を表す業種ベクトルのうちの少なくとも一方であることを特徴とする自然言語処理装置。
【請求項2】
語句を入力する入力部と、
入力された前記語句の分散ベクトルと類似する分散ベクトルの分類語を選択する選択部と、
選択された前記分類語を出力する出力部と、をさらに備えることを特徴とする請求項1に記載の自然言語処理装置。
【請求項3】
前記選択部が、複数の分類語を選択し、
前記出力部は、選択された前記複数の分類語を、入力された前記語句の前記分散ベクトルとの類似度の順に並べて出力することを特徴とする請求項2に記載の自然言語処理装置。
【請求項4】
前記出力部は、入力された前記語句の前記分散ベクトルと選択された前記分類語の前記分散ベクトルとの類似度を出力することを特徴とする請求項3に記載の自然言語処理装置。
【請求項5】
企業に関する事業特性ワード及び業種のうちの少なくとも一方である分類語に紐づけられる複数のセンテンスを管理するデータベースに関して、前記複数のセンテンスに含まれる単語の分散ベクトルを算出する第1算出機能と、
各センテンスに含まれる単語の分散ベクトルを平均化することによって、当該センテンスの分散ベクトルを算出する第2算出機能と、
同じ分類語に紐づけられる各センテンスの分散ベクトルを平均化することによって、当該分類語の分散ベクトルを算出する第3算出機能と、
を情報処理装置に発揮させ
前記分類語の前記分散ベクトルは、前記事業特性ワードの意義を表す事業特性ワードベクトル及び前記業種の意義を表す業種ベクトルのうちの少なくとも一方であることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自然言語の分散表現の技術に関する。
【背景技術】
【0002】
センテンスを管理するデータベースに関して、タグを付してセンテンスを分類することがある。タグが共通するセンテンスは、同じ分類に属する内容であり、タグをキーとしてセンテンスを抽出することによって類似するセンテンスを収集できる。つまり、タグは、センテンスの分類語であって、たとえば検索条件として機能する。
【0003】
また、自然言語処理において、単語、句や文の意味を高次元の実数ベクトルで表現する分散表現の技術が普及している。この実数ベクトルを、分散ベクトルという。分散ベクトルを用いれば、自然言語の意味的な対比を行うことができる。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2019-149161号公報
【文献】特開2018-073429号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
タグについても分散ベクトルとして表現すれば、タグ同士の意味関係やタグとセンテンスとの意味関係などを、数学的に対比できるようになる。
【0006】
ただし、タグ名は分類の意味を表すものであって、分類されたセンテンスの背景や特性などのように、センテンスの趣旨の一面を示しているにすぎない。したがって、タグ名である単語や語句の分散ベクトルをタグの分散ベクトルとして用いても、タグに紐づけられるセンテンスの趣旨を総括的に示すことにはならない。
【0007】
本発明は、上記課題認識に基づいて完成された発明であり、その主たる目的は、分類語に紐づけられるセンテンスの趣旨を総括的に示す分類語の分散ベクトルを求めることである。
【課題を解決するための手段】
【0008】
本発明のある態様における自然言語処理装置は、分類語に紐づけられる複数のセンテンスを管理するデータベースに関して、複数のセンテンスに含まれる単語の分散ベクトルを算出する第1算出部と、各センテンスに含まれる単語の分散ベクトルに基づいて、当該センテンスの分散ベクトルを算出する第2算出部と、同じ分類語に紐づけられる各センテンスの分散ベクトルに基づいて、当該分類語の分散ベクトルを算出する第3算出部と、を備えることを特徴とする。
【発明の効果】
【0009】
本発明によれば、分類語に紐づけられるセンテンスの趣旨を総括的に示す分類語の分散ベクトルを求めることができる。
【図面の簡単な説明】
【0010】
図1】本実施形態の検索システムにおけるネットワーク構成図である。
図2】企業テーブルのデータ構造図である。
図3】事業特性ワードテーブルのデータ構造図である。
図4】業種テーブルのデータ構造図である。
図5】単語テーブルのデータ構成図である。
図6】企業ベクトル記憶部のデータ構成図である。
図7】事業特性ワードベクトル記憶部のデータ構成図である。
図8】業種ベクトル記憶部のデータ構成図である。
図9】検索クエリの受付画面図である。
図10】検索結果画面に含まれる企業情報ボックスの図である。
図11】検索クエリの受付画面図である。
図12】検索クエリの受付画面図である。
図13】類似語リストのデータ構成図である。
図14】事業特性ワードリストのデータ構成図である。
図15】業種リストのデータ構成図である。
図16】検索結果画面に含まれる企業情報ボックスの図である。
図17】検索結果画面に含まれる企業情報ボックスの図である。
図18】サーバの機能ブロック図である。
図19】データ格納部の機能ブロック図である。
図20】準備フェーズ処理の過程を示すフローチャート図である。
図21】分散表現モデル生成処理の過程を示すフローチャート図である。
図22】企業ベクトル算出処理の過程を示すフローチャート図である。
図23】事業特性ワードベクトル算出処理の過程を示すフローチャート図である。
図24】業種ベクトル算出処理の過程を示すフローチャート図である。
図25】利用フェーズ処理の過程を示すフローチャート図である。
図26】リスト生成処理の過程を示すフローチャート図である。
図27】画面生成処理の過程を示すフローチャート図である。
【発明を実施するための形態】
【0011】
図1は、本実施形態における検索システムネットワーク構成図である。
本実施形態における検索システムは、サーバ100とユーザ端末200を含む。ユーザ端末200は、ネットワーク(たとえば、インターネット、LANや専用線など)を介してサーバ100と接続する。サーバ100は企業データベース120を有している。
【0012】
ユーザが企業データベース120で管理されている企業情報を検索する場合、ユーザ端末200においてユーザ操作によって検索クエリが入力され、その検索クエリがサーバ100へ送られる。そして、検索クエリに基づいて抽出された企業情報がユーザ端末200へ返され、ユーザ端末200に表示される。
【0013】
本実施形態では、分散表現モデルを使って検索機能を高める。分散表現モデルでは、単語を高い次元の実数ベクトルで表す。分散表現モデルは、自然言語の文章を構造化し大規模に集積したコーパスとよばれるデータベースに基づく学習処理によって得られる。この技術は、自然言語処理の分野においてよく知られている。分散表現モデルとして得られる単語の実数ベクトルを、分散ベクトルあるいは単語ベクトルということがある。以下では、単語ベクトルという。
【0014】
代表的な例としてWord2vecが知られている。Word2vecでは、「近傍に出現する単語が似ている単語同士は意味的に近い」という前提に立ち、文において対象単語の近傍(たとえば前後5単語あるいは前後10単語)に出現する別の単語を探索するという問題を解く。ここでいう前後5単語とは、対象単語の5個前の単語から1個前までの単語と対象単語の1個後の単語から5個後までの単語の計10の単語の範囲のことである。学習手段としては、ニューラルネットワークが用いられる。大きなコーパスを用いた学習の過程で、近傍に出現する単語が似ている単語同士の単語ベクトルは、似た値を示すように変化する。
【0015】
分散表現モデルでは、単語ベクトルによって単語同士の類似関係を示すだけでなく、センテンスの類似関係も示すことができる。複数の単語を含むセンテンスにおいて、これらの単語の単語ベクトルからそのセンテンスの文ベクトルを生成することが行われている。あるセンテンスの文ベクトルと別のセンテンスの文ベクトルが近似する場合、これらのセンテンスは内容が近しいことを示している。この例で、分散表現モデルは、分散表現モデル記憶部130に格納されている。
【0016】
本実施形態では、企業情報の事業内容センテンスに付随するタグのタグベクトルに基づいて検索クエリと関連が強いタグを選びだす。そして、検索クエリを補足する条件としてタグを表す文字列を用いる。
【0017】
大まかな手順としては、準備フェーズと利用フェーズに分かれる。準備フェーズでは、従来技術を用いて企業データベース120に基づく分散表現モデルを生成する。つまり、企業データベース120にある単語の単語ベクトルを生成する。次に、企業データベース120で用いられているタグについてタグベクトルを生成して、分散表現モデルに加える。これにより、分散表現モデルをタグの表現にまで拡張する。
【0018】
利用フェーズでは、具体的な検索クエリを受け付けて、分散表現モデルを参照して検索クエリに関連するタグを選び出す。そして、そのタグの文字表現を検索条件として活用する。このとき、タグの文字表現を関連語句として選び出して、関連語句記憶部140に記憶させる。具体的処理については、以下で詳述する。
【0019】
図2は、企業テーブルのデータ構造図である。
企業テーブルは、企業データベース120において管理される。企業テーブルは、企業毎のレコードを有する。企業テーブルのレコードには、企業ID、企業名、事業内容センテンス、事業特性ワードID、主業種IDおよび副業種IDなどが設定されている。事業内容センテンスのフィールドには、一文のみが設定されてもよいし、複数の文が設定されてもよい。事業特性ワードと業種がタグに相当する。この例では、一つの企業につき、2つまで業種のタグを設定できるようになっている。業種のタグを1つしか設定しない場合には、主業種の方を使用する。企業テーブルは、準備フェーズの前に用意される。
【0020】
図3は、事業特性ワードテーブルのデータ構造図である。
事業特性ワードテーブルは、企業データベース120において管理される。事業特性ワードテーブルは、事業特性ワード毎のレコードを有する。事業特性ワードテーブルのレコードには、事業特性ワードIDおよび事業特性ワードが設定される。事業特性ワードテーブルは、準備フェーズの前に用意される。
【0021】
図4は、業種テーブルのデータ構造図である。
業種テーブルは、企業データベース120において管理される。業種テーブルは、業種毎のレコードを有する。業種テーブルのレコードには、業種IDおよび業種名が設定される。業種テーブルは、準備フェーズの前に用意される。
【0022】
図5は、単語テーブルのデータ構成図である。
単語テーブルは、分散表現モデルに含まれる。単語テーブルは、単語毎のレコードを有する。単語テーブルのレコードには、単語および単語ベクトルが設定される。単語テーブルは、準備フェーズにおいて生成される。
【0023】
図6は、企業ベクトル記憶部のデータ構成図である。
企業ベクトルとは、企業の事業内容センテンス全体の分散表現ベクトルに相当する。企業ベクトルは、事業内容センテンスに含まれる単語の単語ベクトルから生成される。企業ベクトル記憶部は、分散表現モデル格納部130に含まれる。企業ベクトルは、準備フェーズにおいて算出される。企業ベクトルは、事業特性ワードベクトルおよび業種ベクトルの算出の基礎になる。
【0024】
図7は、事業特性ワードベクトル記憶部のデータ構成図である。
事業特性ワードベクトルは、事業特性ワードの実践的な意義を示す。事業特性ワードベクトルは、事業特性ワードが設定された企業の企業ベクトルから生成されるものであって、事業特性ワードに相当する単語(たとえば、「地域」)の単語ベクトルとは異なる。事業特性ワードが実際にどのような企業に設定されやすいかによってその意義が決まるという運用上の特性が、事業特性ワードベクトルによって数値化される。事業特性ワードベクトルは、準備フェーズにおいて算出される。
【0025】
事業特性ワードベクトル記憶部は、事業特性ワードIDと事業特性ワードベクトルを対応付けて記憶する。事業特性ワードベクトル記憶部は、分散表現モデル格納部130に含まれる。事業特性ワードIDは、タグIDの例であり、事業特性ワードベクトルは、タグベクトルの例である。
【0026】
図8は、業種ベクトル記憶部のデータ構成図である。
業種ベクトルは、業種タグの実践的な意義を示す。業種ベクトルは、業種タグが設定された企業の企業ベクトルから生成されるものであって、業種名に相当する句(たとえば、「自動車販売業」)の意味ベクトルとは異なる。業種タグが実際にどのような企業に設定されやすいかによってその意義が決まるという運用上の特性が、業種ベクトルによって数値化される。業種ベクトルは、準備フェーズにおいて算出される。
【0027】
業種ベクトル記憶部は、業種IDと業種ベクトルを対応付けて記憶する。業種ベクトル記憶部は、分散表現モデル格納部130に含まれる。業種IDは、タグIDの例であり、業種ベクトルは、タグベクトルの例である。
【0028】
図9は、検索クエリの受付画面図である。
検索クエリの受付画面は、サーバ100で生成され、ユーザ端末200において表示される。この受付画面は、検索クエリの入力領域300の他、スライダー302と、類似語の表示領域304と、事業特性ワードの表示領域306と、業種の表示領域308とを含む。
【0029】
類似語の表示領域304には、検索クエリとして入力された語句との類似度が基準値以上である類似語が表示される。類似語は、事業内容センテンスに含まれるすべての単語の中から選ばれる。この基準値を第1基準値という。事業特性ワードの表示領域306には、検索クエリとして入力された語句との類似度が基準値以上である事業特性ワードが表示される。この基準値を第2基準値という。事業特性ワードは、予め設定されている。その中から類似するものが選ばれる。業種の表示領域308には、検索クエリとして入力された語句との類似度が基準値以上である業種が表示される。この基準値を第3基準値という。業種も、予め設定されている。その中から類似するものが選ばれる。
【0030】
スライダー302が示すスライダー値は、第1基準値、第2基準値および第3基準値を示す。この例では、スライダー値が最大値であり、第1基準値、第2基準値および第3基準値も最大値である。「自動車」との類似度が第1基準値以上の類似語、同じく第2基準値以上の事業特性ワードおよび同じく第3基準値以上の業種が存在せず、いずれも表示されない。この場合には、入力領域300に入力された検索クエリで検索が行われる。
【0031】
図10は、検索結果画面に含まれる企業情報ボックスの図である。
図9の状態における検索結果として表示される企業情報ボックスを示している。事業内容センテンス、事業特性ワード名、主業種名および副業種名のテキストの中に、「自動車」を含む企業情報が企業データベース120から抽出される。抽出された企業情報に含まれる企業名が表示領域322に表示される。同じく事業内容センテンスが表示領域324に表示される。同じく事業特性ワードが表示領域326に表示される。同じく主業種が表示領域328に表示される。同じく副業種が表示領域330に表示される。この例以外にも「自動車」を含む企業情報があれば、検索結果画面においてボックス一覧として表示される。なお、検索結果画面は、検索クエリの受付画面の下方にならんで表示される。検索クエリが入力されると、自動的に検索が行われて検索結果画面が表示される。
【0032】
図11は、スライダー値を小さくしたときの検索クエリの受付画面図である。
ユーザがスライダー302を操作して、スライダー値を小さくすると、第1基準値、第2基準値および第3基準値が小さくなり、条件を満たす類似語、事業特性ワードおよび業種が現れる。
【0033】
たとえば、「自動車」の単語ベクトルと「バイク」の単語ベクトルとの類似度が、このときのスライダー値が示す第1基準値以上である。「バイク」の単語ベクトルと「中古」の事業特性ワードベクトルの類似度が、このときのスライダー値が示す第2基準値以上である。さらに、「バイク」の単語ベクトルと「自動車販売業」の業種ベクトルの類似度が、このときのスライダー値が示す第3基準値以上である。
【0034】
ここで出現した類似語、事業特性ワードおよび業種名は、企業情報の検索におけるOR条件として付加される。「バイク」、「中古」あるいは「自動車販売業」などを、事業内容センテンス、事業特性ワード名、主業種名および副業種名のテキストの中に含む企業情報が企業データベース120から抽出される。
【0035】
図12は、スライダー値をさらに小さくしたときの検索クエリの受付画面図である。
ユーザがスライダー302を操作して、スライダー値をさらに小さくすると、第1基準値、第2基準値および第3基準値がさらに小さくなり、条件を満たす類似語、事業特性ワードおよび業種が増える。
【0036】
これにより増加した「トラック」、「品質」あるいは「自動車製造業」なども、企業情報の検索におけるOR条件として付加される。
【0037】
このように、スライダー302を操作することによって、検索クエリと関連の強さを調節して、検索条件に付加される類似語、事業特性ワードおよび業種を増減させる。それによって、企業情報の検索における網羅性を調節できる。上述の例では、順に網羅性が高まる。この動作について説明する。
【0038】
図13は、類似語リストのデータ構成図である。
利用フェーズにおいて検索クエリが入力されると、それに応じて類似語リストが生成される。類似語リストは、関連語句記憶部140に記憶される。類似語リストは、各単語に対応付けて、その単語と検索クエリの語句との類似度を記憶している。類似語リストは、類似度の降順にソートされている。
【0039】
図11の例では、スライダー302の値が0.7であり、第1基準値も0.7であるので、類似語の「バイク」「タクシー」および「バス」が選別される。図12の例では、スライダー302の値が0.6であり、第1基準値も0.6であるので、類似語の「トラック」「交通」および「鉄道」が加わる。
【0040】
図14は、事業特性ワードリストのデータ構成図である。
利用フェーズにおいて検索クエリが入力されると、それに応じて事業特性ワードリストが生成される。事業特性ワードリストは、関連語句記憶部140に記憶される。事業特性ワードリストは、各事業特性ワードに対応付けて、その事業特性ワードと検索クエリの語句との類似度を記憶している。事業特性ワードリストは、類似度の降順にソートされている。
【0041】
図11の例では、第1基準値も0.7であるので、事業特性ワードの「中古」「修理」および「高級」が選別される。図12の例では、第1基準値が0.6であるので、事業特性ワードの「品質」「大衆」および「新品」が加わる。
【0042】
図15は、業種リストのデータ構成図である。
利用フェーズにおいて検索クエリが入力されると、それに応じて業種リストが生成される。業種リストは、関連語句記憶部140に記憶される。業種リストは、各業種に対応付けて、その業種と検索クエリの語句との類似度を記憶している。業種リストは、類似度の降順にソートされている。
【0043】
図11の例では、第1基準値が0.7であるので、業種の「自動車販売業」「自動車整備業」および「自動車レンタル業」が選別される。図12の例では、第1基準値が0.6であるので、業種の「自動車製造業」「輸送業」および「住宅販売」が加わる。
【0044】
図16は、図11の状態で検索結果画面に含まれる企業情報ボックスの図である。
この例では、検索クエリの語句に類似する事業特性ワード「高級」の文字列が、事業特性ワード名と一致するので、この企業情報が検索結果として表示される。なお、「高級」の文字列が、事業内容センテンス、主業種名あるいは副業種名に含まれる場合にもヒットする。つまり、事業内容センテンス、主業種名あるいは副業種名も探索範囲とする。ただし、事業内容センテンス、主業種名あるいは副業種名を探索範囲としなくてもよい。
【0045】
図17は、図12の状態で検索結果画面に含まれる企業情報ボックスの図である。
この例では、検索クエリの語句に類似する業種「住宅販売業」の文字列が、主業種名と一致するので、この企業情報が検索結果として表示される。なお、「住宅販売業」の文字列が、事業内容センテンス、事業特性ワードあるいは主業種名に含まれる場合にもヒットする。つまり、事業内容センテンス、事業特性ワードあるいは副業種名も探索範囲とする。ただし、事業内容センテンス、事業特性ワードあるいは副業種名を探索範囲としなくてもよい。
【0046】
これらの画面例に基づく運用例を示す。たとえば、自動車保険の新しい契約候補者を見つけたいと考えた保険業者が、この検索システムを利用することを想定する。保険業者は、最初に検索クエリとして「自動車」を入力して、図10の検索結果を得る。図10に示した自動車販売業者は、新規な取引ルートにはなりがたい。自動車販売業者を介して自動車保険を勧めることは、従来から広く行われているからである。
【0047】
そこで、図11のようにスライダー302を操作して網羅性を高めて、再検索された図16の企業情報を得る。「レッドローズ」の企業情報は、「自動車」の文字列を含まないが、「自動車」と関連性が高い事業特性ワード「高級」を介して実質的に「自動車」と関連する。保険業者は、「レッドローズ」の事業内容を見て、「レッドローズ」が派遣するヘルパーが富裕層の顧客の高級車を運転している最中に事故を起こしたときの高額な賠償に備える可能性があると考える。そして、保険業者は、「レッドローズ」へ保険契約を提案できることに気が付く。
【0048】
次に、図12のようにスライダー302を操作してさらに網羅性を高めて、再検索された図17の企業情報を得る。「イエローレモン」の企業情報に「自動車」の文字列は含まれていないが、「自動車」と関連性が高い業務「住宅販売業」を介して実質的に「自動車」と関連がある。保険業者は、この事業内容を見て、駐車場付きの住宅を購入するのだから、入居者は必ず自動車を持っていると考える。また、地域の事情に詳しい業者を選ぶということは、入居者がその地域の交通事情に詳しくなく、知人も少ないと想像する。したがって、知らない地域で交通事故を起こして他の住人とトラブルになることが心配であるとすれば、保険に加入する動機になると気が付く。このようにして、どんどんビジネス拡大の糸口が見つかる。
【0049】
この例で、保険業者が「高級」や「住宅販売業」がビジネス拡大のキーとなるということに気がつくということは考え難い。しかし、本実施形態によれば、ありふれた「自動車」という単語から、目的の企業情報に出会えるようになる。
【0050】
人間による説明文は表記ゆれが多く、人手で付与されたタグ情報は網羅性が担保されないことが多いため、本実施形態によって検索をサポートすることで網羅性を補完することができる。以下、処理の詳細について説明する。
【0051】
図18は、サーバ100の機能ブロック図である。
サーバ100の各構成要素は、CPU(Central Processing Unit)および各種コプロセッサなどの演算器、メモリやストレージといった記憶装置、それらを連結する有線または無線の通信線を含むハードウェアと、記憶装置に格納され、演算器に処理命令を供給するソフトウェアによって実現される。コンピュータプログラムは、デバイスドライバ、オペレーティングシステム、それらの上位層に位置する各種アプリケーションプログラム、また、これらのプログラムに共通機能を提供するライブラリによって構成されてもよい。図示した各ブロックは、ハードウェア単位の構成ではなく、機能単位のブロックを示している。
【0052】
サーバ100は、データ格納部110、データ処理部150および通信部190を含む。通信部190は、ネットワークを介した通信処理を担当する。データ格納部110は各種データを格納する。データ処理部150は、通信部190により取得されたデータおよびデータ格納部110に格納されているデータに基づいて各種処理を実行する。データ処理部150は、通信部190およびデータ格納部110のインタフェースとしても機能する。
【0053】
通信部190は、データを送信する送信部180とデータを受信する受信部170を含む。
送信部180は、各種画面データを送信する画面データ送信部182を含む。受信部170は、検索クエリ受信部172およびスライダー値受信部174を含む。検索クエリ受信部172は、検索クエリを受信する。スライダー値受信部174は、スライダー値を受信する。
【0054】
データ処理部150は、モデル生成部152、企業ベクトル算出部154、事業特性ワードベクトル算出部156、業種ベクトル算出部158、画面データ生成部160および検索部162を含む。
モデル生成部152は、単語ベクトルを算出する分散表現モデル生成処理を実行する。企業ベクトル算出部154は、企業ベクトル算出処理を実行する。事業特性ワードベクトル算出部156は、事業特性ワードベクトル算出処理を実行する。業種ベクトル算出部158は、業種ベクトル算出処理を実行する。画面データ生成部160は、各種画面データを生成する。検索部162は、企業情報の検索を行う。
【0055】
データ格納部110は、企業データベース120、分散表現モデル格納部130および関連語句記憶部140を含む。
【0056】
図19は、データ格納部110の機能ブロック図である。
企業データベース120は、企業テーブル格納部122、事業特性ワードテーブル格納部124および業種テーブル格納部126を含む。企業テーブル格納部122は、企業テーブル(図2)を格納する。事業特性ワードテーブル格納部124は、事業特性ワードテーブル(図3)を格納する。業種テーブル格納部126は、業種テーブル(図4)を格納する。
【0057】
分散表現モデル格納部130は、単語テーブル格納部132、企業ベクトル記憶部134、事業特性ワードベクトル記憶部136および業種ベクトル記憶部138を含む。
単語テーブル格納部132は、単語テーブル(図5)を格納する。企業ベクトル記憶部134については、図6に関連して説明した。事業特性ワードベクトル記憶部136については、図7に関連して説明した。業種ベクトル記憶部138については、図8に関連して説明した。
【0058】
関連語句記憶部140は、類似語リスト記憶部142、事業特性ワードリスト記憶部144および業種リスト記憶部146を含む。
類似語リスト記憶部142は、類似語リスト(図13)を記憶する。事業特性ワードリスト記憶部144は、事業特性ワードリスト(図14)を記憶する。業種リスト記憶部146は、業種リスト(図15)を記憶する。
【0059】
図20は、準備フェーズ処理の過程を示すフローチャート図である。
まず、モデル生成部152は、分散表現モデル生成処理を実行する。(S20)。分散表現モデル生成処理では、分散表現モデルとして単語テーブル(図5)が生成される。分散表現モデル生成処理については、図21に関連して後述する。
【0060】
次に、企業ベクトル算出部154は、企業ベクトル算出処理を実行する。(S22)。企業ベクトル算出処理については、図22に関連して後述する。
【0061】
続いて、事業特性ワードベクトル算出部156は、事業特性ワードベクトル算出処理を実行する(S24)。事業特性ワードベクトル算出処理については、図23に関連して後述する。
【0062】
最後に、業種ベクトル算出部158は、業種ベクトル算出処理を実行する(S26)。業種ベクトル算出処理については、図24に関連して後述する。
【0063】
図21は、分散表現モデル生成処理の過程を示すフローチャート図である。
モデル生成部152は、企業テーブルからコーパスを生成する(S30)。コーパスとは、自然言語の文章を構造化した大規模データである。コーパスは、データ格納部110に保持される。具体的には、モデル生成部152は、各企業の事業内容センテンスから抽出される文ごとに、形態素解析を行って分かち書き形式に変換する。分かち書きとは、単語の間を余白で空けて区切る文字列である。分かち書き形式のデータが、コーパスとなる。
【0064】
モデル生成部152は、コーパスを用いて単語ベクトルを生成する(S32)。具体的には、モデル生成部152は、たとえばWord2vecの学習処理によって、コーパスに含まれる各単語に関する単語ベクトルを求める。生成された単語ベクトルは、単語テーブル格納部132に格納される。そして、S22の処理へ戻る
【0065】
図22は、企業ベクトル算出処理の過程を示すフローチャート図である。
企業ベクトル算出部154は、企業毎に以下の処理を繰り返す(S40)。企業ベクトル算出部154は、この企業の事業内容センテンスに含まれる各文の文ベクトルを算出する(S42)。文に含まれる単語の単語ベクトルから、文ベクトルが生成される。生成方法は、例えば平均化である。つまり、文ベクトルは、単語ベクトルの平均ベクトルである。
【0066】
企業ベクトル算出部154は、事業内容センテンスに含まれる各文の文ベクトルの平均を算出して、算出された平均ベクトルを企業ベクトルとする(S44)。企業ベクトル算出部154は、平均化以外の方法で、文ベクトルから企業ベクトルを生成してもよい。算出された企業ベクトルは、企業ベクトル記憶部134に記憶される。
【0067】
まだ処理していない企業が残っていれば(S46のN)、企業ベクトル算出部154は、S40の処理へ戻る。すべての企業について処理が終われば(S46のY)、S24の処理へ戻る。
【0068】
図23は、事業特性ワードベクトル算出処理の過程を示すフローチャート図である。
事業特性ワードベクトル算出部156は、事業特性ワード毎に以下の処理を繰り返す(S50)。事業特性ワードベクトル算出部156は、企業テーブルを参照して、この事業特性ワードが設定されている企業を選出する(S52)。
【0069】
事業特性ワードベクトル算出部156は、選出された企業ベクトルの平均ベクトルを算出して、算出された平均ベクトルを、この事業特性ワードの事業特性ワードベクトルとする(S54)。事業特性ワードベクトル算出部156は、平均化以外の方法で、企業ベクトルから事業特性ワードベクトルを生成してもよい。算出された事業特性ワードベクトルは、事業特性ワードベクトル記憶部136に記憶される。
【0070】
まだ処理していない事業特性ワードが残っていれば(S56のN)、事業特性ワードベクトル算出部156は、S50の処理に戻る。すべての事業特性ワードについて処理
が終われば(S56のY)、S26の処理に戻る。
【0071】
図24は、業種ベクトル算出処理の過程を示すフローチャート図である。
業種ベクトル算出部158は、業種毎に以下の処理を繰り返す(S60)。業種ベクトル算出部158は、企業テーブルを参照して、この業種が設定されている企業を選出する(S62)。
【0072】
業種ベクトル算出部158は、選出された企業ベクトルの平均ベクトルを算出して、算出された平均ベクトルを、この業種の業種ベクトルとする。業種ベクトル算出部158は、平均化以外の方法で、企業ベクトルから業種ベクトルを生成してもよい。算出された業種ベクトルは、業種ベクトル記憶部138に記憶される。
【0073】
まだ処理していない業種が残っていれば(S66のN)、業種ベクトル算出部158は、S60の処理に戻る。すべての業種について処理が終われば(S66のY)、準備フェーズ処理を終える。
【0074】
図25は、利用フェーズ処理の過程を示すフローチャート図である。
検索クエリ受信部172が、検索クエリの受付画面を表示しているユーザ端末200から検索クエリを受信した場合には(S70のY)、画面データ生成部160は、リスト生成処理を実行する(S72)。リスト生成処理では、類似語リスト(図13)、事業特性ワードリスト(図14)および業種リスト(図15)が生成される。リスト生成処理に関しては、図26に関連して後述する。
【0075】
次に、画面データ生成部160は、画面生成処理を実行する(S74)。画面生成処理では、検索クエリの受付画面に、類似語、事業特性ワードおよび業種が表示し直される。さらに企業情報の検索が行われて、検索結果の画面が表示される。画面生成処理に関しては、図27に関連して後述する。
【0076】
続いて、画面データ送信部182は、画面データ送信処理において、画面データをユーザ端末200へ送信する(S76)。そして、S70の処理に戻る。ユーザ端末200は、受信した画面データに基づいて、検索クエリの受付画面および検索結果の画面を表示する。
【0077】
スライダー値受信部174が、検索クエリの受付画面を表示しているユーザ端末200からスライダー値を受信した場合には(S78のY)、スライダー値に基づいて第1基準値、第2基準値および第3基準値を変更する。この例では、スライダー値をそのまま新たな第1基準値、新たな第2基準値および新たな第3基準値として用いる。
【0078】
第1基準値、第2基準値および第3基準値が変更されると、画面データ生成部160は、変更された第1基準値、第2基準値および第3基準値に基づいて、画面生成処理を実行する(S82)。さらに、画面データ送信部182は、画面データ送信処理において、生成し直した画面データを送信する(S84)。ユーザ端末200は、受信した画面データに基づいて、検索クエリの受付画面および検索結果の画面を表示する。そして、S70の処理に戻る。
【0079】
ユーザ端末200から終了指示を受け付ければ(S86のY)、利用フェーズ処理を終える。ユーザ端末200から終了指示を受け付けなければ、S70の処理へ戻る。
【0080】
図26は、リスト生成処理の過程を示すフローチャート図である。
画面データ生成部160は、全単語について検索クエリとの類似度を算出する(S90)。検索クエリが単語であれば、その単語の単語ベクトルを検索クエリの意味ベクトルとする。検索クエリが句であれば、その句に含まれる単語の単語ベクトルから検索クエリの意味ベクトルを生成する。生成の方法は、たとえば平均化である。そして、各単語の単語ベクトルと検索クエリの意味ベクトルの類似度を求める。画面データ生成部160は、たとえばコサイン類似度を計算する。以下の類似度についても同様である。
【0081】
画面データ生成部160は、類似度が高い順に単語をソートして、類似語リストを生成する(S92)。生成された類似語リストは、類似語リスト記憶部142に記憶される。
【0082】
画面データ生成部160は、全事業特性ワードについて検索クエリとの類似度を算出する(S94)。具体的には、画面データ生成部160は、各事業特性ワードの事業特性ワードベクトルと検索クエリの意味ベクトルの類似度を求める。
【0083】
画面データ生成部160は、類似度が高い順に事業特性ワードをソートして、事業特性ワードリストを生成する(S96)。生成された事業特性ワードリストは、事業特性ワードリスト記憶部144に記憶される。
【0084】
画面データ生成部160は、全業種について検索クエリとの類似度を算出する(S98)。具体的には、画面データ生成部160は、各業種の業種ベクトルと検索クエリの意味ベクトルの類似度を求める。
【0085】
画面データ生成部160は、類似度が高い順に業種をソートして、業種リストを生成する(S100)。生成された業種リストは、業種リスト記憶部146に記憶される。そして、S74の処理へ戻る。
【0086】
図27は、画面生成処理の過程を示すフローチャート図である。
画面データ生成部160は、第1基準値以上の類似度を有する類似語を、検索クエリの受付画面における類似語の表示領域304に配置する(S110)。画面データ生成部160は、第2基準値以上の類似度を有する事業特性ワードを、検索クエリの受付画面における事業特性ワードの領域306に配置する(S112)。さらに、画面データ生成部160は、第3基準値以上の類似度を有する業種を、検索クエリの受付画面における業種の領域308に配置する(S114)。
【0087】
画面データ生成部160は、これらの類似語、事業特性ワードおよび業種のOR条件で企業情報を検索する(S116)。たとえば、これらの類似語、事業特性ワードおよび業種を探索する文字列とする新たな検索クエリを生成して、この検索クエリをデータベース管理システム(DataBase Management System)に入力する。データベース管理システムは、各企業の企業情報(事業内容センテンス、事業特性ワード、主業種および副業種を表すテキストのセット)を比較対象として、該当する企業情報を選別する。データベース管理システムは、企業データベース120を管理し、企業データベース120に対する操作を行うソフトウェアである。
【0088】
画面データ生成部160は、ヒットした企業情報を表示する企業情報ボックスを検索結果の画面に配置する(S118)。そして、S70の処理へ戻る。
【0089】
[変形例]
検索クエリの受付画面に表示された類似語、事業特性ワードおよび業種のうち不要なものを削除できるようにしてもよい。ユーザ操作によって、不要な類似語、事業特性ワードまたは業種が指示されると、ユーザ端末200から類似語、事業特性ワードまたは業種の削除要求がサーバ100へ送信される。サーバ100の要求受信部(不図示)が削除要求を受信すると、削除部(不図示)は、類似語リスト、事業特性ワードリストまたは業種リストから不要な類似語、事業特性ワードまたは業種を消去する。そして、サーバ100は、改めてリスト生成処理、画面生成処理および画面データ送信処理を行う。
【0090】
検索クエリの受付と連動して、自動的に企業情報の検索が行われる例を示したが、ユーザ操作による検索実行の指示を受け付けてから企業情報の検索が行われるようにしてもよい。
【0091】
画面データ生成部160は、検索クエリの受付画面において、類似語の隣に検索クエリと類似語との類似度を配置してもよい。画面データ生成部160は、検索クエリの受付画面において、事業特性ワードの隣に検索クエリと事業特性ワードとの類似度を配置してもよい。画面データ生成部160は、検索クエリの受付画面において、業種の隣に検索クエリと業種との類似度を配置してもよい。
【0092】
検索クエリの受付画面および検索結果の画面が並べて表示される例を示したが、検索クエリの受付画面と検索結果の画面が切り替わって表示されてもよい。
【0093】
サーバ100は、スライダー値を変換して、第1基準値、第2基準値および第3基準値を求めるようにしてもよい。また、第1基準値、第2基準値および第3基準値は、異なる値であってもよい。たとえば、画面データ生成部160は、スライダー値と相関するように第1基準値、第2基準値および第3基準値を算出する。画面データ生成部160は、スライダー値に第1係数を乗じて、第1基準値を求めてもよい。画面データ生成部160は、スライダー値に第2係数を乗じて、第2基準値を求めてもよい。画面データ生成部160は、スライダー値に第3係数を乗じて、第3基準値を求めてもよい。
【0094】
ベクトルの平均化において、例えばTF-IDF(Term Frequency-Inverse Document Frequency)のような評価指標を用いて、元となる単語ベクトル毎、句ベクトル毎あるいは文ベクトル毎などに重みづけを行ってもよい。
【0095】
企業情報を検索する例を示したが、他の種類の情報を検索するようにしてもよい。たとえば、電子商取引のサイトにおいて商品情報を検索する場合に、商品紹介センテンスに付随する商品分類のタグや商品特性のタグについて、商品分類ベクトルや商品特性ベクトルを算出してもよい。そして、検索クエリに類似する商品分類ベクトルや商品特性ベクトルを使って検索条件を補足するようにしてもよい。
【0096】
たとえば、特許文献閲覧のサイトにおいて特許文献を検索する場合に、特許文献に付随する特許分類のタグについて、特許分類ベクトルを算出してもよい。そして、検索クエリに類似する特許分類ベクトルを使って検索条件を補足するようにしてもよい。
【0097】
たとえば、SNS(Social Networking Service)の投稿サイトにおいて投稿記事を検索する場合に、投稿記事に付随するハッシュタグのような記事分類タグについて、記事分類ベクトルを算出してもよい。そして、検索クエリに類似する記事分類ベクトルを使って検索条件を補足するようにしてもよい。
【0098】
なお、本発明は上記実施形態や変形例に限定されるものではなく、要旨を逸脱しない範囲で構成要素を変形して具体化することができる。上記実施形態や変形例に開示されている複数の構成要素を適宜組み合わせることにより種々の発明を形成してもよい。また、上記実施形態や変形例に示される全構成要素からいくつかの構成要素を削除してもよい。
【符号の説明】
【0099】
100 サーバ、110 データ格納部、120 企業データベース、122 企業テーブル格納部、124 事業特性ワードテーブル格納部、126 業種テーブル格納部、130 分散表現モデル格納部、132 単語テーブル格納部、134 企業ベクトル記憶部、136 事業特性ワードベクトル記憶部、138 業種ベクトル記憶部、140 関連語句記憶部、142 類似語リスト記憶部、144 事業特性ワードリスト記憶部、146 業種リスト記憶部、150 データ処理部、152 モデル生成部、154 企業ベクトル算出部、156 事業特性ワードベクトル算出部、158 業種ベクトル算出部、160 画面データ生成部、162 検索部、170 受信部、172 検索クエリ受信部、174 スライダー値受信部、180 送信部、182 画面データ送信部、190 通信部、200 ユーザ端末、300 入力領域、302 スライダー、304 表示領域、306 表示領域、308 表示領域、320 企業情報ボックス、324 表示領域、326 表示領域、328 表示領域、330 表示領域
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25
図26
図27