(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-22
(45)【発行日】2024-12-02
(54)【発明の名称】固有表現分類装置、及び固有表現分類方法
(51)【国際特許分類】
G06F 40/279 20200101AFI20241125BHJP
G06F 40/216 20200101ALI20241125BHJP
【FI】
G06F40/279
G06F40/216
(21)【出願番号】P 2020112732
(22)【出願日】2020-06-30
【審査請求日】2023-01-23
(73)【特許権者】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110000176
【氏名又は名称】弁理士法人一色国際特許事務所
(72)【発明者】
【氏名】加藤 大羽
(72)【発明者】
【氏名】田中 美智子
【審査官】成瀬 博之
(56)【参考文献】
【文献】特開2010-128774(JP,A)
【文献】特開2018-010532(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/20-40/58
G06F 16/00-16/958
G06N 3/00-99/00
(57)【特許請求の範囲】
【請求項1】
プロセッサと記憶装置を有する情報処理装置を用いて構成され、
固有表現の分類先となるカテゴリ毎に、固有表現をカテゴリに分類する際に用いる特徴量と固有表現のカテゴリへの適合性を示す確率であるカテゴリ確率の算出に用いる前記特徴量の重みとを対応づけた情報である推論モデルパラメータにより、文書情報から抽出した固有表現を分類した情報であり固有表現の分類先のカテゴリへの前記カテゴリ確率を含む情報である推論結果表を機械学習モデルである推論モデルを用いて生成する推論部と、
前記推論結果表において固有表現が正しくカテゴリに分類されているか否かの
判定結果を示す情報である正誤情報の入力をユーザから受け付け、受け付けた前記情報を含む正誤判定表を生成する
正誤判定部と、
前記推論モデルパラメータと前記正誤判定表とに基づき、前記判定結果毎に、文書情報から抽出される、固有表現のカテゴリへの分類に用いる特徴量と、前記特徴量の重みとを対応づけた情報である判定結果別特徴量表を生成するとともに、前記判定結果別特徴量表に基づき、カテゴリ毎に、前記特徴量と
、前記特徴量の重みと
、ユーザが固有表現のカテゴリへの分類が正しいと判定した前記特徴量の出現回数と
、ユーザが固有表現のカテゴリへの分類が正しくないと判定した前記特徴量の出現回数と
、を対応付けた情報である特徴量分析表を生成する
特徴量分析部と、
前記特徴量分析表に基づき、前記推論モデルパラメータの前記特徴量の重みを修正した修正推論モデルパラメータを生成するモデル修正部と、
を備える、固有表現分類装置。
【請求項2】
請求項1に記載の固有表現分類装置であって、
前記モデル修正部は、ユーザがカテゴリへの分類が正しいと判定した前記特徴量の重みについては高くなるように、ユーザがカテゴリへの分類が正しくないと判定した前記特徴量の重みについては低くなるように、前記推論モデルパラメータを修正して前記修正推論モデルパラメータを生成する、
固有表現分類装置。
【請求項3】
請求項1に記載の固有表現分類装置であって、
前記正誤判定部は、前記カテゴリ確率が0.45~0.55の範囲の固有表現を優先してユーザに提示しつつ前記正誤情報の入力を受け付ける、
固有表現分類装置。
【請求項4】
請求項1に記載の固有表現分類装置であって、
前記修正推論モデルパラメータは、修正の前後における前記特徴量の重みを示す情報を含み、
前記正誤判定部は、
既に前記特徴量の重みの変更を行っており、重みの変更を行った前記特徴量の数が予め設定した数を超えていない場合は、重みの変更が行われていない前記特徴量の数が多い固有表現を優先してユーザに提示しつつ前記正誤情報の入力を受け付け、
既に前記特徴量の重みの変更を行っており、重みの変更を行った前記特徴量の数が予め設定した数を超えている場合は、重みを変更したことによる前記カテゴリ確率の変化量の大きい固有表現を優先してユーザに提示しつつ前記正誤情報の入力を受け付ける、
固有表現分類装置。
【請求項5】
請求項1に記載の固有表現分類装置であって、
前記正誤判定部は、表示する固有表現の数の設定をユーザから受け付け、受け付けた数の固有表現をユーザに提示しつつ前記正誤情報の入力を受け付ける、
固有表現分類装置。
【請求項6】
請求項1に記載の固有表現分類装置であって、
前記モデル修正部は、前記正誤判定表に基づき、ユーザがカテゴリへの分類が正しいと判定した固有表現の数とユーザがカテゴリへの分類が正しくないと判定した固有表現との差が所定値を超えているか否かを判定し、前記差が前記所定値を超えている場合、他の固有表現についての前記正誤情報の入力をユーザに要求する、
固有表現分類装置。
【請求項7】
請求項1に記載の固有表現分類装置であって、
前記モデル修正部は、前記正誤判定表に基づき、前記カテゴリへの分類が正しいとされた固有表現の数が予め設定された数を超えていないか、もしくは、前記分類が正しくないとされた固有表現の数が予め設定された数を超えていないかを判定し、前記カテゴリへの分類が正しいとされた固有表現の数が予め設定された数を超えていないか、もしくは、前記分類が正しくないとされた固有表現の数が予め設定された数を超えていない場合、他の固有表現についての前記正誤情報の入力をユーザに要求する、
固有表現分類装置。
【請求項8】
請求項1に記載の固有表現分類装置であって、
前記モデル修正部は、前記修正推論モデルパラメータに基づき、前記特徴量の重みの修正前後における複数の固有表現の前記カテゴリ確率の確率分布を求め、求めた確率分布において固有表現の種類数が最も疎になるカテゴリ確率である閾値を特定できるか否かを判定し、
前記正誤判定部は、前記モデル修正部が前記閾値を特定できないと判定した場合、他の固有表現についての前記正誤情報の入力をユーザに要求する、
固有表現分類装置。
【請求項9】
請求項8に記載の固有表現分類装置であって、
前記正誤判定部は、前記重みの修正の前後における前記確率分布を示すグラフと、特定した前記閾値を記載した画面を生成してユーザに提示する、
固有表現分類装置。
【請求項10】
請求項1に記載の固有表現分類装置であって、
複数の固有表現と夫々の分類先のカテゴリとを対応づけた情報を含んだ辞書を生成する辞書生成部を含む、
固有表現分類装置。
【請求項11】
プロセッサと記憶装置を有する情報処理装置が、
固有表現の分類先となるカテゴリ毎に、固有表現をカテゴリに分類する際に用いる特徴量と固有表現のカテゴリへの適合性を示す確率であるカテゴリ確率の算出に用いる前記特徴量の重みとを対応づけた情報である推論モデルパラメータにより、文書情報から抽出した固有表現を分類した情報であり固有表現の分類先のカテゴリへの前記カテゴリ確率を含む情報である推論結果表を機械学習モデルである推論モデルを用いて生成するステップ、
前記推論結果表において固有表現が正しくカテゴリに分類されているか否かの
判定結果を示す情報である正誤情報の入力をユーザから受け付け、受け付けた前記情報を含む正誤判定表を生成する
ステップと、
前記推論モデルパラメータと前記正誤判定表とに基づき、前記判定結果毎に、文書情報から抽出される、固有表現のカテゴリへの分類に用いる特徴量と、前記特徴量の重みとを対応づけた情報である判定結果別特徴量表を生成するとともに、前記判定結果別特徴量表に基づき、カテゴリ毎に、前記特徴量と
、前記特徴量の重みと
、ユーザが固有表現のカテゴリへの分類が正しいと判定した前記特徴量の出現回数と
、ユーザが固有表現のカテゴリへの分類が正しくないと判定した前記特徴量の出現回数と
、を対応付けた情報である特徴量分析表を生成するステップ、及び、
前記特徴量分析表に基づき、前記推論モデルパラメータの前記特徴量の重みを修正した修正推論モデルパラメータを生成するステップ、
を実行する、固有表現分類方法。
【請求項12】
請求項11に記載の固有表現分類方法であって、
前記情報処理装置が、ユーザがカテゴリへの分類が正しいと判定した前記特徴量の重みについては高くなるように、ユーザがカテゴリへの分類が正しくないと判定した前記特徴量の重みについては低くなるように、前記推論モデルパラメータを修正して前記修正推論モデルパラメータを生成するステップを更に実行する、
固有表現分類方法。
【請求項13】
請求項11に記載の固有表現分類方法であって、
前記情報処理装置が、前記カテゴリ確率が0.45~0.55の範囲の固有表現を優先してユーザに提示しつつ前記正誤情報の入力を受け付けるステップを更に実行する、
固有表現分類方法。
【請求項14】
請求項11に記載の固有表現分類方法であって、
前記修正推論モデルパラメータは、修正の前後における前記特徴量の重みを示す情報を含み、
前記情報処理装置が、
既に前記特徴量の重みの変更を行っており、重みの変更を行った前記特徴量の数が予め設定した数を超えていない場合は、重みの変更が行われていない前記特徴量の数が多い固有表現を優先してユーザに提示しつつ前記正誤情報の入力を受け付けるステップ、及び、
既に前記特徴量の重みの変更を行っており、重みの変更を行った前記特徴量の数が予め設定した数を超えている場合は、重みを変更したことによる前記カテゴリ確率の変化量の大きい固有表現を優先してユーザに提示しつつ前記正誤情報の入力を受け付けるステップ、
を更に実行する、固有表現分類方法。
【請求項15】
請求項11に記載の固有表現分類方法であって、
前記情報処理装置が、前記正誤判定表に基づき、ユーザがカテゴリへの分類が正しいと判定した固有表現の数とユーザがカテゴリへの分類が正しくないと判定した固有表現との差が所定値を超えているか否かを判定し、前記差が前記所定値を超えている場合、他の固有表現についての前記正誤情報の入力をユーザに要求するステップを更に実行する、
固有表現分類方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、固有表現分類装置、及び固有表現分類方法に関する。
【背景技術】
【0002】
特許文献1には、固有表現のカテゴリが、詳細なカテゴリ分類であっても、ラベル付きの固有表現を精度よく抽出することができるようにすることを目的として構成された固有表現分類装置について記載されている。固有表現分類装置は、形態素解析済みの入力文書に基づき、入力文書中の各単語について、単語内の情報に関する特徴、及び単語の周辺の文脈に関する特徴を示す素性を算出し、素性に基づき、単語が、固有物を表す表現である固有表現のカテゴリを示すラベルが付与された固有表現であるか否かを識別するための予め学習された識別モデルと、各単語の素性とに基づき、入力文書中の各単語が、ラベルが付与された固有表現であるか否かを識別し、入力文書から、上記ラベルが付与された固有表現を抽出する。
【0003】
特許文献2には、データ中からユーザが望む情報を抽出する際に用いる抽出規則の作成に用いる素性(手がかり語など)として、適切な素性を抽出することを目的として構成された情報抽出装置について記載されている。情報抽出装置は、情報付与の対象となる対象情報と作業者の対象情報に対する処理結果とをそれぞれ含む複数の第1教師情報から、同一の対象情報かつ異なる処理結果を含む複数の第2教師情報を抽出し、複数の第2教師情報の差分から、異なる処理結果に至る手がかりとなる情報を抽出する。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2013-246795号公報
【文献】特開2017-58816号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
昨今、企業や組織等の社会の随所において蓄積される文書情報の増大に伴い、文書情報から機械学習モデル(以下、「推論モデル」と称する。)を用いて固有表現を抽出し、抽出した固有表現をカテゴリに分類して辞書等として活用することについての需要が高まっている。
【0006】
ここで文書情報から抽出される固有表現を適切なカテゴリに分類するには、推論モデルの推論精度を向上させる必要がある。通常、固有表現の分類を行う推論モデルの学習は、固有表現の分野に精通した者(SME:Subject Matter Expert)が分類結果について正誤判定を行い、一方でデータ分析の専門知識を有する者(DS:Data Scientist)が、正誤判定の結果に影響を与えた特徴量(推論モデルで用いる特徴量)を特定して推論モデルを再構築する。つまり推論モデルの推論精度を向上するには、SMEによる手作業とDSによる作業の双方の作業が必須であり、作業負荷が大きいことが課題となっている。また、カテゴリに分類された固有表現を辞書等として活用しようとする現場(ドメイン)では、DSに頼らずともSMEが単独で精度よく固有表現の分類を行える仕組みの提供が望まれている。尚、上記の特許文献1及び特許文献2に記載された技術は、いずれもSMEによる手作業とDSによる作業の双方の作業が必須である。
【0007】
本発明の目的は、このような背景に鑑みてなされたものであり、固有表現のカテゴリへの分類を効率よく高い精度で行うことが可能な、固有表現分類装置、及び固有表現分類法を提供することを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するための本発明の一つは、固有表現分類装置であって、プロセッサと記憶装置を有する情報処理装置を用いて構成され、固有表現の分類先となるカテゴリ毎に、固有表現をカテゴリに分類する際に用いる特徴量と固有表現のカテゴリへの適合性を示す確率であるカテゴリ確率の算出に用いる前記特徴量の重みとを対応づけた情報である推論モデルパラメータにより、文書情報から抽出した固有表現を分類した情報であり固有表現の分類先のカテゴリへの前記カテゴリ確率を含む情報である推論結果表を機械学習モデルである推論モデルを用いて生成する推論部と、前記推論結果表において固有表現が正しくカテゴリに分類されているか否かの判定結果を示す情報である正誤情報の入力をユーザから受け付け、受け付けた前記情報を含む正誤判定表を生成する正誤判定部と、前記推論モデルパラメータと前記正誤判定表とに基づき、前記判定結果毎に、文書情報から抽出される、固有表現のカテゴリへの分類に用いる特徴量と、前記特徴量の重みとを対応づけた情報である判定結果別特徴量表を生成するとともに、前記判定結果別特徴量表に基づき、カテゴリ毎に、前記特徴量と、前記特徴量の重みと、ユーザが固有表現のカテゴリへの分類が正しいと判定した前記特徴量の出現回数と、ユーザが固有表現のカテゴリへの分類が正しくないと判定した前記特徴量の出現回数と、を対応付けた情報である特徴量分析表を生成する特徴量分析部と、前記特徴量分析表に基づき、前記推論モデルパラメータの前記特徴量の重みを修正した修正推論モデルパラメータを生成するモデル修正部と、を備える。
【0009】
その他、本願が開示する課題、及びその解決方法は、発明を実施するための形態の欄、及び図面により明らかにされる。
【発明の効果】
【0010】
本発明によれば、固有表現のカテゴリへの分類を効率よく高い精度で行うことができる。
【図面の簡単な説明】
【0011】
【
図1】固有表現分類装置が備える主な機能を示す図である。
【
図2】固有表現分類装置の実現に用いる情報処理装置のハードウェアの例である。
【
図11】固有表現辞書生成処理を説明するフローチャートである。
【
図12】優先順位付与処理を説明するフローチャートである。
【
図13】特徴量修正処理を説明するフローチャートである。
【
図14】検証処理を説明するフローチャートである。
【
図15】固有表現辞書生成処理を説明する模式図である。
【発明を実施するための形態】
【0012】
以下、図面を参照にしつつ、本発明の実施形態について説明する。尚、以下の記載および図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。また、本発明は、他の種々の形態でも実施する事が可能である。とくに限定しない限り、各構成要素は単数でも複数でも構わない。
【0013】
以下の説明において、符号の前に付した「S」の文字は処理ステップの意味である。また、以下の説明では「表」、「情報」という表現にて各種情報(データ)を説明するが、各種情報は、これら以外のデータ構造で表現されていてもよい。また、識別情報について説明する際、「識別子」、「ID」等の表現を適宜用いるが、これらについてはお互いに置換可能である。
【0014】
また、以下の説明において、「文書」と記載した場合、文書をテキストデータ等の所定の形式で電子化したデータを意味する。また、以下の説明において、「単語」と記載した場合、情報処理装置によって抽出された固有表現を意味する。また、以下の説明において、固有表現とは、人名や地名など、特定の物事を指す単語の総称である。例えば、「技術者」や「東京都」は、夫々「人」、「場所」についての固有表現である。また、この場合における固有表現の分類先である「人」や「場所」のことを「カテゴリ」と称する。
【0015】
図1に本発明の一実施形態として説明する情報処理装置である固有表現分類装置1が備える主な機能を示している。固有表現分類装置1は、文書情報から抽出される固有表現を予め設定されたカテゴリに分類する際にユーザ(固有表現の分野に精通した者(SME:Subject Matter Expert)等)が行う作業を支援し、固有表現を効率よく適切にカテゴリに分類できるようにする。尚、固有表現分類装置1を用いて固有表現をカテゴリに分類する作業が行われる場合、原則としてデータ分析の専門知識を有する者(DS:Data Scientist)による作業は必要とされない。
【0016】
同図に示すように、固有表現分類装置1は、記憶部110、情報抽出部120、正誤判定部130、モデル修正部140、及び辞書生成部150の各機能を備える。
【0017】
記憶部110は、文書情報111、固有表現情報112、正誤判定情報113、及び固有表現情報(修正)114、の各情報(データ)を記憶する。記憶部110は、例えば、DBMS(DataBase Management System)が提供するデータベースのテーブルや、ファイルシステムが提供するファイルとして、これらの情報(データ)を記憶する。
【0018】
文書情報111は、固有表現の抽出元となる複数の文書を含む。文書情報111の内容は必ずしも限定されず、例えば、文書情報111は、ユーザが入力したものでもよいし、インターネット等の通信ネットワークを介して取得される情報でもよい。
【0019】
固有表現情報112は、情報抽出部120によって抽出された固有表現、及び当該固有表現をカテゴリに分類する際に用いる特徴量に関する情報であり、推論モデルパラメータ1121、及び推論結果表1122を含む。
【0020】
正誤判定情報113は、固有表現の分類先のカテゴリが正しいか否かの判定(以下、「正誤判定」と称する。)の結果に関する情報(以下、「正誤情報」と称する。)であり、正誤判定表1131、判定結果別特徴量表1132、及び特徴量分析表1133を含む。
【0021】
固有表現情報(修正)114は、固有表現情報112を、正誤判定情報113に基づき修正した結果に関する情報であり、修正推論モデルパラメータ1141、及び固有表現辞書1142を含む。
【0022】
同図に示す情報抽出部120は、固有表現&特徴量抽出部121、学習部122、及び推論部123の各機能を含む。固有表現&特徴量抽出部121は、文書情報111の文書に形態素解析を実行して固有表現及び特徴量を抽出し、抽出した固有表現をカテゴリに分類する。学習部122は、推論部123を実現する、上記特徴量を用いた機械学習モデルである推論モデルの学習を行い、推論モデルパラメータ1121を生成する。推論部123は、上記推論モデルにより、固有表現&特徴量抽出部121によって抽出された固有表現をカテゴリに分類して推論結果表1122を生成する。
【0023】
正誤判定部130は、判定対象選択部131、及び特徴量分析部132を含む。判定対象選択部131は、固有表現&特徴量抽出部121によって抽出された固有表現の中から、ユーザに正誤情報の入力を受け付ける対象となる固有表現を選択する。特徴量分析部132は、固有表現についてユーザが入力した正誤情報に基づき、正誤判定情報113を生成する。
【0024】
モデル修正部140は、特徴量修正部141、及び検証処理部142を含む。特徴量修正部141は、正誤判定情報113に基づき特徴量の重みを修正する。検証処理部142は、特徴量の重みを修正した後における、固有表現の分類先のカテゴリへの適合性を示す確率(以下、「カテゴリ確率」とも称する。)の分布を生成し、生成した分布に基づき、各固有表現を固有表現辞書1142に採用するか否かの判定に用いる閾値を決定可能か否かを検証する。
【0025】
辞書生成部150は、固有表現情報(修正)114を生成する。辞書生成部150は、モデル修正部140が、特徴量の重みを修正してカテゴリ確率を変化させた後、各固有表現のカテゴリ確率を後述する閾値と対照して固有表現辞書1142に登録する固有表現を選択し、選択した固有表現を固有表現辞書に登録する。
【0026】
図2に、固有表現分類装置1の実現に用いる情報処理装置のハードウェアの一例を示す。例示する情報処理装置10は、プロセッサ11、主記憶装置12、補助記憶装置13、入力装置14、出力装置15、及び通信装置16を備える。尚、情報処理装置10は、その全部または一部が、例えば、クラウドシステムによって提供される仮想サーバのように、仮想化技術やプロセス空間分離技術等を用いて提供される仮想的な情報処理資源を用いて実現されるものであってもよい。また、情報処理装置10によって提供される機能の全部または一部を、例えば、クラウドシステムがAPI(Application Programming Interface)等を介して提供するサービスによって実現してもよい。また、固有表現分類装置
1は、通信可能に接続された複数の情報処理装置10を用いて構成してもよい。
【0027】
同図において、プロセッサ11は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)、AI(Artificial Intelligence)チップ等を用いて構成されている。
【0028】
主記憶装置12は、プログラムやデータを記憶する装置であり、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、不揮発性メモリ(NVRAM(Non Volatile RAM))等である。
【0029】
補助記憶装置13は、例えば、ハードディスクドライブ、SSD(Solid State Drive
)、光学式記憶装置(CD(Compact Disc)、DVD(Digital Versatile Disc)等)、ストレージシステム、ICカード、SDカードや光学式記録媒体等の記録媒体の読取/書込装置、クラウドサーバの記憶領域等である。補助記憶装置13には、記録媒体の読取装置や通信装置16を介してプログラムやデータを読み込むことができる。補助記憶装置13に格納(記憶)されているプログラムやデータは主記憶装置12に随時読み込まれる。
【0030】
入力装置14は、外部からの入力を受け付けるインタフェースであり、例えば、キーボード、マウス、タッチパネル、カードリーダ、ペン入力方式のタブレット、音声入力装置等である。
【0031】
出力装置15は、処理経過や処理結果等の各種情報を出力するインタフェースである。出力装置15は、例えば、上記の各種情報を可視化する表示装置(液晶モニタ、LCD(Liquid Crystal Display)、グラフィックカード等)、上記の各種情報を音声化する装置(音声出力装置(スピーカ等))、上記の各種情報を文字化する装置(印字装置等)である。尚、例えば、情報処理装置10が通信装置16を介して他の装置との間で情報の入力や出力を行う構成としてもよい。
【0032】
尚、入力装置14及び出力装置15は、ユーザとの間で情報の受け付けや情報の提示を
行うユーザインタフェースを構成する。
【0033】
通信装置16は、他の装置との間の通信を実現する装置である。通信装置16は、通信ネットワーク(インターネット、LAN(Local Area Network)、WAN(Wide Area Network)、専用線、公衆通信網棟)を介した他の装置との間の通信を実現する、有線方式
または無線方式の通信インタフェースであり、例えば、NIC(Network Interface Card)、無線通信モジュール、USBモジュール等である。
【0034】
情報処理装置10には、例えば、オペレーティングシステム、ファイルシステム、DBMS(DataBase Management System)(リレーショナルデータベース、NoSQL等)、KVS(Key-Value Store)等が導入されていてもよい。
【0035】
固有表現分類装置1が備える前述した機能は、プロセッサ11が、主記憶装置12に格納されているプログラムを読み出して実行することにより、もしくは、これらの装置を構成するハードウェア(FPGA、ASIC、AIチップ等)によって実現される。固有表現分類装置1は、前述した各種の情報(データ)を、例えば、データベースのテーブルやファイルシステムが管理するファイルとして記憶する。
【0036】
続いて、固有表現分類装置1が管理(記憶)する各種の情報について説明する。
【0037】
図3は文書情報111の例である。例示する文書情報111は企業の情報処理システムに蓄積された社内文書である。情報抽出部120は、文書情報111a及び文書情報111bから、例えば、「自動車」、「販売店」、「販売員」、「従業員」、「組織」、「生産性」、「オフィス」、「レイアウト」等の固有表現と、夫々をカテゴリに分類する際に用いる特徴量(例えば、
図7を参照)を抽出する。
【0038】
図4に推論モデルパラメータ1121の一例を示す。推論モデルパラメータ1121は、固有表現の分類先となるカテゴリ毎に、当該固有表現を当該カテゴリに分類する際に用いる特徴量1211と、当該固有表現のカテゴリ確率の算出に用いる重み11212とを対応づけた一つ以上の情報(エントリ(レコード))を含む。
【0039】
図5に推論結果表1122の一例を示す。推論結果表1122は、固有表現の分類先となるカテゴリ毎に、固有表現11221と、当該固有表現の当該カテゴリへの適合性を示すカテゴリ確率11212とを対応づけた一つ以上の情報(エントリ(レコード))を含む。
【0040】
図6に正誤判定表1131の一例を示す。正誤判定表1131は、正誤判定部130が、推論結果表1122の各固有表現について正誤判定をユーザに要求し、ユーザから正誤情報を受け付けることにより生成する。正誤判定表1131には、カテゴリ毎に、各固有表現の正誤情報が管理される。例示する正誤判定表1131の場合、カテゴリに正しく分類されていると判定された固有表現については「T」欄11311に、カテゴリに正しく分類されていないと判定された固有表現については「F」欄11312に、夫々設定される。
【0041】
図7に判定結果別特徴量表1132の一例を示す。判定結果別特徴量表1132は、特徴量分析部132が、固有表現情報112と正誤判定表1131とに基づき生成する。判定結果別特徴量表1132は、正誤判定表1131において、カテゴリ毎、固有表現の正誤判定の結果毎に、固有表現が文書情報111のいずれの文書に記載されているかを示す情報(文書の識別子)である文書ID11322と、当該文書から抽出される、当該固有表現のカテゴリへの分類に用いる特徴量11323と、当該特徴量の重み111324と
を対応づけた一つ以上の情報(エントリ(レコード))を含む。
【0042】
図8に特徴量分析表1133の一例を示す。特徴量分析表1133は、特徴量分析部132が、判定結果別特徴量表1132に基づき生成する。特徴量分析表1133は、カテゴリ毎に、特徴量11331と、当該特徴量の重み11332と、当該特徴量の出現回数11333(カテゴリへの分類が「T」と判定された場合)と、当該特徴量の出現回数11334(カテゴリへの分類が「F」と判定された場合)とを対応づけた一つ以上の情報(エントリ(レコード))を含む。
【0043】
図9は、修正推論モデルパラメータ1141の一例である。修正推論モデルパラメータ1141は、モデル修正部140が生成する。修正推論モデルパラメータ1141は、カテゴリ毎に、特徴量11411と、当該特徴量の修正前の重みである重み(修正前)11412と、当該特徴量の修正後の重み(修正後)11413とを対応づけた一つ以上の情報(エントリ(レコード))を含む。
【0044】
図10は、固有表現辞書1142の一例である。固有表現辞書1142は、辞書生成部150が修正推論モデルパラメータ1141に基づき生成する。固有表現辞書1142は、カテゴリ毎に、当該カテゴリに分類される固有表現11421と、特徴量の重みの変更の前後におけるカテゴリ確率11422と、当該固有表現を固有表現辞書として登録するか否かの判定結果11423とを対応づけた一つ以上の情報(エントリ(レコード))を含む。
【0045】
続いて、固有表現分類装置1を用いて行われる処理について説明する。尚、以下の処理の開始時において、固有表現情報112については、情報抽出部120が文書情報111に基づき既に生成されているものとする。また、以下に説明する処理は、いずれもカテゴリ毎に行われるものとする。
【0046】
図11は、固有表現分類装置1が、固有表現を評価し固有表現辞書を生成する際に行う処理(以下、「固有表現辞書生成処理S1100」と称する。)を説明するフローチャートである。固有表現辞書生成処理S1100は、例えば、固有表現分類装置1が、ユーザから評価処理の実行要求を受け付けることにより開始される。以下、同図とともに固有表現辞書生成処理S1100について説明する。
【0047】
まず正誤判定部130が、固有表現情報112として管理されている各固有表現について、ユーザに正誤情報の入力を要求する際の優先順位を付与する処理(以下、「優先順位付与処理S1110」と称する。)を行う。優先順位付与処理S1110の詳細については後述する。
【0048】
続いて、正誤判定部130が、優先順位付与処理S1110で付与された優先順位に従い未選択の固有表現を所定数選択し、選択した固有表現を提示しつつ当該固有表現についてユーザから正誤情報の入力を受け付ける(S1111)。
【0049】
続いて、正誤判定部130が、受け付けた正誤情報の内容を正誤判定情報113に反映し、特徴量修正部141が正誤判定情報113に基づき特徴量を修正する処理(以下、「特徴量修正処理S1112」と称する。)を行う。特徴量修正処理S1112の詳細については後述する。
【0050】
続いて、正誤判定部130は、特徴量修正処理S1112の戻り値に「正誤情報の追加要」が設定されているか否かを判定する(S1113)。正誤判定部130が、戻り値に「正誤情報の追加要」が設定されていないと判定した場合(S1113:YES)、S1114の処理(以下、「検証処理S1114」と称する。)に進む。一方、正誤判定部130が、戻り値に「正誤情報の追加要」が設定されていると判定した場合(S1113:NO)、処理はS1111に戻る。
【0051】
検証処理S1114では、モデル修正部140が、特徴量の重みを修正した後のカテゴリ確率の確率分布を生成し、生成した確率分布に基づき、固有表現を固有表現辞書1142に採用するか否かの判定に用いる閾値を決定可能か否かを検証する。検証処理S1114の詳細については後述する。
【0052】
続いて、モデル修正部140は、検証処理S1114の戻り値に基づき、固有表現情報(修正)114の生成が可能か否かを判定する(S1115)。検証処理S1114の戻り値が「固有表現辞書の生成可能」である場合(S1115:YES)は、処理はS1116に進む。固有表現分類装置1の戻り値が「正誤情報の追加要」である場合(S1115:NO)、処理はS1111に戻る。
【0053】
S1116では、辞書生成部150が、固有表現情報112として管理されている固有表現のうち、カテゴリ確率が検証処理S1114の戻り値に含まれている閾値以上の固有表現を選択して固有表現辞書1142を生成する。以上で固有表現辞書生成処理S1100は終了する。
【0054】
図12は、判定対象選択部131が行う、
図11に示した優先順位付与処理S1110の詳細を説明するフローチャートである。以下、同図とともに優先順位付与処理S1110について説明する。
【0055】
まず正誤判定部130は、特徴量修正処理S1112が未実行であるか否かを判定する(S1211)。正誤判定部130が特徴量修正処理S1112が未実行であると判定した場合(S1211:YES)、処理はS1212に進む。一方、正誤判定部130が特徴量修正処理S1112が既に実行されていると判定した場合(S1211:NO)、処理はS1213に進む。
【0056】
S1212では、正誤判定部130は、カテゴリ確率、及び出現頻度に基づき、固有表現情報112として管理されている各固有表現に前述の優先順位を付与する。具体的には、正誤判定部130は、カテゴリ確率が「0.45~0.55」の範囲(正誤が微妙な範囲)の固有表現を選出し、選出した固有表現について出現頻度が高い順に優先順位を決定する。このように特徴量修正処理S1112が未実行である場合、正誤判定部130は、正誤の判定が微妙な範囲の固有表現を選択し、選択した固有表現について出現頻度が高い順に優先順位を付与するので、推論モデルの推論精度への影響が大きい可能性の高い固有表現を正誤情報の入力候補としてユーザに優先的に提示することができ、ユーザは効率よく推論モデルの推論精度の向上を図ることができる。
【0057】
S1213では、正誤判定部130は、ユーザの入力情報に基づく特徴量の変更について、既に十分な数の特徴量について重みを変更したか否かを確認する。尚、正誤判定部130は、既に十分な数の特徴量について重みを変更したか否かを、例えば、重みを変更した特徴量の数が予め設定した数を超えていることや、過去に重みの変更を行った特徴量の数が未だ重みの変更を行っていない特徴量の数よりも多いか否かに基づき判定する。正誤判定部130が既に相当数の特徴量について重みを変更していないと判定した場合(S1213:NO)、処理はS1214に進む。正誤判定部130が既に上記相当数の特徴量について重みを変更したと判定した場合(S1213:YES)、処理はS1215に進む。
【0058】
S1214では、正誤判定部130は、選択中の固有表現に関する特徴量について、未だ重みの変更が行われていない特徴量の数と出現回数に基づき優先順位を決定する。例えば、正誤判定部130は、未だ重みの変更が行われていない特徴量の数の多い順に、各固有表現に優先順位を決定する。また、未だ重みの変更が行われていない特徴量の数が同数である場合、正誤判定部130は、当該固有表現の文書情報111における出現頻度が高い順に各固有表現に優先順位を決定する。このように特徴量修正処理S1112が既に実行されており、未だ十分な数の特徴量について重みが変更されていない場合、正誤判定部130は、重みの変更が行われていない特徴量の数が多い順に、各固有表現に優先順位を決定するので、推論モデルの推論精度を向上させる可能性の高い固有表現をユーザに優先的に提示することができ、ユーザは効率よく推論モデルの推論精度の向上を図ることができる。
【0059】
S1215では、正誤判定部130は、選択中の固有表現のカテゴリ確率と出現回数に基づき優先順位を決定する。例えば、正誤判定部130は、特徴量の重みの変更に伴う当該固有表現のカテゴリ確率の変化量について、正側に変化した(カテゴリ確率が上昇した)固有表現と、負側に変化した(カテゴリ確率が減少した)固有表現の夫々について、変化量の大きい順に優先順位を決定する。また、カテゴリ確率の変化量が同じである場合、正誤判定部130は、当該固有表現の文書情報111における出現頻度が高い順に優先順位を決定する。また、出現頻度が同じである場合、正誤判定部130は、変化前のカテゴリ確率が「0.5」に近い順に優先順位を決定する。このように特徴量修正処理S1112が既に実行されおり、既に十分な数の特徴量について重みが変更されている場合、正誤判定部130は、特徴量の重みの変更に伴う当該固有表現のカテゴリ確率の変化量の大きい順に優先順位を決定するので、推論モデルの推論精度を大きく変化させる可能性の高い固有表現をユーザに優先的に提示することができ、ユーザは効率よく推論モデルの推論精度の向上を図ることができる。
【0060】
図13は、モデル修正部140が行う、
図11に示した特徴量修正処理S1112の詳細を説明するフローチャートである。以下、同図とともに特徴量修正処理S1112について説明する。
【0061】
まずモデル修正部140は、正誤判定表1131に基づき、正誤情報の追加(他の固有表現についての正誤情報の追加)が必要か否かを判定する(S1311)。尚、モデル修正部140は、例えば、カテゴリへの分類が正しいと判定された固有表現の数と、カテゴリへの分類が正しくないと判定された固有表現の数との差が所定値を超える(バランスがとれていない)場合、正誤情報の追加が必要と判定する。また、モデル修正部140は、例えば、正誤判定表1131に、カテゴリへの分類が正しいと判定された固有表現が一つも存在しないか予め設定された数未満である場合や、カテゴリへの分類が正しくないと判定された固有表現が一つも存在しないか予め設定された数未満である場合に、正誤情報の追加が必要と判定する。このように、モデル修正部140は、カテゴリへの分類が正しいと判定された固有表現の数と、カテゴリへの分類が正しくないと判定された固有表現の数とのバランスがとれていない場合や、これらの数が十分でない場合に正誤情報の追加が必要と判定するので、判定された固有表現の数が十分でない状態や情報に偏りのある状態で特徴量の重みが修正されてしまうのを防ぐことができ、推論モデルの推論精度の向上を図ることができる。モデル修正部140は、正誤情報の追加が必要と判定すると(S1311:YES)、「正誤情報の追加要」を戻り値に設定し(S1320)、特徴量修正処理S1112を終了する。モデル修正部140が正誤情報の追加が必要でないと判定した場合(S1311:NO)、処理はS1312に進む。
【0062】
S1312では、モデル修正部140は、固有表現情報112と正誤判定表1131とに基づき判定結果別特徴量表1132(
図7を参照)を生成する。
【0063】
続いて、モデル修正部140は、判定結果別特徴量表1132に基づき、カテゴリへの分類が正しいと判定された固有表現、及びカテゴリへの分類が正しくないと判定された固有表現の夫々について出現回数を求めて特徴量分析表1133(
図8を参照)を生成する(S1313)。
【0064】
続いて、モデル修正部140は、特徴量分析表1133の内容に基づき特徴量の重みの修正を行い修正推論モデルパラメータ1141(
図9を参照)を生成する(S1314)。例えば、モデル修正部140は、ユーザがカテゴリへの分類が正しいとした固有表現の特徴量の重みを高い値に修正し、ユーザがカテゴリへの分類が正しくないとした固有表現の特徴量の重みを低い値に修正する。
【0065】
続いて、モデル修正部140は、修正推論モデルパラメータ1141に基づき、特徴量の修正前後における夫々のカテゴリ確率を求める(S1315)。
【0066】
続いて、モデル修正部140は、カテゴリ確率の変化に矛盾があるか否かを判定する(S1316)。モデル修正部140は、上記判定を、例えば、カテゴリへの分類が正しいと判定した固有表現のカテゴリ確率が上昇しているか否か(上昇していれば矛盾なし、そうでなければ矛盾有り)、カテゴリへの分類が正しくないと判定した固有表現のカテゴリ確率が減少しているか否か(減少していれば矛盾なし、そうでなければ矛盾有り)に基づき行う。このように、モデル修正部140は、カテゴリ確率の変化に矛盾があるか否かを判定するので、カテゴリ確率の変化に矛盾が生じないように特徴量の重みを適切に修正することができる。モデル修正部140が、カテゴリ確率の変化に矛盾があると判定した場合(S1316:YES)、処理はS1314に戻り、重みを変更して再度推論処理(S1315)を行う。モデル修正部140が、カテゴリ確率の変化に矛盾がないと判定した場合(S1316:NO)、特徴量修正処理S1112は終了する。以上で特徴量修正処理S1112は終了する。
【0067】
図14は、モデル修正部140が行う、
図11に示した検証処理S1114の詳細を説明するフローチャートである。以下、同図とともに検証処理S1114について説明する。
【0068】
まずモデル修正部140は、
図13に示した特徴量修正処理S1112のS1315で求めた各固有表現のカテゴリ確率を取得し確率分布を求める(S1411)。
【0069】
続いて、モデル修正部140は、求めた確率分布のカテゴリ確率「0~1」の範囲のうち、固有表現の種類数が最も少なくなる(疎になる)カテゴリ確率(以下、「閾値」と称する)を求める(S1412)。例えば、カテゴリ確率が取り得る範囲「0~1」を「0.1」刻みで10の領域に分けたとき、カテゴリ確率が「0.6~0.7」の範囲に存在する固有表現の種類数が「0」で、他の範囲では10種類以上の固有表現が存在する場合、モデル修正部140は、上記閾値を「0.65」と求める。
【0070】
続いて、モデル修正部140は、S1412で閾値を求めることができたか否か(固有表現の種類数が他の範囲における種類数に比べて差別化できる程度に少なくなるカテゴリ確率を特定できるか否か)を判定する(S1413)。モデル修正部140が閾値を求めることができたと判定した場合(S1413:YES)、処理はS1414に進む。モデル修正部140が閾値を求めることができなかったと判定した場合(S1413:NO)、処理はS1415に進む。
【0071】
S1414では、モデル修正部140は、「固有表現辞書の生成可能」及びS1412
で求めた閾値を戻り値に設定する。その後、検証処理S1114は終了する。
【0072】
S1415では、モデル修正部140は、「正誤情報の追加要」を戻り値に設定する。その後、検証処理S1114は終了する。
【0073】
図15は、
図11の固有表現辞書生成処理S1100の内容を説明する模式図である。同図に示す4つのグラフ1511~1514は、各固有表現のカテゴリ確率の分布を示すグラフである。4つのグラフ1511~1514の縦軸はいずれもカテゴリ確率であり、横軸は各固有表現(例えば、固有表現の識別番号、固有表現の取得元の文書の識別子(文書ID)等である。また、グラフ1511~1514において、白抜きの正方形は正誤判定を行っていない固有表現(以下、「未判定単語」と称する。)であり、黒塗りの丸(円)は正誤判定によりカテゴリへの分類が正しいと判定された固有表現であり、黒塗りの三角形は、正誤判定によりカテゴリへの分類が正しくないと判定された固有表現である。
【0074】
グラフ1511は、初期状態における各固有表現のカテゴリ確率の分布である。グラフ1512は、グラフ1511に
図11のS1111の処理において行われた正誤判定の結果を示したものである。グラフ1513は、
図13の特徴量修正処理S1112において特徴量の重みの変更を行い、固有表現のカテゴリ確率について推論を再実行した後の状態を示したものである。
【0075】
グラフ1513に示すように、特徴量の重みを変更することにより各固有表現のカテゴリ確率が変化し、カテゴリへの分類が正しいと判定された固有表現のカテゴリ確率は上昇し、カテゴリへの分類が正しくないと判定された固有表現のカテゴリ確率は減少する。また、カテゴリへの分類が正しいと判定された固有表現と共通する特徴量を多く有する未判定の固有表現のカテゴリ確率が上昇し、カテゴリへの分類が正しくないと判定された固有表現と共通する特徴量を多く有する未判定の固有表現のカテゴリ確率は減少する。
【0076】
グラフ1514は、特徴量の修正後におけるカテゴリ確率の分布である。以上のように、ユーザによる固有表現のカテゴリへの分類の正誤判定、及び固有表現の特徴量の修正が繰り返し行われることで、カテゴリへの分類が正しい固有表現、及び当該固有表現と共通する特徴量が多い未判定の固有表現のカテゴリ確率は高くなる。逆にカテゴリへの分類が正しくない固有表現、及び当該固有表現と共通する特徴量が多い未判定の固有表現のカテゴリ確率は低くなる。このようにして各固有表現のカテゴリ確率は最終的に明確に二極化し、疎になる時のカテゴリ確率(閾値)が特定される。尚、例えば、特定された閾値以上の固有表現を選出して固有表現辞書1142に登録するようにすることで、効率よく固有表現のカテゴリへの高い分類精度を確保することができる。
【0077】
図16は、以上に説明した固有表現辞書生成処理S1100の実行に際して固有表現分類装置1が出力装置15を介してユーザに提示する画面(以下、「情報設定確認画面1600」と称する。)の一例である。同図に示すように、情報設定確認画面1600は、カテゴリの選択欄1610、正誤情報の設定欄1620、学習実行ボタン1630、カテゴリ確率の表示欄1640、及び辞書登録ボタン1650を含む。
【0078】
カテゴリの選択欄1610には、ユーザが固有表現の分類先となるカテゴリを選択して設定する。本例では「人」というカテゴリが選択されている。
【0079】
正誤情報の設定欄1620には、ユーザが固有表現の正誤情報を設定する。同図に示すように、正誤情報の設定欄1620は、固有表現の表示欄1621、カテゴリ確率の表示欄1622、及び正誤情報の設定欄1623の各項目を有する複数のエントリ(レコード)を含む。また、正誤情報の設定欄1620は、表示数の設定欄1624を有する。
【0080】
固有表現の表示欄1621には、固有表現情報112から取得される固有表現(ユーザから正誤情報の設定を受け付ける固有表現)が優先順位の順に表示される。カテゴリ確率の表示欄1622には、前述した重みの修正前後における当該固有表現のカテゴリ確率と変化量が表示される。正誤情報の設定欄1623には、ユーザが当該固有表現について正誤情報(本例では「人」への分類が正しいか否か)を設定する。本例ではスライドスイッチを操作してユーザが容易に正誤情報を設定できるようになっている。
【0081】
表示数の設定欄1624には、ユーザが表示したい固有表現の数を設定する。正誤情報の設定欄1620には、表示数の設定欄1624に設定された数の固有表現のエントリが優先順位の順に表示される。
【0082】
ユーザが学習実行ボタン1630を操作すると、修正後の特徴量の重みで推論モデルが再学習され、再学習された推論モデルにより固有表現のカテゴリへの分類が行われる。
【0083】
カテゴリ確率の表示欄1640には、各固有表現の重みの修正前後におけるカテゴリ確率と変化量を示すグラフが表示される。上記グラフは、
図15に示したグラフ1513に相当する。
【0084】
ユーザが辞書登録ボタン1650を操作すると、辞書生成部150が、前述した閾値以上のカテゴリ確率を有する固有表現を固有表現辞書1142に登録する。
【0085】
以上に説明したように、本実施形態の固有表現分類装置1によれば、文書情報から抽出した固有表現の推論モデルによるカテゴリへの分類が正しく行われているか否かを示す正誤情報をフィードバックとしてユーザ(SME)から受け付け、正誤情報に基づき特徴量の重みを修正して推論モデルを再学習するので、ユーザは必要な数の固有表現について正誤情報を入力するだけで推論モデルの推論精度を向上させることができる。また、特徴量の重みは自動で調整されるためDSが介在する必要がなく、効率よく適切に固有表現をカテゴリに分類することができる。
【0086】
また、特徴量の修正が未実行であるか否か、特徴量の重みを変更したか否か、カテゴリ確率、出現頻度、及び特徴量の重みを変更することによるカテゴリ確率の変化量等に基づき、固有表現をユーザに提示する順序を決定し、決定した順序で固有表現をユーザに提示するので、ユーザに推論モデルの推論精度への影響の高い順に固有表現の正誤情報の入力を促すことができ、効率よく推論モデルの推論精度の向上を図ることができる。
【0087】
また、カテゴリへの分類が正しく行われている固有表現の特徴量の数と、カテゴリへの分類が正しく行われていない固有表現の特徴量の数とのバランスがとれている場合に特徴量の重みを修正するので、特徴量の重みについて偏りのある修正が行われて推論モデルの推論精度が低下してしまうのを防ぐことができる。
【0088】
また、固有表現を固有表現辞書の登録の対象とするか否かの判定等に用いるカテゴリ確率についての閾値として適切な値を出力(ユーザに提示)することができる。また、固有表現分類装置1は、有意な閾値を決定できるまでユーザに正誤情報の入力を要求するので、必要最小限の負担で精度よく有意な閾値を決定することができる。
【0089】
以上、本発明の一実施形態について説明したが、本発明は上記の実施形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、上記の実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、上記実
施形態の構成の一部について、他の構成の追加や削除、置換をすることが可能である。
【0090】
また、上記の各構成、機能部、処理部、処理手段等は、それらの一部または全部を、例えば、集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、SSD(Solid State Drive)等の記録装置、
ICカード、SDカード、DVD等の記録媒体に置くことができる。
【0091】
また、以上に説明した各情報処理装置の各種機能部、各種処理部、各種データベースの配置形態は一例に過ぎない。各種機能部、各種処理部、各種データベースの配置形態は、これらの装置が備えるハードウェアやソフトウェアの性能、処理効率、通信効率等の観点から最適な配置形態に変更し得る。
【0092】
また、前述した各種のデータを格納するデータベースの構成(スキーマ(Schema)等)は、リソースの効率的な利用、処理効率向上、アクセス効率向上、検索効率向上等の観点から柔軟に変更し得る。
【符号の説明】
【0093】
1 固有表現分類装置、110 記憶部、111 文書情報、112 固有表現情報、1121 推論モデルパラメータ、1122 推論結果表、113 正誤判定情報、1131 正誤判定表、1132 判定結果別特徴量表、1133 特徴量分析表、114 固有表現情報(修正)、1141 修正推論モデルパラメータ、1142 固有表現辞書、120 情報抽出部、121 固有表現&特徴量抽出部、122 学習部、123 推論部、130 正誤判定部、131 判定対象選択部、132 特徴量分析部、140 モデル修正部、141 特徴量修正部、142 検証処理部、150 辞書生成部