特許7592414 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 株式会社日立製作所の特許一覧

特許7592414固有表現分類装置、及び固有表現分類方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-22

(45)【発行日】2024-12-02

(54)【発明の名称】固有表現分類装置、及び固有表現分類方法

(51)【国際特許分類】

G06F 40/279 20200101AFI20241125BHJP

G06F 40/216 20200101ALI20241125BHJP

【ＦＩ】

G06F40/279

G06F40/216

【請求項の数】 15

(21)【出願番号】P 2020112732

(22)【出願日】2020-06-30

(65)【公開番号】P2022011533

(43)【公開日】2022-01-17

【審査請求日】2023-01-23

(73)【特許権者】

【識別番号】000005108

【氏名又は名称】株式会社日立製作所

(74)【代理人】

【識別番号】110000176

【氏名又は名称】弁理士法人一色国際特許事務所

(72)【発明者】

【氏名】加藤大羽

(72)【発明者】

【氏名】田中美智子

【審査官】成瀬博之

(56)【参考文献】

【文献】特開２０１０－１２８７７４（ＪＰ，Ａ）

【文献】特開２０１８－０１０５３２（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ４０／２０－４０／５８

Ｇ０６Ｆ１６／００－１６／９５８

Ｇ０６Ｎ３／００－９９／００

(57)【特許請求の範囲】

【請求項1】

プロセッサと記憶装置を有する情報処理装置を用いて構成され、
固有表現の分類先となるカテゴリ毎に、固有表現をカテゴリに分類する際に用いる特徴量と固有表現のカテゴリへの適合性を示す確率であるカテゴリ確率の算出に用いる前記特徴量の重みとを対応づけた情報である推論モデルパラメータにより、文書情報から抽出した固有表現を分類した情報であり固有表現の分類先のカテゴリへの前記カテゴリ確率を含む情報である推論結果表を機械学習モデルである推論モデルを用いて生成する推論部と、
前記推論結果表において固有表現が正しくカテゴリに分類されているか否かの判定結果を示す情報である正誤情報の入力をユーザから受け付け、受け付けた前記情報を含む正誤判定表を生成する正誤判定部と、
前記推論モデルパラメータと前記正誤判定表とに基づき、前記判定結果毎に、文書情報から抽出される、固有表現のカテゴリへの分類に用いる特徴量と、前記特徴量の重みとを対応づけた情報である判定結果別特徴量表を生成するとともに、前記判定結果別特徴量表に基づき、カテゴリ毎に、前記特徴量と、前記特徴量の重みと、ユーザが固有表現のカテゴリへの分類が正しいと判定した前記特徴量の出現回数と、ユーザが固有表現のカテゴリへの分類が正しくないと判定した前記特徴量の出現回数と、を対応付けた情報である特徴量分析表を生成する特徴量分析部と、
前記特徴量分析表に基づき、前記推論モデルパラメータの前記特徴量の重みを修正した修正推論モデルパラメータを生成するモデル修正部と、
を備える、固有表現分類装置。

【請求項2】

請求項１に記載の固有表現分類装置であって、
前記モデル修正部は、ユーザがカテゴリへの分類が正しいと判定した前記特徴量の重みについては高くなるように、ユーザがカテゴリへの分類が正しくないと判定した前記特徴量の重みについては低くなるように、前記推論モデルパラメータを修正して前記修正推論モデルパラメータを生成する、
固有表現分類装置。

【請求項3】

請求項１に記載の固有表現分類装置であって、
前記正誤判定部は、前記カテゴリ確率が０．４５～０．５５の範囲の固有表現を優先してユーザに提示しつつ前記正誤情報の入力を受け付ける、
固有表現分類装置。

【請求項4】

請求項１に記載の固有表現分類装置であって、
前記修正推論モデルパラメータは、修正の前後における前記特徴量の重みを示す情報を含み、
前記正誤判定部は、
既に前記特徴量の重みの変更を行っており、重みの変更を行った前記特徴量の数が予め設定した数を超えていない場合は、重みの変更が行われていない前記特徴量の数が多い固有表現を優先してユーザに提示しつつ前記正誤情報の入力を受け付け、
既に前記特徴量の重みの変更を行っており、重みの変更を行った前記特徴量の数が予め設定した数を超えている場合は、重みを変更したことによる前記カテゴリ確率の変化量の大きい固有表現を優先してユーザに提示しつつ前記正誤情報の入力を受け付ける、
固有表現分類装置。

【請求項5】

請求項１に記載の固有表現分類装置であって、
前記正誤判定部は、表示する固有表現の数の設定をユーザから受け付け、受け付けた数の固有表現をユーザに提示しつつ前記正誤情報の入力を受け付ける、
固有表現分類装置。

【請求項6】

請求項１に記載の固有表現分類装置であって、
前記モデル修正部は、前記正誤判定表に基づき、ユーザがカテゴリへの分類が正しいと判定した固有表現の数とユーザがカテゴリへの分類が正しくないと判定した固有表現との差が所定値を超えているか否かを判定し、前記差が前記所定値を超えている場合、他の固有表現についての前記正誤情報の入力をユーザに要求する、
固有表現分類装置。

【請求項7】

請求項１に記載の固有表現分類装置であって、
前記モデル修正部は、前記正誤判定表に基づき、前記カテゴリへの分類が正しいとされた固有表現の数が予め設定された数を超えていないか、もしくは、前記分類が正しくないとされた固有表現の数が予め設定された数を超えていないかを判定し、前記カテゴリへの分類が正しいとされた固有表現の数が予め設定された数を超えていないか、もしくは、前記分類が正しくないとされた固有表現の数が予め設定された数を超えていない場合、他の固有表現についての前記正誤情報の入力をユーザに要求する、
固有表現分類装置。

【請求項8】

請求項１に記載の固有表現分類装置であって、
前記モデル修正部は、前記修正推論モデルパラメータに基づき、前記特徴量の重みの修正前後における複数の固有表現の前記カテゴリ確率の確率分布を求め、求めた確率分布において固有表現の種類数が最も疎になるカテゴリ確率である閾値を特定できるか否かを判定し、
前記正誤判定部は、前記モデル修正部が前記閾値を特定できないと判定した場合、他の固有表現についての前記正誤情報の入力をユーザに要求する、
固有表現分類装置。

【請求項9】

請求項８に記載の固有表現分類装置であって、
前記正誤判定部は、前記重みの修正の前後における前記確率分布を示すグラフと、特定した前記閾値を記載した画面を生成してユーザに提示する、
固有表現分類装置。

【請求項10】

請求項１に記載の固有表現分類装置であって、
複数の固有表現と夫々の分類先のカテゴリとを対応づけた情報を含んだ辞書を生成する辞書生成部を含む、
固有表現分類装置。

【請求項11】

プロセッサと記憶装置を有する情報処理装置が、
固有表現の分類先となるカテゴリ毎に、固有表現をカテゴリに分類する際に用いる特徴量と固有表現のカテゴリへの適合性を示す確率であるカテゴリ確率の算出に用いる前記特徴量の重みとを対応づけた情報である推論モデルパラメータにより、文書情報から抽出した固有表現を分類した情報であり固有表現の分類先のカテゴリへの前記カテゴリ確率を含む情報である推論結果表を機械学習モデルである推論モデルを用いて生成するステップ、
前記推論結果表において固有表現が正しくカテゴリに分類されているか否かの判定結果を示す情報である正誤情報の入力をユーザから受け付け、受け付けた前記情報を含む正誤判定表を生成するステップと、
前記推論モデルパラメータと前記正誤判定表とに基づき、前記判定結果毎に、文書情報から抽出される、固有表現のカテゴリへの分類に用いる特徴量と、前記特徴量の重みとを対応づけた情報である判定結果別特徴量表を生成するとともに、前記判定結果別特徴量表に基づき、カテゴリ毎に、前記特徴量と、前記特徴量の重みと、ユーザが固有表現のカテゴリへの分類が正しいと判定した前記特徴量の出現回数と、ユーザが固有表現のカテゴリへの分類が正しくないと判定した前記特徴量の出現回数と、を対応付けた情報である特徴量分析表を生成するステップ、及び、
前記特徴量分析表に基づき、前記推論モデルパラメータの前記特徴量の重みを修正した修正推論モデルパラメータを生成するステップ、
を実行する、固有表現分類方法。

【請求項12】

請求項１１に記載の固有表現分類方法であって、
前記情報処理装置が、ユーザがカテゴリへの分類が正しいと判定した前記特徴量の重みについては高くなるように、ユーザがカテゴリへの分類が正しくないと判定した前記特徴量の重みについては低くなるように、前記推論モデルパラメータを修正して前記修正推論モデルパラメータを生成するステップを更に実行する、
固有表現分類方法。

【請求項13】

請求項１１に記載の固有表現分類方法であって、
前記情報処理装置が、前記カテゴリ確率が０．４５～０．５５の範囲の固有表現を優先してユーザに提示しつつ前記正誤情報の入力を受け付けるステップを更に実行する、
固有表現分類方法。

【請求項14】

請求項１１に記載の固有表現分類方法であって、
前記修正推論モデルパラメータは、修正の前後における前記特徴量の重みを示す情報を含み、
前記情報処理装置が、
既に前記特徴量の重みの変更を行っており、重みの変更を行った前記特徴量の数が予め設定した数を超えていない場合は、重みの変更が行われていない前記特徴量の数が多い固有表現を優先してユーザに提示しつつ前記正誤情報の入力を受け付けるステップ、及び、
既に前記特徴量の重みの変更を行っており、重みの変更を行った前記特徴量の数が予め設定した数を超えている場合は、重みを変更したことによる前記カテゴリ確率の変化量の大きい固有表現を優先してユーザに提示しつつ前記正誤情報の入力を受け付けるステップ、
を更に実行する、固有表現分類方法。

【請求項15】

請求項１１に記載の固有表現分類方法であって、
前記情報処理装置が、前記正誤判定表に基づき、ユーザがカテゴリへの分類が正しいと判定した固有表現の数とユーザがカテゴリへの分類が正しくないと判定した固有表現との差が所定値を超えているか否かを判定し、前記差が前記所定値を超えている場合、他の固有表現についての前記正誤情報の入力をユーザに要求するステップを更に実行する、
固有表現分類方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、固有表現分類装置、及び固有表現分類方法に関する。

【背景技術】

【0002】

特許文献１には、固有表現のカテゴリが、詳細なカテゴリ分類であっても、ラベル付きの固有表現を精度よく抽出することができるようにすることを目的として構成された固有表現分類装置について記載されている。固有表現分類装置は、形態素解析済みの入力文書に基づき、入力文書中の各単語について、単語内の情報に関する特徴、及び単語の周辺の文脈に関する特徴を示す素性を算出し、素性に基づき、単語が、固有物を表す表現である固有表現のカテゴリを示すラベルが付与された固有表現であるか否かを識別するための予め学習された識別モデルと、各単語の素性とに基づき、入力文書中の各単語が、ラベルが付与された固有表現であるか否かを識別し、入力文書から、上記ラベルが付与された固有表現を抽出する。

【0003】

特許文献２には、データ中からユーザが望む情報を抽出する際に用いる抽出規則の作成に用いる素性（手がかり語など）として、適切な素性を抽出することを目的として構成された情報抽出装置について記載されている。情報抽出装置は、情報付与の対象となる対象情報と作業者の対象情報に対する処理結果とをそれぞれ含む複数の第１教師情報から、同一の対象情報かつ異なる処理結果を含む複数の第２教師情報を抽出し、複数の第２教師情報の差分から、異なる処理結果に至る手がかりとなる情報を抽出する。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０１３－２４６７９５号公報

【文献】特開２０１７－５８８１６号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

昨今、企業や組織等の社会の随所において蓄積される文書情報の増大に伴い、文書情報から機械学習モデル（以下、「推論モデル」と称する。）を用いて固有表現を抽出し、抽出した固有表現をカテゴリに分類して辞書等として活用することについての需要が高まっている。

【0006】

ここで文書情報から抽出される固有表現を適切なカテゴリに分類するには、推論モデルの推論精度を向上させる必要がある。通常、固有表現の分類を行う推論モデルの学習は、固有表現の分野に精通した者（ＳＭＥ:Subject Matter Expert）が分類結果について正誤判定を行い、一方でデータ分析の専門知識を有する者（ＤＳ:Data Scientist）が、正誤判定の結果に影響を与えた特徴量（推論モデルで用いる特徴量）を特定して推論モデルを再構築する。つまり推論モデルの推論精度を向上するには、ＳＭＥによる手作業とＤＳによる作業の双方の作業が必須であり、作業負荷が大きいことが課題となっている。また、カテゴリに分類された固有表現を辞書等として活用しようとする現場（ドメイン）では、ＤＳに頼らずともＳＭＥが単独で精度よく固有表現の分類を行える仕組みの提供が望まれている。尚、上記の特許文献１及び特許文献２に記載された技術は、いずれもＳＭＥによる手作業とＤＳによる作業の双方の作業が必須である。

【0007】

本発明の目的は、このような背景に鑑みてなされたものであり、固有表現のカテゴリへの分類を効率よく高い精度で行うことが可能な、固有表現分類装置、及び固有表現分類法を提供することを目的とする。

【課題を解決するための手段】

【0008】

上記目的を達成するための本発明の一つは、固有表現分類装置であって、プロセッサと記憶装置を有する情報処理装置を用いて構成され、固有表現の分類先となるカテゴリ毎に、固有表現をカテゴリに分類する際に用いる特徴量と固有表現のカテゴリへの適合性を示す確率であるカテゴリ確率の算出に用いる前記特徴量の重みとを対応づけた情報である推論モデルパラメータにより、文書情報から抽出した固有表現を分類した情報であり固有表現の分類先のカテゴリへの前記カテゴリ確率を含む情報である推論結果表を機械学習モデルである推論モデルを用いて生成する推論部と、前記推論結果表において固有表現が正しくカテゴリに分類されているか否かの判定結果を示す情報である正誤情報の入力をユーザから受け付け、受け付けた前記情報を含む正誤判定表を生成する正誤判定部と、前記推論モデルパラメータと前記正誤判定表とに基づき、前記判定結果毎に、文書情報から抽出される、固有表現のカテゴリへの分類に用いる特徴量と、前記特徴量の重みとを対応づけた情報である判定結果別特徴量表を生成するとともに、前記判定結果別特徴量表に基づき、カテゴリ毎に、前記特徴量と、前記特徴量の重みと、ユーザが固有表現のカテゴリへの分類が正しいと判定した前記特徴量の出現回数と、ユーザが固有表現のカテゴリへの分類が正しくないと判定した前記特徴量の出現回数と、を対応付けた情報である特徴量分析表を生成する特徴量分析部と、前記特徴量分析表に基づき、前記推論モデルパラメータの前記特徴量の重みを修正した修正推論モデルパラメータを生成するモデル修正部と、を備える。

【0009】

その他、本願が開示する課題、及びその解決方法は、発明を実施するための形態の欄、及び図面により明らかにされる。

【発明の効果】

【0010】

本発明によれば、固有表現のカテゴリへの分類を効率よく高い精度で行うことができる。

【図面の簡単な説明】

【0011】

【図1】固有表現分類装置が備える主な機能を示す図である。

【図2】固有表現分類装置の実現に用いる情報処理装置のハードウェアの例である。

【図3】文書情報の例である。

【図4】推論モデルパラメータの例である。

【図5】推論結果表の例である。

【図6】正誤判定表の例である。

【図7】判定結果別特徴量表の例である。

【図8】特徴量分析表の例である。

【図9】修正推論モデルパラメータの例である。

【図10】固有表現辞書の例である。

【図11】固有表現辞書生成処理を説明するフローチャートである。

【図12】優先順位付与処理を説明するフローチャートである。

【図13】特徴量修正処理を説明するフローチャートである。

【図14】検証処理を説明するフローチャートである。

【図15】固有表現辞書生成処理を説明する模式図である。

【図16】情報設定確認画面の例である。

【発明を実施するための形態】

【0012】

以下、図面を参照にしつつ、本発明の実施形態について説明する。尚、以下の記載および図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。また、本発明は、他の種々の形態でも実施する事が可能である。とくに限定しない限り、各構成要素は単数でも複数でも構わない。

【0013】

以下の説明において、符号の前に付した「Ｓ」の文字は処理ステップの意味である。また、以下の説明では「表」、「情報」という表現にて各種情報（データ）を説明するが、各種情報は、これら以外のデータ構造で表現されていてもよい。また、識別情報について説明する際、「識別子」、「ＩＤ」等の表現を適宜用いるが、これらについてはお互いに置換可能である。

【0014】

また、以下の説明において、「文書」と記載した場合、文書をテキストデータ等の所定の形式で電子化したデータを意味する。また、以下の説明において、「単語」と記載した場合、情報処理装置によって抽出された固有表現を意味する。また、以下の説明において、固有表現とは、人名や地名など、特定の物事を指す単語の総称である。例えば、「技術者」や「東京都」は、夫々「人」、「場所」についての固有表現である。また、この場合における固有表現の分類先である「人」や「場所」のことを「カテゴリ」と称する。

【0015】

図１に本発明の一実施形態として説明する情報処理装置である固有表現分類装置１が備える主な機能を示している。固有表現分類装置１は、文書情報から抽出される固有表現を予め設定されたカテゴリに分類する際にユーザ（固有表現の分野に精通した者（ＳＭＥ:Subject Matter Expert）等）が行う作業を支援し、固有表現を効率よく適切にカテゴリに分類できるようにする。尚、固有表現分類装置１を用いて固有表現をカテゴリに分類する作業が行われる場合、原則としてデータ分析の専門知識を有する者（ＤＳ:Data Scientist）による作業は必要とされない。

【0016】

同図に示すように、固有表現分類装置１は、記憶部１１０、情報抽出部１２０、正誤判定部１３０、モデル修正部１４０、及び辞書生成部１５０の各機能を備える。

【0017】

記憶部１１０は、文書情報１１１、固有表現情報１１２、正誤判定情報１１３、及び固有表現情報（修正）１１４、の各情報（データ）を記憶する。記憶部１１０は、例えば、ＤＢＭＳ（DataBase Management System）が提供するデータベースのテーブルや、ファイルシステムが提供するファイルとして、これらの情報（データ）を記憶する。

【0018】

文書情報１１１は、固有表現の抽出元となる複数の文書を含む。文書情報１１１の内容は必ずしも限定されず、例えば、文書情報１１１は、ユーザが入力したものでもよいし、インターネット等の通信ネットワークを介して取得される情報でもよい。

【0019】

固有表現情報１１２は、情報抽出部１２０によって抽出された固有表現、及び当該固有表現をカテゴリに分類する際に用いる特徴量に関する情報であり、推論モデルパラメータ１１２１、及び推論結果表１１２２を含む。

【0020】

正誤判定情報１１３は、固有表現の分類先のカテゴリが正しいか否かの判定（以下、「正誤判定」と称する。）の結果に関する情報（以下、「正誤情報」と称する。）であり、正誤判定表１１３１、判定結果別特徴量表１１３２、及び特徴量分析表１１３３を含む。

【0021】

固有表現情報（修正）１１４は、固有表現情報１１２を、正誤判定情報１１３に基づき修正した結果に関する情報であり、修正推論モデルパラメータ１１４１、及び固有表現辞書１１４２を含む。

【0022】

同図に示す情報抽出部１２０は、固有表現＆特徴量抽出部１２１、学習部１２２、及び推論部１２３の各機能を含む。固有表現＆特徴量抽出部１２１は、文書情報１１１の文書に形態素解析を実行して固有表現及び特徴量を抽出し、抽出した固有表現をカテゴリに分類する。学習部１２２は、推論部１２３を実現する、上記特徴量を用いた機械学習モデルである推論モデルの学習を行い、推論モデルパラメータ１１２１を生成する。推論部１２３は、上記推論モデルにより、固有表現＆特徴量抽出部１２１によって抽出された固有表現をカテゴリに分類して推論結果表１１２２を生成する。

【0023】

正誤判定部１３０は、判定対象選択部１３１、及び特徴量分析部１３２を含む。判定対象選択部１３１は、固有表現＆特徴量抽出部１２１によって抽出された固有表現の中から、ユーザに正誤情報の入力を受け付ける対象となる固有表現を選択する。特徴量分析部１３２は、固有表現についてユーザが入力した正誤情報に基づき、正誤判定情報１１３を生成する。

【0024】

モデル修正部１４０は、特徴量修正部１４１、及び検証処理部１４２を含む。特徴量修正部１４１は、正誤判定情報１１３に基づき特徴量の重みを修正する。検証処理部１４２は、特徴量の重みを修正した後における、固有表現の分類先のカテゴリへの適合性を示す確率（以下、「カテゴリ確率」とも称する。）の分布を生成し、生成した分布に基づき、各固有表現を固有表現辞書１１４２に採用するか否かの判定に用いる閾値を決定可能か否かを検証する。

【0025】

辞書生成部１５０は、固有表現情報（修正）１１４を生成する。辞書生成部１５０は、モデル修正部１４０が、特徴量の重みを修正してカテゴリ確率を変化させた後、各固有表現のカテゴリ確率を後述する閾値と対照して固有表現辞書１１４２に登録する固有表現を選択し、選択した固有表現を固有表現辞書に登録する。

【0026】

図２に、固有表現分類装置１の実現に用いる情報処理装置のハードウェアの一例を示す。例示する情報処理装置１０は、プロセッサ１１、主記憶装置１２、補助記憶装置１３、入力装置１４、出力装置１５、及び通信装置１６を備える。尚、情報処理装置１０は、その全部または一部が、例えば、クラウドシステムによって提供される仮想サーバのように、仮想化技術やプロセス空間分離技術等を用いて提供される仮想的な情報処理資源を用いて実現されるものであってもよい。また、情報処理装置１０によって提供される機能の全部または一部を、例えば、クラウドシステムがＡＰＩ（Application Programming Interface）等を介して提供するサービスによって実現してもよい。また、固有表現分類装置１は、通信可能に接続された複数の情報処理装置１０を用いて構成してもよい。

【0027】

同図において、プロセッサ１１は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＦＰＧＡ（Field Programmable Gate Array）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＡＩ（Artificial Intelligence）チップ等を用いて構成されている。

【0028】

主記憶装置１２は、プログラムやデータを記憶する装置であり、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、不揮発性メモリ（ＮＶＲＡＭ（Non Volatile RAM））等である。

【0029】

補助記憶装置１３は、例えば、ハードディスクドライブ、ＳＳＤ（Solid State Drive
）、光学式記憶装置（ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）等）、ストレージシステム、ＩＣカード、ＳＤカードや光学式記録媒体等の記録媒体の読取／書込装置、クラウドサーバの記憶領域等である。補助記憶装置１３には、記録媒体の読取装置や通信装置１６を介してプログラムやデータを読み込むことができる。補助記憶装置１３に格納（記憶）されているプログラムやデータは主記憶装置１２に随時読み込まれる。

【0030】

入力装置１４は、外部からの入力を受け付けるインタフェースであり、例えば、キーボード、マウス、タッチパネル、カードリーダ、ペン入力方式のタブレット、音声入力装置等である。

【0031】

出力装置１５は、処理経過や処理結果等の各種情報を出力するインタフェースである。出力装置１５は、例えば、上記の各種情報を可視化する表示装置（液晶モニタ、ＬＣＤ（Liquid Crystal Display）、グラフィックカード等）、上記の各種情報を音声化する装置（音声出力装置（スピーカ等））、上記の各種情報を文字化する装置（印字装置等）である。尚、例えば、情報処理装置１０が通信装置１６を介して他の装置との間で情報の入力や出力を行う構成としてもよい。

【0032】

尚、入力装置１４及び出力装置１５は、ユーザとの間で情報の受け付けや情報の提示を
行うユーザインタフェースを構成する。

【0033】

通信装置１６は、他の装置との間の通信を実現する装置である。通信装置１６は、通信ネットワーク（インターネット、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）、専用線、公衆通信網棟）を介した他の装置との間の通信を実現する、有線方式
または無線方式の通信インタフェースであり、例えば、ＮＩＣ（Network Interface Card）、無線通信モジュール、ＵＳＢモジュール等である。

【0034】

情報処理装置１０には、例えば、オペレーティングシステム、ファイルシステム、ＤＢＭＳ（DataBase Management System）（リレーショナルデータベース、ＮｏＳＱＬ等）、ＫＶＳ（Key-Value Store）等が導入されていてもよい。

【0035】

固有表現分類装置１が備える前述した機能は、プロセッサ１１が、主記憶装置１２に格納されているプログラムを読み出して実行することにより、もしくは、これらの装置を構成するハードウェア（ＦＰＧＡ、ＡＳＩＣ、ＡＩチップ等）によって実現される。固有表現分類装置１は、前述した各種の情報（データ）を、例えば、データベースのテーブルやファイルシステムが管理するファイルとして記憶する。

【0036】

続いて、固有表現分類装置１が管理（記憶）する各種の情報について説明する。

【0037】

図３は文書情報１１１の例である。例示する文書情報１１１は企業の情報処理システムに蓄積された社内文書である。情報抽出部１２０は、文書情報１１１ａ及び文書情報１１１ｂから、例えば、「自動車」、「販売店」、「販売員」、「従業員」、「組織」、「生産性」、「オフィス」、「レイアウト」等の固有表現と、夫々をカテゴリに分類する際に用いる特徴量（例えば、図７を参照）を抽出する。

【0038】

図４に推論モデルパラメータ１１２１の一例を示す。推論モデルパラメータ１１２１は、固有表現の分類先となるカテゴリ毎に、当該固有表現を当該カテゴリに分類する際に用いる特徴量１２１１と、当該固有表現のカテゴリ確率の算出に用いる重み１１２１２とを対応づけた一つ以上の情報（エントリ（レコード））を含む。

【0039】

図５に推論結果表１１２２の一例を示す。推論結果表１１２２は、固有表現の分類先となるカテゴリ毎に、固有表現１１２２１と、当該固有表現の当該カテゴリへの適合性を示すカテゴリ確率１１２１２とを対応づけた一つ以上の情報（エントリ（レコード））を含む。

【0040】

図６に正誤判定表１１３１の一例を示す。正誤判定表１１３１は、正誤判定部１３０が、推論結果表１１２２の各固有表現について正誤判定をユーザに要求し、ユーザから正誤情報を受け付けることにより生成する。正誤判定表１１３１には、カテゴリ毎に、各固有表現の正誤情報が管理される。例示する正誤判定表１１３１の場合、カテゴリに正しく分類されていると判定された固有表現については「Ｔ」欄１１３１１に、カテゴリに正しく分類されていないと判定された固有表現については「Ｆ」欄１１３１２に、夫々設定される。

【0041】

図７に判定結果別特徴量表１１３２の一例を示す。判定結果別特徴量表１１３２は、特徴量分析部１３２が、固有表現情報１１２と正誤判定表１１３１とに基づき生成する。判定結果別特徴量表１１３２は、正誤判定表１１３１において、カテゴリ毎、固有表現の正誤判定の結果毎に、固有表現が文書情報１１１のいずれの文書に記載されているかを示す情報（文書の識別子）である文書ＩＤ１１３２２と、当該文書から抽出される、当該固有表現のカテゴリへの分類に用いる特徴量１１３２３と、当該特徴量の重み１１１３２４と
を対応づけた一つ以上の情報（エントリ（レコード））を含む。

【0042】

図８に特徴量分析表１１３３の一例を示す。特徴量分析表１１３３は、特徴量分析部１３２が、判定結果別特徴量表１１３２に基づき生成する。特徴量分析表１１３３は、カテゴリ毎に、特徴量１１３３１と、当該特徴量の重み１１３３２と、当該特徴量の出現回数１１３３３（カテゴリへの分類が「Ｔ」と判定された場合）と、当該特徴量の出現回数１１３３４（カテゴリへの分類が「Ｆ」と判定された場合）とを対応づけた一つ以上の情報（エントリ（レコード））を含む。

【0043】

図９は、修正推論モデルパラメータ１１４１の一例である。修正推論モデルパラメータ１１４１は、モデル修正部１４０が生成する。修正推論モデルパラメータ１１４１は、カテゴリ毎に、特徴量１１４１１と、当該特徴量の修正前の重みである重み(修正前)１１４１２と、当該特徴量の修正後の重み(修正後)１１４１３とを対応づけた一つ以上の情報（エントリ（レコード））を含む。

【0044】

図１０は、固有表現辞書１１４２の一例である。固有表現辞書１１４２は、辞書生成部１５０が修正推論モデルパラメータ１１４１に基づき生成する。固有表現辞書１１４２は、カテゴリ毎に、当該カテゴリに分類される固有表現１１４２１と、特徴量の重みの変更の前後におけるカテゴリ確率１１４２２と、当該固有表現を固有表現辞書として登録するか否かの判定結果１１４２３とを対応づけた一つ以上の情報（エントリ（レコード））を含む。

【0045】

続いて、固有表現分類装置１を用いて行われる処理について説明する。尚、以下の処理の開始時において、固有表現情報１１２については、情報抽出部１２０が文書情報１１１に基づき既に生成されているものとする。また、以下に説明する処理は、いずれもカテゴリ毎に行われるものとする。

【0046】

図１１は、固有表現分類装置１が、固有表現を評価し固有表現辞書を生成する際に行う処理（以下、「固有表現辞書生成処理Ｓ１１００」と称する。）を説明するフローチャートである。固有表現辞書生成処理Ｓ１１００は、例えば、固有表現分類装置１が、ユーザから評価処理の実行要求を受け付けることにより開始される。以下、同図とともに固有表現辞書生成処理Ｓ１１００について説明する。

【0047】

まず正誤判定部１３０が、固有表現情報１１２として管理されている各固有表現について、ユーザに正誤情報の入力を要求する際の優先順位を付与する処理（以下、「優先順位付与処理Ｓ１１１０」と称する。）を行う。優先順位付与処理Ｓ１１１０の詳細については後述する。

【0048】

続いて、正誤判定部１３０が、優先順位付与処理Ｓ１１１０で付与された優先順位に従い未選択の固有表現を所定数選択し、選択した固有表現を提示しつつ当該固有表現についてユーザから正誤情報の入力を受け付ける（Ｓ１１１１）。

【0049】

続いて、正誤判定部１３０が、受け付けた正誤情報の内容を正誤判定情報１１３に反映し、特徴量修正部１４１が正誤判定情報１１３に基づき特徴量を修正する処理（以下、「特徴量修正処理Ｓ１１１２」と称する。）を行う。特徴量修正処理Ｓ１１１２の詳細については後述する。

【0050】

続いて、正誤判定部１３０は、特徴量修正処理Ｓ１１１２の戻り値に「正誤情報の追加要」が設定されているか否かを判定する（Ｓ１１１３）。正誤判定部１３０が、戻り値に「正誤情報の追加要」が設定されていないと判定した場合（Ｓ１１１３：ＹＥＳ）、Ｓ１１１４の処理（以下、「検証処理Ｓ１１１４」と称する。）に進む。一方、正誤判定部１３０が、戻り値に「正誤情報の追加要」が設定されていると判定した場合（Ｓ１１１３：ＮＯ）、処理はＳ１１１１に戻る。

【0051】

検証処理Ｓ１１１４では、モデル修正部１４０が、特徴量の重みを修正した後のカテゴリ確率の確率分布を生成し、生成した確率分布に基づき、固有表現を固有表現辞書１１４２に採用するか否かの判定に用いる閾値を決定可能か否かを検証する。検証処理Ｓ１１１４の詳細については後述する。

【0052】

続いて、モデル修正部１４０は、検証処理Ｓ１１１４の戻り値に基づき、固有表現情報（修正）１１４の生成が可能か否かを判定する（Ｓ１１１５）。検証処理Ｓ１１１４の戻り値が「固有表現辞書の生成可能」である場合（Ｓ１１１５：ＹＥＳ）は、処理はＳ１１１６に進む。固有表現分類装置１の戻り値が「正誤情報の追加要」である場合（Ｓ１１１５：ＮＯ）、処理はＳ１１１１に戻る。

【0053】

Ｓ１１１６では、辞書生成部１５０が、固有表現情報１１２として管理されている固有表現のうち、カテゴリ確率が検証処理Ｓ１１１４の戻り値に含まれている閾値以上の固有表現を選択して固有表現辞書１１４２を生成する。以上で固有表現辞書生成処理Ｓ１１００は終了する。

【0054】

図１２は、判定対象選択部１３１が行う、図１１に示した優先順位付与処理Ｓ１１１０の詳細を説明するフローチャートである。以下、同図とともに優先順位付与処理Ｓ１１１０について説明する。

【0055】

まず正誤判定部１３０は、特徴量修正処理Ｓ１１１２が未実行であるか否かを判定する（Ｓ１２１１）。正誤判定部１３０が特徴量修正処理Ｓ１１１２が未実行であると判定した場合（Ｓ１２１１：ＹＥＳ）、処理はＳ１２１２に進む。一方、正誤判定部１３０が特徴量修正処理Ｓ１１１２が既に実行されていると判定した場合（Ｓ１２１１：ＮＯ）、処理はＳ１２１３に進む。

【0056】

Ｓ１２１２では、正誤判定部１３０は、カテゴリ確率、及び出現頻度に基づき、固有表現情報１１２として管理されている各固有表現に前述の優先順位を付与する。具体的には、正誤判定部１３０は、カテゴリ確率が「0.45～0.55」の範囲（正誤が微妙な範囲）の固有表現を選出し、選出した固有表現について出現頻度が高い順に優先順位を決定する。このように特徴量修正処理Ｓ１１１２が未実行である場合、正誤判定部１３０は、正誤の判定が微妙な範囲の固有表現を選択し、選択した固有表現について出現頻度が高い順に優先順位を付与するので、推論モデルの推論精度への影響が大きい可能性の高い固有表現を正誤情報の入力候補としてユーザに優先的に提示することができ、ユーザは効率よく推論モデルの推論精度の向上を図ることができる。

【0057】

Ｓ１２１３では、正誤判定部１３０は、ユーザの入力情報に基づく特徴量の変更について、既に十分な数の特徴量について重みを変更したか否かを確認する。尚、正誤判定部１３０は、既に十分な数の特徴量について重みを変更したか否かを、例えば、重みを変更した特徴量の数が予め設定した数を超えていることや、過去に重みの変更を行った特徴量の数が未だ重みの変更を行っていない特徴量の数よりも多いか否かに基づき判定する。正誤判定部１３０が既に相当数の特徴量について重みを変更していないと判定した場合（Ｓ１２１３：ＮＯ）、処理はＳ１２１４に進む。正誤判定部１３０が既に上記相当数の特徴量について重みを変更したと判定した場合（Ｓ１２１３：ＹＥＳ）、処理はＳ１２１５に進む。

【0058】

Ｓ１２１４では、正誤判定部１３０は、選択中の固有表現に関する特徴量について、未だ重みの変更が行われていない特徴量の数と出現回数に基づき優先順位を決定する。例えば、正誤判定部１３０は、未だ重みの変更が行われていない特徴量の数の多い順に、各固有表現に優先順位を決定する。また、未だ重みの変更が行われていない特徴量の数が同数である場合、正誤判定部１３０は、当該固有表現の文書情報１１１における出現頻度が高い順に各固有表現に優先順位を決定する。このように特徴量修正処理Ｓ１１１２が既に実行されており、未だ十分な数の特徴量について重みが変更されていない場合、正誤判定部１３０は、重みの変更が行われていない特徴量の数が多い順に、各固有表現に優先順位を決定するので、推論モデルの推論精度を向上させる可能性の高い固有表現をユーザに優先的に提示することができ、ユーザは効率よく推論モデルの推論精度の向上を図ることができる。

【0059】

Ｓ１２１５では、正誤判定部１３０は、選択中の固有表現のカテゴリ確率と出現回数に基づき優先順位を決定する。例えば、正誤判定部１３０は、特徴量の重みの変更に伴う当該固有表現のカテゴリ確率の変化量について、正側に変化した(カテゴリ確率が上昇した)固有表現と、負側に変化した(カテゴリ確率が減少した)固有表現の夫々について、変化量の大きい順に優先順位を決定する。また、カテゴリ確率の変化量が同じである場合、正誤判定部１３０は、当該固有表現の文書情報１１１における出現頻度が高い順に優先順位を決定する。また、出現頻度が同じである場合、正誤判定部１３０は、変化前のカテゴリ確率が「0.5」に近い順に優先順位を決定する。このように特徴量修正処理Ｓ１１１２が既に実行されおり、既に十分な数の特徴量について重みが変更されている場合、正誤判定部１３０は、特徴量の重みの変更に伴う当該固有表現のカテゴリ確率の変化量の大きい順に優先順位を決定するので、推論モデルの推論精度を大きく変化させる可能性の高い固有表現をユーザに優先的に提示することができ、ユーザは効率よく推論モデルの推論精度の向上を図ることができる。

【0060】

図１３は、モデル修正部１４０が行う、図１１に示した特徴量修正処理Ｓ１１１２の詳細を説明するフローチャートである。以下、同図とともに特徴量修正処理Ｓ１１１２について説明する。

【0061】

まずモデル修正部１４０は、正誤判定表１１３１に基づき、正誤情報の追加（他の固有表現についての正誤情報の追加）が必要か否かを判定する（Ｓ１３１１）。尚、モデル修正部１４０は、例えば、カテゴリへの分類が正しいと判定された固有表現の数と、カテゴリへの分類が正しくないと判定された固有表現の数との差が所定値を超える（バランスがとれていない）場合、正誤情報の追加が必要と判定する。また、モデル修正部１４０は、例えば、正誤判定表１１３１に、カテゴリへの分類が正しいと判定された固有表現が一つも存在しないか予め設定された数未満である場合や、カテゴリへの分類が正しくないと判定された固有表現が一つも存在しないか予め設定された数未満である場合に、正誤情報の追加が必要と判定する。このように、モデル修正部１４０は、カテゴリへの分類が正しいと判定された固有表現の数と、カテゴリへの分類が正しくないと判定された固有表現の数とのバランスがとれていない場合や、これらの数が十分でない場合に正誤情報の追加が必要と判定するので、判定された固有表現の数が十分でない状態や情報に偏りのある状態で特徴量の重みが修正されてしまうのを防ぐことができ、推論モデルの推論精度の向上を図ることができる。モデル修正部１４０は、正誤情報の追加が必要と判定すると（Ｓ１３１１：ＹＥＳ）、「正誤情報の追加要」を戻り値に設定し（Ｓ１３２０）、特徴量修正処理Ｓ１１１２を終了する。モデル修正部１４０が正誤情報の追加が必要でないと判定した場合（Ｓ１３１１：ＮＯ）、処理はＳ１３１２に進む。

【0062】

Ｓ１３１２では、モデル修正部１４０は、固有表現情報１１２と正誤判定表１１３１とに基づき判定結果別特徴量表１１３２（図７を参照）を生成する。

【0063】

続いて、モデル修正部１４０は、判定結果別特徴量表１１３２に基づき、カテゴリへの分類が正しいと判定された固有表現、及びカテゴリへの分類が正しくないと判定された固有表現の夫々について出現回数を求めて特徴量分析表１１３３（図８を参照）を生成する（Ｓ１３１３）。

【0064】

続いて、モデル修正部１４０は、特徴量分析表１１３３の内容に基づき特徴量の重みの修正を行い修正推論モデルパラメータ１１４１（図９を参照）を生成する（Ｓ１３１４）。例えば、モデル修正部１４０は、ユーザがカテゴリへの分類が正しいとした固有表現の特徴量の重みを高い値に修正し、ユーザがカテゴリへの分類が正しくないとした固有表現の特徴量の重みを低い値に修正する。

【0065】

続いて、モデル修正部１４０は、修正推論モデルパラメータ１１４１に基づき、特徴量の修正前後における夫々のカテゴリ確率を求める（Ｓ１３１５）。

【0066】

続いて、モデル修正部１４０は、カテゴリ確率の変化に矛盾があるか否かを判定する（Ｓ１３１６）。モデル修正部１４０は、上記判定を、例えば、カテゴリへの分類が正しいと判定した固有表現のカテゴリ確率が上昇しているか否か（上昇していれば矛盾なし、そうでなければ矛盾有り）、カテゴリへの分類が正しくないと判定した固有表現のカテゴリ確率が減少しているか否か（減少していれば矛盾なし、そうでなければ矛盾有り）に基づき行う。このように、モデル修正部１４０は、カテゴリ確率の変化に矛盾があるか否かを判定するので、カテゴリ確率の変化に矛盾が生じないように特徴量の重みを適切に修正することができる。モデル修正部１４０が、カテゴリ確率の変化に矛盾があると判定した場合（Ｓ１３１６：ＹＥＳ）、処理はＳ１３１４に戻り、重みを変更して再度推論処理（Ｓ１３１５）を行う。モデル修正部１４０が、カテゴリ確率の変化に矛盾がないと判定した場合（Ｓ１３１６：ＮＯ）、特徴量修正処理Ｓ１１１２は終了する。以上で特徴量修正処理Ｓ１１１２は終了する。

【0067】

図１４は、モデル修正部１４０が行う、図１１に示した検証処理Ｓ１１１４の詳細を説明するフローチャートである。以下、同図とともに検証処理Ｓ１１１４について説明する。

【0068】

まずモデル修正部１４０は、図１３に示した特徴量修正処理Ｓ１１１２のＳ１３１５で求めた各固有表現のカテゴリ確率を取得し確率分布を求める（Ｓ１４１１）。

【0069】

続いて、モデル修正部１４０は、求めた確率分布のカテゴリ確率「0～1」の範囲のうち、固有表現の種類数が最も少なくなる（疎になる）カテゴリ確率（以下、「閾値」と称する）を求める（Ｓ１４１２）。例えば、カテゴリ確率が取り得る範囲「0～1」を「0.1」刻みで10の領域に分けたとき、カテゴリ確率が「0.6～0.7」の範囲に存在する固有表現の種類数が「0」で、他の範囲では10種類以上の固有表現が存在する場合、モデル修正部１４０は、上記閾値を「0.65」と求める。

【0070】

続いて、モデル修正部１４０は、Ｓ１４１２で閾値を求めることができたか否か（固有表現の種類数が他の範囲における種類数に比べて差別化できる程度に少なくなるカテゴリ確率を特定できるか否か）を判定する（Ｓ１４１３）。モデル修正部１４０が閾値を求めることができたと判定した場合（Ｓ１４１３：ＹＥＳ）、処理はＳ１４１４に進む。モデル修正部１４０が閾値を求めることができなかったと判定した場合（Ｓ１４１３：ＮＯ）、処理はＳ１４１５に進む。

【0071】

Ｓ１４１４では、モデル修正部１４０は、「固有表現辞書の生成可能」及びＳ１４１２
で求めた閾値を戻り値に設定する。その後、検証処理Ｓ１１１４は終了する。

【0072】

Ｓ１４１５では、モデル修正部１４０は、「正誤情報の追加要」を戻り値に設定する。その後、検証処理Ｓ１１１４は終了する。

【0073】

図１５は、図１１の固有表現辞書生成処理Ｓ１１００の内容を説明する模式図である。同図に示す４つのグラフ１５１１～１５１４は、各固有表現のカテゴリ確率の分布を示すグラフである。４つのグラフ１５１１～１５１４の縦軸はいずれもカテゴリ確率であり、横軸は各固有表現（例えば、固有表現の識別番号、固有表現の取得元の文書の識別子（文書ＩＤ）等である。また、グラフ１５１１～１５１４において、白抜きの正方形は正誤判定を行っていない固有表現（以下、「未判定単語」と称する。）であり、黒塗りの丸（円）は正誤判定によりカテゴリへの分類が正しいと判定された固有表現であり、黒塗りの三角形は、正誤判定によりカテゴリへの分類が正しくないと判定された固有表現である。

【0074】

グラフ１５１１は、初期状態における各固有表現のカテゴリ確率の分布である。グラフ１５１２は、グラフ１５１１に図１１のＳ１１１１の処理において行われた正誤判定の結果を示したものである。グラフ１５１３は、図１３の特徴量修正処理Ｓ１１１２において特徴量の重みの変更を行い、固有表現のカテゴリ確率について推論を再実行した後の状態を示したものである。

【0075】

グラフ１５１３に示すように、特徴量の重みを変更することにより各固有表現のカテゴリ確率が変化し、カテゴリへの分類が正しいと判定された固有表現のカテゴリ確率は上昇し、カテゴリへの分類が正しくないと判定された固有表現のカテゴリ確率は減少する。また、カテゴリへの分類が正しいと判定された固有表現と共通する特徴量を多く有する未判定の固有表現のカテゴリ確率が上昇し、カテゴリへの分類が正しくないと判定された固有表現と共通する特徴量を多く有する未判定の固有表現のカテゴリ確率は減少する。

【0076】

グラフ１５１４は、特徴量の修正後におけるカテゴリ確率の分布である。以上のように、ユーザによる固有表現のカテゴリへの分類の正誤判定、及び固有表現の特徴量の修正が繰り返し行われることで、カテゴリへの分類が正しい固有表現、及び当該固有表現と共通する特徴量が多い未判定の固有表現のカテゴリ確率は高くなる。逆にカテゴリへの分類が正しくない固有表現、及び当該固有表現と共通する特徴量が多い未判定の固有表現のカテゴリ確率は低くなる。このようにして各固有表現のカテゴリ確率は最終的に明確に二極化し、疎になる時のカテゴリ確率（閾値）が特定される。尚、例えば、特定された閾値以上の固有表現を選出して固有表現辞書１１４２に登録するようにすることで、効率よく固有表現のカテゴリへの高い分類精度を確保することができる。

【0077】

図１６は、以上に説明した固有表現辞書生成処理Ｓ１１００の実行に際して固有表現分類装置１が出力装置１５を介してユーザに提示する画面（以下、「情報設定確認画面１６００」と称する。）の一例である。同図に示すように、情報設定確認画面１６００は、カテゴリの選択欄１６１０、正誤情報の設定欄１６２０、学習実行ボタン１６３０、カテゴリ確率の表示欄１６４０、及び辞書登録ボタン１６５０を含む。

【0078】

カテゴリの選択欄１６１０には、ユーザが固有表現の分類先となるカテゴリを選択して設定する。本例では「人」というカテゴリが選択されている。

【0079】

正誤情報の設定欄１６２０には、ユーザが固有表現の正誤情報を設定する。同図に示すように、正誤情報の設定欄１６２０は、固有表現の表示欄１６２１、カテゴリ確率の表示欄１６２２、及び正誤情報の設定欄１６２３の各項目を有する複数のエントリ（レコード）を含む。また、正誤情報の設定欄１６２０は、表示数の設定欄１６２４を有する。

【0080】

固有表現の表示欄１６２１には、固有表現情報１１２から取得される固有表現（ユーザから正誤情報の設定を受け付ける固有表現）が優先順位の順に表示される。カテゴリ確率の表示欄１６２２には、前述した重みの修正前後における当該固有表現のカテゴリ確率と変化量が表示される。正誤情報の設定欄１６２３には、ユーザが当該固有表現について正誤情報（本例では「人」への分類が正しいか否か）を設定する。本例ではスライドスイッチを操作してユーザが容易に正誤情報を設定できるようになっている。

【0081】

表示数の設定欄１６２４には、ユーザが表示したい固有表現の数を設定する。正誤情報の設定欄１６２０には、表示数の設定欄１６２４に設定された数の固有表現のエントリが優先順位の順に表示される。

【0082】

ユーザが学習実行ボタン１６３０を操作すると、修正後の特徴量の重みで推論モデルが再学習され、再学習された推論モデルにより固有表現のカテゴリへの分類が行われる。

【0083】

カテゴリ確率の表示欄１６４０には、各固有表現の重みの修正前後におけるカテゴリ確率と変化量を示すグラフが表示される。上記グラフは、図１５に示したグラフ１５１３に相当する。

【0084】

ユーザが辞書登録ボタン１６５０を操作すると、辞書生成部１５０が、前述した閾値以上のカテゴリ確率を有する固有表現を固有表現辞書１１４２に登録する。

【0085】

以上に説明したように、本実施形態の固有表現分類装置１によれば、文書情報から抽出した固有表現の推論モデルによるカテゴリへの分類が正しく行われているか否かを示す正誤情報をフィードバックとしてユーザ（ＳＭＥ）から受け付け、正誤情報に基づき特徴量の重みを修正して推論モデルを再学習するので、ユーザは必要な数の固有表現について正誤情報を入力するだけで推論モデルの推論精度を向上させることができる。また、特徴量の重みは自動で調整されるためＤＳが介在する必要がなく、効率よく適切に固有表現をカテゴリに分類することができる。

【0086】

また、特徴量の修正が未実行であるか否か、特徴量の重みを変更したか否か、カテゴリ確率、出現頻度、及び特徴量の重みを変更することによるカテゴリ確率の変化量等に基づき、固有表現をユーザに提示する順序を決定し、決定した順序で固有表現をユーザに提示するので、ユーザに推論モデルの推論精度への影響の高い順に固有表現の正誤情報の入力を促すことができ、効率よく推論モデルの推論精度の向上を図ることができる。

【0087】

また、カテゴリへの分類が正しく行われている固有表現の特徴量の数と、カテゴリへの分類が正しく行われていない固有表現の特徴量の数とのバランスがとれている場合に特徴量の重みを修正するので、特徴量の重みについて偏りのある修正が行われて推論モデルの推論精度が低下してしまうのを防ぐことができる。

【0088】

また、固有表現を固有表現辞書の登録の対象とするか否かの判定等に用いるカテゴリ確率についての閾値として適切な値を出力（ユーザに提示）することができる。また、固有表現分類装置１は、有意な閾値を決定できるまでユーザに正誤情報の入力を要求するので、必要最小限の負担で精度よく有意な閾値を決定することができる。

【0089】

以上、本発明の一実施形態について説明したが、本発明は上記の実施形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、上記の実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、上記実
施形態の構成の一部について、他の構成の追加や削除、置換をすることが可能である。

【0090】

また、上記の各構成、機能部、処理部、処理手段等は、それらの一部または全部を、例えば、集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、ＳＳＤ（Solid State Drive）等の記録装置、
ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

【0091】

また、以上に説明した各情報処理装置の各種機能部、各種処理部、各種データベースの配置形態は一例に過ぎない。各種機能部、各種処理部、各種データベースの配置形態は、これらの装置が備えるハードウェアやソフトウェアの性能、処理効率、通信効率等の観点から最適な配置形態に変更し得る。

【0092】

また、前述した各種のデータを格納するデータベースの構成（スキーマ（Schema）等）は、リソースの効率的な利用、処理効率向上、アクセス効率向上、検索効率向上等の観点から柔軟に変更し得る。

【符号の説明】

【0093】

１固有表現分類装置、１１０記憶部、１１１文書情報、１１２固有表現情報、１１２１推論モデルパラメータ、１１２２推論結果表、１１３正誤判定情報、１１３１正誤判定表、１１３２判定結果別特徴量表、１１３３特徴量分析表、１１４固有表現情報（修正）、１１４１修正推論モデルパラメータ、１１４２固有表現辞書、１２０情報抽出部、１２１固有表現＆特徴量抽出部、１２２学習部、１２３推論部、１３０正誤判定部、１３１判定対象選択部、１３２特徴量分析部、１４０モデル修正部、１４１特徴量修正部、１４２検証処理部、１５０辞書生成部

【図1】