IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2023-103796固有表現抽出システム、固有表現抽出方法、及び固有表現抽出プログラム
<>
  • 特開-固有表現抽出システム、固有表現抽出方法、及び固有表現抽出プログラム 図1
  • 特開-固有表現抽出システム、固有表現抽出方法、及び固有表現抽出プログラム 図2
  • 特開-固有表現抽出システム、固有表現抽出方法、及び固有表現抽出プログラム 図3
  • 特開-固有表現抽出システム、固有表現抽出方法、及び固有表現抽出プログラム 図4
  • 特開-固有表現抽出システム、固有表現抽出方法、及び固有表現抽出プログラム 図5
  • 特開-固有表現抽出システム、固有表現抽出方法、及び固有表現抽出プログラム 図6
  • 特開-固有表現抽出システム、固有表現抽出方法、及び固有表現抽出プログラム 図7
  • 特開-固有表現抽出システム、固有表現抽出方法、及び固有表現抽出プログラム 図8
  • 特開-固有表現抽出システム、固有表現抽出方法、及び固有表現抽出プログラム 図9
  • 特開-固有表現抽出システム、固有表現抽出方法、及び固有表現抽出プログラム 図10
  • 特開-固有表現抽出システム、固有表現抽出方法、及び固有表現抽出プログラム 図11
  • 特開-固有表現抽出システム、固有表現抽出方法、及び固有表現抽出プログラム 図12
  • 特開-固有表現抽出システム、固有表現抽出方法、及び固有表現抽出プログラム 図13
  • 特開-固有表現抽出システム、固有表現抽出方法、及び固有表現抽出プログラム 図14
  • 特開-固有表現抽出システム、固有表現抽出方法、及び固有表現抽出プログラム 図15
  • 特開-固有表現抽出システム、固有表現抽出方法、及び固有表現抽出プログラム 図16
  • 特開-固有表現抽出システム、固有表現抽出方法、及び固有表現抽出プログラム 図17
  • 特開-固有表現抽出システム、固有表現抽出方法、及び固有表現抽出プログラム 図18
  • 特開-固有表現抽出システム、固有表現抽出方法、及び固有表現抽出プログラム 図19
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023103796
(43)【公開日】2023-07-27
(54)【発明の名称】固有表現抽出システム、固有表現抽出方法、及び固有表現抽出プログラム
(51)【国際特許分類】
   G06F 40/295 20200101AFI20230720BHJP
   G06F 40/216 20200101ALI20230720BHJP
【FI】
G06F40/295
G06F40/216
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2022004528
(22)【出願日】2022-01-14
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110002365
【氏名又は名称】弁理士法人サンネクスト国際特許事務所
(72)【発明者】
【氏名】横手 健一
(72)【発明者】
【氏名】浅野 優
(72)【発明者】
【氏名】今一 修
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091AA15
(57)【要約】
【課題】テキストに対してより一貫性が高い固有表現ラベルを付与する。
【解決手段】入力テキストから固有表現を抽出する固有表現抽出システムは、入力テキストに含まれる各単語に付与される固有表現を推定する固有表現推定部と、入力テキストから単語対を抽出する単語対抽出部と、単語対抽出部によって抽出された単語対の各単語の特徴量を計測する特徴量計測部と、特徴量計測部によって計測された特徴量に基づいて、固有表現推定部によって推定された単語対の各単語に付与される固有表現に一貫性があるか否かを推定する固有表現一貫性推定部とを有する。
【選択図】図2
【特許請求の範囲】
【請求項1】
入力テキストから固有表現を抽出する固有表現抽出システムであって、
前記入力テキストに含まれる各単語に付与される固有表現を推定する固有表現推定部と、
前記入力テキストから単語対を抽出する単語対抽出部と、
前記単語対抽出部によって抽出された単語対の各単語の特徴量を計測する特徴量計測部と、
前記特徴量計測部によって計測された特徴量に基づいて、前記固有表現推定部によって推定された前記単語対の各単語に付与される固有表現に一貫性があるか否かを推定する固有表現一貫性推定部と
を有することを特徴とする固有表現抽出システム。
【請求項2】
請求項1に記載の固有表現抽出システムであって、
前記特徴量は、前記単語対の各単語の文字特徴量、意味特徴量、及び、前記入力テキスト内における位置特徴量のうちの少なくとも一つである
ことを特徴とする固有表現抽出システム。
【請求項3】
請求項1に記載の固有表現抽出システムであって、
前記単語対抽出部によって前記入力テキストから抽出された単語対の各単語に基づく別テキストを生成する別テキスト生成部を有し、
前記単語対抽出部は、前記別テキストから単語対を抽出し、
前記特徴量計測部は、前記単語対抽出部によって前記別テキストから抽出された単語対の各単語の特徴量を計測し、
前記固有表現一貫性推定部は、前記特徴量計測部によって計測された前記入力テキスト及び前記別テキストのそれぞれから抽出された単語対の各単語の特徴量に基づいて前記単語対に付与される固有表現に一貫性があるか否かを推定する
ことを特徴とする固有表現抽出システム。
【請求項4】
請求項3に記載の固有表現抽出システムであって、
前記別テキスト生成部は、前記単語対抽出部によって前記入力テキストから抽出された単語対の各単語に対して所定操作を行うことで、該単語対の各単語に基づく別テキストを生成する
ことを特徴とする固有表現抽出システム。
【請求項5】
請求項3に記載の固有表現抽出システムであって、
前記別テキスト生成部は、前記単語対抽出部によって前記入力テキストから抽出された単語対の各単語が含まれる前記別テキストを、外部情報源から収集する
ことを特徴とする固有表現抽出システム。
【請求項6】
請求項3に記載の固有表現抽出システムであって、
前記別テキスト生成部は、前記単語対抽出部によって前記入力テキストから抽出された単語対の各単語が含まれる前記別テキストを、文章生成モデルを用いて生成する
ことを特徴とする固有表現抽出システム。
【請求項7】
請求項1に記載の固有表現抽出システムであって、
前記固有表現一貫性推定部によって付与される固有表現に一貫性があると推定された前記単語対の各単語と、各単語に対して付与された固有表現のラベルの履歴を可視化する単語対可視化部を有し、
前記単語対可視化部は、前記固有表現に一貫性があると推定された前記単語対の各単語に対して付与する前記固有表現のラベルを修正して統一する
ことを特徴とする固有表現抽出システム。
【請求項8】
請求項7に記載の固有表現抽出システムであって、
前記単語対可視化部は、ユーザ操作に応じて、前記固有表現に一貫性があると推定された前記単語対の各単語に対して付与する前記固有表現のラベルを統一する
ことを特徴とする固有表現抽出システム。
【請求項9】
請求項7に記載の固有表現抽出システムであって、
前記単語対可視化部は、前記履歴に基づいて、何れのラベルで前記固有表現のラベルを統一するかを判定し、判定結果に応じて前記固有表現のラベルを統一する
ことを特徴とする固有表現抽出システム。
【請求項10】
請求項7に記載の固有表現抽出システムであって、
前記単語対可視化部は、前記ラベルの修正履歴を蓄積し、該修正履歴を可視化する
ことを特徴とする固有表現抽出システム。
【請求項11】
請求項10に記載の固有表現抽出システムであって、
前記単語対可視化部は、前記修正履歴に基づいて、何れのラベルで前記固有表現のラベルを統一するかを判定し、判定結果に応じて前記固有表現のラベルを統一する
ことを特徴とする固有表現抽出システム。
【請求項12】
入力テキストから固有表現を抽出する固有表現抽出システムが行う固有表現抽出方法であって、
前記入力テキストに含まれる各単語に付与される固有表現を推定する固有表現推定ステップと、
前記入力テキストから単語対を抽出する単語対抽出ステップと、
前記単語対抽出ステップによって抽出された単語対の各単語の特徴量を計測する特徴量計測ステップと、
前記特徴量計測ステップによって計測された特徴量に基づいて、前記固有表現推定ステップによって推定された前記単語対の各単語に付与される固有表現に一貫性があるか否かを推定する固有表現一貫性推定ステップと
を有することを特徴とする固有表現抽出方法。
【請求項13】
コンピュータを、入力テキストから固有表現を抽出する固有表現抽出システムとして機能させるための固有表現抽出プログラムであって、
前記コンピュータを、
前記入力テキストに含まれる各単語に付与される固有表現を推定する固有表現推定部、
前記入力テキストから単語対を抽出する単語対抽出部、
前記単語対抽出部によって抽出された単語対の各単語の特徴量を計測する特徴量計測部、
前記特徴量計測部によって計測された特徴量に基づいて、前記固有表現推定部によって推定された前記単語対の各単語に付与される固有表現に一貫性があるか否かを推定する固有表現一貫性推定部
として機能させるための固有表現抽出プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、固有表現抽出システム、固有表現抽出方法、及び固有表現抽出プログラムに関する。
【背景技術】
【0002】
機械学習を始めとする統計的アプローチによって、文書中から固有表現を抽出しようとする試みがある。入力テキストを形態素に分割し、形態素の品詞情報や形態素同士の依存関係を特定した後、固有表現を抽出する。例えば「胃薬を二錠服用した。」という入力テキスト中の「二錠」が「QUANTITY(数量)」(固有表現)であると特定し抽出する。例えば、この処理を行うために、テキストに対して特定すべき情報を付与したデータを教師データとして学習モデルを生成し、この学習モデルを用いて文書中から固有表現を抽出することが行われている(例えば特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特願2004-046775号公報
【特許文献2】特開2007-148785号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら特許文献1に開示の方法では、常に正しい結果を出力するとは限らない。機械学習をはじめとする統計的アプローチは、ある単語には正しく固有表現ラベルを付与する一方で、同じ固有表現ラベルを付与すべき別の単語には付与しないといったことがある。例えば、「胃薬を二錠服用した。」を入力した時に「二錠」に対して「QUANTITY(数量)」の固有表現ラベルが付与される一方で、「風邪薬を一錠服用した。」の「一錠」には「QUANTITY(数量)」の固有表現ラベルが付与されないということが起こる。また例えば、「2008年」、「2010年」、「2014年」に対して、「2008年」と「2010年」には「DATE(年月日)」の固有表現ラベルが付与されるが、「2014年」には「DATE(年月日)」の固有表現ラベルが付与されないといったことが起こる。このように固有表現の抽出及びラベル付与に関して、一貫性がないという問題がある。
【0005】
これに関して、特許文献2に開示の方法では、固有表現の出現頻度に基づく固有表現の重みに基づいて固有表現を抽出することで、固有表現の一貫性を維持しようとしている。しかし、特許文献2に開示の方法では、抽出されるべき固有表現であっても出現頻度が低いと抽出されず、固有表現の抽出及びラベル付与について、依然として一貫性が低いという問題がある。
【0006】
本発明は、上記に鑑みてなされたものであり、テキストに対してより一貫性が高い固有表現ラベルを付与することを一つの目的とする。
【課題を解決するための手段】
【0007】
上述した課題を解決するため、本発明の一態様では、入力テキストから固有表現を抽出する固有表現抽出システムであって、前記入力テキストに含まれる各単語に付与される固有表現を推定する固有表現推定部と、前記入力テキストから単語対を抽出する単語対抽出部と、前記単語対抽出部によって抽出された単語対の各単語の特徴量を計測する特徴量計測部と、前記特徴量計測部によって計測された特徴量に基づいて、前記固有表現推定部によって推定された前記単語対の各単語に付与される固有表現に一貫性があるか否かを推定する固有表現一貫性推定部とを有することを特徴とする。
【発明の効果】
【0008】
本発明の一態様によれば、例えば、テキストに対してより一貫性が高い固有表現ラベルを付与することができる。
【図面の簡単な説明】
【0009】
図1】実施形態に係る固有表現抽出システムを実現する計算機のハードウェア図である。
図2】固有表現抽出システムの構成を示すブロック図である。
図3】文字特徴量DBのデータの構成例を示す図である。
図4】位置特徴量DBのデータの構成例を示す図である。
図5】意味特徴量DBのデータの構成例を示す図である。
図6】入力テキストDBのデータの構成例を示す図である。
図7】別テキストDBのデータの構成例を示す図である。
図8】統計情報DBのデータの構成例を示す図である。
図9】実施形態に係る固有表現抽出システムの固有表現抽出処理手順を示すフローチャートである。
図10】テキスト解析処理の詳細手順を示すフローチャートである。
図11】固有表現推定処理の詳細手順を示すフローチャートである。
図12】単語対抽出処理の詳細手順を示すフローチャートである。
図13】別テキスト生成処理の詳細手順を示すフローチャートである。
図14】文字特徴量計測処理の詳細手順を示すフローチャートである。
図15】位置特徴量計測処理の詳細手順を示すフローチャートである。
図16】意味特徴量計測処理の詳細手順を示すフローチャートである。
図17】固有表現一貫性推定処理の詳細手順を示すフローチャートである。
図18】単語対可視化処理の詳細手順を示すフローチャートである。
図19】単語対可視化処理の動作結果を示す図である。
【発明を実施するための形態】
【0010】
以下、本発明の実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は、図面を含めて例示に過ぎず、本願の開示技術を限定するものではない。また、実施形態の中で説明されている諸要素及びその組合せの全てが、発明の解決手段に必須であるとは限らない。また、発明の構成に必須だが周知である構成については、図示及び説明を省略する場合がある。また、各図に示す各要素の数は一例であって、図示に限られるものではない。
【0011】
以下の説明において、プログラムは、計算機のような装置にインストールされてもよいし、例えば、プログラム配布サーバ又は計算機が読取り可能な(例えば非一時的な)記録媒体にあってもよい。また、以下の説明において、2以上のプログラムが1つのプログラムとして実現されてもよいし、1つのプログラムが2以上のプログラムとして実現されてもよい。
【0012】
また、以下の説明において、CPU(Central Processing Unit)は、1又は複数である。CPUに代表されるマイクロプロセッサに限らず、GPU(Graphics Processing Unit)のような他種のプロセッサでもよい。また、CPUは、シングルコアでもよいしマルチコアでもよい。また、CPUは、処理の一部又は全部を行うハードウェア回路(例えばFPGA(Field-Programmable Gate Array)又はASIC(Application Specific Integrated Circuit))といった広義のプロセッサでも代替できる。以下の説明において「xxx部」と呼ばれる構成は、CPUとメモリとの協働によるプログラム実行によって実現される機能部である。
【0013】
また、以下の説明において、「xxxDB(Data Base)」のように情報をデータベースのテーブル形式で説明するが、情報はどのような構造のデータでもよい。従って、「xxxDB」は「xxx情報」と言うことができる。また、以下の説明において、各テーブルの構成は一例であり、一つのテーブルは、二つ以上のテーブルに分割されてもよいし、二つ以上のテーブルの全部又は一部が一つのテーブルにまとめられてもよい。
【0014】
(計算機100のハードウェア構成)
図1は、本実施形態に係る固有表現抽出システムSを実現する計算機100のハードウェア図である。本実施形態では、固有表現抽出システムSは、各処理に応じたプログラムが、CPU110、メモリ120、及びハードディスクドライブ130等のコンピュータハードウェア資源を用いて実行されることによって実現される。例えば、固有表現抽出処理は、ハードディスクドライブ130に記憶された本実施形態に係る固有表現抽出プログラムがCPU110により実行されることによって実現される。
【0015】
入力デバイス140は、キーボードやその他の入力装置である。出力デバイス150は、各種の処理結果を出力するディスプレイやその他の出力装置である。ネットワークデバイス160は、計算機100が外部の機器やコンピュータと通信を行うための通視認たーフェースである。なお、固有表現抽出システムSの実現態様は、図1のように限定されるものではなく、通信可能に接続された複数の計算機100を含んで構成されてもよい。
【0016】
(固有表現抽出システムSの構成)
図2は、固有表現抽出システムSの構成を示すブロック図である。固有表現抽出システムSは、計算機を利用したテキスト処理を行う。具体的には、固有表現抽出システムSは、ユーザ端末200からの入力テキストを受け付け、入力テキストから別テキストを生成し、入力テキストと別テキストにおける単語の文字特徴量、位置特徴量、及び意味特徴量を計測した上で、単語対の固有表現の一貫性の有無を推定し、その推定結果と過去の固有表現ラベルの付与状況の統計情報を可視化するものである。なお本実施形態では、単語の特徴量として、文字特徴量、位置特徴量、及び意味特徴量の3つを挙げるが、単語の特徴を表すものであればこれらの特徴量に限られない。
【0017】
固有表現抽出システムSは、特徴量DB(Data Base)210、テキスト情報DB220、統計情報DB230、制御部240、及び単語対可視化部250を有する。
【0018】
特徴量情報DB210は、単語対の一貫性を判定するために用いる特徴量に関連付くデータを格納する。特徴量情報DB210は、単語対の文字特徴量を格納する文字特徴量DB211と、単語対の位置特徴量を格納する位置特徴量DB212と、単語対の意味特徴量を格納する意味特徴量DB213とを有する。
【0019】
テキスト情報DB220は、入力テキストと、入力テキストから生成した別テキストに関連付くデータを格納する。テキスト情報DB220は、入力テキストの固有表現付与結果を格納する入力テキストDB221と、入力テキストから生成した別テキストの固有表現付与結果を格納する別テキストDB222とを有する。
【0020】
制御部240は、テキスト解析部241、単語対抽出部242、別テキスト生成部243、文字特徴量計測部244、位置特徴量計測部245、意味特徴量計測部246、固有表現推定部247、及び固有表現一貫性推定部248を有する。
【0021】
テキスト解析部241は、ユーザ端末200から入力された入力テキストを受け取り、入力テキストを単語に分解して入力テキストに含まれる単語集合を生成し、各単語の品詞情報及び依存関係を特定し、入力テキストDB221に格納する。
【0022】
単語対抽出部242は、入力テキストの単語集合から単語対を選定し、入力テキストDB221に格納する。
【0023】
別テキスト生成部243は、入力テキストを用いて別テキストを生成し、別テキストDB222に格納する。例えば、別テキスト生成部243は、入力テキストから抽出した単語対を含んだ別テキストを、インターネットクローリング等の外部情報源から収集したり、文章生成モデルを用いて生成したりする等して、できるだけ多く生成する。
【0024】
入力テキストだけでは情報量が不十分である。そこで、入力テキストから抽出した単語対を含んだ別テキストをできるだけ多く生成し、別テキストベースの単語対の特徴量を基により多くの類似性を見ることで、固有表現の一貫性を判断する単語の類似性の判断精度を上げることができる。
【0025】
文字特徴量計測部244は、単語の文字特徴量を計測し、計測した文字特徴量を文字特徴量DB211に格納する。位置特徴量計測部245は、単語の位置特徴量を計測し、計測した位置特徴量を位置特徴量DB212に格納する。意味特徴量計測部246は、単語の意味特徴量を計測し、計測した意味特徴量を意味特徴量DB213に格納する。
【0026】
固有表現推定部247は、入力テキストに含まれる固有表現を推定し、推定した固有表現を入力テキストDB221に格納する。固有表現一貫性推定部248は、特徴量情報DB210とテキスト情報DB220を用いて、単語対の固有表現一貫性を推定する。単語対可視化部250は、固有表現一貫性を認識した単語対と、単語対に関する統計情報等を可視化するように画面表示する。単語対可視化部250は、制御部240と一体であってもよい。
【0027】
(文字特徴量DB211のデータの構成)
図3は、文字特徴量DB211のデータの構成例を示す図である。文字特徴量DB211のデータは、1以上の「文字特徴量」レコードを含んで構成される。「文字特徴量」レコードは、「単語対ID」「単語内容」「抽出元入力テキストID」「抽出元別テキストID」「文字特徴量(テキスト)」「文字特徴量(ベクトル)」等の複数のフィールドから構成される。
【0028】
「単語対ID」は、単語が属する単語対を一意に識別する値を保持する。「単語内容」は、単語の内容を保持する。「抽出元入力テキストID」は、該当の単語が入力テキストから抽出されたものである場合に該当の入力テキストのIDを保持し、該当の単語が別テキストから抽出されたものである場合には空の値を保持する。「抽出元別テキストID」は、該当の単語が別テキストから抽出されたものである場合に該当の別テキストのIDを保持し、該当の単語が入力テキストから抽出されたものである場合には空の値を保持する。
【0029】
「文字特徴量(テキスト)」は、該当の単語から計測された特徴量のうちテキストで表現される特徴量を保持する。例えば「文字特徴量(テキスト)」は、文字の読み仮名を保持するが、これに限定されない。「文字特徴量(ベクトル)」は、該当の単語から計測された特徴量のうちベクトルで表現される特徴量を保持する。例えば「文字特徴量(ベクトル)」は、ニューラルネットを用いて計測された文字の分散表現を保持するが、これに限定されない。
【0030】
図4は、位置特徴量DB212のデータの構成例を示す図である。位置特徴量DB212のデータは、1以上の「位置特徴量」レコードを含んで構成される。「位置特徴量」レコードは、「単語対ID」「単語内容」「抽出元入力テキストID」「抽出元別テキストID」「位置特徴量(数値)」「位置特徴量(ベクトル)」等の複数のフィールドから構成される。
【0031】
位置特徴量DB212の「単語対ID」「単語内容」「抽出元入力テキストID」「抽出元別テキストID」は、文字特徴量DB211の「単語対ID」「単語内容」「抽出元入力テキストID」「抽出元別テキストID」のそれぞれと同様である。
【0032】
「位置特徴量(数値)」は、該当の単語から計測された位置の特徴量のうち数値で表現される特徴量を保持する。例えば「位置特徴量(数値)」は、該当の単語が該当のテキスト中の先頭から何番目に出現した単語であるかに関する情報を保持するが、これに限定されない。「位置特徴量(ベクトル)」は、該当の単語から計測された位置の特徴量のうちベクトルで表現される特徴量を保持する。例えば「位置特徴量(ベクトル)」は、該当の単語と依存関係にある単語に対してニューラルネットを用いて計測された分散表現を保持するが、これに限定されない。
【0033】
図5は、意味特徴量DB213のデータの構成例を示す図である。意味特徴量DB213のデータは、1以上の「意味特徴量」レコードを含んで構成される。「意味特徴量」レコードは、「単語対ID」「単語内容」「抽出元入力テキストID」「抽出元別テキストID」「意味特徴量(数値)」「意味特徴量(ベクトル)」等の複数のフィールドから構成される。
【0034】
意味特徴量DB213の「単語対ID」「単語内容」「抽出元入力テキストID」「抽出元別テキストID」は、文字特徴量DB211、位置特徴量DB212の「単語対ID」「単語内容」「抽出元入力テキストID」「抽出元別テキストID」のそれぞれと同様である。
【0035】
「意味特徴量(数値)」は、該当の単語から計測された意味の特徴量のうち数値で表現される特徴量を保持する。例えば「意味特徴量(数値)」は、該当の単語が「一錠」のとき、それを数量とみなした値として「1」を保持するが、これに限定されない。「意味特徴量(ベクトル)」は、該当の単語から計測された意味の特徴量のうちベクトルで表現される特徴量を保持する。例えば「意味特徴量(ベクトル)」は、該当の単語に対してニューラルネットを用いて計測された分散表現を保持するが、これに限定されない。
【0036】
図6は、入力テキストDB221のデータの構成例を示す図である。入力テキストDB221のデータは、1以上の「単語情報」レコードを含んで構成される。「単語情報」レコードは、「テキストID」「単語ID」「単語対ID」「単語内容」「テキスト内単語インデックス」「品詞情報」「依存関係情報」「推定固有表現ラベル」等の複数のフィールドから構成される。
【0037】
「テキストID」は、ユーザ端末200から入力された入力テキストを一意に識別するための値を保持する。「単語ID」は、該当の入力テキストから抽出した単語を一意に識別するための値を保持する。入力テキストDB221の「単語対ID」「単語内容」は、文字特徴量DB211、位置特徴量DB212、意味特徴量DB213の「単語対ID」「単語内容」と同様である。
【0038】
「テキスト内単語インデックス」は、該当の単語が該当の入力テキスト中の先頭から何番目に出現した単語であるかに関する情報を保持する。「品詞情報」は、該当の単語の品詞種別を保持する。「依存関係情報」は、該当の単語と依存関係にある同一の入力テキスト内の単語を保持する。「推定固有表現ラベル」は、該当の単語に対して推定した固有表現ラベルの情報を保持する。
【0039】
図7は、別テキストDB222のデータの構成例を示す図である。別テキストDB222のデータは、1以上の「単語情報」レコードを含んで構成される。「単語情報」レコードは、「テキストID」「単語ID」「単語対ID」「単語内容」「テキスト内単語インデックス」「品詞情報」「依存関係情報」「推定固有表現ラベル」の複数のフィールドから構成される。
【0040】
「テキストID」は、ユーザ端末200から入力された入力テキストを基に生成された別テキストを一意に識別するための値を保持する。「単語ID」は、該当の別テキストから抽出した単語を一意に識別するための値を保持する。別テキストDB222の「単語対ID」「単語内容」は、入力テキストDB221の「単語対ID」「単語内容」と同様である。
【0041】
「テキスト内単語インデックス」は、該当の単語が該当の別テキスト中の先頭から何番目に出現した単語であるかに関する情報を保持する。「品詞情報」は、該当の単語の品詞種別を保持する。「依存関係情報」は、該当の単語と依存関係にある同一の該当テキスト内の単語を保持する。「推定固有表現ラベル」は、該当の単語に対して推定した固有表現ラベルの情報を保持する。
【0042】
図8は、統計情報DB230のデータの構成例を示す図である。統計情報DB230のデータは、1以上の「統計情報」レコードを含んで構成される。「統計情報」レコードは、「統計情報ID」「単語内容」「推定固有表現ラベル」「最終付与固有表現ラベル」等の複数のフィールドから構成される。
【0043】
「統計情報ID」は、「統計情報」レコードを一意に識別するための値を保持する。「単語内容」は、単語の内容を保持する。「推定固有表現ラベル」は、単語に対して推定された固有表現の情報を保持する。「最終付与固有表現ラベル」は、ユーザ端末200からの操作で最終的に付与が確定された固有表現の情報を保持する。
【0044】
図9は、実施形態に係る固有表現抽出システムSにおける固有表現抽出処理手順を示すフローチャートである。先ずS11では、固有表現抽出システムSは、ユーザ端末200からの入力テキストの入力を受け付け、入力テキストのテキスト解析処理を行う。テキスト解析処理の詳細は、図10を参照して後述する。
【0045】
次にS12では、固有表現抽出システムSは、S901で得られた単語集合の各単語に対する固有表現を推定する固有表現推定処理を行う。固有表現推定処理の詳細は、図11を参照して後述する。次にS13では、固有表現抽出システムSは、S901で受け付けた入力テキストから単語対を選定し抽出する単語対抽出処理を行う。単語対抽出処理の詳細は、図12を参照して後述する。
【0046】
次にS14では、固有表現抽出システムSは、S11で入力を受け付けた入力テキストを用いて別テキストを生成する別テキスト生成処理を行う。別テキスト生成処理の詳細は、図13を参照して後述する。次にS15では、固有表現抽出システムSは、S903で抽出した単語対の各単語に対して文字特徴量を計測する文字特徴量計測処理を行う。文字特徴量計測処理の詳細は、図14を参照して後述する。
【0047】
次にS16では、固有表現抽出システムSは、S13で抽出した単語対の各単語の位置特徴量を計測する位置特徴量計測処理を行う。位置特徴量計測処理の詳細は、図15を参照して後述する。次にS17では、固有表現抽出システムSは、S13で抽出した単語対の各単語の意味特徴量を計測する意味特徴量計測処理を行う。意味特徴量計測処理の詳細は、図16を参照して後述する。
【0048】
次にS18では、固有表現抽出システムSは、S13で抽出した単語対の固有表現の一貫性を推定する固有表現一貫性推定処理を行う。固有表現一貫性推定処理の詳細は、図17を参照して後述する。
【0049】
次にS19では、固有表現抽出システムSは、S13で抽出した単語対に付与する固有値表現ラベルをユーザが決定可能にユーザ端末200の表示画面に表示する可視化処理を行う。可視化処理の詳細は、図18及び図19を参照して後述する。
【0050】
最後にS20では、固有表現抽出システムSは、ユーザ端末200から追加情報の入力を受け付けた場合には(S20YES)、S11に処理を戻し、テキスト解析処理を再度実行する一方、追加情報の入力が無い場合には(S20:NO)、固有表現抽出処理を終了する。
【0051】
(テキスト解析処理の詳細)
図10は、テキスト解析処理S11(図9)の詳細手順を示すフローチャートである。テキスト解析処理S11は、テキスト解析部241(図2)によって実行される。
【0052】
先ずS11aでは、テキスト解析部241は、ユーザ端末200から入力された入力テキストを受信する。次にS11bでは、テキスト解析部241は、入力テキストから単語の集合を生成する。S11bでは、入力テキストからの単語の抽出は、形態素解析等の既存手法を用いるが、これに限定されない。
【0053】
次にS11cでは、テキスト解析部241は、S11bで抽出された単語のうち品詞情報及び依存関係情報が特定されてない単語があるか否かを判定する。テキスト解析部241は、品詞情報及び依存関係情報が特定されてない単語がある場合(S11cYES)にS11dへ処理を移し、品詞情報及び依存関係情報が特定されてない単語がない場合(S11cNO)にテキスト解析処理を終了する。
【0054】
S11dでは、テキスト解析部241は、S11cで品詞情報が特定されてないとされた単語の品詞情報を特定する。品詞情報の特定は、形態素解析等の既存手法を用いるが、これに限定されない。次にS11eでは、テキスト解析部241は、S11cで依存関係情報が特定されていないとされた単語の依存関係を特定する。単語の依存関係の特定は、構文解析等の既存手法を用いるが、これに限定されない。次にS11fでは、テキスト解析部241は、重複も含めてS11bで抽出した全ての単語とその品詞情報及び依存関係情報とを対応付けて、ソースである入力テキストのIDと共に入力テキストDB221(図2図6)へ格納する。
【0055】
(固有表現推定処理の詳細)
図11は、固有表現推定処理S12(図9)の詳細手順を示すフローチャートである。固有表現推定処理S12は、固有表現推定部247(図2)によって実行される。
【0056】
先ずS12aでは、固有表現推定部247は、ユーザ端末200から入力テキストのテキストIDの入力を受信する。次にS12bでは、固有表現推定部247は、入力テキストDB221から単語の集合を取得する。次にS12cでは、固有表現推定部247は、固有表現が推定されていない単語があるかを判定する。固有表現推定部247は、固有表現が推定されていない単語がある場合(S12cYES)にステップS12dへ処理を移し、全ての単語の固有表現が推定されている場合(S12cNO)に固有表現推定処理を終了する。
【0057】
S12dでは、固有表現推定部247は、未推定の単語の固有表現を推定する。単語の固有表現の特定は、固有表現抽出技術等の既存手法を用いるが、これに限定されない。次にS12eでは、固有表現推定部247は、S12dで推定した単語の固有表現又は固有表現を識別する固有表現ラベルを、該当の単語に対応付けて入力テキストDB221(図2図6)へ格納する。固有表現推定部247は、S12eが終了するとS12cへ処理を移す。
【0058】
(単語対抽出処理の詳細)
図12は、単語対抽出処理S13(図9)の詳細手順を示すフローチャートである。単語対抽出処理S13は、単語対抽出部242(図2)によって実行される。
【0059】
先ずS13aでは、単語対抽出部242は、ユーザ端末200から入力テキストのテキストIDの入力を受信する。次にS13bでは、単語対抽出部242は、入力テキストDB221から単語の集合を取得する。次にS13cでは、単語対抽出部242は、入力テキストDB221に単語対IDが入力されていない単語があるかを判定する。単語対抽出部242は、単語対IDが入力されていない単語がある場合(S13cYES)にステップS13dへ処理を移し、全ての単語対IDが入力された場合(S12cNO)に単語対抽出処理を終了する。
【0060】
S13dでは、単語対抽出部242は、S13bで取得した単語集合の中で、単語対IDが未入力の単語とペアとなる単語を選定する。ペアとなる単語の選定方法は、品詞情報が同一の単語で絞り込む方法がある。例えば、「東京に行く。京都に帰る。」という入力テキストに対して、「行く」のペアとして、同じ動詞である「帰る」を選定する。ただし、具体的な手続きは、これに限定されず、品詞情報以外の単語の属性情報に基づいて単語対を選定してもよい。
【0061】
次にS13eでは、単語対抽出部242は、S13dで選定したペアとなる単語の単語IDを、該当の単語に対応付けて入力テキストDB221(図2図6)へ格納する。単語対抽出部242は、S13eが終了するとS13cへ処理を移す。
【0062】
図13は、別テキスト生成処理S14(図9)の詳細手順を示すフローチャートである。別テキスト生成処理S14は、別テキスト生成部243(図2)によって実行される
【0063】
先ずS14aでは、別テキスト生成部243は、ユーザ端末200から単語対IDの入力を受信する。入力される単語対IDは、単語対抽出部242によって単語対抽出処理S13で抽出された全ての単語対の単語対IDである。次にS14bでは、別テキスト生成部243は、入力テキストDB221からS14aで入力された単語対IDの単語対を取得する。次にS14cでは、別テキスト生成部243は、入力テキストDB221から、S14bで取得された単語対が属する入力テキスト(単語対抽出元テキスト)と同じ入力テキストIDを有する「単語情報」レコード群を取得する。
【0064】
次にS14dでは、別テキスト生成部243は、S14bで取得された単語対とS14cで取得された「単語情報」レコード群とを用いて、別テキストを生成する。別テキストの生成方法は、例えば単語対として「東京」「京都」を取得し、単語対抽出元テキストの「単語情報」レコード群として「東京」「に」「行く」「京都」「に」「帰る」を取得している場合に、「東京」と「京都」の位置を入れ替えて「京都に行く。東京に帰る。」を生成する方法等がある。ただし、このような単語の入れ替えや置換に限定されず、新規の単語の追加や単語の削除といった、単語に対するその他の操作であってもよい。または、別テキストは、言語モデルを用いて生成されてもよい。
【0065】
次にS14eでは、別テキスト生成部243は、S14dで生成された別テキストの各単語について、品詞情報、依存関係情報、及び固有表現情報が特定されていない単語があるかを判定する。別テキスト生成部243は、品詞情報、依存関係情報、及び固有表現情報が特定されていない単語がある場合(S14eYES)にS14fへ処理を移し、全ての単語の品詞情報、依存関係情報、及び固有表現情報が特定されている場合(S14eNO)に別テキスト生成処理を終了する。
【0066】
次にS14fでは、別テキスト生成部243は、S14eで特定されていないとされた単語の品詞情報を特定する。次にS14gでは、別テキスト生成部243は、S14eで特定されていないとされた単語の依存関係情報を特定する。次にS14hでは、別テキスト生成部243は、S14eで特定されていないとされた単語の固有表現情報を特定する。品詞情報、依存関係情報、及び固有表現情報の特定方法は、前述の通りである。
【0067】
次にS14iでは、別テキスト生成部243は、S14f、S14g、S14hで特定した品詞情報、依存関係情報、及び固有表現情報を、該当の単語に対応付けて別テキストDB222(図2図7)へ格納する。別テキスト生成部243は、S14iが終了すると別テキスト生成処理を終了する。
【0068】
図14は、文字特徴量計測処理S15(図9)の詳細手順を示すフローチャートである。文字特徴量計測処理は、文字特徴量計測部244(図2)によって実行される。
【0069】
先ずS15aでは、文字特徴量計測部244は、ユーザ端末200から単語対IDの入力を受信する。入力される単語対IDは、単語対抽出部242によって単語対抽出処理S13で抽出された全ての単語対の単語対IDである。次にS15bでは、文字特徴量計測部244は、入力テキストDB221からS15aで入力された単語対IDの単語対の各「単語情報」レコードを取得する。次にS15cでは、文字特徴量計測部244は、入力テキストDB221から、S15bで取得された単語対の各単語の文字特徴量を取得する。文字特徴量の取得方法は、例えば、文字の読み仮名を取得したり、ニューラルネットを用いて文字の分散表現を計測したりする方法があるが、これらに限定されない。S15dでは、文字特徴量計測部244は、S15cで取得された文字特徴量を、各単語IDに対応付けて文字特徴量DB211(図2図3)に格納する。
【0070】
次にS15eでは、文字特徴量計測部244は、別テキストDB221から、S15aで入力された単語対IDの単語対の各「単語情報」レコードを取得する。次にS15fでは、文字特徴量計測部244は、別テキストDB222から、S15eで取得された単語対の各単語の文字特徴量を取得する。ここでの文字特徴量の取得方法は、S15cと同様である。S15gでは、文字特徴量計測部244は、S15fで取得された文字特徴量を、各単語IDに対応付けて文字特徴量DB211(図2図3)に格納する。
【0071】
図15は、位置特徴量計測処理S15(図9)の詳細手順を示すフローチャートである。位置特徴量計測処理は、位置特徴量計測部245(図2)によって実行される。
【0072】
先ずS16aでは、位置特徴量計測部245は、ユーザ端末200から単語対IDの入力を受信する。入力される単語対IDは、単語対抽出部242によって単語対抽出処理S13で抽出された全ての単語対の単語対IDである。次にS16bでは、位置特徴量計測部245は、入力テキストDB221からS16aで入力された単語対IDの単語対の各「単語情報」レコードを取得する。次にS16cでは、位置特徴量計測部245は、入力テキストDB221から、S16bで取得された単語対の各単語の位置特徴量を取得する。位置特徴量の取得方法は、例えば、単語がテキスト中の先頭から何番目に出現したかを評価したり、単語と依存関係にある単語に対してニューラルネットを用いて分散表現を計測したりする方法があるが、これらに限定されない。S16dでは、位置特徴量計測部245は、S16cで取得された位置特徴量を、各単語IDに対応付けて位置特徴量DB212(図2図4)に格納する。
【0073】
次にS16eでは、位置特徴量計測部245は、別テキストDB221から、S16aで入力された単語対IDの単語対の各「単語情報」レコードを取得する。次にS16fでは、位置特徴量計測部245は、別テキストDB222から、S16eで取得された単語対の各単語の位置特徴量を取得する。ここでの位置特徴量の取得方法は、S16cと同様である。S16gでは、位置特徴量計測部245は、S16fで取得された位置特徴量を、各単語IDに対応付けて位置特徴量DB212(図2図4)に格納する。
【0074】
図16は、意味特徴量計測処理S17(図9)の詳細手順を示すフローチャートである。意味特徴量計測処理は、意味特徴量計測部246(図2)によって実行される。
【0075】
先ずS17aでは、意味特徴量計測部246は、ユーザ端末200から単語対IDの入力を受信する。入力される単語対IDは、単語対抽出部242によって単語対抽出処理S13で抽出された全ての単語対の単語対IDである。次にS17bでは、意味特徴量計測部246は、入力テキストDB221からS17aで入力された単語対IDの単語対の各「単語情報」レコードを取得する。次にS17cでは、意味特徴量計測部246は、入力テキストDB221から、S17bで取得された単語対の各単語の意味特徴量を取得する。意味特徴量の取得方法は、例えば、単語に対してニューラルネットを用いて分散表現を計測する方法があるが、これに限定されない。S17dでは、意味特徴量計測部246は、S17cで取得された意味特徴量を、各単語IDに対応付けて意味特徴量DB213(図2図5)に格納する。
【0076】
次にS17eでは、意味特徴量計測部246は、別テキストDB221から、S17aで入力された単語対IDの単語対の各「単語情報」レコードを取得する。次にS17fでは、意味特徴量計測部246は、別テキストDB222から、S17eで取得された単語対の各単語の位置特徴量を取得する。ここでの意味特徴量の取得方法は、S17cと同様である。S17gでは、意味特徴量計測部246は、S17fで取得された意味特徴量を、各単語IDに対応付けて意味特徴量DB213(図2図5)に格納する。
【0077】
図17は、固有表現一貫性推定処理S18(図9)の詳細手順を示すフローチャートである。固有表現一貫性推定処理は、固有表現一貫性推定部248によって実行される。
【0078】
先ずS18aでは、固有表現一貫性推定部248は、ユーザ端末200から単語対IDの入力を受信する。入力される単語対IDは、単語対抽出部242によって単語対抽出処理S13で抽出された全ての単語対の単語対IDである。次にS18bでは、固有表現一貫性推定部248は、入力テキストDB221からS18aで入力された単語対IDの単語対の各「単語情報」レコードを取得する。次にS18cでは、固有表現一貫性推定部248は、別テキストDB221から、S18aで入力された単語対IDの単語対の各「単語情報」レコードを取得する。
【0079】
次にS18dでは、固有表現一貫性推定部248は、文字特徴量DB211(図3)を用いて、S18b及びS18cで取得された各単語の文字特徴量を取得する。次にS18eでは、固有表現一貫性推定部248は、位置特徴量DB212を用いて、S18b及びS18cで取得された各単語の位置特徴量を取得する。次にS18fでは、固有表現一貫性推定部248は、意味特徴量DB213を用いて、S18b及びS18cで取得された各単語の意味特徴量を取得する。
【0080】
次にS18gでは、固有表現一貫性推定部248は、S18b及びS18cで取得された各単語の「単語情報」レコードと、S18dで取得された文字特徴量、S18eで取得された位置特徴量、及びS18fで取得された意味特徴量に基づいて、S18bで取得された単語対の固有表現の一貫性があるかを推定する。固有表現の一貫性の推定方法は、例えば、単語同士の各特徴量の類似性を例えば特徴量ベクトルの内積に基づいて評価し、少なくとも一つの特徴量の類似性が閾値を超えた、あるいは二つ以上の特徴量の類似性の加重和が閾値を超えた場合に単語対に固有表現の一貫性があると推定する、といった判断方法がある。これは、二つの単語において文字やテキスト中の位置関係、単語の意味が類似していれば、同じ固有表現が付与されるべきだという考え方にもとづく。ただし、具体的な手続きは、これに限定されない。
【0081】
図18は、単語対可視化処理S19(図2)の詳細手順を示すフローチャートである。単語対可視化処理は、単語対可視化部250によって実行される。
【0082】
S19aでは、単語対可視化部250は、S18g(図17)において固有表現が一貫性を有すると認識された単語対の単語対IDを受信する。例えば入力される単語対IDは、固有表現一貫性推定部248によって固有表現一貫性推定処理S18で固有表現が一貫性ありと推定されたものの、付与されている固有表現ラベルに揺らぎがある全ての単語対の単語対IDである。次にS19bでは、単語対可視化部250は、入力テキストDB221から、S19aで受信した単語対の各単語の「単語情報」レコードを取得する。次にS19cでは、単語対可視化部250は、統計情報DB230から、単語対の各単語の「統計情報」レコードを取得する。次にS19dでは、単語対可視化部250は、単語対とそれらの統計情報を画面表示する等して可視化する。可視化の具体例は、図19を参照して後述する。
【0083】
次にS19eでは、単語対可視化部250は、ユーザ端末200から、最終付与固有表現ラベルの入力を受信する。そしてS19fでは、単語対可視化部250は、S19eで受信した最終付与固有表現ラベルの入力の結果を統計情報DB230(図2図8)に格納する。
【0084】
図19は、単語対可視化処理S19(図2)の動作結果を示す図である。図19に示すように、単語対可視化部250は、図17のS18gの処理によって固有表現の一貫性があると推定された単語対(例えば単語1:「一錠」(ラベル:無し)、単語2:「二錠」(ラベル:QUANTITY))を、単語対可視化部250に接続される出力デバイス150の一つであるディスプレイの表示画面250Dに表示する。
【0085】
表示領域250D1に表示される単語1:「一錠」は、IDがテキストID=3の「風薬を一錠服用した。」という入力テキスト又は別テキストから抽出された単語である。単語内容:「一錠」で統計情報DB230を集計すると、全13件の「一錠」のうち「推定固有表現ラベル」が付与されていない「ラベル無し」が3件、「ラベル:QUANTITY」が付与されているものが10件である。
【0086】
一方、表示領域250D2に表示される単語2:「二錠」は、IDがテキストID=8の「胃薬を二錠服用した。」という入力テキスト又は別テキストから抽出された単語である。単語内容:「二錠」で統計情報DB230を集計すると、全17件の「二錠」のうち「推定固有表現ラベル」が付与されていない「ラベル無し」が2件、「ラベル:QUANTITY」が付与されているものが15件である。表示領域250D1及び250D2に表示されている「統計情報」は、単語対の各単語に対して過去に付与された固有表現のラベルの履歴である。
【0087】
表示画面250Dの表示によれば、固有表現の一貫性があると推定された「一錠」及び「二錠」の単語対に対して、現状では、固有表現ラベルに「ラベル無し」「QUANTITY」、「QUANTITY」の揺れがある。ユーザは、表示画面250Dの表示内容を見て、固有表現の一貫性がある「一錠」及び「二錠」の単語対に対して、全て「QUANTITY」を付与するか、全て「ラベル無し」とするか、を決定する。ユーザは、全て「QUANTITY」を付与する場合にはボタン250D3を押下し、全て「ラベル無し」とする場合にはボタン250D3を押下する。
【0088】
単語対可視化部250は、ボタン250D3の押下を検知すると、統計情報DB230の単語内容:「一錠」及び「二錠」の全てのレコードの最終付与固有表現ラベルの列の値を「QUANTITY」に統一する。単語対可視化部250は、ボタン250D4の押下を検知すると、統計情報DB230の単語内容:「一錠」及び「二錠」の全てのレコードの最終付与固有表現ラベルの列の値をNULL(ラベル無し)に統一する。
【0089】
図19の例では、固有表現の一貫性を有する単語対(「一錠」及び「二錠」)のうち、「二錠」は「一錠」の類似単語であるが、ラベル:QUANTITYで固有表現の一貫性が閾値以上で「一錠」と比較して高い。よって固有表現の一貫性が相対的に低い「一錠」は、「二錠」と同様に固有表現のラベル:QUANTITYが付与されるべきであると考えられる。この場合に、訂正候補表示250D11のように、単語1「一錠」が「QUANTITY」へと固有表現ラベルが訂正されるべき候補である旨が表示されてもよい。
【0090】
このように、単語対可視化部250は、統計情報DB230内で固有表現の一貫性があると推定される単語対の各単語に付与されている推定固有表現ラベルに揺らぎがある場合、一貫性が高い単語の固有表現のラベルで、一貫性が低い単語の固有表現のラベルを統一する。すなわち、単語対可視化部250は、単語対の各単語に対して付与された固有表現のラベルの履歴に基づいて最終付与固有表現ラベルをどの推定固有表現ラベルで統一するかを判定し、判定結果に応じて固有表現のラベルを統一する。ただし、統一するラベルの判定基準は、適宜設計変更可能な事項である。
【0091】
また、単語対可視化部250は、単語対の各単語に対して付与された固有表現のラベルのユーザによる修正の履歴を蓄積し、表示画面250Dに修正の履歴を表示(可視化)してもよい。修正の履歴は、修正日時と、どのラベルからどのラベルへ修正されたかの情報を含む。この修正履歴に基づいて最終付与固有表現ラベルをどの推定固有表現ラベルで統一するかを判定し、判定結果に応じて固有表現のラベルを統一してもよい。例えば過去に修正によって最も多く付与された推定固有表現ラベルで統一すると判定するが、統一するラベルの判定基準は、適宜設計変更可能な事項である。
【0092】
上述の実施形態では、先ず入力テキストの各単語に対して固有表現を推定し、次に入力テキスト中の単語対に対して文字特徴量、位置特徴量、及び意味特徴量を計測し、それらを用いて単語対に付与するべき固有表現の一貫性を判定する。このため、最初の推定で正しい固有表現の推定結果を得られなくても、一貫性の高い固有表現を付与することができる。
【0093】
また上述の実施形態では、単語対の各単語の文字特徴量、意味特徴量、及び、位置特徴量のうちの少なくとも一つであることから、多様な特徴量を用いて固有表現の一貫性を推定できる。
【0094】
また上述の実施形態では、入力テキスト及び入力テキストに基づいて生成された別テキストのそれぞれから抽出された単語対の各単語の特徴量に基づいて単語対に付与される固有表現に一貫性があるか否かを推定する。よって、固有表現の一貫性を判断するための情報量を増やすことで、固有表現の一貫性の判断精度を向上させることができる。
【0095】
また上述の実施形態では、入力テキストから抽出された単語対の各単語に対して入替え、置換、追加、削除等の所定操作を行うことで、単語対の各単語に基づく別テキストを生成することで、別テキストを容易に生成できる。
【0096】
また上述の実施形態では、インターネットクローリング等による外部情報源から入力テキストの単語対を含むテキストを収集することで、別テキストの豊富なバリエーションを容易に増やすことができる。
【0097】
また上述の実施形態では、文章生成モデルを用いて生成することで、別テキストの豊富なバリエーションを容易に増やすことができる。
【0098】
また上述の実施形態では、付与される固有表現に一貫性があると推定された単語対の各単語と、各単語に対して付与された固有表現のラベルの履歴を可視化し、固有表現のラベルを修正して統一することで、過去の実績を反映して、一貫性が高い固有表現を付与することができる。
【0099】
また上述の実施形態では、ユーザ操作に応じて、付与する固有表現のラベルを統一することで、ユーザの知見に基づく判断を反映して、一貫性が高い固有表現を付与することができる。
【0100】
また上述の実施形態では、各単語に対して付与された固有表現のラベルの履歴に基づいて固有表現のラベルを自動統一することで、ユーザのラベル修正の負荷を軽減して、一貫性が高い固有表現を付与することができる。
【0101】
また上述の実施形態では、固有表現のラベルの修正履歴を蓄積し、修正履歴を可視化するので、過去の固有表現のラベルの修正傾向をユーザが把握することができる。
【0102】
また上述の実施形態では、固有表現のラベルの修正履歴に基づいてラベルを自動修正するので、過去の固有表現のラベルの修正傾向を反映し、かつユーザ負荷を軽減して、一貫性が高い固有表現を付与することができる。
【0103】
本発明は上述の実施形態に限定されるものではなく、様々な変形例を含む。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、矛盾しない限りにおいて、ある実施形態の構成の一部を他の実施形態の構成で置き換え、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、構成の追加、削除、置換、統合、又は分散をすることが可能である。また、実施形態で示した構成及び処理は、処理効率又は実装効率に基づいて適宜分散、統合、又は入れ替えることが可能である。
【符号の説明】
【0104】
S:固有表現抽出システム、100:計算機、241:テキスト解析部、242:単語対抽出部、243:別テキスト生成部、244:文字特徴量計測部、245:位置特徴量計測部、246:意味特徴量計測部、247;固有表現推定部、248:固有表現一貫性推定部、250:単語対可視化部。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19