特許第6554804号(P6554804)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士ゼロックス株式会社の特許一覧

<>
  • 特許6554804-情報処理装置及び情報処理プログラム 図000002
  • 特許6554804-情報処理装置及び情報処理プログラム 図000003
  • 特許6554804-情報処理装置及び情報処理プログラム 図000004
  • 特許6554804-情報処理装置及び情報処理プログラム 図000005
  • 特許6554804-情報処理装置及び情報処理プログラム 図000006
  • 特許6554804-情報処理装置及び情報処理プログラム 図000007
  • 特許6554804-情報処理装置及び情報処理プログラム 図000008
  • 特許6554804-情報処理装置及び情報処理プログラム 図000009
  • 特許6554804-情報処理装置及び情報処理プログラム 図000010
  • 特許6554804-情報処理装置及び情報処理プログラム 図000011
  • 特許6554804-情報処理装置及び情報処理プログラム 図000012
  • 特許6554804-情報処理装置及び情報処理プログラム 図000013
  • 特許6554804-情報処理装置及び情報処理プログラム 図000014
  • 特許6554804-情報処理装置及び情報処理プログラム 図000015
  • 特許6554804-情報処理装置及び情報処理プログラム 図000016
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6554804
(24)【登録日】2019年7月19日
(45)【発行日】2019年8月7日
(54)【発明の名称】情報処理装置及び情報処理プログラム
(51)【国際特許分類】
   G06F 17/27 20060101AFI20190729BHJP
【FI】
   G06F17/27 665
【請求項の数】4
【全頁数】16
(21)【出願番号】特願2015-19877(P2015-19877)
(22)【出願日】2015年2月4日
(65)【公開番号】特開2016-143300(P2016-143300A)
(43)【公開日】2016年8月8日
【審査請求日】2018年1月16日
(73)【特許権者】
【識別番号】000005496
【氏名又は名称】富士ゼロックス株式会社
(74)【代理人】
【識別番号】100115129
【弁理士】
【氏名又は名称】清水 昇
(74)【代理人】
【識別番号】100102716
【弁理士】
【氏名又は名称】在原 元司
(74)【代理人】
【識別番号】100122275
【弁理士】
【氏名又は名称】竹居 信利
(72)【発明者】
【氏名】谷口 元樹
(72)【発明者】
【氏名】大熊 智子
【審査官】 成瀬 博之
(56)【参考文献】
【文献】 特開2002−288166(JP,A)
【文献】 特開2010−117797(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/20−17/28
(57)【特許請求の範囲】
【請求項1】
固有表現の対と該対の作成日時を記憶している記憶手段と、
固有表現と該固有表現が時間変化をするか否かを示す属性を記憶している第2の記憶手段と、
前記対を含む文を対象として、該対を構成する固有表現の属性として時間変化をするものである場合であって、該文の作成日時と前記記憶手段内の該対の作成日時が予め定められた関係を有しているときは、該文内の固有表現の対は関係を有していることを示す情報を該文に付与する付与手段
を具備し、
前記付与手段は、固有表現の属性として時間変化をするものであるか否かについて、前記第2の記憶手段を用いて判断し、
前記予め定められた関係として、前記文の作成日時と前記記憶手段内の前記対の作成日時との差分が、前記固有表現毎に予め定められたしきい値未満又は以下である
ことを特徴とする情報処理装置。
【請求項2】
前記付与手段は、予め定められた関係を有していないときは、前記文内の固有表現の対は関係を有していることを示す情報を該文に付与しない
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
予め定められた規則を用いて、文から固有表現の対を抽出する抽出手段
をさらに具備し、
前記記憶手段は、前記抽出手段によって抽出された対と該抽出した日時又は前記文が作成された日時を前記作成日時として記憶する
ことを特徴とする請求項1又は2に記載の情報処理装置。
【請求項4】
コンピュータを、
固有表現の対と該対の作成日時を記憶している記憶手段と、
固有表現と該固有表現が時間変化をするか否かを示す属性を記憶している第2の記憶手段と、
前記対を含む文を対象として、該対を構成する固有表現の属性として時間変化をするものである場合であって、該文の作成日時と前記記憶手段内の該対の作成日時が予め定められた関係を有しているときは、該文内の固有表現の対は関係を有していることを示す情報を該文に付与する付与手段
として機能させ
前記付与手段は、固有表現の属性として時間変化をするものであるか否かについて、前記第2の記憶手段を用いて判断し、
前記予め定められた関係として、前記文の作成日時と前記記憶手段内の前記対の作成日時との差分が、前記固有表現毎に予め定められたしきい値未満又は以下である
情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及び情報処理プログラムに関する。
【背景技術】
【0002】
特許文献1には、精度の高い関連性データベースの構築又は拡張処理を実現する装置及び方法を提供することを課題とし、文書データから関連性ラベルを付与するエンティテイペアを含むフレーズを抽出し、抽出フレーズに含まれるエンティテイペアの関連性を示す関連性ラベルを付与し、ラベル付与部は、既存の関連性データベースの登録情報の解析によって、エンティテイペアを含むフレーズに含まれる語彙構文パターンの出現数を取得して各語彙構文パターンにおけるエンティテイペアの重なり割合行列Mを生成し、行列Mと、ラベル正当性を示すパラメータZと、ラベルが正しく付与される確率を示すパラメータaを含む確率モデルを設定し、尤度を最大にするZ、aを算出し、Zの値に基づくラベル付与を実行することが開示されている。
【0003】
非特許文献1には、関係ラベル付きコーパス作成コストを低減させることを課題とし、同一文中の固有表現(人物名、住所、組織、年齢など)のペアに対して知識源を利用して関係ラベルを付与してコーパスを自動的に作成することが開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2012−212422号公報
【非特許文献】
【0005】
【非特許文献1】M. Mintz, S. Bills, R. Snow, and D. Jurafsky. Distant supervision for relation extraction without labeled data. In Proceedings of the Association for Computational Linguistics (ACL), 2009.
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明は、文内の固有表現の対が関係を有していることを示す情報を、その文に付与する場合にあって、その固有表現が時間変化するものである場合に、関係としてふさわしくない対を関係が有ると判断してしまうことを抑制するようにした情報処理装置及び情報処理プログラムを提供することを目的としている。
【課題を解決するための手段】
【0007】
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、固有表現の対と該対の作成日時を記憶している記憶手段と、固有表現と該固有表現が時間変化をするか否かを示す属性を記憶している第2の記憶手段と、前記対を含む文を対象として、該対を構成する固有表現の属性として時間変化をするものである場合であって、該文の作成日時と前記記憶手段内の該対の作成日時が予め定められた関係を有しているときは、該文内の固有表現の対は関係を有していることを示す情報を該文に付与する付与手段を具備し、前記付与手段は、固有表現の属性として時間変化をするものであるか否かについて、前記第2の記憶手段を用いて判断し、前記予め定められた関係として、前記文の作成日時と前記記憶手段内の前記対の作成日時との差分が、前記固有表現毎に予め定められたしきい値未満又は以下であることを特徴とする情報処理装置である。
【0008】
請求項2の発明は、前記付与手段は、予め定められた関係を有していないときは、前記文内の固有表現の対は関係を有していることを示す情報を該文に付与しないことを特徴とする請求項1に記載の情報処理装置である。
【0010】
請求項の発明は、予め定められた規則を用いて、文から固有表現の対を抽出する抽出手段をさらに具備し、前記記憶手段は、前記抽出手段によって抽出された対と該抽出した日時又は前記文が作成された日時を前記作成日時として記憶することを特徴とする請求項1又は2に記載の情報処理装置である。
【0011】
請求項の発明は、コンピュータを、固有表現の対と該対の作成日時を記憶している記憶手段と、固有表現と該固有表現が時間変化をするか否かを示す属性を記憶している第2の記憶手段と、前記対を含む文を対象として、該対を構成する固有表現の属性として時間変化をするものである場合であって、該文の作成日時と前記記憶手段内の該対の作成日時が予め定められた関係を有しているときは、該文内の固有表現の対は関係を有していることを示す情報を該文に付与する付与手段として機能させ、前記付与手段は、固有表現の属性として時間変化をするものであるか否かについて、前記第2の記憶手段を用いて判断し、前記予め定められた関係として、前記文の作成日時と前記記憶手段内の前記対の作成日時との差分が、前記固有表現毎に予め定められたしきい値未満又は以下である情報処理プログラムである。
【発明の効果】
【0012】
請求項1の情報処理装置によれば、文内の固有表現の対が関係を有していることを示す情報を、その文に付与する場合にあって、その固有表現が時間変化するものである場合に、関係としてふさわしくない対を関係が有ると判断してしまうことを抑制することができる。
【0013】
請求項2の情報処理装置によれば、予め定められた関係を有していないときは、文内の固有表現の対は関係を有していることを示す情報を、その文には付与しないようにすることができる。
【0015】
請求項の情報処理装置によれば、予め定められた規則を用いて、固有表現の対を抽出することができる。
【0016】
請求項の情報処理プログラムによれば、文内の固有表現の対が関係を有していることを示す情報を、その文に付与する場合にあって、その固有表現が時間変化するものである場合に、関係としてふさわしくない対を関係が有ると判断してしまうことを抑制することができる。
【図面の簡単な説明】
【0017】
図1】第1の実施の形態の構成例についての概念的なモジュール構成図である。
図2】本実施の形態を利用したシステム構成例を示す説明図である。
図3】第1の実施の形態による処理例を示すフローチャートである。
図4】ラベル時変/時不変テーブルのデータ構造例を示す説明図である。
図5】関係テーブルのデータ構造例を示す説明図である。
図6】第1の実施の形態による処理例を示す説明図である。
図7】第1の実施の形態による処理例を示す説明図である。
図8】第1の実施の形態による処理例を示す説明図である。
図9】第1の実施の形態による処理例を示す説明図である。
図10】ラベル時変/時不変テーブルのデータ構造例を示す説明図である。
図11】関係テーブルのデータ構造例を示す説明図である。
図12】第1の実施の形態による処理例を示す説明図である。
図13】第1の実施の形態による処理例を示す説明図である。
図14】第2の実施の形態の構成例についての概念的なモジュール構成図である。
図15】本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
【発明を実施するための形態】
【0018】
以下、図面に基づき本発明を実現するにあたっての好適な各種の実施の形態の例を説明する。
図1は、第1の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
【0019】
第1の実施の形態である情報処理装置100は、文内の固有表現の対が関係を有していることを示す情報を、その文に付与するものであって、図1の例に示すように、テキストデータベース110、関係データベース120、ラベルリスト130、ラベル付与モジュール140、タグ付きコーパス150を有している。
第1の実施の形態による処理結果(関係情報が付与された文)は、自然言語処理に用いられるデータであって、例えば、機械学習分類器を訓練するためのコーパス(トレーニングコーパス)を生成するために用いられる。この場合、第1の実施の形態は、機械学習における学習データの誤りを低減させるものとなる。もちろんのことながら、これが達成されれば機械学習の精度も向上することとなる。
先行技術文献に記載された技術では、同一文中の固有表現の対(以下、ペアともいう)に対して知識源を利用して関係ラベル付けするため、本来は関係がないペアに対しても関係ラベルを付与してしまうことがある。なお、固有表現(NE:Named Entity)とは、固有名詞(人名、住所、地名、組織名等)や日付、年齢、時間表現をいう。
本実施の形態による処理の概要(処理内容の理解を容易にするための記載)は以下の通りである。関係ラベルの種別が時間変化するものなのか、不変なのかを判断し、時間変化があるラベルに対しては、ラベル付与の対象となるテキストの作成日と知識源のエントリ作成日を比較して、誤りとなりうる固有表現のペアをフィルタする。
なお、対象とする文は、1つの文であってもよいし、複数の文であってもよい。複数の文である場合は、文章、段落(パラグラフ)、章、文書等を含めてもよい。また、文として、2つの固有表現間の距離(単語数、文字数等)が、予め定められたしきい値未満又は以下であるものを含めてもよい。以下、文として、1文の例を用いて説明する。
【0020】
テキストデータベース110は、ラベル付与モジュール140と接続されている。テキストデータベース110は、固有表現を含む文(テキスト)とその文の作成日時(年、月、日、時、分、秒、秒以下、又はこれらの組み合わせであってもよい)を記憶している。例えば、固有表現タグ付き文とその文の作成日時を記憶している。具体例については、図6等の例を用いて後述する。
関係データベース120は、ラベル付与モジュール140と接続されている。関係データベース120は、固有表現のペア、その固有表現のペアの作成日時を記憶している。また、関係ラベルを対応させて記憶してもよい。具体例については、図5等の例を用いて後述する。
ラベルリスト130は、ラベル付与モジュール140と接続されている。ラベルリスト130は、関係ラベルとその関係ラベルに時間変化があるか否かを示す属性(ラベル種別)を記憶している。ここで「時間変化」とは、時間が経過することによって、固有表現のペアにおける対象としている関係が変化(その関係が解消してしまうことを含む)することをいう。例えば、年齢等が該当する。具体例については、図4等の例を用いて後述する。
【0021】
ラベル付与モジュール140は、テキストデータベース110、関係データベース120、ラベルリスト130、タグ付きコーパス150と接続されている。ラベル付与モジュール140は、固有表現のペアを含む文を対象として、そのペアを構成する固有表現の属性として時間変化をするものである場合であって、その文の作成日時と関係データベース120内の固有表現のペアの作成日時が予め定められた関係を有しているときは、その文内の固有表現のペアは関係を有していることを示す情報を、その文に付与する。例えば、対象となる関係ラベルの種別が時間変化するものなのか、不変なのかをラベルリスト130から判断し、時間変化があるラベルに対しては、ラベル付与の対象となるテキストの作成日と知識源のエントリ作成日を比較して、作成日の差分が予め定められたしきい値未満又は以下である文に関係ラベルを付与する。
また、ラベル付与モジュール140は、は、予め定められた関係を有していないときは、文内の固有表現のペアは関係を有していることを示す情報を、その文に付与しないようにしてもよい。
また、前述の「予め定められた関係」として、例えば、文の作成日時と関係データベース120内のペアの作成日時との差分が、関係毎に予め定められたしきい値未満又は以下であるとしてもよい。
【0022】
また、ラベル付与モジュール140は、ペアを含む文を対象として、その文が予め定められた固有表現を有している場合であって、その固有表現の属性として時間変化をするものであるときは、その文の作成日時とそのペアの作成日時を比較して、予め定められた関係を有している場合は、その文内の固有表現のペアは関係を有していることを示す情報を、その文に付与するようにしてもよい。例えば、その文内の2つの固有表現は関係を有していることを示すタグを挿入することによって関係を生成する。
また、ラベル付与モジュール140は、固有表現をタグで指定した文であって、固有表現のペアを含む文を対象として、その文が予め定められたタグを有している場合であって、そのタグの属性として時間変化をするものであるときは、その文の作成日時とそのタグが示す固有表現のペアの作成日時が予め定められた関係を有している場合は、その文内の固有表現は関係を有していることを示すタグを挿入することによって関係を生成するようにしてもよい。
【0023】
タグ付きコーパス150は、ラベル付与モジュール140と接続されている。タグ付きコーパス150は、ラベル付与モジュール140による処理結果である関係タグがつけられた文によって構成されているコーパスを記憶している。
【0024】
図2は、本実施の形態を利用したシステム構成例を示す説明図である。
情報処理装置100、テキスト処理装置(SNS)210A、テキスト処理装置(データ管理)210B、テキストデータ収集装置220、ユーザー端末270、学習装置280は、通信回線290を介してそれぞれ接続されている。通信回線290は、無線、有線、これらの組み合わせであってもよく、例えば、通信インフラとしてのインターネット、イントラネット等であってもよい。
ソーシャルネットワーキングサービスを提供するテキスト処理装置(SNS)210A、新聞記事等を格納しているテキスト処理装置(データ管理)210B等から、テキストデータ収集装置220がテキストデータを収集し、情報処理装置100のテキストデータベース110へ格納する。情報処理装置100は、それらのテキストデータを対象として、タグ付きコーパス150内に、関係のタグが含まれたテキストデータを格納する。そして、学習装置280が、情報処理装置100のタグ付きコーパス150内のデータを用いて、機械学習を行って、テキストデータの評価処理等に用いるモデルを生成する。ユーザーのユーザー端末270に対する操作に応じて、学習装置280が生成したモデルを用いてテキストデータの評価処理等を行う。
【0025】
図3は、第1の実施の形態による処理例を示すフローチャートである。
ステップS302では、テキストデータベース110から1文のテキストデータを抽出する。
ステップS304では、対象としているテキストデータ内に、ラベルリスト130内の関係ラベルを有しているか否かを判断し、有している場合はステップS306へ進み、それ以外の場合はステップS302へ戻る。
ステップS306では、その関係ラベルは時変であるか否かを判断し、時変である場合はステップS308へ進み、それ以外の場合はステップS312へ進む。
ステップS308では、関係データベース120内のその関係ラベルの作成日と対象としているテキストデータの作成日との差を算出する。
ステップS310では、その差は、しきい値未満又は以下であるか否かを判断し、しきい値未満又は以下である場合はステップS312へ進み、それ以外の場合はステップS314へ進む。
ステップS312では、対象としているテキストデータに関係タグを付与する。
ステップS314では、対象としているテキストデータに関係タグは付与しない。
ステップS316では、対象としているテキストデータはないか否かを判断し、ない場合は処理を終了し(ステップS399)、それ以外の場合はステップS302へ戻る。
【0026】
図4は、ラベルリスト130内のラベル時変/時不変テーブル400のデータ構造例を示す説明図である。
ラベル時変/時不変テーブル400は、関係ラベル欄410、時変・時不変欄420、しきい値欄430を有している。関係ラベル欄410は、関係ラベルを記憶している。時変・時不変欄420は、時変であるか時不変であるか(「時変であるか否か」又は「時不変であるか」であってもよい)を示す属性を記憶している。しきい値欄430は、時変・時不変欄420が「時変」ある場合に、固有表現のペアは関係を有していると判断するためのしきい値を記憶している。文の作成日時とペアの作成日時との差分がそのしきい値未満又は以下である場合に、その文における固有表現のペアは関係していると判断する。例えば、関係ラベル欄410に関係ラベルとして「年齢」を記憶しており、時変・時不変欄420に、そのラベルの属性として「時変」を記憶しており、しきい値欄430に判断のしきい値として「1年」を記憶している。つまり、図4の例では、年齢の関係ラベルである場合は、文の作成日時(具体的な例として、図6の固有表現タグ付きテキスト600の作成日属性602)とペアの作成日時(具体的な例として、図5の関係テーブル500の作成日欄530)の差分が、1年未満又は以下であれば、その文における固有表現のペアは関係があると判断させることとなる。これは、関係データベース120内のペアと同じペアが文において出現した場合、そのペアが年齢の関係であって、関係データベース120内でのそのペアが作成された日時から前後1年以内に、その文が作成されたならば、その文におけるペアは、年齢という関係を有していることを示している。
【0027】
図5は、関係データベース120内の関係テーブル500のデータ構造例を示す説明図である。
関係テーブル500は、名前欄510、年齢欄520、作成日欄530を有している。名前欄510は、人物の名前を記憶している。年齢欄520は、その人物の年齢を記憶している。作成日欄530は、このペアが作成された作成日を記憶している。例えば、名前欄510に「富士太郎」を記憶しており、年齢欄520に「30」を記憶しており、作成日欄530に、「富士太郎」と「30」のペアが作成された日である「2010/11/22」を記憶している。これらのデータ(固有表現のペア、その作成日時)は、予め作成されている。
【0028】
図6は、第1の実施の形態による処理例を示す説明図である。
固有表現タグ付きテキスト600は、テキストデータベース110内のテキストデータであり、作成日属性602、テキストデータ604を有している。図6の例では、作成日属性602として、「2010/11/24」であり、テキストデータ604として、「殺人未遂罪で逮捕された<人名>富士太郎</人名>(<年齢>30</年齢>)が容疑を認める発言をしていることがわかった。」である。なお、テキストデータ604内には、固有表現であることを示すタグが含まれている。例えば、タグである<人名>と</人名>に囲まれた「富士太郎」は人名という固有表現であることを示しており、タグである<年齢>と</年齢>に囲まれた「30」は年齢という固有表現であることを示している。
【0029】
ラベル付与モジュール140は、ラベル時変/時不変テーブル400、関係テーブル500を用いて、固有表現タグ付きテキスト600を対象として、以下の処理を行う。
対象としているテキストデータ604内には、関係テーブル500と同じペアが出現していることを検出する。なお、ここで「同じペア」とは、同じデータのペア(「富士太郎」と「30」)であってもよいし、同じラベルのペア(「人名(名前)」と「年齢」)であってもよい。また、同じラベルのペアの場合は、さらに、一方のラベルのデータ(例えば、ラベル「人名(名前)」のデータである「富士太郎」)が同じであることを条件としてもよい。
ラベル時変/時不変テーブル400から、「年齢」の関係は「時変」であるため、関係データベース120のエントリの作成日(作成日欄530)とテキスト作成日(作成日属性602)を比較する。ここでは、作成日(「2010/11/22」と「2010/11/24」)にしきい値の1年以上の差がないため、関係IDタグの付与対象とする。ここで、関係IDタグは「関係ID=“1”」である。図7は、固有表現タグ付きテキスト600に関係IDタグを付与した処理結果700の例を示す。処理結果700は、作成日属性702、テキストデータ704を有しており、固有表現タグ付きテキスト600と同等のデータ構造である。テキストデータ604に関係IDタグを付与して、テキストデータ704となる。つまり、テキストデータ704は「殺人未遂罪で逮捕された<人名 関係ID=“1”>富士太郎</人名>(<年齢 関係ID=“1”>30</年齢>)が容疑を認める発言をしていることがわかった。」となる。
【0030】
図8は、第1の実施の形態による処理例を示す説明図である。図6の例に示す固有表現タグ付きテキスト600とは異なるテキストデータを対象とした場合の、ラベル付与モジュール140の処理例を示す。ラベル時変/時不変テーブル400、関係テーブル500をそのまま用いる。
固有表現タグ付きテキスト800は、作成日属性802、テキストデータ804を有している。図8の例では、作成日属性802として、「2014/5/15」であり、テキストデータ804として、「殺人罪で問われた、<人名>富士太郎</人名>(<年齢>34</年齢>)の公判が開かれた。」である。
なお、テキストデータ804内の固有表現である人名と名前欄510とが一致し、年齢欄520については、そのラベル(年齢)が一致していることで足りる。テキストデータ804の例では、テキストデータ804内の人名「富士太郎」は名前欄510内の「富士太郎」と一致し、テキストデータ804内の年齢「34」は年齢欄520内の「30」と不一致であるが、テキストデータ804内の「年齢」というラベルは年齢欄520のラベル「年齢」と一致している。
ラベル時変/時不変テーブル400から、「年齢」の関係は時変であるため、関係データベース120のエントリの作成日(作成日欄530)とテキスト作成日(作成日属性802)を比較する。ここでは、作成日(「2010/11/24」と「2014/5/15」)にしきい値の1年以上の差があるため、関係IDタグの付与対象外とする。
したがって、固有表現タグ付きテキスト800に対して、関係IDタグ「関係ID=“1”」は付与されず、図9の例に示す固有表現タグ付きテキスト900のようになる。固有表現タグ付きテキスト900は、作成日属性902、テキストデータ904を有している。作成日属性902は作成日属性802と同じであり、テキストデータ904はテキストデータ804と同じである。
【0031】
他の関係「創立年度」の場合について説明する。図10は、ラベル時変/時不変テーブル1000のデータ構造例を示す説明図である。
ラベル時変/時不変テーブル1000は、ラベル時変/時不変テーブル400のデータ構造と同等であり、関係ラベル欄1010、時変・時不変欄1020、しきい値欄1030を有している。例えば、関係ラベル欄1010に関係ラベルとして「創立年度」を記憶しており、時変・時不変欄1020に、そのラベルの属性として「時不変」を記憶しており、しきい値欄1030に判断のしきい値として「なし」を記憶している。つまり、図10の例では、創立年度の関係ラベルである場合は、時が経過しても変更するものではないため、属性として「時不変」としている。そのため、しきい値は不要である。これは、関係データベース120内のペアと同じペアが文において出現した場合、そのペアが創立年度の関係であるならば、その文におけるペアは、創立年度という関係を有していることを示している。
【0032】
図11は、関係テーブル1100のデータ構造例を示す説明図である。
関係テーブル1100は、関係テーブル500のデータ構造と同等であり、名前欄1110、創立年度欄1120、作成日欄1130を有している。名前欄1110は、名前(法人名等)を記憶している。創立年度欄1120は、その名前を持つ法人等の創立年度を記憶している。作成日欄530は、このペアが作成された作成日を記憶している。例えば、名前欄1110に「富士ゼロックス」を記憶しており、創立年度欄1120に「1962」を記憶しており、作成日欄1130に「1962/3/5」を記憶している。これらのデータ(固有表現のペア、その作成日時)は、予め作成されている。
【0033】
図12は、第1の実施の形態による処理例を示す説明図である。
固有表現タグ付きテキスト1200は、テキストデータベース110内のテキストデータであり、作成日属性1202、テキストデータ1204を有している。図12の例では、作成日属性1202として、「2014/10/15」であり、テキストデータ1204として、「<日付>1962年</日付>にイギリスの<組織>ランク・ゼロックス</組織>と業務提携を結んで、複写機メーカー・<組織>富士ゼロックス</組織>株式会社を発足。」である。
【0034】
ラベル付与モジュール140は、ラベル時変/時不変テーブル1000、関係テーブル1100を用いて、固有表現タグ付きテキスト1200を対象として、以下の処理を行う。
対象としているテキストデータ1204内には、関係テーブル1100と同じペアが出現していることを検出する。ここで「日付」は「創立年度」に対応しており、「組織」は「名前」に対応している。したがって、テキストデータ1204内には、「ランク・ゼロックス」と「1962年」のペア、「富士ゼロックス」と「1962年」のペアがあるが、関係テーブル1100の名前欄1110では「富士ゼロックス」とあるため、テキストデータ1204では「富士ゼロックス」と「1962年」のペアが対象となる。
ラベル時変/時不変テーブル1000から、「創立年度」の関係は「時不変」であるため、作成日の差によらず関係IDタグを付与する。ここで、関係IDタグは「関係ID=“2”」である。図13は、固有表現タグ付きテキスト1200に関係IDタグを付与した固有表現タグ付きテキスト1300の例を示す。固有表現タグ付きテキスト1300は、作成日属性1302、テキストデータ1304を有しており、固有表現タグ付きテキスト1200と同等のデータ構造である。テキストデータ1204に関係IDタグを付与して、テキストデータ1304となる。つまり、テキストデータ1304は「<日付 関係ID=“2”>1962年</日付>にイギリスの<組織>ランク・ゼロックス</組織>と業務提携を結んで、複写機メーカー・<組織 関係ID=“2”>富士ゼロックス</組織>株式会社を発足。」となる。
【0035】
図14は、第2の実施の形態の構成例についての概念的なモジュール構成図を示している。
第2の実施の形態である情報処理装置1400は、第1の実施の形態の情報処理装置100の関係データベース120の代わりに、関係候補抽出モジュール1420、関係候補データベース1425を用いるようにしたものである。
なお、第1の実施の形態と同種の部位には同一符号を付し重複した説明を省略する。
【0036】
情報処理装置1400は、テキストデータベース110、関係候補抽出モジュール1420、関係候補データベース1425、ラベルリスト130、ラベル付与モジュール140、タグ付きコーパス150を有している。
テキストデータベース110は、関係候補抽出モジュール1420、ラベル付与モジュール140と接続されている。
関係候補抽出モジュール1420は、テキストデータベース110、関係候補データベース1425と接続されている。関係候補抽出モジュール1420は、予め定められた規則(ルール、パターンともいわれる)を用いて、テキストデータベース110内の文から固有表現のペアを抽出する。具体的には、テキストデータベース110内からテキストを取得し、設定されたパターンを用いて、固有表現のペアとその関係ラベルを抽出する。例えば、関係候補抽出のパターンとして、次のものが例として挙げられる。
(1) 住所、職業、名前(年齢)
(2) 住所の職業、名前(年齢)
(3) 住所、職業名前(年齢)
(4) 名前、(年齢)(住所)
これらのパターンを、テキストデータベース110内の文から検出した場合は、例えば、名前と年齢のペアを関係テーブル500のように記憶する。また、名前と住所のペアであってもよいし、(1)〜(3)の場合は名前と職業のペアであってもよい。
【0037】
関係候補データベース1425は、関係候補抽出モジュール1420、ラベル付与モジュール140と接続されている。関係候補データベース1425は、関係候補抽出モジュール1420によって抽出されたペアと、その抽出した日時又は抽出対象とした文が作成された日時を作成日時(例えば、関係テーブル500における作成日欄530)として記憶する。つまり、関係データベース120と同等のデータ構造を有するものを記憶する。
ラベルリスト130は、ラベル付与モジュール140と接続されている。
ラベル付与モジュール140は、テキストデータベース110、関係候補データベース1425、ラベルリスト130、タグ付きコーパス150と接続されている。
タグ付きコーパス150は、ラベル付与モジュール140と接続されている。
【0038】
なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図15に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部(演算部)としてCPU1501を用い、記憶装置としてRAM1502、ROM1503、HD1504を用いている。HD1504として、例えばハードディスク、SSD(Solid State Drive)を用いてもよい。ラベル付与モジュール140、関係候補抽出モジュール1420等のプログラムを実行するCPU1501と、そのプログラムやデータを記憶するRAM1502と、本コンピュータを起動するためのプログラム等が格納されているROM1503と、補助記憶装置(フラッシュメモリ等であってもよい)であるHD1504と、キーボード、マウス、タッチパネル等に対する利用者の操作に基づいてデータを受け付ける受付装置1506と、CRT、液晶ディスプレイ等の出力装置1505と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース1507、そして、それらをつないでデータのやりとりをするためのバス1508により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。
【0039】
前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図15に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図15に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図15に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、携帯情報通信機器(携帯電話、スマートフォン、モバイル機器、ウェアラブルコンピュータ等を含む)、情報家電、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
【0040】
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。
【符号の説明】
【0041】
100…情報処理装置
110…テキストデータベース
120…関係データベース
130…ラベルリスト
140…ラベル付与モジュール
150…タグ付きコーパス
210A…テキスト処理装置(SNS)
210B…テキスト処理装置(データ管理)
220…テキストデータ収集装置
270…ユーザー端末
280…学習装置
290…通信回線
1400…情報処理装置
1420…関係候補抽出モジュール
1425…関係候補データベース
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15