IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社SCREENホールディングスの特許一覧

特開2023-165452意味表現生成方法、意味表現生成装置、および、意味表現生成プログラム
<>
  • 特開-意味表現生成方法、意味表現生成装置、および、意味表現生成プログラム 図1
  • 特開-意味表現生成方法、意味表現生成装置、および、意味表現生成プログラム 図2
  • 特開-意味表現生成方法、意味表現生成装置、および、意味表現生成プログラム 図3
  • 特開-意味表現生成方法、意味表現生成装置、および、意味表現生成プログラム 図4
  • 特開-意味表現生成方法、意味表現生成装置、および、意味表現生成プログラム 図5
  • 特開-意味表現生成方法、意味表現生成装置、および、意味表現生成プログラム 図6
  • 特開-意味表現生成方法、意味表現生成装置、および、意味表現生成プログラム 図7
  • 特開-意味表現生成方法、意味表現生成装置、および、意味表現生成プログラム 図8
  • 特開-意味表現生成方法、意味表現生成装置、および、意味表現生成プログラム 図9
  • 特開-意味表現生成方法、意味表現生成装置、および、意味表現生成プログラム 図10
  • 特開-意味表現生成方法、意味表現生成装置、および、意味表現生成プログラム 図11
  • 特開-意味表現生成方法、意味表現生成装置、および、意味表現生成プログラム 図12
  • 特開-意味表現生成方法、意味表現生成装置、および、意味表現生成プログラム 図13
  • 特開-意味表現生成方法、意味表現生成装置、および、意味表現生成プログラム 図14
  • 特開-意味表現生成方法、意味表現生成装置、および、意味表現生成プログラム 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023165452
(43)【公開日】2023-11-16
(54)【発明の名称】意味表現生成方法、意味表現生成装置、および、意味表現生成プログラム
(51)【国際特許分類】
   G06F 40/30 20200101AFI20231109BHJP
   G06F 40/211 20200101ALI20231109BHJP
   G06N 5/022 20230101ALI20231109BHJP
【FI】
G06F40/30
G06F40/211
G06N5/02 120
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022076454
(22)【出願日】2022-05-06
(71)【出願人】
【識別番号】000207551
【氏名又は名称】株式会社SCREENホールディングス
(74)【代理人】
【識別番号】100088672
【弁理士】
【氏名又は名称】吉竹 英俊
(74)【代理人】
【識別番号】100088845
【弁理士】
【氏名又は名称】有田 貴弘
(72)【発明者】
【氏名】粕渕 清孝
(72)【発明者】
【氏名】吉田 明子
(72)【発明者】
【氏名】梅原 光規
(72)【発明者】
【氏名】角谷 祐輝
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091AA15
5B091CC04
(57)【要約】
【課題】自然言語データにおける語の意味や文の意味を従来よりも適切かつ十分に表現できる意味表現データを生成する。
【解決手段】本願で開示される意味表現生成方法では、全品詞につき形態素の意味を階層的かつ多義的に表す概念情報が記録されたCT体系テーブルを参照して自然言語のテキストに対する形態素解析を行うことにより、当該テキストが形態素に区切られると共に各形態素に概念タグが付与される。その後、構文解析および文脈解析を経て、テキスト構成要素の対の意味的関係を示す各意味タグに意味タグ付与規則を対応付けるST体系テーブルを参照して意味解析が行われ、これにより当該テキストの意味表現データが生成される。意味表現データでは、各形態素に概念タグCTが付与され、意味的に関係するテキスト構成要素の対(文節の対等)に当該意味的関係を表す意味情報を示す意味タグSTが付与されている。
【選択図】図13
【特許請求の範囲】
【請求項1】
自然言語情報から意味表現データを生成する意味表現生成方法であって、
自然言語における内容語の品詞のみならず機能語の品詞を含む品詞群につき形態素の意味を階層的かつ多義的に表す概念情報が記録されたCT体系テーブルを準備する準備ステップと、
前記自然言語のテキストデータを受け取り、当該テキストデータに対し構文解析を含む表層的な解析を行うことにより、当該テキストデータに含まれる文の構造を表す構文データを生成するテキスト解析ステップと、
前記構文データに基づき、前記テキストデータに対応する意味表現データを生成する意味解析ステップとを備え、
前記テキスト解析ステップは、前記CT体系テーブルを参照することにより、前記構文データに基づき、前記テキストデータに含まれる各形態素に対し、その意味を階層的に表す概念情報を示す概念タグを付与する概念タグ付与ステップを含み、
前記意味解析ステップは、
前記構文データに基づき、前記テキストデータにおいて述語に相当する文節または連文節と当該述語に対して係り受けの関係を有する他の文節または連文節との対に対し、その意味的関係を表す意味情報を示す意味タグを付与する意味タグ付与ステップと、
前記テキストデータに含まれる各形態素に付与された前記概念タグおよび前記テキストデータに含まれる文節または連文節と他の文節または連文節との対に付与された前記意味タグに基づき、前記意味表現データを生成するデータ生成ステップとを含む、意味表現生成方法。
【請求項2】
前記準備ステップでは、前記自然言語において述語に相当する文節または連文節であるか否かに関わらず文節または連文節と他の文節または連文節との間の意味的関係を表す複数の意味情報をそれぞれ示す複数の意味タグのそれぞれにつき、当該意味タグを付与すべき文節または連文節と他の文節または連文節との対を決定するための規則を対応付けるST体系テーブルが更に準備され、
前記意味タグ付与ステップでは、前記ST体系テーブルを参照することにより、前記構文データに基づき、述語に相当する文節または連文節以外についても、前記テキストデータにおいて係り受けの関係を有する文節または連文節と他の文節または連文節との対に対し、その意味的関係を表す意味情報を示す意味タグが付与される、請求項1に記載の意味表現生成方法。
【請求項3】
前記ST体系テーブルでは、前記自然言語における文と文との間の意味的関係を表す複数の意味情報をそれぞれ示す複数の意味タグのそれぞれについても、当該意味タグを付与すべき文の対を決定するための規則が対応付けられており、
前記テキスト解析ステップは、前記構文データに基づき前記テキストデータに対する文脈解析を行うことにより、前記テキストデータにおける照応関係および談話関係を表す文脈データを生成する文脈解析ステップを更に含み、
前記意味タグ付与ステップでは、前記ST体系テーブルを参照することにより、前記文脈データに基づき前記テキストデータにおいて照応関係または談話関係を有する文の対に対し、その意味的関係を表す意味情報を示す意味タグが付与される、請求項2に記載の意味表現生成方法。
【請求項4】
前記意味タグ付与ステップでは、前記ST体系テーブルにおいて前記構文データにおける文節または連文節と他の文節または連文節からなる1つの対に付与すべき意味タグが複数該当する場合、当該1つの対に対し当該複数の意味タグが付与される、請求項2に記載の意味表現生成方法。
【請求項5】
前記ST体系テーブルにおいて、前記複数の意味タグのうち少なくとも一部の意味タグについては、意味タグを付与すべき文節または連文節と他の文節または連文節との対を決定するための規則が当該対を構成する文節または連文節に含まれる形態素の概念タグを用いて定義されている、請求項2に記載の意味表現生成方法。
【請求項6】
自然言語情報から意味表現データを生成する意味表現装置であって、
自然言語における内容語の品詞のみならず機能語の品詞を含む品詞群につき形態素の意味を階層的かつ多義的に表す概念情報が記録されたCT体系テーブルを格納しているCT体系記憶部と、
前記自然言語のテキストデータを受け取り、当該テキストデータに対し構文解析を含む表層的な解析を行うことにより、当該テキストデータに含まれる文の構造を表す構文データを生成するテキスト解析部と、
前記構文データに基づき、前記テキストデータに対応する意味表現データを生成する意味解析部とを備え、
前記テキスト解析部は、前記CT体系テーブルを参照することにより、前記構文データに基づき、前記テキストデータに含まれる各形態素に対し、その意味を階層的に表す概念情報を示す概念タグを付与し、
前記意味解析部は、
前記構文データに基づき、前記テキストデータにおいて述語に相当する文節または連文節と当該述語に対して係り受けの関係を有する他の文節または連文節との対に対し、その意味的関係を表す意味情報を示す意味タグを付与し、
前記テキストデータに含まれる各形態素に付与された前記概念タグおよび前記テキストデータに含まれる文節または連文節と他の文節または連文節との対に付与された前記意味タグに基づき、前記意味表現データを生成する、意味表現生成装置。
【請求項7】
前記自然言語において述語に相当する文節または連文節であるか否かに関わらず文節または連文節と他の文節または連文節との間の意味的関係を表す複数の意味情報をそれぞれ示す複数の意味タグのそれぞれにつき、当該意味タグを付与すべき文節または連文節と他の文節または連文節との対を決定するための規則を対応付けるST体系テーブルを格納しているST体系記憶部を更に備え、
前記意味解析部は、前記ST体系テーブルを参照することにより、前記構文データに基づき、述語に相当する文節または連文節以外についても、前記テキストデータにおいて係り受けの関係を有する文節または連文節と他の文節または連文節との対に対し、その意味的関係を表す意味情報を示す意味タグを付与する、請求項6に記載の意味表現生成装置。
【請求項8】
自然言語情報から意味表現データを生成するための意味表現生成プログラムであって、
自然言語のテキストデータを受け取り、当該テキストデータに対し構文解析を含む表層的な解析を行うことにより、当該テキストデータに含まれる文の構造を表す構文データを生成するテキスト解析ステップと、
前記構文データに基づき、前記テキストデータに対応する意味表現データを生成する意味解析ステップと
をコンピュータに実行させ、
前記コンピュータは、前記自然言語における内容語の品詞のみならず機能語の品詞を含む品詞群につき形態素の意味を階層的かつ多義的に表す概念情報が記録されたCT体系テーブルを格納しているCT体系記憶部を含み、
前記テキスト解析ステップは、前記CT体系テーブルを参照することにより、前記構文データに基づき、前記テキストデータに含まれる各形態素に対し、その意味を階層的に表す概念情報を示す概念タグを付与する概念タグ付与ステップを含み、
前記意味解析ステップは、
前記構文データに基づき、前記テキストデータにおいて述語に相当する文節または連
文節と当該述語に対して係り受けの関係を有する他の文節または連文節との対に対し、その意味的関係を表す意味情報を示す意味タグを付与する意味タグ付与ステップと、
前記テキストデータに含まれる各形態素に付与された前記概念タグおよび前記テキストデータに含まれる文節または連文節と他の文節または連文節との対に付与された前記意味タグに基づき、前記意味表現データを生成するデータ生成ステップとを含む、意味表現生成プログラム。
【請求項9】
前記コンピュータは、前記自然言語において述語に相当する文節または連文節であるか否かに関わらず文節または連文節と他の文節または連文節との間の意味的関係を表す複数の意味情報をそれぞれ示す複数の意味タグのそれぞれにつき、当該意味タグを付与すべき文節または連文節と他の文節または連文節との対を決定するための規則を対応付けるST体系テーブルを格納しているST体系記憶部を更に含み、
前記意味解析ステップでは、前記ST体系テーブルを参照することにより、前記構文データに基づき、述語に相当する文節または連文節以外についても、前記テキストデータにおいて係り受けの関係を有する文節または連文節と他の文節または連文節との対に対し、その意味的関係を表す意味情報を示す意味タグが付与される、請求項8に記載の意味表現生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自然言語で記述された文書等のテキストデータから知識を獲得するために必要な意味表現データを生成するための方法および装置に関する。
【背景技術】
【0002】
近年、自然言語で記述された文書等の種々のテキストデータ(以下「自然言語データ」という)からコンピュータにより知識を獲得するための方法が研究・開発されている。また、このようにして獲得された知識を構造化し蓄積して知識ベースを作成し、自然言語による質問をコンピュータが受け付けて当該知識ベースに基づき回答するための方法も研究・開発されている。
【0003】
このような自然言語を用いた知識獲得や質問応答を適切に行うには、コンピュータによる自然言語データの意味解析において、文に含まれる語の意味を階層的かつ多義的に捉える必要がある。これ対し従来より、自然言語データに含まれる固有表現の概念を階層的に定義することが行われている(例えば非特許文献1参照)。また、自然言語データに対する意味解釈において文の意味を捉えるために、動詞や形容詞等の述語を意味の中心とし、述語が意味をなすために必要な補語としての項と述語との関係から見た文の構造(「述語項構造」と呼ばれる)の解析が行われている(例えば非特許文献2参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2021-111303号公報
【特許文献2】特開平6-195383号公報
【非特許文献】
【0005】
【非特許文献1】Koichi Takeuch, Alastair Butler, Iku Nagasaki, Takuya Okamura, Prashant Pardeshi, "Constructing Web-Accessible Semantic Role Labels and Frames for Japanese as Additions to the NPCMJ Parsed Corpus", Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020), pp.3153-3161, Marseille, 11-16 May 2020
【非特許文献2】Koichi Takeuchi, Masayuki Ueno, and Nao Takeuchi, "Annotating Semantic Role Information to Japanese Balanced Corpus", Proceedings of MAPLEX 2015, 2015
【発明の概要】
【発明が解決しようとする課題】
【0006】
上記のようなコンピュータによる従来の意味解析によって得られる意味表現データでは、自然言語データにおける語の意味や文の意味を必ずしも適切に表現できなかった。その結果、自然言語データからの知識獲得の精度が十分でなく、獲得された知識の再利用性も十分に高いものではなかった。
【0007】
そこで、自然言語データにおける語の意味や文の意味を従来よりも適切かつ十分に表現できる意味表現データを生成する方法等を提供することが望まれている。
【課題を解決するための手段】
【0008】
本発明の第1の局面は、自然言語情報から意味表現データを生成する意味表現生成方法であって、
自然言語における内容語の品詞のみならず機能語の品詞を含む品詞群につき形態素の意味を階層的かつ多義的に表す概念情報が記録されたCT体系テーブルを準備する準備ステップと、
前記自然言語のテキストデータを受け取り、当該テキストデータに対し構文解析を含む表層的な解析を行うことにより、当該テキストデータに含まれる文の構造を表す構文データを生成するテキスト解析ステップと、
前記構文データに基づき、前記テキストデータに対応する意味表現データを生成する意味解析ステップとを備え、
前記テキスト解析ステップは、前記CT体系テーブルを参照することにより、前記構文データに基づき、前記テキストデータに含まれる各形態素に対し、その意味を階層的に表す概念情報を示す概念タグを付与する概念タグ付与ステップを含み、
前記意味解析ステップは、
前記構文データに基づき、前記テキストデータにおいて述語に相当する文節または連文節と当該述語に対して係り受けの関係を有する他の文節または連文節との対に対し、その意味的関係を表す意味情報を示す意味タグを付与する意味タグ付与ステップと、
前記テキストデータに含まれる各形態素に付与された前記概念タグおよび前記テキストデータに含まれる文節または連文節と他の文節または連文節との対に付与された前記意味タグに基づき、前記意味表現データを生成するデータ生成ステップとを含む。
【0009】
本発明の第2の局面は、本発明の第1の局面において、
前記準備ステップでは、前記自然言語において述語に相当する文節または連文節であるか否かに関わらず文節または連文節と他の文節または連文節との間の意味的関係を表す複数の意味情報をそれぞれ示す複数の意味タグのそれぞれにつき、当該意味タグを付与すべき文節または連文節と他の文節または連文節との対を決定するための規則を対応付けるST体系テーブルが更に準備され、
前記意味タグ付与ステップでは、前記ST体系テーブルを参照することにより、前記構文データに基づき、述語に相当する文節または連文節以外についても、前記テキストデータにおいて係り受けの関係を有する文節または連文節と他の文節または連文節との対に対し、その意味的関係を表す意味情報を示す意味タグが付与される。
【0010】
本発明の第3の局面は、自然言語情報から意味表現データを生成する意味表現装置であって、
自然言語における内容語の品詞のみならず機能語の品詞を含む品詞群につき形態素の意味を階層的かつ多義的に表す概念情報が記録されたCT体系テーブルを格納しているCT体系記憶部と、
前記自然言語のテキストデータを受け取り、当該テキストデータに対し構文解析を含む表層的な解析を行うことにより、当該テキストデータに含まれる文の構造を表す構文データを生成するテキスト解析部と、
前記構文データに基づき、前記テキストデータに対応する意味表現データを生成する意味解析部とを備え、
前記テキスト解析部は、前記CT体系テーブルを参照することにより、前記構文データに基づき、前記テキストデータに含まれる各形態素に対し、その意味を階層的に表す概念情報を示す概念タグを付与し、
前記意味解析部は、
前記構文データに基づき、前記テキストデータにおいて述語に相当する文節または連文節と当該述語に対して係り受けの関係を有する他の文節または連文節との対に対し、その意味的関係を表す意味情報を示す意味タグを付与し、
前記テキストデータに含まれる各形態素に付与された前記概念タグおよび前記テキストデータに含まれる文節または連文節と他の文節または連文節との対に付与された前記意味タグに基づき、前記意味表現データを生成する。
【0011】
本発明の第4の局面は、自然言語情報から意味表現データを生成するための意味表現生成プログラムであって、
自然言語のテキストデータを受け取り、当該テキストデータに対し構文解析を含む表層的な解析を行うことにより、当該テキストデータに含まれる文の構造を表す構文データを生成するテキスト解析ステップと、
前記構文データに基づき、前記テキストデータに対応する意味表現データを生成する意味解析ステップと
をコンピュータに実行させ、
前記コンピュータは、前記自然言語における内容語の品詞のみならず機能語の品詞を含む品詞群につき形態素の意味を階層的かつ多義的に表す概念情報が記録されたCT体系テーブルを格納しているCT体系記憶部を含み、
前記テキスト解析ステップは、前記CT体系テーブルを参照することにより、前記構文データに基づき、前記テキストデータに含まれる各形態素に対し、その意味を階層的に表す概念情報を示す概念タグを付与する概念タグ付与ステップを含み、
前記意味解析ステップは、
前記構文データに基づき、前記テキストデータにおいて述語に相当する文節または連文節と当該述語に対して係り受けの関係を有する他の文節または連文節との対に対し、その意味的関係を表す意味情報を示す意味タグを付与する意味タグ付与ステップと、
前記テキストデータに含まれる各形態素に付与された前記概念タグおよび前記テキストデータに含まれる文節または連文節と他の文節または連文節との対に付与された前記意味タグに基づき、前記意味表現データを生成するデータ生成ステップとを含む。
【0012】
本発明の他の局面は、本発明の上記局面ならびに後述の実施形態およびその変形例に関する説明から明らかであるので、その説明を省略する。
【発明の効果】
【0013】
本発明の上記第1の局面によれば、自然言語のテキストデータに対する構文解析により構文データが生成され、内容語の品詞のみならず機能語の品詞を含む品詞群につき形態素の意味を階層的かつ多義的に表す概念情報が記録されたCT体系テーブルを参照することにより、当該構文データに基づき、当該テキストデータに含まれる各形態素に対し、その意味を階層的に表す概念情報を示す概念タグが付与される。その後、当該テキストデータにおいて述語に相当する文節または連文節と当該述語に対して係り受けの関係を有する他の文節または連文節との対に対し、その意味的関係を表す意味情報を示す意味タグが付与され、このような概念タグの付与および意味タグの付与に基づき、当該テキストデータに対応する意味表現データが生成される。これにより、従来に比べ、自然言語のテキストデータに含まれる語の意味をより適切に表現した意味表現データが得られる。
【0014】
本発明の上記第2の局面によれば、自然言語において述語に相当する文節または連文節であるか否かに関わらず文節または連文節と他の文節または連文節との間の意味的関係を表す複数の意味情報をそれぞれ示す複数の意味タグのそれぞれにつき、当該意味タグを付与すべき文節または連文節と他の文節または連文節との対を決定するための規則を対応付けるST体系テーブルを参照することにより、当該テキストデータにおいて述語に相当する文節または連文節以外についても、当該テキストデータにおいて係り受けの関係を有する文節または連文節と他の文節または連文節との対に対し、その意味的関係を表す意味情報を示す意味タグが付与される。当該テキストデータにつき、上記概念タグの付与に加えて、このような意味タグが付与されることにより、当該テキストデータに対応する意味表現データが生成される。これにより、自然言語データから語の意味だけでなく文の意味を従来よりも適切かつ十分に表現した意味表現データが得られる。
【0015】
本発明の上記第3の局面および上記第4の局面は、いずれも、本発明の上記第1の局面と同様の効果を奏する。
【0016】
本発明の他の局面の効果については、本発明の上記局面の効果ならびに下記実施形態の効果についての説明から明らかであるので、説明を省略する。
【図面の簡単な説明】
【0017】
図1】本発明の一実施形態に係る意味表現生成装置の構成を示すブロック図である。
図2】上記実施形態に係る意味表現生成装置として動作するコンピュータの構成を示すブロック図である。
図3】上記実施形態において使用されるCT体系テーブルを説明するための図である。
図4】上記実施形態において使用されるST体系テーブルのうち文節と文節の間(文節の対)に付与すべき意味タグに関する部分を説明するための図である。
図5】上記実施形態において使用されるST体系テーブルのうち連文節と文節の間または連文節と連文節の間に付与すべき意味タグに関する部分を説明するための図である。
図6】上記実施形態において使用されるST体系テーブルのうち文と文の間(文の対)に付与すべき意味タグに関する部分を説明するための図である。
図7】上記実施形態に係る意味表現生成装置としてコンピュータが動作するために実行される意味表現生成処理の手順を示すフローチャートである。
図8】上記意味表現生成処理における形態素解析の手順を示すフローチャートである。
図9】上記意味表現生成処理における構文解析の手順を示すフローチャートである。
図10】上記意味表現生成処理における文脈解析の手順を示すフローチャートである。
図11】上記意味表現生成処理における意味解析の手順を示すフローチャートである。
図12】上記意味表現処理を具体例に基づき説明するための図である。
図13】上記実施形態における意味表現データの第1の生成例を説明するための図である。
図14】上記実施形態における意味表現データの第2の生成例を説明するための図である。
図15】上記実施形態における意味表現データの第3の生成例を説明するための図である。
【発明を実施するための形態】
【0018】
自然言語データからの知識ベースの構築や自然言語での質問応答システムの実現において、知識獲得の精度を高めるには、自然言語データにおける語の意味や文の意味を十分に表現できる意味表現データを生成することが重要である。以下、このような意味表現データを生成するための装置や方法等の実施形態につき、図面を参照して説明する。本実施形態に係る意味表現生成装置は、典型的にはコンピュータを用いて実現され、本実施形態に係る意味表現生成方法は、典型的にはコンピュータを用いて実行される。本実施形態に係る意味表現生成プログラムは、コンピュータを意味表現生成装置として機能させるために使用される。
【0019】
<1.意味表現生成装置の機能的構成>
図1は、本実施形態に係る意味表現生成装置10の機能的構成を示すブロック図である
。この意味表現生成装置10は、自然言語データ(自然言語で記述された文書等のテキストデータ)から意味表現データを生成するものであり、後述の意味表現生成プログラムをコンピュータが実行することにより実現される。
【0020】
図1に示すように、この意味表現生成装置10は、自然言語解析部110と、CT体系テーブル33およびST体系テーブル34とを備えている。自然言語解析部110は、形態素解析部112、構文解析部114、文脈解析部116、および、意味解析部118を含んでいる。なお本実施形態では、意味表現生成装置10の解析対象としてのテキストデータは、日本語のテキストデータであって、外部に設けられたテキストデータ記憶部100に格納されている。
【0021】
このような意味表現生成装置10において、自然言語解析部110は、解析対象としての自然言語データであるテキストデータをテキストデータ記憶部100から読み込む。自然言語解析部110では、まず、形態素解析部112が、読み込まれたテキストデータ(以下「入力テキストデータ」という)Dinに対し形態素解析を行うことにより、入力テキストデータを形態素毎に区切ったデータ(以下「分かち書きデータ」という)D1を生成する。この形態素解析では、分かち書きデータD1に含まれる形態素の品詞や活用形も決定される。また、この形態素解析において、分かち書きデータD1における各形態素に対し、CT体系テーブル33を参照して概念タグ(以下「CT」ともいう)を付与する。
【0022】
構文解析部114は、形態素解析の結果としての分かち書きデータD1に対し構文解析を行うことにより、入力テキストデータDinに含まれる各文につき、その構造(依存構造および句構造)を表す構文データD2を生成する。
【0023】
文脈解析部116は、上記構文データD2に基づき入力テキストデータDinに対し文脈解析を行うことにより、入力テキストデータDinに含まれる照応詞が参照する先行詞を特定するとともに、入力テキストデータDinにおいて談話的関係を有する文の対を特定して、入力テキストデータDinにおける照応関係および談話関係を表す文脈データを生成し、当該文脈データと上記構文データD2とからなるを文脈・構文データD3を出力する。なお以下において、上記の形態素解析部112、構文解析部114、および、文脈解析部116をまとめて「テキスト解析部」ともいう。
【0024】
意味解析部118は、上記の文脈・構文データD3に基づき、入力テキストデータDinにおいて係り受けの関係を有する文節または連文節と他の文節または連文節との間(以下「文節・連文節対間」ともいう)に、それらの意味的関係を表す意味情報を示す意味タグ(以下「ST」ともいう)を、上記ST体系テーブル34を参照して付与し、上記構文データに含まれる各形態素に付与された概念タグと前記構文データにおける文節・連文節対間に付与された意味タグとに基づき、入力テキストデータDinに対応する意味表現データ140を生成する。なお、談話関係を有する文と文の間にも意味タグが付与されるが、これについては後述する。
【0025】
<2.意味表現生成装置のハードウェア構成>
図2は、本実施形態において後述の意味表現生成プログラムにより意味表現生成装置10として動作するコンピュータ20の構成、すなわわち、本実施形態に係る意味表現生成装置10のハードウェア構成を示すブロック図である。図2に示すコンピュータ20は、CPU21、メインメモリ22、補助記憶装置23、入力操作部24、表示装置25、通信インターフェース装置26、および、記録媒体読取装置27を備えている。メインメモリ22には、例えばDRAMが使用される。補助記憶装置23には、例えばハードディスクやソリッドステートドライブが使用される。入力操作部24には、例えばキーボード28やマウス29が含まれる。表示装置25には、例えば液晶ディスプレイが使用される。
通信インターフェース装置26は、有線通信または無線通信のインターフェース回路である。記録媒体読取装置27は、プログラムなどを記憶した記録媒体30のインターフェース回路である。記録媒体30には、例えば、CD-ROM、DVD-ROM、USBメモリなどの非一過性の記録媒体が使用される。
【0026】
上記のように構成されたコンピュータ20において、補助記憶装置23は、本実施形態に係る意味表現生成プログラム31に加えて、解析対象としてのテキストデータ32とCT体系テーブル33およびST体系テーブル34とを格納している。補助記憶装置23にテキストデータ32が格納されることにより、図1の意味表現生成装置10におけるテキストデータ記憶部100が実現される。意味表現生成プログラム31とテキストデータ32とCT体系テーブル33およびST体系テーブル34とは、例えば、サーバや他のコンピュータから通信インターフェース装置26を用いて受信したものでもよく、記録媒体30から記録媒体読取装置27を用いて読み出したものでもよい。
【0027】
コンピュータ20において意味表現生成プログラム31を実行するときには、意味表現生成プログラム31がメインメモリ22にロードされるとともに、テキストデータ32の一部または全部が入力テキストデータDinとしてメインメモリ22にロードされる。CPU21は、メインメモリ22を作業用メモリとして利用して、メインメモリ22に記憶された意味表現生成プログラム31を実行することにより、メインメモリ22に記憶された入力テキストデータDinに対して意味表現生成処理を行う。この意味表現生成処理により、入力テキストデータDinに対応する意味表現データ140が生成される。CPU21が意味表現生成処理を行うとき、コンピュータ20は意味表現生成装置10として機能する。なお、以上に述べたコンピュータ20の構成は一例に過ぎず、種々のコンピュータを用いて意味表現生成装置10を実現することができる。
【0028】
<3.CT体系テーブルおよびST体系テーブル>
本実施形態では、下記に述べるようなCT体系テーブルおよびST体系テーブルが予め用意され、既述のように補助記憶装置23に格納されている(図2)。
【0029】
図3は、本実施形態において使用されるCT体系テーブル33を説明するための図である。CT体系テーブル33には、自然言語としての日本語における全ての品詞の形態素、すなわち、名詞や、動詞、形容詞等の内容語の形態素に加えて助詞や助動詞等の機能語の形態素についても、その意味を階層的かつ多義的に表す概念情報が記録されている。図3に示すように、例えば「公園」という名詞と「学校」という名詞とは、それらの上位概念が「公共施設機関名」であり、さらに上位概念が「空間」であるとして記録されている。また、「学校」という名詞は、その上位概念が「組織名」であり、さらに上位概念が「自立組織体」であり、なおさらに上位概念が「自立体」であるとしても記録されている。すなわち、「学校」については、その意味を階層的かつ多義的に表す概念情報が記録されている。また例えば、「に」という助詞については、その意味を表す概念が「状態」、「動作出所」、または、「原因理由」であるとして記録されるとともに、それらの概念の上位概念が「相手」であるとして記録されている。すなわち、「に」という助詞についても、その意味を階層的かつ多義的に表す概念情報が記録されている。
【0030】
図4から図6は、本実施形態において使用されるST体系テーブル34を説明するための図である。図4は、ST体系テーブル34のうち、自然語データとしての日本語のテキストデータにおいて意味的に関係する文節と文節との間(文節の対)に付与すべき意味タグ(ST)に関する部分を説明するための図である。図5は、ST体系テーブル34のうち、日本語のテキストデータにおいて意味的に関係する連文節と連文節との間または連文節と文節との間に付与すべき意味タグに関する部分を説明するための図である。図6は、ST体系テーブル34のうち、日本語のテキストデータにおいて意味的に関係する文と文
との間(文の対)に付与すべき意味タグに関する部分を説明するための図である。
【0031】
ST体系テーブルは、自然言語としての日本語における文節と文節との間等の意味的関係を表す複数の意味情報をそれぞれ示す複数の意味タグのそれぞれにつき、当該意味タグを付与すべき文節等の対を決定するための規則を対応付けるテーブルである。図4に示すように、文節と文節の間の意味的関係を表す意味情報として例えば「行為者、意思を持つ行動主体」という意味情報を示す意味タグ“agt”を付与すべき対象(ここでは文節の対)の判定方法が意味タグの付与規則として与えられている。すなわち、図4のST体系テーブル34において意味タグ“agt”に対応する判定方法(ST付与規則)によれば、“主語と述語の関係にある文節の対であって、それらの文節に含まれる形態素に所定の概念タグ(所定CT)が付与されている文節の対”に対して意味タグ“agt”が付与される。ここでの“所定の概念タグ(所定CT)”は、具体的には、この意味タグ“agt”を付与すべき文節の対の意味的関係を表す意味情報に応じてCT体系テーブル33に基づき選定されている。他の意味タグに対応する判定方法(ST付与規則)の定義に使用される“所定CT”についても同様であり、当該意味タグを付与すべき文節の対の意味的関係を表す意味情報に応じてCT体系テーブル33に基づき適切なCTが選定されている。
【0032】
なお、図3から図6は、本実施形態の説明の便宜上の観点からCT体系テーブル33およびST体系テーブル34の内容を例示的に示すものであり、実際に使用されるCT体系テーブル33およびST体系テーブル34に比べ、その内容が適宜、省略および簡略化されている。また、CT体系テーブル33およびST体系テーブル34における具体的内容(形態素の概念の階層化の態様や意味タグの付与規則等)も図3から図6に示すものに限定されない。
【0033】
<4.意味表現生成処理>
上記のように、コンピュータ20においてCPU21が意味表現生成プログラム31を実行することにより、解析対象文書としての自然言語のテキストデータに対して意味表現生成処理が行われる。図7は、この意味表現生成処理の手順を示すフローチャートである。この意味表現生成処理には、形態素解析、構文解析、文脈解析、および意味解析が含まれている。図8は、形態素解析の手順を示すフローチャートであり、図9は、構文解析の手順を示すフローチャートであり、図10は、文脈解析の手順を示すフローチャートであり、図11は、意味解析の手順を示すフローチャートである。なお以下において、形態素解析、構文解析、および、文脈解析をまとめて「テキスト解析」ともいう。本実施形態では、CPU21が意味表現生成プログラム31を実行することにより、コンピュータ20は図7から図11に示すように動作する。
【0034】
図7に示すように、まず、入力操作部24に対する使用者の入力操作等による指示に基づき、補助記憶装置23からテキストデータ32の一部または全部を読み込み、入力テキストデータDinとしてメインメモリ22に格納する(ステップS10)。CT体系テーブル33およびST体系テーブル34は、補助記憶装置23に格納された状態で、意味表現生成処理の過程において適宜参照されるようにしてもよいが、これに代えて、意味表現生成処理の高速化のために、このステップS10においてCT体系テーブル33およびST体系テーブル34を補助記憶装置23から読み込んでメインメモリ22に格納するようにしてよい。
【0035】
次に、入力テキストデータDinに対して形態素解析を行う(ステップS12)。図8に示すように形態素解析では、入力テキストデータDinにおける形態素の区切りを同定し、入力テキストデータDinに含まれる各形態素の品詞を決定する(ステップS122)。
【0036】
その後、CT体系テーブル33を参照することにより、入力テキストデータDinにおける各形態素に概念タグ(CT)を付与する(ステップS124)。既述のようにCT体系テーブル33では、自然言語で使用される形態素の意味を階層的かつ多義的に表す概念情報が記録されている(図3参照)。入力テキストデータDinにおける各形態素への概念タグの付与に際しては、当該形態素に該当する概念タグをCT体系テーブル33における最下位の概念(例を含む)から順に上位の概念に向かって探し、最初に該当すると判定された概念タグが当該形態素に付与される。以下、図12を参照して、入力テキストデータDinにおける各形態素への概念タグの付与につき説明する。
【0037】
図12は、本実施形態における意味表現生成処理を具体例に基づき説明するための図である。ここでは、入力テキストデータDinに図12(A)に示す文(テキスト)すなわち「太郎は公園へ行った。」が含まれているものとし、このテキストに着目して意味表現生成処理を説明する。このテキストは、ステップS122,S124により、図12(B)に示すように7個の形態素に区切られて各形態素に概念タグ(CT)が付与される。なお図12(B)において、縦方向に延びる点線が形態素の区切りを示している(以下における図13図14においても同様)。以下では、図12(B)に示すように形態素に区切られて各形態素に概念タグが付与されるとともに各形態素に品詞が付与されたデータを、「分かち書きデータ」と呼ぶものとする。
【0038】
次に、上記のステップS122,S124による入力テキストデータDinに対する形態素の区切りおよび各形態素への品詞および概念タグの付与に基づき、入力テキストデータDinに対応する分かち書きデータD1を生成する(ステップS126)。分かち書きデータD1が生成されると、形態素処理(ステップS12)を終了し、図7のステップS14へ進んで構文解析を行う。
【0039】
図9に示すように構文解析(ステップS14)では、分かち書きデータD1に基づき、入力テキストデータDinにおける依存構造すなわち入力テキストデータDinにおける文節の係り受けの構造を求めるとともに(ステップS142)、入力テキストデータDinにおける句構造を求める(ステップS144)。ここで、句構造とは、入力テキストデータDinに含まれる形態素からどのように文節が形成され、文節からどのように連文節が形成されるかを示す構造、すなわち、形態素、文節、および連文節から構成される文の階層的な構造をいう。これらのステップS142,S144によれば、例えば図12(A)に示す既述のテキストに対し、その分かち書きデータD1に基づき(図12(B))、図12(C)に示すように依存構造および句構造が求められる。なお、図12(A)のテキストには連文節は含まれず、このテキストは図12(C)に示すような3つの文節(「太郎は」、「公園へ」、「行った」)から構成され、これらの文節には図12(C)に示すような係り受けの関係がある。
【0040】
この構文解析では、その後、上記のように求められた依存構造および句構造に基づき、入力テキストデータDinに含まれる各文の構造(依存構造および句構造)を表す構文データD2を生成する(ステップS146)。構文データD2が生成されると、構文解析(ステップS14)を終了し、図7のステップS16へ進んで文脈解析を行う。
【0041】
図10に示すように文脈解析(ステップS16)では、構文データD2に基づき入力テキストデータDinに対し照応解析を行うことにより、入力テキストデータDinに含まれる照応詞が参照する先行詞を特定する(ステップS162)。また、構文データD2に基づき入力テキストデータDinに対し談話構造解析を行うことにより、入力テキストデータDinにおいて談話関係を有する文の対すなわち意味的に関係する文の対を特定する(ステップS164)。その後、これらの特定結果に基づき、入力テキストデータDinにおける照応関係および談話関係を表す文脈データを生成し、当該文脈データと上記構文
データD2とから文脈・構文データD3を生成する。文脈・構文データD3が生成されると、文脈解析(ステップS16)を終了し、図7のステップS18へ進んで意味解析を行う。なお、このような照応解析および談話構造解析により得られる文脈・構文データD3の利用については、後述の意味表現データの第2および第3の生成例と関連付けて説明する(図14図15参照)。
【0042】
図11に示すように意味解析(ステップS18)では、ST体系テーブル34を参照することにより、文脈・構文データD3に基づき入力テキストデータDinにおいて係り受けの関係を有する文節と文節の間(文節の対)、連文節と文節の間、および、連文節と連文節の間(連文節の対)に意味タグを付与するとともに、文脈・構文データD3に基づき入力テキストデータDinにおいて照応関係または談話関係を有する文と文の間(文の対)に意味タグを付与する。以下では、文節と連文節と文とを総称して「テキスト構成要素」と呼ぶものとし、係り受け関係または談話関係を有するテキスト構成要素の対は意味的に関係しているものとして説明を進める。
【0043】
ステップS182により、入力テキストデータDinに含まれるテキスト構成要素の対に意味タグが付与されると、次に、入力テキストデータDinにおける各形態素に付与された概念タグと、入力テキストデータDinにおいて意味関係を有するテキスト構成要素の対に付与された意味タグとに基づき、入力テキストデータDinに対応する意味表現データ140を生成する(ステップS184)。
【0044】
例えば、図12(A)に示したテキストに対して図12(D)に示すような意味表現のデータが生成される。図12(D)に示す意味表現では、テキスト構成要素としての文節をノードとし、意味的に関係するノードの間(係り受け関係を有する文節の間)にはエッジが設けられ、当該エッジにはその意味的関係を表す意味情報を示す意味タグ(ST)が付与されており、各形態素にはその意味を表す概念情報を示す概念タグ(CT)が付されている。本実施形態に係る意味表現生成装置10としてのコンピュータ20では、図12(D)に示す意味表現に対応する適切なデータ構造(コンピュータでの処理に適したデータ構造)の意味表現データ140がメインメモリ22において生成され、適宜、補助記憶装置23等に保存される。
【0045】
なお、図12(D)の意味表現において、2つの文節「公園へ」と「行った」との間には、それらの意味的関係を表す「空間的終点」という意味情報を示す意味タグ“lfp”が付与されている(図4参照)。また、2つの文節「太郎は」と「行った」との間には、それらの意味的関係を表す「行為者、意思を持つ行動主体」という意味情報を示す意味タグ“agt”が付与されている。しかし、ST体系テーブル34における判定方法(ST付与規則)によっては、意味タグ“exp”が示す「経験者、…」という意味情報が表す意味関係もこれらの文節の係り受け関係に該当すると判定される場合がある(図4参照)。この場合、「太郎は」と「行った」の間に2つの意味タグ“agt”と“exp”が付与される。
【0046】
ステップS184により上記のような意味表現データ140が生成されると、意味解析(ステップS18)を終了する。図7に示すように、この意味解析の終了により本実施形態における意味表現生成処理が終了する。
【0047】
なお、本実施形態における意味表現生成処理(図7)のうち、形態素解析(図8)、構文解析(図9)、および、文脈解析(図10)の具体的処理については、CT体系テーブル33(図3)に基づく概念タグの付与を除き、周知または公知のいずれかの手法による処理を採用すればよく、上記で説明した処理に限定されない。
【0048】
<5.意味表現データの生成例>
<5.1 第1の生成例>
図13は、本実施形態における意味表現データの第1の生成例を説明するための図である。すなわち図13は、図13(A)に示す1つの文から成るテキストが入力テキストデータDinに含まれている場合に、意味表現生成処理(図7)により当該テキストからどのような意味表現データが生成されるかを説明するための図である。
【0049】
本例では、図13(A)のテキストは、意味表現生成処理における形態素解析(ステップS12)により、図13(B)に示すように9個の形態素に区切られて各形態素に概念タグ(CT)が付与される。このテキストにおける助詞の形態素「は」と「と」に着目すると、図3および図13(B)に示すように、「は」につきCT体系テーブル33で与えられる概念情報はその意味を階層的に表すものではないが、「と」につきCT体系テーブル33で与えられる概念情報はその意味を階層的かつ多義的に表している。すなわち図3に示すように、助詞「と」については、その意味を表す概念が「結果」、「比較基準」、「共同相手」、「引用」、または「限度」であるとして記録されるとともに、それらの概念の上位概念が「相手」であるとして記録されている。図13(B)に示すように、本例における助詞「と」については、「共同相手-相手」という概念情報を示す概念タグが付与される。なお、形態素解析の段階では、当該助詞「と」のように意味が多義的である形態素については、多義的なまま複数の概念タグを当該形態素に付与しておいてもよい。ただし、当該複数の概念タグの間で相反するものがある場合には、意味解析の段階でテキスト構成要素の対(文節の対等)に意味タグを付与するときに(図11のS182)、解析対象のテキストにおける当該形態素の前後の形態素の概念タグに応じて当該形態素につき概念タグを付与し直すことになる。
【0050】
次に、構文解析(ステップS14)により、図13(C)に示すように本例のテキスト(図13(A))の依存構造および句構造が求められる。
【0051】
その後、文脈解析(ステップS16)を経て意味解析(ステップS18)が行われる。この意味解析により、本例のテキストにおいて意味的に関係するテキスト構成要素の対(ここでは、係り受け関係を有する3つの文節対)に対し意味タグ(“agt”,“jnt”,“pur”等)が付与され、各形態素に付与された概念タグと、意味的に関係するテキスト構成要素の対に付与された意味タグとに基づき、本例のテキスト(図13(A))に対応する意味表現データとして図13(D)に示すような意味表現のデータが生成される。
【0052】
この意味表現データでは、2つの文節「太郎は」と「行った」の間に付与される意味タグ(“agt”または“agt,exp”)は、図12に示す例と同じである。2つの文節「花子と」と「行った」との間には、図4のST体系テーブル34における判定方法(文節と文節の間に付与すべき意味タグを決定するためのST付与規則)に基づき、その意味的関係を表す「共同参加者」という意味情報を示す意味タグ“jnt”が付与されている。2つの文節「応援に」と「行った」との間には、図4に示すST体系テーブル34の判定方法に基づき、その意味的関係を表す「目的」という意味情報を示す意味タグ“pur”が付与されている。
【0053】
<5.2 第2の生成例>
図14は、本実施形態における意味表現データの第2の生成例を説明するための図である。すなわち図14は、図14(A)に示す2つの文から成るテキストが入力テキストデータDinに含まれている場合に、意味表現生成処理(図7)により当該テキストからどのような意味表現データが生成されるかを説明するための図である。
【0054】
本例では、図14(A)のテキストは、意味表現生成処理における形態素解析(ステップS12)により、図14(B)に示すように、第1文(「電熱線が高温だった。」)および第2文(「電熱線が軟化した。」)がそれぞれ6個の形態素に区切られて各形態素に概念タグ(CT)が付与される。
【0055】
その後、構文解析(ステップS14)および文脈解析(ステップS16)を経て意味解析(ステップS18)が行われる。この意味解析により、本例のテキスト(図14(A))において意味的に関係するテキスト構成要素の対(ここでは、第1文において係り受け関係を有する1つの文節対と第2文において係り受け関係を有する1つの文節対)に対し意味タグ(“gnr”,“cap”)が付与され、各形態素に付与された概念タグと、意味的に関係するテキスト構成要素の対に付与された意味タグとに基づき、本例のテキストに対応する意味表現データとして図14(C)に示すような意味表現のデータが生成される。
【0056】
この意味表現データでは、図4に示すST体系テーブル34の判定方法(文節と文節の間に付与すべき意味タグを決定するためのST付与規則)に基づき、第1文における2つの文節「電熱線が」と「高温だった」の間には、その意味関係を表す「一般的な関係」という意味情報を示す意味タグ“gnr”が付与され、第2文における2つの文節「電熱線が」と「軟化した」の間には、その意味関係を表す「意図を持たずに事象を引き起こす物」という意味情報を示す意味タグ“cap”が付与され、第1文における文節「電熱線が」と第2文における文節「電熱線が」との間には、本例における文脈・構文データD3に基づき、その意味関係を表す「等価」という意味情報を示す意味タグ“eq”が付与されている。
【0057】
また、この意味表現データでは、本例における文脈・構文データD3に基づき、第2文(「電熱線が軟化した。」)は「結果(result)」に該当すると判定されている。この判定結果と、本例における文節間に付与された上記の意味タグ“gnr”,“cap”,“eq”とに基づき、図14(C)に示すように、第1文の述語に相当する文節「高温だった」と第2文の述語に相当する文節「軟化した」との間(「高温だった」から「軟化した」に向かうエッジ)に、その意味的関係を表す“cau”(原因)という意味情報を示す意味タグが付与されている。
【0058】
<5.3 第3の生成例>
図15は、本実施形態における意味表現データの第3の生成例を説明するための図である。すなわち図15は、図15(A)に示す3つの文から成るテキストが入力テキストデータDinに含まれている場合に、意味表現生成処理(図7)により当該テキストからどのような意味表現データが生成されるかを説明するための図である。
【0059】
本例では、図15(A)のテキストは、意味表現生成処理における形態素解析(ステップS12)、構文解析(ステップS14)、および文脈解析(ステップS16)を経て、意味解析(ステップS18)が行われることにより、第1文(「私は参考になる本を本屋で見つけた。」)、第2文(「本は赤色で安かった。」)、および、第3文(「それを早速買った。」)が形態素に区切られて各形態素に概念タグ(CT)が付与されるとともに(図3参照)、本例のテキストにおいて意味関係を有するテキスト構成要素とテキスト構成要素との間(テキスト構成要素の対)に意味タグが付与され、図15(B)に示すような意味表現のデータが生成される。
【0060】
この意味表現データでは、図4に示すST体系テーブル34の判定方法(文節と文節の間に付与すべき意味タグを決定するためのST付与規則)に基づき、第1文において、2つの文節「参考になる」と「本を」の間に、その意味関係を表す「状態、状況、または場
合」という意味情報を示す意味タグ“sit”が付与され、2つの文節「本を」と「見つけた」の間には、その意味的関係を表す「他動詞の目的語」という意味情報を示す意味タグ“obj”が付与され、2つの文節「本屋で」と「見つけた」の間に、その意味的関係を表す「空間的位置」という意味情報を示す意味タグ“loc”が付与され、2つの文節「私は」と「見つけた」の間に、その意味的関係を表す「行為者、意思を持つ行動主体」という意味情報を示す意味タグ“agt”が付与されている。第2文において、2つの文節「本は」と「赤色で」の間に、その意味関係を表す「状態、状況、または場合」という意味情報を示す意味タグ“sit”が付与され、2つの文節「本は」と「安かった」の間にも、その意味関係を表す「状態、状況、または場合」という意味情報を示す意味タグ“sit”が付与され、2つの文節「赤色で」と「安かった」の間には、その意味関係を表す「並列関係」という意味情報を示す意味タグ“par”が付与されている。第3文において、2つの文節「それを」と「買った」の間に、その意味関係を表す「他動詞の目的語」という意味情報を示す意味タグ“obj”が付与され、2つの文節「早速」と「買った」の間にも、その意味関係を表す「時間的位置」という意味情報を示す意味タグ“tim”が付与されている。第1文における文節「本を」と第2文における文節「本は」との間には、本例における文脈・構文データD3に基づき、その意味関係を表す「等価」という意味情報を示す意味タグ“eq”が付与されている。第3文における文節「それを」と第2文における文節「本は」との間には、本例における文脈・構文データD3に基づき、その意味関係を表す「照応関係」という意味情報を示す意味タグ“corr”が付与されている。第1文における文節「私は」と第3文における文節「買った」との間には、本例における文脈・構文データD3に基づき、その意味関係を表す「行為者、意思を持つ行動主体」という意味情報を示す意味タグ“agt”が付与されている。
【0061】
また、この意味表現データでは、本例における文脈・構文データD3に基づき、第3文(「それを早速買った。」)は「結果(result)」に該当すると判定されている。この判定結果と、本例における文節間に付与された上記の各意味タグとに基づき、図15(B)に示すように、第1文の述語に相当する文節「見つけた」と第3文の述語に相当する文節「買った」との間に、その意味的関係を表す“rea”(理由)という意味情報を示す意味タグが付与されている。また同様に、第1文における文節「参考になる」と第3文における文節「買った」との間や、第2文における文節「赤色で」と第3文における文節「買った」との間、第2文における文節「安かった」と第3文における文節「買った」との間にも、その意味的関係を表す“rea”(理由)という意味情報を示す意味タグが付与されている。
【0062】
<6.効果>
上記のような本実施形態によれば、自然言語データである入力テキストデータDinに対する形態素解析(図7図8)において、全ての品詞の形態素につきその意味を階層的かつ多義的に表す概念情報が記録されたCT体系テーブル33(図3)を参照することにより、名詞や動詞等の内容語の形態素のみならなず助詞等の機能語の形態素についても概念タグ(CT)が付与され(図12(B)、図13(B)、図14(B)参照)、意味解析(図7図11)において、このような概念タグの形態素への付与に基づき意味表現データ140が生成される(図12(D)、図13(D)、図14(C)等)。これにより、従来に比べ、自然言語データに含まれる語の意味をより適切に表現した意味表現データが得られる。
【0063】
また本実施形態によれば、自然言語データである入力テキストデータDinに対し、上記のような形態素への概念タグの付与を含む形態素解析(図8)の後、構文解析(図9)および文脈解析(図10)を経て、意味解析(図11)が行われる。この意味解析では、ST体系テーブル34を参照することにより、入力テキストデータDinにおいて意味的に関係するテキスト構成要素(文節、連文節、または、文)の対のそれぞれにつき意味タ
グ(ST)が付与され、上記のような形態素への概念タグの付与およびこのようなテキスト構成要素の対への意味タグの付与に基づき意味表現データ140が生成される(図12(D)、図13(D)、図14(C)等)。このとき参照されるST体系テーブル34では、図4に示すように、述語に相当する文節等のテキスト構成要素か否かに拘わらず、自然言語において意味的に関係するテキスト構成要素(文節、連文節、または、文)の対の当該意味的関係を表す複数の意味情報をそれぞれ示す複数の意味タグのそれぞれにつき、ST付与規則(当該意味タグをどのようなテキスト構成要素の対に付与すべきかを判定するための方法)が与えられている。このため、本実施形態によれば、従来に比べ、自然言語データから語の意味だけでなく文の意味や文章の意味を適切かつ十分に表現した意味表現データが得られる。また、ST体系テーブル34において与えられているST付与規則は、その意味タグを付与すべきテキスト構成要素の対を当該対に含まれる形態素の概念タグ(CT)を用いて定義した規則を含んでいる。このようなST付与規則によれば、テキスト構成要素の対に対して付与すべき意味タグをより的確に決定できる。
【0064】
なお、このような本実施形態により生成される意味表現データを自然言語データからの知識獲得や自然言語による質問応答システムに利用すれば、知識獲得の精度や獲得された知識の再利用性を高めることができる。
【0065】
<7.変形例>
本発明は上記実施形態に限定されるものではなく、本発明の範囲を逸脱しない限りにおいて種々の変形を施すことができる。
【0066】
例えば上記実施形態では、意味表現データを生成するための入力テキストデータDinは日本語のテキストデータである。しかし、他の自然言語のテキストデータ、例えば英語のテキストデータである入力テキストデータDinから、上記実施形態に係る意味表現生成装置や意味表現生成方法等と同様に構成された意味表現生成装置または意味表現生成方法により、意味表現データを生成することができる。
【0067】
上記実施形態において使用されるCT体系テーブル33では、図3に示すように、自然言語における形態素の意味を表す概念が階層的に分類されているが、図3に示す階層的な分類は例示的なものであり、自然言語における形態素の意味を表す概念が他の態様で階層的に分類されていてもよい。また、上記実施形態において使用されるST体系テーブル34において各意味タグに対応づけられるST付与規則は、図4図6に示されるST付与規則とは異なる形で定義されていてもよい。さらにまた、上記実施形態において使用されるST体系テーブル34では、述語に相当する文節としてのテキスト構成要素か否かに拘わらず、自然言語において意味的に関係するテキスト構成要素(文節、連文節、または、文)の対につきST付与規則が与えられているが、これに代えて、従来の深層格等の付与のように、自然言語において意味的に関係するテキスト構成要素の対の一方が述語に相当する文節である場合にのみ、当該テキスト構成要素の対にST付与規則を与えるようにしてよい。
【符号の説明】
【0068】
10 …意味表現生成装置
20 …コンピュータ
21 …CPU
22 …メインメモリ
23 …補助記憶装置
30 …記録媒体
31 …意味表現生成プログラム
32 …テキストデータ
33 …CT体系テーブル
34 …ST体系テーブル
100…テキストデータ記憶部
112…形態素解析部
114…構文解析部
116…文脈解析部
118…意味解析部
140…意味表現データ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15