IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソフネック株式会社の特許一覧

特開2022-173178意図情報抽出プログラム、意図情報抽出装置および意図情報抽出方法
<>
  • 特開-意図情報抽出プログラム、意図情報抽出装置および意図情報抽出方法 図1
  • 特開-意図情報抽出プログラム、意図情報抽出装置および意図情報抽出方法 図2
  • 特開-意図情報抽出プログラム、意図情報抽出装置および意図情報抽出方法 図3
  • 特開-意図情報抽出プログラム、意図情報抽出装置および意図情報抽出方法 図4
  • 特開-意図情報抽出プログラム、意図情報抽出装置および意図情報抽出方法 図5
  • 特開-意図情報抽出プログラム、意図情報抽出装置および意図情報抽出方法 図6
  • 特開-意図情報抽出プログラム、意図情報抽出装置および意図情報抽出方法 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022173178
(43)【公開日】2022-11-18
(54)【発明の名称】意図情報抽出プログラム、意図情報抽出装置および意図情報抽出方法
(51)【国際特許分類】
   G06F 40/30 20200101AFI20221111BHJP
【FI】
G06F40/30
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2021079401
(22)【出願日】2021-05-08
(71)【出願人】
【識別番号】500242258
【氏名又は名称】ソフネック株式会社
(74)【代理人】
【識別番号】100120916
【弁理士】
【氏名又は名称】佐藤 壽見子
(72)【発明者】
【氏名】竹内 栄
(72)【発明者】
【氏名】石井 明久
(72)【発明者】
【氏名】加藤 大輔
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091BA15
(57)【要約】      (修正有)
【課題】日本語の入力テキストに含まれる表現と類似する比較対象文を選定することによって入力テキストの意図情報を抽出することが可能な意図情報抽出プログラム、装置および方法を提供する。
【解決手段】コンピュータプログラムを実行することによって実現できる意図情報抽出装置の機能ブロックであって、入力テキストを構文解析の結果に基づき単文に分割する入力テキスト単文化部と、複数の比較対象文を格納している辞書から各比較対象文を読み込み、構文解析の結果に基づいて比較対象文を分類し、分類されたタイプに応じて判定モデルを自動生成する判定モデル生成部と、単文化後の入力テキストを各判定モデルに当てはめ、判定モデルが入力テキストとマッチする比較対象文を抽出するマッチング処理部と、抽出した比較対象文を出力する抽出結果出力部と、を備える。
【選択図】図2
【特許請求の範囲】
【請求項1】
入力された日本語のテキストの意図情報を抽出するプログラムであって、
コンピュータを、
入力テキストを構文解析の結果に基づき単文に分割する入力テキスト単文化手段と、
複数の比較対象文を格納している辞書から各比較対象文を読み込み、構文解析の結果に基づいて比較対象文を分類し、分類されたタイプに応じて判定モデルを自動生成する判定モデル生成手段と、
単文化後の入力テキストを各判定モデルにあてはめ、判定モデルが入力テキストとマッチする比較対象文を抽出するマッチング処理手段と、
前記抽出した比較対象文を出力する抽出結果出力手段として
動作させることを特徴とする意図情報抽出プログラム。
【請求項2】
前記入力テキスト単文化手段は、元の入力テキストが複文、重文、重複文の場合に2個以上の単文に分割するとともに、分割後の単文を冗長化することを特徴とする請求項1に記載の意図情報抽出プログラム。
【請求項3】
前記入力テキスト単文化手段は、構文解析器と接続する同義語辞書を参照して入力テキストに出現する語を同義語にまで拡張することを特徴とする請求項1に記載の意図情報抽出プログラム。
【請求項4】
前記判定モデル生成手段は、読み込まれた比較対象文を構文解析し、(1)特定の述語を、複数の補語や修飾語と組み合わせた叙述文タイプ、(2)一つの単語からなる1単語フォーカスタイプ、(3)特定の形容詞と名詞の組合せからなる形容詞フォーカスタイプの3種類のパターンに分類し、(1)のタイプの比較対象文が重文、複文あるいは重複文のときは2個以上の単文に分割することを特徴とする請求項1に記載の意図情報抽出プログラム。
【請求項5】
前記マッチング処理手段は、比較対象文が叙述文タイプである場合、前記比較対象文の判定式を構成する全要素が入力テキストに含まれ、且つ各要素のカテゴリーと構成も入力テキスト中の対応する単語の解析情報と一致する場合に、前記比較対象文を抽出することを特徴とする請求項4に記載の意図情報抽出プログラム。
【請求項6】
前記マッチング処理手段は、比較対象文が1単語フォーカスタイプである場合、
その単語が入力テキスト中の述語、補語、修飾語のいずれかの位置に出現しているならば、前記比較対象文を抽出することを特徴とする請求項4に記載の意図情報抽出プログラム。
【請求項7】
前記マッチング処理手段は、比較対象文が形容詞フォーカスタイプである場合、
形容詞と名詞の構成は、補語と述語のリンクする関係でも、修飾語と被修飾後のリンクする関係でもよいことを特徴とする請求項4に記載の意図情報抽出プログラム。
【請求項8】
入力された日本語のテキストの意図を抽出する装置であって、
入力テキストを構文解析の結果に基づき単文に分割する入力テキスト単文化手段と、
複数の比較対象文を格納している辞書から各比較対象文を読み込み、構文解析の結果に基づいて比較対象文を分類し、分類されたタイプに応じて判定モデルを自動生成する判定モデル生成手段と、
単文化後の入力テキストを各判定モデルにあてはめ、判定モデルが入力テキストとマッチする比較対象文を抽出するマッチング処理手段と、
前記抽出した比較対象文を出力する抽出結果出力手段とを
備えることを特徴とする意図情報抽出装置。
【請求項9】
入力された日本語のテキストの意図を抽出する方法であって、
コンピュータが、
入力テキストを構文解析の結果に基づき単文に分割するステップと、
複数の比較対象文を格納している辞書から各比較対象文を読み込み、構文解析の結果に基づいて比較対象文を分類し、分類されたタイプに応じて判定モデルを自動生成するステップと、
単文化後の入力テキストを各判定モデルにあてはめ、判定モデルが入力テキストとマッチする比較対象文を抽出するステップと、
前記抽出した比較対象文を出力するステップとを
実行することを特徴とする意図情報抽出方法。
【発明の詳細な説明】
【技術分野】
【0001】
入力された日本語のテキストに含まれる表現と類似する比較対象文を選定することによって、入力テキストの意図情報を抽出するプログラム、装置及び方法に関する。
【背景技術】
【0002】
自然言語は曖昧である。日本語も自然言語なので数式のような明瞭さは望めない。しかし、機械翻訳、リアルタイムに応答する会話ロボットなどが製品化されている現状では、人間を介在させずに機械がいかに正確に日本語を理解し、話者や書き手の意図を的確に判断するかが重要課題となっている。
例えば、『先生は私は出かけたと思った。』という文が入力され、「出かけた」のが「先生」か「私」かの判断を誤ると、不適当な翻訳となったり、ピントが外れた応答をして話者にストレスを与えたりすることになる。
この点、特許文献1では、ユーザの発話から意図を解釈し、カーナビに適切な指示を与える「意図推定装置及び意図推定方法」の発明が開示されている。
また、話者や書き手の意図は発話や文章の表現に表れるので、類似する表現は似通った意図による場合が多い。そこで、非特許文献1のように、意図を把握する目的で比較対象となる文との間で類似性を判定するシステムが既に存在している。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】再公表特許WO2016/120904号公報
【非特許文献】
【0004】
【非特許文献1】「GLUE」(https://gluebenchmark.com/)
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記の特許文献1は、カーナビという特定の用途に関わるものである。そのため、経路や場所(目的地、経由地)、訪れる順序など入力文の特徴や語彙はある程度限定され、語彙のデータベースの作成なども困難ではない。しかし、目的が限定されない日本語処理では、どのようなテキストが入力されるのかわからないので、汎用的な処理が要求される。
ところで、話し手や書き手は日本語の文法どおりに話したり書いたりするとは限らない。主語と述語が対応していなかったり、助詞の「が」と「は」の使い分けに無頓着であったりする。また、係り受けに曖昧さのある表現も頻繁に目にするところである。そこで、本発明は、いかなる日本語のテキストが入力されても高い精度で解釈し、書き手などの意図をくみとるソフトウェアや装置を提供することを目的とする。
【0006】
さらに、特許文献1では「意図」を発話者(=語り手。書き手。発話する主体)の立場から捉えているという問題がある。これは、特許文献1に限らず、一般的な捉え方ではある。しかし、発話には必ず相手がいる。この相手の存在を、従来の自然言語処理では等閑視していたきらいがあるので、本発明はこれにも一つの回答を与えたいのである。従来、「発話者」側の意図を正確に把握することに重点が置かれ、相手方(以下、「読み取り手」という)の存在に対する意識が希薄であった、さらに言えば欠落していた。ここでいう「読み取り手」とは、単なる「聞き手」のことではなく、特定の関心領域を持ち、発話内容を自らの関心領域と関わりのある目的を持って読み取ろうとする意思のある主体のことである。このような「読み取り手」にとっての発話者の意図とは、発話者が自ら伝えようとする内容ではなく、読み取り手側が必要に応じて解釈するものである。
【0007】
たとえば、タウン誌の記者が地元のレジャー施設や店舗について住民にインタビューをする場合を想定する。ここで住民は「発話者」であり、記者が「読み取り手」である。記者にとって、地元でのレジャーの過ごし方が関心領域である。インタビューを受けた住民は、記者に対してレジャーとは関連のない事柄についても言及するかもしれない。たとえば、『私は、ファミレスでパートをし、夫は病院勤めなので5連休も1日しか休めません。その日は、近くのつつじが綺麗な公園で過ごし、家に帰る途中の量販店で買い物をし、1階にある評判のラーメン店で夕食を取る予定です。』と長々と答えたとする。記者にとって、「近くのつつじが咲く公園」、「量販店での買い物」、「ラーメン店での夕食」の3点のみが関心領域に適合するのである。相手の職業などの情報は聞き流されるだけである。
このように、「読み取り手」とは、「発話者」の話を傾聴するだけの受け身の存在ではなく、そこから自分にとって必要な情報を読み取ろうとする意思を持った主体なのである。
【0008】
本発明は、前述したとおり、自然言語によって発せられた発話者の意図を正確に取得することが最大の目的であることは言うまでもない。さらに「読み取り手」の存在にも焦点を当てることで、(a)発話者の意図を正確に取得すること、(b)汎用性という2つの課題の解決も狙いとしているのである。
【0009】
まず、「(a)発話者の意図を正確に取得すること」について説明する。
発話を文法的に正しく解釈することは当然としても、発話者の意図を正確に理解することは困難である。それは、コンテキスト(前後の文脈や背景/状況)の理解が不可欠であるからだ。しかし、コンテキスト以上に、普遍的な「正確さ」で何かを「完全に」把握することは不可能に近いという現実がある。
この点、「正確さ」をより限られたスコープ(関心領域)に限定することで、かかる問題を回避することが可能となるのである。それは「読み取り手」にフォーカスすることで実現できる。「読み取り手」は、ある目的があって予め読み取りたい情報があるのだから、「発話者」の意図を全て理解し把握する必要はなく、必要な情報だけをそこから抜き出したいのである。
そのためには、「読み取り手」側には、取り出したい「発話者の意図」を予め定義しておく必要がある。それにより、「必要な情報/不必要な情報」が結果的に選別され、適切に効率的に限定された「正確さ」を得ることができる。
また、「読み取り手」が取り出したい「発話者の意図」を、自然言語文の形態で定義しているので、「読み取り手」は日常の言語感覚で「発話者の意図」を正確に取得できるのである。
【0010】
次に、「(b)汎用性」について説明する。
上記の(a)において、「読み取り手」が取り出したい情報を正確に取得するために関心領域を限定すると述べた。このような限定は汎用性と矛盾するように思えるが、むしろ「限定すること」を逆手にとって汎用性と結びつけようとするのである。
「読み取り手」にとって必要な「発話者の意図」は、特定の関心領域に応じて定義したデータセットから抽出される。そして、関心領域が異なるならば、データセットを変更すればよい。上記のタウン誌の記者の例でいえば、近隣のレジャー施設に関する情報を得たいのであれば、日本語で記述された公園、映画館、飲食店等をテーマとするデータセットを参照すればよい。この記者が地域医療に関する情報を得たいのであれば、地域内の保健所や病院、クリニック等をテーマとするデータセットを参照すればよい。
本発明では、上記の「限定」部分を入れ替え可能、つまり具体的な「比較対象文」を適宜当てはめることで、汎用的なサービス(千差万別の「読み取り手」の関心領域に合致した意図を発話者から抽出するサービス)を実現することができるのである。
この「読み取り手」の立場に配慮という、本発明のもう一つの目的を実現するためには、本発明の主目的である日本語テキストの正確な理解が前提となっていることは言うまでもない。
【0011】
一方、非特許文献1のように深層学習を活用して自然言語を解釈する方法もある。しかし、深層学習を活用したシステムが高い精度を発揮するためには、大量の教師データの収集が必要である。偏りがなく各分野の日本語表現を収集しなくてはならないが、これには大量の人手を要する。
そこで、本発明は、深層学習の手法を用いないAI(人工知能)のシステムを提供することも目的とする。
【課題を解決するための手段】
【0012】
上記の課題解決のために、本発明の意図情報抽出プログラムは、
コンピュータを、
入力テキストを構文解析の結果に基づき単文に分割する入力テキスト単文化手段と、
複数の比較対象文を格納している辞書から各比較対象文を読み込み、構文解析の結果に基づいて比較対象文を分類し、分類されたタイプに応じて判定モデルを自動生成する判定モデル生成手段と、
単文化後の入力テキストを各判定モデルにあてはめ、判定モデルが入力テキストとマッチする比較対象文を抽出するマッチング処理手段と、
前記抽出した比較対象文を出力する抽出結果出力手段として
動作させることを特徴とする。
入力テキストは、日本語で記述されており、文(単文、重文、複文、重複文のいずれでもよい)でも、1個以上の単語でも、形容詞と名詞の組合せのいずれでもよい。
「判定モデル」とは、判定クラスと判定式とを総称する概念である。判定クラスはオブジェクト指向言語にいうクラスに相当し、「比較対象文」を文法的特徴により抽象化したものであって汎用的である。一方、判定式はインスタンスに相当し、判定クラスに具体的な「比較対象文」を当てはめて実行可能としたものである。
【0013】
入力テキスト単文化手段は、元の入力テキストが複文、重文、重複文の場合に2個以上の単文に分割するとともに、分割後の単文を冗長化することが好ましい。
ここで、入力テキストを単文化する意義を説明する。人は言葉により自分の意図を表現する(口頭で発したり、文を書いたり、なんでもよい)ことが多い。ところが、人間の発する言葉(本発明の入力テキスト)は、構造が複雑であったり、主語と述語が離れていたりすることも多い。そのため、他者は意図を取り違えてしまうこともありうる。これを解決するために、本発明では、複雑な文であっても、わかりやすい単文に分割し、別途用意した比較対象文の辞書から類似する文や文節を抽出し提示するのである。
【0014】
入力テキスト単文化手段は、構文解析器と接続する同義語辞書を参照して入力テキストに出現する語を同義語にまで拡張することが好ましい。
【0015】
判定モデル生成手段は、読み込まれた比較対象文を構文解析し、(1)特定の述語を、複数の補語や修飾語と組み合わせた叙述文タイプ、(2)一つの単語からなる1単語フォーカスタイプ、(3)特定の形容詞と名詞の組合せからなる形容詞フォーカスタイプの3種類のパターンに分類し、(1)のタイプの比較対象文が重文、複文あるいは重複文のときは2個以上の単文に分割することが好ましい。
比較対象文は、その文法的特徴によって3タイプのいずれかに対応した判定クラスに分類され、各判定クラスから判定式が生成されるのである。
【0016】
マッチング処理手段は、比較対象文が叙述文タイプである場合、前記比較対象文の判定式を構成する全要素が入力テキストに含まれ、且つ各要素のカテゴリーと構成も入力テキスト中の対応する単語の解析情報と一致する場合に、前記比較対象文を抽出することが好ましい。
単語の「解析情報」には、構文解析の結果で得られた情報から類推した機能(例えば、打消や依頼など)も含まれる。本発明は、単なるキーワードマッチングにとどまらず、解析情報も加味したマッチングを行うので、意図情報が高い精度で抽出できるのである。
【0017】
マッチング処理手段は、比較対象文が1単語フォーカスタイプである場合、
その単語が入力テキスト中の述語、補語、修飾語のいずれかの位置に出現しているならば、前記比較対象文を抽出することが好ましい。
【0018】
マッチング処理手段は、比較対象文が形容詞フォーカスタイプである場合、
形容詞と名詞の構成は、補語と述語のリンクする関係でも、修飾語と被修飾後のリンクする関係のいずれでもよい。
【0019】
本発明は、コンピュータに意図情報抽出プログラムを実装し、意図情報抽出装置として動作させたり、あるいは意図情報抽出装置の動作方法として実現したりすることもできる。
【発明の効果】
【0020】
本発明によれば、入力された日本語のテキストの全体あるいは一部と合致する比較対象文を高い精度で抽出でき、これを深層学習などの機械学習を用いずに実現できる。
また、「読み取り手」は相手の発話の中から自分の目的にあった情報を取り出すことができる。
【図面の簡単な説明】
【0021】
図1】本発明の実施形態の機能概要及びデータ遷移の概要を説明する図である。
図2】本発明の実施形態の意図情報抽出装置の機能ブロック図である。
図3】本発明の実施形態の入力テキストを単文化した例を示す図である。
図4】本発明の実施形態の比較対象文を登録する辞書の構造を説明する図である。
図5】本発明の実施形態のファクタが「叙述文タイプ」の場合の判定モデル(=判定クラス+判定式)とマッチングを例示する表である。
図6】本発明の実施形態のファクタが「1単語フォーカスタイプ」の場合の判定モデル(=判定クラス+判定式)とマッチングを例示する表である。
図7】本発明の実施形態のファクタが「形容詞フォーカスタイプ」の場合の判定モデル(=判定クラス+判定式)とマッチングを例示する表である。
【発明を実施するための形態】
【0022】
以下、本発明の一実施の形態について、図面を用いて説明する。以下の説明では、比較対象文を「ファクタ」と呼び、比較対象文を登録する辞書を「ファクタリスト」と呼ぶことにする。なお、「ファクタリスト」は、前述の「データセット」に相当する。「ファクタリスト」は本発明の利用者の関心領域に応じて、適宜入れ替えることができる。
【0023】
まず、図1を参照して意図情報抽出プログラムを実装した意図情報抽出装置(以下、「本装置」という)1を用いた処理システム(以下、「本システム」という)の概要を説明する。
本装置1へ日本語の入力テキストTが入力されるとともに、ファクタリストFLが入力される。ファクタリストFLは、オントロジー辞書の一種であり、複数のファクタFが日本語によるテキストとして含まれている。本システムは、ファクタFが叙述文であれば、そのファクタFを構成するキーワードにつき、その“カテゴリーとその語と構成”(例えば、キーワードが「歩いた」ならば、カテゴリーは述語、その語は「歩く」、構成は主語とリンクである)の全てがマッチするものが入力テキストTに含まれるか否かを判定し、一つのファクタFの全キーワードが入力テキストTに含まれていれば、このファクタFを抽出する。入力テキストTの一部にでも合致するファクタFを抽出することを通じて、入力テキストTに込められた意図を明らかにするのである。
要するに、何が入ってくるか分からない入力テキストTから、表現が類似するファクタFを抽出し、その結果、入力テキストTの意図を推測しようとするのである。
【0024】
図1を引き続き参照しながら、本システムのデータ遷移の概要について説明する。
日本語による入力テキストを構文解析器にかけ、その結果に基づいて単文に分割する(「単文化」)する。その際、構造を補完して冗長性を持たせる。例えば、『彼は図書館へ行き小説を借りた。』は『彼は図書館へ行き』と『小説を借りた』の2つの単文が得られるが、第2の単文には主語がない。これでは、後のマッチング処理が困難になるので、『彼は小説を借りた。』と主語「彼は」を補完するのである。
ファクタリストが入力されると、これに登録されている各ファクタが処理される。ファクタも日本語によるテキストであり、構文解析器にかけ、3つのタイプに分類される。タイプ毎に判定モデルに自動変換される。
単文化後の入力テキストと、ファクタの判定式とはマッチング処理の入力データとなる。
【0025】
以上、本システムの処理概要及びデータ遷移の概要について説明した。
次に、図面を参照しながら、本システムの動作について本装置1の機能構成部に従い、詳しく説明する。
【0026】
図2は、本装置1の機能ブロック図である。
図2によれば、本装置1は、入力テキスト受信部11と、入力テキスト単文化部12と、ファクタリスト入力部13と、判定モデル生成部14と、マッチング処理部15と、抽出結果出力部16とを有する。また、入力テキスト単文化部12と判定モデル生成部14に解析結果を出力する形態素解析部101と構文解析部102も有する。これらの機能構成部は、本装置1に搭載されたコンピュータプログラムを実行することによって実現できる。
【0027】
[入力テキスト受信部11]
入力テキスト受信部11は、外部から送信されてきた日本語テキストを受信する。送信は、携帯端末を操作するユーザがウェブサイトを介してくる場合もあるが、機械翻訳システム等を実行する外部のシステムの場合などもある。本システムは、単独で動作するというよりも、他のシステムから参照されて動作することが多いので送信元はさまざまである。
入力テキストは、1個あるいは2個以上の文でも、1個の単語でも、あるいは2個以上の単語の羅列でも何でもよい。また、文は、単文、重文、複文、重複文のいずれでもよい。
なお、入力テキストは文字とは限らない。音声で入力し、これを音声認識して文字列に変換しこの文字列を本装置1の入力テキストとしてもよい。その場合は、本装置1に音声認識部や音声合成部が備わっているものとする。
【0028】
[入力テキスト単文化部12]
入力テキスト単文化部12は、入力テキスト受信部11が受信した日本語テキストを単文化し、1個以上の単文を後述するマッチング処理部15へ出力する。
入力された日本語テキストは、まず形態素解析部101によって形態素に区分される。「形態素」とは、ある言語について意味を持つ最小の単位をいい、形態素の区切り、形態素単位の品詞、原形、活用形などの形態素情報は、構文解析部102へ出力される。構文解析部102は、形態素情報を参照して主語、述語の関係を決めたり、文節間の係り受け関係、照応関係などの解析を行ったりする。入力テキスト単文化部12は、構文解析の結果に基づいて、1個以上の単文に分解する。形態素解析部101、構文解析部102については、既存の技術を用いることができるので、詳しい説明は省略する。また、同義語辞書(図示せず)を用意しておき構文解析の段階で、複数の同義語を取り出しておくことが望ましい。
【0029】
図3は、入力テキストの単文化を例示するものである。
ここでは、
『老女は氷雨に濡れた野良猫の顔をじっと見つめて呟いた。』
という重複文を入力テキストの例として説明する。
この例文からは、
『氷雨に濡れた』(単文1)、
『老女は野良猫の顔をじっと見つめて』(単文2)、
『呟いた』(単文3)
の3つの単文が得られた。
単文1と単文3には、主語が省略されているが、図3のL1行とL3行に示すとおり、文全体の「老女」という名詞を自動的に補完し、各単文の内部情報としている。このような冗長化を行うのは、後のファクタとのマッチングを容易にするためである。
例えば、単文3に「老女」を付加した結果、『老女が呟く』というファクタが抽出されることになる。もし主語「老女」をシステム内で補完していなければ、『老女が呟く』というファクタがファクタリストに存在していたとしても抽出されることはない。
1個以上の冗長な単文に分割された入力テキストは、マッチング処理部15へ出力される。
【0030】
なお、テキスト中に「、」(読点)が有っても無くても同様に単文化できる。
また、入力テキストに引用符や括弧(「」、『』、‘‘、“”などいずれでもよい)を含む場合、それらは1つの名詞として扱われることもある。が、入力テキストの冗長化機能の拡張として、引用符の中身を別途取り出して、独立した文として解析を行う場合もある。
【0031】
[ファクタリスト入力部13]
本装置1は、大量のファクタからなるファクタリストを格納したデータベースと接続している。このデータベースは本装置1と接続する記憶装置にあってもよく、あるいは別のサーバに格納されていてもよい。要は、ファクタリストは本装置1の外部から参照可能であればよいのである。ファクタも、入力テキストと同様に日本語で記述されたテキストである。
【0032】
ファクタリストの構造は次のとおりである。
ファクタリストには図4(1)に示すように、ファクタIDの上位にグループがあり、ファクタIDの直下に1個以上のファクタが存在する。図中indexは同じファクタIDが付されたファクタを区別するためのものである。
図4(2)の具体例では、グループ「晴れ」にはファクタID「AT002」が付与されており、ファクタID「AT002」下のファクタとして3つあるので、それぞれをindexで区別して「AT002 (01)」-『晴れ』、「AT002 (02)」-『晴れる』、「AT002 (03)」-『晴れが多い』とする。
【0033】
本装置1による意図情報抽出処理の実行が開始されると、ファクタリストがアップロードされ、このリスト中の各ファクタが形態素解析部101、構文解析部102の処理対象となる。形態素解析、構文解析および同義語辞書にある単語の拡張は入力テキストと同様である。
構文解析後のファクタは、判定モデル生成部14へ出力される。
【0034】
[判定モデル生成部14、およびマッチング処理部15]
判定モデル生成部14は、構文解析の結果に基づきファクタを3タイプのいずれかに分類したうえで、ファクタのタイプ毎に判定クラスに自動変換される。さらに判定クラスに具体的なパラメータを与えることによって判定式に自動変換される。
マッチング処理部15は、各ファクタの判定式を用いて単文化後の入力テキストと照合する。
【0035】
ファクタは、次の3タイプに分類される。
第1のタイプは、特定の述語を、複数の補語や修飾語と組み合わせてファクタとしたものである。以下、これを「叙述文タイプ」という。
第2のタイプは、一つの単語からなるファクタである。以下、これを「一単語フォーカスタイプ」という。
第3のタイプは、特定の形容詞と名詞の組合せからなるファクタである。以下、これを「形容詞フォーカスタイプ」という。
【0036】
ファクタの第1のタイプ「叙述文タイプ」には、属性叙述と事象叙述の2つの類型がある。
属性叙述には、さらに述語が名詞である名詞文(例:『ソクラテスは古代の哲学者です。』)と、述語が形容詞である形容詞文(例:『春の演奏会はとても楽しかった。』)の2つの類型がある。
事象叙述は、述語が動詞である叙述文(例:『美味しい蜂蜜を見つけた。』)である。
【0037】
「叙述文タイプ」のファクタでは、後のマッチング処理の対象とするために、次の3つのいずれかのカテゴリーに属する語が、判定式の構成要素となる。
・述語
・補語(注:主語は補語の一種とみなされる)
・修飾語(注:連用修飾と連体修飾とがある)
例えば、『休日に海沿いの小道をゆっくり歩いた』というファクタは、次のように分解される(図5(1)を参照)。
歩く 《述語》
<------- ゆっくり 《述語を修飾》
<--(に)-- 休日 《補語》
<--(を)-- 小道 《補語》
<--(の)-- 海沿い 《補語を修飾》
この例文では、上記の3カテゴリー、すなわち、述語、補語、修飾語のいずれかに属する「休日」、「海沿い」、「小道」、「ゆっくり」、「歩く」が判定式を構成する。
【0038】
マッチング処理において、ファクタ検出成功とは、各構成要素のカテゴリーとその語と構成が全てマッチする場合をいう。「海沿い」というキーワードを例にとると、カテゴリー=修飾語、語=海沿い、構成=補語「小道」を修飾する関係である。
ここでいう 文中における構成 とは、補語と述語のリンクする関係、あるいは修飾語と被修飾語のリンクする関係をいう。 上記例文での「リンクする関係」は、次の4つである。
・「ゆっくり」 と 「歩く」
・「休日」と「歩く」
・「小道」と「歩く」
・「海沿い」と「小道」
なお、補語、修飾語、述語のいずれのカテゴリーにも属さない文体を表す語尾(例:「…です」「…である」「…だ」)、助詞、接続詞は、判定式の構成要素とならない。
【0039】
入力テキストが『北側の海沿いの小道を休日にゆっくり二人で歩いた』と、上記のファクタ例とのマッチング結果は図5(2)のようになる。入力テキストはファクタ側の要素をすべて満たしているのでマッチングは成功である。
一方、入力テキストが『休日に小道を歩いた』と、上記のファクタ例とのマッチング結果は図5(3)のようになる。入力テキストにはファクタ側の要素が足りていないのでマッチングは失敗である。
【0040】
ファクタが「叙述文タイプ」であれば、入力テキストとマッチングが成立するためには、構成キーワードのカテゴリー、その語、文中の構成が一致するだけでなく、構文解析の結果で得られた情報から機能を類推し、この機能も一致する必要がある。
次の「打消」や「依頼」はこの機能の一例である。
機能「打消」
(例)『知らない』:動詞の打消
『理解できない』:名詞の打消
『良くない』:形容詞の打消
機能「依頼」
(例)『来てください』:動詞の依頼
『変更してください』:名詞の依頼
【0041】
「一単語フォーカスタイプ」のファクタでは、名詞、形容詞、副詞をそれぞれ1語でファクタとして登録したものである。なお、動詞1語の場合は、「叙述文タイプ」として処理される。
名詞が1語のみのファクタは、固有名詞と普通名詞の扱いに違いはない。
形容詞が1語のみのファクタは、否定形の登録も可能である。例えば、ファクタ『明るい』とは別に『明るくない』をファクタとして登録できる。
副詞が1語のみのファクタも、否定形を登録できる。例えば、ファクタ『あっさり』とは別に『あっさりではない』をファクタとして登録できる。
【0042】
図6に、このタイプの判定式とマッチングの例を示す。
ファクタ『ビール』は、文中で補語と述語のいずれでも用いられる(図6(1))。
図6(2)に示すように、入力テキスト1『ビールを飲んだ』では、「ビール」という単語は補語であるから、ファクタとのマッチングに成功する。入力テキスト2『好きな飲み物はビールです』では、「ビール」という単語は述語であって、これもファクタとのマッチングに成功する。
つまり、ファクタが「一単語フォーカスタイプ」であれば、その単語が出現さえしていればマッチングに成功するのである。その単語が文中の述語、補語、修飾語のどの位置にあってもかまわない。
名詞1語については、「らしい」「みたい」「のよう」「っぽい」等の様態表現を条件に追加できる。たとえば、入力テキスト『ビールらしい』、『ビールのようだ』、『ビールっぽい』はいずれも、『ビールみたい』というファクタとマッチすると判定される。
【0043】
「形容詞フォーカスタイプ」のファクタは、特定の形容詞とこれに修飾される名詞の組合せがマッチするが、形容詞のタイプによって、マッチングのパターンに違いがある。
語尾が「い」で終わる形容詞(例:美しい、楽しい、面白い・・・)は、すべてのイ形容詞で有効なわけではないが、語尾「め」のナ形容詞と変換できるもの(例:強い = 強め )はそれらもマッチングの対象となる。
たとえば、『強い炭酸』という基本の登録形{ イ形容詞 } + { 名詞 }のファクタがあるとする。入力テキストが叙述文に展開されたパターンである『炭酸が強い』、助詞が省略された叙述文のパターンである『炭酸強い』、名詞化されたパターンである『強めの炭酸』のいずれもマッチングに成功する(図7を参照)。なお、『炭酸が強い』は「叙述文タイプ」ともいえる。これについては、3タイプのいずれかに分類するときに、「形容詞フォーカスタイプ」に分類可能な場合は、それを優先するようにする。なぜならば、「形容詞フォーカスタイプ」に分類された方が、よりマッチング範囲が広がるためである。
一方、『強くない炭酸』は、「強い」の打消「強くない」が用いられているのでマッチしない。
前述したとおりマッチング処理においてはキーワードとともに打消などの情報も照合されるが、この打消の情報は構文解析結果で分かる情報なのである。
【0044】
語尾が「な」で終わるナ形容詞(例:新鮮な、特徴的な、強めな・・・)は、名詞に分類される形状詞と呼ばれることもあり、「形状詞」 + 「な」 に分解できる。
たとえば、『斬新なデザイン』という基本の登録形{ ナ形容詞(「形状詞」 + 「な」) } + { 名詞 }のファクタがあるとする。入力テキストが名詞化されたパターンである『デザインの斬新さ』、叙述文に展開されたパターンである『デザインが斬新です』のいずれもマッチする。
【0045】
[抽出結果出力部16]
抽出結果出力部16は、マッチング処理部15において抽出されたファクタを原則として全部出力する。
ユーザの端末装置からWeb画面の入力フィールドにテキストである文字列を入力し、これを本装置1に送信してきた場合は、抽出したファクタをその端末装置のWeb画面上に表示させればよい。もし、機械翻訳などの他のシステムから入力された場合は、そのシステムに出力すればよい。
【0046】
ファクタを効率よくファクタリストに登録するためには、制約の強いファクタから制約の弱いファクタを生成して、同じグループに登録するのも一つの方法である。制約の弱いファクタから制約の強いファクタを生成したり、登録済みファクタの否定形を異なるグループとして登録したりしてもよい。
【0047】
上記の実施の形態では、ファクタ抽出のためのプログラムが単体のコンピュータに実装され、このコンピュータが意図情報抽出装置として動作していた。
しかし、本発明の装置に実装するプログラムはWeb上のサービスとして提供され、ユーザのコンピュータは必要なときにこのサービスを利用してもよい。あるいは、機械翻訳などのサービスを提供する装置のエンジンとして実装してもよい。
また、Webサーバ等に種々の分野のファクタリストが蓄積されており、本発明のサービスを利用するユーザが自分の関心領域に適したファクタリストを指定してダウンロードしてもよい。
要は、意図情報抽出機能の提供によって、入力される日本語文の意図を迅速に理解し、その精度を向上させうることが重要なのである。
【産業上の利用可能性】
【0048】
入力された日本語の意図を高精度に認識することを可能とし、日本語処理を伴うさまざまなシステムに本発明の出力結果を利用し、それらシステムの性能向上に資することが期待される。また、発話者の発話内容からユーザにとって関心のある文言のみを正確に抽出したいという要望に応えることができ、各種アナリストやジャーナリストにとっての有用なツールとなることも期待される。
【符号の説明】
【0049】
1:意図情報抽出装置
12:入力テキスト単文化部
14:判定モデル生成部
15:マッチング処理部
16:抽出結果出力部
図1
図2
図3
図4
図5
図6
図7