特開2021-124848(P2021-124848A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ SCSK株式会社の特許一覧

<>
  • 特開2021124848-文章増幅システム及びプログラム 図000003
  • 特開2021124848-文章増幅システム及びプログラム 図000004
  • 特開2021124848-文章増幅システム及びプログラム 図000005
  • 特開2021124848-文章増幅システム及びプログラム 図000006
  • 特開2021124848-文章増幅システム及びプログラム 図000007
  • 特開2021124848-文章増幅システム及びプログラム 図000008
  • 特開2021124848-文章増幅システム及びプログラム 図000009
  • 特開2021124848-文章増幅システム及びプログラム 図000010
  • 特開2021124848-文章増幅システム及びプログラム 図000011
  • 特開2021124848-文章増幅システム及びプログラム 図000012
  • 特開2021124848-文章増幅システム及びプログラム 図000013
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2021-124848(P2021-124848A)
(43)【公開日】2021年8月30日
(54)【発明の名称】文章増幅システム及びプログラム
(51)【国際特許分類】
   G06F 40/56 20200101AFI20210802BHJP
   G06F 40/247 20200101ALI20210802BHJP
【FI】
   G06F40/56
   G06F40/247
【審査請求】未請求
【請求項の数】6
【出願形態】OL
【全頁数】13
(21)【出願番号】特願2020-16730(P2020-16730)
(22)【出願日】2020年2月4日
(71)【出願人】
【識別番号】399104844
【氏名又は名称】SCSK株式会社
(74)【代理人】
【識別番号】100123663
【弁理士】
【氏名又は名称】広川 浩司
(74)【代理人】
【識別番号】100141829
【弁理士】
【氏名又は名称】山田 牧人
(72)【発明者】
【氏名】森澤 千尋
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091AB17
5B091CA21
(57)【要約】
【課題】簡単な処理で入力文に対する同義文あるいは類似文を生成できる文章増幅システム及びプログラムを提供する。
【解決手段】入力文の主題となる目的語部を抽出する文章解析手段21と、入力文の区分を、区分判定リスト41を参照して判定する区分判定手段22と、目的語部に含まれる語句の同義語を、同義語が記憶された同義語辞書43を参照して抽出する同義語抽出手段23と、入力文の最終文節を含む述語部について、区分毎に同義表現が記憶された表現辞書45を参照して同義表現を抽出する表現抽出手段24と、抽出された同義語と同義表現で入力文を置き換えた増幅文を出力する増幅文出力手段25と、を有する。
【選択図】図1
【特許請求の範囲】
【請求項1】
入力文と同じまたは類似する意味を有する増幅文を出力する文章増幅システムであって、
前記入力文の主題となる目的語部を抽出する文章解析手段と、
前記入力文の区分を、区分判定リストを参照して判定する区分判定手段と、
前記目的語部に含まれる語句の同義語を、同義語が記憶された同義語辞書を参照して抽出する同義語抽出手段と、
前記入力文の最終文節を含む述語部について、前記区分毎に同義表現が記憶された表現辞書を参照して同義表現を抽出する表現抽出手段と、
抽出された前記同義語と同義表現で前記入力文を置き換えた増幅文を出力する増幅文出力手段と、
を有することを特徴とする文章増幅システム。
【請求項2】
前記文章解析手段は、前記入力文を構文解析により分析し、該分析結果から主要文節群を特定することにより前記目的語部を抽出することを特徴とする請求項1に記載の文章増幅システム。
【請求項3】
前記区分判定手段は、判定した前記入力文の区分に基づき、前記入力文の目的語部と述語部とを確定させることを特徴とする請求項1または2に記載の文章増幅システム。
【請求項4】
前記同義語抽出手段が参照する同義語辞書は、ユーザーにより特定された用語に対応する同義語を有するユーザー辞書と、一般用語に対応する同義語を有する一般辞書とを含むことを特徴とする請求項1〜3のいずれか1項に記載の文章増幅システム。
【請求項5】
前記同義語抽出手段は、前記一般辞書から抽出した語について、コーパスを参照して類似度を評価し、一定以上の類似度を有する語を同義語として抽出することを特徴とする請求項4に記載の文章増幅システム。
【請求項6】
入力文の主題となる目的語部を抽出するステップと、
前記入力文の区分を、区分判定リストを参照して判定するステップと、
前記目的語部に含まれる単語の同義語を、同義語が記憶された同義語辞書を参照して抽出するステップと、
前記入力文の最終文節を含む述語部について、前記区分毎に同義表現が記憶された表現辞書を参照して同義表現を抽出するステップと、
抽出された前記同義語と同義表現で前記入力文を置き換えた増幅文を出力するステップと、
をコンピュータに実行させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力文と同じまたは類似する意味を有する増幅文を出力する文章増幅システム及びプログラムに関する。
【背景技術】
【0002】
ユーザー等からの問い合わせに対応する業務は、従来、人が行っていたが、最近ではこれを自動化したシステムが知られている。このような問い合わせ対応システムにおいては、想定される質問と回答の組み合わせのデータを大量に用意しておき、このデータを用いて機械学習モデルを生成する。この場合に、質問の文章は、同じ内容であっても様々な言い方があるため、同じまたは類似する意味を有する同義文あるいは類似文を多く用意する必要がある。
【0003】
機械学習用のデータとしての同義文あるいは類似文は、多くの場合、人が作成していた。しかし、人が大量の文章を作成するには手間が掛かると共に、担当者によって作成する文章にばらつきが生じ、機械学習用のデータに適するものとは必ずしもならないという問題があった。
【0004】
このため、同義文あるいは類似文を自動的に生成することが考えられる。同義文あるいは類似文を自動的に生成するシステムとしては、例えば特許文献1に挙げるようなものがある。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2015−118498号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
問い合わせ対応システムにおいて質問の文章は、何かを尋ねることを目的としている。このように一定の目的を有する文章について、簡易的な処理により同義文あるいは類似文を生成できることが望ましい。
【0007】
本発明は、上述した課題を解決するためになされたものであり、簡単な処理で入力文に対する同義文あるいは類似文を生成できる文章増幅システム及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成する本発明に係る文章増幅システムは、入力文と同じまたは類似する意味を有する増幅文を出力する文章増幅システムであって、
前記入力文の主題となる目的語部を抽出する文章解析手段と、
前記入力文の区分を、区分判定リストを参照して判定する区分判定手段と、
前記目的語部に含まれる語句の同義語を、同義語が記憶された同義語辞書を参照して抽出する同義語抽出手段と、
前記入力文の最終文節を含む述語部について、前記区分毎に同義表現が記憶された表現辞書を参照して同義表現を抽出する表現抽出手段と、
抽出された前記同義語と同義表現で前記入力文を置き換えた増幅文を出力する増幅文出力手段と、
を有することを特徴として構成されている。
【0009】
また、本発明に係る文章増幅システムは、前記文章解析手段は、前記入力文を構文解析により分析し、該分析結果から主要文節群を特定することにより前記目的語部を抽出することを特徴として構成されている。
【0010】
また、本発明に係る文章増幅システムは、前記区分判定手段は、判定した前記入力文の区分に基づき、前記入力文の目的語部と述語部とを確定させることを特徴として構成されている。
【0011】
また、本発明に係る文章増幅システムは、前記同義語抽出手段が参照する同義語辞書は、ユーザーにより特定された用語に対応する同義語を有するユーザー辞書と、一般用語に対応する同義語を有する一般辞書とを含むことを特徴として構成されている。
【0012】
また、本発明に係る文章増幅システムは、前記同義語抽出手段は、前記一般辞書から抽出した語について、コーパスを参照して類似度を評価し、一定以上の類似度を有する語を同義語として抽出することを特徴として構成されている。
【0013】
上記目的を達成する本発明に係るプログラムは、入力文の主題となる目的語部を抽出するステップと、
前記入力文の区分を、区分判定リストを参照して判定するステップと、
前記目的語部に含まれる単語の同義語を、同義語が記憶された同義語辞書を参照して抽出するステップと、
前記入力文の最終文節を含む述語部について、前記区分毎に同義表現が記憶された表現辞書を参照して同義表現を抽出するステップと、
抽出された前記同義語と同義表現で前記入力文を置き換えた増幅文を出力するステップと、
をコンピュータに実行させることを特徴として構成されている。
【発明の効果】
【0014】
上記のように構成した文章増幅システム及びプログラムは、区分判定によって同義表現を簡易な処理により多数抽出して、増幅文を容易に生成することができる。
【図面の簡単な説明】
【0015】
図1】本実施形態の文章増幅システムの構成図である。
図2】文章増幅システムにおける処理の流れを示すフローチャートである。
図3】文章解析手段による目的語部の抽出のフローチャートである。
図4】区分判定手段による区分判定のフローチャートである。
図5】区分判定リストのうちリストAを示した図である。
図6】区分判定リストのうちリストBを示した図である。
図7】区分判定リストのうちリストCを示した図である。
図8】区分判定リストのうちリストDを示した図である。
図9】同義語抽出手段による同義語抽出のフローチャートの前半部分である。
図10】同義語抽出手段による同義語抽出のフローチャートの後半部分である。
図11】表現辞書を一部抜粋した表である。
【発明を実施するための形態】
【0016】
以下、図面を参照して、本発明の実施の形態を説明する。本実施形態の文章増幅システムは、ユーザーからの求めに応じて、入力された文章(以下入力文という)と同義文または類似文である増幅された文章(以下増幅文という)を出力するものとして構成される。
【0017】
[システムの全体構成]
図1には、本実施形態の文章増幅システムの構成図を示している。この図に示すように、文章増幅システムは、各種処理を行うサーバー装置10と、情報の入出力を行う端末装置11とを有している。サーバー装置10と端末装置11は、通信ネットワークを介して互いに通信可能に接続される。通信ネットワークは本実施形態において無線であるが、有線でもよい。端末装置は、PC、タブレット端末その他の情報処理装置である。
【0018】
サーバー装置10は、端末装置11との通信を行う通信手段20を有している。サーバー装置10は、その他に、文章解析手段21、区分判定手段22、同義語抽出手段23、類似度判定手段26、表現抽出手段24、増幅文出力手段25、構文解析手段30、及び形態素解析手段33を有している。各手段の詳細は後述する。なお、構文解析手段30及び形態素解析手段33は、サーバー装置10の外部に設けてもよい。
【0019】
また、サーバー装置10は、区分判定手段22にて用いる区分判定リスト41、同義語抽出手段23にて用いるユーザー辞書43a及び一般辞書43bからなる同義語辞書43、類似度判定手段26にて用いるコーパス44、表現抽出手段24にて用いる表現辞書45、構文解析手段30で用いる構文辞書40、及び形態素解析手段33で用いる形態素解析辞書42を記憶している。
【0020】
サーバー装置10は、CPU、ROMやRAM、HDD等の外部記憶装置、通信制御装置等を備えた通常のコンピュータで構成することができ、ROMやRAM、HDD等に記憶されたプログラムをCPUが読み出し動作させることによって、前述の各手段や機能を実現できる。また、各手段で用いる辞書等の記憶は、サーバー装置10が備える外部記憶装置に記憶させることができる。
【0021】
[入力から出力までの流れ]
図2には、文章増幅システムにおける処理の流れを示すフローチャートを示している。まず、端末装置11から、増幅したい入力文と、ユーザー辞書43aの内容が入力される(S1)。ユーザー辞書43aは、入力文に含まれる用語のうち、固有名詞等の一般的ではない用語とその同義語とが関連付けて記憶されたものである。例えば、入力文が「manaBrainの特徴を教えて」である場合に、「manaBrain」は固有名詞である。これについて、「マナブレイン」を同義語として定義したい場合、「manaBrain」を代表語、「マナブレイン」を同義語として入力する。サーバー装置10は、端末装置11から同義語の情報が入力されたら、各用語を代表語または同義語と関連付けてユーザー辞書43aに記憶する。
【0022】
サーバー装置10の文章解析手段21は、入力文について目的語部を抽出する(S2)。目的語部は、入力文の主要文節群のうち、述語部の前の部分である。主要文節群は、入力文の文章の骨格となる部分である。入力文が「manaBrainの特徴を教えて」の場合、「manaBrainの特徴」が目的語部である。また、入力文の最終文節である「教えて」の部分は述語部である。入力文に主語がある場合には、当該主語も目的語部に含められる。
【0023】
入力文から目的語部を抽出したら、サーバー装置10の区分判定手段22は、区分判定リスト41を参照して入力文の区分を判定する(S3)。入力文の区分は、当該文章を種類別に分類するものであり、本実施形態のように入力文が質問文の場合、質問したい事項別に区分が設定される。例えば、「説明」、「時期」、「料金」のような区分が設定される。
【0024】
S2及びS3により、入力文の意図が抽出される。続いて、抽出された入力文の意図と同等の表現が抽出される。
【0025】
入力文の区分を判定したら、サーバー装置10の同義語抽出手段23は、目的語部に含まれる語句の同義語を、同義語辞書43を参照して抽出する(S4)。また、サーバー装置10の表現抽出手段24は、述語部について、表現辞書を参照して入力文の区分に対応した同義表現を抽出する(S5)。このように、入力文の目的語部については同義語辞書から同義語を抽出し、入力文の述語部については表現辞書から同義表現を抽出したら、サーバー装置10の増幅文出力手段25は、これらで入力文を置き換えた増幅文を出力する(S6)。出力される増幅文の最大数は、抽出された同義語と同義表現の組み合わせの数となる。増幅文の最大出力数は、入力時に指定するパラメータにより指定することができる。なお、実際に生成された増幅文の数が最大出力数に満たない場合は、実際に生成された増幅文が全て出力される。
【0026】
[目的語部の抽出の詳細]
図3には、文章解析手段21による目的語部の抽出のフローチャートを示している。文章解析手段21は、まず、入力文の構文解析を行う(S2−1)。構文解析の際には、文章解析手段21から入力文が構文解析手段30に渡される。構文解析手段30は、構文辞書40を参照して、入力文について形態素解析や格解析を含む日本語構文解析を行い、解析結果を文章解析手段21に戻す。日本語構文解析により、入力文の係り受けを明確化した構文解析情報と、品詞、カテゴリ情報、格関係、用言代表表記等の付加情報とを得ることができる。
【0027】
文章解析手段21は、日本語構文解析で得られた係り受け関係を基に、最終文節から遡って繋がる主要文節群を特定する(S2−2)。次に、文章解析手段21は、入力文に述語部があるか否かを判定する(S2−3)。述語部は、入力文の最終文節を含む用言として検出される。入力文に述語部が存在する場合、文章解析手段21は、目的語部を特定する(S2−4)。具体的には、述語部より前の主要文節群から、最後の助詞(述語部の目的格となる助詞)を除去した部分を、目的語部として暫定的に特定する。また、S2−3において述語部が存在しない場合、主要文節群全体を目的語部として暫定的に特定する(S2−5)。
【0028】
[区分の判定の詳細]
図4には、区分判定手段22による区分判定のフローチャートを示している。区分判定手段22は、入力文に述語部があるか否かを判定する(S3−1)。述語部が存在する場合、区分判定手段22は、述語部について、区分判定リスト41のうちリストDを参照して、該当するか否かを判定する(S3−2)。S3−1において述語部が存在しない場合には、S3−5に進む。
【0029】
ここで区分判定リスト41について説明する。区分判定リスト41は、リストA〜Dの4つに分かれている。図5にはリストAを、図6にはリストBを、図7にはリストCを、図8にはリストDを、それぞれ示している。図5に示すように、リストAでは、目的語の終端表現が区分と関連付けられている。図6に示すように、リストBでは、目的語の終端表現が区分と関連付けられている。図7に示すように、リストCでは、目的語の終端形態素の形態素解析付加情報が、区分と関連付けられている。図8に示すように、リストDでは、述語部の構文解析付加情報が区分と関連付けられている。
【0030】
S3−2では、リストDを参照し、述語部の構文解析付加情報がリストDのいずれかと一致する場合、対応する区分に仮確定し(S3−3)、S3−5に進む。ここでは、述語部の構文解析付加情報を利用することにより、ひらがな、漢字等の表記違いや、丁寧語や口語などの表現の違いを吸収して判定することができる。例えば、述語部が「教えて下さい」、「おしえてくださいませ」ののいずれであっても、一致と判定される。S3−5以降で区分判定リスト41のリストA〜Cに該当した場合には、リストA〜Cで特定された区分が優先される。S3−2において一致する項目がなかった場合には、述語部を目的語の一部とし(S3−4)、S3−5に進む。
【0031】
S3−4が実行されたら、次に、区分判定手段22は、区分判定リスト41のうちリストAに該当するか否かを判定する(S3−5)。S3−5〜S3−7では、入力文の目的語部について、区分判定リスト41に該当するか否かが判定される。S3−5では、リストAを参照し、目的語部の終端表現がリストAのいずれかと一致する場合、対応する区分に確定される(S3−8)。例えば、目的語部の終端表現が「でできること」であった場合には、「能力」の区分に確定される。また、S3−5においては、リストAに一致した文字列は、目的語部から除去される。
【0032】
S3−5でリストAに一致しなかった場合、区分判定手段22は、区分判定リスト41のうちリストBに該当するか否かを判定する(S3−6)。S3−6では、リストBを参照し、目的語部の終端表現がリストBのいずれかと一致する場合、対応する区分に確定される(S3−8)。S3−6においては、リストBに一致した文字列も目的語部の一部とみなされる。
【0033】
S3−6でリストBに一致しなかった場合、区分判定手段22は、区分判定リスト41のうちリストCに該当するか否かを判定する(S3−7)。S3−7では、リストCを参照し、目的語の終端形態素の付加情報がリストCと一致する場合、対応する区分に確定される(S3−8)。S3−7においては、リストCに該当した形態素は、目的語部の一部とみなされる。
【0034】
S3−3〜S3−7で入力文に区分が抽出された場合には、S3−8で区分が確定される。また、S3−3〜S3−7で入力文に区分が抽出されなかった場合は、S3−8で区分の既定値である「説明」の区分に確定される。また、S3−3〜S3−7において目的語部から除去対象の文字列がある場合には、除去した文字列を目的語部として確定する(S3−9)。
【0035】
[同義語の抽出の詳細]
図9、10には、同義語抽出手段23による同義語抽出のフローチャートを示している。同義語抽出手段23は、まず目的語を形態素単位に分解した上で、ユーザー辞書43aから目的語部に含まれる語句の同義語を抽出し、その後、一般辞書43bから目的語部に含まれる語句の同義語を抽出する。
【0036】
同義語抽出手段23は、目的語を形態素単位に分解する(S4−1)。形態素単位への分解の際には、同義語抽出手段23から目的語部が形態素解析手段33に渡される。形態素解析手段33は、形態素解析辞書42を参照して、目的語部について形態素単位に分解し、品詞等の付加情報と共に同義語抽出手段23に情報を戻す。
【0037】
次に、同義語抽出手段23は、目的語部の先頭形態素群とユーザー辞書43aの代表語とを照合する(S4−2)と共に、目的語部の先頭形態素群とユーザー辞書43aの同義語とを照合する(S4−3)。形態素群とは、一続きの1〜n個の形態素のことである。辞書の照合においては、一続きのn個の形態素からなる形態素群について、一致する語があるか否かを判別し、次に、一続きのn−1個の形態素からなる形態素群について、一致する語があるか否かを判別し、以下1個の形態素となるまで同様に判別を繰り返す。以下の辞書の照合においても同様である。同義語抽出手段23は、目的語部の先頭形態素群に含まれる用語が、ユーザー辞書43aの代表語と同義語の両方に一致するか否かを判別し(S4−4)。両方に一致する場合、さらに一致した代表語と同義語の形態素数を比較する(S4−5)。代表語の形態素数が同義語の形態素数以上である場合、同義語抽出手段23は、ユーザー辞書43aから当該代表語に対応する同義語を抽出する(S4−7)。S4−5において代表語の形態素数が同義語の形態素数より小さい場合、同義語抽出手段23は、ユーザー辞書43aから当該同義語に対応する代表語及び当該同義語以外の同義語を抽出する(S4−10)。これらのフローにより、目的語部の先頭形態素群がユーザー辞書43aの代表語と同義語の両方に一致した場合、形態素数の多い方が採用され、また、形態素数が同じ場合は代表語が優先される。
【0038】
例として、ユーザー辞書43aには、代表語「休暇」に対し同義語「休み」が、代表語「有給休暇」に対し同義語「有休」、「年次有給休暇」、「休暇」が登録されており、目的語部の先頭形態素群に「有給休暇」が含まれるものとする。この場合、「有給休暇」は2つの形態素(「有給」と「休暇」)を有しており、ユーザー辞書43aのうち代表語「有給休暇」と同義語「休暇」に一致する。このため、S4−4において、代表語と同義語の両方に一致すると判定され、S4−5において代表語の形態素数(2つ)が同義語の形態素数(1つ)より大きいので、S4−7において代表語「有給休暇」に対応する同義語「有休」、「年次有給休暇」、「休暇」が抽出される。この場合に、採用されなかった「休暇」に対応する「休み」は抽出されない。これにより、「有給休暇」のように包含関係となっている用語について、適切な同義語を抽出できる。
【0039】
また、同じ用語が別の用語の同義語として定義されている場合には、代表語が優先される。前述の例では、代表語と同義語にそれぞれ「休暇」が定義されている。このため、目的語部の先頭形態素群に「休暇」の語が含まれる(「有給休暇」等は含まれない)場合、S4−5では代表語の形態素数と同義語の形態素数が同じであるため、S4−7において代表語「休暇」に対応する同義語「休み」が抽出されて、同義語「休暇」に対応する代表語及びその他の同義語である「有給休暇」、「有休」、「年次有給休暇」は抽出されない。
【0040】
S4−4で条件に合致しない場合、同義語抽出手段23は、目的語部の先頭形態素群について、ユーザー辞書43aの代表語と一致するか否かを判別し(S4−6)、代表語と一致する場合には、ユーザー辞書43aから当該代表語に対応する同義語を抽出する(S4−7)。S4−7を実行した後、同義語抽出手段23は、該当語句に同義語を付与し(S4−8)、図10のS4−16に進む。S4−6で条件に合致しない場合、同義語抽出手段23は、目的語部の先頭形態素群について、ユーザー辞書43aの同義語と一致するか否かを判別し(S4−9)、同義語と一致する場合には、ユーザー辞書43aから当該同義語に対応する代表語及び当該同義語以外の同義語を抽出する(S4−10)。S4−10を実行した後、同義語抽出手段23は、該当語句に同義語を付与し(S4−11)、図10のS4−16に進む。S4−9で条件に合致しない場合、図10のS4−12に進む。
【0041】
S4−9までで目的語部の先頭形態素群がユーザー辞書43aと一致しなかった場合、先頭形態素群と一般辞書43bが照合される(S4−12)。一般辞書43bに同義語があった場合(S4−13)、同義語抽出手段23は、一般辞書43bから抽出された同義語について類似度を判定する(S4−14)。ここでは、一般辞書43bから抽出した語句全てを、コーパス44を参照して数値表現化(ベクトル化)し、閾値以上の類似度を持つ語句を同義語として判定する。S4−14で同義語として判定されたら、該当語句に同義語が付与される(S4−15)。また、目的語部の先頭から、辞書一致した形態素が除去される(S4−16)。S4−13で同義語がなかった場合、また、S4−14で全ての同義語の類似度が閾値より小さかった場合、同義語抽出手段23は目的語部の先頭から1形態素を除去する(S4−17)。その上で、目的語部に未処理形態素がある場合、図9のS4−2からの処理を繰り返す。S4−18において未処理形態素がない場合、同義語抽出手段23は、目的語部に含まれる語句の同義語を全て抽出する(S4−19)。
【0042】
[表現抽出及び増幅文出力の詳細]
表現抽出手段24は、S3で判定された入力文の区分に対応する同義表現を表現辞書45から抽出する。図11には、表現辞書45を一部抜粋した表を示している。表現辞書45には、区分ごとに同義表現が複数記憶されている。例えば、区分「説明」に対応して、「について教えて下さい」、「とは何ですか」、「のことがわかりません」のような同義表現が記憶されている。
【0043】
表現抽出手段24は、入力文の目的語部について、S4で抽出された同義語で語句を置き換え、また、入力文の述語部を表現辞書45から抽出された同義表現で置き換える。同義語と同義表現の組み合わせを変えることにより、入力文と同じまたは類似する意味を有する増幅文を複数生成する。生成された増幅文は、増幅文出力手段25から出力される。
【0044】
[増幅文出力の例1]
入力文が「manaBrainの特徴を教えて」、ユーザー辞書43aへの入力が、代表語「manaBrain」、同義語「マナブレイン」である場合の処理及び出力について説明する。S2の目的語部の抽出では、入力文の主要文節群として「manaBrainの特徴を」が、述語部として「教えて」が、それぞれ特定される。このため、主要文節群の最後の助詞を除去した「manaBrainの特徴」が暫定的に目的語部とされる。
【0045】
S3の区分の判定では、目的語部の終端表現「特徴」が区分判定リスト41に規定されていないため、入力文は、既定値の区分「説明」とされる。また、「manaBrainの特徴」が目的語部として確定される。
【0046】
S4の同義語の抽出では、目的語部の「manaBrain」について、ユーザー辞書43aから「マナブレイン」が同義語として抽出される。また、目的語部の「特徴」について、一般辞書43bから「特色」が同義語として抽出される。
【0047】
S5の表現の増幅では、表現辞書45から「説明」の区分に該当する同義表現として、「について教えて下さい」、「を知りたい」、「とは何ですか」、「のことがわかりません」などの表現が抽出される。これらの同義表現とS4で抽出された同義語を基に、増幅文出力手段25は、以下のような増幅文を生成する。なお、これらは増幅文の一部であって、同義表現と同義語の組み合わせによって、より多数の増幅文を出力することができる。
manaBrainの特徴について教えて下さい。
マナブレインの特徴を知りたい。
manaBrainの特色とは何ですか。
マナブレインの特徴のことがわかりません。
【0048】
[増幅文出力の例2]
入力文が「manaBrainの価格を教えて」、ユーザー辞書43aへの入力が、代表語「manaBrain」、同義語「マナブレイン」である場合の処理及び出力について説明する。S2の目的語部の抽出では、入力文の主要文節群として「manaBrainの価格を」が、述語部として「教えて」が、それぞれ特定される。このため、主要文節群の最後の助詞を除去した「manaBrainの価格」が暫定的に目的語部とされる。
【0049】
S3の区分の判定では、目的語部の終端表現「価格」が区分判定リスト41のリストBにて一致するので、入力文の区分は「料金」とされる。また、「manaBrainの価格」が目的語部として確定される。
【0050】
S4の同義語の抽出では、目的語部の「manaBrain」について、ユーザー辞書43aから「マナブレイン」が同義語として抽出される。また、目的語部の「価格」について、一般辞書43bから「値段」、「定価」が同義語として抽出される。
【0051】
S5の表現の増幅では、表現辞書45から「料金」の区分に該当する同義表現として、「について教えて下さい」、「はいくらですか」、「はいくらくらいかかりますか」、「は何円ですか」などの表現が抽出される。これらの同義表現とS4で抽出された同義語を基に、増幅文出力手段25は、以下のような増幅文を生成する。なお、これらは増幅文の一部であって、同義表現と同義語の組み合わせによって、より多数の増幅文を出力することができる。
manaBrainの価格について教えて下さい。
マナブレインの値段はいくらですか。
manaBrainの定価はいくらくらいかかりますか。
マナブレインの価格は何円ですか。
【0052】
[増幅文出力の例3]
入力文が「manaBrainの利用方法を教えて」、ユーザー辞書43aへの入力が、代表語「manaBrain」、同義語「マナブレイン」である場合の処理及び出力について説明する。S2の目的語部の抽出では、入力文の主要文節群として「manaBrainの利用方法を」が、述語部として「教えて」が、それぞれ特定される。このため、主要文節群の最後の助詞を除去した「manaBrainの利用方法」が暫定的に目的語部とされる。
【0053】
S3の区分の判定では、目的語部の終端表現「方法」が区分判定リスト41のリストAにて一致するので、入力文の区分は「方法」とされる。また、暫定的な目的語部「manaBrainの利用方法」から「方法」が除去され、「manaBrainの利用」が目的語部として確定される。
【0054】
S4の同義語の抽出では、目的語部の「manaBrain」について、ユーザー辞書43aから「マナブレイン」が同義語として抽出される。また、目的語部の「利用」について、一般辞書43bから「使用」、「活用」が同義語として抽出される。
【0055】
S5の表現の増幅では、表現辞書45から「方法」の区分に該当する同義表現として、「方法について教えて下さい」、「したいんだけど」、「どうやって、〜すればいいですか」、「するにはどうしたらよいですか」などの表現が抽出される。これらの同義表現とS4で抽出された同義語を基に、増幅文出力手段25は、以下のような増幅文を生成する。なお、これらは増幅文の一部であって、同義表現と同義語の組み合わせによって、より多数の増幅文を出力することができる。
manaBrainの利用方法について教えて下さい。
マナブレインの使用したいんだけど。
どうやって、manaBrainの活用すればいいですか。
マナブレインの利用するにはどうしたらよいですか。
【0056】
以上のように、本実施形態の文章増幅システムは、入力文の目的語部については同義語辞書43から同義語を抽出して置き換え、入力文の述語部については区分判定により入力文の区分を判定し、区分ごとに設定された表現辞書45から同義表現を抽出して置き換える。本実施形態では区分判定によって同義表現を簡易な処理により多数抽出して、増幅文を容易に生成することができる。
【0057】
また、本実施形態の文章増幅システムに用いられるプログラムを単独で提供することもできる。この場合、以下のステップをコンピュータに実行させる。
【0058】
まず、入力文の主題となる目的語部を抽出する(第1ステップ)。次に、入力文の区分を、区分判定リストを参照して判定する(第2ステップ)。次に、目的語部に含まれる単語の同義語を、同義語が記憶された同義語辞書を参照して抽出する(第3ステップ)。次に、入力文の最終文節を含む述語部について、区分毎に同義表現が記憶された表現辞書を参照して同義表現を抽出する(第4ステップ)。次に、抽出された同義語と同義表現で入力文を置き換えた増幅文を出力する(第5ステップ)。また、第3ステップにおいて、同義語辞書から抽出した語について、コーパスを参照して類似度を評価し、一定以上の類似度を有する語を同義語として抽出するステップを有してもよい。
【0059】
なお、本発明は、上述した実施形態のみに限定されるものではなく、本発明の技術的思想内において当業者により種々変更が可能である。例えば、本実施形態において入力文は質問するための文章であるが、それ以外の種類の文章を入力文としてもよい。この場合、表現辞書45は入力文の種類に応じて用意する必要がある。
【0060】
また、本実施形態の文章増幅システムは、サーバー装置10端末装置11を有しているが、1台のコンピュータ内で完結するように構成してもよい。さらに、文章増幅システムは、仮想実行環境上で動作するものであってもよい。
【符号の説明】
【0061】
10 サーバー装置
11 端末装置
20 通信手段
21 文章解析手段
22 区分判定手段
23 同義語抽出手段
24 表現抽出手段
25 増幅文出力手段
26 類似度判定手段
30 構文解析手段
33 形態素解析手段
40 構文辞書
41 区分判定リスト
42 形態素解析辞書
43 同義語辞書
43a ユーザー辞書
43b 一般辞書
44 コーパス
45 表現辞書
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11