特開2021-124848 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＳＣＳＫ株式会社の特許一覧

特開2021-124848文章増幅システム及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】特開2021-124848(P2021-124848A)

(43)【公開日】2021年8月30日

(54)【発明の名称】文章増幅システム及びプログラム

(51)【国際特許分類】

G06F 40/56 20200101AFI20210802BHJP

G06F 40/247 20200101ALI20210802BHJP

【ＦＩ】

G06F40/56

G06F40/247

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

【全頁数】13

(21)【出願番号】特願2020-16730(P2020-16730)

(22)【出願日】2020年2月4日

(71)【出願人】

【識別番号】399104844

【氏名又は名称】ＳＣＳＫ株式会社

(74)【代理人】

【識別番号】100123663

【弁理士】

【氏名又は名称】広川浩司

(74)【代理人】

【識別番号】100141829

【弁理士】

【氏名又は名称】山田牧人

(72)【発明者】

【氏名】森澤千尋

【テーマコード（参考）】

5B091

【Ｆターム（参考）】

5B091AB17

5B091CA21

(57)【要約】

【課題】簡単な処理で入力文に対する同義文あるいは類似文を生成できる文章増幅システム及びプログラムを提供する。
【解決手段】入力文の主題となる目的語部を抽出する文章解析手段２１と、入力文の区分を、区分判定リスト４１を参照して判定する区分判定手段２２と、目的語部に含まれる語句の同義語を、同義語が記憶された同義語辞書４３を参照して抽出する同義語抽出手段２３と、入力文の最終文節を含む述語部について、区分毎に同義表現が記憶された表現辞書４５を参照して同義表現を抽出する表現抽出手段２４と、抽出された同義語と同義表現で入力文を置き換えた増幅文を出力する増幅文出力手段２５と、を有する。
【選択図】図１

【特許請求の範囲】

【請求項1】

入力文と同じまたは類似する意味を有する増幅文を出力する文章増幅システムであって、
前記入力文の主題となる目的語部を抽出する文章解析手段と、
前記入力文の区分を、区分判定リストを参照して判定する区分判定手段と、
前記目的語部に含まれる語句の同義語を、同義語が記憶された同義語辞書を参照して抽出する同義語抽出手段と、
前記入力文の最終文節を含む述語部について、前記区分毎に同義表現が記憶された表現辞書を参照して同義表現を抽出する表現抽出手段と、
抽出された前記同義語と同義表現で前記入力文を置き換えた増幅文を出力する増幅文出力手段と、
を有することを特徴とする文章増幅システム。

【請求項2】

前記文章解析手段は、前記入力文を構文解析により分析し、該分析結果から主要文節群を特定することにより前記目的語部を抽出することを特徴とする請求項１に記載の文章増幅システム。

【請求項3】

前記区分判定手段は、判定した前記入力文の区分に基づき、前記入力文の目的語部と述語部とを確定させることを特徴とする請求項１または２に記載の文章増幅システム。

【請求項4】

前記同義語抽出手段が参照する同義語辞書は、ユーザーにより特定された用語に対応する同義語を有するユーザー辞書と、一般用語に対応する同義語を有する一般辞書とを含むことを特徴とする請求項１〜３のいずれか１項に記載の文章増幅システム。

【請求項5】

前記同義語抽出手段は、前記一般辞書から抽出した語について、コーパスを参照して類似度を評価し、一定以上の類似度を有する語を同義語として抽出することを特徴とする請求項４に記載の文章増幅システム。

【請求項6】

入力文の主題となる目的語部を抽出するステップと、
前記入力文の区分を、区分判定リストを参照して判定するステップと、
前記目的語部に含まれる単語の同義語を、同義語が記憶された同義語辞書を参照して抽出するステップと、
前記入力文の最終文節を含む述語部について、前記区分毎に同義表現が記憶された表現辞書を参照して同義表現を抽出するステップと、
抽出された前記同義語と同義表現で前記入力文を置き換えた増幅文を出力するステップと、
をコンピュータに実行させることを特徴とするプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、入力文と同じまたは類似する意味を有する増幅文を出力する文章増幅システム及びプログラムに関する。

【背景技術】

【0002】

ユーザー等からの問い合わせに対応する業務は、従来、人が行っていたが、最近ではこれを自動化したシステムが知られている。このような問い合わせ対応システムにおいては、想定される質問と回答の組み合わせのデータを大量に用意しておき、このデータを用いて機械学習モデルを生成する。この場合に、質問の文章は、同じ内容であっても様々な言い方があるため、同じまたは類似する意味を有する同義文あるいは類似文を多く用意する必要がある。

【0003】

機械学習用のデータとしての同義文あるいは類似文は、多くの場合、人が作成していた。しかし、人が大量の文章を作成するには手間が掛かると共に、担当者によって作成する文章にばらつきが生じ、機械学習用のデータに適するものとは必ずしもならないという問題があった。

【0004】

このため、同義文あるいは類似文を自動的に生成することが考えられる。同義文あるいは類似文を自動的に生成するシステムとしては、例えば特許文献１に挙げるようなものがある。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２０１５−１１８４９８号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

問い合わせ対応システムにおいて質問の文章は、何かを尋ねることを目的としている。このように一定の目的を有する文章について、簡易的な処理により同義文あるいは類似文を生成できることが望ましい。

【0007】

本発明は、上述した課題を解決するためになされたものであり、簡単な処理で入力文に対する同義文あるいは類似文を生成できる文章増幅システム及びプログラムを提供することを目的とする。

【課題を解決するための手段】

【0008】

上記目的を達成する本発明に係る文章増幅システムは、入力文と同じまたは類似する意味を有する増幅文を出力する文章増幅システムであって、
前記入力文の主題となる目的語部を抽出する文章解析手段と、
前記入力文の区分を、区分判定リストを参照して判定する区分判定手段と、
前記目的語部に含まれる語句の同義語を、同義語が記憶された同義語辞書を参照して抽出する同義語抽出手段と、
前記入力文の最終文節を含む述語部について、前記区分毎に同義表現が記憶された表現辞書を参照して同義表現を抽出する表現抽出手段と、
抽出された前記同義語と同義表現で前記入力文を置き換えた増幅文を出力する増幅文出力手段と、
を有することを特徴として構成されている。

【0009】

また、本発明に係る文章増幅システムは、前記文章解析手段は、前記入力文を構文解析により分析し、該分析結果から主要文節群を特定することにより前記目的語部を抽出することを特徴として構成されている。

【0010】

また、本発明に係る文章増幅システムは、前記区分判定手段は、判定した前記入力文の区分に基づき、前記入力文の目的語部と述語部とを確定させることを特徴として構成されている。

【0011】

また、本発明に係る文章増幅システムは、前記同義語抽出手段が参照する同義語辞書は、ユーザーにより特定された用語に対応する同義語を有するユーザー辞書と、一般用語に対応する同義語を有する一般辞書とを含むことを特徴として構成されている。

【0012】

また、本発明に係る文章増幅システムは、前記同義語抽出手段は、前記一般辞書から抽出した語について、コーパスを参照して類似度を評価し、一定以上の類似度を有する語を同義語として抽出することを特徴として構成されている。

【0013】

上記目的を達成する本発明に係るプログラムは、入力文の主題となる目的語部を抽出するステップと、
前記入力文の区分を、区分判定リストを参照して判定するステップと、
前記目的語部に含まれる単語の同義語を、同義語が記憶された同義語辞書を参照して抽出するステップと、
前記入力文の最終文節を含む述語部について、前記区分毎に同義表現が記憶された表現辞書を参照して同義表現を抽出するステップと、
抽出された前記同義語と同義表現で前記入力文を置き換えた増幅文を出力するステップと、
をコンピュータに実行させることを特徴として構成されている。

【発明の効果】

【0014】

上記のように構成した文章増幅システム及びプログラムは、区分判定によって同義表現を簡易な処理により多数抽出して、増幅文を容易に生成することができる。

【図面の簡単な説明】

【0015】

【図1】本実施形態の文章増幅システムの構成図である。

【図2】文章増幅システムにおける処理の流れを示すフローチャートである。

【図3】文章解析手段による目的語部の抽出のフローチャートである。

【図4】区分判定手段による区分判定のフローチャートである。

【図5】区分判定リストのうちリストＡを示した図である。

【図6】区分判定リストのうちリストＢを示した図である。

【図7】区分判定リストのうちリストＣを示した図である。

【図8】区分判定リストのうちリストＤを示した図である。

【図9】同義語抽出手段による同義語抽出のフローチャートの前半部分である。

【図10】同義語抽出手段による同義語抽出のフローチャートの後半部分である。

【図11】表現辞書を一部抜粋した表である。

【発明を実施するための形態】

【0016】

以下、図面を参照して、本発明の実施の形態を説明する。本実施形態の文章増幅システムは、ユーザーからの求めに応じて、入力された文章（以下入力文という）と同義文または類似文である増幅された文章（以下増幅文という）を出力するものとして構成される。

【0017】

［システムの全体構成］
図１には、本実施形態の文章増幅システムの構成図を示している。この図に示すように、文章増幅システムは、各種処理を行うサーバー装置１０と、情報の入出力を行う端末装置１１とを有している。サーバー装置１０と端末装置１１は、通信ネットワークを介して互いに通信可能に接続される。通信ネットワークは本実施形態において無線であるが、有線でもよい。端末装置は、ＰＣ、タブレット端末その他の情報処理装置である。

【0018】

サーバー装置１０は、端末装置１１との通信を行う通信手段２０を有している。サーバー装置１０は、その他に、文章解析手段２１、区分判定手段２２、同義語抽出手段２３、類似度判定手段２６、表現抽出手段２４、増幅文出力手段２５、構文解析手段３０、及び形態素解析手段３３を有している。各手段の詳細は後述する。なお、構文解析手段３０及び形態素解析手段３３は、サーバー装置１０の外部に設けてもよい。

【0019】

また、サーバー装置１０は、区分判定手段２２にて用いる区分判定リスト４１、同義語抽出手段２３にて用いるユーザー辞書４３ａ及び一般辞書４３ｂからなる同義語辞書４３、類似度判定手段２６にて用いるコーパス４４、表現抽出手段２４にて用いる表現辞書４５、構文解析手段３０で用いる構文辞書４０、及び形態素解析手段３３で用いる形態素解析辞書４２を記憶している。

【0020】

サーバー装置１０は、ＣＰＵ、ＲＯＭやＲＡＭ、ＨＤＤ等の外部記憶装置、通信制御装置等を備えた通常のコンピュータで構成することができ、ＲＯＭやＲＡＭ、ＨＤＤ等に記憶されたプログラムをＣＰＵが読み出し動作させることによって、前述の各手段や機能を実現できる。また、各手段で用いる辞書等の記憶は、サーバー装置１０が備える外部記憶装置に記憶させることができる。

【0021】

［入力から出力までの流れ］
図２には、文章増幅システムにおける処理の流れを示すフローチャートを示している。まず、端末装置１１から、増幅したい入力文と、ユーザー辞書４３ａの内容が入力される（Ｓ１）。ユーザー辞書４３ａは、入力文に含まれる用語のうち、固有名詞等の一般的ではない用語とその同義語とが関連付けて記憶されたものである。例えば、入力文が「ｍａｎａＢｒａｉｎの特徴を教えて」である場合に、「ｍａｎａＢｒａｉｎ」は固有名詞である。これについて、「マナブレイン」を同義語として定義したい場合、「ｍａｎａＢｒａｉｎ」を代表語、「マナブレイン」を同義語として入力する。サーバー装置１０は、端末装置１１から同義語の情報が入力されたら、各用語を代表語または同義語と関連付けてユーザー辞書４３ａに記憶する。

【0022】

サーバー装置１０の文章解析手段２１は、入力文について目的語部を抽出する（Ｓ２）。目的語部は、入力文の主要文節群のうち、述語部の前の部分である。主要文節群は、入力文の文章の骨格となる部分である。入力文が「ｍａｎａＢｒａｉｎの特徴を教えて」の場合、「ｍａｎａＢｒａｉｎの特徴」が目的語部である。また、入力文の最終文節である「教えて」の部分は述語部である。入力文に主語がある場合には、当該主語も目的語部に含められる。

【0023】

入力文から目的語部を抽出したら、サーバー装置１０の区分判定手段２２は、区分判定リスト４１を参照して入力文の区分を判定する（Ｓ３）。入力文の区分は、当該文章を種類別に分類するものであり、本実施形態のように入力文が質問文の場合、質問したい事項別に区分が設定される。例えば、「説明」、「時期」、「料金」のような区分が設定される。

【0024】

Ｓ２及びＳ３により、入力文の意図が抽出される。続いて、抽出された入力文の意図と同等の表現が抽出される。

【0025】

入力文の区分を判定したら、サーバー装置１０の同義語抽出手段２３は、目的語部に含まれる語句の同義語を、同義語辞書４３を参照して抽出する（Ｓ４）。また、サーバー装置１０の表現抽出手段２４は、述語部について、表現辞書を参照して入力文の区分に対応した同義表現を抽出する（Ｓ５）。このように、入力文の目的語部については同義語辞書から同義語を抽出し、入力文の述語部については表現辞書から同義表現を抽出したら、サーバー装置１０の増幅文出力手段２５は、これらで入力文を置き換えた増幅文を出力する（Ｓ６）。出力される増幅文の最大数は、抽出された同義語と同義表現の組み合わせの数となる。増幅文の最大出力数は、入力時に指定するパラメータにより指定することができる。なお、実際に生成された増幅文の数が最大出力数に満たない場合は、実際に生成された増幅文が全て出力される。

【0026】

［目的語部の抽出の詳細］
図３には、文章解析手段２１による目的語部の抽出のフローチャートを示している。文章解析手段２１は、まず、入力文の構文解析を行う（Ｓ２−１）。構文解析の際には、文章解析手段２１から入力文が構文解析手段３０に渡される。構文解析手段３０は、構文辞書４０を参照して、入力文について形態素解析や格解析を含む日本語構文解析を行い、解析結果を文章解析手段２１に戻す。日本語構文解析により、入力文の係り受けを明確化した構文解析情報と、品詞、カテゴリ情報、格関係、用言代表表記等の付加情報とを得ることができる。

【0027】

文章解析手段２１は、日本語構文解析で得られた係り受け関係を基に、最終文節から遡って繋がる主要文節群を特定する（Ｓ２−２）。次に、文章解析手段２１は、入力文に述語部があるか否かを判定する（Ｓ２−３）。述語部は、入力文の最終文節を含む用言として検出される。入力文に述語部が存在する場合、文章解析手段２１は、目的語部を特定する（Ｓ２−４）。具体的には、述語部より前の主要文節群から、最後の助詞（述語部の目的格となる助詞）を除去した部分を、目的語部として暫定的に特定する。また、Ｓ２−３において述語部が存在しない場合、主要文節群全体を目的語部として暫定的に特定する（Ｓ２−５）。

【0028】

［区分の判定の詳細］
図４には、区分判定手段２２による区分判定のフローチャートを示している。区分判定手段２２は、入力文に述語部があるか否かを判定する（Ｓ３−１）。述語部が存在する場合、区分判定手段２２は、述語部について、区分判定リスト４１のうちリストＤを参照して、該当するか否かを判定する（Ｓ３−２）。Ｓ３−１において述語部が存在しない場合には、Ｓ３−５に進む。

【0029】

ここで区分判定リスト４１について説明する。区分判定リスト４１は、リストＡ〜Ｄの４つに分かれている。図５にはリストＡを、図６にはリストＢを、図７にはリストＣを、図８にはリストＤを、それぞれ示している。図５に示すように、リストＡでは、目的語の終端表現が区分と関連付けられている。図６に示すように、リストＢでは、目的語の終端表現が区分と関連付けられている。図７に示すように、リストＣでは、目的語の終端形態素の形態素解析付加情報が、区分と関連付けられている。図８に示すように、リストＤでは、述語部の構文解析付加情報が区分と関連付けられている。

【0030】

Ｓ３−２では、リストＤを参照し、述語部の構文解析付加情報がリストＤのいずれかと一致する場合、対応する区分に仮確定し（Ｓ３−３）、Ｓ３−５に進む。ここでは、述語部の構文解析付加情報を利用することにより、ひらがな、漢字等の表記違いや、丁寧語や口語などの表現の違いを吸収して判定することができる。例えば、述語部が「教えて下さい」、「おしえてくださいませ」ののいずれであっても、一致と判定される。Ｓ３−５以降で区分判定リスト４１のリストＡ〜Ｃに該当した場合には、リストＡ〜Ｃで特定された区分が優先される。Ｓ３−２において一致する項目がなかった場合には、述語部を目的語の一部とし（Ｓ３−４）、Ｓ３−５に進む。

【0031】

Ｓ３−４が実行されたら、次に、区分判定手段２２は、区分判定リスト４１のうちリストＡに該当するか否かを判定する（Ｓ３−５）。Ｓ３−５〜Ｓ３−７では、入力文の目的語部について、区分判定リスト４１に該当するか否かが判定される。Ｓ３−５では、リストＡを参照し、目的語部の終端表現がリストＡのいずれかと一致する場合、対応する区分に確定される（Ｓ３−８）。例えば、目的語部の終端表現が「でできること」であった場合には、「能力」の区分に確定される。また、Ｓ３−５においては、リストＡに一致した文字列は、目的語部から除去される。

【0032】

Ｓ３−５でリストＡに一致しなかった場合、区分判定手段２２は、区分判定リスト４１のうちリストＢに該当するか否かを判定する（Ｓ３−６）。Ｓ３−６では、リストＢを参照し、目的語部の終端表現がリストＢのいずれかと一致する場合、対応する区分に確定される（Ｓ３−８）。Ｓ３−６においては、リストＢに一致した文字列も目的語部の一部とみなされる。

【0033】

Ｓ３−６でリストＢに一致しなかった場合、区分判定手段２２は、区分判定リスト４１のうちリストＣに該当するか否かを判定する（Ｓ３−７）。Ｓ３−７では、リストＣを参照し、目的語の終端形態素の付加情報がリストＣと一致する場合、対応する区分に確定される（Ｓ３−８）。Ｓ３−７においては、リストＣに該当した形態素は、目的語部の一部とみなされる。

【0034】

Ｓ３−３〜Ｓ３−７で入力文に区分が抽出された場合には、Ｓ３−８で区分が確定される。また、Ｓ３−３〜Ｓ３−７で入力文に区分が抽出されなかった場合は、Ｓ３−８で区分の既定値である「説明」の区分に確定される。また、Ｓ３−３〜Ｓ３−７において目的語部から除去対象の文字列がある場合には、除去した文字列を目的語部として確定する（Ｓ３−９）。

【0035】

［同義語の抽出の詳細］
図９、１０には、同義語抽出手段２３による同義語抽出のフローチャートを示している。同義語抽出手段２３は、まず目的語を形態素単位に分解した上で、ユーザー辞書４３ａから目的語部に含まれる語句の同義語を抽出し、その後、一般辞書４３ｂから目的語部に含まれる語句の同義語を抽出する。

【0036】

同義語抽出手段２３は、目的語を形態素単位に分解する（Ｓ４−１）。形態素単位への分解の際には、同義語抽出手段２３から目的語部が形態素解析手段３３に渡される。形態素解析手段３３は、形態素解析辞書４２を参照して、目的語部について形態素単位に分解し、品詞等の付加情報と共に同義語抽出手段２３に情報を戻す。

【0037】

次に、同義語抽出手段２３は、目的語部の先頭形態素群とユーザー辞書４３ａの代表語とを照合する（Ｓ４−２）と共に、目的語部の先頭形態素群とユーザー辞書４３ａの同義語とを照合する（Ｓ４−３）。形態素群とは、一続きの１〜ｎ個の形態素のことである。辞書の照合においては、一続きのｎ個の形態素からなる形態素群について、一致する語があるか否かを判別し、次に、一続きのｎ−１個の形態素からなる形態素群について、一致する語があるか否かを判別し、以下１個の形態素となるまで同様に判別を繰り返す。以下の辞書の照合においても同様である。同義語抽出手段２３は、目的語部の先頭形態素群に含まれる用語が、ユーザー辞書４３ａの代表語と同義語の両方に一致するか否かを判別し（Ｓ４−４）。両方に一致する場合、さらに一致した代表語と同義語の形態素数を比較する（Ｓ４−５）。代表語の形態素数が同義語の形態素数以上である場合、同義語抽出手段２３は、ユーザー辞書４３ａから当該代表語に対応する同義語を抽出する（Ｓ４−７）。Ｓ４−５において代表語の形態素数が同義語の形態素数より小さい場合、同義語抽出手段２３は、ユーザー辞書４３ａから当該同義語に対応する代表語及び当該同義語以外の同義語を抽出する（Ｓ４−１０）。これらのフローにより、目的語部の先頭形態素群がユーザー辞書４３ａの代表語と同義語の両方に一致した場合、形態素数の多い方が採用され、また、形態素数が同じ場合は代表語が優先される。

【0038】

例として、ユーザー辞書４３ａには、代表語「休暇」に対し同義語「休み」が、代表語「有給休暇」に対し同義語「有休」、「年次有給休暇」、「休暇」が登録されており、目的語部の先頭形態素群に「有給休暇」が含まれるものとする。この場合、「有給休暇」は２つの形態素（「有給」と「休暇」）を有しており、ユーザー辞書４３ａのうち代表語「有給休暇」と同義語「休暇」に一致する。このため、Ｓ４−４において、代表語と同義語の両方に一致すると判定され、Ｓ４−５において代表語の形態素数（２つ）が同義語の形態素数（１つ）より大きいので、Ｓ４−７において代表語「有給休暇」に対応する同義語「有休」、「年次有給休暇」、「休暇」が抽出される。この場合に、採用されなかった「休暇」に対応する「休み」は抽出されない。これにより、「有給休暇」のように包含関係となっている用語について、適切な同義語を抽出できる。

【0039】

また、同じ用語が別の用語の同義語として定義されている場合には、代表語が優先される。前述の例では、代表語と同義語にそれぞれ「休暇」が定義されている。このため、目的語部の先頭形態素群に「休暇」の語が含まれる（「有給休暇」等は含まれない）場合、Ｓ４−５では代表語の形態素数と同義語の形態素数が同じであるため、Ｓ４−７において代表語「休暇」に対応する同義語「休み」が抽出されて、同義語「休暇」に対応する代表語及びその他の同義語である「有給休暇」、「有休」、「年次有給休暇」は抽出されない。

【0040】

Ｓ４−４で条件に合致しない場合、同義語抽出手段２３は、目的語部の先頭形態素群について、ユーザー辞書４３ａの代表語と一致するか否かを判別し（Ｓ４−６）、代表語と一致する場合には、ユーザー辞書４３ａから当該代表語に対応する同義語を抽出する（Ｓ４−７）。Ｓ４−７を実行した後、同義語抽出手段２３は、該当語句に同義語を付与し（Ｓ４−８）、図１０のＳ４−１６に進む。Ｓ４−６で条件に合致しない場合、同義語抽出手段２３は、目的語部の先頭形態素群について、ユーザー辞書４３ａの同義語と一致するか否かを判別し（Ｓ４−９）、同義語と一致する場合には、ユーザー辞書４３ａから当該同義語に対応する代表語及び当該同義語以外の同義語を抽出する（Ｓ４−１０）。Ｓ４−１０を実行した後、同義語抽出手段２３は、該当語句に同義語を付与し（Ｓ４−１１）、図１０のＳ４−１６に進む。Ｓ４−９で条件に合致しない場合、図１０のＳ４−１２に進む。

【0041】

Ｓ４−９までで目的語部の先頭形態素群がユーザー辞書４３ａと一致しなかった場合、先頭形態素群と一般辞書４３ｂが照合される（Ｓ４−１２）。一般辞書４３ｂに同義語があった場合（Ｓ４−１３）、同義語抽出手段２３は、一般辞書４３ｂから抽出された同義語について類似度を判定する（Ｓ４−１４）。ここでは、一般辞書４３ｂから抽出した語句全てを、コーパス４４を参照して数値表現化（ベクトル化）し、閾値以上の類似度を持つ語句を同義語として判定する。Ｓ４−１４で同義語として判定されたら、該当語句に同義語が付与される（Ｓ４−１５）。また、目的語部の先頭から、辞書一致した形態素が除去される（Ｓ４−１６）。Ｓ４−１３で同義語がなかった場合、また、Ｓ４−１４で全ての同義語の類似度が閾値より小さかった場合、同義語抽出手段２３は目的語部の先頭から１形態素を除去する（Ｓ４−１７）。その上で、目的語部に未処理形態素がある場合、図９のＳ４−２からの処理を繰り返す。Ｓ４−１８において未処理形態素がない場合、同義語抽出手段２３は、目的語部に含まれる語句の同義語を全て抽出する（Ｓ４−１９）。

【0042】

［表現抽出及び増幅文出力の詳細］
表現抽出手段２４は、Ｓ３で判定された入力文の区分に対応する同義表現を表現辞書４５から抽出する。図１１には、表現辞書４５を一部抜粋した表を示している。表現辞書４５には、区分ごとに同義表現が複数記憶されている。例えば、区分「説明」に対応して、「について教えて下さい」、「とは何ですか」、「のことがわかりません」のような同義表現が記憶されている。

【0043】

表現抽出手段２４は、入力文の目的語部について、Ｓ４で抽出された同義語で語句を置き換え、また、入力文の述語部を表現辞書４５から抽出された同義表現で置き換える。同義語と同義表現の組み合わせを変えることにより、入力文と同じまたは類似する意味を有する増幅文を複数生成する。生成された増幅文は、増幅文出力手段２５から出力される。

【0044】

［増幅文出力の例１］
入力文が「ｍａｎａＢｒａｉｎの特徴を教えて」、ユーザー辞書４３ａへの入力が、代表語「ｍａｎａＢｒａｉｎ」、同義語「マナブレイン」である場合の処理及び出力について説明する。Ｓ２の目的語部の抽出では、入力文の主要文節群として「ｍａｎａＢｒａｉｎの特徴を」が、述語部として「教えて」が、それぞれ特定される。このため、主要文節群の最後の助詞を除去した「ｍａｎａＢｒａｉｎの特徴」が暫定的に目的語部とされる。

【0045】

Ｓ３の区分の判定では、目的語部の終端表現「特徴」が区分判定リスト４１に規定されていないため、入力文は、既定値の区分「説明」とされる。また、「ｍａｎａＢｒａｉｎの特徴」が目的語部として確定される。

【0046】

Ｓ４の同義語の抽出では、目的語部の「ｍａｎａＢｒａｉｎ」について、ユーザー辞書４３ａから「マナブレイン」が同義語として抽出される。また、目的語部の「特徴」について、一般辞書４３ｂから「特色」が同義語として抽出される。

【0047】

Ｓ５の表現の増幅では、表現辞書４５から「説明」の区分に該当する同義表現として、「について教えて下さい」、「を知りたい」、「とは何ですか」、「のことがわかりません」などの表現が抽出される。これらの同義表現とＳ４で抽出された同義語を基に、増幅文出力手段２５は、以下のような増幅文を生成する。なお、これらは増幅文の一部であって、同義表現と同義語の組み合わせによって、より多数の増幅文を出力することができる。
ｍａｎａＢｒａｉｎの特徴について教えて下さい。
マナブレインの特徴を知りたい。
ｍａｎａＢｒａｉｎの特色とは何ですか。
マナブレインの特徴のことがわかりません。

【0048】

［増幅文出力の例２］
入力文が「ｍａｎａＢｒａｉｎの価格を教えて」、ユーザー辞書４３ａへの入力が、代表語「ｍａｎａＢｒａｉｎ」、同義語「マナブレイン」である場合の処理及び出力について説明する。Ｓ２の目的語部の抽出では、入力文の主要文節群として「ｍａｎａＢｒａｉｎの価格を」が、述語部として「教えて」が、それぞれ特定される。このため、主要文節群の最後の助詞を除去した「ｍａｎａＢｒａｉｎの価格」が暫定的に目的語部とされる。

【0049】

Ｓ３の区分の判定では、目的語部の終端表現「価格」が区分判定リスト４１のリストＢにて一致するので、入力文の区分は「料金」とされる。また、「ｍａｎａＢｒａｉｎの価格」が目的語部として確定される。

【0050】

Ｓ４の同義語の抽出では、目的語部の「ｍａｎａＢｒａｉｎ」について、ユーザー辞書４３ａから「マナブレイン」が同義語として抽出される。また、目的語部の「価格」について、一般辞書４３ｂから「値段」、「定価」が同義語として抽出される。

【0051】

Ｓ５の表現の増幅では、表現辞書４５から「料金」の区分に該当する同義表現として、「について教えて下さい」、「はいくらですか」、「はいくらくらいかかりますか」、「は何円ですか」などの表現が抽出される。これらの同義表現とＳ４で抽出された同義語を基に、増幅文出力手段２５は、以下のような増幅文を生成する。なお、これらは増幅文の一部であって、同義表現と同義語の組み合わせによって、より多数の増幅文を出力することができる。
ｍａｎａＢｒａｉｎの価格について教えて下さい。
マナブレインの値段はいくらですか。
ｍａｎａＢｒａｉｎの定価はいくらくらいかかりますか。
マナブレインの価格は何円ですか。

【0052】

［増幅文出力の例３］
入力文が「ｍａｎａＢｒａｉｎの利用方法を教えて」、ユーザー辞書４３ａへの入力が、代表語「ｍａｎａＢｒａｉｎ」、同義語「マナブレイン」である場合の処理及び出力について説明する。Ｓ２の目的語部の抽出では、入力文の主要文節群として「ｍａｎａＢｒａｉｎの利用方法を」が、述語部として「教えて」が、それぞれ特定される。このため、主要文節群の最後の助詞を除去した「ｍａｎａＢｒａｉｎの利用方法」が暫定的に目的語部とされる。

【0053】

Ｓ３の区分の判定では、目的語部の終端表現「方法」が区分判定リスト４１のリストＡにて一致するので、入力文の区分は「方法」とされる。また、暫定的な目的語部「ｍａｎａＢｒａｉｎの利用方法」から「方法」が除去され、「ｍａｎａＢｒａｉｎの利用」が目的語部として確定される。

【0054】

Ｓ４の同義語の抽出では、目的語部の「ｍａｎａＢｒａｉｎ」について、ユーザー辞書４３ａから「マナブレイン」が同義語として抽出される。また、目的語部の「利用」について、一般辞書４３ｂから「使用」、「活用」が同義語として抽出される。

【0055】

Ｓ５の表現の増幅では、表現辞書４５から「方法」の区分に該当する同義表現として、「方法について教えて下さい」、「したいんだけど」、「どうやって、〜すればいいですか」、「するにはどうしたらよいですか」などの表現が抽出される。これらの同義表現とＳ４で抽出された同義語を基に、増幅文出力手段２５は、以下のような増幅文を生成する。なお、これらは増幅文の一部であって、同義表現と同義語の組み合わせによって、より多数の増幅文を出力することができる。
ｍａｎａＢｒａｉｎの利用方法について教えて下さい。
マナブレインの使用したいんだけど。
どうやって、ｍａｎａＢｒａｉｎの活用すればいいですか。
マナブレインの利用するにはどうしたらよいですか。

【0056】

以上のように、本実施形態の文章増幅システムは、入力文の目的語部については同義語辞書４３から同義語を抽出して置き換え、入力文の述語部については区分判定により入力文の区分を判定し、区分ごとに設定された表現辞書４５から同義表現を抽出して置き換える。本実施形態では区分判定によって同義表現を簡易な処理により多数抽出して、増幅文を容易に生成することができる。

【0057】

また、本実施形態の文章増幅システムに用いられるプログラムを単独で提供することもできる。この場合、以下のステップをコンピュータに実行させる。

【0058】

まず、入力文の主題となる目的語部を抽出する（第１ステップ）。次に、入力文の区分を、区分判定リストを参照して判定する（第２ステップ）。次に、目的語部に含まれる単語の同義語を、同義語が記憶された同義語辞書を参照して抽出する（第３ステップ）。次に、入力文の最終文節を含む述語部について、区分毎に同義表現が記憶された表現辞書を参照して同義表現を抽出する（第４ステップ）。次に、抽出された同義語と同義表現で入力文を置き換えた増幅文を出力する（第５ステップ）。また、第３ステップにおいて、同義語辞書から抽出した語について、コーパスを参照して類似度を評価し、一定以上の類似度を有する語を同義語として抽出するステップを有してもよい。

【0059】

なお、本発明は、上述した実施形態のみに限定されるものではなく、本発明の技術的思想内において当業者により種々変更が可能である。例えば、本実施形態において入力文は質問するための文章であるが、それ以外の種類の文章を入力文としてもよい。この場合、表現辞書４５は入力文の種類に応じて用意する必要がある。

【0060】

また、本実施形態の文章増幅システムは、サーバー装置１０端末装置１１を有しているが、１台のコンピュータ内で完結するように構成してもよい。さらに、文章増幅システムは、仮想実行環境上で動作するものであってもよい。

【符号の説明】

【0061】

１０サーバー装置
１１端末装置
２０通信手段
２１文章解析手段
２２区分判定手段
２３同義語抽出手段
２４表現抽出手段
２５増幅文出力手段
２６類似度判定手段
３０構文解析手段
３３形態素解析手段
４０構文辞書
４１区分判定リスト
４２形態素解析辞書
４３同義語辞書
４３ａユーザー辞書
４３ｂ一般辞書
４４コーパス
４５表現辞書

【図1】