(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024006440
(43)【公開日】2024-01-17
(54)【発明の名称】FAQ管理装置、FAQ管理方法、及びプログラム
(51)【国際特許分類】
G06F 16/35 20190101AFI20240110BHJP
G06F 16/383 20190101ALI20240110BHJP
G06F 40/279 20200101ALI20240110BHJP
【FI】
G06F16/35
G06F16/383
G06F40/279
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022107304
(22)【出願日】2022-07-01
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (1) 発行日 令和4年3月7日 刊行物 言語処理学会第28回年次大会 発表論文集、第1238頁~第1242頁、言語処理学会事務局 発行(Web公開URL:https://www.anlp.jp/proceedings/annual_meeting/2022/pdf_dir/G5-5.pdf) <資料> 発表論文集 第1238頁~第1242頁 <資料> 発表論文集 書誌情報 (2) 開催日 令和4年3月16日(開催期間:令和4年3月14日~18日) 集会名 言語処理学会第28回年次大会(NLP2022) 開催場所 アクトシティ浜松 コングレスセンター(静岡県浜松市中区板屋町111-1) ※一部関係者以外はZoom、Gather、又はSlackによるオンライン参加 <資料> 大会開催案内 <資料> 大会プログラム
(71)【出願人】
【識別番号】000102728
【氏名又は名称】株式会社NTTデータグループ
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】林 岳晴
(72)【発明者】
【氏名】大段 秀顕
(72)【発明者】
【氏名】竹中 一秀
(72)【発明者】
【氏名】湯浅 晃
【テーマコード(参考)】
5B091
5B175
【Fターム(参考)】
5B091AA15
5B091CA01
5B091CC03
5B091EA01
5B175DA01
5B175FA01
5B175FA03
5B175GC03
(57)【要約】
【課題】FAQの生成における集約精度を向上することが可能なFAQ管理装置、FAQ管理方法、及びプログラムを提供する。
【解決手段】少なくとも1つの文からなる問い合わせ文章を取得する文章取得部と、取得された前記問い合わせ文章から、前記問い合わせの核心を示す部分が含まれる第1の文を少なくとも抽出し、前記問い合わせ文章のうち前記第1の文以外の文を、前記問い合わせの条件を示す部分が含まれる第2の文として抽出する文抽出部と、抽出された前記第1の文及び前記第2の文に基づき、階層的なクラスタリングを実行するクラスタリング部と、を備えるFAQ管理装置。
【選択図】
図1
【特許請求の範囲】
【請求項1】
少なくとも1つの文からなる問い合わせ文章を取得する文章取得部と、
取得された前記問い合わせ文章から、前記問い合わせの核心を示す部分が含まれる第1の文を少なくとも抽出し、前記問い合わせ文章のうち前記第1の文以外の文を、前記問い合わせの条件を示す部分が含まれる第2の文として抽出する文抽出部と、
抽出された前記第1の文及び前記第2の文に基づき、階層的なクラスタリングを実行するクラスタリング部と、
を備えるFAQ管理装置。
【請求項2】
抽出された前記第1の文から、前記問い合わせの核心を示す部分を抽出する部分抽出部、
をさらに備え、
前記クラスタリング部は、前記問い合わせの核心を示す部分と前記第2の文に基づき、前記階層的なクラスタリングを実行する、
請求項1に記載のFAQ管理装置。
【請求項3】
前記部分抽出部は、前記第1の文のうち前記問い合わせの核心を示す部分以外の部分を、前記問い合わせの主題を示す部分としてさらに抽出し、
前記クラスタリング部は、前記問い合わせの主題を示す部分、前記問い合わせの核心を示す部分、及び前記第2の文に基づき、前記階層的なクラスタリングを実行する、
請求項2に記載のFAQ管理装置。
【請求項4】
前記問い合わせの核心を示す部分の係り受け構造パターンを記憶する記憶部と、
抽出された前記第1の文に対して係り受け解析を行う係り受け解析部と、
をさらに備え、
前記部分抽出部は、前記係り受け構造パターンと前記係り受け解析の結果とに基づき、前記第1の文において前記係り受け構造パターンと一致する係り受けとなっている部分を、前記問い合わせの核心を示す部分として抽出する、
請求項2又は請求項3に記載のFAQ管理装置。
【請求項5】
前記文抽出部は、BERT(Bidirectional Encoder Representations from Transformers)の事前学習済みモデルをファインチューニングして生成された二値分類モデルを用いて、前記問い合わせ文章から前記第1の文及び前記第2の文を抽出する、
請求項1に記載のFAQ管理装置。
【請求項6】
文章取得部が、少なくとも1つの文からなる問い合わせ文章を取得する文章取得過程と、
文抽出部が、取得された前記問い合わせ文章から、前記問い合わせの核心を示す部分が含まれる第1の文を少なくとも抽出し、前記問い合わせ文章のうち前記第1の文以外の文を、前記問い合わせの条件を示す部分が含まれる第2の文として抽出する文抽出過程と、
クラスタリング部が、抽出された前記第1の文及び前記第2の文に基づき、階層的なクラスタリングを実行するクラスタリング過程と、
を含むFAQ管理方法。
【請求項7】
コンピュータを、
少なくとも1つの文からなる問い合わせ文章を取得する文章取得手段と、
取得された前記問い合わせ文章から、前記問い合わせの核心を示す部分が含まれる第1の文を少なくとも抽出し、前記問い合わせ文章のうち前記第1の文以外の文を、前記問い合わせの条件を示す部分が含まれる第2の文として抽出する文抽出手段と、
抽出された前記第1の文及び前記第2の文に基づき、階層的なクラスタリングを実行するクラスタリング手段と、
として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、FAQ管理装置、FAQ管理方法、及びプログラムに関する。
【背景技術】
【0002】
従来、企業などでは、問い合わせ対応業務を効率化するために、よくある質問(FAQ:Frequently Asked Questions)を整備して運用されることが多い。しかしながら、大量にある問い合わせから手動でFAQを生成するためには膨大な人件費がかかる。そこで、FAQ整備のために、過去の問い合わせからFAQを自動で生成するための技術が各種提案されている。
【0003】
例えば、下記特許文献1には、問い合わせへの過去の対応履歴から質問文を中心とする質問に関連する発話文を抽出し、抽出した発話文を類似する発話文とグループ化してFAQを生成する技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記特許文献1の技術では、FAQの生成のために質問文を含む文のみを抽出してクラスタリングが行われるが、抽出されなかった文に問い合わせに関する情報が含まれている場合もある。このため、FAQの生成における集約精度を向上するためには、質問文を含む文だけでなく、問い合わせに関する情報を含む文も抽出して階層的なクラスタリングを行うことが好ましい。
【0006】
上述の課題を鑑み、本発明の目的は、FAQの生成における集約精度を向上することが可能なFAQ管理装置、FAQ管理方法、及びプログラムを提供することにある。
【課題を解決するための手段】
【0007】
上述の課題を解決するために、本発明の一態様に係るFAQ管理装置は、少なくとも1つの文からなる問い合わせ文章を取得する文章取得部と、取得された前記問い合わせ文章から、前記問い合わせの核心を示す部分が含まれる第1の文を少なくとも抽出し、前記問い合わせ文章のうち前記第1の文以外の文を、前記問い合わせの条件を示す部分が含まれる第2の文として抽出する文抽出部と、抽出された前記第1の文及び前記第2の文に基づき、階層的なクラスタリングを実行するクラスタリング部と、を備える。
【0008】
本発明の一態様に係るFAQ管理方法は、文章取得部が、少なくとも1つの文からなる問い合わせ文章を取得する文章取得過程と、文抽出部が、取得された前記問い合わせ文章から、前記問い合わせの核心を示す部分が含まれる第1の文を少なくとも抽出し、前記問い合わせ文章のうち前記第1の文以外の文を、前記問い合わせの条件を示す部分が含まれる第2の文として抽出する文抽出過程と、クラスタリング部が、抽出された前記第1の文及び前記第2の文に基づき、階層的なクラスタリングを実行するクラスタリング過程と、を含む。
【0009】
本発明の一態様に係るプログラムは、コンピュータを、少なくとも1つの文からなる問い合わせ文章を取得する文章取得手段と、取得された前記問い合わせ文章から、前記問い合わせの核心を示す部分が含まれる第1の文を少なくとも抽出し、前記問い合わせ文章のうち前記第1の文以外の文を、前記問い合わせの条件を示す部分が含まれる第2の文として抽出する文抽出手段と、抽出された前記第1の文及び前記第2の文に基づき、階層的なクラスタリングを実行するクラスタリング手段と、として機能させる。
【発明の効果】
【0010】
本発明によれば、FAQの生成における集約精度を向上することができる。
【図面の簡単な説明】
【0011】
【
図1】本実施形態に係るFAQ管理システムの概略構成とFAQ管理装置の機能構成の一例を示すブロック図である。
【
図2】本実施形態に係る係り受け構造パターンの特定方法の一例を示す図である。
【
図3】本実施形態に係る核心部分抽出ルールの一例を示す図である。
【
図4】本実施形態に係る文抽出結果の一例を示す図である。
【
図5】本実施形態に係る核文に対する係り受け解析と部分抽出の処理の一例を示す図である。
【
図6】本実施形態に係る部分抽出結果の一例を示す図である。
【
図7】本実施形態に係る処理の流れの一例を示すシーケンス図である。
【発明を実施するための形態】
【0012】
以下、図面を参照しながら本発明の実施形態について詳しく説明する。以下では、よくある質問(FAQ:Frequently Asked Questions)に関する管理を行うためのシステムである、FAQ管理システム1について説明する。FAQは、例えば、企業などからユーザへ提供される。
【0013】
<1.FAQ管理システムの概略構成>
図1を参照して、本実施形態に係るFAQ管理システムの概略構成について説明する。
図1は、本実施形態に係るFAQ管理システムの概略構成とFAQ管理装置の機能構成の一例を示すブロック図である。
図1に示すように、FAQ管理システム1は、管理者端末10と、FAQ管理装置20と、ユーザ端末30とを備える。
【0014】
(1)管理者端末10
管理者端末10は、FAQ管理システム1の管理者が操作する端末である。管理者は、例えば、企業などがユーザへ提供するFAQの管理を担当する者である。管理者端末10は、例えば、PC(Personal Computer)、スマートフォン、タブレット端末などのいずれによって実現されてもよい。
管理者端末10は、ネットワークNWを介して、FAQ管理装置20と通信可能に接続されている。FAQ管理装置20との通信において、管理者端末10は、過去にあった問い合わせの内容を示す少なくとも1つの文からなる文章(以下、「問い合わせ文章」とも称される)を送信する。
【0015】
(2)FAQ管理装置20
FAQ管理装置20は、FAQを管理するための装置である。FAQ管理装置20は、主に、FAQの生成を行う。FAQ管理装置20は、例えば、PC(Personal Computer)やサーバ装置などによって実現される。
FAQ管理装置20は、ネットワークNWを介して、管理者端末10及びユーザ端末30と通信可能に接続されている。管理者端末10との通信において、FAQ管理装置20は、問い合わせ文章を受信する。また、ユーザ端末30との通信において、FAQ管理装置20は、生成したFAQを示す情報(以下「FAQ情報」とも称される)を送信する。
【0016】
FAQ管理装置20は、管理者端末10から受信した問い合わせ文章に基づき、FAQを生成する。具体的にFAQ管理装置20は、問い合わせ文章から部分的に抽出した情報を入力としたクラスタリングを行い、FAQの生成を行う。
ここで、FAQ管理装置20が問い合わせ文章から抽出する情報について説明する。まず、FAQ管理装置20は、問い合わせ文章から核文と周辺部分とを抽出する。核文は、問い合わせの核心を示す部分(即ち重要部分)が含まれる文(第1の文)である。周辺部分は、問い合わせの条件を示す部分(即ち質問条件)が含まれる文(第2の文)である。問い合わせの条件は、例えば、問い合わせの背景情報や参考情報などであり、問い合わせの詳細を示す情報でもある。
次に、FAQ管理装置20は、核文から対象部分と核心部分を抽出する。対象部分は、問い合わせの主題(即ちカテゴリ)を示す部分である。問い合わせの主題は、具体的には、何について問い合わせているかを示す。核心部分は、問い合わせの核心(即ち質問核心)を示す部分である。問い合わせの核心は、具体的には、問い合わせている内容は何かを示す。
FAQ管理装置20は、抽出した対象部分、核心部分、及び周辺部分に基づき、FAQの構造がカテゴリ、質問核心、質問条件と段階的な構造となるようにクラスタリングを行う。これにより、FAQ管理装置20は、各階層の集約に不要な情報を排除でき、集約精度を向上することができる。
【0017】
(3)ユーザ端末30
ユーザ端末30は、ユーザが操作する端末である。ユーザは、例えば、企業が提供すFAQの利用者である。ユーザ端末30は、例えば、PC、スマートフォン、タブレット端末などのいずれによって実現されてもよい。
ユーザ端末30は、ネットワークNWを介して、FAQ管理装置20と通信可能に接続されている。FAQ管理装置20との通信において、ユーザ端末30は、FAQ情報を受信する。そして、ユーザ端末30は、受信したFAQ情報を表示することで、ユーザがFAQを利用可能な状態とする。
【0018】
<2.FAQ管理装置の機能構成>
以上、本実施形態に係るFAQ管理システム1の概略構成について説明した。続いて、
図1から
図6を参照して、本実施形態に係るFAQ管理装置20の機能構成について説明する。
図1に示すように、FAQ管理装置20は、通信部210と、記憶部220と、制御部230とを備える。
【0019】
(1)通信部210
通信部210は、各種情報の送受信を行う機能を有する。例えば、通信部210は、ネットワークNWを介して、管理者端末10から問い合わせ文章を受信する。また、通信部210は、ネットワークNWを介して、ユーザ端末30へFAQ情報を送信する。
【0020】
(2)記憶部220は、
記憶部220は、各種情報を記憶する機能を有する。記憶部220は、FAQ管理装置20がハードウェアとして備える記憶媒体、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、RAM(Random Access read/write Memory)、ROM(Read Only Memory)、又はこれらの記憶媒体の任意の組み合わせによって構成される。
図1に示すように、記憶部220は、二値分類モデル221と、核心部分抽出ルール222とを記憶する。
【0021】
(2-1)二値分類モデル221
二値分類モデル221は、文章中から重要文を抽出することが可能な抽出型要約モデルである。具体的に、二値分類モデル221は、BERT(Bidirectional Encoder Representations from Transformers)の事前学習済みモデルをファインチューニングして生成されたモデルである。BERTの事前学習済みモデルは、大量の質問文章を対象に、1文で構成される質問を正例、10文以上の文から構成される質問を負例として疑似的に作成された教師データを用いて、各文を要約に含めるか否かを判定できるよう学習したモデルである。二値分類モデル221は、このように学習したBERTの事前学習済みモデルを二値分類タスクでファインチューニングすることで生成されたモデルである。
これにより、二値分類モデル221は、問い合わせ文章から核文及び周辺部分を抽出することができる。
【0022】
(2-2)核心部分抽出ルール222
核心部分抽出ルール222は、核文から核心部分を抽出するために作成されたルールであり、問い合わせの核心部分の係り受け構造パターンからなる。即ち、記憶部220は、問い合わせの核心部分の係り受け構造パターンを核心部分抽出ルールとして記憶する。
文において、核心部分には係り受け構造として頻出のパターンがあることが分かっている。そこで、本実施形態では、予め核心部分の係り受け構造パターンを特定しておき、特定した係り受け構造パターンを核心部分抽出のためのルールとして設定する。
【0023】
ここで、
図2を参照して、係り受け構造パターンの特定方法について説明する。
図2は、本実施形態に係る係り受け構造パターンの特定方法の一例を示す図である。
図2には、核心部分抽出ルールの生成に用いる文40として、「画面の一覧から削除を行う方法を教えてください。」という1文が示されている。
【0024】
まず、この文40を文節単位に分割する。
図2に示す例の場合、文40は文節41から文節46に分割される(ステップS1)。
次いで、文40において核心部分に相当する文節に対してアノテーションを実施する。
図2に示す例の場合、文節43から文節46に対してアノテーションが実施される(ステップS2)。
次いで、文40に対して係り受け解析を行う(ステップS3)。係り受け解析には、例えばGiNZAを利用する。
図2に示す例の場合、係り受け解析により、係り受け51から係り受け56が判明している。係り受け51は、文節41が文節42の「nmod:名詞修飾語」であることを示している。係り受け52は、文節42が文節46の「obl:斜格名詞」であることを示している。係り受け53は、文節43が文節44の「obj:目的語」であることを示している。係り受け54は、文節44が文節45の「acl:名詞の節修飾語」であることを示している。係り受け55は、文節45が文節46の「obj:目的語」であることを示している。係り受け56は、文節46が「ROOT:文の根」であることを示している。
係り受け解析後、アノテーションされた文節の係り受けを抽出することで、核心部分の係り受け構造パターンを特定することができる(ステップS4)。
図2に示す例の場合、係り受け53、係り受け54、係り受け55、及び係り受け56が核心部分の係り受け構造パターンとして特定される。
【0025】
また、
図3を参照して、核心部分抽出ルール222の一例について説明する。
図3は、本実施形態に係る核心部分抽出ルール222の一例を示す図である。
図3には核心部分抽出ルール222として設定された係り受け構造パターンの一例として「#1」から「#6」までの6個が示されている。なお、
図3に示す「核心部分文章具体例」の列は、説明の便宜上で設けている列であり、実際に記憶部220に記憶される核心部分抽出ルールには設けられなくてよい。
【0026】
図3に示す「#1」の係り受け構造パターンは、「nsubj,ROOT」である。「nsubj」は、対応する文節が「主語名詞」であることを示している。「ROOT」は、対応する文節が「文の根」であることを示している。例えば、「エラーが,表示される。」のような文章の場合、「#1」の係り受け構造パターンに該当する。
「#2」の係り受け構造パターンは、「obj,ROOT」である。「obj」は、対応する文節が「目的語」であることを示している。「ROOT」は、対応する文節が「文の根」であることを示している。例えば、「操作手順を,教えてほしい。」のような文章の場合、「#2」の係り受け構造パターンに該当する。
「#3」の係り受け構造パターンは、「advmod,advcl,ROOT」である。「advmod」は、対応する文節が「副詞修飾語」であることを示している。「advcl」は、対応する文節が「副詞節修飾語」であることを示している。「ROOT」は、対応する文節が「文の根」であることを示している。例えば、「どう,すれば,解消されますか。」のような文章の場合、「#3」の係り受け構造パターンに該当する。
「#4」の係り受け構造パターンは、「nmod,nsubj,ROOT」である。「nmod」は、対応する文節が「名詞修飾語」であることを示している。「nsubj」は、対応する文節が「主語名詞」であることを示している。「ROOT」は、対応する文節が「文の根」であることを示している。例えば、「処理状況の,確認が,取れないのでしょうか。」のような文章の場合、「#4」の係り受け構造パターンに該当する。
「#5」の係り受け構造パターンは、「obj,acl,obj,ROOT」である。1つ目の「obj」は、対応する文節が「目的語」であることを示している。「acl」は、対応する文節が「名詞の節修飾語」であることを示している。2つ目の「obj」は、対応する文節が「目的語」であることを示している。「ROOT」は、対応する文節が「文の根」であることを示している。例えば、「削除を,行う,方法を,教えてください。」のような文章の場合、「#5」の係り受け構造パターンに該当する。
「#6」の係り受け構造パターンは、「nmod,obj,ROOT」である。「nmod」は、対応する文節が「名詞修飾語」であることを示している。「obj」は、対応する文節が「目的語」であることを示している。「ROOT」は、対応する文節が「文の根」であることを示している。例えば、「だれの,情報を,入力すればよいですか。」のような文章の場合、「#6」の係り受け構造パターンに該当する。
【0027】
なお、本実施形態では、二値分類モデル221及び核心部分抽出ルール222は、あらかじめ管理者によって用意され、記憶部220に格納されるものとする。
【0028】
(3)制御部230
制御部230は、FAQ管理装置20の動作全般を制御する機能を有する。制御部230は、例えば、FAQ管理装置20がハードウェアとして備えるCPU(Central Processing Unit)にプログラムを実行させることによって実現される。
図1に示すように、制御部230は、文章取得部231と、文章分割部232と、文ベクトル化部233と、文抽出部234と、係り受け解析部235と、部分抽出部236と、クラスタリング部237と、FAQ生成部238と、出力制御部239とを備える。
【0029】
(3-1)文章取得部231
文章取得部231は、問い合わせ文章を取得する機能を有する。例えば、文章取得部231は、通信部210が管理者端末10から受信した問い合わせ文章を取得する。
【0030】
(3-2)文章分割部232
文章分割部232は、文章を分割する機能を有する。例えば、文章分割部232は、文章取得部231によって取得された問い合わせ文章を句点区切りで分割する。
【0031】
(3-3)文ベクトル化部233
文ベクトル化部233は、文をベクトル化する機能を有する。例えば、文ベクトル化部233は、文章分割部232によって分割された文ごとにベクトル化する。
【0032】
(3-4)文抽出部234
文抽出部234は、文を抽出する機能を有する。文抽出部234は、文章取得部231によって取得された問い合わせ文章から、核文を少なくとも抽出し、問い合わせ文章のうち核文以外の文を周辺部分として抽出する。例えば、文抽出部234は、二値分類モデル221を用いて、問い合わせ文章から核文及び周辺部分を抽出する。具体的に、文抽出部234は、文ベクトル化部233によってベクトル化された文を二値分類モデル221へ入力し、各文を核文又は周辺部分として抽出する。
【0033】
ここで、
図4を参照して、文抽出結果の一例について説明する。
図4は、本実施形態に係る文抽出結果の一例を示す図である。
図4には、問い合わせ文章60から核文61と周辺部分62が抽出される例が示されている。
【0034】
図4に示す問い合わせ文章60は、文章取得部231によって取得された問い合わせ文章であり、文章分割部232によって5つの文に分割され、文ベクトル化部233によってベクトル化済みである。文抽出部234は、この5つの文を二値分類モデル221へ入力する。
図4に示す例では、二値分類モデルは、入力された5つの文のうち、「不動産の登記申請書を作成し、「申請書作成・編集」画面を「完了」で閉じるとエラーが表示されます。」と「どうすればよいでしょうか。」の2つの文を核文として抽出し、他の3つの文を周辺部分として抽出している。
【0035】
(3-5)係り受け解析部235
係り受け解析部235は、係り受け解析を行う機能を有する。係り受け解析部235は、文抽出部234によって抽出された核文に対して係り受け解析を行う。係り受け解析部235は、例えばGiNZAを用いて係り受け解析を行う。
【0036】
(3-6)部分抽出部236
部分抽出部236は、核文から部分的な抽出を行う機能を有する。例えば、部分抽出部236は、文抽出部234によって抽出された核文から、問い合わせの核心部分を抽出する。具体的に、部分抽出部236は、記憶部220に記憶されている核心部分抽出ルール222(係り受け構造パターン)と、係り受け解析部235による係り受け解析の結果とに基づき、核文において核心部分抽出ルール222が示す係り受け構造パターンと一致する係り受けとなっている部分を、核心部分として抽出する。そして、部分抽出部236は、核文のうち問い合わせの核心部分以外の部分を、問い合わせの対象部分としてさらに抽出する。
【0037】
ここで、
図5を参照して、核文に対する係り受け解析と部分抽出の処理について説明する。
図5は、本実施形態に係る核文に対する係り受け解析と部分抽出の処理の一例を示す図である。
図5には、部分抽出したい文70として、「詳細な内容の確認を行うやり方を教えてください。」という1文が示されている。
【0038】
まず、係り受け解析部235は、この文70を文節単位に分割する。
図5に示す例の場合、係り受け解析部235は、文70を文節71から文節76に分割される(ステップS11)。
次いで、係り受け解析部235は、文70に対して係り受け解析を行う(ステップS12)。係り受け解析には、例えばGiNZAを利用する。
図5に示す例の場合、係り受け解析により、係り受け81から係り受け86が判明している。係り受け81は、文節71が文節72の「nmod:名詞修飾語」であることを示している。係り受け82は、文節72が文節76の「obl:斜格名詞」であることを示している。係り受け83は、文節73が文節74の「obj:目的語」であることを示している。係り受け84は、文節74が文節75の「acl:名詞の節修飾語」であることを示している。係り受け85は、文節75が文節76の「obj:目的語」であることを示している。係り受け86は、文節76が「ROOT:文の根」であることを示している。係り受け解析により、係り受け解析部235は、文70全体の係り受け構造パターン90を取得する。
係り受け解析後、部分抽出部236は、係り受け解析部235による解析結果を示す係り受け構造パターン90と、記憶部220に記憶されている核心部分抽出ルール222とを突合する(ステップS13)。例えば、部分抽出部236は、
図5に示す係り受け構造パターン90と
図3に示した核心部分抽出ルール222とを突合する。この場合、係り受け構造パターン90の領域91の部分の係り受け構造パターンと、核心部分抽出ルール222の「#5」の係り受け構造パターンとが一致する。
突合後、部分抽出部236は、核心部分と対象部分を州出する(ステップS14)。S13の突合結果より、部分抽出部236は、文節71から文節76のうち、核心部分抽出ルール222と係り受け構造パターンが一致した文節73から文節76までを核心部分として抽出する。そして、部分抽出部236は、核心部分以外の部分である文節71と文節72を対象部分として抽出する。
【0039】
ここで、
図6を参照して、部分抽出結果の一例について説明する。
図6は、本実施形態に係る部分抽出結果の一例を示す図である。
図6には、
図4に示した問い合わせ文章60から抽出された核文61から、対象部分63と核心部分64が抽出される例が示されている。
【0040】
図6に示す核文61は、文抽出部234によって問い合わせ文章60から抽出された核文である。この核文61は、係り受け解析部235によって係り受け解析が行われた後、部分抽出部236による核心部分抽出ルール222との突合によって部分抽出が行われる。
図6に示す例では、1つ目の核文である「不動産の登記申請書を作成し、「申請書作成・編集」画面を「完了」で閉じるとエラーが表示されます。」の文から、「エラーが表示されます。」の部分が核心部分として抽出される。また、2つ目の核文である「どうすればよいでしょうか。」の文は、文全体が核心部分として抽出される。また、1つ目の核文のうち「不動産の登記申請書を作成し、「申請書作成・編集」画面を「完了」で閉じると」の部分は対象部分として抽出される。
【0041】
(3-7)クラスタリング部237
クラスタリング部237は、クラスタリングを行う機能を有する。クラスタリング部237は、文抽出部234によって抽出された核文及び周辺部分に基づき、階層的なクラスタリングを実行する。これにより、クラスタリング部237は、問い合わせの核心が含まれる文だけでなく、問い合わせの条件が含まれる文も用いて2階層のクラスタリングを行うことができる。よって、FAQの生成における集約精度を向上することができる。
【0042】
また、クラスタリング部237は、部分抽出部236によって核文から抽出された核心部分と文抽出部234によって抽出された周辺部分に基づき、階層的なクラスタリングを実行してもよい。これにより、クラスタリング部237は、核文と周辺部分を用いた場合よりも階層の集約に不要な情報が排除された2階層のクラスタリングを行うことができる。よって、FAQの生成における集約精度を向上することができる。
【0043】
また、クラスタリング部237は、部分抽出部236によって核文から抽出された対象部分及び核心部分と、文抽出部234によって抽出された周辺部分とに基づき、階層的なクラスタリングを実行してもよい。これにより、クラスタリング部237は、FAQの構造がカテゴリ、質問核心、質問条件の3階層となるようクラスタリングを行うことができる。これにより、各階層の集約に不要な情報を排除でき、集約精度を向上することができる。
【0044】
(3-8)FAQ生成部238
FAQ生成部238は、FAQを生成する機能を有する。例えば、FAQ生成部238は、クラスタリング部237によるクラスタリングの結果に基づき、階層的にまとめられたFAQを生成し、FAQ情報として出力する。
【0045】
(3-9)出力制御部239
出力制御部239は、各種の出力を制御する機能を有する。例えば、出力制御部239は、通信部210を介して、FAQ生成部238によって出力されたFAQ情報をユーザ端末30へ送信する。
【0046】
<3.処理の流れ>
以上、本実施形態に係るFAQ管理装置20の機能構成について説明した。続いて、
図7を参照して、本実施形態に係る処理の流れについて説明する。
図7は、本実施形態に係る処理の流れの一例を示すシーケンス図である。
なお、
図7に示す例では、二値分類モデル221及び核心部分抽出ルール222は、予め管理者によって作成され、記憶部220に格納されているものとする。
【0047】
図7に示すように、まず、管理者端末10は、FAQの生成対象となる問い合わせ文章をFAQ管理装置20へ送信する(ステップS101)。
次いで、FAQ管理装置20の問い合わせ文章取得部231は、問い合わせ文章を取得する(ステップS102)。具体的に、文章取得部231は、管理者端末10から送信されて通信部210が受信した問い合わせ文章を取得する。
次いで、文章分割部232は、問い合わせ文章を分割する(ステップS103)。具体的に、文章分割部232は、文章取得部231によって取得された問い合わせ文章を句点区切りで分割する。
次いで、文ベクトル化部233は、文ベクトル化を行う(ステップS104)。具体的に、文ベクトル化部233は、文章分割部232によって分割された文ごとにベクトル化する。
【0048】
次いで、文抽出部234は、文抽出を行う(ステップS105)。具体的に、文抽出部234は、文ベクトル化部233によってベクトル化された文を二値分類モデル221へ入力し、各文を核文又は周辺部分として抽出する。
次いで、係り受け解析部235は、係り受け解析を行う(ステップS106)。具体的に、係り受け解析部235は、文抽出部234によって抽出された核文に対して係り受け解析を行う。
次いで、部分抽出部236は、部分抽出を行う(ステップS107)。具体的に、部分抽出部236は、記憶部220に記憶されている核心部分抽出ルール222と、係り受け解析部235による係り受け解析の結果とに基づき、核文から核心部分を抽出し、核心部分以外の部分を対象部分として抽出する。
【0049】
次いで、クラスタリング部237は、クラスタリングを行う(ステップS108)。具体的に、クラスタリング部237は、部分抽出部236によって核文から抽出された対象部分及び核心部分と、文抽出部234によって抽出された周辺部分とに基づき、FAQの構造がカテゴリ、質問核心、質問条件の3階層となるようクラスタリングを行う。
次いで、FAQ生成部238は、FAQを生成する(ステップS109)。具体的に、FAQ生成部238は、クラスタリング部237によるクラスタリングの結果に基づき、階層的にまとめられたFAQを生成し、FAQ情報として出力する。
次いで、出力制御部239は、FAQ情報を送信する(ステップS110)。具体的に、出力制御部239は、通信部210を介して、FAQ生成部238によって出力されたFAQ情報をユーザ端末30へ送信する。
【0050】
そして、ユーザ端末30は、FAQ管理装置20から受信したFAQ情報を表示する(ステップS111)。これにより、ユーザは、ユーザ端末30に表示されたFAQ情報において、カテゴリ、質問核心、質問条件の順に選択することで、目的の問い合わせを容易に見つけることができる。
【0051】
以上説明したように、本実施形態に係るFAQ管理装置20は、少なくとも1つの文からなる問い合わせ文章を取得し、取得された問い合わせ文章から問い合わせの核心を示す部分が含まれる核文(第1の文)を少なくとも抽出し、問い合わせ文章のうち核文以外の文を問い合わせの条件を示す部分が含まれる周辺部分(第2の文)として抽出し、抽出された核文及び周辺部分に基づき階層的なクラスタリングを実行する。
【0052】
かかる構成により、本実施形態に係るFAQ管理装置20は、核文の階層と周辺部分の階層からなる少なくとも2階層のFAQを生成することができる。これにより、FAQの生成のために質問文を含む文のみを抽出して単階層のクラスタリングを行った場合と比較し、FAQの生成における集約精度を向上することができる。
よって、本実施形態に係るFAQ管理装置20は、FAQの生成における集約精度を向上することを可能とする。
【0053】
以上、本発明の実施形態の変形例について説明した。なお、上述した実施形態におけるFAQ管理装置20の一部又は全部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
【0054】
以上、図面を参照してこの発明の実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【0055】
(付記1)
少なくとも1つの文からなる問い合わせ文章を取得する文章取得部と、
取得された前記問い合わせ文章から、前記問い合わせの核心を示す部分が含まれる第1の文を少なくとも抽出し、前記問い合わせ文章のうち前記第1の文以外の文を、前記問い合わせの条件を示す部分が含まれる第2の文として抽出する文抽出部と、
抽出された前記第1の文及び前記第2の文に基づき、階層的なクラスタリングを実行するクラスタリング部と、
を備えるFAQ管理装置。
【0056】
(付記2)
抽出された前記第1の文から、前記問い合わせの核心を示す部分を抽出する部分抽出部、
をさらに備え、
前記クラスタリング部は、前記問い合わせの核心を示す部分と前記第2の文に基づき、前記階層的なクラスタリングを実行する、
付記1に記載のFAQ管理装置。
【0057】
(付記3)
前記部分抽出部は、前記第1の文のうち前記問い合わせの核心を示す部分以外の部分を、前記問い合わせの主題を示す部分としてさらに抽出し、
前記クラスタリング部は、前記問い合わせの主題を示す部分、前記問い合わせの核心を示す部分、及び前記第2の文に基づき、前記階層的なクラスタリングを実行する、
付記2に記載のFAQ管理装置。
【0058】
(付記4)
前記問い合わせの核心を示す部分の係り受け構造パターンを記憶する記憶部と、
抽出された前記第1の文に対して係り受け解析を行う係り受け解析部と、
をさらに備え、
前記部分抽出部は、前記係り受け構造パターンと前記係り受け解析の結果とに基づき、前記第1の文において前記係り受け構造パターンと一致する係り受けとなっている部分を、前記問い合わせの核心を示す部分として抽出する、
付記2又は付記3に記載のFAQ管理装置。
【0059】
(付記5)
前記文抽出部は、BERT(Bidirectional Encoder Representations from Transformers)の事前学習済みモデルをファインチューニングして生成された二値分類モデルを用いて、前記問い合わせ文章から前記第1の文及び前記第2の文を抽出する、
付記1から付記4のいずれか1つに記載のFAQ管理装置。
【符号の説明】
【0060】
1…FAQ管理システム、10…管理者端末、20…FAQ管理装置、30…ユーザ端末、210…通信部、220…記憶部、221…二値分類モデル、222…核心部分抽出ルール、230…制御部、231…文章取得部、232…文章分割部、233…文ベクトル化部、234…文抽出部、235…解析部、236…部分抽出部、237…クラスタリング部、238…FAQ生成部、239…出力制御部、NW…ネットワーク