IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 大日本印刷株式会社の特許一覧

<>
  • 特開-表記ゆれ検出装置及びプログラム 図1
  • 特開-表記ゆれ検出装置及びプログラム 図2
  • 特開-表記ゆれ検出装置及びプログラム 図3
  • 特開-表記ゆれ検出装置及びプログラム 図4
  • 特開-表記ゆれ検出装置及びプログラム 図5
  • 特開-表記ゆれ検出装置及びプログラム 図6
  • 特開-表記ゆれ検出装置及びプログラム 図7
  • 特開-表記ゆれ検出装置及びプログラム 図8
  • 特開-表記ゆれ検出装置及びプログラム 図9
  • 特開-表記ゆれ検出装置及びプログラム 図10
  • 特開-表記ゆれ検出装置及びプログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023179116
(43)【公開日】2023-12-19
(54)【発明の名称】表記ゆれ検出装置及びプログラム
(51)【国際特許分類】
   G06F 16/36 20190101AFI20231212BHJP
   G06F 16/332 20190101ALI20231212BHJP
   G06F 40/253 20200101ALI20231212BHJP
【FI】
G06F16/36
G06F16/332
G06F40/253
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2022092204
(22)【出願日】2022-06-07
(71)【出願人】
【識別番号】000002897
【氏名又は名称】大日本印刷株式会社
(74)【代理人】
【識別番号】100106002
【弁理士】
【氏名又は名称】正林 真之
(74)【代理人】
【識別番号】100165157
【弁理士】
【氏名又は名称】芝 哲央
(74)【代理人】
【識別番号】100120891
【弁理士】
【氏名又は名称】林 一好
(72)【発明者】
【氏名】西川 侑吾
【テーマコード(参考)】
5B091
5B175
【Fターム(参考)】
5B091AA15
5B091CA02
5B091CA14
5B091CC02
5B091CC03
5B091CD11
5B175DA01
5B175FB04
5B175GB04
(57)【要約】
【課題】文書中の表記ゆれを検出し、複数の文書を用いて修正候補を提示する表記ゆれ検出装置及びプログラムを提供する。
【解決手段】文書検証サーバ1は、検証対象文書に含む語のうち、表記ゆれ辞書23の候補語に一致する語を、表記ゆれ語として特定する表記ゆれ語特定部13と、特定した表記ゆれ語が含まれる表記ゆれ辞書23の組に有する複数の候補語を抽出する候補語抽出部14と、文書記憶部26に記憶された複数の登録文書から、候補語抽出部14が抽出した複数の候補語のいずれかに一致する語を検索し、検索した語から特定した表記ゆれ語と文脈が等しい語を含む文字列を検索する蓄積文書検索部16と、蓄積文書検索部16が検索した語及び文字列を候補語ごとに集計し、集計した数を候補語に対応付けた候補語リストを生成するリスト生成部17と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
文書の表記ゆれを検出する表記ゆれ検出装置であって、
一の表記ゆれに係る語に対する複数の候補語を組として、複数の前記組を記憶した表記ゆれ辞書と、
検証対象文書に含む語のうち前記表記ゆれ辞書の前記候補語に一致する語を、表記ゆれ語として特定する表記ゆれ語特定手段と、
前記表記ゆれ語特定手段が特定した前記表記ゆれ語が含まれる前記表記ゆれ辞書の前記組に有する複数の前記候補語を抽出する候補語抽出手段と、
文書データベースに記憶された複数の登録文書から、前記候補語抽出手段が抽出した複数の前記候補語のいずれかに一致する語を検索する文書検索手段と、
前記文書検索手段が検索した前記語から、前記表記ゆれ語特定手段が特定した前記表記ゆれ語と文脈が等しい前記語を含む文字列を検索する文脈検索手段と、
前記文書検索手段が検索した前記語を前記候補語ごとに集計し、前記文脈検索手段が検索した前記文字列を前記候補語ごとに集計する利用集計手段と、
前記利用集計手段が集計した数を、前記候補語に対応付けて出力する候補語出力手段と、
を備える、表記ゆれ検出装置。
【請求項2】
請求項1に記載の表記ゆれ検出装置において、
前記検証対象文書を出力し、前記表記ゆれ語特定手段が特定した前記表記ゆれ語を強調出力する文書出力手段を備える、表記ゆれ検出装置。
【請求項3】
請求項2に記載の表記ゆれ検出装置において、
前記文書出力手段は、前記利用集計手段が集計した各候補語の数又は全体数に対する各候補語の数の割合に応じて、前記表記ゆれ語の強調態様を異なるものにして出力する、表記ゆれ検出装置。
【請求項4】
請求項2に記載の表記ゆれ検出装置において、
前記候補語出力手段は、前記候補語の修正に係る操作部材を出力し、
前記操作部材に係る操作を受け付けた場合に、前記文書出力手段が出力する前記検証対象文書の前記表記ゆれ語を、前記操作部材に対応する前記候補語に更新する文書更新手段を備える、表記ゆれ検出装置。
【請求項5】
請求項1に記載の表記ゆれ検出装置において、
前記利用集計手段は、前記文脈検索手段が検索した前記文字列の数を集計する、表記ゆれ検出装置。
【請求項6】
請求項1に記載の表記ゆれ検出装置において、
前記利用集計手段は、前記文脈検索手段が検索した前記文字列を有する前記登録文書の数を集計する、表記ゆれ検出装置。
【請求項7】
請求項1に記載の表記ゆれ検出装置において、
前記候補語出力手段は、検索した全ての数に対する各候補語の数の割合をさらに出力する、表記ゆれ検出装置。
【請求項8】
請求項1に記載の表記ゆれ検出装置において、
前記表記ゆれ語特定手段が特定した前記表記ゆれ語と、前記検証対象文書における前記表記ゆれ語の前後の語との品詞を各々取得する品詞取得手段を備え、
前記文脈検索手段は、前記文書検索手段が検索した前記語から、前記語と前記語の前後の語との品詞が、前記品詞取得手段が取得した前記品詞の各々に合致する前記語を含む前記文字列を検索する、表記ゆれ検出装置。
【請求項9】
請求項2に記載の表記ゆれ検出装置において、
語に対する統一語を記憶する統一ルール記憶部と、
前記表記ゆれ語特定手段が特定した前記表記ゆれ語が前記統一ルール記憶部の前記語に一致するか否かを確認する統一ルール確認手段と、
前記統一ルール確認手段が一致を確認した場合に、前記候補語出力手段による出力に代えて、一致した前記語に対応した前記統一語を出力する修正語出力手段と、
を備える、表記ゆれ検出装置。
【請求項10】
請求項9に記載の表記ゆれ検出装置において、
前記文書出力手段は、前記統一ルール確認手段が一致を確認した前記表記ゆれ語を、前記候補語出力手段による出力とは異なる態様で強調出力する、表記ゆれ検出装置。
【請求項11】
請求項1から請求項10までのいずれかに記載の表記ゆれ検出装置において、
前記表記ゆれ語に関する対処後の前記検証対象文書を、前記文書データベースに登録する文書登録手段を備える、表記ゆれ検出装置。
【請求項12】
請求項1から請求項10までのいずれかに記載の表記ゆれ検出装置において、
前記検証対象文書に対して形態素解析を行う形態素解析手段と、
前記形態素解析手段による形態素解析結果から前記語を抽出する語抽出手段と、
を備える、表記ゆれ検出装置。
【請求項13】
文書の表記ゆれを検出するコンピュータが、
一の表記ゆれに係る語に対する複数の候補語を組として、複数の前記組を記憶した表記ゆれ辞書を備え、
前記コンピュータを、
検証対象文書に含む語のうち前記表記ゆれ辞書の前記候補語に一致する語を、表記ゆれ語として特定する表記ゆれ語特定手段と、
前記表記ゆれ語特定手段が特定した前記表記ゆれ語が含まれる前記表記ゆれ辞書の前記組に有する複数の前記候補語を抽出する候補語抽出手段と、
文書データベースに記憶された複数の登録文書から、前記候補語抽出手段が抽出した複数の前記候補語のいずれかに一致する語を検索する文書検索手段と、
前記文書検索手段が検索した前記語から、前記表記ゆれ語特定手段が特定した前記表記ゆれ語と文脈が等しい前記語を含む文字列を検索する文脈検索手段と、
前記文書検索手段が検索した前記語を前記候補語ごとに集計し、前記文脈検索手段が検索した前記文字列を前記候補語ごとに集計する利用集計手段と、
前記利用集計手段が集計した数を、前記候補語に対応付けて出力する候補語出力手段と、
として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、表記ゆれ検出装置及びプログラムに関する。
【背景技術】
【0002】
従来、企業のホームページ等に顧客からの問い合わせページを設け、顧客からの問い合わせに対して回答することが行われている。このような問い合わせに係る業務を、外部の専門会社等に委託することも行われている。企業から委託を受けた専門会社等においては、例えば、マニュアルやFAQ(Frequently Asked Questions)を検索して、顧客の問い合わせに対する回答を作成する。しかし、回答の文書内に表記ゆれがあると、検索の際に漏れが生じたり、作成した回答文が読みづらいものになったりしてしまう。
このような状況を鑑み、例えば、文書において、表記ゆれとなる表現を精度よく抽出することができるゆれ語判定装置等が開示されている(例えば、特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特許第6413659号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に記載のものは、文書内における語について、表記ゆれを表すゆれ語であるか否かを判定するものである。
表記ゆれについては、文書内における表記ゆれを統一するのみならず、例えば、同じ企業ついての顧客の問い合わせに対する他の回答等、他の文書とも統一すると検索等の際に漏れが生じにくい。特に、複数の者が顧客の問い合わせに対する回答を作成する場合には、誰が作成しても同じように表記するのが望ましい。
他方、商品名等に用いられる名称等は、決まった表記をする必要があるものもあり、一概に表記ゆれと判定したものの全てを統一させるのも問題がある。
【0005】
そこで、本発明は、文書中の表記ゆれを検出し、複数の文書を用いて修正候補を提示する表記ゆれ検出装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明は、以下のような解決手段により、前記課題を解決する。
第1の発明は、文書の表記ゆれを検出する表記ゆれ検出装置であって、一の表記ゆれに係る語に対する複数の候補語を組として、複数の前記組を記憶した表記ゆれ辞書と、検証対象文書に含む語のうち前記表記ゆれ辞書の前記候補語に一致する語を、表記ゆれ語として特定する表記ゆれ語特定手段と、前記表記ゆれ語特定手段が特定した前記表記ゆれ語が含まれる前記表記ゆれ辞書の前記組に有する複数の前記候補語を抽出する候補語抽出手段と、文書データベースに記憶された複数の登録文書から、前記候補語抽出手段が抽出した複数の前記候補語のいずれかに一致する語を検索する文書検索手段と、前記文書検索手段が検索した前記語から、前記表記ゆれ語特定手段が特定した前記表記ゆれ語と文脈が等しい前記語を含む文字列を検索する文脈検索手段と、前記文書検索手段が検索した前記語を前記候補語ごとに集計し、前記文脈検索手段が検索した前記文字列を前記候補語ごとに集計する利用集計手段と、前記利用集計手段が集計した数を、前記候補語に対応付けて出力する候補語出力手段と、を備える、表記ゆれ検出装置である。
第2の発明は、第1の発明の表記ゆれ検出装置において、前記検証対象文書を出力し、前記表記ゆれ語特定手段が特定した前記表記ゆれ語を強調出力する文書出力手段を備える、表記ゆれ検出装置である。
第3の発明は、第2の発明の表記ゆれ検出装置において、前記文書出力手段は、前記利用集計手段が集計した各候補語の数又は全体数に対する各候補語の数の割合に応じて、前記表記ゆれ語の強調態様を異なるものにして出力する、表記ゆれ検出装置である。
第4の発明は、第2の発明又は第3の発明の表記ゆれ検出装置において、前記候補語出力手段は、前記候補語の修正に係る操作部材を出力し、前記操作部材に係る操作を受け付けた場合に、前記文書出力手段が出力する前記検証対象文書の前記表記ゆれ語を、前記操作部材に対応する前記候補語に更新する文書更新手段を備える、表記ゆれ検出装置である。
第5の発明は、第1の発明から第4の発明までのいずれかの表記ゆれ検出装置において、前記利用集計手段は、前記文脈検索手段が検索した前記文字列の数を集計する、表記ゆれ検出装置である。
第6の発明は、第1の発明から第4の発明までのいずれかの表記ゆれ検出装置において、前記利用集計手段は、前記文脈検索手段が検索した前記文字列を有する前記登録文書の数を集計する、表記ゆれ検出装置である。
第7の発明は、第1の発明から第6の発明までのいずれかの表記ゆれ検出装置において、前記候補語出力手段は、検索した全ての数に対する各候補語の数の割合をさらに出力する、表記ゆれ検出装置である。
第8の発明は、第1の発明から第7の発明までのいずれかの表記ゆれ検出装置において、前記表記ゆれ語特定手段が特定した前記表記ゆれ語と、前記検証対象文書における前記表記ゆれ語の前後の語との品詞を各々取得する品詞取得手段を備え、前記文脈検索手段は、前記文書検索手段が検索した前記語から、前記語と前記語の前後の語との品詞が、前記品詞取得手段が取得した前記品詞の各々に合致する前記語を含む前記文字列を検索する、表記ゆれ検出装置である。
第9の発明は、第2の発明から第4の発明までのいずれかの表記ゆれ検出装置において、語に対する統一語を記憶する統一ルール記憶部と、前記表記ゆれ語特定手段が特定した前記表記ゆれ語が前記統一ルール記憶部の前記語に一致するか否かを確認する統一ルール確認手段と、前記統一ルール確認手段が一致を確認した場合に、前記候補語出力手段による出力に代えて、一致した前記語に対応した前記統一語を出力する修正語出力手段と、を備える、表記ゆれ検出装置である。
第10の発明は、第9の発明の表記ゆれ検出装置において、前記文書出力手段は、前記統一ルール確認手段が一致を確認した前記表記ゆれ語を、前記候補語出力手段による出力とは異なる態様で強調出力する、表記ゆれ検出装置である。
第11の発明は、第1の発明から第10の発明までのいずれかの表記ゆれ検出装置において、前記表記ゆれ語に関する対処後の前記検証対象文書を、前記文書データベースに登録する文書登録手段を備える、表記ゆれ検出装置である。
第12の発明は、第1の発明から第11の発明までのいずれかの表記ゆれ検出装置において、前記検証対象文書に対して形態素解析を行う形態素解析手段と、前記形態素解析手段による形態素解析結果から前記語を抽出する語抽出手段と、を備える、表記ゆれ検出装置である。
第13の発明は、第1の発明から第12の発明までのいずれかの表記ゆれ検出装置としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【0007】
本発明によれば、文書中の表記ゆれを検出し、複数の文書を用いて修正候補を提示する表記ゆれ検出装置及びプログラムを提供することができる。
【図面の簡単な説明】
【0008】
図1】本実施形態に係る文書検証システムの全体構成図及び文書検証サーバの機能ブロック図である。
図2】本実施形態に係る文書検証サーバの記憶部の例を示す図である。
図3】本実施形態に係る文書検証サーバの文書検証処理を示すフローチャートである。
図4】本実施形態に係るユーザ端末に出力される検証用画面の例を示す図である。
図5】本実施形態に係る文書検証サーバの文書解析処理を示すフローチャートである。
図6】本実施形態に係る文書検証サーバの文書解析処理における具体例を示す図である。
図7】本実施形態に係る文書検証サーバの文書解析処理における具体例を示す図である。
図8】本実施形態に係る文書検証サーバの文書解析処理における具体例を示す図である。
図9】本実施形態に係るユーザ端末に出力される検証用画面の例を示す図である。
図10】本実施形態に係るユーザ端末に出力される他の検証用画面の例を示す図である。
図11】本実施形態に係る文書検証サーバの出力後処理を示すフローチャートである。
【発明を実施するための形態】
【0009】
以下、本発明を実施するための形態について、図を参照しながら説明する。なお、これは、あくまでも一例であって、本発明の技術的範囲は、これに限られるものではない。
(実施形態)
<文書検証システム100の全体構成>
図1は、本実施形態に係る文書検証システム100の全体構成図及び文書検証サーバ1の機能ブロック図である。
図2は、本実施形態に係る文書検証サーバ1の記憶部20の例を示す図である。
【0010】
図1に示すように、文書検証システム100は、文書検証サーバ1(表記ゆれ検出装置)と、ユーザ端末5とを備える。文書検証サーバ1と、ユーザ端末5とは、通信ネットワークNを介して接続されている。
文書検証システム100は、例えば、顧客からの質問文に対してユーザ端末5から入力がされた回答文(検証対象文書)を、文書検証サーバ1が受け付けて解析する。そして、文書検証サーバ1は、表記ゆれの箇所を強調表示した回答文と共に、表記ゆれに関する解析結果として、他の文書における表記ゆれの用途に係る使用状況を示す候補語リストを、ユーザ端末5に出力する。
【0011】
このように、文書検証システム100は、回答文作成者(以降、ユーザという。)に対して回答文における表記ゆれに関する解析結果を出力することで、ユーザに対して表記ゆれの記載についての修正可否を判断させるための情報を提供するシステムである。
以降の説明において、顧客からの質問文に対してユーザが作成した回答文を例に、検証対象文書を説明するが、これに限定されない。様々な文書について、文書検証システム100を用いることができる。
【0012】
<文書検証サーバ1>
文書検証サーバ1は、回答文の検証を行い、検証結果を提示するサーバである。より具体的には、文書検証サーバ1は、回答文についての表記ゆれを、回答文を解析することで検出する。また、文書検証サーバ1は、検出した表記ゆれについて、蓄積された登録文書の文脈に基づく候補語を出力する。
文書検証サーバ1は、制御部10と、記憶部20と、通信インタフェース部29とを備える。
制御部10は、文書検証サーバ1の全体を制御するCPU(中央処理装置)である。制御部10は、記憶部20に記憶されているOS(オペレーティングシステム)や、各種のアプリケーションプログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、各種機能を実行する。
【0013】
制御部10の各機能を説明する前に、記憶部20を説明する。
記憶部20は、文書検証サーバ1の動作に必要なプログラム、データ等を記憶するためのハードディスク、半導体メモリ素子等の記憶装置である。
記憶部20は、プログラム記憶部21と、表記ゆれ辞書23と、統一ルール記憶部24と、文書記憶部26(文書データベース)とを備える。
【0014】
プログラム記憶部21は、文書検証サーバ1で実行する各種のプログラムを記憶するための記憶領域である。プログラム記憶部21は、検証プログラム21a(プログラム)を記憶している。
検証プログラム21aは、例えば、制御部10に有する後述する各種機能を実行するためのプログラムである。
なお、制御部10に有する各種機能を実行するためのプログラムは、上記したように1つの検証プログラム21aにより実現されるものでなくてもよい。例えば、制御部10の機能ごとに、又は、複数の機能ごとにプログラムを有してもよい。
【0015】
表記ゆれ辞書23は、表記ゆれの候補語を記憶する記憶領域である。
図2(A)に、表記ゆれ辞書23の例を示す。
図2(A)に示す表記ゆれ辞書23は、表記ゆれID(IDentification)をキーにして、複数の候補語(候補語1、候補語2、・・・)を対応付けて記憶する。
表記ゆれIDは、同一の語を示す組を識別する識別情報である。
複数の候補語は、2つ以上であり、語によってその数は異なる。
例えば、表記ゆれIDが「1」のものは、複数の候補語として、「打ち合わせ」、「打合せ」、「打合わせ」の他、例えば、「打ち合せ」等をも含む。
【0016】
統一ルール記憶部24は、文書に統一の文字列を、検出文字列に対応付けて記憶する。
図2(B)に、統一ルール記憶部24の例を示す。
図2(B)に示す統一ルール記憶部24は、種別と、検出文字列と、品詞と、修正文字列と、表示内容とを対応付けて記憶する。
種別は、修正又は確認の別である。修正の場合には、修正が必要であることを示す。確認の場合には、修正が必要であるか否かの確認が必要であることを示す。
検出文字列は、文書から検出するべき文字列である。
品詞は、検出するべき文字列の品詞である。なお、品詞は、任意の項目である。
修正文字列は、検出文字列を置換する文字列であり、統一語である。
表示内容は、検証結果として画面に出力する内容である。
例えば、文書中に「払戻し」という語があり、その品詞が動詞であれば、「払い戻し」を修正文字列として出力すると共に、表示内容を出力することを示す。
【0017】
なお、統一ルール記憶部24は、例えば、企業ごとに異なるものが用意されていてもよい。また、統一ルール記憶部24は、表記ゆれではないが、例えば、サービス名等であって統一するべき語や、社内略称のような禁止語等を含んでもよい。
図1の文書記憶部26は、複数の文書を記憶する記憶領域である。文書記憶部26には、例えば、表記ゆれに対する対処を行った対処済回答文(登録文書)を記憶する。なお、対処済回答文と共に、例えば、質問文を対応付けて文書記憶部26に記憶してもよい。
【0018】
次に、制御部10について説明する。
制御部10は、文書受付部11と、形態素解析処理部12(形態素解析手段、語抽出手段)と、表記ゆれ語特定部13(表記ゆれ語特定手段)と、候補語抽出部14(候補語抽出手段)と、統一ルール確認部15(統一ルール確認手段)と、蓄積文書検索部16(品詞取得手段、文書検索手段、文脈検索手段)と、リスト生成部17(利用集計手段、候補語出力手段、修正語出力手段)と、結果出力部18(候補語出力手段、修正語出力手段、文書出力手段)と、文書更新登録部19(文書更新手段、文書登録手段)とを備える。
【0019】
文書受付部11は、例えば、顧客からの質問文に対する回答である回答文の入力を、ユーザ端末5から受け付ける。
形態素解析処理部12は、文書受付部11が受け付けた回答文に対して形態素解析を行うことで、意味を持つ最小の要素に回答文を分割する。そして、形態素解析処理部12は、分割した回答文の各要素から語を抽出する。ここで、形態素解析処理部12は、例えば、品詞が名詞や動詞、形容詞の語を抽出してもよい。これらの品詞は、表記ゆれが生じる語であるという経験則による。
【0020】
表記ゆれ語特定部13は、形態素解析処理部12により抽出された語のうち、表記ゆれ辞書23の候補語に一致する語を、表記ゆれ語として特定する。
候補語抽出部14は、表記ゆれ語特定部13が特定した表記ゆれ語が含まれる表記ゆれ辞書23の組に有する複数の候補語を、表記ゆれ辞書23から抽出する。
統一ルール確認部15は、表記ゆれ語特定部13が特定した表記ゆれ語が、統一ルール記憶部24の検出文字列(語)に一致するか否かを確認する。また、統一ルール確認部15は、表記ゆれ語特定部13が特定した表記ゆれ語とその品詞とが、統一ルール記憶部24の検出文字列(語)とその品詞とに一致するか否かを確認する。
【0021】
蓄積文書検索部16は、文書記憶部26に記憶された複数の対処済回答文から、候補語抽出部14が抽出した複数の候補語のいずれかに一致する語を検索する。また、蓄積文書検索部16は、検索した語から、表記ゆれ語特定部13が特定した表記ゆれ語と文脈が等しい語を含む文字列を検索する。ここで、文脈が等しいとは、表記ゆれ語と、その前後の語との意味的関連が等しいことをいう。より具体的には、蓄積文書検索部16は、表記ゆれ語特定部13が特定した表記ゆれ語と、回答文における表記ゆれ語の前後の語との品詞を各々取得する。そして、蓄積文書検索部16は、文書記憶部26に記憶された複数の対処済回答文から、候補語と候補語の前後の語との品詞が、取得した品詞の各々に合致する候補語を含む文字列を検索する。
【0022】
リスト生成部17は、蓄積文書検索部16が検索した語及び文字列をそれぞれ候補語ごとに集計し、集計した数を候補語に対応付けた候補語リストを生成する。その際、リスト生成部17は、蓄積文書検索部16が検索した語及び文字列の数を、それぞれ候補語ごとに集計する。
なお、リスト生成部17は、蓄積文書検索部16が検索した語及び文字列を有する対処済回答文の文書数を、それぞれ候補語ごとに集計してもよい。また、リスト生成部17は、検索した全ての数に対する各候補の数の割合を、さらに算出してもよい。ここで、数とは、候補語である語の数及び/又は文字列の数をいう。
また、リスト生成部17は、統一ルール確認部15が一致を確認した場合に、一致した前記検出文字列に対応した修正文字列(統一語)を含む修正語リストを生成する。
【0023】
結果出力部18は、文書受付部11が受け付けた回答文に対して表記ゆれ語特定部13が特定した表記ゆれ語を強調して、ユーザ端末5に出力する。その際、結果出力部18は、統一ルール確認部15が一致を確認した場合に、一致を確認した表記ゆれ語を、他の表記ゆれ語とは異なる態様で強調する。強調の手法としては、例えば、下線を付したり、網掛け等によるハイライトをしたり、太字にしたり、文字の大きさを他よりも大きくする、といったものがある。
また、結果出力部18は、リスト生成部17が生成した候補語リストや修正語リストを、ユーザ端末5に出力する。
【0024】
文書更新登録部19は、候補語リストや修正語リストからの修正に係る操作を受け付けた場合に、回答文にある表記ゆれ語を、操作に対応する語に更新する。
また、文書更新登録部19は、回答文の登録に係る操作を受け付けた場合に、表示中の回答文をその質問文に対応付けて、文書記憶部26に登録する。
なお、これらの各機能の詳細については、後述する。
【0025】
通信インタフェース部29は、通信ネットワークNを介してユーザ端末5との通信を行うためのインタフェースである。
ここで、コンピュータとは、制御部、記憶装置等を備えた情報処理装置をいい、文書検証サーバ1は、制御部10、記憶部20等を備えた情報処理装置であり、コンピュータの概念に含まれる。
また、文書検証サーバ1を構成するハードウェアの数に制限はない。必要に応じて、1又は複数で構成してもよい。また、文書検証サーバ1のハードウェアは、必要に応じてWebサーバ、DB(データベース)サーバ、アプリケーションサーバ等の各種サーバを含んで構成してもよく、1台のサーバで構成しても、それぞれ別のサーバで構成してもよい。また、文書検証サーバ1は、例えば、クラウドであってもよい。
【0026】
<ユーザ端末5>
図1に示すユーザ端末5は、例えば、顧客からの質問文に対する回答文を作成するユーザが使用する端末である。ユーザ端末5は、例えば、パーソナルコンピュータ(PC)や、タブレット端末等で構成することができる。図示していないが、ユーザ端末5は、制御部、記憶部、表示部、入力部、通信インタフェース部等を備える。
通信ネットワークNは、文書検証サーバ1と、ユーザ端末5との間のネットワークであり、例えば、インターネット回線等の通信網である。通信ネットワークNは、LAN(Local Area Network)等であってもよい。また、通信ネットワークNは、有線であるか無線であるかを問わない。
【0027】
<処理の説明>
次に、文書検証サーバ1に処理について説明する。
図3は、本実施形態に係る文書検証サーバ1の文書検証処理を示すフローチャートである。
図4は、本実施形態に係るユーザ端末5に出力される検証用画面50の例を示す図である。
図5は、本実施形態に係る文書検証サーバ1の文書解析処理を示すフローチャートである。
図6から図8までは、本実施形態に係る文書検証サーバ1の文書解析処理における具体例を示す図である。
図9は、本実施形態に係るユーザ端末5に出力される検証用画面80の例を示す図である。
図10は、本実施形態に係るユーザ端末5に出力される他の検証用画面80-2の例を示す図である。
図11は、本実施形態に係る文書検証サーバ1の出力後処理を示すフローチャートである。
【0028】
まず、ユーザ端末5が文書検証サーバ1に接続し、検証用画面を要求することで、図3のステップS(以下、「ステップS」を単に「S」という。)11において、文書検証サーバ1の制御部10は、検証用画面をユーザ端末5に送信する。
ユーザ端末5では、出力された検証用画面を用いて、顧客からの質問文に対する回答文を入力する。
【0029】
図4に、ユーザ端末5に出力される検証用画面50を示す。
検証用画面50は、質問文51と、回答文入力領域52と、解析ボタン53と、解析後回答文領域54と、解析結果領域55とを含む。
質問文51は、顧客からの質問文であり、編集等ができないものである。
回答文入力領域52は、ユーザが質問文51に対する回答文を入力するための領域である。
解析ボタン53は、回答文入力領域52に入力された回答文を解析する際に、ユーザにより選択される指示ボタンである。
解析後回答文領域54及び解析結果領域55は、回答文に対する解析後に出力される領域である。そのため、ユーザ端末5に検証用画面50が出力された際には、何も出力がされていない。
【0030】
ユーザは、質問文51に出力されている質問文を見ながら、回答文入力領域52に質問文に対する回答を入力していく。
そして、ユーザが、回答文を回答文入力領域52に入力し終えて、解析ボタン53を選択する操作をすることで、図3のS12において、制御部10(文書受付部11)は、回答文を受け付ける。
S13において、制御部10は、文書解析処理を行う。
【0031】
ここで、文書解析処理について、図5に基づき説明する。
図5のS21において、文書検証サーバ1の制御部10(形態素解析処理部12)は、受け付けた回答文に対して形態素解析処理を行って、回答文の語を抽出する。
S22において、制御部10(表記ゆれ語特定部13)は、抽出した回答文の語と、表記ゆれ辞書23の候補語とを照合し、候補語に一致した語を表記ゆれ語として特定する。
S23において、制御部10(候補語抽出部14)は、特定した表記ゆれ語を含む表記ゆれ辞書23の組に有する複数の候補語を抽出する。
【0032】
S24において、制御部10(統一ルール確認部15)は、特定した表記ゆれ語と同一の語が、統一ルール記憶部24の検出文字列にあるか否かを判断する。表記ゆれ語と同一の語がある場合(S24:YES)には、制御部10は、処理をS25に移す。他方、表記ゆれ語と同一の語がない場合(S24:NO)には、制御部10は、処理をS26に移す。
なお、当該処理は、回答文から特定した表記ゆれ語の全てにおいて行う。そのため、特定した表記ゆれ語が複数ある場合には、その中から1つの表記ゆれ語について、当該判定処理を行う。そして、全ての表記ゆれ語について本処理を行う。
【0033】
S25において、制御部10(リスト生成部17)は、表記ゆれ語に対する修正語リストを生成する。その後、制御部10は、処理をS29に移す。
他方、S26において、制御部10(蓄積文書検索部16)は、表記ゆれ語及びその前後の語(形態素)の品詞を取得する。制御部10は、本処理を、形態素解析によって得られる品詞を用いることができる。
【0034】
S27において、制御部10(蓄積文書検索部16)は、文書記憶部26の対処済回答文から抽出した複数の候補語のいずれかに一致する語を検索する。そして、制御部10(蓄積文書検索部16)は、検索した語から、表記ゆれ語及びその前後の語の品詞に基づいて、文脈が等しい語を含む文字列を検索する。ここで、文脈が等しいとは、文書記憶部26の対処済回答文の文字列が、S23の処理で抽出した複数の候補語のうちのいずれかの文字列であって、当該文字列の品詞が表記ゆれ語の品詞と同じであり、当該文字列の前後の語の品詞が、表記ゆれ語の前後の語の品詞と等しいことをいう。
【0035】
S28において、制御部10(リスト生成部17)は、検索した複数の候補語のいずれかに一致する語及び文脈が等しい語を含む文字列を候補語ごとに集計し、候補語リストを生成する。
S29において、制御部10は、特定した全ての表記ゆれ語について処理をしたか否かを判断する。特定した全ての表記ゆれ語について処理をした場合(S29:YES)には、制御部10は、処理を図3のS14に移す。他方、特定した全ての表記ゆれ語について処理をしていない場合(S29:NO)には、制御部10は、処理をS24に移し、残りの表記ゆれ語について同様に処理を行う。
【0036】
上記の文書解析処理の具体例について、図6から図8を用いて説明する。
文書検証サーバ1の制御部10(形態素解析処理部12)が、例えば、図6(A)に示す入力文61に対して形態素解析を行うことで、図6(B)に示す形態素解析結果62を得る。形態素解析結果62は、入力文61を語に分割したものであり、各語の品詞が対応付けられている。そして、制御部10(形態素解析処理部12)は、形態素解析結果62から語を抽出する(図5のS21)。
制御部10は、図6(B)の形態素解析結果62から、例えば、「明日」、「打合せ」、「ターゲット」、「ユーザ」、「選定」、「打ち合わせ」を抽出する。
【0037】
次に、制御部10(表記ゆれ語特定部13)は、抽出した語から表記ゆれ語を特定する(図5のS22)。
図6(B)において、語62aから62cは、それぞれ、図6(C)に示す表記ゆれ辞書23の一部である表記ゆれIDが「1」と「3」の候補語に一致している。そのため、制御部10は、語62aから62cを、表記ゆれ語として特定する。
制御部10(候補語抽出部14)は、図6(B)の語62a及び語62cに対応するものとして、図6(C)の表記ゆれIDが「1」に有する複数の候補語を抽出する。また、制御部10は、図6(B)の語62bに対応するものとして、図6(C)の表記ゆれIDが「3」に有する複数の候補語を抽出する(図5のS23)。
【0038】
制御部10(統一ルール確認部15)は、図6(B)に示す語62aから62cまでについて、統一ルール記憶部24の検出文字列に一致するものがあるか否かを確認する(図5のS24)。この例の場合には、統一ルール記憶部24の検出文字列に一致するものがないので(図5のS24がNO)、制御部10(蓄積文書検索部16)は、図6(B)に示す語62a及び62cについて、図7に示すように、「打合せ」の表記ゆれ語及びその品詞と、表記ゆれ語の前後の語(形態素)の品詞とからなる文脈対象63を抽出する(図5のS26)。また、制御部10は、表記ゆれ語を含む表記ゆれ辞書23の組23aを既に抽出している(図5のS23)。
そこで、制御部10(蓄積文書検索部16)は、文書記憶部26を参照し、対処済回答文から組23aの候補語のいずれかを含む語を全て検索し、さらに、文脈対象63に等しい文字列を全て検索する(図5のS27)。
【0039】
その後、図8に示すように、制御部10(リスト生成部17)は、文脈対象63に対する登場回数を集計した文脈集計65を作成する。また、制御部10は、文脈ごとの割合を算出し、割合を含む割合集計66に、文脈集計65を更新する。
そして、制御部10(リスト生成部17)は、割合集計66の情報に基づいて候補語リスト70を生成する(図5のS27及びS28)。
候補語リスト70は、文書記憶部26に記憶されている全ての対処済回答文に含まれる候補語の件数及び割合と、今回の入力文61と同じ文脈での候補語の件数及び割合とが表形式になっている。また、候補語リスト70は、入力文61の表記ゆれの箇所をいずれかの候補語で統一する場合の統一ボタン71aから71cまで(操作部材)を有する。さらに、候補語リスト70は、今回の入力文61と同じ文脈での候補語のうち、入力文61の文脈を修正する場合の修正ボタン72aから72dまで(操作部材)を有する。
【0040】
図3のS14において、制御部10(結果出力部18)は、回答文に含まれる表記ゆれ語に対して、例えば、ハイライトを追加する強調追加処理を行う。
S15において、制御部10(結果出力部18)は、解析結果を更新した検証用画面80を、ユーザ端末5に出力する。
図9に、ユーザ端末5に出力された検証用画面80の例を示す。
検証用画面80は、検証用画面50(図4)において、解析ボタン53が選択された後に更新されて出力される画面である。
検証用画面80は、回答文入力領域82と、解析後回答文領域84と、解析結果領域85と、保存ボタン89とを含む。
【0041】
解析後回答文領域84は、回答文入力領域82に入力された回答文に対する解析後回答文が出力される領域である。解析後回答文は、回答文入力領域82に入力された回答文に対して、解析処理による結果が反映されたものであり、例えば、表記ゆれ語は、文書の検証結果が分かるように強調して出力される。この例の場合、「申込み」や「申し込み」といった表記ゆれ語には、例えば、緑色のハイライトが施されて強調されている。また、句読点の連続といった、他の検証処理により確認が必要な箇所には、例えば、水色のハイライトが施され、統一ルール記憶部24にある検出文字列には、修正が必要であるため黄色のハイライトが施されている。そのため、解析後回答文領域84に出力される解析後回答文を参照すれば、ハイライトの色によって、どのような検証結果であるかといった、検証内容を確認することができる。
【0042】
解析結果領域85は、解析の詳細が出力される領域である。解析結果領域85は、確認修正出力部86と、表記ゆれ出力部87とを有する。
確認修正出力部86は、表記ゆれ以外の確認修正項目である修正語リストを出力する。確認修正出力部86では、確認又は修正の項目に、解析後回答文の対応する箇所に施されたハイライトと同じ色のハイライトが施されている。また、修正の項目には、適用ボタン86aを有する。ユーザが適用ボタン86aを選択する操作をすると、解析後回答文の該当箇所が、修正文字列に更新される。
表記ゆれ出力部87は、候補語リストを出力する。
保存ボタン89は、解析後回答文に対して修正等を行った後に回答文を保存する際に、ユーザにより選択される指示ボタンである。
【0043】
なお、図9に示す検証用画面80は、一例である。
例えば、図10に示す検証用画面80-2のように、解析結果領域85-2に、解析結果出力部88-2と、表記ゆれ確認ボタン90とを有するものであってもよい。
解析結果出力部88-2は、表記ゆれを含む解析結果を出力するものであり、修正語リストを含む。
表記ゆれ確認ボタン90は、ユーザによる選択操作によって、候補語リスト画面91を出力させるための指示ボタンである。
図3のS16において、制御部10は、出力後処理を行う。
【0044】
ここで、出力後処理について、図11に基づき説明する。
図11のS41において、制御部10は、修正語リストにおける適用ボタンの選択操作を受け付けたか否かを判断する。例えば、確認修正出力部86の適用ボタン86a(図9)の選択操作を、ユーザが行った場合に、制御部10は、修正語リストにおける適用ボタンの選択操作を受け付けたと判断する。適用ボタンの選択操作を受け付けた場合(S41:YES)には、制御部10は、処理をS42に移す。他方、適用ボタンの選択操作を受け付けていない場合(S41:NO)には、制御部10は、処理をS43に移す。
S42において、制御部10(文書更新登録部19)は、回答文の対応する箇所を、修正語リストの適用ボタンに対応する修正文字列に更新する。
【0045】
S43において、制御部10は、候補語リストにおける選択操作を受け付けたか否かを判断する。例えば、図8の候補語リスト70において、統一ボタン71aから71cまでのいずれか、又は、修正ボタン72aから72dまでのいずれかを受け付けた場合には、候補語リストにおける選択操作を受け付けたと判断する。候補語リストにおける選択操作を受け付けた場合(S43:YES)には、制御部10は、処理をS44に移す。他方、候補語リストにおける選択操作を受け付けていない場合(S43:NO)には、制御部10は、処理をS45に移す。
S44において、制御部10(文書更新登録部19)は、回答文の対応する箇所を、候補語リストにおける選択操作に対応する語に更新する。
【0046】
S45において、制御部10は、回答文を保存するか否かを判断する。例えば、ユーザが保存ボタン89(図9)の選択操作を行った場合に、制御部10は、回答文を保存すると判断する。回答文を保存する場合(S45:YES)には、制御部10は、処理をS46に移す。他方、回答文を保存しない場合(S45:NO)には、制御部10は、処理をS41に移し、引き続き他の修正を行う。
S46において、制御部10(文書更新登録部19)は、更新後の回答文を、例えば、質問文に対応付けて文書記憶部26に記憶させる。その後、制御部10は、本処理を終了する。
【0047】
このように、文書検証サーバ1は、表記ゆれ語についての候補を候補語リストとして提示し、ユーザが候補語リストから修正の指示等をすることで、回答文を修正できる。また、修正した回答文や、ユーザが確認した回答文を、文書記憶部26に記憶させるので、次に、新たな回答文についての検証をする際には、今回の修正内容を反映させて表記ゆれ語についての候補を提示できる。
【0048】
このように、本実施形態によれば、文書検証サーバ1は、以下のような効果がある。
(1)一の表記ゆれに係る語に対する複数の候補語を組として、複数の組を記憶した表記ゆれ辞書23を参照し、検証対象文書である回答文に含む語のうち表記ゆれ辞書23の候補語に一致する語を、表記ゆれ語として特定する。そして、特定した表記ゆれ語が含まれる表記ゆれ辞書23の組に有する複数の候補語を抽出し、文書記憶部26に記憶された複数の対処済回答文から、抽出した複数の候補語のいずれかに一致する語を検索し、表記ゆれ語と文脈が等しい候補語を含む文字列を検索し、検索した語及び文字列を、候補語ごとに集計し、集計した数を、候補語に対応付けて候補語リストを出力する。
よって、表記ゆれ語の修正のための候補語を、対処済回答文の文脈を集計して候補語リストとして出力するので、過去に同じ表記ゆれ語に対して対処した文脈の傾向を、ユーザが参考にできる。結果として、回答文にある表記ゆれ語の修正を決めるための支援をすることができる。
【0049】
(2)回答文を出力し、特定した表記ゆれ語を強調出力する。
よって、回答文にある表記ゆれ語を抽出して、表記ゆれ語を強調して出力するので、回答文の中にある表記ゆれ語を、ユーザに明示できる。
(3)候補語リストには、候補語の修正に係るボタンを出力し、当該ボタンに係る操作を受け付けた場合に、回答文の表記ゆれ語を、当該ボタンに対応する候補語に更新する。
よって、ユーザは、ボタンを選択操作するだけで、ユーザが選択した候補語に、表記ゆれ語を修正できるので、便利である。
【0050】
(4)表記ゆれ語の候補語のいずれかに一致する語と、表記ゆれ語との文脈が等しい候補語を含む文字列とについて、検索された語及び文字列の数で集計するので、候補語リストに出力される集計数を、対処済回答文に含まれる語及び文字列の数とすることができる。
(5)表記ゆれ語の候補語のいずれかに一致する語と、表記ゆれ語との文脈が等しい候補語を含む文字列とについて、当該語及び文字列を含む対処済回答文の数で集計するので、候補語リストに出力される集計数を、対処済回答文の数とすることができ、対処済回答文に含まれる語及び文字列の数の大小による影響を受けることがないものにできる。
(6)候補語リストには、検索した全ての数に対する各候補語の数の割合をさらに出力するので、各候補語の対処済回答文における使用状況を含む情報を、割合を含めてユーザに提供できる。
【0051】
(7)特定した表記ゆれ語と、回答文における表記ゆれ語の前後の語との品詞を各々取得し、文書記憶部26に記憶された複数の対処済回答文から、候補語と候補語の前後の語との品詞が、取得した品詞の各々に合致する候補語を含む文字列を検索する。
よって、表記ゆれ語の品詞及びその前後の語の品詞に等しい候補語のものを、文脈が等しい文字列とすることができる。
【0052】
(8)特定した表記ゆれ語が、語に対する統一語を記憶する統一ルール記憶部24の語に一致するか否かを確認し、一致を確認した場合に、候補語リストの出力に代えて、一致した語に対応した統一語を含む修正語リスト出力する。
また、回答文において、特定した表記ゆれ語を、候補語リストの出力とは異なる態様で強調出力する。
よって、例えば、商品名等であって、予め決まった語にすることが定められているものを、統一ルール記憶部24に登録しておき、当該統一ルール記憶部24に記憶された語が回答文に含まれる場合には、修正語リストを出力するので、修正内容が明確である。また、候補語リストの出力とは異なる態様で、回答文の表記ゆれ語を強調出力するので、語に対する解析結果の区別が分かりやすいものにできる。
【0053】
(9)表記ゆれ語に関する対処後の回答文を、文書記憶部26に登録するので、次の表記ゆれ語の確認の際には、当該回答文を件数に含めて集計対象にすることができる。
(10)回答文に対して形態素解析を行い、形態素解析結果から語を抽出するので、処理によって回答文から語を抽出することができる。また、語の品詞も取得することができる。
【0054】
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されるものではない。また、実施形態に記載した効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載したものに限定されない。なお、上述した実施形態及び後述する変形形態は、適宜組み合わせて用いることもできるが、詳細な説明は省略する。
【0055】
(変形形態)
(1)本実施形態では、質問文に対する回答文についての処理を例に説明したが、これに限定されない。他の文書であっても同様に行うことができる。
【0056】
(2)本実施形態では、文脈が等しい候補語を抽出する際に、表記ゆれ語とその前後の語との各品詞が等しい候補語を含む文字列を抽出する処理として説明したが、これに限定されない。例えば。表記ゆれ語とその前後の語との品詞について、表記ゆれ語を候補語とした場合のパターンを作成し、各パターンを満たす文書記憶部の文書の文字列を抽出して集計してもよい。
【0057】
(3)本実施形態では、表記ゆれに係る対処をした対処済回答文を文書記憶部に記憶させて処理をするものを例に説明したが、これに限定されない。単なる入力文書を含んで文書記憶部に記憶させて用いてもよい。
【0058】
(4)本実施形態では、回答文について表記ゆれ語を強調出力するものを説明した。ここで、強調出力は、例えば、集計した各候補語の数や、全体数における各候補語の数の割合に応じて、異なるようにして出力してもよい。例えば、回答文に含まれる表記ゆれ語について、対処済回答文における使用数や使用割合が高いほど、より濃い色で示してもよい。
【0059】
(5)本実施形態では、主に表記ゆれに対する検証を行うものを例に説明したが、これに限定されない。文書を検証するための他の処理を同時に行ってもよい。
【0060】
(6)本実施形態では、文書検証サーバとユーザ端末とを備えるものを例に説明したが、これに限定されない。文書検証サーバの機能を有するクライアント端末のみのスタンドアロン構成のものであってもよい。
【0061】
(7)本実施形態では、文書検証サーバの記憶部に、表記ゆれ辞書、統一ルール記憶部及び文書記憶部等を備えるものを例に説明したが、これに限定されない。例えば、外部のサーバに文書記憶部等を記憶させ、文書検証サーバが、通信ネットワークを介して、又は、直接に、検証情報記憶部等を記憶する外部のサーバ等に接続する構成であってもよい。
【符号の説明】
【0062】
1 文書検証サーバ
5 ユーザ端末
10 制御部
11 文書受付部
12 形態素解析処理部
13 表記ゆれ語特定部
14 候補語抽出部
15 統一ルール確認部
16 蓄積文書検索部
17 リスト生成部
18 結果出力部
19 文書更新登録部
20 記憶部
21a 検証プログラム
23 表記ゆれ辞書
24 統一ルール記憶部
26 文書記憶部
50,80,80-2 検証用画面
54,84 解析後回答文領域
55,85,85-2 解析結果領域
70 候補語リスト
71a,71b,71c 統一ボタン
72a,72b,72c,72d 修正ボタン
89 保存ボタン
100 文書検証システム
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11