(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023072321
(43)【公開日】2023-05-24
(54)【発明の名称】文書校正支援装置、文書校正支援方法及び文書校正支援プログラム
(51)【国際特許分類】
G06F 40/166 20200101AFI20230517BHJP
G06F 40/253 20200101ALI20230517BHJP
【FI】
G06F40/166
G06F40/253
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2021184785
(22)【出願日】2021-11-12
(71)【出願人】
【識別番号】000153443
【氏名又は名称】株式会社 日立産業制御ソリューションズ
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】花岡 駿介
(72)【発明者】
【氏名】和久井 一則
(72)【発明者】
【氏名】米田 知弘
【テーマコード(参考)】
5B091
5B109
【Fターム(参考)】
5B091EA04
5B109TB03
(57)【要約】 (修正有)
【課題】文書内において意味的な間違いが潜在的に存在する箇所を検知することが可能な文書校正支援装置、方法及びプログラムを提供する。
【解決手段】文書校正支援装置は、文書に含まれるセンテンスが所定のルールに一致するか否かにより、文書に含まれるセンテンスが意味的な間違いを含み得る未知センテンスであるか否かを判断する文書解析部と、文書の種類に応じて定義される複数の構成要素のうちのいずれに未知センテンスが近似するかを推定する未知センテンス処理部と、未知センテンス及び未知センテンスが近似する構成要素を表示する表示処理部と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
文書に含まれるセンテンスが所定のルールに一致するか否かにより、前記センテンスが意味的な間違いを含み得る未知センテンスであるか否かを判断する文書解析部と、
前記文書の種類に応じて定義される複数の構成要素のうちのいずれに前記未知センテンスが近似するかを推定する未知センテンス処理部と、
前記未知センテンス及び前記未知センテンスが近似する前記構成要素を表示する表示処理部と、
を備えることを特徴とする文書校正支援装置。
【請求項2】
前記未知センテンス処理部は、
前記所定のルールに一致しない未知センテンスを入力とし、前記未知センテンスと前記複数の構成要素のそれぞれとの間の距離を出力とする構成要素推定モデルを使用すること、
を特徴とする請求項1に記載の文書校正支援装置。
【請求項3】
前記未知センテンス処理部は、
前記未知センテンスをセンテンスベクトルに変換し、前記変換したセンテンスベクトルを前記構成要素推定モデルに入力し、前記構成要素推定モデルから前記距離を取得すること、
を特徴とする請求項2に記載の文書校正支援装置。
【請求項4】
前記構成要素推定モデルは、
学習データとしてのセンテンスが複数のクラスタに分類されている空間において、前記変換したセンテンスベクトルと、前記複数のクラスタのそれぞれとの間の距離を算出すること、
を特徴とする請求項3に記載の文書校正支援装置。
【請求項5】
前記未知センテンス処理部は、
前記未知センテンスが前記複数のクラスタのいずれかに分類される場合、当該未知センテンスを校正する必要がないと判断すること、
を特徴とする請求項4に記載の文書校正支援装置。
【請求項6】
前記未知センテンス処理部は、
前記距離及び前記構成要素ごとに定義される重要度に基づいて、前記構成要素ごとにスコアを算出し、
前記表示処理部は、
前記未知センテンスに関連付けて前記算出したスコアを表示すること、
を特徴とする請求項5に記載の文書校正支援装置。
【請求項7】
前記未知センテンス処理部は、
前記スコアを校正に必要な時間に換算し、
前記表示処理部は、
前記未知センテンスに関連付けて前記換算した時間を表示すること、
を特徴とする請求項6に記載の文書校正支援装置。
【請求項8】
文書校正支援装置の文書解析部は、
文書に含まれるセンテンスが所定のルールに一致するか否かにより、前記センテンスが意味的な間違いを含み得る未知センテンスであるか否かを判断し、
前記文書校正支援装置の未知センテンス処理部は、
前記文書の種類に応じて定義される複数の構成要素のうちのいずれに前記未知センテンスが近似するかを推定し、
前記文書校正支援装置の表示処理部は、
前記未知センテンス及び前記未知センテンスが近似する前記構成要素を表示すること、
を特徴とする文書校正支援装置の文書校正支援方法。
【請求項9】
コンピュータを、
文書に含まれるセンテンスが所定のルールに一致するか否かにより、前記センテンスが意味的な間違いを含み得る未知センテンスであるか否かを判断する文書解析部と、
前記文書の種類に応じて定義される複数の構成要素のうちのいずれに前記未知センテンスが近似するかを推定する未知センテンス処理部と、
前記未知センテンス及び前記未知センテンスが近似する前記構成要素を表示する表示処理部と、
して機能させるための文書校正支援プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書校正支援装置、文書校正支援方法及び文書校正支援プログラムに関する。
【背景技術】
【0002】
企業においては、日常的に多種多量の文書が作成される。しかしながら、文書作成者は、文書を見直す時間を充分に確保できない場合が多い。さらに、業務用の文書は、専門的な内容を正確に伝える語法に適っている必要がある。近時、コンピュータがこのような見直しを行うことが一般化している。
【0003】
特許文献1の文書校正支援装置は、所定のルールに合致しない不適切な記載箇所を文書から抽出し、それを修正するために要する予想修正時間を算出し、不適切な記載箇所及びその予想修正時間を出力する。当該文書校正支援装置は、ユーザが指定する修正時間を予想修正時間と比較する。予想修正時間の方が短い場合、当該文書校正支援装置は、すべての不適切な記載箇所を修正の対象とする。逆に、予想修正時間の方が長い場合、当該文書校正支援装置は、不適切な記載箇所のうち重要度が高いもののみを修正の対象とする。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
校正前の原稿は、誤字、脱字、表記揺れ等の文法的又は型式的な間違いだけではなく、意味的な間違いを含む場合がある。特許文献1のルールは、文法的又は型式的な間違いを検知するためのものである。意味的な間違いが潜在的に存在する箇所をユーザに知らせるには、別途方策が必要であった。
そこで、本願は、文書内において、意味的な間違いが潜在的に存在する箇所を検知することを目的とする。
【課題を解決するための手段】
【0006】
本発明の文書校正支援装置は、文書に含まれるセンテンスが所定のルールに一致するか否かにより、前記センテンスが意味的な間違いを含み得る未知センテンスであるか否かを判断する文書解析部と、前記文書の種類に応じて定義される複数の構成要素のうちのいずれに前記未知センテンスが近似するかを推定する未知センテンス処理部と、前記未知センテンス及び前記未知センテンスが近似する前記構成要素を表示する表示処理部と、を備えることを特徴とする。
その他の手段については、発明を実施するための形態のなかで説明する。
【発明の効果】
【0007】
本発明によれば、文書内において、意味的な間違いが潜在的に存在する箇所を検知することができる。
【図面の簡単な説明】
【0008】
【
図1】文書校正支援装置の構成を説明する図である。
【
図7】一致センテンス別校正時間情報の一例である。
【
図14】未知センテンス別校正時間情報の一例である。
【
図15】文書解析処理手順のフローチャートである。
【
図16】一致センテンス処理手順のフローチャートである。
【
図17】未知センテンス処理手順のフローチャートである。
【発明を実施するための形態】
【0009】
以降、本発明を実施するための形態(“本実施形態”という)を、図等を参照しながら詳細に説明する。本実施形態は、業務用の文書から、文法的又は型式的な間違い、及び、意味的な間違いを抽出する例である。印刷、製本等を目的として、文書作成者が作成した原稿の誤記又は表現を修正し最終稿とする作業は、一般に“校正”と呼ばれる。本実施形態は、印刷、製本以外の目的にも使用される。その場合における“修正”も含めて、本実施形態は、“校正”の語を使用する。
【0010】
(用語等)
文書とは、文字列を含む電子ファイルであり、校正前の原稿である。
文章とは、文書が含む連続する文字列のうち、句点“。”で区切られる1単位である。本実施形態では、“文章”と“センテンス”とは同義である。
ルールとは、センテンスから文法的又は型式的な間違いを検知するための具体的な基準である。
【0011】
一致センテンスとは、ルールに一致する箇所を含むセンテンスである。一致センテンスは、文法的又は型式的な間違いを含む。
未知センテンスとは、ルールに一致する箇所を含まないセンテンスである。未知センテンスは、意味的な間違いを含む可能性がある。意味的な間違いを含むか否かが未知であることが、“未知”センテンスの命名理由である。その意味で、未知センテンスは、潜在校正箇所を含むともいえる。
一致センテンスは、意味的な間違いも含む可能性がある。本実施形態では、一致センテンスは、自身が校正され文法的又は型式的な間違いを含まなくなった時点で、未知センテンスになるものとする。
【0012】
文書種類とは、文書のカテゴリであり、例えば、“見積書”、“特許明細書”、“報告書”、“仕様書”、“議事録”、“決裁書”等である。
構成要素とは、文書が通常含む記載項目であり、文書種類ごとに定義される。例えば、見積書の構成要素は、“工程”、“作業費”、“旅費”及び“作業内容”である。
【0013】
(文書校正支援装置の構成)
図1は、文書校正支援装置1の構成を説明する図である。文書校正支援装置1は、一般的なコンピュータであり、中央制御装置11、マウス、キーボード等の入力装置12、ディスプレイ等の出力装置13、主記憶装置14及び補助記憶装置15を備える。これらは、バスで相互に接続されている。
【0014】
補助記憶装置15は、文書31、ルール情報32、一致センテンス情報33、未知センテンス情報34、ルール別校正時間情報35、一致センテンス別校正時間情報36、文書種類・構成要素情報37、距離情報38、構成要素別重要度情報39、スコア情報40、スコア・校正時間換算情報41、未知センテンス別校正時間情報42及び構成要素推定モデル43を格納している(詳細後記)。
【0015】
これらのうち、文書31、ルール情報32、ルール別校正時間情報35、文書種類・構成要素情報37、構成要素別重要度情報39、スコア・校正時間換算情報41及び構成要素推定モデル43は、ユーザが作成したものを文書校正支援装置1が補助記憶装置15内に取り込んだ結果である。残りの一致センテンス情報33、未知センテンス情報34、一致センテンス別校正時間情報36、距離情報38、スコア情報40及び未知センテンス別校正時間情報42は、文書校正支援装置1が処理途中で作成したものである。
【0016】
主記憶装置14における文書解析部21、一致センテンス処理部22、未知センテンス処理部23及び表示処理部24は、プログラムである。中央制御装置11は、これらのプログラムを補助記憶装置15から読み出し主記憶装置14にロードすることによって、それぞれのプログラムの機能(詳細後記)を実現する。補助記憶装置15は、需給調整支援装置1から独立した構成となっていてもよい(クラウド)。
【0017】
(文書)
図2は、文書31の一例である。
図2の文書31は、メーカにおける開発関係の報告書である。文書31は、センテンスSE01及びSE02を含む。センテンスSE01には、2つのルールが一致している(符号51及び52)。したがって、センテンスSE01は、一致センテンスである。センテンスSE02に一致するルールは存在しない(符号53)。したがって、センテンスSE02は、未知センテンスである。なお、符号51~53のルールは、説明目的のものであって、文書31自身にこれらが記載されているわけではない。
【0018】
(ルール情報)
図3は、ルール情報32の一例である。ルール情報32においては、ルールID(欄101)、ルール(欄102)及び重要度(欄103)が相互に関連付けて記憶されている。
ルールID(欄101)は、ルールを一意に特定する識別子である。
ルール(欄102)は、前記したルールである。
重要度は、複数のルール間における相対的なウエイトである。ユーザは、“0<重要度≦1”の範囲内で、重要度を設定する。
【0019】
(一致センテンス情報)
図4は、一致センテンス情報33の一例である。一致センテンス情報33においては、センテンスID(欄111)、一致センテンス(欄112)、ルールID(欄113)及び重要度(欄114)が相互に関連付けて記憶されている。
センテンスID(欄111)は、センテンスを一意に特定する識別子であり、ここでは、一致センテンスを特定している。
一致センテンス(欄112)は、前記した一致センテンスである。
ルールID(欄113)は、
図3のルールと同じである。
重要度(欄114)は、
図3の重要度と同じである。
図4の一致センテンス情報33は、センテンスSE01についての2本のレコードを含む。これは、
図2におけるルール51及び52に対応している。
【0020】
(未知センテンス情報)
図5は、未知センテンス情報34の一例である。未知センテンス情報34においては、センテンスID(欄121)及び未知センテンス(欄122)が相互に関連付けて記憶されている。
センテンスID(欄121)は、センテンスを一意に特定する識別子であり、ここでは、未知センテンスを特定している。
未知センテンス(欄122)は、前記した未知センテンスである。
図5の未知センテンス情報34は、センテンスSE02についての1本のレコードを含む。これは、
図2における欄53(一致するルールなし)に対応している。
【0021】
(ルール別校正時間情報)
図6は、ルール別校正時間情報35の一例である。ルール別校正時間情報35においては、ルールID(欄131)及び校正時間(欄132)が相互に関連付けて記憶されている。
ルールID(欄131)は、
図3のルールIDと同じである。
校正時間(欄132)は、そのルールに一致する間違いを校正するために必要な時間である。ユーザは、過去の事例に基づき、秒単位で校正時間を設定する。
【0022】
(一致センテンス別校正時間情報)
図7は、一致センテンス別校正時間情報36の一例である。一致センテンス別校正時間情報36においては、センテンスID(欄141)及び校正時間(欄142)が相互に関連付けて記憶されている。
センテンスID(欄141)は、
図4のセンテンスIDと同じである。
校正時間(欄142)は、
図6の校正時間と同じであるが、ここでは、
図6の校正時間を一致センテンスごとに集計したものである。例えば、センテンスSE01の校正時間“390”は、
図6におけるルールR02の“360”とルールR04の“30”との合計である。
【0023】
(文書種類・構成要素情報)
図8は、文書種類・構成要素情報37の一例である。文書種類・構成要素情報37においては、文書種類(欄151)に構成要素1(欄152)~構成要素4(欄155)が関連付けて記憶されている。
文書種類(欄151)は、前記した文書種類である。ユーザは、自身の業務に応じて、複数の文書種類を設定する。
構成要素1(欄152)~構成要素4(欄155)は、前記した構成要素である。ユーザは、文書種類ごとに任意の複数の構成要素を設定する。“KPI”は、“重要業績評価指標”を意味する。
【0024】
図9は、センテンス空間の一例である。文書校正支援装置1がセンテンス空間を使用して処理をする前提として、センテンスベクトルが定義される。
【0025】
(センテンスベクトル)
文書校正支援装置1は、文字列としての1つのセンテンスを1つのセンテンスベクトルに変換する。センテンスベクトルの次元数(要素数)は、そのセンテンスの言語の単語辞書の単語数に等しい。そして、センテンスベクトルの各要素は、例えば、その単語がそのセンテンス内に出現する回数である。いま、単語辞書が、単語a、単語b、単語c、単語d及び単語eからなり、センテンス中に、単語aが1回、単語bが0回、単語cが2回、単語dが0回、単語eが1回出現する場合、センテンスベクトルは“(1,0,2,0,1)”となる。ここで説明したセンテンスベクトルは、非常に単純な例である。文書校正支援装置1は、センテンスの意味的特徴をより正確に示すより精緻なセンテンスベクトルを任意の方法で作成し得る。
【0026】
(センテンス空間)
文書校正支援装置1は、センテンスベクトルをセンテンス空間44内の点として描画することができる。センテンス空間44の次元数は、センテンスベクトルの次元数に等しい。センテンス空間44の各軸は、特定の単語の出現回数を示している。文書校正支援装置1は、すべてのセンテンスが文法的、型式的かつ意味的に正しいことが既知である見本文書(学習データ)を文書種類ごとに複数集め、各見本文書のすべてのセンテンスをセンテンスベクトルに変換し、センテンス空間44に“●”として描画する。
【0027】
その結果、文書校正支援装置1は、文書種類ごとに、センテンス空間44を作成することになる。
図9の1つの“●”が、1つのセンテンスに対応している。文書校正支援装置1は、例えばk平均法のような技術を使用し、これらの●をクラスタに分類する。すると、クラスタ61a~61dは、多くの場合その文書種類の構成要素に1対1で対応することが経験的にわかっている。なお、センテンス空間44は、学習データとしてのセンテンスが複数のクラスタに分類されている空間である。
【0028】
文書校正支援装置1は、ある1つの未知センテンスをセンテンスベクトルに変換し、センテンス空間44に“○”として描画する。すると、ある〇がクラスタ61a~61dのいずれかに分類されるのに対し、他のある○は、いずれのクラスタ61a~61dにも分類されない、ということが起こる。○62aのセンテンスは、クラスタ61aに分類され、文書種類“見積書”の構成要素“工程”について記載したものである。○62bのセンテンスは、どのクラスタ61a~61dにも分類されていない。当該センテンスは、見積書のどの構成要素について記載したものともいえず、意味的な間違い(例えば、見積書の内容に相応しくない宣伝文言)を含む可能性が高い。因みに、ある文書種類のすべての構成要素のクラスタ内に、少なくとも1つの○が分類されている場合、その文書は、必要な記載項目をすべてカバーしているといえる。○が分類されないクラスタが1つでも存在する場合、その文書は、その構成要素(記載項目)を欠いているといえる。
【0029】
(構成要素推定モデル)
構成要素推定モデル43は、ある文書種類の文書を構成するセンテンスベクトルが入力されると、センテンス空間44における当該センテンスベクトル(○)と当該文書種類の各構成要素(各クラスタの中心)との間の距離を出力する関数である。構成要素推定モデル43は、文書種類ごとに存在する。構成要素推定モデル43は、未知センテンスをセンテンスベクトルに変換する処理を併せて行ってもよい。文書校正支援装置1は、任意のタイミングにおいて、最新の学習データを用いて、センテンス空間44におけるクラスタ61a~61dの位置及び大きさを更新して補助記憶装置15に記憶してもよい。
【0030】
(距離情報)
図10は、距離情報38の一例である。距離情報38においては、センテンスID(欄161)、未知センテンス(欄162)、工程距離(欄163)、作業費距離(欄164)、旅費距離(欄165)及び作業内容距離(欄166)が相互に関連付けて記憶されている。
センテンスID(欄161)は、
図5のセンテンスIDと同じである。
未知センテンス(欄162)は、
図5の未知センテンスと同じである。
【0031】
工程距離(欄163)は、センテンス空間44(
図9)における未知センテンス(“○”で示される)とクラスタ61aの中心との間の距離である。当該距離は、ユークリッド距離、マハラノビス距離又はその他の距離であり得る。この距離が所定の閾値(例えばクラスタ61aの半径)より大きい場合、未知センテンスは、少なくとも構成要素“工程”について記載されていない可能性が高い(以下同様)。
作業費距離(欄164)は、センテンス空間44における未知センテンスとクラスタ61bの中心との間の距離である。
旅費距離(欄165)は、センテンス空間44における未知センテンスとクラスタ61cの中心との間の距離である。
作業内容距離(欄166)は、センテンス空間44における未知センテンスとクラスタ61dの中心との間の距離である。
【0032】
図10の距離情報38は、文書種類“見積書”についての距離情報38である。
図10が、例えば文書種類“特許明細書”についての距離情報38である場合、工程距離、作業距離、旅費距離及び作業内容距離は、それぞれ、課題距離、解決方法距離、請求項距離及び先行技術距離に変わる。
【0033】
(構成要素別重要度情報)
図11は、構成要素別重要度情報39の一例である。構成要素別重要度情報39においては、構成要素(欄171)及び重要度(欄172)が相互に関連付けて記憶されている。
構成要素(欄171)は、前記した構成要素である。
重要度(欄172)は、複数の構成要素間における相対的なウエイトである。ユーザは、“0<重要度≦1”の範囲内で、重要度を設定する。文書校正支援装置1は、見本文書の各構成要素におけるセンテンス中の文字数又はキーワード数に基づき重要度を自動的に設定してもよい。
構成要素別重要度情報39は、文書種類ごとに存在する。
【0034】
(スコア情報)
図12は、スコア情報40の一例である。スコア情報40においては、センテンスID(欄181)、未知センテンス(欄182)、工程スコア(欄183)、作業費スコア(欄184)、旅費スコア(欄185)及び作業内容スコア(欄186)が相互に関連付けて記憶されている。
センテンスID(欄181)は、
図5のセンテンスIDと同じである。
未知センテンス(欄182)は、
図5の未知センテンスと同じである。
【0035】
工程スコア(欄183)は、
図10の工程距離に対して、
図11の重要度のうち工程に対応するものを乗算した値である。
作業費スコア(欄184)は、
図10の作業費距離に対して、
図11の重要度のうち作業費対応するものを乗算した値である。
旅費スコア(欄185)は、
図10の旅費距離に対して、
図11の重要度のうち旅費に対応するものを乗算した値である。
作業内容スコア(欄186)は、
図10の作業内容距離に対して、
図11の重要度のうち作業内容に対応するものを乗算した値である。
スコア情報40もまた、文書種類ごとに存在する。前記では、スコアは距離に対し重要度を乗算したものとしたが、これはあくまでも一例である。スコアは、加算、指数計算等を使用して算出されてもよい。要するに、距離が大きいほど、かつ、重要度が大きいほど、スコアも大きくなればよい。
【0036】
(スコア・校正時間換算情報)
図13は、スコア・校正時間換算情報41の一例である。スコア・校正時間換算情報41においては、スコア(欄191)及び校正時間(欄192)が相互に関連付けて記憶されている。
スコア(欄191)は、例えば前記した“工程スコア”であり、より一般的には、センテンスベクトルと構成要素のクラスタの中心との間の距離に対して、その構成要素についての重要度を演算(乗算等)した値である。
校正時間(欄192)は、未知センテンスのうち、そのスコアに対応する間違いの箇所を校正するために必要な時間である。ユーザは、過去の事例に基づき、秒単位で校正時間を設定する。文書校正支援装置1は、ユーザが実際に校正に有した時間に基づき校正時間を更新してもよい。
【0037】
(未知センテンス別校正時間情報)
図14は、未知センテンス別校正時間情報42の一例である。未知センテンス別校正時間情報42においては、センテンスID(欄201)、未知センテンス(欄202)、工程スコア(欄203a)、工程校正時間(欄203b)、作業費スコア(欄204a)、作業費校正時間(欄204b)、旅費スコア(欄205a)、旅費校正時間(欄205b)、作業内容スコア(欄206a)及び作業内容校正時間(欄206b)が相互に関連付けて記憶されている。
【0038】
センテンスID(欄201)は、
図5のセンテンスIDと同じである。
未知センテンス(欄202)は、
図5の未知センテンスと同じである。
工程スコア(欄203a)は、
図12の工程スコアと同じである。
工程校正時間(欄203b)は、スコア・校正時間換算情報41(
図13)が工程スコアを換算した結果の校正時間である。
作業費スコア(欄204a)は、
図12の作業費スコアと同じである。
作業費校正時間(欄204b)は、スコア・校正時間換算情報41が作業費スコアを換算した結果の校正時間である。
【0039】
旅費スコア(欄205a)は、
図12の旅費スコアと同じである。
旅費校正時間(欄205b)は、スコア・校正時間換算情報41が旅費スコアを換算した結果の校正時間である。
作業内容スコア(欄206a)は、
図12の作業内容スコアと同じである。
作業内容校正時間(欄206b)は、スコア・校正時間換算情報41が作業内容スコアを換算した結果の校正時間である。
【0040】
未知センテンス別校正時間情報42がスコアだけでなく校正時間を記憶することによって、ユーザは、ある未知センテンスをどの構成要素に校正する場合どの程度の時間を要するかがわかるようになる。
【0041】
(処理手順)
以降で本実施形態の処理手順を説明する。処理手順は3つ存在し、それらは、文書解析処理手順、一致センテンス処理手順及び未知センテンス処理手順である。
【0042】
(文書解析処理手順)
図15は、文書解析処理手順のフローチャートである。
ステップS301において、文書校正支援装置1の文書解析部21は、文書を取得する。具体的には、文書解析部21は、文書31を、入力装置12を介して外部から又は補助記憶装置15から取得する。
【0043】
ステップS302において、文書解析部21は、文字列を取得する。具体的には、文書解析部21は、文書31の中から、文字列を取得する。
ステップS303において、文書解析部21は、文字列をセンテンスに分割する。具体的には、文書解析部21は、句点“。”を区切りとして、文字列を複数のセンテンスに分割する。このとき、文書解析部21は、形態素解析(品詞分解)及び単語間の係り受け解析を行ってもよい。
【0044】
ステップS304において、文書解析部21は、センテンスとルールとを突合する。具体的には、第1に、文書解析部21は、未処理のセンテンスのうち任意の1つを取得する。
第2に、文書解析部21は、センテンスとルール情報32(
図3)の各ルールとを突合し、そのセンテンスに一致するすべてのルールを特定する。
第3に、文書解析部21は、ステップS304の“第2”において特定したルールの数をカウントする。カウント結果は、“0”、“1”、“2”、“3”、・・・である。
【0045】
ステップS305において、文書解析部21は、センテンスがルールに一致するか否かを判断する。具体的には、文書解析部21は、ステップS304の“第3”におけるカウント結果が“0”である場合(ステップS305“NO”)、ステップS307に進み、それ以外の場合(ステップS305“YES”)、ステップS306に進む。
【0046】
ステップS306において、文書解析部21は、一致センテンス情報33(
図4)に登録する。具体的には、文書解析部21は、一致センテンス情報33において、処理対象のセンテンスについてのレコードを作成する。
【0047】
ステップS307において、文書解析部21は、未知センテンス情報34(
図5)に登録する。具体的には、文書解析部21は、未知センテンス情報34において、処理対象のセンテンスについてのレコードを作成する。文書解析部21は、ステップS305において、文書31に含まれるセンテンスが所定のルールに一致しない場合、ステップS307において、そのセンテンスが意味的な間違いを含み得る未知センテンスであると判断することになる。
【0048】
文書解析部21は、ステップS304以降の処理を、未処理のセンテンスごとに繰り返し、最後のセンテンスについてのステップS306又はS307の後に文書解析処理手順を終了する。文書解析処理手順が終了した時点で、ステップS301において取得した文書31に含まれるすべてのセンテンスは、一致センテンス情報33(
図4)又は未知センテンス情報34(
図5)に仕分けられたうえで記憶されている。
【0049】
(一致センテンス処理手順)
図16は、一致センテンス処理手順のフローチャートである。
ステップS321において、文書校正支援装置1の一致センテンス処理部22は、一致センテンスを取得する。具体的には、一致センテンス処理部22は、一致センテンス情報33(
図4)から未処理の任意の一致センテンスを取得する。
【0050】
ステップS322において、一致センテンス処理部22は、ルールに基づき校正時間を取得する。具体的には、一致センテンス処理部22は、ステップS321において取得したセンテンスに一致するすべてのルールの校正時間をルール別校正時間情報35(
図6)から取得する。
【0051】
ステップS323において、一致センテンス処理部22は、センテンスごとに校正時間を合計する。具体的には、一致センテンス処理部22は、ステップS322において取得した校正時間を合計する。
【0052】
ステップS324において、一致センテンス処理部22は、一致センテンス別校正時間情報36(
図7)に登録する。具体的には、一致センテンス処理部22は、一致センテンス別校正時間情報36において、処理対象のセンテンスについてのレコードを作成する。
一致センテンス処理部22は、ステップS321~S324の処理を、未処理の一致センテンスごとに繰り返す。未処理の一致センテンスがなくなった段階で、一致センテンス処理手順を終了する。
【0053】
(未知センテンス処理手順)
図17は、未知センテンス処理手順のフローチャートである。
ステップS341において、文書校正支援装置1の未知センテンス処理部23は、未知センテンスを取得する。具体的には、未知センテンス処理部23は、未知センテンス情報34(
図5)から未処理の任意の未知センテンスを取得する。
【0054】
ステップS342において、未知センテンス処理部23は、文書種類を受け付ける。具体的には、第1に、未知センテンス処理部23は、ステップS301において取得した文書31を出力装置13に表示する。
第2に、未知センテンス処理部23は、ユーザが入力装置12を介して文書種類を入力するのを受け付ける。ユーザは、文書31を視認して、入力するべき文書種類を決定する。説明の都合上、ここでは“見積書”が入力されたとする。未知センテンス処理部23は、ユーザによる入力を待つまでもなく、例えば文書31のタイトル等に基づき、自動的に文書種類を決定してもよい。
【0055】
ステップS343において、未知センテンス処理部23は、センテンスベクトルを作成する。具体的には、未知センテンス処理部23は、ステップS341において取得したセンテンスを前記した方法でセンテンスベクトルに変換する。
【0056】
ステップS344において、未知センテンス処理部23は、センテンス空間44を作成する。具体的には、第1に、未知センテンス処理部23は、
図9のセンテンス空間44を作成し、見積書の見本文書を学習データ(●)として、複数のクラスタを作成する。作成された個々のクラスタは、文書種類・構成要素情報37(
図8)の構成要素1~構成要素4に対応している。ここでのクラスタは、そのクラスタに分類されるすべての●を包絡する最小の球であってもよいし、すべての●の重心を中心とし、重心から最も遠い●までの距離を半径とする球であってもよい。未知センテンス処理部23は、任意のタイミングにおいて当該処理を予め完了させておいてもよい。
第2に、未知センテンス処理部23は、ステップS343において作成したセンテンスベクトル(○)を、センテンス空間44に描画する。
【0057】
ステップS345において、未知センテンス処理部23は、未知センテンスが構成要素を含むか否かを判断する。具体的には、第1に、未知センテンス処理部23は、ステップS344の“第2”において描画した○が、いずれかのクラスタの内部に存在するか否かを調べる。
第2に、未知センテンス処理部23は、○がいずれかのクラスタの内部に存在する場合(ステップS345“YES”)、ステップS346に進み、それ以外の場合(ステップS345“NO”)、ステップS347に進む。
【0058】
ステップS346において、未知センテンス処理部23は、スコア及び校正時間を“0”とする。具体的には、未知センテンス処理部23は、ステップS341において取得した未知センテンスのスコア及び校正時間は“0”であるとする。ここで未知センテンス処理部23は、その未知センテンスが見積書に通常含まれるいずれかの構成要素を記載している結果、その未知センテンスは校正を要しないと判断している。
【0059】
ステップS347において、未知センテンス処理部23は、距離を算出する。具体的には、第1に、未知センテンス処理部23は、見積書についての構成要素推定モデル43に対し、ステップS343において作成したセンテンスベクトルを入力する。すると、構成要素推定モデル43は、センテンス空間44における、当該未知センテンス(○)と各クラスタの中心との距離を出力する。未知センテンス処理部23は、この距離を受け取る。
第2に、未知センテンス処理部23は、ステップS347の“第1”において受け取った距離に基づき、距離情報38(
図10)のレコードを作成する。ステップS347において、未知センテンス処理部23は、文書31の種類に応じて定義される複数の構成要素のうちのいずれに未知センテンスが近似するかを推定することになる。
【0060】
ステップS348において、未知センテンス処理部23は、スコアを算出する。具体的には、第1に、未知センテンス処理部23は、ステップS347の“第2”において作成したレコードの工程距離に対し、
図11の重要度のうち工程に対応するものを乗算し、工程スコアを算出する。未知センテンス処理部23は、同様にして、作業費スコア、旅費スコア及び作業内容スコアも算出する。
第2に、未知センテンス処理部23は、ステップS348の“第1”において算出したスコアに基づき、スコア情報40(
図12)のレコードを作成する。
【0061】
ステップS349において、未知センテンス処理部23は、校正時間を算出する。具体的には、未知センテンス処理部23は、ステップS348の“第2”において作成したレコードの工程スコアに対し、
図13のスコア・校正時間換算情報41を適用し、工程校正時間を算出する。未知センテンス処理部23は、同様にして、作業費校正時間、旅費校正時間及び作業内容校正時間も算出する。
【0062】
ステップS350において、未知センテンス処理部23は、未知センテンス別校正時間情報42(
図14)に登録する。具体的には、未知センテンス処理部23は、ステップS346、S348及びS349において算出したスコア及び校正時間に基づき、未知センテンス別校正時間情報42(
図14)のレコードを作成する。
【0063】
ステップS351において、文書校正支援装置1の表示処理部24は、校正時間を表示する。具体的には、表示処理部24は、ステップS324において作成したレコード及びステップS350において作成したレコードを使用して出力装置13に校正時間表示画面71(
図18)を表示する。その後、未知センテンス処理手順を終了する。
【0064】
図18は、校正時間表示画面71の一例である。一致センテンス欄72には、文書31の一致センテンスについての校正時間及び重要度が表示されている。ここでの校正時間及び重要度は、原則、一致センテンスに一致するルールごとに表示される。未知センテンス欄73には、文書31の未知センテンスについてのスコア及び校正時間が表示されている。ここでのスコア及び校正時間は、原則、未知センテンスごとかつ構成要素ごとに表示される。いま、ユーザが一致センテンス欄72及び未知センテンス欄73のあるレコードの選択欄にチェックマークを入力したとする。すると、表示処理部24は、文書欄74に文書31を表示したうえで、選択されたセンテンスを強調表示(例えば下線付与)する。ここでの文書31は、
図2の文書31とは異なる。
【0065】
文書欄74において、センテンスSE03は、未知センテンスである。表示処理部24は、センテンスSE03に吹き出し75を付している。吹き出し75には“最近似構成要素:工程”が記載されている。このことは、センテンスSE03と各構成要素との距離のうち、“工程距離”が最も短いことを示している。
【0066】
この場合、例えば以下のことが想定される。
・文書作成者は、工程についてセンテンスSE03を記載しようとしたにもかかわらず、僅かに注意力が不足した結果、センテンスSE03が意味的な間違いを含んでしまった可能性が高い。
・文書作成者は、いずれの構成要素とも関係のない事象についてセンテンスSE03を記載していた可能性も高い。このセンテンスをいずれかの構成要素についての記載に校正することは可能である。その場合、未知センテンスSE03が工程に最も近似していることを考慮すれば、工程の重要度が極端に大きくない限り、未知センテンスSE03を工程についてのセンテンスに校正する校正時間が最も短い。
【0067】
表示処理部24は、センテンスSE21に吹き出し76を付している。吹き出し76には、センテンスSE21に一致する2つのルールが記載されている。表示処理部24は、ユーザ(文書作成者又は校正担当者)が文書31の校正に使用できる時間を、ユーザから受け付け、又は、ユーザのスケジュール情報等から取得し、対応可能時間77として表示する。表示処理部24は、文書31が含むすべてのセンテンス又はそのうち入力されたチェックマークに対応するセンテンスの校正に要する時間(前記した校正時間の和)を予測校正時間78として表示する。表示処理部24は、文書欄74においてユーザがセンテンスを校正した結果を補助記憶装置15に記憶してもよい。
【0068】
表示処理部24は、ステップS345において校正を要しないと判断された未知センテンスを校正時間表示画面71の任意の箇所に表示してもよい。
【0069】
(本実施形態の効果)
本実施形態の文書校正支援装置の効果は以下の通りである。
(1)文書校正支援装置は、意味的な間違いを含み得る未知センテンス及びその未知センテンスが近似する文書の構成要素を表示することができる。
(2)文書校正支援装置は、センテンス空間内の距離として、未知センテンスと文書の各構成要素との近似を数値化することができる。
(3)文書校正支援装置は、未知センテンスをセンテンスベクトルに変換することによって、未知センテンスの構成要素を正確に推定することができる。
【0070】
(4)文書校正支援装置は、学習データを更新することによってクラスタの位置及び大きさを更新することができる。
(5)文書校正支援装置は、校正する必要がない未知センテンスを正確に特定することができる。
(6)文書校正支援装置は、構成要素ごとの重要度を距離に反映させることができる。
(7)文書校正支援装置は、未知センテンスの校正に必要な時間を表示することができる。
【0071】
なお、本発明は前記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、前記した実施例は、本発明を分かり易く説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
【符号の説明】
【0072】
1 文書校正支援装置
11 中央制御装置
12 入力装置
13 出力装置
14 主記憶装置
15 補助記憶装置
21 文書解析部
22 一致センテンス処理部
23 未知センテンス処理部
24 表示処理部
31 文書
32 ルール情報
33 一致センテンス情報
34 未知センテンス情報
35 ルール別校正時間情報
36 一致センテンス別校正時間情報
37 文書種類・構成要素情報
38 距離情報
39 構成要素別重要度情報
40 スコア情報
41 スコア・校正時間換算情報
42 未知センテンス別校正時間情報
43 構成要素推定モデル
44 センテンス空間
71 校正時間表示画面