IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 三菱電機株式会社の特許一覧

<>
  • 特許-文評価装置、文評価方法及びプログラム 図1
  • 特許-文評価装置、文評価方法及びプログラム 図2
  • 特許-文評価装置、文評価方法及びプログラム 図3
  • 特許-文評価装置、文評価方法及びプログラム 図4
  • 特許-文評価装置、文評価方法及びプログラム 図5
  • 特許-文評価装置、文評価方法及びプログラム 図6
  • 特許-文評価装置、文評価方法及びプログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-05
(45)【発行日】2024-09-13
(54)【発明の名称】文評価装置、文評価方法及びプログラム
(51)【国際特許分類】
   G06F 40/253 20200101AFI20240906BHJP
【FI】
G06F40/253
【請求項の数】 9
(21)【出願番号】P 2023512596
(86)(22)【出願日】2021-04-08
(86)【国際出願番号】 JP2021014856
(87)【国際公開番号】W WO2022215219
(87)【国際公開日】2022-10-13
【審査請求日】2023-03-29
(73)【特許権者】
【識別番号】000006013
【氏名又は名称】三菱電機株式会社
(74)【代理人】
【識別番号】100095407
【弁理士】
【氏名又は名称】木村 満
(74)【代理人】
【識別番号】100131152
【弁理士】
【氏名又は名称】八島 耕司
(74)【代理人】
【識別番号】100147924
【弁理士】
【氏名又は名称】美恵 英樹
(74)【代理人】
【識別番号】100148149
【弁理士】
【氏名又は名称】渡邉 幸男
(74)【代理人】
【識別番号】100181618
【弁理士】
【氏名又は名称】宮脇 良平
(74)【代理人】
【識別番号】100174388
【弁理士】
【氏名又は名称】龍竹 史朗
(72)【発明者】
【氏名】坂川 舞
(72)【発明者】
【氏名】井本 喜隆
(72)【発明者】
【氏名】石原 新士
【審査官】成瀬 博之
(56)【参考文献】
【文献】特開2013-218611(JP,A)
【文献】特開平01-220063(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-40/58
(57)【特許請求の範囲】
【請求項1】
文の重複の程度に応じて点数を付与する基準を重複基準として設定する判断基準設定部と、
文書データを文書記憶部から取得するデータ取得部と、
前記データ取得部が取得した前記文書データを解析し、前記文書データに含まれる文に前記重複基準に基づいて点数を重複度として付与し、前記重複度が付与された文を重複文として抽出する解析部と、
前記解析部が抽出した前記重複文と、前記重複文に付与された前記重複度と、を提示する推敲処理部と、を備え、
前記解析部は、前記データ取得部が取得した前記文書データに対して形態素解析を行って、複文及び重文を単文に分解し、比較元の前記単文と比較先の前記単文とを比較して文の構造毎に構造重複点を前記重複基準に基づいて算出し、文の構造毎の前記構造重複点を掛け合わせて比較元の前記単文と比較先の前記単文との前記重複度を算出する、
文評価装置。
【請求項2】
前記推敲処理部は、前記重複度の閾値を示す重複閾値の入力を受け付け、前記重複度のうち前記重複閾値を超える前記重複度と、前記重複文のうち前記重複閾値を超える前記重複度が付与された前記重複文と、を提示する、
請求項1に記載の文評価装置。
【請求項3】
前記判断基準設定部は、文の冗長さの程度に応じて点数を付与する基準を冗長基準として設定し、
前記解析部は、前記文書データに含まれる文に前記冗長基準に基づいて点数を冗長度として付与し、前記冗長度が付与された文を冗長文として抽出し、
前記推敲処理部は、前記解析部が抽出した前記冗長文と、前記冗長文に付与された前記冗長度と、を提示する、
請求項1又は2に記載の文評価装置。
【請求項4】
前記冗長基準は、冗長な表現と前記冗長な表現に対応する点数と、を含み、
前記解析部は、前記文書データに含まれる文から前記冗長基準に含まれる前記冗長な表現に一致する文に、前記冗長基準に含まれる前記冗長な表現に対応する点数を前記冗長度として付与する、
請求項3に記載の文評価装置。
【請求項5】
前記推敲処理部は、前記冗長度の閾値を示す冗長閾値の入力を受け付け、前記冗長度のうち前記冗長閾値を超える前記冗長度と、前記冗長文のうち前記冗長閾値を超える前記冗長度が付与された前記冗長文と、を提示する、
請求項3又は4に記載の文評価装置。
【請求項6】
前記解析部が抽出した前記重複文と、前記重複文に付与された前記重複度と、前記解析部が抽出した前記冗長文と、前記冗長文に付与された前記冗長度と、を解析情報記憶部に記憶させる解析情報保存部を備える、
請求項3から5のいずれか1項に記載の文評価装置。
【請求項7】
前記推敲処理部は、前記文書データを修正する入力を受け付け、前記文書データを修正して前記文書記憶部に記憶させる、
請求項1から6のいずれか1項に記載の文評価装置。
【請求項8】
文評価装置が、
文の重複の程度に応じて点数を付与する基準を重複基準として設定し、
文書データを取得し、
取得した前記文書データに対して形態素解析を行って、複文及び重文を単文に分解し、比較元の前記単文と比較先の前記単文とを比較して文の構造毎に構造重複点を前記重複基準に基づいて算出し、文の構造毎の前記構造重複点を掛け合わせて比較元の前記単文と比較先の前記単文との重複度を算出し、前記文書データに含まれる文に前記重複度を付与し、前記重複度が付与された文を重複文として抽出し、
抽出した前記重複文と、前記重複文に付与された前記重複度と、を提示する、
文評価方法。
【請求項9】
コンピュータに、
文の重複の程度に応じて点数を付与する基準を重複基準として設定させ、
文書データを取得させ、
取得した前記文書データに対して形態素解析を行わせて、複文及び重文を単文に分解させ、比較元の前記単文と比較先の前記単文とを比較させて文の構造毎に構造重複点を前記重複基準に基づいて算出させ、文の構造毎の前記構造重複点を掛け合わせて比較元の前記単文と比較先の前記単文との重複度を算出させ、前記文書データに含まれる文に前記重複度を付与させ、前記重複度が付与された文を重複文として抽出させ、
抽出した前記重複文と、前記重複文に付与された前記重複度と、を提示させる、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、文評価装置、文評価方法及びプログラムに関する。
【背景技術】
【0002】
特許文献1には、記憶部に文書の可読性を評価する基準値及び可読性を向上させる編集処理を記憶しておき、編集処理部は文字数カウント手段により文書中の漢字、平仮名等の文字数を計数し、評価基準値に照らして文書の可読性を評価し、抽出手段により可読性が低い部分を抽出する一方対応する編集処理を選択し、可読性向上手段によって抽出した文書の可読性を向上させ、文書作成手段によって抽出部分とその前後の部分とを調整する文書編集装置が記載されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開平5-274306号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に記載の文書編集装置によれば、文書中の可読性が低い部分を抽出し、抽出部分及びその前後の部分を調整することができる。一方、可読性が高くとも、その文が重複している場合又は文が冗長である場合は、文を修正しなければならない場合がある。従来の技術では、一文一文に対し可読性を判断することはできるが、文書ファイル内の重複した文又は冗長な表現を抽出することができないという課題があった。
【0005】
本開示はかかる課題に鑑みてなされたものであって、文に点数を付与することで重複する文又は冗長な文を抽出して推敲を容易にすることが可能な文評価装置、文評価方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するため、本開示に係る文評価装置は、判断基準設定部と、データ取得部と、解析部と、推敲処理部と、を備える。判断基準設定部は、文の重複の程度に応じて点数を付与する基準を重複基準として設定する。データ取得部は、文書データを文書記憶部から取得する。解析部は、データ取得部が取得した文書データを解析し、文書データに含まれる文に重複基準に基づいて点数を重複度として付与し、重複度が付与された文を重複文として抽出する。推敲処理部は、解析部が抽出した重複文と、重複文に付与された重複度と、を提示する。解析部は、データ取得部が取得した文書データに対して形態素解析を行って、複文及び重文を単文に分解し、比較元の単文と比較先の単文とを比較して文の構造毎に構造重複点を重複基準に基づいて算出し、文の構造毎の構造重複点を掛け合わせて比較元の単文と比較先の単文との重複度を算出する。
【発明の効果】
【0007】
本開示によれば、文に点数を付与することで重複する文又は冗長な文を抽出して推敲を容易にすることが可能な文評価装置、文評価方法及びプログラムを提供できる。
【図面の簡単な説明】
【0008】
図1】実施の形態に係る文評価装置の構成を示すブロック図
図2】実施の形態の判断基準設定部が出力した重複点数表を示す図
図3】実施の形態の判断基準設定部が出力した冗長点数表を示す図
図4】実施の形態の解析部が出力した文構造解析結果を示す図
図5】実施の形態の解析部が出力した重複度表を示す図
図6】実施の形態に係る文評価装置のハードウェア構成を示すブロック図
図7】実施の形態の文評価装置が実行する文評価処理を示すフローチャート
【発明を実施するための形態】
【0009】
本開示の実施の形態に係る文評価装置1について、図1図7を参照して説明する。図中同一又は相当する部分には同一符号を付す。実施の形態に係る文評価装置1は、文に含まれる重複表現又は冗長表現を抽出してユーザが文を推敲する作業を支援する装置である。
【0010】
図1は、実施の形態に係る文評価装置1の構成を示すブロック図である。図1に示すように、文評価装置1は、文の重複及び冗長な表現を抽出する判断基準を設定する判断基準設定部110と、文書ファイルから文書データを取得するデータ取得部120と、文書データに含まれる文から修正対象候補となる重複した文又は冗長な表現を点数化して抽出する解析部130と、解析部130が出力した解析情報を保存する解析情報保存部140と、ユーザに対し文の修正に必要な情報を提供し、ユーザが修正した文を保存する推敲処理部150と、複数の文書ファイルを記憶する文書記憶部160と、重複の程度及び冗長さの程度を点数化する基準を記憶する基準記憶部170と、重複度及び冗長度を含む解析情報を記憶する解析情報記憶部180と、ユーザに情報を提示しユーザからの入力を受け付けるインタフェース部190と、を備える。
【0011】
判断基準設定部110は、文の重複及び冗長な表現を抽出する判断基準を設定する。判断基準設定部110は、文の重複を抽出する判断基準として、比較元と比較先の重複度を点数化する基準である重複基準を、重複点数表310として出力して基準記憶部170に記憶させる。判断基準設定部110は、冗長な表現を抽出する判断基準として、冗長な表現を点数化する基準である冗長基準を、冗長点数表320として出力して基準記憶部170に記憶させる。
【0012】
図2は、判断基準設定部110が出力した重複点数表310を示す図である。図2に示すように、重複点数表310は、重複の判定結果と、判定結果毎の点数とを含む。図2の例では、重複点数表310は、比較元と比較先とが同一又は同義と判定した場合に1.0、類似と判定した場合に0.9、片方のみ存在すると判定した場合に0.5、異なると判定した場合に0.0の点数を付与することを示す。
【0013】
図3は、判断基準設定部110が出力した冗長点数表320を示す図である。図3に示すように、冗長点数表320は、冗長な表現と、冗長な表現に対応する端的な表現と、冗長な表現毎の点数である冗長度と、を含む。
【0014】
図3において、端的な表現の「¥1」は、冗長な表現の部分の「¥(」と「¥)」とで囲まれる文字列を示す。冗長な表現の部分の「[^…]」は、…で示された以外の文字列とマッチングすることを示す。冗長な表現の部分の「+」は、+の前に指定した文字を1文字以上繰り返し、かつ、繰り返し条件が成立する文字列を示す。冗長な表現の部分の「[^、。]」は、句読点以外の文字を示す。
【0015】
図3の1行目の例では、冗長点数表320は、冗長な表現として「できるようにしたい」を、対応する端的な表現として「する」を、冗長度として「0.8」を、含んでいる。
【0016】
5行目の例では、冗長点数表320は、冗長な表現として「約¥([^、。]+¥)程度」を、対応する端的な表現として「約¥1」を、冗長度として「1.0」を、含んでいる。例えば、「Aは約70cm程度。」という文は、この例の冗長な表現に該当する。一方、「Aは約70cm、Bは90cm程度。」という文は、「約」と「程度」との間に句読点が挟まれているので、この例の冗長な表現に該当しない。
【0017】
図1に戻り、判断基準設定部110は、文の重複及び冗長表現を抽出する判断基準を変更するかどうかの問合せをユーザに対して行い、ユーザが判断基準を変更する入力を行った場合、基準記憶部170に記憶させた重複点数表310及び冗長点数表320をユーザの入力に応じて変更する。
【0018】
判断基準設定部110が重複基準及び冗長基準を設定する方法としては、外部の記録媒体から重複基準及び冗長基準を取得する、ユーザの入力から重複基準及び冗長基準を取得する、機械学習によって重複基準及び冗長基準を生成する、という方法があるが、これに限られるものではない。
【0019】
データ取得部120は、文書記憶部160が記憶する複数の文書ファイルから、文評価処理を行う文書ファイルをユーザの入力に応じて選択する。データ取得部120は、選択した文書ファイルの文書データを、処理対象データとして取得する。
【0020】
解析部130は、データ取得部120が取得した処理対象データから文を抽出し、修正対象候補となる重複した文又は冗長な表現を点数化して抽出する。
【0021】
解析部130が重複した文を抽出して点数化する処理について説明する。解析部130は、データ取得部120が取得した処理対象データから文を抽出し、抽出した文に対して形態素解析を行って、複文及び重文を単文に分解する。解析部130は、文を分解して得た単文を、文法に照らし合わせ主語、述語、修飾語を含む文の構造ごとに切り出し、切り出した結果を文構造解析結果330として出力する。
【0022】
図4は、解析部130が出力した文構造解析結果330を示す図である。図4に示すように、解析部130は、文構造解析結果330として、文番号、文、単文番号、文書内位置、及び文の構造を出力する。
【0023】
文は、処理対象データに含まれる文である。文番号は、処理対象データに含まれる文それぞれに付けられた番号であり、文1,文2,…,文n,…(n:自然数)が出力されている。
【0024】
単文は、処理対象データに含まれる文を分解して得られた単文である。単文番号は、単文それぞれに付けられた番号であり、単文1,単文2,単文3,…,単文m,…(m:自然数)が出力されている。図4の例では、文2「Aさんは公園に行き、Bさんは釣りに行きました。」が分解され、単文2「Aさんは公園に行きました。」及び単文3「Bさんは釣りに行きました。」が得られている。
【0025】
文書内位置は、単文それぞれの、処理対象データにおける開始位置を示す値であり、単文の処理対象データにおける開始行数を示す“Line”と、開始文字数を示す“Colum”とを含む。図4の例では、単文2の文書内位置は「Line.2, Colum.4」であり、これは単文2が処理対象データの2行目4文字目から始まっていることを示している。
【0026】
文構造は、単文を文法に照らし合わせ主語、述語、修飾語を含む文の構造ごとに切り出した結果を示す。図4の例では、「Aさん」が主語、「行きました」が述語、「公園」が修飾語として切り出されている。
【0027】
解析部130は、処理対象データに含まれる文を全て解析し、処理対象データに含まれる全ての単文を文構造解析結果330として出力すると、全ての単文の組合せに対し、単文中の文の構造毎に比較を行い、基準記憶部170に記憶される重複点数表310に基づいて構造重複点を算出する。構造重複点は、比較元単文と比較先単文とが、主語、述語、装飾後を含む文の構造について、重複している程度を示す値である。
【0028】
解析部130は、全ての単文の組合せに対し、比較元単文と比較先単文の文の構造毎の構造重複点をかけ合わせて得られた値を、比較元単文と比較先単文の重複度として算出する。構造重複度は、比較元単文と比較先単文とが重複している程度を示す値である。重複度は、比較元の単文と比較先の単文の内容が一致しているほど1.0に近い値となり、比較元の単文と比較先の単文の内容が異なるほど0.0に近い値となる。
【0029】
図5は、解析部130が出力した重複度表340を示す図である。図5に示すように、解析部130は、比較元の単文の単文番号、比較先の単文の単文番号、構造毎の構造重複点、及び重複度を含む重複度表340を出力する。図5の例では、比較元は単文1であり、比較先は処理対象データに含まれる文を分解して得られる単文のうち、単文1以外の全ての単文である。
【0030】
単文1と単文2とを比較する場合を例として説明する。図4に示す単文1「私は学校に行きました。」と単文2「Aさんは公園に行きました。」とを比較すると、単文1の主語は「私」であり単文2の主語は「Aさん」であるから、図2に示す点数表の「異なる」に該当し、図5に示すように主語の構造点は0.0である。同様に、単文1及び単文2の述語は共に「行きました」であるから、点数表の「同一・同義」に該当し、述語の構造点は1.0である。同様に、単文1の修飾語は「学校」であり単文2の修飾語は「公園」であるから、点数表の「異なる」に該当し、修飾語の構造点は0.0である。
【0031】
解析部130は、比較元単文1と比較先の単文2と構造点をかけ合わせて得られた値を、比較元の単文1と比較先の単文2の重複度として算出する。図5に示すように、単文1と単文2との重複度は0.0×1.0×0.0=0.0である。
【0032】
解析部130は、0.0より大きい重複度を付与された比較元単文と比較先単文との組み合わせを、重複文として抽出し、抽出した重複文と、重複文に付与された重複度と、を出力する。
【0033】
解析部130が冗長な表現を抽出して点数化する処理について説明する。解析部130は、データ取得部120が取得した処理対象データから文を抽出する。解析部130は、基準記憶部170に記憶される冗長点数表320に含まれる冗長な表現に一致する表現を、処理対象データから抽出した文から冗長文として抽出する。
【0034】
解析部130は、文から抽出した冗長文に対応する端的な表現と、冗長度と、を冗長点数表320から取得し、文から抽出した冗長文と、冗長点数表320から取得した端的な表現と、冗長点数表320から取得した冗長度と、を出力する。
【0035】
解析情報保存部140は、解析部130が出力した比較元単文と比較先単文との重複度を、重複度解析結果として解析情報記憶部180に記憶させる。解析情報保存部140は、解析部130が出力した冗長な表現、端的な表現及び冗長度を、冗長度解析結果として解析情報記憶部180に記憶させる。
【0036】
推敲処理部150は、文の修正に必要な情報をユーザに提供し、情報を受けたユーザが修正した文を文書記憶部160へ保存する。推敲処理部150は、解析情報保存部140が保存した重複度解析結果を解析情報記憶部180から、文書ファイルを文書記憶部160から、それぞれ取得し、インタフェース部190を介して、ユーザに対し重複した文と重複度とを示す情報を、修正対象候補として提示する。
【0037】
推敲処理部150は、解析情報保存部140が保存した冗長度解析結果を解析情報記憶部180から、文書ファイルを文書記憶部160から、それぞれ取得し、インタフェース部190を介して、ユーザに対し冗長な表現を含む文と、対応する端的な表現を含む文と、冗長度と、を示す情報を、修正対象候補として提示する。
【0038】
ユーザは、インタフェース部190によって提示された修正対象候補を確認し、重複度を示す0.0-1.0の点数及び冗長度を示す0.0-1.0の点数に対し、修正が必要であると判断した閾値を、インタフェース部190を介して、それぞれ重複閾値及び冗長閾値として入力する。
【0039】
推敲処理部150は、ユーザによって入力された重複閾値と冗長閾値とをインタフェース部190を介して取得し、修正対象候補のうち重複度が重複閾値以上であるものを、比較元と比較先の文が重複していると判断し、インタフェース部190を介して、重複した文を修正対象としてユーザに提示する。
【0040】
推敲処理部150は、ユーザによって入力された閾値をインタフェース部190を介して取得し、修正対象候補のうち冗長度が冗長閾値以上であるものを、冗長な表現を含む文であると判断し、インタフェース部190を介して、冗長な表現を含む文を修正対象としてユーザに提示する。
【0041】
ユーザは、提示された修正対象を確認し、インタフェース部190を介して、処理対象データに含まれる修正対象の修正を行う。修正対象の修正方法の例としては、重複した文言の削除及び重複した文言の少なくとも一方の変更、冗長な表現の削除及び変更が含まれうるが、これに限られるものではない。
【0042】
推敲処理部150は、ユーザによる修正対象の修正を示す入力を受け付けると、ユーザが入力した修正内容を文書データに反映させる。
【0043】
推敲処理部150は、修正した処理対象データを文書記憶部160に保存するかどうかの問合せを、インタフェース部190を介してユーザに対して行う。ユーザによる保存を指示する入力がインタフェース部190を介して行われた場合、推敲処理部150は、修正した処理対象データを文書記憶部160へ保存する。
【0044】
文書記憶部160は、複数の文書ファイルを記憶する記憶部である。
【0045】
基準記憶部170は、重複の程度を点数化する基準である図2に示す重複点数表310、及び冗長さの程度を点数化する基準である図3に示す冗長点数表320を記憶する記憶部である。
【0046】
インタフェース部190は、判断基準設定部110及び推敲処理部150に接続され、ユーザに情報を提示しユーザからの入力を受け付ける。
【0047】
解析情報記憶部180は、解析部130が出力した比較元単文と比較先単文との重複度を、重複度解析結果として記憶し、解析部130が出力した冗長な表現、端的な表現及び冗長度を、冗長度解析結果として記憶する。
【0048】
文評価装置1のハードウェア構成について説明する。文評価装置1は、プログラムを実行して処理を行うコンピュータである。
【0049】
図6は、実施の形態に係る文評価装置1のハードウェア構成を示すブロック図である。図6に示すように、文評価装置1は、プログラムを実行する処理装置210と、プログラムを展開するメモリ220と、プログラム及びファイルを記憶する記憶装置230と、ユーザに情報を提示しユーザからの入力を受け付けるインタフェース装置240と、を備える。処理装置210と、メモリ220と、記憶装置230と、インタフェース装置240とは、バスを介して相互に接続されている。
【0050】
処理装置210は、記憶装置230に記憶されたプログラムを読み出してメモリ220に展開し実行することで、判断基準設定部110、データ取得部120、解析部130、解析情報保存部140、及び推敲処理部150として機能する。処理装置210は、CPU(Central Processing Unit)を含み得る処理装置であるが、これに限られるものではない。
【0051】
メモリ220は、プログラム又はデータを展開される記憶装置である。メモリ220は、RAM(Random Access Memory)、フラッシュメモリを含む不揮発性又は揮発性の記憶素子であるが、これに限られるものではない。
【0052】
記憶装置230は、プログラム及びデータを記憶することで、文書記憶部160、基準記憶部170、解析情報記憶部180として機能する。記憶装置230は、HDD(Hard Disk Drive)、SSD(Solid State Drive)を含む記憶装置であるが、これに限られるものではない。
【0053】
インタフェース装置240は、映像又は音声としてユーザに情報を提示し、キー、ボタン又はスイッチを操作されることでユーザからの入力を受け付けることで、インタフェース部190として機能する。インタフェース装置240は、モニタ、タッチパネル、スピーカ、キーボード、マウス、タッチパッドを含み得るが、これに限られるものではない。
【0054】
図7は、文評価装置1が実行する文評価処理を示すフローチャートである。文評価処理について、図7のフローチャートを参照して説明する。
【0055】
文評価処理が開始されると、文評価装置1の判断基準設定部110は、文の重複及び冗長表現を抽出する判断基準を変更するかどうかの問合せをユーザに対して行う(ステップS101)。ユーザが判断基準を変更しない入力を行った場合(ステップS101:NO)、ステップS103へ進む。
【0056】
ユーザが判断基準を変更する入力を行った場合(ステップS101:YES)、基準記憶部170に記憶させた重複点数表310及び冗長点数表320をユーザの入力に応じて変更する(ステップS102)。
【0057】
重複点数表310及び冗長点数表320をユーザの入力に応じて変更すると、データ取得部120は、文書記憶部160が記憶する複数の文書ファイルから、文書ファイルをユーザの入力に応じて選択する(ステップS103)。
【0058】
文書ファイルをユーザの入力に応じて選択すると、データ取得部120は、選択した文書ファイルの文書データを、処理対象データとして取得する(ステップS104)。
【0059】
文書データを処理対象データとして取得すると、解析部130は、データ取得部120が取得した処理対象データから文を抽出し、抽出した文に対して形態素解析を行って、複文及び重文を単文に分解する(ステップS105)。
【0060】
複文及び重文を単文に分解すると、解析部130は、文を分解して得た単文を、文法に照らし合わせ主語、述語、修飾語を含む文の構造ごとに切り出す(ステップS106)。
【0061】
単文を文の構造ごとに切り出すと、解析部130は、全ての単文の組合せに対し、単文中の文の構造毎に比較を行い、基準記憶部170に記憶される重複点数表310に基づいて構造重複点を算出する(ステップS107)。
【0062】
構造重複点を算出すると、解析部130は、全ての単文の組合せに対し、比較元単文と比較先単文の文の構造毎の構造重複点をかけ合わせて得られた値を、比較元単文と比較先単文の重複度として算出して出力する(ステップS108)。
【0063】
重複度を算出すると、解析部130は、基準記憶部170に記憶される冗長点数表320に含まれる冗長な表現を、処理対象データから抽出した文から抽出する(ステップS109)。
【0064】
文から冗長な表現を抽出すると、解析部130は、文から抽出した冗長な表現に対応する端的な表現と、冗長度と、を冗長点数表320から取得して出力する(ステップS110)。
【0065】
解析部130が冗長な表現と、端的な表現と、冗長度と、を出力すると、解析情報保存部140は、解析部130が出力した比較元単文と比較先単文との重複度を、重複度解析結果として解析情報記憶部180に記憶させる(ステップS111)。
【0066】
重複度解析結果を解析情報記憶部180に記憶させると、解析情報保存部140は、解析部130が出力した冗長な表現、端的な表現及び冗長度を、冗長度解析結果として解析情報記憶部180に記憶させる(ステップS112)。
【0067】
解析情報保存部140が冗長度解析結果を解析情報記憶部180に記憶させると、推敲処理部150は、解析情報保存部140が保存した重複度解析結果及び冗長度解析結果を解析情報記憶部180から、文書ファイルを文書記憶部160から、それぞれ取得し、インタフェース部190を介して、ユーザに対し修正対象候補を提示する(ステップS113)。
【0068】
修正対象候補を提示すると、推敲処理部150は、ユーザによって入力された重複度及び冗長度の閾値をインタフェース部190を介して取得する(ステップS114)。
【0069】
重複度及び冗長度の閾値を取得すると、推敲処理部150は、修正対象候補のうち重複度が閾値以上であるもの及び冗長度が閾値以上であるものを、修正対象としてユーザに提示する(ステップS115)。
【0070】
修正対象を提示すると、推敲処理部150は、ユーザによる修正対象の修正を示す入力を受け付けたかどうか判断する(ステップS116)。受け付けていないと判断した場合(ステップS116:NO)、ステップS118に進む。
【0071】
受け付けたと判断した場合(ステップS116:YES)、推敲処理部150は、ユーザが入力した修正内容を文書データに反映させる(ステップS117)。
【0072】
ユーザが入力した修正内容を文書データに反映させると、推敲処理部150は、修正した処理対象データを文書記憶部160に保存するかどうかの問合せを行う(ステップS118)。ユーザによる保存を指示する入力が行われない場合(ステップS118:NO)、文評価処理を終了する。
【0073】
ユーザによる保存を指示する入力が行われた場合(ステップS118:YES)、推敲処理部150は、修正した処理対象データを文書記憶部160へ保存し、(ステップS119)、文評価処理を終了する。
【0074】
以上の構成を備え、文評価処理を実行することで、実施の形態に係る文評価装置1は、文に点数を付与することで重複する文又は冗長な文を抽出して推敲を容易にすることが可能となる。
【0075】
可読性が高く、文そのものの品質は高くとも、その文が重複して記載されている場合は、重複部分を修正する必要がある。実施の形態に係る文評価装置1によれば、文を単文に分解し、単文同士を比較して重複を点数化することで、文そのものの品質によらず重複する記載を抽出し、推敲を容易にすることができる。
【0076】
重複した表現又は冗長な表現を抽出又は修正する際に、修正する必要がない部分を過剰に選択してしまう、又は修正すべき部分が選択されないと、適切に推敲ができない場合がある。実施の形態に係る文評価装置1によれば、重複度又は冗長度に対し閾値を設定することで、ユーザが修正すべきと判断した部分のみを適切に修正させることができる。
【0077】
(変形例)
文評価装置1は、文に含まれる重複表現及び冗長表現を抽出するものとして説明したが、これに限られるものではない。重複表現及び冗長表現のどちらか一方のみを抽出しても良い。即ち、図7のフローチャートのステップS105-ステップS108,ステップS111の一群のステップと、ステップS109,ステップS110,ステップS112の一群のステップの、どちらか一方のみを実行しても良い。
【0078】
推敲処理部150は、ユーザによって入力された重複閾値と冗長閾値とをインタフェース部190を介して取得するとしたが、これに限られるものではない。ユーザが一つの閾値のみを入力し、推敲処理部150が一つの閾値のみを取得しても良い。即ち、重複閾値と冗長閾値とが同一であっても良い。
【0079】
推敲処理部150は、文の修正に必要な情報をユーザに提供し、情報を受けたユーザが修正した文を文書記憶部160へ保存するとしたが、これに限られるものではない。文を推敲処理部150が修正し、修正した文をユーザに提示しても良い。文を推敲処理部150が修正するか、推敲処理部150が提供した情報に基づいてユーザが修正するかを選択可能にしても良い。
【0080】
記憶装置230は、プログラム及びデータを記憶することで、文書記憶部160、基準記憶部170、解析情報記憶部180として機能するとしたが、これに限られるものではない。文評価装置1の外部の記憶装置が、文書記憶部160、基準記憶部170、解析情報記憶部180として機能しても良い。即ち、文評価装置1は文書記憶部160、基準記憶部170、解析情報記憶部180の一部又は全部を備えていなくともよい。
【0081】
図2に示す重複点数表310の重複の判定結果及び判定結果毎の点数、並びに図3に示す冗長点数表320の冗長な表現、端的な表現、及び冗長度は一例であって、表現又は点数はこれらに限られるものではない。
【0082】
実施の形態に係る文評価装置における各種処理を行う手段及び方法は、専用のハードウェア回路、又はプログラムされたコンピュータのいずれかによっても実現することが可能である。上記プログラムは、フレキシブルディスク又はCD-ROMを含むコンピュータ読み取り可能な記録媒体によって提供されても良いし、インターネットを含むネットワークを介してオンラインで提供されても良い。この場合、コンピュータ読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスクを含む記憶部に伝送されて記憶される。また、上記プログラムは、単独のアプリケーションソフトとして提供されても良いし、装置の一機能としてその装置のソフトウェアに組み込まれても良い。
【0083】
本開示は、本開示の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、この開示を説明するためのものであり、本開示の範囲を限定するものではない。すなわち、本開示の範囲は、実施の形態ではなく、特許請求の範囲によって示される。そして、特許請求の範囲内及びそれと同等の開示の意義の範囲内で施される様々な変形が、この開示の範囲内とみなされる。
【産業上の利用可能性】
【0084】
本開示は、文評価装置、文評価方法及びプログラムに利用することができる。
【符号の説明】
【0085】
1…文評価装置、110…判断基準設定部、120…データ取得部、130…解析部、140…解析情報保存部、150…推敲処理部、160…文書記憶部、170…基準記憶部、180…解析情報記憶部、190…インタフェース部、210…処理装置、220…メモリ、230…記憶装置、240…インタフェース装置、310…重複点数表、320…冗長点数表、330…文構造解析結果、340…重複度表。
図1
図2
図3
図4
図5
図6
図7