(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-11
(45)【発行日】2024-03-19
(54)【発明の名称】情報処理装置、情報処理方法、及びプログラム
(51)【国際特許分類】
G06F 40/253 20200101AFI20240312BHJP
G06F 40/216 20200101ALI20240312BHJP
G06F 40/279 20200101ALI20240312BHJP
【FI】
G06F40/253
G06F40/216
G06F40/279
(21)【出願番号】P 2020165778
(22)【出願日】2020-09-30
【審査請求日】2022-10-20
【前置審査】
(73)【特許権者】
【識別番号】000191076
【氏名又は名称】日鉄ソリューションズ株式会社
(74)【代理人】
【識別番号】100117857
【氏名又は名称】南林 薫
(72)【発明者】
【氏名】園部 勲
(72)【発明者】
【氏名】山田 一宏
(72)【発明者】
【氏名】鷹栖 弘明
(72)【発明者】
【氏名】藤原 正隆
【審査官】長 由紀子
(56)【参考文献】
【文献】特開2019-028937(JP,A)
【文献】国際公開第2018/230551(WO,A1)
【文献】特開2019-049964(JP,A)
【文献】特開2011-170535(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-58
(57)【特許請求の範囲】
【請求項1】
文書の品質評価を行う情報処理装置であって、
文書中の各文について文の影響予測用の特徴量を取得する取得手段と、
前記取得手段により取得された特徴量に基づいて、文の各評価観点についての影響度に関する情報を含む影響予測用の学習データに基づいて特徴量と評価観点の関係を学習することによって作成された影響予測モデルを用いて、前記文書中の各文について前記品質評価への評価観点毎の影響度を予測する予測手段と、
前記予測手段による各文の影響予測によって得られた品質評価に対する評価観点毎の影響度に基づいて、各評価観点についての文書の品質に関する情報を含む文書品質評価の学習データに基づいて評価観点毎の文の影響度と文書の品質の基準を学習することによって作成された品質評価モデルを用いて、文書全体での品質を予測し前記文書の品質評価を行う評価手段と、
前記文書中の各文における評価観点毎の影響予測結果を文書の品質評価結果の根拠を示す根拠情報として、前記根拠情報を含む評価結果に係る情報を出力する出力手段とを有することを特徴とする情報処理装置。
【請求項2】
前記根拠情報は、前記予測手段による各文の影響予測結果であることを特徴とする請求項
1に記載の情報処理装置。
【請求項3】
前記取得手段は、前記文書を分割して得られる各文について着目文と文脈文に振り分け、前記着目文及び前記文脈文からそれぞれ得られるベクトルに基づいて前記特徴量を取得することを特徴とする請求項1
又は2に記載の情報処理装置。
【請求項4】
前記出力手段は、前記根拠情報を含む評価結果に係る情報を表示することを特徴とする請求項1~
3の何れか1項に記載の情報処理装置。
【請求項5】
前記出力手段は、前記文書中の各文における評価観点毎の影響予測結果を前記根拠情報として表示することを特徴とする請求項
4に記載の情報処理装置。
【請求項6】
前記出力手段は、指定された評価観点の文毎の影響予測結果を前記根拠情報として表示することを特徴とする請求項
4に記載の情報処理装置。
【請求項7】
前記出力手段は、前記文書の品質評価結果をさらに表示することを特徴とする請求項
4~
6の何れか1項に記載の情報処理装置。
【請求項8】
文書の品質評価を行う情報処理装置の情報処理方法であって、
文書中の各文について文の影響予測用の特徴量を取得する取得工程と、
前記取得工程で取得された特徴量に基づいて、文の各評価観点についての影響度に関する情報を含む影響予測用の学習データに基づいて特徴量と評価観点の関係を学習することによって作成された影響予測モデルを用いて、前記文書中の各文について前記品質評価への評価観点毎の影響度を予測する予測工程と、
前記予測工程での各文の影響予測によって得られた品質評価に対する評価観点毎の影響度に基づいて、各評価観点についての文書の品質に関する情報を含む文書品質評価の学習データに基づいて評価観点毎の文の影響度と文書の品質の基準を学習することによって作成された品質評価モデルを用いて、文書全体での品質を予測し前記文書の品質評価を行う評価工程と、
前記文書中の各文における評価観点毎の影響予測結果を文書の品質評価結果の根拠を示す根拠情報として、前記根拠情報を含む評価結果に係る情報を出力する出力工程とを有することを特徴とする情報処理方法。
【請求項9】
文書の品質評価を行う情報処理装置のコンピュータに、
文書中の各文について文の影響予測用の特徴量を取得する取得ステップと、
前記取得ステップで取得された特徴量に基づいて、文の各評価観点についての影響度に関する情報を含む影響予測用の学習データに基づいて特徴量と評価観点の関係を学習することによって作成された影響予測モデルを用いて、前記文書中の各文について前記品質評価への評価観点毎の影響度を予測する予測ステップと、
前記予測ステップでの各文の影響予測によって得られた品質評価に対する評価観点毎の影響度に基づいて、各評価観点についての文書の品質に関する情報を含む文書品質評価の学習データに基づいて評価観点毎の文の影響度と文書の品質の基準を学習することによって作成された品質評価モデルを用いて、文書全体での品質を予測し前記文書の品質評価を行う評価ステップと、
前記文書中の各文における評価観点毎の影響予測結果を文書の品質評価結果の根拠を示す根拠情報として、前記根拠情報を含む評価結果に係る情報を出力する出力ステップとを実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、及びプログラムに関する。
【背景技術】
【0002】
近年、人工知能(AI:Artificial Intelligence)の研究開発が活発に行われ、急速に実用化が進んできている。AIは、コンピュータにより、人が実現する学習、推論、判断等の様々な知覚や知性を人工的に再現するものと言える。
【0003】
AIのなかで、知的労働者の作業や意思決定の姿を手本にしてロボット化するRPA(Robotic Process Automation、Digital Labor)は、業務の自動化、効率化を図るものである。人間が意思決定する場面では、物事を認識するときの切り口や判断における基準やこだわり等、各人の個性(観点、好み、指向性等)が現れるが、この個性という情報は暗黙的であり、正確に表現することは難しい。文書の評価を行う際に評価基準を設定するような場合にも、評価基準の設定において個性が現れてくる。
【0004】
例えば、文書の品質を評価する技術に関して、特許文献1には、文書の品質を評価するとともに見本となる文章を提示する技術が提案されている。特許文献1は、入力者に対してテキスト文書群の品質の評価結果に加えて、改善すべき文章及び見本とすべき文章の例を提示する文書品質評価システムであって、テキスト文書群内の各文章について構文解析を行い、テキスト文書群についての品質を複数の評価項目についてスコアリングし、評価結果を第1のユーザに提示し、第1のユーザについての最低評価項目において低評価となる条件に該当する第1の文章群と、最低評価項目において第1のユーザよりも評価が高い第2のユーザについての高評価となる条件に該当する第2の文章群とを抽出し、第1と第2の文章群からそれぞれ類似度の高い第1と第2の文章を抽出し、第1の文章を改善対象の例文、第2の文章を見本の例文として提示するものである。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、特許文献1は、高評価が得られる文章を見本の例文としてユーザに提示するものであるが、どのような評価に基づいて例文とすべき文章例を抽出したのか(なぜ高評価となっているか)、ユーザに対して根拠が明らかにされていない。本発明は、このような問題に鑑みてなされたものであり、人工知能による文書の自動レビューにおいて、評価結果に係る情報をユーザに対して提示できるようにすることを目的とする。
【課題を解決するための手段】
【0007】
本発明に係る情報処理装置は、文書の品質評価を行う情報処理装置であって、文書中の各文について文の影響予測用の特徴量を取得する取得手段と、前記取得手段により取得された特徴量に基づいて、文の各評価観点についての影響度に関する情報を含む影響予測用の学習データに基づいて特徴量と評価観点の関係を学習することによって作成された影響予測モデルを用いて、前記文書中の各文について前記品質評価への評価観点毎の影響度を予測する予測手段と、前記予測手段による各文の影響予測によって得られた品質評価に対する評価観点毎の影響度に基づいて、各評価観点についての文書の品質に関する情報を含む文書品質評価の学習データに基づいて評価観点毎の文の影響度と文書の品質の基準を学習することによって作成された品質評価モデルを用いて、文書全体での品質を予測し前記文書の品質評価を行う評価手段と、前記文書中の各文における評価観点毎の影響予測結果を文書の品質評価結果の根拠を示す根拠情報として、前記根拠情報を含む評価結果に係る情報を出力する出力手段とを有することを特徴とする。
【発明の効果】
【0008】
本発明によれば、人工知能により自動で文書のレビューを行い、評価結果に係る情報をユーザに対して提示することが可能となる。
【図面の簡単な説明】
【0009】
【
図1】本実施形態における情報処理装置のハードウェア構成の例を示す図である。
【
図2】本実施形態における情報処理装置の機能構成の例を示す図である。
【
図3】本実施形態における情報処理装置の処理例を説明する図である。
【
図4】本実施形態における特徴量計算処理の例を示すフローチャートである。
【
図5】本実施形態における文ベクトル計算を説明する図である。
【
図6】本実施形態における影響予測モデルの作成を説明する図である。
【
図7】本実施形態における学習データの例を示す図である。
【
図8】本実施形態における品質評価モデルの作成を説明する図である。
【
図9】本実施形態におけるレビュー根拠情報の出力を説明する図である。
【
図10】本実施形態におけるレビュー根拠情報の表示例を示す図である。
【
図11】本実施形態におけるレビュー根拠情報の表示例を示す図である。
【
図12】本実施形態におけるレビュー根拠情報の表示例を示す図である。
【発明を実施するための形態】
【0010】
以下、本発明の実施形態を図面に基づいて説明する。
【0011】
図1は、本発明の一実施形態における情報処理装置100のハードウェア構成の一例を示す図である。情報処理装置100は、例えばパーソナルコンピュータ(PC)、サーバ装置、タブレット装置、スマートフォン等の情報処理装置である。情報処理装置100は、CPU101、主記憶装置102、補助記憶装置103、ネットワークI/F104、及び入出力I/F105を有する。CPU101、主記憶装置102、補助記憶装置103、ネットワークI/F104、及び入出力I/F105は、システムバス106を介して、互いに通信可能に接続されている。
【0012】
CPU(Central Processing Unit)101は、情報処理装置100を制御する中央演算装置である。主記憶装置102は、CPU101のワークエリアやデータの一時的な記憶場所として機能する記憶装置である。主記憶装置102は、例えばRAM(Random Access Memory)等を用いて実装される。補助記憶装置103は、各種設定情報、各種プログラム、学習データ、各種辞書データ、各種モデル情報等を記憶する記憶装置である。補助記憶装置103は、例えばROM(Read Only Memory)、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、フラッシュメモリ等を用いて実装される。
【0013】
ネットワークI/F104は、例えばインターネットやLAN(Local Area Network)等のネットワークを介した外部の装置等との通信に利用されるインターフェースである。入出力I/F105は、マウス、キーボード、タッチパネルの操作部等の入力装置からの情報の入力に利用されるインターフェースである。また、入出力I/F105は、ディスプレイ、タッチパネルの表示部、スピーカ等の出力装置への情報の出力に利用されるインターフェースである。
【0014】
CPU101が、補助記憶装置103に記憶されたプログラムに基づいて処理を実行することで、
図2に示す情報処理装置100の各機能、及び後述する各処理等が実現される。
【0015】
図2は、本実施形態における情報処理装置100の機能構成の一例を示す図である。情報処理装置100は、解析部201、学習部202、取得部203、予測部204、評価部205、及び出力部206を有する。
【0016】
解析部201は、文書データに対して、形態素解析、係り受け解析、単語のカテゴリ分類、文書データ内の文節への特徴量の付与(例えば、各文節への意味役割の付与等)等の解析を行う。
【0017】
学習部202は、学習データを用いた機械学習を行い、学習済みモデルを作成する。例えば、学習部202は、文の影響予測用の学習データに基づいて、文の影響度を予測する機械学習を行い、文の影響予測に利用される影響予測モデルを学習する。また、例えば、学習部202は、文書品質評価の学習データに基づいて、文書の品質を予測する機械学習を行い、文書の品質評価に利用される品質評価モデルを学習する。
【0018】
取得部203は、解析部201による解析結果に基づいて、文書データにおける文単位で影響予測用の特徴量を取得する。取得部203は、解析部201による解析結果に基づいて、単語の分散表現の取得や文ベクトルの計算等の各種処理を実行し、各文の影響予測用の特徴量を計算する。
【0019】
予測部204は、学習部202により作成される影響予測モデルを用いて、文書データの各文について品質評価に対する影響の有無を予測する。予測部204は、取得部203により文単位に取得された影響予測用の特徴量に基づいて、影響予測モデルを用いて品質評価への評価観点毎の影響度を文毎に予測する。
【0020】
評価部205は、学習部202により作成される品質評価モデルを用いて、文書データの品質評価を行う。評価部205は、予測部204での予測によって得られた品質評価に対する影響の有無(評価観点毎の影響度)に基づいて、品質評価モデルを用いて文書データ全体の品質評価を行う。
【0021】
出力部206は、評価部205による文書データの品質評価結果(レビュー結果)を出力する。また、出力部206は、ユーザからの要求等に応じて、その品質評価結果となった根拠を示す根拠情報を出力する。また、出力部206は、出力する各種情報を表示する機能を有していてもよい。
【0022】
次に、本実施形態における情報処理装置での処理例について説明する。以下では、説明の便宜上、適宜、文書データの品質評価における評価観点を「場所・時間」、「判断・予測」、及び「対象・事象」の3つとした例を示して説明する。しかし、これは一例であって、本発明はこれに限定されるものではなく、文書データの品質評価における評価観点は、レビュー対象の文書データ等に応じて任意の評価観点を設定することができ、また設定する評価観点の数も任意である。
【0023】
図3は、本実施形態における情報処理装置での処理例を説明する図である。
図3において、自動レビューシステム300は、各種モデルを使用して、レビュー対象の文書データ301を自動でレビューし文書データ301の品質評価を行う。文書データのレビューに利用される各種モデルは、学習データを用いた機械学習等によってレビューモデル構築システム310で作成され自動レビューシステム300に提供される。レビュー対象の文書データ301は、例えば課題管理システムにおけるチケットデータ(文書データ)である。自動レビューシステム300は、課題管理システムがレビュー対象の文書データ301の登録を受け付けると、文書データ301を取得してレビューを開始する。
【0024】
自動レビューシステム300は、例えば
図2に示した解析部201、取得部203、予測部204、評価部205、及び出力部206によって実現される。また、レビューモデル構築システム310は、例えば
図2に示した解析部201、学習部202、及び取得部203によって実現される。なお、自動レビューシステム300及びレビューモデル構築システム310は、1つの情報処理装置によって構成されるようにしてもよいし、別個の情報処理装置によって構成されるようにしてもよい。また、自動レビューシステム300の各機能が複数の情報処理装置によって構成されるようにしてもよいし、レビューモデル構築システム310の各機能が複数の情報処理装置によって構成されるようにしてもよい。
【0025】
自動レビューシステム300において、ステップS311にて、解析部201及び取得部203は、辞書や機械学習モデル303を用いて、レビュー対象の文書データ301における各文について影響予測用の特徴量を計算する。解析部201及び取得部203は、単語辞書や分析モデルやカテゴリ分類モデルなどを用いて、レビュー対象の文書データ301に対する解析及び各種処理を実行し、文書データ301における各文について影響予測用の特徴量を計算する。
【0026】
次に、ステップS312にて、予測部204は、ステップS311において得られた各文の影響予測用の特徴量に基づいて、影響予測モデル305を用いて品質評価における各文の評価観点毎の影響度を予測する。影響度は、レビューにおいて評価観点に関わる内容であると評価される確率である。例えば、評価観点が「場所・時間」、「判断・予測」、及び「対象・事象」である場合、予測部204は、影響予測モデル305を用いて、各文について、場所・時間に関わる内容である確率、判断・予測に関わる内容である確率、及び対象・事象に関わる内容である確率をそれぞれ予測する。この予測結果は、各文に含まれる情報の種類を意味しており、品質評価において理解しやすい根拠になる。予測部204による影響予測の結果は、レビュー結果データベース(DB)302に蓄積されるとともに、評価部205に供給される。
【0027】
次に、ステップS313にて、評価部205は、ステップS312において得られた各文の影響予測結果(評価観点毎の影響度)に基づいて、品質評価モデル306を用いてレビュー対象の文書データ301全体の品質評価を行う。この文書データ301全体の品質評価も評価観点毎に行われる。例えば、ある評価観点について、各文の影響予測結果を入力とした品質評価モデル306の出力(文書データ301全体で、その評価観点について“〇”である確率)が所定の閾値(例えば、0.5)以上である場合、評価部205は、その評価観点の評価結果として“〇”(高評価)を出力し、そうでなければ、その評価観点の評価結果として“×”(低評価)を出力する。評価部205による品質評価の結果は、レビュー結果データベース(DB)302に蓄積される。
【0028】
次に、ステップS314にて、評価部205は、ステップS313において得られたレビュー対象の文書データ301全体の品質評価結果に基づいて、レビュー指摘の文面を生成する。評価部205は、文書データ301全体の品質評価結果に基づいて、例えば、各評価観点について明確に記述されているか否かの情報や、記述が不足していたり、記述そのものがなかったりする評価観点について記述を改善するアドバイス情報を含むレビュー指摘の文面を生成する。文書データ301全体の品質評価結果及び作成されたレビュー指摘の文面は、出力部206を介してレビュー結果307として出力される。
【0029】
また、ユーザからの要求等に応じて、ステップS315にて、出力部206は、文書データ301に係るレビューの根拠情報308を出力するためのレビューの根拠表示処理を行う。出力部206は、レビュー結果データベース(DB)302に蓄積された、文書データ301の品質評価結果やその品質評価結果となった根拠を示す根拠情報(例えば、ステップS312において得られる影響予測モデル305の出力)をレビューの根拠情報308として出力する。
【0030】
図4は、
図3のステップS311において実行される影響予測用の特徴量計算処理の例を示すフローチャートである。
ステップS401にて、解析部201は、レビュー対象の文書データを取得する。
次に、ステップS402にて、解析部201は、ステップS401において取得した文書データを文単位に分割する。解析部201は、例えば句点や終止符を検出することにより、文書データを文単位に分割する。
【0031】
以下のステップS403以降の処理は、ステップS402において分割された各文についてそれぞれ実行する。
ステップS403にて、解析部201は、ステップS402において分割された文に基づいて、着目する文(1つの文)とその文脈文に分ける処理を行う。ここで、文脈文とは、着目する文の周囲(前後)にある文(例えば、着目する文と同じパラグラフ中にある、着目する文を除いた全文)である。なお、処理負荷を増大させないよう着目する文に対して前後の一定数の文を文脈文とするようにしてもよい。
【0032】
ステップS404にて、着目する文について、解析部201が解析処理を行い、その解析結果に基づいて、取得部203が着目する文について文ベクトルを計算する。また、ステップS405にて、文脈文について、解析部201が解析処理を行い、その解析結果に基づいて、取得部203が文脈文について文ベクトルを計算する。
【0033】
図5は、
図4に示すステップS404、S405の文ベクトル計算を説明する図である。各文について
図5に示す処理を実行することで、各文の文ベクトルを計算する。
ステップS501にて、解析部201は、対象の文について形態素解析及び係り受け解析の処理を行う。形態素解析とは、文を形態素(言語における意味を持つ最小単位)に分解して、各形態素の品詞等を判別する処理である。係り受け解析とは、どの文節がどの文節に係っているかを判別する処理である。解析部201は、例えば、単語辞書や解析モデルを用いて、形態素解析及び係り受け解析を行う。
【0034】
ステップS502にて、取得部203は、ステップS501の処理結果として得られた単語列に基づいて、単語の分散表現を取得する。分散表現とは、単語を複数次元(例えば、数百次元)の実数ベクトルで表現する技術である。文内の単語の意味は、周辺の単語(文脈語)から定まるとする分布仮説というものがある。分布仮説を前提とすると、単語を、各要素が各文脈語の出現確率を示すベクトルとして表現できる。文脈語となる単語は、膨大(1兆個以上)であるため、このベクトルのサイズも膨大(1兆以上の次元)となってしまう。しかし、このベクトルは、要素のほとんどが0であるため、圧縮が可能(例えば、数百次元のサイズに圧縮)である。分散表現では、分布仮説を前提として、単語がこのように圧縮されたベクトルとして表現される。また、分散表現で表された単語同士は、単語同士の意味が近い程、近いベクトルとなる。すなわち、単語の分散表現が示すベクトルは、意味が近いものほど近いベクトルとなる。取得部203は、例えばword2vec、fastText、GloVe等により獲得した意味空間(ベクトル空間)に基づいて、各単語の分散表現(単語ベクトル)を取得する。
【0035】
ステップS503にて、取得部203は、ステップS502において取得された複数の単語ベクトルに基づいて、単語ベクトルを集約したベクトルを生成する。取得部203は、取得された複数の単語ベクトルに基づいて、単語ベクトルの次元毎の平均値、最大値、最小値をそれぞれ計算し、それらを要素とするベクトルを生成する。この場合、生成されるベクトルは、単語ベクトルが数百次元であれば、(数百×3)次元のベクトルとなる。
【0036】
ステップS504にて、解析部201は、ステップS501の処理により得られた係り受け解析結果に基づいて、単語のカテゴリ分類の処理を行う。単語のカテゴリ分類とは、単語とカテゴリとの対応情報を記憶する辞書等を参照して、文中の単語のカテゴリを判別する処理である。解析部201は、例えばカテゴリ分類辞書やカテゴリ分類モデルなどを用いて、単語のカテゴリを判別する。
【0037】
ステップS505にて、解析部201は、各文節への意味役割の付与を行う。各文節への意味役割の付与とは、文の構造を解析し、文中の述語に係る各文節に対して、その述語の意味を解釈する上での文節の役割(例えば、「動作主」や「対象物」等)を付与する処理である。解析部201は、例えば、意味役割付与ツールを用いて、文節に意味役割を付与する。
【0038】
ステップS506にて、取得部203は、ステップS505において文節に付与された意味役割に基づいて、付与された意味役割に対応する1つの次元の要素だけを“1”とし他の要素を“0”とするワンホットベクトルを文節毎に生成する。例えば、ステップS505において文節に付与された意味役割のIDの列が出力される場合、取得部203は、出力されたIDのそれぞれを、IDに対応する1つの次元の要素だけが“1”で他の要素が“0”であるワンホットベクトルに変換する。
【0039】
ステップS507にて、取得部203は、ステップ506において生成された複数のワンホットベクトルに基づいて、それらを集約したベクトルを生成する。取得部203は、生成された複数のワンホットベクトルに基づいて、次元毎に和を求め、それを各次元の要素値とするベクトルを生成する。つまり、取得部203は、文中における各意味役割の出現頻度を示すベクトルを生成する。
【0040】
ステップS508にて、取得部203は、ステップS503において生成したベクトルとステップS507において生成したベクトルとを連結する。
ステップS509にて、取得部203は、ステップS508において連結して得られたベクトルを対象の文の文ベクトルとして出力する。
【0041】
なお、文ベクトルは、前述した例に限定されるものではない。例えば、取得部203は、ステップS502において取得された複数の単語ベクトルと、ステップ506において生成された複数のワンホットベクトルとを入力にして機械学習したニューラル言語モデル(リカレントニューラルネットワーク)の隠れ層の平均値、最大値、最小値をそれぞれ計算して得られるベクトルを文ベクトルとするようにしてもよい。
【0042】
図4に戻り、ステップS404及びS405において、着目する文及び文脈文の各々について文ベクトルを計算した後、ステップS406にて、取得部203は、着目する文についての文ベクトルと文脈文についての文ベクトルとを統合する。例えば、取得部203は、着目する文についての文ベクトルと文脈文についての複数の文ベクトルとをすべて連結することにより文ベクトルの統合を行う。また、例えば、取得部203は、文脈文についての複数の文ベクトルの次元毎の平均値、最大値、最小値をそれぞれ計算したベクトルと、着目する文についての文ベクトルとを連結することにより文ベクトルの統合を行うようにしてもよい。
【0043】
ステップS407にて、取得部203は、ステップS406において文ベクトルを統合して得られたベクトルを文の影響予測用の特徴量(特徴ベクトル)として出力する。
ステップS408にて、解析部201は、着目する文として影響予測用の特徴量が未計算の文があるか否かを判断し、未計算の文がある場合にはステップS403に戻り、未計算の文がない場合には影響予測用の特徴量計算処理を終了する。
【0044】
図6を参照して、本実施形態における影響予測モデルの作成について説明する。影響予測モデルは、レビューモデル構築システム310において学習部202が、文の影響予測用の学習データ601を用いて、文中のどのような表現がどの評価観点に関係するかというパターンを機械学習することによって作成される。
【0045】
文の影響予測用の学習データ601は、文602及び正解(文の影響度)に関する情報603を含んでいる。文の影響予測用の学習データ601は、
図7(A)に示す文書ID710、文702、及び各評価観点についての正解(文の影響度)に関する情報703、704、705を有する。文書ID701は、文書(文章)単位に付与される識別子(ID)であり、同一文書に属する文に対しては同じIDが付与される。文702は、文書に含まれる文の内容であり、文単位に分解されて登録される。正解(文の影響度)に関する情報703、704、705は、文702に評価観点に関する情報が含まれているか否かを示す情報である。正解(文の影響度)に関する情報703、704、705は、文702の内容に基づいて、評価観点に関する情報が含まれているか否かを人間が判定してラベル付けする。
図7(A)に示す例では、各文について、「場所・時間」、「判断・予測」、及び「対象・事象」のそれぞれの評価観点での正解(文の影響度)に関する情報がラベル付けされている。
【0046】
例えば、「LABO環境を一元管理するための端末として、Terminal01があるが、次のような理由から3人以上が同時に管理作業できない問題があった。」という文については、「場所・時間」に関連する情報及び「対象・事象」に関連する情報が含まれているとラベル付けされている。また、「・リモートデスクトップのセッション数が2に制限されている。」という文については、「対象・事象」に関連する情報が含まれているとラベル付けされている。
【0047】
ステップS611にて、分析部201及び取得部203は、学習データの文602について影響予測用の特徴量を計算する。影響予測用の特徴量計算は、前述したレビュー対象の文書データ301をレビューする場合の影響予測用の特徴量計算と同様であるので、具体的な説明は省略する。ステップS611において、分析部201及び取得部203が影響予測用の特徴量を計算することにより、学習データの文602について影響予測用の特徴量(特徴ベクトル)604が出力される。
【0048】
ステップS612にて、学習部202は、学習データの文602についての影響予測用の特徴量604及び評価観点についての正解(文の影響度)に関する情報603に基づいて、評価観点毎の文の影響度を予測する機械学習を行う。機械学習アルゴリズムは、特定のアルゴリズムに限定されるものではなく、例えば、全結合ニューラルネットワーク、畳み込みニューラルネットワーク、リカレントニューラルネットワーク等を適用可能である。ステップS612においての機械学習の結果、影響予測モデル605が出力される。このようにして、文の影響予測に利用される影響予測モデル605が作成される。
【0049】
図8を参照して、本実施形態における品質評価モデルの作成について説明する。品質評価モデルは、レビューモデル構築システム310において学習部202が、文書品質評価の学習データ801を用いて、評価観点毎にどの程度の記述があれば良い品質であるとみなすかの基準を機械学習することによって作成される。
【0050】
文書品質評価の学習データ801は、文802及び正解(文書の品質)に関する情報803を含んでいる。なお、文書品質評価の学習データ801としては、同一の文書IDを有するものを1つの文書として取り扱う。文書品質評価の学習データ801は、
図7(A)に示す文書ID701、文702、及び
図7(B)に示す文書ID711、各評価観点についての正解(文書の品質)に関する情報712、713、714を有する。文書ID711は、文書(文章)単位に付与されるIDである。正解(文書の品質)に関する情報712、713、714は、文書全体として良い品質であるか悪い品質であるかを示す情報である。正解(文書の品質)に関する情報712、713、714は、文書IDが同一である文書全体で、良い品質であるか悪い品質であるかを人間が判定してラベル付けする。
図7(B)に示す例では、
図7(A)に示す例と同様に、「場所・時間」、「判断・予測」、及び「対象・事象」のそれぞれの評価観点での正解(文書の品質)に関する情報がラベル付けされている。例えば、文書IDがR0001の文書については、「場所・時間」及び「判断・予測」の評価観点では悪い品質であると、「対象・事象」の評価観点では良い品質であるとラベル付けされている。
【0051】
ステップS811にて、分析部201及び取得部203は、学習データの文802における各文について影響予測用の特徴量を計算する。影響予測用の特徴量計算は、前述したレビュー対象の文書データ301をレビューする場合の影響予測用の特徴量計算と同様であるので、具体的な説明は省略する。
【0052】
次に、ステップS812にて、予測部204は、ステップS811において得られた各文の影響予測用の特徴量に基づいて、前述したようにして作成された影響予測モデル804を用いて品質評価における各文の評価観点毎の影響度を予測する。ステップS812において、予測部204が文の影響度の予測を行うことにより、学習データの文802について影響予測結果805が出力される。
【0053】
ステップS813にて、学習部202は、学習データの文802についての影響予測結果805及び評価観点についての正解(文書の品質)に関する情報803に基づいて、文書全体での品質を予測する機械学習を行う。機械学習アルゴリズムは、特定のアルゴリズムに限定されるものではなく、例えば、全結合ニューラルネットワーク、畳み込みニューラルネットワーク、リカレントニューラルネットワーク等を適用可能である。ステップS813においての機械学習の結果、品質評価モデル806が出力される。このようにして、文書の品質評価に利用される品質評価モデル806が作成される。
【0054】
次に、本実施形態におけるレビューの根拠表示処理について説明する。
図9に示すように、レビューの根拠表示処理(S901)では、出力部206は、レビュー対象の文書データの品質評価に係る情報をレビュー結果データベース(DB)901から取得する。品質評価に係る情報は、品質評価結果やその品質評価結果となった根拠を示す根拠情報(例えば、
図3のステップS312において得られる影響予測モデルの出力)である。そして、出力部206は、レビュー結果データベース(DB)901から取得した品質評価に係る情報を、レビューの根拠情報902として出力する。
【0055】
出力部206から出力されたレビューの根拠情報902は、例えば、パーソナルコンピュータ(PC)、サーバ装置、タブレット装置、スマートフォン等のユーザが使用する情報処理装置の表示装置(表示部材)に表示され、ユーザに対して提示される。
図10にレビュー根拠情報の表示例を示す。
【0056】
図10(A)は、レビュー対象の文書データの品質評価結果の表示例を示している。文書データ全体として、「判断・予測」の評価観点では良い品質(〇)であるが、「場所・時間」及び「対象・事象」の評価観点では悪い品質(×)であることが示されている。この表示によればユーザは文書データ全体の品質について把握できるが、文書データ全体の品質評価に関して文書データ中のどの文が評価に影響を与えたのかは認識することができない。
【0057】
そこで、本実施形態では、ユーザからの要求等に応じて、品質評価結果の根拠を示す根拠情報を出力し、
図10(B)に示すようにユーザが認識可能なように表示できるようにする。根拠情報は、文書全体の品質評価結果に関して、どの文が品質評価に影響を与えたか(どの文がどの評価観点に関する記述であると認識されたか)を示す情報である。根拠情報としては、文書データ中の文毎にどの評価観点に属する情報が含まれているかの予測の確信度(確率)が出力される。例えば、
図10(B)に示す例では、第1文は、「場所・時間」に関する情報が記載されている確率が0.82であり、「判断・予測」に関する情報が記載されている確率が0.13であり、「対象・事象」に関する情報が記載されている確率が0.91であることを示している。
【0058】
このように根拠情報を表示し、表示された根拠情報をユーザが閲覧することにより、ユーザは品質評価において影響の有無が正しく認識されているか否か(誤認識がないか)を把握することが可能となる。また、誤認識されていると考えられる文が容易にわかることで、その文書データ及び正解の情報を加えて学習データを修正し、その学習データを用いて機械学習を行いモデルを更新することにより品質評価の精度を向上させることができる。
【0059】
図10に示した表示例は一例であり、これに限定されるものではない。
図11及び
図12を参照して、レビュー根拠情報の他の表示例について説明する。
【0060】
図11は、本実施形態におけるレビュー根拠情報の表示例を示す図である。
図11(A)及び
図11(B)に示す例では、文書全体の品質評価結果1101が示されるとともに、評価観点を選択するトップダウンメニュー(プルダウンメニュー)1102が設けられている。文書全体の品質評価結果1101は、スコア値で表示し、あわせてスコア値に応じて(良い評価であるか悪い評価であるかに応じて)異なる色で表示するようにしてもよい。トップダウンメニュー(プルダウンメニュー)1102から評価観点を選択することにより、選択した評価観点についての根拠情報1103、1104が、文書全体の品質評価結果1101とともに表示される。
【0061】
図11(A)は、トップダウンメニュー(プルダウンメニュー)1102によって、「場所・時間」の評価観点が選択された例を示しており、文毎に「場所・時間」の評価観点に関する情報が含まれていると予測された確信度(確率)を示す根拠情報1103が示されている。また、
図11(B)は、トップダウンメニュー(プルダウンメニュー)1102によって、「判断・予測」の評価観点が選択された例を示しており、文毎に「判断・予測」の評価観点に関する情報が含まれていると予測された確信度(確率)を示す根拠情報1104が示されている。根拠情報1104においては、各文の右上に予測された確信度(確率)が表示される。また、
図11(A)及び
図11(B)に示した根拠情報1103、1104において、予測された確信度(確率)に応じた色で各文をハイライト表示するようにしてもよい。
【0062】
図12は、本実施形態におけるレビュー根拠情報の表示例を示す図である。
図12(A)及び
図12(B)に示す例では、評価観点の選択ボタン1201、1202、1203が表示されるとともに、表示1204として評価観点に関する情報が記述されていると予測された文が評価観点毎に表示される。選択ボタン1201、1202、1203により評価観点を選択することにより、選択した評価観点に関する情報が記述されていると予測された文1205、1206がハイライト表示されている。
【0063】
以上説明したように、本実施形態によれば、各モデルを用いて自動で文書のレビューを行い、文書全体の品質評価結果の根拠を示す根拠情報を出力することで、ユーザに品質評価結果の根拠を提示することができる。根拠情報として文毎に評価観点に対する予測した影響度を出力ことで、どの文が品質評価の結果に影響を及ぼしているか容易に把握でき、ユーザにとって納得が得られやすい文書の自動レビューを提供することができる。
【0064】
なお、前記実施形態は、何れも本発明を実施するにあたっての具体化のほんの一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。
【符号の説明】
【0065】
100 情報処理装置
101 CPU
102 主記憶装置
103 補助記憶装置
104 ネットワークI/F
105 入出力I/F
200 情報処理装置
201 解析部
202 学習部
203 取得部
204 予測部
205 評価部
206 出力部