(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024140057
(43)【公開日】2024-10-10
(54)【発明の名称】分類装置、分類方法及び学習装置
(51)【国際特許分類】
G06F 16/35 20190101AFI20241003BHJP
【FI】
G06F16/35
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023051044
(22)【出願日】2023-03-28
(71)【出願人】
【識別番号】514020389
【氏名又は名称】TIS株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】吉原 則彦
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175FA03
5B175HB03
(57)【要約】
【課題】容易に記録内容の分類を行うこと。
【解決手段】本願に係る分類装置10は、受付部12aと、出力部12bとを有する。受付部12aは、報告書に対する指摘事項が記載された文書データを受付ける。出力部12bは、文書データの区分を出力するためのモデルであって、文書データを学習データとして用いて生成された学習済みモデルを用いて、文書データの指摘事項の内容に対応する区分を出力する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
報告書に対する指摘事項が記載された文書データを受付ける受付部と、
前記文書データの区分を出力するためのモデルであって、前記文書データを学習データとして用いて生成された学習済みモデルを用いて、前記文書データの指摘事項の内容に対応する区分を出力する出力部と、
を有することを特徴とする分類装置。
【請求項2】
前記受付部によって受付けられた前記文書データを構成する単語データのそれぞれに、TF-IDFスコアを付与する付与部をさらに有し、
前記出力部は、前記文書データの区分を出力するためのモデルであって、前記文書データと前記TF-IDFスコアとを学習データとして用いて生成された学習済みモデルを用いて、前記文書データの前記区分を出力する
ことを特徴とする請求項1に記載の分類装置。
【請求項3】
前記受付部は、前記文書データの作成者により入力された前記文書データの前記区分をさらに受付け、
前記受付部によって受付けられた前記区分と、前記出力部によって出力された前記区分とが異なる場合に、前記文書データの作成者が入力した前記文書データの前記区分の修正を促す情報を表示する表示部をさらに有する
ことを特徴とする請求項1に記載の分類装置。
【請求項4】
前記出力部によって出力された区分とユーザによって入力された文書データの区分とが異なる文書データの指摘事項について、前記文書データの区分がユーザにより修正されたか否かを判定し、修正された場合には、当該区分が修正された文書データを再学習の対象候補に選別する判定部をさらに有する
ことを特徴とする請求項1に記載の分類装置。
【請求項5】
前記文書データの指摘事項についての文章の長さが所定の閾値よりも短いか否かを判定し、前記文書データの指摘事項についての文章の長さが所定の閾値よりも短い場合には、当該文書データを再学習の対象から除外する判定部をさらに有する
ことを特徴とする請求項1に記載の分類装置。
【請求項6】
分類装置で実行される分類方法であって、
報告書に対する指摘事項が記載された文書データを受付ける受付工程と、
前記文書データの区分を出力するためのモデルであって、前記文書データを学習データとして用いて生成された学習済みモデルを用いて、前記文書データの指摘事項の内容に対応する区分を出力する出力工程と、
を含むことを特徴とする分類方法。
【請求項7】
報告書に対する指摘事項が記載された文書データと、前記文書データを構成する単語データのそれぞれに付与されたTF-IDFスコアと、前記文書データの指摘事項の内容に対応する区分とを含む学習データを取得する取得部と、
前記文書データの区分を出力するためのモデルであって、前記学習データを用いて学習済みモデルを生成する生成部と、
を含むことを特徴とする学習装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、分類装置、分類方法及び学習装置に関する。
【背景技術】
【0002】
従来、企業の様々なプロジェクトの現場において、不具合が生じた際には、不具合内容の記録と、その不具合内容の分類の選択とを行っている。そして、不具合内容の分類の選択は、開発者等の記録者が予め作成された分類表を参照することにより行っている場合がある。
【0003】
また、従来技術として、文書内のそれぞれの単語の重要度を表すTF―IDFスコアという数値が知られている。TF―IDFスコアは、TF(Term Frequency)が示す単語頻度の値と、IDF(Inverse Document Frequency)が示す逆文書頻度の値とに基づき算出される。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】“tf―idf(term frequency - inverse document frequency)とは?”、[online]、[令和5年2月14日検索]、インターネット<https://atmarkit.itmedia.co.jp/ait/articles/2112/23/news028.html>
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、従来の技術では、容易に記録内容の分類を行うことができない場合があるという課題があった。例えば、記録者が不具合内容の分類を行う際に、数多くの内容が記載された分類表の中から適切なものを選ぶため、分類の選択に時間を要することや、記録者が分類の選択を誤ることにより、不具合内容の記録表の品質が低下するという課題があった。
【課題を解決するための手段】
【0006】
上述した課題を解決し、目的を達成するために、本発明の分類装置は、報告書に対する指摘事項が記載された文書データを受付ける受付部と、文書データの区分を出力するためのモデルであって、文書データを学習データとして用いて生成された学習済みモデルを用いて、文書データの指摘事項の内容に対応する区分を出力する出力部とを有することを特徴とする。
【発明の効果】
【0007】
本発明によれば、容易に記録内容の分類を行うことができる。
【図面の簡単な説明】
【0008】
【
図1】
図1は、実施形態に係る分類装置を含むシステムの概要を示す図である。
【
図2】
図2は、実施形態に係る分類装置の構成例を示す図である。
【
図3】
図3は、実施形態に係るTF-IDFスコアの付与処理の具体例を示す図である。
【
図4】
図4は、実施形態に係る学習装置の構成例を示す図である。
【
図5】
図5は、実施形態に係る分類処理によって表示される画面の具体例を示す図である。
【
図6】
図6は、実施形態に係る分類処理によって表示される画面の具体例を示す図である。
【
図7】
図7は、実施形態に係る分類処理の処理手順の一例を示すフローチャートである。
【
図8】
図8は、ハードウェア構成の一例を示す図である。
【発明を実施するための形態】
【0009】
以下に、本願に係る分類装置、分類方法及び学習装置を実施するための形態(以下、「実施形態」と呼ぶ)を図面に基づいて詳細に説明する。なお、この実施形態により本願に係る分類装置、分類方法及び学習装置が限定されるものではない。
【0010】
(実施形態)
〔1.はじめに〕
まず、
図1を参照し、本実施形態に係る分類装置を含むシステムの概要について説明する。
図1は、実施形態に係る分類装置を含むシステムの概要を示す図である。分類装置10は、例えば、学習済みの分類モデルを有するデスクトップPC(Personal Computer)やノートPC、サーバ装置等の情報処理装置であり、記録者によって入力された、報告書に対する指摘事項が記載された文書データを外部から受付け、学習済みの分類モデルを使用することにより、文書データの区分を出力する。
【0011】
分類装置10は、報告書に対する指摘事項が記載された文書データを受付け、文書データの区分を出力するためのモデルであって、文書データを学習データとして用いて生成された学習済みモデルを用いて、文書データの指摘事項の内容に対応する区分を出力する。
【0012】
分類装置10は、まず、報告書に対する指摘事項が記載された文書データを受付ける。例えば、分類装置10は、プロジェクトにおける不具合内容の報告書や設計書等の報告書について、記録者による報告内容に対する指摘事項が記載された文書データを受付ける。ここで、分類装置10は、記録者の入力により文書データを直接受付けてもよいし、分類装置10とネットワークとが接続され、外部からネットワークを介して文書データを受付けてもよい。
【0013】
そして、分類装置10は、文書データの区分を出力するためのモデルであって、文書データを学習データとして用いて生成された学習済みモデルを用いて、文書データの指摘事項の内容に対応する区分を出力する。
【0014】
例えば、分類装置10は、後述する学習装置20によって生成された、文書データの入力に対し文書データの区分を出力する学習済みの分類モデルを使用して、文書データの指摘事項の内容に対応する区分(カテゴリ名)を出力する。ここで、分類モデルは、分類装置10が有する場合に限定されるものではなく、分類装置10と分類モデルを有する情報処理端末とが接続されることにより、間接的に使用されてもよい。
【0015】
〔2.分類装置10及び学習装置20の構成〕
次に、
図2及び
図4を参照し、分類装置10及び学習装置20の構成について説明する。
図2は、実施形態に係る分類装置の構成例を示す図であり、
図4は、実施形態に係る学習装置の構成例を示す図である。
【0016】
(2-1.分類装置10)
まず、
図2を参照し、分類装置10の構成例について説明する。
図2に示すように、分類装置10は、通信部11と、制御部12と、記憶部13とを有する。通信部11は、例えば、NIC(Network Interface Card)等によって実現され、外部のネットワーク等と有線又は無線によって接続されることにより、情報の送受信を行う。
【0017】
また、通信部11は、例えば、分類装置10と外部のネットワークとが接続されていない状態においては、記録者により直接文書データが入力される場合や、USB(Universal Serial Bus)等の可搬メディアを利用して情報が入力される場合に、入力された情報を後述する受付部12aに伝達する。
【0018】
記憶部13は、例えば、RAM(Random Access Memory)やハードディスク等の記憶装置によって実現される。記憶部13は、制御部12による各種処理に必要なデータ及びプログラムを格納するが、特に本発明に密接に関連するものとしては、受付情報記憶部13aと、出力情報記憶部13bとを有する。
【0019】
受付情報記憶部13aは、例えば、後述する受付部12aによって受付けられた文書データや文書データの作成者によって入力された文書データの区分、後述する付与部12cによって付与されたTF―IDFスコアについて、対応する文書データと関連付けて記憶する。
【0020】
出力情報記憶部13bは、例えば、後述する出力部12bによって出力された文書データの指摘事項の内容に対応する区分や、対応すると考えられる区分の候補等について記憶する。
【0021】
制御部12は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、分類装置10内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部12は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路により実現される。制御部12は、受付部12aと、出力部12bとを有し、必要に応じて、付与部12cと、表示部12dと、判定部12eとを有してもよい。
【0022】
受付部12aは、報告書に対する指摘事項が記載された文書データを受付ける。そして、受付部12aは、受付けた情報を受付情報記憶部13aに格納する。例えば、受付部12aは、プロジェクトにおける不具合内容の報告書や設計書等の報告書について、「報告書のタイトルが古い」や「報告書の図表がずれている」等の、報告書の内容についての指摘事項が記載された文書データを受付ける。その後、受付部12aは、受付けた文書データを受付情報記憶部13aに格納する。
【0023】
また、受付部12aは、文書データの作成者により入力された文書データの区分をさらに受付けてもよい。例えば、受付部12aは、文書データの受付と同時に、文書データの作成者によって入力された、文書データの指摘事項に対応すると考えられた区分について受付け、対応する文書データと関連付けて受付情報記憶部13aに格納する。
【0024】
出力部12bは、文書データの区分を出力するためのモデルであって、文書データを学習データとして用いて生成された学習済みモデルを用いて、文書データの指摘事項の内容に対応する区分を出力する。そして、出力部12bは、出力した区分を文書データと関連付けて出力情報記憶部13bに格納する。
【0025】
例えば、出力部12bは、後述する学習装置20によって生成された、文書データの区分を出力する学習済みモデルを使用して、受付情報記憶部13aに記憶された情報を参照することにより、前述の指摘事項の内容に対応する区分(カテゴリ名)を出力し、出力した区分を文書データと関連付けて出力情報記憶部13bに格納する。なお、前述の出力される区分は、例えば、予め設定された数十種類の区分の中から分類として適しているものが出力され、1つに限られるものではなく、分類として可能性の高い複数の区分を優先的に出力してもよい。
【0026】
ここで、学習済みモデルは、後述する学習装置20によって、TF―IDFスコアを学習データとして入力して生成されるモデルに限られるものではなく、例えば、文書データの類似性を数値化した情報を学習データとして入力し、文書データに対応する区分を出力するように生成されたモデルであってもよい。
【0027】
また、出力部12bは、文書データの区分を出力するためのモデルであって、文書データとTF-IDFスコアとを学習データとして用いて生成された学習済みモデルを用いて、文書データの区分を出力してもよい。
【0028】
例えば、出力部12bは、受付情報記憶部13aに記憶された、文書データと、文書データを構成する単語データのそれぞれに付与されたTF―IDFスコアとを参照することにより、後述する学習装置20によって生成された学習済みモデルを使用して、文書データと対応する区分を出力する。
【0029】
付与部12cは、受付部12aによって受付けられた文書データを構成する単語データのそれぞれに、TF―IDFスコアを付与する。そして、付与部12cは、付与したTF―IDFスコアを対応する文書データと関連付けて受付情報記憶部13aに格納する。
【0030】
例えば、付与部12cは、受付情報記憶部13aに記憶された文書データを参照し、文書データを単語データに分割して、それぞれの単語データに単語頻度の値と、逆文書頻度の値とに基づき算出されたTF―IDFスコアを付与する。そして、付与部12cは、付与したTF―IDFスコアを対応する文書データと関連付けて受付情報記憶部13aに格納する。
【0031】
ここで、付与部12cが行うTF―IDFスコアの付与処理について
図3を参照して説明する。
図3は、実施形態に係るTF―IDFスコアの付与処理の具体例を示す図である。
図3の例では、まず、付与部12cは、受付情報記憶部13aに記憶された、「タイトルの大きさが間違っている」と指摘事項が記載された文書データと、「ログイン画面は2画面にしたい」と指摘事項が記載された文書データとを、それぞれ単語データに分割する。
【0032】
その後、付与部12cは、分割されたそれぞれの単語データについて、前述のTF―IDFスコアを付与する。例えば、「タイトルの文字の大きさが間違っている」の文書については、「タイトル:0.3」、「文字:0.2」、「大きさ:0.2」、「間違っている:0.4」のTF―IDFスコアが付与される。そして、付与部12cは、付与したTF―IDFスコアについて、対応する文書データと関連付けて受付情報記憶部13aに格納する。
【0033】
表示部12dは、受付部12aによって受付けられた区分と、出力部12bによって出力された区分とが異なる場合に、文書データの作成者が入力した文書データの区分の修正を促す情報を表示する。
【0034】
例えば、表示部12dは、前述の文書データの作成者によって入力された文書データの指摘事項に対応すると考えられた区分と、前述の学習済みモデルを使用して出力された区分とが異なる場合に、区分が間違っている旨を通知する警告メッセージや、文書データに対応する区分として可能性が高い区分の候補を表示する。
【0035】
判定部12eは、出力部12bによって出力された区分とユーザによって入力された文書データの区分とが異なる文書データの指摘事項について、文書データの区分がユーザにより修正されたか否かを判定し、修正された場合には、当該区分が修正された文書データを再学習の対象候補に選別する。
【0036】
例えば、判定部12eは、出力部12bによって出力された区分と、ユーザによって入力された区分とが異なる指摘事項について、ユーザによって当該文書データの区分が修正された場合に、当該文書データの区分はユーザにより区分の精査が行われた上で決定された区分であり、比較的正確な区分であるとして、当該文書データを学習済みモデルの再学習候補に選別する。
【0037】
ここで、後述する学習装置20によって生成された学習済みモデルは、半年に1回や年に1回といった周期で、定期的にデータアナリスト等によって選別及び精緻化した学習データにより再学習が行われるものとする。また、分類装置10によって区分が出力された文書データは、そのほとんどがデータアナリスト等による選別によって、再学習候補に追加または再学習候補から除外されるものとする。
【0038】
また、判定部12eは、文書データの指摘事項についての文章の長さが所定の閾値よりも短いか否かを判定し、文書データの指摘事項についての文章の長さが所定の閾値よりも短い場合には、当該文書データを再学習の対象から除外してもよい。
【0039】
例えば、判定部12eは、文書データの指摘事項についての文章の長さが予め設定された閾値よりも短い場合に、当該文書データの指摘事項が区分を明確に判断することができる程度に明確ではないとして、当該文書データを再学習候補から除外する。
【0040】
ここで、前述の判定部12eによる文書データを再学習候補から除外する処理について以下の例を挙げて説明する。例えば、文書データの指摘事項が「線の色が違う(6文字)」のみである場合に、判定部12eは当該指摘事項の文章の長さ(6文字)が、予め設定された閾値(10文字)よりも短い場合に、当該文書データを再学習候補から除外する。
【0041】
なお、当該指摘事項「線の色が違う」については、当該指摘事項が文書データのどの線を対象としたものかが明確ではないため、当該指摘事項に対応する区分が「レイアウト不備」であるか「標準化不備」であるかが明確ではない。つまり、判定部12eは、指摘事項についての文章が閾値よりも短い場合には、指摘事項の内容が明確ではない場合が多いことから、当該文書データを再学習に使用することは適切ではないとして、当該文書データを再学習候補から除外する。
【0042】
(2-2.学習装置20)
次に、
図4を参照し、学習装置20の構成例について説明する。
図4に示すように、学習装置20は、通信部21と、制御部22と、記憶部23とを有する。ここで、通信部21及び制御部22、記憶部23は、それぞれ前述の通信部11及び制御部12、記憶部13と基本的な構成は同様であるが、記憶部23が取得情報記憶部23aを有し、制御部22が取得部22aと生成部22bとを有する点が異なる。
【0043】
取得情報記憶部23aは、例えば、後述する取得部22aによって取得された、報告書に対する指摘事項が記載された文書データと、単語データのそれぞれに付与されたTF―IDFスコアと、文書データの指摘事項の内容に対応する区分とを含む学習データについて、文書データごとにそれぞれの情報を関連付けて記憶する。
【0044】
取得部22aは、報告書に対する指摘事項が記載された文書データと、文書データを構成する単語データのそれぞれに付与されたTF―IDFスコアと、文書データの指摘事項の内容に対応する区分とを含む学習データを取得する。そして、取得部22aは、取得した学習データを取得情報記憶部23aに格納する。
【0045】
例えば、取得部22aは、前述の文書データと、当該文書データを構成する単語について付与されたTF―IDFスコアと、当該文書データの区分とが一連の情報として含まれた学習データを、通信部21を介して取得し、取得した学習データを取得情報記憶部23aに格納する。
【0046】
生成部22bは、文書データの区分を出力するためのモデルであって、学習データを用いて学習済みモデルを生成する。例えば、生成部22bは、取得情報記憶部23aに記憶された学習データを用いた教師あり学習を行うことにより、文書データ及び文書データのTF―IDFスコアを入力として、文書データの区分を出力する学習済みモデルを生成する。なお、学習済みモデルの生成方法は、教師あり学習を行うものに限られるものではないものとする。
【0047】
〔3.分類処理の具体例〕
ここで、
図5及び
図6を参照し、分類装置10により出力された区分の表示例や、表示部12dによって表示される、区分の修正を促す情報の例について説明する。
図5及び
図6は、実施形態に係る分類処理によって表示される画面の具体例を示す図である。
図5は、入力が完了した文書データに対して処理が行われた例であり、
図6は、文書データの作成者による入力の際に処理が行われた例である。
【0048】
まず、
図5の例について説明する。
図5の例では、文書データごとに、文書データの番号、案件名、設計書名、指摘情報、指摘区分、AIによる指摘候補が記載されている。また、
図5において、分類装置10は、「×××案件」の「●●設計書」に対する指摘事項が記載された文書を、文書データとして受付けている。
【0049】
そして、文書データに記載された指摘事項の例として、「NO2」の文書データの指摘情報は「20ページの×××の漢字が違う。」であることが示されている。また、分類装置10は、文書データの受付と同時に、文書データの作成者が入力した区分を受付けており、例えば、「NO2」の文書データの指摘区分について、「A03」という入力を受付けている。
【0050】
ここで、分類装置10は、受付けた文書データのそれぞれについて対応する区分を出力するが、分類装置10が出力する「NO2」の文書に対応する区分は、作成者が入力した区分「A03」と異なる「A04」となったため、AIによる指摘候補に「A04」が記載されている。一方で、「NO1」の文書のように、作成者が入力した区分と分類装置10が出力した区分とが同じである場合は、AIによる指摘候補は空欄となる。
【0051】
分類装置10は、
図5に示す例のような表を作成することにより、文書データの管理者等が作成された文書データを見直す際に、作成者が入力した区分に間違いがある可能性が高い文書データを容易に把握させることができる。
【0052】
次に、
図6について説明する。
図6の例では、2つの表示例が示されている。
図6(1)の例では、文書データの作成者が、文書データとそれに対応する区分とを入力した際に、入力された区分と分類装置10により出力された区分とが異なる場合に、警告メッセージを表示している。
【0053】
具体的には、入力された区分「A01」の修正を促す情報として、「区分が間違っている可能性があります。」という警告メッセージを表示している。これにより、文書データの作成者に区分の修正を促し、適切な区分を入力させることができる。
【0054】
一方で、
図6(2)の例では、文書データの作成者による、報告書である「●●設計書」に対して「19ページの×××のタイトルが古い。」との指摘事項の入力中または入力後に、分類装置が出力した、区分として可能性が高い区分の候補「A01」、「A03」、「A04」を表示している。これにより、文書データの作成者は表示された候補の中から区分を選択することができるため、容易に適切な区分を入力することができる。
【0055】
なお、前述の
図6(2)では、文書データの作成者が対応する区分を入力する前に、区分として可能性が高い区分の候補を表示する例を説明したが、これに限られるものではない。例えば、
図6(1)の例における警告メッセージが表示された後に、入力した区分の修正を促す情報として、区分として可能性が高い区分の候補を表示してもよい。
【0056】
〔4.分類装置による処理手順〕
次に、
図7を用いて、実施形態に係る分類装置10による処理手順の一例について説明する。
図7は、実施形態に係る分類処理の処理手順の一例を示すフローチャートである。
図7では、受付けられた文書データを構成する単語それぞれにTF―IDFスコアを付与する処理と、受付けられた文書データを判定する処理とを含む例が示されている。なお、
図7のフローチャートは、一つの文書データに対して行われる一連の処理を示しており、分類装置10は、受付けた文書データそれぞれに対し、一連の処理を繰り返し行うものとする。
【0057】
分類装置10の受付部12aは、例えば、報告書に対する指摘事項が記載された文書データを受付ける(ステップS101)。報告書に対する指摘事項が記載された文書データを受付けた場合に(ステップS101;Yes)、付与部12cは、文書データを構成する単語データにTF―IDFスコアを付与する(ステップS102)。一方、受付部12aは、報告書に対する指摘事項が記載された文書データを受付けていない場合(ステップS101;No)、文書データを受付けるまで待機する。
【0058】
その後、出力部12bは、文書データを学習データとして用いて生成された学習済みモデルを用いて、文書データの指摘事項の内容に対応する区分を出力する(ステップS103)。そして、判定部12eは、人により入力された区分と学習モデルにより出力された区分とが異なるか否かを判断する(ステップS104)。人により入力された区分と学習モデルにより出力された区分とが異なる場合には(ステップS104;Yes)、判定部12eは、指摘事項についての文章が区分を明確に判断することができない程に短いか否かを判定する(ステップS105)。
【0059】
指摘事項についての文章が区分を明確に判断することができない程に短くない場合には(ステップS105;No)、判定部12eは、人により区分が修正された後、当該文書データを再学習候補に追加することに同意されたか否かを判定する(ステップS106)。
【0060】
その後、人により区分が修正された後、当該文書データを再学習候補に追加することに同意された場合には(ステップS106;Yes)、判定部12eは、当該文書データを再学習候補に選別し(ステップS107)、分類装置10は、当該文書データに対する処理を終了する。
【0061】
一方で、指摘事項についての文章が区分を明確に判断することができない程に短い場合には(ステップS105;Yes)、判定部12eは、当該文書データを再学習の候補から除外し(ステップS108)、分類装置10は、当該文書データに対する処理を終了する。
【0062】
また、人により入力された区分と学習モデルにより出力された区分とが同一である場合(ステップS104;No)、または、人により区分が修正された後、当該文書データを再学習候補に追加することに同意されなかった場合や、人により区分が修正されなかった場合には(ステップS106;No)、分類装置10は、当該文書データに対する処理を終了する。
【0063】
〔5.効果〕
前述してきた通り、実施形態に係る分類装置10は、受付部12aと、出力部12bとを有する。受付部12aは、報告書に対する指摘事項が記載された文書データを受付ける。出力部12bは、文書データの区分を出力するためのモデルであって、文書データを学習データとして用いて生成された学習済みモデルを用いて、文書データの指摘事項の内容に対応する区分を出力する。
【0064】
これにより、分類装置10は、文書データを学習データとして用いて、文書データに対応する区分を出力するように学習された学習済みモデルを使用することにより、文書データに記録された指摘事項の内容について、容易に分類を行うことができるという効果を奏する。
【0065】
また、分類装置10は、付与部12cをさらに有する。付与部12cは、受付部12aによって受付けられた文書データを構成する単語データのそれぞれに、TF-IDFスコアを付与する。また、出力部12bは、文書データの区分を出力するためのモデルであって、文書データとTF―IDFスコアとを学習データとして用いて生成された学習済みモデルを用いて、文書データの区分を出力する。
【0066】
これにより、分類装置10は、受付けた文書データを構成する単語データのそれぞれに、単語の重要度を表すTF―IDFスコアを付与することによって、学習済みモデルにおいてTF―IDFスコアを説明変数として、文書データに対応する区分を出力することができるという効果を奏する。
【0067】
そして、分類装置10は、表示部12dをさらに有する。受付部12aは、文書データの作成者により入力された文書データの区分をさらに受付け、表示部12dは受付部12aによって受付けられた区分と、出力部12bによって出力された区分とが異なる場合に、文書データの作成者が入力した文書データの区分の修正を促す情報を表示する。
【0068】
これにより、分類装置10は、文書データの作成の際に、作成者によって入力された区分と出力された区分とが異なる場合に、警告メッセージ等を表示することにより、容易に作成者に区分の入力を修正させることができるという効果を奏する。
【0069】
また、分類装置10は、判定部12eをさらに有する。判定部12eは、出力部12bによって出力された区分とユーザによって入力された文書データの区分とが異なる文書データの指摘事項について、文書データの区分がユーザにより修正されたか否かを判定し、修正された場合には、当該区分が修正された文書データを再学習の対象候補に選別する。
【0070】
これにより、分類装置10は、学習済みモデルの再学習について、出力された区分とユーザによって入力された文書データの区分とが異なる文書データの指摘事項について、文書データの区分がユーザにより修正された場合には、当該文書データの区分はユーザにより区分の精査が行われた上で決定された区分であり、比較的正確な区分であるとして優先的に再学習候補に選別することにより、データアナリスト等の負担を軽減すること及び再学習の効率を向上させることができるという効果を奏する。
【0071】
さらに、分類装置10の判定部12eは、文書データの指摘事項についての文章の長さが所定の閾値よりも短いか否かを判定し、文書データの指摘事項についての文章の長さが所定の閾値よりも短い場合には、当該文書データを再学習の対象から除外する。
【0072】
これにより、分類装置10は、学習済みモデルの再学習について、文書データの指摘事項についての文章の長さが閾値よりも短い場合には、当該指摘事項の内容から区分を明確に判断することができないとして、不適切な学習データを再学習の対象から除外することにより、データアナリスト等の負担を軽減すること及び再学習の効率を向上させることができるという効果を奏する。
【0073】
また、前述の通り、実施形態に係る学習装置20は、取得部22aと、生成部22bとを有する。取得部22aは、報告書に対する指摘事項が記載された文書データと、文書データを構成する単語データのそれぞれに付与されたTF-IDFスコアと、文書データの指摘事項の内容に対応する区分とを含む学習データを取得する。生成部22bは、文書データの区分を出力するためのモデルであって、学習データを用いて学習済みモデルを生成する。
【0074】
これにより、学習装置20は、文書データと、文書データを構成する単語データに付与されたTF―IDFスコアと、文書データに対応する区分とが一連の情報となったデータセットを複数含む学習データを用いることにより、文書データと文書データを構成する単語データに付与されたTF―IDFスコアの入力により、文書データに対応する区分を出力する学習済みモデルを生成することができる。
【0075】
〔6.ハードウェア構成〕
また、前述してきた実施形態に係る分類装置10及び学習装置20は、例えば
図8に示すような構成のコンピュータ1000によって実現される。
図8は、ハードウェア構成の一例を示す図である。以下、実施形態に係る分類装置10を例に挙げて説明する。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、キャッシュ1040、メモリ1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続される。
【0076】
演算装置1030は、キャッシュ1040やメモリ1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。キャッシュ1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するキャッシュである。また、メモリ1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ等により実現されるメモリである。
【0077】
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USBやDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現されてよい。一方、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。
【0078】
例えば、入力装置1020は、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置により実現されてもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体により実現されてもよい。
【0079】
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する機能を有する。
【0080】
ここで、演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行うこととなる。例えば、演算装置1030は、入力装置1020やメモリ1050からプログラムをキャッシュ1040上にロードし、ロードしたプログラムを実行する。例えば、コンピュータ1000が分類装置10として機能する場合、コンピュータ1000の演算装置1030は、キャッシュ1040上にロードされたプログラムを実行することにより、制御部12の機能を実現することとなる。
【0081】
以上、本願の実施形態を図面に基づいて詳細に説明した。しかしながら、これらは例示であり、本願の実施形態は、発明の開示の欄に記載の態様を始めとして、所謂当業者の知識に基づいて種々の変形、改良を施した他の形態で実施することが可能である。
【0082】
〔7.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0083】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、上述してきた実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【符号の説明】
【0084】
10 分類装置
11、21 通信部
12、22 制御部
12a 受付部
12b 出力部
12c 付与部
12d 表示部
12e 判定部
13、23 記憶部
13a 受付情報記憶部
13b 出力情報記憶部
20 学習装置
22a 取得部
22b 生成部
23a 取得情報記憶部