特開2024-140057 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＴＩＳ株式会社の特許一覧

特開2024-140057分類装置、分類方法及び学習装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024140057

(43)【公開日】2024-10-10

(54)【発明の名称】分類装置、分類方法及び学習装置

(51)【国際特許分類】

G06F 16/35 20190101AFI20241003BHJP

【ＦＩ】

G06F16/35

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2023051044

(22)【出願日】2023-03-28

(71)【出願人】

【識別番号】514020389

【氏名又は名称】ＴＩＳ株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】吉原則彦

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175FA03

5B175HB03

(57)【要約】

【課題】容易に記録内容の分類を行うこと。
【解決手段】本願に係る分類装置１０は、受付部１２ａと、出力部１２ｂとを有する。受付部１２ａは、報告書に対する指摘事項が記載された文書データを受付ける。出力部１２ｂは、文書データの区分を出力するためのモデルであって、文書データを学習データとして用いて生成された学習済みモデルを用いて、文書データの指摘事項の内容に対応する区分を出力する。
【選択図】図２

【特許請求の範囲】

【請求項1】

報告書に対する指摘事項が記載された文書データを受付ける受付部と、
前記文書データの区分を出力するためのモデルであって、前記文書データを学習データとして用いて生成された学習済みモデルを用いて、前記文書データの指摘事項の内容に対応する区分を出力する出力部と、
を有することを特徴とする分類装置。

【請求項2】

前記受付部によって受付けられた前記文書データを構成する単語データのそれぞれに、ＴＦ-ＩＤＦスコアを付与する付与部をさらに有し、
前記出力部は、前記文書データの区分を出力するためのモデルであって、前記文書データと前記ＴＦ-ＩＤＦスコアとを学習データとして用いて生成された学習済みモデルを用いて、前記文書データの前記区分を出力する
ことを特徴とする請求項１に記載の分類装置。

【請求項3】

前記受付部は、前記文書データの作成者により入力された前記文書データの前記区分をさらに受付け、
前記受付部によって受付けられた前記区分と、前記出力部によって出力された前記区分とが異なる場合に、前記文書データの作成者が入力した前記文書データの前記区分の修正を促す情報を表示する表示部をさらに有する
ことを特徴とする請求項１に記載の分類装置。

【請求項4】

前記出力部によって出力された区分とユーザによって入力された文書データの区分とが異なる文書データの指摘事項について、前記文書データの区分がユーザにより修正されたか否かを判定し、修正された場合には、当該区分が修正された文書データを再学習の対象候補に選別する判定部をさらに有する
ことを特徴とする請求項１に記載の分類装置。

【請求項5】

前記文書データの指摘事項についての文章の長さが所定の閾値よりも短いか否かを判定し、前記文書データの指摘事項についての文章の長さが所定の閾値よりも短い場合には、当該文書データを再学習の対象から除外する判定部をさらに有する
ことを特徴とする請求項１に記載の分類装置。

【請求項6】

分類装置で実行される分類方法であって、
報告書に対する指摘事項が記載された文書データを受付ける受付工程と、
前記文書データの区分を出力するためのモデルであって、前記文書データを学習データとして用いて生成された学習済みモデルを用いて、前記文書データの指摘事項の内容に対応する区分を出力する出力工程と、
を含むことを特徴とする分類方法。

【請求項7】

報告書に対する指摘事項が記載された文書データと、前記文書データを構成する単語データのそれぞれに付与されたＴＦ-ＩＤＦスコアと、前記文書データの指摘事項の内容に対応する区分とを含む学習データを取得する取得部と、
前記文書データの区分を出力するためのモデルであって、前記学習データを用いて学習済みモデルを生成する生成部と、
を含むことを特徴とする学習装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、分類装置、分類方法及び学習装置に関する。

【背景技術】

【0002】

従来、企業の様々なプロジェクトの現場において、不具合が生じた際には、不具合内容の記録と、その不具合内容の分類の選択とを行っている。そして、不具合内容の分類の選択は、開発者等の記録者が予め作成された分類表を参照することにより行っている場合がある。

【0003】

また、従来技術として、文書内のそれぞれの単語の重要度を表すＴＦ―ＩＤＦスコアという数値が知られている。ＴＦ―ＩＤＦスコアは、ＴＦ（Term Frequency）が示す単語頻度の値と、ＩＤＦ（Inverse Document Frequency）が示す逆文書頻度の値とに基づき算出される。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】“ｔｆ―ｉｄｆ（term frequency － inverse document frequency）とは？”、［online］、［令和５年２月１４日検索］、インターネット＜https://atmarkit.itmedia.co.jp/ait/articles/2112/23/news028.html＞

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかし、従来の技術では、容易に記録内容の分類を行うことができない場合があるという課題があった。例えば、記録者が不具合内容の分類を行う際に、数多くの内容が記載された分類表の中から適切なものを選ぶため、分類の選択に時間を要することや、記録者が分類の選択を誤ることにより、不具合内容の記録表の品質が低下するという課題があった。

【課題を解決するための手段】

【0006】

上述した課題を解決し、目的を達成するために、本発明の分類装置は、報告書に対する指摘事項が記載された文書データを受付ける受付部と、文書データの区分を出力するためのモデルであって、文書データを学習データとして用いて生成された学習済みモデルを用いて、文書データの指摘事項の内容に対応する区分を出力する出力部とを有することを特徴とする。

【発明の効果】

【0007】

本発明によれば、容易に記録内容の分類を行うことができる。

【図面の簡単な説明】

【0008】

【図1】図１は、実施形態に係る分類装置を含むシステムの概要を示す図である。

【図2】図２は、実施形態に係る分類装置の構成例を示す図である。

【図3】図３は、実施形態に係るＴＦ-ＩＤＦスコアの付与処理の具体例を示す図である。

【図4】図４は、実施形態に係る学習装置の構成例を示す図である。

【図5】図５は、実施形態に係る分類処理によって表示される画面の具体例を示す図である。

【図6】図６は、実施形態に係る分類処理によって表示される画面の具体例を示す図である。

【図7】図７は、実施形態に係る分類処理の処理手順の一例を示すフローチャートである。

【図8】図８は、ハードウェア構成の一例を示す図である。

【発明を実施するための形態】

【0009】

以下に、本願に係る分類装置、分類方法及び学習装置を実施するための形態（以下、「実施形態」と呼ぶ）を図面に基づいて詳細に説明する。なお、この実施形態により本願に係る分類装置、分類方法及び学習装置が限定されるものではない。

【0010】

（実施形態）
〔１．はじめに〕
まず、図１を参照し、本実施形態に係る分類装置を含むシステムの概要について説明する。図１は、実施形態に係る分類装置を含むシステムの概要を示す図である。分類装置１０は、例えば、学習済みの分類モデルを有するデスクトップＰＣ（Personal Computer）やノートＰＣ、サーバ装置等の情報処理装置であり、記録者によって入力された、報告書に対する指摘事項が記載された文書データを外部から受付け、学習済みの分類モデルを使用することにより、文書データの区分を出力する。

【0011】

分類装置１０は、報告書に対する指摘事項が記載された文書データを受付け、文書データの区分を出力するためのモデルであって、文書データを学習データとして用いて生成された学習済みモデルを用いて、文書データの指摘事項の内容に対応する区分を出力する。

【0012】

分類装置１０は、まず、報告書に対する指摘事項が記載された文書データを受付ける。例えば、分類装置１０は、プロジェクトにおける不具合内容の報告書や設計書等の報告書について、記録者による報告内容に対する指摘事項が記載された文書データを受付ける。ここで、分類装置１０は、記録者の入力により文書データを直接受付けてもよいし、分類装置１０とネットワークとが接続され、外部からネットワークを介して文書データを受付けてもよい。

【0013】

そして、分類装置１０は、文書データの区分を出力するためのモデルであって、文書データを学習データとして用いて生成された学習済みモデルを用いて、文書データの指摘事項の内容に対応する区分を出力する。

【0014】

例えば、分類装置１０は、後述する学習装置２０によって生成された、文書データの入力に対し文書データの区分を出力する学習済みの分類モデルを使用して、文書データの指摘事項の内容に対応する区分（カテゴリ名）を出力する。ここで、分類モデルは、分類装置１０が有する場合に限定されるものではなく、分類装置１０と分類モデルを有する情報処理端末とが接続されることにより、間接的に使用されてもよい。

【0015】

〔２．分類装置１０及び学習装置２０の構成〕
次に、図２及び図４を参照し、分類装置１０及び学習装置２０の構成について説明する。図２は、実施形態に係る分類装置の構成例を示す図であり、図４は、実施形態に係る学習装置の構成例を示す図である。

【0016】

（２－１．分類装置１０）
まず、図２を参照し、分類装置１０の構成例について説明する。図２に示すように、分類装置１０は、通信部１１と、制御部１２と、記憶部１３とを有する。通信部１１は、例えば、ＮＩＣ（Network Interface Card）等によって実現され、外部のネットワーク等と有線又は無線によって接続されることにより、情報の送受信を行う。

【0017】

また、通信部１１は、例えば、分類装置１０と外部のネットワークとが接続されていない状態においては、記録者により直接文書データが入力される場合や、ＵＳＢ（Universal Serial Bus）等の可搬メディアを利用して情報が入力される場合に、入力された情報を後述する受付部１２ａに伝達する。

【0018】

記憶部１３は、例えば、ＲＡＭ（Random Access Memory）やハードディスク等の記憶装置によって実現される。記憶部１３は、制御部１２による各種処理に必要なデータ及びプログラムを格納するが、特に本発明に密接に関連するものとしては、受付情報記憶部１３ａと、出力情報記憶部１３ｂとを有する。

【0019】

受付情報記憶部１３ａは、例えば、後述する受付部１２ａによって受付けられた文書データや文書データの作成者によって入力された文書データの区分、後述する付与部１２ｃによって付与されたＴＦ―ＩＤＦスコアについて、対応する文書データと関連付けて記憶する。

【0020】

出力情報記憶部１３ｂは、例えば、後述する出力部１２ｂによって出力された文書データの指摘事項の内容に対応する区分や、対応すると考えられる区分の候補等について記憶する。

【0021】

制御部１２は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、分類装置１０内部の記憶装置に記憶されている各種プログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部１２は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの集積回路により実現される。制御部１２は、受付部１２ａと、出力部１２ｂとを有し、必要に応じて、付与部１２ｃと、表示部１２ｄと、判定部１２ｅとを有してもよい。

【0022】

受付部１２ａは、報告書に対する指摘事項が記載された文書データを受付ける。そして、受付部１２ａは、受付けた情報を受付情報記憶部１３ａに格納する。例えば、受付部１２ａは、プロジェクトにおける不具合内容の報告書や設計書等の報告書について、「報告書のタイトルが古い」や「報告書の図表がずれている」等の、報告書の内容についての指摘事項が記載された文書データを受付ける。その後、受付部１２ａは、受付けた文書データを受付情報記憶部１３ａに格納する。

【0023】

また、受付部１２ａは、文書データの作成者により入力された文書データの区分をさらに受付けてもよい。例えば、受付部１２ａは、文書データの受付と同時に、文書データの作成者によって入力された、文書データの指摘事項に対応すると考えられた区分について受付け、対応する文書データと関連付けて受付情報記憶部１３ａに格納する。

【0024】

出力部１２ｂは、文書データの区分を出力するためのモデルであって、文書データを学習データとして用いて生成された学習済みモデルを用いて、文書データの指摘事項の内容に対応する区分を出力する。そして、出力部１２ｂは、出力した区分を文書データと関連付けて出力情報記憶部１３ｂに格納する。

【0025】

例えば、出力部１２ｂは、後述する学習装置２０によって生成された、文書データの区分を出力する学習済みモデルを使用して、受付情報記憶部１３ａに記憶された情報を参照することにより、前述の指摘事項の内容に対応する区分（カテゴリ名）を出力し、出力した区分を文書データと関連付けて出力情報記憶部１３ｂに格納する。なお、前述の出力される区分は、例えば、予め設定された数十種類の区分の中から分類として適しているものが出力され、１つに限られるものではなく、分類として可能性の高い複数の区分を優先的に出力してもよい。

【0026】

ここで、学習済みモデルは、後述する学習装置２０によって、ＴＦ―ＩＤＦスコアを学習データとして入力して生成されるモデルに限られるものではなく、例えば、文書データの類似性を数値化した情報を学習データとして入力し、文書データに対応する区分を出力するように生成されたモデルであってもよい。

【0027】

また、出力部１２ｂは、文書データの区分を出力するためのモデルであって、文書データとＴＦ-ＩＤＦスコアとを学習データとして用いて生成された学習済みモデルを用いて、文書データの区分を出力してもよい。

【0028】

例えば、出力部１２ｂは、受付情報記憶部１３ａに記憶された、文書データと、文書データを構成する単語データのそれぞれに付与されたＴＦ―ＩＤＦスコアとを参照することにより、後述する学習装置２０によって生成された学習済みモデルを使用して、文書データと対応する区分を出力する。

【0029】

付与部１２ｃは、受付部１２ａによって受付けられた文書データを構成する単語データのそれぞれに、ＴＦ―ＩＤＦスコアを付与する。そして、付与部１２ｃは、付与したＴＦ―ＩＤＦスコアを対応する文書データと関連付けて受付情報記憶部１３ａに格納する。

【0030】

例えば、付与部１２ｃは、受付情報記憶部１３ａに記憶された文書データを参照し、文書データを単語データに分割して、それぞれの単語データに単語頻度の値と、逆文書頻度の値とに基づき算出されたＴＦ―ＩＤＦスコアを付与する。そして、付与部１２ｃは、付与したＴＦ―ＩＤＦスコアを対応する文書データと関連付けて受付情報記憶部１３ａに格納する。

【0031】

ここで、付与部１２ｃが行うＴＦ―ＩＤＦスコアの付与処理について図３を参照して説明する。図３は、実施形態に係るＴＦ―ＩＤＦスコアの付与処理の具体例を示す図である。図３の例では、まず、付与部１２ｃは、受付情報記憶部１３ａに記憶された、「タイトルの大きさが間違っている」と指摘事項が記載された文書データと、「ログイン画面は２画面にしたい」と指摘事項が記載された文書データとを、それぞれ単語データに分割する。

【0032】

その後、付与部１２ｃは、分割されたそれぞれの単語データについて、前述のＴＦ―ＩＤＦスコアを付与する。例えば、「タイトルの文字の大きさが間違っている」の文書については、「タイトル：０．３」、「文字：０．２」、「大きさ：０．２」、「間違っている：０．４」のＴＦ―ＩＤＦスコアが付与される。そして、付与部１２ｃは、付与したＴＦ―ＩＤＦスコアについて、対応する文書データと関連付けて受付情報記憶部１３ａに格納する。

【0033】

表示部１２ｄは、受付部１２ａによって受付けられた区分と、出力部１２ｂによって出力された区分とが異なる場合に、文書データの作成者が入力した文書データの区分の修正を促す情報を表示する。

【0034】

例えば、表示部１２ｄは、前述の文書データの作成者によって入力された文書データの指摘事項に対応すると考えられた区分と、前述の学習済みモデルを使用して出力された区分とが異なる場合に、区分が間違っている旨を通知する警告メッセージや、文書データに対応する区分として可能性が高い区分の候補を表示する。

【0035】

判定部１２ｅは、出力部１２ｂによって出力された区分とユーザによって入力された文書データの区分とが異なる文書データの指摘事項について、文書データの区分がユーザにより修正されたか否かを判定し、修正された場合には、当該区分が修正された文書データを再学習の対象候補に選別する。

【0036】

例えば、判定部１２ｅは、出力部１２ｂによって出力された区分と、ユーザによって入力された区分とが異なる指摘事項について、ユーザによって当該文書データの区分が修正された場合に、当該文書データの区分はユーザにより区分の精査が行われた上で決定された区分であり、比較的正確な区分であるとして、当該文書データを学習済みモデルの再学習候補に選別する。

【0037】

ここで、後述する学習装置２０によって生成された学習済みモデルは、半年に１回や年に１回といった周期で、定期的にデータアナリスト等によって選別及び精緻化した学習データにより再学習が行われるものとする。また、分類装置１０によって区分が出力された文書データは、そのほとんどがデータアナリスト等による選別によって、再学習候補に追加または再学習候補から除外されるものとする。

【0038】

また、判定部１２ｅは、文書データの指摘事項についての文章の長さが所定の閾値よりも短いか否かを判定し、文書データの指摘事項についての文章の長さが所定の閾値よりも短い場合には、当該文書データを再学習の対象から除外してもよい。

【0039】

例えば、判定部１２ｅは、文書データの指摘事項についての文章の長さが予め設定された閾値よりも短い場合に、当該文書データの指摘事項が区分を明確に判断することができる程度に明確ではないとして、当該文書データを再学習候補から除外する。

【0040】

ここで、前述の判定部１２ｅによる文書データを再学習候補から除外する処理について以下の例を挙げて説明する。例えば、文書データの指摘事項が「線の色が違う（６文字）」のみである場合に、判定部１２ｅは当該指摘事項の文章の長さ（６文字）が、予め設定された閾値（１０文字）よりも短い場合に、当該文書データを再学習候補から除外する。

【0041】

なお、当該指摘事項「線の色が違う」については、当該指摘事項が文書データのどの線を対象としたものかが明確ではないため、当該指摘事項に対応する区分が「レイアウト不備」であるか「標準化不備」であるかが明確ではない。つまり、判定部１２ｅは、指摘事項についての文章が閾値よりも短い場合には、指摘事項の内容が明確ではない場合が多いことから、当該文書データを再学習に使用することは適切ではないとして、当該文書データを再学習候補から除外する。

【0042】

（２－２．学習装置２０）
次に、図４を参照し、学習装置２０の構成例について説明する。図４に示すように、学習装置２０は、通信部２１と、制御部２２と、記憶部２３とを有する。ここで、通信部２１及び制御部２２、記憶部２３は、それぞれ前述の通信部１１及び制御部１２、記憶部１３と基本的な構成は同様であるが、記憶部２３が取得情報記憶部２３ａを有し、制御部２２が取得部２２ａと生成部２２ｂとを有する点が異なる。

【0043】

取得情報記憶部２３ａは、例えば、後述する取得部２２ａによって取得された、報告書に対する指摘事項が記載された文書データと、単語データのそれぞれに付与されたＴＦ―ＩＤＦスコアと、文書データの指摘事項の内容に対応する区分とを含む学習データについて、文書データごとにそれぞれの情報を関連付けて記憶する。

【0044】

取得部２２ａは、報告書に対する指摘事項が記載された文書データと、文書データを構成する単語データのそれぞれに付与されたＴＦ―ＩＤＦスコアと、文書データの指摘事項の内容に対応する区分とを含む学習データを取得する。そして、取得部２２ａは、取得した学習データを取得情報記憶部２３ａに格納する。

【0045】

例えば、取得部２２ａは、前述の文書データと、当該文書データを構成する単語について付与されたＴＦ―ＩＤＦスコアと、当該文書データの区分とが一連の情報として含まれた学習データを、通信部２１を介して取得し、取得した学習データを取得情報記憶部２３ａに格納する。

【0046】

生成部２２ｂは、文書データの区分を出力するためのモデルであって、学習データを用いて学習済みモデルを生成する。例えば、生成部２２ｂは、取得情報記憶部２３ａに記憶された学習データを用いた教師あり学習を行うことにより、文書データ及び文書データのＴＦ―ＩＤＦスコアを入力として、文書データの区分を出力する学習済みモデルを生成する。なお、学習済みモデルの生成方法は、教師あり学習を行うものに限られるものではないものとする。

【0047】

〔３．分類処理の具体例〕
ここで、図５及び図６を参照し、分類装置１０により出力された区分の表示例や、表示部１２ｄによって表示される、区分の修正を促す情報の例について説明する。図５及び図６は、実施形態に係る分類処理によって表示される画面の具体例を示す図である。図５は、入力が完了した文書データに対して処理が行われた例であり、図６は、文書データの作成者による入力の際に処理が行われた例である。

【0048】

まず、図５の例について説明する。図５の例では、文書データごとに、文書データの番号、案件名、設計書名、指摘情報、指摘区分、ＡＩによる指摘候補が記載されている。また、図５において、分類装置１０は、「×××案件」の「●●設計書」に対する指摘事項が記載された文書を、文書データとして受付けている。

【0049】

そして、文書データに記載された指摘事項の例として、「ＮＯ２」の文書データの指摘情報は「２０ページの×××の漢字が違う。」であることが示されている。また、分類装置１０は、文書データの受付と同時に、文書データの作成者が入力した区分を受付けており、例えば、「ＮＯ２」の文書データの指摘区分について、「Ａ０３」という入力を受付けている。

【0050】

ここで、分類装置１０は、受付けた文書データのそれぞれについて対応する区分を出力するが、分類装置１０が出力する「ＮＯ２」の文書に対応する区分は、作成者が入力した区分「Ａ０３」と異なる「Ａ０４」となったため、ＡＩによる指摘候補に「Ａ０４」が記載されている。一方で、「ＮＯ１」の文書のように、作成者が入力した区分と分類装置１０が出力した区分とが同じである場合は、ＡＩによる指摘候補は空欄となる。

【0051】

分類装置１０は、図５に示す例のような表を作成することにより、文書データの管理者等が作成された文書データを見直す際に、作成者が入力した区分に間違いがある可能性が高い文書データを容易に把握させることができる。

【0052】

次に、図６について説明する。図６の例では、２つの表示例が示されている。図６（１）の例では、文書データの作成者が、文書データとそれに対応する区分とを入力した際に、入力された区分と分類装置１０により出力された区分とが異なる場合に、警告メッセージを表示している。

【0053】

具体的には、入力された区分「Ａ０１」の修正を促す情報として、「区分が間違っている可能性があります。」という警告メッセージを表示している。これにより、文書データの作成者に区分の修正を促し、適切な区分を入力させることができる。

【0054】

一方で、図６（２）の例では、文書データの作成者による、報告書である「●●設計書」に対して「１９ページの×××のタイトルが古い。」との指摘事項の入力中または入力後に、分類装置が出力した、区分として可能性が高い区分の候補「Ａ０１」、「Ａ０３」、「Ａ０４」を表示している。これにより、文書データの作成者は表示された候補の中から区分を選択することができるため、容易に適切な区分を入力することができる。

【0055】

なお、前述の図６（２）では、文書データの作成者が対応する区分を入力する前に、区分として可能性が高い区分の候補を表示する例を説明したが、これに限られるものではない。例えば、図６（１）の例における警告メッセージが表示された後に、入力した区分の修正を促す情報として、区分として可能性が高い区分の候補を表示してもよい。

【0056】

〔４．分類装置による処理手順〕
次に、図７を用いて、実施形態に係る分類装置１０による処理手順の一例について説明する。図７は、実施形態に係る分類処理の処理手順の一例を示すフローチャートである。図７では、受付けられた文書データを構成する単語それぞれにＴＦ―ＩＤＦスコアを付与する処理と、受付けられた文書データを判定する処理とを含む例が示されている。なお、図７のフローチャートは、一つの文書データに対して行われる一連の処理を示しており、分類装置１０は、受付けた文書データそれぞれに対し、一連の処理を繰り返し行うものとする。

【0057】

分類装置１０の受付部１２ａは、例えば、報告書に対する指摘事項が記載された文書データを受付ける（ステップＳ１０１）。報告書に対する指摘事項が記載された文書データを受付けた場合に（ステップＳ１０１；Ｙｅｓ）、付与部１２ｃは、文書データを構成する単語データにＴＦ―ＩＤＦスコアを付与する（ステップＳ１０２）。一方、受付部１２ａは、報告書に対する指摘事項が記載された文書データを受付けていない場合（ステップＳ１０１；Ｎｏ）、文書データを受付けるまで待機する。

【0058】

その後、出力部１２ｂは、文書データを学習データとして用いて生成された学習済みモデルを用いて、文書データの指摘事項の内容に対応する区分を出力する（ステップＳ１０３）。そして、判定部１２ｅは、人により入力された区分と学習モデルにより出力された区分とが異なるか否かを判断する（ステップＳ１０４）。人により入力された区分と学習モデルにより出力された区分とが異なる場合には（ステップＳ１０４；Ｙｅｓ）、判定部１２ｅは、指摘事項についての文章が区分を明確に判断することができない程に短いか否かを判定する（ステップＳ１０５）。

【0059】

指摘事項についての文章が区分を明確に判断することができない程に短くない場合には（ステップＳ１０５；Ｎｏ）、判定部１２ｅは、人により区分が修正された後、当該文書データを再学習候補に追加することに同意されたか否かを判定する（ステップＳ１０６）。

【0060】

その後、人により区分が修正された後、当該文書データを再学習候補に追加することに同意された場合には（ステップＳ１０６；Ｙｅｓ）、判定部１２ｅは、当該文書データを再学習候補に選別し（ステップＳ１０７）、分類装置１０は、当該文書データに対する処理を終了する。

【0061】

一方で、指摘事項についての文章が区分を明確に判断することができない程に短い場合には（ステップＳ１０５；Ｙｅｓ）、判定部１２ｅは、当該文書データを再学習の候補から除外し（ステップＳ１０８）、分類装置１０は、当該文書データに対する処理を終了する。

【0062】

また、人により入力された区分と学習モデルにより出力された区分とが同一である場合（ステップＳ１０４；Ｎｏ）、または、人により区分が修正された後、当該文書データを再学習候補に追加することに同意されなかった場合や、人により区分が修正されなかった場合には（ステップＳ１０６；Ｎｏ）、分類装置１０は、当該文書データに対する処理を終了する。

【0063】

〔５．効果〕
前述してきた通り、実施形態に係る分類装置１０は、受付部１２ａと、出力部１２ｂとを有する。受付部１２ａは、報告書に対する指摘事項が記載された文書データを受付ける。出力部１２ｂは、文書データの区分を出力するためのモデルであって、文書データを学習データとして用いて生成された学習済みモデルを用いて、文書データの指摘事項の内容に対応する区分を出力する。

【0064】

これにより、分類装置１０は、文書データを学習データとして用いて、文書データに対応する区分を出力するように学習された学習済みモデルを使用することにより、文書データに記録された指摘事項の内容について、容易に分類を行うことができるという効果を奏する。

【0065】

また、分類装置１０は、付与部１２ｃをさらに有する。付与部１２ｃは、受付部１２ａによって受付けられた文書データを構成する単語データのそれぞれに、ＴＦ-ＩＤＦスコアを付与する。また、出力部１２ｂは、文書データの区分を出力するためのモデルであって、文書データとＴＦ―ＩＤＦスコアとを学習データとして用いて生成された学習済みモデルを用いて、文書データの区分を出力する。

【0066】

これにより、分類装置１０は、受付けた文書データを構成する単語データのそれぞれに、単語の重要度を表すＴＦ―ＩＤＦスコアを付与することによって、学習済みモデルにおいてＴＦ―ＩＤＦスコアを説明変数として、文書データに対応する区分を出力することができるという効果を奏する。

【0067】

そして、分類装置１０は、表示部１２ｄをさらに有する。受付部１２ａは、文書データの作成者により入力された文書データの区分をさらに受付け、表示部１２ｄは受付部１２ａによって受付けられた区分と、出力部１２ｂによって出力された区分とが異なる場合に、文書データの作成者が入力した文書データの区分の修正を促す情報を表示する。

【0068】

これにより、分類装置１０は、文書データの作成の際に、作成者によって入力された区分と出力された区分とが異なる場合に、警告メッセージ等を表示することにより、容易に作成者に区分の入力を修正させることができるという効果を奏する。

【0069】

また、分類装置１０は、判定部１２ｅをさらに有する。判定部１２ｅは、出力部１２ｂによって出力された区分とユーザによって入力された文書データの区分とが異なる文書データの指摘事項について、文書データの区分がユーザにより修正されたか否かを判定し、修正された場合には、当該区分が修正された文書データを再学習の対象候補に選別する。

【0070】

これにより、分類装置１０は、学習済みモデルの再学習について、出力された区分とユーザによって入力された文書データの区分とが異なる文書データの指摘事項について、文書データの区分がユーザにより修正された場合には、当該文書データの区分はユーザにより区分の精査が行われた上で決定された区分であり、比較的正確な区分であるとして優先的に再学習候補に選別することにより、データアナリスト等の負担を軽減すること及び再学習の効率を向上させることができるという効果を奏する。

【0071】

さらに、分類装置１０の判定部１２ｅは、文書データの指摘事項についての文章の長さが所定の閾値よりも短いか否かを判定し、文書データの指摘事項についての文章の長さが所定の閾値よりも短い場合には、当該文書データを再学習の対象から除外する。

【0072】

これにより、分類装置１０は、学習済みモデルの再学習について、文書データの指摘事項についての文章の長さが閾値よりも短い場合には、当該指摘事項の内容から区分を明確に判断することができないとして、不適切な学習データを再学習の対象から除外することにより、データアナリスト等の負担を軽減すること及び再学習の効率を向上させることができるという効果を奏する。

【0073】

また、前述の通り、実施形態に係る学習装置２０は、取得部２２ａと、生成部２２ｂとを有する。取得部２２ａは、報告書に対する指摘事項が記載された文書データと、文書データを構成する単語データのそれぞれに付与されたＴＦ-ＩＤＦスコアと、文書データの指摘事項の内容に対応する区分とを含む学習データを取得する。生成部２２ｂは、文書データの区分を出力するためのモデルであって、学習データを用いて学習済みモデルを生成する。

【0074】

これにより、学習装置２０は、文書データと、文書データを構成する単語データに付与されたＴＦ―ＩＤＦスコアと、文書データに対応する区分とが一連の情報となったデータセットを複数含む学習データを用いることにより、文書データと文書データを構成する単語データに付与されたＴＦ―ＩＤＦスコアの入力により、文書データに対応する区分を出力する学習済みモデルを生成することができる。

【0075】

〔６．ハードウェア構成〕
また、前述してきた実施形態に係る分類装置１０及び学習装置２０は、例えば図８に示すような構成のコンピュータ１０００によって実現される。図８は、ハードウェア構成の一例を示す図である。以下、実施形態に係る分類装置１０を例に挙げて説明する。コンピュータ１０００は、出力装置１０１０、入力装置１０２０と接続され、演算装置１０３０、キャッシュ１０４０、メモリ１０５０、出力ＩＦ（Interface）１０６０、入力ＩＦ１０７０、ネットワークＩＦ１０８０がバス１０９０により接続される。

【0076】

演算装置１０３０は、キャッシュ１０４０やメモリ１０５０に格納されたプログラムや入力装置１０２０から読み出したプログラム等に基づいて動作し、各種の処理を実行する。キャッシュ１０４０は、ＲＡＭ等、演算装置１０３０が各種の演算に用いるデータを一次的に記憶するキャッシュである。また、メモリ１０５０は、演算装置１０３０が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ＲＯＭ(Read Only Memory)、ＨＤＤ（Hard Disk Drive）、フラッシュメモリ等により実現されるメモリである。

【0077】

出力ＩＦ１０６０は、モニタやプリンタといった各種の情報を出力する出力装置１０１０に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、ＵＳＢやＤＶＩ（Digital Visual Interface）、ＨＤＭＩ（登録商標）（High Definition Multimedia Interface）といった規格のコネクタにより実現されてよい。一方、入力ＩＦ１０７０は、マウス、キーボード、およびスキャナ等といった各種の入力装置１０２０から情報を受信するためのインタフェースであり、例えば、ＵＳＢ等により実現される。

【0078】

例えば、入力装置１０２０は、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置により実現されてもよい。また、入力装置１０２０は、ＵＳＢメモリ等の外付け記憶媒体により実現されてもよい。

【0079】

ネットワークＩＦ１０８０は、ネットワークＮを介して他の機器からデータを受信して演算装置１０３０へ送り、また、ネットワークＮを介して演算装置１０３０が生成したデータを他の機器へ送信する機能を有する。

【0080】

ここで、演算装置１０３０は、出力ＩＦ１０６０や入力ＩＦ１０７０を介して、出力装置１０１０や入力装置１０２０の制御を行うこととなる。例えば、演算装置１０３０は、入力装置１０２０やメモリ１０５０からプログラムをキャッシュ１０４０上にロードし、ロードしたプログラムを実行する。例えば、コンピュータ１０００が分類装置１０として機能する場合、コンピュータ１０００の演算装置１０３０は、キャッシュ１０４０上にロードされたプログラムを実行することにより、制御部１２の機能を実現することとなる。

【0081】

以上、本願の実施形態を図面に基づいて詳細に説明した。しかしながら、これらは例示であり、本願の実施形態は、発明の開示の欄に記載の態様を始めとして、所謂当業者の知識に基づいて種々の変形、改良を施した他の形態で実施することが可能である。

【0082】

〔７．その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

【0083】

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、上述してきた実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

【符号の説明】

【0084】

１０分類装置
１１、２１通信部
１２、２２制御部
１２ａ受付部
１２ｂ出力部
１２ｃ付与部
１２ｄ表示部
１２ｅ判定部
１３、２３記憶部
１３ａ受付情報記憶部
１３ｂ出力情報記憶部
２０学習装置
２２ａ取得部
２２ｂ生成部
２３ａ取得情報記憶部

【図1】