(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024163498
(43)【公開日】2024-11-22
(54)【発明の名称】情報処理システム及び情報処理方法
(51)【国際特許分類】
G06Q 10/04 20230101AFI20241115BHJP
【FI】
G06Q10/04
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2023079182
(22)【出願日】2023-05-12
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110001689
【氏名又は名称】青稜弁理士法人
(72)【発明者】
【氏名】角掛 正弥
(72)【発明者】
【氏名】是枝 祐太
(72)【発明者】
【氏名】丹羽 雄平
(72)【発明者】
【氏名】井上 鉄平
【テーマコード(参考)】
5L010
5L049
【Fターム(参考)】
5L010AA04
5L049AA04
(57)【要約】
【課題】情報処理システムにおいて、文書データに記載されている業務の実施状況等に基づいて自動的かつ高精度に業務の完了時期を予測する。
【解決手段】業務文書から時間表現を伴う文章を抽出するテキスト抽出部と、業務工程に関連する工程関連情報に基づいて文章から業務の工程を特定し、時間表現を参照して業務の工程ごとに工程従事時期を推定する工程従事時期推定部と、業務完了時期パラメータと工程従事時期に基づいて業務の完了時期を予測する業務完了時期類推部とを有する。
【選択図】
図1A
【特許請求の範囲】
【請求項1】
業務に関する時間表現を含む文章を有する業務文書から前記業務の完了時期を予測する情報処理システムであって、
前記業務文書から前記時間表現を伴う文章を抽出するテキスト抽出部と、
前記業務の工程に関連する工程関連情報に基づいて、前記抽出された文章から前記業務の工程を特定し、前記時間表現を参照して前記業務の工程ごとに工程従事時期を推定する工程従事時期推定部と、
前記業務の完了時期に関連する業務完了時期パラメータと前記工程従事時期に基づいて、前記業務の完了時期を予測する業務完了時期類推部と、
を有することを特徴とする情報処理システム。
【請求項2】
請求項1に記載の情報処理システムであって、
前記テキスト抽出部は、
前記業務文書を複数の前記文章に分割し、
分割した前記文章に前記時間表現が存在するかを判定することにより前記業務文書から前記時間表現を伴う文章を抽出することを特徴とする情報処理システム。
【請求項3】
請求項1に記載の情報処理システムであって、
前記工程従事時期推定部は、
抽出された前記文章に含まれる前記時間表現を正規化し、
正規化した前記時間表現に欠けている年月日を補完することを特徴とする情報処理システム。
【請求項4】
請求項1に記載の情報処理システムであって、
前記工程従事時期推定部は、
抽出された前記文章に含まれる前記時間表現を、実施した作業を指し示す時間表現と未来の作業予定を指し示す時間表現に区分し、
前記区分を用いて前記工程従事時期を推定することを特徴とする情報処理システム。
【請求項5】
請求項1に記載の情報処理システムであって、
前記工程関連情報として、複数の前記業務の工程の業務工程一覧を格納する工程関連情報データベースを有し、
前記工程従事時期推定部は、
前記抽出された文章と前記業務工程一覧とを対比することにより、前記文章から前記業務の工程を特定することを特徴とする情報処理システム。
【請求項6】
請求項1に記載の情報処理システムであって、
前記業務完了時期類推部は、
前記業務完了時期パラメータとして、前記業務の完了時期の類推処理を制御する設定値を含むデータを用いて前記業務の完了時期を予測することを特徴とする情報処理システム。
【請求項7】
請求項1に記載の情報処理システムであって、
前記業務完了時期類推部は、
前記業務の工程ごとの工程別所要日数を用いて前記業務の完了時期を予測することを特徴とする情報処理システム。
【請求項8】
請求項1に記載の情報処理システムであって、
前記業務完了時期類推部は、
機械学習モデルを用いて前記業務の完了時期を予測することを特徴とする情報処理システム。
【請求項9】
請求項1に記載の情報処理システムであって、
前記業務完了時期類推部は、
深層学習モデルを用いて前記業務の完了時期を予測することを特徴とする情報処理システム。
【請求項10】
請求項1に記載の情報処理システムであって、
前記テキスト抽出部から抽出された前記文章の内容に基づいて、前記業務の進捗状況を推定する進捗状況推定部を更に有し、
前記業務完了時期類推部は、
前記進捗状況を参照して前記業務の完了時期を予測することを特徴とする情報処理システム。
【請求項11】
請求項10に記載の情報処理システムであって、
前記進捗状況推定部は、
前記工程関連情報を参照して前記進捗状況を推定することを特徴とする情報処理システム。
【請求項12】
請求項10に記載の情報処理システムであって、
前記進捗状況推定部は、
現在実施されている前記業務の工程を推定することを特徴とする情報処理システム。
【請求項13】
請求項10に記載の情報処理システムであって、
表示部を有し、
前記表示部は、
前記業務の工程ごとに抽出された前記文章、前記工程従事時期に基づいて作成された工程従事時期見積もり、前記業務の完了時期の予測結果及び前記業務の進捗状況の推定結果の少なくとも一つを表示することを特徴とする情報処理システム。
【請求項14】
請求項13に記載の情報処理システムであって、
前記表示部は、
前記業務の進捗状況の推定結果として、現在実施されている前記業務の工程を表示し、
前記工程従事時期見積もりを、実施済みの前記業務の工程と実施予定の前記業務の工程とに区分して前記業務の工程ごとに表示することを特徴とする情報処理システム。
【請求項15】
業務に関する時間表現を含む文章を有する業務文書から前記業務の完了時期を予測する情報処理方法であって、
前記業務文書から前記時間表現を伴う文章を抽出するテキスト抽出ステップと、
前記業務の工程に関連する工程関連情報に基づいて、前記抽出された文章から前記業務の工程を特定し、前記時間表現を参照して前記業務の工程ごとに工程従事時期を推定する工程従事時期推定ステップと、
前記業務の完了時期に関連する業務完了時期パラメータと前記工程従事時期に基づいて、前記業務の完了時期を予測する業務完了時期類推ステップと、
を有することを特徴とする情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム及び情報処理方法に関する。
【背景技術】
【0002】
業務の完了時期を高精度に予測することは、マネジメントや後続業務の効率化、時間的・経済的損失の防止につながる。例えば、システムの開発業務において、日々の業務内容から開発完了時期を予測できれば、予測値に基づいた適切なマネジメントが行えて納期遅延の防止につながる。
【0003】
製品やシステム開発の受注を目指す営業活動業務では、受注契約の完了時期を予測することで、営業活動の進捗管理だけでなく、契約獲得後に必要な開発人員の配置や部品発注の計画を予め策定でき、経営効率の改善や製造・開発の短期化が実現できる。
【0004】
既存の業務完了時期予測の技術は、対象業務の特徴を示す値や進捗度、スケジュールなどといったラベルや数値形式の情報を用いており、業務の過程で発生する報告書や議事録といった文書データを活用していない。
【0005】
対象業務の特徴を示す値による業務完了時期の予測は、実際の業務の実施状況に基づいた予測ができず、高精度な予測は困難である。また、進捗度やスケジュールを用いた予測では、それらの登録は作業者の裁量に委ねられるため、登録情報の正確性や登録の頻度などに属人性が高く、高精度な予測ができない。
【0006】
一方で、報告書や議事録といった文書データの記載内容には、詳細な業務の実施状況やそれに伴い随時変化する業務の実施予定など、業務完了時期予測の手掛かりとなる重要な情報が内在していると考えられる。これら文書データを機械的に処理しつつ、内在する情報を考慮した、自動的かつ高精度な業務完了時期予測が求められる。
【0007】
これに関連する技術として、例えば、特許文献1、特許文献2、非特許文献1がある。
【0008】
特許文献1は、昇降機やストレージなどのインフラ製品の製造・受け渡し業務を想定し、工程別の完了必要日を予測する方法を開示している。
【0009】
特許文献2は、特定の行動指標が含まれる報告書を選定すると共に、顧客に働きかけた事項を示すフレーズや前記の行動をした日にちや店舗を抽出し、該日にちや店舗を用い行動指標の成功又は失敗を判定する技術を開示している。
【0010】
非特許文献1は、造船業のEPC(設計・調達・建造)契約において設定されたスケジュールの遅延日数を、契約時の契約書類に記載された特定単語の頻度に基づいた手掛かりから予測する方法を開示している。
【先行技術文献】
【特許文献】
【0011】
【特許文献1】特開2019-145007号公報
【特許文献2】特開2017-191442号公報
【非特許文献】
【0012】
【非特許文献1】Byung-Yun Son and Eul-Bum Lee.2019.“Using Text Mining to Estimate Schedule Delay Risk of 13 Offshore Oil and Gas EPC Case Studies During the Bidding Process”Energies 12,no.10:1956
【発明の概要】
【発明が解決しようとする課題】
【0013】
特許文献1が予測に用いている手掛かりは、案件の特徴を示す値や作業者によって入力される完了済みの工程であり、文書データを用いた詳細な業務の実施状況やそれに伴い随時変化する業務の実施予定などに基づき業務完了時期を予測する方法を開示していない。
【0014】
特許文献2では、文書データに記載された行動内容や該行動内容の日にちを抽出するものの、該行動内容や該行動内容の日にちを業務完了時期の予測に使用する方法を開示していない。
【0015】
非特許文献1は、契約当初に作成された書類の特定単語の頻度に基づいてのみ予測を行うため、文書データに記載された詳細な業務の実施状況やそれに伴い随時変化する業務の実施予定などに基づき遅延日数を予測する方法を開示していない。
【0016】
本発明の目的は、情報処理システムにおいて、文書データに記載されている業務の実施状況等に基づいて自動的かつ高精度に業務の完了時期を予測することにある。
【課題を解決するための手段】
【0017】
本発明の一態様の情報処理システムは、業務に関する時間表現を含む文章を有する業務文書から前記業務の完了時期を予測する情報処理システムであって、前記業務文書から前記時間表現を伴う文章を抽出するテキスト抽出部と、前記業務の工程に関連する工程関連情報に基づいて、前記抽出された文章から前記業務の工程を特定し、前記時間表現を参照して前記業務の工程ごとに工程従事時期を推定する工程従事時期推定部と、前記業務の完了時期に関連する業務完了時期パラメータと前記工程従事時期に基づいて、前記業務の完了時期を予測する業務完了時期類推部と、を有することを特徴とする。
【発明の効果】
【0018】
本発明の一態様によれば、情報処理システムにおいて、文書データに記載されている業務の実施状況等に基づいて自動的かつ高精度に業務の完了時期を予測することができる。
【図面の簡単な説明】
【0019】
【
図1A】実施例1の情報処理システムの構成を示す図である。
【
図1B】実施例2の情報処理システムの構成を示す図である。
【
図1C】実施例2の情報処理システムの構成を示す図である。
【
図1D】実施例3の情報処理システムの構成を示す図である。
【
図2】テキスト抽出部の処理を示すフローチャートである。
【
図3】業務文書データリストの一例を示す図である。
【
図5A】工程従事時期推定部の処理を示すフローチャートである。
【
図5B】工程従事時期推定部の処理を示すフローチャートである。
【
図6A】工程付抽出データリストの一例を示す図である。
【
図6B】工程付抽出データリストの一例を示す図である。
【
図8A】業務完了時期類推部の処理を示すフローチャートである。
【
図8B】業務完了時期類推部の処理を示すフローチャートである。
【
図11】進捗状況推定部の処理を示すフローチャートである。
【
図13】表示部に表示される内容の一例を示す図である。
【
図14】工程関連情報データベースの内容の一例を示す図である。
【発明を実施するための形態】
【0020】
以下、図面を用いて実施例を説明する。本実施例では、ある特定の業務を対象に、1つ以上の業務文書を入力とし、業務の完了時期を推定し出力する。
【実施例0021】
図1Aを参照して実施例1の情報処理システムの構成について説明する。実施例1では、顧客から個別受注生産品やシステム開発の契約を獲得することを目的とする営業活動業務を対象業務として、受注契約の完了時期を推測する場合を例として説明する。
【0022】
実施例1の情報処理システムは、業務の業務工程と業務に関する時間表現を含む文章を有する業務文書から業務の完了時期を予測する。
【0023】
図1Aに示すように、実施例1の情報処理システムは、業務文書から時間表現を伴う文章を抽出するテキスト抽出部(101)と、業務工程に関連する工程関連情報に基づいて前記抽出された文章から前記業務工程を特定し前記時間表現を参照して前記業務工程ごとに工程従事時期を推定する工程従事時期推定部(102)と、前記業務の完了時期に関連する業務完了時期パラメータ(105)と前記工程従事時期に基づいて前記業務の完了時期を予測する業務完了時期類推部(103)と、を有する。
【0024】
更に、実施例1の情報処理システムは、前記工程関連情報として、複数の業務工程の業務工程一覧を格納する工程関連情報データベース(104)を有する。工程従事時期推定部(102)は、前記抽出された文章と前記業務工程一覧とを対比することにより、前記文章から前記業務工程を特定する。
【0025】
ここで、工程関連情報データベース(104)の内容の一例を
図14に示す。
【0026】
図14に示すように、工程関連情報データベース(104)には、複数の業務工程の業務工程一覧が格納されている。業務工程一覧は、例えば、「コンタクト」、「提案活動」、「見積活動」、「内示・契約」である。
【0027】
また、業務完了時期パラメータ(105)は、業務完了時期の類推処理を基底する設定値を含むデータである。もしくは、業務完了時期パラメータ(105)は、業務完了時期の類推処理を制御する設定値を含むデータである。
【0028】
例えば、SupportVectorMachineやニューラルネットワークなどにおいて、数値演算の式を基底する係数やその内部で使用するカーネル関数や活性化関数などの数式の種類である。
【0029】
また、RandomForestなどにおいて、工程従事時期推定部(102)の出力の値に着目し、どのような手順で入力データを区分するのか、区分のための条件分岐、その条件で使用する閾値の値といった制御用の設定値である。
【0030】
また、その他に学習済みの自然言語生成モデルに対し、工程従事時期推定部(102)の出力を用いて作成した疑問文を与えて、回答を得る場合などの処理における設定値である。例えば、「~提案活動を完了するのにX日かかり、見積を完了するのにY日かかる場合、受注契約の獲得までに何日かかると思われるか?」という質問に対し、自然言語生成モデルが「Z日です。」と答えるような処理の場合、業務完了時期パラメータ(105)は、自然言語生成モデルの内部の演算式の数値と質問文のテンプレートである。
【0031】
テキスト抽出部(101)は、業務文書から時間表現が存在する文を検出し出力する。テキスト抽出部(101)の処理を
図2、
図3、
図4を用い説明する。
【0032】
S201では、テキスト抽出部(101)は業務文書(304)と該業務文書の記載日(303)のペアからなる業務文書データリスト(301)を受け付ける。ただし、業務文書(304)は1つ以上の単語からなる任意のテキストデータであってもよい。また、記載日(303)は業務文書(304)に対応付く日付であれば記載日でなくてもよい。
【0033】
例えば、実施例1で対象とする営業活動業務では、業務文書(304)として営業活動報告書、記載日(303)として営業活動を行った日付、で構成される業務文書データリスト(301)を受け付けることができる。
【0034】
S202では、入力された業務文書データリスト(301)が保持する各業務文書データ(302)に対して処理を開始する。S203では、業務文書(304)を文データ(403)に分割する。ここで文データ(403)は1つ以上の単語で構成されるテキストデータである。文データ(403)への分割(S203)では、読点で文に分割する。
【0035】
ただし、S203の分割方法は、句点や改行ごとでの分割や正規表現に基づいた分割等のルールやパターンベースでの方法、統計モデルや機械学習・深層学習モデル等を用いた方法、両者を組み合わせた方法であってもよい。
【0036】
また、文データ(403)の分割単位は文である必要はなく、段落単位、節単位、特定の単語数ごとなど任意の単位を採用してもよい。S205では各文データ(403)に時間表現が存在するかを判定し、時間表現が存在する場合は時間表現(404)として文データ(403)と共に抽出データ(402)に格納する。
【0037】
ただし、前記時間表現とは任意の事象を対象に、時間軸上における該事象の生起時点や生起区間などを指定する表現である。実施例1では、時間表現(404)として日付単位の粒度で時間軸上の位置を指し示す表現を扱う。例えば、2020年1月25日、6日、15日ごろ、7月初旬、8月末などである。文データ(403)に時間表現(404)が存在する場合は、S206で処理対象の業務文書データ(302)を抽出データ(402)に格納し、該抽出データ(402)を抽出データリスト(401)に追加する。
【0038】
ただし、時間表現(404)が文データ(403)に複数存在する場合は、時間表現(404)ごとに文データ(403)と業務文書データ(302)を付与し、抽出データリスト(401)に追加する。実施例1では、時間表現(404)の存在判定処理(S205)は、正規表現を用いたパターンマッチングで行う。
【0039】
例えば「((1[0-9])|(2[0-9])|([30|1])|[1-9])日」といった正規表現で2020年1月25日、6日、15日ごろが検出できる。ただし、前記存在判定処理はルールベースで行ってもよいし、統計モデルや機械学習・深層学習モデル等を用いて行ってもよいし、両者を組み合わせて行ってもよい。
【0040】
以上の処理を全ての業務文書データ(302)に適用した後に抽出データリスト(401)を出力し(S209)、テキスト抽出部(101)の処理は終了する。
【0041】
工程従事時期推定部(102)は、テキスト抽出部(101)から出力された抽出データリスト(401)を受け付け、各業務工程の従事時期の推定結果を出力する。工程従事時期推定部(102)の処理を
図5A、
図6A、
図7Aを用い説明する。
【0042】
S501で、工程従事時期推定部(102)は抽出データリスト(401)を受け付ける。
【0043】
S502で、工程従事時期推定部(102)は抽出データリスト(401)内の各抽出データ(402)に対し処理を開始する。S503では、抽出データ(402)が保持する時間表現(404)を対応する年月日を表す任意の形式に正規化する。ただし、年月日に限らず年号や時間など、より長いもしくは短い単位の時間単位を用いて正規化してもよい。
【0044】
実施例1では時間情報(404)を「年-月-日」(2022-06-12等)の形式に正規化する。ただし、年月日が時間表現(404)から特定できない場合は、特定できない年月日を、欠損値であることを示す任意のタグで埋める。例えば「6月中旬」という時間表現であれば「<欠損>-06-<欠損>」等の形式へ変換する。S504ではS503で正規化した時間表現(404)の欠損値を、抽出データ(402)が保持する文データ(403)や業務文書データ(302)に基づき特定の値で補完する。
【0045】
例えば「<欠損>-06-<欠損>」では、欠損している年に対して抽出元の業務文書の記載日(303)と同じ年を、欠損している日に対して「中旬」という表現に基づき「15」という値を、それぞれ補完値として与える。その他に「1月末」という時間表現(404)の場合は、抽出元の業務文書データ(302)の記載日(303)が1から7月であれば欠損している年として該記載日(303)の年を、抽出元の業務文書データ(302)の記載日(303)が8から12月であれば記載されたのであれば欠損している年として該記載日(303)の年に1加えた値を、補完値として与える。
【0046】
加えて前記時間表現(404)内の「末」という表現に基づき、欠損している日に「31」という値を与える。「25日に」という時間表現(404)の場合は、欠損している年と月に抽出元の業務文書データ(302)の記載日(303)の年と月を補完値として与える。ただし、前記補完処理(S504)はルールベースで行ってもよいし、統計モデルや機械学習・深層学習モデル等を用いて行ってもよいし、それらの手段を組み合わせて実施してもよい。また、外部のデータを参照し、抽出データ(402)が保持していない情報を用いて前記補完処理(S504)を行っても良い。
【0047】
S505では、正規化時間表現(605)と業務文書データ(302)の記載日(303)を比較して、抽出データ(402)内の文データ(403)で記述されている事柄が実施事項であるのか予定事項であるのかを判別する。正規化時間表現(605)で示される日付が記載日(303)より未来であった場合、抽出データ(402)の区分(606)を予定日とする。正規化時間表現(605)で示される日付が記載日(303)と同一か、該記載日(303)より過去であった場合、抽出データ(402)の区分(606)を実施日とする。S506では、抽出データ(402)の関連工程(607)を判定する。
【0048】
関連工程の判定(S506)では、
図14の工程関連情報データベース(104)を参照する。上述のように、工程関連情報データベース(104)は業務の工程に関連する情報を蓄積したデータベースである。工程関連情報データベース(104)には、業務の工程の他に、例えば、事前に定義された工程と抽出データ(402)を紐づけるための判定方法を示した辞書、事前に定義された工程のいずれかに文データ(403)を分類する機械学習モデルの学習済パラメータ、事前に工程の区分が定義されていない業務に対する関連文書の集合、など様々な形態の情報を蓄積できる。
【0049】
実施例1では、
図14に示すように、営業活動業務の工程として事前に定義された「コンタクト」、「提案活動」、「見積活動」「内示・契約」の4つを用いて、辞書を用いた関連工程(607)の判定例を示す。ただし、工程の数は1以上であれば何個でもよい。
【0050】
抽出データ(402)の文データ(403)に、特定の文字列が存在すれば、抽出データ(402)に対応する工程を関連工程(607)として割り当てる。
【0051】
「コンタクト」工程の文字列は「キックオフ」「ヒアリング」「引合」などである。「提案活動」工程の文字列は「提案」「rfp」などである。「見積活動」工程の文字列は「見積」「要件定義」などである。「内示・契約」工程の文字列は「内示」「契約」「受注」「注文」「発注」「検収」などである。いずれの文字列も文データ(403)に存在しない場合は、抽出データ(402)に与える関連工程(607)は「なし」とする。
【0052】
S507では、S503からS506までで算出した正規化時間表現(605)、抽出データ(402)の区分(604)、関連工程(607)と作成元の抽出データ(402)、および該抽出データ(402)の抽出元である業務文書データ(302)を組み合わせて、工程付抽出データ(602)とし、工程付抽出データ(602)を工程付抽出データリスト(601)に追加する。以上の処理を抽出データリスト(401)内の全ての抽出データ(402)に適用し、S502のループ処理は終了する。
【0053】
S508では、工程付抽出データリスト(601)を用いて各工程の工程従事時期(704)を決定する。S508は、まず工程ごとに該当する工程付抽出データ(602)を集約する。工程ごとに集約した工程付抽出データ(602)のうち工程の従事日として信頼性の低いものを除外する。前記除外処理は、特定のルールに基づいてもよいし、統計モデルや機械学習・深層学習モデル等を用いて行ってもよいし、それらを組み合わせて実施してもよい。
【0054】
実施例1では、S508は、区分(604)が予定日である工程付抽出データ(602)を対象に、工程の種類ごとに該業務文書データの記載日(303)が最も未来の工程付抽出データ(602)以外を除外する。
【0055】
実施例1では、区分(604)が実施日である工程付抽出データ(602)は除外しない。前記除外処理後に残った工程付抽出データ(602)を用いて、工程の種類ごとに工程従事時期(704)を算出する。工程従事時期(704)はルールに基づいて算出しても良いし、統計モデルや機械学習・深層学習モデル等を用いて行ってもよいし、それらを組み合わせて実施してもよい。
【0056】
また、算出される工程従事時期(704)の形態も時間に関する情報であれば、特定の日付や月などの単一の値、日付や月の範囲、日付や月の確率分布、工程従事時期(704)を示す文字列など多様な形態をとって良い。
【0057】
実施例1では、工程の終了日(705)を工程ごとにルールベースで決定する。前記除外処理後に残った工程付抽出データ(602)の関連工程(607)と正規化時間表現(605)を参照し、工程ごとに最も未来の正規化時間表現(605)を取得し、工程の終了日(705)とする。工程の終了日(705)と工程を組み合わせ、工程従事時期(704)として保持する。
【0058】
S509では、処理対象の業務のID(703)と、S508で算出した工程従事時期(704)と、S508の処理完了日時を推定処理実施時刻(702)として従事時期推定結果(701)に集約し、該従事時期推定結果(701)を出力する。以上の処理を経て、工程従事時期推定部(102)の処理は終了する。
【0059】
業務完了時期類推部(103)では、工程従事時期推定部(102)から出力された工程従事時期推定結果(701)と、業務完了時期パラメータ(105)を受け付け、業務完了時期の類推結果を出力する。業務完了時期類推部(103)の処理を
図8A、
図9A、
図10を用い説明する。
【0060】
S801では工程従事時期推定結果(701)を受け付ける。S802では工程従事時期推定結果(701)の各工程の終了日(705)の23時59分59秒と推定処理実施時刻(702)との差分を取り、該工程の工程所要日数(905)を計算する。計算した工程別所要日数(905)を特徴量データ(904)として、工程従事時期推定結果(701)の業務ID(703)と推定処理実施時刻(702)を組み合わせ、基準データ(901)を作成する。ただし、特徴量データ(904)には任意の数値を追加で含めてよい。
【0061】
例えば、各工程間の終了日(705)同士から算出できる工程間の終了日の差分日数や、基準データ(901)の業務ID(902)を基に外部のデータベースを参照し、業務情報を数値として取得してきて、特徴量データ(904)に含めても良い。
【0062】
実施例1では、工程別所要日数(905)だけでなく、業務ID(902)に紐づく業務情報から営業担当者が入力した受注予定日(受注契約の獲得の完了予定日)を取得し、該受注予定日の23時59分59秒と推定処理実施時刻(702)の差分日数を算出し、該差分日数を受注予定迄の日数(906)として特徴量データ(904)に加えている。S803では業務完了時期を類推する。実施例1では特徴量データ(904)を入力として、SupportVectorMachineやRandomForestなどの機械学習モデルを用いて、業務完了迄の所要日数(1203)を予測する。
【0063】
ただし、類推処理はルールやパターンベースでの方法、SupportVectorMachineやRandomForest以外の統計モデルや機械学習・深層学習モデル等を用いた方法、両者を組み合わせた方法であってもよい。実施例1では、SupportVectorMachineやRandomForestのパラメータは業務完了時期パラメータ(105)から読み込む。
【0064】
業務完了時期パラメータ(105)は、業務完了時期の類推(S803)に使用する各種パラメータを格納するデータである。ただし、業務完了時期パラメータ(105)はSupportVectorMachineやRandomForestなどの機械学習のパラメータに限らず、ルールベースの類推処理を行う場合に必要な各種パラメータや、深層学習のパラメータなども含むことができる。
【0065】
また、そのパラメータは必ずしも、S803の類推処理を実施する情報処理システムと同一のサーバに存在しなくとも良い。実施例1で利用するSupportVectorMachineやRandomForestのパラメータは、完了済みの過去の業務の特徴量データ(904)と業務完了迄の所要日数(1203)を用いて予め学習しておく。基準データ(901)の推定処理実施時刻(903)に予測した業務完了迄の所要日数(1203)を足し合わせて、業務完了時期(1204)を算出する。基準データ(901)の業務ID(902)と作成した所要日数(1203)と業務完了時期(1204)を組み合わせて、予測結果(1201)を作成する。S804では、算出した予測結果(1201)を出力する。以上の処理を経て、業務完了時期類推部(103)の処理は終了する
実施例1によれば、業務文書に記述された業務完了までに要する関連工程の時間表現を手掛かりに、自動的かつ高精度な業務完了時期の予測が可能となる。
実施例2では、対象の調達業務を行っている担当者たちの会議議事録、および、該担当者たちのサプライヤーとのチャット履歴や会議議事録を業務文書(304)とし、該チャット履歴や該会議議事録の生成日を記載日(303)とする。
S202では入力された業務文書データリスト(301)が保持する各業務文書データ(302)に対して処理を開始する。S203では業務文書(304)を文データ(403)に分割する。文データ(403)への分割(S203)では、空白や改行などで文に分割する。S205では各文データ(403)に時間表現が存在するかを判定し、時間表現が存在する場合は時間表現(404)として文データ(403)と共に抽出データ(402)に格納する。
文データ(403)に時間表現(404)が存在する場合は、S206で処理対象の業務文書データ(302)を抽出データ(402)に格納し、該抽出データ(402)を抽出データリスト(401)に追加する。ただし、時間表現(404)が文データ(403)に複数存在する場合は、時間表現(404)ごとに文データ(403)と業務文書データ(302)を付与し、抽出データリスト(401)に追加する。
実施例2では、時間表現(404)の存在判定処理(S205)は、正規表現を用いたパターンマッチングで行う。例えば「((1[0-9])|(2[0-9])|([30|1])|[1-9])日」といった正規表現で2020年1月25日、6日、15日ごろが検出できる。以上の処理を全ての業務文書データ(302)に適用した後に抽出データリスト(401)を出力し(S209)、テキスト抽出部(101)の処理は終了する。
S522では抽出データリスト(401)内の各抽出データ(402)に対し処理を開始する。S523では、抽出データ(402)が保持する時間表現(404)を対応する年月日時刻を表す任意の形式に正規化する。
実施例2では時間情報(404)を「年-月-日-時刻」(2022-06-12-17等)の形式に正規化する。ただし、年月日や時刻が時間表現(404)から特定できない場合は、特定できない年月日や時刻を、欠損値であることを示す任意のタグで埋める。例えば「12日の17時ごろ」という時間表現であれば「<欠損>-<欠損>-12-17」等の形式へ変換する。
S524ではS523で正規化した時間表現(404)の欠損値を、抽出データ(402)が保持する文データ(403)や業務文書データ(302)に基づき特定の値で補完する。年や月や日の補完処理は実施例1と同様である。時刻の欠損については「23」を補う。
ただし、前記補完処理(S524)はルールベースで行ってもよいし、統計モデルや機械学習・深層学習モデル等を用いて行ってもよいし、それらを組み合わせて実施してもよい。また、外部のデータを参照し、抽出データ(402)が保持していない情報を用いて前記補完処理(S524)を行っても良い。
S526では、抽出データ(402)の関連工程(627)を判定する。関連工程の判定(S526)では工程関連情報データベース(104)を参照する。実施例2では、工程関連情報データベース(104)は、文データ(403)に関連する工程を識別する深層学習モデルのパラメータを持つ。
前記パラメータは、データから事前に学習したパラメータでもよいし、人手で設定したパラメータでもよい。例えば、文データ(403)に対して該当する関連工程(627)が付与されたデータから教師あり学習を予め行ってもよいし、関連工程(627)が付与されていない複数の文データ(403)を定義した関連工程数分のグループに分割するクラスタリングモデルを予め学習してもよい。
S526では、前記深層学習モデルのパラメータを読み込み、各文データ(403)に対する関連工程(627)を前記深層学習モデルで予測する。実施例2では、前記深層学習モデルが出力する関連工程(627)は「調査」「コンタクト」「交渉」「契約」「関連なし」である。ただし、関連工程(627)の種類は1つ以上であれば何個でもよい。
S527では、S523からS526までで算出した正規化時間表現(625)、関連工程(627)と作成元の抽出データ(402)、および該抽出データ(402)の抽出元である業務文書データ(302)を組み合わせて、工程付抽出データ(622)を作成し、前記工程付抽出データ(622)を工程付抽出データリスト(621)に追加する。以上の処理を抽出データリスト(401)内の全ての抽出データ(402)に適用し、S522のループ処理は終了する。
S528では、工程付抽出データリスト(621)を用いて各工程の工程従事時期(724)を決定する。S528は、まず工程ごとに該当する工程付抽出データ(622)を集約する。工程ごとに集約した工程付抽出データ(622)から、工程従事時期(724)として工程の終了日(725)を求める。実施例2では、工程が終了する確率を月ごとに算出し、終了月の確率(726)とする。ただし、確率の算出はルールベースで行ってもよいし、統計モデルや機械学習・深層学習モデル等を用いて行ってもよいし、それらを組み合わせて実施してもよい。
実施例2では、工程ごとに集約した前記工程付抽出データ(622)の全ての文データ(623)を入力とし、S528を実施する月の12ヶ月前から12ヶ月先までのどの月が該工程の終了する月であるのかを表す25個分の確率値を出力する深層学習モデルを用いる。この深層学習モデルのパラメータは工程関連情報データベース(104)から読み込む。該確率を終了月の確率(726)とし、その中で最も確率の高い月の最終日を工程の終了日(725)とする。
工程の終了日(725)と終了日の確率(726)を工程従事時期(724)として保持する。S529では、処理対象の業務のID(723)と、S528で算出した工程従事時期(724)と、S528の処理完了日時を推定処理実施時刻(722)として従事時期推定結果(721)に集約し、該従事時期推定結果(721)を出力する。以上の処理を経て、工程従事時期推定部(102)の処理は終了する。
S1301からS1307の処理では、工程付抽出データリスト(601)を取得するが、この処理は実施例1における工程従事時期推定部(102)のS501からS507の説明と同様なので省略する。ただし、S1306においては実施例1のS506とは異なり、各文データ(403)に対する関連工程(607)を深層学習モデルで予測し、関連工程(607)は「調査」「コンタクト」「交渉」「契約」「関連なし」である。ただし、関連工程(607)の種類は1つ以上であれば何個でもよい。深層学習モデルのパラメータは工程関連情報データベース(104)から読み込む。
S1308では、現在の工程を判定する。S1308の実行日と同一かそれ以前の正規化時間表現(605)を持つ工程付抽出データ(602)を集約し、前記工程付抽出データ(602)の関連工程(607)のうち最も業務完了に近い工程を現在の工程(1405)とする。S1309では、業務文書データリスト(301)を受け付ける。S1310では、業務の順調さを算出する。
実施例2では、業務文書データリスト(301)の全ての業務文書(304)を対象に肯定的な文の割合を算出し、業務の順調さ(1406)とする。肯定的な文の割合は、文を肯定的な内容か否定的な内容かで2値に分類することにより算出する。分類処理は、ルールベースで行ってもよいし、統計モデルや機械学習・深層学習モデル等を用いて行ってもよいし、それらを組み合わせて実施してもよい。
S1311では、算出した現在の工程(1405)と業務の順調さ(1406)と、処理対象の業務のID(1403)とS1311の処理日時を推定処理実施時刻(1402)として、前記情報を組み合わせて進捗状況推定結果(1401)を算出する。進捗状況推定結果(1401)を出力し、進捗状況推定部(106)の処理は終了する。
S821では工程従事時期推定結果(721)を受け付ける。S822では進捗状況推定結果(1401)を受け付ける。S823では、業務ID(723)に対応する業務情報から業務開始日(924)を取得し、工程従事時期推定結果(721)の各工程の終了日(725)の23時59分59秒と業務開始日(924)の差分を取ることで、該工程の工程別所要日数(926)を計算する。
ただし工程別所要日数(926)の算出には、業務開始日(924)ではなく推定処理実施時刻(722)の任意の時刻を用いてもよいし、業務ID(723)に対応する業務情報から取得可能な任意の日付を用いてもよい。計算した工程別所要日数(926)と進捗状況推定結果(1401)の現在の工程と(1405)と業務の順調さ(1406)を組み合わせて特徴量データ(925)を作成し、さらに工程従事時期推定結果(721)の業務ID(723)と推定処理実施時刻(722)と業務開始日(924)を加え、基準データ(921)を作成する。
ただし、特徴量データ(925)には任意の数値を追加で含めてよい。実施例2では、工程の組み合わせごとに該工程の終了日(725)の差分日数を算出し、該差分日数を工程間日数(927)として特徴量データ(925)に含めている。
S824では業務完了時期を類推する。実施例2では特徴量データ(904)を入力として、線形層を重ねたFeedforward Neural Networkなどの深層学習モデルを用いて、業務完了迄の所要日数(1203)を予測する。ただし、深層学習モデルは畳み込みニューラルネットワーク(CNN)やリカレントニューラルネットワーク(RNN)など任意の深層学習モデルを用いてよいし、S824の類推処理はルールやパターンベースでの方法、SupportVectorMachineやRandomForestなどの統計モデル・機械学習を用いた方法、またはこれらを組み合わせた方法であってもよい。
実施例2では、深層学習モデルのパラメータは業務完了時期パラメータ(105)から読み込む。実施例2で利用する深層学習モデルのパラメータは、完了済みの過去の業務の特徴量データ(925)と業務完了迄の所要日数(1203)を用いて予め学習しておく。基準データ(921)の推定処理実施時刻(923)に予測した業務完了迄の所要日数(1203)を足し合わせて、業務完了時期(1204)を算出する。基準データ(921)の業務ID(922)と作成した所要日数(1203)と業務完了時期(1204)を組み合わせて、予測結果(1201)を作成する。