IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

<>
  • 特許-文書情報抽出装置及び文書情報抽出方法 図1
  • 特許-文書情報抽出装置及び文書情報抽出方法 図2
  • 特許-文書情報抽出装置及び文書情報抽出方法 図3
  • 特許-文書情報抽出装置及び文書情報抽出方法 図4
  • 特許-文書情報抽出装置及び文書情報抽出方法 図5
  • 特許-文書情報抽出装置及び文書情報抽出方法 図6
  • 特許-文書情報抽出装置及び文書情報抽出方法 図7
  • 特許-文書情報抽出装置及び文書情報抽出方法 図8
  • 特許-文書情報抽出装置及び文書情報抽出方法 図9
  • 特許-文書情報抽出装置及び文書情報抽出方法 図10
  • 特許-文書情報抽出装置及び文書情報抽出方法 図11
  • 特許-文書情報抽出装置及び文書情報抽出方法 図12
  • 特許-文書情報抽出装置及び文書情報抽出方法 図13
  • 特許-文書情報抽出装置及び文書情報抽出方法 図14
  • 特許-文書情報抽出装置及び文書情報抽出方法 図15
  • 特許-文書情報抽出装置及び文書情報抽出方法 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-09
(45)【発行日】2024-08-20
(54)【発明の名称】文書情報抽出装置及び文書情報抽出方法
(51)【国際特許分類】
   G06F 16/383 20190101AFI20240813BHJP
   G06F 16/335 20190101ALI20240813BHJP
【FI】
G06F16/383
G06F16/335
【請求項の数】 12
(21)【出願番号】P 2020148544
(22)【出願日】2020-09-03
(65)【公開番号】P2022042882
(43)【公開日】2022-03-15
【審査請求日】2023-02-06
(73)【特許権者】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110002365
【氏名又は名称】弁理士法人サンネクスト国際特許事務所
(72)【発明者】
【氏名】加藤 大羽
(72)【発明者】
【氏名】田中 美智子
【審査官】酒井 恭信
(56)【参考文献】
【文献】特開2019-008530(JP,A)
【文献】特開2013-239132(JP,A)
【文献】国際公開第2013/145162(WO,A1)
【文献】国際公開第2010/026900(WO,A1)
【文献】特開2008-152641(JP,A)
【文献】特開2018-106690(JP,A)
【文献】米国特許出願公開第2007/0203785(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00 - 16/958
(57)【特許請求の範囲】
【請求項1】
同一の案件において時系列で記録される活動記録の文書解析を行って推奨アイテムを提案する文書情報抽出装置であって、
前記活動記録が登録された第1文書情報と、前記第1文書情報とは異なる文書種で構成されており、前記推奨アイテムの候補に関する文書データが登録された第2文書情報と、を格納する記憶部と、
前記第1文書情報の前記活動記録に含まれる、進捗状況を示唆するキーワードに基づいて、前記活動記録の進捗状況を、複数段階の進捗カテゴリの何れかに分類する進捗判定部と、
前記第1文書情報から関連する固有表現を構成する第1関連語を抽出し、当該抽出した第1関連語をまとめた第1関連語情報を生成する第1文書処理部と、
前記第2文書情報から関連する固有表現を構成する第2関連語を抽出し、当該抽出した第2関連語をまとめた第2関連語情報を生成する第2文書処理部と、
前記進捗判定部によって分類された前記進捗カテゴリに応じた推奨アイテムの選出条件と、共通する関連語で前記第1関連語情報と前記第2関連語情報とを接続することによって前記第1文書情報と前記第2文書情報とを連携した関連語連携の結果に基づいて、前記第1文書情報の前記活動記録に含まれる第1関連語に直接的又は間接的に接続された第2関連語を有する推奨アイテムを前記推奨アイテムの候補の中から選出して出力するアイテム処理部と、
を備えることを特徴とする文書情報抽出装置。
【請求項2】
前記進捗状況を表す複数段階の進捗カテゴリについて、各進捗カテゴリに対応する所定の前記キーワードが予め定められており、
前記進捗判定部は、前記第1文書情報に含まれる各前記活動記録から前記キーワードを抽出し、当該抽出したキーワードに基づいて、各前記活動記録の進捗状況を前記複数段階の進捗カテゴリの何れかに分類する
ことを特徴とする請求項1に記載の文書情報抽出装置。
【請求項3】
前記複数段階の進捗カテゴリごとにどのような属性の前記推奨アイテムを優先して推奨すべきかが指定されている所定の優先ルールが予め用意され、
前記アイテム処理部は、前記進捗判定部によって分類された前記進捗カテゴリに対応する前記優先ルールに応じた選条件を指定し、前記推奨アイテムの候補から前記推奨アイテムを選出する
ことを特徴とする請求項2に記載の文書情報抽出装置。
【請求項4】
前記優先ルールはユーザ操作に応じて変更することができ、前記ユーザ操作が行われた場合、前記アイテム処理部は、変更後の前記優先ルールに応じた選条件を指定し、前記推奨アイテムの候補から前記推奨アイテムを選出する
ことを特徴とする請求項3に記載の文書情報抽出装置。
【請求項5】
前記優先ルールには、前記活動記録との関連性を前記推奨アイテムの選出条件に反映することを指定する関連性優先指定を含めることができ、
前記優先ルールに前記関連性優先指定が含まれる場合、前記アイテム処理部は、
前記活動記録に含まれる前記第1関連語と前記第2文書情報に含まれる前記第2関連語との、前記関連語連携における距離に基づいて、当該第2関連語を有する前記推奨アイテムの候補の前記関連性を判断し、
前記判断の結果に基づいて、前記選出における前記推奨アイテムの各候補の優先度を設定する
ことを特徴とする請求項3に記載の文書情報抽出装置。
【請求項6】
前記優先ルールには、前記活動記録に対する意外性を前記推奨アイテムの選出条件に反映することを指定する意外性優先指定を含めることができ、
前記優先ルールに前記意外性優先指定が含まれる場合、前記アイテム処理部は、
前記活動記録に含まれる前記第1関連語と前記第2文書情報に含まれる前記第2関連語との、前記関連語連携における距離及び接続数に基づいて、当該第2関連語を有する前記推奨アイテムの候補の前記意外性を判断し、
前記判断の結果に基づいて、前記選出における前記推奨アイテムの各候補の優先度を設定する
ことを特徴とする請求項3に記載の文書情報抽出装置。
【請求項7】
前記記憶部には、前記アイテム処理部によって選出された前記案件の過去の前記推奨アイテムに関する情報が記録されたレコメンド履歴情報をさらに格納し、
前記優先ルールには、前記案件における出力履歴の有無を当該案件における前記推奨アイテムの選出条件に反映することを指定する過去提案優先指定を含めることができ、
前記優先ルールに前記過去提案優先指定が含まれる場合、前記アイテム処理部は、前記レコメンド履歴情報における記録の有無に基づいて、前記選出における前記推奨アイテムの各候補の優先度を設定する
ことを特徴とする請求項3に記載の文書情報抽出装置。
【請求項8】
前記レコメンド履歴情報には、前記アイテム処理部によって選出された前記案件の過去の前記推奨アイテムのそれぞれについて、ユーザによるアクセス結果に基づいて所定の方法で算出される評価値が保持され、
前記優先ルールには、前記評価値を前記推奨アイテムの選出条件に反映することを指定する評価値優先指定を含めることができ、
前記優先ルールに前記評価値優先指定が含まれる場合、前記アイテム処理部は、前記レコメンド履歴情報における前記評価値に基づいて、前記選出における前記推奨アイテムの各候補の優先度を設定する
ことを特徴とする請求項7に記載の文書情報抽出装置。
【請求項9】
同一の案件において時系列で記録される活動記録の文書解析を行って推奨アイテムを提案する文書情報抽出装置による文書情報抽出方法であって、
前記活動記録を第1文書情報に登録する第1文書情報記憶ステップと、
前記推奨アイテムの候補に関する文書データを、前記第1文書情報とは異なる文書種で構成されている第2文書情報に登録する第2文書情報記憶ステップと、
前記第1文書情報の前記活動記録に含まれる、進捗状況を示唆するキーワードに基づいて、当該活動記録の進捗状況を、複数段階の進捗カテゴリの何れかに分類する進捗判定ステップと、
前記第1文書情報から関連する固有表現を構成する第1関連語を抽出し、当該抽出した第1関連語をまとめた第1関連語情報を生成する第1文書処理ステップと、
前記第2文書情報から関連する固有表現を構成する第2関連語を抽出し、当該抽出した第2関連語をまとめた第2関連語情報を生成する第2文書処理ステップと、
前記第1文書処理ステップ及び前記第2文書処理ステップの実行後、アイテム処理ステップにおいて、前記進捗判定ステップによって分類された前記進捗カテゴリに応じた推奨アイテムの選出条件と、共通する関連語で前記第1関連語情報と前記第2関連語情報とを接続することによって前記第1文書情報と前記第2文書情報とを連携した関連語連携の結果に基づいて、前記第1文書情報の前記活動記録に含まれる第1関連語に直接的又は間接的に接続された第2関連語を有する推奨アイテムを前記推奨アイテムの候補の中から選出して出力するステップと、
を備えることを特徴とする文書情報抽出方法。
【請求項10】
前記進捗状況を表す複数段階の進捗カテゴリについて、各進捗カテゴリに対応する所定の前記キーワードが予め定められており、
前記進捗判定ステップでは、前記第1文書情報に含まれる各前記活動記録から前記キーワードを抽出し、当該抽出したキーワードに基づいて、各前記活動記録の進捗状況を前記複数段階の進捗カテゴリの何れかに分類する
ことを特徴とする請求項9に記載の文書情報抽出方法。
【請求項11】
前記複数段階の進捗カテゴリごとにどのような属性の前記推奨アイテムを優先して推奨すべきかが指定されている所定の優先ルールが予め用意され、
前記アイテム処理ステップでは、前記進捗判定ステップで分類された前記進捗カテゴリに対応する前記優先ルールに応じた選条件を指定し、前記推奨アイテムの候補から前記推奨アイテムを選出する
ことを特徴とする請求項10に記載の文書情報抽出方法。
【請求項12】
前記優先ルールはユーザ操作に応じて変更することができ、前記ユーザ操作が行われた場合、前記アイテム処理ステップでは、変更後の前記優先ルールに応じた選条件を指定し、前記推奨アイテムの候補から前記推奨アイテムを選出する
ことを特徴とする請求項11に記載の文書情報抽出方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書情報抽出装置及び文書情報抽出方法に関し、入力文書の文書解析を経てユーザに適切な情報を抽出する文書情報抽出装置及び文書情報抽出方法に適用して好適なものである。
【背景技術】
【0002】
従来、企業の営業担当者は、顧客に対する営業活動の記録を営業日報などの文書で記録するとともに、営業活動の進捗度合いや打ち合わせ状況に応じて、以降の営業活動において顧客に提案する推奨情報(例えば商品)を考案する必要があった。このときどのような推奨情報を提供するかによって営業結果は大きく変わるため、推奨情報を効率的に選択できる技術への期待があった。
【0003】
例えば特許文献1には、ユーザが帳票を作成する際に、帳票のレイアウトなどのユーザ入力情報から、参考になり得る帳票文書を提案する情報処理装置及び方法が記載されている。特許文献1に記載された情報処理装置では、ユーザ入力情報と、予め登録されている他の帳票の属性情報とを比較して、推奨する帳票を選択することにより、ユーザが想像していない、もしくはユーザの期待以上となる参考帳票の提案を可能にする。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2013-025726号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、例えば、商品あるいはサービスを提供する企業において、商品あるいはサービスの売込みを担当する従業員(以下、営業担当者と称する)が、それまでの営業活動の結果に基づいて、顧客に提案するに相応しい商品あるいはサービスを選択する場合、一般的に、顧客に提案すべき商品あるいはサービスは、営業活動の履歴や進捗具合に対応して変化する。具体的には例えば、顧客との打ち合わせが好感触であった場合は、前回の営業活動時に提案した商品あるいはサービスの類似案件を多く提案することが好適である一方、打ち合わせが難航している場合は、目新しさを優先した商品あるいはサービスを提案することに需要がある。しかし、上述した特許文献1などに開示された従来技術では、時系列で変化する入力情報における進捗状況を鑑みて、ユーザに推奨する出力情報を決定することができない、という課題があった。
【0006】
また、特許文献1に開示された技術は、帳票情報の入力から参考となる帳票情報を出力する技術であり、入力情報の文書種と出力結果(参考帳票)の文書種とが異なる場合には適用できないという課題もあった。例えば、営業担当者が、自分が行った営業活動に関する情報(以下、営業報告書と称する)を入力し、顧客に提案するに相応しい商品あるいはサービスの情報を製品カタログ文書などから選択して出力する場合、営業報告書と製品カタログ文書との属性情報は全く異なるため、それぞれの属性情報を比較しても、推奨するアイテムを選択することができなかった。
【0007】
本発明は以上の点を考慮してなされたもので、時系列で変化する入力情報における進捗状況を考慮して、好適な推奨情報を抽出することが可能な文書情報抽出装置及び文書情報抽出方法を提案しようとするものである。
【課題を解決するための手段】
【0008】
かかる課題を解決するため本発明においては、同一の案件において時系列で記録される活動記録の文書解析を行って推奨アイテムを提案する文書情報抽出装置であって、前記活動記録が登録された第1文書情報と、前記第1文書情報とは異なる文書種で構成されており、前記推奨アイテムの候補に関する文書データが登録された第2文書情報と、を格納する記憶部と、前記第1文書情報の前記活動記録に含まれる、進捗状況を示唆するキーワードに基づいて、前記活動記録の進捗状況を、複数段階の進捗カテゴリの何れかに分類する進捗判定部と、前記第1文書情報から関連する固有表現を構成する第1関連語を抽出し、当該抽出した第1関連語をまとめた第1関連語情報を生成する第1文書処理部と、前記第2文書情報から関連する固有表現を構成する第2関連語を抽出し、当該抽出した第2関連語をまとめた第2関連語情報を生成する第2文書処理部と、前記進捗判定部によって分類された前記進捗カテゴリに応じた推奨アイテムの選出条件と、共通する関連語で前記第1関連語情報と前記第2関連語情報とを接続することによって前記第1文書情報と前記第2文書情報とを連携した関連語連携の結果とに基づいて、前記第1文書情報の前記活動記録に含まれる第1関連語に直接的又は間接的に接続された第2関連語を有する推奨アイテムを前記推奨アイテムの候補の中から選出して出力するアイテム処理部と、を備える文書情報抽出装置が提供される。
【0009】
また、かかる課題を解決するため本発明においては、同一の案件において時系列で記録される活動記録の文書解析を行って推奨アイテムを提案する文書情報抽出装置による文書情報抽出方法であって、前記活動記録を第1文書情報に登録する第1文書情報記憶ステップと、前記推奨アイテムの候補に関する文書データを、前記第1文書情報とは異なる文書種で構成されている第2文書情報に登録する第2文書情報記憶ステップと、前記第1文書情報の前記活動記録に含まれる、進捗状況を示唆するキーワードに基づいて、当該活動記録の進捗状況を、複数段階の進捗カテゴリの何れかに分類する進捗判定ステップと、前記第1文書情報から関連する固有表現を構成する第1関連語を抽出し、当該抽出した第1関連語をまとめた第1関連語情報を生成する第1文書処理ステップと、前記第2文書情報から関連する固有表現を構成する第2関連語を抽出し、当該抽出した第2関連語をまとめた第2関連語情報を生成する第2文書処理ステップと、前記第1文書処理ステップ及び前記第2文書処理ステップの実行後、アイテム処理ステップにおいて、前記進捗判定ステップによって分類された前記進捗カテゴリに応じた推奨アイテムの選出条件と、共通する関連語で前記第1関連語情報と前記第2関連語情報とを接続することによって前記第1文書情報と前記第2文書情報とを連携した関連語連携の結果に基づいて、前記第1文書情報の前記活動記録に含まれる第1関連語に直接的又は間接的に接続された第2関連語を有する推奨アイテムを前記推奨アイテムの候補の中から選出して出力するステップと、を備える文書情報抽出方法が提供される。
【発明の効果】
【0010】
本発明によれば、時系列で変化する入力情報における進捗状況を考慮して、好適な推奨情報を抽出することができる。
【図面の簡単な説明】
【0011】
図1】本発明の一実施形態に係る文書情報抽出装置1の機能構成例を示すブロック図である。
図2】文書情報抽出装置1の実現に用いる情報処理装置10のハードウェア構成例を示すブロック図である。
図3】第1文書情報111の一例である。
図4】第1関連語情報112に含まれる第1関連語表116のイメージを説明するための図である。
図5】第1関連語情報112に含まれる進捗カテゴリ表117の一例である。
図6】第2文書情報113の一例である。
図7】第2関連語情報114に含まれる第2関連語表118のイメージを説明するための図である。
図8】異種文書間の関連語連携のイメージを説明するための図である。
図9図8に示した異種文書間の関連語連携を表形式で説明する図である。
図10】レコメンド候補算出表230の一例を示す図である。
図11】レコメンド算出処理の処理手順例を示すフローチャートである。
図12】関連性優先指定処理の処理手順例を示すフローチャートである。
図13】評価値優先指定処理の処理手順例を示すフローチャートである。
図14】過去提案優先指定処理の処理手順例を示すフローチャートである。
図15】活動報告登録画面240の一例である。
図16】レコメンド確認画面250の一例である。
【発明を実施するための形態】
【0012】
以下、図面を参照にしつつ、本発明の実施形態について説明する。なお、以下の記載および図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。また、本発明は、他の種々の形態でも実施する事が可能である。とくに限定しない限り、各構成要素は単数でも複数でも構わない。
【0013】
以下の説明において、符号の前に付した「S」の文字は処理ステップの意味である。また、以下の説明では「表」、「情報」という表現にて各種情報(データ)を説明するが、各種情報は、これら以外のデータ構造で表現されていてもよい。また、識別情報について説明する際、「識別子」、「ID」等の表現を適宜用いるが、これらについてはお互いに置換可能である。
【0014】
また、以下の説明において、「文書」と記載した場合、文書をテキストデータ等の所定の形式で電子化したデータを意味する。また、以下の説明において、「単語」と記載した場合、情報処理装置(文書情報抽出装置)によって抽出された固有表現を意味する。また、以下の説明において、固有表現とは、人名や地名など、特定の物事を指す単語の総称である。例えば、「技術者」や「東京都」はそれぞれ、「人」や「場所」についての固有表現である。また、この場合における固有表現の分類先である「人」や「場所」のことを「カテゴリ」と称する。
【0015】
(1)構成
図1は、本発明の一実施形態に係る文書情報抽出装置1の機能構成例を示すブロック図である。文書情報抽出装置1は、2種の文書情報(第1文書情報111,第2文書情報113)からそれぞれ抽出される固有表現から、関連性のある単語セットを格納した関連語辞書をそれぞれ作成し、関連語辞書同士を連携することで2種の文書情報を連携させる。また、文書情報抽出装置1は、時系列で入力される、履歴や進捗等の内容を含む文書情報について、予め設定した進捗カテゴリ情報(進捗カテゴリ表117)に基づき分類し、進捗カテゴリに応じたアイテム適合度を算出し、最適なアイテムを推薦する。
【0016】
図1に示すように、文書情報抽出装置1は、記憶部110、第1文書処理部120、第2文書処理部130、及びアイテム処理部140を備える。
【0017】
記憶部110は、第1文書情報111、第1関連語情報112、第2文書情報113、第2関連語情報114、及びレコメンド履歴情報115を記憶する。記憶部110は、例えば、DBMS(DataBase Management System)が提供するデータベースのテーブルや、ファイルシステムが提供するファイルとして、これらの情報(データ)を記憶する。
【0018】
第1文書情報111及び第2文書情報113は、固有表現の抽出元となる複数の文書を含む。第1文書情報111及び第2文書情報113の内容は必ずしも限定されず、例えば、第1文書情報111及び第2文書情報113は、ユーザが入力したものでもよいし、インターネット等の通信ネットワークを介して取得される情報でもよい。
【0019】
詳細は図3を参照しながら後述するが、第1文書情報111には、営業担当者によって入力される入力情報(例えば営業関連文書)が格納される。また、詳細は図6を参照しながら後述するが、第2文書情報113には、推奨アイテム(レコメンドアイテム)としてアイテム処理部140によってユーザに提案される出力情報の抽出元となる情報(例えば製品カタログ文書)が格納される。なお、本実施形態に係る文書情報抽出装置1は、入力情報を含む第1文書情報111と出力情報を含む第2文書情報113との文書の種別(文書種)が異なる場合であっても、入力情報に含まれる固有表現に基づいて、適切な出力情報を提案することを特徴の1つとするが、第1文書情報111及び第2文書情報113の文書種は、必ずしも異種である必要はなく、例えば第1文書情報111及び第2文書情報113が、ともに営業報告書であってもよい。但し、少なくとも第1文書情報111は、活動の進捗状況を示唆する情報を取得可能なことが必要であり、例えば、同一の営業活動において複数日の複数の営業日報を保有し、営業活動が順調や難航といった情報が取得可能な記載が含まれているものとする。
【0020】
第1関連語情報112は、第1文書処理部120によって抽出された関連語、及び第1文書情報111に含まれる文書を活動進捗で分類するための進捗分類情報であり、第1関連語表116、及び進捗カテゴリ表117を含む。
【0021】
第2関連語情報114は、第2文書処理部130によって抽出された関連語情報であり、第2関連語表118を含む。
【0022】
レコメンド履歴情報115は、アイテム処理部140で提案されたアイテムへのアクセス具合(評価値の指標)を格納する。アクセス度合には例えば、アイテム処理部140で提案されたアイテムに対して、ユーザが実際に選択や閲覧を行った結果が反映され、レコメンド履歴情報115では、アイテムの評価値として保持される。また。レコメンド履歴情報には、案件ごとに以前の営業活動で提案したアイテム(レコメンドアイテム)の履歴が蓄積された「レコメンド提案履歴」も保持される。
【0023】
第1文書処理部120は、固有表現特徴量抽出部121、学習推論部122、関連語表生成部123、及び進捗カテゴリ生成部124を有して構成される。固有表現特徴量抽出部121は、第1文書情報111の文書に形態素解析を実行して固有表現及び特徴量を抽出するとともに、抽出した固有表現をカテゴリに分類する。学習推論部122は、機械学習モデルによる推論モデルの学習を行う。関連語表生成部123は、学習推論部122によって学習された推論モデルを用いて、固有表現特徴量抽出部121によって抽出された固有表現の中から、関連する固有表現をまとめた第1関連語表116を生成する。進捗カテゴリ生成部124は、進捗カテゴリ表117に基づいて、第1文書情報111の文書中に含まれる活動進捗のキーワードに応じて、当該文書を複数のカテゴリに分けることにより、進捗状況を判定する。
【0024】
第2文書処理部130は、固有表現特徴量抽出部131、学習推論部132、及び関連語表生成部133を有して構成される。固有表現特徴量抽出部131は、第2文書情報113の文書に形態素解析を実行して固有表現及び特徴量を抽出するとともに、抽出した固有表現をカテゴリに分類する。学習推論部132は、機械学習モデルによる推論モデルの学習を行う。関連語表生成部133は、上記推論モデルにより、固有表現特徴量抽出部131によって抽出された固有表現の中から、関連する固有表現をまとめた第2関連語表118を生成する。
【0025】
アイテム処理部140は、適合度算出部141、アイテム推薦部、及びアイテム出力部を有して構成される。適合度算出部141は、第1関連語表116、第2関連語表118、及びレコメンド履歴情報115に基づいて、第1文書情報111に含まれる指定の文書と、第2関連語情報114に含まれるアイテムの適合度とを算出する。アイテム推薦部142は、上記アイテムの適合度に基づいて、推薦するアイテムを選択し、アイテム出力部143にてユーザに選択したアイテムを提案することで、アイテム推薦を実現する。また、アイテム処理部140は、提案したアイテムに対するユーザの利用履歴(検索回数や参考になったボタンを押した回数など)を取得し、レコメンド履歴情報115を更新する。
【0026】
図2は、文書情報抽出装置1の実現に用いる情報処理装置10のハードウェア構成例を示すブロック図である。
【0027】
図2に例示した情報処理装置10は、プロセッサ11、主記憶装置12、補助記憶装置13、入力装置14、出力装置15、及び通信装置16を備える。なお、文書情報抽出装置1の実現に用いられる情報処理装置10は、その全部または一部が、例えば、クラウドシステムによって提供される仮想サーバのように、仮想化技術やプロセス空間分離技術等を用いて提供される仮想的な情報処理資源を用いて実現されるものであってもよい。また、情報処理装置10によって提供される機能の全部または一部は、例えば、クラウドシステムがAPI(Application Programming Interface)等を介して提供するサービスによって実現されてもよい。また、文書情報抽出装置1は、通信可能に接続された複数の情報処理装置10を用いて構成されてもよい。
【0028】
図2において、プロセッサ11は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)、AI(Artificial Intelligence)チップ等を用いて構成される。
【0029】
主記憶装置12は、プログラムやデータを記憶する装置であり、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、不揮発性メモリ(NVRAM(Non Volatile RAM))等である。
【0030】
補助記憶装置13は、例えば、ハードディスクドライブ、SSD(Solid State Drive)、光学式記憶装置(CD(Compact Disc)、DVD(Digital Versatile Disc)等)、ストレージシステム、ICカード、SDカードや光学式記録媒体等の記録媒体の読取/書込装置、クラウドサーバの記憶領域等である。補助記憶装置13には、記録媒体の読取装置や通信装置16を介して、プログラムやデータを読み込むことができる。補助記憶装置13に格納(記憶)されているプログラムやデータは、主記憶装置12に随時読み込まれる。
【0031】
入力装置14は、外部からの入力を受け付けるインタフェースであり、例えば、キーボード、マウス、タッチパネル、カードリーダ、ペン入力方式のタブレット、音声入力装置等である。
【0032】
出力装置15は、処理経過や処理結果等の各種情報を出力するインタフェースである。出力装置15は、例えば、上記の各種情報を可視化する表示装置(液晶モニタ、LCD(Liquid Crystal Display)、グラフィックカード等)、上記の各種情報を音声化する装置(音声出力装置(スピーカ等))、上記の各種情報を文字化する装置(印字装置等)である。別例として、情報処理装置10が通信装置16を介して他の装置との間で情報の入力や出力を行う構成としてもよい。
【0033】
なお、入力装置14及び出力装置15は、ユーザとの間で情報の受付や提示を行うユーザインタフェースを構成する。
【0034】
通信装置16は、他の装置との間の通信を実現する装置である。通信装置16は、通信ネットワーク(インターネット、LAN(Local Area Network)、WAN(Wide Area Network)、専用線、公衆通信網棟)を介した他の装置との間の通信を実現する、有線方式または無線方式の通信インタフェースであり、例えば、NIC(Network Interface Card)、無線通信モジュール、USBモジュール等である。
【0035】
また、情報処理装置10には、例えば、オペレーティングシステム、ファイルシステム、DBMS(DataBase Management System)(リレーショナルデータベース、NoSQL等)、KVS(Key-Value Store)等が導入されていてもよい。
【0036】
そして、文書情報抽出装置1が備える機能構成のうち、第1文書処理部120、第2文書処理部130、及びアイテム処理部140による機能は、図2に示した情報処理装置10において、プロセッサ11が、主記憶装置12に格納されているプログラムを読み出して実行することにより、もしくは、これらの装置を構成するハードウェア(FPGA、ASIC、AIチップ等)によって実現される。また、文書情報抽出装置1が備える機能構成のうち記憶部110による機能は、対象となる各種の情報(データ)を例えばデータベースのテーブルやファイルシステムが管理するファイルとして、主記憶装置12や補助記憶装置13(外部記憶装置でもよい)に記憶することによって実現される。
【0037】
(2)各種情報
続いて、文書情報抽出装置1の記憶部110に記憶される各種情報について説明する。
【0038】
図3は、第1文書情報111の一例である。図3に例示した第1文書情報111は、企業の情報処理システムに蓄積された社内文書であって、同一の営業案件に対して異なる活動日に複数回の営業活動を行った事例に関する営業関連文書である。
【0039】
図3に示すように、第1文書情報111は、対象とする営業案件(対象案件)ごとに、当該案件に関する情報(例えば、案件名、需要先、受注元、金額規模、案件概要等)を管理する情報である。図3の第1文書情報111には、それぞれの活動日における営業活動の記録である営業日報111a、111b,111cが1つのグループで管理されている。なお、以降の説明では、各営業日報111a~111cを第1文書情報111における最小単位の文書とするため、各営業日報111a~111cを第1文書情報111a~111cと表記することがある。第1文書処理部120は、これら第1文書情報111における最小単位の文書(第1文書情報111a~111c)から、所定の固有表現を抽出し、抽出した固有表現の中から関連する固有表現を組み合わせて第1関連語表116を生成(作成)する。
【0040】
図4は、第1関連語情報112に含まれる第1関連語表116のイメージを説明するための図である。前述したように、第1関連語表116は、第1文書処理部120によって生成(作成)される。より詳しく説明すると、まず、第1文書処理部120の固有表現特徴量抽出部121が、第1文書情報111の文書(第1文書情報111a~111c)から、所定の固有表現(具体的には例えば、「人手作業」、「作業員」、「作業時間」、「自動化」、「半導体製造」、「検討開始」、「深堀り」、「難航」、「齟齬」等)を抽出する。そして、第1文書処理部120の関連語表生成部123が、学習推論部122によって学習された推論モデルを用いて、上記抽出された固有表現の中から関連する固有表現をまとめることにより、第1関連語表116を生成する。
【0041】
上記のようにして生成された第1関連語表116は、対象とする第1文書情報111a~111cにおいて、類似の使い方をされる固有表現の組み合わせ(同義語関係)や、同一文内に頻繁に現れる固有表現の組み合わせ(共起語関係)などを総称した「関連語辞書」に相当する。図4に示したネットワークグラフ1161は、第1文書情報111aにおいて第1関連語表116(関連語辞書)に含まれる関連語をネットワークグラフ上に展開したものである。ネットワークグラフ1161によれば、第1文書情報111aに使用された固有表現の関連性が、視覚的に認識し易い形態で表される。
【0042】
図5は、第1関連語情報112に含まれる進捗カテゴリ表117の一例である。図5に例示した進捗カテゴリ表117は、カテゴリ名1171、レコメンド優先ルール1172、及びキーワード1173の項目を有して構成される。上記各項目及びその内容は、第1文書情報111中の文書(第1文書情報111a~111c)をカテゴリ分類するために、予めユーザが任意の基準で設定する。
【0043】
例えば、カテゴリ名1171には、分類先となる各カテゴリの名称が設定され、図5の場合は「開始」、「順調」、「難航」、「深堀り」等のカテゴリ名が登録されている。なお、カテゴリの分類数や分類境界に制限はないが、第1文書情報111に含まれる前文書が、進捗カテゴリ表117において何れかのカテゴリ(カテゴリ名1171)に該当することを必要とする。
【0044】
また、レコメンド優先ルール1172には、各カテゴリにおいて、どのような属性のアイテムを優先して推奨(レコメンド)するかというルールが指定される。図5にも示したように、各カテゴリに対応するレコメンド優先ルール1172は、1つに限定されることはなく、対応するカテゴリの特性を考慮して、任意の種類のルールを、任意の内容で設定することができる。
【0045】
また、キーワード1173には、第1文書情報111(厳密には第1文書情報111a~111c)を進捗カテゴリ生成部124によって各カテゴリに自動分類できるようにするために、各カテゴリに対応する進捗情報を示唆する語句(キーワード)が設定される。前述したように、第1文書処理部120の進捗カテゴリ生成部124は、進捗カテゴリ表117に基づいて、第1文書情報111の各文書(第1文書情報111a~111c)の進捗状況を分類する。このとき、進捗カテゴリ生成部124は、第1文書情報111内の各文書においてキーワード1173に登録されているキーワードが含まれている場合に、当該文書を対応するカテゴリに自動分類する。なお、図5にも示したように、カテゴリごとに設定されるキーワードの数に制限はないが、複数のカテゴリに重複するキーワードを設定することは禁止される。
【0046】
図6は、第2文書情報113の一例である。図6に例示した第2文書情報113は、企業の情報処理システムに蓄積された社内文書であって、当該企業が販売(提供)する複数の製品について、製品ごとに詳細な内容を記述した製品カタログ文書である。各製品の製品カタログ文書として、図6には、第2文書情報113a,113bが例示されている。
【0047】
第2文書処理部130は、これら第2文書情報113における最小単位の文書(第2文書情報113a,113b)から、所定の固有表現を抽出し、抽出した固有表現の中から関連する固有表現を組み合わせて第2関連語表118を生成(作成)する。但し、第1文書処理部120が第1文書情報111から第1関連語表116を生成する手法とは異なる点として、第2文書処理部130による第2関連語表118の生成では、第2文書情報113a,113bのうちから進捗情報を取得する必要はない。
【0048】
図7は、第2関連語情報114に含まれる第2関連語表118のイメージを説明するための図である。前述したように、第2関連語表118は、第2文書処理部130によって生成(作成)される。より詳しく説明すると、まず、第2文書処理部130の固有表現特徴量抽出部131が、第2文書情報113の文書(第2文書情報113a,113b)から、所定の固有表現(具体的には例えば、「リモート化」、「センサー」、「稼働状態」、「無線通信」、「現場」、「リアルタイム」、「従業員」、「生産性」、「オフィス」等)を抽出する。そして、第2文書処理部130の関連語表生成部133が、学習推論部132によって学習された推論モデルを用いて、上記抽出された固有表現の中から関連する固有表現をまとめることにより、第2関連語表118を生成する。
【0049】
上記のようにして生成された第2関連語表118は、対象とする第2文書情報113a,113bにおいて、類似の使い方をされる固有表現の組み合わせ(同義語関係)や、同一文内に頻繁に現れる固有表現の組み合わせ(共起語関係)などを総称した「関連語辞書」に相当する。図7に示したネットワークグラフ1181は、第2文書情報113aにおいて第2関連語表118(関連語辞書)に含まれる関連語をネットワークグラフ上に展開したものである。ネットワークグラフ1181によれば、第2文書情報113aに使用された固有表現の関連性が、視覚的に認識し易い形態で表される。
【0050】
(3)異種文書間の関連語連携
文書情報抽出装置1のアイテム処理部140は、入力情報である第1文書情報111と、出力情報の候補となる第2文書情報113との間で関連語句を連携させて、入力情報に含まれる進捗状況を考慮して、ユーザに提案する推奨情報の候補(レコメンド候補)を選出する。なお、本実施形態では、第1文書情報111と第2文書情報113とが異なる文書種である場合にも、文書間の関連語句を連携させることができる。以下では、この異種文書間の関連語の連携に基づくレコメンド候補の選出イメージについて説明する。
【0051】
図8は、異種文書間の関連語連携のイメージを説明するための図である。図8に示すネットワークグラフ210は、第1文書情報111a及び第2文書情報113aのそれぞれにおける関連語をネットワークグラフ化して、両者に共通する関連語(共通項)を接続して構成したものである。
【0052】
具体的には、図8に示すネットワークグラフ210のうち、主に左側に示されたネットワークグラフ211は、第1関連語表116に基づく第1文書情報111aの関連語を示すネットワークグラフであり(図4のネットワークグラフ1161と同様)、主に右側に示されたネットワークグラフ212は、第2関連語表118に基づく第2文書情報113aの関連語のネットワークグラフである(図7のネットワークグラフ1181と同様)。図8のネットワークグラフ210によれば、「働き方」及び「IoT」という語句が第1文書情報111a及び第2文書情報113aの双方に共通する関連語(共通項)であることから、これらの共通項でネットワークグラフ211とネットワークグラフ212とを接続することができる。
【0053】
このとき、第1文書情報111aの文中に含まれる「人手作業」という語句から、「人手作業-自動化-IoT-リモート化」という経路と「人手作業-作業員-働き方-作業効率-一括管理-リモート化」という経路の2通りの経路で「リモート化」という語句に到達することができる。この結果、アイテム処理部140は、「リモート化」という語句を文中に含む第2文書情報113aをレコメンド候補として選出することができる。このように、文書情報抽出装置1のアイテム処理部140は、異種文書である第1文書情報111aと第2文書情報113aとの間で、関連語の連携を行って、レコメンド候補を選出することができる。
【0054】
図9は、図8に示した異種文書間の関連語連携を表形式で説明する図である。図9に示された関連語連携表220は、「人手作業」から「リモート化」に到達する関連語の経緯について、図8で説明した「人手作業-自動化-IoT-リモート化」という第1の経路と「人手作業-作業員-働き方-作業効率-一括管理-リモート化」という第2の経路とを表にまとめたものである。図9によれば、第1の経路では、第1文書情報111aに記載されている「人手作業」から3単語の関連語で「リモート化」のレコメンド候補を選出することができる一方、第2の経路では、「人手作業」から「リモート化」のレコメンド候補を選出するために5単語の関連語が必要であることが分かる。
【0055】
図10は、レコメンド候補算出表230の一例を示す図である。レコメンド候補算出表230は、異種文書間の関連語連携において、レコメンド候補を選出するまでに必要な関連語の数を距離を基準に表した表である。
【0056】
例えば図10のレコメンド候補算出表230は、第1文書情報111aを入力情報としたときに、第1文書情報111aに含まれる「人手作業」という語句に対して、第2文書情報113に含まれる複数の製品名231のレコメンド候補がどの程度の距離で何通り連携するか(接続個数232)と、さらに、その接続個数と距離とを掛け合わせた値の合計値(スコア233)とを表している。
【0057】
ここで、一般には、入力情報に含まれる語句(例えば「人手作業」)とレコメンド候補に含まれる語句(例えば「リモート化」)との距離が近い(すなわち多くの関連語を必要としない)連携であるほど、当該レコメンド候補は入力情報との関連性が大きい製品であるといえる。一方、入力情報に含まれる語句とレコメンド候補に含まれる語句との距離が遠い(すなわち多くの関連語を必要とする)連携であるほど、当該レコメンド候補は一見して入力情報との関連性がない製品といえる。しかし、一見して関連性がなさそうなレコメンド候補であっても、多くの経路で接続(多くの接続個数で連携)されていれば、ユーザにレコメンド提案する価値が高く、意外性の大きい製品であるといえる。
【0058】
上記の観点から、レコメンド候補算出表230では、接続個数と距離とを掛けた値の合計値をスコア233として計算することにより、関連性が小さい製品であっても、スコア233が大きければ、レコメンド提案する価値が高い意外性の高い製品であると判断することができる。例えば、図10のレコメンド候補算出表230の場合、最短で「距離#1」で接続可能な「省エネ」という製品は、関連性の大きいレコメンド候補と判断することができる。一方、最短で「距離#4」でしか接続できない「AI導入」という製品は、関連性が小さいレコメンド候補である。しかし、製品「AI導入」は、「距離#4」及び「距離#5」で接続可能であることから高いスコア値「9」を有するため、例えばスコア値「8」の製品「リモート化」よりも、意外性の大きなレコメンド価値の高い製品であると判断することができる。
【0059】
以上に説明したように、本実施形態では、異種文書間の関連語連携であっても、レコメンド候補算出表230を用いて、異種文書間の関連語連携で接続できた個数と、接続までに要した単語間の距離とを考慮することにより、レコメンド候補のアイテムを選出する際に、関連性(もしくは意外性)に基づく優先順位を設定することができる。
【0060】
(4)レコメンド算出処理
ユーザがレコメンドしてほしいアイテムは、営業活動の進捗具合に応じて、時々刻々と変化する。そこで、以下では、本実施形態に係る文書情報抽出装置1が、営業活動の進捗に応じてレコメンドアイテムを提案するレコメンド算出処理について説明する。
【0061】
本説明では、第1文書情報111に含まれる文書(第1文書情報111a~111c等)の何れかを入力情報とし、レコメンド算出処理の実行によって、第2文書情報113に含まれる各文書(例えば第2文書情報113a,113b等)のうちから、複数のレコメンド候補が優先度合いを付けて選出されることにより、好適なレコメンドアイテムがユーザに提案される。なお、以下の処理の開始時には、第1文書情報111(第1文書情報111aを含む)に基づく第1関連語情報112、及び第2文書情報113(第2文書情報113aを含む)に基づく第2関連語情報114が既に生成されているものとする。
【0062】
図11は、レコメンド算出処理の処理手順例を示すフローチャートである。レコメンド算出処理はアイテム処理部140によって実行される。なお、レコメンド算出処理は、例えば、文書情報抽出装置1が、第1文書情報111からの情報抽出の実行を要求するユーザ操作を受け付けたときに開始される(以後、情報抽出元とされる第1文書情報111を、抽出対象の第1文書情報111と称する)。より具体的には、レコメンド算出処理は、図15に示す活動報告登録画面240のレコメンド実行確認ボタン245が押下されたときに、ステップS110の処理が実行され、図16に示すレコメンド確認画面250のレコメンド実行ボタン253が押下されたときに、ステップS120以降の処理が実行される。
【0063】
図11によればまず、アイテム処理部140の適合度算出部141が、レコメンド候補算出表230を作成する(ステップS110)。レコメンド候補算出表230については図10で詳述した通りである。また、レコメンド候補算出表230は、後述する関連性優先指定処理で用いられるため、レコメンド候補算出表230を作成する処理は、図12に示す関連性優先指定処理のなか(例えばステップS112とステップS113の間)で実行されるとしてもよい。
【0064】
次に、適合度算出部141は、進捗カテゴリ表117及びレコメンド候補算出表230を用いて、入力情報とされる第1文書情報111(例えば営業日報)に対する関連性(もしくは意外性)に基づいてレコメンド候補とするアイテムを選別する関連性優先指定処理を実行する(ステップS120)。関連性優先指定処理の詳細な処理手順は、図12を参照しながら後述する。
【0065】
次に、適合度算出部141は、進捗カテゴリ表117及びレコメンド履歴情報115を用いて、アイテムのアクセス度合い(評価値)に基づいてレコメンド候補とするアイテムを選別する評価値優先指定処理を実行する(ステップS130)。評価値優先指定処理の詳細な処理手順は、図13を参照しながら後述する。
【0066】
次に、適合度算出部141は、進捗カテゴリ表117及びレコメンド履歴情報115を用いて、同一案件の営業活動においてレコメンド済みのアイテムであるか否かに基づいてレコメンド候補とするアイテムを選別する過去提案優先指定処理を実行する(ステップS140)。過去提案優先指定処理の詳細な処理手順は、図14を参照しながら後述する。
【0067】
なお、ステップS120~S140の各処理の実行順序は図11の例に限定されず、適宜入れ替えてもよい。
【0068】
続いて、アイテム推薦部142が、ステップS120~S140の各優先指定処理の実行結果を踏まえて、レコメンドアイテムの優先順位を決定する(ステップS150)。詳しくは、ステップS150においてアイテム推薦部142は、ステップS120~S140の各優先指定処理で指定されたレコメンド候補の選出条件に基づいて、第2文書情報113に含まれる各アイテムを選別して優先順位を付し、優先順位が上位のアイテムから順に、図16で後述するレコメンド確認画面250のレコメンド結果欄254に表示可能なアイテム数の分だけを、ユーザに提案するレコメンド候補として決定する。
【0069】
次いで、アイテム出力部143が、ステップS150で決定された優先順位を反映する形態で、レコメンド確認画面250のレコメンド結果欄254にレコメンド候補(レコメンドアイテム)を表示し(ステップS160)、レコメンド算出処理が終了する。
【0070】
図12は、関連性優先指定処理の処理手順例を示すフローチャートである。前述したように、関連性優先指定処理は、図11のステップS120の処理であって、アイテム処理部140の適合度算出部141によって実行される。
【0071】
図12によればまず、適合度算出部141は、進捗カテゴリ表117の情報を参照し、抽出対象の第1文書情報111のカテゴリに対応するレコード(進捗カテゴリ情報)を取得する(ステップS121)。
【0072】
次に、適合度算出部141は、ステップS121で取得した進捗カテゴリ情報のレコメンド優先ルール1172において、抽出対象の第1文書情報111とレコメンドアイテムとの関連性(または意外性)に関する指定がなされているか否かを判定する(ステップS122)。具体的には、適合度算出部141は、対象のレコメンド優先ルール1172において、図5で例示された分類(A)について有意な指定内容が記載されている場合に、抽出対象の第1文書情報111とレコメンドアイテムとの関連性(または意外性)に関する指定がなされていると判定することができる。レコメンドアイテムとの関連性(または意外性)に関する指定がなされている場合は(ステップS122のYES)、ステップS123に進む。一方、レコメンドアイテムとの関連性(または意外性)に関する指定がなされていない場合は(ステップS122のNO)、関連性または意外性に基づくレコメンド候補の選出条件の指定を行うことなく、関連性優先指定処理を終了する。
【0073】
ステップS123では、適合度算出部141は、対象のレコメンド優先ルール1172に「関連性を優先する」と同義の内容の指定がされているか否かを判定する。
【0074】
ステップS123において「関連性を優先する」と同義の内容の指定がされている場合(ステップS123のYES)、適合度算出部141は、関連性の高いアイテムを優先してレコメンド候補にするという選出条件を指定し(ステップS124)、関連性優先指定処理を終了する。ステップS124の処理を詳しく説明すると、適合度算出部141は、例えば、レコメンド候補算出表230を参照し、レコメンド候補とされる複数のアイテム(例えば製品)に対して、関連性の高い(大きい)アイテムからフラグを付ける等して優先度を設定することにより、レコメンド候補の選出条件に関連性の高さを関連付けることができる。
【0075】
一方、ステップS123において「関連性を優先する」と同義の内容の指定がされていない場合、言い換えれば「意外性を優先する」と同義の内容の指定がされている場合には(ステップS123のNO)、適合度算出部141は、意外性の高いアイテムを優先してレコメンド候補にするという選出条件を指定し(ステップS125)、関連性優先指定処理を終了する。ステップS125の処理を詳しく説明すると、適合度算出部141は、例えば、レコメンド候補算出表230を参照し、レコメンド候補とされる複数のアイテム(例えば製品)に対して、意外性の高い(大きい)アイテムからフラグを付ける等して優先度を設定することにより、レコメンド候補の選出条件に意外性の高さを関連付けることができる。
【0076】
図13は、評価値優先指定処理の処理手順例を示すフローチャートである。前述したように、評価値優先指定処理は、図11のステップS130の処理であって、アイテム処理部140の適合度算出部141によって実行される。
【0077】
図13によればまず、適合度算出部141は、進捗カテゴリ表117の情報を参照し、抽出対象の第1文書情報111のカテゴリに対応するレコード(進捗カテゴリ情報)を取得する(ステップS131)。次に、適合度算出部141は、レコメンド履歴情報115を取得する(ステップS132)。
【0078】
次に、適合度算出部141は、ステップS131で取得した進捗カテゴリ情報のレコメンド優先ルール1172において、レコメンドアイテムの評価値に関する指定がなされているか否かを判定する(ステップS133)。具体的には、適合度算出部141は、対象のレコメンド優先ルール1172において、図5で例示された分類(B)について有意な指定内容が記載されている場合に、レコメンドアイテムの評価値に関する指定がなされていると判定することができる。レコメンドアイテムの評価値に関する指定がなされている場合は(ステップS133のYES)、ステップS134に進む。一方、レコメンドアイテムの評価値に関する指定がなされていない場合は(ステップS133のNO)、評価値に基づくレコメンド候補の選出条件の指定を行うことなく、評価値優先指定処理を終了する。
【0079】
ステップS134では、適合度算出部141は、対象のレコメンド優先ルール1172に「高評価を優先する」と同義の内容の指定がされているか否かを判定する。
【0080】
ステップS134において「高評価を優先する」と同義の内容の指定がされている場合(ステップS134のYES)、適合度算出部141は、レコメンド履歴情報115に含まれるアイテムごとの評価値に基づいて、評価値の高いアイテムを優先してレコメンド候補にするという選出条件を指定し(ステップS135)、評価値優先指定処理を終了する。ここで、レコメンド履歴情報115に含まれるアイテムの評価値は、当該アイテムのレコメンド状況によって変化する値であって、具体的には例えば、当該アイテムがユーザによって検索された回数や、過去に当該アイテムがレコメンドされた際にユーザから「参考になった」旨のボタンが押下された回数等に基づいて決定される。すなわち、評価値が高いアイテムは、推奨された場合に有用な(評価が高い)アイテムであることを意味する。したがって、ステップS135において適合度算出部141は、例えば、レコメンド履歴情報115を参照し、レコメンド候補とされる複数のアイテム(例えば製品)に対して、評価値の高いアイテムからフラグを付ける等して優先度を設定することにより、レコメンド候補の選出条件に評価値の高さを関連付けることができる。
【0081】
一方、ステップS134において「高評価を優先する」と同義の内容の指定がされていない場合、言い換えれば「低評価を優先する」と同義の内容の指定がされている場合には(ステップS134のNO)、適合度算出部141は、評価値の低いアイテムを優先してレコメンド候補にするという選出条件を指定し(ステップS136)、評価値優先指定処理を終了する。ステップS136のより具体的な処理については、ステップS135とは逆の基準で優先度を設定すればよいことから、詳細な説明を省略する。
【0082】
図14は、過去提案優先指定処理の処理手順例を示すフローチャートである。前述したように、過去提案優先指定処理は、図11のステップS140の処理であって、アイテム処理部140の適合度算出部141によって実行される。
【0083】
図14によればまず、適合度算出部141は、進捗カテゴリ表117の情報を参照し、抽出対象の第1文書情報111のカテゴリに対応するレコード(進捗カテゴリ情報)を取得する(ステップS141)。次に、適合度算出部141は、レコメンド履歴情報115を取得する(ステップS142)。
【0084】
次に、適合度算出部141は、ステップS141で取得した進捗カテゴリ情報のレコメンド優先ルール1172において、レコメンドアイテムの過去提案に関する指定がなされているか否かを判定する(ステップS143)。具体的には、適合度算出部141は、対象のレコメンド優先ルール1172において、図5で例示された分類(C)について有意な指定内容が記載されている場合に、レコメンドアイテムの過去提案に関する指定がなされていると判定することができる。レコメンドアイテムの過去提案に関する指定がなされている場合は(ステップS143のYES)、ステップS144に進む。一方、レコメンドアイテムの過去提案に関する指定がなされていない場合は(ステップS143のNO)、過去提案に基づくレコメンド候補の選出条件の指定を行うことなく、過去提案優先指定処理を終了する。
【0085】
ステップS144では、適合度算出部141は、対象のレコメンド優先ルール1172に「未提案のアイテムを優先する」と同義の内容の指定がされているか否かを判定する。
【0086】
ステップS144において「未提案のアイテムを優先する」と同義の内容の指定がされている場合(ステップS144のYES)、適合度算出部141は、レコメンド履歴情報115に含まれるレコメンド提案履歴を参照し、本案件に関するレコメンド提案履歴に記録されていない未提案のアイテムを優先してレコメンド候補にするという選出条件を指定し(ステップS145)、過去提案優先指定処理を終了する。ここで、レコメンド履歴情報115に含まれるレコメンド提案履歴は、案件ごとに以前の営業活動で提案したアイテム(レコメンドアイテム)の履歴が蓄積された情報である。すなわち、本案件のレコメンド提案履歴に記録されていないアイテムは、本案件の過去の営業活動で提案されたことがない未提案のアイテムであることを意味する。したがって、ステップS145において適合度算出部141は、例えば、レコメンド履歴情報115に含まれる本案件のレコメンド提案履歴に記録されていないアイテムにフラグを付ける等して優先度を設定することにより、レコメンド候補の選出条件に過去提案の有無を関連付けることができる。
【0087】
一方、ステップS144において「未提案のアイテムを優先する」と同義の内容の指定がされていない場合、例えば「提案済みのアイテムを優先する」と同義の内容の指定がされている場合には(ステップS144のNO)、適合度算出部141は、レコメンド履歴情報115に含まれるレコメンド提案履歴を参照し、本案件に関するレコメンド提案履歴に記録されている提案済みのアイテムを優先してレコメンド候補にするという選出条件を指定し(ステップS146)、評価値優先指定処理を終了する。ステップS146のより具体的な処理については、ステップS145とは逆の基準で優先度を設定すればよいことから、詳細な説明を省略する。
【0088】
(5)出力画面例
以下では、本実施形態に係る文書情報抽出装置1において、営業日報を登録したり、登録した営業日報に対するレコメンドアイテムの選定を実行したりする際に表示される出力画面について、具体例を挙げて説明する。
【0089】
図15は、活動報告登録画面240の一例である。活動報告登録画面240は、入力情報となる営業日報をユーザが第1文書情報111に登録する際に、出力装置15を介してユーザに提示される画面の一例であって、例えば入力装置14を介してユーザから操作可能なGUI(Graphical User Interface)で実現される。
【0090】
図15に示したように、活動報告登録画面240は、営業活動の案件名を選択可能な選択欄241、営業日報を文書情報抽出装置1にアップロードするためのアップロードボタン242、案件を登録するための案件登録ボタン243、選択欄241で選択された案件における営業活動の一覧情報を表示する活動一覧情報欄244、及び、レコメンドアイテムの選出を実行するためのレコメンド実行確認ボタン245、を含んで構成される。
【0091】
活動報告登録画面240では、まず、選択欄241において、登録したい営業日報が属する営業活動の案件をユーザが選択することにより、選択した案件における営業活動の一覧情報が活動一覧情報欄244に表示される。図15の例では、「XX製鉄〇×工場のスマート化」という案件が選択されている。
【0092】
次に、アップロードボタン242が押下されると、例えばファイル選択画面が表示され、ユーザが予め記入しておいた営業日報がアップロードの対象として選択可能となり、ファイル選択画面で所望の営業日報のファイルを選択する操作が行われることによって、当該営業日報が文書情報抽出装置1にアップロードされる。
【0093】
そして、案件登録ボタン243が押下されると、アップロードされた営業日報が、選択中の案件の活動報告書として第1文書情報111に登録される。図15の例では、「XX製鉄案件6」というタイトルの営業日報が「XX製鉄〇×工場のスマート化」という案件に登録される。
【0094】
前述したように、活動一覧情報欄244には、選択欄241で選択した案件における営業活動の一覧情報が表示されている。活動一覧情報欄244内の「活動履歴」欄には、当該案件に登録済みの営業日報に関する情報が表示されており、何れかの営業日報をユーザが選択することができる。図15の例では、タイトル「XX製鉄案件6」の営業日報が選択されている。
【0095】
そして、活動一覧情報欄244で何れかの営業日報が選択された状態でレコメンド実行確認ボタン245が押下されると、選択中の営業日報を入力情報として、アイテム処理部140が呼び出される。このとき、呼び出されたアイテム処理部140(アイテム出力部143)は、前述したレコメンド算出処理を行って入力情報とされた営業日報から最適なレコメンドを出力するための確認用画面として、レコメンド確認画面250を出力装置15に表示する。図15の例でレコメンド実行確認ボタン245が押下された場合には、タイトル「XX製鉄案件6」の営業日報に対するレコメンド実行について、レコメンド確認画面250が表示される。
【0096】
図16は、レコメンド確認画面250の一例である。レコメンド確認画面250は、図15に例示した活動報告登録画面240においてレコメンド実行確認ボタン245が押下された場合に、出力装置15を介してユーザに提示される画面の一例であって、例えば入力装置14を介してユーザから操作可能なGUI(Graphical User Interface)で実現される。
【0097】
図16に示したように、レコメンド確認画面250は、選択中の営業日報のレコメンドに関する情報を表示する情報欄251、レコメンド優先ルールを手動で切り換えるためのルール変更ボタン252、レコメンド算出処理を実行させるためのレコメンド実行ボタン253、レコメンド結果を表示するレコメンド結果欄254、及びレコメンド結果欄254に表示されたレコメンドアイテムのうち、ユーザが気に入った(または気になった)アイテムを選択するためのレコメンドアイテム選択ボタン255、を含んで構成される。
【0098】
レコメンド確認画面250において、情報欄251には、選択中の営業日報に対して適合度算出部141が進捗カテゴリ表117を参照して文書解析を行った結果が自動表示される。具体的には、情報欄251には、選択中の営業日報のタイトル「XX製鉄案件6」、当該営業日報が該当する「難航」の進捗カテゴリ(図5のカテゴリ名1171参照)、及び当該進捗カテゴリに対応するレコメンド優先ルール(図5のレコメンド優先ルール1172参照)が表示される。
【0099】
また、ルール変更ボタン252は、進捗カテゴリの自動分類に応じて情報欄251に表示されたレコメンド優先ルールを、ユーザの希望に応じて手動で変更するために用意されており、「変更」と表示されたルール変更ボタン252が押下された場合には、進捗カテゴリに対応して規定されたレコメンド優先ルールを、ユーザが任意のレコメンド優先ルールに変更する操作を行うことができる。また、レコメンド優先ルールが一旦変更された後は、ルール変更ボタン252は、例えば図16に示したように「戻る」という表示が行われ、この「戻る」と表示されたルール変更ボタン252が押下された場合には、規定のレコメンド優先ルールに戻す等の処理が行われるとしてもよい。
【0100】
そして、レコメンド実行ボタン253が押下されると、情報欄251に表示されたレコメンド優先ルールに基づいて、アイテム処理部140(適合度算出部141、アイテム推薦部142、アイテム出力部143)によってレコメンド算出処理が実行され、上記レコメンド優先ルールに準拠して選出されたレコメンドアイテムがレコメンド結果欄254に表示される。なお、アイテム処理部140は、レコメンド結果欄254に表示された複数のレコメンドアイテムのそれぞれについて、レコメンド履歴情報115に含まれるレコメンド提案履歴を更新する。
【0101】
図16のレコメンド結果欄254には、情報欄251に表示されたレコメンド優先ルールに準拠したレコメンド優先順位に従って選出された複数のレコメンドアイテム(本例では製品名)がグラフ表示によって可視化されている。より詳細には、グラフの縦軸には、レコメンド優先度が上位のアイテムが「オススメ度」の高さによって可視化され、グラフの横軸には、選択中の営業日報(入力情報)の文書との関連性が大きいアイテム(もしくは意外性の大きいアイテム)が、関連性(もしくは意外性)の度合いの大きさ順に並べて表示される。
【0102】
図16の場合、選択された「XX製鉄案件6」の営業日報が該当する進捗カテゴリは「難航」であり、一般には意外性の大きい製品の提案が有効と考えられる。ここで、レコメンド結果欄254に表示された最も意外性の大きいアイテムは「働き方改革製品」であるが、その「オススメ度」は上位2番目に留まっている。一方、「リモート化製品」は、意外性の大きさは3番目であるものの、最も高い「オススメ度」を示すアイテムとなっており、総合的には最も有効なレコメンドアイテムであることが示される。なお、「リモート化製品」の「オススメ度」が高くなった理由としては、「(B)履歴情報の利用方法」のレコメンド優先ルールで設定された「高評価アイテム優先」に基づく影響が大きいと考えられる。また、上述した「働き方改革製品」は、次点の「オススメ度」であることから、このアイテムも有効なレコメンドアイテムと考えてよい。
【0103】
また、レコメンド結果欄254に表示された各レコメンドアイテムに設けられたレコメンドアイテム選択ボタン255は、対応アイテムをユーザが気に入った(または気になった)場合に押下されることにより、対象アイテムに対する評価値の向上に寄与する。具体的には例えば、レコメンドアイテム選択ボタン255が押下されるごとに、アイテム処理部140が、レコメンド履歴情報115に含まれる対象アイテムの評価値を所定ポイントだけ上乗せしたり、レコメンドアイテム選択ボタン255が押下されると、「参考になった」旨のボタンが表示される別のウインドウを展開し、「参考になった」旨のボタンが押下されたときに、アイテム処理部140が、レコメンド履歴情報115に含まれる対象アイテムの評価値を所定ポイントだけ上乗せしたりすることができる。また例えば、レコメンドアイテム選択ボタン255が押下された場合には、対象のレコメンドアイテムの詳細情報を表示するようにして、その表示期間(閲覧時間)の長さに応じて、アイテム処理部140が、レコメンド履歴情報115に含まれる対象アイテムの評価値を上乗せする等してもよい。また、レコメンド履歴情報115に含まれる各アイテムの評価値は、常に増加するだけに限定されず、例えば表示履歴が追加されても閲覧されなかった場合には減点する等の減少処理を行うようにしてもよい。
【0104】
何れにしても、アイテム処理部140は、レコメンドアイテム選択ボタン255に対するユーザ操作に基づいて、レコメンド履歴情報115に含まれる各アイテムの評価値を変化・更新することにより、以降に実行されるレコメンド算出処理において、評価値優先指定処理(図11のステップS130、図13参照)によるレコメンド候補の選出条件の指定に最新の評価値を反映させることができる。その結果、文書情報抽出装置1は、ユーザの好みや選択傾向を反映した評価値を条件に加えて、より好適な推奨情報を抽出することができる。
【0105】
以上に説明したように、本実施形態に係る文書情報抽出装置1によれば、用途や記載内容が異なる2種以上の文書(第1文書情報111、第2文書情報113)間で、関連語抽出技術により情報連携を可能にする。そして、時系列で入力される入力文書(第1文書情報111)から営業活動などの進捗情報が取得できる文書データの場合、入力文書における活動の進捗に応じた最適なレコメンドアイテムを提案可能となる。
【0106】
また、入力文書である第1文書情報111と、レコメンド対象である第2文書情報113が、表記内容や用途が全く異なる異種文書であっても、本実施形態に係る文書情報抽出装置1によれば、関連語抽出技術により情報連携が可能になることから、入力情報に含まれる進捗状況を考慮して、好適な推奨情報(レコメンドアイテム)を抽出し、提案することが可能となる。具体的には例えば、営業担当者が作成した営業報告書から営業活動の履歴や進捗を把握し、最適なアイテムを製品カタログ文書から容易に検索することが可能となる。
【0107】
以上、本発明の一実施形態について説明したが、本発明は上記の実施形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、上記の実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、上記実施形態の構成の一部について、他の構成の追加や削除、置換をすることが可能である。具体的には例えば、上記の実施形態では、ユーザに推奨されるレコメンドアイテムの候補情報を含む第2文書情報113について、製品カタログ文書を例に挙げて説明したが、本発明の第2文書情報113は製品カタログ文書に限定されるものではなく、例えば、ナレッジ、特許、論文等、文書形式の様々な文書にも適用可能である。
【0108】
また、上記の各構成、機能部、処理部、処理手段等は、それらの一部または全部を、例えば、集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、SSD(Solid State Drive)等の記録装置、ICカード、SDカード、DVD等の記録媒体に置くことができる。
【0109】
また、以上に説明した各情報処理装置の各種機能部、各種処理部、各種データベースの配置形態は一例に過ぎない。各種機能部、各種処理部、各種データベースの配置形態は、これらの装置が備えるハードウェアやソフトウェアの性能、処理効率、通信効率等の観点から最適な配置形態に変更し得る。
【0110】
また、前述した各種のデータを格納するデータベースの構成(スキーマ(Schema)等)は、リソースの効率的な利用、処理効率向上、アクセス効率向上、検索効率向上等の観点から柔軟に変更し得る。
【0111】
また、図面において制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実施には殆ど全ての構成が相互に接続されていると考えてもよい。
【符号の説明】
【0112】
1 文書情報抽出装置
10 情報処理装置
11 プロセッサ
12 主記憶装置
13 補助記憶装置
14 入力装置
15 出力装置
16 通信装置
110 記憶部
111 第1文書情報
112 第1関連語情報
113 第2文書情報
114 第2関連語情報
115 レコメンド履歴情報
116 第1関連語表
117 進捗カテゴリ表
118 第2関連語表
120 第1文書処理部
121 固有表現特徴量抽出部
122 学習推論部
123 関連語表生成部
124 進捗カテゴリ生成部
130 第2文書処理部
131 固有表現特徴量抽出部
132 学習推論部
133 関連語表生成部
140 アイテム処理部
141 適合度算出部
142 アイテム推薦部
143 アイテム出力部
210 ネットワークグラフ
220 関連語連携表
230 レコメンド候補算出表
240 活動報告登録画面
250 レコメンド確認画面
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16