(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025105267
(43)【公開日】2025-07-10
(54)【発明の名称】情報処理装置、情報処理システム、情報処理方法及び制御プログラム
(51)【国際特許分類】
G06F 16/907 20190101AFI20250703BHJP
G06F 16/9038 20190101ALI20250703BHJP
G06F 16/93 20190101ALI20250703BHJP
【FI】
G06F16/907
G06F16/9038
G06F16/93
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2023223706
(22)【出願日】2023-12-28
(71)【出願人】
【識別番号】309007911
【氏名又は名称】サントリーホールディングス株式会社
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100117019
【弁理士】
【氏名又は名称】渡辺 陽一
(74)【代理人】
【識別番号】100141977
【弁理士】
【氏名又は名称】中島 勝
(74)【代理人】
【識別番号】100138210
【弁理士】
【氏名又は名称】池田 達則
(74)【代理人】
【識別番号】100180806
【弁理士】
【氏名又は名称】三浦 剛
(72)【発明者】
【氏名】川合 杏奈
(72)【発明者】
【氏名】北村 万里
(72)【発明者】
【氏名】ゴーホアン ナム
(72)【発明者】
【氏名】高木 基成
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175FB03
5B175JC05
(57)【要約】
【課題】利用者の利便性を向上させることが可能な情報処理装置、情報処理システム、情報処理方法及び制御プログラムを提供する。
【解決手段】情報処理装置は、複数の文書情報を取得する取得部と、所定の文書情報が入力された場合に所定の文書情報の評価値を出力するように事前学習された学習済みモデルに、複数の文書情報を入力することにより各文書情報の評価値を特定する特定部と、ユーザによる抽出数又は抽出割合の指定を受け付ける受付部と、複数の文書情報の中から、評価値が高い順に抽出数又は抽出割合の文書情報を抽出する抽出部と、抽出された文書情報を評価値の順に並べたデータを出力する出力部と、を有する。
【選択図】
図6
【特許請求の範囲】
【請求項1】
複数の文書情報を取得する取得部と、
所定の文書情報が入力された場合に前記所定の文書情報の評価値を出力するように事前学習された学習済みモデルに、前記複数の文書情報を入力することにより各文書情報の評価値を特定する特定部と、
ユーザによる抽出数又は抽出割合の指定を受け付ける受付部と、
前記複数の文書情報の中から、前記評価値が高い順に前記抽出数又は前記抽出割合の文書情報を抽出する抽出部と、
前記抽出された文書情報を前記評価値の順に並べたデータを出力する出力部と、
を有することを特徴とする情報処理装置。
【請求項2】
複数の文書情報を取得する取得部と、
所定の文書情報が入力された場合に前記所定の文書情報の第1部分の評価値を出力するように事前学習された第1学習済みモデルに、前記複数の文書情報を入力することにより各文書情報の第1部分の評価値を特定する特定部と、
ユーザによる抽出数又は抽出割合の指定を受け付ける受付部と、
前記複数の文書情報の中から、前記評価値が高い順に前記抽出数又は前記抽出割合の文書情報を抽出する抽出部と、
所定の文書情報が入力された場合に前記所定の文書情報の第2部分の第2評価値を出力するように事前学習された第2学習済みモデルに、前記抽出された文書情報を入力することにより前記抽出された各文書情報の第2部分の第2評価値を特定する第2特定部と、
前記抽出された文書情報を前記第2評価値の順に並べたデータを出力する出力部と、
を有することを特徴とする情報処理装置。
【請求項3】
複数の分野毎に、抽出数又は抽出割合が記憶された記憶部をさらに有し、
前記取得部は、前記複数の文書情報が属する分野をさらに取得し、
前記抽出部は、前記受付部がユーザによる抽出数又は抽出割合の指定を受け付けていない場合、前記複数の文書情報の中から、前記複数の文書情報が属する分野に対応する抽出数又は抽出割合の文書情報を抽出する、請求項1または2に記載の情報処理装置。
【請求項4】
前記抽出部は、前記受付部がユーザによる抽出数又は抽出割合の指定を受け付けておらず、且つ、前記複数の文書情報が属する分野に対応する抽出数又は抽出割合が前記記憶部に記憶されていない場合、前記記憶部に記憶された各分野の抽出数又は抽出割合の統計値を算出し、前記複数の文書情報の中から、前記統計値分の文書情報を抽出する、請求項3に記載の情報処理装置。
【請求項5】
ユーザによる前記データ内の文書情報の指定を受け付け、指定された文書情報に基づいて、前記複数の文書情報が属する分野に対応する抽出数又は抽出割合を設定する設定部をさらに有する、請求項3に記載の情報処理装置。
【請求項6】
前記取得部は、キーワードをさらに取得し、
前記特定部は、前記複数の文書情報のそれぞれに前記キーワードが含まれるか否かにより、各文書情報の評価値を補正する、請求項1または2に記載の情報処理装置。
【請求項7】
前記取得部は、前記複数の文書情報のそれぞれの属性をさらに取得し、
前記特定部は、前記複数の文書情報のそれぞれの属性に基づいて、各文書情報の評価値を補正する、請求項1または2に記載の情報処理装置。
【請求項8】
第1情報処理装置と、第2情報処理装置とを有する情報処理システムであって、
前記第1情報処理装置は、
複数の文書情報を取得する取得部と、
所定の文書情報が入力された場合に前記所定の文書情報の評価値を出力するように事前学習された学習済みモデルに、前記複数の文書情報を入力することにより各文書情報の評価値を特定する特定部と、を有し、
前記第2情報処理装置は、
ユーザによる抽出数又は抽出割合の指定を受け付ける受付部と、
前記複数の文書情報の中から、前記評価値が高い順に前記抽出数又は前記抽出割合の文書情報を抽出する抽出部と、
前記抽出された文書情報を前記評価値の順に並べたデータを出力する出力部と、
を有することを特徴とする情報処理システム。
【請求項9】
第1情報処理装置と、第2情報処理装置とを有する情報処理システムであって、
前記第1情報処理装置は、
複数の文書情報を取得する取得部と、
所定の文書情報が入力された場合に前記所定の文書情報の第1部分の評価値を出力するように事前学習された第1学習済みモデルに、前記複数の文書情報を入力することにより各文書情報の第1部分の評価値を特定する特定部と、
前記第2情報処理装置は、
ユーザによる抽出数又は抽出割合の指定を受け付ける受付部と、
前記複数の文書情報の中から、前記評価値が高い順に前記抽出数又は前記抽出割合の文書情報を抽出する抽出部と、
所定の文書情報が入力された場合に前記所定の文書情報の第2部分の第2評価値を出力するように事前学習された第2学習済みモデルに、前記抽出された文書情報を入力することにより前記抽出された各文書情報の第2部分の第2評価値を特定する第2特定部と、
前記抽出された文書情報を前記第2評価値の順に並べたデータを出力する出力部と、
を有することを特徴とする情報処理システム。
【請求項10】
複数の文書情報を取得し、
所定の文書情報が入力された場合に前記所定の文書情報の評価値を出力するように事前学習された学習済みモデルに、前記複数の文書情報のそれぞれを入力することにより各文書情報の評価値を特定し、
ユーザによる抽出数又は抽出割合の指定を受け付け、
前記複数の文書情報の中から、前記評価値が高い順に前記抽出数又は前記抽出割合の文書情報を抽出し、
前記抽出された文書情報を前記評価値の順に並べたデータを出力部から出力する、
ことを特徴とする情報処理方法。
【請求項11】
複数の文書情報を取得し、
所定の文書情報が入力された場合に前記所定の文書情報の第1部分の評価値を出力するように事前学習された第1学習済みモデルに、前記複数の文書情報を入力することにより各文書情報の第1部分の評価値を特定し、
ユーザによる抽出数又は抽出割合の指定を受け付け、
前記複数の文書情報の中から、前記評価値が高い順に前記抽出数又は前記抽出割合の文書情報を抽出し、
所定の文書情報が入力された場合に前記所定の文書情報の第2部分の第2評価値を出力するように事前学習された第2学習済みモデルに、前記抽出された文書情報を入力することにより前記抽出された各文書情報の第2部分の第2評価値を特定し、
前記抽出された文書情報を前記第2評価値の順に並べたデータを出力部から出力する、
ことを特徴とする情報処理方法。
【請求項12】
情報処理装置の制御プログラムであって、
複数の文書情報を取得し、
所定の文書情報が入力された場合に前記所定の文書情報の評価値を出力するように事前学習された学習済みモデルに、前記複数の文書情報のそれぞれを入力することにより各文書情報の評価値を特定し、
ユーザによる抽出数又は抽出割合の指定を受け付け、
前記複数の文書情報の中から、前記評価値が高い順に前記抽出数又は前記抽出割合の文書情報を抽出し、
前記抽出された文書情報を前記評価値の順に並べたデータを出力部から出力する、
ことを前記情報処理装置に実行させることを特徴とする制御プログラム。
【請求項13】
情報処理装置の制御プログラムであって、
複数の文書情報を取得し、
所定の文書情報が入力された場合に前記所定の文書情報の第1部分の評価値を出力するように事前学習された第1学習済みモデルに、前記複数の文書情報を入力することにより各文書情報の第1部分の評価値を特定し、
ユーザによる抽出数又は抽出割合の指定を受け付け、
前記複数の文書情報の中から、前記評価値が高い順に前記抽出数又は前記抽出割合の文書情報を抽出し、
所定の文書情報が入力された場合に前記所定の文書情報の第2部分の第2評価値を出力するように事前学習された第2学習済みモデルに、前記抽出された文書情報を入力することにより前記抽出された各文書情報の第2部分の第2評価値を特定し、
前記抽出された文書情報を前記第2評価値の順に並べたデータを出力部から出力する、
ことを前記情報処理装置に実行させることを特徴とする制御プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、情報処理システム、情報処理方法及び制御プログラムに関する。
【背景技術】
【0002】
従来、様々な研究者、開発者等により論文等の様々な文書が作成されており、研究者又は開発者は、特定の知識を得たい場合、他の研究者又は開発者により作成された文書を参照することにより、その知識を効率良く得ることができる。近年、利用者が複数の文書の中から所望の文書を探すことができるように、各文書に関する複数の文書情報の中から特定の文書情報を出力する情報処理システムが開発されている。
【0003】
非特許文献1には、臨床試験におけるバイアスを自動的に評価する機械学習システムであるRobotReviewerを開発し評価することが記載されている。このシステムは、PDF形式のトライアルリポートからバイアスのリスクを判定し、これらの判断を裏付ける文章を抽出する。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】「RobotReviewer: evaluation of a system for automatically assessing bias in clinical trials(Marshall IJ, Kuiper J, Wallace BC)」(J Am Med Inform Assoc. 2016 Jan;23(1):193-201. doi: 10.1093/jamia/ocv044. Epub 2015 Jun 22)
【発明の概要】
【発明が解決しようとする課題】
【0005】
複数の文書情報の中から特定の文書情報を出力する情報処理システムにおいて、利用者の利便性をより向上させることが要求されている。
【0006】
情報処理装置、情報処理システム、情報処理方法及び制御プログラムの目的は、利用者の利便性を向上させることを可能とすることにある。
【課題を解決するための手段】
【0007】
実施形態に係る情報処理装置は、複数の文書情報を取得する取得部と、所定の文書情報が入力された場合に所定の文書情報の評価値を出力するように事前学習された学習済みモデルに、複数の文書情報を入力することにより各文書情報の評価値を特定する特定部と、ユーザによる抽出数又は抽出割合の指定を受け付ける受付部と、複数の文書情報の中から、評価値が高い順に抽出数又は抽出割合の文書情報を抽出する抽出部と、抽出された文書情報を評価値の順に並べたデータを出力する出力部と、を有する。
【0008】
実施形態に係る情報処理装置は、複数の文書情報を取得する取得部と、所定の文書情報が入力された場合に所定の文書情報の第1部分の評価値を出力するように事前学習された第1学習済みモデルに、複数の文書情報を入力することにより各文書情報の第1部分の評価値を特定する特定部と、ユーザによる抽出数又は抽出割合の指定を受け付ける受付部と、複数の文書情報の中から、評価値が高い順に抽出数又は抽出割合の文書情報を抽出する抽出部と、所定の文書情報が入力された場合に所定の文書情報の第2部分の第2評価値を出力するように事前学習された第2学習済みモデルに、抽出された文書情報を入力することにより抽出された各文書情報の第2部分の第2評価値を特定する第2特定部と、抽出された文書情報を第2評価値の順に並べたデータを出力する出力部と、を有する。
【0009】
実施形態に係る情報処理装置において、複数の分野毎に、抽出数又は抽出割合が記憶された記憶部をさらに有し、取得部は、複数の文書情報が属する分野をさらに取得し、抽出部は、受付部がユーザによる抽出数又は抽出割合の指定を受け付けていない場合、複数の文書情報の中から、複数の文書情報が属する分野に対応する抽出数又は抽出割合の文書情報を抽出することが好ましい。
【0010】
実施形態に係る情報処理装置において、抽出部は、受付部がユーザによる抽出数又は抽出割合の指定を受け付けておらず、且つ、複数の文書情報が属する分野に対応する抽出数又は抽出割合が記憶部に記憶されていない場合、記憶部に記憶された各分野の抽出数又は抽出割合の統計値を算出し、複数の文書情報の中から、統計値分の文書情報を抽出することが好ましい。
【0011】
実施形態に係る情報処理装置において、ユーザによるデータ内の文書情報の指定を受け付け、指定された文書情報に基づいて、複数の文書情報が属する分野に対応する抽出数又は抽出割合を設定する設定部をさらに有することが好ましい。
【0012】
実施形態に係る情報処理装置において、取得部は、キーワードをさらに取得し、特定部は、複数の文書情報のそれぞれにキーワードが含まれるか否かにより、各文書情報の評価値を補正することが好ましい。
【0013】
実施形態に係る情報処理装置において、取得部は、複数の文書情報のそれぞれの属性をさらに取得し、特定部は、複数の文書情報のそれぞれの属性に基づいて、各文書情報の評価値を補正することが好ましい。
【0014】
実施形態に係る情報処理システムは、第1情報処理装置と、第2情報処理装置とを有する情報処理システムであって、第1情報処理装置は、複数の文書情報を取得する取得部と、所定の文書情報が入力された場合に所定の文書情報の評価値を出力するように事前学習された学習済みモデルに、複数の文書情報を入力することにより各文書情報の評価値を特定する特定部と、を有し、第2情報処理装置は、ユーザによる抽出数又は抽出割合の指定を受け付ける受付部と、複数の文書情報の中から、評価値が高い順に抽出数又は抽出割合の文書情報を抽出する抽出部と、抽出された文書情報を評価値の順に並べたデータを出力する出力部と、を有する。
【0015】
実施形態に係る情報処理システムは、第1情報処理装置と、第2情報処理装置とを有する情報処理システムであって、第1情報処理装置は、複数の文書情報を取得する取得部と、所定の文書情報が入力された場合に所定の文書情報の第1部分の評価値を出力するように事前学習された第1学習済みモデルに、複数の文書情報を入力することにより各文書情報の第1部分の評価値を特定する特定部と、第2情報処理装置は、ユーザによる抽出数又は抽出割合の指定を受け付ける受付部と、複数の文書情報の中から、評価値が高い順に抽出数又は抽出割合の文書情報を抽出する抽出部と、所定の文書情報が入力された場合に所定の文書情報の第2部分の第2評価値を出力するように事前学習された第2学習済みモデルに、抽出された文書情報を入力することにより抽出された各文書情報の第2部分の第2評価値を特定する第2特定部と、抽出された文書情報を第2評価値の順に並べたデータを出力する出力部と、を有する。
【0016】
実施形態に係る情報処理方法は、複数の文書情報を取得し、所定の文書情報が入力された場合に所定の文書情報の評価値を出力するように事前学習された学習済みモデルに、複数の文書情報のそれぞれを入力することにより各文書情報の評価値を特定し、ユーザによる抽出数又は抽出割合の指定を受け付け、複数の文書情報の中から、評価値が高い順に抽出数又は抽出割合の文書情報を抽出し、抽出された文書情報を評価値の順に並べたデータを出力部から出力する。
【0017】
実施形態に係る情報処理方法は、複数の文書情報を取得し、所定の文書情報が入力された場合に所定の文書情報の第1部分の評価値を出力するように事前学習された第1学習済みモデルに、複数の文書情報を入力することにより各文書情報の第1部分の評価値を特定し、ユーザによる抽出数又は抽出割合の指定を受け付け、複数の文書情報の中から、評価値が高い順に抽出数又は抽出割合の文書情報を抽出し、所定の文書情報が入力された場合に所定の文書情報の第2部分の第2評価値を出力するように事前学習された第2学習済みモデルに、抽出された文書情報を入力することにより抽出された各文書情報の第2部分の第2評価値を特定し、抽出された文書情報を第2評価値の順に並べたデータを出力部から出力する。
【0018】
実施形態に係る制御プログラムは、情報処理装置の制御プログラムであって、複数の文書情報を取得し、所定の文書情報が入力された場合に所定の文書情報の評価値を出力するように事前学習された学習済みモデルに、複数の文書情報のそれぞれを入力することにより各文書情報の評価値を特定し、ユーザによる抽出数又は抽出割合の指定を受け付け、複数の文書情報の中から、評価値が高い順に抽出数又は抽出割合の文書情報を抽出し、抽出された文書情報を評価値の順に並べたデータを出力部から出力することを情報処理装置に実行させる。
【0019】
実施形態に係る制御プログラムは、情報処理装置の制御プログラムであって、複数の文書情報を取得し、所定の文書情報が入力された場合に所定の文書情報の第1部分の評価値を出力するように事前学習された第1学習済みモデルに、複数の文書情報を入力することにより各文書情報の第1部分の評価値を特定し、ユーザによる抽出数又は抽出割合の指定を受け付け、複数の文書情報の中から、評価値が高い順に抽出数又は抽出割合の文書情報を抽出し、所定の文書情報が入力された場合に所定の文書情報の第2部分の第2評価値を出力するように事前学習された第2学習済みモデルに、抽出された文書情報を入力することにより抽出された各文書情報の第2部分の第2評価値を特定し、抽出された文書情報を第2評価値の順に並べたデータを出力部から出力することを情報処理装置に実行させる。
【発明の効果】
【0020】
情報処理装置、情報処理システム、情報処理方法及び制御プログラムは、利用者の利便性を向上させることができる。
【図面の簡単な説明】
【0021】
【
図1】実施形態に係る情報処理システム1の概略構成を示す図である。
【
図3】情報処理装置200の概略構成を示す図である。
【
図4】(A)は、文書テーブル211のデータ構造の一例を示す模式図であり、(B)は、条件テーブル212のデータ構造の一例を示す模式図であり、(C)は、抽出テーブル213のデータ構造の一例を示す模式図である。
【
図5】設定処理の動作の例を示すフローチャートである。
【
図6】抽出処理の動作の例を示すフローチャートである。
【
図8】他の抽出処理の動作の例を示すフローチャートである。
【発明を実施するための形態】
【0022】
以下、実施形態の一側面に係る情報処理装置、情報処理システム、情報処理方法及び制御プログラムについて図を参照しつつ説明する。但し、本発明の技術的範囲はそれらの実施の形態に限定されず、特許請求の範囲に記載された発明とその均等物に及ぶ点に留意されたい。
【0023】
図1は、実施形態に係る情報処理システム1の概略構成を示す図である。
【0024】
図1に示すように、情報処理システム1は、一又は複数の端末装置100及び一又は複数の情報処理装置200等を有する。各端末装置100と、各情報処理装置200とは、ネットワークNを介して相互に通信可能に接続される。ネットワークNは、インターネット又はイントラネット等の有線ネットワークである。ネットワークNは、無線LAN(Local Area Network)等の無線ネットワークでもよい。
【0025】
情報処理システム1は、論文、記事、電子書籍等の文書(文献)に関する文書情報を管理する。文書は、電気、機械、化学、生命化学等の様々な技術分野における技術文書である。例えば、文書は、食品/食品成分の機能に関する論文である。文書情報は、各文書の属性及び内容等を示す情報である。情報処理システム1は、例えばシステマティックレビューに利用される。システマティックレビューは、文書をくまなく調査し、ランダム化比較試験のような質の高い研究のデータを、出版バイアスのようなデータの偏りを限りなく除き、分析を行う手法である。システマティックレビューは、まず解き明かしたい疑問を設定し、その疑問に関して実施している研究を網羅的に収集し、情報の精査を行った上で情報全体を総括した結果を結論として導く手法である。
【0026】
システマティックレビューは、網羅的に情報を収集する第一段階、網羅的で膨大な情報の中から必要な情報を取り出す第二段階、情報を統合して一つの結論を導く第三段階を含む。情報処理システム1は、第一段階では、PubMed、医中誌Web等の文献データベースを使用して、関連する論文を網羅的に検索する。情報処理システム1は、第二段階では、収集した多くの論文から設定した疑問に関する研究を行っている論文を適切に抽出するために、スクリーニング(絞り込み)を行う。例えば、情報処理システム1は、まず、タイトル・抄録のみの情報を用いて論文の要否の判定を簡易的に行う一次スクリーニングを行う。その後、情報処理システム1は、一次スクリーニングで必要と判定された論文に対して、論文全体を用いて必要な論文のみを抽出する二次スクリーニングを行う。情報処理システム1は、第三段階では、最終的に抽出された個々の論文の科学的な質又は研究結果をまとめ、最終的な結論を導く。
【0027】
【0028】
端末装置100は、パーソナルコンピュータ、ノートPC、タブレットPC、多機能携帯電話(いわゆるスマートフォン)等の装置である。端末装置100は、第1入力装置101、第1表示装置102、第1通信装置103、第1記憶装置110及び第1処理装置120等を有する。第1入力装置101、第1表示装置102、第1通信装置103、第1記憶装置110及び第1処理装置120は、CPU(Central Processing Unit)バス等を介して相互に接続される。
【0029】
第1入力装置101は、タッチパネル式の入力デバイス又はキーボード、マウス等の入力デバイス及び入力デバイスから信号を取得するインタフェース回路を有し、利用者の入力操作に応じた操作信号を出力する。
【0030】
第1表示装置102は、液晶、有機EL(Electro-Luminescence)等を含むディスプレイ及びディスプレイに画像データを出力するインタフェース回路を有し、画像データをディスプレイに表示する。
【0031】
第1通信装置103は、TCP/IP(Transmission Control Protocol/Internet Protocol)等の通信プロトコルに従った有線通信インタフェース回路を有する。第1通信装置103は、イーサネット(登録商標)等の通信規格に従って、ネットワークNと通信接続する。第1通信装置103は、ネットワークNを介して情報処理装置200から受信したデータを第1処理装置120に送る。また、第1通信装置103は、第1処理装置120から受け取ったデータを、ネットワークNを介して情報処理装置200に送信する。なお、第1通信装置103は、無線信号を送受信するアンテナと、無線LAN等の通信プロトコルに従った無線通信インタフェース回路とを有し、無線LAN等の通信規格に従って、ネットワークNと通信接続してもよい。
【0032】
第1記憶装置110は、RAM(Random Access Memory)、ROM(Read Only Memory)等のメモリ装置、ハードディスク等の固定ディスク装置、又はフレキシブルディスク、光ディスク等の可搬用の記憶装置等を有する。また、第1記憶装置110には、端末装置100の各種処理に用いられるコンピュータプログラム、データベース、テーブル等が格納される。コンピュータプログラムは、コンピュータ読み取り可能な可搬型記録媒体から公知のセットアッププログラム等を用いて第1記憶装置110にインストールされてもよい。可搬型記録媒体は、例えばCD-ROM(compact disc read only memory)、DVD-ROM(digital versatile disc read only memory)等である。コンピュータプログラムは、所定のサーバが有する記録媒体に記憶され、ネットワークNを介してインストールされてもよい。
【0033】
第1処理装置120は、予め第1記憶装置110に記憶されているプログラムに基づいて動作する。第1処理装置120は、例えばCPUである。第1処理装置120として、DSP(digital signal processor)、LSI(large scale integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等が用いられてもよい。第1処理装置120は、第1記憶装置110に記憶されたコンピュータプログラムを読み取り、読み取ったコンピュータプログラムに従って動作する。第1処理装置120は、第1入力装置101、第1表示装置102、第1通信装置103及び第1記憶装置110等と接続され、各装置を制御する。第1処理装置120は、複数の文書情報を、第1通信装置103を介して端末装置100に送信する。第1処理装置120は、端末装置100により抽出され且つ所定の順序で並べられた文書情報を、第1通信装置103を介して端末装置100から受信して第1表示装置102に表示する。
【0034】
図3は、情報処理装置200の概略構成を示す図である。
【0035】
情報処理装置200は、サーバ、パーソナルコンピュータ、ノートPC等の装置である。情報処理装置200は、第2入力装置201、第2表示装置202、第2通信装置203、第2記憶装置210及び第2処理装置220等を有する。第2入力装置201、第2表示装置202、第2通信装置203、第2記憶装置210及び第2処理装置220は、CPUバス等を介して相互に接続される。
【0036】
第2入力装置201は、キーボード、マウス等の入力デバイス及び入力デバイスから信号を取得するインタフェース回路を有し、利用者の入力操作に応じた操作信号を出力する。
【0037】
第2表示装置202は、出力部の一例である。第2表示装置202は、液晶、有機EL等を含むディスプレイ及びディスプレイに画像データを出力するインタフェース回路を有し、画像データをディスプレイに表示する。
【0038】
第2通信装置203は、出力部の一例である。第2通信装置203は、TCP/IP等の通信プロトコルに従った有線通信インタフェース回路を有する。第2通信装置203は、イーサネット(登録商標)等の通信規格に従って、ネットワークNと通信接続する。第2通信装置203は、ネットワークNを介して端末装置100、他の情報処理装置200等から受信したデータを第2処理装置220に送る。第2通信装置203は、第2処理装置220から受け取ったデータを、ネットワークNを介して端末装置100、他の情報処理装置200等に送信する。なお、第2通信装置203は、無線信号を送受信するアンテナと、無線LAN等の通信プロトコルに従った無線通信インタフェース回路とを有し、無線LAN等の通信規格に従って、ネットワークNと通信接続してもよい。
【0039】
第2記憶装置210は、記憶部の一例である。第2記憶装置210は、RAM、ROM等のメモリ装置、ハードディスク等の固定ディスク装置、又はフレキシブルディスク、光ディスク等の可搬用の記憶装置等を有する。また、第2記憶装置210には、情報処理装置200の各種処理に用いられるコンピュータプログラム、データベース、テーブル等が格納される。コンピュータプログラムは、例えばCD-ROM、DVD-ROM等のコンピュータ読み取り可能な可搬型記録媒体から、公知のセットアッププログラム等を用いて第2記憶装置210にインストールされてもよい。コンピュータプログラムは、所定のサーバが有する記録媒体に記憶され、ネットワークNを介してインストールされてもよい。
【0040】
第2記憶装置210には、データとして、文書テーブル211、条件テーブル212、抽出テーブル213、第1学習済みモデル214、第2学習済みモデル215等が記憶される。文書テーブル211には、複数の文書毎に、各文書の文書情報等が記憶される。条件テーブル212には、複数の文書情報の中から抽出することが禁止される文書情報の条件又は評価値が補正される条件等が記憶される。抽出テーブル213には、複数の分野毎に、複数の文書情報の中から抽出する文書情報の抽出数又は抽出割合等が記憶される。文書テーブル211、条件テーブル212及び抽出テーブル213の詳細については後述する。第1学習済みモデル214及び第2学習済みモデル215は、文書情報の評価値を特定するためのモデルである。第1学習済みモデル214及び第2学習済みモデル215は、情報処理装置200又は他のサーバ装置により生成される。
【0041】
第2処理装置220は、予め第2記憶装置210に記憶されているプログラムに基づいて動作する。第2処理装置220は、例えばCPUである。第2処理装置220として、DSP、LSI、ASIC、FPGA等が用いられてもよい。第2処理装置220は、第2通信装置203及び第2記憶装置210等と接続され、各装置を制御する。第2処理装置220は、第2通信装置203を介して端末装置100から受信した複数の文書情報の中から所定数の文書情報を抽出し、抽出した文書情報を所定の順に並べた出力データを生成して、第2通信装置203を介して端末装置100に送信する。
【0042】
第2処理装置220は、第2記憶装置210に記憶されたコンピュータプログラムを読み取り、読み取ったコンピュータプログラムに従って動作する。これにより、第2処理装置220は、受付部221、取得部222、前処理部223、特定部224、第2特定部225、抽出部226、出力制御部227及び設定部228として機能する。
【0043】
図4(A)は、文書テーブル211のデータ構造の一例を示す模式図である。
【0044】
文書テーブル211には、複数の文書毎に、各文書の識別情報(文書ID)、文書情報等が記憶される。文書情報は、属性情報及び内容情報を含む。
【0045】
属性情報は、各文書(文書情報)の属性を示し、データベース情報、著者情報、掲載情報、種別情報及び言語情報等を含む。データベース情報は、各文書が格納されているデータベース及びそのデータベース内の格納領域のアドレスを示す。著者情報は、各文書の著者を示す。掲載情報は、各文書が掲載されている雑誌、書籍及びページ等を示す。種別情報は、各文書の種別(論文、解説、会議録等)を示す。言語情報は、各文書が記載されている言語(日本語、英語等)を示す。
【0046】
内容情報は、各文書の内容を示し、タイトル情報、抄録情報、本文情報及びメモ情報等を含む。タイトル情報は、各文書のタイトルを示す。抄録情報は、各文書の抄録(アブストラクト)を示す。抄録情報は、各文書の本文(タイトル、抄録及びメモ以外の部分)を示す。メモ情報は、各文書の脚注等に記載されているメモ(参考文献、解説等)を示す。
【0047】
図4(B)は、条件テーブル212のデータ構造の一例を示す模式図である。
【0048】
条件テーブル212には、情報処理装置200が、複数の文書情報の中から抽出することが禁止される文書情報の条件(除外条件)又は評価値が補正される条件(補正条件)等が記憶される。各条件として、文書情報に含まれる特定の情報が特定の値を有することが規定される。除外条件及び/又は補正条件は、例えばデータベース情報が特定のデータベース以外のデータベースを示すこと、掲載情報が特定の書籍以外の書籍を示すこと、言語情報が特定の言語(英語、日本語等)以外の言語を示すこと、種別情報が特定の種別(会議録等)を示すこと、メモ情報が特定の情報を含むこと等である。
図4(B)に示す例では、各条件として、データベース情報が特定の値を有することと、文書情報に含まれるデータベース情報以外の特定の情報が特定の値を有することとの組合せが規定されている。
【0049】
図4(C)は、抽出テーブル213のデータ構造の一例を示す模式図である。
【0050】
抽出テーブル213には、複数の分野毎に、抽出情報が記憶される。分野は、例えば各文書が属する技術分野(電気、機械、化学、生命化学等)及び/又は各文書の種別(論文、解説、会議録等)を含む。抽出情報は、情報処理装置200が、複数の文書情報の中から抽出すべき文書情報の抽出数又は抽出割合を示す。
【0051】
図5は、情報処理装置200の設定処理の動作の例を示すフローチャートである。
【0052】
以下、
図5に示したフローチャートを参照しつつ、情報処理装置200の設定処理の動作の例を説明する。なお、以下に説明する動作のフローは、予め第2記憶装置210に記憶されているプログラムに基づき主に第2処理装置220により情報処理装置200の各要素と協働して実行される。
【0053】
最初に、受付部221は、ユーザによる、情報処理装置200が、複数の文書情報の中から抽出すべき文書情報の抽出数又は抽出割合の指定を受け付けるまで待機する(ステップS101)。受付部221は、ユーザにより第2入力装置201又は端末装置100を用いて指定された抽出数又は抽出割合を示す抽出情報を第2入力装置201又は第2通信装置203から受信することにより取得する。
【0054】
受付部221は、ユーザによる抽出数又は抽出割合の指定を受け付けた場合、指定された抽出数又は抽出割合を示す抽出情報を第2記憶装置210に記憶することにより設定し(ステップS102)、ステップS101へ処理を戻す。
【0055】
図6は、情報処理装置200の抽出処理の動作の例を示すフローチャートである。
【0056】
以下、
図6に示したフローチャートを参照しつつ、情報処理装置200の抽出処理の動作の例を説明する。なお、以下に説明する動作のフローは、予め第2記憶装置210に記憶されているプログラムに基づき主に第2処理装置220により情報処理装置200の各要素と協働して実行される。
図6に示す抽出処理は、
図5に示した設定処理と並行して実行される。
【0057】
最初に、取得部222は、複数の文書情報、分野及び/又はキーワードを取得する(ステップS201)。分野は、取得した複数の文書情報が属する分野である。キーワードは、情報処理装置200が、複数の文書情報の中から優先して抽出すべき文書情報に含まれる用語である。取得部222は、ユーザにより第2入力装置201又は端末装置100を用いて指定された複数の文書情報、分野及び/又はキーワードを第2入力装置201又は第2通信装置203から受信することにより取得する。取得部222は、ユーザにより直接に指定された文書情報を取得するのでなく、ユーザにより指定されたデータベース情報及び/又は掲載情報等を取得してもよい。その場合、取得部222は、第2通信装置203を介して、データベース情報に示されるデータベースにアクセスして対応する文書を取得し、取得した文書から掲載情報に示される部分を抽出することにより文書情報を取得する。
【0058】
次に、前処理部223は、取得部222が取得した複数の文書情報に対して前処理を実行する(ステップS202)。例えば、前処理部223は、前処理として、除外条件を満たす文書情報を、情報処理装置200が抽出する候補から除外する。前処理部223は、条件テーブル212を参照して、取得部222が取得した複数の文書情報のうち、除外条件を満たす文書情報を特定し、情報処理装置200が抽出する候補から除外する。これにより、情報処理装置200は、解析する文書情報の数を低減させることができ、抽出処理の処理負荷及び処理時間を低減させることができる。
【0059】
なお、前処理部223は、各文書情報のデータベース情報、著者情報及び/又は掲載情報を参照し、内容が他の文書情報に記載されている(他の文書情報と重複している)文書情報を特定し、情報処理装置200が抽出する候補から除外してもよい。これにより、情報処理装置200は、解析する文書情報の数を低減させることができ、抽出処理の処理負荷及び処理時間を低減させることができる。
【0060】
また、前処理部223は、前処理として、各文書情報が第1学習済みモデル214及び/又は第2学習済みモデル215に対する入力形式を満たすように、各文書情報を編集(加工)する。例えば、前処理部223は、各文書情報のうち、特定の内容情報(タイトル情報、抄録情報、本文情報及び/又はメモ情報)を、第1学習済みモデル214又は第2学習済みモデル215に入力する情報として抽出する。
【0061】
次に、特定部224は、第1学習済みモデル214に、取得部222により取得され且つ前処理部223により前処理が実行された各文書情報を入力することにより各文書情報の評価値を特定する(ステップS203)。第1学習済みモデル214は、所定の文書情報が入力された場合にその所定の文書情報の評価値を出力するように事前学習される。第1学習済みモデル214は、必要であると判定されるべき文書情報である正解文書情報と、不要であると判定されるべき文書情報である不正解文書情報とを含む学習用文書情報を用いて学習される。正解文書情報及び不正解文書情報は、各文書情報が属する分野における知識を十分に有する有識者によって、各文書情報の質が高いか低いかが判定されることにより分類される。
【0062】
第1学習済みモデル214は、入力された文書情報が何れかの正解文書情報と類似する度合いが高いほど高い評価値を出力するように学習される。第1学習済みモデル214は、入力された文書情報が各不正解文書情報と類似する度合いが高いほど低い評価値を出力するように学習されてもよい。類似する度合いは、各文書に含まれる単語、文脈等が一致する度合い、又は、各文書に含まれる各文字群の分散表現を示すベクトルの正規化相互相関値、内積等である。第1学習済みモデル214は、例えばXGBoost、Nystroem Kernel SVM Classifier、BERT等の教師あり学習により学習される。
【0063】
第1学習済みモデル214として、相互に異なる言語(日本語、英語等)毎に、別個のモデルが利用されてもよい。その場合、特定部224は、各文書情報に含まれる言語情報から、各文書情報が記載されている言語を特定し、特定した言語に対応するモデルに、各文書情報を入力する。例えば、英語に対応するモデルは、XGBoostで学習され、日本語に対応するモデルは、Nystroem Kernel SVM Classifierで学習される。これにより、情報処理装置200は、各文書情報の評価値をより精度良く算出することができ、質が高い文書情報をより精度良く抽出することができる。また、特定部224は、公知の翻訳技術を利用して、各文書情報を第1学習済みモデル214に対応する言語に翻訳してから、第1学習済みモデル214に入力してもよい。
【0064】
次に、特定部224は、特定した評価値を補正する(ステップS204)。例えば、特定部224は、各文書情報に、取得部222が取得したキーワードが含まれるか否かにより、各文書情報の評価値を補正する。その場合、特定部224は、各文書情報にキーワードが含まれる場合、その文書情報の評価値を増大させ、各文書情報にキーワードが含まれない場合、その文書情報の評価値を低減させるように、各文書情報の評価値を補正する。特定部224は、各文書情報に含まれるキーワードの数が多いほど、評価値が高くなるように、各文書情報の評価値を補正してもよい。これにより、情報処理装置200は、ユーザの用途に適した文書情報の評価値を増大させることができ、ユーザの用途に適した文書情報をより精度良く抽出することができる。
【0065】
また、特定部224は、各文書情報の属性に基づいて、各文書情報の評価値を補正してもよい。その場合、特定部224は、取得部222が取得した文書情報に含まれる属性情報に示される属性を、各文書情報の属性として特定する。特定部224は、条件テーブル212を参照して、各文書情報のうち、特定した属性が補正条件を満たす文書情報を特定し、特定した文書情報の評価値を低減させるように、各文書情報の評価値を補正する。特定部224は、各文書情報が満たす補正条件の数が多いほど、評価値が低くなるように、各文書情報の評価値を補正してもよい。これにより、情報処理装置200は、各文書の属性に基づいて各文書情報の評価値をより精度良く算出することができ、適切な文書情報をより精度良く抽出することができる。
【0066】
次に、抽出部226は、設定処理において受付部221がユーザによる抽出数又は抽出割合の指定を受け付けているか否かを判定する(ステップS205)。
【0067】
受付部221がユーザによる抽出数又は抽出割合の指定を受け付けている場合、抽出部226は、指定された抽出数又は抽出割合を示す抽出情報(
図5のステップS102で設定された抽出情報)を特定し(ステップS206)、ステップS210へ処理を移行する。
【0068】
一方、受付部221がユーザによる抽出数又は抽出割合の指定を受け付けていない場合、抽出部226は、ステップS201で取得部222が取得した分野、即ち複数の文書情報が属する分野を特定する。抽出部226は、抽出テーブル213において、特定した分野に対応する抽出情報が記憶(設定)されているか否かを判定する(ステップS207)。
【0069】
特定した分野に対応する抽出情報が記憶されている場合、抽出部226は、特定した分野に対応する抽出情報を特定し(ステップS208)、ステップS210へ処理を移行する。
【0070】
一方、特定した分野に対応する抽出情報が記憶されていない場合、抽出部226は、抽出テーブル213に記憶された各分野の抽出情報に示される抽出数又は抽出割合の統計値を算出し(ステップS209)、ステップS210へ処理を移行する。抽出部226は、抽出テーブル213に記憶された全分野の抽出情報に示される抽出数又は抽出割合の平均値、中央値、最小値又は最大値を統計値として算出する。抽出部226は、分野毎の、学習用文書情報の数又は現在までに情報処理装置200が処理した文書情報の数等で重み付けした重み付き平均値を統計値として算出してもよい。
【0071】
次に、抽出部226は、複数の文書情報の中から、評価値が高い順に、ステップS206もしくはS208で特定した抽出情報に示される抽出数もしくは抽出割合の文書情報、又は、ステップS210で算出した統計値分の文書情報を抽出する(ステップS210)。
【0072】
このように、抽出部226は、受付部221がユーザによる抽出数又は抽出割合の指定を受け付けている場合、複数の文書情報の中から、評価値が高い順に、ユーザにより指定された抽出数又抽出割合の文書情報を抽出する。これにより、情報処理装置200は、ユーザの目的又は用途に応じた適切な数の文書情報を抽出することができる。
【0073】
また、抽出部226は、受付部221がユーザによる抽出数又は抽出割合の指定を受け付けていない場合、複数の文書情報の中から、複数の文書情報が属する分野に対応する抽出数又は抽出割合の文書情報を抽出する。これにより、情報処理装置200は、文書情報が属する分野に応じた適切な数の文書情報を抽出することができる。
【0074】
また、抽出部226は、受付部221がユーザによる抽出数又は抽出割合の指定を受け付けておらず、且つ、複数の文書情報が属する分野に対応する抽出数又は抽出割合が第2記憶装置210に記憶されていない場合、第2記憶装置210に記憶された各分野の抽出数又は抽出割合の統計値を算出する。そして、抽出部226は、複数の文書情報の中から、算出した統計値分の文書情報を抽出する。これにより、情報処理装置200は、文書情報が属する分野に応じた適切な数が不明である場合でも、適切な数の文書情報を抽出することができる。
【0075】
次に、出力制御部227は、抽出部226により抽出された文書情報を評価値の順に並べた出力データを生成する(ステップS211)。出力制御部227は、各文書情報を評価値が高い順に並べた出力データを生成する。出力制御部227は、各文書情報を評価値が低い順に並べた出力データを生成してもよい。出力制御部227は、ラジオボタン又はチェックボックス等により、各文書情報がユーザにより指定可能に表示されるように出力データを生成する。
【0076】
次に、出力制御部227は、生成した出力データを、第2通信装置203を介して端末装置100に送信することにより出力する(ステップS212)。例えば、出力制御部227は、出力データを、ステップS201で複数の文書情報を送信した端末装置100に送信する。端末装置100の第1処理装置120は、第1通信装置103を介して情報処理装置200から出力データを受信し、受信した出力データを第1表示装置102に表示することにより、ユーザに通知する。ステップS201で複数の文書情報が第2入力装置201を用いて入力された場合、出力制御部227は、生成した出力データを第2表示装置202に表示することにより出力してもよい。
【0077】
次に、設定部228は、ユーザによる出力データ内の文書情報の指定を受け付ける。そして、設定部228は、指定された文書情報に基づいて、複数の文書情報が属する分野に対応する抽出数又は抽出割合を設定し(ステップS213)、一連のステップを終了する。ユーザは、第2表示装置202又は第1表示装置102に表示された順に文書情報を閲覧する。ユーザは、第2入力装置201又は端末装置100を用いて、必要な情報が記載された文書情報に対応するラジオボタン又はチェックボックスを押下することにより、その文書情報を指定する。設定部228は、第2入力装置201又は端末装置100を用いてユーザにより指定された文書情報を第2入力装置201又は第2通信装置203から受信することにより取得する。
【0078】
設定部228は、ユーザにより指定された文書情報の、出力データ内における順位を特定する。設定部228は、特定した順位にマージンを加えた数値、又は、その数値をステップS101で取得部222が取得した文書情報の全数で除算した割合を算出する。設定部228は、抽出テーブル213において、ステップS101で取得部222が取得した分野に対応する抽出数又は抽出割合を、算出した数又は割合に更新する。これにより、情報処理装置200は、実際にユーザにより選択された文書情報に基づいて、次回以降に抽出すべき文書情報の数又は割合を更新することができる。以降、情報処理装置200は、ユーザが必要となる文書情報を含みつつ、文書情報の数を低減させた出力データを生成することができ、利用者の利便性を向上させることができる。
【0079】
なお、ステップS202、S204、S205、S207、S208、S209及び/又はS213の処理は、省略されてもよい。
【0080】
また、
図5の設定処理及び
図6の抽出処理に含まれる各処理は、複数の情報処理装置200により協働して実行されてもよい。例えば、
図6のステップS201~S204の処理は第1情報処理装置により実行され、
図5のステップS101~S102の処理及び
図6のステップS205~S213の処理は第1情報処理装置と異なる第2情報処理装置により実行されてもよい。
【0081】
図7は、複数の分野毎に、複数の文書情報の中から必要な情報が記載された文書情報を人手により特定した特定結果を示す模式図である。
【0082】
図7の最悪正例位置は、複数の文書情報を評価値が高い順に並べたグループ内で、必要な情報が記載された文書情報のうち、最も評価値が低い文書情報の、グループの先頭からの位置に対応する割合を示す。最悪正例位置が小さいほど、必要な情報が記載された全ての文書情報の評価値が高いことを意味し、最悪正例位置が大きいほど、必要な情報が記載された何れかの文書情報の評価値が低いことを意味する。
【0083】
図7に示すように、全分野における最悪正例位置の平均値は、15.30%であった。したがって、情報処理装置200は、文書情報の抽出割合を15.30%に設定する(またはそれに相当する抽出数を設定する)ことにより、必要な情報が記載された大半の文書情報を抽出しつつ、必要な情報が記載されていない多数の文書情報を除外できる。なお、全ての文書情報を評価値が高い順に並べたグループの先頭から34%の区間内に、必要な情報が記載された文書情報の99%が属していた。したがって、情報処理装置200は、文書情報の抽出割合を34%に設定する(またはそれに相当する抽出数を設定する)ことにより、必要な情報が記載された文書情報の99%を抽出しつつ、必要な情報が記載されていない多数の文書情報を除外できる。これらにより、利用者は、必要な情報が記載されていない多数の文書情報を除外した出力データから、必要な文書情報を効率良く選択することができ、文書の検索に要する手間を大幅に削減することができる。したがって、情報処理装置200は、利用者の利便性を向上させることができる。
【0084】
また、
図7に示すように、複数の分野毎に、最悪正例位置は大きく異なる。したがって、情報処理装置200は、複数の分野毎に、文書情報の抽出数又は抽出割合を設定することにより、必要な情報が記載された多数の文書情報を抽出しつつ、必要な情報が記載されていない多数の文書情報を除外できる。したがって、情報処理装置200は、利用者の利便性をより向上させることができる。
【0085】
以上詳述したように、情報処理装置200は、複数の文書情報の中から、評価値が高い順に、ユーザにより指定された抽出数又は抽出割合の文書情報を抽出し、抽出した文書情報を評価値の順に並べた出力データを出力する。これにより、利用者は、不要な文書情報が除外された出力データから、必要な文書情報を効率良く選択することができ、文書の検索に要する手間を大幅に削減することができる。したがって、情報処理装置200は、利用者の利便性を向上させることが可能となった。
【0086】
また、情報処理装置200は、予め有識者により選別された質の高い文書情報に類似する文書情報を抽出するため、利用者は、複数の文書情報の中から、質の高い文書情報を選択することができ、必要な知識を効率良く得ることができる。したがって、情報処理装置200は、利用者の利便性を向上させることが可能となった。
【0087】
特定の人物と情報処理装置200の両方が必要であると判定し且つ実際に必要であった論文の数Aを、その数Aと、特定の人物が必要であると判定したが実際に不要であった論文の数Bとの合計で除算した除算値(人物による再現率)は、0.756であった。一方、上記の数Aを、その数Aと、情報処理装置200が必要であると判定したが実際に不要であった論文の数Cとの合計で除算した除算値(情報処理装置200による再現率)は、0.554であった。情報処理装置200による再現率は人物による再現率に対して遜色なく、情報処理装置200は、人間に劣らない性能を有することが示された。
【0088】
図8は、他の実施形態に係る情報処理装置200の抽出処理の動作の例を示すフローチャートである。
【0089】
以下、
図8に示したフローチャートを参照しつつ、本実施形態に係る抽出処理の動作の例を説明する。なお、以下に説明する動作のフローは、予め第2記憶装置210に記憶されているプログラムに基づき主に第2処理装置220により情報処理装置200の各要素と協働して実行される。
図8に示す抽出処理は、
図5に示した設定処理と並行して実行される。
図8のステップS301~S302、S305~S310、S314~S315の処理は、
図6のステップS201~S202、S205~S210、S212~S213の処理と同様であるため説明を省略する。以下では、ステップS303~S304、S311~S313の処理についてのみ説明する。
【0090】
ステップS303において、特定部224は、第1学習済みモデル214に、取得部222により取得され且つ前処理部223により前処理が実行された各文書情報を入力することにより各文書情報の第1部分の評価値を特定する(ステップS303)。本実施形態に係る第1学習済みモデル214は、
図6で使用される第1学習済みモデル214と同様にして学習される。但し、本実施形態に係る第1学習済みモデル214は、所定の文書情報が入力された場合にその所定の文書情報の第1部分の評価値を出力するように事前学習される。第1部分は、例えばタイトル情報、抄録情報又はメモ情報のように、文書情報の概要を示す部分である。
【0091】
第1学習済みモデル214は、入力された文書情報の第1部分が何れかの正解文書情報の第1部分と類似する度合いが高いほど高い評価値を出力するように学習される。第1学習済みモデル214は、入力された文書情報の第1部分が各不正解文書情報の第1部分と類似する度合いが高いほど低い評価値を出力するように学習されてもよい。
【0092】
次に、特定部224は、特定した評価値を補正する(ステップS304)。特定部224は、ステップS204の処理と同様にして、評価値を補正する。なお、特定部224は、各文書情報の第1部分に、取得部222が取得したキーワードが含まれるか否かにより、各文書情報の評価値を補正してもよい。
【0093】
ステップS311において、第2特定部225は、第2学習済みモデル215に、ステップS310で抽出された各文書情報を入力することにより、抽出された各文書情報の第2部分の第2評価値を特定する(ステップS311)。第2学習済みモデル215は、第1学習済みモデル214と同様にして学習される。但し、第2学習済みモデル215は、所定の文書情報が入力された場合にその所定の文書情報の第2部分の第2評価値を出力するように事前学習される。第2部分は、例えば本文情報のように、文書情報の全体を示す部分である。第2部分は、文書情報の全てでもよい。第2部分は、第1部分より大きく、且つ、第1部分より詳細な情報を含む。
【0094】
第2学習済みモデル215は、入力された文書情報が何れかの正解文書情報と類似する度合いが高いほど高い第2評価値を出力するように学習される。第2学習済みモデル215は、入力された文書情報が各不正解文書情報と類似する度合いが高いほど低い第2評価値を出力するように学習されてもよい。
【0095】
次に、第2特定部225は、特定した第2評価値を補正する(ステップS312)。第2特定部225は、ステップS204の処理と同様にして、第2評価値を補正する。なお、特定部224は、各文書情報の第2部分に、取得部222が取得したキーワードが含まれるか否かにより、各文書情報の第2評価値を補正してもよい。
【0096】
次に、出力制御部227は、抽出部226により抽出された文書情報を第2評価値の順に並べた出力データを生成する(ステップS313)。出力制御部227は、各文書情報を第2評価値が高い順に並べた出力データを生成する。出力制御部227は、各文書情報を第2評価値が低い順に並べた出力データを生成してもよい。出力制御部227は、ラジオボタン又はチェックボックス等により、各文書情報がユーザにより指定可能に表示されるように出力データを生成する。
【0097】
なお、ステップS302、S304、S305、S307、S308、S309、S312及び/又はS315の処理は、省略されてもよい。
【0098】
また、
図5の設定処理及び
図8の抽出処理に含まれる各処理は、複数の情報処理装置200により協働して実行されてもよい。例えば、
図8のステップS301~S304の処理は第1情報処理装置により実行され、
図5のステップS101~S102の処理及び
図8のステップS305~S315の処理は第1情報処理装置と異なる第2情報処理装置により実行されてもよい。
【0099】
以上詳述したように、情報処理装置200は、複数の文書情報の中から、評価値が高い順に、ユーザにより指定された抽出数又は抽出割合の文書情報を抽出し、抽出した文書情報を第2評価値の順に並べた出力データを出力する。これにより、利用者は、不要な文書情報が除外された出力データから、必要な文書情報を効率良く選択することができ、文書の検索に要する手間を大幅に削減することができる。したがって、情報処理装置200は、利用者の利便性を向上させることが可能となった。
【0100】
特に、情報処理装置200は、全ての文書情報に対して、範囲が小さい第1部分のみを用いて、低負荷且つ短時間に不要な文書情報を除外しつつ、残った少数の文書情報に対して、範囲が大きい第2部分を用いて、各文書情報を質の高い順に並べ替える。これにより、情報処理装置200は、出力データの精度を維持しつつ、抽出処理の処理負荷及び処理時間を低減させることが可能となった。
【0101】
なお、実施形態は、上記したものに限定されない。例えば、情報処理装置200は、自装置に記憶された学習済みモデルを用いる代わりに、他のサーバ装置等に記憶された学習済みモデルを用いて評価値及び/又は第2評価値を特定してもよい。その場合、
図5のステップS203、
図8のステップS303、S311において、特定部224又は第2特定部225は、第2通信装置203を介してサーバ装置に複数の文書情報を送信する。サーバ装置は、情報処理装置200から複数の文書情報を受信し、学習済みモデルに入力し、学習済みモデルから出力された評価値又は第2評価値を情報処理装置200に送信する。特定部224又は第2特定部225は、評価値又は第2評価値を、第2通信装置203を介してサーバ装置から受信することにより取得する。
【0102】
情報処理装置200は、他のサーバ装置に記憶された学習済みモデルを利用することにより、サーバ装置によって更新されている最新の学習済みモデルを用いて評価値及び/又は第2評価値を特定することができる。また、情報処理装置200は、記憶容量の低減を図ることできる。一方、情報処理装置200は、自装置に記憶された学習済みモデルを利用することにより、サーバ装置との通信接続が切断されている状態でも評価値及び/又は第2評価値を特定することができる。また、情報処理システム1は、情報処理装置200とサーバ装置の間の通信量の低減を図ることできる。
【符号の説明】
【0103】
1 情報処理システム、200 情報処理装置、202 第2表示装置、203 第2通信装置、210 第2記憶装置、221 受付部、222 取得部、223 前処理部、224 特定部、225 第2特定部、226 抽出部、227 出力制御部、228 設定部