(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024159418
(43)【公開日】2024-11-08
(54)【発明の名称】情報処理システム、情報処理プログラム及び情報処理方法
(51)【国際特許分類】
G06F 16/903 20190101AFI20241031BHJP
G06F 16/904 20190101ALI20241031BHJP
【FI】
G06F16/903
G06F16/904
【審査請求】有
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023172060
(22)【出願日】2023-10-03
(62)【分割の表示】P 2023171702の分割
【原出願日】2023-10-02
(11)【特許番号】
(45)【特許公報発行日】2024-01-17
(31)【優先権主張番号】P 2023075299
(32)【優先日】2023-04-28
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】523162878
【氏名又は名称】株式会社MEMORY LAB
(74)【代理人】
【識別番号】110002789
【氏名又は名称】弁理士法人IPX
(72)【発明者】
【氏名】畑瀬 研斗
(72)【発明者】
【氏名】佐藤 由弥
(72)【発明者】
【氏名】ペラルタ・シェン リヴ・オルドネズ
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175GC03
5B175JA02
5B175JC07
(57)【要約】 (修正有)
【課題】異なる専門分野の論文や特許を効率よく理解させる情報処理システム、方法及びプログラムを提供する。
【解決手段】サーバ装置100と、クライアント装置110とはネットワーク150を介して通信可能に接続され、外部システムともネットワークを介して通信可能に接続される情報処理システム1000は、少なくとも一つのプロセッサを備える。プロセッサは、次の各ステップを実行するように構成される。第1の受付ステップでは、ユーザによって入力された、ユーザが検索したい事項に関する第1の情報を受け付ける。取得ステップでは、入力された第1の情報を含む所定のプロンプトを用いて大規模言語モデルを介して、事項から想起される複数のキーワードを取得する。第1の表示制御ステップでは、複数のキーワードと、複数の文献の情報を格納しているデータベースとに基づいて、複数の文献のテーマ毎に事項を整理した第2の情報を表示させる。
【選択図】
図4
【特許請求の範囲】
【請求項1】
情報処理システムであって、
少なくとも一つのプロセッサを備え、
前記プロセッサは、次の各ステップを実行するように構成され、
第1の受付ステップでは、ユーザによって入力された、前記ユーザが検索したい事項に関する第1の情報を受け付け、
取得ステップでは、入力された前記第1の情報を含む所定のプロンプトを用いて大規模言語モデルを介して、前記事項から想起される複数のキーワードを取得し、
第1の表示制御ステップでは、前記複数のキーワードと、複数の文献の情報を格納しているデータベースとに基づいて、前記複数の文献のテーマ毎に前記事項を整理した第2の情報を表示させる、システム。
【請求項2】
請求項1に記載の情報処理システムにおいて、
前記第2の情報が、前記複数の文献のテーマ毎の関係を可視化した図である、システム。
【請求項3】
請求項1に記載の情報処理システムにおいて、
前記第2の情報が、前記事項に関連する前記テーマ毎の文献リストである、システム。
【請求項4】
請求項1に記載の情報処理システムにおいて、
前記第1の情報は、技術分野を示す情報を含む、システム。
【請求項5】
請求項1に記載の情報処理システムにおいて、
前記第1の情報は、検索ワードを示す情報を含む、システム。
【請求項6】
請求項1に記載の情報処理システムにおいて、
さらに、第2の受付ステップでは、前記複数の文献のテーマのうち一つの特定のテーマに対する選択を受け付け、
さらに、第2の表示制御ステップでは、選択された前記特定のテーマに関連する第3の情報を表示させる、システム。
【請求項7】
請求項6に記載の情報処理システムにおいて、
前記第2の表示制御ステップでは、前記ユーザの知識レベルに応じた前記第3の情報を表示させる、システム。
【請求項8】
請求項6に記載の情報処理システムにおいて、
前記第3の情報は、前記特定のテーマに関連する、
前記複数の文献の統計情報と、
技術用語の説明と、
前記複数の文献の要約と、
スタートアップ企業の情報と、
特許の情報と、
のうちの少なくとも一つを含む、システム。
【請求項9】
情報処理プログラムであって、
コンピュータに、請求項1から請求項8までの何れか1つに記載の情報処理システムの各ステップを実行させる、プログラム。
【請求項10】
情報処理方法であって、
請求項1から請求項8までの何れか1つに記載の情報処理システムが実行する各ステップを含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、情報処理プログラム及び情報処理方法に関する。
【背景技術】
【0002】
特許文献1には事業実施のためのデータの収集方法が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
科学技術を用いた事業開発において仮説構築や事前調査が必要となる。しかし、ある科学技術に関する論文や特許は膨大な量が存在する。また、技術の細分化、高度化が進み、自身の専門と少しでも違う分野の技術に関する論文や特許を効率よく理解するのは困難である。
【課題を解決するための手段】
【0005】
本発明の一態様によれば、情報処理システムが提供される。この情報処理システムは、少なくとも一つのプロセッサを備える。プロセッサは、次の各ステップを実行するように構成される。第1の受付ステップでは、ユーザによって入力された、ユーザが検索したい事項に関する第1の情報を受け付ける。取得ステップでは、入力された第1の情報を含む所定のプロンプトを用いて大規模言語モデルを介して、事項から想起される複数のキーワードを取得する。第1の表示制御ステップでは、複数のキーワードと、複数の文献の情報を格納しているデータベースとに基づいて、複数の文献のテーマ毎に事項を整理した第2の情報を表示させる。
【0006】
本発明の一つによれば、より有益な情報処理システム等を提供することができる。
【図面の簡単な説明】
【0007】
【
図1】情報処理システム1000のシステム構成の一例を示す図である。
【
図2】サーバ装置100のハードウェア構成の一例を示す図である。
【
図3】クライアント装置110のハードウェア構成の一例を示す図である。
【
図4】情報処理システム1000における情報処理の一例を示すシーケンス図(その1)である。
【
図6】情報処理システム1000における情報処理の一例を示すシーケンス図(その2)である。
【発明を実施するための形態】
【0008】
以下、図面を用いて本発明の実施形態について説明する。以下に示す実施形態中で示した各種特徴事項は、互いに組み合わせ可能である。
【0009】
本明細書において「部」とは、例えば、広義の回路によって実施されるハードウェア資源と、これらのハードウェア資源によって具体的に実現されうるソフトウェアの情報処理とを合わせたものも含みうる。また、本実施形態においては様々な情報を取り扱うが、これら情報は、0又は1で構成される2進数のビット集合体として信号値の高低によって表されるか、信号値の物理的な数値によって表されるか、又は量子的な重ね合わせによって表されるかによらず、広義の回路上で通信・演算が実行されうる。
【0010】
また、広義の回路とは、回路(Circuit)、回路類(Circuitry)、プロセッサ(Processor)、及びメモリ(Memory)等を少なくとも適当に組み合わせることによって実現される回路である。すなわち、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、プログラマブル論理デバイス(例えば、単純プログラマブル論理デバイス(Simple Programmable Logic Device:SPLD)、複合プログラマブル論理デバイス(Complex Programmable Logic Device:CPLD)、及びフィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA))等を含むものである。
【0011】
また、実施形態中に登場するソフトウェアを実現するためのプログラムは、サーバ装置からダウンロード可能な態様で実施してもよいし、クラウドコンピュータ上でプログラムの実行がなされてもよいし、不揮発性又は揮発性の非一時的な記憶媒体に記憶させて頒布されてもよい。
【0012】
<実施形態1>
1.システム構成
図1は、情報処理システム1000のシステム構成の一例を示す図である。
図1に示されるように、情報処理システム1000は、システム構成として、サーバ装置100と、クライアント装置110とを含む。サーバ装置100と、クライアント装置110とはネットワーク150を介して通信可能に接続されている。情報処理システム1000は、ネットワーク150を介して情報処理システム120と通信可能に接続されている。なお、サーバ装置100はクラウドシステムで実現されてもよい。
【0013】
サーバ装置100は、後述する変形例も含めて実施形態1に関する処理を実行する。より具体的に説明すると、サーバ装置100は、クライアント装置110の要求に応じて、後述する
図5、
図7及び
図8に示されるような画面をクライアント装置110に表示させるよう制御する。
【0014】
クライアント装置110は、ユーザが使用する端末であって、後述する
図5、
図7及び
図8に示されるような画面を表示させる。
図1では簡略化のためクライアント装置110は1台しか図示していないが、情報処理システム1000には複数のクライアント装置110が含まれてもよい。但し、以下では説明の簡略化のため、1台のクライアント装置110を例に説明を行う。
【0015】
情報処理システム120は、情報処理システム1000以外の他の情報処理システムであって、大規模言語モデルの機能を提供する。大規模言語モデルは、数億から数千億のパラメータを持つ深層学習モデルの一種である。大規模言語モデルは、大規模なテキストコーパスから学習し、自然言語理解のタスクを行うために使用される。大規模言語モデルは、プロンプトに与えられた文を解釈し、その文脈で適切な応答を生成する。大規模言語モデルとしては、例えば、Generative Pre-trained Transformer(GPT(登録商標))等があり、例えば、情報処理システム120は、クラウドサービスの機能として大規模言語モデルの機能を提供する。
【0016】
図1では、クライアント装置110の例としてPC(Personal Computer)を示しているが、PCに限定されるものではなく、スマートフォン、タブレット型コンピュータ等であってもよい。クライアント装置110は、例えば、サーバ装置100からの情報を表示したり、ユーザが検索したい事項を入力したりすることができるものであればよい。
【0017】
ここで、特許請求の範囲に記載の情報処理システムは、複数の装置で構成されてもよいし、一つの装置で構成されてもよい。特許請求の範囲に記載の情報処理システムが一つの装置で構成される場合、その装置の一例はサーバ装置100である。特許請求の範囲に記載の情報処理システムが複数の装置で構成される場合、複数の装置の一例は、サーバ装置100及びクライアント装置110、又はサーバ装置100と同様の機能を提供するクラウドシステム等である。
【0018】
2.ハードウェア構成
(サーバ装置100のハードウェア構成)
図2は、サーバ装置100のハードウェア構成の一例を示す図である。サーバ装置100は、ハードウェア構成として、制御部210と、記憶部220と、通信部230とを含む。各構成要素についてさらに説明する。
【0019】
制御部210は、CPU(Central Processing Unit)等であって、サーバ装置100の全体を制御する。
記憶部220は、HDD(Hard Disk Drive)、ROM(Read Only Memory)、RAM(Random Access Memory)、SSD(Solid State Drive)の何れか、又はこれらの任意の組み合わせであって、プログラム及び制御部210がプログラムに基づき処理を実行する際に利用するデータ等を記憶する。制御部210が、記憶部220に記憶されているプログラムに基づき、処理を実行することによって、サーバ装置100の機能が実現される。記憶部220は、記憶媒体の一例である。なお、本実施形態では制御部210がプログラムに基づき処理を実行する際に利用するデータは記憶部220に記憶されるものとして説明するが、サーバ装置100と通信可能な他の装置の記憶部等に記憶されていてもよい。すなわち、データは、制御部210が参照可能であればどの装置の記憶部に記憶されていてもよい。記憶部220には、文献データベースが記憶されている。詳細は、後述する。
通信部230は、NIC(Network Interface Card)等であって、サーバ装置100をネットワーク150に接続し、他の装置との通信を司る。
【0020】
(クライアント装置110のハードウェア構成)
図3は、クライアント装置110のハードウェア構成の一例を示す図である。クライアント装置110は、ハードウェア構成として、制御部310と、記憶部320と、入力部330と、出力部340と、通信部350とを含む。
【0021】
制御部310は、CPU等であって、クライアント装置110の全体を制御する。
【0022】
記憶部320は、HDD、ROM、RAM、SSDの何れか、又はこれらの任意の組み合わせであって、プログラム、制御部310がプログラムに基づき処理を実行する際に利用するデータ等を記憶させる。制御部310が、記憶部320に記憶されているプログラムに基づき、処理を実行することによって、クライアント装置110の機能が実現される。記憶部320は、記憶媒体の一例である。
【0023】
入力部330は、キーボード及びマウス等であって、ユーザの入力操作に基づき情報をクライアント装置110に入力する。入力部330がユーザによってなされた操作入力を受け付ける。当該入力が命令信号として、制御部310に転送され、制御部310が必要に応じて所定の制御や演算を実行しうる。
出力部340は、ディスプレイ等であって、制御部310による処理の結果、入力部330を介して入力された情報、通信部350を介してサーバ装置100から受信した情報等を出力する。
通信部350は、NIC等であって、クライアント装置110をネットワーク150に接続し、他の装置との通信を司る。
【0024】
3.サーバ装置100の機能構成
制御部210は、受付ステップと取得ステップと表示制御ステップと生成ステップと解析ステップとを実行するように構成される。
【0025】
受付ステップは、検索画面に対するユーザの入力を受け付けるステップである。例えば、第1の受付ステップは、ユーザによって入力された、ユーザが検索したい事項に関する第1の情報を受け付けるステップである。第2の受付ステップは、文献のテーマのうち一つの特定のテーマに対する選択を受け付けるステップである。詳細は後述する。
【0026】
取得ステップは、入力された第1の情報を含む所定のプロンプトを用いて大規模言語モデルを介して、事項から想起される複数のキーワードを取得するステップである。詳細は後述する。
【0027】
表示制御ステップは、画面、静止画又は動画を含む画像、アイコン、メッセージ等の視覚情報を、クライアント装置110の出力部340に表示させるように制御するステップである。表示制御ステップは、クライアント装置110の出力部340に視覚情報を表示させるためのレンダリング情報だけを生成してもよい。具体的には第1の表示制御ステップは、複数のキーワードと、複数の文献の情報を格納しているデータベースとに基づいて、文献のテーマ毎に事項を整理した第2の情報を表示させるステップである。第2の表示制御ステップは、選択された特定のテーマに関連する第3の情報を表示させるステップである。詳細は後述する。
【0028】
第1の生成ステップは、大規模言語モデルに入力するプロンプトを生成するステップである。第2の生成ステップは、クライアント装置110に表示させる第2の情報及び第3の情報を生成するステップである。詳細は後述する。
【0029】
解析ステップは、大規模言語モデルから取得した複数のキーワードと、複数の文献の情報を格納しているデータベースとに基づいて、解析を行うステップである。詳細は後述する。
【0030】
4.情報処理の流れ
本節では、第1の実施形態に係る情報処理システム1000の情報処理方法について説明する。
図4は、情報処理システム1000における情報処理の一例を示すシーケンス図(その1)である。
図5は、画面500の一例を示す図である。
図6は、情報処理システム1000における情報処理の一例を示すシーケンス図(その2)である。
図7は、画面700の一例を示す図である。
図8は、画面800の一例を示す図である。
【0031】
下記に示す通り、情報処理システム1000は、少なくとも一つのプロセッサを備える。プロセッサは、次の各ステップを備える。本実施形態のプログラムは、情報処理システム1000の情報処理方法の各ステップを実行させるプログラムである。なお、処理の順番は適宜入れ替えることができ、複数の処理が同時に実行されてもよいし、一部の処理が省略されてもよい。
【0032】
4.1 流れの概要(その1)
図4は、情報処理システム1000における情報処理の一例を示すシーケンス図(その1)である。ユーザがクライアント装置110に表示された検索画面を介してユーザが検索したい事項に関するクエリを入力し、サーバ装置100が処理を実行する。以下、このシーケンス図の各シーケンスに沿って説明するものとする。
【0033】
まず、シーケンスSQ401において、クライアント装置110の制御部310は、ユーザの操作等に基づき検索画面の表示要求をサーバ装置100に送信する。
【0034】
次に、シーケンスSQ402において、サーバ装置100の制御部210は、クライアント装置110の制御部310からの要求に基づき検索画面をクライアント装置110の制御部310に送信する。
【0035】
次に、シーケンスSQ403において、制御部310は、受信した検索画面を出力部340に表示させる。検索画面は、ユーザが検索したい事項を入力可能な領域を備える。
【0036】
画面500の一例を示す図である。画面500には、入力フィールド510と、出力フィールド520とが含まれる。検索画面は、画面500であってもよい。シーケンスSQ403において、画面500は、入力フィールド510と出力フィールド520とが空白の状態で表示される。入力フィールド510は、ユーザが検索したい事項に関するクエリを入力する領域である。出力フィールド520は、入力フィールド510に入力されたクエリに対応する検索結果が出力される領域である。出力フィールド520については、後述する。
【0037】
ユーザは、検索したい事項に関するクエリ(第1の情報の一例)を入力フィールド510に入力する。例えば、ユーザが「腸内細菌によるヘルスケア」に関する情報を知りたいと考えている場合には、クエリとして「腸内細菌によるヘルスケア」を入力フィールド510に入力する。
【0038】
次に、シーケンスSQ404において、サーバ装置100の制御部210は、クライアント装置110を介して入力フィールド510に入力されたクエリを受け付ける。ここで、制御部210は、入力フィールド510を介して、任意のテキストを受け付けることができる。すなわち、クエリは、「腸内細菌によるヘルスケア」のように2語からなる2語文であってもよいし、単語でもよいし、文章でもよい。このようなクエリとして入力する単語やフレーズを検索ワードともいう。換言すると、ユーザが検索したい事項に関する第1の情報の一例であるクエリは、検索ワードを示す情報を含む。ただし、クエリは、「腸内細菌」のみの場合よりも「腸内細菌によるヘルスケア」のように、技術分野を示す情報が含まれている方が好ましい。クエリが技術分野を示す情報を含むことにより、クエリが単語のみの場合よりも、ユーザの検索したい事項が明確となり、ユーザが知りたい情報がより具体的に得られるようになる。換言すると、第1の情報の一例であるクエリは、技術分野を示す情報を含んでもよい。
【0039】
次に、シーケンスSQ405において、制御部210は、大規模言語モデルに入力するプロンプトを生成する。プロンプトは、ユーザが入力したクエリを含む。プロンプトは、大規模言語モデルに対する指示やその指示を実行する際のルールや条件を示した要求文である。
【0040】
具体的には、プロンプトは、入力したクエリから想起される複数のキーワードを出力する指示を含む。制御部210は、生成ステップとして、入力されたクエリに応じたプロンプトを生成する。さらに、制御部210は、複数のキーワードを出力する目的や複数のキーワードを抽出する際のルールを含むプロンプトを生成してもよい。目的やルールを明示したプロンプトを大規模言語モデルに入力することにより、制御部210は、より目的にあった複数のキーワードを大規模言語モデルから取得することができる。すなわち、制御部210は、生成ステップとして、クエリに関連した文献を見つけるための複数のキーワードを出力することを指示するプロンプトを生成する。
【0041】
ここで、制御部210は、生成ステップとして、クエリに関連する一般的な知識の中から複数のキーワードを提示させるプロンプトを生成してもよい。このような態様により、その分野を専門とする研究者以外のユーザにも理解しやすい情報を生成することができる。
【0042】
さらに、制御部210は、生成ステップとして、複数のキーワードとクエリの関係性、特に複数のキーワードとクエリの関係性を分類するように指示するプロンプトを生成してもよい。また、制御部210は、生成ステップとして、クエリに関係した複数のキーワードのサマリーの情報を出力するように指示するプロンプトを生成してもよい。
【0043】
次に、シーケンスSQ406において、制御部210は、生成したプロンプトを情報処理システム120の大規模言語モデルに送信する。
【0044】
次に、シーケンスSQ407において、情報処理システム120は、制御部210からプロンプトを受け付け、大規模言語モデルに対し入力データとしてプロンプトを入力する。大規模言語モデルは、プロンプトに基づき複数のキーワードを出力する。
【0045】
次に、シーケンスSQ408において、制御部210は、大規模言語モデルより出力された複数のキーワードを取得する。換言すると、制御部210は、取得ステップとして、入力されたクエリ(第1の情報の一例)を含む所定のプロンプトを用いて、大規模言語モデルを介して、クエリとして入力されたユーザが検索したい事項から想起される複数のキーワードを取得する。
【0046】
次に、シーケンスSQ409において、制御部210は、複数のキーワードと、複数の文献の情報を格納している文献データベースとに基づいて、文献のテーマ毎にユーザが検索したい事項を整理した出力情報を生成する。出力情報は、キーワードに関する文献の情報に基づき、文献のテーマ毎に整理されている。例えば、制御部210は、複数のキーワードをデータベースに入力して解析することにより、クエリとして入力されたユーザが検索したい事項を整理した出力情報を生成する。
【0047】
シーケンスSQ409の処理をより具体的に説明すると、制御部210は、大規模言語モデルより受け取った複数のキーワードを、文献データベースに入力し、複数のキーワードのそれぞれに関する文献の情報を出力する。制御部210は、文献データベースにおいて、分類と可視化を実行可能な学習済みモデルを使用することにより、文献のテーマ毎にユーザが検索したい事項を整理した出力情報を生成することができる。学習済みモデルとしては、Word Embedding モデル、BERT、LDA(Latent Dirichlet Allocation)等の既存の学習モデルを使用することもできる。例えば、制御部210は、上記の文献データベースや学習済みモデルを用いることで、文献情報の要約文を生成し、生成した要約文を解析して文献情報のテーマを特定し、テーマ毎に文献情報を分類することができる。さらに、制御部210は、テーマ毎に分類された文献情報に基づき、ユーザが検索したい事項を整理した出力情報を生成することができる。
【0048】
また、出力情報を得る別の方法の一例を説明する。制御部210は、シーケンスSQ405において、プロンプトを生成する際に、複数のキーワードとクエリの関係性、特に複数のキーワードとクエリのセマンテックリレーションシップを分類するように指示するプロンプトを生成してもよい。このようなプロンプトを生成することにより、制御部210は、シーケンスSQ408において、大規模言語モデルからクエリと複数のキーワードとの間の関係性の情報を取得することができる。これにより、制御部210は、クエリと複数のキーワードとの間の関係性と、複数のキーワードに基づき得られる文献情報を突合することにより、ユーザが検索したい事項を整理した出力情報を生成することができる。
【0049】
また、シーケンスSQ409において、制御部210は、上記の方法を組み合わせて実行してもよい。シーケンスSQ409の処理を実行することにより、制御部210は、専門分野の研究者以外のユーザにも理解しやすい出力情報を生成することができる。すなわち、制御部210は、生成ステップとして、クライアント装置110に表示させる出力情報(第2の情報)を生成する。
【0050】
次に、シーケンスSQ410において、制御部210は、生成した出力情報をクライアント装置110に送信し、クライアント装置110に表示させるよう制御する。制御部210は、第1の表示制御ステップとして、複数のキーワードと、複数の文献の情報を格納しているデータベースとに基づいて、複数の文献のテーマ毎にクエリとして入力されたユーザが検索したい事項を整理した出力情報(第2の情報)を表示させる。
【0051】
次に、シーケンスSQ411において、制御部310は、出力情報を画面に表示する。
図5の出力フィールド520に表示されているのはこの出力情報の一例である。
図5の例では、クエリ(一語なので検索ワードともいえる)として「robotics」が入力された場合の俯瞰図が表示されている。俯瞰図は、文献のテーマ毎の関係を可視化した図の一例である。すなわち、出力情報(第2の情報)は、文献のテーマ毎の関係を可視化した図であってもよい。円は技術に関する複数のテーマのそれぞれを示している。円は、技術に関する複数のテーマを示すオブジェクトの一例である。オブジェクトの形状等は円に限られず他の形状をしていてもよい。円の大きさはキーワードに関連する文献の量を示している。また、円と円を接続する線は技術分野の関連性を示している。また、円と円との距離が近ければ近いほど技術分野の関連性が高く、円と円との距離が遠ければ遠いほど技術分野の関連性が低いことを示している。なお、
図5の俯瞰図は、クエリとしてroboticsが入力された場合の俯瞰図であるため、文献のテーマ毎の関係を可視化した図は、技術分野毎の関係を可視化した図であるともいえる。また、robotics関連の文献は技術文書であるともいえる。
【0052】
このような態様により、ユーザは、技術に関連するクエリを入力するだけでクエリに関係するキーワードを含む文献に関する複数のテーマやテーマごとの関連性が可視化された情報を得ることができる。俯瞰図では、文献の量が円の大きさ、関連性が円と円を結ぶ線、技術分野の関連性の高低が円と円との距離で表されているため、ユーザは、まず、俯瞰図を参照することにより、どの分野の文献を読めばよいのか見当をつけることができる。
【0053】
出力情報は、ユーザが検索したい事項に関するクエリに関連するテーマ毎の文献リストであってもよい。このような態様により、ユーザはテーマ毎の文献リストを確認することができる。
【0054】
以上をまとめると、サーバ装置100の制御部210は、第1の受付ステップとして、ユーザによって入力された、ユーザが検索したい事項に関するクエリ(第1の情報)を受け付ける。制御部210は、取得ステップとして、入力された第1の情報を含む所定のプロンプトを用いて大規模言語モデルを介して、事項から想起される複数のキーワードを取得する。制御部210は、第1の表示制御ステップとして、複数のキーワードと、複数の文献の情報を格納しているデータベースとに基づいて、複数の文献のテーマ毎に事項を整理した出力情報(第2の情報)を表示させる。
【0055】
このような態様によれば、情報処理システム1000は、研究者(ユーザの一例)が専門分野以外の分野の情報について把握したいと考えた場合に、クライアント装置110を介して、検索したい事項に関する情報を入力すると、専門分野以外であっても理解しやすい俯瞰図やテーマ毎の文献リスト(第2の情報の一例)を得ることができる。すなわち、研究者は、専門分野以外の分野の情報について把握する際に、高度な内容の文献を手当たり次第読まなくても、検索したい事項に関連した重要そうなテーマや文献の見当を付けることができる。その結果、科学技術を用いた事業開発において仮説構築や事前調査の時間を短縮することができる。また、GPT等の大規模言語モデルを利用することによって、難解なキーワードではなく、人が見て理解しやすいようなキーワードを生成させ、このキーワードを利用して俯瞰図やテーマ毎の文献リスト等を表示させることができる。
【0056】
4.2 流れの概要(その2)
図6は、情報処理システム1000における情報処理の一例を示すシーケンス図(その2)である。
図6に示される情報処理は、
図4に示した情報処理の後に行われる情報処理である。以下、このシーケンス図の各シーケンスに沿って説明するものとする。
【0057】
まず、シーケンスSQ601において、制御部210は、
図5の画面500において所定の操作が行われたか否かを判定する。所定の操作としては、例えば、
図5の俯瞰図に含まれる円が選択される操作等がある。
図5に示されるような画面において円が選択されると、円が選択されたことと、選択された円に関する情報と、を含む操作情報がクライアント装置110からサーバ装置100に送信される。制御部210は、このような操作情報が受信されると、
図5の画面500において所定の操作が行われたと判定する。制御部210は、第2の受付ステップとして、文献のテーマのうち一つの特定のテーマに対する選択を受け付けてもよい。
【0058】
所定の操作が行われたと判定すると、次に、シーケンスSQ602において、制御部210は、生成ステップとして、クライアント装置110に表示させる第3の情報を生成する。例えば、制御部210は、後述する
図7に示されるような構造化情報を含む画面700を生成する。ここで、制御部210は、記憶部220に記憶させた文献データベースを参照して、構造化情報を含む画面700を生成する。なお、制御部210は、大規模言語モデルから取得した複数のキーワードに関連する情報と、その情報に基づき文献データベースを用いて文献のテーマ毎に整理された情報とを、複数の文献情報とともに文献データベースに格納し、記憶部220に記憶させている。
【0059】
次に、シーケンスSQ603において、制御部210は、生成した画面をクライアント装置110に送信する。すなわち、制御部210は、第2の表示制御ステップとして、選択された特定のテーマに関連する第3の情報の一例である構造化情報を表示させてもよい。
【0060】
次に、シーケンスSQ604において、制御部310は、生成した画面を出力部340に表示する。
【0061】
図7は、画面700の一例を示す図である。画面700は、出力フィールド710と、出力フィールド730と、出力フィールド760と、選択フィールド770とが含まれる。出力フィールド710には、構造化情報が含まれる。構造化情報は、画面500に表示されている文献に関する分野(文献のテーマの一例)のうちユーザによって選択された分野を構造化した情報である。
図7の例では、
図5の画面においてComputer scienceという分野が選択された場合の構造化情報が示されている。より具体的には、Classificationという分野の下位の階層にImage Recognition、SVM、Classification、Optimization等のテーマが存在することが示されている。
【0062】
図7の例では構造化情報の近傍にユーザの専門性レベルを選択するオブジェクトの一例である選択オブジェクト720が表示されている。ユーザが選択オブジェクト720を操作して、自身の専門性レベルを選択すると、制御部210は、ユーザが選択したユーザの専門性のレベルに応じて構造化情報を変更する。換言すると、制御部210は、第2の表示制御ステップとして、ユーザの知識レベルに応じた構造化情報(第3の情報)を表示させる。
図7の例では専門性レベルを0、1、2の3段階で示しているがこれに限定されるものではない。なお、専門性レベルは0が一番低く、2が一番高いものとする。例えば、制御部210は、専門性レベルが高いほど専門分野の言葉を用いた構造化情報を生成し、専門性レベルが低いほど専門家でなくとも分かりやすい言葉を用いた構造化情報を生成する。なお、専門性のレベルに応じて分かりやすさを変更するのは一例である。他の例として例えば、制御部210は、専門性レベルが高いほど階層の構造をより細かくした構造化情報を生成し、専門性レベルが低いほど階層の構造をより粗くした構造化情報を生成するようにしてもよい。
【0063】
構造化情報(第3の情報)は、特定のテーマに関する文献の統計情報を含んでもよい。出力フィールド730には画面500に表示されている文献に関する分野のうちユーザによって選択された分野の文献の統計情報が含まれる。ここで、文献の一例として研究論文がある。文献を研究論文とすると、グラフ740は、選択された分野における指定された期間における年別の研究論文の発表数である。グラフ750は、選択された分野における指定された年における国別の研究論文の発表数である。選択された分野における指定された期間における年別の研究論文の発表数や選択された分野における指定された年における国別の研究論文の発表数は統計情報の例である。
【0064】
出力フィールド760には画面500に表示される文献に関する分野のうちユーザによって選択された分野に関連する分野の技術用語に関する情報が含まれる。選択された分野に関連する分野の技術用語とは、
図7を例に説明すると、選択された分野Computer scienceに関連する分野Image Recognition、SVM、Classification、Optimizationの技術用語の解説文が出力フィールド760に出力される。なお、制御部210は、出力フィールド760に選択された分野に関連する分野のうち被引用数が最も多い、重要論文の要約等を表示するようにしてもよい。また、制御部210は、出力フィールド760に何を表示するかユーザに選択させる選択オブジェクトを表示するようにしてもよい。そして、制御部210は、選択オブジェクトにより選択された情報を出力フィールド760に出力するようにしてもよい。上述したように出力フィールド760に出力される情報としては技術用語の説明や論文の要約等がある。なお、
図7の例では出力フィールド760と一つにしか符号を付していないが同じ形状をした4つのフィールドは同様の出力フィールドである。なお、技術用語の説明や論文の要約等を表示する出力フィールドの数は4つに限られない。
【0065】
選択フィールド770は、
図7の表示言語を選択するフィールドである。選択フィールド770において日本語が選択されると、日本語で技術用語の説明等が表示され、選択フィールド770において英語が選択されると、英語で技術用語の説明等が表示される。
【0066】
すなわち、制御部210は、技術に関する複数の分野ごとにクラスタリングされ、かつ、技術に関する分野ごとの関連性が可視化された俯瞰図を表示するよう制御する。制御部210は、俯瞰図を含む画面を介したユーザ操作に基づいて、画面に表示されている文献に関する分野のうちユーザによって選択された分野を構造化した情報である構造化情報を表示するよう制御する。
【0067】
ユーザは、技術に関連する検索ワードを入力するだけで検索ワードに関係するキーワードを含む文献に関する複数のテーマやテーマごとの関連性が可視化された情報を得ることができる。また、俯瞰図においてテーマを選択することによって、選択されたテーマを構造化した構造化情報を得ることができる。
【0068】
また、制御部210は、俯瞰図を含む画面500を介したユーザ操作に基づいて、画面500に表示されている文献に関するテーマのうちユーザによって選択されたテーマを構造化した情報である構造化情報と、ユーザによって選択されたテーマの文献の統計情報と、ユーザによって選択されたテーマに関する技術用語に関する情報と、を含む画面700を表示するよう制御する。
ユーザは、俯瞰図からテーマを選択することによって、選択したテーマの構造化情報と、テーマの文献の統計情報と、テーマに関する技術用語に関する情報とを同じ画面で一度に視認することができる。
【0069】
次に、シーケンスSQ606において、制御部210は、
図7の画面700、又は
図5の画面500において所定の操作が行われたか否かを判定する。所定の操作としては、例えば、
図7の構造化情報においてテーマ、又はテーマに対応する技術用語が選択され操作や
図5の画面500において俯瞰図に含まれるオブジェクトがダブルタップされる操作等がある。制御部210は、このような操作がなされたことを示す情報をクライアント装置110より受信すると、
図7の画面700、又は
図5の画面500において所定の操作が行われたと判定する。
【0070】
所定の操作が行われたと判定すると、シーケンスSQ607において、制御部210は、後述する
図8に示されるような画面800を生成する。
【0071】
次に、シーケンスSQ608において、制御部210は、生成した画面をクライアント装置110に送信する。
【0072】
次に、シーケンスSQ609において、制御部310は、画面800を出力部340に表示する。
【0073】
図8は、画面800の一例を示す図である。画面800にはユーザ操作によって選択された構造化情報で示された構造化されたテーマ、又はテーマに対応する技術に関する関連情報が含まれる。又は画面800にはユーザによって選択された俯瞰図に含まれるオブジェクトに対応するテーマの関連情報が含まれる。
すなわち、制御部210は、所定のユーザ操作に基づいて構造化情報で示された構造化されたテーマの技術に関する関連情報を表示するよう制御する。構造化情報の関連情報も第3の情報の一例である。制御部210は、ユーザによるタブの選択により関連情報の表示を切り替える。例えば、タブ810が選択された場合、制御部210は、関連情報として、選択されたテーマの技術を用いて起業したスタートアップ企業に関する情報を画面800に表示するよう制御する。スタートアップ企業に関する情報とは、例えば、スタートアップ企業の会社名、会社のホームページへのアクセス情報、資金調達で得た総額、従業員数、設立年度、保有特許の情報、会社の概要情報等が含まれる。また、例えば、タブ820が選択された場合、制御部210は、関連情報として、選択されたテーマの技術に関して所定期間内に公開された特許に関する情報を画面800に表示するように制御する。所定期間とは、例えば、直近3年等の期間であり、予め定められていてもよいし、画面等を介してユーザが設定可能であってもよい。特許に関する情報とは、例えば、特許番号、特許公報のアクセス情報、筆頭発明者の情報、権利者情報、存続期間満了日の情報、特許の概要情報等が含まれる。
【0074】
(変形例1)
実施形態の変形例1を説明する。
【0075】
シーケンスSQ404において、制御部210は、画面500の入力フィールド510を介して、検索ワードの入力と技術分野の選択とを受け付けてもよい。制御部210は、画面500に複数の技術分野を選択可能に表示させる。技術分野としては、例えば、Physics、Computer science、Mathematics、Chemistry、artificial intelligence等がある。このような態様によれば、シーケンスSQ405において、制御部210は、選択された技術分野に応じたプロンプトを生成することができる。
【0076】
シーケンスSQ406において、制御部210は、API(Application Programming Interface)を介して情報処理システム120の大規模言語モデルにプロンプトを入力するようにしてもよい。
【0077】
さらに、次に記載の各態様で提供されてもよい。
【0078】
(1)情報処理システムであって、少なくとも一つのプロセッサを備え、前記プロセッサは、次の各ステップを実行するように構成され、第1の受付ステップでは、ユーザによって入力された、前記ユーザが検索したい事項に関する第1の情報を受け付け、取得ステップでは、入力された前記第1の情報を含む所定のプロンプトを用いて大規模言語モデルを介して、前記事項から想起される複数のキーワードを取得し、第1の表示制御ステップでは、前記複数のキーワードと、複数の文献の情報を格納しているデータベースとに基づいて、前記複数の文献のテーマ毎に前記事項を整理した第2の情報を表示させる、システム。
【0079】
このような態様によれば、文献のテーマ毎に、ユーザが入力した事項を整理した出力情報を表示させることができる。
【0080】
(2)上記(1)に記載の情報処理システムにおいて、前記第2の情報が、前記複数の文献のテーマ毎の関係を可視化した図である、システム。
【0081】
このような態様によれば、入力された事項を文献のテーマ毎に整理し、文献のテーマ毎の関係を可視化した出力情報を表示させることができる。
【0082】
(3)上記(1)又は(2)に記載の情報処理システムにおいて、前記第2の情報が、前記事項に関連する前記テーマ毎の文献リストである、システム。
【0083】
このような態様によれば、入力された事項を文献のテーマ毎に整理し、テーマ毎にまとめた文献のリストを出力情報として表示させることができる。
【0084】
(4)上記(1)~(3)のいずれか一つに記載の情報処理システムにおいて、前記第1の情報は、技術分野を示す情報を含む、システム。
【0085】
このような態様によれば、技術分野を示す情報を含むクエリにより、当該技術分野内の事項を整理した出力情報を表示させることができる。
【0086】
(5)上記(1)~(4)のいずれか一つに記載の情報処理システムにおいて、前記第1の情報は、検索ワードを示す情報を含む、システム。
【0087】
このような態様によれば、ユーザから検索したい単語を含む情報が入力されると、文献のテーマ毎に、入力された単語を含む情報に関して整理した出力情報を表示させることができる。
【0088】
(6)上記(1)~(5)のいずれか一つに記載の情報処理システムにおいて、さらに、第2の受付ステップでは、前記複数の文献のテーマのうち一つの特定のテーマに対する選択を受け付け、さらに、第2の表示制御ステップでは、選択された前記特定のテーマに関連する第3の情報を表示させる、システム。
【0089】
このような態様によれば、文献のテーマ毎に、ユーザが入力した事項を整理した出力情報の中から、特定のテーマに関連する情報を表示させることができる。
【0090】
(7)上記(6)に記載の情報処理システムにおいて、前記第2の表示制御ステップでは、前記ユーザの知識レベルに応じた前記第3の情報を表示させる、システム。
【0091】
このような態様によれば、ユーザの知識レベルに応じた情報を表示させることができる。
【0092】
(8)上記(6)又は(7)に記載の情報処理システムにおいて、前記第3の情報は、前記特定のテーマに関連する、前記複数の文献の統計情報と、技術用語の説明と、前記複数の文献の要約と、スタートアップ企業の情報と、特許の情報と、のうちの少なくとも一つを含む、システム。
【0093】
このような態様によれば、特定のテーマに関連する情報として、文献の統計情報、技術用語の説明、文献の要約、スタートアップ企業の情報、特許の情報等を表示させることができる。
【0094】
(9)情報処理プログラムであって、コンピュータに、上記(1)から(8)までの何れか1つに記載の情報処理システムの各ステップを実行させる、プログラム。
【0095】
このような態様によれば、文献のテーマ毎に、ユーザが入力した事項を整理した出力情報を表示させることができる。
【0096】
(10)情報処理方法であって、上記(1)から(8)までの何れか1つに記載の情報処理システムが実行する各ステップを含む、方法。
【0097】
このような態様によれば、文献のテーマ毎に、ユーザが入力した事項を整理した出力情報を表示させることができる。
もちろん、この限りではない。さらに、以下の態様でもよい。
【0098】
<1>情報処理システムであって、画面を介して入力された検索ワードと、技術に関する複数の分野を示す分野情報と、を含む、前記複数の分野それぞれにおける、前記検索ワードに関係する技術文書に係るキーワードの生成要求を大規模言語モデルに対して行い、前記大規模言語モデルにおいて生成された前記キーワードを取得し、前記キーワードに関する技術文書の情報に基づき、技術に関する複数の分野ごとにクラスタリングされ、かつ、技術に関する分野ごとの関連性が可視化された俯瞰図情報を表示するよう制御する、情報処理システム。
【0099】
<2>上記<1>に記載の情報処理システムにおいて、前記キーワードを含む技術文書が存在する場合、前記キーワードを含む技術文書の情報を用いて、前記俯瞰図情報を表示するよう制御する、情報処理システム。
【0100】
<3>上記<1>又は<2>に記載の情報処理システムにおいて、前記キーワードを含む技術文書が存在するか否かを判定し、前記キーワードを含む技術文書が存在する場合、前記キーワードを含む技術文書の情報を用いて、前記俯瞰図情報を表示するよう制御する、情報処理システム。
【0101】
<4>上記<1>から<3>までの何れか1つに記載の情報処理システムにおいて、前記俯瞰図情報を含む画面を介したユーザー操作に基づいて、前記画面に表示されている技術文書に関する分野のうちユーザーによって選択された分野を構造化した情報である構造化情報を表示するよう制御する、情報処理システム。
【0102】
<5>上記<4>に記載の情報処理システムにおいて、前記ユーザーの専門性を示すレベルに応じて前記構造化情報を変更する、情報処理システム。
【0103】
<6>上記<1>から<5>までの何れか1つに記載の情報処理システムにおいて、前記俯瞰図情報を含む画面を介したユーザー操作に基づいて、前記画面に表示されている技術文書に関する分野のうちユーザーによって選択された分野の技術文書の統計情報を表示するよう制御する、情報処理システム。
【0104】
<7>上記<1>から<6>までの何れか1つに記載の情報処理システムにおいて、前記俯瞰図情報を含む画面を介したユーザー操作に基づいて、前記画面に表示されている技術文書に関する分野のうちユーザーによって選択された分野に関連する分野の技術用語に関する情報を表示するよう制御する、情報処理システム。
【0105】
<8>上記<1>から<7>までの何れか1つに記載の情報処理システムにおいて、前記俯瞰図情報を含む画面を介したユーザー操作に基づいて、前記画面に表示されている技術文書に関する分野のうちユーザーによって選択された分野を構造化した情報である構造化情報と、前記ユーザーによって選択された分野の技術文書の統計情報と、前記ユーザーによって選択された分野に関する技術用語に関する情報と、を含む画面を表示するよう制御する、情報処理システム。
【0106】
<9>上記<4>、又は<5>、又は<8>に記載の情報処理システムにおいて、所定のユーザー操作に基づいて前記構造化情報で示された構造化された分野の技術に関する関連情報を表示するよう制御する、情報処理システム。
【0107】
<10>上記<9>に記載の情報処理システムにおいて、前記関連情報は、前記分野の技術を用いて起業したスタートアップに関する情報である、情報処理システム。
【0108】
<11>上記<9>に記載の情報処理システムにおいて、前記関連情報は、前記分野の技術に関して所定期間内に公開された特許に関する情報である、情報処理システム。
【0109】
<12>上記<1>から<11>までの何れか1つに記載の情報処理システムにおいて、前記技術文書は、技術に関する研究論文又は技術に関する特許文書である、情報処理システム。
【0110】
<13>情報処理システムであって、技術に関する複数の分野ごとにクラスタリングされ、かつ、技術に関する分野ごとの関連性が可視化された俯瞰図情報を表示するよう制御し、前記俯瞰図情報を含む画面を介したユーザー操作に基づいて、前記画面に表示されている技術文書に関する分野のうちユーザーによって選択された分野を構造化した情報である構造化情報を表示するよう制御する、情報処理システム。
【0111】
<14>情報処理システムが実行する情報処理方法であって、画面を介して入力された検索ワードと、技術に関する複数の分野を示す分野情報と、を含む、前記複数の分野それぞれにおける、前記検索ワードに関係する技術文書に係るキーワードの生成要求を大規模言語モデルに対して行い、前記大規模言語モデルにおいて生成された前記キーワードを取得し、前記キーワードに関する技術文書の情報に基づき、技術に関する複数の分野ごとにクラスタリングされ、かつ、技術に関する分野ごとの関連性が可視化された俯瞰図情報を表示するよう制御する、情報処理方法。
【0112】
<15>情報処理システムが実行する情報処理方法であって、技術に関する複数の分野ごとにクラスタリングされ、かつ、技術に関する分野ごとの関連性が可視化された俯瞰図情報を表示するよう制御し、前記俯瞰図情報を含む画面を介したユーザー操作に基づいて、前記画面に表示されている技術文書に関する分野のうちユーザーによって選択された分野を構造化した情報である構造化情報を表示するよう制御する、情報処理方法。
【0113】
<16>プログラムであって、コンピュータに、上記<1>から<13>までの何れか1つに記載の情報処理システムを実行させるためのプログラム。
【0114】
例えば、上述したサーバ装置100の処理の一部、又は全てをクライアント装置110で実行するようにしてもよい。
【0115】
最後に、本発明に係る種々の実施形態を説明したが、これらは、例として提示したものであり、発明の範囲を限定することは意図していない。新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【符号の説明】
【0116】
100 :サーバ装置
110 :クライアント装置
120 :情報処理システム
150 :ネットワーク
210 :制御部
220 :記憶部
230 :通信部
310 :制御部
320 :記憶部
330 :入力部
340 :出力部
350 :通信部
500 :画面
510 :入力フィールド
520 :出力フィールド
700 :画面
710 :出力フィールド
720 :選択オブジェクト
730 :出力フィールド
740 :グラフ
750 :グラフ
760 :出力フィールド
770 :選択フィールド
800 :画面
810 :タブ
820 :タブ
1000 :情報処理システム