IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 長瀬産業株式会社の特許一覧

特開2025-25517情報処理装置、情報処理方法、プログラム、及び記録媒体
<>
  • 特開-情報処理装置、情報処理方法、プログラム、及び記録媒体 図1
  • 特開-情報処理装置、情報処理方法、プログラム、及び記録媒体 図2
  • 特開-情報処理装置、情報処理方法、プログラム、及び記録媒体 図3
  • 特開-情報処理装置、情報処理方法、プログラム、及び記録媒体 図4
  • 特開-情報処理装置、情報処理方法、プログラム、及び記録媒体 図5
  • 特開-情報処理装置、情報処理方法、プログラム、及び記録媒体 図6
  • 特開-情報処理装置、情報処理方法、プログラム、及び記録媒体 図7
  • 特開-情報処理装置、情報処理方法、プログラム、及び記録媒体 図8
  • 特開-情報処理装置、情報処理方法、プログラム、及び記録媒体 図9
  • 特開-情報処理装置、情報処理方法、プログラム、及び記録媒体 図10
  • 特開-情報処理装置、情報処理方法、プログラム、及び記録媒体 図11
  • 特開-情報処理装置、情報処理方法、プログラム、及び記録媒体 図12
  • 特開-情報処理装置、情報処理方法、プログラム、及び記録媒体 図13
  • 特開-情報処理装置、情報処理方法、プログラム、及び記録媒体 図14
  • 特開-情報処理装置、情報処理方法、プログラム、及び記録媒体 図15
  • 特開-情報処理装置、情報処理方法、プログラム、及び記録媒体 図16
  • 特開-情報処理装置、情報処理方法、プログラム、及び記録媒体 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025025517
(43)【公開日】2025-02-21
(54)【発明の名称】情報処理装置、情報処理方法、プログラム、及び記録媒体
(51)【国際特許分類】
   G06F 16/332 20250101AFI20250214BHJP
【FI】
G06F16/332
【審査請求】有
【請求項の数】24
【出願形態】OL
(21)【出願番号】P 2023130342
(22)【出願日】2023-08-09
(11)【特許番号】
(45)【特許公報発行日】2024-03-22
(71)【出願人】
【識別番号】000214272
【氏名又は名称】長瀬産業株式会社
(74)【代理人】
【識別番号】110000338
【氏名又は名称】弁理士法人 HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】伊藤 史朗
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175JB02
(57)【要約】
【課題】コストの上昇を抑えつつ、正確性の高いデータを生成する
【解決手段】情報処理装置(100)は、 クエリを取得する第1の取得部(11)と、1又は複数の対象チャンクと、前記クエリに含まれる第1の条件に応じた指示文とを含む入力情報を生成する第1の生成部(21)と、前記入力情報が入力された言語モデルが出力する出力情報を取得する第2の取得部(12)とを備えている。
【選択図】図1
【特許請求の範囲】
【請求項1】
クエリを取得する第1の取得部と、
1又は複数の対象チャンクと、前記クエリに含まれる第1の条件に応じた指示文とを含む入力情報を生成する第1の生成部と、
前記入力情報が入力された言語モデルが出力する出力情報を取得する第2の取得部と
を備えている情報処理装置。
【請求項2】
複数のチャンクから1又は複数の前記対象チャンクを抽出するために用いる第2の条件を生成する第2の生成部と、
前記第2の条件を用いて、1又は複数の前記対象チャンクを取得する第3の取得部と、
を更に備えている請求項1に記載の情報処理装置。
【請求項3】
前記第2の生成部は、
前記クエリを参照して前記第2の条件を生成する条件生成部
を備えている請求項2に記載の情報処理装置。
【請求項4】
ユーザからの指示に応じて前記第2の条件を修正する条件修正部と
を備えている
請求項3に記載の情報処理装置。
【請求項5】
前記第2の生成部は、
前記第2の条件の少なくとも一部を含む表示用データを生成する第2の表示用データ生成部
を更に備えている
請求項4に記載の情報処理装置。
【請求項6】
前記第3の取得部は、
前記複数のチャンクのうち、前記第2の条件に整合する1又は複数のチャンクを前記1又は複数の対象チャンクとして取得する
請求項5に記載の情報処理装置。
【請求項7】
前記第3の取得部は、
前記複数のチャンクのうち、前記第2の条件に整合する1又は複数のチャンクを取得し、
前記第2の条件に整合する1又は複数のチャンクに対して拡大処理を適用することによって前記1又は複数の対象チャンクを取得する
請求項5に記載の情報処理装置。
【請求項8】
前記第1の生成部は、
前記クエリから前記指示文を生成する指示文生成部を備えている
請求項6に記載の情報処理装置。
【請求項9】
前記出力情報を参照して回答情報を生成する回答情報生成部
を更に備えている
請求項1から8の何れか1項に記載の情報処理装置。
【請求項10】
前記回答情報生成部は、
前記回答情報を含む表示用データを生成する回答情報表示用データ生成部を備えている
請求項9に記載の情報処理装置。
【請求項11】
前記クエリには、
物性名、物質名、組成名、物性値、単位、実験条件、及び実験装置の少なくとも何れかが含まれており、
前記回答情報には、
文献情報と、物性名、物質名、組成名、物性値、単位、実験条件、及び実験装置の少なくとも何れとが含まれている
請求項10に記載の情報処理装置。
【請求項12】
前記第1の生成部は、
前記1又は複数の対象チャンクの第1の部分と、前記クエリから得られる指示文とを含む第1の入力情報と、
前記1又は複数の対象チャンクの第2の部分と、前記クエリから得られる指示文とを含む第2の入力情報と
を生成し、
前記第2の取得部は、
前記第1の入力情報が入力された前記言語モデルが出力する第1の出力情報と、
前記第2の入力情報が入力された前記言語モデルが出力する第2の出力情報と
を取得し、
前記回答情報生成部は、
前記第1の出力情報の少なくとも一部と前記第2の出力情報の少なくとも一部とを統合することによって前記回答情報を生成する
請求項9に記載の情報処理装置。
【請求項13】
前記回答情報生成部は、
前記クエリに含まれる1又は複数の項目の少なくとも一部に関し、
前記第2の取得部が取得した出力情報に含まれる1又は複数の要素の少なくとも一部に対するスコアリングを行う
請求項9に記載の情報処理装置。
【請求項14】
複数のチャンクから1又は複数の対象チャンクを抽出するために用いる条件を生成する条件生成部と、
前記条件を用いて、1又は複数の前記対象チャンクを取得するチャンク取得部と、
を備えている情報処理装置。
【請求項15】
クエリを取得するクエリ取得部を備え、
前記条件生成部は、前記クエリを参照して前記条件を生成する
請求項14に記載の情報処理装置。
【請求項16】
情報処理装置が実行する情報処理方法であって、
クエリを取得する第1の取得ステップと、
1又は複数の対象チャンクと、前記クエリに含まれる第1の条件に応じた指示文とを含む入力情報を生成する第1の生成ステップと、
前記入力情報が入力された言語モデルが出力する出力情報を取得する第2の取得ステップと
を含んでいる情報処理方法。
【請求項17】
情報処理装置が実行する情報処理方法であって、
複数のチャンクから1又は複数の対象チャンクを抽出するために用いる条件を生成する条件生成ステップと、
前記条件を用いて、1又は複数の前記対象チャンクを取得するチャンク取得ステップと
を含んでいる情報処理方法。
【請求項18】
請求項1に記載の情報処理装置としてコンピュータを機能させるためのプログラムであって、上記第1の取得部、上記第1の生成部、及び上記第2の取得部としてコンピュータを機能させるためのプログラム。
【請求項19】
請求項14に記載の情報処理装置としてコンピュータを機能させるためのプログラムであって、上記条件生成部、及び上記チャンク取得部としてコンピュータを機能させるためのプログラム。
【請求項20】
請求項18に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
【請求項21】
請求項19に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、言語モデルを用いて情報を生成する技術に関する。
【背景技術】
【0002】
ユーザから受け付けたクエリに応じて、情報を提供する技術が知られている。例えば、特許文献1には、ユーザから検索クエリを受け付け、当該検索クエリと予め用意された複数の検索対象データの各々との適合度を算出する検索装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】国際公開第2021/111769号
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1のような従来技術は、コスト、及び提供するデータの正確性という側面において改善すべき点があった。
【0005】
本発明の一態様は、コストの上昇を抑えつつ、正確性の高いデータを生成することのできる技術を提供することにある。
【課題を解決するための手段】
【0006】
上記の課題を解決するために、本発明の一態様に係る情報処理装置は、クエリを取得する第1の取得部と、1又は複数の対象チャンクと、前記クエリに含まれる第1の条件に応じた指示文とを含む入力情報を生成する第1の生成部と、前記入力情報が入力された言語モデルが出力する出力情報を取得する第2の取得部とを備えている。
【0007】
上記の課題を解決するために、本発明の一態様に係る情報処理装置は、複数のチャンクから1又は複数の対象チャンクを抽出するために用いる条件を生成する条件生成部と、前記条件を用いて、1又は複数の前記対象チャンクを取得するチャンク取得部と、を備えている。
【0008】
上記の課題を解決するために、本発明の一態様に係る情報処理方法は、情報処理装置が実行する情報処理方法であって、クエリを取得する第1の取得ステップと、1又は複数の対象チャンクと、前記クエリに含まれる第1の条件に応じた指示文とを含む入力情報を生成する第1の生成ステップと、前記入力情報が入力された言語モデルが出力する出力情報を取得する第2の取得ステップとを含んでいる。
【0009】
上記の課題を解決するために、本発明の一態様に係る情報処理方法は、情報処理装置が実行する情報処理方法であって、複数のチャンクから1又は複数の対象チャンクを抽出するために用いる条件を生成する条件生成ステップと、前記条件を用いて、1又は複数の前記対象チャンクを取得するチャンク取得ステップと、を含んでいる。
【0010】
本発明の各態様に係る情報処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを前記情報処理装置が備える各部(ソフトウェア要素)として動作させることにより前記情報処理装置をコンピュータにて実現させるプログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
【発明の効果】
【0011】
本発明の一態様によれば、コストの上昇を抑えつつ、正確性の高いデータを生成することができる。
【図面の簡単な説明】
【0012】
図1】本発明の実施形態1に係る情報処理システムの構成を示すブロック図である。
図2】本発明の実施形態1に係る情報処理装置による処理の流れを示すフロー図である。
図3】本発明の実施形態1に係る情報処理装置による処理を説明するための図である。
図4】本発明の実施形態2に係る情報処理システムの構成を示すブロック図である。
図5】本発明の実施形態2に係る情報処理装置による処理の流れを示すフロー図である。
図6】本発明の実施形態2に係る情報処理装置が表示する表示情報の例を示す図である。
図7】本発明の実施形態2に係る情報処理装置が表示する表示情報の例を示す図である。
図8】本発明の実施形態2に係る情報処理装置による処理を説明するための図である。
図9】本発明の実施形態2に係る情報処理装置が生成する入力情報の例を示す図である。
図10】本発明の実施形態2に係る情報処理装置が生成する回答情報の例を示す図である。
図11】本発明の実施形態2に係る情報処理装置が生成する回答情報の例を示す図である。
図12】本発明の実施形態2に係る情報処理装置による処理の流れを示すフロー図である。
図13】本発明の実施形態2に係る情報処理装置による処理を説明するための図である。
図14】本発明の実施形態2に係る情報処理装置による処理の流れを示すフロー図である。
図15】本発明の実施形態3に係る情報処理システムの構成を示すブロック図である。
図16】本発明の実施形態4に係る情報処理システムの構成を示すブロック図である。
図17】本発明の各実施形態に係る情報処理システムのハードウェア構成を示す図である。
【発明を実施するための形態】
【0013】
〔実施形態1〕
<情報処理システム1の概要>
詳細については後述するが、本発明の一実施形態に係る情報処理システム1は、情報処理装置100と、サーバ200とを含んでいる。ここで、サーバ200は、情報処理装置100から提供される入力データ(入力情報)であるプロンプトPRから出力データ(出力情報OUT)を生成する言語モデルLMを備えている。
【0014】
一方、情報処理装置100は、概略的に言えば、
・クエリを取得し、
・1又は複数の対象チャンクと、前記クエリに含まれる第1の条件に応じた指示文とを含む入力情報を生成し、
・前記入力情報が入力された言語モデルが出力する出力情報を取得する
という構成を有している。
【0015】
情報処理装置100は、上述のように、クエリを取得し、1又は複数の対象チャンクと、前記クエリに含まれる第1の条件に応じた指示文とを含む入力情報を生成し、前記入力情報が入力された言語モデルが出力する出力情報を取得する。したがって、情報処理装置100によれば、言語モデルを好適に利用することにより、コストの上昇を抑えつつ、正確性の高いデータを生成することができる。
【0016】
<情報処理システム1の構成>
以下では、図面を参照しつつ、本発明の一実施形態に係る情報処理システム1について、詳細に説明する。図1は、情報処理システム1の構成を示すブロック図である。図1に示すように、情報処理システム1は、情報処理装置100とサーバ200とを備えている。
【0017】
(サーバ200の構成)
まず、情報処理システム1が備えるサーバ200の構成について説明する。サーバ200は、図1に示すように、制御部240、記憶部220、及び通信部230を備えている。
【0018】
(通信部230)
通信部230は、サーバ200の外部の装置と通信を行う。一例として通信部230は、情報処理システム1が備える情報処理装置100と通信を行う。通信部230は、制御部240から供給されたデータを情報処理装置100に送信したり、情報処理装置100から受信したデータを制御部240に供給したりする。なお、通信部230が情報処理装置100から受信するデータには、当該情報処理装置100によって生成された入力情報であるプロンプトPRが含まれる。また、通信部230が情報処理装置100に提供するデータには、言語モデルLMが当該プロンプトPRを参照して生成した出力情報OUTが含まれ得る。
【0019】
(記憶部220)
記憶部220には、言語モデルLMが格納されている。より具体的には、記憶部220には、当該言語モデルLMを規定する複数のパラメータが格納されている。これらのパラメータは、一例として、機械学習によって予め学習(更新)されたパラメータであるが、これは本実施形態を限定するものではない。また、言語モデルLMは、様々な分野における文書を教師データとして機械学習されたモデルであるが、言語モデルLMの詳細は本実施形態を限定するものではない。
【0020】
(制御部240)
制御部240は、上記言語モデルLMを実行することによって当該言語モデルLMによる出力結果を取得する。一例として、制御部240は、情報処理装置100から受信したプロンプトPRを、当該言語モデルLMに入力し、当該言語モデルLMが生成した出力情報OUTを取得する。また、当該出力情報OUTを、通信部230を介して情報処理装置100に提供する。
【0021】
なお、本実施形態では、サーバ200が備える各構成を、情報処理装置100とは別体の構成として例示したが、これは本実施形態を限定するものではない。例えば、サーバ200が備える制御部240又は当該制御部240における言語モデル実行部としての機能を、情報処理装置100の制御部が備える構成としてもよい。同様に、サーバ200が備える記憶部220に格納された言語モデルLMを、情報処理装置100の記憶部が格納し、当該情報処理装置100自身によって言語モデルLMを実行可能な構成としてもよい。
【0022】
(情報処理装置100の構成)
続いて、情報処理システム1が備える情報処理装置100の構成について説明する。図1に示すように、情報処理装置100は、制御部110、記憶部120、通信部130、及び入出力部140を備えている。
【0023】
なお、ここでの説明では、情報処理装置100が上述の各部を備える構成としているが、これは本実施形態を限定するものではない。一例として、通信可能に接続された複数の装置において、上記各部が、分散的に配置される構成としてもよい。
【0024】
(通信部130)
通信部130は、情報処理装置100の外部の装置と通信を行う。一例として通信部130は、サーバ200と通信を行う。通信部130は、制御部110から供給されたデータをサーバ200に送信したり、サーバ200から受信したデータを制御部110に供給したりする。なお、通信部130がサーバ200に送信するデータには、制御部110によって生成されたプロンプトPRが含まれ得る。また、通信部130がサーバ200から受信するデータには、当該プロンプトPRを参照することにより、サーバ200の言語モデルLMが生成した出力情報OUTが含まれ得る。
【0025】
(入出力部140)
入出力部140は、キーボード、マウス、表示パネル、タッチパッド、タッチパネル等の入出力装置の少なくとも何れかを備えて構成される。或いは、入出力部140を、キーボード、マウス、表示パネル、タッチパッド、タッチパネル等の入出力機器が接続される入出力インタフェースとして構成してもよい。当該構成の場合、入出力部140は、接続された入力機器から情報処理装置100に対する各種の情報の入力を受け付ける。また、入出力部140は、接続された出力機器に各種の情報を出力する。
【0026】
なお、情報処理装置100において、入出力部140は必須の構成ではない。一例として、情報処理装置100は入出力部140を備えずに、情報処理装置100と通信可能に構成された別の装置が入出力部140を備える構成としてもよい。
【0027】
(記憶部120)
記憶部120には、制御部110が参照する各種のデータ、及び制御部110によって生成された各種のデータが格納される。一例として、記憶部120には、
・文書群DG
・チャンク群CG
・ベクトル群VG
・クエリQR
・指示文IN
・対象チャンクTC
・出力情報OUT
・回答情報RI
が格納されている。ここで、文書群DGは、予め取得された複数の文書から構成される。ここで、文書の種別、言語、取得元、サイズ等は、本実施形態を限定するものではなく、任意の種別、言語、取得元、サイズ等を有する文書を用いることができる。なお、当該文書群DGの一例として、公開された無償の論文、有償の論文、特許明細書、技報、社内文書等を挙げることができる。なお、本実施形態において後述する「同義語」「類義語」との概念には、互いに異なる言語に属する「同義語」「類義語」も含まれる。
【0028】
チャンク群CGは、文書群DGに含まれる1又は複数の文書から抽出された1又は複数のチャンクから構成される。ここで、チャンクとは、文書自体、又は文書に含まれる1又は複数の構成要素のことを指す。チャンクの一例として、文書自体、文書に含まれる文章、段落、文、文節、単語、文字、数字、記号等を挙げることができるが、当該例は本実施形態を限定するものではない。
【0029】
ベクトル群VGは、チャンク群CGに含まれる1又は複数のチャンクの各々についてのベクトル(特徴量空間における特徴ベクトルとも呼ぶ)から構成される。ここで、チャンクから特徴ベクトルへの変換(特徴量空間へのチャンクの埋め込み(embedding))は、所定のアルゴリズムを用いて予め行っておくことができる。
【0030】
なお、本実施形態において、情報処理装置100がベクトル群VGを保持すること、及び当該ベクトル群VGに含まれるベクトルを用いて各種の処理を行うことは必須でない。
【0031】
なお、各実施形態の説明において、制御部110の各部が主として、「チャンク」を参照した処理を行う場合を例に挙げているが、当該例は各実施形態を限定するものではなく、予め文書が1又は複数の文書に分割されていることは各実施形態の処理において本質的な事項ではない。例えば、各実施形態に記載の各処理において、「チャンク」「対象チャンク」を、それぞれ、「文書」「対象文書」としても当該処理はそのまま成立し、そのような例もまた各実施形態に含まれる。
【0032】
クエリQRは、ユーザからの問い合わせ、要求、要望等を示すデータであり、一例として、情報処理装置100の入出力部140を介して取得される。クエリQRに含まれるデータの具体例は本実施形態を限定するものではないが、クエリQRの一例として、条件(第1の条件とも呼ぶ)COND1を示すデータ、及び当該条件に付随して入力される1又は複数の項目(ITEM1等などとも表記等)を示すデータが挙げられる。クエリQRに含まれるデータは一例としてテキストデータの形式で表現され得るが、これは本実施形態を限定するものではない。
【0033】
また、クエリQRがテキストデータの形式で表現される場合、当該テキストの言語は本実施形態を限定するものではない。また、クエリQRの言語は、上述した文書群DGに含まれる文書と異なる言語であってもよい。また、クエリQRの言語は、上述したチャンク群CGに含まれるチャンクと異なる言語であってもよい。
【0034】
プロンプトPRは、後述する第1の生成部21によって生成される情報であり、一例として、
・チャンク群CGに含まれる複数のチャンクのうち、少なくとも何れかのチャンクを対象チャンクTCとして含むと共に、
・前記クエリQRから得られる指示文INを更に含んでいる。
プロンプトPRは、言語モデルLMに入力される入力情報の一例である。
【0035】
なお、対象チャンクTC及び指示文INは、一例としてテキストデータであり、プロンプトPRもこれらのテキストデータを含んで構成されるが、これは本実施形態を限定するものではない。プロンプトPRは、テキストデータ以外にも、画像データ、グラフデータ、及び表データ等の任意の形式のデータを含む構成としてもよい。
【0036】
出力情報OUTは、プロンプトPRが入力された言語モデルLMが出力する情報であり、一例として、通信部130を介して、後述する第2の取得部12によって取得される。出力情報OUTの具体例については後述する。
【0037】
回答情報RIは、後述する回答情報生成部23によって、出力情報OUTを参照して生成される情報である。当該回答情報RIは、一例として、上述したクエリQRに対する回答を含む情報である。回答情報RIの具体例については後述する。
【0038】
(制御部110)
制御部110は、図1に示すように、第1の取得部11、第1の生成部21、第2の取得部12、及び回答情報生成部23を備えている。
【0039】
(第1の取得部11)
第1の取得部11は、クエリQRを取得する。一例として、第1の取得部11は、入出力部140を介したユーザからの入力に応じたクエリQRを取得する。取得したクエリQRは、一例として、記憶部120に格納されると共に、第1の生成部21によって参照される。クエリQRには、一例として、上述したように第1の条件COND1が含まれ得る。
【0040】
(第1の生成部21)
第1の生成部21は、1又は複数の対象チャンクTCと、前記クエリQRに含まれる第1の条件COND1に応じた指示文INとを含むプロンプトPR(入力情報)を生成する。生成されたプロンプトPRは、一例として通信部130を介して、サーバ200の言語モデルLMに提供される。
【0041】
第1の生成部21は、一例として、図1に示すように、指示文生成部211及び第1の表示用データ生成部212を備えている。ただし、第1の生成部21に関する当該構造は、あくまで一例であり、第1の生成部21は、これらの構成要素による処理を実行可能に構成されていれば、任意の構成であってよい。
【0042】
第1の生成部21が備える指示文生成部211は、クエリQRから指示文INを生成する。一例として、指示文生成部211は、クエリQRに含まれる第1の条件COND1、及び1又は複数の項目(ITEM1等)に応じた指示文INを生成する。指示文生成部211が生成する指示文の具体例については後述する。
【0043】
一方、第1の生成部21が備える第1の表示用データ生成部212は、上記プロンプトPR(入力情報)の少なくとも一部を含む表示用データを生成する。第1の表示用データ生成部212が生成した表示用データは、一例として、入出力部140が備える表示パネル又はタッチパネルを介してユーザに視覚的に提示される。
【0044】
また、第1の生成部21は、第1の表示用データ生成部212が生成した表示用データを視認したユーザによる修正指示を取得し、当該取得した修正指示に応じて、上記プロンプトPRを修正する構成としてもよい。当該構成の場合、第1の生成部21は、修正後のプロンプトPRを、サーバ200の言語モデルLMに提供する構成としてもよい。
【0045】
(第2の取得部12)
第2の取得部12は、上記プロンプトPR又は上記修正後のプロンプトPRが入力された言語モデルLMが出力する出力情報OUTを取得する。取得された出力情報OUTは、一例として、記憶部120に格納され、後述する回答情報生成部23によって参照される。出力情報OUTの具体例については後述する。
【0046】
(回答情報生成部23)
回答情報生成部23は、言語モデルLMによって出力された前記出力情報OUTを参照して回答情報RIを生成する。回答情報RIの具体例については後述する。また、回答情報生成部23は、一例として、図1に示すように、回答情報表示用データ生成部231を備えている。ただし、回答情報生成部23に関する当該構造は、あくまで一例であり、回答情報生成部23は、当該構成要素による処理を実行可能に構成されていれば、任意の構成であってよい。回答情報生成部23が備える回答情報表示用データ生成部231は、前記回答情報RIを含む表示用データを生成する。回答情報RIの表示例については後述する。
【0047】
(情報処理装置100による処理の流れ)
続いて、図2を参照して、本実施形態に係る情報処理装置100による処理の流れについて説明する。図2は、情報処理装置100による情報処理方法S100の流れを示すフロー図である。
【0048】
(ステップS101)
ステップS101において、第1の取得部11は、クエリQRを取得する。図3の上段は、本ステップにおいて、制御部110が入出力部140を介して取得するクエリQRの例を示す図である。図3に示すように、本例に係るクエリQRは、条件文(第1の条件)COND1、及び回答項目ITEM1を含んでいる。第1の取得部11は、一例として、当該条件文COND1及び回答項目ITEM1を受け付け可能に構成されているUI(User Interface)画面を介して、クエリQRを取得する。
【0049】
ここで、第1の条件COND1は、情報処理装置100を用いて、ユーザがどのような情報を取得したいのかを規定するための条件である。図3に示す例は、情報処理装置100をマテリアルインフォマティクスの分野に適用した場合の例を挙げており、第1の条件COND1として、ユーザが、「1.60×10-6 cm2/s 以下のメタノール透過率をもつ複合膜」と入力した例が示されている。また、回答項目ITEM1は、情報処理装置100による回答としてユーザが所望する項目を示している。図3に示す例では、回答項目ITEM1として、ユーザが「薄膜組成」と入力した例が示されている。
【0050】
このように、情報処理装置100をマテリアルインフォマティクスの分野に適用した場合、クエリQRには、一例として、物性名、物質名、組成名、物性値、単位、実験条件、及び実験装置の少なくとも何れかが含まれ得る。ただし、これらの条件や項目はあくまで例であり、第1の取得部11は、他の情報をクエリQRとして取得する構成としてもよく、また、情報処理装置100は任意の分野に適用可能である。
【0051】
なお、図3の上段に示したように、クエリQRが、条件文(第1の条件)COND1と回答項目ITEM1の双方を含んでいることは本実施形態において必須ではない。一例として、クエリQRが、条件文(第1の条件)COND1を含み、回答項目ITEM1を含まない構成とし、本ステップS101による処理を、以下のようにサブステップS1011~S1013によって行う構成としてもよい。
【0052】
(サブステップS1011)
クエリQRとして「1.60×10-6cm2/s以下のメタノール透過率を持つ複合膜の薄膜組成」というテキストを含むクエリが入力され、第1の取得部11が当該クエリQRを取得する。
【0053】
(サブステップS1012)
第1の取得部11は、入力されたクエリQRを解析することによって、当該クエリQRを、第1の条件COND1「1.60×10-6 cm2/s以下のメタノール透過率を持つ複合膜」と回答項目ITEM1「薄膜組成」とに分割する。これは、当該クエリQRから、第1の条件COND1「1.60×10-6 cm2/s以下のメタノール透過率を持つ複合膜」と回答項目ITEM1「薄膜組成」とを抽出(生成)すると表現してもよい。また、第1の取得部11は、上記の処理を、情報処理装置100が備える言語モデルを用いて行ってもよいし、サーバ200が備える言語モデルLMを用いて行ってもよい。なお、第1の取得部11がサブステップS1011及びS1012の処理を行う場合、以下の説明における「クエリQRに含まれる第1の条件、及び回答項目」との表現は、「クエリQRから抽出された第1の条件、及び回答項目」と読み替えるものとする。
【0054】
(ステップS102)
ステップS102において、第1の生成部21は、チャンク群CGに含まれる複数のチャンクから、対象チャンクTCを選択する。ここで、対象チャンクTCの選択の仕方は、本実施形態を限定するものではないが、一例として、チャンク群CGに含まれる複数のチャンクの各々に付されたチャンクIDの降順又は昇順に対象チャンクTCを選択すればよい。
【0055】
(ステップS103)
ステップS103において、第1の生成部21は、指示文生成部211により、クエリQRを参照して指示文INを生成する。また、第1の生成部21は、生成された指示文INと、ステップS102において選択された1又は複数の対象チャンクTCとを含むプロンプトPRを生成する。
【0056】
図3の下段には、本ステップにおいて、第1の生成部21が生成したプロンプトPRの一例が示されている。図3の下段に示すように、本ステップにおいて指示文生成部211は、クエリQRに含まれる
・条件文(第1の条件):「1.60×10-6 cm2/s 以下のメタノール透過率をもつ複合膜」
・回答項目:「薄膜組成」
を参照し、これらに応じた指示文INとして、
・『以下のテキストから「1.60×10-6 cm2/s 以下のメタノール透過率をもつ複合膜」の「薄膜組成」を抽出して、リスト形式で答えなさい。』
を生成している。
【0057】
ただし、図3の下段に示したプロンプトの例はあくまで一例であり、本実施形態を限定するものではない。第1の生成部21が生成するプロンプトPRは、条件文(第1の条件)を満たす回答項目を言語モデルLMが出力するよう指示するプロンプトであればどのような形式であってもよい。
【0058】
また、言語モデルLMによっては、プロンプトPRにおいてロールの設定が可能な場合がある。そのような場合、第1の生成部21が、当該言語モデルLMの仕様に応じて、プロンプトPRにおいてロールの設定を行ったり、プロンプトPRを複数のプロンプトに分割したうえで各プロンプトにおいてロールの設定を行ったりする構成としてもよい。
【0059】
なお、本ステップにおいて、第1の生成部21は、
・第1の表示用データ生成部212が生成した表示用データをユーザに提示し、
・当該表示用データを視認したユーザによる修正指示を取得し、
・当該取得した修正指示に応じて、上記プロンプトPRを修正する
という処理を更に行ってもよい。
【0060】
(ステップS104)
ステップS104において、第1の生成部21は、ステップS103において生成されたプロンプトPR、またはステップS103において生成されユーザ指示によって修正されたプロンプトPRを、通信部130を介してサーバ200に提供し、当該プロンプトPRを、言語モデルLMに入力する。当該プロンプトが入力された言語モデルLMは、当該プロンプトPRに応じた出力情報OUTを生成する。
【0061】
(ステップS105)
ステップS105において、第2の取得部12は、言語モデルLMが出力した出力情報OUTを取得する。取得された出力情報OUTは、一例として記憶部120に格納されると共に、回答情報生成部23によって参照される。
【0062】
(ステップS106)
ステップS106において、回答情報生成部23は、ステップS105において取得した出力情報OUTを結果リストに追加する。
【0063】
(ステップS107)
ステップS107において、回答情報生成部23は、チャンク群に含まれる複数のチャンク、又は当該複数のチャンクから抽出され、対象チャンクTCの候補として保持されている複数のチャンクのうち、未処理のチャンクがあるか否かを判定する。
【0064】
未処理のチャンクがある場合(ステップS107でYES)、ステップS102に戻り、当該未処理のチャンクから対象チャンクTCを選択し、ステップS103以降の処理を行う。一方で、未処理のチャンクがない場合(ステップS107でNO)、ステップS108に進む。
【0065】
(ステップS108)
ステップS108において、回答情報生成部23は、出力情報OUTを参照して、回答情報RIを生成する。一例として、回答情報生成部23は、
・結果リストに蓄積された出力情報OUTの少なくとも一部を参照することによって、回答情報RIを生成したり、
・結果リストに蓄積された出力情報OUTを統合し、統合後の回答情報を参照することによって、回答情報RIを生成したりする。
【0066】
このように、情報処理装置100をマテリアルインフォマティクスの分野に適用した場合、前記回答情報RIには、文献情報と、物性名、物質名、組成名、物性値、単位、実験条件、及び実験装置の少なくとも何れとが含まれ得る。
【0067】
情報処理装置100は、上述のように、クエリを取得し、1又は複数の対象チャンクと、前記クエリに含まれる第1の条件に応じた指示文とを含む入力情報を生成し、前記入力情報が入力された言語モデルが出力する出力情報を取得する。したがって、情報処理装置100によれば、言語モデルを好適に利用することにより、コストの上昇を抑えつつ、正確性の高いデータを生成することができる。
【0068】
(実施形態1の付記事項)
実施形態1に係る情報処理装置100は、任意の分野におけるデータ生成に適用することができる。上述した説明では、情報処理装置100を主としてマテリアルインフォマティクスの分野におけるデータ生成に適用した場合を挙げたがもちろんこれに限定されるものではない。
【0069】
一例として、第1の取得部11は、クエリQRとして、
・条件文COND1「70歳以上のみが居住する住宅での火災」
・回答項目ITEM1「発生日」
を含むクエリを取得し、第1の生成部21は、当該クエリQRを参照して指示文INを生成すると共に、生成された指示文INと、1又は複数の対象チャンクTCとを含むプロンプトPRを生成する構成としてもよい。ここで、当該対象チャンクTCとしては、一例として、ニュースを含むチャンク群から選択されたチャンクを用いることができる。そして、第2の取得部12は、当該プロンプトPRが入力された言語モデルLMが出力した出力情報OUTを取得し、回答情報生成部23は、出力情報OUTを参照して、回答情報RIを生成してもよい。
【0070】
一方で、マテリアルインフォマティクス及びそれに関連する分野では、ユーザに対して提供するためのデータを生成するにあたり、参照可能な論文や技報等が多数存在している。このため、コストを抑えつつ、データの正確性を担保することは容易ではないという側面がある。上述した情報処理装置100によれば、クエリを取得し、1又は複数の対象チャンクと、前記クエリに含まれる第1の条件に応じた指示文とを含む入力情報を生成し、前記入力情報が入力された言語モデルが出力する出力情報を取得する。したがって、情報処理装置100によれば、言語モデルを好適に利用することにより、マテリアルインフォマティクス及びそれに関連する分野において、コストの上昇を抑えつつ、正確性の高いデータを生成することができる。
【0071】
〔実施形態2〕
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略することがある。
【0072】
<情報処理システム1Aの概要>
詳細については後述するが、本発明の一実施形態に係る情報処理システム1Aは、情報処理装置100Aと、サーバ200とを含んでいる。ここで、サーバ200は、実施形態1と同様に、情報処理装置100Aから提供される入力データ(入力情報)であるプロンプトPRから出力データ(出力情報OUT)を生成する言語モデルLMを備えている。
【0073】
一方、情報処理装置100Aは、概略的に言えば、
・クエリを取得し、
・複数のチャンクから1又は複数の対象チャンクを抽出するために用いる条件を生成し、
・前記条件を用いて、1又は複数の対象チャンクを取得し、
・前記1又は複数の対象チャンクの少なくとも一部と、前記クエリから得られる指示文とを含む入力情報を生成し、
・前記入力情報が入力された言語モデルが出力する出力情報を取得する
という構成を有している。
【0074】
情報処理装置100Aは、上述のように、抽出条件を生成し、当該抽出条件を用いて複数のチャンクから対象チャンクを抽出し、当該対象チャンクの少なくとも一部を含む入力情報を言語モデルに入力する。したがって、情報処理装置100Aによれば、コストの上昇を抑えつつ、正確性の高いデータを生成することができる。
【0075】
<情報処理システム1Aの構成>
以下では、図面を参照しつつ、本実施形態に係る情報処理システム1Aについて、詳細に説明する。図4は、情報処理システム1Aの構成を示すブロック図である。図4に示すように、情報処理システム1Aは、情報処理装置100Aとサーバ200とを備えている。ここで、サーバ200の構成については、実施形態1について説明した構成と同様であるので説明を省略する。
【0076】
(情報処理装置100Aの構成)
図4に示すように、情報処理装置100Aは、制御部110A、記憶部120A、通信部130、及び入出力部140を備えている。ここで、通信部130及び入出力部140については、実施形態1において説明した構成と同様であるので説明を省略する。
【0077】
(記憶部120A)
記憶部120には、制御部110Aが参照する各種のデータ、及び制御部110Aによって生成された各種のデータが格納される。一例として、記憶部120Aには、
・文書群DG
・チャンク群CG
・ベクトル群VG
・クエリQR
・条件情報CI
・指示文IN
・対象チャンクTC
・出力情報OUT
・回答情報RI
が格納されている。ここで、文書群DG、チャンク群CG、及びベクトル群VGについては、実施形態1において説明したため、ここでは説明を省略する。
【0078】
クエリQRは、実施形態1と同様に、ユーザからの問い合わせ、要求、要望等を示すデータであり、一例として、情報処理装置100Aの入出力部140を介して取得される。クエリQRに含まれるデータの具体例は本実施形態を限定するものではないが、クエリQRの一例として、後述する表示画面DIS0を介して入力される条件(第1の条件とも呼ぶ)COND1を示すデータ、及び当該条件に付随して入力される1又は複数の項目(ITEM1、ITEM2等)を示すデータが挙げられる。クエリQRに含まれるデータは一例としてテキストデータの形式で表現され得るが、これは本実施形態を限定するものではない。
【0079】
条件情報CIは、複数のチャンクから1又は複数の対象チャンクTCを抽出するために用いる条件(第2の条件とも呼ぶ)COND2を含む情報である。当該第2の条件COND2は、一例として、後述する第2の生成部22によって生成され、後述する第3の取得部13によって参照される。
【0080】
第2の条件COND2の具体的な構成は本実施形態を限定するものではないが、一例として、1又は複数のキーワードによって構成される。第2の条件COND2のより具体的な例については後述する。
【0081】
プロンプトPRは、実施形態1と同様に、第1の生成部21によって生成される情報であり、一例として、前記1又は複数の対象チャンクTCの少なくとも一部と、前記クエリQRから得られる指示文INとを含んでいる。プロンプトPRは、言語モデルLMに入力される入力情報の一例である。
【0082】
なお、対象チャンクTC及び指示文INは、実施形態1と同様に、一例としてテキストデータであり、プロンプトPRもこれらのテキストデータを含んで構成されるが、これは本実施形態を限定するものではない。プロンプトPRは、テキストデータ以外にも、画像データ、グラフデータ、及び表データ等の任意の形式のデータを含む構成としてもよい。
【0083】
出力情報OUTは、プロンプトPRが入力された言語モデルLMが出力する情報であり、一例として、実施形態1と同様に、通信部130を介して、第2の取得部12によって取得される。出力情報OUTの具体例については後述する。
【0084】
回答情報RIは、実施形態1と同様に、回答情報生成部23によって、出力情報OUTを参照して生成される情報である。当該回答情報RIは、実施形態1と同様に、一例として、クエリQRに対する回答を含む情報である。回答情報RIの具体例については後述する。
【0085】
(制御部110A)
制御部110Aは、図4に示すように、第1の取得部11、第1の生成部21、第2の取得部12、第2の生成部22、第3の取得部13、及び回答情報生成部23を備えている。ここで、第1の取得部11、第1の生成部21、及び第2の取得部12については、実施形態1において説明した構成と同様であるのでここでは説明を省略する。
【0086】
(第2の生成部22)
第2の生成部22は、図4に示すように、一例として、条件生成部221、条件修正部222、及び第2の表示用データ生成部223を備えている。ただし、第2の生成部22に関する当該構造は、あくまで一例であり、第2の生成部22は、これらの構成要素による処理を実行可能に構成されていれば、任意の構成であってよい。
【0087】
第2の生成部22が備える条件生成部221は、チャンク群CGに含まれる複数のチャンクから1又は複数の対象チャンクTCを抽出するために用いる条件(第2の条件COND2)を生成する。
【0088】
一例として、条件生成部221は、クエリQRに含まれる第1の条件COND1を参照して、上記第2の条件COND2を生成する。より具体的な例として、条件生成部221は、クエリQRに含まれる第1の条件COND1に応じたものとなるように、上記第2の条件COND2を生成する。
【0089】
第2の生成部22が備える第2の表示用データ生成部223は、前記第2の条件COND2の少なくとも一部を含む表示用データを生成する。第2の表示用データ生成部223が生成した表示用データは、一例として、入出力部140が備える表示パネル又はタッチパネルを介してユーザに視覚的に提示される。
【0090】
第2の生成部22が備える条件修正部222は、ユーザからの指示に応じて、上記第2の条件COND2を修正する。一例として、条件修正部222は、第2の表示用データ生成部223が生成した表示用データを視認したユーザによる修正指示を取得し、当該取得した修正指示に応じて、上記第2の条件COND2を修正する。条件修正部222がユーザからの修正指示に応じて、上記第2の条件COND2を修正することにより、上記第2の条件COND2を、ユーザにとってより好ましいものとすることができる。
【0091】
なお、第2の生成部22は、条件修正部222及び第2の表示用データ生成部223を備えない構成としてもよく、そのような構成も本実施形態に含まれる。
【0092】
(第3の取得部13)
第3の取得部13は、条件生成部221が生成した第2の条件COND2、又は、条件生成部221によって生成され条件修正部222によって修正された第2の条件COND2を用いて、チャンク群CGに含まれる複数のチャンクから、1又は複数の対象チャンクTCを取得する。
【0093】
一例として、第3の取得部13は、チャンク群CGに含まれる複数のチャンクに対して、第2の条件COND2を用いた抽出処理を適用することによって、1又は複数の対象チャンクTCを取得する。ここで、当該抽出処理は、
・第2の条件COND2に含まれるキーワードを用いたワードマッチング
・第2の条件COND2に対応する特徴ベクトルと、各チャンクの特徴ベクトルとを参照した近傍ベクトル探索
等の処理を含んでもよい。
【0094】
また、第3の取得部13は、上記抽出処理として、チャンク群CGに含まれる複数のチャンクのうち、前記第2の条件COND2に整合する1又は複数のチャンクを1又は複数の対象チャンクTCとして取得する構成としてもよい。ここで、「第2の条件COND2に整合するチャンク」とは、一例として、当該第2の条件COND2に含まれる1又は複数のキーワード、又は、当該1又は複数のキーワードの同義語又は類義語を含むチャンクのことを指す(以下同様)。ただし、当該例は本実施形態を限定するものではない。
【0095】
上記の構成によれば、第2の条件COND2に整合するチャンクを対象チャンクとして取得するので、第3の取得部13は、チャンクの絞り込みを好適に行うことができる。したがって、チャンクを参照した処理のコストを好適に低減することができる。
【0096】
また、他の例として、第3の取得部13は、
・チャンク群CGに含まれる複数のチャンクのうち、前記第2の条件COND2に整合する1又は複数のチャンクを取得し、
・前記第2の条件COND2に整合する1又は複数のチャンクに対して拡大処理を適用することによって1又は複数の対象チャンクTCを取得する
という構成としてもよい。
【0097】
ここで、「拡大処理」とは、一例として、対象チャンクTCに、
・前記第2の条件COND2に整合する1又は複数のチャンクCK
に加えて、
・当該チャンクCKに対して文脈上前及び後ろの少なくとも何れかに位置するチャンク
を含める処理のことを指す。
【0098】
より具体的な例として、「拡大処理」には、
・前記第2の条件COND2に整合する1又は複数のチャンクCK1と、当該チャンクCK1に対して文脈上前又は後ろに位置するチャンクCK2との類似度を算出し、
・算出した類似度が所定の閾値以上であれば、前記チャンクCK1に加えて、当該チャンクCK2も対象チャンクTCに含める
という処理が含まれ得る。また、「拡大処理」として、これらの処理を複数のチャンクCK1に対して繰り返し行ってもよい。例えば、「拡大処理」として、
・上記チャンクCK2を対象チャンクTCに加えたうえで、上記チャンクCK2に対して文脈上前又は後ろに位置するチャンクCK3と、チャンクCK1又はチャンクCK2との類似度を算出し、
・算出した類似度が所定の閾値以上であれば、当該チャンクCK3も対象チャンクTCに含め、
・更に、当該チャンクCK3と、その前後のチャンクとの類似度に応じて、当該前後のチャンクを対象チャンクに加える
という処理を行ってもよい。ここで、チャンクの類似度の算出処理においてチャンクの各々についての特徴ベクトルの類似度を用いる構成としてもよい。
【0099】
また、他の例として、「拡大処理」には、
・前記第2の条件COND2に整合する1又は複数のチャンクCKが、照応詞を含んでいるかを判定し、
・照応詞を含んでいる場合には、当該照応詞が指し示す先を判定する処理を実行し、
・当該指し示す先が判定できた場合には、当該指し示す先を含むチャンクを対象チャンクTCに含め、
・当該指し示す先が判定できなかった場合には、当該チャンクCKに対して文脈上前に位置するチャンクを対象チャンクTCに加える
という処理を含めてもよい。ここで、上述の「照応詞が指し示す先を判定する処理」は、言語モデルLMを用いた処理としてもよいし、そうでなくてもよい。
【0100】
また、他の例として、「拡大処理」には、
・前記第2の条件COND2に整合する1又は複数のチャンクCKに対して文脈上前に位置するN個までのチャンク、及び当該1又は複数のチャンクCKに対して文脈上後に位置するN個までのチャンクを対象チャンクTCに含める構成としてもよい。
【0101】
以上のように、第3の取得部13が拡大処理を適用することによって、好適な分量の対象チャンクTCを用意することができるので、チャンクを参照して生成されるデータの正確性を向上させることができる。
【0102】
(情報処理装置100Aによる処理の流れ)
続いて、図5を参照して、本実施形態に係る情報処理装置100Aによる処理の流れについて説明する。図5は、情報処理装置100Aによる情報処理方法S200の流れを示すフロー図である。
【0103】
(ステップS101)
ステップS101において、第1の取得部11は、クエリQRを取得する。図6は、本ステップにおいて、制御部110が入出力部140に表示する表示画面の例である表示画面DIS0を示す図である。図6に示すように、表示画面DIS0は、第1の条件COND1、回答項目ITEM1、及び付帯項目ITEM2を受け付け可能に構成されているUI(User Interface)画面である。第1の取得部11は、表示画面DIS0を介して受け付けた第1の条件COND1、回答項目ITEM1、及び付帯項目ITEM2を、クエリQRとして取得する。
【0104】
ここで、第1の条件COND1は、情報処理装置100Aを用いて、ユーザがどのような情報を取得したいのかを規定するための条件である。図6に示す例は、情報処理装置100Aをマテリアルインフォマティクスの分野に適用した場合の例を挙げており、第1の条件COND1として、ユーザが、「ポリ乳酸の硬度を高める」と入力した例が示されている。また、回答項目ITEM1は、情報処理装置100Aによる回答としてユーザが所望する項目を示している。図6に示す例では、回答項目ITEM1として、ユーザが「フィラー」と入力した例が示されている。また、付帯項目ITEM2は、情報処理装置100Aによる回答としてユーザが付帯的に取得したい項目を示している。図6に示す例では、付帯項目ITEM2として、ユーザが「高度、重量比」と入力した例が示されている。
【0105】
このように、情報処理装置100Aをマテリアルインフォマティクスの分野に適用した場合、クエリQRには、一例として、物性名、物質名、組成名、物性値、単位、実験条件、及び実験装置の少なくとも何れかが含まれ得る。ただし、これらの条件や項目はあくまで例であり、第1の取得部11は、他の情報をクエリQRとして取得する構成としてもよく、また、情報処理装置100Aは任意の分野に適用可能である。
【0106】
また、図6に示すように、表示画面DIS0は、当該クエリQRを用いた処理にかかる費用の推定値を表示する領域(図6におけるCOST1)を含んでいてもよい。また、図6に示すように、表示画面DIS0は、
・対象を指定するための「対象指定」ボタンB1
・抽出を開始するための「抽出開始」ボタンB2
・抽出された文献等のダウンロードを行うための「ダウンロード」ボタンB3
・抽出された文献等のスコアリングを行うための「スコアリング」ボタンB4
の少なくとも一部を含む構成としてもよい。
【0107】
(ステップS202~S203)
続いて、ステップS202において、第2の生成部22は、クエリQRに含まれる第1の条件COND1を参照して、第2の条件COND2を生成する。そして、ステップS203において、第2の生成部22は、入出力部140を介して、第2の条件COND2をユーザに提示する。
【0108】
図7は、ステップS202において生成され、ステップS203においてユーザに提示される第2の条件COND2を含む表示画面DIS1を示す図である。当該表示画面DIS1は、第2の表示用データ生成部223が生成した表示用データの一例である。当該表示用データを提示することにより、ユーザは、第2の条件COND2の内容を容易に把握することができる。
【0109】
図7に示すように、第2の条件COND2は、対象であるチャンク群CGに含まれる複数のチャンクを絞り込むための1又は複数のキーワードを含んで構成されている。例えば、図7に示す例では、第2の条件COND2には、当該キーワードとして、「ポリ乳酸」「硬度」が含まれている。ここで、これらのキーワードは、第2の生成部22が、クエリQRに含まれる第1の条件及び1又は複数の項目を参照して生成したものである。
【0110】
例えば、キーワード1「ポリ乳酸」は、クエリQRに含まれる「樹脂」の同義語又は類義語として、第2の生成部22によって生成(取得)されたキーワードである。また、キーワード2「硬度」は、クエリQRに含まれる「硬度」の同義語又は類義語として、第2の生成部22によって生成(取得)されたキーワードである。
【0111】
また、図7に示すように、第2の条件COND2は、各キーワードを「AND」検索するのか「OR」検索するのかを示す情報(図7の表示画面DIS1における「AND」「OR」に対応)を含む構成としてもよい。
【0112】
なお、上述したキーワードの生成(取得)処理は、言語モデルLMを用いた処理を含んでもよい。例えば、第2の生成部22は、クエリQRに含まれる各情報を漏れなく検索するための1又は複数のキーワードを言語モデルLMに問い合わせ、当該言語モデルLMからの回答を参照して、第2の条件COND2を生成してもよい。より具体的な例として、第2の生成部22は、ユーザにより設定可能な任意の自然数N(例えばN=3)を用いた問い合わせプロンプトとして、
・『「ポリ乳酸の硬度を高める」ための情報を検索するためのキーワードとして適切はキーワードをN個回答せよ』
のような問い合わせプロンプトを言語モデルLMに入力し、当該言語モデルLMが出力したキーワード「ポリ乳酸」「硬度」を含む第2の条件COND2を出力する構成としてもよい。
【0113】
或いは、第2の生成部22は、
・予め複数のエンティティタイプを管理しておき、
・クエリQRに含まれる第1の条件COND1の中に、当該複数のエンティティタイプの少なくとも何れかに対応するエンティティが存在するか否かを判定し、
・存在すると判定した場合には、当該エンティティを、第2の条件COND2にキーワードとして含める
という処理を行ってもよい。ここで、エンティティタイプとしては、例えば、物質名、物性名、及び単位などを挙げることができるが、これは本実施形態を限定するものではない。また、上記の処理の少なくとも一部を、言語モデルLMを用いて行ってもよい。
【0114】
また、第2の生成部22は、生成(取得)したキーワードの同義語を、第2の条件COND2にキーワードとして更に追加するという構成としてもよい。当該構成の場合、当該追加されるキーワードを「OR」条件による検索キーワードとして第2の条件COND2に含める構成としてもよい。
【0115】
(ステップS204)
ステップS204において、第2の生成部22は、ユーザからの入力を受け付け、当該入力に応じて、第2の条件COND2を修正する。図7に示す例では、第2の生成部22は、キーワード4をユーザから受け付け、受け付けたキーワードを含むよう、第2の条件COND2を修正する例が示されている。
【0116】
なお、第2の生成部22が、条件修正部222及び第2の表示用データ生成部223を備えない構成の場合、上述したステップS203~ステップS204における、第2の条件COND2をユーザに提示する処理、及びユーザからの入力に応じて、第2の条件COND2を修正する処理は省略される。
【0117】
(ステップS205)
ステップS205において、第3の取得部13は、ステップS202において第2の生成部22が生成した第2の条件COND2、又はステップS202において第2の生成部22が生成し、ステップS204において第2の生成部22が修正した第2の条件COND2を用いて、チャンク群CGに含まれる複数のチャンクから、1又は複数の対象チャンクTCを取得する。一例として、第3の取得部13は、チャンク群CGに含まれる複数のチャンクのうち、前記第2の条件COND2に整合する1又は複数のチャンクを前記1又は複数の対象チャンクTCとして取得する。
【0118】
図8は、本ステップにおける第3の取得部13による処理を模式的に示す図である。図8に示す例では、チャンク群CGは、複数の論文に含まれる構成要素をチャンクとして含んでいる。より具体的には、図8に示すチャンク群CGは、論文1~3のそれぞれにおける「実験結果の説明」の記載を、チャンクC1~C3として含んでいる。
【0119】
本ステップにおいて、第3の取得部13は、上述した第2の条件COND2に含まれるキーワードによる絞り込みを行うことによって、チャンクC1を除外する一方で、チャンクC2及びC3を抽出する。本例では、チャンクC1は、第2の条件COND2に含まれるキーワードに該当する文言を含んでいないため、第3の取得部13によって除外される。一方、チャンクC2及びC3は、第2の条件COND2に含まれるキーワードに該当する文言を含んでいるため第3の取得部13によって抽出される。このようにして抽出されたチャンクC2及びチャンクC3は、対象チャンクTC2及び対象チャンクTC3として、対象チャンクTC又は対象チャンク群TCG1を構成する。
【0120】
(ステップS206)
ステップS206において、第3の取得部13は、ステップS205において取得した対象チャンクTCを拡大する。一例として、第3の取得部13は、
・ステップS205において取得した1又は複数のチャンクであって、第2の条件COND2に整合する1又は複数のチャンクCK(図8におけるチャンクC2及びC3)
に加え、
・当該チャンクCK(図8におけるチャンクC2及びC3)に対して文脈上前及び後ろの少なくとも何れかに位置するチャンク
を、対象チャンクTCに含める。
【0121】
図8に示す例では、第3の取得部13は、論文2に関し、チャンクC2に対して文脈上前に位置する「実験装置の説明」の記載、及び文脈上後に位置する「結論」の記載を対象チャンクTCに含めている。また、図8に示す例では、第3の取得部13は、更に、論文3に関し、チャンクC3に対して文脈上前に位置する「実験装置の説明」の記載、及び文脈上後に位置する「結論」の記載を対象チャンクTCに含めている。図8では、チャンクC2を拡大して得られる拡大後の対象チャンクをEC2又はTC2’と表記し、チャンクC3を拡大して得られる拡大後の対象チャンクをEC3又はTC3’と表記している。ただしこれらの表記法は本実施形態を限定するものではない。
【0122】
また、第3の取得部13は、照応詞を参照してチャンクの拡大処理を行ってもよい。例えば、対象チャンク群TCG1として得られたチャンクC2に、「前述のサンプルの強度は、・・・」という記述があったとする。そして、当該チャンクC2の前に位置するチャンクC2aに「サンプルでは〇〇を重量比△%で加えている」という記述があるとする。この場合、第3の取得部13は、「前述のサンプル」と「サンプルでは」とが照応関係にあることを特定し、対象チャンクC2を、上記チャンクC2aを含むように拡大してもよい。換言すれば、第3の取得部は、対象チャンクに含まれる文言と照応関係にある文言を含む他のチャンクを含むよう、当該対象チャンクを拡大してもよい。
【0123】
なお、本ステップにおいて第3の取得部13が実行する「拡大処理」の具体的内容については、すでに詳細な例を上述したためここでは説明を省略する。なお、本ステップは、本実施形態を限定するものではなく、本ステップを含まない処理の流れも本実施形態に含まれる。
【0124】
(ステップS102)
続いて、ステップS102において、第1の生成部21は、ステップS205において取得された1又は複数の対象チャンクTC、及びステップS206において拡大された1又は複数の対象チャンクTC(これらの対象チャンクを対象チャンクの候補と呼ぶこともある)の少なくとも何れかから、後述するステップS103においてプロンプトPRに含めるべき対象チャンクTCを選択する。なお、本ステップにおいて、1又は複数の対象チャンクの候補の全てを対象チャンクTCとして選択する構成としてもよい。
【0125】
(ステップS103)
ステップS103において、第1の生成部21は、クエリQRを参照して指示文INを生成すると共に、
・当該指示文INと、
・ステップS205において取得した対象チャンクTC又はステップS206において拡大された拡大後のチャンクECのうち、ステップS102において選択さえた対象チャンクTCと
を含むプロンプトPRを生成する。
【0126】
図9は、本ステップにおいて第1の生成部21が生成したプロンプトPRの一例であるPR1を示す図である。図9に示すプロンプトPR1は、第1の表示用データ生成部212が生成する表示用データ(表示画面DIS2)の一例でもある。
【0127】
図9に示すように、プロンプトPR1は、指示文INの一例として、
『以下の検索対象から、
・「ポリ乳酸の硬度を高める」という性質を有する「フィラー」
・当該「フィラー」の「硬度」及び「重量比」
を抽出してください。
また、抽出元の検索対象のチャンクIDを出力してください。
抽出した結果は、区切り文字として「|」を用いた形式で回答して下さい。』
との指示文IN1を含んでいる。当該指示文IN1は、
・第1の条件:「ポリ乳酸の硬度を高める」
・回答項目:「フィラー」
・付帯項目:「硬度、重量比」
を含むクエリQRを参照して、第1の生成部21が生成した指示文である。
【0128】
より具体的には、第1の生成部21は、クエリQRに含まれている第1の条件「ポリ乳酸の硬度を高める」と回答項目「フィラー」とを参照して、指示文IN1における指示情報である
・「ポリ乳酸の硬度を高める」という性質を有する「フィラー」を抽出する旨の指示
を生成する。また、第1の生成部21は、クエリQRに含まれている回答項目「フィラー」と付帯項目「硬度、重量比」とを参照して、指示文IN1における指示情報である
・当該「フィラー」の「硬度」及び「重量比」を抽出する旨の指示
を生成する。
【0129】
なお、第1の生成部21が生成した指示文IN1における
・「抽出元の検索対象のチャンクIDを出力してください。」
との指示情報は、「フィラー」「硬度」「重量比」が、何れのチャンクから抽出されたものかを制御部110Aが特定することができるよう、指示文IN1に含められている。制御部110Aは、一例として、当該チャンクIDを、当該対象チャンクの抽出元である文献IDと関連付けて管理しておくことにより、「フィラー」「硬度」「重量比」が、何れの文献から抽出されたものであるかを特定することができる。
【0130】
また、第1の生成部21が生成した指示文IN1における
・「抽出した結果は、区切り文字として「|」を用いた形式で回答して下さい。」
との指示情報は、言語モデルLMによる出力情報が、ユーザが指定する回答形式に沿ったものとなるよう、第1の生成部21によって指示文IN1に含められた指示情報である。当該指示情報は、ユーザが所望する回答形式となるよう第1の生成部21によって予め定めておくことができる。
【0131】
また、図9に示すように、プロンプトPR1は、上記指示文IN1において言及されている「検索対象」として、ステップS206において拡大された対象チャンクEC2(TC2’)及び対象チャンクEC3(TC3’)を含んでいる。プロンプトPR1が、検索対象として、これらの対象チャンクを含んでいるため、当該プロンプトPR1が入力された言語モデルLMは、これらの対象チャンクから、上記指示文IN1に従って、
・「ポリ乳酸の硬度を高める」という性質を有する「フィラー」
・当該「フィラー」の「硬度」及び「重量比」
を抽出することになる。
【0132】
なお、本ステップにおいて、第1の生成部21が備える第1の表示用データ生成部212は、プロンプトPR1を表示画面DIS2として入出力部140が備える表示パネル又はタッチパネルを介してユーザに提示してもよい。当該構成によれば、生成されたプロンプトPRを、言語モデルLMに入力する前に、ユーザが容易に確認することができる。
【0133】
また、本ステップにおいて、第1の生成部21は、当該表示画面DIS2を視認したユーザからの修正指示を受け付け、当該修正指示に基づき、プロンプトPR1を修正してもよい。当該構成によれば、プロンプトPRを、ユーザにとってより好ましいものとすることができる。
【0134】
なお、図9に示したプロンプトの例はあくまで一例であり、本実施形態を限定するものではない。第1の生成部21が生成するプロンプトPRは、クエリQRに含まれている第1の条件と回答項目とを参照して生成された指示情報が示す指示への回答を言語モデルLMが出力するよう指示するプロンプトであればどのような形式であってもよい。
【0135】
また、言語モデルLMによっては、プロンプトPRにおいてロールの設定が可能な場合がある。そのような場合、第1の生成部21が、当該言語モデルLMの仕様に応じて、プロンプトPRにおいてロールの設定を行ったり、プロンプトPRを複数のプロンプトに分割したうえで各プロンプトにおいてロールの設定を行ったりする構成としてもよい。
【0136】
(ステップS104)
ステップS104において、第1の生成部21は、ステップS103において生成されたプロンプトPR、またはステップS103において生成されユーザ指示によって修正されたプロンプトPRを、通信部130を介してサーバ200に提供し、当該プロンプトPRを、言語モデルLMに入力する。当該プロンプトが入力された言語モデルLMは、当該プロンプトPRに応じた出力情報OUTを生成する。
【0137】
(ステップS105)
ステップS105において、第2の取得部12は、言語モデルLMが出力した出力情報OUTを取得する。取得された出力情報OUTは、一例として記憶部120Aに格納されると共に、回答情報生成部23によって参照される。
【0138】
(ステップS106)
ステップS106において、回答情報生成部23は、ステップS105において取得した出力情報OUTを結果リストに追加する。
【0139】
(ステップS107)
ステップS107において、回答情報生成部23は、チャンク群に含まれる複数のチャンク、又は当該複数のチャンクから抽出され、対象チャンクTCの候補として保持されている複数のチャンクのうち、未処理のチャンクがあるか否かを判定する。
【0140】
未処理のチャンクがある場合(ステップS107でYES)、ステップS102に戻り、当該未処理のチャンクから対象チャンクTCを選択し、ステップS103以降の処理を行う。一方で、未処理のチャンクがない場合(ステップS107でNO)、ステップS108に進む。
【0141】
(ステップS108)
ステップS108において、回答情報生成部23は、出力情報OUTを参照して、回答情報RIを生成する。一例として、回答情報生成部23は、
・結果リストに蓄積された出力情報OUTの少なくとも一部を参照することによって、回答情報RIを生成したり、
・結果リストに蓄積された出力情報OUTを統合し、統合後の回答情報を参照することによって、回答情報RIを生成したりする。
【0142】
図10は、本ステップにおいて、回答情報生成部23が生成した回答情報RIを含む表示用データ(表示画面DIS3)を示す図である。当該表示用データは、一例として、回答情報表示用データ生成部231によって生成される。図10に示すように、回答情報RIは、「フィラー」「硬度」「重量比」及び「文献情報」を含んで構成されている。ここで、回答情報RIに含まれる「フィラー」「硬度」「重量比」は、言語モデルLMによる出力情報OUTから、回答情報生成部23によって抽出されたものである。
【0143】
また、回答情報RIにおける「文献情報」は、「フィラー」「硬度」「重量比」の抽出元である文献の情報を示している。回答情報生成部23は、出力情報OUTに含まれるチャンクIDに関連付けられた文献IDを特定することによって、当該「文献情報」を特定することができる。
【0144】
このように、情報処理装置100Aをマテリアルインフォマティクスの分野に適用した場合、前記回答情報RIには、文献情報と、物性名、物質名、組成名、物性値、単位、実験条件、及び実験装置の少なくとも何れとが含まれ得る。
【0145】
また、回答情報生成部23が生成する回答情報RIには、実際に使用した費用を表示する領域(図10におけるCOST2)を含んでいてもよい。また、図10に示すように、表示画面DIS3には「ダウンロード」ボタンB3が含まれており、ユーザが当該ボタンを押下することによって、回答情報生成部23は、回答情報RIにおいて特定されている文献のダウンロードを行う。
【0146】
また、回答情報生成部23は、図10に示す「スコアリング」ボタンの押下に応じて、回答情報RIに含まれる各情報のスコアリングを行う構成としてもよい。一例として、回答情報生成部23は、そのようなスコアリング処理として、
・クエリQRに含まれる1又は複数の項目(本例の場合、回答項目、付帯項目)の少なくとも一部に関し、
第2の取得部12が取得した出力情報OUT又は回答情報生成部23が生成した回答情報RIに含まれる1又は複数の要素の少なくとも一部に対するスコアリングを行う
という処理を行う構成としてもよい。ここで、上記「1又は複数の要素」とは、一例として、上記「1又は複数の項目」に対応する要素や、回答情報に含まれる文献情報等のことを指す。
【0147】
図11は、図10に示す「スコアリング」ボタンの押下に応じて、回答情報生成部23が生成した、スコアリング後の表示画面DIS4を示している。なお、回答情報生成部23は、前記「スコアリング」ボタンの押下に依らずにスコアリング処理を実行し、図11に示した表示画面DIS4を生成する構成としてもよい。また、表示画面DIS4に示した各要素を、図10に示した出力情報OUTに代えて表示する構成としてもよい。
【0148】
図11に示す例では、一例として、文献における登場回数を用いて「フィラー」に対するスコアリングがなされると共に、スコアの高い順に「フィラー」が表示されている。このようなスコアリングを行うことによって、ユーザは重要性又は信頼性の高い情報を容易に識別することができる。
【0149】
以上説明したように、本実施形態に係る情報処理装置100Aでは、抽出条件を生成し、当該抽出条件を用いて複数のチャンクから対象チャンクを抽出し、当該対象チャンクの少なくとも一部を含む入力情報を言語モデルに入力する。したがって、情報処理装置100Aによれば、コストの上昇を抑えつつ、正確性の高いデータを生成することができる。
【0150】
(実施形態2の付記事項1)
上述したように、複数の対象チャンクTCが存在する場合、情報処理装置100Aは、プロンプトPRに含める対象チャンクを変更しつつ、上述したステップS102~ステップS106の処理を複数回行ってもよい。ここで、情報処理装置100Aは、一例として、言語モデルLMの仕様を満たすよう、プロンプトPRに含める対象チャンクの長さを調整しつつ、上述したステップS102~ステップS106の処理を複数回行ってもよい。一例として、対象チャンクTCとして、対象チャンクTC01~TC08という8個のチャンクが存在する場合、情報処理装置100Aの制御部110Aは、
・対象チャンクTC01~TC04の4つの対象チャンクと、上述した指示文INとを含むプロンプトPR01を生成し、当該プロンプトPRに基づき言語モデルが出力した出力情報OUT01を取得し、
・対象チャンクTC05~TC08の4つの対象チャンクと、上述した指示文INとを含むプロンプトPR02を生成し、当該プロンプトPR02に基づき言語モデルが出力した出力情報OUT02を取得する
という構成としてもよい。
【0151】
上記構成の場合、ステップS108において、回答情報生成部23は、まず、出力情報OUT01~OUT02を統合し、統合後の出力情報を参照して、回答情報RIを生成する構成とすればよい。また、当該統合処理の少なくとも一部を、言語モデルLMを用いて行ってもよい。
【0152】
このように、第1の生成部21は、
前記1又は複数の対象チャンクTCの第1の部分と、前記クエリQRから得られる指示文INとを含む第1の入力情報(プロンプト01)と、
前記1又は複数の対象チャンクTCの第2の部分と、前記クエリQRから得られる指示文INとを含む第2の入力情報(プロンプト02)と
を生成し、
前記第2の取得部12は、
前記第1の入力情報(プロンプト01)が入力された前記言語モデルLMが出力する第1の出力情報(OUT01)と、
前記第2の入力情報(プロンプト02)が入力された前記言語モデルLMが出力する第2の出力情報(OUT02)とを取得し、
前記回答情報生成部23は、
前記第1の出力情報(OUT01)の少なくとも一部と前記第2の出力情報(OUT02)の少なくとも一部とを統合することによって前記回答情報RIを生成する
という構成としてもよい。
【0153】
上記の構成によれば、多数の対象チャンクが存在する場合であっても、一部の対象チャンクのみを含むプロンプトを繰り返し入力することにより、当該多数の対象チャンク全体に関する言語モデルLMの出力を取得することができる。このため、言語モデルLMに対して過度な負荷をかけることなく、又は当該言語モデルLMの仕様に沿った態様により、プロンプトPRの入力及び出力情報OUTの取得を好適に行うことができる。
【0154】
なお、実施形態2では、1つのプロンプトPRに複数のチャンクが含まれる例を挙げたが、これは実施形態2及び関連する記載を限定するものではない。1つのプロンプトPRに含めるチャンクの数を1つのみとする構成も本明細書に記載の内容に含まれる。より具体的には、
・第1の生成部21は、1つのプロンプトPRに含める対象チャンクの数が1つのみとなるよう構成され、
・当該プロンプトPRは上述のチャンクIDを含まない構成とする一方で、制御部110Aは、当該対象チャンクを当該対象チャンクの抽出元である文献IDと関連付けて管理し、
・回答情報生成部23は、上記文献IDによって特定される文献情報を回答情報RIに含める
という構成としてもよい。
【0155】
(実施形態2の付記事項2)
第2の生成部22による第2の条件COND2の生成処理は、上述した例に限定されない。以下では、第2の生成部22による第2の条件COND2の生成処理の具体例として、言語モデルLMを利用した処理について説明する。
【0156】
図12は、第2の生成部22による第2の条件COND2の生成処理の流れの例を示すフロー図である。
【0157】
(ステップS301)
ステップS301において、第2の生成部22は、未処理の語句クラスがあるか否かを判定する。ここで、当該語句クラスとは、一例として、抽出又は絞り込みの対象となるカテゴリのことを指す。未処理の語句クラスがある場合(ステップS301でYES)には、ステップS302に進み、そうでない場合(ステップS301でNO)には、処理を終了する。
【0158】
(ステップS302)
ステップS302において、第2の生成部22は、未処理の語句クラスのうち、何れか1つの語句クラスを選択して、処理対象の語句クラスに設定する。図13の上段は、上述した語句クラスの例として、「物性名」及び「単位」を含む語句クラスWCを、条件文及び回答項目を含むクエリQRと共に示す図である。図13の上段に示す例は、一例として、入出力部140を介してユーザが視認可能に提示され得るが、これは本実施形態を限定するものではない。なお、第2の生成部22は、ユーザによる各語句クラスの選択の頻度を蓄積する構成とし、選択頻度が相対的に低い語句クラスを、ユーザへの提示対象の語句クラスから排除する構成としてもよい。
【0159】
本ステップにおいて、第2の生成部22は、語句クラス「物性名」及び「単位」のうち、未処理の語句クラスを処理対象の語句クラスに設定する。
【0160】
(ステップS303)
ステップS303において、第2の生成部22は、クエリQRに含まれる条件文及び回答項目から、処理対象の語句クラスに属する語句を抽出するためのプロンプトを生成する。図13の下段左側には、「物性名」が処理対象の語句クラスとして選択された場合に第2の生成部22が生成するプロンプトであるプロンプト1(PR01)が示されている。また、図13の下段右側には、「単位」が処理対象の語句クラスとして選択された場合に第2の生成部22が生成するプロンプトであるプロンプト2(PR02)が示されている。
【0161】
なお、図13の下段に示したプロンプト1及びプロンプト2はあくまで一例であり本実施形態を限定するものではない。第2の生成部22が生成するプロンプトは、クエリQRに含まれる条件文及び回答項目から、処理対象の語句クラスに属する語句を抽出するためのプロンプトであればどのような形式であってもよい。
【0162】
(ステップS304)
ステップS304において、第2の生成部22は、ステップS303で生成したプロンプトを言語モデルLMに入力し、当該言語モデルLMが出力する出力情報を取得する。図13の下段左側には、プロンプト1(PR01)が入力された言語モデルLMが出力した出力情報である回答1(R01)が示されている。より具体的には、回答1として、語句クラス「物性名」に属する語句であって、クエリQRに含まれる条件文及び回答項目から抽出された語句である「メタノール透過率」が示されている。
【0163】
一方で、図13の下段右側には、プロンプト2(PR02)が入力された言語モデルLMが出力した出力情報である回答2(R02)が示されている。より具体的には、回答2として、語句クラス「単位」に属する語句であって、クエリQRに含まれる条件文及び回答項目から抽出された語句である「cm2/s」が示されている。
【0164】
(ステップS305)
ステップS305において、第2の生成部22は、言語モデルLMの出力情報に含まれる語句(回答)を、「AND」によって絞り込み条件(第2の条件)に加える。図13の最下段には、本ステップにおいて生成された絞り込み条件(第2の条件)COND2が示されている。図13の最下段に示すように、絞り込み条件(第2の条件)COND2は、プロンプト1に対する言語モデルLMからの回答1「メタノール透過率」とプロンプト2に対する言語モデルLMからの回答2「cm2/s」とを「AND」を用いて含んでいる。
【0165】
なお、本ステップでは、第2の生成部22は、クエリQRに含まれる条件文に含まれる各語句の同義語を、絞り込み条件(第2の条件)COND2に、「OR」で更に含める構成としてもよい。
【0166】
第2の生成部22は、上述の処理を行うことによって第2の条件COND2を好適に生成することができる。なお、第2の生成部22による第2の条件COND2の生成処理の具体例は上記の例に限られるものではなく、例えば、図14に示すような処理を行ってもよい。
【0167】
図14は、第2の生成部22による第2の条件COND2の生成処理の流れの他の例を示すフロー図である。
【0168】
(ステップS401)
続いて、ステップS401において、第2の生成部22は、クエリQRに含まれる条件文及び回答項目から、絞り込み条件(第2の条件)COND2を生成するためのプロンプトを生成する。換言すれば、第2の生成部22は、
・言語モデルLMに対する指示であって、クエリQRに含まれる条件文及び回答項目から、絞り込み条件(第2の条件)COND2を生成する旨の指示
を含むプロンプトを生成する。
【0169】
(ステップS304)
ステップS304は、図12を用いて説明した処理と同様であるので説明を省略する。
【0170】
(ステップS402)
ステップS402において、第2の生成部22は、ステップS401において生成されたプロンプトが入力された言語モデルLMが出力した出力情報を参照し、当該出力情報を、絞り込み条件(第2の条件)COND2に設定する。
【0171】
第2の生成部22は、上述の処理を行うことによっても、第2の条件COND2を好適に生成することができる。
【0172】
(実施形態2の付記事項3)
実施形態1Aに係る情報処理装置100Aは、任意の分野におけるデータ生成に適用することができる。上述した説明では、情報処理装置100Aを主としてマテリアルインフォマティクスの分野におけるデータ生成に適用した場合を挙げたがもちろんこれに限定されるものではない。
【0173】
一例として、第1の取得部11は、クエリQRとして、
・条件COND1「70歳以上のみが居住する住宅での火災」
・回答項目ITEM1「発生日」
・付帯項目ITEM2「発生市町村」
を含むクエリを取得し、第1の生成部21は、当該クエリQRを参照して指示文INを生成すると共に、生成された指示文INと、1又は複数の対象チャンクTCとを含むプロンプトPRを生成する構成としてもよい。ここで、当該対象チャンクTCとしては、一例として、ニュースを含むチャンク群から選択されたチャンクを用いることができる。そして、第2の取得部12は、当該プロンプトPRが入力された言語モデルLMが出力した出力情報OUTを取得し、回答情報生成部23は、出力情報OUTを参照して、回答情報RIを生成してもよい。
【0174】
一方で、マテリアルインフォマティクス及びそれに関連する分野では、ユーザに対して提供するためのデータを生成するにあたり、参照可能な論文や技報等が多数存在している。このため、言語モデルLMへの入力の候補となり得るチャンクのデータ量も増大してしまう傾向にある。上述した情報処理装置100Aによれば、複数のチャンクから1又は複数の対象チャンクを抽出するために用いる条件(第2の条件COND2)を生成し、前記条件(第2の条件COND2)を用いて、1又は複数の対象チャンクTCを取得し、前記1又は複数の対象チャンクTCの少なくとも一部と、クエリQRから得られる指示文INとを含む入力情報(プロンプトPR)を生成する。このため、言語モデルLMに入力するチャンクのデータ量を好適に抑制しつつ、言語モデルLMによるデータ生成(出力情報OUTの生成)において有用性の高い対象チャンクを用いることができる。したがって、情報処理装置100Aによれば、マテリアルインフォマティクス及びそれに関連する分野において、コストの上昇を抑えつつ、正確性の高いデータを生成することができる。
【0175】
(実施形態1、2の付記事項)
上記の各実施形態において、プロンプトPRに含める対象チャンクTCの長さは特に限定されない。一方で、プロンプトPRに含める対象チャンクTCの長さ、数、種類等に応じて、言語モデルLMが出力する出力情報OUTの精度、及び出力情報OUTを取得するためのコストは変動し得る。このため、情報処理装置100,100Aにおいて、対象チャンクTCの長さ、数、種類等を予め設定可能な構成としてもよい。
【0176】
一例として、情報処理装置100,100Aは、入出力部140を介して、対象チャンクTCの長さ、数、種類等の少なくとも何れかを指定する情報をユーザから受け付け可能な構成としてもよい。
【0177】
例えば、情報処理装置100,100Aは、入出力部140を介して、
・プロンプトPRに含める対象チャンクTCの最小文字数及び最大文字数
・プロンプトPRに含める対象チャンクTCの最小数及び最大数
・プロンプトPRに含める対象チャンクTCの種類(文節単位とするのか、文章単位とするのか、段落単位とするのか、章単位とするのか等)
を受け付け、当該受け付けた情報を満たすよう、第1の生成部21がプロンプトPRを生成する構成としてもよい。
【0178】
或いは、情報処理装置100は、
・プロンプトPRを生成する毎に、当該プロンプトPRに含めた対象チャンクTCの長さ、数、種類等を保持し、
・これらの情報と当該プロンプトPRに基づく出力情報OUTの精度及びコストとを関連付けて管理し、
・上記精度及びコストがユーザが所望する値に近づくための、好ましい対象チャンクTCの長さ、数、種類を決定(更新)し、次回のプロンプトPRの生成処理に反映させる
という構成としてもよい。
【0179】
〔実施形態3〕
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。なお、以下の説明では、一例として、登録部35を実施形態2で説明した構成への追加構成として説明を行っているが、これは本実施形態を限定するものではなく、実施形態1において説明した情報処理装置100に登録部35を追加した構成も本実施形態に含まれる。
【0180】
(情報処理システム1B)
図15は本実施形態に係る情報処理システム1Bの構成を示す図である。図15に示すように、本実施形態に係る情報処理システム1Bは、実施形態2に係る情報処理システム1Aが備える各構成に加え、複数の文書サーバ(図15における第1の文書サーバ300、第2の文書サーバ400、・・・)を備えている。
【0181】
ここで、第1の文書サーバ300は、一例として、無料または有償の論文を配信する論文配信サーバである。また、第2の文書サーバは、一例として、対象企業が管理するサーバであって、当該対象企業の技報や社内文書を管理するサーバである。ただし、これらの例は本実施形態を限定するものではない。
【0182】
(情報処理装置100B)
本実施形態に係る情報処理システム1Bが備える情報処理装置100Bは、図15に示すように、以下の点を除き、実施形態2に係る情報処理装置100Aと同様の構成を備えている。すなわち、本実施形態に係る情報処理装置100Bは、実施形態2に係る情報処理装置100Aが備える各構成に加えて、登録部35を備えている。
【0183】
(登録部35)
登録部35は、第1の文書サーバ300及び第2の文書サーバ400から、対象の文書を取得し、取得した文書をチャンクに分解することによって複数のチャンクを取得し、取得した複数のチャンクを記憶部120に格納する。これら複数のチャンクは、図15におけるチャンク群CGを構成する。
【0184】
また、登録部35は、チャンク群CGに含まれる1又は複数のチャンクの各々についてのベクトル(特徴量空間における特徴ベクトル)を生成し、生成したベクトルを記憶部120に格納する。これらのベクトルは、図15におけるベクトル群VGを構成する。なお、登録部35は、1又は複数のチャンクの各々に対して所定のアルゴリズムを適用することによって、チャンクから特徴ベクトルへの変換(特徴量空間へのチャンクの埋め込み(embedding))を行うことができる。また、登録部35による上記の処理の少なくとも一部を、一例として、サーバ200等の情報処理装置100Bとは別体の装置によって行う構成としてもよい。
【0185】
上記のように構成された情報処理装置100Bによれば、言語モデルLMによるデータ生成(出力情報OUTの生成)において参照される対象チャンクTCの元となる複数のチャンクを好適に準備しておくことができる。また、上記の構成によれば、複数のサーバから文書を取得し、チャンクを抽出するので、様々な分野の論文や様々な企業の文書等を用いたデータ生成(出力情報OUTの生成)を行うことができる。また、情報処理装置100Bによれば、実施形態1及び2に係る情報処理装置100、100Aと同様の効果を奏する。
【0186】
〔実施形態4〕
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。
【0187】
(情報処理装置100C)
図16は本実施形態に係る情報処理装置100Cの構成を示すブロック図である。図16に示すように、情報処理装置100Cは、制御部110C及び記憶部120Cを備えている。記憶部120Cに格納されているクエリQR、条件情報CI、及び対象チャンクTCについては、実施形態1~3において説明した通りであるので、ここでは説明を繰り返さない。
【0188】
(制御部110C)
制御部110Cは、クエリ取得部41、条件生成部42、及びチャンク取得部43を備えている。ここで、クエリ取得部41は、実施形態1~3における第1の取得部11と同様の処理を行う構成であり、クエリを取得する構成である。
【0189】
また、条件生成部42は、実施形態2~3における第2の生成部22と同様の処理を行う構成であり、複数のチャンクから1又は複数の対象チャンクを抽出するために用いる条件(実施形態2~3における第2の条件COND2)を生成する。条件生成部42は、一例として、前記クエリを参照して前記条件を生成する。また、チャンク取得部43は、実施形態2~3における第3の取得部13と同様の構成であり、前記条件を用いて、1又は複数の前記対象チャンクを取得する。
【0190】
以上のように構成された情報処理装置100Cによれば、複数のチャンクから1又は複数の対象チャンクを抽出するために用いる条件を生成し、前記条件を用いて、1又は複数の前記対象チャンクを取得するので、検索や処理の対象となる対象チャンクを好適に絞り込んでおくことができる。したがって、情報処理装置100Cによって絞り込まれた対象チャンクTCを用いることにより、コストの上昇を抑えつつ、正確性の高いデータを生成する処理が可能となる。
【0191】
〔ソフトウェアによる実現例〕
情報処理装置100、100A、100B、100Cの機能的な各ブロック(特に第1の取得部11、第2の取得部12、第3の取得部13、第1の生成部21、第2の生成部22、回答情報生成部23、登録部35、クエリ取得部41、条件生成部42、チャンク取得部43)、及びサーバ200の機能的な各ブロック(特に制御部240)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。後者の場合、情報処理装置100、100A、100B、100Cおよびサーバ200の各々は、例えば、コンピュータ(電子計算機)を用いて構成することができる。図17は、情報処理装置100(又は情報処理装置100A、100B、100C)およびサーバ200として用いられるコンピュータの物理的構成を例示したブロック図である。
【0192】
(情報処理装置100の物理的構成)
情報処理装置100(又は情報処理装置100A、100B、100C)は、図17に示すように、バス110と、プロセッサ101と、主メモリ102と、補助メモリ103と、通信インタフェース104と、入出力インタフェース105とを備えたコンピュータによって構成可能である。プロセッサ101、主メモリ102、補助メモリ103、通信インタフェース104、および入出力インタフェース105は、バス110を介して互いに接続されている。入出力インタフェース105には、入力装置40、出力装置50が接続されている。
【0193】
プロセッサ101としては、例えば、マイクロプロセッサ、デジタルシグナルプロセッサ、マイクロコントローラ、またはこれらの組み合わせ等が用いられる。主メモリ102としては、例えば、半導体RAM(random access memory)等が用いられる。
【0194】
補助メモリ103としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、またはこれらの組み合わせ等が用いられる。補助メモリ103には、プロセッサ101に上述した情報処理装置100(又は情報処理装置100A、100B、100C)の動作を実行させるためのプログラムが格納されている。プロセッサ101は、補助メモリ103に格納されたプログラムを主メモリ102上に展開し、展開したプログラムに含まれる各命令を実行する。また、補助メモリ103には、当該コンピュータを情報処理装置100(又は情報処理装置100A、100B、100C)として動作させるためにプロセッサ101が参照する各種データが格納されている。
【0195】
通信インタフェース104は、ネットワーク91に接続するインタフェースである。入出力インタフェース105としては、例えば、USB(Universal Serial Bus)インタフェース、赤外線やBluetooth(登録商標)等の近距離通信インタフェース、またはこれらの組み合わせが用いられる。
【0196】
入力装置40としては、例えば、キーボード、マウス、タッチパッド、マイク、又はこれらの組み合わせ等が用いられる。出力装置50としては、例えば、ディスプレイ、プリンタ、スピーカ、又はこれらの組み合わせが用いられる。
【0197】
(サーバ200の物理的構成)
サーバ200は、図17に示すように、バス210と、プロセッサ201と、主メモリ202と、補助メモリ203と、通信インタフェース204と、通信インタフェース205とを備えたコンピュータによって構成可能である。プロセッサ201、主メモリ202、補助メモリ203、通信インタフェース204、および通信インタフェース205は、バス210を介して互いに接続されている。
【0198】
プロセッサ201としては、例えば、マイクロプロセッサ、デジタルシグナルプロセッサ、マイクロコントローラ、またはこれらの組み合わせ等が用いられる。主メモリ202としては、例えば、半導体RAM等が用いられる。
【0199】
補助メモリ203としては、例えば、フラッシュメモリ、HDD、SSD、またはこれらの組み合わせ等が用いられる。補助メモリ203には、当該コンピュータをサーバ200として動作させるためのプログラムが格納されている。プロセッサ201は、補助メモリ203に格納されたプログラムを主メモリ202上に展開し、展開したプログラムに含まれる各命令を実行する。また、補助メモリ203には、当該コンピュータをサーバ200として動作させるためにプロセッサ201が参照する各種データとが格納されている。
【0200】
通信インタフェース204は、ネットワーク91に接続するインタフェースである。通信インタフェース205は、ネットワーク92に接続するインタフェースである。
【0201】
なお、上述した各プログラムは、補助メモリ103または補助メモリ203にそれぞれ記憶される代わりに、外部記録媒体に記録され、外部記録媒体から読み込まれることにより該当するコンピュータに供給されてもよい。外部記録媒体としては、コンピュータ読み取り可能な「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブル論理回路などを用いることができる。また、上述した各プログラムは、伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介してコンピュータに供給されてもよい。また、本発明の一態様は、各プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
【0202】
〔まとめ〕
本明細書に記載の事項には、少なくとも以下の構成が含まれる。
【0203】
(構成1)
クエリを取得する第1の取得部と、
1又は複数の対象チャンクと、前記クエリに含まれる第1の条件に応じた指示文とを含む入力情報を生成する第1の生成部と、
前記入力情報が入力された言語モデルが出力する出力情報を取得する第2の取得部と
を備えている情報処理装置。
【0204】
上記の構成によれば、コストの上昇を抑えつつ、正確性の高いデータを生成することができる。
【0205】
(構成2)
複数のチャンクから1又は複数の前記対象チャンクを抽出するために用いる第2の条件を生成する第2の生成部と、
前記第2の条件を用いて、1又は複数の前記対象チャンクを取得する第3の取得部と、
を更に備えている構成1に記載の情報処理装置。
【0206】
上記の構成によれば、第2の条件を用いて、1又は複数の前記対象チャンクを取得するので、コストの上昇を抑えつつ、正確性の高いデータを生成することができる。
【0207】
(構成3)
前記第1の生成部は、
前記クエリを参照して前記第2の条件を生成する条件生成部と、
ユーザからの指示に応じて前記第2の条件を修正する条件修正部と
を備えている
構成2に記載の情報処理装置。
【0208】
上記の構成によれば、前記クエリを参照して前記第2の条件を好適に生成することができる。また、ユーザからの修正指示に応じて、上記第2の条件を修正することにより、上記条件を、ユーザにとってより好ましいものとすることができる。
【0209】
(構成4)
前記第1の生成部は、
前記第2の条件の少なくとも一部を含む表示用データを生成する第1の表示用データ生成部
を更に備えている
構成2又は3に記載の情報処理装置。
【0210】
上記の構成によれば、上記表示用データを提示することにより、ユーザは、上記第2の条件の内容を容易に把握することができる。
【0211】
(構成5)
前記第2の取得部は、
前記複数のチャンクのうち、前記第2の条件に整合する1又は複数のチャンクを前記1又は複数の対象チャンクとして取得する
構成2から4の何れか1項に記載の情報処理装置。
【0212】
上記の構成によれば、上記第2の条件に整合するチャンクを対象チャンクとして取得するので、チャンクの絞り込みを好適に行うことができる。したがって、チャンクを参照した処理のコストを好適に低減することができる。
【0213】
(構成6)
前記第2の取得部は、
前記複数のチャンクのうち、前記第2の条件に整合する1又は複数のチャンクを取得し、
前記第2の条件に整合する1又は複数のチャンクに対して拡大処理を適用することによって前記1又は複数の対象チャンクを取得する
構成2から4の何れか1項に記載の情報処理装置。
【0214】
上記の構成によれば、上記第2の取得部が拡大処理を適用することによって、好適な分量の対象チャンクを用意することができるので、チャンクを参照して生成されるデータの正確性を向上させることができる。
【0215】
(構成7)
前記第2の生成部は、
前記クエリから前記指示文を生成する指示文生成部を備えている
構成2から6の何れか1項に記載の情報処理装置。
【0216】
上記の構成によれば、入力情報に含める指示文が前記クエリに応じたものとなるよう、当該指示文を好適に生成することができる。
【0217】
(構成8)
前記第2の生成部は、
前記入力情報の少なくとも一部を含む表示用データを生成する第2の表示用データ生成部を備えている
構成2から7の何れか1項に記載の情報処理装置。
【0218】
上記の構成によれば、上記表示用データを提示することにより、ユーザは、上記入力情報の内容を容易に把握することができる。
【0219】
(構成9)
前記出力情報を参照して回答情報を生成する回答情報生成部
を更に備えている
構成2から8の何れか1項に記載の情報処理装置。
【0220】
上記の構成によれば、前記クエリに対するユーザへの回答である回答情報が前記出力情報に応じたものとなるように、前記回答情報を好適に生成することができる。
【0221】
(構成10)
前記回答情報生成部は、
前記回答情報を含む表示用データを生成する回答情報表示用データ生成部を備えている
構成9に記載の情報処理装置。
【0222】
上記の構成によれば、上記表示用データを提示することにより、ユーザは、上記回答情報の内容を容易に把握することができる。
【0223】
(構成11)
前記クエリには、
物性名、物質名、組成名、物性値、単位、実験条件、及び実験装置の少なくとも何れかが含まれており、
前記回答情報には、
文献情報と、物性名、物質名、組成名、物性値、単位、実験条件、及び実験装置の少なくとも何れとが含まれている
構成9又は10に記載の情報処理装置。
【0224】
上記の構成によれば、マテリアルインフォマティクス及び関連する分野において、コストの上昇を抑えつつ、正確性の高いデータを生成することができる。
【0225】
(構成12)
前記第2の生成部は、
前記1又は複数の対象チャンクの第1の部分と、前記クエリから得られる指示文とを含む第1の入力情報と、
前記1又は複数の対象チャンクの第2の部分と、前記クエリから得られる指示文とを含む第2の入力情報と
を生成し、
前記第3の取得部は、
前記第1の入力情報が入力された前記言語モデルが出力する第1の出力情報と、
前記第2の入力情報が入力された前記言語モデルが出力する第2の出力情報と
を取得し、
前記回答情報生成部は、
前記第1の出力情報の少なくとも一部と前記第2の出力情報の少なくとも一部とを統合することによって前記回答情報を生成する
構成9から11の何れか1項に記載の情報処理装置。
【0226】
上記の構成によれば、言語モデルLMに対して過度な負荷をかけることなく、又は当該言語モデルLMの仕様に沿った態様により、入力情報の入力及び出力情報の取得を好適に行うことができる。
【0227】
(構成13)
前記回答情報生成部は、
前記クエリに含まれる1又は複数の項目の少なくとも一部に関し、
前記第3の取得部が取得した出力情報に含まれる1又は複数の要素の少なくとも一部に対するスコアリングを行う
構成9から12の何れか1項に記載の情報処理装置。
【0228】
上記の構成によれば、ユーザは重要性又は信頼性の高い情報を容易に識別することができる。
【0229】
(構成14)
複数のチャンクから1又は複数の対象チャンクを抽出するために用いる条件を生成する条件生成部と、
前記条件を用いて、1又は複数の前記対象チャンクを取得するチャンク取得部と、
を備えている情報処理装置。
【0230】
上記の構成によれば、コストの上昇を抑えつつ、正確性の高いデータの生成に資する。
【0231】
(構成15)
クエリを取得するクエリ取得部を備え、
前記条件生成部は、前記クエリを参照して前記条件を生成する
構成14に記載の情報処理装置。
【0232】
上記の構成によれば、コストの上昇を抑えつつ、正確性の高いデータの生成に資する。
【0233】
(構成16)
情報処理装置が実行する情報処理方法であって、
クエリを取得する第1の取得ステップと、
1又は複数の対象チャンクと、前記クエリに含まれる第1の条件に応じた指示文とを含む入力情報を生成する第1の生成ステップと、
前記入力情報が入力された言語モデルが出力する出力情報を取得する第2の取得ステップと
を含んでいる情報処理方法。
【0234】
上記の構成によれば、構成1に係る情報処理装置と同様の効果を奏する。
【0235】
(構成17)
情報処理装置が実行する情報処理方法であって、
複数のチャンクから1又は複数の対象チャンクを抽出するために用いる条件を生成する条件生成ステップと、
前記条件を用いて、1又は複数の前記対象チャンクを取得するチャンク取得ステップと
を含んでいる情報処理方法。
【0236】
(構成18)
構成1に記載の情報処理装置としてコンピュータを機能させるためのプログラムであって、上記第1の取得部、上記第1の生成部、及び上記第2の取得部としてコンピュータを機能させるためのプログラム。
【0237】
上記の構成によれば、構成1に係る情報処理装置と同様の効果を奏する。
【0238】
(構成19)
構成14に記載の情報処理装置としてコンピュータを機能させるためのプログラムであって、上記条件生成部、及び上記チャンク取得部としてコンピュータを機能させるためのプログラム。
【0239】
上記の構成によれば、構成14に係る情報処理装置と同様の効果を奏する。
【0240】
(構成20)
構成18に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
【0241】
上記の構成によれば、構成1に係る情報処理装置と同様の効果を奏する。
【0242】
(構成21)
構成19に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
【0243】
上記の構成によれば、構成14に係る情報処理装置と同様の効果を奏する。
【0244】
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【符号の説明】
【0245】
100,100A,100B,100C ・・・ 情報処理装置
110,110A,110B ・・・ 制御部
11 ・・・ 第1の取得部
21 ・・・ 第1の生成部
211 ・・・ 条件生成部
212 ・・・ 条件修正部
213 ・・・ 第1の表示用データ生成部
12 ・・・ 第2の取得部
22 ・・・ 第2の生成部
221 ・・・ 指示文生成部
222 ・・・ 第2の表示用データ生成部
13 ・・・ 第3の取得部
23 ・・・ 回答情報生成部
231 ・・・ 回答情報表示用データ生成部
35 ・・・ 登録部
41 ・・・ クエリ取得部
42 ・・・ 条件生成部
43 ・・・ チャンク取得部
200 ・・・ サーバ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
【手続補正書】
【提出日】2023-12-20
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
クエリを取得する第1の取得部と、
1又は複数の対象チャンクと、前記クエリに含まれる第1の条件に応じた指示文とを含む入力情報を生成する第1の生成部と、
前記入力情報が入力された言語モデルが出力する出力情報を取得する第2の取得部と
複数のチャンクから1又は複数の前記対象チャンクを抽出するために用いる第2の条件を生成する第2の生成部と、
前記第2の条件を用いて、1又は複数の前記対象チャンクを取得する第3の取得部と
を備え
前記第2の生成部は、
前記クエリを参照して前記第2の条件を生成する条件生成部
を備え、
前記第1の生成部は、
前記クエリから前記指示文を生成する指示文生成部
を備え、
前記クエリは、条件文と回答項目とを含み、
前記指示文は、前記条件文を満たす内容であって前記回答項目に関する内容を出力するよう前記言語モデルに対して指示する指示文である
情報処理装置。
【請求項2】
前記クエリは、1又は複数の付帯項目を更に含み、
前記指示文は、前記条件文を満たす内容であって前記回答項目に関する内容及び前記付帯項目に関する内容を出力するよう前記言語モデルに対して指示する指示文である
請求項1に記載の情報処理装置。
【請求項3】
前記第2の生成部は、
ユーザからの指示に応じて前記第2の条件を修正する条件修正
を備えている
請求項に記載の情報処理装置。
【請求項4】
クエリを取得する第1の取得部と、
1又は複数の対象チャンクと、前記クエリに含まれる第1の条件に応じた指示文とを含む入力情報を生成する第1の生成部と、
前記入力情報が入力された言語モデルが出力する出力情報を取得する第2の取得部と、
複数のチャンクから1又は複数の前記対象チャンクを抽出するために用いる第2の条件を生成する第2の生成部と、
前記第2の条件を用いて、1又は複数の前記対象チャンクを取得する第3の取得部と
を備え
前記第2の生成部は、
前記クエリを参照して前記第2の条件を生成する条件生成部と、
ユーザから受け付けたキーワードに応じて前記第2の条件を修正する条件修正部と
を備えている情報処理装置。
【請求項5】
前記第1の生成部は、
前記クエリから前記指示文を生成する指示文生成部を備えている
請求項に記載の情報処理装置。
【請求項6】
クエリを取得する第1の取得部と、
1又は複数の対象チャンクと、前記クエリに含まれる第1の条件に応じた第1の指示文とを含む入力情報を生成する第1の生成部と、
前記入力情報が入力された言語モデルが出力する出力情報を取得する第2の取得部と、
複数のチャンクから1又は複数の前記対象チャンクを抽出するために用いる第2の条件を生成する第2の生成部と、
前記第2の条件を用いて、1又は複数の前記対象チャンクを取得する第3の取得部と
を備え、
前記第2の生成部は、
前記クエリを参照して前記第2の条件を生成する条件生成部
を備え、
前記条件生成部は、
前記クエリに含まれる条件文から、1又は複数の語句クラスに属する語句を抽出するための第2の指示文を生成し、
前記第2の指示文が入力された言語モデルの出力を参照して、前記第2の条件を生成する
情報処理装置。
【請求項7】
前記第2の生成部は、
ユーザからの指示に応じて前記第2の条件を修正する条件修正部
を備えている
請求項6に記載の情報処理装置。
【請求項8】
前記第1の生成部は、
前記クエリから前記指示文を生成する指示文生成部を備えている
請求項7に記載の情報処理装置。
【請求項9】
前記第2の生成部は、
前記第2の条件の少なくとも一部を含む表示用データを生成する第2の表示用データ生成部
を更に備えている
請求項1から8の何れか1項に記載の情報処理装置。
【請求項10】
前記第3の取得部は、
前記複数のチャンクのうち、前記第2の条件に整合する1又は複数のチャンクを前記1又は複数の対象チャンクとして取得する
請求項に記載の情報処理装置。
【請求項11】
前記第3の取得部は、
前記複数のチャンクのうち、前記第2の条件に整合する1又は複数のチャンクを取得し、
前記第2の条件に整合する1又は複数のチャンクに対して拡大処理を適用することによって前記1又は複数の対象チャンクを取得する
請求項に記載の情報処理装置。
【請求項12】
クエリを取得する第1の取得部と、
1又は複数の対象チャンクと、前記クエリに含まれる第1の条件に応じた指示文とを含む入力情報を生成する第1の生成部と、
前記入力情報が入力された言語モデルが出力する出力情報を取得する第2の取得部と
複数のチャンクから1又は複数の前記対象チャンクを抽出するために用いる第2の条件を生成する第2の生成部と、
前記第2の条件を用いて、1又は複数の前記対象チャンクを取得する第3の取得部と
を備え、
前記第2の生成部は、
前記クエリを参照して前記第2の条件を生成する条件生成部と、
ユーザからの指示に応じて前記第2の条件を修正する条件修正部と、
前記第2の条件の少なくとも一部を含む表示用データを生成する表示用データ生成部と
を備え
前記第3の取得部は、
前記複数のチャンクのうち、前記第2の条件に整合する1又は複数のチャンクを取得し、
前記第2の条件に整合する1又は複数のチャンクに対して拡大処理を適用することによって前記1又は複数の対象チャンクを取得する
情報処理装置。
【請求項13】
前記出力情報を参照して回答情報を生成する回答情報生成部
を更に備えている
請求項1から8及び12の何れか1項に記載の情報処理装置。
【請求項14】
前記回答情報生成部は、
前記回答情報を含む表示用データを生成する回答情報表示用データ生成部を備えている
請求項13に記載の情報処理装置。
【請求項15】
前記クエリには、
物性名、物質名、組成名、物性値、単位、実験条件、及び実験装置の少なくとも何れかが含まれており、
前記回答情報には、
文献情報と、物性名、物質名、組成名、物性値、単位、実験条件、及び実験装置の少なくとも何れとが含まれている
請求項14に記載の情報処理装置。
【請求項16】
前記第1の生成部は、
前記1又は複数の対象チャンクの第1の部分と、前記クエリから得られる指示文とを含む第1の入力情報と、
前記1又は複数の対象チャンクの第2の部分と、前記クエリから得られる指示文とを含む第2の入力情報と
を生成し、
前記第2の取得部は、
前記第1の入力情報が入力された前記言語モデルが出力する第1の出力情報と、
前記第2の入力情報が入力された前記言語モデルが出力する第2の出力情報と
を取得し、
前記回答情報生成部は、
前記第1の出力情報の少なくとも一部と前記第2の出力情報の少なくとも一部とを統合することによって前記回答情報を生成する
請求項13に記載の情報処理装置。
【請求項17】
前記回答情報生成部は、
前記クエリに含まれる1又は複数の項目の少なくとも一部に関し、
前記第2の取得部が取得した出力情報に含まれる1又は複数の要素の少なくとも一部に対するスコアリングを行う
請求項13に記載の情報処理装置。
【請求項18】
情報処理装置が実行する情報処理方法であって、
クエリを取得する第1の取得ステップと、
1又は複数の対象チャンクと、前記クエリに含まれる第1の条件に応じた指示文とを含む入力情報を生成する第1の生成ステップと、
前記入力情報が入力された言語モデルが出力する出力情報を取得する第2の取得ステップと
複数のチャンクから1又は複数の前記対象チャンクを抽出するために用いる第2の条件を生成する第2の生成ステップと、
前記第2の条件を用いて、1又は複数の前記対象チャンクを取得する第3の取得ステップと
を含み、
前記第2の生成ステップは、
前記クエリを参照して前記第2の条件を生成する条件生成ステップ
を含み、
前記第1の生成ステップは、
前記クエリから前記指示文を生成する指示文生成ステップ
を含み、
前記クエリは、条件文と回答項目とを含み、
前記指示文は、前記条件文を満たす内容であって前記回答項目に関する内容を出力するよう前記言語モデルに対して指示する指示文である
情報処理方法。
【請求項19】
前記クエリは、1又は複数の付帯項目を更に含み、
前記指示文は、前記条件文を満たす内容であって前記回答項目に関する内容及び前記付帯項目に関する内容を出力するよう前記言語モデルに対して指示する指示文である
請求項18に記載の情報処理方法。
【請求項20】
情報処理装置が実行する情報処理方法であって、
クエリを取得する第1の取得ステップと、
1又は複数の対象チャンクと、前記クエリに含まれる第1の条件に応じた指示文とを含む入力情報を生成する第1の生成ステップと、
前記入力情報が入力された言語モデルが出力する出力情報を取得する第2の取得ステップと、
複数のチャンクから1又は複数の前記対象チャンクを抽出するために用いる第2の条件を生成する第2の生成ステップと、
前記第2の条件を用いて、1又は複数の前記対象チャンクを取得する第3の取得ステップと
を含み、
前記第2の生成ステップは、
前記クエリを参照して前記第2の条件を生成する条件生成ステップと、
ユーザから受け付けたキーワードに応じて前記第2の条件を修正する条件修正ステップと
を含んでいる情報処理方法。
【請求項21】
情報処理装置が実行する情報処理方法であって、
クエリを取得する第1の取得ステップと、
1又は複数の対象チャンクと、前記クエリに含まれる第1の条件に応じた第1の指示文とを含む入力情報を生成する第1の生成ステップと、
前記入力情報が入力された言語モデルが出力する出力情報を取得する第2の取得ステップと、
複数のチャンクから1又は複数の前記対象チャンクを抽出するために用いる第2の条件を生成する第2の生成ステップと、
前記第2の条件を用いて、1又は複数の前記対象チャンクを取得する第3の取得ステップと
を含み、
前記第2の生成ステップは、
前記クエリを参照して前記第2の条件を生成する条件生成ステップ
を含み、
前記条件生成ステップは、
前記クエリに含まれる条件文から、1又は複数の語句クラスに属する語句を抽出するための第2の指示文を生成し、
前記第2の指示文が入力された言語モデルの出力を参照して、前記第2の条件を生成する
情報処理方法。
【請求項22】
情報処理装置が実行する情報処理方法であって、
クエリを取得する第1の取得ステップと、
1又は複数の対象チャンクと、前記クエリに含まれる第1の条件に応じた指示文とを含む入力情報を生成する第1の生成ステップと、
前記入力情報が入力された言語モデルが出力する出力情報を取得する第2の取得ステップと、
複数のチャンクから1又は複数の前記対象チャンクを抽出するために用いる第2の条件を生成する第2の生成ステップと、
前記第2の条件を用いて、1又は複数の前記対象チャンクを取得する第3の取得ステップと
を含み、
前記第2の生成ステップは、
前記クエリを参照して前記第2の条件を生成する条件生成ステップと、
ユーザからの指示に応じて前記第2の条件を修正する条件修正ステップと、
前記第2の条件の少なくとも一部を含む表示用データを生成する表示用データ生成ステップと
を含み、
前記第3の取得ステップは、
前記複数のチャンクのうち、前記第2の条件に整合する1又は複数のチャンクを取得し、
前記第2の条件に整合する1又は複数のチャンクに対して拡大処理を適用することによって前記1又は複数の対象チャンクを取得する
情報処理方法。
【請求項23】
請求項1、4、6、及び12の何れか1項に記載の情報処理装置としてコンピュータを機能させるためのプログラムであって、上記第1の取得部、上記第1の生成部、上記第2の取得部、上記第2の生成部、及び上記第3の取得部としてコンピュータを機能させるためのプログラム。
【請求項24】
請求項23に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。