特許7741263 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 楽天株式会社の特許一覧

特許7741263情報処理装置、情報処理方法、ならびに、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2025-09-08

(45)【発行日】2025-09-17

(54)【発明の名称】情報処理装置、情報処理方法、ならびに、プログラム

(51)【国際特許分類】

G06F 16/84 20190101AFI20250909BHJP

【ＦＩ】

G06F16/84

【請求項の数】 9

(21)【出願番号】P 2024148139

(22)【出願日】2024-08-30

【審査請求日】2024-08-30

(73)【特許権者】

【識別番号】399037405

【氏名又は名称】楽天グループ株式会社

(74)【代理人】

【識別番号】100110135

【弁理士】

【氏名又は名称】石井裕一郎

(74)【代理人】

【識別番号】100132883

【弁理士】

【氏名又は名称】森川泰司

(74)【代理人】

【識別番号】100148633

【弁理士】

【氏名又は名称】桜田圭

(74)【代理人】

【識別番号】100163452

【弁理士】

【氏名又は名称】南郷邦臣

(74)【代理人】

【識別番号】100180312

【弁理士】

【氏名又は名称】早川牧子

(72)【発明者】

【氏名】ニコファイバアンヤウシン

【審査官】甲斐哲雄

(56)【参考文献】

【文献】特開２０００－３４８０６１（ＪＰ，Ａ）

【文献】特開２０２２－０９１５３０（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／００－１６／９５８

(57)【特許請求の範囲】

【請求項1】

複数のクエリ式に基づいて、複数の要素を、構造化ドキュメントから、それぞれ抽出する抽出部、
生成モデルへ、前記抽出された複数の要素のそれぞれに係る内部テキストを入力データとして与えて、複数の項目名に複数の項目テキストをそれぞれ対応付けて整理すべき旨を指示するプロンプトにより、出力データを出力させる整理部
を備える情報処理装置。

【請求項2】

前記構造化ドキュメントは、ＳＧＭＬ文書、ＸＭＬ文書、もしくは、ＨＴＭＬ文書であり、
前記複数のクエリ式のそれぞれは、ＸＰａｔｈにより表現され、
前記複数の要素のそれぞれに係るｔｅｘｔＣｏｎｔｅｎｔ属性もしくはｉｎｎｅｒＴｅｘｔ属性を、当該それぞれに係る内部テキストとし、
前記生成モデルは、大規模言語モデルである
請求項１に記載の情報処理装置。

【請求項3】

前記複数の項目名の各項目名について、当該各項目名に対応付けられる項目テキストが、前記構造化ドキュメントの内部テキストに含まれるか否かを検査する検査部、
前記検査部により含まれないとされた項目テキストを警告する警告情報を出力する警告部
をさらに備える請求項１に記載の情報処理装置。

【請求項4】

前記整理部は、前記生成モデルに、前記複数の項目名の各項目名について、当該各項目名に対応付けられる項目テキストが、前記構造化ドキュメントの内部テキストに含まれるか否かを検査させ、該検査により含まれないとされた項目テキストを警告する警告情報を、前記出力データにおける所定の警告項目名に埋め込ませる
請求項１に記載の情報処理装置。

【請求項5】

前記抽出部による抽出に先立って、取得源の指定を受け付け、前記指定された取得源から前記構造化ドキュメントを取得する取得部
をさらに備え、
前記抽出部は、前記指定された取得源に応じて、前記複数のクエリ式を切り換える
請求項１に記載の情報処理装置。

【請求項6】

前記複数のクエリ式のそれぞれには枠名が対応付けられ、
前記入力データは、前記それぞれに係る内部テキストに、当該内部テキストを抽出するために使用したクエリ式に対応付けられる枠名を対応付ける情報を含む
請求項１に記載の情報処理装置。

【請求項7】

前記プロンプトは、前記入力データに含まれ得る用語同士の、類義関係ならびに非類義関係を、さらに定義する
請求項１に記載の情報処理装置。

【請求項8】

情報処理装置が、
複数のクエリ式に基づいて、複数の要素を、構造化ドキュメントから、それぞれ抽出し、
生成モデルへ、前記抽出された複数の要素のそれぞれに係る内部テキストを入力データとして与えて、複数の項目名に複数の項目テキストをそれぞれ対応付けて整理すべき旨を指示するプロンプトにより、出力データを出力させる
情報処理方法。

【請求項9】

コンピュータを、
複数のクエリ式に基づいて、複数の要素を、構造化ドキュメントから、それぞれ抽出する抽出部、
生成モデルへ、前記抽出された複数の要素のそれぞれに係る内部テキストを入力データとして与えて、複数の項目名に複数の項目テキストをそれぞれ対応付けて整理すべき旨を指示するプロンプトにより、出力データを出力させる整理部
として機能させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、情報処理方法、ならびに、プログラムに関する。

【背景技術】

【0002】

ウェブページからデータを収集し、収集したデータから所定の情報を抽出する技術が提案されている（例えば特許文献１）。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２００８－２２６２３５号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

ところで、近年生成ＡＩ（Artificial Intelligence）が台頭しており、生成ＡＩを利用して所定のデータを整理することが考えられる。しかしながら、所定のデータをそのまま生成ＡＩに入力した場合、望んだ出力結果が得られない場合等があり、出力結果の精度に課題があった。

【0005】

本発明は、上記実情に鑑みて成されたものであり、生成モデルを利用してデータの整理を行う場合の精度を向上させる情報処理装置等を提供することを目的とする。

【課題を解決するための手段】

【0006】

上記目的を達成するため、本発明の情報処理装置は、
複数のクエリ式に基づいて、複数の要素を、構造化ドキュメントから、それぞれ抽出する抽出部、
生成モデルへ、前記抽出された複数の要素のそれぞれに係る内部テキストを入力データとして与えて、複数の項目名に複数の項目テキストをそれぞれ対応付けて整理すべき旨を指示するプロンプトにより、出力データを出力させる整理部
を備える。

【発明の効果】

【0007】

本発明によれば、生成モデルを利用してデータの整理を行う場合の精度を向上させることができる。

【図面の簡単な説明】

【0008】

【図1】本実施の形態に係る情報処理装置の機能ブロック図である。

【図2】本実施の形態に係る情報処理装置のハードウェア構成例を示す図である。

【図3】メタデータ取得処理の一例を示すフローチャートである。

【図4】ウェブサイト別のＸＰａｔｈ情報の一例を示す図である。

【図5】ウェブページにおいてＸＰａｔｈに基づき抽出される項目の位置の一例を示す図である。

【図6】ウェブページから抽出された内部テキストの一例を示す図である。

【図7】生成ＡＩサーバに対するプロンプトの一例を示す図である。

【図8】（Ａ）、（Ｂ）は、ウェブブラウザにおける表示例を示す図である。

【図9】（Ａ）、（Ｂ）は、ウェブブラウザにおける表示例を示す図である。

【図10】ウェブブラウザにおける表示例を示す図である。

【発明を実施するための形態】

【0009】

以下、本発明の実施の形態の情報処理装置１０について、図面を参照しながら説明する。なお、図中同一または対応する部分には同一符号を付す。

【0010】

特定のアイテムに関する構造化ドキュメント（例えば、特定のアイテムに関するウェブページや文書）から、特定のアイテムに係る複数の要素を抽出する場合、人が手動で抽出することもできる。しかしながら、作業時間や抽出の正確性を考慮すると、抽出を自動化することが望まれる。また、抽出した要素を他で流用する場合には、抽出した要素を一覧化し、各要素に項目名を付ける等、抽出した要素を整理する必要がある。本実施の形態の情報処理装置１０は、そのような構造化ドキュメントからの要素の抽出と、抽出した要素の整理を自動で行うものである。また、抽出した要素の整理については、生成ＡＩを利用する。

【0011】

図１は本実施の形態に係る情報処理装置１０の機能構成を示す機能ブロック図である。本実施の形態に係る情報処理装置１０は、生成ＡＩサーバ２０とともに、情報処理システム１００を構成する。情報処理装置１０は、インターネット、移動体通信網といった通信ネットワークに接続されており、該通信ネットワークを介して各種の情報を送受信する。また、情報処理装置１０と生成ＡＩサーバ２０とは、通信ネットワークを介して接続され、通信ネットワークを介して互いに各種の情報を送受信する。

【0012】

情報処理装置１０は、構造化ドキュメントを処理する装置である。構造化ドキュメントを取得し、所定のクエリ式に基づいて、構造化ドキュメントから複数の要素を抽出する。そして、情報処理装置１０は、生成ＡＩサーバ２０へ、抽出した複数の要素に係る内部テキストを入力データとして与えて、複数の項目名に複数の項目テキストをそれぞれ対応付けて整理すべき旨を指示するプロンプトにより、複数の項目テキストで構成される出力データを出力させる。

【0013】

生成ＡＩサーバ２０は、生成ＡＩを搭載したサーバである。生成ＡＩサーバ２０は、例えば、生成モデルとして、ＣｈａｔＧＰＴ（Generative Pre-trained Transformer）等の大規模言語モデル（Large Language Models、LLM）を搭載し、入力された自然言語からなる文字列の処理を実行するコンピュータである。情報処理装置１０は、例えば、生成ＡＩサーバ２０が提供するＡＰＩ（Application Programming Interface）を利用して、生成ＡＩサーバ２０にアクセスする。

【0014】

この実施の形態では、生成ＡＩサーバ２０は、内部テキストのテキストデータと、当該テキストデータに対する処理を指示するプロンプトと、を情報処理装置１０から受信する。そして、生成ＡＩサーバ２０は、プロンプトに基づいてテキストデータから項目テキストを収集して整理し、整理したデータを出力データとして情報処理装置１０に返信する。

【0015】

構造化ドキュメントから抽出される要素は、構造化ドキュメントに含まれる項目に対応するデータであり、例えば、単語のテキストデータである。この構造化ドキュメントから抽出されたテキストデータが、生成ＡＩサーバ２０への入力データとなる。この実施の形態では、生成ＡＩサーバ２０への入力データとなるテキストデータを内部テキストという。また、その内部テキストを入力データとして、生成ＡＩサーバ２０から出力される出力データは、内部テキストを整理したものであり、項目名と当該項目名に対応するテキストデータで構成される。この実施の形態では、そのような項目名に対応するテキストデータを項目テキストという。なお、構造化ドキュメントに含まれるおける要素と項目とは略同義であるが、生成ＡＩサーバ２０により整理前のものを要素、整理後のものを項目という場合がある。

【0016】

また、構造化ドキュメントに含まれる複数の要素、項目に関するデータ、あるいは、生成ＡＩサーバ２０により整理されて出力されたテキストデータ（項目テキスト）を、メタデータともいう。この実施の形態の情報処理装置１０は、構造化ドキュメントから最終的にメタデータを得ることを目的とする。さらに、複数の構造化ドキュメントからメタデータを収集して、他のシステム等で、整理された情報として利用可能とすることを目的としている。

【0017】

情報処理装置１０は、機能的には例えば図１に示すように、ドキュメント取得部１０１と、抽出部１０２と、整理部１０３と、検査部１０４と、警告部１０５と、出力部１０６と、から構成される。

【0018】

ドキュメント取得部１０１は、通信ネットワークや記録媒体等を介して、情報処理装置１０の外部から構造化ドキュメントを取得する。構造化ドキュメントは、例えばＳＧＭＬ（Standard Generalized Markup Language）文書、ＸＭＬ（Extensible Markup Language）文書、もしくは、ＨＴＭＬ（HyperText Markup Language）文書である。なお、構造化ドキュメントは、文書と文書の構造を示すタグとで構成される他の構造化ドキュメントでもよく、マークアップドキュメントでもよい。

【0019】

ドキュメント取得部１０１は、例えば、ユーザから、構造化ドキュメントの取得源となるウェブページのＵＲＬ（Uniform Resource Locator）の入力を受け付け、入力されたＵＲＬのウェブページの構造化ドキュメントを取得する。ドキュメント取得部１０１は、通信ネットワークや記録媒体を介して、情報処理装置１０に直接入力された構造化ドキュメントを取得するようにしてもよい。

【0020】

抽出部１０２は、ドキュメント取得部１０１が取得した構造化ドキュメントから、複数の要素を抽出することを指示する複数のクエリ式に基づいて、複数の要素をそれぞれ抽出する。複数のクエリ式のそれぞれは、この実施の形態では、複数の要素の位置を示すＸＰａｔｈ（XML Path Language）により表現される。そして、抽出部１０２は、構造化ドキュメントから、ＸＰａｔｈが示す位置にある複数の要素を抽出する。

【0021】

ＸＰａｔｈは、ＸＭＬ文章中の要素、属性値等、文書の特定の部分を指定するための言語であり、ＵＲＬのようなパス表記で表される。また、ＸＰａｔｈは、ＨＴＭＬ文書等の他の構造化ドキュメントにも応用できる。

【0022】

この実施の形態では、構造化ドキュメントの取得源となるウェブサイトにおいて、複数の要素が記載されている部分（パス）を示すＸＰａｔｈ情報が予め用意される。具体的には、構造化ドキュメントの取得源となるウェブサイト毎の、各要素の記載位置を示すＸＰａｔｈが情報処理装置１０に予め記憶される。なお、この実施の形態では、インターネット上の特定ドメイン下等において、所定のサービス情報等をコンテンツとして提供するウェブページの集まりをウェブサイトという。ウェブサイトにおいて個別のコンテンツ等が記載される個別ページをウェブページという。

【0023】

この実施の形態では、構造化ドキュメントの取得源となるウェブサイトは、各種データベースサイト、カタログサイト等の多種のコンテンツの情報を提供するウェブサイトを想定している。同一のウェブサイトにおいては、複数のコンテンツの情報を提供する場合、見やすさやページの作成のしやすさ等の観点から、個別ページは同一のフォーマットとなりやすい。よって、ウェブサイトに応じて、個別ページにおける各要素の記載位置が定まりやすい。そのため、そのようなウェブサイトであれば、構造化ドキュメントの取得源となるウェブサイト毎の、各要素の記載位置を示すＸＰａｔｈを予め定義することが可能である。

【0024】

抽出部１０２は、ドキュメント取得部１０１が取得した構造化ドキュメントから、このようなＸＰａｔｈに基づいて、複数の要素に係る内部テキストを抽出する。抽出部１０２は、例えば、複数の要素にそれぞれに係るｔｅｘｔＣｏｎｔｅｎｔ属性（単純なテキスト）もしくはｉｎｎｅｒＴｅｘｔ属性（エスケープ文字を反映したテキスト）を、当該それぞれに係る内部テキストとして抽出する。

【0025】

抽出部１０２により抽出した内部テキストは、構造化ドキュメントに含まれる複数の要素であるので、構造化ドキュメントに含まれるメタデータといえる。しかしながら、ウェブページ等の構造化ドキュメントでは、関連する複数の要素がある程度まとめられて表示される。そして、抽出部１０２はそのまとめられた要素を、ＸＰａｔｈに基づいてある程度の塊として抽出する。このように抽出部１０２が抽出した塊としてのメタデータである内部テキストをさらに整理するため、抽出部１０２は、構造化ドキュメントから抽出した内部テキストを整理部１０３に渡す。

【0026】

整理部１０３は、生成ＡＩサーバ２０へ、抽出部１０２により抽出された複数の要素のそれぞれに係る内部テキストを入力データとして与える。そして、整理部１０３は、内部テキストとともに、複数の項目名に複数の項目テキストをそれぞれ対応付けて整理すべき旨を指示するプロンプトを与えることより、生成ＡＩサーバ２０に内部テキストを整理させ、出力させる。そして、整理部１０３は、生成ＡＩサーバ２０から、プロンプトに基づいて整理された項目テキストを出力データとして得る。また、整理部１０３は、出力データを受け取ると、当該出力データ（項目テキスト）を出力部１０６による出力形式に整形する。

【0027】

検査部１０４は、生成ＡＩサーバ２０に対する入力データと生成ＡＩサーバ２０からの出力データとを比較することで、出力データにエラーが無いかを検査する。具体的には、検査部１０４は、生成ＡＩサーバ２０からの出力データにおける複数の項目名に対応付けられる項目テキストが、構造化ドキュメントの内部テキスト、即ち、生成ＡＩサーバ２０への入力データに含まれるか否かを検査する。生成ＡＩサーバ２０が、入力データに含まれない項目テキストを出力した場合、生成ＡＩサーバ２０によるハルシネーションが考えられる。これにより、検査部１０４は、生成ＡＩサーバ２０による不具合や、ハルシネーションが起きていないかを検査、判定する。検査部１０４は、このように入出力データの整合性についての検査を行う。なお、検査部１０４は、他の検査方法で出力データの検査を行ってもよいし、入出力データの整合性についての検査以外の検査項目があってもよい。

【0028】

警告部１０５は、検査部１０４により、入力データに含まれない項目テキストがあると判定された場合、当該含まれないとされた項目テキストを警告する警告情報を生成し、出力する。

【0029】

出力部１０６は、整理部１０３から整形された出力データを受け取り、メタデータとして外部に出力する。また、出力部１０６は、警告部１０５が生成した警告情報を受け取り、警告情報を外部に出力する。例えば、出力部１０６は、整理部１０３が整理したメタデータと、警告部１０５が生成した警告情報と、を情報処理装置１０が備える表示装置、もしくは、情報処理装置１０と接続された表示装置に出力する。また、例えば、出力部１０６は、整理部１０３が整理したメタデータと、警告部１０５が生成した警告情報と、に対応したデータ（ファイル）を、ユーザが指定する端末装置等にダウンロード可能に出力する。

【0030】

情報処理装置１０は、物理的には、例えば、パーソナルコンピュータ（ＰＣ）、ワークステーション等で構成される。なお、情報処理装置１０は専用の装置であってもよい。図２は、情報処理装置１０のハードウェア構成例を示す図である。情報処理装置１０は、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphical Processing Unit）等のプロセッサ１１、メモリ、ＨＤＤ（Hard Disk Drive）及び／又はＳＳＤ（Solid State Drive）等の記憶装置１２、有線又は無線通信を行う通信インターフェース１３、入力操作を受け付ける入力デバイス１４、及び情報の出力を行う出力デバイス１５を有する。入力デバイス１４は、例えば、キーボード、タッチパネル、カメラ、マウス及び／又はマイク等である。出力デバイス１５は、例えば、ディスプレイ及び／又はスピーカ等である。

【0031】

情報処理装置１０のプロセッサ１１が記憶装置１２に記憶されるプログラムを読み込むことで、図１に示す各種機能部として動作する。

【0032】

この実施の形態では、ユーザがスマートフォン、タブレット、ＰＣ等の端末装置を使用し、通信ネットワークを介して情報処理装置１０に接続して、情報処理装置１０の機能を利用することを想定している。端末装置から情報処理装置１０の機能の利用は、専用アプリケーションにより行うものでもよいし、汎用のウェブブラウザにより行うものでもよい。なお、これに限定されず、ユーザが情報処理装置１０を直接操作して、情報処理装置１０の機能を利用するものであってもよい。

【0033】

続いて、情報処理装置１０の動作について説明する。図３は、情報処理装置１０が実行するメタデータ取得処理の一例を示すフローチャートである。メタデータ取得処理は、情報処理装置１０のプロセッサ１１が記憶装置１２に記憶されるプログラムを読み込むことにより実行される。メタデータ取得処理は、例えば、ユーザのメタデータ取得操作に基づいて開始される。

【0034】

メタデータ取得処理において、まず、情報処理装置１０のドキュメント取得部１０１が、構造化ドキュメントのＵＲＬを取得する（ステップＳ１０１）。ＵＲＬは、情報処理装置１０に個別に入力されるものでもよいし、複数のＵＲＬのリストが入力されるものでもよい。

【0035】

続いて、ドキュメント取得部１０１が、インターネットを介して、取得したＵＲＬのウェブページにアクセスする（ステップＳ１０２）。

【0036】

そして、抽出部１０２が、アクセスするウェブページのウェブサイト名（ドメイン等）に応じたＸＰａｔｈ情報を取得する（ステップＳ１０３）。図４は、ウェブサイト別のＸＰａｔｈ情報の一例を示している。図４に示すように、ウェブサイト別のＸＰａｔｈは、ウェブサイト名、該ウェブサイトにおけるウェブページの構造化ドキュメントから複数の要素の記載箇所に対応した要素名（枠名）、該ウェブサイトにおいて要素名で示す要素の記載位置を示すＸＰａｔｈを対応付けた情報である。構造化ドキュメントの取得源となるウェブページを提供するウェブサイト毎のＸＰａｔｈ情報が、情報処理装置１０の記憶装置１２に予め記憶される。そして、抽出部１０２は、取得したＵＲＬに基づき構造化ドキュメントの取得源となるウェブサイトを特定し、構造化ドキュメントの取得源となるウェブサイトに応じたＸＰａｔｈ情報を取得する。言い換えると、抽出部１０２は、構造化ドキュメントの取得源となるウェブサイトに応じて、内部テキストを抽出するためのクエリ式を切り替える。これにより、構造化ドキュメントの取得源に応じて、好適に内部テキストを抽出可能となる。

【0037】

図５は、ウェブページにおいてＸＰａｔｈに基づき抽出される項目の位置の一例を示す図である。図５は、図４におけるウェブサイト名「ＡＡＡ」にて提供されるウェブページの一例を示す。ウェブサイト名「ＡＡＡ」は、映画情報を提供するウェブサイトであり、図４に示すように、要素名として「ｍｏｖｉｅｉｎｆｏ」、「ｓｔａｆｆｉｎｆｏ」、「ｃａｓｔｉｎｆｏ」、「ｍｏｖｉｅｓｐｅｃ」が定義され、それらのＸＰａｔｈが定義されている。図５に示すウェブページにおいて、関連する複数の要素がある程度まとまっており、そのまとまっている部分を枠と捉えて、要素名を定義し、その位置をＸＰａｔｈにより定義している。図４に示す「ＡＡＡ」のＸＰａｔｈは、図５に示すような「ＡＡＡ」のウェブページにおいて、各要素「ｍｏｖｉｅｉｎｆｏ」、「ｓｔａｆｆｉｎｆｏ」、「ｃａｓｔｉｎｆｏ」、「ｍｏｖｉｅｉｎｆｏ」の位置（枠）ｆ１～ｆ４を示している。

【0038】

ステップＳ１０３の処理の後、抽出部１０２は、このようなＸＰａｔｈ情報に基づき、ウェブページの構造化ドキュメントから、各要素名に対応する内部テキストを抽出する（ステップＳ１０４）。

【0039】

なお、ステップＳ１０１～Ｓ１０４は、情報処理装置１０のドキュメント取得部１０１が構造化ドキュメントを取得し、抽出部１０２により内部テキストを抽出する処理をする部分に相当し、構造化ドキュメントがウェブページである場合の例を示している。これ以外の場合、例えば、構造化ドキュメントが直接入力される場合は、ステップＳ１０１、Ｓ１０２の処理を省略すればよい。また、構造化ドキュメントがウェブページ以外である場合、ステップＳ１０３にて構造化ドキュメントに応じた複数のクエリ式を取得し、ステップＳ１０４にて複数のクエリ式に基づいて構造化ドキュメントから内部テキストを抽出すればよい。

【0040】

そして、抽出部１０２は、抽出した内部テキストをクレンジングする（ステップＳ１０５）。具体的には、抽出部１０２は、抽出した内部テキストに、要素名（枠名）を付加して整理し、生成ＡＩサーバ２０への入力データを用意する。なお、内部テキストのクレンジングとして、誤ったデータ、重複データ等を検出し、削除、修正を行うようにしてもよい。

【0041】

図６は、映画情報を提供する「ＡＡＡ」のウェブサイト内のウェブページから抽出され内部テキストに、要素名（枠名）を付加して整理された内部テキストの一例を示している。図６に示すように、抽出された内部テキストの一覧に、抽出に使用したＸＰａｔｈに対応付けられた項目名、ラベルを付加することで、内部テキストの識別性を高めているので、生成ＡＩサーバ２０による情報の理解の精度向上が図れる。

【0042】

続いて、整理部１０３が、ステップＳ１０５にてクレンジングした内部テキストを、生成ＡＩサーバ２０への指示内容を示すプロンプトと共に入力データとして、生成ＡＩサーバ２０に送信する（ステップＳ１０６）。なお、内部テキストのみを入力データと呼んでもよい。

【0043】

図７は、生成ＡＩサーバ２０に対するプロンプト２００の一例を示す。プロンプト２００は、生成ＡＩサーバ２０への命令文、指示文である。具体的には、図７に示すプロンプト２００は、＃タスクに記載されるように、入力データである内部テキスト（図７では＊＊テキスト＊＊）から、＃メタデータテンプレート２０１で指定される項目名のメタデータ（項目テキスト）を抽出することを指示するものである。また、具体的な処理手順は、＃指示の各ステップに定義される。＃指示の記載は、＃タスクの内容が好適に実行できるものであればよい。

【0044】

図７では、＃指示の各ステップとして、＊＊メタデータテンプレート＊＊を使用することの指示（ｓｔｅｐ１）、＊＊テキスト＊＊から＊＊メタデータテンプレート＊＊に記載された項目を抽出することの指示（ｓｔｅｐ２）、抽出時のルールを理解することの指示（ｓｔｅｐ３）、関連情報を抽出することの指示（ｓｔｅｐ４）、抽出結果をレビューすることの指示（ｓｔｅｐ５）、抽出結果を出力することの指示（ｓｔｅｐ６）が含まれる。これら以外のステップが含まれていてもよい。

【0045】

なお、＃等の記号は、生成ＡＩサーバ２０がプロンプトを理解しやすくするためのもので、見出し等を示すものである。説明においては、これらの記号をそのまま記す。なお、プロンプト２００の記載方法、記号の使用方法はこれに限定されず、生成ＡＩサーバ２０の搭載する大規模言語モデルに適した記載であればよい。

【0046】

＃メタデータテンプレート２０１で指定される項目名は、入力データに応じた項目名であり、入力データの取得源である構造化ドキュメント（ウェブページ）から収集したいメタデータの項目名が記載される。よって、＃メタデータテンプレート２０１には、入力データの取得源に応じた項目名が記載されればよい。図７の＃メタデータテンプレート２０１は、図６に示す映画情報の内部テキストが入力データである場合の例を示しており、映画情報に含まれる項目、即ち、メタデータに応じた項目名が記載されている。情報処理装置１０においては、＃メタデータテンプレート２０１を書き換えることで、プロンプト全体を書き換えることなく、情報源（入力データの取得源）に応じたメタデータを取得できる。

【0047】

プロンプト２００の＃指示におけるｓｔｅｐ３には、生成ＡＩサーバ２０がメタデータを抽出する際に理解すべきルールが定義される。当該ルールとして、この実施の形態では、入力データに含まれ得る用語同士の、類義関係ならびに非類義関係を定義したニュアンスリスト２０２が含まれる。ニュアンスリスト２０２における類義関係は、例えば、「原作者」と「Ｃｒｅａｔｏｒ」、「監督」と「チーフディレクター」と「シリーズディレクター」と、いった用語（項目名）の言い換え表現を含む。また、ニュアンスリスト２０２における非類義関係は、「製作年」は「公開日」と必ずしも同一でないので、「製作年は公開日から抽出してはならない」といったルールを含む。＃ニュアンスリスト２０２には、入力データの取得源に応じた、用語同士の類義関係及び非類義関係の少なくともいずれか等が記載されればよい。このようなニュアンスリスト２０２により、入力データに含まれ得る用語同士の、類義関係ならびに非類義関係を定義するので、生成ＡＩサーバ２０によるメタデータの抽出精度の向上を期待できる。また、情報処理装置１０においては、ニュアンスリスト２０２を書き換えることで、プロンプト全体を書き換えることなく、情報源に応じたメタデータを取得できる。

【0048】

また、生成ＡＩサーバ２０が理解すべき抽出する際のルールとしては、文字の変換、年月日の変換、姓名間の「・」やスペースの追加、削除等、表記の統一等が挙げられる。

【0049】

また、プロンプト２００のｓｔｅｐ４の指示における関連情報には、例えば、メタデータ抽出時のエラー情報が含まれる。例えば、ｓｔｅｐ４の指示には、項目名に対応するメタデータ（項目テキスト）を抽出できなかったこと、プロンプト２００の指示内容が理解できず実行できなかったこと等をエラー情報として抽出するような指示が記載される。

【0050】

また、プロンプト２００のｓｔｅｐ６の抽出結果を出力することの指示には、例えば、＃メタデータテンプレート２０１に含まれる項目名と内部テキストから抽出された項目テキストとを対応付けて出力することの指示が含まれる。また、ｓｔｅｐ６の抽出結果を出力することの指示には、メタデータの出力形式の指定が含まれていればよい。メタデータの出力形式としては、プレーンテキスト、ＣＳＶ（Comma-Separated Values）、ＪＳＯＮ（JavaScript Object Notation）等が挙げられる。

【0051】

生成ＡＩサーバ２０は、ステップＳ１０６にて情報処理装置１０から送信された内部テキスト（例えば図６）と、プロンプト（例えば図７）と、を受信すると、プロンプトに従って、内部テキストを処理してメタデータ（項目名に対応する項目テキスト）を抽出し、指定された出力形式で項目テキストを出力データとして情報処理装置１０に返信する。

【0052】

その後、整理部１０３は、生成ＡＩサーバ２０から、入力データとなる内部テキストとプロンプトに応じた出力データの受信を待機する（ステップＳ１０７）。

【0053】

生成ＡＩサーバ２０から出力データを受信すると（ステップＳ１０７；Ｙｅｓ）、検査部１０４は、出力データが入力データに含まれているか否かを検査する（ステップＳ１０８）。検査部１０４は、生成ＡＩサーバ２０から出力データとなる各項目名の項目テキスト（メタデータ）が、整理部１０３がステップＳ１０６で生成ＡＩサーバ２０に送信した入力データとなる内部テキストに含まれているか否かを検査する。

【0054】

なお、検査部１０４は、他の検査として、例えば、項目名と項目テキストを比較して、項目名の誤認がないかを検査するようにしてもよい。例えば、項目名として、スタッフ及びキャストがある場合、キャストをスタッフと誤認していないか、または、その逆がないかを確認するようにしてもよい。

【0055】

なお、検査部１０４が、出力データに入力データに含まれていない項目テキストがあると判定した場合、出力データである項目テキストの該当箇所を指定して、生成ＡＩサーバ２０に訂正させるように指示してもよい。

【0056】

ステップＳ１０８の後、整理部１０３は、生成ＡＩサーバ２０からの出力データである項目テキスト（メタデータ）を、所定の出力形式に整形する（ステップＳ１０９）。出力形式は例えばＴＳＶ（Tab-Separated Values）、ＣＳＶ等である。ユーザが出力形式を指定できようにしてもよい。なお、出力形式への整形についても生成ＡＩサーバ２０に実行させるようにしてもよいし、所定の出力形式が生成ＡＩサーバ２０から出力可能な形式であれば、当該所定の出力形式で生成ＡＩサーバ２０から出力データを出力させるようにしてもよい。

【0057】

そして、出力部１０６は、整形した出力データとなるメタデータ（項目テキストの一覧等）を出力する（ステップＳ１１０）。また、ステップＳ１０８における検査において、出力データに入力データに含まれていない項目テキストがあると判定された場合、警告部１０５は、入力データに含まれていない項目テキストを警告する等の警告情報を生成する。そして、ステップＳ１１０では、出力部１０６は、警告情報を出力データと共に出力する。ステップＳ１１０の処理の後は、メタデータ取得処理を終了する。このような警告情報を出力することで、誤って生成されたメタデータを警告することができ、誤って生成されたメタデータが他で利用されることを防止できる。また、情報処理装置１０におけるＸｐａｔｈ情報やプロンプトの改善、改良にも繋がり、メタデータ取得時のエラーの低減や、生成ＡＩサーバ２０におけるハルシネーションの発生低減も期待できる。

【0058】

ステップＳ１１０では、出力部１０６は、例えば、情報処理装置１０と直接接続された表示装置、通信ネットワークを介して接続された端末装置等に表示出力する。また、出力部１０６は、例えば、通信ネットワークを介して接続された端末装置にファイルとしてダウンロード可能に出力する。出力データとなるメタデータの出力方法、出力先は、情報処理装置１０のユーザやオペレータ等により指定されたものであればよい。そして、ユーザやオペレータにより、出力データとなるメタデータが利用可能であればよい。これにより、ユーザやオペレータに対して好適に出力データとなるメタデータを抽出し、出力できる。

【0059】

また、ステップＳ１０１にてなお、複数のＵＲＬのリストと入力された場合には、各ＵＲＬに応じたウェブサイトについてステップＳ１０２～Ｓ１１０の処理を実行する。これにより、複数の構造化ドキュメントから自動的にメタデータを収集でき、収集したメタデータを活用することができる。また、複数の構造化ドキュメントからメタデータを収集する際の人的コストや時間を大幅に低減できる。

【0060】

続いて、ユーザが端末装置により情報処理装置１０を利用してメタデータを取得する場合の表示例を説明する。ユーザがパーソナルコンピュータ、スマートフォン、タブレット等の通信可能な端末装置により、ウェブブラウザ１１０を介して情報処理装置１０に接続すると、例えば図８（Ａ）に示すようなメタデータを取得するためのウェブサイトのトップページが表示される。当該トップページのサイドバー１２０には、メタデータの取得源となるウェブページのＵＲＬを追加するためのＵＲＬ追加ボタン１２１、メタデータの取得源となるウェブページのＵＲＬのリストを追加するためのリスト追加ボタン１２２、入力されたＵＲＬのウェブページからメタデータの取得を開始するための開始ボタン１２３が表示される。

【0061】

ＵＲＬ追加ボタン１２１がポインタ１４０により選択操作されると、個別のＵＲＬのテキストを入力可能となる。リスト追加ボタン１２２がポインタ１４０により選択操作されると、例えばＣＳＶ、ＴＳＶ形式等でＵＲＬのリストをアップロード可能となり、これによりＵＲＬリストを入力可能となる。メインコンテンツ部１３０には、入力されたＵＲＬ一覧１３１が表示される。ＵＲＬ一覧１３１には、例えば、入力されたＵＲＬに含まれるコンテンツを識別するためのコンテンツＩＤとコンテンツ名とが含まれる。コンテンツＩＤ、コンテンツ名は、手動または自動で入力されればよい。

【0062】

メタデータの取得源となるウェブページのＵＲＬが入力された状態で開始ボタン１２３がポインタ１４０により選択操作されると、情報処理装置１０が、図３のメタデータ取得処理を実行することにより、入力されたＵＲＬのウェブページからメタデータを取得するための処理が開始され、図８（Ｂ）に示すように、メインコンテンツ部１３０には、メタデータを取得するための処理の進行状況を示すステータス表示１３２が表示され、取得済みのメタデータのプレビューを表示するためのプレビュー表示１３３が表示される。また、ＵＲＬ一覧１３１にもメタデータを取得するための処理の進行状況を示す項目が追加される。図８（Ｂ）ではコンテンツ名「ｎａｍｅ１」のメタデータの取得が完了し、コンテンツ名「ｎａｍｅ２」のメタデータの取得中であることに対応した表示となっている。

【0063】

入力されたＵＲＬのウェブページからメタデータの取得が完了すると、図９（Ａ）に示すように、メインコンテンツ部１３０では、ＵＲＬ一覧１３１、ステータス表示１３２及びプレビュー表示１３３が取得完了に対応した表示となり、取得した全てのメタデータをダウンロードするためのダウンロードボタン１３４が表示される。ダウンロードボタン１３４が操作されると、ユーザの端末装置に取得した全てのメタデータをダウンロード可能となる。

【0064】

図９（Ａ）に示すプレビュー表示１３３におけるコンテンツ名「ｎａｍｅ１」の項目がポインタ１４０により選択操作されると、図９（Ｂ）に示すように、コンテンツ名「ｎａｍｅ１」のメタデータプレビュー１３３Ａが表示される。メタデータプレビュー１３３Ａには、コンテンツ名、取得源のＵＲＬ、コンテンツ名「ｎａｍｅ１」のメタデータを個別にダウンロードするためのダウンロードボタン１３５、メタデータ一覧１３６、取得源のＵＲＬのウェブページから抽出した内部テキスト１３７が含まれる。ダウンロードボタン１３５が操作されると、ユーザの端末装置に取得したコンテンツ名「ｎａｍｅ１」のメタデータをダウンロード可能となる。メタデータ一覧１３６には、内部テキスト１３７から抽出した項目テキストと項目名とが対応付けて表示される。メタデータ一覧１３６には項目名に番号が付される。内部テキスト１３７は、図６に示すような、取得源のウェブページから抽出された内部テキストが表示される。このようにして、ユーザは入力したウェブページからメタデータを取得し、表示、ダウンロードできる。

【0065】

入力されたＵＲＬのウェブページからメタデータの取得した後、検査部１０４により出力データ（メタデータ）に入力データ（内部テキスト）に含まれていない項目テキストがあると判定された場合、図１０に示すように、メインコンテンツ部１３０では、ＵＲＬ一覧１３１、ステータス表示１３２がタスクは終了したが、エラーがあったことを示す表示となる。また、対象のコンテンツ名「ｎａｍｅ３」のメタデータプレビュー１３３Ｂには、警告情報１３８が表示される。警告情報１３８には、内部テキストに含まれていない項目テキストの情報等が表示されればよい。

【0066】

また、図１０の場合、コンテンツ名「ｎａｍｅ３」のメタデータをダウンロードするためのダウンロードボタンは表示されない。これにより、不正確に抽出されたメタデータをユーザに提供してしまうことを防止できる。

【0067】

図８～図１０では、汎用のウェブブラウザ１１０を介して情報処理装置１０に接続し、メタデータを取得するためのウェブサイトの画面が表示される例を示したが、専用のアプリケーションにより情報処理装置１０に接続し、メタデータを取得するための画面が表示されるようにしてもよい。

【0068】

以上説明したように、情報処理装置１０の抽出部１０２が、複数のクエリ式に基づいて、複数の要素を、構造化ドキュメントから、それぞれ抽出し、整理部１０３が、生成モデルを搭載した生成ＡＩサーバ２０へ、抽出された複数の要素のそれぞれに係る内部テキストを入力データとして与えて、複数の項目名に複数の項目テキストをそれぞれ対応付けて整理すべき旨を指示するプロンプトにより、出力データを出力させる。これにより、生成モデルを利用してデータの整理を行う場合の精度を向上させることができる。

【0069】

（変形例）
なお、この発明は、上記実施の形態に限定されず、様々な変形及び応用が可能である。例えば、上記実施の形態の一部の省略、置き換え、任意の構成の追加等が可能である。

【0070】

上記実施の形態の情報処理装置１０では、検査部１０４が、複数の項目名の各項目名について、当該各項目名に対応付けられる項目テキストが、構造化ドキュメントの内部テキストに含まれるか否かを検査し、警告部１０５が、検査部１０４により含まれないとされた項目テキストを警告する警告情報を出力するようになっていた。これに限定されず、当該検査と警告情報の出力を生成ＡＩサーバ２０に行わせるようにしてもよい。例えば、情報処理装置１０の整理部１０３が、生成ＡＩサーバ２０に、複数の項目名の各項目名について、当該各項目名に対応付けられる項目テキストが、構造化ドキュメントの内部テキストに含まれるか否かを検査させ、該検査により含まれないとされた項目テキストを警告する警告情報を、出力データにおける所定の警告項目名に埋め込ませるように、プロンプトにより指示するようにしてもよい。

【0071】

上記実施の形態では、情報処理装置１０は、構造化ドキュメントの取得源となるウェブページのＵＲＬ（Uniform Resource Locator）の入力を受け付けることで、当該ウェブページから構造化ドキュメントを取得し、構造化ドキュメントからメタデータ（項目テキスト）を取得していた。これに限定されず、情報処理装置１０は、所定のコンテンツについて、複数のウェブページ、複数のウェブサイトから構造化ドキュメントを取得し、複数の構造化ドキュメントからメタデータを取得するようにしてもよい。この場合、情報処理装置１０は、メタデータのうち一の項目を第１のウェブサイトから取得し、メタデータのうち他の項目を第２のウェブサイトから取得するようにしてもよい。また、特定のメタデータについて、いずれのウェブサイトから取得するかを選択できるようにしてよい。

【0072】

上記実施の形態では、情報処理装置１０が、外部の生成ＡＩサーバ２０を利用して構造化ドキュメントからメタデータ（項目テキスト）を取得していたが、情報処理装置１０が、生成モデルを備え、当該生成モデルにより構造化ドキュメントからメタデータ（項目テキスト）を取得するようにしてもよい。

【0073】

上記実施の形態では、抽出部１０２が抽出した内部テキストに、要素名（枠名）を付加して整理し、生成ＡＩサーバ２０への入力データを用意するようにしていたが、抽出部１０２が抽出した内部テキストをそのまま生成ＡＩサーバ２０へ入力するようにしてもよい。

【0074】

上記実施の形態では、情報処理装置１０が、映画情報を提供するウェブサイトからメタデータ（項目テキスト）を抽出、取得する例について説明したが、構造化ドキュメントの取得源は任意でよい。取得源がウェブサイトの場合、対象のウェブサイトは、所定の分野（例えば映画、音楽、スポーツ、ゲーム等）において各種の情報を提供するウェブサイト等であればよい。

【0075】

情報処理装置１０は、専用の装置によらず、通常のコンピュータを用いて実現可能である。例えば、コンピュータに上述の機能を実行するためのプログラムを格納した記録媒体から該プログラムをコンピュータにインストールすることにより、上述の処理を実行する情報処理装置１０を構成してもよい。また、複数のコンピュータが協同して動作することによって、１つの情報処理装置１０を構成しても良い。

【0076】

また、コンピュータにプログラムを供給するための手法は、任意である。例えば、通信回線、通信ネットワーク、通信システム等を介して供給しても良い。例えば、上述の機能を実行するためのプログラムを格納した非一時的なコンピュータ読取可能な記録媒体を配布してもよい。

【0077】

また、上述の機能の一部をＯＳ（Operation System）が提供する場合には、ＯＳが提供する機能以外の部分をプログラムで提供すれば良い。

【0078】

以上説明した実施の形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態で説明したフローチャート、シーケンス、実施形態が備える各要素並びにその配置等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。

【0079】

(本実施例により実現される発明)
以上説明したように、本実施形態は、以下に掲げる発明を実現する。

【0080】

（付記１）
複数のクエリ式に基づいて、複数の要素を、構造化ドキュメントから、それぞれ抽出する抽出部、
生成モデルへ、前記抽出された複数の要素のそれぞれに係る内部テキストを入力データとして与えて、複数の項目名に複数の項目テキストをそれぞれ対応付けて整理すべき旨を指示するプロンプトにより、出力データを出力させる整理部
を備える情報処理装置。

【0081】

（付記２）
前記構造化ドキュメントは、ＳＧＭＬ文書、ＸＭＬ文書、もしくは、ＨＴＭＬ文書であり、
前記複数のクエリ式のそれぞれは、ＸＰａｔｈにより表現され、
前記複数の要素のそれぞれに係るｔｅｘｔＣｏｎｔｅｎｔ属性もしくはｉｎｎｅｒＴｅｘｔ属性を、当該それぞれに係る内部テキストとし、
前記生成モデルは、大規模言語モデルである
付記１に記載の情報処理装置。

【0082】

（付記３）
前記複数の項目名の各項目名について、当該各項目名に対応付けられる項目テキストが、前記構造化ドキュメントの内部テキストに含まれるか否かを検査する検査部、
前記検査部により含まれないとされた項目テキストを警告する警告情報を出力する警告部
をさらに備える付記１または２に記載の情報処理装置。

【0083】

（付記４）
前記整理部は、前記生成モデルに、前記複数の項目名の各項目名について、当該各項目名に対応付けられる項目テキストが、前記構造化ドキュメントの内部テキストに含まれるか否かを検査させ、該検査により含まれないとされた項目テキストを警告する警告情報を、前記出力データにおける所定の警告項目名に埋め込ませる
付記１または２に記載の情報処理装置。

【0084】

（付記５）
前記抽出部による抽出に先立って、取得源の指定を受け付け、前記指定された取得源から前記構造化ドキュメントを取得する取得部
をさらに備え、
前記抽出部は、前記指定された取得源に応じて、前記複数のクエリ式を切り換える
付記１から４のいずれかに記載の情報処理装置。

【0085】

（付記６）
前記複数のクエリ式のそれぞれには枠名が対応付けられ、
前記入力データは、前記それぞれに係る内部テキストに、当該内部テキストを抽出するために使用したクエリ式に対応付けられる枠名を対応付ける情報を含む
付記１から５のいずれかに記載の情報処理装置。

【0086】

（付記７）
前記プロンプトは、前記入力データに含まれ得る用語同士の、類義関係ならびに非類義関係を、さらに定義する
付記１から６のいずれかに記載の情報処理装置。

【0087】

（付記８）
情報処理装置が、
複数のクエリ式に基づいて、複数の要素を、構造化ドキュメントから、それぞれ抽出し、
生成モデルへ、前記抽出された複数の要素のそれぞれに係る内部テキストを入力データとして与えて、複数の項目名に複数の項目テキストをそれぞれ対応付けて整理すべき旨を指示するプロンプトにより、出力データを出力させる
情報処理方法。

【0088】

（付記９）
コンピュータを、
複数のクエリ式に基づいて、複数の要素を、構造化ドキュメントから、それぞれ抽出する抽出部、
生成モデルへ、前記抽出された複数の要素のそれぞれに係る内部テキストを入力データとして与えて、複数の項目名に複数の項目テキストをそれぞれ対応付けて整理すべき旨を指示するプロンプトにより、出力データを出力させる整理部
として機能させるプログラム。

【産業上の利用可能性】

【0089】

本発明によれば、生成モデルを利用してデータの整理を行う場合の精度を向上させる情報処理装置、情報処理方法、ならびに、プログラムを提供できる。

【符号の説明】

【0090】

１０情報処理装置、２０生成ＡＩサーバ、１１プロセッサ、１２記憶装置、１３通信インターフェース、１４入力デバイス、１５出力デバイス、１００情報処理システム、１０１ドキュメント取得部、１０２抽出部、１０３整理部、１０４検査部、１０５警告部、１０６出力部

【要約】

【課題】生成モデルを利用してデータの整理を行う場合の精度を向上させる。
【解決手段】情報処理装置１０は、複数のクエリ式に基づいて、複数の要素を、構造化ドキュメントから、それぞれ抽出する抽出部１０２、生成ＡＩサーバ２０モデルへ、抽出された複数の要素のそれぞれに係る内部テキストを入力データとして与えて、複数の項目名に複数の項目テキストをそれぞれ対応付けて整理すべき旨を指示するプロンプトにより、出力データを出力させる整理部１０３、を備える。
【選択図】図１