(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-10-08
(45)【発行日】2024-10-17
(54)【発明の名称】情報処理システム、情報処理方法及びプログラム
(51)【国際特許分類】
G06Q 50/26 20240101AFI20241009BHJP
G06N 3/0475 20230101ALI20241009BHJP
G06N 3/09 20230101ALI20241009BHJP
G06N 20/00 20190101ALI20241009BHJP
G06Q 50/10 20120101ALN20241009BHJP
【FI】
G06Q50/26
G06N3/0475
G06N3/09
G06N20/00 130
G06Q50/10
(21)【出願番号】P 2024062149
(22)【出願日】2024-04-08
(62)【分割の表示】P 2023088934の分割
【原出願日】2023-05-30
【審査請求日】2024-04-08
【早期審査対象出願】
(73)【特許権者】
【識別番号】521425652
【氏名又は名称】株式会社ゼロボード
(72)【発明者】
【氏名】木戸 祐亮
(72)【発明者】
【氏名】上村 恭平
【審査官】上田 威
(56)【参考文献】
【文献】特許第7132580(JP,B1)
【文献】特開2021-196840(JP,A)
【文献】特開2022-091577(JP,A)
【文献】特開2022-121298(JP,A)
【文献】特開2023-049369(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00 - 99/00
G06N 3/0475
G06N 3/09
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
学習済み言語モデルに基づいて回答を生成する生成器に対して、温室効果ガスを排出する活動の活動量を含む帳票データから抽出された文字列、ならびに、抽出するべき前記活動量の種類及び前記活動量に対応するスコープを生成させる指示を与え、前記生成器に前記種類及び前記スコープを生成させる生成処理部
を備えることを特徴とする情報処理システム。
【請求項2】
請求項1に記載の情報処理システムであって、
前記生成処理部は、
前記活動を特定する活動特定情報と前記スコープとを対応付ける情報を前記指示に含めて前記生成器に与えること、
を特徴とする情報処理システム。
【請求項3】
請求項2に記載の情報処理システムであって、
複数の前記活動が木構造を構成し、
前記生成処理部は、第1の前記活動特定情報と、前記スコープと、前記第1の活動特定情報により特定される第1の前記活動の前記木構造における親又は子となる第2の前記活動を特定する第2の前記活動特定情報とを前記指示に含めて前記生成器に与えること、
を特徴とする情報処理システム。
【請求項4】
学習済み言語モデルに基づいて回答を生成する生成器に対して、温室効果ガスを排出する活動の活動量を含む帳票データから抽出された文字列、ならびに、抽出するべき前記活動量の種類及び前記活動量に対応するスコープを生成させる指示を与え、前記生成器に前記種類及び前記スコープを生成させるステップ
をコンピュータが実行することを特徴とする情報処理方法。
【請求項5】
学習済み言語モデルに基づいて回答を生成する生成器に対して、温室効果ガスを排出する活動の活動量を含む帳票データから抽出された文字列、ならびに、抽出するべき前記活動量の種類及び前記活動量に対応するスコープを生成させる指示を与え、前記生成器に前記種類及び前記スコープを生成させるステップ
をコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
OCR処理によって文書における特定の領域から文字データを取得するOCRシステムが知られている(例えば、特許文献1参照。)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
文書から読み取った文字列がどのような意味を持つのかを解釈する必要がある。
【0005】
本発明はこのような背景を鑑みてなされたものであり、帳票から特定の情報を容易に抽出することのできる技術を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記課題を解決するための本発明の主たる発明は、情報処理システムであって、温室効果ガスを排出する活動の活動量を含む帳票データから文字列を抽出する文字列抽出部と、学習済み言語モデルに基づいて回答を生成する生成器に対して、前記文字列、ならびに、前記活動量と前記活動量に対応するスコープとを生成させる指示を与え、前記生成器に前記活動量及び前記スコープを生成させる生成処理部と、を備えることを特徴とする。
【0007】
その他本願が開示する課題やその解決方法については、発明の実施形態の欄及び図面により明らかにされる。
【発明の効果】
【0008】
本発明によれば、帳票から特定の情報を容易に抽出することができる。
【図面の簡単な説明】
【0009】
【
図1】情報処理システムの全体構成例を示す図である。
【
図2】管理サーバ2のハードウェア構成例を示す図である。
【
図3】管理サーバ2のソフトウェア構成例を示す図である。
【発明を実施するための形態】
【0010】
<発明の概要>
本発明の実施形態の内容を列記して説明する。本発明は、たとえば、以下のような構成を備える。
[項目1]
温室効果ガスを排出する活動の活動量を含む帳票データから文字列を抽出する文字列抽出部と、
学習済み言語モデルに基づいて回答を生成する生成器に対して、前記文字列、ならびに、前記活動量と前記活動量に対応するスコープとを生成させる指示を与え、前記生成器に前記活動量及び前記スコープを生成させる生成処理部と、
を備えることを特徴とする情報処理システム。
[項目2]
項目1に記載の情報処理システムであって、
前記生成処理部は、
前記活動を特定する活動特定情報と前記スコープとを対応付ける情報を前記生成器に学習させ、
前記文字列、ならびに、前記活動量と前記スコープと前記活動特定情報とを生成させる指示を前記生成器に与えて、前記生成器に前記活動量、前記スコープ及び前記活動特定情報を生成させること、
を特徴とする情報処理システム。
[項目3]
項目2に記載の情報処理システムであって、
複数の前記活動が木構造を構成し、
前記生成処理部は、第1の前記活動特定情報と、前記スコープと、前記第1の活動特定情報により特定される第1の前記活動の前記木構造における親又は子となる第2の前記活動を特定する第2の前記活動特定情報とを前記生成器に学習させること、
を特徴とする情報処理システム。
[項目4]
温室効果ガスの排出に係る活動量を含む帳票データから文字列を抽出するステップと、
学習済み言語モデルに基づいて回答を生成する生成器に対して、前記文字列、ならびに、抽出するべき前記活動量の種類及び前記活動量に対応するスコープを生成させる指示を与え、前記生成器に前記種類に係る前記活動量及び前記スコープを生成させるステップと、
をコンピュータが実行することを特徴とする情報処理方法。
[項目5]
温室効果ガスの排出に係る活動量を含む帳票データから文字列を抽出するステップと、
学習済み言語モデルに基づいて回答を生成する生成器に対して、前記文字列、ならびに、抽出するべき前記活動量の種類及び前記活動量に対応するスコープを生成させる指示を与え、前記生成器に前記種類に係る前記活動量及び前記スコープを生成させるステップと、
をコンピュータに実行させるためのプログラム。
【0011】
<システムの概要>
以下、本発明の一実施形態に係る情報処理システムについて説明する。本実施形態の情報処理システムでは、帳票データ(例えば、伝票や領収書、納品書など企業の経済活動に関する各種の書類に関するデータを広く含む。帳票データは、テキストデータや文書データ、画像データなどとすることができる。)から、温室効果ガスを排出する活動に係る活動量を抽出するとともに、当該活動の種類(GHGプロトコルにおけるスコープ及び/又はカテゴリ)を特定する。本実施形態では、GPT(Generative Pretrained Transformer)などのLLM(Large Language Model;大規模言語モデル)を用いて、帳票データからの活動量の抽出と、活動量の種類の特定を行う。
【0012】
図1は、情報処理システムの全体構成例を示す図である。本実施形態の情報処理システムは、管理サーバ2を含んで構成される。管理サーバ2は、ユーザ端末1と通信ネットワークを介して通信可能に接続される。通信ネットワークは、たとえばインターネットであり、公衆電話回線網や携帯電話回線網、無線通信路、イーサネット(登録商標)などにより構築される。
【0013】
ユーザ端末1は、ユーザが操作するコンピュータである。ユーザ端末1は、例えば、スマートフォン、タブレットコンピュータ、パーソナルコンピュータなどとすることができる。
【0014】
管理サーバ2は、例えばワークステーションやパーソナルコンピュータのような汎用コンピュータとしてもよいし、あるいはクラウド・コンピューティングによって論理的に実現されてもよい。
【0015】
<管理サーバ>
図2は、管理サーバ2のハードウェア構成例を示す図である。なお、図示された構成は一例であり、これ以外の構成を有していてもよい。管理サーバ2は、CPU201、メモリ202、記憶装置203、通信インタフェース204、入力装置205、出力装置206を備える。記憶装置203は、各種のデータやプログラムを記憶する、例えばハードディスクドライブやソリッドステートドライブ、フラッシュメモリなどである。通信インタフェース204は、通信ネットワーク3に接続するためのインタフェースであり、例えばイーサネット(登録商標)に接続するためのアダプタ、公衆電話回線網に接続するためのモデム、無線通信を行うための無線通信機、シリアル通信のためのUSB(Universal Serial Bus)コネクタやRS232Cコネクタなどである。入力装置205は、データを入力する、例えばキーボードやマウス、タッチパネル、ボタン、マイクロフォンなどである。出力装置206は、データを出力する、例えばディスプレイやプリンタ、スピーカなどである。なお、後述する管理サーバ装置2の各機能部はCPU201が記憶装置203に記憶されているプログラムをメモリ202に読み出して実行することにより実現され、管理サーバ2の各記憶部はメモリ202及び記憶装置203が提供する記憶領域の一部として実現される。
【0016】
図3は、管理サーバ2のソフトウェア構成例を示す図である。管理サーバ2は、生成器210と、文字列抽出部211と、生成処理部212と、を備える。
【0017】
生成器210は、学習済み言語モデルに基づいて回答を生成する。生成器210は、機械学習により学習された学習済み言語モデル及びそのモデルを用いて文字列を生成する機能であってよい。本実施形態では、学習済み言語モデルはGPTを想定する。なお、学習済み言語モデルを管理サーバ2が管理せず、外部サーバが学習済みモデルを備えるようにし、外部サーバが提供するAPIを呼び出すことにより、学習済み言語モデルを用いて、指示に対する回答を生成させるようにしてもよい。
【0018】
文字列抽出部211は、帳票データから文字列を抽出する。帳票データには、温室効果ガスを排出する活動の活動量が含まれることを想定する。帳票データがテキストデータである場合には、文字列抽出部211は、テキストデータの内容を読み出すことができる。帳票データが画像データである場合には、文字列抽出部211は、公知のOCR処理により画像データに描画されている文字列を抽出することができる。帳票データが、ワードプロセッサ文書や表計算文書などのバイナリデータである場合には、文字列抽出部211は、これらのバイナリデータから、公知の手法により文字列データを抽出するようにすることができる。
【0019】
生成処理部212は、生成器210に活動量及びスコープ(及び/又はカテゴリ)を生成させる。生成処理部212は、生成器210に対して、文字列抽出部211が抽出した文字列と、指定した活動量を生成させる指示と、活動量に対応するスコープ(及び/又はカテゴリ)を生成させる指示とを与えることで、生成器210に活動量及びスコープ(及び/又はカテゴリ)を生成させることができる。
【0020】
生成処理部212は、活動を特定する活動特定情報とスコープ(及び/又はカテゴリ)とを対応付ける情報を生成器に学習させることができる。生成処理部212は、活動特定情報と、スコープ及び/又はカテゴリとを対応付けるデータを、事前に学習済み言語モデルに学習させるファインチューニングを行うようにしてもよいし、活動特定情報と、スコープ及び/又はカテゴリとを対応付けるデータを、生成器210に与える指示(プロンプト)に含めるようにしてもよい。生成処理部212は、帳票データから抽出された文字列と、スコープ及び活動特定情報を生成させる旨の指示とを生成器210に与えて、生成器210に指示した活動に係る活動量と、スコープと、活動特定情報とを生成させることができる。
【0021】
また、複数の活動が木構造を構成する場合(活動の大分類、小分類、詳細などが定義されているような場合)に、木構造を学習させるようにしてもよい。この場合、生成処理部212は、例えば、第1の活動特定情報と、スコープと、第1の活動特定情報により特定される第1の活動の木構造における親又は子となる第2の活動を特定する第2の活動特定情報とを生成器210に学習させるようにすることができる。ここでの学習も、事前にファインチューニングにより学習済み言語モデルを更新するようにしてもよいし、プロンプトに上記木構造を特定する情報(第1及び第2の活動特定情報の親子関係を示す情報)を含めるようにしてもよい。これにより、生成処理部212は、帳票データに含まれている文字列から、複数階層の活動特定情報を生成させるようにすることができる。
【0022】
また、活動を示す情報と活動を示す情報をベクトル化した情報とを記録するベクトル記憶部を管理サーバ2が備えるようにし、生成処理部212は、文字列抽出部211が抽出した文字列をベクトル化し、文字列のベクトルに近いベクトルに対応する活動を示す情報をベクトル記憶部から読み出して、生成器210に与えるプロンプトに含めるようにしてもよい。ベクトル記憶部に記憶されている専門情報(活動を示す情報)を学習データとして生成器210に与えて、活動量及びスコープ(及び/又はカテゴリ)を生成させることができる。
【0023】
<動作>
図4は、管理サーバ2の動作を説明する図である。
【0024】
管理サーバ2は、ユーザ端末1から帳票データを受信して、受信した帳票データから文字列を抽出し(S301)、活動特定情報とスコープとの組み合わせを含む学習データと、帳票データから抽出した文字列と、活動量、スコープ及び活動特定情報を生成させる指示とを生成器210に与え(S302)、生成器210により生成される活動量、スコープ及び活動特定情報を取得して出力する(S303)。
【0025】
以上のようにして、本実施形態の情報処理システムによれば、帳票データから効率的に温室効果ガスを排出する活動に係る活動量と、その活動のスコープ及び/又はカテゴリとを生成させることができる。
【0026】
以上、本実施形態について説明したが、上記実施形態は本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明は、その趣旨を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物も含まれる。
【符号の説明】
【0027】
1 ユーザ端末
2 管理サーバ
【要約】
【課題】帳票から特定の情報を容易に抽出することができるようにする。
【解決手段】情報処理システムであって、温室効果ガスを排出する活動の活動量を含む帳票データから文字列を抽出する文字列抽出部と、学習済み言語モデルに基づいて回答を生成する生成器に対して、文字列、ならびに、活動量と活動量に対応するスコープとを生成させる指示を与え、生成器に活動量及びスコープを生成させる生成処理部と、を備えることを特徴とする。
【選択図】
図1