(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-02-02
(45)【発行日】2024-02-13
(54)【発明の名称】印刷物に印刷された文字情報を収集する方法、プログラム及び情報処理装置
(51)【国際特許分類】
G06V 30/41 20220101AFI20240205BHJP
【FI】
G06V30/41
(21)【出願番号】P 2023161674
(22)【出願日】2023-09-25
【審査請求日】2023-09-26
【新規性喪失の例外の表示】特許法第30条第2項適用 2023年4月18日に株式会社タスキがウェブサイトにて公開
【早期審査対象出願】
(73)【特許権者】
【識別番号】522487055
【氏名又は名称】株式会社ZISEDAI
(74)【代理人】
【識別番号】100108006
【氏名又は名称】松下 昌弘
(72)【発明者】
【氏名】程 宏輝
【審査官】伊知地 和之
(56)【参考文献】
【文献】Vincent Perot et al.,LMDX:Language Model-based Document Information Extraction and Localization,arXiv.org[online],米国,Cornell University Liblary,2023年09月19日,pp.1-21,[検索日 2023.11.01],インターネット:<URL:https://arxiv.org/pdf/2309.10952.pdf>
【文献】神戸宏之,追加学習が不要な「GPT-3」 文章生成などビジネス活用も,日経コンピュータ,日本,日経BP,2022年07月21日,No.1073,pp.080~083
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00 - 16/958
G06V 30/00 - 30/12
G06V 30/14 - 30/168
G06V 30/18 - 30/222
G06V 30/224
G06V 30/226 - 30/32
G06V 30/40 - 30/416
G06V 30/42 - 30/424
CSDB(日本国特許庁)
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
印刷物に印刷された文字情報を情報処理装置が収集する方法であって、
前記情報処理装置が、光学文字認識により前記印刷物の画像から読み取られた一群の文字列を取得する工程と、
前記情報処理装置が、所定の1以上の項目に関する1以上の前記文字情報を前記一群の文字列から抽出するように大規模言語モデルへ指示を与える第1プロンプトを生成する工程と、
前記情報処理装置が、生成した前記第1プロンプトを前記大規模言語モデルに提供し、当該第1プロンプトに応じて前記一群の文字列から抽出された1以上の前記文字情報を前記大規模言語モデルから取得する工程と
を有し、
前記第1プロンプトを生成する工程は、一の前記項目に関する前記文字情報を前記一群の文字列から抽出できない場合、当該一の項目に関する前記文字情報が不明であることを回答するように指示する前記第1プロンプトを生成することを含む、
方法。
【請求項2】
印刷物に印刷された文字情報を情報処理装置が収集する方法であって、
前記情報処理装置が、光学文字認識により前記印刷物の画像から読み取られた一群の文字列を取得する工程と、
前記情報処理装置が、所定の1以上の項目に関する1以上の前記文字情報を前記一群の文字列から抽出するように大規模言語モデルへ指示を与える第1プロンプトを生成する工程と、
前記情報処理装置が、生成した前記第1プロンプトを前記大規模言語モデルに提供し、当該第1プロンプトに応じて前記一群の文字列から抽出された1以上の前記文字情報を前記大規模言語モデルから取得する工程と
、
前記情報処理装置が、前記一群の文字列から抽出する情報の種類に関する種類情報を取得する工程とを有し、
前記第1プロンプトを生成する工程は、前記種類情報が示す前記種類について定められた1以上の前記項目に関する1以上の前記文字情報を前記一群の文字列から抽出するように指示する前記第1プロンプトを生成することを含む、
方法。
【請求項3】
前記種類情報を取得する工程は、
前記種類を特徴付ける所定のキーワードを前記一群の文字列において検索することと、
検索により見つかった前記キーワードに基づいて前記種類を判定することとを含む、
請求項2に記載の方法。
【請求項4】
前記種類情報を取得する工程は、
所定の複数の前記種類から該当する1つの前記種類を前記一群の文字列に基づいて判定するように前記大規模言語モデルへ指示を与える第2プロンプトを生成することと、
生成した前記第2プロンプトを前記大規模言語モデルに提供し、当該第2プロンプトに応じて判定された前記種類を前記大規模言語モデルから取得することとを含む、
請求項2に記載の方法。
【請求項5】
印刷物に印刷された文字情報を情報処理装置が収集する方法であって、
前記情報処理装置が、光学文字認識により前記印刷物の画像から読み取られた一群の文字列を取得する工程と、
前記情報処理装置が、所定の1以上の項目に関する1以上の前記文字情報を前記一群の文字列から抽出するように大規模言語モデルへ指示を与える第1プロンプトを生成する工程と、
前記情報処理装置が、生成した前記第1プロンプトを前記大規模言語モデルに提供し、当該第1プロンプトに応じて前記一群の文字列から抽出された1以上の前記文字情報を前記大規模言語モデルから取得する工程と
を有し、
前記第1プロンプトを生成する工程は、少なくとも一部の前記項目について、前記一群の文字列から前記項目に関する前記文字情報を抽出する第1指示と、前記一群の文字列中の前記項目に関するキーワードに基づいて前記項目に関する関連情報をウェブ検索により収集する第2指示とを含んだ前記第1プロンプトを生成することを含み、
前記文字情報を取得する工程は、前記第1指示に応じて抽出された前記文字情報と、前記第2指示に応じて収集された前記関連情報とを前記大規模言語モデルから取得することを含み、
前記情報処理装置が、一の前記項目について前記大規模言語モデルから取得した前記文字情報を、当該一の項目について取得した前記関連情報に応じて修正する工程を有する、
方法。
【請求項6】
文字情報を修正する工程は、前記関連情報のウェブ上での公開日が前記印刷物の発行日より後の場合、前記文字情報を前記関連情報に応じて修正することを含む、
請求項5に記載の方法。
【請求項7】
印刷物に印刷された文字情報を情報処理装置が収集する方法であって、
前記情報処理装置が、光学文字認識により前記印刷物の画像から読み取られた一群の文字列を取得する工程と、
前記情報処理装置が、所定の1以上の項目に関する1以上の前記文字情報を前記一群の文字列から抽出するように大規模言語モデルへ指示を与える第1プロンプトを生成する工程と、
前記情報処理装置が、生成した前記第1プロンプトを前記大規模言語モデルに提供し、当該第1プロンプトに応じて前記一群の文字列から抽出された1以上の前記文字情報を前記大規模言語モデルから取得する工程と
を有し、
前記第1プロンプトを生成する工程は、少なくとも一部の前記項目について、前記一群の文字列から前記項目に関する前記文字情報を抽出する第1指示と、前記一群の文字列中の前記項目に関するキーワードに基づいて前記項目に関する関連情報をウェブ検索により収集する第2指示と、前記第2指示に応じて一の前記項目について収集された前記関連情報から、当該一の項目についての前記文字情報を抽出する第3指示とを含んだ前記第1プロンプトを生成することを含み、
前記文字情報を取得する工程は、前記第1指示に応じて前記一群の文字列から抽出された前記文字情報と、前記第3指示に応じて前記関連情報から抽出された前記文字情報とを前記大規模言語モデルから取得することを含み、
前記情報処理装置が、一の前記項目について前記第1指示に応じて前記一群の文字列から抽出された前記文字情報を、当該一の項目について前記第3指示に応じて前記関連情報から抽出された前記文字情報に応じて修正する工程を有する、
方法。
【請求項8】
印刷物に印刷された文字情報を情報処理装置が収集する方法であって、
前記情報処理装置が、光学文字認識により前記印刷物の画像から読み取られた一群の文字列を取得する工程と、
前記情報処理装置が、所定の1以上の項目に関する1以上の前記文字情報を前記一群の文字列から抽出するように大規模言語モデルへ指示を与える第1プロンプトを生成する工程と、
前記情報処理装置が、生成した前記第1プロンプトを前記大規模言語モデルに提供し、当該第1プロンプトに応じて前記一群の文字列から抽出された1以上の前記文字情報を前記大規模言語モデルから取得する工程と
を有し、
前記第1プロンプトを生成する工程は、1以上の前記項目の各々について、前記項目に関する前記文字情報の抽出結果の信頼性を評価するように指示する前記第1プロンプトを生成することを含み、
前記大規模言語モデルから前記文字情報を取得する工程は、各前記項目についての前記信頼性の評価結果を取得することを含む、
方法。
【請求項9】
前記情報処理装置が、前記印刷物に表が印刷されている場合において、当該印刷物の前記表から光学文字認識により読み取られた表データを取得する工程を有し、
前記第1プロンプトを生成する工程は、前記印刷物の前記表から読み取られた前記表データを取得した場合、前記一群の文字列及び前記表データから前記文字情報を抽出するように指示する前記第1プロンプトを生成することを含む、
請求項1~請求項8のいずれか一項に記載の方法。
【請求項10】
印刷物に印刷された文字情報を収集する処理を情報処理装置に行わせる命令を含んだプログラムであって、
前記命令に従って前記情報処理装置が行う処理は、請求項1~
請求項8のいずれか一項に記載された方法の各工程を含む、
プログラム。
【請求項11】
印刷物に印刷された文字情報を収集する処理を行う情報処理装置であって、
処理部と、
前記処理部において実行される命令を記憶した記憶部とを有し、
前記処理部が前記命令に従って行う処理は、請求項1~
請求項8のいずれか一項に記載された方法の各工程を含む、
情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、印刷物に印刷された文字情報を収集する方法、プログラム及び情報処理装置に関するものである。
【背景技術】
【0002】
光学文字認識(optical character recognition:OCR)は、印刷物や手書きの文書などの画像から文字や数字を自動的に検出し、コンピュータが理解可能なテキストに変換する技術である。下記の特許文献には、健康診断書などの非定型文書をOCR処理し、構造化データとして出力する方法が記載されている。この方法では、非定型文書の画像から複数の枠が検出され、検出された複数の枠の各々に関連して認識される領域から文字列が検出される。そして、検出された複数の枠の各々の位置関係を基に、検出された文字列の組み合わせが検出され、この組み合わせが構造化データとして出力される。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記の特許文献の方法では、枠の位置関係を基に文字列の組み合わせ(項目名と数値の組み合わせ)が検出されるため、枠を含まない印刷物にはこの方法を用いることができない。また、印刷物に印刷された所定の項目に関する文字情報(数値などの文字列)を取得しようとした場合、上記の特許文献の方法では項目名が印刷されていることが前提となっているため、項目名がなく文字情報(文字列)のみ印刷されている印刷物にはこの方法を用いることができない。すなわち、従来の方法では、広告のチラシなどのように形式の定まっていない多様な印刷物から所定の項目に関する文字情報を収集することができない。
【0005】
本発明はかかる事情に鑑みてなされたものであり、その目的は、様々な形式の印刷物から所定の項目に関する文字情報を収集することが可能な方法、プログラム及び情報処理装置を提供することにある。
【課題を解決するための手段】
【0006】
本発明の第1の態様は、印刷物に印刷された文字情報を情報処理装置が収集する方法であって、情報処理装置が、光学文字認識により印刷物の画像から読み取られた一群の文字列を取得する工程と、情報処理装置が、所定の1以上の項目に関する1以上の文字情報を一群の文字列から抽出するように大規模言語モデルへ指示を与える第1プロンプトを生成する工程と、情報処理装置が、生成した第1プロンプトを大規模言語モデルに提供し、当該第1プロンプトに応じて一群の文字列から抽出された1以上の文字情報を大規模言語モデルから取得する工程とを有する、方法である。
【0007】
本発明の第2の態様は、印刷物に印刷された文字情報を収集する処理を情報処理装置に行わせる命令を含んだプログラムであって、命令に従って情報処理装置が行う処理は、光学文字認識により印刷物の画像から読み取られた一群の文字列を取得する工程と、所定の1以上の項目に関する1以上の文字情報を一群の文字列から抽出するように大規模言語モデルへ指示を与える第1プロンプトを生成する工程と、生成した第1プロンプトを大規模言語モデルに提供し、当該第1プロンプトに応じて一群の文字列から抽出された1以上の文字情報を大規模言語モデルから取得する工程とを有する、プログラムである。
【0008】
本発明の第3の態様は、印刷物に印刷された文字情報を収集する処理を行う情報処理装置であって、処理部と、処理部において実行される命令を記憶した記憶部とを有し、処理部が命令に従って行う処理は、光学文字認識により印刷物の画像から読み取られた一群の文字列を取得する工程と、所定の1以上の項目に関する1以上の文字情報を一群の文字列から抽出するように大規模言語モデルへ指示を与える第1プロンプトを生成する工程と、生成した第1プロンプトを大規模言語モデルに提供し、当該第1プロンプトに応じて一群の文字列から抽出された1以上の文字情報を大規模言語モデルから取得する工程とを含む、情報処理装置である。
【0009】
本発明の第3の態様は、印刷物に印刷された文字情報を収集する処理を行う情報処理装置であって、情報処理装置が、光学文字認識により印刷物の画像から読み取られた一群の文字列を取得する手段と、情報処理装置が、所定の1以上の項目に関する1以上の文字情報を一群の文字列から抽出するように大規模言語モデルへ指示を与える第1プロンプトを生成する手段と、情報処理装置が、生成した第1プロンプトを大規模言語モデルに提供し、当該第1プロンプトに応じて一群の文字列から抽出された1以上の文字情報を大規模言語モデルから取得する手段とを有する、情報処理装置である。
【発明の効果】
【0010】
本発明によれば、様々な形式の印刷物から所定の項目に関する文字情報を収集することが可能な方法、プログラム及び情報処理装置を提供できる。
【図面の簡単な説明】
【0011】
【
図1】
図1は、本実施形態に係るシステムの構成の一例を示す図である。
【
図2】
図2は、印刷物の画像からOCRにより一群の文字列を取得する処理の一例を説明するための図である。
【
図3】
図3は、OCRにより読み取られた一群の文字列から所定の項目に関する文字情報を抽出する処理の一例を説明するための図である。
【
図5】
図5は、印刷物の画像からOCRにより取得された一群の文字列の例を示す図である。
【
図6】
図6は、大規模言語モデルに与えるプロンプトの一例を示す図である。
【
図7】
図7は、大規模言語モデルにより抽出された文字情報の一例を示す図である。
【
図8】
図8は、OCRにより読み取られた一群の文字列から所定の項目に関する文字情報を抽出する処理の一変形例を説明するための図である。
【
図9】
図9は、OCRにより読み取られた一群の文字列から所定の項目に関する文字情報を抽出する処理の一変形例を説明するための図である。
【
図10】
図10は、OCRにより読み取られた一群の文字列から所定の項目に関する文字情報を抽出する処理の一変形例を説明するための図である。
【
図11】
図11は、印刷物の画像からOCRにより一群の文字列を取得する処理の一変形例を説明するための図である。
【
図12】
図12は、印刷物の画像からOCRにより読み取られた表データの一例を示す図である。
【
図13】
図13は、大規模言語モデルに与えるプロンプトの一例を示す図である。
【発明を実施するための形態】
【0012】
図1は、本実施形態に係るシステムの構成の一例を示す図である。
図1の例に示すシステムは、インターネットなどの通信ネットワーク9を介して通信可能な情報処理装置1、端末装置3、OCR処理サーバ5及び大規模言語モデル6を有する。
情報処理装置1は、本発明の情報処理装置の一例である。
大規模言語モデル6は、本発明の大規模言語モデルの一例である。
【0013】
図1に示すシステムでは、端末装置3で得られた印刷物の画像からOCR処理により一群の文字列を読み取り、その一群の文字列から所定の項目に関する文字情報を抽出する処理が行われる。
【0014】
[端末装置3]
端末装置3は、広告のチラシなどの印刷物に印刷された文字情報を収集するための作業を行う作業者によって操作される装置であり、例えばパーソナルコンピュータ、タブレット、スマートフォンなどの情報通信機能を備えた装置である。
図1のシステムの例において端末装置3は1つであるが、本実施形態の他の例において、システムは複数の作業者に対応した複数の端末装置3を有していてもよい。
【0015】
端末装置3は、例えば、後述する情報処理装置1の通信部11、記憶部12、処理部13と同様な通信部、記憶部、処理部を備える。また、端末装置3は、ユーザの指示を処理部に入力する入力部(タッチパネル、マウス、キーボードなど)、処理部において生成される映像データに応じた映像を表示する表示部(液晶ディスプレイ、有機ELディスプレイなど)、音を出力するスピーカなどを備えていてもよい。
【0016】
端末装置3には、印刷物の画像を取得するスキャナ4が接続される。端末装置3は、スキャナ4により取得された印刷物の画像を情報処理装置1に提供する。
【0017】
[OCR処理サーバ5]
OCR処理サーバ5は、OCR処理を行うサーバであり、情報処理装置1からの要求に応じて印刷物の画像から一群の文字列(文字、数字など)を読み取り、読み取った一群の文字列を情報処理装置1に提供する。
【0018】
なお、
図1のシステムの例においてOCR処理がOCR処理サーバ5により行われるが、本実施形態の他の例において、情報処理装置1がOCR処理を行ってもよい。
【0019】
[大規模言語モデル6]
大規模言語モデル6は、大量のパラメータ(例えば数十億~数千億)を持つ人工ニューラルネットワークに大量のテキストデータを学習させることにより、人間の言語理解能力を模倣するように構成されたシステムである。大規模言語モデル6は、与えられたプロンプトに従って、文章のパターンや文脈の把握、質問への応答、文章の生成、翻訳などの幅広い自然言語処理タスクを行うことができる。大規模言語モデル6としては、例えば米国のOpenAI社により運営されるGPTシリーズ(Chat GPTなど)を用いることができる。
【0020】
[情報処理装置1]
情報処理装置1は、印刷物に印刷された文字情報を収集する処理を行う装置である。情報処理装置1は、端末装置3において取得された印刷物の画像から、OCR処理サーバ5のOCRにより一群の文字列を読み取り、この一群の文字列から、大規模言語モデル6の自然言語処理によって、所定の項目に関連した文字情報を抽出する。例えば情報処理装置1は、通信ネットワーク9に接続された1台若しくは複数台のコンピュータを含んで構成される。
図1の例に示す情報処理装置1は、通信部11と、記憶部12と、処理部13を有する。
【0021】
通信部11は、通信ネットワーク9を介して他の装置(端末装置3、OCR処理サーバ5、大規模言語モデル6など)と通信を行う。通信部11は、例えばイーサネット(登録商標)や無線LANなどの所定の通信規格に準拠して通信を行う装置(ネットワークインターフェースカードなど)を含む。
【0022】
記憶部12は、処理部13が実行する命令を含んだ1以上のプログラム121、処理部13による処理の過程で一時的に保存されるデータ、処理部13の処理に利用されるデータ、処理部13の処理の結果として得られたデータなどを記憶する。記憶部12は、例えば、主記憶装置(RAM、ROMなど)と補助記憶装置(フラッシュメモリ、SSD、ハードディスク、メモリカード、光ディスクなど)を含んでよい。記憶部12は、1つの記憶装置から構成されてもよいし、複数の記憶装置から構成されてもよい。記憶部12が複数の記憶装置から構成される場合、各記憶装置は、コンピュータのバスや他の任意の通信手段を介して処理部13と接続される。
【0023】
処理部13は、情報処理装置1の全体的な動作を統括的に司り、所定の情報処理を実行する。処理部13は、例えば、記憶部12に格納された1以上のプログラム121の命令に従って処理を行う1以上のプロセッサ(CPU(central processing unit)、MPU(micro-processing unit)、DSP(digital signal processor)など)を含む。処理部13は、記憶部12に記憶される1以上のプログラム121の命令を1以上のプロセッサが実行することにより、コンピュータとして動作する。
【0024】
処理部13は、特定の機能を実現するように構成された1つ以上の専用のハードウェア(ASIC(application specific integrated circuit)、FPGA(field-programmable gate array)など)を含んでもよい。この場合、処理部13は、本実施形態において説明する全ての処理をコンピュータにおいて実行してもよいし、少なくとも一部の処理を専用のハードウェアにおいて実行してもよい。
【0025】
プログラム121は、例えばコンピュータ読み取り可能な記録媒体(光ディスク、メモリカード、USBメモリ、その他の非一時的な有形の媒体)に記録されていてもよい。処理部13は、そのような記録媒体に記録された1以上のプログラム121の少なくとも一部を不図示の記録媒体読み取り装置(光ディスク装置など)やインターフェース装置(USBインターフェースなど)により読み込んで、記憶部12に書き込んでもよい。あるいは処理部13は、通信ネットワーク9に接続される他の装置から通信部11により1以上のプログラム121の少なくとも一部をダウンロードして、記憶部12に書き込んでもよい。1以上のプログラム121は、後述する本実施形態に係る処理の少なくとも一部を処理部13に行わせる命令を含む。
【0026】
[記憶装置2]
記憶装置2は、情報処理装置1の処理において使用される種々の情報を記憶する。情報処理装置1と記憶装置2は、任意の通信路(LAN、専用回線網、インターネットなど)介して通信可能である。例えば記憶装置2は、複数の装置からのアクセスを受け付けるファイルサーバやデータベースサーバなどに含まれていてもよいし、情報処理装置1のみアクセス可能な専用の記憶装置でもよい。
図1の例において、記憶装置2は、印刷物データベース21と収集情報データベース22を記憶する。以下の説明では、データベースを「DB」と省略して記載する場合がある。
【0027】
印刷物DB21は、端末装置3のスキャナ4において画像を取得された複数の印刷物(広告のチラシなど)に関する複数の印刷物情報を含む。一の印刷物情報は、一の印刷物に関する情報として、例えば以下の情報の少なくとも一部を含む。
・印刷物を識別するための識別情報(印刷物ID)
・印刷物の画像若しくはその保存場所
・印刷物に印刷された情報の種類
(例)印刷物が広告のチラシの場合、広告対象の商品やサービスの種類など
・印刷物の発行日に関する情報
【0028】
収集情報DB22は、それぞれ印刷物の画像に基づいて収集された複数の印刷物収集情報を含む。一の印刷物収集情報は、一の印刷物の画像に基づいて収取された情報として、例えば以下の情報の少なくとも一部を含む。
・印刷物ID
・印刷物の画像からOCRにより読み取られた一群の文字列
・一群の文字列から抽出された所定の1以上の項目に関する1以上の文字情報
・各項目について大規模言語モデル6により評価された文字情報の抽出結果の信頼性
【0029】
ここで、上述した構成を有する
図1に示すシステムの動作について説明する。
図2は、印刷物の画像からOCRにより一群の文字列を取得する処理の一例を説明するための図である。
【0030】
端末装置3は、情報の収集対象となる印刷物に関する情報(印刷物に印刷された情報の種類、印刷物の発行日など)を入力するように促す画面を表示部のディスプレイ等に表示し、この画面に応じて作業者の入力操作により入力された印刷物に関する情報を取得する(ST100)。また端末装置3は、作業者の操作によってスキャナ4が撮像した印刷物の画像(PDF形式のファイルなど)を取得する(ST105)。端末装置3は、ステップST100において取得した印刷物に関する情報と、ステップST105において取得した印刷物の画像(画像ファイル、PDFファイルなど)とを、情報処理装置1に提供する(ST120)。
【0031】
情報処理装置1は、印刷物に関する情報とその印刷物の画像を端末装置3から取得すると(ST125)、取得したこれらの情報を印刷物DB21に登録する(ST130)。また情報処理装置1は、端末装置3から提供された印刷物の画像についてOCRを行うように、OCR処理サーバ5に対して要求する(ST135)。例えば情報処理装置1は、OCR処理サーバ5が提供するAPIを利用して印刷物の画像のOCR処理を要求する。
【0032】
OCR処理の要求を受けたOCR処理サーバ5は、情報処理装置1から提供された印刷物の画像についてOCRを行い、印刷物に印刷された文字列を認識する(ST140)。OCR処理サーバ5は、印刷物の画像から認識した一群の文字列をOCR結果として要求元の情報処理装置1に提供する(ST145)。
【0033】
情報処理装置1は、OCRにより印刷物の画像から読み取られた一群の文字列(OCR結果)をOCR処理サーバ5から取得する(ST170)。情報処理装置1は、このOCR結果として取得した一群の文字列を、収集情報DB22に登録する(ST180)。
【0034】
図4A及び
図4Bは、情報の収集対象となる印刷物の画像の一例を示す図である。この印刷物は、マンションの賃貸物件の広告が印刷されたチラシであり、
図4Aと
図4Bはチラシの表面と裏面をそれぞれ示す。
図5は、
図4A及び
図4Bに示す印刷物の画像からOCRにより読み取られた一群の文字列の例を示す図である。
図5のOCR結果から分かるように、印刷物から読み取られた文字列は、印刷物上で近い場所に印刷されているほど、テキストデータ中で比較的近い位置に置かれる傾向がある。しかしながら、印刷物の形式が決められていない場合、OCR結果のテキストデータ中における文字列の前後関係や出現位置、所定の項目を表す語句のパターンなどが定まっていない。そのため、ルールベースのアルゴリズムでは、このようなOCR結果のテキストデータから所定の項目に関する文字情報を抽出するのは困難である。そこで、本実施形態では、OCR結果から所定の項目に関する文字情報を抽出する処理を行うために、大規模言語モデル6が利用される。
【0035】
図3は、OCRにより読み取られた一群の文字列から所定の項目に関する文字情報を抽出する処理の一例を説明するための図である。
【0036】
情報処理装置1は、所定の1以上の項目に関する1以上の文字情報をOCR結果の一群の文字列から抽出するように大規模言語モデル6へ指示を与えるプロンプト(以下「第1プロンプト」と記す)を生成する(ST235)。
【0037】
図6は、大規模言語モデル6に与える第1プロンプトの一例を示す図である。この例に示す第1プロンプトには、大規模言語モデル6に依頼するタスクに関する記載P1、抽出対象の項目に関する記載P2、項目の抽出結果の出力形式に関する記載P3、大規模言語モデル6に与える補足的な指示とアドバイスに関する記載P4、OCR結果の一群の文字列(物件情報)に関する記載P5が含まれる。
【0038】
大規模言語モデル6に依頼するタスクに関する記載P1は、物件情報(OCR結果)から所定の項目を抽出すること、所定の項目の各々について、項目に関する文字情報の抽出結果の信頼性を評価すること、項目に関する文字情報の抽出結果を所定の出力形式に従って整形することを指示する。
【0039】
抽出対象の項目に関する記載P2は、賃貸物件の広告から抽出する項目を指定する。
図6の例では、所定の項目として、賃貸物件の住所、物件名、建物の階数、部屋の間取り、最寄り駅等、建物の構造、建物の築年月、共益費、敷金、礼金、部屋の向き、エレベーターの有無、オートロックの有無、バルコニー等の有無、インターネット無料、家具・家電付き、角部屋、その他の項目(特色、注記)が含まれる。
【0040】
項目の抽出結果の出力形式に関する記載P3は、OCR結果をJSON形式に整形することを指定する。またこの記載P3は、JSON形式に整形されたOCR結果のサンプルを含む。1つのサンプルを提示することにより、個々の項目について詳細な形式を指定しなくても、大規模言語モデル6にサンプルと同様なOCR結果の整形を行わせることが可能となる。
【0041】
補足的な指示とアドバイスに関する記載P4は、一の項目に関する文字情報をOCR結果(一群の文字列)から抽出できない場合、当該一の項目に関する文字情報が不明であることを回答するように指示する。これにより、文字情報の不明な項目について正確性の低い文字情報が大規模言語モデル6により回答されることを効果的に回避できる。
【0042】
また記載P4は、建物の築年月を西暦で記載すること、建設予定の築年月(現在の日付よりも先の日付)も抽出対象にすることを指定する。
【0043】
OCR結果の一群の文字列(物件情報)に関する記載P5は、ステップST170においてOCR処理サーバ5から取得したOCR結果のテキストデータ(
図5)を含む。
【0044】
情報処理装置1は、ステップST235で生成した第1プロンプト(OCR結果のテキストデータを含む)を大規模言語モデル6に提供する(ST240)。大規模言語モデル6は、情報処理装置1から取得した第1プロンプトに従って、印刷物のOCRのテキストデータ(一群の文字列)から所定の1以上の項目に関する1以上の文字情報を抽出する(ST245)。また大規模言語モデル6は、第1プロンプトに従って、各項目に関する文字情報の抽出結果の信頼性を評価し、その評価結果(例えばパーセント値)を取得する。大規模言語モデル6は、各項目について抽出した文字情報と抽出結果の信頼性の評価結果とを、情報処理装置1に提供する(ST255)。
【0045】
情報処理装置1は、第1プロンプトに応じてOCR結果のテキストデータ(一群の文字列)から抽出された1以上の項目の文字情報と、その文字情報の信頼性の評価結果とを大規模言語モデル6から取得し(ST260)、収集情報DB22に登録する(ST270)。
【0046】
図7は、
図5に示すOCR結果から
図6に示す第1プロンプトに従って大規模言語モデル6により抽出された文字情報の一例を示す図である。
図7の例では、記載P3における出力形式の指定に従って、各項目の文字情報がJSON形式に整形されている。
【0047】
情報処理装置1は、大規模言語モデル6において抽出された1以上の項目の文字情報を端末装置3に提供し(ST275)、端末装置3は情報処理装置1から取得した1以上の項目の文字情報を表示部のディスプレイに表示する(ST280)。これにより、端末装置3を操作する作業者は、大規模言語モデル6によってOCR結果から抽出された各項目の文字情報を確認できる。この確認によって文字情報の誤りが見つけられた場合、情報処理装置1は、端末装置3からの文字情報の訂正指示に応じて、収集情報DB22に登録される文字情報を訂正してもよい。
【0048】
以上説明したように、本実施形態によれば、様々な賃貸物件を紹介する広告のチラシのように印刷物の形式が決められていない場合でも、OCR結果から各項目の文字情報を抽出するように大規模言語モデル6へ第1プロンプトを与えることにより、各項目に当てはまる適切な文字情報をOCR結果から抽出できる。従って、様々な形式の印刷物から所定の項目に関する文字情報を収集することができる。
【0049】
また本実施形態によれば、一の項目に関する文字情報をOCR結果(一群の文字列)から抽出できない場合(当該一の項目に関する記載がない場合など)には、当該一の項目に関する文字情報が不明であることを回答するように第1プロンプトで指示が与えられるため、文字情報の不明な項目について正確性の低い文字情報が大規模言語モデル6により回答されることを効果的に回避できる。
【0050】
また本実施形態によれば、1以上の項目の各々について、項目に関する文字情報の抽出結果の信頼性を評価するように第1プロンプトで指示が与えられる。これにより、収集情報DB22に登録される印刷物の文字情報の利用者は、大規模言語モデル6により評価された抽出結果の信頼性を参考にして、文字情報の利用の可否を個別に判断することが可能になる。
【0051】
次に、上述した情報処理装置1における処理の幾つかの変形例について説明する。
【0052】
<印刷された情報の種類に応じた第1プロンプトの生成(1)>
上述した実施形態では、マンション等の賃貸物件に関連する項目について文字情報を抽出する例が挙げられているが、OCR結果(一群の文字列)から抽出する情報の種類として、賃貸物件とは別の種類(例えば売買物件など)を作業者が選択できるようにしてもよい。例えば端末装置3は、ステップST100(
図2)において、印刷物のOCR結果から抽出する情報の種類として作業者により選択された種類に関する種類情報を入力する。情報処理装置1は、この種類情報を端末装置3から取得し(ST125)、印刷物DB21に登録する(ST130)。この場合、情報処理装置1は、ステップST235(
図3)において、種類情報が示す種類について定められた1以上の項目に関する1以上の文字情報をOCR結果(一群の文字列)から抽出するように指示する第1プロンプトを生成する。例えば情報処理装置1は、種類情報が賃貸物件を示す場合には、賃貸物件用の第1プロンプト(
図6)を生成し、種類情報が売買物件を示す場合には、売買物件用の第1プロンプトを生成する。これにより、種類情報が示す種類に応じて生成された第1プロンプトを大規模言語モデル6に与えることができるため、種類情報が示す種類に当てはまる適切な情報をOCR結果(一群の文字列)から抽出することが可能になる。
【0053】
<印刷された情報の種類に応じた第1プロンプトの生成(2)>
上述した(1)の変形例では、端末装置3において作業者により入力された種類情報に応じて第1プロンプトが生成されるが、この変形例では、OCR結果(一群の文字列)に基づいて種類(OCR結果から抽出する情報の種類)が判定される。
図8は、その変形例を説明するための図であり、OCRにより読み取られた一群の文字列から所定の項目に関する文字情報を抽出する処理の例を示す。
【0054】
図8に示す変形例において、情報処理装置1は、情報の種類を特徴付ける所定のキーワードをOCR結果(一群の文字列)において検索する(ST200)。例えば、印刷された情報の種類が賃貸物件の場合には、OCR結果(一群の文字列)には「賃料」、「敷金」、「共益費」、「更新料」などのキーワードが含まれ、印刷された情報の種類が売買物件の場合には、OCR結果(一群の文字列)には「販売額」、「売買契約」、「引渡し日」などのキーワードが含まれる。情報処理装置1は、このようなキーワードをOCR結果において検索する。この検索より所定のキーワードが見つかった場合、情報処理装置1は、この見つかったキーワードに基づいて、印刷物に印刷された情報の種類(=OCR結果から抽出するべき情報の種類)を判定する(ST205)。情報処理装置1は、ステップST205で判定した種類について定められた1以上の項目に関する1以上の文字情報をOCR結果(一群の文字列)から抽出するように大規模言語モデル6へ指示を与える第1プロンプトを生成し(ST235A)、大規模言語モデル6に提供する(ST240)。ステップST245以降の処理は、
図3に示すフロー図において説明したものと同じである。
【0055】
この変形例によれば、印刷物に印刷された情報の種類(=OCR結果から抽出するべき情報の種類)が自動的に判定されるため、ステップST100において作業者が種類情報を入力する作業を省略することができる。
【0056】
<印刷された情報の種類に応じた第1プロンプトの生成(3)>
上述した(2)の変形例では、OCR結果(一群の文字列)に含まれる所定のキーワードに基づいて、印刷物に印刷された情報の種類が判定されるが、この変形例では、大規模言語モデル6の自然言語処理を利用して種類の判定が行われる。
図9は、その変形例を説明するための図である。
【0057】
図9に示す変形例において、情報処理装置1は、所定の複数の種類から該当する1つの種類をOCR結果(一群の文字列)に基づいて判定するように大規模言語モデル6へ指示を与えるプロンプト(以下「第2プロンプト」と記す)を生成する(ST210)。この第2プロンプトは、例えば、所定の複数の種類(「賃貸物件」、「売買物件」など)から、OCR結果(一群の文字列)に当てはまる1つの種類を判定するように指示する記載を含むとともに、そのOCR結果(一群の文字列)を示す記載を含む。情報処理装置1は、生成した第2プロンプトを大規模言語モデル6に提供する(ST215)。
【0058】
大規模言語モデル6は、情報処理装置1から取得した第2プロンプトに従って、OCR結果(一群の文字列)に当てはまる種類を判定し(ST220)、その判定結果を情報処理装置1に提供する(ST225)。
【0059】
情報処理装置1は、大規模言語モデル6から種類の判定結果を取得すると(ST230)、この判定された種類について定められた1以上の項目に関する1以上の文字情報をOCR結果(一群の文字列)から抽出するように大規模言語モデル6へ指示を与える第1プロンプトを生成し(ST235A)、大規模言語モデル6に提供する(ST240)。ステップST245以降の処理は、
図3に示すフロー図において説明したものと同じである。
【0060】
この変形例においても、印刷物に印刷された情報の種類(=OCR結果から抽出するべき情報の種類)が自動的に判定されるため、ステップST100において作業者が種類情報を入力する作業を省略することができる。また、印刷された情報を特徴付けるキーワードがあまり明確でない場合でも、大規模言語モデル6の自然言語処理の機能を利用することにより、的確な種類の判定結果を得ることができる。
【0061】
<ウェブ検索により得られる関連情報に応じた第1プロンプトの生成>
上述した実施形態とその変形例では、所定の項目に関する文字情報がOCR結果(一群の文字列)のみから抽出されるが、所定の項目に関する情報が印刷物に印刷されていない場合や、印刷物の情報が最新のものでない場合、OCR結果(一群の文字列)のみからでは適切な文字情報を抽出できない。そこで、この変形例では、ウェブ検索により得られる関連情報も加味した上で、所定の項目に関する情報の抽出が行われる。
図10は、その変形例を説明するための図である。
【0062】
情報処理装置1は、所定の1以上の項目における少なくとも一部の項目について、OCR結果(一群の文字列)から項目に関する文字情報を抽出する指示(第1指示)と、OCR結果(一群の文字列)に含まれる項目に関するキーワードに基づいて項目に関する関連情報をウェブ検索により収集する指示(第2指示)とを含んだ第1プロンプトを生成する(ST235B)。第1指示は、OCR結果(一群の文字列)から文字情報を抽出させるものであり、上述した実施形態及び変形例と同様の指示でよい。
【0063】
第2指示は、項目に関する関連情報をウェブ検索により収集させるものであり、項目ごとに設定される。例えば、賃貸物件における建物の向きに関する関連情報をウェブ検索により収集させる場合、第2指示は、特定の賃貸物件を示す固有のキーワード(物件名、住所など)と、建物の向きを示すキーワードとが含まれたウェブページを検索させて関連情報を収集させる指示でもよい。
【0064】
情報処理装置1は、ステップST235Bで生成した第1プロンプトを大規模言語モデル6に提供する(ST240)。大規模言語モデル6は、第1プロンプトに含まれる第1指示に応じて、OCR結果(一群の文字列)から各項目の文字情報を抽出する(ST245)。また大規模言語モデル6は、第1プロンプトに含まれる第2指示に応じて、所定の項目についての関連情報をウェブ検索により収集する(ST250)。大規模言語モデル6は、ステップST245において抽出した各項目の文字情報と、ステップST250において集出した所定の項目の関連情報とを情報処理装置1に提供する(ST255B)。情報処理装置1は、大規模言語モデル6から提供された文字情報と関連情報を取得する(ST260B)。
【0065】
情報処理装置1は、一の項目について大規模言語モデル6から取得した文字情報を、当該一の項目について取得した関連情報に応じて修正する(ST265)。例えば、情報処理装置1は、一の項目についての文字情報が不明であると大規模言語モデル6により回答された場合において、当該一の項目について取得した関連情報には、当該文字情報に該当する情報が含まれている場合、この関連情報に含まれる情報を、当該一の項目に関する文字情報として取得してもよい。
【0066】
また、情報処理装置1は、一の項目について文字情報が抽出された場合において、当該一の項目について取得した関連情報にも当該文字情報に該当する情報が含まれている場合、関連情報のウェブ上での公開日が印刷物の発行日より後であるならば、抽出された文字情報を関連情報に含まれる情報(当該文字情報に該当する情報)に応じて修正してもよい。すなわち、印刷物に印刷された情報に比べて関連情報が新しい場合、OCR結果から抽出された文字情報を関連情報に応じて修正してもよい。
【0067】
情報処理装置1は、ステップST260Bにおいて取得した各項目の文字情報(ステップST265において修正された場合には、修正後の文字情報)を収集情報DB22に登録する(ST270)。ステップST275以降の処理は
図3に示すフロー図において説明したものと同じである。
【0068】
この変形例によれば、ウェブ検索により収集された関連情報に基づいて、OCR結果(一群の文字列)に含まれていない項目についての文字情報や、OCR結果(一群の文字列)に含まれるものよりも新しい文字情報を取得することが可能となる。
【0069】
なお、
図10に示す変形例では、ステップST250において大規模言語モデル6に関連情報の収集を行わせているが、収集した関連情報から所定の項目に関する文字情報を抽出する処理を大規模言語モデル6に行わせてもよい。例えば情報処理装置1は、ステップST235Bにおいて、第2指示に応じて一の項目について収集された関連情報から、当該一の項目についての文字情報を抽出する指示(第3指示)を更に含んだ第1プロンプトを生成してもよい。この場合、情報処理装置1は、ステップST265において、第3指示により関連情報から抽出された文字情報に応じて、第1指示によりOCR結果(一群の文字列)から抽出された文字情報を修正してもよい。これにより、情報処理装置1において関連情報から文字情報を抽出する処理を省略できる。
【0070】
また、ステップST265における文字情報の修正を大規模言語モデル6に行わせてもよい。
例えば情報処理装置1は、一の項目についての文字情報をOCR結果(一群の文字列)から抽出できない場合、当該一の項目についての文字情報を関連情報から抽出する指示(第4指示)を含むように、第1プロンプトをステップST235Bにおいて生成してもよい。
また情報処理装置1は、一の項目について収集された関連情報のウェブ上での公開日が印刷物の発行日より後の場合、当該一の項目についてOCR結果(一群の文字列)から抽出された文字情報を、当該一の項目について関連情報から抽出された文字情報に応じて修正する指示(第5指示)を含むように、第1プロンプトをステップST235Bにおいて生成してもよい。
これにより、情報処理装置1において関連情報に基づいて文字情報を修正する処理を省略できる。
【0071】
<表が印刷された印刷物から文字情報を収集する処理>
図4Bに示すように表が印刷された印刷物の場合、
図5のOCR結果(末尾付近)に示すように、表に含まれる文字列同士の関係が不明確になり、大規模言語モデル6において正しい文字情報を抽出し難くなる。そこで、この変形例では、表が印刷された印刷物の場合に、OCR処理サーバ5のOCR処理において、印刷物の表から表形式に整形されたデータ(表データ)を読み取る処理が行われる。
図11は、その変形例を説明するための図であり、印刷物の画像からOCRにより一群の文字列を取得する処理の例を示す。
【0072】
端末装置3は、
図2に示すフロー図と同様に、印刷物に関する情報の入力(ST100)及び印刷物の画像の取得(ST105)を行うとともに、印刷物に表が印刷されている場合には(ST110のYes)、印刷物に印刷された表の画像を取得する処理を行う(ST115)。例えば端末装置3は、ステップST105において取得された印刷物の画像を表示部のディスプレイに表示し、この印刷物の画像から作業者の入力操作(例えばマウス等の操作)により指定された表の範囲の画像を取得する。端末装置3は、ステップST100において取得した印刷物に関する情報と、ステップST105、ST115において取得した印刷物の画像とを、情報処理装置1に提供する(ST120)。
【0073】
情報処理装置1は、印刷物に関する情報とその印刷物の画像を端末装置3から取得すると(ST125)、取得したこれらの情報を印刷物DB21に登録する(ST130)。また情報処理装置1は、端末装置3から提供された印刷物の画像のうち、ステップST105において取得された印刷物の全体の画像についてOCRを行うように、OCR処理サーバ5に対して要求する(ST135)。
【0074】
OCR処理の要求を受けたOCR処理サーバ5は、情報処理装置1から提供された印刷物の画像(ステップST105において取得された全体の画像)についてOCRを行い、印刷物に印刷された文字列を認識する(ST140)。OCR処理サーバ5は、印刷物の画像から認識した一群の文字列をOCR結果として要求元の情報処理装置1に提供する(ST145)。
【0075】
情報処理装置1は、OCRにより印刷物の全体の画像から読み取られた一群の文字列(OCR結果)をOCR処理サーバ5から取得すると(ST150)、次にステップST115において取得された表の画像についてOCRを行うように、OCR処理サーバ5に対して要求する(ST155)。
【0076】
OCR処理の要求を受けたOCR処理サーバ5は、情報処理装置1から提供された表の画像(ステップST115において取得された表の画像)についてOCRを行い、表の画像から文字列を認識する(ST160)。OCR処理サーバ5は、表の画像から認識した表データ(表に含まれる文字列が表形式に整形されたデータ)をOCR結果として要求元の情報処理装置1に提供する(ST165)。
【0077】
情報処理装置1は、OCRにより表の画像から読み取られた表データをOCR処理サーバ5から取得する(ST175)。情報処理装置1は、ステップST150においてOCR結果として取得した一群の文字列(表以外の文字列を含む)と、ステップST175においてOCR結果として取得した表データとを、それぞれ収集情報DB22に登録する(ST180)。
【0078】
図12は、
図4Bに示す印刷物の画像における表の画像からOCRにより読み取られた表データの一例を示す図である。
図12の例では、表の各行及び各列に属する文字列がJSON形式の表データに整形されている。
【0079】
印刷物の全体の画像からOCRにより一群の文字列が読み取られるとともに、印刷物の表からOCRにより表データが読み取られる場合、情報処理装置1は、ステップST235において、この一群の文字列と表データとから各項目の文字情報を抽出するように指示する第1プロンプトを生成する。この場合、情報処理装置1は、
図6に示すような第1プロンプトにおける記載P5の中に、印刷物の全体の画像からOCRにより読み取られた一群の文字列(
図5)と、印刷物の表からOCRにより読み取られた表データ(
図12)とを含めるようにしてもよい。
【0080】
あるいは情報処理装置1は、
図13に示す第1プロンプトの例ように、一群の文字列(
図5)が含まれた記載P5と、表データ(
図12)が含まれた記載P6を分離させてもよい。この
図13の例において、大規模言語モデル6に依頼するタスクの記載P1Aは、分離して記載された「物件情報」(
図5)及び「表」(
図12)から所定の項目に関する文字情報を抽出するように指示する。
図13の例における他の記載(P2~P4)は、
図6に示す第1プロンプトの例と同じである。
【0081】
この変形例によれば、印刷物に表が含まれている場合、表に含まれる文字列を表形式に整形した表データがOCRにより読み取られ、この表データを用いて文字情報が抽出される。従って、表データに整形されていない一群の文字列のみを用いる場合に比べて、各項目の文字情報を正確に抽出し易くすることができる。
【0082】
なお、本発明は上述した実施形態に限定されるものではなく、更に種々のバリエーションを含む。当業者は、本発明の技術的範囲またはその均等の範囲内において、上述した実施形態の構成要素に関し、様々な変更や代替を施すことが可能である。
【0083】
例えば、上述した実施形態では端末装置3において取得された印刷物の画像が通信ネットワーク9を介して情報処理装置1に提供されているが、情報処理装置1にスキャナ4が接続されている場合には、スキャナ4で撮像された印刷物の画像を情報処理装置1が直接取得してもよい。
以下、本願の出願当初の特許請求の範囲に記載された内容を付記する。
[1]
印刷物に印刷された文字情報を情報処理装置が収集する方法であって、
前記情報処理装置が、光学文字認識により前記印刷物の画像から読み取られた一群の文字列を取得する工程と、
前記情報処理装置が、所定の1以上の項目に関する1以上の前記文字情報を前記一群の文字列から抽出するように大規模言語モデルへ指示を与える第1プロンプトを生成する工程と、
前記情報処理装置が、生成した前記第1プロンプトを前記大規模言語モデルに提供し、当該第1プロンプトに応じて前記一群の文字列から抽出された1以上の前記文字情報を前記大規模言語モデルから取得する工程と
を有する方法。
[2]
前記第1プロンプトを生成する工程は、一の前記項目に関する前記文字情報を前記一群の文字列から抽出できない場合、当該一の項目に関する前記文字情報が不明であることを回答するように指示する前記第1プロンプトを生成することを含む、
[1]に記載の方法。
[3]
前記情報処理装置が、前記一群の文字列から抽出する情報の種類に関する種類情報を取得する工程を有し、
前記第1プロンプトを生成する工程は、前記種類情報が示す前記種類について定められた1以上の前記項目に関する1以上の前記文字情報を前記一群の文字列から抽出するように指示する前記第1プロンプトを生成することを含む、
[1]に記載の方法。
[4]
前記種類情報を取得する工程は、
前記種類を特徴付ける所定のキーワードを前記一群の文字列において検索することと、
検索により見つかった前記キーワードに基づいて前記種類を判定することとを含む、
[3]に記載の方法。
[5]
前記種類情報を取得する工程は、
所定の複数の前記種類から該当する1つの前記種類を前記一群の文字列に基づいて判定するように前記大規模言語モデルへ指示を与える第2プロンプトを生成することと、
生成した前記第2プロンプトを前記大規模言語モデルに提供し、当該第2プロンプトに応じて判定された前記種類を前記大規模言語モデルから取得することとを含む、
[3]に記載の方法。
[6]
前記第1プロンプトを生成する工程は、少なくとも一部の前記項目について、前記一群の文字列から前記項目に関する前記文字情報を抽出する第1指示と、前記一群の文字列中の前記項目に関するキーワードに基づいて前記項目に関する関連情報をウェブ検索により収集する第2指示とを含んだ前記第1プロンプトを生成することを含み、
前記文字情報を取得する工程は、前記第1指示に応じて抽出された前記文字情報と、前記第2指示に応じて収集された前記関連情報とを前記大規模言語モデルから取得することを含み、
前記情報処理装置が、一の前記項目について前記大規模言語モデルから取得した前記文字情報を、当該一の項目について取得した前記関連情報に応じて修正する工程を有する、
[1]に記載の方法。
[7]
文字情報を修正する工程は、前記関連情報のウェブ上での公開日が前記印刷物の発行日より後の場合、前記文字情報を前記関連情報に応じて修正することを含む、
[6]に記載の方法。
[8]
前記第1プロンプトを生成する工程は、少なくとも一部の前記項目について、前記一群の文字列から前記項目に関する前記文字情報を抽出する第1指示と、前記一群の文字列中の前記項目に関するキーワードに基づいて前記項目に関する関連情報をウェブ検索により収集する第2指示と、前記第2指示に応じて一の前記項目について収集された前記関連情報から、当該一の項目についての前記文字情報を抽出する第3指示とを含んだ前記第1プロンプトを生成することを含み、
前記文字情報を取得する工程は、前記第1指示に応じて前記一群の文字列から抽出された前記文字情報と、前記第3指示に応じて前記関連情報から抽出された前記文字情報とを前記大規模言語モデルから取得することを含み、
前記文字情報を前記関連情報に応じて修正する工程は、一の前記項目について前記第1指示に応じて前記一群の文字列から抽出された前記文字情報を、当該一の項目について前記第3指示に応じて前記関連情報から抽出された前記文字情報に応じて修正する工程を有する、
[1]に記載の方法。
[9]
前記情報処理装置が、前記印刷物に表が印刷されている場合において、当該印刷物の前記表から光学文字認識により読み取られた表データを取得する工程を有し、
前記第1プロンプトを生成する工程は、前記印刷物の前記表から読み取られた前記表データを取得した場合、前記一群の文字列及び前記表データから前記文字情報を抽出するように指示する前記第1プロンプトを生成することを含む、
[1]に記載の方法。
[10]
前記第1プロンプトを生成する工程は、1以上の前記項目の各々について、前記項目に関する前記文字情報の抽出結果の信頼性を評価するように指示する前記第1プロンプトを生成することを含み、
前記大規模言語モデルから前記文字情報を取得する工程は、各前記項目についての前記信頼性の評価結果を取得することを含む、
[1]に記載の方法。
[11]
印刷物に印刷された文字情報を収集する処理を情報処理装置に行わせる命令を含んだプログラムであって、
前記命令に従って前記情報処理装置が行う処理は、[1]~[10]のいずれか一つに記載された方法の各工程を含む、
プログラム。
[12]
印刷物に印刷された文字情報を収集する処理を行う情報処理装置であって、
処理部と、
前記処理部において実行される命令を記憶した記憶部とを有し、
前記処理部が前記命令に従って行う処理は、[1]~[10]のいずれか一つに記載された方法の各工程を含む、
情報処理装置。
【符号の説明】
【0084】
1…情報処理装置、11…通信部、12…記憶部、121…プログラム、13…処理部、2…記憶装置、21…印刷物DB、22…収集情報DB、3…端末装置、4…スキャナ、5…OCR処理サーバ、6…大規模言語モデル、9…通信ネットワーク
【要約】
【課題】様々な形式の印刷物から所定の項目に関する文字情報を収集することが可能な方法、プログラム及び情報処理装置を提供する。
【解決手段】情報処理装置1が行う方法は、光学文字認識により印刷物から読み取られた一群の文字列を取得する工程と、所定の1以上の項目に関する1以上の文字情報を一群の文字列から抽出するように大規模言語モデル6へ指示を与える第1プロンプトを生成する工程と、生成した第1プロンプトを大規模言語モデル6に提供し、当該第1プロンプトに応じて一群の文字列から抽出された1以上の文字情報を大規模言語モデル6から取得する工程とを有する。
【選択図】
図1