IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ Allganize Japan株式会社の特許一覧

特開2025-87598大型言語モデルのためのプロンプトのテーブルを処理する方法及びシステム
<>
  • 特開-大型言語モデルのためのプロンプトのテーブルを処理する方法及びシステム 図1
  • 特開-大型言語モデルのためのプロンプトのテーブルを処理する方法及びシステム 図2
  • 特開-大型言語モデルのためのプロンプトのテーブルを処理する方法及びシステム 図3
  • 特開-大型言語モデルのためのプロンプトのテーブルを処理する方法及びシステム 図4
  • 特開-大型言語モデルのためのプロンプトのテーブルを処理する方法及びシステム 図5
  • 特開-大型言語モデルのためのプロンプトのテーブルを処理する方法及びシステム 図6
  • 特開-大型言語モデルのためのプロンプトのテーブルを処理する方法及びシステム 図7
  • 特開-大型言語モデルのためのプロンプトのテーブルを処理する方法及びシステム 図8
  • 特開-大型言語モデルのためのプロンプトのテーブルを処理する方法及びシステム 図9
  • 特開-大型言語モデルのためのプロンプトのテーブルを処理する方法及びシステム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025087598
(43)【公開日】2025-06-10
(54)【発明の名称】大型言語モデルのためのプロンプトのテーブルを処理する方法及びシステム
(51)【国際特許分類】
   G06F 40/177 20200101AFI20250603BHJP
   G06F 40/56 20200101ALI20250603BHJP
【FI】
G06F40/177
G06F40/56
【審査請求】未請求
【請求項の数】10
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024194737
(22)【出願日】2024-11-06
(31)【優先権主張番号】10-2023-0152818
(32)【優先日】2023-11-07
(33)【優先権主張国・地域又は機関】KR
(71)【出願人】
【識別番号】520179268
【氏名又は名称】Allganize Japan株式会社
(74)【代理人】
【識別番号】110002860
【氏名又は名称】弁理士法人秀和特許事務所
(72)【発明者】
【氏名】シン キビン
(57)【要約】      (修正有)
【課題】大型言語モデルのためのプロンプトのテーブルを処理する方法およびシステムを提供する。
【解決手段】テーブル処理方法は、大型言語モデル(Large Language Models, LLM)のためのプロンプトに利用される文書の文書形式を確認するステップ、前記文書形式に従って前記文書に含まれたテーブルを認識するステップ、前記認識されたテーブルの内容をマークダウン形態または自然語形態に変換するステップおよび前記変換されたテーブルの内容を前記プロンプトへの使用またはRAG(Retrieval Augmented Generation)のリトリーバ(retriever)のテーブル検索のための使用のためにストレージに保存するステップを含む。
【選択図】図3
【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサを含むコンピュータ装置のテーブル処理方法において、
前記少なくとも1つのプロセッサによって、大型言語モデル(Large Language Models, LLM)のプロンプトに利用される文書の文書フォーマットを確認するステップ;
前記少なくとも1つのプロセッサによって、前記文書フォーマットに基づいて前記文書
に含まれるテーブルを認識するステップ;
前記少なくとも1つのプロセッサによって、前記認識されたテーブルの内容をマークダ
ウン形態または自然言語形態に変換するステップ;および
前記少なくとも1つのプロセッサによって、前記変換されたテーブルの内容を前記プロ
ンプトへの使用またはRAG(Retrieval Augmented Generation)のリトリーバー(retriever)のテーブル検索のための使用のためにストレージに保存するステップ
を含むテーブル処理方法。
【請求項2】
請求項1において、
前記変換する段階は、
前記認識されたテーブルに統合されたセル(mergedcell)が存在するか否か及び前記認識されたテーブルに含まれるテキストの全長の少なくとも一つに基づいて前記認識されたテーブルの内容をマークダウン形態または自然語形態に変換することを特徴とするテーブル処理方法。
【請求項3】
請求項2において、
前記変換する段階は、
前記認識されたテーブルが結合されたセルを含まず、前記認識されたテーブルに含まれるテキストの全体の長さが予め設定された基準値未満である場合に、前記認識されたテーブルの内容をマークダウン形式に変換し、前記認識されたテーブルが結合されたセルを含むか、または前記全体の長さが前記予め設定された基準値以上である場合に、前記認識されたテーブルの内容を自然言語形式に変換することを特徴とするテーブル処理方法。
【請求項4】
請求項1において、
前記変換する段階は、
前記認識されたテーブルの内容を自然言語形式に変換する場合、
前記テーブルのヘッダーを抽出する段階;
前記テーブルの読み取り方向を決定する段階;及び
前記読み取り方向に従って、前記テーブルからヘッダーと前記テーブルの値を一行ずつ読み取って自然言語を生成する段階
を含むことを特徴とするテーブル処理方法。
【請求項5】
請求項4において、
前記テーブルのリーディング方向を決定するステップは、
前記リーディング方向を前記テーブルの列基準方向及び行基準方向のうち一つに決定することを特徴とするテーブル処理方法。
【請求項6】
請求項1において、
前記文書フォーマットを確認するステップは、
前記文書に対応するファイルの拡張子を通じて前記文書フォーマットを確認することを特徴とするテーブル処理方法。
【請求項7】
請求項1において、
前記文書フォーマットはDOCXファイルフォーマット、エクセル(Excel)ファイルフォー
マット、PDF(Portable Document Format)ファイルフォーマットのうち少なくとも1つに分類されることを特徴とするテーブル処理方法。
【請求項8】
請求項1において、
前記テーブルを認識する段階は、
前記文書フォーマットがPDFファイルフォーマットである場合に人工知能モデルを通じ
て前記テーブルが存在する領域を検出して前記テーブルを検出する段階;
前記文書フォーマットがDOCXファイルフォーマットである場合にDOCXファイルが含むテーブル構造に関する情報を利用して前記テーブルを認識する段階;及び
前記文書フォーマットがエクセルファイルフォーマットである場合に前記文書を画像に変換し、前記変換された画像から前記テーブルが存在する領域を検出して前記テーブルを検出する段階
を含むことを特徴とするテーブル処理方法。
【請求項9】
請求項1から請求項8のうちいずれか一項の方法を前記コンピュータ装置に実行させるためにコンピュータ読み取り可能な記録媒体に保存されるコンピュータプログラム。
【請求項10】
コンピュータ装置で読み取り可能な命令を実行するように具現される少なくとも1つの
プロセッサを含み、
前記少なくとも1つのプロセッサにより、
大型言語モデル(Large Language Models, LLM)のためのプロンプトに利用される文書の文書フォーマットを確認し、
前記文書フォーマットに従って前記文書に含まれたテーブルを認識し、
前記認識されたテーブルの内容をマークダウン形態または自然語形態に変換し、
前記変換されたテーブルの内容を前記プロンプトでの使用またはRAG(Retrieval Augmented Generation)のretrieverのテーブル検索のための使用のために保存所に保存することを特徴とするコンピュータ装置。
【発明の詳細な説明】
【技術分野】
【0001】
下記の説明は、大型言語モデルのためのプロンプトのテーブルを処理する方法及びシステムに関するものである。
【背景技術】
【0002】
大型言語モデル又は巨大言語モデル(Large Language Models, LLM)は、自然言語入力に対して人間と類似した応答を生成するために大規模テキストデータ集合で訓練された人工知能の一種であり、膨大なパラメータ(通常は数十億ウェイト以上)を保有する人工ニューラルネットワークで構成される言語モデルである。このようなLLMは、自己教師あり学
習や半自己教師あり学習を使用してラベル付けされていない相当な量のテキストで学習することができる。
【0003】
このようなLLMは、単一の文書をプロンプトとして入力し、回答を生成するRAG(Retrieval Augmented Generation)能力が非常に優れている。しかし、一般的に文書にはグラフやテーブルのような非文字データが含まれることがある。特に、プロンプトに含まれるテーブル情報をどのようにLLMに入力するかによって、LLMの性能が大きく異なる可能性がある。また、特定の質問に対する回答が文書内のテーブルにあるかどうかをRAGのリトリーバ
ー(Retriever)で見つける必要があるが、この場合もテーブルをどのように表記するかに
よってリトリーバの性能が大きく異なる。特に、結合されたセル(merged cell)を含む複
雑なテーブルの場合、LLMとリトリーバの性能に非常に大きな影響を与える可能性がある
【先行技術文献】
【特許文献】
【0004】
【特許文献1】韓国登録特許第10-2551531号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
大型言語モデルのためのプロンプトのテーブルを処理する方法およびシステムを提供する。
【課題を解決するための手段】
【0006】
少なくとも1つのプロセッサを含むコンピュータ装置のテーブル処理方法において、前
記少なくとも1つのプロセッサによって、大型言語モデル(Large Language Models, LLM)
のためのプロンプトに利用される文書の文書フォーマットを確認するステップ;前記少な
くとも1つのプロセッサによって、前記文書フォーマットに従って前記文書に含まれたテ
ーブルを認識するステップ;前記少なくとも1つのプロセッサによって、前記認識されたテーブルの内容をマークダウン形態または自然語形態に変換するステップ;および前記少な
くとも1つのプロセッサによって、前記変換されたテーブルの内容を前記プロンプトでの
使用またはRAG(Retrieval Augmented Generation)のリトリーバー(retriever)のテーブル検索のための使用のためにストレージに保存するステップを含むテーブル処理方法を提供する。
【0007】
一側面によれば、前記変換する段階は、前記認識されたテーブルに結合されたセル(merged cell)が存在するか否か及び前記認識されたテーブルに含まれるテキストの全体の長
さの中の少なくとも一つに基づいて前記認識されたテーブルの内容をマークダウン形態又
は自然語形態に変換することを特徴とすることができる。
【0008】
他の側面によれば、前記変換する段階は、前記認識されたテーブルが結合されたセルを含まずかつ前記認識されたテーブルに含まれるテキストの全体の長さが予め設定された基準値未満である場合に前記認識されたテーブルの内容をマークダウン形態に変換し、前記認識されたテーブルが結合されたセルを含むか又は前記全体の長さが前記予め設定された基準値以上である場合に前記認識されたテーブルの内容を自然語形態に変換することを特徴とすることができる。
【0009】
さらに他の側面によれば、前記変換する段階は、前記認識されたテーブルの内容を自然語形態に変換する場合、前記テーブルのヘッダーを抽出する段階;前記テーブルのリーディング方向を決定する段階;及び前記リーディング方向に従って前記テーブルでヘッダーと前記テーブルの値を一行ずつ読み取って自然語を生成する段階を含むことを特徴とすることができる。
【0010】
さらに他の側面によれば、前記テーブルのリーディング方向を決定する段階は、前記リーディング方向を前記テーブルの列基準の方向及び行基準の方向のうちの一つに決定することを特徴とすることができる。
【0011】
さらに他の側面によれば、前記文書形式を確認する段階は、前記文書に対応するファイルの拡張子を通じて前記文書形式を確認することを特徴とすることができる。
【0012】
別の側面によれば、前記文書フォーマットは、DOCX ファイルフォーマット、エクセル
(Excel)ファイルフォーマット、PDF(Portable Document Format)ファイルフォーマットのうち、少なくとも一つに分類されることを特徴とすることができる。
【0013】
別の側面によれば、前記テーブルを認識する段階は、前記文書フォーマットがPDF ファイルフォーマットである場合に、人工知能モデルを通じて前記テーブルが存在する領域を検出して前記テーブルを検出する段階;前記文書フォーマットがDOCX ファイルフォーマ
ットである場合に、DOCX ファイルが含むテーブル構造に対する情報を利用して前記テー
ブルを認識する段階;および前記文書フォーマットがエクセルファイルフォーマットである場合に、前記文書を画像に変換して、前記変換された画像で前記テーブルが存在する領域を検出して前記テーブルを検出する段階を含むことを特徴とすることができる。
【0014】
コンピュータ装置と結合して前記方法をコンピュータ装置に実行させるためにコンピュータ読み取り可能な記録媒体に保存されたコンピュータプログラムを提供する。
【0015】
前記方法をコンピュータ装置に実行させるためのプログラムが記録されているコンピュータ読み取り可能な記録媒体を提供する。
【0016】
コンピュータ装置において読み取り可能な命令を実行するように実装される少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサによって、大型言語モデル(Large Language Models, LLM)のプロンプトに利用される文書の文書フォーマットを確認し、前記文書フォーマットに従って前記文書に含まれたテーブルを認識し、前記認識されたテーブルの内容をマークダウン形式または自然言語形式に変換し、前記変換されたテーブルの内容を前記プロンプトでの使用またはRAG(Retrieval Augmented Generation)のリトリ
ーバー(retriever)のテーブル検索のための使用のためにストレージに保存することを特
徴とするコンピュータ装置を提供する。
【発明の効果】
【0017】
大型言語モデルのためのプロンプトのテーブルを処理する方法及びシステムを提供することができる。
【図面の簡単な説明】
【0018】
図1図1は、本発明の一実施例による、ネットワーク環境の例を示す図面である。
図2図2は、本発明の一実施例による、コンピュータ装置の例を示すブロック図である。
図3図3は、本発明の一実施例における、テーブル処理システムの概略的な様子の例を示す図面である。
図4図4は、本発明の一実施例における、PDFファイル形式の文書が含むテーブルを処理する過程の例を示す図面である。
図5図5は、本発明の一実施例における、複雑なテーブルの例を示す図面である。
図6図6は、本発明の一実施例における、docxファイル形式の文書が含むテーブルを処理する過程の例を示す図面である。
図7図7は、本発明の一実施例における、excelファイル形式の文書が含むテーブルを処理する過程の例を示す図面である。
図8図8は、本発明の一実施例における、マークダウン形態に変換されたテーブル内容の例を示す図面である。
図9図9は、本発明の一実施例における、自然語形態に変換されたテーブル内容の例を示す図面である。
図10図10は、本発明の一実施例における、テーブル処理方法の例を示すフローチャートである。
【発明を実施するための形態】
【0019】
以下、添付図面を参照して実施例を詳細に説明する。
【0020】
本発明の実施例による表処理システムは、少なくとも1つのコンピュータ装置によって
具現することができる。このとき、表処理システムを具現するコンピュータ装置には本発明の一実施例によるコンピュータプログラムがインストールおよび駆動することができ、コンピュータ装置は駆動されたコンピュータプログラムの制御に従って本発明の実施例による表処理方法を行うことができる。上述のコンピュータプログラムは、コンピュータ装置と結合されて表処理方法をコンピュータに実行させるためにコンピュータ読み取り可能な記録媒体に格納することができる。
【0021】
図1は、本発明の一実施例によるネットワーク環境の例を示す図面である。図1のネットワーク環境は、複数の電子機器(110、120、130、140)、複数のサーバ(150、160)およびネットワーク(170)を含む例を示している。このような図1は発明の説明のための一例で、電子機器の数やサーバの数が図1のように限定されるものではない。
【0022】
複数の電子機器(110, 120, 130, 140)は、コンピュータシステムで実現される固定型端末または移動型端末であり得る。複数の電子機器(110, 120, 130, 140)の例を挙げると、スマートフォン(smart phone)、携帯電話、ナビゲーション、コンピュータ、ノートパソ
コン、デジタル放送用端末、PDA(Personal Digital Assistants)、PMP(Portable Multimedia Player)、タブレットPC、ゲームコンソール(game console)、ウェアラブルデバイス(wearable device)、IoT(internet of things)デバイス、VR(virtual reality)デバイス、AR(augmented reality)デバイスなどがある。一例として、図1では電子機器(110)の例と
してスマートフォンの形状を示しているが、本発明の実施例では、電子機器(110)は実質
的に無線または有線通信方式を利用してネットワーク(170)を通じて他の電子機器(120, 1
30, 140)および/またはサーバ(150, 160)と通信することができる多様な物理的なコンピ
ュータシステムの一つを意味することができる。
【0023】
通信方式は制限されず、ネットワーク(170)が含むことができる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網、衛星網など)を活用する
通信方式のみならず、機器間の近距離無線通信も含まれ得る。例えば、ネットワーク(170)は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークの中の1つ以上の任意のネットワークを含むこと
ができる。また、ネットワーク(170)は、バスネットワーク、スターネットワーク、リン
グネットワーク、メッシュネットワーク、スター-バスネットワーク、ツリーまたは階層
的(hierarchical)ネットワークなどを含むネットワークトポロジーの中の任意の1つ以上
を含むことができるが、これに制限されない。
【0024】
サーバ(150, 160) それぞれは複数の電子機器(110, 120, 130, 140)とネットワーク(170)を通じて通信し、命令、コード、ファイル、コンテンツ、サービスなどを提供するコンピュータ装置または複数のコンピュータ装置で実現することができる。例えば、サーバ(150)はネットワーク(170)を通じて接続した複数の電子機器(110, 120, 130, 140)に第1サ
ービスを提供するシステムであり得、サーバ(160)もまたネットワーク(170)を通じて接続した複数の電子機器(110, 120, 130, 140)に第2サービスを提供するシステムであり得る
。より具体的な例として、サーバ(150)は複数の電子機器(110, 120, 130, 140)にインス
トールされて駆動されるコンピュータプログラムとしてのアプリケーションを通じ、そのアプリケーションが目的とするサービス(一例として、検索サービスなど)を第1サービス
として複数の電子機器(110, 120, 130, 140)に提供することができる。他の例として、サーバ(160)は上述したアプリケーションのインストールおよび駆動のためのファイルを複
数の電子機器(110, 120, 130, 140)に配布するサービスを第2サービスとして提供するこ
とができる。
【0025】
図2は、本発明の一実施例に従うコンピュータ装置の例を示すブロック図である。前に
説明した複数の電子機器(110, 120, 130, 140) それぞれやサーバ(150, 160) それぞれは図2を通じて示されたコンピュータ装置(200)により具現され得る。
【0026】
このようなコンピュータ装置(200)は、図2に示されているように、メモリ(210)、プロ
セッサ(220)、通信インターフェース(230)、そして入出力インターフェース(240)を含む
ことができる。 メモリ(210)は、コンピュータで読み取り可能な記録媒体として、RAM(random access memory)、ROM(read only memory)およびディスクドライブのような非揮発性大容量記録装置(permanent mass storage device)を含むことができる。ここで、ROMとディスクドライブのような非揮発性大容量記録装置は、メモリ(210)とは区別される別の永
久保存装置としてコンピュータ装置(200)に含まれることもある。また、メモリ(210)には、オペレーティングシステムと少なくとも1つのプログラムコードが保存されることがで
きる。このようなソフトウェア構成要素は、メモリ(210)とは別のコンピュータで読み取
り可能な記録媒体からメモリ(210)にロードされることができる。このような別のコンピ
ュータで読み取り可能な記録媒体は、フロッピードライブ、ディスク、テープ、DVD/CD-ROMドライブ、メモリカードなどのコンピュータで読み取り可能な記録媒体を含むことができる。他の実施例では、ソフトウェア構成要素は、コンピュータで読み取り可能な記録媒体ではない通信インターフェース(230)を通じてメモリ(210)にロードされることもある。例えば、ソフトウェア構成要素は、ネットワーク(170)を通じて受信されるファイルによ
ってインストールされるコンピュータプログラムに基づいて、コンピュータ装置(200)の
メモリ(210)にロードされることができる。
【0027】
プロセッサ(220)は、基本的な演算、ロジック及び入出力演算を遂行することにより、
コンピュータプログラムの命令を処理するように構成され得る。命令はメモリ(210)又は
通信インターフェース(230)によってプロセッサ(220)に提供され得る。例えば、プロセッサ(220)は、メモリ(210)のような記録装置に格納されたプログラムコードに従って受信される命令を実行するように構成され得る。
【0028】
通信インターフェース(230)は、ネットワーク(170)を通じてコンピュータ装置(200)が
他の装置(例えば、前述した記憶装置)と互いに通信するための機能を提供することができる。例えば、コンピュータ装置(200)のプロセッサ(220)がメモリ(210)のような記録装置
に記憶されたプログラムコードに従って生成した要求や命令、データ、ファイルなどが通信インターフェース(230)の制御に従ってネットワーク(170)を通じて他の装置へ伝達されることができる。逆に、他の装置からの信号や命令、データ、ファイルなどがネットワーク(170)を経てコンピュータ装置(200)の通信インターフェース(230)を通じてコンピュー
タ装置(200)へ受信されることができる。通信インターフェース(230)を通じて受信された信号や命令、データなどはプロセッサ(220)やメモリ(210)へ伝達されることができ、ファイルなどはコンピュータ装置(200)がさらに含むことができる記憶媒体(前述の永久記憶装置)へ記憶されることができる。
【0029】
入出力インターフェース(240)は、入出力装置(250)とのインターフェースのための手段であり得る。例えば、入力装置はマイク、キーボードまたはマウスなどの装置を、そして出力装置はディスプレイ、スピーカーのような装置を含むことができる。他の例として、入出力インターフェース(240)はタッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインターフェースのための手段であることもできる。入出力装置(250)はコンピュータ装置(200)と1つの装置として構成されることもできる。
【0030】
また、他の実施例では、コンピュータ装置(200)は図2の構成要素よりもさらに少ないまたはさらに多い構成要素を含むこともできる。しかし、大部分の従来技術的構成要素を明確に図示する必要性はない。例えば、コンピュータ装置(200)は上述した入出力装置(250)の中で少なくとも一部を含むように具現されるか、またはトランシーバー(transceiver)
、データベースなどのような他の構成要素をさらに含むこともできる。
【0031】
図3は、本発明の一実施例における、テーブル処理システムの概略的な様子の例を図示
した図面である。図3の実施例によるテーブル処理システム(300)は、テーブル処理部(310)及び記憶部(320)を含むことができる。テーブル処理システム(300)は、文書(330)を入力してテーブル処理部(310)を通じて入力された文書(330)が含むテーブルの内容をマークダウン形態または自然語形態に変換することができ、変換されたテーブルの内容を含む文書(330)を記憶部(320)に記憶することができる。以後、記憶部(320)に記憶された文書(330)は、LLMのためのプロンプトとして活用されたり、リトリーバー(Retriever)が質問に対する回答がテーブル内部に存在するか否かを判断するのに活用されることができる。実施例によって、記憶部(320)には変換されたテーブルの内容のみが記憶されることもある。
【0032】
これにおいて、文書はDOCXファイル形式、エクセル(Excel)ファイル形式、PDF(Portable Document Format)ファイル形式などのように多様な文書形式を有することができる。したがって、各文書形式別に互いに異なる方式でテーブルが処理されることができる。
【0033】
図4は、本発明の一実施例において、PDFファイル形式の文書が含むテーブルを処理する過程の例を図示した図面である。PDFは組版システムで文書上のどの地点がテーブルであ
るという情報は別途に存在しない。PDFファイル形式の文書は、ただ文字の位置と線でテ
ーブルを描いているだけである。したがって、テーブルを検知(detect)する別途の過程が要求される。
【0034】
アップロード(Upload, 410)過程は、前述したテーブル処理システム(300)にPDFファイ
ル形式の文書をアップロードする過程の例を示している。ここで、テーブル処理システム(300)が含むテーブル処理部(310)は、文書を構成するファイルの拡張子を確認して処理しようとする文書の文書形式を確認することができる。図4の実施例では、文書の形式がPDFファイル形式であると仮定する。テーブル処理部(310)は、図4に示したPDFハンドラ(PDF Handler, 421)、docxハンドラ(docx Handler, 422)、excelハンドラ(excel Handler, 423)などのように、文書形式毎に文書が含むテーブルを処理するためのハンドラを含むこと
ができる。文書形式が確認されると、確認された文書形式に対応するハンドラが以後の過程を処理することができる。図4の実施例はPDFファイル形式の文書を処理する例として、以後の過程はPDFハンドラ(421)によって処理されることができる。
【0035】
ページ分割(Split page, 430)過程は、PDFハンドラ(421)が文書をページ別に分割する
過程の例であり、以降の過程は分割された各ページ別に処理され得る。
【0036】
プレビュー作成(Make preview, 440)過程は、PDFハンドラ(421)が分割された各ページ
別にプレビューを作成する例を示している
【0037】
テーブル検出(Table detection, 450)過程は、前述したようにPDFファイル形式では文
書上でのテーブルの存在有無や位置に関する情報が存在しないため、PDFハンドラ(421)が分割されたページ上にテーブルが存在する部分を検出するための過程の例であり得る。この時、テーブルが存在する部分の検出は、人工知能モデル(例えば、テーブル検出モデル(Table Detection Model))を用いて遂行され得る。人工知能モデルを用いて画像上で特定
オブジェクトを検出する技術は既によく知られているため、具体的な説明は省略する。
【0038】
簡単なテーブルの有無の決定(460)は、PDFハンドラー(421)が検知されたテーブルが簡
単なテーブルなのか、あるいは複雑なテーブルなのかを判別する過程の例示することができる。ここで、簡単なテーブルは、マージされたセル(merged cell)がなく、含まれるテ
キストの全体の長さが基準値未満のテーブルを意味することができる。逆に複雑なテーブルは、マージされたセルが含まれているか、あるいは含まれるテキストの全体の長さが基準値以上のテーブルを意味することができる。この時、簡単なテーブルの有無を決定することは、人工知能モデル(一例として、テーブル分類モデル(Table Classification Model))を利用して遂行されることができる。人工知能モデルを利用して画像上の特定オブジェクトを分類する技術は既によく知られているため、具体的な説明は省略する。
【0039】
マークダウンで処理(Handle as markdown, 470)過程は、PDFハンドラ(421)が簡単なテ
ーブルをマークダウン形式に変換する過程の例とすることができる。この場合、マークダウン形式に変換されたテーブルの内容を含む文書がストレージ(320)に保存されることが
できる。
【0040】
ヘッダー検知(Header detection, 480)過程は、PDFハンドラ(421)が検知された複雑な
テーブルでテーブルのヘッダー(例えば、タイトル行)を検出する過程の例とすることができる。このようなヘッダーの検知は、テーブルのヘッダーを検出するように学習された人工知能モデル(例えば、ヘッダー検知モデル(Header Detection Model))によって行われることができる。また、PDFハンドラ(421)は、テーブルのリーディング方向(行(row)基準または列(column)基準)を決定することができる。このとき、テーブルでリーディング方向
の値は互いに異なる値で構成されており、リーディング方向と垂直な方向は似た値で構成されているという仮定に基づく。
【0041】
自然言語で処理(Handle as natural language, 490)過程は、PDFハンドラ(421)がテー
ブルの読み取り方向に従ってヘッダーとテーブルの値を一行ずつ読み取り、自然言語を生成する過程の例とすることができる。このとき、自然言語は予め設定された規則に従って生成されることもでき、LLMを通じて生成されることもできる。
【0042】
図5は、本発明の一実施例において、複雑なテーブルの例を図示した図面である。図5は、結合されたセルを含む複雑なテーブルに分類されたテーブルの例を示している。このような複雑なテーブルに対して、PDFハンドラ(421)はヘッダー検出モデルを利用してヘッダーを抽出することができる。図5のテーブルにおいてヘッダーは、「位置」、「人口」、
「出生率」、「AA道」、「BB市」、そして「CC市」である。この時、セルの値を比較して読み取り方向が決定されることができる。図5のテーブルに対しては、列基準方向(縦方向)が行基準方向(横方向)と相対的により類似した値がまとまっているため、図5のテーブルは行基準方向の読み取り方向を有するテーブルに分類されることができる。この場合、PDFハンドラ(421)は以下のように一つの行を選択することができる。
【0043】
「位置:京畿道水原、人口110万、出生率:1.1%」
【0044】
この場合、PDFハンドラ(421)は選択された行の値を以下のように自然言語に変換して、ストレージ(320)に保存することができる。
【0045】
「位置は京畿道、水原で、人口は110万で、出生率は1.1%である。」
【0046】
図6は、本発明の一実施例において、docxファイル形式の文書が含むテーブルを処理す
る過程の例を図示した図面である。
【0047】
先の図4の実施例で説明したように、アップロード(Upload, 410)過程を通 じ文書がア
ップロードされると、テーブル処理システム(300)が含むテーブル処理部(310)は 文書を
構成するファイルの拡張子を確認して処理しようとする文書の文書形式を 確認すること
ができる。図6の実施例ではdocxファイル形式が確認されたと仮定する。 このとき、docxファイル形式の文書はdocxハンドラ(422)によって処理されることができる。
【0048】
docxハンドラ(422)は、PDFへの印刷(Print to PDF, 610)のプロセスを通じて、docxフ
ァイルをPDFファイルに変換し、図4の実施例のようにPDFファイルとしてテーブルを処理
することができる。ただし、docxファイルはPDFファイルとは異なり、テーブル構造に関
する情報がファイルに保存されているため、図4の実施例で説明したテーブル検出(450)のプロセスは省略することができ、docxファイルに保存された情報を通じてテーブルを認識するテーブル認識(Table recognition, 620)のプロセスがdocxハンドラ(422)によって実
行されることができる。その後のプロセスは図4の実施例と同様に進行され、テーブルの
内容がマークダウン形式または自然語形式に変換され、ストレージ(320)に保存されるこ
とができる。
【0049】
図7は、本発明の一実施例において、excelファイル形式の文書が含むテーブルを処理するプロセスの例を示した図面である。
【0050】
前述の図4の実施例で説明したように、アップロード(Upload, 410)のプロセスを通じて文書がアップロードされると、テーブル処理システム(300)が含むテーブル処理部(310)は、文書を構成するファイルの拡張子を確認して、処理しようとする文書の文書形式を確認することができる。図7の実施例では、excelファイル形式が確認されたと仮定する。この時、excelファイル形式の文書はexcelハンドラ(423)によって処理されることができる。
【0051】
エクセルファイルは既に列と行に分解されているが、多数のテーブルは値だけでなくヘ
ッダーとその他の情報が含まれている場合が多い。したがって、すべての領域をそのままテーブルとして認識すると、エラーが生じる可能性が高い。またテーブル部分は特定の色、枠線の強調などを通じて視覚的に区別される場合が多い。したがって、エクセルファイルを画像(一例として、PNG(Portable Network Graphics)ファイル形式の画像)に変換し、画像からテーブル領域を抽出するのがより正確である。これに、エクセルハンドラー(423)は画像に印刷(Print to image, 710)過程を通じてエクセルファイルを画像に変換し、テーブル検知(Table detection, 720)過程を通じて画像からテーブル領域を抽出することができる。テーブル領域を抽出した後は、PDFと同一の方式でテーブルの内容が
マークダウン形態または自然語形態に変換され、ストレージ(320)に保存されることが
できる。図8は、本発明の一実施例において、マークダウン形態に変換されたテーブル内
容の例を示した図面であり、図9は、本発明の一実施例において、自然語形態に変換され
たテーブル内容の例を示した図面である。
【0052】
図10は、本発明の一実施例における、テーブル処理方法の例を図示したフローチャートである。本実施例によるテーブル処理方法は前述したテーブル処理システム(300)を具現
するコンピュータ装置(200)によって遂行されることができる。この時、コンピュータ装
置(200)のプロセッサ(220)はメモリ(210)が含むオペレーティングシステムのコードや少
なくとも一つのコンピュータプログラムのコードによる制御命令(instruction)を実行す
るように具現されることができる。ここで、プロセッサ(220)はコンピュータ装置(200)に保存されたコードが提供する制御命令によりコンピュータ装置(200)が図10の方法が含む
段階(1010乃至1040)を遂行するようにコンピュータ装置(200)を制御することができる。
【0053】
段階(1010)において、コンピュータ装置(200)は大型言語モデルのためのプロンプトに
利用される文書の文書フォーマットを確認することができる。一例として、コンピュータ装置(200)は文書に対応するファイルの拡張子を通じて文書フォーマットを確認すること
ができる。このような文書フォーマットは、DOCX ファイルフォーマット、エクセルファ
イルフォーマット、PDF ファイルフォーマットの中の少なくとも一つに分類されることができるが、これに制限されるものではない。一例として、DOC ファイルフォーマットやHWP ファイルフォーマットなどがさらに活用されることもできる。DOC ファイルフォーマットやHWP ファイルフォーマットはテーブル構造に関する情報が含まれているため、DOCX
ファイルフォーマットと類似して処理されることができる。また、様々な画像ファイルフォーマットもまた、PDF ファイルフォーマットと類似して処理されることができる。
【0054】
段階(1020)において、コンピュータ装置(200)は文書形式に従って文書に含まれたテー
ブルを認識することができる。一例として、コンピュータ装置(200)は文書形式がPDFファイル形式である場合に人工知能モデルを通じてテーブルが存在する領域を探知してテーブルを探知することができる。他の例として、コンピュータ装置(200)は文書形式がDOCXフ
ァイル形式である場合にDOCXファイルが含むテーブル構造に対する情報を利用してテーブルを認識することができる。また他の例として、コンピュータ装置(200)は文書形式がエ
クセルファイル形式である場合に文書をイメージに変換し、変換されたイメージでテーブルが存在する領域を探知してテーブルを探知することができる。
【0055】
段階(1030)において、コンピュータ装置(200)は、認識されたテーブルの内容をマーク
ダウン形態または自然語形態に変換することができる。一例として、コンピュータ装置(200)は、認識されたテーブルに結合されたセル(merged cell)が存在するか否か、および認識されたテーブルに含まれるテキストの全体の長さのうち、少なくとも一つに基づいて、認識されたテーブルの内容をマークダウン形態または自然語形態に変換することができる。より具体的な例として、コンピュータ装置(200)は、認識されたテーブルが結合された
セルを含まず、認識されたテーブルに含まれるテキストの全体の長さが予め設定された基準値未満である場合に、認識されたテーブルの内容をマークダウン形態に変換することが
できる。また、コンピュータ装置(200)は、認識されたテーブルが結合されたセルを含む
か、または全体の長さが予め設定された基準値以上である場合に、認識されたテーブルの内容を自然語形態に変換することができる。
【0056】
この時、コンピュータ装置(200)は、認識されたテーブルの内容を自然言語形態に変換
する場合、テーブルのヘッダーを抽出し、テーブルのリーディング方向を決定した後、リーディング方向に沿ってテーブルからヘッダーとテーブルの値を一行ずつ読み取り、自然言語を生成することができる。また、コンピュータ装置(200)はリーディング方向をテー
ブルの列基準の方向及び行基準の方向のうち一つに決定することができる。
【0057】
段階(1040)で、コンピュータ装置(200)は変換されたテーブルの内容をプロンプトとし
ての使用又はRAGのリトリーバのテーブル検索のための使用のためにストレージに保存す
ることができる。ここで、ストレージは前述したストレージ(320)に対応することができ
、変換されたテーブルの内容がストレージに保存されるか、又は変換されたテーブルの内容を含むドキュメントの内容がストレージに保存されることができる。
【0058】
このように、本発明の実施例によれば、大型言語モデルのためのプロンプトのテーブルを処理する方法及びシステムを提供することができる。
【0059】
以下に説明されたシステムまたは装置は、ハードウェア構成要素、またはハードウェア構成要素及びソフトウェア構成要素の組み合わせで具現化されることができる。例えば、実施例で説明された装置及び構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、
マイクロプロセッサ、または命令(instruction)を実行して応答することができる他のい
かなる装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用し
て具現化されることができる。処理装置はオペレーティングシステム(OS)及び前記オペレーティングシステム上で遂行される1つ以上のソフトウェアアプリケーションを遂行する
ことができる。また、処理装置はソフトウェアの実行に応答して、データにアクセス、保存、操作、処理及び生成することもできる。理解の便宜のために、処理装置は1つが使わ
れるものと説明される場合もあるが、当該技術分野で通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び/または複数タイプの処理要素を含むことが
できることを知ることができる。例えば、処理装置は複数のプロセッサまたは1つのプロ
セッサ及び1つのコントローラを含むことができる。また、並列プロセッサ(parallel processor)のような、他の処理構成(processing configuration)も可能である。
【0060】
ソフトウェアはコンピュータプログラム(computer program)、コード(code)、命令(instruction)、またはこれらのうち1つ以上の組み合わせを含むことができ、望むように動作するように処理装置を構成したり、独立的にまたは結合的に(collectively)処理装置を命令することができる。ソフトウェアおよび/またはデータは、処理装置によって解釈され
たり、処理装置に命令またはデータを提供するために、ある種類の機械、構成要素(component)、物理的装置、仮想装置(virtual equipment)、コンピュータ記憶媒体または装置に具体化(embody)されることができる。ソフトウェアはネットワークで連結されたコンピュータシステム上に分散されて、分散された方法で記憶されたり実行されることもできる。ソフトウェアおよびデータは1つ以上のコンピュータ読み取り可能な記録媒体に記憶され
ることができる。
【0061】
実施例による方法は、様々なコンピュータ手段を通して遂行されることができるプログラム命令形態で具現されてコンピュータ読み取り可能媒体に記録されることができる。前記コンピュータ読み取り可能媒体は、プログラム命令、データファイル、データ構造など
を単独で、または組み合わせて含むことができる。媒体は、コンピュータで実行可能なプログラムを継続的に保存したり、実行またはダウンロードのために一時的に保存するものでもありうる。また、媒体は、単一または数個のハードウェアが結合された形態の多様な記録手段または保存手段でありうるが、どんなコンピュータシステムに直接接続される媒体に限定されず、ネットワーク上に分散して存在するものでもありうる。媒体の例示としては、ハードディスク、フロッピーディスクおよび磁気テープのような磁気媒体、CD-ROMおよびDVDのような光記録媒体、フロプティカルディスク(floptical disk)のような磁気-光媒体(magneto-optical medium)、およびROM、RAM、フラッシュメモリーなどを含んでプログラム命令語が保存されるように構成されたものがありうる。また、他の媒体の例示として、アプリケーションを流通するアプリストアや、その他多様なソフトウェアを供給ないし流通するサイト、サーバなどで管理する記録媒体ないし保存媒体も挙げられる。プログラム命令の例には、コンパイラによってつくられるものと同じような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行されることができる高級言語コードを含む。
【0062】
以下のように、実施例が限定された実施例と図面によって説明されたが、当該技術分野において通常の知識を有する者であれば、上記の記載から多様な修正及び変形が可能である。例えば、説明された技術が説明された方法と異なる順序で実行されたり、及び/又は
説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられたり、他の構成要素又は均等物によって代置されたり置換されたりしても適切な結果が達成されることができる。
【0063】
よって、他の具現、他の実施例及び請求範囲と均等なものも後述する請求範囲の範囲に属する。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
【外国語明細書】