IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソフトバンクモバイル株式会社の特許一覧

特許7588260情報処理装置、情報処理方法及び情報処理プログラム
<>
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図1
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図2
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図3
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図4
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図5
  • 特許-情報処理装置、情報処理方法及び情報処理プログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-11-13
(45)【発行日】2024-11-21
(54)【発明の名称】情報処理装置、情報処理方法及び情報処理プログラム
(51)【国際特許分類】
   G06V 30/412 20220101AFI20241114BHJP
   G06Q 10/063 20230101ALI20241114BHJP
【FI】
G06V30/412
G06Q10/063
【請求項の数】 7
(21)【出願番号】P 2024035204
(22)【出願日】2024-03-07
【審査請求日】2024-03-07
【早期審査対象出願】
(73)【特許権者】
【識別番号】501440684
【氏名又は名称】ソフトバンク株式会社
(74)【代理人】
【識別番号】110002516
【氏名又は名称】弁理士法人白坂
(72)【発明者】
【氏名】松岡 佑磨
(72)【発明者】
【氏名】石井田 聡哉
(72)【発明者】
【氏名】森 誠一郎
(72)【発明者】
【氏名】大村 昇平
(72)【発明者】
【氏名】渡部 和彦
(72)【発明者】
【氏名】高橋 竜星
【審査官】小池 正彦
(56)【参考文献】
【文献】特開2022-128766(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/412
G06Q 10/063
(57)【特許請求の範囲】
【請求項1】
第1画像と、当該第1画像に記録される文字列の構造化情報とを対応付けたナレッジデータを記憶する記憶部と、
ユーザによって特定された第2画像を取得する取得部と、
前記取得部によって取得した前記第2画像と、前記記憶部に記憶したナレッジデータに基づく前記第1画像との類似度を推定する推定部と、
前記推定部によって推定した類似度が高い順に所定数の前記第1画像を候補画像としてユーザに提示する提示部と、
前記提示部によって提示された前記候補画像のうち1つが選択されると、当該選択された候補画像に対応する構造化情報を出力するよう制御する出力制御部と、
を備える情報処理装置。
【請求項2】
前記取得部は、前記第2画像として、グラフ、ボックス図、樹形図、表、及び、フローチャートのうち少なくとも1つを記録した画像を取得する
請求項1に記載の情報処理装置。
【請求項3】
前記記憶部は、ナレッジデータとして、前記第1画像と、前記第1画像の分散表現と、前記第1画像に記録される文字列の構造化情報とを対応付けたデータを記憶し、
前記推定部は、前記取得部によって取得した前記第2画像の分散表現を取得し、前記第2画像の分散表現と、前記記憶部に記憶した前記第1画像の分散表現とに基づいて、前記第2画像と前記第1画像との類似度を推定する
請求項1に記載の情報処理装置。
【請求項4】
前記出力制御部は、選択された前記候補画像に対応する第1画像に記録される文字列の構造化情報に応じて、前記取得部によって取得した前記第2画像に記録される文字列の構造化情報を出力するよう制御する
請求項1に記載の情報処理装置。
【請求項5】
第1画像と、当該第1画像に記録される文字列の構造化情報とを対応付けたナレッジデータを記憶する記憶部と、
ユーザによって特定された第2画像を取得する取得部と、
前記取得部によって取得した前記第2画像と、前記記憶部に記憶したナレッジデータに基づく前記第1画像との類似度を推定する推定部と、
前記推定部によって推定した類似度が高い順に所定数の前記第1画像を候補画像としてユーザに提示する提示部と、
前記提示部によって提示された前記候補画像のうち1つが選択されると、選択された前記候補画像に対応する第1画像に記録される文字列の構造化情報に応じて、前記取得部によって取得した前記第2画像に記録される文字列の構造化情報を出力する出力制御部と、
前記出力制御部によって出力された文字列の構造化情報を参照して、コンテンツを生成する生成AI部と、
を備える情報処理装置。
【請求項6】
第1画像と、当該第1画像に記録される文字列の構造化情報とを対応付けたナレッジデータを記憶する記憶部を備えるコンピュータが、
ユーザによって特定された第2画像を取得する取得ステップと、
前記取得ステップによって取得した前記第2画像と、前記記憶部に記憶したナレッジデータに基づく前記第1画像との類似度を推定する推定ステップと、
前記推定ステップによって推定した類似度が高い順に所定数の前記第1画像を候補画像としてユーザに提示する提示ステップと、
前記提示ステップによって提示された前記候補画像のうち1つが選択されると、当該選択された候補画像に対応する構造化情報を出力するよう制御する出力制御ステップと、
を実行する情報処理方法。
【請求項7】
第1画像と、当該第1画像に記録される文字列の構造化情報とを対応付けたナレッジデータを記憶する記憶部を備えるコンピュータに、
ユーザによって特定された第2画像を取得する取得機能と、
前記取得機能によって取得した前記第2画像と、前記記憶部に記憶したナレッジデータに基づく前記第1画像との類似度を推定する推定機能と、
前記推定機能によって推定した類似度が高い順に所定数の前記第1画像を候補画像としてユーザに提示する提示機能と、
前記提示機能によって提示された前記候補画像のうち1つが選択されると、当該選択された候補画像に対応する構造化情報を出力するよう制御する出力制御機能と、
を実現させる情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、情報処理方法及び情報処理プログラムに関する。
【背景技術】
【0002】
従来、帳票についてOCRを行って文字列を抽出し、その文字列をチェックする装置が存在する(特許文献1参照)。その装置は、文字列のチェックの際に、ユーザがそれぞれ異なるワークフローの種別を判別し、判別したワークフローの種別毎に決定された優先順位に従って、文字列を修正する複数の選択候補を提示する。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2021-056732号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、文字列を含む図(一例として、表及びグラフ等)を生成AIで利用する場合、生成AIは、文字列を図(表及びグラフ等)の構造に従って構造化しておかないと、図に記載される文字列を図の構造通りに(図の意味の通りに)利用することができない。
特許文献1に記載された技術では、文字列の構造化については記載されていない。
【0005】
本開示は、構造化された文字列を出力する情報処理装置、情報処理方法及び情報処理プログラムを提供する。
【課題を解決するための手段】
【0006】
一態様の情報処理装置は、第1画像と、その第1画像に記録される文字列の構造化情報とを対応付けたナレッジデータを記憶する記憶部と、ユーザによって特定された第2画像を取得する取得部と、取得部によって取得した第2画像と、記憶部に記憶したナレッジデータに基づく第1画像との類似度を推定する推定部と、推定部によって推定した類似度が高い順に所定数の第1画像を候補画像としてユーザに提示する提示部と、提示部によって提示された候補画像のうち1つが選択されると、その選択された候補画像に対応する構造化情報を出力するよう制御する出力制御部と、を備える。
【発明の効果】
【0007】
本開示の情報処理装置、情報処理方法及び情報処理プログラムは、構造化された文字列を出力することができる。
【図面の簡単な説明】
【0008】
図1】従来の、棒グラフに記載される文字列についてOCRを行うことにより取得した文字情報について説明するための図である。(A)は文字列が記載される棒グラフを示し、(B)は(A)に記載の棒グラフに基づいてOCRにより取得した文字情報を示す。
図2】本実施形態に係る、第1画像(棒グラフ)に記載される文字列についての構造化情報の一例について説明するための図である。(A)は文字列が記載される第1画像(棒グラフ)の一例を示し、(B)は(A)に記載の第1画像に基づく文字列の構造化情報の一例を示す。
図3】第2画像の一例について説明するための図である。
図4】候補画像の一例について説明するための図である。
図5】一実施形態に係る情報処理装置について説明するためのブロック図である。
図6】一実施形態に係る情報処理方法について説明するためのフローチャートである。
【発明を実施するための形態】
【0009】
以下、一実施形態について説明する。
【0010】
[情報処理装置100の概要]
まず、一実施形態に係る情報処理装置100の概要について説明する。
図1は、従来の、棒グラフに記載される文字列についてOCRを行うことにより取得した文字情報について説明するための図である。図1(A)は文字列が記載される棒グラフを示し、図1(B)は(A)に記載の棒グラフに基づいてOCRにより取得した文字情報を示す。
図2は、本実施形態に係る、第1画像(棒グラフ)に記載される文字列についての構造化情報の一例について説明するための図である。図2(A)は文字列が記載される第1画像(棒グラフ)の一例を示し、図2(B)は(A)に記載の第1画像に基づく文字列の構造化情報の一例を示す。
【0011】
情報処理装置100は、図(一例として、表及びグラフ等)に文字列が記載される場合、その図の構造(表及びグラフ、及び、その表及びその表グラフに記載される文字列の記載位置)に類似する他の図に基づいた文字列の構造(文字列の構造例)を提示する提示装置等として構成されてもよい。また、情報処理装置100は、図に記載される文字列を、生成AIで利用できるように文字列の構造化情報に自動的に変換する変換装置等として構成されてもよい。情報処理装置100は、上述した一例の装置に限らず、種々の装置等を構成してもよい。
情報処理装置100は、例えば、サーバ、デスクトップ、ラップトップ、タブレット及びスマートフォン等のコンピュータであってもよい。
【0012】
ここで図1(A)に例示するように、2本の棒グラフがある場合、1本の棒グラフ(積み上げ棒グラフ)に複数の項目(文字列)を記載し、合計2本の棒グラフ(積み上げ棒グラフ)で複数の項目(文字列)の時間的な推移をみることがある。従来、そのような文字列についてOCRを行うと、各項目(文字列)の時間的推移に関係なく、全ての文字列が連続して表されることがあった(図1(B)参照)。
同様に一例として、2行2列の表がある場合、表の各マスには文字列が記載される。従来、そのような文字列を含む画像についてOCRを行うと、表の各マスの位置に関係なく、全てのマスに記載される全ての文字列が連続して表される場合があった。
このような図に応じて構造化されていない文字列は、生成AIにおいて、意味のある文字列として利用することができない。
【0013】
そこで、本実施形態では、図に記載される文字列の記載を、生成AIで利用できるように、図に応じて文字列を構造化する。すなわち、情報処理装置100は、対象となる図(第2画像)に他の図(第1画像)が類似する場合、他の図(第1画像)に基づいて予め構造化された文字列(構造化情報)を提示する。一例として、情報処理装置100は、図2(A)に例示するような第1画像(一例として、棒グラフ(積み上げ棒グラフ)等)がある場合、第1画像に記載されるも文字列を構造化した構造化情報(図2(B)参照)を提示する。
図1(B)の従来の文字情報は、複数の文字列が連続して記録される。一方、図2(B)に例示する本実施形態の構造化情報は、図2(A)の第1画像(棒グラフ)の構造(部門、年度、年度に応じた数値、及び、増減率等の記載位置(文字列の構造))に応じて文字列のみを構造化した情報である。なお、第1画像、及び、その第1画像に対応する文字列の構図化情報は、図2に例示するものに限定されず、種々のものであってもよい。
これによりユーザ又は情報処理装置100は、第1画像に基づく文字列の構造化情報を参照し、その構造化情報と同様になるよう、図(第2画像)に記載される文字列についても構造化を行う。
【0014】
具体的には、情報処理装置100は、第1画像と、その第1画像に記録される文字列の構造化情報とを対応付けた複数のデータ(対応情報)をナレッジデータとして記憶する。文字列の構造化情報は、第1画像の構造、一例として表のマス及び棒グラフの各項目に応じて記載される文字列を、第1画像の構造が分かるように(一例として、各文字列に対応する、表の各マス及び棒グラフの各マスの位置等の関係がわかるように)構造化した情報等であってもよい(図2の例示を参照)。
【0015】
図3は、第2画像の一例について説明するための図である。
図4は、候補画像の一例について説明するための図である。
【0016】
情報処理装置100は、ユーザによって特定された第2画像を取得する。一例として、情報処理装置100は、図3に例示する第2画像(棒グラフ)を取得する。すなわち、情報処理装置100は、文字列の構造化が行われる対象の第2画像がユーザ(例えば、入力部121(図5参照)及びユーザ端末(図示せず)を介した入力等)によって特定されると、特定された第2画像を受け付ける。入力部121は、例えば、キーボード及びマウス等であってもよい。また、ユーザ端末は、ユーザによって使用される端末であり、一例として、デスクトップ、ラップトップ、タブレット及びスマートフォン等であってもよい。
【0017】
情報処理装置100は、取得した第2画像と、ナレッジデータに基づく第1画像との類似度を推定する。一例として、情報処理装置100は、類似度の推定として、第1画像の分散表現と、第2画像の分散表現とに基づいて、第1画像と第2画像との類似度を推定してもよい。より具体的な一例としては、情報処理装置100は、分散表現として、第1画像及び第2画像それぞれの画像(画像の持つ意味)をベクトル(数値)で表現し、第1画像が持つ意味のベクトル(数値)と、第2画像が持つ意味のベクトル(数値)との(各ベクトル間の距離及び位置関係に基づいて)類似度を推定してもよい。このような分散表現(ベクトル)では、例えば、公知の自然言語処理等を始めとする種々の処理を用いてもよい。
【0018】
情報処理装置100は、上述したように推定した類似度が高い順に所定数の第1画像を候補画像としてユーザに提示する。所定数は、例えば、3個、5個、8個及び10個等を始めとする種々の数(単数又は複数)であってもよい。図4に一例を示すように、情報処理装置100は、第2画像(図3参照)に類似する第1画像(候補画像)を、類似度の高い上位から順に所定数(図4に例示する場合には、類似度が最も高い「1位」から順に「3位」までの候補画像)提示する。
【0019】
情報処理装置100は、上述したように提示した候補画像のうち1つがユーザ(例えば、入力部121及びユーザ端末を介した入力等)によって選択されると、ナレッジデータを参照し、その選択された候補画像(第1画像)に対応する構造化情報を出力する。一例として、図4に例示する1位の候補画像が選択された場合、情報処理装置100は、選択された候補画像(第1画像(図2(A)参照))に対応する文字列の構造化情報(図2(B)参照)を提示する。
ここでの構造化情報は、上述した文字列の構造化情報であり、第1画像の構造、一例として表のマス及び棒グラフの各項目に応じて記載される文字列を、第1画像の構造が分かるように(一例として、各文字列に対応する、表の各マス及び棒グラフの各マスの位置等の関係がわかるように)構造化した情報等であってもよい。
【0020】
[情報処理装置100の詳細]
次に、一実施形態に係る情報処理装置100について詳細に説明する。
図5は、一実施形態に係る情報処理装置100について説明するためのブロック図である。
【0021】
情報処理装置100は、例えば、入力部121、通信部131、記憶部132、表示部133及び制御部110等を備える。通信部131、記憶部132及び表示部133は、出力部の一実施形態であってもよい。制御部110は、例えば、取得部111、推定部112、提示部113、出力制御部114及び生成AI部115等を備える。制御部110は、例えば、情報処理装置100の演算処理装置等によって構成されてもよい。制御部110(例えば、演算処理装置等)は、例えば、記憶部132等に記憶される各種プログラム等を適宜読み出して実行することにより、各部(例えば、取得部111、推定部112、提示部113、出力制御部114及び生成AI部115等)の機能を実現してもよい。すなわち、コンピュータ実装により、各部の機能を実現してもよい。
【0022】
入力部121は、例えば、キーボード及びマウス等の入力インターフェースであってもよい。入力部121は、例えば、グラフィカルユーザインターフェース(GUI)であってもよい。
【0023】
通信部131は、例えば、情報処理装置100の外部にある装置(外部装置)等との間で種々の情報の送受信が可能な通信インターフェースである。
【0024】
記憶部132は、例えば、種々の情報及びプログラムを記憶してもよい。記憶部132の一例は、メモリ、ソリッドステートドライブ及びハードディスクドライブ等であってもよい。なお、記憶部132は、例えば、クラウド上にある記憶領域及びサーバ等であってもよい。
【0025】
記憶部132は、第1画像と、その第1画像に記録される文字列の構造化情報とを対応付けたナレッジデータを記憶する。記憶部132は、ナレッジデータとして、第1画像と、第1画像の分散表現と、第1画像に記録される文字列の構造化情報とを対応付けた複数のデータ(対応情報)を記憶してもよい。
【0026】
第1画像は、例えば、グラフ、ボックス図、樹形図、表、及び、フローチャート等を始めとする複数種類の図等であってもよい。第1画像には文字列が記載されていてもよい。
【0027】
文字列の構造化情報は、例えば、第1画像の構造、一例として表のマス及び棒グラフ等の各項目に応じて記載される文字列を、第1画像の構造が分かるように(一例として、各文字列に対応する、表の各マス及び棒グラフの各項目の位置等の関係がわかるように)構造化した情報等であってもよい(図2の一例を参照)。文字列の構造化情報は、第1画像に記録される複数の文字列それぞれを、第1画像にその文字列が記録される位置に応じて構造化した情報であり、複数の文字列の間(文字列と文字列との間)を線、記号、スペース又はタブ等で区切り、1又は複数の行にわたって文字列を記載することで構造化した情報である。文字列の構造化により、生成AI等は、第1画像に記録される文字列をその第1画像に記載の通りに意味のある内容として参照できるようになる。
【0028】
第1画像の分散表現は、例えば、第1画像(第1画像の持つ意味)をベクトルで表現したもの、すなわち第1画像が持つ意味のベクトル等であってもよい。分散表現(ベクトル)は、例えば、公知の自然言語処理等を始めとする種々の処理を用いることにより得られる。
【0029】
ナレッジデータは、例えば、第1画像に関して蓄えられ、情報処理装置100で利用可能な情報、すなわち、コンピュータで利用可能な第1画像のいわゆる「知識」に関する情報である。
【0030】
表示部133は、例えば、種々の文字、記号及び画像等を表示することが可能なディスプレイである。
【0031】
取得部111は、ユーザによって特定された第2画像を取得する。取得部111は、第2画像として、グラフ、ボックス図、樹形図、表、及び、フローチャートのうち少なくとも1つを記録した画像を取得してもよい。
【0032】
第2画像は、例えば、生成AI等で参照できるようにするために、文字列の構造化を行う対象となる画像である(図3の一例を参照)。第2画像には、文字列が記録される。
図3に一例を示すように、2本のグラフ(2023年度及び2024年度)がある場合、各グラフに複数の項目(文字列)(部門、各部門の値(W1,W2,X1,X2,Y1,Y2,Z1,Z2)、及び、各値の増減率等)を記載し、合計2本のグラフで複数の項目(文字列)の時間的な推移をみることがある。
同様に一例として、第2画像が複数行複数列の表である場合、表の各マスには文字列が記載される。
【0033】
取得部111は、例えば、通信部131を介して第2画像を外部装置(図示せず)から取得する。外部装置は、例えば、サーバ及びユーザ端末等であってもよい。ユーザ端末は、情報処理装置100のユーザが使用する端末であり、一例として、デスクトップ、ラップトップ、タブレット及びスマートフォン等であってもよい。
また、取得部111は、例えば、第2画像が外部メモリ(図示せず)に記録され、その外部メモリが情報処理装置100のインターフェースに接続された場合、外部メモリから第2画像を取得してもよい。
また、取得部111は、第2画像を含む文章情報(文章ファイル)等があり、入力部121及びユーザ端末等を介して第2画像が選択された場合(第2画像が記載される領域が指定された場合)、その選択された第2画像を(指定された領域を第2画像として)取得してもよい。
【0034】
推定部112は、取得部111によって取得した第2画像と、記憶部132に記憶したナレッジデータに基づく第1画像との類似度を推定する。推定部112は、例えば、取得部111によって取得した第2画像の分散表現を取得し、第2画像の分散表現と、記憶部132に記憶した第1画像の分散表現とに基づいて、第2画像と第1画像との類似度を推定してもよい。
まず、推定部112は、取得部111によって取得した第2画像の分散表現を取得する。一例として、推定部112は、公知の自然言語処理等を始めとする種々の処理を用いて、第2画像の分散表現を取得してもよい。第2画像の分散表現は、例えば、第2画像(第2画像の持つ意味)をベクトルで表現したもの、すなわち第2画像が持つ意味のベクトル等であってもよい。
次に、推定部112は、例えば、第1画像の分散表現(第1画像が持つ意味のベクトル)と、第2画像の分散表現(第2画像が持つ意味のベクトル)とに基づいて、すなわち第1画像及び第2画像それぞれのベクトルの距離及び位置等の関係に基づいて、第1画像と第2画像との類似度を推定する。
【0035】
提示部113は、推定部112によって推定した類似度が高い順に所定数の第1画像を候補画像としてユーザに提示する(図4の一例を参照)。提示部113は、推定部112によって推定した第2画像により類似する第1画像を特定する。すなわち、提示部113は、推定部112よって推定した第2画像との類似度が高い順に複数の第1画像を特定する。提示部113は、第2画像との類似度が高い順に所定数の第1画像を候補画像としてユーザに提示する。所定数は、例えば、3個、5個、8個及び10個等を始めとする種々の数(単数又は複数)であってもよい。図4に例示する場合には、提示部113は、第2画像(図3参照)に対して類似度が最も高い1位から3位までの第1画像(候補画像)を提示する。
【0036】
提示部113は、例えば、候補画像のユーザへの提示として、1又は複数の候補画像を表示するよう表示部133を制御してもよい。
また、提示部113は、例えば、候補画像のユーザへの提示として、1又は複数の候補画像の情報(候補画像情報)を外部装置(図示せず)に送信するよう通信部131を制御してもよい。ここでの外部装置は、例えば、ユーザ端末等であってもよい。
【0037】
出力制御部114は、提示部113によって提示した候補画像のうち1つが選択されると、その選択された候補画像に対応する構造化情報を出力するよう制御する。すなわち、出力制御部114は、提示部113によって提示した候補画像のうち1つがユーザ(例えば、入力部121及びユーザ端末を介した入力等)によって選択されると、記憶部132に記憶されたナレッジデータを参照し、その選択された候補画像(第1画像)に対応する構造化情報を出力する。図4に例示する候補画像(第1画像)をユーザに提示し、1位の候補画像(第1画像(図2(A)参照)が選択された場合、出力制御部114は、その候補画像(第1画像(図2(A)参照))に対応する文字列の構造化情報(図2(B)参照)を出力する。
【0038】
出力制御部114は、例えば、文字列の構造化情報を表示するよう表示部133を制御してもよい。
出力制御部114は、例えば、文字列の構造化情報を外部装置(図示せず)に送信するよう通信部131を制御してもよい。ここでの外部装置は、例えば、ユーザ端末等であってもよい。
【0039】
ここでの構造化情報は、選択された候補画像(第1画像)に記録される文字列を、生成AI等で意味があるように読み取るよう構造化した情報である。
すなわち、構造化情報は、図2に一例を示すように、2本のグラフ(2022年度第1四半期(Q1)及び2023年度第1四半期(Q1))がある場合、複数の部門(A部門、B部門及びC部門)それぞれの各期の値、すなわち、2022年度Q1では、A部門が1500憶、B部門が2000憶及びC部門が1000憶あり、2023年度Q1では、A部門が2000憶、B部門が2500憶及びC部門が1500憶あり、各部の値の増減率が読み取れるように(図1(B)の従来のように文字列の単なる羅列ではなく)、2本のグラフの構造(記載内容)に応じて各文字列を構造化した情報である。
また同様に一例として、構造化情報は、候補画像(第1画像)が2行2列の表である場合、表の左上、左下、右上及び右下それぞれのマスの位置関係が分かるように構造化した文字列の情報である。
【0040】
これにより、情報処理装置100は、第2画像(図3参照)に記録される複数の文字列をどのように構造化したらよいか不明である場合でも、第2画像に最も類似する第1画像(候補画像)の構造化情報(図2(B)参照)を提示することが可能になる。また、情報処理装置100は、第2画像に最も類似する第1画像(候補画像)の構造化情報を提示することより、その第1画像(候補画像)の文字列の構造(構図化情報)と同様に、第2画像に記録される文字列を構造化すれば、生成AI等で意味が理解できるよう(生成AI等で利用できるよう)になる。
【0041】
なお、出力制御部114は、上述した第1画像の構図化情報(図2(B)参照)を参照して、第2画像(図3参照)に記録される文字列の構造化を行う場合、第2画像に記録される文字列の構造化を自動で行ってもよい。すなわち、出力制御部114は、選択された候補画像に対応する第1画像に記録される文字列の構造化情報に応じて、取得部111によって取得した第2画像に記録される文字列の構造化情報を出力するよう制御してもよい。出力制御部114は、選択された候補画像(第1画像)の文字列の構造(構造化情報)と同様に、第2画像に記録される複数の文字列それぞれを配列して、複数の文字列の間(文字列と文字列との間)を線、記号、スペース又はタブ等で区切ることにより、自動的に第2画像に記録される文字列の構造化を行う(第2画像の構造化情報を生成する)。
【0042】
出力制御部114は、自動的に生成した第2画像の文字列の構造化情報を出力するよう出力部を制御してもよい。出力部は、例えば、通信部131、記憶部132及び表示部133等であってもよい。
すなわち、出力制御部114は、例えば、自動的に生成した第2画像の文字列の構造化情報を外部装置(図示せず)に送信するよう通信部131を制御してもよい。ここでの外部装置は、例えば、サーバ及びユーザ端末等であってもよい。
出力制御部114は、例えば、自動的に生成した第2画像の文字列の構造化情報を記憶するよう記憶部132を制御してもよい。
出力制御部114は、例えば、自動的に生成した第2画像の文字列の構造化情報を表示するよう表示部133を制御してもよい。
【0043】
生成AI部115は、例えば、文章、図形、音声、静止画及び動画等のコンテンツを生成するAIを有する。ここでのAIは、例えば、生成AIであってもよい。生成AIには、例えば、検索拡張生成(RAG:Retrieval Augmented Generation)モデルや、Microsоft Azure(登録商標)、AWS(登録商標)、GCP(登録商標)といった各種クラウドサービス上で提供される大規模言語モデル(LLM)等が含まれてもよい。
生成AI部115は、出力制御部114によって出力された第2画像に記録される文字列の構造化情報を参照して、コンテンツを生成してもよい。
また、生成AI部115は、例えば、提示部113によって提示した候補画像のうち1つが選択されると、その選択された候補画像に対応する構造化情報を出力制御部によって出力することに応じて、第2画像の文字列が構造化された場合(第2画像に記憶される文字列の構造化情報が生成された場合)、文字列の構造化情報を参照してコンテンツを生成してもよい。
一例として、生成AI部115は、コンテンツを生成する指示内容(プロンプト)が入力されると、第2画像に記録される文字列の構造化情報等を参照して、指示内容(プロンプト)に応じた、文章、図形、音声、静止画及び動画等のコンテンツを生成してもよい。
【0044】
[情報処理方法]
次に、一実施形態に係る情報処理方法について説明する。
図6は、一実施形態に係る情報処理方法について説明するためのフローチャートである。
【0045】
ステップST101において、記憶部132は、第1画像と、その第1画像に記録される文字列の構造化情報とを対応付けたナレッジデータを記憶する。記憶部132は、ナレッジデータとして、第1画像と、第1画像の分散表現と、第1画像に記録される文字列の構造化情報とを対応付けた複数のデータ(対応情報)を記憶してもよい。
【0046】
ステップST102において、取得部111は、ユーザによって特定された第2画像を取得する。取得部111は、第2画像として、グラフ、ボックス図、樹形図、表、及び、フローチャートのうち少なくとも1つを記録した画像を取得してもよい。
【0047】
ステップST103において、推定部112は、ステップST102で取得した第2画像と、ステップST101で記憶したナレッジデータに基づく第1画像との類似度を推定する。推定部112は、例えば、ステップST102で取得した第2画像の分散表現を取得し、第2画像の分散表現と、ステップST101で記憶した第1画像の分散表現とに基づいて、第2画像と第1画像との類似度を推定してもよい。
【0048】
ステップST104において、提示部113は、ステップST103で推定した類似度が高い順に所定数の第1画像を候補画像としてユーザに提示する。
【0049】
ステップST105において、出力制御部114は、ステップST104で提示した候補画像のうち1つが選択されると、その選択された候補画像に対応する構造化情報を出力するよう制御する。
出力制御部114は、選択された候補画像に対応する第1画像に記録される文字列の構造化情報に基づいて、ステップST102で取得した第2画像に記録される文字列の構造化情報を生成して出力するよう制御してもよい。
ステップST105の処理の後、生成AI部115は、ステップST105で出力された第2画像に記録される文字列の構造化情報を参照して、コンテンツを生成してもよい。
【0050】
[機能及び回路について]
次に、上述した情報処理装置100の機能及び回路について説明する。
情報処理装置100の各部は、コンピュータの演算処理装置等の機能として実現されてもよい。すなわち、情報処理装置100の取得部111、推定部112、提示部113、出力制御部114及び生成AI部115(制御部110)は、コンピュータの演算処理装置等による取得機能、推定機能、提示機能、出力制御機能及び生成AI機能(制御機能)としてそれぞれ実現されてもよい。
情報処理プログラムは、上述した各機能をコンピュータに実現させることができる。情報処理プログラムは、例えば、メモリ、ソリッドステートドライブ、ハードディスクドライブ又は光ディスク等の、コンピュータで読み取り可能な非一時的な記憶媒体等に記録されてもよい。記憶媒体は、例えば、情報処理プログラムを格納する非一時的なコンピュータ可読媒体と言い換えてもよい。また、情報処理プログラムは、オンラインで伝送されてもよい。
また、上述したように、情報処理装置100の各部は、コンピュータの演算処理装置等で実現されてもよい。その演算処理装置等は、例えば、集積回路等によって構成される。このため、情報処理装置100の各部は、演算処理装置等を構成する回路として実現されてもよい。すなわち、情報処理装置100の取得部111、推定部112、提示部113、出力制御部114及び生成AI部115(制御部110)は、コンピュータの演算処理装置等を構成する取得回路、推定回路、提示回路、出力制御回路及び生成AI回路(制御回路)として実現されてもよい。
また、情報処理装置100の入力部121、並びに、通信部131、記憶部132及び表示部133(出力部)は、例えば、演算処理装置等の機能を含む入力機能、並びに、通信機能、記憶機能及び表示機能(出力機能)として実現されてもよい。また、情報処理装置100の入力部121、並びに、通信部131、記憶部132及び表示部133(出力部)は、例えば、集積回路等によって構成されることにより入力回路、並びに、通信回路、記憶回路及び表示回路(出力回路)として実現されてもよい。また、情報処理装置100の入力部121、並びに、通信部131、記憶部132及び表示部133(出力部)は、例えば、複数のデバイスによって構成されることにより入力装置、並びに、通信装置、記憶装置及び表示装置(出力装置)として構成されてもよい。
【0051】
情報処理装置100は、上述した複数の各部のうち1又は任意の複数を組み合わせることが可能である。
本開示では、「情報」の文言を使用しているが、「情報」の文言は「データ」と言い換えることができ、「データ」の文言は「情報」と言い換えることができる。
【0052】
[本実施形態の態様及び効果]
次に、本実施形態の一態様及び各態様が奏する効果について説明する。なお、以下に記載する各態様は出願時の一例であり、本実施形態は以下に記載する態様に限定されることはない。すなわち、本実施形態は以下に記載する各態様に限定されることはなく、上述した各部を適宜組み合わせて実現されてもよい。また、下位の態様は、それよりも上位の態様のいずれでも引用できる場合がある。
また、以下に記載する本実施形態の効果は一例であり、各態様が奏する効果は以下に記載するものに限定されることはない。また、各態様は、例えば、以下に記載する少なくとも1つの効果を奏してもよい。
【0053】
(態様1)
一態様の情報処理装置は、第1画像と、その第1画像に記録される文字列の構造化情報とを対応付けたナレッジデータを記憶する記憶部と、ユーザによって特定された第2画像を取得する取得部と、取得部によって取得した第2画像と、記憶部に記憶したナレッジデータに基づく第1画像との類似度を推定する推定部と、推定部によって推定した類似度が高い順に所定数の第1画像を候補画像としてユーザに提示する提示部と、提示部によって提示された候補画像のうち1つが選択されると、その選択された候補画像に対応する構造化情報を出力するよう制御する出力制御部と、を備える。
これにより、情報処理装置は、例えば、生成AI及び検索拡張生成(RAG)モデル向けに最適化された文字列のデータ構造(第1画像に基づく文字列の構造化情報)を提示することができる。情報処理装置は、例えば、文字列のデータ構造の提示により、例えば、企業等の組織内のみで利用する第2画像(非公開情報)を生成AI及び検索拡張生成(RAG)モデル向けに理解させるための情報作成支援(第2画像に基づく文字列の構造化情報を作成する支援)を行うことができる。
情報処理装置は、第2画像に記録される複数の文字列をどのように構造化したらよいか不明である場合でも、第2画像に最も類似する第1画像(候補画像)の構造化情報を提示することができる。すなわち、情報処理装置は、第2画像に類似する第1画像を検索し、第1画像に記載される文字列を整形したテンプレート(第1画像に基づく文字列の構造化情報)をユーザに提示することができる。換言すると、情報処理装置は、第2画像に記録される文字列を生成AIで利用できるように書き起こす際に、参考となる第1画像及びその第1画像に基づいて書き起こされた文字列(文字列の構造)を提示することができる。
また、情報処理装置は、第2画像に最も類似する第1画像(候補画像)の構造化情報を提示することより、その第1画像(候補画像)の文字列の構造(構図化情報)と同様に、第2画像に記録される文字列を構造化すれば、生成AI等で意味が理解できるよう(生成AIで利用できるよう)にすることができる。
情報処理装置は、第2画像に記載される複数の文字列を、第1画像(候補画像)と同様に構造化を行うと(構造化情報を生成すると)、第2画像に基づく文字列の構造化情報を、非公開情報として、生成AIが利用する情報のデータストレージに記憶することができる。生成AI及び検索拡張生成モデル等は、データストレージに記憶される検索対象の非公開情報としての、第2画像に基づく文字列の構造化情報を参照し、その文字列を回答することができる。
情報処理装置のユーザは、第2画像に記録される文字列を手動で生成AIが解釈しやすい文字列の構造に書き起こす場合でも、第2画像により類似する第1画像の文字列の構造を参照することにより、容易に第2画像に記録される文字列(文字列の構造)を書き起こすことができる。すなわち、ユーザは、生成AIに関する専門性が相対的に低くとも、生成AIが解釈することができる文字列の構造となるように、第2画像に記録される文字列を書き起こすことができる。換言すると、ユーザは、第2画像に記録される文字列のデータ構造に応じてその文字列を書き起こす際の工数及び時間、すなわちコストを、第1画像の構造化情報を提示しない場合に比べて、より少なくすることができる。
【0054】
(態様2)
一態様の情報処理装置では、取得部は、第2画像として、グラフ、ボックス図、樹形図、表、及び、フローチャートのうち少なくとも1つを記録した画像を取得することとしてもよい。
これにより、情報処理装置は、第2画像が種々のタイプの図及び表であっても、その第2画像により類似する第1画像(候補画像)をユーザに提示することができる。
【0055】
(態様3)
一態様の情報処理装置では、記憶部は、ナレッジデータとして、第1画像と、第1画像の分散表現と、第1画像に記録される文字列の構造化情報とを対応付けたデータを記憶し、推定部は、取得部によって取得した第2画像の分散表現を取得し、第2画像の分散表現と、記憶部に記憶した第1画像の分散表現とに基づいて、第2画像と第1画像との類似度を推定することとしてもよい。
これにより、情報処理装置は、自然言語処理を利用して、第1画像と第2画像との類似度を推定し、第2画像により類似する第1画像を特定することができる。
【0056】
(態様4)
一態様の情報処理装置では、出力制御部は、選択された候補画像に対応する第1画像に記録される文字列の構造化情報に応じて、取得部によって取得した第2画像に記録される文字列の構造化情報を出力するよう制御することとしてもよい。
これにより、情報処理装置は、自動的に第2画像に記録される文字列の構造化を行う(第2画像の構造化情報を生成する)ことができる。すなわち、情報処理装置は、第2画像に記録される文字列を、生成AIが解釈しやすい形のデータ構造(一例として、csv等のテキスト)に整えることができる。
【0057】
(態様5)
一態様の情報処理装置は、第1画像と、その第1画像に記録される文字列の構造化情報とを対応付けたナレッジデータを記憶する記憶部と、ユーザによって特定された第2画像を取得する取得部と、取得部によって取得した第2画像と、記憶部に記憶したナレッジデータに基づく第1画像との類似度を推定する推定部と、推定部によって推定した類似度が高い順に所定数の第1画像を候補画像としてユーザに提示する提示部と、提示部によって提示された候補画像のうち1つが選択されると、選択された候補画像に対応する第1画像に記録される文字列の構造化情報に応じて、取得部によって取得した第2画像に記録される文字列の構造化情報を出力する出力制御部と、出力制御部によって出力された文字列の構造化情報を参照して、コンテンツを生成する生成AI部と、を備える。
これにより、情報処理装置は、例えば、生成AI及び検索拡張生成(RAG)モデル等を有し、指示内容(プロンプト)が入力されると、文字列の構造化情報を参照して、その指示内容(プロンプト)に応じたコンテンツ(一例として、文章等)を生成することができる。すなわち、情報処理装置は、生成AI等を提供することができる。
【0058】
(態様6)
一態様の情報処理方法では、第1画像と、その第1画像に記録される文字列の構造化情報とを対応付けたナレッジデータを記憶する記憶部を備えるコンピュータが、ユーザによって特定された第2画像を取得する取得ステップと、取得ステップによって取得した第2画像と、記憶部に記憶したナレッジデータに基づく第1画像との類似度を推定する推定ステップと、推定ステップによって推定した類似度が高い順に所定数の第1画像を候補画像としてユーザに提示する提示ステップと、提示ステップによって提示された候補画像のうち1つが選択されると、その選択された候補画像に対応する構造化情報を出力するよう制御する出力制御ステップと、を実行する。
これにより、情報処理方法は、上述した一態様の情報処理装置と同様の効果を奏することができる。
【0059】
(態様7)
一態様の情報処理プログラムは、第1画像と、その第1画像に記録される文字列の構造化情報とを対応付けたナレッジデータを記憶する記憶部を備えるコンピュータに、ユーザによって特定された第2画像を取得する取得機能と、取得機能によって取得した第2画像と、記憶部に記憶したナレッジデータに基づく第1画像との類似度を推定する推定機能と、推定機能によって推定した類似度が高い順に所定数の第1画像を候補画像としてユーザに提示する提示機能と、提示機能によって提示された候補画像のうち1つが選択されると、その選択された候補画像に対応する構造化情報を出力するよう制御する出力制御機能と、を実現させる。
これにより、情報処理プログラムは、上述した一態様の情報処理装置と同様の効果を奏することができる。
【符号の説明】
【0060】
100 情報処理装置
110 制御部
111 取得部
112 推定部
113 提示部
114 出力制御部
115 生成AI部
121 入力部
131 通信部
132 記憶部
133 表示部
【要約】
【課題】構造化された文字列を出力する情報処理装置、情報処理方法及び情報処理プログラムを提供する。
【解決手段】情報処理装置は、第1画像と、その第1画像に記録される文字列の構造化情報とを対応付けたナレッジデータを記憶する記憶部と、ユーザによって特定された第2画像を取得する取得部と、取得部によって取得した第2画像と、記憶部に記憶したナレッジデータに基づく第1画像との類似度を推定する推定部と、推定部によって推定した類似度が高い順に所定数の第1画像を候補画像としてユーザに提示する提示部と、提示部によって提示された候補画像のうち1つが選択されると、その選択された候補画像に対応する構造化情報を出力するよう制御する出力制御部と、を備える。
【選択図】図5
図1
図2
図3
図4
図5
図6