(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024046323
(43)【公開日】2024-04-03
(54)【発明の名称】情報処理プログラム、情報処理装置、および情報処理方法
(51)【国際特許分類】
G06F 16/532 20190101AFI20240327BHJP
G06F 16/538 20190101ALI20240327BHJP
【FI】
G06F16/532
G06F16/538
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2022151640
(22)【出願日】2022-09-22
(71)【出願人】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(71)【出願人】
【識別番号】598076591
【氏名又は名称】東芝インフラシステムズ株式会社
(74)【代理人】
【識別番号】110003708
【氏名又は名称】弁理士法人鈴榮特許綜合事務所
(72)【発明者】
【氏名】福世 恭大
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA02
5B175GB05
5B175HB03
(57)【要約】
【課題】ファイルの検索効率を高めること。
【解決手段】実施形態によれば、情報処理プログラムは、記憶部とプロセッサとを具備するコンピュータにインストール可能な情報処理プログラムである。この情報処理プログラムは、プロセッサに、認識処理と、受付処理と、抽出処理と、提示処理とを実行させる命令を含む。認識処理は、テキストと画像とを含む複数のファイルを蓄積するデータベースにアクセスして、ファイルに含まれる画像の認識スコアを予め計算する処理である。受付処理は、検索キー画像の指定を受け付ける処理である。抽出処理は、検索キー画像との類似度が既定の基準を満たす画像を含むファイルを、認識スコアに基づいてデータベースから抽出する処理である。提示処理は、抽出されたファイルの一覧を提示する処理である。
【選択図】
図2
【特許請求の範囲】
【請求項1】
記憶部とプロセッサとを具備するコンピュータにインストール可能な情報処理プログラムであって、
前記プロセッサに、
テキストと画像とを含む複数のファイルを蓄積するデータベースにアクセスして、前記ファイルに含まれる画像の認識スコアを予め計算する認識処理と、
検索キー画像の指定を受け付ける受付処理と、
前記検索キー画像との類似度が既定の基準を満たす画像を含むファイルを、前記認識スコアに基づいて前記データベースから抽出する抽出処理と、
前記抽出されたファイルの一覧を提示する提示処理と、を実行させる命令を含む、情報処理プログラム。
【請求項2】
前記提示処理は、前記抽出されたファイルに含まれる画像のサムネイルを前記一覧に提示する、請求項1に記載の情報処理プログラム。
【請求項3】
前記認識処理は、ニューラルネットワークを学習させて生成される画像認識モデルに前記画像を与えて前記認識スコアを出力させる、請求項1に記載の情報処理プログラム。
【請求項4】
テキストと画像とを含む複数のファイルを蓄積するデータベースを記憶する記憶部と、
プロセッサとを軍備し、
前記プロセッサは、
前記ファイルに含まれる画像の認識スコアを予め計算する認識機能と、
検索キー画像の指定を受け付ける受付機能と、
前記検索キー画像との類似度が既定の基準を満たす画像を含むファイルを、前記認識スコアに基づいて前記データベースから抽出する抽出機能と、
前記抽出されたファイルの一覧を提示する提示機能と、を備える、情報処理装置。
【請求項5】
記憶部とプロセッサとを具備するコンピュータによる情報処理方法であって、
前記プロセッサが、
テキストと画像とを含む複数のファイルを蓄積するデータベースを前記記憶部に記憶することと、
前記ファイルに含まれる画像の認識スコアを予め計算することと、
検索キー画像の指定を受け付けることと、
前記検索キー画像との類似度が既定の基準を満たす画像を含むファイルを、前記認識スコアに基づいて前記データベースから抽出することと、
前記抽出されたファイルの一覧を提示することとを含む、情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、情報処理プログラム、情報処理装置、および情報処理方法に関する。
【背景技術】
【0002】
ありとあらゆる情報資産がデータベース化された今日、検索システムは、必要な情報を入手するために欠かせない技術である。例えば、報告書を作成するためにひな型となる文書ファイル(ドキュメント)を探すために、文書ファイルの管理システムにおいてキーワード検索することがある。キーワードにマッチする画像を検索するためのWebページも知られている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特許第4302799号公報
【特許文献2】特許第6314071号公報
【特許文献3】特許第6712796号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
テキストベースのキーワードを用いた既存の検索技術では、アウトプットが膨大な量になりがちで、検索の結果を絞り込むことも難しい。殊に、検索されたファイルを1件ずつ開いて内容を確認するという作業は効率的でなく、長い作業時間がかかってしまう。
そこで、目的は、ファイルの検索効率を高めた情報処理プログラム、情報処理装置、および情報処理方法を提供することにある。
【課題を解決するための手段】
【0005】
実施形態によれば、情報処理プログラムは、記憶部とプロセッサとを具備するコンピュータにインストール可能な情報処理プログラムである。この情報処理プログラムは、プロセッサに、認識処理と、受付処理と、抽出処理と、提示処理とを実行させる命令を含む。認識処理は、テキストと画像とを含む複数のファイルを蓄積するデータベースにアクセスして、ファイルに含まれる画像の認識スコアを予め計算する処理である。受付処理は、検索キー画像の指定を受け付ける処理である。抽出処理は、検索キー画像との類似度が既定の基準を満たす画像を含むファイルを、認識スコアに基づいてデータベースから抽出する処理である。提示処理は、抽出されたファイルの一覧を提示する処理である。
【図面の簡単な説明】
【0006】
【
図1】
図1は、実施形態に係るコンピュータ10の一例を示す機能ブロック図である。
【
図2】
図2は、プロセッサ11およびストレージ14の一例を示す機能ブロック図である。
【
図3】
図3は、文書データベース14bに登録される文書ファイルの一例を示す図である。
【
図4】
図4は、コンピュータ10の処理手順の一例を示すフローチャートである。
【
図5】
図5は、検索キー画像を指定するためのGUI画面の一例を示す図である。
【
図6】
図6は、文書検索に係るコンピュータ10の処理手運の一例を示すフローチャートである。
【
図7】
図7は、ユーザに提示される検索結果の一例を示す図である。
【発明を実施するための形態】
【0007】
図面を参照して実施の形態について説明する。実施形態において、ユーザは、コンピュータ10を操作して、文書ファイルを検索するための情報(検索キー)を指定する。実施形態では、検索キーとして画像ファイルを与える。検索キーとしての画像(検索キー画像)は、コンピュータ10に予め記憶されているものでも良いし、USBメモリ等の記憶媒体に記憶された画像から選択したり、ネットワーク経由で取得された画像でもよい。
【0008】
検索キー画像が指定されると、コンピュータ10は、検索キー画像に類似する画像を含む文書ファイルをデータベースから抽出し、リストアップしてユーザに提示する。以下、その詳細について開示する。
【0009】
<構成>
図1は、実施形態に係るコンピュータ10の一例を示す機能ブロック図である。コンピュータ10は、プロセッサ11、ROM12、RAM13、ストレージ14、通信部15、操作部16、および、表示部17を備える。これらは、コンピュータ10内部において、バスライン経由で相互に接続され、データを授受可能である。
【0010】
プロセッサ11は、コンピュータ10全体の動作を制御する。また、プロセッサ11は、ROM12又はストレージ14にインストールされたプログラムをRAM13にロードし、実行して、実施形態に係わる種々の処理を実現する。
【0011】
ROM12は、制御プログラムや制御データなどを予め記憶する、不揮発性メモリである。ROM12に記憶される制御プログラム、制御データ等は、例えばコンピュータ10の起動時に、最初に読み込まれてRAM13に展開される。
【0012】
RAM13は、揮発性のメモリである。RAM13は、プロセッサ11の処理中のデータなどを一時的に格納する。RAM13は、プロセッサ11からの命令に基づき種々のアプリケーションプログラムを記憶する。アプリケーションプログラムの実行に必要なデータや、アプリケーションプログラムの実行結果なども、RAM13に記憶される。
【0013】
ストレージ14は、データの書き込み及び書き換えが可能な不揮発性メモリである。ストレージ14は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、あるいはフラッシュメモリなどから構成される。コンピュータ10の基本プログラム、アプリケーション、あるいは種々のデータなどがストレージ14にインストールされる。
【0014】
通信部15は、例えば、有線または無線LAN(Local Area Network)接続をサポートし、ネットワーク経由で他のホストと通信するためのインターフェースである。コンピュータ10は、通信部15を介して、例えばインターネット上のホストコンピュータと通信可能である。
【0015】
操作部16は、マウスやキーボードなどを備えるユーザインタフェースであり、ユーザから種々の操作の入力を受け付ける。操作部16は、入力された操作を示す信号をプロセッサ11へ送信する。
表示部17は、例えば液晶モニタであり、各種の情報を視覚的に表示する。操作部16がタッチパネルから構成される場合、表示部17は、操作部16としてのタッチパネルと一体的に形成される。
【0016】
図2は、プロセッサ11およびストレージ14の一例を示す機能ブロック図である。
図2において、プロセッサ11は、実施形態に係わる処理機能として認識機能11a、受付機能11b、抽出機能11c、および、提示機能11dを有する。また、ストレージ14は、プログラム14a、文書データベース14b、画像認識モデル14c、および、認識スコア14dを記憶する。
【0017】
プログラム14aは、情報処理のためのプログラムであって、プロセッサ11に、認識機能11a、受付機能11b、抽出機能11c、および、提示機能11dを実行させる命令を含む。
認識機能11aは、文書データベース14bにアクセスして、文書データベース14bに蓄積されたファイルに含まれる画像の認識スコアを、予め計算する。
受付機能11bは、ユーザによる検索キー画像の指定を受け付ける。
抽出機能11cは、検索キー画像との類似度が既定の基準を満たす画像を含むファイルを、認識スコアに基づいて、文書データベース14bから抽出する。
提示機能11dは、抽出されたファイルの一覧を、コンピュータ10の表示部17に提示する。
【0018】
ストレージ14の文書データベース14bは、検索の対象となる複数の文書ファイルを蓄積する。実施形態では、例えば報告書などのように、テキストおよび画像を含む文書ファイルを検索の対象とする。
【0019】
図3は、文書データベース14bに登録される文書ファイルの一例を示す図である。検索対象になるファイルは、文書作成ソフトによって生成されたファイル(ワードファイルなど)、プレゼンテーション作成ソフトによって生成されたファイル(パワーポイントファイルなど)、印刷ソフトによって生成されたファイル(PDF(Portable Document Format)ファイル)などである。この種の形式のファイルには、テキストデータだけでなく、画像を埋め込むことができる。例えば、word_001のファイルには建物の画像が、word_002のファイルには収集車の画像が含まれる。同様に、飛行機や、乗用車などの画像を含むファイルもある。実施形態では、データベースに蓄積されている各種文書ファイルに含まれる画像に関して、例えばAI(Artificial Intelligence)技術を用いた画像認識処理により予め認識スコアを計算する。
【0020】
図2に戻って再び説明を続ける。
図2のストレージ14の画像認識モデル14cは、埋め込み画像の認識スコアを計算するために、ニューラルネットワークを学習させることにより予め生成されたモデルである。例えば、画像データを構成するピクセルのRGBの画素値を要素とするベクトル(画素値ベクトル)を、ニューラルネットワークの入力層に入力し、隠れ層での重み付け係数に基づく演算により、出力層から認識スコアが出力される。画像認識モデル14cの重み付け係数は、画素値ベクトルと認識スコアとをセットとする学習データを繰り返し与えることにより、一定の値に収束する。
【0021】
プロセッサ11は、算出された認識スコアをストレージに記憶する(認識スコア14d)。また、プロセッサ11は、認識された画像を含むファイルの識別情報(ファイル名、識別子など)と、当該画像の認識スコアとを対応付けた属性情報を生成し、ストレージ14に格納する。
【0022】
<作用>
次に、上記構成における作用を説明する。
図4は、コンピュータ10の処理手順の一例を示すフローチャートである。
図4は、コンピュータ10が認識スコアを計算する際の処理手順の一例を示す。
【0023】
図4において、コンピュータ10のプロセッサ11は、1つの検索対象ファイルを文書データベース14bから取得する(ステップS11)。次に、プロセッサ11は、取得された検索対象ファイルに含まれる画像を取得する(ステップS12)。
【0024】
画像を取り出すと、プロセッサ11は、その画像の認識スコアを計算する(ステップS13)。次に、プロセッサ11は、画像のサイズを縮小してサムネイル化する(ステップS14)。
【0025】
サムネイルを生成すると、プロセッサ11は、当該検索対象ファイルの識別情報に、認識スコアおよびサムネイルを対応付けて属性情報に追記する(ステップS15)。ここで、ストレージ14が属性情報を格納していない場合には、プロセッサ11は、属性情報を生成する。
【0026】
次に、プロセッサ11は、画像の認識スコアが計算されていない検索対象ファイルの有無を判定する(ステップS16)。認識スコアが計算されていない検索対象ファイルが存在するならば、(ステップS16でYES)、処理手順はステップS11に戻る。全ての検索対象ファイルに含まれる画像の認識スコアが計算されたならば(ステップS16でNO)、処理手順は終了する。
【0027】
図5は、コンピュータ10の表示部17に表示されるGUI(Graphical User Interface)の一例を示す図である。このようなGUIを用いて、ユーザは、検索キー画像を指定することができる。
図5に示されるように、例えば、ブラウザ上の指定された領域に検索キー画像をドラッグ/ドロップすることで、システムに検索キー画像を与えることができる。
【0028】
図6は、文書検索に係るコンピュータ10の処理手運の一例を示すフローチャートである。実施形態では、いわゆるリクエスト-レスポンス方式のWebアプリケーションによる検索サービスとしての形態について説明する。スタンドアロンのコンピュータ10において、この種のサービスは、ローカルホスト(localhost)の例えばポート80番を指定してアクセスすることにより提供される。
【0029】
図6において、コンピュータ10のプロセッサ11は、ユーザから指定された検索キー画像を含むリクエストを取得する(ステップS21)。リクエストを受信すると、プロセッサ11は、リクエストに含まれる検索キー画像に類似する画像を含む文書ファイルを、文書データベース14bから抽出する(ステップS22)。
【0030】
ここでは、プロセッサ11は、検索キー画像の認識スコアを別途算出し、その値(スカラ、またはベクトル)と類似する認識スコアの画像を含む文書ファイルを抽出する。埋め込み画像と検索キー画像との類似度は、予め定められたしきい値に基づいて判定され、しきい値以上の一致度を示す文書ファイルがピックアップされる。
【0031】
文書ファイルが抽出されると、プロセッサ11は、検索されたファイルのファイル名およびサムネイル画像を属性情報から取得し、例えばHTMLまたはXML形式の一覧表データを作成する(ステップS23)。一覧表データを生成すると、プロセッサ11は、この一覧表データを含むレスポンスをアクセス元に送信し(ステップS24)、処理手順は終了する。
【0032】
図7は、ユーザに提示される検索結果の一例を示す図である。
図5のGUIにおいて車両の検索キー画像が指定されたことに応じて、文書データベース14bから、車両の画像を含むファイルが抽出される。抽出された複数のファイルは、例えば埋め込み画像と検索キー画像とのマッチ度(一致の度合い)が高い順にソートされ、ファイル名およびサムネイル画像とともに、コンピュータ10の表示部17に一覧表示される。
【0033】
<効果>
以上説明したように、実施形態では、データベースに蓄積された文書ファイル(WordやPowerPoint、PDFなど)に埋め込まれている(掲載されている)画像を分析/評価し、予め認識スコアを計算する。そして、ユーザの指定した検索キー画像との類似度を評価し、類似度の高い画像を含む文書ファイルを抽出する。さらに、抽出されたファイルのファイル名を、埋め込み画像のサムネイルとともにリストアップし、一覧表示するようにした。
【0034】
つまり実施形態によれば、文字列をキーとして画像を検索するWebサービスとは異なり、画像を検索キーとして、検索キーに類似する画像を含む文書ファイルを抽出することができる。
【0035】
従って実施形態によれば、例えば、文書作成時に参考となる可能性のある文書を探し出すことが容易となる。つまり、文字列を用いたキーワード検索ではなく、手元の画像をキーとして、データベース内の文書を検索することが可能になる。従って検索効率を飛躍的に高めることが可能になる。
【0036】
例えば、現時点での天気図を検索キーとし、災害状況を記録した報告書のデータベースを検索すれば、類似する天気図を含む過去の報告書が抽出される。ユーザは、検索結果としてサムネイル表示された画像を参考に自分の思考に合うと思われる文書を閲覧する。そして、ユーザは当時の報告書をもとに、将来に起こりうる災害を予測したり、警告する文書を手早く作成することが可能になる。また、文書ファイルに掲載されている画像がサムネイル表示されるので、ユーザは、文書ファイルを1つ1つ開いて確認する必要が無くなり、煩雑な手間から解放される。
【0037】
また、埋め込み画像の認識スコアを、ニューラルネットワークを用いたAIにより算出している。これにより、学習の量に伴って精度を向上させてゆくことができる。つまり、データベースに蓄積される文書ファイルが多くなればなるほど、検索の精度も向上することが期待される。
【0038】
これらのことから、実施形態によれば、ファイルの検索効率を高めた情報処理プログラム、情報処理装置、および情報処理方法を提供することが可能となる。
【0039】
なお、この発明は上記実施の形態に限定されるものではない。例えば、文書データベース14bに登録される文書ファイルは、Webスクレイピング技術などによってWebページから得られた情報から構成されるファイルであってもよい。また、文書ファイルは、音声や動画を含むものであってもよい。
【0040】
また、実施形態ではスタンドアロンのコンピュータ10にデータベースを構築した。これにより情報の機密性を担保することが可能になる。これに対し、一般に公開された文書ファイルを取り扱うのであれば、コンピュータ10とは異なるサーバ上に構築されたデータベースにネットワーク経由でアクセスして、クライアント-サーバ形式によるシステムを構築することも可能である。
【0041】
実施形態を説明したが、この実施形態は例として提示するものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0042】
10…コンピュータ11…プロセッサ11a…認識機能11b…受付機能11c…抽出機能11d…提示機能12…ROM13…RAM14…ストレージ14a…プログラム14b…文書データベース14c…画像認識モデル14d…認識スコア15…通信部16…操作部17…表示部。