(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-04
(45)【発行日】2023-12-12
(54)【発明の名称】情報処理装置、コンピュータプログラム及び情報処理方法
(51)【国際特許分類】
G06F 3/04842 20220101AFI20231205BHJP
G06T 11/80 20060101ALI20231205BHJP
G06F 16/35 20190101ALI20231205BHJP
G06F 16/55 20190101ALI20231205BHJP
G06F 16/906 20190101ALI20231205BHJP
【FI】
G06F3/04842
G06T11/80 C
G06F16/35
G06F16/55
G06F16/906
(21)【出願番号】P 2019180605
(22)【出願日】2019-09-30
【審査請求日】2022-07-26
(73)【特許権者】
【識別番号】000002897
【氏名又は名称】大日本印刷株式会社
(74)【代理人】
【識別番号】100114557
【氏名又は名称】河野 英仁
(74)【代理人】
【識別番号】100078868
【氏名又は名称】河野 登夫
(72)【発明者】
【氏名】下山 荘介
【審査官】岩橋 龍太郎
(56)【参考文献】
【文献】特表2016-535907(JP,A)
【文献】特開平10-074251(JP,A)
【文献】特開2016-200978(JP,A)
【文献】特開2017-054214(JP,A)
【文献】特開2007-257470(JP,A)
【文献】特開2010-020642(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/01
G06F 3/048-3/04895
G06F 13/00
G06F 16/00-16/958
H04L 51/00-51/58
H04L 67/00-67/75
G06T 1/00
G06T 11/60-13/80
G06T 17/05
G06T 19/00-19/20
G06F 40/00-40/197
G06F 40/20-40/58
(57)【特許請求の範囲】
【請求項1】
関連性のあるコンテンツの組
に含まれる画像の画像特徴量、前記コンテンツの組に含まれる文書の文書特徴量、及び前記画像と文書との相対位置情報を入力した場合、前記コンテンツの組の関連性の有無を出力するように学習した学習済みモデルを用いて、入力された複数のコンテンツを有するレイアウトデータからコンテンツの組の関連性の有無を特定する特定部と、
前記特定部で特定した関連性のあるコンテンツの組を対応付けてクラスタコンテンツとして抽出する抽出部と、
前記抽出部で抽出したクラスタコンテンツを含むレイアウトデータを表示画面に表示する表示部と、
前記表示画面に表示したクラスタコンテンツを選択する操作を受け付ける受付部と
を備え、
前記入力されたコンテンツの組は、画
像と文
書の組であり、
前記表示部は、
前記受付部で前記操作を受け付けた場合、前記クラスタコンテンツよって関連付けられたコンテンツそれぞれを選択した表示態様で表示する情報処理装置。
【請求項2】
前記クラスタコンテンツを一つのコンテンツとしてグループ化するグループ化処理部を備える請求項1に記載の情報処理装置。
【請求項3】
コンピュータに、
関連性のあるコンテンツの組
に含まれる画像の画像特徴量、前記コンテンツの組に含まれる文書の文書特徴量、及び前記画像と文書との相対位置情報を入力した場合、前記コンテンツの組の関連性の有無を出力するように学習した学習済みモデルを用いて、入力された複数のコンテンツを有するレイアウトデータからコンテンツの組の関連性の有無を特定する処理と、
特定した関連性のあるコンテンツの組を対応付けてクラスタコンテンツとして抽出する処理と、
抽出したクラスタコンテンツを含むレイアウトデータを表示画面に表示する処理と、
前記表示画面に表示したクラスタコンテンツを選択する操作を受け付ける処理と
を実行させ、
前記入力されたコンテンツの組は、画
像と文
書の組であり、
さらに、前記操作を受け付けた場合、前記クラスタコンテンツよって関連付けられたコンテンツそれぞれを選択した表示態様で表示する処理を実行させるコンピュータプログラム。
【請求項4】
関連性のあるコンテンツの組
に含まれる画像の画像特徴量、前記コンテンツの組に含まれる文書の文書特徴量、及び前記画像と文書との相対位置情報を入力した場合、前記コンテンツの組の関連性の有無を出力するように学習した学習済みモデルを用いて、入力された複数のコンテンツを有するレイアウトデータからコンテンツの組の関連性の有無を特定し、
特定された関連性のあるコンテンツの組を対応付けてクラスタコンテンツとして抽出し、
抽出したクラスタコンテンツを含むレイアウトデータを表示画面に表示し、
前記表示画面に表示したクラスタコンテンツを選択する操作を受け付け、
前記入力されたコンテンツの組は、画
像と文
書の組であり、
さらに、前記操作を受け付けた場合、前記クラスタコンテンツよって関連付けられたコンテンツそれぞれを選択した表示態様で表示する情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、コンピュータプログラム及び情報処理方法に関する。
【背景技術】
【0002】
雑誌、書籍、新聞等のレイアウト作成を支援する種々の手法が提案されている。特許文献1には、ドキュメントから複数のコンテンツを抽出し、抽出した複数のコンテンツ間の意味的な関連性の度合いに基づいてドキュメント上の各コンテンツの位置を決定し、決定した位置にコンテンツを配置した新たなドキュメントを生成する情報処理装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、特許文献1の情報処理装置では、ドキュメント内のコンテンツに対して所要の操作(例えば、複写、移動などの操作)を行う場合には、コンテンツ毎に個別に操作を行う必要がある。特に、関連性のあるコンテンツに対しては、同様の操作を繰り返す可能性が高く煩雑となる。
【0005】
本発明は、斯かる事情に鑑みてなされたものであり、文書内のコンテンツに対する操作性を向上させることができる情報処理装置、コンピュータプログラム及び情報処理方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の実施の形態に係る情報処理装置は、関連性のあるコンテンツの組を教師データとして学習した学習済みモデルを用いて、入力されたコンテンツの組の関連性の有無を特定する特定部と、前記特定部で特定した関連性のあるコンテンツの組を対応付けてクラスタコンテンツとして抽出する抽出部とを備える。
【0007】
本発明の実施の形態に係るコンピュータプログラムは、コンピュータに、関連性のあるコンテンツの組を教師データとして学習した学習済みモデルを用いて、入力されたコンテンツの組の関連性の有無を特定する処理と、特定した関連性のあるコンテンツの組を対応付けてクラスタコンテンツとして抽出する処理とを実行させる。
【0008】
本発明の実施の形態に係る情報処理方法は、関連性のあるコンテンツの組を教師データとして学習した学習済みモデルを用いて、入力されたコンテンツの組の関連性の有無を特定し、特定された関連性のあるコンテンツの組を対応付けてクラスタコンテンツとして抽出する。
【発明の効果】
【0009】
本発明によれば、文書内のコンテンツに対する操作性が向上する。
【図面の簡単な説明】
【0010】
【
図1】本実施の形態の情報処理装置の構成の一例を示すブロック図である。
【
図2】レイアウトデータの一例を示す模式図である。
【
図4】画像の特徴量の算出方法の一例を示す模式図である。
【
図5】キャプションの特徴量の算出方法の一例を示す模式図である。
【
図6】画像及びキャプションの関連性判定の第1例を示す模式図である。
【
図7】画像及びキャプションの関連性判定の第2例を示す模式図である。
【
図8】ニューラルネットワークの学習方法の第1例を示す模式図である。
【
図9】ニューラルネットワークの学習方法の第2例を示す模式図である。
【
図10】クラスタコンテンツに対する操作の第1例を示す模式図である。
【
図11】クラスタコンテンツに対する操作の第2例を示す模式図である。
【
図12】情報処理装置のクラスタコンテンツ抽出処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0011】
以下、本開示の実施の形態を図面に基づいて説明する。
図1は本実施の形態の情報処理装置50の構成の一例を示すブロック図である。情報処理装置50は、通信ネットワーク1を介してサーバ10に接続することができる。また、情報処理装置50にはスキャナ20を接続することができる。サーバ10は、レイアウトデータを蓄積するデータサーバとすることができるが、これに限定されない。
【0012】
情報処理装置50は、装置全体を制御する制御部51、通信部52、記憶部53、レイアウトデータ推定部54、特定部55、抽出部56、表示パネル57、表示部58及び操作部59を備える。
【0013】
制御部51は、CPU、ROM及びRAMなどで構成することができる。
【0014】
通信部52は、通信ネットワーク1を介して、サーバ10との間で通信を行う機能を有し、所要の情報の送受信を行うことができる。より具体的には、通信部52は、サーバ10からレイアウトデータを取得することができる。
【0015】
図2はレイアウトデータの一例を示す模式図である。レイアウトデータは、例えば、文書の1頁に相当する領域内の余白を除いたレイアウト枠に複数のコンテンツが配置された状態を表す情報を含む。コンテンツには、例えば、タイトル、本文(テキスト)、画像(図)、キャプション(画像の説明文)などが含まれる。レイアウトデータは、コンテンツを配置するために必要なデータであり、例えば、各コンテンツのサイズ、コンテンツの座標、コンテンツ間の相対座標などを含む。
図2の例では、文書の1頁内に、タイトル、本文A、B、画像A、B、C、キャプションA、B、Cが配置されている。なお、レイアウトデータは、
図2の例に限定されない。
【0016】
通信部52は、スキャナ20との間のインタフェース機能も備え、スキャナ20から、例えば、PDFファイルを取得することができる。
【0017】
レイアウトデータ推定部54は、物体検出ニューラルネットワークを備え、スキャナ20から得られたPDFファイルを画像化し、レイアウトデータを推定することができる。
【0018】
記憶部53は、ハードディスク又はフラッシュメモリなどで構成することができ、通信部52を介して取得したレイアウトデータ、レイアウトデータ推定部54で推定したレイアウトデータを記憶することができる。
【0019】
特定部55は、関連性のあるコンテンツの組を教師データとして学習した学習済みモデルを用いて、入力されたコンテンツの組の関連性の有無を特定する。学習済みモデルは、後述のニューラルネットワーク551、552、553である。
【0020】
特定部55は、レイアウトデータに基づいて、関連性のあるコンテンツの組を特定する。「関連性があるコンテンツ」とは、例えば、ユーザが、表示パネル57に表示された文書内のコンテンツに対して同様の操作(例えば、複写、移動、削除、拡縮など)を繰り返す可能性が高いコンテンツ同士とすることができる。関連性のあるコンテンツ同士は、例えば、模式的に、関連グラフで表すことができる。
【0021】
図3は関連グラフの一例を示す模式図である。
図3に示すように、1つのレイアウト内に複数のコンテンツとして画像G1、G2、G3、キャプションC1、C2、C3が含まれるとする。画像G1とキャプションC1及びC2とがお互いに関連性があり、キャプションC3と画像G2及びG3とがお互いに関連性があるとする。この場合、関連グラフは、画像G1とキャプションC1とが繋がり、かつ、画像G1とキャプションC2とが繋がったグラフで表すことができる。また、関連グラフは、キャプションC3と画像G2とが繋がり、かつ、キャプションC3と画像G3とが繋がったグラフで表すことができる。
【0022】
次に、コンテンツ同士の関連性の判定方法について説明する。以下では、コンテンツとして、
図3に示すように、画像とキャプションを例に挙げて説明するが、他のコンテンツも同様である。関連性の判定には、画像の特徴量、キャプションの特徴量、コンテンツ(画像及びキャプション)間の相対位置情報(相対座標)を用いる。まず、画像の特徴量の算出方法について説明する。
【0023】
図4は画像の特徴量の算出方法の一例を示す模式図である。特定部55は、ニューラルネットワーク551を有する。ニューラルネットワーク551は、例えば、畳み込みニューラルネットワークであり、入力層551a、畳み込み層551b、プーリング層551c、畳み込み層551d、プーリング層551e、全結合層551fが、この順で接続されている。なお、畳み込み層、プーリング層及び全結合層の数は便宜上のものであり、
図4に示す数に限定されない。また、便宜上、活性化関数の層、出力層は省略している。入力層551aには、画像G1が入力される。全結合層551fは、入力された画像G1の特徴を組み合わせたものであるため、全結合層551fから特徴量g1(ベクトル)を算出することができる。他の画像G2、G3も同様にして、特徴量g2、g3を算出することができる。なお、画像の特徴量の算出は、ニューラルネットワークを用いる方法に限定されるものではなく、エッジ検出、線検出、領域分割、テクスチャ解析などの一般的な画像処理を用いてもよい。
【0024】
次に、キャプションの特徴量の算出方法について説明する。
【0025】
図5はキャプションの特徴量の算出方法の一例を示す模式図である。特定部55は、ニューラルネットワーク552を有する。ニューラルネットワーク552は、例えば、word2vecであり、入力層552a、隠れ層552b、出力層552cが、この順で接続されている。入力層552aと隠れ層552bとの間、隠れ層552bと出力層552cとの間はそれぞれ重みW、W′で全結合されている。入力層552aには、特定部55が有する言語処理部(例えば、形態素析処理)によって、キャプションC1から抽出された単語(または単語の列)が入力される。具体的には、形態素解析によってキャプションC1を複数の単語に分割し、分割した単語をベクトルに変換して入力層552aに入力する。この場合、各単語のベクトルを平均化したベクトルを入力層552aに入力してもよい。入力層552aにベクトルを入力すると、キャプションC1の意味がベクトル表現化され、特徴量c1(ベクトル)を算出することができる。他のキャプションC2、C3も同様にして、特徴量c2、c3を算出することができる。なお、キャプションの特徴量の算出は、ニューラルネットワークを用いる方法に限定されるものではなく、一般的な言語処理を用いてもよい。例えば、辞書データを用い、キャプションから意味を持つ持つ最小単位である単語を抽出し、抽出した単語を所要の次元数のベクトルに変換してもよい。なお、タイトルの特徴量、本文の特徴量もニューラルネットワーク552を用いて算出することができる。
【0026】
次に、コンテンツ(画像及びキャプション)同士の関連性の判定方法について説明する。
【0027】
図6は画像及びキャプションの関連性判定の第1例を示す模式図である。特定部55は、ニューラルネットワーク553を有する。ニューラルネットワーク553に入力データを入力する。入力データは、画像の特徴量、キャプションの特徴量、及び当該画像と当該キャプションの相対位置情報を成分とするベクトルである。相対位置情報は、レイアウト上の画像G1の座標とキャプションC1の座標との間の相対座標、画像G1のレイアウト上のサイズ、キャプションC1のレイアウト上のサイズなどを含む。
図6の例では、画像G1の特徴量g1(ベクトル)、キャプションC1の特徴量c1(ベクトル)、画像G1とキャプションC1との相対位置情報(ベクトル)を1個のベクトルとしている。
【0028】
ニューラルネットワーク553が出力するスコアが閾値以上であるので、画像G1とキャプションC1とは、
図3に示す関連グラフのとおり、関連性があると判定することができる。なお、ニューラルネットワーク553は、SVM(Support Vector Machine)、ベイジアンネットワークなど他の機械学習を用いてもよい。
【0029】
図7は画像及びキャプションの関連性判定の第2例を示す模式図である。
図7の例では、画像G2の特徴量g2(ベクトル)、キャプションC1の特徴量c1(ベクトル)、画像G2とキャプションC1との相対位置情報(ベクトル)を1個のベクトルとして、ニューラルネットワーク553に入力している。
【0030】
ニューラルネットワーク553が出力するスコアが閾値未満であるので、画像G2とキャプションC1とは、
図3に示す関連グラフのとおり、関連性がないと判定することができる。
【0031】
上述のように、ニューラルネットワーク553には、レイアウト上の任意の画像及びキャプションの組について、各特徴量と相対位置情報が入力され、それぞれの組について関連性の有無が判定される。
【0032】
次に、ニューラルネットワーク553の学習方法について説明する。
【0033】
図8はニューラルネットワーク553の学習方法の第1例を示す模式図である。ニューラルネットワーク553の入力層には、学習用入力データとしてのベクトルを入力する。学習用のベクトルは、画像の特徴量、キャプションの特徴量、及び当該画像と当該キャプションの相対位置情報を成分とするベクトルである。
図8の例では、画像G1の特徴量g1(ベクトル)、キャプションC2の特徴量c2(ベクトル)、画像G1とキャプションC2との相対位置情報(ベクトル)を1個のベクトルとしている。
図3に示すように、画像G1とキャプションC2との間に関連性がある場合、教師ラベル「1」を出力層に与え、ニューラルネットワーク553の学習を行う。教師ラベル「1」は正解の組であることを示すラベルである。
【0034】
図9はニューラルネットワーク553の学習方法の第2例を示す模式図である。ニューラルネットワーク553の入力層には、学習用入力データとしてのベクトルを入力する。学習用のベクトルは、画像の特徴量、キャプションの特徴量、及び当該画像と当該キャプションの相対位置情報を成分とするベクトルである。
図9の例では、画像G2の特徴量g2(ベクトル)、キャプションC1の特徴量c1(ベクトル)、画像G2とキャプションC1との相対位置情報(ベクトル)を1個のベクトルとしている。
図3に示すように、画像G2とキャプションC1との間に関連性がない場合、教師ラベル「0」を出力層に与え、ニューラルネットワーク553の学習を行う。教師ラベル「0」は不正解の組であることを示すラベルである。
【0035】
図8及び
図9に示すような学習用入力データと教師ラベルとを多数用いてニューラルネットワーク553を学習させることができる。
【0036】
上述のように、文書内の複数のコンテンツから、任意の2つのコンテンツを選択し、選択したコンテンツ同士の関連性を示すスコア(指標)を算出し、算出したスコアが所定の閾値以上であれば、関連性ありと判定し、算出したスコアが閾値未満であれば、関連性なしと判定することにより、関連性のあるコンテンツの組を特定することができる。
【0037】
また、紙媒体の文書をスキャナ20等で読み取るだけで、文書内の関連性のあるコンテンツの組を特定することができる。
【0038】
抽出部56は、特定部で特定した関連性のあるコンテンツの組を対応付けてクラスタコンテンツとして抽出する。クラスタコンテンツは、関連性のあるコンテンツ同士を一つのコンテンツとして纏めたものであり、関連性のあるコンテンツ同士は、一つのコンテンツとして扱うことができる。
【0039】
上述の構成により、クラスタコンテンツに対して所要の操作を行うと、関連性のあるコンテンツ同士に対して操作が行われたものとして扱われるので、文書内のコンテンツに対する操作性が向上する。
【0040】
次に、クラスタコンテンツに対する操作について説明する。
【0041】
表示部58は、表示パネル57にコンテンツが配置された文書を表示することができる。表示パネル57は、液晶パネル又は有機EL(Electro Luminescence)ディスプレイ等で構成することができる。なお、表示パネル57に代えて、情報処理装置50とは別個の表示装置を備える構成でもよい。
【0042】
操作部59は、例えば、ハードウェアキーボード、マウスなどで構成され、表示パネル57に表示されたアイコンなどの操作、文字等の入力などを行うことができる。なお、操作部59は、タッチパネルで構成してもよい。
【0043】
図10はクラスタコンテンツに対する操作の第1例を示す模式図である。
図10に示すように、表示パネル57に複数のコンテンツが配置された文書(例えば、1頁、あるいは両開きの2頁相当)が表示されている。
図10の例では、コンテンツとして、タイトル、本文A、本文B、画像A、キャプションA、キャプションBが表示されている。また、画像AとキャプションA及びBとがお互いに関連性があるとする。
【0044】
図10の左図のように、アイコン100を画像A(または画像Aの周辺、キャプションA又はBでもよい)に近づけて、タッチ操作及びドラッグ操作を行うと、右図に示すように、画像AとともにキャプションA及びBを同じように移動させることができる。画像A、キャプションA及びキャプションBは、1個のクラスタコンテンツ101を構成している。
【0045】
このように、表示部58は、表示パネル57に表示したクラスタコンテンツを選択する操作を受け付けた場合、クラスタコンテンツよって関連付けられたコンテンツそれぞれを選択した表示態様で表示する。例えば、表示パネル57に表示されたクラスタコンテンツ内の一のコンテンツまたはコンテンツの周辺を選択する操作を行い、表示パネル57上を移動(ドラッグ)すると、クラスタコンテンツ内のすべてのコンテンツが選択された表示態様で表示され、クラスタコンテンツ全体を移動(ドラッグ)させることができる。これにより、関連性のあるコンテンツに対しては、同様の操作を繰り返す必要がなく、文書内のコンテンツに対する操作性が向上する。
【0046】
図11はクラスタコンテンツに対する操作の第2例を示す模式図である。
図11に示すように、表示パネル57に複数のコンテンツが配置された文書(例えば、1頁、あるいは両開きの2頁相当)が表示されている。
図11の例では、コンテンツとして、本文A、本文B、本文C、画像A、キャプションAが表示されている。また、本文Bと本文Cとがお互いに関連性があるとする。
【0047】
図11の左図のように、アイコン100を本文B(または本文Bの周辺、本文Cでもよい)に近づけて、タッチ操作及びドラッグ操作を行うと、右図に示すように、本文Bとともに本文Cを同じように移動させることができる。本文Bと本文Cは、1個のクラスタコンテンツ102を構成している。これにより、関連性のあるコンテンツに対しては、同様の操作を繰り返す必要がなく、文書内のコンテンツに対する操作性が向上する。
【0048】
制御部51は、グループ化処理部としての機能を有し、クラスタコンテンツを一つのコンテンツとしてグループ化する。具体的には、制御部51は、クラスタコンテンツの一のコンテンツに対して所定の処理を行う場合、当該クラスタコンテンツの他のコンテンツに対して当該所定の処理と同じ処理を行うことができる。例えば、所定の処理として、文書内のコンテンツに対する編集処理(例えば、複写、移動、拡縮、削除など)の場合、一のコンテンツに対して編集処理を行うと当該一のコンテンツと関連性のある他のコンテンツに対しても同様の編集処理を行うことができ、文書内のコンテンツに対する操作性を向上させることができる。
【0049】
また、制御部51は、クラスタコンテンツに対して所定の処理を行う場合、クラスタコンテンツ内のコンテンツそれぞれに対して当該所定の処理と同じ処理を行うことができる。例えば、所定の処理として、文書内のコンテンツを探索する処理の場合、クラスタコンテンツ単位で探索することができ、文書内のコンテンツに対する操作性を向上させることができる。
【0050】
図12は情報処理装置50のクラスタコンテンツ抽出処理の一例を示すフローチャートである。以下では、便宜上、処理の主体を制御部51として説明する。制御部51は、レイアウトデータを取得し(S11)、レイアウトデータの構造情報(例えば、コンテンツのサイズ、座標)を取得する(S12)。
【0051】
制御部51は、コンテンツの組を選択し(S13)、選択したコンテンツの特徴量を抽出する(S14)。制御部51は、抽出した特徴量及び選択したコンテンツの相対位置情報に基づいて、選択したコンテンツの関連性を判定する(S15)。
【0052】
制御部51は、未処理のコンテンツの有無を判定し(S16)、未処理のコンテンツがある場合(S16でYES)、ステップS13以降の処理を続ける。未処理のコンテンツがない場合(S16でNO)、制御部51は、関連性のあるコンテンツ同士を纏めてクラスタコンテンツとして抽出し(S17)、処理を終了する。
【0053】
情報処理装置50は、例えば、CPU(例えば、複数のプロセッサコアを実装したマルチ・プロセッサなど)、GPU(Graphics Processing Units)、RAMなどを備えたコンピュータを用いて実現することもできる。
図12に示すような処理の手順を定めたコンピュータプログラム(記録媒体に記録可能)をコンピュータに備えられたRAMにロードし、コンピュータプログラムをCPU(プロセッサ)で実行することにより、コンピュータ上で情報処理装置50を実現することができる。
【0054】
本実施の形態の情報処理装置は、関連性のあるコンテンツの組を教師データとして学習した学習済みモデルを用いて、入力されたコンテンツの組の関連性の有無を特定する特定部と、前記特定部で特定した関連性のあるコンテンツの組を対応付けてクラスタコンテンツとして抽出する抽出部とを備える。
【0055】
本実施の形態のコンピュータプログラムは、コンピュータに、関連性のあるコンテンツの組を教師データとして学習した学習済みモデルを用いて、入力されたコンテンツの組の関連性の有無を特定する処理と、特定した関連性のあるコンテンツの組を対応付けてクラスタコンテンツとして抽出する処理とを実行させる。
【0056】
本実施の形態の情報処理方法は、関連性のあるコンテンツの組を教師データとして学習した学習済みモデルを用いて、入力されたコンテンツの組の関連性の有無を特定し、特定された関連性のあるコンテンツの組を対応付けてクラスタコンテンツとして抽出する。
【0057】
特定部は、関連性のあるコンテンツの組を教師データとして学習した学習済みモデルを用いて、入力されたコンテンツの組の関連性の有無を特定する。
コンテンツには、例えば、タイトル、本文(テキスト)、画像(図)、キャプション(画像の説明文)などが含まれる。レイアウトデータは、コンテンツを配置するために必要なデータであり、例えば、各コンテンツのサイズ、コンテンツの座標、コンテンツ間の相対座標などを含む。「関連性があるコンテンツ」とは、例えば、ユーザが、同様の操作(例えば、複写、移動など)を繰り返す可能性が高いコンテンツ同士とすることができる。
【0058】
文書内の複数のコンテンツから、任意の2つのコンテンツを選択し、選択したコンテンツ同士の関連性を示す指標を算出し、算出した指標が所定の閾値以上であれば、関連性ありと判定し、算出した指標が閾値未満であれば、関連性なしと判定することにより、関連性のあるコンテンツの組を特定することができる。
【0059】
抽出部は、特定部で特定した関連性のあるコンテンツの組を対応付けてクラスタコンテンツとして抽出する。クラスタコンテンツは、関連性のあるコンテンツ同士を一つのコンテンツとして纏めたものであり、関連性のあるコンテンツ同士は、一つのコンテンツとして扱うことができる。
【0060】
上述の構成により、クラスタコンテンツに対して所要の操作を行うと、関連性のあるコンテンツ同士に対して操作が行われたものとして扱われるので、文書内のコンテンツに対する操作性が向上する。
【0061】
本実施の形態の情報処理装置において、前記入力されたコンテンツの組は、画像データと文書データの組である。
【0062】
これにより、画像と文書とをクラスタコンテンツとして抽出することができる。
【0063】
本実施の形態の情報処理装置は、前記クラスタコンテンツを一つのコンテンツとしてグループ化するグループ化処理部を備える。
【0064】
グループ化処理部は、抽出部で抽出したクラスタコンテンツに対して所定の処理を行う場合、クラスタコンテンツよって関連付けられたコンテンツそれぞれに対して当該所定の処理と同じ処理を行うことができる。例えば、所定の処理として、文書内のコンテンツを探索する処理の場合、クラスタコンテンツ単位で探索することができ、文書内のコンテンツに対する操作性を向上させることができる。
【0065】
また、グループ化処理部は、クラスタコンテンツの一のコンテンツに対して所定の処理を行う場合、当該クラスタコンテンツの他のコンテンツに対して当該所定の処理と同じ処理を行うことができる。例えば、所定の処理として、文書内のコンテンツに対する編集処理(例えば、複写、移動、拡縮、削除など)の場合、一のコンテンツに対して編集処理を行うと当該一のコンテンツと関連性のある他のコンテンツに対しても同様の編集処理を行うことができ、文書内のコンテンツに対する操作性を向上させることができる。
【0066】
本実施の形態の情報処理装置は、前記抽出部で抽出したクラスタコンテンツを表示画面に表示する表示部と、前記表示画面に表示したクラスタコンテンツを選択する操作を受け付ける受付部とを備え、前記表示部は、前記受付部で前記操作を受け付けた場合、前記クラスタコンテンツよって関連付けられたコンテンツそれぞれを選択した表示態様で表示する。
【0067】
表示部は、抽出部で抽出したクラスタコンテンツを表示画面に表示する。受付部で表示画面に表示したクラスタコンテンツを選択する操作を受け付けた場合、表示部は、クラスタコンテンツよって関連付けられたコンテンツそれぞれを選択した表示態様で表示する。例えば、表示画面に表示されたクラスタコンテンツ内の一のコンテンツまたはコンテンツの周辺を選択する操作を行い、例えば、表示画面上を移動(ドラッグ)すると、クラスタコンテンツ内のすべてのコンテンツが選択された表示態様で表示され、クラスタコンテンツ全体を移動(ドラッグ)させることができる。これにより、関連性のあるコンテンツに対しては、同様の操作を繰り返す必要がなく、文書内のコンテンツに対する操作性が向上する。
【符号の説明】
【0068】
1 通信ネットワーク
10 サーバ
20 スキャナ
50 情報処理装置
51 制御部
52 通信部
53 記憶部
54 レイアウトデータ推定部
55 特定部
551、552、553 ニューラルネットワーク
56 抽出部
57 表示パネル
58 表示部
59 操作部