IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社朝日新聞社の特許一覧

特許7493665情報処理装置、情報処理方法、及びプログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-05-23
(45)【発行日】2024-05-31
(54)【発明の名称】情報処理装置、情報処理方法、及びプログラム
(51)【国際特許分類】
   G06V 30/14 20220101AFI20240524BHJP
【FI】
G06V30/14 340Z
【請求項の数】 5
(21)【出願番号】P 2023191854
(22)【出願日】2023-11-09
(62)【分割の表示】P 2023106280の分割
【原出願日】2023-06-28
【審査請求日】2023-12-20
【早期審査対象出願】
(73)【特許権者】
【識別番号】390012933
【氏名又は名称】株式会社朝日新聞社
(74)【代理人】
【識別番号】100147485
【弁理士】
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【弁護士】
【氏名又は名称】杉村 光嗣
(74)【代理人】
【氏名又は名称】石井 裕充
(72)【発明者】
【氏名】嘉田 紗世
(72)【発明者】
【氏名】倉井 敬史
(72)【発明者】
【氏名】松山 莞太
【審査官】千葉 久博
(56)【参考文献】
【文献】特開2011-39839(JP,A)
【文献】特開2011-34454(JP,A)
【文献】特開2009-294848(JP,A)
【文献】特開2008-217833(JP,A)
【文献】特開平11-25218(JP,A)
【文献】特開平7-121734(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/14
(57)【特許請求の範囲】
【請求項1】
所定の動作を実行する制御部と
通信部と
記憶部とを含む情報処理装置であって、
前記所定の動作は、
記事画像を取得することと、
前記記事画像から1以上の領域を取得することと、
前記1以上の領域の少なくとも1つを本文に分類することと、
前記本文の文字を認識することと、
前記本文の各行につき、縦方向又は横方向につなげた画像を取得することと、
前記各行につき、境界線を取得し、前記境界線に外接する長方形を1つずつ取得することと、
取得された1以上の長方形を順番につなげることと、
取得された前記記事画像において、物体検出モデルを用いて、見出し、画像、絵解き、表、広告及び面名欄の少なくとも1つの領域を取得及び分類することと、
取得された前記記事画像において、画像処理を用いて本文領域を取得し、画像分類モデルを用いて前記本文領域を本文に分類することとを含み、
前記所定の動作は更に第1の工程又は第2の工程を含み、
前記第1の工程は、
前記物体検出モデル又は前記画像処理によって見出しとして取得及び分類された領域を見出し領域として確定し、前記見出し領域として確定されなかった領域のうち前記画像分類モデルによって見出し領域として取得された領域を特定し、特定された領域のうち、領域の大きさが所定値を超える領域を見出しとして確定し、領域の大きさが所定値以下の領域を中見出しとして確定すること、を含み、
前記第2の工程は、
見出し候補を品詞ごとに分解し、品詞ごとにカウントすることと、
見出し候補と後続文とを用いて、中見出しと見出しとを二値分類し、見出し候補が中見出しである確率を取得することと、
前記品詞と前記確率とから、前記見出し候補が中見出しと見出しとのどちらであるかを判定することと、を含む
情報処理装置。
【請求項2】
請求項1に記載の情報処理装置において、前記動作は、
本文領域における一文字毎の領域と、前記一文字毎の領域をつなぎ合わせた領域とを推定することと、
つなぎ合わされた複数の領域に縦長のものが多いと判定すると、前記本文が縦書きであると判定し、前記1以上の長方形を上から下へ順番につなげることと、
つなぎ合わされた複数の領域に横長のものが多いと判定すると、前記本文が横書きであると判定し、前記1以上の長方形を左から右へ順番につなげることと、
を含む、情報処理装置。
【請求項3】
請求項1に記載の情報処理装置において、前記動作は、
前記本文に重なる他の領域を白塗りすること含む、情報処理装置。
【請求項4】
制御部と通信部と記憶部とを含む情報処理装置による情報処理方法であって、
記事画像を取得することと、
前記記事画像から1以上の領域を取得することと、
前記1以上の領域の少なくとも1つを本文に分類することと、
前記本文の文字を認識することと、
前記本文の各行につき、縦方向又は横方向につなげた画像を取得することと、
前記各行につき、境界線を取得し、前記境界線に外接する長方形を1つずつ取得することと、
取得された1以上の長方形を順番につなげることと、
取得された前記記事画像において、物体検出モデルを用いて、見出し、画像、絵解き、表、広告及び面名欄の少なくとも1つの領域を取得及び分類することと、
取得された前記記事画像において、画像処理を用いて本文領域を取得し、画像分類モデルを用いて前記本文領域を本文に分類することと、
を含み、
当該情報処理方法は更に第1の工程又は第2の工程を含み、
前記第1の工程は、
前記物体検出モデル又は前記画像処理によって見出しとして取得及び分類された領域を見出し領域として確定し、前記見出し領域として確定されなかった領域のうち前記画像分類モデルによって見出し領域として取得された領域を特定し、特定された領域のうち、領域の大きさが所定値を超える領域を見出しとして確定し、領域の大きさが所定値以下の領域を中見出しとして確定すること、を含み、
前記第2の工程は、
見出し候補を品詞ごとに分解し、品詞ごとにカウントすることと、
見出し候補と後続文とを用いて、中見出しと見出しとを二値分類し、見出し候補が中見出しである確率を取得することと、
前記品詞と前記確率とから、前記見出し候補が中見出しと見出しとのどちらであるかを判定することと、を含む、
情報処理方法。
【請求項5】
コンピュータを、請求項1に記載の情報処理装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、情報処理方法、及びプログラムに関する。
【背景技術】
【0002】
従来、文書を構成する基礎要素の集合から方向の確定した行集合を抽出し、行同士の関連付けによる段抽出を実行する技術が知られている(例えば特許文献1)。この技術では、次の3つの条件を満たすように段要素の連結処理が行われる。
1)すべての行成分は唯一の段要素に属する。
2)各々の段要素の段領域は互いに重ならない。ここで,段領域は各々の段要素に属する行成分の外接矩形で定義される領域である。
3)段方向の確定した段要素に属する行要素は,段方向順に順序付けされ,段方向と垂直方向に重なる行要素が存在しないように互いに統合されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開平11-2194072号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記背景技術では、ある要素が他の複数要素に続く候補として重複し得ることは想定されていない。このため、連結精度には改善の余地がある。
【0005】
かかる事情に鑑みてなされた本開示の目的は、画像から認識された本文の連結精度を向上することにある。
【課題を解決するための手段】
【0006】
上記課題を解決するため、本実施形態に係る情報処理装置は、
制御部と通信部と記憶部とを含む情報処理装置であって、前記制御部は、
記事画像を取得することと、
前記記事画像から1以上の領域を取得することと、
前記1以上の領域の少なくとも1つを本文に分類することと、
前記本文の文字を認識することと、
連続する可能性のある複数の本文を、所定の読み順ルールにしたがって、重複を許して連結することと、
を含む動作を実行する。
【0007】
上記課題を解決するため、本実施形態に係る情報処理方法は、
制御部と通信部と記憶部とを含む情報処理装置による情報処理方法であって、
記事画像を取得することと、
前記記事画像から1以上の領域を取得することと、
前記1以上の領域の少なくとも1つを本文に分類することと、
前記本文の文字を認識することと、
連続する可能性のある複数の本文を、所定の読み順ルールにしたがって、重複を許して連結することと、
を含む。
【0008】
上記課題を解決するため、本実施形態に係るプログラムは、
コンピュータを、上記情報処理装置として機能させる。
【発明の効果】
【0009】
本開示の一実施形態によれば、画像から認識された本文の連結精度を向上することができる。
【図面の簡単な説明】
【0010】
図1】情報処理装置の機能ブロック図である。
図2】物体検出モデルによる領域の取得及び分類を示す図である。
図3】画像処理を示す図である。
図4図2及び図3の結果を利用した後の記事画像を示す図である。
図5】画像分類モデルによる領域の分類を示す図である。
図6】後処理を示す図である。
図7】中見出しを示す図である。
図8】領域の取得及び分類の結果サンプルを示す図である。
図9】本文の縦連結を示す図である。
図10】記事の種類を示す図である。
図11】罫線の取得を示す図である。
図12】箱組記事の種類を示す図である。
図13】箱組記事のグループ化を示す図である。
図14】箱組記事のグループ化の代替例を示す図である。
図15】本文の読み順を示す図である。
図16】横組記事における本文の読み順を示す図である。
図17】本文の連結を示す図である。
図18】重複排除の結果を示す図である。
図19】中見出しの再分類を示す図である。
図20】画像と絵解きとの関連付けを示す図である。
図21】画像及び絵解きと、記事との関連付けを示す図である。
図22】絵解きが無い画像を示す図である。
図23】絵解きと見出しとの類似度の判定を示す図である。
図24】領域の連結の結果サンプルを示す図である。
図25】記事DB(database)のデータ構造を示す図である。
図26】情報処理装置が実行する情報処理方法のフローチャートを示す図である。
【発明を実施するための形態】
【0011】
以下、図面を用いて本発明の実施形態が説明される。図1は情報処理装置Dの機能ブロック図である。情報処理装置Dは制御部1と通信部2と記憶部3とを含む。
【0012】
情報処理装置Dはサーバであってよい。情報処理装置Dは例えば、事業者専用の施設、又はデータセンタを含む共用の施設に設置されてよい。情報処理装置Dが実行する処理は、分散配置された複数の情報処理装置によって実行されてよい。
【0013】
制御部1は、通信部2及び記憶部3の制御を行うとともに、情報処理装置Dの全体の動作に関する全ての制御を行う。制御部1は例えば、CPU(Central Processing Unit)又はMPU(Micro Processing Unit)を含む1つ以上の汎用プロセッサを含む。制御部1は、特定の処理に特化した1つ以上の専用プロセッサを含んでよい。制御部1は、プロセッサを含む代わりに、1つ以上の専用回路を含んでもよい。専用回路は例えば、FPGA(Field-ProgrammableGate Array)、又はASIC(Application Specific Integrated Circuit)であってよい。制御部1は、ECU(Electronic Control Unit)を含んでもよい。制御部1は通信部2を介して任意の情報を送受信する。
【0014】
通信部2は、ネットワークに接続するための、1つ以上の有線又は無線LAN(Local Area Network)規格に対応する通信モジュールを含む。通信部2は、LTE(Long Term Evolution)、4G(4th Generation)、又は5G(5th Generation)を含む1つ以上の移動体通信規格に対応するモジュールを含んでよい。通信部2は、Bluetooth(登録商標)、AirDrop(登録商標)、IrDA、ZigBee(登録商標)、Felica(登録商標)、又はRFIDを含む1つ以上の近距離通信の規格又は仕様に対応する通信モジュール等を含んでよい。通信部2は、ネットワークを介して他の端末に任意の情報を送信又は受信する。
【0015】
記憶部3は、例えば半導体メモリ、磁気メモリ、光メモリ、又はこれらのうち少なくとも2種類の組み合わせが含まれるが、これらに限られない。半導体メモリは、例えば、RAM又はROMである。RAMは、例えば、SRAM又はDRAMである。ROMは、例えば、EEPROMである。記憶部3は、例えば主記憶装置、補助記憶装置、又はキャッシュメモリとして機能してもよい。記憶部3は、制御部1によって分析又は処理された結果の情報を記憶してよい。記憶部3は、情報処理装置Dの動作又は制御に関する各種情報等を記憶してよい。記憶部3は、システムプログラム、アプリケーションプログラム、及び組み込みソフトウェア等を記憶してよい。記憶部3は情報処理装置Dの外部に設けられて、情報処理装置Dからアクセスされてよい。記憶部3は、記事DB31を含む。
【0016】
以下、情報処理装置Dが実行する情報処理方法が詳細に説明される。
【0017】
[1.領域の取得及び分類]
情報処理装置Dの記憶部3は記事画像を記憶する。記事画像は1以上の記事を含む。記事画像は、新聞又は雑誌等の紙面を撮像又は走査することによって得られてよい。制御部1は記事画像を取得する。図2に示されるように制御部1は、任意の物体検出モデルを用いて、記事画像から1以上の領域を取得(抽出)する。制御部1は、取得された各領域を例えば次の領域種類のいずれかに分類する。
・見出し
・画像
・絵解き(すなわち、対応する画像の内容を説明するキャプション)
・表
・広告
・面名欄
【0018】
物体検出モデルは例えば、HJDatasetを用いて学習されたFaster R-CNN をFine-tuningしたものであってよい。物体検出モデルは、所定数の新聞紙面を学習したものであってよい。領域の取得及び分類の際の検出方法は任意である。
【0019】
制御部1は、記事画像に対して画像処理を実行する。例えば制御部1は、図3のAに示されるように、ノイズ処理と、記事画像の下部にある下広告を後述のRLSA(Run Length Smoothing Algorithm)と輪郭抽出との対象外として設定する処理とを実行してよい。追加例として又は代替例として制御部1は、図3のBに示されるように、RLSAによるセグメンテーションを実行する。具体的には制御部1は、記事画像において隣接する白ピクセル数が閾値以下のとき、白ピクセルを黒ピクセルに置換する。実装には任意のOSSが使用されてよい。RLSAは、OpenCVでモルフォロジー変換を行った画像に適用されてよい。追加例として又は代替例として制御部1は、図3のCに示されるように、OpenCVにより輪郭抽出を行い、輪郭の矩形領域を取得してよい。具体的には制御部1は、各領域の境界線を取得し、各境界線に外接する長方形を各領域につき1つずつ取得する。ここでの画像処理で利用されるRLSA、OSS及びOpenCVは一例であり、代替例として他の任意のアルゴリズム又はプログラムが利用されてよい。
【0020】
記事画像に物体検出モデルのみを適用する場合、領域の検出漏れ又は領域の位置ずれが生じる場合がある。記事画像に画像処理のみを適用する場合、記事画像中の文字の間隔が異なるために、1つの見出しが複数の領域に分離して取得される場合がある。そこで制御部1は図4に示されるように、物体検出モデルの適用結果と画像処理の結果とを統合した記事画像を生成してもよい。統合方法は任意である。
【0021】
制御部1は、画像分類モデルを用いて領域を分類する。画像分類モデルは、Swin TransformerをFine-tuningしたものであってよい。画像分類モデルの訓練においては、セグメンテーション画像が利用されてよい。
【0022】
物体検出モデル及び画像処理に加えて画像分類モデルを使用した結果が図5に示される。この構成により、領域を上記領域種類(例えば、見出し、画像等)に分類することに加えて、本文(例えば本文領域53)に分類することができる。
【0023】
追加例として又は代替例として制御部1は、図5に示される記事画像に対し後処理を実行する。例えば制御部1は、誤って細分化された領域51を1つの領域にまとめてよい。制御部1は、取得不要な領域52を削除してよい。後処理が実行された後の記事画像が図6に示される。
【0024】
制御部1は、物体検出モデル又は画像処理によって見出しとして取得及び分類された領域を見出し領域として確定してよい。制御部1は、見出し領域として確定されなかった領域のうち画像分類モデルによって見出し領域として取得された領域を特定する。制御部1は、特定された領域のうち、領域の大きさが所定値を超えるものを見出しとして確定し、領域の大きさが所定値以下のもの(例えば図7の領域71及び領域72)を中見出しとして確定してよい。
【0025】
以上の処理によって取得及び分類された次の各領域が図8に示される。
・見出し(例えば領域81)
・本文(例えば領域82)
・画像(例えば領域83)
・絵解き(例えば領域84)
・表(例えば領域85)
・広告(例えば領域86)
・面名欄(例えば領域87)
【0026】
[2.文字認識]
制御部1は、取得及び分類された各領域に対し、OCR(Optical Character Recognition/Reader)を用いて本文の文字を認識する。例えばOCRエンジンとしてはGoogleのAPIが利用されてよい。制御部1は、文字認識の前にノイズの除去又は記事画像の加工を行い、精度向上を図ってよい。例えば制御部1は、各領域につきOpenCVを用いてごま塩ノイズを除去してよい。
【0027】
文字認識の対象となる領域は文字領域又は本文領域のみに限定されてよい。これにより文脈から文字を推定することが可能であるため、文字認識の精度を向上させることができる。追加例として又は代替例として、制御部1はOCRを用いて、見出し、絵解き、又は広告の文字を認識してよい。
【0028】
制御部1は、各領域に関連付けて、認識された文字を記憶部3に記憶する。
【0029】
図9に示されるように、制御部1は、本文領域において認識された文字を次の手順で連結する。
手順1.本文領域の画像を取得する
手順2.上述のRLSAを用いて、各行につき縦方向に画像を繋げる
手順3.各行の境界線を取得する
手順4.各境界線に外接する長方形を各行につき1つずつ取得する
手順5.右にある長方形から順番に、上から下へ並べる
追加例として又は代替例として、制御部1は上記手順1と手順2との間の時点で、対象領域の本文に重なっている見出し領域を白塗り(すなわちマスク)することで、対象領域の本文ではない文字の影響を排除してよい。
【0030】
図9の例では、本文が縦書きの場合が説明される。しかし制御部1は、本文の書き方向が縦書きと横書きとのいずれであるかを、既存の機械学習モデル(例えばCRAFT)を用いて判定してよい。具体的には制御部1は、一文字毎の領域と、それらをつなぎ合わせた領域とを推定し、つなぎ合わされた複数の領域に縦長のものが多ければ本文が縦書きであると判定する。制御部1は、つなぎ合わされた複数の領域に横長のものが多ければ、本文が横書きであると判定する。制御部1は本文が横書きであると判定すると、上記手順5に代えて、上にある長方形から順番に、左から右へ並べる。
【0031】
[3.領域の連結]
制御部1は、下記の方法で記事の種類を検出し、記事の種類に応じて1以上の本文を連結する。図10に示されるように、例えば記事の種類は次の通りである。
・通常記事(図10のA)
・箱組記事(図10のB)
・横組記事(図10のC)
【0032】
具体的には制御部1は、OpenCV等を用いて、記事画像から罫線(すなわち直線)を検出する。一例として、罫線検出前の記事画像(図11のA)と、罫線検出後の記事画像(図11のB)とが示される。
【0033】
(1)記事の種類の検出と、読み順の判定
(1-1)箱組記事
箱組記事は、箱型(すなわち長方形型)に配置された記事を示す。箱組記事は、記事が枠121で囲まれる種類(図12のA)と、記事が枠に囲まれない種類(図12のB)とに少なくとも分けられる。
【0034】
箱組記事の1つ目の検出方法として、制御部1は、図13に示される記事画像において枠の有無を判定する。例えば制御部1は、次の手順により枠の有無を判定してよい。
手順1.見出し及び本文を含め、取得された領域を全てマスク(白塗り)した画像を生成する(この場合、罫線のみが残された画像が生成される)
手順2.OpenCVにより輪郭抽出及び矩形検出を実行する
手順3.矩形の縦及び横の長さに応じてフィルタリングを実行する
制御部1は、枠を検出すると、枠で囲まれた領域131を箱組領域として検出する。箱組領域内の1以上の領域は、グループ化されて、1つの記事に関連付けられる。関連付けられた1以上の領域は、各箱組記事に関連付けて記憶部3に記憶される。
【0035】
箱組記事の2つ目の検出方法として制御部1は、図14に示される記事画像において、横罫線の有無を判定する。ここでの横罫線は、縦に並んだ複数の領域を区切る罫線を指す。制御部1は、ある本文領域と他の本文領域との間に横罫線が無いと判定すると、それら本文領域をグループ化して1つの箱組記事に関連付ける。この方法は、記事画像中に枠で囲まれた領域が無い場合に有効である。次いで制御部1は、それら本文領域を囲む罫線を検出すると、罫線を境界線とした箱組領域を検出し、箱組領域を箱組記事(ここでは参照符号141及び142)に関連付ける。制御部1は、各箱組領域内において、見出し領域を検出する。制御部1は、検出された見出しを箱組記事に関連付けて記憶部3に記憶する。
【0036】
制御部1は、検出された各箱組記事内の本文領域につき、所定の読み順ルールに従って読み順を判定する。所定の読み順ルールは例えば次の通りである。
・縦書きの場合:左方向に読み進み、罫線、画像(ただし、高さが紙面の1段の高さよりも大きい画像)、見出し又は絵解きに突き当たると下段の領域の右端に飛ぶ。箱組記事内では、見出しを飛び越えて読む。
・横書きの場合、右方向に読み進み、罫線に突き当たると下段の領域に飛ぶ。
【0037】
例えば図15のAに示される箱組記事の例では、左方向151に読み進み、絵解き152に突き当たると、下段の本文領域153に飛ぶ。制御部1は、図15のBに示されるように、箱組記事内の本文の読み順を次のように判定する。
領域0:読み順1番目
領域1:読み順2番目
領域2:読み順3番目
領域3:読み順4番目
領域4:読み順5番目
領域5:読み順6番目
領域6:読み順7番目
【0038】
(1-2)横組記事
横組記事の検出方法として制御部1は、OCRでの文字認識により横書きと判定された1以上の本文を検出すると、箱組記事の検出方法と同一の方法により、1以上の本文をグループ化して1つの横組記事に関連付ける。更に制御部1は、横書きの箱組記事の場合での読み順の判定方法と同一の方法により、横組記事での本文の読み順を判定する。制御部1は、図16に示されるように、横組記事の読み順を次のように判定する。
領域A0:読み順1番目
領域A1:読み順2番目
領域A2:読み順3番目
【0039】
(1-3)通常記事
制御部1は、記事画像において、箱組記事の領域と横組記事の領域とを除いた領域を通常記事の候補領域として検出する。制御部1は通常記事の候補領域において、本文の開始位置を探索する。開始位置は次のように判定されてよい。
・見出しの左側に本文がある場合:開始位置は見出しの左上にある本文の右上端
・見出しの左側に本文がない場合:開始位置は見出しの下段にある本文の右上端
【0040】
制御部1は、所定の読み順ルールにしたがって、連続する可能性のある複数の本文を記事ごとに全て連結する。この場合、ある領域の本文が、他の複数の領域の本文に重複して連結されることが許される。図17の例では、制御部1は次のように本文を連結する。
・領域A0乃至A2の本文と、領域X1乃至X6の本文とを連結する。
・領域B0の本文と、領域X1乃至X6の本文とを連結する。
・領域C0乃至C2の本文と、領域X4乃至X6の本文とを連結する。
・領域D0乃至D3の本文と、領域X4乃至X6の本文とを連結する。
・領域E0の本文と、領域E1の本文とを連結する。
・領域G0の本文と、領域X6の本文とを連結する。
【0041】
上記の通り、領域X1乃至X6の本文は、他の複数の領域の本文に重複して連結される。制御部1は、領域E1と領域F0とのそれぞれに連続する可能性のある他の本文領域が存在しないと判定すると、領域E1と領域F0とのそれぞれにつき記事の本文が完成したと判定する。
【0042】
制御部1は重複の排除処理を実行する。具体的には制御部1は、領域X1乃至X6のそれぞれにつき、直前の候補領域の本文のそれぞれが句点で終わっているか否かを判定する。例えば制御部1は、領域X1の直前の候補領域である領域A2と領域B0とを参照し、領域A2の本文が句点で終わっていることと、領域B0の本文が句点で終わっていないこととを検出する。制御部1は、領域B0の本文を、領域X1の直前の本文として判定する。制御部1は、重複がなくなるまで重複の排除処理を繰り返す。重複が排除された結果が図18に示される。
【0043】
重複の排除処理の追加例として又は代替例として制御部1は、例えばNext Sentence Prediction(BERTによるもの)を用いて直前の本文との文脈的つながりを判定し、重複領域の直前の本文を判定してよい。
【0044】
図19のAに示されるように、通常記事において中見出しの一部(ここでは、領域191、192及び193)が見出しと判定され、1つの記事が複数の記事に分離することがある。分離を解消するために、制御部1は中見出しの分類を実行し、実行結果に対して再度、通常記事に対して行われる処理を実行してよい。具体的には、中見出しの分類は分類モデルを用いて実行されてよい。分類モデルは、次の手順によって構築されてよい。
手順1.見出し候補をspaCyにかけて品詞ごとに分解し、品詞ごとにカウントする。
手順2.見出し候補と後続文とを用いて、BERTで中見出しと見出しとを二値分類し、見出し候補が中見出しである確率を得る。
手順3.上記手順1及び2から得られた「中見出しに含まれる品詞」と「BERTから出力された確率」とをLightGBMに入力し、見出し候補が中見出しか見出しを判定する。
中見出しの分類結果が図19のBに示される。図19のBに示されるように、本文領域A0乃至A7がグループ化されて1つの通常記事に関連付けられる。すなわち本文領域A0乃至A7が同一の記事に属する。
【0045】
制御部1は、いずれの記事にも属さない本文領域を取得して記憶部3に記憶してよい。
【0046】
(2)画像と絵解きとの関連付け
制御部1は、画像と、画像の内容を説明する絵解きとをペアとして記事に関連付けて記憶する。関連付け方法は、記事が箱組記事の場合と、それ以外の場合とに分けられる。
(2-1)箱組記事
制御部1は、箱組記事であると判定された箱組領域内で画像と絵解きとを検出し、画像と絵解きとを箱組記事に関連付けて記憶部3に記憶する。
(2-2)箱組記事以外
画像と、対応する絵解きとのペアを、双方の間の距離のみから判定することは難しい場合がある。制御部1は、画像と絵解きとが罫線をまたいでペアになることはないというルールを利用して関連付けを実行する。具体的には制御部1は、図20のAに示される絵解き領域201の四方(すなわち上下左右)の罫線を取得する。取得された罫線が、矢印201A、201B、201C、及び201Dによって示される。制御部1は、図20のBに示されるように、取得された罫線によって囲まれる長方形の領域202を取得する。制御部1は、領域202と重なる画像領域203を取得する。図20のCに示されるように制御部1は、絵解き領域201と画像領域203とをペアとして関連付ける。
【0047】
ペアの関連付けの後、制御部1は、図21のAに示されるように、画像領域203の四方の罫線を取得する。取得された罫線が、矢印211A、211B、211C及び211Dによって示される。図21のBに示されるように制御部1は、取得された罫線によって囲まれる長方形の領域212を取得する。制御部1は、領域212と重なる見出し領域(例えば見出し領域213)又は本文領域(例えば本文領域214)が関連付けられる1以上の記事を、絵解き領域201と画像領域203とのペアが関連付けられる記事の候補に設定する。制御部1は、候補が1つである場合、絵解き領域201と画像領域203とのペアを、当該候補の記事に関連付けて記憶部3に記憶する。
【0048】
追加例として又は代替例として制御部1は、画像が関連付けられる本文中に「=写真=」又は「=写真」(図22)との文字領域221を検出すると、画像に関連付けられる絵解きが存在しないと判定してよい。
【0049】
追加例として又は代替例として制御部1は、絵解きが関連付けられる記事を、絵解きと見出しとの類似度から判定してよい。例えば類似度の判定には、Sentence-BERTが利用されてよい。図23の例では制御部1は、絵解き231の「豊漁のメジマグロに大忙しの漁民...」と、見出し232の『「あしながさん」募る 病気遺児へ寄金訴え」』とのベクトル間の距離を判定する。判定された距離は一例として0.9である。判定処理の実装には例えば次の技術が使用されてよい。
https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.cdist.html
制御部1は、絵解き231の「豊漁のメジマグロに大忙しの漁民...」と、見出し233「メジマグロ 記録的大量 一度の網で35トン」とのベクトル間の距離が0.4であると判定する。判定された距離は一例として0.4である。制御部1は、絵解き231とのベクトル間の距離が小さい(すなわち絵解き231との類似度が高い)見出し233と、絵解き231とを同一の記事に関連付ける。
【0050】
以上のように実行された領域の連結結果が図24に示される。同一の記事に関連付けらる(すなわち同一の記事に属する)領域は、同一種類の線によって囲まれる。
【0051】
[4.分類の付与]
制御部1は、領域の連結によって作成された記事のそれぞれにつき、見出しと本文とから、分類器を用いて1以上の分類を付与する。例えば分類器は、BERTをFine-tuningしたものであってよい。
【0052】
図25に示されるように制御部1は、各記事に関連付けて、見出し、本文、画像、位置、分類等を記憶部3に記憶する。追加例として又は代替例として制御部1は、各記事に関連付けて、絵解きを記憶部3に記憶してよい。制御部1は、記憶部3に記憶された情報を用いて、記事を電子的に生成することができる。
【0053】
図26に、情報処理装置Dにおいて実行される情報処理方法のフローチャートが示される。
【0054】
S1にて情報処理装置Dの制御部1は、記事画像を取得する。S2にて制御部1は、記事画像から1以上の領域を取得して、1以上の領域を本文等に分類する。S3にて制御部1は、OCRにより、本文の文字を認識する。
【0055】
S4にて制御部1は、領域を連結して、記事ごとにまとめる。S4は、連続する可能性のある複数の本文を、所定の読み順ルールにしたがって、重複を許して連結することを含む。S5にて制御部1は、記事ごとに分類を付与する。
【0056】
以上述べたように本実施形態によれば、情報処理装置Dの制御部1は、記事画像を取得することと、記事画像から1以上の領域を取得することと、1以上の領域の少なくとも1つを本文に分類することと、本文の文字を認識することと、連続する可能性のある複数の本文を、所定の読み順ルールにしたがって、重複を許して連結することと、を含む。この構成により情報処理装置Dは、画像から認識された本文の連結精度を向上することができる。更に、例えば情報処理装置Dは、デジタル化されていない紙面から記事の情報を抽出し、データベースに保存して活用するという復刻を可能にすることができる。
【0057】
また本実施形態によれば、制御部1の動作は、他の複数の本文に重複して連結された本文を検出すると、他の複数の本文のそれぞれにつき句点で終わっているか否かを判定し、句点で終わっていない本文を直前の本文として判定することを含む。この構成により情報処理装置Dは、直前の本文の判定精度を向上させることができる。
【0058】
また本実施形態によれば、制御部1の動作は、他の複数の本文に重複して連結された本文を検出すると、文脈的つながりから直前の本文を判定することを含む。この構成により情報処理装置Dは、直前の本文の判定精度を向上させることができる。
【0059】
また本実施形態によれば、制御部1の動作は、他の複数の本文に重複して連結された本文が存在しないと判定すると、記事の本文が完成したと判定することを含む。この構成により情報処理装置Dは、重複排除を確実に実行することができる。
【0060】
また本実施形態によれば、制御部1の動作は、取得された記事画像において、物体検出モデルを用いて、見出し、画像、絵解き、表、広告及び面名欄の少なくとも1つの領域を取得及び分類することと、取得された記事画像において、画像処理を用いて本文領域を取得し、画像分類モデルを用いて本文領域を本文に分類することと、を含む。この構成により情報処理装置Dは、領域の取得及び分類の精度を向上させることができる。
【0061】
また本実施形態によれば、制御部1の動作は、記事画像から罫線を取得することと、記事画像において、枠の有無と、横罫線の有無と、本文の書き方向と、の少なくとも1つから、箱組記事と横組記事と通常記事とのいずれかを検出することとを含む。この構成により情報処理装置Dは、記事の種類を的確に判定し、種類に応じた後続の処理を実行することができる。
【0062】
また本実施形態によれば、制御部1の動作は、通常記事を検出すると、通常記事において、重複を許した連結を実行することを含む。この構成により情報処理装置Dは、記事の種類が通常記事である場合に限って連結処理を実行するので、処理負荷を低減することができる。
【0063】
本開示を諸図面及び実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形及び修正を行うことが可能であることに注意されたい。したがって、これらの変形及び修正は本開示の範囲に含まれることに留意されたい。例えば、各手段又は各ステップに含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段又はステップを1つに組み合わせたり、或いは分割したりすることが可能である。
【0064】
例えば、上記の実施形態において、情報処理装置Dの機能又は処理の全部又は一部を実行するプログラムは、コンピュータで読取り可能な記録媒体に記録しておくことができる。コンピュータで読取り可能な記録媒体は、非一時的なコンピュータ読取可能な媒体を含み、例えば、磁気記録装置、光ディスク、光磁気記録媒体、又は半導体メモリである。プログラムの流通は、例えば、プログラムを記録したDVD(Digital Versatile Disc)又はCD-ROM(Compact Disc Read Only Memory)などの可搬型記録媒体を販売、譲渡、又は貸与することによって行う。またプログラムの流通は、プログラムをサーバのストレージに格納しておき、サーバから他のコンピュータにプログラムを送信することにより行ってもよい。またプログラムはプログラムプロダクトとして提供されてもよい。本開示は、プロセッサが実行可能なプログラムとしても実現可能である。
【符号の説明】
【0065】
D 情報処理装置
【要約】
【課題】画像から認識された本文の連結精度を向上する。
【解決手段】制御部1と通信部2と記憶部3とを含む情報処理装置Dであって、制御部1は、記事画像を取得することと、記事画像から1以上の領域を取得することと、1以上の領域の少なくとも1つを本文に分類することと、本文の文字を認識することと、連続する可能性のある複数の本文を、所定の読み順ルールにしたがって、重複を許して連結することと、を含む動作を実行する、情報処理装置D。
【選択図】図1
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25
図26