(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-25
(45)【発行日】2024-01-09
(54)【発明の名称】情報処理装置及びプログラム
(51)【国際特許分類】
G06F 3/04883 20220101AFI20231226BHJP
【FI】
G06F3/04883
(21)【出願番号】P 2019163139
(22)【出願日】2019-09-06
【審査請求日】2022-08-29
(73)【特許権者】
【識別番号】000005496
【氏名又は名称】富士フイルムビジネスイノベーション株式会社
(74)【代理人】
【識別番号】110001210
【氏名又は名称】弁理士法人YKI国際特許事務所
(72)【発明者】
【氏名】松尾 剛典
【審査官】宇佐田 健二
(56)【参考文献】
【文献】特開平09-006901(JP,A)
【文献】特開平10-143606(JP,A)
【文献】特開2005-175653(JP,A)
【文献】特開2001-084254(JP,A)
【文献】特開平06-266889(JP,A)
【文献】高山 和良,“OCRソフト“徹底”活用テクニック 表計算・ワープロに取り込む”,「日経PC21 2000年3月号」,日本,日経BP社 Nikkei Business Publications,Inc.,2000年03月01日,第5巻,第5号,pp.44-47
【文献】しだみえ,“ソフト買いたい新書 第8回”,「YOMIURI PC 2006年9月号」,日本,読売新聞東京本社,2006年09月01日,第11巻,第9号,pp.76-79
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/01,3/048-3/04895
G06V 30/14,30/24,30/41
(57)【特許請求の範囲】
【請求項1】
ユーザから、画像中の複数の領域についての順序の指定を受け付ける受付手段と、
前記複数の領域の各々についての電子化データを前記順序に従って配列した、前記画像に対応する出力データを生成する生成手段と、
画面上に表示した前記画像上で、前記出力データの出力形式の指定を受け付ける手段と、
を含み、
前記生成手段は、前記ユーザによるタッチジェスチャにより描かれる軌道に応じて指定された前記
出力形式の前記出力データを生成する、情報処理装置。
【請求項2】
前記受付手段は、前記順序を規定する複数のテンプレートのうち前記画像に適用するテンプレートの選択を前記ユーザから受け付ける、請求項1に記載の情報処理装置。
【請求項3】
前記受付手段は、前記画面上に表示した前記画像の上に、前記画像が見える形態で前記テンプレートを重ねて表示し、表示した前記テンプレートを前記画像に適用するか否かの指示を前記ユーザから受け付ける、請求項2に記載の情報処理装置。
【請求項4】
前記情報処理装置は、前記画像に含まれる線又は非文字部分により前記画像を前記複数の領域に分割する分割手段を更に含み、
前記受付手段は、前記複数のテンプレートのうち、前記分割手段により分割された前記複数の領域の配置パターンに適合するテンプレートから優先的に、選択対象としてユーザに提示する、請求項2又は3に記載の情報処理装置。
【請求項5】
前記受付手段は、前記画面上に表示した前記画像上で、前記複数の領域についての前記順序の指定を受け付ける、請求項1に記載の情報処理装置。
【請求項6】
前記受付手段は、前記画面上に表示した前記画像の前記複数の領域を前記順序に従って通るタッチジェスチャにより、前記順序の指定を受け付ける、請求項5に記載の情報処理装置。
【請求項7】
前記受付手段は、前記画面上に表示した前記画像上で、前記複数の領域のうち電子化不要の領域の指定を更に受け付け、
前記生成手段は、前記電子化不要の領域に指定された領域のデータを含まない前記出力データを生成する、請求項5又は6に記載の情報処理装置。
【請求項8】
前記受付手段は、前記画面上に表示した前記画像上で、前記複数の領域のうち画像データとして取り込む領域である画像取込領域の指定を更に受け付け、
前記生成手段が生成する前記出力データは、前記複数の領域のうち前記画像取込領域については前記電子化データとして当該領域の画像データを含み、前記複数の領域のうち前記画像取込領域以外の領域については当該領域の画像に対する文字認識結果のテキストデータを前記電子化データとして含む、請求項5~7のいずれか1項に記載の情報処理装置。
【請求項9】
複数の画像についての順序である画像順序の指定を受け付ける手段、を更に含み、
前記受付手段は、前記複数の画像の各々について、当該画像中の複数の領域についての前記順序の指定を受け付け、
前記生成手段は、前記複数の画像の各々についての前記出力データを前記画像順序に従って配列することにより、前記複数の画像についての出力データを生成する、請求項1~8のいずれか1項に記載の情報処理装置。
【請求項10】
コンピュータを、
ユーザから、画像中の複数の領域についての順序の指定を受け付ける受付手段、
前記複数の領域の各々についての電子化データを前記順序に従って配列した、前記画像に対応する出力データを生成する生成手段、
画面上に表示した前記画像上で、前記出力データの出力形式の指定を受け付ける手段、
として機能させるためのプログラムであって
、
前記生成手段は、前記ユーザによるタッチジェスチャにより描かれる軌道に応じて指定された前記
出力形式の前記出力データを生成する、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及びプログラムに関する。
【背景技術】
【0002】
ホワイトボードを用いた議論等では、一人又は複数のユーザが自由な場所に自由なタイミングで記入を行う。また、その議論に用いたホワイトボードの画像を撮影し、議事録として残すことがよく行われている。しかし、ホワイトボード上の情報は自由なレイアウトで記入されているので、その画像だけを見ても議論の流れが分からない場合が多く、記入された情報のうちのどれが最終結論なのかが判然としない場合すらある。
【0003】
従来、ホワイトボード又はタッチパネルディスプレイに対して手書き記入された文字をリアルタイムで認識し、テキストデータとして出力する装置が存在する。
【0004】
また、既存の手書き文字群に対して文字認識を行う技術として以下のものがある。
【0005】
特許文献1には、カルテ等の帳票の文字認識、及びこれに基づくデータエントリのために、帳票の投影画像に対するユーザの指のジェスチャを検出し、ジェスチャによりユーザの操作指示を検出する装置が記載されている。この装置は、画像中で認識する欄の指定、画像中の欄とエントリ対象の項目との対応付け、項目への属性値の追加、等の操作をジェスチャ等で受け付ける。
【0006】
特許文献2に開示されたテキストデータ出力ホワイトボードは、ホワイトボードの画像を格子状に区切り、各格子内の文字を認識する。この認識処理を、大きさの異なる複数の格子について行うことで、サイズ違いの文字をそれぞれ認識する。そして、認識された各文字、及び格子とずれている等の理由で認識できなかった画像を、行列位置フォーマットに当てはめることで、同一行に属する文字等を識別し、文字認識結果を行単位に分ける。
【先行技術文献】
【特許文献】
【0007】
【文献】特開2016-162372号公報
【文献】特開平9-130521号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
ホワイトボード等のように複数の記入内容の塊が自由なレイアウトで記入された記入面を撮影した画像を電子化する場合、従来の文字認識技術を単純に適用すると、個々の記入内容については従来の文字認識技術等で電子化可能である。しかし、従来の文字認識技術等の電子化技術では、それら複数の記入内容がどのような順序で記入されたかまでは判別不能なので、それら複数の記入内容を記入の順序に従って並べた議事録のような出力データを生成することはできない。
【0009】
本発明は、画像内の各領域の順序がその画像の内容から認識できない場合でも、それら各領域の情報をその順序に従って配列した出力データを生成できるようにすることを目的とする。
【課題を解決するための手段】
【0010】
請求項1に係る発明は、ユーザから、画像中の複数の領域についての順序の指定を受け付ける受付手段と、前記複数の領域の各々についての電子化データを前記順序に従って配列した、前記画像に対応する出力データを生成する生成手段と、画面上に表示した前記画像上で、前記出力データの出力形式の指定を受け付ける手段と、を含み、前記生成手段は、前記ユーザによるタッチジェスチャにより描かれる軌道に応じて指定された前記出力形式の前記出力データを生成する、情報処理装置である。
【0011】
請求項2に係る発明は、前記受付手段は、前記順序を規定する複数のテンプレートのうち前記画像に適用するテンプレートの選択を前記ユーザから受け付ける、請求項1に記載の情報処理装置である。
【0012】
請求項3に係る発明は、前記受付手段は、前記画面上に表示した前記画像の上に、前記画像が見える形態で前記テンプレートを重ねて表示し、表示した前記テンプレートを前記画像に適用するか否かの指示を前記ユーザから受け付ける、請求項2に記載の情報処理装置である。
【0013】
請求項4に係る発明は、前記情報処理装置は、前記画像に含まれる線又は非文字部分により前記画像を前記複数の領域に分割する分割手段を更に含み、前記受付手段は、前記複数のテンプレートのうち、前記分割手段により分割された前記複数の領域の配置パターンに適合するテンプレートから優先的に、選択対象としてユーザに提示する、請求項2又は3に記載の情報処理装置である。
【0014】
請求項5に係る発明は、前記受付手段は、前記画面上に表示した前記画像上で、前記複数の領域についての前記順序の指定を受け付ける、請求項1に記載の情報処理装置である。
【0015】
請求項6に係る発明は、前記受付手段は、前記画面上に表示した前記画像の前記複数の領域を前記順序に従って通るタッチジェスチャにより、前記順序の指定を受け付ける、請求項5に記載の情報処理装置である。
【0016】
請求項7に係る発明は、前記受付手段は、前記画面上に表示した前記画像上で、前記複数の領域のうち電子化不要の領域の指定を更に受け付け、前記生成手段は、前記電子化不要の領域に指定された領域のデータを含まない前記出力データを生成する、請求項5又は6に記載の情報処理装置である。
【0017】
請求項8に係る発明は、前記受付手段は、前記画面上に表示した前記画像上で、前記複数の領域のうち画像データとして取り込む領域である画像取込領域の指定を更に受け付け、前記生成手段が生成する前記出力データは、前記複数の領域のうち前記画像取込領域については前記電子化データとして当該領域の画像データを含み、前記複数の領域のうち前記画像取込領域以外の領域については当該領域の画像に対する文字認識結果のテキストデータを前記電子化データとして含む、請求項5~7のいずれか1項に記載の情報処理装置である。
【0019】
請求項9に係る発明は、複数の画像についての順序である画像順序の指定を受け付ける手段、を更に含み、前記受付手段は、前記複数の画像の各々について、当該画像中の複数の領域についての前記順序の指定を受け付け、前記生成手段は、前記複数の画像の各々についての前記出力データを前記画像順序に従って配列することにより、前記複数の画像についての出力データを生成する、請求項1~8のいずれか1項に記載の情報処理装置である。
【0020】
請求項10に係る発明は、コンピュータを、ユーザから、画像中の複数の領域についての順序の指定を受け付ける受付手段、前記複数の領域の各々についての電子化データを前記順序に従って配列した、前記画像に対応する出力データを生成する生成手段、画面上に表示した前記画像上で、前記出力データの出力形式の指定を受け付ける手段、として機能させるためのプログラムであって、前記生成手段は、前記ユーザによるタッチジェスチャにより描かれる軌道に応じて指定された前記出力形式の前記出力データを生成する、プログラムである。
【発明の効果】
【0021】
請求項1又は10に係る発明によれば、画像内の各領域の順序がその画像の内容から認識できない場合でも、それら各領域の情報をその順序に従って配列した出力データを生成できると共に、出力データの出力形式の指定を受け付けることができる。
【0022】
請求項2に係る発明によれば、各領域の順序を一つ一つ指定するよりも簡単な操作で、ユーザから順序の指定を受け付けることができる。
【0023】
請求項3に係る発明によれば、テンプレートが示す順序が具体的に画像の各領域をどのような順番で配列するものかを直感的に示すことができる。
【0024】
請求項4に係る発明によれば、テンプレートを固定的な優先順位で提示する場合よりも、対象の画像に適合したテンプレートを選びやすくすることができる。
【0025】
請求項5又は6に係る発明によれば、予め用意されたテンプレートを用いて順序の指定を受け付ける場合よりも、よりきめ細かい順序の指定を受け付けることができる。
【0026】
請求項7に係る発明によれば、画像中の、出力データに含めない領域の指定を受け付けることができる。
【0027】
請求項8に係る発明によれば、画像内の各領域をその領域の内容に応じた形式で電子化することができる。
【0029】
請求項9に係る発明によれば、出力データにおける複数の画像の順序を指定することができる。
【図面の簡単な説明】
【0030】
【
図1】実施形態の携帯端末の機能構成を例示する図である。
【
図2】アプリが実行する処理手順を例示する図である。
【
図4】画像にテンプレートをオーバーレイ表示した状態を例示する図である。
【
図5】画像中の非文字部分(空白部分)を示す図である。
【
図6】非文字部分を境界として画像を複数の領域に分割した結果を例示する図である。
【
図7】生成された電子文書中での各領域のテキストデータの配列順を示す図である。
【
図8】タッチジェスチャにより順序の指定を受け付ける機能を持つアプリの、処理手順を例示する図である。
【
図9】
図8の手順のS24及びS26の詳細な手順を例示する図である。
【
図11】画像を複数の領域に分割した状態を例示する図である。
【
図12】領域の順序を示すタッチジェスチャを説明するための図である。
【
図13】電子化対象から除外する領域を示すタッチジェスチャを説明するための図である。
【
図14】OCR処理せずに画像のまま取り込む画像取込領域を示すタッチジェスチャを説明するための図である。
【
図15】画像取込領域の画像と他の領域のOCR結果とから構成される電子文書を例示する図である。
【
図16】電子文書のデータ形式を指示するタッチジェスチャを説明するための図である。
【
図17】様々な指示のためのタッチジェスチャを受け付けるアプリの処理手順の一部を例示する図である。
【
図19】複数の画像の順序を指示するタッチジェスチャを説明するための図である。
【発明を実施するための形態】
【0031】
図1に、本発明の一実施形態である携帯端末100の機能構成を例示する。この携帯端末100は、例えば、コンピュータと、カメラ150と、タッチパネルディスプレイ170とを搭載したスマートフォン又はタブレット端末である。
【0032】
携帯端末100は、画像ストレージ160を含む。画像ストレージ160は、カメラ150で撮影された画像(すなわち写真画像)を保存するストレージ領域である。例えば、アップル社が提供するオペレーティングシステム「iOS(登録商標)」におけるカメラロールがその一例である。
【0033】
携帯端末100が搭載するコンピュータには、記入済みの面を撮影した画像を所定形式の電子文書へと電子化するアプリ(すなわちアプリケーションソフトウエア)110がインストールされている。記入済みの面は、例えば、手書き等の記入が行われた後のホワイトボードやメモ帳のページである。アプリ110が実行する画像の電子化には、その画像に含まれる文字画像をテキストデータに変換する処理が含まれる。なお、この明細書において「電子化」とは、対象の画像を、画像データの形式から、所定のデータ形式の電子文書へと変換することである。
【0034】
アプリ110は、機能モジュールとして、画像取得部112、表示制御部114、電子化制御部116、ジェスチャ認識部118、OCR部120、電子文書生成部122を含む。
【0035】
画像取得部112は、カメラ150又は画像ストレージ160から、電子化対象の画像を取得する。表示制御部114は、電子化対象の画像や、その画像の電子化の操作を受け付けるための画面を表示する制御を行う。電子化制御部116は、画像に対する電子化の処理全般を制御する。ジェスチャ認識部118は、タッチパネルディスプレイ170に対してユーザが行ったタッチジェスチャが示す、アプリ110に対する操作の内容を認識する。なお、タッチジェスチャは、タッチパネルディスプレイ170の画面に対してユーザが指先等で行うジェスチャである。
【0036】
OCR部120は、入力された画像に対してOCR、すなわち文字認識、の処理を実行する。なお、図示のようにアプリ110内にOCR部120を設ける代わりに、携帯端末100内の他のソフトウエアが有するOCR機能や、携帯端末100の外部、例えばインターネット上、のOCRサービスを利用してもよい。
【0037】
電子文書生成部122は、画像のOCR結果のテキストデータ等に基づき、その画像に対応する所定のデータ形式の電子文書を生成する。電子文書生成部122が生成する電子文書のデータ形式には、例えばPDF形式、Docuworks(登録商標)形式等があるが、これらに限定されるわけではない。
【0038】
図2を参照して、アプリ110による画像の電子化処理の手順の一例を説明する。
【0039】
ユーザが携帯端末100上でアプリ110を起動すると、そのアプリ110の表示制御部114がタッチパネルディスプレイ170にメニュー画面を表示する。このメニュー画面には、メニュー項目「電子化する画像を撮影」及び「ストレージから電子化する画像を選択」を含むいくつかのメニュー項目が表示される。
【0040】
メニュー画面上でユーザがメニュー項目「電子化する画像を撮影」を選択すると、アプリ110は、携帯端末100のOS(オペレーティングシステム)を介してカメラ150を起動する。ユーザは、タッチパネルディスプレイ170上に表示されるそのカメラ150が捉えている映像を見ながら、カメラ150でホワイトボード等の記入済みの面を撮影する。画像取得部112は、カメラ150が撮影した画像を、電子化対象の画像として取得する(S10)。
【0041】
またメニュー画面上でユーザがメニュー項目「ストレージから電子化する画像を選択」を選択すると、アプリ110は、携帯端末100のOSを介して、画像ストレージ160内の画像の一覧画面をタッチパネルディスプレイ170に表示する。ユーザは、その一覧画面内の画像の中から、電子化対象の画像を選択する。画像取得部112は、ユーザが選択した画像のファイルを、画像ストレージ160から取得する(S10)。
【0042】
なお、画像取得部112は、携帯端末100の外部にある画像ストレージ(例えば、クラウド上にある、そのユーザ用の画像ストレージ)から、電子化対象の画像を取得してもよい。
【0043】
表示制御部114は、画像取得部112が取得した電子化対象の画像をタッチパネルディスプレイ170に表示する。
【0044】
この表示の後、電子化制御部116は、ユーザからの指示を受け付ける。ユーザは、例えば、アプリ110が提供するメニュー画面から、メニュー項目「OCR実行」を選択することで、その画像に対するOCRの実行を指示することができる。アプリ110は、ユーザが入力した指示が、OCR実行であるか否かを判定する(S12)。ユーザからの指示がOCR実行でない(すなわちS12の判定結果がNo)場合は、アプリ110は、その指示に対応する処理(図示省略)を実行し、
図2の手順を終了する。
【0045】
S12の判定結果がYesの場合、アプリ110は、表示制御部114を介してタッチパネルディスプレイ170にテンプレート画面を表示する(S14)。テンプレート画面は、テンプレートを表示する画面である。テンプレートは、電子化対象の画像(例えばホワイトボードを撮影した画像)内に含まれる複数の領域をどの順序でOCR処理するかを規定するデータである。
【0046】
例えば、人々がホワイトボードにメモを記入しながら会議を進める場合、人々はホワイトボード上の空白の領域の中から随時自分が適切と思う領域を選び、その領域に手書き記入を行う。このような人々の記入行為により、記入後のホワイトボード上の画像は複数の領域に分割し得るものとなっている。それら複数の領域の記入内容の意味的な順序(例えばこれはそれら領域が記入された順序)は、その画像から一意に特定することはできない。
【0047】
その順序を規定するのがテンプレートである。
図2の例では、その順序を規定する複数のテンプレートの中から、電子化対象の画像に適したものをユーザが選択する。
【0048】
図3に、複数のテンプレート202~210を例示する。テンプレート202~210は、いずれも、ホワイトボード等の記入済みの面に対して横書きで記入が行われていることを想定したものである。テンプレート202は、電子化対象の画像が、上から下に読み取られるべき1列の領域から構成されることを示している。テンプレート204は、画像が、左から順に読み取られるべき2列の領域から構成されることを示している。テンプレート206は、画像が、右から順に読み取られるべき2列の領域から構成されることを示している。また、テンプレート208は、画像が、左から順に読み取られるべき3列の領域から構成されることを、テンプレート210は、画像が、右から順に読み取られるべき3列の領域から構成されることを、それぞれ示している。
【0049】
図3に示したテンプレート202~210はあくまで例示的なものにすぎない。この他にも、縦書き対応のテンプレートなど、他の種類のテンプレートがあってもよい。
【0050】
S14で表示されるテンプレート画面は、例えば
図3に例示したテンプレート202~210を一覧表示するものであってもよい。ユーザは、その一覧表示の中から、電子化対象の画像に適用するテンプレートを選択する。
【0051】
また別の例として、S14では、
図4に例示する様に、タッチパネルディスプレイ170上に表示された電子化対象の画像300に対して、テンプレートをオーバーレイ表示してもよい。このオーバーレイ表示では、テンプレートの下に画像300が透けて見える。図中の矢印212-1及び212-2は、
図3に例示したテンプレート206を示すマークである。画像300にオーバーレイするテンプレートは、例えばタッチパネルディスプレイ170に対するフリック操作等の所定操作により、別のテンプレートに切り替わる。ユーザは、画像300に対してオーバーレイ表示されたテンプレートのマークから、そのテンプレートが画像300に対して適切なものであるかを判断する。そして、そのテンプレートが適切なものであれば、例えばタッチパネルディスプレイ170を2回続けてタップする等の所定操作により、そのテンプレートを選択する。
【0052】
電子化制御部116は、ユーザからのテンプレートの選択を受け付け(S16)、そのテンプレートに従って電子化対象の画像のレイアウトを解析する(S18)。すなわち、その画像をそのテンプレートに従って複数の領域に分割し、それら複数の領域の順序をそのテンプレートから特定する。そして、電子化制御部116は、それら各領域の画像を、テンプレートに従ったレイアウト解析結果により特定した順序で、OCR部120に入力する(S20)。
【0053】
例えば、
図4に例示した2列のテンプレートが選択された場合、電子化制御部116は、電子化対象の画像300を2列の領域に分割する。この領域分割では、画像300中に含まれる手書きで記入された線や、その画像300中の連続する非文字部分を区切りとして、画像300を複数の領域に分割する。ここで、非文字部分は、画像300中の空白の領域、又は文字以外の記入内容(例えば図形)のみの領域である。
図5に例示するように、画像300の横方向についての中央近傍には、縦方向に連続的に延びる非文字部分302がある。S18の処理では、
図6に示すように、この非文字部分302により、画像300は左右2つの領域310-1及び310-2に分割される。そして、S20では、
図4のテンプレート(すなわち
図3のテンプレート206)が示す順序に従い、まず領域310-2の画像がOCR部120に入力され、次に領域310-1の画像がOCR部120に入力される。
【0054】
OCR部120は、順に入力される各領域の画像に対して、公知のOCR処理を行う。OCR部120は、OCR処理の結果得られたテキストデータを電子化制御部116に返す。
【0055】
例えば、
図4に例示したテンプレートが選ばれている場合、各領域内の手書き記入の文字列は横書きである。すなわち、テンプレートの矢印212-1、212-2は、記入された文字列の行が進行する方向を示すので、その矢印に直行する方向である横方向が、行内の文字の並びの方向である。この場合、電子化制御部116は、OCR部120に対して横書きを想定してOCR処理を行うよう指示する。OCR部120は、領域310-2の画像、領域310-1の画像に対して順にOCR処理を行い、その結果得られた領域310-2のテキストデータ、領域310-1のテキストデータを電子化制御部116に返す。
【0056】
電子化制御部116は、OCR部120から順に返されてきたテキストデータを、電子文書生成部122に渡す。電子文書生成部122は、入力されたテキストデータを含んだ、所定の(すなわち予め定められた)データ形式のファイル(すなわち電子文書)を生成する(S22)。生成する電子文書のデータ形式は、ユーザが選択できるようにしてもよい。
【0057】
例えば、画像300に対して
図4に例示したテンプレートが選択された場合、
図7に示すように、先頭の行から順に領域310-2のテキストデータ及び領域310-1のテキストデータが並んだ電子文書350が生成される。
【0058】
以上に説明した例では、ユーザが、テンプレートを選択することにより、電子化対象の画像をどの順にOCR処理するかを指定する。アプリ110は、選択されたテンプレートが示す順序に従って各領域をOCR処理することにより、それら各領域のOCR結果がその順序に配列された電子文書を生成する。
【0059】
以上に説明した例において、テンプレート画面を表示し(S14)、ユーザからテンプレートの選択を受け付ける(S16)処理が「ユーザから、画像中の複数の領域についての順序の指定を受け付ける受付手段」の一例である。また、電子文書生成部122は、「前記複数の領域の各々についての電子化データを前記順序に従って配列した、前記画像に対応する出力データを生成する生成手段」の一例である。また、画像300を分割して得られる各領域310-1及び310-2のOCR結果のテキストデータは、それら領域の「電子化データ」の一例である。
【0060】
以上の例において、S14のテンプレート画面においてユーザに提示するテンプレートの優先順位を、電子化対象の画像の領域構成に従って決定してもよい。アプリ110は、例えば
図5に例示した画像300を取得(S10)した場合、テンプレート画面の表示(S14)の前にその画像300を解析する。これにより、その画像300が、非文字部分302により2つの領域310-1及び310-2に分割できることが分かる。アプリ110が持つ複数のテンプレート202~210(
図3参照)のうち、横に2分割された領域310-1及び310-2に適合するのは、テンプレート204及び206である。そこで、これらテンプレート204及び206を、他のテンプレート202、208~210よりも高い優先順位でユーザに提示する。例えばテンプレート202~210の一覧表示を提供する例では、その一覧表示の上から順にテンプレート204及び206を表示し、その下に残りのテンプレート202、208~210を表示する。また、画像300にオーバーレイ表示するテンプレートをフリック操作で切り替える例では、画像300に最初にオーバーレイされるテンプレートをテンプレート204又は206の一方とする。そして、フリック操作により、オーバーレイされるテンプレートがもう一方に切り替わり、更にフリック操作することにより、他のテンプレート202、208~210のいずれかに切り替わる。
【0061】
<タッチジェスチャによる順序指示の例>
次に、
図8~
図12を参照して、電子化対象の画像内の領域の順序を、タッチパネルディスプレイ170に対するタッチジェスチャにより指定する機能を有するアプリ110の例を説明する。
【0062】
図8は、この例のアプリ110が実行する処理手順を示す。
図8において、
図2の処理手順と同様のステップには同一の符号を付して説明を省略する。
【0063】
図8の手順では、アプリ110の電子化制御部116は、S12とS14の間に、領域の順序の指示のためにテンプレートを使用するか否かの指示をユーザから受け付ける(S13)。ユーザからの指示がテンプレートを利用する旨のものである場合は、電子化制御部116は、
図2の手順と同様S14~S22のステップ群を実行する。
【0064】
S13の判定結果がNoの場合、電子化制御部116は、画像内の領域群の認識順序を指示するジェスチャを受け付けるモードに移行する(S24)。このモードでは、ユーザはタッチパネルディスプレイ170の表面を指先でなぞるタッチジェスチャを行うことにより、それら認識領域群の順序を指示する。ジェスチャ認識部118は、ユーザのタッチジェスチャを認識し、電子化制御部116は、その認識されたタッチジェスチャに応じてその画像のレイアウトを解析する(S26)。その後は、
図2の手順と同様、S20及びS22の処理が実行される。
【0065】
図9に、S24及びS26の処理の詳細な例を示す。この手順では、電子化制御部116は、電子化対象の画像を、その画像に含まれる線や非文字部分を分割の境界として、複数の領域に分割する(S30)。また、ジェスチャ認識部118は、タッチパネルディスプレイ170の画面に対するタッチジェスチャの指先が描く軌道を認識する。複数のタッチジェスチャが順に行われた場合には、そのそれぞれのタッチジェスチャに対してその指先の軌道を認識する(S32)。
【0066】
電子化制御部116は、個々のタッチジェスチャの指先の軌道と、それらタッチジェスチャの入力順に基づき、画像内の各領域の順序を判定する(S34)。すなわち、例えば、1つのタッチジェスチャの軌道(すなわち指先が画面に接触してから次に画面から離れるまでの指先の軌道)が通る領域群の順序を、その軌道上を指先が進む順とし、その順序を、タッチジェスチャの入力順に並べる。これにより、一連のタッチジェスチャが示す、領域の順序が求められる。
【0067】
そして電子化制御部116は、S30で求めた領域群の情報と、S34で判定したそれら領域の順序を、レイアウト解析結果として求める(S36)。
【0068】
このあと電子化制御部116は、そのレイアウト解析結果が示す順序で、各領域の画像をOCR部120に入力する(S20)。そして、OCR部120から出力されるテキストデータをその出力の順に並べたものを、所定のデータ形式で表現することにより、出力物である電子文書を生成する(S22)。
【0069】
以上に説明した
図9の処理の具体例を以下に示す。この具体例では、画像取得部112が、
図10に示す画像400を電子化対象として取得したとする。また、ユーザは、その画像についてのOCRの順序をテンプレートではなくタッチジェスチャで指定する旨の指示を入力したとする。
【0070】
図10に示す画像400は、ホワイトボードを撮影した画像であり、誰かがホワイトボードに手書きで記入した文字列402群の画像と、ホワイトボードの領域を区切るために誰かが書いた区切り線404の画像とを含んでいる。
【0071】
S30では、
図11に示すように、この画像400が、2つの区切り線404と、縦方向に延びる区切り線404の下方の非文字部分(すなわち文字の存在しない部分)406とにより、3つの領域410-1、410-2、及び410-3に分割される。
【0072】
S32で、この画像400を表示したタッチパネルディスプレイ170の画面に対して、携帯端末100のユーザが、
図12に示すように、タッチジェスチャ420-1を行い、そのあとタッチジェスチャ420-2を行ったとする。
図12及びタッチジェスチャを例示する以下の各図では、画面上を動くユーザの指先の軌道を、タッチジェスチャ420-1等として表現している。タッチジェスチャ420-1及び420-2は、ユーザの指先が図示した軌道の矢印の方向に進んだことを示している。例えばタッチジェスチャ420-1では、ユーザは、画像400の右半分の中央の上端にタッチした指先を下方に進め、下端近傍にて90度程度曲がって右方に指先を進めた後、指先を画面から離している。
【0073】
タッチジェスチャ420-1、420-2により、S34では、領域410-1が1番目、領域410-3が2番目、領域410-2が3番目、という順序が判定される。したがって、領域410-1、領域410-3、領域410-2の順に、OCR部120がOCR処理を実行する。そして、領域410-1、領域410-3、及び領域410-2のOCR結果のテキストデータがこの順に並んだ電子文書が生成される。
【0074】
図10等に示した例では、区切り線404は連続した線として示されていたが、電子化制御部116は、破線等の不連続な線も公知の技術により一連の区切り線と認識可能である。
【0075】
図8~
図12を参照して以上で説明した例では、ユーザは、タッチジェスチャにより、画像400内のOCRの実行順序を指定可能である。
【0076】
<順序指定以外の指示のためのタッチジェスチャ>
アプリ110は、以上に説明したOCR順序指定のタッチジェスチャだけでなく、他の指示のためのタッチジェスチャを受け付けてもよい。
【0077】
例えば、
図13に示す例では、画像400に対して、OCR順序を示すタッチジェスチャ420に加えて、電子化対象から除外する領域を指定するタッチジェスチャ422が行われている。この除外指示のタッチジェスチャ422は、指先がX字状の軌道を描くものである。すなわち、画面にタッチした指先で斜め方向に進む線分を描き、その後その線分と直角に近い方向に、その線分に交差する線分を指先で描くという動作が、その除外指示のタッチジェスチャ422となる。ジェスチャ認識部118は、このような除外指示のタッチジェスチャ422を認識する。そして、除外指示と、そのタッチジェスチャ422の画像400内での位置情報と、を電子化制御部116に通知する。このとき通知される位置情報は、例えば、X字状のタッチジェスチャ422を構成する2本の線分の両端点の座標の組(すなわち合計4つの座標からなる組)である。
【0078】
この通知を受けた電子化制御部116は、その通知に含まれる位置情報と、S30で行った領域分割の結果とに基づき、そのタッチジェスチャ422を含む領域を、電子化の対象から除外されたものと認識する。
図13の例では、
図11に示した領域410-3が、電子化対象から除外される。電子化対象から除外された領域の画像に由来する情報は、最終的に生成される電子文書には含まれない。
【0079】
また、
図14に示す例は、OCRせずに画像データのまま最終的な電子文書に取り込む領域を指示する、画像取込指示のタッチジェスチャ510を示している。
図14の例では、このタッチジェスチャ510が示す指先の軌道により囲まれる領域が、画像データのまま取り込む領域である。言い換えれば、画像取込指示のタッチジェスチャ510による指先の軌道は、ある領域を取り囲む閉曲線である。なおその軌道は、必ずしも完全な閉曲線を構成している必要はない。例えば、軌道の始点と終点との間に隙間があり、その軌道が完全に閉じていなくても、その隙間が例えば所定長さ以下であれば、始点と終点の間を補間して閉曲線と認識することが可能である。
【0080】
図14の例では、タッチジェスチャ510で囲まれる領域は、表形式になっているので、単純にOCRを適用すると表の構造の情報が失われてしまう。そこで、この例では、この領域については表の構造を含んだ画像データのまま最終的な電子文書に取り込むのである。なお、表形式以外に、図形や絵等のようにテキストとして認識されない画像要素を電子文書に組み込みたい場合にも、この画像取込指示のタッチジェスチャ510が利用される。
【0081】
図14の例では、画像500に対して、画像取込指示のジェスチャ510の他に、OCRの順序を指定するタッチジェスチャ520-1及び520-2が行われている。
【0082】
図14に例示したタッチジェスチャ510、520-1及び520-2に従ってアプリ110が生成する電子文書550の内容を、
図15に例示する。
図15に示す電子文書550には、画像取込指示のタッチジェスチャ510が示す領域の画像552の下に、OCR順序指定のタッチジェスチャ520-1及び520-2が示す順序でOCR結果のテキストデータ554-1、554-2が配列されている。電子文書550内での画像552と、テキストデータ554-1と554-2との位置関係は、元の画像500内でのそれら両者の領域同士の位置関係に基づいている。
【0083】
図15に例示した電子文書550内の画像552と、テキストデータ554-1及び554-2とは、ともに、元の画像500内の対応する領域の画像(すなわち元の画像に対する部分画像)を電子化した「電子化データ」の一例である。このように、アプリ110が実行する画像の「電子化」は、その画像内の各領域の部分画像を、それぞれユーザが指示した形式の電子化データに変換し、それら各領域の電子化データを配列して、所定のデータ形式のファイル(すなわち電子文書)を生成することである。
【0084】
図16に、電子文書生成部122が生成する電子文書のデータ形式を指定するタッチジェスチャ610を例示する。このタッチジェスチャ610は、画像600上で、PDF形式を示す「P」字形の軌道を指先で描くものである。電子文書生成部122が対応しているいくつかのデータ形式のそれぞれについて、そのデータ形式を示すタッチジェスチャの指先が描く記号や図形を定めておけばよい。
【0085】
図17及び
図18に、OCR順序指定のタッチジェスチャと、他の指示のタッチジェスチャの両方を受け付けるアプリ110の処理手順を例示する。
図17及び
図18に示す手順は、
図8に示した手順のS24及び26とその後に続くS20及びS22に置き換わるものである。なお、
図8の手順において、S13の判定結果がYesの場合のS14~S22の各ステップの処理は、上述したそれら各ステップの処理内容のままでよい。
【0086】
この例では、電子文書生成部122が、「P形式」と「D形式」という2つのデータ形式の電子文書を生成可能であるとする。
【0087】
図17に示す通り、S13の判定結果がNoの場合、電子化制御部116は、電子化対象の画像を、その画像に含まれる線や非文字部分により複数の領域に分割する(S30)。このステップは、
図9に示したS30と同様である。
【0088】
また、ジェスチャ認識部118は、タッチパネルディスプレイ170の画面に対して行われたタッチジェスチャを認識する(S42)。そして、ジェスチャ認識部118は、認識したタッチジェスチャが、除外指示を示すものか(S44)、画像取込指示を示すものか(S48)、電子文書の形式としてP形式を指示するものか(S52)、D形式を指示するものか(S56)、判定する。
【0089】
これらの判定において、S44(除外指示か?)の判定結果がYesの場合、電子化制御部116は、その除外指示のタッチジェスチャの位置及び範囲に対応する領域を、電子化対象から除外された領域として記憶する(S46)。また、S48の判定結果がYesの場合、電子化制御部116は、その画像取込指示のタッチジェスチャで囲まれた領域を画像取込対象の領域として記憶する(S50)。また、S52の判定結果がYesの場合、電子化制御部116は、電子文書生成部122が生成する電子文書のデータ形式をP形式に設定する(S54)。また、S56の判定結果がYesの場合、電子化制御部116は、電子文書生成部122が生成する電子文書のデータ形式をD形式に設定する(S58)。なお、データ形式を指定するタッチジェスチャが入力されなかった場合は、電子文書生成部122は、デフォルト設定のデータ形式の電子文書を生成する。
【0090】
S44、S48、S52、S56の判定結果が全てNoの場合、電子化制御部116は、S42で取得したタッチジェスチャがOCR順序指定であると認識する(S60)。
【0091】
そして電子化制御部116は、電子化対象の画像に対するタッチジェスチャによるOCR順序指定がすべて完了したか否かを判定する(S62)。ここでは、S30で分割した画像の領域のうち、S46で除外された領域として記憶された領域とS50で画像取込対象の領域として記憶された領域とを除いた残りの全ての領域の順序を決めるのに必要なOCR順序指定のタッチジェスチャが入力済みかを判定する。すなわち、S30の後、これまでに受け付けた1以上のOCR順序指定のタッチジェスチャの軌道が通る領域群が、それら残りの全ての領域をカバーしているか判定する。
【0092】
S62の判定結果がNoの場合、電子化制御部116は、S42に戻り、更なるタッチジェスチャの入力を受け付ける。S62の判定結果がYesの場合、電子化制御部116は、
図18の手順に進む。
【0093】
図18の手順では、電子化制御部116は、画像中の各領域のうち除外指示で除外された領域と画像取込対象に指定された領域を除いた残りの領域の順序を、受付済みのOCR順序指定のタッチジェスチャ群に基づき判定する(S34a)。このステップの処理は、
図9のS34と同様のものである。次に電子化制御部116は、S34aで判定した順序で領域を並べたものをレイアウト解析結果とし(S36)、この解析結果に従って各領域の画像をOCR部120に入力する(S20)。これらS36及びS20の処理は、
図8及び
図9の手順の場合と同様である。
【0094】
そして、電子化制御部116は、画像取込対象の領域の画像データと、OCR部120が順に出力するOCR結果のテキストデータとを電子文書生成部122に入力する。電子文書生成部122は、それら画像データとテキストデータとを含む電子文書を生成する(S22a)。このとき生成される電子文書には、S46で除外した領域の部分画像の内容を示すデータは含まれない。また、データ形式を指定するタッチジェスチャが行われていた場合は、電子文書生成部122は、S22aにて、そのタッチジェスチャが示す形式の電子文書を生成する。
【0095】
また、電子化対象の画像中の、特定の色で記入された文字や、特定の色の囲み線で囲まれた領域内の文字を、その画像内の他の記入内容と区別してもよい。すなわち、この例では、アプリ110は、電子化対象の画像中から特定の色で記入された文字や、特定の色の囲み線で囲まれた領域内の文字を検出した場合、それらの文字のOCR結果のテキストデータに対して、所定の強調属性を付与する。強調属性は、例えば文字の表示色を特定の色(例えば赤色)とする属性、或いは文字を太字で表示する属性などである。最終生成物である電子文書には、それら文字に対してその強調属性が付加されている。
【0096】
以上では、1つの画像を電子化する場合を説明したが、この他に、例えば画像ストレージ160等から複数の画像を選択し、それら複数の画像を続けて電子化し、1つの電子文書として出力する場合もあり得る。この場合、それら複数の画像の順序をタッチジェスチャによりユーザが指定してもよい。この順序を、1つの画像内の領域の順序と区別するために、「画像順序」と呼ぶ。
【0097】
図19に示す例では、複数の画像700及び710に対して、ユーザがタッチジェスチャで、画像順序における番号を示す数字702,712を描く。ジェスチャ認識部118が画像上に数字を描くタッチジェスチャを検出した場合、電子化制御部116は、その数字を、複数の画像内でのその画像の画像順序の番号と認識する。そして、電子化制御部116は、認識された各画像の番号を電子文書生成部122に通知する。電子文書生成部122は、各画像の各領域の電子化データ(すなわち画像取込領域の画像データ、又はOCR結果のテキストデータ)を、それら各画像の番号に応じた順に配列することにより、電子化文書を生成する。
【0098】
以上に説明した実施形態の携帯端末100は、携帯端末100が内蔵するコンピュータに上述のその携帯端末100を構成する要素群の機能を表すプログラムを実行させることにより実現される。ここで、コンピュータは、例えば、ハードウエアとして、プロセッサ、ランダムアクセスメモリ(RAM)等のメモリ(主記憶装置)、フラッシュメモリやSSD(ソリッドステートドライブ)、HDD(ハードディスクドライブ)等の補助記憶装置を制御するコントローラ、各種I/O(入出力)インタフェース、ローカルエリアネットワークなどのネットワークとの接続のための制御を行うネットワークインタフェース等が、たとえばバス等を介して接続された回路構成を有する。それら各機能の処理内容が記述されたプログラムがネットワーク等の経由で補助記憶装置に保存され、コンピュータにインストールされる。固定記憶装置に記憶されたプログラムがメモリに読み出されプロセッサにより実行されることにより、上に例示した機能モジュール群が実現される。
【0099】
ここでプロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ(例えばCPU:Central Processing Unit、等)や、専用のプロセッサ(例えばGPU:Graphics Processing Unit、 ASIC:Appliction Spesific Integrated Circuit、 FPGA:Field Programmable Gate Array、 プログラマブル論理デバイス、等)を含むものである。
【0100】
また、上記実施形態及び参考例におけるプロセッサの動作は、1つのプロセッサによってなすのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働してなすものであってもよい。また、プロセッサの各動作(すなわちプロセッサの動作により実現される
図1の各要素の処理動作)は、上記実施形態において記載した順序のみに限定されるものではなく、適宜に変更してもよい。
【0101】
以上では、携帯端末100として構成された実施形態を説明したが、本発明は、携帯端末100以外の情報処理装置(例えばパーソナルコンピュータ)として具現化することも可能である。
【符号の説明】
【0102】
100 携帯端末、110 アプリ、112 画像取得部、114 表示制御部、116 電子化制御部、118 ジェスチャ認識部、120 OCR部、122 電子文書生成部、150 カメラ、160 画像ストレージ、170 タッチパネルディスプレイ。