特許7408959 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士ゼロックス株式会社の特許一覧

特許7408959情報処理装置及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-12-25

(45)【発行日】2024-01-09

(54)【発明の名称】情報処理装置及びプログラム

(51)【国際特許分類】

G06F 3/04883 20220101AFI20231226BHJP

【ＦＩ】

G06F3/04883

【請求項の数】 10

(21)【出願番号】P 2019163139

(22)【出願日】2019-09-06

(65)【公開番号】P2021043531

(43)【公開日】2021-03-18

【審査請求日】2022-08-29

(73)【特許権者】

【識別番号】000005496

【氏名又は名称】富士フイルムビジネスイノベーション株式会社

(74)【代理人】

【識別番号】110001210

【氏名又は名称】弁理士法人ＹＫＩ国際特許事務所

(72)【発明者】

【氏名】松尾剛典

【審査官】宇佐田健二

(56)【参考文献】

【文献】特開平０９－００６９０１（ＪＰ，Ａ）

【文献】特開平１０－１４３６０６（ＪＰ，Ａ）

【文献】特開２００５－１７５６５３（ＪＰ，Ａ）

【文献】特開２００１－０８４２５４（ＪＰ，Ａ）

【文献】特開平０６－２６６８８９（ＪＰ，Ａ）

【文献】高山和良，“ＯＣＲソフト“徹底”活用テクニック表計算・ワープロに取り込む”，「日経ＰＣ２１２０００年３月号」，日本，日経ＢＰ社 Nikkei Business Publications,Inc.，2000年03月01日，第5巻，第5号，pp.44-47

【文献】しだみえ，“ソフト買いたい新書第８回”，「ＹＯＭＩＵＲＩＰＣ２００６年９月号」，日本，読売新聞東京本社，2006年09月01日，第11巻，第9号，pp.76-79

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ３／０１，３／０４８－３／０４８９５

Ｇ０６Ｖ３０／１４，３０／２４，３０／４１

(57)【特許請求の範囲】

【請求項1】

ユーザから、画像中の複数の領域についての順序の指定を受け付ける受付手段と、
前記複数の領域の各々についての電子化データを前記順序に従って配列した、前記画像に対応する出力データを生成する生成手段と、
画面上に表示した前記画像上で、前記出力データの出力形式の指定を受け付ける手段と、
を含み、
前記生成手段は、前記ユーザによるタッチジェスチャにより描かれる軌道に応じて指定された前記出力形式の前記出力データを生成する、情報処理装置。

【請求項2】

前記受付手段は、前記順序を規定する複数のテンプレートのうち前記画像に適用するテンプレートの選択を前記ユーザから受け付ける、請求項１に記載の情報処理装置。

【請求項3】

前記受付手段は、前記画面上に表示した前記画像の上に、前記画像が見える形態で前記テンプレートを重ねて表示し、表示した前記テンプレートを前記画像に適用するか否かの指示を前記ユーザから受け付ける、請求項２に記載の情報処理装置。

【請求項4】

前記情報処理装置は、前記画像に含まれる線又は非文字部分により前記画像を前記複数の領域に分割する分割手段を更に含み、
前記受付手段は、前記複数のテンプレートのうち、前記分割手段により分割された前記複数の領域の配置パターンに適合するテンプレートから優先的に、選択対象としてユーザに提示する、請求項２又は３に記載の情報処理装置。

【請求項5】

前記受付手段は、前記画面上に表示した前記画像上で、前記複数の領域についての前記順序の指定を受け付ける、請求項１に記載の情報処理装置。

【請求項6】

前記受付手段は、前記画面上に表示した前記画像の前記複数の領域を前記順序に従って通るタッチジェスチャにより、前記順序の指定を受け付ける、請求項５に記載の情報処理装置。

【請求項7】

前記受付手段は、前記画面上に表示した前記画像上で、前記複数の領域のうち電子化不要の領域の指定を更に受け付け、
前記生成手段は、前記電子化不要の領域に指定された領域のデータを含まない前記出力データを生成する、請求項５又は６に記載の情報処理装置。

【請求項8】

前記受付手段は、前記画面上に表示した前記画像上で、前記複数の領域のうち画像データとして取り込む領域である画像取込領域の指定を更に受け付け、
前記生成手段が生成する前記出力データは、前記複数の領域のうち前記画像取込領域については前記電子化データとして当該領域の画像データを含み、前記複数の領域のうち前記画像取込領域以外の領域については当該領域の画像に対する文字認識結果のテキストデータを前記電子化データとして含む、請求項５～７のいずれか１項に記載の情報処理装置。

【請求項9】

複数の画像についての順序である画像順序の指定を受け付ける手段、を更に含み、
前記受付手段は、前記複数の画像の各々について、当該画像中の複数の領域についての前記順序の指定を受け付け、
前記生成手段は、前記複数の画像の各々についての前記出力データを前記画像順序に従って配列することにより、前記複数の画像についての出力データを生成する、請求項１～８のいずれか１項に記載の情報処理装置。

【請求項10】

コンピュータを、
ユーザから、画像中の複数の領域についての順序の指定を受け付ける受付手段、
前記複数の領域の各々についての電子化データを前記順序に従って配列した、前記画像に対応する出力データを生成する生成手段、
画面上に表示した前記画像上で、前記出力データの出力形式の指定を受け付ける手段、
として機能させるためのプログラムであって、
前記生成手段は、前記ユーザによるタッチジェスチャにより描かれる軌道に応じて指定された前記出力形式の前記出力データを生成する、プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置及びプログラムに関する。

【背景技術】

【0002】

ホワイトボードを用いた議論等では、一人又は複数のユーザが自由な場所に自由なタイミングで記入を行う。また、その議論に用いたホワイトボードの画像を撮影し、議事録として残すことがよく行われている。しかし、ホワイトボード上の情報は自由なレイアウトで記入されているので、その画像だけを見ても議論の流れが分からない場合が多く、記入された情報のうちのどれが最終結論なのかが判然としない場合すらある。

【0003】

従来、ホワイトボード又はタッチパネルディスプレイに対して手書き記入された文字をリアルタイムで認識し、テキストデータとして出力する装置が存在する。

【0004】

また、既存の手書き文字群に対して文字認識を行う技術として以下のものがある。

【0005】

特許文献１には、カルテ等の帳票の文字認識、及びこれに基づくデータエントリのために、帳票の投影画像に対するユーザの指のジェスチャを検出し、ジェスチャによりユーザの操作指示を検出する装置が記載されている。この装置は、画像中で認識する欄の指定、画像中の欄とエントリ対象の項目との対応付け、項目への属性値の追加、等の操作をジェスチャ等で受け付ける。

【0006】

特許文献２に開示されたテキストデータ出力ホワイトボードは、ホワイトボードの画像を格子状に区切り、各格子内の文字を認識する。この認識処理を、大きさの異なる複数の格子について行うことで、サイズ違いの文字をそれぞれ認識する。そして、認識された各文字、及び格子とずれている等の理由で認識できなかった画像を、行列位置フォーマットに当てはめることで、同一行に属する文字等を識別し、文字認識結果を行単位に分ける。

【先行技術文献】

【特許文献】

【0007】

【文献】特開２０１６－１６２３７２号公報

【文献】特開平９－１３０５２１号公報

【発明の概要】

【発明が解決しようとする課題】

【0008】

ホワイトボード等のように複数の記入内容の塊が自由なレイアウトで記入された記入面を撮影した画像を電子化する場合、従来の文字認識技術を単純に適用すると、個々の記入内容については従来の文字認識技術等で電子化可能である。しかし、従来の文字認識技術等の電子化技術では、それら複数の記入内容がどのような順序で記入されたかまでは判別不能なので、それら複数の記入内容を記入の順序に従って並べた議事録のような出力データを生成することはできない。

【0009】

本発明は、画像内の各領域の順序がその画像の内容から認識できない場合でも、それら各領域の情報をその順序に従って配列した出力データを生成できるようにすることを目的とする。

【課題を解決するための手段】

【0010】

請求項１に係る発明は、ユーザから、画像中の複数の領域についての順序の指定を受け付ける受付手段と、前記複数の領域の各々についての電子化データを前記順序に従って配列した、前記画像に対応する出力データを生成する生成手段と、画面上に表示した前記画像上で、前記出力データの出力形式の指定を受け付ける手段と、を含み、前記生成手段は、前記ユーザによるタッチジェスチャにより描かれる軌道に応じて指定された前記出力形式の前記出力データを生成する、情報処理装置である。

【0011】

請求項２に係る発明は、前記受付手段は、前記順序を規定する複数のテンプレートのうち前記画像に適用するテンプレートの選択を前記ユーザから受け付ける、請求項１に記載の情報処理装置である。

【0012】

請求項３に係る発明は、前記受付手段は、前記画面上に表示した前記画像の上に、前記画像が見える形態で前記テンプレートを重ねて表示し、表示した前記テンプレートを前記画像に適用するか否かの指示を前記ユーザから受け付ける、請求項２に記載の情報処理装置である。

【0013】

請求項４に係る発明は、前記情報処理装置は、前記画像に含まれる線又は非文字部分により前記画像を前記複数の領域に分割する分割手段を更に含み、前記受付手段は、前記複数のテンプレートのうち、前記分割手段により分割された前記複数の領域の配置パターンに適合するテンプレートから優先的に、選択対象としてユーザに提示する、請求項２又は３に記載の情報処理装置である。

【0014】

請求項５に係る発明は、前記受付手段は、前記画面上に表示した前記画像上で、前記複数の領域についての前記順序の指定を受け付ける、請求項１に記載の情報処理装置である。

【0015】

請求項６に係る発明は、前記受付手段は、前記画面上に表示した前記画像の前記複数の領域を前記順序に従って通るタッチジェスチャにより、前記順序の指定を受け付ける、請求項５に記載の情報処理装置である。

【0016】

請求項７に係る発明は、前記受付手段は、前記画面上に表示した前記画像上で、前記複数の領域のうち電子化不要の領域の指定を更に受け付け、前記生成手段は、前記電子化不要の領域に指定された領域のデータを含まない前記出力データを生成する、請求項５又は６に記載の情報処理装置である。

【0017】

請求項８に係る発明は、前記受付手段は、前記画面上に表示した前記画像上で、前記複数の領域のうち画像データとして取り込む領域である画像取込領域の指定を更に受け付け、前記生成手段が生成する前記出力データは、前記複数の領域のうち前記画像取込領域については前記電子化データとして当該領域の画像データを含み、前記複数の領域のうち前記画像取込領域以外の領域については当該領域の画像に対する文字認識結果のテキストデータを前記電子化データとして含む、請求項５～７のいずれか１項に記載の情報処理装置である。

【0019】

請求項９に係る発明は、複数の画像についての順序である画像順序の指定を受け付ける手段、を更に含み、前記受付手段は、前記複数の画像の各々について、当該画像中の複数の領域についての前記順序の指定を受け付け、前記生成手段は、前記複数の画像の各々についての前記出力データを前記画像順序に従って配列することにより、前記複数の画像についての出力データを生成する、請求項１～８のいずれか１項に記載の情報処理装置である。

【0020】

請求項１０に係る発明は、コンピュータを、ユーザから、画像中の複数の領域についての順序の指定を受け付ける受付手段、前記複数の領域の各々についての電子化データを前記順序に従って配列した、前記画像に対応する出力データを生成する生成手段、画面上に表示した前記画像上で、前記出力データの出力形式の指定を受け付ける手段、として機能させるためのプログラムであって、前記生成手段は、前記ユーザによるタッチジェスチャにより描かれる軌道に応じて指定された前記出力形式の前記出力データを生成する、プログラムである。

【発明の効果】

【0021】

請求項１又は１０に係る発明によれば、画像内の各領域の順序がその画像の内容から認識できない場合でも、それら各領域の情報をその順序に従って配列した出力データを生成できると共に、出力データの出力形式の指定を受け付けることができる。

【0022】

請求項２に係る発明によれば、各領域の順序を一つ一つ指定するよりも簡単な操作で、ユーザから順序の指定を受け付けることができる。

【0023】

請求項３に係る発明によれば、テンプレートが示す順序が具体的に画像の各領域をどのような順番で配列するものかを直感的に示すことができる。

【0024】

請求項４に係る発明によれば、テンプレートを固定的な優先順位で提示する場合よりも、対象の画像に適合したテンプレートを選びやすくすることができる。

【0025】

請求項５又は６に係る発明によれば、予め用意されたテンプレートを用いて順序の指定を受け付ける場合よりも、よりきめ細かい順序の指定を受け付けることができる。

【0026】

請求項７に係る発明によれば、画像中の、出力データに含めない領域の指定を受け付けることができる。

【0027】

請求項８に係る発明によれば、画像内の各領域をその領域の内容に応じた形式で電子化することができる。

【0029】

請求項９に係る発明によれば、出力データにおける複数の画像の順序を指定することができる。

【図面の簡単な説明】

【0030】

【図1】実施形態の携帯端末の機能構成を例示する図である。

【図2】アプリが実行する処理手順を例示する図である。

【図3】テンプレートを例示する図である。

【図4】画像にテンプレートをオーバーレイ表示した状態を例示する図である。

【図5】画像中の非文字部分（空白部分）を示す図である。

【図6】非文字部分を境界として画像を複数の領域に分割した結果を例示する図である。

【図7】生成された電子文書中での各領域のテキストデータの配列順を示す図である。

【図8】タッチジェスチャにより順序の指定を受け付ける機能を持つアプリの、処理手順を例示する図である。

【図9】図８の手順のＳ２４及びＳ２６の詳細な手順を例示する図である。

【図10】電子化対象の画像を例示する図である。

【図11】画像を複数の領域に分割した状態を例示する図である。

【図12】領域の順序を示すタッチジェスチャを説明するための図である。

【図13】電子化対象から除外する領域を示すタッチジェスチャを説明するための図である。

【図14】ＯＣＲ処理せずに画像のまま取り込む画像取込領域を示すタッチジェスチャを説明するための図である。

【図15】画像取込領域の画像と他の領域のＯＣＲ結果とから構成される電子文書を例示する図である。

【図16】電子文書のデータ形式を指示するタッチジェスチャを説明するための図である。

【図17】様々な指示のためのタッチジェスチャを受け付けるアプリの処理手順の一部を例示する図である。

【図18】図１７の手順の続きを示す図である。

【図19】複数の画像の順序を指示するタッチジェスチャを説明するための図である。

【発明を実施するための形態】

【0031】

図１に、本発明の一実施形態である携帯端末１００の機能構成を例示する。この携帯端末１００は、例えば、コンピュータと、カメラ１５０と、タッチパネルディスプレイ１７０とを搭載したスマートフォン又はタブレット端末である。

【0032】

携帯端末１００は、画像ストレージ１６０を含む。画像ストレージ１６０は、カメラ１５０で撮影された画像（すなわち写真画像）を保存するストレージ領域である。例えば、アップル社が提供するオペレーティングシステム「ｉＯＳ（登録商標）」におけるカメラロールがその一例である。

【0033】

携帯端末１００が搭載するコンピュータには、記入済みの面を撮影した画像を所定形式の電子文書へと電子化するアプリ（すなわちアプリケーションソフトウエア）１１０がインストールされている。記入済みの面は、例えば、手書き等の記入が行われた後のホワイトボードやメモ帳のページである。アプリ１１０が実行する画像の電子化には、その画像に含まれる文字画像をテキストデータに変換する処理が含まれる。なお、この明細書において「電子化」とは、対象の画像を、画像データの形式から、所定のデータ形式の電子文書へと変換することである。

【0034】

アプリ１１０は、機能モジュールとして、画像取得部１１２、表示制御部１１４、電子化制御部１１６、ジェスチャ認識部１１８、ＯＣＲ部１２０、電子文書生成部１２２を含む。

【0035】

画像取得部１１２は、カメラ１５０又は画像ストレージ１６０から、電子化対象の画像を取得する。表示制御部１１４は、電子化対象の画像や、その画像の電子化の操作を受け付けるための画面を表示する制御を行う。電子化制御部１１６は、画像に対する電子化の処理全般を制御する。ジェスチャ認識部１１８は、タッチパネルディスプレイ１７０に対してユーザが行ったタッチジェスチャが示す、アプリ１１０に対する操作の内容を認識する。なお、タッチジェスチャは、タッチパネルディスプレイ１７０の画面に対してユーザが指先等で行うジェスチャである。

【0036】

ＯＣＲ部１２０は、入力された画像に対してＯＣＲ、すなわち文字認識、の処理を実行する。なお、図示のようにアプリ１１０内にＯＣＲ部１２０を設ける代わりに、携帯端末１００内の他のソフトウエアが有するＯＣＲ機能や、携帯端末１００の外部、例えばインターネット上、のＯＣＲサービスを利用してもよい。

【0037】

電子文書生成部１２２は、画像のＯＣＲ結果のテキストデータ等に基づき、その画像に対応する所定のデータ形式の電子文書を生成する。電子文書生成部１２２が生成する電子文書のデータ形式には、例えばＰＤＦ形式、Ｄｏｃｕｗｏｒｋｓ（登録商標）形式等があるが、これらに限定されるわけではない。

【0038】

図２を参照して、アプリ１１０による画像の電子化処理の手順の一例を説明する。

【0039】

ユーザが携帯端末１００上でアプリ１１０を起動すると、そのアプリ１１０の表示制御部１１４がタッチパネルディスプレイ１７０にメニュー画面を表示する。このメニュー画面には、メニュー項目「電子化する画像を撮影」及び「ストレージから電子化する画像を選択」を含むいくつかのメニュー項目が表示される。

【0040】

メニュー画面上でユーザがメニュー項目「電子化する画像を撮影」を選択すると、アプリ１１０は、携帯端末１００のＯＳ（オペレーティングシステム）を介してカメラ１５０を起動する。ユーザは、タッチパネルディスプレイ１７０上に表示されるそのカメラ１５０が捉えている映像を見ながら、カメラ１５０でホワイトボード等の記入済みの面を撮影する。画像取得部１１２は、カメラ１５０が撮影した画像を、電子化対象の画像として取得する（Ｓ１０）。

【0041】

またメニュー画面上でユーザがメニュー項目「ストレージから電子化する画像を選択」を選択すると、アプリ１１０は、携帯端末１００のＯＳを介して、画像ストレージ１６０内の画像の一覧画面をタッチパネルディスプレイ１７０に表示する。ユーザは、その一覧画面内の画像の中から、電子化対象の画像を選択する。画像取得部１１２は、ユーザが選択した画像のファイルを、画像ストレージ１６０から取得する（Ｓ１０）。

【0042】

なお、画像取得部１１２は、携帯端末１００の外部にある画像ストレージ（例えば、クラウド上にある、そのユーザ用の画像ストレージ）から、電子化対象の画像を取得してもよい。

【0043】

表示制御部１１４は、画像取得部１１２が取得した電子化対象の画像をタッチパネルディスプレイ１７０に表示する。

【0044】

この表示の後、電子化制御部１１６は、ユーザからの指示を受け付ける。ユーザは、例えば、アプリ１１０が提供するメニュー画面から、メニュー項目「ＯＣＲ実行」を選択することで、その画像に対するＯＣＲの実行を指示することができる。アプリ１１０は、ユーザが入力した指示が、ＯＣＲ実行であるか否かを判定する（Ｓ１２）。ユーザからの指示がＯＣＲ実行でない（すなわちＳ１２の判定結果がＮｏ）場合は、アプリ１１０は、その指示に対応する処理（図示省略）を実行し、図２の手順を終了する。

【0045】

Ｓ１２の判定結果がＹｅｓの場合、アプリ１１０は、表示制御部１１４を介してタッチパネルディスプレイ１７０にテンプレート画面を表示する（Ｓ１４）。テンプレート画面は、テンプレートを表示する画面である。テンプレートは、電子化対象の画像（例えばホワイトボードを撮影した画像）内に含まれる複数の領域をどの順序でＯＣＲ処理するかを規定するデータである。

【0046】

例えば、人々がホワイトボードにメモを記入しながら会議を進める場合、人々はホワイトボード上の空白の領域の中から随時自分が適切と思う領域を選び、その領域に手書き記入を行う。このような人々の記入行為により、記入後のホワイトボード上の画像は複数の領域に分割し得るものとなっている。それら複数の領域の記入内容の意味的な順序（例えばこれはそれら領域が記入された順序）は、その画像から一意に特定することはできない。

【0047】

その順序を規定するのがテンプレートである。図２の例では、その順序を規定する複数のテンプレートの中から、電子化対象の画像に適したものをユーザが選択する。

【0048】

図３に、複数のテンプレート２０２～２１０を例示する。テンプレート２０２～２１０は、いずれも、ホワイトボード等の記入済みの面に対して横書きで記入が行われていることを想定したものである。テンプレート２０２は、電子化対象の画像が、上から下に読み取られるべき１列の領域から構成されることを示している。テンプレート２０４は、画像が、左から順に読み取られるべき２列の領域から構成されることを示している。テンプレート２０６は、画像が、右から順に読み取られるべき２列の領域から構成されることを示している。また、テンプレート２０８は、画像が、左から順に読み取られるべき３列の領域から構成されることを、テンプレート２１０は、画像が、右から順に読み取られるべき３列の領域から構成されることを、それぞれ示している。

【0049】

図３に示したテンプレート２０２～２１０はあくまで例示的なものにすぎない。この他にも、縦書き対応のテンプレートなど、他の種類のテンプレートがあってもよい。

【0050】

Ｓ１４で表示されるテンプレート画面は、例えば図３に例示したテンプレート２０２～２１０を一覧表示するものであってもよい。ユーザは、その一覧表示の中から、電子化対象の画像に適用するテンプレートを選択する。

【0051】

また別の例として、Ｓ１４では、図４に例示する様に、タッチパネルディスプレイ１７０上に表示された電子化対象の画像３００に対して、テンプレートをオーバーレイ表示してもよい。このオーバーレイ表示では、テンプレートの下に画像３００が透けて見える。図中の矢印２１２－１及び２１２－２は、図３に例示したテンプレート２０６を示すマークである。画像３００にオーバーレイするテンプレートは、例えばタッチパネルディスプレイ１７０に対するフリック操作等の所定操作により、別のテンプレートに切り替わる。ユーザは、画像３００に対してオーバーレイ表示されたテンプレートのマークから、そのテンプレートが画像３００に対して適切なものであるかを判断する。そして、そのテンプレートが適切なものであれば、例えばタッチパネルディスプレイ１７０を２回続けてタップする等の所定操作により、そのテンプレートを選択する。

【0052】

電子化制御部１１６は、ユーザからのテンプレートの選択を受け付け（Ｓ１６）、そのテンプレートに従って電子化対象の画像のレイアウトを解析する（Ｓ１８）。すなわち、その画像をそのテンプレートに従って複数の領域に分割し、それら複数の領域の順序をそのテンプレートから特定する。そして、電子化制御部１１６は、それら各領域の画像を、テンプレートに従ったレイアウト解析結果により特定した順序で、ＯＣＲ部１２０に入力する（Ｓ２０）。

【0053】

例えば、図４に例示した２列のテンプレートが選択された場合、電子化制御部１１６は、電子化対象の画像３００を２列の領域に分割する。この領域分割では、画像３００中に含まれる手書きで記入された線や、その画像３００中の連続する非文字部分を区切りとして、画像３００を複数の領域に分割する。ここで、非文字部分は、画像３００中の空白の領域、又は文字以外の記入内容（例えば図形）のみの領域である。図５に例示するように、画像３００の横方向についての中央近傍には、縦方向に連続的に延びる非文字部分３０２がある。Ｓ１８の処理では、図６に示すように、この非文字部分３０２により、画像３００は左右２つの領域３１０－１及び３１０－２に分割される。そして、Ｓ２０では、図４のテンプレート（すなわち図３のテンプレート２０６）が示す順序に従い、まず領域３１０－２の画像がＯＣＲ部１２０に入力され、次に領域３１０－１の画像がＯＣＲ部１２０に入力される。

【0054】

ＯＣＲ部１２０は、順に入力される各領域の画像に対して、公知のＯＣＲ処理を行う。ＯＣＲ部１２０は、ＯＣＲ処理の結果得られたテキストデータを電子化制御部１１６に返す。

【0055】

例えば、図４に例示したテンプレートが選ばれている場合、各領域内の手書き記入の文字列は横書きである。すなわち、テンプレートの矢印２１２－１、２１２－２は、記入された文字列の行が進行する方向を示すので、その矢印に直行する方向である横方向が、行内の文字の並びの方向である。この場合、電子化制御部１１６は、ＯＣＲ部１２０に対して横書きを想定してＯＣＲ処理を行うよう指示する。ＯＣＲ部１２０は、領域３１０－２の画像、領域３１０－１の画像に対して順にＯＣＲ処理を行い、その結果得られた領域３１０－２のテキストデータ、領域３１０－１のテキストデータを電子化制御部１１６に返す。

【0056】

電子化制御部１１６は、ＯＣＲ部１２０から順に返されてきたテキストデータを、電子文書生成部１２２に渡す。電子文書生成部１２２は、入力されたテキストデータを含んだ、所定の（すなわち予め定められた）データ形式のファイル（すなわち電子文書）を生成する（Ｓ２２）。生成する電子文書のデータ形式は、ユーザが選択できるようにしてもよい。

【0057】

例えば、画像３００に対して図４に例示したテンプレートが選択された場合、図７に示すように、先頭の行から順に領域３１０－２のテキストデータ及び領域３１０－１のテキストデータが並んだ電子文書３５０が生成される。

【0058】

以上に説明した例では、ユーザが、テンプレートを選択することにより、電子化対象の画像をどの順にＯＣＲ処理するかを指定する。アプリ１１０は、選択されたテンプレートが示す順序に従って各領域をＯＣＲ処理することにより、それら各領域のＯＣＲ結果がその順序に配列された電子文書を生成する。

【0059】

以上に説明した例において、テンプレート画面を表示し（Ｓ１４）、ユーザからテンプレートの選択を受け付ける（Ｓ１６）処理が「ユーザから、画像中の複数の領域についての順序の指定を受け付ける受付手段」の一例である。また、電子文書生成部１２２は、「前記複数の領域の各々についての電子化データを前記順序に従って配列した、前記画像に対応する出力データを生成する生成手段」の一例である。また、画像３００を分割して得られる各領域３１０－１及び３１０－２のＯＣＲ結果のテキストデータは、それら領域の「電子化データ」の一例である。

【0060】

以上の例において、Ｓ１４のテンプレート画面においてユーザに提示するテンプレートの優先順位を、電子化対象の画像の領域構成に従って決定してもよい。アプリ１１０は、例えば図５に例示した画像３００を取得（Ｓ１０）した場合、テンプレート画面の表示（Ｓ１４）の前にその画像３００を解析する。これにより、その画像３００が、非文字部分３０２により２つの領域３１０－１及び３１０－２に分割できることが分かる。アプリ１１０が持つ複数のテンプレート２０２～２１０（図３参照）のうち、横に２分割された領域３１０－１及び３１０－２に適合するのは、テンプレート２０４及び２０６である。そこで、これらテンプレート２０４及び２０６を、他のテンプレート２０２、２０８～２１０よりも高い優先順位でユーザに提示する。例えばテンプレート２０２～２１０の一覧表示を提供する例では、その一覧表示の上から順にテンプレート２０４及び２０６を表示し、その下に残りのテンプレート２０２、２０８～２１０を表示する。また、画像３００にオーバーレイ表示するテンプレートをフリック操作で切り替える例では、画像３００に最初にオーバーレイされるテンプレートをテンプレート２０４又は２０６の一方とする。そして、フリック操作により、オーバーレイされるテンプレートがもう一方に切り替わり、更にフリック操作することにより、他のテンプレート２０２、２０８～２１０のいずれかに切り替わる。

【0061】

＜タッチジェスチャによる順序指示の例＞
次に、図８～図１２を参照して、電子化対象の画像内の領域の順序を、タッチパネルディスプレイ１７０に対するタッチジェスチャにより指定する機能を有するアプリ１１０の例を説明する。

【0062】

図８は、この例のアプリ１１０が実行する処理手順を示す。図８において、図２の処理手順と同様のステップには同一の符号を付して説明を省略する。

【0063】

図８の手順では、アプリ１１０の電子化制御部１１６は、Ｓ１２とＳ１４の間に、領域の順序の指示のためにテンプレートを使用するか否かの指示をユーザから受け付ける（Ｓ１３）。ユーザからの指示がテンプレートを利用する旨のものである場合は、電子化制御部１１６は、図２の手順と同様Ｓ１４～Ｓ２２のステップ群を実行する。

【0064】

Ｓ１３の判定結果がＮｏの場合、電子化制御部１１６は、画像内の領域群の認識順序を指示するジェスチャを受け付けるモードに移行する（Ｓ２４）。このモードでは、ユーザはタッチパネルディスプレイ１７０の表面を指先でなぞるタッチジェスチャを行うことにより、それら認識領域群の順序を指示する。ジェスチャ認識部１１８は、ユーザのタッチジェスチャを認識し、電子化制御部１１６は、その認識されたタッチジェスチャに応じてその画像のレイアウトを解析する（Ｓ２６）。その後は、図２の手順と同様、Ｓ２０及びＳ２２の処理が実行される。

【0065】

図９に、Ｓ２４及びＳ２６の処理の詳細な例を示す。この手順では、電子化制御部１１６は、電子化対象の画像を、その画像に含まれる線や非文字部分を分割の境界として、複数の領域に分割する（Ｓ３０）。また、ジェスチャ認識部１１８は、タッチパネルディスプレイ１７０の画面に対するタッチジェスチャの指先が描く軌道を認識する。複数のタッチジェスチャが順に行われた場合には、そのそれぞれのタッチジェスチャに対してその指先の軌道を認識する（Ｓ３２）。

【0066】

電子化制御部１１６は、個々のタッチジェスチャの指先の軌道と、それらタッチジェスチャの入力順に基づき、画像内の各領域の順序を判定する（Ｓ３４）。すなわち、例えば、１つのタッチジェスチャの軌道（すなわち指先が画面に接触してから次に画面から離れるまでの指先の軌道）が通る領域群の順序を、その軌道上を指先が進む順とし、その順序を、タッチジェスチャの入力順に並べる。これにより、一連のタッチジェスチャが示す、領域の順序が求められる。

【0067】

そして電子化制御部１１６は、Ｓ３０で求めた領域群の情報と、Ｓ３４で判定したそれら領域の順序を、レイアウト解析結果として求める（Ｓ３６）。

【0068】

このあと電子化制御部１１６は、そのレイアウト解析結果が示す順序で、各領域の画像をＯＣＲ部１２０に入力する（Ｓ２０）。そして、ＯＣＲ部１２０から出力されるテキストデータをその出力の順に並べたものを、所定のデータ形式で表現することにより、出力物である電子文書を生成する（Ｓ２２）。

【0069】

以上に説明した図９の処理の具体例を以下に示す。この具体例では、画像取得部１１２が、図１０に示す画像４００を電子化対象として取得したとする。また、ユーザは、その画像についてのＯＣＲの順序をテンプレートではなくタッチジェスチャで指定する旨の指示を入力したとする。

【0070】

図１０に示す画像４００は、ホワイトボードを撮影した画像であり、誰かがホワイトボードに手書きで記入した文字列４０２群の画像と、ホワイトボードの領域を区切るために誰かが書いた区切り線４０４の画像とを含んでいる。

【0071】

Ｓ３０では、図１１に示すように、この画像４００が、２つの区切り線４０４と、縦方向に延びる区切り線４０４の下方の非文字部分（すなわち文字の存在しない部分）４０６とにより、３つの領域４１０－１、４１０－２、及び４１０－３に分割される。

【0072】

Ｓ３２で、この画像４００を表示したタッチパネルディスプレイ１７０の画面に対して、携帯端末１００のユーザが、図１２に示すように、タッチジェスチャ４２０－１を行い、そのあとタッチジェスチャ４２０－２を行ったとする。図１２及びタッチジェスチャを例示する以下の各図では、画面上を動くユーザの指先の軌道を、タッチジェスチャ４２０－１等として表現している。タッチジェスチャ４２０－１及び４２０－２は、ユーザの指先が図示した軌道の矢印の方向に進んだことを示している。例えばタッチジェスチャ４２０－１では、ユーザは、画像４００の右半分の中央の上端にタッチした指先を下方に進め、下端近傍にて９０度程度曲がって右方に指先を進めた後、指先を画面から離している。

【0073】

タッチジェスチャ４２０－１、４２０－２により、Ｓ３４では、領域４１０－１が１番目、領域４１０－３が２番目、領域４１０－２が３番目、という順序が判定される。したがって、領域４１０－１、領域４１０－３、領域４１０－２の順に、ＯＣＲ部１２０がＯＣＲ処理を実行する。そして、領域４１０－１、領域４１０－３、及び領域４１０－２のＯＣＲ結果のテキストデータがこの順に並んだ電子文書が生成される。

【0074】

図１０等に示した例では、区切り線４０４は連続した線として示されていたが、電子化制御部１１６は、破線等の不連続な線も公知の技術により一連の区切り線と認識可能である。

【0075】

図８～図１２を参照して以上で説明した例では、ユーザは、タッチジェスチャにより、画像４００内のＯＣＲの実行順序を指定可能である。

【0076】

＜順序指定以外の指示のためのタッチジェスチャ＞
アプリ１１０は、以上に説明したＯＣＲ順序指定のタッチジェスチャだけでなく、他の指示のためのタッチジェスチャを受け付けてもよい。

【0077】

例えば、図１３に示す例では、画像４００に対して、ＯＣＲ順序を示すタッチジェスチャ４２０に加えて、電子化対象から除外する領域を指定するタッチジェスチャ４２２が行われている。この除外指示のタッチジェスチャ４２２は、指先がＸ字状の軌道を描くものである。すなわち、画面にタッチした指先で斜め方向に進む線分を描き、その後その線分と直角に近い方向に、その線分に交差する線分を指先で描くという動作が、その除外指示のタッチジェスチャ４２２となる。ジェスチャ認識部１１８は、このような除外指示のタッチジェスチャ４２２を認識する。そして、除外指示と、そのタッチジェスチャ４２２の画像４００内での位置情報と、を電子化制御部１１６に通知する。このとき通知される位置情報は、例えば、Ｘ字状のタッチジェスチャ４２２を構成する２本の線分の両端点の座標の組（すなわち合計４つの座標からなる組）である。

【0078】

この通知を受けた電子化制御部１１６は、その通知に含まれる位置情報と、Ｓ３０で行った領域分割の結果とに基づき、そのタッチジェスチャ４２２を含む領域を、電子化の対象から除外されたものと認識する。図１３の例では、図１１に示した領域４１０－３が、電子化対象から除外される。電子化対象から除外された領域の画像に由来する情報は、最終的に生成される電子文書には含まれない。

【0079】

また、図１４に示す例は、ＯＣＲせずに画像データのまま最終的な電子文書に取り込む領域を指示する、画像取込指示のタッチジェスチャ５１０を示している。図１４の例では、このタッチジェスチャ５１０が示す指先の軌道により囲まれる領域が、画像データのまま取り込む領域である。言い換えれば、画像取込指示のタッチジェスチャ５１０による指先の軌道は、ある領域を取り囲む閉曲線である。なおその軌道は、必ずしも完全な閉曲線を構成している必要はない。例えば、軌道の始点と終点との間に隙間があり、その軌道が完全に閉じていなくても、その隙間が例えば所定長さ以下であれば、始点と終点の間を補間して閉曲線と認識することが可能である。

【0080】

図１４の例では、タッチジェスチャ５１０で囲まれる領域は、表形式になっているので、単純にＯＣＲを適用すると表の構造の情報が失われてしまう。そこで、この例では、この領域については表の構造を含んだ画像データのまま最終的な電子文書に取り込むのである。なお、表形式以外に、図形や絵等のようにテキストとして認識されない画像要素を電子文書に組み込みたい場合にも、この画像取込指示のタッチジェスチャ５１０が利用される。

【0081】

図１４の例では、画像５００に対して、画像取込指示のジェスチャ５１０の他に、ＯＣＲの順序を指定するタッチジェスチャ５２０－１及び５２０－２が行われている。

【0082】

図１４に例示したタッチジェスチャ５１０、５２０－１及び５２０－２に従ってアプリ１１０が生成する電子文書５５０の内容を、図１５に例示する。図１５に示す電子文書５５０には、画像取込指示のタッチジェスチャ５１０が示す領域の画像５５２の下に、ＯＣＲ順序指定のタッチジェスチャ５２０－１及び５２０－２が示す順序でＯＣＲ結果のテキストデータ５５４－１、５５４－２が配列されている。電子文書５５０内での画像５５２と、テキストデータ５５４－１と５５４－２との位置関係は、元の画像５００内でのそれら両者の領域同士の位置関係に基づいている。

【0083】

図１５に例示した電子文書５５０内の画像５５２と、テキストデータ５５４－１及び５５４－２とは、ともに、元の画像５００内の対応する領域の画像（すなわち元の画像に対する部分画像）を電子化した「電子化データ」の一例である。このように、アプリ１１０が実行する画像の「電子化」は、その画像内の各領域の部分画像を、それぞれユーザが指示した形式の電子化データに変換し、それら各領域の電子化データを配列して、所定のデータ形式のファイル（すなわち電子文書）を生成することである。

【0084】

図１６に、電子文書生成部１２２が生成する電子文書のデータ形式を指定するタッチジェスチャ６１０を例示する。このタッチジェスチャ６１０は、画像６００上で、ＰＤＦ形式を示す「Ｐ」字形の軌道を指先で描くものである。電子文書生成部１２２が対応しているいくつかのデータ形式のそれぞれについて、そのデータ形式を示すタッチジェスチャの指先が描く記号や図形を定めておけばよい。

【0085】

図１７及び図１８に、ＯＣＲ順序指定のタッチジェスチャと、他の指示のタッチジェスチャの両方を受け付けるアプリ１１０の処理手順を例示する。図１７及び図１８に示す手順は、図８に示した手順のＳ２４及び２６とその後に続くＳ２０及びＳ２２に置き換わるものである。なお、図８の手順において、Ｓ１３の判定結果がＹｅｓの場合のＳ１４～Ｓ２２の各ステップの処理は、上述したそれら各ステップの処理内容のままでよい。

【0086】

この例では、電子文書生成部１２２が、「Ｐ形式」と「Ｄ形式」という２つのデータ形式の電子文書を生成可能であるとする。

【0087】

図１７に示す通り、Ｓ１３の判定結果がＮｏの場合、電子化制御部１１６は、電子化対象の画像を、その画像に含まれる線や非文字部分により複数の領域に分割する（Ｓ３０）。このステップは、図９に示したＳ３０と同様である。

【0088】

また、ジェスチャ認識部１１８は、タッチパネルディスプレイ１７０の画面に対して行われたタッチジェスチャを認識する（Ｓ４２）。そして、ジェスチャ認識部１１８は、認識したタッチジェスチャが、除外指示を示すものか（Ｓ４４）、画像取込指示を示すものか（Ｓ４８）、電子文書の形式としてＰ形式を指示するものか（Ｓ５２）、Ｄ形式を指示するものか（Ｓ５６）、判定する。

【0089】

これらの判定において、Ｓ４４（除外指示か？）の判定結果がＹｅｓの場合、電子化制御部１１６は、その除外指示のタッチジェスチャの位置及び範囲に対応する領域を、電子化対象から除外された領域として記憶する（Ｓ４６）。また、Ｓ４８の判定結果がＹｅｓの場合、電子化制御部１１６は、その画像取込指示のタッチジェスチャで囲まれた領域を画像取込対象の領域として記憶する（Ｓ５０）。また、Ｓ５２の判定結果がＹｅｓの場合、電子化制御部１１６は、電子文書生成部１２２が生成する電子文書のデータ形式をＰ形式に設定する（Ｓ５４）。また、Ｓ５６の判定結果がＹｅｓの場合、電子化制御部１１６は、電子文書生成部１２２が生成する電子文書のデータ形式をＤ形式に設定する（Ｓ５８）。なお、データ形式を指定するタッチジェスチャが入力されなかった場合は、電子文書生成部１２２は、デフォルト設定のデータ形式の電子文書を生成する。

【0090】

Ｓ４４、Ｓ４８、Ｓ５２、Ｓ５６の判定結果が全てＮｏの場合、電子化制御部１１６は、Ｓ４２で取得したタッチジェスチャがＯＣＲ順序指定であると認識する（Ｓ６０）。

【0091】

そして電子化制御部１１６は、電子化対象の画像に対するタッチジェスチャによるＯＣＲ順序指定がすべて完了したか否かを判定する（Ｓ６２）。ここでは、Ｓ３０で分割した画像の領域のうち、Ｓ４６で除外された領域として記憶された領域とＳ５０で画像取込対象の領域として記憶された領域とを除いた残りの全ての領域の順序を決めるのに必要なＯＣＲ順序指定のタッチジェスチャが入力済みかを判定する。すなわち、Ｓ３０の後、これまでに受け付けた１以上のＯＣＲ順序指定のタッチジェスチャの軌道が通る領域群が、それら残りの全ての領域をカバーしているか判定する。

【0092】

Ｓ６２の判定結果がＮｏの場合、電子化制御部１１６は、Ｓ４２に戻り、更なるタッチジェスチャの入力を受け付ける。Ｓ６２の判定結果がＹｅｓの場合、電子化制御部１１６は、図１８の手順に進む。

【0093】

図１８の手順では、電子化制御部１１６は、画像中の各領域のうち除外指示で除外された領域と画像取込対象に指定された領域を除いた残りの領域の順序を、受付済みのＯＣＲ順序指定のタッチジェスチャ群に基づき判定する（Ｓ３４ａ）。このステップの処理は、図９のＳ３４と同様のものである。次に電子化制御部１１６は、Ｓ３４ａで判定した順序で領域を並べたものをレイアウト解析結果とし（Ｓ３６）、この解析結果に従って各領域の画像をＯＣＲ部１２０に入力する（Ｓ２０）。これらＳ３６及びＳ２０の処理は、図８及び図９の手順の場合と同様である。

【0094】

そして、電子化制御部１１６は、画像取込対象の領域の画像データと、ＯＣＲ部１２０が順に出力するＯＣＲ結果のテキストデータとを電子文書生成部１２２に入力する。電子文書生成部１２２は、それら画像データとテキストデータとを含む電子文書を生成する（Ｓ２２ａ）。このとき生成される電子文書には、Ｓ４６で除外した領域の部分画像の内容を示すデータは含まれない。また、データ形式を指定するタッチジェスチャが行われていた場合は、電子文書生成部１２２は、Ｓ２２ａにて、そのタッチジェスチャが示す形式の電子文書を生成する。

【0095】

また、電子化対象の画像中の、特定の色で記入された文字や、特定の色の囲み線で囲まれた領域内の文字を、その画像内の他の記入内容と区別してもよい。すなわち、この例では、アプリ１１０は、電子化対象の画像中から特定の色で記入された文字や、特定の色の囲み線で囲まれた領域内の文字を検出した場合、それらの文字のＯＣＲ結果のテキストデータに対して、所定の強調属性を付与する。強調属性は、例えば文字の表示色を特定の色（例えば赤色）とする属性、或いは文字を太字で表示する属性などである。最終生成物である電子文書には、それら文字に対してその強調属性が付加されている。

【0096】

以上では、１つの画像を電子化する場合を説明したが、この他に、例えば画像ストレージ１６０等から複数の画像を選択し、それら複数の画像を続けて電子化し、１つの電子文書として出力する場合もあり得る。この場合、それら複数の画像の順序をタッチジェスチャによりユーザが指定してもよい。この順序を、１つの画像内の領域の順序と区別するために、「画像順序」と呼ぶ。

【0097】

図１９に示す例では、複数の画像７００及び７１０に対して、ユーザがタッチジェスチャで、画像順序における番号を示す数字７０２，７１２を描く。ジェスチャ認識部１１８が画像上に数字を描くタッチジェスチャを検出した場合、電子化制御部１１６は、その数字を、複数の画像内でのその画像の画像順序の番号と認識する。そして、電子化制御部１１６は、認識された各画像の番号を電子文書生成部１２２に通知する。電子文書生成部１２２は、各画像の各領域の電子化データ（すなわち画像取込領域の画像データ、又はＯＣＲ結果のテキストデータ）を、それら各画像の番号に応じた順に配列することにより、電子化文書を生成する。

【0098】

以上に説明した実施形態の携帯端末１００は、携帯端末１００が内蔵するコンピュータに上述のその携帯端末１００を構成する要素群の機能を表すプログラムを実行させることにより実現される。ここで、コンピュータは、例えば、ハードウエアとして、プロセッサ、ランダムアクセスメモリ（ＲＡＭ）等のメモリ（主記憶装置）、フラッシュメモリやＳＳＤ（ソリッドステートドライブ）、ＨＤＤ（ハードディスクドライブ）等の補助記憶装置を制御するコントローラ、各種Ｉ／Ｏ（入出力）インタフェース、ローカルエリアネットワークなどのネットワークとの接続のための制御を行うネットワークインタフェース等が、たとえばバス等を介して接続された回路構成を有する。それら各機能の処理内容が記述されたプログラムがネットワーク等の経由で補助記憶装置に保存され、コンピュータにインストールされる。固定記憶装置に記憶されたプログラムがメモリに読み出されプロセッサにより実行されることにより、上に例示した機能モジュール群が実現される。

【0099】

ここでプロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ（例えばＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、等）や、専用のプロセッサ（例えばＧＰＵ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＡＳＩＣ：ＡｐｐｌｉｃｔｉｏｎＳｐｅｓｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＦＰＧＡ：ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、プログラマブル論理デバイス、等）を含むものである。

【0100】

また、上記実施形態及び参考例におけるプロセッサの動作は、１つのプロセッサによってなすのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働してなすものであってもよい。また、プロセッサの各動作（すなわちプロセッサの動作により実現される図１の各要素の処理動作）は、上記実施形態において記載した順序のみに限定されるものではなく、適宜に変更してもよい。

【0101】

以上では、携帯端末１００として構成された実施形態を説明したが、本発明は、携帯端末１００以外の情報処理装置（例えばパーソナルコンピュータ）として具現化することも可能である。

【符号の説明】

【0102】

１００携帯端末、１１０アプリ、１１２画像取得部、１１４表示制御部、１１６電子化制御部、１１８ジェスチャ認識部、１２０ＯＣＲ部、１２２電子文書生成部、１５０カメラ、１６０画像ストレージ、１７０タッチパネルディスプレイ。

【図1】