(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-06-07
(54)【発明の名称】デジタル記録を管理するシステムおよび方法
(51)【国際特許分類】
H04N 1/00 20060101AFI20230531BHJP
G06F 3/0481 20220101ALI20230531BHJP
G06F 3/01 20060101ALI20230531BHJP
G06T 3/00 20060101ALI20230531BHJP
G06F 16/583 20190101ALI20230531BHJP
【FI】
H04N1/00 127A
G06F3/0481
G06F3/01 560
G06T3/00 770
G06F16/583
H04N1/00 350
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022565987
(86)(22)【出願日】2021-04-29
(85)【翻訳文提出日】2022-10-28
(86)【国際出願番号】 IB2021053573
(87)【国際公開番号】W WO2021220213
(87)【国際公開日】2021-11-04
(32)【優先日】2020-05-01
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】505005049
【氏名又は名称】スリーエム イノベイティブ プロパティズ カンパニー
(74)【代理人】
【識別番号】100130339
【氏名又は名称】藤井 憲
(74)【代理人】
【識別番号】100135909
【氏名又は名称】野村 和歌子
(74)【代理人】
【識別番号】100133042
【氏名又は名称】佃 誠玄
(74)【代理人】
【識別番号】100171701
【氏名又は名称】浅村 敬一
(72)【発明者】
【氏名】アクセルソン,ポンタス
(72)【発明者】
【氏名】アンスマン イエッツ,ニクラス アー.
(72)【発明者】
【氏名】ペーション,ローランド
(72)【発明者】
【氏名】アカーランド,アルフ リーナス
(72)【発明者】
【氏名】ヤールバーグ,アンダース エフ.
(72)【発明者】
【氏名】ロトシュタイン,ミカエル
(72)【発明者】
【氏名】カールソン,ジョン エー.
【テーマコード(参考)】
5B057
5B175
5C062
5E555
【Fターム(参考)】
5B057CA08
5B057CA12
5B057CA16
5B057CB08
5B057CB12
5B057CB16
5B057CD11
5B057DA17
5B057DB02
5B057DB09
5B057DC08
5B057DC22
5B175DA02
5B175FB02
5B175GA03
5C062AA14
5C062AB23
5C062AB26
5C062AB38
5C062AB41
5C062AB42
5C062AC05
5C062AC22
5C062AC23
5C062AC24
5C062AC38
5C062AE08
5E555AA26
5E555AA76
5E555BA02
5E555BA05
5E555BA06
5E555BA38
5E555BA72
5E555BB02
5E555BB05
5E555BB06
5E555BB38
5E555BC04
5E555CA24
5E555CA42
5E555CA48
5E555CB02
5E555CB44
5E555CB49
5E555CC17
5E555CC20
5E555DA01
5E555DA21
5E555DA24
5E555DB18
5E555DB37
5E555DB41
5E555DB53
5E555DB57
5E555DC11
5E555DC13
5E555DC18
5E555DC21
5E555DC30
5E555DC35
5E555DC85
5E555EA11
5E555EA22
5E555EA24
5E555FA00
(57)【要約】
物理的記録のデジタル記録または画像のいずれかを管理するための方法である。この方法は、光学的文字認識を使用して、手書きコンテンツを文字およびアイコンに変換する。この方法はまた、カメラによって様々な角度から撮像された場合の正方形ではない物理的記録のサイズを決定する。角部が欠損した記録などの、屈曲した記録または破損した記録では、この方法は、画像内の物理的記録の縁部を検出して処理し、検出した縁部を使用して、物理的記録の画像を、屈曲または破損のない対応するデジタル記録に変換する。
【特許請求の範囲】
【請求項1】
記録を管理する方法であって、プロセッサによって実行される、
各々が手書きコンテンツの画像を含む複数のデジタル記録を受信するステップと、
前記複数のデジタル記録を単一の電子文書に組み立てるステップと、
前記手書きコンテンツを文字に変換するために、前記電子文書を光学的文字認識(OCR)サービスまたは前記OCRを使用するためのアプリケーションに送信するステップと、
前記OCRを使用して前記手書きコンテンツを文字に変換した結果を有する前記電子文書を前記OCRサービスまたはアプリケーションから受信するステップと、
前記電子文書から前記複数のデジタル記録を電子的に分離して、前記OCRの前記結果を、対応する前記手書きコンテンツを有する前記デジタル記録に割り当てるステップと、
を含む方法。
【請求項2】
前記組み立てるステップが、前記複数のデジタル記録をグリッドに組み立てるステップを含む、請求項1に記載の方法。
【請求項3】
前記複数のデジタル記録を前記受信するステップが、対応する物理的記録の画像から変換された前記デジタル記録を受信するステップを含む、請求項1に記載の方法。
【請求項4】
前記結果がテキストを含む、請求項1に記載の方法。
【請求項5】
前記結果がアイコンを含む、請求項1に記載の方法。
【請求項6】
記録を管理する方法であって、プロセッサによって実行される、
デジタル記録を電子ディスプレイデバイスに表示するステップと、
前記デジタル記録を削除または消去するコマンドを受信するステップと、
前記コマンドに応答して、クシャクシャにされている前記デジタル記録のデジタル表現およびアニメーションを表示するステップと、
を含む方法。
【請求項7】
前記デジタル記録を前記表示するステップが、対応する物理的記録の画像から変換された前記デジタル記録を受信するステップを含む、請求項6に記載の方法。
【請求項8】
前記アニメーションの間に視覚効果を提供するステップをさらに含む、請求項6に記載の方法。
【請求項9】
前記視覚効果が、前記デジタル記録上のテクスチャを含む、請求項8に記載の方法。
【請求項10】
前記視覚効果が、前記デジタル記録上のシェーディングを含む、請求項8に記載の方法。
【請求項11】
前記アニメーションの間にクシャクシャ音の音響効果を提供するステップをさらに含む、請求項6に記載の方法。
【請求項12】
前記アニメーションの間に振動を介した触覚効果を提供するステップをさらに含む、請求項6に記載の方法。
【請求項13】
前記デジタル表現を前記表示するステップが、
前記デジタル記録を球体オブジェクト内に配置するステップと、
前記アニメーションの間に前記球体オブジェクトを縮小するステップと、
を含む、請求項6に記載の方法。
【請求項14】
記録を管理する方法であって、プロセッサによって実行される、
デジタル記録を電子ディスプレイデバイスに表示するステップと、
前記デジタル記録を削除または消去するコマンドを受信するステップと、
前記コマンドに応答して、クシャクシャにされている前記デジタル記録のデジタル表現およびアニメーションを表示するステップと、
前記アニメーションの少なくとも一部の間に、特定の音の音響効果と振動を介した触覚効果との両方を提供するステップと、
を含む方法。
【請求項15】
記録を管理する方法であって、プロセッサによって実行される、
非ゼロ角度から撮られた物理的記録の画像を受信するステップと、
前記画像内の前記物理的記録の角部を検出するステップと、
複数のカメラ角度に一致する投影に従って前記角部を再計算するステップと、
前記カメラ角度の各々において前記再計算するステップに基づいて前記角部のスコアを演算するステップと、
前記演算するステップに基づいて前記角部に対する投影角度を選択し、前記選択された投影角度における前記デジタル記録のアスペクト比に基づいて、前記デジタル記録のサイズを計算するステップと、
を含む方法。
【請求項16】
前記再計算するステップが、最大カメラ角度および最小カメラ角度を使用するステップを含む、請求項15に記載の方法。
【請求項17】
前記再計算するステップが、前記複数のカメラ角度間で角度を漸増させながら前記角部を再計算することを含む、請求項15に記載の方法。
【請求項18】
前記計算するステップが、
前記選択されたサイズについて、インチあたりのピクセル値を計算するステップと、
前記計算されたインチあたりのピクセル値と、前記選択されたサイズに対応する物理的記録の面積との差を求めるステップと、
を含む、請求項15に記載の方法。
【請求項19】
記録を管理する方法であって、プロセッサによって実行される、
物理的記録の画像を受信するステップと、
前記画像内の前記物理的記録の縁部を検出するステップと、
前記縁部内の第1のセグメントを選択するステップと、
前記第1のセグメントに関連して、前記縁部内の複数の他のセグメントを選択するステップと、
前記第1のセグメントおよび前記複数の他のセグメントを前記縁部に割り当てるステップと、
前記第1のセグメントおよび前記複数の他のセグメントに基づいて、前記縁部にラベル付けするステップと、
前記ラベルに基づいて、前記画像内の前記物理的記録が屈曲または破損しているか判断するステップと、
を含む、方法。
【請求項20】
前記縁部の前記ラベルが、直線状、内曲がり、および外曲がりから選択される、請求項19に記載の方法。
【請求項21】
前記判断するステップが、
前記物理的記録の両端の縁部が前記内曲がりまたは外曲がりのラベルを有する場合、前記物理的記録が屈曲記録であると判断するステップと、
前記物理的記録の両端の縁部が前記内曲がりまたは外曲がりのラベルを有さない場合、前記物理的記録が屈曲記録ではないと判断するステップと、
を含む、請求項20に記載の方法。
【請求項22】
内折りまたは外折りとラベル付けされた前記縁部の屈曲係数を決定するステップをさらに含み、前記屈曲係数が、前記対応する縁部の屈曲の量を示す値である、請求項20に記載の方法。
【請求項23】
請求項1~22に記載の方法のうちいずれかを実行するように構成されたプロセッサを含む、記録を管理するシステム。
【請求項24】
電子ディスプレイデバイス上にユーザインタフェースを表示する方法であって、前記ユーザインタフェースが、請求項6~14のいずれかに記載の方法に従ってクシャクシャにされている記録を表示する、方法。
【発明の詳細な説明】
【背景技術】
【0001】
アイデアおよび情報を記録、共有、および連絡する際に、紙の記録が広く使用されてきた。例えば共働セッション(例えば、ブレーンストーミングセッション)時に、参加者は再配置可能な付箋紙、ホワイトボード、または紙にアイデアを書き込んでから、互いに共有する。さらに、人々は一般に、一日を通して、その個人が忘れたくない情報またはコンテンツを記念しておくために記録を使用する。その他の例として、人々は、電話をかける、文書を修正する、またはタイムシートに記入するなど、将来に行うアクションまたはイベントのリマインダとして頻繁に記録を使用する。
【0002】
現在では、コンピュータユーザがデジタル形式でソフトウェアベースの記録を作成し、そのデジタル記録をコンピューティング環境内で利用できるようにするソフトウェアプログラムが存在する。例えば、コンピュータユーザは、デジタル記録を作成し、そのデジタル記録をコンピューティング環境によって提示される電子文書、デスクトップまたは電子ワークスペースに「添付する」ことができる。
【発明の概要】
【0003】
記録を管理する第1の方法が、各々が手書きコンテンツの画像を含む複数のデジタル記録を受信するステップと、複数のデジタル記録を単一の電子文書に組み立てるステップと、手書きコンテンツを文字に変換するために、電子文書を光学的文字認識(OCR)サービスまたはOCRを使用するためのアプリケーションに送信するステップと、OCRを使用して前記手書きコンテンツを文字に変換した結果を有する電子文書をOCRサービスまたはアプリケーションから受信するステップと、電子文書から複数のデジタル記録を電子的に分離して、OCRの結果を、対応する手書きコンテンツを有するデジタル記録に割り当てるステップと、を含む。
【0004】
記録を管理する第2の方法が、デジタル記録を電子ディスプレイデバイスに表示するステップと、デジタル記録を削除または消去するコマンドを受信するステップと、コマンドに応答して、クシャクシャに(crumple)されているデジタル記録のデジタル表現およびアニメーションを表示するステップと、を含む。
【0005】
記録を管理する第3の方法が、非ゼロ角度から撮られた物理的記録の画像を受信するステップと、画像内の物理的記録の角部を検出するステップと、複数のカメラ角度にマッチする投影に従って角部を再計算するステップと、カメラ角度の各々において再計算するステップに基づいて角部のスコアを演算するステップと、演算するステップに基づいて角部に対する投影角度を選択し、選択された投影角度におけるデジタル記録のアスペクト比に基づいて、デジタル記録のサイズを計算するステップと、を含む。
【0006】
記録を管理する第4の方法が、物理的記録の画像を受信するステップと、画像内の物理的記録の縁部を検出するステップと、縁部内の第1のセグメントを選択するステップと、第1のセグメントに関連して、縁部内の複数の他のセグメントを選択するステップと、第1のセグメントおよび複数の他のセグメントを縁部に割り当てるステップと、第1のセグメントおよび複数の他のセグメントに基づいて縁部にラベル付けするステップと、ラベルに基づいて、画像内の物理的記録が屈曲または破損しているか判断するステップと、を含む。
【図面の簡単な説明】
【0007】
【
図1A】モバイルデバイス上の画像取り込みデバイスを使用して、記録が置かれた作業場所の画像を撮影するユーザの一例を示す表現である。
【
図1B】モバイルデバイスの一例を示すブロック図である。
【
図1C】モバイルデバイス上で実行している記録管理アプリケーションの一例を示すブロック図である。
【
図2】対応するデジタル記録への記録の変換を行うために光学的文字認識を使用する方法のフローチャートである。
【
図3A】デジタル記録のクシャクシャ機能のフローチャートである。
【
図3B】クシャクシャにする3つの連続した段階における3Dモデルのワイヤフレームを示す画像である。
【
図3C】クシャクシャにする3つの連続した段階における3Dモデルのワイヤフレームを示す画像である。
【
図3D】クシャクシャにする3つの連続した段階における3Dモデルのワイヤフレームを示す画像である。
【
図3E】
図3B~
図3Dに示した3Dモデルに対応する一連の段階の各々における、クシャクシャにされている記録をレンダリングした図を示す画像である。
【
図3F】
図3B~
図3Dに示した3Dモデルに対応する一連の段階の各々における、クシャクシャにされている記録をレンダリングした図を示す画像である。
【
図3G】
図3B~
図3Dに示した3Dモデルに対応する一連の段階の各々における、クシャクシャにされている記録をレンダリングした図を示す画像である。
【
図4A】正方形ではない記録および、破損または屈曲した記録の、対応するデジタル記録への変換を行う方法のフローチャートである。
【
図4B】スコアリングアルゴリズムを使用した結果の投影検索の出力を示す図である。
【
図4C】ある角度で撮られた記録の取り込まれた画像である。
【
図4D】画像が角度をつけずに撮影されたように見えるように射影変換した、
図4Cの取り込まれた画像である。
【
図5】屈曲した記録の、対応するデジタル記録への変換を行っている状態を示す画像である。
【
図6】屈曲した記録の、対応するデジタル記録への変換を行っている状態を示す画像である。
【
図7】屈曲した記録の、対応するデジタル記録への変換を行っている状態を示す画像である。
【
図8】屈曲した記録の、対応するデジタル記録への変換を行っている状態を示す画像である。
【
図9】屈曲した記録の、対応するデジタル記録への変換を行っている状態を示す画像である。
【
図10】屈曲した記録の、対応するデジタル記録への変換を行っている状態を示す画像である。
【発明を実施するための形態】
【0008】
概観
本開示は、物理的記録を表現するソフトウェア記録を作成および操作する技法を記載する。例えば、物理的環境内に存在する物理的記録を認識し、そこから情報を取り込み、物理的記録に対応するデジタル表現を作成する技法が記載され、この表現は、本明細書においてデジタル記録またはソフトウェアベースの記録と称される。さらに、本開示の少なくともいくつかの態様は、複数の記録を管理する技法を対象とする。
【0009】
一般に、記録には、物理的記録およびデジタル記録が含まれ得る。物理的記録は一般に、全体的な境界と認識可能なコンテンツとを有するオブジェクトを指す。物理的記録としては、例えば紙、ホワイトボード、または入力を受け入れる他のオブジェクトなどのオブジェクト上に、人が筆記、描画、または他のタイプの入力することにより得られた結果のオブジェクトが挙げられ得る。例として、物理的記録としては、手書きの再配置可能な付箋、紙、フィルム、図が描かれたホワイトボード、ポスター、看板が挙げられ得る。いくつかの事例では、物理的記録は、例えば、印刷可能な再配置可能な付箋紙への印刷または印刷された文書の印刷などのデジタル手段を使用して生成され得る。いくつかの事例では、1つのオブジェクトが、いくつかの記録を含み得る。例えば、いくつかのアイデアが、1枚のポスター用紙またはホワイトボードに書き込まれ得る。物理的記録は、二次元または三次元であり得る。物理的記録は、様々な形状およびサイズを有し得る。例えば、ある物理的記録は、3インチ×3インチの記録であってもよく、ある物理的記録は、26インチ×39インチのポスターであってもよく、ある物理的記録は、三角形の金属看板であってもよい。いくつかの事例では、物理的記録は、既知の形状および/またはサイズを有する。デジタル記録は、一般に、情報および/またはアイデアを有するデジタルオブジェクトを指す。デジタル記録は、デジタル入力を使用して生成できる。デジタル入力としては、例えばキーボード、タッチスクリーン、デジタルカメラ、デジタル録画デバイス、スタイラス、デジタルペンなどが挙げられ得る。いくつかの事例では、デジタル記録は、物理的記録の表現であってもよい。
【0010】
記録管理システム
図1Aは、記録認識環境10の例を示す。
図1Aの例では、環境10は、作業場所20から1つ以上の記録22を取り込んで認識するモバイルデバイス15を含む。本明細書に記載されるように、モバイルデバイスは、記載されるように、作業場所20からの記録22の集合体などの多数の物理的記録から記録コンテンツを効率的に取り込み、抽出することのできる、1つ以上のソフトウェアアプリケーションの実行環境を提供する。この例では、記録22は、複数の参加者を有する共同ブレーンストーミングセッションの結果であってもよい。記載されるように、モバイルデバイス15およびその上で実行しているソフトウェアは様々な記録関連動作を実施してもよく、それらの動作には、作業場所20の物理的記録22を表現するデジタル記録の自動作成が含まれる。
【0011】
この実装形態例では、モバイルデバイス15は、他の構成要素の中でもとりわけ、画像取り込みデバイス18および提示デバイス28を含む。さらに、
図1Aには示されていないが、モバイルデバイス15は、本明細書に記載の機能を提供するためにソフトウェアまたはファームウェアを実行する1つ以上のプロセッサ、マイクロプロセッサ、内部メモリおよび/またはデータストレージ、ならびに他の電子回路を含んでもよい。
【0012】
一般に、画像取り込みデバイス18は、作業場所20および、その中に配置された記録22を表現する画像データを取り込むように構成された、カメラまたは他の構成要素である。換言すれば、画像データは、作業場所20などの、複数の視覚的記録を有する環境の視覚表現を取り込む。画像取り込みデバイス18は、モバイルデバイス15のカメラとして説明されるが、ビデオレコーダ、赤外線カメラ、CCD(電荷結合素子)アレイ、レーザスキャナなどの、画像データを取り込むことができる他の構成要素を含んでもよい。さらに、取り込まれた画像データは、画像、ビデオ、画像のシーケンス(すなわち、ある期間内に、および/または、ある順序で撮られた複数の画像)、画像の集合体などのうち少なくとも1つを含み得、本明細書では、入力画像という用語は様々な例示的なタイプの画像データを指すために使用される。
【0013】
提示デバイス28としては、モバイルデバイス28と共に使用するための、液晶ディスプレイ(LCD)または他のタイプのディスプレイデバイスなどの電子的にアドレス可能なディスプレイが挙げられるが、これらに限定されない。いくつかの実装形態では、モバイルデバイス15は、提示デバイス28上に表示する記録のコンテンツを、例えば、行および/または列にグループ化されたリスト、フロー図など様々なフォーマットで生成する。いくつかの場合では、モバイルデバイス15は、タブレットコンピュータ、プロジェクタ、電子掲示板、または他の外部デバイスなどの他のデバイスで表示するために、表示情報を通信してもよい。
【0014】
本明細書に記載されるように、モバイルデバイス15およびその上で実行するソフトウェアは、物理的記録22を表現したデジタル記録を作成して操作するためのプラットフォームを提供する。例えば、一般にモバイルデバイス15は、画像取り込みデバイス18によって生成された画像データを処理して、作業場所20内に配置された物理的記録22のうち少なくとも1つを検出して認識するように構成されている。いくつかの例では、モバイルデバイス15は、記録の全体的な境界を判断することによって記録を認識するように構成されている。記録を認識した後に、モバイルデバイス15は、1つ以上の記録のうち少なくとも1つのコンテンツを抽出し、コンテンツとは記録22の視覚情報である。
【0015】
いくつかの例示的な実装形態では、モバイルデバイス15は、ユーザ26がデジタル記録をクラウドベースのリポジトリ(例えば、クラウドサーバ12)または他のコンピューティングデバイス(例えば、コンピュータシステム14またはモバイルデバイス16)などの他のシステムにエクスポートすることができる機能を提供する。
【0016】
図1Aの例では、モバイルデバイス15は、携帯電話として示されている。しかし、他の例では、モバイルデバイス15は、タブレットコンピュータ、携帯情報端末(PDA)、ラップトップコンピュータ、メディアプレーヤ、電子書籍リーダ、ウェアラブルコンピューティングデバイス(例えば、時計、アイウェア、グローブ)、または本明細書に記載の技法を実施するのに適した任意の他のタイプのモバイルまたは非モバイルのコンピューティングデバイスであってもよい。
【0017】
図1Bは、本明細書に記載の技法に従って動作するモバイルデバイスの例を示すブロック図である。例を目的として、
図1Bのモバイルデバイスは、
図1Aのモバイルデバイス15に関して説明される。
【0018】
この例では、モバイルデバイス15は、デバイスの動作のためのコア機能を提供する様々なハードウェア構成要素を含む。例えば、モバイルデバイス15は、典型的にはスタティックランダムアクセスメモリ(SRAM)デバイスまたはフラッシュメモリデバイスなどのコンピュータ可読媒体またはデータストレージ68に記憶されている実行可能命令(すなわち、プログラムコード)に従って動作するように構成された、1つ以上のプログラム可能なプロセッサ70を含む。
図1Aに記載されるように、I/O76は、キーボード、カメラボタン、電源ボタン、音量ボタン、ホームボタン、バックボタン、メニューボタン、または提示デバイス28などの1つ以上のデバイスを含んでもよい。送信器72および受信器74は、
図1Aに記載されるとおりの無線通信インタフェースを介して、
図1Aに記載されるとおりのクラウドサーバ12、コンピュータシステム14、または他のモバイルデバイス16などの他のデバイスとの高周波無線周波数(RF)信号などの無線通信を提供するが、RF信号に限定されない。マイクロフォン71が、音声情報を対応する電気信号に変換する。スピーカ73が、電気信号を対応する音声情報に変換する。振動モータ75が、モバイルデバイス15またはそのハウジングを振動させるために使用される。モバイルデバイス15は、
図1Bに示されていない、付加的な別個のデジタルロジックまたはアナログ回路を含んでもよい。
【0019】
一般に、プロセッサ70上でオペレーティングシステム64を実行して、記録管理アプリケーション78を含めた1つ以上のユーザアプリケーション77(一般に「アプリ」と呼ばれる)に動作環境を提供する。ユーザアプリケーション77は、例えば、プロセッサ70によって実行するための、コンピュータ可読記憶デバイス(例えば、データストレージ68)に記憶された実行可能なプログラムコードを含んでもよい。他の例として、ユーザアプリケーション77はファームウェアを含んでもよく、またはいくつかの例では、別個のロジックで実装されてもよい。
【0020】
動作中、モバイルデバイス15は、入力画像データを受信し、本明細書に記載の技法に従って入力画像データを処理する。例えば、画像取り込みデバイス18は、
図1Aの記録22を有する作業場所20などの、複数の記録を有する環境の入力画像を取り込んでもよい。別の例として、モバイルデバイス15は、クラウドサーバ15、コンピュータシステム14、またはモバイルデバイス16などの外部ソースから受信器74を介して画像データを受信してもよい。一般に、モバイルデバイス15は、記録管理アプリケーション78および/または他のユーザアプリケーション77によってアクセスおよび処理するために、データストレージ68に画像データを記憶する。
【0021】
図1Bに示すように、ユーザアプリケーション77は、オペレーティングシステム64のカーネル機能を呼び出して、モバイルデバイスのユーザに情報を表示するためのグラフィカルユーザインタフェース(GUI)79を出力してもよい。以下でさらに説明するように、記録管理アプリケーション78は、GUI79を構築および制御して、物理的記録22を表現した対応するデジタル記録を生成して操作するための改善された電子環境を提供することができる。例えば、記録管理アプリケーション78は、特定の特性をもつ記録を取り込んだことに応答して自動的にトリガされるイベントをユーザ26が容易に制御することを可能にする機構を含むように、GUI79を構築してもよい。さらに、記録管理アプリケーション78は、ユーザ26がデジタル記録のグループ間の関係を管理することを可能にする機構を含むように、GUI79を構築してもよい。
【0022】
図1Cは、本明細書に記載の技法に従って動作する記録管理アプリケーション78の1つの例示的な実装形態を示すブロック図である。ユーザアプリケーション77は、モバイルデバイス15上で実行するとして記載されているが、本明細書に記載の例は、クラウドサーバ12、コンピュータシステム14、または他のモバイルデバイスなどの、任意のコンピューティングデバイスに実装されてもよい。
【0023】
この例では、記録管理アプリケーション78は、画像処理およびオブジェクト認識機能を提供する画像処理エンジン82を含む。画像処理エンジン82は、画像通信モジュール90、記録識別モジュール86、およびデジタル記録生成モジュール88を含んでもよい。さらに、画像処理エンジン82は、画像処理エンジン82の他の構成要素によって使用するための、例えば、画像の2値化、マスキング、フィルタリング、縁部検出などの画像操作機能のライブラリを提供する、画像処理アプリケーションプログラミングインタフェース(API)95を含む。
【0024】
一般に、画像データは、データ記憶デバイス68に記憶されてもよい。この例では、記録管理アプリケーション78は、データ記憶デバイス68に画像97を記憶する。画像97の各々は、
図1Aの作業場所20などの、複数の物理的画像を有する環境のピクセルデータを含み得る。
【0025】
本明細書に記載されるように、記録識別モジュール86は、画像97を処理し、画像内の複数の物理的記録を識別する(すなわち、認識する)。デジタル記録生成モジュール88は、画像97内で認識された物理的記録に対応するデジタル記録99を生成する。例えば、デジタル記録99の各々は、入力画像97で識別された物理的記録のうち1つに対応する。このプロセスの間に、デジタル記録生成モジュール88は、デジタル記録のレコードを含むようにデータベース94を更新し、また、記録識別モジュール86によって検出された物理的記録の決定された境界内の入力画像から抽出された情報(例えば、コンテンツ)をデータベースに記憶してもよい。さらに、デジタル記録生成モジュール88は、デジタル記録をデジタル記録の1つ以上のグループに関連付けるメタデータをデータベース94に記憶してもよい。
【0026】
さらに、記録管理アプリケーション78は、特定の特性を有する物理的記録の検出に応答してアクションをトリガする規則101を、例えばユーザ入力26によって指定するように構成されてもよい。例えば、ユーザインタフェース98は、ユーザ入力に基づいて、記録の特定の特性にアクションをマッピングしてもよい。記録管理アプリケーション78は、記録グループ化アクション、または、カレンダーアプリケーションに関連するアクションなどのモバイルデバイスで実行している別のソフトウェアアプリケーションに関連するアクションなどの、アクションを伴う規則をユーザが指定することのできるユーザインタフェース98を出力してもよい。ユーザインタフェース98は、各規則について、アクションをトリガするための基準をユーザが定義することを可能にする。この構成プロセスの間、ユーザインタフェース98は、アクションをトリガし、画像データを処理して色またはコンテンツなどの特性を抽出するための例示的な記録を表現した画像データを取り込むようにユーザに促してもよい。次いで、ユーザインタフェース98は、その例示的な記録に対応する規則を定義することを支援するために、決定された基準をユーザに提示してもよい。
【0027】
画像通信モジュール90は、モバイルデバイス15と、クラウドサーバ12、コンピュータシステム14、モバイルデバイス16、または画像取り込みデバイス18などの外部デバイスとの間の画像データの通信を制御する。いくつかの例では、画像通信モジュール90は、例えば、環境および/またはデジタル記録の処理済みまたは未処理の画像97と、そこから抽出された関連情報とを、データベース68からのメタデータを含めてユーザが通信することを可能にしてもよい。いくつかの例では、画像通信モジュール90は、このデータを、FTP、HTTP、電子メール、Bluetoothまたは他の機構によって通信され得るzipファイルにエクスポートする。
【0028】
図1Cの例では、記録管理アプリケーション78は、GUI79(
図1B)を構築して制御するユーザインタフェース98を含む。以下に記載されるように、いくつかの例では、ユーザインタフェース98は、複数のデジタル記録99にオーバーレイされた入力画像97を表示するために出力してもよく、対応する物理的記録の代わりにデジタル記録の各々がオーバーレイされる。さらに、ユーザインタフェース98は、ユーザによって指定されたデジタル記録99のグループを表示してもよい。このデジタル記録99のグループは、例えば、特定の入力画像97内で認識されたデジタル記録のサブセットであってもよい。ユーザインタフェース98は、この指定されたデジタル記録のグループ(セット)をGUI79の第2の部分に表示し、ユーザ26が指定されたグループからデジタル記録99を容易に追加または消去することを可能にしてもよい。
【0029】
いくつかの例示的な実装形態では、ユーザインタフェース98は、ユーザがオーバーレイ画像および/またはデジタル記録を編集することを可能にする画像エディタ96を提供する。別の例では、デジタル記録生成モジュール88は、入力画像から抽出された情報を強化するプロセスまたは複数のプロセスを含んでもよい。
【0030】
図1Dは、記録認識システム100Aの別の例示的な実施形態を示す。システム100Aは、処理ユニット110、1つ以上の記録120、センサ130、および記録コンテンツリポジトリ140を含み得る。処理ユニット110は、1つ以上のプロセッサ、マイクロプロセッサ、コンピュータ、サーバ、および他のコンピューティングデバイスを含み得る。センサ130、例えば画像センサは、1つ以上の記録120を有するシーンの視覚表現を取り込むように構成されている。センサ130は、カメラ、ビデオレコーダ、赤外線カメラ、CCD(電荷結合素子)アレイ、スキャナなどのうち少なくとも1つを含み得る。視覚表現は、画像、ビデオ、画像のシーケンス(すなわち、ある期間内に、および/または、ある順序で撮られた複数の画像)、画像の集合体などのうち少なくとも1つを含み得る。処理ユニット110は、センサ130に結合され、視覚表現を受信するように構成されている。いくつかの事例では、処理ユニット110は、センサ130に電子的に結合される。処理ユニット110は、視覚表現から、1つ以上の記録120のうち少なくとも1つを認識するように構成されている。いくつかの実施形態では、処理ユニット110は、記録の全体的な境界を判断することによって記録を認識するように構成されている。記録を認識した後、処理ユニット110は記録のコンテンツを抽出する。いくつかの事例では、処理ユニット110は、それらの記録を有するシーンの視覚表現から、2つ以上の記録のコンテンツを認識および抽出するように構成されている。
【0031】
いくつかの事例では、処理ユニット110は、非一時的コンピュータ可読媒体に記憶されたソフトウェアまたはファームウェアを実行して、システム100Aの様々なプロセス(例えば、記録を認識する、記録を抽出するなど)を実装することができる。記録コンテンツリポジトリ140は、単一のコンピュータ、サーバ、記憶デバイス、クラウドサーバ上などで実行してもよい。いくつかの他の場合では、記録コンテンツリポジトリ140は、一連のネットワークコンピュータ、サーバ、またはデバイス上で実行してもよい。いくつかの実装形態では、記録コンテンツリポジトリ140は、ローカル、リージョナル、および中央を含む、データ記憶デバイスの階層を含む。記録120は、共同スペースに規則的またはランダムに配置された物理的記録を含むことができ、センサ130は共同スペース内にある記録120の視覚表現を生成する。
【0032】
いくつかの実装形態では、記録認識システム100Aは、どの記録が認識されているか、および/またはどの記録のコンテンツが抽出されているかをユーザに示す、提示デバイス(
図1Dには示されていない)を含み得る。さらに、記録認識システム100Aは、抽出されたコンテンツを提示デバイスを介して提示することができる。いくつかの実施形態では、処理ユニット110は、記録のコンテンツを抽出する前に、記録を認証することができる。記録が認証された場合は、コンテンツを抽出し、記録コンテンツリポジトリ140に記憶する。
【0033】
図1Eは、記録管理システム100Bの実施形態を示す。この実施形態では、記録管理システム100Bは、処理ユニット110、1つ以上の記録120、1つ以上の記録ソース150、および記録コンテンツリポジトリ140を含む。いくつかの事例では、システム100Bは、提示デバイス160を含む。処理ユニット110、記録120、および記録コンテンツリポジトリ140は、
図1Aに示すとおりの記録認識システム100Aの構成要素と同様である。記録ソース150は、1つ以上の記録を有するシーンの視覚表現などの物理的記録のコンテンツを提供するソースと、キーボードから入力されたデータストリームなどのデジタル記録のコンテンツを提供するソースと、を含み得る。いくつかの実施形態では、記録管理システム100Bは、第1のソースおよび第2のソースを含み、第1のソースは、1つ以上の記録120を有するシーンの視覚表現である。第1のソースおよび第2のソースは、異なるデバイスによって生成される。第2のソースは、テキストストリーム、画像、ビデオ、ファイル、およびデータエントリのうち少なくとも1つを含む。処理ユニット110は、記録認識システム100Aについて説明したように、第1のソースから記録のうち少なくとも1つを認識し、記録のコンテンツを抽出する。いくつかの場合では、処理ユニット110は、記録にカテゴリをラベル付けする。処理ユニット110は、記録の特定の形状、色、コンテンツ、および/または他の情報に基づいて、記録をラベル付けすることができる。例えば、記録の各グループは、異なる色(例えば、赤、緑、黄色など)を有することができる。
【0034】
いくつかの実施形態では、記録管理システム100Bは、記録120のコンテンツをユーザに示すために、1つ以上の提示デバイス160を含み得る。提示デバイス160は、液晶ディスプレイ(LCD)、タブレットコンピュータ、プロジェクタ、電子掲示板、携帯電話、ラップトップなどの電子的にアドレス可能なディスプレイを含み得るが、これらに限定されない。いくつかの実装形態では、処理ユニット110は、提示デバイス160上に表示する記録のコンテンツを、例えば、行および/または列にグループ化されたリスト、フロー図など様々なフォーマットで生成する。
【0035】
記録認識システムおよび記録管理システムの、処理ユニット、画像センサ、および記録コンテンツリポジトリなどの様々な構成要素は、通信インタフェースを介して通信することができる。通信インタフェースとしては、有線または無線の短距離および長距離の任意の通信インタフェースが挙げられるが、これらに限定されない。短距離通信インタフェースは、例えば、ローカルエリアネットワーク(LAN)や、Bluetooth規格、IEEE802規格(例えば、IEEE802.11)、IEEE802.15.4規格に基づくZigBeeまたは同様の仕様など、または他の公共もしくは独自の無線プロトコルなどの、既知の通信規格に準拠するインタフェースであってもよい。長距離の通信インタフェースは、例えば、ワイドエリアネットワーク(WAN)、セルラーネットワークインタフェース、衛星通信インタフェースなどであってもよい。通信インタフェースは、イントラネットなどのプライベートコンピュータネットワーク内、または、インターネットなどの公共コンピュータネットワーク上のいずれかにあってもよい。
【0036】
記録のための光学的文字認識(OCR)
図2は、対応するデジタル記録への記録の変換を行うために光学的文字認識を使用する方法のフローチャートである。この方法は、モバイルデバイス15内のプロセッサ70によって実行するためのソフトウェアまたはファームウェアに実装することができる。この方法は、例えばコンテンツ1を有するデジタル記録210、コンテンツ2を有するデジタル記録212、およびコンテンツ3を有するデジタル記録214などの、手書きコンテンツを有するデジタル記録を受信すること(ステップ200)を含む。手書きコンテンツは、例えば文字、テキスト、記号、アイコン、または絵文字を含み得る。手書きコンテンツは、例えば、記録用紙に直接手書きされた、もしくはデジタル記録に電子的に書かれたコンテンツ、または、手書きのように見えるコンテンツを含み得る。例示目的のため、デジタル記録は3つしか示されていないが、この方法は、より多くの複数のデジタル記録に対応することができる。
【0037】
デジタル記録は、単一の電子文書または画像においてグリッドまたは他のフォーマットに組み立てられる(ステップ202)。例えば、グリッド216は、デジタル記録210、212、および214からのコンテンツを含む。デジタル記録のグリッドは、OCRサービスまたはアプリケーションに送信され(ステップ204)、これはデジタル記録のグリッドをネットワークを介してOCRサービスまたはアプリケーションに電子的に伝送することを含み得る。OCRの結果が受信される(ステップ206)。結果は、例えば、デジタル記録210の結果1、デジタル記録212の結果2、およびデジタル記録214の結果3を含む、電子文書のグリッド218を含み得る。OCRの結果は、受信したデジタル記録内のコンテンツを、例えばテキスト、シンボル、アイコン、または絵文字などの対応する文字に変換したものを含む。
【0038】
方法は、OCRの結果を元のデジタル記録に割り当てる(ステップ 208)。例えば、結果1は、デジタル記録210に割り当てられ、結果2は、デジタル記録212に割り当てられ、結果3は、デジタル記録214に割り当てられる。結果を割り当てることは、例えば、手書きコンテンツを結果に置き換えてデジタル記録を表示すること、または、結果および元の手書きコンテンツの両方を表示することを含み得る。
【0039】
OCRサービスまたはアプリケーションは、典型的には、コンテンツを対応する文字に変換するための各OCR要求に対して料金を請求する。複数のデジタル記録を単一の電子文書または画像に組み立てることによって、デジタル記録のためにOCRを要求する数を削減することができ、コスト削減および、より効率的なOCRサービスまたはアプリケーションの使用をもたらす。
【0040】
記録のクシャクシャ機能
図3Aは、デジタル記録のクシャクシャ機能のフローチャートである。この方法は、モバイルデバイス15内のプロセッサ70によって実行するためのソフトウェアまたはファームウェアに実装することができる。
【0041】
この方法は、例えばモバイルデバイス15のGUI79などのディスプレイ画面上に表示されたデジタル記録を、削除もしくは消去するためのユーザコマンド、または他の命令を受信する(ステップ302)。この方法は、クシャクシャにされているデジタル記録のデジタル表現およびアニメーションを表示し、デジタル記録がしわくちゃになったり折り畳まれたりする様子を示して物理的記録をクシャクシャにするのをシミュレートする(ステップ304)。デジタル表現およびアニメーションは、例えば、アニメーションの少なくとも一部の間に、視覚効果(ステップ306)、音響効果(ステップ308)、および触覚効果(ステップ310)のうち1つ以上を含み得る。アニメーションの後、クシャクシャにされたデジタル記録は、GUI79または他のディスプレイ画面から任意選択で消去できる。
【0042】
ステップ306の視覚効果は、例えば、ライティング、テクスチャ、陰影、および表面効果を含み得る。ステップ308の音響効果は、例えば、物理的記録がクシャクシャにされてスピーカ73上で再生される音、または、アニメーションの少なくとも一部の間にスピーカ73で再生される別のタイプの音を含み得る。触覚効果は、例えば、ユーザの手の中で物理的記録をクシャクシャにする感覚の触覚体験を作るために、振動モータ75を使用してモバイルデバイス15を振動させることを含み得る。振動モータ75を特定のパターンでトリガして触覚経験を作ることができる。1つの例示的なパターンは、音とアニメーションに同期するように構成された連続的および一時的な触覚イベントの組み合わせであり、1つの短い(100ミリ秒)連続的なイベントと、300ミリ秒にわたって綿密に間隔をあけて、精細に調整された強度レベルをもつ7つの一時的イベントである。
【0043】
表1は、
図3Aの方法を実装するアルゴリズムのステップを提供する。
【表1】
【0044】
表1のアルゴリズムのステップに示すとおり、
図3B~3Dは、例示的なデジタル記録をクシャクシャにする3つの順次的な段階における3Dモデルのワイヤフレームを示す画像であり、
図3E~
図3Gは、
図3B~
図3Dに示した3Dモデルに対応する連続的な各段階における、クシャクシャにされている例示的なデジタル記録をレンダリングした図を示す画像である。
【0045】
正方形ではない記録
図4Aは、正方形ではない記録および、破損または屈曲した記録の、対応するデジタル記録への変換を行う方法のフローチャートである。この方法は、モバイルデバイス15内のプロセッサ70によって実行するためのソフトウェアまたはファームウェアに実装することができる。
【0046】
この方法は、例えば、正方形ではない記録410、破損した記録412(角部が破れている、欠損している、または折れ曲がっている)、もしくは屈曲した記録414などの、正方形ではない記録、または破損もしくは屈曲した記録の画像を受信すること(ステップ402)を含む。この方法は、受信した記録の画像にスコアリングアルゴリズムを適用し(ステップ404)、受信した記録の画像に検出アルゴリズムを適用する(ステップ406)。この方法は、スコアリングアルゴリズムおよび検出アルゴリズムを使用して、受信した記録を、例えば、正方形ではないデジタル記録416、角部が欠損していないデジタル記録418、および屈曲していないデジタル記録420などの、対応するデジタル記録に変換する(ステップ408)。
【0047】
図4Aの方法は、再配置可能な付箋紙を含む、さまざまな形状およびサイズの紙製品に使用できる。この方法では、矩形(正方形ではない)および矩形ではない記録用紙などの製品、ならびにホワイトボードなどの紙ではない製品を検出することができる。これらの製品のいくつかの例は、5×8インチ、2×2インチ、および8×6インチの再配置可能な付箋紙である。
【0048】
取り込んだ画像内の物理的記録のサイズを判断できるように、あるアルゴリズムを使用して
図4Aの方法を実装することができる。アルゴリズムを実行した後、この方法は、4つの角部によって画定されるほぼ矩形の形状の「記録」の集合体を有する。物理的記録のすべてが同じサイズであっても、取り込まれた画像では射影によって記録の形状が歪んでいるので、これらの矩形には形状およびサイズにばらつきがあり、アルゴリズムが報告した角部の位置は100%正確でないこともある。
【0049】
デジタル記録がどの物理的サイズに対応するか正しく判断できるように、デジタル記録は射影補正され、すなわち、角部の位置が再計算され、記録が正面から真っ直ぐに(非ゼロ角度ではなく、正面から)取り込まれたように見える。これは、以下のサーチを使用して行われる。
【0050】
1.X軸およびY軸に沿った最小角度から最大角度までのすべてのカメラ角度について、カメラ角度と一致する投影に従って記録の角部が再計算され、スコアが計算される。(例:-55度から開始して55度で終了し、2度ごとの段階でで、すなわち、-55度で開始して、次いで-53度で、次いで-51度で、記録の角部を再計算する)。
図4Bを参照されたい。
【0051】
2.スコアは、デジタル記録の「直角度」を最大化するように、すなわち、角部の角度が可能な限り90度に近く、垂直縁部の長さが可能な限り類似し、水平縁部が可能な限り類似するように、設計されている。
【0052】
図4Bは、投影サーチからの出力を示す。各点は、X値とY値の組み合わせのスコアリングの結果である。色が暗いほど、より良いスコアを意味する。サーチスペース内のより明るい色の点は、最良のスコアを有するものである。
【0053】
図4Cは、ある角度で(ゼロ以外の角度で正面から)で撮られた記録の取り込まれた画像である。
図4Dは、
図4Cの取り込まれた画像であるが、射影変換され、画像が角度をつけずに正面から見たもののように見える。
【0054】
次のステップのために最良スコアを有する投影角度が選択され、このステップには、個々の記録のアスペクト比に最もよく対応する記録サイズの組み合わせと、それらの相対的なサイズを以下のようにして見つけることを含む。
【0055】
1.各記録について、アスペクト比に基づいて、最も近い記録サイズ(複数)を計算する。最も近いサイズクラスは、デジタル記録に類似したアスペクト比を有するものである。例えば、アスペクト比が0.98の記録は、アスペクト比1を有する、すべての正方形記録サイズに非常に近いことになる。アスペクト比1.28を有する記録は、8×6(アスペクト比1.25を有する)および6×4(アスペクト比1.33を有する)の両方に十分に近いことになる。サイズクラスの各々について、インチあたりのピクセル値、すなわち、記録サイズが正しいものである場合に各ピクセルが表現する物理的面積がどれぐらいの大きさであるかを計算する。
【0056】
2.計算されたインチあたりのピクセル値の各々について、各記録について最も一致するサイズクラスを計算し、物理的記録とデジタル記録の計算値との間の面積およびアスペクト比の差に基づいて、総誤差を計算する。
【0057】
3.最小の総誤差を有する区分を選択する。選択された区分に基づくサイズを有する対応するデジタル記録を生成するために、選択された区分を記録に割り当てることができる。
【0058】
破損した記録および屈曲した記録
破損した記録(すなわち、角部が折れ曲がっている、または角部が裂けている記録)、および屈曲した記録(すなわち、貼り付けられている表面と同一平面にない記録)は、記録が完全に欠落するか、または記録の形状が正しくないかのいずれかである、準最適な検出結果を引き起こす可能性がある。これらの問題を適切に修正するために、ステップ406の検出アルゴリズムを使用する
図4Aの方法を、破損または屈曲した記録を処理するために用いることもでき、ソフトウェアアルゴリズムが記録の正確な形状を見つけることを可能にする。
【0059】
検出アルゴリズムは、デジタル記録の角部について生成された追加のメタデータを調べることによって、記録が屈曲しているかを見つける。サポートされる記録サイズは矩形なので、最終結果は記録の4つの角部の位置を含む。しかし、検出アルゴリズム自体においては、さらに詳細な輪郭、すなわち、5つ以上の縁部を有する輪郭が使用される(
図5参照)。
【0060】
詳細な輪郭では、開始点として、最も長いセグメントが最初に選択される。このセグメントを考慮して、さらに3つのセグメントが、それらの長さ(例えば、最長セグメントの少なくとも25%)および、最長セグメントに対する相対位置に基づいて、「主縁部」であると判断される(
図6参照)。詳細な輪郭内にある残りのセグメントは、主縁部に対する角度の類似性に基づいて、4つの縁部に割り当てられる(
図7参照)。
【0061】
こうしてアルゴリズムは、4つの縁部を検出し、各縁部は1つ以上のセグメントからなる。
【0062】
1.縁部が1つのセグメントのみからなる場合、それは直線状の縁部としてラベル付けされる。
【0063】
2.縁部が2つ以上のセグメントを有する場合、セグメントは、直線状(それらのセグメントがある程度直線状のラインを形成する場合)、または、内曲がりもしくは外曲がりのいずれかとして、屈曲係数を付してラベル付けされ、屈曲係数は、縁部がどのように屈曲しているかを示す値を意味する。縁部を構成するセグメント間の角度を合計することによって、縁部が屈曲しているか直線状であるか判断される。屈曲は、単にバイナリ値として、すなわち記録が屈曲しているか屈曲していないかのいずれか記録される。次いで、記録が屈曲しているという事実は、サイズおよび形状が、屈曲していない記録よりも正確ではない可能性があるというヒントとして使用される。屈曲係数は、例えば、縁部を構成するセグメント間の角度の合計に基づくことができる。
【0064】
記録の両端の2つの縁部がそれぞれ内曲がりおよび外曲がりになっている場合、その記録は屈曲した記録であり、その記録候補にはこの情報が付される(
図9を参照)。
【0065】
このアルゴリズムはまた、同じ方法または類似した方法で記録の縁部を調べて、欠落した部分のない対応するサイズのデジタル記録を見つけることによって、破損した記録、例えば、一部が欠落している記録を処理することができる。
【0066】
図5~
図10は、対応するデジタル記録への屈曲記録の変換を行っている状態を示す画像である。
図5は、入力された輪郭を有する記録、
図6は、主縁部、
図7は、セグメントの割り当て、
図8は、縁部の終端、
図9は、縁部の区分、
図10は、記録の最終的な角部位置である。
【国際調査報告】