IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士ゼロックス株式会社の特許一覧

特許7334504ビデオからのインクストロークのリアルタイムエンドツーエンド取り込みのためのシステム、方法及びプログラム
<>
  • 特許-ビデオからのインクストロークのリアルタイムエンドツーエンド取り込みのためのシステム、方法及びプログラム 図1
  • 特許-ビデオからのインクストロークのリアルタイムエンドツーエンド取り込みのためのシステム、方法及びプログラム 図2
  • 特許-ビデオからのインクストロークのリアルタイムエンドツーエンド取り込みのためのシステム、方法及びプログラム 図3
  • 特許-ビデオからのインクストロークのリアルタイムエンドツーエンド取り込みのためのシステム、方法及びプログラム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-08-21
(45)【発行日】2023-08-29
(54)【発明の名称】ビデオからのインクストロークのリアルタイムエンドツーエンド取り込みのためのシステム、方法及びプログラム
(51)【国際特許分類】
   G06V 30/19 20220101AFI20230822BHJP
   G06T 7/00 20170101ALI20230822BHJP
   G06V 30/32 20220101ALI20230822BHJP
【FI】
G06V30/19 G
G06T7/00 350C
G06V30/32
【請求項の数】 19
(21)【出願番号】P 2019123947
(22)【出願日】2019-07-02
(65)【公開番号】P2020009442
(43)【公開日】2020-01-16
【審査請求日】2022-06-21
(31)【優先権主張番号】16/026067
(32)【優先日】2018-07-03
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】000005496
【氏名又は名称】富士フイルムビジネスイノベーション株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】キム チョルファン
(72)【発明者】
【氏名】パトリック チィーウ
(72)【発明者】
【氏名】織田 英人
【審査官】小太刀 慶明
(56)【参考文献】
【文献】特開平11-232378(JP,A)
【文献】Chelhwon Kim; Patrick Chiu; Hideto Oda,Capturing Handwritten Ink Strokes with a Fast Video Camera,2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR),米国,2017年11月09日,1269-1274,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8270140
【文献】Ayan Kumar Bhunia, Abir Bhowmick, Ankan Kumar Bhunia, Aishik Konwer, Prithaj Banerjee, Partha Pratim Roy, Umapada Pal,Handwriting Trajectory Recovery using End-to-End Deep Encoder-Decoder Network,arxiv,日本,2018年06月03日,https://arxiv.org/pdf/1801.07211
【文献】小松 里奈,U-Netによる手書き文字画像内のノイズ除去,2018年度 人工知能学会全国大会(第32回),日本,2018年06月05日,1-4
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/00
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
a.ユーザの手書きのビデオを取得するための少なくとも1つのカメラと、
b.複数のインクストロークを検出するためにニューラルネットワークを使用して前記ユーザの前記手書きの前記取り込まれたビデオを処理し、前記検出された複数のインクストロークを使用して前記ユーザの前記手書きを認識するための処理ユニットと
を備え
前記ニューラルネットワークは、エンコーダ及びデコーダを備え、
前記エンコーダは、前記ユーザの前記手書きの前記取り込まれたビデオの一連のビデオフレームを入力し、畳み込みネットワークブロックから学習された特徴表現を生成し、
前記デコーダは、逆畳み込みネットワークブロックを使用して、前記特徴表現をピクセル単位のラベルマップに変換する、
システム。
【請求項2】
前記ニューラルネットワークは、ディープラーニングニューラルネットワークである、請求項1に記載のシステム。
【請求項3】
前記カメラはウェブカメラである、請求項1に記載のシステム。
【請求項4】
前記カメラが卓上の上方に取り付けられている、請求項1に記載のシステム。
【請求項5】
前記カメラが電気スタンドに取り付けられている、請求項1に記載のシステム。
【請求項6】
前記エンコーダは、リカレントニューラルネットワークを使用して前記特徴表現を生成する、請求項に記載のシステム。
【請求項7】
前記畳み込みネットワークブロックは、複数のリンクを使用して前記逆畳み込みネットワークブロックとリンクされている、請求項に記載のシステム。
【請求項8】
前記ユーザの前記手書きは、手書き認識エンジンを使用して認識される、請求項1に記載のシステム。
【請求項9】
前記処理及び認識がリアルタイムで実行される、請求項1に記載のシステム。
【請求項10】
前記処理ユニットは、前記認識されたユーザの手書きに基づいてテキスト情報を出力する、請求項1に記載のシステム。
【請求項11】
前記ユーザの手書きが、通常のペンと紙で書かれたインクを含む、請求項1に記載のシステム。
【請求項12】
a.ユーザの手書きのビデオを取得するために少なくとも1つのカメラを使用することと、
b.複数のインクストロークを検出するために、エンコーダ及びデコーダを備えたニューラルネットワークを使用して前記ユーザの前記手書きの前記取り込まれたビデオを処理し、前記検出された複数のインクストロークを使用して前記ユーザの前記手書きを認識するために処理ユニットを使用することと
前記エンコーダが、前記ユーザの前記手書きの前記取り込まれたビデオの一連のビデオフレームを入力し、畳み込みネットワークブロックから学習された特徴表現を生成することと、
前記デコーダが、逆畳み込みネットワークブロックを使用して、前記特徴表現をピクセル単位のラベルマップに変換することと
を含む方法。
【請求項13】
前記ニューラルネットワークは、ディープラーニングニューラルネットワークである、請求項12に記載の方法。
【請求項14】
前記カメラはウェブカメラである、請求項12に記載の方法。
【請求項15】
前記カメラが卓上の上方に取り付けられている、請求項12に記載の方法。
【請求項16】
前記カメラが電気スタンドに取り付けられている、請求項12に記載の方法。
【請求項17】
前記処理ユニットを使用して、前記認識されたユーザの手書きに基づいてテキスト情報を出力することをさらに含む、請求項12に記載の方法。
【請求項18】
前記ユーザの手書きは、通常のペンと紙で書かれたインクを含む、請求項12に記載の方法。
【請求項19】
コンピュータプログラムであって、
a.ユーザの手書きのビデオを取得するために少なくとも1つのカメラを使用することと、
b.複数のインクストロークを検出するために、エンコーダ及びデコーダを備えたニューラルネットワークを使用して前記ユーザの前記手書きの前記取り込まれたビデオを処理し、前記検出された複数のインクストロークを使用して前記ユーザの前記手書きを認識するための処理ユニットを使用することと
前記エンコーダが、前記ユーザの前記手書きの前記取り込まれたビデオの一連のビデオフレームを入力し、畳み込みネットワークブロックから学習された特徴表現を生成することと、
前記デコーダが、逆畳み込みネットワークブロックを使用して、前記特徴表現をピクセル単位のラベルマップに変換することと
を含む方法を実施する一組の命令を具体化する、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
開示された実施形態は、一般にデータ入力のためのシステム及び方法に関し、より詳細には、ビデオからのインクストロークのリアルタイムエンドツーエンド取り込みのためのシステム、方法及びプログラムに関する。
【背景技術】
【0002】
ペンと紙を使ったデータ入力は、コンピュータとユーザとの間の自然で便利なインタフェースを形成することができる。キーボードはコンピュータへの主要な入力装置であるが、メモの作成、会議でのブレインストーミング、及び手書きスケッチベースのモデリングなど、多くのタスクでは、キーボードよりも手書き入力を好む傾向がある。インクストロークを記録することができる市販の製品が存在するが、それらは、例えば特許文献1に記載されているように、印刷パターンを有する特別なペン及び/又は紙を必要とする。そのような市販の製品の例としては、FX Denshi Pen富士ゼロックスDenshi-Pen、Anoto Livescribe Pen、Wacom Bamboo Spark、及び最近発売されたMoleskin Smart Writing Setが挙げられる。これらは、フォームへの記入などの垂直方向の用途には便利であるが、一般的な使用法では、通常のペンと紙を使用できると便利である。
【0003】
また、例えば、非特許文献1~10に記載されているように、カメラベースのアプローチが長年にわたって提案されてきた。これらのアプローチのほとんどは、典型的に、ペン先追跡とペンアップ/ダウン検出という2段階のパイプラインに依存している。第1段階では、ペン先の初期位置が手動で決定され、テンプレートマッチングと動き予測モデル(例えばカルマンフィルタ)の組み合わせを使用して、ペン先が手書きプロセス全体にわたって追跡される。第2段階では、ペン先の追跡された各位置がインクトレースを生じたか否かをチェックすることによってペンアップ及びペンダウンイベントが検出される。
【先行技術文献】
【特許文献】
【0004】
【文献】米国特許第7,570,813号明細書
【非特許文献】
【0005】
【文献】Gernot A Fink, Markus Wienecke, and Gerhard Sagerer. Video-based on-line handwriting recognition. In Proc. ICDAR 2001, pages 226-230
【文献】Jae-Hyun Seok, Simon Levasseur, Kee-Eung Kim, and J Kim. Tracing handwriting on paper document under video camera. In ICFHR 200
【文献】Horst Bunke, T Von Siebenthal, T Yamasaki, and Markus Schenkel. Online handwriting data acquisition using a video camera. In Proc. ICDAR 1999, pages 573-576
【文献】Mario E Munich and Pietro Perona. Visual input for pen-based computers. In Proc. ICPR 1996, pages 33-37
【文献】Mario E. Munichand Pietro Perona. Visualinputforpen-basedcomputers.TPAMI,24(3):313-328, 2002
【文献】Chelhwon Kim, Patrick Chiu, and Hideto Oda. Capturing handwritten ink strokes with a fast video camera. In 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), pages 1269-1274. IEEE, 2017
【文献】Toshinori Yamasaki and Tetsuo Hattori. A new data tablet system for handwriting characters and drawing based on the image processing. In Systems, Man, and Cybernetics, 1996., IEEE International Conference on, volume 1, pages 428-431. IEEE, 1996
【文献】Pradeep Kumar Jayaraman and Chi-Wing Fu. Interactive line drawing recognition and vectorization with commodity camera. In Proceedings of the 22nd ACM international conference on Multimedia, pages 447-456. ACM, 2014
【文献】Feng Lin and Xiaoou Tang. Dynamic stroke information analysis for video-based handwritten Chinese character recognition. In Computer Vision, 2003. Proceedings. Ninth IEEE International Conference on, pages 695-700. IEEE, 2003
【文献】Amay Champaneria and Larry Rudolph. Padcam: a human-centric perceptual interface for temporal recovery of pen-based input. In Proceedings of 2004 AAAI Symposium on Making Pen-Based Interaction Intelligent and Natural, AAAI Press, Arlington, Virginia, pages 35-41, 2004
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、書き込みプロセス中にインクトレースがペン先又はユーザの手によって覆われる可能性があるので、完全なインクトレースを有するビデオシーケンスの最後の画像は、ビデオシーケンスが終わりに達した後(又は数フレーム遅延後)に取得される必要があることが多い。したがって、既存のカメラベースのアプローチのほとんどは、依然としてリアルタイム性能には及ばず、書き込み時に認識を実行する必要がある用途には適用できない。
【0007】
本開示の技術は、手書きインクストローク取得のための従来のシステム、方法及びプログラムに関連する上記及び他の問題のうちの1つ又は複数を実質的に回避するシステム、方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本明細書に記載の実施形態の一態様によれば、ユーザの手書きのビデオを取得するための少なくとも1つのカメラと、複数のインクストロークを検出するためにニューラルネットワークを使用してユーザの手書きの取り込まれたビデオを処理し、検出された複数のインクストロークを使用してユーザの手書きを認識するための処理ユニットとを備えたシステムが提供される。
【0009】
1つ又は複数の実施形態では、ニューラルネットワークはディープラーニングニューラルネットワークである。
【0010】
1つ又は複数の実施形態では、カメラはウェブカメラである。
【0011】
1つ又は複数の実施形態では、カメラは卓上の上方に取り付けられている。
【0012】
1つ又は複数の実施形態では、カメラは電気スタンドに取り付けられている。
【0013】
1つ又は複数の実施形態では、ニューラルネットワークはエンコーダ及びデコーダを含む。
【0014】
1つ又は複数の実施形態では、エンコーダは、ユーザの手書きの取り込まれたビデオの一連のビデオフレームを入力し、畳み込みネットワークブロックから学習された特徴表現を生成する。
【0015】
1つ又は複数の実施形態では、エンコーダは、リカレントニューラルネットワークを使用して特徴表現を生成する。
【0016】
1つ又は複数の実施形態では、デコーダは、逆畳み込みネットワークブロックを使用して、特徴表現をピクセル単位のラベルマップに変換する。
【0017】
1つ又は複数の実施形態では、畳み込みネットワークブロックは、複数のリンクを使用して逆畳み込みネットワークブロックとリンクされている。
【0018】
1つ又は複数の実施形態では、ユーザの手書きは手書き認識エンジンを使用して認識される。
【0019】
1つ又は複数の実施形態では、認識されたユーザの手書きに基づくテキスト情報が出力されている。
【0020】
1つ又は複数の実施形態では、ユーザの手書きは、通常のペンと紙で書かれたインクを含む。
【0021】
本明細書に記載の実施形態の別の態様によれば、ユーザの手書きのビデオを取得するために少なくとも1つのカメラを使用することと、複数のインクストロークを検出するためにニューラルネットワークを使用してユーザの手書きの取り込まれたビデオを処理し、検出された複数のインクストロークを使用してユーザの手書きを認識するために処理ユニットを使用することとを含む方法が提供される。
【0022】
1つ又は複数の実施形態では、ニューラルネットワークはディープラーニングニューラルネットワークである。
【0023】
1つ又は複数の実施形態では、カメラはウェブカメラである。
【0024】
1つ又は複数の実施形態では、カメラは卓上の上方に取り付けられている。
【0025】
1つ又は複数の実施形態では、カメラは電気スタンドに取り付けられている。
【0026】
1つ又は複数の実施形態では、ニューラルネットワークはエンコーダ及びデコーダを含む。
【0027】
1つ又は複数の実施形態では、エンコーダは、ユーザの手書きの取り込まれたビデオの一連のビデオフレームを入力し、畳み込みネットワークブロックから学習された特徴表現を生成する。
【0028】
1つ又は複数の実施形態では、エンコーダは、リカレントニューラルネットワークを使用して特徴表現を生成する。
【0029】
1つ又は複数の実施形態では、デコーダは、逆畳み込みネットワークブロックを使用して、特徴表現をピクセル単位のラベルマップに変換する。
【0030】
1つ又は複数の実施形態では、畳み込みネットワークブロックは、複数のリンクを使用して逆畳み込みネットワークブロックとリンクされている。
【0031】
1つ又は複数の実施形態では、ユーザの手書きは手書き認識エンジンを使用して認識される。
【0032】
1つ又は複数の実施形態では、認識されたユーザの手書きに基づくテキスト情報が出力されている。
【0033】
1つ又は複数の実施形態では、ユーザの手書きは、通常のペンと紙で書かれたインクを含む。
【0034】
本明細書に記載の実施形態の別の態様によれば、ユーザの手書きのビデオを取得するために少なくとも1つのカメラを使用することと、複数のインクストロークを検出するためにニューラルネットワークを使用してユーザの手書きの取り込まれたビデオを処理し、検出された複数のインクストロークを使用してユーザの手書きを認識するために処理ユニットを使用することとを含む方法を実施する一組の命令を具体化するコンピュータプログラムが提供される。
【0035】
1つ又は複数の実施形態では、ニューラルネットワークはディープラーニングニューラルネットワークである。
【0036】
1つ又は複数の実施形態では、カメラはウェブカメラである。
【0037】
1つ又は複数の実施形態では、カメラは卓上の上方に取り付けられている。
【0038】
1つ又は複数の実施形態では、カメラは電気スタンドに取り付けられている。
【0039】
1つ又は複数の実施形態では、ニューラルネットワークはエンコーダ及びデコーダを含む。
【0040】
1つ又は複数の実施形態では、エンコーダは、ユーザの手書きの取り込まれたビデオの一連のビデオフレームを入力し、畳み込みネットワークブロックから学習された特徴表現を生成する。
【0041】
1つ又は複数の実施形態では、エンコーダは、リカレントニューラルネットワークを使用して特徴表現を生成する。
【0042】
1つ又は複数の実施形態では、デコーダは、逆畳み込みネットワークブロックを使用して、特徴表現をピクセル単位のラベルマップに変換する。
【0043】
1つ又は複数の実施形態では、畳み込みネットワークブロックは、複数のリンクを使用して逆畳み込みネットワークブロックとリンクされている。
【0044】
1つ又は複数の実施形態では、ユーザの手書きは手書き認識エンジンを使用して認識される。
【0045】
1つ又は複数の実施形態では、認識されたユーザの手書きに基づくテキスト情報が出力されている。
【0046】
1つ又は複数の実施形態では、ユーザの手書きは、通常のペンと紙で書かれたインクを含む。
【0047】
本発明に関連するさらなる態様は、以下の説明に一部が記載され、一部はその説明から明らかになるか、又は本発明の実施によって習得され得る。本発明の態様は、以下の詳細な説明及び添付の特許請求の範囲で特に指摘される様々な要素及び態様の要素及び組み合わせによって実現及び達成され得る。
【0048】
上記及び下記の説明は、例示的及び説明的なものに過ぎず、特許請求の範囲に記載の発明又はその応用をいかなる形でも限定するものではないことを理解されたい。
【0049】
添付の図面は、本明細書に組み込まれ、本明細書の一部を構成し、本発明の実施形態を例示し、説明と共に、本発明の技術の原理を説明し示す役割を果たす。
【図面の簡単な説明】
【0050】
図1】ユーザの手書きストロークのビデオフレームを取り込むLED電気スタンドヘッドの下に取り付けられた小さなカメラの設定を示す図である。
図2】説明したシステムの様々な例示的モジュールを示すシステムフローチャート200の例示的実施形態を示す図である。
図3】インクストローク検出器ネットワークの例示的実施形態を示す図である。
図4】本明細書に記載の技術を実施するために使用することができるコンピュータシステム400の例示的な実施形態を示す図である。
【発明を実施するための形態】
【0051】
以下の詳細な説明では、同一の機能要素が同様の番号で示されている添付図面を参照する。前述の添付図面は、本発明の原理に従った特定の実施形態及び実施態様を示すものであって、限定としてではなく、例示として示す。これらの実施態様は、当業者が本発明を実施することができるように十分に詳細に記載されており、他の実施態様を利用してもよく、本発明の範囲及び趣旨から逸脱することなく様々な要素の構造変化及び/又は代用が行われてもよい。したがって、以下の詳細な説明は、限定された意味で解釈されるべきではない。さらに、説明した本発明の様々な実施形態は、汎用コンピュータ上で実行されるソフトウェアの形で、特殊なハードウェアの形で、又はソフトウェアとハードウェアの組み合わせの形で実施することができる。
【0052】
本明細書に記載の実施形態の一態様によれば、オンライン手書き認識のために十分に高品質の通常のペンと紙を用いたカメラベースの手書きインクストローク取得システム及び方法が提供される。手書きの静止画像のみが使用される「オフライン」とは対照的に、「オンライン」は時間性インクストロークデータを有することを意味する。オンライン手書き認識はオフラインよりも優れていることが一般に認められている。例えば、「Rejean Plamondon and Sargur N. Srihari. Online and off-line handwriting recognition: a comprehensive survey. IEEE Transactions on pattern analysis and machine intelligence, 22(1): 63-84, 2000」、及び「Sanjiv Kumar, Singh Dalbiretal. Review of online & offline character recognition. International Journal Of Engineering And Computer Science, 4(05), 2015」を参照されたい。これは、文字の筆順が重要な日本語及びその他のアジア言語にとって特に重要である。本実施形態のシステムでは、書き込みプロセスはビデオカメラを使用して観察され、インクのトレースは、それらが紙に書かれているときのストロークの時系列シーケンスとして再構成される。この時間性ストロークデータはオンライン手書き認識エンジンに送られてテキストデータに変換される。この取得システムは、認識されたテキストデータを使用して、インデックス作成及び検索システム、言語翻訳、及び遠隔コラボレーションなど、幅広い用途に役立つ。
【0053】
一実施形態のシステムは、一連の画像に対してリアルタイムで動作するディープニューラルネットワークを使用して上述の2つのステップを効率的に統合する統一アプローチを使用する。これは実際の用途の要件を満たすのにより好ましい。一実施形態のシステムは、ペン先追跡のための手動初期化ステップを必要としない。
【0054】
一実施形態のシステム設定の概要を図1に示す。図1は、ユーザの手書きストロークのビデオフレームを取り込むLED電気スタンドヘッドの下に取り付けられた小型カメラの配置を示す。具体的には、LED電気スタンドヘッド102の下に取り付けられた小型カメラ101が、卓上104上の紙103の方向を向き、ユーザのインクストロークを含むユーザの書き込みプロセスを取り込む。卓上設置に加えて、他の潜在的に有用なシナリオは、ホワイトボード、Google Glass及びGoogle Clipsを含むがこれらに限定されないウェアラブル装置上のカメラにより手書きを取り込むことである。
【0055】
図2は、一実施形態のステムの様々な例示的モジュールを示すシステムフローチャート200の例示的実施形態を示す。書き込みプロセスのビデオフレームは、エンコーダ202及びデコーダ203からなるディープニューラルネットワーク201に送信される。ネットワーク201は、手書き認識エンジン205に送られる時間性インクストロークデータ204を再構成してテキストデータ206に変換する。一実施形態では、手書き認識エンジン205は、当技術分野で周知のMyScriptソフトウェアパッケージに基づいている。
【0056】
次いで、システム及び技術的詳細について説明する。一実施形態のシステムの状態ベクトルをx=(x,y,v)Tと定義する。ここでx、yは画像内のペン先の位置の座標、v∈{0,1}はペン先の上下の動きを表す。目標は、時間t、すなわちモデルP(xt|z1:t)まで観察されたビデオフレームのシーケンスが与えられたとき、時間tにおける現在の状態xt=(xt,yt,vt)Tを推定することである。ここでz1:tは現在の時間まで観察されたビデオフレームのシーケンスである。一実施形態のシステムから生成された状態ベクトルのシーケンスから、時間性インクストロークデータは、動きが下降したペン先位置のみをセグメント化することによって再構成することができる(すなわち、{(xt,yt,1)})。
【0057】
既存の視覚ベースのアプローチは、典型的にこの問題を2つの副問題、すなわちペン先追跡による(xt,yt)の推定と、vtのためのペンの上下の分類とに分けている。本明細書の説明では、この問題はピクセルレベルの注釈タスクと見なされ、つまり、画像内の各ピクセルは3つのクラス∈{背景,ペンアップ,ペンダウン}のうちの1つに割り当てられ、タスクは、ペンの動きに基づいて、画像内のペン先のピクセルの領域をペンアップ又はペンダウンのいずれかにラベル付けすることであり、一方他のピクセルは背景クラスとしてラベル付けされる。この注釈付きピクセルを使用すると、注釈付き画像内のペンダウンピクセルを見つけ、それらの質量中心を計算することによって、これはペン先位置の推定であるが、インクストロークデータを再構築するのは容易である。したがって、連続するフレームに対してピクセル単位のラベルを付与することによって、ペン先追跡及びペンアップ/ダウンの分類が同時に行われる。
【0058】
「Yilin Song, Chenge Li, and Yao Wang. Pixel-wise object tracking. arXiv preprint arXiv:1711.07377, 2017」、「JinhoLee, Brian Kenji Iwana, Shouta Ide, and Seiichi Uchida. Globally optimal object tracking with fully convolutional networks. arXiv preprint arXiv:1612.08274, 2016」、「Lijun Wang, Wanli Ouyang, Xiaogang Wang, and Huchuan Lu. Visual tracking with fully convolutional networks. In Proceedings of the IEEE International Conference on Computer Vision, pages 3119-3127, 2015」、「Sepehr Valipour, Mennatullah Siam, Martin Jagersand, and Nilanjan Ray. Recurrent fully convolutional networks for video segmentation. In Applications of Computer Vision (WACV), 2017 IEEE Winter Conference on, pages 29-36. IEEE, 2017」、及び「Matthias Schroeder and Helge Ritter. Hand-object interaction detection with fully convolutional networks. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, 2017」を含む、この分野でのこれまでの取り組みが、主に、ピクセルを前景/背景として分類する検出部分のみに関係する。上記のケースでは、対象を背景から分離するだけでなく、ビデオフレームのシーケンス全体で対象の複数の状態間(つまり、ペンアップ状態とペンダウン状態の間)の動的な変化も検出するモデルが構築されている。
【0059】
このピクセル単位の注釈付けタスクにおける目標は、P(vt(x,y)|z1:t)をモデル化することである。ここで、vt(x,y)∈{背景,ペンアップ,ペンダウン}は、(x,y)の位置のピクセルに割り当てられたラベルであり、畳み込みニューラルネットワーク及びリカレントニューラルネットワークを利用して、P(vt(x,y)|z1:t)を効果的にモデル化する。ディープニューラルネットワークのアーキテクチャについては、次のセクションで詳細に説明する。
【0060】
ネットワークアーキテクチャ
1つ又は複数の実施形態では、モデルP(vt(x,y)|z1:t)に対するディープラーニングニューラルネットワークが使用される。図3は、インクストローク検出器ネットワーク201の例示的実施形態を示す。ネットワーク201の図示の実施形態は、エンコーダ301とデコーダ302とからなる。エンコーダ301は、ビデオフレームのシーケンスを入力として取り、畳み込みネットワークから学習された特徴表現を出力する。これは、図3の畳み込みモジュール303によって実行される。システムがペンアップ/ペンダウンイベントを検出するのを助けるペン先の動き及び外観の時間性ダイナミクスを学ぶために、畳み込みモジュールからの特徴マップはさらにリカレントニューラルネットワークに進む。図3のRNNモジュール304を参照されたい。このアーキテクチャは、完全なインクトレースを持つ最後に撮影された画像を参照する必要はない。
【0061】
1つ又は複数の実施形態では、畳み込みネットワークモジュール303は、「Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014」に記載されているVGG-16ネットワークの構造に従う。これは、「Jonathan Long, Evan Shelhamer, and Trevor Darrell. Fully convolutional networks for semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3431-3440, 2015」に記載されているように、完全に連結された層が畳み込み層に変換されることを除き、大規模画像分類のために開発された。リカレントニューラルネットワークブロックでは、「Viorica Patraucean, Ankur Handa, and Roberto Cipolla. Spatio-temporal video autoencoder with differentiable memory. arXiv preprint arXiv:1511.06309, 2015」、「SHI Xingjian, Zhourong Chen, Hao Wang, Dit-Yan Yeung, Wai-Kin Wong, and Wang-chun Woo. Convolutional lstm network: A machine learning approach for precipitation nowcasting. In Advances in neural information processing systems, pages 802-810, 2015」、及び「Yilin Song, Chenge Li, and Yao Wang. Pixel-wise object tracking. arXiv preprint arXiv:1711.07377, 2017」に記載された畳み込みLSTMが、「Sepp Hochreiter and Jurgen Schmidhuber. Long short-term memory. Neural computation, 9(8):1735-1780, 1997」、及び「Wojciech Zaremba, Ilya Sutskever, and Oriol Vinyals. Recurrent neural network regularization. arXiv preprint arXiv:1409.2329, 2014」に記載されている、2D特徴マップを畳み込みネットワークブロックから1Dベクトルに展開し、結果として、すべての空間情報は失われる、完全に接続されたLSTMを使用するのではなく、空間情報を保存するために使用される。
【0062】
1つ又は複数の実施形態では、デコーダ部302において、コード化された特徴マップは逆畳み込み層を通過してピクセル単位のラベルマップを生成する。畳み込みネットワークブロック303と逆畳み込みネットワークブロック305との間の複数のリンク306は、「Jonathan Long, Evan Shelhamer, and Trevor Darrell. Fully convolutional networks for semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3431-3440, 2015」に記載されているように構築することができる。これは高レベルの粗層からの意味情報を低レベルの微細層からの外観情報と組み合わせて、正確で詳細なラベル付けマップを生成するスキップ接続と呼ばれている。
【0063】
コンピュータシステムの例示的な実施形態
図4は、本明細書に記載の技術を実現するために使用することができるコンピュータシステム400の例示的な実施形態を示す。1つ又は複数の実施形態では、コンピュータ400は、当業者には周知のモバイルコンピューティング装置のフォームファクタ内で実現することができる。代替の実施形態では、コンピュータ400はラップトップ又はノートパソコンに基づいて実現されてもよい。さらに別の実施形態では、コンピュータ400は特殊なコンピューティングシステムとすることができる。
【0064】
コンピュータ400は、コンピュータ400の様々なハードウェア構成要素間で情報を通信するためのデータバス404又は他の相互接続又は通信機構と、情報を処理し、その他の計算及び制御タスクを実行するためにデータバス404に結合された中央処理装置(CPU又は単にプロセッサ)401とを含み得る。コンピュータ400はまた、様々な情報ならびプロセッサ401によって実行される命令を格納するためにデータバス404に結合されたランダムアクセスメモリ(RAM)又は他の動的記憶装置などのメモリ412を含む。メモリ412はまた、磁気ディスク、光ディスク、固体フラッシュメモリ装置、又は他の不揮発性固体記憶装置などの永続的記憶装置を含み得る。
【0065】
1つ又は複数の実施形態では、メモリ412は、プロセッサ401による命令の実行中に、一時的な変数又は他の中間情報を格納するためにも使用され得る。任意選択で、コンピュータ400は、読み出し専用メモリ(ROM又はEPROM)402、又はコンピュータ400の動作に必要なファームウェア、基本入出力システム(BIOS)、ならびにコンピュータ400の様々な構成パラメータなどの、プロセッサ401の静的情報及び命令を格納するためにデータバス404に結合された他の静的記憶装置をさらに含み得る。
【0066】
1つ又は複数の実施形態では、コンピュータ400は、ユーザのインクストロークのビデオを取り込むためのカメラ409をさらに組み込むことができる。
【0067】
1つ又は複数の実施形態では、コンピュータ400は、データバス404に結合されたネットワークインタフェース405などの通信インタフェースをさらに含んでもよい。ネットワークインタフェース405は、WIFIインタフェース407及びセルラネットワーク(GSM(登録商標)又はCDMA)アダプタ408のうちの少なくとも1つを使用して、コンピュータ400とインターネット424との間の接続を確立するように構成され得る。ネットワークインタフェース405は、コンピュータ400とインターネット424との間に双方向データ通信を提供するように構成されてもよい。WIFIインタフェース407は、802.11a、802.11b、802.11g、及び/又は802.11nプロトコル、ならびに当業者には周知のブルートゥース(登録商標)プロトコルに従って動作することができる。例示的な実装形態では、WIFIインタフェース407及びセルラネットワーク(GSM(登録商標)又はCDMA)アダプタ408は、様々な種類の情報を表すデジタルデータストリームを搬送する電気信号又は電磁信号を送受信する。
【0068】
1つ又は複数の実施形態では、インターネット424は典型的に、1つ又は複数のサブネットワークを介して他のネットワークリソースへデータ通信を提供する。したがって、コンピュータ400は、遠隔媒体サーバ、ウェブサーバ、他のコンテンツサーバ、ならびに他のネットワークデータ記憶リソースなど、インターネット424上の任意の場所にある様々なネットワークリソースにアクセスすることができる。1つ又は複数の実施形態では、コンピュータ400は、ネットワークインタフェース405によって、インターネット424を含む様々なネットワークを介して、メッセージ、媒体、及びアプリケーションプログラムコードを含む他のデータを送受信するように構成される。インターネットの例では、コンピュータ400がネットワーククライアントとして機能する場合、コンピュータ400で実行されるアプリケーションプログラムのためのコード又はデータを要求することができる。同様に、様々なデータやコンピュータコードを他のネットワークリソースに送信することができる。
【0069】
1つ又は複数の実施形態では、本明細書に記載の機能は、メモリ412に含まれる1つ又は複数の命令の1つ又は複数のシーケンスを実行するプロセッサ401に応答してコンピュータ400によって実施される。そのような命令は、他のコンピュータ可読媒体からメモリ412に読み込まれてもよい。メモリ412に含まれる命令シーケンスの実行は、本明細書に記載されている様々なプロセスステップをプロセッサ401に実行させる。代替の実施形態では、本発明の実施形態を実施するために、ソフトウェア命令の代わりに又はソフトウェア命令と組み合わせて、ハードワイヤード回路を使用することができる。したがって、本発明の実施形態は、ハードウェア回路とソフトウェアとの特定の組み合わせに限定されない。
【0070】
本明細書で使用される「コンピュータ可読媒体」という用語は、実行のためにプロセッサ401に命令を提供することに関与する任意の媒体を指す。コンピュータ可読媒体は機械可読媒体のほんの一例であり、本明細書で説明される方法及び/又は技術のいずれかを実施するための命令を搬送することができる。そのような媒体は多くの形態であり得、不揮発性媒体及び揮発性媒体を含むがこれらに限定されるものではない。
【0071】
一般的な形態の非一時的コンピュータ可読媒体は、例えば、フロッピーディスク(登録商標)、フレキシブルディスク、ハードディスク、磁気テープ、又は他の任意の磁気媒体、CD-ROM、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを有する他の任意の物理的媒体、RAM、PROM、EPROM、フラッシュEPROM、フラッシュドライブ、メモリカード、他の任意のメモリチップ又はカートリッジ、あるいはコンピュータが読み取ることができる他の任意の媒体を含む。様々な形態のコンピュータ可読媒体は、実行のために1つ又は複数の命令の1つ又は複数のシーケンスをプロセッサ401に搬送することに関係することができる。例えば、命令は最初に遠隔コンピュータから磁気ディスク上に運ばれてもよい。あるいは、遠隔コンピュータは命令をその動的メモリにロードし、インターネット424を介して命令を送信することができる。具体的には、コンピュータ命令は、当技術分野で周知の様々なネットワークデータ通信プロトコルを使用して、インターネット424を介して前述の遠隔コンピュータからコンピュータ400のメモリ412にダウンロードすることができる。
【0072】
1つ又は複数の実施形態では、コンピュータ400のメモリ412は、以下のソフトウェアプログラム、アプリケーション、及び/又はモジュールのうちのいずれかを格納することができる。
【0073】
1.オペレーティングシステム(OS)413は、基本的なシステムサービスを実施し、コンピュータ400の様々なハードウェア構成要素を管理するためのモバイルオペレーティングシステムであり得る。オペレーティングシステム413の例示的な実施形態は、当業者には周知であり、現在知られている、又は今後開発される任意のモバイルオペレーティングシステムを含み得る。ネットワークインタフェース405を使用してネットワーク通信を可能にするためのネットワーク通信モジュール414をさらに提供することができる。
【0074】
2.ソフトウェアモジュール415は、例えば、コンピュータ400のプロセッサ401によって実行される一組のソフトウェアモジュールを含むことができ、これは、ユーザのインクストロークのビデオを取り込み(モジュール416)、オンライン手書き認識のために高品質を実行する(モジュール417)など、コンピュータ400に所定の機能を実行させる。
【0075】
3.データ記憶装置418は、例えば、様々なパラメータ及びしきい値419を格納するために使用され得る。
【0076】
最後に、本明細書で説明されるプロセス及び技術は、本質的に特定の装置に関連しておらず、成分の任意の適切な組み合わせによって実施され得ることを理解されたい。さらに、本明細書に記載の教示に従って、様々なタイプの汎用装置を使用することができる。また、本明細書に記載の方法を実行するための特殊化された装置を構築することが有利であってもよい。本発明を特定の実施例に関連して説明してきたが、これらはあらゆる点で限定的ではなく例示的であることが意図されている。当業者は、ハードウェア、ソフトウェア、及びファームウェアの多くの異なる組み合わせが本発明を実施するのに適していることを理解するであろう。例えば、説明されたソフトウェアは、アセンブラ、C/C++、Objective-C、パール、シェル、PHP、ジャバ、ならびに現在知られている又は今後開発されるプログラミング言語又はスクリプト言語などの多種多様なプログラミング言語又はスクリプト言語で実施され得る。
【0077】
さらに、本明細書の考察及び本明細書に開示された本発明の実施から当業者には本発明の他の実施態様が明らかであろう。説明した実施形態の様々な態様及び/又は構成要素は、高品質のオンライン手書き認識のためのシステム及び方法において、単独で又は任意の組み合わせで使用することができる。本明細書及び実施例は、例示的なものとして考えられることが意図され、本発明の真の範囲及び趣旨は、添付の特許請求の範囲によって示される。
図1
図2
図3
図4