(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6689903
(24)【登録日】2020年4月10日
(45)【発行日】2020年4月28日
(54)【発明の名称】ハンドマークされた工業用検査シートから情報を抽出する方法及びシステム
(51)【国際特許分類】
G06T 7/00 20170101AFI20200421BHJP
【FI】
G06T7/00 610
【請求項の数】18
【外国語出願】
【全頁数】23
(21)【出願番号】特願2018-56832(P2018-56832)
(22)【出願日】2018年3月23日
(65)【公開番号】特開2019-87222(P2019-87222A)
(43)【公開日】2019年6月6日
【審査請求日】2018年5月15日
(31)【優先権主張番号】201721039681
(32)【優先日】2017年11月7日
(33)【優先権主張国】IN
(73)【特許権者】
【識別番号】510337621
【氏名又は名称】タタ コンサルタンシー サービシズ リミテッド
【氏名又は名称原語表記】TATA Consultancy Services Limited
(74)【代理人】
【識別番号】100100158
【弁理士】
【氏名又は名称】鮫島 睦
(74)【代理人】
【識別番号】100189544
【弁理士】
【氏名又は名称】柏原 啓伸
(72)【発明者】
【氏名】ゴーラヴ・グプタ
(72)【発明者】
【氏名】スワティ
(72)【発明者】
【氏名】モニカ・シャルマ
(72)【発明者】
【氏名】ロベケシュ・ヴィグ
【審査官】
新井 則和
(56)【参考文献】
【文献】
国際公開第2017/095406(WO,A1)
【文献】
特開平03−266182(JP,A)
【文献】
特開2002−073692(JP,A)
【文献】
特開2010−026805(JP,A)
【文献】
R.Girshick et al.,Rich feature hierarchies for accurate object detection and semantic segmentation,2014 IEEE Conference on Computer Vision and Pattern Recognition,米国,IEEE,2014年 9月25日,pp.580−587
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 − 7/90
(57)【特許請求の範囲】
【請求項1】
ドキュメントデジタル化システムにより、一つ若しくはそれ以上のハードウエアプロセッサを介して、検査シートをインプットとして収集するステップと、
ドキュメントデジタル化システムにより、一つ若しくはそれ以上のハードウエアプロセッサを介して、検査シート内の一つ若しくはそれ以上の直線図におけるコンポーネント位置特定を実行するステップであって、コンポーネント位置特定は、前記一つ若しくはそれ以上の直線図内の様々な機械ゾーンの特定及び分類を含む、コンポーネント位置特定を実行するステップと、
ドキュメントデジタル化システムにより、一つ若しくはそれ以上のハードウエアプロセッサを介して、前記検査シート内の前記一つ若しくはそれ以上の直線図における矢印の頭部及び尾部の位置特定を実行するステップであって、矢印の頭部及び尾部の位置特定は、前記検査シート内に存在する全ての矢印に対して、前記検査シート内の矢印の頭部及び尾部の点を特定することを含み、矢印の頭部及び尾部の位置特定は、
ドキュメントデジタル化システムにより、検査シート内の複数の関心領域(ROI)を規定することと、
ドキュメントデジタル化システムにより、前記複数の関心領域(ROI)内でキーポイント位置特定を実行することであって、ROI内に存在する全ての矢印の頭部及び尾部の点がキーポイント位置特定を実行することにより特定される、キーポイント位置特定を実行することと
から成る、矢印の頭部及び尾部の位置特定を実行するステップと、
ドキュメントデジタル化システムにより、一つ若しくはそれ以上のハードウエアプロセッサを介して、前記検査シート内のテキスト検出を実行するステップであって、テキスト検出は、前記検査シート内の全てのテキストと、前記検査シート内の一つ若しくはそれ以上のクラスタに関して特定されたテキストの位置とを、検出することを含む、テキスト検出を実行するステップと、
ドキュメントデジタル化システムにより、一つ若しくはそれ以上のハードウエアプロセッサを介して、テキストの矢印へのマッピングを実行するステップであって、テキストの矢印へのマッピングは、前記特定された矢印の頭部及び尾部の点と、テキストが内に存在するクラスタの位置とに基づく、テキストの矢印へのマッピングを実行するステップと、
ドキュメントデジタル化システムにより、一つ若しくはそれ以上のハードウエアプロセッサを介して、ゾーンの矢印へのマッピングを実行するステップであって、ゾーンの矢印へのマッピングは、前記特定された矢印の頭部及び尾部の点と、前記コンポーネント位置特定の間に特定された機械ゾーンとに基づく、ゾーンの矢印へのマッピングを実行するステップと、及び、
ドキュメントデジタル化システムにより、一つ若しくはそれ以上のハードウエアプロセッサを介して、テキストの矢印へのマッピング及びゾーンの矢印へのマッピングの結果に基づいて、様々な機械ゾーンと対応するテキストを特定するステップと
を含む、プロセッサ実装方法。
【請求項2】
ゾーン位置特定は、
ドキュメントデジタル化システムと関連するデータベースに格納される複数のテンプレートシートと、前記検査シートの、ピクセルレベルの比較を実行することであって、前記複数のテンプレートシートは、ゾーンが輪郭として表される一つ若しくはそれ以上の直線図を有する、ピクセルレベルの比較を実行することと、
少なくとも一つのテンプレートシートを、検査シートとのマッチングとして特定することと、及び、
検査シートとのマッチングするテンプレートシートとして特定される、テンプレート内で規定される輪郭に基づいて、検査シート内の様々な機械ゾーンを特定することと
から成る、請求項1に記載の方法。
【請求項3】
テキスト検出は、
ドキュメントデジタル化システムにより、検査シートからノイズを除去することと、
ドキュメントデジタル化システムにより、検査シート内に存在する全てのテキストセグメント及びオブジェクトに対する、全ての境界ボックス(BB)を特定することと、
ドキュメントデジタル化システムにより、特定された全ての境界ボックス(BB)に対する、オーバラップする領域を除去することと、及び、
ドキュメントデジタル化システムにより、境界ボックス(BB)のエリアからテキストセグメントを抽出することと
から成る、請求項1に記載の方法。
【請求項4】
テキストの矢印へのマッピングは、
ドキュメントデジタル化システムにより、一つ若しくはそれ以上の矢印の尾部の点の近傍に基づいて、テキスト検出の間に抽出されるテキストセグメントをフィルタすることと、及び、
ドキュメントデジタル化システムにより、クラスタ内に存在する、矢印と最も近いテキストを、その特定の矢印と関連するテキストとして、特定することと
から成る、請求項1に記載の方法。
【請求項5】
ゾーンの矢印へのマッピングは、
ドキュメントデジタル化システムにより、矢印の頭部及び尾部の位置特定の間に特定された頭部及び尾部の点を、ゾーン位置特定の間に特定された機械ゾーンと比較することと、
ドキュメントデジタル化システムにより、任意の矢印の頭部の点が、機械ゾーンの内部に在るのか、若しくは機械ゾーンの境界に接触しているか、決定することと、
ドキュメントデジタル化システムにより、頭部の点がどの機械ゾーンの内部にも無いと特定されれば、頭部の点が機械ゾーンの内部に存在するまで、矢印が指し示す方向に頭部の点を外挿することと、及び、
ドキュメントデジタル化システムにより、頭部の点が、その特定の機械ゾーンの内部に在るとして、若しくはその特定の機械ゾーンの境界に接触しているとして、特定されれば、矢印の頭部の点を機械ゾーンへ割り当てることと
から成る、請求項1に記載の方法。
【請求項6】
テキストの矢印へのマッピング及びゾーンの矢印へのマッピングの結果に基づいて、様々な機械ゾーンと対応するテキストを特定するステップは、
矢印と関連するテキスト及び機械ゾーンを直接に割り当てること
から成る、請求項1に記載の方法。
【請求項7】
ドキュメントデジタル化システムにおいて、
プロセッサと、及び、複数の命令を含有するメモリモジュールとを含み、
前記複数の命令は、
ドキュメントデジタル化システムのインプット/アウトプット(I/O)モジュールによって、一つ若しくはそれ以上のハードウエアプロセッサを介して、検査シートをインプットとして収集するステップと、
ドキュメントデジタル化システムのコンポーネント位置特定モジュールによって、検査シート内の一つ若しくはそれ以上の直線図におけるコンポーネント位置特定を実行するステップであって、コンポーネント位置特定は、前記一つ若しくはそれ以上の直線図内の様々な機械ゾーンの特定及び分類を含む、コンポーネント位置特定を実行するステップと、
ドキュメントデジタル化システムの矢印位置特定モジュールによって、前記検査シート内の前記一つ若しくはそれ以上の直線図における矢印の頭部及び尾部の位置特定を実行するステップであって、矢印の頭部及び尾部の位置特定は、前記検査シート内に存在する全ての矢印に対して、前記検査シート内の矢印の頭部及び尾部の点を特定することを含み、矢印の頭部及び尾部の位置特定は、
ドキュメントデジタル化システムにより、検査シート内の複数の関心領域(ROI)を規定することと、
ドキュメントデジタル化システムにより、前記複数の関心領域(ROI)内でキーポイント位置特定を実行することであって、ROI内に存在する全ての矢印の頭部及び尾部の点がキーポイント位置特定を実行することにより特定される、キーポイント位置特定を実行することと
から成る、矢印の頭部及び尾部の位置特定を実行するステップと、
ドキュメントデジタル化システムのテキスト検出モジュールによって、前記検査シート内のテキスト検出を実行するステップであって、テキスト検出は、前記検査シート内の全てのテキストと、前記検査シート内の一つ若しくはそれ以上のクラスタに関して特定されたテキストの位置とを、検出することを含む、テキスト検出を実行するステップと、
ドキュメントデジタル化システムのマッピングモジュールによって、テキストの矢印へのマッピングを実行するステップであって、テキストの矢印へのマッピングは、前記特定された矢印の頭部及び尾部の点と、テキストが内に存在するクラスタの位置とに基づく、テキストの矢印へのマッピングを実行するステップと、
マッピングモジュールによって、ゾーンの矢印へのマッピングを実行するステップであって、ゾーンの矢印へのマッピングは、前記特定された矢印の頭部及び尾部の点と、前記コンポーネント位置特定の間に特定された機械ゾーンとに基づく、ゾーンの矢印へのマッピングを実行するステップと、及び、
マッピングモジュールによって、テキストの矢印へのマッピング及びゾーンの矢印へのマッピングの結果に基づいて、様々な機械ゾーンと対応するテキストを特定するステップと
を、前記プロセッサに実行させるように構成されている、
ドキュメントデジタル化システム。
【請求項8】
コンポーネント位置特定モジュールは、
ドキュメントデジタル化システムと関連するデータベースに格納される複数のテンプレートシートと、前記検査シートを比較する、ピクセルレベルの比較を実行することであって、前記複数のテンプレートシートは、ゾーンが輪郭として表される一つ若しくはそれ以上の直線図を有する、ピクセルレベルの比較を実行することと、
少なくとも一つのテンプレートシートを、検査シートとのマッチングとして特定することと、及び、
検査シートとのマッチングするテンプレートシートとして特定される、テンプレート内で規定される輪郭に基づいて、検査シート内の様々な機械ゾーンを特定することと
により、
ゾーン位置特定を実行する、
請求項7に記載のドキュメントデジタル化システム。
【請求項9】
テキスト検出モジュールは、
ドキュメントデジタル化システムにより、検査シートからノイズを除去することと、
ドキュメントデジタル化システムにより、検査シート内に存在する全てのテキストセグメント及びオブジェクトに対する、全ての境界ボックス(BB)を特定することと、
ドキュメントデジタル化システムにより、特定された全ての境界ボックス(BB)に対する、オーバラップする領域を除去することと、及び、
ドキュメントデジタル化システムにより、境界ボックス(BB)のエリアからテキストセグメントを抽出することと
により、
テキスト検出を実行する、
請求項7に記載のドキュメントデジタル化システム。
【請求項10】
マッピングモジュールは、
一つ若しくはそれ以上の矢印の尾部の点の近傍に基づいて、テキスト検出の間に抽出されるテキストセグメントをフィルタすることと、及び、
クラスタ内に存在する、矢印と最も近いテキストを、その特定の矢印と関連するテキストとして、特定することと
により、
テキストの矢印へのマッピングを実行する、
請求項7に記載のドキュメントデジタル化システム。
【請求項11】
マッピングモジュールは、
ドキュメントデジタル化システムにより、矢印の頭部及び尾部の位置特定の間に特定された頭部及び尾部の点を、ゾーン位置特定の間に特定された機械ゾーンと比較することと、
ドキュメントデジタル化システムにより、任意の矢印の頭部の点が、機械ゾーンの内部に在るのか、若しくは機械ゾーンの境界に接触しているか、決定することと、
ドキュメントデジタル化システムにより、頭部の点がどの機械ゾーンの内部にも無いと特定されれば、頭部の点が機械ゾーンの内部に存在するまで、矢印が指し示す方向に頭部の点を外挿することと、及び、
ドキュメントデジタル化システムにより、頭部の点が、その特定の機械ゾーンの内部に在るとして、若しくはその特定の機械ゾーンの境界に接触しているとして、特定されれば、矢印の頭部の点を機械ゾーンへ割り当てることと
により、
ゾーンの矢印へのマッピングを実行する、
請求項7に記載のドキュメントデジタル化システム。
【請求項12】
マッピングモジュールは、
矢印と関連するテキスト及び機械ゾーンを直接に割り当てることにより、
テキストの矢印へのマッピング及びゾーンの矢印へのマッピングの結果に基づいて、様々な機械ゾーンと対応するテキストを特定する、
請求項7に記載のドキュメントデジタル化システム。
【請求項13】
一つ若しくはそれ以上の命令を含む、一つ若しくはそれ以上の非一時性機械読み取り可能情報格納媒体において、
一つ若しくはそれ以上のハードウエアプロセッサにより実行されると、前記一つ若しくはそれ以上の命令は、
検査シートをインプットとして収集するステップと、
検査シート内の一つ若しくはそれ以上の直線図におけるコンポーネント位置特定を実行するステップであって、コンポーネント位置特定は、前記一つ若しくはそれ以上の直線図内の様々な機械ゾーンの特定及び分類を含む、コンポーネント位置特定を実行するステップと、
前記検査シート内の前記一つ若しくはそれ以上の直線図における矢印の頭部及び尾部の位置特定を実行するステップであって、矢印の頭部及び尾部の位置特定は、前記検査シート内に存在する全ての矢印に対して、矢印の頭部及び尾部の点を特定することを含み、矢印の頭部及び尾部の位置特定は、
ドキュメントデジタル化システムにより、検査シート内の複数の関心領域(ROI)を規定することと、
ドキュメントデジタル化システムにより、前記複数の関心領域(ROI)内でキーポイント位置特定を実行することであって、ROI内に存在する全ての矢印の頭部及び尾部の点がキーポイント位置特定を実行することにより特定される、キーポイント位置特定を実行することと
から成る、矢印の頭部及び尾部の位置特定を実行するステップと、
前記検査シート内のテキスト検出を実行するステップであって、テキスト検出は、前記検査シート内の全てのテキストと、前記検査シート内の一つ若しくはそれ以上のクラスタに関して特定されたテキストの位置とを、検出することを含む、テキスト検出を実行するステップと、
テキストの矢印へのマッピングを実行するステップであって、テキストの矢印へのマッピングは、前記特定された矢印の頭部及び尾部の点と、テキストが内に存在するクラスタの位置とに基づく、テキストの矢印へのマッピングを実行するステップと、
ゾーンの矢印へのマッピングを実行するステップであって、ゾーンの矢印へのマッピングは、前記特定された矢印の頭部及び尾部の点と、前記コンポーネント位置特定の間に特定された機械ゾーンとに基づく、ゾーンの矢印へのマッピングを実行するステップと、及び、
テキストの矢印へのマッピング及びゾーンの矢印へのマッピングの結果に基づいて、様々な機械ゾーンと対応するテキストを特定するステップと
を行わせる、
非一時性機械読み取り可能情報格納媒体。
【請求項14】
一つ若しくはそれ以上のハードウエアプロセッサにより実行されると、前記一つ若しくはそれ以上の命令は、ゾーン位置特定のために、
ドキュメントデジタル化システムと関連するデータベースに格納される複数のテンプレートシートと、前記検査シートの、ピクセルレベルの比較を実行することであって、前記複数のテンプレートシートは、ゾーンが輪郭として表される一つ若しくはそれ以上の直線図を有する、ピクセルレベルの比較を実行することと、
少なくとも一つのテンプレートシートを、検査シートとのマッチングとして特定することと、及び、
検査シートとのマッチングするテンプレートシートとして特定される、テンプレート内で規定される輪郭に基づいて、検査シート内の様々な機械ゾーンを特定することと
を行わせる、
請求項13に記載の一つ若しくはそれ以上の非一時性機械読み取り可能情報格納媒体。
【請求項15】
一つ若しくはそれ以上のハードウエアプロセッサにより実行されると、前記一つ若しくはそれ以上の命令は、テキスト検出のために、
ドキュメントデジタル化システムにより、検査シートからノイズを除去することと、
ドキュメントデジタル化システムにより、検査シート内に存在する全てのテキストセグメント及びオブジェクトに対する、全ての境界ボックス(BB)を特定することと、
ドキュメントデジタル化システムにより、特定された全ての境界ボックス(BB)に対する、オーバラップする領域を除去することと、及び、
ドキュメントデジタル化システムにより、境界ボックス(BB)のエリアからテキストセグメントを抽出することと
を行わせる、
請求項13に記載の一つ若しくはそれ以上の非一時性機械読み取り可能情報格納媒体。
【請求項16】
一つ若しくはそれ以上のハードウエアプロセッサにより実行されると、前記一つ若しくはそれ以上の命令は、テキストの矢印へのマッピングを実行するために、
ドキュメントデジタル化システムにより、一つ若しくはそれ以上の矢印の尾部の点の近傍に基づいて、テキスト検出の間に抽出されるテキストセグメントをフィルタすることと、及び、
ドキュメントデジタル化システムにより、クラスタ内に存在する、矢印と最も近いテキストを、その特定の矢印と関連するテキストとして、特定することと
を行わせる、
請求項13に記載の一つ若しくはそれ以上の非一時性機械読み取り可能情報格納媒体。
【請求項17】
一つ若しくはそれ以上のハードウエアプロセッサにより実行されると、前記一つ若しくはそれ以上の命令は、ゾーンの矢印へのマッピングを実行するために、
ドキュメントデジタル化システムにより、矢印の頭部及び尾部の位置特定の間に特定された頭部及び尾部の点を、ゾーン位置特定の間に特定された機械ゾーンと比較することと、
ドキュメントデジタル化システムにより、任意の矢印の頭部の点が、機械ゾーンの内部に在るのか、若しくは機械ゾーンの境界に接触しているか、決定することと、
ドキュメントデジタル化システムにより、頭部の点がどの機械ゾーンの内部にも無いと特定されれば、頭部の点が機械ゾーンの内部に存在するまで、矢印が指し示す方向に頭部の点を外挿することと、及び、
ドキュメントデジタル化システムにより、頭部の点が、その特定の機械ゾーンの内部に在るとして、若しくはその特定の機械ゾーンの境界に接触しているとして、特定されれば、矢印の頭部の点を機械ゾーンへ割り当てることと
を行わせる、
請求項13に記載の一つ若しくはそれ以上の非一時性機械読み取り可能情報格納媒体。
【請求項18】
一つ若しくはそれ以上のハードウエアプロセッサにより実行されると、前記一つ若しくはそれ以上の命令は、テキストの矢印へのマッピング及びゾーンの矢印へのマッピングの結果に基づいて、様々な機械ゾーンと対応するテキストを特定するために、矢印と関連するテキスト及び機械ゾーンを直接に割り当てること
を行わせる、
請求項13に記載の一つ若しくはそれ以上の非一時性機械読み取り可能情報格納媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照と優先権
本願は、2017年11月7日出願の印度国完全明細書第201721039681号の優先権を主張する。
【0002】
技術分野
本開示は、概略ドキュメント処理に関し、特にハンドマークされた工業用検査シートから情報を抽出することに関する。
【背景技術】
【0003】
工業、特に重工業では、重機の検査は手動で行われる。機械を検査するユーザは、検査される様々な機械の直線図を含む検査シートを持ち運び、コメントを手作業で書き留める。ユーザが、検査される機械の様々なコンポーネントに対してコメントをマークしつつ、検査シートの直線図内にコンポーネントの方を指す矢印を置き、続いて対応するコメントを書く、というのが一般的なやり方である。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、このプロセスには或る不利な点がある。例えば、多数の機械が用いられる工業にて検査が実行されることを考慮されたい。全ての機械の検査に対応する検査シートを維持することは、特に検査が長年に亘り何度も実行され得るという事実を考慮すると、面倒な仕事である。更に、データは検査シート上に手で書き留められており、データは非体系的フォーマットにあるので、これらの検査シートからデータを抽出することは困難である。データ抽出が困難であると、データのデジタル化は困難である。
【課題を解決するための手段】
【0005】
本開示の実施形態は、発明者により認識されている、従来のシステムにおける上述の技術的問題点の一つ若しくはそれ以上の解決策として、技術的改良を示す。例えば、一つの実施形態では、プロセッサ実装方法が提示される。最初に、ドキュメントデジタル化システムにより、一つ若しくはそれ以上のハードウエアプロセッサを介して、検査シートがインプットとして収集される。更に、ドキュメントデジタル化システムにより、検査シート内の一つ若しくはそれ以上の直線図におけるコンポーネント位置特定が、実行されるが、コンポーネント位置特定は、前記一つ若しくはそれ以上の直線図内の様々な機械ゾーンの特定及び分類を含む。更に、ドキュメントデジタル化システムにより、一つ若しくはそれ以上のハードウエアプロセッサを介して、前記検査シート内の前記一つ若しくはそれ以上の直線図における矢印の頭部及び尾部の位置特定が、実行されるが、矢印の頭部及び尾部の位置特定は、前記検査シート内に存在する全ての矢印に対して、前記検査シート内の矢印の頭部及び尾部の点を特定することを含む。更に、ドキュメントデジタル化システムにより、前記検査シート内のテキスト検出が、実行されるが、テキスト検出は、前記検査シート内の全てのテキストと、前記検査シート内の一つ若しくはそれ以上のクラスタに関して特定されたテキストの位置とを、検出することを含む。更に、ドキュメントデジタル化システムにより、一つ若しくはそれ以上のハードウエアプロセッサを用いて、テキストの矢印へのマッピングが、実行されるが、テキストの矢印へのマッピングは、前記特定された矢印の頭部及び尾部の点と、テキストが内に存在するクラスタの位置とに基づく。更に、 ドキュメントデジタル化システムにより、一つ若しくはそれ以上のハードウエアプロセッサを介して、ゾーンの矢印へのマッピングが、実行されるが、ゾーンの矢印へのマッピングは、前記特定された矢印の頭部及び尾部の点と、前記コンポーネント位置特定の間に特定された機械ゾーンとに基づく。最後に、ドキュメントデジタル化システムは、一つ若しくはそれ以上のハードウエアプロセッサを介して、テキストの矢印へのマッピング及びゾーンの矢印へのマッピングの結果に基づいて、様々な機械ゾーンと対応するテキストを特定する。
【0006】
更に別の態様では、ドキュメントデジタル化システムが提示される。システムは、プロセッサと、及び、複数の命令を含有するメモリモジュールとを含む。前記複数の命令はプロセッサに対して、ドキュメントデジタル化システムのインプット/アウトプット(I/O)モジュールによって、一つ若しくはそれ以上のハードウエアプロセッサを介して、検査シートをインプットとして収集することをさせるように、構成されている。更に、ドキュメントデジタル化システムのコンポーネント位置特定モジュールは、検査シート内の一つ若しくはそれ以上の直線図におけるコンポーネント位置特定を実行するが、コンポーネント位置特定は、前記一つ若しくはそれ以上の直線図内の様々な機械ゾーンの特定及び分類を含む。更に、ドキュメントデジタル化システムの矢印位置特定モジュールは、前記検査シート内の前記一つ若しくはそれ以上の直線図における矢印の頭部及び尾部の位置特定を実行するが、矢印の頭部及び尾部の位置特定は、前記検査シート内に存在する全ての矢印に対して、前記検査シート内の矢印の頭部及び尾部の点を特定することを含む。更に、ドキュメントデジタル化システムのテキスト検出モジュールは、前記検査シート内のテキスト検出を実行するが、テキスト検出は、前記検査シート内の全てのテキストと、前記検査シート内の一つ若しくはそれ以上のクラスタに関して特定されたテキストの位置とを、検出することを含む。更に、ドキュメントデジタル化システムのマッピングモジュールは、テキストの矢印へのマッピングを実行するが、テキストの矢印へのマッピングは、前記特定された矢印の頭部及び尾部の点と、テキストが内に存在するクラスタの位置とに基づく。マッピングモジュールは更に、ゾーンの矢印へのマッピングを実行するが、ゾーンの矢印へのマッピングは、前記特定された矢印の頭部及び尾部の点と、前記コンポーネント位置特定の間に特定された機械ゾーンとに基づく。マッピングモジュールは更に、テキストの矢印へのマッピング及びゾーンの矢印へのマッピングの結果に基づいて、様々な機械ゾーンと対応するテキストを特定する。
【0007】
当然ながら、前述の一般的な記載及び後述の詳細な記載は例示且つ注釈に過ぎず、請求項に係る発明を限定するものでは無い。
【図面の簡単な説明】
【0008】
添付の図面は、組み込まれて本開示の一部を構成するが、例示の実施形態を説明しており、明細書と共に、開示する原理を説明するべく機能する。
【0009】
【
図1】
図1は、本開示のある実施形態に係る、ドキュメントデジタル化システムのコンポーネントを表す例示のブロック図を示す。
【
図2a】
図2aは、本開示のある実施形態に係る、ドキュメントデジタル化システムによるドキュメントデジタル化のプロセスに含まれるステップを表すフロー図である。
【
図2b】
図2bは、本開示のある実施形態に係る、ドキュメントデジタル化システムによるドキュメントデジタル化のプロセスに含まれるステップを表すフロー図である。
【
図3】
図3は、本開示のある実施形態に係る、ドキュメントデジタル化システムによる機械コンポーネント位置特定のプロセスに含まれるステップを表すフロー図である。
【
図4】
図4は、本開示のある実施形態に係る、ドキュメントデジタル化システムによる矢印位置特定のプロセスに含まれるステップを表すフロー図である。
【
図5】
図5は、本開示のある実施形態に係る、ドキュメントデジタル化システムによるテキスト検出のプロセスに含まれるステップを表すフロー図である。
【
図6】
図6は、本開示のある実施形態に係る、ドキュメントデジタル化システムによる、テキストの矢印へのマッピングのプロセスに含まれるステップを表すフロー図である。
【
図7】
図7は、本開示のある実施形態に係る、ドキュメントデジタル化システムによる、テキストのゾーンへのマッピングのプロセスに含まれるステップを表すフロー図である。
【
図8】
図8は、本開示のある実施形態に係る、検査シート内でテキストと機械ゾーンを接続する矢印の使用を表す、例示図である。
【
図9a】
図9aは、本開示のある実施形態に係る、コンポーネント位置特定に用いられるモデルを表す例示図である。
【
図9b】
図9bは、本開示のある実施形態に係る、コンポーネント位置特定に用いられるモデルを表す例示図である。
【
図10】
図10は、本開示のある実施形態に係る、矢印位置特定に用いられるモデルを表す例示図である。
【
図11a】
図11aは、本開示のある実施形態に係る、テキスト検出のステージを表す例示図である。
【
図11b】
図11bは、本開示のある実施形態に係る、テキスト検出のステージを表す例示図である。
【
図11c】
図11cは、本開示のある実施形態に係る、テキスト検出のステージを表す例示図である。
【
図11d】
図11dは、本開示のある実施形態に係る、テキスト検出のステージを表す例示図である。
【
図11e】
図11eは、本開示のある実施形態に係る、テキスト検出のステージを表す例示図である。
【
図12】
図12は、本開示のある実施形態に係る、テキストの矢印へのマッピングを表す例示図である。
【発明を実施するための形態】
【0010】
添付の図面を参照して、例示の実施形態を説明する。図面では、参照番号の左端桁は、その参照番号が最初に登場する図面を特定する。有用である限り、同じ又は類似の部分を示すべく、図面全体に亘って同じ参照番号が用いられる。本明細書では本開示の原理に関する例や特徴を記載しているが、本開示の実施形態の精神及び範囲から乖離することが無ければ、変更、適応、及び他の実装が可能である。以下の詳細な説明は例示としてのみ考慮され、真の範囲及び精神は以下の請求項により示されることが、意図されている。
【0011】
図面、特に
図1〜
図12を参照すると、図面では同様の参照文字は図面全体を通して一貫して対応する特徴を示しているのであるが、好適な実施形態が示されており、これらの実施形態は以下の例示のシステム及び/又は方法に照らして記載されている。
【0012】
図1は、本開示のある実施形態に係る、ドキュメントデジタル化システムのコンポーネントを表す例示のブロック図を示す。ドキュメントデジタル化システム100は、検査シートに存在する(テキスト、機械ゾーン、矢印などの)コンテンツを特定して、コンテンツ/情報を抽出する前に、データの精度のために、特定されたコンテンツの間の関係を特定することを、要求する。抽出されると、情報はデジタル化され得る。
【0013】
ドキュメントデジタル化システム100は、インプット/アウトプット(I/O)モジュール101、コンポーネント位置特定モジュール102、矢印位置特定モジュール103、テキスト検出モジュール104、マッピングモジュール105、メモリモジュール106、及び処理モジュール107を含む。
【0014】
I/Oモジュール101は、ドキュメントデジタル化システム100に対して少なくとも一つの通信インタフェースを提供して、少なくとも一つの外部エンティティとの通信を確立するように構成される。ここで、用語「外部エンティティ」は、ドキュメントをデジタル化することと、及び/又は、デジタル化されたデータを一つ若しくはそれ以上の外部エンティティに提供することとのための、ドキュメントデジタル化システム100と通信する必要がある、任意のデバイス/システムを示し得る。ある実施形態では、本明細書の用語「ドキュメント」は、検査シートを示す。他の実施形態では、検査シートと同様の構造を備え、同様のデータ構造の情報を含む、ドキュメントはどれも、ドキュメントデジタル化システム100を用いて処理され得る。I/Oモジュール101は、ドキュメントデジタル化システム100の様々なコンポーネント間で通信を促進するべく、適切な通信チャネルに適切な通信プロトコルを提供するように更に構成され得る。
【0015】
コンポーネント位置特定モジュール102は、インプットとして収集される検査シートを処理して、処理される検査シートに存在する全ての直線図のコンポーネント位置特定を実行するように、構成されている。コンポーネント位置特定は、検査シートに存在する、(
図9aに描かれるような)機械の直線図の機械ゾーンを測定するのに用いられる。ここで、「機械ゾーン」は、検査のために定義される(
図9bに描かれるような)機械の様々なパーツ/コンポーネントを、示し得る。コンポーネント位置特定モジュール102は、テンプレートマッチング技術を用いることにより、コンポーネント位置特定を実行する。メモリモジュール106は、テンプレートシートを保有し、少なくとも一つは検査される個々の機械に対応し、個々のテンプレートシートでは、機械ゾーンは輪郭のようにマーク付けされる。テンプレートマッチングの間、コンポーネント位置特定モジュール102は当初、メモリモジュール106からテンプレートシートをフェッチし、検査シートをテンプレートシートと比較する。ドキュメントを比較するのに、スライドウインドウプロトコルなどの、どんな適切な技術が用いられてもよい。マッチを特定するに当たり、コンポーネント位置特定モジュール102は、その特定のテンプレートシートをショートリスト化し、更に、検査シート及びショートリスト化されたテンプレートシートについての、ピクセルレベルの比較を実行する。テンプレートシートは、機械ゾーンが輪郭としてマーク付けされているので、ピクセルレベルの比較により、コンポーネント位置特定モジュール102は、検査シートの機械ゾーンを特定する。ピクセルレベルの分析にて、コンポーネント位置特定モジュール102は、相互相関計量を算出して、検査シートの全ての行及び列に亘ってそれを最大化する。比較のために、コンポーネント位置特定モジュール102は、検査シート内に与えられる機械図の左上の座標として、最も高い相関ポイント(l
k)を想定でき、以下の式によりl
kに基づいて、対応する機械ゾーン(Z
k)の輪郭を見出す。
【数1】
ここで、C
kは、テンプレート画像内の機械ゾーンの輪郭である。
【0016】
矢印位置特定モジュール103は、矢印位置特定を実行して検査シートに存在する個々の矢印の頭部及び尾部の点を特定する。検査シートでは、矢印は、(
図8に示すように)対応する機械ゾーンにテキストセグメントをマッピングする接続エンティティとして作用する。この場合、矢印の頭部は機械ゾーンの方を指しているものであり、対応するテキストは矢印の尾部の点近くに在る。検査シートで手書きの矢印に関して矢印位置特定を実行するために、矢印位置特定モジュール103は最初、ディープニューラルネットワークモデルを用いて矢印構造を学習する。このステップは更に以下を含む。
1.検査シートで関心領域(ROI)を特定すること。
2.矢印の頭部及び尾部の点を特定すること。
【0017】
ROIは、検査シート内の全ての矢印周りの、矩形境界から成る。検査シート内のROIは、高速の地域ベースの畳み込みニューラルネットワーク(RCNN)モデルに基づいて特定されるが、該高速の地域ベースの畳み込みニューラルネットワークモデルは、トレーニング画像のセットからの、多数の検査シートに関するモデルをトレーニングすることにより生成される。あるシナリオでは、矢印は相互に非常に近接して存在し、結果として単独のROI内に一つ以上の矢印が在ることになる。このことは矢印位置特定を実行する間に混乱を生じてしまうことがあるので、この問題を回避するために、高速RCNNモデルが部分的な矢印に関して訓練されるのであるが、ここで「部分的な矢印」とは、矢印の頭部と、その矢印の頭部に付属するシャフトの部分とを示す。部分的な矢印を選択する別の理由は、ROIのサイズの低変動である。結果として生成される提案の数はこのサイズに対してより高いものとなり、このことにより次は提案の検出に対する再現率が増加する。トレーニングに対して、高速RCNNは、ランダム重み初期化を伴うツエイラ−ファーガス(Zeiler−Fergus)ネットワークを用いて、完全なトレーニングセットから、手作業の注釈付きの矢印画像に関して、トレーニングされる。最大の検証精度まで、訓練される。
【0018】
ROIを特定した後、矢印位置特定モジュール103は、特定されたROI内の矢印に対する頭部及び尾部の点の位置特定を実行する。ある実施形態では、回帰モデルに基づいてディープ畳み込みニューラルネットワーク(CNN)を用いて、矢印の頭部及び尾部の点を検出する。回帰モデルは、検査シート内の矢印の頭部及び尾部の点の、ピクセル位置を予測し、これに基づいて、矢印位置特定モジュール103は、部分的な矢印の端点と、矢印が指している方向を検出する。このディープ畳み込みニューラルネットワーク(CNN)を訓練するために、多数の検査シートからの矢印画像を含むトレーニングセットから採られる、部分的な矢印の刈り込み画像が用いられる。例示の実装のシナリオにて、合計1000の矢印画像が存在することを想定されたい。それらは、トレーニングと検証のために、夫々800と200のセットにランダムで分割されている。モデルは、夫々8、16、32、32及び64のフィルタを伴う、5つの畳み込みレイヤを含み、続いて(
図10に示すように)2つの完全接続レイヤがある。最後の完全接続レイヤ以外の各々のレイヤは、それらの活性化関数として修正線形ユニット(ReLU)を用いることができる。各々の畳み込みレイヤには、サイズ2×2のマックスプールレイヤが続く。各々の畳み込みレイヤは、3×3のカーネルサイズのフィルタを用いる。最後の完全接続レイヤは、矢印の頭部及び尾部のx及びyの位置を表す4つの隠れユニットを有し、任意の適切な線形活性化関数を用いることができる。例えば、用いられる線形活性化関数は、平均平方誤差費用関数を最適化するための、デフォルトのハイパーパラメータを伴うアダム(Adam)最適化ツールである。トレーニングで用いられるエポックの数は500であり、これは、最高の検証精度が矢印位置特定モジュール103により達成されるところのものである。画像のインプットサイズが150×150であることも想定されたい。
【0019】
テキスト検出モジュール104は、処理されている検査シート内でテキストを検出するべく、テキスト位置特定を実行するように構成されている。全ての検査シートは、テキスト位置特定を実行している間に廃棄され得る或る標準データを有するものである。例えば、標準フォーマットである全ての検査シートは、或る共通情報を所定の位置に備えることができるが、それらは無意味な、繰り返されるオブジェクトである。それらのコンテンツは、テキスト検出の精度を向上させるために、テキスト検出の前に検査シートから除去されるべきものである。テキスト検出モジュール104は、バックグラウンド除去法を用いて不必要な情報を除去するが、このことはテンプレートマッチングにより達成される。このステップでは、テキスト検出モジュール104は、検査シート内に、(例えば、
図11aのテキスト及び矢印である)ユーザにより加えられるコンテンツのみ残して、検査シートから、検査シートにマッチするとして特定されるテンプレートシートを除去する。バックグラウンド除去法を実行した後、テキスト検出モジュール104は、適宜の手段を用いることにより、検査シートから(
図11bのような)ノイズを除去する。例えば、テキスト検出モジュール104は、検査シートからノイズを除去するために、メジアンフィルタのモルフォロジー演算に依存してもよい。
【0020】
ノイズを除去した後、テキスト検出モジュール104は、検査シートに存在する全てのテキストセグメント及びオブジェクトのための(
図11c〜
図11eのような)境界ボックス(BB)を特定する。テキスト検出モジュール104は、検査シート内のBBを特定知るために「連結成分分析」などの任意の適切なアルゴリズムを用いてもよいが、これに限定されない。テキスト及び/又はオブジェクトが相互に近接して位置するときにBBが存在しており、よって結果として一つ以上のテキスト及び/又はオブジェクトが単独のボックス内に存在していることになる(言い換えれば、オーバラップする領域が存在している)。特定されると、オーバラップする領域が、非最大抑制(NMS)などの適切なアルゴリズムを用いて除去されるが、これに限定されない。続いてテキスト検出モジュール104は、ピクセル値の観点での、所定の上方及び下方閾値に基づいて、特定されたBBの領域からテキストを検出する。ある実施形態では、閾値は経験的に定義される。
【0021】
マッピングモジュール105は、テキストの矢印へのマッピング、ゾーンの矢印へのマッピング、及びテキストのゾーンへのマッピングを、実行するように構成されている。以下にて、プロセスを説明する。
【0022】
a.テキストの矢印へのマッピング
テキストの矢印へのマッピングは、検査シート内の全ての矢印と対応させてテキストを特定するように実行される。マッピングモジュール105は、矢印位置特定の間に特定される矢印の、頭部と尾部の点及び方向に、並びにテキスト検出モジュール104により特定されるテキストセグメントに、少なくとも基づいて、テキストの矢印へのマッピングを実行する。検査シートから一つ観察されることは、テキストは概略個々の矢印の尾部の点に近接して位置する、ということである。この観察は、個々の矢印と関連するテキストを特定するためのベースラインとして用いられる。このプロセスでは、マッピングモジュール105は、個々の矢印の尾部の点に近接するクラスタ内に存在するテキストを、考慮し、尾部の点と考慮されるテキストとの間の距離をチェックする。尾部の点若しくは矢印からのテキストの距離の観点での閾値は、予め定義され、メモリモジュール106内の適宜のデータベースに格納される。距離の閾値に加えて、(角度の観点での、)尾部の点に関する領域に属する情報も定義され、メモリモジュール106内のデータベースに格納される。例えば、(
図12のように、)矢印の尾部に関する120度のセクタに(矢印の線の周囲に対称的に)存在するクラスタにのみ存在するテキストが、考慮される。値「120度」は例を意味するに過ぎず、条件に従って変化し得る。セクタ内で特定される多数のクラスタが考慮されるならば、マッピングモジュール105により最も近いものが選択され、対応するテキストが選択されて矢印へ割り当てられる。
【0023】
b.ゾーンの矢印へのマッピング
テキストの矢印へのマッピングでは、検査シート内の個々の矢印に対応するテキストが特定される。ここで、特定された矢印の各々がどの機械ゾーンと関連するのかを理解するために、マッピングモジュール105によりテキストの矢印へのマッピングが実行される。このプロセスでは、マッピングモジュール105は、機械位置特定の間に特定された機械ゾーン及び輪郭に対して、個々の矢印の頭部及び尾部の点をマップする。この対比では、マッピングモジュール105は、矢印の頭部の点がいずれかのゾーン内部に在るか、又は、いずれかのゾーンの境界に接触しているか、チェックする。頭部の点がどのゾーン内にも無くどのゾーンの境界にも接触していない、と特定されると、マッピングモジュール105は、矢印により指される方向で矢印を外挿し、最後には頭部の点がゾーン内に在る、若しくは、少なくともゾーンの境界に接触することになる。ある実施形態では、マッピングモジュール105は、複数のステップで矢印を外挿する。頭部の点が(xh,yh)に在り矢印の頭部の方向での単位ベクトルが(μ,υ)であるならば、次の外挿ポイントは以下のように与えられる。
【数2】
ここで、αはステップサイズである。
【0024】
図2a及び
図2bは、本開示のある実施形態に係る、ドキュメントデジタル化システムによるドキュメントデジタル化のプロセスに含まれるステップを表すフロー図である。ドキュメントデジタル化システム100は、インプットとして、デジタル化される検査シートを収集する(202)。続いてドキュメントデジタル化システム100は、ゾーン位置特定を実行することにより、収集された検査シートを処理し(204)、検査シート内の機械ゾーンを特定する。ドキュメントデジタル化システム100は更に、矢印位置特定を実行し、検査シート内で、矢印の頭部及び尾部の点を特定する(206)。ドキュメントデジタル化システム100は更に、テキスト位置特定プロセスに基づいてテキスト検出を実行することにより、検査シート内でテキスト(テキストセグメント)を特定する(208)。ドキュメントデジタル化システム100は続いて、テキストの矢印へのマッピングを実行し、各々の矢印の尾部の点に最も近いテキストを特定し(210)、テキストを対応する矢印と関連付ける。ドキュメントデジタル化システム100は更に、ゾーンの矢印へのマッピングを実行して、各々の矢印が指し示している機械ゾーンを特定し(212)、それに応じて矢印を対応する機械ゾーンに割り当てる。更に、各々の矢印と関連付けて特定されたテキストと機械ゾーンを直接マッピングすることにより、各々の機械ゾーンに属するテキストが特定される。方法200の種々の動作は、指定した順序でも、要求の通りのどんな他の順序でも、実行し得る。
【0025】
図3は、本開示のある実施形態に係る、ドキュメントデジタル化システムによる機械コンポーネント位置特定のプロセスに含まれるステップを表すフロー図である。コンポーネント位置特定は、検査シートに存在する、機械の直線図で機械ゾーンを特定するのに用いられる。コンポーネント位置特定は、テンプレートマッチング技術を用いて、ドキュメントデジタル化システム100により、実行される。このプロセスでは、ドキュメントデジタル化システム100は、検査シートをデータベースに格納されたテンプレートシートと比較する(302)。ドキュメントを比較するために、スライドウインドウプロトコルなどの、どんな適切な技術が用いられてもよい。マッチを特定すると(304)、その特定のテンプレートシートはショートリスト化され、更に、検査シートと、ショートリスト化されたテンプレートシートとの、ピクセルレベルの比較が実行される。テンプレートシートでは機械ゾーンが輪郭としてマーク付けされているので、ピクセルレベルの比較(306)に基づいて、ドキュメントデジタル化システム100は検査シート内で機械ゾーンを特定する(308)。ピクセルレベルの分析では、コンポーネント位置特定モジュール102は、相互相関計量を算出して、検査シートの全ての行及び列に亘ってそれを最大化する。このように、機械位置特定は、検査シート内のゾーンを特定するのに有用であり、対応する輪郭も特定され得る。方法300の種々の動作は、指定した順序でも、要求の通りのどんな他の順序でも、実行し得る。
【0026】
図4は、本開示のある実施形態に係る、ドキュメントデジタル化システムによる矢印位置特定のプロセスに含まれるステップを表すフロー図である。検査シートでは、ユーザにより加えられるコメントと、検査シートに設けられる直線図の対応する機械ゾーンとをリンクするのに、矢印が用いられる。矢印位置特定は、各々の矢印の頭部及び尾部の点を特定して、各々の矢印が指している方向も特定するように、実行される。
【0027】
ドキュメントデジタル化システム100は、ディープニューラルネットワークモデルを用いて矢印構造を学習する。このステップは更に以下を含む。
1.検査シートで関心領域(ROI)を特定すること。
2.矢印の頭部及び尾部の点を特定すること。
【0028】
ROIは、検査シート内の全ての矢印周りの、矩形境界を示す。ドキュメントデジタル化システム100は、高速の循環性畳み込みニューラルネットワーク(RCNN)モデルに基づいて、検査シート内のROIを特定されるが、該高速の循環性畳み込みニューラルネットワークモデルは、多数の検査シートに関するモデルをトレーニングすることにより生成される。あるシナリオでは、矢印は相互に非常に近接して存在し、結果として単独のROI内に一つ以上の矢印が在ることになる。このことは矢印位置特定を実行する間に混乱を生じてしまうことがあるので、この問題を回避するために、高速RCNNモデルが部分的な矢印に関して訓練されるのであるが、ここで「部分的な矢印」とは、矢印の頭部と、その矢印の頭部に付属するシャフトの部分とを示す。
【0029】
ROIを特定した後、ドキュメントデジタル化システム100は、特定されたROI内の矢印に対する頭部及び尾部の点の位置特定を実行する(404)が、回帰モデルに基づいてディープ畳み込みニューラルネットワーク(CNN)を用いて、矢印の頭部及び尾部の点を検出する。回帰モデルは、検査シート内の矢印の頭部及び尾部の点の、ピクセル位置を予測し、これに基づいて、矢印位置特定モジュール103は、矢印が指している方向を検出する。方法400の種々の動作は、指定した順序でも、要求の通りのどんな他の順序でも、実行し得る。
【0030】
図5は、本開示のある実施形態に係る、ドキュメントデジタル化システムによるテキスト検出のプロセスに含まれるステップを表すフロー図である。ドキュメントデジタル化システム100は、処理されている検査シート内でテキストを検出するべく、テキスト位置特定を実行する。最初、ドキュメントデジタル化システム100は、バックグラウンド除去法を用いて不必要な(包括的な繰り返しの)情報を除去するが、このことはテンプレートマッチングにより達成される。このステップでは、ドキュメントデジタル化システム100は、検査シート内に、ユーザにより加えられるコンテンツのみ残して、検査シートから、検査シートにマッチするとして特定されるテンプレートシートを除去する。バックグラウンド除去法を実行した後、ドキュメントデジタル化システム100は、適宜の方法/アルゴリズムを用いることにより、検査シートからノイズを除去する(502)。
【0031】
ノイズを除去した後、ドキュメントデジタル化システム100は、検査シートに存在する全てのテキストセグメント及びオブジェクトのための境界ボックス(BB)を特定する(504)。テキスト及び/又はオブジェクトが相互に近接して位置するときにBBが存在しており、よって結果として一つ以上のテキスト及び/又はオブジェクトが単独のボックス内に存在していることになる(言い換えれば、オーバラップする領域が存在している)。更に、オーバラップする領域が、適切なアルゴリズムを用いて、ドキュメントデジタル化システム100により除去される(506)。続いてテキスト検出モジュール104は、ピクセル値の観点での、所定の上方及び下方閾値に基づいて、特定されたBBの領域からテキストを検出し、更に特定されたテキストを抽出する。方法500の種々の動作は、指定した順序でも、要求の通りのどんな他の順序でも、実行し得る。
【0032】
図6は、本開示のある実施形態に係る、ドキュメントデジタル化システムによるテキストの矢印へのマッピングのプロセスに含まれるステップを表すフロー図である。テキストの矢印へのマッピングは、検査シート内の全ての矢印と対応させてテキストを特定するように実行される。テキストの矢印へのマッピングを実行するためのインプットは、矢印位置特定の間に特定される矢印の、頭部と尾部の点及び方向、並びにテキスト検出モジュール104により特定されるテキストセグメントである。テキストが概略個々の矢印の尾部の点に近接して位置する、と想定して、ドキュメントデジタル化システム100は、考慮される、各々の矢印の尾部の点への近接に基づいて、テキストをフィルタする(602)。続いてドキュメントデジタル化システム100は、尾部の点と考慮されるテキストとの間の距離をチェックする(604)。尾部の点若しくは矢印からのテキストの距離の観点での閾値は、予め定義され、メモリモジュール106内の適宜のデータベースに格納される。距離の閾値に加えて、(角度の観点での、)尾部の点に関する領域に属する情報も定義され、メモリモジュール106内のデータベースに格納される。例えば、矢印の尾部に関する120度のセクタに(矢印の線の周囲に対称的に若しくは非対称的に)存在するクラスタにのみ存在するテキストが、考慮される。値「120度」は例を意味するに過ぎず、条件に従って変化し得る。考慮されるテキスト(若しくはクラスタ)と尾部の点との間の距離が閾値の範囲内であるならば、テキストは、考慮される矢印と関連するものとして特定される(608)。セクタ内で特定される多数のクラスタが考慮されるならば、マッピングモジュール105により最も近いものが選択され、対応するテキストが選択されて矢印へ割り当てられる。方法600の種々の動作は、指定した順序でも、要求の通りのどんな他の順序でも、実行し得る。
【0033】
図7は、本開示のある実施形態に係る、ドキュメントデジタル化システムによるテキストのゾーンへのマッピングのプロセスに含まれるステップを表すフロー図である。ドキュメントデジタル化システム100は、ゾーンの矢印へのマッピングを実行することにより、特定された矢印の各々が関連する機械ゾーンを特定する。このプロセスでは、ドキュメントデジタル化システム100は、コンポーネントゾーン位置特定の結果(即ち、機械位置特定の間に特定される機械ゾーン及び輪郭)に対して、矢印位置特定の結果(各々の矢印の、頭部及び尾部の情報)をマップする(702)。この対比では、ドキュメントデジタル化システム100は、矢印の頭部の点がいずれかのゾーン内部に在るか、又は、いずれかのゾーンの境界に接触しているか、チェックする(704)。頭部の点がどの機械ゾーン内にも無くどの機械ゾーンの境界にも接触していない、と特定されると、ドキュメントデジタル化システム100は、頭部の点がゾーン内に在ることになるまで、矢印により指される方向で矢印を外挿する(708)。更に、ドキュメントデジタル化システム100は、各々の矢印の頭部の点を、特定された対応するゾーンに割り当てる(706)。矢印がゾーンの方向を向いていないが頭部の点がゾーンの境界に近接する、シナリオに対しては、頭部の点に最も近いゾーンが選択される。方法700の種々の動作は、指定した順序でも、要求の通りのどんな他の順序でも、実行し得る。
【0034】
実験結果
A.データセット
データセットは、検査シートの330のカメラスキャンから成り、それらのうち280がドキュメントデジタル化システム100により用いられるモデルを訓練するのに使用され、残りの50が試験目的のために使用された。全ての検査シートは、同じ位置、方向、及び固有パラメータを伴うカメラを用いて、スキャンされ、各々のスキャンの解像度は3120*2200であった。
【0035】
B.試験結果
検査シートは、8つの異なる種類の機械構造を表した。全てのこれらの構造は、異なるゾーンを構成する86のサブパートの総計を含む。よって、総計8つの異なる参照テンプレートが使用されたが、それらはトレーニングセットのランダム画像から採られるものである。テンプレートマッチングの結果として、ドキュメントデジタル化システム100は正確なマッチを見出す。高速RCNNは、ランダム重み初期化を伴うツエイラ−ファーガス(Zeiler−Fergus)ネットワークを用いて、完全なトレーニングセットから、手作業の注釈付きの矢印画像に関して、トレーニングされた。このネットワークは、ステージ1RPN、ステージ1RCNN、ステージ2RPN及びステージ2RCNNに対して、夫々、20000;10000;20000及び10000エポックのために、訓練された。トレーニングの設定の残りは、標準として採られた。試験セットに存在する矢印全体から、正確に取得されるROIのパーセンテージとして、精度が計算される。信頼閾値を0:9より大きく保持し非最大抑制(NMS)を0:05より小さく保持することにより、ドキュメントデジタル化システム100で用いられるモデルは、179から正確なROIを検出することができ、検出のうちの3つは偽陽性として取得された。ROI検出は、それが矢印の頭部を完全に包含するならば、正確であると想定される。高速RCNNに対して取得される精度は、95.5%である(表1参照)。取得される精度は非常に高いことが観察され、検出されない8つの矢印の領域は、近接して描かれた矢印を有するものの間にあり、よって、最小限の偽陽性率を維持するために保持される厳密なNMSにより、影響された。
【0036】
ディープ畳み込みニューラルネットワーク(CNN)を訓練するために、トレーニングセットから採られる、部分的な矢印の刈り込み画像が用いられる。全体で1000の矢印画像があり、それらは、トレーニング及び検証のために、夫々ランダムに800セットと200セットに分割された。モデルは、夫々8;16;32;32及び64フィルタを伴う5つの畳み込みレイヤから成り、これに2つの完全接続レイヤが続く。最後の完全接続レイヤ以外の各々のレイヤは、それらの活性化関数として修正線形ユニット(ReLU)を用いる。各々の畳み込みレイヤには、サイズ2*2のマックスプールレイヤが続く。各々の畳み込みレイヤは、3*3のカーネルサイズのフィルタを用いる。最後の完全接続レイヤは、矢印の頭部及び尾部のx及びyの位置を表す4つの隠れユニットを有する。それは線形活性化関数を用いる。平均平方誤差費用関数を最適化するための、デフォルトのハイパーパラメータを伴うアダム(Adam)最適化ツールが、用いられた。
【0037】
トレーニングで用いられるエポックの数は500であったが、これは、最高の検証精度を達成するのに有用であった。画像のインプットサイズは150*150であった。試験の間に、高速RCNNから取得された171のROT画像セットに対して、170.3の平均平方誤差が取得された。それは、予想される成果が在る画像面で概略13ピクセルの半径の円を暗示する。試験セットに関して手作業の注釈付きのROIが与えられると、ネットワークは、179のROI画像のセットに対して、148.1の平均平方誤差を与える。それは、ディープ畳み込みニューラルネットワーク(CNN)回帰モデルの絶対誤差測定を表す。
【0038】
矢印位置特定からのアウトプットは、テキスト検出のために用いられる。検出されるテキストの精度は、注釈付きのテキストボックスと取得されるテキストボックスとの間の、和集合の共通集合(IoU)を見出すことにより、検出された。IoU閾値は、0:9に設定された。これに基づいて、高速RCNNにより、171の検出される矢印(ROI)から、矢印の尾部にて、157の正確なテキストボックスが抽出された。このことは、91.8%の精度を示す。試験のために選択された検査シート上の、手作業の注釈付きのROI、並びに矢印の頭部及び尾部の点により、166の正確なテキストボックスが、179の矢印から、矢印の尾部にて、抽出された。このことは92.7%の精度を生し、該精度はテキスト検出の絶対誤差測定である。
【0039】
次に、矢印から機械ゾーンへの1対1のマッピングが実行される。ドキュメントデジタル化システムは、171の検出される矢印から、162の矢印を対応するゾーンに正確にマップすることができ、これにより94.7%の精度が取得された。ゾーンのマッピングの精度は、頭部及び尾部の点の位置特定の精度に、大きく依存する。(試験のために選択された検査シートから成る)試験セット上での、手作業の注釈付きROI及び矢印の頭部−尾部の点により、179の矢印のセットから、178の矢印が対応するゾーンに正確にマップされた。よって、絶対誤差測定に関しては、99.4%の精度に達する。
【0040】
ドキュメントデジタル化の各々のステップにおける誤差は次のステップへと繋げられ、よって全体の誤差はパイプラインのあらゆるステージに亘る累積誤差を反映するものである、ということが留意されるべきである。従って、ドキュメントデジタル化システムについての、最終的な端から端までに亘る精度は、個別のステージの任意のものにおける精度よりも、低いと予想される。検査シートに表される、理想のテキスト領域とゾーンの対に関する、成功したテキスト領域とゾーンの対の比率が計算され、成功したテキスト領域とゾーンの対は、矢印に、続いて正確なゾーンにマップされる、IoU>0:9である、検出されたテキスト領域の数として、定義される。179のケースのうち、全体で149の成功のケースがあり、よって端から端までに亘る精度は概略83.2%である。試験セットについての、注釈付きのROI並びに矢印の頭部及び尾部の点を前提として、最終的なマッピングの精度も評価される。この場合、179の全体のケースのうち、全体で165の成功のケースがあり、これは、92.1%の精度率に達する。
【0041】
各々のステージにおける、試験のケースの数、及び、精度のパーセントは、表1で示される。
【表1】
【0042】
明細書は、当業者が実施形態を作成し利用できるように本発明の主題を記載する。本発明の主題に係る実施形態の範囲は、請求項により定義され、当業者の頭に浮かぶ他の実施形態を含み得る。それら他の変更が、請求項の文言とは異ならない同様の要素を有するならば、又は、それら他の変更が、請求項の文言とのごく僅かな差異しか伴わない等価の要素を含むならば、それら他の変更は請求項の範囲内であることを意図するものである。
【0043】
本開示の実施形態は、非体系的データを有するドキュメントのデジタル化についての未解決の課題に対処する。よって、実施形態は、情報がユーザにより手で書き留められる検査シートからデータを抽出する方法及びシステムを、提供する。
【0044】
保護の範囲はプログラムに、更には内部にメッセージを備えるコンピュータ読み取り可能記憶手段へ拡張されることは、理解されるべきである。それらコンピュータ読み取り可能記憶手段は、プログラムがサーバ若しくはモバイルデバイス、又は任意の適切なプログラム可能デバイスで稼動するとき、方法の一つ若しくはそれ以上のステップを実装するプログラムコード手段を、含む。ハードウエアデバイスは、例えば、サーバやパーソナルコンピュータなどの任意の種類のコンピュータ、若しくは、それらの任意の組み合わせを含む、プログラム可能である、任意の種類のデバイスであればよい。デバイスは、例えば、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)などの、例えば、ハードウエア手段、若しくは、例えば、ASIC及びFPGAなどの、ハードウエア手段及びソフトウエア手段の組み合わせ、又は、少なくとも一つのマイクロプロセッサ、及び、ソフトウエアモジュールが内に配置された少なくとも一つのメモリ、である手段も、含み得る。よって、手段は、ハードウエア手段及びソフトウエア手段の両方を含み得る。本明細書に記載の方法の実施形態は、ハードウエア及びソフトウエアにて実装可能である。デバイスはソフトウエア手段も含み得る。一方で、例えば、複数のCPUを用いる、様々なハードウエアデバイスも含み得る。
【0045】
本明細書の実施形態は、ハードウエアエレメント及びソフトウエアエレメントを含み得る。ソフトウエアで実装される実施形態は、ファームウエア、常駐ソフトウエア、マイクロコード等を含むが、それらに限定されるものでは無い。本明細書に記載の種々のモジュールにより実行される機能は、他のモジュール、若しくは他のモジュールの組み合わせにより実装され得る。この記載のために、コンピュータ使用可能、若しくはコンピュータ読み取り可能記憶媒体は、命令実行システム、装置、若しくはデバイスにより、又は、これらと接続して、用いるプログラムを含み、格納し、通信し、伝搬し、又は移送することができる、どの装置でもよい。
【0046】
説明されるステップは、例示の実施形態を説明するために設定されており、現在進行中の技術発展は、特定の機能が実行されるやり方を変えてしまうことが予想される。これらの例は、例示のために本明細書に示すものであり、限定されるものではない。更に、機能ブロックは、本明細書では説明の便宜のために任意に規定している。特定の機能及びそれらの関係が適宜実行される限り、別途の境界が規定され得る。本明細書に含まれる教示に基づいて、(本明細書に記載のものの等価物、拡張、変形、導出などを、含む)別途のものは、関連分野の当業者に明らかであろう。それら別途のものは、開示される実施形態の範囲及び精神の範囲内に在る。また、「含む(comprising)」「有する(having)」「含有する(containing)」及び「含む(including)」、並びに他の類似の形式は、意味上等価であり、これらの単語のいずれかに続く一項目若しくは複数の項目は、それらの項目についての網羅的列挙を意味するのではなく列挙される一項目若しくは複数の項目にのみ限定されることを意味する、という点において制約が無いことを、意図するものである。本明細書で用いるように、及び、添付の請求項において、単数形「一つの(a)」「一つの(an)」及び「その(the)」は、文脈が別途指示するので無い限り、複数の形式を含むことにも留意しなければならない。
【0047】
更に、一つ若しくはそれ以上のコンピュータ読み取り可能記憶媒体は、本開示と一貫する実施形態を実装するのに利用され得る。コンピュータ読み取り可能記憶媒体は、プロセッサにより読み取り可能な情報若しくはデータが格納され得る、どのタイプの物理メモリも示す。よって、コンピュータ読み取り可能記憶媒体は、本明細書に記載実施形態と一貫するステップ若しくはステージをプロセッサに実行させる命令を含む、一つ若しくはそれ以上のプロセッサにより実行するための命令を、格納し得る。用語「コンピュータ読み取り可能記憶媒体」は、有体物を含み伝送波や過渡信号を除外する、即ち、非一時性である、と理解されるべきである。例は、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、揮発性メモリ、不揮発性メモリ、ハードディスク、CD ROM、DVD、フラッシュディスク、及び、任意の他の周知の物理記憶媒体を、含む。
【0048】
開示及び例は、例示のものとしてのみ考慮されることが意図されており、開示される実施形態の真の範囲及び精神は、以下の請求項により示される。
【符号の説明】
【0049】
100・・・ドキュメントデジタル化システム、101・・・インプット/アウトプット(I/O)モジュール、102・・・コンポーネント位置特定モジュール、103・・・矢印位置特定モジュール、104・・・テキスト検出モジュール、105・・・マッピングモジュール、106・・・メモリモジュール、107・・・処理モジュール。