【解決手段】文書管理クラウドシステムにおいて、サーバ1のCPU11は、入力された申請書および当該申請書に紐づけられた各添付資料のうち何れかがイメージデータであった場合、当該イメージデータから文字情報を認識し、この申請書に記載された添付資料の書誌事項を取得し、各添付資料に記載された書誌事項を取得し、申請書の書誌事項とこの書誌事項に対応する各添付資料の書誌事項との整合性をそれぞれ判定し、申請書の書誌事項、この書誌事項に対応する添付資料の書誌事項、およびこれらの整合性を報知するように制御する。
前記制御部は、前記申請書に記載された添付資料の書誌事項の文字列と当該書誌事項に対応する各前記添付資料の書誌事項の文字列とが一致しなかった場合、不一致文字の外観を比較して、これらの整合性を判定する、
ことを特徴とする請求項1に記載の申請書判定装置。
前記制御部は、前記申請書に記載された添付資料の書誌事項の文字列の長さと当該書誌事項に対応する各前記添付資料の書誌事項の文字列の長さが一致しなかった場合、連続した不一致文字の外観を繋げて比較して、これらの整合性を判定する、
ことを特徴とする請求項1に記載の申請書判定装置。
【発明を実施するための形態】
【0012】
以降、本発明を実施するための形態を、各図を参照して詳細に説明する。
図1は、本実施形態の文書管理クラウドシステムを示す図である。
文書管理クラウドシステムは、サーバ1と、申請者端末3a、責任者端末3b、事務局端末3c、その他委員端末3dがネットワーク2に通信可能に接続されて構成される。この文書管理クラウドシステムは、薬の研究開発に係る事務作業を電子化するものである。
【0013】
申請者は、申請者端末3aに申請書とその添付資料を入力して申請する。入力された申請書とその添付資料のワークフローは責任者に移行する。責任者が責任者端末3bを操作してワークフローを承認すると、このワークフローは事務局に移行する。
このように文書管理クラウドシステムは、従来は紙書類と捺印と郵送で行われていた薬の研究開発に係る事務作業を電子化する。
【0014】
図2は、本実施形態の文書管理クラウドシステムに係るサーバ1のブロック図である。
サーバ1はコンピュータであり、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13を備える。このCPU11、ROM12およびRAM13は、このサーバ1を統括制御する制御部である。
【0015】
サーバ1は更に、マウスやキーボード等の入力部14、ディスプレイ等の表示部15、ネットワークインタフェース等の通信部16、記憶部17、メディア読込部18を備える。通信部16は、外部から情報を取得する取得部として機能する。記憶部17は、頻出誤字データベース171と治験特有単語データベース174、OCRプログラム172と、書類の版・日時チェックプログラム173とを格納している。メディア読込部18は、例えばOCRプログラム格納メディア182や書類の版・日時チェックプログラム格納メディア183を読み込む。これによりサーバ1には、OCRプログラム172や書類の版・日時チェックプログラム173がインストールされて、申請書判定装置として機能する。CPU11は、書類の版・日時チェックプログラム173を実行することにより、申請書に記載の添付資料およびその添付資料の書誌事項が整合しているか否かを判定する。
【0016】
OCRプログラム172は、イメージデータを入力として、このイメージデータに含まれる文字を認識してテキスト化する手順をCPU11に実行させるものである。CPU11がOCRプログラム172を実行することにより、イメージデータに含まれる文字を認識する認識部が具現化される。CPU11がOCRプログラム172を実行することにより、文字画像と文字との対応を学習し、読み取ったイメージデータから文字列を出力する畳み込みニューラルネットワークを具現化する。この畳み込みニューラルネットワークが、誤認識した文字画像、およびこの文字画像に対応する正しい文字の関係を教師データに加えて再学習(ディープラーニング)することにより、文字認識の精度を向上させることができる。
頻出誤字データベース171は、CPU11がOCRプログラム172を実行した際に頻繁に誤認識する元の文字(正解文字)と、誤認識した結果の文字との対応関係を格納したデータベースである。誤認識した結果の文字は、例えば「|」、「〇」、「曰」であり、これらの元の文字は、それぞれ「1」、「0」、「日」である。
治験特有単語データベース174は、治験に特有な単語を格納したデータベースであり、例えば薬品名などが格納されている。
【0017】
図3は、申請書4の一例を示す図である。
この申請書4は、新たに臨床研究の審査を依頼するための新規審査依頼書であり、例えばイメージデータをスキャンしたPDF(Portable Document Format)ファイルである。頁の冒頭には、申請書名称41として「新規審査依頼書」が記載されている。その下側には、臨床研究課題名42として「AB123のDDDを対象とした臨床研究」が記載されている。
【0018】
更にその下側には、添付資料一覧の表が記載されている。
資料名431として「実施計画(省令様式第1)」が記載されている。その右側には作成年月日441として「2018年12月1日」、版表示451(版番号)として「1.0」が記載されている。
【0019】
資料名432として「研究計画書」が記載されている。その右側には作成年月日442として「2018年12月1日」、版表示452として「1.0」が記載されている。
資料名433として「研究分担者リスト」が記載されている。その右側には作成年月日443として「2018年10月1日」、版表示453(版番号)として「1.0」が記載されている。
【0020】
資料名434として「疾病等が発生した場合の対応に関する手順書」が記載されている。その右側には作成年月日444として「2018年10月10日」、版表示454(版番号)として「3.0」が記載されている。
【0021】
図4は、研究計画書の表紙の一例を示す図である。
この研究計画書は、申請書4に紐づけられた添付資料のひとつである。この添付資料5は、その表紙に臨床研究課題名51、名称53、治験番号、版数54、作成日55を含んでいる。
【0022】
臨床研究課題名51として、「AB123のDDDを対象とした臨床研究」が記載されている。この臨床研究課題名51は、申請書4の臨床研究課題名42と整合していることが必要である。
【0023】
その下側には、名称53として「研究計画書」が記載されている。これは、申請書4の資料名の何れかと整合していることが必要である。表紙の右下には、治験番号欄と、版数54と、作成日55とが記載されている。版数54(版番号)として「版数:第1.0版」が記載されている。これは申請書4の版表示452(版番号)と整合していることが必要である。
作成日55として「作成日:2018年10月1日」が記載されている。これは申請書4の作成年月日442と整合していることが必要である。
【0024】
図5は、研究分担者リストの表紙の一例を示す図である。
この研究分担者リストは、申請書4に紐づけられた添付資料のひとつである。この添付資料6は、その表紙に臨床研究課題名61、名称63、治験番号、版数64、作成日65を含んでいる。
【0025】
臨床研究課題名61として、「AB123のDDDを対象とした臨床研究」が記載されている。この臨床研究課題名61は、申請書4の臨床研究課題名42と整合していることが必要である。
【0026】
その下側には、名称63として「研究分担者リスト」が記載されている。これは、申請書4の資料名の何れかと整合していることが必要である。表紙の右下には、治験番号欄と、版数64と、作成日65とが記載されている。版数64として「版数:第1.0版」が記載されている。これは申請書4の版表示453と整合していることが必要である。
作成日65として「作成日:2018年10月1日」が記載されている。これは申請書4の作成年月日443と整合していることが必要である。
【0027】
図6Aと
図6Bとは、申請書及び添付資料の入力処理を示すフローチャートである。
CPU11が書類の版・日時チェックプログラム173を実行すると、
図6Aの処理が開始する。
最初、CPU11は、通信部16を介して申請者端末3aと通信することにより、申請書とその添付資料の入力を受け付ける(S10)。CPU11は、当該申請書の種類を判定して分岐する(S11)。
【0028】
ステップS11において、CPU11は、申請書の種類がフォームならば、ステップS12の処理に進み、申請書の種類が文書ファイルならば、ステップS14の処理に進み、申請書の種類がイメージファイルならば、ステップS15の処理に進む。ここでイメージファイルとは、例えば紙書類を光学的にスキャンしたPDFファイルであるが、マルチページの画像ファイルであってもよく、限定されない。
【0029】
ステップS12において、CPU11は、臨床研究課題名、資料名、作成年月日、版をフォームの変数から取得する。そしてCPU11は、フォームに入力されたリンク先の添付資料の情報を取得し(S13)、
図6BのステップS18に進む。
【0030】
ステップS14において、CPU11は、文書ファイルの添付資料一覧の表につき、臨床研究課題名、資料名、作成年月日、版番号を取得し、
図6BのステップS18に進む。
【0031】
ステップS15において、CPU11は、OCRプログラム172にてイメージファイル内に記載された文字を認識する。そして、CPU11は、文字位置、文字サイズ、文字列の出現順から臨床研究課題名、資料名、作成年月日、版番号を取得する(S16)。具体的にいうと、文字位置が上部であり、かつ「臨床研究課題」の文字列に続く一連の文字列は、臨床研究課題名を示す文字列として取得する。
【0032】
文字位置が、「添付資料一覧」の表の中であり、かつ「資料名」の欄に記載された文字列は、資料名を示す文字列として取得する。なお、資料名を示す文字列の左側のチェックボックスが白抜きの場合、CPU11は、この列に係る資料は存在しないものとして扱う。
文字位置が、「添付資料一覧」の表の中であり、かつ「作成日」の欄に記載された文字列は、作成年月日を示す文字列として取得する。
文字位置が、「添付資料一覧」の表の中であり、かつ「版表示」の欄に記載された文字列は、版番号を示す文字列として取得する。
【0033】
CPU11は更に、文字列判定前処理を行い(S17)、
図6BのステップS18の処理に進む。文字列判定前処理は、頻出誤字を修正すると共に、この文字列のOCR結果を評価する処理であり、後記する
図7Aと
図7Bで詳細に説明する。
【0034】
ステップS18〜S27は、各添付資料に係る繰り返し処理である。この繰り返しにおいて、CPU11は、当該添付資料の種類を判定して分岐する(S19)。
ステップS19において、CPU11は、当該添付資料の種類が文書ファイルならば、ステップS20に進み、当該添付資料の種類がイメージファイルならば、ステップS23に進む。
【0035】
ステップS20において、CPU11は、この文書ファイルを行ごとに読み取り、文字データを取得する。CPU11は、文字位置、文字サイズ、文字列の出現順から、臨床研究課題名、資料名、作成年月日、版番号を取得する(S21)。具体的にいうと、CPU11は、文書ファイルの表紙に、最大フォントまたは2番目に大きいフォントで記載された最初の文字列を臨床研究課題名として取得する。CPU11は、最大フォントまたは2番目に大きいフォントで記載された2番目の文字列を資料名として取得する。CPU11は、資料名よりも下側で、かつ「作成日」または「作成年月日」を含む文字列を、作成年月日として取得する。CPU11は、資料名よりも下側で、かつ「版数」「版番号」「版表示」または「Version」を含む文字列を、版番号として取得する。
【0036】
次にCPU11は、文字列判定後処理を行い(S22)、この添付資料の臨床研究課題名、資料名、作成年月日、版番号と、申請書類に記載の添付資料に関する資料名、作成年月日、版番号と比較する。CPU11は、ステップS22の処理が終了すると、ステップS27の処理に進む。
ステップS22の文字列判定後処理は、申請書に記載された各添付資料の書誌事項と各添付資料の表紙に記載された書誌事項の整合性を判定する処理であり、後記する
図8Aと
図8Bで詳細に説明する。
【0037】
ステップS23において、CPU11は、イメージファイルをOCRプログラム172にて読み込み、このイメージ内に記載された文字を認識する。CPU11は、文字位置、文字サイズ、文字列の出現順から、臨床研究課題名、資料名、作成年月日、版番号を取得する(S24)。次にCPU11は、文字列判定前処理を行い(S25)、更に文字列判定後処理を行うと(S26)、ステップS27の処理に進む。ステップS26の文字列判定後処理は、ステップS22の文字列判定後処理と同様である。
【0038】
ステップS27において、CPU11は、全ての添付資料について繰り返したか否かを判定する。CPU11は、処理していない添付資料があれば、ステップS18に戻り、全ての添付資料について繰り返したならば、ステップS28に進む。
ステップS28において、CPU11は、後記する
図12に示した結果フォーム画面7に申請書と各添付資料の整合性の判定結果を表示し、
図6Bの処理を終了する。
【0039】
図7Aと
図7Bとは、文字列判定前処理を示すフローチャートである。この処理は、OCRプログラム172を用いて、イメージデータから各文字列を認識した後に呼び出される。
【0040】
ステップS30〜S49において、CPU11は、臨床研究課題名、資料名、作成年月日、版番号の各文字列について処理を繰り返す。
CPU11は、頻出誤字データベース171を参照し(S31)、認識した文字列に頻出誤字が有るか否かを判定する(S32)。CPU11は、認識した文字列に頻出誤字が有れば(Yes)、その頻出誤字を正しい文字に置き換えて(S33)、ステップS34に進む。CPU11は、認識した文字列に頻出誤字が無ければ(No)、ステップS34に進む。
【0041】
ここで頻出誤字とは、例えば「|」、「〇」、「曰」のように、作成年月日、版番号に用いられる文字と外観が類似し、かつ、これらを構成する文字としては使われない文字のことをいう。「|」は、「1」が誤認識された文字である。「〇」は、「0」が誤認識された文字である。「曰」は、「日」が誤認識された文字である。
【0042】
ステップS34において、CPU11は、文字列全体の30%以上が記号であるか否かを判定する。CPU11は、文字列全体の30%以上が記号ならば(Yes)、当該文字列は処理対象外であると判定し(S35)、
図7Aの処理を終了する。
なお、ここでCPU11は、文字列全体の30%以上が記号であるか否かを判定しているが、例えば10%のように、他の閾値で判定してもよい。
【0043】
更にCPU11は、文字列と、その種類に応じたテンプレートとを照合する(S36)。具体的にいうと、作成年月日のテンプレート例は、「西暦nnnn年nn月nn日」、「令和n年nn月nn日」、「nnnn/nn/nn」(nは数字)などである。版番号のテンプレート例は、「第n.n版」「Version.n.n」「n.n」などである。
【0044】
CPU11は、文字・数字が在るべき場所に記号が有るか否かを判定する(S37)。CPU11は、文字・数字が在るべき場所に記号が無いならば(No)、当該文字列はOKであると判定し(S38)、
図7Aの処理を終了する。CPU11は、文字・数字が在るべき場所に記号が有るならば(Yes)、
図7BのステップS39に進む。
【0045】
ステップS39において、CPU11は、前後の文字より、当て嵌まる単語を予測する。具体的にいうと、CPU11は、例えばステップS36で照合したテンプレートや、治験特有単語データベース174を用いて予測するとよい。例えば、「西暦2019年10□1日」は、テンプレート「西暦nnnn年nn月nn日」と最もよく整合し、かつ前後より「月」が当て嵌まると予測可能である。また、例えば「メトクロブラミド」は、治験特有単語データベース174に格納された「メトクロプラミド」とレーベンシュタイン距離が極めて近いため、当て嵌まる単語として予測してもよい。
【0046】
ステップS40において、CPU11は、当て嵌まる単語が予測可能か否かを判定する。CPU11は、当て嵌まる単語が予測可能ならば(Yes)、単語の該当する文字に置き換え(S41)、置き換えた文字と記号とを頻出誤字データベース171に登録し(S42)、ステップS43に進む。ステップS40において、CPU11は、当て嵌まる単語が予測できなかったならば(No)、ステップS44に進む。
【0047】
ステップS43において、CPU11は、ステップS33で頻出誤字を置換したか否かを判定する。CPU11は、頻出誤字を置換したならば(Yes)、当該文字列はワーニング状態であると判定して(S45)、ステップS49に進む。CPU11は、頻出誤字を置換しなかったならば(No)、当該文字列はアラート状態であると判定して(S46)、ステップS49に進む。
【0048】
ステップS44において、CPU11は、頻出誤字を置換したか否かを判定する。CPU11は、頻出誤字を置換したならば(Yes)、当該文字列はアラート状態であると判定してステップS49に進み、頻出誤字を置換しなかったならば(No)、当該文字列を削除すると共に(S47)、エラー状態であると判定して(S48)、ステップS49に進む。
【0049】
ステップS49において、CPU11は、全種類の文字列について処理を繰り返したか否かを判定する。CPU11は、未だ処理していな文字列があればステップS30に戻り、全種類の文字列について処理したならば、
図7Bの処理を終了する。
【0050】
文字列判定前処理により、CPU11は、頻出誤字データベース171を用いてOCRの識字率を改善する。更にCPU11は、単語予測によりOCRの誤認識を修正すると共に、頻出誤字データベース171に新たな誤認識のパターンを登録できる。CPU11は、各文字列のOCRにおける確からしさを評価することができる。
【0051】
図8Aと
図8Bとは、文字列判定後処理を示すフローチャートである。
最初、CPU11は、申請書に記載された添付資料の資料名と、各添付資料の表紙に記載された資料名の対応関係を特定する(S60)。以降の処理は、対応関係が特定された申請書に記載の添付資料と、各添付資料に関するものである。
【0052】
ステップS61〜S71において、CPU11は、臨床研究課題名、資料名、作成年月日、版番号の各書誌事項について処理を繰り返す。
CPU11は、申請書に記載の添付資料の書誌事項と、これに対応する添付資料の書誌事項とが100%整合するか否かを判定する(S62)。CPU11は、両書誌事項が100%整合するならば(Yes)、これら書誌事項がOK状態であると判定して(S63)、ステップS71の処理に進む。ここで両書誌事項が100%整合する場合とは、両書誌事項の文字列が一致することをいう。
【0053】
CPU11は、申請書に記載の添付資料の書誌事項の文字数と、これに対応する添付資料の書誌事項の文字数とを比較する(S64)。CPU11は、両書誌事項の文字数が一致していたならば(一致)、ステップS65に進み、両書誌事項の文字数が不一致ならば(不一致)、
図8BのステップS72に進む。
【0054】
図8BのステップS72において、CPU11は、申請書に記載の添付資料の書誌事項と、これに対応する添付資料の書誌事項の連続した不一致文字を繋げて画像を生成する。CPU11は、生成した画像の縦横比を何れかに揃えて比較する(S73)。ステップS74において、CPU11は、連続した不一致文字の画像の相違が±20%以内ならば(Yes)、これら書誌事項がアラート状態であると判定して(S76)、
図8AのステップS71の処理に進む。CPU11は、連続した不一致文字の画像の相違が±20%を超えていたならば(No)、これら書誌事項がエラー状態であると判定して(S75)、
図8AのステップS71の処理に進む。
【0055】
図10は、連続した不一致文字の例である。ここでは資料名83の「研究分担者リスト」と、資料名84の「石丼究分担者リスト」を比較する際、「研」と「石丼」とが連続した不一致文字となることを示している。CPU11は、「研」をレンダリングした画像と、「石丼」をレンダリングした画像を生成して縦横比を揃え、これら両画像の線の交差や頂点や末端などを特徴点として抽出し、これら特徴点を比較する。これにより、CPU11は、文字列の外観としての近似性を判定することができる。
【0056】
図8Aに戻り説明を続ける。ステップS65において、CPU11は、申請書に記載の添付資料の書誌事項と、これに対応する添付資料の書誌事項の不一致文字を画像として比較する。
図9は、不一致文字の例である。ここでは資料名81の「研究分担者リスト」と、資料名82の「研突分担者リスト」を比較する際、「究」と「突」とが不一致文字となることを示している。CPU11は、「究」をレンダリングした画像と、「突」をレンダリングした画像を生成し、これら両画像の線の交差や頂点や末端などを特徴点として抽出し、これら特徴点を比較する。これにより、CPU11は、文字列の外観としての近似性を判定することができる。
【0057】
ステップS66において、CPU11は、不一致文字の画像の相違が±10%以内ならば(Yes)、これら書誌事項がワーニング状態であると判定して(S67)、ステップS71の処理に進む。CPU11は、不一致文字の画像の相違が±10%を超えていたならば(No)、ステップS68に進む。
【0058】
ステップS68において、CPU11は、不一致文字の画像の相違が±20%以内ならば(Yes)、これら書誌事項がアラート状態であると判定して(S69)、ステップS71の処理に進む。CPU11は、不一致文字の画像の相違が±20%を超えていたならば(No)、これら書誌事項がエラー状態であると判定して(S70)、ステップS71に進む。
【0059】
CPU11は、不一致文字を画像として比較し、その画像の相違に応じた状態(整合性)を判定している。これにより、申請書に記載の添付資料の書誌事項と、これに対応する添付資料の書誌事項とが、外観としてどのくらい類似しているかを判定できる。
【0060】
ステップS71において、CPU11は、全種類の文字列について処理を繰り返したか否かを判定する。CPU11は、未だ処理していな文字列があればステップS60に戻り、全種類の文字列について処理したならば、
図8Bの処理を終了する。
【0061】
申請書とその添付資料の両方が文書ファイルであった場合であっても、文字列判定後処理により整合性が判定される。これにより、申請書に記載の添付資料の書誌事項と、これに対応する添付資料の書誌事項とが、外観としてどのくらい類似しているかを判定できる。
なお、ここでCPU11は、連続した不一致文字の画像の相違が±10%または±20%を超えているか否かを判定して、書誌事項の状態を判定しているが、他の値を閾値としてもよい。
【0062】
図11は、誤認識判定と出力内容との関係を示す図である。
CPU11は、OCRの判定結果と読込んだ文字列の判定結果との組み合わせにより、結果とフィードバックコメントを作成する。凡例で示すように、図の白丸は出力ありを示し、図のバツマークは出力なしを示し、図の黒丸は出力あり、かつOCRへのフィードバック有りを示している。
【0063】
OCRの判定結果は、ノイズとゆがみと台形補正の3通りである。
具体的にいうと、前処理がOK状態ならば、OCRの判定結果に関わらず、前処理した結果である文字列を出力し、フィードバックのコメントを出力しない。
【0064】
前処理がワーニング状態、アラート状態のうち何れかならば、CPU11は、OCRの判定結果に関わらず、前処理した結果である文字列を出力する。CPU11は更に、この文字列が手作業で修正された際にOCRに学習させ、かつフィードバックのコメントを出力する。
CPU11は、この文字列のうち、お客様の入力によって修正された文字を自ら学習して頻出誤字データベース171に登録し、文字列判定前処理における誤認識した結果の文字を元の文字に置き換える際に用いる。
その際、CPU11は、イメージデータをOCRで読み取った文字列のうち記号として判定した割合、OCRの判定結果のノイズ、台形補正、ゆがみなどをパラメータとしてOCRの精度を判定する。そしてCPU11は、OCRの精度が所定値よりも悪い場合、OCRおよびCPU11自身に誤認識結果を学習させないようにする。これにより、書類をスキャンして得られたイメージデータの状態が悪い場合に、CPU21は、ノイズなどに由来する誤認識結果の学習を抑止することができる。
【0065】
CPU11は、OCRの判定結果がノイズの場合、「イメージファイルに黒い点が頻出しています。ガラス面の掃除等を実施してください。」のコメントを出力する。
CPU11は、OCRの判定結果がゆがみの場合、「書類を平らにおいてスキャンしてください。」のコメントを出力する。
CPU11は、OCRの判定結果が台形補正の場合、「書類が傾かないように置いてください。」のコメントを出力する。
【0066】
前処理がエラー状態と対象外状態ならば、OCRの判定結果に関わらず、前処理した結果である文字列を出力し、かつフィードバックのコメントを出力する。
後処理がOK状態ならば、OCRの判定結果に関わらず、前処理した結果である文字列を出力し、フィードバックのコメントを出力しない。
【0067】
後処理がワーニング状態、アラート状態、エラー状態のうち何れかならば、OCRの判定結果に関わらず、前処理した結果である文字列を出力し、かつフィードバックのコメントを出力する。
【0068】
図12は、結果フォーム画面7を一例として示した図である。
図6BのステップS28の処理が実行されると、この結果フォーム画面7が表示される。
結果フォーム画面7は、申請書に記載された添付資料の何れかの書誌事項と、これに対応する添付資料の表紙に記載された書誌事項と、その整合性を判定した結果が示される。
結果フォーム画面7は、その最上段に結果欄71と、文書名欄72、添付有無欄とが表示されている。結果欄71は、整合性の判定結果を示す欄であり、ここでは「OK」が示されている。文書名欄72は、申請書の名称を示す欄であり、ここでは「新規審査依頼書」が記載されている。
【0069】
その下側には、申請書に記載された添付資料の何れかの書誌事項と、これに対応する添付資料の表紙に記載された書誌事項とが対比可能に表示される。
種類欄73は、各書誌事項の名称が記載されており、ここでは、臨床研究課題名、資料名、作成年月日、版番号の4つが各行に記載されている。
【0070】
書誌事項欄74は、申請書に記載された添付資料の各書誌事項が記載されている。この書誌事項欄74は、人が手作業で修正可能である。
前処理結果欄75は、申請書に記載された添付資料の各書誌事項をOCRで認識した後、文字列判定前処理により書誌事項を判定した状態を示している。
【0071】
書誌事項欄76は、書誌事項欄74の資料名に対応する添付資料の表紙に記載された各書誌事項が記載されている。この書誌事項欄76は、人が手作業で修正可能である。書誌事項欄74,76が修正されると、CPU11は、この修正前の文字と修正後の文字とをOCRに学習させる。これにより、OCRの精度を更に向上させることができる。
【0072】
前処理結果欄77は、添付資料の表紙に記載された各書誌事項をOCRで認識した後、文字列判定前処理により書誌事項を判定した状態を示している。
後処理結果欄78は、各行における書誌事項欄74と書誌事項欄76との整合性を、文字列判定後処理によって判定した結果を示している。これら後処理結果欄78を総合的に勘案した結果、結果欄71が判定される。結果欄71は、例えば後処理結果欄78のうち最も状態が悪いものが表示される。
後処理結果欄78は、文字列が一致していないときには、文字列の外観としての近似性を段階的に判定している。
一致した2つの文字列をOCRで正しく認識した場合、後処理結果欄78は、OKとなる。一致した2つの文字列をOCRで誤認識した場合、外観としては近似しているため、後処理結果欄78は、ワーニングやアラートとなる。後処理結果欄78によりユーザは、2つの文字列が一致していない場合でも、外観として近似していることを知ることができる。
【0073】
これに対して、一致していない2つの文字列をOCRで正しく認識した場合、不一致文字の画像としての相違が±20%よりも大きくなり、後処理結果欄78はエラーとなることが期待される。一致していない2つの文字列をOCRで誤認識した場合、不一致文字の画像としての相違が±20%よりも大きくなり、後処理結果欄78はエラーとなることが期待される。よって、後処理結果欄78によりユーザは、2つの文字列が外観として乖離していることを知ることができる。
【0074】
(変形例)
本発明は、上記実施形態に限定されることなく、本発明の趣旨を逸脱しない範囲で、変更実施が可能であり、例えば、次の(a)〜(d)のようなものがある。
【0075】
(a) 本実施形態では、薬の研究開発に係る事務作業を軽減するクラウドシステムを例に説明したが、申請書とその添付資料一式を申請するためのシステムならばよく、薬の研究開発に係る事務作業に限定されない。
(b) 本実施形態では、日本語の文字(漢字)を例に不一致文字を画像として比較する動作を説明したが、日本語の漢字に限定されず、任意の言語に係る文字であってもよい。
(c) 本実施形態では、不一致文字をレンダリングした画像を比較しているが、不一致文字の位置に対応するOCR前のイメージデータをそれぞれ切り出して、切り出した両イメージデータ同士を比較してもよい。
(d) 本実施形態では、不一致文字をレンダリングした画像の線の交差や頂点や末端を特徴点として抽出し、これら特徴点を比較している。しかし、これに限られず、例えば不一致文字をレンダリングした画像の線のトポロジーを抽出し、これらトポロジーを比較してもよく、限定されない。
がイメージデータであり、そのイメージデータをOCR(Optical Character Recognition)によって文字認識したならば、そのOCRのエラーにより、正しい申請書と添付資料の組合せであっても、書誌事項が整合していないと判定され、エラーとなってしまうおそれがある。
がイメージデータであった場合、当該イメージデータから文字情報を認識する認識部と、前記申請書に記載された添付資料の書誌事項を取得し、各前記添付資料に記載された書誌事項を取得し、前記申請書の書誌事項と当該書誌事項に対応する各前記添付資料の書誌事項との整合性をそれぞれ判定
がイメージデータであった場合、当該イメージデータから文字情報を認識させる工程、前記申請書に記載された添付資料の書誌事項を取得する工程、各前記添付資料に記載された書誌事項を取得する工程、前記申請書の書誌事項と当該書誌事項に対応する各前記添付資料の書誌事項との整合性をそれぞれ判定する工程、