(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022177864
(43)【公開日】2022-12-02
(54)【発明の名称】検査装置、学習装置、検査方法、学習器の生産方法、およびプログラム
(51)【国際特許分類】
G06F 40/253 20200101AFI20221125BHJP
G06T 7/00 20170101ALI20221125BHJP
【FI】
G06F40/253
G06T7/00 300E
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2021084265
(22)【出願日】2021-05-19
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 令和2年6月1日 https://prtimes.jp/main/html/rd/p/000000006.000048611.htmlを通じて発表、令和2年6月3日、令和2年6月17日、令和2年6月24日、令和2年7月1日、令和2年7月15日、令和2年8月13日、令和2年9月30日、令和2年10月7日、令和2年11月4日、令和2年12月2日、令和3年1月21日、令和3年2月24日、令和3年3月3日、令和3年3月10日、令和3年3月31日、令和3年4月7日、令和3年4月14日、令和3年4月21日、令和3年4月28日、令和3年5月12日、令和3年5月19日別紙の個別営業先を通じて公開、令和2年6月23日 https://miraicolabo.willsmart.co.jp/news/2986/を通じて発表、令和2年7月31日 https://www.ipros.jp/product/detail/2000540560/を通じて発表、令和2年8月4日 https://youtu.be/9syu9W2D2Wsを通じて発表、令和2年8月5日 https://youtu.be/elgOy4ePhKgを通じて発表、令和2年8月25日 https://prtimes.jp/main/html/rd/p/000000007.000048611.htmlを通じて発表、令和2年9月14日 https://ledge.ai/ledge-ai-expo-starting/ https://ledge-expo.com/2020-at/product/mirasenses/を通じて発表、
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 令和2年12月22日、令和3年2月24日、令和3年4月28日、令和3年5月31日別紙の個別販売先を通じて公開、令和3年2月17日 https://prtimes.jp/main/html/rd/p/000000009.000048611.htmlを通じて発表、令和3年2月19日 https://ascii.jp/elem/000/004/044/4044700/を通じて発表、令和3年3月27日 https://www.ai-editor.jp/index.htmlを通じて発表、令和3年4月5日 株式会社IRISが運営するタクシー・サイネージメディア「Tokyo Prime」を通じて公開、令和3年4月10日 https://youtu.be/AypBPiJCHS8 https://youtu.be/2GfeZyIBMusを通じて発表
(71)【出願人】
【識別番号】520037360
【氏名又は名称】株式会社ミラセンシズ
(74)【代理人】
【識別番号】100115749
【弁理士】
【氏名又は名称】谷川 英和
(72)【発明者】
【氏名】石川 信行
(72)【発明者】
【氏名】池田 裕一
(72)【発明者】
【氏名】縄稚 泰弘
【テーマコード(参考)】
5B091
5L096
【Fターム(参考)】
5B091AA15
5B091CA02
5B091CD11
5B091EA01
5B091EA04
5L096AA06
5L096BA03
5L096DA02
5L096GA51
5L096HA09
5L096JA03
5L096JA11
5L096JA18
(57)【要約】
【課題】従来、ユーザごとの検査ルールに基づいた文章の検査を行えなかった。
【解決手段】文章を含む検査情報を、ユーザ識別子に対応付けて受け付ける検査情報受付部121と、ユーザ識別子ごとに、ユーザ識別子に対応付けて、文章を検査するための1以上の検査ルールが格納されるルール格納部112から、検査情報に対応するユーザ識別子に対応する1以上の検査ルールを取得するルール取得部131と、検査情報に対して、1以上の各検査ルールを用いて検査を行う検査部132と、検査部132における検査の結果を用いて、出力する検査結果を構成する検査結果構成部133と、検査結果を出力する結果出力部141とを具備する検査装置1により、ユーザごとの検査ルールに基づいた文章の検査を行える。
【選択図】
図2
【特許請求の範囲】
【請求項1】
文章を含む検査情報を、ユーザ識別子に対応付けて受け付ける検査情報受付部と、
ユーザ識別子ごとに、当該ユーザ識別子に対応付けて、文章を検査するための1以上の検査ルールが格納されるルール格納部から、前記検査情報に対応する前記ユーザ識別子に対応する1以上の検査ルールを取得するルール取得部と、
前記検査情報に対して、前記1以上の各検査ルールを用いて検査を行う検査部と、
前記検査部における検査の結果を用いて、出力する検査結果を構成する検査結果構成部と、
前記検査結果を出力する結果出力部とを具備する検査装置。
【請求項2】
前記検査ルールは、
誤記の検出のための1以上の正解用語を含む正解用語辞書を有し、
前記検査部は、
前記検査情報が有する文章に対して形態素解析を行い、2以上の形態素を取得する形態素解析手段と、
前記形態素解析手段が取得した2以上の形態素から、1または連続する2以上の形態素の文字列である2以上の比較文字列を取得する比較文字列取得手段と、
前記2以上の各比較文字列に対して、前記1以上の各正解用語との差異の程度を特定する差異程度情報を取得する差異程度情報取得手段と、
前記差異程度情報が特定する差異の程度が0ではなく、閾値以内または閾値より小さい場合に、対応する比較文字列が誤記であると判断する判断手段とを具備し、
前記検査結果構成部は、
前記誤記であると判断された前記比較文字列を特定する検査結果を構成する、請求項1記載の検査装置。
【請求項3】
前記差異程度情報取得手段は、
前記比較文字列または当該比較文字列と比較する前記正解用語の文字数を取得し、当該文字数に応じた前記差異程度情報を取得する、請求項2記載の検査装置。
【請求項4】
正しい文である正例文と、当該正例文から2以上の各誤記パターンを用いて生成された誤記を含む文である2以上の負例文とを有する2以上の教師データに対して、機械学習の学習処理を行い取得された学習器が格納される学習器格納部をさらに具備し、
前記ルール取得部は、
前記学習器を取得し、
前記検査部は、
前記検査情報が有する1以上の各文と前記学習器とを用いて、機械学習の予測処理を行い、前記1以上の各文ごとに、誤字または脱字の箇所を特定する予測手段を具備し、
前記検査結果構成部は、
前記誤字または脱字の箇所を特定する箇所情報を有する検査結果を構成する、請求項1記載の検査装置。
【請求項5】
前記教師データは、誤記パターンを特定するパターン識別子を有し、
前記予測手段は、
前記検査情報が有する1以上の各文と前記学習器とを用いて、機械学習の予測処理を行い、前記1以上の各文ごとに、パターン識別子をも取得し、
前記検査結果構成部は、
前記パターン識別子に対応する種類識別子をも有する検査結果を構成する、請求項4記載の検査装置。
【請求項6】
前記検査ルールは、
正しい画像である正例画像を有し、
前記検査部は、
前記検査情報が有する1以上の画像を取得し、当該1以上の各画像と前記正例画像との差異に関する画像差異情報を取得し、当該画像差異情報が特定する差異に関する情報が、正例画像に対する擬似画像を検知するための擬似画像条件を満たすか否かを判断する画像判断手段を具備し、
前記検査結果構成部は、
前記検査情報が有する画像が前記擬似画像条件を満たす場合に、当該画像がエラーである旨の検査結果を構成する、請求項1から請求項5いずれか一項に記載の検査装置。
【請求項7】
前記検査結果は、
前記検査情報におけるエラーの箇所を特定する箇所情報およびエラーの種類を識別する種類識別子とを有し、
前記検査結果が有する種類識別子をユニーク処理した結果の1以上の各種類識別子を選択項目として有し、前記検査結果が有さない種類識別子を選択項目として有さない選択インターフェイスを構成する選択インターフェイス構成部と、
前記選択インターフェイスを出力する出力する選択インターフェイス出力部と、
前記選択インターフェイスが有する選択項目に対する選択を受け付ける選択受付部と、
前記検査結果構成部は、
前記選択に対する前記選択項目に対応する種類識別子と対になる1以上の箇所情報に対応するエラーを、他の箇所情報に対応するエラーと比較して、視覚的に異なる検査結果を構成する、請求項1から請求項6いずれか一項に記載の検査装置。
【請求項8】
前記検査結果は、
前記検査情報におけるエラーの箇所を特定する箇所情報およびエラーの種類を識別する種類識別子とを有し、
前記検査結果構成部は、
前記箇所情報および前記種類識別子を視覚的に明示する態様の検査結果を構成する、請求項1から請求項6いずれか一項に記載の検査装置。
【請求項9】
前記1以上の検査ルールは、
2以上の用語が位置条件を満たす位置に配置されていることを検査する検査ルールを含む、請求項1から請求項8いずれか一項に記載の検査装置。
【請求項10】
誤記パターンに関する1以上のパターン情報が格納されるパターン情報格納部と、
正しい文である1以上の各正例文を取得する正例文取得部と、
前記1以上の各正例文に対して、前記1以上の各パターン情報を用いて、誤記を含む文である1以上の負例文を取得する負例文取得部と、
前記正例文と前記1以上の負例文とを有する2以上の教師データに対して、機械学習の学習処理を行い、学習器を取得する学習部と、
前記学習器を蓄積する蓄積部とを具備する学習装置。
【請求項11】
検査情報受付部と、ルール取得部と、検査部と、検査結果構成部と、結果出力部とにより実現される検査方法であって、
前記検査情報受付部が、文章を含む検査情報を、ユーザ識別子に対応付けて受け付ける検査情報受付ステップと、
前記ルール取得部が、ユーザ識別子ごとに、当該ユーザ識別子に対応付けて、文章を検査するための1以上の検査ルールが格納されるルール格納部から、前記検査情報に対応する前記ユーザ識別子に対応する1以上の検査ルールを取得するルール取得ステップと、
前記検査部が、前記検査情報に対して、前記1以上の各検査ルールを用いて検査を行う検査ステップと、
前記検査結果構成部が、前記検査ステップにおける検査の結果を用いて、出力する検査結果を構成する検査結果構成ステップと、
前記結果出力部が、前記検査結果を出力する結果出力ステップとを具備する検査方法。
【請求項12】
誤記パターンに関する1以上のパターン情報が格納されるパターン情報格納部と、正例文取得部と、負例文取得部と、学習部と、蓄積部とによる学習器の生産方法であって、
前記正例文取得部が、正しい文である1以上の各正例文を取得する正例文取得ステップと、
前記負例文取得部が、前記1以上の各正例文に対して、前記1以上の各パターン情報を用いて、誤記を含む文である1以上の負例文を取得する負例文取得ステップと、
前記学習部が、前記正例文と前記1以上の負例文とを有する2以上の教師データに対して、機械学習の学習処理を行い、学習器を取得する学習ステップと、
前記蓄積部が、前記学習器を蓄積する蓄積ステップとを具備する学習器の生産方法。
【請求項13】
コンピュータを、
文章を含む検査情報を、ユーザ識別子に対応付けて受け付ける検査情報受付部と、
ユーザ識別子ごとに、当該ユーザ識別子に対応付けて、文章を検査するための1以上の検査ルールが格納されるルール格納部から、前記検査情報に対応する前記ユーザ識別子に対応する1以上の検査ルールを取得するルール取得部と、
前記検査情報に対して、前記1以上の各検査ルールを用いて検査を行う検査部と、
前記検査部における検査の結果を用いて、出力する検査結果を構成する検査結果構成部と、
前記検査結果を出力する結果出力部として機能させるためのプログラム。
【請求項14】
誤記パターンに関する1以上のパターン情報が格納されるパターン情報格納部にアクセス可能なコンピュータを、
正しい文である1以上の各正例文を取得する正例文取得部と、
前記1以上の各正例文に対して、前記1以上の各パターン情報を用いて、誤記を含む文である1以上の負例文を取得する負例文取得部と、
前記正例文と前記1以上の負例文とを有する2以上の教師データに対して、機械学習の学習処理を行い、学習器を取得する学習部と、
前記学習器を蓄積する蓄積部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文章等のチェックを行う検査装置等に関するものである。
【背景技術】
【0002】
従来、文書作成のエディタにおいて、校正機能があった(例えば、非特許文献1参照)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Microsoft(登録商標)、“Office でスペル チェックと文章校正を行う”、[online]、[令和3年4月28日検索]、インターネット[URL:https://support.microsoft.com/ja-jp/topic/office-%E3%81%A7%E3%82%B9%E3%83%9A%E3%83%AB-%E3%83%81%E3%82%A7%E3%83%83%E3%82%AF%E3%81%A8%E6%96%87%E7%AB%A0%E6%A0%A1%E6%AD%A3%E3%82%92%E8%A1%8C%E3%81%86-5cdeced7-d81d-47de-9096-efd0ee909227]
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来技術において、ユーザごとの検査ルールに基づいた文章の検査を行えなかった。
【課題を解決するための手段】
【0005】
本第一の発明の検査装置は、文章を含む検査情報を、ユーザ識別子に対応付けて受け付ける検査情報受付部と、ユーザ識別子ごとに、ユーザ識別子に対応付けて、文章を検査するための1以上の検査ルールが格納されるルール格納部から、検査情報に対応するユーザ識別子に対応する1以上の検査ルールを取得するルール取得部と、検査情報に対して、1以上の各検査ルールを用いて検査を行う検査部と、検査部における検査の結果を用いて、出力する検査結果を構成する検査結果構成部と、検査結果を出力する結果出力部とを具備する検査装置である。
【0006】
かかる構成により、ユーザごとの検査ルールに基づいた文章の検査を行える。
【0007】
また、本第二の発明の検査装置は、第一の発明に対して、検査ルールは、誤記の検出のための1以上の正解用語を含む正解用語辞書を有し、検査部は、検査情報が有する文章に対して形態素解析を行い、2以上の形態素を取得する形態素解析手段と、形態素解析手段が取得した2以上の形態素から、1または連続する2以上の形態素の文字列である2以上の比較文字列を取得する比較文字列取得手段と、2以上の各比較文字列に対して、1以上の各正解用語との差異の程度を特定する差異程度情報を取得する差異程度情報取得手段と、差異程度情報が特定する差異の程度が0ではなく、閾値以内または閾値より小さい場合に、対応する比較文字列が誤記であると判断する判断手段とを具備し、検査結果構成部は、誤記であると判断された比較文字列を特定する検査結果を構成する、検査装置である。
【0008】
かかる構成により、ユーザが登録した正解用語に対する誤記等を検査できる。
【0009】
また、本第三の発明の検査装置は、第二の発明に対して、差異程度情報取得手段は、比較文字列または比較文字列と比較する正解用語の文字数を取得し、文字数に応じた差異程度情報を取得する、検査装置である。
【0010】
かかる構成により、ユーザが登録した正解用語に対する誤記等を適切に検査できる。
【0011】
また、本第四の発明の検査装置は、第一の発明に対して、正しい文である正例文と、正例文から2以上の各誤記パターンを用いて生成された誤記を含む文である2以上の負例文とを有する2以上の教師データに対して、機械学習の学習処理を行い取得された学習器が格納される学習器格納部をさらに具備し、ルール取得部は、学習器を取得し、検査部は、検査情報が有する1以上の各文と学習器とを用いて、機械学習の予測処理を行い、1以上の各文ごとに、誤字または脱字の箇所を特定する予測手段を具備し、検査結果構成部は、誤字または脱字の箇所を特定する箇所情報を有する検査結果を構成する、検査装置である。
【0012】
かかる構成により、誤字脱字等を適切に検査できる。
【0013】
また、本第五の発明の検査装置は、第四の発明に対して、教師データは、誤記パターンを特定するパターン識別子を有し、予測手段は、検査情報が有する1以上の各文と学習器とを用いて、機械学習の予測処理を行い、1以上の各文ごとに、パターン識別子をも取得し、検査結果構成部は、パターン識別子に対応する種類識別子をも有する検査結果を構成する、検査装置である。
【0014】
かかる構成により、エラーの種類も知ることができる。
【0015】
また、本第六の発明の検査装置は、第一から第五いずれか1つの発明に対して、検査ルールは、正しい画像である正例画像を有し、検査部は、検査情報が有する1以上の画像を取得し、1以上の各画像と正例画像との差異に関する画像差異情報を取得し、画像差異情報が特定する差異に関する情報が、正例画像に対する擬似画像を検知するための擬似画像条件を満たすか否かを判断する画像判断手段を具備し、検査結果構成部は、検査情報が有する画像が擬似画像条件を満たす場合に、画像がエラーである旨の検査結果を構成する、検査装置である。
【0016】
かかる構成により、擬似画像のエラーも検査できる。
【0017】
また、本第七の発明の検査装置は、第一から第六いずれか1つの発明に対して、検査結果は、検査情報におけるエラーの箇所を特定する箇所情報およびエラーの種類を識別する種類識別子とを有し、検査結果が有する種類識別子をユニーク処理した結果の1以上の各種類識別子を選択項目として有し、検査結果が有さない種類識別子を選択項目として有さない選択インターフェイスを構成する選択インターフェイス構成部と、選択インターフェイスを出力する選択インターフェイス出力部と、選択インターフェイスが有する選択項目に対する選択を受け付ける選択受付部と、検査結果構成部は、選択に対する選択項目に対応する種類識別子と対になる1以上の箇所情報に対応するエラーを、他の箇所情報に対応するエラーと比較して、視覚的に異なる検査結果を構成する、検査装置である。
【0018】
かかる構成により、エラーの種類に応じた選択インターフェイスを使用して、高い操作性で検査結果を閲覧できる。
【0019】
また、本第八の発明の検査装置は、第一から第六いずれか1つの発明に対して、検査結果は、検査情報におけるエラーの箇所を特定する箇所情報およびエラーの種類を識別する種類識別子とを有し、検査結果構成部は、箇所情報および種類識別子を視覚的に明示する態様の検査結果を構成する、検査装置である。
【0020】
かかる構成により、エラーの箇所およびエラーの種類も提示できる。
【0021】
また、本第九の発明の検査装置は、第一から第八いずれか1つの発明に対して、1以上の検査ルールは、2以上の用語が位置条件を満たす位置に配置されていることを検査する検査ルールを含む、検査装置である。
【0022】
かかる構成により、2以上の用語の組み合わせによる不適切表現のエラーを検査できる。
【0023】
また、本第十の発明の学習装置は、誤記パターンに関する1以上のパターン情報が格納されるパターン情報格納部と、正しい文である1以上の各正例文を取得する正例文取得部と、1以上の各正例文に対して、1以上の各パターン情報を用いて、誤記を含む文である1以上の負例文を取得する負例文取得部と、正例文と1以上の負例文とを有する2以上の教師データに対して、機械学習の学習処理を行い、学習器を取得する学習部と、学習器を蓄積する蓄積部とを具備する学習装置である。
【0024】
かかる構成により、誤字や脱字等をチェックする学習器を構成できる。
【発明の効果】
【0025】
本発明による検査装置によれば、ユーザごとの検査ルールに基づいた文章の検査を行える。
【図面の簡単な説明】
【0026】
【
図1】実施の形態1における情報システムAの概念図
【
図3】同検査装置1の動作例について説明するフローチャート
【
図4】同検査処理の例について説明するフローチャート
【
図5】同文検査処理の例について説明するフローチャート
【
図6】同文検査処理の例について説明するフローチャート
【
図7】同文検査処理の例について説明するフローチャート
【
図8】同画像検査処理の例について説明するフローチャート
【
図9】同検査結果構成処理の例について説明するフローチャート
【
図10】同選択IF構成処理の例について説明するフローチャート
【
図11】同選択検査結果構成処理の例について説明するフローチャート
【
図12】同端末装置2の動作例について説明するフローチャート
【
図18】実施の形態2における学習装置3のブロック図
【
図19】同学習装置3の動作例について説明するフローチャート
【
図20】同教師データ取得処理の例について説明するフローチャート
【
図23】上記実施の形態におけるコンピュータシステムの概観図
【発明を実施するための形態】
【0027】
以下、検査装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
【0028】
(実施の形態1)
本実施の形態において、ユーザに対応付けて、文章等の検査ルールを管理し、ユーザに対応する検査ルールに基づいて、文章等の検査を行う検査装置について説明する。
【0029】
また、本実施の形態において、登録した正解用語に対する誤記を検出する検査装置について説明する。
【0030】
また、本実施の形態において、誤字や脱字等を検出する検査装置について説明する。
【0031】
また、本実施の形態において、エラーの種類も取得し、出力する検査装置について説明する。
【0032】
また、本実施の形態において、登録した画像に対する擬似画像を検出する検査装置について説明する。
【0033】
また、本実施の形態において、エラーの種類に基づいて、メニュー等の選択インターフェイスを構成し、出力する検査装置について説明する。
【0034】
さらに、本実施の形態において、エラーの種類を視覚的に把握できる態様で検査結果を出力する検査装置について説明する。
【0035】
図1は、本実施の形態における情報システムAの概念図である。情報システムAは、検査装置1、および1または2以上の端末装置2を備える。
【0036】
検査装置1は、文章を含む検査情報を検査する装置である。検査装置1は、通常、いわゆるサーバであり、例えば、クラウドサーバ、ASPサーバ等である。なお、検査装置1の種類は問わない。なお、検査装置1は、スタンドアロンで動作しても良い。
【0037】
端末装置2は、ユーザが使用する端末である。ユーザは、例えば、検査情報の検査結果を得るユーザである。端末装置2は、例えば、いわゆるパーソナルコンピュータ、タブレット端末、スマートフォン等であり、その種類は問わない。
【0038】
図2は、本実施の形態における情報システムAのブロック図である。検査装置1は、格納部11、受付部12、処理部13、および出力部14を備える。格納部11は、ユーザ情報格納部111、ルール格納部112、および学習器格納部113を備える。受付部12は、検査情報受付部121、および選択受付部122を備える。処理部13は、ルール取得部131、検査部132、検査結果構成部133、および選択インターフェイス構成部134を備える。検査部132は、形態素解析手段1321、比較文字列取得手段1322、差異程度情報取得手段1323、判断手段1324、予測手段1325、および画像判断手段1326を備える。出力部14は、結果出力部141、および選択インターフェイス出力部142を備える。
【0039】
端末装置2は、端末格納部21、端末受付部22、端末処理部23、端末送信部24、端末受信部25、および端末出力部26を備える。
【0040】
検査装置1を構成する格納部11には、各種の情報が格納される。各種の情報とは、例えば、後述するユーザ情報、後述する検査ルール、後述する学習器、正例画像である。
【0041】
正例画像は、正しい画像である。正例画像は、通常、ユーザが登録した画像である。正例画像は、例えば、企業の図形商標、画像商標、ロゴである。
【0042】
ユーザ情報格納部111には、1または2以上のユーザ情報が格納される。ユーザ情報は、検査装置1を利用するユーザに関する情報である。ユーザ情報は、通常、ユーザ識別子を有する。ユーザ識別子は、ユーザを識別する情報である、例えば、ID、メールアドレス、電話番号、氏名等である。また、ユーザは、組織でも良い。組織は、例えば、企業、地方公共団体である。ユーザが組織である場合、ユーザ識別子は、組織識別子でも良い。
【0043】
ルール格納部112には、ユーザ識別子ごとに、1以上の検査ルールが格納される。検査ルールは、検査対象を検査するためのルールである。検査対象は、エラーの検査の対象である。検査対象は、文章を含む。文章は、1以上の文からなる。検査対象は、画像を含んでも良い。
【0044】
検査ルールは、検査対象のエラーの検出ための情報である。検査ルールは、検査のためのプログラムでも良い。検査ルールは、例えば、(1)誤記用語ルール、(2)誤字脱字ルール、(3)不適切用語集合ルール、(4)擬似画像ルール、がある。
(1)誤記用語ルール
【0045】
誤記用語ルールとは、正解用語に対して誤記用語を検出するための情報である。誤記用語ルールは、1以上の正解用語を含む正解用語辞書を有する。正解用語は、例えば、ユーザが登録した用語である。正解用語は、1つの単語または2以上の連続する単語の文字列である。誤記用語ルールは、例えば、正解用語と誤記用語との距離に関する条件を含む。距離に関する条件は、例えば、「0<距離<=閾値X」「0<距離<閾値X」である。また、距離とは、例えば、編集距離であるが、レーベンシュタイン距離、最小編集距離などでも良い。
(2)誤字脱字ルール
【0046】
誤字脱字ルールは、誤字や脱字等を検出するための情報である。誤字脱字ルールは、正例文と負例文とに基づく情報であり、例えば、後述する学習装置3が取得する学習器、正解用語と誤字脱字用語とのセットの集合である。誤字脱字用語は、正解用語に対して、誤字や脱字等がある用語である。
(3)不適切用語集合ルール
【0047】
不適切用語集合ルールとは、2以上の用語が位置条件を満たす位置に配置されていることを検査するための情報である。位置条件は、2以上の用語の相対的な位置に関する条件である。不適切用語集合ルールは、例えば、「用語1と用語2とがN単語以内(Nは自然数)に存在すること」「用語1の後に用語2がN単語以内(Nは自然数)に存在すること」である。不適切用語集合ルールは、例えば、「”絶対”の後の5単語以内に”痩せる”が存在すること」である。
【0048】
不適切用語集合ルールにより、誇張表現、誤解を生む可能性のある表現等の、ユーザが作成する文として不適切な表現を含む文を検出できる。
(4)擬似画像ルール
【0049】
擬似画像ルールとは、正例画像に対して、検査対象の画像が擬似画像であると判断するための擬似画像条件を含む。擬似画像ルールは、1以上の正例画像を含む。正例画像とは、ユーザにとっての正しい画像である。正例画像は、例えば、企業のロゴ、企業が保有する図形商標である。なお、擬似画像とは、正例画像に似ている画像である。正例画像と全く異なる画像は擬似画像条件を満たさない。
【0050】
擬似画像条件は、例えば、検査対象の画像と正例画像との類似度についての条件であり、「閾値Y<類似度<1」「閾値Y<=類似度<1」(類似度が1の場合には一致している場合)である。
【0051】
擬似画像条件は、例えば、画像の1または2以上の特徴量に関する条件である。特徴量は、例えば、形状に関する特徴量、色に関する特徴量、構成に関する特徴量である。形状に関する特徴量は、例えば、縦横比である。色に関する特徴量は、例えば、モノクロかカラーか、各色の構成の割合である。構成に関する特徴量は、文字列の有無、特定の図形(例えば、三角形、矩形)の有無である。
【0052】
擬似画像条件は、類似度についての条件および特徴量に関する条件の両方を含むことは好適である。
【0053】
学習器格納部113は、1または2以上の学習器が格納される。学習器も、ユーザごとに格納されていても良い。つまり、学習器は、ユーザ識別子に対応付いていても良い。
【0054】
学習器は、後述する学習装置3が取得した情報である。なお、学習器は、学習モデル、モデル等と言っても良い。ここでの学習器は、正例文と当該正例文に対応する1または2以上の負例文とを有する2以上の教師データに対して、機械学習の学習処理を行い取得された情報である。また、正例文は、正しい文である。負例文は、正例文の一部に誤りを含む文である。また、教師データは、誤記パターンを特定するパターン識別子を有することは好適である。なお、パターン識別子は、種類識別子でも良い。
【0055】
受付部12は、各種の指示や情報を受け付ける。各種の指示や情報は、例えば、検査情報、選択である。ここで、受け付けとは、通常、端末装置2からの受信であるが、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。
【0056】
検査情報受付部121は、検査情報を受け付ける。検査情報受付部121は、通常、端末装置2から検査情報を受信する。検査情報は、通常、ユーザ識別子に対応付いている。
【0057】
選択受付部122は、選択インターフェイス(以下、適宜、「選択IF」と言う。)が有する選択項目に対する選択を受け付ける。選択受付部122は、通常、端末装置2から選択を受信する。選択は、選択項目の項目識別子を有する。項目識別子は、選択項目を特定する情報であれば、何でも良い。
【0058】
処理部13は、各種の処理を行う。各種の処理は、ルール取得部131、検査部132、検査結果構成部133、選択インターフェイス構成部134が行う処理である。
【0059】
ルール取得部131は、検査情報受付部121が受け付けた検査情報に対応するユーザ識別子に対応する1以上の検査ルールをルール格納部112から取得する。
【0060】
ルール取得部131は、例えば、学習器格納部113から学習器を取得する。なお、学習器も検査ルールを構成する情報としても良い。
【0061】
検査部132は、検査情報受付部121が受け付けた検査情報に対して、ルール取得部131が取得した1以上の各検査ルールを用いて検査を行う。
【0062】
検査部132は、エラーに関するエラー情報を含む検査の結果を取得することは好適である。エラー情報は、箇所情報と種類識別子とを有する。箇所情報は、エラーの箇所を特定する情報である。箇所情報は、例えば、検査対象内のオフセット、開始アドレスと終了アドレス、文字、文字列、画像のIDなどである。種類識別子は、エラーの種類を識別する情報である。
【0063】
検査部132は、例えば、2以上の用語が位置条件を満たす位置に配置されていることを検査する検査ルールを用いて、不適切な表現を検出する。
【0064】
形態素解析手段1321は、検査情報が有する文章に対して形態素解析を行い、2以上の形態素を取得する。形態素解析手段1321は、通常、検査情報が有する文章が有する1以上の各文に対して、形態素解析を行い、2以上の形態素を取得する。形態素解析の技術は公知技術であるので、詳細な説明を省略する。
【0065】
比較文字列取得手段1322は、形態素解析手段1321が取得した2以上の形態素から、2以上の比較文字列を取得する。比較文字列は、一つの形態素、または連続する2以上の形態素の文字列である。
【0066】
文「高いカスタマイズ性を実現」を、形態素解析手段1321が「高い|カスタマイズ|性|を|実現」と5つの形態素に分けた場合、比較文字列取得手段1322は、例えば、比較文字列「高い」「高いカスタマイズ」「高いカスタマイズ性」「高いカスタマイズ性を」「高いカスタマイズ性を実現」「カスタマイズ」「カスタマイズ性」「カスタマイズ性を」「カスタマイズ性を実現」「性」「性を」「性を実現」「を」「を実現」「実現」を取得する。
【0067】
差異程度情報取得手段1323は、比較文字列と正解用語との差異程度情報を取得する。差異程度情報取得手段1323は、比較文字列取得手段1322が取得した2以上の各比較文字列に対する、1以上の各正解用語との差異程度情報を取得する。差異程度情報は、差異の程度を特定する情報である。差異程度情報は、例えば、距離である。差異程度情報は、編集距離が好適であるが、レーベンシュタイン距離、最小編集距離等でも良い。差異程度情報は、例えば、差異の文字数でも良い。
【0068】
差異程度情報取得手段1323は、比較文字列の文字数と正解用語の文字数との差が閾値以上または閾値より大きい場合には、当該比較文字列と当該正解用語との差異程度情報を取得しないことは好適である。つまり、文字数の差が大きな2つの文字列間の差異程度情報を算出しないことにより、処理速度を速くすることができる。文字数の差が大きな2つの文字列は、誤記等ではなく、無関係な文字列である、として処理を進めることは好適である。
【0069】
差異程度情報取得手段1323は、比較文字列または比較文字列と比較する正解用語の文字数を取得し、当該文字数に応じた差異程度情報を取得することは好適である。文字数に応じた差異程度情報とは、通常、文字数が多いほど、1文字の差異が差異程度情報に及ぼす差異の程度に影響されにくい。文字数に応じた差異程度情報とは、通常、文字数が少ないほど、1文字の差異が差異程度情報に及ぼす差異の程度に対する影響が大きくなる。
【0070】
判断手段1324は、差異程度情報が特定する差異の程度が0ではなく、閾値以内または閾値より小さい場合に、対応する比較文字列が誤記であると判断する。なお、ここでの誤記は、誤っていることを示し、脱字等も含む、とする。
【0071】
予測手段1325は、検査情報が有する1以上の各文と学習器とを用いて、機械学習の予測処理を行い、1以上の各文ごとに、誤字または脱字の箇所を特定する箇所情報を取得する。箇所情報は、文章内における箇所を特定する情報である。箇所情報は、例えば、検査対象内のオフセット、検査対象内の開始アドレスと終了アドレス、文字、文字列等である。予測手段1325は、箇所情報と種類情報とを有するエラー情報を取得することは好適である。
【0072】
予測手段1325は、検査情報が有する1以上の各文と学習器とを用いて、機械学習の予測処理を行い、1以上の各文ごとに、パターン識別子をも取得することは好適である。機械学習の予測処理のアルゴリズムは問わない。機械学習は、例えば、深層学習が好適であるが、ランダムフォレスト、決定木等でも良い。
【0073】
画像判断手段1326は、検査情報が有する1以上の画像を取得し、当該1以上の各画像と正例画像との差異に関する画像差異情報を取得する。そして、画像判断手段1326は、画像差異情報が特定する差異に関する情報が、擬似画像条件を満たすか否かを判断する。画像差異情報は、例えば、2つの画像の類似度、2つの画像の各特徴量の差異である。特徴量は、例えば、縦横比、色分布、文字列の有無であるが、問わない。
【0074】
画像判断手段1326は、例えば、正例画像と検査画像との類似度を算出する。なお、検査画像は、検査対象の画像である。
【0075】
そして、画像判断手段1326は、例えば、当該類似度が、擬似画像条件に含まれる類似度についての条件を満たすか否かを判断する。類似度についての条件を満たす場合、画像判断手段1326は、例えば、正例画像の1種類以上の特徴量と検査画像の1種類以上の特徴量とを取得する。そして、画像判断手段1326は、例えば、種類ごとに、2つの特徴量を比較し、検査画像が擬似画像であるか否かを判断する。
【0076】
画像判断手段1326は、検査画像が擬似画像である場合、例えば、検査情報の中の当該画像の箇所を特定する箇所情報を取得する。また、画像判断手段1326は、例えば、種類識別子「擬似画像」を取得する。
【0077】
検査結果構成部133は、検査部132における検査の結果を用いて、出力する検査結果を構成する。
【0078】
検査結果構成部133は、例えば、誤記であると判断された比較文字列を特定する検査結果を構成する。検査結果構成部133は、例えば、誤記であると判断された比較文字列を特定する箇所を視覚的に認識可能な検査結果を構成する。
【0079】
検査結果構成部133は、例えば、誤字または脱字の箇所を特定する箇所情報を有する検査結果を構成する。
【0080】
検査結果構成部133は、例えば、パターン識別子に対応する種類識別子をも有する検査結果を構成する。
【0081】
検査結果構成部133は、例えば、検査情報が有する画像が擬似画像条件を満たす場合に、画像がエラーである旨の検査結果を構成する。
【0082】
検査結果構成部133は、例えば、選択に対する選択項目に対応する種類識別子と対になる1以上の箇所情報に対応するエラーを、他の箇所情報に対応するエラーと比較して、視覚的に異なる検査結果を構成する。また、視覚的に異なる検査結果とは、当該種類識別子と対になる1以上の箇所情報に対応するエラーのみを含む検査結果でも良い。
【0083】
検査結果構成部133は、例えば、箇所情報および種類識別子を視覚的に明示する態様の検査結果を構成する。
【0084】
選択インターフェイス構成部134は、選択インターフェイスを構成する。選択インターフェイスは、1または2以上の選択項目を有するインターフェイスである。選択インターフェイスは、検査結果が有する種類識別子をユニーク処理した結果の1以上の各種類識別子を選択項目として有し、検査結果が有さない種類識別子を選択項目として有さないインターフェイスである。選択インターフェイスは、例えば、メニュー、ボタンの集合、チェックボックスの集合などである。選択項目とは、選択可能な項目である。選択項目は、例えば、メニュー項目、ボタン、チェックボックスなどである。
【0085】
選択インターフェイス構成部134は、通常、検査結果が有する種類識別子をすべて取得し、当該種類識別子に対してユニーク処理をし、各々異なる1以上の各種類識別子を選択項目とする選択インターフェイスを構成する。選択インターフェイスは、検査結果が有するすべての種類識別子に対応する選択項目(例えば、「すべて」)を有しても良い。選択インターフェイスは、検査結果が有さない種類識別子に対応する選択項目は有さない。
【0086】
出力部14は、各種の情報を出力する。各種の情報とは、例えば、検査結果である。ここで、出力とは、通常、端末装置2への送信であるが、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念であっても良い。
【0087】
結果出力部141は、検査結果構成部133が構成した検査結果を出力する。結果出力部141は、例えば、端末装置2に検査結果を送信する。
【0088】
選択インターフェイス出力部142は、選択インターフェイスを出力する。
【0089】
端末装置2を構成する端末格納部21には、各種の情報が格納される。各種の情報は、例えば、ユーザ識別子、検査情報である。
【0090】
端末受付部22は、各種の指示や情報を受け付ける。各種の指示や情報は、例えば、検査情報、選択指示である。なお、選択指示は、選択項目を選択する指示である。
【0091】
端末処理部23は、各種の処理を行う。各種の処理とは、例えば、端末受付部22が受け付けた指示や情報を、送信するデータ構造の指示や情報にする処理である。各種の処理とは、例えば、端末受信部25が受信した情報を、出力するデータ構造の情報にする処理である。
【0092】
端末送信部24は、各種の指示や情報を送信する。各種の指示や情報は、例えば、検査情報、ユーザ識別子、選択項目の選択の指示である。
【0093】
端末受信部25は、各種の情報を受信する。各種の情報は、例えば、検査結果、選択インターフェイスである。
【0094】
端末出力部26は、各種の情報を出力する。各種の情報は、例えば、検査情報、検査結果、選択インターフェイスである。
【0095】
格納部11、ユーザ情報格納部111、ルール格納部112、学習器格納部113、および端末格納部21は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0096】
格納部11等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部11等で記憶されるようになってもよく、通信回線等を介して送信された情報が格納部11等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部11等で記憶されるようになってもよい。
【0097】
受付部12、ルール取得部131、検査部132、検査結果構成部133、選択インターフェイス構成部134、および端末受信部25は、通常、無線または有線の通信手段で実現される。
【0098】
処理部13、ルール取得部131、検査部132、検査結果構成部133、選択インターフェイス構成部134、形態素解析手段1321、比較文字列取得手段1322、差異程度情報取得手段1323、判断手段1324、予測手段1325、画像判断手段1326、および端末処理部23は、通常、プロセッサやメモリ等から実現され得る。処理部13等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。なお、プロセッサは、MPU、CPU、GPU等であり、その種類は問わない。
【0099】
出力部14、結果出力部141、選択インターフェイス出力部142、および端末送信部24は、通常、無線または有線の通信手段で実現される。
【0100】
端末受付部22は、タッチパネルやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
【0101】
端末出力部26は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。端末出力部26は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
【0102】
次に、情報システムAの動作例について説明する。まず、検査装置1の動作例について、
図3のフローチャートを用いて説明する。
【0103】
(ステップS301)検査情報受付部121は、検査情報等を受け付けたか否かを判断する。検査情報等を受け付けた場合はステップS302に行き、検査情報等を受け付けなかった場合はステップS301に戻る。なお、ここでの受け付けは、通常、端末装置2からの受信であるが、ユーザの入力の受け付けでも良い。また、検査情報等とは、例えば、検査情報とユーザ識別子である。ただし、検査情報とユーザ識別子とは、同時に受け付けなくても良い。
【0104】
(ステップS302)処理部13は、検査情報に対する検査処理を行う。検査処理の例について、
図4のフローチャートを用いて説明する。
【0105】
(ステップS303)検査結果構成部133は、検査結果構成処理を行う。検査結果構成処理の例について、
図9のフローチャートを用いて説明する。
【0106】
(ステップS304)結果出力部141は、ステップS303で構成された検査結果を出力する。なお、ここでの出力は、通常、端末装置2への送信であるが、ディスプレイへの表示、記録媒体への蓄積等でも良い。
【0107】
(ステップS305)受付部12は、ステップS304で出力された検査結果に対して、選択IF出力指示を受け付けたか否かを判断する。選択IF出力指示を受け付けた場合はステップS306に行き、選択IF出力指示を受け付けなかった場合はステップS313に行く。なお、ここでの受け付けは、通常、端末装置2からの受信であるが、ユーザの入力の受け付けでも良い。
【0108】
(ステップS306)選択インターフェイス構成部134は、選択インターフェイス構成処理を行う。選択IF構成処理の例について、
図10のフローチャートを用いて説明する。
【0109】
(ステップS307)選択インターフェイス出力部142は、ステップS306で構成された選択インターフェイスを出力する。ここでの出力は、通常、端末装置2への送信である。
【0110】
(ステップS308)選択受付部122は、ステップS307で出力された選択インターフェイスにおいて、1以上の選択項目が選択されたか否かを判断する。選択項目が選択された場合はステップS309に行き、選択項目が選択されなかった場合はステップS311に行く。なお、ここでの受け付けは、通常、端末装置2からの受信であるが、ユーザの入力の受け付けでも良い。
【0111】
(ステップS309)検査結果構成部133は、選択された選択項目に対応する検査結果を構成する。かかる選択検査結果構成処理の例について、
図11のフローチャートを用いて説明する。
【0112】
(ステップS310)結果出力部141は、ステップS309で取得された検査結果を出力する。なお、ここでの出力は、通常、端末装置2への送信であるが、ディスプレイへの表示、記録媒体への蓄積等でも良い。
【0113】
(ステップS311)受付部12は、検査結果の出力終了の指示を受け付けたか否かを判断する。出力終了の指示を受け付けた場合はステップS312に行き、出力終了の指示を受け付けなかった場合はステップS308に戻る。
【0114】
(ステップS312)処理部13は、検査結果の出力を終了するための処理を行う。ステップS301に戻る。なお、かかる処理は、例えば、端末装置2との通信の切断、ユーザのログアウト処理等である。
【0115】
(ステップS313)受付部12は、検査結果の出力終了の指示を受け付けたか否かを判断する。出力終了の指示を受け付けた場合はステップS314に行き、出力終了の指示を受け付けなかった場合はステップS305に戻る。
【0116】
(ステップS314)処理部13は、検査結果の出力を終了するための処理を行う。ステップS301に戻る。
【0117】
なお、
図3のフローチャートにおいて、後述するように、ステップS305からS314の処理は、端末装置2が行っても良い。
【0118】
また、
図3のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
【0119】
次に、ステップS302の検査処理の例について、
図4のフローチャートを用いて説明する。
【0120】
(ステップS401)ルール取得部131は、受け付けられた検査情報に対応するユーザ識別子を取得する。
【0121】
(ステップS402)ルール取得部131は、ステップS401で取得したユーザ識別子と対になる1以上の検査ルールをルール格納部112から取得する。なお、ルール取得部131は、2以上のユーザが共通に使用する1以上の検査ルールをもルール格納部112から取得しても良い。
【0122】
(ステップS403)検査部132は、カウンタiに1を代入する。
【0123】
(ステップS404)検査部132は、受け付けられた検査情報の中に、i番目の文が存在するか否かを判断する。i番目の文が存在する場合はステップS405に行き、i番目の文が存在しない場合はステップS411に行く。
【0124】
(ステップS405)検査部132は、検査情報からi番目の文を取得する。
【0125】
(ステップS406)検査部132は、カウンタjに1を代入する。
【0126】
(ステップS407)検査部132は、ステップS402で取得された1以上の検査ルールの中から、j番目の文に対応する検査ルールが存在するか否かを判断する。j番目の文に対応する検査ルールが存在する場合はステップS408に行き、存在しない場合はステップS410に行く。
【0127】
(ステップS408)検査部132は、j番目の文に対応する検査ルールを用いて、i番目の文を検査する。かかる文検査処理の例について、
図5、
図6、
図7のフローチャートを用いて説明する。なお、検査部132は、
図5、
図6、
図7のすべてのフローチャートにおける検査を行うことは好適である。
【0128】
(ステップS409)検査部132は、カウンタjを1、インクリメントする。ステップS407に戻る。
【0129】
(ステップS410)検査部132は、カウンタiを1、インクリメントする。ステップS404に戻る。
【0130】
(ステップS411)検査部132は、カウンタkに1を代入する。
【0131】
(ステップS412)検査部132は、検査情報の中に、k番目の検査画像が存在するか否かを判断する。k番目の検査画像が存在する場合はステップS413に行き、存在しない場合は上位処理にリターンする。
【0132】
(ステップS413)検査部132は、カウンタlに1を代入する。
【0133】
(ステップS414)検査部132は、l番目の正例画像に対応する検査ルールが存在するか否かを判断する。かかる検査ルールが存在する場合はステップS415に行き、存在しない場合はステップS417に行く。なお、正例画像は、1または2以上、存在し得る。また、検査ルールも、1または2以上、存在し得る。
【0134】
(ステップS415)検査部132は、l番目の正例画像に対応する検査ルールを用いて、k番目の検査対象の画像に対する画像検査処理を行う。画像検査処理の例について、
図8のフローチャートを用いて説明する。
【0135】
(ステップS416)検査部132は、カウンタlを1、インクリメントする。ステップS414に戻る。
【0136】
(ステップS417)検査部132は、カウンタkを1、インクリメントする。ステップS412に戻る。
【0137】
次に、ステップS408の文検査処理の第一の例について、
図5、
図6、
図7のフローチャートを用いて説明する。第一の例(文検査1)は、正解用語に対する誤記を検査である。
【0138】
(ステップS501)形態素解析手段1321は、対象となる文に対して形態素解析し、文を形態素に分ける。なお、ここで、検査部132は、対象となる文を1または2以上の単語に分けても良い。
【0139】
(ステップS502)比較文字列取得手段1322は、カウンタiに1を代入する。
【0140】
(ステップS503)比較文字列取得手段1322は、ステップS501で取得した1以上の形態素の中で、i番目の形態素が存在するか否かを判断する。i番目の形態素が存在する場合はステップS504に行き、i番目の形態素が存在しない場合は上位処理にリターンする。
【0141】
(ステップS504)比較文字列取得手段1322は、カウンタjに1を代入する。
【0142】
(ステップS505)比較文字列取得手段1322は、i番目の形態素を先頭に含むj番目の比較文字列が存在するか否かを判断する。j番目の比較文字列が存在する場合はステップS506に行き、j番目の比較文字列が存在しない場合はステップS519に行く。なお、j番目の比較文字列は、i番目の形態素を先頭に含む文字列であり、1または2以上の連続する形態素からなる文字列である。
【0143】
(ステップS506)比較文字列取得手段1322は、i番目の形態素を先頭に含むj番目の比較文字列を取得する。
【0144】
(ステップS507)差異程度情報取得手段1323は、ステップS506で取得した比較文字列の文字数(N1)を取得する。
【0145】
(ステップS508)差異程度情報取得手段1323は、カウンタkに1を代入する。
【0146】
(ステップS509)差異程度情報取得手段1323は、k番目の正解用語が、ルール格納部112の中の正解用語辞書の中に存在するか否かを判断する。k番目の正解用語が存在する場合はステップS510に行き、存在しない場合はステップS518に行く。
【0147】
(ステップS510)差異程度情報取得手段1323は、k番目の正解用語を正解用語辞書から取得する。
【0148】
(ステップS511)差異程度情報取得手段1323は、ステップS510で取得した正解用語の文字数(N2)を取得する。
【0149】
(ステップS512)差異程度情報取得手段1323は、N1とN2とが予め決められた条件を満たすか否かを判断する。条件を満たす場合はステップS513に行き、条件を満たさない場合はステップS517に行く。なお、予め決められた条件は、例えば、N1とN2との差に関する条件であり、通常、差が小さいことであり、例えば、「|N1-N2|<閾値」「|N1-N2|<=閾値」である。
【0150】
(ステップS513)差異程度情報取得手段1323は、k番目の正解用語とステップS506で取得した比較文字列との差異程度情報を取得する。なお、差異程度情報は、例えば、2つの文字列の編集距離である。
【0151】
(ステップS514)判断手段1324は、条件を取得する。なお、検査部132は、N1、またはN2、またはN1とN2に応じた条件を取得することは好適である。
【0152】
(ステップS515)判断手段1324は、差異程度情報がステップS514で取得した条件を満たすか否かを判断する。条件を満たす場合はステップS516に行き、条件を満たさない場合はステップS517に行く。
【0153】
(ステップS516)判断手段1324は、j番目の比較文字列の箇所情報と、エラーの種類を特定する種類識別子(ここでは、例えば、「表現のゆらぎ」)とを取得し、図示しないバッファに蓄積する。ステップS518に行く。
【0154】
(ステップS517)差異程度情報取得手段1323は、カウンタkを1、インクリメントする。ステップS509に戻る。
【0155】
(ステップS518)比較文字列取得手段1322は、カウンタjを1、インクリメントする。ステップS503に戻る。
【0156】
(ステップS519)比較文字列取得手段1322は、カウンタiを1、インクリメントする。ステップS505に戻る。
【0157】
次に、ステップS408の文検査処理の第二の例について、
図6、
図7のフローチャートを用いて説明する。第二の例(文検査2)は、複数の用語を用いた不適切な表現に対する検査である。ここでの検査ルールは、『「用語1」「相対位置」「用語2」』の構造を有するルールである。ここでの検査ルールは、例えば、『用語1の後のN用語以内に用語2が存在すること』である。例えば、検査ルールは、『「絶対」の後「5」単語以内に「痩せる」が存在する』である。
【0158】
(ステップS601)形態素解析手段1321は、対象となる文に対して形態素解析し、文を形態素に分ける。
【0159】
(ステップS602)検査部132は、カウンタiに1を代入する。
【0160】
(ステップS603)検査部132は、ステップS601で取得した1以上の形態素の中で、i番目の形態素が存在するか否かを判断する。i番目の形態素が存在する場合はステップS504に行き、i番目の形態素が存在しない場合は上位処理にリターンする。
【0161】
(ステップS604)検査部132は、カウンタjに1を代入する。
【0162】
(ステップS605)検査部132は、j番目の検査ルールが存在するか否かを判断する。j番目の検査ルールが存在する場合はステップS606に行き、j番目の検査ルールが存在しない場合はステップS615に行く。
【0163】
(ステップS606)検査部132は、i番目の形態素を取得する。なお、i番目の形態素を「用語1」とする。
【0164】
(ステップS607)検査部132は、ステップS606で取得した「用語1」がj番目の検査ルールの「用語1」と一致するか否かを判断する。一致する場合はステップS608に行き、一致しない場合はステップS614に行く。
【0165】
(ステップS608)検査部132は、「用語1」に対して、j番目の検査ルールの相対位置に対応する1以上の「用語2」を取得する。なお、検査ルールが『「絶対」の後「5」単語以内に「痩せる」が存在する』である場合、相対位置は、用語1の後の1つ目から5つ目までの形態素を取得する。
【0166】
(ステップS609)検査部132は、カウンタkに1を代入する。
【0167】
(ステップS610)検査部132は、ステップS608で取得した「用語2」の中で、k番目の形態素が存在するか否かを判断する。k番目の形態素が存在する場合はステップS607に行き、k番目の形態素が存在しない場合はステップS614に行く。
【0168】
(ステップS611)検査部132は、k番目の形態素(用語2)が、j番目の検査ルールの「用語2」と一致するか否かを判断する。一致する場合はステップS612に行き、一致しない場合はステップS613に行く。
【0169】
(ステップS612)検査部132は、「用語1」「用語2」に対応する箇所情報と種類識別子(ここでは、例えば、「不適切表現」)とを取得し、図示しないバッファに蓄積する。
【0170】
(ステップS613)検査部132は、カウンタkを1、インクリメントする。ステップS610に戻る。
【0171】
(ステップS614)検査部132は、カウンタjを1、インクリメントする。ステップS605に戻る。
【0172】
(ステップS615)検査部132は、カウンタiを1、インクリメントする。ステップS603に戻る。
【0173】
次に、ステップS408の文検査処理の第三の例について、
図7のフローチャートを用いて説明する。第三の例(文検査3)は、誤字脱字の検査である。
【0174】
(ステップS701)予測手段1325は、学習器格納部113から学習器を取得する。
【0175】
(ステップS702)予測手段1325は、検査対象の文を取得する。
【0176】
(ステップS703)予測手段1325は、学習器と文とを用いて、予測処理を行い、予測結果を取得する。
【0177】
(ステップS704)予測手段1325は、カウンタiに1を代入する。
【0178】
(ステップS705)予測手段1325は、ステップS703で取得された予測結果の中に、i番目のエラーが存在するか否かを判断する。i番目のエラーが存在する場合はステップS706に行き、存在しない場合は上位処理にリターンする。
【0179】
(ステップS706)予測手段1325は、i番目のエラーに対応する箇所情報とi番目のエラー含まれる種類識別子とを取得し、図示しないバッファに蓄積する。
【0180】
(ステップS707)予測手段1325は、カウンタiを1、インクリメントする。ステップS705に戻る。
【0181】
次に、ステップS415の画像検査処理の例について、
図8のフローチャートを用いて説明する。
【0182】
(ステップS801)画像判断手段1326は、検査画像または正例画像のサイズを調整する。なお、サイズの調整とは、例えば、縦または横のサイズを合わせることである。
【0183】
(ステップS802)画像判断手段1326は、検査画像と正例画像との類似度を算出する。なお、類似度は、画像差異情報の一例である。
【0184】
(ステップS803)画像判断手段1326は、ステップS802で取得した類似度が、擬似画像条件を満たすか否かを判断する。条件を満たす場合はステップS804に行き、条件を満たさない場合は上位処理にリターンする。
【0185】
(ステップS804)画像判断手段1326は、正例画像の1以上の特徴量を取得する。
【0186】
(ステップS805)画像判断手段1326は、検査画像の1以上の特徴量を取得する。
【0187】
(ステップS806)画像判断手段1326は、カウンタiに1を代入する。
【0188】
(ステップS807)画像判断手段1326は、i番目の種類の特徴量が存在するか否かを判断する。i番目の種類の特徴量が存在する場合はステップS808に行き、存在しない場合は上位処理にリターンする。
【0189】
(ステップS808)画像判断手段1326は、正例画像のi番目の種類の特徴量と検査画像のi番目の種類の特徴量とが条件を満たすか否かを判断する。条件を満たす場合はステップS809に行き、条件を満たさない場合はステップS810に行く。
【0190】
(ステップS809)画像判断手段1326は、検査画像の位置を特定する箇所情報と、i番目の種類の特徴量に対応する種類識別子とを取得し、図示しないバッファに蓄積する。
【0191】
(ステップS810)画像判断手段1326は、カウンタlを1、インクリメントする。ステップS807に行く。
【0192】
次に、ステップS303の検査結果構成処理の例について、
図9のフローチャートを用いて説明する。
【0193】
(ステップS901)検査結果構成部133は、検査情報を取得する。
【0194】
(ステップS902)検査結果構成部133は、カウンタiに1を代入する。
【0195】
(ステップS903)検査結果構成部133は、図示しないバッファに、i番目のエラー情報が存在するか否かを判断する。i番目のエラー情報が存在すればステップS904に行き、存在しなければ上位処理にリターンする。なお、エラー情報は、箇所情報と種類識別子とを有する。
【0196】
(ステップS904)検査結果構成部133は、i番目のエラー情報から箇所情報を取得する。
【0197】
(ステップS905)検査結果構成部133は、i番目のエラー情報から種類識別子を取得する。
【0198】
(ステップS906)検査結果構成部133は、検査情報を含む検査結果において、箇所情報に対応する情報に対して、種類識別子に対応するエラーの種類を特定できる表示とする。
【0199】
(ステップS907)検査結果構成部133は、カウンタiを1、インクリメントする。ステップS903に戻る。
【0200】
次に、ステップS306の選択IF構成処理の例について、
図10のフローチャートを用いて説明する。
【0201】
(ステップS1001)選択インターフェイス構成部134は、図示しないバッファのすべてのエラー情報から種類識別子を取得する。
【0202】
(ステップS1002)選択インターフェイス構成部134は、種類識別子ごとのエラー数を取得する。種類識別子ごとのエラー数は、種類識別子ごとのエラー情報の数である。
【0203】
(ステップS1003)選択インターフェイス構成部134は、ステップS1001で取得した種類識別子をユニーク処理する。
【0204】
(ステップS1004)選択インターフェイス構成部134は、種類識別子をソートする。なお、選択インターフェイス構成部134は、例えば、ステップS1002で取得したエラー数をキーとして、降順に、種類識別子をソートする。また、選択インターフェイス構成部134は、例えば、予め決められた種類識別子の優先順位に従って、種類識別子をソートする。
【0205】
(ステップS1005)選択インターフェイス構成部134は、種類識別子に対応する文字列または画像を選択項目として有する選択インターフェイスを構成する。上位処理にリターンする。
【0206】
なお、
図10のフローチャートにおいて、選択インターフェイス構成部134は、予め決められた選択項目(例えば、「すべて」)をも有する選択インターフェイスを構成しても良い。
【0207】
次に、ステップS309の選択検査結果構成処理の例について、
図11のフローチャートを用いて説明する。
【0208】
(ステップS1101)検査結果構成部133は、検査情報を取得する。
【0209】
(ステップS1102)検査結果構成部133は、選択に対応する種類識別子を取得する。
【0210】
(ステップS1103)検査結果構成部133は、カウンタiに1を代入する。
【0211】
(ステップS1104)検査結果構成部133は、ステップS1102で取得した種類識別子を含むi番目のエラー情報が図示しないバッファに存在するか否かを判断する。i番目のエラー情報が存在する場合はステップS1105に行き、存在しない場合は上位処理にリターンする。
【0212】
(ステップS1105)検査結果構成部133は、i番目のエラー情報が有する箇所情報を取得する。
【0213】
(ステップS1106)検査結果構成部133は、検査情報を含む検査結果において、ステップS1105で取得した箇所情報に対応する情報に対して、他と異なる表示とする。他と異なる表示とは、例えば、強調すること、他の種類識別子のエラーについては表示しないこと等である。
【0214】
(ステップS1107)検査結果構成部133は、カウンタiを1、インクリメントする。ステップS1104に戻る。
【0215】
次に、端末装置2の動作例について、
図12のフローチャートを用いて説明する。
図12のフローチャートにおいて、
図3のフローチャートと同一のステップについて、説明は省略する。
【0216】
(ステップS1201)端末受付部22は、検査情報を受け付けたか否かを判断する。検査情報を受け付けた場合はステップS1202に行き、検査情報を受け付けなかった場合はステップS1201に戻る。
【0217】
(ステップS1202)端末処理部23は、端末格納部21のユーザ識別子を取得する。また、端末処理部23は、ユーザ識別子と検査情報とを対応付ける。端末送信部24は、ユーザ識別子と検査情報とを検査装置1に送信する。
【0218】
(ステップS1203)端末受信部25は、検査装置1から検査結果を受信したか否かを判断する。検査結果を受信した場合はステップS1204に行き、検査結果を受信しなかった場合はステップS1203に戻る。
【0219】
(ステップS1204)端末処理部23は、ステップS1203で受信された検査結果を出力する構造にする。端末出力部26は、当該検査結果を出力する。ステップS305に行く。
【0220】
なお、
図12のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
【0221】
以下、本実施の形態における情報システムAの具体的な動作例について説明する。
【0222】
ユーザ識別子「U001」のユーザAを含む2以上の各ユーザは、自社の特有の検査ルールを、端末装置2に入力し、検査装置1に登録した、とする。その結果、検査装置1のルール格納部112には、
図13に示すルール管理表が格納された、とする。なお、ユーザが端末装置2に検査ルールを入力するインターフェイス等は問わない。
【0223】
また、
図13のルール管理表は、ユーザごとの検査ルールを管理する表である。ルール管理表は、「ID」「検査ルール」「種類識別子」「ユーザ識別子」を有する1以上のレコードを管理する。
【0224】
また、学習器格納部113には、後述する学習装置3が取得した学習器が格納されている。また、ここでは、学習器は、例えば、学習器1、学習器2等であり、ユーザ識別子に対応付いている、とする。ただし、学習器は、2以上のユーザに共通の情報でも良い。
【0225】
また、
図13の「ID=57」の検査ルールは、擬似画像の検出のためのルールであり、正例画像1301に対して、条件「<縦横比>一致 <文字列>有 <色>一致」を含む。「<縦横比>一致 <文字列>有 <色>一致」は、正例画像1301に対して、縦横比が一致し、かつ画像だけでは無く文字列(ここでは、「MIRASENSES」)を有し、かつ色も一致する画像以外を擬似画像として、エラー検出することを示す。
【0226】
かかる状況において、以下の4つの具体例について説明する。具体例1は、各種の文の検査を行う場合である。具体例2は、検査結果から選択インターフェイスを構成し、出力する場合である。具体例3は、選択インターフェイスを用いて、選択された項目に対応するエラーのみを出力する場合である。具体例4は、擬似画像を検知する場合である。
【0227】
(具体例1)
今、ユーザ識別子「U001」のユーザAは、検査して欲しい検査情報を端末装置2に入力した、とする。すると、端末装置2から当該検査情報とユーザ識別子「U001」とが検査装置1に送信される。
【0228】
次に、検査装置1の検査情報受付部121は、当該検査情報とユーザ識別子「U001」とを受信する。
【0229】
次に、処理部13は、以下のように、検査情報に対する検査処理を行う。まず、ルール取得部131は、受信されたユーザ識別子「U001」と対になる1以上の検査ルールを、
図13のルール管理表から取得する。
【0230】
次に、検査部132は、まず、「ID=1」の検査ルールを検査情報に適用し、
図5のフローチャートを用いて説明した動作により、「インターフェース」の表記揺れを検知し、その箇所情報と種類識別子「表記揺れ」とを有するエラー情報を、図示しないバッファに蓄積する。
【0231】
また、検査部132は、「ID=2」の検査ルールを検査情報に適用し、
図5のフローチャートを用いて説明した動作により、「データベース」の表記揺れを検知し、その箇所情報と種類識別子「表記揺れ」とを有するエラー情報を、図示しないバッファに蓄積する。
【0232】
また、検査部132は、「ID=28」の検査ルールを検査情報に適用し、
図6のフローチャートを用いて説明した動作により、用語1「絶対」の後5単語以内に用語2「痩せる」を含む表現が存在するか否かを判断する。存在すれば、当該用語1と当該用語2の箇所情報および種類識別子「誇張表現」とを有するエラー情報を、図示しないバッファに蓄積する。
【0233】
同様に、検査部132は、「ID=29」の検査ルールを検査情報に適用し、
図6のフローチャートを用いて説明した動作により、用語1「完全」の後3単語以内に用語2「消える」を含む表現が存在するか否かを判断する。存在すれば、当該用語1と当該用語2の箇所情報および種類識別子「誇張表現」とを有するエラー情報を、図示しないバッファに蓄積する。
【0234】
さらに、検査部132は、「ID=56」の検査ルールを検査情報に適用し、
図7のフローチャートを用いて説明した動作により、ユーザ識別子「U001」と対になる学習器1を、学習器格納部113から取得する。また、検査部132は、学習器1と検査装置の各文とを用いて、予測処理を行い、予測結果を取得する。また、検査部132は、予測結果に含まれる1以上のエラー情報を図示しないバッファに蓄積する。なお、この予測結果は、誤字または脱字の箇所情報と種類識別子「誤字脱字」とを有する1以上のエラー情報を含む、とする。
【0235】
以上のような検査処理が完了した後、検査結果構成部133は、
図9のフローチャートを用いて説明した検査結果構成処理を行う。次に、結果出力部141は、構成された検査結果を端末装置2に送信する。
【0236】
次に、端末装置2は、検査結果を受信し、出力する。かかる出力例は、
図14である。
図14において、1401は、検査情報の文章である。また、
図14において、エラーの箇所、エラーの種類(種類識別子)が視覚的に認識可能に、検査情報が表示されている。
図14において、エラーの箇所の文字列の背景が、種類識別子に応じた色になっている。また、
図14の1402は、エラー情報ごとに、エラーの内容を明示する態様で、エラー情報の集合が出力されている。
【0237】
(具体例2)
具体例1における処理の後、ユーザAは、端末装置2に表示された
図14における1403を指示した、とする。すると、端末装置2は、選択IF出力指示を受け付けた、とする。そして、端末装置2は、選択IF出力指示を検査装置1に送信する。
【0238】
次に、検査装置1の受付部12は、選択IF出力指示を受信する。そして、選択インターフェイス構成部134は、以下のように選択インターフェイス構成処理を行う。つまり、選択インターフェイス構成部134は、図示しないバッファのすべてのエラー情報から種類識別子を取得する。ここで、選択インターフェイス構成部134は、複数の「表記揺れ」、多数の「誤字脱字」、および「表記揺れグループ表示」を取得した、とする。なお、図示しないバッファのエラー情報(具体例1で検出されたエラーのエラー情報)は、「擬似画像」を有さなかった、とする。
【0239】
次に、選択インターフェイス構成部134は、取得した種類識別子ごとのエラー数を取得する。
【0240】
次に、選択インターフェイス構成部134は、取得した種類識別子をユニーク処理し、「表記揺れ」、「誤字脱字」、および「表記揺れグループ表示」を取得する。次に、選択インターフェイス構成部134は、例えば、取得したエラー数をキーとして、降順に、種類識別子をソートし、種類識別子を「誤字脱字」、「表記揺れ」、「表記揺れグループ表示」の順に取得した、とする。
【0241】
次に、選択インターフェイス構成部134は、デフォルトの選択項目「すべて」「ユーザー定義-ルール」「ユーザー定義-正誤表」「その他ルール」を格納部11から取得する。そして、選択インターフェイス構成部134は、デフォルトの選択項目の下に、選択項目「誤字脱字」、「表記揺れ」、「表記揺れグループ表示」を順に配置した選択インターフェイス(ここでは、メニュー)を構成する。
【0242】
次に、選択インターフェイス出力部142は、構成されたメニューを端末装置2に送信する。
【0243】
次に、端末装置2は、メニューを受信し、出力する。かかる出力例は、
図15である。また、選択インターフェイスであるメニューの例は、
図15の1501である。1501は、エラーとして検知されなかった種類識別子に対応するメニュー項目「擬似画像」を有さない。
【0244】
なお、選択インターフェイス構成処理、および選択インターフェイスの出力処理は、検査装置1ではなく、端末装置2が行っても良い。かかる場合、選択インターフェイス構成処理のための端末装置2と検査装置1との通信は発生せず、好適である。
【0245】
(具体例3)
次に、ユーザAは、
図15の1501のメニューから選択項目「誤字脱字」を選択した、とする。すると、端末装置2は、選択項目「誤字脱字」の選択を受け付ける。次に、端末装置2は、当該選択項目「誤字脱字」を特定する選択を検査装置1に送信する。
【0246】
次に、検査装置1の選択受付部122は、選択項目「誤字脱字」を特定する選択の指示を受信する。
【0247】
そして、検査結果構成部133は、選択された選択項目「誤字脱字」に対応する種類識別子「誤字脱字」と対になる多数の箇所情報を、エラー情報から取得する。そして、検査結果構成部133は、取得した箇所情報に対応する情報のみをエラーの箇所として明示する検査結果を構成する。次に、結果出力部141は、取得された検査結果を端末装置2に送信する。
【0248】
端末装置2は、当該検査結果を受信し、出力する。かかる検査結果は、「誤字脱字」に対応するエラーのみが明示された検査結果である。
【0249】
(具体例4)
ここで、ユーザAは、
図16の検査情報を端末装置2に入力した、とする。そして、端末装置2は、ユーザ識別子「U001」と対にして、当該検査情報を検査装置1に送信する。
【0250】
次に、検査装置1の検査情報受付部121は、ユーザ識別子「U001」と当該検査情報とを受信する。
【0251】
次に、ルール取得部131は、受信されたユーザ識別子「U001」と対になる1以上の検査ルールを、
図13のルール管理表から取得する。
【0252】
次に、検査部132は、
図16の検査情報の中の各文に対して、上述した検査を行う。ここで、
図16の検査情報の中の各文に対する検査の結果、検査部132は、エラー情報を取得しなかった、とする。
【0253】
次に、検査部132は、
図13の「ID=57」の検査ルールを用いた擬似画像の検査を以下のように行う。
【0254】
つまり、まず、検査部132は、
図16の検査情報の中の検査画像1601を取得する。次に、検査部132は、検査画像1601の縦のサイズを正例画像の縦のサイズと同じになり、かつ検査画像1601の縦横比を代えないように、検査画像1601を、拡大または縮小する。
【0255】
次に、検査部132は、検査画像1601と正例画像との類似度「S1」を算出した、とする。次に、検査部132は、類似度「S1」は、擬似画像条件(ここでは、「0.8<=類似度(S)<1」)を満たす、と判断した、とする。
【0256】
次に、検査部132は、正例画像の3つの特徴量(<縦横比>AR0 <文字列>有 <色分布>色分布情報0)を取得した、とする。なお、「AR0」は、縦横比の数値であり、「色分布情報0」は、色分布を特定する情報である、とする。
【0257】
次に、検査部132は、検査画像1601の3つの特徴量(<縦横比>AR0 <文字列>有 <色分布>色分布情報1)を取得した、とする。
【0258】
次に、検査部132は、検査画像1601について、<縦横比>と<文字列>とは条件を満たす(一致する)、と判断する。一方、検査部132は、検査画像1601について、<色分布>が一致しないので、「色が異なる」と判断する。つまり、検査部132は、検査画像1601が擬似画像であり、「色が異なる」との検査結果を取得する。
【0259】
ここで、検査部132は、検査画像1601の検査情報内における箇所を特定する箇所情報、種類識別子「擬似画像」、およびエラーの内容「色が異なる」を有するエラー情報を取得し、図示しないバッファに一時蓄積した、とする。
【0260】
次に、検査部132は、
図16の検査情報の中の検査画像1602を取得する。次に、検査部132は、検査画像1602の縦のサイズを正例画像の縦のサイズと同じになり、かつ検査画像1602の縦横比を代えないように、検査画像1602を、拡大または縮小する。
【0261】
次に、検査部132は、検査画像1602と正例画像との類似度「S2」を算出した、とする。次に、検査部132は、類似度「S2」は、擬似画像条件(ここでは、「0.8<=類似度(S)<1」)を満たす、と判断した、とする。
【0262】
次に、検査部132は、検査画像1602の3つの特徴量(<縦横比>AR1 <文字列>有 <色分布>色分布情報0)を取得した、とする。
【0263】
次に、検査部132は、検査画像1602について、<色分布>と<文字列>とは条件を満たす、と判断する。一方、検査部132は、検査画像1601について、<縦横比>が一致しないので、「縦横比が異なる」と判断する。つまり、検査部132は、検査画像1602が擬似画像であり、「縦横比が異なる」との検査結果を取得する。
【0264】
ここで、検査部132は、検査画像1602の検査情報内における箇所を特定する箇所情報、種類識別子「擬似画像」、およびエラーの内容「縦横比が異なる」を有するエラー情報を取得し、図示しないバッファに一時蓄積した、とする。
【0265】
次に、検査部132は、
図16の検査情報の中の検査画像1603を取得する。次に、検査部132は、検査画像1603の縦のサイズを正例画像の縦のサイズと同じになり、かつ検査画像1603の縦横比を代えないように、検査画像1603を、拡大または縮小する。
【0266】
次に、検査部132は、検査画像1603と正例画像との類似度「S3」を算出した、とする。次に、検査部132は、類似度「S3」は、擬似画像条件(ここでは、「0.8<=類似度(S)<1」)を満たさない、と判断した、とする。つまり、検査部132は、検査画像1603が擬似画像ではない、と判断する。
【0267】
次に、検査部132は、
図16の検査情報の中の検査画像1604を取得する。次に、検査部132は、検査画像1604の縦のサイズを正例画像の縦のサイズと同じになり、かつ検査画像1604の縦横比を代えないように、検査画像1604を、拡大または縮小する。
【0268】
次に、検査部132は、検査画像1604と正例画像との類似度「S4」を算出した、とする。次に、検査部132は、類似度「S4」は、擬似画像条件(ここでは、「0.8<=類似度(S)<1」)を満たす、と判断した、とする。
【0269】
次に、検査部132は、検査画像1604の3つの特徴量(<縦横比>AR0 <文字列>無 <色分布>色分布情報0)を取得した、とする。
【0270】
次に、検査部132は、検査画像1602について、<縦横比>と<色分布>とは条件を満たす、と判断する。一方、検査部132は、検査画像1601について、<文字列>が一致しないので、「文字列がない」と判断する。つまり、検査部132は、検査画像1602が擬似画像であり、「文字列がない」との検査結果を取得する。
【0271】
ここで、検査部132は、検査画像1604の検査情報内における箇所を特定する箇所情報、種類識別子「擬似画像」、およびエラーの内容「文字列がない」を有するエラー情報を取得し、図示しないバッファに一時蓄積した、とする。
【0272】
次に、検査結果構成部133は、検査画像1601、1602、1604に対応するエラー情報を含む検査結果を構成する。次に、結果出力部141は、構成された検査結果を端末装置2に送信する。
【0273】
次に、端末装置2は、検査結果を受信し、出力する。かかる出力例は、
図17である。
図17において、正例画像に対する3つの擬似画像が明示されている。なお、擬似画像のエラーについて、
図16の検査情報の中で、明示されることは好適である。つまり、検査結果構成部133は、検査情報の中で、擬似画像を明示する検査結果を取得することは好適である。
【0274】
以上、本実施の形態によれば、ユーザごとの検査ルールに基づいた文章の検査を行える。
【0275】
また、本実施の形態によれば、ユーザが登録した正解用語に対する誤記等を検査できる。
【0276】
また、本実施の形態によれば、誤字脱字等を適切に検査できる。
【0277】
また、本実施の形態によれば、エラーの箇所やエラーの種類も提示できる。
【0278】
また、本実施の形態によれば、擬似画像のエラーも検査できる。
【0279】
さらに、本実施の形態によれば、エラーの種類に応じた選択インターフェイスを使用して、高い操作性で検査結果を閲覧できる。
【0280】
なお、本実施の形態において、検査装置1は、スタンドアロンの装置でも良い。また、本実施の形態において、検査ルールは、ユーザごとに管理されなくても良い。また、本実施の形態において、検査ルールは、2以上のユーザに対して共通のルールでも良い。
【0281】
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD-ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、文章を含む検査情報を、ユーザ識別子に対応付けて受け付ける検査情報受付部と、ユーザ識別子ごとに、当該ユーザ識別子に対応付けて、文章を検査するための1以上の検査ルールが格納されるルール格納部から、前記検査情報に対応する前記ユーザ識別子に対応する1以上の検査ルールを取得するルール取得部と、前記検査情報に対して、前記1以上の各検査ルールを用いて検査を行う検査部と、前記検査部における検査の結果を用いて、出力する検査結果を構成する検査結果構成部と、前記検査結果を出力する結果出力部として機能させるためのプログラムである。
【0282】
(実施の形態2)
本実施の形態において、上述した学習器を構成する学習装置について説明する。
【0283】
図18は、本実施の形態における学習装置3のブロック図である。学習装置3は、学習格納部31、学習受付部32、および学習処理部33を備える。学習格納部31は、正例文格納部311、およびパターン情報格納部312を備える。学習処理部33は、正例文取得部331、負例文取得部332、学習部333、および蓄積部334を備える。
【0284】
学習格納部31には、各種の情報が格納される。各種の情報とは、例えば、後述する正例文、後述する負例文、後述するパターン情報、学習器である。
【0285】
正例文格納部311には、1または2以上の正例文が格納される。正例文は、正しい文である。
【0286】
パターン情報格納部312には、1以上のパターン情報が格納される。パターン情報は、誤記のパターンに関する情報である。パターン情報は、通常、パターン識別子に対応付いている。パターン識別子は、例えば、「同音異義語」「Typo」「類似文字」である。パターン識別子は、種類識別子でも良い。
【0287】
パターン識別子「同音異義語」に対応するパターン情報は、例えば、正しい用語に対する同音異義語を生成するプログラム、または/および正しい用語と1以上の同音異義語の1以上のセットである同音異義語辞書である。なお、同音異義語辞書のセットの例(正しい用語:同音異義語[誤った用語])は、(書類:諸類)(記入:帰入)である。
【0288】
なお、同音異義語を生成するプログラムは、例えば、漢字と読みとの組を多数、有する漢字辞書を参照し、用語が有する漢字の1字を、同じ読みの漢字に置き換えた同音異義語を生成するプログラムである。
【0289】
パターン識別子「Typo」に対応するパターン情報は、例えば、正しい文字に対するタイプミスの1以上の文字を生成するプログラム、または/および正しい文字とタイプミスの1以上の文字の1以上のセットであるTypo辞書である。Typo辞書のセットの例(正しい文字:タイプミスの1以上の文字)は、(ま:mま)である。
【0290】
なお、タイプミスの文字を生成するプログラムは、例えば、ひらがなの文字とローマ字(子音+母音)との組を多数、有するローマ字辞書を参照し、正しい文字の子音を取得し、当該子音を正しい文字の前に配置するプログラムである。
【0291】
パターン識別子「類似文字」に対応するパターン情報は、例えば、正しい文字に対する類似文字を生成するプログラム、または/および正しい文字と類似文字の1以上のセットである類似文字辞書である。類似文字辞書のセットの例(正しい文字:類似文字)は、(ま:め)である。
【0292】
なお、類似文字を生成するプログラムは、例えば、類似文字辞書を参照し、文の中の任意のひらがなを、当該ひらがなと対になる類似文字に置き代えるプログラムである。
【0293】
学習受付部32は、各種の情報や指示を受け付ける。各種の情報や指示は、例えば、正例文、学習指示である。学習指示は、学習の開始の指示である。
【0294】
学習処理部33は、学習処理を行う。学習処理は、例えば、正例文取得部331、負例文取得部332、学習部333、および蓄積部334が行う処理である。ただし、負例文は、自動生成されることは好適であるが、自動生成されなくても良い。
【0295】
正例文取得部331は、1以上の正例文を取得する。正例文取得部331は、例えば、正例文格納部311から1以上の正例文を取得する。正例文取得部331は、例えば、学習受付部32が受け付けた正例文を取得する。
【0296】
負例文取得部332は、1以上の負例文を取得する。負例文取得部332は、正例文を用いて、1以上の負例文を自動生成することは好適である。負例文は、誤記を含む文である。負例文は、正例文に対応付いている。
【0297】
負例文取得部332は、例えば、1以上の各正例文に対して、1以上の各パターン情報を用いて、1以上の負例文を取得する。負例文取得部332が負例文を取得する処理例の詳細については、後述する。
【0298】
学習部333は、2以上の教師データに対して、機械学習の学習処理を行い、学習器を取得する。教師データは、正例文と1以上の負例文とを有する。教師データは、1つの正例文と1つの負例文とを有することは好適である。教師データは、エラーの種類を特定する種類識別子を有することは好適である。種類識別子は、例えば、「同音異義語」「Typo」「類似文字」である。
【0299】
学習部333は、例えば、BERTにより、2以上の教師データを用いて、機械学習の学習処理を行い、学習器を取得することは好適である。なお、BERT「Bidirectional Encoder Representations from Transformers」については、URL「https://arxiv.org/pdf/1810.04805.pdf」を参照のこと。
【0300】
また、学習部333が使用する機械学習のアルゴリズムは、問わない。学習部333は、例えば、深層学習、ランダムフォレスト、決定木等のうちのいずれかの機械学習のアルゴリズムにより、2以上の教師データに対して学習処理を行い、学習器を取得する。
【0301】
蓄積部334は、学習部333が取得した学習器を蓄積する。
【0302】
学習格納部31、正例文格納部311、およびパターン情報格納部312は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0303】
学習格納部31等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が学習格納部31等で記憶されるようになってもよく、通信回線等を介して送信された情報が学習格納部31等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が学習格納部31等で記憶されるようになってもよい。
【0304】
学習受付部32は、タッチパネルやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
【0305】
学習処理部33、正例文取得部331、負例文取得部332、学習部333、および蓄積部334は、通常、プロセッサやメモリ等から実現され得る。学習処理部33等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。なお、プロセッサは、MPU、CPU、GPU等であり、その種類は問わない。
【0306】
次に、学習装置3の動作例について、
図19のフローチャートを用いて説明する。
【0307】
(ステップS1901)学習受付部32は、学習指示を受け付けたか否かを判断する。学習指示を受け付けた場合はステップS1902に行き、学習指示を受け付けなかった場合はステップS1901に戻る。
【0308】
(ステップS1902)学習処理部33は、カウンタiに1を代入する。
【0309】
(ステップS1903)学習処理部33は、i番目の正例文が正例文格納部311に存在するか否かを判断する。i番目の正例文が存在する場合はステップS1904に行き、存在しない場合はステップS1907に行く。
【0310】
(ステップS1904)正例文取得部331は、i番目の正例文を正例文格納部311から取得する。
【0311】
(ステップS1905)学習処理部33は、i番目の正例文を用いて、教師データを取得する。教師データ取得処理の例について、
図20のフローチャートを用いて説明する。
【0312】
(ステップS1906)学習処理部33は、カウンタiを1、インクリメントする。ステップS1903に戻る。
【0313】
(ステップS1907)学習処理部33は、ステップS1905で取得された2以上の教師データに対して、学習処理を行い、学習器を取得する。
【0314】
(ステップS1908)蓄積部334は、ステップS1907で取得された学習器を蓄積する。ステップS1901に戻る。
【0315】
なお、
図19のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
【0316】
次に、ステップS1905の教師データ取得処理の例について、
図20のフローチャートを用いて説明する。
【0317】
(ステップS2001)負例文取得部332は、取得された正例文を形態素解析する。
【0318】
(ステップS2002)負例文取得部332は、カウンタiに1を代入する。
【0319】
(ステップS2003)負例文取得部332は、i番目の形態素が存在するか否かを判断する。i番目の形態素が存在する場合はステップS2004に行き、存在しない場合は上位処理にリターンする。
【0320】
(ステップS2004)負例文取得部332は、i番目の形態素を取得する。
【0321】
(ステップS2005)負例文取得部332は、カウンタjに1を代入する。
【0322】
(ステップS2006)負例文取得部332は、i番目の形態素に対応するj番目の同音異義語を取得する。ここで、j番目の同音異義語が取得できた場合はステップS2007に行き、取得できなかった場合はステップS2010に行く。
【0323】
負例文取得部332は、例えば、i番目の形態素と対になる同音異義語を同音異義語辞書から取得する。負例文取得部332は、例えば、i番目の形態素が有する任意の漢字と読みが同じ漢字を漢字辞書から取得し、当該任意の漢字を取得した漢字に置き換えた同音異義語を取得する。
【0324】
(ステップS2007)負例文取得部332は、正例文のi番目の形態素を、j番目の同音異義語に置き換えた負例文を取得する。
【0325】
(ステップS2008)負例文取得部332は、正例文と、ステップS2007で取得した負例文と種類識別子「同音異義語」とを有する教師データを構成し、図示しないバッファに蓄積する。
【0326】
(ステップS2009)カウンタjを1、インクリメントする。ステップS2006に戻る。
【0327】
(ステップS2010)負例文取得部332は、カウンタkに1を代入する。
【0328】
(ステップS2011)負例文取得部332は、i番目の形態素の中に、k番目の文字が存在するか否かを判断する。k番目の文字が存在する場合はステップS2012に行き、k番目の文字が存在しない場合はステップS2023に行く。
【0329】
(ステップS2012)負例文取得部332は、カウンタlに1を代入する。
【0330】
(ステップS2013)負例文取得部332は、i番目の形態素の中のk番目の文字に対するl番目のタイプミスを取得する。ここで、j番目のタイプミスが取得できた場合はステップS2014に行き、取得できなかった場合はステップS2017に行く。
【0331】
負例文取得部332は、例えば、k番目の文字と対になるタイプミスの1以上の文字をTypo辞書から取得する。
【0332】
負例文取得部332は、例えば、k番目の文字の先頭の子音をローマ字辞書から取得し、当該子音をk番目の文字の前に付加した2文字を取得する。
【0333】
(ステップS2014)負例文取得部332は、正例文のi番目の形態素の中のk番目の文字をj番目のタイプミスに置き換えた負例文を取得する。
【0334】
(ステップS2015)負例文取得部332は、正例文と、ステップS2014で取得した負例文と種類識別子「Typo」とを有する教師データを構成し、図示しないバッファに蓄積する。
【0335】
(ステップS2016)カウンタlを1、インクリメントする。ステップS2013に戻る。
【0336】
(ステップS2017)負例文取得部332は、カウンタmに1を代入する。
【0337】
(ステップS2018)負例文取得部332は、i番目の形態素の中のk番目の文字に対すm番目の擬似文字を取得する。ここで、m番目の擬似文字が取得できた場合はステップS2019に行き、取得できなかった場合はステップS2022に行く。
【0338】
負例文取得部332は、例えば、k番目の文字と対になる擬似文字を、類似文字辞書から取得する。
【0339】
(ステップS2019)負例文取得部332は、正例文のi番目の形態素の中のk番目の文字をm番目の擬似文字に置き換えた負例文を取得する。
【0340】
(ステップS2020)負例文取得部332は、正例文と、ステップS2019で取得した負例文と種類識別子「擬似文字」とを有する教師データを構成し、図示しないバッファに蓄積する。
【0341】
(ステップS2021)カウンタmを1、インクリメントする。ステップS2018に戻る。
【0342】
(ステップS2022)カウンタkを1、インクリメントする。ステップS2011に戻る。
【0343】
(ステップS2023)カウンタiを1、インクリメントする。ステップS2003に戻る。
【0344】
以下、本実施の形態における学習装置3の具体的な動作例について説明する。
【0345】
今、学習装置3の正例文格納部311には、正例文「書類に記入をしました」が格納されている、とする。
【0346】
また、学習装置3のパターン情報格納部312には、パターン識別子「同音異義語」に対応付いた同音異義語辞書が格納されている。また、同音異義語辞書は、正しい用語と同音異義語のセット(書類:諸類)(記入:帰入)」を含む。
【0347】
また、パターン情報格納部312には、パターン識別子「Typo」に対応付いたTypo辞書が格納されている。また、Typo辞書は、正しい文字とタイプミスの1以上の文字のセット(ま:mま)を含む。
【0348】
さらに、パターン情報格納部312には、パターン識別子「擬似文字」に対応付いた類似文字辞書が格納されている。また、類似文字辞書は、正しい文字と類似文字のセット(ま:め)を含む。
【0349】
かかる状況において、ユーザは、学習指示を学習装置3に入力した、とする。すると、学習装置3の学習受付部32は、学習指示を受け付ける。
【0350】
次に、正例文取得部331は、正例文「書類に記入をしました」を正例文格納部311から取得する。
【0351】
次に、負例文取得部332は、
図20のフローチャートに従って、正例文「書類に記入をしました」に含まれる用語「書類」に対する同音異義語「諸類」を同音異義語辞書から取得する。そして、負例文取得部332は、正例文の「書類」を同音異義語「諸類」に置き換えた負例文「諸類に記入をしました」を取得する。そして、負例文取得部332は、当該正例文と当該負例文と種類識別子「同音異義語」とを有する教師データを取得し、図示しないバッファに蓄積する。かかる教師データは、
図21の教師データ管理表の「ID=1」のレコードである。
【0352】
また、負例文取得部332は、
図20のフローチャートに従って、正例文「書類に記入をしました」に含まれる用語「記入」に対する同音異義語「帰入」を同音異義語辞書から取得する。そして、負例文取得部332は、正例文の「記入」を同音異義語「帰入」に置き換えた負例文「書類に帰入をしました」を取得する。そして、負例文取得部332は、当該正例文と当該負例文と種類識別子「同音異義語」とを有する教師データを取得し、図示しないバッファに蓄積する。かかる教師データは、
図21の教師データ管理表の「ID=2」のレコードである。
【0353】
また、負例文取得部332は、
図20のフローチャートに従って、正例文「書類に記入をしました」に含まれる文字「ま」に対するミスタイプ「mま」をTypo辞書から取得する。そして、負例文取得部332は、正例文の「ま」をミスタイプ「mま」に置き換えた負例文「書類に記入をしmました」を取得する。そして、負例文取得部332は、当該正例文と当該負例文と種類識別子「Typo」とを有する教師データを取得し、図示しないバッファに蓄積する。かかる教師データは、
図21の教師データ管理表の「ID=3」のレコードである。
【0354】
また、負例文取得部332は、
図20のフローチャートに従って、正例文「書類に記入をしました」に含まれる文字「ま」に対する擬似文字「め」を擬似文字辞書から取得する。そして、負例文取得部332は、正例文の「ま」を擬似文字「め」に置き換えた負例文「書類に記入をしめした」を取得する。そして、負例文取得部332は、当該正例文と当該負例文と種類識別子「擬似文字」とを有する教師データを取得し、図示しないバッファに蓄積する。かかる教師データは、
図21の教師データ管理表の「ID=4」のレコードである。
【0355】
以上のような処理を、他の正例文に対しても行い、負例文取得部332は、膨大な数の教師データを取得した、とする。
【0356】
次に、学習処理部33は、
図21の2以上の教師データに対して、BERTによる学習処理を行い、学習器を取得する。そして、蓄積部334は、取得された学習器を、検査装置1の学習器格納部113に蓄積する。なお、かかる学習器は、検査装置1が誤字脱字の検出のために使用する学習器である。
【0357】
また、検査装置1が、例えば、検査情報「・・・・。諸類に記入しました。・・・」を受け付けた場合、検査部132は、当該検査情報の文「諸類に記入しました」と当該学習器とを用いて、機械学習の予測処理を行い、
図22の2201に示す検査結果を得た、とする。ここでの検査結果は、各文字に対して、種類識別子ごとの確率を示す情報を含む。
【0358】
そして、検査部132は、確率が閾値(ここでは、0.50)以上であれば、当該文字が、当該確率に該当する種類識別子で識別されるエラーである、と判断する。つまり、検査部132は、確率「0.86」の文字「諸」が種類識別子「同音異義語」に対応するエラーである、と判断する。
【0359】
なお、
図22において、例えば、検査部132は、BERTによる学習器2202のFully Connected Layer(全結合層)を用いて、深層学習のアルゴリズムによる予測処理を行うモジュールに、文「諸類に記入しました」を与え、当該モジュールを実行し、2201の検査結果を得ることを示す。
【0360】
そして、検査結果構成部133は、検査情報「・・・・。諸類に記入しました。・・・」のうちの文字「諸」が種類識別子「同音異義語」に対応するエラーであることを明示する検査結果を構成する。
【0361】
次に、結果出力部141は、当該検査結果を出力する。
【0362】
以上、本実施の形態によれば、誤字や脱字等をチェックする学習器を構成できる。また、本実施の形態によれば、学習器を用いて、誤字や脱字等をチェックできる。
【0363】
なお、本実施の形態における学習装置3を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、誤記パターンに関する1以上のパターン情報が格納されるパターン情報格納部にアクセス可能なコンピュータを、正しい文である1以上の各正例文を取得する正例文取得部と、前記1以上の各正例文に対して、前記1以上の各パターン情報を用いて、誤記を含む文である1以上の負例文を取得する負例文取得部と、
前記正例文と前記1以上の負例文とを有する2以上の教師データに対して、機械学習の学習処理を行い、学習器を取得する学習部と、前記学習器を蓄積する蓄積部として機能させるためのプログラムである。
【0364】
また、
図23は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の検査装置1等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。
図23は、このコンピュータシステム300の概観図であり、
図24は、システム300のブロック図である。
【0365】
図23において、コンピュータシステム300は、CD-ROMドライブを含むコンピュータ301と、キーボード302と、マウス303と、モニタ304とを含む。
【0366】
図24において、コンピュータ301は、CD-ROMドライブ3012に加えて、MPU3013と、CD-ROMドライブ3012等に接続されたバス3014と、ブートアッププログラム等のプログラムを記憶するためのROM3015と、MPU3013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM3016と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3017とを含む。ここでは、図示しないが、コンピュータ301は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
【0367】
コンピュータシステム300に、上述した実施の形態の検査装置1等の機能を実行させるプログラムは、CD-ROM3101に記憶されて、CD-ROMドライブ3012に挿入され、さらにハードディスク3017に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ301に送信され、ハードディスク3017に記憶されても良い。プログラムは実行の際にRAM3016にロードされる。プログラムは、CD-ROM3101またはネットワークから直接、ロードされても良い。
【0368】
プログラムは、コンピュータ301に、上述した実施の形態の検査装置1等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム300がどのように動作するかは周知であり、詳細な説明は省略する。
【0369】
なお、上記プログラムにおいて、情報を送信するステップや、情報を受信するステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。
【0370】
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
【0371】
また、上記各実施の形態において、一の装置に存在する2以上の通信手段は、物理的に一の媒体で実現されても良いことは言うまでもない。
【0372】
また、上記各実施の形態において、各処理は、単一の装置によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
【0373】
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【0374】
以上のように、本発明にかかる検査装置は、ユーザごとの検査ルールに基づいた文章の検査を行えるという効果を有し、検査装置等として有用である。
【符号の説明】
【0375】
1 検査装置
2 端末装置
3 学習装置
11 格納部
12 受付部
13 処理部
14 出力部
21 端末格納部
22 端末受付部
23 端末処理部
24 端末送信部
25 端末受信部
26 端末出力部
31 学習格納部
32 学習受付部
33 学習処理部
111 ユーザ情報格納部
112 ルール格納部
113 学習器格納部
121 検査情報受付部
122 選択受付部
131 ルール取得部
132 検査部
133 検査結果構成部
134 選択インターフェイス構成部
141 結果出力部
142 選択インターフェイス出力部
311 正例文格納部
312 パターン情報格納部
331 正例文取得部
332 負例文取得部
333 学習部
334 蓄積部
1301 正例画像
1321 形態素解析手段
1322 比較文字列取得手段
1323 差異程度情報取得手段
1324 判断手段
1325 予測手段
1326 画像判断手段