特開2024-160574 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧 ▶ 東芝ソリューション株式会社の特許一覧

特開2024-160574文書チェックシステム、および、文書チェックプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024160574

(43)【公開日】2024-11-14

(54)【発明の名称】文書チェックシステム、および、文書チェックプログラム

(51)【国際特許分類】

G06F 40/253 20200101AFI20241107BHJP

G06F 40/216 20200101ALI20241107BHJP

【ＦＩ】

G06F40/253

G06F40/216

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2023075720

(22)【出願日】2023-05-01

(71)【出願人】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(71)【出願人】

【識別番号】301063496

【氏名又は名称】東芝デジタルソリューションズ株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】長岡武志

(72)【発明者】

【氏名】北川貴之

(72)【発明者】

【氏名】福居誠二

(57)【要約】

【課題】効率的な文書チェックシステム１を提供する。
【解決手段】実施形態の文書チェックシステム１は、入力された文書データから、チェックツールを用いて、所定の不備を検出し、警告文を出力する文章チェック部と、前記警告文が正しいかどうかを、機械学習モデルを用いて、判定する第１判定部と、前記第１判定部が正しいと判定した前記警告文を、ユーザーの意図に基づき、再判定する第２判定部と、を具備する。
【選択図】図３

【特許請求の範囲】

【請求項1】

入力された文書データから、チェックツールを用いて、所定の不備を検し、警告文を出力する文章チェック部と、
前記警告文が正しいかどうかを、機械学習モデルを用いて、判定する第１判定部と、
前記第１判定部が正しいと判定した前記警告文を、ユーザーの意図に基づき、再判定する第２判定部と、を具備する文書チェックシステム。

【請求項2】

前記警告文は、不備の理由を含む請求項１に記載の文書チェックシステム。

【請求項3】

前記文章チェック部は、異なる不備を検出する複数のチェックツールから選択された、２以上のチェックツールを用いて検出する請求項２に記載の文書チェックシステム。

【請求項4】

前記機械学習モデルは、前記第２判定部の再判定結果を用いて学習する請求項１に記載の文書チェックシステム。

【請求項5】

前記第１判定部は、前記警告文、および、前記文書データを入力とし、再帰型ニューラルネットワークを用いて判定する請求項１に記載の文書チェックシステム。

【請求項6】

入力された文書データから、チェックツールを用いて、所定の不備を検出し、警告文を出力する文章チェック部と、
前記警告文が正しいかどうかを、機械学習モデルを用いて、判定する第１判定部と、
前記第１判定部が正しいと判定した前記警告文を、ユーザーの意図に基づき、再判定する第２判定部と、を具備する文書チェックシステムを、プロセッサが実行するための文書チェックプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、入力された文書データから、不備を検出して、警告文を出力する文書チェックシステム、および、前記文書チェックシステムを実現するための文書チェックプログラムに関する。

【背景技術】

【0002】

近年、情報処理装置（コンピュータ）を用いて、自然言語で書かれた文書を分析して、その文書の不備を検出する文書チェックシステムが開発されている。

【0003】

文書チェックシステムは、予め設定されているチェックルールに基づきチェックするシステムと、機械学習モデルを用いる人工知能（ＡＩ）システムと、に大別される。

【0004】

チェックルールに基づく文章チェックシステムは、ルールに該当する文章を全て指摘するため、誤検出、過剰検出、が多くなるおそれがある。

【0005】

すなわち、文章の文脈(前後の文章)、文章の構造上の位置(章・節、箇条書き、表内、等)、文書の種別(設計書、契約書、ブログ、論文、特許、等)等を考慮せず、ルールに該当する不備を全て指摘するため、誤検出等が多く発生する。すなわち、チェックツールによる文書チェックシステムは、文章の表層的な部分しか分析しないため、誤検出が増加する。

【0006】

このため、ユーザーが、チェックシステムが指摘した不備を再チェックしなければならない数が多く，校正作業の効率が低下することがあった。

【0007】

また、複数のツールの仕様によっては、検出された指摘が衝突することがある。例えば、第１のツールによる不備指摘を修正すると、修正後の文章が第２のツールの不備指摘対象となることがある。

【0008】

一方、ＡＩ文書チェックシステムでは、適切な機械学習モデルの構築には、膨大な教師データの作成が必要であり、かつ、モデル学習には長時間を要する。また、文書全体を網羅してチェックするには、ハードウエアへの負荷が大きく、長時間を要する。さらに、ＡＩシステムでは、検出された不備が、どのような理由によって不備として検出されたのかが不明である。このため、ユーザーが、不備の理由を推察し、検出結果の妥当性を判断する必要があり、校正作業の効率が低下することがあった。

【先行技術文献】

【特許文献】

【0009】

【特許文献1】特開２０１２－１５５６４５号明細書

【発明の概要】

【発明が解決しようとする課題】

【0010】

本発明の実施形態は、効率的な文書チェックシステム、および、効率的な文書チェックシステムを実現するための文書チェックプログラムを提供することを目的とする。

【図面の簡単な説明】

【0011】

【図1】図１は、実施形態の文書チェックシステムの構成図である。

【図2】図２は、実施形態の文書チェックシステムの構成図である。

【図3】図３は、実施形態の文書チェックシステムのフローチャートである。

【図4】図４は、実施形態の第１判定部の構成図である。

【図5】図５は、実施形態の第１判定部の学習方法を説明するための構成図である。

【発明を実施するための形態】

【0012】

本実施形態の文書チェックシステムは、入力された文書データから、チェックツールを用いて、所定の不備を検し、警告文を出力する文章チェック部と、前記警告文が正しいかどうかを、機械学習モデルを用いて、判定する第１判定部と、前記第１判定部が正しいと判定した前記警告文を、ユーザーの意図に基づき、再判定する第２判定部と、を具備する。

【0013】

本実施形態の文書チェックプログラムは、入力された文書データから、チェックツールを用いて、所定の不備を検出し、警告文を出力する文章チェック部と、前記警告文が正しいかどうかを、機械学習モデルを用いて、判定する第１判定部と、前記第１判定部が正しいと判定した前記警告文を、ユーザーの意図に基づき、再判定する第２判定部と、を具備する文書チェックシステムを、プロセッサが実行するためのプログラムである。

【0014】

以下、図面を参照して実施形態の文書チェックシステムについて詳細に説明する。

【0015】

図１および図２に示すように実施形態の文書チェックシステム１は、プロセッサ２、ディスプレイ３、キーボード４、記憶装置５、を含むコンピュータである。ＣＰＵ等からなるプロセッサ２は、記憶装置５に記憶されているプログラム６を読込んで、それぞれが所定の機能を実行する複数の機能部を構成している。なお、プロセッサの複数の機能部の少なくともいずれかは、専用のハードウエア回路によって構成されていてもよい。ディスプレイ３は、プロセッサ２の出力結果を表示する。ユーザーは、キーボード４を用いてプロセッサ２に入力を行う。

【0016】

ディスプレイ３は、液晶ディスプレイ、ＣＲＴ等である。タッチ入力可能なディスプレイ３がキーボード４を兼ねていてもよい。記憶装置５は、ハードディスク、シリコンメモリディスク等である。プログラム６は、サーバー７に記憶されていてもよい。

【0017】

図２に示す文書チェックシステム１のインターフェイス１０は、ユーザーがコンピュータを操作するための、ディスプレイ３、キーボード４等である。文書データ読込部１１、文章チェック部１３、第１判定部１５、判定モデル学習部１８、判定結果出力部１９、第２判定部２０、文章チェックツール管理部２２は、プロセッサ２の機能部である。

【0018】

文書データ保存部１２、特徴抽出ルール保存部１６、判定用学習データ保存部１７、第２判定結果保存部２１、文章チェックツール保存部２３は、記憶装置５、または、サーバー７の、メモリによって構成されている。

【0019】

図２に示す文書チェックシステム１は、ユーザーとは別の管理者によって、文章チェックツール管理部２２、文章チェックツール保存部２３が、一括して管理されている。文章チェックツール管理部２２、文章チェックツール保存部２３は、ユーザーが使用するハードウエアとは別のサーバー７によって構成されていてもよい。サーバー７には、複数のユーザーがアクセスできる。なお、ユーザーと管理者とは、同一人物であり、文書チェックシステム１は、１人のユーザーが使用するシステムでもよい。

【0020】

＜文書チェックシステム１による処理＞
以下、図３のフローチャートにそって、文書チェックシステム１による処理を説明する。

【0021】

＜ステップＳ１０＞文書データ読込
ユーザーは、チェック対象の文書データを、インターフェイス１０を経由して文書データ読込部１１に入力する。自然言語の文書データは、キーボード４を用いて入力されてもよいし、記憶装置５または文書データ保存部１２に保存されている作成済みの文書データでもよい。

【0022】

＜ステップＳ１５＞チェックツール選択
文章チェックツール保存部２３には、例えば、文書データの種別に応じた、複数のチェックツールが保存されている。文書種別は、手紙、設計書、契約書、ブログ、論文、特許等である。プロセッサ２は、複数のチェックツールの中から、ユーザーによって予め入力された文書種別にもとづいて、チェックツールを選択する。

【0023】

それぞれのチェックツールは、複数の異なる種類の不備を検出するツールを含んでいる。例えば、それぞれのチェックツールは、誤り検出ツール、曖昧検出ツール、表記ゆれ検出ツール、文法検出ツールを含んでいる。

【0024】

誤り検出ツールは、未登録単語、同音異義語のある単語、特定の単語列、現在では使用されない仮名遣い等を検出する。曖昧検出ツールは、例えば、文章内の係り受けが複数あるような曖昧文を検出する。表記ゆれ検出ツールは、例えば，「ウィンドウ」と「ウインドゥ」と「ウインドウ」とを統一するために、予め登録されている単語辞書を用いて検出する。文法検出ツールは、例えば、文章を構成する要素が正しく配置されていない箇所を検出する。文章を構成する要素には、主語、述語、目的語、形容詞、副詞等が相当する。

【0025】

特に、少なくとも２つ以上のツールを用いることによって、文書チェックシステム１は、様々な不備を網羅的に指摘できる。ツールの選択は、ユーザーの選択に基づいて行われる。前回のチェックにおいてユーザーによって選択されたツールをプロセッサ２が、自動的に選択してもよい。

【0026】

＜ステップＳ２０＞文章チェック
文章チェック部１３は、選択されたチェックツールを用いて、入力された文書データから不備な記載箇所を検出する。文章チェック部１３は、所定のルールに該当する不備を全て検出する。

【0027】

＜ステップＳ２５＞全てのチェックツール使用？
選択された全てのチェックツールによるチェックが完了する（ＹＥＳ）まで、ステップＳ２０の処理が繰り返し行われる。

【0028】

＜ステップＳ３０＞チェック結果出力
文章チェック部１３は、検出された全ての不備な記載箇所のデータである警告文データを出力する。警告文データは、以下に例示するように、ルールＩＤと、自然言語からなる警告文と、を含む。警告文データは、不備を含む文章の少なくとも一部、および、不備の理由（ルールＩＤ）、を含んでいればよい。以下に警告文データの例を示す。

【0029】

（警告文データ００１）
ルールＩＤ：Ａ１
Ａ１：助詞の重複
警告文：「復旧までの時間が長くなる可能性がある」は、１つの文章に２以上、助詞「が」が、存在する。文章を分割することが好ましい。

【0030】

（警告文データ００６）
ルールＩＤ：Ｂ２
Ｂ２：表記ゆれ
警告文：類似の名詞「ウィンドウ」と、名詞「ウインドウ」と、が存在する。用語の統一が好ましい。

【0031】

文章チェック部１３が行うチェックは、ツールに規定されている構成だけに基づいており、文脈、文章の位置等を考慮しない表層的なチェックである。このため、文章チェック部１３は、多くの誤検出を行うおそれがある。

【0032】

＜ステップＳ３５＞第１判定
第１判定部１５は、文章チェック部１３による不備検出が正しいかどうかを、機械学習モデルである判定用学習モデルを用いて、判定する。

【0033】

第１判定部１５は、特徴抽出ルール保存部１６に記憶されている抽出ルールに基づき、自然言語を、高次元の特徴ベクトルで表現し、処理を行う。

【0034】

図４に示すように、第１判定部１５は、警告文データおよび文章特徴データを入力とするニューラルネットワーク（ＮＮ）によって構成されている。第１判定部１５は、文書データ保存部１２に記憶されている文書データと、警告文データとを入力とし、特徴抽出ルール保存部１６に保存されている特徴ベクトルに変換し、文章チェック部１３による不備検出結果の正誤の判定を行うＡＩ（学習済みモデル）である。

【0035】

判定用学習モデルである第１判定部１５は、例えば、以下の様に構成される。

【0036】

（１）ベクトル変換
一般的なカテゴリ変数の扱いと同様に、ルールＩＤは、特徴抽出ルール保存部１６に記憶されている抽出ルールに基づいて、多次元のベクトルに変換される。例えば、ルールＩＤは、One-hot encoding法によって、カテゴリ数(ここではルール数)を次元とするベクトルに変換される。すなわち、One-hot encoding法では、ルールＩＤは、ルールＩＤに対応する要素の値が「１．０」、それ以外が「０．０」となるようなベクトルに変換される。例えば、ルール数が５、ルールＩＤが「２」のルールＩＤは、「０．０、１．０、０．０、０．０、０．０」ベクトルに変換される。

【0037】

（２）自然言語処理モデル（ＮＮ）
入力された自然言語からなる文章が特徴ベクトルに変換される。例えば、「指摘内容」、「指摘対象文章（不備を含む文章）」、「章、節、タイトル」、「周辺文章」の文章が特徴ベクトルに変換される。例としては、自然言語の事前学習モデルであるBERT(Bidirectional Encoder Representations from Transformers)を利用することが挙げられる。

【0038】

抽出ルールは、例えば、特徴ベクトルとして、対象単語の、隣接ベクトル、文脈ベクトル、トピックベクトル、を抽出するルールである。

【0039】

隣接ベクトルは、直前または直後に現われる単語である．具体的には，対象単語の前後の単語の出現形ならびに品詞をベクトルの要素とする。文脈ベクトルは、対象単語の周辺に現われる単語特徴付けるベクトルである。トピックベクトルは、トピックによって対象単語を特徴付けるベクトルである。

【0040】

（３）再帰型(Recurrent)NN
複数の入力系列を処理できるニューラルネットワーク（再帰型ニューラルネットワーク：ＮＮ）を用いて、周辺文章の特徴を取得する。例としては、LSTM(Long short-term memory)を利用することが挙げられる。

【0041】

（４）結合
上記（１）－（３）の出力ベクトルを結合(Concatenate)する層である。

【0042】

（５）判定
例えば、全結合層(Fully Connected Layer)を1層または複数層重ね、適切な活性化関数と組み合わせて、判定が行われる。

【0043】

図５に示すように、第１判定部１５は、判定用学習データ保存部１７に保存されている、教師データである判定用学習データを用いて、判定モデル学習部１８によって、予め学習を行っている。

【0044】

例えば、前述した警告文データ００１は、２回以上、助詞「が」が存在するため、不備と判定された。しかし、最初の助詞「が」は、「可能性」を修飾する「復旧までの時間が長くなる」という複文の中で使用されている助詞であり、問題ないと考えられる。

【0045】

判定用学習データ保存部１７には、多くの警告文データが、人間の判断に基づき、判断され、「正」、「誤」の判断がなされている教師データが保存されている。

【0046】

第１判定部１５は、警告文データ００１と類似の教師データを用いて学習しているため、警告文データ００１の検出は、誤りであると判定する。

【0047】

第１判定部１５は、従来のＡＩ文書チェックシステムのように入力された文章の全体から不備を検出するのではなく、警告文データの正誤を判定する。文書チェックシステム１は、従来のＡＩ文書チェックシステムよりも、適切な機械学習モデルの構築に、必要な教師データの作成、および、モデル学習の時間が短い。このため、文書チェックシステム１は、ハードウエアへの負荷が小さいだけでなく、モデル構築のための効率がよい。

【0048】

＜ステップＳ４０＞第１判定結果出力
第１判定部１５が正しいと判定した警告文だけが、判定結果出力部１９に出力される。判定結果出力部１９は、インターフェイス１０であるディスプレイ３に警告文データを出力する。

【0049】

＜ステップＳ４５＞第１判定結果表示
判定結果出力部１９は、インターフェイス１０であるディスプレイ３に警告文データを表示する。

【0050】

すでに説明したように、文章チェック部１３は、多くの誤検出を行うおそれがある。しかし、文書チェックシステム１では、第１判定部１５が、正しいと判定した警告文データだけが表示される。文書チェックシステム１は、ユーザーが再チェックしなければならない警告文データの数が少なくなるため，校正作業の効率がよい。

【0051】

＜ステップＳ５０＞第２判定
ユーザーは、ディスプレイ３に表示された警告が正しいかどうかを判定し、キーボード４等のインターフェイス１０を経由して、第２判定部２０に判定結果を入力する。すなわち、第２判定部２０は、ユーザーの意図に基づき、警告が正しいかどうかを再判定する。ユーザーが「正しい」と判定した第１判定結果は、第２判定部２０において「正しい」と再判定される。ユーザーが「誤り」と判定した第１判定結果は、第２判定部２０において「誤り」と再判定される。

【0052】

ユーザーに提示される警告文には、検出された不備が、どのような理由による不備なのかという情報が含まれている。

【0053】

例えば、（警告文データ００６）は、以下の様にディスプレイ３に表示される。
ルールＩＤ：Ｂ２
Ｂ２：表記ゆれ
警告文：類似の名詞「ウィンドウ」と、名詞「ウインドウ」と、が存在する。用語の統一が好ましい。

【0054】

ユーザーによる再判定は、不備の理由が表示されるため、容易である。このため、文書チェックシステム１は、校正作業の効率がよい。

【0055】

＜ステップＳ６０＞第２判定結果出力
図５に示すように、第２判定部２０の判定結果は、第２判定結果保存部２１に保存され、判定モデル学習部１８は、第２判定結果を教師データとして学習することが好ましい。

【0056】

第２判定結果を教師データとして学習することによって、第２判定部２０の再判定結果の信頼性が向上する。第２判定結果保存部２１は、判定用学習データ保存部１７に含まれていてもよい。

【0057】

ユーザーとは別の管理者によって、文章チェックツール管理部２２、文章チェックツール保存部２３が、一括して管理されている場合には、複数のユーザーの第２判定結果を教師データとして学習する。このため、第２判定部２０の再判定結果の信頼性が短期間に向上する。

【0058】

なお、それぞれのユーザーの第２判定結果を教師データとして、それぞれのユーザー専用の第１判定部１５が学習してもよい。また、文書チェックシステム１は、複数のユーザーの中から選択されたユーザーの第２判定結果を教師データとして学習してもよい。

【0059】

以上の説明のように、本実施形態の、文書チェック方法は、チェックツールを用いて、入力された文書データから所定の不備を検出し、警告文を出力し、前記警告文が正しいかどうかを、機械学習モデルを用いて判定し、正しいと判定した前記警告文をユーザーの意図に基づき再判定する。

【0060】

文書チェックプログラムは、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスクなど）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤなど）、光磁気ディスク（ＭＯ）、半導体メモリなどの非一時的なコンピュータ可読な記憶媒体に記憶して頒布することもできる。記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。

【0061】

また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワークソフト等のＭＷ（ミドルウェア）等が上記実施形態を実現するための各処理の一部を実行しても良い。

【0062】

記憶媒体は、コンピュータと独立した媒体に限らず、ＬＡＮやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。また、記憶媒体は１つに限らず、複数の媒体から上記の各処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であってもよい。

【0063】

なお、各実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記の各実施形態における各処理を実行するものであって、パソコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。

【0064】

また、コンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。

【0065】

発明のいくつかの実施の形態を説明したが、これらの実施の形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施の形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0066】

１… 文書チェックシステム
２… プロセッサ
３… ディスプレイ
４… キーボード
５… 記憶装置
６… プログラム
７… サーバー
１０… インターフェイス
１１… 文書データ読込部
１２… 文書データ保存部
１３… 文章チェック部
１６… 特徴抽出ルール保存部
１７… 判定用学習データ保存部
１８… 判定モデル学習部
１９… 判定結果出力部
２２… 文章チェックツール管理部
２３… 文章チェックツール保存部

【図1】

【図2】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版