IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧 ▶ 東芝ソリューション株式会社の特許一覧

特開2024-160574文書チェックシステム、および、文書チェックプログラム
<>
  • 特開-文書チェックシステム、および、文書チェックプログラム 図1
  • 特開-文書チェックシステム、および、文書チェックプログラム 図2
  • 特開-文書チェックシステム、および、文書チェックプログラム 図3
  • 特開-文書チェックシステム、および、文書チェックプログラム 図4
  • 特開-文書チェックシステム、および、文書チェックプログラム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024160574
(43)【公開日】2024-11-14
(54)【発明の名称】文書チェックシステム、および、文書チェックプログラム
(51)【国際特許分類】
   G06F 40/253 20200101AFI20241107BHJP
   G06F 40/216 20200101ALI20241107BHJP
【FI】
G06F40/253
G06F40/216
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2023075720
(22)【出願日】2023-05-01
(71)【出願人】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(71)【出願人】
【識別番号】301063496
【氏名又は名称】東芝デジタルソリューションズ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】長岡 武志
(72)【発明者】
【氏名】北川 貴之
(72)【発明者】
【氏名】福居 誠二
(57)【要約】
【課題】 効率的な文書チェックシステム1を提供する。
【解決手段】 実施形態の文書チェックシステム1は、入力された文書データから、チェックツールを用いて、所定の不備を検出し、警告文を出力する文章チェック部と、前記警告文が正しいかどうかを、機械学習モデルを用いて、判定する第1判定部と、前記第1判定部が正しいと判定した前記警告文を、ユーザーの意図に基づき、再判定する第2判定部と、を具備する。
【選択図】図3
【特許請求の範囲】
【請求項1】
入力された文書データから、チェックツールを用いて、所定の不備を検し、警告文を出力する文章チェック部と、
前記警告文が正しいかどうかを、機械学習モデルを用いて、判定する第1判定部と、
前記第1判定部が正しいと判定した前記警告文を、ユーザーの意図に基づき、再判定する第2判定部と、を具備する文書チェックシステム。
【請求項2】
前記警告文は、不備の理由を含む請求項1に記載の文書チェックシステム。
【請求項3】
前記文章チェック部は、異なる不備を検出する複数のチェックツールから選択された、2以上のチェックツールを用いて検出する請求項2に記載の文書チェックシステム。
【請求項4】
前記機械学習モデルは、前記第2判定部の再判定結果を用いて学習する請求項1に記載の文書チェックシステム。
【請求項5】
前記第1判定部は、前記警告文、および、前記文書データを入力とし、再帰型ニューラルネットワークを用いて判定する請求項1に記載の文書チェックシステム。
【請求項6】
入力された文書データから、チェックツールを用いて、所定の不備を検出し、警告文を出力する文章チェック部と、
前記警告文が正しいかどうかを、機械学習モデルを用いて、判定する第1判定部と、
前記第1判定部が正しいと判定した前記警告文を、ユーザーの意図に基づき、再判定する第2判定部と、を具備する文書チェックシステムを、プロセッサが実行するための文書チェックプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、入力された文書データから、不備を検出して、警告文を出力する文書チェックシステム、および、前記文書チェックシステムを実現するための文書チェックプログラムに関する。
【背景技術】
【0002】
近年、情報処理装置(コンピュータ)を用いて、自然言語で書かれた文書を分析して、その文書の不備を検出する文書チェックシステムが開発されている。
【0003】
文書チェックシステムは、予め設定されているチェックルールに基づきチェックするシステムと、機械学習モデルを用いる人工知能(AI)システムと、に大別される。
【0004】
チェックルールに基づく文章チェックシステムは、ルールに該当する文章を全て指摘するため、誤検出、過剰検出、が多くなるおそれがある。
【0005】
すなわち、文章の文脈(前後の文章)、文章の構造上の位置(章・節、箇条書き、表内、等)、文書の種別(設計書、契約書、ブログ、論文、特許、等)等を考慮せず、ルールに該当する不備を全て指摘するため、誤検出等が多く発生する。すなわち、チェックツールによる文書チェックシステムは、文章の表層的な部分しか分析しないため、誤検出が増加する。
【0006】
このため、ユーザーが、チェックシステムが指摘した不備を再チェックしなければならない数が多く,校正作業の効率が低下することがあった。
【0007】
また、複数のツールの仕様によっては、検出された指摘が衝突することがある。例えば、第1のツールによる不備指摘を修正すると、修正後の文章が第2のツールの不備指摘対象となることがある。
【0008】
一方、AI文書チェックシステムでは、適切な機械学習モデルの構築には、膨大な教師データの作成が必要であり、かつ、モデル学習には長時間を要する。また、文書全体を網羅してチェックするには、ハードウエアへの負荷が大きく、長時間を要する。さらに、AIシステムでは、検出された不備が、どのような理由によって不備として検出されたのかが不明である。このため、ユーザーが、不備の理由を推察し、検出結果の妥当性を判断する必要があり、校正作業の効率が低下することがあった。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開2012-155645号明細書
【発明の概要】
【発明が解決しようとする課題】
【0010】
本発明の実施形態は、効率的な文書チェックシステム、および、効率的な文書チェックシステムを実現するための文書チェックプログラムを提供することを目的とする。
【図面の簡単な説明】
【0011】
図1図1は、実施形態の文書チェックシステムの構成図である。
図2図2は、実施形態の文書チェックシステムの構成図である。
図3図3は、実施形態の文書チェックシステムのフローチャートである。
図4図4は、実施形態の第1判定部の構成図である。
図5図5は、実施形態の第1判定部の学習方法を説明するための構成図である。
【発明を実施するための形態】
【0012】
本実施形態の文書チェックシステムは、入力された文書データから、チェックツールを用いて、所定の不備を検し、警告文を出力する文章チェック部と、前記警告文が正しいかどうかを、機械学習モデルを用いて、判定する第1判定部と、前記第1判定部が正しいと判定した前記警告文を、ユーザーの意図に基づき、再判定する第2判定部と、を具備する。
【0013】
本実施形態の文書チェックプログラムは、入力された文書データから、チェックツールを用いて、所定の不備を検出し、警告文を出力する文章チェック部と、前記警告文が正しいかどうかを、機械学習モデルを用いて、判定する第1判定部と、前記第1判定部が正しいと判定した前記警告文を、ユーザーの意図に基づき、再判定する第2判定部と、を具備する文書チェックシステムを、プロセッサが実行するためのプログラムである。
【0014】
以下、図面を参照して実施形態の文書チェックシステムについて詳細に説明する。
【0015】
図1および図2に示すように実施形態の文書チェックシステム1は、プロセッサ2、ディスプレイ3、キーボード4、記憶装置5、を含むコンピュータである。CPU等からなるプロセッサ2は、記憶装置5に記憶されているプログラム6を読込んで、それぞれが所定の機能を実行する複数の機能部を構成している。なお、プロセッサの複数の機能部の少なくともいずれかは、専用のハードウエア回路によって構成されていてもよい。ディスプレイ3は、プロセッサ2の出力結果を表示する。ユーザーは、キーボード4を用いてプロセッサ2に入力を行う。
【0016】
ディスプレイ3は、液晶ディスプレイ、CRT等である。タッチ入力可能なディスプレイ3がキーボード4を兼ねていてもよい。記憶装置5は、ハードディスク、シリコンメモリディスク等である。プログラム6は、サーバー7に記憶されていてもよい。
【0017】
図2に示す文書チェックシステム1のインターフェイス10は、ユーザーがコンピュータを操作するための、ディスプレイ3、キーボード4等である。文書データ読込部11、文章チェック部13、第1判定部15、判定モデル学習部18、判定結果出力部19、第2判定部20、文章チェックツール管理部22は、プロセッサ2の機能部である。
【0018】
文書データ保存部12、特徴抽出ルール保存部16、判定用学習データ保存部17、第2判定結果保存部21、文章チェックツール保存部23は、記憶装置5、または、サーバー7の、メモリによって構成されている。
【0019】
図2に示す文書チェックシステム1は、ユーザーとは別の管理者によって、文章チェックツール管理部22、文章チェックツール保存部23が、一括して管理されている。文章チェックツール管理部22、文章チェックツール保存部23は、ユーザーが使用するハードウエアとは別のサーバー7によって構成されていてもよい。サーバー7には、複数のユーザーがアクセスできる。なお、ユーザーと管理者とは、同一人物であり、文書チェックシステム1は、1人のユーザーが使用するシステムでもよい。
【0020】
<文書チェックシステム1による処理>
以下、図3のフローチャートにそって、文書チェックシステム1による処理を説明する。
【0021】
<ステップS10>文書データ読込
ユーザーは、チェック対象の文書データを、インターフェイス10を経由して文書データ読込部11に入力する。自然言語の文書データは、キーボード4を用いて入力されてもよいし、記憶装置5または文書データ保存部12に保存されている作成済みの文書データでもよい。
【0022】
<ステップS15>チェックツール選択
文章チェックツール保存部23には、例えば、文書データの種別に応じた、複数のチェックツールが保存されている。文書種別は、手紙、設計書、契約書、ブログ、論文、特許等である。プロセッサ2は、複数のチェックツールの中から、ユーザーによって予め入力された文書種別にもとづいて、チェックツールを選択する。
【0023】
それぞれのチェックツールは、複数の異なる種類の不備を検出するツールを含んでいる。例えば、それぞれのチェックツールは、誤り検出ツール、曖昧検出ツール、表記ゆれ検出ツール、文法検出ツールを含んでいる。
【0024】
誤り検出ツールは、未登録単語、同音異義語のある単語、特定の単語列、現在では使用されない仮名遣い等を検出する。曖昧検出ツールは、例えば、文章内の係り受けが複数あるような曖昧文を検出する。表記ゆれ検出ツールは、例えば,「ウィンドウ」と「ウインドゥ」と「ウインドウ」とを統一するために、予め登録されている単語辞書を用いて検出する。文法検出ツールは、例えば、文章を構成する要素が正しく配置されていない箇所を検出する。文章を構成する要素には、主語、述語、目的語、形容詞、副詞等が相当する。
【0025】
特に、少なくとも2つ以上のツールを用いることによって、文書チェックシステム1は、様々な不備を網羅的に指摘できる。ツールの選択は、ユーザーの選択に基づいて行われる。前回のチェックにおいてユーザーによって選択されたツールをプロセッサ2が、自動的に選択してもよい。
【0026】
<ステップS20>文章チェック
文章チェック部13は、選択されたチェックツールを用いて、入力された文書データから不備な記載箇所を検出する。文章チェック部13は、所定のルールに該当する不備を全て検出する。
【0027】
<ステップS25>全てのチェックツール使用?
選択された全てのチェックツールによるチェックが完了する(YES)まで、ステップS20の処理が繰り返し行われる。
【0028】
<ステップS30>チェック結果出力
文章チェック部13は、検出された全ての不備な記載箇所のデータである警告文データを出力する。警告文データは、以下に例示するように、ルールIDと、自然言語からなる警告文と、を含む。警告文データは、不備を含む文章の少なくとも一部、および、不備の理由(ルールID)、を含んでいればよい。以下に警告文データの例を示す。
【0029】
(警告文データ001)
ルールID:A1
A1:助詞の重複
警告文:「復旧までの時間が長くなる可能性がある」は、1つの文章に2以上、助詞「が」が、存在する。文章を分割することが好ましい。
【0030】
(警告文データ006)
ルールID:B2
B2:表記ゆれ
警告文:類似の名詞「ウィンドウ」と、名詞「ウインドウ」と、が存在する。用語の統一が好ましい。
【0031】
文章チェック部13が行うチェックは、ツールに規定されている構成だけに基づいており、文脈、文章の位置等を考慮しない表層的なチェックである。このため、文章チェック部13は、多くの誤検出を行うおそれがある。
【0032】
<ステップS35>第1判定
第1判定部15は、文章チェック部13による不備検出が正しいかどうかを、機械学習モデルである判定用学習モデルを用いて、判定する。
【0033】
第1判定部15は、特徴抽出ルール保存部16に記憶されている抽出ルールに基づき、自然言語を、高次元の特徴ベクトルで表現し、処理を行う。
【0034】
図4に示すように、第1判定部15は、警告文データおよび文章特徴データを入力とするニューラルネットワーク(NN)によって構成されている。第1判定部15は、文書データ保存部12に記憶されている文書データと、警告文データとを入力とし、特徴抽出ルール保存部16に保存されている特徴ベクトルに変換し、文章チェック部13による不備検出結果の正誤の判定を行うAI(学習済みモデル)である。
【0035】
判定用学習モデルである第1判定部15は、例えば、以下の様に構成される。
【0036】
(1)ベクトル変換
一般的なカテゴリ変数の扱いと同様に、ルールIDは、特徴抽出ルール保存部16に記憶されている抽出ルールに基づいて、多次元のベクトルに変換される。例えば、ルールIDは、One-hot encoding法によって、カテゴリ数(ここではルール数)を次元とするベクトルに変換される。すなわち、One-hot encoding法では、ルールIDは、ルールIDに対応する要素の値が「1.0」、それ以外が「0.0」となるようなベクトルに変換される。例えば、ルール数が5、ルールIDが「2」のルールIDは、「0.0、1.0、0.0、0.0、0.0」ベクトルに変換される。
【0037】
(2) 自然言語処理モデル(NN)
入力された自然言語からなる文章が特徴ベクトルに変換される。例えば、「指摘内容」、「指摘対象文章(不備を含む文章)」、「章、節、タイトル」、「周辺文章」の文章が特徴ベクトルに変換される。例としては、自然言語の事前学習モデルであるBERT(Bidirectional Encoder Representations from Transformers)を利用することが挙げられる。
【0038】
抽出ルールは、例えば、特徴ベクトルとして、対象単語の、隣接ベクトル、文脈ベクトル、トピックベクトル、を抽出するルールである。
【0039】
隣接ベクトルは、直前または直後に現われる単語である.具体的には,対象単語の前後の単語の出現形ならびに品詞をベクトルの要素とする。文脈ベクトルは、対象単語の周辺に現われる単語特徴付けるベクトルである。トピックベクトルは、トピックによって対象単語を特徴付けるベクトルである。
【0040】
(3) 再帰型(Recurrent)NN
複数の入力系列を処理できるニューラルネットワーク(再帰型ニューラルネットワーク:NN)を用いて、周辺文章の特徴を取得する。 例としては、LSTM(Long short-term memory)を利用することが挙げられる。
【0041】
(4) 結合
上記(1)-(3)の出力ベクトルを結合(Concatenate)する層である。
【0042】
(5) 判定
例えば、全結合層(Fully Connected Layer)を1層または複数層重ね、適切な活性化関数と組み合わせて、判定が行われる。
【0043】
図5に示すように、第1判定部15は、判定用学習データ保存部17に保存されている、教師データである判定用学習データを用いて、判定モデル学習部18によって、予め学習を行っている。
【0044】
例えば、前述した警告文データ001は、2回以上、助詞「が」が存在するため、不備と判定された。しかし、最初の助詞「が」は、「可能性」を修飾する「復旧までの時間が長くなる」という複文の中で使用されている助詞であり、問題ないと考えられる。
【0045】
判定用学習データ保存部17には、多くの警告文データが、人間の判断に基づき、判断され、「正」、「誤」の判断がなされている教師データが保存されている。
【0046】
第1判定部15は、警告文データ001と類似の教師データを用いて学習しているため、警告文データ001の検出は、誤りであると判定する。
【0047】
第1判定部15は、従来のAI文書チェックシステムのように入力された文章の全体から不備を検出するのではなく、警告文データの正誤を判定する。文書チェックシステム1は、従来のAI文書チェックシステムよりも、適切な機械学習モデルの構築に、必要な教師データの作成、および、モデル学習の時間が短い。このため、文書チェックシステム1は、ハードウエアへの負荷が小さいだけでなく、モデル構築のための効率がよい。
【0048】
<ステップS40>第1判定結果出力
第1判定部15が正しいと判定した警告文だけが、判定結果出力部19に出力される。判定結果出力部19は、インターフェイス10であるディスプレイ3に警告文データを出力する。
【0049】
<ステップS45>第1判定結果表示
判定結果出力部19は、インターフェイス10であるディスプレイ3に警告文データを表示する。
【0050】
すでに説明したように、文章チェック部13は、多くの誤検出を行うおそれがある。しかし、文書チェックシステム1では、第1判定部15が、正しいと判定した警告文データだけが表示される。文書チェックシステム1は、ユーザーが再チェックしなければならない警告文データの数が少なくなるため,校正作業の効率がよい。
【0051】
<ステップS50>第2判定
ユーザーは、ディスプレイ3に表示された警告が正しいかどうかを判定し、キーボード4等のインターフェイス10を経由して、第2判定部20に判定結果を入力する。すなわち、第2判定部20は、ユーザーの意図に基づき、警告が正しいかどうかを再判定する。ユーザーが「正しい」と判定した第1判定結果は、第2判定部20において「正しい」と再判定される。ユーザーが「誤り」と判定した第1判定結果は、第2判定部20において「誤り」と再判定される。
【0052】
ユーザーに提示される警告文には、検出された不備が、どのような理由による不備なのかという情報が含まれている。
【0053】
例えば、(警告文データ006)は、以下の様にディスプレイ3に表示される。
ルールID:B2
B2:表記ゆれ
警告文:類似の名詞「ウィンドウ」と、名詞「ウインドウ」と、が存在する。用語の統一が好ましい。
【0054】
ユーザーによる再判定は、不備の理由が表示されるため、容易である。このため、文書チェックシステム1は、校正作業の効率がよい。
【0055】
<ステップS60>第2判定結果出力
図5に示すように、第2判定部20の判定結果は、第2判定結果保存部21に保存され、判定モデル学習部18は、第2判定結果を教師データとして学習することが好ましい。
【0056】
第2判定結果を教師データとして学習することによって、第2判定部20の再判定結果の信頼性が向上する。第2判定結果保存部21は、判定用学習データ保存部17に含まれていてもよい。
【0057】
ユーザーとは別の管理者によって、文章チェックツール管理部22、文章チェックツール保存部23が、一括して管理されている場合には、複数のユーザーの第2判定結果を教師データとして学習する。このため、第2判定部20の再判定結果の信頼性が短期間に向上する。
【0058】
なお、それぞれのユーザーの第2判定結果を教師データとして、それぞれのユーザー専用の第1判定部15が学習してもよい。また、文書チェックシステム1は、複数のユーザーの中から選択されたユーザーの第2判定結果を教師データとして学習してもよい。
【0059】
以上の説明のように、本実施形態の、文書チェック方法は、チェックツールを用いて、入力された文書データから所定の不備を検出し、警告文を出力し、前記警告文が正しいかどうかを、機械学習モデルを用いて判定し、正しいと判定した前記警告文をユーザーの意図に基づき再判定する。
【0060】
文書チェックプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD-ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリ などの非一時的なコンピュータ可読な記憶媒体に記憶して頒布することもできる。 記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。
【0061】
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行しても良い。
【0062】
記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。 また、記憶媒体は1つに限らず、複数の媒体から上記の各処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であってもよい。
【0063】
なお、各実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記の各実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
【0064】
また、コンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。
【0065】
発明のいくつかの実施の形態を説明したが、これらの実施の形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施の形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0066】
1… 文書チェックシステム
2… プロセッサ
3… ディスプレイ
4… キーボード
5… 記憶装置
6… プログラム
7… サーバー
10… インターフェイス
11… 文書データ読込部
12… 文書データ保存部
13… 文章チェック部
16… 特徴抽出ルール保存部
17… 判定用学習データ保存部
18… 判定モデル学習部
19… 判定結果出力部
22… 文章チェックツール管理部
23… 文章チェックツール保存部
図1
図2
図3
図4
図5