IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7513089文書の黒塗り箇所表示システム、方法、プログラム
<>
  • 特許-文書の黒塗り箇所表示システム、方法、プログラム 図1
  • 特許-文書の黒塗り箇所表示システム、方法、プログラム 図2
  • 特許-文書の黒塗り箇所表示システム、方法、プログラム 図3
  • 特許-文書の黒塗り箇所表示システム、方法、プログラム 図4
  • 特許-文書の黒塗り箇所表示システム、方法、プログラム 図5
  • 特許-文書の黒塗り箇所表示システム、方法、プログラム 図6
  • 特許-文書の黒塗り箇所表示システム、方法、プログラム 図7
  • 特許-文書の黒塗り箇所表示システム、方法、プログラム 図8
  • 特許-文書の黒塗り箇所表示システム、方法、プログラム 図9
  • 特許-文書の黒塗り箇所表示システム、方法、プログラム 図10
  • 特許-文書の黒塗り箇所表示システム、方法、プログラム 図11
  • 特許-文書の黒塗り箇所表示システム、方法、プログラム 図12
  • 特許-文書の黒塗り箇所表示システム、方法、プログラム 図13
  • 特許-文書の黒塗り箇所表示システム、方法、プログラム 図14
  • 特許-文書の黒塗り箇所表示システム、方法、プログラム 図15
  • 特許-文書の黒塗り箇所表示システム、方法、プログラム 図16
  • 特許-文書の黒塗り箇所表示システム、方法、プログラム 図17
  • 特許-文書の黒塗り箇所表示システム、方法、プログラム 図18
  • 特許-文書の黒塗り箇所表示システム、方法、プログラム 図19
  • 特許-文書の黒塗り箇所表示システム、方法、プログラム 図20
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-01
(45)【発行日】2024-07-09
(54)【発明の名称】文書の黒塗り箇所表示システム、方法、プログラム
(51)【国際特許分類】
   G06F 16/335 20190101AFI20240702BHJP
   G06F 40/151 20200101ALI20240702BHJP
   G06F 16/33 20190101ALI20240702BHJP
【FI】
G06F16/335
G06F40/151
G06F16/33
【請求項の数】 10
(21)【出願番号】P 2022529216
(86)(22)【出願日】2020-06-03
(86)【国際出願番号】 JP2020021904
(87)【国際公開番号】W WO2021245833
(87)【国際公開日】2021-12-09
【審査請求日】2022-12-01
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100080816
【弁理士】
【氏名又は名称】加藤 朝道
(74)【代理人】
【識別番号】100098648
【弁理士】
【氏名又は名称】内田 潔人
(72)【発明者】
【氏名】及川 貴司
(72)【発明者】
【氏名】小林 崇則
(72)【発明者】
【氏名】津田 晃久
(72)【発明者】
【氏名】永井 久史
【審査官】三橋 竜太郎
(56)【参考文献】
【文献】米国特許出願公開第2019/0018983(US,A1)
【文献】特開2011-158988(JP,A)
【文献】特許第6578941(JP,B2)
【文献】特開2005-338903(JP,A)
【文献】特開2004-145529(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06F 40/00-40/166
(57)【特許請求の範囲】
【請求項1】
入力テキストを含意する黒塗り対象文書を決定する、黒塗り対象文書決定部と、
1または複数の文書と前記文書の中の黒塗り箇所を指定した正解データを訓練データとしてモデルの学習を実行し、学習済みモデルを生成する、学習済みモデル生成部と、
前記学習済みモデルにより前記黒塗り対象文書の黒塗り箇所を予測して出力する、黒塗り箇所予測部と、
前記黒塗り対象文書の黒塗り箇所を表示する、黒塗り箇所表示部と、
表示された前記黒塗り箇所の削除指示、または表示された前記黒塗り箇所とは異なる黒塗り箇所の追加指示を受け付ける黒塗り箇所変更受け付け部と、
を有し、
前記黒塗り箇所表示部は、前記黒塗り箇所に対応する、黒塗り箇所番号、黒塗り箇所の頁・行、黒塗り方針名、および、方針登録した対処理由のうち少なくとも一つを表示する文書の黒塗り箇所表示システム。
【請求項2】
前記学習済みモデル生成部は、所定の機関、組織又は部門毎の複数のグループの訓練データに対して、それぞれ異なる学習済みモデルを生成する、請求項1に記載のシステム。
【請求項3】
前記黒塗り箇所表示部は、前記黒塗り対象文書と、前記黒塗り対象文書の黒塗り箇所を表示する、請求項1または2に記載のシステム。
【請求項4】
前記学習済みモデル生成部は、ニューラルネットワークを用いてモデルの学習を実行する、請求項1ないし3のいずれか一項に記載のシステム。
【請求項5】
前記ニューラルネットワークは、ディープニューラルネットワークである、請求項4に記載のシステム。
【請求項6】
前記ニューラルネットワークは、RNN(Recurrent Neural Network、リカレントニューラルネットワーク)、LSTM(Long Short Term Memory)又は、CNN(Convolutional Neural Network、畳み込みニューラルネットワーク)あるいは、それらの任意の組み合わせである、請求項4に記載のシステム。
【請求項7】
前記黒塗り対象文書決定部は、入力テキストに含まれる複数の単文ごとに、その単文に意味が類似する単文を、複数の単文を含む文書の中から抽出し、前記入力テキストと文書のそれぞれについて、ある接続語の前後の単文の出現順序に基づいて単文間の事象の発生順である談話関係を示す談話関係情報を生成し、前記談話関係情報に基づいて、前記入力テキストに含まれる単文間の談話関係と、前記抽出された単文間の位置の交差箇所の数である談話関係距離を算出し、前記談話関係距離を含む値と所定の閾値とに基づいて、文書が入力テキストを含意しているか否かを判定する、テキスト含意認識を用いて、蓄積された1または複数の文書の中の入力テキストを含意する文を含む文書の中から黒塗り対象文書を決定する、請求項1ないし6のいずれか一項に記載のシステム。
【請求項8】
前記学習済みモデル生成部は、前記黒塗り対象文書と、前記削除指示または前記追加指示に基づいて変更された黒塗り箇所とを用いて、前記学習済みモデルを更新する、
ことを特徴とする、
請求項1ないし7のいずれか一項に記載のシステム。
【請求項9】
コンピュータが、
入力テキストを含意する黒塗り対象文書を決定するステップと、
1または複数の文書と前記文書の中の黒塗り箇所を指定した正解データを訓練データとしてモデルの学習を実行し、学習済みモデルを生成するステップと、
前記学習済みモデルにより前記黒塗り対象文書の黒塗り箇所を予測して出力する、予測ステップと、
前記黒塗り対象文書の黒塗り箇所を表示するステップと、
表示された前記黒塗り箇所の削除指示、または表示された前記黒塗り箇所とは異なる黒塗り箇所の追加指示を受け付けるステップと、
前記黒塗り箇所に対応する、黒塗り箇所番号、黒塗り箇所の頁・行、黒塗り方針名、および、方針登録した対処理由のうち少なくとも一つを表示するステップ、
を有する、文書の黒塗り箇所表示方法。
【請求項10】
プロセッサと記憶装置とを備えるコンピュータに、
入力テキストを含意する黒塗り対象文書を決定する処理と、
1または複数の文書と前記文書の中の黒塗り箇所を指定した正解データを訓練データとしてモデルの学習を実行し、学習済みモデルを生成する処理と、
前記学習済みモデルにより前記黒塗り対象文書の黒塗り箇所を予測して出力する、予測処理と、
前記黒塗り対象文書の黒塗り箇所を表示する処理と、
表示された前記黒塗り箇所の削除指示、または表示された前記黒塗り箇所とは異なる黒塗り箇所の追加指示を受け付ける処理と、
前記黒塗り箇所に対応する、黒塗り箇所番号、黒塗り箇所の頁・行、黒塗り方針名、および、方針登録した対処理由のうち少なくとも一つを表示する処理を実行させる、文書の黒塗り箇所表示プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書の黒塗り箇所表示システム、方法、プログラムに関する。
【背景技術】
【0002】
特許文献1に、アクセス権のデータがアクセス可を示す特徴情報を開示可特徴情報として特定するセキュリティモジュール部113を有する情報共有システムが開示されている。同公報によると、段落0050には、「図5(a)に示す特徴情報アクセス権テーブル116は、前記文書セキュリティ属性情報に対して特徴情報のアクセス権が関連付けて設定されている例である。図5(b)に示す特徴情報アクセス権テーブル116は、各文書に対して特徴情報のアクセス権が関連付けて設定されている例である。」と記載され、段落0051には、「前記特徴情報アクセス権テーブル116において、文書セキュリティ属性401は、文書データに付与されているセキュリティ属性情報を示す。また、特徴情報402は、文書データから抽出した特徴情報のアクセス権を特徴種別403毎に示す。また特徴種別403は、特徴情報402を分類する指標である。また、近傍表示404は、近傍データの表示可否を示す。」と記載されている。
【0003】
特許文献2に、開示文書を作成する際に隠蔽すべき情報と隠蔽してはいけない情報を知らなくても作業を行うことを可能にする、情報開示プログラムが開示されている。同公報によると、段落0011には、「・・・サーバ1の補助記憶装置8には、更に、マスター文書12と開示文書13と非開示辞書14と強制開示辞書15とコメント辞書16とが格納される。」と、段落0012には、「・・・マスタ文書12を作成する。マスタ文書12には隠蔽すべき文字列に対して非開示タグと非開示の理由が付与されている。」と、段落0013には、「審査者は文書作成者の作成したマスタ文書12に対して強制開示プログラム10を実行することでマスタ文書12の中では非開示とされている文字列のうち強制的に開示すべき文字列を開示対象に変更し、開示すべきものと非開示にすべきものとの正確性を確認したうえで・・・開示文書13を作成する。」と、また、段落0014には、「閲覧者は開示文書13を閲覧者用端末装置4のディスプレイに表示させて閲覧する。」と記載されている。
【0004】
特許文献3に、掩蔽特定部分を特定する負荷を軽減し、決済結果を確実に反映した公開文書作成を支援できる公開文書作成支援装置を提供することが開示されている。同公報によると、段落0018には、「・・・このハードディスク14は、図3に示すような文字列検索条件テーブルT1と、図4に示すような掩蔽候補画像領域データテーブルT2とを保持している。」と、段落0019には、「文字列検索条件テーブルT1は、図3に示すように、非開示情報カテゴリごとに事前に定められた検索対象の文字列を列挙したものである。ここでは非開示情報のカテゴリとして「個人情報」と「国家安全保障情報」等を示し、・・・」と、段落0024には、「・・・合致する部分があれば(Yesならば)、その文字列の属するカテゴリについて指定された態様で強調表示するよう設定し(S7)・・・」と、そして、段落0046には、「公開文書作成支援装置1では、この決済後文書データを受信して、プリンタ3へ出力して公開用文書データの印刷を行う。このとき、掩蔽アノテーションが付された部分は黒く塗りつぶされた状態となる。」と記載されている。
【0005】
特許文献4に、仮説文章に含まれる複数の単文ごとに、その単文に意味が類似する単文を、複数の単文を含む対象文章の中から抽出し、前記仮説文章と対象文章のそれぞれについて、ある接続語の前後の単文の出現順序に基づいて単文間の事象の発生順である談話関係を示す談話関係情報を生成し、前記談話関係情報に基づいて、前記仮説文章に含まれる単文間の談話関係と、抽出部に抽出された単文間の位置の交差箇所の数である談話関係距離を算出し、前記談話関係距離を含む値と所定の閾値とに基づいて、対象文章が仮説文章を含意しているか否かを判定することを含む含意判定方法が、記載されている。
【先行技術文献】
【特許文献】
【0006】
【文献】特開2010-272082号公報
【文献】特開2004-118599号公報
【文献】特開2003-132056号公報
【文献】特許第6578941号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
以下の分析は、本発明によって与えられたものである。国などの公的機関、組織、例えば、中央省庁の業務の一つとして、情報開示請求に対する請求者への応答がある。請求者に対して回答する際には、開示対象の文書の不要な事項へ「黒塗り」をする必要があるが、その実施には多大な時間と労力を要するという問題点がある。
【0008】
本発明は、文書の黒塗り業務の効率化に貢献するシステム、方法、プログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
第1の視点によれば、入力テキストを含意する黒塗り対象文書を決定する、黒塗り対象文書決定部と、1または複数の文書と前記文書の中の黒塗り箇所を指定した正解データを訓練データとしてモデルの学習を実行し、学習済みモデルを生成する、学習済みモデル生成部と、前記学習済みモデルにより前記黒塗り対象文書の黒塗り箇所を予測して出力する、黒塗り箇所予測部と、前記黒塗り対象文書の黒塗り箇所を表示する、黒塗り箇所表示部とを有する、文書の黒塗り箇所表示システムが提供される。
【0010】
第2の視点によれば、入力テキストを含意する黒塗り対象文書を決定するステップと、1または複数の文書と前記文書の中の黒塗り箇所を指定した正解データを訓練データとしてモデルの学習を実行し、学習済みモデルを生成するステップと、前記学習済みモデルにより前記黒塗り対象文書の黒塗り箇所を予測して出力する、予測ステップと、前記黒塗り対象文書の黒塗り箇所を表示するステップとを有する、文書の黒塗り箇所表示方法が提供される。本方法は、上記した黒塗り対象文書を決定し、学習済みモデルを生成し、黒塗り箇所を予測して出力し、黒塗り箇所を表示する機能を備えたコンピュータという、特定の機械に結びつけられている。
【0011】
第3の視点によれば、プロセッサと記憶装置とを備えるコンピュータに、入力テキストを含意する黒塗り対象文書を決定する処理と、1または複数の文書と前記文書の中の黒塗り箇所を指定した正解データを訓練データとしてモデルの学習を実行し、学習済みモデルを生成する処理と、前記学習済みモデルにより前記黒塗り対象文書の黒塗り箇所を予測して出力する、予測処理と、前記黒塗り対象文書の黒塗り箇所を表示する処理とを実行させる、文書の黒塗り箇所表示プログラムが提供される。なお、このプログラムは、コンピュータが読み取り可能な(非トランジトリーな)記憶媒体に記録することができる。即ち、本発明は、コンピュータプログラム製品として具現することも可能である。
【発明の効果】
【0012】
本発明によれば、文書の黒塗り業務の効率化に貢献することができる。
【図面の簡単な説明】
【0013】
図1】本発明の一実施形態の文書の黒塗り箇所表示システムの構成を示す図である。
図2】本発明の一実施形態の文書の黒塗り箇所表示システムの黒塗り箇所表示部の動作を示す図である。
図3】本発明の第1の実施形態の文書の黒塗り箇所表示システムの構成を示す図である。
図4】本発明の第1の実施形態の文書の黒塗り箇所表示システムのテキスト含意認識部の構成を示す図である。
図5】本発明の第1の実施形態の文書の黒塗り箇所表示システムの学習済みモデル生成部の構成を示す図である。
図6】本発明の第1の実施形態の文書の黒塗り箇所表示システムの黒塗り処理部の構成を示す図である。
図7】本発明の第1の実施形態の文書の黒塗り箇所表示システムの黒塗り箇所抽出部の構成を示す図である。
図8】本発明の第2の実施形態の文書の黒塗り箇所表示システムの構成を示す図である。
図9】本発明の第2の実施形態の文書の黒塗り箇所表示システムの動作を説明するためのフローチャートを示す図である。
図10】本発明の第2の実施形態の文書の黒塗り箇所表示システムの動作を説明するためのフローチャートを示す図である。
図11】本発明の第3の実施形態の文書の黒塗り箇所表示システムの構成を示す図である。
図12】本発明の第3の実施形態の文書の黒塗り箇所表示システムの黒塗り処理部と黒塗り箇所変更・理由表示・一覧表示受付部の構成を示す図である。
図13】本発明の第4の実施形態の文書の黒塗り箇所表示システムの構成を示す図である。
図14】本発明の第4の実施形態の文書の黒塗り箇所表示システムの黒塗り処理部と黒塗り箇所変更履歴蓄積部の構成を示す図である。
図15】本発明の第5の実施形態の文書の黒塗り箇所表示システムの構成を示す図である。
図16】本発明の第6の実施形態の黒塗り処理部の構成を示す図である。
図17】本発明の第6の実施形態の文書の黒塗り箇所表示システムの黒塗り理由の表示の一例を示す図である。
図18】本発明の第7の実施形態の黒塗り処理部の構成を示す図である。
図19】本発明の第7の実施形態の文書の黒塗り箇所表示システムの黒塗り箇所の一覧表示の一例を示す図である。
図20】本発明の文書の黒塗り箇所表示システムを構成するコンピュータの構成を示す図である。
【発明を実施するための形態】
【0014】
はじめに本発明の一実施形態の概要について図面を参照して説明する。なお、この概要に付記した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、本発明を図示の態様に限定することを意図するものではない。また、以降の説明で参照する図面等のブロック間の接続線は、双方向及び単方向の双方を含む。一方向矢印については、主たる信号(データ)の流れを模式的に示すものであり、双方向性を排除するものではない。
【0015】
本発明は、その一実施形態において、図1に示すように、黒塗り対象文書決定部10と、学習済みモデル生成部20と、黒塗り箇所予測部30と、黒塗り箇所表示部40とを有する文書の黒塗り箇所表示システム1にて実現できる。
【0016】
より具体的には、文書の黒塗り箇所表示システム1の黒塗り対象文書決定部10は、入力された入力テキストを含意する黒塗り対象文書を決定する。学習済みモデル生成部20は、1または複数の文書とそれらの文書の中の黒塗り箇所を指定した正解データを訓練データとしてモデルの学習を実行し、学習済みモデルを生成する。なお、モデルの学習においては、訓練データの1または複数の文書を入力してニューラルネットワークにより予測された黒塗り箇所と、各文書に対する黒塗り箇所の正解データとの間の誤差が最小になるようにニューラルネットワークの重みパラメータが調整されて、学習済みモデルが生成される。黒塗り箇所予測部30は、生成された学習済みモデルを使用して、黒塗り対象文書決定部10により決定された黒塗り対象文書の黒塗り箇所を予測して出力する。黒塗り箇所表示部40は、黒塗り対象文書の予測された黒塗り箇所を表示する。
【0017】
なお、所定の機関、組織又は部門毎、例えば、省又は庁又は大臣毎の方針の異なる複数のグループの訓練データに対して、それぞれモデルの学習を実行して、それぞれの方針に対応する異なる学習済みモデルを生成することができる。すなわち、モデルの学習を実行する訓練データとして、黒塗り文書を作成する方針に従って、省又は庁又は大臣毎に、1または複数の文書とそれらの文書の中の黒塗り箇所を指定した正解データを有する訓練データを準備してモデルの学習を実行すれば、省又は庁又は大臣毎に異なる黒塗り方針に適応された学習済みモデルを生成し、学習済みモデルにより省又は庁又は大臣毎に適応された黒塗り箇所を予測して出力し、表示することも可能である。
【0018】
従って、公文書に対して、省又は庁又は大臣毎の方針に適応した黒塗り箇所を出力し、表示して、黒塗り箇所の推薦を行うことも可能である。
【0019】
また、本一実施形態において、ニューラルネットワークは、ディープニューラルネットワークでもよい。また、本一実施形態において、ニューラルネットワークは、RNN(Recurrent Neural Network、リカレントニューラルネットワーク)、LSTM(Long Short Term Memory)又は、CNN(Convolutional Neural Network、畳み込みニューラルネットワーク)あるいは、それらの任意の組み合わせでもよい。
【0020】
さらに、黒塗り対象の文書は、テキストを含む文書、または、画像を含む文書でもよく、あるいは、テキストと画像の両者を含む文書でもよい。また、黒塗り対象の文書は、音声認識手段を用いて取得した文書でもよい。
【0021】
図2は、本発明の一実施形態の文書の黒塗り箇所表示システムの黒塗り箇所表示部の動作を示す図である。図2は、表示画面50の一実施形態を示すものであり、文書の黒塗り箇所表示システム1の黒塗り対象文書決定部10で決定した黒塗り対象文書を左側下方部に表示し、黒塗り対象文書上に、黒塗り箇所予測部30により予測された黒塗り箇所を表示した文書を、右側下方部に並列して表示している。
【0022】
左側下方部に表示された黒塗り対象文書の中で、「予算」、「価格」、「調整」との文言及び、「フォーマットされた販売までのスケジュール」が、右側下方部に表示された文書上では、黒塗りされている。
【0023】
上記のように、本発明の一実施形態の文書の黒塗り箇所表示システムによれば、黒塗りする対象の文書に対して、学習済みモデルを使用して黒塗り箇所を出力し、表示することができるので、文書の黒塗り業務の効率化、省人化を図ることが可能となる。また、所定の機関、組織又は部門毎、例えば、省又は庁又は大臣毎のような文書の黒塗りの方針に適応した文書の黒塗り箇所の推薦を行うことが可能となる。
【0024】
[第1の実施形態]
次に、本発明の第1の実施形態の文書の黒塗り箇所表示システムについて、図面を参照して説明する。図3は、本発明の第1の実施形態の文書の黒塗り箇所表示システムの構成を示す図である。図3を参照すると、テキスト含意認識部110と、ユーザー端末111と、文書蓄積部112と、学習済みモデル生成部120と、訓練データ蓄積部121と、文書データベース130と、黒塗り処理部140と、黒塗り箇所表示部150と、を備えた構成が示されている。
【0025】
文書蓄積部112は、黒塗り対象の文書の候補となる文書を蓄積する。テキスト含意認識部110は、入力テキストに含まれる複数の単文ごとに、その単文に意味が類似する単文を、複数の単文を含む文書の中から抽出し、前記入力テキストと文書のそれぞれについて、ある接続語の前後の単文の出現順序に基づいて単文間の事象の発生順である談話関係を示す談話関係情報を生成し、前記談話関係情報に基づいて、前記文書に含まれる単文間の談話関係と、前記抽出された単文間の位置の交差箇所の数である談話関係距離を算出し、前記談話関係距離を含む値と所定の閾値とに基づいて、文書が入力テキストを含意しているか否かを判定する、テキスト含意認識機能を有する。テキスト含意認識については、特許文献4に記載されている。テキスト含意認識部110により、文書蓄積部112に蓄積された文書の中から、ユーザー端末111から入力された入力テキストを含意する文書を黒塗り対象文書として決定する。決定された黒塗り対象文書は、文書データベース130に格納される。
【0026】
学習済みモデル生成部120は、訓練データ蓄積部121に蓄積された、1または複数の文書とそれらの文書の中の黒塗り箇所を指定した正解データを含む訓練データを使用して、モデルの学習を実行する。なお、学習済みモデル生成部120によるモデルの学習については、上述の一実施形態で説明した、学習済みモデル生成部20の動作と同一である。学習済みモデル生成部120により生成された、学習済みモデルは、文書データベース130に格納される。なお、一実施形態で上述したように、所定の機関、組織又は部門毎、例えば、省又は庁又は大臣毎の方針の異なる複数のグループの訓練データを訓練データ蓄積部121に蓄積しており、それぞれのグループの訓練データに対して、それぞれモデルの学習を実行して、それぞれ異なる学習済みモデルを生成し、方針の異なる複数の種類の学習済みモデルを、文書データベース130に格納することも可能である。
【0027】
黒塗り処理部140は、文書データベース130に格納された学習済みモデルを使用して、文書データベース130に格納された黒塗り対象文書の黒塗り箇所の予測を行い、黒塗り箇所を決定し、決定された黒塗り箇所を有する黒塗り文書を出力する。黒塗り処理部140は、文書データベース130に格納された、所定の機関、組織又は部門毎、例えば、省又は庁又は大臣毎の方針の異なる複数のグループに対するそれぞれ異なる学習済みモデルのうち、黒塗り対象文書に適用する学習済みモデルを使用して黒塗り箇所の予測を行うことができる。黒塗り箇所表示部150は、黒塗り処理部140により出力された黒塗り文書を表示する。
【0028】
図4は、本発明の第1の実施形態の文書の黒塗り箇所表示システムのテキスト含意認識部の構成を示す図である。テキスト含意認識部110は、テキスト含意認識処理部1101と黒塗り対象文書抽出・選択部1102を有する。テキスト含意認識処理部1101は、ユーザー端末111から入力テキストが入力され、文書蓄積部112に蓄積された判定対象の大量文書の中から入力テキストを含意する文書を判定して抽出し、黒塗り対象文書抽出・選択部1102へ送る。黒塗り対象文書抽出・選択部1102は、抽出された文書をユーザー端末へ提示する。これに対して、ユーザー端末から黒塗り対象文書抽出・選択部1102へ、文書の選択が送られ、この選択に従って、黒塗り対象文書抽出・選択部1102は、抽出された文書を黒塗り対象文書として決定する。決定された黒塗り対象文書は、文書データベース130に格納される。
【0029】
図5は、本発明の第1の実施形態の文書の黒塗り箇所表示システムの学習済みモデル生成部の構成を示す図である。学習済みモデル生成部120は、訓練データ変換部1201とモデル学習部1202を有する。訓練データ変換部1201は、訓練データを、モデル学習部1202がモデルの学習を実行する形式に変換する前処理を実行する。前処理の内容は、これに限らないが、例えば、黒塗り対象文書内の単語をその分散表現へ変換すること等を含む。モデル学習部1202は、訓練データ変換部1201から入力された訓練データを使用して、モデルの学習を実行する。なお、モデル学習部1202によるモデルの学習については、上述の一実施形態で説明した、学習済みモデル生成部20の動作と同一である。
【0030】
なお、単語分散表現とは、単語の意味を高次元の実数ベクトルとして表す手法であり、word2vec、GloVe(Global Vectors for Word Representation)、fastText及びBERT(Bidirectional Encoder Representations from Transformers)等の手法が知られている。
【0031】
但し、分散表現の性質は、それを学習する際に使用する文章(コーパス)に依存する。そのため、訓練データ変換部1201は、行政文書に関連する文章を使用して学習された分散表現を用いて、黒塗り対象文書内の単語を変換してもよい。
【0032】
図6は、本発明の第1の実施形態の文書の黒塗り箇所表示システムの黒塗り処理部の構成を示す図である。黒塗り処理部140は、黒塗り箇所抽出部141と黒塗り文書作成部142を有する。黒塗り箇所抽出部141は、学習済みモデルを使用して、入力された黒塗り対象文書に対して、黒塗り対象文書の黒塗り箇所の予測を行い、黒塗り箇所を決定する。黒塗り文書作成部142は、決定された黒塗り箇所を有する黒塗り文書を作成して出力する。
【0033】
図7は、本発明の第1の実施形態の文書の黒塗り箇所表示システムの黒塗り箇所抽出部の構成を示す図である。黒塗り箇所抽出部141は、文書データ変換部1411と黒塗り箇所予測部1412とを有する。黒塗り箇所予測部1412には、学習済みモデルが設定される。文書データ変換部1411は、黒塗り対象文書を、黒塗り箇所予測部1412で予測する形式に変換する前処理を実行する。前処理においては、訓練データ変換部1201で実行した訓練データに対する前処理に対応する処理が、黒塗り対象文書に対しても実行される。黒塗り箇所予測部1412は、文書データ変換部1411から入力された黒塗り対象文書を、学習済みモデルに入力して、黒塗り箇所の予測を行い、黒塗り箇所を決定して、出力する。
【0034】
[第2の実施形態]
次に、本発明の第2の実施形態について、図面を参照して説明する。図8は、本発明の第2の実施形態の文書の黒塗り箇所表示システムの構成を示す図である。第2の実施形態の文書の黒塗り箇所表示システム200は、文書管理AI検索サーバ210と、記憶部220と、ユーザー端末230とを有する。文書管理AI検索サーバ210は、予測部211と、取得部212と、訓練データ生成部213と、モデル学習部214と、黒塗り対象文書抽出・選択部215とを有する。黒塗り対象文書抽出・選択部215は、入力テキストを含意する文書を判定するテキスト含意認識機能を有する。テキスト含意認識については、上述したとおりである。
【0035】
図9は、本発明の第2の実施形態の文書の黒塗り箇所表示システムの動作を説明するためのフローチャートを示す図である。ステップS10では、黒塗り対象文書抽出・選択部215が、検索クエリ(入力テキスト)をユーザー端末230から受け付ける。次に、ステップS20で、黒塗り対象文書抽出・選択部215は、テキスト含意認識機能によって受け付けた検索クエリ(入力テキスト)を含意する文書を記憶部220から抽出する。次に、ステップS30で、黒塗り対象文書抽出・選択部215は、抽出した文書をユーザー端末に提示する。ステップS40では、取得部212が、ユーザー端末230から黒塗りを実行する文書の選択を受け付ける。次に、ステップS50で、予測部211が、学習済みモデルを用いて、黒塗り対象文書の黒塗り箇所を、ユーザー端末230へ提示する。
【0036】
図10は、本発明の第2の実施形態の文書の黒塗り箇所表示システムの動作を説明するためのフローチャートを示す図である。図10に示すフローチャートは、図9に示したフローチャートのステップS50の動作をさらに詳しく説明する図である。ステップS510では、取得部212が、ユーザー端末から文書データと正解データ(黒塗り箇所を指定)を有する訓練データを取得する。次に、ステップS520で、訓練データ生成部213が、モデル学習部214で学習に使用する訓練データを生成する。なお、訓練データ生成部213は、所定の機関、組織又は部門毎、例えば、省又は庁又は大臣毎の複数のグループのそれぞれに対してそれぞれの訓練データを生成することも可能である。次に、ステップS530で、モデル学習部214が、訓練データに基づいてモデルの学習を実行して学習済みモデルを生成し、学習済みモデルを記憶部220に格納する。なお、モデル学習部214のモデルの学習においては、訓練データの1または複数の文書を入力してニューラルネットワークにより予測された黒塗り箇所と、各文書に対する黒塗り箇所の正解データとの間の誤差が最小になるようにニューラルネットワークの重みパラメータが調整されて、学習済みモデルが生成される。なお、モデル学習部214は、訓練データ生成部213が生成した省又は庁又は大臣毎の複数のグループのそれぞれに対する訓練データに基づいてモデルの学習を実行し、省又は庁又は大臣毎の複数のグループに対するそれぞれの学習済みモデルを生成して、記憶部220に格納するようにしてもよい。
【0037】
次に、ステップS540で、図9のステップS40において、ユーザー端末230から取得部212を介して選択された予測対象の文書である黒塗り対象文書を記憶部220から予測部211へ読み出す。次に、ステップS550で、取得部212が、ユーザー端末230から、予測に使用する学習済みモデルの指定を受ける。取得部212は、予測部211へ使用する学習済みモデルを指定し、予測部211が記憶部220から予測に使用する学習済みモデルを読み出す。そして、予測部211により、読み出した学習済みモデルに基づいて、読み出した黒塗り対象文書の黒塗り箇所を予測し、ユーザー端末230に提示する。
【0038】
[第3の実施形態]
次に、本発明の第3の実施形態について、図面を参照して説明する。図11は、本発明の第3の実施形態の文書の黒塗り箇所表示システムの構成を示す図である。図11において、図3と同一番号を付した構成要素は、同一の構成要素を示すものとする。本発明の第3の実施形態は、図3に記載の本発明の第1の実施形態の文書の黒塗り箇所表示システムの構成に、黒塗り箇所変更・理由表示・一覧表示受付部160を追加した実施形態である。また、図12は、本発明の第3の実施形態の文書の黒塗り箇所表示システムの黒塗り処理部と黒塗り箇所変更・理由表示・一覧表示受付部の構成を示す図である。図12において、図6と同一番号を付した構成要素は、同一の構成要素を示すものとする。以下に、第1の実施形態との相違点について、主に説明する。図12の第3の実施形態の黒塗り処理部140は、黒塗り文書作成部142において黒塗り箇所変更・理由表示・一覧表示受付部160から出力される黒塗り箇所変更指示を受け、この指示に従って、黒塗り文書作成部142が、黒塗り箇所抽出部141の決定した黒塗り箇所を削除し、又は、別の個所に黒塗り箇所を設定する等の処理を実行する。本発明の第3の実施形態により、黒塗り箇所抽出部141の決定した黒塗り箇所を変更することが可能である。
【0039】
[第4の実施形態]
次に、本発明の第4の実施形態について、図面を参照して説明する。図13は、本発明の第4の実施形態の文書の黒塗り箇所表示システムの構成を示す図である。図13において、図11と同一番号を付した構成要素は、同一の構成要素を示すものとする。本発明の第4の実施形態は、図11に記載の本発明の第3の実施形態の文書の黒塗り箇所表示システムの構成に、黒塗り箇所変更履歴蓄積部170を追加した実施形態である。また、図14は、本発明の第4の実施形態の文書の黒塗り箇所表示システムの黒塗り処理と黒塗り箇所変更履歴蓄積部の構成を示す図である。図14において、図12と同一番号を付した構成要素は、同一の構成要素を示すものとする。以下に、第3の実施形態との相違点について、主に説明する。図14の第4の実施形態の黒塗り処理部140は、黒塗り文書作成部142において黒塗り箇所変更・理由表示・一覧表示受付部160から出力される指示を受け、この指示に従って、黒塗り文書作成部142が、黒塗り箇所抽出部141の決定した黒塗り箇所を変更することが可能である。黒塗り箇所変更履歴蓄積部170は、黒塗り文書作成部142が、黒塗り箇所抽出部141の決定した黒塗り箇所を変更した場合に、黒塗り対象文書とともに、この変更履歴を蓄積する。このように蓄積された黒塗り箇所の変更履歴は、一定の数の変更履歴が蓄積された場合に、学習済みモデル生成部120が、学習済みモデルを生成する場合の訓練データとして使用することができる。
【0040】
[第5の実施形態]
次に、本発明の第5の実施形態について、図面を参照して説明する。図15は、本発明の第5の実施形態の文書の黒塗り箇所表示システムの構成を示す図である。図15において、図13と同一番号を付した構成要素は、同一の構成要素を示すものとする。本発明の第5の実施形態は、図13に記載の本発明の第4の実施形態の文書の黒塗り箇所表示システムの構成に、黒塗り箇所変更履歴蓄積部170から訓練データ蓄積部121への接続を追加した実施形態である。以下に、第4の実施形態との相違点について、主に説明する。図15の第5の実施形態の黒塗り箇所変更履歴蓄積部170は、黒塗り文書作成部142が、黒塗り箇所抽出部141の決定した黒塗り箇所を変更した場合に、黒塗り対象文書とともに、この変更履歴を蓄積する。このように蓄積された黒塗り箇所の変更履歴が一定の数だけ蓄積された場合には、黒塗り箇所変更履歴蓄積部170から、訓練データ蓄積部121に対して、蓄積された黒塗り対象文書と、蓄積された黒塗り箇所の変更履歴を送る。訓練データ蓄積部121は、送られたこれらの黒塗り対象文書と、黒塗り箇所の変更履歴を再訓練データとして蓄積し、これらの蓄積した再訓練データを用いて、学習済みモデル生成部120が、モデルの学習を再度実行することにより、学習済みモデルを再度生成することができる。
【0041】
[第6の実施形態]
次に、本発明の第6の実施形態について、図面を参照して説明する。図16は、本発明の第6の実施形態の黒塗り処理部の構成を示したものであり、本発明の第3の実施形態の図12に示す黒塗り処理部の構成に変更を加えたものである。図16に示す本発明の第6の実施形態の黒塗り処理部140は、黒塗り文書作成部142に、黒塗り箇所理由表示部1421を有する。図17は、本発明の第6の実施形態の文書の黒塗り箇所表示システムの黒塗り箇所の表示の一例を示す図である。図17において、図2と同一番号を付した構成要素は、同一の構成要素を示すものとする。なお、黒塗り対象文書の黒塗り箇所の予測に使用した学習済みモデルは、所定の機関、組織又は部門毎、例えば、省又は庁又は大臣毎の複数のグループのそれぞれに対してそれぞれの訓練データを使用して生成されているので、各学習済みモデルは、それぞれの方針に対応している。黒塗り箇所理由表示部1421は、黒塗り箇所抽出部141から、抽出された黒塗り箇所と学習済みモデルを生成したときの訓練データに関連する方針に対応する黒塗り理由を受け取り、保持する。本発明の第6の実施形態では、図17の表示画面50上の、右側下方部に表示された文書上で、黒塗りされている箇所を、例えばマウス等のポインティングデバイスで指定すると、黒塗り箇所変更・理由表示・一覧表示受付部160で黒塗り箇所指定が受け付けられ、黒塗り文書作成部142へ送られる。黒塗り文書作成部142では、黒塗り箇所理由表示部1421が保持している各黒塗り箇所に対応する黒塗り理由を、黒塗り文書とともに黒塗り箇所表示部150へ送り、黒塗り箇所表示部150が、黒塗り理由51を表示画面50上に表示する。
【0042】
[第7の実施形態]
次に、本発明の第7の実施形態について、図面を参照して説明する。図18は、本発明の7の実施形態の黒塗り処理部の構成を示したものであり、本発明の第3の実施形態の図12に示す黒塗り処理部の構成に変更を加えたものである。図18に示す本発明の第7の実施形態の黒塗り処理部140は、黒塗り文書作成部142に、黒塗り箇所一覧表示部1422を有する。図19は、本発明の第7の実施形態の文書の黒塗り箇所表示システムの黒塗り箇所の一覧表示の一例を示す図である。図19に示す内容に限定されないが、例えば、黒塗り箇所番号、黒塗り箇所の頁・行、黒塗り方針名、および、方針登録した対処理由を表示してもよい。なお、黒塗り対象文書の黒塗り箇所の予測に使用した学習済みモデルは、所定の機関、組織又は部門毎、例えば、省又は庁又は大臣毎の複数のグループのそれぞれに対してそれぞれの訓練データを使用して生成されているので、各学習済みモデルは、それぞれの方針に対応している。黒塗り箇所一覧表示部1422は、黒塗り箇所抽出部141から、抽出された黒塗り箇所と学習済みモデルを生成したときの訓練データに関連する方針に対応する黒塗り方針名や、方針登録した対処理由を受け取り、一覧表形式で保持してもよい。黒塗り箇所変更・理由表示・一覧表示受付部160に、一覧表示指定が入力されると、黒塗り箇所一覧表示部1422へ一覧表示指定を送り、黒塗り箇所一覧表示部1422に保持している各黒塗り箇所に対応する黒塗り箇所の一覧表を黒塗り箇所表示部150へ送り、黒塗り箇所一覧表を表示する。
【0043】
以上、本発明の各実施形態を説明したが、本発明は、上記した実施形態に限定されるものではなく、本発明の基本的技術的思想を逸脱しない範囲で、更なる変形・置換・調整を加えることができる。例えば、各図面に示したネットワーク構成、各要素の構成、メッセージの表現形態は、本発明の理解を助けるための一例であり、これらの図面に示した構成に限定されるものではない。また、以下の説明において、「A及び/又はB」は、A又はBの少なくともいずれかという意味で用いる。
【0044】
また、上記した第1~第7の実施形態に示した手順は、文書の黒塗り箇所表示システム1、100、200として機能するコンピュータ(図20の9000)に、文書の黒塗り箇所表示システム1、100、200としての機能を実現させるプログラムにより実現可能である。このようなコンピュータは、図20のCPU(Central Processing Unit)9010、通信インタフェース9020、メモリ9030、補助記憶装置9040を備える構成に例示される。すなわち、図20のCPU9010にて、黒塗り箇所表示プログラムを実行し、その補助記憶装置9040等に保持された各計算パラメータの更新処理を実施させればよい。
【0045】
即ち、上記した第1~第7の実施形態に示した文書の黒塗り箇所表示システムの各部(処理手段、機能)は、上記コンピュータのプロセッサに、そのハードウェアを用いて、上記した各処理を実行させるコンピュータプログラムにより実現することができる。
【0046】
最後に、本発明の好ましい形態を要約する。
[第1の形態]
(上記第1の視点による文書の黒塗り箇所表示システム参照)
[第2の形態]
上記した文書の黒塗り箇所表示システムの学習済みモデル生成部は、所定の機関、組織又は部門毎の複数のグループの訓練データに対して、それぞれ異なる学習済みモデルを生成することが好ましい。
[第3の形態]
上記した文書の黒塗り箇所表示システムの黒塗り箇所表示部は、前記黒塗り対象文書と、前記黒塗り対象文書の黒塗り箇所を表示することが好ましい。
[第4の形態]
上記した文書の黒塗り箇所表示システムの学習済みモデル生成部は、ニューラルネットワークを用いてモデルの学習を実行することが好ましい。
[第5の形態]
上記した文書の黒塗り箇所表示システムのニューラルネットワークは、ディープニューラルネットワークであることが好ましい。
[第6の形態]
上記した文書の黒塗り箇所表示システムのニューラルネットワークは、RNN(Recurrent Neural Network、リカレントニューラルネットワーク)、LSTM(Long Short Term Memory)又は、CNN(Convolutional Neural Network、畳み込みニューラルネットワーク)あるいは、それらの任意の組み合わせであることが好ましい。
[第7の形態]
上記した文書の黒塗り箇所表示システムの黒塗り対象文書決定部は、入力テキストに含まれる複数の単文ごとに、その単文に意味が類似する単文を、複数の単文を含む文書の中から抽出し、前記入力テキストと文書のそれぞれについて、ある接続語の前後の単文の出現順序に基づいて単文間の事象の発生順である談話関係を示す談話関係情報を生成し、前記談話関係情報に基づいて、前記文書に含まれる単文間の談話関係と、前記抽出された単文間の位置の交差箇所の数である談話関係距離を算出し、前記談話関係距離を含む値と所定の閾値とに基づいて、文書が入力テキストを含意しているか否かを判定する、テキスト含意認識を用いて、蓄積された1または複数の文書の中の入力テキストを含意する文を含む文書の中から黒塗り対象文書を決定することが好ましい。
[第8の形態]
上記した文書の黒塗り箇所表示システムの黒塗り対象文書の黒塗り箇所の表示の変更を受け付ける黒塗り箇所変更受付部をさらに有することができる。
[第9の形態]
(上記第2の視点による文書の黒塗り箇所表示方法参照)
[第10の形態]
(上記第3の視点による文書の黒塗り箇所表示プログラム参照)
[第11の形態]
上記した文書の黒塗り箇所表示システムの黒塗り対象の文書は、テキストを含む文書であることが好ましい。
[第12の形態]
上記した文書の黒塗り箇所表示システムの黒塗り対象の文書は、画像を含む文書であることができる。
[第13の形態]
上記した文書の黒塗り箇所表示システムの黒塗り対象の文書は、音声認識手段により取得した文書であることができる。
[第14の形態]
上記した文書の黒塗り箇所表示システムの黒塗り箇所変更受付部で受け付けた入力に従って、黒塗り文書作成部が、黒塗り箇所抽出部の決定した黒塗り箇所を変更することが好ましい。
[第15の形態]
上記した文書の黒塗り箇所表示システムの黒塗り箇所の表示の変更を変更履歴として蓄積する、黒塗り箇所変更履歴蓄積部をさらに有することができる。
[第16の形態]
上記した文書の黒塗り箇所表示システムの学習済みモデル生成部が、黒塗り箇所変更履歴蓄積部に蓄積された履歴情報を正解データとする再訓練データを用いて、モデルの学習を再度実行する事が好ましい。
[第17の形態]
上記した黒塗り箇所理由表示受付部は、黒塗り対象文書の黒塗り箇所を指定する入力を受け付けることができる。
[第18の形態]
上記した文書の黒塗り箇所表示システムの黒塗り箇所表示部は、前記黒塗り箇所理由表示受付部により受け付けられた入力に従って、前記黒塗り箇所理由表示部の保持する黒塗り箇所の理由を表示することができる。
[第19の形態]
上記黒塗り箇所一覧表示受付部は、黒塗り箇所を一覧表示することを指定する入力を受け付けることができる。
[第20の形態]
上記した文書の黒塗り箇所表示システムの黒塗り箇所表示部は、前記黒塗り箇所一覧表示受付部により受け付けられた入力に従って、黒塗り箇所一覧表示部に保持された黒塗り箇所の一覧表示をすることができる。
[第21の形態]
上記した文書の黒塗り箇所表示システムの前記黒塗り箇所の一覧表は、黒塗り箇所、黒塗りの登場頁・行、各箇所に紐づいた方針名、方針登録した対処理由を表示することができる。
【0047】
なお、上記の特許文献の各開示を、本書に引用をもって繰り込むものとする。本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の開示の枠内において種々の開示要素(各請求項の各要素、各実施形態ないし実施例の各要素、各図面の各要素等を含む)の多様な組み合わせ、ないし選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。特に、本書に記載した数値範囲については、当該範囲内に含まれる任意の数値ないし小範囲が、別段の記載のない場合でも具体的に記載されているものと解釈されるべきである。
【符号の説明】
【0048】
1、100、200 文書の黒塗り箇所表示システム
10 黒塗り対象文書決定部
20 学習済みモデル生成部
30 黒塗り箇所予測部
40 黒塗り箇所表示部
110 テキスト含意認識部
111 ユーザー端末
112 文書蓄積部
120 学習済みモデル生成部
121 訓練データ蓄積部
130 文書データベース
140 黒塗り処理部
141 黒塗り箇所抽出部
142 黒塗り文書作成部
150 黒塗り箇所表示部
160 黒塗り箇所変更・理由表示・一覧表示受付部
170 黒塗り箇所変更履歴蓄積部
210 文書管理AI検索サーバ
211 予測部
212 取得部
213 訓練データ生成部
214 モデル学習部
215 黒塗り対象文書抽出・選択部
220 記憶部
230 ユーザー端末
1101 テキスト含意認識処理部
1102 黒塗り対象文書抽出・選択部
1201 訓練データ変換部
1202 モデル学習部
1411 文書データ変換部
1412 黒塗り箇所予測部
1421 黒塗り箇所理由表示部
1422 黒塗り箇所一覧表示部
9000 コンピュータ
9010 CPU
9020 通信インタフェース
9030 メモリ
9040 補助記憶装置
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20