IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 平安科技(深▲せん▼)有限公司の特許一覧

特表2022-534375テキスト知能化洗浄方法、装置及びコンピュータ読み取り可能な記憶媒体
<>
  • 特表-テキスト知能化洗浄方法、装置及びコンピュータ読み取り可能な記憶媒体 図1
  • 特表-テキスト知能化洗浄方法、装置及びコンピュータ読み取り可能な記憶媒体 図2
  • 特表-テキスト知能化洗浄方法、装置及びコンピュータ読み取り可能な記憶媒体 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-07-29
(54)【発明の名称】テキスト知能化洗浄方法、装置及びコンピュータ読み取り可能な記憶媒体
(51)【国際特許分類】
   G06F 40/289 20200101AFI20220722BHJP
【FI】
G06F40/289
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021569240
(86)(22)【出願日】2019-08-23
(85)【翻訳文提出日】2021-11-19
(86)【国際出願番号】 CN2019102204
(87)【国際公開番号】W WO2021000391
(87)【国際公開日】2021-01-07
(31)【優先権主張番号】201910601253.7
(32)【優先日】2019-07-03
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】517406065
【氏名又は名称】平安科技(深▲せん▼)有限公司
【氏名又は名称原語表記】PING AN TECHNOLOGY (SHENZHEN) CO.,LTD.
【住所又は居所原語表記】23F,Ping’an Financial Center,No.5033 Yitian Road,Fu’an Community of Futian Street,Futian District Shenzhen,Guangdong 518000 China
(74)【代理人】
【識別番号】110002262
【氏名又は名称】TRY国際特許業務法人
(72)【発明者】
【氏名】鄭 子欧
(72)【発明者】
【氏名】汪 偉
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091CA01
(57)【要約】
【要約】本願は、人工知能技術に関し、テキスト知能化洗浄方法を開示し、テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得るステップと、前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成するステップと、前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成するステップと、前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成するステップと、前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルに対して逆回復操作を行い、標準テキストを出力するステップと、を含む。本願は、テキスト知能化洗浄装置及びコンピュータ読み取り可能な記憶媒体をさらに提供する。本願は、テキストに対する精確な洗浄を達成する。
【特許請求の範囲】
【請求項1】
テキスト知能化洗浄方法であって、
テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得るステップと、
前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成するステップと、
前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成するステップと、
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成するステップと、
前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルに対してword2vecの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力するステップと、を含むことを特徴とするテキスト知能化洗浄方法。
【請求項2】
テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得る前記ステップは、
split文字列により前記テキストセットに対してテキスト分割操作を行い、単位語句を得るステップと、
word2vecモデルを利用して前記単位語句セットを前記単語ベクトルテキストセットに変換するステップと、を含むことを特徴とする請求項1に記載のテキスト知能化洗浄方法。
【請求項3】
word2vecモデルを利用して前記単位語句セットを前記単語ベクトルテキストセットに変換する前記ステップは、
前記単位語句セットをワンホット形式で量子化して語彙リストベクトルを得て、前記語彙リストベクトルを前記Word2vecモデルに入力し、前記語彙リストベクトルを前記word2vecモデルにおける隠れ層を用いて圧縮処理して低次元ベクトルを形成し、前記単語ベクトルテキストを得るステップを含むことを特徴とする請求項2に記載のテキスト知能化洗浄方法。
【請求項4】
前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成する前記ステップは、
前記BiLSTMモデルにおけるLSTM-targetのエンコーダにより前記主体単語ベクトル行列をエンコードし、前向き隠れ状態系列を得るステップと、
前記BiLSTMモデルにおけるLSTM-descriのエンコーダにより前記主体単語ベクトル行列をエンコードし、後向き隠れ状態系列を得るステップと、
前記前向き隠れ状態系列と前記後向き隠れ状態系列とを繋ぎ合わせ、主題単語ベクトルを得て、前記主題単語ベクトルをまとめて前記中間テキストベクトルを得るステップと、を含むことを特徴とする請求項1に記載のテキスト知能化洗浄方法。
【請求項5】
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する前記ステップは、
前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値を得るステップと、
前記特徴値をまとめて操作を行い、畳み込み特徴行列を得て、前記畳み込み特徴行列と前記中間テキストベクトルを同じ次元空間にマッピングし、前記畳み込み特徴行列と前記中間テキストベクトルのコサイン類似度を得るステップと、
前記コサイン類似度の注意力重みを算出し、前記注意力重みをまとめて注意力重み行列を得るステップと、
前記畳み込み特徴行列中の特徴値と前記注意力重み行列に対応する注意力重みを重み付けして前記目標テキストベクトル中の特徴点を得て、前記目標テキストベクトル中の特徴点をまとめて目標テキストベクトルを得るステップと、を含むことを特徴とする請求項1に記載のテキスト知能化洗浄方法。
【請求項6】
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する前記ステップは、
前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値を得るステップと、
前記特徴値をまとめて操作を行い、畳み込み特徴行列を得て、前記畳み込み特徴行列と前記中間テキストベクトルを同じ次元空間にマッピングし、前記畳み込み特徴行列と前記中間テキストベクトルのコサイン類似度を得るステップと、
前記コサイン類似度の注意力重みを算出し、前記注意力重みをまとめて注意力重み行列を得るステップと、
前記畳み込み特徴行列中の特徴値と前記注意力重み行列に対応する注意力重みを重み付けして前記目標テキストベクトル中の特徴点を得て、前記目標テキストベクトル中の特徴点をまとめて目標テキストベクトルを得るステップと、を含むことを特徴とする請求項2に記載のテキスト知能化洗浄方法。
【請求項7】
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する前記ステップは、
前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値を得るステップと、
前記特徴値をまとめて操作を行い、畳み込み特徴行列を得て、前記畳み込み特徴行列と前記中間テキストベクトルを同じ次元空間にマッピングし、前記畳み込み特徴行列と前記中間テキストベクトルのコサイン類似度を得るステップと、
前記コサイン類似度の注意力重みを算出し、前記注意力重みをまとめて注意力重み行列を得るステップと、
前記畳み込み特徴行列中の特徴値と前記注意力重み行列に対応する注意力重みを重み付けして前記目標テキストベクトル中の特徴点を得て、前記目標テキストベクトル中の特徴点をまとめて目標テキストベクトルを得るステップと、を含むことを特徴とする請求項3に記載のテキスト知能化洗浄方法。
【請求項8】
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する前記ステップは、
前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値を得るステップと、
前記特徴値をまとめて操作を行い、畳み込み特徴行列を得て、前記畳み込み特徴行列と前記中間テキストベクトルを同じ次元空間にマッピングし、前記畳み込み特徴行列と前記中間テキストベクトルのコサイン類似度を得るステップと、
前記コサイン類似度の注意力重みを算出し、前記注意力重みをまとめて注意力重み行列を得るステップと、
前記畳み込み特徴行列中の特徴値と前記注意力重み行列に対応する注意力重みを重み付けして前記目標テキストベクトル中の特徴点を得て、前記目標テキストベクトル中の特徴点をまとめて目標テキストベクトルを得るステップと、を含むことを特徴とする請求項4に記載のテキスト知能化洗浄方法。
【請求項9】
テキスト知能化洗浄装置であって、メモリとプロセッサとを含み、前記メモリに前記プロセッサ上で実行可能なテキスト知能化洗浄プログラムが記憶され、前記テキスト知能化洗浄プログラムは、前記プロセッサによって実行されると、
テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得るステップと、
前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成するステップと、
前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成するステップと、
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成するステップと、
前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルに対してword2vecの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力するステップと、を実現することを特徴とするテキスト知能化洗浄装置。
【請求項10】
テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得る前記ステップは、
split文字列により前記テキストセットに対してテキスト分割操作を行い、単位語句を得るステップと、
word2vecモデルを利用して前記単位語句セットを前記単語ベクトルテキストセットに変換するステップと、を含むことを特徴とする請求項9に記載のテキスト知能化洗浄装置。
【請求項11】
word2vecモデルを利用して前記単位語句セットを前記単語ベクトルテキストセットに変換する前記ステップは、
前記単位語句セットをワンホット形式で量子化して語彙リストベクトルを得て、前記語彙リストベクトルを前記Word2vecモデルに入力し、前記語彙リストベクトルを前記word2vecモデルにおける隠れ層を用いて圧縮処理して低次元ベクトルを形成し、前記単語ベクトルテキストを得るステップを含むことを特徴とする請求項10に記載のテキスト知能化洗浄装置。
【請求項12】
前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成する前記ステップは、
前記BiLSTMモデルにおけるLSTM-targetのエンコーダにより前記主体単語ベクトル行列をエンコードし、前向き隠れ状態系列を得るステップと、
前記BiLSTMモデルにおけるLSTM-descriのエンコーダにより前記主体単語ベクトル行列をエンコードし、後向き隠れ状態系列を得るステップと、
前記前向き隠れ状態系列と前記後向き隠れ状態系列とを繋ぎ合わせ、主題単語ベクトルを得て、前記主題単語ベクトルをまとめて前記中間テキストベクトルを得るステップと、を含むことを特徴とする請求項9に記載のテキスト知能化洗浄装置。
【請求項13】
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する前記ステップは、
前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値を得るステップと、
前記特徴値をまとめて操作を行い、畳み込み特徴行列を得て、前記畳み込み特徴行列と前記中間テキストベクトルを同じ次元空間にマッピングし、前記畳み込み特徴行列と前記中間テキストベクトルのコサイン類似度を得るステップと、
前記コサイン類似度の注意力重みを算出し、前記注意力重みをまとめて注意力重み行列を得るステップと、
前記畳み込み特徴行列中の特徴値と前記注意力重み行列に対応する注意力重みを重み付けして前記目標テキストベクトル中の特徴点を得て、前記目標テキストベクトル中の特徴点をまとめて目標テキストベクトルを得るステップと、を含むことを特徴とする請求項9に記載のテキスト知能化洗浄装置。
【請求項14】
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する前記ステップは、
前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値を得るステップと、
前記特徴値をまとめて操作を行い、畳み込み特徴行列を得て、前記畳み込み特徴行列と前記中間テキストベクトルを同じ次元空間にマッピングし、前記畳み込み特徴行列と前記中間テキストベクトルのコサイン類似度を得るステップと、
前記コサイン類似度の注意力重みを算出し、前記注意力重みをまとめて注意力重み行列を得るステップと、
前記畳み込み特徴行列中の特徴値と前記注意力重み行列に対応する注意力重みを重み付けして前記目標テキストベクトル中の特徴点を得て、前記目標テキストベクトル中の特徴点をまとめて目標テキストベクトルを得るステップと、を含むことを特徴とする請求項10に記載のテキスト知能化洗浄装置。
【請求項15】
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する前記ステップは、
前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値を得るステップと、
前記特徴値をまとめて操作を行い、畳み込み特徴行列を得て、前記畳み込み特徴行列と前記中間テキストベクトルを同じ次元空間にマッピングし、前記畳み込み特徴行列と前記中間テキストベクトルのコサイン類似度を得るステップと、
前記コサイン類似度の注意力重みを算出し、前記注意力重みをまとめて注意力重み行列を得るステップと、
前記畳み込み特徴行列中の特徴値と前記注意力重み行列に対応する注意力重みを重み付けして前記目標テキストベクトル中の特徴点を得て、前記目標テキストベクトル中の特徴点をまとめて目標テキストベクトルを得るステップと、を含むことを特徴とする請求項11に記載のテキスト知能化洗浄装置。
【請求項16】
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する前記ステップは、
前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値を得るステップと、
前記特徴値をまとめて操作を行い、畳み込み特徴行列を得て、前記畳み込み特徴行列と前記中間テキストベクトルを同じ次元空間にマッピングし、前記畳み込み特徴行列と前記中間テキストベクトルのコサイン類似度を得るステップと、
前記コサイン類似度の注意力重みを算出し、前記注意力重みをまとめて注意力重み行列を得るステップと、
前記畳み込み特徴行列中の特徴値と前記注意力重み行列に対応する注意力重みを重み付けして前記目標テキストベクトル中の特徴点を得て、前記目標テキストベクトル中の特徴点をまとめて目標テキストベクトルを得るステップと、を含むことを特徴とする請求項12に記載のテキスト知能化洗浄装置。
【請求項17】
コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な記憶媒体にテキスト知能化洗浄プログラムが記憶され、前記テキスト知能化洗浄プログラムは、
テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得るステップと、
前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成するステップと、
前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成するステップと、
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成するステップと、
前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルに対してword2vecの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力するステップと、を実現するために、1つ又は複数のプロセッサによって実行されることができることを特徴とするコンピュータ読み取り可能な記憶媒体。
【請求項18】
テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得る前記ステップは、
split文字列により前記テキストセットに対してテキスト分割操作を行い、単位語句を得るステップと、
word2vecモデルを利用して前記単位語句セットを前記単語ベクトルテキストセットに変換するステップと、を含むことを特徴とする請求項17に記載のコンピュータ読み取り可能な記憶媒体。
【請求項19】
word2vecモデルを利用して前記単位語句セットを前記単語ベクトルテキストセットに変換する前記ステップは、
前記単位語句セットをワンホット形式で量子化して語彙リストベクトルを得て、前記語彙リストベクトルを前記Word2vecモデルに入力し、前記語彙リストベクトルを前記word2vecモデルにおける隠れ層を用いて圧縮処理して低次元ベクトルを形成し、前記単語ベクトルテキストを得るステップを含むことを特徴とする請求項18に記載のコンピュータ読み取り可能な記憶媒体。
【請求項20】
前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成する前記ステップは、
前記BiLSTMモデルにおけるLSTM-targetのエンコーダにより前記主体単語ベクトル行列をエンコードし、前向き隠れ状態系列を得るステップと、
前記BiLSTMモデルにおけるLSTM-descriのエンコーダにより前記主体単語ベクトル行列をエンコードし、後向き隠れ状態系列を得るステップと、
前記前向き隠れ状態系列と前記後向き隠れ状態系列とを繋ぎ合わせ、主題単語ベクトルを得て、前記主題単語ベクトルをまとめて前記中間テキストベクトルを得るステップと、を含むことを特徴とする請求項17に記載のコンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、パリ条約に基づき、2019年07月03日に提出された、出願番号CN 201910601253.7、名称「テキスト知能化洗浄方法、装置及びコンピュータ読み取り可能な記憶媒体」の中国特許出願の優先権を主張し、当該中国特許出願の内容の全てが参照の方式によって本願に組み込まれる。
【0002】
本願は、人工知能技術の分野に関し、特に、ハイブリッドネットワークモデルに基づくテキストの不自然な改行問題に対するテキスト知能化洗浄方法、装置及びコンピュータ読み取り可能な記憶媒体に関するものである。
【背景技術】
【0003】
異なるチャネルから得られたテキスト(例えば、html抜粋文字、pdf抜粋文字など)の組み合わせからなる文書は、コピー、貼り付け後の異なるフォーマットの変換による不自然な改行がある。これらの不自然な改行は、意味に関係がなく、自然段落とは異なる。後続の展示、又は意味解析のいずれかに干渉を来す可能性がある。ある特定の由来の改行発生原因を人工で見て規則をまとめて取り除くのが通常である。しかし、このような方法は移植可能性が悪く、柔軟性が十分でなく、人工的なまとめによるコストが高く、また、正確性が低い。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本願は、異なるフォーマットのテキストのコピー、貼り付けからなる結合テキストの不自然な改行問題を処理し、意味が完全で、階層がはっきりした標準テキストをユーザに呈することを主な目的とする、テキスト知能化洗浄方法、装置及びコンピュータ読み取り可能な記憶媒体を提供する。
【課題を解決するための手段】
【0005】
上記目的を達成するために、本願にて提供されるテキスト知能化洗浄方法は、
テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得るステップと、
前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成するステップと、
前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成するステップと、
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成するステップと、
前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルに対してword2vecの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力するステップと、を含む。
【0006】
また、上記目的を達成するために、本願は、テキスト知能化洗浄装置をさらに提供し、当該装置は、メモリとプロセッサとを含み、前記メモリに前記プロセッサ上で実行可能なテキスト知能化洗浄プログラムが記憶され、前記テキスト知能化洗浄プログラムは、前記プロセッサによって実行されると、
テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得るステップと、
前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成するステップと、
前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成するステップと、
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成するステップと、
前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルに対してword2vecの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力するステップと、を実現する。
【0007】
また、上記目的を達成するために、本願は、コンピュータ読み取り可能な記憶媒体をさらに提供し、前記コンピュータ読み取り可能な記憶媒体にテキスト知能化洗浄プログラムが記憶され、前記テキスト知能化洗浄プログラムは、上述したテキスト知能化洗浄方法のステップを実現するために、1つ又は複数のプロセッサによって実行されることができる。
【発明の効果】
【0008】
本願にて提供されるテキスト知能化洗浄方法、装置及びコンピュータ読み取り可能な記憶媒体は、テキスト洗浄を行う際に、取得されたテキストセットに対して解析処理を行い及びBiLSTM-CNNハイブリッドモデルを結び付けて、前記テキスト結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルを回復することで、標準テキストを得ることができる。
【図面の簡単な説明】
【0009】
図1】本願の一実施例にて提供されるテキスト知能化洗浄方法のフローチャートの概略図である。
図2】本願の一実施例にて提供されるテキスト知能化洗浄装置の内部構造の概略図である。
図3】本願の一実施例にて提供されるテキスト知能化洗浄装置におけるテキスト知能化洗浄プログラムのモジュールの概略図である。 本願の目的の実現、機能的特徴及び利点は、実施例を結び付けて、添付図面を参照してさらに説明する。
【発明を実施するための形態】
【0010】
なお、本明細書に記載の具体的な実施例は、本願を説明するためのものにすぎず、本願を限定するものではないことを理解されたい。
【0011】
本願は、テキスト知能化洗浄方法を提供する。図1を参照すると、本願の一実施例にて提供されるテキスト知能化洗浄方法のフローチャートの概略図である。当該方法は、ソフトウェア及び/又はハードウェアによって実現され得る装置によって実行され得る。
【0012】
本実施例において、テキスト知能化洗浄方法は、以下を含む。
【0013】
S1、テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストを得る。
【0014】
本願の好ましい実施例において、前記テキストセットは、ネットワークでキーワード検索を行うことにより取得される方式1、北京大学の中国言語学センターのコーパスからダウンロードにより取得される方式2という2つの方式で取得される。
【0015】
本願の前記前処理操作は、split文字列により前記テキストセットに対してテキスト分割操作を行い、単位語句を得るステップと、word2vecモデルを利用して前記単位語句セットを前記単語ベクトルテキストセットに変換するステップと、を含む。
【0016】
詳しくは、前記split文字列分割が前記テキストセットに対してテキスト分割操作を行うことは、単一の記号を区切り文字とし、前記区切り文字が「|」、「*」、「^」などであり得、前記区切り文字に基づいて前記テキストセットを単位語句に分割して単位語句セットを得ることである。
【0017】
前記単位語句セットを前記単語ベクトルテキストセットにword2vecモデルによって変換する前記変換操作は、前記単位語句セットをワンホット(one-hot)形式で量子化して語彙リストベクトルを得て、前記語彙リストベクトルを前記Word2vecモデルに入力し、前記語彙リストベクトルを前記word2vecモデルにおける隠れ層を用いて圧縮処理して低次元ベクトルを形成し、前記低次元ベクトルが即ち単語ベクトルテキストであることである。
【0018】
前記one-hotは、世界中の全ての単語を1つのベクトル中の要素に対応付けることである。例えば、ある単語が出現すると、前記単語に対応する位置を1、それ以外の位置を0と設定することで、前記単語セットにおける単語をいずれもベクトル表現に変換して語彙リストベクトルを形成することができる。
【0019】
S2、前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成する。
【0020】
本願の好ましい実施例は、前記単語ベクトルテキストに対して全文行列数値化操作を行うことで、前記単語ベクトルテキストセットの解析の定性化から定量化への遷移を実現する。ここで、前記全文行列数値化操作は、具体的に、所定の前記単語ベクトルテキストにおける語彙量をnで表し、単語ベクトル次元をdで表し、単語ベクトル次元は品詞特徴、文字特徴、意味立場、感情的色彩などを含むステップと、単語ベクトル積層により前記所定の単語ベクトルテキストを全体次元n*dの単語ベクトル数値行列Xに変換するステップと、自然言語処理と中国語計算会議説明のコーパス(nlpcc)により前記単語ベクトル数値行列Xを判読し、前記所定の単語ベクトルテキストにおける修飾特徴を有するベクトルを抽出して、次元n*dの前記テキスト単語ベクトル行列を生成するステップと、前記所定のテキストにおける非修飾特徴を有するベクトルを残して、次元n*dの主体単語ベクトル行列を生成するステップと、を含む。
【0021】
S3、前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成し、前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する。
【0022】
本願に記載のBiLSTMモデルは、LSTM-target及びLSTM-descriという2つの部分を含む。本願は、前記LSTM-targetのエンコーダにより前記n*d主体単語ベクトル行列をエンコードし、前向き隠れ状態系列hr={w1(a),w2(a),w3(a),…,wn(a)}を得て、前記LSTM-descriのエンコーダにより前記n*d主体単語ベクトル行列をエンコードし、後向き隠れ状態系列hl={w1(b),w2(b),w3(b),…,wn(b)}を得る。hrとhlとを繋ぎ合わせて操作して、主題単語ベクトルを得て、前記主題単語ベクトルをまとめて前記中間テキストベクトルを得る。前記繋ぎ合わせ操作の計算式は、以下のとおりである。
【0023】
【0024】
ここで、前記wk’は、主題単語ベクトルであり、wk(a)は、前向きkの隠れ状態系列であり、wk(b)は、後向きkの隠れ状態系列である。
【0025】
さらに、本願の好ましい実施例は、前記次元n*dのテキスト単語ベクトル行列を前記畳み込みニューラルネットワークモデル(Convolutional Neural Networks、CNN)に入力し、前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズw*dにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値gを得る。ここで、前記特徴値gの計算方法は以下のとおりである。
【0026】
【0027】
【0028】
さらに、本願は、前記特徴値をまとめて操作を行い、畳み込み特徴行列S=[g,g,…g,g]を得て、前記gは、具体的な一位置の畳み込みカーネルについて抽出された特徴を表す。
【0029】
【0030】
S4、前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、前記意味認識分類器モデルのSoftmaxをカウントすることにより集約テキストベクトルを出力し、前記集約テキストベクトルに対してword2vecの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力する。
【0031】
本願の好ましい実施例において、前記繋ぎ合わせ操作は、前記目標テキストベクトルと前記中間テキストベクトルとを首尾接続操作し、結合テキストベクトルを生成することである。さらに、前記意味認識分類モデルは分類器モデルを含み、前記結合テキストベクトルを分類器モデルに入力し、前記結合テキストベクトルに前記分類器モデルによって集約操作を行い、集約テキストベクトルを得る。前記集約操作は、前記結合テキストベクトルの次元属性が近く且つ意味的に連続なベクトルをフィルタリングし、前記結合テキストベクトルの残りのベクトルをフィルタリングした後、句読点で接続することで、前記集約テキストベクトルを得て、分類器モデルのSoftmaxによって出力する。さらに、本願は、前記word2vec逆アルゴリズムモジュールを用いて、前記集約テキストベクトルに対して逆回復操作を行うことで、標準テキストを出力し、ここで、前記word2vec逆アルゴリズムモジュールは、数値型のテキストベクトル行列を対応するテキストデータに復元することができる。
【0032】
本願は、テキスト知能化洗浄装置をさらに提供する。図2を参照すると、本願の一実施例にて提供されるテキスト知能化洗浄装置の内部構造の概略図である。
【0033】
本実施例において、前記テキスト知能化洗浄装置1は、PC(Personal Computer、パーソナルコンピュータ)であってもよく、又はスマートフォン、タブレットコンピュータ、携帯用コンピュータなどの端末機器であってもよく、サーバーなどであってもよい。当該テキスト知能化洗浄装置1は、少なくとも、メモリ11と、プロセッサ12と、通信バス13と、ネットワークインタフェース14とを含む。
【0034】
ここで、メモリ11は、フラッシュメモリ、ハードディスク、マルチメディアカード、カード型メモリ(例えば、SDメモリ又はDXメモリなど)、磁気メモリ、磁気ディスク、光ディスクなどを含む少なくとも1種類の読み取り可能な記憶媒体を含む。メモリ11は、いくつかの実施例において、テキスト知能化洗浄装置1の内部記憶ユニット、例えば、当該テキスト知能化洗浄装置1のハードディスクであってもよい。メモリ11は、他の実施例において、テキスト知能化洗浄装置1の外部記憶機器、例えば、テキスト知能化洗浄装置1に備えられたプラグインハードディスク、スマートメモリカード(Smart Media(登録商標) Card、SMC)、セキュアデジタル(Secure Digital、SD)カード、フラッシュカード(Flash Card)などであってもよい。さらに、メモリ11は、テキスト知能化洗浄装置1の内部記憶ユニットと外部記憶機器の両方を含んでもよい。メモリ11は、テキスト知能化洗浄装置1にインストールされたアプリケーションソフト及びテキスト知能化洗浄プログラム01のコードなどの各種データを記憶するために用いられることができるだけでなく、既に出力された、又は出力しようとするデータを一時的に記憶するために用いられることができる。
【0035】
プロセッサ12は、いくつかの実施例において、中央演算装置(Central Processing Unit、CPU)、コントローラ、マイクロコントローラ、マイクロプロセッサ、又は他のデータ処理チップであってもよく、メモリ11に記憶されたプログラムコード又は処理データを実行するために用いられ、例えば、テキスト知能化洗浄プログラム01を実行することなどである。
【0036】
通信バス13は、これらのコンポーネントの間の接続通信を実現するために用いられる。
【0037】
ネットワークインタフェース14は、選択的に、標準的な有線インタフェース、無線インタフェース(例えばWI-FIインタフェース)を含んでもよく、一般に、当該装置1と他の電子機器との間の通信接続を確立するために用いられる。
【0038】
選択的に、当該装置1は、ユーザインタフェースをさらに含んでもよく、ユーザインタフェースは、ディスプレイ(Display)、キーボード(Keyboard)などの入力ユニットを含んでもよく、選択的に、ユーザインタフェースは、標準的な有線インタフェース、無線インタフェースをさらに含んでもよい。選択的に、いくつかの実施例において、ディスプレイは、LEDディスプレイ、液晶ディスプレイ、タッチ液晶ディスプレイ、及びOLED(Organic Light-Emitting Diode、有機発光ダイオード)タッチなどであってもよい。ここで、ディスプレイは、テキスト知能化洗浄装置1で処理される情報を表示し、視覚化されたユーザインタフェースを表示するために、適宜、表示画面又は表示ユニットと呼ばれてもよい。
【0039】
図2は、コンポーネント11~14及びテキスト知能化洗浄プログラム01を有するテキスト知能化洗浄装置1のみを示し、当業者であれば、図2に示す構造は、テキスト知能化洗浄装置1を限定するものではなく、図示のものよりも少ない又は多い部材、又はいくつかの部材の組み合わせ、又は異なる部材の配置を含んでもよいことが理解される。
【0040】
図2に示される装置1の実施例において、メモリ11にテキスト知能化洗浄プログラム01が記憶され、プロセッサ12がメモリ11に記憶されたテキスト知能化洗浄プログラム01を実行する際に、以下のステップを実現する。
【0041】
ステップ1、テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストを得る。
【0042】
本願の好ましい実施例において、前記テキストセットは、ネットワークでキーワード検索を行うことにより取得される方式1、北京大学の中国言語学センターのコーパスからダウンロードにより取得される方式2という2つの方式で取得される。
【0043】
本願の前記前処理操作は、split文字列により前記テキストセットに対してテキスト分割操作を行い、単位語句を得るステップと、word2vecモデルを利用して前記単位語句セットを前記単語ベクトルテキストセットに変換するステップと、を含む。
【0044】
詳しくは、前記split文字列分割が前記テキストセットに対してテキスト分割操作を行うことは、単一の記号を区切り文字とし、前記区切り文字が「|」、「*」、「^」などであり得、前記区切り文字に基づいて前記テキストセットを単位語句に分割して単位語句セットを得ることである。
【0045】
前記単位語句セットを前記単語ベクトルテキストセットにword2vecモデルによって変換する前記変換操作は、前記単位語句セットをワンホット(one-hot)形式で量子化して語彙リストベクトルを得て、前記語彙リストベクトルを前記Word2vecモデルに入力し、前記語彙リストベクトルを前記word2vecモデルにおける隠れ層を用いて圧縮処理して低次元ベクトルを形成し、前記低次元ベクトルが即ち単語ベクトルテキストであることである。
【0046】
前記one-hotは、世界中の全ての単語を1つのベクトル中の要素に対応付けることである。例えば、ある単語が出現すると、前記単語に対応する位置を1、それ以外の位置を0と設定することで、前記単語セットにおける単語をいずれもベクトル表現に変換して語彙リストベクトルを形成することができる。
【0047】
ステップ2、前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成する。
【0048】
本願の好ましい実施例は、前記単語ベクトルテキストに対して全文行列数値化操作を行うことで、前記単語ベクトルテキストセットの解析の定性化から定量化への遷移を実現する。ここで、前記全文行列数値化操作は、具体的に、所定の前記単語ベクトルテキストにおける語彙量をnで表し、単語ベクトル次元をdで表し、単語ベクトル次元は品詞特徴、文字特徴、意味立場、感情的色彩などを含むステップと、単語ベクトル積層により前記所定の単語ベクトルテキストを全体次元n*dの単語ベクトル数値行列Xに変換するステップと、自然言語処理と中国語計算会議説明のコーパス(nlpcc)により前記単語ベクトル数値行列Xを判読し、前記所定の単語ベクトルテキストにおける修飾特徴を有するベクトルを抽出して、次元n*dの前記テキスト単語ベクトル行列を生成するステップと、前記所定のテキストにおける非修飾特徴を有するベクトルを残して、次元n*dの主体単語ベクトル行列を生成するステップと、を含む。
【0049】
ステップ3、前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成し、前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する。
【0050】
本願に記載のBiLSTMモデルは、LSTM-target及びLSTM-descriという2つの部分を含む。本願は、前記LSTM-targetのエンコーダにより前記n*d主体単語ベクトル行列をエンコードし、前向き隠れ状態系列hr={w1(a),w2(a),w3(a),…,wn(a)}を得て、前記LSTM-descriのエンコーダにより前記n*d主体単語ベクトル行列をエンコードし、後向き隠れ状態系列hl={w1(b),w2(b),w3(b),…,wn(b)}を得る。hrとhlとを繋ぎ合わせて操作して、主題単語ベクトルを得て、前記主題単語ベクトルをまとめて前記中間テキストベクトルを得る。前記繋ぎ合わせ操作の計算式は、以下のとおりである。
【0051】
【0052】
ここで、前記wk’は、主題単語ベクトルであり、wk(a)は、前向きkの隠れ状態系列であり、wk(b)は、後向きkの隠れ状態系列である。
【0053】
さらに、本願の好ましい実施例は、前記次元n*dのテキスト単語ベクトル行列を前記畳み込みニューラルネットワークモデル(Convolutional Neural Networks、CNN)に入力し、前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズw*dにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値gを得る。ここで、前記特徴値gの計算方法は以下のとおりである。
【0054】
【0055】
【0056】
さらに、本願は、前記特徴値をまとめて操作を行い、畳み込み特徴行列S=[g,g,…g,g]を得て、前記gは、具体的な一位置の畳み込みカーネルについて抽出された特徴を表す。
【0057】
【0058】
ステップ4、前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、前記意味認識分類器モデルのSoftmaxをカウントすることにより集約テキストベクトルを出力し、前記集約テキストベクトルに対してword2vecの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力する。
【0059】
本願の好ましい実施例において、前記繋ぎ合わせ操作は、前記目標テキストベクトルと前記中間テキストベクトルとを首尾接続操作し、結合テキストベクトルを生成することである。さらに、前記意味認識分類モデルは分類器モデルを含み、前記結合テキストベクトルを分類器モデルに入力し、前記結合テキストベクトルに前記分類器モデルによって集約操作を行い、集約テキストベクトルを得る。前記集約操作は、前記結合テキストベクトルの次元属性が近く且つ意味的に連続なベクトルをフィルタリングし、前記結合テキストベクトルの残りのベクトルをフィルタリングした後、句読点で接続することで、前記集約テキストベクトルを得て、分類器モデルのSoftmaxによって出力する。さらに、本願は、前記word2vec逆アルゴリズムモジュールを用いて、前記集約テキストベクトルに対して逆回復操作を行うことで、標準テキストを出力し、ここで、前記word2vec逆アルゴリズムモジュールは、数値型のテキストベクトル行列を対応するテキストデータに復元することができる。
【0060】
好ましくは、他の実施例において、テキスト知能化洗浄プログラムは、1つ又は複数のモジュールに分割されてもよく、1つ又は複数のモジュールがメモリ11に記憶されて1つ又は複数のプロセッサ(本実施例ではプロセッサ12)によって実行されて本願を完了させ、本願で言及されるモジュールは、テキスト知能化洗浄装置におけるテキスト知能化洗浄プログラムの実行プロセスを記述するための特定の機能を完了させることができる一連のコンピュータプログラム命令セグメントを指す。
【0061】
例えば、図3を参照すると、本願のテキスト知能化洗浄装置の一実施例におけるテキスト知能化洗浄プログラムのプログラムモジュールの概略図であり、当該実施例において、前記テキスト知能化洗浄プログラムは、テキスト前処理モジュール10、単語ベクトル分割モジュール20、モデル処理モジュール30、及び標準テキスト生成モジュール40に分割されてもよく、例示的に、以下のとおりである。
【0062】
前記テキスト前処理モジュール10は、テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得るために用いられる。
【0063】
前記単語ベクトル分割モジュール20は、前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成するために用いられる。
【0064】
前記モデル処理モジュール30は、前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成し、前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成するために用いられる。
【0065】
前記標準テキスト生成モジュール40は、前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルに対してword2vecの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力するために用いられる。
【0066】
上記のテキスト前処理モジュール10、単語ベクトル分割モジュール20、モデル処理モジュール30、及び標準テキスト生成モジュール40などのプログラムモジュールが実行される際に実現される機能又は操作ステップは、上記の実施例と実質的に同じであり、ここでは説明を省略する。
【0067】
また、本願の実施例は、コンピュータ読み取り可能な記憶媒体をさらに提供し、前記コンピュータ読み取り可能な記憶媒体にテキスト知能化洗浄プログラムが記憶され、前記テキスト知能化洗浄プログラムは、
テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得るステップと、
前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成するステップと、
前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成するステップと、
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成するステップと、
前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルに対してword2vecの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力するステップと、を実現するために、1つ又は複数のプロセッサによって実行されることができる。
【0068】
本願のコンピュータ読み取り可能な記憶媒体の具体的な実施形態は、上記のテキスト知能化洗浄装置及び方法の各実施例と基本的に同じであり、ここでは説明を省略する。
【0069】
なお、上記の本願の実施例の番号は、説明のためのものにすぎず、実施例の優劣を表すものではない。本明細書における用語「含む」、「含有」、又はそれらの任意の他の変形は、非排他的な含有をカバーするように意図され、したがって、一連の要素を含むプロセス、装置、物品、又は方法は、それらの要素を含むだけでなく、明示的に列挙されていない他の要素も含み、又はそのようなプロセス、装置、物品、又は方法に固有の要素も含む。「……を含む」という語句によって定義される要素は、これ以上の制限がない限り、当該要素を含むプロセス、装置、物品、又は方法において、他の同じ要素が存在することを除外しない。
【0070】
以上の実施形態の説明により、当業者は、上記の実施例の方法が、ソフトウェアに、必要な汎用ハードウェアプラットフォームを加えた方式で実現でき、当然ハードウェアによっても実現することができるが、前者がより好ましい実施形態である場合が多いことを明確に理解することができる。このような理解に基づいて、本願の技術的解決手段の本質又は従来技術に貢献する部分は、ソフトウェア製品の形態で具体化されてもよく、当該コンピュータソフトウェア製品は、上述のような1つの記憶媒体(例えば、ROM/RAM、磁気ディスク、光ディスク)に記憶され、1台の端末機器(携帯電話、コンピュータ、サーバー、又はネットワーク機器などでもよい)に本願の各実施例に記載の方法を実行させるための複数の命令を含む。
【0071】
以上は本願の好ましい実施例にすぎず、それによって本願の特許範囲を制限するものではなく、本願の明細書及び図面内容を利用して行われる等価構造又は等価フロー変換、或いは直接的又は間接的に他の関連技術分野に応用される場合、いずれも同様に本願の特許請求範囲に含まれる。
図1
図2
図3
【手続補正書】
【提出日】2021-11-19
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
テキスト知能化洗浄方法であって、
テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得るステップと、
前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成するステップと、
前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成するステップと、
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成するステップと、
前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルに対してword2vecの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力するステップと、を含むことを特徴とするテキスト知能化洗浄方法。
【請求項2】
テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得る前記ステップは、
split文字列により前記テキストセットに対してテキスト分割操作を行い、単位語句を得るステップと、
word2vecモデルを利用して前記単位語句セットを前記単語ベクトルテキストセットに変換するステップと、を含むことを特徴とする請求項1に記載のテキスト知能化洗浄方法。
【請求項3】
word2vecモデルを利用して前記単位語句セットを前記単語ベクトルテキストセットに変換する前記ステップは、
前記単位語句セットをワンホット形式で量子化して語彙リストベクトルを得て、前記語彙リストベクトルを前記Word2vecモデルに入力し、前記語彙リストベクトルを前記word2vecモデルにおける隠れ層を用いて圧縮処理して低次元ベクトルを形成し、前記単語ベクトルテキストを得るステップを含むことを特徴とする請求項2に記載のテキスト知能化洗浄方法。
【請求項4】
前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成する前記ステップは、
前記BiLSTMモデルにおけるLSTM-targetのエンコーダにより前記主体単語ベクトル行列をエンコードし、前向き隠れ状態系列を得るステップと、
前記BiLSTMモデルにおけるLSTM-descriのエンコーダにより前記主体単語ベクトル行列をエンコードし、後向き隠れ状態系列を得るステップと、
前記前向き隠れ状態系列と前記後向き隠れ状態系列とを繋ぎ合わせ、主題単語ベクトルを得て、前記主題単語ベクトルをまとめて前記中間テキストベクトルを得るステップと、を含むことを特徴とする請求項1に記載のテキスト知能化洗浄方法。
【請求項5】
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する前記ステップは、
前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値を得るステップと、
前記特徴値をまとめて操作を行い、畳み込み特徴行列を得て、前記畳み込み特徴行列と前記中間テキストベクトルを同じ次元空間にマッピングし、前記畳み込み特徴行列と前記中間テキストベクトルのコサイン類似度を得るステップと、
前記コサイン類似度の注意力重みを算出し、前記注意力重みをまとめて注意力重み行列を得るステップと、
前記畳み込み特徴行列中の特徴値と前記注意力重み行列に対応する注意力重みを重み付けして前記目標テキストベクトル中の特徴点を得て、前記目標テキストベクトル中の特徴点をまとめて目標テキストベクトルを得るステップと、を含むことを特徴とする請求項1に記載のテキスト知能化洗浄方法。
【請求項6】
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する前記ステップは、
前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値を得るステップと、
前記特徴値をまとめて操作を行い、畳み込み特徴行列を得て、前記畳み込み特徴行列と前記中間テキストベクトルを同じ次元空間にマッピングし、前記畳み込み特徴行列と前記中間テキストベクトルのコサイン類似度を得るステップと、
前記コサイン類似度の注意力重みを算出し、前記注意力重みをまとめて注意力重み行列を得るステップと、
前記畳み込み特徴行列中の特徴値と前記注意力重み行列に対応する注意力重みを重み付けして前記目標テキストベクトル中の特徴点を得て、前記目標テキストベクトル中の特徴点をまとめて目標テキストベクトルを得るステップと、を含むことを特徴とする請求項2に記載のテキスト知能化洗浄方法。
【請求項7】
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する前記ステップは、
前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値を得るステップと、
前記特徴値をまとめて操作を行い、畳み込み特徴行列を得て、前記畳み込み特徴行列と前記中間テキストベクトルを同じ次元空間にマッピングし、前記畳み込み特徴行列と前記中間テキストベクトルのコサイン類似度を得るステップと、
前記コサイン類似度の注意力重みを算出し、前記注意力重みをまとめて注意力重み行列を得るステップと、
前記畳み込み特徴行列中の特徴値と前記注意力重み行列に対応する注意力重みを重み付けして前記目標テキストベクトル中の特徴点を得て、前記目標テキストベクトル中の特徴点をまとめて目標テキストベクトルを得るステップと、を含むことを特徴とする請求項3に記載のテキスト知能化洗浄方法。
【請求項8】
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する前記ステップは、
前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値を得るステップと、
前記特徴値をまとめて操作を行い、畳み込み特徴行列を得て、前記畳み込み特徴行列と前記中間テキストベクトルを同じ次元空間にマッピングし、前記畳み込み特徴行列と前記中間テキストベクトルのコサイン類似度を得るステップと、
前記コサイン類似度の注意力重みを算出し、前記注意力重みをまとめて注意力重み行列を得るステップと、
前記畳み込み特徴行列中の特徴値と前記注意力重み行列に対応する注意力重みを重み付けして前記目標テキストベクトル中の特徴点を得て、前記目標テキストベクトル中の特徴点をまとめて目標テキストベクトルを得るステップと、を含むことを特徴とする請求項4に記載のテキスト知能化洗浄方法。
【請求項9】
テキスト知能化洗浄装置であって、メモリとプロセッサとを含み、前記メモリに前記プロセッサ上で実行可能なテキスト知能化洗浄プログラムが記憶され、前記テキスト知能化洗浄プログラムは、前記プロセッサによって実行されると、
テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得るステップと、
前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成するステップと、
前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成するステップと、
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成するステップと、
前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルに対してword2vecの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力するステップと、を実現することを特徴とするテキスト知能化洗浄装置。
【請求項10】
テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得る前記ステップは、
split文字列により前記テキストセットに対してテキスト分割操作を行い、単位語句を得るステップと、
word2vecモデルを利用して前記単位語句セットを前記単語ベクトルテキストセットに変換するステップと、を含むことを特徴とする請求項9に記載のテキスト知能化洗浄装置。
【請求項11】
word2vecモデルを利用して前記単位語句セットを前記単語ベクトルテキストセットに変換する前記ステップは、
前記単位語句セットをワンホット形式で量子化して語彙リストベクトルを得て、前記語彙リストベクトルを前記Word2vecモデルに入力し、前記語彙リストベクトルを前記word2vecモデルにおける隠れ層を用いて圧縮処理して低次元ベクトルを形成し、前記単語ベクトルテキストを得るステップを含むことを特徴とする請求項10に記載のテキスト知能化洗浄装置。
【請求項12】
前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成する前記ステップは、
前記BiLSTMモデルにおけるLSTM-targetのエンコーダにより前記主体単語ベクトル行列をエンコードし、前向き隠れ状態系列を得るステップと、
前記BiLSTMモデルにおけるLSTM-descriのエンコーダにより前記主体単語ベクトル行列をエンコードし、後向き隠れ状態系列を得るステップと、
前記前向き隠れ状態系列と前記後向き隠れ状態系列とを繋ぎ合わせ、主題単語ベクトルを得て、前記主題単語ベクトルをまとめて前記中間テキストベクトルを得るステップと、を含むことを特徴とする請求項9に記載のテキスト知能化洗浄装置。
【請求項13】
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成する前記ステップは、
前記畳み込みニューラルネットワークの所定の畳み込みカーネルサイズにより前記テキスト単語ベクトル行列に対して畳み込み操作を行い、特徴値を得るステップと、
前記特徴値をまとめて操作を行い、畳み込み特徴行列を得て、前記畳み込み特徴行列と前記中間テキストベクトルを同じ次元空間にマッピングし、前記畳み込み特徴行列と前記中間テキストベクトルのコサイン類似度を得るステップと、
前記コサイン類似度の注意力重みを算出し、前記注意力重みをまとめて注意力重み行列を得るステップと、
前記畳み込み特徴行列中の特徴値と前記注意力重み行列に対応する注意力重みを重み付けして前記目標テキストベクトル中の特徴点を得て、前記目標テキストベクトル中の特徴点をまとめて目標テキストベクトルを得るステップと、を含むことを特徴とする請求項9-12のいずれか1項に記載のテキスト知能化洗浄装置。
【請求項14】
コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な記憶媒体にテキスト知能化洗浄プログラムが記憶され、前記テキスト知能化洗浄プログラムは、
テキストセットを取得し、前記テキストセットに対して前処理操作を行い、単語ベクトルテキストセットを得るステップと、
前記単語ベクトルテキストセットに対して全文行列数値化操作を行い、主体単語ベクトル行列及びテキスト単語ベクトル行列を生成するステップと、
前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成するステップと、
前記テキスト単語ベクトル行列を畳み込みニューラルネットワークモデルに入力して目標テキストベクトルを生成するステップと、
前記中間テキストベクトルと前記目標テキストベクトルとを繋ぎ合わせ、結合テキストベクトルを得て、前記結合テキストベクトルを予め構築した意味認識分類器モデルに入力し、集約テキストベクトルを出力し、前記集約テキストベクトルに対してword2vecの逆アルゴリズムを用いて逆回復操作を行い、標準テキストを出力するステップと、を実現するために、1つ又は複数のプロセッサによって実行されることができることを特徴とするコンピュータ読み取り可能な記憶媒体。
【請求項15】
前記主体単語ベクトル行列をBiLSTMモデルに入力して中間テキストベクトルを生成する前記ステップは、
前記BiLSTMモデルにおけるLSTM-targetのエンコーダにより前記主体単語ベクトル行列をエンコードし、前向き隠れ状態系列を得るステップと、
前記BiLSTMモデルにおけるLSTM-descriのエンコーダにより前記主体単語ベクトル行列をエンコードし、後向き隠れ状態系列を得るステップと、
前記前向き隠れ状態系列と前記後向き隠れ状態系列とを繋ぎ合わせ、主題単語ベクトルを得て、前記主題単語ベクトルをまとめて前記中間テキストベクトルを得るステップと、を含むことを特徴とする請求項14に記載のコンピュータ読み取り可能な記憶媒体。
【国際調査報告】