IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特許7580593エンドツーエンドセンシティブテキストリコールモデルのトレーニング方法、センシティブテキストリコール方法
<>
  • 特許-エンドツーエンドセンシティブテキストリコールモデルのトレーニング方法、センシティブテキストリコール方法 図1
  • 特許-エンドツーエンドセンシティブテキストリコールモデルのトレーニング方法、センシティブテキストリコール方法 図2
  • 特許-エンドツーエンドセンシティブテキストリコールモデルのトレーニング方法、センシティブテキストリコール方法 図3
  • 特許-エンドツーエンドセンシティブテキストリコールモデルのトレーニング方法、センシティブテキストリコール方法 図4
  • 特許-エンドツーエンドセンシティブテキストリコールモデルのトレーニング方法、センシティブテキストリコール方法 図5
  • 特許-エンドツーエンドセンシティブテキストリコールモデルのトレーニング方法、センシティブテキストリコール方法 図6
  • 特許-エンドツーエンドセンシティブテキストリコールモデルのトレーニング方法、センシティブテキストリコール方法 図7
  • 特許-エンドツーエンドセンシティブテキストリコールモデルのトレーニング方法、センシティブテキストリコール方法 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-31
(45)【発行日】2024-11-11
(54)【発明の名称】エンドツーエンドセンシティブテキストリコールモデルのトレーニング方法、センシティブテキストリコール方法
(51)【国際特許分類】
   G06N 20/00 20190101AFI20241101BHJP
   G06F 18/241 20230101ALI20241101BHJP
   G06F 40/279 20200101ALI20241101BHJP
【FI】
G06N20/00 130
G06F18/241
G06F40/279
【請求項の数】 13
(21)【出願番号】P 2023524462
(86)(22)【出願日】2022-10-10
(65)【公表番号】
(43)【公表日】2024-07-18
(86)【国際出願番号】 CN2022124456
(87)【国際公開番号】W WO2023236405
(87)【国際公開日】2023-12-14
【審査請求日】2023-04-20
(31)【優先権主張番号】202210633241.4
(32)【優先日】2022-06-06
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100118913
【弁理士】
【氏名又は名称】上田 邦生
(74)【代理人】
【識別番号】100142789
【弁理士】
【氏名又は名称】柳 順一郎
(74)【代理人】
【識別番号】100201466
【弁理士】
【氏名又は名称】竹内 邦彦
(72)【発明者】
【氏名】リウ, ウェイル
【審査官】山本 俊介
(56)【参考文献】
【文献】中国特許出願公開第114239591(CN,A)
【文献】中国特許出願公開第112487149(CN,A)
【文献】特開2010-072779(JP,A)
【文献】特開2015-061116(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
G06F 18/24-18/2453
G06F 40/00-40/58
(57)【特許請求の範囲】
【請求項1】
センシティブテキストブロックシーンにおける予め設定されたワードリストと第1のランダムテキストコーパスを取得するであって、前記予め設定されたワードリストのうちの用語に対応するテキストがセンシティブテキストであるステップと、
前記予め設定されたワードリストに基づいてポジティブサンプルデータを構築し、前記第1のランダムテキストコーパスに基づいてネガティブサンプルデータを構築するステップと、
前記ポジティブサンプルデータと前記ネガティブサンプルデータに基づいて、人間による評価方式とマルチサンプルスプライスのサンプリング方式によって初期のテキスト分類モデルに対してイテレーション処理トレーニングを実行して、トレーニング終了後にモデル指標がターゲット標準に達するテキスト分類モデルを得るステップと、
前記モデル指標がターゲット標準に達するテキスト分類モデルのモデルパラメータに基づいて、エンドツーエンドセンシティブテキストリコールモデルを生成するステップであって、前記エンドツーエンドセンシティブテキストリコールモデルは学習によりワードリストリコール能力を得たものであるステップと、
を含む、エンドツーエンドセンシティブテキストリコールモデルのトレーニング方法。
【請求項2】
前記ポジティブサンプルデータと前記ネガティブサンプルデータに基づいて、人間による評価方式とマルチサンプルスプライスのサンプリング方式によって初期のテキスト分類モデルに対してイテレーション処理トレーニングを実行するステップが、
前記ポジティブサンプルデータと前記ネガティブサンプルデータをトレーニングサンプルとしてトレーニングセットと検証セットに分割するステップと、
前記トレーニングセットと前記検証セットに基づいて、テキスト分類モデルをトレーニングして、最適なモデルを得るステップと、
テストセットを取得し、前記テストセットに基づいて前記最適なモデルを評価して、モデル評価結果を得るステップと、
前記モデル評価結果と前記テストセットに基づいて、人間による評価方式とマルチサンプルスプライスのサンプリング方式によって前記トレーニングサンプルを更新するステップと、
更新後のトレーニングサンプルをトレーニングセットと検証セットに再分割し、トレーニング終了後にモデル指標がターゲット標準に達するまで、前記トレーニングセットと前記検証セットに基づいて、テキスト分類モデルをトレーニングして、最適なモデルを得るステップを実行するステップと、
を含む請求項1に記載のエンドツーエンドセンシティブテキストリコールモデルのトレーニング方法。
【請求項3】
前記テストセットにはリコールサンプルと第2のランダムテキストコーパスが含まれ、前記テストセットに基づいて前記最適なモデルを評価して、モデル評価結果を得るステップが、
前記テストセットのうちの前記リコールサンプルを前記最適なモデルに入力し、前記最適なモデルから出力された第1の予測結果を取得するステップと、
前記第1の予測結果と前記リコールサンプルに対応する実際のラベル情報に基づいて、前記最適なモデルの再現率を決定するステップと、
前記テストセットのうちの前記第2のランダムテキストコーパスを前記最適なモデルに入力し、前記最適なモデルから出力された第2の予測結果を取得するステップと、
前記第2の予測結果と前記第2のランダムテキストコーパスに対応する実際のラベル情報に基づいて、前記最適なモデルの適合率を決定するステップと、
を含む請求項2に記載のエンドツーエンドセンシティブテキストリコールモデルのトレーニング方法。
【請求項4】
前記モデル評価結果と前記テストセットに基づいて、人間による評価方式とマルチサンプルスプライスのサンプリング方式によって前記トレーニングサンプルを更新するステップが、
前記再現率が第1の閾値より小さいことに応答し、前記第1の予測結果のうちのネガティブの例であると予測された例の第1の人間による評価結果を取得し、前記第1の人間による評価結果に基づいて、前記リコールサンプルのうちのネガティブの例であると誤予測された例のサンプルを更新対象のサンプルセットに追加するステップ、及び/又は、
前記適合率が第2の閾値より小さいことに応答し、前記第2の予測結果のうちのポジティブの例であると予測された例の第2の人間による評価結果、前記第2の人間による評価結果に基づいて、前記第2のランダムテキストコーパスのうちのポジティブの例であると誤予測されたテキストコーパスを取得するステップ、
前記更新対象のサンプルセットのうちのN個のサンプルごとに1つのサンプルにスプライスし、スプライス処理後に得られたサンプルを前記トレーニングサンプルに更新するステップであって、前記Nが1より大きい整数であるステップ、を含む請求項3に記載のエンドツーエンドセンシティブテキストリコールモデルのトレーニング方法。
【請求項5】
前記Nは3である請求項4に記載のエンドツーエンドセンシティブテキストリコールモデルのトレーニング方法。
【請求項6】
前記テキスト分類モデルが、第1の長短期記憶ネットワークLSTM層、平均プール化層、第2のLSTM層、最大プール化層、スプライスConcat層、削減Dropout層及び分類層を含み、
前記第1のLSTM層が、サンプルのテキスト特徴を抽出し、
前記平均プール化層が、前記テキスト特徴をプール化処理して、第1の経路特徴を得て、
前記第2のLSTM層が、前記第1のLSTM層のうちの最後の隠蔽層出力に対して特徴抽出を行い、抽出された特徴を前記最大プール化層に入力し、
前記最大プール化層が、前記第2のLSTM層の出力をプール化処理して、第2の経路特徴を得て、
前記スプライスConcat層が、前記第1の経路特徴と前記第2の経路特徴をスプライスして、スプライス特徴を得て、
前記削減Dropout層が、前記スプライス特徴に対してDropout操作を行い、
前記分類層が、前記削減Dropout層出力の特徴を分類処理して、分類の予測値を得る請求項1に記載のエンドツーエンドセンシティブテキストリコールモデルのトレーニング方法。
【請求項7】
処理対象テキストを取得するステップと、
事前トレーニングされたエンドツーエンドセンシティブテキストリコールモデルに基づいて前記処理対象テキストを予測して、前記処理対象テキストをリコールするか否かを決定するステップと、
を含み、
前記エンドツーエンドセンシティブテキストリコールモデルは、学習によりワードリストリコール能力を得たものであり、前記エンドツーエンドセンシティブテキストリコールモデルが、請求項1に記載の方法によりトレーニングされるセンシティブテキストリコール方法。
【請求項8】
前記事前トレーニングされたエンドツーエンドセンシティブテキストリコールモデルに基づいて前記処理対象テキストを予測して、前記処理対象テキストをリコールするか否かを決定するステップが、
のLSTM層を介して前記処理対象テキストのテキスト特徴を抽出するステップと、
均プール化層を介して前記テキスト特徴をプール化処理して、第1の経路特徴を得るステップと、
2のLSTM層を介して前記第1のLSTM層のうちの最後の隠蔽層出力に対して特徴抽出を行い、抽出された特徴を最大プール化層に入力するステップと、
前記最大プール化層を介して前記第2のLSTM層の出力をプール化処理して、第2の経路特徴を得るステップと、
前記第1の経路特徴と前記第2の経路特徴をスプライスして、スプライス特徴を得て、前記削減Dropout層を介して前記スプライス特徴に対してDropout操作を行うステップと、
類層を介して前記削減Dropout層出力の特徴を分類処理して、分類の予測値を得るステップと、
前記予測値に基づいて、前記処理対象テキストをリコールするか否かを決定するステップと、
を含む請求項7に記載のセンシティブテキストリコール方法。
【請求項9】
センシティブテキストブロックシーンにおける予め設定されたワードリストと第1のランダムテキストコーパスを取得する取得モジュールであって、前記予め設定されたワードリストのうちの用語に対応するテキストがセンシティブテキストである取得モジュールと、
前記予め設定されたワードリストに基づいてポジティブサンプルデータを構築する構築モジュールであって、前記第1のランダムテキストコーパスに基づいてネガティブサンプルデータを構築する構築モジュールと、
前記ポジティブサンプルデータと前記ネガティブサンプルデータに基づいて、人間による評価方式とマルチサンプルスプライスのサンプリング方式によって初期のテキスト分類モデルに対してイテレーション処理トレーニングを実行して、トレーニング終了後にモデル指標がターゲット標準に達するテキスト分類モデルを得て、
前記モデル指標がターゲット標準に達するテキスト分類モデルのモデルパラメータに基づいて、エンドツーエンドセンシティブテキストリコールモデルを生成し、前記エンドツーエンドセンシティブテキストリコールモデルは学習によりワードリストリコール能力を得たものである処理モジュールと、
を備える、エンドツーエンドセンシティブテキストリコールモデルのトレーニング装置。
【請求項10】
処理対象テキストを取得する取得モジュールと、
事前トレーニングされたエンドツーエンドセンシティブテキストリコールモデルに基づいて前記処理対象テキストを予測して、前記処理対象テキストをリコールするか否かを決定する予測モジュールと、
を備え、
前記エンドツーエンドセンシティブテキストリコールモデルは、学習によりワードリストリコール能力を得たものであり、前記エンドツーエンドセンシティブテキストリコールモデルが、請求項1から6のいずれか一項に記載の方法でトレーニングされるセンシティブテキストリコール装置。
【請求項11】
少なくとも1つのプロセッサと、
該少なくとも1つのプロセッサと通信可能に接続されるメモリと、
を備え、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令が、前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが請求項1から6のいずれか一項に記載の方法又は請求項7若しくは8に記載の方法を実行できる電子機器。
【請求項12】
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令が、コンピュータに請求項1から6のいずれか一項に記載の方法又は請求項7若しくは8に記載の方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項13】
ンピュータに実行される場合、コンピュータに請求項1から6のいずれか一項に記載の方法を実行させるか、又は請求項7若しくは8に記載の方法を実行させるコンピュータプログラム。
【発明の詳細な説明】
【優先権情報】
【0001】
本出願は、中国特許出願番号「2022106332414」、出願日2022年6月6日の中国特許出願に基づいて提出され、当該中国特許出願の優先権を請求し、当該中国特許出願のすべての内容はここで参照として本出願に組み込まれる。
【技術分野】
【0002】
本開示は、データ処理技術の分野に関し、具体的に深層学習などの人工知能技術の分野に関し、より具体的には、エンドツーエンドセンシティブテキストリコールモデルのトレーニング方法、センシティブテキストリコール方法に関する。
【背景技術】
【0003】
アプリケーション内のテキストはユーザに情報を伝達する主要な方法の1つですが、有害でルール違反な情報を含むセンシティブテキストはユーザに不良な使用体験をもたらすとともに、規制上のリスクをもたらし、社会的な風潮を害し、最終的にはアプリケーション製品がユーザに放棄されることになる。ワードリストリコールは、テキスト情報におけるセンシティブテキストをタイムリーにリコールし、これによって製品の安全を保障し、ユーザの使用体験を向上させることができる。
【発明の概要】
【0004】
本開示は、エンドツーエンドセンシティブテキストリコールモデルのトレーニング方法、センシティブテキストリコール方法、装置、機器及び記憶媒体を提供する。
【0005】
本開示の第1の態様の実施形態によれば、エンドツーエンドセンシティブテキストリコールモデルのトレーニング方法を提供し、前記方法は、センシティブテキストブロックシーンにおける予め設定されたワードリストと第1のランダムテキストコーパスを取得するステップであって、前記予め設定されたワードリストのうちの用語に対応するテキストがセンシティブテキストであるステップと、前記予め設定されたワードリストに基づいてポジティブサンプルデータを構築し、前記第1のランダムテキストコーパスに基づいてネガティブサンプルデータを構築するステップと、前記ポジティブサンプルデータと前記ネガティブサンプルデータに基づいて、人間による評価方式とマルチサンプルスプライスのサンプリング方式によって初期のテキスト分類モデルに対してイテレーション処理トレーニングを実行して、トレーニング終了後にモデル指標がターゲット標準に達するテキスト分類モデルを得るステップと、前記モデル指標がターゲット標準に達するテキスト分類モデルのモデルパラメータに基づいて、エンドツーエンドセンシティブテキストリコールモデルを生成するステップであって、前記エンドツーエンドセンシティブテキストリコールモデルは学習によりワードリストリコール能力を得たものであるステップと、を含む。
【0006】
いくつかの実施形態では、前記ポジティブサンプルデータと前記ネガティブサンプルデータに基づいて、人間による評価方式とマルチサンプルスプライスのサンプリング方式によって初期のテキスト分類モデルに対してイテレーション処理トレーニングを実行するステップは、前記ポジティブサンプルデータと前記ネガティブサンプルデータをトレーニングサンプルとしてトレーニングセットと検証セットに分割するステップと、前記トレーニングセットと前記検証セットに基づいて、テキスト分類モデルをトレーニングして、最適なモデルを得るステップと、テストセットを取得し、前記テストセットに基づいて前記最適なモデルを評価して、モデル評価結果を得るステップと、前記モデル評価結果と前記テストセットに基づいて、人間による評価方式とマルチサンプルスプライスのサンプリング方式によって前記トレーニングサンプルを更新するステップと、更新後のトレーニングサンプルをトレーニングセットと検証セットに再分割し、トレーニング終了後にモデル指標がターゲット標準に達するまで、前記トレーニングセットと前記検証セットに基づいて、テキスト分類モデルをトレーニングして、最適なモデルを得るステップを実行するステップと、を含む。
【0007】
いくつかの実施形態では、前記テストセットにはリコールサンプルと第2のランダムテキストコーパスが含まれ、前記テストセットに基づいて前記最適なモデルを評価して、モデル評価結果を得るステップは、前記テストセットのうちの前記リコールサンプルを前記最適なモデルに入力し、前記最適なモデルから出力された第1の予測結果を取得するステップと、前記第1の予測結果と前記リコールサンプルに対応する実際のラベル情報に基づいて、前記最適なモデルの再現率を決定するステップと、前記テストセットのうちの前記第2のランダムテキストコーパスを前記最適なモデルに入力し、前記最適なモデルから出力された第2の予測結果を取得するステップと、前記第2の予測結果と前記第2のランダムテキストコーパスに対応する実際のラベル情報に基づいて、前記最適なモデルの適合率を決定するステップと、を含む。
【0008】
いくつかの実施形態では、前記モデル評価結果と前記テストセットに基づいて、人間による評価方式とマルチサンプルスプライスのサンプリング方式によって前記トレーニングサンプルを更新するステップは、前記再現率が第1の閾値より小さいことに応答し、前記第1の予測結果のうちのネガティブの例であると予測された例の第1の人間による評価結果を取得し、前記第1の人間による評価結果に基づいて、前記リコールサンプルのうちのネガティブの例であると誤予測された例のサンプルを更新対象のサンプルセットに追加するステップ、及び/又は、前記適合率が第2の閾値より小さいことに応答し、前記第2の予測結果のうちのポジティブの例であると予測された例の第2の人間による評価結果を取得し、前記第2の人間による評価結果に基づいて、前記第2のランダムテキストコーパスのうちのポジティブの例であると誤予測された例のテキストコーパスを更新対象のサンプルセットに追加するステップ、前記更新対象のサンプルセットのうちのN個のサンプルごとに1つのサンプルにスプライスし、スプライス処理後に得られたサンプルを前記トレーニングサンプルに更新するステップであって、前記Nが1より大きい整数であるステップ、を含む。
【0009】
いくつかの実施形態では、前記Nは3である。
【0010】
いくつかの実施形態では、前記テキスト分類モデルは第1の長短期記憶ネットワークLSTM層、平均プール化層、第2のLSTM層、最大プール化層、スプライスConcat層、削減Dropout層及び分類層を含み、前記第1のLSTM層が、サンプルのテキスト特徴を抽出し、前記平均プール化層が前記テキスト特徴をプール化処理して、第1の経路特徴を得て、前記第2のLSTM層が前記第1のLSTM層のうちの最後の隠蔽層出力に対して特徴抽出を行い、抽出された特徴を前記最大プール化層に入力し、前記最大プール化層が前記第2のLSTM層の出力をプール化処理して、第2の経路特徴を得て、前記スプライスConcat層が前記第1の経路特徴と前記第2の経路特徴をスプライスして、スプライス特徴を得て、前記削減Dropout層が前記スプライス特徴に対してDropout操作を行い、前記分類層が前記削減Dropout層出力の特徴を分類処理して、分類の予測値を得る。
【0011】
本開示の第2の態様の実施形態によれば、センシティブテキストリコール方法を提供し、前記方法は、処理対象テキストを取得するステップと、事前トレーニングされたエンドツーエンドセンシティブテキストリコールモデルに基づいて前記処理対象テキストを予測して、前記処理対象テキストをリコールするか否かを決定するステップであって、前記エンドツーエンドセンシティブテキストリコールモデルは学習によりワードリストリコール能力を得たものであり、前記エンドツーエンドセンシティブテキストリコールモデルが第1の態様に記載の方法を用いてトレーニングされるステップと、を含む。
【0012】
いくつかの実施形態では、前記事前トレーニングされたエンドツーエンドセンシティブテキストリコールモデルに基づいて前記処理対象テキストを予測して、前記処理対象テキストをリコールするか否かを決定するステップは、前記第1の長短期記憶ネットワークLSTM層を介して前記処理対象テキストのテキスト特徴を抽出するステップと、前記平均プール化層を介して前記テキスト特徴をプール化処理して、第1の経路特徴を得るステップと、前記第2のLSTM層を介して前記第1のLSTM層のうちの最後の隠蔽層出力に対して特徴抽出を行い、抽出された特徴を前記最大プール化層に入力するステップと、前記最大プール化層を介して前記第2のLSTM層の出力をプール化処理して、第2の経路特徴を得るステップと、前記第1の経路特徴と前記第2の経路特徴をスプライスして、スプライス特徴を得て、前記削減Dropout層を介して前記スプライス特徴に対してDropout操作を行うステップと、前記分類層を介して前記削減Dropout層出力の特徴を分類処理して、分類の予測値を得るステップと、前記予測値に基づいて、前記処理対象テキストをリコールするか否かを決定するステップと、を含む。
【0013】
本開示の第3の態様の実施例によれば、エンドツーエンドセンシティブテキストリコールモデルのトレーニング装置を提供し、前記装置は、センシティブテキストブロックシーンにおける予め設定されたワードリストと第1のランダムテキストコーパスを取得する取得モジュールであって、前記予め設定されたワードリストのうちの用語(term)に対応するテキストがセンシティブテキストである取得モジュールと、前記予め設定されたワードリストに基づいてポジティブサンプルデータを構築する構築モジュールであって、前記第1のランダムテキストコーパスに基づいてネガティブサンプルデータを構築する構築モジュールと、前記ポジティブサンプルデータと前記ネガティブサンプルデータに基づいて、人間による評価方式とマルチサンプルスプライスのサンプリング方式によって初期のテキスト分類モデルに対してイテレーション処理トレーニングを実行して、トレーニング終了後にモデル指標がターゲット標準に達するテキスト分類モデルを得て、前記モデル指標がターゲット標準に達するテキスト分類モデルのモデルパラメータに基づいて、エンドツーエンドセンシティブテキストリコールモデルを生成する処理モジュールであって、前記エンドツーエンドセンシティブテキストリコールモデルは学習によりワードリストリコール能力を得たものである処理モジュールと、を備える。
【0014】
いくつかの実施形態では、前記処理モジュールは、具体的に、前記ポジティブサンプルデータと前記ネガティブサンプルデータをトレーニングサンプルとしてトレーニングセットと検証セットに分割し、前記トレーニングセットと前記検証セットに基づいて、テキスト分類モデルをトレーニングして、最適なモデルを得て、テストセットを取得し、前記テストセットに基づいて前記最適なモデルを評価して、モデル評価結果を得て、前記モデル評価結果と前記テストセットに基づいて、人間による評価方式とマルチサンプルスプライスのサンプリング方式によって前記トレーニングサンプルを更新し、更新後のトレーニングサンプルをトレーニングセットと検証セットに再分割し、トレーニング終了後にモデル指標がターゲット標準に達するまで、前記トレーニングセットと前記検証セットに基づいて、テキスト分類モデルをトレーニングして、最適なモデルを得るステップを実行する。
【0015】
いくつかの実施形態では、前記テストセットにはリコールサンプルと第2のランダムテキストコーパスが含まれ、前記処理モジュールは、具体的に、前記テストセットのうちの前記リコールサンプルを前記最適なモデルに入力し、前記最適なモデルから出力された第1の予測結果を取得し、前記第1の予測結果と前記リコールサンプルに対応する実際のラベル情報に基づいて、前記最適なモデルの再現率を決定し、前記テストセットのうちの前記第2のランダムテキストコーパスを前記最適なモデルに入力し、前記最適なモデルから出力された第2の予測結果を取得し、前記第2の予測結果と前記第2のランダムテキストコーパスに対応する実際のラベル情報に基づいて、前記最適なモデルの適合率を決定する。
【0016】
いくつかの実施形態では、前記処理モジュールは、具体的に、前記再現率が第1の閾値より小さいことに応答し、前記第1の予測結果のうちのネガティブの例であると予測された例の第1の人間による評価結果を取得し、前記第1の人間による評価結果に基づいて、前記リコールサンプルのうちのネガティブの例であると誤予測された例のサンプルを更新対象のサンプルセットに追加し、及び/又は、前記適合率が第2の閾値より小さいことに応答し、前記第2の予測結果のうちのポジティブの例であると予測された例の第2の人間による評価結果を取得し、前記第2の人間による評価結果に基づいて、前記第2のランダムテキストコーパスのうちのポジティブの例であると誤予測された例のテキストコーパスを更新対象のサンプルセットに追加し、前記更新対象のサンプルセットのうちのN個のサンプルごとに1つのサンプルにスプライスし、スプライス処理後に得られたサンプルを前記トレーニングサンプルに更新し、前記Nが1より大きい整数である。
【0017】
いくつかの実施形態では、前記Nは3である。
【0018】
いくつかの実施形態では、前記テキスト分類モデルは、第1の長短期記憶ネットワークLSTM層、平均プール化層、第2のLSTM層、最大プール化層、スプライスConcat層、削減Dropout層及び分類層を含み、前記第1のLSTM層が、サンプルのテキスト特徴を抽出し、前記平均プール化層が前記テキスト特徴をプール化処理して、第1の経路特徴を得て、前記第2のLSTM層が前記第1のLSTM層のうちの最後の隠蔽層出力に対して特徴抽出を行い、抽出された特徴を前記最大プール化層に入力し、前記最大プール化層が前記第2のLSTM層の出力をプール化処理して、第2の経路特徴を得て、前記スプライスConcat層が前記第1の経路特徴と前記第2の経路特徴をスプライスして、スプライス特徴を得て、前記削減Dropout層が前記スプライス特徴に対してDropout操作を行い、前記分類層が前記削減Dropout層出力の特徴を分類処理して、分類の予測値を得る。
【0019】
本開示の第4の実施形態によれば、センシティブテキストリコール装置を提供し、前記装置は、処理対象テキストを取得する取得モジュールと、事前トレーニングされたエンドツーエンドセンシティブテキストリコールモデルに基づいて前記処理対象テキストを予測して、前記処理対象テキストをリコールするか否かを決定する予測モジュールであって、前記エンドツーエンドセンシティブテキストリコールモデルは学習によりワードリストリコール能力を得たものであり、前記エンドツーエンドセンシティブテキストリコールモデルが本開示の第1の態様のいずれかの実施形態に記載の方法を用いてトレーニングされる予測モジュールと、を備える。
【0020】
いくつかの実施形態では、前記予測モジュールは具体的に、前記第1の長短期記憶ネットワークLSTM層を介して前記処理対象テキストのテキスト特徴を抽出し、前記平均プール化層を介して前記テキスト特徴をプール化処理して、第1の経路特徴を得て、前記第2のLSTM層を介して前記第1のLSTM層のうちの最後の隠蔽層出力に対して特徴抽出を行い、抽出された特徴を前記最大プール化層に入力し、前記最大プール化層を介して前記第2のLSTM層の出力をプール化処理して、第2の経路特徴を得て、前記第1の経路特徴と前記第2の経路特徴をスプライスして、スプライス特徴を得て、前記削減Dropout層を介して前記スプライス特徴に対してDropout操作を行い、前記分類層を介して前記削減Dropout層出力の特徴を分類処理して、分類の予測値を得て、前記予測値に基づいて、前記処理対象テキストをリコールするか否かを決定する。
【0021】
本開示の第5の態様の実施形態によれば、電子機器を提供し、少なくとも1つのプロセッサと、該少なくとも1つのプロセッサと通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが第1態様、または第2の態様のいずれかの実施形態に記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
【0022】
本開示の第6の態様の実施形態によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに前記第1の態様、または第2の態様のいずれかの実施形態に記載の方法を実行させる。
【0023】
本開示の第の態様の実施形態によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがコンピュータに実行されている際、コンピュータに第1の態様、または第2の態様のいずれかの実施形態に記載の方法を実行させる。
【0024】
本開示の技術によれば、ワードリスト和大量の実際のデータに基づいてポジティブサンプルデータとネガティブサンプルデータを構築し、構築されたポジティブサンプルデータとネガティブサンプルデータに基づいてテキスト分類モデルに対してイテレーション処理トレーニングを行って、エンドツーエンドセンシティブテキストリコールモデルを生成して、エンドツーエンドセンシティブテキストリコールモデルがワードリストリコール能力を学習できるようにすることにより、エンドツーエンドセンシティブテキストリコールモデルの知識汎化能力を向上させて、このモデルのセンシティブテキストに対するリコール能力を向上させ、これによってエンドツーエンドセンシティブテキストリコールモデルを使用してワードリストリコールを実現し、ワードリスト汎化能力を向上させることができる。
【0025】
なお、この部分に記載の内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。
【図面の簡単な説明】
【0026】
図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
図1】本開示の第1の実施例に係る概略図である。
図2】本開示の実施例によって提供されるモデルトレーニングの概略フローチャートである。
図3】本開示の第2の実施例に係る概略図である。
図4】本開示の実施例によって提供されるテキスト分類モデルのアーキテクチャの概略図である。
図5】本開示の第3の実施例に係る概略図である。
図6】本開示の実施例によって提供されるエンドツーエンドセンシティブテキストリコールモデルのトレーニング装置の概略図である。
図7】本開示の実施例によって提供されるセンシティブテキストリコール装置の概略図である。
図8】本開示の実施例によって提供される電子機器のブロック図である。
【発明を実施するための形態】
【0027】
以下、図面と併せて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。本開示の説明では、別に説明がない限り、「/」は「または」という意味を表し、例えば、A/Bという記載はAまたはBを表すことができ、本明細書の「及び/又は」は、関連対象の関連関係を説明し、3つの関係が存在可能であることを表す。例えば、A及び/又はBという記載は、Aが単独で存在する、AとBが同時に存在する、Bが単独で存在するという3つの状況を表すことができる。
【0028】
ワードリストブロックテキストを使用してテキストにおけるセンシティブ情報(関連法令に違反する情報など)をブロックすることは、有害な情報を排除するための重要な手段であるが、関連技術で使用されているワードリストポリシーの汎化性が悪く、例えば「私たちはXXが大好きだ」を1つの用語として、「私たちはXXが大好きだ、私たちはYYが大好きだ」というテキストをリコールすることができるが、「私たちはとてもXXが大好きだ」という上記のテキストの意味と非常に類似したテキストはリコールすることができない。これにより、本開示の実施例は、エンドツーエンドセンシティブテキストリコールモデルのトレーニング方法を提案し、高い知識汎化能力を有するセンシティブテキストリコールモデルを構築することができ、そしてこのモデルに基づいてエンドツーエンドのテキスト予測とリコールを実現し、意味的に類似した表現テキストを効果的にリコールすることができる。
【0029】
図1を参照すると、図1は本開示の第1の実施例に係るエンドツーエンドセンシティブテキストリコールモデルのトレーニング方法の概略図である。図1に示すように、この方法は以下のステップS101~S104を含むことができるが、これに限定されない。
【0030】
ステップS101、センシティブテキストブロックシーンにおける予め設定されたワードリストと第1のランダムテキストコーパスを取得する。
【0031】
本開示の実施例では、予め設定されたワードリストには対応するセンシティブテキストの用語が含まれ、当該用語が、複数語の用語と単一語の用語を含むことができ、第1のランダムテキストコーパスは、予め設定されたワードリストによって取得されたテキスト、または人間による評価結果が正常なテキストを含むが、これに限定されない。
【0032】
例えば、センシティブテキストブロックシーンにおいてブロック必要なセンシティブテキストに対応する用語からなる予め設定されたワードリストを取得し、そして、実際の状況に応じて第1のランダムテキストコーパスを取得する。
【0033】
ステップS102、予め設定されたワードリストに基づいてポジティブサンプルデータを構築し、第1のランダムテキストコーパスに基づいてネガティブサンプルデータを構築する。
【0034】
例えば、予め設定されたワードリスト中の複数語の用語の区切り記号と単一語の用語を削除し、残りのテキストをモデルポジティブサンプルとして、第1のランダムテキストコーパスのうちの有害なコーパスの割合を評価し、第1のランダムコーパスのうちの有害なコーパスの割合が予め設定された閾値(例えば、1%)以下である場合、第1のランダムテキストコーパスのうちのテキストをネガティブサンプルとして直接ランダムに抽出し、第1のランダムコーパスのうちの有害なコーパスの割合が予め設定された閾値より大きい場合、第1のランダムテキストコーパスを審査して、第1のランダムテキストコーパスのうちの有害なコーパスを除去し、第1のランダムコーパスのうちの有害なコーパスの割合が予め設定された閾値以下になり、処理後の第1のランダムコーパスのうちのテキストをネガティブサンプルとしてランダムに抽出する。
【0035】
ステップS103、ポジティブサンプルデータとネガティブサンプルデータに基づいて、人間による評価方式とマルチサンプルスプライスのサンプリング方式によって初期のテキスト分類モデルに対してイテレーション処理トレーニングを実行して、トレーニング終了後にモデル指標がターゲット標準に達するテキスト分類モデルを得る。
【0036】
本開示の実施例では、テキスト分類モデルは、TextCNN(Text Convolutional Neural Networks、テキスト畳み込みニューラルネットワーク)、高速テキスト分類FastText、BERT(Bidirectional Encoder Representations from Transformers 、コンバータベースの双方向符号化表示)を含むが、これに限定されない。マルチサンプルスプライスのサンプリング方式とは、人間によって評価された複数のマークアップされたテキストのうち、予め選択された数(例えば、3つ)のテキストを1つのサンプルにスプライスすることを指す。例えば、人間によって評価された複数のマークアップされたテキストのうちの3つずつのテキストを1つのサンプルにスプライスする。
【0037】
例えば、ポジティブサンプルデータとネガティブサンプルデータに基づいて初期のテキスト分類モデルに対してイテレーション処理トレーニングを実行し、イテレーション処理トレーニング中に予め設定されたトレーニングステップの数(例えば、100ステップ)ごとに、現在のモデルの指標を計算して、現在のモデルの効果を評価し、マルチサンプルスプライスのサンプリング方式を用いてトレーニングサンプルを更新し、損失関数に基づいてモデルの損失値を計算し、損失値に基づいて勾配を逆転計算して、モデルパラメータを最適化し、更新後のトレーニングサンプルを使用してラメータ最適化後のモデルをトレーニングする。モデルの指標がターゲット標準に達するまで、上記のステップを繰り返し実行し、このモデルをテキスト分類モデルとする。
【0038】
本開示の実施例では、ターゲット指標とは、モデルがターゲット效果を達成しているか否かを判定するための予め設定された指標を指し、モデルの指標は、モデルの適合率とモデルの再現率を含むが、これに限定されない。
【0039】
本開示の実施例では、適合率の計算式は以下のように表すことができる:
【数1】


【0040】
accuracyは適合率であり、TPはモデルがポジティブサンプルをポジティブサンプルとして予測するサンプルの数であり、FNはモデルがポジティブサンプルをネガティブサンプルとして予測するサンプルの数であり、FPはモデルがネガティブサンプルをポジティブサンプルとして予測するサンプル数であり、TNはモデルがネガティブサンプルをネガティブサンプルとして予測するサンプルの数である。
【0041】
本開示の実施例では、再現率の計算式は以下のように表すことができる:
【数2】
【0042】
recallは再現率であり、TPはモデルがポジティブサンプルをポジティブサンプルとして予測するサンプルの数であり、FNはモデルがポジティブサンプルをネガティブサンプルとして予測するサンプルの数である。
【0043】
本開示の実施例では、損失値の計算式は以下のより表すことができる:
【数3】
【0044】
Lは損失値であり、iはi番目のサンプルであり、yiはサンプルiのラベルであり、ポジティブサンプルは1であり、ネガティブサンプルは0であり、piはサンプルiをポジティブサンプルとして予測する確率である。
【0045】
ステップS104、モデル指標がターゲット標準に達するテキスト分類モデルのモデルパラメータに基づいて、エンドツーエンドセンシティブテキストリコールモデルを生成する。
【0046】
本開示の実施例では、エンドツーエンドセンシティブテキストリコールモデルは既にワードリストリコール能力を学習した。
【0047】
例えば、モデル指標がターゲット標準に達するテキスト分類モデルのモデルパラメータに基づいて、予め設定されたニューラルネットワークモデル構造を使用して、エンドツーエンドセンシティブテキストリコールモデルを生成する。
【0048】
本開示の実施例では、予め設定されたニューラルネットワークモデル構造は前記のテキスト分類モデルと同じであってもよい。
【0049】
本開示の実施例を実施することにより、構築されたポジティブサンプルデータとネガティブサンプルデータに基づいてテキスト分類モデルに対してイテレーション処理トレーニングを行って、エンドツーエンドセンシティブテキストリコールモデルを生成することができ、これにより、エンドツーエンドセンシティブテキストリコールモデルの知識汎化能力を向上させて、このモデルのセンシティブテキストに対するリコール能力を向上させる。
【0050】
本開示の実施例は、ポジティブ.ネガティブサンプルを構築することにより、テキスト分類モデルがワードリストリコール能力を学習可能である。しかしながら、ニューラルネットワークの汎化能力が高く、ワードリストリコールニーズに合致しない多くのテキストをリコールする可能性があるため、本開示の実施例は、モデルが適切な汎化能力をより正確に学習できるように確保するために、オフライントレーニング環境でモデルトレーニングフローを設計した。一例として、図2を参照すると、図2は、本開示の実施例によって提供されるモデルトレーニングの概略フローチャートであり、図2に示すように、本開示の実施例は、ポジティブ.ネガティブサンプルを構築することにより分類モデルをトレーニングし、モデルのイテレーション過程において、モデルの適合率、再現率の指標に基づいて、人間による評価方式で、モデルが誤リコールするサンプルをポジティブ/ネガティブサンプルに加え、これによってモデル指標を向上させる。
【0051】
一例として、図3を参照すると、図3は本開示の第2の実施例に係るモデルトレーニング方法の概略図である。図3に示すように、前記ポジティブサンプルデータとネガティブサンプルデータに基づいて、人間による評価方式とマルチサンプルスプライスのサンプリング方式によって初期のテキスト分類モデルに対してイテレーション処理トレーニングを実行する実現過程は、以下のステップS301~S305を含むことができるが、これに限定されない。
【0052】
ステップS301、ポジティブサンプルデータとネガティブサンプルデータをトレーニングサンプルとしてトレーニングセットと検証セットに分割する。
【0053】
例えば、ポジティブサンプルデータとネガティブサンプルデータをそれぞれ予め設定された割合でランダムに分割して、トレーニングセットと検証セットを得る。
【0054】
いくつかの実施例では、トレーニングセットと検証セット中のサンプルデータの数の割合が9:1であることを例として、ポジティブサンプルとネガティブサンプルをそれぞれ上記の割合でランダムに分割し、90%のポジティブサンプルデータと90%のネガティブサンプルデータをトレーニングセットとして、残りの10%のポジティブサンプルデータと10%のネガティブサンプルデータを検証セットとする。
【0055】
ステップS302、トレーニングセットと検証セットに基づいて、テキスト分類モデルをトレーニングして、最適なモデルを得る。
【0056】
例えば、トレーニングセットに基づいてテキスト分類モデルをトレーニングし、検証セットを使用してモデルが予め設定されたトレーニングステップ(例えば、100ステップ)ごとに現在トレーニングステップモデルの適合率と再現率効果をテストし、異なるトレーニングステップモデルの適合率と再現率效果を比較して、現在のトレーニングセットと検証セットを使用してトレーニングして得られた最適なモデルを得る。
【0057】
ステップS303、テストセットを取得し、テストセットに基づいて最適なモデルを評価し、モデル評価結果を得る。
【0058】
例えば、リコールセットとランダムデータを含むテストセットを取得し、前のステップで得られた最適なモデルに基づいてテストセットをリコールし、モデル出力に基づいて、モデルの現在指標を計算し、この指標を最適なモデルの評価結果とする。
【0059】
いくつかの実施例では、上記のテストセットにはリコールサンプルと第2のランダムテキストコーパスが含まれることができ、前記テストセットに基づいて最適なモデルを評価し、モデル評価結果を得るステップは、テストセットのうちのリコールサンプルを最適なモデルに入力し、最適なモデルから出力された第1の予測結果を取得するステップと、第1の予測結果とリコールサンプルに対応する実際のラベル情報に基づいて、最適なモデルの再現率を決定するステップと、テストセットのうちの第2のランダムテキストコーパスを最適なモデルに入力し、最適なモデルから出力された第2の予測結果を取得するステップと、第2の予測結果と第2のランダムテキストコーパスに対応する実際のラベル情報に基づいて、最適なモデルの適合率を決定するステップと、を含むことができる。
【0060】
本開示の実施例では、リコールサンプルは、モデルのリコール能力をテストするために予め取得されたものであり、第2のランダムテキストコーパスの取得方式は第1のランダムテキストコーパスの取得方式と同じであってもよい。
【0061】
なお、第1のランダムテキストコーパスのうちのテキストと第2のランダムテキストコーパスのうちのテキストとが異なる。
【0062】
一例として、予め設定されたワードリストによって取得されたテキスト、または人工審査結果が正常であるテキストを、2つの部分にランダムに分割することができ、一部を第1のランダムテキストコーパスとして、他の部分を第2のランダムテキストコーパスとして、第1のランダムテキストコーパスのうちのテキストと第2のランダムテキストコーパスのうちのテキストとが異なることを保証する。
【0063】
例えば、テストセットのうちのリコールサンプルを入力データとして最適なモデルに入力して、リコールサンプル中の各サンプルのラベル情報を予測し、各サンプルの予測ラベル情報を第1の予測結果として取得し、第1の予測結果とリコールサンプルに対応する実際のラベル情報に基づいて、前記の再現率の計算式で、最適なモデルの再現率を計算し、テストセットのうちの第2のランダムテキストコーパスを入力データとして最適なモデルに入力して、第2のランダムテキストコーパスの各サンプルのラベル情報を予測し、各サンプルの予測ラベル情報を第2の予測結果として取得し、第2の予測結果と第2のランダムテキストコーパスに対応する実際のラベル情報に基づいて、前記の適合率の計算式で、最適なモデルの適合率を計算する。
【0064】
本開示の実施例では、適合率の計算式は以下のように表すことができる:
【数4】
【0065】
Precisionは適合率であり、TPはポジティブサンプルをポジティブサンプルとして予測するサンプルの数であり、FPはネガティブサンプルをポジティブサンプルとして予測するサンプルの数である。
【0066】
ステップS304、モデル評価結果とテストセットに基づいて、人間による評価方式とマルチサンプルスプライスのサンプリング方式によってトレーニングサンプルを更新する。
【0067】
例えば、モデル評価結果が予想された結果に達していない場合、人間による評価モデルによってポジティブの例であるデータを予測し、そのうちの実際の分類がネガティブの例であるデータをトレーニングサンプルに加えて、トレーニングサンプルを更新する。
【0068】
いくつかの実施例では、モデル評価結果とテストセットに基づいて、人間による評価方式とマルチサンプルスプライスのサンプリング方式によってトレーニングサンプルを更新するステップは、再現率が第1の閾値より小さいことに応答し、第1の予測結果のうちのネガティブの例であると予測された第1の人間による評価結果を取得し、第1の人間による評価結果に基づいて、リコールサンプルのうちのネガティブの例であると誤予測されたサンプルを更新対象のサンプルセットに加えるステップ、及び/又は、適合率が第2の閾値より小さいことに応答し、第2の予測結果のうちのポジティブの例であると予測された第2の人間による評価結果を取得し、第2の人間による評価結果に基づいて、第2のランダムテキストコーパスのうちのポジティブの例であると誤予測されたテキストコーパスを更新対象のサンプルセットに加えるステップ、更新対象のサンプルセット中のN個ごとのサンプルを1つのサンプルにスプライスし、スプライス処理を行って得られたサンプルをトレーニングサンプルに更新するステップであって、Nが1より大きい整数であるステップ、を含むことができる
【0069】
いくつかの実施例では、Nは3である。いくつかの実施例では、現在モデルの再現率が第1の閾値より小さいことに応答し、モデル予測がネガティブの例である第1の予測結果を取得し、第1の予測結果のうちのネガティブの例であると予測されたサンプルに対して人間で評価し、上記のサンプルのうちのネガティブの例であると誤予測されたポジティブサンプルを選択し、ネガティブの例であると誤予測されたポジティブサンプルを更新対象のサンプルセットに加え、当該更新対象のサンプルセット中の3つごとのサンプルを1つのサンプルにスプライスし、スプライス処理を行って得られたサンプルをトレーニングサンプルに更新し、現在のモデルの適合率が第2の閾値以上であることに応答し、第2の予測結果を処理しない。
【0070】
他のいくつかの実施例では、現在モデルの再現率が第1の閾値以上であることに応答し、第1の予測結果を処理しない。現在モデルの適合率が第2の閾値より小さいことに応答し、モデル予測がポジティブの例である第2の予測結果を取得し、第2の予測結果のうちのポジティブの例であると予測されたサンプルを手動で評価し、上記サンプル中のうちのポジティブの例であると誤予測されたネガティブサンプルを選択し、ポジティブの例であると誤予測されたネガティブサンプルを更新対象のサンプルセットに加え、当該更新対象のサンプルセット中の3つごとのサンプルを1つのサンプルにスプライスし、スプライス処理を行って得られたサンプルをトレーニングサンプルに更新する。
【0071】
他のいくつかの実施例では、現在モデルの再現率が第1の閾値より小さいことに応答し、モデル予測がネガティブの例である第1の予測結果を取得し、第1の予測結果のうちのネガティブの例であると予測されたサンプルに対して人間で評価し、上記のサンプルのうちのネガティブの例であると誤予測されたポジティブサンプルを選択し、ネガティブの例であると誤予測されたポジティブサンプルを更新対象のサンプルセットに加え、現在モデルの適合率が第2の閾値より小さいことに応答し、モデル予測がポジティブの例である第2の予測結果を取得し、第2の予測結果のうちのポジティブの例であると予測されたサンプルに対して人間で評価し、上記サンプル中のうちのポジティブの例であると誤予測されたネガティブサンプルを選択し、ポジティブの例であると誤予測されたネガティブサンプルを更新対象のサンプルセットに加え、上記更新対象のサンプルセット中の3つごとのサンプルを1つのサンプルにスプライスし、スプライス処理を行って得られたサンプルをトレーニングサンプルに更新する。
【0072】
他のいくつかの実施例では、現在モデルの再現率が第1の閾値以上であることに応答し、現在モデルの適合率が第2の閾値以上である場合、現在モデルの指標がターゲット標準に達したと判断される。ステップS305、更新後のトレーニングサンプルをトレーニングセットと検証セットに再分割し、トレーニング終了後にモデル指標がターゲット標準に達するまで、トレーニングセットと検証セットに基づいて、テキスト分類モデルをトレーニングして、最適なモデルを得るステップを実行する。
【0073】
例えば、更新後のトレーニングサンプルを予め設定された割合で再分割して、新たなトレーニングセットと検証セットを得て、新たなトレーニングセット及び検証セットを使用してステップS302の実行に戻り、実際の状況に基づいてその後のステップを実行して、トレーニング終了後のモデル指標がターゲット標準に達するまで、テキスト分類モデルを再トレーニングする。
【0074】
なお、本開示の実施例によれば、モデルバージョンイテレーションを利用してテキスト分類モデルをオフラインでトレーニングして、エンドツーエンドセンシティブテキストリコールモデルを得ることができる。当該エンドツーエンドセンシティブテキストリコールモデルをサーバに配置すると、リンクされたアプリケーション内のテキストを直接認識してセンシティブテキストをリコールし、これによってエンドツーエンドのセンシティブテキストリコールを実現することができる。
【0075】
本開示の実施例では、テキスト分類モデルは、第1の長短期記憶ネットワークLSTM層、平均プール化層、第2のLSTM層、最大プール化層、スプライスConcat層、削減Dropout層及び分類層を含むことができる。一例として、図4を参照すると、図4は、本開示の実施例によって提供されるテキスト分類モデルのアーキテクチャの概略図である。図4に示すように、第1のLSTM層はサンプルのテキスト特徴を抽出し、平均プール化層(mean-pooling)はテキスト特徴をプール化処理して、第1の経路特徴を得て、第2のLSTM層は、第1のLSTM層中の最後の隠蔽層(すなわち図4に示すhn)の出力を特徴抽出し、抽出された特徴を前記最大プール化層(max-pooling)に入力し、最大プール化層は、第2のLSTM層の出力をプール化処理して、第2の経路特徴を得て、Concat層は、第1の経路特徴と第2の経路特徴をスプライスして、スプライス特徴を得て、Dropout層は、上記のスプライス特徴に対してDropout操作を行い、分類層は、Dropout層から出力された特徴を分類処理して、分類された予測値を得る。
【0076】
なお、Dropout層により、オーバーフィット現象の発生を効果的に予防することができ、Dropout関数は特殊なアクティブ化関数であり、テキスト分類モデルのトレーニング段階では、Dropout層がアクティブ化された重みの数とこのDropout層の総重みの数との比が保持確率keep_prob(一般的に0.5をとる)と確保すべきであり、予測段階ではkeep_prob=1をとる。
【0077】
図5を参照すると、図5は、本開示の第3の実施例に係るセンシティブテキストリコール方法の概略図である。図5に示すように、この方法は以下のステップS501~S502を含むことができるが、これに限定されない。
【0078】
ステップS501、処理対象テキストを取得する。
【0079】
例えば、関連するアプリケーション内のテキスト情報を処理対象テキストとして取得することができる。
【0080】
ステップS502、事前トレーニングされたエンドツーエンドセンシティブテキストリコールモデルに基づいて処理対象テキストを予測して、処理対象テキストをリコールするか否かを決定する。
【0081】
本開示の実施例では、エンドツーエンドセンシティブテキストリコールモデルは既に学習によりワードリストリコール能力を得たものであり、エンドツーエンドセンシティブテキストリコールモデルは本開示の実施例のいずれかによって提供される方法でトレーニングされる。
【0082】
例えば、処理対象テキストを事前トレーニングされたエンドツーエンドセンシティブテキストリコールモデルに入力して、このテキストを予測し、テキストにセンシティブテキストが含まれるか否かを判断し、これによって処理対象テキストをリコールするか否かを決定する。
【0083】
本開示の実施例を実施することにより、事前トレーニングされたエンドツーエンドセンシティブテキストリコールモデルに基づいて処理対象テキストを予測して、処理対象テキストをリコールするか否かを決定することができ、これによってセンシティブテキストに対するリコールを向上させる。
【0084】
図6を参照すると、図6は、本開示の実施例によって提供されるエンドツーエンドセンシティブテキストリコールモデルのトレーニング装置の概略図である。図6に示すように、この装置は、取得モジュール601、構築モジュール602及び処理モジュール603を備える。
【0085】
取得モジュール601は、センシティブテキストブロックシーンにおける予め設定されたワードリストと第1のランダムテキストコーパスを取得し、予め設定されたワードリスト中の用語に対応するテキストがセンシティブテキストであり、構築モジュール602は、予め設定されたワードリストに基づいてポジティブサンプルデータを構築し、第1のランダムテキストコーパスに基づいてネガティブサンプルデータを構築し、処理モジュール603は、ポジティブサンプルデータとネガティブサンプルデータに基づいて、人間による評価方式とマルチサンプルスプライスのサンプリング方式によって初期のテキスト分類モデルに対してイテレーション処理トレーニングを実行して、トレーニング終了後にモデル指標がターゲット標準に達するテキスト分類モデルを得て、及びモデル指標がターゲット標準に達するテキスト分類モデルのモデルパラメータに基づいて、エンドツーエンドセンシティブテキストリコールモデルを生成し、エンドツーエンドセンシティブテキストリコールモデルは既に学習によりワードリストリコール能力を得たものである。
【0086】
いくつかの実施例では、処理モジュール603は、具体的に、ポジティブサンプルデータとネガティブサンプルデータをトレーニングサンプルとしてトレーニングセットと検証セットに分割し、トレーニングセットと検証セットに基づいて、テキスト分類モデルをトレーニングして、最適なモデルを得て、テストセットを取得し、テストセットに基づいて最適なモデルを評価し、モデル評価結果を得て、モデル評価結果とテストセットに基づいて、人間による評価方式とマルチサンプルスプライスのサンプリング方式によってトレーニングサンプルを更新し、更新後のトレーニングサンプルをトレーニングセットと検証セットに再分割し、トレーニングセットと検証セットに基づいて、トレーニング終了後にモデル指標がターゲット標準に達するまで、テキスト分類モデルをトレーニングして、最適なモデルを得るステップを実行する。
【0087】
いくつかの実施例では、テストセットにはリコールサンプルと第2のランダムテキストコーパスが含まれ、処理モジュール603は、具体的に、テストセットのうちのリコールサンプルを最適なモデルに入力し、最適なモデルから出力された第1の予測結果を取得し、第1の予測結果とリコールサンプルに対応する実際のラベル情報に基づいて、最適なモデルの再現率を決定し、テストセットのうちの第2のランダムテキストコーパスを最適なモデルに入力し、最適なモデルから出力された第2の予測結果を取得し、第2の予測結果と第2のランダムテキストコーパスに対応する実際のラベル情報に基づいて、最適なモデルの適合率を決定する。
【0088】
いくつかの実施例では、処理モジュール603は、具体的に、再現率が第1の閾値より小さいことに応答し、第1の予測結果のうちのネガティブの例であると予測された第1の人間による評価結果を取得し、第1の人間による評価結果に基づいて、リコールサンプルのうちのネガティブの例であると誤予測されたサンプルを更新対象のサンプルセットに加え、及び/又は、適合率が第2の閾値より小さいことに応答し、第2の予測結果のうちのポジティブの例であると予測された第2の人間による評価結果を取得し、第2の人間による評価結果に基づいて、第2のランダムテキストコーパスのうちのポジティブの例であると誤予測されたテキストコーパスを更新対象のサンプルセットに加え、更新対象のサンプルセット中のN個ごとのサンプルを1つのサンプルにスプライスし、スプライス処理を行って得られたサンプルをトレーニングサンプルに更新し、Nが1より大きい整数である。
【0089】
いくつかの実施例では、Nは3である。
【0090】
いくつかの実施例では、テキスト分類モデルは、第1の長短期記憶ネットワークLSTM層、平均プール化層、第2のLSTM層、最大プール化層、スプライスConcat層、削減Dropout層及び分類層を含み、第1のLSTM層はサンプルのテキスト特徴を抽出し、平均プール化層は、テキスト特徴をプール化処理して、第1の経路特徴を得て、第2のLSTM層は第1のLSTM層中の最後の隠蔽層の出力を特徴抽出し、抽出された特徴を最大プール化層に入力し、最大プール化層は、第2のLSTM層の出力をプール化処理して、第2の経路特徴を得て、スプライスConcat層は、第1の経路特徴と第2の経路特徴をスプライスして、スプライス特徴を得て、削減Dropout層はスプライス特徴に対してDropout操作を行い、分類層は、削減Dropout層から出力された特徴を分類処理して、分類された予測値を得る。
【0091】
本開示の実施例の装置によれば、構築されたポジティブサンプルデータとネガティブサンプルデータに基づいてテキスト分類モデルに対してイテレーション処理トレーニングを行って、テキストリコールモデルを得ることができ、これによってテキストリコールモデルの知識汎化能力を向上させて、このモデルのセンシティブテキストに対するリコール能力を向上させる。
【0092】
図7を参照すると、図7は、本開示の実施例によって提供されるセンシティブテキストリコール装置の概略図である。図7に示すように、この装置は、取得モジュール701と予測モジュール702を備える。取得モジュール701は、処理対象テキストを取得し、予測モジュール702は、事前トレーニングされたエンドツーエンドセンシティブテキストリコールモデルに基づいて処理対象テキストを予測して、処理対象テキストをリコールするか否かを決定し、エンドツーエンドセンシティブテキストリコールモデルは既に学習によりワードリストリコール能力を得たものであり、エンドツーエンドセンシティブテキストリコールモデルは本開示の実施例のいずれかに記載の方法でトレーニングされる。
【0093】
いくつかの実施例では、予測モジュール702は、具体的に、第1の長短期記憶ネットワークLSTM層を介して処理対象テキストのテキスト特徴を抽出し、平均プール化層を介して、テキスト特徴をプール化処理して、第1の経路特徴を得て、第2のLSTM層を介して第1のLSTM層中の最後の隠蔽層の出力を特徴抽出し、抽出された特徴を最大プール化層に入力し、最大プール化層を介して、第2のLSTM層の出力をプール化処理して、第2の経路特徴を得て、第1の経路特徴と第2の経路特徴をスプライスして、スプライス特徴を得て、削減Dropout層を介してスプライス特徴に対してDropout操作を行い、分類層を介して、削減Dropout層から出力された特徴を分類処理して、分類された予測値を得て、予測値に基づいて、処理対象テキストをリコールするか否かを決定する。
【0094】
本開示の実施例の装置によれば、事前トレーニングされたエンドツーエンドセンシティブテキストリコールモデルに基づいて処理対象テキストを予測して、処理対象テキストをリコールするか否かを決定することができ、これによってセンシティブテキストに対するリコールを向上させる。
【0095】
上記実施例の装置について、各モジュールの操作を実行する具体的な方式は、当該方法に関する実施例において既に詳細に説明したが、ここでは詳細に説明しない。
【0096】
本開示の実施例によれば、本開示は、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラムをさらに提供する。
【0097】
図8に示すように、本公開の実施例に係る電子機器のロック図である。この電子機器は本開示の実施例のいずれかのエンドツーエンドセンシティブテキストリコールモデルのトレーニング方法、またはセンシティブテキストリコール方法を実現するために使用されることができる。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示される部品、それらの接続と関係、およびそれらの機能は、単なる例であり、本明細書の説明および/または求められる本開示の実現を制限することを意図したものではない。
【0098】
図8に示すように、当該電子機器は、1つ又は複数のプロセッサ801と、メモリ802と、高速インターフェースと低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を備える。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられてもよいし、又は必要に応じて他の方式で取り付けられてもよい。プロセッサは、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施形態では、必要であれば、複数のプロセッサ及び/又は複数のバスを、複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、部分的な必要な操作(例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする)を提供する。図8では、1つのプロセッサ801を例とする。
【0099】
メモリ802は、本開示により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリには、少なくとも1つのプロセッサによって実行される命令を記憶しており、前記少なくとも1つのプロセッサが本開示によって提供されるエンドツーエンドセンシティブテキストリコールモデルのトレーニング方法、またはセンシティブテキストリコール方法を実行するようにする。本開示の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータが本出願により提供されるエンドツーエンドセンシティブテキストリコールモデルのトレーニング方法、またはセンシティブテキストリコール方法を実行するためのコンピュータ命令を記憶する。
【0100】
メモリ802は、非一時的なコンピュータ読み取り可能な記憶媒体として、本開示の実施例におけるエンドツーエンドセンシティブテキストリコールモデルのトレーニング方法に対応するコンピュータ命令/モジュール(例えば、図6に示す取得モジュール601、構築モジュール602及び処理モジュール603)、またはセンシティブテキストリコール方法に対応するコンピュータ命令/モジュール(例えば、図7に示す取得モジュール701と予測モジュール702)のような非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュールを記憶する。プロセッサ801は、メモリ802に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記の方法の実施例におけるエンドツーエンドセンシティブテキストリコールモデルのトレーニング方法、またはセンシティブテキストリコール方法を実現する。
【0101】
メモリ802は、記憶プログラム領域及び記憶データ領域を含むことができる。記憶プログラム領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを記憶することができる。記憶データ領域は、エンドツーエンドセンシティブテキストリコールモデルのトレーニング方法、またはセンシティブテキストリコール方法の電子機器の使用による作成されたデータなどを記憶することができる。また、メモリ802は、高速ランダムアクセスメモリを備えることができ、少なくとも1つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリをさらに備えることができる。いくつかの実施例では、メモリ802は、プロセッサ801に対して遠隔に設定されたメモリを選択的に備えることができ、これらの遠隔メモリは、ネットワークを介してエンドツーエンドセンシティブテキストリコールモデルのトレーニング方法、またはセンシティブテキストリコール方法の電子機器に接続されることができる。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク及びそれらの組み合わせを含むが、これらに限定されない。
【0102】
エンドツーエンドセンシティブテキストリコールモデルのトレーニング方法、またはセンシティブテキストリコール方法の電子機器は、入力装置803と出力装置804とをさらに備えることができる。プロセッサ801、メモリ802、入力装置803、及び出力装置804は、バスまたは他の方式で接続することができ、図8では、バスを介して接続することを例に挙げる。
【0103】
入力装置803は、入力された数字又は文字情報を受信することができ、及びエンドツーエンドセンシティブテキストリコールモデルのトレーニング方法、またはセンシティブテキストリコール方法の電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、指示棒、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置804は、ディスプレイデバイス、補助照明デバイス(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを備えることができるが、これらに限定されない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。
【0104】
本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを備えるプログラム可能なシステムで実行および/または解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、データおよび命令を当該ストレージシステム、当該少なくとも1つの入力装置、および当該少なくとも1つの出力装置に伝送することができる。
【0105】
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令、高度のプロセス及び/又は対象指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することを含む。本明細書で使用されるように、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
【0106】
ユーザとのインタラクションを提供するために、コンピュータにここで説明されるシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、ビジョンフィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力、または、触覚入力とを含む)でユーザからの入力を受信することができる。
【0107】
ここで説明されるシステムおよび技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここで説明されるシステムおよび技術の実施形態とインタラクションできる)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントのいずれかの組み合わせを備えるコンピューティングシステムで実行することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークを含む。
【0108】
コンピュータシステムは、クライアントとサーバを備えることができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータに実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおける1つのホスト製品であり、従来の物理ホストとVPSサービス(「Virtual Private Server」,または「VPS」と省略する)に存在する管理の難しさ、ビジネス拡張性の弱いという欠陥を解決した。サーバは分散システムのサーバであってもよく、ブロックチェーンを組み込んだサーバであってもよい。
【0109】
本開示の実施例の技術案によれば、構築されたポジティブサンプルデータとネガティブサンプルデータに基づいてテキスト分類モデルに対してイテレーション処理トレーニングを行って、テキストリコールモデルを得ることができ、これによってテキストリコールモデルの知識汎化能力を向上させて、このモデルのセンシティブテキストに対するリコール能力を向上させる。
【0110】
なお、上記エンドツーエンドセンシティブテキストリコールモデルのトレーニング方法の説明は、本開示の実施例の装置、電子機器、コンピュータ読み取り可能な記憶媒体およびコンピュータプログラムにも適用され、ここでは説明を省略する。
【0111】
なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載の各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。上記具体的な実施形態は、本開示の保護範囲を制限するものではない。
【0112】
当業者は、設計要求と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができると理解されたい。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。
図1
図2
図3
図4
図5
図6
図7
図8