(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-16
(45)【発行日】2022-11-25
(54)【発明の名称】ディープラーニングに基づく中国語単語分割方法、装置、記憶媒体及びコンピュータ機器
(51)【国際特許分類】
G06F 40/284 20200101AFI20221117BHJP
G06N 3/04 20060101ALI20221117BHJP
G06N 3/08 20060101ALI20221117BHJP
G06F 40/216 20200101ALI20221117BHJP
G06F 40/268 20200101ALI20221117BHJP
【FI】
G06F40/284
G06N3/04 154
G06N3/08
G06F40/216
G06F40/268
(21)【出願番号】P 2021563188
(86)(22)【出願日】2019-11-14
(86)【国際出願番号】 CN2019118259
(87)【国際公開番号】W WO2020215694
(87)【国際公開日】2020-10-29
【審査請求日】2021-10-22
(31)【優先権主張番号】201910322127.8
(32)【優先日】2019-04-22
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】517406065
【氏名又は名称】平安科技(深▲せん▼)有限公司
【氏名又は名称原語表記】PING AN TECHNOLOGY (SHENZHEN) CO.,LTD.
【住所又は居所原語表記】23F,Ping’an Financial Center,No.5033 Yitian Road,Fu’an Community of Futian Street,Futian District Shenzhen,Guangdong 518000 China
(74)【代理人】
【識別番号】110002848
【氏名又は名称】特許業務法人SBPJ国際特許事務所
(72)【発明者】
【氏名】陳 ▲ミン▼川
(72)【発明者】
【氏名】馬 駿
(72)【発明者】
【氏名】王 少軍
【審査官】長 由紀子
(56)【参考文献】
【文献】特開2008-140117(JP,A)
【文献】中国特許第103020034(CN,B)
【文献】中国特許出願公開第108268444(CN,A)
【文献】WANG, Chunqi、XU, Bo,Convolutional Neural Network with Word Embeddings for Chinese Word Segmentation [Online],2017年11月13日,pp.1-10,https://arxiv.org/pdf/1711.0441v1
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-58
G06N 3/04
G06N 3/08
(57)【特許請求の範囲】
【請求項1】
ディープラーニングに基づく中国語単語分割方法であって、
訓練コーパスデータを文字レベルのデータに変換するステップと、
前記文字レベルのデータをシーケンスデータに変換するステップと、
予め設定された符号に基づいて前記シーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて前記複数のサブシーケンスデータをグループ化し、K個のデータセットを得るステップであって、前記K個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じであり、Kは、1より大きい自然数であるステップと、
i番目のデータセットから複数のサブシーケンスデータを抽出し、抽出した前記複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、iを順に1~Kの自然数とし、合計でK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップと、
ターゲットコーパスデータを文字レベルのデータに変換し、第1データを取得し、前記第1データをシーケンスデータに変換し、第2データを取得し、前記第2データを前記K個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記ターゲットコーパスデータの単語分割結果を得るステップと、
を含むことを特徴とするディープラーニングに基づく中国語単語分割方法。
【請求項2】
前記文字レベルのデータをシーケンスデータに変換する前記ステップは、
ワンホットエンコーディング又は単語のベクトルエンコーディングのいずれかである予め設定されたエンコーディング方式により前記文字レベルのデータを前記シーケンスデータに変換する、ことを特徴とする請求項1に記載のディープラーニングに基づく中国語単語分割方法。
【請求項3】
抽出された前記複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得る前記ステップは、
前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおけるタイミング畳み込みニューラルネットワークであるi番目のタイミング畳み込みニューラルネットワークに、抽出された前記複数のサブシーケンスデータを入力してフォワード伝播を行い、第1出力データを得るステップS1と、
前記第1出力データ及び入力された前記複数のサブシーケンスデータに基づいて損失関数の値を計算するステップS2と、
前記損失関数の値がデフォルト値より大きいと、前記複数のサブシーケンスデータを前記i番目のタイミング畳み込みニューラルネットワークに入力してバックワード伝播を行い、且つ前記i番目のタイミング畳み込みニューラルネットワークのネットワークパラメータを最適化するステップS3と、
前記損失関数の値が前記デフォルト値以下になるまで、ステップS1~S3を繰り返すステップS4と、
前記損失関数の値が前記デフォルト値以下になると、訓練完了を決定し、訓練後のi番目のタイミング畳み込みニューラルネットワークを得るステップS5と、
前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおける条件付きランダムフィールドであるi番目の条件付きランダムフィールドに、前記訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータを入力し、且つ前記i番目の条件付きランダムフィールドを訓練し、前記訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップS6と、を含む、ことを特徴とする請求項1に記載のディープラーニングに基づく中国語単語分割方法。
【請求項4】
前記i番目の条件付きランダムフィールドを訓練する前記ステップは、
前記訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータに基づいて、前記i番目の条件付きランダムフィールドの出力データの条件確率を計算するステップと、
最尤推定方法を用いて訓練して、前記i番目の条件付きランダムフィールドの出力データの条件確率の最大値を得るステップと、を含む、ことを特徴とする請求項3に記載のディープラーニングに基づく中国語単語分割方法。
【請求項5】
前記第2データを前記K個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記ターゲットコーパスデータの単語分割結果を得る前記ステップは、
予め設定された符号に基づいて前記第2データを分割し、複数のシーケンスデータを得るステップと、
シーケンスデータの長さに基づいて前記複数のシーケンスデータをグループ化し、L個のデータセットを得るステップであって、前記L個のデータセットのうちの各々のデータセットに含まれるすべてのシーケンスデータの長さが同じであり、Lは、自然数であり、1≦L≦Kステップと、
訓練過程に使用されたサブシーケンスデータの長さに基づいて前記K個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルから、L個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルをスクリーニングし、L1番目~LL番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、j番目のデータセットに含まれるすべてのシーケンスデータをLj番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、複数の単語分割結果を得るステップと、
前記複数の単語分割結果をスティッチングし、前記ターゲットコーパスデータの単語分割結果を得るステップと、を含み、
ここで、前記Lj番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルの訓練過程に使用されたサブシーケンスデータの長さは、前記j番目のデータセットに含まれるシーケンスデータの長さと同じであり、jは順に1~Lの自然数であり、Ljは1~Kの自然数であることを特徴とする請求項1~4のいずれかに記載のディープラーニングに基づく中国語単語分割方法。
【請求項6】
ディープラーニングに基づく中国語単語分割装置であって、
訓練コーパスデータを文字レベルのデータに変換するための第1変換ユニットと、
前記文字レベルのデータをシーケンスデータに変換するための第2変換ユニットと、
予め設定された符号に基づいて前記シーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて前記複数のサブシーケンスデータをグループ化し、K個のデータセットを得る第1分割ユニットであって、前記K個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じであり、Kは、1より大きい自然数である第1分割ユニットと、
i番目のデータセットから複数のサブシーケンスデータを抽出し、且つ抽出された前記複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、iを順に1~Kの自然数とし、合計でK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るための第1決定ユニットと、
前記ターゲットコーパスデータを文字レベルのデータに変換し、第1データを取得し、前記第1データをシーケンスデータに変換し、第2データを取得し、前記第2データを前記K個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記ターゲットコーパスデータの単語分割結果を得るための第2決定ユニットと、を含む、ことを特徴とするディープラーニングに基づく中国語単語分割装置。
【請求項7】
前記第1決定ユニットは、
前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおけるタイミング畳み込みニューラルネットワークであるi番目のタイミング畳み込みニューラルネットワークに、抽出された前記複数のサブシーケンスデータを入力してフォワード伝播を行い、第1出力データを得るステップS1と、
前記第1出力データ及び入力された前記複数のサブシーケンスデータに基づいて損失関数の値を計算するステップS2と、
前記損失関数の値がデフォルト値より大きいと、前記複数のサブシーケンスデータを前記i番目のタイミング畳み込みニューラルネットワークに入力してバックワード伝播を行い、且つ前記i番目のタイミング畳み込みニューラルネットワークのネットワークパラメータを最適化するステップS3と、
前記損失関数の値が前記デフォルト値以下になるまで、ステップS1~S3を繰り返すステップS4と、
前記損失関数の値が前記デフォルト値以下になると、訓練完了を決定し、訓練後のi番目のタイミング畳み込みニューラルネットワークを得るステップS5と、
前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおける条件付きランダムフィールドであるi番目の条件付きランダムフィールドに、前記訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータを入力し、且つ前記i番目の条件付きランダムフィールドを訓練し、前記訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップS6と、を実行するために用いられる、ことを特徴とする請求項6に記載のディープラーニングに基づく中国語単語分割装置。
【請求項8】
記憶媒体であって、前記記憶媒体は、記憶されるプログラムを含み、前記プログラムの運転中に、前記記憶媒体が位置する機器を制御して、
訓練コーパスデータを文字レベルのデータに変換するステップと、
前記文字レベルのデータをシーケンスデータに変換するステップと、
予め設定された符号に基づいて前記シーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて前記複数のサブシーケンスデータをグループ化し、K個のデータセットを得るステップであって、前記K個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じであり、Kは、1より大きい自然数であるステップと、
i番目のデータセットから複数のサブシーケンスデータを抽出し、抽出した前記複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、iを順に1~Kの自然数とし、合計でK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップと、
前記ターゲットコーパスデータを文字レベルのデータに変換し、第1データを取得し、前記第1データをシーケンスデータに変換し、第2データを取得し、前記第2データを前記K個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記ターゲットコーパスデータの単語分割結果を得るステップと、を行わせる、ことを特徴とする記憶媒体。
【請求項9】
前記プログラムの運転中に、前記記憶媒体が位置する機器を制御して、前記抽出された前記複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記i番目のタイムイング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得る前記ステップを行わせるステップは、
前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおけるタイミング畳み込みニューラルネットワークであるi番目のタイミング畳み込みニューラルネットワークに、抽出された前記複数のサブシーケンスデータを入力してフォワード伝播を行い、第1出力データを得るステップS1と、
前記第1出力データ及び入力された前記複数のサブシーケンスデータに基づいて損失関数の値を計算するステップS2と、
前記損失関数の値がデフォルト値より大きいと、前記複数のサブシーケンスデータを前記i番目のタイミング畳み込みニューラルネットワークに入力してバックワード伝播を行い、且つ前記i番目のタイミング畳み込みニューラルネットワークのネットワークパラメータを最適化するステップS3と、
前記損失関数の値が前記デフォルト値以下になるまで、ステップS1~S3を繰り返すステップS4と、
前記損失関数の値が前記デフォルト値以下になると、訓練完了を決定し、訓練後のi番目のタイミング畳み込みニューラルネットワークを得るステップS5と、
前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおける条件付きランダムフィールドであるi番目の条件付きランダムフィールドに、前記訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータを入力し、且つ前記i番目の条件付きランダムフィールドを訓練し、前記訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップS6と、を含む、ことを特徴とする請求項8に記載の記憶媒体。
【請求項10】
プログラム命令を含む情報を記憶するためのメモリと、プログラム命令の実行を制御するためのプロセッサと、を含むコンピュータ機器であって、前記プログラム命令がプロセッサによりロードされて実行されると、
訓練コーパスデータを文字レベルのデータに変換するステップと、
前記文字レベルのデータをシーケンスデータに変換するステップと、
予め設定された符号に基づいて前記シーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて前記複数のサブシーケンスデータをグループ化し、K個のデータセットを得るステップであって、前記K個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じであり、Kは、1より大きい自然数であるステップと、
i番目のデータセットから複数のサブシーケンスデータを抽出し、抽出した前記複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、iを順に1~Kの自然数とし、合計でK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップと、
ターゲットコーパスデータを文字レベルのデータに変換し、第1データを取得し、前記第1データをシーケンスデータに変換し、第2データを取得し、前記第2データを前記K個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記ターゲットコーパスデータの単語分割結果を得るステップと、を実施する、ことを特徴とするコンピュータ機器。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2019年04月22日に中国特許庁に提出された、出願番号が201910322127.8であり、出願名称が「ディープラーニングに基づく中国語単語分割方法及び装置」である中国特許出願の優先権を主張し、その内容の全てが本出願の一部として援用される。
【0002】
本出願は、人工知能の技術分野に関し、特にディープラーニングに基づく中国語単語分割方法、装置、記憶媒体及びコンピュータ機器に関する。
【背景技術】
【0003】
従来のディープラーニングの中国語単語分割アルゴリズムは、主に、長・短期記憶(LSTM)に代表されるサイクルニューラルネットワークモデル及びその派生モデルに基づいているが、LSTMモデルのシーケンスデータ問題における処理能力は、シーケンスの長さの増加とともに減少し、中国語単語の分割精度が低いという問題がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
以上に鑑み、従来技術で中国語の単語分割の精度が低い問題を解決するために、本出願の実施例は、ディープラーニングに基づく中国語単語分割方法、装置、記憶媒体及びコンピュータ機器を提供する。
【課題を解決するための手段】
【0005】
一局面では、本出願の実施例は、ディープラーニングに基づく中国語単語分割方法を提供し、前記方法は、訓練コーパスデータを文字レベルのデータに変換するステップと、前記文字レベルのデータをシーケンスデータに変換するステップと、予め設定された符号に基づいて前記シーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて前記複数のサブシーケンスデータをグループ化し、K個のデータセットを得るステップであって、前記K個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じであり、Kは、1より大きい自然数であるステップと、i番目のデータセットから複数のサブシーケンスデータを抽出し、且つ抽出された前記複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、iを順に1~Kの自然数とし、合計でK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップと、ターゲットコーパスデータを文字レベルのデータに変換し、第1データを取得し、前記第1データをシーケンスデータに変換し、第2データを取得し、前記第2データを前記K個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記ターゲットコーパスデータの単語分割結果を得るステップと、を含む。
【0006】
一局面では、本出願の実施例は、ディープラーニングに基づく中国語単語分割装置を提供し、前記装置は、訓練コーパスデータを文字レベルのデータに変換するための第1変換ユニットと、前記文字レベルのデータをシーケンスデータに変換するための第2変換ユニットと、予め設定された符号に基づいて前記シーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて前記複数のサブシーケンスデータをグループ化し、K個のデータセットを得るための第1分割ユニットであって、前記K個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じであり、Kは、1より大きい自然数である第1分割ユニットと、i番目のデータセットから複数のサブシーケンスデータを抽出し、且つ抽出された前記複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、iを順に1~Kの自然数とし、合計でK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るための第1決定ユニットと、ターゲットコーパスデータを文字レベルのデータに変換し、第1データを取得し、前記第1データをシーケンスデータに変換し、第2データを取得し、前記第2データを前記K個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記ターゲットコーパスデータの単語分割結果を得るための第2決定ユニットと、を含む。
【0007】
一局面では、本出願の実施例は、記憶されるプログラムを含む記憶媒体を提供し、前記プログラムの運転中に、前記記憶媒体が位置する機器を制御して、上記のディープラーニングに基づく中国語単語分割方法を行わせる。
【0008】
一局面では、本出願の実施例は、プログラム命令を含む情報を記憶するためのメモリと、プログラム命令の実行を制御するためのプロセッサと、を含むコンピュータ機器を提供し、前記プログラム命令がプロセッサによりロードされて実行されるときに、上記のディープラーニングに基づく中国語単語分割方法のステップを実施する。
【発明の効果】
【0009】
本出願の実施例では、ターゲットコーパスデータを文字レベルのデータに変換し、文字レベルのデータをシーケンスデータに変換し、シーケンスデータを訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、ターゲットコーパスデータの単語分割結果を取得し、タイミング畳み込みニューラルネットワークがネットワーク層の数を増加させることで、指数的に増加する速度で受信エリアを広げることができ、それにより、シーケンスの長さが長いシーケンスデータ又は他の特性が複雑なデータを処理でき、エンコード結果の精度を上げることにより、中国語の単語分割の精度を向上させた。
【図面の簡単な説明】
【0010】
本出願の実施例の技術的解決手段をより明確に説明するために、以下では実施形態において必要とされる図面を簡単に説明するが、以下に説明される図面は本出願の一部の実施形態にすぎず、当業者にとっては、創造的な労働をせずに、これらの図面に基づいて他の図面も得ることができる。
【
図1】本出願の実施例による選択可能なディープラーニングに基づく中国語単語分割方法のフローチャートである。
【
図2】本出願の実施例による選択可能なディープラーニングに基づく中国語単語分割装置の模式図である。
【
図3】本出願の実施例に係る選択可能なコンピュータ機器の模式図である。
【発明を実施するための形態】
【0011】
本出願の技術的解決手段をよりよく理解するために、以下、図面を参照しながら本出願の実施形態を詳細に説明する。
【0012】
説明される実施例は、全ての実施例ではなく、本願の一部の実施例に過ぎないことが明らかである。本出願の実施例に基づいて、当業者は、創造的な労働をせずに取得する他のすべての実施形態も、本出願の保護範囲内に属される。
【0013】
本出願の実施例において使用される用語は、特定の実施例を説明するためのものに過ぎず、本出願を限定するためのものではない。本出願の実施例及び添付の特許請求の範囲において使用される単数形の「1つ」、「前記」及び「該」は、文脈が明確に他の意味を表していない限り、多数の形式を含むことが意図されている。
【0014】
本明細書で用いられる用語の「及び/又は」は、関連オブジェクトを説明する関連関係に過ぎず、3つの関係が存在してもよいことを表し、例えば、「A及び/又はB」は、「Aが独立して存在する」、「A及びBが同時に存在する」、「Bが独立して存在する」の3つの状況を表してもよいと理解すべきである。また、本明細書における符号「/」は、一般的に前後の関連オブジェクトが「又は」の関係であることを表す。
【0015】
図1は、本出願の実施例による選択可能なディープラーニングに基づく中国語単語分割方法のフローチャートであり、
図1に示すように、当該方法は、ステップS102、ステップS104、ステップS106、ステップS108、及びステップS110を含む。
【0016】
ステップS102において、訓練コーパスデータを文字レベルのデータに変換する。
【0017】
ステップS104において、文字レベルのデータをシーケンスデータに変換する。
【0018】
ステップS106において、予め設定された符号に基づいてシーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて複数のサブシーケンスデータをグループ化し、K個のデータセットを取得し、K個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じである。Kは、1より大きい自然数である。予め設定された符号とは、文分割用の句読符号であり、例えば、ピリオド、疑問符、感嘆符、句読点、読点、セミコロン、コロンなどである。
【0019】
ステップS108において、i番目のデータセットから複数のサブシーケンスデータを抽出し、且つ抽出された複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、iを順に1~Kの自然数とし、合計でK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得る。
【0020】
ステップS110において、ターゲットコーパスデータを文字レベルのデータに変換し、第1データを取得し、第1データをシーケンスデータに変換し、第2データを取得し、第2データをK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、ターゲットコーパスデータの単語分割結果を得る。
【0021】
コーパスデータは、電子コンピュータをキャリヤーとして言語知識を運ぶ基礎リソースであり、言語の実際の使用に実際に出現した言語資料である。
【0022】
タイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデル(TCN-CRF)は、タイミング畳み込みニューラルネットワーク(TCN)と条件付きランダムフィールド(CRF)との結合モデルである。タイミング畳み込みニューラルネットワークは、ディープラーニングの時間畳み込みネットワークであり、条件付きランダムフィールドは、典型的な判別式モデルである。条件付きランダムフィールドは、単語分割を文字の単語における位置の分類問題と見なし、通常、以下のように、文字の単語における位置の情報を定義する。単語頭は、一般的にBで表され、単語中は、一般的にMで表され、単語尾は、一般的にEで表され、シングルワードは、一般的にSで表され、条件付きランダムフィールドの単語分割の過程は、単語における位置をマーキングした後、BとEとの間の文字、及びSシングルワードで単語分割の結果を構成することである。例えば、単語分割すべき文は、「我愛北京天安門」であり、マーキング後、我/S愛/S北/B京/E天/B安/M門/Eになり、単語分割結果が「我/愛/北京/天安門」である。
【0023】
本出願の実施例では、ターゲットコーパスデータを文字レベルのデータに変換し、文字レベルのデータをシーケンスデータに変換し、シーケンスデータを訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、ターゲットコーパスデータの単語分割結果を取得する。タイミング畳み込みニューラルネットワークは、ネットワーク層の数を増加させることで、指数的に増加する速度で受信エリアを広げることができ、それにより、シーケンスの長さが長いシーケンスデータ又は特性が他の複雑なデータを処理でき、エンコード結果の精度を上げることにより、中国語の単語分割の精度を向上させる。
【0024】
また、タイミング畳み込みニューラルネットワークにおける同じ特徴マッピング面のニューロンの重みが同じであり、並行学習でき、処理速度が速く、従って、タイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルは、分散型システムにおいて実現することができる。
【0025】
任意選択的には、文字レベルのデータをシーケンスデータに変換するステップは、ワンホットエンコーディング又は単語のベクトルエンコーディングのいずれかである予め設定されたエンコーディング方式により文字レベルのデータをシーケンスデータに変換するステップを含む。
【0026】
ワンホットエンコーディングとは、One-Hotエンコーディングであり、ワンビット有効エンコーディングとも呼ばれる。その方法は、Nビットのステータスレジスタを用いてN個のステータをエンコーディングすることである。各ステータは、いずれも、独立したレジスタビットを有し、且つ任意の時点に、1ビットだけが有効である。例えば、1組のデータの特徴が色であり、黄色、赤色、緑色を含むと、ワンホットエンコーディングを用いた後、黄色が[100」になり、赤色が[010」になり、緑色が[001」になり、このように、ワンホットエンコーディング済みのシーケンスデータは、ベクトルに対応し、ニューラルネットワークモデルに用いることができる。
【0027】
単語のベクトルエンコーディングは、word2vecであってもよく、word2vecは、単語を実数値ベクトルとして表現する高効率アルゴリズムモデルであり、訓練により、テキストコンテンツに対する処理をK次元のベクトル空間におけるベクトル計算に簡略化することができる。word2vecにより出力された単語ベクトルは、多くのNLP(神経言語プログラミング)に関連する作業、例えばクラスタリング、類義語検索、品性分析などに用いられることができる。例えば、word2vecは、文字レベルのデータを特徴とし、特徴をK次元のベクトル空間にマッピングし、特徴で表現されるシーケンスデータを得る。
【0028】
任意選択的には、抽出された複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップは、i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおけるタイミング畳み込みニューラルネットワークであるi番目のタイミング畳み込みニューラルネットワークに抽出された複数のサブシーケンスデータを入力してフォワード伝播を行い、第1出力データを得るステップS1と、第1出力データと入力された複数のサブシーケンスデータに基づいて損失関数の値を計算するステップS2と、損失関数の値がデフォルト値より大きいと、複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワークに入力してバックワード伝播を行い、i番目のタイミング畳み込みニューラルネットワークのネットワークパラメータを最適化させるステップS3と、損失関数の値がデフォルト値以下になるまで、ステップS1~S3を繰り返すステップS4と、損失関数の値がデフォルト値以下になると、訓練完了を決定し、訓練後のi番目のタイミング畳み込みニューラルネットワークを得るステップS5と、i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおける条件付きランダムフィールドであるi番目の条件付きランダムフィールドに、訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータを入力し、且つi番目の条件付きランダムフィールドを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップS6と、を含む。
【0029】
損失関数の値に基づいてi番目のタイミング畳み込みニューラルネットワークを訓練するステップは、具体的には、i番目のタイミング畳み込みニューラルネットワークのネットワークパラメータを初期化し、ランダム勾配降下法を用いてi番目のタイミング畳み込みニューラルネットワークを反復訓練し、1回反復するたびに1回損失関数の値を計算し、損失関数の値が最小になるまで複数回反復し、訓練完了後のi番目のタイミング畳み込みニューラルネットワーク及び対応する収束されたネットワークパラメータを得るステップを含む。
【0030】
具体的に、損失関数を計算する式は、以下の式(次に挿入された数1)であり得る。
【0031】
【0032】
Lossは、損失関数の値を表し、Nは、i番目のタイミング畳み込みニューラルネットワークに入力されたサブシーケンスデータの数を表し、y(i)は、i番目のタイミング畳み込みニューラルネットワークに入力されたi番目のサブシーケンスデータを表し、次に挿入された数2は、i番目のサブシーケンスデータがi番目のタイミング畳み込みニューラルネットワークに入力された後に出力されたデータを表す。
【0033】
【0034】
任意選択的には、i番目の条件付きランダムフィールドを訓練するステップは、訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータに基づいて、i番目の条件付きランダムフィールドの出力データの条件確率を計算するステップと、最尤推定方法を用いて訓練してi番目の条件付きランダムフィールドの出力データの条件確率の最大値を得るステップと、を含む。
【0035】
条件付きランダムフィールドは、ランダム変数Xが与えられた条件において、ランダム変数Yのマルコフランダムフィールドであり、マルコフランダムフィールドのあるランダム変数は、その隣接するランダム変数だけに関係し、それらの隣接していないランダム変数とは無関係である。
【0036】
条件確率モデルP(Y|X)では、Yは、出力変数であり、マーキングシーケンスを表し、状態シーケンスとも呼ばれ、Xは、入力変数であり、マーキングすべき観測シーケンスを表す。訓練際に訓練データを用い、最尤推定により条件確率モデルを取得し、次に該モデルで予測し、与えられた入力配列Xの場合、条件確率が最大のときの出力シーケンスは、Yである。一般的には、リニアチェーンの条件付きランダムフィールドを用い、入力されたシーケンスは、X=(X1,X2,…,Xn)であり、出力されたシーケンスY=(Y1,Y2,…,Yn)は、リニアチェーンで表れるランダム変数シーケンスであり、ランダム変数シーケンスXが与えられた条件において、ランダム変数シーケンスYの条件確率分布P(Y|X)は、条件付きランダムフィールドを構成する。
【0037】
最尤推定とは、複数回の試験を行い、その結果を観察し、試験結果を用い、サンプルの出現確率を最大にできるあるパラメータ値を得るというものである。最尤推定は、観測データを与えてモデルパラメータを推定する方法であり、すなわち、「モデルが既知、パラメータが未知である」。既知のサンプルデータは、X=(X1,X2,…,Xn)であり、nは、サンプルデータの数であり、パラメータtを推定し、Xに対するtの尤度関数は、次の数3で示される。
【0038】
【数3】
ただし、iは、値が1~nの自然数であり、t’は、パラメータ空間における尤度関数f(t)を最大にできるt値であると、t’は、「最可能な」パラメータであり、t’は、tの最尤推定量である。
【0039】
任意選択的には、第2データをK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、ターゲットコーパスデータの単語分割結果を得るステップは、予め設定された符号に基づいて第2データを分割し、複数のシーケンスデータを得るステップと、シーケンスデータの長さに基づいて複数のシーケンスデータをグループ化し、L個のデータセットを得るステップであって、L個のデータセットのうちの各々のデータセットに含まれるすべてのシーケンスデータの長さが同じであり、Lは、自然数であり、1≦L≦Kステップと、訓練過程に使用されたサブシーケンスデータの長さに基づいてK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルから、L個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルをスクリーニングし、L1番目~LL番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し取得し、j番目のデータセットに含まれるすべてのシーケンスデータをLj番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、複数の単語分割結果を得るステップと、複数の単語分割結果をスティッチングし、ターゲットコーパスデータの単語分割結果を得るステップと、を含む。ここで、Lj番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルの訓練過程に使用されたサブシーケンスデータの長さは、j番目のデータセットに含まれるシーケンスデータの長さと同じであり、jは順に1~Lの自然数であり、Ljは1~Kの自然数である。
【0040】
例えば、Kの値を5とすると、5つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルが訓練際に使用するサブシーケンスの長さがそれぞれ10、20、30、40、50であり、第2データを分割した後、長さがそれぞれ20及び50の2つのシーケンスデータを取得する。取得し、次に、訓練過程に使用されたサブシーケンスデータの長さ20及び50に基づいて、5つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルから、2つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルをスクリーニングし、スクリーニングされた1番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルの訓練過程に使用されたサブシーケンスデータの長さが20であり、スクリーニングされた2番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルの訓練過程に使用されたサブシーケンスデータの長さが50であり、シーケンスデータの長さが20のデータを1番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、複数の単語分割結果を得る。シーケンスデータの長さが50のデータを2番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、複数の単語分割結果を得る。1番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルから出力された複数の単語分割結果と、2番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルから出力された複数の単語分割結果とをスティッチングし、ターゲットコーパスデータの単語分割結果を得る。
【0041】
図2は、本出願の実施例による選択可能なディープラーニングに基づく中国語単語分割装置の模式図である。該装置は、上記ディープラーニングに基づく中国語単語分割方法を実行するためのものであり、
図2に示すように、該装置は、第1変換ユニット10、第2変換ユニット20、第1分割ユニット30、第1決定ユニット40、及び第2決定ユニット50を含む。
【0042】
第1変換ユニット10は、訓練コーパスデータを文字レベルのデータに変換するために用いられる。
【0043】
第2変換ユニット20は、文字レベルのデータをシーケンスデータに変換するために用いられる。
【0044】
第1分割ユニット30は、予め設定された符号に基づいてシーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて複数のサブシーケンスデータをグループ化し、K個のデータセットを取得し、K個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じである。Kは、1より大きい自然数である。予め設定された符号とは、文分割用の句読符号であり、例えば、ピリオド、疑問符、感嘆符、句読点、読点、セミコロン、コロンなどである。
【0045】
第1決定ユニット40は、i番目のデータセットから複数のサブシーケンスデータを抽出し、且つ抽出された複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、iを順に1~Kの自然数とし、合計でK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るために用いられる。
【0046】
第2決定ユニット50は、ターゲットコーパスデータを文字レベルのデータに変換し、第1データを取得し取得し、第1データをシーケンスデータに変換し、第2データを取得し、第2データをK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、ターゲットコーパスデータの単語分割結果を得るために用いられる。
【0047】
コーパスデータは、電子コンピュータをキャリヤーとして言語知識を運ぶ基礎リソースであり、言語の実際の使用に実際に出現した言語資料である。
【0048】
タイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデル(TCN-CRF)は、タイミング畳み込みニューラルネットワーク(TCN)と条件付きランダムフィールド(CRF)との結合モデルである。タイミング畳み込みニューラルネットワークは、ディープラーニングの時間畳み込みネットワークであり、条件付きランダムフィールドは、典型的な判別式モデルであり、条件付きランダムフィールドは、単語分割を文字の単語における位置の分類問題と見なし、通常、以下のように、文字の単語における位置の情報を定義する。単語頭は、一般的にBで表され、単語中は、一般的にMで表され、単語尾は、一般的にEで表され、シングルワードは、一般的にSで表され、条件付きランダムフィールドの単語分割の過程は、単語における位置をマーキングした後、BとEとの間の文字、及びSシングルワードで単語分割の結果を構成することである。例えば、単語分割すべき文は、「我愛北京天安門」であり、マーキング後、我/S愛/S北/B京/E天/B安/M門/Eになり、単語分割結果が「我/愛/北京/天安門」である。
【0049】
本出願の実施例では、ターゲットコーパスデータを文字レベルのデータに変換し、文字レベルのデータをシーケンスデータに変換し、シーケンスデータを訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、ターゲットコーパスデータの単語分割結果を取得する。タイミング畳み込みニューラルネットワークは、ネットワーク層の数を増加させることで、指数的に増加する速度で受信エリアを広げることができ、それにより、シーケンスの長さが長いシーケンスデータ又は特性が他の複雑なデータを処理でき、エンコード結果の精度を向上させ、それにより、中国語の単語分割の精度を向上させる。
【0050】
また、タイミング畳み込みニューラルネットワークにおける同じ特徴マッピング面のニューロンの重みが同じであり、並行学習でき、処理速度が速く、従って、タイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルは、分散型システムにおいて実現することができる。
【0051】
任意選択的には、第2変換ユニット20は、サブ変換ユニットを含む。サブ変換ユニットは、ワンホットエンコーディング又は単語のベクトルエンコーディングのいずれかである予め設定されたエンコーディング方式により文字レベルのデータをシーケンスデータに変換するために用いられる。
【0052】
任意選択的には、第1決定ユニット40は、i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおけるタイミング畳み込みニューラルネットワークであるi番目のタイミング畳み込みニューラルネットワークに、抽出された複数のサブシーケンスデータを入力してフォワードワード伝播を行い、第1出力データを得るステップS1と、第1出力データと入力された複数のサブシーケンスデータに基づいて損失関数の値を計算するステップS2と、損失関数の値がデフォルト値より大きいと、複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワークに入力してバックワード伝播を行い、i番目のタイミング畳み込みニューラルネットワークのネットワークパラメータを最適化させるステップS3と、損失関数の値がデフォルト値以下になるまで、ステップS1~S3を繰り返すステップS4と、損失関数の値がデフォルト値以下になると、訓練完了を決定し、訓練後のi番目のタイミング畳み込みニューラルネットワークを得るステップS5と、i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおける条件付きランダムフィールドであるi番目の条件付きランダムフィールドに、訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータを入力し、i番目の条件付きランダムフィールドを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップS1と、を実行するためのものである。
【0053】
任意選択的には、第1決定ユニットは、第1サブ計算ユニットと、第1サブ決定ユニットと、を含む。第1サブ計算ユニットは、訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータに基づいて、i番目の条件付きランダムフィールドの出力データの条件確率を計算するために用いられる。第1サブ決定ユニットは、最尤推定方法を用いて訓練してi番目の条件付きランダムフィールドの出力データの条件確率の最大値を得るために用いられる。
【0054】
任意選択的には、第2決定ユニット50は、サブ分割ユニットと、サブグループ化ユニットと、第2サブ決定ユニットと、サブスティッチングユニットと、を含む。サブ分割ユニットは、予め設定された符号に基づいて第2データを分割し、複数のシーケンスデータを得るために用いられる。サブグループ化ユニットは、シーケンスデータの長さに基づいて複数のシーケンスデータをグループ化し、L個のデータセットを得るために用いられ、L個のデータセットのうちの各々のデータセットに含まれるすべてのシーケンスデータの長さが同じであり、Lは、自然数であり、1≦L≦K。第2サブ決定ユニットは、訓練過程に使用されたサブシーケンスデータの長さに基づいてK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルから、L個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルをスクリーニングし、L1番目~LL番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、j番目のデータセットに含まれるすべてのシーケンスデータをLj番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、複数の単語分割結果を得るために用いられる。ここで、Lj番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルの訓練過程に使用されたサブシーケンスデータの長さはj番目のデータセットに含まれるシーケンスデータの長さと同じであり、jは順に1~Lの自然数であり、Ljは1~Kの自然数である。サブスティッチングユニットは、複数の単語分割結果をスティッチングし、ターゲットコーパスデータの単語分割結果を得るために用いられる。
【0055】
一局面では、本出願の実施例は、記憶されるプログラムを含む記憶媒体を提供し、プログラムの運転中に、記憶媒体が位置する機器を制御して、訓練コーパスデータを文字レベルのデータに変換するステップと、文字レベルのデータをシーケンスデータに変換するステップと、予め設定された符号に基づいてシーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて複数のサブシーケンスデータをグループ化し、K個のデータセットを得るステップであって、K個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じであり、Kは、1より大きい自然数であるステップと、i番目のデータセットから複数のサブシーケンスデータを抽出し、抽出した複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し取得し、iを順に1~Kの自然数とし、合計でK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップと、ターゲットコーパスデータを文字レベルのデータに変換し、第1データを取得し、第1データをシーケンスデータに変換し、第2データを取得し、第2データをK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、ターゲットコーパスデータの単語分割結果を得るステップと、を行わせる。
【0056】
任意選択的には、プログラムの運転中に、記憶媒体が位置する機器を制御して、ワンホットエンコーディング又は単語のベクトルエンコーディングのいずれかである予め設定されたエンコーディング方式により文字レベルのデータをシーケンスデータに変換するステップを、さらに行わせる。
【0057】
任意選択的には、プログラムの運転中に、記憶媒体が位置する機器を制御して、i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおけるタイミング畳み込みニューラルネットワークであるi番目のタイミング畳み込みニューラルネットワークに、抽出された複数のサブシーケンスデータを入力してフォワードワード伝播を行い、第1出力データを得るステップS1と、第1出力データと入力された複数のサブシーケンスデータに基づいて損失関数の値を計算するステップS2と、損失関数の値がデフォルト値より大きいと、複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワークに入力してバックワード伝播を行い、且つi番目のタイミング畳み込みニューラルネットワークのネットワークパラメータを最適化するステップS3と、損失関数の値がデフォルト値以下になるまで、ステップS1~S3を繰り返すステップS4と、損失関数の値がデフォルト値以下になると、訓練完了を決定し、訓練後のi番目のタイミング畳み込みニューラルネットワークを得るステップS5と、i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおける条件付きランダムフィールドであるi番目の条件付きランダムフィールドに、訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータを入力し、且つi番目の条件付きランダムフィールドを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップS6と、をさらに行わせる。
【0058】
任意選択的には、プログラムの運転中に、記憶媒体が位置する機器を制御して、訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータに基づいて、i番目の条件付きランダムフィールドの出力データの条件確率を計算するステップと、最尤推定方法を用いて訓練してi番目の条件付きランダムフィールドの出力データの条件確率の最大値を得るステップと、をさらに行わせる。
【0059】
任意選択的には、プログラムの運転中に、記憶媒体が位置する機器を制御して、予め設定された符号に基づいて第2データを分割し、複数のシーケンスデータを得るステップと、シーケンスデータの長さに基づいて複数のシーケンスデータをグループ化し、L個のデータセットを得るステップであって、L個のデータセットのうちの各々のデータセットに含まれるすべてのシーケンスデータの長さが同じであり、Lは、自然数であり、1≦L≦Kステップと、訓練過程に使用されたサブシーケンスデータの長さに基づいてK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルから、L個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルをスクリーニングし、L1番目~LL番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、j番目のデータセットに含まれるすべてのシーケンスデータをLj番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、複数の単語分割結果を得るステップと、複数の単語分割結果をスティッチングし、ターゲットコーパスデータの単語分割結果を得るステップと、をさらに行わせる。ここで、Lj番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルの訓練過程に使用されたサブシーケンスデータの長さは、j番目のデータセットに含まれるシーケンスデータの長さと同じであり、jは順に1~Lの自然数であり、Ljは1~Kの自然数である。
【0060】
一局面では、本出願の実施例は、プログラム命令を含む情報を記憶するためのメモリと、プログラム命令の実行を制御するためのプロセッサと、を含むコンピュータ機器を提供し、プログラム命令がプロセッサによりロードされて実行されると、訓練コーパスデータを文字レベルのデータに変換するステップと、文字レベルのデータをシーケンスデータに変換するステップと、予め設定された符号に基づいてシーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて複数のサブシーケンスデータをグループ化し、K個のデータセットを得るステップであって、K個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じであり、Kは、1より大きい自然数であるステップと、i番目のデータセットから複数のサブシーケンスデータを抽出し、抽出した複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップであって、iを順に1~Kの自然数とし、合計でK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップと、ターゲットコーパスデータを文字レベルのデータに変換し、第1データを取得し、第1データをシーケンスデータに変換し、第2データを取得し、第2データをK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、ターゲットコーパスデータの単語分割結果を得るステップと、を実施する。
【0061】
任意選択的には、プログラム命令がプロセッサによりロードされて実行されるときに、ワンホットエンコーディング又は単語のベクトルエンコーディングのいずれかである予め設定されたエンコーディング方式により文字レベルのデータをシーケンスデータに変換するステップを、さらに実施する。
【0062】
任意選択的には、プログラム命令がプロセッサによりロードされて実行されると、i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおけるタイミング畳み込みニューラルネットワークであるi番目のタイミング畳み込みニューラルネットワークに、抽出された複数のサブシーケンスデータを入力してフォワードワード伝播を行い、第1出力データを得るステップS1と、第1出力データと入力された複数のサブシーケンスデータに基づいて損失関数の値を計算するステップS2と、損失関数の値がデフォルト値より大きいと、複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワークに入力してバックワード伝播を行い、且つi番目のタイミング畳み込みニューラルネットワークのネットワークパラメータを最適化するステップS3と、損失関数の値がデフォルト値以下になるまで、ステップS1~S3を繰り返すステップS4と、損失関数の値がデフォルト値以下になると、訓練完了を決定し、訓練後のi番目のタイミング畳み込みニューラルネットワークを得るステップS5と、i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおける条件付きランダムフィールドであるi番目の条件付きランダムフィールドに、訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータを入力し、且つi番目の条件付きランダムフィールドを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップS6と、をさらに実施する。
【0063】
任意選択的には、プログラム命令がプロセッサによりロードされて実行されるときに、訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータに基づいて、i番目の条件付きランダムフィールドの出力データの条件確率を計算するステップと、最尤推定方法を用いて訓練してi番目の条件付きランダムフィールドの出力データの条件確率の最大値を得るステップと、をさらに実施する。
【0064】
任意選択的には、プログラム命令がプロセッサによりロードされて実行されるときに、予め設定された符号に基づいて第2データを分割し、複数のシーケンスデータを得るステップと、シーケンスデータの長さに基づいて複数のシーケンスデータをグループ化し、L個のデータセットを得るステップであって、L個のデータセットのうちの各々のデータセットに含まれるすべてのシーケンスデータの長さが同じであり、Lは、自然数であり、1≦L≦Kステップと、訓練過程に使用されたサブシーケンスデータの長さに基づいてK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルから、L個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルをスクリーニングし、L1番目~LL番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、j番目のデータセットに含まれるすべてのシーケンスデータをLj番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、複数の単語分割結果を得るステップと、複数の単語分割結果をスティッチングし、ターゲットコーパスデータの単語分割結果を得るステップを、さらに実施する。ここで、Lj番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルの訓練過程に使用されたサブシーケンスデータの長さは、j番目のデータセットに含まれるシーケンスデータの長さと同じであり、jは順に1~Lの自然数であり、Ljは1~Kの自然数である。
【0065】
図3は、本出願の実施例に係るコンピュータ機器の模式図である。
図3に示すように、該実施例のコンピュータ機器50は、プロセッサ51、メモリ52と、メモリ52に記憶され、プロセッサ51において実行可能なコンピュータプログラム53と、を含み、該コンピュータプログラム53は、プロセッサ51により実行されるときに、実施例におけるディープラーニングに基づく中国語単語分割方法を実施する。重複を避けるために、ここでは、その詳細を述べない。又は、該コンピュータプログラムがプロセッサ51により実行されるときに、実施例のディープラーニングに基づく中国語単語分割装置における各モデル/ユニットの機能を実施する。重複を避けるために、ここでは、その詳細を述べない。
【0066】
コンピュータ機器50はデスクトップコンピュータ、ノート、パームトップパソコン及びクラウドサーバなどのコンピューティングデバイスであってもよい。コンピュータ機器は、プロセッサ51、メモリ52を含むがこれらに限定されるものではない。当業者であれば理解できるように、
図3はコンピュータ機器50の例に過ぎず、コンピュータ機器50を限定するものではなく、図示より多く又は少ないユニットをさらに備えてもよいし、ある部材の組み合わせであってもよいし、異なる部材であってもよい。例えば、コンピュータ機器は、入出力デバイス、ネットワークアクセスデバイス、バスなどを含んでもよい。
【0067】
いわゆるプロセッサ51は、中央処理ユニット(Central Processing Unit、CPU)であってもよいし、その他の汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor、DSP)、専用集積回路(Application Specific Integrated Circuit、ASIC)、フィールドプログラマブルゲートアレイ(Field-Programmable Gate Array、FPGA)又はその他のプログラマブル論理デバイス、ディスクリートゲート又はトランジスタ論理デバイス、ディスクリートハードウェアユニットなどであってもよい。汎用プロセッサは、マイクロプロセッサであってもよいし、いかなる通常のプロセッサなどであってもよい。
【0068】
メモリ52は、例えば、コンピュータ機器50のハードディスク又はメモリなどのコンピュータ機器50の内部記憶ユニットであってもよい。メモリ52は、コンピュータ機器50の外部記憶デバイス、例えば、コンピュータ機器50に配置されたプラグインハードディスク、スマートメモリカード(Smart Media Card、SMC)、セキュアデジタル(Secure Digital、SD)カード、フラッシュカード(Flash Card)などであってもよい。さらに、メモリ52は、コンピュータ機器50の内部記憶ユニットを含んでもよいし、外部記憶デバイスを含んでもよい。メモリ52は、コンピュータプログラム及びコンピュータ機器に必要な他のプログラム及びデータを記憶するために用いられる。メモリ52は、さらに、出力済み又は出力対象のデータを一時的に記憶するために用いられてもよい。
【0069】
当業者であれば明らかに理解できるように、説明の便利及び簡潔のために、上記に説明されたシステム、装置及びユニットの具体的な動作過程は、前述の方法実施例における対応するプロセスを参照することができ、ここでは説明を省略する。
【0070】
本出願に係る複数の実施例では、提供されるシステム、装置及び方法は他の形態で実施されてもよいことを理解されたい。例えば、上述の装置の実施例は単なる例示である。例えば、前記ユニットの分割は論理的な機能分割のみであり、実際の実施中には他の分割形態もあり得る。例えば、複数のユニットまたはコンポーネントを組み合わせたり、他のシステムに集積したり、あるいは一部の特徴は無視、省略される、または実行されなくてもよい。さらに、図示または説明した結合又は直接結合又は通信接続は、いくつかのインタフェース、装置またはユニットを介した間接カプリングまたは通信接続でもよく、電気接続、機械接続または他の形態での接続でもよい。
【0071】
以上は本出願の好ましい実施例に過ぎず、本出願を限定するものではなく、本出願の精神及び原則内で、行われたいかなる修正、同等置換や改善などは、いずれも本出願の保護範囲内に含まれるべきである。