IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 平安科技(深▲せん▼)有限公司の特許一覧

特表2022-534377テキスト分類方法、装置及びコンピュータ読み取り可能な記憶媒体
<>
  • 特表-テキスト分類方法、装置及びコンピュータ読み取り可能な記憶媒体 図1
  • 特表-テキスト分類方法、装置及びコンピュータ読み取り可能な記憶媒体 図2
  • 特表-テキスト分類方法、装置及びコンピュータ読み取り可能な記憶媒体 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-07-29
(54)【発明の名称】テキスト分類方法、装置及びコンピュータ読み取り可能な記憶媒体
(51)【国際特許分類】
   G06F 16/35 20190101AFI20220722BHJP
【FI】
G06F16/35
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021569247
(86)(22)【出願日】2019-11-13
(85)【翻訳文提出日】2021-11-19
(86)【国際出願番号】 CN2019118010
(87)【国際公開番号】W WO2021068339
(87)【国際公開日】2021-04-15
(31)【優先権主張番号】201910967010.5
(32)【優先日】2019-10-11
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】517406065
【氏名又は名称】平安科技(深▲せん▼)有限公司
【氏名又は名称原語表記】PING AN TECHNOLOGY (SHENZHEN) CO.,LTD.
【住所又は居所原語表記】23F,Ping’an Financial Center,No.5033 Yitian Road,Fu’an Community of Futian Street,Futian District Shenzhen,Guangdong 518000 China
(74)【代理人】
【識別番号】110002262
【氏名又は名称】TRY国際特許業務法人
(72)【発明者】
【氏名】張 翔
(72)【発明者】
【氏名】于 修銘
(72)【発明者】
【氏名】劉 京華
(72)【発明者】
【氏名】汪 偉
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
(57)【要約】
【課題】本願は人工知能技術に関し、テキスト分類方法を開示する。
【解決手段】テキスト分類方法は、オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得るステップと、前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得るステップと、前記ラベル付きのテキストベクトルをBERTモデルに入力して単語ベクトル特徴を取得するステップと、前記単語ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得るステップと、ランダムフォレストモデルを用いて前記ラベル付きのテキストベクトルと仮想ラベルラベル付きのテキストベクトルに対してマルチラベル分類を行い、テキスト分類結果を得るステップと、を含む。本願はテキスト分類装置及びコンピュータ読み取り可能な記憶媒体をさらに提供する。本願は正確かつ効率的なテキスト分類機能を実現することができる。
【特許請求の範囲】
【請求項1】
オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得るステップと、
前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得るステップと、
前記ラベル付きのテキストベクトルをBERTモデルに入力して文字ベクトル特徴を取得するステップと、
前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得るステップと、
ランダムフォレストモデルを用いて前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルに対してマルチラベル分類を行い、テキスト分類結果を得るステップと、を含むことを特徴とするテキスト分類方法。
【請求項2】
オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得る前記ステップは、
前記オリジナルのテキストデータに対して単語分割操作を行って第2のテキストデータを得るステップと、
前記第2のテキストデータに対してストップワード除去操作を行って第3のテキストデータを得るステップと、
前記第3のテキストデータに対して重複除去操作を行って第4のテキストデータを得るステップと、
前記第4のテキストデータに対して単語ベクトル形式への変換を行って前記テキストベクトルを得るステップと、を含むことを特徴とする請求項1に記載のテキスト分類方法。
【請求項3】
前記BERTモデルは入力層、単語ベクトル層、分類層、符号化層を含み、また、
前記ラベル付きのテキストベクトルをBERTモデルに入力して文字ベクトル特徴を取得する前記ステップは、
ラベル付きのテキストベクトルの品詞を取得し、前記品詞を品詞ベクトルに変換するステップと、
前記ラベル付きのテキストベクトルに対応する前記品詞ベクトルをBERTモデルに入力してデータ処理を行い、前記ラベル付きのテキストベクトルの単語行列を得るステップと、
前記ラベル付きのテキストベクトルの単語行列に基づいて前記ラベル付きのテキストベクトルの文字ベクトル特徴を得るステップと、を含むことを特徴とする請求項1に記載のテキスト分類方法。
【請求項4】
前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得る前記ステップは、
前記ラベルなしのテキストベクトルを前記畳み込みニューラルネットワークモデルの畳み込み層に入力して前記畳み込みニューラルネットワークモデルを訓練し、訓練後の畳み込みニューラルネットワークモデルを得るステップと、
前記文字ベクトル特徴を前記訓練後の畳み込みニューラルネットワークモデルに入力し、特徴ベクトルを得るステップと、
前記特徴ベクトルに対して正規化処理を行って前記仮想ラベルを得るステップと、
前記仮想ラベルを前記ラベルなしのテキストベクトルにマッチングさせ、仮想ラベル付きのテキストベクトルを得るステップと、を含むことを特徴とする請求項1に記載のテキスト分類方法。
【請求項5】
前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得る前記ステップは、
前記ラベルなしのテキストベクトルを前記畳み込みニューラルネットワークモデルの畳み込み層に入力して前記畳み込みニューラルネットワークモデルを訓練し、訓練後の畳み込みニューラルネットワークモデルを得るステップと、
前記文字ベクトル特徴を前記訓練後の畳み込みニューラルネットワークモデルに入力し、特徴ベクトルを得るステップと、
前記特徴ベクトルに対して正規化処理を行って前記仮想ラベルを得るステップと、
前記仮想ラベルを前記ラベルなしのテキストベクトルにマッチングさせ、仮想ラベル付きのテキストベクトルを得るステップと、を含むことを特徴とする請求項2に記載のテキスト分類方法。
【請求項6】
前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得る前記ステップは、
前記ラベルなしのテキストベクトルを前記畳み込みニューラルネットワークモデルの畳み込み層に入力して前記畳み込みニューラルネットワークモデルを訓練し、訓練後の畳み込みニューラルネットワークモデルを得るステップと、
前記文字ベクトル特徴を前記訓練後の畳み込みニューラルネットワークモデルに入力し、特徴ベクトルを得るステップと、
前記特徴ベクトルに対して正規化処理を行って前記仮想ラベルを得るステップと、
前記仮想ラベルを前記ラベルなしのテキストベクトルにマッチングさせ、仮想ラベル付きのテキストベクトルを得るステップと、を含むことを特徴とする請求項3に記載のテキスト分類方法。
【請求項7】
仮想ラベル付きのテキストベクトルを得る前記ステップの後、前記ランダムフォレストモデルを生成するステップをさらに含み、
前記ランダムフォレストモデルを生成する前記ステップは、
バギングアルゴリズムの復元サンプリングアルゴリズムを用いて、前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルから複数のサンプルサブセットを抽出し、前記サンプルサブセットを用いて複数の決定木モデルを訓練するステップと、
前記決定木モデルをベース分類器とし、予め設定された分割ルールを利用して前記サンプルサブセットを分割し、複数の前記決定木モデルで構成されるランダムフォレストモデルを生成するステップと、を含むことを特徴とする請求項4-6のいずれか1項に記載のテキスト分類方法。
【請求項8】
テキスト分類装置であって、メモリとプロセッサとを含み、前記メモリに前記プロセッサで実行可能なテキスト分類プログラムが記憶されており、前記テキスト分類プログラムが前記プロセッサにより実行されると、
オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得るステップと、
前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得るステップと、
前記ラベル付きのテキストベクトルをBERTモデルに入力して文字ベクトル特徴を取得するステップと、
前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得るステップと、
ランダムフォレストモデルを用いて前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルに対してマルチラベル分類を行い、テキスト分類結果を得るステップと、を実現させることを特徴とするテキスト分類装置。
【請求項9】
オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得る前記ステップは、
前記オリジナルのテキストデータに対して単語分割操作を行って第2のテキストデータを得るステップと、
前記第2のテキストデータに対してストップワード除去操作を行って第3のテキストデータを得るステップと、
前記第3のテキストデータに対して重複除去操作を行って第4のテキストデータを得るステップと、
前記第4のテキストデータに対して単語ベクトル形式への変換を行って前記テキストベクトルを得るステップと、を含むことを特徴とする請求項8に記載のテキスト分類装置。
【請求項10】
前記BERTモデルは入力層、単語ベクトル層、分類層、符号化層を含み、また、
前記ラベル付きのテキストベクトルをBERTモデルに入力して文字ベクトル特徴を取得する前記ステップは、
ラベル付きのテキストベクトルの品詞を取得し、前記品詞を品詞ベクトルに変換するステップと、
前記ラベル付きのテキストベクトルに対応する前記品詞ベクトルをBERTモデルに入力してデータ処理を行い、前記ラベル付きのテキストベクトルの単語行列を得るステップと、
前記ラベル付きのテキストベクトルの単語行列に基づいて前記ラベル付きのテキストベクトルの文字ベクトル特徴を得るステップと、を含むことを特徴とする請求項8に記載のテキスト分類装置。
【請求項11】
前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得る前記ステップは、
前記ラベルなしのテキストベクトルを前記畳み込みニューラルネットワークモデルの畳み込み層に入力して前記畳み込みニューラルネットワークモデルを訓練し、訓練後の畳み込みニューラルネットワークモデルを得るステップと、
前記文字ベクトル特徴を前記訓練後の畳み込みニューラルネットワークモデルに入力し、特徴ベクトルを得るステップと、
前記特徴ベクトルに対して正規化処理を行って前記仮想ラベルを得るステップと、
前記仮想ラベルを前記ラベルなしのテキストベクトルにマッチングさせ、仮想ラベル付きのテキストベクトルを得るステップと、を含むことを特徴とする請求項8に記載のテキスト分類装置。
【請求項12】
前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得る前記ステップは、
前記ラベルなしのテキストベクトルを前記畳み込みニューラルネットワークモデルの畳み込み層に入力して前記畳み込みニューラルネットワークモデルを訓練し、訓練後の畳み込みニューラルネットワークモデルを得るステップと、
前記文字ベクトル特徴を前記訓練後の畳み込みニューラルネットワークモデルに入力し、特徴ベクトルを得るステップと、
前記特徴ベクトルに対して正規化処理を行って前記仮想ラベルを得るステップと、
前記仮想ラベルを前記ラベルなしのテキストベクトルにマッチングさせ、仮想ラベル付きのテキストベクトルを得るステップと、を含むことを特徴とする請求項9に記載のテキスト分類装置。
【請求項13】
前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得る前記ステップは、
前記ラベルなしのテキストベクトルを前記畳み込みニューラルネットワークモデルの畳み込み層に入力して前記畳み込みニューラルネットワークモデルを訓練し、訓練後の畳み込みニューラルネットワークモデルを得るステップと、
前記文字ベクトル特徴を前記訓練後の畳み込みニューラルネットワークモデルに入力し、特徴ベクトルを得るステップと、
前記特徴ベクトルに対して正規化処理を行って前記仮想ラベルを得るステップと、
前記仮想ラベルを前記ラベルなしのテキストベクトルにマッチングさせ、仮想ラベル付きのテキストベクトルを得るステップと、を含むことを特徴とする請求項10に記載のテキスト分類装置。
【請求項14】
仮想ラベル付きのテキストベクトルを得る前記ステップの後、前記ランダムフォレストモデルを生成するステップをさらに含み、
前記ランダムフォレストモデルを生成する前記ステップは、
バギングアルゴリズムの復元サンプリングアルゴリズムを用いて、前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルから複数のサンプルサブセットを抽出し、前記サンプルサブセットを用いて複数の決定木モデルを訓練するステップと、
前記決定木モデルをベース分類器とし、予め設定された分割ルールを利用して前記サンプルサブセットを分割し、複数の前記決定木モデルで構成されるランダムフォレストモデルを生成するステップと、を含むことを特徴とする請求項11-13のいずれか1項に記載のテキスト分類装置。
【請求項15】
コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な記憶媒体にテキスト分類プログラムが記憶されており、前記テキスト分類プログラムは1つ以上のプロセッサにより実行されて、前記テキスト分類プログラムが前記プロセッサにより実行されると、
オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得るステップと、
前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得るステップと、
前記ラベル付きのテキストベクトルをBERTモデルに入力して文字ベクトル特徴を取得するステップと、
前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得るステップと、
ランダムフォレストモデルを用いて前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルに対してマルチラベル分類を行い、テキスト分類結果を得るステップと、を実現させることを実現することを特徴とするコンピュータ読み取り可能な記憶媒体。
【請求項16】
オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得る前記ステップは、
前記オリジナルのテキストデータに対して単語分割操作を行って第2のテキストデータを得るステップと、
前記第2のテキストデータに対してストップワード除去操作を行って第3のテキストデータを得るステップと、
前記第3のテキストデータに対して重複除去操作を行って第4のテキストデータを得るステップと、
前記第4のテキストデータに対して単語ベクトル形式への変換を行って前記テキストベクトルを得るステップと、を含むことを特徴とする請求項15に記載のコンピュータ読み取り可能な記憶媒体。
【請求項17】
前記BERTモデルは入力層、単語ベクトル層、分類層、符号化層を含み、また、
前記ラベル付きのテキストベクトルをBERTモデルに入力して文字ベクトル特徴を取得する前記ステップは、
ラベル付きのテキストベクトルの品詞を取得し、前記品詞を品詞ベクトルに変換するステップと、
前記ラベル付きのテキストベクトルに対応する前記品詞ベクトルをBERTモデルに入力してデータ処理を行い、前記ラベル付きのテキストベクトルの単語行列を得るステップと、
前記ラベル付きのテキストベクトルの単語行列に基づいて前記ラベル付きのテキストベクトルの文字ベクトル特徴を得るステップと、を含むことを特徴とする請求項15に記載のコンピュータ読み取り可能な記憶媒体。
【請求項18】
前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得る前記ステップは、
前記ラベルなしのテキストベクトルを前記畳み込みニューラルネットワークモデルの畳み込み層に入力して前記畳み込みニューラルネットワークモデルを訓練し、訓練後の畳み込みニューラルネットワークモデルを得るステップと、
前記文字ベクトル特徴を前記訓練後の畳み込みニューラルネットワークモデルに入力し、特徴ベクトルを得るステップと、
前記特徴ベクトルに対して正規化処理を行って前記仮想ラベルを得るステップと、
前記仮想ラベルを前記ラベルなしのテキストベクトルにマッチングさせ、仮想ラベル付きのテキストベクトルを得るステップと、を含むことを特徴とする請求項15に記載のコンピュータ読み取り可能な記憶媒体。
【請求項19】
前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得る前記ステップは、
前記ラベルなしのテキストベクトルを前記畳み込みニューラルネットワークモデルの畳み込み層に入力して前記畳み込みニューラルネットワークモデルを訓練し、訓練後の畳み込みニューラルネットワークモデルを得るステップと、
前記文字ベクトル特徴を前記訓練後の畳み込みニューラルネットワークモデルに入力し、特徴ベクトルを得るステップと、
前記特徴ベクトルに対して正規化処理を行って前記仮想ラベルを得るステップと、
前記仮想ラベルを前記ラベルなしのテキストベクトルにマッチングさせ、仮想ラベル付きのテキストベクトルを得るステップと、を含むことを特徴とする請求項16又は17に記載のコンピュータ読み取り可能な記憶媒体。
【請求項20】
仮想ラベル付きのテキストベクトルを得る前記ステップの後、前記ランダムフォレストモデルを生成するステップをさらに含み、
前記ランダムフォレストモデルを生成する前記ステップは、
バギングアルゴリズムの復元サンプリングアルゴリズムを用いて、前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルから複数のサンプルサブセットを抽出し、前記サンプルサブセットを用いて複数の決定木モデルを訓練するステップと、
前記決定木モデルをベース分類器とし、予め設定された分割ルールを利用して前記サンプルサブセットを分割し、複数の前記決定木モデルで構成されるランダムフォレストモデルを生成するステップと、を含むことを特徴とする請求項19に記載のコンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2019年10月11日に中国国家知識産権局に提出された、出願番号201910967010.5、発明の名称「テキスト分類方法、装置及びコンピュータ読み取り可能な記憶媒体」の中国特許出願の優先権を主張し、その内容のすべてが参照によって本願に組み込まれる。
【0002】
本願は人工知能の技術分野に関し、特に深層学習の方法によりテキストに対してラベル分類を行う方法、装置及びコンピュータ読み取り可能な記憶媒体に関する。
【背景技術】
【0003】
現在、マルチラベルテキスト分類の方法として、確率が最も高い3つ又は5つのラベルを選択してテキスト分類を行うことは一般的であり、ただし、ラベルの数は予め約束する必要がある。しかし、実際の状況では、あるテキストにはいずれのラベルも存在しないことがある。ラベルの数がゼロの場合、従来の方法によりキャッチされた情報の階層が低く、ラベル認識及び分類を正確に行うことが困難であり、したがって、分類精度が低い。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本願は、テキスト分類方法、装置及びコンピュータ読み取り可能な記憶媒体を提供するものであり、オリジナルのテキストデータセットに対して深層学習を行うことによりラベル分類を行う方法を提供することにその主な目的がある。
【課題を解決するための手段】
【0005】
上記目的を達成するために、本願で提供されるテキスト分類方法は、オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得るステップと、前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得るステップと、前記ラベル付きのテキストベクトルをBERTモデルに入力して文字ベクトル特徴を取得するステップと、前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得るステップと、ランダムフォレストモデルを用いて前記ラベル付きのテキストベクトルと仮想ラベルラベル付きのテキストベクトルに対してマルチラベル分類を行い、テキスト分類結果を得るステップと、を含む。
【0006】
また、上記目的を達成するために、本願は、メモリとプロセッサとを含むテキスト分類装置であって、前記メモリに前記プロセッサで実行可能なテキスト分類プログラムが記憶されており、前記テキスト分類プログラムが前記プロセッサにより実行されると、オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得るステップと、前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得るステップと、前記ラベル付きのテキストベクトルをBERTモデルに入力して文字ベクトル特徴を取得するステップと、前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得るステップと、ランダムフォレストモデルを用いて前記ラベル付きのテキストベクトルと仮想ラベルラベル付きのテキストベクトルに対してマルチラベル分類を行い、テキスト分類結果を得るステップと、を実現させるテキスト分類装置をさらに提供する。
【0007】
また、上記目的を達成するために、本願は、テキスト分類プログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記テキスト分類プログラムは1つ以上のプロセッサにより実行されて上記テキスト分類方法のステップを実現するコンピュータ読み取り可能な記憶媒体をさらに提供する。
【発明の効果】
【0008】
本願は前記オリジナルのテキストデータに対して前処理を行うことで、オリジナルのテキストデータに属する可能性がある単語を効果的に抽出することができ、さらに、単語のベクトル化及び仮想ラベルのマッチングにより、特徴の精度を損なわないとともに、テキスト分類分析を効率的、かつスマートに行うことができ、最後に、予め構築された畳み込みニューラルネットワークモデルに基づいてテキストラベルを訓練して仮想ラベルを得て、ランダムフォレストモデルを用いてラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルに対してマルチラベル分類を行ってテキスト分類結果を得る。したがって、本願で提供されるテキスト分類方法、装置及びコンピュータ読み取り可能な記憶媒体は、正確で効率的であり、かつ一貫しているテキスト分類を実現することができる。
【図面の簡単な説明】
【0009】
図1】本願の実施例で提供されるテキスト分類方法のフローチャートである。
図2】本願の実施例で提供されるテキスト分類装置の構造概略図である。
図3】本願の実施例で提供されるテキスト分類装置におけるテキスト分類プログラムのブロック図である。 実施例に合わせて、図面を参照しながら本願の目的の実現、機能特徴及び利点をさらに説明する。
【発明を実施するための形態】
【0010】
本明細書に説明される具体的な実施例は本願を説明するためのものに過ぎず、本願を限定するものではない。
【0011】
本願はテキスト分類方法を提供する。図1に示すように、本願の実施例で提供されるテキスト分類方法のフローチャートである。この方法は1つの装置により実行されてもよく、この装置はソフトウェア及び/又はハードウェアにより実現されてもよい。
【0012】
本実施例では、テキスト分類方法はS1~S5を含む。
【0013】
S1において、ユーザから入力されたオリジナルのテキストデータを受信し、前記オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得る。
【0014】
好ましくは、前記前処理は前記オリジナルのテキストデータに対して単語分割、ストップワード除去、重複除去、単語ベクトル形式への変換を行うことを含む。
【0015】
具体的には、本願の好ましい実施例は前記オリジナルのテキストデータに対して単語分割操作を行って第2のテキストデータを得る。ただし、前記単語分割とは、前記オリジナルのテキストデータにおける各文を切り分けて単一の語を得ることである。
【0016】
一例として、本願の実施例はユーザから入力された前記オリジナルのテキストデータである「北大学生去清華打羽毛球」を例とし、統計に基づく単語分割方法を用い、前記オリジナルのテキストデータに対して単語分割操作を行って第2のテキストデータを得るプロセスについて説明する。
【0017】
一例として、前記オリジナルのテキストデータの文頭から「北大学生去清華打羽毛球」中の文字列が「北大」、「大学生」、「北大学生」、「清華」、「去」、「羽毛球」、「打羽毛球」、「去清華」などの単語の組み合わせに分割される可能性があるとする。すべてのコーパスにおいて、「北大」の出現頻度が「北大学生」、「大学生」よりも高いため、統計に基づく単語分割方法は「北大」を優先的に1つの単語分割結果とする。続いて、「打」と「去」は単語を組み合わせることができないため、「打」を1つの単語分割結果とし、「去」を1つの単語分割結果とする。「北大」と「学生」の組み合わせの出現確率が「北大学」の出現確率よりも高いため、「学生」を1つの単語分割結果とし、「北大」を1つの単語分割結果とし、また、「清華」を1つの単語分割結果とする。「羽毛球」という組み合わせの出現確率が「羽毛」及び/又は「球」の出現確率よりも高いため、「羽毛球」を1つの単語分割結果とする。最終的に、統計に基づく単語分割方法により取得された前記オリジナルのテキストデータである「北大学生去清華打羽毛球」の第2の単語分割結果は、「北大」、「学生」、「去」、「清華」、「打」、「羽毛球」である。
【0018】
好ましくは、本願の可能な実施形態において、さらに前記第2のテキストデータに対してストップワード除去操作を行って第3のテキストデータを得る。ただし、前記ストップワード除去とは前記オリジナルのテキストデータにおける、実際の意味がなくかつテキストの分類に影響を与えないが出現頻度が高い単語を除去することである。前記ストップワードは、一般的に、常用の代名詞、介詞などを含む。研究によると、実際の意味がないストップワードは、テキスト分類の効果を低下させることになるため、ストップワード除去はテキストデータの前処理過程における非常に重要なステップの1つである。本願の実施例では、選択されたストップワード除去方法はストップワードリストフィルタリングであり、前記ストップワードリストフィルタリングとは、既に構築されたストップワードリストとテキスト中の単語を一対一でマッチングさせ、マッチングが成功すれば、この単語はストップワードであり、この単語を削除する必要があることである。例えば、単語分割後の第2のテキストデータは、「商品経済の環境下で、これらの企業は市場の状況に基づき、合格的な販売モードを定めて、市場でのシェア拡大を獲得し、これにより販売の価格を安定させ、また製品の競争能力を向上させる。したがって、実行可能性分析、マーケティングモード研究が必要である」である。
【0019】
この第2のテキストデータに対してさらにストップワード除去を行って得られた第3のテキストデータは、「商品経済環境、企業は市場状況に基づき、合格販売モードを定め、市場シェア拡大を獲得し、販売価格を安定させ、製品競争能力を向上させる。したがって、実行可能性分析、マーケティングモード研究」である。
【0020】
好ましくは、本願の可能な一実施形態において、さらに前記第3のテキストデータに対して重複除去操作を行って第4のテキストデータを得る。
【0021】
具体的には、収集されたテキストデータの由来が複雑であり、その中に重複するテキストデータが多く存在する可能性があり、大量の重複するデータは分類精度に影響を与えることになるため、本願の実施例では、テキストを分類する前に、まずユークリッド距離の方法を用いてテキストに対して前記重複除去操作を行い、その式は以下のとおりである。
【0022】
【0023】
単語分割、ストップワード除去、重複除去を経た後、テキストは一連の特徴単語(キーワード)で表されるが、このようなテキスト形式のデータは分類アルゴリズムにより直接処理することができず、数値形式に変換すべきであり、したがって、これらの特徴単語に対して重み計算を行うことで、この特徴単語のテキストにおける重要性を特徴付ける必要がある。
【0024】
好ましくは、本願の可能な一実施形態において、さらに前記第4のテキストデータに対して単語ベクトル形式への変換を行って前記テキストベクトルを得る。例えば、前記第4のテキストデータは「私と君」である。単語ベクトルへの変換により、文字をベクトル形式に変換してテキストベクトル[(1,2)、(0,2)、(3,1)]を得る。
【0025】
好ましくは、前記単語ベクトル形式への変換とは、前記オリジナルのテキストデータに対して単語分割、ストップワード除去、重複除去を行った後に得られた前記第4のテキストデータ中のいずれか1つの単語をN次元の行列ベクトルで表すことであり、ここで、Nは合計して前記第4のテキストデータに含まれる単語の数であり、本願では、以下の式を用いて単語に対して初期的なベクトル化を行う。
【0026】
【0027】
S2において、前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得る。
【0028】
好ましくは、前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得るステップは以下のステップS201~S204を含む。
【0029】
ステップS201において、前記テキストベクトルに対してインデックスを作成する。例えば、テキストベクトル[(1,2)、(0,2)、(3,1)]は、(1,2)、(0,2)及び(3,1)の3つの次元のデータを含む。この場合、この3つの次元に基づいて、各次元でインデックスをそれぞれ作成して、この次元における前記テキストベクトルのマークとする。
【0030】
ステップS202において、前記インデックスにより、前記テキストベクトルを照会し、品詞付けを行う。例えば、インデックスによりテキストベクトルのある次元における特性を推定することができ、同じ次元の特性は同じ品詞に対応する。例えば、「犬」と「刀」の品詞はいずれも名詞であり、これらのある次元(x次元と仮定する)におけるインデックスが一致し、いずれも名詞性を指す。それに対応して、インデックスによると、ある特定のテキストベクトルの品詞を照会し、このテキストベクトルに対して品詞付けを行うことができる。例えば、前記第4のテキストデータは「打」であり、テキストベクトルに変換すると、[(0,2)、(7,2)、(10,1)]になる。まず、[(0,2)、(7,2)、(10,1)]に対してインデックスを作成し、インデックスによりこの次元に対応する品詞を照会して動詞とし、テキストベクトル[(0,2)、(7,2)、(10,1)]に対して品詞を動詞として付ける。
【0031】
ステップS203において、前記品詞付けに基づいてテキストの特徴語義ネットワーク図を作成し、テキストの単語頻度とテキスト頻度を統計し、続いて前記単語頻度とテキスト頻度に対して重み付け計算と特徴抽出を行って前記ラベルを得る。
【0032】
具体的には、前記テキストの特徴語義ネットワーク図とは、テキスト及びその語義関係を利用してテキスト特徴情報を表現する有向グラフであり、テキストベクトルに含まれるラベルをグラフのノードとし、2つのテキストベクトルの間の語義関係をグラフの有向辺とし、テキストベクトルの間の語義関係を単語頻度情報に合わせてノードの重みとし、有向辺の重みはテキストベクトル関係のテキストにおける重要度を表す。テキストの特徴語義ネットワーク図によると、本願はテキストベクトルに対して特徴抽出を行って前記ラベルを得ることができる。
【0033】
ステップS204において、前記ラベルをテキストベクトルにマッチングさせてラベル付きのテキストベクトルを得て、ただし、前記テキストベクトルはラベルマッチング処理を経た後に得たラベルが空であれば、ラベルなしのテキストベクトルとして決定される。
【0034】
本願の一実施形態では、前記ラベルマッチングとは、前記テキストベクトルが上記ステップS201、202、203を経た後に得たラベルとオリジナルのテキストベクトルが互いにマッチングすることである。例えば、テキストベクトル[(10,2)、(7,8)、(10,4)]は上記ステップS201、202、203を経た後に得たラベルがθ(ラベルの特徴はユーザのニーズに応じて選択して定義することができ、ここでアルファベットを指示例とする)であると、θをテキストベクトル[(10,2)、(7,8)、(10,4)]にマッチングさせる。同様に、テキストベクトル[(0,0)、(0,0)、(1,4)]は上記ステップS201、202、203を経た後に得たラベルが空である場合、[(0,0)、(0,0)、(1,4)]をラベルなしのテキストベクトルとして決定することが分かる。
【0035】
さらに、前記ラベルをテキストベクトルにマッチングさせてラベル付きのテキストベクトルを得て、ただし、前記テキストベクトルは上記処理を経た後に得たラベルが空であれば、ラベルなしのテキストベクトルとして決定される。
【0036】
S3において、前記ラベル付きのテキストベクトルをBERTモデルに入力して文字ベクトル特徴を取得する。
【0037】
本願の実施例では、前記ラベル付きのテキストベクトルをBERTモデルに入力して単語ベクトル特徴を取得するステップは以下のステップS301~S302を含む。
【0038】
ステップS301において、前記BERTモデルを作成する。
【0039】
本願における前記BERTモデルとは、Bidirectional Encoder Representations from Transformers(トランスフォーマーを活用した双方向のエンコード表現)であり、双方向Transformer(トランスフォーマー)で構成される特徴抽出モデルである。具体的には、例えば文のx=x1、x2…、xnがあり、ここで、x1、x2などは文中の具体的な文字である。前記BERTモデルは文中の各文字に対してToken Embedding、Segment Embedding、Position Embeddingの3つの入力層の入力表現を用いて加算して入力特徴を得て、Masked Language ModelとNext Sentence Predictionを最適化目標として用い、文字の3種類の入力表現を最適化し、ただし、Masked Language ModelとNext Sentence PredictionはBERTモデルにおける2種類の典型的なアルゴリズムタイプである。
【0040】
ステップS302において、ラベル付きのテキストベクトルを前記BERTモデルに入力し、前記BERTモデルを訓練して文字ベクトル特徴を取得するステップであって、
位置エンコードを用いてラベル付きのテキストベクトルに位置情報を付加し、初期的な単語ベクトルで前記位置情報が付加されたラベル付きのテキストベクトルを表すステップと、
ラベル付きのテキストベクトルの品詞を取得し、前記品詞を品詞ベクトルに変換するステップと、
前記初期的な単語ベクトルと前記品詞ベクトルを加算し、前記ラベル付きのテキストベクトルの単語ベクトルを得るステップと、
前記単語ベクトルで表されたラベル付きのテキストベクトルをTransformerモデルに入力してデータ処理を行い、前記ラベル付きのテキストベクトルの単語行列を得るステップと、
前記単語行列を用いて、前記ラベル付きのテキストベクトルにおける2つの文が前後文であるか否か、2つの文中の隠し単語及び前記隠し単語の品詞特徴を予測するステップと、を含む。前記BERTモデルを訓練することにより、前記BERTモデルに入力されたテキストベクトルに1つの対応する品詞特徴を予測させることができ、品詞特徴に対して正規化処理を行って前記文字ベクトル特徴を得る。
【0041】
S4において、前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得る。
【0042】
好ましくは、本願は以下のステップを採用して前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得る。
【0043】
文字ベクトル特徴はラベル付きのテキストベクトルをBERTモデルに入力し、BERTモデルを訓練して得られるものである。そのため、文字ベクトル特徴はラベルに必要な特徴を含み、前記文字ベクトルの特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練することで、文字ベクトル特徴の特徴を抽象化し、ラベルなしのテキストベクトルに適切な特徴をマッチングさせ、さらに仮想ラベルをマッチングさせることができる。例えば、前のステップにおいて、ラベルなしのテキストベクトルは[(0,2)、(0,0)、(0,4)]であり、それを前記畳み込みニューラルネットワークモデルに入力して訓練し、ラベル付きのテキストベクトル[(2,2)、(2,2)、(0,4)]はBERTモデルの訓練を経て得た文字ベクトル特徴がAである。前記畳み込みニューラルネットワークモデルにより、ラベルなしのテキストベクトル[(0,2)、(0,0)、(0,4)]と文字ベクトル特徴Aが関連性を有することが認識される。したがって、文字ベクトル特徴Aに基づいて、ラベル付きのテキストベクトル[(2,2)、(2,2)、(0,4)]を見つけ、そのラベルをγとして確認する。ラベルγに基づいて正規化処理を行って前記仮想ラベルを得る。前記仮想ラベルを前記ラベルなしのテキストベクトルにマッチングさせ、仮想ラベル付きのテキストベクトルを得る。
【0044】
本願の好ましい実施例では、前記ラベルなしのテキストを前記畳み込みニューラルネットワークモデルの畳み込み層により処理し訓練し、訓練後の畳み込みニューラルネットワークモデルを得るには、訓練方法として勾配降下アルゴリズムが採用される。
【0045】
S5において、ランダムフォレストモデルを用いて前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルに対してマルチラベル分類を行い、テキスト分類結果を得る。
【0046】
具体的には、本願の一実施例では、前記ランダムフォレストアルゴリズムはバギングアルゴリズムの復元サンプリングアルゴリズムを用いて、前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルから複数のサンプルサブセットを抽出し、前記サンプルサブセットを用いて複数の決定木モデルを訓練し、訓練過程においてランダム特徴部分空間法を参考し、単語ベクトル集合から一部の単語ベクトル特徴を抽出して決定木の分割を行い、最後に複数の決定木を統合して統合分類器を成し、この統合分類器をランダムフォレストと呼ぶ。そのアルゴリズムフローは、サブサンプルセットの生成、決定木の構築、投票による結果の生成の3つの部分に分けられ、その具体的なフローは以下のとおりである。
【0047】
ステップS501は、サブサンプルセットの生成である。
【0048】
ランダムフォレストは、各ベース分類器に対して、ベース分類器の入力変数として一定のサンプルサブセットを生成する必要がある統合分類器である。評価モデルを両立させるために、サンプルセットの分割には複数の方式があり、本願の実施例では、相互認証の方式を用いてデータセットを分割し、前記相互認証は訓練しようとするテキストを文字数に応じて、k(kはゼロより大きい任意の自然数である)個のサブデータセットに分割し、訓練するたびに、そのうちの1つのサブデータセットをテストセットとし、他のサブデータセットを訓練セットとし、k回入れ替わりしてステップを行う。
【0049】
ステップS502は、決定木の構築である。
【0050】
ランダムフォレストでは、各ベース分類器は1つの独立した決定木である。決定木の構築過程において、最終分類の精度を向上させるように、分割ルールを利用して最適な特徴を探してサンプルを分割しようとする。ランダムフォレストの決定木と一般的な決定木は構築方式が基本的に一致し、異なる点として、ランダムフォレストの決定木は分割を行う時に、特徴セット全体を検索して特徴を選択することではなく、特徴をk(kはゼロより大きい任意の自然数である)個ランダムに選択して分割することである。本願の実施例では、各テキストベクトルを決定木の根とし、上述した畳み込みニューラルネットワークを用いて得られたテキストベクトルラベルの特徴を決定木のサブノードとし、その下のノードをそれぞれ再抽出された特徴とすることにより、各決定木を訓練する。
【0051】
ただし、分割ルールとは、決定木の分割時に係る具体的なルールである。例えば、どの特徴を選択するか、分割の条件が何であるか、また、いつ分割を終了するかが分かる必要がある。決定木の生成が相対的に短絡するため、分割ルールによりそれを調整してはじめて、それをよりよく見えるようにすることができる。
【0052】
ステップS503は、投票による結果の生成である。ランダムフォレストの分類結果は決定木である各ベース分類器が投票を行って得られるものである。ランダムフォレストはベース分類器を同等に扱い、各決定木は1つの分類結果を得て、すべての決定木の投票結果を集めて累積加算し、投票数が最も高い結果を最終結果とする。これにより、各決定木(ラベル分類を必要とするテキストベクトル)の各サブノード(ラベル)のスコア状況に基づいて、このラベルのスコアが本願に設定された閾値tを超えると、このラベルはこのテキストベクトルを解釈できると考えられ、それによりこのテキストベクトルのすべてのラベルを取得する。ただし、閾値tの確認方式は、この決定木のすべての分類器の投票結果の累積*0.3である。
【0053】
さらに、前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルのランダムフォレストアルゴリズムによる投票結果に対して重みソートを行い、重み値が最も大きい投票結果をカテゴリキーワードとし、前記カテゴリキーワードの間の語義関係を利用し、分類結果、すなわち前記テキストベクトルのテキスト分類結果を形成する。
【0054】
発明はテキスト分類装置をさらに提供する。図2に示すように、本願の実施例で提供されるテキスト分類装置の構造概略図である。
【0055】
本実施例では、前記テキスト分類装置1はPC(Personal Computer、パソコン)、又はスマートフォン、タブレットコンピュータ、ポータブルコンピュータなどの端末装置であってもよく、サーバなどであってもよい。このテキスト分類装置1は、少なくともメモリ11と、プロセッサ12と、通信バス13と、ネットワークインタフェース14とを含む。
【0056】
そのうち、メモリ11は少なくとも1種類の読み取り可能な記憶媒体を含み、前記読み取り可能な記憶媒体はフラッシュメモリ、ハードディスク、マルチメディアカード、カード型メモリ(例えば、SD又はDXメモリなど)、磁気メモリ、磁気ディスク、光ディスクなどを含む。いくつかの実施例では、メモリ11はテキスト分類装置1の内部記憶ユニット、例えばこのテキスト分類装置1のハードディスクであってもよい。他のいくつかの実施例では、メモリ11はテキスト分類装置1の外部記憶装置、例えばテキスト分類装置1に配置された外付けハードディスク、スマートメモリカード(Smart Media(登録商標) Card、SMC)、セキュアデジタル(Secure Digital、SD)カード、フラッシュメモリカード(Flash Card)などであってもよい。さらに、メモリ11は、テキスト分類装置1の内部記憶ユニットも、外部記憶装置も含んでもよい。メモリ11は、テキスト分類装置1にインストールされたアプリケーションソフトウェア及び各種のデータ、例えばテキスト分類プログラム01のコードなどを記憶するために用いることができるだけでなく、さらに既に出力された、又は出力されるデータを一時的に記憶するために用いることができる。
【0057】
いくつかの実施形態では、プロセッサ12は、例えば、テキスト分類プログラム01を実行するなど、メモリ11に記憶されたプログラムコード又は処理データを実行するための中央処理装置(Central Processing Unit、CPU)、コントローラ、マイクロコントローラ、マイクロプロセッサ、又は他のデータ処理チップであってもよい。
【0058】
通信バス13は、これらのコンポーネント間の接続通信を実現するためのものである。
【0059】
ネットワークインタフェース14は、選択可能に、この装置1と他の電子機器との間に通信可能な接続を確立するために通常使用される標準的な有線インタフェース、無線インタフェース(例えば、WI-FIインタフェース)を含んでもよい。
【0060】
選択可能に、この装置1はユーザインタフェースをさらに含んでもよく、ユーザインタフェースはディスプレイ(Display)、例えばキーボード(Keyboard)のような入力ユニットを含んでもよく、選択可能なユーザインタフェースは標準的な有線インタフェース、無線インタフェースをさらに含んでもよい。選択可能に、いくつかの実施例では、ディスプレイはLEDディスプレイ、液晶ディスプレイ、タッチ式液晶ディスプレイ及びOLED(Organic Light-Emitting Diode、有機発光ダイオード)タッチデバイスなどであってもよい。ただし、ディスプレイは、テキスト分類装置1において処理される情報を表示し、可視化されたユーザインタフェースを表示するためのディスプレイスクリーン又はディスプレイユニットと適当に呼ばれてもよい。
【0061】
図2はコンポーネント11-14及びテキスト分類プログラム01を有するテキスト装置1のみを示すが、当業者であれば、図1に示された構造は、テキスト分類装置1を限定するものではなく、図示されたものよりも多い又は少ない部材を含み、或いは、何らかの部材を組み合わせ、或いは異なる部材配置にするようにしてもよいことを理解することができる。
【0062】
図2に示す装置1の実施例では、メモリ11にテキスト分類プログラム01が記憶されており、プロセッサ12はメモリ11に記憶されているテキスト分類プログラム01を実行すると、以下のステップ1からステップ5を実現させる。
【0063】
ステップ1において、ユーザから入力されたオリジナルのテキストデータを受信し、前記オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得る。
【0064】
好ましくは、前記前処理は前記オリジナルのテキストデータに対して単語分割、ストップワード除去、重複除去、単語ベクトル形式への変換を行うことを含む。
【0065】
具体的には、本願の好ましい実施例は前記オリジナルのテキストデータに対して単語分割操作を行って第2のテキストデータを得る。ただし、前記単語分割とは、前記オリジナルのテキストデータにおける各文を切り分けて単一の語を得ることである。
【0066】
一例として、本願の実施例はユーザから入力された前記オリジナルのテキストデータである「北大学生去清華打羽毛球」を例とし、統計に基づく単語分割方法を用い、前記オリジナルのテキストデータに対して単語分割操作を行って第2のテキストデータを得るプロセスについて説明する。
【0067】
一例として、前記オリジナルのテキストデータの文頭から「北大学生去清華打羽毛球」中の文字列が「北大」、「大学生」、「北大学生」、「清華」、「去」、「羽毛球」、「打羽毛球」、「去清華」などの単語の組み合わせに分割される可能性があるとする。すべてのコーパスにおいて、「北大」の出現頻度が「北大学生」、「大学生」よりも高いため、統計に基づく単語分割方法は「北大」を優先的に1つの単語分割結果とする。続いて、「打」と「去」は単語を組み合わせることができないため、「打」を1つの単語分割結果とし、「去」を1つの単語分割結果とする。「北大」と「学生」の組み合わせの出現確率が「北大学」の出現確率よりも高いため、「学生」を1つの単語分割結果とし、「北大」を1つの単語分割結果とし、また、「清華」を1つの単語分割結果とする。「羽毛球」という組み合わせの出現確率が「羽毛」及び/又は「球」の出現確率よりも高いため、「羽毛球」を1つの単語分割結果とする。最終的に、統計に基づく単語分割方法により取得された前記オリジナルのテキストデータである「北大学生去清華打羽毛球」の第2の単語分割結果は、「北大」、「学生」、「去」、「清華」、「打」、「羽毛球」である。
【0068】
好ましくは、本願の可能な実施形態において、さらに前記第2のテキストデータに対してストップワード除去操作を行って第3のテキストデータを得る。ただし、前記ストップワード除去とは、前記オリジナルのテキストデータにおける、実際の意味がなくかつテキストの分類に影響を与えないが出現頻度が高い単語を除去することである。前記ストップワードは、一般的に、常用の代名詞、介詞などを含む。研究によると、実際の意味がないストップワードは、テキスト分類の効果を低下させることになるため、ストップワード除去はテキストデータの前処理過程における非常に重要なステップの1つである。本願の実施例では、選択されたストップワード除去方法はストップワードリストフィルタリングであり、前記ストップワードリストフィルタリングとは、既に構築されたストップワードリストとテキスト中の単語を一対一でマッチングさせ、マッチングが成功すれば、この単語はストップワードであり、この単語を削除する必要があることである。例えば、単語分割後の第2のテキストデータは以下のとおりである。商品経済の環境下で、これらの企業は市場の状況に基づき、合格的な販売モードを定めて、市場でのシェア拡大を獲得し、これにより販売の価格を安定させ、また製品の競争能力を向上させる。したがって、実行可能性の分析、マーケティングモードの研究が必要である。
【0069】
この第2のテキストデータに対してさらにストップワード除去を行って得られた第3のテキストデータは以下のとおりである。商品経済環境、企業は市場状況に基づき、合格販売モードを定め、市場シェア拡大を獲得し、販売価格を安定させ、製品競争能力を向上させる。したがって、実行可能性分析、マーケティングモード研究といえる。
【0070】
好ましくは、本願の可能な一実施形態において、さらに前記第3のテキストデータに対して重複除去操作を行って第4のテキストデータを得る。
【0071】
具体的には、収集されたテキストデータの由来が複雑であり、その中に重複するテキストデータが多く存在する可能性があり、大量の重複するデータは分類精度に影響を与えることになるため、本願の実施例では、テキストを分類する前に、まずユークリッド距離の方法を用いてテキストに対して前記重複除去操作を行い、その式は以下のとおりである。
【0072】
【0073】
単語分割、ストップワード除去、重複除去を経た後、テキストは一連の特徴単語(キーワード)で表されるが、このようなテキスト形式のデータは分類アルゴリズムにより直接処理することができず、数値形式に変換すべきであり、したがって、これらの特徴単語に対して重み計算を行うことで、この特徴単語のテキストにおける重要性を特徴付ける必要がある。
【0074】
好ましくは、本願の可能な一実施形態において、さらに前記第4のテキストデータに対して単語ベクトル形式への変換を行って前記テキストベクトルを得る。例えば、前記第4のテキストデータは「私と君」である。単語ベクトルへの変換により、文字をベクトル形式に変換してテキストベクトル[(1,2)、(0,2)、(3,1)]を得る。
【0075】
好ましくは、前記単語ベクトル形式への変換とは、前記オリジナルのテキストデータに対して単語分割、ストップワード除去、重複除去を行った後に得られた前記第4のテキストデータ中のいずれか1つの単語をN次元の行列ベクトルで表すことであり、ここで、Nは合計して前記第4のテキストデータに含まれる単語の数であり、本願では、以下の式を用いて単語に対して初期的なベクトル化を行う。
【0076】
【0077】
ステップ2において、前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得る。
【0078】
好ましくは、前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得るステップは以下のステップS201~S204を含む。ステップS201において、前記テキストベクトルに対してインデックスを作成する。例えば、テキストベクトル[(1,2)、(0,2)、(3,1)]は、(1,2)、(0,2)及び(3,1)の3つの次元のデータを含む。この場合、この3つの次元に基づいて、各次元でインデックスをそれぞれ作成して、この次元における前記テキストベクトルのマークとする。
【0079】
ステップS202において、前記インデックスにより、前記テキストベクトルを照会し、品詞付けを行う。例えば、インデックスによりテキストベクトルのある次元における特性を推定することができ、同じ次元の特性は同じ品詞に対応する。例えば、「犬」と「刀」の品詞はいずれも名詞であり、これらのある次元(x次元と仮定する)におけるインデックスが一致し、いずれも名詞性を指す。それに対応して、インデックスによると、ある特定のテキストベクトルの品詞を照会し、このテキストベクトルに対して品詞付けを行うことができる。例えば、前記第4のテキストデータは「打」であり、テキストベクトルに変換すると、[(0,2)、(7,2)、(10,1)]になる。まず、[(0,2)、(7,2)、(10,1)]に対してインデックスを作成し、インデックスによりこの次元に対応する品詞を照会して動詞とし、テキストベクトル[(0,2)、(7,2)、(10,1)]に対して品詞を動詞として付ける。ステップS203において、前記品詞付けに基づいてテキストの特徴語義ネットワーク図を作成し、テキストの単語頻度とテキスト頻度を統計し、続いて前記単語頻度とテキスト頻度に対して重み付け計算と特徴抽出を行って前記ラベルを得る。
【0080】
具体的には、前記テキストの特徴語義ネットワーク図とはテキスト及びその語義関係を利用してテキスト特徴情報を表現する有向グラフであり、テキストベクトルに含まれるラベルをグラフのノードとし、2つのテキストベクトルの間の語義関係をグラフの有向辺とし、テキストベクトルの間の語義関係を単語頻度情報に合わせてノードの重みとし、有向辺の重みはテキストベクトル関係のテキストにおける重要度を表す。テキストの特徴語義ネットワーク図によると、本願はテキストベクトルに対して特徴抽出を行って前記ラベルを得ることができる。
【0081】
ステップS204において、前記ラベルをテキストベクトルにマッチングさせてラベル付きのテキストベクトルを得て、ただし、前記テキストベクトルはラベルマッチング処理を経た後に得たラベルが空であれば、ラベルなしのテキストベクトルとして決定される。
【0082】
本願の一実施形態では、前記ラベルマッチングとは、前記テキストベクトルが上記ステップS201、202、203を経た後に得たラベルとオリジナルのテキストベクトルが互いにマッチングすることである。例えば、テキストベクトル[(10,2)、(7,8)、(10,4)]は上記ステップS201、202、203を経た後に得たラベルがθ(ラベルの特徴はユーザのニーズに応じて選択して定義することができ、ここでアルファベットを指示例とする)であると、θをテキストベクトル[(10,2)、(7,8)、(10,4)]にマッチングさせる。同様に、テキストベクトル[(0,0)、(0,0)、(1,4)]は上記ステップS201、202、203を経た後に得たラベルが空である場合、[(0,0)、(0,0)、(1,4)]をラベルなしのテキストベクトルとして決定することが分かる。
【0083】
さらに、前記ラベルをテキストベクトルにマッチングさせてラベル付きのテキストベクトルを得て、ただし、前記テキストベクトルは上記処理を経た後に得たラベルが空であれば、ラベルなしのテキストベクトルとして決定される。
【0084】
ステップ3において、前記ラベル付きのテキストベクトルをBERTモデルに入力して文字ベクトル特徴を取得する。
【0085】
本願の実施例では、前記ラベル付きのテキストベクトルをBERTモデルに入力して単語ベクトル特徴を取得するステップは以下のステップS301~S302を含む。
【0086】
ステップS301において、前記BERTモデルを作成する。
【0087】
本願におけるBERTモデルとは、Bidirectional Encoder Representations from Transformers(トランスフォーマーを活用した双方向のエンコード表現)であり、双方向Transformer(トランスフォーマー)で構成される特徴抽出モデルである。具体的には、例えば文のx=x1、x2…、xnがあり、ここで、x1、x2などは文中の具体的な文字である。前記BERTモデルは文中の各文字に対してToken Embedding、Segment Embedding、Position Embeddingの3つの入力層の入力表現を用いて加算して入力特徴を得て、Masked Language ModelとNext Sentence Predictionを最適化目標として用い、文字の3種類の入力表現を最適化し、ただし、Masked Language ModelとNext Sentence PredictionはBERTモデルにおける2種類の典型的なアルゴリズムタイプである。
【0088】
ステップS302において、ラベル付きのテキストベクトルをBERTモデルに入力し、前記BERTモデルを訓練して文字ベクトル特徴を取得するステップであって、
位置エンコードを用いてラベル付きのテキストベクトルに位置情報を付加し、初期的な単語ベクトルで前記位置情報が付加されたラベル付きのテキストベクトルを表すステップと、
ラベル付きのテキストベクトルの品詞を取得し、前記品詞を品詞ベクトルに変換するステップと、
前記初期的な単語ベクトルと前記品詞ベクトルを加算し、前記ラベル付きのテキストベクトルの単語ベクトルを得るステップと、
前記単語ベクトルで表されたラベル付きのテキストベクトルをTransformerモデルに入力してデータ処理を行い、前記ラベル付きのテキストベクトルの単語行列を得るステップと、
前記単語行列を用いて、前記ラベル付きのテキストベクトルにおける2つの文が前後文であるか否か、2つの文中の隠し単語及び前記隠し単語の品詞特徴を予測するステップと、を含む。前記BERTモデルを訓練することにより、前記BERTモデルに入力されたテキストベクトルに1つの対応する品詞特徴を予測させることができ、品詞特徴に対して正規化処理を行って前記文字ベクトル特徴を得る。
【0089】
ステップ4において、前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得る。
【0090】
好ましくは、本願は以下のステップを採用して前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得る。
【0091】
文字ベクトル特徴はラベル付きのテキストベクトルをBERTモデルに入力し、BERTモデルを訓練して得られるものである。そのため、文字ベクトル特徴はラベルに必要な特徴を含み、前記文字ベクトルの特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練することで、文字ベクトル特徴の特徴を抽象化し、ラベルなしのテキストベクトルに適切な特徴をマッチングさせ、さらに仮想ラベルをマッチングさせることができる。例えば、前のステップにおいて、ラベルなしのテキストベクトルは[(0,2)、(0,0)、(0,4)]である。それを前記畳み込みニューラルネットワークモデルに入力して訓練し、ラベル付きのテキストベクトル[(2,2)、(2,2)、(0,4)]はBERTモデルの訓練を経て得た文字ベクトル特徴がAである。前記畳み込みニューラルネットワークモデルにより、ラベルなしのテキストベクトル[(0,2)、(0,0)、(0,4)]と文字ベクトル特徴Aが関連性を有することが認識される。したがって、文字ベクトル特徴Aに基づいて、ラベル付きのテキストベクトル[(2,2)、(2,2)、(0,4)]を見つけ、そのラベルをγとして確認する。ラベルγに基づいて正規化処理を行って前記仮想ラベルを得る。前記仮想ラベルを前記ラベルなしのテキストベクトルにマッチングさせ、仮想ラベル付きのテキストベクトルを得る。
【0092】
本願の好ましい実施例では、前記ラベルなしのテキストを前記畳み込みニューラルネットワークモデルの畳み込み層により処理し訓練し、訓練後の畳み込みニューラルネットワークモデルを得るには、訓練方法として勾配降下アルゴリズムが採用される。
【0093】
ステップ5において、ランダムフォレストモデルを用いて前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルに対してマルチラベル分類を行い、テキスト分類結果を得る。
【0094】
具体的には、本願の一実施例では、前記ランダムフォレストアルゴリズムはバギングアルゴリズムの復元サンプリングアルゴリズムを用いて、前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルから複数のサンプルサブセットを抽出し、前記サンプルサブセットを用いて複数の決定木モデルを訓練し、訓練過程においてランダム特徴部分空間法を参考し、単語ベクトル集合から一部の単語ベクトル特徴を抽出して決定木の分割を行い、最後に複数の決定木を統合して統合分類器を成し、この統合分類器をランダムフォレストと呼ぶ。そのアルゴリズムフローは、サブサンプルセットの生成、決定木の構築、投票による結果の生成の3つの部分に分けられ、その具体的なフローは以下のとおりである。
【0095】
ステップS501は、サブサンプルセットの生成である。
【0096】
ランダムフォレストは、各ベース分類器に対して、ベース分類器の入力変数として一定のサンプルサブセットを生成する必要がある統合分類器である。評価モデルを両立させるために、サンプルセットの分割には複数の方式があり、本願の実施例では、相互認証の方式を用いてデータセットを分割し、前記相互認証は訓練しようとするテキストを文字数に応じて、k(kはゼロより大きい任意の自然数である)個のサブデータセットに分割し、訓練するたびに、そのうちの1つのサブデータセットをテストセットとし、他のサブデータセットを訓練セットとし、k回入れ替わりしてステップを行う。
【0097】
ステップS502は、決定木の構築である。
【0098】
ランダムフォレストでは、各ベース分類器は1つの独立した決定木である。決定木の構築過程において、最終分類の精度を向上させるように、分割ルールを利用して最適な特徴を探してサンプルを分割しようとする。ランダムフォレストの決定木と一般的な決定木は構築方式が基本的に一致し、異なる点として、ランダムフォレストの決定木は分割を行う時に、特徴セット全体を検索して特徴を選択することではなく、特徴をk(kはゼロより大きい任意の自然数である)個ランダムに選択して分割することである。本願の実施例では、各テキストベクトルを決定木の根とし、上述した畳み込みニューラルネットワークを用いて得られたテキストベクトルラベルの特徴を決定木のサブノードとし、その下のノードをそれぞれ再抽出された特徴とすることにより、各決定木を訓練する。
【0099】
ただし、分割ルールとは、決定木の分割時に係る具体的なルールである。例えば、どの特徴を選択するか、分割の条件が何であるか、また、いつ分割を終了するかが分かる必要がある。決定木の生成が相対的に短絡するため、分割ルールによりそれを調整してはじめて、それをよりよく見えるようにすることができる。
【0100】
ステップS503は、投票による結果の生成である。ランダムフォレストの分類結果は決定木である各ベース分類器が投票を行って得られるものである。ランダムフォレストはベース分類器を同等に扱い、各決定木は1つの分類結果を得て、すべての決定木の投票結果を集めて累積加算し、投票数が最も高い結果を最終結果とする。これにより、各決定木(ラベル分類を必要とするテキストベクトル)の各サブノード(ラベル)のスコア状況に基づいて、このラベルのスコアが本願に設定された閾値tを超えると、このラベルはこのテキストベクトルを解釈できると考えられ、それによりこのテキストベクトルのすべてのラベルを取得する。ただし、閾値tの確認方式は、この決定木のすべての分類器の投票結果の累積*0.3である。
【0101】
さらに、前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルのランダムフォレストアルゴリズムによる投票結果に対して重みソートを行い、重み値が最も大きい投票結果をカテゴリキーワードとし、前記カテゴリキーワードの間の語義関係を利用し、分類結果、すなわち前記テキストベクトルのテキスト分類結果を形成する。
【0102】
選択可能に、他の実施例では、テキスト分類プログラムは1つ以上のモジュールにさらに分割されてもよく、1つ以上のモジュールはメモリ11に記憶され、かつ1つ以上のプロセッサ(本実施例ではプロセッサ12)により実行されて本願を完了し、本願で言われたモジュールとは特定の機能を完成することができる一連のコンピュータプログラム命令セグメントであり、テキスト分類プログラムのテキスト分類装置における実行過程を説明するために用いられる。
【0103】
例えば、図3に示すように、本願のテキスト分類装置の一実施例におけるテキスト分類プログラムのプログラムモジュールを示す図であり、この実施例では、前記テキスト分類プログラムはデータ受信及び処理モジュール10と、単語ベクトルへの変換モジュール20と、モデル訓練モジュール30と、テキスト分類出力モジュール40とに分割されてもよい。
【0104】
一例として、前記データ受信及び処理モジュール10は、オリジナルのテキストデータを受信し、前記オリジナルのテキストデータに対して単語切り分け、ストップワード除去を含む前処理を行って第4のテキストデータを得るために用いられる。
【0105】
前記単語ベクトルへの変換モジュール20は、前記第4のテキストデータに対して単語ベクトル化を行ってテキストベクトルを得るために用いられる。
【0106】
前記モデル訓練モジュール30は、テキストベクトルを予め構築された畳み込みニューラルネットワークモデルに入力して訓練し、訓練値を得て、前記訓練値が予め設定された閾値より小さい場合、前記畳み込みニューラルネットワークモデルが訓練を終了するために用いられる。
【0107】
前記テキスト分類出力モジュール40は、ユーザから入力されたテキストを受信し、前記テキストに対して上記前処理、単語得ベクトル化を行った後に前記テキスト分類に入力して出力する。
【0108】
上記データ受信及び処理モジュール10、単語ベクトルへの変換モジュール20、モデル訓練モジュール30、テキスト分類出力モジュール40などのプログラムモジュールが実行されると実現させる機能又は操作ステップは上記実施例とほぼ同じであるため、ここでは詳細は再度説明しない。
【0109】
また、本願は、テキスト分類プログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記テキスト分類プログラムは1つ以上のプロセッサにより実行されて以下の操作を実現するコンピュータ読み取り可能な記憶媒体をさらに提供する。
【0110】
オリジナルのテキストデータを受信し、前記オリジナルのテキストデータに対して単語切り分け、ストップワード除去を含む前処理を行って第4のテキストデータを得る。
【0111】
前記第4のテキストデータに対して単語ベクトル化を行ってテキストベクトルを得る。
【0112】
前記テキストベクトルを予め構築されたテキスト分類モデルに入力して訓練し、訓練値を得て、前記訓練値が予め設定された閾値より小さい場合、前記畳み込みニューラルネットワークモデルが訓練を終了する。
【0113】
ユーザから入力されたオリジナルのテキストデータを受信し、オリジナルのテキストデータに対して上記前処理、単語ベクトル化及び単語ベクトル符号化を行った後に前記畳み込みニューラルネットワークモデルに入力してテキスト分類結果を生成し出力する。
【0114】
なお、上記本願の実施例の番号は単に説明するためのものであり、実施例の優劣を表すものではない。また、本明細書における用語の「含む」、「包含」又はその他の任意の変形は非排他的な包含をカバーすることを意図し、それにより、一連の要素を含むプロセス、装置、物品又は方法はそれらの要素を含むだけでなく、また明確に列挙されない他の要素を含み、又はこのようなプロセス、装置、物品又は方法に固有の要素を含む。それ以上の制限がない場合、文の「1つ……を含む」によって限定された要素は、この要素を含むプロセス、装置、物品又は方法に別の同じ要素がさらに存在することを排除するものではない。
【0115】
以上の実施形態の説明により、当業者であれば、上記実施例による方法はソフトウェアに必要な汎用ハードウェアプラットフォームを加えるという方式によって実現でき、当然ながら、ハードウェアによっても実現できるが、前者はより好ましい実施形態である場合が多いことを明らかに了解することができる。このような理解に基づいて、本願の技術的解決手段は本質的に又は従来技術に寄与する部分はソフトウェア製品の形態で具現化することができ、このコンピュータソフトウェア製品は上記の記憶媒体(例えばROM/RAM、磁気ディスク、光ディスク)に記憶され、端末機器(携帯電話、コンピュータ、サーバ、又はネットワーク機器などであってもよい)に本願の各実施例に記載の方法を実行させるための複数の命令を含む。
【0116】
以上は本願の好ましい実施例に過ぎず、それにより本願の特許範囲を限定するものではなく、本願の明細書及び図面の内容を利用して行われた同等の構造又は同等のフロー変換は、他の関連技術分野に直接的又は間接的に適用され、いずれも同様に本願の特許保護範囲内に含まれる。
図1
図2
図3
【手続補正書】
【提出日】2021-11-19
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得るステップと、
前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得るステップと、
前記ラベル付きのテキストベクトルをBERTモデルに入力して文字ベクトル特徴を取得するステップと、
前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得るステップと、
ランダムフォレストモデルを用いて前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルに対してマルチラベル分類を行い、テキスト分類結果を得るステップと、を含むことを特徴とするテキスト分類方法。
【請求項2】
オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得る前記ステップは、
前記オリジナルのテキストデータに対して単語分割操作を行って第2のテキストデータを得るステップと、
前記第2のテキストデータに対してストップワード除去操作を行って第3のテキストデータを得るステップと、
前記第3のテキストデータに対して重複除去操作を行って第4のテキストデータを得るステップと、
前記第4のテキストデータに対して単語ベクトル形式への変換を行って前記テキストベクトルを得るステップと、を含むことを特徴とする請求項1に記載のテキスト分類方法。
【請求項3】
前記BERTモデルは入力層、単語ベクトル層、分類層、符号化層を含み、また、
前記ラベル付きのテキストベクトルをBERTモデルに入力して文字ベクトル特徴を取得する前記ステップは、
ラベル付きのテキストベクトルの品詞を取得し、前記品詞を品詞ベクトルに変換するステップと、
前記ラベル付きのテキストベクトルに対応する前記品詞ベクトルをBERTモデルに入力してデータ処理を行い、前記ラベル付きのテキストベクトルの単語行列を得るステップと、
前記ラベル付きのテキストベクトルの単語行列に基づいて前記ラベル付きのテキストベクトルの文字ベクトル特徴を得るステップと、を含むことを特徴とする請求項1に記載のテキスト分類方法。
【請求項4】
前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得る前記ステップは、
前記ラベルなしのテキストベクトルを前記畳み込みニューラルネットワークモデルの畳み込み層に入力して前記畳み込みニューラルネットワークモデルを訓練し、訓練後の畳み込みニューラルネットワークモデルを得るステップと、
前記文字ベクトル特徴を前記訓練後の畳み込みニューラルネットワークモデルに入力し、特徴ベクトルを得るステップと、
前記特徴ベクトルに対して正規化処理を行って前記仮想ラベルを得るステップと、
前記仮想ラベルを前記ラベルなしのテキストベクトルにマッチングさせ、仮想ラベル付きのテキストベクトルを得るステップと、を含むことを特徴とする請求項1-3のいずれか1項に記載のテキスト分類方法。
【請求項5】
仮想ラベル付きのテキストベクトルを得る前記ステップの後、前記ランダムフォレストモデルを生成するステップをさらに含み、
前記ランダムフォレストモデルを生成する前記ステップは、
バギングアルゴリズムの復元サンプリングアルゴリズムを用いて、前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルから複数のサンプルサブセットを抽出し、前記サンプルサブセットを用いて複数の決定木モデルを訓練するステップと、
前記決定木モデルをベース分類器とし、予め設定された分割ルールを利用して前記サンプルサブセットを分割し、複数の前記決定木モデルで構成されるランダムフォレストモデルを生成するステップと、を含むことを特徴とする請求項に記載のテキスト分類方法。
【請求項6】
テキスト分類装置であって、メモリとプロセッサとを含み、前記メモリに前記プロセッサで実行可能なテキスト分類プログラムが記憶されており、前記テキスト分類プログラムが前記プロセッサにより実行されると、
オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得るステップと、
前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得るステップと、
前記ラベル付きのテキストベクトルをBERTモデルに入力して文字ベクトル特徴を取得するステップと、
前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得るステップと、
ランダムフォレストモデルを用いて前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルに対してマルチラベル分類を行い、テキスト分類結果を得るステップと、を実現させることを特徴とするテキスト分類装置。
【請求項7】
オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得る前記ステップは、
前記オリジナルのテキストデータに対して単語分割操作を行って第2のテキストデータを得るステップと、
前記第2のテキストデータに対してストップワード除去操作を行って第3のテキストデータを得るステップと、
前記第3のテキストデータに対して重複除去操作を行って第4のテキストデータを得るステップと、
前記第4のテキストデータに対して単語ベクトル形式への変換を行って前記テキストベクトルを得るステップと、を含むことを特徴とする請求項に記載のテキスト分類装置。
【請求項8】
前記BERTモデルは入力層、単語ベクトル層、分類層、符号化層を含み、また、
前記ラベル付きのテキストベクトルをBERTモデルに入力して文字ベクトル特徴を取得する前記ステップは、
ラベル付きのテキストベクトルの品詞を取得し、前記品詞を品詞ベクトルに変換するステップと、
前記ラベル付きのテキストベクトルに対応する前記品詞ベクトルをBERTモデルに入力してデータ処理を行い、前記ラベル付きのテキストベクトルの単語行列を得るステップと、
前記ラベル付きのテキストベクトルの単語行列に基づいて前記ラベル付きのテキストベクトルの文字ベクトル特徴を得るステップと、を含むことを特徴とする請求項に記載のテキスト分類装置。
【請求項9】
前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得る前記ステップは、
前記ラベルなしのテキストベクトルを前記畳み込みニューラルネットワークモデルの畳み込み層に入力して前記畳み込みニューラルネットワークモデルを訓練し、訓練後の畳み込みニューラルネットワークモデルを得るステップと、
前記文字ベクトル特徴を前記訓練後の畳み込みニューラルネットワークモデルに入力し、特徴ベクトルを得るステップと、
前記特徴ベクトルに対して正規化処理を行って前記仮想ラベルを得るステップと、
前記仮想ラベルを前記ラベルなしのテキストベクトルにマッチングさせ、仮想ラベル付きのテキストベクトルを得るステップと、を含むことを特徴とする請求項6-8のいずれか1項に記載のテキスト分類装置。
【請求項10】
仮想ラベル付きのテキストベクトルを得る前記ステップの後、前記ランダムフォレストモデルを生成するステップをさらに含み、
前記ランダムフォレストモデルを生成する前記ステップは、
バギングアルゴリズムの復元サンプリングアルゴリズムを用いて、前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルから複数のサンプルサブセットを抽出し、前記サンプルサブセットを用いて複数の決定木モデルを訓練するステップと、
前記決定木モデルをベース分類器とし、予め設定された分割ルールを利用して前記サンプルサブセットを分割し、複数の前記決定木モデルで構成されるランダムフォレストモデルを生成するステップと、を含むことを特徴とする請求項に記載のテキスト分類装置。
【請求項11】
コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な記憶媒体にテキスト分類プログラムが記憶されており、前記テキスト分類プログラムは1つ以上のプロセッサにより実行されて、前記テキスト分類プログラムが前記プロセッサにより実行されると、
オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得るステップと、
前記テキストベクトルに対してラベルマッチングを行い、ラベル付きのテキストベクトルとラベルなしのテキストベクトルを得るステップと、
前記ラベル付きのテキストベクトルをBERTモデルに入力して文字ベクトル特徴を取得するステップと、
前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得るステップと、
ランダムフォレストモデルを用いて前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルに対してマルチラベル分類を行い、テキスト分類結果を得るステップと、を実現させることを実現することを特徴とするコンピュータ読み取り可能な記憶媒体。
【請求項12】
オリジナルのテキストデータに対して前処理を行ってテキストベクトルを得る前記ステップは、
前記オリジナルのテキストデータに対して単語分割操作を行って第2のテキストデータを得るステップと、
前記第2のテキストデータに対してストップワード除去操作を行って第3のテキストデータを得るステップと、
前記第3のテキストデータに対して重複除去操作を行って第4のテキストデータを得るステップと、
前記第4のテキストデータに対して単語ベクトル形式への変換を行って前記テキストベクトルを得るステップと、を含むことを特徴とする請求項11に記載のコンピュータ読み取り可能な記憶媒体。
【請求項13】
前記BERTモデルは入力層、単語ベクトル層、分類層、符号化層を含み、また、
前記ラベル付きのテキストベクトルをBERTモデルに入力して文字ベクトル特徴を取得する前記ステップは、
ラベル付きのテキストベクトルの品詞を取得し、前記品詞を品詞ベクトルに変換するステップと、
前記ラベル付きのテキストベクトルに対応する前記品詞ベクトルをBERTモデルに入力してデータ処理を行い、前記ラベル付きのテキストベクトルの単語行列を得るステップと、
前記ラベル付きのテキストベクトルの単語行列に基づいて前記ラベル付きのテキストベクトルの文字ベクトル特徴を得るステップと、を含むことを特徴とする請求項11に記載のコンピュータ読み取り可能な記憶媒体。
【請求項14】
前記文字ベクトル特徴に基づいて、畳み込みニューラルネットワークモデルを用いて前記ラベルなしのテキストベクトルを訓練し、仮想ラベル付きのテキストベクトルを得る前記ステップは、
前記ラベルなしのテキストベクトルを前記畳み込みニューラルネットワークモデルの畳み込み層に入力して前記畳み込みニューラルネットワークモデルを訓練し、訓練後の畳み込みニューラルネットワークモデルを得るステップと、
前記文字ベクトル特徴を前記訓練後の畳み込みニューラルネットワークモデルに入力し、特徴ベクトルを得るステップと、
前記特徴ベクトルに対して正規化処理を行って前記仮想ラベルを得るステップと、
前記仮想ラベルを前記ラベルなしのテキストベクトルにマッチングさせ、仮想ラベル付きのテキストベクトルを得るステップと、を含むことを特徴とする請求項11-13のいずれか1項に記載のコンピュータ読み取り可能な記憶媒体。
【請求項15】
仮想ラベル付きのテキストベクトルを得る前記ステップの後、前記ランダムフォレストモデルを生成するステップをさらに含み、
前記ランダムフォレストモデルを生成する前記ステップは、
バギングアルゴリズムの復元サンプリングアルゴリズムを用いて、前記ラベル付きのテキストベクトルと仮想ラベル付きのテキストベクトルから複数のサンプルサブセットを抽出し、前記サンプルサブセットを用いて複数の決定木モデルを訓練するステップと、
前記決定木モデルをベース分類器とし、予め設定された分割ルールを利用して前記サンプルサブセットを分割し、複数の前記決定木モデルで構成されるランダムフォレストモデルを生成するステップと、を含むことを特徴とする請求項14に記載のコンピュータ読み取り可能な記憶媒体。
【国際調査報告】