(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-04-15
(45)【発行日】2022-04-25
(54)【発明の名称】情報処理方法、装置及び記憶媒体
(51)【国際特許分類】
G06F 40/30 20200101AFI20220418BHJP
G06F 40/216 20200101ALI20220418BHJP
G06F 16/35 20190101ALI20220418BHJP
【FI】
G06F40/30
G06F40/216
G06F16/35
(21)【出願番号】P 2020130420
(22)【出願日】2020-07-31
【審査請求日】2020-07-31
(31)【優先権主張番号】202010059203.3
(32)【優先日】2020-01-19
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】520274253
【氏名又は名称】ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド
(74)【代理人】
【識別番号】100107489
【氏名又は名称】大塩 竹志
(72)【発明者】
【氏名】シュー ゼユ
(72)【発明者】
【氏名】デン ションウェン
【審査官】成瀬 博之
(56)【参考文献】
【文献】特開2018-081298(JP,A)
【文献】国際公開第2019/082362(WO,A1)
【文献】特表2019-533259(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/20-40/58
G06F 16/00-16/958
G06N 3/00-99/00
(57)【特許請求の範囲】
【請求項1】
情報処理方法であって、
前記情報処理方法は、
第1コーパスデータに対して単語分離処理を行って、少なくとも1つの単語を含む第2コーパスデータを取得することと、
第1事前訓練モデルに基づいて前記第2コーパスデータに含まれる前記少なくとも1つの単語を処理して、前記第2コーパスデータに対応する第1特徴ベクトルシーケンスを取得することと、
第2事前訓練モデルに基づいて前記第1コーパスデータに含まれる文字を処理して、前記第1コーパスデータに対応する第2特徴ベクトルシーケンスを取得することと、
前記第1特徴ベクトルシーケンス及び前記第2特徴ベクトルシーケンスに基づき、ターゲット特徴ベクトルを取得すること
と
を含
み、
前記第1特徴ベクトルシーケンス及び前記第2特徴ベクトルシーケンスにそれぞれ少なくとも1つの特徴ベクトルが含まれており、前記第1特徴ベクトルシーケンス及び前記第2特徴ベクトルシーケンスに基づいてターゲット特徴ベクトルを取得することは、
畳み込みニューラルネットワークモデルに基づいて前記第1特徴ベクトルシーケンスを処理して、前記第1特徴ベクトルシーケンスから第1特徴ベクトルを抽出することと、
長期短期記憶モデルに基づいて前記第1特徴ベクトルシーケンスを処理して、前記第1特徴ベクトルシーケンスから第2特徴ベクトルを抽出することと、
前記第2事前訓練モデルに基づいて前記第2特徴ベクトルシーケンスを処理して、前記第2特徴ベクトルシーケンスから第3特徴ベクトルを抽出することと、
前記第1特徴ベクトル、前記第2特徴ベクトル及び前記第3特徴ベクトルに基づき、スプライシング処理によってターゲット特徴ベクトルを取得することと
を含む、情報処理方法。
【請求項2】
前記第1特徴ベクトル、前記第2特徴ベクトル及び前記第3特徴ベクトルに基づいてスプライシング処理によってターゲット特徴ベクトルを取得することは、
前記第1特徴ベクトルの末端に前記第2特徴ベクトルをスプライシングして、スプライシング後の第2特徴ベクトルの末端に前記第3特徴ベクトルをスプライシングして、スプライシング後の特徴ベクトルを取得することと、
前記スプライシング後の特徴ベクトルを次元削減処理して、前記ターゲット特徴ベクトルを取得すること
と
を含む
、請求項
1に記載の方法。
【請求項3】
前記第2コーパスデータに含まれる単語が単語識別子を有し、第1事前訓練モデルに基づいて前記第2コーパスデータを処理して、前記第2コーパスデータに対応する第1特徴ベクトルシーケンスを取得することは、
前記第2コーパスデータに含まれる各前記単語の単語識別子を決定することと、
各前記単語の単語識別子に基づいて前記第1事前訓練モデルの設定単語ベクトルマッピングテーブルをクエリし、前記設定単語ベクトルマッピングテーブルから各前記単語の特徴ベクトルを決定することであって、前記設定単語ベクトルマッピングテーブルに各前記単語の単語識別子と各前記特徴ベクトルとのマッピング関係が含まれ
ている
、ことと、
決定された各前記単語の特徴ベクトルを第1設定順序通りに配列して、前記第1特徴ベクトルシーケンスを取得すること
と
を含む
、請求項1に記載の方法。
【請求項4】
前記第1コーパスデータに含まれる文字が文字識別子を有し、第2事前訓練モデルに基づいて前記第1コーパスデータを処理して、前記第1コーパスデータに対応する第2特徴ベクトルシーケンスを取得することは、
前記第1コーパスデータに含まれる各前記文字の文字識別子を決定することと、
前記第2事前訓練モデルが前記第1コーパスデータにおける各前記文字のコンテクストを分析して、分析結果を取得することと、
前記分析結果及び前記文字の文字識別子に基づき、前記第2事前訓練モデルの設定文字ベクトルマッピングテーブルをクエリし、前記設定単語ベクトルマッピングテーブルから各前記文字の特徴ベクトルを決定することであって、前記設定文字ベクトルマッピングテーブルに各前記文字の文字識別子と各前記特徴ベクトルとのマッピング関係が含まれ
ている
、ことと、
決定された各前記文字の特徴ベクトルを第2設定順序通りに配列して、前記第2特徴ベクトルシーケンスを取得すること
と
を含む
、請求項1に記載の方法。
【請求項5】
前記方法は
、設定分類モデルに基づいて前記ターゲット特徴ベクトルを分類処理して、分類結果を取得することを
更に含む
、請求項1に記載の方法。
【請求項6】
情報処理装置であって、
前記情報処理装置は、
第1コーパスデータに対して単語分離処理を行って、少なくとも1つの単語を含む第2コーパスデータを取得するように構成される第1処理モジュールと、
第1事前訓練モデルに基づいて前記第2コーパスデータに含まれる前記少なくとも1つの単語を処理して、前記第2コーパスデータに対応する第1特徴ベクトルシーケンスを取得するように構成される第2処理モジュールと、
第2事前訓練モデルに基づいて前記第1コーパスデータに含まれる文字を処理して、前記第1コーパスデータに対応する第2特徴ベクトルシーケンスを取得するように構成される第3処理モジュールと、
前記第1特徴ベクトルシーケンス及び前記第2特徴ベクトルシーケンスに基づき、ターゲット特徴ベクトルを取得するように構成される取得モジュール
と
を備え
、
前記第1特徴ベクトルシーケンス及び前記第2特徴ベクトルシーケンスにそれぞれ少なくとも1つの特徴ベクトルが含まれており、前記取得モジュールは、
畳み込みニューラルネットワークモデルに基づいて前記第1特徴ベクトルシーケンスを処理して、前記第1特徴ベクトルシーケンスから第1特徴ベクトルを抽出し、
長期短期記憶モデルに基づいて前記第1特徴ベクトルシーケンスを処理して、前記第1特徴ベクトルシーケンスから第2特徴ベクトルを抽出することと、
前記第2事前訓練モデルに基づいて前記第2特徴ベクトルシーケンスを処理して、前記第2特徴ベクトルシーケンスから第3特徴ベクトルを抽出することと、
前記第1特徴ベクトル、前記第2特徴ベクトル及び前記第3特徴ベクトルに基づき、スプライシング処理によってターゲット特徴ベクトルを取得することと
を行うように更に構成される、情報処理装置。
【請求項7】
前記取得モジュールは
、
前記第1特徴ベクトルの末端に前記第2特徴ベクトルをスプライシングして、スプライシング後の第2特徴ベクトルの末端に前記第3特徴ベクトルをスプライシングして、スプライシング後の特徴ベクトルを取得
することと、
前記スプライシング後の特徴ベクトルを次元削減処理して、前記ターゲット特徴ベクトルを取得
することと
を行うように
更に構成される
、請求項
6に記載の装置。
【請求項8】
前記第2処理モジュールは
、
前記第2コーパスデータに含まれる各前記単語の単語識別子を決定
することと、
各前記単語の単語識別子に基づいて前記第1事前訓練モデルの設定単語ベクトルマッピングテーブルをクエリし、前記設定単語ベクトルマッピングテーブルから各前記単語の特徴ベクトルを決定
することであって、前記設定単語ベクトルマッピングテーブルに各前記単語の単語識別子と各前記特徴ベクトルとのマッピング関係が含まれて
いる、ことと、
決定された各前記単語の特徴ベクトルを第1設定順序通りに配列して、前記第1特徴ベクトルシーケンスを取得する
ことと
を行うように
更に構成される
、請求項
6に記載の装置。
【請求項9】
前記第3処理モジュールは
、
前記第1コーパスデータに含まれる各前記文字の文字識別子を決定
することと、
前記第2事前訓練モデルが前記第1コーパスデータにおける各前記文字のコンテクストを分析して、分析結果を取得
することと、
前記分析結果及び前記文字の文字識別子に基づき、前記第2事前訓練モデルの設定文字ベクトルマッピングテーブルをクエリし、前記設定単語ベクトルマッピングテーブルから各前記文字の特徴ベクトルを決定
することであって、前記設定文字ベクトルマッピングテーブルに各前記文字の文字識別子と各前記特徴ベクトルとのマッピング関係が含まれて
いる、ことと、
決定された各前記文字の特徴ベクトルを第2設定順序通りに配列して、前記第2特徴ベクトルシーケンスを取得する
ことと
を行うように
更に構成される
、請求項
6に記載の装置。
【請求項10】
前記装置は
、設定分類モデルに基づいて前記ターゲット特徴ベクトルを分類処理して、分類結果を取得するように構成される分類モジュールを
更に備える
、請求項
6に記載の装置。
【請求項11】
情報処理装置であって、
前記情報処理装置は、
プロセッサと、
プロセッサ実行可能
な命令を記憶するように構成されるメモリ
と
を備え、
前記プロセッサは
、前記命令を実行することにより、請求項1~
5のいずれか1項に記載の情報処理方法
を実現するように構成される
、情報処理装置。
【請求項12】
非一時的
なコンピュータ
読み取り可能な記憶媒体であって、
前記記憶媒体
には命令が記憶されており、前記命令は、情報処理装置のプロセッサに
よって実行されると
、前記
情報処理装置
が請求項1~
5のいずれか1項に記載の情報処理方法を実行することを可能にする
、非一時的
なコンピュータ
読み取り可能な記憶媒体。
【請求項13】
記憶媒体に記憶されるコンピュータプログラムであって、
前記コンピュータプログラムは、情報処理装置のプロセッサに
よって実行される
と、請求項1~
5のいずれか1項に記載の情報処理方法を実行
することを前記情報処理装置に行わせる、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本願は、2020年01月19日に提出した中国特許出願第2020100592033号の優先権を主張し、ここで、該中国特許出願の全内容が援用により本願に組み込まれる。
【0002】
本開示はコンピュータ通信分野に関し、特に情報処理方法、装置及び記憶媒体に関する。
【背景技術】
【0003】
前世紀90年代以来、インターネットが迅速に発展し、現在ビッグデータ時代に入り、インターネットにはテキスト、音声、画像、ビデオ等を含む大量の情報及びデータがある。ここで言うテキストはメディア・ニュース、テクノロジー、レポート、電子メール、技術特許、書籍等である。画像音声データに比べて、テキストの占有したネットワークリソースが少なく、容易にアップロード・ダウンロードすることができ、これにより、多くのネットワークリソースがテキストの形式で出現する。どのようにこれらのテキスト情報を効果的に組織・管理して、その中からユーザーに必要なテキスト情報を迅速、正確且つ全面的に検索するかは現在の情報科学技術が望んでいるチャレンジである。
【0004】
初期のテキスト分類は主に知識工学に基づき、手動でいくつかのルールを定義することでテキストを分類するものであり、このような方法は時間がかかって手がかかり、更にある分野を十分に理解しなければ、適切なルールを見つけることができず、且つ、訓練サンプルがより少ない場合、分類の正確性が低下してしまう。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本開示は情報処理方法、装置及び記憶媒体を提供する。
【課題を解決するための手段】
【0006】
本開示の実施例に係る第1態様では、情報処理方法を提供し、該情報処理方法は、
第1コーパスデータに対して単語分離処理を行って、少なくとも1つの単語を含む第2コーパスデータを取得することと、
第1事前訓練モデルに基づいて前記第2コーパスデータに含まれる前記少なくとも1つの単語を処理して、前記第2コーパスデータに対応する第1特徴ベクトルシーケンスを取得することと、
第2事前訓練モデルに基づいて前記第1コーパスデータに含まれる文字を処理して、前記第1コーパスデータに対応する第2特徴ベクトルシーケンスを取得することと、
前記第1特徴ベクトルシーケンス及び前記第2特徴ベクトルシーケンスに基づき、ターゲット特徴ベクトルを取得することと、を含む。
【0007】
好ましくは、前記第1特徴ベクトルシーケンス及び前記第2特徴ベクトルシーケンスにそれぞれ少なくとも1つの特徴ベクトルが含まれており、前記第1特徴ベクトルシーケンス及び前記第2特徴ベクトルシーケンスに基づいてターゲット特徴ベクトルを取得することは、
畳み込みニューラルネットワークモデルに基づいて前記第1特徴ベクトルシーケンスを処理して、前記第1特徴ベクトルシーケンスから第1特徴ベクトルを抽出することと、
長期短期記憶モデルに基づいて前記第1特徴ベクトルシーケンスを処理して、前記第1特徴ベクトルシーケンスから第2特徴ベクトルを抽出することと、
前記第2事前訓練モデルに基づいて前記第2特徴ベクトルシーケンスを処理して、前記第2特徴ベクトルシーケンスから第3特徴ベクトルを抽出することと、
前記第1特徴ベクトル、前記第2特徴ベクトル及び前記第3特徴ベクトルに基づき、スプライシング処理によってターゲット特徴ベクトルを取得することと、を含む。
【0008】
好ましくは、前記第1特徴ベクトル、前記第2特徴ベクトル及び前記第3特徴ベクトルに基づいてスプライシング処理によってターゲット特徴ベクトルを取得することは、
前記第1特徴ベクトルの末端に前記第2特徴ベクトルをスプライシングして、スプライシング後の第2特徴ベクトルの末端に前記第3特徴ベクトルをスプライシングして、スプライシング後の特徴ベクトルを取得することと、
前記スプライシング後の特徴ベクトルを次元削減処理して、前記ターゲット特徴ベクトルを取得することと、を含む。
【0009】
好ましくは、前記第2コーパスデータに含まれる単語が単語識別子を有し、第1事前訓練モデルに基づいて前記第2コーパスデータを処理して、前記第2コーパスデータに対応する第1特徴ベクトルシーケンスを取得することは、
前記第2コーパスデータに含まれる各前記単語の単語識別子を決定することと、
各前記単語の単語識別子に基づいて前記第1事前訓練モデルの設定単語ベクトルマッピングテーブルをクエリし、前記設定単語ベクトルマッピングテーブルから各前記単語の特徴ベクトルを決定することであって、前記設定単語ベクトルマッピングテーブルに各前記単語の単語識別子と各前記特徴ベクトルとのマッピング関係が含まれることと、
決定された各前記単語の特徴ベクトルを第1設定順序通りに配列して、前記第1特徴ベクトルシーケンスを取得することと、を含む。
【0010】
好ましくは、前記第1コーパスデータに含まれる文字が文字識別子を有し、第2事前訓練モデルに基づいて前記第1コーパスデータを処理して、前記第1コーパスデータに対応する第2特徴ベクトルシーケンスを取得することは、
前記第1コーパスデータに含まれる各前記文字の文字識別子を決定することと、
前記第2事前訓練モデルが前記第1コーパスデータにおける各前記文字のコンテクストを分析して、分析結果を取得することと、
前記分析結果及び前記文字の文字識別子に基づき、前記第2事前訓練モデルの設定文字ベクトルマッピングテーブルをクエリし、前記設定単語ベクトルマッピングテーブルから各前記文字の特徴ベクトルを決定することであって、前記設定文字ベクトルマッピングテーブルに各前記文字の文字識別子と各前記特徴ベクトルとのマッピング関係が含まれることと、
決定された各前記文字の特徴ベクトルを第2設定順序通りに配列して、前記第2特徴ベクトルシーケンスを取得することと、を含む。
【0011】
好ましくは、前記方法は、更に、
設定分類モデルに基づいて前記ターゲット特徴ベクトルを分類処理して、分類結果を取得することを含む。
【0012】
本開示の実施例に係る第2態様では、情報処理装置を提供し、該情報処理装置は、
第1コーパスデータに対して単語分離処理を行って、少なくとも1つの単語を含む第2コーパスデータを取得するように構成される第1処理モジュールと、
第1事前訓練モデルに基づいて前記第2コーパスデータに含まれる前記少なくとも1つの単語を処理して、前記第2コーパスデータに対応する第1特徴ベクトルシーケンスを取得するように構成される第2処理モジュールと、
第2事前訓練モデルに基づいて前記第1コーパスデータに含まれる文字を処理して、前記第1コーパスデータに対応する第2特徴ベクトルシーケンスを取得するように構成される第3処理モジュールと、
前記第1特徴ベクトルシーケンス及び前記第2特徴ベクトルシーケンスに基づき、ターゲット特徴ベクトルを取得するように構成される取得モジュールと、を備える。
【0013】
好ましくは、前記第1特徴ベクトルシーケンス及び前記第2特徴ベクトルシーケンスにそれぞれ少なくとも1つの特徴ベクトルが含まれており、前記取得モジュールは、更に、
畳み込みニューラルネットワークモデルに基づいて前記第1特徴ベクトルシーケンスを処理して、前記第1特徴ベクトルシーケンスから第1特徴ベクトルを抽出し、
長期短期記憶モデルに基づいて前記第1特徴ベクトルシーケンスを処理して、前記第1特徴ベクトルシーケンスから第2特徴ベクトルを抽出し、
前記第2事前訓練モデルに基づいて前記第2特徴ベクトルシーケンスを処理して、前記第2特徴ベクトルシーケンスから第3特徴ベクトルを抽出し、
前記第1特徴ベクトル、前記第2特徴ベクトル及び前記第3特徴ベクトルに基づき、スプライシング処理によってターゲット特徴ベクトルを取得するように構成される。
【0014】
好ましくは、前記取得モジュールは、更に、
前記第1特徴ベクトルの末端に前記第2特徴ベクトルをスプライシングして、スプライシング後の第2特徴ベクトルの末端に前記第3特徴ベクトルをスプライシングして、スプライシング後の特徴ベクトルを取得し、
前記スプライシング後の特徴ベクトルを次元削減処理して、前記ターゲット特徴ベクトルを取得するように構成される。
【0015】
好ましくは、前記第2処理モジュールは、更に、
前記第2コーパスデータに含まれる各前記単語の単語識別子を決定し、
各前記単語の単語識別子に基づいて前記第1事前訓練モデルの設定単語ベクトルマッピングテーブルをクエリし、前記設定単語ベクトルマッピングテーブルから各前記単語の特徴ベクトルを決定し、前記設定単語ベクトルマッピングテーブルに各前記単語の単語識別子と各前記特徴ベクトルとのマッピング関係が含まれており、
決定された各前記単語の特徴ベクトルを第1設定順序通りに配列して、前記第1特徴ベクトルシーケンスを取得するように構成される。
【0016】
好ましくは、前記第3処理モジュールは、更に、
前記第1コーパスデータに含まれる各前記文字の文字識別子を決定し、
前記第2事前訓練モデルが前記第1コーパスデータにおける各前記文字のコンテクストを分析して、分析結果を取得し、
前記分析結果及び前記文字の文字識別子に基づき、前記第2事前訓練モデルの設定文字ベクトルマッピングテーブルをクエリし、前記設定単語ベクトルマッピングテーブルから各前記文字の特徴ベクトルを決定し、前記設定文字ベクトルマッピングテーブルに各前記文字の文字識別子と各前記特徴ベクトルとのマッピング関係が含まれており、
決定された各前記文字の特徴ベクトルを第2設定順序通りに配列して、前記第2特徴ベクトルシーケンスを取得するように構成される。
【0017】
好ましくは、前記装置は、更に、
設定分類モデルに基づいて前記ターゲット特徴ベクトルを分類処理して、分類結果を取得するように構成される分類モジュールを備える。
【0018】
本開示の実施例に係る第3態様では、情報処理装置を提供し、該情報処理装置は、
プロセッサと、
プロセッサ実行可能命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは実行時に上記第1態様における情報処理方法のステップを実現するように構成される。
【0019】
本開示の実施例に係る第4態様では、非一時的コンピュータ可読記憶媒体を提供し、前記記憶媒体における命令が情報処理装置のプロセッサにより実行されるとき、前記装置が上記第1態様における情報処理方法を実行するようにする。
【0020】
例えば、本願は以下の項目を提供する。
(項目1)
情報処理方法であって、
第1コーパスデータに対して単語分離処理を行って、少なくとも1つの単語を含む第2コーパスデータを取得することと、
第1事前訓練モデルに基づいて上記第2コーパスデータに含まれる上記少なくとも1つの単語を処理して、上記第2コーパスデータに対応する第1特徴ベクトルシーケンスを取得することと、
第2事前訓練モデルに基づいて上記第1コーパスデータに含まれる文字を処理して、上記第1コーパスデータに対応する第2特徴ベクトルシーケンスを取得することと、
上記第1特徴ベクトルシーケンス及び上記第2特徴ベクトルシーケンスに基づき、ターゲット特徴ベクトルを取得することと、を含むことを特徴とする、上記情報処理方法。
(項目2)
上記第1特徴ベクトルシーケンス及び上記第2特徴ベクトルシーケンスにそれぞれ少なくとも1つの特徴ベクトルが含まれており、上記第1特徴ベクトルシーケンス及び上記第2特徴ベクトルシーケンスに基づいてターゲット特徴ベクトルを取得することは、
畳み込みニューラルネットワークモデルに基づいて上記第1特徴ベクトルシーケンスを処理して、上記第1特徴ベクトルシーケンスから第1特徴ベクトルを抽出することと、
長期短期記憶モデルに基づいて上記第1特徴ベクトルシーケンスを処理して、上記第1特徴ベクトルシーケンスから第2特徴ベクトルを抽出することと、
上記第2事前訓練モデルに基づいて上記第2特徴ベクトルシーケンスを処理して、上記第2特徴ベクトルシーケンスから第3特徴ベクトルを抽出することと、
上記第1特徴ベクトル、上記第2特徴ベクトル及び上記第3特徴ベクトルに基づき、スプライシング処理によってターゲット特徴ベクトルを取得することと、を含むことを特徴とする
上記項目に記載の方法。
(項目3)
上記第1特徴ベクトル、上記第2特徴ベクトル及び上記第3特徴ベクトルに基づいてスプライシング処理によってターゲット特徴ベクトルを取得することは、
上記第1特徴ベクトルの末端に上記第2特徴ベクトルをスプライシングして、スプライシング後の第2特徴ベクトルの末端に上記第3特徴ベクトルをスプライシングして、スプライシング後の特徴ベクトルを取得することと、
上記スプライシング後の特徴ベクトルを次元削減処理して、上記ターゲット特徴ベクトルを取得することと、を含むことを特徴とする
上記項目のいずれか一項に記載の方法。
(項目4)
上記第2コーパスデータに含まれる単語が単語識別子を有し、第1事前訓練モデルに基づいて上記第2コーパスデータを処理して、上記第2コーパスデータに対応する第1特徴ベクトルシーケンスを取得することは、
上記第2コーパスデータに含まれる各上記単語の単語識別子を決定することと、
各上記単語の単語識別子に基づいて上記第1事前訓練モデルの設定単語ベクトルマッピングテーブルをクエリし、上記設定単語ベクトルマッピングテーブルから各上記単語の特徴ベクトルを決定することであって、上記設定単語ベクトルマッピングテーブルに各上記単語の単語識別子と各上記特徴ベクトルとのマッピング関係が含まれることと、
決定された各上記単語の特徴ベクトルを第1設定順序通りに配列して、上記第1特徴ベクトルシーケンスを取得することと、を含むことを特徴とする
上記項目のいずれか一項に記載の方法。
(項目5)
上記第1コーパスデータに含まれる文字が文字識別子を有し、第2事前訓練モデルに基づいて上記第1コーパスデータを処理して、上記第1コーパスデータに対応する第2特徴ベクトルシーケンスを取得することは、
上記第1コーパスデータに含まれる各上記文字の文字識別子を決定することと、
上記第2事前訓練モデルが上記第1コーパスデータにおける各上記文字のコンテクストを分析して、分析結果を取得することと、
上記分析結果及び上記文字の文字識別子に基づき、上記第2事前訓練モデルの設定文字ベクトルマッピングテーブルをクエリし、上記設定単語ベクトルマッピングテーブルから各上記文字の特徴ベクトルを決定することであって、上記設定文字ベクトルマッピングテーブルに各上記文字の文字識別子と各上記特徴ベクトルとのマッピング関係が含まれることと、
決定された各上記文字の特徴ベクトルを第2設定順序通りに配列して、上記第2特徴ベクトルシーケンスを取得することと、を含むことを特徴とする
上記項目のいずれか一項に記載の方法。
(項目6)
上記方法は、更に、
設定分類モデルに基づいて上記ターゲット特徴ベクトルを分類処理して、分類結果を取得することを含むことを特徴とする
上記項目のいずれか一項に記載の方法。
(項目7)
情報処理装置であって、
第1コーパスデータに対して単語分離処理を行って、少なくとも1つの単語を含む第2コーパスデータを取得するように構成される第1処理モジュールと、
第1事前訓練モデルに基づいて上記第2コーパスデータに含まれる上記少なくとも1つの単語を処理して、上記第2コーパスデータに対応する第1特徴ベクトルシーケンスを取得するように構成される第2処理モジュールと、
第2事前訓練モデルに基づいて上記第1コーパスデータに含まれる文字を処理して、上記第1コーパスデータに対応する第2特徴ベクトルシーケンスを取得するように構成される第3処理モジュールと、
上記第1特徴ベクトルシーケンス及び上記第2特徴ベクトルシーケンスに基づき、ターゲット特徴ベクトルを取得するように構成される取得モジュールと、を備えることを特徴とする、上記情報処理装置。
(項目8)
上記第1特徴ベクトルシーケンス及び上記第2特徴ベクトルシーケンスにそれぞれ少なくとも1つの特徴ベクトルが含まれており、上記取得モジュールは、更に、
畳み込みニューラルネットワークモデルに基づいて上記第1特徴ベクトルシーケンスを処理して、上記第1特徴ベクトルシーケンスから第1特徴ベクトルを抽出し、
長期短期記憶モデルに基づいて上記第1特徴ベクトルシーケンスを処理して、上記第1特徴ベクトルシーケンスから第2特徴ベクトルを抽出し、
上記第2事前訓練モデルに基づいて上記第2特徴ベクトルシーケンスを処理して、上記第2特徴ベクトルシーケンスから第3特徴ベクトルを抽出し、
上記第1特徴ベクトル、上記第2特徴ベクトル及び上記第3特徴ベクトルに基づき、スプライシング処理によってターゲット特徴ベクトルを取得するように構成されることを特徴とする
上記項目に記載の装置。
(項目9)
上記取得モジュールは、更に、
上記第1特徴ベクトルの末端に上記第2特徴ベクトルをスプライシングして、スプライシング後の第2特徴ベクトルの末端に上記第3特徴ベクトルをスプライシングして、スプライシング後の特徴ベクトルを取得し、
上記スプライシング後の特徴ベクトルを次元削減処理して、上記ターゲット特徴ベクトルを取得するように構成されることを特徴とする
上記項目のいずれか一項に記載の装置。
(項目10)
上記第2処理モジュールは、更に、
上記第2コーパスデータに含まれる各上記単語の単語識別子を決定し、
各上記単語の単語識別子に基づいて上記第1事前訓練モデルの設定単語ベクトルマッピングテーブルをクエリし、上記設定単語ベクトルマッピングテーブルから各上記単語の特徴ベクトルを決定し、上記設定単語ベクトルマッピングテーブルに各上記単語の単語識別子と各上記特徴ベクトルとのマッピング関係が含まれており、
決定された各上記単語の特徴ベクトルを第1設定順序通りに配列して、上記第1特徴ベクトルシーケンスを取得するように構成されることを特徴とする
上記項目のいずれか一項に記載の装置。
(項目11)
上記第3処理モジュールは、更に、
上記第1コーパスデータに含まれる各上記文字の文字識別子を決定し、
上記第2事前訓練モデルが上記第1コーパスデータにおける各上記文字のコンテクストを分析して、分析結果を取得し、
上記分析結果及び上記文字の文字識別子に基づき、上記第2事前訓練モデルの設定文字ベクトルマッピングテーブルをクエリし、上記設定単語ベクトルマッピングテーブルから各上記文字の特徴ベクトルを決定し、上記設定文字ベクトルマッピングテーブルに各上記文字の文字識別子と各上記特徴ベクトルとのマッピング関係が含まれており、
決定された各上記文字の特徴ベクトルを第2設定順序通りに配列して、上記第2特徴ベクトルシーケンスを取得するように構成されることを特徴とする
上記項目のいずれか一項に記載の装置。
(項目12)
上記装置は、更に、
設定分類モデルに基づいて上記ターゲット特徴ベクトルを分類処理して、分類結果を取得するように構成される分類モジュールを備えることを特徴とする
上記項目のいずれか一項に記載の装置。
(項目13)
情報処理装置であって、
プロセッサと、
プロセッサ実行可能命令を記憶するように構成されるメモリと、を備え、
上記プロセッサは実行時に上記項目のいずれか一項に記載の情報処理方法のステップを実現するように構成されることを特徴とする、上記情報処理装置。
(項目14)
非一時的コンピュータ可読記憶媒体であって、
上記記憶媒体における命令が情報処理装置のプロセッサにより実行されるとき、上記装置が上記項目のいずれか一項に記載の情報処理方法を実行することを可能にする、上記非一時的コンピュータ可読記憶媒体。
(項目15)
記憶媒体に記憶されるコンピュータプログラムであって、
情報処理装置のプロセッサにより実行される時に、上記コンピュータプログラムは上記項目のいずれか一項に記載の情報処理方法を実行できる、上記コンピュータプログラム。
【0021】
(摘要)
本開示は情報処理方法、装置及び記憶媒体に関し、該方法は、第1コーパスデータに対して単語分離処理を行って、少なくとも1つの単語を含む第2コーパスデータを取得することと、第1事前訓練モデルに基づいて前記第2コーパスデータに含まれる前記少なくとも1つの単語を処理して、前記第2コーパスデータに対応する第1特徴ベクトルシーケンスを取得することと、第2事前訓練モデルに基づいて前記第1コーパスデータに含まれる文字を処理して、前記第1コーパスデータに対応する第2特徴ベクトルシーケンスを取得することと、前記第1特徴ベクトルシーケンス及び前記第2特徴ベクトルシーケンスに基づき、ターゲット特徴ベクトルを取得することと、を含む。
【発明の効果】
【0022】
本開示の実施例に係る技術案は以下の有益な効果を有してもよい。
【0023】
上記技術案によれば、本開示は第1特徴ベクトルシーケンス及び第2特徴ベクトルシーケンスに基づいてターゲット特徴ベクトルを取得するよう、第1コーパスデータに対して単語分離処理を行って、少なくとも1つの単語を含む第2コーパスデータを取得し、且つ第1事前訓練モデルに基づいて第2コーパスデータに含まれる単語を処理して、第2コーパスデータに対応する第1特徴ベクトルシーケンスを取得し、第2事前訓練モデルに基づいて第1コーパスデータに含まれる文字を処理して、前記第1コーパスデータに対応する第2特徴ベクトルシーケンスを取得する。このように、訓練して取得されたモデルの正確度及び汎化効果を大幅に向上させるよう、それぞれ文字及び単語に基づいてコーパスデータをベクトルによって特徴付けることにより、多様な特徴を融合し、分類時に取得された訓練サンプルを豊富にすることができる。
【0024】
理解すべきものは、以上の一般的な説明と後の詳細な説明は例示的及び解釈的なものに過ぎず、本開示を限定するものではない。
【図面の簡単な説明】
【0025】
【
図1】
図1は例示的な実施例に係る情報処理方法のフローチャート1である。
【
図2】
図2は例示的な実施例に係る情報処理方法のフローチャート2である。
【
図3】
図3は例示的な実施例に係る情報処理方法のフローチャート3である。
【
図4】
図4は例示的な実施例に係る情報処理装置のブロック図である。
【
図5】
図5は例示的な実施例に係る情報処理装置のハードウェアのブロック
図1である。
【
図6】
図6は例示的な実施例に係る情報処理装置のハードウェアのブロック
図2である。
【発明を実施するための形態】
【0026】
ここの図面は明細書に合せされ本明細書の一部を構成し、本開示に適合する実施例を示し、明細書と共に本開示の原理を解釈するのに用いられる。
【0027】
ここで例示的な実施例について詳しく説明し、その例は図面に示す通りである。以下の説明が図面に関わるとき、別途に表示されない限り、異なる図面における同じ数字は同じ又は類似する要素を表示する。以下の例示的な実施例に説明される実施形態は本開示と一致する全ての実施形態を表すわけではない。逆に、それらは添付の特許請求の範囲に詳細に記載された本開示の一部の態様と一致する装置と方法の例に過ぎない。
【0028】
図1は例示的な実施例に係る情報処理方法のフローチャート1であり、
図1に示すように、該方法は、
第1コーパスデータに対して単語分離処理を行って、少なくとも1つの単語を含む第2コーパスデータを取得するステップ101と、
第1事前訓練モデルに基づいて第2コーパスデータに含まれる前記少なくとも1つの単語を処理して、第2コーパスデータに対応する第1特徴ベクトルシーケンスを取得するステップ102と、
第2事前訓練モデルに基づいて第1コーパスデータに含まれる文字を処理して、第1コーパスデータに対応する第2特徴ベクトルシーケンスを取得するステップ103と、
第1特徴ベクトルシーケンス及び第2特徴ベクトルシーケンスに基づき、ターゲット特徴ベクトルを取得するステップ104と、を含む。
【0029】
ここで、第1コーパスデータは設定言語のコーパスデータであってもよく、例えば、第1コーパスデータは中国語に基づくコーパスデータであってもよい。
【0030】
第1コーパスデータが中国語に基づくコーパスデータである場合を例とすれば、第1事前訓練モデルに基づいて第1コーパスデータを処理する前に、第1コーパスデータに対して単語分離処理を行って、少なくとも1つの単語を含む第2コーパスデータを取得し、更に第1事前訓練モデルに基づいて少なくとも1つの単語を含む第2コーパスデータを処理する必要がある。
【0031】
本開示の実施例では、設定単語分離アルゴリズムに基づいて第1コーパスデータに対して単語分離処理を行って、単語で示される第2コーパスデータを取得してもよい。設定単語分離アルゴリズムは文字列マッチングに基づく単語分離アルゴリズム、理解に基づく単語分離アルゴリズム、統計に基づく単語分離アルゴリズムのうちの少なくとも1つを含む。
【0032】
ここで、文字列マッチングに基づく単語分離アルゴリズムとは、設定ポリシーに基づいて単語分離対象の文字列を設定自動ディクショナリにおける単語にマッチングし、ディクショナリから文字列の部分列に対応する単語を見つけ、更に単語分離結果を取得することを意味する。例えば、第1コーパスデータが「今天天気真好」を含む場合、設定自動ディクショナリには「今天」「天気」及び「真好」の単語が含まれれば、第1コーパスデータに対して単語分離を行った結果、すなわち第2コーパスデータが「今天 天気 真好」である。
【0033】
理解に基づく単語分離アルゴリズムはコンピュータが人間のセンテンスへの理解を模擬することにより、単語分離効果を実現し、つまり単語分離を行うと同時にセンテンスの構造、語義について分析し、センテンスの構造情報及び語義情報を利用してあいまい性を排除するものである。例えば、収集された大量のデータに基づいてモデル訓練を行って理解に基づく単語分離アルゴリズムを取得し、次に単語分離対象の第1コーパスデータを理解に基づく単語分離アルゴリズムに入力して、単語分離結果を取得して出力し、次に該単語分離結果に基づいて第2コーパスデータを形成する。
【0034】
統計に基づく単語分離アルゴリズムとは、文字と文字との間及び単語と単語との間に同時に出現する確率を単語分離の根拠として利用することを意味し、統計に基づく単語分離アルゴリズムはディクショナリなしの単語分離に属し、第1コーパスデータにおける各文字セットを統計して、各文字が隣接して出現する確率を計算して、各文字が隣接して出現する確率と設定確率閾値とを比較すればよく、各文字が隣接して出現する確率は設定確率閾値より大きい場合、この文字セットが1つの単語を構成できると決定する。
【0035】
設定単語分離アルゴリズムに基づいて第1コーパスデータに対して単語分離処理を行った後、少なくとも1つの単語を含む第2コーパスデータを取得してもよく、このとき、第1事前訓練モデルに基づいて第2コーパスデータに含まれる単語を処理して、第2コーパスデータに対応する第1特徴ベクトルシーケンスを取得してもよい。
【0036】
ここで、第1事前訓練モデルは高速テキスト分類(FastText)モデル、単語ベクトル(Word2vec:Word to Vector)を生成するためのモデル、連続バッグオブ単語(CBOW:Continuous Bag-Of-Words)モデルのうちの少なくとも1つを含み、第1特徴ベクトルシーケンスに少なくとも1つの特徴ベクトルが含まれる。
【0037】
第1事前訓練モデルがFastTextモデルである場合を例とすれば、少なくとも1つの単語を含む第2コーパスデータを事前訓練されたFastTextモデルに入力し、FastTextモデルによって第2コーパスデータに含まれる各単語をそれぞれ対応する単語ベクトルに変換して、変換された単語ベクトルを第2コーパスデータにおける単語の順序に対応する順序通りに変換して取得された単語ベクトルを配列して、第2コーパスデータに対応する単語ベクトルシーケンスを形成してもよい。
【0038】
第2事前訓練モデルがBERTモデルを含む場合を例とすれば、第1コーパスデータを事前訓練されたBERT(Bidirectional Encoder Representations from Transformers)モデルに直接入力し、BERTモデルによって第1コーパスデータに含まれる各文字をそれぞれ対応する文字ベクトルに変換して、変換された文字ベクトルを第1コーパスデータにおける文字の順序に対応する順序通りに変換して取得された文字ベクトルを配列して、第1コーパスデータに対応する文字ベクトルシーケンスを形成してもよい。
【0039】
本開示の実施例では、それぞれ文字及び単語に基づいてコーパスデータをベクトルによって特徴付けることにより、文字及び単語に基づいて取得された第1特徴ベクトルシーケンス及び第2特徴ベクトルシーケンスを直接スプライシング処理して、ターゲット特徴ベクトルを取得し、スプライシング処理により取得されたターゲットベクトルには文字及び単語に基づいて取得された特徴が含まれるため、訓練して取得されたモデルの正確度及び汎化効果を大幅に向上させるよう、多様な特徴を融合することができ、分類時に取得された訓練サンプルを豊富にすることができる。
【0040】
他の可能な実施例では、第1特徴ベクトルシーケンス及び第2特徴ベクトルシーケンスにそれぞれ少なくとも1つの特徴ベクトルが含まれており、第1特徴ベクトルシーケンス及び第2特徴ベクトルシーケンスに基づいてターゲット特徴ベクトルを取得することは、
畳み込みニューラルネットワークモデルに基づいて第1特徴ベクトルシーケンスを処理し、第1特徴ベクトルシーケンスから第1特徴ベクトルを抽出することと、
長期短期記憶モデルに基づいて第1特徴ベクトルシーケンスを処理し、第1特徴ベクトルシーケンスから第2特徴ベクトルを抽出することと、
第2事前訓練モデルに基づいて第2特徴ベクトルシーケンスを処理し、第2特徴ベクトルシーケンスから第3特徴ベクトルを抽出することと、
第1特徴ベクトル、第2特徴ベクトル及び第3特徴ベクトルに基づき、ターゲット特徴ベクトルを取得することと、を含む。
【0041】
ここで、第1特徴ベクトルシーケンスを畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)に入力した後、第1特徴ベクトルを抽出するよう、畳み込みニューラルネットワークの畳み込みカーネル及び第1特徴ベクトルシーケンスにおける特徴ベクトルに基づいて畳み込み計算してもよく、例えば、畳み込みカーネル及び第1特徴ベクトルシーケンスにおける畳み込みカーネルのサイズと同様の領域の特徴ベクトルに基づいて畳み込み計算した後、第1特徴ベクトルシーケンスにおける各特徴ベクトルをすべてカバーするまで、他の領域へ移動し、次に計算してもよく、このように、設定された畳み込みカーネルによって第1特徴ベクトルシーケンスから第1特徴ベクトルを抽出してもよい。畳み込みニューラルネットワーク経由で第1特徴ベクトルを抽出すると同時に、長期短期記憶モデル(LSTM:Long-Short Term Memory)に基づいて第1特徴ベクトルシーケンスを処理し、第1特徴ベクトルシーケンスから第2特徴ベクトルを抽出し、BERTモデルに基づいて第2特徴ベクトルシーケンスを処理し、第2特徴ベクトルシーケンスから第3特徴ベクトルを抽出する。
【0042】
第1特徴ベクトルシーケンスに含まれる特徴ベクトルにはいずれも第2コーパスデータにおける各単語に対応する単語情報が含まれており、畳み込みニューラルネットワーク及び長期短期記憶モデルに基づいて第1特徴ベクトルシーケンスを特徴抽出する過程において、それぞれ第1特徴ベクトルシーケンスから含まれる情報量が最も大きい特徴ベクトルをそれぞれ第1特徴ベクトル及び第2特徴ベクトルとして抽出してもよく、ここで、畳み込みニューラルネットワークのプーリング層に基づいて最大プーリングを行って情報量が最も大きい特徴ベクトルを取得してもよい。BERTモデルに基づいて第2特徴ベクトルシーケンスを特徴抽出する過程において、BERTモデルに基づいて第2特徴ベクトルシーケンスから含まれる情報量が最も大きい特徴ベクトルを第3特徴ベクトルとして抽出し、又は、第2特徴ベクトルシーケンスにおける設定位置の特徴ベクトルを第3特徴ベクトルとして直接抽出してもよい。例えば、第2特徴ベクトルシーケンスにおける1番目の特徴ベクトルを第3特徴ベクトルとする。
【0043】
ここで、それぞれニューラルネットワークモデル及び長期短期記憶モデルに基づいて第1特徴ベクトルシーケンスから第1特徴ベクトル及び第2特徴ベクトルを抽出し、第2事前訓練モデルに基づいて第2特徴ベクトルシーケンスから第3特徴ベクトルを抽出し、文字及び単語の特徴を融合することができ、ニューラルネットワークモデルと長期短期記憶モデルに基づいて単語の特徴情報を抽出し、第2事前訓練モデルに基づいて単語に対して文字の特徴情報を抽出することにより、2種類の情報及び複数種類のモデルの融合が分類時に必要な情報量を向上させることとなる。
【0044】
他の可能な実施例では、第1特徴ベクトル、第2特徴ベクトル及び第3特徴ベクトルに基づいてスプライシング処理によってターゲット特徴ベクトルを取得することは、
第1特徴ベクトルの末端に前記第2特徴ベクトルをスプライシングして、スプライシング後の第2特徴ベクトルの末端に第3特徴ベクトルをスプライシングして、スプライシング後の特徴ベクトルを取得することと、
スプライシング後の特徴ベクトルを次元削減処理して、ターゲット特徴ベクトルを取得することと、を含む。
【0045】
ここで、concat()方法に基づいて第1特徴ベクトル、第2特徴ベクトル及び第3特徴ベクトルをスプライシング処理して、スプライシング後の特徴ベクトルを取得してもよく、concat()方法に基づいて第1特徴ベクトル、第2特徴ベクトル及び第3特徴ベクトルを変化させずに、接続された第1特徴ベクトル、第2特徴ベクトル及び第3特徴ベクトルの1つのコピーのみを返送することとなり、スプライシング後の特徴ベクトルの次元がより高い場合、ターゲット特徴ベクトルを取得するよう、スプライシング後の特徴ベクトルを次元削減処理する必要があり、次元削減処理が高次元配列を低次元配列に圧縮することに用いられる。
【0046】
例えば、取得された第1特徴ベクトルが200次元、第2特徴ベクトルが200次元、第3特徴ベクトルが300次元である場合、第1特徴ベクトル、第2特徴ベクトル及び第3特徴ベクトルを直接設定順序通りにスプライシングした後、取得されたスプライシング後の特徴ベクトルが700次元となり、ここで、スプライシング後の特徴ベクトルを取得するよう、第1特徴ベクトルの最後位置に第2特徴ベクトルをスプライシングして、第2特徴ベクトルの最後位置に第3特徴ベクトルをスプライシングしてもよい。スプライシング処理した後、スプライシングにより取得された特徴ベクトルを次元削減処理して、ターゲット特徴ベクトルを出力してもよい。ここで、設定次元削減アルゴリズムに基づいてスプライシング後の特徴ベクトルを次元削減処理してもよく、設定次元削減アルゴリズムは線形次元削減アルゴリズム、主成分分析(PCA:Principal Component Analysis)アルゴリズム、多次元スケーリング(MDS:Multiple Dimensional Scaling)アルゴリズム、線形判別分析(LDA:Linear Discriminant Analysis)アルゴリズム、局所線形埋め込み(LLE:Locally Linear Embedding)アルゴリズムのうちの少なくとも1つを含む。
【0047】
線形次元削減アルゴリズムに基づいてスプライシング後の特徴ベクトルに対して線形次元削減を行う場合を例とすれば、スプライシング後の特徴ベクトルを線形変換することにより、スプライシング後の特徴ベクトルをスプライシング後の特徴ベクトルの次元より低い次元空間にマッピングして表示してもよい。例えば、スプライシング後の特徴ベクトルXがd次元であると決定する場合、線形変換式でd次元のXを次元削減してd′次元ターゲット特徴ベクトルX′を取得してもよく、ここで、d′≦dであり、取得されたターゲット特徴ベクトルX′における特徴がスプライシング後の特徴ベクトルXにおける特徴の線形組み合わせである。線形変換式はX′=WTX(1)であり、
ここで、Wが変換マトリックスであり、Xがスプライシング後の特徴ベクトルであり、X′がターゲット特徴ベクトルであり、変換マトリックスWがd′個のd次元ベクトルであると見なされてもよい。
【0048】
他の可能な実施例では、第2コーパスデータに含まれる単語が単語識別子を有し、第1事前訓練モデルに基づいて第2コーパスデータを処理して、第2コーパスデータに対応する第1特徴ベクトルシーケンスを取得することは、
第2コーパスデータに含まれる各単語の単語識別子を決定することと、
各単語の単語識別子に基づいて第1事前訓練モデルの設定単語ベクトルマッピングテーブルをクエリし、設定単語ベクトルマッピングテーブルから各単語の特徴ベクトルを決定し、設定単語ベクトルマッピングテーブルに各単語の単語識別子と各特徴ベクトルとのマッピング関係が含まれることと、
決定された各単語の特徴ベクトルを第1設定順序通りに配列して、第1特徴ベクトルシーケンスを取得することと、を含む。
【0049】
ここで、訓練して第1事前訓練モデルを取得した後、第1事前訓練モデルの設定単語ベクトルマッピングテーブルを取得してもよく、該設定単語ベクトルマッピングテーブルに各単語の単語識別子と各特徴ベクトルとのマッピング関係が含まれる。本開示の実施例では、まず第2コーパスデータに含まれる各単語の単語識別子を決定して、各単語の単語識別子に基づいて設定単語ベクトルマッピングテーブルをクエリし、更に各単語の特徴ベクトルを決定してもよく、単語識別子が各単語に対して表記した番号であってもよい。第2コーパスデータにおける各単語の特徴ベクトルを決定した後、各単語の特徴ベクトルを第1設定順序通りに配列して、第1特徴ベクトルシーケンスを取得してもよく、ここで、第1設定順序が各単語の第2コーパスデータでの配列順序によって決定されてもよい。第1事前訓練モデルがFastTextモデルである場合、FastTextモデルに基づいて取得した第1特徴ベクトルシーケンスにおける特徴ベクトルが静的単語ベクトルであり、且つ該静的単語ベクトルがコンテクストを融合した情報であり、局所特徴抽出により良い効果を果たす。
【0050】
他の可能な実施例では、第1コーパスデータに含まれる文字が文字識別子を有し、第2事前訓練モデルに基づいて第1コーパスデータを処理して、第1コーパスデータに対応する第2特徴ベクトルシーケンスを取得することは、
第1コーパスデータに含まれる各文字の文字識別子を決定することと、
第2事前訓練モデルが第1コーパスデータにおける各文字のコンテクストを分析して、分析結果を取得することと、
分析結果及び文字の文字識別子に基づき、第2事前訓練モデルの設定文字ベクトルマッピングテーブルをクエリし、設定単語ベクトルマッピングテーブルから各文字の特徴ベクトルを決定し、設定文字ベクトルマッピングテーブルに各文字の文字識別子と各特徴ベクトルとのマッピング関係が含まれることと、
決定された各文字の特徴ベクトルを第2設定順序通りに配列して、第2特徴ベクトルシーケンスを取得することと、を含む。
【0051】
ここで、訓練して第2事前訓練モデルを取得した後、第2事前訓練モデルの設定文字ベクトルマッピングテーブルを取得してもよく、該設定文字ベクトルマッピングテーブルに各文字の文字識別子と各特徴ベクトルとのマッピング関係が含まれる。本開示の実施例では、まず第2事前訓練モデルに基づいて第1コーパスデータにおける各文字のコンテクストを分析して、分析結果を取得し、且つ分析結果及び各文字の文字識別子に基づいて第2事前訓練モデルの設定文字ベクトルマッピングテーブルをクエリし、設定単語ベクトルマッピングテーブルから各文字の特徴ベクトルを決定してもよい。各文字のコンテクストは各文字に隣接する文字を指してもよく、例えば、m番目の文字の前文はm-x番目の文字を指してもよく、後文はm+x番目の文字を指してもよく、mとxがそれぞれ正の整数である。例えば、第1コーパスデータが「今天天気真好」である場合、「今」「天」及び「天」がいずれも「気」の前文であり、「真」と「好」が「気」の後文である。
【0052】
第1コーパスデータにおける各文字の特徴ベクトルを決定した後、各文字の特徴ベクトルを第2設定順序通りに配列して、第2特徴ベクトルシーケンスを取得してもよく、ここで、第2設定順序が各文字の第1コーパスデータでの配列順序によって決定されてもよい。第2事前訓練モデルがBERTモデルである場合、BERTモデルに基づいて第1コーパスデータにおける各文字のコンテクストを分析して、第1コーパスデータの言語環境を取得し、且つ第1コーパスデータの言語環境に基づいて第1コーパスデータにおける各文字の真の語義を決定して、各文字の真の語義に基づいて対応する設定文字ベクトルマッピングテーブルを決定して、対応する設定文字ベクトルマッピングテーブルから各文字に対応する文字ベクトルを決定する。例えば、第1コーパスデータが「このりんごはとてもおいしいです(中国語:這個苹果真好吃)」である場合、BERTモデルによる分析によって第1コーパスデータにおける「苹果」が果物を指すと決定できる。第1コーパスデータが「iPhone(登録商標)は使いやすいです(中国語:苹果手機好用)」である場合、BERTモデルによる分析によって第1コーパスデータにおける「苹果」が電子製品である携帯電話を指すと決定できる。このように、各文字のコンテクスト情報に基づき、それぞれ設定文字ベクトルマッピングテーブルから対応する文字ベクトルを決定することができ、コンテクストの言語環境と組み合わせて、各文字の真の語義を決定することができ、このように、決定された文字ベクトルが一層正確になる。
【0053】
他の可能な実施例では、該方法は、更に、
設定分類モデルに基づいてターゲット特徴ベクトルを分類処理して、分類結果を取得することを含む。
【0054】
ここで、設定分類器によってターゲット特徴ベクトルを分類して、分類結果を取得してもよく、分類結果で特徴づけられるのがターゲット特徴ベクトルの真の語義であり、設定分類器によって様々な可能な語義を出力してもよい。ターゲット特徴ベクトルを設定分類器に入力して、設定分類器によって3種類の可能な語義を出力する場合を例とすれば、それぞれ3種類の可能な語義の確率を取得して、確率が最も高い語義を最終的な分類結果としてもよい。例えば、第1語義の出力確率が0.2、第2語義の出力確率が0.5、第3語義の出力確率が0.3である場合、第2語義をターゲット特徴ベクトルの真の語義、すなわち取得された分類結果としてもよい。
【0055】
更に、例えば、入力されたターゲット特徴ベクトルで特徴づけられるのが「我和小紅挺好的」である場合、ターゲット特徴ベクトルを設定分類器に入力した後、2種類の可能な語義を取得してもよく、第1種類の語義は我と小紅との関係が良いことであり、第2種類の語義は我と小紅の状況が良いことであり、設定分類器による第1種類の語義の出力確率が0.3、第2種類の語義の出力確率が0.7である場合、第2種類の語義の確率が第1種類の語義の確率より高いため、第2種類の語義をターゲット特徴ベクトルの真の語義として決定してもよく、つまりターゲット特徴ベクトルの真の語義は我と小紅の状況が良いことである。ここで、確率値がsoftmax関数に基づいて設定分類器の出力した数値を正規化処理して取得されてもよい。
【0056】
ここで、設定分類器は前処理後の訓練セット(類別を予知したドキュメント)が学習モデリングして構築した分類器であり、実現過程において、該分類器の性能を向上させるよう、設定テストセットドキュメントを利用して設定テスト方法で構築された分類器に対して性能テストを行って、テスト結果のフィードバックによる学習を継続的に行ってもよい。
【0057】
図2は例示的な実施例に係る情報処理方法のフローチャート2であり、
図2に示すように、該方法は以下のステップを含む。
【0058】
ステップ201において、中国語コーパスデータを決定する。
【0059】
ここで、ダウンロードのために、複数種類のBERTモデルを事前訓練してもよい。例えば、異なる言語に対するBERTモデル及び異なるモデルサイズのBERTモデルを事前訓練する。
【0060】
ステップ202において、データを準備する。
【0061】
ここで、データ準備はデータフォーマットの設定及び入力フォーマットクラスの編集を含み、例えば、該入力フォーマットクラスはDataProcessorクラスを含んでもよい。データフォーマットは1行が1つのサンプルを表し、各行の各サンプルがラベル、1つのタブ及びテキストを含んでもよいように整理されてもよい。DataProcessorクラスを編集する主な目的はプログラムを利用してデータフォーマットを基準の入力フォーマットに処理することである。
【0062】
ステップ203において、事前訓練後のBERT中国語モデルをロードする。
【0063】
ステップ204において、スクリプトを書いて実行して、書かれたスクリプトを実行する。
【0064】
ステップ205において、訓練後のテキスト分類モデルを取得する。
【0065】
ここで、設定された検証セットに基づいてBERTモデルの正確度を検証し、正確度が最も高い場合、モデル訓練を停止して、訓練後のBERTモデルに基づくテキスト分類モデルを取得してもよい。
【0066】
図3は例示的な実施例に係る情報処理方法のフローチャート3であり、
図3に示すように、該方法は以下のステップを含む。
【0067】
ステップ301において、第1コーパスデータを決定する。
【0068】
ここで、第1コーパスデータが表記された中国語コーパスデータを含む。
【0069】
ステップ302において、第1コーパスデータに対して単語分離処理を行って、単語で示される第2コーパスデータを取得する。
【0070】
ここで、第1コーパスデータに対して単語分離を行わない場合、ステップ306を実行する。
【0071】
ステップ303において、FastTextモデルをロードし、FastTextモデルに基づいて第2コーパスデータに含まれる単語に対して単語埋め込み処理を行って、第1特徴ベクトルシーケンスを取得する。
【0072】
ステップ304において、畳み込みニューラルネットワーク経由で第1特徴ベクトルシーケンスを特徴抽出して、第1特徴ベクトルを取得する。
【0073】
ステップ305において、長期短期記憶モデルに基づいて第1特徴ベクトルシーケンスを特徴抽出して、第2特徴ベクトルを取得する。
【0074】
ステップ306において、BERTモデルに基づいて第1コーパスデータに含まれる文字に対して文字埋め込み処理を行って、第2特徴ベクトルシーケンスを取得して、BERTモデルに基づいて第2特徴ベクトルシーケンスを特徴抽出して、第3特徴ベクトルを取得する。
【0075】
ステップ307において、concat()方法に基づいて第1特徴ベクトル、第2特徴ベクトル及び第3特徴ベクトルをスプライシング処理して、スプライシング後の特徴ベクトルを取得する。
【0076】
ステップ308において、スプライシング後の特徴ベクトルを次元削減処理して、ターゲット特徴ベクトルを取得する。
【0077】
ステップ309において、設定分類モデルに基づいてターゲット特徴ベクトルを分類処理して、分類結果を取得する。
【0078】
図2に対応する実施例におけるBERTモデルのみに基づいてテキスト分類を行う技術案に比べて、本開示の実施例では、第1態様では、文字及び単語の特徴を融合することができ、CNNモデル及びLSTMモデルに基づいて単語に対して特徴情報抽出を行って、BERTモデルに基づいて文字に対して特徴情報抽出を行うことにより、2種類の情報の融合が分類時に必要な情報量を向上させることとなる。
【0079】
第2態様では、FastTexモデルの単語ベクトルを静的単語ベクトルとしてロードして、BERTモデルの文字ベクトルを動的文字ベクトルとしてロードすることにより、静的単語ベクトルがコンテクストを融合した情報であって、ウィンドウベースのスライド抽出特徴であるため、局所特徴抽出に効果が高いが、動的言語モデルにおける単語ベクトルがコンテクストの言語環境の違いによって異なり、本開示の実施例では、動的単語ベクトル及び静的単語ベクトルの特徴を十分に融合することにより、分類時に必要な情報の正確性及び柔軟性を向上させることができる。
【0080】
第3態様では、長いシーケンスの記憶情報及びウィンドウ化された局所情報を融合することができ、BERTモデルにより抽出された情報がシーケンス全体の大域情報であって、コンテクストの推定情報であり、判別モデルに属し、双方向のLSTMモデルにより抽出されたのはシーケンスが回帰を行う記憶情報であって、1つの自己回帰モデルであり、生成モデルに属する。CNNモデルにより抽出されたのが局所情報であり、従って、モデルが長いシーケンスの記憶情報及びウィンドウ化された局所情報を融合したものである。
【0081】
本開示の実施例では、多様な特徴及び様々な特徴抽出方法を融合することにより、分類時に取得された情報を豊富にし、モデルの正確度及び汎化効果が大幅に向上することとなる。中国語テキストにおける文字及び単語の特徴、動的言語モデル及び静的言語モデルの特徴、長いシーケンスの記憶情報及びウィンドウ化された局所情報を融合するテキスト分類技術を提供し、テキスト分類の回収率及び正確度を向上させる。
【0082】
図4は例示的な実施例に係る情報処理装置のブロック図である。
図4に示すように、該情報処理装置400は、主に、
第1コーパスデータに対して単語分離処理を行って、少なくとも1つの単語を含む第2コーパスデータを取得するように構成される第1処理モジュール401と、
第1事前訓練モデルに基づいて第2コーパスデータに含まれる前記少なくとも1つの単語を処理して、第2コーパスデータに対応する第1特徴ベクトルシーケンスを取得するように構成される第2処理モジュール402と、
第2事前訓練モデルに基づいて第1コーパスデータに含まれる文字を処理して、第1コーパスデータに対応する第2特徴ベクトルシーケンスを取得するように構成される第3処理モジュール403と、
第1特徴ベクトルシーケンス及び第2特徴ベクトルシーケンスに基づき、ターゲット特徴ベクトルを取得するように構成される取得モジュール404と、を備える。
【0083】
他の可能な実施例では、第1特徴ベクトルシーケンス及び第2特徴ベクトルシーケンスにそれぞれ少なくとも1つの特徴ベクトルが含まれており、取得モジュール404は、更に、
畳み込みニューラルネットワークモデルに基づいて第1特徴ベクトルシーケンスを処理して、第1特徴ベクトルシーケンスから第1特徴ベクトルを抽出し、
長期短期記憶モデルに基づいて第1特徴ベクトルシーケンスを処理して、第1特徴ベクトルシーケンスから第2特徴ベクトルを抽出し、
第2事前訓練モデルに基づいて第2特徴ベクトルシーケンスを処理して、第2特徴ベクトルシーケンスから第3特徴ベクトルを抽出し、
第1特徴ベクトル、第2特徴ベクトル及び第3特徴ベクトルに基づき、スプライシング処理によってターゲット特徴ベクトルを取得するように構成される。
【0084】
他の可能な実施例では、取得モジュール404は、更に、
第1特徴ベクトルの末端に前記第2特徴ベクトルをスプライシングして、スプライシング後の第2特徴ベクトルの末端に第3特徴ベクトルをスプライシングして、スプライシング後の特徴ベクトルを取得し、
スプライシング後の特徴ベクトルを次元削減処理して、ターゲット特徴ベクトルを取得するように構成される。
【0085】
他の可能な実施例では、第2処理モジュール402は、更に、
第2コーパスデータに含まれる各単語の単語識別子を決定し、
各単語の単語識別子に基づいて第1事前訓練モデルの設定単語ベクトルマッピングテーブルをクエリし、設定単語ベクトルマッピングテーブルから各単語の特徴ベクトルを決定し、設定単語ベクトルマッピングテーブルに各単語の単語識別子と各特徴ベクトルとのマッピング関係が含まれており、
決定された各単語の特徴ベクトルを第1設定順序通りに配列して、第1特徴ベクトルシーケンスを取得するように構成される。
【0086】
他の可能な実施例では、第3処理モジュール403は、更に、
第1コーパスデータに含まれる各文字の文字識別子を決定し、
第2事前訓練モデルが第1コーパスデータにおける各文字のコンテクストを分析して、分析結果を取得し、
分析結果及び文字の文字識別子に基づき、第2事前訓練モデルの設定文字ベクトルマッピングテーブルをクエリし、設定単語ベクトルマッピングテーブルから各文字の特徴ベクトルを決定し、設定文字ベクトルマッピングテーブルに各文字の文字識別子と各特徴ベクトルとのマッピング関係が含まれており、
決定された各文字の特徴ベクトルを第2設定順序通りに配列して、第2特徴ベクトルシーケンスを取得するように構成される。
【0087】
他の可能な実施例では、装置400は、更に、
設定分類モデルに基づいてターゲット特徴ベクトルを分類処理して、分類結果を取得するように構成される分類モジュールを備える。
【0088】
上記実施例における装置について、各モジュールが操作を実行する具体的な方式は既に該方法に関連する実施例において詳しく説明されたため、ここで詳細な説明は省略する。
【0089】
図5は例示的な実施例に係る情報処理装置500のハードウェアのブロック図である。例えば、装置500は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、パーソナルデジタルアシスタント等であってもよい。
【0090】
図5に示すように、装置500は処理コンポーネント502、メモリ504、電力コンポーネント506、マルチメディアコンポーネント508、オーディオコンポーネント510、入力/出力(I/O)インターフェース512、センサコンポーネント514、及び通信コンポーネント516のうちの1つ又は複数のコンポーネントを備えてもよい。
【0091】
処理コンポーネント502は一般的に装置500の全体操作、例えば表示、電話コール、データ通信、カメラ操作及び記録操作に関連する操作を制御する。処理コンポーネント502は命令を実行することにより、上記方法の全部又は一部のステップを完了する1つ又は複数のプロセッサ520を備えてもよい。なお、処理コンポーネント502は処理コンポーネント502と他のコンポーネントとの相互作用に役立つ1つ又は複数のモジュールを備えてもよい。例えば、処理コンポーネント502はマルチメディアコンポーネント508と処理コンポーネント502との相互作用に役立つマルチメディアモジュールを備えてもよい。
【0092】
メモリ504は様々なタイプのデータを記憶することにより装置500における操作をサポートするように構成される。これらのデータの例は装置500において操作するためのいかなるアプリケーションプログラム又は方法の命令、連絡先データ、電話帳データ、メッセージ、画像、ビデオ等を含む。メモリ504はいかなるタイプの揮発性記憶装置又は不揮発性記憶装置、例えばスタティックランダムアクセスメモリ(SRAM)、電気的消去可能プログラム可能読み出し専用メモリ(EEPROM)、消去可能プログラム可能読み出し専用メモリ(EPROM)、プログラム可能読み出し専用メモリ(PROM)、読み出し専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスク、又はそれらの組み合わせで実現されてもよい。
【0093】
電力コンポーネント506は装置500の様々なコンポーネントに電力を供給する。電力コンポーネント506は電源管理システム、1つ又は複数の電源、並びに装置500への電力の生成、管理及び分配に関連する他のコンポーネントを備えてもよい。
【0094】
マルチメディアコンポーネント508は前記装置500とユーザーとの間に1つの出力インターフェースを提供するスクリーンを備える。いくつかの実施例では、スクリーンは液晶ディスプレイ(LCD)及びタッチパネル(TP)を含んでもよい。スクリーンはタッチパネルを含む場合、ユーザーからの入力信号を受信するよう、スクリーンはタッチスクリーンとして実現されてもよい。タッチ、スワイプ及びタッチパネルにおけるジェスチャーを検知するよう、タッチパネルは1つ又は複数のタッチセンサを備える。前記タッチセンサはタッチ又はスワイプ動作の境界を検知するだけでなく、更に前記タッチ又はスワイプ操作に関連する持続時間及び圧力を検出することができる。いくつかの実施例では、マルチメディアコンポーネント508は1つの前置カメラ及び/又は後置カメラを備える。装置500が操作モード、例えば撮影モード又はビデオモードにある場合、前置カメラ及び/又は後置カメラは外部のマルチメディアデータを受信することができる。各前置カメラ及び/又は後置カメラは1つの一定の光学レンズシステムであり、又は集束及び光学ズーム能力を有してもよい。
【0095】
オーディオコンポーネント510はオーディオ信号を出力及び/又は入力するように構成される。例えば、オーディオコンポーネント510は1つのマイクロフォン(MIC)を備え、装置500が操作モード、例えばコールモード、記録モード及び音声識別モードにある場合、マイクロフォンは外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は更にメモリ504に記憶され、又は通信コンポーネント516により送信されてもよい。いくつかの実施例では、オーディオコンポーネント510は更にオーディオ信号を出力するための1つの拡声器を備える。
【0096】
I/Oインターフェース512は処理コンポーネント502と周辺インターフェースモジュールとの間にインターフェースを提供し、上記周辺インターフェースモジュールはキーボード、クリックホイール、ボタン等であってもよい。これらのボタンはホームページボタン、音量ボタン、スタートボタン及びロックボタンを含んでもよいが、それらに限らない。
【0097】
センサコンポーネント514は装置500に各態様の状態評価を提供するための1つ又は複数のセンサを備える。例えば、センサコンポーネント514は装置500のオン/オフ状態、コンポーネントの相対位置決めを検出することができ、例えば前記コンポーネントは装置500のディスプレイ及びキーパッドであり、センサコンポーネント514は更に装置500又は装置500の1つのコンポーネントの位置変化、ユーザーが装置500に接触しているかどうか、装置500の方位又は加速/減速及び装置500の温度変化を検出することができる。センサコンポーネント514は物理的に接触しない際に近傍物体があるかどうかを検出するように構成される接近センサを備えてもよい。センサコンポーネント514は更にイメージングアプリケーションに使用されるための光センサ、例えばCMOS又はCCD画像センサを備えてもよい。いくつかの実施例では、該センサコンポーネント514は更に加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサ又は温度センサを含んでもよい。
【0098】
通信コンポーネント516は装置500と他の装置との有線又は無線方式の通信に役立つように構成される。装置500は通信規格に基づく無線ネットワーク、例えばWiFi、2G又は5G、又はそれらの組み合わせにアクセスすることができる。1つの例示的な実施例では、通信コンポーネント516は放送チャネルを介して外部放送管理システムからのブロードキャスト信号又はブロードキャスト関連情報を受信する。1つの例示的な実施例では、近距離通信を促進するよう、前記通信コンポーネント516は更に近距離無線通信(NFC)モジュールを備える。例えば、NFCモジュールは無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術及び他の技術により実現されてもよい。
【0099】
例示的な実施例では、上記方法を実行するために、装置500は1つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現されてもよい。
【0100】
例示的な実施例では、更に命令を含む非一時的コンピュータ可読記憶媒体、例えば命令を含むメモリ504を提供し、上記方法を完了するために、上記命令が装置500のプロセッサ520により実行されてもよい。例えば、前記非一時的コンピュータ可読記憶媒体はROM、ランダムアクセスメモリ(RAM)、CD-ROM、磁気テープ、フロッピー(登録商標)ディスク及び光データ記憶装置等であってもよい。
【0101】
非一時的コンピュータ可読記憶媒体であって、前記記憶媒体における命令が情報処理装置のプロセッサにより実行されるとき、情報処理装置が情報処理方法を実行するようにし、前記方法は、
第1コーパスデータに対して単語分離処理を行って、単語で示される第2コーパスデータを取得することと、
第1事前訓練モデルに基づいて前記第2コーパスデータに含まれる単語を処理して、前記第2コーパスデータに対応する第1特徴ベクトルシーケンスを取得することと、
第2事前訓練モデルに基づいて前記第1コーパスデータに含まれる文字を処理して、前記第1コーパスデータに対応する第2特徴ベクトルシーケンスを取得することと、
前記第1特徴ベクトルシーケンス及び前記第2特徴ベクトルシーケンスに基づき、ターゲット特徴ベクトルを取得することと、を含む。
【0102】
図6は例示的な実施例に係る情報処理装置1900のハードウェアのブロック
図2である。例えば、装置1900はサーバとして提供されてもよい。
図6に示すように、装置1900は処理コンポーネント1922を備え、更に1つ又は複数のプロセッサ及び処理コンポーネント1922の実行可能な命令、例えば高速アプリケーションプログラムを記憶するためのメモリ1932で代表されるメモリリソースを備える。メモリ1932に記憶される高速アプリケーションプログラムは1つ又はそれぞれ1組の命令に対応する1つ以上のモジュールを含んでもよい。なお、上記情報処理方法を実行するために、処理コンポーネント1922は命令を実行するように構成され、前記方法は、
第1コーパスデータに対して単語分離処理を行って、単語で示される第2コーパスデータを取得することと、
第1事前訓練モデルに基づいて前記第2コーパスデータに含まれる単語を処理して、前記第2コーパスデータに対応する第1特徴ベクトルシーケンスを取得することと、
第2事前訓練モデルに基づいて前記第1コーパスデータに含まれる文字を処理して、前記第1コーパスデータに対応する第2特徴ベクトルシーケンスを取得することと、
前記第1特徴ベクトルシーケンス及び前記第2特徴ベクトルシーケンスに基づき、ターゲット特徴ベクトルを取得することと、を含む。
【0103】
装置1900は、更に、装置1900の電源管理を実行するように構成される1つの電源コンポーネント1926と、装置1900をネットワークに接続するように構成される1つの有線又は無線ネットワークインターフェース1950と、1つの入力出力(I/O)インターフェース1958と、を備えてもよい。装置1900はメモリ1932に記憶されるオペレーティングシステム、例えばWindows(登録商標) ServerTM、Mac OS XTM、Unix(登録商標)、 Linux(登録商標)、FreeBSDTM又は類似のものを操作することができる。
【0104】
当業者が明細書を考慮し及びここで開示される発明を実践した後、本開示の他の実施案に容易に想到し得る。本開示は本開示のいかなる変形、用途又は適応変化を含むように意図されるものであり、これらの変形、用途又は適応変化は本開示の一般的な原理に従い且つ本開示に開示されていない本技術分野における周知技術又は慣用の技術的手段を含む。明細書及び実施例は例示的なものであると見なされ、本開示の真の範囲及び趣旨は以下の特許請求の範囲に示される。
【0105】
理解すべきものは、本開示は以上に説明されて図面に示される正確な構造に制限されるのではなく、その範囲を逸脱せずに種々の修正や変更を行うことができる。本開示の範囲は添付の特許請求の範囲に制限される。