特許7059326 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ペキン　シャオミ　パインコーン　エレクトロニクス　カンパニー，　リミテッドの特許一覧

特許7059326情報処理方法、装置及び記憶媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-04-15

(45)【発行日】2022-04-25

(54)【発明の名称】情報処理方法、装置及び記憶媒体

(51)【国際特許分類】

G06F 40/30 20200101AFI20220418BHJP

G06F 40/216 20200101ALI20220418BHJP

G06F 16/35 20190101ALI20220418BHJP

【ＦＩ】

G06F40/30

G06F40/216

G06F16/35

【請求項の数】 13

(21)【出願番号】P 2020130420

(22)【出願日】2020-07-31

(65)【公開番号】P2021114277

(43)【公開日】2021-08-05

【審査請求日】2020-07-31

(31)【優先権主張番号】202010059203.3

(32)【優先日】2020-01-19

(33)【優先権主張国・地域又は機関】CN

(73)【特許権者】

【識別番号】520274253

【氏名又は名称】ペキンシャオミパインコーンエレクトロニクスカンパニー，リミテッド

(74)【代理人】

【識別番号】100107489

【弁理士】

【氏名又は名称】大塩竹志

(72)【発明者】

【氏名】シューゼユ

(72)【発明者】

【氏名】デンションウェン

【審査官】成瀬博之

(56)【参考文献】

【文献】特開２０１８－０８１２９８（ＪＰ，Ａ）

【文献】国際公開第２０１９／０８２３６２（ＷＯ，Ａ１）

【文献】特表２０１９－５３３２５９（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ４０／２０－４０／５８

Ｇ０６Ｆ１６／００－１６／９５８

Ｇ０６Ｎ３／００－９９／００

(57)【特許請求の範囲】

【請求項1】

情報処理方法であって、前記情報処理方法は、
第１コーパスデータに対して単語分離処理を行って、少なくとも１つの単語を含む第２コーパスデータを取得することと、
第１事前訓練モデルに基づいて前記第２コーパスデータに含まれる前記少なくとも１つの単語を処理して、前記第２コーパスデータに対応する第１特徴ベクトルシーケンスを取得することと、
第２事前訓練モデルに基づいて前記第１コーパスデータに含まれる文字を処理して、前記第１コーパスデータに対応する第２特徴ベクトルシーケンスを取得することと、
前記第１特徴ベクトルシーケンス及び前記第２特徴ベクトルシーケンスに基づき、ターゲット特徴ベクトルを取得することと
を含み、
前記第１特徴ベクトルシーケンス及び前記第２特徴ベクトルシーケンスにそれぞれ少なくとも１つの特徴ベクトルが含まれており、前記第１特徴ベクトルシーケンス及び前記第２特徴ベクトルシーケンスに基づいてターゲット特徴ベクトルを取得することは、
畳み込みニューラルネットワークモデルに基づいて前記第１特徴ベクトルシーケンスを処理して、前記第１特徴ベクトルシーケンスから第１特徴ベクトルを抽出することと、
長期短期記憶モデルに基づいて前記第１特徴ベクトルシーケンスを処理して、前記第１特徴ベクトルシーケンスから第２特徴ベクトルを抽出することと、
前記第２事前訓練モデルに基づいて前記第２特徴ベクトルシーケンスを処理して、前記第２特徴ベクトルシーケンスから第３特徴ベクトルを抽出することと、
前記第１特徴ベクトル、前記第２特徴ベクトル及び前記第３特徴ベクトルに基づき、スプライシング処理によってターゲット特徴ベクトルを取得することと
を含む、情報処理方法。

【請求項2】

前記第１特徴ベクトル、前記第２特徴ベクトル及び前記第３特徴ベクトルに基づいてスプライシング処理によってターゲット特徴ベクトルを取得することは、
前記第１特徴ベクトルの末端に前記第２特徴ベクトルをスプライシングして、スプライシング後の第２特徴ベクトルの末端に前記第３特徴ベクトルをスプライシングして、スプライシング後の特徴ベクトルを取得することと、
前記スプライシング後の特徴ベクトルを次元削減処理して、前記ターゲット特徴ベクトルを取得することと
を含む、請求項１に記載の方法。

【請求項3】

前記第２コーパスデータに含まれる単語が単語識別子を有し、第１事前訓練モデルに基づいて前記第２コーパスデータを処理して、前記第２コーパスデータに対応する第１特徴ベクトルシーケンスを取得することは、
前記第２コーパスデータに含まれる各前記単語の単語識別子を決定することと、
各前記単語の単語識別子に基づいて前記第１事前訓練モデルの設定単語ベクトルマッピングテーブルをクエリし、前記設定単語ベクトルマッピングテーブルから各前記単語の特徴ベクトルを決定することであって、前記設定単語ベクトルマッピングテーブルに各前記単語の単語識別子と各前記特徴ベクトルとのマッピング関係が含まれている、ことと、
決定された各前記単語の特徴ベクトルを第１設定順序通りに配列して、前記第１特徴ベクトルシーケンスを取得することと
を含む、請求項１に記載の方法。

【請求項4】

前記第１コーパスデータに含まれる文字が文字識別子を有し、第２事前訓練モデルに基づいて前記第１コーパスデータを処理して、前記第１コーパスデータに対応する第２特徴ベクトルシーケンスを取得することは、
前記第１コーパスデータに含まれる各前記文字の文字識別子を決定することと、
前記第２事前訓練モデルが前記第１コーパスデータにおける各前記文字のコンテクストを分析して、分析結果を取得することと、
前記分析結果及び前記文字の文字識別子に基づき、前記第２事前訓練モデルの設定文字ベクトルマッピングテーブルをクエリし、前記設定単語ベクトルマッピングテーブルから各前記文字の特徴ベクトルを決定することであって、前記設定文字ベクトルマッピングテーブルに各前記文字の文字識別子と各前記特徴ベクトルとのマッピング関係が含まれている、ことと、
決定された各前記文字の特徴ベクトルを第２設定順序通りに配列して、前記第２特徴ベクトルシーケンスを取得することと
を含む、請求項１に記載の方法。

【請求項5】

前記方法は、設定分類モデルに基づいて前記ターゲット特徴ベクトルを分類処理して、分類結果を取得することを更に含む、請求項１に記載の方法。

【請求項6】

情報処理装置であって、前記情報処理装置は、
第１コーパスデータに対して単語分離処理を行って、少なくとも１つの単語を含む第２コーパスデータを取得するように構成される第１処理モジュールと、
第１事前訓練モデルに基づいて前記第２コーパスデータに含まれる前記少なくとも１つの単語を処理して、前記第２コーパスデータに対応する第１特徴ベクトルシーケンスを取得するように構成される第２処理モジュールと、
第２事前訓練モデルに基づいて前記第１コーパスデータに含まれる文字を処理して、前記第１コーパスデータに対応する第２特徴ベクトルシーケンスを取得するように構成される第３処理モジュールと、
前記第１特徴ベクトルシーケンス及び前記第２特徴ベクトルシーケンスに基づき、ターゲット特徴ベクトルを取得するように構成される取得モジュールと
を備え、
前記第１特徴ベクトルシーケンス及び前記第２特徴ベクトルシーケンスにそれぞれ少なくとも１つの特徴ベクトルが含まれており、前記取得モジュールは、
畳み込みニューラルネットワークモデルに基づいて前記第１特徴ベクトルシーケンスを処理して、前記第１特徴ベクトルシーケンスから第１特徴ベクトルを抽出し、
長期短期記憶モデルに基づいて前記第１特徴ベクトルシーケンスを処理して、前記第１特徴ベクトルシーケンスから第２特徴ベクトルを抽出することと、
前記第２事前訓練モデルに基づいて前記第２特徴ベクトルシーケンスを処理して、前記第２特徴ベクトルシーケンスから第３特徴ベクトルを抽出することと、
前記第１特徴ベクトル、前記第２特徴ベクトル及び前記第３特徴ベクトルに基づき、スプライシング処理によってターゲット特徴ベクトルを取得することと
を行うように更に構成される、情報処理装置。

【請求項7】

前記取得モジュールは、
前記第１特徴ベクトルの末端に前記第２特徴ベクトルをスプライシングして、スプライシング後の第２特徴ベクトルの末端に前記第３特徴ベクトルをスプライシングして、スプライシング後の特徴ベクトルを取得することと、
前記スプライシング後の特徴ベクトルを次元削減処理して、前記ターゲット特徴ベクトルを取得することと
を行うように更に構成される、請求項６に記載の装置。

【請求項8】

前記第２処理モジュールは、
前記第２コーパスデータに含まれる各前記単語の単語識別子を決定することと、
各前記単語の単語識別子に基づいて前記第１事前訓練モデルの設定単語ベクトルマッピングテーブルをクエリし、前記設定単語ベクトルマッピングテーブルから各前記単語の特徴ベクトルを決定することであって、前記設定単語ベクトルマッピングテーブルに各前記単語の単語識別子と各前記特徴ベクトルとのマッピング関係が含まれている、ことと、
決定された各前記単語の特徴ベクトルを第１設定順序通りに配列して、前記第１特徴ベクトルシーケンスを取得することと
を行うように更に構成される、請求項６に記載の装置。

【請求項9】

前記第３処理モジュールは、
前記第１コーパスデータに含まれる各前記文字の文字識別子を決定することと、
前記第２事前訓練モデルが前記第１コーパスデータにおける各前記文字のコンテクストを分析して、分析結果を取得することと、
前記分析結果及び前記文字の文字識別子に基づき、前記第２事前訓練モデルの設定文字ベクトルマッピングテーブルをクエリし、前記設定単語ベクトルマッピングテーブルから各前記文字の特徴ベクトルを決定することであって、前記設定文字ベクトルマッピングテーブルに各前記文字の文字識別子と各前記特徴ベクトルとのマッピング関係が含まれている、ことと、
決定された各前記文字の特徴ベクトルを第２設定順序通りに配列して、前記第２特徴ベクトルシーケンスを取得することと
を行うように更に構成される、請求項６に記載の装置。

【請求項10】

前記装置は、設定分類モデルに基づいて前記ターゲット特徴ベクトルを分類処理して、分類結果を取得するように構成される分類モジュールを更に備える、請求項６に記載の装置。

【請求項11】

情報処理装置であって、前記情報処理装置は、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリと
を備え、
前記プロセッサは、前記命令を実行することにより、請求項１～５のいずれか１項に記載の情報処理方法を実現するように構成される、情報処理装置。

【請求項12】

非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記記憶媒体には命令が記憶されており、前記命令は、情報処理装置のプロセッサによって実行されると、前記情報処理装置が請求項１～５のいずれか１項に記載の情報処理方法を実行することを可能にする、非一時的なコンピュータ読み取り可能な記憶媒体。

【請求項13】

記憶媒体に記憶されるコンピュータプログラムであって、
前記コンピュータプログラムは、情報処理装置のプロセッサによって実行されると、請求項１～５のいずれか１項に記載の情報処理方法を実行することを前記情報処理装置に行わせる、コンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

（関連出願の相互参照）
本願は、２０２０年０１月１９日に提出した中国特許出願第２０２０１００５９２０３３号の優先権を主張し、ここで、該中国特許出願の全内容が援用により本願に組み込まれる。

【0002】

本開示はコンピュータ通信分野に関し、特に情報処理方法、装置及び記憶媒体に関する。

【背景技術】

【0003】

前世紀９０年代以来、インターネットが迅速に発展し、現在ビッグデータ時代に入り、インターネットにはテキスト、音声、画像、ビデオ等を含む大量の情報及びデータがある。ここで言うテキストはメディア・ニュース、テクノロジー、レポート、電子メール、技術特許、書籍等である。画像音声データに比べて、テキストの占有したネットワークリソースが少なく、容易にアップロード・ダウンロードすることができ、これにより、多くのネットワークリソースがテキストの形式で出現する。どのようにこれらのテキスト情報を効果的に組織・管理して、その中からユーザーに必要なテキスト情報を迅速、正確且つ全面的に検索するかは現在の情報科学技術が望んでいるチャレンジである。

【0004】

初期のテキスト分類は主に知識工学に基づき、手動でいくつかのルールを定義することでテキストを分類するものであり、このような方法は時間がかかって手がかかり、更にある分野を十分に理解しなければ、適切なルールを見つけることができず、且つ、訓練サンプルがより少ない場合、分類の正確性が低下してしまう。

【発明の概要】

【発明が解決しようとする課題】

【0005】

本開示は情報処理方法、装置及び記憶媒体を提供する。

【課題を解決するための手段】

【0006】

本開示の実施例に係る第１態様では、情報処理方法を提供し、該情報処理方法は、
第１コーパスデータに対して単語分離処理を行って、少なくとも１つの単語を含む第２コーパスデータを取得することと、
第１事前訓練モデルに基づいて前記第２コーパスデータに含まれる前記少なくとも１つの単語を処理して、前記第２コーパスデータに対応する第１特徴ベクトルシーケンスを取得することと、
第２事前訓練モデルに基づいて前記第１コーパスデータに含まれる文字を処理して、前記第１コーパスデータに対応する第２特徴ベクトルシーケンスを取得することと、
前記第１特徴ベクトルシーケンス及び前記第２特徴ベクトルシーケンスに基づき、ターゲット特徴ベクトルを取得することと、を含む。

【0007】

好ましくは、前記第１特徴ベクトルシーケンス及び前記第２特徴ベクトルシーケンスにそれぞれ少なくとも１つの特徴ベクトルが含まれており、前記第１特徴ベクトルシーケンス及び前記第２特徴ベクトルシーケンスに基づいてターゲット特徴ベクトルを取得することは、
畳み込みニューラルネットワークモデルに基づいて前記第１特徴ベクトルシーケンスを処理して、前記第１特徴ベクトルシーケンスから第１特徴ベクトルを抽出することと、
長期短期記憶モデルに基づいて前記第１特徴ベクトルシーケンスを処理して、前記第１特徴ベクトルシーケンスから第２特徴ベクトルを抽出することと、
前記第２事前訓練モデルに基づいて前記第２特徴ベクトルシーケンスを処理して、前記第２特徴ベクトルシーケンスから第３特徴ベクトルを抽出することと、
前記第１特徴ベクトル、前記第２特徴ベクトル及び前記第３特徴ベクトルに基づき、スプライシング処理によってターゲット特徴ベクトルを取得することと、を含む。

【0008】

好ましくは、前記第１特徴ベクトル、前記第２特徴ベクトル及び前記第３特徴ベクトルに基づいてスプライシング処理によってターゲット特徴ベクトルを取得することは、
前記第１特徴ベクトルの末端に前記第２特徴ベクトルをスプライシングして、スプライシング後の第２特徴ベクトルの末端に前記第３特徴ベクトルをスプライシングして、スプライシング後の特徴ベクトルを取得することと、
前記スプライシング後の特徴ベクトルを次元削減処理して、前記ターゲット特徴ベクトルを取得することと、を含む。

【0009】

好ましくは、前記第２コーパスデータに含まれる単語が単語識別子を有し、第１事前訓練モデルに基づいて前記第２コーパスデータを処理して、前記第２コーパスデータに対応する第１特徴ベクトルシーケンスを取得することは、
前記第２コーパスデータに含まれる各前記単語の単語識別子を決定することと、
各前記単語の単語識別子に基づいて前記第１事前訓練モデルの設定単語ベクトルマッピングテーブルをクエリし、前記設定単語ベクトルマッピングテーブルから各前記単語の特徴ベクトルを決定することであって、前記設定単語ベクトルマッピングテーブルに各前記単語の単語識別子と各前記特徴ベクトルとのマッピング関係が含まれることと、
決定された各前記単語の特徴ベクトルを第１設定順序通りに配列して、前記第１特徴ベクトルシーケンスを取得することと、を含む。

【0010】

好ましくは、前記第１コーパスデータに含まれる文字が文字識別子を有し、第２事前訓練モデルに基づいて前記第１コーパスデータを処理して、前記第１コーパスデータに対応する第２特徴ベクトルシーケンスを取得することは、
前記第１コーパスデータに含まれる各前記文字の文字識別子を決定することと、
前記第２事前訓練モデルが前記第１コーパスデータにおける各前記文字のコンテクストを分析して、分析結果を取得することと、
前記分析結果及び前記文字の文字識別子に基づき、前記第２事前訓練モデルの設定文字ベクトルマッピングテーブルをクエリし、前記設定単語ベクトルマッピングテーブルから各前記文字の特徴ベクトルを決定することであって、前記設定文字ベクトルマッピングテーブルに各前記文字の文字識別子と各前記特徴ベクトルとのマッピング関係が含まれることと、
決定された各前記文字の特徴ベクトルを第２設定順序通りに配列して、前記第２特徴ベクトルシーケンスを取得することと、を含む。

【0011】

好ましくは、前記方法は、更に、
設定分類モデルに基づいて前記ターゲット特徴ベクトルを分類処理して、分類結果を取得することを含む。

【0012】

本開示の実施例に係る第２態様では、情報処理装置を提供し、該情報処理装置は、
第１コーパスデータに対して単語分離処理を行って、少なくとも１つの単語を含む第２コーパスデータを取得するように構成される第１処理モジュールと、
第１事前訓練モデルに基づいて前記第２コーパスデータに含まれる前記少なくとも１つの単語を処理して、前記第２コーパスデータに対応する第１特徴ベクトルシーケンスを取得するように構成される第２処理モジュールと、
第２事前訓練モデルに基づいて前記第１コーパスデータに含まれる文字を処理して、前記第１コーパスデータに対応する第２特徴ベクトルシーケンスを取得するように構成される第３処理モジュールと、
前記第１特徴ベクトルシーケンス及び前記第２特徴ベクトルシーケンスに基づき、ターゲット特徴ベクトルを取得するように構成される取得モジュールと、を備える。

【0013】

好ましくは、前記第１特徴ベクトルシーケンス及び前記第２特徴ベクトルシーケンスにそれぞれ少なくとも１つの特徴ベクトルが含まれており、前記取得モジュールは、更に、
畳み込みニューラルネットワークモデルに基づいて前記第１特徴ベクトルシーケンスを処理して、前記第１特徴ベクトルシーケンスから第１特徴ベクトルを抽出し、
長期短期記憶モデルに基づいて前記第１特徴ベクトルシーケンスを処理して、前記第１特徴ベクトルシーケンスから第２特徴ベクトルを抽出し、
前記第２事前訓練モデルに基づいて前記第２特徴ベクトルシーケンスを処理して、前記第２特徴ベクトルシーケンスから第３特徴ベクトルを抽出し、
前記第１特徴ベクトル、前記第２特徴ベクトル及び前記第３特徴ベクトルに基づき、スプライシング処理によってターゲット特徴ベクトルを取得するように構成される。

【0014】

好ましくは、前記取得モジュールは、更に、
前記第１特徴ベクトルの末端に前記第２特徴ベクトルをスプライシングして、スプライシング後の第２特徴ベクトルの末端に前記第３特徴ベクトルをスプライシングして、スプライシング後の特徴ベクトルを取得し、
前記スプライシング後の特徴ベクトルを次元削減処理して、前記ターゲット特徴ベクトルを取得するように構成される。

【0015】

好ましくは、前記第２処理モジュールは、更に、
前記第２コーパスデータに含まれる各前記単語の単語識別子を決定し、
各前記単語の単語識別子に基づいて前記第１事前訓練モデルの設定単語ベクトルマッピングテーブルをクエリし、前記設定単語ベクトルマッピングテーブルから各前記単語の特徴ベクトルを決定し、前記設定単語ベクトルマッピングテーブルに各前記単語の単語識別子と各前記特徴ベクトルとのマッピング関係が含まれており、
決定された各前記単語の特徴ベクトルを第１設定順序通りに配列して、前記第１特徴ベクトルシーケンスを取得するように構成される。

【0016】

好ましくは、前記第３処理モジュールは、更に、
前記第１コーパスデータに含まれる各前記文字の文字識別子を決定し、
前記第２事前訓練モデルが前記第１コーパスデータにおける各前記文字のコンテクストを分析して、分析結果を取得し、
前記分析結果及び前記文字の文字識別子に基づき、前記第２事前訓練モデルの設定文字ベクトルマッピングテーブルをクエリし、前記設定単語ベクトルマッピングテーブルから各前記文字の特徴ベクトルを決定し、前記設定文字ベクトルマッピングテーブルに各前記文字の文字識別子と各前記特徴ベクトルとのマッピング関係が含まれており、
決定された各前記文字の特徴ベクトルを第２設定順序通りに配列して、前記第２特徴ベクトルシーケンスを取得するように構成される。

【0017】

好ましくは、前記装置は、更に、
設定分類モデルに基づいて前記ターゲット特徴ベクトルを分類処理して、分類結果を取得するように構成される分類モジュールを備える。

【0018】

本開示の実施例に係る第３態様では、情報処理装置を提供し、該情報処理装置は、
プロセッサと、
プロセッサ実行可能命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは実行時に上記第１態様における情報処理方法のステップを実現するように構成される。

【0019】

本開示の実施例に係る第４態様では、非一時的コンピュータ可読記憶媒体を提供し、前記記憶媒体における命令が情報処理装置のプロセッサにより実行されるとき、前記装置が上記第１態様における情報処理方法を実行するようにする。

【0020】

例えば、本願は以下の項目を提供する。
（項目１）
情報処理方法であって、
第１コーパスデータに対して単語分離処理を行って、少なくとも１つの単語を含む第２コーパスデータを取得することと、
第１事前訓練モデルに基づいて上記第２コーパスデータに含まれる上記少なくとも１つの単語を処理して、上記第２コーパスデータに対応する第１特徴ベクトルシーケンスを取得することと、
第２事前訓練モデルに基づいて上記第１コーパスデータに含まれる文字を処理して、上記第１コーパスデータに対応する第２特徴ベクトルシーケンスを取得することと、
上記第１特徴ベクトルシーケンス及び上記第２特徴ベクトルシーケンスに基づき、ターゲット特徴ベクトルを取得することと、を含むことを特徴とする、上記情報処理方法。
（項目２）
上記第１特徴ベクトルシーケンス及び上記第２特徴ベクトルシーケンスにそれぞれ少なくとも１つの特徴ベクトルが含まれており、上記第１特徴ベクトルシーケンス及び上記第２特徴ベクトルシーケンスに基づいてターゲット特徴ベクトルを取得することは、
畳み込みニューラルネットワークモデルに基づいて上記第１特徴ベクトルシーケンスを処理して、上記第１特徴ベクトルシーケンスから第１特徴ベクトルを抽出することと、
長期短期記憶モデルに基づいて上記第１特徴ベクトルシーケンスを処理して、上記第１特徴ベクトルシーケンスから第２特徴ベクトルを抽出することと、
上記第２事前訓練モデルに基づいて上記第２特徴ベクトルシーケンスを処理して、上記第２特徴ベクトルシーケンスから第３特徴ベクトルを抽出することと、
上記第１特徴ベクトル、上記第２特徴ベクトル及び上記第３特徴ベクトルに基づき、スプライシング処理によってターゲット特徴ベクトルを取得することと、を含むことを特徴とする
上記項目に記載の方法。
（項目３）
上記第１特徴ベクトル、上記第２特徴ベクトル及び上記第３特徴ベクトルに基づいてスプライシング処理によってターゲット特徴ベクトルを取得することは、
上記第１特徴ベクトルの末端に上記第２特徴ベクトルをスプライシングして、スプライシング後の第２特徴ベクトルの末端に上記第３特徴ベクトルをスプライシングして、スプライシング後の特徴ベクトルを取得することと、
上記スプライシング後の特徴ベクトルを次元削減処理して、上記ターゲット特徴ベクトルを取得することと、を含むことを特徴とする
上記項目のいずれか一項に記載の方法。
（項目４）
上記第２コーパスデータに含まれる単語が単語識別子を有し、第１事前訓練モデルに基づいて上記第２コーパスデータを処理して、上記第２コーパスデータに対応する第１特徴ベクトルシーケンスを取得することは、
上記第２コーパスデータに含まれる各上記単語の単語識別子を決定することと、
各上記単語の単語識別子に基づいて上記第１事前訓練モデルの設定単語ベクトルマッピングテーブルをクエリし、上記設定単語ベクトルマッピングテーブルから各上記単語の特徴ベクトルを決定することであって、上記設定単語ベクトルマッピングテーブルに各上記単語の単語識別子と各上記特徴ベクトルとのマッピング関係が含まれることと、
決定された各上記単語の特徴ベクトルを第１設定順序通りに配列して、上記第１特徴ベクトルシーケンスを取得することと、を含むことを特徴とする
上記項目のいずれか一項に記載の方法。
（項目５）
上記第１コーパスデータに含まれる文字が文字識別子を有し、第２事前訓練モデルに基づいて上記第１コーパスデータを処理して、上記第１コーパスデータに対応する第２特徴ベクトルシーケンスを取得することは、
上記第１コーパスデータに含まれる各上記文字の文字識別子を決定することと、
上記第２事前訓練モデルが上記第１コーパスデータにおける各上記文字のコンテクストを分析して、分析結果を取得することと、
上記分析結果及び上記文字の文字識別子に基づき、上記第２事前訓練モデルの設定文字ベクトルマッピングテーブルをクエリし、上記設定単語ベクトルマッピングテーブルから各上記文字の特徴ベクトルを決定することであって、上記設定文字ベクトルマッピングテーブルに各上記文字の文字識別子と各上記特徴ベクトルとのマッピング関係が含まれることと、
決定された各上記文字の特徴ベクトルを第２設定順序通りに配列して、上記第２特徴ベクトルシーケンスを取得することと、を含むことを特徴とする
上記項目のいずれか一項に記載の方法。
（項目６）
上記方法は、更に、
設定分類モデルに基づいて上記ターゲット特徴ベクトルを分類処理して、分類結果を取得することを含むことを特徴とする
上記項目のいずれか一項に記載の方法。
（項目７）
情報処理装置であって、
第１コーパスデータに対して単語分離処理を行って、少なくとも１つの単語を含む第２コーパスデータを取得するように構成される第１処理モジュールと、
第１事前訓練モデルに基づいて上記第２コーパスデータに含まれる上記少なくとも１つの単語を処理して、上記第２コーパスデータに対応する第１特徴ベクトルシーケンスを取得するように構成される第２処理モジュールと、
第２事前訓練モデルに基づいて上記第１コーパスデータに含まれる文字を処理して、上記第１コーパスデータに対応する第２特徴ベクトルシーケンスを取得するように構成される第３処理モジュールと、
上記第１特徴ベクトルシーケンス及び上記第２特徴ベクトルシーケンスに基づき、ターゲット特徴ベクトルを取得するように構成される取得モジュールと、を備えることを特徴とする、上記情報処理装置。
（項目８）
上記第１特徴ベクトルシーケンス及び上記第２特徴ベクトルシーケンスにそれぞれ少なくとも１つの特徴ベクトルが含まれており、上記取得モジュールは、更に、
畳み込みニューラルネットワークモデルに基づいて上記第１特徴ベクトルシーケンスを処理して、上記第１特徴ベクトルシーケンスから第１特徴ベクトルを抽出し、
長期短期記憶モデルに基づいて上記第１特徴ベクトルシーケンスを処理して、上記第１特徴ベクトルシーケンスから第２特徴ベクトルを抽出し、
上記第２事前訓練モデルに基づいて上記第２特徴ベクトルシーケンスを処理して、上記第２特徴ベクトルシーケンスから第３特徴ベクトルを抽出し、
上記第１特徴ベクトル、上記第２特徴ベクトル及び上記第３特徴ベクトルに基づき、スプライシング処理によってターゲット特徴ベクトルを取得するように構成されることを特徴とする
上記項目に記載の装置。
（項目９）
上記取得モジュールは、更に、
上記第１特徴ベクトルの末端に上記第２特徴ベクトルをスプライシングして、スプライシング後の第２特徴ベクトルの末端に上記第３特徴ベクトルをスプライシングして、スプライシング後の特徴ベクトルを取得し、
上記スプライシング後の特徴ベクトルを次元削減処理して、上記ターゲット特徴ベクトルを取得するように構成されることを特徴とする
上記項目のいずれか一項に記載の装置。
（項目１０）
上記第２処理モジュールは、更に、
上記第２コーパスデータに含まれる各上記単語の単語識別子を決定し、
各上記単語の単語識別子に基づいて上記第１事前訓練モデルの設定単語ベクトルマッピングテーブルをクエリし、上記設定単語ベクトルマッピングテーブルから各上記単語の特徴ベクトルを決定し、上記設定単語ベクトルマッピングテーブルに各上記単語の単語識別子と各上記特徴ベクトルとのマッピング関係が含まれており、
決定された各上記単語の特徴ベクトルを第１設定順序通りに配列して、上記第１特徴ベクトルシーケンスを取得するように構成されることを特徴とする
上記項目のいずれか一項に記載の装置。
（項目１１）
上記第３処理モジュールは、更に、
上記第１コーパスデータに含まれる各上記文字の文字識別子を決定し、
上記第２事前訓練モデルが上記第１コーパスデータにおける各上記文字のコンテクストを分析して、分析結果を取得し、
上記分析結果及び上記文字の文字識別子に基づき、上記第２事前訓練モデルの設定文字ベクトルマッピングテーブルをクエリし、上記設定単語ベクトルマッピングテーブルから各上記文字の特徴ベクトルを決定し、上記設定文字ベクトルマッピングテーブルに各上記文字の文字識別子と各上記特徴ベクトルとのマッピング関係が含まれており、
決定された各上記文字の特徴ベクトルを第２設定順序通りに配列して、上記第２特徴ベクトルシーケンスを取得するように構成されることを特徴とする
上記項目のいずれか一項に記載の装置。
（項目１２）
上記装置は、更に、
設定分類モデルに基づいて上記ターゲット特徴ベクトルを分類処理して、分類結果を取得するように構成される分類モジュールを備えることを特徴とする
上記項目のいずれか一項に記載の装置。
（項目１３）
情報処理装置であって、
プロセッサと、
プロセッサ実行可能命令を記憶するように構成されるメモリと、を備え、
上記プロセッサは実行時に上記項目のいずれか一項に記載の情報処理方法のステップを実現するように構成されることを特徴とする、上記情報処理装置。
（項目１４）
非一時的コンピュータ可読記憶媒体であって、
上記記憶媒体における命令が情報処理装置のプロセッサにより実行されるとき、上記装置が上記項目のいずれか一項に記載の情報処理方法を実行することを可能にする、上記非一時的コンピュータ可読記憶媒体。
（項目１５）
記憶媒体に記憶されるコンピュータプログラムであって、
情報処理装置のプロセッサにより実行される時に、上記コンピュータプログラムは上記項目のいずれか一項に記載の情報処理方法を実行できる、上記コンピュータプログラム。

【0021】

（摘要）
本開示は情報処理方法、装置及び記憶媒体に関し、該方法は、第１コーパスデータに対して単語分離処理を行って、少なくとも１つの単語を含む第２コーパスデータを取得することと、第１事前訓練モデルに基づいて前記第２コーパスデータに含まれる前記少なくとも１つの単語を処理して、前記第２コーパスデータに対応する第１特徴ベクトルシーケンスを取得することと、第２事前訓練モデルに基づいて前記第１コーパスデータに含まれる文字を処理して、前記第１コーパスデータに対応する第２特徴ベクトルシーケンスを取得することと、前記第１特徴ベクトルシーケンス及び前記第２特徴ベクトルシーケンスに基づき、ターゲット特徴ベクトルを取得することと、を含む。

【発明の効果】

【0022】

本開示の実施例に係る技術案は以下の有益な効果を有してもよい。

【0023】

上記技術案によれば、本開示は第１特徴ベクトルシーケンス及び第２特徴ベクトルシーケンスに基づいてターゲット特徴ベクトルを取得するよう、第１コーパスデータに対して単語分離処理を行って、少なくとも１つの単語を含む第２コーパスデータを取得し、且つ第１事前訓練モデルに基づいて第２コーパスデータに含まれる単語を処理して、第２コーパスデータに対応する第１特徴ベクトルシーケンスを取得し、第２事前訓練モデルに基づいて第１コーパスデータに含まれる文字を処理して、前記第１コーパスデータに対応する第２特徴ベクトルシーケンスを取得する。このように、訓練して取得されたモデルの正確度及び汎化効果を大幅に向上させるよう、それぞれ文字及び単語に基づいてコーパスデータをベクトルによって特徴付けることにより、多様な特徴を融合し、分類時に取得された訓練サンプルを豊富にすることができる。

【0024】

理解すべきものは、以上の一般的な説明と後の詳細な説明は例示的及び解釈的なものに過ぎず、本開示を限定するものではない。

【図面の簡単な説明】

【0025】

【図1】図１は例示的な実施例に係る情報処理方法のフローチャート１である。

【図2】図２は例示的な実施例に係る情報処理方法のフローチャート２である。

【図3】図３は例示的な実施例に係る情報処理方法のフローチャート３である。

【図4】図４は例示的な実施例に係る情報処理装置のブロック図である。

【図5】図５は例示的な実施例に係る情報処理装置のハードウェアのブロック図１である。

【図6】図６は例示的な実施例に係る情報処理装置のハードウェアのブロック図２である。

【発明を実施するための形態】

【0026】

ここの図面は明細書に合せされ本明細書の一部を構成し、本開示に適合する実施例を示し、明細書と共に本開示の原理を解釈するのに用いられる。

【0027】

ここで例示的な実施例について詳しく説明し、その例は図面に示す通りである。以下の説明が図面に関わるとき、別途に表示されない限り、異なる図面における同じ数字は同じ又は類似する要素を表示する。以下の例示的な実施例に説明される実施形態は本開示と一致する全ての実施形態を表すわけではない。逆に、それらは添付の特許請求の範囲に詳細に記載された本開示の一部の態様と一致する装置と方法の例に過ぎない。

【0028】

図１は例示的な実施例に係る情報処理方法のフローチャート１であり、図１に示すように、該方法は、
第１コーパスデータに対して単語分離処理を行って、少なくとも１つの単語を含む第２コーパスデータを取得するステップ１０１と、
第１事前訓練モデルに基づいて第２コーパスデータに含まれる前記少なくとも１つの単語を処理して、第２コーパスデータに対応する第１特徴ベクトルシーケンスを取得するステップ１０２と、
第２事前訓練モデルに基づいて第１コーパスデータに含まれる文字を処理して、第１コーパスデータに対応する第２特徴ベクトルシーケンスを取得するステップ１０３と、
第１特徴ベクトルシーケンス及び第２特徴ベクトルシーケンスに基づき、ターゲット特徴ベクトルを取得するステップ１０４と、を含む。

【0029】

ここで、第１コーパスデータは設定言語のコーパスデータであってもよく、例えば、第１コーパスデータは中国語に基づくコーパスデータであってもよい。

【0030】

第１コーパスデータが中国語に基づくコーパスデータである場合を例とすれば、第１事前訓練モデルに基づいて第１コーパスデータを処理する前に、第１コーパスデータに対して単語分離処理を行って、少なくとも１つの単語を含む第２コーパスデータを取得し、更に第１事前訓練モデルに基づいて少なくとも１つの単語を含む第２コーパスデータを処理する必要がある。

【0031】

本開示の実施例では、設定単語分離アルゴリズムに基づいて第１コーパスデータに対して単語分離処理を行って、単語で示される第２コーパスデータを取得してもよい。設定単語分離アルゴリズムは文字列マッチングに基づく単語分離アルゴリズム、理解に基づく単語分離アルゴリズム、統計に基づく単語分離アルゴリズムのうちの少なくとも１つを含む。

【0032】

ここで、文字列マッチングに基づく単語分離アルゴリズムとは、設定ポリシーに基づいて単語分離対象の文字列を設定自動ディクショナリにおける単語にマッチングし、ディクショナリから文字列の部分列に対応する単語を見つけ、更に単語分離結果を取得することを意味する。例えば、第１コーパスデータが「今天天気真好」を含む場合、設定自動ディクショナリには「今天」「天気」及び「真好」の単語が含まれれば、第１コーパスデータに対して単語分離を行った結果、すなわち第２コーパスデータが「今天天気真好」である。

【0033】

理解に基づく単語分離アルゴリズムはコンピュータが人間のセンテンスへの理解を模擬することにより、単語分離効果を実現し、つまり単語分離を行うと同時にセンテンスの構造、語義について分析し、センテンスの構造情報及び語義情報を利用してあいまい性を排除するものである。例えば、収集された大量のデータに基づいてモデル訓練を行って理解に基づく単語分離アルゴリズムを取得し、次に単語分離対象の第１コーパスデータを理解に基づく単語分離アルゴリズムに入力して、単語分離結果を取得して出力し、次に該単語分離結果に基づいて第２コーパスデータを形成する。

【0034】

統計に基づく単語分離アルゴリズムとは、文字と文字との間及び単語と単語との間に同時に出現する確率を単語分離の根拠として利用することを意味し、統計に基づく単語分離アルゴリズムはディクショナリなしの単語分離に属し、第１コーパスデータにおける各文字セットを統計して、各文字が隣接して出現する確率を計算して、各文字が隣接して出現する確率と設定確率閾値とを比較すればよく、各文字が隣接して出現する確率は設定確率閾値より大きい場合、この文字セットが１つの単語を構成できると決定する。

【0035】

設定単語分離アルゴリズムに基づいて第１コーパスデータに対して単語分離処理を行った後、少なくとも１つの単語を含む第２コーパスデータを取得してもよく、このとき、第１事前訓練モデルに基づいて第２コーパスデータに含まれる単語を処理して、第２コーパスデータに対応する第１特徴ベクトルシーケンスを取得してもよい。

【0036】

ここで、第１事前訓練モデルは高速テキスト分類（ＦａｓｔＴｅｘｔ）モデル、単語ベクトル（Ｗｏｒｄ２ｖｅｃ：ＷｏｒｄｔｏＶｅｃｔｏｒ）を生成するためのモデル、連続バッグオブ単語（ＣＢＯＷ：ＣｏｎｔｉｎｕｏｕｓＢａｇ－Ｏｆ－Ｗｏｒｄｓ）モデルのうちの少なくとも１つを含み、第１特徴ベクトルシーケンスに少なくとも１つの特徴ベクトルが含まれる。

【0037】

第１事前訓練モデルがＦａｓｔＴｅｘｔモデルである場合を例とすれば、少なくとも１つの単語を含む第２コーパスデータを事前訓練されたＦａｓｔＴｅｘｔモデルに入力し、ＦａｓｔＴｅｘｔモデルによって第２コーパスデータに含まれる各単語をそれぞれ対応する単語ベクトルに変換して、変換された単語ベクトルを第２コーパスデータにおける単語の順序に対応する順序通りに変換して取得された単語ベクトルを配列して、第２コーパスデータに対応する単語ベクトルシーケンスを形成してもよい。

【0038】

第２事前訓練モデルがＢＥＲＴモデルを含む場合を例とすれば、第１コーパスデータを事前訓練されたＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ）モデルに直接入力し、ＢＥＲＴモデルによって第１コーパスデータに含まれる各文字をそれぞれ対応する文字ベクトルに変換して、変換された文字ベクトルを第１コーパスデータにおける文字の順序に対応する順序通りに変換して取得された文字ベクトルを配列して、第１コーパスデータに対応する文字ベクトルシーケンスを形成してもよい。

【0039】

本開示の実施例では、それぞれ文字及び単語に基づいてコーパスデータをベクトルによって特徴付けることにより、文字及び単語に基づいて取得された第１特徴ベクトルシーケンス及び第２特徴ベクトルシーケンスを直接スプライシング処理して、ターゲット特徴ベクトルを取得し、スプライシング処理により取得されたターゲットベクトルには文字及び単語に基づいて取得された特徴が含まれるため、訓練して取得されたモデルの正確度及び汎化効果を大幅に向上させるよう、多様な特徴を融合することができ、分類時に取得された訓練サンプルを豊富にすることができる。

【0040】

他の可能な実施例では、第１特徴ベクトルシーケンス及び第２特徴ベクトルシーケンスにそれぞれ少なくとも１つの特徴ベクトルが含まれており、第１特徴ベクトルシーケンス及び第２特徴ベクトルシーケンスに基づいてターゲット特徴ベクトルを取得することは、
畳み込みニューラルネットワークモデルに基づいて第１特徴ベクトルシーケンスを処理し、第１特徴ベクトルシーケンスから第１特徴ベクトルを抽出することと、
長期短期記憶モデルに基づいて第１特徴ベクトルシーケンスを処理し、第１特徴ベクトルシーケンスから第２特徴ベクトルを抽出することと、
第２事前訓練モデルに基づいて第２特徴ベクトルシーケンスを処理し、第２特徴ベクトルシーケンスから第３特徴ベクトルを抽出することと、
第１特徴ベクトル、第２特徴ベクトル及び第３特徴ベクトルに基づき、ターゲット特徴ベクトルを取得することと、を含む。

【0041】

ここで、第１特徴ベクトルシーケンスを畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）に入力した後、第１特徴ベクトルを抽出するよう、畳み込みニューラルネットワークの畳み込みカーネル及び第１特徴ベクトルシーケンスにおける特徴ベクトルに基づいて畳み込み計算してもよく、例えば、畳み込みカーネル及び第１特徴ベクトルシーケンスにおける畳み込みカーネルのサイズと同様の領域の特徴ベクトルに基づいて畳み込み計算した後、第１特徴ベクトルシーケンスにおける各特徴ベクトルをすべてカバーするまで、他の領域へ移動し、次に計算してもよく、このように、設定された畳み込みカーネルによって第１特徴ベクトルシーケンスから第１特徴ベクトルを抽出してもよい。畳み込みニューラルネットワーク経由で第１特徴ベクトルを抽出すると同時に、長期短期記憶モデル（ＬＳＴＭ：Ｌｏｎｇ－ＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）に基づいて第１特徴ベクトルシーケンスを処理し、第１特徴ベクトルシーケンスから第２特徴ベクトルを抽出し、ＢＥＲＴモデルに基づいて第２特徴ベクトルシーケンスを処理し、第２特徴ベクトルシーケンスから第３特徴ベクトルを抽出する。

【0042】

第１特徴ベクトルシーケンスに含まれる特徴ベクトルにはいずれも第２コーパスデータにおける各単語に対応する単語情報が含まれており、畳み込みニューラルネットワーク及び長期短期記憶モデルに基づいて第１特徴ベクトルシーケンスを特徴抽出する過程において、それぞれ第１特徴ベクトルシーケンスから含まれる情報量が最も大きい特徴ベクトルをそれぞれ第１特徴ベクトル及び第２特徴ベクトルとして抽出してもよく、ここで、畳み込みニューラルネットワークのプーリング層に基づいて最大プーリングを行って情報量が最も大きい特徴ベクトルを取得してもよい。ＢＥＲＴモデルに基づいて第２特徴ベクトルシーケンスを特徴抽出する過程において、ＢＥＲＴモデルに基づいて第２特徴ベクトルシーケンスから含まれる情報量が最も大きい特徴ベクトルを第３特徴ベクトルとして抽出し、又は、第２特徴ベクトルシーケンスにおける設定位置の特徴ベクトルを第３特徴ベクトルとして直接抽出してもよい。例えば、第２特徴ベクトルシーケンスにおける１番目の特徴ベクトルを第３特徴ベクトルとする。

【0043】

ここで、それぞれニューラルネットワークモデル及び長期短期記憶モデルに基づいて第１特徴ベクトルシーケンスから第１特徴ベクトル及び第２特徴ベクトルを抽出し、第２事前訓練モデルに基づいて第２特徴ベクトルシーケンスから第３特徴ベクトルを抽出し、文字及び単語の特徴を融合することができ、ニューラルネットワークモデルと長期短期記憶モデルに基づいて単語の特徴情報を抽出し、第２事前訓練モデルに基づいて単語に対して文字の特徴情報を抽出することにより、２種類の情報及び複数種類のモデルの融合が分類時に必要な情報量を向上させることとなる。

【0044】

他の可能な実施例では、第１特徴ベクトル、第２特徴ベクトル及び第３特徴ベクトルに基づいてスプライシング処理によってターゲット特徴ベクトルを取得することは、
第１特徴ベクトルの末端に前記第２特徴ベクトルをスプライシングして、スプライシング後の第２特徴ベクトルの末端に第３特徴ベクトルをスプライシングして、スプライシング後の特徴ベクトルを取得することと、
スプライシング後の特徴ベクトルを次元削減処理して、ターゲット特徴ベクトルを取得することと、を含む。

【0045】

ここで、ｃｏｎｃａｔ（）方法に基づいて第１特徴ベクトル、第２特徴ベクトル及び第３特徴ベクトルをスプライシング処理して、スプライシング後の特徴ベクトルを取得してもよく、ｃｏｎｃａｔ（）方法に基づいて第１特徴ベクトル、第２特徴ベクトル及び第３特徴ベクトルを変化させずに、接続された第１特徴ベクトル、第２特徴ベクトル及び第３特徴ベクトルの１つのコピーのみを返送することとなり、スプライシング後の特徴ベクトルの次元がより高い場合、ターゲット特徴ベクトルを取得するよう、スプライシング後の特徴ベクトルを次元削減処理する必要があり、次元削減処理が高次元配列を低次元配列に圧縮することに用いられる。

【0046】

例えば、取得された第１特徴ベクトルが２００次元、第２特徴ベクトルが２００次元、第３特徴ベクトルが３００次元である場合、第１特徴ベクトル、第２特徴ベクトル及び第３特徴ベクトルを直接設定順序通りにスプライシングした後、取得されたスプライシング後の特徴ベクトルが７００次元となり、ここで、スプライシング後の特徴ベクトルを取得するよう、第１特徴ベクトルの最後位置に第２特徴ベクトルをスプライシングして、第２特徴ベクトルの最後位置に第３特徴ベクトルをスプライシングしてもよい。スプライシング処理した後、スプライシングにより取得された特徴ベクトルを次元削減処理して、ターゲット特徴ベクトルを出力してもよい。ここで、設定次元削減アルゴリズムに基づいてスプライシング後の特徴ベクトルを次元削減処理してもよく、設定次元削減アルゴリズムは線形次元削減アルゴリズム、主成分分析（ＰＣＡ：ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ）アルゴリズム、多次元スケーリング（ＭＤＳ：ＭｕｌｔｉｐｌｅＤｉｍｅｎｓｉｏｎａｌＳｃａｌｉｎｇ）アルゴリズム、線形判別分析（ＬＤＡ：ＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ）アルゴリズム、局所線形埋め込み（ＬＬＥ：ＬｏｃａｌｌｙＬｉｎｅａｒＥｍｂｅｄｄｉｎｇ）アルゴリズムのうちの少なくとも１つを含む。

【0047】

線形次元削減アルゴリズムに基づいてスプライシング後の特徴ベクトルに対して線形次元削減を行う場合を例とすれば、スプライシング後の特徴ベクトルを線形変換することにより、スプライシング後の特徴ベクトルをスプライシング後の特徴ベクトルの次元より低い次元空間にマッピングして表示してもよい。例えば、スプライシング後の特徴ベクトルＸがｄ次元であると決定する場合、線形変換式でｄ次元のＸを次元削減してｄ′次元ターゲット特徴ベクトルＸ′を取得してもよく、ここで、ｄ′≦ｄであり、取得されたターゲット特徴ベクトルＸ′における特徴がスプライシング後の特徴ベクトルＸにおける特徴の線形組み合わせである。線形変換式はＸ′＝Ｗ^ＴＸ（１）であり、
ここで、Ｗが変換マトリックスであり、Ｘがスプライシング後の特徴ベクトルであり、Ｘ′がターゲット特徴ベクトルであり、変換マトリックスＷがｄ′個のｄ次元ベクトルであると見なされてもよい。

【0048】

他の可能な実施例では、第２コーパスデータに含まれる単語が単語識別子を有し、第１事前訓練モデルに基づいて第２コーパスデータを処理して、第２コーパスデータに対応する第１特徴ベクトルシーケンスを取得することは、
第２コーパスデータに含まれる各単語の単語識別子を決定することと、
各単語の単語識別子に基づいて第１事前訓練モデルの設定単語ベクトルマッピングテーブルをクエリし、設定単語ベクトルマッピングテーブルから各単語の特徴ベクトルを決定し、設定単語ベクトルマッピングテーブルに各単語の単語識別子と各特徴ベクトルとのマッピング関係が含まれることと、
決定された各単語の特徴ベクトルを第１設定順序通りに配列して、第１特徴ベクトルシーケンスを取得することと、を含む。

【0049】

ここで、訓練して第１事前訓練モデルを取得した後、第１事前訓練モデルの設定単語ベクトルマッピングテーブルを取得してもよく、該設定単語ベクトルマッピングテーブルに各単語の単語識別子と各特徴ベクトルとのマッピング関係が含まれる。本開示の実施例では、まず第２コーパスデータに含まれる各単語の単語識別子を決定して、各単語の単語識別子に基づいて設定単語ベクトルマッピングテーブルをクエリし、更に各単語の特徴ベクトルを決定してもよく、単語識別子が各単語に対して表記した番号であってもよい。第２コーパスデータにおける各単語の特徴ベクトルを決定した後、各単語の特徴ベクトルを第１設定順序通りに配列して、第１特徴ベクトルシーケンスを取得してもよく、ここで、第１設定順序が各単語の第２コーパスデータでの配列順序によって決定されてもよい。第１事前訓練モデルがＦａｓｔＴｅｘｔモデルである場合、ＦａｓｔＴｅｘｔモデルに基づいて取得した第１特徴ベクトルシーケンスにおける特徴ベクトルが静的単語ベクトルであり、且つ該静的単語ベクトルがコンテクストを融合した情報であり、局所特徴抽出により良い効果を果たす。

【0050】

他の可能な実施例では、第１コーパスデータに含まれる文字が文字識別子を有し、第２事前訓練モデルに基づいて第１コーパスデータを処理して、第１コーパスデータに対応する第２特徴ベクトルシーケンスを取得することは、
第１コーパスデータに含まれる各文字の文字識別子を決定することと、
第２事前訓練モデルが第１コーパスデータにおける各文字のコンテクストを分析して、分析結果を取得することと、
分析結果及び文字の文字識別子に基づき、第２事前訓練モデルの設定文字ベクトルマッピングテーブルをクエリし、設定単語ベクトルマッピングテーブルから各文字の特徴ベクトルを決定し、設定文字ベクトルマッピングテーブルに各文字の文字識別子と各特徴ベクトルとのマッピング関係が含まれることと、
決定された各文字の特徴ベクトルを第２設定順序通りに配列して、第２特徴ベクトルシーケンスを取得することと、を含む。

【0051】

ここで、訓練して第２事前訓練モデルを取得した後、第２事前訓練モデルの設定文字ベクトルマッピングテーブルを取得してもよく、該設定文字ベクトルマッピングテーブルに各文字の文字識別子と各特徴ベクトルとのマッピング関係が含まれる。本開示の実施例では、まず第２事前訓練モデルに基づいて第１コーパスデータにおける各文字のコンテクストを分析して、分析結果を取得し、且つ分析結果及び各文字の文字識別子に基づいて第２事前訓練モデルの設定文字ベクトルマッピングテーブルをクエリし、設定単語ベクトルマッピングテーブルから各文字の特徴ベクトルを決定してもよい。各文字のコンテクストは各文字に隣接する文字を指してもよく、例えば、ｍ番目の文字の前文はｍ－ｘ番目の文字を指してもよく、後文はｍ＋ｘ番目の文字を指してもよく、ｍとｘがそれぞれ正の整数である。例えば、第１コーパスデータが「今天天気真好」である場合、「今」「天」及び「天」がいずれも「気」の前文であり、「真」と「好」が「気」の後文である。

【0052】

第１コーパスデータにおける各文字の特徴ベクトルを決定した後、各文字の特徴ベクトルを第２設定順序通りに配列して、第２特徴ベクトルシーケンスを取得してもよく、ここで、第２設定順序が各文字の第１コーパスデータでの配列順序によって決定されてもよい。第２事前訓練モデルがＢＥＲＴモデルである場合、ＢＥＲＴモデルに基づいて第１コーパスデータにおける各文字のコンテクストを分析して、第１コーパスデータの言語環境を取得し、且つ第１コーパスデータの言語環境に基づいて第１コーパスデータにおける各文字の真の語義を決定して、各文字の真の語義に基づいて対応する設定文字ベクトルマッピングテーブルを決定して、対応する設定文字ベクトルマッピングテーブルから各文字に対応する文字ベクトルを決定する。例えば、第１コーパスデータが「このりんごはとてもおいしいです（中国語：這個苹果真好吃）」である場合、ＢＥＲＴモデルによる分析によって第１コーパスデータにおける「苹果」が果物を指すと決定できる。第１コーパスデータが「ｉＰｈｏｎｅ（登録商標）は使いやすいです（中国語：苹果手機好用）」である場合、ＢＥＲＴモデルによる分析によって第１コーパスデータにおける「苹果」が電子製品である携帯電話を指すと決定できる。このように、各文字のコンテクスト情報に基づき、それぞれ設定文字ベクトルマッピングテーブルから対応する文字ベクトルを決定することができ、コンテクストの言語環境と組み合わせて、各文字の真の語義を決定することができ、このように、決定された文字ベクトルが一層正確になる。

【0053】

他の可能な実施例では、該方法は、更に、
設定分類モデルに基づいてターゲット特徴ベクトルを分類処理して、分類結果を取得することを含む。

【0054】

ここで、設定分類器によってターゲット特徴ベクトルを分類して、分類結果を取得してもよく、分類結果で特徴づけられるのがターゲット特徴ベクトルの真の語義であり、設定分類器によって様々な可能な語義を出力してもよい。ターゲット特徴ベクトルを設定分類器に入力して、設定分類器によって３種類の可能な語義を出力する場合を例とすれば、それぞれ３種類の可能な語義の確率を取得して、確率が最も高い語義を最終的な分類結果としてもよい。例えば、第１語義の出力確率が０．２、第２語義の出力確率が０．５、第３語義の出力確率が０．３である場合、第２語義をターゲット特徴ベクトルの真の語義、すなわち取得された分類結果としてもよい。

【0055】

更に、例えば、入力されたターゲット特徴ベクトルで特徴づけられるのが「我和小紅挺好的」である場合、ターゲット特徴ベクトルを設定分類器に入力した後、２種類の可能な語義を取得してもよく、第１種類の語義は我と小紅との関係が良いことであり、第２種類の語義は我と小紅の状況が良いことであり、設定分類器による第１種類の語義の出力確率が０．３、第２種類の語義の出力確率が０．７である場合、第２種類の語義の確率が第１種類の語義の確率より高いため、第２種類の語義をターゲット特徴ベクトルの真の語義として決定してもよく、つまりターゲット特徴ベクトルの真の語義は我と小紅の状況が良いことである。ここで、確率値がｓｏｆｔｍａｘ関数に基づいて設定分類器の出力した数値を正規化処理して取得されてもよい。

【0056】

ここで、設定分類器は前処理後の訓練セット（類別を予知したドキュメント）が学習モデリングして構築した分類器であり、実現過程において、該分類器の性能を向上させるよう、設定テストセットドキュメントを利用して設定テスト方法で構築された分類器に対して性能テストを行って、テスト結果のフィードバックによる学習を継続的に行ってもよい。

【0057】

図２は例示的な実施例に係る情報処理方法のフローチャート２であり、図２に示すように、該方法は以下のステップを含む。

【0058】

ステップ２０１において、中国語コーパスデータを決定する。

【0059】

ここで、ダウンロードのために、複数種類のＢＥＲＴモデルを事前訓練してもよい。例えば、異なる言語に対するＢＥＲＴモデル及び異なるモデルサイズのＢＥＲＴモデルを事前訓練する。

【0060】

ステップ２０２において、データを準備する。

【0061】

ここで、データ準備はデータフォーマットの設定及び入力フォーマットクラスの編集を含み、例えば、該入力フォーマットクラスはＤａｔａＰｒｏｃｅｓｓｏｒクラスを含んでもよい。データフォーマットは１行が１つのサンプルを表し、各行の各サンプルがラベル、１つのタブ及びテキストを含んでもよいように整理されてもよい。ＤａｔａＰｒｏｃｅｓｓｏｒクラスを編集する主な目的はプログラムを利用してデータフォーマットを基準の入力フォーマットに処理することである。

【0062】

ステップ２０３において、事前訓練後のＢＥＲＴ中国語モデルをロードする。

【0063】

ステップ２０４において、スクリプトを書いて実行して、書かれたスクリプトを実行する。

【0064】

ステップ２０５において、訓練後のテキスト分類モデルを取得する。

【0065】

ここで、設定された検証セットに基づいてＢＥＲＴモデルの正確度を検証し、正確度が最も高い場合、モデル訓練を停止して、訓練後のＢＥＲＴモデルに基づくテキスト分類モデルを取得してもよい。

【0066】

図３は例示的な実施例に係る情報処理方法のフローチャート３であり、図３に示すように、該方法は以下のステップを含む。

【0067】

ステップ３０１において、第１コーパスデータを決定する。

【0068】

ここで、第１コーパスデータが表記された中国語コーパスデータを含む。

【0069】

ステップ３０２において、第１コーパスデータに対して単語分離処理を行って、単語で示される第２コーパスデータを取得する。

【0070】

ここで、第１コーパスデータに対して単語分離を行わない場合、ステップ３０６を実行する。

【0071】

ステップ３０３において、ＦａｓｔＴｅｘｔモデルをロードし、ＦａｓｔＴｅｘｔモデルに基づいて第２コーパスデータに含まれる単語に対して単語埋め込み処理を行って、第１特徴ベクトルシーケンスを取得する。

【0072】

ステップ３０４において、畳み込みニューラルネットワーク経由で第１特徴ベクトルシーケンスを特徴抽出して、第１特徴ベクトルを取得する。

【0073】

ステップ３０５において、長期短期記憶モデルに基づいて第１特徴ベクトルシーケンスを特徴抽出して、第２特徴ベクトルを取得する。

【0074】

ステップ３０６において、ＢＥＲＴモデルに基づいて第１コーパスデータに含まれる文字に対して文字埋め込み処理を行って、第２特徴ベクトルシーケンスを取得して、ＢＥＲＴモデルに基づいて第２特徴ベクトルシーケンスを特徴抽出して、第３特徴ベクトルを取得する。

【0075】

ステップ３０７において、ｃｏｎｃａｔ（）方法に基づいて第１特徴ベクトル、第２特徴ベクトル及び第３特徴ベクトルをスプライシング処理して、スプライシング後の特徴ベクトルを取得する。

【0076】

ステップ３０８において、スプライシング後の特徴ベクトルを次元削減処理して、ターゲット特徴ベクトルを取得する。

【0077】

ステップ３０９において、設定分類モデルに基づいてターゲット特徴ベクトルを分類処理して、分類結果を取得する。

【0078】

図２に対応する実施例におけるＢＥＲＴモデルのみに基づいてテキスト分類を行う技術案に比べて、本開示の実施例では、第１態様では、文字及び単語の特徴を融合することができ、ＣＮＮモデル及びＬＳＴＭモデルに基づいて単語に対して特徴情報抽出を行って、ＢＥＲＴモデルに基づいて文字に対して特徴情報抽出を行うことにより、２種類の情報の融合が分類時に必要な情報量を向上させることとなる。

【0079】

第２態様では、ＦａｓｔＴｅｘモデルの単語ベクトルを静的単語ベクトルとしてロードして、ＢＥＲＴモデルの文字ベクトルを動的文字ベクトルとしてロードすることにより、静的単語ベクトルがコンテクストを融合した情報であって、ウィンドウベースのスライド抽出特徴であるため、局所特徴抽出に効果が高いが、動的言語モデルにおける単語ベクトルがコンテクストの言語環境の違いによって異なり、本開示の実施例では、動的単語ベクトル及び静的単語ベクトルの特徴を十分に融合することにより、分類時に必要な情報の正確性及び柔軟性を向上させることができる。

【0080】

第３態様では、長いシーケンスの記憶情報及びウィンドウ化された局所情報を融合することができ、ＢＥＲＴモデルにより抽出された情報がシーケンス全体の大域情報であって、コンテクストの推定情報であり、判別モデルに属し、双方向のＬＳＴＭモデルにより抽出されたのはシーケンスが回帰を行う記憶情報であって、１つの自己回帰モデルであり、生成モデルに属する。ＣＮＮモデルにより抽出されたのが局所情報であり、従って、モデルが長いシーケンスの記憶情報及びウィンドウ化された局所情報を融合したものである。

【0081】

本開示の実施例では、多様な特徴及び様々な特徴抽出方法を融合することにより、分類時に取得された情報を豊富にし、モデルの正確度及び汎化効果が大幅に向上することとなる。中国語テキストにおける文字及び単語の特徴、動的言語モデル及び静的言語モデルの特徴、長いシーケンスの記憶情報及びウィンドウ化された局所情報を融合するテキスト分類技術を提供し、テキスト分類の回収率及び正確度を向上させる。

【0082】

図４は例示的な実施例に係る情報処理装置のブロック図である。図４に示すように、該情報処理装置４００は、主に、
第１コーパスデータに対して単語分離処理を行って、少なくとも１つの単語を含む第２コーパスデータを取得するように構成される第１処理モジュール４０１と、
第１事前訓練モデルに基づいて第２コーパスデータに含まれる前記少なくとも１つの単語を処理して、第２コーパスデータに対応する第１特徴ベクトルシーケンスを取得するように構成される第２処理モジュール４０２と、
第２事前訓練モデルに基づいて第１コーパスデータに含まれる文字を処理して、第１コーパスデータに対応する第２特徴ベクトルシーケンスを取得するように構成される第３処理モジュール４０３と、
第１特徴ベクトルシーケンス及び第２特徴ベクトルシーケンスに基づき、ターゲット特徴ベクトルを取得するように構成される取得モジュール４０４と、を備える。

【0083】

他の可能な実施例では、第１特徴ベクトルシーケンス及び第２特徴ベクトルシーケンスにそれぞれ少なくとも１つの特徴ベクトルが含まれており、取得モジュール４０４は、更に、
畳み込みニューラルネットワークモデルに基づいて第１特徴ベクトルシーケンスを処理して、第１特徴ベクトルシーケンスから第１特徴ベクトルを抽出し、
長期短期記憶モデルに基づいて第１特徴ベクトルシーケンスを処理して、第１特徴ベクトルシーケンスから第２特徴ベクトルを抽出し、
第２事前訓練モデルに基づいて第２特徴ベクトルシーケンスを処理して、第２特徴ベクトルシーケンスから第３特徴ベクトルを抽出し、
第１特徴ベクトル、第２特徴ベクトル及び第３特徴ベクトルに基づき、スプライシング処理によってターゲット特徴ベクトルを取得するように構成される。

【0084】

他の可能な実施例では、取得モジュール４０４は、更に、
第１特徴ベクトルの末端に前記第２特徴ベクトルをスプライシングして、スプライシング後の第２特徴ベクトルの末端に第３特徴ベクトルをスプライシングして、スプライシング後の特徴ベクトルを取得し、
スプライシング後の特徴ベクトルを次元削減処理して、ターゲット特徴ベクトルを取得するように構成される。

【0085】

他の可能な実施例では、第２処理モジュール４０２は、更に、
第２コーパスデータに含まれる各単語の単語識別子を決定し、
各単語の単語識別子に基づいて第１事前訓練モデルの設定単語ベクトルマッピングテーブルをクエリし、設定単語ベクトルマッピングテーブルから各単語の特徴ベクトルを決定し、設定単語ベクトルマッピングテーブルに各単語の単語識別子と各特徴ベクトルとのマッピング関係が含まれており、
決定された各単語の特徴ベクトルを第１設定順序通りに配列して、第１特徴ベクトルシーケンスを取得するように構成される。

【0086】

他の可能な実施例では、第３処理モジュール４０３は、更に、
第１コーパスデータに含まれる各文字の文字識別子を決定し、
第２事前訓練モデルが第１コーパスデータにおける各文字のコンテクストを分析して、分析結果を取得し、
分析結果及び文字の文字識別子に基づき、第２事前訓練モデルの設定文字ベクトルマッピングテーブルをクエリし、設定単語ベクトルマッピングテーブルから各文字の特徴ベクトルを決定し、設定文字ベクトルマッピングテーブルに各文字の文字識別子と各特徴ベクトルとのマッピング関係が含まれており、
決定された各文字の特徴ベクトルを第２設定順序通りに配列して、第２特徴ベクトルシーケンスを取得するように構成される。

【0087】

他の可能な実施例では、装置４００は、更に、
設定分類モデルに基づいてターゲット特徴ベクトルを分類処理して、分類結果を取得するように構成される分類モジュールを備える。

【0088】

上記実施例における装置について、各モジュールが操作を実行する具体的な方式は既に該方法に関連する実施例において詳しく説明されたため、ここで詳細な説明は省略する。

【0089】

図５は例示的な実施例に係る情報処理装置５００のハードウェアのブロック図である。例えば、装置５００は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、パーソナルデジタルアシスタント等であってもよい。

【0090】

図５に示すように、装置５００は処理コンポーネント５０２、メモリ５０４、電力コンポーネント５０６、マルチメディアコンポーネント５０８、オーディオコンポーネント５１０、入力／出力（Ｉ／Ｏ）インターフェース５１２、センサコンポーネント５１４、及び通信コンポーネント５１６のうちの１つ又は複数のコンポーネントを備えてもよい。

【0091】

処理コンポーネント５０２は一般的に装置５００の全体操作、例えば表示、電話コール、データ通信、カメラ操作及び記録操作に関連する操作を制御する。処理コンポーネント５０２は命令を実行することにより、上記方法の全部又は一部のステップを完了する１つ又は複数のプロセッサ５２０を備えてもよい。なお、処理コンポーネント５０２は処理コンポーネント５０２と他のコンポーネントとの相互作用に役立つ１つ又は複数のモジュールを備えてもよい。例えば、処理コンポーネント５０２はマルチメディアコンポーネント５０８と処理コンポーネント５０２との相互作用に役立つマルチメディアモジュールを備えてもよい。

【0092】

メモリ５０４は様々なタイプのデータを記憶することにより装置５００における操作をサポートするように構成される。これらのデータの例は装置５００において操作するためのいかなるアプリケーションプログラム又は方法の命令、連絡先データ、電話帳データ、メッセージ、画像、ビデオ等を含む。メモリ５０４はいかなるタイプの揮発性記憶装置又は不揮発性記憶装置、例えばスタティックランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能プログラム可能読み出し専用メモリ（ＥＥＰＲＯＭ）、消去可能プログラム可能読み出し専用メモリ（ＥＰＲＯＭ）、プログラム可能読み出し専用メモリ（ＰＲＯＭ）、読み出し専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスク、又はそれらの組み合わせで実現されてもよい。

【0093】

電力コンポーネント５０６は装置５００の様々なコンポーネントに電力を供給する。電力コンポーネント５０６は電源管理システム、１つ又は複数の電源、並びに装置５００への電力の生成、管理及び分配に関連する他のコンポーネントを備えてもよい。

【0094】

マルチメディアコンポーネント５０８は前記装置５００とユーザーとの間に１つの出力インターフェースを提供するスクリーンを備える。いくつかの実施例では、スクリーンは液晶ディスプレイ（ＬＣＤ）及びタッチパネル（ＴＰ）を含んでもよい。スクリーンはタッチパネルを含む場合、ユーザーからの入力信号を受信するよう、スクリーンはタッチスクリーンとして実現されてもよい。タッチ、スワイプ及びタッチパネルにおけるジェスチャーを検知するよう、タッチパネルは１つ又は複数のタッチセンサを備える。前記タッチセンサはタッチ又はスワイプ動作の境界を検知するだけでなく、更に前記タッチ又はスワイプ操作に関連する持続時間及び圧力を検出することができる。いくつかの実施例では、マルチメディアコンポーネント５０８は１つの前置カメラ及び／又は後置カメラを備える。装置５００が操作モード、例えば撮影モード又はビデオモードにある場合、前置カメラ及び／又は後置カメラは外部のマルチメディアデータを受信することができる。各前置カメラ及び／又は後置カメラは１つの一定の光学レンズシステムであり、又は集束及び光学ズーム能力を有してもよい。

【0095】

オーディオコンポーネント５１０はオーディオ信号を出力及び／又は入力するように構成される。例えば、オーディオコンポーネント５１０は１つのマイクロフォン（ＭＩＣ）を備え、装置５００が操作モード、例えばコールモード、記録モード及び音声識別モードにある場合、マイクロフォンは外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は更にメモリ５０４に記憶され、又は通信コンポーネント５１６により送信されてもよい。いくつかの実施例では、オーディオコンポーネント５１０は更にオーディオ信号を出力するための１つの拡声器を備える。

【0096】

Ｉ／Ｏインターフェース５１２は処理コンポーネント５０２と周辺インターフェースモジュールとの間にインターフェースを提供し、上記周辺インターフェースモジュールはキーボード、クリックホイール、ボタン等であってもよい。これらのボタンはホームページボタン、音量ボタン、スタートボタン及びロックボタンを含んでもよいが、それらに限らない。

【0097】

センサコンポーネント５１４は装置５００に各態様の状態評価を提供するための１つ又は複数のセンサを備える。例えば、センサコンポーネント５１４は装置５００のオン／オフ状態、コンポーネントの相対位置決めを検出することができ、例えば前記コンポーネントは装置５００のディスプレイ及びキーパッドであり、センサコンポーネント５１４は更に装置５００又は装置５００の１つのコンポーネントの位置変化、ユーザーが装置５００に接触しているかどうか、装置５００の方位又は加速／減速及び装置５００の温度変化を検出することができる。センサコンポーネント５１４は物理的に接触しない際に近傍物体があるかどうかを検出するように構成される接近センサを備えてもよい。センサコンポーネント５１４は更にイメージングアプリケーションに使用されるための光センサ、例えばＣＭＯＳ又はＣＣＤ画像センサを備えてもよい。いくつかの実施例では、該センサコンポーネント５１４は更に加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサ又は温度センサを含んでもよい。

【0098】

通信コンポーネント５１６は装置５００と他の装置との有線又は無線方式の通信に役立つように構成される。装置５００は通信規格に基づく無線ネットワーク、例えばＷｉＦｉ、２Ｇ又は５Ｇ、又はそれらの組み合わせにアクセスすることができる。１つの例示的な実施例では、通信コンポーネント５１６は放送チャネルを介して外部放送管理システムからのブロードキャスト信号又はブロードキャスト関連情報を受信する。１つの例示的な実施例では、近距離通信を促進するよう、前記通信コンポーネント５１６は更に近距離無線通信（ＮＦＣ）モジュールを備える。例えば、ＮＦＣモジュールは無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（登録商標）（ＢＴ）技術及び他の技術により実現されてもよい。

【0099】

例示的な実施例では、上記方法を実行するために、装置５００は１つ又は複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現されてもよい。

【0100】

例示的な実施例では、更に命令を含む非一時的コンピュータ可読記憶媒体、例えば命令を含むメモリ５０４を提供し、上記方法を完了するために、上記命令が装置５００のプロセッサ５２０により実行されてもよい。例えば、前記非一時的コンピュータ可読記憶媒体はＲＯＭ、ランダムアクセスメモリ（ＲＡＭ）、ＣＤ－ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスク及び光データ記憶装置等であってもよい。

【0101】

非一時的コンピュータ可読記憶媒体であって、前記記憶媒体における命令が情報処理装置のプロセッサにより実行されるとき、情報処理装置が情報処理方法を実行するようにし、前記方法は、
第１コーパスデータに対して単語分離処理を行って、単語で示される第２コーパスデータを取得することと、
第１事前訓練モデルに基づいて前記第２コーパスデータに含まれる単語を処理して、前記第２コーパスデータに対応する第１特徴ベクトルシーケンスを取得することと、
第２事前訓練モデルに基づいて前記第１コーパスデータに含まれる文字を処理して、前記第１コーパスデータに対応する第２特徴ベクトルシーケンスを取得することと、
前記第１特徴ベクトルシーケンス及び前記第２特徴ベクトルシーケンスに基づき、ターゲット特徴ベクトルを取得することと、を含む。

【0102】

図６は例示的な実施例に係る情報処理装置１９００のハードウェアのブロック図２である。例えば、装置１９００はサーバとして提供されてもよい。図６に示すように、装置１９００は処理コンポーネント１９２２を備え、更に１つ又は複数のプロセッサ及び処理コンポーネント１９２２の実行可能な命令、例えば高速アプリケーションプログラムを記憶するためのメモリ１９３２で代表されるメモリリソースを備える。メモリ１９３２に記憶される高速アプリケーションプログラムは１つ又はそれぞれ１組の命令に対応する１つ以上のモジュールを含んでもよい。なお、上記情報処理方法を実行するために、処理コンポーネント１９２２は命令を実行するように構成され、前記方法は、
第１コーパスデータに対して単語分離処理を行って、単語で示される第２コーパスデータを取得することと、
第１事前訓練モデルに基づいて前記第２コーパスデータに含まれる単語を処理して、前記第２コーパスデータに対応する第１特徴ベクトルシーケンスを取得することと、
第２事前訓練モデルに基づいて前記第１コーパスデータに含まれる文字を処理して、前記第１コーパスデータに対応する第２特徴ベクトルシーケンスを取得することと、
前記第１特徴ベクトルシーケンス及び前記第２特徴ベクトルシーケンスに基づき、ターゲット特徴ベクトルを取得することと、を含む。

【0103】

装置１９００は、更に、装置１９００の電源管理を実行するように構成される１つの電源コンポーネント１９２６と、装置１９００をネットワークに接続するように構成される１つの有線又は無線ネットワークインターフェース１９５０と、１つの入力出力（Ｉ／Ｏ）インターフェース１９５８と、を備えてもよい。装置１９００はメモリ１９３２に記憶されるオペレーティングシステム、例えばＷｉｎｄｏｗｓ（登録商標）ＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、Ｕｎｉｘ（登録商標）、Ｌｉｎｕｘ（登録商標）、ＦｒｅｅＢＳＤＴＭ又は類似のものを操作することができる。

【0104】

当業者が明細書を考慮し及びここで開示される発明を実践した後、本開示の他の実施案に容易に想到し得る。本開示は本開示のいかなる変形、用途又は適応変化を含むように意図されるものであり、これらの変形、用途又は適応変化は本開示の一般的な原理に従い且つ本開示に開示されていない本技術分野における周知技術又は慣用の技術的手段を含む。明細書及び実施例は例示的なものであると見なされ、本開示の真の範囲及び趣旨は以下の特許請求の範囲に示される。

【0105】

理解すべきものは、本開示は以上に説明されて図面に示される正確な構造に制限されるのではなく、その範囲を逸脱せずに種々の修正や変更を行うことができる。本開示の範囲は添付の特許請求の範囲に制限される。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版