(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-13
(45)【発行日】2022-12-21
(54)【発明の名称】ドキュメントのベクトル化表現方法、ドキュメントのベクトル化表現装置及びコンピュータ機器
(51)【国際特許分類】
G06F 40/30 20200101AFI20221214BHJP
G06F 40/216 20200101ALI20221214BHJP
【FI】
G06F40/30
G06F40/216
(21)【出願番号】P 2020108873
(22)【出願日】2020-06-24
【審査請求日】2020-06-24
(31)【優先権主張番号】201911334964.9
(32)【優先日】2019-12-20
(33)【優先権主張国・地域又は機関】CN
【前置審査】
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100118913
【氏名又は名称】上田 邦生
(72)【発明者】
【氏名】パン, チャオ
(72)【発明者】
【氏名】ワン, シュオファン
(72)【発明者】
【氏名】サン, ユウ
(72)【発明者】
【氏名】リ, ツィ
【審査官】長 由紀子
(56)【参考文献】
【文献】中国特許出願公開第105653671(CN,A)
【文献】米国特許出願公開第2019/0258700(US,A1)
【文献】中国特許出願公開第109243616(CN,A)
【文献】中国特許出願公開第108829818(CN,A)
【文献】YANG, Zichao 外5名,Hierarchical Attention Networks for Document Classification,インターネット,The 15th annual Conference of the North American Chapter: Human Language Technologies (HAACL HLT 2016),2016年06月17日,pp.1-10
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-58
(57)【特許請求の範囲】
【請求項1】
ドキュメントのベクトル化表現装置によって実行され、
ドキュメントを分割して複数のテキストセグメントを取得するステップと、
各テキストセグメント内のキャラクタとセグメントベクトルとのマッピング関係を学習して取得する第1レベルのセマンティックモデルを用いて、各テキストセグメントを対応するテキストセグメントのセグメントベクトルとしてベクトル化表現するステップであって、前記セグメントベクトルが、対応するテキストセグメントのセマンティックを示すステップと、
セグメントベクトルとドキュメントベクトルとのマッピング関係を学習して取得する第2レベルのセマンティックモデルを用いて、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、前記ドキュメントのトピックを示すためのドキュメントベクトルを取得するステップと、
を含み、
前記第1レベルのセマンティックモデルを用いて、各テキストセグメントを対応するテキストセグメントのセグメントベクトルとしてベクトル化表現するステップが、
各テキストセグメントに対して末尾に終了キャラクタを追加した後、第1レベルのセマンティックモデルに入力して、前記第1レベルのセマンティックモデルによって出力された対応するテキストセグメントにおける各キャラクタのベクトル化表現を取得するステップと、
各テキストセグメントにおける終了キャラクタのベクトル化表現を対応するテキストセグメントのセグメントベクトルとするステップと、
を含
み、
前記第2レベルのセマンティックモデルを用いて、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、前記ドキュメントのトピックを示すためのドキュメントベクトルを取得するステップが、
各テキストセグメントのセグメントベクトルについて、対応するセグメントベクトルに位置要素を追加して、各テキストセグメントの入力ベクトルを取得するステップであって、前記位置要素は、対応するテキストセグメントの前記ドキュメント内の位置を示すステップと、
前記第2レベルのセマンティックモデルが各入力ベクトルに基づいて、参照ベクトルの値を調整するように、各テキストセグメントの入力ベクトルと、値が初期値である前記参照ベクトルとを第2レベルのセマンティックモデルに入力するステップと、
値が調整された参照ベクトルを前記ドキュメントベクトルとするステップと、
を含み、
各セグメントは独立した位置符号化を採用し、値が初期値である参照ベクトルは、予め設定された学習可能なベクトルである、ドキュメントのベクトル化表現方法。
【請求項2】
前記ドキュメントを分割して複数のテキストセグメントを取得するステップの前に、
第1のトレーニングタスクを用いて、前記第1レベルのセマンティックモデルと前記第2レベルのセマンティックモデルとをトレーニングするステップを含み、
前記第1のトレーニングタスクが、
いずれかのテキストセグメント内の一つのキャラクタのベクトル化表現を取得することと、
前記一つのキャラクタのベクトル化表現と前記ドキュメントベクトルとに基づいて、予測キャラクタを予測して取得することと、
前記予測キャラクタと前記一つのキャラクタとの差異に基づいて、前記第1レベルのセマンティックモデルと前記第2レベルのセマンティックモデルとのパラメータを調整することと、
を含む請求項1に記載のドキュメントのベクトル化表現方法。
【請求項3】
前記ドキュメントを分割して複数のテキストセグメントを取得するステップの前に、
第2のトレーニングタスクを用いて、前記第1レベルのセマンティックモデルと前記第2レベルのセマンティックモデルとをトレーニングするステップを含み、
前記第2のトレーニングタスクが、
トレーニング本文とトレーニングタイトルとをつなぎ合わせたトレーニングドキュメントのドキュメントベクトルを取得することと、
前記ドキュメントベクトルに基づいて、トレーニングサンプルにおけるトレーニングドキュメントとトレーニングタイトルとのセマンティックがマッチングしているか否かを予測することと、
予測されたマッチング結果と実際のマッチング結果との差異に基づいて、前記第1レベルのセマンティックモデルと前記第2レベルのセマンティックモデルとのパラメータを調整することと、
を含む請求項
1に記載のドキュメントのベクトル化表現方法。
【請求項4】
前記トレーニングドキュメントが複数であり、正例と負例とを含み、
前記正例としてのトレーニングドキュメントは、トレーニング本文と、対応するトレーニングタイトルとをつなぎ合わせたものであり、
負例としてのトレーニングドキュメントは、トレーニング本文と、他のトレーニング本文に対応するトレーニングタイトルとをつなぎ合わせたものである請求項
3に記載のドキュメントのベクトル化表現方法。
【請求項5】
前記第1レベルのセマンティックモデルが複数であり、各第1レベルのセマンティックモデルが、対応する一つのテキストセグメントを対応するセグメントベクトルとしてベクトル化表現し、
複数の前記第1レベルのセマンティックモデルが、パラメータを共有する請求項1から
4のいずれか一項に記載のドキュメントのベクトル化表現方法。
【請求項6】
ドキュメントを分割して複数のテキストセグメントを取得するように構成される分割モジュールと、
各テキストセグメント内のキャラクタとセグメントベクトルとのマッピング関係を学習して取得する第1レベルのセマンティックモデルを用いて、各テキストセグメントを対応するテキストセグメントのセグメントベクトルとしてベクトル化表現するように構成される表現モジュールであって、前記セグメントベクトルは、対応するテキストセグメントのセマンティックを示す表現モジュールと、
セグメントベクトルとドキュメントベクトルとのマッピング関係を学習して取得する第2レベルのセマンティックモデルを用いて、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、前記ドキュメントのトピックを示すためのドキュメントベクトルを取得するように構成される認識モジュールと、を備え、
前記表現モジュールが、
各テキストセグメントに対して末尾に終了キャラクタを追加した後、第1レベルのセマンティックモデルに入力して、前記第1レベルのセマンティックモデルによって出力された対応するテキストセグメントにおける各キャラクタのベクトル化表現を取得し、
各テキストセグメントにおける終了キャラクタのベクトル化表現を対応するテキストセグメントのセグメントベクトルとするように構成され
、
前記認識モジュールは、
各テキストセグメントのセグメントベクトルについて、対応するセグメントベクトルに位置要素を追加して、各テキストセグメントの入力ベクトルを取得するように構成され、前記位置要素が、対応するテキストセグメントの前記ドキュメント内の位置を示し、
前記第2レベルのセマンティックモデルが各入力ベクトルに基づいて、参照ベクトルの値を調整するように、各テキストセグメントの入力ベクトルと、値が初期値である前記参照ベクトルとを第2レベルのセマンティックモデルに入力し、
値が調整された参照ベクトルを前記ドキュメントベクトルとするように構成され、
各セグメントは独立した位置符号化を採用し、値が初期値である参照ベクトルは、予め設定された学習可能なベクトルである、ドキュメントのベクトル化表現装置。
【請求項7】
第1のトレーニングタスクを用いて、前記第1レベルのセマンティックモデルと前記第2レベルのセマンティックモデルとをトレーニングするように構成される第1のトレーニングモジュールを備え、
前記第1のトレーニングタスクが、
いずれかのテキストセグメント内の一つのキャラクタのベクトル化表現を取得することと、
前記一つのキャラクタのベクトル化表現と前記ドキュメントベクトルとに基づいて、予測キャラクタを予測して取得することと、
前記予測キャラクタと前記一つのキャラクタとの差異に基づいて、前記第1レベルのセマンティックモデルと前記第2レベルのセマンティックモデルとのパラメータを調整することと、
を含む請求項
6に記載のドキュメントのベクトル化表現装置。
【請求項8】
第2のトレーニングタスクを用いて、前記第1レベルのセマンティックモデルと前記第2レベルのセマンティックモデルとをトレーニングするように構成される第2のトレーニングモジュールを備え、
前記第2のトレーニングタスクが、
トレーニング本文とトレーニングタイトルとをつなぎ合わせたトレーニングドキュメントのドキュメントベクトルを取得することと、
前記ドキュメントベクトルに基づいて、トレーニングサンプルにおけるトレーニングドキュメントとトレーニングタイトルとのセマンティックがマッチングしているか否かを予測することと、
予測されたマッチング結果と実際のマッチング結果との差異に基づいて、前記第1レベルのセマンティックモデルと前記第2レベルのセマンティックモデルとのパラメータを調整することと、
を含む請求項
6に記載のドキュメントのベクトル化表現装置。
【請求項9】
前記トレーニングドキュメントが複数であり、正例と負例とを含み、
前記正例としてのトレーニングドキュメントは、トレーニング本文と、対応するトレーニングタイトルとをつなぎ合わせたものであり、
負例のトレーニングドキュメントとしては、トレーニング本文と、他のトレーニング本文に対応するトレーニングタイトルとをつなぎ合わせたものである請求項
8に記載のドキュメントのベクトル化表現装置。
【請求項10】
前記第1レベルのセマンティックモデルが複数であり、各第1レベルのセマンティックモデルが、対応する一つのテキストセグメントを対応するセグメントベクトルとしてベクトル化表現し、
複数の前記第1レベルのセマンティックモデルが、パラメータを共有する請求項
6から
9のいずれか一項に記載のドキュメントのベクトル化表現装置。
【請求項11】
メモリと、プロセッサと、メモリに記憶されプロセッサで実行可能なコンピュータプログラムとを備えるコンピュータ機器であって、
前記プロセッサが前記プログラムを実行する場合に、請求項1から
5のいずれか一項に記載のドキュメントのベクトル化表現方法を実現するコンピュータ機器。
【請求項12】
コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
当該プログラムがプロセッサによって実行される場合に、請求項1から
5のいずれか一項に記載のドキュメントのベクトル化表現方法が実現される非一時的なコンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、人工知能技術の分野に関し、特に、自然言語処理技術の分野に関し、具体的には、ドキュメントのベクトル化表現方法、ドキュメントのベクトル化表現装置及びコンピュータ機器に関する。
【背景技術】
【0002】
今日のインターネットアプリケーションでは、どのように大量の自然言語処理タスクを解決するかが差し迫っている。実際、異なるレベルのテキストをセマンティックベクトルとして表現することは、既に簡単で効果的な案となり、人々は、文字、単語、文、段落、さらにドキュメントをセマンティックベクトルとして表現することができ、これらのベクトルを下流モデルの特徴とすることができる。
【0003】
Google社がBERTなどのモデルを発表して以来、様々な改良モデルが次々と登場し、自然言語理解のレベルが更新されつつあり、BERTなどのモデルは、大規模コーパスで学習タスクを構築することによって、文及び単語のベクトル表現を自然に生成することができる。しかしながら、現在のモデル設定がいずれも不合理であるため、テキスト内の前後の段落の情報が分割され、完全なテキスト情報を利用できないとともに、テキスト内の情報の損失が深刻である。
【0004】
また、現在のモデルは、単語表現又はテキスト全体表現しか生成することができないことが多く、文、段落レベルのような中間レベルの表現を取得できないこととなっている。しかしながら、ドキュメント及びタスクの処理においては、異なるレベルの表現を同時に取得できることが極めて重要である。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本出願は、関連技術における少なくとも一つの技術的課題をある程度解決することを目的とする。
【0006】
そのため、本出願の一つの目的は、二つのレベルのセマンティックモデルによって、段落レベル及びドキュメントレベルの各レベルの情報を取得することができるとともに、生成された、ドキュメントのトピックを示すためのドキュメントベクトルは、完全なテキスト情報を取得しており、情報の損失を低減させているドキュメントのベクトル化表現方法を提供する。
【0007】
本出願の第2の目的は、ドキュメントのベクトル化表現装置を提供する。
【0008】
本出願の第3の目的は、コンピュータ機器を提供する。
【0009】
本出願の第4の目的は、非一時的なコンピュータ読み取り可能な記憶媒体を提供する。
【課題を解決するための手段】
【0010】
上記の目的を達成するために、本出願の第1の態様の実施例は、ドキュメントを分割して複数のテキストセグメントを取得するステップと、各テキストセグメント内のキャラクタとセグメントベクトルとのマッピング関係を学習して取得する第1レベルのセマンティックモデルを用いて、各テキストセグメントを対応するテキストセグメントのセグメントベクトルとしてベクトル化表現するステップであって、前記セグメントベクトルが、対応するテキストセグメントのセマンティックを示すステップと、セグメントベクトルとドキュメントベクトルとのマッピング関係を学習して取得する第2レベルのセマンティックモデルを用いて、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、前記ドキュメントのトピックを示すためのドキュメントベクトルを取得するステップと、を含むドキュメントのベクトル化表現方法を提供する。
【0011】
上記の目的を達成するために、本出願の第2の態様の実施例は、ドキュメントを分割して複数のテキストセグメントを取得するように構成される分割モジュールと、各テキストセグメント内のキャラクタとセグメントベクトルとのマッピング関係を学習して取得する第1レベルのセマンティックモデルを用いて、各テキストセグメントを対応するテキストセグメントのセグメントベクトルとしてベクトル化表現するように構成される表現モジュールであって、前記セグメントベクトルが、対応するテキストセグメントのセマンティックを示す表現モジュールと、セグメントベクトルとドキュメントベクトルとのマッピング関係を学習して取得する第2レベルのセマンティックモデルを用いて、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、前記ドキュメントのトピックを示すためのドキュメントベクトルを取得するように構成される認識モジュールと、を備えるドキュメントのベクトル化表現装置を提供する。
【0012】
上記の目的を達成するために、本出願の第3の態様の実施例は、メモリと、プロセッサと、メモリに記憶されプロセッサで実行可能なコンピュータプログラムとを備えるコンピュータ機器であって、前記プロセッサが前記プログラムを実行する場合に、第1の態様に記載のドキュメントのベクトル化表現方法を実現するコンピュータ機器を提供する。
【0013】
上記の目的を実現するために、本出願の第4の態様の実施例は、コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、当該プログラムがプロセッサによって実行される場合に、第1の態様に記載のドキュメントのベクトル化表現方法が実現される非一時的なコンピュータ読み取り可能な記憶媒体を提供する。
【発明の効果】
【0014】
本出願の実施例に係る技術案は、以下のような有益な効果を奏する。
ドキュメントを分割して複数のテキストセグメントを取得し、各テキストセグメント内のキャラクタとセグメントベクトルとのマッピング関係を学習して取得する第1レベルのセマンティックモデルを用いて、各テキストセグメントを対応するテキストセグメントのセグメントベクトルとしてベクトル化表現し、ここで、セグメントベクトルは、対応するテキストセグメントのセマンティックを示し、さらに、セグメントベクトルとドキュメントベクトルとのマッピング関係を学習して取得する第2レベルのセマンティックモデルを用いて、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、ドキュメントのトピックを示すためのドキュメントベクトルを取得する。これにより、二つのレベルのセマンティックモデルによって、段落レベル及びドキュメントレベルの各レベルの情報を取得することができるとともに、生成された、ドキュメントのトピックを示すためのドキュメントベクトルは、完全なテキスト情報を取得しており、情報の損失を低減させている。
【0015】
本出願の付加的な特徴及び利点は、一部が以下の説明において示され、一部が以下の説明により明らかになり、又は本出願の実践により理解される。
【図面の簡単な説明】
【0016】
本出願の上記及び/又は付加的な態様及び利点は、以下の図面を参照した実施例についての説明において、明らかになり、理解されやすくなる。
【
図1】本出願の実施例に係るドキュメントのベクトル化表現方法の概略フローチャートである。
【
図2】本出願の実施例に係る別のドキュメントのベクトル化表現方法の概略フローチャートである。
【
図4】本出願の実施例に係る別のドキュメントのベクトル化表現方法の概略フローチャートである。
【
図5】本出願の実施例に係るドキュメントのベクトル化表現装置の概略構成図である。
【
図6】本出願の実施例に係るドキュメントのベクトル化表現方法の電子機器のブロック図である。
【発明を実施するための形態】
【0017】
以下、本出願の実施例を詳細に説明する。前記実施例における例が図面に示され、同一又は類似する符号は、常に同一又は類似する部品、又は、同一又は類似する機能を有する部品を表す。以下に、図面を参照しながら説明される実施例は例示的なものであり、本出願を解釈することを旨とし、本出願を限定するものと理解してはいけない。
【0018】
以下、図面を参照して本出願の実施例のドキュメントのベクトル化表現方法、装置及びコンピュータ機器を説明する。
【0019】
従来の技術では、ドキュメントをベクトル化表現する方法は、主に以下の二つがあり、一つは、Google社が発表したBERTなどのモデルを用いて大規模コーパスで学習タスクを構築することによって、文及び単語のベクトル表現を自然に生成することができる。これらのベクトルは、多くの自然言語理解タスクにとって非常に有益な特徴である。これらのモデルの入力の長さは通常限られており、より長いテキストについて手に負えない。実際、通常、モデルの入力の長さに適合するためにこれらのテキストを切断する方法が取られているが、これは、非常に致命的なることが多い。例えば、テキストを要約するタスクについて、重要な情報が規定された長さ以外に現れると、このタスクは当然実現できない。実際、研究者たちは、BERTなどの言語モデルをさらに長いテキストに適用するために、より巧妙なモデル構造を設計し、例えば、Tansformer-XLなどの改良モデルなどは、一つ前の段階で一つ前のセグメントのテキストの表現を計算し、現在の段階で現在のセグメントの表現を一つ前のセグメントの表現でフィードフォワード計算することに相当し、このような方式は、トレーニングにおけるフィードフォワード段階とフィードバック段階とを分割することになる。
【0020】
もう1つの方法は、LSAなどのトピックモデルを使用して、ドキュメントをワードバック行列として処理し、行列の各行が一つの文章を表し、各列が一つの単語を表し、各位置の値は、対応する文章での当該単語の出現回数を表し、この行列の非特異値分解を行うことによって、文章に対応するトピックワードを取得し、トピックワードを使用してこのドキュメントを表す。実際、LSAなどのトピックモデルを使用することには、多くの問題が存在する。
まず、LSAは、行列分解によって取得されるため、空間における次元の物理的な意味が明確ではなく、解明することができない。また、モデル計算范式複雑で、理解し難く、トピック数の設定を手動に設定する必要があるため、不合理でテキスト内の情報損失が大きくなる可能性がある。
【0021】
従来の技術においてドキュメントをベクトル化表現する時に情報損失が大きく、ドキュメント内の異なるレベルのベクトル化表現を取得できないという技術的課題を解決するために、本出願は、ドキュメントのベクトル化表現方法を提供し、ドキュメントを分割して複数のテキストセグメントを取得し、各テキストセグメント内のキャラクタとセグメントベクトルとのマッピング関係を学習して取得する第1レベルのセマンティックモデルを用いて、各テキストセグメントを対応するテキストセグメントのセグメントベクトルとしてベクトル化表現し、ここで、セグメントベクトルは、対応するテキストセグメントのセマンティックを示し、さらに、セグメントベクトルとドキュメントベクトルとのマッピング関係を学習して取得する第2レベルのセマンティックモデルを用いて、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、ドキュメントのトピックを示すためのドキュメントベクトルを取得する。これにより、二つのレベルのセマンティックモデルによって、段落レベル及びドキュメントレベルの各レベルの情報を取得することができるとともに、生成された、ドキュメントのトピックを示すためのドキュメントベクトルは、完全なテキスト情報を取得しており、情報の損失を低減させている。
【0022】
図1は、本出願の実施例に係るドキュメントのベクトル化表現方法の概略フローチャートである。
【0023】
図1に示すように、当該方法は、ステップ101~ステップ103を含む。
ステップ101において、ドキュメントを分割して複数のテキストセグメントを取得する。
【0024】
具体的には、モデルの入力では、入力されたドキュメントが複数のテキストセグメントに分割され、各テキストセグメントの長さが、最長512個の漢字であり、すなわち長さが最長512個のキャラクタであることが要求されているが、テキストセグメントの長さについては、本実施例では限定しない。
【0025】
ステップ102において、各テキストセグメント内のキャラクタとセグメントベクトルとのマッピング関係を学習して取得する第1レベルのセマンティックモデルを用いて、各テキストセグメントを対応するテキストセグメントのセグメントベクトルとしてベクトル化表現し、セグメントベクトルは、対応するテキストセグメントのセマンティックを示す。
【0026】
具体的には、各テキストセグメントに対して末尾に終了キャラクタを追加した後、例えば、終了キャラクタは[SEP]であり、第1レベルのセマンティックモデルに入力して、第1レベルのセマンティックモデルによって出力された対応するテキストセグメントにおける各キャラクタのベクトル化表現を取得し、各テキストセグメントにおける終了キャラクタのベクトル化表現を対応するテキストセグメントのセグメントベクトルとする。
【0027】
なお、テキストセグメント毎に、対応するテキストセグメントに含まれる複数のキャラクタについて、1番目のキャラクタのベクトル化表現から、次のキャラクタのベクトル化表現を、テキストセグメント内の最後の終了キャラクタまで逐次に重ね合わせていくため、終了キャラクタのベクトル化表現には、当該テキストセグメント内のすべてのキャラクタのベクトル化表現が含まれ、これにより、当該テキストセグメントにおける終了キャラクタのベクトル化表現を対応するテキストセグメントのセグメントベクトルとして使用して、対応するテキストセグメントのセマンティックを示す。
【0028】
ステップ103において、セグメントベクトルとドキュメントベクトルとのマッピング関係を学習して取得する第2レベルのセマンティックモデルを用いて、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、ドキュメントのトピックを示すためのドキュメントベクトルを取得する。
【0029】
具体的には、各テキストセグメントのセグメントベクトルについて、対応するセグメントベクトルに位置要素を追加し、各テキストセグメントの入力ベクトルを取得し、位置要素は、対応するテキストセグメントのドキュメント内の位置を示すためのものであり、つまり、対応するセグメントがドキュメントの何番目のセグメントに対応するかを示すためのものであり、そして第2レベルのセマンティックモデルが各テキストセグメントの入力ベクトルに基づいて参照ベクトルの値を調整するように各テキストセグメントの入力ベクトルと、値が初期値である参照ベクトルとを第2レベルのセマンティックモデルに入力し、値が調整された参照ベクトルをドキュメントのトピックを示すためのドキュメントベクトルとする。これにより、各テキストセグメントのセグメントベクトルをドキュメントベクトルにマッピングすることが実現される。
【0030】
なお、本実施例では、各セグメントは独立した位置符号化を採用する。ここで、値が初期値である参照ベクトルは、予め設定された学習可能なベクトルであり、例えば、学習類別(classification、CLS)ベクトルである。
【0031】
本実施例のドキュメントのベクトル化表現方法では、ドキュメントを分割して複数のテキストセグメントを取得し、各テキストセグメント内のキャラクタとセグメントベクトルとのマッピング関係を学習して取得する第1レベルのセマンティックモデルを用いて、各テキストセグメントを対応するテキストセグメントのセグメントベクトルとしてベクトル化表現し、ここで、セグメントベクトルは、対応するテキストセグメントのセマンティックを示し、さらに、セグメントベクトルとドキュメントベクトルとのマッピング関係を学習して取得する第2レベルのセマンティックモデルを用いて、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、ドキュメントのトピックを示すためのドキュメントベクトルを取得する。これにより、二つのレベルのセマンティックモデルによって、段落レベル及びドキュメントレベルの各レベルの情報を取得することができるとともに、生成された、ドキュメントのトピックを示すためのドキュメントベクトルは、完全なテキスト情報を取得しており、情報の損失を低減させている。
【0032】
第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとを用いて認識を行う前に、第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとをトレーニングする必要がある。前の実施例に基づいて、本実施例は、別のドキュメントのベクトル化表現方法を提供し、どのように第1のトレーニングタスクに基づいて第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとをトレーニングするかについて説明する。
図2は、本出願の実施例に係る別のドキュメントのベクトル化表現方法の概略フローチャートである。
【0033】
図2に示すように、ドキュメントを分割して複数のテキストセグメントを取得する前に、当該方法は、以下のステップ201をさらに含むことができる。
ステップ201において、第1のトレーニングタスクを用いて、第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとをトレーニングする。
【0034】
図3は、本出願に係るモデルの概略構成図である。
図3に示すように、当該モデルは、2層のセマンティックモデルを含み、それぞれ第1レベルのセマンティックモデル及び第2レベルのセマンティックモデルであり、第1レベルのセマンティックモデルは複数であり、それぞれの第1レベルのセマンティックモデルは、一つのテキストセグメントに対応しており、対応する一つのテキストセグメントを対応するセグメントベクトルとしてベクトル化表現するために用いられ、第2レベルのセマンティックモデルは、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、ドキュメントのトピックを示すためのドキュメントベクトルを取得する。複数の層のモデル構成を設定することによって、各レベルのセマンティックセグメントの情報を取得することができ、異なる実際の応用シーンのニーズを満たすことができ、例えば、検索エンジンでは、我々は、対応する文章だけでなく、文章内の対応するセグメントも見つけることができる。
【0035】
ここで、第1のトレーニングタスクは、トレーニングドキュメントを複数のテキストセグメントに分割し、各テキストセグメントには複数のキャラクタが含まれ、いずれかのテキストセグメント内の一つのキャラクタのベクトル化表現を取得することと、一つのキャラクタのベクトル化表現とドキュメントベクトルとに基づいて、予測キャラクタを予測して取得することと、予測キャラクタと一つのキャラクタとの差異に基づいて、第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとのパラメータを調整することとを含む。ここで、第1レベルのセマンティックモデルは複数であり、複数の第1レベルのセマンティックモデルはパラメータを共有し、これにより、パラメータの個数を少なくし、第1レベルのセマンティックモデルのトレーニング効率を向上させる。
【0036】
例えば、
図3に示すように、トレーニングドキュメントは1,2,3,4,5,6,7,8,9,10,11,12,13,14,15であり、当該ドキュメントを分割して三つのテキストセグメントを取得し、各テキストセグメントは、四つのキャラクタを含み、例えば、1番目のテキストセグメントAは1,2,3,4,5である。当該トレーニングドキュメントのいずれかのテキストセグメントを取り、例えば、1番目のテキストセグメントAを取り、テキストセグメントAの末尾に終了キャラクタ[SEP]を追加した後、当該テキストセグメントAを処理し、予測する必要のある予測キャラクタを決定し、当該キャラクタをmaskという特殊キャラクタで隠し、
図3に示すように、予測する必要のあるキャラクタは、テキストセグメントA内の3番目のキャラクタである。次に、対応する第1レベルのセマンティックモデルに入力して当該テキストセグメントのベクトル化表現を取得し、maskという特殊キャラクタで隠された一つのキャラクタのベクトル化表現C1と、当該トレーニングドキュメントのすべてのセグメントベクトルを第2レベルのセマンティックモデルに入力することによって得られた当該トレーニングドキュメントのドキュメントベクトルX
barとを取得し、当該キャラクタのベクトル化表現C1と当該トレーニングドキュメントのドキュメントベクトルX
barとを、第1の完全結合層に入力して当該キャラクタの予測を行い、予測キャラクタのベクトル化表現C2を取得し、予測キャラクタC2と一つのキャラクタC1との差異を比較し、差異に基づいて第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとのパラメータを調整し、トレーニングタスクによってモデルのパラメータを持続的に調整し、これにより、第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとが収束され、すなわち、決定された一つのキャラクタと予測キャラクタとの差異が最小になる。
【0037】
なお、第1のトレーニングタスクでは、キャラクタの予測を行う時に、キャラクタのベクトル化表現とトレーニングドキュメントのチャプターレベルのベクトル化表現とを加算して考慮したため、各キャラクタの予測を行う時に、ドキュメント全体のベクトル化表現を考慮したことになる。すなわち、ドキュメント全体のセマンティックを考慮し、完全なテキスト情報を利用して情報の損失を低減させ、セマンティック分割の問題を回避し、モデルのトレーニングをより効果的にした。
【0038】
ここで、
図2内の他のステップは、
図1の対応する実施例におけるステップ101~ステップ103を参照することができ、原理が同じであるため、説明を省略する。
【0039】
本実施例のドキュメントのベクトル化表現方法では、第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとを第2のトレーニングタスクを用いてトレーニングすることによって、モデルのパラメータを調整し、モデルのトレーニングの効果を向上させる。ドキュメントを複数のテキストセグメントに分割し、トレーニングされた第1レベルのセマンティックモデルを用いて、各テキストセグメントを対応するテキストセグメントのセグメントベクトルとしてベクトル化表現し、ここで、第1レベルのセマンティックモデルは、各テキストセグメント内のキャラクタとセグメントベクトルとのマッピング関係を学習して取得するものであり、セグメントベクトルは、対応するテキストセグメントのセマンティックを示し、さらに、セグメントベクトルとドキュメントベクトルとのマッピング関係を学習して取得する第2レベルのセマンティックモデルを用いて、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、ドキュメントのトピックを示すためのドキュメントベクトルを取得する。これにより、二つのレベルのセマンティックモデルによって、段落レベル及びドキュメントレベルの各レベルの情報を取得することができるとともに、生成された、ドキュメントのトピックを示すためのドキュメントベクトルは、完全なテキスト情報を取得しており、情報の損失を低減させている。
【0040】
上記の実施例に基づいて、本実施例は、他のドキュメントのベクトル化表現方法の可能な実現形態をさらに提供し、どのように第2のトレーニングタスクに基づいて第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとをトレーニングするかについて説明する。
図4は、本出願の実施例に係る別のドキュメントのベクトル化表現方法の概略フローチャートである。
【0041】
図4に示すように、ドキュメントを分割して複数のテキストセグメントを取得するステップの前に、当該方法は、以下のステップ401をさらに含むことができる。
ステップ401において、第2のトレーニングタスクを用いて、第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとをトレーニングする。
【0042】
ここで、第2のトレーニングタスクは、トレーニング本文とトレーニングタイトルとをつなぎ合わせたトレーニングドキュメントのドキュメントベクトルを取得することと、ドキュメントベクトルに基づいて、トレーニングサンプルにおけるトレーニングドキュメントとトレーニングタイトルとのセマンティックがマッチングしているか否かを予測することと、予測されたマッチング結果と実際のマッチング結果との差異に基づいて、第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとのパラメータを調整することと、を含む。本実施例では、トレーニングドキュメントは複数であり、正例と負例とを含み、正例としてのトレーニングドキュメントは、トレーニング本文と対応するトレーニングタイトルとをつなぎ合わせたものであり、負例としてのトレーニングドキュメントは、トレーニング本文と、他のトレーニング本文に対応するトレーニングタイトルとをつなぎ合わせたものである。
【0043】
本実施例では、トレーニングドキュメントは、ニュースであってもよく、Webクローラー技術によってネットワークから大量のニュースコーパスを取得し、ニュースコーパスを、ニュース本文と、本文に対応するニュースタイトルとに分割し、ニュース本文と、本文に対応するタイトルとをつなぎ合わせることによってトレーニングドキュメントの正例を取得し、本文と、他の本文に対応するタイトルとをランダムに組み合わせることによってトレーニングドキュメントの負例を取得し、トレーニングテキストにラベル付けし、ここで、サンプルの正例数と負例数とを等しくすることができる。さらに、各トレーニングサンプルを第1レベルのセマンティックモデルに入力して、各トレーニングサンプルのドキュメントベクトルを取得し、ドキュメントベクトルを
図3に示される第2の完全結合層に入力してニュースタイトルとニュース本文とのマッチング度を予測し、予測されたマッチング結果を出力し、予測されたマッチング結果とラベル付けされた実際のマッチング結果との差異を決定し、差異に基づいて、第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとのパラメータを調整し、モデルのパラメータを持続的にトレーニングし調整することによって、第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとが収束され、すなわち、予測されたマッチング結果と実際のマッチング結果との差異が最小になる。
【0044】
なお、
図3に示される第1の完全結合層と第2の完全結合層とは異なる。これにより、異なるモデルのトレーニングの対応性とトレーニング効果が向上する。
【0045】
選択可能には、本実施例におけるモデル内の各部分、例えば、第1レベルのセマンティックモデル、第2レベルのセマンティックモデルなどは、コンピュータ機器の異なる部分に設定され、複数の機器間の同期計算によって、モデルのスループットを向上させる。
【0046】
ここで、
図4の他のステップは、
図1の対応する実施例におけるステップ101~ステップ103を参照することができ、原理が同じであるため、説明を省略する。
【0047】
なお、上記の実施例では、第1のトレーニングタスク又は第2のトレーニングタスクを用いて、第1レベルのセマンティックモデル及び第2レベルのセマンティックモデルをトレーニングしたが、トレーニングの効果を向上させるために、第1のトレーニングタスクと第2のトレーニングタスクを交互に実行することによって第1レベルのセマンティックモデルと第2レベルのセマンティックモデルをトレーニングすることができる。これら二つのトレーニングタスクは反復的に行われ、第1のトレーニングタスクの予測結果と第2のトレーニングタスクの予測結果とに基づいて、モデルの損失値を算出し、ここで、モデルの損失値は、二つのトレーニングタスクに対応する損失関数の損失値によって取得され、算出されたモデルの損失値に基づいて、第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとのパラメータを調整することによって、二つのタスクの損失関数がいずれも収束され、従来のTransfoermer-XLモデルのトレーニングにおけるフィードフォワード段階とフィードバック段階との分割によるセマンティック分割の問題が回避され、モデルのトレーニングの効果が向上し、モデルによって取得された、ドキュメント主体を示すためのドキュメントベクトルの精度及び信頼性が向上する。
【0048】
本実施例のドキュメントのベクトル化表現方法では、ドキュメントを分割して複数のテキストセグメントを取得し、各テキストセグメント内のキャラクタとセグメントベクトルとのマッピング関係を学習して取得する第1レベルのセマンティックモデルを用いて、各テキストセグメントを対応するテキストセグメントのセグメントベクトルとしてベクトル化表現し、ここで、セグメントベクトルは、対応するテキストセグメントのセマンティックを示し、さらに、セグメントベクトルとドキュメントベクトルとのマッピング関係を学習して取得する第2レベルのセマンティックモデルを用いて、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、ドキュメントのトピックを示すためのドキュメントベクトルを取得する。これにより、二つのレベルのセマンティックモデルによって、段落レベル及びドキュメントレベルの各レベルの情報を取得することができるとともに、生成された、ドキュメントのトピックを示すためのドキュメントベクトルは、完全なテキスト情報を取得しており、情報の損失を低減させている。
【0049】
上記の実施例を実現するために、本出願は、ドキュメントのベクトル化表現装置をさらに提供する。
【0050】
図5は、本出願の実施例に係るドキュメントのベクトル化表現装置の概略構成図である。
【0051】
図5に示すように、当該装置は、分割モジュール41と、表現モジュール42と、認識モジュール43とを備える。
【0052】
分割モジュール41は、ドキュメントを分割して複数のテキストセグメントを取得するように構成される。
【0053】
表現モジュール42は、各テキストセグメント内のキャラクタとセグメントベクトルとのマッピング関係を学習して取得する第1レベルのセマンティックモデルを用いて、各テキストセグメントを対応するテキストセグメントのセグメントベクトルとしてベクトル化表現するように構成され、セグメントベクトルは、対応するテキストセグメントのセマンティックを示す。
【0054】
認識モジュール43は、セグメントベクトルとドキュメントベクトルとのマッピング関係を学習して取得する第2レベルのセマンティックモデルを用いて、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、ドキュメントのトピックを示すためのドキュメントベクトルを取得するように構成される。
【0055】
さらに、本出願の実施例の可能な一実現形態では、当該装置は、第1のトレーニングモジュールと、第2のトレーニングモジュールとをさらに備える。
【0056】
第1のトレーニングモジュールは、第1のトレーニングタスクを用いて、第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとをトレーニングするように構成され、第1のトレーニングタスクは、いずれかのテキストセグメント内の一つのキャラクタのベクトル化表現を取得することと、一つのキャラクタのベクトル化表現と前記ドキュメントベクトルとに基づいて、予測キャラクタを予測して取得することと、予測キャラクタと一つのキャラクタとの差異に基づいて、第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとのパラメータを調整することと、を含む。
【0057】
第2のトレーニングモジュールは、第2のトレーニングタスクを用いて、第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとをトレーニングするように構成され、前記第2のトレーニングタスクは、トレーニング本文とトレーニングタイトルとをつなぎ合わせたトレーニングドキュメントのドキュメントベクトルを取得することと、ドキュメントベクトルに基づいて、トレーニングサンプルにおけるトレーニングドキュメントとトレーニングタイトルとのセマンティックがマッチングしているか否かを予測することと、予測されたマッチング結果と実際のマッチング結果との差異に基づいて、第1レベルのセマンティックモデルと第2レベルのセマンティックモデルとのパラメータを調整することと、を含む。
【0058】
可能な一実現形態として、トレーニングドキュメントは複数であり、正例と負例とを含み、正例としてのトレーニングドキュメントは、トレーニング本文と、対応するトレーニングタイトルとをつなぎ合わせたものであり、負例としてのトレーニングドキュメントは、トレーニング本文と、他のトレーニング本文に対応するトレーニングタイトルとをつなぎ合わせたものである。
【0059】
可能な一実現形態として、第1レベルのセマンティックモデルは複数であり、各第1レベルのセマンティックモデルは、対応する一つのテキストセグメントを対応するセグメントベクトルとしてベクトル化表現するために用いられ、複数の第1レベルのセマンティックモデルはパラメータを共有する。
【0060】
可能な一実現形態として、上記の表現モジュール42は、具体的には、各テキストセグメントに対して末尾に終了キャラクタを追加した後、第1レベルのセマンティックモデルに入力して、第1レベルのセマンティックモデルによって出力された対応するテキストセグメントにおける各キャラクタのベクトル化表現を取得し、各テキストセグメントにおける終了キャラクタのベクトル化表現を対応するテキストセグメントのセグメントベクトルとするように構成される。
【0061】
可能な一実現形態として、上記の認識モジュール43は、具体的には、各テキストセグメントのセグメントベクトルについて、対応するセグメントベクトルに位置要素を追加して、各テキストセグメントの入力ベクトルを取得し、前記位置要素は、対応するテキストセグメントのドキュメント内の位置を示すためものであり、第2レベルのセマンティックモデルが各入力ベクトルに基づいて参照ベクトルの値を調整するように各テキストセグメントの入力ベクトルと、値が初期値である参照ベクトルとを第2レベルのセマンティックモデルに入力し、値が調整された参照ベクトルをドキュメントベクトルとするように構成される。
【0062】
なお、ドキュメントのベクトル化表現方法の上記の実施例についての説明は、当該実施例のドキュメントのベクトル化表現装置にも適用され、ここでは説明を省略する。
【0063】
本実施例のドキュメントのベクトル化表現装置では、ドキュメントを分割して複数のテキストセグメントを取得し、各テキストセグメント内のキャラクタとセグメントベクトルとのマッピング関係を学習して取得する第1レベルのセマンティックモデルを用いて、各テキストセグメントをテキストセグメントに対応するセグメントベクトルとしてベクトル化表現し、ここで、セグメントベクトルは、対応するテキストセグメントのセマンティックを示し、さらに、セグメントベクトルとドキュメントベクトルとのマッピング関係を学習して取得する第2レベルのセマンティックモデルを用いて、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、ドキュメントのトピックを示すためのドキュメントベクトルを取得する。これにより、二つのレベルのセマンティックモデルによって、段落レベル及びドキュメントレベルの各レベルの情報を取得することができるとともに、生成された、ドキュメントのトピックを示すためのドキュメントベクトルは、完全なテキスト情報を取得しており、情報の損失を低減させている。
【0064】
上記の実施例を実現するために、本出願は、メモリと、プロセッサと、メモリに記憶されプロセッサで実行可能なコンピュータプログラムとを備えるコンピュータ機器であって、前記プロセッサが前記プログラムを実行する場合に、上記の方法の実施例に記載のドキュメントのベクトル化表現方法を実現するコンピュータ機器をさらに提供する。
【0065】
上記の目的を実現するために、本出願は、コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、当該プログラムがプロセッサによって実行される場合に、上記の方法の実施例に記載のドキュメントのベクトル化表現方法が実現される非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供する。
【0066】
本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
【0067】
図6は、本出願の実施例に係るドキュメントのベクトル化表現方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなど、様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書で説明及び/又は要求された本出願の実現を制限することを意図したものではない。
【0068】
図6に示すように、当該電子機器は、一つ又は複数のプロセッサ501と、メモリ502と、高速インターフェースと低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を備える。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報を表示するためにメモリに記憶されている命令を含めて、電子機器内に実行される命令を処理することができる。他の実施形態では、必要であれば、複数のプロセッサ及び/又は複数のバスを、複数のメモリとともに使用することができる。同様に、複数の電子機器に接続することができ、各機器は、部分的な必要な操作(例えば、サーバアレイ、1セットのブレードサーバ、又はマルチプロセッサシステムとして)を提供することができる。
図6では、一つのプロセッサ501を例とする。
【0069】
メモリ502は、本出願に係る非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリには、少なくとも一つのプロセッサによって実行可能な命令が記憶されて、前記少なくとも一つのプロセッサが本出願に係るドキュメントのベクトル化表現方法を実行するようにする。本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータに本出願に係るドキュメントのベクトル化表現方法を実行させるためのコンピュータ命令を記憶する。
【0070】
メモリ502は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例におけるドキュメントのベクトル化表現方法に対応するプログラム命令/モジュール(例えば、
図4に示す分割モジュール41、表現モジュール42、及び認識モジュール43)ような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶することができる。プロセッサ501は、メモリ502に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記の方法の実施例におけるドキュメントのベクトル化表現方法を実現する。
【0071】
メモリ502は、オペレーティングシステムや少なくとも一つの機能に必要なアプリケーションプログラムを記憶可能なストレージプログラム領域と、ドキュメントのベクトル化表現方法の電子機器の使用に応じて作成されたデータなどを記憶可能なストレージデータ領域とを含むことができる。また、メモリ502は、高速ランダムアクセスメモリを含んでもよいし、少なくとも一つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリを含んでもよい。いくつかの実施例では、選択可能に、メモリ502は、プロセッサ501に対してリモートで設定されたメモリを含むことができ、これらの遠隔メモリは、ネットワークを介してドキュメントのベクトル化表現方法の電子機器に接続することができる。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。
【0072】
ドキュメントのベクトル化表現方法の電子機器は、入力装置503と出力装置504とをさらに備えることができる。プロセッサ501、メモリ502、入力装置503、及び出力装置504は、バス又は他の方式を介して接続することができ、
図6では、バスを介して接続することを例とする。
【0073】
入力装置503は、入力された数字又はキャラクタ情報を受信するとともに、ドキュメントのベクトル化表現方法の電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置504は、ディスプレイデバイス、補助照明デバイス(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定しない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。
【0074】
本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈することができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
【0075】
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することを含む。本明細書に使用されるように、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」との用語とは、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」との用語とは、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
【0076】
ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
【0077】
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
【0078】
コンピュータシステムは、クライアント側とサーバとを含むことができる。クライアント側とサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント側-サーバ関係を有するコンピュータプログラムによってクライアント側とサーバとの関係が生成される。
【0079】
本出願の実施例の技術案によれば、ドキュメントを分割して複数のテキストセグメントを取得し、各テキストセグメント内のキャラクタとセグメントベクトルとのマッピング関係を学習して取得する第1レベルのセマンティックモデルを用いて、各テキストセグメントを対応するテキストセグメントのセグメントベクトルとしてベクトル化表現し、ここで、セグメントベクトルは、対応するテキストセグメントのセマンティックを示し、さらに、セグメントベクトルとドキュメントベクトルとのマッピング関係を学習して取得する第2レベルのセマンティックモデルを用いて、各テキストセグメントのセグメントベクトルに対してドキュメントのセマンティック認識を行って、ドキュメントのトピックを示すためのドキュメントベクトルを取得する。これにより、二つのレベルのセマンティックモデルによって、段落レベル及びドキュメントレベルの各レベルの情報を取得することができるとともに、生成された、ドキュメントのトピックを示すためのドキュメントベクトルは、完全なテキスト情報を取得しており、情報の損失を低減させている。
【0080】
上記の様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並進に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
【0081】
上記の具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要求と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び置換を行うことができる。本出願の使用及び原則内で行われるいずれの修正、同等の置換、及び改良などは、いずれも本出願の保護範囲内に含まれるべきである。