特許第6661790号(P6661790)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッドの特許一覧

特許6661790テキストタイプを識別する方法、装置及びデバイス
<>
  • 特許6661790-テキストタイプを識別する方法、装置及びデバイス 図000014
  • 特許6661790-テキストタイプを識別する方法、装置及びデバイス 図000015
  • 特許6661790-テキストタイプを識別する方法、装置及びデバイス 図000016
  • 特許6661790-テキストタイプを識別する方法、装置及びデバイス 図000017
  • 特許6661790-テキストタイプを識別する方法、装置及びデバイス 図000018
  • 特許6661790-テキストタイプを識別する方法、装置及びデバイス 図000019
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6661790
(24)【登録日】2020年2月14日
(45)【発行日】2020年3月11日
(54)【発明の名称】テキストタイプを識別する方法、装置及びデバイス
(51)【国際特許分類】
   G06F 16/35 20190101AFI20200227BHJP
【FI】
   G06F16/35
【請求項の数】13
【全頁数】18
(21)【出願番号】特願2018-553944(P2018-553944)
(86)(22)【出願日】2016年12月2日
(65)【公表番号】特表2019-519019(P2019-519019A)
(43)【公表日】2019年7月4日
(86)【国際出願番号】CN2016108421
(87)【国際公開番号】WO2018040343
(87)【国際公開日】20180308
【審査請求日】2018年11月9日
(31)【優先権主張番号】201610798213.2
(32)【優先日】2016年8月31日
(33)【優先権主張国】CN
(73)【特許権者】
【識別番号】513224353
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
(74)【代理人】
【識別番号】110000796
【氏名又は名称】特許業務法人三枝国際特許事務所
(72)【発明者】
【氏名】岳 愛珍
(72)【発明者】
【氏名】崔 燕
(72)【発明者】
【氏名】趙 輝
(72)【発明者】
【氏名】高 ▲シエン▼
(72)【発明者】
【氏名】王 私江
(72)【発明者】
【氏名】譚 静
【審査官】 早川 学
(56)【参考文献】
【文献】 特開2004−046621(JP,A)
【文献】 特表2015−511733(JP,A)
【文献】 雲居玄道,外3名,PLSIを用いた文書分類手法に関する一考察,電子情報通信学会技術研究報告,社団法人電子情報通信学会,2010年11月12日,Vol.110, No.301,pp.13〜18
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00−16/958
(57)【特許請求の範囲】
【請求項1】
テキストタイプを識別するためのコンピュータにより実行される方法であって、
予め取得されたテキストに対して前処理を行って前記テキストのキーワードセットを取得するステップと、
前記テキストにおける、前記キーワードセットにおける各キーワードの出現確率値を算出するステップと、
前記キーワードセットにおける各キーワードについて、当該キーワードと当該キーワードに対応する出現確率値とを、予め構築されたファイル主題生成モデルに導入して、前記テキストにおける、前記ファイル主題生成モデルに予め設置された各主題の出現確率値を確定するステップであって、前記ファイル主題生成モデルは、テキストにおける語句の出現確率値及び予め得られた前記各主題における前記語句の出現確率値の両者と、テキストにおける前記各主題の出現確率値と、の対応関係を示すためのモデルである、ステップと、
前記テキストにおける前記各主題の出現確率値に基いて、前記テキストの所属するタイプを識別するするステップと、
を含み、
前記タイプは、ポジティブタイプとネガティブタイプとを含み、
前記各主題のそれぞれのテキストにおける出現確率値に基いて、前記テキストの所属するタイプを識別するステップは、
テキストにおける前記各主題の出現確率値を、予め構築された第一ロジスティック回帰モデルに導入して、前記テキストが前記ポジティブタイプに属する第一確率値を取得するステップであって、前記第一ロジスティック回帰モデルは、前記テキストにおける前記各主題の出現確率値と前記テキストがポジティブタイプに属する第一確率値との対応関係を示すためのものである、ステップと、
前記第一確率値に基いて、前記テキストが前記ポジティブタイプに属するか否かを識別するステップと、
を含むことを特徴とする方法。
【請求項2】
前記第一確率値に基いて、前記テキストが前記ポジティブタイプに属するか否かを識別するステップは、
前記第一確率値が所定の第一閾値よりも小さいことに応答して、テキストにおける前記各主題の出現確率値を予め構築された第二ロジスティック回帰モデルに導入して、前記テキストが前記ポジティブタイプに属する第二確率値を取得するステップであって、前記第二ロジスティック回帰モデルは、前記テキストにおける前記各主題の出現確率値と前記テキストが前記ポジティブタイプに属する第二確率値との対応関係を示すためのものであり、且つ前記第二ロジスティック回帰モデルの回帰パラメータは前記第一ロジスティック回帰モデルの回帰パラメータと異なり、前記回帰パラメータは、各主題が前記ポジティブタイプに属する確率を示すためのものである、ステップと、
前記第二確率値が所定の第二閾値よりも大きいことに応答して、前記テキストが前記ポジティブタイプに属すると確定するステップと、
を含むことを特徴とする請求項に記載の方法。
【請求項3】
前記第一確率値に基いて、前記テキストが前記ポジティブタイプに属するか否かを識別するステップは、更に、
前記第一確率値が所定の第一閾値よりも大きいことに応答して、前記テキストが前記ポジティブタイプに属すると確定するステップを含むことを特徴とする請求項に記載の方法。
【請求項4】
前記第一確率値に基いて、前記テキストが前記ポジティブタイプに属するか否かを識別するステップは、更に、
前記第二確率値が所定の第二閾値よりも小さいことに応答して、前記テキストが前記ネガティブタイプに属すると確定するステップを含むことを特徴とする請求項に記載の方法。
【請求項5】
予め取得されたテキストに対して前処理を行って前記テキストのキーワードセットを取得するステップは、
前記テキストにおける特殊な符号を除去するステップと、
特殊な符号が除去されたテキストに対して語句分割を行ってワードセットを取得するステップと、
前記ワードセットにおけるストップワードを除去して前記キーワードセットを取得するステップと、
を含むことを特徴とする請求項1〜の何れか一つに記載の方法。
【請求項6】
テキストタイプを識別する装置であって、
予め取得されたテキストに対して前処理を行って前記テキストのキーワードセットを取得するように配置される前処理モジュールと、
前記テキストにおける、前記キーワードセットにおける各キーワードの出現確率値を算出するように配置される算出モジュールと、
前記キーワードセットにおける各キーワードについて、当該キーワードと当該キーワードに対応する出現確率値とを、予め構築されたファイル主題生成モデルに導入して、前記テキストにおける、前記ファイル主題生成モデルに予め設置された各主題の出現確率値を確定する確定モジュールであって、前記ファイル主題生成モデルは、テキストにおける語句の出現確率値及び予め得られた前記各主題における前記語句の出現確率値の両者と、テキストにおける前記各主題の出現確率値と、の対応関係を示すためのモデルである、確定モジュールと、
前記テキストにおける前記各主題の出現確率値に基づいて、前記テキストの所属するタイプを識別するように配置される識別モジュールと、
を備え
前記タイプは、ポジティブタイプとネガティブタイプを含み、
前記識別モジュールは、
テキストにおける前記各主題の出現確率値を、予め構築された第一ロジスティック回帰モデルに導入して、前記テキストが前記ポジティブタイプに属する第一確率値を取得する確定ユニットであって、前記第一ロジスティック回帰モデルは、前記テキストにおける前記各主題の出現確率値と前記テキストがポジティブタイプに属する第一確率値との対応関係を示すためのものである、確定ユニットと、
前記第一確率値に基づいて、前記テキストが前記ポジティブタイプに属するか否かを識別するように配置される識別ユニットと、
を備えることを特徴とする装置。
【請求項7】
前記識別ユニットは、更に、
前記第一確率値が所定の第一閾値よりも小さいことに応答して、テキストにおける前記各主題の出現確率値を予め構築された第二ロジスティック回帰モデルに導入して、前記テキストが前記ポジティブタイプに属する第二確率値を取得し、前記第二ロジスティック回帰モデルは、前記テキストにおける前記各主題の出現確率値と前記テキストが前記ポジティブタイプに属する第二確率値との対応関係を示すためのものであり、且つ前記第二ロジスティック回帰モデルの回帰パラメータは前記第一ロジスティック回帰モデルの回帰パラメータと異なり、前記回帰パラメータは、各主題が前記ポジティブタイプに属する確率を示すためのものであり、
前記第二確率値が所定の第二閾値よりも大きいことに応答して、前記テキストが前記ポジティブタイプに属すると確定する、
ように配置されることを特徴とする請求項に記載の装置。
【請求項8】
前記識別モジュールは、更に、
前記第一確率値が所定の第一閾値よりも大きいことに応答して、前記テキストが前記ポジティブタイプに属すると確定するように配置されることを特徴とする請求項に記載の装置。
【請求項9】
前記識別ユニットは、更に、
前記第二確率値が所定の第二閾値よりも小さいことに応答して、前記テキストが前記ネガティブタイプに属すると確定するように配置されることを特徴とする請求項に記載の装置。
【請求項10】
前記前処理モジュールは、更に、
前記テキストにおける特殊な符号を除去し、
特殊な符号が除去されたテキストに対して語句分割を行ってワードセットを取得し、
前記ワードセットにおけるストップワードを除去して前記キーワードセットを取得する、
ように配置されることを特徴とする請求項の何れか一つに記載の装置。
【請求項11】
一つ又は複数のプロセッサと、
一つ又は複数のプログラムが記憶されているメモリと、を備え、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに請求項1〜の何れか一つに記載の方法を実現させることを特徴とするデバイス。
【請求項12】
プロセッサにより実行可能なコンピュータ読取可能な指令を記憶しており、前記コンピュータ読取可能な指令がプロセッサにより実行されると、前記プロセッサが請求項1〜の何れか一つに記載の方法を実行することを特徴とする不揮発性コンピュータ記憶媒体。
【請求項13】
プロセッサにより実行されると、前記プロセッサが請求項1〜の何れか一つに記載の方法を実行することを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、コンピュータ技術分野に関し、具体的にインターネット技術分野に関し、特にテキストタイプを識別する方法、装置及びデバイスに関する。
【背景技術】
【0002】
本出願は、2016年8月31日に提出した、出願番号が201610798213.2で、発明名称が「テキストタイプを識別する方法、装置及びデバイス」である中国特許出願に基づく優先権を主張し、当該出願の全文を引用することにより本願に組み込む。
【0003】
テキストタイプを識別することは、テキスト分類とも呼ばれ、予め定義されたタイプに従ってファイルに対して種類を確定する。テキストタイプを識別することは、応用分野が非常に広く、例えば、ウェブページを分類する分野、ユーザからの入力テキストを識別する必要がある検索エンジン分野、ユーザのオリジナル内容を分類する分野に適用可能である。
【0004】
ところが、従来のテキストタイプを識別する方式、例えばシンプルベイズ方法、支持ベクトル法などは、何れもテキストにおける語句の意味のみに基づいてテキストのタイプを推定する。テキストにおいて語句に一語多義、異行同義が存在可能である場合に、テキストタイプに対する識別の正確率が低くなり、テキストタイプに対する識別の正確率が低い課題がある。
【発明の開示】
【発明が解決しようとする課題】
【0005】
本出願は、改善されたテキストタイプを識別する方法及び装置を提供して、上記の背景技術の部分に言及された技術課題を解決することを目的とする。
【0006】
第一の局面として、本出願は、テキストタイプを識別する方法を提供する。上記方法は、予め取得されたテキストに対して前処理を行って上記テキストのキーワードセットを取得するステップと、上記テキストにおける、上記キーワードセットにおける各キーワードの出現確率値を算出するステップと、上記キーワードセットにおける各キーワードについて、当該キーワードと当該キーワードに対応する出現確率値とを、予め構築されたファイル主題生成モデルに導入して、上記テキストにおける、上記ファイル主題生成モデルに予め設置された各主題の出現確率値を確定するステップであって、上記ファイル主題生成モデルは、テキストにおける語句の出現確率値及び予め得られた上記各主題における上記語句の出現確率値の両者と、テキストにおける上記各主題の出現確率値と、の対応関係を示すためのモデルである、ステップと、上記テキストにおける上記各主題の出現確率値に基いて、上記テキストの所属するタイプを識別するするステップと、を含む。
【0007】
第二の局面として、本出願は、テキストタイプを識別する装置を提供する。上記装置は、予め取得されたテキストに対して前処理を行って上記テキストのキーワードセットを取得するように配置される前処理モジュールと、上記テキストにおける、上記キーワードセットにおける各キーワードの出現確率値を算出するように配置される算出モジュールと、上記キーワードセットにおける各キーワードについて、当該キーワードと当該キーワードに対応する出現確率値とを、予め構築されたファイル主題生成モデルに導入して、上記テキストにおける、上記ファイル主題生成モデルに予め設置された各主題の出現確率値を確定する確定モジュールであって、上記ファイル主題生成モデルは、テキストにおける語句の出現確率値及び予め得られた上記各主題における上記語句の出現確率値の両者と、テキストにおける上記各主題の出現確率値と、の対応関係を示すためのモデルである、確定モジュールと、上記テキストにおける上記各主題の出現確率値に基づいて、上記テキストの所属するタイプを識別するように配置される識別モジュールと、を備える。
【0008】
第三の局面として、本出願は、一つ又は複数のプロセッサと、一つ又は複数のプログラムが記憶されているメモリと、を備え、上記一つ又は複数のプログラムが上記一つ又は複数のプロセッサにより実行されると、上記一つ又は複数のプロセッサに上記方法を実現させるデバイスを提供する。
【0009】
第四の局面として、本出願は、プロセッサにより実行可能なコンピュータ読取可能な指令を記憶しており、上記コンピュータ読取可能な指令がプロセッサにより実行されると、上記プロセッサが上記方法を実行する不揮発性コンピュータ記憶媒体を提供する。
【0010】
本出願により提供されるテキストタイプを識別する方法、装置及びデバイスにおいて、まず、テキストのキーワードセットを抽出し、そして、キーワードセットにおける各キーワードの出現確率値を算出し、その後に予め構築されたファイル主題生成モデルを利用して、テキストにおける語句の出現確率値及び予め得られた上記各主題における上記語句の出現確率値の両者から、テキストにおける、上記各主題の出現確率値を取得し、最後に、上記テキストにおける各主題の出現確率値に基づいて、上記テキストの所属するタイプを識別する。これにより、テキストタイプに対する識別の正確率を向上させることができる。
【図面の簡単な説明】
【0011】
以下の図面による非限定的な実施例についての詳細な説明を読み、参照することにより、本願の他の特徴、目的及び利点がより明らかになる。
図1】本出願を適用可能な例示的なシステムアーキテクチャ図である。
図2】本出願のテキストタイプを識別する方法による一つの実施例のフローチャートである。
図3】本出願のテキストタイプを識別する方法による一つの応用シーンの模式図である。
図4】本出願のテキストタイプを識別する方法による他の一つの実施例のフローチャートである。
図5】本出願のテキストタイプを識別する装置による一つの実施例の構成模式図である。
図6】本出願の実施例を実現するのに適するサーバのコンピュータシステムの構成模式図である。
【発明を実施するための形態】
【0012】
以下、図面と実施例を参照しながら、本願を詳細に説明する。ここで記載される具体的な実施例は、関連の発明を解釈するのみに用いられ、当該発明に対する限定ではないことは理解される。なお、説明の便宜上、図面には、関連の発明に関わる部分のみを示す。
【0013】
なお、矛盾が生じない限り、本願における実施例及び実施例における特徴は互いに組み合わせることができるものとする。以下、図面を参照しながら、実施例を併せて本願を詳しく説明する。
【0014】
図1は、本出願のテキストタイプを識別する方法又はテキストタイプを識別する装置の実施例を適用可能な例示的なシステムアーキテクチャ100を示する。
【0015】
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103と、ネットワーク104と、サーバ105とを備えても良い。ネットワーク104は、端末装置101、102、103とサーバ105の間に通信リンクの媒体を提供する。ネットワーク104は、各種の接続タイプ、例えば有線、無線通信リンク又は光ファイバ、ケーブルなどを含んでも良い。
【0016】
ユーザは、メッセージの送受信などをするように、端末装置101、102、103を使用し、ネットワーク104を介してサーバ105とインタラクションを行うことができる。端末装置101、102、103に、例えばオピニオン型アプリ、ウェブブラウザアプリ、買物型アプリ、検索型アプリ、即時通信ツール、メールボックスクライアント、交際型プラットフォームソフトウェアなどのような各種の通信クライアントアプリインストールされてもよい。
【0017】
端末装置101、102、103は、ディスプレイを有しかつ表情アイコン入力をサポートする各種の電子デバイスであってもよく、スマートフォン、タブレット型パソコン、電子書籍リーダー、MP3(Moving Picture Experts Group Audio Layer III)プレーヤー、MP4(Moving Picture Experts Group Audio Layer IV)プレーヤー、ラップトップコンピュータ及びデスクトップコンピュータなどを含むが、それらに限定されるものではない。
【0018】
サーバ105は、例えば端末装置101、102、103に表示されたコメントページに対してサポートを提供するバックグラウンドサーバのような、各種のサービスを提供するサーバであっても良い。バックグラウンドサーバは、受信されたテキストなどのデータに対して解析などの処理を行い、処理結果(例えば、テキストの所属するタイプ)を端末装置へフィードバックすることができる。
【0019】
なお、本出願の実施例により提供されるテキストタイプを識別する方法は、一般的にサーバ105により実行される。それに応じて、テキストタイプを識別する装置は一般的にサーバ105に設置される。
【0020】
図1における端末装置、ネットワーク及びサーバの数は、模式的なものにすぎないことを理解すべきである。必要に応じて、任意の数の端末装置、ネットワーク及びサーバを有してもよい。
【0021】
続いて、図2を参照し、図2は、本出願のテキストタイプを識別する方法による一つの実施例のフロー200を示す。テキストタイプを識別する方法は、以下のステップを含む。
【0022】
ステップ201において、予め取得されたテキストに対して前処理を行って、テキストのキーワードセットを取得する。
【0023】
本実施例において、テキストタイプを識別する方法が運行される電子デバイス(例えば、図1に示すサーバ)は、まず端末装置からテキストを取得し、その後にテキストに対して前処理を行い、最後に上記テキストのキーワードセットを取得することができる。ここで、上記電子デバイスは、更にテキストが予め記憶されたメモリからテキストを取得しても良い。
【0024】
本実施例の複数のオプションとなる実施形態において、上記テキストは、ユーザから検索型アプリの検索ボックスに入力される検索テキストであっても良く、ユーザからウェブページ閲覧型アプリのニュースウェブページに投稿されたコメントテキストであっても良く、ユーザから買物型アプリで商品に対して投稿された評価テキストであっても良く、ユーザからオピニオン型アプリで商売者、ネットサイト、サービスなどに対して投稿されたコメントテキストであっても良い。
【0025】
本実施例の複数のオプションとなる実施形態において、上記テキストに対して前処理を行うことは、上記テキストにおける特殊な符号を除去し、特殊な符号が除去されたテキストに対して語句分割を行ってワードセットを取得し、上記ワードセットにおけるストップワードを除去して上記キーワードセットを取得するステップを含んでも良い。ここで、テキストにおける特殊な符号は、句読点、ネットアドレスリンク、数字などであっても良い。ここで、テキストに対して語句分割を行う粒度は基本粒度を選択することができる。テキストに対して如何に語句分割を行うことは、当業者にとって周知であるため、ここでは詳しく説明しない。ここで、ストップワードは、人工で定義され、且つストップワードセットに予め記憶されても良く、例えば、終助詞、接続詞などをストップワードとして定義することができる。
【0026】
本実施例の複数のオプションとなる実施形態において、上記テキストに対して前処理を行うことは、上記テキストにおける特殊な符号を除去し、特殊な符号が除去されたテキストに対して語句分割を行ってワードセットを取得し、上記ワードセットにおけるストップワードを除去して上記初期キーワードセットを取得し、初期キーワードセットにおける各初期キーワードの単語出現頻度−逆文書頻度(TF−IDF、term frequency-inverse document frequency)を算出し、単語出現頻度−逆文書頻度が所定の閾値よりも大きい初期キーワードを上記テキストのキーワードとして選択してキーワードセットを生成するステップを含んでも良い。
【0027】
ステップ202において、テキストにおける、キーワードセットにおける各キーワードの出現確率値を算出する。
【0028】
本実施例において、上記電子デバイスは、上記テキストにおける、上記キーワードセットにおける各キーワードの出現確率値を算出することができる。
【0029】
本実施例の複数のオプションとなる実施形態において、上記キーワードの出現確率値は、上記テキストにおける当該キーワードの出現回数と上記テキストの語句数の合計との比であっても良い。
【0030】
本実施例の複数のオプションとなる実施形態において、上記キーワードの出現確率値は、上記テキストにおける当該キーワードの出現回数と上記テキストのキーワードセットにおけるキーワード数との比であっても良い。
【0031】
ステップ203において、キーワードセットにおけるキーワードのそれぞれについて、当該キーワードと当該キーワードに対応する出現確率値とを予め構築されたファイル主題生成モデルに導入して、テキストにおけるファイル主題生成モデルに予め設置された各主題の出現確率値を確定する。
【0032】
本実施例において、上記電子デバイスは、キーワードセットにおけるキーワードのそれぞれについて、当該キーワードと当該キーワードに対応する出現確率値とを予め構築されたファイル主題生成モデルに導入して、上記テキストにおける、上記ファイル主題生成モデルに予め設置された各主題の出現確率値を確定することができる。
【0033】
本実施例において、上記ファイル主題生成モデルは、テキストにおける、語句の出現確率値及び予め得られた各主題における、語句の出現確率値の両者と、テキストにおける上記各主題の出現確率値との対応関係を示すためのものである。
【0034】
当業者にとって理解すべきなのは、ファイル主題生成モデルの原理は、以下の公式で示すことができる。
【数1】
【0035】
なお、xは語句、yはi個目の主題、zはファイル、
【数2】
はファイルにおける語句の出現確率値、
【数3】
はi個目の主題における語句の出現確率値、
【数4】
はファイルにおけるi個目の主題の出現確率値、*は乗算、nはファイルに含まれる主題の個数を示す。
【0036】
例示として、一つのファイルを生成する時に、語句Aを選択する確率は、以下の過程で得ることができる。即ち、生成すべきファイルは、主題甲、主題乙、主題丙である三つの主題に関する可能性があり、この文章を生成しようとする場合にこの三つの主題を選択する確率値は、それぞれP(主題甲|ファイル)=50%、P(主題乙|ファイル)=30%、P(主題丙|ファイル)=20%であり、各主題における語句Aの出現確率値は、それぞれP(語句A|主題甲)=20%、P(語句A|主題乙)=10%、P(語句A|主題丙)=0%であり、当該生成すべきファイルにおいて語句Aの出現確率値は、(語句A|ファイル)=P(主題甲|ファイル)*P(語句A|主題甲)+P(主題乙|ファイル)*P(語句A|主題乙)+P(主題丙|ファイル)*P(語句A|主題丙)=50%*20%+30%*10%+20%*0%=0.13で得ることができる。
【0037】
任意のファイルについて、
【数5】
が既知である。ファイル主題生成モデルの構築の過程は、大量のファイルにより訓練して
【数6】

【数7】
を推定する。例示として、上記ファイル主題生成モデルの構築の過程は、以下のようになる。即ち、最初に予め収集された大量のファイルをトレーニングセットとして使用し、その後にパープレキシティで主題の個数を確定し、トレーニングセットにおけるファイルを訓練してファイル主題生成モデルを生成する。当業者であればわかるように、確率的潜在意味解析法(pLSA、Probabilistic Latent Semantic Analysis)又は線形判別解析法(LDA、Latent Dirichlet Allocation)を利用して、トレーニングセットにおけるファイルを訓練してファイル主題生成モデルを構築することができる。
【0038】
本実施例において、上記テキストの
【数8】
はステップ203により得られ、各主題における語句の出現確率値
【数9】
は予め訓練して得られ、
【数10】

【数11】
の両者によりテキストにおける各主題の出現確率値
【数12】
を確定することができる。
【0039】
ステップ204において、テキストにおける各主題の出現確率値に基いて、テキストの所属するタイプを識別する。
【0040】
本実施例において、上記電子デバイスは、上記テキストにおける上記各主題の出現確率値に基いて、上記テキストの所属するタイプを識別することができる。
【0041】
本実施例の複数のオプションとなる実施形態において、テキストのタイプは、例えば第一種類、第二種類、第三種類のような複数種のタイプであっても良い。
【0042】
本実施例の複数のオプションとなる実施形態において、テキストのタイプは、例えばポジティブタイプとネガティブタイプのような二種類のタイプであっても良い。
【0043】
本実施例の複数のオプションとなる実施形態において、予め各主題に対してタイプを割当てることができる。なお、主題のタイプはテキストのタイプと一致するように対応する。そして、テキストにおける各主題の出現確率値を大きい順でソートし、その後に出現確率値が最も大きい主題のタイプを上記テキストの所属するタイプとして確定する。
【0044】
例示として、テキストのタイプが、例えば文芸タイプ、体育タイプ、財政/経済タイプのような複数種のタイプである場合に、予め所定の十個の主題に対して文芸タイプ、体育タイプ、財政/経済タイプとして分類することができる。ステップ203において十個の主題の上記テキストにおける出現確率値が得られた後に、得られた十個の出現確率値を大きい順でソートし、出現確率値が最も大きい主題のタイプを上記テキストの所属するタイプとして確定する。例えば、出現確率値が最も大きい主題のタイプが体育タイプであれば、体育タイプを上記テキストの上記タイプとして確定し、即ち上記テキストが体育タイプである。
【0045】
例示として、テキストのタイプが、例えばポジティブタイプとネガティブタイプの二種類のタイプである場合に、予め所定の十個の主題に対してポジティブタイプ又はネガティブタイプとして分類することができる。ステップ203において上記十個の主題の上記テキストにおける出現確率値が得られた後に、得られた十個の出現確率値を大きい順でソートし、出現確率値が最も大きい主題のタイプを上記テキストの所属するタイプとして確定する。例えば、出現確率値が最も大きい主題のタイプがポジティブタイプであれば、ポジティブタイプを上記テキストの上記タイプとして確定し、即上記テキストがポジティブタイプである。
【0046】
続いて、図3を参照し、図3は、本実施例のテキストタイプを識別する方法による応用シーンの模式図である。図3の応用シーンにおいて、ユーザは、まずテキストとして「携帯電話が安売り、速めに購入、ネットアドレスxx」を入力し、その後にバックグラウンドサーバは、バックグラウンドで上記テキストを取得し、上記テキストに対して前処理を行ってキーワードセットとして「携帯電話、安売り、購入、ネットアドレス」を得られる。その後に、上記バックグラウンドサーバは、テキストにおける各キーワードの出現確率値を算出する。その後に、上記バックグラウンドサーバは、各キーワードと当該キーワードに対応する出現確率値を予め構築されたファイル主題生成モデルに導入して、テキストにおける各主題の出現確率値を確定することができる。例示として、上記テキストにおいて携帯電話の主題の出現確率値が20%、広告の主題の出現確率値が50%である。最後に、上記テキストにおける各主題の出現確率値に基いて、上記テキストの所属するタイプを識別する。例示として、出現確率値が最も高い主題をテキストのタイプとして選択することができ、「携帯電話が安売り、速めに購入、ネットアドレスxx」について出現確率値が最も高い主題が広告の主題であれば、「広告」を上記テキストの所属するタイプとすることができる。
【0047】
本出願の上記実施例により提供された方法において、最初にテキストのキーワードセットを抽出し、その後にキーワードセットにおける各キーワードの出現確率値を算出し、その後に予め構築されたファイル主題生成モデルを利用して、テキストにおける語句の出現確率値及び予め得られた上記各主題における上記語句の出現確率値の両者から、テキストにおける上記各主題の出現確率値を取得し、最後に上記テキストにおける各主題の出現確率値に基いて、上記テキストの所属するタイプを識別する。これにより、テキストタイプに対する識別の正確率を向上させることができる。
【0048】
続いて、図4を参照し、図4は、テキストタイプを識別する方法の他の実施例のフロー400を示す。当該テキストタイプを識別する方法のフロー400は、以下のステップを含む。
【0049】
ステップ401において、予め取得されたテキストに対して前処理を行ってテキストのキーワードセットを取得する。
【0050】
ステップ402において、テキストにおける、キーワードセットにおける各キーワードの出現確率値を算出する。
【0051】
ステップ403において、キーワードセットにおける各キーワードについて、当該キーワードと当該キーワードに対応する出現確率値を予め構築されたファイル主題生成モデルに導入して、テキストにおける、ファイル主題生成モデルに予め設置された各主題の出現確率値を確定する。
【0052】
上記ステップ401〜ステップ403の処理は、それぞれステップ201〜ステップ203の処理と基本的に同じであるため、ここでは詳しく説明しない。
【0053】
ステップ404において、テキストにおける各主題の出現確率値を、予め構築された第一ロジスティック回帰モデルに導入して、テキストがポジティブタイプに属する第一確率値を取得する。
【0054】
本実施例において、上記電子デバイスは、テキストにおける各主題の出現確率値を、予め構築された第一ロジスティック回帰モデルに導入して、テキストがポジティブタイプに属する第一確率値を取得することができる。ここで、テキストのタイプは、ポジティブタイプとネガティブタイプを含むことができる。
【0055】
本実施例において、上記第一ロジスティック回帰モデルは、上記テキストにおける上記各主題の出現確率値と上記テキストがポジティブタイプに属する第一確率値との対応関係を示す。
【0056】
当業者であればわかるように、第一ロジスティック回帰モデルの基くロジスティック回帰アルゴリズムは、ソーティングアルゴリズムである。本出願において、第一ロジスティック回帰モデルは、他のソーティングアルゴリズムによるモデルに置換されても良い。
【0057】
本出願において、ロジスティック回帰モデルをソーティングアルゴリズムとして選択することにより、ロジスティック回帰アルゴリズムを利用してテキストにおける各主題の出現確率値を全面的に解析可能し、且つ演算が簡単でスピードが速く、ステップ403でファイル主題生成モデルにより得られたテキストにおける各主題の出現確率値と組合わせて上記テキストの所属するタイプを識別することができる。ファイル主題生成モデルと第一ロジスティック回帰モデルとの組み合わせは、テキストに対して二分類を行う場合に、分類の正確率を向上すると共に、分類の効率を向上することができる。
【0058】
本実施例の複数のオプションとなる実施形態において、上記第一確率値が所定の第一閾値よりも大きいことに応答して、上記テキストがポジティブタイプに属すると確定する。
【0059】
本実施例の複数のオプションとなる実施形態において、上記第一ロジスティック回帰モデルにおいて予め各主題に対応する第一回帰パラメータ値を設置する。なお、各第一回帰パラメータ値は、各主題が上記ポジティブタイプに属する確率を示す。まず、上記テキストにおける各主題の出現確率値と当該主題に対応する回帰パラメータ値との積値を算出し、そして各積値の和をロジック関数の引数としてロジック関するの目的変数をテキストがポジティブタイプに属する第一確率値として得る。ロジック関数は、そのものが当業者にとって周知であるため、ここでは詳しく説明しない。
【0060】
本実施例の複数のオプションとなる実施形態において、上記第一確率値に基づいて、上記テキストが上記ポジティブタイプに属するか否かを識別することができる。例示として、上記第一確率値が所定の閾値よりも大きいことに応答して、上記テキストがポジティブタイプに属すると確定し、上記第一確率値が所定の閾値よりも小さいことに応答して、上記テキストがネガティブタイプに属すると確定することができる。
【0061】
ステップ405において、第一確率値が所定の第一閾値よりも小さいことに応答して、テキストにおける各主題の出現確率値を予め構築された第二ロジスティック回帰モデルに導入して、テキストがポジティブタイプに属する第二確率値を取得する。
【0062】
本実施例において、上記電子デバイスは、第一確率値が所定の第一閾値よりも小さいことに応答して、テキストにおける各主題の出現確率値を予め構築された第二ロジスティック回帰モデルに導入して、上記テキストがポジティブタイプに属する第二確率値を取得することができる。
【0063】
本実施例において、上記第二ロジスティック回帰モデルは、上記テキストにおける上記各主題の出現確率値と、上記テキストが上記ポジティブタイプに属する第二確率値との対応関係を示す。そして、上記第二ロジスティック回帰モデルの回帰パラメータは、上記第一ロジスティック回帰モデルの回帰パラメータと異なる。なお、回帰パラメータは、各主題が上記ポジティブタイプに属する確率を示す。
【0064】
本実施例において、二つの異なるロジスティック回帰モデルを利用し、二重判断システムを設置することにより、テキストタイプに対する識別の正確率を向上することができる。
【0065】
当業者であればわかるように、第二ロジスティック回帰モデルの基づくロジスティック回帰アルゴリズムは、ソーティングアルゴリズムである。本出願において、第二ロジスティック回帰モデルは、他のソーティングアルゴリズムによるモデルに置換されても良い。
【0066】
本実施例の複数のオプションとなる実施形態において、上記第二ロジスティック回帰モデルにおいて予め各主題に対応する第二回帰パラメータ値を設置する。なお、各第二回帰パラメータ値は各主題が上記ポジティブタイプに属する確率を示す。
【0067】
本実施例の複数のオプションとなる実施形態において、まず上記テキストにおける各主題の出現確率値と当該主題に対応する回帰パラメータ値との積値を算出し、そして各積値の和をロジック関数の引数として、テキストがポジティブタイプに属する第二確率値としてロジック関数の目的変数を得る。ロジック関数は、そのものが当業者にとって周知であるため、ここでは詳しく説明しない。
【0068】
ステップ406において、第二確率値が所定の第二閾値よりも大きいことに応答して、テキストがポジティブタイプに属すると確定する。
【0069】
本実施例において、上記電子デバイスは、ステップ405で確定された第二確率値が所定の第二閾値よりも大きいことに応答して、上記テキストが上記ポジティブタイプに属すると確定することができる。
【0070】
本実施例の複数のオプションとなる実施形態において、上記第二確率値が所定の第二閾値よりも小さいことに応答して、上記テキストが上記ネガティブタイプに属すると確定する。
【0071】
図4からわかるように、図2における対応の実施例と比べて、本実施例におけるテキストタイプを識別する方法のフロー400は、二重ロジスティック回帰モデルを使用してテキストにおける各主題の出現確率値を操作するステップを強調することにより、全体としてテキストタイプに対する識別の正確率と効率を向上させることができる。
【0072】
続いて、図5を参照し、各図に示された方法の実現として、本出願はテキストタイプを識別する装置の一つの実施例を提供する。当該装置の実施例は、図2に示された方法の実施例に対応する。当該装置は、具体的に各種の電子デバイスに適用可能である。
【0073】
図5に示されたように、本実施例における上記テキストタイプを識別する装置500は、前処理モジュール501と、算出モジュール502と、確定モジュール503と、識別モジュール504とを備える。なお、前処理モジュール501は、予め取得されたテキストに対して前処理を行って上記テキストのキーワードセットを取得するように配置される。算出モジュール502は、上記テキストにおける、上記キーワードセットにおける各キーワードの出現確率値を算出するように配置される。確定モジュール503は、上記キーワードセットにおける各キーワードについて、当該キーワードと当該キーワードに対応する出現確率値とを予め構築されたファイル主題生成モデルに導入して、上記テキストにおける、上記ファイル主題生成モデルに予め設置された各主題の出現確率値を確定するように配置される。なお、上記ファイル主題生成モデルは、テキストにおける語句の出現確率値及び予め得られた上記各主題における上記語句の出現確率値の両者と、テキストにおける上記各主題の出現確率値との対応関係を示す。識別モジュール504は、上記テキストにおける上記各主題の出現確率値に基づいて、上記テキストの所属するタイプを識別するように配置される。
【0074】
本実施例において、テキストタイプを識別する装置500の前処理モジュール501は、まず端末装置からテキストを取得し、その後にテキストに対して前処理を行い、最後に上記テキストのキーワードセットを取得することができる。ここで、上記電子デバイスは、更にテキストが予め記憶されているメモリからテキストを取得しても良い。
【0075】
本実施例において、算出モジュール502は、上記テキストにおける、上記キーワードセットにおける各キーワードの出現確率値を算出する。
【0076】
本実施例において、確定モジュール503は、キーワードセットにおける各キーワードについて、当該キーワードと当該キーワードに対応する出現確率値を予め構築されたファイル主題生成モデルに導入して、上記テキストにおける、上記ファイル主題生成モデルに予め設置された各主題の出現確率値を確定することができる。
【0077】
本実施例において、識別モジュール504は、上記テキストにおける上記各主題の出現確率値に基づいて、上記テキストの所属するタイプを識別する。
【0078】
本実施例の複数のオプションとなる実施形態において、上記タイプはポジティブタイプとネガティブタイプを含む。そして、上記識別モジュール504は、テキストにおける上記各主題の出現確率値を、予め構築された第一ロジスティック回帰モデルに導入して、上記テキストが上記ポジティブタイプに属する第一確率値を取得する確定ユニットであって、上記第一ロジスティック回帰モデルは、上記テキストにおける上記各主題の出現確率値と上記テキストがポジティブタイプに属する第一確率値との対応関係を示すためのものである、確定ユニット5041と、上記第一確率値に基づいて、上記テキストが上記ポジティブタイプに属するか否かを識別するように配置される識別ユニット5042とを備える。
【0079】
本実施例の複数のオプションとなる実施形態において、上記識別ユニットは、更に、上記第一確率値が所定の第一閾値よりも小さいことに応答して、テキストにおける上記各主題の出現確率値を予め構築された第二ロジスティック回帰モデルに導入して、上記テキストが上記ポジティブタイプに属する第二確率値を取得し、上記第二ロジスティック回帰モデルは、上記テキストにおける上記各主題の出現確率値と上記テキストが上記ポジティブタイプに属する第二確率値との対応関係を示すためのものであり、且つ上記第二ロジスティック回帰モデルの回帰パラメータは上記第一ロジスティック回帰モデルの回帰パラメータと異なり、上記回帰パラメータは、各主題が上記ポジティブタイプに属する確率を示すためのものであり、上記第二確率値が所定の第二閾値よりも大きいことに応答して、上記テキストが上記ポジティブタイプに属すると確定するように配置される。
【0080】
本実施例の複数のオプションとなる実施形態において、上記識別モジュールは、更に、上記第一確率値が所定の第一閾値よりも大きいことに応答して、上記テキストが上記ポジティブタイプに属すると確定するように配置される。
【0081】
本実施例の複数のオプションとなる実施形態において、識別ユニットは、更に、上記第二確率値が所定の第二閾値よりも小さいことに応答して、上記テキストが上記ネガティブタイプに属すると確定するように配置される。
【0082】
本実施例の複数のオプションとなる実施形態において、上記前処理モジュールは、更に、上記テキストにおける特殊な符号を除去し、特殊な符号が除去されたテキストに対して語句分割を行ってワードセットを取得し、上記ワードセットにおけるストップワードを除去して上記キーワードセットを取得するように配置される。
【0083】
本出願の上記実施例により提供された装置は、まず前処理モジュール501によりテキストのキーワードセットを抽出し、その後に算出モジュール502によりキーワードセットにおける各キーワードの出現確率値を算出し、その後に確定モジュール503により予め構築されたファイル主題生成モデルを利用して、テキストにおける語句の出現確率値及び予め得られた上記各主題における上記語句の出現確率値の両者から、テキストにおける上記各主題の出現確率値を取得し、最後に識別モジュール504により上記テキストにおける各主題の出現確率値に基づいて、上記テキストの所属するタイプを識別する。これにより、テキストタイプに対する識別の正確率を向上させることができる。
【0084】
以下、図6を参照し、図6は、本出願の実施例を実現するためのサーバに適用するコンピュータシステム600の構成模式図を示す。
【0085】
図6に示されたように、コンピュータシステム600は、読み出し専用メモリ(ROM)602に記憶されているプログラム又は記憶部608からランダムアクセスメモリ(RAM)603にロードされたプログラムに基づいて様々な適当な動作および処理を実行することができる中央処理装置(CPU)601を備える。RAM603には、システム600の操作に必要な様々なプログラムおよびデータがさらに記憶されている。CPU601、ROM602およびRAM603は、バス604を介して互いに接続されている。入力/出力(I/O)インターフェース605もバス604に接続されている。
【0086】
キーボード、マウスなどを含む入力部606、陰極線管(CRT)、液晶ディスプレイ(LCD)など、およびスピーカなどを含む出力部607、ハードディスクなどを含む記憶部608、およびLANカード、モデムなどを含むネットワークインターフェースカードの通信部609は、I/Oインターフェース605に接続されている。通信部609は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライブ610は、必要に応じてI/Oインターフェース605に接続される。リムーバブルメディア611は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどのようなものであり、必要に応じてドライ
ブ610に取り付けられて、ドライブ610から読み出されたコンピュータプログラムが必要に応じて記憶部608にインストールされる。
【0087】
特に、本開示の実施例によれば、上記のフローチャートに参照して説明された過程はコンピュータソフトウェアプログラムに実現されても良い。例えば、本開示の実施例は機器読取可能な媒体に形状的に含まれるコンピュータプログラムを含むコンピュータプログラム製品を備える。上記コンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施例において、当該コンピュータプログラムは、通信部609を介してネットワークからダウンロードしてインストールされ、及び/又はリムーバブルメディア611からインストールされても良い。当該コンピュータプログラムは、中央処理ユニット(CPU)601により実行される場合に、本願の方法に限定される上記機能を実行する。
【0088】
図面におけるフローチャート及びブロック図は、本願の各実施例によるシステム、方法及びコンピュータプログラム製品により実現可能なシステム構造、機能及び操作を示した。この点において、フローチャート又はブロック図における各ブロックは、一つのモジュール、プログラムセグメント、又はコードの一部を表すことができる。上記モジュール、プログラムセグメント、コードの一部には、一つ又は複数の所定のロジック機能を実現するための実行可能なコマンドが含まれる。注意すべきなのは、幾つかの置換としての実現において、ブロックに示される機能は図面に示される順序と異なって発生されても良い。例えば、二つの接続的に表示されるブロックは実際に基本的に併行に実行されても良く、場合によっては逆な順序で実行されても良く、関連の機能に従って決定される。注意すべきなのは、ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組合わせは、所定の機能又は操作を実行する専用のハードウェアによるシステムで実現されても良く、或いは専用のハードウェアとコンピュータコードの組合わせで実現されても良い。
【0089】
本願の実施例に説明されたユニットは、ソフトウェアの手段で実現されても良く、ハードウェアの手段で実現されても良い。説明されたユニットは、プロセッサに設置されても良い。例えば、前処理モジュールと、算出モジュールと、確定モジュールと、識別モジュールとを備えるプロセッサとして記載されても良い。なお、これらのユニットの名称は、場合によって当該ユニットの自身に対する限定とされない。例えば、前処理モジュールは、「予め取得されたテキストに対して前処理を行って上記テキストのキーワードセットを取得するモジュール」として記載されても良い。
【0090】
他の局面として、本出願は更に不揮発性コンピュータ記憶媒体 を提供した。当該不揮発性コンピュータ記憶媒体は、上記実施例に説明された装置に含まれたものであっても良く、端末に実装されずに別途に存在するものであっても良い。上記不揮発性コンピュータ記憶媒体に一つ又は複数のプログラムが記憶され、上記一つ又は複数のプログラムが一つのデバイスにより実行されると、上記デバイスに、予め取得されたテキストに対して前処理を行って上記テキストのキーワードセットを取得し、上記テキストにおける、上記キーワードセットにおける各キーワードの出現確率値を算出し、上記キーワードセットにおける各キーワードについて、当該キーワードと当該キーワードに対応する出現確率値を予め構築されたファイル主題生成モデルに導入して上記テキストにおける、上記ファイル主題生成モデルに予め設置された各主題の出現確率値を確定し、上記テキストにおける上記各主題の出現確率値に基づいて、上記テキストの所属するタイプを識別することを実行させる。
【0091】
以上の記載は、本願の好ましい実施例、及び使われている技術的原理の説明に過ぎない。当業者は、本願に係る保護範囲が、上記の技術特徴による特定お組合せからなる技術方案に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、上記技術特徴又は均等の特徴の任意の組合せからなる他の技術方案も含まれることを理解している。例えば、上記特徴と、本願に開示された類似の機能を持っている技術特徴(これらに限定されていない)とを互いに置き換えてなる技術方案も含まれる。
図1
図2
図3
図4
図5
図6