(58)【調査した分野】(Int.Cl.,DB名)
前記トレーニングウェブページセットの中の前記ウェブページの前記手動で注釈を付けられたカテゴリ及び前記対応するウェブページベクトルに従いウェブページ分類モデルを生成するステップは、
前記トレーニングウェブページセットの中の前記ウェブページの前記手動で注釈を付けられたカテゴリ及び前記対応するウェブページベクトルをロジスティック回帰(LR)モデルに代入し、前記ウェブページ分類モデルを取得するためにトレーニングを実行するステップ、
を更に有する、請求項2に記載の方法。
前記トレーニングウェブページセットの中の前記ウェブページの前記手動で注釈を付けられたカテゴリ及び前記対応するウェブページベクトルに従い、ウェブページ分類モデルを生成するステップは、
前記トレーニングウェブページセットの中の前記ウェブページの前記手動で注釈を付けられたカテゴリ及び前記対応するウェブページベクトルをロジスティック回帰(LR)モデルに代入し、前記ウェブページ分類モデルを取得するためにトレーニングを実行するステップ、
を更に有する、請求項8に記載の装置。
【発明を実施するための形態】
【0006】
図1は、一実施形態によるウェブページトレーニング方法及び検索意図識別方法を走らせる適用環境の図である。
図1に示すように、適用環境は、端末110及びサーバ120を含み、端末110はネットワークを用いてサーバ120と通信する。
【0007】
端末110は、スマートフォン、タブレットコンピュータ、ノートブックコンピュータ、デスクトップコンピュータ、等であって良いが、これらに限定されない。端末110は、検索を実行するために、ネットワークを用いてクエリ文字列をサーバ120へ送信する。サーバ120は、端末110により送信される要求に応答して良い。
【0008】
一実施形態では、
図1中のサーバ120の内部構造は
図2に示され、サーバ120は、システムバスを用いて接続される、プロセッサ、記憶媒体、メモリ、及びネットワークインタフェースを含む。サーバ120の記憶媒体は、オペレーティングシステム、データベース、及び検索意図識別装置を格納する。ここで、検索意図識別装置はウェブページトレーニング装置を含み、データベースはデータを格納するよう構成され、検索意図識別装置は、サーバ120に適用可能な検索意図識別方法を実施するよう構成され、ウェブページトレーニング装置は、サーバ120に適用可能なウェブページトレーニング方法を実施するよう構成される。サーバ120のプロセッサは、計算及び制御能力を提供し、サーバ120全体の運転をサポートする。サーバ120のメモリは、記憶媒体の中の検索意図識別装置を走らせる環境を提供する。サーバ120のネットワークインタフェースは、ネットワーク接続により外部端末110と通信し、例えば端末110により送信される検索要求を受信し、端末110にデータを返すよう構成される。
【0009】
図3に示すように、一実施形態では、ウェブページトレーニング方法が提供される。方法は、前述の適用環境の中のサーバに適用されて良い。例えば、方法は以下を含む。
【0010】
ステップS210:手動で注釈を付けられたカテゴリを有するトレーニングウェブページセットを取得し、トレーニングウェブページセットの中のウェブページのウェブページベクトルを生成する。
【0011】
具体的に、トレーニングウェブページセットの中のウェブページの数は、実際の必要に従い自己定義されて良い。トレーニングされたウェブページ分類モデルをより正確にするために、トレーニングウェブページセットの中のウェブページの数は、十分に大きい必要がある。また、異なるカテゴリに属するウェブページ及びカテゴリ数も十分に大きい必要がある。トレーニングウェブページセット内のウェブページのカテゴリは、全て手動で注釈を付けられる。
【0012】
例えば、mp3.baidu.comは、音楽カテゴリとして手動で注釈を付けられタグ付けされ、youku.comは、ビデオカテゴリとして手動でタグ付けされる。トレーニングウェブページセット内のウェブページのウェブページベクトルを生成するとき、トレーニングウェブページセット内の全てのウェブページのウェブページベクトルが生成されて良く、或いは、対応するウェブページベクトルを生成するために幾つかのウェブページが所定条件に従い選択されて良い。例えば、異なる手動で注釈付けされたカテゴリが選択され、対応するウェブページベクトルを生成するために所定数のウェブページが各カテゴリから選択される。
【0013】
具体的に、トレーニングウェブページセット内のウェブページのウェブページベクトルを生成するステップは、以下を含んで良い。
【0014】
ステップS211:トレーニングウェブページセットの中の第1トレーニングウェブページの有効履歴クエリ文字列を取得し、有効履歴クエリ文字列に対してワードセグメント化を実行する。
【0015】
具体的に、第1トレーニングウェブページが第1クエリ文字列の検索結果として使用され、ユーザによりクリックされ及び入力される場合、第1クエリ文字列は、第1トレーニングウェブページの有効履歴クエリ文字列である。あるいは、第1トレーニングウェブページが第2クエリ文字列の検索結果として使用されるが、ユーザによりクリックされ又は入力されない場合、第2クエリ文字列は、第1トレーニングウェブページの有効履歴クエリ文字列ではない。第1トレーニングウェブページの中の有効履歴クエリ文字列の数は、実際の必要に従い自己定義されて良い。しかしながら、トレーニング結果を有効にするために、有効履歴クエリ文字列の数は、十分に大きい必要がある。例えば、所定時間期間の中で第1トレーニングウェブページの全ての有効履歴クエリ文字列が取得され、所定時間期間は現在時刻に比較的近い時間期間であって良い。さらに、ワードセグメント化が、有効履歴クエリ文字列に対して実行され、このクエリ文字列は、各セグメント化ワードを用いることにより示される。例えば、ワードセグメント化が「songs from Jay Chou」に対して実行された後、「Jay Chou」及び「songs」が取得され、ワードセグメント化の目的はウェブページをより良好に示すことである。ウェブページがクエリ文字列クエリを用いて直接示される場合、データは過度にまばらになる。例えば、クエリ文字列「songs of Jay Chou」及び「songsand tunes of Jay Chou」は、2つの異なるクエリ文字列である。しかしながら、ワードセグメント化がクエリ文字列に対して実行された後、「Jay Chou」及び「songs」並びに「Jay Chou」及び「songs and tunes」が取得され、両方ともセグメント化ワード「Jay Chou」を含み、クエリ文字列間の類似性が増大する。
【0016】
ステップS212:各セグメント化ワードの有効回数を取得する。有効回数は、セグメント化ワードが有効履歴クエリ文字列の中で生じる合計回数である。
【0017】
具体的に、ワードセグメント化が有効履歴クエリ文字列に対して実行された後に、30個のセグメント化ワード「Jay Chou」が存在する場合、このセグメント化ワード「Jay Chou」の有効回数は30である。セグメント化ワードの有効回数が大きいほど、このセグメント化ワードを含むクエリ文字列を使用することにより現在トレーニングウェブページに入る回数が大きいことを示す。
【0018】
ステップS213:各セグメント化ワードの有効回数に従い、各セグメント化ワードのセグメント化ワード重みを計算する。
【0019】
具体的に、セグメント化ワード重みの値は、有効回数に正比例し、セグメント化ワード重みを計算する特定の方法は、実際の必要に従い自己定義されて良い。
【0020】
一実施形態では、セグメント化ワードq
iのセグメント化ワード重みW(q
i)は、式W(q
i)=log(c
i+1)に従い計算される。ここで、iはセグメント化ワードのシーケンス番号であり、c
iはセグメント化ワードq
iの有効回数である。
【0021】
具体的に、log関数は比較的滑らかあり、セグメント化ワード重みW(q
i)と有効回数c
iとの間の正比例関係を満たし、各セグメント化ワードのセグメント化ワード重みは、簡単に且つ都合良く取得され得る。
【0022】
ステップS214:各セグメント化ワード及び対応するセグメント化ワード重みに従い、第1トレーニングウェブページのウェブページベクトルを生成する。
【0023】
具体的に、第1トレーニングウェブページについて、第1トレーニングウェブページの有効履歴クエリ文字列により生成されたセグメント化ワードの数がmである場合、各セグメント化ワードは、q
iを用いて示される。ここで、1≦i≦mであり、W(q
i)はセグメント化ワードq
iに対応するセグメント化ワード重みであり、第1トレーニングウェブページのウェブページベクトルは、{q
1:W(q
1),q
2:W(q
2),...,q
m:W(q
m)}として示され、生成されたウェブページベクトルは、第1トレーニングウェブページのBow(bag of words)を示す。例えば、トレーニングウェブページmp3.baidu.comについて、トレーニングウェブページのウェブページベクトルは、{Jay Chou:5.4,songs:3.6,Jolin Tsai:3.0,tfboys:10}である。異なるウェブページ間の類似性は、ウェブページベクトルに従い計算できる。第1ウェブページと第2ウェブページとの間の類似性が所定条件を満たし、第1ウェブページのウェブページカテゴリが第1カテゴリである場合、第2ウェブページのウェブページカテゴリも第1カテゴリであると推定できる。mp3.baidu.comのウェブページベクトルのコサイン関数とy.qq.comのウェブページベクトルとの間の類似性が所定閾より大きい場合、mp3.baidu.comが音楽カテゴリであることに従い、y.qq.comも音楽カテゴリであると推定される。
【0024】
ステップS215:トレーニングウェブページセットの中の他のトレーニングウェブページを取得し、目標トレーニングウェブページのウェブページベクトルの生成が完了するまで、ステップS211〜ステップS214を繰り返す。
【0025】
具体的に、目標トレーニングウェブページの数は、必要に応じて自己定義されて良く、目標トレーニングウェブページは、所定ルールを用いてスクリーニングされるトレーニングウェブページセットの中のトレーニングウェブページであって良い。代替で、ウェブページセットの中の全てのトレーニングウェブページが、目標トレーニングウェブページとして直接使用されて良い。
【0026】
ステップS220:トレーニングウェブページセットの中のウェブページの手動で注釈を付けられたカテゴリ、及び対応するウェブページベクトルに従い、ウェブページ分類モデルを生成する。
【0027】
具体的に、ウェブページ分類モデルを取得するために、トレーニングウェブページセットの中のウェブページの手動で注釈を付けられたカテゴリ及び対応するウェブページベクトルは、トレーニングを実行するためにロジスティック回帰(LR)モデルに代入される。本発明の一実施形態では、ウェブページ分類モデルは、LR法を用いてトレーニングされる。直線回帰に基づき、論理関数がLRモデルに用いられ、トレーニングされたウェブページ分類モデルの正解率は比較的高くなり得る。
【0028】
具体的に、ウェブページ分類モデルは、数学的モデルであり、ウェブページを分類するために使用され、分類モデルは、異なるウェブページ分類モデルを取得するために、異なる方法を用いてトレーニングされて良い。トレーニング方法は、必要に応じて選択され得る。
【0029】
ウェブページ分類モデルを取得するために、オフライントレーニングが教師あり学習方法を用いて実行された後、ウェブページに対してオンラインカテゴリ予測が実行されるとき、トレーニングされたウェブページ分類モデルを用いてカテゴリ予測が実行される。一実施形態では、ウェブページ分類モデルは、限られた数の手動で注釈を付けられたカテゴリのウェブページ及び生成されたウェブページベクトルを用いて生成され、自動ウェブページカテゴリ注釈が、ウェブページ分類モデルを用いて実施されて良い。さらに、ウェブページベクトルがトレーニングデータとして使用されるとき、ウェブページ上の全てのコンテンツがクローリングされる又はBOW(bagging of words)が実行される必要がなく、トレーニングを実行するデータコストは低く、トレーニング効率は高い。
【0030】
手動で注釈を付けられたクラスのトレーニングウェブページセットを取得し、トレーニングウェブページセットの中のウェブページのウェブページベクトルを生成するステップは、具体的に、トレーニングウェブページセットの中の第1トレーニングウェブページの有効履歴クエリ文字列を取得し、有効履歴クエリ文字列に対してワードセグメント化を実行するステップと、各々のセグメント化ワードの有効回数を取得するステップであって、有効回数は、セグメント化ワードが有効履歴クエリ文字列の中で生じる合計回数である、ステップと、各々のセグメント化ワードの有効回数に従い、各々のセグメント化ワードのセグメント化ワード重みを計算するステップと、各々のセグメント化ワード及び対応するセグメント化ワード重みに従い、第1トレーニングウェブページのウェブページベクトルを生成するステップと、トレーニングウェブページセットの中のウェブページの手動で注釈を付けられたカテゴリ、及び対応するウェブページベクトルに従い、ウェブページ分類モデルを生成するステップと、を有する、ステップ、を有する。ワードセグメント化が有効履歴クエリ文字列に対して実行された後に生成されたウェブページベクトルを用いて、トレーニングが実行される。トレーニングコストは低く、効率は高い。ウェブページ分類モデルが生成された後に、カテゴリ注釈がウェブページに対して自動的に実行されて良い。したがって、即時(immediate)テール型又はロングテール型のウェブページは、自動的にカテゴリを取得できる。したがって、意図識別におけるウェブページカテゴリのカバレッジレートは高く、識別された意図の正解率は一層高い。
【0031】
一実施形態では、ステップS220の前に、方法は、トレーニングウェブページセットの中のウェブページのLDA(Latent Dirichlet Allocation)特徴を取得するステップを更に含む。
【0032】
具体的に、LDA(文書トピック生成モデル)は、テキストに対してトピッククラスタリングを実行するために使用され、ウェブページのLDA特徴は、ウェブページのテキストのLDAモデルを入力することにより取得されて良い。
【0033】
ステップS220は、ウェブページのLDA特徴、手動で注釈を付けられたカテゴリ、及び対応するウェブページベクトルに従い、ウェブページ分類モデルを生成するステップである。
【0034】
具体的に、ウェブページ分類モデルを取得するために、ウェブページのLDA特徴、手動で注釈を付けられたカテゴリ、及び対応するウェブページベクトルがLRモデルに代入され、トレーニングが実行される。本発明の一実施形態では、ウェブページ分類モデルは、LR法を用いてトレーニングされる。直線回帰に基づき、論理関数がLRモデルに用いられ、トレーニングされたウェブページ分類モデルの正解率は高い。
【0035】
具体的に、ウェブページのLDA特徴は、ウェブページ分類モデルをトレーニングするためのトレーニングデータに追加され、LDA特徴は、ウェブページのトピックを反映する。したがって、トレーニングされたウェブページ分類モデルは、ウェブページに対してカテゴリ注釈を一層正確に実行できる。
【0036】
表1は、異なるモデル及び方法を用いてトレーニングを実行することにより取得されたウェブページ分類モデルを用いてウェブページを分類することの正解率及び再現率を示し、新規カテゴリについて及び他のカテゴリについて分類を実行したときの正解率及び再現率、正解率及び再現率を結合することにより取得される値F1のみを示す。ここで、F1=2×正解率/(正解率+再現率)である。表1では、LDAは文書トピック生成モデルを示し、LR+LDAは、LRモデル及びLDA特徴の両方が使用されることを示し、LR+BOW+LDAは、トレーニングを実行するためにLRモデル、LDA特徴、及びウェブページベクトルBOWが全て使用されることを示す。ここで、正解率は、(文書及びウェブページのような)検索されたエントリのうちどれだけ多くのエントリが正確かであり、再現率は、全ての正確なエントリのうちどれだけ多くのエントリが検索されたかである。正解率=抽出された正しい情報ピース数/抽出された情報ピース数、再現率=抽出された正しい情報ピース数/サンプル内の情報ピース数であり、F1は正解率及び再現率の調和平均値である。
[表1]
【表1】
【0037】
表1から分かることは、ウェブページが、LR方法を用いてトレーニングを実行することにより生成されたウェブページ分類モデルを使用してウェブページベクトルに基づき分類されるとき、大部分の正解率及び再現率は向上し、正解率及び再現率の結合について取得されるF1は、別の方法におけるよりも遙かに高く、効果は望ましい。
【0038】
一実施形態では、
図4に示すように、以下を含む検索意図識別方法が提供される。
【0039】
ステップS310:識別されるべきクエリ文字列を取得し、クエリ文字列に対応する履歴ウェブページセットを取得する。履歴ウェブページセットは、それぞれクエリ文字列を使用してクリックされた過去のウェブページを含む。
【0040】
具体的に、識別されるべきクエリ文字列は、端末により検索エンジンに入力されたクエリ文字列であり、過去の検索の中でこのクエリ文字列を使用してクリックされた各々のウェブページにより形成された履歴ウェブページセットが取得される。
【0041】
ステップS320:前述の実施形態のうちのいずれか1つのウェブページトレーニング方法を用いて生成されたウェブページ分類モデルを取得し、ウェブページ分類モデルに従い履歴ウェブページセットの中のウェブページのカテゴリを取得する。
【0042】
具体的に、履歴ウェブページセットの中のウェブページは、前述の実施形態のウェブページトレーニング方法を用いて生成されたウェブページ分類モデルを用いて自動的に分類される。例えば、履歴ウェブページセットが{url
1,url
2,...,url
n}であり、url
i(1≦i≦n)は各ウェブページを表し、各ウェブページのカテゴリが取得され、url
1∈d
1,url
2∈d
2,...,url
n∈d
s,d
1,d
2,...,d
sはカテゴリを表し、sは合計カテゴリ数を表し、カテゴリセットは{d
1,d
2,...,d
s}である。
【0043】
ステップS330:履歴ウェブページの中の各カテゴリの中のウェブページ数について統計を収集し、各カテゴリの中のウェブページ数及び履歴ウェブページセットの中の合計ウェブページ数に従い、クエリ文字列の意図分布を計算する。
【0044】
具体的に、統計は、履歴ウェブページセットの中の各カテゴリの中のウェブページ数について収集される。カテゴリd
1がt個のウェブページを含む場合、num
d1=tである。履歴ウェブページセットの中の合計ウェブページを取得するために、履歴ウェブページセットの中の合計ウェブページ数について統計が収集される。例えば、履歴ウェブページセット{url
1,url
2,...,url
n}について、合計ウェブページ数がtotal
url=nである場合、識別されるべきクエリ文字列p−queryがカテゴリd
1に属する確率は、p(d
1/p−query)=num
d1/toral
urlである。p−queryが各カテゴリに属する確率p(d
i/p−query)を取得するために同じ方法を用いて計算が実行され、クエリ文字列の意図分布を取得する。ここで、1≦i≦sであり、確率p(d
i/p−query)の大きさは、クエリ文字列がカテゴリd
iに属する確率を示す。
【0045】
ステップS340:意図分布に従いクエリ文字列の意図識別結果を取得する。
【0046】
具体的に、意図分布の中で大きな確率を有するカテゴリは、クエリ文字列の意図識別結果として使用されて良い。または、所定数のカテゴリが、確率の降順で取り入れられ、クエリ文字列の意図識別結果として使用される。または、確率が所定閾より大きい任意のカテゴリが、クエリ文字列の意図識別結果として使用される。さらに、クエリ文字列を送信している現在アプリケーションに対応するサービスも取得されて良く、クエリ文字列の意図識別結果が、サービスのサービス情報及び意図分布に従い取得される。クエリ文字列を送信している現在アプリケーションのサービス情報が音楽サービスである場合、意図分布の中で最大確率を有するカテゴリが音楽でなかったとしても、音楽カテゴリが、依然として意図分布結果として使用されて良い。
【0047】
したがって、識別されるべきクエリ文字列を取得することにより、クエリ文字列に対応する履歴ウェブページセットが取得される。履歴ウェブページセットは、過去にクエリ文字列を用いてクリックされたウェブページを有する。開示のウェブページトレーニング方法を用いることにより生成されたウェブページ分類モデルが取得される。ウェブページ分類モデルに従い履歴ウェブページセットの中のウェブページのカテゴリが取得される。履歴ウェブページセットの中の各カテゴリの中のウェブページ数について統計が収集される。各カテゴリの中のウェブページ数及び履歴ウェブページセットの中の合計ウェブページ数に従い、計算が実行され、クエリ文字列の意図分布が取得される。意図分布に従い、クエリ文字列の意図識別結果が取得される。後の意図識別の間に、履歴ウェブページセットの中のウェブページのカテゴリは、ウェブページ分類モデルに従い自動的に識別される。したがって、カバレッジレートは、ウェブページのカテゴリに手動で注釈を付けるより大きい。即時テール又はロングテール型のウェブページは、自動的にカテゴリを取得でき、意図識別の正解率を向上する。
【0048】
さらに、一実施形態では、ステップS340の前に、方法は、文字列分類モデルを取得し、文字列分類モデルに従いクエリ文字列の予測カテゴリを取得するステップを更に含む。
【0049】
具体的に、文字列分類モデルは、数学的モデルであり、クエリ文字列を分類するために使用され、分類モデルは、異なる文字列分類モデルを取得するために、異なる方法を用いてトレーニングされて良い。トレーニング方法は、必要に応じて選択される。文字列分類モデルを取得するために教師あり学習方法を用いてオフライントレ―ニングが実行された後に、続いてクエリ文字列に対して意図識別が実行されると、トレーニングされた文字列分類モデルを用いてクエリ文字列に対してカテゴリ予測が実行されて良い。クエリ文字列の意図分布が明らかでないとき、クエリ文字列の予測カテゴリは、クエリ文字列の意図識別結果を変更するために使用されて良い。例えば、クエリ文字列の意図分布の中に多くのカテゴリが存在し、カテゴリの確率が全て近く、比較的小さい。この場合、クエリ文字列の意図分布にだけ従い識別が実行されたならば、結果は正確でない可能性がある。
【0050】
ステップS340は、したがって、意図分布及び予測カテゴリに従い、クエリ文字列の意図識別結果を取得するステップを含んで良い。
【0051】
具体的に、クエリ文字列の意図識別結果は、意図分布の中のカテゴリ数及び各カテゴリに対応する確率に従い決定されて良い。意図分布の中に多くのカテゴリが存在し、各カテゴリに対応する確率が比較的小さい場合、予測カテゴリはクエリ文字列の意図識別結果として直接に使用されて良く、あるいは、意図分布の中で最大確率を有するカテゴリ及び予測カテゴリは、クエリ文字列の意図識別結果を形成するために結合される。意図識別結果を取得する特定のアルゴリズムは、必要に応じて自己定義されて良い。意図分布が取得されないとき(例えば、クエリ文字列が希な文字列である、クエリ文字列に対応する履歴ウェブページセットの中のウェブページ数が0である又は非常に小さい、したがって、意図分布が計算できない又は取得された意図分布が1つのカテゴリの確率だけしか有しない、確率が100%であり、不正確な確率が非常に高い場合)、クエリ文字列の予測カテゴリは、クエリ文字列の意図識別結果として直接使用されて良い。
【0052】
一実施形態では、
図5に示すように、文字列分類モデルを取得するステップの前に、方法は、以下を更に含む。
【0053】
ステップS410:履歴クエリ文字列の意図分布の中で最大確率を有するカテゴリに対応するクエリ文字列を取得し、該クエリ文字列をカテゴリトレーニングクエリ文字列として使用する。ここで、最大意図確率を有するカテゴリは、複数の異なるカテゴリを含み得る。
【0054】
具体的に、履歴クエリ文字列の最大数は、意図分布を取得するために計算され、異なるクエリ文字列に対応する意図分布の中で最大意図確率を有するカテゴリは、異なって良い。意図分布の中で最大意図確率を有するカテゴリに対応するクエリ文字列は、カテゴリトレーニングクエリ文字列として使用され、トレーニングデータの有効性を保証するために、最大意図確率を有するカテゴリは、複数の異なるカテゴリを含む。
【0055】
ステップS420:異なるカテゴリに対応するカテゴリトレーニングクエリ文字列の各々について、ワードに基づく及び/又は文字に基づくnグラム特徴を抽出する。ここで、nは、1より大きくMより小さい整数であり、Mは現在抽出されるカテゴリトレーニングクエリ文字列のワード長又は文字長である。
【0056】
具体的に、カテゴリトレーニングクエリ文字列を直接用いてモデルがトレーニングされる場合、長さが約4ワードであるクエリ文字列のような比較的短いクエリ文字列では、特徴はまばら過ぎであり、トレーニングされたモデルは非常に良好なトレーニング結果を取得できない。このような場合には、特徴長が拡張されるように、ワードに基づく及び/又は文字に基づくnグラム特徴が抽出される。同じクエリ文字列について、抽出は複数回実行されて良く、各抽出の文字数は異なる。ここで、文字量は、ワード数を表し、全ての抽出の結果は特徴の組合せを形成する。例えば、このカテゴリトレーニングクエリ文字列「song of Jay Chou」について、ワードに基づく1グラム〜3グラム特徴が抽出され、それぞれ以下を取得する。
【0057】
1グラム特徴:Jay Chou,of,song
2グラム特徴:of Jay Chou,song of
3グラム特徴:song of Jay Chou
文字に基づく1グラム〜3グラム特徴が抽出され、それぞれ以下を取得する。
【0058】
1グラム特徴:Chou,Jie,Lun,of,singing,song
2グラム特徴:Jie Chou,Jay,of Lun,singing of,song
3グラム特徴:Jay Chou,of Jay,singing of Lun,song of
長さが3ワードであるクエリ文字列について、文字に基づく1グラム〜3グラム特徴が抽出された後に、特徴のまばらな問題を効果的に解決するために、クエリ文字列の特徴長は15次元より多くまで拡張される。さらに、トレーニングデータセットが十分に大きいので、所望の拡張性が達成される。
【0059】
ステップS430:nグラム特徴及び対応するカテゴリをトレーニングデータとして使用し、文字列分類モデルを生成するために分類モデルを用いてトレーニングを実行する。
【0060】
具体的に、nグラム特徴及び対応するカテゴリは、トレーニングデータとして使用され、文字列分類モデルを取得する目的でトレーニングを実行するために分類モデルに代入される。
【0061】
具体的に、nグラム特徴及び対応するカテゴリは、トレーニングデータとして使用され、トレーニングデータは、カテゴリトレーニングクエリ文字列から拡張され、カテゴリ正解率及び取得された文字列分類モデルのカバレッジ率は両方とも向上され得る。一実施形態では、トレーニング特徴は、固定数の次元(例えば、100万次元)のベクトルにマッピングされて良く、トレーニング効率を向上し、及び非効率なトレーニングデータを削減してトレーニングの正解率を向上する。あるいは、クエリ文字列を用いてクリックされたウェブページのカテゴリ比率特徴などは、全てのウェブページに対する各カテゴリのクリックされたウェブページの間の比であり、例えば、全てのウェブページに対するクリックされたビデオカテゴリのウェブページの比である。
【0062】
表2は、異なるモデル及び方法により取得された文字列分類モデルを用いてクエリ文字列を分類し、正解率及び再現率の組合せについてF1が取得されるとき、正解率及び再現率を示す。ここで、F1=2×正解率/(正解率+再現率)である。表中、NB(Naive Bayesian)はNBモデルを示し、ワードセグメント化はワードに基づくnグラム特徴を抽出することを示し、文字特徴は文字に基づくnグラム特徴を抽出することを示し、SVM(support vector machine)はSVMモデルを示す。
[表2]
【表2】
【0063】
抽出された文字に基づくnグラム特徴によりトレーニングすることにより生成された文字列分類モデルを使用してクエリ文字列が分類されるとき、正解率及び再現率が両方とも高いこと、及び文字に基づくnグラム特徴及びワードに基づくnグラム特徴が両方とも抽出されるとき、正解率及び再現率が更に高いことが、表から分かる。本方法が使用されない意図識別の全体の正解率と比べると、本方法が使用される意図識別の全体の正解率は、54.6%から85%まで向上し、及び60%だけ向上し得る。
【0064】
図6に示すように、一実施形態では、ウェブページトレーニング装置が提供される。ウェブページトレーニング装置は、ウェブページベクトル生成モジュール510と、ウェブページ分類モデル生成モジュール520と、を含む。
【0065】
ウェブページベクトル生成モジュール510は、手動で注釈を付けられたカテゴリを有するトレーニングウェブページセットを取得し、トレーニングウェブページセットの中の各ウェブページのウェブページベクトルを生成するよう構成されて良い。さらに、ウェブページベクトル生成モジュール510は、ワードセグメント化ユニット511、セグメント化ワード重み計算ユニット512、及びウェブページベクトル生成ユニット513を含んで良い。
【0066】
ワードセグメント化ユニット511は、トレーニングウェブページセットの中の第1トレーニングウェブページの有効履歴クエリ文字列を取得し、有効履歴クエリ文字列に対してワードセグメント化を実行するよう構成されて良い。
【0067】
セグメント化ワード重み計算ユニット512は、各セグメント化ワードの有効回数を取得し、有効回数はセグメント化ワードが有効履歴クエリ文字列の中で生じる合計回数であり、並びに、各セグメント化ワードの有効回数に従い各セグメント化ワードのセグメント化ワード重みを計算するよう構成されて良い。
【0068】
ウェブページベクトル生成ユニット513は、各セグメント化ワード及び対応するセグメント化ワード重みに従い、第1トレーニングウェブページのウェブページベクトルを生成するよう構成されて良い。
【0069】
ウェブページ分類モデル生成モジュール520は、トレーニングウェブページセットの中のウェブページの手動で注釈を付けられたカテゴリ、及び対応するウェブページベクトルに従い、ウェブページ分類モデルを生成するよう構成されて良い。
【0070】
一実施形態では、
図7に示すように、装置は、トレーニングウェブページセットの中のウェブページのLDA特徴を取得するよう構成されて良いLDA特徴取得モジュール530を更に含む。ウェブページ分類モデル生成モジュール520は、ウェブページセットのLDA特徴、手動で注釈を付けられたカテゴリ、及び対応するウェブページベクトルに従い、ウェブページ分類モデルを生成するよう更に構成される。
【0071】
一実施形態では、ウェブページ分類モデル生成モジュール520は、トレーニングウェブページセットの中のウェブページの手動で注釈を付けられたカテゴリ及び対応するウェブページベクトルを、LRモデルに代入し、トレーニングを実行して、ウェブページ分類モデルを取得するよう更に構成される。
【0072】
一実施形態では、セグメント化ワード重み計算ユニット511は、式W(q
i)=log(c
i+1)に従いセグメント化ワードq
iのセグメント化ワード重みW(q
i)を計算するよう更に構成される。ここで、iはセグメント化ワードのシーケンス番号であり、c
iはセグメント化ワードq
iの有効回数である。
【0073】
一実施形態では、
図8に示すように、検索意図識別装置が提供される。検索意図識別装置は、取得モジュール610、ウェブページカテゴリ取得モジュール620、及び意図識別モジュール630を含んで良い。
【0074】
取得モジュール610は、識別されるべきクエリ文字列を取得し、クエリ文字列に対応する履歴ウェブページセットを取得する。履歴ウェブページセットは、過去のクエリ文字列を使用してクリックされた各ウェブページを含む。
【0075】
ウェブページカテゴリ取得モジュール620は、上述のウェブページトレーニング装置を用いて生成されたウェブページ分類モデルを取得し、ウェブページ分類モデルに従い履歴ウェブページセットの中のウェブページのカテゴリを取得するよう構成されて良い。
【0076】
意図識別モジュール630は、履歴ウェブページセットの中の各カテゴリの中のウェブページ数について統計を収集し、各カテゴリの中のウェブページ数及び履歴ウェブページセットの中の合計ウェブページ数に従い計算を実行して、クエリ文字列の意図分布を取得し、意図分布に従いクエリ文字列の意図識別結果を取得するよう構成されて良い。
【0077】
一実施形態では、
図9に示すように、装置は、予測カテゴリモジュール640を更に含む。予測カテゴリモジュール640は、文字列分類モデルを取得し、文字列分類モデルに従いクエリ文字列の予測カテゴリを取得するよう構成されて良い。意図識別モジュール630は、意図分布及び予測カテゴリに従い、クエリ文字列の意図識別結果を取得するよう更に構成される。
【0078】
一実施形態では、
図10に示すように、装置は、文字列分類モデル生成モジュール650を更に含む。文字列分類モデル生成モジュール650は、履歴クエリ文字列に対応する意図分布の中で最大意図確率を有するカテゴリに対応するクエリ文字列を取得し、該クエリ文字列をカテゴリトレーニングクエリ文字列として使用し、最大意図確率を有するカテゴリは、複数の異なるカテゴリを有し、異なるカテゴリに対応するカテゴリトレーニングクエリ文字列について、ワードに基づく及び/又は文字に基づくnグラム特徴を抽出し、nは1より大きく且つ現在抽出されるクエリ文字列のワード長又は文字長より小さい整数であり、nグラム特徴及び対応するカテゴリをトレーニングデータとして使用し、分類モデルを使用することによりトレーニングを実行して、文字列分類モデルを生成する、よう構成されて良い。
【0079】
当業者は、前述の実施形態の方法の処理のうちの全部又は一部が関連するハードウェアに指示するコンピュータプログラムにより実装されて良いことを理解できる。プログラムは、コンピュータ可読記憶媒体に格納されて良い。例えば、本発明の実施形態では、プログラムは、コンピュータシステムの記憶媒体に格納され、前述の方法の実施形態を含む処理を実施するためにコンピュータシステム内の少なくとも1つのプロセッサにより実行されて良い。記憶媒体は、磁気ディスク、光ディスク、読み出し専用メモリ(ROM)又はランダムアクセスメモリ(RAM)、等であって良い。
【0080】
したがって、本発明の実施形態は、コンピュータプログラムの格納されたコンピュータ記憶媒体を更に提供する。コンピュータプログラムは、本発明の実施形態のウェブページトレーニング方法又は検索意図識別方法を実行するために使用される。
【0081】
前述の実施形態の技術的特徴は、ランダムに結合されて良い。説明を簡潔にするために、前述の実施形態の中の技術的特徴の可能な組合せの全部が記載されない。しかしながら、これらの技術的特徴の組合せが互いに矛盾しない限り、これらの組合せは全て本願明細書により記録される範囲内に包含されるべきである。
【0082】
上述の実施形態は、具体的且つ詳細に記載された本開示の幾つかの実装方法のみを示すものであり、したがって本開示の特許範囲に対する限定として考えられない。留意すべきことに、当業者は、本開示の思想から逸脱することなく、幾つかの変形及び改良を行うことができる。このような変形及び改良の全部は、本開示の保護範囲に包含される。したがって、本開示の保護範囲は、添付の特許請求の範囲に従うべきである。