【課題を解決するための手段】
【0008】
第1態様によれば、本発明の実施例はマルチラウンド入力によるサーチ方法を提供する。
【0009】
本発明の第1態様では、マルチラウンド入力によるサーチ方法は、ユーザーが複数回入力したサーチデータを取得するステップと、
ユーザーの複数回入力したサーチデータのうち少なくとも2回入力したサーチデータの間に何らかの関連性が存在していることを示すマルチラウンド特徴を有するか否かを判断するステップと、
ユーザーの複数回入力したサーチデータのうちの1つの現在意図を分析して算出し、前記現在意図が、ユーザーの複数回入力したサーチデータのうちの1つと他のサーチデータとの間に何らかの関連性が存在していることを示すマルチラウンド意図であるか否かを判断するステップと、
マルチラウンド意図に基づき、ユーザーの複数回入力したサーチデータに合わせて、ユーザーの入力したサーチデータを組み合わせた後の状態を示すマルチラウンド候補状態を生成するステップと、
マルチラウンド候補状態をソートし、最適なマルチラウンド状態を取得して出力するステップと、を含む。
【0010】
第1態様によれば、ユーザーの複数回入力したサーチデータのうち少なくとも2回入力したサーチデータの間にマルチラウンド特徴を有するか否かを判断することは、具体的には、
リソース、需要及び事前分布によって各サーチデータに平滑化を行うステップと、
平滑化されたサーチデータのbi−gramに基づいて言語モデルを算出するステップと、
前記言語モデルによってユーザーの複数回入力したサーチデータのうち少なくとも2回入力したサーチデータの間にマルチラウンド特徴を有するか否かを判断するステップとを含む。
【0011】
第1態様によれば、ユーザーの複数回入力したサーチデータのうちの1つの現在意図を分析して算出し、前記現在意図がマルチラウンド意図であるか否かを判断することは、具体的には、
構造化分析モデルと深層学習モデルに基づき、ユーザーの複数回入力したサーチデータのうちの1つが組み合わせられたサーチデータになる確率を分析して算出するステップと、
構造化分析モデル又は深層学習モデルのうちのいずれかによって算出された前記確率が設定された閾値よりも高い場合、ユーザーの複数回入力したサーチデータのうちの1つの現在意図がマルチラウンド意図であると判断するステップと、を含む。
【0012】
好ましくは、前記深層学習モデルはLSTM(Long Short Term Memory)モデルであり、LSTMモデルを用いて分類式訓練を行い、ユーザーの複数回入力したサーチデータのうちの1つが組み合わせられたサーチデータになる確率分布を取得し、前記確率計算式は、次式により求まる。
ここで、φは構造化特徴集合、wはサーチデータにおけるTermの重要性、λは正負特徴重み付け、domainは前の対話の意図、xはサーチデータのうちの1つにおけるtermの集合である。
【0013】
第1態様によれば、生成されたマルチラウンド候補状態にプルーニング操作を行い、複数のマルチターン候補状態から高品質のマルチターン候補状態を保留し、
プルーニングを行った後に保留されたマルチラウンド候補状態をソートし、最適なマルチラウンド状態を取得して出力する。
【0014】
好ましくは、前記プルーニング操作は、
サーチデータのうちの1つのサーチデータが時間的に最も近い直前1回のサーチデータのみに関連していると、
マルチラウンド候補状態は現在のサーチデータにおいて新規追加されたセマンティックデータを含むと、
マルチラウンド候補状態は現在のサーチデータにおいて出現した参照セマンティック及び該参照セマンティックの対応データを含むとという前提に基づいて行われる。
【0015】
第1態様によれば、マルチラウンド候補状態をソートすることは、具体的には、生成式モデルと判別式モデルに基づき、各マルチラウンド候補状態の発生確率を算出し、発生確率に応じて各マルチラウンド候補状態をソートするステップを含む。
【0016】
好ましくは、前記判別式モデルはGBDT(Gradient Boosted Decision Tree)モデルであり、GBDTモデルを用いて判別式訓練を行い、マルチラウンド候補状態の発生確率を取得する。
前記生成式モデルを用いて確率計算式によってマルチラウンド候補状態の発生確率を算出し、具体的な確率計算式は、以下の通りである。
上記式では、データ同士が相互に独立するとすると、以下の計算式を取得し、
ここで、η、θは正規化定数、slotはサーチデータにおけるキー検索セグメント)、aは実行された操作、hは履歴状態記録、oはユーザー入力に対する観測値である。そして、
ここで、
は前のサーチデータにおけるスロットと現在のサーチデータにおけるスロットとの組合せの発生確率を表し、
は前のサーチデータにおけるスロットと現在のサーチデータに含まれないスロットのtermとの発生確率を表し、関数
は構文的特徴のルールを表し、関数
は時間とラウンド数に対するスロット確率の減衰関数を表し、関数
はルールに基づいてシステム動作状態を合わせた計算関数を表す。
【0017】
第1態様によれば、ユーザーの入力したサーチデータが具体的かつ明確ではないと、まず問い合わせ操作を行い、ユーザーの入力した正確なサーチデータを取得する。
【0018】
好ましくは、前記問い合わせ操作は少なくとも、形式的セマンティック表現である質問、選択及び確認のうちのいずれかを含む。
【0019】
第2態様によれば、本発明の実施例はマルチラウンド入力によるサーチシステムを提供する。
【0020】
本発明の第2態様では、マルチラウンド入力によるサーチシステムは、ユーザーが複数回入力したサーチデータを取得し、ユーザーの複数回入力したサーチデータのうち少なくとも2回入力したサーチデータの間に何らかの関連性が存在していることを示すマルチラウンド特徴を有するか否かを判断するように設置される特徴取得ユニットと、
ユーザーの複数回入力したサーチデータのうちの1つの現在意図を分析して算出し、前記現在意図が、ユーザーの複数回入力したサーチデータのうちの1つと他のサーチデータとの間に何らかの関連性が存在していることを示すマルチラウンド意図であるか否かを判断するように設置されるマルチラウンド意図認識ユニットと、
マルチラウンド意図に基づき、ユーザーの複数回入力したサーチデータに合わせて、ユーザーの入力したサーチデータを組み合わせた後の状態を示すマルチラウンド候補状態を生成するように設置される候補生成ユニットと、
マルチラウンド候補状態をソートし、最適なマルチラウンド状態を取得して出力するように設置される状態ソートユニットと、を備える。
【0021】
第2態様によれば、前記特徴取得ユニットはリソース、需要及び事前分布によって各サーチデータに平滑化を行い、
平滑化されたサーチデータのbi−gramに基づく言語モデルを算出し、
前記言語モデルによってユーザーの複数回入力したサーチデータのうち少なくとも2回入力したサーチデータの間にマルチラウンド特徴を有するか否かを判断する。
【0022】
第2態様によれば、前記マルチラウンド意図認識ユニットは構造化分析モデルと深層学習モデルに基づき、ユーザーの複数回入力したサーチデータのうちの1つが組み合わせられたサーチデータになる確率を分析して算出し、構造化分析モデル又は深層学習モデルのうちのいずれかによって算出された前記確率が設定された閾値よりも高い場合、ユーザーの複数回入力したサーチデータのうちの1つの現在意図がマルチラウンド意図であると判断し、
ここで、前記深層学習モデルはLSTMモデルであり、LSTMモデルを用いて分類式訓練を行い、ユーザーの複数回入力したサーチデータのうちの1つが組み合わせられたサーチデータになる確率を取得し、前記確率は、次式により求まる。
ここで、φは構造化特徴集合、wはサーチデータにおけるTermの重要性、λは正負特徴重み付け、domainは前の対話の意図、xはサーチデータのうちの1つにおけるtermの集合である。
【0023】
第2態様によれば、候補生成ユニットはさらに、生成されたマルチラウンド候補状態にプルーニング操作を行い、複数のマルチラウンド候補状態から高品質のマルチラウンド候補状態を保留し、
状態ソートユニットはさらに、プルーニングを行った後に保留されたマルチラウンド候補状態をソートし、最適なマルチラウンド状態を取得して出力するように設置される。
【0024】
好ましくは、前記プルーニング操作は、
サーチデータのうちの1つサーチデータが時間的に最も近い直前1回のサーチデータのみに関連していると、
マルチラウンド候補状態は現在のサーチデータにおいて新規追加されたセマンティックデータを含むと、
マルチラウンド候補状態は現在のサーチデータにおいて出現した参照セマンティック及び該参照セマンティックの対応データを含むとという前提に基づいて行われる。
【0025】
第2態様によれば、前記状態ソートユニットは生成式モデルと判別式モデルに基づき、各マルチラウンド候補状態の発生確率を算出し、発生確率に応じて各マルチラウンド候補状態をソートし、
ここで、前記判別式モデルはGBDTモデルであり、GBDTモデルを用いて判別式訓練を行い、マルチラウンド候補状態の発生確率を取得し、
前記生成式モデルを用いて確率計算式によって、マルチラウンド候補状態の発生確率を算出し、具体的な確率計算式は、以下の通りであり、
上記式では、データ同士が相互に独立するとすると、以下の計算式を取得し、
ここで、η、θは正規化定数、slotはサーチデータにおけるキー検索セグメント)、aは実行された操作、hは履歴状態記録、oはユーザー入力に対する観測値であり、そして、
ここで、
は前のサーチデータにおけるスロットと現在のサーチデータにおけるスロットとの組合せの発生確率を表し、
は前のサーチデータにおけるスロットと現在のサーチデータに含まれないスロットのtermとの発生確率を表し、関数
は構文的特徴のルールを表し、関数
は時間とラウンド数に対するスロット確率の減衰関数を表し、関数
はルールに基づいてシステム動作状態を合わせた計算関数を表す。
【0026】
第2態様によれば、前記特徴取得ユニットはさらに、ユーザーの入力したサーチデータが具体的かつ明確ではないと、まず問い合わせ操作を行い、ユーザーの入力した正確なサーチデータを取得する。
【0027】
第3態様によれば、本発明の実施例はマルチラウンド入力によるサーチ端末機器を提供し、1つ又は複数のプロセッサと、1つ又は複数のプログラムを記憶する記憶装置と、メモリとプロセッサとの間に通信する通信インターフェースと、を備え、前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサにより実行されると、前記1つ又は複数のプロセッサに前記第1態様のいずれかの実現形態に記載の方法を実現させる。