(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-01-11
(45)【発行日】2022-01-24
(54)【発明の名称】質問を推薦する方法及び装置
(51)【国際特許分類】
G06F 16/24 20190101AFI20220117BHJP
G06F 16/2455 20190101ALI20220117BHJP
G06F 16/28 20190101ALI20220117BHJP
G06F 16/33 20190101ALI20220117BHJP
G06F 16/903 20190101ALI20220117BHJP
G10L 15/16 20060101ALI20220117BHJP
【FI】
G06F16/24
G06F16/2455
G06F16/28
G06F16/33
G06F16/903
G10L15/16
(21)【出願番号】P 2018538883
(86)(22)【出願日】2017-01-19
(86)【国際出願番号】 CN2017071704
(87)【国際公開番号】W WO2017129033
(87)【国際公開日】2017-08-03
【審査請求日】2019-12-27
(31)【優先権主張番号】201610065638.2
(32)【優先日】2016-01-29
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】511050697
【氏名又は名称】アリババ グループ ホウルディング リミテッド
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】ジャン,シャオヤン
(72)【発明者】
【氏名】ダイ,ビン
(72)【発明者】
【氏名】ヤン,シュウ
(72)【発明者】
【氏名】チュー,ウェイ
(72)【発明者】
【氏名】ジャオ,ヤオ
【審査官】三橋 竜太郎
(56)【参考文献】
【文献】国際公開第2015/058558(WO,A1)
【文献】特開平09-128401(JP,A)
【文献】米国特許出願公開第2016/0239738(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G10L 15/16
(57)【特許請求の範囲】
【請求項1】
質問推薦方法であって、
質問を取得し、且つ前記質問に対応する質問の特徴を取得すること、
前記質問の特徴を処理することであって、前記処理済みの質問の特徴は予め設定された数値範囲内にある、処理すること、及び
前記質問、前記質問の中の各質問に関連付けられた第2の確率、及び推薦閾値に従って、推薦される質問を決定すること
を含み、
前記質問の中の各質問の前記第2の確率は前記処理済みの質問の特徴及び第1の確率を使用することによって得られ、前記第1の確率は前記質問の特徴に基づいて得られ
、
前記質問に対応する前記質問の特徴を取得することは、
特徴取得サイクル内で複数の質問の特徴を取得すること、及び
前記特徴取得サイクル内で前記複数の質問の特徴のうちの1つの質問の特徴が取得されないことに応じて、前記複数の質問の特徴のうちの取得された質問の特徴に基づいて、前記1つの質問の特徴を決定すること
を含む、質問推薦方法。
【請求項2】
前記質問の特徴は数値的特徴及びテキスト的特徴の少なくとも1つを含み、前記数値的特徴は連続的であり、前記テキスト的特徴は非連続的である、請求項1に記載の方法。
【請求項3】
前記質問に対応する前記質問の特徴を取得することは、
特徴取得サイクル内で質問の特徴を取得すること、
前記特徴取得サイクル内で数値的な質問の特徴が取得されないことに応じて、前記取得された質問の特徴の数値の平均値を、前記数値的な質問の特徴として決定すること、及び
前記特徴取得サイクル内でテキスト的な質問の特徴が取得されないことに応じて、前記取得された質問の特徴の中で発生頻度が最も高い質問の特徴を、前記テキスト的な質問の特徴として決定すること
を含む、請求項2に記載の方法。
【請求項4】
前記質問の特徴を処理することは、
前記質問の特徴が数値的な質問の特徴であることに応じて、質問の特徴に対して正規化処理を行うこと、及び
前記質問の特徴がテキスト的な質問の特徴であることに応じて、質問の特徴に対してベクトル化処理を行うことであって、前記ベクトル化処理後に得られる質問の特徴は数値的な質問の特徴である、ベクトル化処理を行うこと
を含む、請求項2に記載の方法。
【請求項5】
質問を取得することは、
特徴取得サイクル内で前記質問を取得すること、及び
前記特徴取得サイクル内で質問が取得されないことに応じて、前記質問に関連付けられた値をヌルに設定すること、
を含む、請求項1に記載の方法。
【請求項6】
前記第2の確率は前記処理済みの質問の特徴及び前記第1の確率に基づいてディープニューラルネットワーク(DNN)計算を行うことによって得られる、請求項1に記載の方法。
【請求項7】
前記第1の確率は、前記質問の特徴に基づいて決定木アルゴリズムを使用することにより取得される、請求項1に記載の方法。
【請求項8】
質問推薦装置であって、
一組の命令を格納するメモリと、
プロセッサとを含み、前記プロセッサは、前記一組の命令を実行して前記質問推薦装置に、
質問を取得し、且つ前記質問に対応する質問の特徴を取得すること、
前記質問の特徴を処理することであって、前記処理済みの質問の特徴は予め設定された数値範囲内にある、処理すること、及び
前記質問、前記質問の中の各質問の第2の確率、及び推薦閾値に従って、推薦される質問を決定すること
を行わせるように構成され、
前記質問の中の各質問の前記第2の確率は前記処理済みの質問の特徴及び第1の確率を使用することによって得られ、前記第1の確率は前記質問の特徴に基づいて得られ
、
前記プロセッサは、前記一組の命令を実行して前記質問推薦装置に、
特徴取得サイクル内で複数の質問の特徴を取得すること、及び
前記特徴取得サイクル内で前記複数の質問の特徴のうちの1つの質問の特徴が取得されないことに応じて、前記複数の質問の特徴のうちの取得された質問の特徴に基づいて、前記1つの質問の特徴を決定すること
を行わせるように更に構成される、質問推薦装置。
【請求項9】
前記質問の特徴は数値的特徴及びテキスト的特徴の少なくとも1つを含み、前記数値的特徴は連続的であり、前記テキスト的特徴は非連続的である、請求項8に記載の質問推薦装置。
【請求項10】
前記プロセッサは、前記一組の命令を実行して前記質問推薦装置に、
特徴取得サイクル内で質問の特徴を取得すること、
前記特徴取得サイクル内で数値的な質問の特徴が取得されない場合、前記質問に対応する前記取得された質問の特徴の数値の平均値を、前記数値的な質問の特徴として決定すること、及び
前記特徴取得サイクル内でテキスト的な質問の特徴が取得されな場合、前記質問に対応する前記取得された質問の特徴の中で発生頻度が最も高い質問の特徴を、前記テキスト的な質問の特徴として決定すること
を行わせるように更に構成される、請求項9に記載の質問推薦装置。
【請求項11】
前記プロセッサは、前記一組の命令を実行して前記質問推薦装置に、
前記質問の特徴が数値的な質問の特徴である場合、質問の特徴に対して正規化処理を行うこと、及び
前記質問の特徴がテキスト的な質問の特徴である場合、質問の特徴に対してベクトル化処理を行うことであって、前記ベクトル化処理後に得られる質問の特徴は数値的な質問の特徴である、ベクトル化処理を行うこと
を行わせるように更に構成される、請求項9に記載の質問推薦装置。
【請求項12】
前記プロセッサは、前記一組の命令を実行して前記質問推薦装置に、
特徴取得サイクル内で前記質問を取得すること、及び
前記特徴取得サイクル内で質問が取得されないことに応じて、前記質問に関連付けられた値をヌルに設定すること、
を行わせるように更に構成される、請求項8に記載の質問推薦装置。
【請求項13】
前記第2の確率は前記処理済みの質問の特徴及び前記第1の確率に基づいてディープニューラルネットワーク(DNN)計算を行うことによって得られる、請求項8に記載の質問推薦装置。
【請求項14】
前記第1の確率は、前記質問の特徴に基づいて決定木アルゴリズムを使用することにより取得される、請求項8に記載の質問推薦装置。
【請求項15】
一組の命令を記憶する非一時的コンピュータ可読媒体であって、前記一組の命令は、質問推薦装置に質問推薦方法を実行させるように、前記装置の少なくとも1つのプロセッサによって実行可能であり、前記方法は、
質問を取得し、且つ前記質問に対応する質問の特徴を取得すること、
前記質問の特徴を処理することであって、前記処理済みの質問の特徴は予め設定された数値範囲内にある、処理すること、及び
前記質問、前記質問の中の各質問に関連付けられた第2の確率、及び推薦閾値に従って、推薦される質問を決定すること
を含み、
前記質問の中の各質問の前記第2の確率は前記処理済みの質問の特徴及び第1の確率を使用することによって得られ、前記第1の確率は前記質問の特徴に基づいて得られ
、
前記質問に対応する前記質問の特徴を取得することは、
特徴取得サイクル内で複数の質問の特徴を取得すること、及び
前記特徴取得サイクル内で前記複数の質問の特徴のうちの1つの質問の特徴が取得されないことに応じて、前記複数の質問の特徴のうちの取得された質問の特徴に基づいて、前記1つの質問の特徴を決定すること
を含む、非一時的コンピュータ可読媒体。
【請求項16】
前記質問の特徴は数値的特徴及びテキスト的特徴の少なくとも1つを含み、前記数値的特徴は連続的であり、前記テキスト的特徴は非連続的である、請求項15に記載の非一時的コンピュータ可読媒体。
【請求項17】
前記質問に対応する質問の特徴を取得することは、
特徴取得サイクル内で質問の特徴を取得すること、
前記特徴取得サイクル内で数値的な質問の特徴が取得されない場合、前記取得された質問の特徴の数値の平均値を、前記数値的な質問の特徴として決定すること、及び
前記特徴取得サイクル内でテキスト的な質問の特徴が取得されな場合、前記取得された質問の特徴の中で発生頻度が最も高い質問の特徴を、前記テキスト的な質問の特徴として決定すること
を含む、請求項16に記載の非一時的コンピュータ可読媒体。
【請求項18】
前記質問の特徴を処理することは、
前記質問の特徴が数値的な質問の特徴である場合、質問の特徴に対して正規化処理を行うこと、及び
前記質問の特徴がテキスト的な質問の特徴である場合、質問の特徴に対してベクトル化処理を行うことであって、前記ベクトル化処理後に得られる質問の特徴は数値的な質問の特徴である、ベクトル化処理を行うこと
を含む、請求項16に記載の非一時的コンピュータ可読媒体。
【請求項19】
質問を取得することは、
特徴取得サイクル内で前記質問を取得すること、及び
前記特徴取得サイクル内で質問が取得されないことに応じて、前記質問に関連付けられた値をヌルに設定すること、
を含む、請求項15に記載の非一時的コンピュータ可読媒体。
【請求項20】
前記第2の確率は前記処理済みの質問の特徴及び前記第1の確率に基づいてディープニューラルネットワーク(DNN)計算を行うことによって得られる、請求項15に記載の非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
技術分野
本願は通信技術の分野、具体的には質問推薦方法に関し、質問推薦装置にも関する。
【背景技術】
【0002】
背景技術
Double ElevenやDouble Twelve等のeコマースフェスティバルの台頭と共に益々多くの人がオンラインで買い物をするようになった。しかし、この「フェスティバル経済」はeコマースに対する二重の影響、即ち販売の急激な増加に由来する圧力及び顧客サービスに対する圧力も及ぼす。企業の顧客サービスは、人手による顧客サービスと自助顧客サービスとに概して分けられる。顧客サービスに対する更なる圧力は、人手による顧客サービスにおいてより多くのスタッフを働かせることを企業に強制し、従ってコストがそれに応じて上昇する。
【0003】
その結果、顧客サービスの要件を満たすために自助顧客サービスシステムがより強力な処理能力を有する必要がある。自助顧客サービスシステムは、利用者の質問を自動で処理し解決することができる。しかし、自助顧客サービスシステム内で処理されるデータの量が増加するにつれて、既存の方法ではもはや全てのデータを処理することができない。既存のアルゴリズムの計算効率は質問の量が増加するにつれて低下する。更に、殆どの特徴が疎であるのに対し、従来技術は密な特徴を処理することに適用可能である。そのため、システム内の質問の特徴の量が増えるにつれて利用者の質問を予測することの精度が低下する。加えて、従来技術では単一のモデルしか使用されず、そのことは効果を限定する。従って、絶え間のない情報爆発により、現在の機械学習モデルはもはや要件を満たすことができない。
【発明の概要】
【発明が解決しようとする課題】
【0004】
従って当業者によって緊急に解決すべき技術的問題は、利用者に対して推薦される質問の精度を改善し、それにより利用者の質問を自助顧客サービスノードにおいて解決し、人手による顧客サービスを利用する利用者数を減らし、人手による顧客サービスのコストを下げるために、利用者に対して推薦される質問を得るために過去の質問の特徴に基づいてどのように計算を行うのかである。
【課題を解決するための手段】
【0005】
発明の概要
本発明は、利用者に対する質問の推薦の精度を改善するための質問推薦方法を提供する。この方法は以下のステップ、つまり
サンプル収集サイクル内で質問を取得し、且つ質問に対応する質問の特徴を取得するステップ、
その質問の特徴を処理するステップであって、処理済みの質問の特徴は予め設定された数値範囲内にある、処理するステップ、並びに
質問、質問の中の各質問の第2の確率、及び指定の推薦閾値に従って推薦される質問を決定するステップ
を含み、
質問及び質問の中の各質問の第2の確率は処理済みの質問の特徴及び第1の確率を使用することによって得られ、第1の確率は質問の特徴に基づいて得られる。
【0006】
好ましくは、質問の特徴が数値的特徴及びテキスト的特徴を含み、数値的特徴は連続的であり、テキスト的特徴は非連続的である。
【0007】
好ましくは、質問を取得するステップが、
特徴取得サイクル内で質問を取得すること、
特徴取得サイクル内で取得されない質問がある場合、取得されない質問の値をヌルに設定すること、及び
特徴取得サイクル内で取得されない質問がない場合、取得済みの質問を質問として使用すること
をとりわけ含む。
【0008】
好ましくは、質問に対応する質問の特徴を取得するステップが、
特徴取得サイクル内で質問の特徴を取得すること、
特徴取得サイクル内で取得されない質問の特徴があり、且つ質問の特徴が数値的特徴である場合、質問に対応する取得済みの質問の特徴の数値の平均を質問の特徴として使用すること、
特徴取得サイクル内で取得されない質問の特徴があり、且つ質問の特徴がテキスト的な質問の特徴である場合、質問に対応する取得済みの質問の特徴の中で発生頻度が最も高い質問の特徴を質問の特徴として使用すること、及び
特徴取得サイクル内で取得されない質問の特徴がない場合、取得済みの質問の特徴を質問の特徴として使用すること
をとりわけ含む。
【0009】
好ましくは、質問の特徴を処理するステップは、
質問の特徴が数値的な質問の特徴である場合は質問の特徴に対して正規化処理を行うこと、及び
質問の特徴がテキスト的な質問の特徴である場合は質問の特徴に対してベクトル化処理を行うことであって、ベクトル化処理後に得られる質問の特徴は数値的な質問の特徴である、ベクトル化処理を行うこと
をとりわけ含む。
【0010】
好ましくは、第2の確率は処理済みの質問の特徴及び第1の確率に対してディープニューラルネットワーク(DNN)計算を行うことによって得られる。
【0011】
それに対応し、本願は
サンプル収集サイクル内で質問を取得し、且つ質問に対応する質問の特徴を取得するように構成された取得モジュールと、
その質問の特徴を処理するように構成された処理モジュールであって、処理済みの質問の特徴は予め設定された数値範囲内にある、処理モジュールと、
質問、質問の中の各質問の第2の確率、及び指定の推薦閾値に従って推薦される質問を決定するように構成された決定モジュールと
を含み、
質問及び質問の中の各質問の第2の確率は処理済みの質問の特徴及び第1の確率を使用することによって得られ、第1の確率は質問の特徴に基づいて得られる、
質問推薦装置を更に提案する。
【0012】
好ましくは、質問の特徴が数値的特徴及びテキスト的特徴を含み、数値的特徴は連続的であり、テキスト的特徴は非連続的である。
【0013】
好ましくは、取得モジュールが、
特徴取得サイクル内で質問を取得し、
特徴取得サイクル内で取得されない質問がある場合、取得されない質問の値をヌルに設定し、
特徴取得サイクル内で取得されない質問がない場合、取得済みの質問を質問として使用する
ようにとりわけ構成される。
【0014】
好ましくは、取得モジュールが、
特徴取得サイクル内で質問の特徴を取得し、
特徴取得サイクル内で取得されない質問の特徴があり、且つ質問の特徴が数値的特徴である場合、質問に対応する取得済みの質問の特徴の数値の平均を質問の特徴として使用し、
特徴取得サイクル内で取得されない質問の特徴があり、且つ質問の特徴がテキスト的な質問の特徴である場合、質問に対応する取得済みの質問の特徴の中で発生頻度が最も高い質問の特徴を質問の特徴として使用し、
特徴取得サイクル内で取得されない質問の特徴がない場合、取得済みの質問の特徴を質問の特徴として使用する
ようにとりわけ構成される。
【0015】
好ましくは、処理モジュールは、
質問の特徴が数値的な質問の特徴である場合は質問の特徴に対して正規化処理を行うこと、及び
質問の特徴がテキスト的な質問の特徴である場合は質問の特徴に対してベクトル化処理を行うことであって、ベクトル化処理後に得られる質問の特徴は数値的な質問の特徴である、ベクトル化処理を行うこと
を行うようにとりわけ構成される。
【0016】
好ましくは、第2の確率は処理済みの質問の特徴及び第1の確率に対してDNN計算を行うことによって得られる。
【0017】
以上のように、本願の技術的解決策を使用することにより、質問の特徴が処理され、分類計算の対象となり、得られた結果に対して更に深い計算が行われ、それにより質問及び第2の確率が正確に出力され得る。本願は利用者に対する質問の推薦の精度を改善する。本願は密な質問の特徴の値を処理することができ、大規模な疎データの処理にも適用可能であり、従って予測の精度を改善する。
【図面の簡単な説明】
【0018】
【
図1】本願による質問推薦方法の概略的な流れ図である。
【
図2】本願の特定の実施形態によるDNNモデルの概略図である。
【
図3】本願による質問推薦装置の概略的な構造図である。
【発明を実施するための形態】
【0019】
詳細な説明
従来技術の問題に鑑みて、本発明は質問推薦方法を提案する。この方法は質問推薦システムに適用され、機械学習モデルとDNNモデルとの組合せを使用してモデルの訓練が行われる。本システムは、利用者が必要とする質問を履歴的記録に従って利用者に推薦することができ、疎及び密な質問の特徴を処理するのに優れており、利用者に対する質問の推薦の精度を改善するために使用され得る。
【0020】
図1に示すように、
図1は本願による検証情報処理方法の概略的な流れ図である。この方法は以下のステップを含む:
S101:サンプル収集サイクル内で質問及び質問に対応する質問の特徴を取得する。
【0021】
本願は、質問推薦サービスを必要とする利用者に対して質問を推薦することを目的とする。利用者は、質問が推薦される必要がある利用者及び他の利用者であり得る。利用者の履歴的記録が本発明のシステム内に存在する。履歴的記録は、質問及び対応する質問の特徴を含む。質問推薦システムは、収集層、処理層、記憶層、及び出力層を概して含む。収集層は、他の装置によって送信される質問及び質問の特徴を収集することを担う。処理層は、収集された質問及び質問の特徴を使用することによってモデルの訓練を実行する。記憶層はデータ記憶を担い、データ記憶では利用者の履歴的記録が記憶される。出力層は質問及び質問の特徴を出力する。本願の質問推薦システムはサーバ上に実装することができる。好ましくは分散サーバが採用される。更に、本願は1つのサーバを使用することができ、又は複数のサーバで構成されるクラスタを使用することができる。
【0022】
質問の特徴は、数値的特徴及びテキスト的特徴を含む。数値的特徴は連続的である。例えば、数値的特徴はアプリケーションソフトウェアの使用回数であり、9の数値はアプリケーションソフトウェアが9回使用されることを表す。テキスト的特徴は非連続的である。例えばテキスト的特徴は、未請求状態及び請求済み状態に対応する請求状態である。履歴的記録内の質問及び質問の特徴は特定の期間内にしか有効ではないので、或る期間内、例えば1週間や1カ月のうちに質問及び質問の特徴を収集するようにサンプル収集サイクルが設定される。異なる装置は異なるIPアドレスを有するので、他の装置がシステムに質問及び質問の特徴を送信する場合、一部の質問及び質問の特徴を取得するのに相対的に長い時間がかかる。その結果、システムは長時間たっても取得を完了できない場合がある。
【0023】
データをより効率的に処理するために、本願の好ましい実施形態では特徴取得サイクルが設定され、特徴取得サイクル内で質問が取得される。特徴取得サイクル内で取得されない質問がある場合、取得されない質問の値はヌルである。特徴取得サイクル内で取得されない質問がない場合、取得済みの質問が質問として使用される。特徴取得サイクル内で質問の特徴が取得される。特徴取得サイクル内で取得されない質問の特徴があり、且つ質問の特徴が数値的特徴である場合、質問に対応する取得済みの質問の特徴の数値の平均が質問の特徴として使用される。特徴取得サイクル内で取得されない質問の特徴があり、且つ質問の特徴がテキスト的な質問の特徴である場合、質問に対応する取得済みの質問の特徴の中で発生頻度が最も高い質問の特徴が質問の特徴として使用される。特徴取得サイクル内で取得されない質問の特徴がない場合、取得済みの質問の特徴が質問の特徴として使用される。
【0024】
質問及び質問に対応する質問の特徴を取得した後、この推薦システムは質問の特徴を予備選択して一部の特徴を削除し、例えば全ての利用者が保持する同一の質問の特徴、特徴取得サイクルを容易に上回る質問の特徴、及び事業に関係がない質問の特徴を削除する。予備選択後に得られる特徴は、後で分類モデルを確立するのを準備するために使用され得る。
【0025】
S102:質問の特徴を処理し、処理済みの質問の特徴は予め設定された数値範囲内にある。
【0026】
質問及び対応する質問の特徴を取得した後、質問推薦システムは質問の特徴を処理する。質問の特徴が数値的な質問の特徴である場合は質問の特徴に対して正規化処理を行い、それにより処理済みの質問の特徴は指定の数値範囲内にあり、質問の特徴がテキスト的な質問の特徴である場合は質問の特徴に対してベクトル化処理を行い、それにより処理済みの質問の特徴が数値的な質問の特徴になり、指定の質問の特徴に含まれる。
【0027】
本願の好ましい実施形態では、質問の特徴が数値的特徴である場合、パーセンタイルビニングアルゴリズムを使用することによって質問の特徴に対して正規化処理を行うことができ、それにより全ての質問の特徴が処理後に指定の数値範囲内にある。パーセンタイルビニングアルゴリズムに基づく処理の間、元の数値が100個のビンに類別され、それらのビンがコード化される(例えば0.01、0.02...、1.00)。処理される数値的な質問の特徴は0から1の数値範囲内にある。
【0028】
テキスト的な質問の特徴はテキスト形式で提示され、計算に加わることができない。従って、テキスト的な質問の特徴に対してベクトル化処理を行って、質問の特徴をテキスト的特徴から数値的特徴に変換する必要がある。テキスト的特徴を処理して各特徴の頻度を計算するためにワンホットエンコーディングを使用することができ、それにより頻度に基づいてワンホットコードがもたらされる。例えばテキスト的特徴は、未請求状態及び請求済み状態に対応する請求状態である。数値的特徴0及び1はベクトル化処理後に得られ、0から1までの数値範囲内にある。
【0029】
処理後、その後の計算に加わることを容易にするために、質問の特徴は指定の数値範囲内にある。本願では指定の数値範囲内の質問の特徴を得る必要があるので上記のパーセンタイルビニングアルゴリズム及びベクトル化処理の方法を実行するが、これは本願の好ましい実施形態の中で提案する例に過ぎないことに留意すべきである。本願の保護範囲はこの例に限定されない。本願の好ましい実施形態の中で提案した上記の例に基づいて計算の他のやり方が選択されても良く、そのため本願は更に多くの応用分野に適用可能であり、それらの改善の全てが本発明の保護範囲に属する。
【0030】
S103:質問、質問の中の各質問の第2の確率、及び指定の推薦閾値に従って推薦される質問を決定する。
【0031】
質問及び対応する質問の特徴を得た後、本願は簡単な分類モデルに基づいて質問の特徴に対して計算を行い、決定木アルゴリズムを使用することによって第1の確率を得る必要が更にある。決定木に基づく計算の間、2巡のサンプリングをまず行う必要がある。1巡目では、決定木によって処理され得る質問の特徴を得るために質問の特徴を無作為にサンプリングする。2巡目で重要な特徴をサンプリングし、処理され得る質問の特徴に従って重みを計算する。
【0032】
今日では、データインタフェースの数が増えるにつれてデータセットの元の変数及び派生変数が増加する。従って、実際のデータ応用では情報値(IV:Information Value)が極めて重要である。特徴の選択が簡単且つ高速になるように、IVは各変数が標的変数に寄与する「情報」の量を表すために使用される。
【0033】
特徴を選択する間、特徴は通常は特徴の重要度を定量化した後に選択され、特徴をどのように定量化するのかが様々な方法間の最大の違いになる。情報獲得(IG:Information Gain)において、重要度を測定するための基準は、或る特徴がどれ位の情報を分類システムに寄与し得るのかである。特徴がシステムに寄与する情報が多ければ多いほどその特徴は重要である。従って或る特徴について、その特徴があるシステムの情報量と、その特徴がないシステムの情報量との差が、その特徴がシステムに寄与する情報量、即ちIGである。
【0034】
IV及びIGのどちらも質問の特徴に対応する重みを表すことができる。従って、重みはIV及び/又はIGである。重要な特徴が重みに従って選択され、その重要な特徴に従って分類モデルが確立される。その後、予備選択後に得られた質問の特徴を分類モデルに基づいて分析して第1の確率を得る。質問の特徴を決定木に基づく計算にかけた後で得られる対応する確率を第1の確率として使用する。
【0035】
本願の決定木アルゴリズムに基づいて質問の特徴に対応する確率値を得る上記のプロセスは、本願の好ましい実施形態の中で提案する例に過ぎないことに留意すべきである。それ以外に、論理回帰計算等の他の計算方法も選択することができ、そのため本願は更に多くの応用分野に適用可能であり、それらの改善の全てが本発明の保護範囲に属する。
【0036】
処理済みの質問の特徴及び第1の確率を得た後、処理済みの質問の特徴及び第1の確率に対して計算を行って質問及び質問の中の各質問の第2の確率を得る。好ましい実施形態では、質問及び質問の中の各質問の第2の確率がDNN計算によって得られる。質問推薦システム内のDNNは入力ノード及び計算ノードを含む。DNN計算は以下のステップを含む:(1)入力ノードが処理済みの質問の特徴及び第1の確率を取得する。(2)計算ノードが全結合層、活性化関数ReLu、及びマルチクラス損失関数softmax lossを使用することによって処理済みの質問の特徴及び第1の確率に対して計算を行って第2の確率を得る。
【0037】
特定の応用シナリオでは、操作ステップは
図2に示す通りである:
【0038】
a.入力層が処理済みの質問の特徴及び第1の確率を取得する。
【0039】
DNNの訓練の前に、決定木を使用することによってデータを予め分類しておくことができる。一方で、第1の確率に基づいてDNN内のネットワークノードの重みを制御することができる。
【0040】
b.中間層、即ち計算層が質問を推薦する。計算層は、全結合層、活性化関数ReLu、及びマルチクラス損失関数softmax lossを使用することによって処理済みの質問の特徴及び第1の確率に対して計算を行って質問の特徴に対応する質問及び第2の確率を得る。
【0041】
活性化関数ReLuに基づいて計算が行われ、そのためネットワークの一部分のニューロンが0を出力し、従ってネットワークの疎性に寄与し、パラメータ間の依存性を減らし、過適合の問題を軽減する。一方で計算ノードは相対的に少ない計算量を有し、そのことはシステムの質問推薦効率の改善を助ける。加えて、DNNの訓練内でGPUを使用して行列計算を加速し、それにより計算速度を更に改善することができる。活性化関数ReLuに加えて、シグモイド層も計算に使用することができる。
【0042】
c.出力層が質問及び質問に対応する第2の確率を出力する。
【0043】
本願では、第2の確率が、第1の確率及び処理後に得られる数値的な質問の特徴から得られることに留意すべきである。本願で提案する計算のやり方はDNN計算だが、本願の保護範囲はDNN計算に限定されない。上記は好ましい実施形態の中で提案する例に過ぎない。この例に基づき、他のやり方も計算のために選択することができ、そのため本願は更に多くの応用分野に適用可能であり、それらの改善の全てが本発明の保護範囲に属する。
【0044】
本願の好ましい実施形態では、質問推薦システムが、質問、質問の中の各質問の第2の確率、及び指定の推薦閾値に従って推薦される質問を決定する。次いで、閾値の範囲内の質問の特徴が閾値に従って得られ、その質問の特徴に対応する質問が推薦される質問として使用される。例えば、6個の質問についての質問の特徴が閾値の範囲内で得られる場合、システムは6個の質問を推薦する。本発明では、利用者に対応する履歴的記録内の質問及び質問の特徴に対して計算が行われた後、従って推薦される質問が決定された後、利用者が質問推薦システムにアクセスするとき、対応する結果が直接呼び出される。本願の質問推薦システムを使用することにより、利用者は自分に大いに関係する質問を直接取得することができる。
【0045】
上記の技術的目的を実現するために、本願は質問推薦装置を更に提案する。
図3に示すように、この装置は、
サンプル収集サイクル内で質問を取得し、且つ質問に対応する質問の特徴を取得するように構成された取得モジュール310と、
その質問の特徴を処理するように構成された処理モジュール320であって、処理済みの質問の特徴は予め設定された数値範囲内にある、処理モジュール320と、
質問、質問の中の各質問の第2の確率、及び指定の推薦閾値に従って推薦される質問を決定するように構成された決定モジュール330と
を含み、
質問及び質問の中の各質問の第2の確率は処理済みの質問の特徴及び第1の確率を使用することによって得られ、第1の確率は質問の特徴に基づいて得られる。
【0046】
好ましい実施形態では、質問の特徴が数値的特徴及びテキスト的特徴を含み、数値的特徴は連続的であり、テキスト的特徴は非連続的である。
【0047】
好ましい実施形態では、取得モジュールが、
特徴取得サイクル内で質問を取得し、
特徴取得サイクル内で取得されない質問がある場合、取得されない質問の値をヌルに設定し、
特徴取得サイクル内で取得されない質問がない場合、取得済みの質問を質問として使用する
ようにとりわけ構成される。
【0048】
好ましい実施形態では、取得モジュールが、
特徴取得サイクル内で質問の特徴を取得し、
特徴取得サイクル内で取得されない質問の特徴があり、且つ質問の特徴が数値的特徴である場合、質問に対応する取得済みの質問の特徴の数値の平均を質問の特徴として使用し、
特徴取得サイクル内で取得されない質問の特徴があり、且つ質問の特徴がテキスト的な質問の特徴である場合、質問に対応する取得済みの質問の特徴の中で発生頻度が最も高い質問の特徴を質問の特徴として使用し、
特徴取得サイクル内で取得されない質問の特徴がない場合、取得済みの質問の特徴を質問の特徴として使用する
ようにとりわけ構成される。
【0049】
好ましい実施形態では、処理モジュールは、
質問の特徴が数値的な質問の特徴である場合は質問の特徴に対して正規化処理を行うこと、及び
質問の特徴がテキスト的な質問の特徴である場合は質問の特徴に対してベクトル化処理を行うことであって、ベクトル化処理後に得られる質問の特徴は数値的な質問の特徴である、ベクトル化処理を行うこと
を行うようにとりわけ構成される。
【0050】
好ましい実施形態では、第2の確率は処理済みの質問の特徴及び第1の確率に対してDNN計算を行うことによって得られる。
【0051】
上記の実装形態についての説明により、本願をハードウェアによって実装できること、又はソフトウェアと必要なハードウェアプラットフォームとによって実装できることを当業者なら明確に理解することができる。かかる理解に基づき、本願の技術的解決策はソフトウェア製品の形で具体化することができる。コンピュータソフトウェア製品は不揮発性記憶媒体(CD-ROM、USBフラッシュドライブ、モバイルハードディスクドライブ等)内に記憶することができ、本願の様々な実装シナリオの中の方法を実行するようにコンピュータ装置(パーソナルコンピュータ、サーバ、ネットワーク装置等とすることができる)に命令するための幾つかの命令を含む。
【0052】
添付図面は好ましい実装シナリオについての概略図に過ぎないことを当業者なら理解することができる。添付図面内のモジュール又はプロセスは必ずしも本願の実装に必須ではない。
【0053】
或る実装シナリオ内の機器内のモジュールは、その実装シナリオの説明に従って実装シナリオ内の機器のうちで分散させることができ、目下の実装シナリオ内の機器とは異なる1つ又は複数の機器の中に位置しても良いことを当業者なら理解することができる。実装シナリオ内のモジュールは1つのモジュールへと組み合わせることができ、複数の下位モジュールへと更に分割することもできる。
【0054】
本願の中の順序番号は説明の便宜のために過ぎず、実装シナリオ間の優位性を含意するものではない。
【0055】
上記で開示した内容は本願の幾つかの具体的な実装シナリオに過ぎない。但し、本願はそれらの実装シナリオに限定されない。当業者なら思い付き得る全ての改変形態を本願の保護範囲に含むものとする。