(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-02-01
(54)【発明の名称】自動化電子メールアシスタント
(51)【国際特許分類】
G06F 16/35 20190101AFI20220125BHJP
G06F 40/216 20200101ALI20220125BHJP
G06F 40/279 20200101ALI20220125BHJP
G06N 3/08 20060101ALI20220125BHJP
【FI】
G06F16/35
G06F40/216
G06F40/279
G06N3/08
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021520612
(86)(22)【出願日】2019-11-14
(85)【翻訳文提出日】2021-06-08
(86)【国際出願番号】 EP2019081305
(87)【国際公開番号】W WO2020099550
(87)【国際公開日】2020-05-22
(32)【優先日】2018-11-14
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】518287537
【氏名又は名称】カーベーセー グループ エンフェー
【氏名又は名称原語表記】KBC Groep NV
(74)【代理人】
【識別番号】100147485
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100192924
【氏名又は名称】石井 裕充
(72)【発明者】
【氏名】サラ ミシェル
【テーマコード(参考)】
5B091
5B175
【Fターム(参考)】
5B091CA12
5B091EA01
5B175DA01
5B175FA03
5B175HB03
(57)【要約】
着信電子メールの本文の複数のテキスト部分が決定される。各テキスト部分について、自然言語処理に基づいて、主題カテゴリ及び特徴ベクトル表現(FVR、feature vector representation)が決定される。共通の主題カテゴリを備える2つのテキスト部分については、それらのFVRに基づいて類似度値が算出され、また、類似度値が条件を充足する場合、2つのテキスト部分は1つの集約済みテキスト部分に集約される。各テキスト部分について:テキスト部分のFVRに基づいて参照ドキュメントが選択され;対応する主題カテゴリに基づいて受信者が取得され;テキスト部分を備える電子メール、並びに各選択された参照ドキュメント若しくはそれへのポインタが、取得された受信者へと送信される。FVRに基づいたテキスト部分の集約を通じて、FVRに基づいたドキュメント検索のための計算資源が削減され、発信電子メールの件数もまた同様となる。
【特許請求の範囲】
【請求項1】
電子メールルーティング用のコンピュータ実施方法であって、
-件名及び本文を備える電子メールを受信するステップと、
-前記本文の複数のテキスト部分を決定するステップと、
-各テキスト部分について、自然言語処理に基づいて主題カテゴリを決定するステップと、
-各テキスト部分について、少なくとも1つのドキュメントデータベースの各々からの、対応する前記主題カテゴリと関連付けられている参照ドキュメントを自然言語処理に基づいて選択するステップと、
-各テキスト部分について、前記対応する主題カテゴリに基づいて受信者を取得するステップと、
-各テキスト部分について、選択された前記受信者へ、前記本文若しくは前記テキスト部分を備える電子メールと、選択された各参照ドキュメント若しくは選択された各参照ドキュメントへのポインタとを、送信するステップとを含む方法において、
該方法は、前記少なくとも1つのドキュメントデータベースの各々から各テキスト部分について参照ドキュメントを選択するステップの前に、
-各テキスト部分について、自然言語処理に基づいて特徴ベクトル表現を決定するステップと、
-2つのテキスト部分が共通の主題カテゴリを含むかを検証するステップと、
-前記2つのテキスト部分が共通の主題カテゴリを含む場合、
・前記2つのテキスト部分についてそれらの特徴ベクトル表現に基づいて類似度値、好適にはコサイン類似度値、を算出するステップと、
・前記類似度値についての条件を検証するステップと、
・前記類似度値についての条件が充足された場合、前記2つのテキスト部分を1つの集約済みテキスト部分に集約し、また、前記集約済みテキスト部分について特徴ベクトル表現を決定するステップと、を含み、
各テキスト部分について自然言語処理に基づいて少なくとも1つのドキュメントデータベースの各々から前記対応する主題カテゴリと関連付けられている参照ドキュメントを選択するステップは、各テキスト部分について、前記テキスト部分と関連付けられている特徴ベクトル表現に基づいて、少なくとも1つのドキュメントデータベースの各々から、前記対応する主題カテゴリと関連付けられている参照ドキュメントを選択するステップを含む、ことによって特徴付けられるコンピュータ実施方法。
【請求項2】
請求項1に記載のコンピュータ実施方法において、複数のテキスト部分ペアと、各テキスト部分ペアについての類似若しくは非類似となる二値分類とをもってSiamese型ニューラルネットワークを訓練するステップを含み、前記2つのテキスト部分についての前記類似度値は訓練済みの前記Siamese型ニューラルネットワーク及び前記2つのテキスト部分に基づいて決定される、コンピュータ実施方法。
【請求項3】
請求項2に記載のコンピュータ実施方法において、前記Siamese型ニューラルネットワークは、ペアの各テキスト部分について特徴ベクトル表現を提供して、前記ペアの前記テキスト部分についての前記特徴ベクトル表現に基づいた類似度値についての条件に基づいて前記ペアを類似又は非類似と分類するように訓練されており、前記2つのテキスト部分についての前記類似度値は、訓練済みの前記Siamese型ニューラルネットワークによって前記2つのテキスト部分について提供された前記特徴ベクトル表現に基づいて決定される、コンピュータ実施方法。
【請求項4】
請求項1乃至3のいずれか1つに記載のコンピュータ実施方法において、該方法は、前記着信メールの1つ以上のメールアイテムを前処理済みアイテムに前処理するステップを含み、メールアイテムは件名、本文又はテキスト部分を含み、メールアイテムを前処理済みメールアイテムに前処理するステップは正規表現又は同一性に基づいて前記メールアイテムのサブ部分を除去及び/又は置換することを含み、好適にはテキスト部分について前記少なくとも1つのドキュメントデータベースの各々から主題カテゴリ及び/又は参照ドキュメントが前記前処理済みテキスト部分に基づいて選択される、コンピュータ実施方法。
【請求項5】
請求項1乃至4のいずれか1つに記載のコンピュータ実施方法において、該方法は、
-各訓練アイテムが主題カテゴリと関連付けられている複数の訓練アイテムのうちの各訓練アイテムについて、特徴ベクトル表現を決定するステップであって、好適には前記少なくとも1つのドキュメントデータベースは前記複数の訓練アイテムを備える、ステップと、
-各訓練アイテムの決定済みの前記特徴ベクトル表現及び前記主題カテゴリに基づいて分類アルゴリズムを訓練して主題カテゴリについて確率ベクトルを特徴ベクトル表現に基づいて提供するステップと、
-前記テキスト部分について前記主題カテゴリを、前記テキスト部分の前記特徴ベクトル表現及び訓練済みの前記分類アルゴリズムに基づいて、決定するステップとを含み、
訓練アイテムは、テキストドキュメント、電子メールの件名、電子メールの本文、及び/又は電子メールの本文のテキスト部分を備える、コンピュータ実施方法。
【請求項6】
請求項1乃至5のいずれか1つに記載のコンピュータ実施方法において、アイテムについての前記特徴ベクトル表現は、
-第1の特徴ベクトル表現であって、前記アイテムの各単語について例えばword2vecの文脈ベクトル及び逆ドキュメント頻度が取得され、前記第1の特徴ベクトル表現は前記アイテムの全てのワードの前記文脈ベクトルについての加重集約であり、前記加重は逆ドキュメント頻度に基づいている、第1の特徴ベクトル表現、
-単語及び近隣する単語ペアについての用語頻度に逆ドキュメント頻度を乗算したものに基づいた第2の特徴ベクトル表現、
-各々が主題カテゴリにリンクされた所定の単語のリストに基づいた第3の特徴ベクトル表現であって、該第3の特徴ベクトル表現は、各主題カテゴリについて、前記主題カテゴリと関連付けられている1つ以上の単語の個数又は単語についてのパーセンテージを含む、第3の特徴ベクトル表現、
の少なくとも1つ、好適には少なくとも2つ、そしてより好適には全てに基づいており、
訓練アイテムは、テキストドキュメント、電子メールの件名、電子メールの本文、及び/又は電子メールの本文のテキスト部分を備える、コンピュータ実施方法。
【請求項7】
請求項1乃至6のいずれか1つに記載のコンピュータ実施方法において、前記少なくとも1つのドキュメントデータベースは参照電子メールデータベースを備える少なくとも2つのドキュメントデータベースであり、各テキスト部分について前記主題カテゴリは前記参照電子メールデータベースからの電子メールに基づいて選択される、コンピュータ実施方法。
【請求項8】
請求項1乃至7のいずれか1つに記載のコンピュータ実施方法において、電子メールは例えば受信者数及び時刻情報のメタデータを備え、アイテムについての前記特徴ベクトル表現は前記アイテムを備える電子メールのメタデータに基づいており、アイテムは、テキストドキュメント、電子メールの件名、電子メールの本文、及び/又は電子メールの本文のテキスト部分を備える、コンピュータ実施方法。
【請求項9】
請求項1乃至8のいずれか1つに記載のコンピュータ実施方法において、該方法は、前記少なくとも1つのドキュメントデータベースのうちのデータベース、好適にはデータベースの各々について、
-前記データベースの各参照ドキュメント及び前記参照ドキュメントのN文字N-gramの全て(N≧3)について、用語頻度に逆ドキュメント頻度を乗算したものを決定するステップと、
-前記データベースの前記参照ドキュメントに亘る前記用語頻度に逆ドキュメント頻度を乗算したものについての総和をN-gram毎に含む合算済みベクトルを取得するステップと、
-前記合算済みベクトル内の値の大きさに基づいて、N-gramの所定のパーセンテージを選択するステップとを含み、
テキスト部分については前記データベースから参照ドキュメントが選択され、前記選択は、
-前記データベースの各参照ドキュメントについて類似度値、好適にはコサイン類似度値を決定するステップであって、前記テキスト部分は前記ドキュメントのN-gram特徴ベクトル表現に基づいており、前記テキスト部分は選択されたN-gramについての用語頻度に逆ドキュメント頻度を乗算したものを含む、ステップと、
-前記類似度値の大きさに基づいて前記データベースから前記参照ドキュメントを選択するステップとをなすことによって実行される、コンピュータ実施方法。
【請求項10】
請求項1乃至9のいずれか1つに記載のコンピュータ実施方法において、該方法は、前記少なくとも1つのドキュメントデータベースのうちのデータベース、好適にはデータベースの各々について、
-前記データベースの各参照ドキュメントについて、例えばword2Vecを介して決定された文脈ベクトルの加重集約のような、前記参照ドキュメント内の各単語についての文脈ベクトルの集約に基づいて特徴ベクトル表現を決定するステップであって、好適には前記加重は逆ドキュメント頻度に基づいている、ステップと、
-テキスト部分について、前記テキスト部分内の各単語についての文脈ベクトルの集約に基づいて、特徴ベクトル表現を決定するステップと、
-前記データベースの各参照ドキュメントについて類似度値、好適にはコサイン類似度値を決定するステップであって、前記テキスト部分は前記ドキュメントの特徴ベクトル表現及び前記テキスト部分に基づいている、ステップと、
-前記類似度値の大きさに基づいて前記データベースから前記参照ドキュメントを選択するステップとを含む、コンピュータ実施方法。
【請求項11】
請求項1乃至10のいずれか1つに記載のコンピュータ実施方法において、該方法は、
-再帰型ニューラルネットワーク、好適にはエンコーダ-デコーダ・ロング・ショート・ターム・メモリ・ネットワークを含むシーケンス・ツー・シーケンスモジュールを、参照用の電子メール、メール本文或いはメール本文のテキスト部分及び対応する返答で訓練して、着信した電子メール、メール本文又はテキスト部分を返答に変換するステップと、
-訓練済みの前記シーケンス・ツー・シーケンスモジュールを介して、着信した電子メールへの返答案を生成するステップとを含み、
前記取得された受信者への前記電子メールは前記返答案を備える、コンピュータ実施方法。
【請求項12】
電子メールのルーティング用のコンピュータシステムであって、該コンピュータシステムは請求項1~11のいずれか1つに記載のコンピュータ実施方法を行うように構成されている、コンピュータシステム。
【請求項13】
電子メールのルーティング用のコンピュータプログラム製品であって、前記コンピュータプログラム製品は命令を含み、前記命令は、コンピュータシステムによって前記コンピュータプログラム製品が実行されると、前記コンピュータシステムに請求項1~11のいずれか1つに記載のコンピュータ実施方法を行わせる、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータ支援型の電子メール管理の技術的分野に関する(CPC G06Q10/107)。
【背景技術】
【0002】
電子メールは、広く普及した非同期式テキストベースド通信方法である。専門的な主題に関する質問を含む電子メールメッセージは、該当する専門家たる受信者を対象としている場合があり、それが誰であるかは送信者には不明かもしれない。単一の電子メールメッセージはそれぞれが異なる専門家たる受信者を対象とする複数の質問を含み得るのであり、質問の分配及び集約した回答の生成を要する。専門家たる受信者は、複数の関連している又は同一な質問に対処することが必要となり得るのであり、これに対する回答行為は反復的で時間浪費的なタスクと言えよう。専門家たる受信者は、電子メールメッセージに対する応答を起案するに際して電子的なテキストベースドな文書を検討したりこれを提供したりすることを要し得るのであり、これが困難且つ時間浪費的な行為たり得る。従来技術において、これらの問題の幾つかに対しては取り組みがみられる。
【0003】
特許文献1は自動メッセージ解釈及びルーティングのためのシステム及び方法を開示する。ソースからの着信電子メールは、その主題内容に従って優先順位付けのために分類されるのであり、これは電子メールを検討用インボックスへ転送する前になされるのであり、後に人間のオペレータが検索することになる。可能ならば、ソースへの発出及び提供のために提案される1つ以上の所定の応答が検索され、電子メールと共に検討用インボックスへとルーティングされる。該文献は、キャラクタマッチャー(好適にはトライグラムキャラクタマッチングアルゴリズムを含む)を用いて電子メッセージ内の顕著な単語(又はテキスト)の組合せ及びテキストパターンを検出することを開示する。さらに、該文献は、電子メールを自動的に解釈するに際しては、特定の直定数の適切な除去が肝要であるということを開示する。
【0004】
該文献は、1つ以上のエキスパート受信者を選択することについては教示していない。該文献は、専門的な主題についての複数の質問を扱うための術については教示していない。
【0005】
特許文献2は、テキストベースド非同期式通信のための、内容感応型の自動返答メッセージ生成についてのシステム及び方法を開示する。フィルタとモデラーとが、テキストメッセージの内容について言語解析及び特徴付けを行って、タグ付けされたメッセージがもたらされる。フィルタ及びモデラーは特徴抽出方法を用いるのであり、例えば次のパターン認識方法の任意の1つ又は複数たり得る:キーワード解析、形態解析、自然言語処理、類語集、共起統計、音節解析、及び単語解析。特徴抽出方法は複数の出力信号をその結果もたらし得るのであり、次の事項が含まれ得る:キーワード頻度、共起統計、キーワード頻度についての次元縮小表現、音素頻度、センテンスと段落とページとについての構造パターンに関する統計、語彙選択及びセンテンス構造の複雑性に基づいて著者の推定教育水準、並びに顧客種別。タグに基づいて、自動返答生成器はフレーズライブラリから、提示された各論点及び要求について部分返答や返答フレーズや顧客の態度に基づいた導入的フレーズを検索し、さらには顧客の教育レベルに基づいてこれらの返答を再選択することができる。提案されたメッセージは、タグ及び元のメッセージと共に、拡張ユーザインターフェースを介して、ユーザに対して提示される。ユーザの変更は学習プロセスによって受信され、これによってフィルタ及びモデラーの理由付け及び解析ロジックが更新されて将来なされるタグ生成がより正確になる。
【0006】
該文献は、1つ以上のエキスパート受信者を選択することについては教示していない。該文献は、専門的な主題についての複数の質問を扱うための術については教示していない。
【0007】
特許文献3は、機械学習を用いて電子メールを最適の受信者へとルーティングするシステム及び方法を開示する。学習エージェントが、単語抽出及び索引付けに基づいて、メールサーバ内に格納された電子メールから、受信者に対応する学習モデルを構築する。
【0008】
該文献は、返答するための関連性を有する情報の検索について教示していない。該文献は、専門的な主題についての複数の質問を扱うための術については教示していない。
【0009】
特許文献4は、トラストメトリックベースドなクエリ方法について開示する。該文献([0104]、[0106])では、コンテキスト情報(問い合わせ又は専門知識に関する特定の分野)をトラスト指標と共に並置して、質問についての候補受信者を選択することを開示する。さらに、該文献([0114]、[0136]、[0137])では、複数の質問を含む所与のクエリを複数のクエリに自動分割することを開示する。
【0010】
特許文献5は質問及び回答のペアを含むナレッジデータベースを構築することについて開示する。該方法は、次のステップを含む:複数の電子通信から質問を抽出するステップと;通信の送信者が、抽出された質問を検討した上で選択又は選択解除することを可能とするステップ;質問の内容及び各質問内の識別キーワードに基づいて、各質問を分類するステップ;質問をそれら各々の分類及びキーワードと共にデータベースに入力するステップ;及び入力された質問に対応する回答をデータベースに入力するステップ。質問を分類して、それらの中のキーワードを識別して、同一又は類似の分類を有し且つ同一のキーワードの全部また一部を有するデータベース内の質問を識別して、対応する回答を識別することによって、質問への回答を発見し得る。該文献([0151])では、ある実施形態に関して、本質的には同一であるも異なる態様でフレージングされているに過ぎない複数の質問について同一の回答を検索することを開示している。
【0011】
ドキュメント及び/又は回答及び/又はクエリに対しての出力及び/又は質問及び/又は入力を、提供するためには相当な計算資源が必要となる。特許文献4及び5のいずれも、計算資源の節約には向けられていない。
【0012】
本発明は、上述の問題の少なくとも幾つかを解決することを目指す。
【先行技術文献】
【特許文献】
【0013】
【特許文献1】米国特許第6,411,947号明細書
【特許文献2】米国特許第6,718,368号明細書
【特許文献3】米国特許公開公報第2002/0107926号
【特許文献4】米国特許公開公報第2007/0208727号
【特許文献5】米国特許公開公報第2005/0283474号
【発明の概要】
【0014】
第1の態様においては、本発明は、請求項1による、電子メールルーティング用のコンピュータ実施方法(CIM、computer-implemented method)を提供する。
【0015】
第2の態様においては、本発明は、電子メールのルーティング用のコンピュータシステムを提供し、該コンピュータシステムは第1の態様によるCIMを行うように構成されている。
【0016】
第3の態様においては、本発明は、電子メールルーティング用のコンピュータプログラム製品(CPP、computer program product)を提供し、該CPPは、CPPがコンピュータシステムによって実行されると第1の態様によるCIMをコンピュータシステムに遂行させる命令を備える。
【0017】
本発明は次のステップを伴う:着信電子メールの本文内の複数のテキスト部分を決定するステップと;各テキスト部分について、自然言語処理に基づいて、少なくとも1つのドキュメントデータベースの各々から、主題カテゴリと、対応する主題カテゴリと関連付けられている参照ドキュメントとを、選択するステップ。各テキスト部分について、対応する主題カテゴリに基づいて受信者を取得する。そして、対応する参照ドキュメント又はそれへのポインタと共に、テキスト部分が、対応する受信者へと、送信される。
【0018】
複数の質問を含む電子メールを複数のテキスト部分に分割でき、各テキスト部分が質問を含むようにして、特定のテキスト部分を関連するドキュメンテーション(又はそれへのポインタ)と共に対応する専門家へと転送し得る。したがって、本発明は、(i)複数の質問を検出し、(ii)各質問を関連する専門家へとルーティングして、(iii)関連する専門家に追加的な関連ドキュメンテーションを提供することによって、統合されており自動化された電子メール支援術を提供する。
【0019】
各テキスト部分についてテキスト部分の主題カテゴリと関連付けられている参照ドキュメントを選択するステップであって、参照ドキュメント選択がテキスト部分の特徴ベクトル表現に基づいてなされる、ステップの前に、共通主題カテゴリを有する2つのテキスト部分の類似度(similarity)が、それらの特徴ベクトル表現に基づいて評価されるのであり、類似度値(similarity value)についての条件が充足された場合には2つのテキスト部分は1つの集約済みテキスト部分に集約される。
【0020】
テキスト部分の集約は次の有利な技術的効果をもたらす:
・テキスト部分が少なくなる故に、各テキスト部分について主題カテゴリと関連付けられているドキュメントを選択するのに要する計算資源を低減させること、
・テキスト部分が少なくなる故に、発信電子メールの総件数を低減させること。
【0021】
特許文献5の[0151]段落と比較すると、本質的には同一であるも異なる態様でフレージングされているに過ぎない複数の質問について同一の回答を複数回検索していることに対して、本発明では質問を扱う前に質問の集約をもたらしている。
【図面の簡単な説明】
【0022】
【
図1】本発明による、実施形態のアルゴリズムについての概略図である。
【
図2】本発明による、実施形態の電子メッセージとそれらの処理についての概略図である。
【
図3】本発明による、実施形態のアルゴリズムについての概略図である。
【
図4】本発明による、実施形態のデータ処理の諸態様についての概略図である。
【
図5】本発明による、実施形態のデータ処理の諸態様についての概略図である。
【
図6】本発明による、実施形態のデータ処理の諸態様についての概略図である。
【
図7】本発明による、実施形態のデータ処理の諸態様についての概略図である。
【
図8】本発明による、実施形態のデータ処理の諸態様についての概略図である。
【発明を実施するための形態】
【0023】
本発明は、電子メールルーティングに関してのコンピュータ実施方法(CIM、computer-implemented method)、コンピュータシステム、及びコンピュータプログラム製品(CPP、computer program product)に関する。本発明の概略については上述した。以下においては、本発明に関して詳述し、好適実施形態について説明し、非限定的な例をもって本発明について例示する。
【0024】
別段に定義されている場合を除き、本発明の開示において用いられる技術的用語及び科学的用語を含む全ての用語は、本発明の属する分野の当業者が一般的に理解する意味を有している。さらなる指針として、本発明の教示事項をより良く理解させるために、用語の定義が以下含まれる。
【0025】
文脈が明白に別段のことを要する場合を除き、本明細書において不定冠詞及び定冠詞は、単数及び複数の被参照概念を指す。例示するに、「(不定冠詞)+区画」は、1つ又は1つ以上の区画を指す。
【0026】
本明細書において「備える」は、含む及び包摂と同義的であり、包括的或いはオープンエンド型の用語であり、列挙事項(例えば、コンポーネント)の存在を指定するものであり、追加的な言及されていない該当分野にて知られているコンポーネント、特徴、要素、部材、ステップ等の存在を除外も阻却もしない。
【0027】
本明細書において「~に基づく」は、包括的或いはオープンエンド型の用語であり、列挙事項への依存関係を指定するも、追加的な言及されていないコンポーネント、特徴、要素、部材、ステップ等への依存を除外も阻却もしない。
【0028】
本明細書において「特徴ベクトル表現」は、任意の数値的な特徴表現を指し得るのであり、ベクトル表現に限定されるものと解されるべきではない。例えば本明細書において、bag-of-words表現やbag-of-N-grams表現も、「特徴ベクトル表現」である。
【0029】
本明細書において「アイテム」、「訓練アイテム」又は「メールアイテム」は、次のいずれか1つを指し得る:電子メールの件名、電子メールの本文、電子メールの本文のテキスト部分、電子的なテキストドキュメント。
【0030】
第1の態様によれば、本発明は電子メールルーティング用のCIMを提供する。第2の態様によれば、本発明は電子メールルーティング用のコンピュータシステムを提供する。コンピュータシステムは、第1の態様によるCIMを行うように構成されている。コンピュータシステムは特に、CIMの諸ステップを遂行するための少なくとも1つのプロセッサを備えることができる。第3の態様によれば、本発明は電子メールルーティング用のCPPを提供する。CPPは、第1の態様によるCIMを行うための命令を備える。CPPは特に、CPPが例えば第2の態様によるコンピュータシステム等のコンピュータシステムによって実行されると第1の態様によるCIMをコンピュータシステムに遂行させる命令を備え得る。本発明は、CPPを備える有形的且つ不揮発であるコンピュータ可読データ媒体をさらに提供し得る。故に、当業者ならば、本発明の諸態様は相互関連していることを悟られよう。よって、本明細書において開示されている全ての特徴は、たとえ特定の態様との関係で開示されていても、これらの態様の各々に関連し得る。
【0031】
図1を参照するに、CIMの一連のステップについての概略図が示されており、これらは開始(101)から終了(108)まで実行される。
図2についても参照するに、本発明による、例示的実施形態の電子メッセージとそれらの処理についての概略図が示されている。件名(252)及び本文(253)を備える着信電子メール(251)が、受信される(102)。本文の複数のテキスト部分(254,255,256)が決定される(103)。各テキスト部分(254,255,256)について主題カテゴリ(264,265,266)が自然言語処理(NLP、natural language processing)(104)に基づいて選択される。各テキスト部分について、対応する主題カテゴリと関連付けられている参照ドキュメント(264,265,266)がNLPに基づいて少なくとも1つのドキュメントデータベース(105)の各々から選択される。各テキスト部分について、対応する主題カテゴリ(106)に基づいて受信者(264,265,266)を取得する。各テキスト部分について電子メール(271)が対応する取得された受信者へと送信されるのであり、該メールは次のものを備える:本文又は対応するテキスト部分(272);各々の対応する選択された参照ドキュメント(273)又は各々の対応する選択された参照ドキュメントへのポインタ(107)。
【0032】
テキスト部分毎に1つの電子メールを送信し得る。代替的には、固有の取得された受信者毎に1つの電子メールを送信でき、電子メールは本文又は同一の対応する主題カテゴリを伴う全てのテキスト部分を備えるのであり、さらには同一の対応する主題カテゴリを伴う全てのテキスト部分について選択された全ての参照ドキュメントをも備える。そのように、取得された受信者への電子メールは、着信電子メールを添付物として含み得る。追加的に又は代替的には、そのように、取得された受信者への電子メールは、着信電子メールの当該本文又は当該着信電子メールの当該本文の当該対応するテキスト部分を含む本文を含み得る。
【0033】
本発明は、複数の質問を含む電子メールを複数のテキスト部分に分割し、各テキスト部分が質問を含み、特定のテキスト部分を関連するドキュメンテーション(又はそれへのポインタ)と共に対応する専門家へと転送することを可能とする故に有利である。該分割は、NLP、段落デリミタ、及び/又は特定の文字(例えば、疑問符等)に基づいたテキスト部分境界検出に基づいていることができる。また、主題カテゴリ及び参照ドキュメントの選択を分離することは有利である。なぜならば、選択毎に最適なNLPアルゴリズムの活用を可能とするからである。
【0034】
好適な実施形態では、各テキスト部分について少なくとも1つのドキュメントデータベースの各々から参照ドキュメントを選択する前に、2つのテキスト部分を集約できるかについての検証が行われる。2つのテキスト部分を集約できるかについての検証は、複数のステップを含む。2つのテキスト部分が共通の主題カテゴリを含むかが検証される。2つのテキスト部分が共通の主題カテゴリを含む場合、2つのテキスト部分について類似度値がNLPに基づいて算出される。好適には、類似度値はコサイン類似度値とされる。好適には、2つのテキスト部分の各テキスト部分についての特徴ベクトル表現(FVR、feature vector representation)を取得するのであり、2つのテキスト部分についてのFVRに基づいて類似度値が決定される。類似度値についての条件が検証されるのであり、類似度値についての条件が充足された場合、2つのテキスト部分は1つの集約済みテキスト部分に集約される。当業者ならば、次のことを理解できよう:少なくとも1つの集約済みテキスト部分が形成された場合、(集約前に)主題カテゴリが選択されたテキスト部分の個数が、(集約後に)受信者及び参照ドキュメントが選択されたテキスト部分の個数より多くなること。
【0035】
質問を対応する主題カテゴリと関連付けられている受信者へと転送する前に、異なるテキスト部分の関連するか高度に類似する質問を集約済みテキスト部分に併合することできる故に、長所が認められる。集約に関しての選別がなされなければ、質問が関連していたり(例えば、第2の質問が第1の質問を参照している場合)又は質問が高度に類似していたりしても、第1の質問が第1の受信者へと送信され、また、第2の質問が第2の受信者へと送信されるといった状況が起こり得る。この状況下では、第1及び第2の受信者が重複した仕事を行ってしまうおそれがあり、及び/又は対応する質問に回答するための文脈を欠如することが起こり得る。この好適実施形態での解決策では、これに関連する課題が緩和される。
【0036】
最も好適な実施形態では、方法は次のステップを含む:
-件名及び本文を備える電子メールを受信するステップと、
-本文の複数のテキスト部分を決定するステップと、
-各テキスト部分について、自然言語処理に基づいて次の事項を決定するステップと:
・主題カテゴリ、
・特徴ベクトル表現、
-2つのテキスト部分が共通の主題カテゴリを含むかを検証するステップと、
-2つのテキスト部分が共通の主題カテゴリを含む場合:
・2つのテキスト部分についてそれらの特徴ベクトル表現に基づいて類似度値、好適にはコサイン類似度値、を算出するステップと、
・類似度値についての条件を検証するステップと、
・類似度値についての条件が充足された場合、2つのテキスト部分を1つの集約済みテキスト部分に集約し、また、集約済みテキスト部分について特徴ベクトル表現を決定するステップ、
-各テキスト部分について、テキスト部分と関連付けられている特徴ベクトル表現に基づいて次の事項を選択するステップ:
・少なくとも1つのドキュメントデータベースの各々からの、対応する主題カテゴリと関連付けられている参照ドキュメント、
-各テキスト部分について、対応する主題カテゴリに基づいて受信者を取得するステップと、
-各テキスト部分について、選択された受信者へ、本文若しくはテキスト部分を備える電子メール並びに選択された各参照ドキュメント若しくは選択された各参照ドキュメントへのポインタを、送信するステップ。
【0037】
テキスト部分の集約は次の有利な技術的効果をもたらす:
・テキスト部分が少なくなる故に、各テキスト部分について主題カテゴリと関連付けられているドキュメントを選択するのに要する計算資源を低減させること、
・テキスト部分が少なくなる故に、発信電子メールの総件数を低減させること。
【0038】
特許文献5の[0151]段落と比較すると、本質的には同一であるも異なる態様でフレージングされているに過ぎない複数の質問について同一の回答を複数回検索していることに対して、本発明では質問を扱う前に質問の集約をもたらしている。
【0039】
図3を参照するに、本発明によるアルゴリズムについての実施形態の一連のステップについての概略図が示されており、これらは開始(101)から終了(108)まで実行される。
図1にも示される参照符合を伴うステップは同じとされる。ステップ(104)及び(105)の間で、即ち各テキスト部分についてなされるNLPに基づいた主題カテゴリの選択ステップと各テキスト部分についてなされるテキスト部分の主題カテゴリと関連付けられている参照ドキュメントの選択ステップとの間で、テキスト部分が対で集約できるかについての検証が行われる。集約に関しての適格性は、主題カテゴリ毎に選別され得る。それについて、主題カテゴリ毎にテキスト部分に関しての初期ソーティングを行い得る。主題カテゴリ毎に、未チェックのテキスト部分ペアが残存しているかが検証される(308)。初期においてN個のテキスト部分が特定の主題カテゴリを構成しており、且つ未だ検証が行われていない場合、テキスト部分についての未チェックペアはN(N-1)/2個である。未チェックペアが残存していない場合、受信者及び参照ドキュメントが選択される(105)。テキスト部分についての未チェックペアが残存している場合、残存ペアの各テキスト部分についてのFVRを取得又は生成する(309)。当業者ならば、テキスト部分についてのFVRは一度生成した後は複数の検証において再利用され得ることに気付くであろう。残存ペアのテキスト部分のFVRに基づいたコサイン類似度値が、算出される(310)。コサイン類似度値に基づいた条件が充足された場合(311)、当該残存ペアのテキスト部分は1つの集約済みテキスト部分に集約されるのであり(313)、また、当該残存ペアのテキスト部分は集約済みテキスト部分で置換される(314)。当業者ならば、集約済みテキスト部分は、当該残存ペアのテキスト部分の主題カテゴリを含むことに気付くであろう。当該集約済みテキスト部分を含む全ての潜在的ペアは未チェックである。条件不充足の場合(311)、残存ペアはチェック済みとして設定又はマーキングされる(312)。
【0040】
好適な実施形態では、複数のテキスト部分ペア並びにその複数の各テキスト部分ペアについての類似(SIMILAR)若しくは非類似(DISSIMILAR)となる二値分類をもってSiamese型ニューラルネットワークを訓練する。当業者ならば、類似及び非類似は二値分類における2つの値を意味することを理解できるのであり、実施形態によるが、例えばブール値、数、数値、文字、タグ等によって具現化され得る。そして、当該2つのテキスト部分についての類似度値は、訓練済みSiamese型ニューラルネットワーク及び当該2つのテキスト部分に基づいて決定される。
【0041】
好適な実施形態では、Siamese型ニューラルネットワークは訓練されて、ペアの各テキスト部分についてFVRを生成して、ペアを類似又は非類似と分類するのであり、これはペアのテキスト部分についての生成済みFVRに基づいている。そして、当該2つのテキスト部分についての類似度値は、当該2つのテキスト部分についての訓練済みSiamese型ニューラルネットワークによって生成されたFVRに基づいて決定される。
【0042】
好適な実施形態では、着信電子メールの1つ以上のメールアイテムは、各々前処理されて前処理済みメールアイテムとされる。メールアイテムとは、件名、本文又はテキスト部分とされ得る。件名を前処理して前処理済み件名とすることができる。本文を前処理して前処理済み本文とすることができる。各テキスト部分を前処理して前処理済みテキスト部分とすることができる。ここで、メールアイテムを前処理済みメールアイテムとする前処理は、正規表現又は同一性に基づいて前記メールアイテムのサブ部分を除去及び/又は置換することを含み得る。好適にはテキスト部分について、そしてより好適には各テキスト部分については、前処理済みテキスト部分に基づいて、少なくとも1つのドキュメントデータベースの各々から主題カテゴリ及び/又は参照ドキュメントが選択される。したがって、前処理によって、例えば署名、ウェブリンク、一文字単語、句読点系記号、数字、及び所定の単語等を除去するような、正規表現又は同一性に基づいてのサブ部分のメールアイテムからの除去機能を提供し得る。代替的に又は追加的には、前処理は、正規表現又は同一性に基づいてメールアイテム内のサブ部分に関して次のような置換機能を提供し得る:アクセント付き文字をアクセント無し文字で置換すること、大文字を小文字で置換すること、単語を語幹に還元すること、及び略語を統一すること。
【0043】
これは有利に作用する。なぜなら、テキストアイテムに、綴り間違い、或る略語についての様々な表記、様々な類義語、及び(文脈における)意味論的に関連性のない記載が鏤められているとテキストアイテムに対してのNLPが失敗し得るからである。NLP前にテキストアイテムに対して除去及び/又は修正を施しておくと、NLPの高速化のみならず、NLPの成否にも影響を与え得る。
【0044】
好適な実施形態では、複数の訓練アイテムを用いて分類アルゴリズムを訓練して、テキスト部分について主題カテゴリを決定する。各訓練アイテムは主題カテゴリと関連付けられている。各訓練アイテムについてFVRが決定される。好適には、少なくとも1つのドキュメントデータベースは、複数の訓練アイテムを備える。決定されたFVR及び各訓練アイテムの主題カテゴリに基づいて分類アルゴリズムが訓練されて、FVRに基づいた主題カテゴリについての確率ベクトルを提供する。この実施形態では、テキスト部分、好適には各テキスト部分についてはFVRを決定することができ、FVR及び訓練済み分類アルゴリズムに基づいて主題カテゴリを取得することができる。
【0045】
好適な実施形態では、アイテムのFVRは次の事項の少なくとも1つ、好適には少なくとも2つ、そしてより好適には全てに基づいている:第1、第2、及び第3のFVR。第1のFVRに関しては、アイテムの各単語について、例えばword2vec等を介した文脈ベクトル及び逆ドキュメント頻度(IDF、inverse document frequency)が取得される。第1のFVRは、アイテムの前単語の文脈ベクトルについての加重集約であり、重みはIDFに基づいている。第2のFVRは、単語及び近隣する単語ペアについての用語頻度に逆ドキュメント頻度を乗算したものに基づいている。第3のFVRは、各々が主題カテゴリにリンクされた所定の単語のリストに基づいている。第3のFVRは、各主題カテゴリについて、主題カテゴリと関連付けられている1つ以上の単語の個数又は単語についてのパーセンテージを含む。このように、アイテムのFVRは、第1、第2、及び第3のFVRについての任意の2つ又は全て3つをつなぎ合わせたものとして構成し得る。このように、アイテムのFVRは第1、第2、及び第3のFVRについての任意の2つ又は全て3つに基づいたFVR関数に基づいていることができる。好適な実施形態では、第1、第2及び第3のFVRの各々は、アイテムのFVRを決するに際して選択的に包含又は除外され得る。
【0046】
好適な実施形態では、少なくとも1つのドキュメントデータベースは少なくとも2つのドキュメントデータベースであり、少なくとも2つのドキュメントデータベースは参照電子メールデータベースを備える。好適には、各テキスト部分について、当該参照電子メールデータベースからの電子メールに基づいて主題カテゴリが選択される。電子メールは、受信者数及び時刻情報のメタデータを備え得る。好適にはアイテム又は訓練アイテムのFVRは、アイテム又は訓練アイテムを含む電子メールのメタデータに基づいている。好適な実施形態では、電子メールについてのメタデータは、アイテムのFVRを決するに際して選択的に包含又は除外され得る。
【0047】
好適な実施形態では、少なくとも1つのドキュメントデータベースのデータベース、好適にはその各データベースに関しては、参照ドキュメントの選択はN文字N-gramに基づいている。データベースの各参照ドキュメント及び参照ドキュメントのN文字N-gramの全て(N≧3、好適にはN=3)について、用語頻度に逆ドキュメント頻度を乗算したもの(TF-IDF)を決定し得る。データベースの参照ドキュメントに亘るTF-IDFについての総和をN-gram毎に含む合算済みベクトルを取得することができる。合算済みベクトル内の値の大きさに基づいて、N-gramの所定のパーセンテージ(好適には最大値)を選択することができる。パーセンテージについて述べるに、好適には少なくとも1且つ最大で36であり、より好適には少なくとも2且つ最大で20であり、さらにより好適には少なくとも4且つ最大で16であり、それよりもさらに好適には少なくとも8且つ最大で12であり、最大限に好適には本質的には10である。データベースの各参照ドキュメントについて類似度値、好適にはコサイン類似度値をテキスト部分について決定し得るのであり、テキスト部分はドキュメントのN-gram FVRに基づいており、テキスト部分は選択されたN-gramについてのTF-IDFを含む。そして、類似度値の大きさに基づいてデータベースから参照ドキュメントを選択し得る。
【0048】
好適な実施形態では、少なくとも1つのドキュメントデータベースのデータベース、好適には各データベースについては、参照ドキュメントの選択は、文脈ベクトルの加重集約を備えるFVRに基づいている。データベースの各参照ドキュメントについて、例えばword2Vec等を介して決定された文脈ベクトルの加重集約のような参照ドキュメント内の各単語についての文脈ベクトルの集約に基づいたFVRを決定することができる。好適には、重み付けは逆ドキュメント頻度(IDF)に基づいている。テキスト部分については、FVRを決定することができ、これはテキスト部分内の各単語についての文脈ベクトルの加重集約に基づいている。データベースの各参照ドキュメントについて類似度値、好適にはコサイン類似度値を決定することができ、テキスト部分はドキュメントのFVR及びテキスト部分に基づいている。類似度値の大きさに基づいてデータベースから参照ドキュメントを選択し得る。
【0049】
好適な実施形態では、再帰型ニューラルネットワークを含むシーケンス・ツー・シーケンスモジュールを、参照用の電子メール、メール本文或いはメール本文のテキスト部分及び対応する返答で訓練して、着信した電子メール、メール本文、又はテキスト部分を返答に変換する。そして、シーケンス・ツー・シーケンスモジュールを介して、着信した電子メールへの返答案を生成できる。そして、取得された受信者への電子メールは返答案を含むことができる。好適には、シーケンス・ツー・シーケンスモジュールはエンコーダ-デコーダ・ロング・ショート・ターム・メモリ・ネットワークとされる。
【0050】
本発明については、更なる例示をもたらす以下の非限定的な例によってさらに説明するのであり、本発明の範疇を限定することは意図されておらず、またそのように解釈されるべきでもない。
【実施例】
【0051】
金融や保険商品に関しては、代理店がこれらの商品について質問を送り込むことができる専用の専門家メールボックスが設けられており、例えば保険証券が想定される。これらの質問に回答する専門家は、着信電子メールに対して個別的な応答を提供するために相当の時間を投じる。代理店が関連性を有する電子メールアドレスを検索するのに加えて、個別的な応答を着信電子メール毎に個別的に生成することは相当な時間的投資を要する。金融や保険の専門家は、着信した質問を検討して、内部規則、規制、諸条件等を照会して、着信電子メール毎に手作りの応答を仕立てる。
【0052】
当該例では自然言語処理並びに統計分析的及び機械学習手法に基づいた自動化ソリューションを提供するのであり、これによって代理店及び専門家の処理を支援するのであり、このためには、次のことをもたらし得るアルゴリズムを提供する:電子メールを正しい専門家メールボックスへと再ルーティングし、応答案を生成し、また、着信電子メールに回答するに際して関連性を有するドキュメンテーションを検索すること。
【0053】
図4を参照する。着信電子メール(420)は複数主題検出アルゴリズム(421)によって処理されるのであり、該アルゴリズムは、電子メールが含む異なる質問の個数を検出し、これらの異なる質問へと電子メールを分割するように構成されている。各質問はスマートルーティングアルゴリズム(422)によって処理されるのであり、該アルゴリズムは質問がどの製品又は役務(主題カテゴリ)に関連するのかを決定するのであり、これは質問を対応する専門家たる受信者(423)へとルーティングするためになされる。情報検索アルゴリズム(424)は、(関連性を有する応答を含む)関連性を有する過去電子メールデータ(425)及びデジタルドキュメントをナレッジベース(426)から検索するように構成されており、これには金融・保険の商品・役務についての規則・規制・諸条件が含まれる。情報検索アルゴリズム(424)は返答案を構築するようにさらに構成されている。特に、着信する質問に対しての応答案を過去回答(425)及びデジタルドキュメント(426)に基づいて生成するために、自然言語処理及び機械学習を用いる。返答案は、専門家によって編集されることができ、その後部分的な返答(427)、即ち特定の質問に対する返答、が形成されることになる。部分的な返答は別個の電子メール又は集約した電子メールで、着信電子メールの元の送信者へと送出されることができる。
【0054】
I. 複数主題検出アルゴリズム
着信電子メールは異なるポリシー(主題カテゴリ)に関する諸々の質問を含み得る。さらに、着信電子メールは、同じポリシーに属する複数の質問を含み得る。複数主題検出アルゴリズムは、異なるポリシーを検出し、同じポリシーに属する異なる質問を検出するように構成されている。
【0055】
図5を参照する。着信電子メール(530)は異なるポリシー(主題カテゴリ)に関する複数の質問を含み得る。着信電子メールは異なる段落毎に分割されるのであり、これは代理店が別の種類のポリシーに言及する毎に新規な段落を建てるとの仮定に依拠している。(後述の)スマートルーティングアルゴリズムは、各段落に関して主題カテゴリを選択するために用いることができる。
図5の例では、着信電子メール(530)に関して2つのポリシー(531,534)が検出される。
【0056】
異なる質問の検出は、センテンス及びセンテンスデリミタ、例えば疑問符等、に基づいて行われ得る。質問は関連しているか同一であることができ、或いは、本質的に異なる性質を有することができ、また、後者の場合においては別個の扱いを要し得る。質問が関連しているか同一であると識別された場合、それらの質問は集約される(532)。質問が本質的に異なると識別された場合、それらの質問は別個に扱われる(533)。1つの質問のみを有する主題に関しては(535)、この検査はなされることを要さない。
【0057】
第1の実施形態(教師なし型の手法)は、(例えば、word2vecやtf-idf等の)質問(或いは質問を構成する段落/文脈/「テキスト部分」)に関しての数値的表現間の類似度に基づいている。
【0058】
第2の好適な実施形態は、Siamese型ニューラルネットワークに基づいている。
図6を参照する。電子メールに関しての訓練セット内の質問は類似又は非類似とラベル付けされて、モデルは質問をFVRで表現することを学習して、類似の質問が高い類似度をもたらし、また、異なる質問が低い類似度をもたらすようにする。そして、訓練済みSiamese型ニューラルネットワーク(692,693)は各2つの入力質問(或いはそれらを構成する段落/文脈/「テキスト部分」)(690,691)に関してFVR(694,695)を生成し、これに基づいてコサイン類似度値(696)が決定できて、これによって質問を類似又は非類似と分類することができる。
【0059】
II. スマートルーティングアルゴリズム
a. 序論
スマートルーティングアルゴリズムの目的は、電子メール又はその部分の主題又はテーマに基づいて、電子メール又は電子メールの部分を正しいメールボックスへとルーティングすることである。これによって、様々な可能性の中から正しいメールボックスを選択することに代えて、代理店は総合的なメールボックスへと電子メールを送信することで足りるようになる。スマートルーティングアルゴリズムは複数のモジュールを備え、各々は電子メール又は電子メールの部分を特定のFVRに変換することができる。異なるモジュールは異なるNLP手法を活用する。モジュールはスタンドアロンで又は組み合わせて用いることができる。
【0060】
1つ以上のモジュールによって生成されたFVRは、教師付き学習手法を用いて訓練された分類アルゴリズムに入力される。アルゴリズムは電子メールが特定の主題及び/又は受信者に対応する確率を算出する。
【0061】
b. 前処理
電子メールがスマートルーティングアルゴリズムに渡される前に、前処理が行われる。テキストデータは次のステップに従って前処理される:
・電子メールの署名の全ては、ありふれた電子メールの結び(例えば、「敬具」等)を検索する正規表現に基づいて除去される。
・正規表現に基づいて全てのURL及びウェブリンクは除去される。
・テキスト内のアクセント付き文字は同等のアクセント無しのASCII文字で置換される(例えば、「client」は「client」に変換される)。
・句読点系記号及び数字が除去される。
・テキストは小文字に変換される。
・ありふれたストップワード(例えば、定冠詞等のあまり意味を有さないが多発する単語)、コーパス特有のストップワード(例えば、現在技術が展開されている企業の文脈において多発するが文脈内においてはさして意味をもたらさない企業名称等の単語)、及び多発するが文脈に無関係な単語(例えば、「こんにちは」等)は、除去される。
・単語は語幹(基本形又は原形)に変換される(例えば、「working」は「work」に変換される)
・一文字単語は除去される。
・用語及びありふれた略語は統一される(例えば、「housepol」は「house policy」(内部指針)に変換される)。
【0062】
c. 特徴ベクトル表現(FVR)
当該例のスマートルーティングアルゴリズムは4つのFVRモジュールを備えるのであり、これらは電子メール(又はその部分)を数値的表現間に変換することを可能とする。それぞれのモジュールは異なるNLP手法を用いるのであり、故に各モジュールは電子メール(又はその部分)を異なる態様で表現することができる。電子メール(又はその部分)は、1つ又は複数のモジュールを用いて表現することができる。新たなモジュールを容易に追加できるように、スマートルーティングアルゴリズムは開発されている。
【0063】
i. Word2vecモジュール
word2vecモジュールは過去メール全てを用いて訓練されるのであり、特に言えば電子メール本文のテキストを電子メールの件名のテキストと連結したものを用いる。語彙内の各単語は高次元ベクトルとして表現することができる。逆ドキュメント頻度(IDF、Inverse Document Frequency)スコアは、語彙内の各単語に関して算出される。1つの電子メールの全ての単語埋め込みベクトル(word embedding vector)は1つの最終ベクトルに集約されるのであり、単語のベクトルは重みとしてIDFを伴う。
【0064】
ii. Bag-of-words(単語詰め合わせ袋)モジュール
Bag-of-wordsモジュールは、用語頻度(TF、term frequency)にIDFを乗算したものに基づいて単語に重み付けを行う。また、モジュールはテキストからの空間的情報を格納するためにバイグラムも組み込む。特に、モジュールは電子メール毎に2つのベクトルを生成する:1つは電子メール本文についての表現であり、もう1つは電子メールの件名についての表現である。
【0065】
iii. 電子メールメタデータモジュール
電子メールメタデータモジュールは、以下の特徴(好適には以下の特徴を含む)に基づいて、全ての電子メールについてFVRを生成する:
・電子メールはアドレスを含むか?(例えば、はい/いいえ)
・電子メールは添付物を含むか?(例えば、はい/いいえ)
・「TO」種別の受信者数(例えば、整数)
・電子メールは「CC」種別の受信者を有するか?(例えば、はい/いいえ)
・「CC」種別の受信者数(例えば、整数)
・電子メールが何時台に送信されたか(例えば、整数)
・電子メールが送信された日付(例えば、カテゴリカル)
・電子メールは営業日/平日に送信されたのか?(例えば、はい/いいえ)
・電子メールは営業時間中に送信されたのか?(例えば、はい/いいえ)
・電子メールの重要度はどうなっているか?(例えば、低/中/高)
・電子メール本文内のワード数(例えば、整数)
・電子メール件名内のワード数(例えば、整数)
・電子メール本文内の文字数(例えば、整数)
・電子メール件名内の文字数(例えば、整数)
・本文中の改行数を本文中の文字数で除したもの(例えば、実数)
・転送回数(例えば、整数)
【0066】
iv. 専門家ナレッジモジュール
専門家ナレッジモジュールは、特定分野における専門家ナレッジ及び背景知識をモデル内へと取り込もうとする。先述のFVRモジュールが着信電子メールのより微妙な意味を捕捉しきれない場合に、モデルを導くために該モジュールを用いることができる。
【0067】
専門家ナレッジモジュールは、高リフトを生成する特定の単語について1つ以上の主題カテゴリのラベル付けを行うように領域専門家に要請するフレームワークを備える。高リフト単語とは、全電子メールと比較すると1つ以上の電子メール主題内において多発する単語であり、これら特定の主題への傾向を生成するものである。
【0068】
モジュールによって単語リストを自動生成でき、専門家が一部の単語を高リフト単語とラベル付けすることができる。また、専門家は、モジュールによって生成されなかった単語をリストに追加することもできる。ラベル付けされた単語については、正規表現を用いて手動的に拡張することもでき、誤記や類義語を含む単語に関してのあらゆる表記をモジュールに内包することができる。モジュールは、所定の主題カテゴリの各々について次の4つの数値的な特徴値(numerical feature value)を備えるFVRを生成する:
・主題カテゴリにリンクされた電子メール本文の単語の個数。
・主題カテゴリにリンクされた電子メール件名の単語の個数。
・主題カテゴリにリンクされた電子メール本文の単語のパーセンテージ。
・主題カテゴリにリンクされた電子メール件名の単語のパーセンテージ。
【0069】
III. 情報検索
a. 序論
情報検索アルゴリズムは、過去電子メールデータ及びナレッジベースデータを活用する。
【0070】
過去電子メールデータは、特定の主題に関して所定の部署が顧客に送った既存の回答を含む。該データは着信する質問に対しての潜在的な回答の源として機能するのであり、着信する質問との関連性に関してアルゴリズムが該データを検索することになる。新たに着信した質問の各々について、最も類似した回答が過去電子メールデータから識別されるのであり、このことは類似の回答が着信する質問に答えるために有用/関連性を有するものとなり易いとの仮定に依拠している。
【0071】
ナレッジベースのデータは、金融や保険関連の商品・役務に関する内部規則、規制、諸条件等からなる。該データは着信する質問に答えるに際しての有用な参照ドキュメントの源として機能するのであり、着信する質問との関連性に関してアルゴリズムが該データを検索することになる。新たに着信した質問の各々について、最も類似したテキストがナレッジベースのデータから識別されるのであり、このことは類似のテキストが着信する質問に答えるために有用/関連性を有するものとなり易いとの仮定に依拠している。
【0072】
図7を参照する。分析に先立って、着信電子メール(740)、過去電子メールデータ(742)、及びナレッジベースデータ(743)は先ず前処理される(741)。この際、当該事例のセクション(II.b)で説明されるように前処理を行い得る(上記参照)。そして、サニタイズされたデータをNLP及び統計的手法で分析して(744)、着信電子メールの各々について関連性を有する応答(745)及び内部ドキュメンテーション(746)を識別する。そして、専門家はサジェスチョンを活用して、着信電子メールに対して回答を提供する(747)。
【0073】
NLPに基づいている情報検索アルゴリズムは、統計的手法及び/又は深層学習手法に基づいていることができる。情報検索アルゴリズムは、アイテム(即ち、着信電子メール、電子メール本文、又は電子メール本文のテキスト部分)について、各ドキュメントデータベース(検索すべきドキュメント、過去電子メール、ナレッジベースのドキュメント)から参照ドキュメントを検索するように構成されている。
【0074】
b. 統計的アプローチ
上述のように、前処理を先ず行う。
【0075】
各ドキュメントデータベースについて、用語頻度-逆ドキュメント頻度(tf-idf、term frequency - inverse document frequency)マトリクスを構築する。可能な3文字トライグラムを全て抽出する。次のようにしてトライグラムについてサブ選択を行う。各トライグラムについて全てのtf-idf値を合算する。合算tf-idf値が結果として得られた分布の上位10%に入るトライグラムのみが、保持される。保持されたトライグラムのtf-idf値が参照ドキュメント又はアイテムのFVRを形成する。
【0076】
アイテムと各参照ドキュメントとの間のペア毎のコサイン類似度全てを算出するために、FVRを用いる。アイテムとの関係で最も高いコサイン類似度を有する1つ以上の参照ドキュメントが、返答の起案に際して専門家に支援目的で推薦される。
【0077】
当該処理は過去電子メールデータに加えてナレッジベースデータについても行われて、各着信電子メールについて両種類のドキュメントに関して関連性を有する提案を提供するためにこれがなされる。当業者ならば各データベースについて異なるトライグラムのセットを保持できるということを理解できるのであり、即ち、過去電子メールデータとナレッジベースデータとについて異なるトライグラムを保持できる。
【0078】
図8を参照する。過去電子メールデータは前処理される(878)。ナレッジベースデータのドキュメントは前処理される(880)。上記で開示したように、各ドキュメントタイプに関して、保持されるトライグラムのセットを決定する(879,881)。着信アイテム(877)については、過去電子メールデータ及びナレッジベースデータの各々についてFVR(884,885)を構築する。着信アイテムについての対応するFVR(884)及び各過去電子メールについてのFVR(882)についてのコサイン類似度値を計算して(886)、最も類似する過去電子メールを選択すること(887)によって、着信アイテムに関して過去電子メールを検索する。着信アイテムについての対応するFVR(885)及びナレッジベースの各ドキュメントについてのFVR(883)についてのコサイン類似度値を計算して(888)、最も類似するドキュメントを選択すること(889)によって、着信アイテムに関してナレッジベースからのドキュメントを検索する。
【0079】
c. 深層学習アプローチ
深層学習アプローチではデータのサニタイズがより少なくてよい。具体的には、全ての汎用的部分(例えば、電子メール署名、URL、句読点系記号、数字、大文字/小文字のサニタイズ関連)は保持できるし、語幹に関する処理や用語の統一や略語の統一はやらなくて良いがやっても良い。なぜならば、モデルがこれらの単語が類似していることを学習してしまうからである。
【0080】
第1の実施形態はコサイン類似度マッチングに基づいており、テキストは、例えばword2vec等の深層学習アルゴリズムに基づいてFVRに転換される。同じ文脈で(即ち、同様の言葉で囲まれて)出現する単語は相互に類似するものとしてモデリングされる。このモデルによれば、純粋な単語レベルでは単語間の類似性がない、例えば「車(car)」と「乗り物(vehicle)」とが高度に類似していることを学習することができる。出力としては、各単語は独自のword2vec表現を有することになる。ドキュメントの個々のword2vecの集約、例えば加重平均や最大値、によって、コサイン類似度値に基づいて類似度を評価できる。
【0081】
第2の代替的実施形態は、例えばLSTMエンコーダ/デコーダ等のシーケンス・ツー・シーケンスモデルに基づいている。シーケンス・ツー・シーケンスモデルは2つの再帰型を備えるのであり、これらは協働して入力(質問を備えた着信アイテム)を出力(回答)に変換する。そして、シーケンス・ツー・シーケンスモデルによって、過去電子メールデータに基づいて、新たに構築された回答は、検討及び/又は編集のために専門家に提示されることができる。
【国際調査報告】