特許第6182272号(P6182272)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 余 自立の特許一覧

特許6182272自然表現の処理方法、処理及び応答方法、装置、及びシステム
<>
  • 特許6182272-自然表現の処理方法、処理及び応答方法、装置、及びシステム 図000042
  • 特許6182272-自然表現の処理方法、処理及び応答方法、装置、及びシステム 図000043
  • 特許6182272-自然表現の処理方法、処理及び応答方法、装置、及びシステム 図000044
  • 特許6182272-自然表現の処理方法、処理及び応答方法、装置、及びシステム 図000045
  • 特許6182272-自然表現の処理方法、処理及び応答方法、装置、及びシステム 図000046
  • 特許6182272-自然表現の処理方法、処理及び応答方法、装置、及びシステム 図000047
  • 特許6182272-自然表現の処理方法、処理及び応答方法、装置、及びシステム 図000048
  • 特許6182272-自然表現の処理方法、処理及び応答方法、装置、及びシステム 図000049
  • 特許6182272-自然表現の処理方法、処理及び応答方法、装置、及びシステム 図000050
  • 特許6182272-自然表現の処理方法、処理及び応答方法、装置、及びシステム 図000051
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6182272
(24)【登録日】2017年7月28日
(45)【発行日】2017年8月16日
(54)【発明の名称】自然表現の処理方法、処理及び応答方法、装置、及びシステム
(51)【国際特許分類】
   G06F 17/27 20060101AFI20170807BHJP
   G06F 17/28 20060101ALI20170807BHJP
   G06F 17/30 20060101ALI20170807BHJP
【FI】
   G06F17/27 665
   G06F17/28 681
   G06F17/30 180A
   G06F17/30 220Z
【請求項の数】11
【全頁数】34
(21)【出願番号】特願2016-546460(P2016-546460)
(86)(22)【出願日】2014年6月16日
(65)【公表番号】特表2017-503282(P2017-503282A)
(43)【公表日】2017年1月26日
(86)【国際出願番号】CN2014079945
(87)【国際公開番号】WO2015062284
(87)【国際公開日】20150507
【審査請求日】2016年7月12日
(31)【優先権主張番号】201310516340.5
(32)【優先日】2013年10月28日
(33)【優先権主張国】CN
【早期審査対象出願】
(73)【特許権者】
【識別番号】516127167
【氏名又は名称】余 自立
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】余 自立
【審査官】 成瀬 博之
(56)【参考文献】
【文献】 特開2005−241971(JP,A)
【文献】 特開2002−108859(JP,A)
【文献】 特開2007−226642(JP,A)
【文献】 特開2006−024114(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/27−17/30
(57)【特許請求の範囲】
【請求項1】
自然表現の処理方法であって、
対話ゲートウェイ(11)が、ユーザ(8)からの自然表現を受信するステップと、
ロボット(14)が、中央制御器(12)の指示に基づいて、前記自然表現を認識し、コンピュータで処理可能な特定の形式の言語情報を取得するステップと、
前記ロボット(14)又はMAUワークステーション(13)が、前記中央制御器(12)の指示に基づいて、表現データベースを用いて、前記言語情報を、ユーザの要求を表す要求コードに変換するステップと、
前記中央制御器(12)が、前記変換された要求コードを出力するステップと、を含み、
前記表現データベースは、既存の言語情報のデータ、及び該既存の言語情報のデータに対応する要求コードを記憶しており
前記言語情報を前記要求コードに変換するステップは、
前記中央制御器(12)が、所定の期間内の前記ロボット(14)の前記言語情報に対する理解の正確率を評価することで、前記ロボット(14)の前記言語情報に対する理解が成熟しているか否かを判断するステップと、
前記ロボット(14)の前記言語情報に対する理解が成熟していると判断された場合、前記ロボット(14)が、機械変換で前記言語情報を前記要求コードに変換するステップと、
前記ロボットの前記言語情報に対する理解が成熟していないと判断された場合、前記MAUワークステーション(13)が、マニュアル変換で前記言語情報を前記要求コードに変換するステップと、を含む、自然表現の処理方法。
【請求項2】
前記要求コードは、デジタルコードで示されている、請求項1に記載の自然表現の処理方法。
【請求項3】
前記ロボット(14)が、前記言語情報の一部を、ユーザの特定の要求をさらに表す要求パラメータに変換する、請求項1に記載の自然表現の処理方法。
【請求項4】
前記言語情報は、モデリングツールを用いて音声形式の前記自然表現をスポッティングし、変換して得られた言語情報ユニットにより構成されている、請求項1乃至3のいずれかに記載の自然表現の処理方法。
【請求項5】
前記言語情報は、音素、文字及び句のうち1つにより構成されている、請求項1乃至3のいずれかに記載の自然表現の処理方法。
【請求項6】
自然表現の処理及び応答方法であって、
対話ゲートウェイ(11)が、ユーザ(8)からの自然表現を受信するステップと、
ロボット(14)が、中央制御器(12)の指示に基づいて、前記自然表現を認識し、コンピュータで処理可能な特定の形式の言語情報及び関連する表現タイプ情報を取得するステップと、
前記ロボット(14)又はMAUワークステーション(13)が、前記中央制御器(12)の指示に基づいて、表現データベースを用いて、前記言語情報及び前記表現タイプ情報を、ユーザの要求を表す要求コードに変換するステップと、
前記中央制御器(12)が、前記変換された要求コードと一致する標準応答を呼び出し、或いは生成するステップと、
前記対話ゲートウェイ(11)が、前記表現タイプ情報に対応する方式で、前記生成された標準応答を出力するステップと、を含み、
前記表現データベースは、既存の言語情報のデータ、既存の表現タイプ情報のデータ、並びに該既存の言語情報のデータ及び該既存の表現タイプ情報のデータに対応する要求コードを記憶しており
前記言語情報及び前記表現タイプ情報を前記要求コードに変換するステップは、
前記中央制御器(12)が、所定の期間内の前記ロボット(14)の前記言語情報に対する理解の正確率を評価することで、前記ロボット(14)の前記言語情報に対する理解が成熟しているか否かを判断するステップと、
前記ロボット(14)の前記言語情報に対する理解が成熟していると判断された場合、前記ロボット(14)が、機械変換で前記言語情報及び前記表現タイプ情報を前記要求コードに変換するステップと、
前記ロボットの前記言語情報に対する理解が成熟していないと判断された場合、前記MAUワークステーション(13)が、マニュアル変換で前記言語情報及び前記表現タイプ情報を前記要求コードに変換するステップと、を含む、自然表現の処理及び応答方法。
【請求項7】
前記標準応答はデータベースに予め記憶された固定データであり、或いは
変数パラメータ及びデータベースに予め記憶された標準応答の基礎データに基づいて前記標準応答を生成する、請求項に記載の自然表現の処理及び応答方法。
【請求項8】
対話ゲートウェイ(11)、中央制御器(12)、MAUワークステーション(13)、ロボット(14)、表現データベース、応答データベース(113)及び応答生成器(114)を含む自然表現の処理及び応答装置(1)であって、
対話ゲートウェイ(11)は、ユーザ(8)からの自然表現を受信し、中央制御器(12)に送信して後続の処理を行い、前記自然表現への応答をユーザ(8)に送信し、
中央制御器(12)は、対話ゲートウェイ(11)からの自然表現を受信し、ロボット(14)又はMAUワークステーション(13)、前記表現データベースを用いて、該自然表現を、ユーザの要求を表す要求コードに変換し、応答生成器(14)が前記要求コードに基づいて該要求コードに対応する標準応答を生成るように指示し、
ロボット(14)は、前記中央制御器(12)の指示に基づいて、前記自然表現を認識し、コンピュータで処理可能な特定の形式の言語情報を取得し、前記表現データベースを用いて該言語情報を前記要求コードに変換し、
MAUワークステーション(13)は、前記中央制御器(12)の指示に基づいて、認識された自然表現又は前記ユーザ(8)からの自然表現を外部のMAUマニュアルエージェント(9)に提示し、MAUマニュアルエージェント(9)はMAUワークステーション(13)を介して要求コードを入力し、或いは選択して、MAUワークステーション(13)は該要求コードを中央制御器(12)に送信し、
前記表現データベースは、既存の言語情報のデータ、及び該既存の言語情報のデータに対応する要求コードを記憶し、
応答データベース(113)は、呼び出される標準応答データ及び/又は応答を生成するためのデータを含む応答関連データを記憶し、
応答生成器(114)は、中央制御器(12)のコマンドを受信し、応答データベース(113)におけるデータを呼び出し、且つ/或いは実行することで前記ユーザ(8)の自然表現への応答を生成し、
前記中央制御器(12)は、
所定の期間内の前記ロボット(14)の前記言語情報に対する理解の正確率を評価することで、前記ロボット(14)の前記言語情報に対する理解が成熟しているか否かを判断し、
前記ロボット(14)の前記言語情報に対する理解が成熟していると判断された場合、前記ロボット(14)に、機械変換で前記言語情報を前記要求コードに変換させ、
前記ロボットの前記言語情報に対する理解が成熟していないと判断された場合、前記MAUワークステーション(13)に、マニュアル変換で前記言語情報を前記要求コードに変換させる、自然表現の処理及び応答装置(1)。
【請求項9】
中央制御器(12)は、前記表現データベース及び/又は前記応答データベース(113)を更新する、請求項に記載の自然表現の処理及び応答装置(1)。
【請求項10】
前記対話ゲートウェイ(11)は、前記自然表現を受信する前に前記ユーザ(8)の身分を認識し、検証する身分認証器(112)をさらに含み、
前記ユーザの身分の検証方法は、少なくともパスフレーズ及び声紋認識を含む、請求項8又は9に記載の自然表現の処理及び応答装置(1)。
【請求項11】
知能応答装置(1)及び発呼装置(2)を含む自然表現の処理及び応答システムであって、ユーザ(8)は発呼装置(2)を介して知能応答装置(1)と通信し、MAUマニュアルエージェント(9)は知能応答装置(1)を操作し、
前記知能応答装置(1)は、対話ゲートウェイ(11)、中央制御器(12)、MAUワークステーション(13)、ロボット(14)、表現データベース、応答データベース(113)及び応答生成器(114)を含み、
対話ゲートウェイ(11)は、発呼装置(2)からユーザ(8)からの自然表現を受信し、該自然表現を中央制御器(12)に送信し、
中央制御器(12)は、ロボット(14)が前記自然表現からコンピュータで処理可能な特定の形式の言語情報及び関連する表現タイプ情報を認識するように指示して、ロボット(14)又はMAUワークステーション(13)が前記表現データベースを用いて該言語情報及び該表現タイプ情報を、ユーザの要求を表す要求コードに変換するように指示し、
ロボット(14)は、前記中央制御器(12)の指示に基づいて、前記自然表現を認識し、コンピュータで処理可能な特定の形式の言語情報及び表現タイプ情報を取得し、前記表現データベースを用いて該言語情報及び該表現タイプ情報を前記要求コードに変換し、
MAUワークステーション(13)は、前記中央制御器(12)の指示に基づいて、認識された自然表現及び該表現タイプ情報又は前記ユーザ(8)からの自然表現を外部のMAUマニュアルエージェント(9)に提示し、MAUマニュアルエージェント(9)はMAUワークステーション(13)を介して要求コードを入力し、或いは選択して、MAUワークステーション(13)は該要求コードを中央制御器(12)に送信し、
央制御器(12)は、前記要求コードに基づいて、応答生成器(114)が応答データベース(113)におけるデータを呼び出し、且つ/或いは実行することでユーザ(8)の前記自然表現への応答を生成するように指示し、
対話ゲートウェイ(11)は、前記応答を発呼装置(2)を介してユーザ(8)にフィードバックし、
前記表現データベースは、既存の言語情報のデータ、既存の表現タイプ情報のデータ、並びに該既存の言語情報のデータ及び該既存の表現タイプ情報のデータに対応する要求コードを記憶しており
前記中央制御器(12)は、
所定の期間内の前記ロボット(14)の前記言語情報に対する理解の正確率を評価することで、前記ロボット(14)の前記言語情報に対する理解が成熟しているか否かを判断し、
前記ロボット(14)の前記言語情報に対する理解が成熟していると判断された場合、前記ロボット(14)に、機械変換で前記言語情報及び前記表現タイプ情報を前記要求コードに変換させ、
前記ロボットの前記言語情報に対する理解が成熟していないと判断された場合、前記MAUワークステーション(13)に、マニュアル変換で前記言語情報及び前記表現タイプ情報を前記要求コードに変換させる、自然表現の処理及び応答システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理方法に関し、具体的に、人間の自然表現の処理方法、該自然表現の処理及び応答方法、並びに該処理及び応答方法を適用する情報処理装置及び情報処理システムに関する。
【背景技術】
【0002】
機械翻訳(MT:Machine Translation。一般に「機訳」と称する)は計算言語学(Computational Linguistics)の範囲に属し、コンピュータプログラムを用いて文字又は音声の表現を1つの自然言語からもう1つの自然言語に翻訳する。ある意味では、異なる自然言語間の語彙の置き換えを実現した。さらには、コーパス技術を使用することで、より複雑な自動翻訳を実現でき、異なる文法構造、語彙認識、慣用語の対応付けをよりよく処理できる。
【0003】
従来の機械翻訳ツールは、通常、特定分野又は専門(例えば天気予報)についてカスタマイズ化することができ、その目的は、語彙の翻訳を該特定分野の専門用語に絞り込み、翻訳の結果を改善することである。この技術は、正規又は標準化の陳述方式の分野にとって特に有効である。例えば、政府機関又は法律の関連文書は、通常の文字表現に比べてより正式、標準化のものであり、その機械翻訳の結果は日常生活の対話のような非正式の文書よりもよい。
【0004】
しかし、機械翻訳の結果の品質は、常に翻訳前の言語と翻訳後の言語との間の語彙、文法構造、語族及び文化の差異によって決定されるものであり、例えば英語とオランダ語は共にインド・ヨーロッパ語族のゲルマン語群であり、この2つの言語間の機械翻訳の結果は、通常、中国語と英語との間の機械翻訳の結果よりも遥かによい。
【0005】
従って、機械翻訳の結果を改善するために、人為的な介入は依然として非常に重要であり、例えば、機械翻訳のシステムでは、人為的に語彙を定義し、或いは語彙を選択することができれば、機械翻訳の正確性及び品質を大幅に改善できる。
【0006】
従来の翻訳ツール、例えばAlta Vista Babelfishは、理解できる翻訳結果を取得できる場合はあるが、より意味のある翻訳結果を取得するために、コンピュータプログラムに解析させるように、文章を入力する際に常に適切に編集する必要がある。
【0007】
一般的には、一般の人の機械翻訳の利用目的は、正確な翻訳を取得することではなく、単なる原文の句又は段落の要旨を知ることだけである。全体的に言うと、機械翻訳は専門(人工)翻訳に代わる程度に達しておらず、正式な翻訳に成り得ていない。
【0008】
自然言語処理(NLP:Natural Language Processing)は人工知能及び言語学分野の下位専門学である。この分野では自然言語の処理及び運用が検討されている。自然言語認識は、コンピュータに人類の言語の裏の意味を「理解」させることを指す。
【0009】
自然言語の生成システムは、コンピュータデータを自然言語に変換する。自然言語の理解システムは、自然言語を、コンピュータで処理しやすい形式に変換する。
【0010】
理論的には、NPLは、非常に魅力的なヒューマンコンピュータインタラクション方式である。初期の言語処理システム、例えばSHRDLUは、有限の「積み木の世界」に位置し、有限の語彙表を用いて会話を行う場合に、非常にうまく機能している。これによって、研究者たちはこのシステムに対して非常に楽観的である。しかし、このシステムが実世界の曖昧さ及び不確実性の満ちている環境に拡張された場合に、彼らはすぐに自信を失ってしまった。自然言語を理解(Understanding)する際に、外部世界の広い範囲の知識及びこれらの知識の運用能力が必要であるため、自然言語の認識が人工知能完備(AI−Complete)の問題とも見なされている。
【0011】
統計に基づく自然言語の処理は、確率及び統計の方法を用いて文法規則に基づく自然言語処理の問題を解決する。特に、曖昧さの多い長い文書について、実際の文法をそのまま利用して解析する場合に、複数の可能性が生じる場合がある。このような曖昧さの多い文書を処理するために用いられる曖昧さの回避方法は、常にコーパス及びマルコフモデル(Markov models)を用いる。自然言語処理の統計技術は、主に人工知能技術における学習行動に関連するサブ分野、即ち機械学習(Machine Learning)及びデータマイニング(Data Mining)から進化したものである。
【0012】
しかし、統計に基づく自然言語の処理方法は、コンピュータに学習、使用させるように、膨大なデータ量の言語コーパス対を含むコーパスを構築する必要があるが、データ量の多いコーパスから対応する機械翻訳(理解)結果を検索してフィードバックするには、非常に多い計算リソースにより支持される必要がある。また、この方法を用いても、実際の自然言語の多様性及び不確実性を対応するのは非常に困難である。
【0013】
自然言語の処理技術は実際には幅広く適用されている。例えば、対話型音声応答システム及びインターネットコールセンタ等に適用されている。
【0014】
対話型音声応答(IVR:Interactive Voice Response)は電話に基づく音声付加価値サービスの総称である。多くの機関(例えば銀行、クレジットカードセンタ、通信事業者など)は対話型音声応答システム(IVRS:Interactive Voice Response System)を介してクライアントに各種のセルフサービスを提供し、クライアントは所定の電話番号を呼び出し、システムにアクセスし、システムの指示に従って、適切な選択肢又は個人情報を入力し、予め記録された情報を聞き、或いはコンピュータシステムにより予め設定されたプログラム(Call Flow)組み合わせデータを介して、音声の方式で特定の資料(例えば口座残高、支払金額など)を読み出してもよいし、システムを介して取引指示を入力し、所定の取引(例えば振込、パスワード変更、連絡先電話番号の変更など)を行ってもよい。
【0015】
IVRシステムは過去10数年間で広く適用されているが、技術上では、IVRシステムは、多層のオプション・メニュー・ツリーを簡素化できない、という最初から現在まで依然として全ての機関の悩む欠点がある。ユーザはIVRシステムを用いてセルフサービスを選択する際に、多くのユーザは時間をかかって多層オプションのメニュー・ツリーを走査することなく、「0」ボタンを直接に押してマニュアル・カスタマ・サービスを選択するため、機関のIVRシステムへの「クライアントのセルフサービスの使用率を効率的に向上し、マニュアル操作に代わる」という要望と現実との間に大きなギャップがある。
【0016】
インターネットコールセンタシステム(ICCS:Internet Call Center System)は、近年流行っている新型のコールセンタシステムであり、流行っているインスタントメッセージング(IM:Instant Messaging)のインターネット技術を用いて、機関とそのクライアントとにインターネット上で主にテキストに基づくリアルタイムのコミュニケーションを行わせるものであり、機関のカスタマサービス及び遠隔販売に適用される。ICCSを用いるマニュアルエージェントは、2つ以上のクライアントと同時にコミュニケーションを行うことができる。
【0017】
テキストに基づくICCシステムが音声に基づくIVRシステムの変形であるとも言え、両者は共に機関とそのクライアントとの間のコミュニケーション(カスタマサービスでも、遠隔販売でも)に必要なツールであり、両者は共にマニュアルエージェントの高度な介入が必要とする。従って、IVRシステムと同様に、ICCシステムも「クライアントのセルフサービスの使用率を効率的に向上し、マニュアル操作に代わる」という要望を満足できない。
【0018】
一方、従来の音声認識技術は、正確性及び安定性のない音声認識結果に基づいて、キーワード検索技術を用いて、「網羅的手法」を用いて音声の語彙解説を行う。多くの音声認識技術の会社は「音訳(Transcription)」及び「キーワードスポッティング(Keyword Spotting)」という2つの作業で巨大な力及び金をかかり、音声ロボットを一所懸命に訓練しているが、実際の効果と理想的な効果とは常に大きな差がある。
【発明の概要】
【課題を解決するための手段】
【0019】
本発明の1つの態様では、自然表現の処理方法であって、ユーザからの自然表現を認識し、コンピュータで処理可能な特定の形式の言語情報を取得するステップと、認識して得られた言語情報を符号化形式の標準表現に変換するステップと、を含む、自然表現の処理方法を提供する。
【0020】
本発明の実施例の自然表現の処理方法では、好ましくは、前記標準表現は、ユーザの要求を表す要求コードを含む。
【0021】
本発明の実施例の自然表現の処理方法では、好ましくは、前記要求コードは、デジタルコードで示されている。
【0022】
本発明の実施例の自然表現の処理方法では、好ましくは、前記標準表現は、ユーザの特定の要求をさらに表す要求パラメータをさらに含む。
【0023】
本発明の実施例の自然表現の処理方法では、好ましくは、前記言語情報は、モデリングツールを用いて音声形式の前記自然表現をスポッティングし、変換して得られた言語情報ユニットにより構成されている。
【0024】
本発明の実施例の自然表現の処理方法では、好ましくは、前記言語情報は、音素、文字及び句のうち1つにより構成されている。
【0025】
本発明の実施例の自然表現の処理方法では、好ましくは、前記言語情報と前記標準表現とのMT(Machine Translation:機械翻訳)訓練データセットに基づいて、前記言語情報から前記標準表現への変換を行う。
【0026】
本発明の実施例の自然表現の処理方法では、好ましくは、前記自然表現を認識すると共に、該自然表現に関連する情報を取得し、該情報を前記標準表現の一部に変換する。
【0027】
本発明のもう1つの態様では、人工知能ロボットの訓練方法であって、MT訓練データセットを構築するステップであって、該MT訓練データセットは、自然表現を変換して得られたコンピュータで処理可能な言語情報、符号化された標準表現、及び前記言語情報と前記標準表現との対応関係を含む、ステップと、人工知能ロボットが、前記MT訓練データセットにおける既存の前記言語情報の要素の各種の順列及び組合せと前記標準表現の要素の各種の順列及び組合せとを反復的に比較し、前記言語情報の要素の順列及び組合せと前記標準表現の要素の順列及び組合せとの対応関係を検索するステップと、を含む、人工知能ロボットの訓練方法を提供する。
【0028】
本発明の実施例の人工知能ロボットの訓練方法では、好ましくは、前記MT訓練データセットのデータは、外部データベースから導入されてもよいし、マニュアル補助理解により生成され、追加されてもよい。
【0029】
本発明のもう1つの態様では、自然表現の処理方法であって、自然表現を入力するステップと、前記自然表現を認識し、コンピュータで処理可能な特定の形式の言語情報を取得するステップと、機械変換で前記言語情報を、符号化された標準表現に変換できるか否かを判断するステップと、機械変換で必要な標準表現を取得できないと判断された場合に、マニュアル変換処理を行うステップと、機械変換又はマニュアル変換の標準表現を出力するステップと、を含む、自然表現の処理方法を提供する。
【0030】
本発明の実施例の自然表現の処理方法では、好ましくは、前記判断は、ロボットの理解が成熟しているか否かについての判断であり、ロボットの理解が成熟しているか否かについての判断は、所定の期間内のロボットの理解の正確率を評価することによって行われる。
【0031】
本発明のもう1つの態様では、自然表現の処理及び応答方法であって、自然表現を入力するステップと、前記自然表現を認識し、コンピュータで処理可能な特定の形式の言語情報及び関連する表現タイプ情報を取得するステップと、機械変換で、認識された言語情報及び表現タイプ情報を、符号化された標準表現に変換できるか否かを判断するステップと、機械変換で必要な標準表現を取得できないと判断された場合に、マニュアル変換処理を行うステップと、前記機械変換又はマニュアル変換の標準表現と一致する標準応答を呼び出し、或いは生成するステップと、前記表現タイプ情報に対応する方式で、前記生成された標準応答を出力するステップと、を含む、自然表現の処理及び応答方法を提供する。
【0032】
本発明の実施例の自然表現の処理及び応答方法では、好ましくは、前記標準応答はデータベースに予め記憶された固定データであり、或いは変数パラメータ及びデータベースに予め記憶された標準応答の基礎データに基づいて前記標準応答を生成する。
【0033】
本発明のもう1つの態様では、対話ゲートウェイ、中央制御器、MAUワークステーション、ロボット、表現データベース、応答データベース及び応答生成器を含む自然表現の処理及び応答装置であって、対話ゲートウェイは、ユーザからの自然表現を受信し、中央制御器に送信して後続の処理を行い、前記自然表現への応答をユーザに送信し、中央制御器は、対話ゲートウェイからの自然表現を受信し、ロボット及びMAUワークステーションと協働し、該自然表現を、符号化された標準表現に変換し、前記標準表現に基づいて応答生成器に該標準表現に対応する標準応答を生成させるように指示し、ロボットは、前記中央制御器の指示に基づいて、前記自然表現を認識し、コンピュータで処理可能な特定の形式の言語情報を取得し、前記表現データベースを用いて該言語情報を前記標準表現に変換し、MAUワークステーションは、認識された自然表現又は前記ユーザからの自然表現を外部のMAUマニュアルエージェントに提示し、MAUマニュアルエージェントはMAUワークステーションを介して標準表現を入力し、或いは選択して、MAUワークステーションは該標準表現を中央制御器に送信し、表現データベースは、前記自然表現に関連する前記言語情報データ、前記標準表現に関連する標準表現データ、及び前記言語情報と前記標準表現との関係に関連するデータを含む表現関連データを記憶し、応答データベースは、呼び出される標準応答データ及び/又は応答を生成するためのデータを含む応答関連データを記憶し、応答生成器は、中央制御器のコマンドを受信し、応答データベースにおけるデータを呼び出し、且つ/或いは実行することで前記ユーザの自然表現への応答を生成する、自然表現の処理及び応答装置を提供する。
【0034】
本発明の実施例の自然表現の処理及び応答装置では、好ましくは、中央制御器は、前記表現データベース及び/又は前記応答データベースを更新する。
【0035】
本発明の実施例の自然表現の処理及び応答装置では、好ましくは、前記自然表現の処理及び応答装置は、前記ロボットが前記自然表現を前記標準表現に変換することを訓練する訓練器をさらに含む。
【0036】
本発明の実施例の自然表現の処理及び応答装置では、好ましくは、前記対話ゲートウェイは、前記自然表現を受信する前に前記ユーザの身分を認識し、検証する身分認証器をさらに含み、前記ユーザの身分の検証方法は、少なくともパスフレーズ及び声紋認識を含む。
【0037】
本発明のさらにもう1つの態様では、知能応答装置及び発呼装置を含む自然表現の処理及び応答システムであって、ユーザは発呼装置を介して知能応答装置と通信し、MAUマニュアルエージェントは知能応答装置を操作し、前記知能応答装置は、対話ゲートウェイ、中央制御器、MAUワークステーション、ロボット、表現データベース、応答データベース及び応答生成器を含み、対話ゲートウェイは、発呼装置からユーザからの自然表現を受信し、該自然表現を中央制御器に送信し、中央制御器は、ロボットが前記自然表現からコンピュータで処理可能な特定の形式の言語情報及び関連する表現情報を認識するように指示して、ロボットが該言語情報及び関連する表現情報を標準表現に変換するように指示し、ロボットの理解が成熟せず、標準表現の変換を完成できない場合に、中央制御器は、MAUワークステーションがMAUマニュアルエージェントに標準表現のマニュアル変換を行わせるように促すように指示し、MAUマニュアルエージェントはロボットにより認識された前記言語情報及び関連表現情報を標準表現に変換し、MAUワークステーションを介して該標準表現を中央制御器に入力し、送信し、中央制御器は、前記標準表現に基づいて、応答生成器が応答データベースにおけるデータを呼び出し、且つ/或いは実行することでユーザの前記自然表現への応答を生成するように指示し、対話ゲートウェイは、前記応答を発呼装置を介してユーザにフィードバックする、自然表現の処理及び応答システムを提供する。
【0038】
本発明の実施例の自然表現の処理方法によれば、自然表現を符号化された標準表現に変換でき、該標準表現の変換は自然表現の語意をコード及びパラメータに変換することであり、正確な逐語的翻訳を行う必要がないため、機械翻訳の精度への要求を低減でき、表現変換(機械翻訳)を実現するためのデータベースの複雑さを低減でき、データの検索、更新の速度を向上でき、知能処理の性能を向上できる。一方、比較的に簡単な符号化された表現により、マニュアル補助介入の作業負荷を低減でき、マニュアル補助介入の作業効率を向上できる。
【0039】
本発明の実施例の自然表現の処理及び応答方法、装置及びシステムによれば、標準表現を用いて応答を迅速に指向でき、ユーザは長い時間を費やして複雑な通常機能メニューを走査して必要なセルフサービスを検索する必要がなくなる。また、ロボットの自動学習、訓練及びマニュアル補助理解により、標準化の自然表現と標準表現と標準応答のデータベースを構築でき、システムの自動理解及び応答を徐々に実現できる。また、該データベースは、粒度が小さく、知識範囲が狭く、データの忠実度が高いという利点を有し、ロボット訓練の難しさを低減でき、ロボット知能の成熟周期を短縮できる。
【図面の簡単な説明】
【0040】
本発明の実施例の態様をより明確に説明するために、以下は実施例の図面を簡単に紹介し、なお、後述する図面は単なる本発明の実施例に関するものであり、本発明を制限するものではない。
図1】本発明の1つの実施例に係る自然表現の処理方法を例示的に示すフローチャートである。
図2】本発明の1つの実施例に係る自然表現の処理及び応答方法を例示的に示すフローチャートである。
図3】本発明の実施例に係る知能応答システムを例示的に示す図である。
図4図3のシステムにおける知能応答装置の一部の構成をさらに示す図である。
図5】MAUワークステーションがマニュアルエージェントに提示する操作画面の一例を例示的に示す図である。
図6】音声情報の認識の一例を示す図である。
図7】ガウス混合モデルを用いて捕集された音波をX要素に変換する例を示す図である。
図8】捕集された音波(A言語情報)からY言語情報への変換の一例を示す図である。
図9】捕集された音波(A言語情報)からY言語情報へ層毎に変換するプロセスを総合的に示す図である。
図10】多層感知の原理を示す図である。
【発明を実施するための形態】
【0041】
以下、本発明の目的、態様及び効果をより明確にするために、本発明の実施例の図面を参照しながら、本発明の実施例の態様を明確、完全に説明する。なお、後述する実施例は本発明の一部の実施例であり、全ての実施例ではない。当業者が後述する本発明の実施例に基づいて創造的労働を行わずに取得した全ての他の実施例は、本発明の保護範囲に属する。
【0042】
別段の定義がない限り、ここで使用される技術用語又は科学用語は本発明の所属する分野内の当業者により理解される通常の意味でなければならない。本発明の明細書及びクレームに使用される「第1」、「第2」及び同様な用語は、如何なる順序、数量又は重要性を示すものではなく、単なる異なる構成要件を区別するために用いられるものである。同様に、「1つ」又は「一」等の用語も数量の限定を表すことではなく、少なくとも1つ存在することを表す。
【0043】
本発明の実施例の自然表現の処理方法は、例えば上述した対話型音声応答IVR又はインターネットコールセンタシステムICCSのカスタマサービスシステム又は他の遠隔カスタマコンタクトシステム(例えば電話販売システム、ネットワーク販売システム、VTM知能遠隔端末器など)に適用されてもよい。上述したように、このような応用では、機械翻訳への要求は、逐語の正確な意味ではなく、クライアントの自然表現とシステム理解可能な情報に変換して、クライアントにその表現に対応する応答を提供することである。即ち、ここでの機械翻訳は、人間言語の裏の実質的な意味の理解を重要視し、コンピュータで処理しやすい形式で、自然表現から「理解」されたクライアントの実際の意図又は要求を表す。
【0044】
本発明の実施例の自然表現の処理方法は、まず、ユーザからの自然表現を認識し、或いは変換し、コンピュータで処理可能な特定の形式の言語情報を取得し、そして、認識して得られた言語情報を特定の形式の標準表現に変換する。
【0045】
ユーザからの物理的データ形式で表された不規則な自然表現情報、例えば音波は、「物理層言語情報」と称され、以下は「A言語情報」とも略称される。モデル構築ツールにより、基本的な自動認識又は変換が行われ、幾つかの基本要素(以下は「X要素」と称される)の順列及び組合せの形式で表される第1の論理層言語(以下は「X言語」)情報が取得される。A言語情報を認識し、或いは変換して得られたX言語情報を、更に変換して生成された特定の形式の標準表現は、以下は「Y言語情報」と称される。
【0046】
人間の自然表現方法は多種多様であり、例えば、クライアントからの自然表現、即ち「A言語情報」を4種類、即ち文字情報、音声情報、画像情報及び動画情報に分けてもよい。
【0047】
ここで、文字情報表現は、クライアントがキーボードで文字を入力して表現されたもの、例えばクライアントが銀行のインターネットチャネルコールセンタのユーザインターフェースで入力した「私の貯金口座にいくらのお金があるか?」であってもよい。画像情報表現は、クライアントが画像により表現されたもの、例えばクライアントがコンピュータのデスクトップの画面キャプチャツールを用いて、ソフトウェアのエラーメッセージのキャプチャして、発生した問題を画像の形で表現するものであってもよい。音声情報は、クライアントが話で表現されたもの、例えばクライアントが銀行のサービスホットライン(電話チャネルコールセンタ)でカスタマサービススタッフと会話を行い、その時に電話で話した「一体どういう意味ですか?よくわかりませんが」であってもよい。動画(「ビデオ」とも称される)情報表現は、クライアントがカメラの前で頭を振って表現された同意しないことであってもよい。
【0048】
上述したように、クライアントの自然表現(A言語情報)を自動的に認識し、或いは変換して、特定の形式で表される情報を取得する。A言語情報が音声情報の場合に、例えばモデル構築ツールにより音波波形情報を捕集して、システム(知能ロボット)により特定の(音声情報に対応する)X言語に自動認識、或いは変換してもよい。A言語情報が図形情報の場合に、例えばモデル構築ツールにより図形画素情報を捕集して、システム(知能ロボット)により(画像情報に対応する)X言語に自動認識し、或いは変換してもよい。A言語情報が動画情報の場合に、例えばモデル構築ツールにより図形画素情報及び画像変化速度情報を捕集して、システム(知能ロボット)により(動画情報に対応する)X言語に自動認識し、或いは変換してもよい。A言語情報が文字情報の場合に、変換する必要がない。
【0049】
そして、上記のA言語情報から自動変換して得られたX言語情報又は変換する必要のない文字情報を、コンピュータ又は他の処理装置で「理解」可能な規則化された標準表現(Y言語情報)に「翻訳」する。Y言語情報は、コンピュータ作業システムで自動的に処理されることができる。
【0050】
本発明の実施例では、規則化のコードを用いて、上記規則化の標準表現(Y言語情報)を実現してもよい。例えば、業界コード、業界業務コード、機関コード、機関業務コード及び表現情報コードを含むコード方式を用いてもよい。
【0051】
(1)業界コード
主業界(2桁の英語アルファベットで、最大26×26=676個の主業界)
サブ業界(3桁の英語アルファベットで、各主業界は最大26×26×26=17576個のサブ業界を有する)
(2)業界業務コード
第1レベルの業界業務カテゴリ(1桁の数字0−9)
第2レベルの業界業務カテゴリ(1桁の数字0−9)
第3レベルの業界業務カテゴリ(1桁の数字0−9)
第4レベルの業界業務カテゴリ(1桁の数字0−9)
第5レベルの業界業務カテゴリ(1桁の数字0−9)
第6レベルの業界業務カテゴリ(1桁の数字0−9)
第7レベルの業界業務カテゴリ(1桁の数字0−9)
第8レベルの業界業務カテゴリ(1桁の数字0−9)
第9レベルの業界業務カテゴリ(1桁の数字0−9)
第10レベルの業界業務カテゴリ(1桁の数字0−9)
(3)機関コード(UID)(24桁の数字=国番号3桁+都市番号3桁+機関番号18桁)
(4)機関業務コード
第1レベルの機関業務カテゴリ(0−9)
第2レベルの機関業務カテゴリ(0−9)
第3レベルの機関業務カテゴリ(0−9)
第4レベルの機関業務カテゴリ(0−9)
第5レベルの機関業務カテゴリ(0−9)
(5)表現情報コード
情報タイプコード(2桁の数字1−99)
言語コード(RFC3066標準:http://tools.ietf.org/html/rfc3066を用い、例えばzh−CNは「簡体字中国」を表す)
方言コード(3桁の数字1−999)
ここで、業界コードは、クライアントからの不規則な自然表現(A言語情報)により示されるサービスを提供する主体の所在する業界を表し、例えば2桁の英語アルファベットで示され、676個の業界を含んでもよく、好ましくは、3桁の英語アルファベットのサブ業界コードを追加して、各業界で17576個のサブ業界を含んでもよい。このように、該コードは全ての通常の業界を基本的にカバーできる。業界業務コードは、クライアントからのA言語情報により示されるサービス要求を表し、複数桁の数字で示され、例えば10桁の数字で符号化され、より多くの業界業務をカバーできる。機関コードは、クライアントからのA言語情報により示されるサービスを提供する主体を表し、例えば該機関の所在する国及び都市を示してもよい。機関業務コードは、機関が個別化の内部管理を行うように、サービスを提供する主体の内部の個別化サービスの区分を表す。表現情報コードは、クライアントのA言語情報自身の識別情報を表し、情報のタイプ、言語のタイプ等を含んでもよく、数字及びアルファベットで表される。
【0052】
以下は、上記のコード方式で規則化された標準表現(Y言語情報)の2つの例である。
【0053】
例1:FSBNK27100000000860109558800000000000000000002zh-CN003
ここで、
業界コードは
・FS=Financial Service金融サービス(主業界)
・BNK=Bank銀行(サブ業界)
業界業務コードは、
・2710000000=第1レベルの業界業務カテゴリ−2(クレジットカード) 第2レベルの業界業務カテゴリ−7(クレジット限度の調整) 第3レベルの業界業務カテゴリ−1(クレジット限度の増加) 0000000(さらに細かいカテゴリがない)
機関コードは、
・086010955880000000000000==国番号086(中国) 010(北京) 955880000000000000(中国工商銀行本店)
機関業務コードは、
・00000=機関業務カテゴリなし(このY言語情報では、「中国工商銀行本店」という機関により定義された機関業務カテゴリがなく、該Y言語情報が業界業務カテゴリに完全に属し、銀行業界で共通することを意味する)
表現情報コードは、
・02=音声(クライアントにより提供されたA言語情報のタイプは「音声」である)
・zh−CN=中国の中国語
・003=広東語方言
この例では、該Y言語情報に対応するA言語情報は、例えば「私のクレジットカードの限度が少なすぎる」、「私のクレジットカードの限度を増やしたい」、「私のクレジットカードの限度を減らしたい」、「私のクレジットカードの限度を調整したい」等の音声情報であってもよい。
【0054】
特定の応用シナリオでは、特にサービスを提供する主体が決定された場合に、上述した業界コード、機関コード及び機関業務コードは共にシステムデフォルト値として予め設定されてもよい。即ち、クライアントにより提供されたA言語情報から業務コード及び表現情報コードのみを取得すればよく、この場合に、Y言語情報を「271000000002zh-CN003」と表してもよい。又は、特定応用について3桁の数字で業界業務コードのみを表してもよく、「27102zh-CN003」とさらに表してもよい。また、音声サービスの場合に、「271zh-CN003」と表してもよい。クライアントの要求表現のみを考慮し、表現自信のタイプ情報を考慮しない場合に、さらに「271」と表してもよい。
【0055】
例2:TVTKT11200000000014047730305000000000001240003fr-CH000
・TV=Traveling Service旅行サービス(主業界)
・TKT=Ticketingチケット業務(サブ業界)
・1120000000=第1レベルの業務カテゴリ−1(航空券) 第2レベルの業務カテゴリ−1(航空券変更) 第3レベルの業務カテゴリ−2(延期) 0000000(さらに細かいカテゴリがない)
・001404773030500000000000=国番号001(米国) 404(ジョージア州、アトランタ市) 773030500000000000(米デルタ航空会社)
・12400=第1レベルの業務カテゴリ−1(割引チケット) 第2レベルの業務カテゴリ−2(ローシーズン) 第3レベルの業務カテゴリ−4(アジア太平洋) 00(さらに細かいカテゴリがない)
・03=画像(クライアントにより提供されたA言語情報のタイプが「画像」であり、例えばクライアントがDeltaの公式ウェブサイト上で航空券変更操作を行う際に、システムエラーが発生し、クライアントがその画面をキャプチャし、Deltaカスタマサービスヘルプへの自然表現とする)
・fr−CH=スイスのフランス語
・000=方言なし
この例では、Y言語情報に対応するA言語情報は画像を認識して得られる。同様に、サービスを提供する主体が決定された場合に、上記の業界コード、機関コードをシステムデフォルト値として設定されてもよい。この場合に、Y言語情報を「11200000001240003fr-CH000」と表してもよい。クライアントの要求表現のみを考慮し、表現自信のタイプ情報を考慮しない場合に、「112000000012400」のみで表されてもよい。特定の応用について3桁の数字で業界業務コードを表し、3桁の数字で機関業務コードを表す場合に、「112124」で表されてもよい。
【0056】
以上は、単なる本発明の実施例の規則化された標準表現(Y言語情報)の例であり、異なるコード桁数及びコード配列順序を用いてもよいし、異なるコード表示又はコード方式を用いてもよい。
【0057】
クライアントからの自然表現(A言語情報)は常に該クライアントの具体的な要求を表し、例えば、上述したように、クライアントのA言語情報をX言語情報に自動的に変換し、或いは変換する必要がない言語情報であり(A言語情報が文字情報である場合)、X言語情報又は文字言語情報を符号化形式の標準表現(Y言語情報)に変換する。上記の例では、Y言語情報は、業界コード、業界業務コード、機関コード、機関業務コード及び表現情報コードを含んでもよい。好ましくは、A言語情報は、クライアントの要求カテゴリにおける具体的なパラメータ(「要求パラメータ」と称されてもよい)、例えば「5000元を張三に振り込む」(例1)、「「中国パートナー」という映画を見たい」(例2)等を含んでもよい。特定の要求コード集合(例えば上記の業界コード、業界業務コード、機関コード、機関業務コード及び表現情報コードのうち1つ又は複数を含む)は特定のパラメータ集合に対応する。例えば、上記の例2では、「映画を見る」の要求コードが123である場合に、それに対応するパラメータ集合は映画名称というパラメータを含んでもよい。このA言語情報に対応するY言語情報は「123「中国パートナー」」である。123は要求コードであり、「」内の5つの中国語文字は要求パラメータである。Y言語情報では、要求コードと要求パラメータを区別する方法は複数種類があり、「」という記号を用いてもよいし、スペースを用いてもよいし、特定の順序で配列することなどの方式を用いてもよい。上記のクライアントのA言語情報をコンピュータで処理可能な特定の言語形式の情報に変換するプロセスは、音声情報処理技術、音声認識技術、画像認識技術及びビデオ処理技術で実現されてもよく、これらの技術は既存の技術であってもよい。実際には、本発明の実施例の符号化の標準表現の発想は、自然表現の認識処理に適用されてもよい。
【0058】
以下は、音声情報の処理を一例にして、自然表現の認識処理を紹介し、本発明の技術的思想の自然表現の認識処理における応用をさらに説明する。図6は音声情報の処理プロセスを示す図である。該処理プロセスでは、A言語からD言語への処理を実現する。なお、図6における「X言語」情報と「A言語」情報との対応関係、及び「X言語」情報と「B言語」情報との対応関係は、単なる説明するためのものである。
【0059】
A言語、即ち音波は、音波捕集装置(例えばマイク)で捕集された物理層データである。
【0060】
X言語は、A言語データに対して音声信号処理(Speech Signal Processing)を行って得られた第1論理層データであり、本発明では「X言語」と称される。X言語は、X要素の各種の順列及び組合せで形成された言語である。X要素はシステムが特定のモデル構築ツール、例えばガウス混合モデル(Gaussian Mixture Model:GMM)により、音波をハイとローのビン(bin)状の元素に自動的に分割して得られたものである。図7はガウス混合モデルを用いて捕集された音波(ヒストグラムで表される)をX要素(ベクトル量子化ヒストグラムで表される)に変換する例を示す図である。
【0061】
異なるモデル構築ツールに応じて、異なる自然音声集合に適用され、X要素の数を所定の範囲内(例えば200以下)に制御できる。本発明の実施例では、図8に示すように、2桁のASCII文字の組み合わせでX要素のIDを定義する。即ち、X要素の数は最大で16384(128×128=16384)であり、未来の音波モデル構築技術の更なる発展によるX要素数の要求の向上を満たすことができる。分割された音波ユニットとX要素とは一対一で対応しており、A言語情報が音波ユニットの組み合わせであると見なされてもよいため、X言語情報はX要素の組み合わせであり、図6においてA言語からX言語への変換(「認識」とも称される)の関係は「多対多」の関係である。図6はASCII文字で示されるX要素の例を示している。
【0062】
「B言語」は、B要素の各種の順列及び組合せで形成された言語であり、図6における第2論理層データである。X要素の全て又は一部の順列及び組合せでB要素が形成されるため、X言語をB要素に変換し、B言語がB要素により構成されると理解されてもよい。このため、X言語からB言語の変換関係も「多対多」の関係である。B要素は音素であってもよく、B要素の順列及び組合せで音節が構成される。ここで、「音素」及び「音節」はその言語学カテゴリにおける意味と同じである。図6はB要素の例を示し、これらの例は中文(中国語)の音素である。
【0063】
「C言語」は、C要素の各種の順列及び組合せで形成された言語であり、図6における第3論理層データである。B要素の全て又は一部の順列及び組合せでC要素が形成されるため、B言語をC要素に変換し、C言語がC要素により構成されると理解されてもよい。このため、B言語からC言語の変換関係も「多対多」の関係である。音素、音節の言語学体系を同様に用いると、C要素は自然言語における「文字」に対応する。図6はC要素の例を示し、これらの例は中文の文字である。
【0064】
「D言語」は、D要素の各種の順列及び組合せで形成された言語であり、図6における第4論理層データである。C要素の全て又は一部の順列及び組合せでD要素が形成されるため、C言語をD要素に変換し、D言語がD要素により構成されると理解されてもよい。このため、C言語からD言語の変換関係も「多対多」の関係である。音素、音節、文字の言語学体系を同様に用いると、D要素は自然言語における「単語」又は「句」に対応する。図6はD要素の例を示し、これらの例は中文の単語である。
【0065】
図6における「C言語」の例及び「D言語」の例は、同じ内容を見えて、共に「
(外1)

」、「
(外2)
」、「
(外3)

」、「
(外4)
」、「
(外5)
」、「
(外6)
」、「
(外7)
」の順序で構成されているが、中国語に詳しい人が分かるように、C言語のみから理解すると、大きな多義性が生じ、「D言語」に変換された後に、表現の意味はある程度明確になる。他の言語について、文字から単語又は句への変換は、語意の理解にも非常に重要であり、特に知能システム(音声ロボット)による音声認識には非常に重要である。異なる自然言語に応じて、「文字」及び「単語」、即ちC言語情報及びD言語情報は、1つの言語情報層に統合されてもよい。
【0066】
「Y言語」は第5論理層データ(図8に示す)であり、オリジナルの自然言語情報Aを理解して得られた、「意味」又は「語意」を表す言語情報を指す。本発明の上記定義された「標準表現」は「Y言語」の形式の1つである。本発明の実施例では、例えば銀行業界では、業務コード「21」で「クレジットカード紛失」の意味を表し、業務コード「252」で「クレジットカードの一部返済」の意味を表し、「252−5000」(要求コード=252、要求パラメータ=5000)は「クレジットカードの5000元返済」の意味を表してもよい。エンタテイメント業界では、コード「24」で「映画を見る」の意味を表し、「24−中国パートナー」(要求コード=24、要求パラメータ=「中国パートナー」)は「映画「中国パートナー」を見る」の意味を表してもよい。D言語からY言語への変換関係も「多対多」の関係である。
【0067】
図9は捕集された音波(A言語情報)からY言語情報へ層毎に変換するプロセスを示す図である。図9から分かるように、「音波」(A言語情報)から「X要素」(X言語情報)へ、そして「音素」(B言語情報)へ、そして「文字」(C言語情報)へ、そして「単語」(D言語情報D)へ、最後に「意味」又は「語意」(Y言語情報)になり、6つの言語情報に対する5回の変換(翻訳)である。データベースのデータ構造の立場から見ると、「音波」という初期の言語情報Aから、5つの言語構成要素の順列及び組合せについての経路を選択し、6番目の言語情報データ、即ちターゲット言語情報Yを見つけ、或いは対応付ける。
【0068】
上記の5回の言語情報変換を行うため、ロボットもこの5つの情報言語変換の能力を有する必要がある。一般には、この5つの変換を3段階に分けてもよい。この3段階では、音声ロボットを訓練するために、いずれもマニュアル補助認識が必要とする。
【0069】
第1段階:A言語情報(音波)からC言語情報(文字)へ。A言語情報(音波)からB言語情報(音素)への2つステップの変換は、言語情報Xの情報の情報抽出及び変換アルゴリズム(例えば上記のガウス混合モデル)を用いているため、通常ロボットが比較的に正確、自動的に完成できる。しかし、B言語情報(音素)からC言語情報(文字)への変換は、高いエラー率が発生する場合はある。例えば、中国語の例では、図6の例に示すように、クライアントにより入力された元の言語情報は「
(外8)
」であり、クライアントの発音又は方言のせいで、「
(外9)
」が「
(外10)
」であると認識され、「
(外11)
」が「
(外12)
」であると認識される場合があり、この結果、この音波は最終的に「」
(外13)
」という7つの文字に変換された。ロボットの認識正確性を向上するために、特に上記のような発音又は方言の問題について、ロボットの認識結果を訂正する必要があり、通常、マニュアル補助認識の方式を用いる。この段階のマニュアル補助認識は音訳(Transcription)と称される。音訳とは、音訳者が特定の音訳ツールを用いて、「音波」(A言語情報)を正確に分割し、分割された各音波セグメントを対応する「文字」(C言語情報)にそれぞれ変換すること、即ちロボットのためにA言語(音波)からC言語(文字)への変換/翻訳関係を定義することである。分割の正確性は、音訳者の注意力、音訳ツールをマスタする熟練レベルにより決定される。対応する「文字」に正確に変換できるか否かは、音訳者がこの音波セグメントの所属する言語環境、及び文脈(この音波セグメント前後に位置する他の音波)を既に正確に理解できるか否かにより決定される。特に漢字に同音異義語が多いため、音訳者の正確な音訳の困難性も高くなった。
【0070】
第2段階:C言語情報(文字)からD言語情報(単語、句)へ。文字から単語への変換は同様に曖昧さが発生する。上記の例では、音波から文字への認識が正しい場合であっても、「
(外14)
」の7つの文字の順の配列結果は、依然として少なくとも「
(外15)
」及び「
(外16)
」という2つの結果に変換される場合があり、両者の意味は明らかに異なる。同様に、マニュアル補助認識を用いて訂正してもよい。この段階のマニュアル補助認識は、キーワードスポッティング(Keyword Spotting)と称され、「ワードスポッティング」とも略称される。即ち、スポッティング者は、音訳された「文字」(C言語情報)を組み合わせ、「単語(キーワード)」(D言語情報)を形成し、即ちロボットのためにC言語(文字)からD言語(単語)への変換/翻訳関係を定義する。スポッティングの正確性は、スポッティング者の業務知識を把握するレベルにより決定される。異なる分野について、該分野内容及び用語に詳しい人がスポッティング操作を行う必要があり、そのコストも音訳よりも高い。
【0071】
第3段階:D言語情報からY言語情報へのもの、即ち意思理解。一定の順に配列された単語のみが取得された場合に、クライアントの本当の意味を正確に理解できない場合がある。例えば、クライアントが「
(外17)
」と言い、ロボットがその意味を認識できない場合に、技術スタッフは

(外18)
」、「
(外19)
」、「
(外20)
」を新しいキーワードとしてデータベースの文法表に入れる。もう1つのクライアントが

(外21)
」と言い、ロボットがその意味を認識できない場合に、技術スタッフは「
(外22)
」、「
(外23)

」(即ち「
(外24)
」の意味)、「
(外25)
」を新しいキーワードとしてデータベースの文法表に入れる。このように、マニュアル補助の形で、クライアントの意味又は要求を理解し、データベースに追加する。このようなマニュアル補助認識は、キーワードパイルアップ(Keyword Pile−up)と称され、「ワードパイルアップ」とも略称される。即ち、「単語」の順列及び組合せを蓄積し、その意味に基づいてベータベースに追加することである。この作業の作業量も非常に大きく、訓練スタッフの専門知識を用いて補助理解を行う必要がある。
【0072】
上述したように、本発明の実施例の自然表現の処理方法によれば、クライアントの自然表現(A言語情報)を自動的に変換してX言語情報を取得し、或いは変換せずにC言語情報を直接に取得し(A言語情報は文字情報の場合)、X言語情報又はC言語情報をY言語情報に変換する。上記の分析を参照しながら、該不規則な自然表現は、X言語情報、B言語情報、C言語情報、D言語情報の1つである。即ち、自然表現の処理プロセスは、A−>X−>Y、A−>B−>Y、A−>C−>Y、A−>D−>Yのうち1つであってもよい。
【0073】
図9に示す言語情報の変換モデルによると、図10に示すように、上記6つの言語A−>X−>B−>C−>D−>Yの多層の「多対多」の関係変換を行う必要があり、学術上でMLP(Multi−Layer Perception、多層感知)と称される。多層の「多対多」の関係変換の欠点として、毎回の変換を行う時に、オリジナル情報のある程度の歪みが生じると共に、システムにより多くの処理負荷をもたらし、更なる性能損失に繋がる。変換の回数が多いほど、オリジナル情報の歪みがひどくなり、システムの処理速度も遅くなる。同様に、上記3つの段階におけるロボット訓練にマニュアル補助認識の介入が必要であるため、多い作業量及びコストが生じると共に、複数回の人為的な介入によりエラー率も増加してしまう。よって、A−>X−>Yの変換を実現できれば、X−>B−>C−>D−>Yの多層「多対多」の関係変換を行う必要がなく、表現情報変換の正確率及び効率を向上でき、マニュアル補助認識の作業量及びエラー率を低減できる。
【0074】
本発明の技術によれば、モデル構築ツールにより、文字、音声、図形及びビデオという不規則な自然表現情報をX言語情報に変換して、X言語を左側言語とし、Y言語を右側言語とし、機械翻訳(MT)技術を用いることで、X言語情報からY言語情報への変換を実現する。
【0075】
具体的には、音声という不規則な自然表現情報の処理の例では、まず「音声信号処理(Speech Signal Processing)」技術を用いてA言語をX言語に自動的に変換/翻訳し(従来の「音声信号処理」技術に基づいて、A−>Xの変換正確率は通常95%以上になり、改善された「音声信号処理」はノイズ低減でよりよく、A−>Xの変換正確率を99%以上に向上できる)、そして、機械翻訳技術を用いてX−>Yの自動機械翻訳を実現し、X−>B−>C−>D−>Yの多層変換を行う必要がなくなる。
【0076】
実例サンプルのようなものに基づく統計的分析の機械翻訳アルゴリズムを用いて得られた不規則な自然表現(X言語情報)を規則化された標準表現(Y言語情報)に変換してもよい。このような機械翻訳アルゴリズムは、X言語とY言語との間の対応データの量が十分に大きく、且つ十分に正確であることが要求されている。
【0077】
本発明の方法では、A−>Xの正確な機械自動変換が既に実現されているため、X言語とY言語との間の対応データを蓄積するために、A言語とY言語との間の対応データを蓄積してもよい。よって、本発明の案では、MAU(Mortal Aided Understanding:マニュアル補助理解)という新しいマニュアルエージェントの作業モードを提供し、マニュアル理解とコード入力とを組み合わせることで、A言語とY言語との間の対応データの蓄積を実現する。上記の例では、「271」という要求コードでクレジットカード限度調整の意味を表してもよいし、同様に、「21」でクレジットカード紛失の意味を表してもよく、このように、「21」用いて上記の「
(外26)
」又は「
(外27)
」の自然表現情報に対応付けてもよい。この簡単なコード入力方式は、従来の「話すエージェント」を「話さなくてもよいエージェント」に変換し、エージェントの作業量を減らし、作業効率を大幅に向上できると共に、人間の最大価値である理解能力を十分に利用でき、大量のA/X言語とY言語との対応データを正確、且つ迅速に蓄積でき、巡回反復を行うようにMTエンジンに提供し、A/X−>Yの変換/翻訳規律をセルフ学習させ、A/X−>Yの翻訳モードを形成できる。
【0078】
以下は、本発明の機械翻訳技術及び機械翻訳ロボットの訓練技術の動作原理を説明する。
【0079】
機械翻訳は、2つの言語を自動的に翻訳するための人工知能技術である。ここの「言語」とは、狭義の国家の言語(例えば中国語、英語など)ではなく、広義の情報表現方式である。上述したように、表現方式で分けると、言語は4大種類、即ち文字、音声、画像、動画(「ビデオ」とも称される)に分けられてもよい。
【0080】
言語は、要素集合における要素で各種の順列及び組合せで形成された情報である。例えば、英語文字は、ASCII文字集合(要素集合)における128個のASCII文字(要素)で、各一次元(シリアル)の順例及び組合せで形成された言語である。中国語という言語は、国際標準コードにおける数千個の中国語文字に句読点を加えて(中国語情報の基本要素を構成する)得られた無限の順列及び組合せである。もう1つの例として、RGB平面画像は、赤、緑、青という3つのサブ画素で、各種の二次元(長さと幅)の順列及び組合せで形成されたもう1つの言語である。
【0081】
任意の2つの言語間には変換/翻訳の規律が存在し、2つの言語の要素の順列及び組合せの対応関係を分析することで、2つの言語間の自動変換/翻訳の規律を取得できる。まず、2つの言語の対応データ(「翻訳サンプル」とも称される)を手動で蓄積して、2つの言語の要素の順列及び組合せの反復ループにより、2つの言語間の自動変換/翻訳の規律を自動的に取得し、2つの言語の翻訳モデルを形成する必要がある。
【0082】
機械翻訳を行うために、2つのデータセット、即ち「訓練データセット」(Training Dataset)と「検証データセット」(Testing Dataset)が必要とする。
【0083】
この2つのデータセットのデータ構造は、複数対のデータを記憶し、左の値が「左言語」(「ソース言語」とも称される)であり、右の値が「右言語」(「ターゲット言語」とも称される)である。「訓練データセット」が人間のMTロボットへのセルフ学習用の教科書であり、「検証データセット」が人間のMTロボットへの問題集であり、ロボットのセルフ学習効果を評価するものであると考えられてもよい。
【0084】
以下は、英語−>中国語のMT「訓練データセット」及び「検証データセット」の例である。
【0085】
訓練データセット
【0086】
【表1】
検証データセット
【0087】
【表2】

MTロボットは、言語を構成する要素と単位にして、順列及び組合せの反復ループを行うためのものである。例えば、上記の例では、訓練データセットにおける#3及び#4の2対のデータを訓練する場合に、英語「May I have your」という15個のASCII文字要素(3つの英語アルファベット「May」+1つのスペース+1つの英語アルファベット「I」+1つのスペース+4つの英語アルファベット「your」)の順列及び組合せは中国語の「
(外28)
」という3つの国際標準中国語文字の順列及び組合せに対応することが分かる。訓練データセットにおける#2及び#5の2対のデータを訓練する場合に、英語「age」という3つのASCII文字要素の順列及び組合せが中国語の「
(外29)
」という2つの国際標準中国語文字の順列及び組合せに対応することが分かる。
【0088】
よって、ロボットが検証データセットにおける英語の「May I have your age?」を中国語の「
(外30)
」に正確に翻訳できれば、ロボットがこのセンテンスの中国語と英語の翻訳を勉強できたと証明する。できなければ、ロボットがまだ勉強できなかったと証明する。そうすれば、ロボットが自分の学習方法を修正(例えば、もう1つの方法を用いて再び学習する)し、訓練データセットをさらに学習することを反復する必要があり、このような「反復修正」を繰り返すことで、ロボットの翻訳正確率を向上できる。一定のレベルに達した(例えば翻訳正確率が70%になった)場合に、ロボットの翻訳正確率はこのレベルで留まって、さらに上達することができなく、即ち「ロボットセルフ学習」のボトルネットがあるため、ロボットのためにMT訓練データセットのデータを追加する必要がある。MT訓練データセットのデータは、外部のデータベースから導入されてもよいし、「マニュアル補助理解」により生成、追加されてもよい。
【0089】
例えば、上記のクレジットカードの例では、得られた不規則な自然表現が「私のクレジットカードの限度が少なすぎる」である場合に、ロボットの理解力が成熟していないとき、「マニュアル補助理解」を介入させて、マニュアルにより該表現が「私のクレジットカードの限度を増やしたい」であると理解し、それに対応するY言語情報を入力してもよい。好ましくは、「マニュアル補助理解」処理では、自然表現に対する理解のプロセス及び理解の結果を記録する必要がなく、最終的な処理結果である対応標準表現(Y言語情報)を記録すればよい。このように、マニュアル操作を簡略化でき、リソースを節約できる。例えば、操作者は、「271」を対応標準表現として入力し、不規則な自然表現の「私のクレジットカードの限度が少なすぎる」に対する処理を完成すればよい。例えば、新しい自然表現実例、例えば上記の自然表現の「私のクレジットカードの限度が少なすぎる」及びそれに対応する標準表現「271」を既存MT訓練データセットに追加し、MT訓練データセットのデータを追加、更新する。よって、「マニュアル補助理解」により、ターゲット自然表現の正確、安定な変換(それを標準表現−Y言語情報に変換すること)を実現できるとともに、MT訓練データセットのデータの効率的な追加、更新を実現できるため、システムMT訓練データセットにおけるデータをより多く、正確にすることができ、ロボットの翻訳(変換)の正確率を効率に向上できる。
【0090】
理論的には、MTロボットは#3の左の値の「May I have your time」という20個のASCII文字要素の全ての順列及び組合せを網羅し、#3の右の値の「
(外31)
」という10個の国際標準中国語文字の全ての順列及び組合せを網羅する必要がある。即ち、MTロボットは、訓練データセットにおける各データ対の左と右の要素組の全ての順列及び組合せを網羅する必要がある。この要素レベルの網羅により、MTロボットは複数回で繰り返して出現している順列及び組合せ(例えば「your」、「May I have your」、「age」、「time」、「
(外32)
」、「
(外33)
」、「
(外34)
」など)を発見できるため、これら繰り返して出現した左言語の要素の順列及び組合せと右言語の要素の順列及び組合せとの対応関係を取得でき、即ち2つの言語間の翻訳モデルを取得できる。言い換えれば、訓練データセットにおける左と右の言語データ対の数が多いほど、MTロボットの発見できる、繰り返して出現する左と右の2つの言語要素の順列及び組合せが多く、左右で繰り返して出現する要素の順列及び組合せの対応関係も多く、MTロボットの把握する左右2つの言語の変換/翻訳の規律も多く、翻訳モデルがより成熟する。従って、本発明の技術的思想の「規則化の標準表現」及び「マニュアル補助理解」を用いることで、MT訓練データセットのデータをより効率的に蓄積でき、ロボットのセルフ学習及び自動機械翻訳の実現を補助できる。
【0091】
本発明におけるX言語からY言語への機械翻訳は、中国語と英語の機械翻訳と同様な原理を有し、単なる英語をX言語に置き換え、中国語をY言語に置き換え、左右2つの言語の要素集合が異なる。
【0092】
上述したように、機械翻訳技術は、1つの言語をもう1つの言語に自動的に翻訳するために用いられてもよい。その技術原理は、捕集された2つの言語のペア情報(左側言語と右側言語)に対して基本要素レベルの分析を行い、大量の言語情報対の基本要素の各種の順列及び組合せを巡回反復的に比較し、2つの言語間の変換/翻訳規律を取得し、2つの言語の翻訳モデルを形成することである。
【0093】
本発明の技術は、機械翻訳技術の応用範囲を、異なる国の言語間の自動翻訳から、全ての不規則なマルチメディアの自然表現情報(文字、音声、画像、ビデオ、即ちA言語情報)から上記規則化の標準情報(Y言語情報)への自動的な変換に拡張することで、各業界の業務システムがこれらを処理でき、真の意味での実用的なNLP(自然言語処理)を実現できる。
【0094】
従来の機械翻訳に必要な多層の言語学分析が不要であるため、実例の基本要素レベルの分析の方式を用いることで、翻訳の正確性及び迅速性を向上できると共に、自然表現の実例及び標準表現を追加することで更新及び拡張をように行うことができる。
【0095】
本発明の実施例の自然表現の処理では、自然表現(A言語情報)から標準表現(Y言語情報)への変換のみを行えればよく、即ち、A/X−>Yの翻訳モデルのみを構築すればよく、テキストの言語への翻訳結果ではないため、翻訳結果に対して修正処理を行う必要がない。
【0096】
また、本発明の実施例の自然表現処理では、具体的な業界機関の具体的な業務、例えば上記のクレジットカード業務に制限されてもよいため、処理システムに必要なMT訓練データセットの規模を大幅に低減でき、ロボットの理解の成熟度の閾値を向上でき、MT訓練データセットの構築及び維持のコストを低減でき、A/X−>Y翻訳モデルの成熟周期を効果的に短縮できる。
【0097】
上述したように、本発明の実施例の自然表現の処理システムによれば、自然表現から符号化された標準表現への変換を実現した。該変換の基は、A/X言語情報とY言語情報のペアデータを記憶するMT訓練データセット、及びMT訓練データセットに基づいて取得されたA/X−>Yの翻訳モデルである。従って、一定の量の正確なA/X言語データ及びY言語データを捕集してMT訓練データセットを生成し、ロボット(情報処理システム)のセルフ学習(セルフ訓練)によりA/X−>Yの翻訳モデルを形成する必要がある。MT訓練データセットの形成は、マニュアル補助理解により行われてもよい。
【0098】
図1は本発明の1つの実施例に係る自然表現の処理方法を例示的に示すフローチャートである。
【0099】
ステップS11において、システムは自然表現情報(A言語情報)を受信し、上述したように、該自然表現情報は、テキスト情報、音声情報、画像情報、ビデオ情報などであってもよい。
【0100】
ステップS21において、ロボットの理解能力が成熟しているか否かを判断する。ここで、ロボットの理解が成熟しているか否かについての判断は、所定の期間内(具体的な応用要求に応じて設定される)のロボットの理解の正確率を評価することによって行われる。ロボットの理解の正確率は、ロボットがA言語情報をX言語情報に変換して、X言語情報をY言語情報に変換した結果Y1と、マニュアルでA言語情報をY言語情報に直接に変換する結果Y2とを比較し、Y1とY2の同一の回数を、比較の総回数で除算して得られた割合である。応用の要求に応じて設定されたロボットの理解の正確率は、「ロボット理解の成熟閾値」と称される。ロボットの理解の正確率がロボットの理解の成熟閾値よりも低い場合に、システムは、ロボットの理解が成熟していないと決定し、ロボットの変換結果Y1を採用せず、依然としてマニュアル変換結果Y2を用い続け、システムのA言語情報への理解の正確性及び安定性を確保する。それと共に、システムは、A言語情報を機械自動変換で変換されたX言語情報(左側言語)、及びマニュアル変換結果Y2(右側言語)をMT訓練データセットに追加し、MTロボットのセルフ訓練のために用いられる。
【0101】
ロボットの理解が成熟している場合に、ステップS22において、ロボットは該自然表現Aを標準表現Yに直接に変換し、ロボットの理解がまだ成熟していない場合に、ステップS23において、ロボットは該自然表現Aを標準表現Y1に変換してみると共に、ステップS24において、MAUエージェントは該自然表現Aを標準表現Y2に変換する。
【0102】
ステップS32において、ステップS21においてロボットの理解能力が成熟していると判断された場合に、ロボットにより自動変換された結果Yを出力し、そうでない場合に、MAUエージェントによりマニュアルで変換された結果Y2を出力する。
【0103】
好ましくは、ステップS31において、自然表現A、ロボットにより変換してみた結果Y1、MAUエージェントにより変換された結果Y2に対して下記の後続処理を行う。AをX言語情報(左側言語)及びY2(右側言語)に自動的に変換し、一対の新しいデータ対としてMT訓練データセットに入れて、Y1とY2を比較し、「ロボットの理解が成熟しているか否かを判断する」ための統計データとして用いる。好ましくは、オリジナルデータAを保留し、将来のA−>X変換技術がさらに発展する(変換正確率がより高くなる)場合に、MT訓練データセットの左側言語データを更新する。
【0104】
図2は本発明の1つの実施例に係る自然表現の処理及び応答方法を例示的に示すフローチャートである。
【0105】
図2に示す処理では、まず図1の処理と同様に、ステップS12において自然表現Aを受信する。そして、ステップS31において、機械変換で自然表現Aを標準変換Yに変換できるか否かを判断する。該ステップは図1におけるステップS21と同様である。図1の処理と同様に、ステップS31において機械変換で必要な標準表現を取得できないと判断された場合に、ステップS32においてマニュアル変換処理を行う。
【0106】
実際の応用では、マニュアル処理を用いても認識される自然表現又はクライアントにより表現された要求を理解できない場合があり、この場合に、ステップS33においてクライアントに再入力させるための提示で応答し、処理がステップS12に戻り、クライアントにより再入力された自然表現情報Aを受信する。「クライアントに再入力させるための提示の応答」は、例えば音声提示の「すみませんですが、ご要求をもう一度お願いします」、「ゆっくり話してください」、文字提示の「すみませんですが、具体的に記入してください」、又は画像の提示などであってもよい。
【0107】
ステップS34において、機械変換又はマニュアル変換の標準表現を出力する。ステップS35において、該標準表現と一致する標準応答を検索する。標準応答は、データベースに予め記憶された固定データであってもよいし、データベースに標準応答の基礎データを予め記憶し、システムの動作により、基礎データと個別変数パラメータとを併合して生成された標準応答であってもよい。1つの実施例では、標準応答IDを応答データの主キーとして設定し、データベースに標準表現(Y言語情報)の要求コードと標準応答IDの対応関係表を設定し、標準表現(Y言語情報)の要求コードと応答データとを対応付ける。下記の表1〜表3は表現データ表、表現応答関係表及び応答データ表の例をそれぞれ示している。好ましくは、表4に示すように、標準表現と標準応答IDとは多対一の関係であってもよい。また、他の実施例では、標準表現(Y言語情報)の要求コード自信は符号化のものであるため、標準表現(Y言語情報)の要求コードを応答データの主キーとして直接に用いてもよい。
【0108】
【表3】
【0109】
【表4】
【0110】
【表5】
【0111】
【表6】

上述したように、標準表現は、自然表現に関連する情報、例えば表現タイプ、言語タイプ、方言タイプなどを含んでもよい。例えば、クライアントからの自然表現が音声の「受領した」である場合に、変換後の標準表現に基づいて検索された標準応答は音声の「はい、わかった。ありがとう!」である。また、例えば、クライアントからの自然表現が画像の「振込失敗ページのスクリーンショット」である場合に、変換された標準表現に基づいて検索された標準応答はビデオの「振込エラー修正の簡易ガイド」である。
【0112】
データベースには該標準表現と一致する標準応答がない場合に、ステップS36において、マニュアルでそれに対応する応答のマッチングを行ってもよい。マニュアルマッチングは、標準応答IDを入力、或いは選択して、標準表現と該標準応答IDとを関連付けてもよいし、標準表現と応答データとを直接に関連付けてもよいし、新しい応答データを構築してもよい。標準応答が見つからない原因は、該標準表現がマニュアルで新しく追加されたものであることである場合があり、同一タイプの標準応答をマッチングできなかったことである場合もある。
【0113】
そして、ステップS37において、機器マッチング又はマニュアルマッチングされた応答を出力する。異なる情報タイプに応じて応答の内容を呼び出し、或いは生成してもよい。例えば、音声応答について、人間の録音を再生し、或いはTTS(Text To Speech:音声合成)の音声を出力してもよい。ユーザのデジタル操作、例えば、電話キーの順序の組合せ「2−5−1000」について、プログラムを実行することで「クレジットカードは1000元返済」を完成してもよい。
【0114】
また、例えば「母に5000元を振り込み」の文字情報について、プログラムを実行して「X女史に5000元を振り込み」の操作を行う必要があるが、システムが「X女史」の口座情報を予め把握しておらず、マニュアルで該口座情報を追加して標準表現の変換を実現する可能性があり、標準表現の変換を実現しても対応する標準応答を検索できない場合もあるため、マニュアルで応答処理を行う必要がある。この場合に、新しい応答データ(例えば操作プログラム)を生成し、該応答データに新しい標準応答IDを手動又は自動的に割り当て、該標準応答IDと上記変換された標準表現とを関連付ける。よって、クライアントの自然表現への応答を実現でき、マニュアル補助理解及び訓練を実現でき、表現−応答データベースを更新できる。
【0115】
本発明の実施例の自然表現の処理及び応答方法、装置及びシステムによれば、標準表現を用いて応答を迅速に指向でき、ユーザは長い時間を費やして複雑な通常機能メニューを走査して必要なセルフサービスを検索する必要がなくなる。
【0116】
一方、通常の応答方式と異なって、マニュアル操作は主に、標準表現(Y言語情報)の要求コードの決定、応答(又は応答ID)の選択又は応答操作の生成などを含むバックエンドの「ポリシー」操作に限定されるが、フロントエンドで通話又は文字入力(標準表現(Y言語情報)の要求パラメータの入力を除く)等の方式を用いてクライアントと直接にコミュニケーションする必要がない。よって、人件費を大幅に節約でき、作業効率を大幅に向上できる。また、システムのクライアントに提供した標準化応答は、マニュアルエージェントのクライアントに直接に提供した従来の自由な応答に比べて、マニュアルエージェントの気分、音腺、方言、業務熟練度などの要素の影響を受けることがなく、クライアントの体験の安定性を確保できる。
【0117】
さらに、システム(ロボット)の自動学習、訓練及びマニュアル補助理解により、標準化の自然表現と標準表現と標準応答のデータベースを構築でき、システムの自動理解及び応答を徐々に実現できる。また、該データベースは、粒度が小さく、知識範囲が狭く、データの忠実度が高いという利点を有し、ロボット訓練の難しさを低減でき、ロボット知能の成熟周期を短縮できる。
【0118】
図3は本発明の実施例に係る知能応答システムを例示的に示す図である。図3に示すように、該知能応答システムは知能応答装置1(サーバ側に相当する)及び発呼装置2(クライアント側に相当する)を含み、ユーザ8は発呼装置2を介して知能応答装置1と通信し、MAUマニュアルエージェント9(システムサービススタッフ)は知能応答装置1に対してマニュアル操作を行う。ここで、知能応答装置1は、対話ゲートウェイ11、中央制御器12、MAUワークステーション13、ロボット14を含む。好ましくは、知能応答装置1は訓練器15をさらに含む。
【0119】
クライアント8は、機関遠隔販売又は遠隔サービスの対象を指す。遠隔販売は、通常機関が自分専用の電話又はインターネットチャネルを介して、「呼出」(calling out)の形でクライアントに自発的に連絡し、自分の製品又はサービスを販売することを指す。遠隔サービスは、通常機関のクライアントが機関専用の電話又はインターネットを介して、「発呼」(calling in)の形で機関に自発的に連絡し、機関の製品又はサービスを問い合わせ、使用することを指す。
【0120】
発呼装置2は、機関がクライアント8のために遠隔販売(呼出業務)を行い、クライアントに遠隔サービス(発呼業務)を提供するために設定された専用の電話チャネル又はインターネットチャネルであってもよい。電話チャネルシステム、例えば電話コール分配システム(ACD:Automotic Call Distribution)(例えばAvayaのACD)は、機関がバックエンドの自動業務システム(例えば電話キー技術に基づくIVRシステム、又は知能音声技術に基づく新型VP(Voice Portal)音声ポータルシステム)及びマニュアルエージェントを介して、クライアント8と音声の形でインタラクションを行う対話チャネルである。
【0121】
インターネットチャネルコールシステム、例えばインスタントメッセージング(IM:Instant Messaging)技術に基づくインターネットコールセンタシステム(ICC:Internet Call Center)は、機関がバックエンドのクライアントセルフサービスシステム(例えば自然言語処理システム(NLP:Natural Language Processing))及びマニュアルエージェントを介して、クライアント8と文字、音声、画像、ビデオ等の形式でインタラクションを行う対話チャネルである。
【0122】
知能応答装置1は、機関にそのバックエンドの自動業務システム及びマニュアルエージェントを管理させ、クライアント8と文字、音声、画像、ビデオ等のマルチメディアの形で対話を行い、機関とクライアントとの間の標準化及び自動化のインタラクション会話を実現する。
【0123】
対話ゲートウェイ11は、知能応答装置1において「フロントポータル」の役割を機能し、その主な機能として、発呼装置2を介してクライアント8からの不規則な自然表現(文字、音声、画像、ビデオ)及び規則化された非自然表現(例えば電話キー等の形)を受信し、後続処理を行うように中央制御器12に送信し、中央制御器12からのコマンドを受信し、クライアント8への応答(文字、音声、画像、ビデオ、プログラムなどの形)を実現する。
【0124】
図4に示すように、対話ゲートウェイ11は、表現受信機111、身分認証器112、応答データベース113及び応答生成器114を含む。
【0125】
表現受信機111は、発呼装置2を介してクライアント8の表現を受信する。該表現は、上記の各種の不規則な自然表現及び規則化の非自然表現であってもよい。
【0126】
好ましくは、表現受信機111の前に身分認証器112を設ける。身分認証器112は、対話の最初段階でクライアント8の身分を認識、検証してもよい。従来の「パスワード入力」技術(例えば電話キー入力パスワード、キーボード入力ウェブサイト登録パスワードなど)を用いてもよいし、新たな「パスフレーズ(Pass−phrase)+声紋(Voice−print)認識」技術を用いてもよい。また、上記2つの技術を同時に採用してもよい。従来のパスワード検証技術は便利ではないが、マーケットで受け入れられ、よく使われ、重要な対話ノード上(例えば銀行振り込み)でプライマリのクライアント身分認識及び検証手段としてもよく、後者は便利であるが、マーケットで広く受け入れておらず、まだよく使われていないため、非重要な対話ノード上(例えば購入ポイントの確認)でクライアントの体験を大幅に向上するための新たなクライアント身分認識及び検証手段としてもよいし、重要な対話ノードで、前者のセキュリティ性を強化するための補助的な認識及び検証手段としてもよい。
【0127】
身分認証器112を設置し、「パスフレーズ+声紋認識」のクライアント身分認識及び検証方法を用いることで、クライアント体験を向上でき、クライアントが複数の異なるパスワードを暗記する必要がなく、「パスワード入力」の従来方法におけるパスワード紛失の安全リスクを低減できる。また、「パスフレーズ+声紋認識」方法と「パスワード入力」の従来方法とを組み合わせて使用することで、マーケットに受け入れられ、クライアント身分認識及び検証のセキュリティ性をさらに向上できる。
【0128】
応答データベース113はクライアントに応答するための応答データを記憶する。上記の表に示されたように、該データは以下のような複数タイプのデータを含んでもよい。
【0129】
文字:予め編集された文字、例えばネットバンクFAQ(よくある質問)における文字の回答。
【0130】
音声:予め記録された人の録音、又は変数のないTTS音声合成録音、例えば「こんにちは、こちらは未来銀行です。何か手伝えることがありますか」。
【0131】
画像:予め作成された画像、例えば北京の地下鉄ネットワークのマップ。非ビデオの動画、例えば銀行がクライアントにネット銀行で国際送金を行う操作を説明するためのGIFファイル、FLASHファイルなどを含む。
【0132】
ビデオ:予め作成されたビデオ。例えば、アイロンの販売者がクライアントに新製品の使い方を示すためのもの。
【0133】
プログラム:予め編集された一列の指令、例えば、クライアントが話で「中国パートナーを見たい」と表現した場合に、クラウド知能テレビがクライアントの要求に従って動作してクライアントに応答し、即ちまずテレビを自動的にオンにし、クラウドサーバから「中国パートナー」という映画を自動的にダウンロードしてバッファリングして、再生を開始させる。
【0134】
テンプレート:変数を入力できる文字、音声、画像、プログラムテンプレート。
【0135】
応答生成器114は、中央制御器12のコマンドを受信し、応答データベース113におけるデータを呼び出し、且つ/実行することでクライアント8の表現への応答を生成する。具体的には、コマンドにおける標準応答IDに従って、応答データベース113から応答データを検索、呼び出し、或いは文字、画像を表示し、或いは音声、ビデオを再生し、或いはプログラムを実行する。また、コマンドに従って、応答データベース113からテンプレートを呼び出し、コマンドにおいて伝送された変数パラメータに値を入力し、或いはリアルタイムで生成されたTTS音声合成(例えば「クレジットカードの5000元の返済が完了しました」。ここで、「5000元」はコマンドにおける変数である)を再生し、或いは文書を表示し、或いはリアルタイムで生成された画像又は動画を表示し、或いはプログラムを実行してもよい。
【0136】
好ましくは、中央制御器12は、応答データ及び標準応答IDを含む、応答データベース113におけるデータを維持、更新してもよい。
【0137】
中央制御器12は、表現受信機111からのクライアント要求表現情報(不規則な自然表現及び規則化の非自然表現を含む)を受信し、ロボット14及びMAUワークステーションを介するMAUマニュアルエージェント9と協働して、クライアントの不規則な自然表現を上記の方法に従って標準表現に変換し、該標準表現に基づいてそれに対応する標準応答IDを決定し、該標準応答IDを応答生成器114に送信する。好ましくは、中央制御器12はMT訓練データセットにおけるデータを更新してもよい。
【0138】
ロボット14は、上記人工知能技術を実施する応用ロボットである。ロボット14は、文字情報、音声情報、画像情報、ビデオ情報などの自然表現(A言語情報)に対する変換を実施し、標準表現(Y言語情報)を取得する。上述したように、ロボット14の理解能力が所定のレベルに達した場合に、例えば特定のカテゴリの判断理解能力が成熟している場合に、マニュアルエージェントの補助が必要とすることなく、A−>X−>Yの変換を独立して行ってもよい。MT訓練データセットはロボット14内に設けられてもよいし、外に設けられているデータベースであってもよく、その中に記憶された標準表現データ(右側言語)の要求コードは標準応答IDに関連付けられてもよい。該データベースは中央制御器12により更新されてもよい。また、文字翻訳、音声認識、画像認識、ビデオ処理等のためのデータベースは外に設けられたデータベースであってもよいし、ロボット14内に設けられてもよい。
【0139】
MAUワークステーション13は、知能応答装置1とMAUマニュアルエージェント9とのインタフェースである。MAUワークステーション13は、認識された自然表現又はクライアントのオリジナル表現をMAUマニュアルエージェント9に提示する。MAUマニュアルエージェント9は、MAUワークステーション13を介して標準表現を入力し、或いは選択して、MAUワークステーション13は該標準表現を中央制御器12に送信する。好ましくは、マニュアル補助で応答を決定する必要がある場合に、MAUマニュアルエージェント9は、MAUワークステーション13を介して応答(又は標準応答ID)を入力し、或いは選択する。
【0140】
好ましくは、知能応答装置1は訓練器15をさらに含んでもよい。訓練器15は、ロボット14が自然表現を標準表現に変換する能力を訓練する。例えば、訓練器15は、MAUマニュアルエージェント9の判断結果を用いてロボット11を訓練し、ロボット11の各カテゴリ(例えば、上記の業務カテゴリ及び二次的業務カテゴリなど)のロボットの理解正確率を向上する。各カテゴリについて、ロボットの理解正確率が「ロボット理解の成熟閾値」に達していない場合に、訓練器15は、MAUマニュアルエージェント9の標準表現変換結果とロボット11の標準表現変換結果とを比較し、結果が同一であるとき、該カテゴリの「ロボット判断正解回数」及び「ロボット判断回数」に1を加算し、そうでないとき、マニュアル変換結果をMT訓練データセットに追加し、新しいロボット訓練データとする。訓練器15は、ロボット14に上記の「セルフ学習」を行わせるように指示してもよい。
【0141】
また、訓練器15は、ロボット14の例えば文字翻訳、音声認識、画像認識、ビデオ処理などの人工知能技術を訓練してもよい。訓練器15は、MT訓練データセット、文字翻訳、音声認識、画像認識、ビデオ処理のためのデータベースを維持、更新してもよい。
【0142】
好ましくは、訓練器15は、中央制御器12と統合されてもよい。
【0143】
好ましくは、応答生成器114及び応答データベース113は、対話ゲートウェイ11と独立してもよいし、中央制御器12内に統合されてもよい。
【0144】
知能応答装置1は、上記の自然表現の処理及び応答方法を実現できる。例えば、対話ゲートウェイ11は、表現受信機111を介して発呼装置2からクライアント8からの不規則な自然表現情報を受信し、それを中央制御器12に送信する。中央制御器12は、ロボット11に該不規則な自然表現情報をコンピュータで処理可能な特定の形式の言語情報及び関連する表現情報に変換させるように指示し、ロボット11に該言語情報及び関連する表現情報を標準表現に変換させるように指示する。ロボット11の理解力が成熟しておらず、或いはコーパスマッチングを実現しておらず、標準表現の変換を完成できない場合に、中央制御器12は、MAUワークステーション13にMAUマニュアルエージェント9に標準表現のマニュアル変換を提示させるように指示する。MAUマニュアルエージェント9は、ロボット11により認識された言語情報と関連する表現情報を標準表現に変換し、MAUワークステーション13を介して入力し、中央制御器12に送信し、好ましくは、MAUマニュアルエージェント9は、認識されていない不規則な自然表現情報を標準表現に直接に変換してもよい。中央制御器12は、表現−応答データベースを検索し、標準表現と一致する標準応答IDを検索し、マッチング結果がない場合に、MAUワークステーション13を介してMAUマニュアルエージェント9に標準応答の選択及び対応する標準応答IDの入力を行わせるように提示し、好ましくは、MAUマニュアルエージェント9は、標準表現と応答データとを直接に関連付け、或いは新たな応答データを作成してもよい。中央制御器12は、応答生成器14が応答データベース113におけるデータを呼び出し、且つ/或いは実行することでクライアント8の表現への応答を生成するように指示する。そして、対話ゲートウェイ11は、発呼装置2を介してクライアント8に応答し、フィードバックする。好ましくは、中央制御器12は、MAUマニュアルエージェント9により決定、追加された標準表現又は標準応答に基づいてMT訓練データセット又は応答データベースを維持、更新し、表現−応答データベースを合せて維持、更新する。
【0145】
図5はMAUワークステーションがマニュアルエージェント9に提示する操作画面の一例を例示的に示す図である。図5に示すように、MAUワークステーション13の操作画面は、クライアント表現表示エリア131、対話状態表示エリア132、ガイドエリア133、カテゴリ選択エリア134及びショットカットエリア135を含む。
【0146】
クライアント表現表示エリア131は、クライアントの自然表現、例えば文字、画像、音声から変換されたテキストなどの形式を表示する。
【0147】
対話状態表示エリア132は、クライアント8とMAUマニュアルエージェント9又はロボット14との間の対話リアルタイム状態情報、例えば対話の回数、対話の全長、クライアント情報などを表示する。該表示エリアは設けられなくてもよい。
【0148】
ガイドエリア133は、MAUマニュアルエージェント9現在で選択したカテゴリを表示する。該エリアの左側は、現在のカテゴリ経路の文字バージョン(例えば図示の銀行―>クレジットカード)を表示し、右側は該カテゴリのコード(例えば図示の「12」であり、「1」は「銀行」のカテゴリを表し、「2」は「銀行」カテゴリにおける下位カテゴリ「クレジットカード」を表す。上記の例と異なって、該応用では、「BNK」ではなく「1」で「銀行」カテゴリを表しているが、両者の識別の作用は同じである)を表示する。
【0149】
カテゴリ選択エリア134は、MAUマニュアルエージェント9が下位のカテゴリを選択するためのものである。例えば、図5に示すように、MAUマニュアルエージェント9は、「銀行」カテゴリの下位カテゴリ「クレジットカード」に進み、「クレジットカード」カテゴリ内には、「新クレジットカードをアクティブする」、「新カード申請及び申請進捗確認」、「返済」などの7つのサブカテゴリを含む。クライアント8の表現が「クレジットカードの限度が少なすぎる。」の場合に、MAUマニュアルエージェント9は、現在のカテゴリの「銀行−>クレジットカード」において「7」を選択し、ガイドエリアは「銀行―>クレジットカードー>クレジット限度調整……127」の表示に更新して、下位のカテゴリに進む。MAUマニュアルエージェント9は、クライアント8の表現を見た後に、キーボードで「127」を直接に入力し、ターゲットカテゴリ「銀行―>クレジットカードー>クレジット限度調整」に進んでもよい。このように、クライアント8は、時間をかかって複雑な機能メニューツリーを走査して自分の必要なセルフサービスを検索する必要がなく、自分の要求を直接に言えばよく、MAUマニュアルエージェント9は、クライアントのために「クレジットカード限度調整」処理を迅速に実行することができる。これによって、ユーザ体験は容易、便利になり、従来のIVRシステムのセルフサービスフローの利用率を大幅に向上できる。
【0150】
ショットカットエリア135は、MAUマニュアルエージェント9に通常のショットカットキー、例えば元のカテゴリに戻すための「−」、「マニュアルサービス切替」のための「0」、トップ(この例では、ルートカテゴリ「銀行」である)に戻すための「+」を提供する。ショットカットエリアは、MAUマニュアルエージェント9に他のショットカットキーを提供してもよい。ショットカットエリア135は、MAUマニュアルエージェント9の処理速度を向上できる。ショットカットエリア135もオプションの設定領域である。
【0151】
ここで、MAUワークステーション13の操作画面の一例のみを示し、MAUマニュアルエージェント9が標準表現の変換処理を行うためのものである。類似の操作画面を用いて応答のマニュアル処理を行ってもよい。
【0152】
本発明の実施例の知能応答装置は、1つ又は複数のコンピュータ、携帯端末又は他のデータ処理装置により実現されてもよい。
【0153】
本発明の実施例の自然表現の処理及び応答方法、装置及びシステムによれば、標準表現を用いて応答を迅速に指向でき、ユーザは長い時間を費やして複雑な通常機能メニューを走査して必要なセルフサービスを検索する必要がなくなる。
【0154】
ロボットの自動学習、訓練及びマニュアル補助理解により、標準化の自然表現と標準表現と標準応答のデータベースを構築でき、システムの自動理解及び応答を徐々に実現できる。また、該データベースは、粒度が小さく、知識範囲が狭く、データの忠実度が高いという利点を有し、ロボット訓練の難しさを低減でき、ロボット知能の成熟周期を短縮できる。
【0155】
通常の応答方式と異なって、マニュアル操作は主に、標準表現(Y言語情報)の要求コードの決定、応答(又は応答ID)の選択又は応答操作の生成などを含むバックエンドの「ポリシー」操作に限定されるが、フロントエンドで通話又は文字入力(標準表現(Y言語情報)の要求パラメータの入力を除く)等の方式を用いてクライアントと直接にコミュニケーションする必要がない。よって、人件費を大幅に節約でき、作業効率を大幅に向上できる。また、システムのクライアントに提供した標準化応答は、マニュアルエージェントのクライアントに直接に提供した従来の自由な応答に比べて、マニュアルエージェントの気分、音腺、方言、業務熟練度などの要素の影響を受けることがなく、クライアントの体験の安定性を確保できる。
【0156】
また、具体的な業務カテゴリ(ノード)を単位にしてロボットの自動学習、訓練及び成熟度評価を行うことができ、システム全体の知能化を実現できる。実際の応用では、該「ロボット理解が徐々に成熟する」というメカニズムは機関に認可しやすく、受け入れやすく、リスクが相対的に低く、古いシステムの置き換えコストが高くなく、日常運用に悪い影響をもたらすことがない。
【0157】
以上は本発明の例示的な実施形態を説明しているが、本発明の保護範囲を制限するものではなく、本発明の保護範囲は添付されるクレームにより決定される。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10