特許6182272 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 余　自立の特許一覧

特許6182272自然表現の処理方法、処理及び応答方法、装置、及びシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6182272

(24)【登録日】2017年7月28日

(45)【発行日】2017年8月16日

(54)【発明の名称】自然表現の処理方法、処理及び応答方法、装置、及びシステム

(51)【国際特許分類】

G06F 17/27 20060101AFI20170807BHJP

G06F 17/28 20060101ALI20170807BHJP

G06F 17/30 20060101ALI20170807BHJP

【ＦＩ】

G06F17/27 665

G06F17/28 681

G06F17/30 180A

G06F17/30 220Z

【請求項の数】11

【全頁数】34

(21)【出願番号】特願2016-546460(P2016-546460)

(86)(22)【出願日】2014年6月16日

(65)【公表番号】特表2017-503282(P2017-503282A)

(43)【公表日】2017年1月26日

(86)【国際出願番号】CN2014079945

(87)【国際公開番号】WO2015062284

(87)【国際公開日】20150507

【審査請求日】2016年7月12日

(31)【優先権主張番号】201310516340.5

(32)【優先日】2013年10月28日

(33)【優先権主張国】CN

【早期審査対象出願】

(73)【特許権者】

【識別番号】516127167

【氏名又は名称】余自立

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100091214

【弁理士】

【氏名又は名称】大貫進介

(72)【発明者】

【氏名】余自立

【審査官】成瀬博之

(56)【参考文献】

【文献】特開２００５−２４１９７１（ＪＰ，Ａ）

【文献】特開２００２−１０８８５９（ＪＰ，Ａ）

【文献】特開２００７−２２６６４２（ＪＰ，Ａ）

【文献】特開２００６−０２４１１４（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１７／２７−１７／３０

(57)【特許請求の範囲】

【請求項1】

自然表現の処理方法であって、
対話ゲートウェイ（１１）が、ユーザ（８）からの自然表現を受信するステップと、
ロボット（１４）が、中央制御器（１２）の指示に基づいて、前記自然表現を認識し、コンピュータで処理可能な特定の形式の言語情報を取得するステップと、
前記ロボット（１４）又はＭＡＵワークステーション（１３）が、前記中央制御器（１２）の指示に基づいて、表現データベースを用いて、前記言語情報を、ユーザの要求を表す要求コードに変換するステップと、
前記中央制御器（１２）が、前記変換された要求コードを出力するステップと、を含み、
前記表現データベースは、既存の言語情報のデータ、及び該既存の言語情報のデータに対応する要求コードを記憶しており、
前記言語情報を前記要求コードに変換するステップは、
前記中央制御器（１２）が、所定の期間内の前記ロボット（１４）の前記言語情報に対する理解の正確率を評価することで、前記ロボット（１４）の前記言語情報に対する理解が成熟しているか否かを判断するステップと、
前記ロボット（１４）の前記言語情報に対する理解が成熟していると判断された場合、前記ロボット（１４）が、機械変換で前記言語情報を前記要求コードに変換するステップと、
前記ロボットの前記言語情報に対する理解が成熟していないと判断された場合、前記ＭＡＵワークステーション（１３）が、マニュアル変換で前記言語情報を前記要求コードに変換するステップと、を含む、自然表現の処理方法。

【請求項2】

前記要求コードは、デジタルコードで示されている、請求項１に記載の自然表現の処理方法。

【請求項3】

前記ロボット（１４）が、前記言語情報の一部を、ユーザの特定の要求をさらに表す要求パラメータに変換する、請求項１に記載の自然表現の処理方法。

【請求項4】

前記言語情報は、モデリングツールを用いて音声形式の前記自然表現をスポッティングし、変換して得られた言語情報ユニットにより構成されている、請求項１乃至３のいずれかに記載の自然表現の処理方法。

【請求項5】

前記言語情報は、音素、文字及び句のうち１つにより構成されている、請求項１乃至３のいずれかに記載の自然表現の処理方法。

【請求項6】

自然表現の処理及び応答方法であって、
対話ゲートウェイ（１１）が、ユーザ（８）からの自然表現を受信するステップと、
ロボット（１４）が、中央制御器（１２）の指示に基づいて、前記自然表現を認識し、コンピュータで処理可能な特定の形式の言語情報及び関連する表現タイプ情報を取得するステップと、
前記ロボット（１４）又はＭＡＵワークステーション（１３）が、前記中央制御器（１２）の指示に基づいて、表現データベースを用いて、前記言語情報及び前記表現タイプ情報を、ユーザの要求を表す要求コードに変換するステップと、
前記中央制御器（１２）が、前記変換された要求コードと一致する標準応答を呼び出し、或いは生成するステップと、
前記対話ゲートウェイ（１１）が、前記表現タイプ情報に対応する方式で、前記生成された標準応答を出力するステップと、を含み、
前記表現データベースは、既存の言語情報のデータ、既存の表現タイプ情報のデータ、並びに該既存の言語情報のデータ及び該既存の表現タイプ情報のデータに対応する要求コードを記憶しており、
前記言語情報及び前記表現タイプ情報を前記要求コードに変換するステップは、
前記中央制御器（１２）が、所定の期間内の前記ロボット（１４）の前記言語情報に対する理解の正確率を評価することで、前記ロボット（１４）の前記言語情報に対する理解が成熟しているか否かを判断するステップと、
前記ロボット（１４）の前記言語情報に対する理解が成熟していると判断された場合、前記ロボット（１４）が、機械変換で前記言語情報及び前記表現タイプ情報を前記要求コードに変換するステップと、
前記ロボットの前記言語情報に対する理解が成熟していないと判断された場合、前記ＭＡＵワークステーション（１３）が、マニュアル変換で前記言語情報及び前記表現タイプ情報を前記要求コードに変換するステップと、を含む、自然表現の処理及び応答方法。

【請求項7】

前記標準応答はデータベースに予め記憶された固定データであり、或いは
変数パラメータ及びデータベースに予め記憶された標準応答の基礎データに基づいて前記標準応答を生成する、請求項６に記載の自然表現の処理及び応答方法。

【請求項8】

対話ゲートウェイ（１１）、中央制御器（１２）、ＭＡＵワークステーション（１３）、ロボット（１４）、表現データベース、応答データベース（１１３）及び応答生成器（１１４）を含む自然表現の処理及び応答装置（１）であって、
対話ゲートウェイ（１１）は、ユーザ（８）からの自然表現を受信し、中央制御器（１２）に送信して後続の処理を行い、前記自然表現への応答をユーザ（８）に送信し、
中央制御器（１２）は、対話ゲートウェイ（１１）からの自然表現を受信し、ロボット（１４）又はＭＡＵワークステーション（１３）が、前記表現データベースを用いて、該自然表現を、ユーザの要求を表す要求コードに変換し、応答生成器（１４）が前記要求コードに基づいて該要求コードに対応する標準応答を生成するように指示し、
ロボット（１４）は、前記中央制御器（１２）の指示に基づいて、前記自然表現を認識し、コンピュータで処理可能な特定の形式の言語情報を取得し、前記表現データベースを用いて該言語情報を前記要求コードに変換し、
ＭＡＵワークステーション（１３）は、前記中央制御器（１２）の指示に基づいて、認識された自然表現又は前記ユーザ（８）からの自然表現を外部のＭＡＵマニュアルエージェント（９）に提示し、ＭＡＵマニュアルエージェント（９）はＭＡＵワークステーション（１３）を介して要求コードを入力し、或いは選択して、ＭＡＵワークステーション（１３）は該要求コードを中央制御器（１２）に送信し、
前記表現データベースは、既存の言語情報のデータ、及び該既存の言語情報のデータに対応する要求コードを記憶し、
応答データベース（１１３）は、呼び出される標準応答データ及び／又は応答を生成するためのデータを含む応答関連データを記憶し、
応答生成器（１１４）は、中央制御器（１２）のコマンドを受信し、応答データベース（１１３）におけるデータを呼び出し、且つ／或いは実行することで前記ユーザ（８）の自然表現への応答を生成し、
前記中央制御器（１２）は、
所定の期間内の前記ロボット（１４）の前記言語情報に対する理解の正確率を評価することで、前記ロボット（１４）の前記言語情報に対する理解が成熟しているか否かを判断し、
前記ロボット（１４）の前記言語情報に対する理解が成熟していると判断された場合、前記ロボット（１４）に、機械変換で前記言語情報を前記要求コードに変換させ、
前記ロボットの前記言語情報に対する理解が成熟していないと判断された場合、前記ＭＡＵワークステーション（１３）に、マニュアル変換で前記言語情報を前記要求コードに変換させる、自然表現の処理及び応答装置（１）。

【請求項9】

中央制御器（１２）は、前記表現データベース及び／又は前記応答データベース（１１３）を更新する、請求項８に記載の自然表現の処理及び応答装置（１）。

【請求項10】

前記対話ゲートウェイ（１１）は、前記自然表現を受信する前に前記ユーザ（８）の身分を認識し、検証する身分認証器（１１２）をさらに含み、
前記ユーザの身分の検証方法は、少なくともパスフレーズ及び声紋認識を含む、請求項８又は９に記載の自然表現の処理及び応答装置（１）。

【請求項11】

知能応答装置（１）及び発呼装置（２）を含む自然表現の処理及び応答システムであって、ユーザ（８）は発呼装置（２）を介して知能応答装置（１）と通信し、ＭＡＵマニュアルエージェント（９）は知能応答装置（１）を操作し、
前記知能応答装置（１）は、対話ゲートウェイ（１１）、中央制御器（１２）、ＭＡＵワークステーション（１３）、ロボット（１４）、表現データベース、応答データベース（１１３）及び応答生成器（１１４）を含み、
対話ゲートウェイ（１１）は、発呼装置（２）からユーザ（８）からの自然表現を受信し、該自然表現を中央制御器（１２）に送信し、
中央制御器（１２）は、ロボット（１４）が前記自然表現からコンピュータで処理可能な特定の形式の言語情報及び関連する表現タイプ情報を認識するように指示して、ロボット（１４）又はＭＡＵワークステーション（１３）が前記表現データベースを用いて該言語情報及び該表現タイプ情報を、ユーザの要求を表す要求コードに変換するように指示し、
ロボット（１４）は、前記中央制御器（１２）の指示に基づいて、前記自然表現を認識し、コンピュータで処理可能な特定の形式の言語情報及び表現タイプ情報を取得し、前記表現データベースを用いて該言語情報及び該表現タイプ情報を前記要求コードに変換し、
ＭＡＵワークステーション（１３）は、前記中央制御器（１２）の指示に基づいて、認識された自然表現及び該表現タイプ情報又は前記ユーザ（８）からの自然表現を外部のＭＡＵマニュアルエージェント（９）に提示し、ＭＡＵマニュアルエージェント（９）はＭＡＵワークステーション（１３）を介して要求コードを入力し、或いは選択して、ＭＡＵワークステーション（１３）は該要求コードを中央制御器（１２）に送信し、
中央制御器（１２）は、前記要求コードに基づいて、応答生成器（１１４）が応答データベース（１１３）におけるデータを呼び出し、且つ／或いは実行することでユーザ（８）の前記自然表現への応答を生成するように指示し、
対話ゲートウェイ（１１）は、前記応答を発呼装置（２）を介してユーザ（８）にフィードバックし、
前記表現データベースは、既存の言語情報のデータ、既存の表現タイプ情報のデータ、並びに該既存の言語情報のデータ及び該既存の表現タイプ情報のデータに対応する要求コードを記憶しており、
前記中央制御器（１２）は、
所定の期間内の前記ロボット（１４）の前記言語情報に対する理解の正確率を評価することで、前記ロボット（１４）の前記言語情報に対する理解が成熟しているか否かを判断し、
前記ロボット（１４）の前記言語情報に対する理解が成熟していると判断された場合、前記ロボット（１４）に、機械変換で前記言語情報及び前記表現タイプ情報を前記要求コードに変換させ、
前記ロボットの前記言語情報に対する理解が成熟していないと判断された場合、前記ＭＡＵワークステーション（１３）に、マニュアル変換で前記言語情報及び前記表現タイプ情報を前記要求コードに変換させる、自然表現の処理及び応答システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理方法に関し、具体的に、人間の自然表現の処理方法、該自然表現の処理及び応答方法、並びに該処理及び応答方法を適用する情報処理装置及び情報処理システムに関する。

【背景技術】

【0002】

機械翻訳（ＭＴ：ＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ。一般に「機訳」と称する）は計算言語学（ＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ）の範囲に属し、コンピュータプログラムを用いて文字又は音声の表現を１つの自然言語からもう１つの自然言語に翻訳する。ある意味では、異なる自然言語間の語彙の置き換えを実現した。さらには、コーパス技術を使用することで、より複雑な自動翻訳を実現でき、異なる文法構造、語彙認識、慣用語の対応付けをよりよく処理できる。

【0003】

従来の機械翻訳ツールは、通常、特定分野又は専門（例えば天気予報）についてカスタマイズ化することができ、その目的は、語彙の翻訳を該特定分野の専門用語に絞り込み、翻訳の結果を改善することである。この技術は、正規又は標準化の陳述方式の分野にとって特に有効である。例えば、政府機関又は法律の関連文書は、通常の文字表現に比べてより正式、標準化のものであり、その機械翻訳の結果は日常生活の対話のような非正式の文書よりもよい。

【0004】

しかし、機械翻訳の結果の品質は、常に翻訳前の言語と翻訳後の言語との間の語彙、文法構造、語族及び文化の差異によって決定されるものであり、例えば英語とオランダ語は共にインド・ヨーロッパ語族のゲルマン語群であり、この２つの言語間の機械翻訳の結果は、通常、中国語と英語との間の機械翻訳の結果よりも遥かによい。

【0005】

従って、機械翻訳の結果を改善するために、人為的な介入は依然として非常に重要であり、例えば、機械翻訳のシステムでは、人為的に語彙を定義し、或いは語彙を選択することができれば、機械翻訳の正確性及び品質を大幅に改善できる。

【0006】

従来の翻訳ツール、例えばＡｌｔａＶｉｓｔａＢａｂｅｌｆｉｓｈは、理解できる翻訳結果を取得できる場合はあるが、より意味のある翻訳結果を取得するために、コンピュータプログラムに解析させるように、文章を入力する際に常に適切に編集する必要がある。

【0007】

一般的には、一般の人の機械翻訳の利用目的は、正確な翻訳を取得することではなく、単なる原文の句又は段落の要旨を知ることだけである。全体的に言うと、機械翻訳は専門（人工）翻訳に代わる程度に達しておらず、正式な翻訳に成り得ていない。

【0008】

自然言語処理（ＮＬＰ：ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ）は人工知能及び言語学分野の下位専門学である。この分野では自然言語の処理及び運用が検討されている。自然言語認識は、コンピュータに人類の言語の裏の意味を「理解」させることを指す。

【0009】

自然言語の生成システムは、コンピュータデータを自然言語に変換する。自然言語の理解システムは、自然言語を、コンピュータで処理しやすい形式に変換する。

【0010】

理論的には、ＮＰＬは、非常に魅力的なヒューマンコンピュータインタラクション方式である。初期の言語処理システム、例えばＳＨＲＤＬＵは、有限の「積み木の世界」に位置し、有限の語彙表を用いて会話を行う場合に、非常にうまく機能している。これによって、研究者たちはこのシステムに対して非常に楽観的である。しかし、このシステムが実世界の曖昧さ及び不確実性の満ちている環境に拡張された場合に、彼らはすぐに自信を失ってしまった。自然言語を理解（Ｕｎｄｅｒｓｔａｎｄｉｎｇ）する際に、外部世界の広い範囲の知識及びこれらの知識の運用能力が必要であるため、自然言語の認識が人工知能完備（ＡＩ−Ｃｏｍｐｌｅｔｅ）の問題とも見なされている。

【0011】

統計に基づく自然言語の処理は、確率及び統計の方法を用いて文法規則に基づく自然言語処理の問題を解決する。特に、曖昧さの多い長い文書について、実際の文法をそのまま利用して解析する場合に、複数の可能性が生じる場合がある。このような曖昧さの多い文書を処理するために用いられる曖昧さの回避方法は、常にコーパス及びマルコフモデル（Ｍａｒｋｏｖｍｏｄｅｌｓ）を用いる。自然言語処理の統計技術は、主に人工知能技術における学習行動に関連するサブ分野、即ち機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）及びデータマイニング（ＤａｔａＭｉｎｉｎｇ）から進化したものである。

【0012】

しかし、統計に基づく自然言語の処理方法は、コンピュータに学習、使用させるように、膨大なデータ量の言語コーパス対を含むコーパスを構築する必要があるが、データ量の多いコーパスから対応する機械翻訳（理解）結果を検索してフィードバックするには、非常に多い計算リソースにより支持される必要がある。また、この方法を用いても、実際の自然言語の多様性及び不確実性を対応するのは非常に困難である。

【0013】

自然言語の処理技術は実際には幅広く適用されている。例えば、対話型音声応答システム及びインターネットコールセンタ等に適用されている。

【0014】

対話型音声応答（ＩＶＲ：ＩｎｔｅｒａｃｔｉｖｅＶｏｉｃｅＲｅｓｐｏｎｓｅ）は電話に基づく音声付加価値サービスの総称である。多くの機関（例えば銀行、クレジットカードセンタ、通信事業者など）は対話型音声応答システム（ＩＶＲＳ：ＩｎｔｅｒａｃｔｉｖｅＶｏｉｃｅＲｅｓｐｏｎｓｅＳｙｓｔｅｍ）を介してクライアントに各種のセルフサービスを提供し、クライアントは所定の電話番号を呼び出し、システムにアクセスし、システムの指示に従って、適切な選択肢又は個人情報を入力し、予め記録された情報を聞き、或いはコンピュータシステムにより予め設定されたプログラム（ＣａｌｌＦｌｏｗ）組み合わせデータを介して、音声の方式で特定の資料（例えば口座残高、支払金額など）を読み出してもよいし、システムを介して取引指示を入力し、所定の取引（例えば振込、パスワード変更、連絡先電話番号の変更など）を行ってもよい。

【0015】

ＩＶＲシステムは過去１０数年間で広く適用されているが、技術上では、ＩＶＲシステムは、多層のオプション・メニュー・ツリーを簡素化できない、という最初から現在まで依然として全ての機関の悩む欠点がある。ユーザはＩＶＲシステムを用いてセルフサービスを選択する際に、多くのユーザは時間をかかって多層オプションのメニュー・ツリーを走査することなく、「０」ボタンを直接に押してマニュアル・カスタマ・サービスを選択するため、機関のＩＶＲシステムへの「クライアントのセルフサービスの使用率を効率的に向上し、マニュアル操作に代わる」という要望と現実との間に大きなギャップがある。

【0016】

インターネットコールセンタシステム（ＩＣＣＳ：ＩｎｔｅｒｎｅｔＣａｌｌＣｅｎｔｅｒＳｙｓｔｅｍ）は、近年流行っている新型のコールセンタシステムであり、流行っているインスタントメッセージング（ＩＭ：ＩｎｓｔａｎｔＭｅｓｓａｇｉｎｇ）のインターネット技術を用いて、機関とそのクライアントとにインターネット上で主にテキストに基づくリアルタイムのコミュニケーションを行わせるものであり、機関のカスタマサービス及び遠隔販売に適用される。ＩＣＣＳを用いるマニュアルエージェントは、２つ以上のクライアントと同時にコミュニケーションを行うことができる。

【0017】

テキストに基づくＩＣＣシステムが音声に基づくＩＶＲシステムの変形であるとも言え、両者は共に機関とそのクライアントとの間のコミュニケーション（カスタマサービスでも、遠隔販売でも）に必要なツールであり、両者は共にマニュアルエージェントの高度な介入が必要とする。従って、ＩＶＲシステムと同様に、ＩＣＣシステムも「クライアントのセルフサービスの使用率を効率的に向上し、マニュアル操作に代わる」という要望を満足できない。

【0018】

一方、従来の音声認識技術は、正確性及び安定性のない音声認識結果に基づいて、キーワード検索技術を用いて、「網羅的手法」を用いて音声の語彙解説を行う。多くの音声認識技術の会社は「音訳（Ｔｒａｎｓｃｒｉｐｔｉｏｎ）」及び「キーワードスポッティング（ＫｅｙｗｏｒｄＳｐｏｔｔｉｎｇ）」という２つの作業で巨大な力及び金をかかり、音声ロボットを一所懸命に訓練しているが、実際の効果と理想的な効果とは常に大きな差がある。

【発明の概要】

【課題を解決するための手段】

【0019】

本発明の１つの態様では、自然表現の処理方法であって、ユーザからの自然表現を認識し、コンピュータで処理可能な特定の形式の言語情報を取得するステップと、認識して得られた言語情報を符号化形式の標準表現に変換するステップと、を含む、自然表現の処理方法を提供する。

【0020】

本発明の実施例の自然表現の処理方法では、好ましくは、前記標準表現は、ユーザの要求を表す要求コードを含む。

【0021】

本発明の実施例の自然表現の処理方法では、好ましくは、前記要求コードは、デジタルコードで示されている。

【0022】

本発明の実施例の自然表現の処理方法では、好ましくは、前記標準表現は、ユーザの特定の要求をさらに表す要求パラメータをさらに含む。

【0023】

本発明の実施例の自然表現の処理方法では、好ましくは、前記言語情報は、モデリングツールを用いて音声形式の前記自然表現をスポッティングし、変換して得られた言語情報ユニットにより構成されている。

【0024】

本発明の実施例の自然表現の処理方法では、好ましくは、前記言語情報は、音素、文字及び句のうち１つにより構成されている。

【0025】

本発明の実施例の自然表現の処理方法では、好ましくは、前記言語情報と前記標準表現とのＭＴ（ＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ：機械翻訳）訓練データセットに基づいて、前記言語情報から前記標準表現への変換を行う。

【0026】

本発明の実施例の自然表現の処理方法では、好ましくは、前記自然表現を認識すると共に、該自然表現に関連する情報を取得し、該情報を前記標準表現の一部に変換する。

【0027】

本発明のもう１つの態様では、人工知能ロボットの訓練方法であって、ＭＴ訓練データセットを構築するステップであって、該ＭＴ訓練データセットは、自然表現を変換して得られたコンピュータで処理可能な言語情報、符号化された標準表現、及び前記言語情報と前記標準表現との対応関係を含む、ステップと、人工知能ロボットが、前記ＭＴ訓練データセットにおける既存の前記言語情報の要素の各種の順列及び組合せと前記標準表現の要素の各種の順列及び組合せとを反復的に比較し、前記言語情報の要素の順列及び組合せと前記標準表現の要素の順列及び組合せとの対応関係を検索するステップと、を含む、人工知能ロボットの訓練方法を提供する。

【0028】

本発明の実施例の人工知能ロボットの訓練方法では、好ましくは、前記ＭＴ訓練データセットのデータは、外部データベースから導入されてもよいし、マニュアル補助理解により生成され、追加されてもよい。

【0029】

本発明のもう１つの態様では、自然表現の処理方法であって、自然表現を入力するステップと、前記自然表現を認識し、コンピュータで処理可能な特定の形式の言語情報を取得するステップと、機械変換で前記言語情報を、符号化された標準表現に変換できるか否かを判断するステップと、機械変換で必要な標準表現を取得できないと判断された場合に、マニュアル変換処理を行うステップと、機械変換又はマニュアル変換の標準表現を出力するステップと、を含む、自然表現の処理方法を提供する。

【0030】

本発明の実施例の自然表現の処理方法では、好ましくは、前記判断は、ロボットの理解が成熟しているか否かについての判断であり、ロボットの理解が成熟しているか否かについての判断は、所定の期間内のロボットの理解の正確率を評価することによって行われる。

【0031】

本発明のもう１つの態様では、自然表現の処理及び応答方法であって、自然表現を入力するステップと、前記自然表現を認識し、コンピュータで処理可能な特定の形式の言語情報及び関連する表現タイプ情報を取得するステップと、機械変換で、認識された言語情報及び表現タイプ情報を、符号化された標準表現に変換できるか否かを判断するステップと、機械変換で必要な標準表現を取得できないと判断された場合に、マニュアル変換処理を行うステップと、前記機械変換又はマニュアル変換の標準表現と一致する標準応答を呼び出し、或いは生成するステップと、前記表現タイプ情報に対応する方式で、前記生成された標準応答を出力するステップと、を含む、自然表現の処理及び応答方法を提供する。

【0032】

本発明の実施例の自然表現の処理及び応答方法では、好ましくは、前記標準応答はデータベースに予め記憶された固定データであり、或いは変数パラメータ及びデータベースに予め記憶された標準応答の基礎データに基づいて前記標準応答を生成する。

【0033】

本発明のもう１つの態様では、対話ゲートウェイ、中央制御器、ＭＡＵワークステーション、ロボット、表現データベース、応答データベース及び応答生成器を含む自然表現の処理及び応答装置であって、対話ゲートウェイは、ユーザからの自然表現を受信し、中央制御器に送信して後続の処理を行い、前記自然表現への応答をユーザに送信し、中央制御器は、対話ゲートウェイからの自然表現を受信し、ロボット及びＭＡＵワークステーションと協働し、該自然表現を、符号化された標準表現に変換し、前記標準表現に基づいて応答生成器に該標準表現に対応する標準応答を生成させるように指示し、ロボットは、前記中央制御器の指示に基づいて、前記自然表現を認識し、コンピュータで処理可能な特定の形式の言語情報を取得し、前記表現データベースを用いて該言語情報を前記標準表現に変換し、ＭＡＵワークステーションは、認識された自然表現又は前記ユーザからの自然表現を外部のＭＡＵマニュアルエージェントに提示し、ＭＡＵマニュアルエージェントはＭＡＵワークステーションを介して標準表現を入力し、或いは選択して、ＭＡＵワークステーションは該標準表現を中央制御器に送信し、表現データベースは、前記自然表現に関連する前記言語情報データ、前記標準表現に関連する標準表現データ、及び前記言語情報と前記標準表現との関係に関連するデータを含む表現関連データを記憶し、応答データベースは、呼び出される標準応答データ及び／又は応答を生成するためのデータを含む応答関連データを記憶し、応答生成器は、中央制御器のコマンドを受信し、応答データベースにおけるデータを呼び出し、且つ／或いは実行することで前記ユーザの自然表現への応答を生成する、自然表現の処理及び応答装置を提供する。

【0034】

本発明の実施例の自然表現の処理及び応答装置では、好ましくは、中央制御器は、前記表現データベース及び／又は前記応答データベースを更新する。

【0035】

本発明の実施例の自然表現の処理及び応答装置では、好ましくは、前記自然表現の処理及び応答装置は、前記ロボットが前記自然表現を前記標準表現に変換することを訓練する訓練器をさらに含む。

【0036】

本発明の実施例の自然表現の処理及び応答装置では、好ましくは、前記対話ゲートウェイは、前記自然表現を受信する前に前記ユーザの身分を認識し、検証する身分認証器をさらに含み、前記ユーザの身分の検証方法は、少なくともパスフレーズ及び声紋認識を含む。

【0037】

本発明のさらにもう１つの態様では、知能応答装置及び発呼装置を含む自然表現の処理及び応答システムであって、ユーザは発呼装置を介して知能応答装置と通信し、ＭＡＵマニュアルエージェントは知能応答装置を操作し、前記知能応答装置は、対話ゲートウェイ、中央制御器、ＭＡＵワークステーション、ロボット、表現データベース、応答データベース及び応答生成器を含み、対話ゲートウェイは、発呼装置からユーザからの自然表現を受信し、該自然表現を中央制御器に送信し、中央制御器は、ロボットが前記自然表現からコンピュータで処理可能な特定の形式の言語情報及び関連する表現情報を認識するように指示して、ロボットが該言語情報及び関連する表現情報を標準表現に変換するように指示し、ロボットの理解が成熟せず、標準表現の変換を完成できない場合に、中央制御器は、ＭＡＵワークステーションがＭＡＵマニュアルエージェントに標準表現のマニュアル変換を行わせるように促すように指示し、ＭＡＵマニュアルエージェントはロボットにより認識された前記言語情報及び関連表現情報を標準表現に変換し、ＭＡＵワークステーションを介して該標準表現を中央制御器に入力し、送信し、中央制御器は、前記標準表現に基づいて、応答生成器が応答データベースにおけるデータを呼び出し、且つ／或いは実行することでユーザの前記自然表現への応答を生成するように指示し、対話ゲートウェイは、前記応答を発呼装置を介してユーザにフィードバックする、自然表現の処理及び応答システムを提供する。

【0038】

本発明の実施例の自然表現の処理方法によれば、自然表現を符号化された標準表現に変換でき、該標準表現の変換は自然表現の語意をコード及びパラメータに変換することであり、正確な逐語的翻訳を行う必要がないため、機械翻訳の精度への要求を低減でき、表現変換（機械翻訳）を実現するためのデータベースの複雑さを低減でき、データの検索、更新の速度を向上でき、知能処理の性能を向上できる。一方、比較的に簡単な符号化された表現により、マニュアル補助介入の作業負荷を低減でき、マニュアル補助介入の作業効率を向上できる。

【0039】

本発明の実施例の自然表現の処理及び応答方法、装置及びシステムによれば、標準表現を用いて応答を迅速に指向でき、ユーザは長い時間を費やして複雑な通常機能メニューを走査して必要なセルフサービスを検索する必要がなくなる。また、ロボットの自動学習、訓練及びマニュアル補助理解により、標準化の自然表現と標準表現と標準応答のデータベースを構築でき、システムの自動理解及び応答を徐々に実現できる。また、該データベースは、粒度が小さく、知識範囲が狭く、データの忠実度が高いという利点を有し、ロボット訓練の難しさを低減でき、ロボット知能の成熟周期を短縮できる。

【図面の簡単な説明】

【0040】

本発明の実施例の態様をより明確に説明するために、以下は実施例の図面を簡単に紹介し、なお、後述する図面は単なる本発明の実施例に関するものであり、本発明を制限するものではない。

【図1】本発明の１つの実施例に係る自然表現の処理方法を例示的に示すフローチャートである。

【図2】本発明の１つの実施例に係る自然表現の処理及び応答方法を例示的に示すフローチャートである。

【図3】本発明の実施例に係る知能応答システムを例示的に示す図である。

【図4】図３のシステムにおける知能応答装置の一部の構成をさらに示す図である。

【図5】ＭＡＵワークステーションがマニュアルエージェントに提示する操作画面の一例を例示的に示す図である。

【図6】音声情報の認識の一例を示す図である。

【図7】ガウス混合モデルを用いて捕集された音波をＸ要素に変換する例を示す図である。

【図8】捕集された音波（Ａ言語情報）からＹ言語情報への変換の一例を示す図である。

【図9】捕集された音波（Ａ言語情報）からＹ言語情報へ層毎に変換するプロセスを総合的に示す図である。

【図10】多層感知の原理を示す図である。

【発明を実施するための形態】

【0041】

以下、本発明の目的、態様及び効果をより明確にするために、本発明の実施例の図面を参照しながら、本発明の実施例の態様を明確、完全に説明する。なお、後述する実施例は本発明の一部の実施例であり、全ての実施例ではない。当業者が後述する本発明の実施例に基づいて創造的労働を行わずに取得した全ての他の実施例は、本発明の保護範囲に属する。

【0042】

別段の定義がない限り、ここで使用される技術用語又は科学用語は本発明の所属する分野内の当業者により理解される通常の意味でなければならない。本発明の明細書及びクレームに使用される「第１」、「第２」及び同様な用語は、如何なる順序、数量又は重要性を示すものではなく、単なる異なる構成要件を区別するために用いられるものである。同様に、「１つ」又は「一」等の用語も数量の限定を表すことではなく、少なくとも１つ存在することを表す。

【0043】

本発明の実施例の自然表現の処理方法は、例えば上述した対話型音声応答ＩＶＲ又はインターネットコールセンタシステムＩＣＣＳのカスタマサービスシステム又は他の遠隔カスタマコンタクトシステム（例えば電話販売システム、ネットワーク販売システム、ＶＴＭ知能遠隔端末器など）に適用されてもよい。上述したように、このような応用では、機械翻訳への要求は、逐語の正確な意味ではなく、クライアントの自然表現とシステム理解可能な情報に変換して、クライアントにその表現に対応する応答を提供することである。即ち、ここでの機械翻訳は、人間言語の裏の実質的な意味の理解を重要視し、コンピュータで処理しやすい形式で、自然表現から「理解」されたクライアントの実際の意図又は要求を表す。

【0044】

本発明の実施例の自然表現の処理方法は、まず、ユーザからの自然表現を認識し、或いは変換し、コンピュータで処理可能な特定の形式の言語情報を取得し、そして、認識して得られた言語情報を特定の形式の標準表現に変換する。

【0045】

ユーザからの物理的データ形式で表された不規則な自然表現情報、例えば音波は、「物理層言語情報」と称され、以下は「Ａ言語情報」とも略称される。モデル構築ツールにより、基本的な自動認識又は変換が行われ、幾つかの基本要素（以下は「Ｘ要素」と称される）の順列及び組合せの形式で表される第１の論理層言語（以下は「Ｘ言語」）情報が取得される。Ａ言語情報を認識し、或いは変換して得られたＸ言語情報を、更に変換して生成された特定の形式の標準表現は、以下は「Ｙ言語情報」と称される。

【0046】

人間の自然表現方法は多種多様であり、例えば、クライアントからの自然表現、即ち「Ａ言語情報」を４種類、即ち文字情報、音声情報、画像情報及び動画情報に分けてもよい。

【0047】

ここで、文字情報表現は、クライアントがキーボードで文字を入力して表現されたもの、例えばクライアントが銀行のインターネットチャネルコールセンタのユーザインターフェースで入力した「私の貯金口座にいくらのお金があるか？」であってもよい。画像情報表現は、クライアントが画像により表現されたもの、例えばクライアントがコンピュータのデスクトップの画面キャプチャツールを用いて、ソフトウェアのエラーメッセージのキャプチャして、発生した問題を画像の形で表現するものであってもよい。音声情報は、クライアントが話で表現されたもの、例えばクライアントが銀行のサービスホットライン（電話チャネルコールセンタ）でカスタマサービススタッフと会話を行い、その時に電話で話した「一体どういう意味ですか？よくわかりませんが」であってもよい。動画（「ビデオ」とも称される）情報表現は、クライアントがカメラの前で頭を振って表現された同意しないことであってもよい。

【0048】

上述したように、クライアントの自然表現（Ａ言語情報）を自動的に認識し、或いは変換して、特定の形式で表される情報を取得する。Ａ言語情報が音声情報の場合に、例えばモデル構築ツールにより音波波形情報を捕集して、システム（知能ロボット）により特定の（音声情報に対応する）Ｘ言語に自動認識、或いは変換してもよい。Ａ言語情報が図形情報の場合に、例えばモデル構築ツールにより図形画素情報を捕集して、システム（知能ロボット）により（画像情報に対応する）Ｘ言語に自動認識し、或いは変換してもよい。Ａ言語情報が動画情報の場合に、例えばモデル構築ツールにより図形画素情報及び画像変化速度情報を捕集して、システム（知能ロボット）により（動画情報に対応する）Ｘ言語に自動認識し、或いは変換してもよい。Ａ言語情報が文字情報の場合に、変換する必要がない。

【0049】

そして、上記のＡ言語情報から自動変換して得られたＸ言語情報又は変換する必要のない文字情報を、コンピュータ又は他の処理装置で「理解」可能な規則化された標準表現（Ｙ言語情報）に「翻訳」する。Ｙ言語情報は、コンピュータ作業システムで自動的に処理されることができる。

【0050】

本発明の実施例では、規則化のコードを用いて、上記規則化の標準表現（Ｙ言語情報）を実現してもよい。例えば、業界コード、業界業務コード、機関コード、機関業務コード及び表現情報コードを含むコード方式を用いてもよい。

【0051】

（１）業界コード
主業界（２桁の英語アルファベットで、最大２６×２６＝６７６個の主業界）
サブ業界（３桁の英語アルファベットで、各主業界は最大２６×２６×２６＝１７５７６個のサブ業界を有する）
（２）業界業務コード
第１レベルの業界業務カテゴリ（１桁の数字０−９）
第２レベルの業界業務カテゴリ（１桁の数字０−９）
第３レベルの業界業務カテゴリ（１桁の数字０−９）
第４レベルの業界業務カテゴリ（１桁の数字０−９）
第５レベルの業界業務カテゴリ（１桁の数字０−９）
第６レベルの業界業務カテゴリ（１桁の数字０−９）
第７レベルの業界業務カテゴリ（１桁の数字０−９）
第８レベルの業界業務カテゴリ（１桁の数字０−９）
第９レベルの業界業務カテゴリ（１桁の数字０−９）
第１０レベルの業界業務カテゴリ（１桁の数字０−９）
（３）機関コード（ＵＩＤ）（２４桁の数字＝国番号３桁＋都市番号３桁＋機関番号１８桁）
（４）機関業務コード
第１レベルの機関業務カテゴリ（０−９）
第２レベルの機関業務カテゴリ（０−９）
第３レベルの機関業務カテゴリ（０−９）
第４レベルの機関業務カテゴリ（０−９）
第５レベルの機関業務カテゴリ（０−９）
（５）表現情報コード
情報タイプコード（２桁の数字１−９９）
言語コード（ＲＦＣ３０６６標準：http://tools.ietf.org/html/rfc3066を用い、例えばｚｈ−ＣＮは「簡体字中国」を表す）
方言コード（３桁の数字１−９９９）
ここで、業界コードは、クライアントからの不規則な自然表現（Ａ言語情報）により示されるサービスを提供する主体の所在する業界を表し、例えば２桁の英語アルファベットで示され、６７６個の業界を含んでもよく、好ましくは、３桁の英語アルファベットのサブ業界コードを追加して、各業界で１７５７６個のサブ業界を含んでもよい。このように、該コードは全ての通常の業界を基本的にカバーできる。業界業務コードは、クライアントからのＡ言語情報により示されるサービス要求を表し、複数桁の数字で示され、例えば１０桁の数字で符号化され、より多くの業界業務をカバーできる。機関コードは、クライアントからのＡ言語情報により示されるサービスを提供する主体を表し、例えば該機関の所在する国及び都市を示してもよい。機関業務コードは、機関が個別化の内部管理を行うように、サービスを提供する主体の内部の個別化サービスの区分を表す。表現情報コードは、クライアントのＡ言語情報自身の識別情報を表し、情報のタイプ、言語のタイプ等を含んでもよく、数字及びアルファベットで表される。

【0052】

以下は、上記のコード方式で規則化された標準表現（Ｙ言語情報）の２つの例である。

【0053】

例１：FSBNK27100000000860109558800000000000000000002zh-CN003
ここで、
業界コードは
・ＦＳ＝ＦｉｎａｎｃｉａｌＳｅｒｖｉｃｅ金融サービス（主業界）
・ＢＮＫ＝Ｂａｎｋ銀行（サブ業界）
業界業務コードは、
・２７１０００００００＝第１レベルの業界業務カテゴリ−２（クレジットカード）第２レベルの業界業務カテゴリ−７（クレジット限度の調整）第３レベルの業界業務カテゴリ−１（クレジット限度の増加）０００００００（さらに細かいカテゴリがない）
機関コードは、
・０８６０１０９５５８８０００００００００００００＝=国番号０８６（中国）０１０（北京）９５５８８０００００００００００００（中国工商銀行本店）
機関業務コードは、
・０００００＝機関業務カテゴリなし（このＹ言語情報では、「中国工商銀行本店」という機関により定義された機関業務カテゴリがなく、該Ｙ言語情報が業界業務カテゴリに完全に属し、銀行業界で共通することを意味する）
表現情報コードは、
・０２＝音声（クライアントにより提供されたＡ言語情報のタイプは「音声」である）
・ｚｈ−ＣＮ＝中国の中国語
・００３＝広東語方言
この例では、該Ｙ言語情報に対応するＡ言語情報は、例えば「私のクレジットカードの限度が少なすぎる」、「私のクレジットカードの限度を増やしたい」、「私のクレジットカードの限度を減らしたい」、「私のクレジットカードの限度を調整したい」等の音声情報であってもよい。

【0054】

特定の応用シナリオでは、特にサービスを提供する主体が決定された場合に、上述した業界コード、機関コード及び機関業務コードは共にシステムデフォルト値として予め設定されてもよい。即ち、クライアントにより提供されたＡ言語情報から業務コード及び表現情報コードのみを取得すればよく、この場合に、Ｙ言語情報を「271000000002zh-CN003」と表してもよい。又は、特定応用について３桁の数字で業界業務コードのみを表してもよく、「27102zh-CN003」とさらに表してもよい。また、音声サービスの場合に、「271zh-CN003」と表してもよい。クライアントの要求表現のみを考慮し、表現自信のタイプ情報を考慮しない場合に、さらに「271」と表してもよい。

【0055】

例２：TVTKT11200000000014047730305000000000001240003fr-CH000
・ＴＶ＝ＴｒａｖｅｌｉｎｇＳｅｒｖｉｃｅ旅行サービス（主業界）
・ＴＫＴ＝Ｔｉｃｋｅｔｉｎｇチケット業務（サブ業界）
・１１２０００００００＝第１レベルの業務カテゴリ−１（航空券）第２レベルの業務カテゴリ−１（航空券変更）第３レベルの業務カテゴリ−２（延期）０００００００（さらに細かいカテゴリがない）
・001404773030500000000000＝国番号００１（米国）４０４（ジョージア州、アトランタ市） 773030500000000000（米デルタ航空会社）
・１２４００＝第１レベルの業務カテゴリ−１（割引チケット）第２レベルの業務カテゴリ−２（ローシーズン）第３レベルの業務カテゴリ−４（アジア太平洋）００（さらに細かいカテゴリがない）
・０３＝画像（クライアントにより提供されたＡ言語情報のタイプが「画像」であり、例えばクライアントがＤｅｌｔａの公式ウェブサイト上で航空券変更操作を行う際に、システムエラーが発生し、クライアントがその画面をキャプチャし、Ｄｅｌｔａカスタマサービスヘルプへの自然表現とする）
・ｆｒ−ＣＨ＝スイスのフランス語
・０００＝方言なし
この例では、Ｙ言語情報に対応するＡ言語情報は画像を認識して得られる。同様に、サービスを提供する主体が決定された場合に、上記の業界コード、機関コードをシステムデフォルト値として設定されてもよい。この場合に、Ｙ言語情報を「11200000001240003fr-CH000」と表してもよい。クライアントの要求表現のみを考慮し、表現自信のタイプ情報を考慮しない場合に、「112000000012400」のみで表されてもよい。特定の応用について３桁の数字で業界業務コードを表し、３桁の数字で機関業務コードを表す場合に、「112124」で表されてもよい。

【0056】

以上は、単なる本発明の実施例の規則化された標準表現（Ｙ言語情報）の例であり、異なるコード桁数及びコード配列順序を用いてもよいし、異なるコード表示又はコード方式を用いてもよい。

【0057】

クライアントからの自然表現（Ａ言語情報）は常に該クライアントの具体的な要求を表し、例えば、上述したように、クライアントのＡ言語情報をＸ言語情報に自動的に変換し、或いは変換する必要がない言語情報であり（Ａ言語情報が文字情報である場合）、Ｘ言語情報又は文字言語情報を符号化形式の標準表現（Ｙ言語情報）に変換する。上記の例では、Ｙ言語情報は、業界コード、業界業務コード、機関コード、機関業務コード及び表現情報コードを含んでもよい。好ましくは、Ａ言語情報は、クライアントの要求カテゴリにおける具体的なパラメータ（「要求パラメータ」と称されてもよい）、例えば「５０００元を張三に振り込む」（例１）、「「中国パートナー」という映画を見たい」（例２）等を含んでもよい。特定の要求コード集合（例えば上記の業界コード、業界業務コード、機関コード、機関業務コード及び表現情報コードのうち１つ又は複数を含む）は特定のパラメータ集合に対応する。例えば、上記の例２では、「映画を見る」の要求コードが１２３である場合に、それに対応するパラメータ集合は映画名称というパラメータを含んでもよい。このＡ言語情報に対応するＹ言語情報は「１２３「中国パートナー」」である。１２３は要求コードであり、「」内の５つの中国語文字は要求パラメータである。Ｙ言語情報では、要求コードと要求パラメータを区別する方法は複数種類があり、「」という記号を用いてもよいし、スペースを用いてもよいし、特定の順序で配列することなどの方式を用いてもよい。上記のクライアントのＡ言語情報をコンピュータで処理可能な特定の言語形式の情報に変換するプロセスは、音声情報処理技術、音声認識技術、画像認識技術及びビデオ処理技術で実現されてもよく、これらの技術は既存の技術であってもよい。実際には、本発明の実施例の符号化の標準表現の発想は、自然表現の認識処理に適用されてもよい。

【0058】

以下は、音声情報の処理を一例にして、自然表現の認識処理を紹介し、本発明の技術的思想の自然表現の認識処理における応用をさらに説明する。図６は音声情報の処理プロセスを示す図である。該処理プロセスでは、Ａ言語からＤ言語への処理を実現する。なお、図６における「Ｘ言語」情報と「Ａ言語」情報との対応関係、及び「Ｘ言語」情報と「Ｂ言語」情報との対応関係は、単なる説明するためのものである。

【0059】

Ａ言語、即ち音波は、音波捕集装置（例えばマイク）で捕集された物理層データである。

【0060】

Ｘ言語は、Ａ言語データに対して音声信号処理（ＳｐｅｅｃｈＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ）を行って得られた第１論理層データであり、本発明では「Ｘ言語」と称される。Ｘ言語は、Ｘ要素の各種の順列及び組合せで形成された言語である。Ｘ要素はシステムが特定のモデル構築ツール、例えばガウス混合モデル（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ：ＧＭＭ）により、音波をハイとローのビン（ｂｉｎ）状の元素に自動的に分割して得られたものである。図７はガウス混合モデルを用いて捕集された音波（ヒストグラムで表される）をＸ要素（ベクトル量子化ヒストグラムで表される）に変換する例を示す図である。

【0061】

異なるモデル構築ツールに応じて、異なる自然音声集合に適用され、Ｘ要素の数を所定の範囲内（例えば２００以下）に制御できる。本発明の実施例では、図８に示すように、２桁のＡＳＣＩＩ文字の組み合わせでＸ要素のＩＤを定義する。即ち、Ｘ要素の数は最大で１６３８４（１２８×１２８＝１６３８４）であり、未来の音波モデル構築技術の更なる発展によるＸ要素数の要求の向上を満たすことができる。分割された音波ユニットとＸ要素とは一対一で対応しており、Ａ言語情報が音波ユニットの組み合わせであると見なされてもよいため、Ｘ言語情報はＸ要素の組み合わせであり、図６においてＡ言語からＸ言語への変換（「認識」とも称される）の関係は「多対多」の関係である。図６はＡＳＣＩＩ文字で示されるＸ要素の例を示している。

【0062】

「Ｂ言語」は、Ｂ要素の各種の順列及び組合せで形成された言語であり、図６における第２論理層データである。Ｘ要素の全て又は一部の順列及び組合せでＢ要素が形成されるため、Ｘ言語をＢ要素に変換し、Ｂ言語がＢ要素により構成されると理解されてもよい。このため、Ｘ言語からＢ言語の変換関係も「多対多」の関係である。Ｂ要素は音素であってもよく、Ｂ要素の順列及び組合せで音節が構成される。ここで、「音素」及び「音節」はその言語学カテゴリにおける意味と同じである。図６はＢ要素の例を示し、これらの例は中文（中国語）の音素である。

【0063】

「Ｃ言語」は、Ｃ要素の各種の順列及び組合せで形成された言語であり、図６における第３論理層データである。Ｂ要素の全て又は一部の順列及び組合せでＣ要素が形成されるため、Ｂ言語をＣ要素に変換し、Ｃ言語がＣ要素により構成されると理解されてもよい。このため、Ｂ言語からＣ言語の変換関係も「多対多」の関係である。音素、音節の言語学体系を同様に用いると、Ｃ要素は自然言語における「文字」に対応する。図６はＣ要素の例を示し、これらの例は中文の文字である。

【0064】

「Ｄ言語」は、Ｄ要素の各種の順列及び組合せで形成された言語であり、図６における第４論理層データである。Ｃ要素の全て又は一部の順列及び組合せでＤ要素が形成されるため、Ｃ言語をＤ要素に変換し、Ｄ言語がＤ要素により構成されると理解されてもよい。このため、Ｃ言語からＤ言語の変換関係も「多対多」の関係である。音素、音節、文字の言語学体系を同様に用いると、Ｄ要素は自然言語における「単語」又は「句」に対応する。図６はＤ要素の例を示し、これらの例は中文の単語である。

【0065】

図６における「Ｃ言語」の例及び「Ｄ言語」の例は、同じ内容を見えて、共に「
（外１）

」、「
（外２）

」、「
（外３）

」、「
（外４）

」、「
（外５）

」、「
（外６）

」、「
（外７）

」の順序で構成されているが、中国語に詳しい人が分かるように、Ｃ言語のみから理解すると、大きな多義性が生じ、「Ｄ言語」に変換された後に、表現の意味はある程度明確になる。他の言語について、文字から単語又は句への変換は、語意の理解にも非常に重要であり、特に知能システム（音声ロボット）による音声認識には非常に重要である。異なる自然言語に応じて、「文字」及び「単語」、即ちＣ言語情報及びＤ言語情報は、１つの言語情報層に統合されてもよい。

【0066】

「Ｙ言語」は第５論理層データ（図８に示す）であり、オリジナルの自然言語情報Ａを理解して得られた、「意味」又は「語意」を表す言語情報を指す。本発明の上記定義された「標準表現」は「Ｙ言語」の形式の１つである。本発明の実施例では、例えば銀行業界では、業務コード「２１」で「クレジットカード紛失」の意味を表し、業務コード「２５２」で「クレジットカードの一部返済」の意味を表し、「２５２−５０００」（要求コード＝２５２、要求パラメータ＝５０００）は「クレジットカードの５０００元返済」の意味を表してもよい。エンタテイメント業界では、コード「２４」で「映画を見る」の意味を表し、「２４−中国パートナー」（要求コード＝２４、要求パラメータ＝「中国パートナー」）は「映画「中国パートナー」を見る」の意味を表してもよい。Ｄ言語からＹ言語への変換関係も「多対多」の関係である。

【0067】

図９は捕集された音波（Ａ言語情報）からＹ言語情報へ層毎に変換するプロセスを示す図である。図９から分かるように、「音波」（Ａ言語情報）から「Ｘ要素」（Ｘ言語情報）へ、そして「音素」（Ｂ言語情報）へ、そして「文字」（Ｃ言語情報）へ、そして「単語」（Ｄ言語情報Ｄ）へ、最後に「意味」又は「語意」（Ｙ言語情報）になり、６つの言語情報に対する５回の変換（翻訳）である。データベースのデータ構造の立場から見ると、「音波」という初期の言語情報Ａから、５つの言語構成要素の順列及び組合せについての経路を選択し、６番目の言語情報データ、即ちターゲット言語情報Ｙを見つけ、或いは対応付ける。

【0068】

上記の５回の言語情報変換を行うため、ロボットもこの５つの情報言語変換の能力を有する必要がある。一般には、この５つの変換を３段階に分けてもよい。この３段階では、音声ロボットを訓練するために、いずれもマニュアル補助認識が必要とする。

【0069】

第１段階：Ａ言語情報（音波）からＣ言語情報（文字）へ。Ａ言語情報（音波）からＢ言語情報（音素）への２つステップの変換は、言語情報Ｘの情報の情報抽出及び変換アルゴリズム（例えば上記のガウス混合モデル）を用いているため、通常ロボットが比較的に正確、自動的に完成できる。しかし、Ｂ言語情報（音素）からＣ言語情報（文字）への変換は、高いエラー率が発生する場合はある。例えば、中国語の例では、図６の例に示すように、クライアントにより入力された元の言語情報は「
（外８）

」であり、クライアントの発音又は方言のせいで、「
（外９）

」が「
（外１０）

」であると認識され、「
（外１１）

」が「
（外１２）

」であると認識される場合があり、この結果、この音波は最終的に「」
（外１３）

」という７つの文字に変換された。ロボットの認識正確性を向上するために、特に上記のような発音又は方言の問題について、ロボットの認識結果を訂正する必要があり、通常、マニュアル補助認識の方式を用いる。この段階のマニュアル補助認識は音訳（Ｔｒａｎｓｃｒｉｐｔｉｏｎ）と称される。音訳とは、音訳者が特定の音訳ツールを用いて、「音波」（Ａ言語情報）を正確に分割し、分割された各音波セグメントを対応する「文字」（Ｃ言語情報）にそれぞれ変換すること、即ちロボットのためにＡ言語（音波）からＣ言語（文字）への変換／翻訳関係を定義することである。分割の正確性は、音訳者の注意力、音訳ツールをマスタする熟練レベルにより決定される。対応する「文字」に正確に変換できるか否かは、音訳者がこの音波セグメントの所属する言語環境、及び文脈（この音波セグメント前後に位置する他の音波）を既に正確に理解できるか否かにより決定される。特に漢字に同音異義語が多いため、音訳者の正確な音訳の困難性も高くなった。

【0070】

第２段階：Ｃ言語情報（文字）からＤ言語情報（単語、句）へ。文字から単語への変換は同様に曖昧さが発生する。上記の例では、音波から文字への認識が正しい場合であっても、「
（外１４）

」の７つの文字の順の配列結果は、依然として少なくとも「
（外１５）

」及び「
（外１６）

」という２つの結果に変換される場合があり、両者の意味は明らかに異なる。同様に、マニュアル補助認識を用いて訂正してもよい。この段階のマニュアル補助認識は、キーワードスポッティング（ＫｅｙｗｏｒｄＳｐｏｔｔｉｎｇ）と称され、「ワードスポッティング」とも略称される。即ち、スポッティング者は、音訳された「文字」（Ｃ言語情報）を組み合わせ、「単語（キーワード）」（Ｄ言語情報）を形成し、即ちロボットのためにＣ言語（文字）からＤ言語（単語）への変換／翻訳関係を定義する。スポッティングの正確性は、スポッティング者の業務知識を把握するレベルにより決定される。異なる分野について、該分野内容及び用語に詳しい人がスポッティング操作を行う必要があり、そのコストも音訳よりも高い。

【0071】

第３段階：Ｄ言語情報からＹ言語情報へのもの、即ち意思理解。一定の順に配列された単語のみが取得された場合に、クライアントの本当の意味を正確に理解できない場合がある。例えば、クライアントが「
（外１７）

」と言い、ロボットがその意味を認識できない場合に、技術スタッフは
「
（外１８）

」、「
（外１９）

」、「
（外２０）

」を新しいキーワードとしてデータベースの文法表に入れる。もう１つのクライアントが
「
（外２１）

」と言い、ロボットがその意味を認識できない場合に、技術スタッフは「
（外２２）

」、「
（外２３）

」（即ち「
（外２４）

」の意味）、「
（外２５）

」を新しいキーワードとしてデータベースの文法表に入れる。このように、マニュアル補助の形で、クライアントの意味又は要求を理解し、データベースに追加する。このようなマニュアル補助認識は、キーワードパイルアップ（ＫｅｙｗｏｒｄＰｉｌｅ−ｕｐ）と称され、「ワードパイルアップ」とも略称される。即ち、「単語」の順列及び組合せを蓄積し、その意味に基づいてベータベースに追加することである。この作業の作業量も非常に大きく、訓練スタッフの専門知識を用いて補助理解を行う必要がある。

【0072】

上述したように、本発明の実施例の自然表現の処理方法によれば、クライアントの自然表現（Ａ言語情報）を自動的に変換してＸ言語情報を取得し、或いは変換せずにＣ言語情報を直接に取得し（Ａ言語情報は文字情報の場合）、Ｘ言語情報又はＣ言語情報をＹ言語情報に変換する。上記の分析を参照しながら、該不規則な自然表現は、Ｘ言語情報、Ｂ言語情報、Ｃ言語情報、Ｄ言語情報の１つである。即ち、自然表現の処理プロセスは、Ａ−＞Ｘ−＞Ｙ、Ａ−＞Ｂ−＞Ｙ、Ａ−＞Ｃ−＞Ｙ、Ａ−＞Ｄ−＞Ｙのうち１つであってもよい。

【0073】

図９に示す言語情報の変換モデルによると、図１０に示すように、上記６つの言語Ａ−＞Ｘ−＞Ｂ−＞Ｃ−＞Ｄ−＞Ｙの多層の「多対多」の関係変換を行う必要があり、学術上でＭＬＰ（Ｍｕｌｔｉ−ＬａｙｅｒＰｅｒｃｅｐｔｉｏｎ、多層感知）と称される。多層の「多対多」の関係変換の欠点として、毎回の変換を行う時に、オリジナル情報のある程度の歪みが生じると共に、システムにより多くの処理負荷をもたらし、更なる性能損失に繋がる。変換の回数が多いほど、オリジナル情報の歪みがひどくなり、システムの処理速度も遅くなる。同様に、上記３つの段階におけるロボット訓練にマニュアル補助認識の介入が必要であるため、多い作業量及びコストが生じると共に、複数回の人為的な介入によりエラー率も増加してしまう。よって、Ａ−＞Ｘ−＞Ｙの変換を実現できれば、Ｘ−＞Ｂ−＞Ｃ−＞Ｄ−＞Ｙの多層「多対多」の関係変換を行う必要がなく、表現情報変換の正確率及び効率を向上でき、マニュアル補助認識の作業量及びエラー率を低減できる。

【0074】

本発明の技術によれば、モデル構築ツールにより、文字、音声、図形及びビデオという不規則な自然表現情報をＸ言語情報に変換して、Ｘ言語を左側言語とし、Ｙ言語を右側言語とし、機械翻訳（ＭＴ）技術を用いることで、Ｘ言語情報からＹ言語情報への変換を実現する。

【0075】

具体的には、音声という不規則な自然表現情報の処理の例では、まず「音声信号処理（ＳｐｅｅｃｈＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ）」技術を用いてＡ言語をＸ言語に自動的に変換／翻訳し（従来の「音声信号処理」技術に基づいて、Ａ−＞Ｘの変換正確率は通常９５％以上になり、改善された「音声信号処理」はノイズ低減でよりよく、Ａ−＞Ｘの変換正確率を９９％以上に向上できる）、そして、機械翻訳技術を用いてＸ−＞Ｙの自動機械翻訳を実現し、Ｘ−＞Ｂ−＞Ｃ−＞Ｄ−＞Ｙの多層変換を行う必要がなくなる。

【0076】

実例サンプルのようなものに基づく統計的分析の機械翻訳アルゴリズムを用いて得られた不規則な自然表現（Ｘ言語情報）を規則化された標準表現（Ｙ言語情報）に変換してもよい。このような機械翻訳アルゴリズムは、Ｘ言語とＹ言語との間の対応データの量が十分に大きく、且つ十分に正確であることが要求されている。

【0077】

本発明の方法では、Ａ−＞Ｘの正確な機械自動変換が既に実現されているため、Ｘ言語とＹ言語との間の対応データを蓄積するために、Ａ言語とＹ言語との間の対応データを蓄積してもよい。よって、本発明の案では、ＭＡＵ（ＭｏｒｔａｌＡｉｄｅｄＵｎｄｅｒｓｔａｎｄｉｎｇ：マニュアル補助理解）という新しいマニュアルエージェントの作業モードを提供し、マニュアル理解とコード入力とを組み合わせることで、Ａ言語とＹ言語との間の対応データの蓄積を実現する。上記の例では、「２７１」という要求コードでクレジットカード限度調整の意味を表してもよいし、同様に、「２１」でクレジットカード紛失の意味を表してもよく、このように、「２１」用いて上記の「
（外２６）

」又は「
（外２７）

」の自然表現情報に対応付けてもよい。この簡単なコード入力方式は、従来の「話すエージェント」を「話さなくてもよいエージェント」に変換し、エージェントの作業量を減らし、作業効率を大幅に向上できると共に、人間の最大価値である理解能力を十分に利用でき、大量のＡ／Ｘ言語とＹ言語との対応データを正確、且つ迅速に蓄積でき、巡回反復を行うようにＭＴエンジンに提供し、Ａ／Ｘ−＞Ｙの変換／翻訳規律をセルフ学習させ、Ａ／Ｘ−＞Ｙの翻訳モードを形成できる。

【0078】

以下は、本発明の機械翻訳技術及び機械翻訳ロボットの訓練技術の動作原理を説明する。

【0079】

機械翻訳は、２つの言語を自動的に翻訳するための人工知能技術である。ここの「言語」とは、狭義の国家の言語（例えば中国語、英語など）ではなく、広義の情報表現方式である。上述したように、表現方式で分けると、言語は４大種類、即ち文字、音声、画像、動画（「ビデオ」とも称される）に分けられてもよい。

【0080】

言語は、要素集合における要素で各種の順列及び組合せで形成された情報である。例えば、英語文字は、ＡＳＣＩＩ文字集合（要素集合）における１２８個のＡＳＣＩＩ文字（要素）で、各一次元（シリアル）の順例及び組合せで形成された言語である。中国語という言語は、国際標準コードにおける数千個の中国語文字に句読点を加えて（中国語情報の基本要素を構成する）得られた無限の順列及び組合せである。もう１つの例として、ＲＧＢ平面画像は、赤、緑、青という３つのサブ画素で、各種の二次元（長さと幅）の順列及び組合せで形成されたもう１つの言語である。

【0081】

任意の２つの言語間には変換／翻訳の規律が存在し、２つの言語の要素の順列及び組合せの対応関係を分析することで、２つの言語間の自動変換／翻訳の規律を取得できる。まず、２つの言語の対応データ（「翻訳サンプル」とも称される）を手動で蓄積して、２つの言語の要素の順列及び組合せの反復ループにより、２つの言語間の自動変換／翻訳の規律を自動的に取得し、２つの言語の翻訳モデルを形成する必要がある。

【0082】

機械翻訳を行うために、２つのデータセット、即ち「訓練データセット」（ＴｒａｉｎｉｎｇＤａｔａｓｅｔ）と「検証データセット」（ＴｅｓｔｉｎｇＤａｔａｓｅｔ）が必要とする。

【0083】

この２つのデータセットのデータ構造は、複数対のデータを記憶し、左の値が「左言語」（「ソース言語」とも称される）であり、右の値が「右言語」（「ターゲット言語」とも称される）である。「訓練データセット」が人間のＭＴロボットへのセルフ学習用の教科書であり、「検証データセット」が人間のＭＴロボットへの問題集であり、ロボットのセルフ学習効果を評価するものであると考えられてもよい。

【0084】

以下は、英語−＞中国語のＭＴ「訓練データセット」及び「検証データセット」の例である。

【0085】

訓練データセット

【0086】

【表1】

検証データセット

【0087】

【表2】

ＭＴロボットは、言語を構成する要素と単位にして、順列及び組合せの反復ループを行うためのものである。例えば、上記の例では、訓練データセットにおける＃３及び＃４の２対のデータを訓練する場合に、英語「May I have your」という１５個のＡＳＣＩＩ文字要素（３つの英語アルファベット「Ｍａｙ」＋１つのスペース＋１つの英語アルファベット「Ｉ」＋１つのスペース＋４つの英語アルファベット「ｙｏｕｒ」）の順列及び組合せは中国語の「
（外２８）

」という３つの国際標準中国語文字の順列及び組合せに対応することが分かる。訓練データセットにおける＃２及び＃５の２対のデータを訓練する場合に、英語「ａｇｅ」という３つのＡＳＣＩＩ文字要素の順列及び組合せが中国語の「
（外２９）

」という２つの国際標準中国語文字の順列及び組合せに対応することが分かる。

【0088】

よって、ロボットが検証データセットにおける英語の「May I have your age?」を中国語の「
（外３０）

」に正確に翻訳できれば、ロボットがこのセンテンスの中国語と英語の翻訳を勉強できたと証明する。できなければ、ロボットがまだ勉強できなかったと証明する。そうすれば、ロボットが自分の学習方法を修正（例えば、もう１つの方法を用いて再び学習する）し、訓練データセットをさらに学習することを反復する必要があり、このような「反復修正」を繰り返すことで、ロボットの翻訳正確率を向上できる。一定のレベルに達した（例えば翻訳正確率が７０％になった）場合に、ロボットの翻訳正確率はこのレベルで留まって、さらに上達することができなく、即ち「ロボットセルフ学習」のボトルネットがあるため、ロボットのためにＭＴ訓練データセットのデータを追加する必要がある。ＭＴ訓練データセットのデータは、外部のデータベースから導入されてもよいし、「マニュアル補助理解」により生成、追加されてもよい。

【0089】

例えば、上記のクレジットカードの例では、得られた不規則な自然表現が「私のクレジットカードの限度が少なすぎる」である場合に、ロボットの理解力が成熟していないとき、「マニュアル補助理解」を介入させて、マニュアルにより該表現が「私のクレジットカードの限度を増やしたい」であると理解し、それに対応するＹ言語情報を入力してもよい。好ましくは、「マニュアル補助理解」処理では、自然表現に対する理解のプロセス及び理解の結果を記録する必要がなく、最終的な処理結果である対応標準表現（Ｙ言語情報）を記録すればよい。このように、マニュアル操作を簡略化でき、リソースを節約できる。例えば、操作者は、「２７１」を対応標準表現として入力し、不規則な自然表現の「私のクレジットカードの限度が少なすぎる」に対する処理を完成すればよい。例えば、新しい自然表現実例、例えば上記の自然表現の「私のクレジットカードの限度が少なすぎる」及びそれに対応する標準表現「２７１」を既存ＭＴ訓練データセットに追加し、ＭＴ訓練データセットのデータを追加、更新する。よって、「マニュアル補助理解」により、ターゲット自然表現の正確、安定な変換（それを標準表現−Ｙ言語情報に変換すること）を実現できるとともに、ＭＴ訓練データセットのデータの効率的な追加、更新を実現できるため、システムＭＴ訓練データセットにおけるデータをより多く、正確にすることができ、ロボットの翻訳（変換）の正確率を効率に向上できる。

【0090】

理論的には、ＭＴロボットは＃３の左の値の「May I have your time」という２０個のＡＳＣＩＩ文字要素の全ての順列及び組合せを網羅し、＃３の右の値の「
（外３１）

」という１０個の国際標準中国語文字の全ての順列及び組合せを網羅する必要がある。即ち、ＭＴロボットは、訓練データセットにおける各データ対の左と右の要素組の全ての順列及び組合せを網羅する必要がある。この要素レベルの網羅により、ＭＴロボットは複数回で繰り返して出現している順列及び組合せ（例えば「your」、「May I have your」、「age」、「time」、「
（外３２）

」、「
（外３３）

」、「
（外３４）

」など）を発見できるため、これら繰り返して出現した左言語の要素の順列及び組合せと右言語の要素の順列及び組合せとの対応関係を取得でき、即ち２つの言語間の翻訳モデルを取得できる。言い換えれば、訓練データセットにおける左と右の言語データ対の数が多いほど、ＭＴロボットの発見できる、繰り返して出現する左と右の２つの言語要素の順列及び組合せが多く、左右で繰り返して出現する要素の順列及び組合せの対応関係も多く、ＭＴロボットの把握する左右２つの言語の変換／翻訳の規律も多く、翻訳モデルがより成熟する。従って、本発明の技術的思想の「規則化の標準表現」及び「マニュアル補助理解」を用いることで、ＭＴ訓練データセットのデータをより効率的に蓄積でき、ロボットのセルフ学習及び自動機械翻訳の実現を補助できる。

【0091】

本発明におけるＸ言語からＹ言語への機械翻訳は、中国語と英語の機械翻訳と同様な原理を有し、単なる英語をＸ言語に置き換え、中国語をＹ言語に置き換え、左右２つの言語の要素集合が異なる。

【0092】

上述したように、機械翻訳技術は、１つの言語をもう１つの言語に自動的に翻訳するために用いられてもよい。その技術原理は、捕集された２つの言語のペア情報（左側言語と右側言語）に対して基本要素レベルの分析を行い、大量の言語情報対の基本要素の各種の順列及び組合せを巡回反復的に比較し、２つの言語間の変換／翻訳規律を取得し、２つの言語の翻訳モデルを形成することである。

【0093】

本発明の技術は、機械翻訳技術の応用範囲を、異なる国の言語間の自動翻訳から、全ての不規則なマルチメディアの自然表現情報（文字、音声、画像、ビデオ、即ちＡ言語情報）から上記規則化の標準情報（Ｙ言語情報）への自動的な変換に拡張することで、各業界の業務システムがこれらを処理でき、真の意味での実用的なＮＬＰ（自然言語処理）を実現できる。

【0094】

従来の機械翻訳に必要な多層の言語学分析が不要であるため、実例の基本要素レベルの分析の方式を用いることで、翻訳の正確性及び迅速性を向上できると共に、自然表現の実例及び標準表現を追加することで更新及び拡張をように行うことができる。

【0095】

本発明の実施例の自然表現の処理では、自然表現（Ａ言語情報）から標準表現（Ｙ言語情報）への変換のみを行えればよく、即ち、Ａ／Ｘ−＞Ｙの翻訳モデルのみを構築すればよく、テキストの言語への翻訳結果ではないため、翻訳結果に対して修正処理を行う必要がない。

【0096】

また、本発明の実施例の自然表現処理では、具体的な業界機関の具体的な業務、例えば上記のクレジットカード業務に制限されてもよいため、処理システムに必要なＭＴ訓練データセットの規模を大幅に低減でき、ロボットの理解の成熟度の閾値を向上でき、ＭＴ訓練データセットの構築及び維持のコストを低減でき、Ａ／Ｘ−＞Ｙ翻訳モデルの成熟周期を効果的に短縮できる。

【0097】

上述したように、本発明の実施例の自然表現の処理システムによれば、自然表現から符号化された標準表現への変換を実現した。該変換の基は、Ａ／Ｘ言語情報とＹ言語情報のペアデータを記憶するＭＴ訓練データセット、及びＭＴ訓練データセットに基づいて取得されたＡ／Ｘ−＞Ｙの翻訳モデルである。従って、一定の量の正確なＡ／Ｘ言語データ及びＹ言語データを捕集してＭＴ訓練データセットを生成し、ロボット（情報処理システム）のセルフ学習（セルフ訓練）によりＡ／Ｘ−＞Ｙの翻訳モデルを形成する必要がある。ＭＴ訓練データセットの形成は、マニュアル補助理解により行われてもよい。

【0098】

図１は本発明の１つの実施例に係る自然表現の処理方法を例示的に示すフローチャートである。

【0099】

ステップＳ１１において、システムは自然表現情報（Ａ言語情報）を受信し、上述したように、該自然表現情報は、テキスト情報、音声情報、画像情報、ビデオ情報などであってもよい。

【0100】

ステップＳ２１において、ロボットの理解能力が成熟しているか否かを判断する。ここで、ロボットの理解が成熟しているか否かについての判断は、所定の期間内（具体的な応用要求に応じて設定される）のロボットの理解の正確率を評価することによって行われる。ロボットの理解の正確率は、ロボットがＡ言語情報をＸ言語情報に変換して、Ｘ言語情報をＹ言語情報に変換した結果Ｙ１と、マニュアルでＡ言語情報をＹ言語情報に直接に変換する結果Ｙ２とを比較し、Ｙ１とＹ２の同一の回数を、比較の総回数で除算して得られた割合である。応用の要求に応じて設定されたロボットの理解の正確率は、「ロボット理解の成熟閾値」と称される。ロボットの理解の正確率がロボットの理解の成熟閾値よりも低い場合に、システムは、ロボットの理解が成熟していないと決定し、ロボットの変換結果Ｙ１を採用せず、依然としてマニュアル変換結果Ｙ２を用い続け、システムのＡ言語情報への理解の正確性及び安定性を確保する。それと共に、システムは、Ａ言語情報を機械自動変換で変換されたＸ言語情報（左側言語）、及びマニュアル変換結果Ｙ２（右側言語）をＭＴ訓練データセットに追加し、ＭＴロボットのセルフ訓練のために用いられる。

【0101】

ロボットの理解が成熟している場合に、ステップＳ２２において、ロボットは該自然表現Ａを標準表現Ｙに直接に変換し、ロボットの理解がまだ成熟していない場合に、ステップＳ２３において、ロボットは該自然表現Ａを標準表現Ｙ１に変換してみると共に、ステップＳ２４において、ＭＡＵエージェントは該自然表現Ａを標準表現Ｙ２に変換する。

【0102】

ステップＳ３２において、ステップＳ２１においてロボットの理解能力が成熟していると判断された場合に、ロボットにより自動変換された結果Ｙを出力し、そうでない場合に、ＭＡＵエージェントによりマニュアルで変換された結果Ｙ２を出力する。

【0103】

好ましくは、ステップＳ３１において、自然表現Ａ、ロボットにより変換してみた結果Ｙ１、ＭＡＵエージェントにより変換された結果Ｙ２に対して下記の後続処理を行う。ＡをＸ言語情報（左側言語）及びＹ２（右側言語）に自動的に変換し、一対の新しいデータ対としてＭＴ訓練データセットに入れて、Ｙ１とＹ２を比較し、「ロボットの理解が成熟しているか否かを判断する」ための統計データとして用いる。好ましくは、オリジナルデータＡを保留し、将来のＡ−＞Ｘ変換技術がさらに発展する（変換正確率がより高くなる）場合に、ＭＴ訓練データセットの左側言語データを更新する。

【0104】

図２は本発明の１つの実施例に係る自然表現の処理及び応答方法を例示的に示すフローチャートである。

【0105】

図２に示す処理では、まず図１の処理と同様に、ステップＳ１２において自然表現Ａを受信する。そして、ステップＳ３１において、機械変換で自然表現Ａを標準変換Ｙに変換できるか否かを判断する。該ステップは図１におけるステップＳ２１と同様である。図１の処理と同様に、ステップＳ３１において機械変換で必要な標準表現を取得できないと判断された場合に、ステップＳ３２においてマニュアル変換処理を行う。

【0106】

実際の応用では、マニュアル処理を用いても認識される自然表現又はクライアントにより表現された要求を理解できない場合があり、この場合に、ステップＳ３３においてクライアントに再入力させるための提示で応答し、処理がステップＳ１２に戻り、クライアントにより再入力された自然表現情報Ａを受信する。「クライアントに再入力させるための提示の応答」は、例えば音声提示の「すみませんですが、ご要求をもう一度お願いします」、「ゆっくり話してください」、文字提示の「すみませんですが、具体的に記入してください」、又は画像の提示などであってもよい。

【0107】

ステップＳ３４において、機械変換又はマニュアル変換の標準表現を出力する。ステップＳ３５において、該標準表現と一致する標準応答を検索する。標準応答は、データベースに予め記憶された固定データであってもよいし、データベースに標準応答の基礎データを予め記憶し、システムの動作により、基礎データと個別変数パラメータとを併合して生成された標準応答であってもよい。１つの実施例では、標準応答ＩＤを応答データの主キーとして設定し、データベースに標準表現（Ｙ言語情報）の要求コードと標準応答ＩＤの対応関係表を設定し、標準表現（Ｙ言語情報）の要求コードと応答データとを対応付ける。下記の表１〜表３は表現データ表、表現応答関係表及び応答データ表の例をそれぞれ示している。好ましくは、表４に示すように、標準表現と標準応答ＩＤとは多対一の関係であってもよい。また、他の実施例では、標準表現（Ｙ言語情報）の要求コード自信は符号化のものであるため、標準表現（Ｙ言語情報）の要求コードを応答データの主キーとして直接に用いてもよい。

【0108】

【表3】

【0109】

【表4】

【0110】

【表5】

【0111】

【表6】

上述したように、標準表現は、自然表現に関連する情報、例えば表現タイプ、言語タイプ、方言タイプなどを含んでもよい。例えば、クライアントからの自然表現が音声の「受領した」である場合に、変換後の標準表現に基づいて検索された標準応答は音声の「はい、わかった。ありがとう！」である。また、例えば、クライアントからの自然表現が画像の「振込失敗ページのスクリーンショット」である場合に、変換された標準表現に基づいて検索された標準応答はビデオの「振込エラー修正の簡易ガイド」である。

【0112】

データベースには該標準表現と一致する標準応答がない場合に、ステップＳ３６において、マニュアルでそれに対応する応答のマッチングを行ってもよい。マニュアルマッチングは、標準応答ＩＤを入力、或いは選択して、標準表現と該標準応答ＩＤとを関連付けてもよいし、標準表現と応答データとを直接に関連付けてもよいし、新しい応答データを構築してもよい。標準応答が見つからない原因は、該標準表現がマニュアルで新しく追加されたものであることである場合があり、同一タイプの標準応答をマッチングできなかったことである場合もある。

【0113】

そして、ステップＳ３７において、機器マッチング又はマニュアルマッチングされた応答を出力する。異なる情報タイプに応じて応答の内容を呼び出し、或いは生成してもよい。例えば、音声応答について、人間の録音を再生し、或いはＴＴＳ（ＴｅｘｔＴｏＳｐｅｅｃｈ：音声合成）の音声を出力してもよい。ユーザのデジタル操作、例えば、電話キーの順序の組合せ「２−５−１０００」について、プログラムを実行することで「クレジットカードは１０００元返済」を完成してもよい。

【0114】

また、例えば「母に５０００元を振り込み」の文字情報について、プログラムを実行して「Ｘ女史に５０００元を振り込み」の操作を行う必要があるが、システムが「Ｘ女史」の口座情報を予め把握しておらず、マニュアルで該口座情報を追加して標準表現の変換を実現する可能性があり、標準表現の変換を実現しても対応する標準応答を検索できない場合もあるため、マニュアルで応答処理を行う必要がある。この場合に、新しい応答データ（例えば操作プログラム）を生成し、該応答データに新しい標準応答ＩＤを手動又は自動的に割り当て、該標準応答ＩＤと上記変換された標準表現とを関連付ける。よって、クライアントの自然表現への応答を実現でき、マニュアル補助理解及び訓練を実現でき、表現−応答データベースを更新できる。

【0115】

本発明の実施例の自然表現の処理及び応答方法、装置及びシステムによれば、標準表現を用いて応答を迅速に指向でき、ユーザは長い時間を費やして複雑な通常機能メニューを走査して必要なセルフサービスを検索する必要がなくなる。

【0116】

一方、通常の応答方式と異なって、マニュアル操作は主に、標準表現（Ｙ言語情報）の要求コードの決定、応答（又は応答ＩＤ）の選択又は応答操作の生成などを含むバックエンドの「ポリシー」操作に限定されるが、フロントエンドで通話又は文字入力（標準表現（Ｙ言語情報）の要求パラメータの入力を除く）等の方式を用いてクライアントと直接にコミュニケーションする必要がない。よって、人件費を大幅に節約でき、作業効率を大幅に向上できる。また、システムのクライアントに提供した標準化応答は、マニュアルエージェントのクライアントに直接に提供した従来の自由な応答に比べて、マニュアルエージェントの気分、音腺、方言、業務熟練度などの要素の影響を受けることがなく、クライアントの体験の安定性を確保できる。

【0117】

さらに、システム（ロボット）の自動学習、訓練及びマニュアル補助理解により、標準化の自然表現と標準表現と標準応答のデータベースを構築でき、システムの自動理解及び応答を徐々に実現できる。また、該データベースは、粒度が小さく、知識範囲が狭く、データの忠実度が高いという利点を有し、ロボット訓練の難しさを低減でき、ロボット知能の成熟周期を短縮できる。

【0118】

図３は本発明の実施例に係る知能応答システムを例示的に示す図である。図３に示すように、該知能応答システムは知能応答装置１（サーバ側に相当する）及び発呼装置２（クライアント側に相当する）を含み、ユーザ８は発呼装置２を介して知能応答装置１と通信し、ＭＡＵマニュアルエージェント９（システムサービススタッフ）は知能応答装置１に対してマニュアル操作を行う。ここで、知能応答装置１は、対話ゲートウェイ１１、中央制御器１２、ＭＡＵワークステーション１３、ロボット１４を含む。好ましくは、知能応答装置１は訓練器１５をさらに含む。

【0119】

クライアント８は、機関遠隔販売又は遠隔サービスの対象を指す。遠隔販売は、通常機関が自分専用の電話又はインターネットチャネルを介して、「呼出」（ｃａｌｌｉｎｇｏｕｔ）の形でクライアントに自発的に連絡し、自分の製品又はサービスを販売することを指す。遠隔サービスは、通常機関のクライアントが機関専用の電話又はインターネットを介して、「発呼」（ｃａｌｌｉｎｇｉｎ）の形で機関に自発的に連絡し、機関の製品又はサービスを問い合わせ、使用することを指す。

【0120】

発呼装置２は、機関がクライアント８のために遠隔販売（呼出業務）を行い、クライアントに遠隔サービス（発呼業務）を提供するために設定された専用の電話チャネル又はインターネットチャネルであってもよい。電話チャネルシステム、例えば電話コール分配システム（ＡＣＤ：ＡｕｔｏｍｏｔｉｃＣａｌｌＤｉｓｔｒｉｂｕｔｉｏｎ）（例えばＡｖａｙａのＡＣＤ）は、機関がバックエンドの自動業務システム（例えば電話キー技術に基づくＩＶＲシステム、又は知能音声技術に基づく新型ＶＰ（ＶｏｉｃｅＰｏｒｔａｌ）音声ポータルシステム）及びマニュアルエージェントを介して、クライアント８と音声の形でインタラクションを行う対話チャネルである。

【0121】

インターネットチャネルコールシステム、例えばインスタントメッセージング（ＩＭ：ＩｎｓｔａｎｔＭｅｓｓａｇｉｎｇ）技術に基づくインターネットコールセンタシステム（ＩＣＣ：ＩｎｔｅｒｎｅｔＣａｌｌＣｅｎｔｅｒ）は、機関がバックエンドのクライアントセルフサービスシステム（例えば自然言語処理システム（ＮＬＰ：ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ））及びマニュアルエージェントを介して、クライアント８と文字、音声、画像、ビデオ等の形式でインタラクションを行う対話チャネルである。

【0122】

知能応答装置１は、機関にそのバックエンドの自動業務システム及びマニュアルエージェントを管理させ、クライアント８と文字、音声、画像、ビデオ等のマルチメディアの形で対話を行い、機関とクライアントとの間の標準化及び自動化のインタラクション会話を実現する。

【0123】

対話ゲートウェイ１１は、知能応答装置１において「フロントポータル」の役割を機能し、その主な機能として、発呼装置２を介してクライアント８からの不規則な自然表現（文字、音声、画像、ビデオ）及び規則化された非自然表現（例えば電話キー等の形）を受信し、後続処理を行うように中央制御器１２に送信し、中央制御器１２からのコマンドを受信し、クライアント８への応答（文字、音声、画像、ビデオ、プログラムなどの形）を実現する。

【0124】

図４に示すように、対話ゲートウェイ１１は、表現受信機１１１、身分認証器１１２、応答データベース１１３及び応答生成器１１４を含む。

【0125】

表現受信機１１１は、発呼装置２を介してクライアント８の表現を受信する。該表現は、上記の各種の不規則な自然表現及び規則化の非自然表現であってもよい。

【0126】

好ましくは、表現受信機１１１の前に身分認証器１１２を設ける。身分認証器１１２は、対話の最初段階でクライアント８の身分を認識、検証してもよい。従来の「パスワード入力」技術（例えば電話キー入力パスワード、キーボード入力ウェブサイト登録パスワードなど）を用いてもよいし、新たな「パスフレーズ（Ｐａｓｓ−ｐｈｒａｓｅ）＋声紋（Ｖｏｉｃｅ−ｐｒｉｎｔ）認識」技術を用いてもよい。また、上記２つの技術を同時に採用してもよい。従来のパスワード検証技術は便利ではないが、マーケットで受け入れられ、よく使われ、重要な対話ノード上（例えば銀行振り込み）でプライマリのクライアント身分認識及び検証手段としてもよく、後者は便利であるが、マーケットで広く受け入れておらず、まだよく使われていないため、非重要な対話ノード上（例えば購入ポイントの確認）でクライアントの体験を大幅に向上するための新たなクライアント身分認識及び検証手段としてもよいし、重要な対話ノードで、前者のセキュリティ性を強化するための補助的な認識及び検証手段としてもよい。

【0127】

身分認証器１１２を設置し、「パスフレーズ＋声紋認識」のクライアント身分認識及び検証方法を用いることで、クライアント体験を向上でき、クライアントが複数の異なるパスワードを暗記する必要がなく、「パスワード入力」の従来方法におけるパスワード紛失の安全リスクを低減できる。また、「パスフレーズ＋声紋認識」方法と「パスワード入力」の従来方法とを組み合わせて使用することで、マーケットに受け入れられ、クライアント身分認識及び検証のセキュリティ性をさらに向上できる。

【0128】

応答データベース１１３はクライアントに応答するための応答データを記憶する。上記の表に示されたように、該データは以下のような複数タイプのデータを含んでもよい。

【0129】

文字：予め編集された文字、例えばネットバンクＦＡＱ（よくある質問）における文字の回答。

【0130】

音声：予め記録された人の録音、又は変数のないＴＴＳ音声合成録音、例えば「こんにちは、こちらは未来銀行です。何か手伝えることがありますか」。

【0131】

画像：予め作成された画像、例えば北京の地下鉄ネットワークのマップ。非ビデオの動画、例えば銀行がクライアントにネット銀行で国際送金を行う操作を説明するためのＧＩＦファイル、ＦＬＡＳＨファイルなどを含む。

【0132】

ビデオ：予め作成されたビデオ。例えば、アイロンの販売者がクライアントに新製品の使い方を示すためのもの。

【0133】

プログラム：予め編集された一列の指令、例えば、クライアントが話で「中国パートナーを見たい」と表現した場合に、クラウド知能テレビがクライアントの要求に従って動作してクライアントに応答し、即ちまずテレビを自動的にオンにし、クラウドサーバから「中国パートナー」という映画を自動的にダウンロードしてバッファリングして、再生を開始させる。

【0134】

テンプレート：変数を入力できる文字、音声、画像、プログラムテンプレート。

【0135】

応答生成器１１４は、中央制御器１２のコマンドを受信し、応答データベース１１３におけるデータを呼び出し、且つ／実行することでクライアント８の表現への応答を生成する。具体的には、コマンドにおける標準応答ＩＤに従って、応答データベース１１３から応答データを検索、呼び出し、或いは文字、画像を表示し、或いは音声、ビデオを再生し、或いはプログラムを実行する。また、コマンドに従って、応答データベース１１３からテンプレートを呼び出し、コマンドにおいて伝送された変数パラメータに値を入力し、或いはリアルタイムで生成されたＴＴＳ音声合成（例えば「クレジットカードの５０００元の返済が完了しました」。ここで、「５０００元」はコマンドにおける変数である）を再生し、或いは文書を表示し、或いはリアルタイムで生成された画像又は動画を表示し、或いはプログラムを実行してもよい。

【0136】

好ましくは、中央制御器１２は、応答データ及び標準応答ＩＤを含む、応答データベース１１３におけるデータを維持、更新してもよい。

【0137】

中央制御器１２は、表現受信機１１１からのクライアント要求表現情報（不規則な自然表現及び規則化の非自然表現を含む）を受信し、ロボット１４及びＭＡＵワークステーションを介するＭＡＵマニュアルエージェント９と協働して、クライアントの不規則な自然表現を上記の方法に従って標準表現に変換し、該標準表現に基づいてそれに対応する標準応答ＩＤを決定し、該標準応答ＩＤを応答生成器１１４に送信する。好ましくは、中央制御器１２はＭＴ訓練データセットにおけるデータを更新してもよい。

【0138】

ロボット１４は、上記人工知能技術を実施する応用ロボットである。ロボット１４は、文字情報、音声情報、画像情報、ビデオ情報などの自然表現（Ａ言語情報）に対する変換を実施し、標準表現（Ｙ言語情報）を取得する。上述したように、ロボット１４の理解能力が所定のレベルに達した場合に、例えば特定のカテゴリの判断理解能力が成熟している場合に、マニュアルエージェントの補助が必要とすることなく、Ａ−＞Ｘ−＞Ｙの変換を独立して行ってもよい。ＭＴ訓練データセットはロボット１４内に設けられてもよいし、外に設けられているデータベースであってもよく、その中に記憶された標準表現データ（右側言語）の要求コードは標準応答ＩＤに関連付けられてもよい。該データベースは中央制御器１２により更新されてもよい。また、文字翻訳、音声認識、画像認識、ビデオ処理等のためのデータベースは外に設けられたデータベースであってもよいし、ロボット１４内に設けられてもよい。

【0139】

ＭＡＵワークステーション１３は、知能応答装置１とＭＡＵマニュアルエージェント９とのインタフェースである。ＭＡＵワークステーション１３は、認識された自然表現又はクライアントのオリジナル表現をＭＡＵマニュアルエージェント９に提示する。ＭＡＵマニュアルエージェント９は、ＭＡＵワークステーション１３を介して標準表現を入力し、或いは選択して、ＭＡＵワークステーション１３は該標準表現を中央制御器１２に送信する。好ましくは、マニュアル補助で応答を決定する必要がある場合に、ＭＡＵマニュアルエージェント９は、ＭＡＵワークステーション１３を介して応答（又は標準応答ＩＤ）を入力し、或いは選択する。

【0140】

好ましくは、知能応答装置１は訓練器１５をさらに含んでもよい。訓練器１５は、ロボット１４が自然表現を標準表現に変換する能力を訓練する。例えば、訓練器１５は、ＭＡＵマニュアルエージェント９の判断結果を用いてロボット１１を訓練し、ロボット１１の各カテゴリ（例えば、上記の業務カテゴリ及び二次的業務カテゴリなど）のロボットの理解正確率を向上する。各カテゴリについて、ロボットの理解正確率が「ロボット理解の成熟閾値」に達していない場合に、訓練器１５は、ＭＡＵマニュアルエージェント９の標準表現変換結果とロボット１１の標準表現変換結果とを比較し、結果が同一であるとき、該カテゴリの「ロボット判断正解回数」及び「ロボット判断回数」に１を加算し、そうでないとき、マニュアル変換結果をＭＴ訓練データセットに追加し、新しいロボット訓練データとする。訓練器１５は、ロボット１４に上記の「セルフ学習」を行わせるように指示してもよい。

【0141】

また、訓練器１５は、ロボット１４の例えば文字翻訳、音声認識、画像認識、ビデオ処理などの人工知能技術を訓練してもよい。訓練器１５は、ＭＴ訓練データセット、文字翻訳、音声認識、画像認識、ビデオ処理のためのデータベースを維持、更新してもよい。

【0142】

好ましくは、訓練器１５は、中央制御器１２と統合されてもよい。

【0143】

好ましくは、応答生成器１１４及び応答データベース１１３は、対話ゲートウェイ１１と独立してもよいし、中央制御器１２内に統合されてもよい。

【0144】

知能応答装置１は、上記の自然表現の処理及び応答方法を実現できる。例えば、対話ゲートウェイ１１は、表現受信機１１１を介して発呼装置２からクライアント８からの不規則な自然表現情報を受信し、それを中央制御器１２に送信する。中央制御器１２は、ロボット１１に該不規則な自然表現情報をコンピュータで処理可能な特定の形式の言語情報及び関連する表現情報に変換させるように指示し、ロボット１１に該言語情報及び関連する表現情報を標準表現に変換させるように指示する。ロボット１１の理解力が成熟しておらず、或いはコーパスマッチングを実現しておらず、標準表現の変換を完成できない場合に、中央制御器１２は、ＭＡＵワークステーション１３にＭＡＵマニュアルエージェント９に標準表現のマニュアル変換を提示させるように指示する。ＭＡＵマニュアルエージェント９は、ロボット１１により認識された言語情報と関連する表現情報を標準表現に変換し、ＭＡＵワークステーション１３を介して入力し、中央制御器１２に送信し、好ましくは、ＭＡＵマニュアルエージェント９は、認識されていない不規則な自然表現情報を標準表現に直接に変換してもよい。中央制御器１２は、表現−応答データベースを検索し、標準表現と一致する標準応答ＩＤを検索し、マッチング結果がない場合に、ＭＡＵワークステーション１３を介してＭＡＵマニュアルエージェント９に標準応答の選択及び対応する標準応答ＩＤの入力を行わせるように提示し、好ましくは、ＭＡＵマニュアルエージェント９は、標準表現と応答データとを直接に関連付け、或いは新たな応答データを作成してもよい。中央制御器１２は、応答生成器１４が応答データベース１１３におけるデータを呼び出し、且つ／或いは実行することでクライアント８の表現への応答を生成するように指示する。そして、対話ゲートウェイ１１は、発呼装置２を介してクライアント８に応答し、フィードバックする。好ましくは、中央制御器１２は、ＭＡＵマニュアルエージェント９により決定、追加された標準表現又は標準応答に基づいてＭＴ訓練データセット又は応答データベースを維持、更新し、表現−応答データベースを合せて維持、更新する。

【0145】

図５はＭＡＵワークステーションがマニュアルエージェント９に提示する操作画面の一例を例示的に示す図である。図５に示すように、ＭＡＵワークステーション１３の操作画面は、クライアント表現表示エリア１３１、対話状態表示エリア１３２、ガイドエリア１３３、カテゴリ選択エリア１３４及びショットカットエリア１３５を含む。

【0146】

クライアント表現表示エリア１３１は、クライアントの自然表現、例えば文字、画像、音声から変換されたテキストなどの形式を表示する。

【0147】

対話状態表示エリア１３２は、クライアント８とＭＡＵマニュアルエージェント９又はロボット１４との間の対話リアルタイム状態情報、例えば対話の回数、対話の全長、クライアント情報などを表示する。該表示エリアは設けられなくてもよい。

【0148】

ガイドエリア１３３は、ＭＡＵマニュアルエージェント９現在で選択したカテゴリを表示する。該エリアの左側は、現在のカテゴリ経路の文字バージョン（例えば図示の銀行―＞クレジットカード）を表示し、右側は該カテゴリのコード（例えば図示の「１２」であり、「１」は「銀行」のカテゴリを表し、「２」は「銀行」カテゴリにおける下位カテゴリ「クレジットカード」を表す。上記の例と異なって、該応用では、「ＢＮＫ」ではなく「１」で「銀行」カテゴリを表しているが、両者の識別の作用は同じである）を表示する。

【0149】

カテゴリ選択エリア１３４は、ＭＡＵマニュアルエージェント９が下位のカテゴリを選択するためのものである。例えば、図５に示すように、ＭＡＵマニュアルエージェント９は、「銀行」カテゴリの下位カテゴリ「クレジットカード」に進み、「クレジットカード」カテゴリ内には、「新クレジットカードをアクティブする」、「新カード申請及び申請進捗確認」、「返済」などの７つのサブカテゴリを含む。クライアント８の表現が「クレジットカードの限度が少なすぎる。」の場合に、ＭＡＵマニュアルエージェント９は、現在のカテゴリの「銀行−＞クレジットカード」において「７」を選択し、ガイドエリアは「銀行―＞クレジットカードー＞クレジット限度調整……１２７」の表示に更新して、下位のカテゴリに進む。ＭＡＵマニュアルエージェント９は、クライアント８の表現を見た後に、キーボードで「１２７」を直接に入力し、ターゲットカテゴリ「銀行―＞クレジットカードー＞クレジット限度調整」に進んでもよい。このように、クライアント８は、時間をかかって複雑な機能メニューツリーを走査して自分の必要なセルフサービスを検索する必要がなく、自分の要求を直接に言えばよく、ＭＡＵマニュアルエージェント９は、クライアントのために「クレジットカード限度調整」処理を迅速に実行することができる。これによって、ユーザ体験は容易、便利になり、従来のＩＶＲシステムのセルフサービスフローの利用率を大幅に向上できる。

【0150】

ショットカットエリア１３５は、ＭＡＵマニュアルエージェント９に通常のショットカットキー、例えば元のカテゴリに戻すための「−」、「マニュアルサービス切替」のための「０」、トップ（この例では、ルートカテゴリ「銀行」である）に戻すための「＋」を提供する。ショットカットエリアは、ＭＡＵマニュアルエージェント９に他のショットカットキーを提供してもよい。ショットカットエリア１３５は、ＭＡＵマニュアルエージェント９の処理速度を向上できる。ショットカットエリア１３５もオプションの設定領域である。

【0151】

ここで、ＭＡＵワークステーション１３の操作画面の一例のみを示し、ＭＡＵマニュアルエージェント９が標準表現の変換処理を行うためのものである。類似の操作画面を用いて応答のマニュアル処理を行ってもよい。

【0152】

本発明の実施例の知能応答装置は、１つ又は複数のコンピュータ、携帯端末又は他のデータ処理装置により実現されてもよい。

【0153】

【0154】

ロボットの自動学習、訓練及びマニュアル補助理解により、標準化の自然表現と標準表現と標準応答のデータベースを構築でき、システムの自動理解及び応答を徐々に実現できる。また、該データベースは、粒度が小さく、知識範囲が狭く、データの忠実度が高いという利点を有し、ロボット訓練の難しさを低減でき、ロボット知能の成熟周期を短縮できる。

【0155】

通常の応答方式と異なって、マニュアル操作は主に、標準表現（Ｙ言語情報）の要求コードの決定、応答（又は応答ＩＤ）の選択又は応答操作の生成などを含むバックエンドの「ポリシー」操作に限定されるが、フロントエンドで通話又は文字入力（標準表現（Ｙ言語情報）の要求パラメータの入力を除く）等の方式を用いてクライアントと直接にコミュニケーションする必要がない。よって、人件費を大幅に節約でき、作業効率を大幅に向上できる。また、システムのクライアントに提供した標準化応答は、マニュアルエージェントのクライアントに直接に提供した従来の自由な応答に比べて、マニュアルエージェントの気分、音腺、方言、業務熟練度などの要素の影響を受けることがなく、クライアントの体験の安定性を確保できる。

【0156】

また、具体的な業務カテゴリ（ノード）を単位にしてロボットの自動学習、訓練及び成熟度評価を行うことができ、システム全体の知能化を実現できる。実際の応用では、該「ロボット理解が徐々に成熟する」というメカニズムは機関に認可しやすく、受け入れやすく、リスクが相対的に低く、古いシステムの置き換えコストが高くなく、日常運用に悪い影響をもたらすことがない。

【0157】

以上は本発明の例示的な実施形態を説明しているが、本発明の保護範囲を制限するものではなく、本発明の保護範囲は添付されるクレームにより決定される。

【図1】