IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ セコム株式会社の特許一覧

<>
  • 特許-対話型応対装置 図1
  • 特許-対話型応対装置 図2
  • 特許-対話型応対装置 図3
  • 特許-対話型応対装置 図4
  • 特許-対話型応対装置 図5
  • 特許-対話型応対装置 図6
  • 特許-対話型応対装置 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-18
(45)【発行日】2024-10-28
(54)【発明の名称】対話型応対装置
(51)【国際特許分類】
   G10L 13/00 20060101AFI20241021BHJP
   G10L 15/22 20060101ALI20241021BHJP
【FI】
G10L13/00 100Q
G10L15/22 300Z
G10L15/22 460Z
【請求項の数】 4
(21)【出願番号】P 2020150882
(22)【出願日】2020-09-08
(65)【公開番号】P2022045276
(43)【公開日】2022-03-18
【審査請求日】2023-07-14
(73)【特許権者】
【識別番号】000108085
【氏名又は名称】セコム株式会社
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100114018
【弁理士】
【氏名又は名称】南山 知広
(74)【代理人】
【識別番号】100180806
【弁理士】
【氏名又は名称】三浦 剛
(72)【発明者】
【氏名】長谷川 精也
(72)【発明者】
【氏名】沙魚川 久史
(72)【発明者】
【氏名】高橋 哲也
(72)【発明者】
【氏名】青木 秀行
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開2020-123132(JP,A)
【文献】特開2011-209787(JP,A)
【文献】特開2016-206249(JP,A)
【文献】特開2009-031810(JP,A)
【文献】特開2007-034504(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-15/34
(57)【特許請求の範囲】
【請求項1】
キャラクタの画像を表示する表示部と、
前記キャラクタの音声の出力及び周囲の人物の発話内容に係る音声の入力をする音声入出力部と、
複数のシナリオと、前記複数のシナリオに関連する、キーワード、文意または趣旨に関する複数の関連情報とを記憶する記憶部と、
所定空間内の人物を検知する検知部と、
前記複数の関連情報の中から、前記音声入出力部から入力された音声の前記発話内容に含まれるキーワードまたは前記発話内容の文意もしくは趣旨に対応する関連情報を選択し、前記選択した関連情報に基づいて前記複数のシナリオの中からシナリオを選択する選択部と、
前記選択されたシナリオに従って、前記音声入出力部を介して前記キャラクタに前記検知された人物と対話させることによって応対を行う応対部と、を有し、
前記選択部は、前記人物の発話中の音声を認識して前記関連情報の選択を行い、前記応対部による応対を行う前の当該関連情報を選択したタイミングに、当該選択した関連情報についての表示情報を前記表示部に表示させる、
ことを特徴とする対話型応対装置。
【請求項2】
前記選択部は、前記音声入出力部から入力された音声をテキスト化した文字情報を前記表示部に表示させ、前記文字情報の中で、前記表示情報を他の文字情報と識別可能に表示させる、請求項に記載の対話型応対装置。
【請求項3】
前記選択部は、前記表示情報を前記キャラクタの頭部領域と関連付けて前記表示部に表示させる、請求項に記載の対話型応対装置。
【請求項4】
前記表示情報は、前記音声入出力部から入力された音声の趣旨を示す文字情報であり、
前記選択部は、前記音声入出力部から入力された音声をテキスト化した文字情報を前記表示部に表示させるにあたって、前記表示情報を前記表示部に表示させ、当該表示情報以外の文字情報を前記表示部に表示させない、請求項に記載の対話型応対装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人物と対話する対話型応対装置に関する。
【背景技術】
【0002】
従来、空港、駅等の交通機関の施設、商業施設、興行施設や企業の事務所等には、案内人が配置され、施設に訪れた人物に対する案内又は受付等を行っている。しかしながら、案内人の人手不足の問題から所定のキャラクタの画像を表示する装置が開発されている。
【0003】
例えば、特許文献1には、人の上半身の形状に合わせたスクリーンを設置し、スクリーンの形状に合わせて受付係の映像を投影させる映像出力装置搭載機器が開示されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2011-150221号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
キャラクタの画像を表示しつつ人物と対話する対話型応対装置では、人間同士の対話のような相手の発話に応じた自然な反応が行われておらず、人物は自身の発話の趣旨が適切に認識されているかが把握しづらい。そのため、人物の発話の意図を認識したこと利用者に認知させることにより円滑に人物と対話を行えることが求められている。
【0006】
本発明の目的は、キャラクタの画像を表示しつつ人物と対話する際に、より円滑に人物と対話を行うことができる対話型応対装置を提供することにある。
【課題を解決するための手段】
【0007】
かかる課題を解決するため本発明は、キャラクタの画像を表示する表示部と、キャラクタの音声の出力及び周囲の音声の入力をする音声入出力部と、複数のシナリオと、複数のシナリオに関連する複数の関連情報とを記憶する記憶部と、所定空間内の人物を検知する検知部と、複数の関連情報の中から、音声入出力部から入力された音声に対応する関連情報を選択し、選択した関連情報に基づいて複数のシナリオの中からシナリオを選択する選択部と、選択されたシナリオに従って、音声入出力部を介してキャラクタに検知された人物と対話させることによって応対を行う応対部と、を有し、選択部は、関連情報を選択した場合、その選択した関連情報についての表示情報を表示部に表示させる対話型応対装置を提供する。
【0008】
この対話型応対装置において、選択部は、複数の関連情報の中から、音声入出力部から入力された音声に含まれる用語を含む関連情報を選択することが好適である。
【0009】
この対話型応対装置において、選択部は、音声入出力部から入力された音声をテキスト化した文字情報を表示部に表示させ、文字情報の中で、表示情報を他の文字情報と識別可能に表示させることが好適である。
【0010】
この対話型応対装置において、選択部は、表示情報をキャラクタの頭部領域と関連付けて表示部に表示させることが好適である。
【0011】
この対話型応対装置において、表示情報は、音声入出力部から入力された音声の趣旨を示す文字情報であり、選択部は、音声入出力部から入力された音声をテキスト化した文字情報を表示部に表示させるにあたって、表示情報を表示部に表示させ、表示情報以外の文字情報を表示部に表示させないことが好適である。
【発明の効果】
【0012】
本発明に係る対話型応対装置は、キャラクタの画像を表示しつつ人物と対話する際に、より円滑に人物と対話を行うことが可能となる。
【図面の簡単な説明】
【0013】
図1】案内システム1の全体システム構成を示す図である。
図2】応対装置10の外観を示す模式図である。
図3】シナリオテーブル161のデータ構造の一例を示す模式図である。
図4】表示処理の動作の例を示すフローチャートである。
図5】(a)、(b)はキャラクタの表示態様の例を示す模式図である。
図6】(a)はキャラクタの表示態様の例を示す模式図であり、(b)は表示情報の表示態様の例を示す模式図である。
図7】(a)、(b)は表示情報の表示態様の例を示す模式図である。
【発明を実施するための形態】
【0014】
以下、実施形態に係る案内システムについて図を参照しつつ説明する。
【0015】
図1は、実施形態に係る案内システム1の全体システム構成を示す図である。
案内システム1は、対話型案内システムである。案内システム1は、空港、駅、商業施設(デパート、スーパーマーケット等)、興行場、企業の事務所等の対象施設において、キャラクタを利用者(人物)と対話させることによって、利用者に対して案内又は受付係等の応対を行う。本実施形態では、案内システムの例として、対象施設を監視及び警備する監視システムについて説明するが、案内システムは、単に利用者に案内又は受付を行うシステムでもよい。
図1に示すように、案内システム1は、複数の応対装置10及び管理装置20等を有する。各応対装置10は、それぞれ異なる対象空間に設置され、各対象空間内の利用者に対する応対を行うとともに、各対象空間を監視及び警備する監視表示装置である。対象空間は、例えば対象施設の入り口又は各フロア等である。管理装置20は、警備会社が運営する警備センタ又は対象施設内の防災センタの監視卓等に設置され、各応対装置10による監視結果(撮影映像等)を収集し、管理する装置である。各応対装置10及び管理装置20は、イントラネット、インターネット又は携帯電話ネットワーク等の通信ネットワークを介して相互に接続される。
なお、案内システム1は、それぞれ異なる複数の対象施設をそれぞれ管理する複数の管理装置20を有してもよい。その場合、案内システム1は、各対象施設から離れた位置に設置された監視センタに配置されたサーバ装置をさらに有し、サーバ装置が、各管理装置20が管理する情報を収集し、管理してもよい。
【0016】
応対装置10は、ミラーサイネージ等の表示装置である。応対装置10は、表示部11、センサ12、撮像部13、音声入出力部14、通信部15、記憶部16及び制御部17等を有する。
【0017】
表示部11は、ミラー型ディスプレイ等であり、制御部17からの指示に従って画像、テキスト等の各情報を表示する。特に、表示部11は、制御部17からの指示に従って、立哨する警備員を模したキャラクタの画像を表示する。なお、表示部11は、液晶ディスプレイ又は有機ELディスプレイ等の非ミラー型ディスプレイでもよい。また、表示部11に表示されるキャラクタは、警備員を模したキャラクタに限定されず、店員又は受付係等に模したキャラクタでもよい。表示部11の詳細については後述する。
【0018】
センサ12は、周期的に対象空間内の人物を検知し、検知した人物の位置を求める人体検知センサである。センサ12として、例えばレーザ測距センサが利用される。レーザ測距センサは、予め設定された走査範囲(例えば180°)にわたって水平方向に所定の角度ステップ(例えば0.25°単位)で、所定の波長(例えば約870nm)を有する近赤外線のパルスレーザを照射し、そのレーザの反射光を検出する。レーザ測距センサは、例えばTime-of-Flight法により、レーザを反射した物体までの距離を測定する。センサ12は、一定の周期(例えば200msec)で走査範囲全体を走査し、その走査範囲内の各方位における、レーザが反射された点までの距離を測定し、測定された距離を、パルスレーザを投光した方位と対応付けた測距データを制御部17へ出力する。なお、センサ12は、位相差方式、三角測量方式等の他の公知の測距方法を用いて人物の位置を求めてもよい。また、センサ12は、複数設けられてもよい。
【0019】
撮像部13は、CCD素子またはC-MOS素子など、可視光に感度を有する光電変換素子と、その光電変換素子上に像を結像する結像光学系と、光電変換素子から出力された電気信号を増幅し、アナログ/デジタル(A/D)変換するA/D変換器とを有する。撮像部13は、撮影したRGB各色の画像を各画素が0~255の範囲の輝度値を有するデジタルの入力画像に変換して制御部17へ出力する。なお、撮像部13は、複数設けられてもよい。
【0020】
音声入出力部14は、マイクロフォンと、光電変換素子から出力された電気信号を増幅し、アナログ/デジタル(A/D)変換するA/D変換器とを有する。音声入出力部14は、周囲の音声の入力をし、入力された音声をデジタルの入力音声に変換して制御部17へ出力する。音声入出力部14は、さらにスピーカ等を有し、制御部17からの指示に従ってキャラクタの音声の出力をする。
【0021】
通信部15は、例えばTCP/IP等に準拠した通信インタフェース回路を有し、イントラネット又はインターネット等の通信ネットワークに接続する。または、通信部15は、例えばW-CDMA方式又はLTE方式等に準拠した通信インタフェース回路を有し、基地局を介して移動体通信網等の通信ネットワークに接続する。通信部15は、通信ネットワークから受信したデータを制御部17へ出力し、制御部17から入力されたデータを通信ネットワークに送信する。
【0022】
記憶部16は、ROM、RAM等の半導体メモリ、磁気ディスク又はCD-ROM、DVD-ROM等の光ディスクドライブ及びその記録媒体を有する。記憶部16は、応対装置10を制御するためのコンピュータプログラム及び各種データを記憶し、制御部17との間でこれらの情報を入出力する。コンピュータプログラムは、CD-ROM、DVD-ROM等のコンピュータ読み取り可能な可搬型記録媒体から公知のセットアッププログラム等を用いて記憶部16にインストールされてもよい。
また、記憶部16は、データとして、対象空間における応対装置10の設置位置、及び、入場ゲートや立入禁止区域等の特定エリアの位置を記憶する。また、記憶部16は、データとして、対象空間におけるセンサ12の配置位置、及び、パルスレーザの照射方向を記憶する。また、記憶部16は、データとして、撮像部13により撮像される画像内の各画素と、対象空間内の各位置との対応関係を示すマップ情報を記憶する。また、記憶部16は、データとして、キャラクタに対象空間内の人物と対話させるための複数のシナリオを管理するシナリオテーブル161を記憶する。シナリオテーブル161の詳細については後述する。
【0023】
制御部17は、CPU、MPU等のプロセッサと、ROM、RAM等のメモリと、その周辺回路とを有し、応対装置10の各種信号処理を実行する。制御部17は、プロセッサ上で動作するプログラムの機能モジュールとして実装される検知部171、選択部172及び応対部173等を有する。選択部172は、認識部の一例である。制御部17は、認識した対象空間の状況等に応じて表示するキャラクタの動作を表示制御する。また、制御部17は、応対装置10の近傍(例えば、1m以内)で立ち止まった人物を検知した場合、又は、人物からの発話を検知したした場合等に、その人物と対話するように音声出力を制御する。なお、制御部17として、DSP、LSI、ASIC、FPGA等が用いられてもよい。
制御部17は、撮像部13が対象空間を撮像した入力画像又は音声入出力部14が集音した入力音声を、通信部15を介して管理装置20へ送信する。また、制御部17は、キャラクタの画像を表示部11に表示し、キャラクタの音声を音声入出力部14から出力するとともに、通信部15を介して管理装置20から受信した監視員の音声を音声入出力部14から出力する。
【0024】
管理装置20は、例えばパーソナルコンピュータ等である。管理装置20は、第2表示部21、第2音声入力部22、第2音声出力部23、第2通信部23、第2記憶部24及び第2制御部25等を有する。
【0025】
第2表示部21は、液晶ディスプレイ又は有機ELディスプレイ等であり、第2制御部25からの指示に従って画像、テキスト等の各情報を表示する。
第2音声入出力部22は、音声入出力部14と同様の構成を有し、入力された音声をデジタルの音声データに変換して第2制御部25へ出力するとともに、第2制御部25からの指示に従って音声を出力する。
【0026】
第2通信部23は、例えばTCP/IP等に準拠した通信インタフェース回路を有し、イントラネット又はインターネット等の通信ネットワークに接続する。第2通信部23は、通信ネットワークから受信したデータを第2制御部25へ出力し、第2制御部25から入力されたデータを通信ネットワークに送信する。
【0027】
第2記憶部24は、記憶部16と同様の半導体メモリ、磁気ディスク又は光ディスクドライブ及びその記録媒体を有する。第2記憶部24は、管理装置20を制御するためのコンピュータプログラム及び各種データを記憶し、第2制御部25との間でこれらの情報を入出力する。コンピュータプログラムは、CD-ROM、DVD-ROM等のコンピュータ読み取り可能な可搬型記録媒体から公知のセットアッププログラム等を用いて第2記憶部24にインストールされてもよい。
【0028】
第2制御部25は、制御部17と同様のプロセッサ、メモリ及び周辺回路を有し、管理装置20の各種信号処理を実行する。なお、第2制御部25として、DSP、LSI、ASIC、FPGA等が用いられてもよい。
第2制御部25は、第2通信部23を介して応対装置10から受信した入力画像を第2表示部21に表示するとともに、第2通信部23を介して応対装置10から受信した入力音声を第2音声出力部23から出力する。また、第2制御部25は、第2音声入力部22から入力された監視員による音声を、第2通信部23を介して応対装置10に送信する。
【0029】
図2は、応対装置10の外観を示す模式図である。図2に示すように、応対装置10の表示部11は、台座18により支持されている。応対装置10は、表示部11が対象空間Aに向くように配置される。
表示部11は、例えば、液晶ディスプレイ又は有機ELディスプレイ等のモニターの表示面にミラーパネル111を貼り合わせることにより形成されている。ミラーパネル111は、外側(対象空間側)からの光を反射しつつ、内側(モニター側)からの光(画像)を透過する。これにより、表示部11は、対象空間Aを往来する人物Hの像を反射させて表示しつつ、制御部17から出力されたキャラクタCの画像を表示する。
ミラーパネル111の外枠112には、センサ12が対象空間Aに向けて近赤外線のパルスレーザを投光可能に配置される。同様に、外枠112には、撮像部13が対象空間Aを撮像可能に配置され、音声入出力部14が対象空間Aの音を集音可能に且つ対象空間Aに向けて音を出力可能に配置される。なお、センサ12、撮像部13及び音声入出力部14は外枠112に配置されることに限定されず、ミラーパネル111越しに配置されてもよい。
【0030】
図3は、シナリオテーブル161のデータ構造の一例を示す模式図である。
図3に示すように、シナリオテーブル161には、複数のシナリオ毎に、各シナリオの識別番号(シナリオID)、シナリオ、関連情報及び応答情報等が関連付けて記憶される。
【0031】
シナリオは、キャラクタに対象空間内の人物と対話させるための対話の流れを示す情報であり、制御部17がキャラクタに対象空間内の人物と対話させる際に使用される。シナリオとして、例えば、施設案内(場所問合せ)、取り次ぎ依頼、通報、日常会話等に関する対話のシナリオ等が予め設定される。
【0032】
関連情報は、各シナリオに関連する情報であり、制御部17がシナリオを選択するために使用される。関連情報として、対象空間内の人物の発話に含まれる可能性が高いキーワード、又は、発話の文意もしくは趣旨等によって各シナリオを識別可能な識別情報等が予め設定される。各シナリオの関連情報として、一又は複数のキーワード又は識別情報が設定される。
例えば、施設案内(場所問合せ)に関する対話のシナリオについて、キーワードとして、問合せの対象となり得る用語(トイレ、会議室等)が設定される。同様に、取り次ぎ依頼に関する対話のシナリオについて、キーワードとして、アポイント等の用語が設定される。また、通報に関する対話のシナリオについて、キーワードとして、助けを求める用語や不審者等の用語が設定される。
一方、識別情報として、例えばニューラルネットワーク等の機械学習技術を利用する学習装置により、様々な種類の発話を含む複数のサンプル音声を用いて事前学習された識別器が設定される。識別器は、各サンプル音声が入力された場合に、そのサンプル音声が各シナリオに対応している確度(確からしさ)と、そのサンプル音声が示すキーワード(トイレ、会議室)、文意又は趣旨(トイレの場所、アポイントで来訪)とを出力するように事前学習される。
【0033】
応答情報は、各シナリオにおいて、キャラクタに出力させる音声を示す情報である。なお、一つのシナリオに対して、人物の発話内容に応じて細分化された複数の応答情報が設定されてもよい。その場合、各応答情報は、入力される音声の情報と関連付けて設定される。
【0034】
図4は、応対装置10による表示処理の動作の例を示すフローチャートである。このフローチャートは、予め記憶部16に記憶されているプログラムに基づいて、主に制御部17により、応対装置10の各要素と協働して実行される。表示処理が実行されている間、制御部17は、キャラクタの画像を表示部11に表示し続ける。特に、制御部17は、利用者が検知されていない状況では、キャラクタCの視線方向や身体方向を所定範囲内(例えば正面を基準に45度ずつ)で移動させ、利用者を検知した場合、キャラクタCの視線を検知した利用者に向ける通常動作を実行するようにキャラクタCの画像表示を制御する。これにより、本物の立哨警備を行う警備員らしい画像の表示ができ、警備員としての存在感が発揮される。
【0035】
図5(a)は、通常動作を実行中のキャラクタの表示態様の一例を示す模式図である。
図5(a)に示す例では、選択部172は、キャラクタCの視線が対象空間内の人物Hの方向にわずかに傾くようにキャラクタCの動作を変化させている。応対装置10は、例えば、1枚のキャラクタCの画像を目、鼻、口、顔の輪郭、首、体、腕、足等の所定のパーツごとに分割し、各パーツにポリゴンを割り当てておく。また、応対装置10は、複数の視線方向毎に、各視線方向に対応する各パーツのポリゴンの位置及び向きを事前に記憶部16に設定しておく。選択部172は、キャラクタCが、所定の視線方向を向くように、ポリゴンを動かし、ポリゴンにあわせて各パーツを動かすことにより、キャラクタCの画像表示を更新する。なお、選択部172は、通常動作において、キャラクタCの視線を変更させるのでなく、キャラクタCに一定間隔で相槌を打たせる等、他の任意のパーツを動かすことによりキャラクタCの動作を変化させてもよい。また、選択部172は、通常動作において、キャラクタCの動作を変化させず、キャラクタCを停止させてもよい。
【0036】
また、制御部17は、応対装置10の近傍(例えば、1m以内)において利用者を検知したり利用者からの発話を検知したりすると、通常動作から応対動作に移行し、キャラクタCが当該利用者と対話するように音声出力を制御することで、施設の利用者に対する案内や受付等の応対を行う応対動作を実行する。
【0037】
まず、検知部171は、撮像部13に対象空間を撮像させ、対象空間を撮像した入力画像を撮像部13から取得する(ステップS101)。
【0038】
次に、検知部171は、対象空間内の人物を検知する検知処理を実行する(ステップS102)。検知部171は、例えば応対装置10の近傍(例えば1m以内)で立ち止まった人物を検知する。
検知部171は、入力画像から人物を検知する。検知部171は、例えばフレーム間差分処理または背景差分処理を利用して、順次撮影された複数の入力画像において輝度値の時間的な変化を有する変化領域を抽出する。検知部171は、抽出した各変化領域の大きさ、形状等の特徴量に基づいて、人物らしいと考えられる変化領域を人物領域として抽出する。検知部171は、抽出した人物領域に対してSobelフィルタなどを用いて輝度変化の傾き方向が分かるようにエッジ画素を抽出する。検知部171は、抽出したエッジ画素から、例えば一般化ハフ変換を用いて、所定の大きさを有する、頭部の輪郭形状を近似した楕円形状のエッジ分布を検出し、そのエッジ分布に囲まれた領域を顔領域として抽出する。なお、検知部171は、Adaboost識別器等の他の公知の方法を用いて顔領域を抽出してもよい。検知部171は、入力画像から顔領域を抽出した場合、その顔領域に対応する人物領域に含まれる人物を対象空間内の人物として検出する。そして、検知部171は、マップ情報に基づいて、検出した人物の足元が写っている、人物領域の最下端の画素に対応する対象空間内の位置を人物位置として特定する。検知部171は、複数の顔領域が抽出された場合、抽出した顔領域毎に人物を検出して人物位置を特定する。
【0039】
なお、検知部171は、センサ12から測距データを取得し、取得した測距データから人物を検知してもよい。検知部171は、取得した測距データを予め設定された基準測定データと比較し、所定以上の距離変化が生じている方向(走査方位)を抽出し、所定以上の連続性(例えば一般的な人のサイズ)を有する距離変化方向群を対象空間内の人物として検出する。検知部171は、対象空間におけるセンサ12の配置位置及びパルスレーザの照射方向と、検出した人物に係る代表測距データ(例えば、距離変化方向群の中心の走査方位及び測定距離)とから、対象空間内の人物位置を特定する。検知部171は、複数の距離変化方向群が抽出された場合、距離変化方向群毎に人物か否かを判別し、人物位置を特定する。
また、検知部171は、音声入出力部14から入力音声を取得し、取得した入力音声から人物を検知してもよい。検知部171は、入力音声の音圧が、予め設定された閾値以上である場合に、対象空間に人物が存在すると判定する。なお、検知部171は、入力音声の周波数が、予め設定された範囲内である場合に、対象空間に人物が存在すると判定してもよい。
【0040】
次に、検知部171は、検知処理において応対装置10の近傍で人物が検知されたか否かを判定する(ステップS103)。検知処理において応対装置10の近傍で人物が検知されなかった場合、検知部171は、処理をステップS101へ戻し、キャラクタCは通常動作を継続する。
【0041】
一方、検知処理において応対装置10の近傍で人物が検知された場合、選択部172は、音声入出力部14から入力された入力音声を認識する認識処理を実行し、認識処理において人物による発話内容に係る音声が認識されたか否かを判定する(ステップS104)。選択部172は、入力音声に公知の音声認識技術及び自然言語処理技術を適用して、入力音声に対応する文字情報、即ち入力音声をテキスト化した文字情報を抽出し、人物による発話内容を検出する。発話内容に係る音声が認識されなかった場合、選択部172は、処理をステップS101へ戻す。
【0042】
一方、発話内容に係る音声が認識された場合、選択部172は、応対動作を実行するようにキャラクタの画像表示を制御する(ステップS105)。即ち、選択部172は、発話内容に係る音声を認識したタイミングにおいて、応対動作を実行するようにキャラクタの画像表示を制御する。但し、選択部172は、検知された人物に対して、後述するステップS107において、既に、特定の認識情報を得たことを示すようにキャラクタの画像表示を制御している場合、ステップS105の処理を省略する。
【0043】
また、選択部172は、発話内容に係る音声が認識されたときに、入力音声に対応する文字情報、即ち対象空間内の人物による全発話に対応する文字情報(全発話をテキスト化した文字情報)を表示部11に表示してもよい。また、選択部172は、発話内容に係る音声が認識されたときでなく、人物が検知されたときに、応対動作を実行するようにキャラクタの画像表示を制御してもよい。
【0044】
次に、選択部172は、シナリオテーブルに記憶された複数の関連情報の中から、入力音声に対応する関連情報を選択(特定)する第1選択処理を実行し、第1選択処理において関連情報を選択したか否かを判定する(ステップS106)。
第1選択処理において、選択部172は、入力音声から抽出された文字情報に、関連情報として設定された各キーワードが含まれるか否かを判定する。選択部172は、文字情報にキーワードが含まれる場合、そのキーワードを入力音声に対応する関連情報として選択し、そのキーワードをその関連情報についての表示情報(関連情報を示す文字情報やアイコン等のイメージ図)として選択する。即ち、選択部172は、入力音声に含まれる用語を含む関連情報を、入力音声に対応する関連情報として選択する。これにより、選択部172は、入力音声に適合するシナリオを精度良く選択することができる。一方、選択部172は、入力音声から抽出された文字情報にキーワードが含まれない場合、入力音声に対応する関連情報を選択しない。なお、キーワードが含まれるか否かの判定においては、認識音声の形態素解析を行い、キーワードとの品詞の一致を考慮してもよい。
また、選択部172は、関連情報として設定された各識別器に入力音声を入力し、各識別器から出力された確度及びキーワード、文意又は趣旨を取得する。選択部172は、何れかの識別器から取得した確度が、予め設定された閾値以上である場合、確度が最も大きい識別器を入力音声に対応する関連情報として選択し、その識別器から取得したキーワード、文意又は趣旨をその関連情報についての表示情報として選択する。これにより、選択部172は、入力音声に適合するシナリオを柔軟に選択することができる。一方、選択部172は、何れの識別器から取得した確度も閾値未満である場合、入力音声に対応する関連情報を選択しない。
第1選択処理において関連情報を選択しなかった場合、選択部172は、処理をステップS101へ戻す。
【0045】
一方、第1選択処理において関連情報を選択した場合、選択部172は、入力された音声認識の結果から関連情報を選択(特定)したことをもって特定の認識情報の取得とする。即ち、選択部172は、関連情報を特定の認識情報として取得する。その場合、選択部172は、特定の認識情報を得たことを対話対象の人物に示すようにキャラクタの画像表示を制御する(ステップS107)。即ち、選択部172は、入力された音声の認識結果から特定の認識情報を得たタイミングで、その特定の認識情報を得たことを対話対象の人物に示すようにキャラクタの画像表示を制御する。
【0046】
図5(b)は、特定の認識情報を取得した場合のキャラクタの表示態様の一例を示す模式図である。
図5(b)に示すように、選択部172は、キャラクタCの動作を変化させることにより、特定の認識情報を取得したことを対話対象の人物に示すようにキャラクタCの画像表示を制御する。選択部172は、通常は利用者の発話を認識すると所定のタイミングで利用者の発話に反応する第1反応動作(例えば、頷く)を実行するようキャラクタCの画像表示を制御する(図5(a)参照)。一方、選択部172は、特定の認識情報を取得すると第1反応動作より動作範囲が大きい第2反応動作(例えば、大きく頷く)を実行するようキャラクタCの画像表示を制御する。即ち、選択部172は、発話内容に係る音声を認識したタイミングでその音声に反応する第1反応動作を実行し、特定の認識情報を得たタイミングで第2反応動作を実行するようにキャラクタCの画像表示を制御する。
【0047】
図6(a)は、キャラクタの表示態様の他の例を示す模式図である。
図6(a)に示すように、選択部172は、キャラクタCの表情を変化させることにより、特定の認識情報を取得したことを対話対象の人物に示すようにキャラクタCの画像表示を制御する。図6(a)に示す例では、選択部172は、キャラクタCが微笑むようにキャラクタCの表情を変化させている。応対装置10は、例えば、複数の表情毎に、キャラクタCの顔画像を予め記憶部16に記憶しておく。選択部172は、表示部11に表示されるキャラクタCの顔画像を、記憶部16に記憶された他の顔画像に置換することにより、キャラクタCの表情を変化させる。なお、選択部172は、キャラクタCの表情を、キャラクタCが微笑むように変化させるのでなく、まじめな表情等の他の表情に変化させてもよい。
【0048】
これらにより、対象空間内の人物は、自分の発話に対して応対装置10が何らかの認識をしていることを把握でき、安心感を得ることができるので、応対装置10は、ユーザーエクスペリエンスを向上させることができる。
【0049】
また、選択部172は、選択した関連情報についての表示情報を表示部11に表示させる(ステップS108)。選択部172は、表示情報をキャラクタCとは別に表示部11に表示させる。
【0050】
図6(b)は、表示情報の表示態様の一例を示す模式図である。
図6(b)に示すように、選択部172は、入力音声をテキスト化した文字情報T1を表示部11に表示させる。文字情報T1は、対象空間内の人物による全発話をテキスト化した文字情報である。そして、選択部172は、文字情報T1のうち選択した表示情報T2を強調して表示させ、文字情報T1の中で、選択した表示情報T2を他の文字情報と識別可能に表示させる。図6(b)に示す例では、選択部172は、表示情報T2に下線を付すことにより、表示情報T2を他の文字情報と識別可能に表示させている。なお、選択部172は、表示情報T2をハイライト表示すること、又は、表示情報T2の色、太さ、フォント等を他の文字情報の色、太さ、フォント等と異ならせることにより、表示情報T2を他の文字情報と識別可能に表示させてもよい。これにより、対象空間内の人物は、自分が発した発話の中のどの用語を応対装置10がキーワードとして認識しているかを把握でき、応対装置10が自分の発話の意図を正しく認識しているか否かを判断できる。そのため、対象空間内の人物は、安心感を得ることができるので、応対装置10は、ユーザーエクスペリエンスを向上させることができる。また、対象空間内の人物は、自分が意図していない用語を応対装置10がキーワードとして認識している場合には、早急に訂正できるので、結果として、応対装置10は、応対に要する時間を短縮させることができる。
【0051】
図7(a)は、表示情報の表示態様の他の例を示す模式図である。
図7(a)に示すように、選択部172は、表示情報T3をキャラクタCの頭部領域と関連付けて表示部11に表示させる。図7(a)に示す例では、選択部172は、表示情報T3をキャラクタCの頭部領域から吹き出しにより表示することにより、キャラクタCの頭部領域と関連付けて表示している。なお、選択部172は、吹き出しを用いずに、表示情報T3をキャラクタCの頭部領域の近傍に表示することにより、キャラクタCと関連付けて表示してもよい。また、図7(a)に示す例では、入力音声をテキスト化した文字情報T4も表示部11に表示されている。但し、表示情報T3をキャラクタCと関連付けて表示する場合、入力音声をテキスト化した文字情報T4は、表示されなくてもよい。これにより、対象空間内の人物は、応対装置10(キャラクタ)が認識している発話の趣旨を視覚的に把握しやすくなるので、応対装置10は、ユーザーエクスペリエンスを向上させることができる。また、対象空間内の人物は、自分が意図していない方向で応対装置10が発話の趣旨を認識している場合には、早急に訂正できるので、結果として、応対装置10は、応対に要する時間を短縮させることができる。
【0052】
図7(b)は、表示情報の表示態様のさらに他の例を示す模式図である。
図7(b)に示すように、表示情報T5は、入力音声の趣旨を示す文字情報である。選択部172は、入力音声をテキスト化した文字情報を表示部11に表示させるにあたって、表示情報T5を表示部11に表示させ、表示情報T5以外の文字情報を表示部11に表示させない。これにより、対象空間内の人物は、応対装置10が認識している発話の趣旨を注視することができるので、応対装置10は、ユーザーエクスペリエンスを向上させることができる。また、対象空間内の人物は、自分が意図していない方向で応対装置10が発話の趣旨を認識している場合には、早急に訂正できるので、結果として、応対装置10は、応対に要する時間を短縮させることができる。
【0053】
また、図6(b)、図7(a)、(b)に示すように、選択部172は、特定の認識情報を得たことを対話対象の人物に示すようにキャラクタCの画像表示を制御するとともに、選択(特定)した表示情報を表示部11に表示させる。これにより、対象空間内の人物は、応対装置10が自分の発話を認識していることを把握しつつ、応対装置10が認識している発話の趣旨を把握できるので、応対装置10は、ユーザーエクスペリエンスを向上させることができる。
なお、ステップS107の処理が省略され、選択部172は、特定の認識情報を得たことを対話対象の人物に示すようにキャラクタCの画像表示を制御することなく、表示情報を表示部11に表示させてもよい。また、ステップS108の処理が省略され、選択部172は、表示情報を表示部11に表示させることなく、特定の認識情報を得たことを対話対象の人物に示すようにキャラクタCの画像表示を制御してもよい。
【0054】
次に、選択部172は、選択した関連情報に基づいて、シナリオテーブルに記憶された複数のシナリオの中からシナリオを選択する第2選択処理を実行し、第2選択処理においてシナリオを選択したか否かを判定する(ステップS109)。
第2選択処理において、選択部172は、シナリオテーブルに記憶されたシナリオ毎に、第1選択処理で選択したキーワードの数を計数する。選択部172は、何れかのシナリオについて計数した数が所定数(例えば2)以上である場合、計数した数が最も大きいシナリオを選択する。一方、選択部172は、何れのシナリオについて計数した数も所定数未満である場合、シナリオを選択しない。
なお、シナリオごとにキーワードの組み合わせに関する条件(AND条件、NOT条件等)を設定して、シナリオ選択をしてもよい。シナリオIDのS01を例にとって説明すると、選択部172は、「トイレ」に加えて「場所を尋ねる情報(「場所」、「どこ」、「行きたい」等)」(AND条件)が認識されるとシナリオS01を選択し、一方、選択部172は、「トイレ」に加えて「詰まっている」(NOT条件)が認識されるとシナリオS01を選択しない。このように、「トイレ」というキーワードとの組み合わせを考慮することで、利用者の発話内容に沿ったシナリオを適切に選択できる。
また、選択部172は、シナリオテーブルに記憶されたシナリオ毎に、第1選択処理で選択した識別器から取得した確度の合計値又は平均値を算出する。選択部172は、選択部172は、何れかのシナリオについて算出した合計値又は平均値が所定値以上である場合、算出した合計値又は平均値が最も大きいシナリオを選択する。一方、選択部172は、何れのシナリオについて算出した合計値又は平均値も所定値未満である場合、シナリオを選択しない。
第2選択処理においてシナリオを選択しなかった場合、選択部172は、処理をステップS101へ戻す。
【0055】
一方、第2選択処理においてシナリオが選択された場合、応対部173は、選択されたシナリオに従って、検知部171により検知された人物に対する応対を行い(ステップS110)、処理をステップS101へ戻す。応対部173は、音声入出力部14を介して、キャラクタに、検知された人物と対話させることによって、その人物に対する応対を行う。応対部173は、シナリオテーブルにおいて、選択したシナリオに関連付けて記憶された応答情報に従って、音声入出力部14からキャラクタの音声を出力することにより、キャラクタに対象空間内の人物と対話させる。
【0056】
以上説明してきたように、本発明に係る応対装置10は、対話のシナリオを選択するために用いられる関連情報を選択した場合、選択した関連情報についての表示情報を表示させる。これにより、対象空間内の人物は、応対装置10が認識している発話の趣旨を把握し、自分の意図が適切に伝わっていることを認知でき、安心感を得ることができる。したがって、応対装置10は、キャラクタの画像を表示しつつ人物と対話する際に、より円滑に人物と対話を行うことが可能となる。
【0057】
また、本発明に係る応対装置10は、入力された音声に対して特定の認識情報を得たタイミングで、特定の認識情報を得たことを対話対象の人物に示すようにキャラクタの画像表示を制御する。これにより、対象空間内の人物は、自分の発話に対して応対装置10が何らかの認識をしていることを把握でき、安心感を得ることができる。したがって、応対装置10は、キャラクタの画像を表示しつつ人物と対話する際に、より円滑に人物と対話を行うことが可能となる。
【0058】
従来、対話型の情報処理装置は、利用者との対話において、一定間隔で相槌を打つ程度のコミュニケーションを取ることしか行っていなかった。そのため、利用者は、情報処理装置との対話において、情報処理装置が自分の発話を正しく認識しているかを把握できず、求めていることに対する適切な回答が得られるか、不安を感じる場合があった。一方、応対装置10は、特定の認識情報を得たタイミングで、認識した旨及び/又は認識した内容を利用者に伝えるため、利用者に安心感を与えることができ、ユーザーエクスペリエンスを向上させることが可能となる。
【0059】
上記では、入力音声に対応する文字情報T4を表示部11に表示する例を示したが、利用者の発話内容によっては表示することが好ましくない内容もある。例えば、暴力的な内容、差別的な内容、プライバシーに関する内容等である。そこで、表示することが好ましくない発話内容(表示不適内容)を予め記憶部に記憶しておき、入力音声に対応する文字情報が表示不適内容である場合には、選択部172は当該箇所を伏せ字等にすることにより表示されないようにする。例えば、利用者が「打ち合わせの約束で来た佐藤です。」と認識した場合、「人物名」がプライバシーに関する情報として表示不適内容として登録されていると、「打ち合わせの約束で来た**です」のように表示する。この表示不適内容の非表示処理により、利用者の発話内容が表示に好ましくない場合はもちろんのこと、音声認識の誤りにより不適切な内容が表示されてしまうことも防止できる。
【0060】
上記では、利用者との対話において認識結果を表示することで、利用者の発話の意図を認識していることを示すものについて説明したが、利用者が応対装置10に接近したタイミングで音声の入力を受け付けている状態であることを利用者に示すようにしてもよい。例えば、通常動作から応対動作に切り替わると選択部172は、周囲の環境音や音声集音状態を示すアイコンや集音レベルを示す模式的な波形等を表示部11に表示する。或いは、音声認識に関するアイコンを常時表示しておき、応対動作に切り替わると音声の入力を受け付けている状態であることを示すようにアイコンの表示を変化させてもよい。これにより、利用者は自身が認識されたことを把握できるとともに、キャラクタCが音声の入力を受け付けていることも把握できるため、自然に話しかけることができるようになる。
【符号の説明】
【0061】
10 応対装置、11 表示部、14 音声入出力部、16 記憶部、171 検知部、172 選択部、173 応対部
図1
図2
図3
図4
図5
図6
図7