(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0009】
次に実施の形態について述べる。
<構 成>
図1は、一実施形態に係る情報処理装置としてのパーソナルコンピュータのブロック図である。
同図に示すパーソナルコンピュータ(以下、PC)100は、マイクロフォン101、増幅回路102、104、スピーカ103、表示装置105、キーボード106、マウス107、光学読取装置108、制御手段109、記憶手段としてのHDD(Hard Disk Drive)110、ネットワーク接続部111、I/O(Input/Output)112、及びバスライン113を有する。
【0010】
マイクロフォン101は、ユーザの音声を電気信号に変換する機能を有する。マイクロフォン101としては、例えばコンデンサマイクロフォンが挙げられるが、ダイナミックマイクロフォンでもよい。
増幅回路102は、マイクロフォン101からの電気信号を増幅する回路である。
スピーカ103は、電気信号を音声に変換する機能を有する。スピーカ103は、主にPCを擬人化したアバターの発話内容をユーザへ伝達する機能を有する。
増幅回路104は、音声信号を、スピーカ103を駆動させるレベルまで増幅する回路である。
表示装置105は、アバターやアバターの発話内容を文字で表示した吹き出しを含む画像や文字等を表示する機能を有する。表示装置105としては、例えば、液晶表示素子が挙げられる。表示装置105には、所定のコマンドの実行結果が画面上に表示される。
キーボード106は、文字、数字、符号を入力する入力装置である。
マウス107は、入力装置の一種であり、机上を移動させることで表示装置105のカーソルを移動させる等の機能を有する。
光学読取装置108は、CD(Compact Disk)、DVD(Digital Versatile Disc)やCD−R(Compact Disc-Recordable)等の光学媒体を読み取る機能を有する。
【0011】
制御手段109は、PC100を統括制御機能、及び音声処理機能を有する素子であり、例えばCPU(Central Processing Unit)が挙げられる。音声処理機能とは、主に入力した音声をテキストデータとして出力し、解析し、合成する機能である。制御手段109は、それぞれソフトウェアで構成される入力制御手段109a、音声認識手段109b、音声解析手段109c、検索手段109d、及び音声合成手段109eを有する。
【0012】
入力制御手段109aは、マイクロフォン101に入力された音声が変換された信号を解析して得られたコマンドに基づいて処理させる機能の他、キーボード106からのキー入力、及びマウス107からのクリックやドラッグ等による信号を文字表示、数字表示、符号表示、カーソル移動、コマンド等に変換する機能を有する。
音声認識手段109bは、後述するクライアント型音声認識部203である。
音声解析手段109cは、後述する音声信号解釈部202であり、テキストデータを解析する機能を有する。音声解析手段109cは、ユーザから音声による問いかけがあると、その問いかけに関するテキストデータを解析する。例えば、テキストデータ中に特別なキーワードのうちの第1のキーワードとしての「パソコンが壊れた」、「修理したい」、「電話サポート先は?」等の有無を調べる。これらは、特別な応答として、問いかけに対し、最適な回答とそれに関連する情報を提示するためのものである。第1のキーワードは予めHDD110に記憶された処理内容に対応したキーワードであり、第2のキーワードは第1のキーワード以外のキーワードであり、HDD110には記憶されていない。尚、問いかけに対する回答の組み合わせは、予め作成される。例えば、WebサイトにあるQ&Aを参考にして良くある問い合わせを元に作成される。
【0013】
検索手段109dは、ネットワーク207を介してインターネット検索する手段である。検索手段109dは、ユーザから検索の指示があると、予め設定されたブラウザでネットワーク207に接続し、予め設定されたインターネット検索サービス会社に接続し、キーワード検索する機能を有する。
音声合成手段109eは、後述するクライアント型音声合成部210であり、人間の音声を人工的に作り出す機能を有する。音声はアバターの年齢性別に対応した音質が設定されている。音声合成手段109eの出力は、バスライン113、及び増幅回路104を経て出力手段としてのスピーカ103から発音される。
【0014】
HDD110は、記憶装置の一種であり、ROM(Read Only Memory)エリア、及びRAM(Random Access Memory)エリアを有する。ROMエリアは制御プログラムを格納するエリアであり、RAMエリアはメモリとして用いられるエリアである。
【0015】
ネットワーク接続部111は、ネットワーク207を介して外部のサーバに接続する機能を有する公知の装置である。無線もしくは有線のいずれの手段を用いてもよい。
I/O112は、外部の電子機器、例えばUSB(Universal Serial Bus line)フラッシュメモリやプリンタを接続する機能を有する入出力装置である。
尚、PC100は、入力手段としてタッチパネルを有していてもよい。
【0016】
図2は、
図1に示したパーソナルコンピュータの主要部のブロック図の一例である。
図2において、本発明の実施形態におけるPC100は、マイクロフォン101から入力されたユーザの音声が音声データ(電気信号)に変換されて、当該音声データが音声信号解釈部202によって解釈され、その結果がクライアント型音声認識部203において認識される。クライアント型音声認識部203は、認識した音声データをクライアントアプリケーション部204に渡す。
【0017】
クライアントアプリケーション部204は、ユーザからの問い合わせに対する回答が、オフライン状態にあるローカルコンテンツ部208に格納されているか否かを確認し、ローカルコンテンツ部208に格納されている場合は、当該ユーザからの問い合わせに対する回答を、後述するテキスト読上部209、クライアント型音声合成部210を経由して、スピーカ103から音声出力する。
【0018】
ユーザからの問い合わせに対する回答が、ローカルコンテンツ部208に格納されていない場合は、PC100単独で回答を持ち合わせていないことになるので、インターネット等のネットワーク網207に接続されるネットワーク接続部206を介して、インターネット上の検索エンジン等を用いてユーザからの問い合わせに対する回答を検索し、得られた検索結果を、テキスト読上部209、クライアント型音声合成部210を経由して、スピーカ103から音声出力する。
【0019】
クライアントアプリケーション部204は、ローカルコンテンツ部208、又はネットワーク網207から得られた回答をテキスト(文字)データに変換し、テキスト読上部209に渡す。テキスト読上部209は、テキストデータを読み上げ、クライアント型音声合成部210に渡す。クライアント型音声合成部210は、音声データを人間が認識可能な音声データに合成しスピーカ103に渡す。スピーカ103は、音声データ(電気信号)を音声に変換する。また、スピーカ103から音声を発するのに合わせて、表示装置105に当該音声に関連する詳細な情報を表示する。
【0020】
<動 作>
次に
図1に示したPC100の動作について図面を参照して説明する。
図3(a)は、問いかけに対する回答のフローチャートの一例であり、(b)は、問いかけに対する回答のフローチャートの他の一例である。
図4(a)は、ソファーの上にPC100が載置されている状態を示し、
図4(b)は、
図4(a)に示したPC100の音声認識処理動作を開始した状態を示す画面の一例である。
図5は、ユーザがドレッサーでメークしながら、ソファー上のPC100に問いかけている状態を示す図である。
図6は、
図1に示したPC100による応答の一例を示す説明図である。
【0021】
図3(a)において、動作の主体は制御手段109である。
ユーザ200の音声による問いかけがあると(ステップS1)、問いかけの文章中に特定キーワードがあるか否かを判断する。特定キーワードとしては第1のキーワードと第2のキーワードとがある。第1のキーワードは予め記憶された処理内容に対応したキーワードであり、第2のキーワードは予め記憶された処理内容に対応していないキーワードである(ステップS2)。
問いかけの文章中に特定のキーワードとしての第1のキーワードがある場合(ステップS2/Yes)、HDD110に記憶された処理内容に対応した特定の応答を行い(ステップS3)、記憶された処理内容に基づいて返答して終了する(ステップS4)。
問いかけの文章中に特定のキーワードとしての第1のキーワードがない場合、すなわち第2のキーワードしかない場合(ステップS2/No)、検索手段109dによりインターネットから情報を取得し(ステップS5)、取得した情報に基づいて返答して終了する(ステップS4)。
【0022】
すなわち、
図4(a)に示すソファー上のPC100のモニタ100a上のタッチパネルをユーザ200が操作して音声認識処理を起動させると、
図4(b)に示すようにモニタ100aにウィンドウ401が表示される。ウィンドウ401にはアバター402と、アバター402の吹き出し403とが含まれる。
PC100の音声認識処理の起動時には例えば、昼間なら「こんにちは!」との音声301がスピーカ103から発音されるが、本発明はこれに限定されるものではなく、時間や曜日でいろいろな挨拶をすることも可能である。
ユーザ200がPC100の音声認識処理を起動させた後、例えば
図5に示すようなドレッサーのチェストに座ってメークを行いながら、PC100に特定キーワード(第1のキーワード)としてのウェークアップキーワードである「シェリー」と呼ぶと、PC100は、判別手段としての制御手段が判別し、問いかけに対する応答動作を開始し、例えば「お呼びでしょうか?」と返答する。
【0023】
図6に示すようにユーザ200が「パソコンの使い方教えて」302と問いかけると、その問いかけには第1のキーワードとしての「パソコンの使い方」が含まれるので、PC100から「基本的な操作なら、「パソコンのいろは」はどうでしょうか?121コンタクトセンターで使い方相談もできますよ。」303と返答する。
これに対して、ユーザ200が「コンタクトセンターの電話番号を教えて」304と問いかけると、その問いかけには第1のキーワードとしての「コンタクトセンター」が含まれており、かつ「コンタクトセンター」に対する処理内容としては「電話番号」に加え「受付時間が平日の午前9時から午後7時であることを伝えること」が含まれるので、PC100は「フリーコール0120−123−4567です。受付時間は、平日の午前9時から午後7時です。」305と返答する。
この305の返答は、単にコンタクトセンターの電話番号だけでなく、関連する情報として受付時間まで返答することに特徴がある。
このように、PC100はユーザへの問いかけに的確に反応することができる。
尚、ユーザ200からの問いかけに第1のキーワードがなく、第2のキーワードしか含まれていない場合は、インターネットから情報が取得され、それに基づいて変動するようになっている。
【0024】
一方、
図3(b)において、動作の主体は制御手段109であるが、
図3(a)に示したフローチャートがテキスト情報に第1のキーワードが含まれるときは、検索内容の特定および検索を実行することなく、第1のキーワードに対応して予め記憶された処理を実行するのに対し、
図3(b)に示したフローチャートは、第1のキーワードと、予め記憶された処理を実行した後所定時間内に入力された新たな音声情報から認識される第2のキーワードとを検索内容として検索を実行するものである。
所定時間内とは、ユーザが問いかけた話の文脈を解析できる程度の時間、例えば数秒程度であり、数時間、数日は含まない。
図3(b)において、ステップS11〜S15はステップS1〜S4と同様のため、説明を省略する。
ステップS15の返答後所定時間経過したか否かを判断し(ステップS16)、所定時間経過した場合には終了し(ステップS16/Yes)、所定時間経過していない場合(ステップS16/No)、ユーザからさらなる問いかけがあると(ステップS17)、問いかけの文章中に特定のキーワードまたは他の特定のキーワード、すなわち、第1のキーワードまたは第2のキーワードがあるか否かを判断する(ステップS18)。
問いかけの文章中に特定のキーワードとしての第1のキーワードまたは他の特定のキーワードとしての第2のキーワードがある場合(ステップS18/Yes)、HDD110に記憶された処理内容に対応した特定の応答を行い(ステップS19)、記憶された処理内容に基づいて返答し(ステップS21)、ステップS16に戻る。
問いかけの文章中に特定のキーワードとしての第1のキーワードまたは他の特定のキーワードとしての第2のキーワードがない場合(ステップS18/No)、検索手段109dによりインターネットから情報を取得し(ステップS20)、取得した情報に基づいて返答し(ステップS21)、ステップS16に戻る。
具体的には、
図6において、ユーザが「パソコンの使い方を教えて」と言うところを、例えば「パソコンの使い方」と言いかけて、「コンタクトセンターの電話番号を教えて」と言い直した場合、第1のキーワード「パソコン」の直後に第2のキーワード「コンタクトセンター」があるので、PCは「コンタクトセンター」が「パソコンのコンタクトセンター」であるとして検索し、電話番号や受付時間を検索する場合が挙げられる。この場合、ユーザが「パソコン」について問いかけた後、1日後に「コンタクトセンター」について問いかけてもPCは「パソコンのコンタクトセンター」とは認識せずに、「何のコンタクトセンターですか?」とユーザに聞き返すことになる。
【0025】
<プログラム>
以上で説明した本発明に係る情報処理装置は、コンピュータで処理を実行させるプログラムによって実現されている。コンピュータとしては、例えばパーソナルコンピュータが挙げられるが、本発明はこれに限定されるものではない。よって、一例として、プログラムにより本発明の機能を実現する場合の説明を以下で行う。
【0026】
例えば、
入力された音声情報から認識されたテキスト情報に基づいて検索内容を特定し、ネットワークを介して検索内容による検索を実行する情報処理装置のコンピュータに、
音声解析手段が、ユーザから音声による問いかけがあると、その問いかけに関するテキストデータを解析する手順と、
判別手段が、テキスト情報に第1のキーワードが含まれるか否かを判別する手順と、
実行手段が、判別手段により第1のキーワードが含まれると判別したときは、検索内容の特定および検索を実行することなく、第1のキーワードに対応して予め記憶された処理、
判別手段により第1のキーワードが含まれないと判別したときは第1のキーワードと、予め記憶された処理を実行した後所定時間内に入力された新たな音声情報から認識される第2のキーワードとを検索内容として検索を実行する手順と
を実行させるためのプログラム
が挙げられる。
【0027】
これにより、プログラムが実行可能なコンピュータ環境さえあれば、どこにおいても本発明にかかる情報処理装置を実現することができる。
このようなプログラムは、コンピュータに読み取り可能な記憶媒体に記憶されていてもよい。
【0028】
<記憶媒体>
ここで、記憶媒体としては、例えばCD−ROM、フレキシブルディスク(FD)、CD−R等のコンピュータで読み取り可能な記憶媒体、フラッシュメモリ、RAM、ROM、FeRAM等の半導体メモリやHDDが挙げられる。
【0029】
フレキシブルディスクは、Flexible Disk:FDを意味する。CD−Rは、CD Recordableの略である。RAMは、Random-Access Memoryの略である。ROMは、Read-Only Memoryの略である。FeRAMは、Ferroelectric RAMの略で、強誘電体メモリを意味する。HDDは、Hard Disc Driveの略である。
【0030】
以上において、本発明によれば、入力された音声情報から認識されたテキスト情報に基づいて検索内容を特定し、ネットワークを介して検索内容による検索を実行する情報処理装置であって、テキスト情報に第1のキーワードが含まれるか否かを判別する判別手段と、判別手段により第1のキーワードが含まれると判別したときは、検索内容の特定および検索を実行することなく、第1のキーワードに対応して予め記憶された処理を実行する実行手段と、を備えたことにより、ユーザへの問いかけに的確に反応する情報処理方法、情報処理装置、及びプログラムの提供を実現できる。
【0031】
尚、上述した実施の形態は、本発明の好適な実施の形態の一例を示すものであり、本発明はそれに限定されることなく、その要旨を逸脱しない範囲内において、種々変形実施が可能である。