特許第5882972号(P5882972)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ NECパーソナルコンピュータ株式会社の特許一覧

<>
  • 特許5882972-情報処理装置、及びプログラム 図000002
  • 特許5882972-情報処理装置、及びプログラム 図000003
  • 特許5882972-情報処理装置、及びプログラム 図000004
  • 特許5882972-情報処理装置、及びプログラム 図000005
  • 特許5882972-情報処理装置、及びプログラム 図000006
  • 特許5882972-情報処理装置、及びプログラム 図000007
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5882972
(24)【登録日】2016年2月12日
(45)【発行日】2016年3月9日
(54)【発明の名称】情報処理装置、及びプログラム
(51)【国際特許分類】
   G06F 17/30 20060101AFI20160225BHJP
【FI】
   G06F17/30 180A
   G06F17/30 310Z
【請求項の数】2
【全頁数】11
(21)【出願番号】特願2013-213688(P2013-213688)
(22)【出願日】2013年10月11日
(65)【公開番号】特開2015-76039(P2015-76039A)
(43)【公開日】2015年4月20日
【審査請求日】2014年10月2日
(73)【特許権者】
【識別番号】311012169
【氏名又は名称】NECパーソナルコンピュータ株式会社
(74)【代理人】
【識別番号】100084250
【弁理士】
【氏名又は名称】丸山 隆夫
(72)【発明者】
【氏名】藤川 玲二
(72)【発明者】
【氏名】原田 雅彦
【審査官】 吉田 誠
(56)【参考文献】
【文献】 特開2006−107199(JP,A)
【文献】 特開2011−204283(JP,A)
【文献】 国際公開第2013/015341(WO,A1)
【文献】 特開2011−065582(JP,A)
【文献】 特開2007−304776(JP,A)
【文献】 特開2003−84783(JP,A)
【文献】 特開2002−259399(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
(57)【特許請求の範囲】
【請求項1】
入力された音声情報から認識されたテキスト情報に基づいて検索内容を特定し、ネットワークを介して前記検索内容による検索を実行する情報処理装置であって、
ユーザから音声による問いかけがあると、その問いかけに関するテキストデータを解析する音声解析手段と、
前記テキスト情報に第1のキーワードが含まれるか否かを判別する判別手段と、
前記判別手段により前記第1のキーワードが含まれると判別したときは、前記検索内容の特定および検索を実行することなく、前記第1のキーワードに対応して予め記憶された処理、前記判別手段により前記第1のキーワードが含まれないと判別したときは前記第1のキーワードと、前記予め記憶された処理を実行した後所定時間内に入力された新たな音声情報から認識される第2のキーワードとを検索内容として検索を実行する実行手段と、
を備えた情報処理装置であって、
得られた回答をテキストデータに変換し、前記テキストデータを音声出力する音声合成手段と、
情報処理装置を擬人化したアバタ―及び前記アバタ―の発話内容としての検索結果を文字で表示した吹き出しを含む画像及び文字を表示する表示手段と、
を備えたことを特徴とする情報処理装置
【請求項2】
入力された音声情報から認識されたテキスト情報に基づいて検索内容を特定し、ネットワークを介して前記検索内容による検索を実行する情報処理装置のコンピュータに、
音声解析手段が、ユーザから音声による問いかけがあると、その問いかけに関するテキストデータを解析する手順と、
判別手段が、前記テキスト情報に第1のキーワードが含まれるか否かを判別する手順と、
実行手段が、前記判別手段により前記第1のキーワードが含まれると判別したときは、前記検索内容の特定および検索を実行することなく、前記第1のキーワードに対応して予め記憶された処理、前記判別手段により前記第1のキーワードが含まれないと判別したときは前記第1のキーワードと、前記予め記憶された処理を実行した後所定時間内に入力された新たな音声情報から認識される第2のキーワードとを検索内容として検索を実行する手順と
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、及びプログラムに関する。
【背景技術】
【0002】
近年、テレビ受像器やパーソナルコンピュータ等の電子機器に対するユーザ・コマンドの入力を支援する対話型操作支援システムが開発されている(例えば、特許文献1参照)。
【0003】
特許文献1に記載の発明は、「対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体」に関する発明であり、具体的には、「音声合成やアニメーションによるリアクションを行なう擬人化されたアシスタントと呼ばれるキャラクタのアニメーションをユーザ・インターフェースとすることにより、ユーザに対して親しみを持たせると同時に複雑な命令への対応やサービスへの入り口を提供することができる。また、自然言語に近い感じの命令体系を備えているので、ユーザは、通常の会話と同じ感覚で機器の操作を容易に行なうことができる」ものである。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2002−41276号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上述した特許文献1に記載の技術では、質問に対する回答は得られても一つの問いに対して一つの回答しか得られないため、回答に関連した情報を得るためには再度質問しなければならなかったり、回答が不十分な場合や回答不能な場合に回答を得るための連絡先を質問したりしなければならない煩わしさがあった。
そこで、本発明の目的は、ユーザへの問いかけに的確に反応する情報処理方法、情報処理装置、及びプログラムを提供することにある。
【課題を解決するための手段】
【0006】
上記課題を解決するため、請求項1に記載の発明は、入力された音声情報から認識されたテキスト情報に基づいて検索内容を特定し、ネットワークを介して前記検索内容による検索を実行する情報処理装置であって、ユーザから音声による問いかけがあると、その問いかけに関するテキストデータを解析する音声解析手段と、前記テキスト情報に第1のキーワードが含まれるか否かを判別する判別手段と、前記判別手段により前記第1のキーワードが含まれると判別したときは、前記検索内容の特定および検索を実行することなく、前記第1のキーワードに対応して予め記憶された処理、前記判別手段により前記第1のキーワードが含まれないと判別したときは前記第1のキーワードと、前記予め記憶された処理を実行した後所定時間内に入力された新たな音声情報から認識される第2のキーワードとを検索内容として検索を実行する実行手段と、を備えた情報処理装置であって、得られた回答をテキストデータに変換し、前記テキストデータを音声出力する音声合成手段と、情報処理装置を擬人化したアバタ―及び前記アバタ―の発話内容としての検索結果を文字で表示した吹き出しを含む画像及び文字を表示する表示手段と、を備えたことを特徴とする。
【発明の効果】
【0007】
本発明によれば、ユーザへの問いかけに的確に反応する情報処理装置、及びプログラムの提供を実現できる。
【図面の簡単な説明】
【0008】
図1】一実施形態に係る情報処理装置としてのパーソナルコンピュータのブロック図である。
図2図1に示したパーソナルコンピュータの主要部のブロック図の一例である。
図3】(a)は、問いかけに対する回答のフローチャートの一例であり、(b)は、問いかけに対する回答のフローチャートの他の一例である。
図4】(a)は、ソファーの上にパーソナルコンピュータ100が載置されている状態を示し、(b)は、(a)に示したパーソナルコンピュータ100の音声認識処理動作を開始した状態を示す画面の一例である。
図5】ユーザがドレッサーでメークしながら、ソファー上のパーソナルコンピュータ100に問いかけている状態を示す図である。
図6図1に示したパーソナルコンピュータ100による応答の一例を示す説明図である。
【発明を実施するための形態】
【0009】
次に実施の形態について述べる。
<構 成>
図1は、一実施形態に係る情報処理装置としてのパーソナルコンピュータのブロック図である。
同図に示すパーソナルコンピュータ(以下、PC)100は、マイクロフォン101、増幅回路102、104、スピーカ103、表示装置105、キーボード106、マウス107、光学読取装置108、制御手段109、記憶手段としてのHDD(Hard Disk Drive)110、ネットワーク接続部111、I/O(Input/Output)112、及びバスライン113を有する。
【0010】
マイクロフォン101は、ユーザの音声を電気信号に変換する機能を有する。マイクロフォン101としては、例えばコンデンサマイクロフォンが挙げられるが、ダイナミックマイクロフォンでもよい。
増幅回路102は、マイクロフォン101からの電気信号を増幅する回路である。
スピーカ103は、電気信号を音声に変換する機能を有する。スピーカ103は、主にPCを擬人化したアバターの発話内容をユーザへ伝達する機能を有する。
増幅回路104は、音声信号を、スピーカ103を駆動させるレベルまで増幅する回路である。
表示装置105は、アバターやアバターの発話内容を文字で表示した吹き出しを含む画像や文字等を表示する機能を有する。表示装置105としては、例えば、液晶表示素子が挙げられる。表示装置105には、所定のコマンドの実行結果が画面上に表示される。
キーボード106は、文字、数字、符号を入力する入力装置である。
マウス107は、入力装置の一種であり、机上を移動させることで表示装置105のカーソルを移動させる等の機能を有する。
光学読取装置108は、CD(Compact Disk)、DVD(Digital Versatile Disc)やCD−R(Compact Disc-Recordable)等の光学媒体を読み取る機能を有する。
【0011】
制御手段109は、PC100を統括制御機能、及び音声処理機能を有する素子であり、例えばCPU(Central Processing Unit)が挙げられる。音声処理機能とは、主に入力した音声をテキストデータとして出力し、解析し、合成する機能である。制御手段109は、それぞれソフトウェアで構成される入力制御手段109a、音声認識手段109b、音声解析手段109c、検索手段109d、及び音声合成手段109eを有する。
【0012】
入力制御手段109aは、マイクロフォン101に入力された音声が変換された信号を解析して得られたコマンドに基づいて処理させる機能の他、キーボード106からのキー入力、及びマウス107からのクリックやドラッグ等による信号を文字表示、数字表示、符号表示、カーソル移動、コマンド等に変換する機能を有する。
音声認識手段109bは、後述するクライアント型音声認識部203である。
音声解析手段109cは、後述する音声信号解釈部202であり、テキストデータを解析する機能を有する。音声解析手段109cは、ユーザから音声による問いかけがあると、その問いかけに関するテキストデータを解析する。例えば、テキストデータ中に特別なキーワードのうちの第1のキーワードとしての「パソコンが壊れた」、「修理したい」、「電話サポート先は?」等の有無を調べる。これらは、特別な応答として、問いかけに対し、最適な回答とそれに関連する情報を提示するためのものである。第1のキーワードは予めHDD110に記憶された処理内容に対応したキーワードであり、第2のキーワードは第1のキーワード以外のキーワードであり、HDD110には記憶されていない。尚、問いかけに対する回答の組み合わせは、予め作成される。例えば、WebサイトにあるQ&Aを参考にして良くある問い合わせを元に作成される。
【0013】
検索手段109dは、ネットワーク207を介してインターネット検索する手段である。検索手段109dは、ユーザから検索の指示があると、予め設定されたブラウザでネットワーク207に接続し、予め設定されたインターネット検索サービス会社に接続し、キーワード検索する機能を有する。
音声合成手段109eは、後述するクライアント型音声合成部210であり、人間の音声を人工的に作り出す機能を有する。音声はアバターの年齢性別に対応した音質が設定されている。音声合成手段109eの出力は、バスライン113、及び増幅回路104を経て出力手段としてのスピーカ103から発音される。
【0014】
HDD110は、記憶装置の一種であり、ROM(Read Only Memory)エリア、及びRAM(Random Access Memory)エリアを有する。ROMエリアは制御プログラムを格納するエリアであり、RAMエリアはメモリとして用いられるエリアである。
【0015】
ネットワーク接続部111は、ネットワーク207を介して外部のサーバに接続する機能を有する公知の装置である。無線もしくは有線のいずれの手段を用いてもよい。
I/O112は、外部の電子機器、例えばUSB(Universal Serial Bus line)フラッシュメモリやプリンタを接続する機能を有する入出力装置である。
尚、PC100は、入力手段としてタッチパネルを有していてもよい。
【0016】
図2は、図1に示したパーソナルコンピュータの主要部のブロック図の一例である。
図2において、本発明の実施形態におけるPC100は、マイクロフォン101から入力されたユーザの音声が音声データ(電気信号)に変換されて、当該音声データが音声信号解釈部202によって解釈され、その結果がクライアント型音声認識部203において認識される。クライアント型音声認識部203は、認識した音声データをクライアントアプリケーション部204に渡す。
【0017】
クライアントアプリケーション部204は、ユーザからの問い合わせに対する回答が、オフライン状態にあるローカルコンテンツ部208に格納されているか否かを確認し、ローカルコンテンツ部208に格納されている場合は、当該ユーザからの問い合わせに対する回答を、後述するテキスト読上部209、クライアント型音声合成部210を経由して、スピーカ103から音声出力する。
【0018】
ユーザからの問い合わせに対する回答が、ローカルコンテンツ部208に格納されていない場合は、PC100単独で回答を持ち合わせていないことになるので、インターネット等のネットワーク網207に接続されるネットワーク接続部206を介して、インターネット上の検索エンジン等を用いてユーザからの問い合わせに対する回答を検索し、得られた検索結果を、テキスト読上部209、クライアント型音声合成部210を経由して、スピーカ103から音声出力する。
【0019】
クライアントアプリケーション部204は、ローカルコンテンツ部208、又はネットワーク網207から得られた回答をテキスト(文字)データに変換し、テキスト読上部209に渡す。テキスト読上部209は、テキストデータを読み上げ、クライアント型音声合成部210に渡す。クライアント型音声合成部210は、音声データを人間が認識可能な音声データに合成しスピーカ103に渡す。スピーカ103は、音声データ(電気信号)を音声に変換する。また、スピーカ103から音声を発するのに合わせて、表示装置105に当該音声に関連する詳細な情報を表示する。
【0020】
<動 作>
次に図1に示したPC100の動作について図面を参照して説明する。
図3(a)は、問いかけに対する回答のフローチャートの一例であり、(b)は、問いかけに対する回答のフローチャートの他の一例である。図4(a)は、ソファーの上にPC100が載置されている状態を示し、図4(b)は、図4(a)に示したPC100の音声認識処理動作を開始した状態を示す画面の一例である。図5は、ユーザがドレッサーでメークしながら、ソファー上のPC100に問いかけている状態を示す図である。図6は、図1に示したPC100による応答の一例を示す説明図である。
【0021】
図3(a)において、動作の主体は制御手段109である。
ユーザ200の音声による問いかけがあると(ステップS1)、問いかけの文章中に特定キーワードがあるか否かを判断する。特定キーワードとしては第1のキーワードと第2のキーワードとがある。第1のキーワードは予め記憶された処理内容に対応したキーワードであり、第2のキーワードは予め記憶された処理内容に対応していないキーワードである(ステップS2)。
問いかけの文章中に特定のキーワードとしての第1のキーワードがある場合(ステップS2/Yes)、HDD110に記憶された処理内容に対応した特定の応答を行い(ステップS3)、記憶された処理内容に基づいて返答して終了する(ステップS4)。
問いかけの文章中に特定のキーワードとしての第1のキーワードがない場合、すなわち第2のキーワードしかない場合(ステップS2/No)、検索手段109dによりインターネットから情報を取得し(ステップS5)、取得した情報に基づいて返答して終了する(ステップS4)。
【0022】
すなわち、図4(a)に示すソファー上のPC100のモニタ100a上のタッチパネルをユーザ200が操作して音声認識処理を起動させると、図4(b)に示すようにモニタ100aにウィンドウ401が表示される。ウィンドウ401にはアバター402と、アバター402の吹き出し403とが含まれる。
PC100の音声認識処理の起動時には例えば、昼間なら「こんにちは!」との音声301がスピーカ103から発音されるが、本発明はこれに限定されるものではなく、時間や曜日でいろいろな挨拶をすることも可能である。
ユーザ200がPC100の音声認識処理を起動させた後、例えば図5に示すようなドレッサーのチェストに座ってメークを行いながら、PC100に特定キーワード(第1のキーワード)としてのウェークアップキーワードである「シェリー」と呼ぶと、PC100は、判別手段としての制御手段が判別し、問いかけに対する応答動作を開始し、例えば「お呼びでしょうか?」と返答する。
【0023】
図6に示すようにユーザ200が「パソコンの使い方教えて」302と問いかけると、その問いかけには第1のキーワードとしての「パソコンの使い方」が含まれるので、PC100から「基本的な操作なら、「パソコンのいろは」はどうでしょうか?121コンタクトセンターで使い方相談もできますよ。」303と返答する。
これに対して、ユーザ200が「コンタクトセンターの電話番号を教えて」304と問いかけると、その問いかけには第1のキーワードとしての「コンタクトセンター」が含まれており、かつ「コンタクトセンター」に対する処理内容としては「電話番号」に加え「受付時間が平日の午前9時から午後7時であることを伝えること」が含まれるので、PC100は「フリーコール0120−123−4567です。受付時間は、平日の午前9時から午後7時です。」305と返答する。
この305の返答は、単にコンタクトセンターの電話番号だけでなく、関連する情報として受付時間まで返答することに特徴がある。
このように、PC100はユーザへの問いかけに的確に反応することができる。
尚、ユーザ200からの問いかけに第1のキーワードがなく、第2のキーワードしか含まれていない場合は、インターネットから情報が取得され、それに基づいて変動するようになっている。
【0024】
一方、図3(b)において、動作の主体は制御手段109であるが、図3(a)に示したフローチャートがテキスト情報に第1のキーワードが含まれるときは、検索内容の特定および検索を実行することなく、第1のキーワードに対応して予め記憶された処理を実行するのに対し、図3(b)に示したフローチャートは、第1のキーワードと、予め記憶された処理を実行した後所定時間内に入力された新たな音声情報から認識される第2のキーワードとを検索内容として検索を実行するものである。
所定時間内とは、ユーザが問いかけた話の文脈を解析できる程度の時間、例えば数秒程度であり、数時間、数日は含まない。
図3(b)において、ステップS11〜S15はステップS1〜S4と同様のため、説明を省略する。
ステップS15の返答後所定時間経過したか否かを判断し(ステップS16)、所定時間経過した場合には終了し(ステップS16/Yes)、所定時間経過していない場合(ステップS16/No)、ユーザからさらなる問いかけがあると(ステップS17)、問いかけの文章中に特定のキーワードまたは他の特定のキーワード、すなわち、第1のキーワードまたは第2のキーワードがあるか否かを判断する(ステップS18)。
問いかけの文章中に特定のキーワードとしての第1のキーワードまたは他の特定のキーワードとしての第2のキーワードがある場合(ステップS18/Yes)、HDD110に記憶された処理内容に対応した特定の応答を行い(ステップS19)、記憶された処理内容に基づいて返答し(ステップS21)、ステップS16に戻る。
問いかけの文章中に特定のキーワードとしての第1のキーワードまたは他の特定のキーワードとしての第2のキーワードがない場合(ステップS18/No)、検索手段109dによりインターネットから情報を取得し(ステップS20)、取得した情報に基づいて返答し(ステップS21)、ステップS16に戻る。
具体的には、図6において、ユーザが「パソコンの使い方を教えて」と言うところを、例えば「パソコンの使い方」と言いかけて、「コンタクトセンターの電話番号を教えて」と言い直した場合、第1のキーワード「パソコン」の直後に第2のキーワード「コンタクトセンター」があるので、PCは「コンタクトセンター」が「パソコンのコンタクトセンター」であるとして検索し、電話番号や受付時間を検索する場合が挙げられる。この場合、ユーザが「パソコン」について問いかけた後、1日後に「コンタクトセンター」について問いかけてもPCは「パソコンのコンタクトセンター」とは認識せずに、「何のコンタクトセンターですか?」とユーザに聞き返すことになる。
【0025】
<プログラム>
以上で説明した本発明に係る情報処理装置は、コンピュータで処理を実行させるプログラムによって実現されている。コンピュータとしては、例えばパーソナルコンピュータが挙げられるが、本発明はこれに限定されるものではない。よって、一例として、プログラムにより本発明の機能を実現する場合の説明を以下で行う。
【0026】
例えば、
力された音声情報から認識されたテキスト情報に基づいて検索内容を特定し、ネットワークを介して検索内容による検索を実行する情報処理装置のコンピュータに、
音声解析手段が、ユーザから音声による問いかけがあると、その問いかけに関するテキストデータを解析する手順と、
判別手段が、テキスト情報に第1のキーワードが含まれるか否かを判別する手順と、
実行手段が、判別手段により第1のキーワードが含まれると判別したときは、検索内容の特定および検索を実行することなく、第1のキーワードに対応して予め記憶された処理、判別手段により第1のキーワードが含まれないと判別したときは第1のキーワードと、予め記憶された処理を実行した後所定時間内に入力された新たな音声情報から認識される第2のキーワードとを検索内容として検索を実行する手順と
を実行させるためのプログラムが挙げられる
【0027】
これにより、プログラムが実行可能なコンピュータ環境さえあれば、どこにおいても本発明にかかる情報処理装置を実現することができる。
このようなプログラムは、コンピュータに読み取り可能な記憶媒体に記憶されていてもよい。
【0028】
<記憶媒体>
ここで、記憶媒体としては、例えばCD−ROM、フレキシブルディスク(FD)、CD−R等のコンピュータで読み取り可能な記憶媒体、フラッシュメモリ、RAM、ROM、FeRAM等の半導体メモリやHDDが挙げられる。
【0029】
フレキシブルディスクは、Flexible Disk:FDを意味する。CD−Rは、CD Recordableの略である。RAMは、Random-Access Memoryの略である。ROMは、Read-Only Memoryの略である。FeRAMは、Ferroelectric RAMの略で、強誘電体メモリを意味する。HDDは、Hard Disc Driveの略である。
【0030】
以上において、本発明によれば、入力された音声情報から認識されたテキスト情報に基づいて検索内容を特定し、ネットワークを介して検索内容による検索を実行する情報処理装置であって、テキスト情報に第1のキーワードが含まれるか否かを判別する判別手段と、判別手段により第1のキーワードが含まれると判別したときは、検索内容の特定および検索を実行することなく、第1のキーワードに対応して予め記憶された処理を実行する実行手段と、を備えたことにより、ユーザへの問いかけに的確に反応する情報処理方法、情報処理装置、及びプログラムの提供を実現できる。
【0031】
尚、上述した実施の形態は、本発明の好適な実施の形態の一例を示すものであり、本発明はそれに限定されることなく、その要旨を逸脱しない範囲内において、種々変形実施が可能である。
【符号の説明】
【0032】
100 パーソナルコンピュータ(PC、情報処理装置)
100a モニタ
101 マイクロフォン
102、104 増幅回路
103 スピーカ
105 表示装置
106 キーボード
107 マウス
108 光学読取装置
109 制御手段
109a 入力制御手段
109b 音声認識手段
109c 音声解析手段
109d 検索手段
109e 音声合成手段
110 HDD
111 ネットワーク接続部
112 I/O
113 バスライン
200 ユーザ
202 音声信号解釈部
203 クライアント型音声認識部
204 クライアントアプリケーション部
209 テキスト読上部
210 クライアント型音声合成部
401 ウィンドウ
402 アバター
403 吹き出し
図1
図2
図3
図4
図5
図6