(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-11
(45)【発行日】2023-09-20
(54)【発明の名称】情報処理装置、情報処理方法およびプログラム
(51)【国際特許分類】
H04M 1/00 20060101AFI20230912BHJP
H04M 3/42 20060101ALI20230912BHJP
【FI】
H04M1/00 S
H04M3/42 E
H04M3/42 P
(21)【出願番号】P 2019164539
(22)【出願日】2019-09-10
【審査請求日】2022-05-10
(73)【特許権者】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(74)【代理人】
【識別番号】100140958
【氏名又は名称】伊藤 学
(74)【代理人】
【識別番号】100137888
【氏名又は名称】大山 夏子
(74)【代理人】
【識別番号】100190942
【氏名又は名称】風間 竜司
(72)【発明者】
【氏名】坪田 東
【審査官】横田 有光
(56)【参考文献】
【文献】特開2002-099551(JP,A)
【文献】特開2006-287801(JP,A)
【文献】特開2003-244773(JP,A)
【文献】特開2016-128966(JP,A)
【文献】特開2010-074472(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04M 1/00
1/24- 3/00
3/16- 3/20
3/38- 3/58
7/00- 7/16
11/00-11/10
99/00
(57)【特許請求の範囲】
【請求項1】
少なくとも利用者の通話に利用される情報処理装置であって、
前記利用者からの第1の入力に基づく第1の入力データを取得し、
前記情報処理装置との間で無線接続された個人端末に登録された個人認証用データと第2の入力に基づく第2の入力データとの前記個人端末による認証が成功したことを示す情報が前記個人端末から前記情報処理装置に伝えられた場合に、前記第1の入力データから認識される宛先に関する情報に関連付けられた宛先識別情報をサーバから取得する取得部と、
前記宛先識別情報に基づいて宛先への接続を要求する通話部と、
を備える、情報処理装置。
【請求項2】
前記取得部は、
前記認証が成功したことを示す情報が前記個人端末から前記情報処理装置に伝えられた場合に、前記第1の入力データに関連付けられた前記宛先識別情報を前記サーバから取得する、
請求項1に記載の情報処理装置。
【請求項3】
前記取得部は、
前記認証が成功したことを示す情報が前記個人端末から前記情報処理装置に伝えられた場合に、前記個人端末に登録されたアカウント情報と前記第1の入力データとに関連付けられた前記宛先識別情報を前記サーバから取得する、
請求項2に記載の情報処理装置。
【請求項4】
前記取得部は、
前記認証が成功したことを示す情報が前記個人端末から前記情報処理装置に伝えられた場合に、前記アカウント情報に対応して発行されたアクセスキーを取得し、前記アクセスキーと前記第1の入力データとに対応する前記宛先識別情報を前記サーバから取得する、
請求項3に記載の情報処理装置。
【請求項5】
前記アクセスキーは、有効期限を有しており、
前記取得部は、前記アクセスキーが前記有効期限を経過した後には、前記アクセスキーと前記第1の入力データとに対応する前記宛先識別情報が前記サーバから取得されない、
請求項4に記載の情報処理装置。
【請求項6】
前記個人認証用データは、前記利用者によってあらかじめ登録された音声データを含み、
前記第2の入力データは、前記利用者からの第2の音声入力に基づく音声データを含む、
請求項2~5のいずれか一項に記載の情報処理装置。
【請求項7】
前記第1の入力データは、前記利用者からの第1の音声入力に基づく第1の音声データを含む、
請求項1~6のいずれか一項に記載の情報処理装置。
【請求項8】
利用者からの第1の入力に基づく第1の入力データを取得し、
情報処理装置との間で無線接続された個人端末に登録された個人認証用データと第2の入力に基づく第2の入力データとの前記個人端末による認証が成功したことを示す情報が前記個人端末から前記情報処理装置に伝えられた場合に、前記第1の入力データから認識される宛先に関する情報に関連付けられた宛先識別情報をサーバから取得することと、
前記宛先識別情報に基づいて宛先への接続を要求することと、
を備える、情報処理方法。
【請求項9】
コンピュータを、
少なくとも利用者の通話に利用される情報処理装置であって、
前記利用者からの第1の入力に基づく第1の入力データを取得し、
前記情報処理装置との間で無線接続された個人端末に登録された個人認証用データと第2の入力に基づく第2の入力データとの前記個人端末による認証が成功したことを示す情報が前記個人端末から前記情報処理装置に伝えられた場合に、前記第1の入力データから認識される宛先に関する情報に関連付けられた宛先識別情報をサーバから取得する取得部と、
前記宛先識別情報に基づいて宛先への接続を要求する通話部と、
を備える情報処理装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法およびプログラムに関する。
【背景技術】
【0002】
近年、複数の個人によって共用される音声入出力端末(例えば、固定電話など)が知られている。このような複数の個人によって共用される音声入出力端末には、複数の個人それぞれが利用する情報が1台の音声入出力端末に登録されているのが一般的である。そのため、実際に複数の個人のうちの誰かが利用者として音声入出力端末を利用しようとした場合、複数の個人それぞれが利用する情報から自分が利用する情報を探し出す手間が掛かってしまう。
【0003】
このような手間を低減するため、音声入出力端末と利用者の個人端末(例えば、携帯電話など)とを接続する技術が開示されている(例えば、特許文献1参照)。かかる技術によれば、利用者は音声入出力端末から通話を行うときに音声入出力端末と接続されている利用者の個人端末に登録されているアドレス帳(例えば、電話帳など)を使うことが可能である。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、音声入出力端末と利用者の個人端末とを接続する技術では、個人ごとに個人端末を異なる音声入出力端末に接続させる必要がある。すなわち、個人ごとに異なる音声入出力端末を利用する必要がある。そのため、複数の個人が1台の音声入出力端末を共用するのが困難である。
【0006】
そこで、複数の個人が1台の音声入出力端末を共用することを可能しつつ、複数の個人のうちの誰かが利用者として音声入出力端末を利用する場合に自分が利用する情報を探し出す手間を低減することが可能な技術が提供されることが望まれる。
【課題を解決するための手段】
【0007】
上記問題を解決するために、本発明のある観点によれば、少なくとも利用者の通話に利用される情報処理装置であって、前記利用者からの第1の入力に基づく第1の入力データを取得し、前記情報処理装置との間で無線接続された個人端末に登録された個人認証用データと第2の入力に基づく第2の入力データとの前記個人端末による認証が成功したことを示す情報が前記個人端末から前記情報処理装置に伝えられた場合に、前記第1の入力データから認識される宛先に関する情報に関連付けられた宛先識別情報をサーバから取得する取得部と、前記宛先識別情報に基づいて宛先への接続を要求する通話部と、を備える、情報処理装置が提供される。
【0008】
前記取得部は、前記認証が成功したことを示す情報が前記個人端末から前記情報処理装置に伝えられた場合に、前記第1の入力データに関連付けられた前記宛先識別情報を前記サーバから取得してもよい。
【0009】
前記取得部は、前記認証が成功したことを示す情報が前記個人端末から前記情報処理装置に伝えられた場合に、前記個人端末に登録されたアカウント情報と前記第1の入力データとに関連付けられた前記宛先識別情報を前記サーバから取得してもよい。
【0010】
前記取得部は、前記認証が成功したことを示す情報が前記個人端末から前記情報処理装置に伝えられた場合に、前記アカウント情報に対応して発行されたアクセスキーを取得し、前記アクセスキーと前記第1の入力データとに対応する前記宛先識別情報を前記サーバから取得してもよい。
【0011】
前記アクセスキーは、有効期限を有しており、前記取得部は、前記アクセスキーが前記有効期限を経過した後には、前記アクセスキーと前記第1の入力データとに対応する前記宛先識別情報が前記サーバから取得されなくてもよい。
【0012】
前記個人認証用データは、前記利用者によってあらかじめ登録された音声データを含み、
前記第2の入力データは、前記利用者からの第2の音声入力に基づく音声データを含んでもよい。
【0013】
前記第1の入力データは、前記利用者からの第1の音声入力に基づく第1の音声データを含んでもよい。
【0014】
また、本発明の別の観点によれば、利用者からの第1の入力に基づく第1の入力データを取得し、情報処理装置との間で無線接続された個人端末に登録された個人認証用データと第2の入力に基づく第2の入力データとの前記個人端末による認証が成功したことを示す情報が前記個人端末から前記情報処理装置に伝えられた場合に、前記第1の入力データから認識される宛先に関する情報に関連付けられた宛先識別情報をサーバから取得することと、前記宛先識別情報に基づいて宛先への接続を要求することと、を備える、情報処理方法が提供される。
【0015】
また、本発明の別の観点によれば、コンピュータを、少なくとも利用者の通話に利用される情報処理装置であって、前記利用者からの第1の入力に基づく第1の入力データを取得し、前記情報処理装置との間で無線接続された個人端末に登録された個人認証用データと第2の入力に基づく第2の入力データとの前記個人端末による認証が成功したことを示す情報が前記個人端末から前記情報処理装置に伝えられた場合に、前記第1の入力データから認識される宛先に関する情報に関連付けられた宛先識別情報をサーバから取得する取得部と、前記宛先識別情報に基づいて宛先への接続を要求する通話部と、を備える情報処理装置として機能させるためのプログラムが提供される。
【発明の効果】
【0016】
以上説明したように本発明によれば、複数の個人が1台の音声入出力端末を共用することを可能しつつ、複数の個人のうちの誰かが利用者として音声入出力端末を利用する場合に自分が利用する情報を探し出す手間を低減することが可能な技術が提供される。
【図面の簡単な説明】
【0017】
【
図1】本発明の実施形態に係る通信システムの構成例を示す図である。
【
図3】本発明の実施形態に係る通信システムによって実行される処理例を示すしシーケンス図である。
【
図4】本発明の実施形態に係る通信システムによって実行される処理例を示すしシーケンス図である。
【
図5】本発明の実施形態に係る通信システムによって実行される処理例を示すしシーケンス図である。
【
図6】本発明の実施形態に係る通信システムによって実行される処理例を示すしシーケンス図である。
【
図7】本発明の実施形態に係る音声入出力端末の例としての情報処理装置のハードウェア構成を示す図である。
【発明を実施するための形態】
【0018】
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0019】
また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合がある。ただし、実質的に同一の機能構成を有する複数の構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。また、異なる実施形態の類似する構成要素については、同一の符号の後に異なるアルファベットを付して区別する場合がある。ただし、異なる実施形態の類似する構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。
【0020】
(0.概要)
まず、本発明の実施形態の概要を説明する。近年、複数の個人によって共用される音声入出力端末(例えば、固定電話など)が知られている。このような複数の個人によって共用される音声入出力端末には、複数の個人それぞれが利用する情報が1台の音声入出力端末に登録されているのが一般的である。そのため、実際に複数の個人のうちの誰かが利用者として音声入出力端末を利用しようとした場合、複数の個人それぞれが利用する情報から自分が利用する情報を探し出す手間が掛かってしまう。
【0021】
このような手間を低減するため、音声入出力端末と利用者の個人端末(例えば、携帯電話など)とを接続する技術が開示されている。かかる技術によれば、利用者は音声入出力端末から通話を行うときに音声入出力端末と接続されている利用者の個人端末に登録されているアドレス帳(例えば、電話帳など)を使うことが可能である。
【0022】
しかし、音声入出力端末と利用者の個人端末とを接続する技術では、個人ごとに個人端末を異なる音声入出力端末に接続させる必要がある。すなわち、個人ごとに異なる音声入出力端末を利用する必要がある。そのため、複数の個人が1台の音声入出力端末を共用するのが困難である。
【0023】
さらに、音声入出力端末に対する入力データに基づいて利用者の認証に成功した個人端末が存在した場合に、当該個人端末に記憶された宛先識別情報に基づいて、宛先機器への接続を行う技術も想定される。しかし、宛先識別情報がサーバに保存される形態も多く見られるようになり、個人端末によって記憶されている宛先識別情報に基づいて宛先機器に接続を行う技術は、かかる形態に適用され得ない。
【0024】
そこで、本明細書においては、複数の個人が1台の音声入出力端末を共用することを可能し、複数の個人のうちの誰かが利用者として音声入出力端末を利用する場合に自分が利用する情報を探し出す手間を低減し、かつ、宛先識別情報がサーバに保存される形態にも適用され得る技術について主に説明する。
【0025】
以上、本発明の実施形態の概要について説明した。
【0026】
(1.実施形態の詳細)
続いて、本発明の実施形態の詳細について説明する。
【0027】
(1-1.通信システムの構成例)
図1は、本発明の実施形態に係る通信システムの構成例を示す図である。
図1に示されるように、本発明の実施形態に係る通信システム10は、音声入出力端末100、モバイル端末200、音声認識サーバ300、宛先保存サーバ400、シグナリングサーバ500、通信機器600およびアクセスポイント700を有する。ネットワーク800は、インターネットなどの広帯域のネットワークであり、ネットワーク800には、音声認識サーバ300、宛先保存サーバ400、シグナリングサーバ500、通信機器600およびアクセスポイント700が接続されている。
【0028】
アクセスポイント700は、音声入出力端末100およびモバイル端末200それぞれと無線接続されており、音声入出力端末100およびモバイル端末200それぞれによるネットワーク800を介した通信を中継する。しかし、通信システム10は必ずしもアクセスポイント700を備えていなくてもよい。かかる場合、音声入出力端末100およびモバイル端末200は、ネットワーク800から仕切られた内部ネットワークに接続されており、当該内部ネットワークを介してネットワーク800に接続されていればよい。
【0029】
音声入出力端末100は、複数の個人によって共用される端末である。音声入出力端末100は、少なくとも複数の個人によって通話に利用される。複数の個人は、典型的には家族であってよいが、どのような集合であっても構わない。また、音声入出力端末100は、AI(Artificial Intelligence)スピーカなどであってよいが、PC(Personal Computer)であってもよいし、テレビジョン装置であってもよいし、ロボットであってもよいし、他の機器であってもよい。
【0030】
具体的に、音声入出力端末100は、マイクロフォン(以下、単に「マイク」とも言う。)101、スピーカ102、音声データ変換部103、利用者探索部104、通話部105およびメモリなどを有している。マイク101は、周囲の音声を収集する。スピーカ102は、音声を出力する。メモリは、演算装置を動作させるためのプログラムやデータを記憶することができる。また、メモリは、演算装置の動作の過程で必要となる各種データを一時的に記憶することもできる。
【0031】
音声データ変換部103および利用者探索部104は、演算装置によって実現される。演算装置は、音声入出力端末100の動作全体を制御する機能を有する。演算装置は、音声入出力端末100に内蔵された演算装置がROM(Read Only Memory)に記憶されたプログラムをRAM(Random Access Memory)に展開して実行することにより実現される。かかるプログラムが提供され得る他、かかるプログラムを記憶させた記憶媒体も提供され得る。
【0032】
利用者探索部104は、(アクセスポイント700を介して)無線接続されたモバイル端末200に対して、音声入出力端末100の現在の利用者の識別情報(利用者識別情報)を問い合わせる。また、利用者探索部104は、宛先保存サーバ400に対して、利用者が通話を行おうとしている相手の通信機器600の識別情報(宛先識別情報)を問い合わせる。
【0033】
音声データ変換部103は、マイク101から音声を取得すると、取得した音声を音声データに変換し、変換後の音声データを通話部105に出力する。また、音声データ変換部103は、通話部105から音声データを取得すると、取得した音声データを音声に変換し、変換後の音声をスピーカ102に出力する。
【0034】
通話部105は、アンテナを含んで構成されており、アクセスポイント700に対して無線接続を行う。また、通話部105は、アクセスポイント700を介してモバイル端末200と通信を行う。また、通話部105は、アクセスポイント700およびネットワーク800を介して、音声認識サーバ300、シグナリングサーバ500および通信機器600それぞれと通信を行ったりする。また、通話部105は、通信機器600との接続が完了すると、通信機器600との間で音声データ(通話)を送受信する。
【0035】
モバイル端末200は、個人ごとに利用される個人端末の一例として機能する。すなわち、モバイル端末200の代わりに他の個人端末(例えば、タブレット端末、PC、携帯電話など)が用いられてもよい。本実施形態では、4人の個人それぞれが別々のモバイル端末200を持っている場合を主に想定する。すなわち、通信システム10が、4台のモバイル端末200(モバイル端末200-1~200-4)を有する場合を主に想定する。しかし、モバイル端末200の数(および個人の数)は複数であれば特に限定されない。
【0036】
具体的に、モバイル端末200は、タッチパネル、ディスプレイ、演算装置、通信インタフェース、メモリなどを有している。タッチパネルは、入力インタフェースの一例として機能する。すなわち、タッチパネルの代わりに他の入力インタフェース(例えば、ボタン、マウス、キーボードなど)が用いられてもよい。ディスプレイには、音声入出力端末100の操作パネルが表示され得る。
【0037】
モバイル端末200の演算装置は、モバイル端末200の動作全体を制御する機能を有する。演算装置は、ROM(Read Only Memory)に記憶されたプログラムをRAM(Random Access Memory)に展開して実行することにより実現される。かかるプログラムが提供され得る他、かかるプログラムを記憶させた記憶媒体も提供され得る。演算装置は、話者認証部201としても機能し得る。話者認証部201は、音声入出力端末100に対して入力を行った利用者がモバイル端末200の利用者であるかを認証する。
【0038】
メモリは、演算装置を動作させるためのプログラムやデータを記憶することができる。また、メモリは、演算装置の動作の過程で必要となる各種データを一時的に記憶することもできる。例えば、メモリは、サーバアカウント保持部202を有している。サーバアカウント保持部202は、宛先保存サーバ400の宛先データベース403に登録されている複数の利用者それぞれのアドレス帳のうち、モバイル端末200の利用者のアドレス帳に対応するアカウント情報を保持する。アカウント情報は、IDおよびパスワードであってもよいし、秘密鍵を用いたデータであってもよい(利用者を厳密に特定することが可能な情報であるのが望ましい)。
【0039】
音声認識サーバ300は、音声データに対して音声認識を行い、音声認識に基づいてテキストデータを生成する。また、音声認識サーバ300は、生成したテキストデータから所定のキーワードを抽出する。なお、本実施形態では、音声入出力端末100に掛かる負荷を軽減するために、音声認識の機能を音声認識サーバ300が有する場合を主に想定する。しかし、後にも説明するように、音声認識サーバ300の音声認識の機能は、音声入出力端末100が代わりに有してもよい。
【0040】
宛先保存サーバ400は、演算装置、通信インタフェース、メモリなどを有している。宛先保存サーバ400のメモリは、演算装置を動作させるためのプログラムやデータを記憶することができる。また、メモリは、演算装置の動作の過程で必要となる各種データを一時的に記憶することもできる。例えば、メモリは、宛先データベース403を有している。宛先データベース403は、複数の利用者それぞれのアドレス帳を保持する。アドレス帳は、モバイル端末200の利用者のアカウント情報に対応付けられている。
【0041】
図2は、宛先データベース403に登録されているアドレス帳の例を示す図である。
図2には、あるモバイル端末200の利用者のアカウント情報XYZに対応するアドレス帳の例が示されている。アカウント情報XYZに対応するアドレス帳には、宛先の通信機器600(宛先機器)の宛先識別情報と宛先に関する情報とが関連付けられた情報とが含まれる。宛先に関する情報は、宛先の名前(宛先名)などを含んでよい。以下では、宛先に関する情報が宛先名である場合を主に想定するが、宛先に関する情報は宛先名に限定されない。また、宛先識別情報は、電話番号を含んでもよいし、IP(Internet Protocol)電話のURI(Uniform Resource Identifier)を含んでもよい。
【0042】
図1に戻って説明を続ける。宛先保存サーバ400の演算装置は、宛先保存サーバ400の動作全体を制御する機能を有する。演算装置は、ROM(Read Only Memory)に記憶されたプログラムをRAM(Random Access Memory)に展開して実行することにより実現される。かかるプログラムが提供され得る他、かかるプログラムを記憶させた記憶媒体も提供され得る。演算装置は、宛先検索部401および認証キー発行部402としても機能し得る。
【0043】
宛先検索部401は、宛先データベース403に登録されている複数の利用者それぞれのアドレス帳のうち、モバイル端末200の利用者のアドレス帳から宛先(宛先識別情報)を検索する。認証キー発行部402は、モバイル端末200の利用者のアドレス帳にアクセスするためのキー(認証キー)を発行する。
【0044】
シグナリングサーバ500は、音声入出力端末100から呼び出しを受け付けると、呼び出しに基づいて、呼び出し元である音声入出力端末100と宛先である通信機器600との接続を行う。
【0045】
通信機器600は、音声入出力端末100の利用者と通話を行う相手によって利用される機器である。ここで、通信機器600の種類は限定されない。例えば、通信機器600は、音声入出力端末100と同種の端末であってもよいし、スマートフォンであってもよい。すなわち、通信機器600は、通話が可能な何らかの機器であればよい。
【0046】
以上、本発明の実施形態に係る通信システム10の構成例について説明した。
【0047】
(1-2.通信システムの動作例)
続いて、本発明の実施形態に係る通信システム10の動作例について説明する。
図3~
図6は、本発明の実施形態に係る通信システム10によって実行される処理例を示すしシーケンス図である。なお、
図3~
図6に示されたシーケンス図は、本発明の実施形態に係る通信システム10によって実行される処理の一例を示したに過ぎない。したがって、本発明の実施形態に係る通信システム10によって実行される処理は、
図3~
図6に示されたフローチャートによって示される例に限定されない。
【0048】
まず、利用者は、あらかじめ自分のモバイル端末200に個人認証用データの例として音声データを登録しておく。さらに、利用者は、あらかじめ自分のモバイル端末200を用いて宛先保存サーバ400への利用登録を行うことによって、自分のアカウント情報を宛先データベース403に登録しておく。その後、利用者は自分のモバイル端末200を持ち歩き、音声入出力端末100の付近に移動すると、利用者のモバイル端末200は、(アクセスポイント700に接続されることによって)音声入出力端末100が接続されている内部ネットワークと同一の内部ネットワークに無線接続される。
【0049】
音声入出力端末100のマイク101は、周囲の音声を絶えず収集している。マイク101は、音量が閾値を超える音声を収集すると、収集した音声を音声データ変換部103に出力する。例えば、利用者が宛先名と接続用の語句(通話開始音声)とを含んだ呼び出し音声を発すると、その呼び出し音声がマイク101によって収集され(S11)、音声データ変換部103に出力される(S12)。音声データ変換部103は、マイク101によって収集された音声を音声データに変換する。音声データ変換部103は、変換後の音声データを、通話部105を介して音声認識サーバ300に送信する(S13)。
【0050】
音声認識サーバ300は、音声データを受信すると、音声データに基づいて音声認識によってテキストデータを生成する。音声認識サーバ300は、生成したテキストデータを音声入出力端末100の音声データ変換部103に返信する(S14)。音声データ変換部103は、通話部105を介してテキストデータを取得すると、テキストデータに宛先名と接続用の語句(通話開始音声)とが含まれるかを確認する(S15)。例えば、テキストデータが「ABCさんと通話」である場合、接続用の語句は、「と通話」に該当し、宛先名は、「と通話」の前の「ABCさん」に該当する。
【0051】
音声データ変換部103は、上記した変換後の音声データを、認証用データとして利用者探索部104に出力する(S16)。さらに、音声データ変換部103は、宛先名を利用者探索部104に出力する。利用者探索部104は、宛先名に関連付けられた宛先識別情報を宛先保存サーバ400から取得する。より詳細には、利用者探索部104は、接続用の語句に対応する音声データを、内部ネットワークに接続されたすべてのモバイル端末200に対して通話部105を介して送信する(S17)。
【0052】
(音声入出力端末100から音声データを受信した)モバイル端末200の話者認証部201は、通信インタフェースを介して受信した音声データと、あらかじめ登録された音声データとの認証(照合)を行う(S18)。そして、話者認証部201は、認証結果とあらかじめ登録された音声データに関連付けられた利用者名および利用者識別情報とを音声入出力端末100に返信する(S21)。例えば、認証処理は、双方の音声データから特徴データを抽出し、特徴データ同士の一致度が閾値を超えるか否かを判断することによって、認証成功か否かが判断されてよい。しかし、認証処理の具体的な手法は限定されない。
【0053】
音声入出力端末100の利用者探索部104は、通話部105によって認証成功を示す認証結果が受信された場合には、受信された利用者名に対応する音声データ(利用者名音声データ)を音声データ変換部103に出力する(S22)。音声データ変換部103が、利用者名に対応する音声データ(利用者名音声データ)をアナログ変換して利用者名に対応する音声(利用者名音声)を生成すると(S23)、スピーカ102は、生成された音声(利用者名音声)を出力する(S24)。これによって、利用者は、自分が利用者として認識されたことを把握することができる。
【0054】
一方、話者認証部201は、認証が成功した場合、自端末の利用者に対応するアドレス帳を利用するためのアカウント情報をサーバアカウント保持部202から取得する(S31、S32)。さらに、話者認証部201は、認証が成功した場合、アカウント情報を含んだアクセスキー発行要求を、通信インタフェースを介して宛先保存サーバ400に送信する(S33)。
【0055】
宛先保存サーバ400においては、宛先検索部401は、通信インタフェースを介してアクセスキー発行要求を受信すると、アクセスキー発行要求からアカウント情報を抽出する。そして、宛先検索部401は、抽出したアカウント情報に一致するアカウント情報を、宛先データベース403に登録されたアドレス帳から検索する。認証キー発行部402は、宛先検索部401による検索によってアカウント情報が見つかった場合には、当該アカウント情報に対応してアクセスキーを発行する。なお、後にも説明するように、認証キー発行部402によって発行されるアクセスキーは、有効期限を有しているのが望ましいが、有効期限を有していなくてもよい(無期限で使用できてもよい)。
【0056】
認証キー発行部402は、発行したアクセスキーを、通信インタフェースを介してモバイル端末200に返信する(S34)。話者認証部201は、宛先保存サーバ400から受信されたアクセスキーを取得すると、取得したアクセスキーを、通信インタフェースを介して音声入出力端末100に送信する(S35)。音声入出力端末100において、利用者探索部104は、モバイル端末200から送信されたアクセスキーを、通話部105を介して受信する。
【0057】
利用者探索部104は、アクセスキーと宛先名とを含んだ宛先識別情報要求を、通信インタフェースを介して宛先保存サーバ400に送信する(S36)。宛先検索部401は、通信インタフェースを介して宛先識別情報要求を受信すると、宛先識別情報要求からアクセスキーと宛先名とを抽出し、抽出したアクセスキーと宛先名とに対応する宛先識別情報を、宛先データベース403に登録されたアドレス帳から検索する(S37)。宛先検索部401は、宛先識別情報が見つかった場合には(S38)、宛先識別情報を、通信インタフェースを介して音声入出力端末100に返信する(S39)。
【0058】
なお、上記したように、認証キー発行部402によって発行されるアクセスキーは、有効期限を有しているのが望ましい。このとき、宛先検索部401は、アクセスキーが有効期限を経過する前には、アクセスキーに対応する宛先識別情報を、音声入出力端末100に返信してよいが、アクセスキーが有効期限を経過した後には、アクセスキーに対応する宛先識別情報を、音声入出力端末100に返信しなくてよい。これによって、アクセスキーの有効期限が経過した後には、音声入出力端末100の利用者探索部104によって宛先識別情報が取得されないため、宛先識別情報が第三者によって不正に利用される可能性が低減される(セキュリティが向上する)。
【0059】
利用者探索部104は、通話部105によって宛先識別情報が受信されると、通話部105から宛先識別情報を取得し、シグナリングサーバ500に対して、宛先識別情報と利用者識別情報とを含む接続要求を、通話部105を介して送信する(S41)。これによって、通信機器600に対する宛先識別情報および利用者識別情報の送信が制御される。
【0060】
一方、シグナリングサーバ500は、接続要求を受信すると(S42)、接続要求に含まれる宛先識別情報によって識別される宛先の通信機器600と音声入出力端末100の通話部105とを接続させる。すなわち、シグナリングサーバ500は、宛先識別情報と利用者識別情報とを含む接続要求を通信機器600に送信する(S43)。通信機器600は、接続要求を受信すると、接続要求に含まれる利用者識別情報を取得し、利用者識別情報または利用者識別情報に関連付けられている利用者に関する情報(例えば、利用者名など)を表示する。これによって、相手は誰からの呼び出しがあったかを把握することが可能となる。
【0061】
通話部105は、通話部105と通信機器600とが接続されたことを確認すると(S44)、接続完了通知を音声データ変換部103に出力する(S45)。音声データ変換部103は、通話部105から接続完了通知を受け取ると、接続完了を示す音声を生成してスピーカ102に出力する(S46)。そして、スピーカ102は、接続完了を示す音声を出力する(S47)。
【0062】
このとき、利用者探索部104は、接続されたことを確認した場合に、利用者のモバイル端末200に対して宛先名の表示指示を、通話部105を介して送信してもよい。これによって、利用者のモバイル端末200による宛先名の表示が制御される。利用者は、モバイル端末200によって表示された宛先名を見ることによって(例えば、音声入出力端末100がディスプレイを有していない場合であっても)、誰との通話が可能になったかを確認することができる。宛先名は、利用者のモバイル端末200のどこに表示されてもよい。
【0063】
利用者は接続完了を示す音声を聞くと、相手との通話を開始する。具体的に、利用者によって音声が入力されると、音声入出力端末100のマイク101を介して通話部105に利用者の音声が入力される。通話部105は、通信機器600に利用者の音声を送信する。一方、通信機器600は、利用者の音声が受信されると、利用者の音声を出力する。相手が利用者の音声を聞き、音声を入力すると、相手の音声が通信機器600から、通話部105を経由して、スピーカ102によって出力される。これによって、利用者は相手の音声を聞くことができる。
【0064】
利用者は相手との通話を終了したい場合には、モバイル端末200の終了ボタンを押下、または、音声入出力端末100に対しての音声による切断操作(例えば「さようなら」と話しかける等)すればよい。モバイル端末200への操作による切断では、モバイル端末200から切断要求が音声入出力端末100に送信される。音声入出力端末100に対する音声による切断では、音声入出力端末100は会話中の音声を常に音声認識サーバ300へ送信し、音声認識サーバ300が切断処理用音声を認識すると切断処理が開始される。音声入出力端末100の利用者探索部104は、モバイル端末200から切断要求を受信、または、音声認識サーバ300によって切断処理用音声が認識されると、宛先識別情報を含む切断要求を、通話部105を介してシグナリングサーバ500に送信する。シグナリングサーバ500は、宛先識別情報を含む切断要求を受信すると、音声入出力端末100と宛先識別情報によって識別される通信機器600との接続を切断する。
【0065】
以上、本発明の実施形態に係る通信システム10の動作例について説明した。
【0066】
(2.ハードウェア構成例)
続いて、本発明の実施形態に係る音声入出力端末100のハードウェア構成例について説明する。以下では、本発明の実施形態に係る音声入出力端末100のハードウェア構成例として、情報処理装置のハードウェア構成例について説明する。なお、以下に説明する情報処理装置のハードウェア構成例は、音声入出力端末100のハードウェア構成の一例に過ぎない。したがって、音声入出力端末100のハードウェア構成は、以下に説明する情報処理装置のハードウェア構成から不要な構成が削除されてもよいし、新たな構成が追加されてもよい。
【0067】
また、通信システム10が有する各種装置のうち、音声入出力端末100以外の装置(例えば、モバイル端末200、音声認識サーバ300、宛先保存サーバ400、シグナリングサーバ500、通信機器600、アクセスポイント700など)のハードウェア構成も、音声入出力端末100のハードウェア構成と同様に実現され得る。
【0068】
図7は、本発明の実施形態に係る音声入出力端末100の例としての情報処理装置900のハードウェア構成を示す図である。情報処理装置900は、CPU(Central Processing Unit)901と、ROM(Read Only Memory)902と、RAM(Random Access Memory)903と、ホストバス904と、ブリッジ905と、外部バス906と、インタフェース907と、入力装置908と、出力装置909と、ストレージ装置910と、通信装置911と、を備える。
【0069】
CPU901は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置900内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバス等から構成されるホストバス904により相互に接続されている。
【0070】
ホストバス904は、ブリッジ905を介して、PCI(Peripheral Component Interconnect/Interface)バス等の外部バス906に接続されている。なお、必ずしもホストバス904、ブリッジ905および外部バス906を分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
【0071】
入力装置908は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバー等利用者が情報を入力するための入力手段と、利用者による入力に基づいて入力信号を生成し、CPU901に出力する入力制御回路等から構成されている。情報処理装置900を操作する利用者は、この入力装置908を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。
【0072】
出力装置909は、例えば、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置、ランプ等の表示装置およびスピーカ等の音声出力装置を含む。
【0073】
ストレージ装置910は、データ格納用の装置である。ストレージ装置910は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含んでもよい。ストレージ装置910は、例えば、HDD(Hard Disk Drive)で構成される。このストレージ装置910は、ハードディスクを駆動し、CPU901が実行するプログラムや各種データを格納する。
【0074】
通信装置911は、例えば、ネットワークに接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置911は、無線通信または有線通信のどちらに対応してもよい。
【0075】
以上、本発明の実施形態に係る音声入出力端末100のハードウェア構成例について説明した。
【0076】
(3.まとめ)
以上に説明したように、本発明の実施形態によれば、少なくとも利用者の通話に利用される情報処理装置であって、前記利用者からの第1の入力に基づく第1の入力データを取得し、前記第1の入力データから認識される宛先に関する情報に関連付けられた宛先識別情報をサーバから取得する取得部と、前記宛先識別情報に基づいて宛先への接続を要求する通話部と、を備える、情報処理装置が提供される。
【0077】
かかる構成によれば、複数の個人が1台の情報処理装置を共用することを可能しつつ、複数の個人のうちの誰かが利用者として情報処理装置を利用する場合に自分が利用する情報を探し出す手間を低減し、かつ、宛先識別情報がサーバに保存される形態にも適用され得る技術が提供される。
【0078】
また、前記取得部は、前記情報処理装置との間で無線接続された個人端末に登録された個人認証用データと第2の入力に基づく第2の入力データとの認証が成功した場合に、前記第1の入力データに関連付けられた前記宛先識別情報を前記サーバから取得してもよい。そして、かかる認証は、個人端末によって行われてもよい。
【0079】
このように、個人端末によって認証が行わる場合には、宛先保存サーバによって認証が行わる場合と比較して、1台あたりの個人端末に登録される個人認証用データが少なくて済み、高速に認証が行われ得る。さらに、個人端末によって認証が行わる場合には、宛先保存サーバによって認証が行わる場合と比較して、認証に利用される閾値(すなわち、特徴データ同士の一致度と比較される閾値)の調整がしやすくなる。そのため、宛先保存サーバの利用者が(例えば、数千人規模まで)増加した場合であっても、認証が容易に行われ得る。
【0080】
前記取得部は、前記個人認証用データと前記第2の入力データとの認証が成功した場合に、前記個人端末に登録されたアカウント情報に対応して発行されたアクセスキーを取得し、前記アクセスキーと前記第1の入力データとに対応する前記宛先識別情報を前記サーバから取得してもよい。このとき、前記アクセスキーは、有効期限を有していてもよい。これによって、アクセスキーの有効期限が経過した後には、音声入出力端末に宛先識別情報が提供されないため、宛先識別情報が第三者によって不正に利用される可能性が低減される(セキュリティが向上する)。
【0081】
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
【0082】
上記では、本発明の実施形態では、利用者によって個人認証用データの例として音声データがあらかじめモバイル端末200に登録される例について主に説明した。しかし、音声データの代わりに他の個人認証用データがあらかじめモバイル端末200に登録されてもよい。例えば、利用者の顔画像が個人認証用データとしてモバイル端末200にあらかじめ登録されてもよいし、利用者の指紋データが個人認証用データとしてモバイル端末200にあらかじめ登録されてもよい。
【0083】
このとき、利用者からの入力も音声入力に限定されない。例えば、利用者によって入力される認証に利用される音声は、モバイル端末200に登録される個人認証用データの種類に応じて適宜に他の入力に変更されてよい。
【0084】
例えば、個人認識用データが利用者の顔画像である場合には、認証に利用される音声データは、音声入出力端末100に備えられたカメラによって撮像された顔画像に置き換えられてもよい。あるいは、個人認識用データが利用者の指紋データである場合には、認証に利用される音声データは、音声入出力端末100に備えられた指紋センサによって検出された指紋データに置き換えられてもよい。すなわち、認証に利用される音声は、第1の入力に置き換えられてよい。このとき、認証に利用される音声に基づく音声データの代わりに、第1の入力に基づく第1の入力データが利用されればよい。
【0085】
また、利用者によって入力される宛先認識に利用される音声も、適宜に他の入力に変更されてよい。例えば、宛先認識に利用される音声は、他の入力インタフェース(例えば、ボタン押下など)を介して利用者によって入力される宛先選択操作に置き換えられてもよい。すなわち、宛先認識に利用される音声は、第2の入力に置き換えられてよい。このとき、宛先認識に利用される音声に基づく音声データの代わりに、第2の入力に基づく第2の入力データが利用されればよい。
【0086】
また、上記では、認証に利用される音声と宛先認識に利用される音声とが、結合された一つの音声として、音声入出力端末100から音声認識サーバ300に送信される例を説明した。しかし、認証に利用される音声と宛先認識に利用される音声とは、異なるタイミングで音声入出力端末100から音声認識サーバ300に送信されてもよい。ただし、利用者によって入力される認証に利用される音声は、少なくとも接続用の語句を含んでいるのが望ましい。これによって、通話開始のために利用者から発せられた音声が認証にも利用され得るため、利用者による入力の手間が低減され得る。
【0087】
また、上記では、サーバにおける各種処理が、音声認識サーバ300およびシグナリングサーバ500に分散されて実行される例を主に説明した。しかし、サーバにおける各種処理は、必ずしも上記の通りに分散されて実行されなくてもよい。例えば、上記において音声認識サーバ300によって実行されるとした処理の一部が、音声認識サーバ300とは異なるサーバによって実行されてもよい。あるいは、上記において音声認識サーバ300によって実行されるとした処理の一部が、端末側(例えば、音声入出力端末100など)によって実行されてもよい。
【符号の説明】
【0088】
10 通信システム
100 音声入出力端末
101 マイク
102 スピーカ
103 音声データ変換部
104 利用者探索部
105 通話部
200 モバイル端末
201 話者認証部
202 サーバアカウント保持部
300 音声認識サーバ
400 宛先保存サーバ
401 宛先検索部
402 認証キー発行部
403 宛先データベース
500 シグナリングサーバ
600 通信機器
700 アクセスポイント
800 ネットワーク