(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】6454807
(24)【登録日】2018年12月21日
(45)【発行日】2019年1月16日
(54)【発明の名称】音声認証決済システム
(51)【国際特許分類】
G06Q 20/40 20120101AFI20190107BHJP
G06Q 30/06 20120101ALI20190107BHJP
G10L 17/00 20130101ALI20190107BHJP
【FI】
G06Q20/40 300
G06Q30/06 340
G10L17/00 200C
【請求項の数】6
【全頁数】9
(21)【出願番号】特願2018-81031(P2018-81031)
(22)【出願日】2018年4月20日
【審査請求日】2018年4月20日
【早期審査対象出願】
(73)【特許権者】
【識別番号】000155469
【氏名又は名称】株式会社野村総合研究所
(72)【発明者】
【氏名】高宮 麻衣子
(72)【発明者】
【氏名】大石 理奈
(72)【発明者】
【氏名】井之上 傑
(72)【発明者】
【氏名】潮村 哲
【審査官】
衣川 裕史
(56)【参考文献】
【文献】
米国特許出願公開第2018/0047394(US,A1)
【文献】
特開2011−237966(JP,A)
【文献】
特開2014−229278(JP,A)
【文献】
特開2015−079152(JP,A)
【文献】
特開2015−109040(JP,A)
【文献】
特開2014−052940(JP,A)
【文献】
特開2001−306989(JP,A)
【文献】
特開平10−021305(JP,A)
【文献】
国際公開第01/009808(WO,A1)
【文献】
音声アシスタント、無人コンビニ、注文ボタン…。買い物大革命が起こる! 進撃中!アマゾンの歩き方 The New Wave of Amazon,日経トレンディ,日経BP社,2017年 4月 4日,第416号,第92-93頁
【文献】
大庭 隆伸,ドコモAIエージェント・オープンパートナーイニシアティブ:多目的対話プラットフォームの開発,情報処理学会 研究報告 音声言語情報処理(SLP) 2017−SLP−118 [online],情報処理学会,2017年10月 6日,第1-4頁,ISSN:2188-8663
【文献】
安蔵 靖志,AI スマートスピーカー VR/AR/MR ロボット パソコンとITで変わる近未来,日経パソコン,日経BP社,2018年 1月 8日,第785号,第32-37頁,ISSN:0287-9506
【文献】
山口 真吾,ideathon AI next 5,NEW MEDIA,(株)ニューメディア,2017年12月 1日,第35巻,第12号,第66-68頁
【文献】
岡部 稜,スマートデバイスを用いたコンテキストアウェアネスに基づくマルチファクタ認証システム,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2016年 3月17日,第115巻,第517号,第37-42頁,ISSN:0913-5685
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00−99/00
G10L 17/00
(57)【特許請求の範囲】
【請求項1】
マイクロフォンとスピーカーを少なくとも備えるスマートスピーカーからユーザが発話することで得られる音声データを受信する音声データ受信ステップと、
受信した音声データを音声分離し、音声分離した音声データのうち時系列で最初に発話したユーザの音声データを用いて声紋認証を行って対象ユーザを認証する認証ステップと、
ユーザが購入を希望する商品を特定する情報を前記スマートスピーカーから受信する商品情報受信ステップと、
ユーザからの決済処理依頼を前記スマートスピーカーから受信する決済処理依頼受信ステップと、
対象ユーザの認証が成功している場合に、前記決済処理依頼に沿って決済処理を実行する決済処理ステップとを1又は複数のコンピュータが実行する音声認証決済方法であって、
前記認証ステップは、最初に発話したユーザからの決済処理依頼を決済処理した後に最初に発話したユーザの次に発話したユーザの前記音声分離した音声データを用いて音声認証し、当該次に発話したユーザに対して前記商品情報受信ステップ、決済処理依頼受信ステップ及び決済処理ステップを実行する音声認証決済方法。
【請求項2】
前記対象ユーザを認証するステップで認証成功した場合に、初回の認証に使用した音声データを受信した以降の追加の音声データをスマートスピーカーから受信し、当該追加の音声データを用いて追加で認証するステップを更に含む前記請求項1に記載の音声認証決済方法。
【請求項3】
前記追加で認証するステップは定期的に実行する前記請求項2に記載の音声認証決済方法。
【請求項4】
前記認証ステップで認証された対象ユーザが他のユーザからの発注もまとめて受けることを希望する旨の音声データを受信して意図を理解し、各ユーザからの注文をまとめて受けつけるステップを更に含み、
前記決済処理ステップで認証された対象ユーザについてまとめて受けつけた注文を決済処理する前記請求項1に記載の音声認証決済方法。
【請求項5】
ユーザからの要請を受けてスマートスピーカーから表示制御を受けて外部の装置から受信する表示情報を表示する表示装置に対し、当該表示する表示情報のうちユーザが操作指示可能なオブジェクトであるリンクオブジェクト又はボタンオブジェクトに対してユーザが可視できる制御用ラベルを付与して表示情報を表示するように制御するステップを更に含む前記請求項1に記載の音声認証決済方法。
【請求項6】
マイクロフォンとスピーカーを少なくとも備えるスマートスピーカーからユーザが発話することで得られる音声データを受信する音声データ受信手段と、
受信した音声データを音声分離し、音声分離した音声データのうち時系列で最初に発話したユーザの音声データを用いて声紋認証を行って対象ユーザを認証する認証手段と、
ユーザが購入を希望する商品を特定する情報を前記スマートスピーカーから受信する商品情報受信手段と、
ユーザからの決済処理依頼を前記スマートスピーカーから受信する決済処理依頼受信手段と、
対象ユーザの認証が成功している場合に、前記決済処理依頼に沿って決済処理を実行する決済処理手段とを備え、前記認証手段は、最初に発話したユーザからの決済処理依頼を決済処理した後に最初に発話したユーザの次に発話したユーザの前記音声分離した音声データを用いて音声認証し、当該次に発話したユーザに対して前記商品情報受信手段、決済処理依頼受信手段及び決済処理手段を実行する音声認証決済システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認証を用いて決済を行う音声認証決済システムに関する。
【背景技術】
【0002】
一般的に、オンラインショッピングで決済を行う場合には、対象のECサイトへログイン(ID及びパスワード)し、商品を選択した上で、クレジットカードの番号、氏名及びセキュリティコードを入力して決済を行う。ECサイトの会員情報とクレジットカード情報が既に紐づいている場合には、再度のクレジットカード情報は不要で割愛することができる。
【0003】
このような一般的なオンラインショッピングに加え、購入者の個人情報を開示することなく購入処理を実行することができる決済支援装置も、特許文献1により開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2016−81467号
【発明の概要】
【発明が解決しようとする課題】
【0005】
前記のオンラインショッピングで、購入者はデスクトップPC、ノートPC、スマートフォンといったデバイスを用いて必要なキータッチを行ってログイン、商品選択、決済等を行っている。一方、昨今、検索エンジンを使った調査、オンラインニュースの読み上げ、音楽や動画の再生といった操作をエンドユーザの音声にて受けつけて実行するスマートスピーカーが販売されている。スマートスピーカーであれば、エンドユーザは手が離せない作業を行っている場合でも、発話をすることで各種操作を行うことができる。しかしながら、現在市販されているスマートスピーカー及びそれを用いたシステムであっても、オンラインショッピングを完遂することはできない。
【0006】
本発明はこうした課題に鑑みてなされたものであり、その目的は、スマートスピーカーを用いてオンラインショッピングを実行する機能を提供することにある。
【課題を解決するための手段】
【0007】
本発明に係る音声認証決済システムは、マイクロフォンとスピーカーを少なくとも備えるスマートスピーカーからユーザが発話することで得られる音声データを受信し、受信した音声データを用いて声紋認証を行って対象ユーザを認証し、ユーザが購入を希望する商品を特定する情報を前記スマートスピーカーから受信し、ユーザからの決済処理依頼を前記スマートスピーカーから受信し、対象ユーザの認証が成功している場合に、前記決済処理依頼に沿って決済処理を実行するものである。
【発明の効果】
【0008】
本発明によれば、認証した上で、スマートスピーカーを介してユーザからの操作指示を受け、購入する商品を特定して決済処理を行うことができる。
【図面の簡単な説明】
【0009】
【
図1】本発明に係る第1の実施形態に係る音声認証決済システムの構成図である。
【
図2】本発明に係る第1の実施形態に係るシーケンス図である。
【
図3】本発明に係るその他の実施形態に係るシーケンス図である。
【
図4】本発明に係るその他の実施形態に係るシーケンス図である。
【
図5】本発明に係るその他の実施形態に係る音声認証決済システムの構成図である。
【
図6】本発明に係るその他の実施形態に係る表示装置における表示例である。
【発明を実施するための形態】
【0010】
(第1の実施形態)
以下、各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。また、各図面において説明上重要ではない部材の一部は省略して表示する。
【0011】
図1は本実施形態に係る音声認証決済システムの構成図である。この音声認証決済システムは、スマートスピーカー10、音声認証サーバ30、ECサーバ40及び決済サーバ50からなり、それぞれ有線又は無線にてネットワークに接続している。
図1では、一例として、スマートスピーカー10は無線接続にてアクセスポイント20を介してネットワークに接続し、その他のシステム構成要素は有線にてネットワークに接続している。アクセスポイント20は、無線端末を相互に接続し、有線ネットワーク等のネットワークに接続する無線機である。なお、本実施形態では、サーバ側の構成として、音声認証サーバ30、ECサーバ40及び決済サーバ50をそれぞれ分離した構成としたが、これらは一のコンピュータ上で構成されてもよいし、それぞれのサーバを更に複数のコンピュータで構成することもできる。
【0012】
スマートスピーカー10は、エンドユーザからの音声入力を受け、音声データに変換して他装置に出力する。
図1の構成では、音声データを音声認証サーバ30又はECサーバ40に送信する。スマートスピーカー10は内部に記録する音声データ又は外部から受信した音声データを音声出力する機能も有する。スマートスピーカー10のハードウェア構成の一例としては、外部の音声を検出して電気信号に変換するマイクロフォン、音声データを音声出力するスピーカー、外部装置の通信を行う通信モジュール、視覚的にスマートスピーカーのステータスを示すLED(発光素子)、各種操作指示を行うための操作ボタン及び各モジュール及び素子を制御するCPU(制御部)からなる。スマートスピーカーは現時点でも既に様々の種類のものが販売されており、複数マイクロフォン及び複数スピーカーを有するものもあり、例えば、上面の外周部に等間隔にマイクロフォンを配設し、側面の外周部に等間隔にスピーカーを配設することで、どの方向からもエンドユーザが音声入力を行い、どの方向からも音声を聞くことができる。また、マイクロフォン又はスピーカーの種類によっては、指向性を持たせたモジュールもあり、ソフトウェア制御によってその指向性を変更することができ、エンドユーザからの音声入力を検出するとエンドユーザが居る方向に指向性を高める制御を行い、また、エンドユーザが居る方向に指向性を高めて音声出力する制御を行うこともできる。
【0013】
前記音声認証サーバ30は、受信した音声データを用いて認証を行う装置であり、受信した音声データと予め記憶している音声データとの比較を行って声紋認証するものである。
図1では、スマートスピーカー10が送信した音声データをアクセスポイント20及びネットワークを介して音声認証サーバ30が受信し、声紋認証を行う。ここで使用する声紋認証技術は公知慣用技術を用いることができる。例えば、音声データをスペクトラムに変換し、周波数上の分布状況から個人認証を行う技術があり、または、エンドユーザに特定のキーワードを発話させて取得した音声データと予め保持している過去に同じキーワードを発話させて取得した音声データを比較する技術もある。複数のエンドユーザがスマートスピーカーを使用していたとしても、個人認証することでどのエンドユーザが認証されたかを特定することができ、つまり、現在の利用者を特定することができる。
【0014】
前記ECサーバ40は、EC(electronic commerce)についてエンドユーザと対話を行い、購入商品を選別し、注文処理を行う。注文処理のうち、決済については決済サーバ50にて行う。音声認識を行ってエンドユーザと特定の分野に関して対話を行う公知慣用技術は既に存在し、それらの技術を用いてECサーバ40を実装する。意図解釈型ではエンドユーザの発話を理解し、次のアクションを実行するタスクを判定し、シナリオ対話型では予めシナリオを設定し、そのシナリオに沿って会話を行う。例えば、「お茶が欲しい」とエンドユーザが発話し、ECサーバ40がその意図を解釈し、ECサーバ40内で購入可能なお茶の中から最も売上高の高い商品を特定してその商品を「○○お茶500mlはいかがでしょうか。対象商品1個で送料込みの200円となります。」と提案し、エンドユーザが「購入する」と言えば、注文確認をした上で決済処理を決済サーバ50に依頼する動作を行う。ECサーバ40による音声出力はECサーバ40が対象の音声データをスマートスピーカー10に送信して音声出力する。本実施形態では、ECサーバ40が音声認識機能及び対話機能を有する構成としているが、音声認証サーバ30、決済サーバ50又は別装置がそれらの機能を有していても良い。注文確認では、商品名、数量及び購入金額を音声出力し、エンドユーザが了承の旨の発話をした場合には、次の決済処理依頼に移行する。なお、購入者の送付先及び決済情報(クレジット情報)は予めECサーバ40で設定されているものとする。
【0015】
前記決済サーバ50は決済処理依頼を受け、決済認証を経て決済処理を実行する。決済認証は決済サーバ50が音声認証サーバ30に依頼し、音声認証サーバ30で既に対象ユーザが認証済みである場合には認証成功とし、認証が未済の場合には音声認証を行う。決済処理の実行は、クレジットカード等のオンライン決済の場合には、クレジットカード会社等の金融システムと通信して実施する。
【0016】
前記ECサーバ40は、決済サーバ50からの決済完了通知を受け、受注発送処理を行い、注文完了をスマートスピーカー10を介してエンドユーザに通知する。
【0017】
次に、本実施形態に係るシステムの動作について
図2を用いて説明する。スマートスピーカー10はエンドユーザからのトリガとなる音声発話を受け、待機状態から起動状態になる(ステップ5)。エンドユーザはトリガ発話に続けて何らかの発話を行い、スマートスピーカー10はそれらの発話を受け音声データに変換し、音声認証サーバ30に送信する(ステップ10)。音声認証サーバ30はスマートスピーカー10からの音声データを受信し、声紋技術を用いた音声認証を行う(ステップ15)。音声認証が成功した場合には音声認証サーバ30は認証成功をECサーバ40に通知し、ECサーバ40は通知を受けてオンラインショッピングのヒアリング状態に移行する(ステップ20)。ここで、音声認証サーバ30は音声認証に使用した音声データもECサーバ40に送信する。ECサーバ40は受信した音声データ及びヒアリング状態以降にスマートスピーカー10から受信した音声データを用いてヒアリングを行う(ステップ20)。ヒアリングを経ることである商品の注文をエンドユーザからECサーバ40が受ける。ECサーバ40が注文確認の音声データをスマートスピーカー10に送信し(ステップ30)、スマートスピーカー10が受信して音声出力する(ステップ35)。エンドユーザから注文確認了承の旨の音声データをスマートスピーカー10を介して受信した場合には、ECサーバ40は注文内容に含まれる決済方法を決済サーバ50に送信して決済処理依頼を行う(ステップ40)。決済サーバ50は決済処理依頼を受け(ステップ45)、対象ユーザを特定して決済認証依頼を音声認証サーバ30に行う(ステップ50)。音声認証サーバ30は決済サーバ50からの決済認証依頼を受け、対象ユーザの決済認証を行い、ステップ15で既に音声認証済みであれば認証成功とし、音声認証が実行されていない場合等ではステップ15の音声認証を行う。ここで、音声認証に必要な音声データは、ステップ20で取得したエンドユーザの音声データを用いてもよいし、新たにエンドユーザに発話して貰って取得しても良い。決済認証が終われば認証結果が音声認証サーバ30から決済サーバ50に通知され、認証成功であれば決済サーバ50が決済処理を対象ユーザの決済情報を用いて外部の金融機関のシステムと共に実行する(ステップ60)。決済処理が完了した場合にはその通知を決済サーバ50からECサーバ40に行う(ステップ65)。ECサーバ40は決済完了通知を受け、受注発送処理を実行する(ステップ70)。ECサーバ40は受注発送処理が完了した後にエンドユーザに対して注文完了通知をスマートスピーカー10を介して行う(ステップ75)。
【0018】
(その他の実施形態)
前記第1の実施形態においては、ステップ15で音声認証を行った後は基本的に音声認証を実施しなかったが、
図3に示す通り、ステップ15以降もステップ55の決済認証が完了するまでには定期的又は発話毎にスマートスピーカー10から音声認証サーバ30が音声データを受信して適時に音声認証を行ってもよく、ステップ15以降に認証対象のエンドユーザが居なくなった場合に居なくなった後の音声認証が失敗するために適切な認証状態を維持することができ、例えば、決済認証に失敗するために認証対象のエンドユーザ以外の者が注文依頼をすることができなくなる。
【0019】
前記第1の実施形態においては、
図4に示す通り、ステップ11で受信した音声データの音声分離を行い、音声分離を行った上で時系列的に一番早く発話したエンドユーザの分離済み音声データを用いてステップ15の音声認証を行い、音声認証が成功した場合にECサーバ40をヒアリング待機状態に移行し(ステップ20)、その後、音声認証が完了したエンドユーザとのヒアリングを行い、ステップ75の注文完了まで終わると、最初のエンドユーザの次に発話したエンドユーザの分離した音声データを用いて音声認証を行って同様に注文処理まで行い、以降、同様にその次のエンドユーザの処理を実行する構成とすることもできる。これにより、複数のエンドユーザがスマートスピーカー10の周りにいた場合でも、別々に注文を聞くことができる。ここで、音声認証してヒアリング中のエンドユーザが他のユーザからの発注もまとめて受けることを希望する旨の発話をした場合には、ECサーバ40がその意図を理解し、各ユーザからの注文をまとめて受けつけ、音声認証済みのヒアリング中のエンドユーザの決済情報を用いて決済する構成であっても良い。あるエンドユーザが他のエンドユーザに奢ることもでき、又は、一旦あるエンドユーザがまとめて支払って他のエンドユーザから別途回収することもできる。
【0020】
前記第1の実施形態のシステム構成に加え、
図5の示す通り、表示装置11を加える構成であってもよく、その表示装置11もアクセスポイント20を介してネットワークと接続し、ECサーバ40又はスマートスピーカー10からの指示を受け、その指示で示されたURLを表示する構成でも良い。これにより、スマートスピーカー10が商品提案を音声で行うと共に、表示装置11に
図6のように商品情報を表示することもできる。表示装置11がタッチパネル型ディスプレイでエンドユーザがタッチ操作で表示制御を行ってもよいが、エンドユーザはスマートスピーカー10を用いて制御することもできる。ここで、表示情報中のオブジェクト中でユーザが制御対象可能なもので、表示ラベルが付与されていないもの、例えば、右上の詳細ボタンを声のみで操作するのは難しい場合もあるので、オブジェクトに対して<1>ないし<6>などの制御用のラベルを付与することで音声による制御が可能となる。ECサーバに連動するWebサーバは、通常のWebページを保持してスマートスピーカー10を介する表示制御の場合にのみ制御用ラベルを付与する制御を行う。表示装置11にウェブブラウザ機能が搭載されており、スマートスピーカーから制御で指定されたURLにアクセスしてこれらの表示が可能になるが、Webサーバがスマートスピーカーからのアクセスであることを識別するためにURLのパラメータ領域にスマートスピーカーに関連するアクセスであることを示す変数を付与してもよい。表示装置11はディスプレイを含むコンピュータからなる構成であり、そのコンピュータ上にオペレーティングシステムが導入されており、ブラウザの機能も有している。そのため、表示装置11は指定されたURLのページをユーザに対して表示することができる。スマートスピーカー10による表示装置11の制御を可能とするために、表示装置11上にスマートスピーカー制御用モジュールを導入する必要がある。このスマートスピーカー制御用モジュールは表示装置11のオペレーティングシステムに導入されるソフトウェアであってもよいし、ブラウザ機能のアドインとして導入されるソフトウェアであってもよい。このスマートスピーカー制御用モジュールがオペレーティングシステムに照会し、ブラウザ機能で表示されているオブジェクトのうちユーザが制御可能なオブジェクトを特定し、特定したオブジェクトに対して制御用ラベルを付与する。このオペレーティングシステムの照会時に各オブジェクトに対してどのような制御が可能であるかも情報取得する。例えば、リンクオブジェクト、ボタンオブジェクトに対してクリック操作が可能であり、そのクリック操作によってリンクオブジェクトであれば対象のURLへジャンプし、ボタンオブジェクトはそのボタンオブジェクトのクリックイベントに対して紐づけられている動作が実行される。従って、
図6の画面が表示されている際に、ユーザがスマートスピーカー10に対して「<1>をクリック」と音声制御することで、ECサーバ40を介して表示装置11のスマートスピーカー制御用モジュールに対してその制御が到達して<1>のクリックが実行され、商品ID00001の詳細画面が表示されることになる。
【産業上の利用可能性】
【0021】
本発明は、エンドユーザが発話した音声内容にて認証して決済する音声認証決済システムに好適に利用可能である。
【符号の説明】
【0022】
スマートスピーカー 10
表示装置 11
アクセスポイント 20
音声認証サーバ 30
ECサーバ 40
決済サーバ 50
【要約】
【課題】 スマートスピーカー及びそれを用いたシステムであっても、オンラインショッピングを完遂することはできないため、その機能を提供する。
【解決手段】 マイクロフォンとスピーカーを少なくとも備えるスマートスピーカー10からユーザが発話することで得られる音声データを受信し、受信した音声データを用いて声紋認証を行って対象ユーザを認証し、ユーザが購入を希望する商品を特定する情報を前記スマートスピーカー10から受信し、ユーザからの決済処理依頼を前記スマートスピーカー10から受信し、対象ユーザの認証が成功している場合に、前記決済処理依頼に沿って決済処理を実行する。
【選択図】
図1