IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社アープの特許一覧

特開2023-155890プログラム、情報処理装置、及び方法
<>
  • 特開-プログラム、情報処理装置、及び方法 図1
  • 特開-プログラム、情報処理装置、及び方法 図2
  • 特開-プログラム、情報処理装置、及び方法 図3
  • 特開-プログラム、情報処理装置、及び方法 図4
  • 特開-プログラム、情報処理装置、及び方法 図5
  • 特開-プログラム、情報処理装置、及び方法 図6
  • 特開-プログラム、情報処理装置、及び方法 図7
  • 特開-プログラム、情報処理装置、及び方法 図8
  • 特開-プログラム、情報処理装置、及び方法 図9
  • 特開-プログラム、情報処理装置、及び方法 図10
  • 特開-プログラム、情報処理装置、及び方法 図11
  • 特開-プログラム、情報処理装置、及び方法 図12
  • 特開-プログラム、情報処理装置、及び方法 図13
  • 特開-プログラム、情報処理装置、及び方法 図14
  • 特開-プログラム、情報処理装置、及び方法 図15
  • 特開-プログラム、情報処理装置、及び方法 図16
  • 特開-プログラム、情報処理装置、及び方法 図17
  • 特開-プログラム、情報処理装置、及び方法 図18
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023155890
(43)【公開日】2023-10-23
(54)【発明の名称】プログラム、情報処理装置、及び方法
(51)【国際特許分類】
   G06F 21/32 20130101AFI20231016BHJP
   G10L 17/00 20130101ALI20231016BHJP
【FI】
G06F21/32
G10L17/00 200D
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2023044782
(22)【出願日】2023-03-20
(62)【分割の表示】P 2022065159の分割
【原出願日】2022-04-11
(71)【出願人】
【識別番号】509291253
【氏名又は名称】株式会社アープ
(74)【代理人】
【識別番号】110002815
【氏名又は名称】IPTech弁理士法人
(72)【発明者】
【氏名】阿部 健一郎
(72)【発明者】
【氏名】石川 勝敏
(72)【発明者】
【氏名】三枝 正稔
(72)【発明者】
【氏名】神酒 秀成
(72)【発明者】
【氏名】松生 光治
(57)【要約】
【課題】安全性の高い音声認証を高速に実現することができるようにする。
【解決手段】プロセッサと、メモリとを備えるコンピュータに実行させるためのプログラムであって、前記プログラムは、前記プロセッサに、予め登録されたユーザの第1音声データから、第1の音声特徴量を抽出するステップと、一時的なパスワードを生成するステップと、前記ユーザに、前記パスワードを提示するステップと、前記ユーザが前記パスワードを読み上げた第2音声データの入力を受け付けるステップと、受け付けた前記第2音声データから、第2の音声特徴量を抽出するステップと、前記第1の音声特徴量と、前記第2の音声特徴量と、前記パスワードとを用いて、ユーザ認証を行うステップと、を実行させ、前記第1の音声特徴量と、前記第2の音声特徴量とは、ベクトルで表される音声特徴である、プログラム。
【選択図】図7
【特許請求の範囲】
【請求項1】
プロセッサと、メモリとを備えるコンピュータに実行させるためのプログラムであって、前記プログラムは、前記プロセッサに、
予め登録されたユーザの第1音声データから、第1の音声特徴量を抽出するステップと、
一時的なパスワードを生成するステップと、
前記ユーザに、前記パスワードを提示するステップと、
前記ユーザが前記パスワードを読み上げた第2音声データの入力を受け付けるステップと、
受け付けた前記第2音声データから、第2の音声特徴量を抽出するステップと、
前記第1の音声特徴量と、前記第2の音声特徴量と、前記パスワードとを用いて、ユーザ認証を行うステップと、
を実行させ、
前記第1の音声特徴量と、前記第2の音声特徴量とは、ベクトルで表される音声特徴である、
プログラム。
【請求項2】
音声データを入力することに応じて、ユーザの音声特徴をベクトルで表す音声特徴量を出力するように予め学習された学習済みモデルを取得するステップ
を更に実行し、
前記第1の音声特徴量を抽出するステップにおいて、前記第1音声データと、前記学習済みモデルとを用いて、第1の音声特徴量を抽出し、
前記第2の音声特徴量を抽出するステップにおいて、前記第2音声データと、前記学習済みモデルとを用いて、第2の音声特徴量を抽出する、
請求項1に記載のプログラム。
【請求項3】
メル周波数ケプストラム係数を用いて、前記第1音声データを2次元ベクトルで表される第3の音声特徴量に変換するステップと、
メル周波数ケプストラム係数を用いて、前記第2音声データを2次元ベクトルで表される第4の音声特徴量に変換するステップと、
を実行させ、
前記第1の音声特徴量を抽出するステップにおいて、前記第3の音声特徴量と、前記学習済みモデルとを用いて、第1の音声特徴量を抽出し、
前記第2の音声特徴量を抽出するステップにおいて、前記第4の音声特徴量と、前記学習済みモデルとを用いて、第2の音声特徴量を抽出し、
前記学習済みモデルは、前記2次元ベクトルを入力することにより、前記ベクトルで表す音声特徴量を出力するように予め学習される、
請求項2に記載のプログラム。
【請求項4】
前記第2音声データを、テキストデータに変換するステップと、
前記パスワードと、前記テキストデータとを用いて、パスワード認証を行うステップと、
前記第1の音声特徴量と前記第2の音声特徴量との距離に応じて、話者認証を行うステップと、
を実行させ、
前記ユーザ認証を行うステップにおいて、前記パスワード認証の認証結果と、前記話者認証の認証結果とを用いて、ユーザ認証を行う、
請求項1~請求項3の何れか1項に記載のプログラム。
【請求項5】
前記ユーザ認証を行うステップにおいて、ユーザ認証に成功したことに応じて、前記サービスの利用を許可するステップ、
を実行させ、
前記第1音声データは、前記ユーザがサービスの利用を開始する前において取得したものであり、
前記提示するステップにおいて、前記ユーザがサービスの利用する際に、前記ユーザに、前記パスワードを提示する、
請求項1に記載のプログラム。
【請求項6】
前記提示するステップにおいて、施設内の所定の設備に設置された情報処理装置により、前記ユーザに前記パスワードを提示し、
前記第2音声データの入力を受け付けるステップにおいて、前記設備に設置された音声入力装置を通じて、前記第2音声データの入力を受け付け、
前記許可するステップにおいて、前記ユーザ認証に成功したことに応じて、前記設備の解錠又は前記サービスを提供することに関する装置の起動を実行する、
請求項5に記載のプログラム。
【請求項7】
第1のサーバから、宿泊期間に関する情報を取得するステップと、
を実行させ、
前記生成するステップにおいて、前記宿泊期間に有効な前記パスワードを生成し、
前記提示するステップにおいて、前記宿泊施設内の所定の設備に設置された情報処理装置により、前記ユーザに前記パスワードを提示し、
前記第2音声データの入力を受け付けるステップにおいて、前記設備に設置された音声入力装置を通じて、前記第2音声データの入力を受け付け、
前記許可するステップにおいて、前記ユーザ認証に成功したことに応じて、前記ユーザ認証の認証結果を第2のサーバに送信することにより、チェックインしたことを登録し、
前記サービスは、宿泊施設の利用の提供であり、
前記第1音声データは、前記ユーザが前記サービスの利用を開始する前において、前記第1のサーバから取得したものであり、
前記第1のサーバは、前記宿泊施設若しくは旅行代理店のサーバ、又は、前記宿泊施設若しくは旅行代理店の提供するWebシステムであり、
前記第2のサーバは、前記宿泊施設の利用を管理するサーバである、
請求項5に記載のプログラム。
【請求項8】
前記チェックインしたことを登録したことに応じて、前記設備又は前記装置の解錠を行うための物理的なキー、電子キー、又はパスワードを発行するステップ
を実行させる請求項7に記載のプログラム。
【請求項9】
前記提示するステップにおいて、前記サービスを提供する者の電話受付担当者に前記パスワードを提示する、
請求項5に記載のプログラム。
【請求項10】
前記生成するステップにおいて、会話で用いるキーワードを前記パスワードとして生成すると共に、前記キーワードを答えさせる質問を生成し、
前記提示するステップにおいて、前記サービスを提供する者の電話受付担当者に前記パスワードと、前記キーワードを答えさせる質問とを提示し、
前記第2音声データの入力を受け付けるステップにおいて、前記キーワードを答えさせる質問をすることにより、前記第2音声データの入力を受け付ける、
請求項9に記載のプログラム。
【請求項11】
配送担当者の端末から一時的な文字列を受信するステップと、
前記生成するステップにおいて、受信した前記文字列を前記パスワードとして生成し、
前記許可するステップにおいて、前記ユーザ認証に成功したことに応じて、前記配送担当者により配送物を格納したロッカーを解錠する、
請求項5に記載のプログラム。
【請求項12】
他の端末から、認証要求を受け付けるステップ、
を実行させ、
前記生成するステップにおいて、前記認証要求を受け付けたことに応じて、前記パスワードを生成し、
前記許可するステップにおいて、前記ユーザ認証に成功したことに応じて、前記ユーザが利用するロッカーの解錠を実行する、
請求項5に記載のプログラム。
【請求項13】
他の認証が成功したことを受け付けるステップ、
を実行させ、
前記生成するステップにおいて、前記他の認証が成功したことに応じて、前記パスワードを生成する、
請求項1に記載のプログラム。
【請求項14】
プロセッサを備える情報処理装置であって、前記プロセッサが、
予め登録されたユーザの第1音声データから、第1の音声特徴量を抽出するステップと、
一時的なパスワードを生成するステップと、
前記ユーザに、前記パスワードを提示するステップと、
前記ユーザが前記パスワードを読み上げた第2音声データの入力を受け付けるステップと、
受け付けた前記第2音声データから、第2の音声特徴量を抽出するステップと、
前記第1の音声特徴量と、前記第2の音声特徴量と、前記パスワードとを用いて、ユーザ認証を行うステップと、
を実行し、
前記第1の音声特徴量と、前記第2の音声特徴量とは、ベクトルで表される音声特徴である、
情報処理装置。
【請求項15】
プロセッサを備えるコンピュータが、
予め登録されたユーザの第1音声データから、第1の音声特徴量を抽出するステップと、
一時的なパスワードを生成するステップと、
前記ユーザに、前記パスワードを提示するステップと、
前記ユーザが前記パスワードを読み上げた第2音声データの入力を受け付けるステップと、
受け付けた前記第2音声データから、第2の音声特徴量を抽出するステップと、
前記第1の音声特徴量と、前記第2の音声特徴量と、前記パスワードとを用いて、ユーザ認証を行うステップと、
を実行し、
前記第1の音声特徴量と、前記第2の音声特徴量とは、ベクトルで表される音声特徴である、
方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、プログラム、情報処理装置、及び方法に関する。
【背景技術】
【0002】
安全で確実な二重身分認証を実現することを目的として、事前にユーザ声紋モデルを学習・登録し、動的パスワードを生成し、動的パスワードを読み上げた時のパスワード音声信号に基づいて、グローバルキャラクター音響モデルとユーザ声紋モデルで当該要求者の身分総合信頼度を算出し、算出した前記身分総合信頼度に基づいて当該要求者の身分を判定する、という技術がある(特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特表2018―509649号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、従来技術では、グローバルな声紋モデルを学習しておく必要があったり、信頼度にビタビアルゴリズムなどの従来の音声認識に用いる計算方法を用いたり、平均信頼値を算出しているため、処理速度が遅い、という問題があった。
【0005】
本開示の目的は、安全性の高い音声認証を高速に実現することにある。
【課題を解決するための手段】
【0006】
本開示の一態様のプログラムは、プロセッサと、メモリとを備えるコンピュータに実行させるためのプログラムであって、前記プログラムは、前記プロセッサに、予め登録されたユーザの第1音声データから、第1の音声特徴量を抽出するステップと、一時的なパスワードを生成するステップと、前記ユーザに、前記パスワードを提示するステップと、前記ユーザが前記パスワードを読み上げた第2音声データの入力を受け付けるステップと、受け付けた前記第2音声データから、第2の音声特徴量を抽出するステップと、前記第1の音声特徴量と、前記第2の音声特徴量と、前記パスワードとを用いて、ユーザ認証を行うステップと、を実行させ、前記第1の音声特徴量と、前記第2の音声特徴量とは、ベクトルで表される音声特徴である。
【発明の効果】
【0007】
本開示によれば、安全性の高い音声認証を高速に実現することができる。
【図面の簡単な説明】
【0008】
図1】本開示の情報処理システム1の構成を示すブロック図である。
図2】本開示の情報処理装置10の構成を示すブロック図である。
図3】本開示の情報処理装置10の機能構成を示すブロック図である。
図4】本開示の第1音声データ収集処理を示すフローチャートである。
図5】本開示の学習処理を示すフローチャートである。
図6】本開示の第1の音声特徴量抽出処理を示すフローチャートである。
図7】本開示の認証処理を示すフローチャートである。
図8】本開示の認証処理S405のユーザ認証処理を示すフローチャートである。
図9】本開示の情報処理システム2の構成を示すブロック図である。
図10】本開示の認証処理を示すフローチャートである。
図11】本開示の情報処理システム3の構成を示すブロック図である。
図12】本開示の認証処理を示すフローチャートである。
図13】本開示の情報処理システム4の構成を示すブロック図である。
図14】本開示の認証処理を示すフローチャートである。
図15】本開示の情報処理システム5の構成を示すブロック図である。
図16】本開示の認証処理を示すフローチャートである。
図17】本開示の情報処理システム6の構成を示すブロック図である。
図18】本開示の認証処理を示すフローチャートである。
【発明を実施するための形態】
【0009】
以下、本開示の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態
を説明するための図面において、同一の構成要素には原則として同一の符号を付し、その
繰り返しの説明は省略する。
【0010】
従来技術では、グローバルな声紋モデルを学習しておく必要があったり、信頼度にビタビアルゴリズムなどの従来の音声認識に用いる計算方法を用いたり、平均信頼値を算出しているため、処理速度が遅い、という問題があった。
【0011】
本開示の技術は、予め登録されたユーザの第1音声データから、第1の音声特徴量を抽出し、一時的なパスワードを生成し、ユーザに、当該パスワードを提示する。そして、ユーザが当該パスワードを読み上げた第2音声データから、第2の音声特徴量を抽出し、第1の音声特徴量と、第2の音声特徴量と、当該パスワードとを用いて、ユーザ認証を行う。また、第1の音声特徴量と、第2の音声特徴量とは、ベクトルで表される音声特徴である。これにより、本開示は、安全性の高い音声認証を高速に実現することができる技術を開示する。
【0012】
また、従来技術は、処理速度が遅く、またサービスの提供者、サービスの利用者等にとって利用しづらい、という問題があった。例えば、ホテル等の宿泊サービスにおいて、フロントに人手を介してチェックインする必要があったり、ユーザが認証することを意識させたくない場合にも、ユーザが認証したことを気付いてしまう場合があったりする問題があった。本開示は、利用シーンに応じて利便性の高い音声認証技術を開示する。
以下、第1実施形態では、本開示の音声認証技術について説明する。また、第2実施形態~第6実施形態では、利用シーンに応じた利便性の高い音声認証技術の具体例について説明する。
【0013】
<第1実施形態>
(1)情報処理システム1の構成
図1は、第1実施形態の情報処理システム1の構成を示すブロック図である。図1に示すように、情報処理システム1は、情報処理装置10、ユーザ端末20、及びネットワーク30を含む。情報処理装置10と、ユーザ端末20とは、有線又は無線の通信規格を用いて、ネットワーク30を介して相互に通信可能に接続されている。
【0014】
情報処理装置10は、据え置き型のPC(Personal Computer)、ラップトップPCなどにより実現される。
【0015】
図2は、第1実施形態の情報処理装置10の構成を示すブロック図である。図2に示すように、情報処理装置10は、記憶装置11、プロセッサ12、入出力インターフェース13、及び通信インターフェース14を備える。
【0016】
記憶装置11は、プログラム、及び、プログラム等で処理されるデータ等を一時的に記憶する装置である。記憶装置11は、例えば、フラッシュメモリ、DRAM(Dynamic Random Access Memory)等のメモリ、HDD(Hard Disc Drive)、SSD(Solid State Drive)等の1つ、又は組み合わせにより実現される。
【0017】
プロセッサ12は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路などにより構成される。
【0018】
入出力インターフェース13は、図示しない入力装置(例えば、マイク、タッチパネル、タッチパッド、マウス等のポインティングデバイス、キーボード等)から、入力信号を受け付けるインターフェースである。また、入出力インターフェース13は、図示しない出力装置(ディスプレイ、スピーカ等)に対し、出力信号を送信するインターフェースである。
【0019】
通信インターフェース14は、情報処理装置10が外部の装置と通信するため、信号を入出力するためのインターフェースである。
【0020】
ユーザ端末20は、ユーザにより操作され、またはユーザのために操作される端末装置である。ユーザは、例えば、サービスの利用者などである。ユーザにより操作される場合、ユーザ端末20は、ユーザが保有する端末装置であるか、又はサービスの提供者によりユーザに供与され端末であって、当該提供者が保有する端末装置である。ユーザのために操作される端末装置である場合、ユーザ端末20は、サービスの提供者が保有する端末装置である。
【0021】
ユーザ端末20は、例えば、移動体通信システムに対応したスマートフォン、タブレット等の携帯端末、ウェアラブルデバイス等により実現される。この他に、ユーザ端末20は、据え置き型のPC(Personal Computer)、ラップトップPCなどであるとしてもよい。本開示では、ユーザ端末20がスマートフォンである場合を例に説明する。
【0022】
図2は、ユーザ端末20の構成を示すブロック図である。図2に示すように、ユーザ端末20は、記憶装置21、プロセッサ22、入出力インターフェース23、及び通信インターフェース24を備える。また、ユーザ端末20は、図示しないディスプレイ、スピーカーなどの出力装置を備える。
【0023】
記憶装置21は、プログラム、及び、プログラム等で処理されるデータ等を一時的に記憶する装置である。記憶装置11は、例えば、フラッシュメモリ、DRAM(Dynamic Random Access Memory)等のメモリ、HDD(Hard Disc Drive)、SSD(Solid State Drive)等の1つ、又は組み合わせにより実現される。
【0024】
プロセッサ22は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路などにより構成される。
【0025】
入出力インターフェース23は、図示しない入力装置(例えば、マイク、タッチパネル、タッチパッド、マウス等のポインティングデバイス、キーボード等)から、入力信号を受け付けるインターフェースである。また、入出力インターフェース13は、図示しない出力装置(ディスプレイ、スピーカ等)に対し、出力信号を送信するインターフェースである。
【0026】
通信インターフェース24は、情報処理装置10が外部の装置と通信するため、信号を入出力するためのインターフェースである。
【0027】
(2)情報処理装置10の機能
図3は、第1実施形態の情報処理装置10の機能構成を示すブロック図である。図3に示すように、情報処理装置10は、通信部110、記憶部120、及び制御部130を含む。
【0028】
通信部110は、情報処理装置10が外部の装置と通信するための処理を行う。
【0029】
記憶部120は、情報処理装置10が使用するデータ及びプログラムを記憶する。記憶部120は、第1データDB121、第2データDB122、第3データDB123等を記憶する。
【0030】
第1データDB121は、第1音声データを保持するためのデータベースである。例えば、第1データDB121は、項目「ID」、項目「ユーザID」、項目「第1音声データ」などのレコードを含む。なお、ここに示す項目は全てではなく、他の項目があっても構わない。
【0031】
項目「ID」は、各レコードを識別するための情報を記憶する。
【0032】
項目「ユーザID」は、ユーザを識別するための情報を記憶する。なお、ユーザIDは、本開示の他のDBにおいても同様である。
【0033】
項目「第1音声データ」は、ユーザが発生した音声データを記憶する。音声データは、例えばWavなどの音声ファイルで表されるデータである。
【0034】
第2データDB122は、学習済みモデル及び学習済みモデルのパラメータを保持するデータベースである。学習済みモデルについては、後述する。
【0035】
第3データDB123は、後述するユーザの第1の音声特徴量を保持するためのデータベースである。例えば、第3データDB123は、項目「ユーザID」、項目「ユーザ名」、項目「音声特徴量」、項目「更新日時」などのレコードを含む。なお、ここに示す項目は全てではなく、他の項目があっても構わない。
【0036】
項目「ユーザ名」は、ユーザの名、氏、氏名、名称、通称などの情報を記憶する。
【0037】
項目「音声特徴量」は、抽出したユーザの第1の音声特徴量を記憶する。第1の音声特徴量については後述する。
【0038】
項目「更新日時」は、第1の音声特徴量を第3データDB123に格納した日時を保持する。
【0039】
制御部130は、情報処理装置10のプロセッサ12がプログラムに従って処理を行うことにより、受信制御部131、送信制御部132、抽出部133、生成部134、提示部135、及び認証部136などに示す機能を発揮する。
【0040】
受信制御部131は、情報処理装置10が外部の装置から通信プロトコルに従って信号を受信する処理を制御する。例えば、受信制御部131は、ユーザ端末20から後述のパスワードを読み上げた第2音声データを受信すると、当該第2音声データを、抽出部133に当該音声データを渡す。
【0041】
送信制御部132は、情報処理装置10が外部の装置に対し通信プロトコルに従って信号を送信する処理を制御する。
【0042】
抽出部133は、音声データから、音声特徴量を抽出する。
具体的には、抽出部133は、学習済みモデルと、第1データDB121に登録されたユーザの第1音声データを1以上とを用いて、音声特徴量を抽出する。
【0043】
ここで、本開示の学習済みモデルについて説明する。当該学習済みモデルは、音声データを入力することに応じて、ユーザの音声特徴をベクトルで表す音声特徴量を出力するように学習されたモデルである。学習済みモデルは、任意の機械学習モデル、任意のニューラルネットワークなどを用いることができる。
【0044】
本開示では、学習済みモデルは、深層距離学習モデル(Deep Metric Lerning モデル)である場合を例に説明する。この場合、学習済みモデルは、音声データを2次元の特徴量に変換した音声特徴量を入力すると、N次元のベクトルで表される音声特徴量を出力するように学習される。当該音声特徴量は、例えば、音声のメル周波数ケプストラム係数(MFCC)などである。学習済みモデルの学習は、情報処理装置10が行っても、他の装置が行ってもよい。本開示では、学習済みモデルが他の装置によって学習が行われ、予め第2データDB122に格納されている場合を例に説明する。
【0045】
学習済みモデルの学習に用いられる学習データは、学習用に録音した複数人の音声データを、音声信号処理及び音響処理の少なくとも1以上を施したものを予め用意しておいたものである。音声信号処理及び音響処理は、例えば、音量調節、音声の伸縮、ピッチシフト、ノイズ印加、イコライザー、リバーブなどの処理である。ある人の音声データを、複数の音声信号処理及び音響処理を施すことで、ある人の音声データから、複数の音声データを生成することができる。このような音声信号処理及び音響処理は、音声データの録音環境の違いを考慮するために行う。このような学習データにより、当該学習済みモデルは、マイクの性能の差異などの録音環境の影響を少なくした音声特徴量の抽出を実現することができる。
【0046】
また、処理された学習データは、メル周波数ケプストラム係数(MFCC)を用いて、2次元ベクトルで表される特徴量に変換される。当該特徴量は、例えば128×128の2次元で表される。
【0047】
そして、学習済みモデルは、当該2次元ベクトルで表される特徴量を入力とし、N次元のベクトルで表される音声特徴量を出力するように、学習される。Nは、任意の整数である。N次元のベクトルで表される音声特徴量は、人がどのような音声の特徴を有するかを要素とするベクトルである。学習方法は、例えば、距離学習を用いる。これにより、当該学習済みモデルは、人毎の音声特徴を示すように、N次元のベクトルで表される音声特徴量を出力するように学習される。このように出力された音声特徴量は、ベクトル表現であるため、他の同様に出力された音声特徴量と距離により、同一人物であるか否かを精度よく判定することができる。このように学習された学習済みモデルが、第2データDB122に格納されている。
【0048】
なお、学習データは、敵対的ノイズを加えたものでもよい。当該学習済みモデルは、学習済みモデルの学習時に敵対的学習を行うことで、敵対的攻撃(なりすまし等)への耐性をもたせることができる。
【0049】
具体的には、抽出部133は、ユーザの第1音声データを、第1データDB121から取得する。次に、抽出部133は、第1音声データを、メル周波数ケプストラム係数(MFCC)を用いて、音声データを2次元ベクトルで表される第3の音声特徴量に変換する。次に、抽出部133は、第2データDB122から、学習済みモデルを取得する。次に、抽出部133は、第3の音声特徴量と、学習済みモデルとを用いて、N次元のベクトルで表される第1の音声特徴量を抽出する。そして、抽出部133は、抽出した第1の音声特徴量を、第3データDB123に格納する。
【0050】
また、抽出部133は、ユーザが後述のパスワードを読み上げた音声である第2音声データを受信すると、第2音声データを、メル周波数ケプストラム係数を用いて、音声データを2次元ベクトルで表される第4の音声特徴量に変換する。次に、抽出部133は、第4の音声特徴量と、学習済みモデルとを用いて、N次元のベクトルで表される第2の音声特徴量を抽出する。
【0051】
生成部134は、一時的なパスワードを生成する。
【0052】
具体的には、生成部134は、所定の有効期限を定めたパスワードを生成する。パスワードは、読み上げることが可能な文字列である。生成部134は、ランダムな文字列としてパスワードを生成しても、予め決められた単語又は文の中からランダム又は所定の方式により選択したものをパスワードとして生成してもよい。パスワードがランダムな文字列である場合、人が読み上げることが困難である可能性がある。このため、生成部134が、予め読み上げやすい単語又は文からパスワードを選択する方が、音声を用いるユーザ認証の精度が高くなる。
【0053】
提示部135は、ユーザに、パスワードを提示する。
【0054】
具体的には、提示部135は、パスワードを、人が知覚可能であり、知覚した結果として声に出すことが可能な態様で、ユーザにパスワードを提示する。提示部135は、例えば、パスワードを文字列として出力装置に表示させる、パスワードを認知可能な画像若しくは映像として出力装置に表示させる、又は、パスワードに関する音として出力装置に発音させる。画像又は映像として表示させる場合では、提示部135は、例えばパスワードが「ほくとしちせい」である場合、北斗七星の映った画像又は映像を出力装置(例えばディスプレイ)に表示させる。また、音として発音させる場合では、提示部135は、例えばパスワードが「ほくとしちせい」である場合、それを読み上げた音を任意の手法で生成して、出力装置(例えばスピーカー)に発音させる。
【0055】
また、ユーザが情報処理装置10に接続される出力装置の近くにいない場合、提示部135は、通信を介して、ユーザ端末20などにパスワードを送信することにより、ユーザにパスワードを提示すればよい。
【0056】
認証部136は、第1の音声特徴量と、第2の音声特徴量と、パスワードとを用いて、ユーザ認証を行う。
【0057】
具体的には、認証部136は、パスワードが有効期限内である場合に、パスワード認証と、話者認証とを行い、何れの認証も成功した場合、ユーザ認証に成功したものとする。パスワード認証は、第2音声データが、当該パスワードについて読み上げられた音声データであることの認証を行うものである。話者認証は、第2音声データが、登録されたユーザにより発声されたものであることの認証を行うものである。
【0058】
まず、認証部136は、受信した第2音声データを、テキストデータに変換する。次に、認証部136は、パスワードと、テキストデータとを用いて、パスワード認証を行う。より具体的には、認証部136は、第2音声データを変換したテキストデータと、パスワードとが一致するか否かを検証する。認証部136は、テキストデータとパスワードとが一致する場合、パスワード認証が成功したものと判定する。一方、認証部136は、テキストデータとパスワードとが一致しない場合、パスワード認証が成功しなかったものと判定する。
【0059】
また、認証部136は、第1の音声特徴量と第2の音声特徴量との距離に応じて、話者認証を行う。より具体的には、認証部136は、まず、第1の音声特徴量と、第2の音声特徴量との距離を算出する。次に、認証部136は、算出した距離が、所定の閾値以下であるか否かを判定する。認証部136は、距離が所定の閾値以下である場合、話者認証に成功したものと判定する。一方、認証部136は、距離が所定の閾値以下でない場合、話者認証に成功しなかったものと判定する。
【0060】
認証部136は、パスワードが有効期限内であり、パスワード認証と、話者認証とが共に成功した場合に、ユーザ認証に成功したものとする。一方、認証部136は、パスワードが有効期限内でない、パスワード認証に成功していない、又は話者認証に成功していない場合、ユーザ認証に成功しなかったものとする。
【0061】
なお、認証部136は、第1の音声特徴量と第2の音声特徴量との距離そのものを用いなくてもよい。例えば、認証部136は、第1の音声特徴量を用いて学習されたユーザの異常検知モデルと、第2の音声特徴量とを用いて、ユーザ認証を用いてもよい。ユーザの異常検知モデルは、音声特徴量を入力することにより、当該音声特徴量が当該ユーザの音声特徴量であるか否かを出力するモデルである。異常検知モデルは、例えば、OneClassSVM、IsolationForestなどの既存のモデルを用いることができる。なお、異常検知モデルは、ユーザ登録時の音声情報を用いて、ユーザ毎に学習されている。
【0062】
そして、認証部136は、認証結果を出力する。認証結果の出力先は、例えば、情報処理装置10に接続された出力装置、ユーザ端末20に送信、サービスを実施するためのサーバ等である。
【0063】
(3)動作
以下では、情報処理装置10における処理について図面を参照しながら説明する。
【0064】
図4は、情報処理装置10による第1音声データ収集処理を行う流れの一例を示すフローチャートである。情報処理装置10は、当該処理を、任意のタイミング(例えば、第1音声データを受信したタイミングなど)において実行する。
【0065】
ステップS101において、受信制御部131は、ユーザ端末20から第1音声データを受信する。
【0066】
ステップS102において、受信制御部131は、受信した第1音声データを、第1データDB121に格納し、処理を終了する。
【0067】
図5は、情報処理装置10による学習処理を行う流れの一例を示すフローチャートである。当該処理を、任意のタイミング(例えば、学習処理を開始するための信号を受信したタイミングなど)において実行する。なお、情報処理装置10が学習処理を行う場合、図示しない学習部が当該処理を行う。
【0068】
ステップS201において、学習部は、学習データを取得する。この場合、学習部は、学習データを、記憶部120又は外部のデータベースから取得する。
【0069】
ステップS202において、学習部は、音声データを入力することに応じて、ユーザの音声特徴をベクトルで表す音声特徴量を出力するように、モデルを学習する。
【0070】
ステップS203において、学習部は、学習済みモデルとそのパラメータとを、第2データDB122に格納し、処理を終了する。
【0071】
図6は、情報処理装置10による第1の音声特徴量抽出処理を行う流れの一例を示すフローチャートである。情報処理装置10は、当該処理を、任意のタイミング(例えば、ユーザの第1音声データを格納したタイミング、認証要求信号を受信したタイミングなど)において実行する。
【0072】
ステップS301において、抽出部133は、ユーザの第1音声データを、第1データDB121から取得する。
【0073】
ステップS302において、抽出部133は、第1音声データを、メル周波数ケプストラム係数(MFCC)を用いて、音声データを2次元ベクトルで表される第3の音声特徴量に変換する。
【0074】
ステップS303において、抽出部133は、第2データDB122から、学習済みモデルを取得する。
【0075】
ステップS304において、抽出部133は、第3の音声特徴量と、学習済みモデルとを用いて、N次元のベクトルで表される第1の音声特徴量を抽出する。
【0076】
ステップS305において、抽出部133は、抽出した第1の音声特徴量を、第3データDB123に格納し、処理を終了する。
【0077】
図7は、情報処理装置10によるユーザ認証処理を行う流れの一例を示すフローチャートである。情報処理装置10は、当該処理を、任意のタイミング(例えば、認証要求信号を受信したタイミングなど)において実行する。
【0078】
ステップS401において、受信制御部131は、認証要求信号を受信する。認証要求信号は、例えば、情報処理装置10に接続される入力端末、ユーザ端末20などから入力を受け付ける。
【0079】
ステップS402において、生成部134は、一時的なパスワードを生成する。
【0080】
ステップS403において、提示部135は、ユーザに、パスワードを提示する。
【0081】
ステップS404において、受信制御部131は、第2音声データを受信する。
【0082】
ステップS405において、認証部136は、第1の音声特徴量と、第2の音声特徴量と、パスワードとを用いて、ユーザ認証を行う。
【0083】
ステップS406において、認証部136は、認証結果を出力し、処理を終了する。
【0084】
図8は、ステップS405の認証部136による認証処理を行う流れの一例を示すフローチャートである。
【0085】
ステップS451において、抽出部133は、第2音声データを、メル周波数ケプストラム係数を用いて、音声データを2次元ベクトルで表される第4の音声特徴量に変換する。
【0086】
ステップS452において、抽出部133は、第4の音声特徴量と、学習済みモデルとを用いて、N次元のベクトルで表される第2の音声特徴量を抽出する。
【0087】
ステップS463において、認証部136は、認証要求信号に係るユーザの第1の音声特徴量を、第3データDB123から取得する。
【0088】
ステップS464において、認証部136は、受信した第2音声データを、テキストデータに変換する。
【0089】
ステップS465において、認証部136は、パスワードと、テキストデータとを用いて、パスワード認証を行う。
【0090】
ステップS466において、認証部136は、第1の音声特徴量と第2の音声特徴量との距離に応じて、話者認証を行う。
【0091】
ステップS467において、認証部136は、パスワードが有効期限内であり、かつ、パスワード認証と、話者認証とが共に成功した場合に、ユーザ認証に成功したものとし、それ以外の場合ユーザ認証に成功していないものとし、認証結果をリターンする。
【0092】
なお、上記処理は、個別の処理として説明したが、これに限定されるものではない。例えば、情報処理システム1において、上記の処理を組み合わせて実行してもよい。
【0093】
(4)小括
以上説明したように、本開示によれば、予め登録されたユーザの第1音声データから、第1の音声特徴量を抽出し、一時的なパスワードを生成し、ユーザに、当該パスワードを提示する。そして、ユーザが当該パスワードを読み上げた第2音声データから、第2の音声特徴量を抽出し、第1の音声特徴量と、第2の音声特徴量と、当該パスワードとを用いて、ユーザ認証を行う。また、第1の音声特徴量と、第2の音声特徴量とは、ベクトルで表される音声特徴である。これにより、本開示は、安全性の高い音声認証を高速に実現することができる技術を開示する。
【0094】
学習済みモデルが、深層距離学習モデルのような畳み込みニューラルネットワークであり、第1の音声特徴量と第2の音声特徴量とが、所定のN次元のベクトルで表される。これにより、第1の音声特徴量と第2の音声特徴量との距離を算出するという簡易な計算を採用することができるため、安全性の高い音声認証を高速に実現することができる。
【0095】
なお、パスワードは、生成部により生成される場合を例に説明したが、これに限定されるものではない。パスワードを生成した端末から取得する構成としてもよい。他の実施形態においても同様である。
【0096】
<第2実施形態>
第2実施形態では、上記ユーザ認証を、サービスの利用時の認証に用いる例を説明する。第2実施形態では、サービスが、サービス提供者の施設をユーザに提供する場合について説明する。なお、第1実施形態と同様の構成については、同一の符号を付して説明を省略する。
【0097】
(1)情報処理システム2の構成
図9は、第2実施形態の情報処理システム2の構成を示すブロック図である。
【0098】
図9に示すように、情報処理システム2は、情報処理装置10、ユーザ端末20、ネットワーク30、及び施設40を含む。情報処理装置10と、ユーザ端末20と、施設40とは、有線又は無線の通信規格を用いて、ネットワーク30を介して相互に通信可能に接続されている。
【0099】
施設40は、サービス提供者によりユーザに提供される施設である。施設40は、例えば、スポーツジム、プール、入浴施設、オフィス、宿泊施設等である。施設40は、所定の設備に設置された情報処理装置41と、音声入力装置42とを含む。情報処理装置41と、音声入力装置42とは、有線又は無線の通信規格を用いて相互に通信可能に接続されている。所定の設備は、例えば、施設40がスポーツジムであれば、トレーニングルーム、トレーニングマシンなどである。また、情報処理装置41は、有線又は無線の通信規格を用いてネットワーク30を介して、情報処理装置10などと通信可能に接続されている。
【0100】
情報処理装置41は、例えば、ディスプレイ付きの情報処理装置である。情報処理装置41は、以下の機能を有する。
・情報処理装置41の前に人がいるか否かを、赤外線等を使って感知する機能。
・情報処理装置41の前に人がいることを検知した場合、情報処理装置10と通信することにより、パスワードを取得する機能。
・パスワードを、情報処理装置41に接続された出力装置(例えばディスプレイ)に出力する機能。
・音声入力装置42から取得した第2音声データを、情報処理装置10に送信する機能。
・情報処理装置10から、後述の許可情報を受信したことに応じて、所定の設備の解錠又はサービスを提供することに関する装置の起動を実行する機能。
【0101】
音声入力装置42は、ユーザが第2音声データを入力するための装置である。例えば、音声入力装置42は、マイクを保有し、マイクに入力された音声を、第2音声データに変換する。音声入力装置42は、第2音声データを情報処理装置41に渡す。
【0102】
(2)情報処理装置10の機能
【0103】
本実施形態において、第1データDB121に格納される第1音声データは、ユーザがサービスの利用を開始する前において取得したものである。例えば、サービスがスポーツジムである場合、ユーザとサービス提供者が会員契約を締結したタイミングなどで、第1音声データを取得する。
【0104】
提示部135は、ユーザがサービスの利用する際に、当該ユーザに、パスワードを提示する。具体的には、提示部135は、受信制御部131が、情報処理装置41からパスワード要求を受信すると、情報処理装置41にパスワードを送信する。これにより、提示部135は、施設40内の所定の設備に設置された情報処理装置により、ユーザにパスワードを提示する。
【0105】
認証部136は、受信制御部131が、情報処理装置41から第2音声データを受信すると、第1の音声特徴量と、第2の音声特徴量と、パスワードとを用いて、ユーザ認証を行う。認証部136は、ユーザ認証に成功したことに応じて、当該サービスの利用を許可する。具体的には、認証部136は、ユーザ認証に成功した場合、所定の設備の解錠又はサービスを提供することに関する装置の起動を実行する許可情報を、情報処理装置に送信する。
【0106】
(3)動作
以下では、情報処理装置10における処理について図面を参照しながら説明する。
【0107】
図10は、情報処理装置10による認証処理を行う流れの一例を示すフローチャートである。情報処理装置10は、当該処理を、情報処理装置41からパスワード要求を受信したタイミング等において実行する。
【0108】
ステップS501において、受信制御部131は、情報処理装置41からパスワード要求を受信する。
【0109】
ステップS503において、提示部135は、ユーザがサービスの利用する際に、当該ユーザに、パスワードを提示する。
【0110】
ステップS506において、認証部136は、ユーザ認証に成功した場合、所定の設備の解錠又はサービスを提供することに関する装置の起動を実行する許可情報を、情報処理装置41に送信し、処理を終了する。
【0111】
(4)小括
本開示によれば、ユーザ認証に成功したことに応じて、前記サービスの利用を許可し、第1音声データは、ユーザがサービスの利用を開始する前において取得したものであり、ユーザがサービスの利用する際に、ユーザに、パスワードを提示する。これにより、利用シーンに応じて利便性の高い音声認証を実現することができる。例えば、本開示は、ユーザ認証を音声のみで行うことができる。このため、ユーザが手荷物などで手がふさがっている場合、物理的なキーを持ちたくない、預けたくない、若しくは渡したくない場合、物理的なキーを送りたくない若しくは複数作りたくない場合などの問題を解消することができる。また、本開示は、ユーザがパスワードを覚えなくてもよいため、ユーザにとって利便性が高い。
【0112】
また、施設内の所定の設備に設置された情報処理装置により、ユーザにパスワードを提示し、設備に設置された音声入力装置を通じて、第2音声データの入力を受け付ける。そして、ユーザ認証に成功したことに応じて、設備の解錠又は前記サービスを提供することに関する装置の起動を実行する。これにより、サービス提供者が受け付けスタッフなどを配備しなくても、ユーザが設備内に入れたり、装置が起動して利用可能になったりする。このため、サービス提供者にとっても負担を減らすことができる。
【0113】
<第3実施形態>
第3実施形態では、上記ユーザ認証を、サービスの利用時の認証に用いる例を説明する。第3実施形態では、サービスが、宿泊施設の利用の提供である場合について説明する。なお、第1実施形態及び第2実施形態と同様の構成については、同一の符号を付して説明を省略する。
【0114】
(1)情報処理システム3の構成
図11は、第3実施形態の情報処理システム3の構成を示すブロック図である。
【0115】
図11に示すように、情報処理システム2は、情報処理装置10、ユーザ端末20、ネットワーク30、宿泊施設50、第1のサーバ60、及び第2のサーバ70を含む。情報処理装置10と、ユーザ端末20と、宿泊施設50と、第1のサーバ60と、第2のサーバ70とは、有線又は無線の通信規格を用いて、ネットワーク30を介して相互に通信可能に接続されている。
【0116】
宿泊施設50は、サービス提供者によりユーザに提供される宿泊施設である。宿泊施設50は、例えば、ホテル、旅館などである。宿泊施設50は、所定の設備に設置された情報処理装置41と、音声入力装置42とを含む。所定の設備は、例えば、宿泊施設のフロントに設置されるチェックイン端末などである。
【0117】
第1のサーバ60は、旅行代理店のサーバ、又は、旅行代理店の提供するWebシステムを実行するサーバである。なお、第1のサーバ60は、宿泊施設のサーバ、又は宿泊施設の提供するWebシステムを実行するサーバであってもよい。以下、第1のサーバ60が、旅行代理店のサーバである場合を例に説明する。
【0118】
ユーザが旅行代理店において、少なくとも宿泊施設50の利用を含む旅行の契約した際に、旅行代理店において、ユーザの第1音声データを取得する。例えば、旅行代理店は、旅行代理店に設置された音声入力装置により、第1音声データを取得する。そして、旅行代理店の担当者が、取得した第1音声データを、第1のサーバ60に送信する。
【0119】
第1のサーバ60は、情報処理装置10の要求に応じて、又は自動的に、情報処理装置10に第1音声データと、宿泊期間に関する情報とを送信する。また、第1のサーバ60は、第2のサーバ70に、ユーザの情報及び宿泊施設50の利用に関する情報を送信する。
【0120】
なお、第1のサーバ60がWebシステムである場合、第1のサーバ60は、ユーザ端末20から、ユーザの第1音声データを取得すればよい。
【0121】
第2のサーバ70は、宿泊施設50の利用を管理するサーバである。具体的には、第2のサーバ70は、ユーザのチェックイン状況などを管理する。第2のサーバ70は、情報処理装置10から、チェックインしたことを示す情報を受信すると、ユーザがチェックインしたことを登録する。
【0122】
(2)情報処理装置10の機能
【0123】
本実施形態において、第1データDB121に格納される第1音声データは、ユーザがサービスの利用を開始する前において取得したものである。例えば、ユーザが旅行代理店を介してサービス提供者と宿泊契約を締結したタイミングなどで、第1のサーバ60から、第1音声データを取得する。
【0124】
受信制御部131は、第1のサーバから、第1音声データ、宿泊期間に関する情報などを取得する。
【0125】
生成部134は、受信した宿泊期間に有効なパスワードを生成する。
【0126】
提示部135は、ユーザがサービスの利用する際に、宿泊施設50内の所定の設備に設置された情報処理装置41により、当該ユーザにパスワードを提示する。具体的には、提示部135は、受信制御部131が、情報処理装置41からパスワード要求を受信すると、情報処理装置41にパスワードを送信する。これにより、提示部135は、宿泊施設50内の所定の設備に設置された情報処理装置により、ユーザにパスワードを提示する。
【0127】
認証部136は、受信制御部131が、情報処理装置41から第2音声データを受信すると、第1の音声特徴量と、第2の音声特徴量と、パスワードとを用いて、ユーザ認証を行う。認証部136は、ユーザ認証に成功したことに応じて、ユーザ認証の認証結果を、第2のサーバに送信することにより、チェックインしたことを登録する。具体的には、認証部136は、ユーザ認証に成功した場合に、ユーザ認証の認証結果と、日時とを、第2のサーバ70に送信する。これにより、認証部136は、第2のサーバ70に、ユーザ認証の認証結果と、日時とを用いて、当該ユーザがチェックインしたことを登録させる。
【0128】
(3)動作
以下では、情報処理装置10における処理について図面を参照しながら説明する。
【0129】
図12は、情報処理装置10による認証処理を行う流れの一例を示すフローチャートである。情報処理装置10は、当該処理を、情報処理装置41からパスワード要求を受信したタイミング等において実行する。
【0130】
ステップS602において、生成部134は、受信した宿泊期間に有効なパスワードを生成する。
【0131】
ステップS606において、認証部136は、ユーザ認証に成功した場合、ユーザ認証の認証結果を、第2のサーバに送信することにより、チェックインしたことを登録し、処理を終了する。
【0132】
(4)小括
本開示によれば、第1のサーバから、宿泊期間に関する情報を取得し、宿泊期間に有効な前記パスワードを生成する。また、宿泊施設内の所定の設備に設置された情報処理装置により、ユーザにパスワードを提示し、当該設備に設置された音声入力装置を通じて、第2音声データの入力を受け付ける。そして、ユーザ認証に成功したことに応じて、前記ユーザ認証の認証結果を第2のサーバに送信することにより、チェックインしたことを登録する。サービスは、宿泊施設の利用の提供であり、第1音声データは、ユーザがサービスの利用を開始する前において、第1のサーバから取得したものである。第1のサーバは、宿泊施設若しくは旅行代理店のサーバ、又は、宿泊施設若しくは旅行代理店の提供するWebシステムであり、第2のサーバは、宿泊施設の利用を管理するサーバである。これにより、宿泊施設側でユーザの音声を学習する処理を行うことなく、ユーザの認証を行うことができる。また、宿泊施設が受け付けスタッフなどを配備しなくても、ユーザがチェックインすることができる。このため、サービス提供者にとっても人手不足や感染症予防対策など負担を減らすことができる。
【0133】
なお、チェックインしたことを登録したことに応じて、物理的なキー、電子キー、又はパスワードを発行するようにしてもよい。具体的には、認証部136は、情報処理装置41にユーザ認証の成功を送信する。情報処理装置41は、ユーザ認証の成功を受信すると、物理的なキーを保管するロッカーを解錠、電子的なキーをユーザ端末20に送信する、施設内の設備に必要なパスワードをユーザに提示する、などにより、ユーザにキーを提供する。また、ロッカーの解錠などにおいて、チェックインと同じ音声認証を行う構成とすれば、物理的なキーを発行せずに認証を行うことができる。
【0134】
このような構成により、自動チェックインにより、宿泊施設の利用に関するキーが自動的に発行されることになる。このため、サービス提供者は、人手によるチェックイン等をする必要がなくなり、人手不足を解消することができる。また、このような構成によれば、人手を介さないため、感染病の予防を実行することができる。
【0135】
また、家族・同一グループ内での施設を利用する際に物理的なキーを提供する場合、物理的なキーの保持者が限られるため、施設内での行動が、保持者の行動に左右されてしまう。しかし、本開示の技術は、各利用者にチェックイン認証成功に紐づいた開錠権限を与えることができる。このため、本開示の技術は、物理的な負担を宿泊施設及びユーザに与えず、かつ、宿泊施設内の利用者毎の行動自由度が向上することができる。また、本開示の技術は、物理的なキーの紛失や破損など物理損失のリスクを減少することができる。
【0136】
また、本実施形態では、第2のサーバ70が、チェックインしたことを示す情報を、情報処理装置10から取得する場合を例に説明したが、これに限定されない。例えば、第2のサーバ70は、チェックインしたことを示す情報を、宿泊施設50のチェックインに用いる端末(例えば、情報処理装置41)から受信してもよい。
【0137】
また、本実施形態ではチェックインの場合を例に説明したが、当然チェックアウトに用いることもできる。
【0138】
<第4実施形態>
第4実施形態では、上記ユーザ認証を、サービスの利用時の認証に用いる例を説明する。第4実施形態では、サービス提供者によるコールセンターにおける業務である場合について説明する。サービスは、例えば、修理の受け付け、クレジットカード利用明細の照会などである。なお、第1実施形態及び第2実施形態と同様の構成については、同一の符号を付して説明を省略する。
【0139】
(1)情報処理システム4の構成
図13は、第4実施形態の情報処理システム4の構成を示すブロック図である。
【0140】
図13に示すように、情報処理システム2は、情報処理装置10、ユーザ端末20、ネットワーク30、及びコールセンター80を含む。情報処理装置10と、ユーザ端末20と、コールセンター80とは、有線又は無線の通信規格を用いて、ネットワーク30を介して相互に通信可能に接続されている。
【0141】
コールセンター80は、担当者が操作する情報処理装置81を含んで構成される。情報処理装置81は、以下の機能を有する。
・ユーザと通話する機能
・パスワードを、情報処理装置81に接続された出力装置(例えばディスプレイ)に出力する機能。
・通話機能により取得した第2音声データを、情報処理装置10に送信する機能。
・情報処理装置10から、ユーザ認証の認証結果を受信したことを情報処理装置81に接続された出力装置に出力する機能。
【0142】
(2)情報処理装置10の機能
生成部134は、会話で用いるキーワードをパスワードとして生成すると共に、当該キーワードを答えさせる質問を生成する。具体的には、生成部134は、電話受付担当者がユーザと会話をする際に発生するようなキーワードを生成する。生成部134は、例えば、当該キーワードとして、コールセンター80において管理しているユーザの個人情報に関する情報、会話のタイミングにおける気候情報などを生成する。また、生成部134は、生成したキーワードを答えさせる質問を生成する。生成部134は、例えば、キーワードの生成方法と質問とを予め紐づけて記憶しておくことで、生成したキーワードを答えさせる質問を選択する。
【0143】
例えば、生成部134がキーワードを生成する方法が、ユーザの生年月日に含まれるキーワードであったとする。ユーザの生年月日が、例えば、2000年4月1日であったとする。この場合、生成部134が、キーワードを、ユーザの生年月日の一部である「ねんしがつ」などとして生成することとなる。そして、生成部134は、質問として、「生年月日をお答えください」などとして生成することとなる。
【0144】
提示部135は、サービスを提供する者の電話受付担当者にパスワードと、キーワードを答えさせる質問とを提示する。具体的には、提示部135は、受信制御部131が、情報処理装置81からパスワード要求を受信すると、情報処理装置81にパスワードと質問とを送信する。これにより、提示部135は、情報処理装置81により、電話受付担当者にパスワードと質問とを提示する。電話受付担当者が、質問をユーザに投げかけることにより、情報処理装置81は、第2音声データの入力を受け付けることができる。
【0145】
認証部136は、受信制御部131が、情報処理装置81から第2音声データを受信すると、第1の音声特徴量と、第2の音声特徴量と、パスワードとを用いて、ユーザ認証を行う。そして、認証部136は、ユーザ認証の認証結果を、情報処理装置81に送信する。これにより、情報処理装置81が電話受付担当者に認証結果を表示することにより、電話受付担当者がユーザ認証を行うことができる。
【0146】
(3)動作
以下では、情報処理装置10における処理について図面を参照しながら説明する。
【0147】
図14は、情報処理装置10による認証処理を行う流れの一例を示すフローチャートである。情報処理装置10は、当該処理を、情報処理装置81からパスワード要求を受信したタイミング等において実行する。
【0148】
ステップS701において、受信制御部131は、情報処理装置81からパスワード要求を受信する。
【0149】
ステップS702において、生成部134は、会話で用いるキーワードをパスワードとして生成すると共に、当該キーワードを答えさせる質問を生成する。
【0150】
ステップS703において、提示部135は、サービスを提供する者の電話受付担当者にパスワードと、キーワードを答えさせる質問とを提示する。
【0151】
ステップS704において、認証部136は、ユーザ認証の認証結果を、情報処理装置81に送信し、処理を終了する。
【0152】
(4)小括
本開示によれば、会話で用いるキーワードをパスワードとして生成すると共に、キーワードを答えさせる質問を生成し、サービスを提供する者の電話受付担当者にパスワードと、キーワードを答えさせる質問とを提示する。そして、キーワードを答えさせる質問をすることにより、第2音声データの入力を受け付ける。これにより、コールセンターにおいて、本人情報を伝える手間を省くことができる。また、仮に本人情報が流出していたとしても、なりすましを防ぐことができる。また、ユーザに対してした質問からパスワードを導くため、ユーザに認証したことを意識させずに、ユーザ認証を行うことができる。
<第5実施形態>
第5実施形態では、上記ユーザ認証を、サービスの利用時の認証に用いる例を説明する。第5実施形態では、サービスが、宅配ロッカーの利用である場合について説明する。なお、第1実施形態及び第2実施形態と同様の構成については、同一の符号を付して説明を省略する。
【0153】
(1)情報処理システム5の構成
図15は、第5実施形態の情報処理システム5の構成を示すブロック図である。
【0154】
図15に示すように、情報処理システム5は、情報処理装置10、ユーザ端末20、ネットワーク30、配送担当者の端末90、及び宅配ロッカー91を含む。情報処理装置10と、ユーザ端末20と、配送担当者の端末90とは、有線又は無線の通信規格を用いて、ネットワーク30を介して相互に通信可能に接続されている。
【0155】
配送担当者の端末90は、配送担当者により操作される携帯端末である。配送担当者は、宅配ロッカーに荷物を入れると、端末90に、文字列を入力する。文字列は、例えば、パスワードとして用いる文字列、荷物に関する情報の文字列などである。荷物に関する情報の文字列は、例えば、送付先の住所、送付先の電話番号、受け取り希望時間、配達日時、管理番号などである。本開示では、配送担当者が、文字列としてそのままパスワードとして用いる文字列を入力する場合を例に説明する。端末90は、情報処理装置10に、文字列を送信する。
【0156】
宅配ロッカー91は、情報処理装置41と、音声入力装置42とを含んで構成される。情報処理装置41は、ユーザ認証の認証結果が成功である場合に、宅配ロッカー91を解錠する機能を有する。
【0157】
(2)情報処理装置10の機能
受信制御部131は、配送担当者の端末90から一時的な文字列を受信する。
【0158】
生成部134は、受信した文字列をパスワードとして生成する。なお、文字列をそのままパスワードとして用いない場合、生成部134は、文字列から所定の方法でパスワードを生成する。生成部134は、例えば、文字列を任意の変換方式で音読可能な文字列に変換する、文字列のハッシュ値を求め、それに対応する音読可能な文字列を組み合わせるなどの方法により、パスワードを生成する。
【0159】
認証部136は、ユーザ認証に成功したことに応じて、配送担当者により配送物を格納したロッカーを解錠する。具体的には、認証部136は、宅配ロッカー91に、ユーザ認証の認証結果を送信する。
【0160】
(3)動作
以下では、情報処理装置10における処理について図面を参照しながら説明する。
【0161】
図16は、情報処理装置10による認証処理を行う流れの一例を示すフローチャートである。情報処理装置10は、当該処理を、任意のタイミング(例えば、ユーザが宅配ロッカー91を操作したタイミングなど)において実行する。
【0162】
ステップS802において、生成部134は、受信した文字列をパスワードとして生成する。
【0163】
ステップS806において、認証部136は、宅配ロッカー91に、ユーザ認証の認証結果を送信し、処理を終了する。
【0164】
(4)小括
本開示によれば、配送担当者の端末から一時的な文字列を受信し、受信した文字列をパスワードとして生成し、ユーザ認証に成功したことに応じて、配送担当者が配送物を格納したロッカーを解錠する。これにより、配送担当者が宅配ロッカーのパスワードを設定する場合、不在票が不要となる。
【0165】
また、配送物が複数ある場合、複数の宅配ロッカーを使うことがある。複数の宅配ロッカーにおいて代表となる1つのパスワードを設定することにより、1回の認証でユーザは複数の宅配ロッカーを一斉に解錠することができる。
<第6実施形態>
第6実施形態では、上記ユーザ認証を、サービスの利用時の認証に用いる例を説明する。第6実施形態では、一般的なロッカーにおいて音声認証を行う場合について説明する。なお、第1実施形態と同様の構成については、同一の符号を付して説明を省略する。
【0166】
(1)情報処理システム6の構成
図17は、第6実施形態の情報処理システム6の構成を示すブロック図である。
【0167】
図17に示すように、情報処理システム6は、情報処理装置10、ユーザ端末20、ネットワーク30、ロッカー94を含む。情報処理装置10と、ユーザ端末20と、ロッカー94とは、有線又は無線の通信規格を用いて、ネットワーク30を介して相互に通信可能に接続されている。
【0168】
ロッカー94は、情報処理装置41及び音声入力装置42と接続される。
情報処理装置41は、更に、以下の機能を有する。
・情報処理装置10から、解錠指示を受信したことに応じて、ロッカー94の解錠を実行する機能。
【0169】
(2)情報処理装置10の機能
受信制御部131は、情報処理装置41から、認証要求を受信する。
【0170】
生成部134は、認証要求を受信したことに応じて、パスワードを生成する。
【0171】
認証部136は、ユーザ認証に成功したことに応じて、ユーザが利用するロッカーの解錠を実行する。具体的には、認証部136は、ユーザ認証に成功した場合、情報処理装置41に、ロッカーの解錠指示を送信する。これにより、認証部136は、情報処理装置41に、解錠指示に応じてロッカーの解錠を実行させる。
【0172】
(3)動作
以下では、情報処理装置10における処理について図面を参照しながら説明する。
【0173】
図18は、情報処理装置10による認証処理を行う流れの一例を示すフローチャートである。情報処理装置10は、当該処理を、情報処理装置41からパスワード要求を受信したタイミング等において実行する。
【0174】
ステップS901において、受信制御部131は、情報処理装置41から、認証要求を受信する。
【0175】
ステップS902において、生成部134は、認証要求を受信したことに応じて、パスワードを生成する。
【0176】
ステップS906において、認証部136は、ユーザ認証に成功した場合、情報処理装置41に、ロッカーの解錠指示を送信し、処理を終了する。
【0177】
(4)小括
本開示によれば、他の端末から、認証要求を受け付け、認証要求を受け付けたことに応じて、パスワードを生成し、ユーザ認証に成功したことに応じて、ユーザが利用するロッカーの解錠を実行する。これにより、実際のキーを使わず、画像認識も行わずにロッカーを利用することができる。
例えば、温泉・プール・ジムなどで使うロッカーでは、肌露出が大きいことやプライバシーの観点から、画像認識が好ましくない場合がある。また、このようなロッカーでは、ユーザは一時的な実際のキーを常に所持せねばならず、煩わしかった。例えば、浴場内で、腕や足首にロッカーのキーを結びつけておく、などの行為をする必要があった。本開示によれば、このようなプライバシーの問題、及びユーザの煩わしさを解消することができる。
【0178】
<変形例>
以上、開示に係る実施形態について説明したが、これらはその他の様々な形態で実施することが可能であり、種々の省略、置換及び変更を行なって実施することができる。これらの実施形態及び変形例ならびに省略、置換及び変更を行なったものは、特許請求の範囲の技術的範囲とその均等の範囲に含まれる。
【0179】
例えば、生成部134は、他の認証が成功したことを条件として、パスワードを生成する構成としてもよい。他の認証は、例えば、従来のパスワード認証、電話番号認証などの音声認証以外の認証である。この場合、受信制御部131は、他の認証が成功したことを受信する。生成部134は、他の認証の成功したことに応じて、パスワードを生成する。このように、他の認証と組み合わせることにより、本開示の技術は更にセキュリティ強度を高めることができる。また、本開示の認証技術は、他の認証と共に2段階認証に組み込むことにより、セキュリティ強度を高めることができる。特に、スマートフォンなどの携帯端末において、指紋認証や虹彩認証と組み合わせることで、ユーザが文字列を入力すること動作を経ることなく、安全性の高い認証を行うことができる。
【0180】
また、情報処理装置10の各機能を、他の装置に構成してもよい。例えば、記憶部120の各DBは、外部のデータベースとして構築してもよい。また、情報処理装置10の各機能を、他の装置に構成してもよい。例えば、記憶部120の各DBは、外部のデータベースとして構築してもよい。
【0181】
<付記>
以上の各実施形態で説明した事項を、以下に付記する。
【0182】
(付記1)プロセッサ(12)と、メモリ(11)とを備えるコンピュータ(例えば、情報処理装置10)に実行させるためのプログラムであって、前記プログラムは、前記プロセッサに、予め登録されたユーザの第1音声データから、第1の音声特徴量を抽出するステップ(S304)と、一時的なパスワードを生成するステップ(S402)と、前記ユーザに、前記パスワードを提示するステップ(S403)と、前記ユーザが前記パスワードを読み上げた第2音声データの入力を受け付けるステップ(S404)と、受け付けた前記第2音声データから、第2の音声特徴量を抽出するステップ(S405)と、前記第1の音声特徴量と、前記第2の音声特徴量と、前記パスワードとを用いて、ユーザ認証を行うステップ(S405)と、を実行させ、前記第1の音声特徴量と、前記第2の音声特徴量とは、ベクトルで表される音声特徴である、プログラム。
【0183】
(付記2)音声データを入力することに応じて、ユーザの音声特徴をベクトルで表す音声特徴量を出力するように予め学習された学習済みモデルを取得するステップ(S303)を更に実行し、前記第1の音声特徴量を抽出するステップにおいて、前記第1音声データと、前記学習済みモデルとを用いて、第1の音声特徴量を抽出し、前記第2の音声特徴量を抽出するステップにおいて、前記第2音声データと、前記学習済みモデルとを用いて、第2の音声特徴量を抽出する、(付記1)に記載のプログラム
【0184】
(付記3)メル周波数ケプストラム係数を用いて、前記第1音声データを2次元ベクトルで表される第3の音声特徴量に変換するステップ(S302)と、メル周波数ケプストラム係数を用いて、前記第2音声データを2次元ベクトルで表される第4の音声特徴量に変換するステップ(S461)と、を実行させ、前記第1の音声特徴量を抽出するステップにおいて、前記第3の音声特徴量と、前記学習済みモデルとを用いて、第1の音声特徴量を抽出し、前記第2の音声特徴量を抽出するステップにおいて、前記第4の音声特徴量と、前記学習済みモデルとを用いて、第2の音声特徴量を抽出し、前記学習済みモデルは、前記2次元ベクトルを入力することにより、前記ベクトルで表す音声特徴量を出力するように予め学習される、(付記2)に記載のプログラム。
【0185】
(付記4)前記第2音声データを、テキストデータに変換するステップ(S464)と、前記パスワードと、前記テキストデータとを用いて、パスワード認証を行うステップ(S465)と、前記第1の音声特徴量と前記第2の音声特徴量との距離に応じて、話者認証を行うステップ(S466)と、を実行させ、前記ユーザ認証を行うステップにおいて、前記パスワード認証の認証結果と、前記話者認証の認証結果とを用いて、ユーザ認証を行う、(付記1)~(付記3)の何れか1項に記載のプログラム。
【0186】
前記ユーザ認証を行うステップにおいて、ユーザ認証に成功したことに応じて、前記サービスの利用を許可するステップ、を実行させ、前記第1音声データは、前記ユーザがサービスの利用を開始する前において取得したものであり、前記提示するステップにおいて、前記ユーザがサービスの利用する際に、前記ユーザに、前記パスワードを提示する、(付記1)に記載のプログラム。
【0187】
前記提示するステップにおいて、施設内の所定の設備に設置された情報処理装置により、前記ユーザに前記パスワードを提示し、前記第2音声データの入力を受け付けるステップにおいて、前記設備に設置された音声入力装置を通じて、前記第2音声データの入力を受け付け、前記許可するステップにおいて、前記ユーザ認証に成功したことに応じて、前記設備の解錠又は前記サービスを提供することに関する装置の起動を実行する、(付記5)に記載のプログラム。
【0188】
(付記7)第1のサーバから、宿泊期間に関する情報を取得するステップと、を実行させ、前記生成するステップにおいて、前記宿泊期間に有効な前記パスワードを生成し、前記提示するステップにおいて、前記宿泊施設内の所定の設備に設置された情報処理装置により、前記ユーザに前記パスワードを提示し、前記第2音声データの入力を受け付けるステップにおいて、前記設備に設置された音声入力装置を通じて、前記第2音声データの入力を受け付け、前記許可するステップにおいて、前記ユーザ認証に成功したことに応じて、前記ユーザ認証の認証結果を第2のサーバに送信することにより、チェックインしたことを登録し、前記サービスは、宿泊施設の利用の提供であり、前記第1音声データは、前記ユーザが前記サービスの利用を開始する前において、前記第1のサーバから取得したものであり、前記第1のサーバは、前記宿泊施設若しくは旅行代理店のサーバ、又は、前記宿泊施設若しくは旅行代理店の提供するWebシステムであり、前記第2のサーバは、前記宿泊施設の利用を管理するサーバである、(付記5)に記載のプログラム。
【0189】
(付記8)前記チェックインしたことを登録したことに応じて、前記設備又は前記装置の解錠を行うための物理的なキー、電子キー、又はパスワードを発行するステップを実行させる(付記7)に記載のプログラム。
【0190】
(付記9)前記提示するステップにおいて、前記サービスを提供する者の電話受付担当者に前記パスワードを提示する、(付記5)に記載のプログラム。
【0191】
(付記10)前記生成するステップにおいて、会話で用いるキーワードを前記パスワードとして生成すると共に、前記キーワードを答えさせる質問を生成し、前記提示するステップにおいて、前記サービスを提供する者の電話受付担当者に前記パスワードと、前記キーワードを答えさせる質問とを提示し、前記第2音声データの入力を受け付けるステップにおいて、前記キーワードを答えさせる質問をすることにより、前記第2音声データの入力を受け付ける、(付記9)に記載のプログラム。
【0192】
(付記11)配送担当者の端末から一時的な文字列を受信するステップと、前記生成するステップにおいて、受信した前記文字列を前記パスワードとして生成し、前記許可するステップにおいて、前記ユーザ認証に成功したことに応じて、前記配送担当者により配送物を格納したロッカーを解錠する、(付記5)に記載のプログラム。
【0193】
(付記12)他の端末から、認証要求を受け付けるステップ、を実行させ、前記生成するステップにおいて、前記認証要求を受け付けたことに応じて、前記パスワードを生成し、前記許可するステップにおいて、前記ユーザ認証に成功したことに応じて、前記ユーザが利用するロッカーの解錠を実行する、(付記5)に記載のプログラム。
【0194】
(付記13)他の認証が成功したことを受け付けるステップ、を実行させ、前記生成するステップにおいて、前記他の認証が成功したことに応じて、前記パスワードを生成する、(付記1)に記載のプログラム。
【0195】
(付記14)プロセッサ(12)を備える情報処理装置(10)であって、前記プロセッサが、予め登録されたユーザの第1音声データから、第1の音声特徴量を抽出するステップ(S304)と、一時的なパスワードを生成するステップ(S402)と、前記ユーザに、前記パスワードを提示するステップ(S403)と、前記ユーザが前記パスワードを読み上げた第2音声データの入力を受け付けるステップ(S404)と、受け付けた前記第2音声データから、第2の音声特徴量を抽出するステップ(S405)と、前記第1の音声特徴量と、前記第2の音声特徴量と、前記パスワードとを用いて、ユーザ認証を行うステップ(S405)と、を実行し、前記第1の音声特徴量と、前記第2の音声特徴量とは、ベクトルで表される音声特徴である、情報処理装置。
【0196】
(付記15)プロセッサ(12)を備えるコンピュータ(例えば、情報処理装置10)が、予め登録されたユーザの第1音声データから、第1の音声特徴量を抽出するステップ(S304)と、一時的なパスワードを生成するステップ(S402)と、前記ユーザに、前記パスワードを提示するステップ(S403)と、前記ユーザが前記パスワードを読み上げた第2音声データの入力を受け付けるステップ(S404)と、受け付けた前記第2音声データから、第2の音声特徴量を抽出するステップ(S405)と、前記第1の音声特徴量と、前記第2の音声特徴量と、前記パスワードとを用いて、ユーザ認証を行うステップ(S405)と、を実行し、前記第1の音声特徴量と、前記第2の音声特徴量とは、ベクトルで表される音声特徴である、方法。
【符号の説明】
【0197】
1 情報処理システム、2 情報処理システム、3 情報処理システム、4 情報処理システム、5 情報処理システム、6 情報処理システム、10 情報処理装置、11 記憶装置、12 プロセッサ、13 入出力インターフェース、14 通信インターフェース、20 ユーザ端末、21 記憶装置、22 プロセッサ、23 入出力インターフェース、24 通信インターフェース、30 ネットワーク、40 施設、41 情報処理装置、42 音声入力装置、50 宿泊施設、60 第1のサーバ、70 第2のサーバ、80 コールセンター、81 情報処理装置、90 端末、91 宅配ロッカー、94 ロッカー、110 通信部、120 記憶部、130 制御部、131 受信制御部、132 送信制御部、133 抽出部、134 生成部、135 提示部、136 認証部。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18