IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ パズル エイアイ カンパニー リミテッドの特許一覧

特許7570426透かしを入れた音声認証システム及びこれに対する方法
<>
  • 特許-透かしを入れた音声認証システム及びこれに対する方法 図1
  • 特許-透かしを入れた音声認証システム及びこれに対する方法 図2
  • 特許-透かしを入れた音声認証システム及びこれに対する方法 図3
  • 特許-透かしを入れた音声認証システム及びこれに対する方法 図4
  • 特許-透かしを入れた音声認証システム及びこれに対する方法 図5
  • 特許-透かしを入れた音声認証システム及びこれに対する方法 図6
  • 特許-透かしを入れた音声認証システム及びこれに対する方法 図7
  • 特許-透かしを入れた音声認証システム及びこれに対する方法 図8
  • 特許-透かしを入れた音声認証システム及びこれに対する方法 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-10
(45)【発行日】2024-10-21
(54)【発明の名称】透かしを入れた音声認証システム及びこれに対する方法
(51)【国際特許分類】
   G10L 19/018 20130101AFI20241011BHJP
   G10L 17/00 20130101ALI20241011BHJP
【FI】
G10L19/018
G10L17/00 200Z
【請求項の数】 13
(21)【出願番号】P 2022554591
(86)(22)【出願日】2020-07-17
(65)【公表番号】
(43)【公表日】2023-04-20
(86)【国際出願番号】 KR2020009436
(87)【国際公開番号】W WO2021182683
(87)【国際公開日】2021-09-16
【審査請求日】2022-09-08
(31)【優先権主張番号】10-2020-0028774
(32)【優先日】2020-03-09
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】522173295
【氏名又は名称】パズル エイアイ カンパニー リミテッド
【氏名又は名称原語表記】PUZZLE AI CO., LTD.
【住所又は居所原語表記】6F,22,Banpo-daero Seocho-gu Seoul 06716,Republic of Korea
(74)【代理人】
【識別番号】110002664
【氏名又は名称】弁理士法人相原国際知財事務所
(72)【発明者】
【氏名】ジョン,ハ リン
【審査官】大野 弘
(56)【参考文献】
【文献】特表2019-530888(JP,A)
【文献】特開2002-320085(JP,A)
【文献】特開2002-218204(JP,A)
【文献】特表2008-529046(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00-19/26
G10L 17/00-17/26
(57)【特許請求の範囲】
【請求項1】
話者の音声をデジタル化した音声情報を収集する音声収集部と、
収集された上記話者の音声情報を基に音声イメージを生成し、上記音声イメージを深層ニューラルネットワーク(DNN;Deep Neural Network)モデルに学習させ、上記音声イメージに対する特徴ベクトルを抽出するとともに格納する学習モデルサーバと、
上記特徴ベクトルを基に透かし(watermark)を生成し、上記音声イメージ又は音声変換データに、上記透かし及び個別情報を入れる透かしサーバと、
上記特徴ベクトルを基に秘密鍵(private key)を生成し、認証結果に基づいて上記透かし及び上記個別情報を抽出するか否かを決定する認証サーバと、
を含み、
上記秘密鍵は、上記透かしを生成するのに用いられ、
上記個別情報は、上記特徴ベクトルに対応する医療コード、患者個人情報及び医療記録情報のうちの少なくとも1つ以上を含む医療情報であり、
上記認証結果は、上記特徴ベクトルに関し、上記格納済みの特徴ベクトルと認証対象の特徴ベクトルの同一性を比較した結果である、
音声認証システム。
【請求項2】
上記深層ニューラルネットワークモデルは、LSTM(Long Short Term Memory)ニューラルネットワークモデル、CNN(Convolutonal Neural Network)ニューラルネットワークモデル及びTDNN(Time-Delay Neural Network)モデルのうちの少なくとも1つ以上を含み、上記特徴ベクトルはD-ベクトルである、請求項1に記載の音声認証システム。
【請求項3】
上記学習モデルサーバは、
上記音声情報を基に所定の時間中における音声フレームを生成するフレーム生成部、
上記音声フレームを基に音声周波数を分析し、上記音声周波数をイメージ化して、上記音声イメージを時系列に生成する周波数分析部、及び、
上記音声イメージを上記深層ニューラルネットワークモデルに学習させて、上記特徴ベクトルを抽出するニューラルネットワーク学習部を含む、請求項1に記載の音声認証システム。
【請求項4】
上記周波数分析部は、
上記音声フレームをSTFT(Short Time Fourier Transform)アルゴリズムに適用して、上記音声イメージを生成する、請求項に記載の音声認証システム。
【請求項5】
上記透かしサーバは、
上記特徴ベクトルに対応する上記透かしを生成し格納する透かし生成部、
生成された上記透かし及び上記個別情報を、上記音声イメージのピクセル又は上記音声変換データに入れる透かし入れ部、及び、
上記話者に対する認証結果に基づいて、格納済みの上記透かし及び上記個別情報を抽出する透かし抽出部を含む、請求項1に記載の音声認証システム。
【請求項6】
上記透かし入れ部は、
上記音声イメージそれぞれのピクセルに対するRGB値を抽出し、上記RGB値と全RGB平均値との差を演算し、演算された差が閾値未満であるピクセルに上記透かし及び上記個別情報を入れる、請求項に記載の音声認証システム。
【請求項7】
上記透かし入れ部は、
上記音声情報を多次元配列に変換した上記音声変換データのLSB(Least Significant Bit;最下位ビット)に、上記透かし及び上記個別情報を入れる、請求項に記載の音声認証システム。
【請求項8】
上記認証サーバは、
上記特徴ベクトルを暗号化して、上記特徴ベクトルに対応する上記秘密鍵を生成する暗号生成部、
上記格納済みの特徴ベクトルと認証対象の特徴ベクトルとの同一性を比較する認証比較部、及び、
比較結果に基づいて上記話者に対する認証が成功したかどうかを判断し、上記透かし及び上記個別情報を抽出するか否かを決定する認証判断部を含む、請求項1に記載の音声認証システム。
【請求項9】
上記認証比較部は、
上記特徴ベクトルを編集距離(Edit Distance)アルゴリズムに適用して同一性を比較する、請求項に記載の音声認証システム。
【請求項10】
上記認証判断部は、認証が成功した場合には、抽出された上記個別情報に対する閲覧及び修正権限を付与し、
認証が失敗した場合には、情報偽造に対する警告信号を出力する、請求項8に記載の音声認証システム。
【請求項11】
話者の音声をデジタル化した音声情報を収集する音声収集段階と、
収集された上記話者の音声情報を基に音声イメージを生成し、上記音声イメージを深層ニューラルネットワーク(DNN;Deep Neural Network)モデルに学習させ、上記音声イメージに対する特徴ベクトルを抽出するとともに格納する学習モデル段階と、
上記特徴ベクトルを暗号化して、上記特徴ベクトルに対応する秘密鍵(private key)を生成する暗号生成段階と、
上記秘密鍵を基に透かし(watermark)及び個別情報を生成し格納する透かし生成段階と、
生成された上記透かし及び上記個別情報を、上記音声イメージのピクセル又は音声変換データに入れる透かし入れ段階と、
上記格納済みの特徴ベクトルと認証対象の特徴ベクトルとの同一性を比較する認証比較段階と、
比較結果に基づいて上記話者に対する認証が成功したかどうかを判断し、上記透かし及び上記個別情報を抽出するか否かを決定する認証判断段階と、
認証結果に基づいて格納済みの上記透かし及び上記個別情報を抽出する透かし抽出段階と、
を含み、
上記秘密鍵は、上記透かしを生成するのに用いられ、
上記個別情報は、上記特徴ベクトルに対応する医療コード、患者個人情報及び医療記録情報のうちの少なくとも1つ以上を含む医療情報であり、
上記認証結果は、上記特徴ベクトルに関し、上記格納済みの特徴ベクトルと認証対象の特徴ベクトルの同一性を比較した結果である、
音声認証方法。
【請求項12】
上記学習モデル段階は、
上記音声情報を基に所定の時間中における音声フレームを生成するフレーム生成段階、
上記音声フレームを基に音声周波数を分析し、上記音声周波数をイメージ化して、上記音声イメージを時系列に生成する周波数分析段階、
上記音声イメージを上記深層ニューラルネットワークモデルに学習させるニューラルネットワーク学習段階、及び、
学習させた上記音声イメージの上記特徴ベクトルを抽出する特徴ベクトル抽出段階を含む
、請求項11に記載の音声認証方法。
【請求項13】
認証が成功した場合には、抽出された上記個別情報に対する閲覧及び修正権限を付与する権限付与段階、及び、
認証が失敗した場合には、情報偽造に対する 警告信号を出力する偽造警告段階をさらに含む、請求項11に記載の音声認証 方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認証システム及び方法に関し、より詳細には、透かしを入れてセキュリティを強化した音声認証システム及び方法に関する。
【背景技術】
【0002】
バイオ認証とは、他人が模倣できない身体情報を基にユーザを識別して認証する技術を意味する。様々なバイオ認証技術のうちでも、最近になって音声認識技術に関する研究が活発に進行している。音声認識技術は大きく、「音声認識」と「話者認証」とに分けられる。音声認識は、誰が話してもかかわらず、不特定の多数が話した「内容」を聞き分けるものであるのに対し、話者認証は「誰が」が話したのかを区別するものである。
【0003】
話者認証技術の一例示として、「声の認証サービス」がある。仮に、音声だけで「誰」であるのか主体を正確かつ迅速に確認することができれば、各種の分野において個人認証のために必要であった既知の方法、例えば、ログイン後にパスワードを入力し、公認認証書を認証するなどのような煩わしい段階を減らして、利用者の便宜を提供することができるであろう。
【0004】
このとき、話者認証技術は、最初ユーザの音声を登録した後、認証要請がある度にユーザが発話した音声と登録された音声とを比較して、一致しているか否かにより認証を行う。ユーザが音声を登録すると、音声データから特徴点を数秒(例えば、10sec)単位で抽出することができる。特徴点は、イントネーション、発声速度など様々な類型として抽出され得、このような特徴点の組み合わせによりユーザを識別することができる。
【0005】
しかし、登録ユーザが音声を登録したり認証したりするとき、近辺に位置する第3者が登録ユーザの音声を無断で録音し、当該録音ファイルをもって話者認証を試みる状況が発生可能であるため、話者認証技術のセキュリティが問題となり得る。このような状況が発生するならば、ユーザに甚大な被害が生じるようになるはずであり、話者認証に対する信頼度は低くなるしかない。すなわち、話者認証技術の效用性が低下し、音声認証データの偽造又は変調が頻繁に発生するおそれがある。
【0006】
これを解決するために、話者認証技術は、あらかじめ学習しておいた登録ユーザの音声データモデルと第三者の音声データとの類似度を計算する方式で認証を行うことができ、特に、学習モデルに深層ニューラルネットワークが使用され得る。
【0007】
さらに、最近では、医療統合管理システムの医療記録保安のために、生体情報で認証して医療記録を作成及び修正する技術が開発されている。つまり、電子医療記録に患者と医療人がアクセスする場合に、バイオ認識基盤の認証モデルを適用した保安技術が開発されている。
【0008】
しかしながら、個人の健康/医療情報交換が認証されたドメイン間で安全に可用情報のみを送受信するように支援することができ、電子医療記録へのアクセスを制限する保安技術及びモデルが依然として要求されている。
【0009】
また、医療記録及び諮問データが生成及び伝送される過程で、保安上の問題及びハッキングされる可能性が存在するので、医療事故が発生したときに診療記録の偽造が可能であるという問題がある。
【先行技術文献】
【特許文献】
【0010】
特許文献1:韓国登録特許公報第10-1925322号
【発明の概要】
【発明が解決しようとする課題】
【0011】
本発明は、上記問題点を解決するためのものであって、精度が向上した音声認証を通じて、指定されたユーザ(話者)のみが当該医療情報を閲覧及び修正できる音声認証システムを提供する。
【0012】
そして、透かし入れによる認証技法を通じて、音声認証データの無欠性(integrity)を確保することができる。
【0013】
本発明が解決しようとする課題は、以上にて言及した課題に制限されず、言及されていない更に他の課題は、以下の記載から当業者にとって明確に理解できるであろう。
【課題を解決するための手段】
【0014】
上記課題を達成するための本発明の一実施例による音声認証システムは、話者の音声をデジタル化した音声情報を収集する音声収集部と、収集された上記話者の音声情報を基に音声イメージを生成し、上記音声イメージを深層ニューラルネットワーク(DNN;Deep Neural Network)モデルに学習させ、上記音声イメージ又は音声変換データに対する特徴ベクトルを抽出する学習モデルサーバと、上記特徴ベクトルを基に透かし(watermark)を生成し、上記音声イメージに上記透かし及び個別情報を入れる透かしサーバと、上記特徴ベクトルを基に秘密鍵を生成し、認証結果に基づいて上記透かし及び上記個別情報を抽出するか否かを決定する認証サーバと、を含む。
【0015】
また、上記学習モデルサーバは、上記音声情報を基に所定の時間中における音声フレームを生成するフレーム生成部、上記音声フレームを基に音声周波数を分析し、上記音声周波数をイメージ化して、上記音声イメージを時系列に生成する周波数分析部、及び、上記音声イメージを上記深層ニューラルネットワークモデルに学習させて、上記特徴ベクトルを抽出するニューラルネットワーク学習部、を含み得る。
【0016】
そして、上記透かしサーバは、上記特徴ベクトルに対応する上記透かしを生成し格納する透かし生成部、生成された上記透かし及び上記個別情報を上記音声イメージのピクセル又は音声変換データに入れる透かし入れ部、及び、上記話者に対する認証結果に基づいて格納済みの上記透かし及び上記個別情報を抽出する透かし抽出部、を含み得る。
【0017】
そして、上記認証サーバは、上記特徴ベクトルを暗号化して、上記秘密鍵を生成する暗号生成部、暗号化された上記特徴ベクトルと認証対象の特徴ベクトルとの同一性を比較する認証比較部、及び、比較結果に基づいて上記話者に対する認証が成功したかどうかを判断し、上記透かし及び上記個別情報を抽出するか否かを決定する認証判断部を含み得る。
【0018】
また、本発明の一実施例による音声認証方法は、話者の音声をデジタル化した音声情報を収集する音声収集段階と、収集された上記話者の音声情報を基に音声イメージを生成し、上記音声イメージを深層ニューラルネットワーク(DNN;Deep Neural Network)モデルに学習させ、上記音声イメージに対する特徴ベクトルを抽出する学習モデル段階と、上記特徴ベクトルを暗号化して、上記特徴ベクトルに対応する秘密鍵(private key)を生成する暗号生成段階と、上記秘密鍵を基に透かし(watermark)及び個別情報を生成し格納する透かし生成段階と、生成された上記透かし及び上記個別情報を、上記音声イメージのピクセル又は音声変換データに入れる透かし入れ段階と、暗号化された上記特徴ベクトルと認証対象の特徴ベクトルとの同一性を比較する認証比較段階と、比較結果に基づいて上記話者に対する認証が成功したかどうかを判断し、上記透かし及び上記個別情報を抽出するか否かを決定する認証判断段階と、認証結果に基づいて上記特徴ベクトルを復号化して、格納済みの上記透かし及び上記個別情報を抽出する透かし抽出段階と、を含む。
【0019】
また、上記学習モデル段階は、上記音声情報を基に所定の時間中における音声フレームを生成するフレーム生成段階、上記音声フレームを基に音声周波数を分析し、上記音声周波数をイメージ化して上記音声イメージを時系列に生成する周波数分析段階、上記音声イメージを上記深層ニューラルネットワークモデルに学習させるニューラルネットワーク学習段階、及び、学習させた上記音声イメージの上記特徴ベクトルを抽出する特徴ベクトル抽出段階、を含み得る。
【0020】
本発明のその他の具体的な事項は、詳細な説明及び図面に含まれている。
【発明の効果】
【0021】
本発明によれば、保安が強化されるので、話者の音声情報を用いた、許可を受けていない者の偽造又は変調を含む閲覧ができない。
【0022】
また、深層ニューラルネットワークモデルを利用するので、話者の音声認証の精度を向上させることができる。
【図面の簡単な説明】
【0023】
図1図1は、本発明の一実施例による音声認証システムのブロック構成図である。
図2図2は、本発明の一実施例による音声認証システムの学習モデルサーバのブルロック構成図である。
図3図3は、本発明の一実施例による音声認証システムの透かしサーバのブルロック構成図である。
図4図4は、本発明の一実施例による音声認証システムの認証サーバのブロック構成図である。
図5図5は、本発明の一実施例による音声認証方法の流れを示す手順図である。
図6図6は、本発明の一実施例による音声認証方法の学習モデル段階に対する動作の流れを示す手順図である。
図7図7は、本発明の一実施例による音声認証システムの学習モデルサーバにおいて、特徴ベクトル(D-ベクトル)を抽出する一例を示す図である。
図8図8は、本発明の一実施例による音声認証システムの学習モデルサーバにおいて音声イメージを生成する一例を示す図である。
図9図9は、本発明の一実施例による音声認証システムの透かし入れ部において多次元配列に変換した音声変換データの一例を示す図である。
【発明を実施するための形態】
【0024】
以下、添付の図面を参照して、本発明の好適な実施例を詳細に説明する。本発明の利点及び特徴、並びにそれらを達成する方法は、添付の図面と共に詳細に後述している実施例を参照すれば明らかとなろう。しなし、本発明は以下で開示する実施例に限定されるものではなく、互いに異なる様々な形態で具現されるものである。但し、本実施例は本発明の開示が完全なものになるようにし、本発明の属する技術分野において通常の知識を有する者に発明の範疇を完全に知らせるために提供されるものである。本発明は請求項の範疇により定義されるだけである。明細書全体にわたって、同一の参照符号は同一の構成要素を指す。
【0025】
たとえ、第1、第2などが様々な素子、構成要素及び/又はセクションを敍述するために使用されているが、これらの素子、構成要素及び/又はセクションは、これらの用語により制限されないことは言うまでもない。これらの用語は、単に一つの素子、構成要素又はセクションを他の素子、構成要素又はセクションと区別するために使用するものである。したがって、以下で言及される第1素子、第1構成要素又は第1セクションは、本発明の技術的思想内で第2素子、第2構成要素又は第2セクションでもあり得ることは言うまでもない。
【0026】
本明細書において使用された用語は、実施例を説明するためのものであり、本発明を制限しようとするものではない。本明細書において、単数形は文句で特に断らない限り複数形をも含む。明細書において用いられる『含む(comprises)』及び/又は『からなる(made of)』と言及されている構成要素、段階、動作及び/又は素子は、1つ以上の他の構成要素、段階、動作及び/又は素子の存在あるいは追加を排除しない。
【0027】
別の定義がないと、本明細書において使用されるすべての用語(技術及び科学的用語を含む)は、本発明の属する技術分野において通常の知識を有する者にとって共通に理解できる意味として使用され得るものである。また、一般的に使用される、辞書に定義されている用語は、明白に特に定義されていない限り、理想的に又は過度に解釈されてはならない。
【0028】
このとき、明細書全体にわたって、同一の参照符号は同一の構成要素を指し、処理流れ図の図面における各構成と流れ図の各図面の組み合わせは、コンピュータプログラムの命令(instruction)により実行され得ることが理解できるであろう。これらのコンピュータプログラムの命令は、汎用コンピュータ、特殊用コンピュータ又はその他のプログラム可能なデータプロセッシング装備のプロセッサに搭載され得るので、コンピュータ又はその他のプログラム可能なデータプロセッシング装備のプロセッサを通じて実行されるそれらの命令が流れ図の構成にて説明された機能を実行する手段を生成するようになる。
【0029】
また、幾つかの代替実施例においては、構成にて言及された機能が手順から外れて発生することも可能であることに着目しなければならない。例えば、引き続いて図示されている2つの構成は、事実上、実質的に同時に実行されることも可能であり、又は、それらの構成が時々該当する機能に応じて逆順に実行されることも可能である。
【0030】
以下、本発明について、添付の図面に従ってより詳細に説明する。
【0031】
図1は、本発明の一実施例による音声認証システム1のブロック構成図である。
【0032】
図1を参照すれば、音声認証システム1は、音声収集部10、学習モデルサーバ100、透かしサーバ200、及び認証サーバ300を含む。
【0033】
具体的に、本発明による音声認証システム1は、話者の音声をデジタル化した音声情報を収集する音声収集部10、収集された上記話者の音声情報を基に音声イメージを生成し、上記音声イメージを深層ニューラルネットワーク(DNN;Deep Neural Network)モデルに学習させ、上記音声イメージ又は音声変換データに対する特徴ベクトルを抽出する学習モデルサーバ100、上記特徴ベクトルを基に透かし(watermark)を生成し、上記音声イメージに上記透かし及び個別情報を入れる透かしサーバ200、及び、上記特徴ベクトルを基に秘密鍵(private key)を生成し、認証結果に基づいて上記透かし及び上記個別情報を抽出するか否かを決定する認証サーバ300を含む。
【0034】
このとき、アナログ信号である話者の音声を大きく、標本化(sampling)、量子化(quantizing)及び符号化(encoding)などの3段階に分けられたPCM(Pulse Code Modulation)過程を介してA/D変調させることで、上記音声情報を生成することができる。
【0035】
ここで、上記個別情報は、上記特徴ベクトルに対応する医療コード、患者個人情報及び医療記録情報のうちの少なくとも1つ以上を含む医療情報であって、テキスト型であり得る。
【0036】
したがって、医療統合管理システムに本発明の実施例である音声認証システム1を適用することで、医療記録の生成及び伝送時に発生するハッキングの問題を防止することができ、医療事故が発生したときに診療記録の偽造を防止することができる。
【0037】
そして、音声収集部10は、ディスプレイモジュールを有する何れの有線・無線家電/通信端末を含み得、移動通信端末の他にコンピュータ、ノートパンコン、タブレットPCなどの情報通信機器であるか、これを含む装置であり得る。
【0038】
このとき、音声収集部10の上記ディスプレイモジュールは、音声認証結果の可否を出力することができ、液晶ディスプレイ(liquid crystal display、 LCD)、 薄膜トランジスタ液晶ディスプレイ(Thin Film Transistor-Liquid Crystal Display、 TFT LCD)、有機発光ダイオード(Organic Light-Emitting Diode、 OLED)、フレキシブルディスプレイ(Flexible Display)、3次元ディスプレイ(3D display)、電子インクディスプレイ(e-ink display)、透明ディスプレイ(TOLED、Transparent Organic Light Emitting Diode)のうちの少なくとも1つを含み得、上記ディスプレイモジュールがタッチスクリーンの場合には、音声入力と同時に各種の情報を出力することができる。
【0039】
そして、学習モデルサーバ100、透かしサーバ200及び認証サーバ300 のそれぞれは、通信ネットワークを介して接続可能であり、通信ネットワークは構内情報通信網(Local Area Network、LAN)、大都市圏通信網(Metropolitan Area Network、 MAN)、広域通信網(Wide Area Network、 WAN)、インターネット、2G、3G、4G移動通信網、ワイファイ(Wi-Fi)、ワイブロ(Wibro)などを含み得、無線ネットワークだけでなく有線ネットワークを含むことは言うまでもない。このような通信ネットワークとして、インターネットなどが挙げられる。このとき、無線ネットワークは、WLAN(Wireless LAN)(Wi-Fi)、Wibro(Wireless broadband)、Wimax(World Interoperability for Microwave Access)、HSDPA(High Speed Downlink Packet Access)などが利用され得る。
【0040】
以下では、本発明の一実施例による音声認証システム1の学習モデルサーバ100、透かしサーバ200及び認証サーバ300の具体的な構成と機能などを詳細に検討する。
【0041】
図2は、本発明の一実施例による音声認証システム1の学習モデルサーバ100のブロック構成図である。
【0042】
図2を参照すれば、学習モデルサーバ100は、上記音声情報を基に所定の時間中における音声フレームを生成するフレーム生成部110、上記音声フレームを基に音声周波数を分析し、上記音声周波数をイメージ化して、上記音声イメージを時系列に生成する周波数分析部120、及び、上記音声イメージを上記深層ニューラルネットワークモデルに学習させて、上記特徴ベクトルを抽出するニューラルネットワーク学習部130を含み得る。
【0043】
通常的な音声認識技術で0.5秒(800フレーム)~1秒(16,000フレーム)の時間中において連続した音声フレームを集めて、1つの音素を探し出す。したがって、フレーム生成部110は、デジタル化した上記音声情報を上記音声フレームで生成し、1秒当たりのサンプル数の比率を意味するサンプリングレート(Sampling Rate)に応じてフレームの個数を決定する。このとき、単位はヘルツ(Hz)であり、周波数16,000Hzを有する16,000個の音声フレームを確保することができる。
【0044】
そして、周波数分析部120は、フレーム生成部110で生成された上記音声フレームを、STFT(Short Time Fourier Transform)アルゴリズムに適用して、上記音声イメージを生成することが好ましい。
【0045】
ここで、STFTアルゴリズムは、復元しやすいアルゴリズムであって、時系列データを時間帯別周波数で分析して出力するアルゴリズムである。
【0046】
したがって、周波数分析部120は、所定の時間中における音声情報に基づいて生成された上記音声フレームを、STFTアルゴリズムに入力することで、横軸は時間軸、縦軸は周波数、各ピクセルは各周波数の強さ情報を表すイメージとして出力することができる。
【0047】
また、周波数分析部120は、STFTアルゴリズムだけでなく、Mel-Spectrogram、Mel-filterbank、MFCC(Mel-Frequency Cepstral Coefficient)の特徴抽出アルゴリズムを利用して、上記音声イメージであるスペクトログラム(Spectrogram)を生成することができる。
【0048】
そして、ニューラルネットワーク学習部130の上記深層ニューラルネットワーク(DNN)モデルは、LSTM(Long Short Term Memory)ニューラルネットワークモデルを含むことが好ましいが、これに限らず、上記特徴ベクトルはD-ベクトルであることが好ましい。
【0049】
このとき、ニューラルネットワーク学習部130は、深層ニューラルネットワーク(DNN)モデルの多くの系列のうちで、視神経構造を模した畳み込みニューラルネットワーク(CNN;Convolutional Neural Network)、現在入力信号と過去入力信号にそれぞれ異なる重みを付けることで、データ処理に特化した時間遅れニューラルネットワーク(TDNN;Time-Delay Neural Network)、時系列データの長期的な依存性問題にロバストな長短期メモリ(LSTM;Long Short-Term Memory)モデルなどを通じて学習を行うことができるが、これに限定されないことは当業者にとって自明であるといえる。
【0050】
上記深層ニューラルネットワーク(DNN)モデルは、上記音声イメージから話者音声の特性である特徴ベクトルを抽出することができる。このとき、上記音声イメージを学習させる過程で、上記深層ニューラルネットワークモデルの秘匿層(Layer)は、入力された特徴に合わせて変換することができ、出力された特徴ベクトルは、話者を識別可能に最適化して加工され得る。
【0051】
特に、深層ニューラルネットワーク(DNN)モデルは、長期的な依存性を学習できる特別な種類であるLSTMニューラルネットワークモデルであり得る。LSTMニューラルネットワークモデルは、循環ニューラルネットワーク(Recurrent Neural Network、RNN)の1種であるので、入力データの時系列的な相関関係を抽出することに主として使用される。
【0052】
また、上記特徴ベクトルであるD-ベクトルは、深層ニューラルネットワーク(DNN;Deep Neural Network)モデルから抽出された特徴ベクトルであって、特に時系列データに対する深層ニューラルネットワークモデル(DNN)の種類である循環ニューラルネットワーク(RNN)の特徴ベクトルであり、特定の発声を有する話者の特性を表現することができる。
【0053】
つまり、ニューラルネットワーク学習部130は、上記音声イメージをLSTMニューラルネットワークモデルの秘匿層に入力して、上記特徴ベクトルであるD-ベクトルを出力する。
【0054】
このとき、上記D-ベクトルは、16進数のアルファベットと数字との組み合わせの行列又は配列の形に加工されることが好ましく、ソフトウェア構築に用いられる識別子標準であるUUID(Universal Unique IDentifier;汎用一意識別子)の形に加工され得る。このとき、UUIDは、識別子間で重複しない特性を有する識別子標準であって、話者の音声識別に最適化された識別子であり得る。
【0055】
学習モデルデータベース140は、通信モジュールを通じて音声収集部10、透かしサーバ200及び認証サーバ300から受信された情報を格納することができ、指定された話者の音声情報に対応する上記音声イメージ、D-ベクトルなどを格納する論理的又は物理的な格納サーバを意味する。
【0056】
このとき、学習モデルデータベース140は、オラクル社(Oracle Corporation)のOracle DBMS、マイクロソフト社(Microsoft Corporation)のMS-SQL DBMS、サイベース社(Sybase,Inc.)のSYBASE DBMSなどの形態であり得るが、これのみに限定されないことは当業者にとって自明であるといえる。
【0057】
図3は、本発明の一実施例による音声認証システム1の透かしサーバ200のブロック構成図であり、図4は、本発明の一実施例による音声認証システム1の認証サーバ300のブロック構成図である。
【0058】
図3を参照すれば、透かしサーバ200は、上記特徴ベクトルに対応する上記秘密鍵を基に上記透かしを生成し格納する透かし生成部210、生成された上記透かし及び上記個別情報を、上記音声イメージのピクセル又は上記音声変換データに入れる透かし入れ部220、及び、上記話者に対する認証結果を基づいて格納済みの上記透かし及び上記個別情報を抽出する透かし抽出部230を含み得る。
【0059】
具体的に、透かし生成部210は、通信モジュールを通じて学習モデルサーバ100で抽出された上記特徴ベクトル、又は/及び認証サーバ300で生成された上記秘密鍵に対応する透かしパターンを生成することができ、上記特徴ベクトル、上記秘密鍵及び生成された上記透かしパターンを透かしデータベース240に格納することができる。ここで、上記秘密鍵は、学習モデルサーバ100で抽出された上記特徴ベクトルを、認証サーバ300で暗号化して生成された鍵である。
【0060】
このとき、透かしデータベース240は、オラクル社(Oracle Corporation)のOracle DBMS、マイクロソフト社(Microsoft Corporation)のMS-SQL DBMS、サイベース社(Sybase,Inc.)のSYBASE DBMSなどの形態であり得るが、これのみに限定されないことは当業者にとって自明であるといえる。
【0061】
このとき、生成された上記透かし及び上記個別情報は、暗号化アルゴリズムAES(Advanced Encryption Standard、高級暗号化標準)に適用して暗号化及び復号化を行うことで、生成することができる。AESは、敏感ではあるが秘密には分類されていない資料に対して保安を維持するため、政府機関が使用する暗号化標準対称鍵暗号化方式である。
【0062】
そして、透かし入れ部220は、上記音声イメージそれぞれのピクセルに対するRGB値を抽出し、上記RGB値と全RGB平均値との差を演算し、演算された差が閾値未満であるピクセルに上記透かし及び上記個別情報を入れることができる。
【0063】
つまり、抽出されたRGB値のうちで、全体イメージのRGB平均値と対比して相対的にその差値が少なく、色変調が少ないピクセルを選択して、上記透かし及び上記個別情報を入れることが好ましい。
【0064】
すなわち、選択されたピクセルは、上記音声イメージ識別に対する重要度の低いピクセルであって、上記ピクセルに繰り返し配置される透かしパターンを入れることができる。このとき、上記透かしパターンと共に上記個別情報をピクセルに入力するが、上記個別情報は上記特徴ベクトルに対応する医療コード、患者個人情報及び医療記録情報のうちの少なくとも1つ以上を含む医療情報であることが好ましく、テキスト型の情報であり得る。
【0065】
一方で、透かし入れ部220は、話者の音声をデジタル化した上記音声情報を音声収集部10から受信して多次元配列に変換した上記音声変換データのLSB(Least Significant Bit;最下位ビット)に、上記透かし及び上記個別情報を入れることができる。
【0066】
このとき、上記音声変換データは、上記音声情報を可変する特定の多次元に配列した変換値であって、上記変換値のうちからLSBを選択して上記透かし及び上記個別情報を入れることが好ましいが、上記変換値のうちからMSB(Most Significant Bit;最上位ビット)を選択して上記透かし及び上記個別情報を入れることもできる。
【0067】
このとき、透かし入れ部220は、周波数係数を変化させる方法として、DFT(Discrete Fourier Transform)、DCT(Discrete Cosine Transform)、DWT(Discrete Wavelet Transform)などの変換方法を利用して透かしを入れることができる。
【0068】
このような方式は、透かしを入れて伝送するか、又は格納するために圧縮するとき、透かし入りデータが壊れないようにし、伝送中に生じられるノイズや種々の形態の変形及び攻撃にもデータ抽出を可能にする。
【0069】
すなわち、上記音声イメージそれぞれのピクセルだけでなく、上記音声情報に対する上記音声変換データに、上記透かし及び上記個別情報を入れることで、話者の実際音声である原本音声データの偽造及び変調に対してロバスト性(Robustness)を向上させることができる。
【0070】
図4を参照すれば、認証サーバ300は、上記特徴ベクトルを暗号化して上記秘密鍵を生成する暗号生成部310、暗号化された上記特徴ベクトルと認証対象の特徴ベクトルとの同一性を比較する認証比較部320、及び、比較結果に基づいて上記話者に対する認証が成功したかどうかを判断し、上記透かし及び上記個別情報を抽出するか否かを決定する認証判断部330を含み得る。
【0071】
暗号生成部310は、学習モデルサーバ100から受信されたD-ベクトル(特徴ベクトル)を基に暗号化を行い、これに対応する秘密鍵を生成するために変換アルゴリズムを使用することができる。
【0072】
これを医療統合管理システムに適用すると、上記秘密鍵は患者又は看護師、医者の音声で暗号化された鍵であり得る。
【0073】
また、暗号生成部310は、生成された上記秘密鍵を透かしサーバ200の透かし生成部210に送信して、上記秘密鍵を基にする透かしを生成するようにする。
【0074】
例えば、音声認証システム1に登録されていない外部人が、登録された話者の部分音声を習得し、これを通じて上記部分音声情報に対応する情報の閲覧及び修正を試みる場合に、暗号生成部310で習得された上記部分音声が対称鍵アルゴリズムにより復号化を行うことが不可能であるため、パリティビット(parity bit)を生成することができない。
【0075】
すなわち、上記秘密鍵が生成され得ないため、透かし生成部210で上記透かしが生成されずに壊れが発生するので、これに基づいて外部人接近警告を出力することができる。
【0076】
そして、認証比較部320は、上記特徴ベクトルを編集距離(Edit Distance)アルゴリズムに適用して、同一性を比較することができる。ここで、編集距離アルゴリズムは、2文字列の類似度を演算するアルゴリズムであって、類似度を判断する基準は、文字列比較時の挿入/削除/変更を行った回数であるので、編集距離アルゴリズムの結果値は、収集された2つ以上の音声情報に対応する特徴ベクトル間の行列又は配列の類似度であり得る。
【0077】
そして、認証判断部330は、編集距離アルゴリズムの結果により、上記特徴ベクトルと認証対象の特徴ベクトルとが同一であると判断されれば、認証が成功したものと判断され得る。反面に、上記特徴ベクトルと認証対象の特徴ベクトルとが同一ではないと判断されれば、認証が失敗したものと判断され得る。
【0078】
したがって、認証判断部330は、認証が成功した場合には、上記音声情報及び抽出された上記個別情報に対する閲覧及び修正権限を付与することができ、認証が失敗した場合には、情報偽造に対する警告信号を出力することができる。
【0079】
前述のとおり、本発明は精度が向上された音声認証を通じて、指定されたユーザ(話者)のみが当該医療情報を閲覧及び修正できる音声認証システム1を提供することができ、透かし入れによる認証技法を通じて、音声認証データの無欠性(integrity)を確保することができる。
【0080】
図5は、本発明の一実施例による音声認証方法の流れを示す手順図である。
【0081】
図5を参照すれば、本発明による音声認証方法は、話者の音声をデジタル化した音声情報を収集する音声収集段階S500、収集された上記話者の音声情報を基に音声イメージを生成し、上記音声イメージを深層ニューラルネットワークモデルに学習させ、上記音声イメージに対する特徴ベクトルを抽出する学習モデル段階S510、上記特徴ベクトルを暗号化して、上記特徴ベクトルに対応する秘密鍵(private key)を生成する暗号生成段階S520、上記秘密鍵を基に透かし(watermark)及び個別情報を生成し格納する透かし生成段階530、生成された上記透かし及び上記個別情報を上記音声イメージのピクセル又は音声変換データに入れる透かし入れ段階S540、暗号化された上記特徴ベクトルと認証対象の特徴ベクトルとの同一性を比較する認証比較段階S550、比較結果に基づいて上記話者に対する認証が成功したかどうかを判断し、上記透かし及び上記個別情報を抽出するか否かを決定する認証判断段階S560、及び、認証結果に基づいて格納済みの上記透かし及び上記個別情報を抽出する透かし抽出段階S570を含み得る。
【0082】
そして、上記音声認証方法は、認証が成功した場合には、上記音声情報及び抽出された上記個別情報に対する閲覧及び修正権限を付与する権限付与段階S580、及び、認証が失敗した場合には、情報偽造に対する警告信号を出力する偽造警告段階S590をさらに含み得る。
【0083】
具体的に、音声認証システム1に登録されたユーザがID及びPW(PassWord)を入力すると共に、音声を音声収集部10を通じて入力すると(S500)、音声収集部10で収集した上記ユーザの音声情報を基に、音声イメージであるスペクトログラムを生成し、上記スペクトログラムの特徴ベクトルであるD-ベクトルを抽出する(S510)。
【0084】
そして、認証サーバ300の暗号生成部310で、上記ユーザのD-ベクトルを対称鍵アルゴリズムを通じて暗号化して、秘密鍵を生成し(S520)、透かしサーバ200の透かし生成部210で、上記秘密鍵を基にする透かしを生成する(S530)。透かしを生成すると同時に、上記秘密鍵を復号化して、ID及びPWの認証が成功したか否かを確認する。このとき、認証が成功したならば、上記ユーザが音声認証システム1にアクセスすることを許容する。
【0085】
そして、透かしサーバ200の透かし入れ部220で、上記スペクトログラムのピクセルに上記透かし及び上記個別情報を入れる(S540)が、上記ピクセルはLSB(Least Significant Bit;最下位ビット)である。
【0086】
又は、透かし入れ部220で、話者の音声をデジタル化した上記音声情報を音声収集部10から受信して多次元配列に変換した上記音声変換データのLSB(Least Significant Bit;最下位ビット)に、上記透かし及び上記個別情報を入れる(S540)。
【0087】
そして、認証サーバ300の認証比較部320で、音声認証システム1に格納済みのD-ベクトルと、上記ユーザの音声から抽出されたD-ベクトルとが同一であるかを比較する(S550)。
【0088】
このとき、認証比較部320は、編集距離アルゴリズムを利用して、D-ベクトル間の類似度を算出して、同一であるか否かを比較することができる。
【0089】
このとき、認証サーバ300の認証判断部330で、上記D-ベクトル間が同一であったら「認証成功」と判断し、これに対し、上記D-ベクトル間が同一でなかったら「認証失敗」と判断する(S560)。
【0090】
「認証成功」の場合に、透かしサーバ200の透かし抽出部230で、上記スペクトログラムの透かしを抽出し(S570)、抽出した上記透かしを復号化して、音声認証システム1に格納済みの上記ユーザに対する情報の閲覧及び修正権限を付与する(S580)。
【0091】
それに対し、「認証失敗」の場合には、上記ユーザのアクセスを拒否し、格納済み情報の偽造危険警告を出力することができる(S590)。
【0092】
図6は、本発明の一実施例による音声認証方法の学習モデル段階に対する動作の流れを示す手順図であり、図7は、本発明の一実施例による音声認証システム1の学習モデルサーバ100で、特徴ベクトル(D-ベクトル)を抽出する一例を示す図である。
【0093】
図6を参照すれば、学習モデル段階S510は、上記音声情報を基に所定の時間中における音声フレームを生成するフレーム生成段階(S511)、上記音声フレームを基に音声周波数を分析し、上記音声周波数をイメージ化して、上記音声イメージを時系列に生成する周波数分析段階(S512)、上記音声イメージを上記深層ニューラルネットワークモデルに学習させるニューラルネットワーク学習段階(S513)、及び、学習させた上記音声イメージの上記特徴ベクトルを抽出する特徴ベクトル抽出段階(S514)を含み得る。
【0094】
学習モデル段階S510の具体的な内容は、図7を参照して説明する。
【0095】
図7に示されたように、入力フレーム(Input Frame)である音声フレームを Mel-Spectrogramに適用して、音声イメージであるスペクトログラムを生成する。
【0096】
そして、深層ニューラルネットワーク(DNN)モデルであるLSTMモデルの3つの秘匿層(Layer)に、上記スペクトログラムを学習させる。
【0097】
このとき、LSTMモデルの秘匿層は、最初時間帯に対する反映が0に収束されることを防ぐため、過去の記憶を保存するものの、不要となった記憶を削除する機能をも有する。
【0098】
そして、学習結果である出力ベクトル(Ouput Vector)、即ち特徴ベクトルであるD-ベクトルを抽出する。
【0099】
つまり、上記音声フレームを変換して上記スペクトログラムを生成し、上記スペクトログラムをLSTMニューラルネットワークモデルの秘匿層に入力してD-ベクトルを出力する。
【0100】
図8は、本発明の一実施例による音声認証システム1の学習モデルサーバ100で音声イメージを生成する一例である。
【0101】
図8の(a)は、音声フレームを示す図であり、(b)はスペクトログラムである音声イメージを示す図である。
【0102】
つまり、図8の(a)のように、デジタル化した音声情報を上記音声フレームで生成し、1秒当たりのサンプル数の比率を意味するサンプリングレート(Sampling Rate)に応じてフレームの個数を決定する。
【0103】
そして、図8の(b)のように、上記音声フレームをSTFT(Short Time Fourier Transform)アルゴリズムに適用して、上記音声イメージを生成する。
【0104】
すなわち、所定の時間中における音声情報に基づいて生成された上記音声フレームを、STFTアルゴリズムに入力することで、横軸は時間軸、縦軸は周波数、各ピクセルは各周波数の強さ情報を表す(b)のような音声イメージとして出力することができる。
【0105】
また、STFTアルゴリズムだけでなく、Mel-Spectrogram、Mel-filterbank、MFCC(Mel-Frequency Cepstral Coefficient)の特徴抽出アルゴリズムを利用して、上記音声イメージであるスペクトログラムを生成することができる。
【0106】
すなわち、(b)のイメージでRGB値が低く、色変調が少ないピクセルに、すなわち、識別に対する重要度の低いピクセルに、医療情報である個別情報及び透かしを入れることができる。
【0107】
図9は、本発明の一実施例による音声認証システム1の透かし入れ部220で多次元配列に変換した音声変換データの一例を示す図である。
【0108】
図9に示されたように、透かし入れ部220は、話者の音声をデジタル化した上記音声情報を、多次元配列に変換することができる。
【0109】
このとき、上記音声変換データは、上記音声情報を可変する特定の多次元であるM×N×Oに配列した変換値であって、上記変換値のうちからLSBを選択して、上記透かし及び上記個別情報を入れることができる。また、上記変換値のうちからMSB(Most Significant Bit;最上位ビット)を選択して、上記透かし及び上記個別情報を入れることもできる。
【0110】
前述のとおり、本発明である透かしを入れた音声認証システム及びこれに対する方法によれば、保安が強化されるので、話者の音声情報を利用した許可を受けていない者の偽造又は変調を含む閲覧が不可能である。また、深層ニューラルネットワークモデルを利用するので、話者の音声認証の精度を向上させることができる。
【0111】
一方で、本発明の一実施例による音声認証システムは、ソフトウェア及びハードウェアにより1つのモジュールに具現可能であり、前述した本発明の実施例は、コンピュータにおいて実行され得るプログラムに作成可能であり、コンピュータ読み取り可能な記録媒体を利用して上記プログラムを動作させる汎用コンピュータで具現されることができる。上記コンピュータ読み取り可能な記録媒体は、ロム(ROM)、フロッピーディスク、ハードディスクなどの磁気的媒体、CD、DVDなどの光学的媒体、及び、インターネットを介した伝送のようなキャリアウエーブのような形態で具現される。また、コンピュータ読み取り可能な記録媒体は、ネットワークを介して連結されたコンピュータシステムに分散され、分散方式によりコンピュータ読み取り可能なコードが格納され実行されることができる。
【0112】
そして、本発明の実施例において使用される構成要素又は「~モジュール」は、メモリ上の所定領域で実行されるタスク、クラス、サブルーチン、プロセス、オブジェクト、実行スレッド、プログラムのようなソフトウェア(software)や、FPGA(Field-Programmable Gate Array)やASIC(Application-Specific Integrated Circuit)のようなハードウェア(hardware)で具現されることができ、また、上記ソフトウェア及びハードウェアの組み合わせからなることもできる。上記構成要素又は「~モジュール」は、コンピュータ読み取り可能な格納媒体に含まれていることもでき、複数のコンピュータにその一部が分散して分布されることもできる。
【0113】
以上、添付の図面を参照して本発明の実施例を説明してきたが、本発明の属する技術分野において通常の知識を有する者であれば、本発明がその技術的思想や必須的な特徴を変更することなく他の具体的な形態で実施され得ることが理解できるであろう。よって、以上で記述した実施例は、全ての面で例示的なものであり、限定的ではないものであると理解すべきである。
【符号の説明】
【0114】
1:音声認証システム
10:音声収集部
100:学習モデルサーバ
110:フレーム生成部
120:周波数分析部
130:ニューラルネットワーク学習部
140:学習モデルデータベース
200:透かしサーバ
210:透かし生成部
220:透かし入れ部
230:透かし抽出部
240:透かしデータベース
300:認証サーバ
310:暗号生成部
320:認証比較部
330:認証判断部
図1
図2
図3
図4
図5
図6
図7
図8
図9