IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エーアイマティクス カンパニー リミテッドの特許一覧

特表2024-526696音声個人情報保護技術を利用した学習データベース構築方法及びシステム
<>
  • 特表-音声個人情報保護技術を利用した学習データベース構築方法及びシステム 図1
  • 特表-音声個人情報保護技術を利用した学習データベース構築方法及びシステム 図2
  • 特表-音声個人情報保護技術を利用した学習データベース構築方法及びシステム 図3
  • 特表-音声個人情報保護技術を利用した学習データベース構築方法及びシステム 図4
  • 特表-音声個人情報保護技術を利用した学習データベース構築方法及びシステム 図5
  • 特表-音声個人情報保護技術を利用した学習データベース構築方法及びシステム 図6
  • 特表-音声個人情報保護技術を利用した学習データベース構築方法及びシステム 図7
  • 特表-音声個人情報保護技術を利用した学習データベース構築方法及びシステム 図8
  • 特表-音声個人情報保護技術を利用した学習データベース構築方法及びシステム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-19
(54)【発明の名称】音声個人情報保護技術を利用した学習データベース構築方法及びシステム
(51)【国際特許分類】
   G10L 15/22 20060101AFI20240711BHJP
   G06N 20/00 20190101ALI20240711BHJP
   G10L 25/30 20130101ALI20240711BHJP
   G10L 21/0272 20130101ALI20240711BHJP
   G10L 15/16 20060101ALI20240711BHJP
【FI】
G10L15/22 453
G06N20/00
G10L25/30
G10L21/0272 100Z
G10L15/16
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024501205
(86)(22)【出願日】2022-06-27
(85)【翻訳文提出日】2024-01-09
(86)【国際出願番号】 KR2022009153
(87)【国際公開番号】W WO2023282520
(87)【国際公開日】2023-01-12
(31)【優先権主張番号】10-2021-0090494
(32)【優先日】2021-07-09
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
(71)【出願人】
【識別番号】524011498
【氏名又は名称】エーアイマティクス カンパニー リミテッド
(74)【代理人】
【識別番号】110000051
【氏名又は名称】弁理士法人共生国際特許事務所
(72)【発明者】
【氏名】チェ,ジョン フン
(57)【要約】
【課題】機械学習のための学習データとして個人情報の保護される音情報が含まれたデータを確保することができる音声個人情報保護技術を利用した学習データベース構築方法及びシステムを提供する。
【解決手段】本発明は、音声個人情報保護技術を利用した学習データベース構築方法及びシステムに係り、前記方法は、音データを含む映像データを受信するステップと、映像データから音データを分離するステップと、音データから背景音データを抽出するステップと、音データの除去された映像データ及び背景音データを学習データとして格納するステップと、を含む。よって、本発明は、機械学習のための学習データとして個人情報の保護された音情報が含まれたデータを確保することができる。
【選択図】図3

【特許請求の範囲】
【請求項1】
音データを含む映像データを受信するステップと、
前記映像データから前記音データを分離するステップと、
前記音データから背景音データを抽出するステップと、
前記音データの除去された映像データ及び前記背景音データを学習データとして格納するステップと、を含むことを特徴とする音声個人情報保護技術を利用した学習データベース構築方法。
【請求項2】
前記音データを分離するステップは、
前記音データに対して複数の前処理方法のうち、少なくとも一つを適用するステップを含むことを特徴とする請求項1に記載の音声個人情報保護技術を利用した学習データベース構築方法。
【請求項3】
前記背景音データを抽出するステップは、
深層神経網を含む機械学習基盤のネットワークモデルを定義するステップと、
前記音データを入力として受信して音声データを出力として生成する第1ネットワークモデルを構築するステップと、
前記音データを入力として受信して前記背景音データを出力として生成する第2ネットワークモデルを構築するステップと、
前記第1及び第2ネットワークモデルに基づいて、前記音データから前記音声データ及び前記背景音データを各々分離するステップと、を含むことを特徴とする請求項1に記載の音声個人情報保護技術を利用した学習データベース構築方法。
【請求項4】
前記背景音データを抽出するステップは、
前記音声データを入力として受信して音声特徴ベクトルを出力として生成する第3ネットワークモデルを構築するステップと、
前記第3ネットワークモデルに基づいて、前記音声データを非可逆的符号化(irreversible encoding)するステップと、
前記非可逆的符号化で生成された前記音声特徴ベクトルを前記学習データとして格納するステップと、を含むことを特徴とする請求項3に記載の音声個人情報保護技術を利用した学習データベース構築方法。
【請求項5】
前記背景音データを抽出するステップは、
前記音声データを入力として受信してテキストデータを出力として生成する第4ネットワークモデルを構築するステップと、
前記第4ネットワークモデルに基づいて、前記音声データから前記テキストデータを抽出するステップと、を含むことを特徴とする請求項3に記載の音声個人情報保護技術を利用した学習データベース構築方法。
【請求項6】
前記背景音データを抽出するステップは、
前記テキストデータから個人情報を検出するステップと、
前記テキストデータから前記個人情報を匿名情報に変換するステップと、
前記匿名情報を含むテキストデータを前記学習データとして格納するステップと、を含むことを特徴とする請求項5に記載の音声個人情報保護技術を利用した学習データベース構築方法。
【請求項7】
前記匿名情報に変換するステップは、
機械学習基盤の変換モデルに基づいて、前記個人情報を上位クラス名で代替するステップを含むことを特徴とする請求項6に記載の音声個人情報保護技術を利用した学習データベース構築方法。
【請求項8】
音データを含む映像データを受信する映像受信部と、前記映像データから前記音データを分離する音抽出部と、
前記音データから背景音データを抽出する背景音分離部と、
前記音データの除去された映像データ及び前記背景音データを学習データとして格納する学習データ格納部と、を含むことを特徴とする音声個人情報保護技術を利用した学習データベース構築システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習のための学習データ生成技術に係り、より詳細には、機械学習のための学習データとして、個人情報の保護される音情報が含まれたデータを確保することができる音声個人情報保護技術を利用した学習データベース構築方法及びシステムに関する。
【背景技術】
【0002】
機械学習の学習方法は、大きく指導学習、非指導学習、強化学習の3つの方法に分類される。指導学習は、正答データ(入力データとそれに対応するラベル一対)が既に存在して、学習モデルに正答を知らせて学習モデルの予測値と正答値との誤差が最小になるように学習する方式である。非指導学習は、正答データが存在しなく(入力データのみ存在)データ間の類似性と隠された特性を分析して分類する学習方式である。強化学習は、正答データが存在しない環境でのモデルの決定に賞と罰を付与する過程を通じて学習する方式である。
【0003】
指導学習は、明確な正答データが既に存在するから、非指導学習や強化学習に比べて学習しやすく安定的かつ性能評価も容易であるという長所を有する。しかしながら、学習データを準備する過程が指導学習での大部分を占める程、多くの時間と人的資源が必要である。また、学習データの量と質は、学習された機械学習モデルの認識性能に大きな影響をおよぼすので、指導学習での核心は、学習データの生成にあると言える。
【0004】
一方、映像の音には、活用可能な多くの情報が含まれているにもかかわらず、個人プライバシーを侵害する可能性が高いという点で、映像情報に基づいた学習データを生成するにおいて多くの注意が必要である。すなわち、音声変調を適用するとしても、音声の抑揚とトーンで個人識別が可能であるから、音声を含んだ音情報を活用するためには、個人特定が不可能となるよう音声情報を処理しなければならない。
【0005】
特に、自動車の運転状況認知及び判断のためには、認識センサが必須で、このような認識センサには、一般にカメラ、ライダー、レーダーなどを使用することができる。機械学習では、このような認識センサで取得されたデータを活用して、機械学習モデルを学習させることができる。センサで取得されたデータに含まれた情報量が多いほど、機械学習モデルの性能を向上させるのに有利であるから、カメラ、ライダー、レーダーとは関係のない車両の内/外部の音情報を機械学習データとして追加することによって、機械学習モデルの性能向上を期待することができる。
【0006】
しかしながら、音に含まれる音声情報は、個人を特定可能なようにする個人情報が含まれる敏感な情報なので、これをユーザの同意無しで格納及び活用することは好ましくない。個人のプライバシーを保護するために使用される方法に、音声変調のような方法があるが、音声変調を採用しても音声の抑揚とトーンで個人をある程度識別可能なので、音声を含んだ音情報を活用するためには、個人特定が不可能となるよう音声情報を処理する必要がある。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】韓国登録特許第10-1581641号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明の一実施形態は、機械学習のための学習データとして個人情報の保護される音情報が含まれたデータを確保することができる音声個人情報保護技術を利用した学習データベース構築方法及びシステムを提供する。
【0009】
本発明の一実施形態は、音データの背景音と音声を分離し音声だけに非可逆的符号化を適用して暗号化し、音声に対応するテキストに変換した後に個人情報を除去できる、音声個人情報保護技術を利用した学習データベース構築方法及びシステムを提供する。
【課題を解決するための手段】
【0010】
実施形態のうち、音声個人情報保護技術を利用した学習データベース構築方法は、音データを含む映像データを受信するステップと、前記映像データから前記音データを分離するステップと、前記音データから背景音データを抽出するステップと、前記音データの除去された映像データ及び前記背景音データを学習データとして格納するステップと、を含む。
【0011】
前記音データを分離するステップは、前記音データに対して複数の前処理方法のうち、少なくとも一つを適用するステップを含むことができる。
【0012】
前記背景音データを抽出するステップは、深層神経網を含む機械学習基盤のネットワークモデルを定義するステップと、前記音データを入力として受信して音声データを出力として生成する第1ネットワークモデルを構築するステップと、前記音データを入力として受信して前記背景音データを出力として生成する第2ネットワークモデルを構築するステップと、前記第1及び第2ネットワークモデルに基づいて、前記音データから前記音声データ及び前記背景音データを各々分離するステップと、を含むことができる。
【0013】
前記背景音データを抽出するステップは、前記音声データを入力として受信して音声特徴ベクトルを出力として生成する第3ネットワークモデルを構築するステップと、前記第3ネットワークモデルに基づいて、前記音声データを非可逆的符号化(irreversible encoding)するステップと、前記非可逆的符号化で生成された前記音声特徴ベクトルを前記学習データとして格納するステップと、を含むことができる。
【0014】
前記背景音データを抽出するステップは、前記音声データを入力として受信してテキストデータを出力として生成する第4ネットワークモデルを構築するステップと、前記第4ネットワークモデルに基づいて、前記音声データから前記テキストデータを抽出するステップと、を含むことができる。
【0015】
前記背景音データを抽出するステップは、前記テキストデータから個人情報を検出するステップと、前記テキストデータから前記個人情報を匿名情報に変換するステップと、前記匿名情報を含むテキストデータを前記学習データとして格納するステップと、を含むことができる。
【0016】
前記匿名情報に変換するステップは、機械学習基盤の変換モデルに基づいて、前記個人情報を上位クラス名で代替するステップを含むことができる。
【0017】
実施形態のうち、音声個人情報保護技術を利用した学習データベース構築システムは、音データを含む映像データを受信する映像受信部と、前記映像データから前記音データを分離する音抽出部と、前記音データから背景音データを抽出する背景音分離部と、前記音データの除去された映像データ及び前記背景音データを学習データとして格納する学習データ格納部と、を含む。
【発明の効果】
【0018】
開示する技術は、次の効果を有することができる。ただし、特定の実施形態が次の効果を全て含むべきだとか、または次の効果のみを含むべきだという意味ではないので、開示する技術の権利範囲は、これによって制限されるものと理解されてはならない。
【0019】
本発明の一実施形態による音声個人情報保護技術を利用した学習データベース構築方法及びシステムは、機械学習のための学習データとして個人情報の保護される音情報の含まれたデータを学習データとして確保することができる。
【0020】
本発明の一実施形態による音声個人情報保護技術を利用した学習データベース構築方法及びシステムは、音データの背景音と音声を分離し音声だけに非可逆的符号化を適用して暗号化し、音声に対応するテキストに変換した後に個人情報を除去できる。
【図面の簡単な説明】
【0021】
図1】本発明による学習データベース構築システムを説明する図である。
図2図1の学習データベース構築装置のシステム構成を説明する図である。
図3図1の学習データベース構築装置の機能的構成を説明する図である。
図4】本発明による音声個人情報保護技術を利用した学習データベース構築方法を説明するフローチャートである。
図5】本発明による背景音と音声分離方法の一実施形態を説明する図である。
図6】本発明による特徴ベクトル計算方法の一実施形態と非可逆的特性を説明する図である。
図7】本発明による特徴ベクトル計算方法の一実施形態と非可逆的特性を説明する図である。
図8】本発明によるテキスト変換方法の一実施形態を説明する図である。
図9】本発明の全体的な概念を説明する図である。
【発明を実施するための形態】
【0022】
本発明に関する説明は、構造的ないし機能的説明のための実施形態に過ぎないから、本発明の権利範囲は、本文に説明された実施形態によって制限されるものと解析されてはならない。すなわち、実施形態は、多様な変更が可能で様々な形態を有することができるので、本発明の権利範囲は、技術的思想を実現できる均等物を含むものと理解されなければならない。また、本発明において提示された目的または効果は、特定実施形態がこれを全て含むべきだとか、またはそういう効果だけを含むべきだという意味ではないので、本発明の権利範囲は、これによって制限されるものと理解されてはならない。
【0023】
一方、本出願において述べられる用語の意味は、次のように理解されなければならない。
「第1」、「第2」などの用語は、一つの構成要素を他の構成要素から区別するためのもので、これらの用語により権利範囲が限定されてはならない。例えば、第1構成要素は、第2構成要素と呼ばれても良く、同様に第2構成要素も第1構成要素と呼ばれても良い。
【0024】
ある構成要素が他の構成要素に「接続して」いると言及されたときには、その他の構成要素に直接的に接続しても良いが、中間に他の構成要素が存在しても良いと理解されなければならない。これに対し、ある構成要素が他の構成要素に「直接接続して」いると言及されたときには、中間に他の構成要素が存在しないと理解されなければならない。一方、構成要素間の関係を説明する他の表現、すなわち「~間に」と「直に~間に」、または「~に隣接する」と「~に直接隣接する」なども同様に解析されなければならない。
【0025】
単数の表現は、文脈上明白に異なって意味しない限り、複数の表現を含むと理解されなければならず、「含む」または「有する」などの用語は、実施された特徴、数字、ステップ、動作、構成要素、部分品またはこれらを組み合わせたものが存在することを指定するためであり、一つまたはそれ以上の他の特徴や数字、ステップ、動作、構成要素、部分品またはこれらを組み合わせたものの存在または付加可能性を予め排除しないと理解されなければならない。
【0026】
各ステップにおいて識別符号(例えば、a、b、cなど)は、説明の便宜のために使用されるもので、識別符号は、各ステップの順序を説明するものでなく、各ステップは、文脈上明白に特定順序を記載しない限り、明記された順序と異なって起きることができる。すなわち、各ステップは、明記された順序と同一に起きることもでき、実質的に同時に行われても良く、反対の順に行われても良い。
【0027】
本発明は、コンピュータで読み取ることのできる記録媒体にコンピュータで読み取ることができるコードにより具現化されることができ、コンピュータで読み取ることのできる記録媒体は、コンピュータシステムによって読み取られるデータが格納されるすべての種類の記録装置を含む。コンピュータで読み取ることができる記録媒体の例には、ROM、RAM、CD-ROM、磁気テープ、フロッピーディスク、光データ格納装置などがある。また、コンピュータで読み取ることができる記録媒体は、ネットワークで接続したコンピュータシステムに分散されて、分散方式でコンピュータで読み取ることができるコードが格納され実行されることができる。
【0028】
ここで使用されるすべての用語は、異なって定義されない限り、本発明が属する分野における通常の知識を有した者により一般に理解されるものと同じ意味を有する。一般に使用される予め定義されている用語は、関連技術の文脈上有する意味と一致するものと解析されなければならず、本出願において明白に定義しない限り、理想的であるか、または過度に形式的な意味を有するものと解析されてはならない。
【0029】
図1は、本発明による学習データベース構築システムを説明する図である。
図1に示すように、学習データベース構築システム100は、ユーザ端末110、学習データベース構築装置130及びデータベース150を含んで具現化されることができる。
【0030】
ユーザ端末110は、ユーザにより運用される端末装置に該当できる。本発明の実施形態においてユーザは、一つ以上のユーザとして理解されることができ、複数のユーザは、一つ以上のユーザグループに区分されることができる。一つ以上のユーザの各々は、一つ以上のユーザ端末110に対応できる。すなわち、第1ユーザは第1ユーザ端末、第2ユーザは第2ユーザ端末、…、第n(前記nは、自然数)ユーザは第nユーザ端末に対応できる。
【0031】
また、ユーザ端末110は、学習データベース構築システム100を構成する一つの装置であって、学習データの生成、修正及び削除を含むユーザ行為を行うことができるコンピュータ装置に該当できる。例えば、ユーザ端末110は、学習データベース構築装置130に接続して動作可能なスマートフォン、ノート型パソコン、またはコンピュータにより具現化されることができ、必ずこれに限定されず、タブレットPCなど含んで、多様なデバイスによっても具現化されることができる。
【0032】
また、ユーザ端末110は、学習データベース構築装置130と連動するための専用プログラム、またはアプリケーションをインストールして実行できる。例えば、ユーザ端末110は、学習データ生成のために学習データベース構築装置130に所定の映像データを送信でき、学習データベース構築装置130により構築された学習データベースにアクセスできる。該当過程は、専用プログラムまたはアプリケーションを通じて提供されるインターフェースを通じて行われることができる。
【0033】
一方、ユーザ端末110は、学習データベース構築装置130とネットワークを通じて接続されることができ、複数のユーザ端末110は、学習データベース構築装置130と同時に接続されることもできる。
【0034】
学習データベース構築装置130は、本発明による学習データベース構築方法を行うコンピュータ、またはプログラムに該当するサーバにより具現化されることができる。また、学習データベース構築装置130は、ユーザ端末110と有線ネットワーク、またはブルートゥース(登録商標)、Wi-Fi(登録商標)、LTE(登録商標)などのような無線ネットワークで接続されることができ、ネットワークを通じてユーザ端末110とデータを送・受信できる。
【0035】
また、学習データベース構築装置130は、学習データを収集するか、または学習データを提供するために、独立した外部システム(図1に図示せず)に接続されて動作するように具現化されることができる。一実施形態において、学習データベース構築装置130は、クラウドサーバにより具現化されることができ、クラウドサービスを通じて学習データベースの構築と活用に関するユーザの多様なニーズを充足させることができる。
【0036】
データベース150は、学習データベース構築装置130の動作過程において必要な多様な情報を格納する格納装置に該当できる。例えば、データベース150は、多様な出処から収集した映像データを格納するか、または機械学習モデル構築のための学習アルゴリズムと学習モデルに関する情報を格納することができ、必ずこれに限定されず、学習データベース構築装置130が本発明による音声個人情報保護技術を利用した学習データベース構築方法を行う過程で多様な形態で収集または加工された情報を格納することができる。
【0037】
また、図1において、データベース150は、学習データベース構築装置130と独立的な装置として示されているが、必ずこれに限定されるものではなく、論理的な格納装置として学習データベース構築装置130に含まれて具現化されうることはもちろんである。
【0038】
図2は、図1の学習データベース構築装置130のシステム構成を説明する図である。
図2に示すように、学習データベース構築装置130は、プロセッサ210、メモリ230、ユーザ入出力部250及びネットワーク入出力部270を含むことができる。
【0039】
プロセッサ210は、本発明の実施形態による学習データベース構築プロシージャを実行でき、このような過程で読まれたり作成されるメモリ230を管理でき、メモリ230にある揮発性メモリと非揮発性メモリ間の同期化時間をスケジュールできる。プロセッサ210は、学習データベース構築装置130の動作全般を制御でき、メモリ230、ユーザ入出力部250及びネットワーク入出力部270に電気的に接続されて、これらの間のデータ流れを制御できる。プロセッサ210は、学習データベース構築装置130のCPU(Central Processing Unit)により具現化されることができる。
【0040】
メモリ230は、SSD(Solid State Disk)またはHDD(Hard Disk Drive)のような非揮発性メモリにより具現化されて、学習データベース構築装置130に必要なデータ全般を格納するのに使用される補助記憶装置を含むことができ、RAM(Random Access Memory)のような揮発性メモリにより具現化された主記憶装置を含むことができる。また、メモリ230は、電気的に接続したプロセッサ210により実行されることによって、本発明による学習データベース構築方法を実行する命令の集合を格納することができる。
【0041】
ユーザ入出力部250は、ユーザ入力を受信するための環境及びユーザに特定情報を出力するための環境を含み、例えば、タッチパッド、タッチスクリーン、画像キーボード、またはポインティング装置のようなアダプタを含む入力装置、及びモニターまたはタッチスクリーンのようなアダプタを含む出力装置を含むことができる。一実施形態において、ユーザ入出力部250は、遠隔接続により接続されるコンピュータ装置に該当でき、その場合、学習データベース構築装置130は、独立的なサーバとして行われることができる。
【0042】
ネットワーク入出力部270は、ネットワークを通じてユーザ端末110と接続するための通信環境を提供し、例えば、LAN(Local Area Network)、MAN(Metropolitan Area Network)、WAN(Wide Area Network)及びVAN(Value Added Network)などの通信のためのアダプタを含むことができる。また、ネットワーク入出力部270は、学習データの無線送信のためにWi-
Fi、ブルートゥース(登録商標)などの近距離通信機能または4G以上の無線通信機能を提供するように具現化されることができる。
【0043】
図3は、図1の学習データベース構築装置の機能的構成を説明する図である。
図3に示すように、学習データベース構築装置130は、映像受信部310、音抽出部330、背景音分離部350、学習データ格納部370及び制御部390を含むことができる。
【0044】
映像受信部310は、音データを含む映像データを受信することができる。例えば、映像データは、車両の走行中にブラックボックスを介して撮影されたブラックボックス映像、カメラ、ライダー及びレーダーなどの認識センサを介して撮影された映像、航空映像、医療映像などを含むことができる。映像に含まれる音データには、背景音、ホワイトノイズ、音声などを含むことができる。映像受信部310は、ネットワークを通じて映像データを受信することができ、ユーザ端末110により送信された映像を受信するか、またはデータベース150に格納された映像を検索して受信することもできる。
【0045】
また、映像受信部310は、音データと映像データを各々独立的に受信することもできる。すなわち、映像受信部310は、音データを含まない映像データとこれに対応する音データを順次に受信するか、または一対の映像データと音データを受信することができる。
【0046】
一実施形態において、映像受信部310は、受信した映像データに対する前処理動作を行うことができる。例えば、映像受信部310は、映像データを所定の区間長さに分割するか、または所定の解像度に変換する等の前処理動作を行うことができる。また、映像受信部310は、原本映像と前処理された映像とを統合して、単一映像を生成することもできる。映像受信部310は、多様な前処理動作を介して以後ステップにおいて使用可能な形態で加工することもでき、映像受信部310により受信または加工された映像は、データベース150に格納されて管理されることができる。
【0047】
音抽出部330は、映像データから音データを分離できる。音抽出部330は、商用ソフトウェアを使用して映像から音を抽出でき、必要によって映像データの再生を通し映像音を録音し、以後映像から音を除去する方法などを活用することもできる。音抽出部330は、多様な方法で映像データと音データを分離でき、分離された映像と音は、データベース150に格納されて管理されることができる。
【0048】
一実施形態において、音抽出部330は、音データに対して複数の前処理(pre-processing)方法のうち、少なくとも一つを適用できる。すなわち、音データは、データ処理に適合するように所定の前処理ステップを行うことができる。特に、前処理動作には、多様な方法が適用されることができ、単一方法または複数の方法の組み合わせによって実行されることができる。例えば、音抽出部330は、1次元音データを2次元スペクトログラム(spectrogram)に変換し、2次元スペクトログラムに絶対値を適用でき、絶対値の最大値を基準に絶対値を正規化する前処理動作を行うことができる。
【0049】
ここで、スペクトログラムは、音のスペクトルを視角化してグラフで表現する方法に該当できる。さらに具体的に、1次元音データに対応する2次元スペクトログラムは、時間の流れに伴う振幅軸の変化を視覚的に表現した波形(waveform)と周波数の変化に応じる振幅軸の変化を視覚的に表現したスペクトル(spectrum)が結合された構造を形成できる。例えば、2次元スペクトログラムは、時間軸と周波数軸の各々において振幅の差を色相と濃度値の変化で表現したグラフに該当できる。
【0050】
背景音分離部350は、音データから背景音データを抽出できる。ここで、背景音データは、音データから人の音声が除去された結果に該当できる。背景音分離部350は、学習モデルを活用して音データから所定のターゲティングされた音情報だけを除去することもできる。
【0051】
一実施形態において、背景音分離部350は、深層神経網を含む機械学習基盤のネットワークモデルを定義し、音データを入力として受信して音声データを出力として生成する第1ネットワークモデルを構築し、音データを入力として受信して背景音データを出力として生成する第2ネットワークモデルを構築し、第1及び第2ネットワークモデルに基づいて音データから音声データ及び背景音データを各々分離できる。すなわち、背景音分離部350は、音データから機械学習基盤のネットワークモデルを介して音声と背景音を各々独立的に抽出できる。このために、背景音分離部350は、抽出対象になる音によってネットワークモデルを独立的に構築できる。
【0052】
さらに具体的に、背景音分離部350は、予め定義されたネットワークモデルに基づいて音データから音声データを抽出する第1ネットワークモデルと音データから背景音データを抽出する第2ネットワークモデルを各々構築できる。例えば、第1及び第2ネットワークモデルは、多数の神経網基盤のエンコーダ(encoder)とデコーダ(decoder)から構成された深層神経網により具現化されることができる。ネットワークモデルが構築されると、背景音分離部350は、分離しようとする音データに第1及び第2ネットワークモデルを各々順次に適用して、音声及び背景音を抽出できる。抽出された音声及び背景音は、メモリ230に一時格納されることができ、背景音分離部350は、背景音だけをデータベース150に格納し、音声は、別の格納なしで削除して個人情報の漏れを防止できる。
【0053】
一実施形態において、背景音分離部350は、音声データを入力として受信して音声特徴ベクトルを出力として生成する第3ネットワークモデルを構築し、第3ネットワークモデルに基づいて音声データを非可逆的符号化(irreversible encoding)し、非可逆的符号化で生成された音声特徴ベクトルを学習データとして格納することができる。音声特徴値は、音声情報の一定時間間隔ごとに同じデータフォーマット(例えば、16-bit整数型または32-bit floating point型等)を有する一定長の値で定義されることができ、数学的には、ベクトルで表現されることができる。すなわち、背景音分離部350は、音声データに対応する特徴情報として音声特徴ベクトルを生成でき、このための専用ネットワークモデルを構築できる。
【0054】
特に、第3ネットワークモデルは、音声データに対応する音声特徴ベクトルを生成でき、このとき、第3ネットワークモデルを介した音声特徴ベクトルの生成過程は、音声特徴ベクトルに対するデコードを介して音声データへの復元が不可能な非可逆的エンコーディング過程に対応できる。一方、音声特徴ベクトルは、個人を特定するのに使用できないが、音声間の類似性を算出するのに使用されることができ、類似性によって音声データが同一話者から生成されたものか否かを検出できる。
【0055】
一実施形態において、背景音分離部350は、音声データを入力として受信してテキストデータを出力として生成する第4ネットワークモデルを構築し、第4ネットワークモデルに基づいて音声データからテキストデータを抽出できる。すなわち、音声データは、機械学習モデルである第4ネットワークモデルを介してテキストデータに変換されることができ、第4ネットワークモデルは、音声をテキストに変換する多様な音声認識アルゴリズムに基づいて構築されることができる。例えば、音声認識アルゴリズムは、HMM(Hidden Markov Models)、DTW(Dynamic Time Warping)、神経網(Neural Network)などを含むことができる。
【0056】
一実施形態において、背景音分離部350は、テキストデータから個人情報を検出し、テキストデータにおいて個人情報を匿名情報に変換し、匿名情報を含むテキストデータを学習データとして格納することができる。すなわち、音声データがテキストデータに変換される過程で音声においてのみ現れる抑揚やトーンなどの個人識別可能な特徴情報が除去されることができ、テキストに含まれた個人情報と密接情報が除去されるか、または個人識別不可能な匿名情報に代替されて、テキストを介した個人識別可能性も除去されることができる。一方、背景音分離部350は、テキストデータから個人情報を検出するために、個人情報認識機械学習モデルを活用できる。
【0057】
一実施形態において、背景音分離部350は、機械学習基盤の変換モデルに基づいて個人情報を上位クラス名で代替できる。個人識別不可能な匿名情報としてテキストに含まれた個人情報の上位クラス名が活用されることができ、必ずこれに限定されずに、匿名性を提供する多様な名称が活用されることができる。このとき、機械学習を介して構築された変換モデルが使用されることができ、変換モデルは、特定個人情報を入力として受信して該当個人情報の上位クラス名を出力として生成できる。例えば、人の名前、身長、年齢、体重などの関連した情報の場合、「人」または「person」などのクラス名で代替されることができ、特定アドレス、位置、建物、地域などの関連した情報の場合、「場所」または「place」などのクラス名で代替されることができる。
【0058】
一実施形態において、背景音分離部350は、テキストに含まれた個人情報を音声特徴ベクトルに基づいて生成された匿名情報で代替できる。ここで、匿名情報は、音声特徴ベクトルを利用して生成されるランダム情報に該当できる。例えば、背景音分離部350は、非可逆的符号化を介して生成された音声特徴ベクトルに所定のハッシュ関数を適用でき、ハッシュ値に基づいて匿名情報を生成できる。ハッシュ関数の適用のために、ハッシュテーブルが活用されることができ、ハッシュ値に対する匿名情報の生成のために、ハッシュテーブルに独立的な変換テーブルがさらに活用されることができる。
【0059】
他の例として、背景音分離部350は、音声特徴ベクトルに基づいて暗号化過程の秘密キーを生成でき、該当秘密キーを利用して個人情報を暗号化する暗号化演算を行うことができる。このとき、暗号化演算に使用される暗号化アルゴリズムに応じて非可逆的暗号化が適用されることができ、これによりテキストでなされた個人情報の匿名性が間接的に達成されうる。
【0060】
学習データ格納部370は、音データの除去された映像データ及び背景音データを学習データとして格納することができる。個人情報の除去された音情報は、映像情報のように学習データとして使用されることによって、機械学習モデルの認識性能を向上させることができ、個人情報が含まれていないという点で実際サービスとしての使用にも制約なしで適用されることができる。学習データ格納部370は、個人情報の除去された学習データをデータベース150に格納して管理でき、データ類型に応じて独立的に格納することができる。データベース150に格納される一つの映像データは、背景音データ、音声特徴ベクトル、個人情報の除去されたテキストデータとそれぞれ接続されることができ、音声特徴ベクトルを固有キー値としてデータベース150内での検索演算が行われることができる。すなわち、音声特徴ベクトル間の類似度に基づいて匿名の記録データが検索されて抽出されることができる。
【0061】
制御部390は、学習データベース構築装置130の全体的な動作を制御し、映像受信部310、音抽出部330、背景音分離部350及び学習データ格納部370間の制御流れまたはデータ流れを管理できる。
【0062】
図4は、本発明による音声個人情報保護技術を利用した学習データベース構築方法を説明するフローチャートである。
図4に示すように、学習データベース構築装置130は、映像受信部310を介して音データを含む映像データを受信することができる(ステップS410)。一実施形態において、映像受信部310は、音データとそれに対応する映像データをそれぞれ独立的に受信することができる。すなわち、このときの映像データは、音データのない映像に該当できる。仮に、音データの含まれた映像データを受信した場合には、映像データは、音抽出部330に伝達されて所定の分離ステップが行われることができる。
【0063】
学習データベース構築装置130は、音抽出部330を介して映像データから音データを分離できる(ステップS430)。映像には、多様な音が含まれることができ、例えば、車両にインストールされたブラックボックスを介して撮影された映像の場合、映像と共に車両走行中に発生するエンジン音、車両内部の運転者及び搭乗者の対話音、車両外部の環境音などが音データとして含まれることができる。
【0064】
また、映像データから抽出された音データは、所定の前処理ステップを経ることができる。例えば、音抽出部330は、音データを2次元のスペクトログラムに変換する前処理動作を行うことができ、以後動作ステップのためにスペクトログラムの範囲が調整されるか、またはスペクトログラムに所定のフィルタが適用されることができる。
【0065】
また、学習データベース構築装置130は、背景音分離部350を介して音データから背景音データを抽出できる(ステップS450)。音データの分離過程において予め構築された学習ネットワークが使用されることができ、学習ネットワークモデルは、多様な機械学習基盤のネットワークモデルに基づいて事前に構築されることができる。一実施形態において、背景音分離部350は、音データから類型別に各々独立的な背景音データを抽出できる。例えば、背景音分離部350は、音データから車両内部音と車両外部音を区分して抽出でき、運転者と搭乗者を区分して(またはユーザ別に)抽出することもできる。すなわち、背景音分離部350は、抽出可能な音データを類型によって独立的に抽出でき、この場合、音データに関する類型情報は、事前に定義されて該当過程で活用されることができる。
【0066】
また、学習データベース構築装置130は、学習データ格納部370を介して音データの除去された映像データ及び背景音データを学習データとして格納することができる(ステップS470)。一実施形態において、学習データ格納部370は、一つの映像データに関連して抽出または生成された情報を一つの学習データでグループ化してデータベース150に格納することができる。例えば、一つの学習データには、映像データと音データから抽出された背景音データ、音声データに基づいて生成された音声特徴ベクトル及び個人情報の除去されたテキストデータなどが含まれることができる。他の実施形態において、学習データ格納部370は、特定学習データの音声特徴ベクトルに基づいて該当学習データに関する識別コードを生成して共に格納することができる。
【0067】
図5は、本発明による背景音と音声分離方法の一実施形態を説明する図である。
図5に示すように、学習データベース構築装置130は、映像データから分離されるか、または映像データと独立的に受信された音データに対して前処理作業及び機械学習モデルを適用して、音声データと背景音データに分離できる。例えば、学習データベース構築装置130は、音データを前処理して、前処理されたスペクトログラム(spectrogram)を生成でき、これから音声スペクトログラムと背景音スペクトログラムを各々抽出できる。抽出された各スペクトログラムは、後処理演算を介して音声データと背景音データに分離されて生成されることができる。このとき、背景音データは、そのままデータベース150に学習データとして格納されるのに対し、音声データの場合、個人情報を除去するための追加動作が行われることができる。
【0068】
図6及び図7は、本発明による特徴ベクトル計算方法の一実施形態と非可逆的特性を説明する図である。
図6に示すように、学習データベース構築装置130は、音声データ610を機械学習モデルを介して符号化できる。このとき、符号化された音声特徴ベクトル630の場合、音声データ610への復元が不可能でありうる。すなわち、音声データ610に対応する音声特徴ベクトル630を生成する音声符号化過程は、音声情報の非可逆的エンコーディング過程に該当することができる。
【0069】
図7に示すように、音声データ710の非可逆的エンコーディングを介して生成された音声特徴ベクトル730は、発話者を特定するのに使用されることができず、音声特徴ベクトル730間の類似性に基づいて二音声の発話者が同一人物であるか否かを判別するのに使用されうる。図7において、互いに異なる時点に録音され発話内容が互いに異なる音声であっても、同一人の音声特徴ベクトル730は、類似性を持つことができ、相互間には、小さな誤差だけが存在できる。これとは異なり、他人間の音声特徴ベクトル730は、類似性を持ち難く、相互間には、相対的に大きな誤差が存在できる。
【0070】
すなわち、学習データベース構築装置130は、データベース150に構築された学習データのうち、音声特徴ベクトル730を利用して同一人物により生成された音声データ710を効果的に照会できる。また、学習データベース構築装置130は、音声特徴ベクトル730に基づいて識別されない二つの音声間の発話者が同一人であるか否かに対しても効果的に判別できる。
【0071】
図8は、本発明によるテキスト変換方法の一実施形態を説明する図である。
図8に示すように、学習データベース構築装置130は、音声データ810を機械学習モデルを利用してテキストデータ810に変換できる。学習データベース構築装置130は、テキストデータ810に含まれた個人情報と密接情報を認知する個人情報認識機械学習モデルを介して、テキスト内の個人情報を効果的に除去できる。また、学習データベース構築装置130は、テキスト内で個人情報を除去すると同時に、匿名性を有した匿名情報で代替できる。例えば、学習データベース構築装置130は、テキスト内の個人情報を認識された上位クラス名870で代替でき、個人情報に対応する上位クラス名870を決定する過程で機械学習モデルを使用することができる。個人情報の除去されたテキストデータ850は、映像情報と関連した学習データとしてデータベース150に格納されて管理されることができる。
【0072】
図9は、本発明の全体的な概念を説明する図である。
図9に示すように、学習データベース構築装置130は、音情報を音声情報と背景音情報に分離し、音声情報から非可逆的(irreversible)で、復号化不能(undecodable)の方法で符号化された音声特徴ベクトルとテキスト情報を映像と共に格納して、機械学習データベースを構築できる。学習データベース構築装置130は、構築された機械学習データベースから音声特徴ベクトル間の類似度に基づいて匿名の記録データを区分して抽出することもできる。
【0073】
また、車両の走行過程で収集されるブラックボックス映像などを管理する場合を仮定すれば、学習データベース構築装置130は、法執行機関の令状と共に提示される要求によって特定人の音声から計算される音声特徴ベクトルと最も類似の走行記録を抽出できる。一方、走行記録には、車両の走行中に運転者他に搭乗者の音声特徴ベクトルも共に記録されることができる。
【0074】
本発明による学習データベース構築装置130は、ディップランニング(Deep Learning)または深層神経網(Deep Neural Network)と呼ばれる、多くのパラメータを活用したデータ処理技術を利用して、映像に含まれた音を背景音と人の音声に分離でき、音声は、特徴ベクトルとテキストに変換されて、個人を識別できる識別情報が除去されうる。すなわち、学習データベース構築装置130は、機械学習において収集が難しい映像に関する学習データを効果的に確保しながらも、映像内の音声に含まれた個人情報を自動的に除去して、個人情報を保護することができる方法を実行できる。
【0075】
以上、本発明の好ましい実施形態を参照して説明したが、該当技術分野の熟練した当業者は、下記の特許請求の範囲に記載された本発明の思想及び領域から外れない範囲内で、本発明を多様に修正及び変更させうることを理解することができるはずである。
【符号の説明】
【0076】
100 学習データベース構築システム
110 ユーザ端末
130 学習データベース構築装置
150 データベース
210 プロセッサ
230 メモリ
250 ユーザ入出力部
270 ネットワーク入出力部
310 映像受信部
330 音抽出部
350 背景音分離部
370 学習データ格納部
390 制御部
図1
図2
図3
図4
図5
図6
図7
図8
図9
【国際調査報告】