(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-31
(54)【発明の名称】オーディオ信号生成システム及び方法
(51)【国際特許分類】
G10L 21/0364 20130101AFI20240124BHJP
G10L 21/0208 20130101ALI20240124BHJP
G10L 15/20 20060101ALI20240124BHJP
G10L 13/00 20060101ALI20240124BHJP
G10L 15/14 20060101ALI20240124BHJP
【FI】
G10L21/0364
G10L21/0208 100A
G10L15/20 370E
G10L13/00 100L
G10L15/14 200
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023544734
(86)(22)【出願日】2021-05-14
(85)【翻訳文提出日】2023-07-25
(86)【国際出願番号】 CN2021093790
(87)【国際公開番号】W WO2022236803
(87)【国際公開日】2022-11-17
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】521080118
【氏名又は名称】シェンツェン・ショックス・カンパニー・リミテッド
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】シン・チ
(57)【要約】
オーディオ信号の生成方法は、骨伝導オーディオ信号及び空気伝導オーディオ信号を取得することを含んでもよい。該方法は、特定の骨伝導オーディオ信号に由来する骨伝導データと特定の等価空気伝導オーディオ信号に由来する1つ以上の等価空気伝導データとの間のマッピング関係を提供するトレーニング済みの機械学習モデルを取得することをさらに含んでもよい。該方法は、骨伝導オーディオ信号及び空気伝導オーディオ信号に基づくトレーニング済みの機械学習モデルを使用して、骨伝導オーディオ信号に対応する目標等価空気伝導データセットを決定することをさらに含んでもよい。該方法は、オーディオ信号出力装置に、目標等価空気伝導データセットに基づいてユーザ音声を表す目標オーディオ信号を出力させることをさらに含んでもよい。
【特許請求の範囲】
【請求項1】
1つの命令セットを含む少なくとも1つの記憶媒体と、
前記少なくとも1つの記憶媒体と通信する少なくとも1つのプロセッサとを含むシステムであって、前記命令セットを実行する場合、前記少なくとも1つのプロセッサは、前記システムに、
骨伝導センサによって取得されたユーザ音声を表す骨伝導オーディオ信号を取得することと、
空気伝導センサによって取得されたユーザ音声を表す空気伝導オーディオ信号を取得することと、
特定の骨伝導オーディオ信号に由来する骨伝導データセットと特定の等価空気伝導オーディオ信号に由来する等価空気伝導データセットとの間のマッピング関係を提供するトレーニング済みの機械学習モデルを取得することと、
前記骨伝導オーディオ信号及び前記空気伝導オーディオ信号に基づいて、前記トレーニング済みの機械学習モデルを使用して、前記骨伝導オーディオ信号に対応する、前記ユーザ音声の意味内容を表す目標等価空気伝導データセットを決定することと、
前記目標等価空気伝導データセットに基づいて、オーディオ信号出力装置に前記ユーザ音声を表す目標オーディオ信号を出力させることと、を含む操作を実行させる、システム。
【請求項2】
前記骨伝導オーディオ信号及び前記空気伝導オーディオ信号に基づいて、前記骨伝導オーディオ信号に対応する等価空気伝導データセットを決定することは、
前記骨伝導オーディオ信号に基づいて、前記トレーニング済みの機械学習モデルを使用して、前記骨伝導オーディオ信号に対応する1つ以上の等価空気伝導データセットを決定することと、
前記空気伝導オーディオ信号に基づいて、前記1つ以上の等価空気伝導データから前記目標等価空気伝導データセットを識別することとを含む、請求項1に記載のシステム。
【請求項3】
前記骨伝導オーディオ信号に基づいて、前記トレーニング済みの機械学習モデルを使用して、前記骨伝導オーディオ信号に対応する1つ以上の等価空気伝導データセットを決定することは、
前記骨伝導オーディオ信号を前記トレーニング済みの機械学習モデルに入力して、前記骨伝導オーディオ信号に対応する前記1つ以上の等価空気伝導データセットを取得することを含む、請求項2に記載のシステム。
【請求項4】
前記骨伝導オーディオ信号に基づいて、前記トレーニング済みの機械学習モデルを使用して、前記骨伝導オーディオ信号に対応する1つ以上の等価空気伝導データセットを決定することは、
前記骨伝導オーディオ信号から骨伝導音響特徴を抽出することと、
前記骨伝導音響特徴に基づいて前記骨伝導データセットを決定することと、
前記骨伝導データセットを前記トレーニング済みの機械学習モデルに入力して、前記骨伝導オーディオ信号に対応する前記1つ以上の等価空気伝導データセットを取得することとを含む、請求項3に記載のシステム。
【請求項5】
前記空気伝導オーディオ信号に基づいて、前記1つ以上の等価空気伝導データから前記目標等価空気伝導データセットを識別することは、
前記空気伝導オーディオ信号から空気伝導音響特徴を抽出することと、
前記空気伝導音響特徴に基づいて空気伝導データセットを決定することと、
前記1つ以上の等価空気伝導データセットのそれぞれについて、前記等価空気伝導データセットと前記空気伝導データセットとの間の関連度を決定することと、
前記等価空気伝導データセットのうち、前記空気伝導データセットとの関連度が最大である等価空気伝導データセットを決定することと、
前記等価空気伝導データセットに基づいて、前記目標等価空気伝導データセットを決定することとを含む、請求項3に記載のシステム。
【請求項6】
目標等価空気伝導データセットに基づいて、オーディオ信号出力装置にユーザ音声を表す目標オーディオ信号を出力させることは、
前記目標等価空気伝導データセットを目標等価空気伝導オーディオ信号に変換することと、
前記目標等価空気伝導オーディオ信号に基づいて前記目標オーディオ信号を決定することと、
前記オーディオ信号出力装置に前記目標オーディオ信号を出力させることとを含む、請求項1~5のいずれか1項に記載のシステム。
【請求項7】
前記目標オーディオ信号のノイズレベルは、前記空気伝導オーディオ信号のノイズレベルより小さい、請求項6に記載のシステム。
【請求項8】
目標等価空気伝導オーディオ信号に基づいて前記目標オーディオ信号を決定することは、
前記目標等価空気伝導オーディオ信号にノイズを付加することにより前記目標オーディオ信号を生成することを含む、請求項6に記載のシステム。
【請求項9】
前記トレーニング済みの機械学習モデルは、
それぞれが同じ音声サンプルを表す第1のオーディオ信号及び第2のオーディオ信号を含み、前記第1のオーディオ信号が前記骨伝導オーディオ収集装置によって収集され、前記第2のオーディオ信号が空気伝導オーディオ収集装置によってノイズなしの条件下で収集される複数セットのトレーニングデータを取得することと、
前記複数セットのトレーニングデータを使用して予備機械学習モデルをトレーニングして、前記トレーニング済みの機械学習モデルを取得することと、を含むプロセスにより提供される、請求項1に記載のシステム。
【請求項10】
前記予備機械学習モデルは、隠れマルコフモデルに基づいて構築される、請求項9に記載のシステム。
【請求項11】
前記複数セットのトレーニングデータを使用して予備機械学習モデルをトレーニングして、前記トレーニング済みの機械学習モデルを取得することは、
前記第1のオーディオ信号から第1の音響特徴を抽出することと、
前記第2のオーディオ信号から第2の音響特徴を抽出することと、
前記第1の音響特徴に基づいて1つ以上の第1の骨伝導データセットを決定することと、
前記第2の音響特徴に基づいて1つ以上の第2の空気伝導データセットを決定することと、
各ペアが前記第1の骨伝導データセットと同じ意味を表す第2の空気伝導データセットとを含む、複数ペアの空気伝導データ及び骨伝導データを決定することと、
前記複数ペアの空気伝導データセット及び骨伝導データセットに基づいて、前記1つ以上の第1の骨伝導データセットのそれぞれと、前記1つ以上の第2の空気伝導データセットのうちの少なくとも1つとの間にマッピング関係を確立することとを含む、請求項9又は10に記載のシステム。
【請求項12】
前記1つ以上の第1の骨伝導データセット及び1つ以上の第2の空気伝導データセットのそれぞれは、1つ以上の音素からなる音節を含む、請求項11に記載のシステム。
【請求項13】
前記トレーニング済みの機械学習モデルは、前記骨伝導オーディオ信号の各音節と前記空気伝導オーディオ信号の1つ以上の音節との間のマッピング関係を提供する、請求項1に記載のシステム。
【請求項14】
前記骨伝導オーディオデータ内の各音節と前記1つ以上の等価空気伝導データセット内の1つ以上の音節との間のマッピング関係は、前記骨伝導オーディオデータセット内の各音節と、1つ以上の等価空気伝導データセット内の1つ以上の音節のそれぞれとがマッチングする確率を含む、請求項13に記載のシステム。
【請求項15】
1つの命令セットを含む少なくとも1つの記憶媒体と、
前記少なくとも1つの記憶媒体と通信する少なくとも1つのプロセッサとを含むシステムであって、前記命令セットを実行する場合、前記少なくとも1つのプロセッサは、前記システムに、
骨伝導センサによって取得されたユーザ音声を表す骨伝導オーディオ信号を取得することと、
空気伝導センサによって取得されたユーザ音声を表す空気伝導オーディオ信号を取得することと、
トレーニング済みの機械学習モデルを取得することと、
前記骨伝導オーディオ信号及び前記空気伝導オーディオ信号に基づいて、前記トレーニング済みの機械学習モデルを使用して前記ユーザ音声を表す目標オーディオ信号を生成することと、
オーディオ信号出力装置に、ノイズレベルが前記空気伝導オーディオ信号のノイズレベルより小さい前記目標オーディオ信号を出力させることとを含む操作を実行させる、システム。
【請求項16】
少なくとも1つのプロセッサと少なくとも1つの記憶装置とを含むコンピューティングデバイスに実装される方法であって、
骨伝導センサによって取得されたユーザ音声を表す骨伝導オーディオ信号を取得することと、
空気伝導センサによって取得されたユーザ音声を表す空気伝導オーディオ信号を取得することと、
特定の骨伝導オーディオ信号に由来する骨伝導データセットと特定の等価空気伝導オーディオ信号に由来する1つ以上の等価空気伝導データセットとの間のマッピング関係を提供するトレーニング済みの機械学習モデルを取得することと、
前記骨伝導オーディオ信号及び空気伝導オーディオ信号に基づいて、前記トレーニング済みの機械学習モデルを使用して、前記骨伝導オーディオ信号に対応する、ユーザ音声の意味内容を表す目標等価空気伝導データセットを決定することと、
前記目標等価空気伝導データセットに基づいて、前記オーディオ信号出力装置にユーザ音声を表す目標オーディオ信号を出力させることとを含む、方法。
【請求項17】
少なくとも1つのプロセッサと少なくとも1つの記憶装置とを含むコンピューティングデバイスに実装される方法であって、
骨伝導センサによって取得されたユーザ音声を表す骨伝導オーディオ信号を取得することと、
空気伝導センサによって取得されたユーザ音声を表す空気伝導オーディオ信号を取得することと、
トレーニング済みの機械学習モデルを取得することと、
前記骨伝導オーディオ信号及び前記空気伝導オーディオ信号に基づいて、前記トレーニング済みの機械学習モデルを使用してユーザ音声を表す目標オーディオ信号を生成することと、
オーディオ信号出力装置に、ノイズレベルが前記空気伝導オーディオ信号のノイズレベルより小さい前記目標オーディオ信号を出力させることとを含む、方法。
【請求項18】
骨伝導センサによって取得されたユーザ音声を表す骨伝導オーディオ信号と、空気伝導センサによって取得されたユーザ音声を表す空気伝導オーディオ信号と、特定の骨伝導オーディオ信号に由来する骨伝導データセットと特定の等価空気伝導オーディオ信号に由来する1つ以上の等価空気伝導データセットとの間のマッピング関係を提供するトレーニング済みの機械学習モデルとを取得する取得モジュールと、
前記骨伝導オーディオ信号及び前記空気伝導オーディオ信号に基づいて、前記トレーニング済みの機械学習モデルを使用して、前記骨伝導オーディオ信号に対応する、ユーザ音声の意味内容を表す目標等価空気伝導データセットを決定するように構成された決定モジュールと、
前記目標等価空気伝導データセットに基づいて、オーディオ信号出力装置にユーザ音声を表す目標オーディオ信号を出力させるように構成された出力モジュールとを含む、システム。
【請求項19】
骨伝導センサによって取得されたユーザ音声を表す骨伝導オーディオ信号と、空気伝導センサによって取得されたユーザ音声を表す空気伝導オーディオ信号と、トレーニング済みの機械学習モデルとを取得する取得モジュールと、
前記骨伝導オーディオ信号及び前記空気伝導オーディオ信号に基づいて、前記トレーニング済みの機械学習モデルを使用して前記ユーザ音声を表す目標オーディオ信号を生成する決定モジュールと、
オーディオ信号出力装置に、ノイズレベルが空気伝導オーディオ信号のノイズレベルより小さい目標オーディオ信号を出力させる出力モジュールとを含む、システム。
【請求項20】
1つの命令セットを含む非一時的なコンピュータ読み取り可能な媒体であって、前記命令セットは、少なくとも1つのプロセッサによって実行される場合、少なくとも1つのプロセッサを指示して、
骨伝導センサによって取得されたユーザ音声を表す骨伝導オーディオ信号を取得し、
空気伝導センサによって取得されたユーザ音声を表す空気伝導オーディオ信号を取得し、
前記特定の骨伝導オーディオ信号に由来する骨伝導データと特定の等価空気伝導オーディオ信号に由来する1つ以上の等価空気伝導データセットとの間のマッピング関係を提供するトレーニング済みの機械学習モデルを取得し、
前記骨伝導オーディオ信号及び前記空気伝導オーディオ信号に基づいて、前記トレーニング済みの機械学習モデルを使用して、前記骨伝導オーディオ信号に対応する、ユーザ音声の意味内容を表す目標等価空気伝導データセットを決定し、
前記目標等価空気伝導データセットに基づいて、前記オーディオ信号出力装置にユーザ音声を表す目標オーディオ信号を出力させるという操作を実行する、非一時的なコンピュータ読み取り可能な媒体。
【請求項21】
1つの命令セットを含む非一時的なコンピュータ読み取り可能な媒体であって、前記命令セットは、少なくとも1つのプロセッサによって実行される場合、少なくとも1つのプロセッサを指示して、
骨伝導センサによって取得されたユーザ音声を表す骨伝導オーディオ信号を取得し、
空気伝導センサによって取得されたユーザ音声を表す空気伝導オーディオ信号を取得し、
トレーニング済みの機械学習モデルを取得し、
前記骨伝導オーディオ信号及び前記空気伝導オーディオ信号に基づいて、前記トレーニング済みの機械学習モデルを使用して前記ユーザ音声を表す目標オーディオ信号を生成し、
オーディオ信号出力装置に、ノイズレベルが前記空気伝導オーディオ信号のノイズレベルより小さい前記目標オーディオ信号を出力させるという操作を実行する、非一時的なコンピュータ読み取り可能な媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、一般に信号処理の分野に関し、具体的に、骨伝導オーディオ信号及び空気伝導オーディオ信号に基づいてオーディオ信号を生成するシステム及び方法に関する。
【背景技術】
【0002】
電子デバイスの普及に伴い、人々間のコミュニケーションがますます便利になっている。電子デバイスを使用して通信する場合、ユーザは、マイクロフォン(例えば、骨伝導マイクロフォン又は空気伝導マイクロフォン)により、ユーザが話すときにオーディオ信号を取得することができる。マイクロフォンによって取得されたオーディオ信号は、ユーザ音声を表すことができる。しかしながら、マイクロフォンによって取得されたオーディオ信号が十分に明瞭であることを確保することは、困難な場合がある。例えば、骨伝導マイクロフォンによって取得された骨伝導オーディオ信号は、いくつかの重要な情報が失われる可能性がある。空気伝導マイクロフォンによって取得された空気伝導オーディオ信号には、ノイズが多い可能性がある。したがって、ノイズが少なく、より忠実度の高いオーディオ信号を生成するシステム及び方法を提供することが望ましい。
【発明の概要】
【課題を解決するための手段】
【0003】
本願の一態様によれば、オーディオ信号のためのシステムを提供することができる。該システムは、少なくとも1つの記憶媒体と、少なくとも1つの記憶媒体と通信する少なくとも1つのプロセッサとを含んでもよい。少なくとも1つの記憶媒体は、1つの命令セットを含んでもよい。該命令セットを実行する場合、少なくとも1つのプロセッサは、システムに以下の操作のうちの1つ以上を実行させることができる。該システムは、骨伝導センサによって取得された骨伝導オーディオ信号と、空気伝導センサによって取得された空気伝導オーディオ信号とを取得することができる。骨伝導オーディオ信号及び空気伝導オーディオ信号は、ユーザ音声を表すことができる。該システムは、特定の骨伝導オーディオ信号に由来する骨伝導データセットと特定の等価空気伝導オーディオ信号に由来する1つ以上の等価空気伝導データセットとの間のマッピング関係を提供するトレーニング済みの機械学習モデルをさらに取得することができる。システムは、さらに骨伝導オーディオ信号及び空気伝導オーディオ信号に基づくトレーニング済みの機械学習モデルを使用して、骨伝導オーディオ信号に対応する目標等価空気伝導データセットを決定することができる。目標等価空気伝導データセットは、ユーザ音声の意味内容を表すことができる。該システムは、さらにオーディオ信号出力装置に、目標等価空気伝導データセットに基づいてユーザ音声を表す目標オーディオ信号を出力させることができる。
【0004】
いくつかの実施例において、骨伝導オーディオ信号及び空気伝導オーディオ信号に基づいて、骨伝導オーディオ信号に対応する目標等価空気伝導データセットを決定するには、システムは、骨伝導オーディオ信号に基づくトレーニング済みの機械学習モデルを使用して、骨伝導オーディオ信号に対応する1つ以上の等価空気伝導データセットを決定することができる。該システムは、さらに空気伝導オーディオ信号に基づいて、1つ以上の等価空気伝導データセットから目標等価空気伝導データセットを識別することができる。
【0005】
いくつかの実施例において、骨伝導オーディオ信号に基づくトレーニング済みの機械学習モデルを使用して、骨伝導オーディオ信号に対応する1つ以上の等価空気伝導データセットを決定するには、該システムは、該骨伝導オーディオ信号をトレーニング済みの機械学習モデルに入力して、該骨伝導オーディオ信号に対応する1つ以上の等価空気伝導データセットを取得することができる。
【0006】
いくつかの実施例において、骨伝導オーディオ信号に基づくトレーニング済みの機械学習モデルを使用して、骨伝導オーディオ信号に対応する1つ以上の等価空気伝導データセットを決定するために、システムは、骨伝導オーディオ信号から骨伝導音響特徴を抽出することができる。該システムは、さらに骨伝導音響特徴に基づいて骨伝導データセットを決定することができる。該システムは、さらに該骨伝導データセットをトレーニング済みの機械学習モデルに入力して、骨伝導オーディオ信号に対応する1つ以上の等価空気伝導データセットを取得することができる。
【0007】
いくつかの実施例において、空気伝導オーディオ信号に基づいて、1つ以上の等価空気伝導データセットから目標等価空気伝導データセットを識別するために、システムは、空気伝導オーディオ信号から空気伝導音響特徴を抽出することができる。該システムは、さらに空気伝導音響特徴に基づいて空気伝導データセットを決定することができる。1つ以上の等価空気伝導データセットのそれぞれについて、該システムは、さらに該等価空気伝導データセットと該空気伝導データセットとの間の関連度を決定することができる。システムは、さらに1つ以上の等価空気伝導データセットのうちの、空気伝導データセットとの関連度が最大である等価空気伝導データセットを決定することができる。システムは、さらに1つ以上の等価空気伝導データセットのうちの1つに基づいて目標等価空気伝導データセットを決定することができる。
【0008】
いくつかの実施例において、オーディオ信号出力装置に、目標等価空気伝導データセットに基づいてユーザ音声を表す目標オーディオ信号を出力させるために、システムは、目標等価空気伝導データセットを目標等価空気伝導オーディオ信号に変換することができる。該システムは、さらに目標等価空気伝導オーディオ信号に基づいて目標オーディオ信号を決定することができる。該システムは、さらにオーディオ信号出力装置に目標オーディオ信号を出力させることができる。
【0009】
いくつかの実施例において、目標オーディオ信号のノイズレベルは、空気伝導オーディオ信号のノイズレベルより小さくてもよい。
【0010】
いくつかの実施例において、目標等価空気伝導オーディオ信号に基づいて目標オーディオ信号を決定するために、システムは、目標等価空気伝導オーディオ信号にノイズを付加することにより目標オーディオ信号を生成することができる。
【0011】
いくつかの実施例において、トレーニング済みの機械学習モデルを生成するために、システムは、以下の1つ以上の操作を実行することができる。システムは、少なくとも2つのトレーニングデータを取得することができる。少なくとも2つのトレーニングデータセットのそれぞれは、同じ音声サンプルを表す第1のオーディオ信号及び第2のオーディオ信号を含んでもよい。第1のオーディオ信号は、骨伝導オーディオ収集装置によって取得されてもよく、第2のオーディオ信号は、ノイズなしの状態で空気伝導オーディオ収集装置によって取得されてもよい。システムは、複数セットのトレーニングデータを使用して予備機械学習モデルをトレーニングして、トレーニング済みの機械学習モデルを取得することができる。
【0012】
いくつかの実施例において、隠れマルコフモデルに基づいて予備機械学習モデルを構築することができる。
【0013】
いくつかの実施例において、複数セットのトレーニングデータを使用して予備機械学習モデルをトレーニングしてトレーニング済みの機械学習モデルを取得するために、システムは、第1のオーディオ信号から第1の音響特徴を抽出することができる。該システムは、さらに第2のオーディオ信号から第2の音響特徴を抽出することができる。該システムは、さらに第1の音響特徴に基づいて1つ以上の第1の骨伝導データセットを決定することができる。該システムは、さらに第2の音響特徴に基づいて1つ以上の第2の空気伝導データを決定することができる。該システムは、さらに各ペアが第1の骨伝導データセットと同じ意味を表す第2の空気骨伝導データセットとを含む、複数ペアの空気伝導データセット及び骨伝導データセットを決定することができる。該システムは、さらに複数ペアの空気伝導データ及び骨伝導データに基づいて、1つ以上の第1の骨伝導データセットと1つ以上の第2の空気伝導データセットのそれぞれとの間にマッピング関係を確立することができる。
【0014】
いくつかの実施例において、1つ以上の第1の骨伝導データセット及び1つ以上の第2の空気伝導データセットのそれぞれは、1つ以上の音素からなる音節を含んでもよい。
【0015】
いくつかの実施例において、トレーニング済みの機械学習モデルは、骨伝導オーディオ信号の各音節と空気伝導オーディオ信号の1つ以上の音節との間のマッピング関係を提供することができる。
【0016】
いくつかの実施例において、骨伝導オーディオデータ内の各音節と1つ以上の等価空気伝導データセット内の1つ以上の音節との間のマッピング関係は、骨伝導オーディオデータ内の各音節と、1つ以上の等価空気伝導データセット内の1つ以上の音節のそれぞれとがマッチングする確率を含んでもよい。
【0017】
本願の別の態様によれば、オーディオ信号のためのシステムを提供することができる。該システムは、少なくとも1つの記憶媒体と、少なくとも1つの記憶媒体と通信する少なくとも1つのプロセッサとを含んでもよい。少なくとも1つの記憶媒体は、1つの命令セットを含んでもよい。該命令セットを実行する場合、少なくとも1つのプロセッサは、システムに以下の操作のうちの1つ以上を実行させることができる。該システムは、骨伝導センサによって取得された骨伝導オーディオ信号と、空気伝導センサによって取得された空気伝導オーディオ信号とを取得することができる。骨伝導オーディオ信号及び空気伝導オーディオ信号は、ユーザ音声を表すことができる。システムは、さらにトレーニング済みの機械学習モデルを取得することができる。該システムは、骨伝導オーディオ信号及び空気伝導オーディオ信号に基づくトレーニング済みの機械学習モデルを使用して、ユーザ音声を表す目標オーディオ信号を生成することができる。該システムは、さらにオーディオ信号出力装置に目標オーディオ信号を出力させることができる。目標オーディオ信号のノイズレベルは、空気伝導オーディオ信号のノイズレベルより小さくてもよい。
【0018】
本願のさらに別の態様によれば、オーディオ信号のための方法を提供することができる。該方法は、骨伝導センサによって取得された骨伝導オーディオ信号と、空気伝導センサによって取得された空気伝導オーディオ信号とを取得することを含んでもよい。骨伝導オーディオ信号及び空気伝導オーディオ信号は、ユーザ音声を表すことができる。該方法は、特定の骨伝導オーディオ信号に由来する骨伝導データセットと特定の等価空気伝導オーディオ信号に由来する1つ以上の等価空気伝導データセットとの間のマッピング関係を提供するトレーニング済みの機械学習モデルを取得することをさらに含んでもよい。該方法は、骨伝導オーディオ信号及び空気伝導オーディオ信号に基づくトレーニング済みの機械学習モデルを使用して、骨伝導オーディオ信号に対応する目標等価空気伝導データセットを決定することをさらに含んでもよい。目標等価空気伝導データセットは、ユーザ音声の意味内容を表すことができる。該方法は、オーディオ信号出力装置に、目標等価空気伝導データセットに基づいてユーザ音声を表す目標オーディオ信号を出力させることをさらに含んでもよい。
【0019】
本願のさらに別の態様によれば、オーディオ信号のための方法を提供することができる。該方法は、骨伝導センサによって取得された骨伝導オーディオ信号と、空気伝導センサによって取得された空気伝導オーディオ信号とを取得することを含んでもよい。骨伝導オーディオ信号及び空気伝導オーディオ信号は、ユーザ音声を表すことができる。該方法は、トレーニング済みの機械学習モデルを取得することをさらに含んでもよい。該方法は、骨伝導オーディオ信号及び空気伝導オーディオ信号に基づくトレーニング済みの機械学習モデルを使用して、ユーザ音声を表す目標オーディオ信号を生成することをさらに含んでもよい。該方法は、オーディオ信号出力装置に、ノイズレベルが空気伝導オーディオ信号のノイズレベルより小さい目標オーディオ信号を出力させることをさらに含んでもよい。
【0020】
本願のさらに別の態様によれば、オーディオ信号のためのシステムを提供することができる。該システムは、取得モジュール、決定モジュール、及び出力モジュールを含んでもよい。取得モジュールは、骨伝導センサによって取得された骨伝導オーディオ信号と、空気伝導センサによって取得された空気伝導オーディオ信号と、特定の骨伝導オーディオ信号から導出された骨伝導データセットと特定の等価空気伝導オーディオ信号に由来する1つ以上の等価空気伝導データセットとの間のマッピング関係を提供するトレーニング済みの機械学習モデルとを取得するように構成されてもよい。骨伝導オーディオ信号及び空気伝導オーディオ信号は、ユーザ音声を表すことができる。決定モジュールは、トレーニング済みの機械学習モデルを使用して、骨伝導オーディオ信号に対応する目標等価空気伝導データセットを決定するように構成されてもよく、該目標等価空気伝導データセットは、骨伝導オーディオ信号及び空気伝導オーディオ信号に基づいて、ユーザ音声の意味内容を表す。出力モジュールは、オーディオ信号出力装置に、目標等価空気伝導データセットに基づいてユーザ音声を表す目標オーディオ信号を出力させるように構成されてもよい。
【0021】
本願のさらに別の態様によれば、オーディオ信号のためのシステムを提供することができる。該システムは、取得モジュール、決定モジュール、及び出力モジュールを含んでもよい。取得モジュールは、骨伝導センサによって取得された骨伝導オーディオ信号と、空気伝導センサによって取得された空気伝導オーディオ信号と、トレーニング済みの機械学習モデルとを取得するように構成されてもよい。骨伝導オーディオ信号及び空気伝導オーディオ信号は、ユーザ音声を表すことができる。決定モジュールは、骨伝導オーディオ信号及び空気伝導オーディオ信号に基づくトレーニング済みの機械学習モデルを使用して、ユーザ音声を表す目標オーディオ信号を生成するように構成されてもよい。出力モジュールは、オーディオ信号出力装置に目標オーディオ信号を出力させるように構成されてもよい。目標オーディオ信号のノイズレベルは、空気伝導オーディオ信号のノイズレベルより小さくてもよい。
【0022】
本願のさらに別の態様によれば、非一時的なコンピュータ読み取り可能な媒体を提供することができる。非一時的なコンピュータ読み取り可能な媒体は、オーディオ信号のための1つの命令セットを含んでもよい。少なくとも1つのプロセッサによって実行される場合、該命令セットは、少なくとも1つのプロセッサを指示して方法を実行することができる。該方法は、骨伝導センサによって取得された骨伝導オーディオ信号と、空気伝導センサによって取得された空気伝導オーディオ信号とを取得することを含んでもよい。骨伝導オーディオ信号及び空気伝導オーディオ信号は、ユーザ音声を表すことができる。該方法は、特定の骨伝導オーディオ信号から導出された骨伝導データセットと特定の等価空気伝導オーディオ信号に由来する1つ以上の等価空気伝導データセットとの間のマッピング関係を提供するトレーニング済みの機械学習モデルを取得することをさらに含んでもよい。該方法は、骨伝導オーディオ信号及び空気伝導オーディオ信号に基づくトレーニング済みの機械学習モデルを使用して、骨伝導オーディオ信号に対応する目標等価空気伝導データセットを決定することをさらに含んでもよい。目標等価空気伝導データセットは、ユーザ音声の意味内容を表すことができる。該方法は、オーディオ信号出力装置に、目標等価空気伝導データセットに基づいてユーザ音声を表す目標オーディオ信号を出力させることをさらに含んでもよい。
【0023】
本願のさらに別の態様によれば、非一時的なコンピュータ読み取り可能な媒体を提供することができる。非一時的なコンピュータ読み取り可能な媒体は、オーディオ信号のための命令セットを含んでもよい。少なくとも1つのプロセッサによって実行される場合、該命令セットは、少なくとも1つのプロセッサを指示して方法を実行することができる。該方法は、骨伝導センサによって取得された骨伝導オーディオ信号と、空気伝導センサによって取得された空気伝導オーディオ信号とを取得することを含んでもよい。骨伝導オーディオ信号及び空気伝導オーディオ信号は、ユーザ音声を表すことができる。該方法は、トレーニング済みの機械学習モデルを取得することをさらに含んでもよい。該方法は、骨伝導オーディオ信号及び空気伝導オーディオ信号に基づくトレーニング済みの機械学習モデルを使用して、ユーザ音声を表す目標オーディオ信号を生成することをさらに含んでもよい。該方法は、オーディオ信号出力装置に、ノイズレベルが空気伝導オーディオ信号のノイズレベルより小さい目標オーディオ信号を出力させることをさらに含んでもよい。
【0024】
本願の付加的な特徴の一部は、以下の説明において説明することができる。以下の説明及び対応する図面の研究、又は実施例の製造又は操作に対する理解により、本願の付加的な特徴の一部は、当業者に明らかになるであろう。本願の特徴は、以下に説明する具体的な実施例の方法、手段及び組み合わせの様々な態様の実践又は使用により認識し、習得することができる。
【0025】
例示的な実施例によって本願をさらに説明する。これらの例示的な実施例を図面により詳細に説明する。これらの実施例は、限定的なものではなく、例示的なものであり、これらの実施例では、同じ番号は、同様の構造を表す。
【図面の簡単な説明】
【0026】
【
図1】本願のいくつかの実施例に係る例示的なオーディオ信号生成システムの概略図である。
【
図2】本願のいくつかの実施例に係るコンピューティングデバイスの例示的なハードウェア及びソフトウェアコンポーネントの概略図である。
【
図3】本願のいくつかの実施例に係る例示的なオーディオ収集装置の概略図である。
【
図4】本願のいくつかの実施例に係る例示的な処理装置のブロック図である。
【
図5】本願のいくつかの実施例に係る別の例示的な処理装置のブロック図である。
【
図6】本願のいくつかの実施例に係る、オーディオ信号を生成するための例示的なプロセスの概略フローチャートである。
【
図7】本願のいくつかの実施例に係る、骨伝導オーディオ信号に対応する目標等価空気伝導データセットを決定するための例示的なプロセスの概略フローチャートである。
【
図8】本願のいくつかの実施例に係る、トレーニング済みの機械学習モデルを生成するための例示的なプロセスの概略フローチャートである。
【
図9】本願のいくつかの実施例に係る例示的な予備機械学習モデルの概略図である。
【
図10】本願のいくつかの実施例に係る、オーディオ信号を生成するための別の例示的なプロセスの概略フローチャートである。
【発明を実施するための形態】
【0027】
本願の実施例の技術手段をより明確に説明するために、以下、実施例の説明に必要な図面を簡単に説明する。しかしながら、当業者であれば、これらの詳細がなくても本願を実施できることを理解することができる。他の状況では、本願の各態様を不必要に曖昧にすることを避けるために、周知の方法、手順、システム、アセンブリ、及び/又は回路が、比較的高いレベルで説明されている。開示された実施例に対する様々な変更は、当業者に容易に明らかとなり、本願に定義された一般的な原理は、本願の原理及び範囲から逸脱することなく、他の実施例及び応用シナリオに適用されてもよい。よって、本願は、説明された実施例に限定されるものではなく、特許請求の範囲と一致する最も広い範囲が与えられるべきである。
【0028】
本願で使用される用語は、特定の例示的な実施例を説明する目的だけであり、限定的ではない。文脈が明確に別段の指示をしない限り、本願で使用される単数形「一」、「1つ」及び「該」は、複数形を含んでもよい。用語「含む」及び「含有」は、本願で使用される場合、上記特徴、整数、ステップ、操作、アセンブリ及び/又は部品の存在のみを提示するが、1つ以上の他の特徴、整数、ステップ、操作、アセンブリ、部品及び/又はそれらの組み合わせの存在又は追加を排除しないことがさらに理解されよう。
【0029】
本明細書で使用される「システム」、「エンジン」、「ユニット」、「モジュール」及び/又は「ブロック」は、レベルの異なる様々なアセンブリ、素子、部品、部分又はアセンブリを昇順で区別するための方法であることが理解されよう。しかしながら、同じ目的を達成することができれば、上記用語の代わりに他の表現を用いることができる。
【0030】
一般的に、明細書で使用される単語「モジュール」、「ユニット」又は「ブロック」は、ハードウェア又はファームウェアに具現化されたロジック、又はソフトウェア命令セットを指す。本明細書で説明されるモジュール、ユニット又はブロックは、ソフトウェア及び/又はハードウェアとして実装されてもよく、かつ任意のタイプの非一時的なコンピュータ読み取り可能な媒体又は他の記憶装置に記憶されてもよい。いくつかの実施例において、ソフトウェアモジュール/ユニット/ブロックは、実行可能なプログラムにコンパイル及びリンクされてもよい。ソフトウェアモジュールは、他のモジュール/ユニット/ブロック又はそれら自体から呼び出すことができ、及び/又は検出されたイベント又はインタラプトに応答して呼び出すことができることが理解されよう。コンピューティングデバイスで実行するように構成されたソフトウェアモジュール/ユニット/ブロックは、光ディスク、デジタルビデオディスク、フラッシュメモリドライブ、磁気ディスク又は任意の他の有形媒体のようなコンピュータ読み取り可能な媒体に提供されてもよく、デジタルダウンロードとして提供されてもよい(かつ最初は圧縮又はインストール可能なフォーマットで記憶されてもよく、実行する前にインストール、解凍又は復号する必要がある)。ここで、ソフトウェアコードは、操作を実行するコンピューティングデバイスの記憶装置に部分的又は完全に記憶され、コンピューティングデバイスの操作に適用されてもよい。ソフトウェア説明は、消去可能・プログラム可能な読み取り専用メモリ(EPROM)などのファームウェアに組み込まれてもよい。ハードウェアモジュール/ユニット/ブロックは、ゲート及びフリップフロップなどの接続されるロジックコンポーネントに含まれていてもよく、及び/又はプログラム可能なゲートアレイ又はプロセッサなどのプログラム可能なユニットを含んでもよいことがさらに理解されよう。本明細書で説明されるモジュール/ユニット/ブロック又はコンピューティングデバイスの機能は、ソフトウェアモジュール/ユニット/ブロックとして実装されてもよいが、ハードウェア又はファームウェアで表されてもよい。一般的に、本明細書で説明されるモジュール/ユニット/ブロックは、物理的な構成又は記憶デバイスであるにも関わらず、他のモジュール/ユニット/ブロックと組み合わせたり、サブモジュール/サブユニット/サブブロックに分割したりすることができるロジックモジュール/ユニット/ブロックを指す。該説明は、システム、エンジン、又はそれらの一部に適用されてもよい。
【0031】
ユニット、エンジン、モジュール又はブロックが、他のユニット、エンジン、モジュール又はブロック「に配置される」、「に接続される」又は「に結合される」として示されるとき、文脈が明確に別段の指示をしない限り、それは他のユニット、エンジン、モジュール又はブロックに直接配置、接続、結合、又は通信してもよく、或いは、中間ユニット、エンジン、モジュール又はブロックが存在してもよいことが理解されよう。本願において、用語「及び/又は」は、任意の1つ以上の関連する列挙された項目又はそれらの組み合わせを含んでもよい。
【0032】
以下の図面に対する説明によれば、本願のこれら及び他の特徴、特性及び関連する構造素子の機能及び操作方法、並びに部材の組み合わせ及び製造上の経済性は、より明らかになることができ、これらの図面は、いずれも本願の明細書の一部を構成する。図面は、例示及び説明のためのものに過ぎず、本願の範囲を限定することを意図するものではないことが理解されよう。図面は、原寸に比例して描かれるものではないことが理解されよう。
【0033】
本願で使用されるフローチャートは、本願のいくつかの実施例に係るシステムが実行する操作を説明する。フローチャートの操作が順番に実施されなくてもよいことが理解されよう。その代わりに、各ステップを逆の順序で、又は同時に処理してもよい。また、1つ以上の他の操作をこれらのフローチャートに追加してもよい。これらのフローチャートから1つ以上の操作を除去してもよい。
【0034】
本願の一態様は、オーディオ信号を生成するシステム及び方法に関する。該システムは、骨伝導センサによって取得された骨伝導オーディオ信号と、空気伝導センサによって取得された空気伝導オーディオ信号とを取得することができる。骨伝導オーディオ信号及び空気伝導オーディオ信号は、ユーザ音声を表すことができる。該システムは、骨伝導オーディオ信号に由来する骨伝導データと1つ以上の等価空気伝導データセットとの間のマッピング関係を提供するトレーニング済みの機械学習モデルをさらに取得することができる。該システムは、さらに骨伝導オーディオ信号及び空気伝導オーディオ信号に基づくトレーニング済みの機械学習モデルを使用して、骨伝導オーディオ信号に対応する目標等価空気伝導データセットを決定することができる。目標等価空気オーディオデータセットは、ユーザ音声の意味内容を表すことができる。該システムは、さらにオーディオ信号出力装置に、目標等価空気伝導データセットに基づいてユーザ音声を表す目標オーディオ信号を出力させることができる。骨伝導オーディオ信号と比較して、本願のシステム及び方法は、より忠実度の高い目標オーディオ信号を生成することができ、該目標オーディオ信号は、骨伝導オーディオ信号よりも多くの周波数成分を含む。空気伝導オーディオ信号と比較して、本願のシステム及び方法は、ノイズレベルが空気伝導オーディオ信号のノイズレベルより小さい目標オーディオ信号を生成することができる。
【0035】
図1は、本願のいくつかの実施例に係る例示的なオーディオ信号生成システム100の概略図である。オーディオ信号生成システム100は、オーディオ収集装置110、サーバ120、端末130、記憶装置140、及びネットワーク150を含んでもよい。
【0036】
オーディオ収集装置110は、ユーザが話すときに、ユーザの声、音声又はスピーチを収集してオーディオデータ(例えば、オーディオ信号)を取得することができる。例えば、ユーザが話すとき、ユーザの声は、ユーザの口の周りの空気振動及び/又はユーザの体の組織(例えば、頭蓋骨)の振動を引き起こす可能性がある。オーディオ収集装置110は、振動を受信し、オーディオデータとも呼ばれる電気信号(例えば、アナログ信号又はデジタル信号)に変換することができる。オーディオデータは、電気信号の形態でネットワーク150を介してサーバ120、端末130及び/又は記憶装置140に送信されてもよい。いくつかの実施例において、オーディオ収集装置110は、録音機、イヤホン(例えば、ブルートゥース(登録商標)イヤホン)、有線イヤホン、補聴装置などを含んでもよい。
【0037】
いくつかの実施例において、オーディオ収集装置110は、無線接続(例えば、ネットワーク150)及び/又は有線接続を介してスピーカーに接続されてもよい。オーディオデータは、ユーザ音声を再生及び/又は再現するためにスピーカーに送信されてもよい。いくつかの実施例において、スピーカー及びオーディオ収集装置110は、1つの装置、例えば、イヤホンに統合されてもよい。いくつかの実施例において、オーディオ収集装置とスピーカーとは互いに別個であってもよい。例えば、オーディオ収集装置110は、第1の端末(例えば、イヤホン)に取り付けられてもよく、スピーカーは、別の端末(例えば、端末130)に取り付けられてもよい。
【0038】
いくつかの実施例において、オーディオ収集装置は、骨伝導マイクロフォン112及び空気伝導マイクロフォン114を含んでもよい。骨伝導マイクロフォン112は、ユーザが話すときに、ユーザの骨格(例えば、頭蓋骨)を介して伝導されたオーディオ信号(骨伝導オーディオ信号とも呼ばれる)を収集する1つ以上の骨伝導センサ(骨伝導アセンブリとも呼ばれる)を含んでもよい。骨伝導オーディオ信号は、骨伝導マイクロフォン112によって生成されてもよく、ユーザが話すときに、骨伝導マイクロフォン112は、ユーザの骨格(例えば、頭蓋骨)の振動信号を収集する。いくつかの実施例において、1つ以上の骨伝導センサは、骨伝導センサアレイを形成することができる。いくつかの実施例において、骨伝導マイクロフォン112は、ユーザの体の領域に配置及び/又は接触して、骨伝導データを収集することができる。ユーザの体の領域は、額、首(例えば、喉)、顔(例えば、口の周りの領域、顎)、頭頂部、乳様突起、耳の周りの領域又は耳の内部の領域、こめかみなど、又はそれらの任意の組み合わせを含んでもよい。例えば、骨伝導マイクロフォン112は、耳珠、耳介、内耳道、外耳道などに位置してもよく、及び/又はそれらに接触してもよい。いくつかの実施例において、骨伝導データの1つ以上の特徴は、骨伝導マイクロフォン112が位置及び/又は接触するユーザの体の領域に応じて異なってもよい。例えば、耳の周りの領域に位置する骨伝導マイクロフォン112によって収集された骨伝導データは、額に位置する骨伝導マイクロフォン112によって収集された骨伝導データセットよりも高いエネルギーを有する。
【0039】
空気伝導マイクロフォン114は、ユーザが話すときに、空気を介して伝導されるオーディオ信号(空気伝導オーディオ信号とも呼ばれる)を収集する1つ以上の空気伝導センサ(空気伝導アセンブリとも呼ばれる)を含んでもよい。いくつかの実施例において、1つ以上の空気伝導センサは、空気伝導センサアレイを形成することができる。いくつかの実施例において、空気伝導マイクロフォン114は、ユーザの口から一定の距離(例えば、0センチメートル、1センチメートル、2センチメートル、5センチメートル、10センチメートル、20センチメートルなど)内に位置してもよい。空気伝導データの1つ以上の特徴(例えば、空気伝導データの平均振幅)は、空気伝導マイクロフォン114とユーザの口との間の距離に応じて異なってもよい。例えば、空気伝導マイクロフォン114とユーザの口との間の距離が大きいほど、空気伝導マイクロフォンのデータセットの平均振幅は小さくなる可能性がある。
【0040】
いくつかの実施例において、骨伝導マイクロフォン112及び空気伝導マイクロフォン114は、1つの装置(例えば、オーディオ収集装置)に統合されてもよい。いくつかの実施例において、骨伝導マイクロフォン112及び空気伝導マイクロフォン114は、異なる装置に統合されてもよい。
【0041】
いくつかの実施例において、サーバ120は、単一のサーバ又はサーバ群であってもよい。サーバ群は、集中型(例えば、データセンタ)又は分散型であってもよい(例えば、サーバ120は、分散型システムであってもよい)。いくつかの実施例において、サーバ120は、ローカル又はリモートであってもよい。例えば、サーバ120は、ネットワーク150を介して端末130及び/又は記憶装置140に記憶された情報及び/又はデータにアクセスすることができる。また例えば、サーバ120は、端末130及び/又は記憶装置140に直接接続されて、記憶された情報及び/又はデータにアクセスすることができる。いくつかの実施例において、サーバ120は、クラウドプラットフォームに実装されてもよい。単なる例として、該クラウドプラットフォームは、プライベートクラウド、パブリッククラウド、ハイブリッドクラウド、コミュニティクラウド、分散クラウド、インターナルクラウド、マルチクラウドなど、又はそれらの任意の組み合わせを含んでもよい。いくつかの実施例において、サーバ120は、コンピューティングデバイス200に実装されてもよく、該コンピューティングデバイス200は、本願の
図2に示す1つ以上のアセンブリを有する。
【0042】
いくつかの実施例において、サーバ120は、処理装置122を含んでもよい。処理装置122は、オーディオ信号の生成に関連する情報及び/又はデータを処理して、本願に記載の1つ以上の機能を実行することができる。例えば、処理装置122は、骨伝導マイクロフォン112によって収集された骨伝導オーディオ信号と、空気伝導マイクロフォン114によって収集された空気伝導オーディオ信号とを取得することができる。骨伝導オーディオ信号及び空気伝導オーディオ信号は、ユーザ音声を表すことができる。処理装置122は、さらに特定の骨伝導オーディオ信号(例えば、骨伝導マイクロフォン112によって収集された骨伝導オーディオ信号)に由来する骨伝導データセットと1つ以上の等価空気伝導データセットとの間のマッピング関係を提供するトレーニング済みの機械学習モデルを取得することができる。処理装置122は、トレーニング済みの機械学習モデルを使用して、骨伝導オーディオ信号及び空気伝導オーディオ信号に基づいて、骨伝導オーディオ信号に対応する目標等価空気伝導データセットを生成することができる。目標等価空気オーディオデータセットは、ユーザ音声の意味内容を表すことができ、そのノイズレベルは、空気伝導オーディオ信号のノイズレベルより小さい。処理装置122は、さらにオーディオ信号出力装置に、目標等価空気伝導データセットに基づいてユーザ音声を表す目標オーディオ信号を出力させてもよい。
【0043】
本願で使用されるトレーニング済みの機械学習モデルは、元のトレーニング済みの機械学習モデルを決定する元のサンプルセットとは少なくとも部分的に異なるサンプルセットに基づいて、随時(例えば、周期的に又は非周期的に)更新されてもよい。例えば、トレーニング済みの機械学習モデルは、元のサンプルセットに含まれていない新しいサンプルを含むサンプルセットに基づいて更新されてもよい。いくつかの実施例において、トレーニング済みの機械学習モデルの決定及び/又は更新は、処理装置で実行されてもよく、トレーニング済みの機械学習モデルの適用は、異なる処理装置で実行されてもよい。いくつかの実施例において、トレーニング済みの機械学習モデルの決定及び/又は更新は、システム100とは異なるシステムの処理装置、又はトレーニング済みの機械学習モデルが実行されるアプリケーションを含む処理装置122とは異なるサーバで実行されてもよい。例えば、機械学習モデルの決定及び/又は更新は、このような機械学習モデルを提供及び/又はメンテナンスする、及び/又はトレーニング済みの機械学習モデルを決定及び/又は更新するためのトレーニングサンプルにアクセスできるベンダーの第1のシステムで実行されてもよく、機械学習モデルに基づくオーディオ信号の生成は、ベンダーのクライアントの第2のシステムで実行されてもよい。いくつかの実施例において、トレーニング済みの機械学習モデルの決定及び/又は更新は、オーディオ信号生成の要求に応答してオンラインで実行されてもよい。いくつかの実施例において、トレーニング済みの機械学習モデルの決定及び/又は更新は、オフラインで実行されてもよい。
【0044】
いくつかの実施例において、上記処理装置122は、1つ以上の処理エンジン(例えば、シングルチップ処理エンジン又はマルチチップ処理エンジン)を含んでもよい。単なる例として、処理装置122は、中央処理ユニット(CPU)、特定用途向け集積回路(ASIC)、特定用途向け命令セットプロセッサ(ASIP)、画像処理ユニット(GPU)、物理演算ユニット(PPU)、デジタル信号プロセッサ(DSP)、フィールドプログラム可能なゲートアレイ(FPGA)、プログラム可能なロジックデバイス(PLD)、コントローラ、マイクロコントローラユニット、縮小命令セットコンピュータ(RISC)、マイクロプロセッサなど、又はそれらの任意の組み合わせを含んでもよい。いくつかの実施例において、処理装置122は、オーディオ収集装置110に統合されてもよい。
【0045】
いくつかの実施例において、端末130は、モバイルデバイス130-1、タブレットコンピュータ130-2、ラップトップコンピュータ130-3、車両の内蔵デバイス130-4、ウェアラブルデバイス130-5など、又はそれらの任意の組み合わせを含んでもよい。いくつかの実施例において、モバイルデバイス130-1は、スマートホームデバイス、スマートモバイルデバイス、仮想現実デバイス、拡張現実デバイスなど、又はそれらの任意の組み合わせを含んでもよい。いくつかの実施例において、スマートホームデバイスは、スマート照明装置、スマート電器制御装置、スマート監視装置、スマートテレビ、スマートビデオカメラ、インターホンなど、又はそれらの任意の組み合わせを含んでもよい。いくつかの実施例において、スマートモバイルデバイスは、スマートフォン、パーソナルデジタルアシスタント(PDA)、ゲーム装置、ナビゲーション装置、販売時点情報管理装置(POS)など、又はそれらの任意の組み合わせを含んでもよい。いくつかの実施例において、仮想現実デバイス及び/又は拡張現実デバイスは、仮想現実ヘルメット、仮想現実メガネ、仮想現実アイマスク、拡張現実ヘルメット、拡張現実メガネ、拡張現実アイマスクなど、又はそれらの任意の組み合わせを含んでもよい。例えば、仮想現実デバイス及び/又は拡張現実デバイスは、Google Glass(登録商標)、Oculus Rift、Hololens(登録商標)、Gear VR(登録商標)などを含んでもよい。いくつかの実施例において、車載装置130-4は、車載コンピュータ、車載テレビなどを含んでもよい。いくつかの実施例において、端末130は、乗客及び/又は端末130の位置を測位する測位技術を有するデバイスであってもよい。いくつかの実施例において、ウェアラブルデバイス130-5は、スマートブレスレット、スマート履物、スマートメガネ、スマートヘルメット、スマートウォッチ、スマート衣類、スマートバックパック、スマートアクセサリなど、又はそれらの任意の組み合わせを含んでもよい。いくつかの実施例において、オーディオ収集装置110及び端末130は、1つの装置に統合されてもよい。
【0046】
記憶装置140は、データ及び/又は命令を記憶することができる。例えば、記憶装置140は、複数セットの音声サンプルデータ、1つ以上の機械学習モデル、トレーニング済みの機械学習モデル及び/又は構築されたフィルタ、骨伝導マイクロフォン及び空気伝導マイクロフォン114によって収集されたオーディオデータなどを記憶することができる。いくつかの実施例において、記憶装置140は、端末130及び/又はオーディオ収集装置110から取得されたデータを記憶することができる。いくつかの実施例において、記憶装置140は、サーバ120によって実行され得る、本願に記載の例示的な方法を実行するためのデータ及び/又は命令を記憶することができる。いくつかの実施例において、記憶装置140は、大容量メモリ、リムーバブルメモリ、揮発性読み書きメモリ、読み取り専用メモリ(ROM)など、又はそれらの任意の組み合わせを含んでもよい。例示的な大容量メモリは、磁気ディスク、光ディスク、ソリッドステートドライブなどを含んでもよい。例示的なリムーバブルメモリは、フラッシュドライブ、フレキシブルディスク、光ディスク、メモリカード、コンパクトディスク、磁気テープなどを含んでもよい。例示的な揮発性読み書きメモリは、ランダムアクセスメモリ(RAM)を含んでもよい。例示的なRAMは、ダイナミックランダムアクセスメモリ(DRAM)、ダブルデータレート同期ダイナミックランダムアクセスメモリ(DDR SDRAM)、スタティックランダムアクセスメモリ(SRAM)、サイリスタランダムアクセスメモリ(T-RAM)、ゼロキャパシタランダムアクセスメモリ(Z-RAM)などを含んでもよい。例示的なROMは、マスク読み取り専用メモリ(MROM)、プログラム可能な読み取り専用メモリ(PROM)、消去可能・プログラム可能な読み取り専用メモリ(EPROM)、電気的消去可能・プログラム可能な読み取り専用メモリ(EEPROM)、コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク読み取り専用メモリなどを含んでもよい。いくつかの実施例において、上記記憶装置140は、クラウドプラットフォームに実装されてもよい。単なる例として、該クラウドプラットフォームは、プライベートクラウド、パブリッククラウド、ハイブリッドクラウド、コミュニティクラウド、分散クラウド、インターナルクラウド、マルチクラウドなど、又はそれらの任意の組み合わせを含んでもよい。
【0047】
いくつかの実施例において、記憶装置140は、ネットワーク150に接続されて、オーディオ信号生成システム100の1つ以上のコンポーネント(例えば、オーディオ収集装置110、サーバ120及び端末130)と通信することができる。オーディオ信号生成システム100の1つ以上のコンポーネントは、ネットワーク150を介して記憶装置140に記憶されたデータ又は命令にアクセスすることができる。いくつかの実施例において、記憶装置140は、オーディオ信号生成システム100の1つ以上のコンポーネント(例えば、オーディオ収集装置110、サーバ120及び端末130)に直接接続されてもよく、それらと通信してもよい。いくつかの実施例において、記憶装置140は、サーバ120の一部であってもよい。
【0048】
ネットワーク150は、情報及び/又はデータの交換を容易にすることができる。いくつかの実施例において、オーディオ信号生成システム100の1つ以上のコンポーネント(例えば、オーディオ収集装置110、サーバ120、端末130及び記憶装置140)は、ネットワーク150を介して情報及び/又はデータをオーディオ信号生成システム100の他のコンポーネントに送信することができる。例えば、サーバ120は、ネットワーク150を介して端末130から骨伝導データ及び空気伝導データを取得することができる。いくつかの実施例において、ネットワーク150は、任意の形態の有線又は無線ネットワーク、又はそれらの組み合わせであってもよい。単なる例として、ネットワーク150は、ケーブルネットワーク、有線ネットワーク、光ファイバネットワーク、電気通信ネットワーク、イントラネット、インターネット、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、無線ローカルエリアネットワーク(WLAN)、メトロポリタンエリアネットワーク(MAN)、公衆電話交換網(PSTN)、ブルートゥース(登録商標)ネットワーク、ZigBeeネットワーク、近距離通信(NFC)ネットワークなど、又はそれらの任意の組み合わせを含んでもよい。いくつかの実施例において、ネットワーク150は、1つ以上のネットワークアクセスポイントを含んでもよい。例えば、ネットワーク150は、基地局及び/又はインターネット交換ポイントなどの有線又は無線ネットワークアクセスポイントを含んでもよく、オーディオ信号生成システム100の1つ以上のコンポーネントは、それらのネットワークアクセスポイントにより、ネットワーク150に接続されてデータ及び/又は情報の交換を行うことができる。
【0049】
当業者であれば、オーディオ信号生成システム100の素子(又はコンポーネント)が動作する場合、該素子は電気信号及び/又は電磁信号によって動作することができることが理解されよう。例えば、骨伝導マイクロフォン112が骨伝導データをサーバ120に送信する場合、骨伝導マイクロフォン112のプロセッサは、骨伝導データを符号化する電気信号を生成することができる。そして、骨伝導マイクロフォン112のプロセッサは、電気信号を出力ポートに伝送することができる。骨伝導マイクロフォン112が有線ネットワークを介してサーバ120と通信する場合、出力ポートは、ケーブルに物理的に接続されてもよく、ケーブルは、さらに電気信号をサーバ120の入力ポートに伝送することができる。骨伝導マイクロフォン112が無線ネットワークを介してサーバ120と通信する場合、骨伝導マイクロフォン112の出力ポートは、電気信号を電磁信号に変換する1つ以上のアンテナであってもよい。同様に、空気伝導マイクロフォン114は、電気信号又は電磁信号を介して、サーバ120に空気伝導データを送信することができる。端末130及び/又はサーバ120のような電子デバイスにおいて、そのプロセッサが命令を処理し、命令を送信し、及び/又は動作を実行する場合、命令及び/又は動作は、電気信号を介して行われる。例えば、プロセッサは、記憶媒体からデータを検索又は取得する場合、記憶媒体の読み取り/書き込みデバイスに電気信号を送信することができ、該読み取り/書き込みデバイスは、記憶媒体内の構造化データを読み取ったり、記憶媒体に構造化データを書き込んだりすることができる。該構造化データは、電子デバイスのバスを介して、電気信号の形態でプロセッサに伝送することができる。ここで、電気信号は、1つの電気信号、一連の電気信号及び/又は少なくとも2つの不連続な電気信号であってもよい。
【0050】
図2は、本願のいくつかの実施例に係る例示的なコンピューティングデバイスの概略図を示す。コンピューティングデバイスは、本願のいくつかの実施例に係る任意の特定のシステムを実装するように構成されたコンピュータ、例えば、
図1の処理装置122、及び/又は特定の機能を有するコンピュータであってもよい。コンピューティングデバイス200は、本願で開示される1つ以上の機能を実行する任意のコンポーネントを実装することができる。例えば、サーバ120は、コンピューティングデバイス200などのコンピュータのハードウェアデバイス、ソフトウェアプログラム、ファームウェア、又はそれらの任意の組み合わせで実装されてもよい。簡潔にするために、
図2は、コンピューティングデバイスを1つのみ示す。いくつかの実施例において、コンピューティングデバイスの機能は、システムの処理負荷を分散するために、分散モードにおける類似のプラットフォームのグループによって実装されてもよい。
【0051】
コンピューティングデバイス200は、データ通信可能なネットワークに接続可能な通信ポート250を含んでもよい。コンピューティングデバイス200は、命令を実行するように構成され、1つ以上のプロセッサを含むプロセッサ220をさらに含んでもよい。概略的なコンピュータプラットフォームは、内部通信バス210、異なるタイプのプログラム記憶ユニット及びデータ記憶ユニット(例えば、ハードディスク270、読み取り専用メモリ(ROM)230、ランダムアクセスメモリ(RAM)240)、コンピュータ処理及び/又は通信に適用可能な様々なデータファイル、及びプロセッサ220によって実行可能ないくつかのプログラム命令を含んでもよい。コンピューティングデバイス200は、コンピューティングデバイス200と他のコンポーネントとの間のデータストリームの入力及び出力をサポートすることができるI/Oデバイス260をさらに含んでもよい。また、コンピューティングデバイス200は、通信ネットワークを介してプログラム及びデータを受信することができる。
【0052】
図3は、本願のいくつかの実施例に係る例示的なオーディオ収集装置の概略図である。
図3に示すように、オーディオ収集装置300は、収集モジュール310及び信号処理モジュール320を含んでもよい。
【0053】
収集モジュール310は、ユーザが話すときに生成される振動信号を収集して、振動信号を電気信号(オーディオ信号とも呼ばれる)に変換するように構成されてもよい。振動信号は、ユーザ音声を表すことができる。具体的には、ユーザが話すときに生成される振動信号を、機械的振動の形で収集モジュール310の1つ以上のアセンブリ(例えば、マイクロフォンアセンブリの振動膜)に送信することにより、収集モジュール310の1つ以上のアセンブリは、対応する機械的振動を発生させることができる。
【0054】
説明のために、収集モジュール310は、骨伝導アセンブリ311及び/又は空気伝導アセンブリ312を含んでもよい。骨伝導アセンブリ311は、振動アセンブリ、磁石アセンブリ及びコイルを含んでもよい。振動アセンブリは、本願の他の箇所(例えば、
図1及びその説明)に記載されるように、ユーザが話すときに生成され、ユーザの骨格(例えば、頭蓋骨)を介して伝導される振動信号(骨伝導振動信号又は音波とも呼ばれる)を収集することができる。骨伝導アセンブリ311は、振動信号を電気信号(すなわち、オーディオ信号)に変換することができる。例えば、振動板の振動によりコイルが振動する場合がある。コイルは、磁石アセンブリによって生成された磁場中で振動して電気信号を生成することができる。
【0055】
空気伝導アセンブリ312は、本願の他の箇所(例えば、
図1及びその説明)に記載されるように、ユーザが話すときに空気を介して伝導される振動信号(空気伝導振動信号とも呼ばれる)を収集することができる。空気伝導アセンブリ312は、振動アセンブリ、磁石アセンブリ及びコイルを含んでもよい。本願の他の箇所(例えば、
図1及びその説明)に記載されるように、ユーザが話すとき、振動部品は、空気を介して伝導される振動信号(骨伝導振動信号又は音波とも呼ばれる)を収集することができる。空気伝導アセンブリ312は、振動信号を電気信号(すなわち、オーディオ信号)に変換することができる。例えば、振動板の振動によりコイルが振動する場合がある。コイルは、磁石アセンブリによって生成された磁場中で振動して電気信号を生成することができる。
【0056】
いくつかの実施例において、骨伝導アセンブリ311及び空気伝導アセンブリ312は、2つの独立した機能装置であってもよく、単一装置の2つの独立したアセンブリであってもよい。本明細書で使用されるように、第1の装置と第2の装置とが独立しているとは、第1/第2の装置の操作が第2/第1の装置の操作によるものではないことを示し、言い換えれば、第1/第2の装置の操作が第2/第1の装置の操作の結果ではないことを示す。骨伝導アセンブリ及び空気伝導アセンブリを例として、空気伝導アセンブリと骨伝導アセンブリとが独立しているのは、ユーザが話すとき、空気の振動により空気伝導アセンブリが駆動されて空気伝導振動信号を生成し、ユーザが話すとき、骨格の振動により骨伝導アセンブリが駆動されて骨伝導振動信号を生成するからである。
【0057】
いくつかの実施例において、骨伝導オーディオ信号又は空気伝導オーディオ信号は、異なる周波数及び/又は強度(すなわち、振幅)を有する複数の波(例えば、正弦波、高調波など)の重ね合わせによって表されてもよい。本明細書で使用されるように、特定の周波数を有する波は、特定の周波数を有する周波数成分と呼ばれてもよい。いくつかの実施例において、骨伝導アセンブリ321によって取得された骨伝導オーディオ信号に含まれる周波数成分は、0Hz~20kHz、20Hz~10kHz、20Hz~4000Hz、20Hz~3000Hz、1000Hz~3500Hz、1000Hz~3000Hz、1500Hz~3000Hzなどの周波数範囲内にあってもよい。いくつかの実施例において、空気伝導アセンブリ322によって収集された空気伝導オーディオ信号に含まれる周波数成分は、0Hz~20kHz、又は20Hz~20kHz、又は1000Hz~10kHzなどの周波数範囲内にあってもよい。
【0058】
信号処理モジュール320は、骨伝導アセンブリ311及び/又は空気伝導アセンブリ312に電気的に結合されてもよい。信号処理モジュール320は、収集モジュール310から振動信号(すなわち、オーディオ信号)を受信して、振動信号(すなわち、オーディオ信号)を処理することができる。例えば、信号処理モジュール320は、プロセス600、プロセス700及び/又はプロセス1000に従って骨伝導オーディオ信号及び空気伝導オーディオ信号を処理することができる。
【0059】
別の例として、信号処理モジュール320は、様々な信号処理操作、例えば、サンプリング、デジタル化、圧縮、周波数割り当て、周波数変調、符号化など、又はそれらの組み合わせを実行することにより、オーディオ信号を処理することができる。
【0060】
いくつかの実施例において、信号処理モジュール320は、処理装置122と同じ又は異なるプロセッサを含んでもよい。
【0061】
なお、上記オーディオ収集装置300に関する説明は、説明のためのものに過ぎず、本願の範囲を限定することを意図するものではない。当業者であれば、本願の説明に基づいて様々な変更及び修正を行うことができる。しかしながら、これらの変更及び修正は本願の範囲から逸脱しない。例えば、オーディオ収集装置300は、処理されたオーディオ信号(例えば、本願の他の箇所に記載の目標オーディオ信号)を出力装置(例えば、スピーカーを備えた端末(例えば、骨伝導スピーカー及び/又は空気伝導スピーカー))に送信するように構成された出力モジュールを含んでもよい。別の例として、出力モジュールは、処理されたオーディオ信号を出力するように構成されたスピーカー(例えば、骨伝導スピーカー及び/又は空気伝導スピーカー)を含んでもよい。
【0062】
図4は、本願のいくつかの実施例に係る例示的な処理装置122のブロック図である。処理装置122は、
図1を参照して説明した例示的な処理装置122であってもよい。いくつかの実施例において、処理装置122は、オーディオ信号を生成する際に1つ以上の機械学習モデルを適用するように構成されてもよい。
【0063】
図4に示すように、処理装置122は、取得モジュール402、決定モジュール404及び出力モジュール406を含んでもよい。
【0064】
取得モジュール402は、オーディオ信号生成システム100に関する情報を取得するように構成されてもよい。例えば、取得モジュール402は、骨伝導センサによって取得された骨伝導オーディオ信号と、空気伝導センサによって取得された空気伝導オーディオ信号とを取得することができる。骨伝導オーディオ信号及び空気伝導オーディオ信号を取得することに関するより多くの説明は、本願の他の箇所で見つけることができる。例えば、
図6の操作602及び604、並びにそれらの関連説明を参照されたい。別の例として、取得モジュール402は、トレーニング済みの機械学習モデルを取得することができる。トレーニング済みの機械学習モデルは、特定の骨伝導オーディオ信号に由来する骨伝導データセットと特定の骨伝導オーディオ信号に対応する特定の等価空気伝導信号に由来する1つ以上の等価空気伝導データセットとの間のマッピング関係を提供する。トレーニング済みの機械学習モデルに関するより多くの説明は、本願の他の箇所で見つけることができる。
図6の操作606及びその関連説明を参照されたい。
【0065】
決定モジュール404は、骨伝導オーディオ信号及び空気伝導オーディオ信号に基づいて、トレーニング済みの機械学習モデルに基づいて骨伝導オーディオ信号に対応する目標等価空気伝導データセットを決定することができる。目標等価空気伝導データセットを決定することに関するより多くの説明は、本願の他の箇所で見つけることができる。
図6の操作608及びその関連説明を参照されたい。
【0066】
決定モジュール404は、さらに骨伝導オーディオ信号及び空気伝導オーディオ信号に基づいて、トレーニング済みの機械学習モデルを使用してユーザ音声を表す目標オーディオ信号を生成することができる。目標オーディオ信号の生成に関するより多くの説明は、本願の他の箇所で見つけることができる。
図10の操作1008及びその関連説明を参照されたい。
【0067】
出力モジュール406は、オーディオ信号出力装置に目標オーディオ信号を出力させるように構成されてもよい。目標オーディオ信号の出力に関するより多くの説明は、本願の他の箇所で見つけることができる。例えば、
図6の操作610、
図10の操作1010及びそれらの関連説明を参照されたい。
【0068】
図5は、本願のいくつかの実施例に係る例示的な処理装置122のブロック図である。処理装置122は、
図1を参照して説明した例示的な処理装置122であってもよい。いくつかの実施例において、処理装置122は、1つ以上の機械学習モデルを生成するように構成されてもよい。いくつかの実施例において、
図4において説明した処理装置122及び
図5において説明した処理装置122は、それぞれ処理ユニットに実装されてもよい。或いは、
図4において説明した処理装置122及び/又は
図5において説明した処理装置122は、同じコンピューティングデバイス(例えば、コンピューティングデバイス200)に実装されてもよい。
【0069】
図5に示すように、処理装置122は、取得モジュール502とモデル生成モジュール504とを含んでもよい。
【0070】
取得モジュール502は、少なくとも2つのトレーニングデータを取得するように構成されてもよい。いくつかの実施例において、複数のトレーニングデータセットのそれぞれは、同じ音声サンプルを表す第1のオーディオ信号及び第2のオーディオ信号を含んでもよい。いくつかの実施例において、複数のトレーニングデータセットのそれぞれは、骨伝導オーディオ信号、空気伝導オーディオ信号及び基準空気伝導オーディオ信号を含んでもよい。予備機械学習モデルのトレーニングにおいて、各トレーニングデータセット内の骨伝導オーディオ信号及び空気伝導オーディオ信号は、予備機械学習モデルの入力として使用されてもよく、基準空気伝導オーディオ信号は、予備機械学習モデルの所望の出力として使用されてもよい。トレーニングデータを取得することに関するより多くの説明は、本願の他の箇所で見つけることができる。例えば、
図8の操作802、
図10の操作1006及びそれらの関連説明を参照されたい。
【0071】
モデル生成モジュール504は、複数セットのトレーニングデータを使用して予備機械学習モデルをトレーニングすることにより、1つ以上のトレーニング済みの機械学習モデルを生成するように構成されてもよい。いくつかの実施例において、機械学習アルゴリズムに従って1つ以上の機械学習モデルを生成することができる。機械学習アルゴリズムは、人工ニューラルネットワークアルゴリズム、深層学習アルゴリズム、決定木アルゴリズム、相関ルールアルゴリズム、帰納論理プログラミングアルゴリズム、サポートベクターマシンアルゴリズム、クラスタリングアルゴリズム、ベイジアンネットワークアルゴリズム、強化学習アルゴリズム、表現学習アルゴリズム、類似性メトリック学習アルゴリズム、スパース辞書学習アルゴリズム、遺伝的アルゴリズム、ルールベースの機械学習アルゴリズムなど、又はそれらの任意の組み合わせを含んでもよいが、これらに限定されない。1つ以上の機械学習モデルを生成するための機械学習アルゴリズムは、教師あり学習アルゴリズム、半教師あり学習アルゴリズム、教師なし学習アルゴリズムなどであってもよい。1つ以上の機械学習モデルを生成することに関するより多くの説明は、本願の他の箇所で見つけることができる。例えば、
図8の操作804、
図10の操作1006及びそれらの関連説明を参照されたい。
【0072】
なお、以上の説明は、説明のためのものに過ぎず、本願の範囲を限定することを意図するものではない。当業者であれば、本願の説明に基づいて様々な変更及び修正を行うことができる。しかしながら、これらの変更及び修正は本願の範囲から逸脱しない。いくつかの実施例において、
図4において説明した処理装置122及び/又は
図5において説明した処理装置122は、2つ以上のモジュールを共有してもよく、モジュールのうちのいずれか1つは、2つ以上のユニットに分割されてもよい。例えば、
図4において説明した処理装置122と
図5において説明した処理装置122とは、同じ取得モジュールを共有してもよく、つまり、取得モジュール402と取得モジュール502とは、同じモジュールである。いくつかの実施例において、
図1に示す処理装置122及び/又は
図4において説明した処理装置122は、1つ以上の追加モジュール、例えば、データを記憶する記憶モジュール(図示せず)を含んでもよい。いくつかの実施例において、
図4において説明した処理装置122及び
図5において説明した処理装置122は、1つの処理装置122に統合されてもよい。
【0073】
図6は、本願のいくつかの実施例に係る、オーディオ信号を生成するための例示的なプロセスの概略フローチャートである。いくつかの実施例において、プロセス600は、記憶装置140、ROM230、RAM240又はメモリ390に記憶された命令(例えば、アプリケーションプログラム)として実装されてもよい。
図6は、本願のいくつかの実施例に係る、オーディオ信号を生成するための例示的なプロセスの概略フローチャートである。以下に示すプロセスの操作は、説明のためのものに過ぎない。いくつかの実施例において、プロセス600は、説明されていない1つ以上の追加の操作及び/又は検討されていない1つ以上の操作により完了されてもよい。また、
図6に示され、以下に説明されるプロセス600の操作の順序は限定されない。
【0074】
602において、処理装置122(例えば、取得モジュール402)は、骨伝導センサによって取得された骨伝導オーディオ信号を取得することができる。
【0075】
本明細書で使用されるように、骨伝導センサは、本願の他の箇所(例えば、
図1及びその説明)に記載されるように、ユーザが話すときにユーザの骨格(例えば、頭蓋骨)を介して伝導された振動信号を取得することができる任意のセンサ(例えば、骨伝導マイクロフォン112)であってもよい。骨伝導センサ又はその他の任意のデバイス(例えば、増幅器、アナログデジタル変換器(ADC)など)は、骨伝導センサによって取得された振動信号をオーディオ信号(オーディオデータとも呼ばれる)に変換することができる。骨伝導センサによって取得されたオーディオ信号は、骨伝導オーディオ信号と呼ばれてもよい。オーディオ信号とは、音声の意味内容を含むデータである。
【0076】
いくつかの実施例において、処理装置122は、ネットワーク150を介して骨伝導センサ(例えば、骨伝導マイクロフォン112)、端末130、記憶装置140又はその他の任意の記憶装置から骨伝導オーディオ信号をリアルタイム又は周期的に取得することができる。例えば、ユーザが閾値未満の時間帯(例えば、20ms、30ms、40msなど)内に話すと、骨伝導オーディオ信号は、骨伝導センサによって取得及び/又は生成することができる。骨伝導センサは、骨伝導オーディオ信号をリアルタイムで処理装置122に直接送信することができる。本明細書で使用されるように、骨伝導センサが骨伝導オーディオ信号をリアルタイムで処理装置122に送信することは、骨伝導センサが骨伝導オーディオ信号を取得する取得時間と、処理装置122が骨伝導オーディオ信号を取得する受信時間とが閾値(例えば、20ms、20ms、30ms、40msなど)未満であることを意味する。別の例として、骨伝導センサは、例えば、1秒毎、1分毎、1時間毎など、骨伝導オーディオ信号を周期的に送信してもよい。
【0077】
骨伝導オーディオ信号は、異なる周波数及び/又は強度(すなわち、振幅)を有する複数の波(例えば、正弦波、高調波など)の重ね合わせによって表されてもよい。本明細書で使用されるように、特定の周波数を有する波は、特定の周波数を有する周波数成分と呼ばれてもよい。いくつかの実施例において、骨伝導センサによって収集された骨伝導オーディオ信号に含まれる周波数成分は、0Hz~20kHz、20Hz~10kHz、20Hz~4000Hz、20Hz~3000Hz、1000Hz~3500Hz、1000Hz~3000Hz、1500Hz~3000Hzなどの周波数範囲内にあってもよい。
【0078】
いくつかの実施例において、骨伝導オーディオ信号は、骨伝導センサをユーザの体のある領域に固定し、及び/又は骨伝導センサをユーザの皮膚に接触させることにより収集及び/又は生成することができる。骨伝導オーディオ信号を収集する骨伝導センサに接触するユーザの体の領域は、額、首(例えば、喉)、乳様突起、耳の周りの領域又は耳の内部の領域、こめかみ、顔(例えば、口の周りの領域、顎)、頭頂部などを含んでもよいが、これらに限定されない。例えば、骨伝導マイクロフォン112は、耳珠、耳介、内耳道、外耳道などに位置してもよく、及び/又はそれらに接触してもよい。いくつかの実施例において、骨伝導センサに接触するユーザの体の異なる領域に応じて、骨伝導オーディオ信号が異なる可能性がある。例えば、骨伝導センサに接触するユーザの体の異なる領域は、骨伝導オーディオ信号の周波数成分、音響特徴(例えば、周波数成分の振幅)、骨伝導オーディオ信号に含まれるノイズなどの変化を引き起こす可能性がある。例えば、首に位置する骨伝導センサによって収集された骨伝導オーディオ信号の信号強度は、耳珠に位置する骨伝導センサによって収集された骨伝導オーディオ信号の信号強度より大きく、耳珠に位置する骨伝導センサによって収集された骨伝導オーディオ信号の信号強度は、耳道に位置する骨伝導センサによって収集された骨伝導オーディオ信号の信号強度より大きい。別の例として、ユーザの耳の周りの領域に位置する第1の骨伝導センサによって収集された骨伝導オーディオ信号は、同じ構成を有するがユーザの頭頂部に位置する第2の骨伝導センサによって同時に収集された骨伝導オーディオ信号よりも多くの周波数成分を含んでもよい。いくつかの実施例において、骨伝導オーディオ信号は、ユーザの体の領域に位置する骨伝導センサによって収集することができ、骨伝導センサが加える特定の圧力の範囲は、0ニュートン~1ニュートン、又は0ニュートン~0.8ニュートンなどである。例えば、骨伝導オーディオ信号は、ユーザの体の耳珠に位置する骨伝導センサによって収集することができ、骨伝導センサが加える特定の圧力は、0ニュートン、0.2ニュートン、0.4ニュートン、又は0.8ニュートンなどである。骨伝導センサがユーザの体の同じ領域に異なる圧力を加えると、骨伝導オーディオ信号の周波数成分、音響特徴(例えば、周波数成分の振幅)、骨伝導オーディオ信号におけるノイズなどが変化する可能性がある。例えば、圧力が0Nから0.8Nに増加すると、骨伝導データの信号強度が徐々に増加し、その後、信号強度の増加が飽和するまで減速する可能性がある。
【0079】
骨伝導オーディオ信号は、ユーザの発話、すなわちユーザ音声を表すことができる。言い換えれば、骨伝導オーディオ信号は、ユーザ音声の意味内容を反映するか又は示すことができる音響特徴及び/又は意味情報を含んでもよい。本明細書で使用されるように、オーディオ信号(例えば、骨伝導オーディオ信号)が表す意味情報は、音声認識技術を使用してオーディオデータから認識される意味内容を指してもよい。音声認識技術を使用してオーディオ信号(例えば、骨伝導オーディオ信号)から認識される意味情報は、推定意味内容と呼ばれてもよい。ユーザ音声の意味内容は、実際の意味内容と呼ばれてもよい。オーディオ信号(例えば、骨伝導オーディオ信号)から認識される推定意味内容は、ユーザ音声の実際の意味内容と同一又は類似してもよい。本明細書で使用されるように、オーディオ信号の意味内容(すなわち、推定意味内容)がユーザ音声の実際の意味内容を反映するか又は示すことは、オーディオ信号(例えば、骨伝導オーディオ信号)から認識された推定意味内容とユーザ音声の実際の意味内容との間の類似性又は関連度が閾値(例えば、90%、95%、99%など)より大きいことを指す。
【0080】
骨伝導オーディオ信号の音響特徴は、持続時間に関連する1つ以上の特徴、エネルギーに関連する1つ以上の特徴、基本周波数に関連する1つ以上の特徴、周波数スペクトルに関連する1つ以上の特徴、位相スペクトルに関連する1つ以上の特徴などを含んでもよい。持続時間に関連する特徴は、持続時間特徴と呼ばれてもよい。例示的な持続時間特徴は、発話速度、短時間平均ゼロ交差率などを含んでもよい。エネルギーに関連する特徴は、エネルギー又は振幅特徴と呼ばれてもよい。例示的なエネルギー又は振幅特徴は、短時間平均エネルギー、短時間平均振幅、短時間エネルギー勾配、平均振幅変化率、短時間最大振幅などを含んでもよい。基本周波数に関連する特徴は、基本周波数特徴と呼ばれてもよい。例示的な基本周波数特徴は、基本周波数、基本周波数の基本周波数、平均基本周波数、最大基本周波数、基本周波数範囲などを含んでもよい。周波数スペクトルに関連する例示的な特徴は、フォルマント特徴、線形予測ケプストラム係数(Linear Prediction Cepstrum Coefficients、LPCC)、mel周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficients、MFCC)などを含んでもよい。位相スペクトルに関連する例示的な特徴は、瞬時位相、初期位相などを含んでもよい。
【0081】
いくつかの実施例において、骨伝導オーディオ信号は、時間領域におけるオーディオ信号、周波数領域におけるオーディオ信号などであってもよい。骨伝導オーディオ信号は、アナログ信号又はデジタル信号を含んでもよい。
【0082】
いくつかの実施例において、骨伝導オーディオ信号を処理して1つ以上の骨伝導データセットを取得することができる。いくつかの実施例において、骨伝導オーディオ信号は、それぞれ時間帯に対応する1つ以上の部分に分割されてもよい。例えば、時間窓に基づいて骨伝導オーディオ信号に対してフレーミング操作を実行することができる。1つの骨伝導データセットは、オーディオフレームを含んでもよい。いくつかの実施例において、骨伝導オーディオ信号に対して特徴抽出操作を実行して1つ以上の骨伝導データセットを取得し、及び/又は抽出された音響特徴に基づいてオーディオ認識操作を実行して1つ以上の骨伝導データセットを取得することができる。骨伝導データセットは、音素を形成することができる骨伝導音響特徴、骨伝導音響特徴からなる音素、1つ以上の音素からなる音節、1つ以上の音節からなる単語、1つ以上の単語からなるフレーズ、1つ以上のフレーズからなる文など、又はそれらの任意の組み合わせを含んでもよい。
【0083】
604において、処理装置122(例えば、取得モジュール402)は、空気伝導センサによって取得された空気伝導オーディオ信号を取得することができる。
【0084】
本明細書で使用される空気伝導センサは、本願の他の箇所(例えば、
図1及びその説明)に記載されるように、ユーザが話すときに空気を介して伝導される振動信号を取得することができる任意のセンサ(例えば、空気伝導マイクロフォン114)であってもよい。空気伝導センサによって取得された振動信号は、空気伝導センサ又はその他の任意のデバイス(例えば、増幅器、アナログデジタル変換器(ADC)など)によってオーディオ信号(オーディオデータとも呼ばれる)に変換することができる。空気伝導センサによって取得されたオーディオ信号は、空気伝導オーディオ信号とも呼ばれてもよい。
【0085】
いくつかの実施例において、処理装置122は、ネットワーク150を介して空気伝導センサ(例えば、空気伝導マイクロフォン114)、端末130、記憶装置140又はその他の任意の記憶装置から空気伝導オーディオ信号をリアルタイム又は周期的に取得することができる。ユーザが話すと、空気伝導オーディオ信号は、空気伝導センサによって取得及び/又は生成することができる。いくつかの実施例において、空気伝導センサをユーザの口からの一定の距離閾値(例えば、0センチメートル、1センチメートル、2センチメートル、5センチメートル、10センチメートル、20センチメートルなど)内に固定して空気伝導オーディオ信号を収集することができる。いくつかの実施例において、空気伝導オーディオ信号(例えば、空気伝導オーディオ信号の平均振幅)は、空気伝導センサとユーザの口との間の距離に応じて異なり得る。
【0086】
いくつかの実施例において、空気伝導オーディオ信号は、時間領域におけるオーディオ信号、周波数領域におけるオーディオ信号などであってもよい。空気伝導オーディオ信号は、アナログ信号又はデジタル信号を含んでもよい。
【0087】
空気伝導オーディオ信号は、異なる周波数及び/又は強度(すなわち、振幅)を有する複数の波(例えば、正弦波、高調波など)の重ね合わせによって表されてもよい。いくつかの実施例において、空気伝導センサによって収集された空気伝導オーディオ信号に含まれる周波数成分は、0Hz~20kHz、20Hz~20kHz、又は1000Hz~10kHzなどの周波数範囲内にあってもよい。ユーザが話すと、空気伝導データによって空気伝導オーディオ信号を収集及び/又は生成することができる。空気伝導オーディオ信号は、ユーザの発話、すなわちユーザの意味を表すことができる。例えば、空気伝導オーディオ信号は、ユーザ音声の意味内容を反映することができる音響特徴及び/又は意味情報を含んでもよい。操作602において説明したように、空気伝導オーディオ信号の音響特徴は、持続時間に関連する1つ以上の特徴、エネルギーに関連する1つ以上の特徴、基本周波数に関連する1つ以上の特徴、周波数スペクトルに関連する1つ以上の特徴、位相スペクトルに関連する1つ以上の特徴などを含んでもよい。
【0088】
いくつかの実施例において、骨伝導オーディオ信号及び空気伝導オーディオ信号は、異なる周波数成分によって同じユーザ音声を表すことができる。骨伝導データ及び空気伝導データは、同じユーザ音声の実際の意味内容を反映することができる、同じ又は異なる推定意味情報を含んでもよい。空気伝導オーディオ信号から認識された推定意味情報は、骨伝導オーディオ信号から認識された推定意味情報と同じであってもよく、異なってもよい。同じユーザ音声を表す骨伝導オーディオ信号及び空気伝導オーディオ信号は、ユーザが話すときに、骨伝導オーディオ信号及び空気伝導オーディオ信号がそれぞれ骨伝導センサ及び空気伝導センサによって同時に収集されることを意味してもよい。いくつかの実施例において、骨伝導センサによって収集された骨伝導オーディオ信号は、第1の周波数成分を含んでもよい。空気伝導オーディオ信号は、第2の周波数成分を含んでもよい。いくつかの実施例において、空気伝導オーディオ信号の第2の周波数成分は、第1の周波数成分の少なくとも一部を含んでもよい。空気伝導オーディオ信号の音響特徴は、骨伝導オーディオ信号の音響特徴と同じであってもよく、異なってもよい。例えば、骨伝導オーディオ信号の特定の周波数成分の振幅は、空気伝導オーディオ信号の特定の周波数成分の振幅とは異なってもよい。別の例として、骨伝導オーディオ信号における、1つの周波数点(例えば、2000Hz)未満の周波数成分又は1つの周波数範囲(例えば、20Hz~2000Hz)内の周波数成分は、空気伝導オーディオ信号における、該周波数点(例えば、2000Hz)未満の周波数成分又は該周波数範囲(例えば、20Hz~2000Hz)内の周波数成分より多くてもよい。骨伝導オーディオ信号における、周波数点(例えば、3000Hz)より大きい周波数成分又は周波数範囲(例えば、3000Hz~20kHz)内の周波数成分は、空気伝導オーディオ信号における、該周波数点(例えば、3000Hz)より大きい周波数成分又は該周波数範囲(例えば、3000Hz~20kHz)内の空気伝導オーディオ信号の周波数成分より少なくてもよい。本明細書で使用されるように、骨伝導オーディオ信号における、周波数点(例えば、2000Hz)より小さい周波数成分又は周波数範囲(例えば、20Hz~2000Hz)内の周波数成分が、空気伝導オーディオ信号における、該周波数点(例えば、2000Hz)より小さい周波数成分又は該周波数範囲(例えば、20Hz~2000Hz)内の周波数成分より多いことは、骨伝導オーディオ信号における、1つの周波数点(例えば、2000Hz)より小さい周波数成分又はある周波数範囲(例えば、20Hz~2000Hz)内の周波数成分のカウント又は数が、空気伝導オーディオ信号における、該周波数点(例えば、2000Hz)より小さい周波数成分又は該周波数範囲(例えば、20Hz~2000Hz)内の周波数成分のカウント又は数より多いことを意味してもよい。
【0089】
いくつかの実施例において、空気伝導オーディオ信号を処理して、1つ以上の骨伝導データセットと類似する又は同じ1つ以上の空気伝導データセットを取得することができる。空気伝導データセットは、ユーザの発話、すなわちユーザの意味を表すことができる。空気伝導データセットは、音素を形成することができる空気伝導音響特徴、空気伝導音響特徴からなる音素、1つ以上の音素からなる音節、1つ以上の音節からなる単語、1つ以上の単語からなるフレーズ、1つ以上のフレーズからなる文など、又はそれらの任意の組み合わせを含んでもよい。
【0090】
いくつかの実施例において、処理装置122は、骨伝導オーディオ信号又は空気伝導オーディオ信号の少なくとも1つを前処理することができる。例示的な前処理操作は、ドメイン変換操作、信号校正操作、音声強調操作などを含んでもよい。
【0091】
606において、処理装置122(例えば、取得モジュール402)は、特定の骨伝導オーディオ信号に由来する骨伝導データセットと特定の骨伝導オーディオ信号に対応する特定の等価空気伝導信号に由来する1つ以上の等価空気伝導データセットとの間のマッピング関係信号を提供するトレーニング済みの機械学習モデルを取得することができる。
【0092】
本明細書で使用されるように、特定の骨伝導オーディオ信号は、特定のユーザが話すときに骨伝導センサ(例えば、操作602において説明した骨伝導センサ)によって取得されたオーディオ信号(例えば、操作602において取得された骨伝導オーディオ信号)を指す。特定の骨伝導オーディオ信号に対応する特定の等価空気伝導信号は、骨伝導センサを使用して特定のユーザの音声を収集する場合、同時に空気伝導センサを使用してノイズなしの条件下で特定のユーザの音声を収集するときに空気伝導センサ(例えば、操作604において説明した空気伝導センサ)によって生成されるオーディオ信号を指す。特定の骨伝導オーディオ信号及び特定の等価空気伝導オーディオ信号は、特定のユーザの同じ音声を表すことができる。ノイズなしの条件は、1つ以上のノイズ評価パラメータ(例えば、ノイズ標準曲線、統計的ノイズレベルなど)が条件を満たし、例えば閾値未満であることを指してもよい。特定の骨伝導オーディオ信号に由来する骨伝導データセットによって表される意味情報は、特定の等価空気伝導オーディオ信号から導出された1つ以上の等価空気伝導データセットのそれぞれによって表される意味情報と類似又は同じであってもよい。骨伝導データセットによって表される意味情報と1つ以上の等価空気伝導データセットのそれぞれによって表される意味情報との間の類似性又は関連度は、閾値、例えば90%、95%、99%などを超える可能性がある。
【0093】
いくつかの実施例において、骨伝導データセットと1つ以上の等価空気伝導データセットとの間のマッピング関係は、骨伝導データセットと1つ以上の等価空気伝導データセットのそれぞれとの間のマッチング関係を示すことができる。本明細書で使用されるように、骨伝導データセットと1つ以上の等価空気伝導データセットのそれぞれとの間のマッチング関係は、骨伝導データセットと、1つ以上の等価空気伝導データセットのそれぞれとがマッチングすることを指してもよい。骨伝導データセットによって表される意味情報と等価空気伝導データセットによって表される意味情報との間の類似度又は関連度が閾値、例えば90%、95%、99%などを超える場合、骨伝導データセットと等価空気伝導データセットとがマッチングすることができる。
【0094】
いくつかの実施例において、特定の骨伝導信号に由来する1つの骨伝導データセットは、特定の骨伝導信号から抽出された1セットの音響特徴、又は1つ以上の音響特徴からなる音素、又は1つ以上の音素からなる音節、又は1つ以上の音節からなる単語などを含んでもよい。いくつかの実施例において、特定の等価空気伝導信号に由来する等価空気伝導データセットは、特定の等価空気伝導信号から抽出された1セットの音響特徴、又は1つ以上の音響特徴からなる音素、又は1つ以上の音素からなる音節、又は1つ以上の音節からなる単語などを含んでもよい。
【0095】
いくつかの実施例において、骨伝導データセットと1つ以上の等価空気伝導データセットとの間のマッピング関係は、音響特徴間のマッピング関係、音素間のマッピング関係、音節間のマッピング関係、単語間のマッピング関係など、又はそれらの任意の組み合わせを含んでもよい。音響特徴間のマッピング関係は、特定の骨伝導オーディオ信号における1セットの音響特徴と特定の等価空気伝導オーディオ信号における1セット以上の音響特徴のそれぞれとの間のマッチング関係を指す。音素間のマッピング関係は、特定の骨伝導オーディオ信号における各音素と特定の等価空気伝導オーディオ信号における1つ以上の音素のそれぞれとの間のマッチング関係を指す。音節間のマッピング関係は、特定の骨伝導オーディオ信号における各音節と特定の等価空気伝導オーディオ信号における1つ以上の音節のそれぞれとの間のマッチング関係を指す。単語間のマッピング関係は、特定の骨伝導オーディオ信号における各単語と特定の等価空気伝導オーディオ信号における1つ以上の単語のそれぞれとの間のマッチング関係を指す。
【0096】
いくつかの実施例において、骨伝導データセットと1つ以上の等価空気伝導データセットとの間のマッピング関係は、骨伝導データセットが1つ以上の等価空気伝導データセットとそれぞれマッチングする1つ以上のマッチング確率を含んでもよい。骨伝導データセットと1つの等価空気伝導データセットとがマッチングするマッチング確率は、骨伝導データセットによって表される意味情報と等価空気伝導データセットによって表される意味情報との間の類似性又は関連度を示すことができる。骨伝導データセットが表す意味情報と等価空気伝導データセットが表す意味情報との間の類似度又は関連度が大きいほど、骨伝導データセットと等価空気伝導データセットとのマッチング確率が大きくなる可能性がある。いくつかの実施例において、骨伝導データセットによって表される意味情報と等価空気伝導データセットによって表される意味情報との間の類似度又は関連度は、骨伝導データセットと等価空気伝導データセットとがマッチングするマッチング確率に等しくてもよく、又はそのマッチング確率として指定されてもよい。
【0097】
単なる例として、音節間のマッピング関係は、特定の骨伝導オーディオ信号における各音節が特定の等価空気伝導オーディオ信号における1つ以上の音節とそれぞれマッチングする1つ以上のマッチング確率を含んでもよい。
【0098】
いくつかの実施例において、トレーニング済みの機械学習モデルは、1つ以上の等価空気伝導データセット及び/又は1つ以上の等価空気伝導データセットに関連する情報(例えば、1つ以上のマッチング確率)を決定するように構成されてもよい。いくつかの実施例において、トレーニング済みの機械学習モデルは、本願の他の箇所に記載されるように、骨伝導オーディオ信号及び/又は空気伝導オーディオ信号に対して音声認識操作を実行して、1つ以上の骨伝導データセット(例えば、1セットの音響特徴、1つ以上の音素、1つ以上の音節、1つ以上の単語、文など)を認識するように構成されてもよい。いくつかの実施例において、トレーニング済みの機械学習モデルは、認識された骨伝導データセットに基づいて、1つ以上の等価空気伝導データセット及び/又は1つ以上の等価空気伝導データセットに関連する情報(例えば、1つ以上のマッチング確率)を決定するように構成されてもよい。トレーニング済みの機械学習モデルに関するより多くの説明は、本願の他の箇所(例えば、
図7及びその説明)で見つけることができる。
【0099】
いくつかの実施例において、トレーニング済みの機械学習モデルは、ニューラルネットワークモデルに基づいて再構成されてもよい。例示的なニューラルネットワークモデルは、畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)モデル、回帰型ニューラルネットワーク(Recurrent Neural Network、RNN)モデル、長・短期記憶ネットワーク(Long Short-Term Memory Network、LSTM)モデルなどを含んでもよい。いくつかの実施例において、トレーニング済みの機械学習モデルは、音声認識モデルを含んでもよい。例示的な音声認識モデルは、隠れマルコフモデル(HMM)、動的時間伸縮(DTW)に基づく音声認識モデル、人工ニューラルネットワークモデル、エンドツーエンド自動音声認識モデルなど、又はそれらの任意の組み合わせを含んでもよい。
【0100】
いくつかの実施例において、処理装置122は、ネットワーク(例えば、ネットワーク150)を介してオーディオ信号生成システム100(例えば、記憶装置140、端末130)の1つ以上のコンポーネント又は外部ソースからトレーニング済みの機械学習モデルを取得することができる。例えば、トレーニング済みの機械学習モデルは、事前にコンピューティングデバイス(例えば、処理装置122)によってトレーニングされ、オーディオ信号生成システム100の記憶装置(例えば、記憶装置140)に記憶されてもよい。処理装置122は、記憶装置にアクセスして、トレーニング済みの機械学習モデルを検索することができる。いくつかの実施例において、トレーニング済みの機械学習モデルは、本願の他の箇所(例えば、
図4及びその関連説明)に記載の機械学習アルゴリズムに従って生成されてもよい。トレーニング済みの機械学習モデルを生成することに関するより多くの説明は、本願の他の箇所(例えば、
図8及びその説明)で見つけることができる。
【0101】
いくつかの実施例において、操作602において説明したように、骨伝導センサが骨伝導オーディオ信号を取得すると、処理装置122は、骨伝導センサが位置するユーザの体の領域及び/又は骨伝導センサが加える特定の圧力に基づいて、トレーニング済みの機械学習モデルを取得することができる。骨伝導オーディオ信号を取得する骨伝導センサに接触するユーザの体の領域は、額、首(例えば、喉)、乳様突起、耳の周りの領域又は耳の内部の領域、こめかみ、顔(例えば、口の周りの領域、顎)、頭頂部などを含んでもよいが、これらに限定されない。例えば、異なる体の領域及び/又は骨伝導センサがユーザに加える異なる圧力に対応する複数のトレーニング済みの機械学習モデルは、データベースに記憶されてもよく、骨伝導センサが骨伝導オーディオ信号を取得すると、処理装置122は、操作602において説明したように、骨伝導センサが位置するユーザの体の領域と同じ領域に対応するトレーニング済みの機械学習モデルを取得することができる。
【0102】
608において、処理装置122(例えば、決定モジュール404)は、骨伝導オーディオ信号及び空気伝導オーディオ信号に基づいて、トレーニング済みの機械学習モデルを使用して骨伝導オーディオ信号に対応する目標等価空気伝導データセットを決定することができる。
【0103】
骨伝導オーディオ信号に対応する目標等価空気伝導データセットは、意味内容を表すことができる。目標等価空気伝導データセットによって表される意味内容は、ユーザ音声の実際の意味内容を表すことができる。
【0104】
いくつかの実施例において、目標等価空気伝導データセットは、等価空気伝導オーディオ信号から抽出された空気伝導音響特徴、又は等価空気伝導オーディオ信号から抽出された空気伝導音響特徴からなる1つ以上の音素、又は1つ以上の音素からなる1つ以上の音節、又は1つ以上の音節からなる1つ以上の単語、又は1つ以上の単語からなる1つ以上のフレーズ、又は1つ以上のフレーズからなる1つ以上の文など、又はそれらの任意の組み合わせを含んでもよい。目標等価空気伝導データセット、操作602で取得された骨伝導オーディオ信号及び操作604で取得された空気伝導オーディオ信号は、ユーザの同じ音声を表すことができる。
【0105】
いくつかの実施例において、骨伝導オーディオ信号は、操作602において説明した1つ以上の骨伝導データセットを含んでもよい。いくつかの実施例において、1つ以上の骨伝導データセットのそれぞれについて、処理装置122は、該骨伝導データセットに対応する目標等価空気伝導データセットを決定することができる。1つ以上の骨伝導データセットに対応する目標等価空気伝導データセットは、骨伝導オーディオ信号に対応する目標等価空気伝導データセットを形成することができる。
【0106】
いくつかの実施例において、1つ以上の骨伝導データセットのそれぞれについて、処理装置122は、骨伝導オーディオ信号に基づくトレーニング済みの機械学習モデルを使用して、骨伝導データセットに対応する1つ以上の等価空気伝導データセットを決定することができる。処理装置122は、さらに操作604で取得された空気伝導オーディオ信号に基づいて、1つ以上の等価空気伝導データセットから骨伝導データセットに対応する目標等価空気伝導データセットを識別することができる。
【0107】
いくつかの実施例において、処理装置122は、骨伝導オーディオ信号をトレーニング済みの機械学習モデルに入力することができ、トレーニング済みの機械学習モデルは、骨伝導オーディオ信号に対応する1つ以上の等価空気伝導データセット及び/又は骨伝導オーディオ信号とマッチングする1つ以上の等価空気伝導データセットのそれぞれのマッチング確率を出力することができる。処理装置122は、操作604で取得された空気伝導オーディオ信号に基づいて、1つ以上の等価空気伝導データセットから骨伝導オーディオ信号に対応する目標等価空気伝導データセットを決定することができる。
【0108】
いくつかの実施例において、処理装置122は、骨伝導オーディオ信号及び空気伝導オーディオ信号をトレーニング済みの機械学習モデルに入力することができ、トレーニング済みの機械学習モデルは、骨伝導オーディオ信号に対応する目標等価空気伝導データセットを出力することができる。
【0109】
いくつかの実施例において、処理装置122は、1つ以上の骨伝導データセットをトレーニング済みの機械学習モデルに入力することができ、トレーニング済みの機械学習モデルは、1つ以上の骨伝導データセットのそれぞれに対応する1つ以上の等価空気伝導データセット、及び/又は1つ以上の等価空気伝導データセットのそれぞれと該骨伝導データセットとがマッチングするマッチング確率を出力することができる。処理装置122は、操作604で取得された空気伝導オーディオ信号に含まれる1つ以上の空気伝導データセットに基づいて、1つ以上の等価空気伝導データセットから骨伝導データセットに対応する目標等価空気伝導データセットを決定することができる。
【0110】
いくつかの実施例において、処理装置122は、1つ以上の骨伝導データセット及び1つ以上の空気伝導データセットをトレーニング済みの機械学習モデルに入力することができ、トレーニング済みの機械学習モデルは、骨伝導データセットに対応する目標等価空気伝導データセットを出力することができる。
【0111】
目標等価空気伝導データセットを決定することに関するより多くの説明は、本願の他の箇所(例えば、
図7及びその説明)で見つけることができる。
【0112】
610において、処理装置122(例えば、出力モジュール406)は、目標等価空気伝導データセットに基づいて、オーディオ信号出力装置にユーザ音声を表す目標オーディオ信号を出力させることができる。
【0113】
いくつかの実施例において、処理装置122は、音声合成アルゴリズム(テキスト・トゥ・スピーチアルゴリズムとも呼ばれる)を使用して、目標等価空気伝導データセットを、例えば時間領域、周波数領域において等価空気伝導オーディオ信号に変換することができる。例示的な音声合成アルゴリズムは、線形予測符号化(Linear Predictive Coding、LPC)アルゴリズム、ピッチ同期重畳加算(Pitch Synchronous Over Lapand Add、PSOLA)アルゴリズムなどを含んでもよい。
【0114】
処理装置122は、等価空気伝導オーディオ信号に基づいて目標オーディオ信号を決定することができる。いくつかの実施例において、処理装置122は、等価空気伝導オーディオ信号を目標オーディオ信号として指定することができる。
【0115】
いくつかの実施例において、処理装置122は、等価空気伝導オーディオ信号に対して1つ以上の後処理操作を実行することができる。例えば、処理装置122は、空気伝導オーディオ信号に基づいて等価空気伝導オーディオ信号に追加情報を追加することができる。例示的な追加情報は、空気伝導オーディオ信号に含まれる1種又は複数種の背景ノイズと類似するもの(例えば、雨によるノイズ、風によるノイズなど)、ユーザの感情特徴(例えば、怒り、恐怖、悲しみ、楽しみなど)、ユーザの音響特徴など、又はそれらの任意の組み合わせを含んでもよい。処理装置122は、後処理された等価空気伝導オーディオ信号を目標オーディオ信号として指定することができ、これにより、決定された目標オーディオ信号の忠実度及び了解度を向上させることができる。いくつかの実施例において、追加情報は、ノイズと呼ばれてもよい。
【0116】
いくつかの実施例において、目標オーディオ信号のノイズレベルは、空気伝導オーディオ信号のノイズレベルより小さくてもよい。いくつかの実施例において、目標オーディオ信号は、操作602で取得された骨伝導オーディオ信号よりも多くの周波数成分を含んでもよい。いくつかの実施例において、目標オーディオ信号が表す意味内容とユーザ音声の実際の意味内容との類似性は、操作602で取得された骨伝導オーディオ信号が表す意味情報又は内容とユーザ音声の実際の意味内容との類似性より高い。
【0117】
処理装置122は、オーディオ信号出力装置に目標オーディオ信号を出力させることができる。いくつかの実施例において、処理装置122は、ネットワーク150を介してクライアント端末(例えば、端末130)、記憶装置140及び/又は(オーディオ信号生成システム100に示されていない)その他の任意の記憶装置に信号を送信することができる。信号は、目標オーディオ信号を含んでもよい。信号は、クライアント端末を指示して目標オーディオ信号を再生するように構成されてもよい。
【0118】
なお、プロセス600に関する上記説明は、説明のためのものに過ぎず、本願の範囲を限定することを意図するものではない。当業者であれば、本願の説明に基づいて様々な変更及び修正を行うことができる。しかしながら、これらの変更及び修正は本願の範囲から逸脱しない。例えば、操作602及び604は、単一の操作に統合されてもよい。
【0119】
図7は、本願のいくつかの実施例に係る、骨伝導オーディオ信号に対応する目標等価空気伝導データセットを決定するための例示的なプロセスの概略フローチャートである。いくつかの実施例において、プロセス700は、記憶装置140、ROM230、RAM240、又はメモリ390に記憶された命令(例えば、アプリケーションプログラム)として実装されてもよい。処理装置122、プロセッサ220及び/又はCPU340は、命令セットを実行することができ、処理装置122、プロセッサ220及び/又はCPU340は、命令を実行する場合、プロセス700を実行するように構成されてもよい。以下に示すプロセスの操作は、説明のためのものに過ぎない。いくつかの実施例において、プロセス700は、説明されていない1つ以上の追加の操作及び/又は検討されていない1つ以上の操作により完了されてもよい。また、
図7に示され、以下に説明されるプロセス700の操作の順序は限定されない。いくつかの実施例において、プロセス700の1つ以上の操作を実行して、
図6を参照して説明した操作608の少なくとも一部の操作を実現することができる。
【0120】
702において、処理装置122(例えば、決定モジュール404)は、骨伝導オーディオ信号に基づいて、トレーニング済みの機械学習モデルを使用して、骨伝導オーディオ信号に対応する1つ以上の等価空気伝導データセットを決定することができる。骨伝導オーディオ信号は、
図6を参照して説明した操作602により取得することができる。
【0121】
いくつかの実施例において、トレーニング済みの機械学習モデルは、特定の骨伝導オーディオ信号に由来する骨伝導データセットと特定の伝導オーディオ信号に対応する特定の等価空気伝導信号に由来する1つ以上の等価空気伝導データセットとの間のマッピング関係を提供することができる。トレーニング済みの機械学習モデルに関するより多くの説明は、本願の他の箇所(例えば、
図6及びその説明)で見つけることができる。
【0122】
いくつかの実施例において、トレーニング済みの機械学習モデルは、音声認識を実行する第1の部分と、特定の骨伝導オーディオ信号に由来する骨伝導データセットと特定の伝導オーディオ信号に対応する特定の等価空気伝導信号に由来する1つ以上の等価空気伝導データセットとの間のマッピング関係を提供する第2の部分とを含んでもよい。第2の部分は、さらにマッピング関係に基づいて、1つの骨伝導データセットに対応する1つ以上の等価空気伝導データセットを決定することができる。
【0123】
いくつかの実施例において、第1の部分は、操作602において説明したように、骨伝導オーディオ信号から1つの骨伝導データセットを生成するように構成された音声認識モデルを含んでもよい。例示的な音声認識モデルは、隠れマルコフモデル(Hidden Markov Model、HMM)、エンドツーエンドモデル、コネクショニスト時系列分類(Connectionist Temporal Classification、CTC)モデルなど、又はそれらの任意の組み合わせを含んでもよい。
【0124】
いくつかの実施例において、トレーニング済みの機械学習モデルの第1の部分は、特定のオーディオ信号(例えば、骨伝導オーディオ信号)から音響特徴を抽出して音声認識を実行するように構成されてもよい。トレーニング済みの機械学習モデルの第1の部分を使用して取得した特定のオーディオ信号の認識結果は、特定のオーディオ信号の意味情報をテキストの形態で表す1つ以上のデータセットを含んでもよい。音響特徴抽出アルゴリズムを使用して特定のオーディオ信号から音響特徴を抽出することができる。例示的な音響特徴抽出アルゴリズムは、自己相関関数(Auto Correlation Function、ACF)アルゴリズム、平均振幅差関数(Averagea Mplitude Difference Function、AMDF)アルゴリズム、Teagerエネルギー演算子(Teager Energy Operator、TEO)に基づく非線形特徴抽出アルゴリズム、線形予測分析(Linear Predictive Analysis、LPC)アルゴリズム、深層学習アルゴリズム(例えば、ラプラシアン固有マップ、主成分分析(Principal Component Analysis、PCA))、局所保存射影(Local Preserved Projection、LPP)など)を含んでもよい。
【0125】
トレーニング済みの機械学習モデルの第2の部分は、マッピング関係及び骨伝導データセットに基づいて1つ以上の等価空気伝導データセットを生成するように構成されてもよい。いくつかの実施例において、第2の部分は、マッピング関係をリストの形態で表すことができる。例えば、該リストは、複数の基準骨伝導データセット及び複数の基準等価空気伝導データセットを含んでもよい。複数の基準骨伝導データセットのそれぞれは、1つ以上の基準等価空気伝導データセットに対応してもよい。該リストは、基準骨伝導データセットと1つ以上の基準等価空気伝導データセットのそれぞれとがマッチングするマッチング確率を含んでもよい。トレーニング済みの機械学習モデルの第2の部分は、リスト及び骨伝導データセットに基づいて1つ以上の等価空気伝導データセットを生成することができる。例えば、トレーニング済みの機械学習モデルの第2の部分は、骨伝導データセットと同じ又は類似するリスト内の基準骨伝導データセットを識別し、リストから基準骨伝導データセットに対応する1つ以上の基準等価空気伝導データセットを取得し、上記1つ以上の基準等価空気伝導データセットを、骨伝導データセットに対応する1つ以上の等価空気伝導データセットとして指定することができる。
【0126】
いくつかの実施例において、第2の部分は、マッピング関係を関数として表すことができる。いくつかの実施例において、トレーニング済みの機械学習モデルの第2の部分は、該関数を使用して骨伝導データセットに対応する1つ以上の等価空気伝導データセットを生成するように構成されてもよい。
【0127】
いくつかの実施例において、骨伝導オーディオ信号は、トレーニング済みの機械学習モデルに入力されてもよい。トレーニング済みの機械学習モデルは、骨伝導オーディオ信号から骨伝導音響特徴を抽出することができる。操作602において説明したように、骨伝導音響特徴は、持続時間に関連する1つ以上の特徴、エネルギーに関連する1つ以上の特徴、基本周波数に関連する1つ以上の特徴、周波数スペクトルに関連する1つ以上の特徴、位相スペクトルに関連する1つ以上の特徴などを含んでもよい。トレーニング済みの機械学習モデルは、骨伝導音響特徴に基づいて骨伝導データセットを決定することができる。例えば、トレーニング済みの機械学習モデルは、1つ以上の骨伝導音響特徴を決定することができ、これらの骨伝導音響特徴は、骨伝導データセットとしての音素を形成することができる。別の例として、トレーニング済みの機械学習モデルは、骨伝導音響特徴からなる1つ以上の音素を骨伝導データセットとして指定することができる。また例えば、トレーニング済みの機械学習モデルは、1つ以上の音素からなる1つ以上の音節を骨伝導データセットとして指定することができる。さらなる例として、トレーニング済みの機械学習モデルは、1つ以上の音節からなる1つ以上の単語を骨伝導データセットとして指定することができる。さらなる例として、トレーニング済みの機械学習モデルは、1つ以上の単語からなる1つ以上のフレーズを骨伝導データセットとして指定することができる。別の例として、トレーニング済みの機械学習モデルは、1つ以上のフレーズからなる1つ以上の文を骨伝導データセットとして指定することができる。
【0128】
トレーニング済みの機械学習モデルは、骨伝導データセット及びトレーニング済みの機械学習モデルによって提供されたマッピング関係に基づいて、1つ以上の等価空気伝導データセット及び/又は1つ以上の等価空気伝導データセットに関連する情報を決定することができる。例えば、トレーニング済みの機械学習モデルの第1の部分は、骨伝導オーディオ信号から骨伝導データセットを決定することができる。例えば、トレーニング済みの機械学習モデルの第1の部分は、骨伝導オーディオ信号に基づいて骨伝導データセットを決定することができる。トレーニング済みの機械学習モデルの第2の部分は、比較に基づいて、骨伝導データセットに対応する1つ以上の等価空気伝導データセットを決定することができる。
【0129】
例えば、トレーニング済みの機械学習モデルの第2の部分は、骨伝導データセットと、リスト内の複数の基準骨伝導データセットのそれぞれとの類似性又は関連度を決定することができる。トレーニング済みの機械学習モデルの第2の部分は、リスト内の複数の基準骨伝導データセットのうち、骨伝導データセットとの類似性又は関連度が最大である基準骨伝導データセットを決定することができる。トレーニング済みの機械学習モデルの第2の部分は、リスト内の1つの基準骨伝導データセットに対応する1つ以上の基準等価空気伝導データセットを出力することができ、該基準骨伝導データセットは、骨伝導オーディオ信号に由来する骨伝導データセットとの類似性又は相関性が最大である。いくつかの実施例において、トレーニング済みの機械学習モデルの第2の部分は、リスト内の1つ以上の基準等価空気伝導データセットと該基準骨伝導データセットとの間のマッチング確率を出力することができ、該基準骨伝導データセットは、骨伝導オーディオ信号に由来する骨伝導データセットとの類似性又は相関性が最大である。
【0130】
いくつかの実施例において、処理装置122は、リスト内の、該基準骨伝導データセットに対応する1つ以上の基準等価空気伝導データセットを、骨伝導オーディオデータセットに対応する1つ以上の等価空気伝導データセットとして指定することができる。
【0131】
いくつかの実施例において、処理装置122は、1つ以上の基準等価空気伝導データセットに関する情報(例えば、マッチング確率)に基づいて、1つ以上の基準等価空気伝導データセットの一部を、骨伝導オーディオデータセットに対応する1つ以上の等価空気伝導データセットとして決定することができる。処理装置122は、1つ以上の基準等価空気伝導データセット及び1つ以上のマッチング確率に基づいて、1つ以上の等価空気伝導データセットを決定することができる。例えば、処理装置122は、マッチング確率がある閾値(例えば、0.9、0.8、0.7など)より大きい1つ以上の基準等価空気伝導データセットを、1つ以上の等価空気伝導データセットとして決定することができる。別の例として、1つ以上の基準等価空気伝導データセットに対応する1つ以上のマッチング確率は、降順でソートされてもよく、処理装置122は、降順に従って、上位の1つ以上の基準等価空気伝導データセットを1つ以上の等価空気伝導データセットとして決定することができる。
【0132】
704において、処理装置122(例えば、決定モジュール404)は、空気伝導オーディオ信号に基づいて、1つ以上の等価空気伝導データセットから目標等価空気伝導データセットを識別することができる。
【0133】
空気伝導オーディオ信号と骨伝導オーディオ信号は、異なる周波数成分によって同じユーザ音声を表すことができる。
図6を参照して説明した操作604に記載のように空気伝導オーディオ信号を取得することができる。
【0134】
いくつかの実施例において、処理装置122は、空気伝導オーディオ信号を処理することによって1セットの空気伝導オーディオデータを決定することができる。空気伝導データセット及び骨伝導データセットは、それぞれ、空気伝導センサ及び骨伝導センサが同時に取得した空気伝導オーディオ信号の少なくとも一部及び骨伝導オーディオ信号の少なくとも一部に由来してもよい。言い換えれば、空気伝導データセット及び骨伝導データセットは、同じユーザ音声の実際の意味内容を表すことができる。該空気伝導データセットに関するより多くの説明は、本願の他の箇所(例えば、
図6及びその説明)で見つけることができる。
【0135】
いくつかの実施例において、処理装置122は、空気伝導オーディオ信号から音響特徴(空気伝導音響特徴とも呼ばれる)を抽出することによって空気伝導データセットを決定することができる。いくつかの実施例において、本願の他の箇所(例えば、操作702及びその関連説明)に記載されるように、音声認識モデル又は音響特徴抽出アルゴリズムを使用して空気伝導オーディオ信号から空気伝導音響特徴を抽出することができる。いくつかの実施例において、トレーニング済みの機械学習モデルの第1の部分を使用して空気伝導オーディオ信号から空気伝導音響特徴を抽出することができる。操作602において説明したように、空気伝導音響特徴は、持続時間に関連する1つ以上の特徴、エネルギーに関連する1つ以上の特徴、基本周波数に関連する1つ以上の特徴、周波数スペクトルに関連する1つ以上の特徴、位相スペクトルに関連する1つ以上の特徴などを含んでもよい。
【0136】
処理装置122は、空気伝導音響特徴に基づいて空気伝導データセットを決定することができる。例えば、空気伝導音響特徴に基づく空気伝導データセットの決定は、操作702に関連して説明した骨伝導音響特徴に基づく骨伝導データセットの決定と同様に実行されてもよく、ここではその説明を繰り返さない。
【0137】
処理装置122は、各等価空気伝導データセットと該空気伝導データセットとの間の関連度を決定することにより、1つ以上の等価空気伝導データセットから目標等価空気伝導データセットを識別することができる。いくつかの実施例において、処理装置122は、類似性アルゴリズムを使用することによって、該等価空気伝導データセットと該空気伝導データセットとの間の関連度を決定することができる。例示的な類似性アルゴリズムは、コサイン類似性アルゴリズム、Jaccard係数アルゴリズム、ダイス係数アルゴリズムなどを含んでもよい。いくつかの実施例において、処理装置122は、意味類似性を決定するための機械学習モデルを使用して、当量の等価空気伝導データセットと空中伝導データセットとの間の関連度を決定することができる。意味類似性を決定するための例示的な機械学習モデルは、深層構造意味モデル(Deep Structured Semantic Model、DSSM)、畳み込み潜在意味モデル(Convolutional Latent Semantic Model、CLSM)、長・短期記憶深層構造意味モデル(Long-Short-Term Memory-Deep Structured Semantic Model、LSTM-DSSM)など、又はそれらの任意の組み合わせを含んでもよい。
【0138】
処理装置122は、1つ以上の等価空気伝導データセットのうち、1つ以上の等価空気伝導データセットとの関連度が最大である等価空気伝導データセットを、初期目標等価空気伝導データセットとして決定することができる。処理装置122は、初期目標等価空気伝導データセットに基づいて目標等価空気伝導データセットを決定することができる。
【0139】
いくつかの実施例において、処理装置122は、初期目標等価空気伝導データセットを目標等価空気伝導データセットとして指定することができる。
【0140】
いくつかの実施例において、処理装置122は、初期目標等価空気伝導データセットに対して1つ以上の後処理操作を実行することができる。例えば、処理装置122は、空気伝導データセットに基づいて、初期目標等価空気伝導データセットに対して意味情報校正操作を実行することができる。意味情報校正操作は、空気伝導データセットの意味情報に基づいて、初期目標空気伝導データセットの意味情報を調整又は校正して、該初期目標空気伝導データセットの意味情報と空気伝導データセットの意味情報とを同じにさせるか又は類似させることを指す。処理装置122は、後処理された初期目標等価空気伝導データセットを目標等価空気伝導データセットとして指定することができる。
【0141】
なお、プロセス700に関する上記説明は、説明のためのものに過ぎず、本願の範囲を限定することを意図するものではない。当業者であれば、本願の説明に基づいて様々な変更及び修正を行うことができる。しかしながら、これらの変更及び修正は本願の範囲から逸脱しない。例えば、プロセス700は、骨伝導オーディオ信号から骨伝導データセットを決定する操作、及び/又は空気伝導オーディオ信号から空気伝導データセットを決定する操作をさらに含んでもよい。
【0142】
図8は、本願のいくつかの実施例に係る、トレーニング済みの機械学習モデルを生成するための例示的なプロセスの概略フローチャートである。いくつかの実施例において、プロセス800は、記憶装置140、ROM230、RAM240、又はメモリ390に記憶された命令(例えば、アプリケーションプログラム)として実装されてもよい。処理装置122、プロセッサ220及び/又はCPU340は、命令セットを実行することができ、処理装置122、プロセッサ220及び/又はCPU340は、命令を実行する場合、プロセス800を実行するように構成されてもよい。いくつかの実施例において、プロセス800に基づいて、
図6を参照して説明した操作606に記載のトレーニング済みの機械学習モデルを取得することができる。いくつかの実施例において、プロセス800は、オーディオ信号生成システム100以外の別の装置又はシステム、例えば、トレーニング済みの機械学習モデルのベンダー又はメーカーの装置又はシステムによって実行されてもよい。説明のために、処理装置122によるプロセス800の実現を例として説明する。
【0143】
802において、処理装置122(例えば、取得モジュール502)は、複数セットのトレーニングデータを取得することができる。
【0144】
いくつかの実施例において、複数セットのトレーニングデータのそれぞれは、同じ音声サンプルを表す第1のオーディオ信号及び第2のオーディオ信号を含んでもよい。
【0145】
いくつかの実施例において、ノイズなしの条件下で音声サンプルを生成する場合、骨伝導オーディオ収集装置(例えば、骨伝導マイクロフォン112)及び空気伝導オーディオ収集装置(例えば、空気伝導マイクロフォン114)によって第1のオーディオ信号及び第2のオーディオ信号を同時に収集し、オーディオ信号生成システム100の1つ以上のコンポーネント(例えば、記憶装置140、端末130)又は外部ソースに記憶する。処理装置122は、オーディオ信号生成システム100の1つ以上のコンポーネントから第1のオーディオ信号及び第2のオーディオ信号を取得することができる。本明細書で使用されるように、ノイズなしの条件は、1つ以上のノイズ評価パラメータ(例えば、ノイズ標準曲線、統計的ノイズレベルなど)が条件を満たし、例えば閾値未満であることを指してもよい。第1のオーディオ信号は、骨伝導オーディオ信号と呼ばれてもよく、第2のオーディオ信号は、空気伝導オーディオ信号と呼ばれてもよい。
【0146】
いくつかの実施例において、予備機械学習モデルのトレーニングプロセスにおいて、1セットのトレーニングデータにおける骨伝導オーディオ信号は、予備機械学習モデルの入力として使用されてもよく、音声サンプルにおける骨伝導オーディオ信号に対応する空気伝導オーディオ信号は、予備機械学習モデルの所望の出力として使用されてもよい。いくつかの実施例において、1セットのトレーニングデータにおける骨伝導オーディオ信号及び空気伝導オーディオ信号は、予備機械学習モデルの入力として使用されてもよい。
【0147】
いくつかの実施例において、複数のトレーニングデータのそれぞれにおける骨伝導オーディオ信号は、ユーザ(例えば、テスター)の体の同じ領域(例えば、耳の周りの領域)に位置する骨伝導センサによって収集されてもよい。いくつかの実施例において、機械学習モデルをトレーニングするための骨伝導データを収集するときに骨伝導センサが位置する体の領域は、トレーニング済みの機械学習モデルの適用に使用される骨伝導データ(例えば、第1のオーディオデータ)を収集するときに骨伝導センサが位置する体の領域と一致及び/又は同じであってもよい。例えば、複数セットのトレーニングデータの各セットにおける骨伝導オーディオ信号を収集するときに骨伝導センサが位置するユーザ(例えば、テスター)の体の領域は、操作602において説明した骨伝導オーディオ信号を収集するときに骨伝導センサが位置するユーザの体の領域と同じであってもよい。別の例として、操作602において説明した骨伝導オーディオ信号を収集するときに骨伝導センサが位置するユーザの体の領域が首である場合、トレーニング済みの機械学習モデルのトレーニングプロセスで使用される骨伝導データを収集するときに骨伝導センサが位置する体の領域は首である。
【0148】
複数セットのトレーニングデータ(例えば、テスター)を収集する場合、骨伝導センサが位置するユーザの体の領域の位置は、各セットのトレーニングデータにおける、骨伝導オーディオ信号に由来する骨伝導データと空気伝導オーディオ信号に由来する1つ以上の空気伝導データとの間の対応関係に影響を与える可能性がある。いくつかの実施例において、同じ構成の複数の骨伝導センサは、乳様突起、こめかみ、頭頂部、外耳道などの体の異なる領域に位置してもよい。ユーザが話すと、複数の骨伝導センサが同時に骨伝導データを収集することができる。複数の骨伝導センサによって収集された骨伝導オーディオ信号に基づいて複数のトレーニングセットを形成することができる。複数のトレーニングセットのそれぞれは、複数の骨伝導センサのうちの1つ及び空気伝導センサによって収集された複数セットのトレーニングデータを含んでもよい。複数セットのトレーニングデータのそれぞれは、同じ音声を表す骨伝導オーディオ信号及び空気伝導オーディオ信号を含んでもよい。複数のトレーニングセットのそれぞれは、機械学習モデルをトレーニングして、トレーニング済みの機械学習モデルを取得することができる。複数のトレーニングセットに基づいて複数のトレーニング済みの機械学習モデルを取得することができる。複数のトレーニング済みの機械学習モデルは、特定の骨伝導データと空気伝導データとの間の異なるマッピング関係を提供することができる。例えば、同じ骨伝導データを複数のトレーニング済みの機械学習モデルにそれぞれ入力して、異なる空気伝導データを生成することができる。いくつかの実施例において、異なる構成の異なる骨伝導センサによって収集された骨伝導データは異なる可能性がある。したがって、機械学習モデルをトレーニングするための骨伝導データを収集する骨伝導センサと、トレーニング済みの機械学習モデルの適用に使用される骨伝導オーディオ信号を収集する骨伝導センサとは、一致及び/又は同じ構成を有してもよい。
【0149】
804において、処理装置122(例えば、モデル生成モジュール508)は、複数セットのトレーニングデータを使用して予備機械学習モデルをトレーニングして、トレーニング済みの機械学習モデルを取得することができる。
【0150】
予備機械学習モデルは、トレーニング対象のモデルと呼ばれてもよい。予備機械学習モデルは、本願の他の箇所(例えば、
図6及びその関連説明)に記載の任意のタイプのモデル(例えば、HMMモデル)であってもよい。いくつかの実施例において、予備機械学習モデルは、トレーニングセットを使用してトレーニングされたことがない機械学習モデルであってもよい。いくつかの実施例において、予備機械学習モデルは、トレーニング済みの機械学習モデルであってもよく、該モデルは、トレーニングセットを使用してトレーニングされ、該トレーニングセットは、操作802で取得された複数セットのトレーニングデータとは異なるトレーニングデータを含む。いくつかの実施例において、処理装置122は、ネットワーク(例えば、ネットワーク150)を介してオーディオ信号生成システム100(例えば、記憶装置140、端末130)の1つ以上のコンポーネント又は外部ソース(例えば、サードパーティデータベース)から予備機械学習モデルを取得することができる。
【0151】
いくつかの実施例において、ニューラルネットワークモデル(例えば、多層パーセプトロン)、統計モデル(例えば、隠れマルコフモデル(HMM))など、又はそれらの組み合わせに基づいて、予備機械学習モデルを構築することができる。いくつかの実施例において、予備機械学習モデルは、多層構造を含んでもよい。例えば、予備機械学習モデルは、入力層、出力層、及び入力層と出力層との間の1つ以上の隠れ層を含んでもよい。いくつかの実施例において、隠れ層は、1つ以上の畳み込み層、1つ以上の整流線形ユニット層(ReLU層)、1つ以上のプーリング層、1つ以上の全結合層など、又はそれらの任意の組み合わせを含んでもよい。本明細書で使用されるように、モデル層は、アルゴリズム又は層の入力データを処理するための関数を指してもよい。異なる層は、それぞれの入力に対して異なる種類の処理を実行することができる。連続層は、連続層の前の層に由来する出力データを入力データとして使用することができる。いくつかの実施例において、畳み込み層は、特徴を抽出するための複数のカーネルを含んでもよい。いくつかの実施例において、複数のカーネルのそれぞれは、一部(すなわち、領域)をフィルタリングすることができる。プーリング層は、畳み込み層の出力を入力とすることができる。プーリング層は、畳み込み層の出力をサンプリングして、データ処理の計算負荷を軽減し、データ処理を加速することができる複数のプーリングノードを含んでもよい。いくつかの実施例において、入力データを表す行列のサイズは、プーリング層において減少されてもよい。全結合層は、複数のニューロンを含んでもよい。ニューロンは、プール内のプーリングノードに接続されてもよい。全結合層において、トレーニングサンプルに基づいて複数のプーリングノードに対応する複数のベクトルを決定し、複数の重み係数を複数のベクトルに割り当てることができる。出力層は、ベクトルと、全結合層から取得された重み係数とに基づいて出力を決定することができる。
【0152】
いくつかの実施例において、各層は、1つ以上のノードを含んでもよい。いくつかの実施例において、各ノードは、前の層の1つ以上のノードに接続されてもよい。各層のノードの数は、同じであってもよく、異なってもよい。いくつかの実施例において、各ノードは、アクティブ化機能に対応してもよい。本明細書で使用されるように、ノードのアクティブ化機能は、入力が与えられたノードの出力又は1セットの入力を定義することができる。いくつかの実施例において、予備機械学習モデルにおける複数のノードのうちの2つのノード間の各接続は、一方のノードから他方のノードに信号を送信することができる。いくつかの実施例において、各接続は、重みに対応してもよい。本明細書で使用されるように、接続に対応する重みは、接続における信号の強度又は影響を増加又は減少させることができる。
【0153】
機械学習モデルは、アーキテクチャパラメータ、学習パラメータなどの複数のパラメータを含んでもよい。機械学習モデルの例示的なアーキテクチャパラメータは、層のカーネルのサイズ、層の合計数(又は数)、各層のノードカウント(又は数)、学習率、バッチサイズ、エポックなどを含んでもよい。例示的な学習パラメータは、2つの接続ノード間の接続重み、ノードに関連する偏差ベクトルなどを含んでもよい)。トレーニング前に、機械学習モデルは、1つ以上の初期パラメータ値を有する場合がある。機械学習モデルのトレーニングにおいて、機械学習モデルの学習パラメータを更新することができる。更新プロセスの前に、機械学習モデルの学習パラメータの値を初期化することができる。例えば、-1~1の範囲でランダムな値を割り当てることによって、予備機械学習モデルの接続重み及び/又はバイアスベクトルを初期化することができる。別の例として、予備機械学習モデルの全ての接続重みは、-1~1の範囲内の同じ値、例えば0が割り当てられてもよい。別の例として、予備機械学習モデルにおけるノードの偏差ベクトルは、0~1の範囲内のランダムな値を割り当てることによって初期化されてもよい。いくつかの実施例において、予備機械学習モデルのパラメータは、ガウスランダムアルゴリズム、Xavierアルゴリズムなどに従って初期化することができる。
【0154】
いくつかの実施例において、処理装置122は、トレーニングアルゴリズムを使用して予備機械学習モデルをトレーニングして、トレーニング済みの機械学習モデルを取得することができる。例示的なトレーニングアルゴリズムは、逆伝播アルゴリズム、勾配降下アルゴリズム、ニュートンアルゴリズム、準ニュートンアルゴリズム、レーベンバーグ・マルカートアルゴリズム、共役勾配アルゴリズムなど、又はそれらの組み合わせを含んでもよい。
【0155】
いくつかの実施例において、予備機械学習モデルのトレーニングは、複数回の反復を含んでもよい。各反復において、第1のオーディオ信号又は骨伝導データセットは、予備機械学習モデルの入力として使用されてもよく、空気伝導データセットは、予備機械学習モデルの所望の出力として使用されてもよい。予備機械学習モデルは、第1のオーディオ信号から第1の音響特徴を抽出し、第2のオーディオ信号から第2の音響特徴を抽出することができる。例えば、予備機械学習モデルは、サブモデル(例えば、操作702において説明した音声認識モデル)を使用して第1の音響特徴及び第2の音響特徴を抽出することができる。別の例として、予備機械学習モデルは、本願の他の箇所(例えば、操作702及びその関連説明)に記載の音響特徴抽出アルゴリズムを使用して第1の音響特徴及び第2の音響特徴を抽出することができる。操作602において説明したように、第1の音響特徴及び第2の音響特徴は、持続時間に関連する1つ以上の特徴、エネルギーに関連する1つ以上の特徴、基本周波数に関連する1つ以上の特徴、周波数スペクトルに関連する1つ以上の特徴、位相スペクトルに関連する1つ以上の特徴などを含んでもよい。予備機械学習モデル(例えば、予備機械学習モデルの第1の部分)は、第1の音響特徴に基づいて1つ以上の第1の骨伝導データセットを決定し、第2の音響特徴に基づいて1つ以上の第2の空気伝導データセットを決定することができる。1つ以上の第1の骨伝導データセット及び1つ以上の第2の空気伝導データセットのそれぞれは、音響特徴からなる1つ以上の音素、1つ以上の音素からなる1つ以上の音節、1つ以上の音節からなる1つ以上の単語、1つ以上の単語からなる1つ以上のフレーズ、1つ以上のフレーズなどからなる1つ以上の文、又はそれらの任意の組み合わせを含んでもよい。
【0156】
予備機械学習モデル(例えば、予備機械学習モデルの第2の部分)は、複数ペアの空気伝導データ及び骨伝導データを決定することができる。各ペアは、同じ意味を表す第1の骨伝導データセット及び第2の空気伝導データセットを含んでもよい。いくつかの実施例において、予備機械学習モデルは、1つ以上の第1の骨伝導データセットのそれぞれと、1つ以上の第2の空気伝導データセットのそれぞれとがマッチングするマッチング確率を決定することができる。第1の骨伝導データセットと第2の空気伝導データセットとがマッチングするマッチング確率は、第1の骨伝導データセットによって表される意味情報と第2の空気伝導データセットによって表される意味情報との間の類似性又は相関性を示すことができる。第1の骨伝導データセットが表す意味情報と第2の空気伝導データセットが表す意味情報との間の類似度又は関連度は、第1の骨伝導データセットと第2の空気伝導データセットとがマッチングするマッチング確率であってもよい。単なる例として、予備機械学習モデルは、本願の他の箇所に記載の類似アルゴリズム(例えば、操作704及びその関連説明)を使用して、1つ以上の第1の骨伝導データセットのそれぞれと1つ以上の第2の空気伝導データセットのそれぞれとの間の関連度を決定することができる。予備機械学習モデルは、関連度をマッチング確率として決定することができる。
【0157】
機械学習モデルのトレーニングにおいて、処理装置122は、複数のトレーニングサンプルに基づいて予備機械学習モデルのパラメータ値を反復的に更新することができる。機械学習モデルの学習パラメータの更新は、機械学習モデルの更新と呼ばれてもよい。例えば、処理装置122は、終了条件が満たされるまで1つ以上の反復を実行して機械学習モデルのモデルパラメータを更新することができる。いくつかの実施例において、予備機械学習モデルは、コスト関数を使用してマッチング確率及び閾値に関連する差又は誤差を決定することができる。コスト関数の値が条件を満たさない場合、処理装置122は、逆伝播アルゴリズムを使用してコスト関数の値に基づいて現在の反復における予備機械学習モデルのパラメータ値を調整することができる。
【0158】
処理装置122(例えば、モデル生成モジュール504)は、終了条件が満たされているか否かを決定することができる。終了条件は、機械学習モデルが十分にトレーニングされているか否かを示すことができる。終了条件は、トレーニングプロセスのコスト関数又は反復カウントに関連する場合がある。例えば、処理装置122は、機械学習モデルのコスト関数を決定し、推定出力と実際の出力又は所望の出力(すなわち、基準出力)との差に基づいてコスト関数の値を決定することができる。また、処理装置122は、コスト関数の値が閾値未満である場合に、終了条件が満たされていると決定することができる。閾値は、システム100のデフォルト設定であってもよいし、異なる状況で調整されてもよい。別の例として、コスト関数の値が収束した場合に終了条件を満たすことができる。2つ以上の連続反復において、コスト関数値の変化が閾値(例えば、定数)より小さい場合、収束が発生したと考えられる。さらに別の例として、トレーニングプロセスにおいて所定回数(又はカウント)の反復が実行された場合に、処理装置122は、終了条件が満たされていると決定することができる。
【0159】
終了条件が満たされているとの決定に応じて、処理装置122は、前回の反復で更新されたパラメータ値を有する機械学習モデルを、トレーニング済みの機械学習モデル(例えば、トレーニング済みの機械学習モデル)として指定することができる。一方、終了条件が満たされていないとの決定に応じて、処理装置122は、評価結果に基づいて機械学習モデルのパラメータ値の少なくとも一部を更新することができる。例えば、処理装置122は、逆減衰アルゴリズムなどのコスト関数に従った値に基づいて、機械学習モデルの学習パラメータの値(S)を更新することができる。処理装置122は、終了条件が満たされるまで、次の反復を実行し続けることができる。次の反復において、処理装置122は、別のセットのトレーニングデータを取得することができる。特定の反復において終了条件が満たされると、学習パラメータの更新値を有する特定の反復における機械学習モデルは、トレーニング済みの機械学習モデル(例えば、トレーニング済みの機械学習モデル)として指定されてもよい。
【0160】
トレーニング済みの機械学習モデル(例えば、予備機械学習モデルの第2の部分)は、複数ペアの空気伝導データ及び骨伝導データに基づいて、1つ以上の第1の骨伝導データセットのそれぞれと1つ以上の第2の空気伝導データセットの少なくとも1つとの間のマッピング関係を提供することができる。いくつかの実施例において、複数ペアの骨伝導データ及び空気伝導データのそれぞれは、対応関係を有する一対の骨伝導データ及び空気伝導データを指してもよい。本明細書で使用されるように、対応関係は、骨伝導データセットが空気伝導データセットに対応することを指してもよい。骨伝導データセットによって表される意味情報と空気伝導データセットによって表される意味情報との間の類似性又は関連度が閾値、例えば90%、95%、99%などを超える場合、骨伝導データセットは空気伝導データセットに対応することができる。予備機械学習モデルは、対応関係に基づいて、1つ以上の第1の骨伝導データセットのそれぞれと1つ以上の第2の空気伝導データセットの少なくとも1つとの間にマッピング関係を確立することができる。マッピング関係は、音響特徴間のマッピング関係、音素間のマッピング関係、音節間のマッピング関係、単語間のマッピング関係など、又はそれらの任意の組み合わせを含んでもよい。マッピング関係に関するより多くの説明は、本願の他の箇所(例えば、
図6及びその説明)で見つけることができる。
【0161】
例えば、1つ以上の第1の骨伝導データセットは、音節A及び音節Bを含み、1つ以上の第2の空気伝導データセットは、音節C、音節D、音節E、音節F、及び音節Gを含む。複数ペアの骨伝導オーディオデータ及び空気伝導データは、A-C、A-D、B-E、B-F、B-Gを含む。AとC、AとD、BとE、BとF、BとGは、対応関係又はマッチング関係を有する骨伝導オーディオデータと空気伝導データのペアであってもよい。マッピング関係は、以下の式で表すことができる。
【0162】
【0163】
いくつかの実施例において、予備機械学習モデルは、第1の部分(第1のサブモデルとも呼ばれる)と第2の部分(第2のサブモデルとも呼ばれる)とを含んでもよい。第1の部分をトレーニングして音声認識モデルを取得することができる。第1の部分は、オーディオ信号の音響特徴を抽出することによってオーディオ信号を1つ以上のユニット(音響ベクトルとも呼ばれる)に分解することができる。各ユニットは、オーディオ信号に由来する1セットのオーディオデータと呼ばれてもよい。オーディオ信号のユニット(すなわち、1セットのオーディオデータ)は、音響特徴からなる音素、1つ以上の音素からなる音節、1つ以上の音節からなる単語、1つ以上の単語からなるフレーズ、1つ以上のフレーズからなる文など、又はそれらの任意の組み合わせを含んでもよい。例えば、第1のオーディオ信号を第1の部分で分解して複数の骨伝導データセット(すなわち、複数の骨伝導ユニット)を取得し、第2のオーディオ信号を第1の部分で分解して複数の空気伝導データ(すなわち、複数の空気伝導ユニット)を取得することができる。いくつかの実施例において、予備機械学習モデルの第1の部分は、機械学習モデル(例えば、従来のニューラルネットワークモデル、深層ニューラルネットワークモデルなど)を含むエンコーダを含んでもよい。
【0164】
第2の部分は、複数の骨伝導データセットと複数の空気伝導データセットとの間にマッピング関係を確立するようにトレーニングされてもよい。複数の骨伝導データセットと複数の空気伝導データセットとの間のマッピング関係は、複数の骨伝導データセットのそれぞれと複数の空気伝導データセットの1つ以上との間のマッチング関係と呼ばれてもよい。いくつかの実施例において、1つの骨伝導データセットと1つの空気伝導データセットとの間の関連度が閾値を超えると、該骨伝導データセットは該空気伝導データセットとマッチングすることができ、該骨伝導データセットと該空気伝導データセットとの間にマッチング関係を確立することができる。
【0165】
いくつかの実施例において、1つの骨伝導データセットと1つの空気伝導データセットとの間の関連度は、該骨伝導データセットと該空気伝導データセットとの間の類似度として表すことができる。いくつかの実施例において、第2の部分は、類似性決定関数を含んでもよい。第2の部分は、類似性決定機能を使用して、複数の骨伝導データのそれぞれと複数の空気伝導データのそれぞれとの間の関連度を決定することができる。例示的な類似性決定関数は、コサイン類似性関数、Jaccard係数関数、ダイス係数関数などを含んでもよい。いくつかの実施例において、第2の部分は、意味類似性を決定するための機械学習モデルを含んでもよい。意味類似性を決定するための例示的な機械学習モデルは、深層構造意味モデル(DSSM)、畳み込み潜在意味モデル(CLSM)、長・短期記憶深層構造意味モデル(LSTM-DSSM)など、又はそれらの任意の組み合わせを含んでもよい。
【0166】
単なる例として、
図9は、本願のいくつかの実施例に係る例示的な予備機械学習モデルの概略図である。
図9に示すように、予備機械学習モデルは、入力層902、エンコーダ904、デコーダ906、出力層908を含んでもよい。エンコーダ904は、予備機械学習モデルの第1の部分(すなわち、第1のサブモデル)と呼ばれてもよい。入力層902は、オーディオ信号を入力するように構成されてもよい。エンコーダ904は、入力されたオーディオ信号(例えば、第1のオーディオ信号及び第2のオーディオ信号)を一連の音響ベクトルに変換するように構成されてもよい。いくつかの実施例において、エンコーダ904は、複数の層V1、V2、…、VLのニューラルネットワークモデル(例えば、CNN、DNNなど)を含んでもよい。デコーダ906は、別のオーディオ信号に対応するシーケンス音響ベクトルのうち、各音響ベクトルに対応する可能性が最も高いオーディオ信号に対応する1つ以上の音響ベクトルを決定するように構成されてもよい。デコーダ906は、ニューラルネットワークモデル(例えば、CNN、DNNなど)、ベイジアンネットワークモデル(例えば、HMM)などを含んでもよい。
図9に示すように、デコーダ906は、HMMを含んでもよい。HMMのパラメータは、(p,A,B)と表すことができ、ここで、pは、基準初期確率行列を指し、Aは、隠れ状態遷移行列を指し、Bは、隠れ状態から観測状態に遷移する確率行列を指す。隠れ状態伝達行列Aは、隠れ状態の遷移確率、例えば、隠れ状態S0から隠れ状態S1への遷移確率a01、隠れ状態S1から隠れ状態S2への遷移確率a12、…、隠れ状態Skから隠れ状態Sk+1への遷移確率ak(k+1)を含んでもよい。隠れ状態から観測状態に送信された確率行列Bは、隠れ状態から観測状態への遷移確率、隠れ状態S1から観測状態Y0への遷移確率b1(y0)、隠れ状態S1から観測状態y1への遷移確率b1(y1)、…、隠れ状態Skから観測状態ykへの遷移確率bk(yk)を含んでもよい。毎回の反復に対して、入力層902は、1セットのトレーニングデータにオーディオ信号(例えば、第1のオーディオ信号及び第2のオーディオ信号、例えば、オーディオ波形)を入力することができる。エンコーダ904は、各オーディオ信号(例えば、第1のオーディオ信号及び第2のオーディオ信号)の音響特徴を抽出して、第1のオーディオ信号に対応する第1の音響ベクトルシーケンスと第2のオーディオ信号に対応する第2の音響ベクトルシーケンスとを形成することができる。いくつかの実施例において、オーディオ信号に対応する音響ベクトルシーケンスにおける音響ベクトルは、オーディオ信号の各ユニットの音響特徴(例えば、音響特徴からなる音素、1つ以上の音素からなる音節、1つ以上の音節からなる単語、1つ以上の単語からなるフレーズ、1つ以上のフレーズからなる文)を含んでもよい。デコーダ906は、デコーダ906のパラメータ及び観測状態シーケンス(すなわち、y0、y1、y2、…、yk、yk+1)に基づいて、隠れ状態シーケンス(すなわち、S0、S1、S2、…、Sk、Sk+1)を決定することができる。言い換えれば、デコーダ906は、デコーダ906のパラメータに基づいて、前記第1のオーディオ信号に対応する第1の音響ベクトルシーケンスにおける各音響ベクトルに対応する可能性が最も高い第2のオーディオ信号の第2の音響ベクトルシーケンスにおける1つ以上の音響ベクトルを決定することができる。そして、デコーダ906は、第2のオーディオ信号に対応する第2の音響ベクトルシーケンスにおける1つ以上の音響ベクトルと、第1のオーディオ信号に対応する第1の音響ベクトルシーケンスにおける各音響ベクトルとの間にマッピング関係を確立することができる。デコーダ906は、例えば、バウム・ウェルチアルゴリズムに従ってデコーダ906及びエンコーダ904のパラメータを調整して、最適解(すなわち、第1のオーディオ信号に対応する第1の音響ベクトルシーケンスにおける各音響ベクトルである可能性が最も高い、第2のオーディオ信号に対応する第2の音響ベクトルシーケンスにおける1つ以上の音響ベクトル)を取得することができる。いくつかの実施例において、デコーダ906は、最尤推定アルゴリズムを使用して最適な解決案(すなわち、前記第1のオーディオ信号に対応する第1の音響ベクトルシーケンスにおける各音響ベクトルに対応する可能性が最も高い第2のオーディオ信号の第2の音響ベクトルシーケンスにおける1つ以上の音響ベクトル)を決定することができる。
【0167】
なお、プロセス800に関する上記説明は、説明のためのものに過ぎず、本願の範囲を限定することを意図するものではない。当業者であれば、本願の説明に基づいて様々な変更及び修正を行うことができる。しかしながら、これらの変更及び修正は本願の範囲から逸脱しない。例えば、プロセス800は、予備機械学習モデルのパラメータ値を初期化する操作、及び/又はトレーニング済みの機械学習モデルを記憶する操作をさらに含んでもよい。
【0168】
図10は、本願のいくつかの実施例に係る、オーディオ信号を生成するための例示的なプロセスの概略フローチャートである。いくつかの実施例において、プロセス1000は、記憶装置140、ROM230、RAM240、又はメモリ390に記憶された命令(例えば、アプリケーションプログラム)として実装されてもよい。処理装置122、プロセッサ220及び/又はCPU340は、命令セットを実行することができ、処理装置122、プロセッサ220及び/又はCPU340は、命令を実行する場合、プロセス1000を実行するように構成されてもよい。以下に示すプロセスの操作は、説明のためのものに過ぎない。いくつかの実施例において、プロセス1000は、説明されていない1つ以上の追加の操作、及び/又は検討されていない1つ以上の操作により完了されてもよい。また、
図10に示され、以下に説明されるプロセス1000の操作の順序は限定されない。
【0169】
1002において、処理装置122(例えば、取得モジュール402)は、骨伝導センサによって取得された骨伝導オーディオ信号を取得することができる。
【0170】
いくつかの実施例において、処理装置122は、ネットワーク150を介して骨伝導センサ(例えば、骨伝導マイクロフォン112)、端末130、記憶装置140又はその他の任意の記憶装置から骨伝導オーディオ信号をリアルタイム又は周期的に取得することができる。ユーザが話すと、骨伝導センサによって骨伝導オーディオ信号を取得及び/又は生成することができる。いくつかの実施例において、操作1002は、
図6に示すプロセス600の操作602と同一であっても、類似してもよい。
【0171】
1004において、処理装置122(例えば、取得モジュール402)は、空気伝導センサによって取得された空気伝導オーディオ信号を取得することができる。
【0172】
いくつかの実施例において、処理装置122は、ネットワーク150を介して空気伝導センサ(例えば、空気伝導マイクロフォン114)、端末130、記憶装置140又はその他の任意の記憶装置から空気伝導オーディオ信号をリアルタイム又は周期的に取得することができる。ユーザが話すと、空気伝導センサによって空気伝導オーディオ信号を取得及び/又は生成することができる。いくつかの実施例において、操作1004は、
図6に示すプロセス600の操作604と同一であっても、類似してもよい。
【0173】
1006において、処理装置122(例えば、取得モジュール402)は、トレーニング済みの機械学習モデルを取得することができる。
【0174】
いくつかの実施例において、トレーニング済みの機械学習モデルは、ニューラルネットワークモデル(例えば、深層学習モデル)に基づいて再構成されてもよい。例示的な深層学習モデルは、畳み込みニューラルネットワーク(CNN)モデル、回帰型ニューラルネットワーク(RNN)モデル、長・短期記憶ネットワーク(LSTM)又は類似するもの、又はそれらの組み合わせを含んでもよい。
【0175】
いくつかの実施例において、処理装置122は、ネットワーク(例えば、ネットワーク150)を介してオーディオ信号生成システム100(例えば、記憶装置140、端末130)の1つ以上のコンポーネント又は外部ソースからトレーニング済みの機械学習モデルを取得することができる。例えば、トレーニング済みの機械学習モデルは、事前にコンピューティングデバイス(例えば、処理装置122)によってトレーニングされ、オーディオ信号生成システム100の記憶装置(例えば、記憶装置140)に記憶されてもよい。処理装置122は、記憶装置にアクセスして、トレーニング済みの機械学習モデルを検索することができる。
【0176】
いくつかの実施例において、トレーニング済みの機械学習モデルは、トレーニングアルゴリズムに従って、処理装置122又は別のコンピューティングデバイス(例えば、トレーニング済みの機械学習モデルのベンダーのコンピューティングデバイス)によって生成されてもよい。例示的なトレーニングアルゴリズムは、勾配降下アルゴリズム、ニュートンアルゴリズム、準ニュートンアルゴリズム、レーベンバーグ・マルカートアルゴリズム、共役勾配アルゴリズムなど、又はそれらの組み合わせを含んでもよい。
【0177】
単なる例として、トレーニング済みの機械学習モデルは、1つのプロセスによって取得されてもよい。該プロセスは、複数セットのトレーニングデータ及び予備機械学習モデルを取得し、複数セットのトレーニングデータを使用して予備機械学習モデルをトレーニングすることを含んでもよい。複数セットのトレーニングデータのそれぞれは、骨伝導オーディオ信号、空気伝導オーディオ信号及び基準空気伝導オーディオ信号を含んでもよい。予備機械学習モデルのトレーニングにおいて、各セットのトレーニングデータ内の骨伝導オーディオ信号及び空気伝導オーディオ信号は、予備機械学習モデルの入力として使用されてもよく、基準空気伝導オーディオ信号は、予備機械学習モデルの所望の出力として使用されてもよい。各セットのトレーニングデータにおける骨伝導オーディオ信号、空気伝導オーディオ信号及び基準空気伝導オーディオ信号は、ユーザの同じ音声を表すことができる。各セットのトレーニングデータにおいて、基準空気伝導オーディオ信号は、空気伝導オーディオ信号のノイズレベルより小さいノイズレベルを含んでもよい。
【0178】
いくつかの実施例において、1セットのトレーニングデータにおける骨伝導オーディオ信号及び基準空気伝導オーディオ信号は、それぞれ骨伝導センサ及び空気伝導センサによって、ノイズなしの条件下でユーザが話すときに取得されてもよい。トレーニングデータセットにおける基準空気伝導オーディオ信号にノイズを付加することにより、トレーニングデータセットにおける空気伝導オーディオ信号を取得することができる。
【0179】
いくつかの実施例において、1セットのトレーニングデータにおける骨伝導オーディオ信号及び空気伝導オーディオ信号は、それぞれ骨伝導センサ及び空気伝導センサによって、ノイズ条件下でユーザが話すときに取得されてもよい。トレーニングデータセットにおける空気伝導オーディオ信号からノイズを除去することにより、トレーニングデータセットにおける基準空気伝導オーディオ信号を取得することができる。
【0180】
いくつかの実施例において、1セットのトレーニングデータにおける骨伝導オーディオ信号及び空気伝導オーディオ信号は、それぞれ骨伝導センサ及び空気伝導センサによって、ノイズ条件下でユーザが話すときに取得されてもよい。空気伝導センサは、ノイズなしの条件下でトレーニングデータセットにおける基準空気伝導オーディオ信号をそれぞれ取得することができる。
【0181】
いくつかの実施例において、機械学習モデルは、多層構造を含んでもよい。例えば、機械学習モデルは、入力層、出力層、及び入力層と出力層との間の1つ以上の隠れ層を含んでもよい。いくつかの実施例において、隠れ層は、1つ以上の畳み込み層、1つ以上の整流線形ユニット層(ReLU層)、1つ以上のプーリング層、1つ以上の全結合層など、又はそれらの任意の組み合わせを含んでもよい。本明細書で使用されるように、モデルの層は、該層の入力データを処理するためのアルゴリズム又は関数を指してもよい。異なる層は、それらのそれぞれの入力に対して異なる種類の処理を実行することができる。連続層は、連続層の前の層に由来する出力データを入力データとして使用することができる。いくつかの実施例において、畳み込み層は、特徴を抽出するための複数のカーネルを含んでもよい。いくつかの実施例において、複数のカーネルのそれぞれは、一部(すなわち、領域)をフィルタリングすることができる。プーリング層は、畳み込み層の出力を入力とすることができる。プーリング層は、畳み込み層の出力をサンプリングして、データ処理の計算負荷を軽減し、データ処理を加速することができる複数のプーリングノードを含んでもよい。いくつかの実施例において、プーリング層において入力データを表す行列のサイズを減少させることができる。全結合層は、少なくとも2つのニューロンを含んでもよい。ニューロンは、プール内のプーリングノードに接続されてもよい。全結合層において、トレーニングサンプルに基づいて複数のプーリングノードに対応する複数のベクトルを決定し、複数の重み係数を複数のベクトルに割り当てることができる。出力層は、ベクトルと、全結合層から取得された重み係数とに基づいて出力を決定することができる。
【0182】
いくつかの実施例において、各層は、1つ以上のノードを含んでもよい。いくつかの実施例において、各ノードは、前の層の1つ以上のノードに接続されてもよい。各層のノードの数は、同じであってもよく、異なってもよい。いくつかの実施例において、各ノードは、アクティブ化関数に対応してもよい。本明細書で使用されるように、ノードのアクティブ化関数は、入力が与えられたノードの出力又は1セットの入力を定義することができる。いくつかの実施例において、予備機械学習モデルにおける複数のノードのうちの2つのノード間の各接続は、一方のノードから他方のノードに信号を送信することができる。いくつかの実施例において、各接続は、重みに対応してもよい。本明細書で使用されるように、接続に対応する重みは、接続における信号の強度又は影響を増加又は減少させることができる。
【0183】
機械学習モデルは、アーキテクチャパラメータ、学習パラメータなどの少なくとも2つのパラメータを含んでもよい。機械学習モデルの例示的なアーキテクチャパラメータは、層のカーネルのサイズ、層の合計数(又は数)、各層のノードカウント(又は数)、学習率、バッチサイズ、エポックなどを含んでもよい。例示的な学習パラメータは、2つの接続ノード間の接続重み、ノードなどに関するバイアスキャリアなどを含んでもよい)。トレーニング前に、機械学習モデルは、1つ以上の初期パラメータ値を有してもよい。機械学習モデルのトレーニングにおいて、機械学習モデルの学習パラメータを更新することができる。更新プロセスの前に、機械学習モデルの学習パラメータの値を初期化することができる。例えば、-1~1の範囲でランダムな値を割り当てることによって、予備機械学習モデルのノードの接続重み及び/又は偏差ベクトルを初期化することができる。別の例として、予備機械学習モデルの全ての接続重みは、-1~1の範囲内の同じ値、例えば0が割り当てられてもよい。例として、予備機械学習モデルにおけるノードの偏差ベクトルは、0~1の範囲内のランダムな値を割り当てることによって初期化されてもよい。いくつかの実施例において、予備機械学習モデルのパラメータは、ガウスランダムアルゴリズム、Xavierアルゴリズムなどに従って初期化することができる。
【0184】
予備機械学習モデルのトレーニングは、1つ以上の反復を含んでもよく、ある反復において終了条件が満たされるまでトレーニングデータに基づいて機械学習予備モデルのパラメータ値を反復的に更新する。例示的な終了条件は、特定の反復において得られた損失関数の値が閾値未満であること、特定の回数の反復が実行されれたこと、損失関数が収束することにより、前の反復と現在の反復において得られた損失関数の値の差が閾値内にあることなどであってもよい。損失関数は、各セットのトレーニングデータにおける骨伝導オーディオ信号及び空気伝導オーディオ信号に基づく反復において予備機械学習モデルによって予測された推定空気伝導オーディオ信号と、トレーニングデータセットにおける基準空気伝導オーディオ信号との間の差を測定することができる。例えば、各セットのトレーニングデータの骨伝導オーディオ信号及び空気伝導オーディオ信号を予備機械学習モデルに入力することができ、予備機械学習モデルは、予測又は推定された空気伝導オーディオ信号を出力することができる。損失関数は、各セットのトレーニングデータの予測空気伝導オーディオ信号と基準第2の空気伝導オーディオ信号との間の差を測定することができる。予備機械学習モデルのパラメータ値は、例えば、現在の反復における損失関数の値に基づく逆伝播アルゴリズムを使用して調整することができる。例示的な損失関数は、焦点損失関数、対数損失関数、交差エントロピー損失、ダイス比などを含んでもよい。現在の反復において終了条件が満たされていない場合、処理装置122は、例えば逆伝播アルゴリズムに従って、次の反復で使用される予備機械学習モデルをさらに更新することができる(予備機械学習モデルのパラメータ値の更新とも呼ばれる)。現在の反復において終了条件が満たされている場合、処理装置122は、現在の反復における予備機械学習モデルをトレーニング済みの機械学習モデルとして指定することができる。
【0185】
トレーニング済みの機械学習モデルは、特定の骨伝導オーディオ信号と特定の空気伝導オーディオ信号との間のマッピング関係、及び特定の骨伝導オーディオ信号に対応する等価空気伝導オーディオ信号を提供することができる。処理装置122は、マッピング関係、特定の骨伝導オーディオ信号及び特定の空気伝導オーディオ信号に基づいて、特定の骨伝導オーディオ信号に対応する等価空気伝導オーディオ信号を決定することができる。ユーザが話すと、特定の骨伝導オーディオ信号及び特定の空気伝導オーディオ信号は、それぞれ骨伝導センサ及び空気伝導センサによって取得することができる。特定の骨伝導オーディオ信号及び特定の空気伝導オーディオ信号は、同じユーザ音声を表すことができる。特定の骨伝導オーディオ信号に対応する等価空気伝導オーディオ信号は、特定の空気伝導オーディオ信号のノイズレベルより小さいノイズレベルを有してもよい。
【0186】
1008において、処理装置122(例えば、決定モジュール404)は、骨伝導オーディオ信号及び空気伝導オーディオ信号に基づいて、トレーニング済みの機械学習モデルを使用して、ユーザ音声を表す目標オーディオ信号を生成することができる。いくつかの実施例において、目標オーディオ信号のノイズレベルは、空気伝導オーディオ信号のノイズレベルより小さくてもよい。
【0187】
いくつかの実施例において、骨伝導オーディオ信号及び/又は空気伝導オーディオ信号は、トレーニング済みの機械学習モデルに入力されてもよく、トレーニング済みの機械学習モデルは、等価空気伝導オーディオ信号を直接出力してもよい。いくつかの実施例において、処理装置122は、等価空気伝導オーディオ信号を目標オーディオ信号として指定することができる。いくつかの実施例において、処理装置122は、本願の他の箇所に記載されるように、等価空気伝導オーディオ信号を処理して目標オーディオ信号を取得することができる。
【0188】
いくつかの実施例において、骨伝導オーディオ信号及び/又は空気伝導オーディオ信号は、トレーニング済みの機械学習モデルに入力されてもよく、トレーニング済みの機械学習モデルは、目標オーディオ信号に関連する情報を出力することができる。例えば、トレーニング済みの機械学習モデルは、1セットのオーディオデータを出力することができる。処理装置122は、アルゴリズム(例えば、操作610において説明した音声合成アルゴリズム)を使用して該セットのオーディオデータを目標オーディオ信号に変換することができる。
【0189】
1010において、処理装置122(例えば、出力モジュール406)は、オーディオ信号出力装置に目標オーディオ信号を出力させることができる。
【0190】
いくつかの実施例において、処理装置122は、ネットワーク150を介してクライアント端末(例えば、端末130)、記憶装置140及び/又は(オーディオ信号生成システム100に示されていない)その他の任意の記憶装置に信号を送信することができる。信号は、目標オーディオ信号を含んでもよい。該信号は、クライアント端末を指示して目標オーディオ信号を再生するように構成されてもよい。
【0191】
なお、以上の説明は、説明のためのものに過ぎず、本願の範囲を限定することを意図するものではない。当業者であれば、本願の説明に基づいて様々な変更及び修正を行うことができる。しかしながら、これらの変更及び修正は本願の範囲から逸脱しない。
【0192】
上記で基本概念を説明してきたが、本願を読んだ当業者にとっては、上記発明の開示は、例として提示されているに過ぎず、本願を限定するものではないことは明らかである。本明細書において明確に記載されていないが、当業者は、本願に対して様々な変更、改良及び修正を行うことができる。これらの変更、改良及び修正は、本願によって示唆されることが意図されているため、依然として本願の例示的な実施例の精神及び範囲内にある。
【0193】
さらに、本願の実施例を説明するために、本願において特定の用語が使用されている。例えば、「1つの実施例」、「一実施例」、及び/又は「いくつかの実施例」は、本願の少なくとも1つの実施例に関連した特定の特徴、構造又は特性を意味する。したがって、本明細書の様々な部分における「一実施例」、「1つの実施例」又は「1つの代替的な実施例」の2回以上の言及は、必ずしも全てが同一の実施例を指すとは限らないことを強調し、理解されたい。また、本願の1つ以上の実施例における特定の特徴、構造、又は特性は、適切に組み合わせられてもよい。
【0194】
さらに、当業者には理解されるように、本願の各態様は、任意の新規かつ有用なプロセス、機械、製品又は物質の組み合わせ、又はそれらへの任意の新規かつ有用な改善を含むいくつかの特許可能なクラス又はコンテキストで、例示及び説明され得る。したがって、本願の各態様は、本明細書において一般的に「ユニット」、「モジュール」又は「システム」と呼ばれるハードウェア、(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)ソフトウェアにより完全に実現されてもよく、ソフトウェアとハードウェアとの組み合わせにより実現されてもよい。さらに、本願の各態様は、コンピュータ読み取り可能なプログラムコードを含む1つ以上のコンピュータ読み取り可能な媒体に具現化されたコンピュータプログラム製品の形態を取ることができる。
【0195】
非一時的なコンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能なプログラムコードを搬送するための、ベースバンド内で伝播されるか又は搬送波の一部として伝播されるデータ信号を含んでもよい。このような伝播信号は、電磁気信号、光信号、又はそれらの適切な組み合わせ形態などの様々な形態を含んでもよい。コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能な記憶媒体以外の任意のコンピュータ読み取り可能な媒体であってもよく、該媒体は、命令実行システム、装置又はデバイスに接続されることにより、使用されるプログラムの通信、伝播又は伝送を実現することができる。コンピュータ読み取り可能な信号媒体上のプログラムコードは、無線、ケーブル、光ファイバケーブル、RFなど、又は上記媒体の任意の組み合わせを含む任意の適切な媒体で伝播されてもよい。
【0196】
本願の態様の操作を実行するコンピュータプログラムコードは、Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Pythonなどのようなオブジェクト指向プログラミング言語、「C」プログラミング言語、Visual Basic、Fortran、Perl、COBOL、PHP、ABAPのような従来の手続き型プログラミング言語、Python、Ruby及びGroovyのような動的プログラミング言語、又は他のプログラミング言語などを含む、1種又は複数種のプログラミング言語の任意の組み合わせでコーディングされてもよい。該プログラムコードは、完全にユーザコンピュータで実行されてもよく、独立したソフトウェアパッケージとしてユーザコンピュータで実行されてもよく、部分的にユーザコンピュータで部分的にリモートコンピュータで実行されてもよく、完全にリモートコンピュータ又はサーバで実行されてもよい。後者の場合、リモートコンピュータは、(ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む)任意のタイプのネットワークを介してユーザコンピュータに接続されてもよく、(例えば、ネットワークサービスプロバイダのネットワークを利用して)外部コンピュータに接続されてもよく、クラウドコンピューティング環境にあってもよく、サービス、例えば、ソフトウェア・アズ・ア・サービス(SaaS)として提供されてもよい。
【0197】
また、特許請求の範囲に明確に記載されていない限り、本願に記載の処理要素又はシーケンスの列挙した順序、英数字の使用、又は他の名称の使用は、本願の手順及び方法の順序に限定されない。上記開示において、発明の様々な有用な実施例であると現在考えられるものを様々な例を通して説明しているが、そのような詳細は、単に説明のためであり、添付の特許請求の範囲は、開示される実施例に限定されないが、逆に、本願の実施例の趣旨及び範囲内にある全ての修正及び同等の組み合わせをカバーするように意図されることが理解されよう。例えば、上述したシステムアセンブリは、ハードウェアデバイスにより実装されてもよいが、ソフトウェアのみのソリューション、例えば、既存のサーバ又はモバイルデバイスに説明されたシステムをインストールすることにより実装されてもよい。
【0198】
同様に、本願の実施例の前述の説明において、本願を簡略化し、各発明の実施例の1つ以上に対する理解を容易にするために、様々な特徴を単一の実施例、図面又はその説明において組み合わせる場合があることが理解されよう。しかしながら、本願の該方法は、特許請求される主題が各請求項で明確に記載されるよりも多くの特徴を必要とするという意図を反映するものとして解釈されるべきではない。むしろ、特許請求される主題は、上記単一の実施例よりも少ない特徴を有するべきである。
【0199】
いくつかの実施例において、本願のいくつかの実施例の表現量、特性などを説明及び保護するために使用される数字は、場合によっては、用語「約」、「ほぼ」又は「実質的に」によって変更されることが理解されよう。例えば、「約」、「ほぼ」又は「実質的に」は、特に明記しない限り、その記載の値が±20%の変動が許容されることを示す。よって、いくつかの実施例において、明細書及び特許請求の範囲において使用されている数値パラメータは、いずれも個別の実施例に必要な特性に応じて変化し得る近似値である。いくつかの実施例において、数値パラメータについては、規定された有効桁数を考慮すると共に、通常の丸め手法を適用するべきである。本願のいくつかの実施例において、その範囲を決定するための数値範囲及びパラメータは近似値であるが、具体的な実施例において、このような数値は、可能な限り正確に設定される。
【0200】
本明細書に記載された全ての特許、特許出願、公開特許公報、及びその他の資料(論文、書籍、仕様書、刊行物、記録、事物及び/又は類似するもの)は、あらゆる目的のために、上記文書に関連するあらゆる起訴文書、本文書と一致しないか又は矛盾するあらゆる上記文書、又は遅かれ早かれ本文書に関連する特許請求の範囲の広範な範囲を制限するあらゆる上記文書を除いて、その全体が参照により本明細書に組み込まれる。例えば、説明、定義及び/又は組み込まれる任意の資料に関連する用語の使用と、本明細書に関連する用語との間に、何らかの不一致又は矛盾がある場合、説明、定義及び/又は本明細書で使用される用語は、本明細書における用語が優先される。
【0201】
最後に、本願に記載の実施例は、単に本願の実施例の原理を説明するものであることを理解されたい。他の変形例も本願の範囲内にある可能性がある。したがって、限定するものではなく、例として、本願の実施例の代替構成は、本願の教示と一致するように見なされてもよい。よって、本願の実施例は、本願において明確に紹介して説明された実施例に限定されない。
【符号の説明】
【0202】
100 オーディオ信号生成システム
110 オーディオ収集装置
112 骨伝導マイクロフォン
114 空気伝導マイクロフォン
120 サーバ
122 処理装置
130 端末
140 記憶装置
150 ネットワーク
200 コンピューティングデバイス
210 内部通信バス
220 プロセッサ
230 読み取り専用メモリ
240 ランダムアクセスメモリ
250 通信ポート
260 I/Oデバイス
270 ハードディスク
300 オーディオ収集装置
310 収集モジュール
320 信号処理モジュール 402 取得モジュール
404 決定モジュール
406 出力モジュール
502 取得モジュール
504 モデル生成モジュール
【手続補正書】
【提出日】2023-07-25
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
命令セットを含む少なくとも1つの記憶媒体と、
前記少なくとも1つの記憶媒体と通信する少なくとも1つのプロセッサとを含むシステムであって、前記命令セットは、前記少なくとも1つのプロセッサに、
骨伝導センサによって取得されたユーザ音声を表す骨伝導オーディオ信号を取得することと、
空気伝導センサによって取得された前記ユーザ音声を表す空気伝導オーディオ信号を取得することと、
特定の骨伝導オーディオ信号に由来する骨伝導データセットと特定の等価空気伝導オーディオ信号に由来する等価空気伝導データセットとの間のマッピング関係を提供するトレーニング済みの機械学習モデルを取得することと、
前記骨伝導オーディオ信号及び前記空気伝導オーディオ信号に基づいて、前記トレーニング済みの機械学習モデルを使用して、前記骨伝導オーディオ信号に対応する、前記ユーザ音声の意味内容を表す目標等価空気伝導データセットを決定することと、
前記目標等価空気伝導データセットに基づいて、オーディオ信号出力装置に前記ユーザ音声を表す目標オーディオ信号を出力させることと、を含む操作を実行させる、システム。
【請求項2】
前記骨伝導オーディオ信号及び前記空気伝導オーディオ信号に基づいて、前記骨伝導オーディオ信号に対応する等価空気伝導データセットを決定することは、
前記骨伝導オーディオ信号に基づいて、前記トレーニング済みの機械学習モデルを使用して、前記骨伝導オーディオ信号に対応する1つ以上の等価空気伝導データセットを決定することと、
前記空気伝導オーディオ信号に基づいて、前記1つ以上の等価空気伝導データから前記目標等価空気伝導データセットを識別することとを含む、請求項1に記載のシステム。
【請求項3】
前記骨伝導オーディオ信号に基づいて、前記トレーニング済みの機械学習モデルを使用して、前記骨伝導オーディオ信号に対応する1つ以上の等価空気伝導データセットを決定することは、
前記骨伝導オーディオ信号を前記トレーニング済みの機械学習モデルに入力して、前記骨伝導オーディオ信号に対応する前記1つ以上の等価空気伝導データセットを取得することを含む、請求項2に記載のシステム。
【請求項4】
前記骨伝導オーディオ信号に基づいて、前記トレーニング済みの機械学習モデルを使用して、前記骨伝導オーディオ信号に対応する1つ以上の等価空気伝導データセットを決定することは、
前記骨伝導オーディオ信号から骨伝導音響特徴を抽出することと、
前記骨伝導音響特徴に基づいて前記骨伝導データセットを決定することと、
前記骨伝導データセットを前記トレーニング済みの機械学習モデルに入力して、前記骨伝導オーディオ信号に対応する前記1つ以上の等価空気伝導データセットを取得することとを含む、請求項3に記載のシステム。
【請求項5】
前記空気伝導オーディオ信号に基づいて、前記1つ以上の等価空気伝導データから前記目標等価空気伝導データセットを識別することは、
前記空気伝導オーディオ信号から空気伝導音響特徴を抽出することと、
前記空気伝導音響特徴に基づいて空気伝導データセットを決定することと、
前記1つ以上の等価空気伝導データセットのそれぞれについて、前記等価空気伝導データセットと前記空気伝導データセットとの間の関連度を決定することと、
前記等価空気伝導データセットのうち、前記空気伝導データセットとの関連度が最大である等価空気伝導データセットを決定することと、
前記等価空気伝導データセットに基づいて、前記目標等価空気伝導データセットを決定することとを含む、請求項3に記載のシステム。
【請求項6】
前記目標等価空気伝導データセットに基づいて、オーディオ信号出力装置に前記ユーザ音声を表す目標オーディオ信号を出力させることは、
前記目標等価空気伝導データセットを目標等価空気伝導オーディオ信号に変換することと、
前記目標等価空気伝導オーディオ信号に基づいて前記目標オーディオ信号を決定することと、
前記オーディオ信号出力装置に前記目標オーディオ信号を出力させることとを含む、請求項1~5のいずれか1項に記載のシステム。
【請求項7】
前記目標オーディオ信号のノイズレベルは、前記空気伝導オーディオ信号のノイズレベルより小さい、請求項6に記載のシステム。
【請求項8】
目標等価空気伝導オーディオ信号に基づいて前記目標オーディオ信号を決定することは、
前記目標等価空気伝導オーディオ信号にノイズを付加することにより前記目標オーディオ信号を生成することを含む、請求項6に記載のシステム。
【請求項9】
前記トレーニング済みの機械学習モデルは、
それぞれが同じ音声サンプルを表す第1のオーディオ信号及び第2のオーディオ信号を含み、前記第1のオーディオ信号が骨伝導オーディオ収集装置によって収集され、前記第2のオーディオ信号が空気伝導オーディオ収集装置によってノイズなしの条件下で収集される複数セットのトレーニングデータを取得することと、
前記複数セットのトレーニングデータを使用して予備機械学習モデルをトレーニングして、前記トレーニング済みの機械学習モデルを取得することと、を含む、前記少なくとも1つのプロセッサによって実行されるプロセスにより提供される、請求項1に記載のシステム。
【請求項10】
前記予備機械学習モデルは、隠れマルコフモデルに基づいて構築される、請求項9に記載のシステム。
【請求項11】
前記複数セットのトレーニングデータを使用して予備機械学習モデルをトレーニングして、前記トレーニング済みの機械学習モデルを取得することは、
前記第1のオーディオ信号から第1の音響特徴を抽出することと、
前記第2のオーディオ信号から第2の音響特徴を抽出することと、
前記第1の音響特徴に基づいて1つ以上の第1の骨伝導データセットを決定することと、
前記第2の音響特徴に基づいて1つ以上の第2の空気伝導データセットを決定することと、
各ペアが前記第1の骨伝導データセットと同じ意味を表す第2の空気骨伝導データセットとを含む、複数ペアの空気伝導データ及び骨伝導データを決定することと、
前記複数ペアの空気伝導データセット及び骨伝導データセットに基づいて、前記1つ以上の第1の骨伝導データセットのそれぞれと前記1つ以上の第2の空気伝導データセットのうちの少なくとも1つとの間にマッピング関係を確立することとを含む、請求項9又は10に記載のシステム。
【請求項12】
前記1つ以上の第1の骨伝導データセット及び1つ以上の第2の空気伝導データセットのそれぞれは、1つ以上の音素からなる音節を含む、請求項11に記載のシステム。
【請求項13】
前記トレーニング済みの機械学習モデルは、前記骨伝導オーディオ信号の各音節と前記空気伝導オーディオ信号の1つ以上の音節との間のマッピング関係を提供する、請求項1に記載のシステム。
【請求項14】
前記骨伝導データセット内の各音節と前記1つ以上の等価空気伝導データセット内の1つ以上の音節との間のマッピング関係は、前記骨伝導データセット内の各音節と、1つ以上の等価空気伝導データセット内の1つ以上の音節のそれぞれとがマッチングする確率を含む、請求項13に記載のシステム。
【請求項15】
少なくとも1つのプロセッサと少なくとも1つの記憶装置とを含むコンピューティングデバイスによって実装される方法であって、
骨伝導センサによって取得されたユーザ音声を表す骨伝導オーディオ信号を取得することと、
空気伝導センサによって取得された前記ユーザ音声を表す空気伝導オーディオ信号を取得することと、
特定の骨伝導オーディオ信号に由来する骨伝導データセットと特定の等価空気伝導オーディオ信号に由来する1つ以上の等価空気伝導データセットとの間のマッピング関係を提供するトレーニング済みの機械学習モデルを取得することと、
前記骨伝導オーディオ信号及び空気伝導オーディオ信号に基づいて、前記トレーニング済みの機械学習モデルを使用して、前記骨伝導オーディオ信号に対応する、前記ユーザ音声の意味内容を表す目標等価空気伝導データセットを決定することと、
前記目標等価空気伝導データセットに基づいて、オーディオ信号出力装置に前記ユーザ音声を表す目標オーディオ信号を出力させることとを含む、方法。
【国際調査報告】