IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特許7367288音源定位モデルの訓練と音源定位方法、装置
<>
  • 特許-音源定位モデルの訓練と音源定位方法、装置 図1
  • 特許-音源定位モデルの訓練と音源定位方法、装置 図2
  • 特許-音源定位モデルの訓練と音源定位方法、装置 図3
  • 特許-音源定位モデルの訓練と音源定位方法、装置 図4
  • 特許-音源定位モデルの訓練と音源定位方法、装置 図5
  • 特許-音源定位モデルの訓練と音源定位方法、装置 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-16
(45)【発行日】2023-10-24
(54)【発明の名称】音源定位モデルの訓練と音源定位方法、装置
(51)【国際特許分類】
   G10L 15/28 20130101AFI20231017BHJP
   G10L 15/10 20060101ALI20231017BHJP
   G10L 25/51 20130101ALI20231017BHJP
   G10L 25/30 20130101ALI20231017BHJP
【FI】
G10L15/28 400
G10L15/10 200W
G10L25/51 400
G10L25/30
【請求項の数】 20
(21)【出願番号】P 2022077103
(22)【出願日】2022-05-09
(65)【公開番号】P2023041600
(43)【公開日】2023-03-24
【審査請求日】2022-05-09
(31)【優先権主張番号】202111068636.6
(32)【優先日】2021-09-13
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】ドゥ、ウェイ
(72)【発明者】
【氏名】ゾウ、サイサイ
(72)【発明者】
【氏名】ドゥ、テンユ
【審査官】菊地 陽一
(56)【参考文献】
【文献】国際公開第2019/187589(WO,A1)
【文献】国際公開第2021/044647(WO,A1)
【文献】国際公開第2020/045313(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/28
G10L 15/10
G10L 25/51
G10L 25/30
(57)【特許請求の範囲】
【請求項1】
ウェイクアップワードを含むオーディオ信号に基づいてサンプルオーディオを取得することと、
前記サンプルオーディオにおける少なくとも1つのオーディオフレームのオーディオ特徴を抽出し、前記少なくとも1つのオーディオフレームの方向ラベル及びマスクラベルを標識することと、
前記少なくとも1つのオーディオフレームのオーディオ特徴と、前記少なくとも1つのオーディオフレームの方向ラベル及びマスクラベルとを用いてニューラルネットワークモデルを訓練して音源定位モデルを得ることと、を含
前記マスクラベルは、対応するオーディオフレームが前記ニューラルネットワークモデルの損失関数の計算に関与しているか否かを示し、
ウェイクアップワードを含むオーディオ信号に基づいてサンプルオーディオを取得することは、
前記オーディオ信号に含まれるウェイクアップワードの単語長さを取得することと、
前記単語長さに対応する目標時間を決定することと、
前記オーディオ信号から前記目標時間に対応するオーディオを前記サンプルオーディオとして切取ることと、を含む、
音源定位モデルの訓練方法。
【請求項2】
前記サンプルオーディオにおける少なくとも1つのオーディオフレームのオーディオ特徴を抽出することは、
前記少なくとも1つのオーディオフレームのそれぞれについて、当該オーディオフレームの各チャネルの高速フーリエ変換特徴を取得することと、
各チャネルの高速フーリエ変換特徴における実数部と虚数部をそれぞれ抽出し、抽出結果を当該オーディオフレームのオーディオ特徴とすることと、を含む、
請求項1に記載の音源定位モデルの訓練方法。
【請求項3】
前記少なくとも1つのオーディオフレームのマスクラベルを標識することは、
前記少なくとも1つのオーディオフレームのそれぞれについて、当該オーディオフレームが前記オーディオ信号におけるウェイクアップワード終端点フレームの前に位置する所定フレーム数のオーディオフレームであると判定された場合に、当該オーディオフレームのマスクラベルを所定ラベルとして標識する、ことを含
前記マスクラベルが所定ラベルとして標識されるオーディオフレームは、前記ニューラルネットワークモデルの損失関数の計算に関与している、
請求項1に記載の音源定位モデルの訓練方法。
【請求項4】
前記少なくとも1つのオーディオフレームのオーディオ特徴と、前記少なくとも1つのオーディオフレームの方向ラベル及びマスクラベルとを用いてニューラルネットワークモデルを訓練して音源定位モデルを得ることは、
前記少なくとも1つのオーディオフレームのオーディオ特徴を前記ニューラルネットワークモデルに入力して、前記ニューラルネットワークモデルが前記少なくとも1つのオーディオフレームのそれぞれに対して出力する方向予測結果を得ることと、
オーディオフレームのマスクラベルが所定ラベルであると判定された場合に、当該オーディオフレームの方向予測結果と方向ラベルとに基づいて損失関数値を算出することと、
算出された損失関数値に基づいて、前記ニューラルネットワークモデルが収束するまで前記ニューラルネットワークモデルのパラメータを調整して前記音源定位モデルを得ることと、を含む、
請求項1に記載の音源定位モデルの訓練方法。
【請求項5】
処理すべきオーディオ信号を取得し、前記処理すべきオーディオ信号における各オーディオフレームのオーディオ特徴を抽出することと、
前記各オーディオフレームのオーディオ特徴を音源定位モデルに入力して、各オーディオフレームについて前記音源定位モデルが出力する音源方向情報を得ることと、
前記処理すべきオーディオ信号におけるウェイクアップワード終端点フレームを決定することと、
前記ウェイクアップワード終端点フレームに対応する音源方向情報に基づいて、前記処理すべきオーディオ信号の音源方向を得ることと、を含み、
前記音源定位モデルは、請求項1に記載の音源定位モデルの訓練方法に従って予め訓練された、
音源定位方法。
【請求項6】
前記処理すべきオーディオ信号における各オーディオフレームのオーディオ特徴を抽出することは、
各オーディオフレームについて、当該オーディオフレームの各チャネルの高速フーリエ変換特徴を得ることと、
各チャネルの高速フーリエ変換特徴における実数部と虚数部をそれぞれ抽出し、抽出結果を当該オーディオフレームのオーディオ特徴とすることと、を含む、
請求項に記載の音源定位方法。
【請求項7】
前記処理すべきオーディオ信号におけるウェイクアップワード終端点フレームを決定することは、
前記各オーディオフレームのオーディオ特徴に基づいて、前記各オーディオフレームのウェイクアップワードスコアを得ることと、
最後のウェイクアップワードスコアが所定スコア閾値を超えたオーディオフレームを前記ウェイクアップワード終端点フレームとすることと、を含む、
請求項に記載の音源定位方法。
【請求項8】
ウェイクアップワードを含むオーディオ信号に基づいてサンプルオーディオを取得する第1取得ユニットと、
前記サンプルオーディオにおける少なくとも1つのオーディオフレームのオーディオ特徴を抽出し、前記少なくとも1つのオーディオフレームの方向ラベル及びマスクラベルを標識する処理ユニットと、
前記少なくとも1つのオーディオフレームのオーディオ特徴と、前記少なくとも1つのオーディオフレームの方向ラベル及びマスクラベルとを用いてニューラルネットワークモデルを訓練して音源定位モデルを得る訓練ユニットと、を備え
前記マスクラベルは、対応するオーディオフレームが前記ニューラルネットワークモデルの損失関数の計算に関与しているか否かを示し、
前記第1取得ユニットは、ウェイクアップワードを含むオーディオ信号に基づいてサンプルオーディオを取得する際に、
前記オーディオ信号に含まれるウェイクアップワードの単語長さを取得し、
前記単語長さに対応する目標時間を決定し、
前記オーディオ信号から前記目標時間に対応するオーディオを前記サンプルオーディオとして切取る、
音源定位モデルの訓練装置。
【請求項9】
前記処理ユニットは、前記サンプルオーディオにおける少なくとも1つのオーディオフレームのオーディオ特徴を抽出する際に、
前記少なくとも1つのオーディオフレームのそれぞれについて、当該オーディオフレームの各チャネルの高速フーリエ変換特徴を取得し、
各チャネルの高速フーリエ変換特徴における実数部と虚数部をそれぞれ抽出し、抽出結果を当該オーディオフレームのオーディオ特徴とする、
請求項に記載の音源定位モデルの訓練装置。
【請求項10】
前記処理ユニットは、前記少なくとも1つのオーディオフレームのマスクラベルに標識する際に、
前記少なくとも1つのオーディオフレームのそれぞれについて、当該オーディオフレームが前記オーディオ信号におけるウェイクアップワード終端点フレームの前に位置する所定フレーム数のオーディオフレームであると判定された場合に、当該オーディオフレームのマスクラベルを所定ラベルとして標識
前記マスクラベルが所定ラベルとして標識されるオーディオフレームは、前記ニューラルネットワークモデルの損失関数の計算に関与している、
請求項に記載の音源定位モデルの訓練装置。
【請求項11】
前記訓練ユニットは、前記少なくとも1つのオーディオフレームのオーディオ特徴と、前記少なくとも1つのオーディオフレームの方向ラベル及びマスクラベルとを用いてニューラルネットワークモデルを訓練して音源定位モデルを得る際に、
前記少なくとも1つのオーディオフレームのオーディオ特徴を前記ニューラルネットワークモデルに入力して、前記ニューラルネットワークモデルが前記少なくとも1つのオーディオフレームのそれぞれに対して出力する方向予測結果を得、
オーディオフレームのマスクラベルが所定ラベルであると判定された場合に、当該オーディオフレームの方向予測結果と方向ラベルとに基づいて損失関数値を算出し、
算出された損失関数値に基づいて、前記ニューラルネットワークモデルが収束するまで前記ニューラルネットワークモデルのパラメータを調整して前記音源定位モデルを得る、
請求項に記載の音源定位モデルの訓練装置。
【請求項12】
処理すべきオーディオ信号を取得し、前記処理すべきオーディオ信号における各オーディオフレームのオーディオ特徴を抽出する第2取得ユニットと、
前記各オーディオフレームのオーディオ特徴を音源定位モデルに入力して、各オーディオフレームについて前記音源定位モデルが出力する音源方向情報を得る予測ユニットと、
前記処理すべきオーディオ信号におけるウェイクアップワード終端点フレームを決定する決定ユニットと、
前記ウェイクアップワード終端点フレームに対応する音源方向情報に基づいて、前記処理すべきオーディオ信号の音源方向を得る定位ユニットと、を備え、
前記音源定位モデルは、請求項8~11のいずれか1項に記載の音源定位モデルの訓練装置に基づいて予め訓練された、
音源定位装置。
【請求項13】
前記第2取得ユニットは、前記処理すべきオーディオ信号における各オーディオフレームのオーディオ特徴を抽出する際に、
各オーディオフレームについて、当該オーディオフレームの各チャネルの高速フーリエ変換特徴を得、
各チャネルの高速フーリエ変換特徴における実数部と虚数部をそれぞれ抽出し、抽出結果を当該オーディオフレームのオーディオ特徴とする、
請求項12に記載の音源定位装置。
【請求項14】
前記決定ユニットは、前記処理すべきオーディオ信号におけるウェイクアップワード終端点フレームを決定する際に、
前記各オーディオフレームのオーディオ特徴に基づいて、前記各オーディオフレームのウェイクアップワードスコアを得、
最後のウェイクアップワードスコアが所定スコア閾値を超えたオーディオフレームを前記ウェイクアップワード終端点フレームとする、
請求項12に記載の音源定位装置。
【請求項15】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されたメモリと、を備え、
前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1~のいずれか1項に記載の音源定位モデルの訓練方法を実行させる、電子デバイス。
【請求項16】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されたメモリと、を備え、
前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項5~7のいずれか1項に記載の音源定位方法を実行させる、電子デバイス。
【請求項17】
コンピュータに請求項1~のいずれか1項に記載の音源定位モデルの訓練方法を実行させるためのコンピュータコマンドを記憶する、非一時的なコンピュータ可読記憶媒体。
【請求項18】
コンピュータに請求項5~7のいずれか1項に記載の音源定位方法を実行させるためのコンピュータコマンドを記憶する、非一時的なコンピュータ可読記憶媒体。
【請求項19】
プロセッサにより実行されると、請求項1~のいずれか1項に記載の音源定位モデルの訓練方法を実現するコンピュータプログラム。
【請求項20】
プロセッサにより実行されると、請求項5~7のいずれか1項に記載の音源定位方法を実現するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示はコンピュータ技術分野に関し、特に音声処理、ディープラーニング等の人工知能技術分野に関する。 音源定位モデルの訓練及び音源定位方法、装置、電子デバイス及び可読記憶媒体が提供される。
【背景技術】
【0002】
音声インタラクションの需要の増加に伴い、音声インタラクションを中心に展開される製品はますます注目されている。音源定位とは、音声収集装置で収集された音声信号を分析することにより、音声収集装置に対する音源の方向を判定することである。
【発明の概要】
【発明が解決しようとする課題】
【0003】
音源定位の技術はスマートホーム、スマートカーなど音声インタラクションを必要とする製品とシーンで広く応用されている。しかし、従来技術は音源定位を行う際に音源定位の正確性が低く、音源定位の効率が低いなどの問題がある。
【課題を解決するための手段】
【0004】
本開示の第1態様によれば、ウェイクアップワードを含むオーディオ信号に基づいてサンプルオーディオを取得することと、サンプルオーディオにおける少なくとも1つのオーディオフレームのオーディオ特徴を抽出し、少なくとも1つのオーディオフレームの方向ラベル及びマスクラベルを標識することと、少なくとも1つのオーディオフレームのオーディオ特徴と、少なくとも1つのオーディオフレームの方向ラベル及びマスクラベルとを用いてニューラルネットワークモデルを訓練して音源定位モデルを得ることとを含む音源定位モデルの訓練方法を提供する。
【0005】
本開示の第2態様によれば、処理すべきオーディオ信号を取得し、処理すべきオーディオ信号における各オーディオフレームのオーディオ特徴を抽出することと、各オーディオフレームのオーディオ特徴を音源定位モデルに入力して各オーディオフレームについて音源定位モデルが出力する音源方向情報を得ることと、処理すべきオーディオ信号におけるウェイクアップワード終端点フレームを決定することと、ウェイクアップワード終端点フレームに対応する音源方向情報に基づいて、処理すべきオーディオ信号の音源方向を得ることとを含む音源定位方法を提供する。
【0006】
本開示の第3態様によれば、ウェイクアップワードを含むオーディオ信号に基づいてサンプルオーディオを取得する第1取得ユニットと、サンプルオーディオにおける少なくとも1つのオーディオフレームのオーディオ特徴を抽出し、少なくとも1つのオーディオフレームの方向ラベル及びマスクラベルを標識する処理ユニットと、少なくとも1つのオーディオフレームのオーディオ特徴と、少なくとも1つのオーディオフレームの方向ラベル及びマスクラベルとを用いてニューラルネットワークモデルを訓練して音源定位モデルを得る訓練ユニットと、を備える音源定位モデルの訓練装置を提供する。
【0007】
本開示の第4態様によれば、処理すべきオーディオ信号を取得し、処理すべきオーディオ信号における各オーディオフレームのオーディオ特徴を抽出する第2取得部と、各オーディオフレームのオーディオ特徴を音源定位モデルに入力して各オーディオフレームについて音源定位モデルが出力する音源方向情報を得る予測ユニットと、処理すべきオーディオ信号におけるウェイクアップワード終端点フレームを決定する決定ユニットと、ウェイクアップワード終端点フレームに対応する音源方向情報に基づいて、処理すべきオーディオ信号の音源方向を得る定位ユニットと、を備える音源定位装置を提供する。
【0008】
本開示の第5態様によれば、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信可能に接続されたメモリとを備え、メモリに少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、コマンドが少なくとも1つのプロセッサにより実行されると、少なくとも1つのプロセッサに上記の方法を実行させる電子デバイスを提供する。
【0009】
本開示の第6態様によれば、コンピュータに上記の方法を実行させるためのコンピュータコマンドを記憶した非一時的なコンピュータ可読記憶媒体を提供する。
【0010】
本開示の第7態様によれば、プロセッサにより実行されると、上記の方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。
【0011】
以上の技術案からわかるように、本実施形態では、ウェイクアップワードを含むオーディオ信号に基づいてサンプルオーディオを得た後、サンプルオーディオにおける少なくとも1つのオーディオフレームについて、オーディオ特徴の抽出及び方向ラベルとマスクラベルの標識をそれぞれ行い、さらに少なくとも1つのオーディオフレームのオーディオ特徴、方向ラベルとマスクラベルを用いて音源定位モデルを訓練して得ることにより、音源定位モデルの訓練効果を増強し、音源定位モデルが音源定位を行う時の正確性と速度を向上させる。
【0012】
理解すべきなのは、本セクションで説明される内容は、本開示の実施形態の重要な又は肝心な特徴を標識することでもなく、本開示の範囲を制限することでもない。本開示の他の特徴は、以下の明細書により容易に理解されるであろう。
【図面の簡単な説明】
【0013】
図面は、本技術案をより良く理解するためのものであり、本願に制限されない。図面において、
図1】本開示の第1実施形態に係る概略図である。
図2】本開示の第2実施形態に係る概略図である。
図3】本開示の第3実施形態に係る概略図である。
図4】本開示の第4実施形態に係る概略図である。
図5】本開示の第5実施形態に係る概略図である。
図6】本開示の実施形態に係る音源定位モデルの訓練及び音源定位方法を実現するための電子デバイスのブロック図である。
【発明を実施するための形態】
【0014】
以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識できるはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
【0015】
図1は、本開示の第1実施形態に係る概略図である。図1に示すように、本実施形態の音源定位モデルの訓練方法は、以下のステップを含む。S101において、ウェイクアップワードを含むオーディオ信号に基づいてサンプルオーディオを取得する。S102において、サンプルオーディオにおける少なくとも1つのオーディオフレームのオーディオ特徴を抽出し、少なくとも1つのオーディオフレームの方向ラベル及びマスクラベルを標識する。S103において、少なくとも1つのオーディオフレームのオーディオ特徴と、少なくとも1つのオーディオフレームの方向ラベル及びマスクラベルとを用いてニューラルネットワークモデルを訓練して音源定位モデルを得る。
【0016】
本実施形態の音源定位モデルの訓練方法は、ウェイクアップワードを含むオーディオ信号に基づいてサンプルオーディオを取得した後、サンプルオーディオにおける少なくとも1つのオーディオフレームについて、オーディオ特徴の抽出及び方向ラベルとマスクラベルの標識をそれぞれ行い、さらに少なくとも1つのオーディオフレームのオーディオ特徴、方向ラベルとマスクラベルを用いて音源定位モデルを訓練して得ることにより、音源定位モデルの訓練効果を増強し、音源定位モデルが音源定位を行う時の正確性と速度を向上させる。
【0017】
本実施形態では、S101を実行する場合に、まずウェイクアップワードを含むオーディオ信号を取得し、その後に取得されたオーディオ信号を処理してサンプルオーディオを得る。本実施形態では、S101を実行してウェイクアップワードを含む複数のオーディオ信号を取得すると、それに応じて複数のサンプルオーディオが得られることになる。
【0018】
具体的には、本実施形態では、ステップS101を実行してウェイクアップワードを含むオーディオ信号からサンプルオーディオを得る際に、以下のようなオプション実現方式を採用可能である。つまり、オーディオ信号に含まれるウェイクアップワードの単語長さを取得し、取得された単語長さに対応する目標時間を決定する。本実施形態は、予め設定された単語長さ―目標時間の対応関係に基づいて決定することができる。例えば、単語の長さ4に対応する目標時間は2sであってもよく、単語長さ2に対応する目標時間は1sであってもよい。そして、決定された目標時間に対応するオーディオをサンプルオーディオとしてオーディオ信号から切取る。
【0019】
なお、本実施形態では、S101を実行して、決定された目標時間に対応するオーディオをオーディオ信号から切取る場合には、ランダムに切取るようにしてもよく、予め設定された位置(例えば、オーディオ信号の中間位置、開始位置、終了)に従って切取るようにしてもよい。
【0020】
すなわち、本実施形態では、オーディオ信号を切り取ってサンプルオーディオを得ることにより、ウェイクアップワードが異なる位置にある場合のシミュレーションを行うことができるため、切り取られたサンプルオーディオに基づいて訓練された音源定位モデルのロバスト性を向上させることができる。
【0021】
本実施形態では、S101を実行してサンプルオーディオを取得した後、S102を実行して、取得されたサンプルオーディオにおける少なくとも1つのオーディオフレームのオーディオ特徴を抽出し、少なくとも1つのオーディオフレームの方向ラベル及びマスクラベルを標識する。ここで、本実施形態における少なくとも1つのオーディオフレームは、サンプルオーディオにおける全てのオーディオフレーム又は一部のオーディオフレームである。
【0022】
本実施形態では、S102を実行して抽出されたオーディオ特徴は、FFT(Fast Fourier Transform)特徴である。本実施形態では、S102を実行して標識された方向ラベルはオーディオフレームの実際の方向を示す。本実施形態では、S102を実行して標識されたマスクラベルは、1又は0であり、当該オーディオフレームがニューラルネットワークモデルの損失関数値の計算に関与しているか否かを示す。
【0023】
具体的には、本実施形態では、S102を実行してサンプルオーディオにおける少なくとも1つのオーディオフレームのオーディオ特徴を抽出する際に、以下のようなオプション実現方式を採用可能である。つまり、少なくとも1つのオーディオフレームにおける各オーディオフレームについて、当該オーディオフレームの各チャネルの高速フーリエ変換(FFT)特徴を得、各チャネルの高速フーリエ変換特徴における実数部と虚数部をそれぞれ抽出し、抽出結果を当該オーディオフレームのオーディオ特徴とする。
【0024】
例えば、オーディオフレームが3チャネルの信号である場合、本実施形態では、各チャネルのFFT特徴を得た後、各チャネルのFFT特徴における実数部と虚数部を抽出し、最終的に抽出された6チャネルの特徴をオーディオフレームのオーディオ特徴とする。
【0025】
すなわち、本実施形態では、FFT特徴における実数部と虚数部を抽出することにより、位相情報を完全に保持した上で、オーディオ特徴に語義情報を含むlogスペクトル特徴を付加する必要がなくなり、計算量を削減することができる。
【0026】
本実施形態は、S102を実行して少なくとも1つのオーディオフレームの方向ラベルを標識する際に、少なくとも1つのオーディオフレームの各オーディオフレームの実際の方向を決定し、さらに、方向ラベルにおける当該実際の方向に対応する位置における値を1、その他の位置を0として標識して良い。
【0027】
例えば、方向が東、南、西、北の4方向であると予め設定した場合に、オーディオフレームの実際の方向が南であると、本実施形態では、S102を実行する際に、当該オーディオフレームの方向ラベルを(0,1,0,0)とする。
【0028】
具体的には、本実施形態は、S102を実行して少なくとも1つのオーディオフレームのマスクラベルを標識する際に、以下のようなオプション実現方式を採用可能である。つまり、少なくとも1つのオーディオフレームの各々について、当該オーディオフレームがオーディオ信号におけるウェイクアップワード終端点フレームの前に位置する所定フレーム数のオーディオフレームであると判定された場合、当該オーディオフレームのマスクラベルを所定のラベルとして標識する。本実施形態における所定のラベルを1とし、所定のラベルとして標識されたオーディオフレームがニューラルネットワークモデルの損失関数の計算に参加する。
【0029】
なお、本実施形態における所定フレーム数は、実際の必要に応じて設定することができる。所定フレーム数が40フレームである場合、本実施形態では、S102を実行する際に、ウェイクアップワード終端点フレームの前に位置する40フレームのオーディオフレームのマスクラベルを所定のラベルとして標識する。
【0030】
すなわち、本実施形態は、オーディオフレームのマスクラベルを標識することにより、モデルが訓練中に局所的な干渉を排除し、完全なウェイクアップワードの方向情報により注目するように、局所的なウェイクアップ情報を弱めることができる。
【0031】
本実施形態は、S102を実行して、少なくとも1つのオーディオフレームのオーディオ特徴を抽出し、少なくとも1つのオーディオフレームの方向ラベル及びマスクラベルを標識した後、S103を実行して、少なくとも1つのオーディオフレームのオーディオ特徴及び少なくとも1つのオーディオフレームの方向ラベル及びマスクラベルを用いてニューラルネットワークモデルを訓練して音源定位モデルを得る。
【0032】
ここで、本実施形態でS103を実行して訓練されたニューラルネットワークモデルは、少なくとも1層の畳み込みネットワーク層と、少なくとも1層のループネットワーク層と、フル接続層とが順次接続されて構成される。畳み込みネットワーク層は特徴抽出に用いられ、MobileNetベースのブロック(Block)とすることができる。ループネットワーク層は、特徴計算に用いられ、RNN(Recurrent Neural Network)に基づくGRU(Gated Recurrent Unit)とすることができる。当該ループネットワーク層は、記憶ユニットにおける現在のオーディオフレームの前に位置するオーディオフレームに基づいて現在のオーディオフレームの方向情報を予測することができる。フル接続層は、オーディオフレームの方向を予測するために使用され、Softmax層とすることができる。
【0033】
具体的には、本実施形態は、ステップS103を実行して、少なくとも1つのオーディオフレームのオーディオ特徴と、少なくとも1つのオーディオフレームの方向ラベル及びマスクラベルとを用いてニューラルネットワークモデルを訓練して音源定位モデルを得る際に、以下のようなオプション実現方式を採用可能である。つまり、少なくとも1つのオーディオフレームのオーディオ特徴をニューラルネットワークモデルに入力して、少なくとも1つのオーディオフレームの各々についてニューラルネットワークモデルが出力する方向予測結果を得、オーディオフレームのマスクラベルが所定のラベルであると判定された場合、当該オーディオフレームの方向予測結果と方向ラベルとから損失関数値を算出し、算出された損失関数値に基づいて、ニューラルネットワークモデルが収束するまでニューラルネットワークモデルのパラメータを調整して音源定位モデルを得る。
【0034】
すなわち、本実施形態では、ニューラルネットワークモデルの訓練を行う際に、オーディオフレームのマスクラベルに基づいてパラメータ更新を行うオーディオフレームを選択することができるため、ニューラルネットワークモデルが完全なウェイクアップワードの方向情報により注目するようになり、ニューラルネットワークモデルの訓練効果が向上する。
【0035】
図2は本発明の第2実施形態に係る概略図である。図2に示すように、本実施形態では、音源定位モデルの構成の模式図が示された。図2における音源定位モデルは、2層の畳み込みネットワーク層(MobileNetアーキテクチャに基づく)、2層のループネットワーク層(GRUアーキテクチャに基づく)、1層のフル接続層から構成されており、より低い計算量を保証しながら、より正確な定位効果を保証することができる。畳み込みネットワーク層は、第1畳み込み層(畳み込みコアサイズ1×1、活性化関数Relu6)、第2畳み込み層(畳み込みコアサイズ3×3のディープ畳み込み、活性化関数Relu6)、及び第3畳み込み層(畳み込みコアサイズ1×1、活性化関数Linear)を含むことができる。
【0036】
図3は本発明の第3実施形態に係る概略図である。図3に示すように、本実施形態の音源定位方法は、具体的に以下のステップを含むことができる。S301において、処理すべきオーディオ信号を取得し、処理すべきオーディオ信号における各オーディオフレームのオーディオ特徴を抽出する。S302において、各オーディオフレームのオーディオ特徴を音源定位モデルに入力して各オーディオフレームについて音源定位モデルが出力する音源方向情報を得る。S303において、処理すべきオーディオ信号におけるウェイクアップワード終端点フレームを決定する。S304において、ウェイクアップワード終端点フレームに対応する音源方向情報に基づいて、処理すべきオーディオ信号の音源方向を得る。
【0037】
本実施形態の音源定位方法は、予め訓練された音源定位モデルにより、処理すべきオーディオ信号における各オーディオフレームの音源方向情報を得、さらに、処理すべきオーディオ信号におけるウェイクアップワード終端点フレームを決定した後、当該ウェイクアップワード終端点フレームに対応する音源方向情報から処理すべきオーディオ信号の音源方向を得ることにより、音源方向の決定の精度と速度を向上させると共に、ウェイクアップされたタイミングと同時に音源方向を得るという目的を実現し、音源方向決定の適時性を向上させることができる。
【0038】
本実施形態では、S301を実行する際に、収音装置により収音されたオーディオ信号を処理すべきオーディオ信号としてよい。収音装置は、スマートスピーカー、スマート家電、スマートカーなどのスマートデバイス内に配置されてよい。
【0039】
本実施形態では、S301を実行して処理すべきオーディオ信号における各オーディオフレームのオーディオ特徴を抽出する際に、以下のようなオプション実現方式を採用可能である。つまり、各オーディオフレームについて、当該オーディオフレームの各チャネルの高速フーリエ変換特徴を得、各チャネルの高速フーリエ変換特徴における実数部と虚数部をそれぞれ抽出し、抽出結果を当該オーディオフレームのオーディオ特徴とする。
【0040】
本実施形態では、S301を実行して各オーディオフレームのオーディオ特徴を抽出した後、S302を実行して、抽出された各オーディオフレームのオーディオ特徴を音源定位モデルに入力して各オーディオフレームについて音源定位モデルが出力する音源方向情報を取得する。なお、本実施形態においてS302を実行して得られた音源方向情報は、当該オーディオフレームが所定の方向に位置する確率値を示すものである。
【0041】
各オーディオフレームが処理すべきオーディオ信号における時系列に対応するため、本実施形態では、S302を実行する際に、各オーディオフレームのオーディオ特徴を音源定位モデルに順次入力し、音源定位モデルにおける少なくとも1層のループネットワーク層が記憶ユニットに記憶された状態と合わせて特徴計算することにより、各オーディオフレームについて音源定位モデルが出力する音源方向情報を得ることができる。
【0042】
本実施形態では、S302を実行して各オーディオフレームについて音源定位モデルが出力する音源方向情報を得る際に、以下の内容を含んでよい。つまり、複数のオーディオフレーム(即ち処理すべきオーディオ信号)をスライドさせるための所定サイズの時間窓、例えば所定サイズが2sである時間窓を設定し、処理時間が所定サイズに達したと判定された場合に、音源定位モデルにおける少なくとも1層のループネットワーク層の記憶ユニットを空にし、時間窓を複数のオーディオフレームにわたって例えば0.8sである所定距離だけ後方に移動させ、音源定位モデルにより、移動前と移動後の2つの時間窓の間の重複部分に位置するオーディオフレームに対して処理を行って各オーディオフレームの音源方向情報を得、処理すべきオーディオ信号におけるウェイクアップワード終端点フレームが確定したか否かを検出し、否定の場合に処理時間が所定の時間に達したか否かを判定するステップに進み、処理すべきオーディオ信号におけるウェイクアップワード終端点フレームが確定するまでループする。
【0043】
すなわち、本実施形態では、時間窓を設けることにより、音源定位モデルのメモリクリアとメモリトレースバックを行うことも可能であるため、音源定位モデルが各オーディオフレームの音源方向情報を出力するリアルタイム性を向上させると共に、音源定位モデルにおける少なくとも1つのループネットワーク層の記憶ユニットのメモリ時間を確保することができる。
【0044】
本実施形態では、S302を実行して各オーディオフレームについて音源定位モデルが出力する音源方向情報を得た後、S303を実行して処理すべきオーディオ信号におけるウェイクアップワード終端点フレームを決定する。ここで、本実施形態で決定されたウェイクアップワード終端点フレームは、ウェイクアップワードの終了時刻に対応するオーディオフレームである。
【0045】
具体的には、本実施形態では、S303を実行して処理すべきオーディオ信号におけるウェイクアップワード終端点フレームを決定する際に、以下のようなオプション実現方式を採用可能である。つまり、各オーディオフレームのオーディオ特徴に基づいて各オーディオフレームのウェイクアップワードスコアを得、本実施形態で予め訓練されたウェイクアップモデルを使用してウェイクアップワードスコアを得られ、最後のウェイクアップワードスコアが所定スコア閾値を超えたオーディオフレームをウェイクアップワード終端点フレームとする。
【0046】
理解すべきなのは、本実施形態では、オーディオフレームの音源方向情報の予測と、処理すべきオーディオ信号におけるウェイクアップワード終端点フレームの決定とを同時に行うことができる。
【0047】
本実施形態では、S303を実行してウェイクアップワード終端点フレームを決定した後、S304を実行して、決定されたウェイクアップワード終端点フレームに対応する音源方向情報に基づいて、処理すべきオーディオ信号の音源方向を得る。
【0048】
本実施形態では、S304を実行して、決定されたウェイクアップワード終端点フレームに対応する音源方向情報に基づいて、処理すべきオーディオ信号の音源方向を得る際には、以下のようなオプション実現方式を採用可能である。つまり、ウェイクアップワード終端点フレームに対応する音源方向情報を決定し、即ち各オーディオフレームにおける、ウェイクアップワード終端点フレームに属するオーディオフレームの音源定位情報をウェイクアップワード終端点フレームの音源方向情報とし、音源方向情報の最大値が対応する方向を、処理すべきオーディオ信号の音源方向とする。
【0049】
例えば、方向がそれぞれ東、南、西、北であると予め設定された場合、本実施形態においてS303を実行して決定されたウェイクアップワード終端点フレームに対応する音源方向情報が(0.2,0.6,0.1,0.1)であれば、最大値0.6に対応する南方向を処理すべきオーディオ信号の音源方向とする。
【0050】
図4は本開示の第4実施形態に係る概略図である。図4に示すように、本実施形態の音源定位モデルの訓練装置400は、ウェイクアップワードを含むオーディオ信号に基づいてサンプルオーディオを得る第1取得ユニット401と、サンプルオーディオにおける少なくとも1つのオーディオフレームのオーディオ特徴を抽出し、少なくとも1つのオーディオフレームの方向ラベル及びマスクラベルを標識する処理ユニット402と、少なくとも1つのオーディオフレームのオーディオ特徴と、少なくとも1つのオーディオフレームの方向ラベル及びマスクラベルと、を用いてニューラルネットワークモデルを訓練して音源定位モデルを得る訓練ユニット403とを備える。
【0051】
第1取得ユニット401は、まずウェイクアップワードを含むオーディオ信号を取得し、その後に取得されたオーディオ信号を処理してサンプルオーディオを得る。第1取得ユニット401によりウェイクアップワードを含む複数のオーディオ信号を取得すると、それに応じて複数のサンプルオーディオが得られることになる。
【0052】
具体的には、第1取得ユニット401はウェイクアップワードを含むオーディオ信号からサンプルオーディオを得る際に、以下のようなオプション実現方式を採用可能である。つまり、オーディオ信号に含まれるウェイクアップワードの単語長さを取得し、取得された単語長さに対応する目標時間を決定し、決定された目標時間に対応するオーディオをサンプルオーディオとしてオーディオ信号から切取る。
【0053】
なお、第1取得ユニット401は、決定された目標時間に対応するオーディオをオーディオ信号から切取る場合には、ランダムに切取るようにしてもよく、予め設定された位置(例えば、オーディオ信号の中間位置、開始位置、終了)に従って切取るようにしてもよい。
【0054】
すなわち、本実施形態では、オーディオ信号を切り取ってサンプルオーディオを得ることにより、ウェイクアップワードが異なる位置にある場合のシミュレーションを行うことができるため、切り取られたサンプルオーディオに基づいて訓練された音源定位モデルのロバスト性を向上させることができる。
【0055】
本実施形態では、第1取得ユニット401によりサンプルオーディオが取得された後、処理ユニット402により、取得されたサンプルオーディオにおける少なくとも1つのオーディオフレームのオーディオ特徴を抽出し、少なくとも1つのオーディオフレームの方向ラベル及びマスクラベルを標識する。
【0056】
処理ユニット402により抽出されたオーディオ特徴は、FFT(Fast Fourier Transform)特徴である。処理ユニット402により標識された方向ラベルはオーディオフレームの実際の方向を示す。処理ユニット402により標識されたマスクラベルは、1又は0であり、当該オーディオフレームがニューラルネットワークモデルの損失関数値の計算に関与しているか否かを示す。
【0057】
具体的には、処理ユニット402によりサンプルオーディオにおける少なくとも1つのオーディオフレームのオーディオ特徴を抽出する際に、以下のようなオプション実現方式を採用可能である。つまり、少なくとも1つのオーディオフレームにおける各オーディオフレームについて、当該オーディオフレームの各チャネルの高速フーリエ変換(FFT)特徴を得、各チャネルの高速フーリエ変換特徴における実数部と虚数部をそれぞれ抽出し、抽出結果を当該オーディオフレームのオーディオ特徴とする。
【0058】
すなわち、本実施形態では、FFT特徴における実数部と虚数部を抽出することにより、位相情報を完全に保持した上で、オーディオ特徴に語義情報を含むlogスペクトル特徴を付加する必要がなくなり、計算量を削減することができる。
【0059】
処理ユニット402により少なくとも1つのオーディオフレームの方向ラベルを標識する際に、少なくとも1つのオーディオフレームの各オーディオフレームの実際の方向を決定し、さらに、方向ラベルにおける当該実際の方向に対応する位置における値を1、その他の位置を0として標識して良い。
【0060】
具体的には、処理ユニット402により少なくとも1つのオーディオフレームのマスクラベルを標識する際に、以下のようなオプション実現方式を採用可能である。つまり、少なくとも1つのオーディオフレームの各々について、当該オーディオフレームがオーディオ信号におけるウェイクアップワード終端点フレームの前に位置する所定フレーム数のオーディオフレームであると判定された場合、当該オーディオフレームのマスクラベルを所定のラベルとして標識する。本実施形態における所定のラベルを1とし、所定のラベルとして標識されたオーディオフレームがニューラルネットワークモデルの損失関数の計算に参加する。
【0061】
なお、本実施形態における所定フレーム数は、実際の必要に応じて設定することができる。所定フレーム数が40フレームである場合、処理ユニット402は、ウェイクアップワード終端点フレームの前に位置する40フレームのオーディオフレームのマスクラベルを所定のラベルとして標識する。
【0062】
すなわち、本実施形態は、オーディオフレームのマスクラベルを標識することにより、モデルが訓練中に局所的な干渉を排除し、完全なウェイクアップワードの方向情報により注目するように、局所的なウェイクアップ情報を弱めることができる。
【0063】
本実施形態は、処理ユニット402により、少なくとも1つのオーディオフレームのオーディオ特徴を抽出し、少なくとも1つのオーディオフレームの方向ラベル及びマスクラベルを標識した後、訓練ユニット403により、少なくとも1つのオーディオフレームのオーディオ特徴及び少なくとも1つのオーディオフレームの方向ラベル及びマスクラベルを用いてニューラルネットワークモデルを訓練して音源定位モデルを得る。
【0064】
訓練ユニット403により訓練されたニューラルネットワークモデルは、少なくとも1層の畳み込みネットワーク層と、少なくとも1層のループネットワーク層と、フル接続層とが順次接続されて構成される。畳み込みネットワーク層は特徴抽出に用いられ、MobileNetベースのブロック(Block)とすることができる。ループネットワーク層は、特徴計算に用いられ、RNN(Recurrent Neural Network)に基づくGRU(Gated Recurrent Unit)とすることができる。当該ループネットワーク層は、記憶ユニットにおける現在のオーディオフレームの前に位置するオーディオフレームに基づいて現在のオーディオフレームの方向情報を予測することができる。フル接続層は、オーディオフレームの方向を予測するために使用され、Softmax層とすることができる。
【0065】
具体的には、訓練ユニット403により、少なくとも1つのオーディオフレームのオーディオ特徴と、少なくとも1つのオーディオフレームの方向ラベル及びマスクラベルとを用いてニューラルネットワークモデルを訓練して音源定位モデルを得る際に、以下のようなオプション実現方式を採用可能である。つまり、少なくとも1つのオーディオフレームのオーディオ特徴をニューラルネットワークモデルに入力して、少なくとも1つのオーディオフレームの各々についてニューラルネットワークモデルが出力する方向予測結果を得、オーディオフレームのマスクラベルが所定のラベルであると判定された場合、当該オーディオフレームの方向予測結果と方向ラベルとから損失関数値を算出し、算出された損失関数値に基づいて、ニューラルネットワークモデルが収束するまでニューラルネットワークモデルのパラメータを調整して音源定位モデルを得る。
【0066】
すなわち、本実施形態では、ニューラルネットワークモデルの訓練を行う際に、オーディオフレームのマスクラベルに基づいてパラメータ更新を行うオーディオフレームを選択することができるため、ニューラルネットワークモデルが完全なウェイクアップワードの方向情報により注目するようになり、ニューラルネットワークモデルの訓練効果が向上する。
【0067】
図5は、本開示の第5実施形態に係る概略図である。図5に示すように、本実施形態の音源定位装置500は、処理すべきオーディオ信号を取得し、処理すべきオーディオ信号における各オーディオフレームのオーディオ特徴を抽出する第2取得ユニット501と、各オーディオフレームのオーディオ特徴を音源定位モデルに入力して各オーディオフレームについて音源定位モデルが出力する音源方向情報を得る予測ユニット502と、処理すべきオーディオ信号におけるウェイクアップワード終端点フレームを決定する決定ユニット503と、ウェイクアップワード終端点フレームに対応する音源方向情報に基づいて、処理すべきオーディオ信号の音源方向を得る定位ユニット504と、を備える。
【0068】
第2取得ユニット501は、収音装置により収音されたオーディオ信号を処理すべきオーディオ信号としてよい。
【0069】
第2取得ユニット501により処理すべきオーディオ信号における各オーディオフレームのオーディオ特徴を抽出する際に、以下のようなオプション実現方式を採用可能である。つまり、各オーディオフレームについて、当該オーディオフレームの各チャネルの高速フーリエ変換特徴を得、各チャネルの高速フーリエ変換特徴における実数部と虚数部をそれぞれ抽出し、抽出結果を当該オーディオフレームのオーディオ特徴とする。
【0070】
本実施形態では、第2取得ユニット501により各オーディオフレームのオーディオ特徴を抽出した後、予測ユニット502により、抽出された各オーディオフレームのオーディオ特徴を音源定位モデルに入力して各オーディオフレームについて音源定位モデルが出力する音源方向情報を取得する。なお、予測ユニット502により得られた音源方向情報は、当該オーディオフレームが所定の方向に位置する確率値を示すものである。
【0071】
各オーディオフレームが処理すべきオーディオ信号における時系列に対応するため、予測ユニット502により、各オーディオフレームのオーディオ特徴を音源定位モデルに順次入力し、音源定位モデルにおける少なくとも1層のループネットワーク層が記憶ユニットに記憶された状態と合わせて特徴計算することにより、各オーディオフレームについて音源定位モデルが出力する音源方向情報を得ることができる。
【0072】
予測ユニット502により各オーディオフレームについて音源定位モデルが出力する音源方向情報を得る際に、以下の内容を含んでよい。つまり、所定サイズの時間窓を設定し、処理時間が所定サイズに達したと判定された場合に、音源定位モデルにおける少なくとも1層のループネットワーク層の記憶ユニットを空にし、時間窓を複数のオーディオフレームにわたって所定距離だけ後方に移動させ、音源定位モデルにより、移動前と移動後の2つの時間窓の間の重複部分に位置するオーディオフレームに対して処理を行って各オーディオフレームの音源方向情報を得、処理すべきオーディオ信号におけるウェイクアップワード終端点フレームが確定したか否かを検出し、否定の場合に処理時間が所定の時間に達したか否かを判定するステップに進み、処理すべきオーディオ信号におけるウェイクアップワード終端点フレームが確定するまでループする。
【0073】
すなわち、本実施形態では、時間窓を設けることにより、音源定位モデルのメモリクリアとメモリトレースバックを行うことも可能であるため、音源定位モデルが各オーディオフレームの音源方向情報を出力するリアルタイム性を向上させると共に、音源定位モデルにおける少なくとも1つのループネットワーク層の記憶ユニットのメモリ時間を確保することができる。
【0074】
本実施形態では、予測ユニット502により各オーディオフレームについて音源定位モデルが出力する音源方向情報を得た後、決定ユニット503により処理すべきオーディオ信号におけるウェイクアップワード終端点フレームを決定する。ここで、決定ユニット503により決定されたウェイクアップワード終端点フレームは、ウェイクアップワードの終了時刻に対応するオーディオフレームである。
【0075】
具体的には、決定ユニット503により処理すべきオーディオ信号におけるウェイクアップワード終端点フレームを決定する際に、以下のようなオプション実現方式を採用可能である。つまり、各オーディオフレームのオーディオ特徴に基づいて各オーディオフレームのウェイクアップワードスコアを得、最後のウェイクアップワードスコアが所定スコア閾値を超えたオーディオフレームをウェイクアップワード終端点フレームとする。
【0076】
本実施形態では、決定ユニット503によりウェイクアップワード終端点フレームを決定した後、定位ユニット504により、決定されたウェイクアップワード終端点フレームに対応する音源方向情報に基づいて、処理すべきオーディオ信号の音源方向を得る。
【0077】
定位ユニット504により、決定されたウェイクアップワード終端点フレームに対応する音源方向情報に基づいて、処理すべきオーディオ信号の音源方向を得る際には、以下のようなオプション実現方式を採用可能である。つまり、ウェイクアップワード終端点フレームに対応する音源方向情報を決定し、音源方向情報の最大値が対応する方向を、処理すべきオーディオ信号の音源方向とする。
【0078】
本開示の技術案において、関わるユーザの個人情報の取得、記憶及び応用等は、いずれも関連法律法規の規定に適合しており、公序良俗に反するものではない
【0079】
本開示の実施形態によれば、本開示は更に、電子デバイス、可読記憶媒体、及びコンピュータプログラム製品を提供する。
【0080】
図6は、本開示の実施形態の音源定位モデルの訓練及び音源定位方法に係る電子デバイスのブロック図である。電子デバイスは、ラップトップ、デスクトップコンピュータ、ワークベンチ、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータのような、様々な形態のデジタルコンピュータを表す。電子デバイスは更に、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。本明細書に示す構成要素、それらの接続及び関係、ならびにそれらの機能は、単なる一例であり、本明細書に記載及び/又は要求された本開示の実現を制限することではない。
【0081】
図6に示すように、デバイス600は、読み取り専用メモリ(ROM)602に記憶されたコンピュータプログラム、又は記憶手段608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる演算手段601を含む。RAM603には、デバイス600の動作に必要な各種のプログラムやデータが記憶されてもよい。演算手段601、ROM602及びRAM603は、バス604を介して接続されている。入出力(I/O)インターフェース605もバス604に接続されている。
【0082】
例えばキーボード、マウス等の入力手段606と、例えば様々なタイプのディスプレイ、スピーカ等の出力手段607と、例えば磁気ディスク、光ディスク等の記憶手段608と、例えばネットワークカード、モデム、無線通信トランシーバなどの通信手段609を含むデバイス600の複数の構成要素は、I/Oインターフェース605に接続される。通信手段609は、デバイス600が例えばインターネットのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
【0083】
演算手段601は、処理能力及び演算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってよい。演算手段601のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な専用の人工知能(AI)演算チップ、機械学習モデルアルゴリズムを実行する様々な演算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。演算手段601は、上述した様々な方法及び処理、例えば音源定位モデルの訓練及び音源定位方法を実行する。例えば、幾つかの実施形態では、音源定位モデルの訓練及び音源定位方法は、例えば記憶手段608のような機械可読媒体に物理的に組み込まれたコンピュータソフトウェアプログラムとして実装されてもよい。
【0084】
幾つかの実施形態では、コンピュータプログラムの一部又は全部は、ROM602及び/又は通信手段609を介してデバイス600にロード及び/又はインストールすることができる。コンピュータプログラムがRAM603にロードされ、演算手段601により実行されると、本開示に記載の音源定位モデルの訓練及び音源定位方法の1つ又は複数のステップを実行することができる。代替的に、他の実施形態では、演算手段601は、音源定位モデルの訓練及び音源定位方法を実行するように、他の任意の適切な方法で(例えば、ファームウェアを介する)構成されてもよい。
【0085】
本明細書で前述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実装されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含んで良い。当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈することができる。当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであって、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置にデータ及び命令を転送することができる。
【0086】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせを用いて記述することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供することにより、プログラムコードがプロセッサ又はコントローラにより実行されると、フローチャート及び/又はブロック図に指定された機能/動作を実行するようにすることができる。プログラムコードは、全てがマシン上で実行されても良く、一部がマシン上で実行されても良く、スタンドアロンパッケージとして一部的にマシン上で実行され且つ一部的にリモートマシン上で実行され、或いは全てがリモートマシン又はサーバ上で実行されても良い。
【0087】
本開示の文脈では、機械可読媒体は、有形の媒体であって、命令実行システム、装置又はデバイスにより使用され、或いは命令実行システム、装置又はデバイスと合わせて使用されるプログラムを含むか記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってよい。機械可読媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体的なシステム、装置又はデバイス、あるいはこれらの任意の適切な組み合わせを含んで良いが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。
【0088】
ユーザとのインタラクションを提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、ユーザにより入力をコンピュータに提供するキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)と備えるコンピュータ上に実施されてよい。他の種類の装置は、ユーザとのインタラクションを提供するためにも使用され得る。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であって良く、ユーザからの入力を任意の形式(音入力、音声入力、又は触覚入力を含む)で受信して良い。
【0089】
本明細書に記載されたシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる)、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイド・エリア・ネットワーク(「WAN」)、インターネットワークを含む。
【0090】
コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。サーバはクラウドサーバ、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、従来の物理ホストとVPSサービス(「Virtual Private Server」、或いは「VPS」と略称される)において管理が難しく、ビジネスの拡張性が弱いという欠点を解決するクラウドコンピューティングサービスシステムのホスト製品の1つであって良い。サーバは、分散システムのサーバであっても良く、ブロックチェーンを組み合わせたサーバであってもよい。
【0091】
以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本開示に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本開示で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。
【0092】
上記の具体的な実施形態は本開示の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本開示の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本開示の保護範囲内に含まれるべきである。
図1
図2
図3
図4
図5
図6