IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ コッヘル インコーポレーテッドの特許一覧

特表2024-523241オーディオ音質変換装置およびその制御方法
<>
  • 特表-オーディオ音質変換装置およびその制御方法 図1
  • 特表-オーディオ音質変換装置およびその制御方法 図2
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-06-28
(54)【発明の名称】オーディオ音質変換装置およびその制御方法
(51)【国際特許分類】
   H04R 3/00 20060101AFI20240621BHJP
【FI】
H04R3/00 310
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023575988
(86)(22)【出願日】2022-06-09
(85)【翻訳文提出日】2023-12-12
(86)【国際出願番号】 KR2022008132
(87)【国際公開番号】W WO2022260450
(87)【国際公開日】2022-12-15
(31)【優先権主張番号】10-2021-0075087
(32)【優先日】2021-06-09
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
(71)【出願人】
【識別番号】523439242
【氏名又は名称】コッヘル インコーポレーテッド
(74)【代理人】
【識別番号】110001139
【氏名又は名称】SK弁理士法人
(74)【代理人】
【識別番号】100130328
【弁理士】
【氏名又は名称】奥野 彰彦
(74)【代理人】
【識別番号】100130672
【弁理士】
【氏名又は名称】伊藤 寛之
(72)【発明者】
【氏名】ハン、ユンチャン
(72)【発明者】
【氏名】イ、スビン
(72)【発明者】
【氏名】パク、ジョンス
(72)【発明者】
【氏名】ジョン、イルヨン
(72)【発明者】
【氏名】イ、ドンムン
(72)【発明者】
【氏名】イム、ヒョンギ
【テーマコード(参考)】
5D220
【Fターム(参考)】
5D220BA30
(57)【要約】
本発明に係るオーディオ音質変換装置は、所定のオーディオイベントに対して互いに異なる録音環境でレコーディングされた複数のオーディオデータと、それぞれのオーディオデータに対応する録音環境に関連した環境データを利用して学習を遂行する人工ニューラルネットワークを搭載する制御部および外部の音を受信してオーディオレコーディングデータを生成するオーディオ入力部を含み、前記制御部は前記人工ニューラルネットワークの学習結果に基づいて、前記オーディオ入力部によって生成された前記オーディオレコーディングデータを変換させることを特徴とする。
【選択図】図1
【特許請求の範囲】
【請求項1】
所定のオーディオイベントに対して互いに異なる録音環境でレコーディングされた複数のオーディオデータと、それぞれのオーディオデータに対応する録音環境に関連した環境データを利用して学習を遂行する人工ニューラルネットワークを搭載する制御部;および
外部の音を受信してオーディオレコーディングデータを生成するオーディオ入力部;を含み、
前記制御部は、
前記人工ニューラルネットワークの学習結果に基づいて、前記オーディオ入力部によって生成された前記オーディオレコーディングデータを変換させることを特徴とする、オーディオ音質変換装置。
【請求項2】
前記オーディオレコーディングデータの変換に関連した情報の入力を受ける変換条件入力部をさらに含み、
前記制御部は、
前記変換条件入力部に入力された情報に基づいて、前記人工ニューラルネットワークを利用して前記オーディオレコーディングデータを変換させることを特徴とする、請求項1に記載のオーディオ音質変換装置。
【請求項3】
前記環境データは、
前記オーディオイベントの発生地点と前記オーディオデータをレコーディングするマイクの間の距離に関連した情報と、前記マイクが存在する位置の空間残響に関連した情報および、前記マイクが存在する位置の騒音に関連した情報のうち少なくとも一つを含むことを特徴とする、請求項1に記載のオーディオ音質変換装置。
【請求項4】
前記人工ニューラルネットワークは、
騒音レベルが予め設定された数値以下である環境条件でレコーディングされた第1オーディオデータと、前記第1オーディオデータに予め保存されたノイズデータを合成した第2オーディオデータを利用して学習を遂行することを特徴とする、請求項3に記載のオーディオ音質変換装置。
【請求項5】
前記人工ニューラルネットワークは、
前記第1トレーニングデータに対応する環境データと、前記第2トレーニングデータに対応する環境データを利用して学習を遂行することを特徴とする、請求項4に記載のオーディオ音質変換装置。
【請求項6】
前記オーディオ入力部は、
所定の距離だけ離隔して前記オーディオ音質変換装置の本体上に設置される第1マイクと第2マイクを含み、
前記人工ニューラルネットワークは、
前記第1マイクから獲得されたオーディオデータと、前記第2マイクから獲得されたオーディオデータを利用して学習を遂行することを特徴とする、請求項3に記載のオーディオ音質変換装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明はオーディオデータのクオリティを補正する装置およびその制御方法に関する。具体的には、本発明はオーディオデータの音質を向上させる装置およびその制御方法に関する。
【背景技術】
【0002】
最近オーディオを処理するためにディープラーニングのような人工知能技術が適用されている。オーディオに関連した処理技術のうち一つであるオーディオ識別技術は、オーディオ入力がどのような主体から発生したか、該当主体のどのような状況で発生するものであるかを検出するための目的で開発される。
【0003】
このように、人工知能を利用したオーディオ識別技術を具現するために、多数のオーディオ入力と、それに対応してすでに識別されたオーディオ情報、またはオーディオ分析は必須の要素である。
【0004】
一方、ユーチューブのようなビデオプラットフォームが発展するにつれて、オーディオ分析技術を利用してオーディオのクオリティを向上させようとする努力が持続されている。一般的にビデオプラットフォームにアップロードされるコンテンツは低性能のオーディオ装備によってレコーディングされて、オーディオクオリティ向上の必要性は次第に増大する傾向である。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の技術的課題は、予め学習された人工知能モデルを利用して、レコーディングされたオーディオデータを変換させることができるオーディオ音質変換装置およびその制御方法を提供することである。
【0006】
本発明の技術的課題は、第1環境でレコーディングされたオーディオデータを、第2環境でレコーディングされたように変換させることができるオーディオ音質変換装置およびその制御方法を提供することである。
【0007】
本発明の技術的課題は、低性能のレコーディング装備を利用しながらも、高性能のレコーディング装備と類似するクオリティを有するオーディオデータを出力できるように、オーディオ音質変換を遂行する人工知能モデルを提供することである。
【0008】
本発明の技術的課題は、オーディオ変換を遂行するための人工知能モデルの学習方法を提案することである。
【課題を解決するための手段】
【0009】
前記の課題を解決するために、本発明に係るオーディオ音質変換装置は、所定のオーディオイベントに対して互いに異なる録音環境でレコーディングされた複数のオーディオデータと、それぞれのオーディオデータに対応する録音環境に関連した環境データを利用して学習を遂行する人工ニューラルネットワークを搭載する制御部および外部の音を受信してオーディオレコーディングデータを生成するオーディオ入力部を含み、前記制御部は前記人工ニューラルネットワークの学習結果に基づいて、前記オーディオ入力部によって生成された前記オーディオレコーディングデータを変換させることを特徴とする。
【発明の効果】
【0010】
本発明によると、レコーディング装備の性能に制限されず、録音されたオーディオデータの音質を多様な環境に合うように変換させることができる長所が導き出される。
【図面の簡単な説明】
【0011】
図1】本発明の一実施例に係るオーディオ変換装置100の構成要素を示したブロック図である。
図2】本発明の一実施例に係る人工ニューラルネットワークを示した概念図である。
【発明を実施するための形態】
【0012】
本発明の目的および効果は次の詳細な説明を通じてより明らかとなるであろうが、下記の記載だけで本発明の目的および効果が制限されるものではない。また、本発明の説明において本発明に関連した公知技術に対する具体的な説明が本発明の要旨を不要に曖昧にさせ得る恐れがあると判断される場合にはその詳細な説明を省略することにする。
【0013】
以下、添付された図面を参照して本発明の実施例について、本発明が属する技術分野で通常の知識を有する者が容易に実施できるように詳細に説明する。しかし、本発明は種々の異なる形態で具現され得以下で開示される実施例に限定されない。また、図面で本発明を明確に開示するために本発明と関係のない部分は省略し、図面で同一または類似する符号は同一または類似する構成要素を示す。
【0014】
以下で叙述する「一端」は図2の左側方向を意味し、「他端」は「一端」の反対側であり図2の右側方向を意味する。
【0015】
前記本発明の好ましい実施例は例示の目的で開示されたものであり、本発明に対して通常の知識を有する当業者であれば本発明の思想と範囲内で多様な修正、変更および付加が可能であり、このような修正、変更および付加は前記の特許請求の範囲に属するものと見なすべきである。また、本発明が属する技術分野で通常の知識を有する者であれば、本発明の技術的思想を逸脱しない範囲内で各種置換、変形および変更が可能であるため、本発明は前述した実施例および添付された図面によって限定されるものではない。
【0016】
前述した例示的なシステムで、方法は一連の段階またはブロックであって、フローチャートに基づいて説明されているが、本発明は段階の順序に限定されるものではなく、或る段階は前述とは異なる段階と異なる順序でまたは同時に発生し得る。また、当業者であればフローチャートに示した段階が排他的でなく、他の段階が含まれたりフローチャートの一つまたはそれ以上の段階が本発明の範囲に影響を及ぼすことなく削除され得ることが理解できるであろう。
【0017】
図1では、本発明に係るオーディオ音質変換装置の構成要素が説明される。
【0018】
図1に図示されたように、オーディオ音質変換装置100は入力部110、出力部120、メモリ130、通信部140、制御部180および電源供給部190で構成され得る。
【0019】
より具体的には、前記構成要素のうち通信部140は、オーディオ音質変換装置100と無線通信システムの間、オーディオ音質変換装置100と他のオーディオ音質変換装置100の間、またはオーディオ音質変換装置100と外部サーバーの間の無線通信を可能にする一つ以上のモジュールを含むことができる。また、前記通信部140は、オーディオ音質変換装置100を一つ以上のネットワークに連結する一つ以上のモジュールを含むことができる。
【0020】
入力部110は、映像信号入力のためのカメラまたは映像入力部、オーディオ信号入力のためのマイクロホン(microphone)、またはオーディオ入力部111、使用者から情報の入力を受けるための使用者入力部(例えば、タッチキー(touch key)、プッシュキー(mechanical key)等)を含むことができる。入力部110で収集した音声データやイメージデータは分析されて使用者の制御命令として処理され得る。
【0021】
出力部120は視覚、聴覚または触覚などに関連した出力を発生させるためのもので、ディスプレイ部、音響出力部、ハプティックモジュール、光出力部のうち少なくとも一つを含むことができる。ディスプレイ部はタッチセンサと相互レイヤ構造をなすか一体型で形成されることによって、タッチスクリーンを具現することができる。このようなタッチスクリーンは、オーディオ音質変換装置100と使用者間の入力インターフェースを提供する使用者入力装置として機能するとともに、オーディオ音質変換装置100と使用者間の出力インターフェースを提供することができる。
【0022】
メモリ130はオーディオ音質変換装置100の多様な機能を支援するデータを保存する。メモリ130はオーディオ音質変換装置100で駆動される多数の応用プログラム(application programまたはアプリケーション(application))、オーディオ音質変換装置100の動作のためのデータ、命令語を保存することができる。このような応用プログラムのうち少なくとも一部は、無線通信を通じて外部サーバーからダウンロードされ得る。また、このような応用プログラムのうち少なくとも一部は、オーディオ音質変換装置100の基本的な機能(例えば、電話着信、発信機能、メッセージ受信、発信機能)のために出庫当時からオーディオ音質変換装置100上に存在することができる。一方、応用プログラムはメモリ130に保存され、オーディオ音質変換装置100上に設置されて、制御部180によって前記電子機器制御装置の動作(または機能)を遂行するように駆動され得る。
【0023】
制御部180は前記アプリケーションに関連した動作の他にも、通常的にオーディオ音質変換装置100の全般的な動作を制御する。制御部180は前記にて詳察された構成要素を通じて入力または出力される信号、データ、情報などを処理したりメモリ130に保存された応用プログラムを駆動することによって、使用者に適切な情報または機能を提供または処理することができる。
【0024】
また、制御部180はメモリ130に保存された応用プログラムを駆動するために、図1と共に詳察した構成要素のうち少なくとも一部を制御することができる。ひいては、制御部180は前記応用プログラムの駆動のために、オーディオ音質変換装置100に含まれた構成要素のうち少なくとも二つ以上を互いに組み合わせて動作させることができる。
【0025】
電源供給部190は制御部180の制御下で、外部の電源、内部の電源が印加されてオーディオ音質変換装置100に含まれた各構成要素に電源を供給する。このような電源供給部190はバッテリーを含み、前記バッテリーは内蔵型バッテリーまたは取り換え可能な形態のバッテリーとなり得る。
【0026】
前記各構成要素のうち少なくとも一部は、以下で説明される多様な実施例に係る電子機器制御装置の動作、制御、または制御方法を具現するために互いに協力して動作することができる。また、前記電子機器制御装置の動作、制御、または制御方法は、前記メモリ130に保存された少なくとも一つの応用プログラムの駆動によって電子機器制御装置上で具現され得る。
【0027】
一例として、オーディオ音質変換装置100は別途の端末形態で具現されてもよい。すなわち、デスクトップコンピュータ、デジタルTVなどの端末機であってもよく、移動可能な携帯電話、ノートパソコン、PDA、タブレットPC、ノートパソコン、ウェアラブルデバイスなどの移動端末機の形態で具現されてもよい。
【0028】
以下では、本発明に係るオーディオ音質変換装置100に搭載された人工ニューラルネットワークの学習に使われるトレーニングデータについて説明する。
【0029】
以下で、「オーディオデータ」はすでにレコーディングされたトレーニングデータと定義され、複数のタグを有することができる。
【0030】
例えば、前記タグは録音環境に関連した環境データを含むことができる。具体的には、環境データはマイクと音が発生する発源地の間の距離、レコーディング場所の騒音およびレコーディング場所の空間残響に関連した情報を含むことができる。
【0031】
マイクと音発源地の間の距離を示す距離タグは、具体的な数値で構成されてもよく、近い距離、中間距離または遠い距離のように分類されてもよい。
【0032】
レコーディング場所の騒音を示す騒音タグは、信号対雑音比(Signal-to-Ratio、SNR)と定義され得る。
【0033】
レコーディング場所の空間残響を示す空間残響タグは、残響時間(Reverberation Time、RT)60dBで定義され得る。この時、RT 60dBはサウンドソースが消えた後に測定された音圧レベルが60dBだけ減少するのにかかる時間を意味する。
【0034】
前記のようなタグを有するトレーニングデータを獲得する方法は以下の通りである。
【0035】
一例として、トレーニングデータセットは、騒音レベルが予め設定された基準値以下である場所で所定のスペックを有するレコーディングデバイスによって獲得された第1オーディオデータと、前記第1オーディオデータに騒音データを追加した第2オーディオデータで構成され得る。この場合、一つのレコーディングデバイスだけでトレーニングデータセットを獲得できる長所がある。
【0036】
他の例として、トレーニングデータセットは、互いに異なるレコーディングデバイスによってそれぞれ獲得されてもよい。この場合、トレーニングデータセットに含まれたオーディオデータの正確度が向上する長所がある。
【0037】
この時、レコーディングデバイスはオーディオ音質変換装置100と実質的に同一のデバイスであり得る。
【0038】
一方、レコーディングデバイスはトレーニングデータセットが獲得されるたびに、獲得されたトレーニングデータセットに対応する距離タグ、騒音タグ、空間残響タグを割り当てることができる。
【0039】
一例として、レコーディングデバイスは、レコーディングデバイスに含まれたカメラによって撮影された音発源地に関連したイメージを利用して距離タグを生成することができる。
【0040】
他の例として、距離タグはデフォルト値で設定されてもよい。この場合、レコーディングデバイスはトレーニングデータを収集する時、音発源地とマイクの間の適切な距離値をガイドするために、録音距離に関連した情報を出力するようにレコーディングデバイスに含まれたディスプレイを制御することができる。
【0041】
本発明に係る人工ニューラルネットワークは前記のように複数のタグを有するオーディオデータを利用して学習を遂行できる。
【0042】
一実施例において、制御部180は、所定のオーディオイベントに対して互いに異なる録音環境でレコーディングされた複数のオーディオデータと、それぞれのオーディオデータに対応する録音環境に関連した環境データを利用して学習を遂行する人工ニューラルネットワークを搭載することができる。
【0043】
この時、環境データは、前述した距離タグ、騒音タグ、空間残響タグのうち少なくとも一つを含むことができる。すなわち、環境データは人工ニューラルネットワークに適用されるトレーニングデータセットのパラメータと対応し得る。
【0044】
例えば、前述した人工ニューラルネットワークは第1環境データに対応する第1オーディオデータと、第2環境データに対応する第2オーディオデータを含むトレーニングデータセットを利用して学習を遂行できる。
【0045】
一方、第1オーディオデータと第2オーディオデータは実質的に同じオーディオイベントを録音したものであり得る。すなわち、前述した人工ニューラルネットワークは、同じオーディオイベントが互いに異なる録音環境でレコーディングされる時に発生するオーディオ特性差を分析するために、同じオーディオイベントを互いに異なる録音環境でレコーディングした結果を利用して学習を遂行できる。
【0046】
他の実施例において、学習に必要とされる費用を減少させるために、第1オーディオデータに別途のノイズを追加して第2オーディオデータを生成する方法も考慮され得る。第2環境データは追加されたノイズ情報に基づいて設定され得る。この場合、人工ニューラルネットワークの学習成果を向上させるために、追加されるノイズを多角化させることが好ましい。
【0047】
すなわち、前述した人工ニューラルネットワークは、騒音レベルが予め設定された数値以下である環境条件でレコーディングされた第1オーディオデータと、前記第1オーディオデータに予め保存されたノイズデータを合成した第2オーディオデータを利用して学習を遂行できる。
【0048】
また、第1オーディオデータに対応する第1騒音タグと、第2オーディオデータに対応する第2騒音タグは互いに異なる値で設定され得る。
【0049】
他の実施例において、第1オーディオデータに対応する第1距離タグと、第2オーディオデータに対応する第2距離タグは互いに異なる値で設定され得る。いずれか一つのトレーニングデータセットは、音発源地から互いに異なる距離だけ離隔した地点でレコーディングされた第1オーディオデータと、第2オーディオデータを含むことができる。
【0050】
同様に、第1オーディオデータに対応する第1空間残響タグと、第2オーディオデータに対応する第2空間残響タグは互いに異なる値で設定され得る。いずれか一つのトレーニングデータセットは、空間残響値が互いに異なる空間でそれぞれレコーディングされた第1オーディオデータと、第2オーディオデータを含むことができる。
【0051】
また、オーディオ入力部111は、外部の音を受信してオーディオレコーディングデータを生成することができる。
【0052】
この時、オーディオレコーディングデータは別途のラベリングや、対応するタグが割り当てられなかった新規で獲得されたデータであるという点で、前述したオーディオデータと異なる概念と定義する。
【0053】
また、制御部180は人工ニューラルネットワークの学習結果に基づいて、オーディオ入力部によって生成された前記オーディオレコーディングデータを変換させることができる。
【0054】
前述した通り、人工ニューラルネットワークは一つのオーディオイベントに対して互いに異なる録音環境でレコーディングされた第1オーディオデータと、第2オーディオデータを含むトレーニングデータセットを利用して学習を遂行する。
【0055】
また、任意の新規でレコーディングされたオーディオレコーディングデータが入力される場合、制御部180は予め学習された人工ニューラルネットワークを利用して入力されたオーディオレコーディングデータの音質特性を変換させることができる。
【0056】
一実施例において、入力部110はオーディオレコーディングデータの変換に関連した情報の入力を受ける変換条件入力部(図示されず)を含むことができる。
【0057】
具体的には、制御部180は変換条件入力部に入力された情報に基づいて、人工ニューラルネットワークを利用してオーディオレコーディングデータを変換させることができる。
【0058】
この時、前記変換条件入力部に入力された情報は、環境データに関連した変数を含むことができる。すなわち、変換条件入力部に入力された情報は、距離タグ、騒音タグ、空間残響タグのうち少なくとも一つを含むことができる。
【0059】
例えば、変換条件入力部に入力された情報が第3距離タグを含む場合、制御部180は予め学習された人工ニューラルネットワークを利用して、新規でレコーディングされたオーディオレコーディングデータを前記第3距離タグに対応する音質特性に変換させることができる。
【0060】
他の例として、変換条件入力部に入力された情報が第3騒音タグを含む場合、制御部180は予め学習された人工ニューラルネットワークを利用して、新規でレコーディングされたオーディオレコーディングデータを前記第3騒音タグに対応する音質特性に変換させることができる。
【0061】
他の例として、変換条件入力部に入力された情報が第3空間残響タグを含む場合、制御部180は予め学習された人工ニューラルネットワークを利用して、新規でレコーディングされたオーディオレコーディングデータを前記第3空間残響タグに対応する音質特性に変換させることができる。
【0062】
一方、新規でレコーディングされたオーディオレコーディングデータに対応する環境データを識別できる場合、制御部180は変換条件入力部に入力された情報とともに、識別された環境データを考慮して、オーディオレコーディングデータの音質特性を変換させることができる。
【0063】
例えば、識別された環境データに第1騒音タグが含まれ、変換条件入力部に入力された情報が第3騒音タグを含む場合、制御部180は人工ニューラルネットワークの入力側変数を第1騒音タグに設定し、出力側変数を第3騒音タグに設定することによって、オーディオレコーディングデータを第3騒音タグに対応する音質特性に変換させることができる。
【0064】
すなわち、変換条件入力部は、オーディオレコーディングデータを変化させる基準に関連した情報の入力を受けることができる。
【0065】
このように学習された人工ニューラルネットワークを利用する場合、第1録音環境でレコーディングされたオーディオレコーディングデータを第2録音環境でレコーディングされたように変換させることができる。すなわち、前述したタグを含むオーディオデータを利用して学習を遂行した人工ニューラルネットワークを利用するオーディオ変換装置は、オーディオレコーディングデータの実際の録音環境にかかわらず、使用者が望む録音環境でレコーディングされたようにオーディオレコーディングデータの音質特性を変換させることができる。
【0066】
具体的には、環境データは、オーディオイベントの発生地点とオーディオデータをレコーディングするマイクの間の距離に関連した情報と、前記マイクが存在する位置の空間残響に関連した情報および、前記マイクが存在する位置の騒音に関連した情報のうち少なくとも一つを含むことができる。これはそれぞれ距離タグ、騒音タグ、空間残響タグに対応し得る。
【0067】
一例として、制御部180はオーディオデータの信号対ノイズ比(Signal to Noise Ratio、SNR)を算出することによって、環境データに含まれた前記騒音に関連した情報を決定することができる。
【0068】
他の例として、オーディオ変換装置のカメラはオーディオイベントの発生地点を撮影することができる。この場合、制御部180はカメラによって生成されたイメージを利用してオーディオイベントの発生地点とマイクの間の距離を算出することができる。
【0069】
他の例として、制御部180はオーディオデータの残響時間を測定することによって、環境データに含まれた空間残響に関連した情報を決定することができる。
【0070】
また、前述した人工ニューラルネットワークは、第1環境データに対応する第1オーディオデータと、第2環境データに対応する第2オーディオデータの差に関連した情報を利用して学習を遂行できる。
【0071】
他の例として、人工ニューラルネットワークは、第1トレーニングデータセットに対応する環境データと、第2トレーニングデータセットに対応する環境データを利用して学習を遂行できる。
【0072】
一方、オーディオ入力部111は、所定の距離だけ離隔してオーディオ音質変換装置の本体上に設置される第1マイクと第2マイクを含むことができる。この場合、前述した人工ニューラルネットワークは、第1マイクから獲得された第1オーディオデータと、第2マイクから獲得されたオーディオデータを利用して学習を遂行できる。このように、複数のマイクを離隔した位置に設置する場合、一オーディオイベントがレコーディングされる時、互いに異なる距離タグ値を有するオーディオデータが獲得され得る。
【0073】
以下では、前述した環境データに含まれる新しい種類のタグとして、マイク性能タグについて定義する。マイク性能タグは、オーディオデータをレコーディングするマイクの機能に関連した情報を含むことができる。
【0074】
一実施例において、オーディオ入力部は、互いに異なるレコーディング性能を有する第1マイクおよび第2マイクを含むことができる。この場合、人工ニューラルネットワークは、人工ニューラルネットワークは前記第1マイクから獲得された第1オーディオデータと、前記第2マイクから獲得された第2オーディオデータを利用して学習を遂行できる。
【0075】
前述した通り、変換条件入力部はマイク性能タグに関連した情報の入力を受けてもよい。
【0076】
また、制御部180は所定のオーディオイベントに対して互いに異なる性能のマイクからレコーディングされた複数のオーディオデータと、それぞれのオーディオデータに対応するマイクの性能に関連したマイク性能タグを利用して学習を遂行する人工ニューラルネットワークを搭載することができる。
【0077】
また、制御部180は前述した通り、学習された人工ニューラルネットワークを利用して、前記オーディオ入力部によって生成されたオーディオレコーディングデータを変換させることができる。
【0078】
すなわち、制御部180は前記人工ニューラルネットワークを利用して第1マイクによって獲得されたオーディオレコーディングデータを、第2マイクによって獲得されたものと対応する音質特性を有するように変換させることができる。
【0079】
具体的には、人工ニューラルネットワークは、第1マイクによってレコーディングされた第1オーディオデータと、第2マイクによってレコーディングされた第2オーディオデータの差に関連した情報を利用して学習を遂行できる。
【0080】
一方、前述した第1マイクと、第2マイクの性能は有意義に異なるもので設定することが好ましい。
【0081】
他の実施例において、前述した人工ニューラルネットワークは一オーディオイベントに対して第1マイクによってレコーディングされた第1オーディオデータの音質特性と、前記第1マイクと異なる性能を有する第2マイクによってレコーディングされた第2オーディオデータの音質特性の間の差に関連した情報を利用して学習を遂行できる。
【0082】
他の実施例において、前述した人工ニューラルネットワークは、互いに異なる録音環境でレコーディングされ、同一のラベルと識別された第1オーディオデータおよび第2オーディオデータの音質差に関連した情報と、前記第1オーディオデータに対応する第1環境データおよび前記第2オーディオデータに対応する第2環境データを利用して学習を遂行できる。
【0083】
前記レーベルは「赤ん坊の声」、「サイレンの音」のように、使用者によって予め設定されたものであり得る。
【0084】
他の実施例において、前述した人工ニューラルネットワークは、オーディオイベントのラベルと、前記オーディオイベントをレコーディングしたオーディオデータの音質特性と、前記オーディオデータを獲得したマイクの性能特性および前記オーディオデータのレコーディング環境のうち少なくとも一つに関連した情報を利用して学習を遂行できる。
【0085】
一方、制御部180はオーディオデータに対応するラベルを識別するために予め学習された人工知能エンジンを搭載することができる。すなわち、制御部180は前記人工知能エンジンを利用してオーディオ入力部によって生成されたオーディオレコーディングデータのラベルを識別することができる。
図1
図2
【国際調査報告】