(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-05-29
(54)【発明の名称】オーディオ処理パラメータを決定するための装置および方法
(51)【国際特許分類】
H04R 3/04 20060101AFI20240522BHJP
H04S 7/00 20060101ALI20240522BHJP
【FI】
H04R3/04
H04S7/00 300
【審査請求】有
【予備審査請求】有
(21)【出願番号】P 2023571527
(86)(22)【出願日】2022-05-16
(85)【翻訳文提出日】2024-01-16
(86)【国際出願番号】 EP2022063211
(87)【国際公開番号】W WO2022243257
(87)【国際公開日】2022-11-24
(31)【優先権主張番号】102021204974.5
(32)【優先日】2021-05-17
(33)【優先権主張国・地域又は機関】DE
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】500341779
【氏名又は名称】フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100134119
【氏名又は名称】奥町 哲行
(72)【発明者】
【氏名】サイロップ・ペギー
(72)【発明者】
【氏名】ブルンス・トビアス
【テーマコード(参考)】
5D162
5D220
【Fターム(参考)】
5D162AA17
5D162CA05
5D162CA11
5D162CD22
5D162EG02
5D220AB01
5D220AB08
(57)【要約】
本発明は、少なくとも1つのオーディオ入力信号に応じてオーディオ処理パラメータを決定するための装置および方法に関する。
【特許請求の範囲】
【請求項1】
少なくとも1つのオーディオ入力信号(110、112;212、214、216;311、316;411、416;512、514、516)に応じてオーディオ処理パラメータ(120;262;362;462;562)を決定するための装置(100;200;300;400;500)であって、
前記装置(100;200;300;400;500)は、ユーザ操作の最中に取得されたオーディオ信号(217、218、219;313、317、318、319、342;417;517)に基づいてユーザごとのやり方で処理パラメータ決定規則(140;250;350;450;550)の少なくとも1つの係数(142;256;356;456;556)を決定するように構成され、
前記装置(100;200;300;400;500)は、前記オーディオ入力信号(110、112;212、214、216;311、316;411、416;512、514、516)に基づいて前記処理パラメータ決定規則(140;250;350;450;550)を使用することによって前記オーディオ処理パラメータ(120;262;362;462;562)を得るように構成される、装置(100;200;300;400;500)。
【請求項2】
前記装置は、ユーザによって調整されたユーザパラメータ(232;332;432、433;532)に応じて、データベース(252;352;452;552)を、前記データベース(252;352;452;552)のエントリが前記ユーザによって調整された前記ユーザパラメータ(232;332;432、433;532)を表すように決定するように構成される、請求項1に記載の装置(100;200;300;400;500)。
【請求項3】
前記装置は、前記少なくとも1つのオーディオ入力信号(110、112;212、214、216;311、316;411、416;512、514、516)に応じて、データベース(252;352;452;552)を、前記データベース(252;352;452;552)のエントリが前記オーディオ入力信号(110、112;212、214、216;311、316;411、416;512、514、516)を表すように決定するように構成される、請求項1または2に記載の装置(100;200;300;400;500)。
【請求項4】
前記装置は、前記データベース(252;352;452;552)を、前記データベース(252;352;452;552)が、異なるオーディオ入力信号(110、112;212、214、216;311、316;411、416;512、514、516)と前記ユーザによって調整されたそれぞれのユーザパラメータ(232;332;432、433;532)との間の割り当てを表すように決定するように構成される、請求項3に記載の装置(100;200;300;400;500)。
【請求項5】
前記装置は、オーディオ出力信号(218、219、313、318、319、342)に応じて、データベース(252;352;452;552)を、前記データベース(252;352;452;552)のエントリが前記オーディオ出力信号(218、219、313、318、319、342)を表すように決定するように構成される、請求項1~4のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項6】
前記装置は、前記データベース(252;352;452;552)を、前記データベース(252;352;452;552)が、異なるオーディオ出力信号(218、219、313、318、319、342)と前記ユーザによって調整されたそれぞれのユーザパラメータ(232;332;432、433;532)との間の割り当てを表すように決定するように構成される、請求項5に記載の装置(100;200;300;400;500)。
【請求項7】
前記装置は、ユーザごとのやり方で調整されたオーディオ処理パラメータ(120;262;362;462;562)を得るべく、ユーザごとのやり方で前記処理パラメータ決定規則(140;250;350;450;550)を調整するために、前記装置によって得た前記データベース(252;352;452;552)に基づいて前記処理パラメータ決定規則(140;250;350;450;550)の前記少なくとも1つの係数(142;256;356;456;556)を調整するように構成される、請求項1~6のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項8】
前記装置は、前記データベース(252;352;452;552)に基づいて前記処理パラメータ決定規則(140;250;350;450;550)を提供または調整するように構成される、請求項1~7のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項9】
前記装置は、ユーザによって訂正および/または補正された少なくとも1つのオーディオ処理パラメータ(120;262;362;462;562)に基づいて前記処理パラメータ決定規則(140;250;350;450;550)の前記少なくとも1つの係数(142;256;356;456;556)を決定および/または調整するように構成される、請求項1~8のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項10】
前記装置は、ユーザごとのやり方で調整された前記オーディオ信号(217、218、219;313、317、318、319、342)を得るために、前記オーディオ入力信号(110、112;212、214、216;311、316;411、416;512、514、516)および前記オーディオ処理パラメータ(120;262;362;462;562)に基づいてオーディオ処理(220;320;420;520)を実行するように構成される、請求項1~9のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項11】
前記装置は、前記オーディオ入力信号(110、112;212、214、216;311、316;411、416;512、514、516)と前記オーディオ処理パラメータ(120;262;362;462;562)を使用することによって前記オーディオ処理(220;320;420;520)によって提供されるオーディオ出力信号(218、219、313、318、319、342)との比較を使用することによって、前記処理パラメータ決定規則(140;250;350;450;550)の前記係数(142;256;356;456;556)を決定するように構成される、請求項1~10のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項12】
前記装置は、前記オーディオ処理パラメータ(120;262;362;462;562)の代わりに出力量として前記ユーザによって調整された前記ユーザパラメータ(232;332;432、433;532)を提供するように構成され、前記ユーザによって調整された前記ユーザパラメータ(232;332;432、433;532)は、音量パラメータおよび/またはサウンドパラメータおよび/またはイコライザパラメータを含む、請求項1~11のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項13】
前記装置は、前記ユーザパラメータ(232;332;432、433;532)を前記オーディオ処理パラメータ(120;262;362;462;562)と組み合わせることで、前記オーディオ処理(220;320;420;520)の複合パラメータ(272;372;472、473、474;572、573)を得て、出力量として提供するように構成される、請求項1~12のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項14】
前記装置は、前記オーディオ入力信号(110、112;212、214、216;311、316;411、416;512、514、516)のオーディオ分析を実行して、処理パラメータ決定規則(140;250;350;450;550)の前記少なくとも1つの係数(142;256;356;456;556)を決定するためのオーディオ入力信号分析結果を提供するように構成される、請求項1~13のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項15】
前記装置は、前記オーディオ出力信号(342)のオーディオ分析を実行して、前記処理パラメータ決定規則(140;250;350;450;550)の前記少なくとも1つの係数(142;256;356;456;556)を決定するためのオーディオ出力信号分析結果を提供するように構成される、請求項1~14のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項16】
前記オーディオ処理パラメータ(120;262;362;462;562)は、少なくとも1つのマルチバンド圧縮パラメータRおよび/または少なくとも1つの聴覚しきい値調整パラメータTおよび/または少なくとも1つの帯域依存増幅パラメータGおよび/または少なくとも1つの妨害雑音低減パラメータおよび/または少なくとも1つのブラインドソース分離パラメータおよび/または少なくとも1つのサウンド方向パラメータおよび/または少なくとも1つのバイノーラルパラメータおよび/または適応フィルタの少なくとも1つのパラメータを含む、請求項1~15のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項17】
前記装置は、前記処理パラメータ決定規則(140;250;350;450;550)を使用することによって前記オーディオ処理パラメータ(120;262;362;462;562)を得るように構成された神経ネットワーク(260;360;460;560)を含む、請求項1~16のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項18】
前記装置は、前記オーディオ処理パラメータ(120;262;362;462;562)を決定するために強化学習法および/または教師なし学習法および/または多変量予測法および/または多変量回帰によって決定された多次元パラメータ空間に基づいて前記処理パラメータ決定規則(140;250;350;450;550)を提供および/または調整するように構成される、請求項1~17のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項19】
前記装置は、インターフェースから前記ユーザによって調整された前記ユーザパラメータ(232;332;432、433;532)を取得するように構成される、請求項1~18のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項20】
前記オーディオ入力信号(110、112;212、214、216;311、316;411、416;512、514、516)は、マルチチャネルオーディオ信号または少なくとも2つのオーディオチャネルを含む、請求項1~19のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項21】
前記装置は、前記オーディオ入力信号(110、112;212、214、216;311、316;411、416;512、514、516)の少なくとも4つの周波数帯域について個別にオーディオ処理(220;320;420;520)を実行するように構成される、請求項1~20のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項22】
前記装置は、リアルタイムで前記オーディオ処理パラメータ(120;262;362;462;562)を得るため、ならびに/あるいはリアルタイムで前記補正されたオーディオ処理パラメータ(120;262;362;462;562)を決定および/または調整するために、ユーザ操作の最中にユーザごとのやり方で前記処理パラメータ決定規則(140;250;350;450;550)の前記少なくとも1つの係数(142;256;356;456;556)を決定するように構成される、請求項1~21のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項23】
オーディオ処理を含んでおり、
請求項1~22のいずれか一項に記載のオーディオ処理パラメータを決定するための装置を含んでおり、
前記オーディオ処理は、オーディオ入力信号を前記オーディオ処理パラメータに応じて処理するように構成されている、聴覚補助。
【請求項24】
少なくとも1つのオーディオ入力信号に応じてオーディオ処理パラメータを決定するための方法(600)であって、
ユーザごとのやり方で、ユーザ操作の最中に取得されたオーディオ信号に基づいて処理パラメータ決定規則の少なくとも1つの係数を決定することと、
前記オーディオ入力信号に基づいて前記処理パラメータ決定規則を使用することによってオーディオ処理パラメータを得ることと
を含む方法(600)。
【請求項25】
コンピュータ上で実行されたときに請求項24に記載の方法を実行するためのプログラムコードを有しているコンピュータプログラム。
【請求項26】
少なくとも1つのオーディオ入力信号(110、112;212、214、216;311、316;411、416;512、514、516)に応じてオーディオ処理パラメータ(120;262;362;462;562)を決定するための装置(100;200;300;400;500)であって、
前記装置(100;200;300;400;500)は、ユーザ操作の最中に取得されたオーディオ信号(217、218、219;313、317、318、319、342;417;517)に基づいてユーザごとのやり方で処理パラメータ決定規則(140;250;350;450;550)の少なくとも1つの係数(142;256;356;456;556)を決定するように構成され、
前記装置(100;200;300;400;500)は、前記オーディオ入力信号(110、112;212、214、216;311、316;411、416;512、514、516)に基づいて前記処理パラメータ決定規則(140;250;350;450;550)を使用することによって前記オーディオ処理パラメータ(120;262;362;462;562)を得るように構成され、
前記装置は、音響環境を分類することなく直ちに係数によって調整された前記処理パラメータ決定規則(140;250;350;450;550)を使用することによって前記オーディオ処理パラメータ(120;262;362;462;562)を得るように構成された神経ネットワーク(260;360;460;560)を含む、装置(100;200;300;400;500)。
【請求項27】
少なくとも1つのオーディオ入力信号に応じてオーディオ処理パラメータを決定するための方法(600)であって、
ユーザごとのやり方で、ユーザ操作の最中に取得されたオーディオ信号に基づいて処理パラメータ決定規則の少なくとも1つの係数を決定することと、
前記オーディオ入力信号に基づいて前記処理パラメータ決定規則を使用することによってオーディオ処理パラメータを得ることと
を含み、
前記オーディオ処理パラメータ(120;262;362;462;562)は、係数によって調整された前記処理パラメータ決定規則(140;250;350;450;550)を使用することによって音響環境を分類することなく直ちに決定される、方法(600)。
【請求項28】
コンピュータ上で実行されたときに請求項27に記載の方法を実行するためのプログラムコードを有しているコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明による実施形態は、少なくとも1つのオーディオ入力信号に応じてオーディオ処理パラメータを決定するための装置および方法に関する。
【0002】
本発明による実施形態は、例えばサウンド再生デバイスにおいて、ユーザ操作の最中にオーディオ信号を分析してユーザごとの設定に割り当てることができ、あるいはそれらを組み合わせることができる人工知能を備えた装置および方法に関する。
【0003】
さらに、いくつかの実施形態は、ユーザ操作の最中に取得されたオーディオ信号に基づいてオーディオ処理パラメータを決定するための考え方に関する。
【背景技術】
【0004】
サウンドの個々の知覚、したがってサウンド再生デバイスの調整のためのサウンドまたはユーフォニーのための個々の要件は、以下の基準に従って異なる。
【0005】
・個人性
・状況ニーズ
・外部条件
サウンドの知覚は人によって異なる。例えば、多数の人々が存在する部屋での人との会話は、一部の人々にとっては、他の人々よりも行いにくい。加えて、必要に応じて、サウンド再生の同じ調整が異なって知覚される。聴覚環境などの環境パラメータも、サウンド再生デバイスのサウンド調整のための制御値に大きく影響する。
【0006】
現在のサウンド再生デバイスは、自動化されたやり方では適用されない特定のサウンド調整を提供する。ヘッドホン、ヘッドセット、または補聴器などの聴覚補助のためのポータブルデバイスなどのサウンド再生デバイスは、音量調節およびサウンド調整のためのイコライザのみを備えることが多い。音量の増幅あるいは高音または低音の調整などのサウンド調整は、ユーザによって1回実行される。これらの調整が、連続的に良好なオーディオ品質を得るために、さらなるサウンド再生ごとに再び実行されなければならないことが明らかになっている。
【0007】
従来からの考え方では、異なるサウンド再生のためにサウンド調整のプロセスを繰り返さなければならないだけでなく、サウンド再生装置においても、聴覚環境の変化が例えば環境サウンドに適応的に調整されないことが明らかになっている。環境雑音の比較的わずかな変化であっても、発話理解のための聴き取りの苦労が増す可能性があることが明らかになっている。
【0008】
さらに、従来からの考え方では、サウンド調整は、製造業者によって予め決定されたサウンドデフォルト設定に基づいてのみ実行できることが明らかになっている。これが必ずしもユーザの個々のニーズに対応するとは限らないことが明らかになっている。したがって、例えば「音楽」などの設定が存在するが、音楽における好みのテイストおよび音楽を聴く際の個人の意図は考慮されない。例えば、オペラの歌唱とテクノミュージックとでは、サウンド体験に関する期待が大きく異なる。聴取プログラム「音楽」におけるデフォルト設定において、製造業者は、おそらくはオペラ歌唱のサウンド体験に関する要件もテクノミュージックのサウンド体験に関する要件も満たさず、したがってユーザに不充分なサウンド再生しか提供できない一般的な想定を基礎とするにすぎない。
【0009】
補聴器などの聴覚支援のための現在のサウンド再生デバイスは、それらの特徴に応じて、数千ユーロのコストがかかる可能性があり、したがってデバイスに対する期待は高い。補聴器の調整は、一般に、実験室条件下で、多くの場合に2つのスピーカのみで、正弦波の音、雑音、および音声などのきわめて限られた数の音のみで行われる。交差点などの複雑な雑音状況は、聴覚実験室ではシミュレートすることができず、したがって補聴器のユーザの不満につながり、日常生活を満足させることが困難である。
【0010】
Github公開「liketohear-ai-pt」などのサウンド再生のための学習アプリケーションにおいて、ファイルにユーザによって記録された補聴器アルゴリズムの状況に応じたパラメータ変更、および状況に割り当てられた記録された周波数スペクトル分析は、自己学習アルゴリズムによって処理される。アルゴリズムは、ユーザの決定に関連する特定の周波数スペクトルの関連性を確立し、予測モデルの基礎として割り当てられたパラメータを自動的に選択する。第2のステップにおいて、予測モデルが、以前に記録された周波数スペクトル分析に適用される。周波数スペクトルの複雑さは、さらなるユーザ調整が継続的に必要とされるようにサウンド再生のためのこの学習アプリケーションによってマッピングすることができないことが明らかになっている。
【0011】
上記の記述を考慮し、ユーザの利便性と、得ることができるオーディオ品質と、実施の苦労との間のトレードオフの改善をもたらすランタイムでオーディオ処理パラメータを決定するための考え方が必要とされている。
【発明の概要】
【0012】
この目的は、独立請求項の主題によって解決される。
本発明の実施形態の中心概念は、ランタイムでユーザによって直感的に実行されるサウンド調整を実行し、リアルタイムで学習システムに統合するという発見である。
【0013】
本発明による一実施形態は、例えばオーディオ入力からもたらされる少なくとも1つのオーディオ入力信号に応じてオーディオ処理のためのパラメータなどのオーディオ処理パラメータを決定するための装置を含み、装置は、ユーザ操作の最中に取得されたオーディオ信号に基づいてユーザごとのやり方で処理パラメータ決定規則の少なくとも1つの係数を決定するように構成され、装置は、オーディオ入力信号に基づいて処理パラメータ決定規則を使用することによってオーディオ処理パラメータを得るように構成される。処理パラメータ決定規則の係数は、例えば、オーディオ入力信号またはそこから抽出された入力信号パラメータを入力量として取得し、オーディオ処理パラメータを出力量として提供する神経ネットワークの係数であってよい。換言すると、処理パラメータ決定規則の係数を、例えば、ユーザ操作の最中などのユーザ操作において取得された入力オーディオ信号に基づいて、ユーザごとのやり方で決定することができる。さらに、装置を、例えばオーディオ入力信号に基づく少なくとも1つの係数によって定義された処理パラメータ決定規則を使用することによってオーディオ処理パラメータを得るように構成することができる。
【0014】
この実施形態は、ユーザ操作の最中に取得されたオーディオ信号に基づく処理パラメータ決定規則の1つまたは複数の係数のユーザごとの調整によって、処理パラメータ決定規則をユーザの個々の習慣および要望に適合させることが可能になるという中心概念に基づく。処理パラメータ決定規則の係数のユーザごとの調整のためにユーザ操作の最中に取得されたオーディオ信号を使用することによって、係数を、ユーザが通常実際にそこにいる(特定の)聴覚状況に良好に適合させることができる。したがって、音響環境を(例えば、一般的なカテゴリ「音楽」および一般的なカテゴリ「スピーチ」に)事前に分類する必要がもはやないが、係数を、ユーザが例えば音楽またはスピーチを聴取する実際の聴取環境、およびユーザの個々のニーズにも適合させることができる。例えば、処理パラメータ決定規則の係数の適切な選択によって、オーディオ処理パラメータの即時のユーザごとの決定が可能であり、例えば、係数によって調整された処理パラメータ決定規則は、音響環境を1つまたはいくつかの静的に予め定められたカテゴリに分類することなく、オーディオ処理パラメータを即時に決定する必要がある。むしろ、処理パラメータ決定規則の係数を、ユーザ操作の最中に取得されたオーディオ信号に基づいて調整することができ、その結果、ユーザが異なるオーディオ処理パラメータを望むユーザに関連する聴取環境を(例えば、滑らかな遷移を有する)「ハード」または「ソフト」なやり方で区別することができる。
【0015】
このように、ユーザ操作の最中に取得されたオーディオ信号を考慮することによって(さらには、処理パラメータ決定規則の係数のそれぞれの調整によって)、本発明の考え方は、例えば、ユーザが位置する異なる音響環境(例えば、賑やかな仕切りのないオフィス、シングルオフィス、多数のトラックが存在する交差点、路面電車との交差点、など)にスピーチが存在する場合に、きわめて異なるオーディオ処理パラメータを提供することを可能にする。提供されるパラメータは、典型的には、それぞれの状況においてユーザが所望する設定に合わせられる。
【0016】
このようにして、本発明の考え方は、個々のユーザの日常の現実および特定の好みに適合するオーディオ処理パラメータを妥当な努力で提供する。
【0017】
さらなる実施形態によれば、装置は、ユーザによって調整されたユーザパラメータに応じて、データベースを、データベースのエントリがユーザによって調整されたユーザパラメータを表すように決定するように構成される。例えば、データベースを、ユーザ操作の最中にリアルタイムで確立させることができ、予測モデルを決定することができる。さらに、データベースを、データベースがユーザパラメータの情報を含むという点で、処理パラメータ決定規則の係数を決定するために使用することができる。例えば、データベースは、ユーザパラメータに結び付けることができる個人関連の制御設定をさらに含むことができる。ユーザによって調整されたユーザパラメータは、例えば、出力量としてのオーディオ処理パラメータを置き換えることができ、あるいはデータベースのエントリが例えばユーザによって調整されたユーザパラメータを表すように、オーディオ処理パラメータを変更することができる。例えば、データベースは、それに応じて、例えば、ユーザによって調整されたユーザパラメータを使用する強化学習に少なくとも部分的に統合される。
【0018】
そのエントリがユーザによって調整されたユーザパラメータを表すデータベースを確立させることにより、処理パラメータ決定規則の係数を、例えば、連続的に改善または最適化することができる。データベースを形成し、例えばデータバンクまたは別のメモリ構造に格納することができる(典型的には、異なる音響環境において)ユーザによって調整されたユーザパラメータは、オーディオ処理パラメータの設定値を表すことができる。例えば、ユーザがユーザパラメータを選択したそれぞれの音響環境のオーディオ信号(または、オーディオ信号特性)に対するユーザパラメータの割り当てが存在する場合、このデータベースを、処理パラメータ決定規則の係数の決定に使用することができる。例えばユーザによる使用期間が長くなるにつれてますます大きくなるデータベースを決定することによって、例えば、時間につれて大きくなるデータベースが、処理パラメータ決定規則の係数の(自動的な)決定(または、改善)のために存在でき、これにより、(例えば、ユーザが位置していた異なる聴取環境という基礎の増加に基づいて)上述の係数のますますの洗練または改善が可能になる。このように、データベースの確立および継続的拡張により、ユーザ体験を継続的に改善することができる。
【0019】
さらなる実施形態によれば、装置は、少なくとも1つのオーディオ入力信号に応じて、データベースを、データベースのエントリがオーディオ入力信号を表すように決定するように構成される。例えば、データベースを、処理パラメータ決定規則の係数を決定するために使用することができる。すなわち、例えば、まず、人間関連の制御調整、例えば、ユーザによって調整されたユーザパラメータが記憶され、外部条件としての聴覚環境のサウンド情報によって拡張される。これにより、例えば、強化学習を使用することによって処理パラメータ決定規則の係数を提供するデータ根拠を生成することができる。
【0020】
さらなる実施形態によれば、装置は、データベースを、データベースが、異なるオーディオ入力信号とユーザによって調整されたそれぞれのユーザパラメータとの間の割り当てを表すように決定するように構成される。言い換えれば、装置は、例えば、オーディオ入力信号および人間関連の制御設定、例えばユーザによって調整されたユーザパラメータに基づいて、外部条件を互いに割り当てることができる。これは、割り当てが、例えば、予測モデルの基礎としての役割を果たすことができることを意味し、予測モデルを、例えば、ユーザによって調整されたそれぞれのユーザパラメータをデータベースと統合する(次いで、例えば、処理パラメータ決定規則の係数の再決定または改善が行われる)ことによって、ユーザのさらなるサウンド調整によってアドホックで変更することができる。例えば、背景において、オーディオ入力を介して、聴覚シーンをマイクロフォンによって連続的に記録および/または分析および/または評価することができ、例えば、聴覚シーンの分析は、ダイナミクスおよび/または周波数および/またはスペクトル特性を介して生成される。聴覚シーンの分析結果を、例えば、環境パラメータとしてデータベースに統合することができ、このそれぞれの時間の聴覚環境へのユーザパラメータおよびオーディオ入力信号のリンケージを得るために、ユーザパラメータに割り当てることができる。
【0021】
さらなる実施形態によれば、装置は、例えば処理パラメータ決定規則の係数を決定するためのデータベースを、オーディオ入力信号に応じて、データベースのエントリがオーディオ出力信号を記述し、あるいは表すように、決定するように構成される。少なくとも1つのオーディオ入力信号および少なくとも1つのオーディオ出力信号に応じてデータベースを決定することにより、例えば強化学習の処理パラメータ決定規則は、例えば神経ネットワークのための処理パラメータ決定規則の係数を決定するためにデータベースを使用することができる。処理パラメータ決定規則の係数を、例えば、オーディオ入力信号と割り当てられた出力信号との共通処理によって、またはオーディオ出力信号をオーディオ入力信号と比較することによって、得ることができる。
【0022】
さらなる実施形態によれば、装置は、データベースを、データベースが、異なるオーディオ出力信号とユーザによって調整されたそれぞれのユーザパラメータとの間の割り当てを表すように決定するように構成される。言い換えれば、データベースは、処理パラメータ決定規則の係数を決定することができるように、異なるオーディオ入力信号の間、異なるオーディオ出力信号とユーザによって調整されたそれぞれのユーザパラメータと間の割り当てを記述する。確立されたデータベースによって、例えば、入力および出力オーディオ信号を分析することによって、サウンド処理を自己強化学習アルゴリズムの訓練に統合することができる。例えば、入力オーディオ信号またはオーディオ入力信号は、サウンド環境、例えば聴覚環境を含むことができる。言い換えれば、確立されたデータベースによって、例えば、入力および出力オーディオ信号を分析することによって、オーディオ入力信号とオーディオ出力信号との間の所望の接続が処理パラメータ決定規則によって少なくともほぼもたらされるように、処理パラメータ決定規則の係数を選択することができる。
【0023】
さらなる実施形態によれば、装置は、ユーザごとのやり方で調整されたオーディオ処理パラメータを得るべく、ユーザごとのやり方で処理パラメータ決定規則を調整するために、装置によって得たデータベースに基づいて処理パラメータ決定規則の少なくとも1つの係数を調整するように構成される。言い換えれば、例えば、強化学習ユーザモデルは、人工知能に基づいて、ユーザごとのやり方で調整されたオーディオ処理パラメータまたはユーザごとのやり方で調整されたオーディオ信号を得るように調整される。例えば、サウンド環境、例えば聴覚環境の変化、およびユーザ調整を、本質的にランタイムで学習し、適応することが可能である。例えば、ユーザごとのやり方で調整されたオーディオ処理パラメータが、オーディオ処理パラメータを使用することによってオーディオ入力信号を処理するときに、ユーザごとのやり方で付加されたオーディオ信号をユーザ操作の最中に得ることを可能にすることができる。言い換えれば、サウンド処理のためのユーザ固有のパラメータセットをデータベースから取得または開発することができ、これは、一方では、同じ外部条件の際に同じ制御パラメータを自動化されたやり方で適用するが、状況自体におけるさらなるユーザ調整も可能にし、これらは学習システムとして装置に統合される。例えば、学習システムおよびアプリケーションは、連続的な学習プロセスにおいて自身をユーザのサウンドの好みに適合させることができる。
【0024】
さらなる実施形態によれば、装置は、データベースに基づいて処理パラメータ決定規則を提供および/または調整するように構成される。例えば、装置は、例えばユーザ操作の最中にオーディオ処理パラメータを使用することによって、ユーザごとのやり方で調整されたオーディオ信号を得るために、例えば強化学習を使用することによってデータベースを使用して、処理パラメータ決定規則を提供することができる。
【0025】
さらなる実施形態によれば、装置は、ユーザによって訂正および/または補正された少なくとも1つのオーディオ処理パラメータに基づいて処理パラメータ決定規則の少なくとも1つの係数を決定および/または調整するように構成される。すでに述べたように、装置を、ユーザ操作の最中にユーザパラメータのユーザ調整を考慮または調整し、例えば、後の時間に、したがって同じ場所で、あるいはしたがって同じサウンド環境で、ユーザパラメータのさらなるユーザ調整を可能にするように構成することができ、その結果、先行のユーザパラメータが新たに調整されたユーザパラメータで調整および/または上書きされる。言い換えれば、処理パラメータ決定規則の係数を、ユーザによって訂正することができ、かつ/または補正されたオーディオ処理パラメータを、例えば、ユーザが位置するそれぞれの時間におけるサウンド環境に応じて決定することができる。
【0026】
さらなる実施形態によれば、装置は、例えばオーディオ処理パラメータのユーザ修正を考慮することによって、ユーザごとのやり方で調整されたオーディオ信号を得るために、オーディオ入力信号に基づき、オーディオ処理パラメータに基づいて、オーディオ処理、例えばパラメータ化されたオーディオ処理規則を実行するように構成される。言い換えれば、装置は、オーディオ入力信号の随意によるオーディオ処理およびオーディオ処理パラメータによって、ユーザごとのやり方調整されたオーディオ出力用のオーディオ信号を提供することができる。例えば、オーディオ処理を装置に統合することができ、効率的なシステムがもたらされる。随意により、オーディオ処理をオーディオ処理パラメータの決定に組み込むこともできる。
【0027】
さらなる実施形態によれば、装置は、例えばオーディオ処理パラメータのユーザ修正を考慮することにより、オーディオ入力信号とオーディオ処理パラメータを使用することによって提供されるオーディオ入力信号との比較を使用することによって、処理パラメータ決定規則の係数を決定するように構成される。言い換えれば、処理パラメータ決定規則の係数の決定は、オーディオ入力信号と、直接のオーディオ出力信号またはオーディオ処理によって提供されるオーディオ出力信号との比較に基づくことができる。例えば、随意により、比較の使用前または使用後に、オーディオ入力信号のオーディオ分析またはオーディオ出力信号のオーディオ分析を行い、オーディオ信号のオーディオ分析結果に基づいて比較パラメータ決定規則の係数を決定することができる。そのような比較を使用することによるパラメータ決定規則の係数の決定は、ユーザに実際に出力されるオーディオ信号をパラメータ決定規則の係数を決定するための基準として使用することができるので、とくに信頼性が高く、あるいはロバストである結果を提供する。オーディオ出力信号がユーザによって所望されるオーディオ出力信号に対応するべきであるという基準が、オーディオ処理パラメータ自体の純粋な最適化よりも有意かつロバストである。
【0028】
さらなる実施形態によれば、装置は、オーディオ処理パラメータの代わりに出力量としてユーザによって調整されたユーザパラメータを提供するように構成され、ユーザによって調整されたユーザパラメータは、音量パラメータおよび/またはサウンドパラメータおよび/またはイコライザパラメータを含む。換言すれば、ユーザパラメータは、例えば、サウンド設計および/またはサウンド周波数をイコライジングするためのフィルタパラメータを含むことができる。ユーザによって調整されたユーザパラメータを出力量として提供することにより、例えば、即時のユーザ介入が可能になり、きわめて良好な使用体験が得られる。可能であれば将来のユーザ介入を防止するために(さらには、代わりにユーザ要求に適合した調整を自動的に得るために)、ユーザ介入を係数を改善するためにさらに使用することができる。
【0029】
さらなる実施形態によれば、装置は、例えば追加によって、ユーザパラメータをオーディオ処理パラメータと組み合わせることで、オーディオ処理の複合パラメータを得て、出力量として提供するように構成される。複合パラメータは、例えば、組み合わせられた様相でオーディオ処理に提供され、あるいはオーディオ処理を使用することによって組み合わせられ、例えば強化学習に出力量として提供されるユーザパラメータおよびオーディオ処理パラメータを含むことができる。したがって、迅速なユーザ介入が可能であり、オーディオ処理をユーザ要件に適合させることができる。
【0030】
さらなる実施形態によれば、装置は、例えば処理パラメータ決定規則を使用することによって、処理パラメータ決定規則の少なくとも1つの係数を決定するためのオーディオ入力信号分析結果を提供するために、オーディオ入力信号のオーディオ分析を実行するように構成される。例えば、処理パラメータ決定規則は、オーディオ入力信号分析結果からオーディオ処理パラメータを導出するための導出規則を定義することができる。オーディオ入力信号のオーディオ分析は、例えば、オーディオ入力信号のスペクトル特性および/またはダイナミクスおよび/または周波数に関する情報の形態で、あるいは帯域ごとの強度値に関する情報として、オーディオ入力信号分析結果を提供することができる。オーディオ入力信号分析結果を、ここでは、例えば、強化学習を使用することによって、処理パラメータ決定規則の1つまたは複数の係数を決定するための入力量として提供することができる。ここで、いくつかの実施形態においては、オーディオ分析が事前にオーディオ入力からもたらされるオーディオ入力信号を分析および評価して、処理パラメータ決定規則に提供するが、これは必須ではない。例えば、オーディオ入力信号のスペクトル特性に関する付加情報をオーディオ入力信号分析結果として得ることができる。さらに、オーディオ入力信号分析結果を使用することによって、例えば、オーディオ処理パラメータの決定に完全なオーディオ入力信号を用いる場合と比較して、処理パラメータ決定規則をより単純なやり方で構成することができる。このようにして、オーディオ入力信号分析結果のパラメータまたは値は、処理パラメータ決定規則がオーディオ入力信号分析結果の比較的少数の入力変数(すなわち、例えば)パラメータまたは値を含み、したがって比較的単純なやり方で実施可能であるように、オーディオ入力信号の本質的な特性を効率的なやり方で記述することができる。このようにして、少ない労力で良好な結果を得ることができる。
【0031】
さらなる実施形態によれば、装置は、例えば処理パラメータ決定規則を使用することによって、例えば処理パラメータ決定規則の少なくとも1つの係数を決定するためのオーディオ入力信号のスペクトル特性に関する情報の形態のオーディオ出力信号分析結果を提供するために、オーディオ入力信号のオーディオ分析を実行するように構成される。言い換えれば、装置は、処理パラメータ決定規則の係数を決定するために、オーディオ入力分析信号結果またはオーディオ出力信号分析結果のいずれかまたは両方を提供するために、処理パラメータ決定規則の前または処理パラメータ決定規則の後にオーディオ分析を実行するように構成される。例えば、オーディオ出力信号分析結果を決定することによって、オーディオ入力信号とオーディオ出力信号との比較がきわめて容易であり、例えば、オーディオ出力信号分析結果の値またはパラメータが、オーディオ出力信号の特性をきわめて効率的に(または、きわめてコンパクトな形式で)記述することができる。したがって、処理パラメータ決定規則の係数の決定または最適化が、きわめて効率的なやり方で可能であり、ユーザの所望の処理の達成を、例えば、オーディオ出力信号分析結果を効率的なやり方で評価することによって行うことができ、あるいはオーディオ入力信号分析結果とオーディオ出力信号分析結果との間の比較が、処理パラメータ決定規則の係数に関する結論を可能にすることができる。
【0032】
さらなる実施形態によれば、オーディオ処理パラメータは、少なくとも1つのマルチバンド圧縮パラメータRおよび/または少なくとも1つの聴覚しきい値調整パラメータT、および/または少なくとも1つの帯域依存増幅パラメータG、および/または少なくとも1つの妨害雑音低減パラメータ、および/または少なくとも1つのブラインドソース分離パラメータを含む。さらに、オーディオ処理パラメータは、少なくとも1つのサウンド方向パラメータおよび/またはバイノーラルパラメータおよび/または異なるスピーカの数に関するパラメータおよび/または適応フィルタ全般、例えばホール抑制、フィードバック、エコーキャンセル、アクティブノイズキャンセル(ANC)のパラメータを含むことができる。例えば、サウンド方向パラメータによって、音源の指向性を選択または調整して、オーディオ処理パラメータの組み合わせに関して、所望の方向、例えば会話の対話相手からのサウンドのみを処理することができる。このようなオーディオ処理パラメータは、オーディオ信号処理に効率的なやり方で影響を与えることができ、処理パラメータ決定規則によって容易に決定することができる少数のパラメータで、広い調整範囲にわたってオーディオ信号処理に影響を与えることがすでに可能であることが明らかになっている。
【0033】
さらなる実施形態によれば、装置は、例えば、少なくとも1つの係数が定められ、あるいは好ましくは複数の係数が定義されるように、処理パラメータ決定規則を実行する神経ネットワークを含むことができ、処理パラメータ決定規則を使用することによってオーディオ処理パラメータを得るように構成される。さらに、神経ネットワークを、オーディオ入力から直接、あるいは相互接続されたオーディオ分析によって分析されたオーディオ入力信号として、オーディオ入力信号に基づくオーディオ処理パラメータを得するように構成することができる。神経ネットワークは、オーディオ処理パラメータの決定によく適しており、係数によって個々のユーザの個人的な知覚に良好に適合させることができることが明らかになっている。例えば処理パラメータ決定規則の係数によってエッジ重みを定義することができる神経ネットワークを、係数の選択(例えば、訓練規則によって行うことができる)によってユーザのニーズに適合させることができる。係数を、例えば、さらなるユーザ調整が存在する場合に連続的に改善することができる。これにより、きわめて良好なユーザ体験を提供する結果を得ることができる。
【0034】
さらなる実施形態によれば、装置は、オーディオ処理パラメータを決定するために、強化学習法に基づき、かつ/または教師なし学習法に基づき、かつ/または多変量予測法に基づき、かつ/または多変量回帰によって決定された多次元パラメータ空間に基づいて、処理パラメータ決定規則を提供および/または調整するように構成される。処理パラメータ決定規則は、例えば、例えば強化学習法に基づく神経ネットワークの係数を提供することができる。多変量予測法は、例えば、ユーザパラメータに応じた周波数帯域の予測および/または入出力特性の予測を含むことができる。さらに、多変量回帰による方法は、例えば、すべての既存の周波数帯域を分析して、多次元パラメータ空間を決定することができる。多次元パラメータ空間は、例えば、その軸が音量調整およびサウンド調整を有し、あるいは音量調整およびサウンド調整に割り当てられた座標系上のスライダまたは点によってユーザがユーザパラメータを調整または連続的に調整することができるグラフィカル表面を備える二次元パラメータ設定であってよい。上述の方法によって、装置は、例えば、学習アルゴリズムがユーザごとのオーディオ処理パラメータを調整するように、例えば、処理パラメータ決定規則を適用することによって提供されるオーディオ処理パラメータが、学習の進行が進むにつれてユーザによって補正されたオーディオ処理パラメータに接近するように、例えば、処理パラメータ決定規則が、例えばオーディオ処理パラメータのユーザ調整に応じて、自身を連続学習プロセスにおいて調整するように、オーディオ処理パラメータを決定することができる。予想されるとおり、例えば、データベースまたはデータメモリへの方法のアクセスは(例えば、データベースのサイズが大きくなるにつれて、さらに良好な係数を上述の学習方法を使用することによって決定することができるように)無制限である。
【0035】
さらなる実施形態によれば、装置は、例えば、インターフェース、例えばユーザインターフェース、スマートフォンのディスプレイ上の2D空間などの直感的かつ/または人間工学的なユーザ制御部を介し、あるいはそれによって、ユーザによって調整されたユーザパラメータを得るように構成される。言い換えれば、装置は、ユーザパラメータを調整するためのインターフェース(例えば、電気インターフェースまたはマンマシンインターフェース)を含むことができる。好ましくは、視覚ユーザ制御部は、例えば、より大音量および小音量ならびに/あるいは高さおよび深度の調節のためのスライダによる音量調整を含むことができる。このようにして、パラメータの調整をユーザにとってきわめて容易にすることができ、この簡単なサウンド調整は、多くの場合に、良好な聴覚印象をすでにもたらすことが明らかになっている。
【0036】
さらなる実施形態によれば、オーディオ入力信号は、例えば、少なくとも4つのチャネルまたは少なくとも2つのオーディオチャネルを有するマルチチャネルオーディオ信号を含む。例えば、オーディオ入力信号を、オーディオ入力によって、例えばマイクロフォンから、マイクロフォンを介して、あるいはマイクロフォンによって提供することができる。さらに、オーディオ入力信号は、チャネルの数および/または周波数帯域の数などの情報を含むことができる。マルチチャネル信号の使用は、例えば、オーディオ処理パラメータまたは処理パラメータ決定規則の係数を決定するときに、所望の音源および/または妨害音源の位置特定、ならびに所望の音源または妨害音源の方向の考慮を可能にする。
【0037】
さらなる実施形態によれば、装置は、オーディオ入力信号の少なくとも4つの周波数帯域について個別にオーディオ処理を実行するように構成される。このようにして、例えば、オーディオ入力信号がマルチチャネルオーディオ信号を含む場合に、各々の個別の周波数を分析することができるように周波数選択性が提供されることを、保証することができる。異なる周波数帯域における異なる強度を考慮することにより、異なる音響環境を考慮することができ、周波数応答に関するユーザの特定の要望も効率的に考慮することができる。
【0038】
さらなる実施形態によれば、装置は、リアルタイムで、例えばユーザ操作の最中にランタイムで、オーディオ処理パラメータを取得し、かつ/またはリアルタイムで、補正されたオーディオ処理パラメータを決定および/または調整するために、ユーザごとのやり方で、例えば連続的に、順次に、ユーザ操作の最中に、例えばリアルタイムで、処理パラメータ決定規則の少なくとも1つの係数を決定するように構成される。換言すれば、装置は、例えば、学習システムとしての装置が、例えばユーザ操作の最中にリアルタイムでこの学習プロセスを実行するように、リアルタイムでオーディオ処理パラメータを決定および/または調整するように構成される。換言すると、本発明においては、例えばリアルタイムで測定された外部条件に基づいてサウンド処理が制御される。したがって、すべての既存の周波数帯域の分析も、予測モデルをリアルタイムの多次元最適化に基づいて提供できるようにリアルタイムで行われ、これは、例えば、オーディオ処理パラメータが分析された周波数帯域およびデータメモリに格納されたユーザパラメータに基づいて決定される最適化を意味する。
【0039】
さらなる実施形態によれば、本発明は補聴器を含み、補聴器は、オーディオ処理を含み、補聴器は、オーディオ処理パラメータを決定するための装置を備え、オーディオ処理は、オーディオ入力信号をオーディオ処理パラメータに応じて処理するように構成される。例えば、補聴器は、ユーザのためにオーディオ信号の形態のサウンドまたはトーンの個々の知覚を改善するための装置を実装または統合することができる。本明細書に記載の装置が、補聴器での使用にとくによく適しており、本発明の考え方を使用することによって聴覚印象を大幅に改善できることが示されている。
【0040】
本発明による実施形態は、少なくとも1つのオーディオ入力信号に応じてオーディオ処理パラメータを決定するための方法を含み、本方法は、ユーザごとのやり方で、ユーザ操作の最中に取得されたオーディオ信号に基づいて処理パラメータ決定規則の少なくとも1つの係数を決定することと、オーディオ入力信号に基づいて処理パラメータ決定規則を使用することによってオーディオ処理パラメータを得ることとを含む。本方法は、上述の装置と同じ考慮事項に基づいており、随意により、本発明の装置に関して本明細書で説明したすべての特徴、機能、および詳細によって補足することができる。本方法を、単独および組み合わせられた上述の特徴、機能、および詳細によって、補足することが可能である。
【0041】
本発明によるさらなる実施形態は、コンピュータ上で実行されたときに本方法を実行するためのプログラムコードを有するコンピュータプログラムを含む。
【0042】
以下で、実施形態を、添付の図面を参照して説明する。
【図面の簡単な説明】
【0043】
【
図1】少なくとも1つのオーディオ入力信号に応じてオーディオ処理パラメータを決定する一実施形態による装置の概略のブロック図を示している。
【
図2】少なくとも1つのオーディオ入力信号に応じて、オーディオ入力信号およびオーディオ出力信号に基づく強化学習によって、オーディオ処理パラメータを決定する一実施形態による装置の概略のブロック図を示している。
【
図3】少なくとも1つのオーディオ入力信号に応じて、オーディオ入力信号のオーディオ分析およびオーディオ出力信号のオーディオ分析に基づく強化学習によって、オーディオ処理パラメータを決定する一実施形態による装置の概略のブロック図を示している。
【
図4】少なくとも1つのオーディオ入力信号に応じて、オーディオ入力信号のオーディオ分析およびユーザによって調整されたユーザパラメータに基づく強化学習によって、オーディオ処理パラメータを決定する一実施形態による装置の概略のブロック図を示している。
【
図5】少なくとも1つのオーディオ入力信号に応じて、オーディオ入力信号およびユーザによって調整されたユーザパラメータに基づく強化学習によって、オーディオ処理パラメータを決定する一実施形態による装置の概略ブロック図を示している。
【
図6】オーディオ処理パラメータを決定するための一実施形態による方法の概略のフロー図を示している。
【発明を実施するための形態】
【0044】
本発明の実施形態を図面に基づいてさらに詳細に説明する前に、同一、機能的に対等、または対等な要素、物体、および/または構造には、異なる図においても同じ参照番号が付されており、したがって、異なる実施形態において示されたこれらの要素の説明が、入れ替え可能または相互に適用可能であることに留意されたい。
【0045】
以下で説明される実施形態は、複数の詳細の文脈において説明される。しかしながら、実施形態を、これらの詳細な特徴によらずに実施することも可能である。さらに、実施形態は、理解を容易にするために、詳細な表現の代わりにブロック図を使用することによって説明される。さらに、個々の実施形態の詳細および/または特徴は、反対の明示的な記載がない限り、互いに容易に組み合わせることが可能である。
【0046】
図1が、オーディオ処理パラメータ120を決定するための装置100の概略のブロック図を示しており、装置100の入力側に示されている少なくとも1つのオーディオ入力信号110に応じて、装置100の出力側に示されているオーディオ処理パラメータ120が決定される。装置100の例示的な概略図は、例えば、係数決定130のブロックによって示されている係数の決定を含み、係数決定130の係数132を、処理パラメータ決定規則140に提供することができる。オーディオ入力信号110を、例えば、処理パラメータ決定規則140によって直接使用して、処理パラメータ決定規則140の係数142を得ることができ、かつ/または、係数決定130によってユーザ操作の最中に取得されたオーディオ信号112として使用して、係数決定130に係数132を提供することができる。例えば、係数132が処理パラメータ決定規則140の係数決定130に提供され、オーディオ入力信号110に基づき処理決定規則140を使用することによってオーディオ処理パラメータ120が得られるように、係数決定130をユーザ操作の最中にユーザごとのやり方で行うことができる。
【0047】
したがって、処理パラメータ決定規則の係数を、例えば、処理パラメータ決定規則が、オーディオ入力信号に基づき、係数を使用することによって、オーディオ処理における使用時にユーザの期待を満たすオーディオ出力信号をもたらすオーディオ処理パラメータを出力として提供するように、調整することができる。
【0048】
図2が、一実施形態による装置200の概略のブロック図を示している。オーディオ処理パラメータを決定するための図示の装置200は、例えば、オーディオ入力部210と、オーディオ処理部220と、ユーザ制御部230と、オーディオ出力部240と、強化学習部250および神経ネットワーク260の形態の処理決定規則(または、処理パラメータ決定手段)とを含む。
【0049】
オーディオ入力部210は、例えば、マイクロフォンまたは他のオーディオ検出デバイスを含むことができ、例えば、「C」などのチャネルの数に関する情報および/または「B」などの周波数帯域の数に関する情報を含むことができる。例えば、トーン、サウンドまたは音波、あるいは一般的にはオーディオ信号を、オーディオ入力部210を介して受信することができ、例えば、オーディオ処理部220および/または強化学習部250および/または神経ネットワーク260のためのオーディオ入力信号212、214、および216として提供することができる。例えば、神経ネットワーク260のためのオーディオ信号212、強化学習250のためのオーディオ信号214、およびオーディオ処理部220のためのオーディオ信号216を提供することができ、オーディオ信号212、214、216は、例えば詳細において(例えば、サンプリングレート、周波数分解能、帯域幅、などに関して)同じであっても、相違してもよい。したがって、ここで、オーディオ信号212は、オーディオ信号214および/またはオーディオ信号216に等しくてよく(あるいは、少なくとも同じオーディオコンテンツを記述することができ)、周波数チャネルおよび周波数帯域の数に関して対応する同じ情報を有することができ、したがって、オーディオ信号を、例えば、さらなるオーディオ分析を必要とせずにオーディオ入力部210によって直接分割し、例えば、オーディオ入力部210のいくつかの出力部またはデータ経路を介して提供することができる。
【0050】
オーディオ処理部220は、例えば、1つまたはいくつかのオーディオ信号216を処理する1つおよび/またはいくつかのパラメータ化オーディオ処理規則を含むことができ、例えば複合パラメータ272によってパラメータ化されたパラメータ化オーディオ処理規則を使用することによって、入力オーディオ信号216(または、複数の入力オーディオ信号)に基づいて、例えば、ユーザごとのやり方で調整されたオーディオ信号217を提供する(あるいは、ユーザごとのやり方で調整されたいくつかのオーディオ信号を提供する)。オーディオ処理部220は、複合パラメータ272を使用することにより、例えば、パラメータ化オーディオ処理規則を使用することによって、オーディオ入力210に基づくオーディオ入力信号216を処理し、ユーザごとのやり方で調整されたオーディオ信号210を得ることを可能にする。複合パラメータ272に関する随意による詳細および実施形態は、本特許出願において、以下でさらに詳細に説明される。その前に、装置200の構成要素に関するさらなる詳細および実施形態を説明する。
【0051】
オーディオ出力部240は、例えば、ユーザごとのやり方で調整され、補正および新たに割り当てられたオーディオ信号217を受信することができ、これを、処理パラメータ決定規則(例えば、ニューラルネットワーク260)のパラメータまたは係数を決定するための補正後または処理後オーディオ信号218として、例えば強化学習を使用することによって実現される係数決定部250に提供することができる。これに代え、あるいは加えて、オーディオ出力部は、例えば、オーディオ処理部220によって補正され、新たに割り当てられ、ユーザごとのやり方で調整されたオーディオ信号217を、例えばヘッドホンまたはスピーカのためのインターフェースのための補正後または処理後オーディオ信号219として提供することができるが、これは必須ではない。
【0052】
さらに、いくつかの実施形態は、例えば、データ記憶部252(その内容がデータベースの一部であってよい)にオーディオ信号に関する情報を供給するために、オーディオ信号218の追加の情報をオーディオ出力部240を介して強化学習部250(または、処理パラメータ決定規則の係数またはパラメータを決定するための別の手段)に提供することを可能にする。
【0053】
オーディオ入力信号214と同様に、オーディオ出力信号218を、例えば、処理パラメータ決定規則260の係数またはパラメータを決定するために強化学習部250に提供することができ、例えば、オーディオ入力信号214およびオーディオ出力信号218の情報は、装置200のそれぞれのデータベースとしてデータメモリ252に記憶される。
【0054】
換言すると、例えば、強化学習部250は、オーディオ信号218および214によって、処理パラメータ決定規則260の係数またはパラメータを決定することができる。さらに、強化学習部250は、例えば、オーディオ信号214、218に基づいてデータベースを増加させ、かつ/またはオーディオ信号214、218をデータ記憶部252に取り入れることができる。これに代え、あるいは加えて、強化学習部は、少なくとも1つのユーザ調整係数254を決定またはデータベースに格納することができる。
【0055】
しかしながら、強化学習部250(または、強化学習部250を置き換えることができる処理パラメータ決定規則の係数を決定するための別の装置)による出力オーディオ信号218の使用が、随意であると考えられることに留意されたい。
【0056】
データベースまたはデータ記憶部252は、複数の情報、例えば、オーディオ入力部210(または、オーディオ入力信号)および/またはオーディオ入力部210からもたらされるオーディオ信号212および214のうちの1つまたはいくつかに関する情報、ならびに/あるいはオーディオ出力部240および/またはオーディオ出力部240からもたらされるオーディオ信号218に関する情報、ならびに/あるいはオーディオ処理部220に関する情報を含むことができ、例えば、少なくとも1つのユーザ調整係数254も含むことができる。ユーザ調整係数254は、例えば、データベース252に基づき、かつ/または調整後ユーザパラメータ232に基づいて、処理パラメータ決定規則250による使用のために決定される係数であってよい。ユーザ調整係数は、ユーザによって調整されたオーディオ処理のパラメータであってもよい。
【0057】
処理パラメータ決定規則の係数、すなわち、例えば、神経ネットワークのエッジ重みは、とりわけ、
図2において参照番号252で「強化学習部」として示されている強化学習の方法に基づくことができる。
【0058】
例えば、強化学習部250(例えば、部分機能として)は、データ記憶部252が、異なるオーディオ入力信号212、214とユーザによって調整されたそれぞれのユーザパラメータ232、例えばユーザ調整係数254との間の割り当てを記述するように、データ記憶部252のデータベースまたはコンテンツを決定することができる。
【0059】
強化学習部250が、データ記憶部252が、オーディオ出力信号218とユーザによって調整されたそれぞれのユーザパラメータ、例えばユーザ調整係数254との間の割り当てを(例えば、追加で)記述するように、データ記憶部252のデータベースまたはコンテンツを決定する点で、神経ネットワークの係数256を好都合なやり方で強化学習部250によって提供することができる。
【0060】
その上で、処理パラメータ決定規則を、例えば、強化学習部250によって決定された係数256を使用することによってオーディオ処理パラメータ262を得るために、神経ネットワーク260として構成することができ、あるいは神経ネットワークに統合することができる。換言すると、例えば、神経ネットワーク260は、オーディオ信号212および強化学習部250によって得られた係数256に基づいてオーディオ処理パラメータ262を決定することができ、結果として、例えば、学習アルゴリズムが、ユーザごとのオーディオ処理パラメータ262を調整する。
【0061】
神経ネットワーク260によって提供される少なくとも1つのオーディオ処理パラメータ262は、単一のパラメータであってよく、あるいはいくつかのパラメータを含むことができる。神経ネットワーク260は、例えば、以下のパラメータ、すなわちユーザプロファイルのパラメータNおよび/またはマルチバンド圧縮パラメータRおよび/または聴覚しきい値調整パラメータTおよび/または平滑化(例えば、1つまたはいくつかの平滑化パラメータ)および/または圧縮調整(あるいは、1つまたはいくつかの圧縮パラメータ)のうちの1つまたはいくつかを、オーディオ処理パラメータ262として提供することができる。さらに、サウンド調整のために、(代替的または追加的に)帯域依存増幅G、妨害雑音低減(あるいは、1つまたはいくつかの妨害雑音低減パラメータ)、および/またはブラインド音源分離(または、ブラインド音源分離の1つまたはいくつかのパラメータ)などの1つ以上のパラメータを使用(あるいは、神経ネットワークによってオーディオ処理パラメータ262として提供)することができる。
【0062】
例えば、(例えば、強化学習部250および/または神経ネットワーク260の)入力パラメータの数は、マルチチャネルオーディオ信号のチャネルの数Cへの依存、および処理帯域の数Bまたはユーザパラメータの数Pへの依存ももたらす。例えば、ユーザパラメータの数Pは、周波数帯域の数Bとオーディオ信号またはオーディオチャネルの数Cとの積としてもたらされてよい。
【0063】
これに代え、あるいは加えて、(例えば、強化学習部または神経ネットワークの)入力パラメータは、オーディオ特徴N、例えば10msごとに、入力(例えば、オーディオ入力信号)および出力(例えば、オーディオ出力信号)のために、例えばチャネルごとにF=2048個のフーリエ係数を含むことができる。
【0064】
例えば、学習されたユーザプロファイルMにおける出力パラメータ(例えば、神経ネットワーク260の出力パラメータまたはオーディオ処理の入力パラメータ)の数は、オーディオチャネルの数(例えば、C)、聴覚しきい値調整T、レートRによるマルチバンド圧縮、帯域依存増幅G、および2つのさらなる時定数で構成されてよく、G、R、Tの値の数は、例えば、帯域Bの数に対応する。さらに、学習されたユーザプロファイルMの値(または、学習されたユーザプロファイルMの複数の値)は、ユーザ調整係数(または、パラメータ)254(または、ユーザ調整係数またはパラメータのセット)を形成することができる。
【0065】
ユーザ制御部230は、例えば、音量のパラメータおよび/またはサウンド調節のパラメータを含むことができる少なくとも1つのユーザパラメータ232を提供する。ユーザ制御部は、例えば、1つまたはいくつかのユーザパラメータを視覚化するためのインターフェースを含むことができる。
【0066】
ユーザ制御部230によって行うことができる音量の制御または音量の調節は、例えば、オーディオ信号の増幅または減衰をもたらすパラメータを提供することができる。深度調節部、高さ調節部、および/またはイコライザによって、ユーザは、例えば、ユーザ制御部230を介してサウンド調節のパラメータを調整することができ、これを、例えばユーザパラメータ232の一部として結合部270を使用することによって(神経ネットワーク260によって提供される)オーディオ処理パラメータ262と組み合わせることができる。
【0067】
換言すると、ユーザ制御部230によって提供されるユーザパラメータ232を、例えば、加算、乗算、除算、または減算によって、オーディオ処理パラメータ262と組み合わせることができる。ユーザパラメータ232とオーディオ処理パラメータ262との結合部270によって、例えば、複合パラメータ272をオーディオ処理部220に提供することができる。あるいは、ユーザパラメータ232は、例えば、ユーザがパラメータ262によって予め決定された調整とは著しく異なる調整を望む場合に、パラメータ262を置き換えることもできる。
【0068】
要約すると、装置200を、オーディオ入力部210を介して取得されたオーディオ入力信号をオーディオ処理部220において処理して、サウンド特性をユーザの所望またはニーズに適合させると述べることができる。オーディオ処理部220の処理特性は、パラメータ272によって調整され、パラメータ272は、一方では神経ネットワーク260によって左右され、他方ではユーザ制御部230を介してユーザが修正することができる。一般に、強化学習部250は、神経ネットワークによって提供されるパラメータがユーザの期待に本質的に対応し、すなわちそれぞれの異なる音響環境においてユーザがユーザ制御部230を介して調整するパラメータ値を許容可能な公差の範囲内で含むように、神経ネットワークの1つまたはいくつかの係数(例えば、エッジ重み)を調整する機能を果たす。
【0069】
したがって、多数の異なる音響環境における充分な訓練の後に、装置が、ユーザにとって同意可能なオーディオ処理の自動設定に達することを、得ることができる。
【0070】
図3が、
図2の装置200に基づく少なくとも1つのオーディオ入力信号に応じてオーディオ処理パラメータを決定するための装置300の概略図または概略のブロック図を示している。
【0071】
図3による装置300において、
図2にも示されている機能ブロックが、例えば、装置200におけるそれぞれの機能ブロックと同様または同等の機能を有することができる(しかしながら、必ずしもそれらを含む必要はない)ことに留意されたい。さらに、装置300を、随意により、単独であっても組み合わせられてもよい本明細書に記載されるすべての特徴、機能、および詳細によって補足できることに留意されたい。
【0072】
装置200と同様に、装置300は、オーディオ入力部310(オーディオ入力部200に対応することができる)と、オーディオ処理部320(オーディオ処理部220に対応することができる)と、ユーザ制御部330(ユーザ制御部230に対応することができる)と、オーディオ出力部340(オーディオ出力部240に対応することができる)と、強化学習部350(例えば、その基本的な機能に関して強化学習部250に対応することができる)と、神経ネットワーク360(例えば、その基本的な機能に関して神経ネットワーク260に対応することができる)と、ユーザごとのやり方で調整されたユーザパラメータ332とオーディオ処理パラメータ362との結合部370(例えば、結合部270に対応することができる)とを有する。
【0073】
図2の装置200から出発して、
図3の装置300は、オーディオ入力部310と神経ネットワーク360との間のオーディオ分析部380-1、ならびにオーディオ出力部340と強化学習部350との間のオーディオ分析部380-2をさらに含み、あるいは備える。
【0074】
とくには、この構成により、オーディオ分析部380-1は、例えばオーディオ入力部310からもたらされるオーディオ入力信号311を受信および分析して、オーディオ入力信号分析結果、例えばオーディオ入力信号311のスペクトル特性および/またはダイナミクスおよび/または周波数に関する情報を、オーディオ分析信号312および/または314の形態で提供することができる。オーディオ分析部380-1のオーディオ分析結果の情報を、例えば、分析後オーディオ信号312、314によって神経ネットワーク360および強化学習部350に(例えば、同時に)提供することができる。
【0075】
例えば、神経ネットワーク360の一部(または、強化学習部350の一部)を含むことができ、あるいは神経ネットワーク360によって実現される処理パラメータ決定規則が、例えば、オーディオ入力分析結果からオーディオ処理パラメータ362を導出するための導出規則を定めることができる。オーディオ分析部380-1によって、スペクトル特性に関する追加の(または、コンパクトな)情報、例えば、周波数帯域およびチャネルごとの強度値を取得して、例えば、オーディオ信号(例えば、マルチチャネルオーディオ信号)の周波数選択性を提供することができる。周波数選択性は、信号の知覚可能なサウンドの態様の分析および表現を可能にするために必要である。一般に、オーディオ分析部380-1は、例えば、時間ドメインサンプル値を神経ネットワークに入力する考え方と比較して、神経ネットワークの入力データ量を大幅に低減することができる。例えば、分析後オーディオ信号312、314が、オーディオ入力信号の特性をコンパクトな形態(時間部分当たりのパラメータの数が、例えば、時間単位当たりのサンプルの数の10分の1以下、または20分の1以下、または50分の1以下)で記述するパラメータを含むという点で、神経ネットワーク360の複雑さを比較的低く保つことができる。したがって、神経ネットワークの係数の数を、比較的低く保つことができ、したがって(例えば、強化学習部350による)学習プロセスが容易になる。これは、分析後オーディオ信号のパラメータが異なる音響環境を区別するために適しているほど、さらに当てはまる。
【0076】
さらに、随意により、オーディオ出力信号342のオーディオ分析380-2を実行して、処理パラメータ規則の少なくとも1つの係数、例えば強化学習部350の少なくとも1つの係数を決定するためのオーディオ出力信号分析結果を提供することができる。
【0077】
オーディオ入力信号311および音声出力信号342の「共通の」オーディオ分析(例えば、オーディオ入力信号およびオーディオ出力信号の両方のオーディオ分析)も可能であり、別個のオーディオ信号分析結果を提供することができる。この文脈において、別個とは、オーディオ入力信号分析結果を、例えば、オーディオ出力信号分析結果とは別の構成要素に提供できることを意味する。例えば、入力または出力信号のオーディオ分析380-1、380-2の情報は、互いに異なっていてもよく、あるいは相応に類似または同一であってもよい。
【0078】
ここで、いくつかの実施形態においては、オーディオ出力部340が、例えばヘッドホンまたはスピーカのためのインターフェースのための補正後または処理後オーディオ信号319を提供するが、これは必須ではない。さらに、いくつかの実施形態は、オーディオ分析280-2がインターフェースまたはさらなるインターフェースのためのオーディオ信号313を提供することを可能にする。これにより、装置300は、例えば、外部構成要素のための少なくとも1つのインターフェースを介してオーディオ信号319および313を提供することができるが、これは必須ではない。
【0079】
要約すると、装置300においては、入力オーディオ信号または出力オーディオ信号自体ではなく、1つまたはいくつかのそれぞれのオーディオ分析結果が、神経ネットワーク360または強化学習350に供給されると述べることができる。したがって、入力オーディオ信号および/またはオーディオ出力信号の適切な事前分析によって、神経ネットワークの複雑さ、ひいては強化学習の複雑さを低く保つことができ、これは、実装の労力を大幅に低減する。
【0080】
図4が、
図2の装置200に部分的に基づく少なくとも1つの入力信号に応じてオーディオ処理パラメータを決定するための装置400の概略のブロック図を示している。
【0081】
図4による装置400において、
図2にも示されている機能ブロックが、例えば、装置200におけるそれぞれの機能ブロックと同様または同一の機能を有することができる(しかしながら、必ずしもそれらを含む必要はない)ことに留意されたい。さらに、装置400を、随意により、単独であっても組み合わせられてもよい本明細書に記載されるすべての特徴、機能、および詳細によって補足できることに留意されたい。
【0082】
装置400は、オーディオ入力部410(例えば、オーディオ入力部210に対応することができる)と、オーディオ処理部420(例えば、オーディオ処理部220に対応することができる)と、ユーザ制御部430(例えば、ユーザ制御部230に対応することができる)と、オーディオ出力部440(例えば、オーディオ出力部240に対応することができる)と、強化学習部450(例えば、その基本的な機能に関して強化学習部250に対応することができる)と、神経ネットワーク460(例えば、その基本的な機能に関して神経ネットワーク260に対応することができる)と、結合部470(例えば、結合部270に対応することができる)と、オーディオ入力部410と神経ネットワーク460および強化学習部450との間のオーディオ分析部480(例えば、オーディオ分析部380-1に対応することができる)とを含む。
【0083】
装置300と比較して、装置400は、オーディオ出力440のオーディオ分析を含まず、装置200と比較して、オーディオ出力440から強化学習部450へとオーディオ出力信号が提供されることがない。換言すると、強化学習部450は、オーディオ出力信号に関する情報を受け取ることがない。
【0084】
代わりに、強化学習部450は、複合パラメータ472、473、またはユーザによる神経ネットワーク460によって提供されるオーディオ処理パラメータ462の変更または調整を記述する情報433に基づく。さらに、強化学習部は、オーディオ入力信号分析結果414を使用する。
【0085】
換言すると、強化学習部450は、データベース452のエントリがユーザによって調整されたユーザパラメータ472、473を表すように、ユーザによって調整されたユーザパラメータまたは複合パラメータ472、473に応じてデータベース452を決定することができる。データベース452を、処理パラメータ決定規則または神経ネットワーク460の係数456を決定するために提供または使用することができる。これにより、強化学習部450に直接割り当てられたユーザパラメータ(または、ユーザによって調整されたオーディオ信号処理パラメータ472)に直接基づく予測モデルを決定することができる。
【0086】
随意により、例えば、出力として、圧縮設定および/または他のパラメータをオーディオ処理パラメータ462のために提供することができるように、1つまたはいくつかの複合パラメータ472、473またはユーザパラメータを、複合パラメータ474、460によって神経ネットワークに直接取り入れることもできる。
【0087】
これに代え、あるいは随意により、ユーザによって調整されたそれぞれのユーザパラメータ432を、(参照番号433に示されるように)強化学習部450に直接提供することができるが、これは必須ではない。例えば、神経ネットワーク460によって提供されるパラメータ462をユーザがどのように変更するかに関する情報を、強化学習に使用することができる。ユーザが神経ネットワーク460によって提供されるパラメータ462をまったく変更せず、あるいはわずかしか変更しない場合、神経ネットワークの現在の機能にユーザが完全に満足しており、あるいは少なくともかなりの程度まで満足していると仮定することができ、したがって、神経ネットワークの係数をまったく補正する必要がなく、あるいはわずかしか補正する必要がない。しかしながら、ユーザがパラメータ462の有意な変化を実行する場合、ユーザの期待に対応したパラメータ462が神経ネットワークによって提供されるように、神経ネットワークの係数の有意な変化が必要であると強化学習部によって仮定することができる。そのようにして、例えば、ユーザの介入を記述する情報433を強化学習部によって使用して、学習をトリガし、かつ/または神経ネットワークの係数の変化の程度を判断することができる。
【0088】
全体として、
図4による実施形態は、神経ネットワーク460の係数456の効率的な学習および/または(例えば、継続的な)改善を可能にする。
【0089】
図5が、装置200、300、および400と同様の特性を有する装置500を示している。
図5による装置500において、
図2、
図3、および
図4にも示されている機能ブロックが、例えば、装置200、装置300、および装置400におけるそれぞれの機能ブロックと同様または同一の機能を有することができる(しかしながら、必ずしもそのようにする必要はない)ことに留意されたい。さらに、装置500を、随意により、単独であっても組み合わせられてもよい本明細書に記載されるすべての特徴、機能、および詳細によって補足できることに留意されたい。
【0090】
図5の概略のブロック図は、オーディオ入力部510(例えば、オーディオ入力部210に対応することができる)と、オーディオ処理部520(例えば、オーディオ処理部220に対応することができる)と、ユーザ制御部530(例えば、ユーザ制御部230に対応することができる)と、オーディオ出力部540(例えば、オーディオ出力部240に対応することができる)と、強化学習部550(例えば、その基本的な機能に関して強化学習部250に対応することができる)と、神経ネットワーク560(例えば、その基本的な機能に関して神経ネットワーク260に対応することができる)と、結合部570(例えば、結合部270に対応することができる)とを含む装置500を示している。
【0091】
装置500は、例えば、オーディオ入力信号のオーディオ分析を含まず、オーディオ出力信号のオーディオ分析を含まないため、オーディオ信号512および514を、オーディオ入力部510から強化学習部550または神経ネットワーク560に直接導くことができる。随意により、装置500において、オーディオ入力信号のオーディオ分析を行うことも可能である。
【0092】
装置200の
図2においてすでに述べたように、オーディオ入力信号512を神経ネットワーク560のために提供し、オーディオ入力信号514を強化学習部550のために提供することができる。装置400とは対照的に、装置500の強化学習部550は、オーディオ入力信号514、およびオーディオ処理部520に提供される(または、オーディオ処理部520によって実際に使用される)1つまたはいくつかのオーディオ処理パラメータ572に基づくことができる。
【0093】
随意により、ユーザパラメータまたは複合パラメータ572を、ユーザパラメータ572および強化学習部550によって提供される係数が入力量として神経ネットワーク560に取り入れられ、あるいは神経ネットワーク560に提供されるように、神経ネットワーク560に提供することができる。
【0094】
装置500は、強化学習部550がオーディオ信号処理部520によって実際に使用されるパラメータを考慮し、したがって神経ネットワークの係数をきわめて正確に決定または最適化することができるため、神経ネットワークの係数のきわめて効率的な調整を可能にする。
【0095】
図6が、装置100、200、300、400、または500などの装置を動作させ、あるいは一般的には、オーディオ処理パラメータを得るための方法600の概略のフロー図を示している。第1のステップ610は、ユーザ操作の最中に取得されたオーディオ信号に基づいて処理パラメータ決定規則の少なくとも1つの係数をユーザごとに決定することを含む。第2のステップ620は、オーディオ入力信号に基づいて処理パラメータ決定規則を使用することによってオーディオ処理パラメータを得ることを含む。
【0096】
ここで、方法600は、例えば、オーディオ処理パラメータが少なくとも1つのオーディオ入力信号に応じて決定されるように実行される。ここで、方法600を、すぐに記録された環境音に基づくサウンド処理またはオーディオ処理(例えば、オーディオ入力信号がオーディオ処理パラメータの調整をもたらす)がサウンドの個人の知覚の改善をもたらすように実行することができる。例えば、強化学習によって係数が決定され、あるいは連続的に調整される神経ネットワークを使用することによって、オーディオ処理パラメータがオーディオ入力信号に基づいて得られるように、処理パラメータ決定規則の係数が、ユーザ操作の最中に取得されたオーディオ入力信号に基づき、ユーザごとのやり方で(例えば、リアルタイムで)決定されることを得ることができる。
【0097】
方法600を、随意により、本明細書に記載のすべての特徴、機能、および詳細によって補足することが、そのような特徴、機能、および詳細が装置に関して説明されていたとしても可能である。本方法を、単独および組み合わせられたこれらの特徴、機能、および詳細によって、補足することが可能である。
【0098】
さらなる実施形態
以下で、実施形態において個別に適用可能または組み合わせて適用可能である本発明のいくつかの態様を説明する。
【0099】
ユーザによる調整が可能である状況依存制御パラメータまたはユーザによって調整されたユーザパラメータを、例えば、自己強化学習アルゴリズムの訓練中のサウンド処理の
図3に示されるような入力および出力オーディオ信号の分析によって統合することができる。
【0100】
入力オーディオ信号は、サウンド環境を含むことができる。これにより、サウンド環境の変化およびユーザ調整を、例えばランタイムにおいて本質的に学習することができる。
【0101】
これらのデータから、自己強化学習アルゴリズムは、例えば、一方では同じ外部条件の下で自動化されたやり方で同じ制御パラメータを適用するサウンド処理のためのユーザごとのパラメータセットを開発することができるが、(例えば、強化学習の原理に基づいて)学習システムに統合される状況自体におけるさらなるユーザ調整も可能にする。したがって、例えば、機械学習システムおよびアプリケーションを、連続的な学習プロセスにおいてサウンドのユーザの好みに適合させることができる。サウンドの適合のために、アルゴリズムを、例えば補聴器において使用されるときに統合および制御することができる。レートRおよび聴覚しきい値調整Tおよび帯域依存増幅Gによるマルチバンド圧縮、干渉雑音低減、またはブラインドソース分離が、その例である。
【0102】
入力オーディオ信号、サウンド処理パラメータ、および/またはサウンド処理パラメータで処理されたオーディオ信号を、例えば、クラウド(例えば、中央データ記憶部)にユーザプロファイルを訓練するために記憶することができる。同時に、ユーザによって選択されたサウンド処理パラメータまたはユーザパラメータを、入力オーディオ信号に適用することができる。例えばCNN(畳み込みニューラルネットワーク)の強化学習のための入力パラメータの数を、例えばマルチチャネルオーディオ入力(例えば、C=4チャネル)およびオーディオ出力(例えば、C=2チャネル)から組み合わせることができる。学習されたパラメータセットMにおける出力パラメータの数を、例えば、M=C*(T+R+G)+2つの時定数から組み合わせることができ、G、R、Tの値の数は、例えば、処理帯域の数B(例えば、B=8)に対応することができる。
【0103】
以下で、実施形態において個別に適用可能または組み合わせて適用可能である本発明のいくつかの態様を説明する。
【0104】
本方法、例えばサウンド制御の分野における装置の可能な実装形態は、例えば、
図3または
図4に示されるように、ユーザが、例えばサウンド増幅およびオーディオ分析が統合されたシステムを備えるサウンド再生デバイス(例えば、追加の機能を有するヒアラブルまたはイヤホン)を携行することである。サウンド増幅のパラメータを、例えば上述したユーザ制御を使用することにより、例えばアプリ(または、アプリケーションソフトウェア)によってユーザが制御することができる。背景において、オーディオ分析は、例えば、マイクロフォニックスによって聴覚シーンを連続的に記録して、例えば、ダイナミクスおよび/または周波数および/またはスペクトル特性において(例えば、オーディオ分析において)分析および評価することができる。例えば高速道路を自動車で走行しているときなど、特定の聴覚シーンにおいて、ユーザはアプリによってサウンド調整を実行することができ、したがってサウンド増幅のパラメータ(例えば、パラメータ272)を変更する。システム(例えば、強化学習250)が、ユーザによるパラメータ変更と聴覚シーンの分析との間のアルゴリズム的接続を確立させることができ、そこから人工知能(AI)によってアドホックのユーザのさらなるサウンド調整を統合する(例えば、係数256によって表す)予測モデルを開発することができる。これは、パーソナライズされたAI制御(AI、人工知能)が装置によって可能にされ、あるいは提供されることを意味する。
【0105】
例えば、ユーザが別の時間に再び同じ聴覚シーン(この場合には、高速道路を走行している自動車)に存在する場合、予測モデルが適用され、サウンド増幅のパラメータ(例えば、パラメータ262)は、システムによって(例えば、係数256によって定義される神経ネットワーク260によって)自動化されたやり方で実施または提供される。ユーザが(例えば、インターフェース230を介して)サウンド調整を再び行うのであれば、これを、例えば自己学習システムにアドホックで統合することができる。
【0106】
以下で、実施形態において個別に適用可能または組み合わせて適用可能であり、Github公開「liketohear-ai-pt」に対する相違を呈する本発明のいくつかの態様を説明する。
【0107】
・本発明の(随意による)態様によれば、予測モデルは、すべての既存の周波数帯域を分析するリアルタイムの多次元最適化に基づく。
【0108】
・本発明の(随意による)態様によれば、例えば、強化学習法および教師なし学習法が使用される。
【0109】
・本発明の(随意による)態様によれば、例えば、処理パラメータ決定規則および/またはオーディオ処理パラメータの調整(または、複数の調整)を、ランタイムで連続的に行うことができる。
【0110】
以下で、例えば米国特許出願公開第2015/195641号に対する相違を呈する実施形態において個別に適用可能または組み合わせて適用可能である本発明のいくつかの態様を説明する。
【0111】
本発明による実施形態は、例えば、主として、日常の音響環境におけるサウンドの直感的かつ人間工学的なユーザ制御に関し、以下の理由で一般化された調整の選択肢を選ぶ。
【0112】
・リアルタイムでの個々の「サウンドタイプ」への信号の分割は、日常の音響状況においては実現が困難である。したがって、本発明はこの方法を適用せず、二次元パラメータ空間を有する複数のサウンド選択肢をカバーする。
【0113】
・ユーザ調整は、信号分離における各々のオブジェクトおよび各々のコンテキスト状況について別々に行われなければならない。聴覚状況が急速に変化する日常の音響環境において、ユーザ制御は複雑になりすぎ、したがって人間工学的に適用不可能である。本発明により、ユーザは、スマートフォンの2Dタッチインターフェースなどの単純で直感的に使用可能なインターフェースによって複雑なサウンド調整を(例えば、手段230において)実行することができる。
【0114】
・個々のサウンドのサウンド特性は、好みとは異なる組み合わせで聞こえる可能性がある。例えば、前景または背景雑音としての音楽などのサウンドである。したがって、本発明において、例えば、聴覚シーンの複雑さは、ユーザに最適化されたすべての既存のサウンドの知覚に適合される。
【0115】
・個々の信号の調整が、変化する環境条件に動的に適合されることがない。したがって、例えば、穏やかに話す言語または穏やかに音楽を再生するだけの場合、背景雑音の音量がわずかに増加すると、発話が理解できなくなったり、音楽がもはや聞こえなくなったりする可能性がある。
【0116】
以下で、例えば米国特許出願公開第2020/0066264号に対する相違を呈する実施形態において個別に適用可能または組み合わせて適用可能である本発明のいくつかの態様を説明する。
【0117】
米国特許出願公開第2020/0066264号においては、プロセッサが、ユーザの好みおよび関心ならびに履歴活動パターンに起因して補聴器のサウンド処理を制御する。
【0118】
他方で、本発明の実施形態においては、補聴器のサウンド処理が、例えば
図2に示されるように、例えばリアルタイムで測定される外部状態に基づいて制御される。
【0119】
要約すると、本発明の一態様によれば、上記の基準または要件が、ユーザにとってオーディオ信号の形態のサウンドまたはトーンの個々の知覚を改善するために、それをユーザ設定からリアルタイムで学習して自動化されたやり方で適用する学習方法または装置に統合されると述べなければならない。本発明により、ユーザの好みに最適化された信号再生または音声再生を実現することができる。
【0120】
したがって、本発明の一態様によれば、サウンドの個々の知覚、したがってサウンド再生デバイスの調整のためのサウンドまたはユーフォニーのための個々の要件は、とりわけ、以下の基準に従って異なると考えることができる。
【0121】
・個人性
・状況ニーズ
・外部条件
本発明の一態様によれば、本発明による実施形態は、サウンドの知覚が人によって異なることを考慮することができる。
【0122】
例えば、背景音が大きい多数の人々が存在する部屋での人との会話は、一部の人々にとっては、他の人々よりも行いにくい。加えて、必要に応じて、サウンド再生の同じ調整が異なって知覚される。
【0123】
本発明の一態様によれば、本発明による実施形態は、聴覚環境などの環境パラメータも、サウンド再生デバイスのサウンド調整のための制御値に大きく影響することを、考慮することができる。
【0124】
要約すると、本発明による実施形態は、直ちに記録または測定された環境雑音に基づいてサウンド処理を実行する装置および方法を提供するとさらに述べることができる。これらの記録およびユーザによって調整されたユーザパラメータに基づいて、例えば、学習アルゴリズムは、ユーザのためのオーディオ信号の形態のサウンドまたはトーンの個々の知覚を改善するために学習システムに統合される状況自体におけるさらなる調整を可能にする予測モデルを生成する。
【0125】
いくつかの態様を装置の文脈において説明してきたが、これらの態様が、対応する方法の説明も表し、装置のブロックまたはデバイスが、それぞれの方法ステップまたは方法ステップの特徴にも対応することは明らかである。同様に、方法ステップの文脈において説明された態様は、対応する装置の対応するブロックまたは詳細または特徴の説明も表す。
【0126】
特定の実施要件に応じて、本発明の実施形態を、ハードウェアまたはソフトウェアにて実施することができる。実施を、電子的に読み取り可能な制御信号を格納し、それぞれの方法を実行するようにプログラム可能なコンピュータシステムと協働し、あるいは協働することができるフロッピーディスク、DVD、Blu-Rayディスク、CD、ROM、PROM、EPROM、EEPROM、またはフラッシュメモリ、ハードドライブ、あるいは他の磁気または光学メモリなどのデジタル記憶媒体を使用して実行することができる。したがって、デジタル記憶媒体は、コンピュータにとって読み取り可能であってよい。本発明によるいくつかの実施形態は、本明細書に記載の方法の1つが実行されるようにプログラム可能なコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有するデータ担体を含む。
【0127】
一般に、本発明の実施形態を、プログラムコードを有するコンピュータプログラム製品として実現することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに上記方法のうちの1つを実行するように動作することができる。プログラムコードを、例えば、機械で読み取ることができる担体に保存することができる。
【0128】
他の実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを含み、コンピュータプログラムは、機械で読み取ることができる担体に格納される。
【0129】
したがって、換言すると、本発明の方法の一実施形態は、コンピュータプログラムであり、このコンピュータプログラムは、このコンピュータプログラムがコンピュータ上で実行されたときに本明細書に記載の方法のうちの1つを実行するためのプログラムコードを含む。したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムが記録されたデータ担体(あるいは、デジタル記憶媒体またはコンピュータ可読媒体)である。
【0130】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号シーケンスである。データストリームまたは信号シーケンスを、例えばインターネットなどのデータ通信接続を介して伝送されるように構成することができる。
【0131】
さらなる実施形態は、本明細書に記載の方法のうちの1つを実行するように設定または構成された処理手段、例えばコンピュータまたはプログラマブル論理デバイスを含む。
【0132】
さらなる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0133】
本発明によるさらなる実施形態は、本明細書に記載の方法のうちの少なくとも1つを実行するためのコンピュータプログラムをレシーバに伝送するように構成された装置またはシステムを含む。伝送は、例えば、電子的または光学的であってよい。レシーバは、例えば、コンピュータ、モバイルデバイス、メモリデバイス、または同様のデバイスであってよい。装置またはシステムは、例えば、コンピュータプログラムをレシーバへと伝送するためのファイルサーバを含むことができる。
【0134】
いくつかの実施形態においては、プログラマブル論理デバイス(例えば、フィールドプログラマブルゲートアレイ、FPGA)を使用して、本明細書に記載の方法の機能の一部またはすべてを実行することができる。いくつかの実施形態においては、フィールドプログラマブルゲートアレイがマイクロプロセッサと協働して、本明細書に記載の方法のうちの1つを実行することができる。一般に、これらの方法は、好ましくは任意のハードウェア装置によって実行される。これは、コンピュータプロセッサ(CPU)などの普遍的に適用可能なハードウェア、またはASICなどの本方法に固有のハードウェアであってよい。
【0135】
上述の実施形態は、あくまでも本発明の原理を説明するためのものにすぎない。本明細書に記載の構成および詳細について、修正および変更が当業者にとって明らかであることを理解されたい。したがって、本発明は、本明細書の実施形態の説明および解説によって提示された特定の詳細によってではなく、添付の特許請求の技術的範囲によってのみ限定される。
【手続補正書】
【提出日】2023-07-31
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
少なくとも1つのオーディオ入力信号(110、112;212、214、216;311、316;411、416;512、514、516)に応じてオーディオ処理パラメータ(120;262;362;462;562)を決定するための装置(100;200;300;400;500)であって、
前記装置(100;200;300;400;500)は、ユーザ操作の最中に取得されたオーディオ信号(217、218、219;313、317、318、319、342;417;517)に基づいてユーザごとのやり方で処理パラメータ決定規則(140;250;350;450;550)の少なくとも1つの係数(142;256;356;456;556)を決定するように構成され、
前記装置(100;200;300;400;500)は、前記オーディオ入力信号(110、112;212、214、216;311、316;411、416;512、514、516)に基づいて前記処理パラメータ決定規則(140;250;350;450;550)を使用することによって前記オーディオ処理パラメータ(120;262;362;462;562)を得るように構成され、
前記装置は、前記少なくとも1つのオーディオ入力信号(110、112;212、214、216;311、316;411、416;512、514、516)に応じて、データベース(252;352;452;552)を、前記データベース(252;352;452;552)のエントリが前記オーディオ入力信号(110、112;212、214、216;311、316;411、416;512、514、516)を表すように決定するように構成され、
前記装置は、ユーザパラメータに応じて得られるオーディオ出力信号(218、219、313、318、319、342)に応じて、前記データベース(252;352;452;552)を、前記データベース(252;352;452;552)のエントリが前記オーディオ出力信号(218、219、313、318、319、342)を表すように決定するように構成され、
前記装置は、ユーザごとのやり方で調整されたオーディオ処理パラメータ(120;262;362;462;562)を得るべく、ユーザごとのやり方で前記処理パラメータ決定規則(140;250;350;450;550)を調整するために、前記装置によって得た前記データベース(252;352;452;552)に基づいて前記処理パラメータ決定規則(140;250;350;450;550)の前記少なくとも1つの係数(142;256;356;456;556)を調整するように構成される、装置(100;200;300;400;500)。
【請求項2】
前記装置は、ユーザによって調整されたユーザパラメータ(232;332;432、433;532)に応じて、前記データベース(252;352;452;552)を、前記データベース(252;352;452;552)のエントリが前記ユーザによって調整された前記ユーザパラメータ(232;332;432、433;532)を表すように決定するように構成される、請求項1に記載の装置(100;200;300;400;500)。
【請求項3】
前記装置は、前記データベース(252;352;452;552)を、前記データベース(252;352;452;552)が、異なるオーディオ入力信号(110、112;212、214、216;311、316;411、416;512、514、516)と前記ユーザによって調整されたそれぞれのユーザパラメータ(232;332;432、433;532)との間の割り当てを表すように決定するように構成される、請求項3に記載の装置(100;200;300;400;500)。
【請求項4】
前記装置は、前記データベース(252;352;452;552)を、前記データベース(252;352;452;552)が、異なるオーディオ出力信号(218、219、313、318、319、342)と前記ユーザによって調整されたそれぞれのユーザパラメータ(232;332;432、433;532)との間の割り当てを表すように決定するように構成される、請求項1~3のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項5】
前記装置は、前記データベース(252;352;452;552)に基づいて前記処理パラメータ決定規則(140;250;350;450;550)を提供または調整するように構成される、請求項1~7のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項6】
前記装置は、ユーザによって訂正および/または補正された少なくとも1つのオーディオ処理パラメータ(120;262;362;462;562)に基づいて前記処理パラメータ決定規則(140;250;350;450;550)の前記少なくとも1つの係数(142;256;356;456;556)を決定および/または調整するように構成される、請求項1~8のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項7】
前記装置は、ユーザごとのやり方で調整された前記オーディオ信号(217、218、219;313、317、318、319、342)を得るために、前記オーディオ入力信号(110、112;212、214、216;311、316;411、416;512、514、516)および前記オーディオ処理パラメータ(120;262;362;462;562)に基づいてオーディオ処理(220;320;420;520)を実行するように構成される、請求項1~9のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項8】
前記装置は、前記オーディオ入力信号(110、112;212、214、216;311、316;411、416;512、514、516)と前記オーディオ処理パラメータ(120;262;362;462;562)を使用することによって前記オーディオ処理(220;320;420;520)によって提供されるオーディオ出力信号(218、219、313、318、319、342)との比較を使用することによって、前記処理パラメータ決定規則(140;250;350;450;550)の前記係数(142;256;356;456;556)を決定するように構成される、請求項1~10のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項9】
前記装置は、前記オーディオ処理パラメータ(120;262;362;462;562)の代わりに出力量として前記ユーザによって調整された前記ユーザパラメータ(232;332;432、433;532)を提供するように構成され、前記ユーザによって調整された前記ユーザパラメータ(232;332;432、433;532)は、音量パラメータおよび/またはサウンドパラメータおよび/またはイコライザパラメータを含む、請求項1~11のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項10】
前記装置は、前記ユーザパラメータ(232;332;432、433;532)を前記オーディオ処理パラメータ(120;262;362;462;562)と組み合わせることで、前記オーディオ処理(220;320;420;520)の複合パラメータ(272;372;472、473、474;572、573)を得て、出力量として提供するように構成される、請求項1~12のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項11】
前記装置は、前記オーディオ入力信号(110、112;212、214、216;311、316;411、416;512、514、516)のオーディオ分析を実行して、処理パラメータ決定規則(140;250;350;450;550)の前記少なくとも1つの係数(142;256;356;456;556)を決定するためのオーディオ入力信号分析結果を提供するように構成される、請求項1~13のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項12】
前記装置は、前記オーディオ出力信号(342)のオーディオ分析を実行して、前記処理パラメータ決定規則(140;250;350;450;550)の前記少なくとも1つの係数(142;256;356;456;556)を決定するためのオーディオ出力信号分析結果を提供するように構成される、請求項1~14のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項13】
前記オーディオ処理パラメータ(120;262;362;462;562)は、少なくとも1つのマルチバンド圧縮パラメータRおよび/または少なくとも1つの聴覚しきい値調整パラメータTおよび/または少なくとも1つの帯域依存増幅パラメータGおよび/または少なくとも1つの妨害雑音低減パラメータおよび/または少なくとも1つのブラインドソース分離パラメータおよび/または少なくとも1つのサウンド方向パラメータおよび/または少なくとも1つのバイノーラルパラメータおよび/または適応フィルタの少なくとも1つのパラメータを含む、請求項1~15のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項14】
前記装置は、前記処理パラメータ決定規則(140;250;350;450;550)を使用することによって前記オーディオ処理パラメータ(120;262;362;462;562)を得るように構成された神経ネットワーク(260;360;460;560)を含む、請求項1~16のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項15】
前記装置は、前記オーディオ処理パラメータ(120;262;362;462;562)を決定するために強化学習法および/または教師なし学習法および/または多変量予測法および/または多変量回帰によって決定された多次元パラメータ空間に基づいて前記処理パラメータ決定規則(140;250;350;450;550)を提供および/または調整するように構成される、請求項1~14のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項16】
前記装置は、インターフェースから前記ユーザによって調整された前記ユーザパラメータ(232;332;432、433;532)を取得するように構成される、請求項1~18のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項17】
前記オーディオ入力信号(110、112;212、214、216;311、316;411、416;512、514、516)は、マルチチャネルオーディオ信号または少なくとも2つのオーディオチャネルを含む、請求項1~19のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項18】
前記装置は、前記オーディオ入力信号(110、112;212、214、216;311、316;411、416;512、514、516)の少なくとも4つの周波数帯域について個別にオーディオ処理(220;320;420;520)を実行するように構成される、請求項1~20のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項19】
前記装置は、リアルタイムで前記オーディオ処理パラメータ(120;262;362;462;562)を得るため、ならびに/あるいはリアルタイムで前記補正されたオーディオ処理パラメータ(120;262;362;462;562)を決定および/または調整するために、ユーザ操作の最中にユーザごとのやり方で前記処理パラメータ決定規則(140;250;350;450;550)の前記少なくとも1つの係数(142;256;356;456;556)を決定するように構成される、請求項1~21のいずれか一項に記載の装置(100;200;300;400;500)。
【請求項20】
オーディオ処理を含んでおり、
請求項1~19のいずれか一項に記載のオーディオ処理パラメータを決定するための装置を含んでおり、
前記オーディオ処理は、オーディオ入力信号を前記オーディオ処理パラメータに応じて処理するように構成されている、聴覚補助。
【請求項21】
少なくとも1つのオーディオ入力信号に応じてオーディオ処理パラメータを決定するための方法(600)であって、
ユーザごとのやり方で、ユーザ操作の最中に取得されたオーディオ信号に基づいて処理パラメータ決定規則の少なくとも1つの係数を決定することと、
前記オーディオ入力信号に基づいて前記処理パラメータ決定規則を使用することによってオーディオ処理パラメータを得ることと、
を含み、
データベース(252;352;452;552)が、前記少なくとも1つのオーディオ入力信号(110、112;212、214、216;311、316;411、416;512、514、516)に応じて、前記データベース(252;352;452;552)のエントリが前記オーディオ入力信号(110、112;212、214、216;311、316;411、416;512、514、516)を表すように決定され、
前記データベース(252;352;452;552)は、ユーザパラメータに応じて得られるオーディオ出力信号(218、219、313、318、319、342)に応じて、前記データベース(252;352;452;552)のエントリが前記オーディオ出力信号(218、219、313、318、319、342)を表すように決定され、
前記処理パラメータ決定規則(140;250;350;450;550)の前記少なくとも1つの係数(142;256;356;456;556)は、ユーザごとのやり方で調整されたオーディオ処理パラメータ(120;262;362;462;562)を得るべく、ユーザごとのやり方で前記処理パラメータ決定規則(140;250;350;450;550)を調整するために、前記装置によって得た前記データベース(252;352;452;552)に基づいて調整される、方法(600)。
【請求項22】
コンピュータ上で実行されたときに請求項21に記載の方法を実行するためのプログラムコードを有しているコンピュータプログラム。
【国際調査報告】