(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-05-17
(54)【発明の名称】プライバシー問題に対処するために処理されたオーディオ録音を取得するためにオーディオ入力録音を処理するための装置および方法
(51)【国際特許分類】
G10L 25/78 20130101AFI20240510BHJP
G10L 21/0272 20130101ALI20240510BHJP
G10L 17/00 20130101ALI20240510BHJP
G06F 21/62 20130101ALI20240510BHJP
G10L 15/10 20060101ALI20240510BHJP
【FI】
G10L25/78
G10L21/0272
G10L17/00 200C
G06F21/62 345
G10L15/10 200W
【審査請求】有
【予備審査請求】有
(21)【出願番号】P 2023562969
(86)(22)【出願日】2022-04-13
(85)【翻訳文提出日】2023-12-07
(86)【国際出願番号】 EP2022059951
(87)【国際公開番号】W WO2022219084
(87)【国際公開日】2022-10-20
(32)【優先日】2021-04-14
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】500341779
【氏名又は名称】フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100085660
【氏名又は名称】鈴木 均
(74)【代理人】
【識別番号】100149892
【氏名又は名称】小川 弥生
(74)【代理人】
【識別番号】100185672
【氏名又は名称】池田 雅人
(72)【発明者】
【氏名】レニーズ―ホクマス,ヤン
(72)【発明者】
【氏名】ホルージ,ダニロ
(72)【発明者】
【氏名】ロールウェッジ,クリスティアン
(72)【発明者】
【氏名】アッペル,イェンス―エッケハルト
(57)【要約】
一実施形態による、処理されたオーディオ録音を取得するためにオーディオ入力録音を処理するための装置が提供される。装置が、オーディオ入力録音の複数のオーディオ入力部分を受信するための入力インタフェース(110)を備える。さらに、装置が、処理されたオーディオ録音を取得するために、オーディオ入力録音の複数のオーディオ入力部分を処理するためのプロセッサ(120)を備える。プロセッサ(120)が、複数のオーディオ入力部分のうちのオーディオ入力部分が音声を含むか否かを判定するように構成される。プロセッサ(120)が、オーディオ入力部分が音声を含むことを検出した場合、プロセッサ(120)が、オーディオ入力部分を修正して修正されたオーディオ部分を取得することによって、および処理されたオーディオ録音がオーディオ入力部分の代わりに修正されたオーディオ部分を含むように、処理されたオーディオ録音を生成することによって、処理されたオーディオ録音を生成するように構成される。あるいは、プロセッサ(120)が、オーディオ入力部分が音声を含むことを検出した場合、プロセッサ(120)が、処理されたオーディオ録音がオーディオ入力部分を含まないように、処理されたオーディオ録音を生成するように構成される。
【選択図】
図1
【特許請求の範囲】
【請求項1】
処理されたオーディオ録音を取得するためにオーディオ入力録音を処理するための装置であって、前記装置が、
前記オーディオ入力録音の複数のオーディオ入力部分を受信するための入力インタフェースと、
前記オーディオ入力録音の複数のオーディオ入力部分を処理して、処理されたオーディオ録音を取得するためのプロセッサと、を備え、
前記プロセッサが、前記複数のオーディオ入力部分のうちのオーディオ入力部分が音声を含むか否かを判定するように構成され、
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出した場合、前記プロセッサが、前記オーディオ入力部分を修正して修正されたオーディオ部分を取得することによって、および前記処理されたオーディオ録音が前記オーディオ入力部分の代わりに前記修正されたオーディオ部分を含むように、前記処理されたオーディオ録音を生成することによって、前記処理されたオーディオ録音を生成するように構成されている、または、
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出した場合、前記プロセッサが、前記処理されたオーディオ録音が前記オーディオ入力部分を含まないように、前記処理されたオーディオ録音を生成するように構成されている、装置。
【請求項2】
前記プロセッサが、前記オーディオ入力部分が音声を含まないことを検出した場合、前記プロセッサが、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、前記処理されたオーディオ録音を生成するように構成されている、
請求項1に記載の装置。
【請求項3】
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出した場合、かつ前記オーディオ入力部分が第1の処理規則に従って処理されるべきである場合、前記プロセッサが、前記処理されたオーディオ録音が前記オーディオ入力部分を含まないように、前記処理されたオーディオ録音を生成するように構成されている、
請求項1または2に記載の装置。
【請求項4】
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出し、かつ前記オーディオ入力部分が第2の処理規則に従って処理されるべきである場合、前記プロセッサが、前記修正されたオーディオ部分内の前記音声が理解できないように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されている、
請求項1から3のいずれか一項に記載の装置。
【請求項5】
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出し、かつ前記オーディオ入力部分が第3の処理規則に従って処理されるべきである場合、前記プロセッサが、前記音声が前記オーディオ入力部分からフィルタリングされるように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されている、
請求項1から4のいずれか一項に記載の装置。
【請求項6】
前記プロセッサが、非音声成分のみが前記オーディオ録音の前記処理された部分に残るように、音源分離概念を使用することによって前記音声が前記オーディオ入力部分からフィルタリングされるように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されている、
請求項5に記載の装置。
【請求項7】
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出し、かつ前記オーディオ入力部分が第4の処理規則に従って処理されるべきである場合、前記プロセッサが、前記修正されたオーディオ部分における前記音声が理解可能なままであるが、前記修正されたオーディオ部分を分析することによって前記音声の話者を識別することがもはや不可能であるように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されている、
請求項1から6のいずれか一項に記載の装置。
【請求項8】
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出し、かつ前記オーディオ入力部分が第5の処理規則に従って処理されるべきである場合、
前記プロセッサが、話者識別および/または自動音声認識および/または声フィルタリングを使用することによって前記処理されたオーディオ録音を生成するように構成され、その結果、前記音声が以前に識別された話者または前記装置を訓練した話者にから発せられる場合、前記音声が前記修正されたオーディオ部分で理解可能なままであり、そうでなければ、前記処理されたオーディオ録音が前記オーディオ入力部分を含まず、または前記修正されたオーディオ部分が、以前に識別された前記話者からの、または前記装置を訓練した前記話者からの音声のみが理解可能であるように、声フィルタを使用して生成される、または、
前記プロセッサが、話者識別および/または自動音声認識および/または声フィルタリングを使用することによって前記処理されたオーディオ録音を生成するように構成され、その結果、前記音声が以前に識別された話者または前記装置を訓練した話者から発せられる場合、前記処理されたオーディオ録音が前記オーディオ入力部分を含まないか、または前記修正されたオーディオ部分が声フィルタを使用して生成され、その結果、以前に識別された前記話者または前記装置を訓練した前記話者からの前記音声が理解できず、そうでなければ、前記音声が前記修正されたオーディオ部分において理解可能なままである、
請求項1から7のいずれか一項に記載の装置。
【請求項9】
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出し、かつ前記オーディオ入力部分が第6の処理規則に従って処理されるべきである場合、
前記プロセッサが、前記オーディオ入力部分における前記音声が事前定義された第1のキーワードを含む場合にのみ、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、自動音声認識を使用することによって前記処理されたオーディオ録音を生成するように構成されており、および/または、
前記プロセッサが、前記オーディオ入力部分における前記音声が事前定義された第2のキーワードを含まない場合にのみ、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、自動音声認識を使用することによって前記処理されたオーディオ録音を生成するように構成されており、および/または、
前記プロセッサが、前記オーディオ入力部分における前記音声が名前を含まない場合にのみ、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、自動音声認識を使用することによって前記処理されたオーディオ録音を生成するように構成されている、
請求項1から8のいずれか一項に記載の装置。
【請求項10】
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出し、かつ前記オーディオ入力部分が第7の処理規則に従って処理されるべきである場合、前記プロセッサが、前記オーディオ入力部分における前記音声の理解度を示す値を決定するように構成され、前記プロセッサが、前記理解度を示す前記値に応じて、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、前記処理されたオーディオ録音を生成するように構成されている、
請求項1から9のいずれか一項に記載の装置。
【請求項11】
前記プロセッサが、前記値を閾値と比較する閾値テストを実行して、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、前記処理されたオーディオ録音を生成するか否かを判定するように構成されている、
請求項10に記載の装置。
【請求項12】
前記プロセッサが、処理規則のグループのうちの1つ目に従って前記オーディオ入力部分を処理するように構成され、前記処理規則のグループが、第1の処理規則および第2の処理および第3の処理規則および第4の処理規則および第5の処理規則および第6の処理規則および第7の処理規則のうちの少なくとも2つを含む、
前記プロセッサが、前記処理規則のグループのうちの2つ目に従って前記複数のオーディオ入力部分のうちの別の1つを処理するように構成され、前記処理規則のグループのうちの前記2つ目が、前記処理規則のグループのうちの前記1つ目とは異なり、
前記第1の処理規則に従って、前記プロセッサが、前記処理されたオーディオ録音が前記オーディオ入力部分を含まないように、前記処理されたオーディオ録音を生成するように構成され、
前記第2の処理規則に従って、前記プロセッサが、前記修正されたオーディオ部分内の前記音声が理解できないように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されており、
前記第3の処理規則に従って、前記プロセッサが、前記音声が前記オーディオ入力部分からフィルタリングされるように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されており、
前記第4の処理規則に従って、前記プロセッサが、前記修正されたオーディオ部分内の前記音声が理解可能なままであるが、前記修正されたオーディオ部分を分析することによって前記音声の話者をもはや識別することができないように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されており、
前記第5の処理規則に従って、前記プロセッサが、前記音声が以前に識別された話者または前記装置を訓練した話者から発せられる場合、前記音声が前記修正されたオーディオ部分において理解可能なままであるように、話者識別および/または自動音声認識および/または声フィルタリングを使用することによって前記処理されたオーディオ録音を生成するように構成されており、そうでなければ、前記処理されたオーディオ録音が前記オーディオ入力部分を含まず、または前記修正されたオーディオ部分が、以前に識別された前記話者からの、または前記装置を訓練した前記話者からの音声のみが理解可能であるように、声フィルタを使用して生成され、または、前記プロセッサが、話者識別および/または自動音声認識および/または声フィルタリングを使用することによって前記処理されたオーディオ録音を生成するように構成され、その結果、前記音声が以前に識別された話者または前記装置を訓練した話者から発せられる場合、前記処理されたオーディオ録音が前記オーディオ入力部分を含まないか、または前記修正されたオーディオ部分が声フィルタを使用して生成され、その結果、前記以前に識別された話者または前記装置を訓練した前記話者からの前記音声が理解できず、そうでなければ、前記音声が前記修正されたオーディオ部分において理解可能なままであり、
前記第6の処理規則に従って、前記プロセッサが、前記オーディオ入力部分における前記音声が事前定義された第1のキーワードを含む場合にのみ、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、自動音声認識を用いることによって前記処理されたオーディオ録音を生成するように構成されており、および/または、前記プロセッサが、前記オーディオ入力部分における前記音声が事前定義された第2のキーワードを含まない場合にのみ、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、自動音声認識を用いることによって前記処理されたオーディオ録音を生成するように構成されており、および/または前記プロセッサが、前記オーディオ入力部分における前記音声が名前を含まない場合にのみ、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、自動音声認識を用いることによって前記処理されたオーディオ録音を生成するように構成されており、および、
前記第7の処理規則に従って、前記プロセッサが、前記オーディオ入力部分における前記音声の理解度を示す値を決定するように構成されており、前記プロセッサが、前記理解度を示す前記値に応じて、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、前記処理されたオーディオ録音を生成するように構成されている、
請求項1から11のいずれか一項に記載の装置。
【請求項13】
前記装置がユーザインタフェースを含み、前記ユーザインタフェースが、第1の処理規則および第2の処理および第3の処理規則および第4の処理規則および第5の処理規則および第6の処理規則および第7の処理規則のうちの少なくとも2つを含む処理規則のグループから処理規則を選択するための手段をユーザに提供するように構成されており、
前記プロセッサが、前記ユーザによって選択された前記処理規則に従って前記オーディオ入力部分を処理するように構成されており、
前記第1の処理規則に従って、前記プロセッサが、前記処理されたオーディオ録音が前記オーディオ入力部分を含まないように、前記処理されたオーディオ録音を生成するように構成されており、
前記第2の処理規則に従って、前記プロセッサが、前記修正されたオーディオ部分内の前記音声が理解できないように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されており、
前記第3の処理規則に従って、前記プロセッサが、前記音声が前記オーディオ入力部分からフィルタリングされるように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されており、
前記第4の処理規則に従って、前記プロセッサが、前記修正されたオーディオ部分内の前記音声が理解可能なままであるが、前記修正されたオーディオ部分を分析することによって前記音声の話者をもはや識別することができないように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されており、
前記第5の処理規則に従って、前記プロセッサが、前記音声が以前に識別された話者または前記装置を訓練した話者から発せられる場合、前記音声が前記修正されたオーディオ部分において理解可能なままであるように、話者識別および/または自動音声認識および/または声フィルタリングを使用することによって前記処理されたオーディオ録音を生成するように構成されており、そうでなければ、前記処理されたオーディオ録音が前記オーディオ入力部分を含まず、または前記修正されたオーディオ部分が、以前に識別された前記話者からの、または前記装置を訓練した前記話者からの音声のみが理解可能であるように、声フィルタを使用して生成され、または、前記プロセッサが、話者識別および/または自動音声認識および/または声フィルタリングを使用することによって前記処理されたオーディオ録音を生成するように構成され、その結果、前記音声が以前に識別された話者または装置を訓練した話者から発せられる場合、前記処理されたオーディオ録音が前記オーディオ入力部分を含まないか、または前記修正されたオーディオ部分が声フィルタを使用して生成され、その結果、以前に識別された前記話者または前記装置を訓練した前記話者からの前記音声が理解できず、そうでなければ、前記音声が前記修正されたオーディオ部分において理解可能なままであり、
前記第6の処理規則に従って、前記プロセッサが、前記オーディオ入力部分における前記音声が事前定義された第1のキーワードを含む場合にのみ、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、自動音声認識を用いることによって前記処理されたオーディオ録音を生成するように構成されており、および/または、前記プロセッサが、前記オーディオ入力部分における前記音声が事前定義された第2のキーワードを含まない場合にのみ、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、自動音声認識を用いることによって前記処理されたオーディオ録音を生成するように構成されており、および/または前記プロセッサが、前記オーディオ入力部分における前記音声が名前を含まない場合にのみ、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、自動音声認識を用いることによって前記処理されたオーディオ録音を生成するように構成されており、および、
前記第7の処理規則に従って、前記プロセッサが、前記オーディオ入力部分における前記音声の理解度を示す値を決定するように構成されており、前記プロセッサが、前記理解度を示す前記値に応じて、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、前記処理されたオーディオ録音を生成するように構成されている、
請求項1から12のいずれか一項に記載の装置。
【請求項14】
前記処理規則のグループが、前記第1の処理規則および前記第2の処理および前記第3の処理規則および前記第4の処理規則および前記第5の処理規則および前記第6の処理規則および前記第7の処理規則のうちの少なくとも3つを含み、または、
前記処理規則のグループが、前記第1の処理規則および前記第2の処理および前記第3の処理規則および前記第4の処理規則および前記第5の処理規則および前記第6の処理規則および前記第7の処理規則のうちの少なくとも4つを含み、または、
前記処理規則のグループが、前記第1の処理規則および前記第2の処理および前記第3の処理規則および前記第4の処理規則および前記第5の処理規則および前記第6の処理規則および前記第7の処理規則のうちの少なくとも5つを含み、または、
前記処理規則のグループが、前記第1の処理規則および前記第2の処理および前記第3の処理規則および前記第4の処理規則および前記第5の処理規則および前記第6の処理規則および前記第7の処理規則のうちの少なくとも6つを含み、または、
前記処理規則のグループが、前記第1の処理規則および前記第2の処理および前記第3の処理規則および前記第4の処理規則および前記第5の処理規則および前記第6の処理規則および前記第7の処理規則を含む、
請求項12または13に記載の装置。
【請求項15】
前記プロセッサが、機械学習音声アクティビティ検出を使用して、前記オーディオ入力部分が音声を含むか否かを判定するように構成されている、
請求項1から14のいずれか一項に記載の装置。
【請求項16】
前記プロセッサが、前記処理されたオーディオ録音をメモリに記憶するように構成されている、
請求項1から15のいずれか一項に記載の装置。
【請求項17】
前記装置が、前記メモリを備える、
請求項16に記載の装置。
【請求項18】
前記プロセッサが、前記オーディオ入力部分を前記メモリに記憶するように構成され、
前記プロセッサが、
第1の処理規則に従って、または第2の処理に従って、または第3の処理規則に従って、または第4の処理規則に従って、または第5の処理規則に従って、または第6の処理規則に従って、または第7の処理規則に従って、前記オーディオ入力部分を処理するように構成され、
前記プロセッサが、前記処理に応じて、前記メモリ内の前記オーディオ入力部分を前記修正されたオーディオ部分に置換するか、または置換することなく前記メモリから前記オーディオ入力部分を除去するように構成され、
前記第1の処理規則に従って、前記プロセッサが、前記処理されたオーディオ録音が前記オーディオ入力部分を含まないように、前記処理されたオーディオ録音を生成するように構成され、
前記第2の処理規則に従って、前記プロセッサが、前記修正されたオーディオ部分内の前記音声が理解できないように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されており、
前記第3の処理規則に従って、前記プロセッサが、前記音声が前記オーディオ入力部分からフィルタリングされるように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されており、
前記第4の処理規則に従って、前記プロセッサが、前記修正されたオーディオ部分内の前記音声が理解可能なままであるが、前記修正されたオーディオ部分を分析することによって前記音声の話者をもはや識別することができないように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されており、
前記第5の処理規則に従って、前記プロセッサが、前記音声が以前に識別された話者または前記装置を訓練した話者から発せられる場合、前記音声が前記修正されたオーディオ部分において理解可能なままであるように、話者識別および/または自動音声認識および/または声フィルタリングを使用することによって前記処理されたオーディオ録音を生成するように構成されており、そうでなければ、前記処理されたオーディオ録音が前記オーディオ入力部分を含まず、または前記修正されたオーディオ部分が、以前に識別された前記話者からの、または前記装置を訓練した前記話者からの音声のみが理解可能であるように、声フィルタを使用して生成され、または、前記プロセッサが、話者識別および/または自動音声認識および/または声フィルタリングを使用することによって前記処理されたオーディオ録音を生成するように構成され、その結果、前記音声が以前に識別された話者または前記装置を訓練した話者から発せられる場合、前記処理されたオーディオ録音が前記オーディオ入力部分を含まないか、または前記修正されたオーディオ部分が声フィルタを使用して生成され、その結果、以前に識別された前記話者または前記装置を訓練した前記話者からの前記音声が理解できず、そうでなければ、前記音声が前記修正されたオーディオ部分において理解可能なままであり、
前記第6の処理規則に従って、前記プロセッサが、前記オーディオ入力部分における前記音声が事前定義された第1のキーワードを含む場合にのみ、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、自動音声認識を用いることによって前記処理されたオーディオ録音を生成するように構成されており、および/または、前記プロセッサが、前記オーディオ入力部分における前記音声が事前定義された第2のキーワードを含まない場合にのみ、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、自動音声認識を用いることによって前記処理されたオーディオ録音を生成するように構成されており、および/または前記プロセッサが、前記オーディオ入力部分における前記音声が名前を含まない場合にのみ、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、自動音声認識を用いることによって前記処理されたオーディオ録音を生成するように構成されており、および、
前記第7の処理規則に従って、前記プロセッサが、前記オーディオ入力部分における前記音声の理解度を示す値を決定するように構成されており、前記プロセッサが、前記理解度を示す前記値に応じて、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、前記処理されたオーディオ録音を生成するように構成されている、
請求項16に記載の装置。
【請求項19】
前記プロセッサが、メタデータを決定するように構成され、前記メタデータが、前記オーディオ入力部分に存在する話者の数を示し、および/または、前記メタデータが、話者が男性であるか女性であるかを示し、および/または、前記メタデータが、背景音が存在するか否かを示し、および/または、前記メタデータが、どの種類の背景音が存在するかを示し、および/または、前記メタデータが、前記オーディオ入力録音の削除された部分または分離された部分を示す、
請求項1から18のいずれか一項に記載の装置。
【請求項20】
前記メタデータが、前記オーディオ入力録音の前記削除された部分または分離された部分が削除された、または分離された理由を示す、
請求項19に記載の装置。
【請求項21】
前記装置が、音声が検出されたか否かを、ディスプレイを使用することによって、および/または音響信号を使用することによって、および/または光信号を使用することによって、および/または触覚信号を使用することによって、および/または電子信号を使用することによってシグナリングするように構成された音声シグナリング出力モジュールを備える、
請求項1から20のいずれか一項に記載の装置。
【請求項22】
前記装置が、前記オーディオ入力録音を処理するための処理規則が適用されるかどうかをシグナリングするように、および/または、前記オーディオ入力録音を処理するための複数の処理規則のうちのどれが適用されるか、および/または、オーディオ入力録音を処理するための複数の処理規則のうちのどれが適用されないかをシグナリングするように構成された処理シグナリング出力モジュールを備え、
前記処理シグナリング出力モジュールが、前記シグナリングのために、ディスプレイを使用するように、および/または音響信号を使用するように、および/または光信号を使用するように、および/または触覚信号を使用するように、および/または電子信号を使用するように構成されている、
請求項1から21のいずれか一項に記載の装置。
【請求項23】
前記装置が、前記修正されたオーディオ録音が記憶されるときにプライバシーを保証するためにどのステップがとられるべきかをユーザが入力することを可能にするように構成された入力デバイスをさらに備える、
請求項1から22のいずれか一項に記載の装置。
【請求項24】
前記装置は、公共環境で使用されるように適合されている、
請求項1から23のいずれか一項に記載の装置。
【請求項25】
処理されたオーディオ録音を取得するためにオーディオ入力録音を処理するための方法であって、前記方法が、
前記オーディオ入力録音の複数のオーディオ入力部分を受信することと、
前記オーディオ入力録音の複数のオーディオ入力部分を処理して、処理されたオーディオ録音を取得することと、を含み、
複数のオーディオ入力部分を処理することが、
前記複数のオーディオ入力部分のうちのオーディオ入力部分が音声を含むか否かを判定することを含み、
前記オーディオ入力部分が音声を含むことが検出された場合、前記オーディオ入力部分を修正して修正されたオーディオ部分を取得し、前記処理されたオーディオ録音が前記オーディオ入力部分の代わりに前記修正されたオーディオ部分を含むように、前記処理されたオーディオ録音を生成することによって、前記処理されたオーディオ録音が生成され、または、前記オーディオ入力部分が音声を含むことが検出された場合、前記処理されたオーディオ録音が前記オーディオ入力部分を含まないように、前記処理されたオーディオ録音が生成される、方法。
【請求項26】
コンピュータ上で実行されると、請求項25に記載の方法を実行する命令を記憶するコンピュータ可読媒体を備える、非一時的コンピュータプログラム製品。
【請求項27】
前記方法がコンピュータまたは信号プロセッサ上で実施される場合、請求項25に記載の方法を実施するためのコンピュータプログラム。
【請求項28】
マイクロフォンであって、
請求項1から24のいずれか一項に記載の装置が統合された、マイクロフォン。
【請求項29】
特定用途向け集積回路であって、
請求項1から24のいずれか一項に記載の装置が統合された、特定用途向け集積回路。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ入力録音を処理して処理されたオーディオ録音を取得するための装置および方法に関する。特に、本発明は、プライバシーの側面に適切に対処するようにオーディオ入力録音を処理することに関する。
【背景技術】
【0002】
公共空間における音響記録は、例えば自動運転、生態学的監視、ノイズ監視、セキュリティ関連施設または生産施設のためのこれらの録音の実際の必要性にもかかわらず、議論の的となっている。特に保護可能なエンティティとしての音声は、状況に応じて特に保護されなければならない。
プライバシーの懸念に対処しながら、外部音を録音するのに適した録音手段(例えば、自動車分野の録音手段)が提供されることが望ましい。
例えば、車両の外部マイクロフォンが考慮される場合、歩行者の音声も、例えば外部音を録音するそのような録音手段によって録音され得るので、データ保護およびプライバシーの懸念に適切に対処するものとする。
現時点では、音声の存在についてオーディオ録音を調査し、プライバシーの懸念に対処するために、または音声を理解できないようにするために音声をフィルタリングするための対策を講じる従来技術の概念は知られていない。
従来技術は技術的解決策を提供していないので、今日のプライバシーの保証は通常、組織的手段によって行われる。(録音が行われているという警告サイン、同意の宣言、第三者が存在しないことの保証、倫理委員会によって適切であると認められたアクセス権を研究者のみが持っている、厳密に保護されたドライブにのみデータを記憶することこと)または広範な手動の後処理によって行われる。
Bitzerら[1]は、そのような録音から理解可能な音声を復元できないように、非常に低い解像度でオーディオ録音を録音する方法を提案している。そのような方法は、プライバシーを保証するが、音声アクティビティを示さないオーディオ信号部分も修正され、その結果、そのような録音のさらなる処理は有用ではないか、または使用が制限される。
上記から開始して、プライバシーの側面が適切に対処されるように、処理されたオーディオ録音を取得するためにオーディオ入力録音を処理することに関する改善または強化が必要とされている。
【発明の概要】
【発明が解決しようとする課題】
【0003】
一実施形態による、処理されたオーディオ録音を取得するためにオーディオ入力録音を処理するための装置が提供される。
【課題を解決するための手段】
【0004】
装置は、オーディオ入力録音の複数のオーディオ入力部分を受信するための入力インタフェースを備える。さらに、装置は、処理されたオーディオ録音を取得するために、オーディオ入力録音の複数のオーディオ入力部分を処理するためのプロセッサを備える。プロセッサは、複数のオーディオ入力部分のうちのオーディオ入力部分が音声を含むか否かを判定するように構成される。プロセッサが、オーディオ入力部分が音声を含むことを検出した場合、プロセッサは、オーディオ入力部分を修正して修正されたオーディオ部分を取得することによって、および処理されたオーディオ録音がオーディオ入力部分の代わりに修正されたオーディオ部分を含むように、処理されたオーディオ録音を生成することによって、処理されたオーディオ録音を生成するように構成される。あるいは、プロセッサが、オーディオ入力部分が音声を含むことを検出した場合、プロセッサは、処理されたオーディオ録音がオーディオ入力部分を含まないように、処理されたオーディオ録音を生成するように構成される。
【0005】
さらに、一実施形態による、処理されたオーディオ録音を取得するためにオーディオ入力録音を処理するための方法が提供される。本方法は、
-オーディオ入力録音の複数のオーディオ入力部分を受信することと、
-オーディオ入力録音の複数のオーディオ入力部分を処理して、処理されたオーディオ録音を取得することと、を含む。
複数のオーディオ入力部分を処理することは、
-複数のオーディオ入力部分のうちのオーディオ入力部分が音声を含むか否かを判定することを含み、
-オーディオ入力部分が音声を含むことが検出された場合、処理されたオーディオ録音は、オーディオ入力部分を修正して修正されたオーディオ部分を取得することと、処理されたオーディオ録音がオーディオ入力部分の代わりに修正されたオーディオ部分を含むように、処理されたオーディオ録音を生成することとによって生成される。あるいは、オーディオ入力部分が音声を含むことが検出された場合、処理されたオーディオ録音がオーディオ入力部分を含まないように、処理されたオーディオ録音が生成される。
【0006】
さらに、一実施形態によれば、コンピュータ上で実行されると、上述の方法を実行する命令を記憶するコンピュータ可読媒体を含む非一時的コンピュータプログラム製品が提供される。
さらに、方法がコンピュータまたは信号プロセッサ上で実施される場合、上述の方法を実施するためのコンピュータプログラムが提供される。
さらに、一実施形態によるマイクロフォンが提供され、上述の装置はマイクロフォンに統合される。
さらに、一実施形態による特定用途向け集積回路が提供され、上述の装置は特定用途向け集積回路に統合される。
さらなる特定の実施形態は、従属請求項に提供される。
【図面の簡単な説明】
【0007】
【
図1】一実施形態による、処理されたオーディオ録音を取得するためにオーディオ入力録音を処理するための装置を示す図である。
【
図2】装置がユーザインタフェースをさらに備える、一実施形態による装置を示す図である。
【
図3】装置がメモリをさらに備える、一実施形態による装置を示す図である。
【
図4】装置が音声シグナリング出力モジュールをさらに備える、一実施形態による装置を示す図である。
【
図5】装置が処理シグナリング出力モジュールをさらに備える、一実施形態による装置を示す図である。
【
図6】装置が入力デバイスをさらに備える、一実施形態による装置を示す図である。
【発明を実施するための形態】
【0008】
ここで、本発明の実施形態を添付の図面を参照してより詳細に説明するが、同じまたは類似の要素には同じ参照符号が割り当てられている。
図1は、一実施形態による、処理されたオーディオ録音を取得するためにオーディオ入力録音を処理するための装置を示す図である。
装置は、オーディオ入力録音の複数のオーディオ入力部分を受信するための入力インタフェース110を備える。
さらに、装置は、処理されたオーディオ録音を取得するために、オーディオ入力録音の複数のオーディオ入力部分を処理するためのプロセッサ120を備える。
プロセッサ120は、複数のオーディオ入力部分のうちのオーディオ入力部分が音声を含むか否かを判定するように構成される。
オーディオ入力部分が音声を含むことをプロセッサ120が検出した場合、プロセッサ120は、オーディオ入力部分を修正して修正されたオーディオ部分を取得することによって、および処理されたオーディオ録音がオーディオ入力部分の代わりに修正されたオーディオ部分を含むように、処理されたオーディオ録音を生成することによって、処理されたオーディオ録音を生成するように構成される。
あるいは、プロセッサ120が、オーディオ入力部分が音声を含むことを検出した場合、プロセッサ120は、処理されたオーディオ録音がオーディオ入力部分を含まないように、処理されたオーディオ録音を生成するように構成される。
【0009】
一実施形態によれば、プロセッサ120は、例えば、オーディオ入力部分が音声を含むか否かの判定の結果を別のアプリケーションに出力し得る。
一実施形態では、プロセッサ120が、オーディオ入力部分が音声を含まないことを検出した場合、プロセッサ120は、例えば、処理されたオーディオ録音がオーディオ入力部分を含むように、処理されたオーディオ録音を生成するように構成されてもよい。一実施形態によれば、プロセッサ120は、例えば、処理されたオーディオ録音に対して後処理を実行して、後処理されたオーディオ録音を取得するように構成されてもよい。例えば、プロセッサ120は、例えば、処理されたオーディオ録音を再サンプリングして、後処理されたオーディオ録音を取得するように構成されてもよい。
【0010】
一実施形態によれば、プロセッサ120が、オーディオ入力部分が音声を含むことを検出し、オーディオ入力部分が第1の処理規則に従って処理されるべきである場合、プロセッサ120は、例えば、処理されたオーディオ録音がオーディオ入力部分を含まないように、処理されたオーディオ録音を生成するように構成されてもよい。
一実施形態では、オーディオ入力部分が音声を含むことをプロセッサ120が検出した場合、およびオーディオ入力部分が第2の処理規則に従って処理されるべきである場合、プロセッサ120は、例えば、修正されたオーディオ部分内の音声が理解できないように、オーディオ入力部分を修正して修正されたオーディオ部分を取得するように構成されてもよい。
一実施形態によれば、オーディオ入力部分が音声を含むことをプロセッサ120が検出した場合、およびオーディオ入力部分が第3の処理規則に従って処理されるべきである場合、プロセッサ120は、例えば、音声がオーディオ入力部分からフィルタリングされるように、オーディオ入力部分を修正して修正されたオーディオ部分を取得するように構成されてもよい。
一実施形態では、プロセッサ120は、例えば、オーディオ録音の処理された部分に非音声成分のみが残るように、音源分離概念を使用することによって音声がオーディオ入力部分からフィルタリングされるように、オーディオ入力部分を修正して修正されたオーディオ部分を取得するように構成されてもよい。
【0011】
一実施形態によれば、プロセッサ120が、オーディオ入力部分が音声を含むことを検出し、かつオーディオ入力部分が第4の処理規則に従って処理されるべきである場合、プロセッサ120は、例えば、修正されたオーディオ部分における音声が理解可能なままであるが、修正されたオーディオ部分を分析することによって音声の話者をもはや識別することができないように、オーディオ入力部分を修正して修正されたオーディオ部分を取得するように構成されてもよい。
一実施形態では、オーディオ入力部分が音声を含むことをプロセッサ120が検出し、オーディオ入力部分が第5の処理規則に従って処理されるべきである場合、プロセッサ120は、例えば、音声が以前に識別された話者または装置を訓練した話者から発せられる場合、音声が修正されたオーディオ部分で理解可能なままであるように、話者識別および/または自動音声認識および/または声フィルタリングを使用することによって処理されたオーディオ録音を生成するように構成され得り、そうでなければ、処理されたオーディオ録音はオーディオ入力部分を含まず、または修正されたオーディオ部分は、以前に識別された話者または装置を訓練した話者からの音声のみが理解できるように、声フィルタを使用して生成される。あるいは、プロセッサ120は、例えば、話者識別および/または自動音声認識および/または声フィルタリングを使用することによって処理された処理されたオーディオ録音を生成するように構成されてもよく、その結果、音声が以前に識別された話者または装置を訓練した話者から発せられる場合、処理されたオーディオ録音はオーディオ入力部分を含まないか、または修正されたオーディオ部分は声フィルタを使用して生成され、その結果、以前に識別された話者または装置を訓練した話者からの音声は理解できず、そうでなければ、音声は修正されたオーディオ部分において理解可能なままである。
【0012】
一実施形態によれば、オーディオ入力部分が音声を含むことをプロセッサ120が検出した場合、およびオーディオ入力部分が第6の処理規則に従って処理されるべきである場合、プロセッサ120は、例えば、オーディオ入力部分における音声が事前定義された第1のキーワードを含む場合にのみ処理されたオーディオ録音がオーディオ入力部分を含むように、自動音声認識を使用することによって処理されたオーディオ録音を生成するように構成されてもよい。および/またはプロセッサ120は、例えば、オーディオ入力部分における音声が事前定義された第2のキーワードを含まない場合にのみ、処理されたオーディオ録音がオーディオ入力部分を含むように、自動音声認識を使用することによって処理されたオーディオ録音を生成するように構成されてもよい。および/またはプロセッサ120は、例えば、オーディオ入力部分内の音声が名前を含まない場合にのみ、処理されたオーディオ録音がオーディオ入力部分を含むように、自動音声認識を使用することによって処理されたオーディオ録音を生成するように構成されてもよい。
【0013】
一実施形態では、プロセッサ120が、オーディオ入力部分が音声を含むことを検出した場合、およびオーディオ入力部分が第7の処理規則に従って処理されるべきである場合、プロセッサ120は、例えば、オーディオ入力部分における音声の理解度を示す値を決定するように構成されてもよく、プロセッサ120は、例えば、理解度を示す当該値に応じて、処理されたオーディオ録音がオーディオ入力部分を含むように、処理されたオーディオ録音を生成するように構成されてもよい。
一実施形態によれば、プロセッサ120は、例えば、当該値を閾値と比較する閾値テストを実行して、処理されたオーディオ録音がオーディオ入力部分を含むように、処理されたオーディオ録音を生成するか否かを判定するように構成されてもよい。
一実施形態では、プロセッサ120は、例えば、処理規則のグループのうちの1つ目に従ってオーディオ入力部分を処理するように構成されてもよく、処理規則のグループは、例えば、第1の処理規則、および第2の処理規則、および第3の処理規則、および第4の処理規則、および第5の処理規則、および第6の処理規則、および第7の処理規則のうちの少なくとも2つを含んでもよい。プロセッサ120は、例えば、処理規則のグループのうちの2つ目に従って複数のオーディオ入力部分のうちの別のオーディオ入力部分を処理するように構成されてもよく、処理規則のグループのうちの2つ目は、例えば、処理規則のグループのうちの1つ目と異なっていてもよい。
【0014】
図2は、一実施形態による装置を示し、装置は、ユーザインタフェース115をさらに備える。ユーザインタフェース115は、ユーザが処理規則のグループから処理規則を選択するための手段を提供するように構成され、処理規則のグループは、例えば、第1の処理規則および第2の処理規則および第3の処理規則および第4の処理規則および第5の処理規則および第6の処理規則および第7の処理規則のうちの少なくとも2つを含み得る。プロセッサ120は、ユーザによって選択された処理規則に従ってオーディオ入力部分を処理するように構成される。
一実施形態によれば、処理規則のグループは、例えば、第1の処理規則および第2の処理および第3の処理規則および第4の処理規則および第5の処理規則および第6の処理規則および第7の処理規則のうちの少なくとも3つを含み得る。
一実施形態では、処理規則のグループは、例えば、第1の処理規則および第2の処理および第3の処理規則および第4の処理規則および第5の処理規則および第6の処理規則および第7の処理規則のうちの少なくとも4つを含み得る。
一実施形態によれば、処理規則のグループは、例えば、第1の処理規則および第2の処理および第3の処理規則および第4の処理規則および第5の処理規則および第6の処理規則および第7の処理規則のうちの少なくとも5つを含み得る。
一実施形態では、処理規則のグループは、例えば、第1の処理規則および第2の処理および第3の処理規則および第4の処理規則および第5の処理規則および第6の処理規則および第7の処理規則のうちの少なくとも6つを含み得る。
一実施形態によれば、処理規則のグループは、例えば、第1の処理規則および第2の処理および第3の処理規則および第4の処理規則および第5の処理規則および第6の処理規則および第7の処理規則を含み得る。
一実施形態では、プロセッサ120は、例えば、機械学習音声アクティビティ検出を使用して、オーディオ入力部分が音声を含むか否かを判定するように構成され得る。
一実施形態によれば、プロセッサ120は、例えば、処理されたオーディオ録音をメモリ130に記憶するように構成されてもよい。
【0015】
図3は、一実施形態による装置を示し、装置は、メモリ130をさらに備える。
一実施形態では、プロセッサ120は、例えば、オーディオ入力部分をメモリ130に記憶するように構成されてもよい。プロセッサ120は、例えば、第1の処理規則に従って、または第2の処理規則に従って、または第3の処理規則に従って、または第4の処理規則に従って、または第5の処理規則に従って、または第6の処理規則に従って、または第7の処理規則に従ってオーディオ入力部分を処理するように構成されてもよく、プロセッサ120は、例えば、処理に応じて、メモリ130内のオーディオ入力部分を修正されたオーディオ部分に置換するか、または置換することなくメモリ130からオーディオ入力部分を除去するように構成されてもよい。一実施形態によれば、プロセッサ120は、例えば、メモリに情報を記憶することができ、当該情報は、例えば、音声がオーディオ入力部分に存在するか否かを示すことができる。
一実施形態によれば、プロセッサ120は、例えば、メタデータを決定するように構成されてもよく、メタデータは、オーディオ入力部分に存在する話者の数を示し、および/または、メタデータは、話者が男性か女性かを示し、および/または、メタデータは、背景音が存在するか否かを示し、および/または、メタデータは、どの種類の背景音が存在するかを示し、および/または、メタデータは、オーディオ入力録音の削除または分離された部分を示す。
一実施形態では、メタデータは、オーディオ入力録音の削除または分離された部分が削除または分離された理由を示す。
【0016】
図4は、一実施形態による装置を示し、装置は、ディスプレイを使用することによって、および/または音響信号を使用することによって、および/または光信号を使用することによって、および/または触覚信号を使用することによって、および/または電子信号を使用することによって、音声が検出されたか否かをシグナリングするように構成された音声シグナリング出力モジュール140をさらに備える。
【0017】
図5は、一実施形態による装置を示し、装置は、オーディオ入力録音を処理するための処理規則が適用されるかどうかをシグナリングするように、および/または、オーディオ入力録音を処理するための複数の処理規則のうちのどれが適用されるかをシグナリングするように、および/または、オーディオ入力録音を処理するための複数の処理規則のうちのどれが適用されないかをシグナリングするように構成されている処理シグナリング出力モジュール150をさらに含む。処理シグナリング出力モジュール150は、ディスプレイを使用するように、および/または音響信号を使用するように、および/または光信号を使用するように、および/または触覚信号を使用するように、および/またはシグナリングに電子信号を使用するように構成される。
【0018】
図6は、一実施形態による装置を示し、装置は、修正されたオーディオ録音が記憶されるときにプライバシーを保証するためにどのステップがとられるべきかをユーザが入力することを可能にするように構成された入力デバイス118をさらに備える。
一実施形態では、装置は、例えば、公共環境で使用されるように適合されてもよい。
以下では、本発明の特定の実施形態について説明する。
例えば機械学習(ML)に基づくモデルが、録音、例えばマイクロフォンまたは固体伝搬音センサの録音が音声を含むか否かを示す情報を決定するために使用される。言い換えれば、声アクティビティ検出(VAD)、または音声アクティビティ検出(SAD)である。この情報は、録音を制御または修正するために使用される。
例えば、一実施形態によれば、オーディオ録音のために音声アクティビティ検出、例えばML音声アクティビティ検出が行われる。
音声が検出されない場合、さらなる使用のためにオーディオ録音が記憶される。
【0019】
音声が検出された場合、以下の実施形態のうちの1つが適用される。
第1の実施形態によれば、音声が検出されたオーディオ録音の部分は記憶されず、その結果、記憶されたオーディオ録音にギャップが生じる。
第2の実施形態によれば、オーディオ録音の、音声が検出される部分は、当該オーディオ部分が理解できなくなる(例えば、Bitzerら[1]によって提案された概念の1つを適用することによって、)ように修正され、話し言葉の復元が不可能になる。
第3の実施形態によれば、オーディオ録音の音声が検出される部分では、例えば音源分離概念を使用することによって音声がフィルタリングされ、オーディオ録音の処理された部分に非音声成分のみが残る。
第4の実施形態によれば、オーディオ録音の、音声が検出される部分は、音声が理解可能なままであるが、オーディオ録音の当該処理された部分から話者を識別することはもはや不可能であるように修正される。
【0020】
第5の実施形態によれば、話者識別および/または自動音声認識および/または声フィルタリングが使用され、その結果、音声が以前に識別された話者または装置を訓練した話者から発せられる場合、音声が理解可能なままであるように、オーディオ録音の、音声が検出された部分が記録され、そうでなければ、音声が検出されたオーディオ録音の部分は記録されないか、または事前定義された話者の音声のみが理解できるように、声フィルタを使用して記録される。さらなる実施形態では、オーディオ部分が事前定義された話者から発せられない場合にのみ、音声が記憶される。
第6の実施形態によれば、音声が事前定義されたキーワード(例えば、オーディオ録音が機械のコマンドを含む場合、)を含む場合にのみ音声が記憶されるように、自動音声認識装置が使用される。他の音声部分は記憶されないか、または理解できないように修正される。一実施形態では、名前ではないすべての音声成分が記憶される。さらなる実施形態では、音声部分がキーワード(機密性)を含まない場合にのみ、音声が記憶される。
第7の実施形態によれば、例えばモデル計算やモデル推定を行うことにより、音声の理解度を判定する。モデルが現在の理解度を推定し、オーディオデータを記憶するかどうかを判定するために(例えば、非バイナリ)閾値が使用される。
【0021】
以下では、さらなる特定の実施形態が使用される。
さらなる実施形態によれば、オーディオ録音が完全に記憶され、事前定義された期間の後、上述の実施形態のうちの1つが適用される。例えば、完全なオーディオ録音は、例えば、自動音声認識に必要であり得るので、例えば、エッジまたはクラウドに記録され得る。その後、音声を含むオーディオ録音の部分は、記載された実施形態に従って削除または修正される。
別の実施形態では、装置は、例えば適用シナリオに応じて、上述の実施形態のうちの1つを選択するためのインタフェースを備える。
さらなる実施形態では、オーディオ録音に関連するメタデータが決定および/または記憶される。例えば、メタデータは、例えば、何人の話者が存在するかを示すことができ、および/または、例えば、話者が男性であるか女性であるかを示すことができ、および/または、例えば、背景音が存在するか否か、および/またはどの種類の背景音が存在するかなどを示すことができる。一実施形態では、メタデータは、例えば、オーディオ録音の削除または分離された部分を示すために決定または記憶されてもよい。例えば、メタデータは、例えば、オーディオ録音の削除された、または分離された部分が削除された、または分離された理由を示すか、または判定することを可能にすることができる。
【0022】
別の実施形態によれば、ディスプレイを使用して、および/または音響信号を使用して、および/または光信号を使用して、および/または触覚信号を使用して、および/または電子信号を使用して、音声が検出されたか否かをシグナリングする(例えば、リアルタイムで)録音デバイスが提供される。
別の実施形態では、オーディオ録音を修正するための上述の実施形態のうちの1つが適用されるかどうか、および/または、オーディオ録音を修正するための上述の実施形態のうちのどれが適用されるか、および/または、オーディオ録音を修正するための上述の実施形態のうちのどれが適用されないか、をシグナリングする録音デバイスが提供される。例えば、当該情報は、例えば、ディスプレイを使用して、および/または音響信号を使用して、および/または光信号を使用して、および/または触覚信号を使用して、および/または電子信号を使用してユーザに提供され得る。
【0023】
さらなる実施形態によれば、例えば、音声アクティビティが誤って検出されなかったことをユーザが検出した場合、および/またはユーザが音声アクティビティ検出の決定に依拠したくない場合に、プライバシーを保証するためにどのステップがとられるべきかをユーザが入力することを(例えば、ボタンを使用することによって、および/またはスイッチを使用することによって)可能にするデバイスが提供される。
別の実施形態では、ユーザによる入力は、音声アクティビティ検出のための(例えば、使用される)概念のうちの1つまたは複数を改善するために使用される。例えば、訓練後の概念および/または強化学習を使用することができる。
本発明の実施形態は、法律の遵守を実現または支援する。
【0024】
実施形態では、上述の実施形態は、例えば、マイクロフォンに統合されてもよく、または、例えば、特定用途向け集積回路(ASIC)によって実装されてもよく、公共環境に当該オーディオ技術を適用することを可能にする。
本発明の実施形態は、例えば、公共環境または職場に設置されたマイクロフォンを使用するすべての用途、特に明瞭な音声信号の録音が必要な場合に使用され、不可欠である。
本発明の実施形態は、例えば、1つまたは複数のセンサ、例えば1つまたは複数のマイクロフォンを備える車両用の測定デバイスに使用することができる。
さらに、本発明の実施形態は、例えば、工場で使用される録音デバイスに使用することができる。
さらに、本発明の実施形態は、例えば、スマートスピーカまたは音声制御補助デバイスに使用することができる。
さらに、本発明の実施形態は、例えば、音声を評価しないノイズを測定するための線量計に使用することができる。
さらに、本発明の実施形態は、例えば、スタンドアロンのソフトウェア製品として、または例えばプラグインとして、例えばオーディオエディタにおいて、または例えばデジタルオーディオワークステーションにおいて実現することができる、オーディオ録音を修正するためのソフトウェア製品に(例えば、リアルタイムで、または例えばオフラインで)使用することができる。
【0025】
いくつかの態様を装置の文脈で説明したが、これらの態様は対応する方法の説明も表すことは明らかであり、ブロックまたはデバイスは方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明される態様はまた、対応する装置の対応するブロックまたは項目または特徴の説明を表す。方法ステップの一部またはすべては、例えばマイクロプロセッサ、プログラマブルコンピュータ、または電子回路などのハードウェア装置によって(または使用して)実行されてもよい。いくつかの実施形態では、最も重要な方法ステップのいくつか1つまたは複数は、そのような装置によって実行されてもよい。
特定の実装要件に応じて、本発明の実施形態は、ハードウェアもしくはソフトウェアで、または少なくとも部分的にハードウェアで、または少なくとも部分的にソフトウェアで実装することができる。実装は、電子的に読み取り可能な制御信号が記憶されたデジタル記憶媒体、例えばフロッピーディスク、DVD、Blue-Ray、CD、ROM、PROM、EPROM、EEPROMまたはFLASHメモリを使用して実行することができ、これらはそれぞれの方法が実行されるようにプログラマブルコンピュータシステムと協働する(または協働することができる)。したがって、デジタル記憶媒体はコンピュータ可読であってもよい。
【0026】
本発明によるいくつかの実施形態は、本明細書に記載の方法のうちの1つが実行されるように、プログラマブルコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有するデータキャリアを含む。
概して、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法のうちの1つを実行するように動作する。プログラムコードは、例えば、機械可読キャリアに記憶することができる。
他の実施形態は、機械可読キャリアに記憶された、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
言い換えれば、したがって、本発明の方法の一実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを記録して含むデータキャリア(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体、または録音された媒体は、通常、有形および/または非一時的である。
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号シーケンスである。データストリームまたは信号シーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成され得る。
【0027】
さらなる実施形態は、本明細書に記載の方法のうちの1つを実行するように構成または適合された処理手段、例えばコンピュータまたはプログラマブル論理デバイスを含む。
さらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
本発明によるさらなる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを受信機に転送する(例えば、電子的または光学的に)ように構成された装置またはシステムを備える。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを備えることができる。
いくつかの実施形態では、プログラマブル論理デバイス(例えば、フィールドプログラマブルゲートアレイ)を使用して、本明細書に記載の方法の機能の一部またはすべてを実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法のうちの1つを実行するためにマイクロプロセッサと協働することができる。一般に、方法は、任意のハードウェア装置によって実行されることが好ましい。
【0028】
上述の実施形態は、本発明の原理の単なる例示である。本明細書に記載の構成および詳細の修正および変形は、当業者には明らかであることが理解される。したがって、本明細書の実施形態の記載および説明として提示された特定の詳細によってではなく、差し迫った特許請求の範囲によってのみ限定されることが意図される。
各請求項は1つの単一の請求項を参照しているにすぎないが、本開示は、請求項の任意の考えられる組み合わせも包含する。
参考文献
[1]Bitzer,J.,Kissner,S.&Holube,I.:Privacy-Aware Acoustic Assessments of Everyday Life.JAES 64(6),pp.395-404.
【手続補正書】
【提出日】2023-07-13
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
処理されたオーディオ録音を取得するためにオーディオ入力録音を処理するための装置であって、前記装置が、
前記オーディオ入力録音の複数のオーディオ入力部分を受信するための入力インタフェースと、
前記オーディオ入力録音の複数のオーディオ入力部分を処理して、処理されたオーディオ録音を取得するためのプロセッサと、を備え、
前記プロセッサが、前記複数のオーディオ入力部分のうちのオーディオ入力部分が音声を含むか否かを判定するように構成され、
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出した場合、前記プロセッサが、前記オーディオ入力部分を修正して修正されたオーディオ部分を取得することによって、および前記処理されたオーディオ録音が前記オーディオ入力部分の代わりに前記修正されたオーディオ部分を含むように、前記処理されたオーディオ録音を生成することによって、前記処理されたオーディオ録音を生成するように構成さ
れ、
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出し、かつ前記オーディオ入力部分が特定の処理規則に従って処理されるべきである場合、前記プロセッサが、前記音声が以前に識別された話者または前記装置を訓練した話者から発せられる場合、前記音声が前記修正されたオーディオ部分において理解可能なままであるように、自動音声認識および/または話者識別を使用することによって前記処理されたオーディオ録音を生成するように構成されており、そうでなければ、前記処理されたオーディオ録音が前記オーディオ入力部分を含まず、または前記修正されたオーディオ部分が、前記以前に識別された話者からの、または前記装置を訓練した前記話者からの音声のみが理解可能であるように、声フィルタを使用して生成される、
装置。
【請求項2】
前記プロセッサが、前記オーディオ入力部分が音声を含まないことを検出した場合、前記プロセッサが、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、前記処理されたオーディオ録音を生成するように構成されている、
請求項1に記載の装置。
【請求項3】
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出した場合、かつ前記オーディオ入力部分が第1の処理規則に従って処理されるべきである場合、前記プロセッサが、前記処理されたオーディオ録音が前記オーディオ入力部分を含まないように、前記処理されたオーディオ録音を生成するように構成されている、
請求項1または2に記載の装置。
【請求項4】
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出し、かつ前記オーディオ入力部分が第2の処理規則に従って処理されるべきである場合、前記プロセッサが、前記修正されたオーディオ部分内の前記音声が理解できないように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されている、
請求項1から3のいずれか一項に記載の装置。
【請求項5】
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出し、かつ前記オーディオ入力部分が第3の処理規則に従って処理されるべきである場合、前記プロセッサが、前記音声が前記オーディオ入力部分からフィルタリングされるように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されている、
請求項1から4のいずれか一項に記載の装置。
【請求項6】
前記プロセッサが、非音声成分のみが前記オーディオ録音の前記処理された部分に残るように、音源分離概念を使用することによって前記音声が前記オーディオ入力部分からフィルタリングされるように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されている、
請求項5に記載の装置。
【請求項7】
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出し、かつ前記オーディオ入力部分が第4の処理規則に従って処理されるべきである場合、前記プロセッサが、前記修正されたオーディオ部分における前記音声が理解可能なままであるが、前記修正されたオーディオ部分を分析することによって前記音声の話者を識別することがもはや不可能であるように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されている、
請求項1から6のいずれか一項に記載の装置。
【請求項8】
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出し、かつ前記オーディオ入力部分が第6の処理規則に従って処理されるべきである場合、前記プロセッサが、前記オーディオ入力部分における前記音声が事前定義された第1のキーワードを含む場合にのみ、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、自動音声認識を使用することによって前記処理されたオーディオ録音を生成するように構成されている、
請求項1から7のいずれか一項に記載の装置。
【請求項9】
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出し、かつ前記オーディオ入力部分が第6の処理規則に従って処理されるべきである場合、前記プロセッサが、前記オーディオ入力部分における前記音声が事前定義された第2のキーワードを含まない場合にのみ、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、自動音声認識を使用することによって前記処理されたオーディオ録音を生成するように構成されている、
請求項1から7のいずれか一項に記載の装置。
【請求項10】
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出し、かつ前記オーディオ入力部分が第6の処理規則に従って処理されるべきである場合、前記プロセッサが、前記オーディオ入力部分における前記音声が名前を含まない場合にのみ、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、自動音声認識を使用することによって前記処理されたオーディオ録音を生成するように構成されている、
請求項1から7のいずれか一項に記載の装置。
【請求項11】
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出し、かつ前記オーディオ入力部分が第7の処理規則に従って処理されるべきである場合、前記プロセッサが、前記オーディオ入力部分における前記音声の理解度を示す値を決定するように構成され、前記プロセッサが、前記理解度を示す前記値に応じて、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、前記処理されたオーディオ録音を生成するように構成されている、
請求項1から10のいずれか一項に記載の装置。
【請求項12】
前記プロセッサが、前記値を閾値と比較する閾値テストを実行して、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、前記処理されたオーディオ録音を生成するか否かを判定するように構成されている、
請求項11に記載の装置。
【請求項13】
前記プロセッサが、処理規則のグループのうちの1つ目に従って前記オーディオ入力部分を処理するように構成され、前記処理規則のグループが、第1の処理規則および第2の処理規則および第3の処理規則および第4の処理規則および第5の処理規則および第6の処理規則および第7の処理規則のうちの少なくとも2つを含み、
前記プロセッサが、前記処理規則のグループのうちの2つ目に従って前記複数のオーディオ入力部分のうちの別の1つを処理するように構成され、前記処理規則のグループのうちの前記2つ目が、前記処理規則のグループのうちの前記1つ目とは異なり、
前記第1の処理規則に従って、前記プロセッサが、前記処理されたオーディオ録音が前記オーディオ入力部分を含まないように、前記処理されたオーディオ録音を生成するように構成され、
前記第2の処理規則に従って、前記プロセッサが、前記修正されたオーディオ部分内の前記音声が理解できないように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されており、
前記第3の処理規則に従って、前記プロセッサが、前記音声が前記オーディオ入力部分からフィルタリングされるように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されており、
前記第4の処理規則に従って、前記プロセッサが、前記修正されたオーディオ部分内の前記音声が理解可能なままであるが、前記修正されたオーディオ部分を分析することによって前記音声の話者をもはや識別することができないように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されており、
前記特定の処理規則である前記第5の処理規則に従って、前記プロセッサが、前記音声が前記以前に識別された話者または前記装置を訓練した前記話者から発せられる場合、前記音声が前記修正されたオーディオ部分において理解可能なままであるように、前記自動音声認識および/または前記話者識別を使用することによって前記処理されたオーディオ録音を生成するように構成されており、そうでなければ、前記処理されたオーディオ録音が前記オーディオ入力部分を含まず、または前記修正されたオーディオ部分が、前記以前に識別された話者からの、または前記装置を訓練した前記話者からの音声のみが理解可能であるように、前記声フィルタを使用して生成され、
前記第6の処理規則に従って、前記プロセッサが、前記オーディオ入力部分における前記音声が事前定義された第1のキーワードを含む場合にのみ、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、自動音声認識を用いることによって前記処理されたオーディオ録音を生成するように構成されており、
前記第7の処理規則に従って、前記プロセッサが、前記オーディオ入力部分における前記音声の理解度を示す値を決定するように構成されており、前記プロセッサが、前記理解度を示す前記値に応じて、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、前記処理されたオーディオ録音を生成するように構成されている、
請求項1または2に記載の装置。
【請求項14】
前記装置がユーザインタフェースを含み、前記ユーザインタフェースが、第1の処理規則および第2の処理規則および第3の処理規則および第4の処理規則および第5の処理規則および第6の処理規則および第7の処理規則のうちの少なくとも2つを含む処理規則のグループから処理規則を選択するための手段をユーザに提供するように構成されており、
前記プロセッサが、前記ユーザによって選択された前記処理規則に従って前記オーディオ入力部分を処理するように構成されており、
前記第1の処理規則に従って、前記プロセッサが、前記処理されたオーディオ録音が前記オーディオ入力部分を含まないように、前記処理されたオーディオ録音を生成するように構成されており、
前記第2の処理規則に従って、前記プロセッサが、前記修正されたオーディオ部分内の前記音声が理解できないように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されており、
前記第3の処理規則に従って、前記プロセッサが、前記音声が前記オーディオ入力部分からフィルタリングされるように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されており、
前記第4の処理規則に従って、前記プロセッサが、前記修正されたオーディオ部分内の前記音声が理解可能なままであるが、前記修正されたオーディオ部分を分析することによって前記音声の話者をもはや識別することができないように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されており、
前記特定の処理規則である前記第5の処理規則に従って、前記プロセッサが、前記音声が前記以前に識別された話者または前記装置を訓練した前記話者から発せられる場合、前記音声が前記修正されたオーディオ部分において理解可能なままであるように、前記自動音声認識および/または前記話者識別を使用することによって前記処理されたオーディオ録音を生成するように構成されており、そうでなければ、前記処理されたオーディオ録音が前記オーディオ入力部分を含まず、または前記修正されたオーディオ部分が、前記以前に識別された話者からの、または前記装置を訓練した前記話者からの音声のみが理解可能であるように、前記声フィルタを使用して生成され、
前記第6の処理規則に従って、前記プロセッサが、前記オーディオ入力部分における前記音声が事前定義された第1のキーワードを含む場合にのみ、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、自動音声認識を用いることによって前記処理されたオーディオ録音を生成するように構成されており、
前記第7の処理規則に従って、前記プロセッサが、前記オーディオ入力部分における前記音声の理解度を示す値を決定するように構成されており、前記プロセッサが、前記理解度を示す前記値に応じて、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、前記処理されたオーディオ録音を生成するように構成されている、
請求項1または2に記載の装置。
【請求項15】
前記処理規則のグループが、前記第1の処理規則および前記第2の処理規則および前記第3の処理規則および前記第4の処理規則および前記第5の処理規則および前記第6の処理規則および前記第7の処理規則のうちの少なくとも3つを含む、
請求項13または14に記載の装置。
【請求項16】
前記プロセッサが、機械学習音声アクティビティ検出を使用して、前記オーディオ入力部分が音声を含むか否かを判定するように構成されている、
請求項1から15のいずれか一項に記載の装置。
【請求項17】
前記プロセッサが、前記処理されたオーディオ録音をメモリに記憶するように構成されている、
請求項1から16のいずれか一項に記載の装置。
【請求項18】
前記装置が、前記メモリを備える、
請求項17に記載の装置。
【請求項19】
前記プロセッサが、前記オーディオ入力部分をメモリに記憶するように構成され、
前記プロセッサが、第1の処理規則に従って、または第2の処理規則に従って、または第3の処理規則に従って、または第4の処理規則に従って、または第5の処理規則に従って、または第6の処理規則に従って、または第7の処理規則に従って、前記オーディオ入力部分を処理するように構成され、
前記プロセッサが、前記処理に応じて、前記メモリ内の前記オーディオ入力部分を前記修正されたオーディオ部分に置換するか、または置換することなく前記メモリから前記オーディオ入力部分を除去するように構成され、
前記第1の処理規則に従って、前記プロセッサが、前記処理されたオーディオ録音が前記オーディオ入力部分を含まないように、前記処理されたオーディオ録音を生成するように構成され、
前記第2の処理規則に従って、前記プロセッサが、前記修正されたオーディオ部分内の前記音声が理解できないように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されており、
前記第3の処理規則に従って、前記プロセッサが、前記音声が前記オーディオ入力部分からフィルタリングされるように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されており、
前記第4の処理規則に従って、前記プロセッサが、前記修正されたオーディオ部分内の前記音声が理解可能なままであるが、前記修正されたオーディオ部分を分析することによって前記音声の話者をもはや識別することができないように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されており、
前記特定の処理規則である前記第5の処理規則に従って、前記プロセッサが、前記音声が前記以前に識別された話者または前記装置を訓練した前記話者から発せられる場合、前記音声が前記修正されたオーディオ部分において理解可能なままであるように、自動音声認識および/または話者識別を使用することによって前記処理されたオーディオ録音を生成するように構成されており、そうでなければ、前記処理されたオーディオ録音が前記オーディオ入力部分を含まず、または前記修正されたオーディオ部分が、前記以前に識別された話者からの、または前記装置を訓練した前記話者からの音声のみが理解可能であるように、声フィルタを使用して生成され、
前記第6の処理規則に従って、前記プロセッサが、前記オーディオ入力部分における前記音声が事前定義された第1のキーワードを含む場合にのみ、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、自動音声認識を用いることによって前記処理されたオーディオ録音を生成するように構成されており、および、
前記第7の処理規則に従って、前記プロセッサが、前記オーディオ入力部分における前記音声の理解度を示す値を決定するように構成されており、前記プロセッサが、前記理解度を示す前記値に応じて、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、前記処理されたオーディオ録音を生成するように構成されている、
請求項1または2に記載の装置。
【請求項20】
前記プロセッサが、メタデータを決定するように構成され、前記メタデータが、前記オーディオ入力部分に存在する話者の数を示し、および/または、前記メタデータが、話者が男性であるか女性であるかを示し、および/または、前記メタデータが、背景音が存在するか否かを示し、および/または、前記メタデータが、どの種類の背景音が存在するかを示し、および/または、前記メタデータが、前記オーディオ入力録音の削除された部分または分離された部分を示す、
請求項1から19のいずれか一項に記載の装置。
【請求項21】
前記メタデータが、前記オーディオ入力録音の前記削除された部分または分離された部分が削除された、または分離された理由を示す、
請求項20に記載の装置。
【請求項22】
前記装置が、音声が検出されたか否かを、ディスプレイを使用することによって、および/または音響信号を使用することによって、および/または光信号を使用することによって、および/または触覚信号を使用することによって、および/または電子信号を使用することによってシグナリングするように構成された音声シグナリング出力モジュールを備える、
請求項1から21のいずれか一項に記載の装置。
【請求項23】
前記装置が、前記オーディオ入力録音を処理するための処理規則が適用されるかどうかをシグナリングするように、および/または、前記オーディオ入力録音を処理するための複数の処理規則のうちのどれが適用されるか、および/または、オーディオ入力録音を処理するための複数の処理規則のうちのどれが適用されないかをシグナリングするように構成された処理シグナリング出力モジュールを備え、
前記処理シグナリング出力モジュールが、前記シグナリングのために、ディスプレイを使用するように、および/または音響信号を使用するように、および/または光信号を使用するように、および/または触覚信号を使用するように、および/または電子信号を使用するように構成されている、
請求項1から22のいずれか一項に記載の装置。
【請求項24】
前記装置が、前記修正されたオーディオ録音が記憶されるときにプライバシーを保証するためにどのステップがとられるべきかをユーザが入力することを可能にするように構成された入力デバイスをさらに備える、
請求項1から23のいずれか一項に記載の装置。
【請求項25】
前記装置は、公共環境で使用されるように適合されている、
請求項1から24のいずれか一項に記載の装置。
【請求項26】
処理されたオーディオ録音を取得するためにオーディオ入力録音を処理するための方法であって、前記方法が、
前記オーディオ入力録音の複数のオーディオ入力部分を受信することと、
前記オーディオ入力録音の複数のオーディオ入力部分を処理して、処理されたオーディオ録音を取得することと、を含み、
前記複数のオーディオ入力部分を処理することが、
前記複数のオーディオ入力部分のうちのオーディオ入力部分が音声を含むか否かを判定することを含み、
前記オーディオ入力部分が音声を含むことが検出された場合、前記オーディオ入力部分を修正して修正されたオーディオ部分を取得し、前記処理されたオーディオ録音が前記オーディオ入力部分の代わりに前記修正されたオーディオ部分を含むように、前記処理されたオーディオ録音を生成することによって、前記処理されたオーディオ録音が生成され、
前記前記オーディオ入力部分が音声を含むことが検出され、かつ前記オーディオ入力部分が特定の処理規則に従って処理されるべきである場合、前記処理されたオーディオ録音を生成することは、前記音声が以前に識別された話者または前記装置を訓練した話者から発せられる場合、前記音声が前記修正されたオーディオ部分において理解可能なままであるように、自動音声認識および/または話者識別を使用することによって行われ、そうでなければ、前記処理されたオーディオ録音が前記オーディオ入力部分を含まず、または前記修正されたオーディオ部分が、前記以前に識別された話者からの、または前記装置を訓練した前記話者からの音声のみが理解可能であるように、声フィルタを使用して生成される、
、方法。
【請求項27】
コンピュータ上で実行されると、請求項26に記載の方法を実行する命令を記憶するコンピュータ可読媒体を備える、非一時的コンピュータプログラム製品。
【請求項28】
前記方法がコンピュータまたは信号プロセッサ上で実施される場合、請求項26に記載の方法を実施するためのコンピュータプログラム。
【請求項29】
マイクロフォンであって、
請求項1から25のいずれか一項に記載の装置が統合された、マイクロフォン。
【請求項30】
特定用途向け集積回路であって、
請求項1から25のいずれか一項に記載の装置が統合された、特定用途向け集積回路。
【手続補正書】
【提出日】2023-12-07
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
処理されたオーディオ録音を取得するためにオーディオ入力録音を処理するための装置であって、前記装置が、
前記オーディオ入力録音の複数のオーディオ入力部分を受信するための入力インタフェースと、
前記オーディオ入力録音の複数のオーディオ入力部分を処理して、処理されたオーディオ録音を取得するためのプロセッサと、を備え、
前記プロセッサが、前記複数のオーディオ入力部分のうちのオーディオ入力部分が音声を含むか否かを判定するように構成され、
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出した場合、前記プロセッサが、前記オーディオ入力部分を修正して修正されたオーディオ部分を取得することによって、および前記処理されたオーディオ録音が前記オーディオ入力部分の代わりに前記修正されたオーディオ部分を含むように、前記処理されたオーディオ録音を生成することによって、前記処理されたオーディオ録音を生成するように構成され、
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出し、かつ前記オーディオ入力部分が特定の処理規則に従って処理されるべきである場合、前記プロセッサが、前記音声が以前に識別された話者または前記装置を訓練した話者から発せられる場合、前記音声が前記修正されたオーディオ部分において理解可能なままであるように、自動音声認識および/または話者識別を使用することによって前記処理されたオーディオ録音を生成するように構成されており、そうでなければ、前記処理されたオーディオ録音が前記オーディオ入力部分を含まず、または前記修正されたオーディオ部分が、前記以前に識別された話者からの、または前記装置を訓練した前記話者からの音声のみが理解可能であるように、声フィルタを使用して生成される、
装置。
【請求項2】
前記プロセッサが、前記オーディオ入力部分が音声を含まないことを検出した場合、前記プロセッサが、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、前記処理されたオーディオ録音を生成するように構成されている、
請求項1に記載の装置。
【請求項3】
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出した場合、かつ前記オーディオ入力部分が第1の処理規則に従って処理されるべきである場合、前記プロセッサが、前記処理されたオーディオ録音が前記オーディオ入力部分を含まないように、前記処理されたオーディオ録音を生成するように構成されている、
請求項
1に記載の装置。
【請求項4】
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出し、かつ前記オーディオ入力部分が第2の処理規則に従って処理されるべきである場合、前記プロセッサが、前記修正されたオーディオ部分内の前記音声が理解できないように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されている、
請求項
1に記載の装置。
【請求項5】
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出し、かつ前記オーディオ入力部分が第3の処理規則に従って処理されるべきである場合、前記プロセッサが、前記音声が前記オーディオ入力部分からフィルタリングされるように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されている、
請求項
1に記載の装置。
【請求項6】
前記プロセッサが、非音声成分のみが前記オーディオ録音の前記処理された部分に残るように、音源分離概念を使用することによって前記音声が前記オーディオ入力部分からフィルタリングされるように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されている、
請求項5に記載の装置。
【請求項7】
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出し、かつ前記オーディオ入力部分が第4の処理規則に従って処理されるべきである場合、前記プロセッサが、前記修正されたオーディオ部分における前記音声が理解可能なままであるが、前記修正されたオーディオ部分を分析することによって前記音声の話者を識別することがもはや不可能であるように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されている、
請求項
1に記載の装置。
【請求項8】
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出し、かつ前記オーディオ入力部分が第6の処理規則に従って処理されるべきである場合、前記プロセッサが、前記オーディオ入力部分における前記音声が事前定義された第1のキーワードを含む場合にのみ、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、自動音声認識を使用することによって前記処理されたオーディオ録音を生成するように構成されている、
請求項
1に記載の装置。
【請求項9】
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出し、かつ前記オーディオ入力部分が第6の処理規則に従って処理されるべきである場合、前記プロセッサが、前記オーディオ入力部分における前記音声が事前定義された第2のキーワードを含まない場合にのみ、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、自動音声認識を使用することによって前記処理されたオーディオ録音を生成するように構成されている、
請求項
1に記載の装置。
【請求項10】
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出し、かつ前記オーディオ入力部分が第6の処理規則に従って処理されるべきである場合、前記プロセッサが、前記オーディオ入力部分における前記音声が名前を含まない場合にのみ、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、自動音声認識を使用することによって前記処理されたオーディオ録音を生成するように構成されている、
請求項
1に記載の装置。
【請求項11】
前記プロセッサが、前記オーディオ入力部分が音声を含むことを検出し、かつ前記オーディオ入力部分が第7の処理規則に従って処理されるべきである場合、前記プロセッサが、前記オーディオ入力部分における前記音声の理解度を示す値を決定するように構成され、前記プロセッサが、前記理解度を示す前記値に応じて、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、前記処理されたオーディオ録音を生成するように構成されている、
請求項
1に記載の装置。
【請求項12】
前記プロセッサが、前記値を閾値と比較する閾値テストを実行して、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、前記処理されたオーディオ録音を生成するか否かを判定するように構成されている、
請求項11に記載の装置。
【請求項13】
前記プロセッサが、処理規則のグループのうちの1つ目に従って前記オーディオ入力部分を処理するように構成され、前記処理規則のグループが、第1の処理規則および第2の処理規則および第3の処理規則および第4の処理規則および第5の処理規則および第6の処理規則および第7の処理規則のうちの少なくとも2つを含み、
前記プロセッサが、前記処理規則のグループのうちの2つ目に従って前記複数のオーディオ入力部分のうちの別の1つを処理するように構成され、前記処理規則のグループのうちの前記2つ目が、前記処理規則のグループのうちの前記1つ目とは異なり、
前記第1の処理規則に従って、前記プロセッサが、前記処理されたオーディオ録音が前記オーディオ入力部分を含まないように、前記処理されたオーディオ録音を生成するように構成され、
前記第2の処理規則に従って、前記プロセッサが、前記修正されたオーディオ部分内の前記音声が理解できないように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されており、
前記第3の処理規則に従って、前記プロセッサが、前記音声が前記オーディオ入力部分からフィルタリングされるように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されており、
前記第4の処理規則に従って、前記プロセッサが、前記修正されたオーディオ部分内の前記音声が理解可能なままであるが、前記修正されたオーディオ部分を分析することによって前記音声の話者をもはや識別することができないように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されており、
前記特定の処理規則である前記第5の処理規則に従って、前記プロセッサが、前記音声が前記以前に識別された話者または前記装置を訓練した前記話者から発せられる場合、前記音声が前記修正されたオーディオ部分において理解可能なままであるように、前記自動音声認識および/または前記話者識別を使用することによって前記処理されたオーディオ録音を生成するように構成されており、そうでなければ、前記処理されたオーディオ録音が前記オーディオ入力部分を含まず、または前記修正されたオーディオ部分が、前記以前に識別された話者からの、または前記装置を訓練した前記話者からの音声のみが理解可能であるように、前記声フィルタを使用して生成され、
前記第6の処理規則に従って、前記プロセッサが、前記オーディオ入力部分における前記音声が事前定義された第1のキーワードを含む場合にのみ、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、自動音声認識を用いることによって前記処理されたオーディオ録音を生成するように構成されており、
前記第7の処理規則に従って、前記プロセッサが、前記オーディオ入力部分における前記音声の理解度を示す値を決定するように構成されており、前記プロセッサが、前記理解度を示す前記値に応じて、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、前記処理されたオーディオ録音を生成するように構成されている、
請求項
1に記載の装置。
【請求項14】
前記装置がユーザインタフェースを含み、前記ユーザインタフェースが、第1の処理規則および第2の処理規則および第3の処理規則および第4の処理規則および第5の処理規則および第6の処理規則および第7の処理規則のうちの少なくとも2つを含む処理規則のグループから処理規則を選択するための手段をユーザに提供するように構成されており、
前記プロセッサが、前記ユーザによって選択された前記処理規則に従って前記オーディオ入力部分を処理するように構成されており、
前記第1の処理規則に従って、前記プロセッサが、前記処理されたオーディオ録音が前記オーディオ入力部分を含まないように、前記処理されたオーディオ録音を生成するように構成されており、
前記第2の処理規則に従って、前記プロセッサが、前記修正されたオーディオ部分内の前記音声が理解できないように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されており、
前記第3の処理規則に従って、前記プロセッサが、前記音声が前記オーディオ入力部分からフィルタリングされるように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されており、
前記第4の処理規則に従って、前記プロセッサが、前記修正されたオーディオ部分内の前記音声が理解可能なままであるが、前記修正されたオーディオ部分を分析することによって前記音声の話者をもはや識別することができないように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されており、
前記特定の処理規則である前記第5の処理規則に従って、前記プロセッサが、前記音声が前記以前に識別された話者または前記装置を訓練した前記話者から発せられる場合、前記音声が前記修正されたオーディオ部分において理解可能なままであるように、前記自動音声認識および/または前記話者識別を使用することによって前記処理されたオーディオ録音を生成するように構成されており、そうでなければ、前記処理されたオーディオ録音が前記オーディオ入力部分を含まず、または前記修正されたオーディオ部分が、前記以前に識別された話者からの、または前記装置を訓練した前記話者からの音声のみが理解可能であるように、前記声フィルタを使用して生成され、
前記第6の処理規則に従って、前記プロセッサが、前記オーディオ入力部分における前記音声が事前定義された第1のキーワードを含む場合にのみ、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、自動音声認識を用いることによって前記処理されたオーディオ録音を生成するように構成されており、
前記第7の処理規則に従って、前記プロセッサが、前記オーディオ入力部分における前記音声の理解度を示す値を決定するように構成されており、前記プロセッサが、前記理解度を示す前記値に応じて、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、前記処理されたオーディオ録音を生成するように構成されている、
請求項
1に記載の装置。
【請求項15】
前記処理規則のグループが、前記第1の処理規則および前記第2の処理規則および前記第3の処理規則および前記第4の処理規則および前記第5の処理規則および前記第6の処理規則および前記第7の処理規則のうちの少なくとも3つを含む、
請求項
13に記載の装置。
【請求項16】
前記プロセッサが、機械学習音声アクティビティ検出を使用して、前記オーディオ入力部分が音声を含むか否かを判定するように構成されている、
請求項
1に記載の装置。
【請求項17】
前記プロセッサが、前記処理されたオーディオ録音をメモリに記憶するように構成されている、
請求項
1に記載の装置。
【請求項18】
前記装置が、前記メモリを備える、
請求項17に記載の装置。
【請求項19】
前記プロセッサが、前記オーディオ入力部分をメモリに記憶するように構成され、
前記プロセッサが、第1の処理規則に従って、または第2の処理規則に従って、または第3の処理規則に従って、または第4の処理規則に従って、または第5の処理規則に従って、または第6の処理規則に従って、または第7の処理規則に従って、前記オーディオ入力部分を処理するように構成され、
前記プロセッサが、前記処理に応じて、前記メモリ内の前記オーディオ入力部分を前記修正されたオーディオ部分に置換するか、または置換することなく前記メモリから前記オーディオ入力部分を除去するように構成され、
前記第1の処理規則に従って、前記プロセッサが、前記処理されたオーディオ録音が前記オーディオ入力部分を含まないように、前記処理されたオーディオ録音を生成するように構成され、
前記第2の処理規則に従って、前記プロセッサが、前記修正されたオーディオ部分内の前記音声が理解できないように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されており、
前記第3の処理規則に従って、前記プロセッサが、前記音声が前記オーディオ入力部分からフィルタリングされるように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されており、
前記第4の処理規則に従って、前記プロセッサが、前記修正されたオーディオ部分内の前記音声が理解可能なままであるが、前記修正されたオーディオ部分を分析することによって前記音声の話者をもはや識別することができないように、前記オーディオ入力部分を修正して前記修正されたオーディオ部分を取得するように構成されており、
前記特定の処理規則である前記第5の処理規則に従って、前記プロセッサが、前記音声が前記以前に識別された話者または前記装置を訓練した前記話者から発せられる場合、前記音声が前記修正されたオーディオ部分において理解可能なままであるように、自動音声認識および/または話者識別を使用することによって前記処理されたオーディオ録音を生成するように構成されており、そうでなければ、前記処理されたオーディオ録音が前記オーディオ入力部分を含まず、または前記修正されたオーディオ部分が、前記以前に識別された話者からの、または前記装置を訓練した前記話者からの音声のみが理解可能であるように、声フィルタを使用して生成され、
前記第6の処理規則に従って、前記プロセッサが、前記オーディオ入力部分における前記音声が事前定義された第1のキーワードを含む場合にのみ、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、自動音声認識を用いることによって前記処理されたオーディオ録音を生成するように構成されており、および、
前記第7の処理規則に従って、前記プロセッサが、前記オーディオ入力部分における前記音声の理解度を示す値を決定するように構成されており、前記プロセッサが、前記理解度を示す前記値に応じて、前記処理されたオーディオ録音が前記オーディオ入力部分を含むように、前記処理されたオーディオ録音を生成するように構成されている、
請求項
1に記載の装置。
【請求項20】
前記プロセッサが、メタデータを決定するように構成され、前記メタデータが、前記オーディオ入力部分に存在する話者の数を示し、および/または、前記メタデータが、話者が男性であるか女性であるかを示し、および/または、前記メタデータが、背景音が存在するか否かを示し、および/または、前記メタデータが、どの種類の背景音が存在するかを示し、および/または、前記メタデータが、前記オーディオ入力録音の削除された部分または分離された部分を示す、
請求項
1に記載の装置。
【請求項21】
前記メタデータが、前記オーディオ入力録音の前記削除された部分または分離された部分が削除された、または分離された理由を示す、
請求項20に記載の装置。
【請求項22】
前記装置が、音声が検出されたか否かを、ディスプレイを使用することによって、および/または音響信号を使用することによって、および/または光信号を使用することによって、および/または触覚信号を使用することによって、および/または電子信号を使用することによってシグナリングするように構成された音声シグナリング出力モジュールを備える、
請求項
1に記載の装置。
【請求項23】
前記装置が、前記オーディオ入力録音を処理するための処理規則が適用されるかどうかをシグナリングするように、および/または、前記オーディオ入力録音を処理するための複数の処理規則のうちのどれが適用されるか、および/または、オーディオ入力録音を処理するための複数の処理規則のうちのどれが適用されないかをシグナリングするように構成された処理シグナリング出力モジュールを備え、
前記処理シグナリング出力モジュールが、前記シグナリングのために、ディスプレイを使用するように、および/または音響信号を使用するように、および/または光信号を使用するように、および/または触覚信号を使用するように、および/または電子信号を使用するように構成されている、
請求項
1に記載の装置。
【請求項24】
前記装置が、前記修正されたオーディオ録音が記憶されるときにプライバシーを保証するためにどのステップがとられるべきかをユーザが入力することを可能にするように構成された入力デバイスをさらに備える、
請求項
1に記載の装置。
【請求項25】
前記装置は、公共環境で使用されるように適合されている、
請求項
1に記載の装置。
【請求項26】
処理されたオーディオ録音を取得するためにオーディオ入力録音を処理するための方法であって、前記方法が、
前記オーディオ入力録音の複数のオーディオ入力部分を受信することと、
前記オーディオ入力録音の複数のオーディオ入力部分を処理して、処理されたオーディオ録音を取得することと、を含み、
前記複数のオーディオ入力部分を処理することが、
前記複数のオーディオ入力部分のうちのオーディオ入力部分が音声を含むか否かを判定することを含み、
前記オーディオ入力部分が音声を含むことが検出された場合、前記オーディオ入力部分を修正して修正されたオーディオ部分を取得し、前記処理されたオーディオ録音が前記オーディオ入力部分の代わりに前記修正されたオーディオ部分を含むように、前記処理されたオーディオ録音を生成することによって、前記処理されたオーディオ録音が生成され、
前記前記オーディオ入力部分が音声を含むことが検出され、かつ前記オーディオ入力部分が特定の処理規則に従って処理されるべきである場合、前記処理されたオーディオ録音を生成することは、前記音声が以前に識別された話者または前記装置を訓練した話者から発せられる場合、前記音声が前記修正されたオーディオ部分において理解可能なままであるように、自動音声認識および/または話者識別を使用することによって行われ、そうでなければ、前記処理されたオーディオ録音が前記オーディオ入力部分を含まず、または前記修正されたオーディオ部分が、前記以前に識別された話者からの、または前記装置を訓練した前記話者からの音声のみが理解可能であるように、声フィルタを使用して生成される、
、方法。
【請求項27】
コンピュータ上で実行されると、請求項26に記載の方法を実行する命令を記憶するコンピュータ可読媒体を備える、非一時的コンピュータプログラム製品。
【請求項28】
前記方法がコンピュータまたは信号プロセッサ上で実施される場合、請求項26に記載の方法を実施するためのコンピュータプログラム。
【請求項29】
マイクロフォンであって、
請求項
1に記載の装置が統合された、マイクロフォン。
【請求項30】
特定用途向け集積回路であって、
請求項
1に記載の装置が統合された、特定用途向け集積回路。
【国際調査報告】