(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-19
(54)【発明の名称】個人用デバイス上で混合音ストリームから分離された音を録音すること
(51)【国際特許分類】
G10L 21/0272 20130101AFI20240312BHJP
G10L 25/51 20130101ALI20240312BHJP
G10L 25/30 20130101ALI20240312BHJP
G06F 3/04817 20220101ALI20240312BHJP
G06F 3/16 20060101ALI20240312BHJP
【FI】
G10L21/0272 100Z
G10L25/51
G10L25/30
G06F3/04817
G06F3/16 680
G06F3/16 630
G06F3/16 620
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023541566
(86)(22)【出願日】2022-02-18
(85)【翻訳文提出日】2023-07-07
(86)【国際出願番号】 CN2022076768
(87)【国際公開番号】W WO2022179440
(87)【国際公開日】2022-09-01
(32)【優先日】2021-02-28
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【氏名又は名称】片岡 忠彦
(74)【復代理人】
【識別番号】110000420
【氏名又は名称】弁理士法人MIP
(72)【発明者】
【氏名】ラクシット、サルバジット ケイ
(72)【発明者】
【氏名】ビーデ、マニッシュ アナンド
(72)【発明者】
【氏名】ナガル、シーマ
(72)【発明者】
【氏名】カタリ、マドハビ
(72)【発明者】
【氏名】デイ、クンタル
【テーマコード(参考)】
5E555
【Fターム(参考)】
5E555AA46
5E555AA76
5E555BA88
5E555BB06
5E555BB08
5E555BE17
5E555CA47
5E555CB64
5E555DA08
5E555DA09
5E555DB18
5E555EA27
5E555FA00
(57)【要約】
本方法は、1つまたは複数のプロセッサが、複数の音源からの音ストリーム内の混合音を個人用デバイス上で受信することを実現する。1つまたは複数のプロセッサは、音分離技術に基づいて、複数の音源からの混合音の1つまたは複数の音を識別する。1つまたは複数のプロセッサは、複数の音源から識別された1つまたは複数の音の分類にそれぞれ対応するアイコンを個人用デバイスのユーザ・インターフェース上に表示する。1つまたは複数のプロセッサは、個人用デバイスのユーザによる個人用デバイスのユーザ・インターフェース上に表示されたアイコンを選択するアクションに基づいて、複数の音の混合音からの音の選択を受け取り、1つまたは複数のプロセッサは、ユーザによって選択された複数の音の混合音からの音を録音する。
【特許請求の範囲】
【請求項1】
複数音環境から1つまたは複数の音を選択的に録音する方法であって、
1つまたは複数のプロセッサによって、複数の音源からの混合音を受信することと、
前記1つまたは複数のプロセッサによって、1つまたは複数の音分離技術を適用することによって前記混合音の分離を実行することと、
前記1つまたは複数のプロセッサによって、機械学習技術を使用した訓練に基づいて、前記複数の音源からの前記混合音の1つまたは複数の音を識別することと、
前記1つまたは複数のプロセッサによって、前記複数の音源からの前記混合音のそれぞれの識別された音に割り当てられた分類にそれぞれ対応する1組のアイコンを生成することと、
前記1つまたは複数のプロセッサによって、前記音に関連付けられている生成された前記1組のアイコンのうちの第1のアイコンの選択を、ユーザによる前記第1のアイコンを選択するアクションに基づいて受け取ることと、
前記1つまたは複数のプロセッサによって、前記ユーザによって選択された前記第1のアイコンに関連付けられた前記複数の音源からの前記混合音からの前記音を録音することと
を含む、方法。
【請求項2】
前記1つまたは複数のプロセッサによって、2つ以上のマイクロフォンを利用して前記混合音を受信することと、
前記1つまたは複数のプロセッサによって、前記ユーザの個人用デバイスのユーザ・インターフェース上に前記1組のアイコンを表示することであって、前記ユーザの前記個人用デバイスが、音を録音して録音された音を記憶するように構成された拡張現実(AR)眼鏡である、前記1組のアイコンを表示することと
をさらに含む、請求項1に記載の方法。
【請求項3】
前記1つまたは複数のプロセッサによって、2つ以上のマイクロフォンを利用して前記混合音を受信することと、
前記1つまたは複数のプロセッサによって、前記ユーザの個人用デバイスのユーザ・インターフェース上に前記1組のアイコンを表示することであって、前記ユーザの前記個人用デバイスが、音を録音して録音された音を記憶するように構成されたスマート・デバイスである、前記1組のアイコンを表示することと
をさらに含む、請求項1に記載の方法。
【請求項4】
前記混合音に関連付けられている表示された前記1組のアイコンのうちの前記第1のアイコンを選択する前記ユーザの前記アクションによって選択された前記混合音からの前記音を録音することに関連付けられた1組のパラメータが、表示されたオプションを選択する前記ユーザによって制御される、請求項1に記載の方法。
【請求項5】
前記1組のアイコンのアイコンがカテゴリ分類に対応する、請求項1に記載の方法。
【請求項6】
前記音を録音している間に前記ユーザが前記混合音からの前記音の特性を変更し、前記音の前記特性が、録音の音量、音の高さおよび速度の属性を含む、請求項1に記載の方法。
【請求項7】
前記機械学習技術が、複数の別個のオーディオ音が前記別個のオーディオ音の識別とともに配信される、教師あり学習を含む、請求項1に記載の方法。
【請求項8】
複数音環境から1つまたは複数の音を選択的に録音するためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品が、
1つまたは複数のコンピュータ可読記憶媒体と、前記1つまたは複数のコンピュータ可読記憶媒体に記憶されたプログラム命令とを含み、前記プログラム命令が、
複数の音源からの混合音を受信するためのプログラム命令と、
1つまたは複数の音分離技術を適用することによって前記混合音の分離を実行するためのプログラム命令と、
機械学習技術を使用した訓練に基づいて、前記複数の音源からの前記混合音の1つまたは複数の音を識別するためのプログラム命令と、
前記複数の音源からの前記混合音のそれぞれの識別された音に割り当てられた分類にそれぞれ対応する1組のアイコンを生成するためのプログラム命令と、
前記音に関連付けられている生成された前記1組のアイコンのうちの第1のアイコンの選択を、ユーザによる前記第1のアイコンを選択するアクションに基づいて受け取るためのプログラム命令と、
前記ユーザによって選択された前記第1のアイコンに関連付けられた前記複数の音源からの前記混合音からの前記音を録音するためのプログラム命令と
を含む、コンピュータ・プログラム製品。
【請求項9】
2つ以上のマイクロフォンによって前記混合音を受信するためのプログラム命令と、
前記ユーザの個人用デバイスのユーザ・インターフェース上に前記1組のアイコンを表示するためのプログラム命令であって、前記ユーザの前記個人用デバイスが、音を録音して録音された音を記憶するように構成された拡張現実(AR)眼鏡である、前記1組のアイコンを表示するための前記プログラム命令と
をさらに含む、請求項8に記載のコンピュータ・プログラム製品。
【請求項10】
2つ以上のマイクロフォンによって前記混合音を受信するためのプログラム命令と、
前記ユーザの個人用デバイスのユーザ・インターフェース上に前記1組のアイコンを表示するためのプログラム命令であって、前記ユーザの前記個人用デバイスが、音を録音して録音された音を記憶するように構成されたスマート・デバイスである、前記1組のアイコンを表示するための前記プログラム命令と
をさらに含む、請求項8に記載のコンピュータ・プログラム製品。
【請求項11】
前記混合音に関連付けられている表示された前記1組のアイコンのうちの前記第1のアイコンを選択する前記ユーザの前記アクションによって選択された前記混合音からの前記音を録音することに関連付けられた1組のパラメータが、表示されたオプションを選択する前記ユーザによって制御される、請求項8に記載のコンピュータ・プログラム製品。
【請求項12】
前記音を録音している間に前記ユーザが前記混合音からの前記音の特性を変更し、前記音の前記特性が、録音の音量、音の高さ、および速度の属性を含む、請求項8に記載のコンピュータ・プログラム製品。
【請求項13】
前記機械学習技術が、複数の別個のオーディオ音が前記別個のオーディオ音の識別とともに配信される、教師あり学習を含む、請求項8に記載のコンピュータ・プログラム製品。
【請求項14】
複数音環境から1つまたは複数の音を選択的に録音するためのコンピュータ・システムであって、前記コンピュータ・システムが、
1つまたは複数のコンピュータ・プロセッサと、
1つまたは複数のコンピュータ可読記憶媒体と、前記1つまたは複数のコンピュータ可読記憶媒体に記憶されたプログラム命令とを含み、前記プログラム命令が、
複数の音源からの混合音を受信するためのプログラム命令と、
1つまたは複数の音分離技術を適用することによって前記混合音の分離を実行するためのプログラム命令と、
機械学習技術を使用した訓練に基づいて、前記複数の音源からの前記混合音の1つまたは複数の音を識別するためのプログラム命令と、
前記複数の音源からの前記混合音のそれぞれの識別された音に割り当てられた分類にそれぞれ対応する1組のアイコンを生成するためのプログラム命令と、
前記音に関連付けられている生成された前記1組のアイコンのうちの第1のアイコンの選択を、ユーザによる前記第1のアイコンを選択するアクションに基づいて受け取るためのプログラム命令と、
前記ユーザによって選択された前記第1のアイコンに関連付けられた前記複数の音源からの前記混合音からの前記音を録音するためのプログラム命令と
を含む、コンピュータ・システム。
【請求項15】
2つ以上のマイクロフォンによって前記混合音を受信するためのプログラム命令と、
前記ユーザの個人用デバイスのユーザ・インターフェース上に前記1組のアイコンを表示するためのプログラム命令であって、前記ユーザの前記個人用デバイスが、音を録音して録音された音を記憶するように構成された拡張現実(AR)眼鏡である、前記1組のアイコンを表示するための前記プログラム命令と
をさらに含む、請求項14に記載のコンピュータ・システム。
【請求項16】
2つ以上のマイクロフォンによって前記混合音を受信するためのプログラム命令と、
前記ユーザの個人用デバイスのユーザ・インターフェース上に前記1組のアイコンを表示するためのプログラム命令であって、前記ユーザの前記個人用デバイスが、音を録音して録音された音を記憶するように構成されたスマート・デバイスである、前記1組のアイコンを表示するための前記プログラム命令と
をさらに含む、請求項14に記載のコンピュータ・システム。
【請求項17】
前記混合音に関連付けられている表示された前記1組のアイコンのうちの前記第1のアイコンを選択する前記ユーザの前記アクションによって選択された前記混合音からの前記音を録音することに関連付けられた1組のパラメータが、表示されたオプションを選択する前記ユーザによって制御される、請求項14に記載のコンピュータ・システム。
【請求項18】
前記1組のアイコンのアイコンがカテゴリ分類に対応する、請求項14に記載のコンピュータ・システム。
【請求項19】
前記音を録音している間に前記混合音から前記音の特性を変更するプログラム命令が、前記ユーザから受信した選択されたオプションのプログラム命令に基づいており、前記音の前記特性が、録音の音量、音の高さおよび速度の属性を含む、請求項14に記載のコンピュータ・システム。
【請求項20】
機械学習技術を使用した訓練に基づいて前記1つまたは複数の音を識別するための前記プログラム命令が、
複数の別個のオーディオ音が前記別個のオーディオ音の識別とともに配信される、教師あり学習を含む機械学習技術を適用する
ためのプログラミング命令を含む、請求項14に記載のコンピュータ・システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般に、音源録音の分野に関し、より詳細には、録音対象を選択するために、関心のある音源を分離することに関する。
【背景技術】
【0002】
多くの環境は複数の音源を含み、複数の音源は、一体化して混ざり合い、区別不能な音の集合ストリームになっているように見える。集合音ストリームは、複数の同時会話が行われている大規模な社交的集まりなどの屋内に存在する可能性がある。屋外においても集合音ストリームが存在する可能性があり、風、鳥、雨などの自然音と、人が遊んでいる音、話している音、自動車が走行する音などの人工音との組合せを含む可能性がある。複数の音源が融合して、一体化した背景音になっているように見えることがある。
【0003】
一般に、音源および音の識別は、複数の音が同時に発生することによって影響を受ける。3次元における音源の位置、方位、高さ、および距離を決定すること。音源の位置を決定することは、3種類のキュー(cues)、すなわち、2つのバイノーラル・キュー(両耳間時間差および両耳間レベル差)、ならびに1つのモノーラル・スペクトラル・キュー(頭部伝達関数(head-related transfer function))に基づいている。音定位(sound localization)は、バイノーラル・キュー(両耳間差)、人の耳もしくはデュアル・マイクロフォンなどの2つの検出器に到達する音の差(すなわち、左右の耳における音の到達時間もしくは強度の差)、またはモノーラル・スペクトラル・キュー(例えば、周波数に依存する音のパターン)に基づいている。
【0004】
実際の周囲の視野に適用される特徴および機能を含めるために、しばしば、拡張現実眼鏡が使用される。いくつかの事例では、拡張現実眼鏡は、拡張現実(AR:augmented reality)眼鏡が向けられている方向の周囲の視野に加えて表示される、視野画面に対して画像またはインジケータを追加することができる。他の事例では、AR眼鏡は、周囲の視野の方向に関連付けられた情報を含み、この情報は、文字、記号、またはオーディオの再生の形式であることがある。
【発明の概要】
【0005】
本発明の実施形態は、複数音環境から分離された1つまたは複数の音を選択的に録音するための方法、コンピュータ・プログラム製品、およびシステムを開示する。本方法は、1つまたは複数のプロセッサが、複数の音源からの音ストリーム内の混合音(mixture of sounds)を個人用デバイス上で受信することを実現する。1つまたは複数のプロセッサは、音分離技術に基づいて、複数の音源からの混合音の1つまたは複数の音を識別する。1つまたは複数のプロセッサは、複数の音源から識別された1つまたは複数の音の分類にそれぞれ対応するアイコンを個人用デバイスのユーザ・インターフェース上に表示する。1つまたは複数のプロセッサは、AR眼鏡のユーザによる、個人用デバイスのユーザ・インターフェース上に表示されたアイコンを選択するアクションに基づいて、複数の音の混合音からの音の選択を受け取り、1つまたは複数のプロセッサは、ユーザによって選択された複数の音の混合音からの音を録音する。
【図面の簡単な説明】
【0006】
【
図1】本発明の一実施形態による、分散データ処理環境を示す機能ブロック図である。
【
図2】本発明の一実施形態による、ユーザの個人用デバイスの領域内に表示される音カテゴリ・アイコンの例を示す図である。
【
図3】本発明の実施形態による、
図1の分散データ処理環境で動作する音選択プログラムの動作ステップを示すフローチャートである。
【
図4】本発明の一実施形態による、
図3の音選択プログラムを動作可能に実行するように構成されたコンピューティング・デバイスを含む、コンピューティング・システムのコンポーネントのブロック図である。
【発明を実施するための形態】
【0007】
本発明の実施形態では、様々な音源からの音が同時に発生している可能性があること、また、ある音源の1つの音を他のそれぞれの音源からの他の音から識別および区別することの現在の困難さが認識されている。実施形態ではさらに、鳥のさえずり、複数の車両の音、人間の声、ならびに風および雨などの自然音など、一緒に発生する音の方向および近さを決定することの困難さが認識されている。実施形態ではまた、混合音内の特徴構成の不一致に焦点を当てた、繰り返しパターン、時間的規則性、および時間周波数分解技術およびアルゴリズムを適用することによって、音定位を決定できること、また音の分離を実現できることも認識されている。
【0008】
本発明の実施形態は、混合音を形成する検出された音源の定位を決定するための、コンピュータ・プログラム製品、およびコンピュータ・システムを提供し、個人用デバイス上でユーザが選択した音の分離および録音を可能にする。いくつかの実施形態では、個人用デバイスは、2つ以上のマイクロフォンと、無線ネットワーク接続と、音選択プログラムを実行するためのリソースとを有するように構成された一対の拡張現実(AR)眼鏡である。他の実施形態では、個人用デバイスは、混合音の音ストリームを受信するように構成されるとともに音選択プログラムを動作させることが可能な、スマートフォンまたは他のスマート・デバイスであってもよい。
【0009】
いくつかの実施形態では、検出された混合音は、分離され、個人用デバイスのユーザに表示されるアイコンによって表されるカテゴリに分類される。ユーザは、音の種類および音源を表すアイコンを選択し、選択した音を聞くこと、および録音することができる。いくつかの実施形態では、録音用に選択された生の分離された音を以前に録音された音に追加することによって、新しい録音を行うことができる。いくつかの実施形態では、音を分離して個人用デバイスのディスプレイ上に別個の音源を提示するように構成された個人用デバイスのユーザは、録音すべき1つまたは複数の音の特性を変更し、特性は、音量の調整または音の高さの変更などの属性を含んでもよい。録音パラメータの制御は、個人用デバイスから選択可能である。複数のユーザによって共同ブロードキャストが受信されるいくつかの実施形態では、各ユーザは、それぞれの個人用デバイスでブロードキャストから別個の音を選択し、選択した音を録音することができる。さらに他の実施形態では、個人用デバイスのユーザには、関心履歴またはユーザによる直接入力に基づいて、ユーザにとって関心のある音を表す優先位置にアイコンが提示される。
【0010】
本発明の実施形態では、個人用デバイスの2つ以上のマイクロフォンが、別個の音源からの複数の音を含む音ストリームを受信する。音は、時間周波数オフセット分解および音の繰り返しの時間的規則性など、有効な音選択技術ならびにアルゴリズムを使用して分離される。分離された音は、機械学習を利用して、人工知能(AI:artificial intelligence)モデルを訓練することによって確立されたカテゴリに分類される。訓練は、個々の音の教師あり学習技術を適用すること、および類似した音を分類のカテゴリにクラスタリングすることを含む。いくつかの実施形態では、カテゴリは、カテゴリの1つまたは複数のサブレベルまでさらに掘り下げられてもよい。分離された音のカテゴリは、対応するアイコンを含み、対応するアイコンは、例えば、スマートフォンのディスプレイ画面、AR眼鏡の内側部分のディスプレイ、またはスマートウォッチのディスプレイなどのユーザの個人用デバイスのディプレイ・コンポーネント上でユーザに提示される。
【0011】
いくつかの実施形態では、アイコンの表示は、音源の方向インジケータを含む。他の実施形態では、相対距離が、例えば方向インジケータの長さによって指し示されてもよい。分離された音の方向は、分離されたマイクロフォン間の受信音の時間遅延測定によって決定される。いくつかの実施形態では、方向および距離に関する音定位検出の正確度を向上させるために、個人用デバイスにマイクロフォンの補助アレイが接続されてもよい。
【0012】
本発明の実施形態では、個人用デバイスのユーザは、分離された音のアイコンをディスプレイ上で見て、音に関連付けられたアイコンを選択するアクションを実行することによって、録音する音を選択する。個人用デバイスとしてのAR眼鏡の選択アクションは、AR眼鏡ディスプレイの内面に表示されたアイコンに向かう目の焦点方向を検出し、まばたきのパターンを実行することを含んでもよい。任意選択として、AR眼鏡の選択アクションは、AR眼鏡ディスプレイに表示される選択された音アイコンの位置に向けられる手のジェスチャであってもよい。いくつかの実施形態では、選択された音の特性を記録するためのオプションがユーザに提示される。例えば、ユーザは、選択された音の音量属性を拡張することを選択してもよく、または、選択された音が複数録音されている場合、ユーザは、ある分離された音の音量を上げ、他の録音された音の音量を下げてもよい。
【0013】
次に、図面を参照して本発明を詳細に説明する。
図1は、本発明の一実施形態による、一般に100で示される分散コンピュータ処理環境を示す機能ブロック図である。
図1は、1つの実装形態の例示のみを提供しており、異なる実施形態が実装され得る環境に対する制限を示唆するものではない。特許請求の範囲に記載された本発明の範囲から逸脱することなく、当業者によって、図示された環境に対して多くの修正が行われてもよい。
【0014】
分散コンピュータ処理環境100は、ネットワーク150を介して相互接続された、コンピューティング・デバイス110および拡張現実(AR)眼鏡120を含む。分散コンピュータ処理環境100は、音ストリームとして、複数の音源からの混合音を含む音ストリームを表す混合音130を含む。ネットワーク150は、例えば、ローカル・エリア・ネットワーク(LAN)、インターネットなどのワイド・エリア・ネットワーク(WAN)、仮想ローカル・エリア・ネットワーク(VLAN)、または有線接続、無線接続、もしくは光接続を含むことができる任意の組合せとすることができる。一般に、ネットワーク150は、通信およびデータ伝送をサポートする接続およびプロトコルの任意の組合せとすることができる。
【0015】
コンピューティング・デバイス110は、ユーザ・インターフェース115と、音選択プログラム300とを含み、音選択プログラム300はさらに、録音機能117を含むように図示されている。いくつかの実施形態では、コンピューティング・デバイス110は、(
図1に示すように)ネットワーク150を介してAR眼鏡120に通信可能に接続された別個のデバイスであり、音選択および録音機能ならびにメモリ・ストレージを提供する。他の実施形態では、コンピューティング・デバイス110は、AR眼鏡120の一体型コンポーネント(図示せず)である。
【0016】
いくつかの実施形態では、コンピューティング・デバイス110は、ブレード・サーバ、ウェブ・サーバ、ラップトップ・コンピュータ、デスクトップ・コンピュータ、スタンドアロン・モバイル・コンピューティング・デバイス、スマートフォン、タブレット・コンピュータ、またはデータを受信、送信、および処理することが可能な別の電子デバイスもしくはコンピューティング・システムとすることができる。他の実施形態では、コンピューティング・デバイス110は、AR眼鏡など、装着型アイテムであるか、またはユーザの装着型アイテムに含まれていてもよい。さらに他の実施形態では、コンピューティング・デバイス110は、クラウド・コンピューティング環境でホストされ動作するアプリケーションおよびサービスと対話するコンピューティング・デバイスであってもよい。別の実施形態では、コンピューティング・デバイス110は、ネットブック・コンピュータ、携帯情報端末(PDA:personal digital assistant)、または、ネットワーク150を介して分散コンピュータ処理環境100内の(図示された、また図示されていない)他のデバイスと通信してデータを受信するとともに、リソース予測プログラム300の動作を実行することが可能な、他のプログラム可能な電子デバイスとすることができる。代替として、いくつかの実施形態では、コンピューティング・デバイス110は、リモートで動作する音選択プログラム300に通信可能に接続されてもよい。コンピューティング・デバイス110は、
図4でより詳細に図示されている内部および外部のハードウェア・コンポーネントを含んでもよい。
【0017】
ユーザ・インターフェース115は、コンピューティング・デバイス110の特徴および機能にアクセスするためのインターフェースを提供する。本発明のいくつかの実施形態では、ユーザ・インターフェース115は、音選択プログラム300のオプションを動作および選択するためのアクセスを提供し、また、録音機能117またはコンピューティング・デバイス110の他のアプリケーション、特徴、および機能(図示せず)のオプションを開始ならびに選択することをサポートしてもよい。いくつかの実施形態では、ユーザ・インターフェース115は、コンピューティング・デバイス110に表示入出力機能を提供する。他の実施形態では、ユーザ・インターフェース115は、表示領域125などのAR眼鏡120のコンポーネントであり、表示出力を提供し、コンピューティング・デバイス110上で動作する音選択プログラム300に関連するオプションおよび機能の選択を可能にする。
【0018】
ユーザ・インターフェース115は、アラート、通知へのアクセスをサポートし、通信形態へのアクセスを提供する。一実施形態では、ユーザ・インターフェース115は、グラフィカル・ユーザ・インターフェース(GUI)またはウェブ・ユーザ・インターフェース(WUI)であってもよく、ユーザ入力を受け取り、文字、文書、ウェブ・ブラウザ・ウィンドウ、ユーザ・オプション、アプリケーション・インターフェース、および動作のための指示を表示することができ、プログラムがユーザに提示する情報(グラフィック、文字、および音など)、ならびにユーザがプログラムを制御するために使用する制御シーケンスを含むことができる。別の実施形態では、ユーザ・インターフェース115はまた、コンピューティング・デバイス110の特徴および機能にそれぞれのインターフェースを提供するモバイル・アプリケーション・ソフトウェアを含んでもよい。ユーザ・インターフェース115は、コンピューティング・デバイス110およびAR眼鏡120のそれぞれのユーザが、入力を受け取ること、見ること、聞くこと、応答すること、アプリケーションにアクセスすること、オンライン上での会話によるやり取りの内容を表示すること、および利用可能な機能を実行することを可能にする。
【0019】
音選択プログラム300は、複数の音源からの複数の音の混合音を含む音ストリームの1つまたは複数の音を検出および選択し、選択した分離された音を録音するためのアプリケーションである。本発明の実施形態では、音選択プログラム300は、音方向検出を可能にする2つ以上の分離されたマイクロフォンから入力された音を受信するように構成された、ユーザの個人用デバイスから動作する。いくつかの実施形態では、ユーザの個人用デバイスは、スマートフォンの両側または両端に位置するなど、音源方向を検出するように配置された2つ以上のマイクロフォンを含む、適切に構成されたスマートフォンであってもよい。他の実施形態では、ユーザの個人用デバイスは、コンピューティング・デバイス110の機能的能力を含み、音選択プログラム300および録音機能117を動作させることが可能な、AR眼鏡などの装着型アイテムである。
【0020】
図1は、音選択プログラム300および録音機能117の役割を示すために、コンピューティング・デバイス110をAR眼鏡120とは別個のものとして図示しているが、本発明のいくつかの実施形態では、AR眼鏡120がコンピューティング・デバイス110のコンピュータ機能を含み、音選択プログラム300および録音機能117を動作的に実行することが認識されている。本発明の実施形態の特徴を明確かつ簡潔に伝えるために、本明細書では、ユーザの個人用デバイスは、AR眼鏡120などのAR眼鏡を参照することによって言及される。さらに、本発明の実施形態は、音選択プログラム300および録音機能117の動作ステップを実行する個人用デバイスとしてのAR眼鏡に限定されないことに留意されたい。
【0021】
音選択プログラム300は、複数の音の混合音ストリームに含まれる音源からの音を認識してカテゴリ化するための機械学習技術を含む。一実施形態では、音選択プログラム300は、複数の種類の複数の音をサブミットおよび識別することによって訓練され、さらに、音ストリームの同時混合音内のサブミットおよび識別された音を検出するように訓練される。いくつかの実施形態では、音は、音のカテゴリにクラスタリングされ、それぞれのカテゴリには、検出される音の選択を可能にして容易にするためのアイコンが関連付けられる。いくつかの実施形態では、カテゴリは、サブカテゴリに掘り下げられてもよい。音選択プログラム300は、それぞれの音源からの複数の音を含む音ストリームを受信する。いくつかの実施形態では、音選択プログラム300は、それぞれの音の音源の方向を決定し、それぞれの音のカテゴリを識別する。音選択プログラム300は、分離された音のカテゴリに対応するアイコンを、AR眼鏡120の表示領域125などのユーザ・インターフェース・ディスプレイ上に表示する。音選択プログラム300は、複数の音の音ストリームから検出および分離された音のためのアイコンおよび方向ポインタを表示する。
【0022】
いくつかの実施形態では、音選択プログラム300は、AR眼鏡120のユーザから、分離された音に対応するアイコンの選択を受け取る。いくつかの実施形態では、アイコンの選択肢は、選択された音の録音を確認するためのオプションをユーザに提示し、音の音量を上げるまたは下げるという属性など、音が録音されたときに音の特性を変更するためのオプションを含んでもよい。いくつかの実施形態では、ユーザは、録音された音の特性を変更するためのオプションを含む、同時に録音するための1つまたは複数のアイコンを選択する。
【0023】
録音機能117は、音選択プログラム300のモジュールであり、選択された音を録音し、選択された特性を録音に適用するための機能を提供する。いくつかの実施形態では、録音機能117は録音を記憶し、以前に記憶された録音を呼び出す機能を含む。いくつかの実施形態では、録音機能117は、以前に録音された音をユーザに提示されるオプションとしてコピーし、以前に録音された音のコピーに別の音の録音を混合することを可能にすることができる。複数の音の混合音を含むブロードキャストが複数のユーザによって受信される実施形態では、音選択プログラム300は、それぞれのユーザが、複数の音の混合音のブロードキャストから別個の音を選択して録音することを可能にする。
【0024】
AR眼鏡120は、拡張現実眼鏡であり、電源122、マイクロフォン124、表示領域125、処理およびメモリ・コンポーネント126、無線通信127、およびオーディオ・スピーカ128を含む、例示的な構成で示されている。AR眼鏡は、コンピューティング・デバイス110に無線で通信可能に接続されているものとして示されている。いくつかの実施形態では、コンピューティング機能、音選択プログラム300、および録音機能117は、AR眼鏡120に含まれる(図示せず)。いくつかの実施形態では、AR眼鏡120は、音選択プログラム300を含み、音選択プログラム300を動作させて、表示領域125上に混合音の音ストリームから検出された音のアイコンを表示する。いくつかの実施形態では、AR眼鏡120のユーザは、表示領域125に表示されたアイコンに目の焦点を合わせ、AR眼鏡120のカメラ機能(図示せず)によって検出されたまばたきのアクションを実行することによって、検出された音の分類に対応するアイコンを選択する。他の実施形態では、AR眼鏡120のユーザは、選択されたアイコンの表示と一致する手のジェスチャを実行することによって、表示領域125に表示されたアイコンを選択する。
【0025】
電源122は、例としてAR眼鏡120の耳掛け部(earpiece)として示されている、AR眼鏡120のコンポーネントである。電源122は、AR眼鏡120の処理および表示機能に電力を供給する。マイクロフォン124は、AR眼鏡120の対向するテンプルのアーム上に配置された一対のマイクロフォンとして示されている。マイクロフォン124は、複数の音源からの混合音を含み得る音ストリームを受信する。マイクロフォン124は、音源の方向の決定を可能にするように配置される。メモリ・コンポーネント126は、一次揮発性メモリと録音された選択された音を記憶するための記憶メモリとを含む、AR眼鏡120のコンポーネントの一例として示されている。メモリ・コンポーネント126は、マイクロフォン124を通して受信された音ストリームからの音の処理、および音選択プログラム300の動作をサポートする。AR眼鏡120がコンピューティング・デバイス110とは別個であるが通信可能に接続されているいくつかの実施形態では、無線通信127は、ネットワーク150を介したAR眼鏡120のコンピューティング・デバイス110への無線接続を可能にする。オーディオ・スピーカ128は、音選択プログラム300によって処理された音のオーディオ出力をAR眼鏡120のユーザに提供し、これらの音は、ユーザによって行われた選択に基づいて、分離されてオーディオ・スピーカ128に配信される。
【0026】
混合音130は、複数のそれぞれの音源からの複数の音の混合音を含む音ストリームである。混合音130は、鳥の音140と、自動車の音142と、遊び場の音144と、風の音146を含む追加の音との混合音を含むものとして示されている。混合音130は、AR眼鏡120のマイクロフォン124によって受信され、AR眼鏡120のユーザによる選択のために、混合音130から分離された音に対応するアイコンを提示するように音選択プログラム300によって処理される。
【0027】
図2は、本発明の一実施形態による、ユーザの個人用デバイスの領域に表示される音カテゴリ・アイコンの一例を示す。
図2は、表示領域210、車両アイコン220および対応する方向ポインタ222、人アイコン230および方向ポインタ232、自然アイコン240および方向ポインタ242、遊び場アイコン250および方向ポインタ252、風アイコン260および方向ポインタ265、ならびに選択インジケータ270を含む。表示領域210内の各アイコンは、AR眼鏡120(
図1)などのユーザの個人用デバイスによって受信された音ストリーム内の混合音から分離され識別された音を表す。対応する各方向ポインタは、音源の検出された方向を指し示す。
【0028】
表示領域210に表示されるアイコンは、音のカテゴリを表し、本発明のいくつかの実施形態では、音選択プログラム300の訓練中に割り当てられる。表示領域210に表示されるアイコンによって表される音ストリームの例には、方向ポインタ222の方向で検出され、車両アイコン220によって表される自動車交通からの音が含まれる。いくつかの実施形態では、例えば、トラック、バス、オートバイ、電車、および自転車などの車両から発生する音が、車両アイコン220によって表される。同様に、話している可能性がある人、歌っている可能性がある人、叫んでいる可能性がある人、咳をしている可能性がある人などによって発せられる音が、人アイコン230によって表され、人の音の検出された方向は、方向ポインタ232によって指し示される。いくつかの実施形態では、様々な鳥、犬、猫、または他の動物からの音が、自然アイコン240によって表され、検出された音の方向は、方向ポインタ242によって指し示される。いくつかの実施形態では、遊び場アイコン250および対応する方向ポインタ252は、遊び場またはスポーツ・イベント・エリアから検出される音を表し、吹いている風からの音の検出が、風アイコン260によって表され、方向ポインタ265は、音が一方向ではないことを指し示している。
【0029】
選択インジケータ270は、ユーザの個人用デバイスの表示領域210に表示されたアイコンを選択するユーザの指示を表す。いくつかの実施形態では、ユーザの個人用デバイスは、音ストリーム内の混合音から分離された様々な音を表すユーザ・アイコンを提示し、ユーザが音を選択してその音を録音することを可能にする。一実施形態では、ユーザの目は、表示領域210上に提示されたアイコンのうちの1つの方を向いて、焦点を合わせる。ユーザは、目の方向の焦点を合わせたまま、選択アクション、例えば複数回まばたきすることなどを実行する。選択インジケータ270は、行われた選択のユーザ確認フィードバックを提供する。選択されたアイコンが意図しないものであるとユーザが判断した場合、ユーザは、目の焦点を、元に戻すアイコン280に向けて、現在の選択を削除し、別の選択を行うことができる。
【0030】
図3は、本発明の実施形態による、
図1の分散コンピュータ処理環境100において動作する音選択プログラム300の動作ステップを示すフローチャートである。本発明の実施形態は、音選択プログラム300が動作するユーザの個人用デバイスを含む。音選択プログラム300は、ユーザの適切に構成された個人用デバイスが、音ストリーム内の混合音を受信し、音分離機能を実行し、分離された音をカテゴリ化し、分類に対応するアイコンをユーザのデバイスの表示コンポーネントに提示することを可能にする。音選択(sound separation)プログラム300は、ユーザが、音を選択し、分離された音の録音を実行し、音の録音の特性を調整することを可能にする。
【0031】
いくつかの実施形態では、ユーザの個人用デバイスは、音の混合音ストリームを受信し、受信した音に対して音分離および音定位機能を実行するように構成された、スマートフォンまたはスマート・デバイス(すなわち、スマートウォッチ)である。他の実施形態では、ユーザの個人用デバイスは、音選択プログラム300を動作させて、選択した分離された音を録音するためのコンピュータ機能および特徴を有するように構成された、一対のAR眼鏡である。他の実施形態では、音選択プログラム300は、他の装着型デバイスに含まれ、他の装着型デバイスから動作する。音選択プログラム300の機能およびステップを明確に説明するために、ユーザの個人用デバイスがAR眼鏡に限定されないことを認識した上で、ユーザの個人用デバイスを、適切に構成された1組のAR眼鏡と称する。
【0032】
音選択プログラム300は、複数の音源から混合音を受信する(ステップ310)。音選択プログラム300は、ユーザのAR眼鏡に接続されたマイクロフォンから混合音を受信する。混合音は、混ざり合って単一の音ストリームになったものとして認識されるそれぞれの複数の音源からの複数の音を含む。音ストリームを検出するマイクロフォンは、AR眼鏡上に配置されて、音信号の相対的な振幅に基づいて、音源の方向と、場合によっては音源の距離とを含む音定位を決定することを可能にする。
【0033】
例えば、音選択プログラム300は、
図1のAR眼鏡120のマイクロフォン124などの、AR眼鏡のアーム上に配置されたマイクロフォンから検出された音ストリームを受信する。音選択プログラム300は、それぞれの複数の音源からの複数の別個の音を含むと決定された音ストリームを受信する。
【0034】
音選択プログラム300は、音分離技術を使用して混合音の分離を実行する(ステップ320)。音選択プログラム300は、受信した音ストリームに音定位および音分離の技術ならびにアルゴリズムを適用して、複数の音源からの複数の音の分離を実行する。いくつかの実施形態では、音分離技術は、混合オーディオ入力における時間的規則性を検出する時間周波数法を利用する。いくつかの実施形態では、音分離技術は、時間的コヒーレントを含み、コヒーレントに変調された特徴を音源のパターンとして放出する。いくつかの実施形態では、音定位は、AR眼鏡の2つ以上のマイクロフォン間で音信号を受信する際の時間遅延を決定することによって、混合音から分離された音の方向を決定する。
【0035】
例えば、音選択プログラム300は、受信した音ストリームに音分離技術を適用し、音ストリーム内に含まれる少なくとも4つの成分の音を決定する。いくつかの実施形態では、音源が混合音の他の音から分離されると、音選択プログラムは、音の方向を決定し、AR眼鏡を装着しているユーザが向いている方向に関係なく相対的な方向を表示できるように、その方向を磁気コンパス方位に関連付ける。
【0036】
音選択プログラム300は、混合音から分離された1つまたは複数の音を識別する(ステップ330)。本発明のいくつかの実施形態では、音選択プログラム300は、混合音から分離された音の種類を識別し、識別された音を分類カテゴリに割り当てるための機械学習訓練を含む。例示的な実施形態では、音選択プログラム300は、様々な音量レベルで提供された様々な以前に録音された音を含む教師あり学習技術を使用して訓練され、音を個別に提示した後、追加の背景音および干渉音とともに音を提示する。いくつかの実施形態では、音選択プログラム300の訓練は、特定の音源または「音の種類」(すなわち、原動機付き車両)の音認識を可能にする。いくつかの実施形態では、音選択(sound separation)プログラム300の訓練は音声認識を含み、音声認識は、音選択プログラム300が別々の話者を区別し、場合によっては十分な訓練によって話者を識別することを可能にする。
【0037】
例えば、音選択(sound separation)プログラム300は、とりわけ、鳥の音、車の音、および人が話している音、および遊び場からの音を使用する機械学習訓練を受けている。訓練の結果として、これらの音またはこれらの音に非常に似ている音の認識がもたらされる。受信した音ストリーム内の混合音から音を分離した後、音選択プログラム300は、分離された音が鳥の音に最も厳密に一致していると決定する。
【0038】
音選択(sound separation)プログラム300は、識別された音を、対応するアイコンによって表される分類カテゴリに割り当てる(ステップ340)。音ストリーム内の混合音から分離された音を識別した後、音選択プログラム300は、識別された音に最も厳密に一致するカテゴリを決定し、識別された音を、対応するアイコンによって表されるカテゴリに割り当てる。いくつかの実施形態では、AR眼鏡において動作する音選択プログラム300の機械学習訓練中、音が分類されるカテゴリおよび対応するアイコンがユーザによって選択および入力される。
【0039】
例えば、音選択プログラム300は、受信した音ストリームから分離された音を鳥の音として識別した後、鳥の音を、対応する木の画像のアイコンによって表される自然音のカテゴリに分類する。
【0040】
音選択プログラム300は、識別された音の分類に対応する1組のアイコンを表示する(ステップ350)。音ストリームの混合音の識別された音は、分類カテゴリに対応するそれぞれのアイコンに関連付けられ、AR眼鏡の表示領域上でユーザに提示される。音選択プログラム300は、音ストリームの分離された音のそれぞれについて、AR眼鏡の表示領域上にアイコンを描画する。より多くの分離された音が識別され、カテゴリ・アイコンが割り当てられるいくつかの実施形態では、音選択プログラム300は、ユーザによって考慮されるべき次の組のアイコンを表示するためのページング選択を用いて、限られた数のアイコンをAR眼鏡の表示領域に一度に表示してもよい。いくつかの実施形態では、表示されるアイコンは、分離された音が検出される方向を指し示す方向ポインタも含む。
【0041】
例えば、音選択プログラム300は、受信した混合音の分離された音を、自然の音としてカテゴリ化されるとともに対応する木のアイコンによって表される鳥の音として識別した後、ユーザによって装着されたAR眼鏡の表示領域上に木のアイコンを提示する。音選択プログラム300は、木のアイコンを提示することによって、AR眼鏡のユーザが鳥の音に対応するアイコンを選択することを可能にする。
【0042】
音選択プログラム300は、ユーザによる選択に基づいて、混合音から分離された音を録音する(ステップ370)。AR眼鏡のユーザには、AR眼鏡の表示領域上に1組のアイコンが提示され、各アイコンは、受信した音ストリームから分離された異なる音に対応する。AR眼鏡のユーザは、表示された1組のアイコンからアイコンの選択を行い、選択されたアイコンに関連付けられた分離された音の録音を開始する。いくつかの実施形態では、音選択プログラム300は、例えば、複数の人が話している社交的集まりにおける分離された音のカテゴリおよびサブカテゴリを表すアイコンの階層構造を含み、階層構造では、最初のアイコンが「人の音声」のカテゴリを表し、サブカテゴリが、会話中の3人のグループを表す3つの異なるアイコンを含んでもよい。
【0043】
例えば、音選択プログラム300は、AR眼鏡120(
図1)の表示領域125上に1組のアイコンを提示し、各アイコンは、音ストリームから別個に分離された音を表す。AR眼鏡120のユーザは、1組のアイコンを見て、自然音のカテゴリに関連付けられた木のアイコンに目の方向を合わせる。ユーザは、目の焦点を木のアイコンに合わせたまま素早く複数回まばたきするなどの選択アクションを実行し、音選択プログラム300は、AR眼鏡120の表示領域125上の木のアイコンに関連付けられた分離された音の録音を開始するための確認メッセージを提示する。ユーザは、録音を確認する選択アクションを実行し、音選択プログラム300は、木のアイコンに関連付けられた分離された音の録音を開始する。
【0044】
いくつかの実施形態では、音選択プログラム300は、AR眼鏡のユーザが複数の録音行為を実行するときに、継続して学習し、AR眼鏡のユーザが好む音カテゴリに関連付けられたアイコンを、AR眼鏡の表示領域上のより目立つ優先位置に表示する。いくつかの実施形態では、音選択プログラム300によって識別されない分離された音は、疑問符などの「不明」ステータスに対応するアイコンが割り当てられ、音を分類して既存のアイコンを関連付けるかまたは新しいアイコンを音に割り当てる機会をユーザに提供する。
【0045】
選択された分離音を録音した後、音選択プログラム300は終了する。
【0046】
図4は、本発明の一実施形態による、
図1に示されたコンポーネントを含むかまたはそのコンポーネントに動作可能に接続するように構成され、
図2の音選択プログラム300を動作的に実行する能力を備えたコンピューティング・デバイス405を含む、コンピューティング・システム400のコンポーネントのブロック図を示す。
【0047】
コンピューティング・デバイス405は、本発明の例示的な実施形態による、コンピューティング・デバイス110(
図1)のコンポーネントと同様のコンポーネントおよび機能的能力を含む。
図4が、一実装形態の例示を提供しているにすぎず、異なる実施形態が実装され得る環境に関していかなる制限も示唆しないことが理解されるべきである。図示された環境に対して多くの変更が加えられてもよい。
【0048】
コンピューティング・デバイス405は、コンピュータ・プロセッサ404と、メモリ406と、永続ストレージ408と、通信ユニット410と、入力/出力(I/O)インターフェース412との間の通信を提供する通信ファブリック402を含む。通信ファブリック402は、プロセッサ(マイクロプロセッサ、通信、およびネットワーク・プロセッサなど)と、システム・メモリと、周辺デバイスと、システム内の任意の他のハードウェア・コンポーネントとの間でデータまたは制御情報あるいはその両方を渡すように設計された任意のアーキテクチャを用いて実装され得る。例えば、通信ファブリック402は、1つまたは複数のバスを用いて実装され得る。
【0049】
メモリ406、キャッシュ・メモリ416、および永続ストレージ408は、コンピュータ可読記憶媒体である。この実施形態では、メモリ406は、ランダム・アクセス・メモリ(RAM)414を含む。一般に、メモリ406は、任意の好適な揮発性または不揮発性のコンピュータ可読記憶媒体を含むことができる。
【0050】
一実施形態では、音選択プログラム300は、メモリ406のうちの1つまたは複数のメモリを介した、それぞれのコンピュータ・プロセッサ404のうちの1つまたは複数による実行のために、永続ストレージ408に記憶される。この実施形態では、永続ストレージ408は、磁気ハード・ディスク・ドライブを含む。磁気ハード・ディスク・ドライブの代替としてまたは追加として、永続ストレージ408は、ソリッドステート・ハード・ドライブ、半導体記憶デバイス、読取り専用メモリ(ROM)、消去可能プログラマブル読取り専用メモリ(EPROM)、フラッシュ・メモリ、または、プログラム命令もしくはデジタル情報を記憶することが可能な他のコンピュータ可読記憶媒体を含むことができる。
【0051】
永続ストレージ408によって使用される媒体はまた、取り外し可能であってもよい。例えば、取り外し可能ハード・ドライブが、永続ストレージ408のために使用されてもよい。他の例には、光学ディスクおよび磁気ディスク、サム・ドライブ、ならびに永続ストレージ408の一部でもある別のコンピュータ可読記憶媒体に転送するためにドライブに挿入されるスマート・カードが含まれる。
【0052】
これらの例では、通信ユニット410は、分散データ処理環境100のリソースを含む他のデータ処理システムまたはデータ処理デバイスとの通信を提供する。これらの例では、通信ユニット410は、1つまたは複数のネットワーク・インターフェース・カードを含む。通信ユニット410は、物理通信リンクおよび無線通信リンクのいずれかまたは両方を使用して通信を提供してもよい。音選択プログラム300は、通信ユニット410を介して永続ストレージ408にダウンロードされてもよい。
【0053】
I/Oインターフェース412は、コンピューティング・システム400に接続され得る他のデバイスとのデータの入力および出力を可能にする。例えば、I/Oインターフェース412は、キーボード、キーパッド、タッチ・スクリーン、または何らかの他の好適な入力デバイスあるいはその組合せなどの外部デバイス418への接続を提供してもよい。外部デバイス418は、例えば、サム・ドライブ、携帯型の光学ディスクまたは磁気ディスク、およびメモリ・カードなどの携帯型コンピュータ可読記憶媒体を含むこともできる。本発明の実施形態を実施するために使用されるソフトウェアおよびデータ、例えば、音選択プログラム300は、そのような携帯型コンピュータ可読記憶媒体に記憶され、I/Oインターフェース412を介して永続ストレージ408にロードされ得る。インターフェース412は、ディスプレイ420にも接続する。
【0054】
ディスプレイ420は、データをユーザに表示するためのメカニズムを提供し、例えば、コンピュータ・モニタであってもよい。
【0055】
本明細書に記載のプログラムは、本発明の特定の実施形態においてそのプログラムが実装されるアプリケーションに基づいて、識別される。しかしながら、本明細書における任意の特定のプログラム命名法は単に便宜上使用されており、したがって、本発明はそのような命名法によって識別されるまたは暗示されるあるいはその両方である特定のアプリケーションでの使用のみに限定されるべきではないことを理解されたい。
【0056】
本発明は、任意の可能な技術的詳細の統合レベルでのシステム、方法、またはコンピュータ・プログラム製品あるいはその組合せであってもよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実施させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体(または複数のコンピュータ可読記憶媒体)を含んでもよい。
【0057】
コンピュータ可読記憶媒体は、命令実行デバイスが使用するための命令を保持および記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁気記憶デバイス、半導体記憶デバイス、または上記の任意の好適な組合せであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには以下のもの、すなわち、携帯型コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読取り専用メモリ(ROM)、消去可能プログラマブル読取り専用メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、携帯型コンパクト・ディスク読取り専用メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリ・スティック、フロッピ(登録商標)・ディスク、パンチカードまたは命令が記録された溝内の隆起構造体などの機械的に符号化されたデバイス、および上記の任意の好適な組合せが含まれる。本明細書で使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝播する電磁波、導波路もしくは他の伝送媒体を介して伝播する電磁波(例えば、光ファイバ・ケーブルを通る光パルス)、または電線を介して送信される電気信号などの、一過性の信号自体であると解釈されるべきではない。
【0058】
本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスにダウンロードされるか、ネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、または無線ネットワークあるいはその組合せを介して、外部コンピュータまたは外部記憶デバイスにダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバあるいはその組合せを含んでもよい。各コンピューティング/処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、そのコンピュータ可読プログラム命令を、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体における記憶のために転送する。
【0059】
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、インストラクション・セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路用の構成データ、または、Smalltalk(登録商標)、C++などのオブジェクト指向プログラミング言語および「C」プログラミング言語もしくは同様のプログラミング言語などの手続き型プログラミング言語を含む1つまたは複数のプログラミング言語の任意の組合せで記述されたソース・コードもしくはオブジェクト・コードのいずれかであってもよい。コンピュータ可読プログラム命令は、スタンドアロン・ソフトウェア・パッケージとして全体がユーザのコンピュータ上で、一部がユーザのコンピュータ上で、一部がユーザのコンピュータ上かつ一部がリモート・コンピュータ上で、または全体がリモート・コンピュータ上もしくはサーバ上で実行されてもよい。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)もしくはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、または(例えば、インターネット・サービス・プロバイダを使用してインターネットを介して)外部コンピュータに対して接続されてもよい。いくつかの実施形態では、本発明の態様を実行するために、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路が、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによって、コンピュータ可読プログラム命令を実行してもよい。
【0060】
本明細書では、本開示の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照しながら、本開示の態様を説明している。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方におけるブロックの組合せがコンピュータ可読プログラム命令によって実施され得ることが理解されよう。
【0061】
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行される命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックで指定された機能/作用を実施するための手段を作り出すように、コンピュータのプロセッサ、または他のプログラマブル・データ処理装置に提供されて、マシンを作り出すものであってもよい。これらのコンピュータ可読プログラム命令はまた、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックで指定された機能/作用の態様を実施する命令を含む製造品を含むように、コンピュータ可読媒体に記憶され、コンピュータ、プログラマブル・データ処理装置、または他のデバイスあるいはその組合せに対して特定の方式で機能するように指示できるものであってもよい。
【0062】
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブル装置、または他のデバイスで実行される命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックで指定された機能/作用を実施するように、コンピュータ実施プロセスを作り出すべくコンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされて、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実行させるものであってもよい。
【0063】
図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能性、ならびに動作を示す。これに関して、フローチャートまたはブロック図における各ブロックは、指定されたロジック機能を実装するための1つまたは複数の実行可能命令を含む、命令のモジュール、セグメント、または一部を表すことがある。いくつかの代替の実装形態では、ブロックに記載された機能は、図に記載された順序とは異なる順序で行われてもよい。例えば、連続して示されている2つのブロックは、実際には、関与する機能性に応じて、1つのステップとして達成されても、同時に、実質的に同時に、部分的にもしくは全体的に時間的に重複する様式で実行されてもよく、またはそれらのブロックは、場合によっては逆の順序で実行されてもよい。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組合せは、指定された機能または作用を実行するか、あるいは専用ハードウェアとコンピュータ命令との組合せを遂行する専用ハードウェア・ベースのシステムによって実装され得ることにも留意されたい。
【手続補正書】
【提出日】2023-09-07
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピュータの情報処理による複数音環境から1つまたは複数の音を選択的に録音する
ための方法であって、
1つまたは複数のプロセッサによって、複数の音源からの混合音を受信することと、
前記1つまたは複数のプロセッサによって、1つまたは複数の音分離技術を適用することによって前記混合音の分離を実行することと、
前記1つまたは複数のプロセッサによって、機械学習技術を使用した訓練に基づいて、前記複数の音源からの前記混合音の1つまたは複数の音を識別することと、
前記1つまたは複数のプロセッサによって、前記複数の音源からの前記混合音のそれぞれの識別された音に割り当てられた分類にそれぞれ対応する1組のアイコンを生成することと、
前記1つまたは複数のプロセッサによって、前記音に関連付けられている生成された前記1組のアイコンのうちの第1のアイコンの選択を、ユーザによる前記第1のアイコンを選択するアクションに基づいて受け取ることと、
前記1つまたは複数のプロセッサによって、前記ユーザによって選択された前記第1のアイコンに関連付けられた前記複数の音源からの前記混合音からの前記音を録音することと
を含む、方法。
【請求項2】
前記1つまたは複数のプロセッサによって、2つ以上のマイクロフォンを利用して前記混合音を受信することと、
前記1つまたは複数のプロセッサによって、前記ユーザの個人用デバイスのユーザ・インターフェース上に前記1組のアイコンを表示することであって、前記ユーザの前記個人用デバイスが、音を録音して録音された音を記憶するように構成された拡張現実(AR)眼鏡である、前記1組のアイコンを表示することと
をさらに含む、請求項1に記載の方法。
【請求項3】
前記1つまたは複数のプロセッサによって、2つ以上のマイクロフォンを利用して前記混合音を受信することと、
前記1つまたは複数のプロセッサによって、前記ユーザの個人用デバイスのユーザ・インターフェース上に前記1組のアイコンを表示することであって、前記ユーザの前記個人用デバイスが、音を録音して録音された音を記憶するように構成されたスマート・デバイスである、前記1組のアイコンを表示することと
をさらに含む、請求項1
または2に記載の方法。
【請求項4】
前記混合音に関連付けられている表示された前記1組のアイコンのうちの前記第1のアイコンを選択する前記ユーザの前記アクションによって選択された前記混合音からの前記音を録音することに関連付けられた1組のパラメータが、表示されたオプションを選択する前記ユーザによって制御される、請求項1
~3のいずれか1項に記載の方法。
【請求項5】
前記1組のアイコンのアイコンがカテゴリ分類に対応する、請求項1
~4のいずれか1項に記載の方法。
【請求項6】
前記音を録音している間に前記ユーザが前記混合音からの前記音の特性を変更し、前記音の前記特性が、録音の音量、音の高さおよび速度の属性を含む、請求項1
~5のいずれか1項に記載の方法。
【請求項7】
前記機械学習技術が、複数の別個のオーディオ音が前記別個のオーディオ音の識別とともに配信される、教師あり学習を含む、請求項1
~6のいずれか1項に記載の方法。
【請求項8】
複数音環境から1つまたは複数の音を選択的に録音するためのコンピュータ・
プログラムであって
、コンピュータに、
複数の音源からの混合音を受信する
ことと、
1つまたは複数の音分離技術を適用することによって前記混合音の分離を実行する
ことと、
機械学習技術を使用した訓練に基づいて、前記複数の音源からの前記混合音の1つまたは複数の音を識別する
ことと、
前記複数の音源からの前記混合音のそれぞれの識別された音に割り当てられた分類にそれぞれ対応する1組のアイコンを生成する
ことと、
前記音に関連付けられている生成された前記1組のアイコンのうちの第1のアイコンの選択を、ユーザによる前記第1のアイコンを選択するアクションに基づいて受け取る
ことと、
前記ユーザによって選択された前記第1のアイコンに関連付けられた前記複数の音源からの前記混合音からの前記音を録音する
ことと
を実行させるためのコンピュータ・
プログラム。
【請求項9】
コンピュータに、
2つ以上のマイクロフォンによって前記混合音を受信する
ことと、
前記ユーザの個人用デバイスのユーザ・インターフェース上に前記1組のアイコンを表示する
ことであって、前記ユーザの前記個人用デバイスが、音を録音して録音された音を記憶するように構成された拡張現実(AR)眼鏡である、前記1組のアイコンを表示する
ことと
をさらに実行させる、請求項8に記載のコンピュータ・
プログラム。
【請求項10】
コンピュータに、
2つ以上のマイクロフォンによって前記混合音を受信する
ことと、
前記ユーザの個人用デバイスのユーザ・インターフェース上に前記1組のアイコンを表示する
ことであって、前記ユーザの前記個人用デバイスが、音を録音して録音された音を記憶するように構成されたスマート・デバイスである、前記1組のアイコンを表示する
ことと
をさら
に実行させる、請求項8
または9に記載のコンピュータ・
プログラム。
【請求項11】
複数音環境から1つまたは複数の音を選択的に録音するためのコンピュータ・システムであって、前記コンピュータ・システムが、
1つまたは複数のコンピュータ・プロセッサと、
1つまたは複数のコンピュータ可読記憶媒体と、前記1つまたは複数のコンピュータ可読記憶媒体に記憶されたプログラム命令とを含み、前記プログラム命令が、
複数の音源からの混合音を受信するためのプログラム命令と、
1つまたは複数の音分離技術を適用することによって前記混合音の分離を実行するためのプログラム命令と、
機械学習技術を使用した訓練に基づいて、前記複数の音源からの前記混合音の1つまたは複数の音を識別するためのプログラム命令と、
前記複数の音源からの前記混合音のそれぞれの識別された音に割り当てられた分類にそれぞれ対応する1組のアイコンを生成するためのプログラム命令と、
前記音に関連付けられている生成された前記1組のアイコンのうちの第1のアイコンの選択を、ユーザによる前記第1のアイコンを選択するアクションに基づいて受け取るためのプログラム命令と、
前記ユーザによって選択された前記第1のアイコンに関連付けられた前記複数の音源からの前記混合音からの前記音を録音するためのプログラム命令と
を含む、コンピュータ・システム。
【請求項12】
2つ以上のマイクロフォンによって前記混合音を受信するためのプログラム命令と、
前記ユーザの個人用デバイスのユーザ・インターフェース上に前記1組のアイコンを表示するためのプログラム命令であって、前記ユーザの前記個人用デバイスが、音を録音して録音された音を記憶するように構成された拡張現実(AR)眼鏡である、前記1組のアイコンを表示するための前記プログラム命令と
をさらに含む、請求項
11に記載のコンピュータ・システム。
【請求項13】
2つ以上のマイクロフォンによって前記混合音を受信するためのプログラム命令と、
前記ユーザの個人用デバイスのユーザ・インターフェース上に前記1組のアイコンを表示するためのプログラム命令であって、前記ユーザの前記個人用デバイスが、音を録音して録音された音を記憶するように構成されたスマート・デバイスである、前記1組のアイコンを表示するための前記プログラム命令と
をさらに含む、請求項
11または12に記載のコンピュータ・システム。
【請求項14】
前記音を録音している間に前記混合音から前記音の特性を変更するプログラム命令が、前記ユーザから受信した選択されたオプションのプログラム命令に基づいており、前記音の前記特性が、録音の音量、音の高さおよび速度の属性を含む、請求項
11~13のいずれか1項に記載のコンピュータ・システム。
【請求項15】
機械学習技術を使用した訓練に基づいて前記1つまたは複数の音を識別するための前記プログラム命令が、
複数の別個のオーディオ音が前記別個のオーディオ音の識別とともに配信される、教師あり学習を含む機械学習技術を適用する
ためのプログラミング命令を含む、請求項
11~14のいずれか1項に記載のコンピュータ・システム。
【請求項16】
請求項8~10のいずれか1項に記載のコンピュータ・プログラムをコンピュータ可読に格納した記録媒体。
【国際調査報告】