特表2024-512178 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特表2024-512178個人用デバイス上で混合音ストリームから分離された音を録音すること

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-03-19

(54)【発明の名称】個人用デバイス上で混合音ストリームから分離された音を録音すること

(51)【国際特許分類】

G10L 21/0272 20130101AFI20240312BHJP

G10L 25/51 20130101ALI20240312BHJP

G10L 25/30 20130101ALI20240312BHJP

G06F 3/04817 20220101ALI20240312BHJP

G06F 3/16 20060101ALI20240312BHJP

【ＦＩ】

G10L21/0272 100Z

G10L25/51

G10L25/30

G06F3/04817

G06F3/16 680

G06F3/16 630

G06F3/16 620

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023541566

(86)(22)【出願日】2022-02-18

(85)【翻訳文提出日】2023-07-07

(86)【国際出願番号】 CN2022076768

(87)【国際公開番号】W WO2022179440

(87)【国際公開日】2022-09-01

(31)【優先権主張番号】17/187,868

(32)【優先日】2021-02-28

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】390009531

【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション

【氏名又は名称原語表記】ＩＮＴＥＲＮＡＴＩＯＮＡＬＢＵＳＩＮＥＳＳＭＡＣＨＩＮＥＳＣＯＲＰＯＲＡＴＩＯＮ

【住所又は居所原語表記】ＮｅｗＯｒｃｈａｒｄＲｏａｄ，Ａｒｍｏｎｋ，ＮｅｗＹｏｒｋ１０５０４，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100112690

【弁理士】

【氏名又は名称】太佐種一

(74)【代理人】

【識別番号】100120710

【弁理士】

【氏名又は名称】片岡忠彦

(74)【復代理人】

【識別番号】110000420

【氏名又は名称】弁理士法人ＭＩＰ

(72)【発明者】

【氏名】ラクシット、サルバジットケイ

(72)【発明者】

【氏名】ビーデ、マニッシュアナンド

(72)【発明者】

【氏名】ナガル、シーマ

(72)【発明者】

【氏名】カタリ、マドハビ

(72)【発明者】

【氏名】デイ、クンタル

【テーマコード（参考）】

5E555

【Ｆターム（参考）】

5E555AA46

5E555AA76

5E555BA88

5E555BB06

5E555BB08

5E555BE17

5E555CA47

5E555CB64

5E555DA08

5E555DA09

5E555DB18

5E555EA27

5E555FA00

(57)【要約】

本方法は、１つまたは複数のプロセッサが、複数の音源からの音ストリーム内の混合音を個人用デバイス上で受信することを実現する。１つまたは複数のプロセッサは、音分離技術に基づいて、複数の音源からの混合音の１つまたは複数の音を識別する。１つまたは複数のプロセッサは、複数の音源から識別された１つまたは複数の音の分類にそれぞれ対応するアイコンを個人用デバイスのユーザ・インターフェース上に表示する。１つまたは複数のプロセッサは、個人用デバイスのユーザによる個人用デバイスのユーザ・インターフェース上に表示されたアイコンを選択するアクションに基づいて、複数の音の混合音からの音の選択を受け取り、１つまたは複数のプロセッサは、ユーザによって選択された複数の音の混合音からの音を録音する。

【特許請求の範囲】

【請求項1】

複数音環境から１つまたは複数の音を選択的に録音する方法であって、
１つまたは複数のプロセッサによって、複数の音源からの混合音を受信することと、
前記１つまたは複数のプロセッサによって、１つまたは複数の音分離技術を適用することによって前記混合音の分離を実行することと、
前記１つまたは複数のプロセッサによって、機械学習技術を使用した訓練に基づいて、前記複数の音源からの前記混合音の１つまたは複数の音を識別することと、
前記１つまたは複数のプロセッサによって、前記複数の音源からの前記混合音のそれぞれの識別された音に割り当てられた分類にそれぞれ対応する１組のアイコンを生成することと、
前記１つまたは複数のプロセッサによって、前記音に関連付けられている生成された前記１組のアイコンのうちの第１のアイコンの選択を、ユーザによる前記第１のアイコンを選択するアクションに基づいて受け取ることと、
前記１つまたは複数のプロセッサによって、前記ユーザによって選択された前記第１のアイコンに関連付けられた前記複数の音源からの前記混合音からの前記音を録音することと
を含む、方法。

【請求項2】

前記１つまたは複数のプロセッサによって、２つ以上のマイクロフォンを利用して前記混合音を受信することと、
前記１つまたは複数のプロセッサによって、前記ユーザの個人用デバイスのユーザ・インターフェース上に前記１組のアイコンを表示することであって、前記ユーザの前記個人用デバイスが、音を録音して録音された音を記憶するように構成された拡張現実（ＡＲ）眼鏡である、前記１組のアイコンを表示することと
をさらに含む、請求項１に記載の方法。

【請求項3】

前記１つまたは複数のプロセッサによって、２つ以上のマイクロフォンを利用して前記混合音を受信することと、
前記１つまたは複数のプロセッサによって、前記ユーザの個人用デバイスのユーザ・インターフェース上に前記１組のアイコンを表示することであって、前記ユーザの前記個人用デバイスが、音を録音して録音された音を記憶するように構成されたスマート・デバイスである、前記１組のアイコンを表示することと
をさらに含む、請求項１に記載の方法。

【請求項4】

前記混合音に関連付けられている表示された前記１組のアイコンのうちの前記第１のアイコンを選択する前記ユーザの前記アクションによって選択された前記混合音からの前記音を録音することに関連付けられた１組のパラメータが、表示されたオプションを選択する前記ユーザによって制御される、請求項１に記載の方法。

【請求項5】

前記１組のアイコンのアイコンがカテゴリ分類に対応する、請求項１に記載の方法。

【請求項6】

前記音を録音している間に前記ユーザが前記混合音からの前記音の特性を変更し、前記音の前記特性が、録音の音量、音の高さおよび速度の属性を含む、請求項１に記載の方法。

【請求項7】

前記機械学習技術が、複数の別個のオーディオ音が前記別個のオーディオ音の識別とともに配信される、教師あり学習を含む、請求項１に記載の方法。

【請求項8】

複数音環境から１つまたは複数の音を選択的に録音するためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品が、
１つまたは複数のコンピュータ可読記憶媒体と、前記１つまたは複数のコンピュータ可読記憶媒体に記憶されたプログラム命令とを含み、前記プログラム命令が、
複数の音源からの混合音を受信するためのプログラム命令と、
１つまたは複数の音分離技術を適用することによって前記混合音の分離を実行するためのプログラム命令と、
機械学習技術を使用した訓練に基づいて、前記複数の音源からの前記混合音の１つまたは複数の音を識別するためのプログラム命令と、
前記複数の音源からの前記混合音のそれぞれの識別された音に割り当てられた分類にそれぞれ対応する１組のアイコンを生成するためのプログラム命令と、
前記音に関連付けられている生成された前記１組のアイコンのうちの第１のアイコンの選択を、ユーザによる前記第１のアイコンを選択するアクションに基づいて受け取るためのプログラム命令と、
前記ユーザによって選択された前記第１のアイコンに関連付けられた前記複数の音源からの前記混合音からの前記音を録音するためのプログラム命令と
を含む、コンピュータ・プログラム製品。

【請求項9】

２つ以上のマイクロフォンによって前記混合音を受信するためのプログラム命令と、
前記ユーザの個人用デバイスのユーザ・インターフェース上に前記１組のアイコンを表示するためのプログラム命令であって、前記ユーザの前記個人用デバイスが、音を録音して録音された音を記憶するように構成された拡張現実（ＡＲ）眼鏡である、前記１組のアイコンを表示するための前記プログラム命令と
をさらに含む、請求項８に記載のコンピュータ・プログラム製品。

【請求項10】

２つ以上のマイクロフォンによって前記混合音を受信するためのプログラム命令と、
前記ユーザの個人用デバイスのユーザ・インターフェース上に前記１組のアイコンを表示するためのプログラム命令であって、前記ユーザの前記個人用デバイスが、音を録音して録音された音を記憶するように構成されたスマート・デバイスである、前記１組のアイコンを表示するための前記プログラム命令と
をさらに含む、請求項８に記載のコンピュータ・プログラム製品。

【請求項11】

前記混合音に関連付けられている表示された前記１組のアイコンのうちの前記第１のアイコンを選択する前記ユーザの前記アクションによって選択された前記混合音からの前記音を録音することに関連付けられた１組のパラメータが、表示されたオプションを選択する前記ユーザによって制御される、請求項８に記載のコンピュータ・プログラム製品。

【請求項12】

前記音を録音している間に前記ユーザが前記混合音からの前記音の特性を変更し、前記音の前記特性が、録音の音量、音の高さ、および速度の属性を含む、請求項８に記載のコンピュータ・プログラム製品。

【請求項13】

前記機械学習技術が、複数の別個のオーディオ音が前記別個のオーディオ音の識別とともに配信される、教師あり学習を含む、請求項８に記載のコンピュータ・プログラム製品。

【請求項14】

複数音環境から１つまたは複数の音を選択的に録音するためのコンピュータ・システムであって、前記コンピュータ・システムが、
１つまたは複数のコンピュータ・プロセッサと、
１つまたは複数のコンピュータ可読記憶媒体と、前記１つまたは複数のコンピュータ可読記憶媒体に記憶されたプログラム命令とを含み、前記プログラム命令が、
複数の音源からの混合音を受信するためのプログラム命令と、
１つまたは複数の音分離技術を適用することによって前記混合音の分離を実行するためのプログラム命令と、
機械学習技術を使用した訓練に基づいて、前記複数の音源からの前記混合音の１つまたは複数の音を識別するためのプログラム命令と、
前記複数の音源からの前記混合音のそれぞれの識別された音に割り当てられた分類にそれぞれ対応する１組のアイコンを生成するためのプログラム命令と、
前記音に関連付けられている生成された前記１組のアイコンのうちの第１のアイコンの選択を、ユーザによる前記第１のアイコンを選択するアクションに基づいて受け取るためのプログラム命令と、
前記ユーザによって選択された前記第１のアイコンに関連付けられた前記複数の音源からの前記混合音からの前記音を録音するためのプログラム命令と
を含む、コンピュータ・システム。

【請求項15】

２つ以上のマイクロフォンによって前記混合音を受信するためのプログラム命令と、
前記ユーザの個人用デバイスのユーザ・インターフェース上に前記１組のアイコンを表示するためのプログラム命令であって、前記ユーザの前記個人用デバイスが、音を録音して録音された音を記憶するように構成された拡張現実（ＡＲ）眼鏡である、前記１組のアイコンを表示するための前記プログラム命令と
をさらに含む、請求項１４に記載のコンピュータ・システム。

【請求項16】

２つ以上のマイクロフォンによって前記混合音を受信するためのプログラム命令と、
前記ユーザの個人用デバイスのユーザ・インターフェース上に前記１組のアイコンを表示するためのプログラム命令であって、前記ユーザの前記個人用デバイスが、音を録音して録音された音を記憶するように構成されたスマート・デバイスである、前記１組のアイコンを表示するための前記プログラム命令と
をさらに含む、請求項１４に記載のコンピュータ・システム。

【請求項17】

前記混合音に関連付けられている表示された前記１組のアイコンのうちの前記第１のアイコンを選択する前記ユーザの前記アクションによって選択された前記混合音からの前記音を録音することに関連付けられた１組のパラメータが、表示されたオプションを選択する前記ユーザによって制御される、請求項１４に記載のコンピュータ・システム。

【請求項18】

前記１組のアイコンのアイコンがカテゴリ分類に対応する、請求項１４に記載のコンピュータ・システム。

【請求項19】

前記音を録音している間に前記混合音から前記音の特性を変更するプログラム命令が、前記ユーザから受信した選択されたオプションのプログラム命令に基づいており、前記音の前記特性が、録音の音量、音の高さおよび速度の属性を含む、請求項１４に記載のコンピュータ・システム。

【請求項20】

機械学習技術を使用した訓練に基づいて前記１つまたは複数の音を識別するための前記プログラム命令が、
複数の別個のオーディオ音が前記別個のオーディオ音の識別とともに配信される、教師あり学習を含む機械学習技術を適用する
ためのプログラミング命令を含む、請求項１４に記載のコンピュータ・システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、一般に、音源録音の分野に関し、より詳細には、録音対象を選択するために、関心のある音源を分離することに関する。

【背景技術】

【0002】

多くの環境は複数の音源を含み、複数の音源は、一体化して混ざり合い、区別不能な音の集合ストリームになっているように見える。集合音ストリームは、複数の同時会話が行われている大規模な社交的集まりなどの屋内に存在する可能性がある。屋外においても集合音ストリームが存在する可能性があり、風、鳥、雨などの自然音と、人が遊んでいる音、話している音、自動車が走行する音などの人工音との組合せを含む可能性がある。複数の音源が融合して、一体化した背景音になっているように見えることがある。

【0003】

一般に、音源および音の識別は、複数の音が同時に発生することによって影響を受ける。３次元における音源の位置、方位、高さ、および距離を決定すること。音源の位置を決定することは、３種類のキュー（cues）、すなわち、２つのバイノーラル・キュー（両耳間時間差および両耳間レベル差）、ならびに１つのモノーラル・スペクトラル・キュー（頭部伝達関数（ｈｅａｄ－ｒｅｌａｔｅｄｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎ））に基づいている。音定位（ｓｏｕｎｄｌｏｃａｌｉｚａｔｉｏｎ）は、バイノーラル・キュー（両耳間差）、人の耳もしくはデュアル・マイクロフォンなどの２つの検出器に到達する音の差（すなわち、左右の耳における音の到達時間もしくは強度の差）、またはモノーラル・スペクトラル・キュー（例えば、周波数に依存する音のパターン）に基づいている。

【0004】

実際の周囲の視野に適用される特徴および機能を含めるために、しばしば、拡張現実眼鏡が使用される。いくつかの事例では、拡張現実眼鏡は、拡張現実（ＡＲ：ａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ）眼鏡が向けられている方向の周囲の視野に加えて表示される、視野画面に対して画像またはインジケータを追加することができる。他の事例では、ＡＲ眼鏡は、周囲の視野の方向に関連付けられた情報を含み、この情報は、文字、記号、またはオーディオの再生の形式であることがある。

【発明の概要】

【0005】

本発明の実施形態は、複数音環境から分離された１つまたは複数の音を選択的に録音するための方法、コンピュータ・プログラム製品、およびシステムを開示する。本方法は、１つまたは複数のプロセッサが、複数の音源からの音ストリーム内の混合音（ｍｉｘｔｕｒｅｏｆｓｏｕｎｄｓ）を個人用デバイス上で受信することを実現する。１つまたは複数のプロセッサは、音分離技術に基づいて、複数の音源からの混合音の１つまたは複数の音を識別する。１つまたは複数のプロセッサは、複数の音源から識別された１つまたは複数の音の分類にそれぞれ対応するアイコンを個人用デバイスのユーザ・インターフェース上に表示する。１つまたは複数のプロセッサは、ＡＲ眼鏡のユーザによる、個人用デバイスのユーザ・インターフェース上に表示されたアイコンを選択するアクションに基づいて、複数の音の混合音からの音の選択を受け取り、１つまたは複数のプロセッサは、ユーザによって選択された複数の音の混合音からの音を録音する。

【図面の簡単な説明】

【0006】

【図1】本発明の一実施形態による、分散データ処理環境を示す機能ブロック図である。

【図2】本発明の一実施形態による、ユーザの個人用デバイスの領域内に表示される音カテゴリ・アイコンの例を示す図である。

【図3】本発明の実施形態による、図１の分散データ処理環境で動作する音選択プログラムの動作ステップを示すフローチャートである。

【図4】本発明の一実施形態による、図３の音選択プログラムを動作可能に実行するように構成されたコンピューティング・デバイスを含む、コンピューティング・システムのコンポーネントのブロック図である。

【発明を実施するための形態】

【0007】

本発明の実施形態では、様々な音源からの音が同時に発生している可能性があること、また、ある音源の１つの音を他のそれぞれの音源からの他の音から識別および区別することの現在の困難さが認識されている。実施形態ではさらに、鳥のさえずり、複数の車両の音、人間の声、ならびに風および雨などの自然音など、一緒に発生する音の方向および近さを決定することの困難さが認識されている。実施形態ではまた、混合音内の特徴構成の不一致に焦点を当てた、繰り返しパターン、時間的規則性、および時間周波数分解技術およびアルゴリズムを適用することによって、音定位を決定できること、また音の分離を実現できることも認識されている。

【0008】

本発明の実施形態は、混合音を形成する検出された音源の定位を決定するための、コンピュータ・プログラム製品、およびコンピュータ・システムを提供し、個人用デバイス上でユーザが選択した音の分離および録音を可能にする。いくつかの実施形態では、個人用デバイスは、２つ以上のマイクロフォンと、無線ネットワーク接続と、音選択プログラムを実行するためのリソースとを有するように構成された一対の拡張現実（ＡＲ）眼鏡である。他の実施形態では、個人用デバイスは、混合音の音ストリームを受信するように構成されるとともに音選択プログラムを動作させることが可能な、スマートフォンまたは他のスマート・デバイスであってもよい。

【0009】

いくつかの実施形態では、検出された混合音は、分離され、個人用デバイスのユーザに表示されるアイコンによって表されるカテゴリに分類される。ユーザは、音の種類および音源を表すアイコンを選択し、選択した音を聞くこと、および録音することができる。いくつかの実施形態では、録音用に選択された生の分離された音を以前に録音された音に追加することによって、新しい録音を行うことができる。いくつかの実施形態では、音を分離して個人用デバイスのディスプレイ上に別個の音源を提示するように構成された個人用デバイスのユーザは、録音すべき１つまたは複数の音の特性を変更し、特性は、音量の調整または音の高さの変更などの属性を含んでもよい。録音パラメータの制御は、個人用デバイスから選択可能である。複数のユーザによって共同ブロードキャストが受信されるいくつかの実施形態では、各ユーザは、それぞれの個人用デバイスでブロードキャストから別個の音を選択し、選択した音を録音することができる。さらに他の実施形態では、個人用デバイスのユーザには、関心履歴またはユーザによる直接入力に基づいて、ユーザにとって関心のある音を表す優先位置にアイコンが提示される。

【0010】

本発明の実施形態では、個人用デバイスの２つ以上のマイクロフォンが、別個の音源からの複数の音を含む音ストリームを受信する。音は、時間周波数オフセット分解および音の繰り返しの時間的規則性など、有効な音選択技術ならびにアルゴリズムを使用して分離される。分離された音は、機械学習を利用して、人工知能（ＡＩ：ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）モデルを訓練することによって確立されたカテゴリに分類される。訓練は、個々の音の教師あり学習技術を適用すること、および類似した音を分類のカテゴリにクラスタリングすることを含む。いくつかの実施形態では、カテゴリは、カテゴリの１つまたは複数のサブレベルまでさらに掘り下げられてもよい。分離された音のカテゴリは、対応するアイコンを含み、対応するアイコンは、例えば、スマートフォンのディスプレイ画面、ＡＲ眼鏡の内側部分のディスプレイ、またはスマートウォッチのディスプレイなどのユーザの個人用デバイスのディプレイ・コンポーネント上でユーザに提示される。

【0011】

いくつかの実施形態では、アイコンの表示は、音源の方向インジケータを含む。他の実施形態では、相対距離が、例えば方向インジケータの長さによって指し示されてもよい。分離された音の方向は、分離されたマイクロフォン間の受信音の時間遅延測定によって決定される。いくつかの実施形態では、方向および距離に関する音定位検出の正確度を向上させるために、個人用デバイスにマイクロフォンの補助アレイが接続されてもよい。

【0012】

本発明の実施形態では、個人用デバイスのユーザは、分離された音のアイコンをディスプレイ上で見て、音に関連付けられたアイコンを選択するアクションを実行することによって、録音する音を選択する。個人用デバイスとしてのＡＲ眼鏡の選択アクションは、ＡＲ眼鏡ディスプレイの内面に表示されたアイコンに向かう目の焦点方向を検出し、まばたきのパターンを実行することを含んでもよい。任意選択として、ＡＲ眼鏡の選択アクションは、ＡＲ眼鏡ディスプレイに表示される選択された音アイコンの位置に向けられる手のジェスチャであってもよい。いくつかの実施形態では、選択された音の特性を記録するためのオプションがユーザに提示される。例えば、ユーザは、選択された音の音量属性を拡張することを選択してもよく、または、選択された音が複数録音されている場合、ユーザは、ある分離された音の音量を上げ、他の録音された音の音量を下げてもよい。

【0013】

次に、図面を参照して本発明を詳細に説明する。図１は、本発明の一実施形態による、一般に１００で示される分散コンピュータ処理環境を示す機能ブロック図である。図１は、１つの実装形態の例示のみを提供しており、異なる実施形態が実装され得る環境に対する制限を示唆するものではない。特許請求の範囲に記載された本発明の範囲から逸脱することなく、当業者によって、図示された環境に対して多くの修正が行われてもよい。

【0014】

分散コンピュータ処理環境１００は、ネットワーク１５０を介して相互接続された、コンピューティング・デバイス１１０および拡張現実（ＡＲ）眼鏡１２０を含む。分散コンピュータ処理環境１００は、音ストリームとして、複数の音源からの混合音を含む音ストリームを表す混合音１３０を含む。ネットワーク１５０は、例えば、ローカル・エリア・ネットワーク（ＬＡＮ）、インターネットなどのワイド・エリア・ネットワーク（ＷＡＮ）、仮想ローカル・エリア・ネットワーク（ＶＬＡＮ）、または有線接続、無線接続、もしくは光接続を含むことができる任意の組合せとすることができる。一般に、ネットワーク１５０は、通信およびデータ伝送をサポートする接続およびプロトコルの任意の組合せとすることができる。

【0015】

コンピューティング・デバイス１１０は、ユーザ・インターフェース１１５と、音選択プログラム３００とを含み、音選択プログラム３００はさらに、録音機能１１７を含むように図示されている。いくつかの実施形態では、コンピューティング・デバイス１１０は、（図１に示すように）ネットワーク１５０を介してＡＲ眼鏡１２０に通信可能に接続された別個のデバイスであり、音選択および録音機能ならびにメモリ・ストレージを提供する。他の実施形態では、コンピューティング・デバイス１１０は、ＡＲ眼鏡１２０の一体型コンポーネント（図示せず）である。

【0016】

いくつかの実施形態では、コンピューティング・デバイス１１０は、ブレード・サーバ、ウェブ・サーバ、ラップトップ・コンピュータ、デスクトップ・コンピュータ、スタンドアロン・モバイル・コンピューティング・デバイス、スマートフォン、タブレット・コンピュータ、またはデータを受信、送信、および処理することが可能な別の電子デバイスもしくはコンピューティング・システムとすることができる。他の実施形態では、コンピューティング・デバイス１１０は、ＡＲ眼鏡など、装着型アイテムであるか、またはユーザの装着型アイテムに含まれていてもよい。さらに他の実施形態では、コンピューティング・デバイス１１０は、クラウド・コンピューティング環境でホストされ動作するアプリケーションおよびサービスと対話するコンピューティング・デバイスであってもよい。別の実施形態では、コンピューティング・デバイス１１０は、ネットブック・コンピュータ、携帯情報端末（ＰＤＡ：ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ）、または、ネットワーク１５０を介して分散コンピュータ処理環境１００内の（図示された、また図示されていない）他のデバイスと通信してデータを受信するとともに、リソース予測プログラム３００の動作を実行することが可能な、他のプログラム可能な電子デバイスとすることができる。代替として、いくつかの実施形態では、コンピューティング・デバイス１１０は、リモートで動作する音選択プログラム３００に通信可能に接続されてもよい。コンピューティング・デバイス１１０は、図４でより詳細に図示されている内部および外部のハードウェア・コンポーネントを含んでもよい。

【0017】

ユーザ・インターフェース１１５は、コンピューティング・デバイス１１０の特徴および機能にアクセスするためのインターフェースを提供する。本発明のいくつかの実施形態では、ユーザ・インターフェース１１５は、音選択プログラム３００のオプションを動作および選択するためのアクセスを提供し、また、録音機能１１７またはコンピューティング・デバイス１１０の他のアプリケーション、特徴、および機能（図示せず）のオプションを開始ならびに選択することをサポートしてもよい。いくつかの実施形態では、ユーザ・インターフェース１１５は、コンピューティング・デバイス１１０に表示入出力機能を提供する。他の実施形態では、ユーザ・インターフェース１１５は、表示領域１２５などのＡＲ眼鏡１２０のコンポーネントであり、表示出力を提供し、コンピューティング・デバイス１１０上で動作する音選択プログラム３００に関連するオプションおよび機能の選択を可能にする。

【0018】

ユーザ・インターフェース１１５は、アラート、通知へのアクセスをサポートし、通信形態へのアクセスを提供する。一実施形態では、ユーザ・インターフェース１１５は、グラフィカル・ユーザ・インターフェース（ＧＵＩ）またはウェブ・ユーザ・インターフェース（ＷＵＩ）であってもよく、ユーザ入力を受け取り、文字、文書、ウェブ・ブラウザ・ウィンドウ、ユーザ・オプション、アプリケーション・インターフェース、および動作のための指示を表示することができ、プログラムがユーザに提示する情報（グラフィック、文字、および音など）、ならびにユーザがプログラムを制御するために使用する制御シーケンスを含むことができる。別の実施形態では、ユーザ・インターフェース１１５はまた、コンピューティング・デバイス１１０の特徴および機能にそれぞれのインターフェースを提供するモバイル・アプリケーション・ソフトウェアを含んでもよい。ユーザ・インターフェース１１５は、コンピューティング・デバイス１１０およびＡＲ眼鏡１２０のそれぞれのユーザが、入力を受け取ること、見ること、聞くこと、応答すること、アプリケーションにアクセスすること、オンライン上での会話によるやり取りの内容を表示すること、および利用可能な機能を実行することを可能にする。

【0019】

音選択プログラム３００は、複数の音源からの複数の音の混合音を含む音ストリームの１つまたは複数の音を検出および選択し、選択した分離された音を録音するためのアプリケーションである。本発明の実施形態では、音選択プログラム３００は、音方向検出を可能にする２つ以上の分離されたマイクロフォンから入力された音を受信するように構成された、ユーザの個人用デバイスから動作する。いくつかの実施形態では、ユーザの個人用デバイスは、スマートフォンの両側または両端に位置するなど、音源方向を検出するように配置された２つ以上のマイクロフォンを含む、適切に構成されたスマートフォンであってもよい。他の実施形態では、ユーザの個人用デバイスは、コンピューティング・デバイス１１０の機能的能力を含み、音選択プログラム３００および録音機能１１７を動作させることが可能な、ＡＲ眼鏡などの装着型アイテムである。

【0020】

図１は、音選択プログラム３００および録音機能１１７の役割を示すために、コンピューティング・デバイス１１０をＡＲ眼鏡１２０とは別個のものとして図示しているが、本発明のいくつかの実施形態では、ＡＲ眼鏡１２０がコンピューティング・デバイス１１０のコンピュータ機能を含み、音選択プログラム３００および録音機能１１７を動作的に実行することが認識されている。本発明の実施形態の特徴を明確かつ簡潔に伝えるために、本明細書では、ユーザの個人用デバイスは、ＡＲ眼鏡１２０などのＡＲ眼鏡を参照することによって言及される。さらに、本発明の実施形態は、音選択プログラム３００および録音機能１１７の動作ステップを実行する個人用デバイスとしてのＡＲ眼鏡に限定されないことに留意されたい。

【0021】

音選択プログラム３００は、複数の音の混合音ストリームに含まれる音源からの音を認識してカテゴリ化するための機械学習技術を含む。一実施形態では、音選択プログラム３００は、複数の種類の複数の音をサブミットおよび識別することによって訓練され、さらに、音ストリームの同時混合音内のサブミットおよび識別された音を検出するように訓練される。いくつかの実施形態では、音は、音のカテゴリにクラスタリングされ、それぞれのカテゴリには、検出される音の選択を可能にして容易にするためのアイコンが関連付けられる。いくつかの実施形態では、カテゴリは、サブカテゴリに掘り下げられてもよい。音選択プログラム３００は、それぞれの音源からの複数の音を含む音ストリームを受信する。いくつかの実施形態では、音選択プログラム３００は、それぞれの音の音源の方向を決定し、それぞれの音のカテゴリを識別する。音選択プログラム３００は、分離された音のカテゴリに対応するアイコンを、ＡＲ眼鏡１２０の表示領域１２５などのユーザ・インターフェース・ディスプレイ上に表示する。音選択プログラム３００は、複数の音の音ストリームから検出および分離された音のためのアイコンおよび方向ポインタを表示する。

【0022】

いくつかの実施形態では、音選択プログラム３００は、ＡＲ眼鏡１２０のユーザから、分離された音に対応するアイコンの選択を受け取る。いくつかの実施形態では、アイコンの選択肢は、選択された音の録音を確認するためのオプションをユーザに提示し、音の音量を上げるまたは下げるという属性など、音が録音されたときに音の特性を変更するためのオプションを含んでもよい。いくつかの実施形態では、ユーザは、録音された音の特性を変更するためのオプションを含む、同時に録音するための１つまたは複数のアイコンを選択する。

【0023】

録音機能１１７は、音選択プログラム３００のモジュールであり、選択された音を録音し、選択された特性を録音に適用するための機能を提供する。いくつかの実施形態では、録音機能１１７は録音を記憶し、以前に記憶された録音を呼び出す機能を含む。いくつかの実施形態では、録音機能１１７は、以前に録音された音をユーザに提示されるオプションとしてコピーし、以前に録音された音のコピーに別の音の録音を混合することを可能にすることができる。複数の音の混合音を含むブロードキャストが複数のユーザによって受信される実施形態では、音選択プログラム３００は、それぞれのユーザが、複数の音の混合音のブロードキャストから別個の音を選択して録音することを可能にする。

【0024】

ＡＲ眼鏡１２０は、拡張現実眼鏡であり、電源１２２、マイクロフォン１２４、表示領域１２５、処理およびメモリ・コンポーネント１２６、無線通信１２７、およびオーディオ・スピーカ１２８を含む、例示的な構成で示されている。ＡＲ眼鏡は、コンピューティング・デバイス１１０に無線で通信可能に接続されているものとして示されている。いくつかの実施形態では、コンピューティング機能、音選択プログラム３００、および録音機能１１７は、ＡＲ眼鏡１２０に含まれる（図示せず）。いくつかの実施形態では、ＡＲ眼鏡１２０は、音選択プログラム３００を含み、音選択プログラム３００を動作させて、表示領域１２５上に混合音の音ストリームから検出された音のアイコンを表示する。いくつかの実施形態では、ＡＲ眼鏡１２０のユーザは、表示領域１２５に表示されたアイコンに目の焦点を合わせ、ＡＲ眼鏡１２０のカメラ機能（図示せず）によって検出されたまばたきのアクションを実行することによって、検出された音の分類に対応するアイコンを選択する。他の実施形態では、ＡＲ眼鏡１２０のユーザは、選択されたアイコンの表示と一致する手のジェスチャを実行することによって、表示領域１２５に表示されたアイコンを選択する。

【0025】

電源１２２は、例としてＡＲ眼鏡１２０の耳掛け部（ｅａｒｐｉｅｃｅ）として示されている、ＡＲ眼鏡１２０のコンポーネントである。電源１２２は、ＡＲ眼鏡１２０の処理および表示機能に電力を供給する。マイクロフォン１２４は、ＡＲ眼鏡１２０の対向するテンプルのアーム上に配置された一対のマイクロフォンとして示されている。マイクロフォン１２４は、複数の音源からの混合音を含み得る音ストリームを受信する。マイクロフォン１２４は、音源の方向の決定を可能にするように配置される。メモリ・コンポーネント１２６は、一次揮発性メモリと録音された選択された音を記憶するための記憶メモリとを含む、ＡＲ眼鏡１２０のコンポーネントの一例として示されている。メモリ・コンポーネント１２６は、マイクロフォン１２４を通して受信された音ストリームからの音の処理、および音選択プログラム３００の動作をサポートする。ＡＲ眼鏡１２０がコンピューティング・デバイス１１０とは別個であるが通信可能に接続されているいくつかの実施形態では、無線通信１２７は、ネットワーク１５０を介したＡＲ眼鏡１２０のコンピューティング・デバイス１１０への無線接続を可能にする。オーディオ・スピーカ１２８は、音選択プログラム３００によって処理された音のオーディオ出力をＡＲ眼鏡１２０のユーザに提供し、これらの音は、ユーザによって行われた選択に基づいて、分離されてオーディオ・スピーカ１２８に配信される。

【0026】

混合音１３０は、複数のそれぞれの音源からの複数の音の混合音を含む音ストリームである。混合音１３０は、鳥の音１４０と、自動車の音１４２と、遊び場の音１４４と、風の音１４６を含む追加の音との混合音を含むものとして示されている。混合音１３０は、ＡＲ眼鏡１２０のマイクロフォン１２４によって受信され、ＡＲ眼鏡１２０のユーザによる選択のために、混合音１３０から分離された音に対応するアイコンを提示するように音選択プログラム３００によって処理される。

【0027】

図２は、本発明の一実施形態による、ユーザの個人用デバイスの領域に表示される音カテゴリ・アイコンの一例を示す。図２は、表示領域２１０、車両アイコン２２０および対応する方向ポインタ２２２、人アイコン２３０および方向ポインタ２３２、自然アイコン２４０および方向ポインタ２４２、遊び場アイコン２５０および方向ポインタ２５２、風アイコン２６０および方向ポインタ２６５、ならびに選択インジケータ２７０を含む。表示領域２１０内の各アイコンは、ＡＲ眼鏡１２０（図１）などのユーザの個人用デバイスによって受信された音ストリーム内の混合音から分離され識別された音を表す。対応する各方向ポインタは、音源の検出された方向を指し示す。

【0028】

表示領域２１０に表示されるアイコンは、音のカテゴリを表し、本発明のいくつかの実施形態では、音選択プログラム３００の訓練中に割り当てられる。表示領域２１０に表示されるアイコンによって表される音ストリームの例には、方向ポインタ２２２の方向で検出され、車両アイコン２２０によって表される自動車交通からの音が含まれる。いくつかの実施形態では、例えば、トラック、バス、オートバイ、電車、および自転車などの車両から発生する音が、車両アイコン２２０によって表される。同様に、話している可能性がある人、歌っている可能性がある人、叫んでいる可能性がある人、咳をしている可能性がある人などによって発せられる音が、人アイコン２３０によって表され、人の音の検出された方向は、方向ポインタ２３２によって指し示される。いくつかの実施形態では、様々な鳥、犬、猫、または他の動物からの音が、自然アイコン２４０によって表され、検出された音の方向は、方向ポインタ２４２によって指し示される。いくつかの実施形態では、遊び場アイコン２５０および対応する方向ポインタ２５２は、遊び場またはスポーツ・イベント・エリアから検出される音を表し、吹いている風からの音の検出が、風アイコン２６０によって表され、方向ポインタ２６５は、音が一方向ではないことを指し示している。

【0029】

選択インジケータ２７０は、ユーザの個人用デバイスの表示領域２１０に表示されたアイコンを選択するユーザの指示を表す。いくつかの実施形態では、ユーザの個人用デバイスは、音ストリーム内の混合音から分離された様々な音を表すユーザ・アイコンを提示し、ユーザが音を選択してその音を録音することを可能にする。一実施形態では、ユーザの目は、表示領域２１０上に提示されたアイコンのうちの１つの方を向いて、焦点を合わせる。ユーザは、目の方向の焦点を合わせたまま、選択アクション、例えば複数回まばたきすることなどを実行する。選択インジケータ２７０は、行われた選択のユーザ確認フィードバックを提供する。選択されたアイコンが意図しないものであるとユーザが判断した場合、ユーザは、目の焦点を、元に戻すアイコン２８０に向けて、現在の選択を削除し、別の選択を行うことができる。

【0030】

図３は、本発明の実施形態による、図１の分散コンピュータ処理環境１００において動作する音選択プログラム３００の動作ステップを示すフローチャートである。本発明の実施形態は、音選択プログラム３００が動作するユーザの個人用デバイスを含む。音選択プログラム３００は、ユーザの適切に構成された個人用デバイスが、音ストリーム内の混合音を受信し、音分離機能を実行し、分離された音をカテゴリ化し、分類に対応するアイコンをユーザのデバイスの表示コンポーネントに提示することを可能にする。音選択（sound separation）プログラム３００は、ユーザが、音を選択し、分離された音の録音を実行し、音の録音の特性を調整することを可能にする。

【0031】

いくつかの実施形態では、ユーザの個人用デバイスは、音の混合音ストリームを受信し、受信した音に対して音分離および音定位機能を実行するように構成された、スマートフォンまたはスマート・デバイス（すなわち、スマートウォッチ）である。他の実施形態では、ユーザの個人用デバイスは、音選択プログラム３００を動作させて、選択した分離された音を録音するためのコンピュータ機能および特徴を有するように構成された、一対のＡＲ眼鏡である。他の実施形態では、音選択プログラム３００は、他の装着型デバイスに含まれ、他の装着型デバイスから動作する。音選択プログラム３００の機能およびステップを明確に説明するために、ユーザの個人用デバイスがＡＲ眼鏡に限定されないことを認識した上で、ユーザの個人用デバイスを、適切に構成された１組のＡＲ眼鏡と称する。

【0032】

音選択プログラム３００は、複数の音源から混合音を受信する（ステップ３１０）。音選択プログラム３００は、ユーザのＡＲ眼鏡に接続されたマイクロフォンから混合音を受信する。混合音は、混ざり合って単一の音ストリームになったものとして認識されるそれぞれの複数の音源からの複数の音を含む。音ストリームを検出するマイクロフォンは、ＡＲ眼鏡上に配置されて、音信号の相対的な振幅に基づいて、音源の方向と、場合によっては音源の距離とを含む音定位を決定することを可能にする。

【0033】

例えば、音選択プログラム３００は、図１のＡＲ眼鏡１２０のマイクロフォン１２４などの、ＡＲ眼鏡のアーム上に配置されたマイクロフォンから検出された音ストリームを受信する。音選択プログラム３００は、それぞれの複数の音源からの複数の別個の音を含むと決定された音ストリームを受信する。

【0034】

音選択プログラム３００は、音分離技術を使用して混合音の分離を実行する（ステップ３２０）。音選択プログラム３００は、受信した音ストリームに音定位および音分離の技術ならびにアルゴリズムを適用して、複数の音源からの複数の音の分離を実行する。いくつかの実施形態では、音分離技術は、混合オーディオ入力における時間的規則性を検出する時間周波数法を利用する。いくつかの実施形態では、音分離技術は、時間的コヒーレントを含み、コヒーレントに変調された特徴を音源のパターンとして放出する。いくつかの実施形態では、音定位は、ＡＲ眼鏡の２つ以上のマイクロフォン間で音信号を受信する際の時間遅延を決定することによって、混合音から分離された音の方向を決定する。

【0035】

例えば、音選択プログラム３００は、受信した音ストリームに音分離技術を適用し、音ストリーム内に含まれる少なくとも４つの成分の音を決定する。いくつかの実施形態では、音源が混合音の他の音から分離されると、音選択プログラムは、音の方向を決定し、ＡＲ眼鏡を装着しているユーザが向いている方向に関係なく相対的な方向を表示できるように、その方向を磁気コンパス方位に関連付ける。

【0036】

音選択プログラム３００は、混合音から分離された１つまたは複数の音を識別する（ステップ３３０）。本発明のいくつかの実施形態では、音選択プログラム３００は、混合音から分離された音の種類を識別し、識別された音を分類カテゴリに割り当てるための機械学習訓練を含む。例示的な実施形態では、音選択プログラム３００は、様々な音量レベルで提供された様々な以前に録音された音を含む教師あり学習技術を使用して訓練され、音を個別に提示した後、追加の背景音および干渉音とともに音を提示する。いくつかの実施形態では、音選択プログラム３００の訓練は、特定の音源または「音の種類」（すなわち、原動機付き車両）の音認識を可能にする。いくつかの実施形態では、音選択（sound separation）プログラム３００の訓練は音声認識を含み、音声認識は、音選択プログラム３００が別々の話者を区別し、場合によっては十分な訓練によって話者を識別することを可能にする。

【0037】

例えば、音選択（sound separation）プログラム３００は、とりわけ、鳥の音、車の音、および人が話している音、および遊び場からの音を使用する機械学習訓練を受けている。訓練の結果として、これらの音またはこれらの音に非常に似ている音の認識がもたらされる。受信した音ストリーム内の混合音から音を分離した後、音選択プログラム３００は、分離された音が鳥の音に最も厳密に一致していると決定する。

【0038】

音選択（sound separation）プログラム３００は、識別された音を、対応するアイコンによって表される分類カテゴリに割り当てる（ステップ３４０）。音ストリーム内の混合音から分離された音を識別した後、音選択プログラム３００は、識別された音に最も厳密に一致するカテゴリを決定し、識別された音を、対応するアイコンによって表されるカテゴリに割り当てる。いくつかの実施形態では、ＡＲ眼鏡において動作する音選択プログラム３００の機械学習訓練中、音が分類されるカテゴリおよび対応するアイコンがユーザによって選択および入力される。

【0039】

例えば、音選択プログラム３００は、受信した音ストリームから分離された音を鳥の音として識別した後、鳥の音を、対応する木の画像のアイコンによって表される自然音のカテゴリに分類する。

【0040】

音選択プログラム３００は、識別された音の分類に対応する１組のアイコンを表示する（ステップ３５０）。音ストリームの混合音の識別された音は、分類カテゴリに対応するそれぞれのアイコンに関連付けられ、ＡＲ眼鏡の表示領域上でユーザに提示される。音選択プログラム３００は、音ストリームの分離された音のそれぞれについて、ＡＲ眼鏡の表示領域上にアイコンを描画する。より多くの分離された音が識別され、カテゴリ・アイコンが割り当てられるいくつかの実施形態では、音選択プログラム３００は、ユーザによって考慮されるべき次の組のアイコンを表示するためのページング選択を用いて、限られた数のアイコンをＡＲ眼鏡の表示領域に一度に表示してもよい。いくつかの実施形態では、表示されるアイコンは、分離された音が検出される方向を指し示す方向ポインタも含む。

【0041】

例えば、音選択プログラム３００は、受信した混合音の分離された音を、自然の音としてカテゴリ化されるとともに対応する木のアイコンによって表される鳥の音として識別した後、ユーザによって装着されたＡＲ眼鏡の表示領域上に木のアイコンを提示する。音選択プログラム３００は、木のアイコンを提示することによって、ＡＲ眼鏡のユーザが鳥の音に対応するアイコンを選択することを可能にする。

【0042】

音選択プログラム３００は、ユーザによる選択に基づいて、混合音から分離された音を録音する（ステップ３７０）。ＡＲ眼鏡のユーザには、ＡＲ眼鏡の表示領域上に１組のアイコンが提示され、各アイコンは、受信した音ストリームから分離された異なる音に対応する。ＡＲ眼鏡のユーザは、表示された１組のアイコンからアイコンの選択を行い、選択されたアイコンに関連付けられた分離された音の録音を開始する。いくつかの実施形態では、音選択プログラム３００は、例えば、複数の人が話している社交的集まりにおける分離された音のカテゴリおよびサブカテゴリを表すアイコンの階層構造を含み、階層構造では、最初のアイコンが「人の音声」のカテゴリを表し、サブカテゴリが、会話中の３人のグループを表す３つの異なるアイコンを含んでもよい。

【0043】

例えば、音選択プログラム３００は、ＡＲ眼鏡１２０（図１）の表示領域１２５上に１組のアイコンを提示し、各アイコンは、音ストリームから別個に分離された音を表す。ＡＲ眼鏡１２０のユーザは、１組のアイコンを見て、自然音のカテゴリに関連付けられた木のアイコンに目の方向を合わせる。ユーザは、目の焦点を木のアイコンに合わせたまま素早く複数回まばたきするなどの選択アクションを実行し、音選択プログラム３００は、ＡＲ眼鏡１２０の表示領域１２５上の木のアイコンに関連付けられた分離された音の録音を開始するための確認メッセージを提示する。ユーザは、録音を確認する選択アクションを実行し、音選択プログラム３００は、木のアイコンに関連付けられた分離された音の録音を開始する。

【0044】

いくつかの実施形態では、音選択プログラム３００は、ＡＲ眼鏡のユーザが複数の録音行為を実行するときに、継続して学習し、ＡＲ眼鏡のユーザが好む音カテゴリに関連付けられたアイコンを、ＡＲ眼鏡の表示領域上のより目立つ優先位置に表示する。いくつかの実施形態では、音選択プログラム３００によって識別されない分離された音は、疑問符などの「不明」ステータスに対応するアイコンが割り当てられ、音を分類して既存のアイコンを関連付けるかまたは新しいアイコンを音に割り当てる機会をユーザに提供する。

【0045】

選択された分離音を録音した後、音選択プログラム３００は終了する。

【0046】

図４は、本発明の一実施形態による、図１に示されたコンポーネントを含むかまたはそのコンポーネントに動作可能に接続するように構成され、図２の音選択プログラム３００を動作的に実行する能力を備えたコンピューティング・デバイス４０５を含む、コンピューティング・システム４００のコンポーネントのブロック図を示す。

【0047】

コンピューティング・デバイス４０５は、本発明の例示的な実施形態による、コンピューティング・デバイス１１０（図１）のコンポーネントと同様のコンポーネントおよび機能的能力を含む。図４が、一実装形態の例示を提供しているにすぎず、異なる実施形態が実装され得る環境に関していかなる制限も示唆しないことが理解されるべきである。図示された環境に対して多くの変更が加えられてもよい。

【0048】

コンピューティング・デバイス４０５は、コンピュータ・プロセッサ４０４と、メモリ４０６と、永続ストレージ４０８と、通信ユニット４１０と、入力／出力（Ｉ／Ｏ）インターフェース４１２との間の通信を提供する通信ファブリック４０２を含む。通信ファブリック４０２は、プロセッサ（マイクロプロセッサ、通信、およびネットワーク・プロセッサなど）と、システム・メモリと、周辺デバイスと、システム内の任意の他のハードウェア・コンポーネントとの間でデータまたは制御情報あるいはその両方を渡すように設計された任意のアーキテクチャを用いて実装され得る。例えば、通信ファブリック４０２は、１つまたは複数のバスを用いて実装され得る。

【0049】

メモリ４０６、キャッシュ・メモリ４１６、および永続ストレージ４０８は、コンピュータ可読記憶媒体である。この実施形態では、メモリ４０６は、ランダム・アクセス・メモリ（ＲＡＭ）４１４を含む。一般に、メモリ４０６は、任意の好適な揮発性または不揮発性のコンピュータ可読記憶媒体を含むことができる。

【0050】

一実施形態では、音選択プログラム３００は、メモリ４０６のうちの１つまたは複数のメモリを介した、それぞれのコンピュータ・プロセッサ４０４のうちの１つまたは複数による実行のために、永続ストレージ４０８に記憶される。この実施形態では、永続ストレージ４０８は、磁気ハード・ディスク・ドライブを含む。磁気ハード・ディスク・ドライブの代替としてまたは追加として、永続ストレージ４０８は、ソリッドステート・ハード・ドライブ、半導体記憶デバイス、読取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭ）、フラッシュ・メモリ、または、プログラム命令もしくはデジタル情報を記憶することが可能な他のコンピュータ可読記憶媒体を含むことができる。

【0051】

永続ストレージ４０８によって使用される媒体はまた、取り外し可能であってもよい。例えば、取り外し可能ハード・ドライブが、永続ストレージ４０８のために使用されてもよい。他の例には、光学ディスクおよび磁気ディスク、サム・ドライブ、ならびに永続ストレージ４０８の一部でもある別のコンピュータ可読記憶媒体に転送するためにドライブに挿入されるスマート・カードが含まれる。

【0052】

これらの例では、通信ユニット４１０は、分散データ処理環境１００のリソースを含む他のデータ処理システムまたはデータ処理デバイスとの通信を提供する。これらの例では、通信ユニット４１０は、１つまたは複数のネットワーク・インターフェース・カードを含む。通信ユニット４１０は、物理通信リンクおよび無線通信リンクのいずれかまたは両方を使用して通信を提供してもよい。音選択プログラム３００は、通信ユニット４１０を介して永続ストレージ４０８にダウンロードされてもよい。

【0053】

Ｉ／Ｏインターフェース４１２は、コンピューティング・システム４００に接続され得る他のデバイスとのデータの入力および出力を可能にする。例えば、Ｉ／Ｏインターフェース４１２は、キーボード、キーパッド、タッチ・スクリーン、または何らかの他の好適な入力デバイスあるいはその組合せなどの外部デバイス４１８への接続を提供してもよい。外部デバイス４１８は、例えば、サム・ドライブ、携帯型の光学ディスクまたは磁気ディスク、およびメモリ・カードなどの携帯型コンピュータ可読記憶媒体を含むこともできる。本発明の実施形態を実施するために使用されるソフトウェアおよびデータ、例えば、音選択プログラム３００は、そのような携帯型コンピュータ可読記憶媒体に記憶され、Ｉ／Ｏインターフェース４１２を介して永続ストレージ４０８にロードされ得る。インターフェース４１２は、ディスプレイ４２０にも接続する。

【0054】

ディスプレイ４２０は、データをユーザに表示するためのメカニズムを提供し、例えば、コンピュータ・モニタであってもよい。

【0055】

本明細書に記載のプログラムは、本発明の特定の実施形態においてそのプログラムが実装されるアプリケーションに基づいて、識別される。しかしながら、本明細書における任意の特定のプログラム命名法は単に便宜上使用されており、したがって、本発明はそのような命名法によって識別されるまたは暗示されるあるいはその両方である特定のアプリケーションでの使用のみに限定されるべきではないことを理解されたい。

【0056】

本発明は、任意の可能な技術的詳細の統合レベルでのシステム、方法、またはコンピュータ・プログラム製品あるいはその組合せであってもよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実施させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体（または複数のコンピュータ可読記憶媒体）を含んでもよい。

【0057】

コンピュータ可読記憶媒体は、命令実行デバイスが使用するための命令を保持および記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁気記憶デバイス、半導体記憶デバイス、または上記の任意の好適な組合せであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには以下のもの、すなわち、携帯型コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、携帯型コンパクト・ディスク読取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル・バーサタイル・ディスク（ＤＶＤ）、メモリ・スティック、フロッピ（登録商標）・ディスク、パンチカードまたは命令が記録された溝内の隆起構造体などの機械的に符号化されたデバイス、および上記の任意の好適な組合せが含まれる。本明細書で使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝播する電磁波、導波路もしくは他の伝送媒体を介して伝播する電磁波（例えば、光ファイバ・ケーブルを通る光パルス）、または電線を介して送信される電気信号などの、一過性の信号自体であると解釈されるべきではない。

【0058】

本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスにダウンロードされるか、ネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、または無線ネットワークあるいはその組合せを介して、外部コンピュータまたは外部記憶デバイスにダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバあるいはその組合せを含んでもよい。各コンピューティング／処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、そのコンピュータ可読プログラム命令を、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体における記憶のために転送する。

【0059】

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、インストラクション・セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路用の構成データ、または、Ｓｍａｌｌｔａｌｋ（登録商標）、Ｃ＋＋などのオブジェクト指向プログラミング言語および「Ｃ」プログラミング言語もしくは同様のプログラミング言語などの手続き型プログラミング言語を含む１つまたは複数のプログラミング言語の任意の組合せで記述されたソース・コードもしくはオブジェクト・コードのいずれかであってもよい。コンピュータ可読プログラム命令は、スタンドアロン・ソフトウェア・パッケージとして全体がユーザのコンピュータ上で、一部がユーザのコンピュータ上で、一部がユーザのコンピュータ上かつ一部がリモート・コンピュータ上で、または全体がリモート・コンピュータ上もしくはサーバ上で実行されてもよい。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）もしくはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、または（例えば、インターネット・サービス・プロバイダを使用してインターネットを介して）外部コンピュータに対して接続されてもよい。いくつかの実施形態では、本発明の態様を実行するために、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ）を含む電子回路が、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによって、コンピュータ可読プログラム命令を実行してもよい。

【0060】

本明細書では、本開示の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照しながら、本開示の態様を説明している。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方におけるブロックの組合せがコンピュータ可読プログラム命令によって実施され得ることが理解されよう。

【0061】

これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックで指定された機能／作用を実施するための手段を作り出すように、コンピュータのプロセッサ、または他のプログラマブル・データ処理装置に提供されて、マシンを作り出すものであってもよい。これらのコンピュータ可読プログラム命令はまた、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックで指定された機能／作用の態様を実施する命令を含む製造品を含むように、コンピュータ可読媒体に記憶され、コンピュータ、プログラマブル・データ処理装置、または他のデバイスあるいはその組合せに対して特定の方式で機能するように指示できるものであってもよい。

【0062】

コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブル装置、または他のデバイスで実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックで指定された機能／作用を実施するように、コンピュータ実施プロセスを作り出すべくコンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされて、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実行させるものであってもよい。

【0063】

図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能性、ならびに動作を示す。これに関して、フローチャートまたはブロック図における各ブロックは、指定されたロジック機能を実装するための１つまたは複数の実行可能命令を含む、命令のモジュール、セグメント、または一部を表すことがある。いくつかの代替の実装形態では、ブロックに記載された機能は、図に記載された順序とは異なる順序で行われてもよい。例えば、連続して示されている２つのブロックは、実際には、関与する機能性に応じて、１つのステップとして達成されても、同時に、実質的に同時に、部分的にもしくは全体的に時間的に重複する様式で実行されてもよく、またはそれらのブロックは、場合によっては逆の順序で実行されてもよい。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組合せは、指定された機能または作用を実行するか、あるいは専用ハードウェアとコンピュータ命令との組合せを遂行する専用ハードウェア・ベースのシステムによって実装され得ることにも留意されたい。

【図1】

【図2】

【図3】

【図4】

【手続補正書】

【提出日】2023-09-07

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

コンピュータの情報処理による複数音環境から１つまたは複数の音を選択的に録音するための方法であって、
１つまたは複数のプロセッサによって、複数の音源からの混合音を受信することと、
前記１つまたは複数のプロセッサによって、１つまたは複数の音分離技術を適用することによって前記混合音の分離を実行することと、
前記１つまたは複数のプロセッサによって、機械学習技術を使用した訓練に基づいて、前記複数の音源からの前記混合音の１つまたは複数の音を識別することと、
前記１つまたは複数のプロセッサによって、前記複数の音源からの前記混合音のそれぞれの識別された音に割り当てられた分類にそれぞれ対応する１組のアイコンを生成することと、
前記１つまたは複数のプロセッサによって、前記音に関連付けられている生成された前記１組のアイコンのうちの第１のアイコンの選択を、ユーザによる前記第１のアイコンを選択するアクションに基づいて受け取ることと、
前記１つまたは複数のプロセッサによって、前記ユーザによって選択された前記第１のアイコンに関連付けられた前記複数の音源からの前記混合音からの前記音を録音することと
を含む、方法。

【請求項2】

【請求項3】

前記１つまたは複数のプロセッサによって、２つ以上のマイクロフォンを利用して前記混合音を受信することと、
前記１つまたは複数のプロセッサによって、前記ユーザの個人用デバイスのユーザ・インターフェース上に前記１組のアイコンを表示することであって、前記ユーザの前記個人用デバイスが、音を録音して録音された音を記憶するように構成されたスマート・デバイスである、前記１組のアイコンを表示することと
をさらに含む、請求項１または２に記載の方法。

【請求項4】

前記混合音に関連付けられている表示された前記１組のアイコンのうちの前記第１のアイコンを選択する前記ユーザの前記アクションによって選択された前記混合音からの前記音を録音することに関連付けられた１組のパラメータが、表示されたオプションを選択する前記ユーザによって制御される、請求項１～３のいずれか１項に記載の方法。

【請求項5】

前記１組のアイコンのアイコンがカテゴリ分類に対応する、請求項１～４のいずれか１項に記載の方法。

【請求項6】

前記音を録音している間に前記ユーザが前記混合音からの前記音の特性を変更し、前記音の前記特性が、録音の音量、音の高さおよび速度の属性を含む、請求項１～５のいずれか１項に記載の方法。

【請求項7】

前記機械学習技術が、複数の別個のオーディオ音が前記別個のオーディオ音の識別とともに配信される、教師あり学習を含む、請求項１～６のいずれか１項に記載の方法。

【請求項8】

複数音環境から１つまたは複数の音を選択的に録音するためのコンピュータ・プログラムであって、コンピュータに、
複数の音源からの混合音を受信することと、
１つまたは複数の音分離技術を適用することによって前記混合音の分離を実行することと、
機械学習技術を使用した訓練に基づいて、前記複数の音源からの前記混合音の１つまたは複数の音を識別することと、
前記複数の音源からの前記混合音のそれぞれの識別された音に割り当てられた分類にそれぞれ対応する１組のアイコンを生成することと、
前記音に関連付けられている生成された前記１組のアイコンのうちの第１のアイコンの選択を、ユーザによる前記第１のアイコンを選択するアクションに基づいて受け取ることと、
前記ユーザによって選択された前記第１のアイコンに関連付けられた前記複数の音源からの前記混合音からの前記音を録音することと
を実行させるためのコンピュータ・プログラム。

【請求項9】

コンピュータに、
２つ以上のマイクロフォンによって前記混合音を受信することと、
前記ユーザの個人用デバイスのユーザ・インターフェース上に前記１組のアイコンを表示することであって、前記ユーザの前記個人用デバイスが、音を録音して録音された音を記憶するように構成された拡張現実（ＡＲ）眼鏡である、前記１組のアイコンを表示することと
をさらに実行させる、請求項８に記載のコンピュータ・プログラム。

【請求項10】

コンピュータに、
２つ以上のマイクロフォンによって前記混合音を受信することと、
前記ユーザの個人用デバイスのユーザ・インターフェース上に前記１組のアイコンを表示することであって、前記ユーザの前記個人用デバイスが、音を録音して録音された音を記憶するように構成されたスマート・デバイスである、前記１組のアイコンを表示することと
をさらに実行させる、請求項８または９に記載のコンピュータ・プログラム。

【請求項11】

【請求項12】

２つ以上のマイクロフォンによって前記混合音を受信するためのプログラム命令と、
前記ユーザの個人用デバイスのユーザ・インターフェース上に前記１組のアイコンを表示するためのプログラム命令であって、前記ユーザの前記個人用デバイスが、音を録音して録音された音を記憶するように構成された拡張現実（ＡＲ）眼鏡である、前記１組のアイコンを表示するための前記プログラム命令と
をさらに含む、請求項１１に記載のコンピュータ・システム。

【請求項13】

２つ以上のマイクロフォンによって前記混合音を受信するためのプログラム命令と、
前記ユーザの個人用デバイスのユーザ・インターフェース上に前記１組のアイコンを表示するためのプログラム命令であって、前記ユーザの前記個人用デバイスが、音を録音して録音された音を記憶するように構成されたスマート・デバイスである、前記１組のアイコンを表示するための前記プログラム命令と
をさらに含む、請求項１１または１２に記載のコンピュータ・システム。

【請求項14】

前記音を録音している間に前記混合音から前記音の特性を変更するプログラム命令が、前記ユーザから受信した選択されたオプションのプログラム命令に基づいており、前記音の前記特性が、録音の音量、音の高さおよび速度の属性を含む、請求項１１～１３のいずれか１項に記載のコンピュータ・システム。

【請求項15】

機械学習技術を使用した訓練に基づいて前記１つまたは複数の音を識別するための前記プログラム命令が、
複数の別個のオーディオ音が前記別個のオーディオ音の識別とともに配信される、教師あり学習を含む機械学習技術を適用する
ためのプログラミング命令を含む、請求項１１～１４のいずれか１項に記載のコンピュータ・システム。

【請求項16】

請求項８～１０のいずれか１項に記載のコンピュータ・プログラムをコンピュータ可読に格納した記録媒体。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版