IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ レモン インコーポレイテッドの特許一覧

特表2024-546299インタラクティブな動き音声エンジン
<>
  • 特表-インタラクティブな動き音声エンジン 図1
  • 特表-インタラクティブな動き音声エンジン 図2
  • 特表-インタラクティブな動き音声エンジン 図3
  • 特表-インタラクティブな動き音声エンジン 図4A
  • 特表-インタラクティブな動き音声エンジン 図4B
  • 特表-インタラクティブな動き音声エンジン 図5
  • 特表-インタラクティブな動き音声エンジン 図6
  • 特表-インタラクティブな動き音声エンジン 図7
  • 特表-インタラクティブな動き音声エンジン 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-19
(54)【発明の名称】インタラクティブな動き音声エンジン
(51)【国際特許分類】
   G10G 1/00 20060101AFI20241212BHJP
   G10H 1/00 20060101ALI20241212BHJP
   G10L 25/30 20130101ALI20241212BHJP
   G10L 25/51 20130101ALI20241212BHJP
   G06T 11/60 20060101ALI20241212BHJP
   G06F 3/01 20060101ALI20241212BHJP
   G06F 3/16 20060101ALI20241212BHJP
【FI】
G10G1/00
G10H1/00 102Z
G10L25/30
G10L25/51 300
G06T11/60 100A
G06F3/01 570
G06F3/01 510
G06F3/16 690
G06F3/16 610
G06F3/16 620
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024537405
(86)(22)【出願日】2022-11-23
(85)【翻訳文提出日】2024-06-25
(86)【国際出願番号】 SG2022050853
(87)【国際公開番号】W WO2023121559
(87)【国際公開日】2023-06-29
(31)【優先権主張番号】17/556,178
(32)【優先日】2021-12-20
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】521388058
【氏名又は名称】レモン インコーポレイテッド
【氏名又は名称原語表記】Lemon Inc.
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100229448
【弁理士】
【氏名又は名称】中槇 利明
(72)【発明者】
【氏名】リ,ボチェン
(72)【発明者】
【氏名】ジャン,ダイユィ
(72)【発明者】
【氏名】イ,チャン ジェン シャン
(72)【発明者】
【氏名】チェン,ジィトォン
【テーマコード(参考)】
5B050
5D182
5D478
5E555
【Fターム(参考)】
5B050AA10
5B050BA06
5B050BA07
5B050BA12
5B050BA18
5B050CA01
5B050DA01
5B050EA19
5B050FA02
5B050FA10
5D182AD05
5D478GG03
5E555AA46
5E555AA76
5E555BA03
5E555BA05
5E555BA06
5E555BA88
5E555BB03
5E555BB05
5E555BB06
5E555BC04
5E555BE17
5E555CA42
5E555CB66
5E555CC05
5E555DA23
5E555DB53
5E555DB56
5E555DC09
5E555DC13
5E555DC63
5E555DC84
5E555DD11
5E555EA14
5E555FA00
(57)【要約】
音声出力を生成するための方法が記載される。画像センサによりキャプチャされた、ユーザによるインタラクティブな動きの画像入力が受け取られる。インタラクティブな動きは、音声要素識別子のシーケンスにマッピングされる。音声要素識別子のシーケンスについて音楽理論ルール実施を実行することにより、音声要素識別子のシーケンスを処理して音楽シーケンスを生成する。音楽シーケンスを表す音声出力が生成される。【選択図】図5
【特許請求の範囲】
【請求項1】
音声出力を生成するための方法であって、 画像センサによりキャプチャされた、ユーザによるインタラクティブな動きの画像入力を受け取ることと、 前記インタラクティブな動きを、音声要素識別子のシーケンスにマッピングすることと、 前記音声要素識別子のシーケンスについて音楽理論ルール実施を実行することにより、前記音声要素識別子のシーケンスを処理して音楽シーケンスを生成することと、 前記音楽シーケンスを表す音声出力を生成することと、 を含む方法。
【請求項2】
前記音声要素識別子を処理することは、 音楽理論ルールに違反する前記音声要素識別子のシーケンスのうちの少なくとも1つの音声要素識別子を修正することと、 前記修正された音声要素識別子に基づいて前記音楽シーケンスを生成することと、 を含む請求項1に記載の方法。
【請求項3】
前記少なくとも1つの音声要素識別子を修正することは、前記音声要素識別子に関連付けられるピッチを変更すること、 を含む請求項2に記載の方法。
【請求項4】
前記ピッチを変更することは、前記音楽理論ルールを満たすコード進行にマッチングさせること、 を含む請求項3に記載の方法。
【請求項5】
前記少なくとも1つの音声要素識別子を修正することは、前記音楽シーケンスを生成する際に、前記少なくとも1つの音声要素識別子を省略することを含む、 請求項2に記載の方法。
【請求項6】
前記少なくとも1つの音声要素識別子を修正することは、前記少なくとも1つの音声要素識別子の期間を変更すること、 を含む請求項2に記載の方法。
【請求項7】
前記インタラクティブな動きをマッピングすることは、 複数の楽器セットから所定の楽器のセットを選択することと、 前記インタラクティブな動きを、選択された所定の楽器のセット内の楽器にマッピングすることと、 を含む請求項1に記載の方法。
【請求項8】
前記方法は、音楽サンプルから所定の楽器のセットを識別するニューラルネットワークエンジンを使用して前記複数の楽器セットを生成すること、 をさらに含む請求項7に記載の方法。
【請求項9】
前記方法は、前記画像入力にオーバーレイされたグラフィカルユーザインターフェースを含む出力画像を前記ユーザに表示することをさらに含み、前記インタラクティブな動きは、前記グラフィカルユーザインターフェースと重複する前記ユーザのユーザ要素を含む、 請求項1に記載の方法。
【請求項10】
前記ユーザの前記ユーザ要素は、前記ユーザの指、手、腕、足、及び/又は脚である、 請求項9に記載の方法。
【請求項11】
前記グラフィカルユーザインターフェースは、複数の所定の音声要素識別子に対応する複数のアイコンを含み、 前記インタラクティブな動きをマッピングすることは、アイコンと重複するユーザ要素を有するインタラクティブな動きを、重複されたアイコンに対応する所定の音声要素識別子にマッピングすることを含む、 請求項9に記載の方法。
【請求項12】
前記複数の所定の音声要素識別子は、単一要素識別子とマルチ要素識別子とを含む、 請求項11に記載の方法。
【請求項13】
前記インタラクティブな動きは、前記ユーザにより行われる顔表情要素である、 請求項1に記載の方法。
【請求項14】
前記インタラクティブな動きは、前記ユーザにより実行されるジェスチャである 請求項1に記載の方法。
【請求項15】
音声出力を生成するためのシステムであって、 画像センサによりキャプチャされた、ユーザによるインタラクティブな動きの画像入力を受け取ることと、 前記インタラクティブな動きを、音声要素識別子のシーケンスにマッピングすることと、 前記音声要素識別子のシーケンスについて音楽理論ルール実施を実行することにより、前記音声要素識別子のシーケンスを処理して音楽シーケンスを生成することと、 前記音楽シーケンスを表す音声出力を生成することと、 を実行するように、マシン可読命令により設定された1つ又は複数のハードウェアプロセッサを含む、システム。
【請求項16】
前記1つ又は複数のハードウェアプロセッサは、 音楽理論ルールに違反する前記音声要素識別子のシーケンスのうちの少なくとも1つの音声要素識別子を修正することと、 前記修正された音声要素識別子に基づいて前記音楽シーケンスを生成することと、 を実行するように、マシン可読命令によりさらに設定されている請求項15に記載のシステム。
【請求項17】
前記1つ又は複数のハードウェアプロセッサは、 前記音声要素識別子に関連付けられるピッチを変更すること、 を実行するように、マシン可読命令によりさらに設定されている請求項15に記載のシステム。
【請求項18】
1つ又は複数のプロセッサにより実行可能な命令を含む非一時的なコンピュータ可読記憶媒体であって、 前記命令は、前記1つ又は複数のプロセッサにより実行されると、前記1つ又は複数のプロセッサに、 画像センサによりキャプチャされた、ユーザによるインタラクティブな動きの画像入力を受け取ることと、 前記インタラクティブな動きを、音声要素識別子のシーケンスにマッピングすることと、 前記音声要素識別子のシーケンスについて音楽理論ルール実施を実行することにより、前記音声要素識別子のシーケンスを処理して音楽シーケンスを生成することと、 前記音楽シーケンスを表す音声出力を生成することと、 を実行させる非一時的なコンピュータ可読記憶媒体。
【請求項19】
前記命令は、前記1つ又は複数のプロセッサにより実行可能であり、前記1つ又は複数のプロセッサにより実行されることにより、前記1つ又は複数のプロセッサに、 音楽理論ルールに違反する前記音声要素識別子のシーケンスのうちの少なくとも1つの音声要素識別子を修正することと、 前記修正された音声要素識別子に基づいて前記音楽シーケンスを生成することと、 を実行させる請求項18に記載の非一時的なコンピュータ可読記憶媒体。
【請求項20】
前記命令は、前記1つ又は複数のプロセッサにより実行可能であり、前記1つ又は複数のプロセッサにより実行されることにより、前記1つ又は複数のプロセッサに、 前記音声要素識別子に関連付けられるピッチを変更すること、 を実行させる請求項18に記載の非一時的なコンピュータ可読記憶媒体。
【発明の詳細な説明】
【背景技術】
【0001】
関連出願の相互参照 本願は、2021年12月20日に出願された米国特許第17/556,178号(発明名称:インタラクティブな動き音声エンジン)の優先権を主張し、該出願の開示内容は、引用により全体として本願に組み込まれる。
【0002】
作曲し、歌や音楽シーケンスを共有することは、個人が社交的絆を構築する一般的な方法である。ピアノ、ギター、打楽器などの楽器の演奏を習って、自分のために作曲し、他の人と共有する人もいる。しかしながら、1つの楽器をマスターするには長年の練習と学習が必要であるが、多くの曲や音楽シーケンスはいくつかの異なる楽器を使用することがある。他の人が心地よく聴けるような(つまり、高いレベルの音楽性を持つ)短い音楽シーケンスを作るには、音符を書き出し、別々の楽器を演奏してそれらを異なるトラックに録音し、それらのトラックを一緒に編集するのに数時間かかるかもしれない。また、音楽性を促進する音楽理論のルールは微妙であり、音楽を学んだことのないユーザにとっては従うことが難しいかもしれない。
【0003】
これら及び他の一般的な考慮に関連して実施形態を説明する。また、比較的具体的な問題を検討していくが、実施形態は、背景技術において特定された具体的な問題の解決に限定されるべきではないことを、理解すべきである。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示の態様は、音声出力を生成することに関する。
【課題を解決するための手段】
【0005】
一態様において、音声出力を生成するための方法が提供される。画像センサによりキャプチャされた、ユーザによるインタラクティブな動きの画像入力が受け取られる。インタラクティブな動きは、音声要素識別子のシーケンスにマッピングされる。音声要素識別子のシーケンスについて音楽理論ルール実施を実行することにより、音声要素識別子のシーケンスを処理して音楽シーケンスを生成する。音楽シーケンスを表す音声出力が生成される。
【0006】
別の態様において、音声出力を生成するためのシステムが提供される。前記システムは、画像センサによりキャプチャされた、ユーザによるインタラクティブな動きの画像入力を受け取ることと、前記インタラクティブな動きを、音声要素識別子のシーケンスにマッピングすることと、前記音声要素識別子のシーケンスについて音楽理論ルール実施を実行することにより、前記音声要素識別子のシーケンスを処理して音楽シーケンスを生成することと、前記音楽シーケンスを表す音声出力を生成することと、を実行するようにマシン可読命令により設定された1つ又は複数のハードウェアプロセッサを備える。
【0007】
さらに別の態様において、非一時的なコンピュータ可読記憶媒体が提供される。前記媒体は、1つ又は複数のプロセッサにより実行可能な命令を含み、前記命令は、前記1つ又は複数のプロセッサにより実行された場合、前記1つ又は複数のプロセッサに、画像センサによりキャプチャされた、ユーザによるインタラクティブな動きの画像入力を受け取ることと、前記インタラクティブな動きを、音声要素識別子のシーケンスにマッピングすることと、前記音声要素識別子のシーケンスについて音楽理論ルール実施を実行することにより、前記音声要素識別子のシーケンスを処理して音楽シーケンスを生成することと、前記音楽シーケンスを表す音声出力を生成することと、を実行させる。
【0008】
本概要は、以下の発明を実施するための形態でさらに説明される構想の抜粋を簡略化された形で紹介するために提供されるものである。本概要は、請求される主題事項の主要特徴又は基本特徴を識別することを目的とするものでもなければ、請求される主題事項の範囲を限定することを目的とするものでもない。
【図面の簡単な説明】
【0009】
以下の図面を参照して、非限定的及び非網羅的な例を説明する。
【0010】
図1】本開示の例にかかる、音声出力を生成するためのシステムの一例のブロック図である。
【0011】
図2】本開示の例にかかる、コンピューティング装置のユーザ入力プロセッサの一例のブロック図である。
【0012】
図3】本開示の例にかかる、グラフィカルユーザインターフェースのための例示的な出力画像を示す図である。
【0013】
図4A】本開示の例にかかる、音声出力を生成するための、顔表情を有する画像入力の例示的なシーケンスを示す図である。
【0014】
図4B】本開示の例にかかる、音声出力を生成するための、顔表情要素を有する例示的な画像入力を示す図である。
【0015】
図5】本開示の例にかかる、音声出力を生成する例示的な方法のフローチャートである。
【0016】
図6】本開示の態様を実施するために利用可能なコンピューティング装置の例示的な物理的コンポーネントを示すブロック図である。
【0017】
図7】本開示の態様を実施するために利用可能なモバイルコンピューティング装置の簡略化されたブロック図である。
図8】本開示の態様を実施するために利用可能なモバイルコンピューティング装置の簡略化されたブロック図である。
【発明を実施するための形態】
【0018】
以下の詳細な説明では、本明細書の一部を構成し、特定の実施形態又は例を図示により示した添付図面を参照する。本開示から逸脱することなく、これらの態様を組み合わせたり、他の態様を利用したり、構造変更を行ったりしてもよい。実施形態は、方法、システム、又は装置として実施されてもよい。したがって、実施形態は、ハードウェア実現、完全なソフトウェア実現、又はソフトウェア及びハードウェアの態様を組み合わせた実現の形態をとってもよい。したがって、以下の詳細な説明は限定的であると理解されるべきではなく、本開示の範囲は、添付の特許請求の範囲及びその均等物により限定されるものである。
【0019】
前述したように、作曲や音楽の共有は一般的なことであるが、作曲には、楽器の技術的なスキルと、音楽性を向上させるための音楽理論ルールを身につけるために、広範囲な練習が必要なことが多い。本開示は、ユーザのインタラクティブな動き(例えば手、足、腕、及び/又は脚を動かすこと)に基づいて音声出力を生成することのような、音楽作成のための方法及びシステムを提供する。いくつかの例において、ユーザは、コンピューティング装置(例えば、携帯電話)のカメラの前で踊ることにより音声出力を生成してもよく、ここで、コンピューティング装置は、ユーザのインタラクティブな動きを、音声要素識別子のシーケンスにマッピングし、その後、音声要素識別子のシーケンスを音楽シーケンス及び音声出力に変換する。他の例において、ユーザは、インタラクティブな動きとして、顔表情(例えば、「楽しい」顔を作ること)又は顔表情要素(例えば、まばたき、にやにや笑い、微笑み)を実行してもよい。ピアノでの打鍵やギター上の運指の代わりに、ユーザのインタラクティブな動きを利用することにより、楽器の技術習得の難題が大幅に軽減され、楽器に習熟していない人でも作曲に取り組みやすくなる。いくつかの例において、コンピューティング装置は、例えば音声要素識別子を変更してそれらの音楽性を向上させることにより、音楽理論ルール実施を実行することにより音楽シーケンスを生成する音楽理論エンジンを含む。こうして、音楽理論エンジンは音楽理論における習熟度についての需要を大幅に低減させ、作曲への取り組みやすさをさらに向上させる。
【0020】
本明細書では、コンピューティング装置についてのこの実施形態及び多くの別の実施形態が記載される。例えば、図1は、本開示の例にかかる、音声出力を生成するための、インタラクティブな動き音声エンジンを提供するシステム100の一例のブロック図である。システム100は、ネットワーク150を介して通信可能に結合されたコンピューティング装置110及びコンピューティング装置120を含む。コンピューティング装置110は、スマートフォン、モバイルコンピュータ又はモバイルコンピューティング装置(例えば、Microsoft(登録商標) のSurface(登録商標) 装置、ラップトップコンピュータ、ノートブックコンピュータ、AppleのiPad(登録商標)TMなどのタブレッコンピュータト、ネットブックなど)、又はデスクトップコンピュータ又はPC(パーソナルコンピュータ)などの固定のコンピューティング装置を含む、任意のタイプのコンピューティング装置であってもよい。いくつかの例において、コンピューティング装置110は、ユーザ102のユーザ装置又はクライアント装置であり、コンピューティング装置120は、サーバ装置である。いくつかの例において、コンピューティング装置120は、ネットワークサーバ、クラウドサーバ、又は他の適切な分散型コンピューティングシステムである。コンピューティング装置120は、ソーシャルメディアプラットフォーム、クラウドプロセッシングプロバイダ、サービスとしてのソフトウェアプロバイダ、又は他の適切なエンティティにより運用及び/又は保守されてもよい。コンピューティング装置110及び/又はコンピューティング装置120は、コンピューティング装置110のユーザにより使用されてもよい1つ又は複数のソフトウェアアプリケーション(又は「アプリケーション」)及び/又はサービスを実行し、且つ/又はハードウェアリソース(例えば、プロセッサ、メモリなど)を管理するように設定されてもよい。
【0021】
コンピューティング装置110は、画像センサ112と、深度センサ114と、ユーザ入力プロセッサ116と、ディスプレイ118とを備える。画像センサ112は、例えば、ユーザ102がインタラクティブな動きをするときに、ユーザ102の画像及び/又はビデオをキャプチャするように設定されている。画像センサ112は、例えば、スマートフォンの前面の「自撮り」カメラ又は背面カメラであってもよい。様々な例において、ビデオの画像又は静止フレームを使用して、以下で説明されるように、ユーザ102により行われる顔表情要素と、ジェスチャと、ユーザ要素動きとを識別してもよい。深度センサ114は、コンピューティング装置110とユーザ102との間の距離を推定する、例えば、ユーザ102の手、腕、足、及び/又は頭までの距離を推定するように設定されている。深度センサ114は、画像センサ112によりキャプチャされた画像を強化する深度情報を提供することにより、ユーザ102の3次元位置の推定を可能にしてもよい。
【0022】
ユーザ入力プロセッサ116は、画像センサ112によりキャプチャされた画像及び/又は深度センサ114からの深度情報に基づいて、ユーザ102のインタラクティブな動きを識別するように設定されている。さらに、ユーザ入力プロセッサ116は、インタラクティブな動きに対応するユーザ入力識別子を決定する。有利なことに、ユーザ102は、ユーザ入力を提供するためにタッチスクリーン、マウス、キーボード、又は他の物理入力装置を使用する必要がない。
【0023】
一般的には、ユーザ入力識別子は、ユーザ102により既に実行されたインタラクティブな動きを一意に識別する、整数又は他の適切な値のような、離散型識別子である。様々な例において、ユーザ入力プロセッサ116は、ユーザ102により行われたジェスチャを識別するジェスチャプロセッサ、ユーザ102により行われた顔表情を識別する顔表情プロセッサ、及び/又はユーザ102の指位置を識別する指位置プロセッサ、のうちの1つ又は複数を含んでもよい。図2を参照して、ユーザ入力プロセッサ116のさらなる詳細を以下に提供する。
【0024】
ディスプレイ118は、コンピューティング装置110のユーザインターフェースを示すように設定されている。様々な例において、ディスプレイ118は、スマートフォンのタッチスクリーンディスプレイ、デスクトップコンピュータのモニタ等である。ディスプレイ118は、画像センサ112によりキャプチャされた画
像入力にオーバーレイされたグラフィカルユーザインターフェースを含む出力画像を表示するように設定されてもよい。例えば、出力画像は、ユーザ102に、それらのインタラクティブな動きについてのリアルタイムなフィードバックを提供してもよい。
【0025】
コンピューティング装置120は、音声要素プロセッサ122と、音楽理論エンジン124と、シンセサイザ126と、エフェクトエンジン128と、ビートクオンタイザ130とを備える。音声要素プロセッサ122は、ユーザのインタラクティブな動きを表すユーザ入力識別子を音声要素識別子のシーケンスにマッピングするように設定されている。音声要素識別子は、楽器(例えば、ピアノ、アコースティックギター、トランペット)についての音符、サンプル、ループ、及び/又は音色を表すデータ構造である。いくつかの例において、音声要素識別子は、楽器デジタルインターフェース(MIDI:Musical Instrument Digital Interface)フォーマットである。例えば、音声要素識別子は、ピッチ、速度、ビブラート、パンニング、タイミング用クロック信号等についての情報を含む。例えば、ピアノでのミドルC(A440ピッチスタンダードを使用して基本周波数で約261.63Hz)についての音声要素識別子は、0から127の値範囲で60である整数値ピッチを持ってもよい(例えば、ミドルCよりも2オクターブ下は36の整数値を有し、ミドルCよりも高いDは62の整数値を有する)。他の例において、異なる識別子は、ピッチ(例えば、音符間の絶対ピッチ又は相対ピッチ)、音符の期間、音量などに使用される。
【0026】
いくつかの例において、音声要素プロセッサ122は、単一のユーザ入力識別子を音符についての音声要素識別子にマッピングする。換言すれば、単一のインタラクティブな動き(例えば、うなずき)は、開始時間及び停止時間を含む単一の音符にマッピングされる。他の例において、音声要素プロセッサ122は、第1のユーザ入力識別子を音符開始(すなわち、MIDIノートオンイベント)についての音声要素識別子にマッピングし、第2のユーザ入力識別子を音符停止(すなわち、MIDIノートオフイベント)についての音声要素識別子にマッピングする。いくつかの例において、同じユーザ入力識別子がノートオンイベントとノートオフイベント時に交互にマッピングされる。他の例において、後続の異なるユーザ入力識別子は、前の音符のノートオフと現在の音符のノートオンとの両方にマッピングされる。
【0027】
ユーザ入力識別子を音声要素識別子のシーケンスにマッピングすることは、単一のユーザ入力識別子について単一の音声要素識別子を生成すること、又は単一のユーザ入力識別子について複数の音声要素識別子を生成することを含んでもよい。例えば、ユーザ102は、音声サンプルの「1回限り」のためにグラフィカルユーザインターフェースにおけるアイコンに1本の指をかざして、音声サンプルのループのために2本の指をかざすなどしてもよい。
【0028】
いくつかの例において、インタラクティブな動きをマッピングすることは、複数の楽器セットから所定の楽器のセットを選択し、インタラクティブな動きを、選択された所定の楽器のセット内の楽器にマッピングすることを含む。例えば、音声要素プロセッサ122は、既存の音楽サンプル(例えば、人気のある公開された音楽)から所定の楽器のセットを識別するニューラルネットワークエンジンを使用して、複数の楽器セットを生成してもよい。一例において、楽器が一緒に心地よい音を出すように、所定の楽器のグループの各セットが選択される。サンプルセットには、ブルーススタイルの楽器セット用の、打楽器であるスネアドラム、キックドラム、ハイハット、ベースギター、オーバードライブエレキギター、室内のクァルテットスタイルの楽器セット用のバイオリン、ビオラ、チェロ、ベーススタイルの楽器セット用のドラムマシン、キーボード、ドラムの音声サンプルなどを含んでもよい。音声要素プロセッサ122は、カントリー音楽、エレクトロニック音楽、ヒップホップ音楽、ジャズ音楽、ラテン音楽、ポップス音楽、ロック音楽、メタル音楽など、異なる音楽スタイルのための他の楽器セットを含んでもよい。逆に、あまり理想的ではない楽器セットには、バンジョー、スライドホイッスル、ディストーションエレキギター、ドラムセットが含まれる可能性がある。
【0029】
音楽理論エンジン124は、音声要素識別子のシーケンスについて音楽理論ルール実施を実行し、音楽シーケンスを生成するように設定されている。音楽シーケンスは、音声要素識別子のシーケンスでもあるが、高いレベルの音楽性を有する可能性がより高い。一般的には、音楽理論エンジン124は、音声要素識別子のシーケンスに厳密に基づいた音声出力に関して音声出力104の音楽性を改善するルールを執行する。例えば、音楽理論エンジン124は、ルールを執行することにより、不協和音を低減したり、「悪い」又は「誤った」音符を「良い」音符に変更したり(すなわち、現在の和音内にない音符を現在の和音内にあるように変更し、現在の調号にない音符を現在の調号内にあるように変更したり)、誤った音符を省略したり、追加の音符を挿入したりする。音楽理論エンジン124は、音楽理論ルールに違反する音声要素識別子のシーケンスのうちの少なくとも1つの音声要素識別子を修正することにより、ルールを執行してもよい。例示的な修正は、少なくとも1つの音声要素識別子に関連付けられたピッチを変更すること(例えば、コード進行(chord progression)、音階、音楽モードをマッチングさせること)、音声要素識別子を省略すること(例えば、「悪い」音符を消去すること)、音声要素識別子の期間を変更すること、又は音声要素識別子に関連付けられた他の特徴を変更することを含む。
【0030】
音楽理論エンジン124は、メロディ内の音符の調号との整合性を維持すること、コード内の音符の調和を維持すること、コード進行内の音符を維持すること、不協和音程を有するコードの後に協和音程になるコードが続くことを保証すること、などのような、音楽理論の様々な要素を執行する1つ又は複数の選択可能なルールを含んでもよい。
【0031】
シンセサイザ126は、合成又はサンプリングされた音声を使用して音楽シーケンスを音声出力に変換するように設定されており、例えば、サウンドカードドライバの一部としての、コンピューティング装置120上のMIDI出力ルーチンのライブラリにより実現されてもよい。他の例において、シンセサイザ126は、音楽シーケンスを音声出力に変換するキーボード又は他の適切なMIDI装置である。音声出力は、WAVファイル、MP3ファイル、又は他の適切な音声出力ファイルとして提供されてもよい。
【0032】
エフェクトエンジン128は、音楽効果、例えば、リバーブ(reverb)、コーラス(chorus)、ディレイ(delay)、オーバドライブ(overdrive)、ディストーション(distortion)、フィルタカットオフ(filter cutoff)、エンベロープフィルタ(envelope filter)、フランジ(flange)、トレモロ(tremolo)、又は他の適切な効果を音声出力に追加するように設定されている。いくつかの例において、エフェクトエンジン128は、ドラムバッキングトラック、ループ、又は他のサンプルサウンドを音声出力に追加する。
【0033】
ビートクオンタイザ130は、音楽シーケンスの個々の音声要素識別子の時間的な特徴(すなわち、開始時間及び停止時間)を変更するように設定されている。一般的には、ビートクオンタイザ130は、シンセサイザ126が音声出力を生成する前に、個々の音声要素識別子を拍子記号、所定のリズムパターン、又は他の適切な時間的な特徴に合わせるように設定されている。例えば、ビートクオンタイザ130は、音楽シーケンスの全ての音声要素識別子を4/4拍子記号における8分音符に揃えてもよい。いくつかの例において、ビートクオンタイザ130は、複数の所定のリズムパターンから所定のリズムパターンをランダム又は擬似ランダムに選択する。
【0034】
いくつかの例において、コンピューティング装置110の1つ又は複数のコンポーネントは、省かれるか、又は他の装置に移動されてもよい。一例において、深度センサ114は、コンピューティング装置110から省かれる。別の例において、ユーザ入力プロセッサ116は、コンピューティング装置120に配置され、コンピューティング装置110から省かれる。この例において、コンピューティング装置120は、コンピューティング装置110から画像入力を受け取る。さらに別の例において、エフェクトエンジン128は、コンピューティング装置120から省かれる。別の例において、音声要素プロセッサ122、音楽理論エンジン124、シンセサイザ126、エフェクトエンジン128、及びビートクオンタイザ130は、コンピューティング装置110に配置され、コンピューティング装置120からは省かれる。この例において、コンピューティング装置120及びネットワーク150が省かれ、音声出力を生成する処理は、コンピューティング装置110により実行されてもよい。
【0035】
図2は、本開示の例にかかる、コンピューティング装置のユーザ入力プロセッサ200の一例のブロック図である。いくつかの例において、ユーザ入力プロセッサ200は、全体としてユーザ入力プロセッサ116に対応し、ユーザ102からのインタラクティブな動きの離散的な表現としてユーザ入力識別子を生成する。ユーザ入力プロセッサ200は、ジェスチャプロセッサ210と、顔表情プロセッサ220と、指位置プロセッサ230とを含む。
【0036】
ジェスチャプロセッサ210は、ユーザ102により実行されたジェスチャを識別し、対応するユーザ入力識別子を生成するように設定されている。例示的なジェスチャは、肩をすくめるジェスチャ、指差しジェスチャ、うなずく、手を振る、拍手、腕を振る、足を上げる、ジャンプする、所定の位置又は角度に腕を上げる、又は他の適切なジェスチャを含んでもよく、整数識別子(例えば、0は肩をすくめる、1は指差し、2はうなずく、...)にマッピングされてもよい。同様に、顔表情プロセッサ220は、ユーザ102により実行された顔表情を識別し、対応するユーザ入力識別子を生成するように設定されている。例示的な顔表情は、微笑む顔、眉をひそめる顔、驚いた顔、怒った顔、又は他の適切な顔表情を含んでもよい。いくつかの例において、ユーザ入力プロセッサ200は、ユーザ102の顔が円を描くように動いたり、回転したりするとき(すなわち、ユーザ102が振り向くとき)のように、時間に伴うユーザ102の変化を識別する。いくつかの例において、ジェスチャプロセッサ210は、単一のユーザ入力識別子について完全な表情のみを識別する。他の例において、ジェスチャプロセッサ210は、部分表情を、例えば、1つの目(又は両方の目)が開いている、1つの目(又は両方の目)が閉じている、片目でウィンクする、まばたきする、開いた口又は閉じた口、口の一部でにやにや笑うなどのような、異なるユーザ入力識別子に対応する顔表情要素として識別する。
【0037】
指位置プロセッサ230は、ユーザ102の1つ又は複数の指の現在位置を識別するように設定されている。指の現在位置がグラフィカルユーザインターフェースの一部と重複する場合、指位置プロセッサ230は、グラフィカルユーザインターフェースの重複部分に対応するユーザ入力識別子を提供してもよい。他の例において、ユーザ入力プロセッサ200はまた、グラフィカルユーザインターフェースの該一部と重複するオブジェクトの動き、例えばドラムスティックを振る(又は、ドラムスティックを模倣することができる他の道具、例えば鉛筆又はペン)などのことを識別する。いくつかの例において、指位置プロセッサ230は、指位置をスライダ入力又はピッチホイールにマッ
ピングし、対応するユーザインターフェース識別子を生成する。
【0038】
いくつかの例において、ユーザ入力プロセッサ200は、「エアギター」や「エアドラム」のような楽器の使用を模倣したインタラクティブな動きを識別するように設定されている。エアギターの場合、ユーザ入力処理装置200は、ユーザ102の掻き鳴らす手を識別して音符の開始及び停止を選択し、フレットを押さえて音符又はコードを決める別の手を認識して仮想ギターのピッチを選択してもよい。追加として、ユーザ入力プロセッサ200は、ユーザ102の口の開き量を認識し、その開き量をエフェクトに、例えば、「ワウ」エフェクトにマッピングしてもよく、開いた口がワウペダルのペダル前方位置に対応し、閉じた口がワウペダルのペダル後方位置に対応する。他の例において、ユーザ入力プロセッサ200は、開いた口を、エクスプレッションペダルに適合する異なるエフェクト、例えば、音量、リバーブ、ディレイレベルなどにマッピングする。エアドラムの場合、ユーザ入力プロセッサ200は、ドラムスティックの振りモーションの移動の最低点を音符の開始にマッピングし、横方向及び/又は深度位置をピッチ(例えば、木琴のキー又はシンバルの音高)又は楽器(例えば、ハイハット、又はスネアドラム)にマッピングしてもよい。
【0039】
本明細書での説明は単一のユーザ102についてのものであるが、ユーザ入力プロセッサ200は、複数のユーザを同時に識別するように設定されてもよい。いくつかの例において、音声要素プロセッサ122は、異なるユーザを、所定の楽器のセット内の異なる楽器に割り振ってもよい(例えば、1つのユーザはアコースティックギターに、1つのユーザはピアノに、1つのユーザは打楽器に割り振る)。
【0040】
いくつかの例において、例えば、ユーザ入力プロセッサ200のオペレーションを簡略化し、且つ/又はコンピューティング装置110の電力消費を低減させるために、プロセッサ210、220及び/又は230のうちの1つ又は2つを省略してもよい。他の例において、プロセッサ210、220及び/又は230のうちの2つ又は複数は、互いに、又はシステム100の他の要素と組み合わされてもよい。1つのこのような例において、プロセッサ210、220、230及び音声要素プロセッサ122、音楽理論エンジン124、シンセサイザ126、エフェクトエンジン128、及びビートクオンタイザ130は、単一のプロセッサとして実現される。
【0041】
図3は、本開示の例にかかる、グラフィカルユーザインターフェース302のための例示的な出力画像300を示す図である。いくつかの例において、コンピューティング装置110は、ディスプレイ118上に出力画像300を表示する。出力画像300は、画像センサ112からの画像入力にオーバーレイされ、ユーザ102に、それらのインタラクティブな動きについての視覚的フィードバックを提供するグラフィカルユーザインターフェース302を含む。グラフィカルユーザインターフェース302は、ボタン、トリガ、スイッチ、スライダ、又はユーザ102が仮想的にインタラクションすることができる他のユーザインターフェース要素を表す複数のアイコンを含む。一例として、ユーザ102は、グラフィカルユーザインターフェース302のアイコンと重複するように、様々なユーザ要素(例えば、指、手、腕、足、脚、頭、又は手に持った物品)を動かしてもよい。図3に示す例において、ユーザ102は右手310及び左手312を有しており、ユーザ102は右手310及び左手312を使用してインタラクティブな動きを行う。
【0042】
グラフィカルユーザインターフェース302は、ボタンとしてのアイコン320、322、324、326、330、332、334及び336と、スライダ要素としてのアイコン340及び342とを含む。他の例において、ダイヤル、モーメンタリスイッチ、ラッチングスイッチ、又は他の適切なアイコンのようなアイコンは、グラフィカルユーザインターフェース302内に実装されてもよい。
【0043】
図3に示す例において、ユーザ102は、左手312でアイコン332を「押す」。グラフィカルユーザインターフェース302のアイコンは、それぞれの所定の音声要素識別子に、例えば、楽器の異なる音符、ドラムキットのパーツ等にマッピングされてもよい。グラフィカルユーザインターフェース302のアイコンはまた、離散的な値に、例えばボリュームレベル、エフェクトレベル、周波数レベルなどにマッピングされてもよい。例えば、アイコン340は、0から100までの離散的な値の範囲を有するボリュームスライダに対応してもよく、アイコン340内のアイコン342の相対的な位置は、離散的な値(例えば、40であるボリュームレベル)に対応してもよい。
【0044】
図4Aは、本開示の例にかかる、音声出力を生成するための、顔表情を有する画像入力の例示的なシーケンス400を示す図である。ユーザ入力プロセッサ200は、シーケンス400を受け取り、シーケンス400内の様々な顔表情又は一部の顔表情(例えば、顔表情要素)を(例えば、顔表情プロセッサ220を使用して)識別し、顔表情及び/又は顔表情要素を異なる音声要素識別子にマッピングしてもよい。
【0045】
図4Aの例において、ユーザ102は、中立的な表情410(例えば、中立的な目、中立的な眉、及び閉じた口)、微笑む表情412、中立的な表情414、興奮の表情416、及び中立的な表情418を含む顔表情を実行する。一例において、ユーザ入力プロセッサ200は、中立的な表情410、414及び418を、MIDIオール・ノート・オフ識別子又は「休符(rest)」識別子にマッピングし、微笑む表情412を第1のチューバサウンドに対応する音声要素識別子にマッピングし、興奮の表情416を第2のチューバサウンドにマッピングする。この例において、ビートクオンタイザ130は、様々な表情のタイミングを2/4拍子機能内の8分音符に合わせてもよく、シンセサイザ126は、チューバでオフビートにおいて演奏されるポルカ「oom-pah」リズムに概ね対応する音声出力を生成してもよい。
【0046】
図4Bは、本開示の例にかかる、音声出力を生成するための、顔表情要素を有する例示的な画像入力460を示す図である。顔表情要素420、422及び424は、それぞれ、ユーザ102が左目でウィンクをすること、右目でウィンクをすること、及びまばたきをすることに対応する。顔表情要素430、432、434及び436は、それぞれ、右上向きのにやにや笑い、左上向きのにやにや笑い、右下向きのにやにや笑い、左下向きのにやにや笑いに対応する。顔表情440、442、444、446及び448は、様々な顔表情要素、例えば、眉を上げる、眉をひそめる、顔をしかめる、微笑み、及び開いた口を含む。顔表情要素450及び452は、それぞれ、ユーザ102の左への頭の傾き及び右への頭の傾きに対応する。本明細書では、異なる音声要素識別子にマッピング可能ないくつかの顔表情及び顔表情要素について説明したが、他の例において、ユーザ入力プロセッサ200は、顔表情要素、顔表情、又は他の入力の他の組み合わせを認識するように設定されてもよい。
【0047】
図5は、本開示の例にかかる、音声出力を生成する例示的な方法500のフローチャートである。特に示されていない限り、これらの図に示されている技術的プロセスは自動的に実行される。任意の与えられた実施形態において、プロセスのいくつかのステップは、異なるパラメータ又はデータを使用して繰り返されて動作してもよい。実施形態におけるステップはまた、図5に配置された上から下への順序とは異なる順序で実行されてもよい。ステップは、連続的に、部分的に重複して、又は完全に並列して実行されてもよい。したがって、方法500のステップが実行される順序は、プロセスの1つの実施態様とプロセスの別の実施態様とでは異なってもよい。ステップは、実行されるプロセスが動作可能であり、少なくとも1つの請求項に合致する限り、省略され、結合され、名前が変更され、再グループ分けされ、1つ又は複数のマシン上で実行され、又は示されたフローから逸脱してもよい。図5のステップは、コンピューティング装置110(例えば、ユーザ入力プロセッサ116、ディスプレイ118を介して)、コンピューティング装置120(例えば、音楽理論エンジン124、シンセサイザ126、エフェクトエンジン128、又はビートクオンタイザ130を介して)、又は他の適切なコンピューティング装置により実行されてもよい。
【0048】
方法500は、ステップ502を持って開始する。ステップ502において、画像センサによりキャプチャされた、ユーザによるインタラクティブな動きの画像入力を受け取る。いくつかの例において、画像入力は、ユーザ102から、画像センサ112によりキャプチャされた例えば図3図4A及び/又は図4Bに示される画像のような画像に対応する。例えば、画像入力は、ユーザ入力プロセッサ116又はユーザ入力プロセッサ200により受け取られてもよい。
【0049】
ステップ504において、インタラクティブな動きは、音声要素識別子のシーケンスにマッピングされる。いくつかの例において、上述したように、音声要素プロセッサ122は、インタラクティブな動きを音声要素識別子のシーケンスにマッピングする。例えば、音声要素プロセッサ122は、ユーザのインタラクティブな動きを表すユーザ入力識別子を音声要素識別子のシーケンスにマッピングするように設定されている。音声要素識別子は、楽器(例えば、ピアノ、アコースティックギター、トランペット)についての音符、サンプル、ループ、及び/又は音色を表すデータ構造である。いくつかの例において、音声要素識別子はMIDIフォーマットである。例えば、音声要素識別子は、ピッチ、速度、ビブラート、パンニング、タイミング用クロック信号等についての情報を含む。
【0050】
いくつかの例において、音声要素プロセッサ122は、単一のユーザ入力識別子を音符についての音声要素識別子にマッピングする。換言すれば、単一のインタラクティブな動き(例えば、うなずき)は、開始時間及び停止時間を含む単一の音符にマッピングされる。他の例において、音声要素プロセッサ122は、第1のユーザ入力識別子を音符開始(すなわち、MIDIノートオンイベント)についての音声要素識別子にマッピングし、第2のユーザ入力識別子を音符停止(すなわち、MIDIノートオフイベント)についての音声要素識別子にマッピングする。いくつかの例において、同じユーザ入力識別子がノートオンイベントとノートオフイベント時に交互にマッピングされる。他の例において、後続の異なるユーザ入力識別子は、前の音符のノートオフと現在の音符のノートオンとの両方にマッピングされる。いくつかの例において、インタラクティブな動きをマッピングすることは、複数の楽器セットから所定の楽器のセットを選択し、インタラクティブな動きを、選択された所定の楽器のセット内の楽器にマッピングすることを含む。
【0051】
ステップ506において、音声要素識別子のシーケンスについて音楽理論ルール実施を実行することにより、音声要素識別子のシーケンスを処理して音楽シーケンスを生成する。いくつかの例において、上述したように、音楽理論エンジン124は、音声要素プロセッサ122からの音声要素識別子のシーケンスを処理し、音楽シーケンスを生成する。音楽理論エンジン124は、ルールを執行することにより、不協和音を低減したり、「悪い」又は「誤った」音符を「良い」音符に変更したり(すなわち、現在の和音内にない音符を現在の和音内にあるように変更し、現在の調号内にない音符を現在の調号内にあるように変更したり)、誤った音符を省略したり、追加の音符を挿入したりしてもよい。音楽理論エンジン124は、音楽理論ルールに違反する音声要素識別子のシーケンスのうちの少なくとも1つの音声要素識別子を修正することにより、ルールを執行してもよい。
例示的な修正は、少なくとも1つの音声要素識別子に関連付けられたピッチを変更すること(例えば、コード進行、音階、音楽モードをマッチングさせること)、音声要素識別子を省略すること(例えば、「悪い」音符を消去すること)、音声要素識別子の期間を変更すること、又は音声要素識別子に関連付けられた他の特徴を変更することを含む。音楽理論エンジン124は、メロディ内の音符の調号との整合性を維持すること、コード内の音符の調和を維持すること、コード進行内の音符を維持すること、不協和音程を有するコードの後に協和音程になるコードが続くことを保証すること、などのような、音楽理論の様々な要素を執行する1つ又は複数の選択可能なルールを含んでもよい。
【0052】
ステップ508において、音楽シーケンスを表す音声出力が生成される。いくつかの例において、シンセサイザ126は、音楽理論エンジン124により提供された音楽シーケンスに基づいて音声出力を生成する。いくつかの例において、音楽シーケンスを生成することは、(例えば、エフェクトエンジン128により)エフェクトを音声出力に追加すること、及び/又は、(例えば、ビートクオンタイザ130により)音声要素識別子を拍子記号、リズム、及び/又はコード進行に合わせることをさらに含む。
【0053】
図6、7及び8並びに関連付けられる説明は、本開示の様々な態様を実装可能な様々な動作環境の説明を提供する。しかしながら、図6、7及び8を参照して図示され、説明された装置及びシステムは、例示及び図示のためのものであり、本明細書で説明される、本開示の様々な態様を実現するために使用可能な多数のコンピューティング装置設定を限定するものではない。
【0054】
図6は本開示の態様を実施するために利用可能なコンピューティング装置600の物理的コンポーネント(例えば、ハードウェア)を示すブロック図である。以下に説明されるコンピューティング装置コンポーネントは、本明細書で開示される方法を実現するために実行されることができる音声出力生成アプリケーション620のためのコンピュータ実行可能命令を含む、コンピューティング装置(例えば、コンピューティング装置110、コンピューティング装置120)上で音声出力生成アプリケーション620を実現するためのコンピュータ実行可能命令を有してもよい。基本的な設定において、コンピューティング装置600は、少なくとも1つのプロセッシングユニット602とシステムメモリ604とを含んでもよい。コンピューティング装置の設定及びタイプによっては、システムメモリ604は、揮発性ストレージ(例えば、ランダムアクセスメモリ)、不揮発性ストレージ(例えば、リードオンリーメモリ)、フラッシュメモリ、又はこのようなメモリの任意の組み合わせを含んでもよいが、これらに限定されない。システムメモリ604は、オペレーティングシステム605及び音声出力生成アプリケーション620を実行するのに適した1つ又は複数のプログラムモジュール606、例えば図1及び図2に関する1つ又は複数のコンポーネント、具体的には、ユーザ入力プロセッサ621(例えば、ユーザ入力プロセッサ116又はユーザ入力プロセッサ200に対応)、音声要素プロセッサ622(例えば、音声要素プロセッサ122に対応)、音楽理論エンジン623(例えば、音楽理論エンジン124に対応)、シンセサイザ624(例えば、シンセサイザ126に対応)、エフェクトプロセッサ625(例えば、エフェクトエンジン128に対応)、ビートクオンタイザ626(例えば、ビートクオンタイザ130に対応)を含んでもよい。
【0055】
例えば、オペレーティングシステム605は、コンピューティング装置600の操作をコントロールするように適していてもよい。さらに、本開示の実施形態は、グラフィックライブラリ、他のオペレーティングシステム、又は任意の他のアプリケーションプログラムに関連して実行することができるが、任意の特定のアプリケーション又はシステムに限定されない。この基本的な設定は、破線608内のそれらの構成要素によって図6に示されている。コンピューティング装置600は、追加の特徴又は機能を有してもよい。例えば、コンピューティング装置600は、磁気ディスク、光ディスク、又はテープなどの追加のデータストレージ装置(取外し可能な装置及び/又は取外し不可能な装置)をさらに備えてもよい。このような追加のストレージは、図6において、取り外し可能なストレージ装置609と取り外し不可能なストレージ装置610とにより示されている。
【0056】
上述したように、複数のプログラムモジュール及びデータファイルがシステムメモリ604に記憶されていてもよい。プログラムモジュール606(例えば、音声出力生成アプリケーション620)は、プロセッシングユニット602上で実行された場合、本明細書で説明された態様を含むがそれらに限定されないプロセスを実行してもよい。本開示の態様に従って使用可能で、特に音声出力を生成するための他のプログラムモジュールは、ユーザ入力プロセッサ621と、音声要素プロセッサ622と、音楽理論エンジン623と、シンセサイザ624と、エフェクトプロセッサ625と、ビートクオンタイザ626とを含んでもよい。
【0057】
さらに、本開示の実施形態は、個別電子部品を含む電気回路、論理ゲートを含むパッケージチップ又は集積電子チップ、マイクロプロセッサを利用する回路、又は電子部品又はマイクロプロセッサを含む単一のチップ内で実施されてもよい。例えば、本開示の実施形態は、図6に示される各コンポーネント又は複数のコンポーネントが単一の集積回路上に集積化することが可能であるシステムオンチップ(SOC)を介して実施されてもよい。このようなSOC装置は、一つ又は複数のプロセッシングユニット、グラフィックスユニット、通信ユニット、システム仮想化ユニット、及び様々なアプリケーション機能を含んでもよく、これらの全てが単一の集積回路としてチップ基板上に集積化される(又は「焼かれる」)。SOCを介して操作する場合、本明細書に記載された、クライアントがプロトコルを切り替える能力に関する機能は、単一の集積回路(チップ)上のコンピューティング装置700の他のコンポーネントと集積化された特定用途向けロジックを介して動作してもよい。本開示の実施形態はまた、AND、OR、及びNOTなどの論理演算を実行できる、機械、光学、流体、及び量子技術を含むがそれらに限定されない他の技術を使用して実施されてもよい。追加として、本開示の実施形態は、汎用コンピュータ内で、又は任意の他の回路又はシステム内で実施されてもよい。
【0058】
コンピューティング装置600はまた、キーボード、マウス、ペン、音響又は音声入力装置、タッチ又はスワイプ入力装置など、1つ又は複数の入力装置612を有してもよい。ディスプレイ、スピーカ、プリンタなどの出力装置614も含まれてもよい。上記の装置は例であり、他の装置を使用してもよい。コンピューティング装置600は、他のコンピューティング装置650との通信を可能にする1つ又は複数の通信接続616を含んでもよい。好適な通信接続616の例は、無線周波数(RF)送信機、受信機及び/又はトランシーバ回路、ユニバーサルシリアルバス(USB)、パラレルポート、及び/又はシリアルポートを含むが、これらに限定されない。
【0059】
本明細書で使用されるコンピュータ可読媒体という用語は、コンピュータ記憶媒体を含んでもよい。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、又はプログラムモジュールのような、情報を記憶するための任意の方法又は技術で実現される揮発性及び不揮発性の取り外し可能な媒体及び取り外し不可能な媒体を含んでもよい。システムメモリ604、取り外し可能なストレージ装置609及び取り外し不可能なストレージ装置610は、いずれもコンピュータ記憶媒体の一例(例えば、メモリストレージ)である。コンピュータ記憶媒体は、RAM、ROM、電気的に消去可能なリードオンリーメモリ(EEPROM)、フラッシュメモリ又は他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)又は他の光学的ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又は他の磁気ストレージ装置、又は情報を記憶するために使用され、コンピューティング装置600によりアクセス可能な任意の他の製品を含んでもよい。任意のそのようなコンピュータ記憶媒体は、コンピューティング装置600の一部であってもよい。コンピュータ記憶媒体は、搬送波又は他の伝搬又は変調されたデータ信号を含まない。
【0060】
通信媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、又は変調されたデータ信号内の他のデータ、例えば搬送波又は他の移送機構によって具現化することができるとともに、任意の情報伝達媒体を含む。「変調されたデータ信号」という用語は、信号内に情報を符号化するように設定又は変更された1つ又は複数の特徴を有する信号を表してもよい。限定ではなく、一例として、通信媒体は、有線ネットワーク又は直接有線接続のような有線媒体、及び音響、無線周波数(RF)、赤外、及び他の無線媒体のような無線媒体を含んでもよい。
【0061】
図7及び8は、本開示の実施形態を実施するために利用可能な携帯電話、スマートフォン、(スマートウォッチのような)ウェアラブルコンピュータ、タブレットコンピュータ、ラップトップコンピュータなどのようなモバイルコンピューティング装置700を示している。いくつかの態様において、クライアントは、モバイルコンピューティング装置であってもよい。図7を参照すると、これらの態様を実現するためのモバイルコンピューティング装置700の一態様が示されている。基本的な構成において、モバイルコンピューティング装置700は、入力要素及び出力要素の両方を有する手持ちコンピュータである。モバイルコンピューティング装置700は、典型的には、ディスプレイ705と、ユーザがモバイルコンピューティング装置700に情報を入力することを可能にする1つ又は複数の入力ボタン710とを備える。モバイルコンピューティング装置700のディスプレイ705は、入力装置(例えば、タッチスクリーンディスプレイ)としても機能することができる。オプションの副入力要素715(含まれる場合)によって、別のユーザ入力がさらに可能になる。副入力要素715は、ロータリースイッチ、ボタン、又は任意の他のタイプの手動入力要素であってもよい。代替としての態様において、モバイルコンピューティング装置700は、より多くの入力要素又はより少ない入力要素を組み込んでもよい。例えば、いくつかの実施形態において、ディスプレイ705はタッチスクリーンでなくてもよい。さらに別の代替実施形態において、モバイルコンピューティング装置700は、セルラー電話などの携帯電話システムである。モバイルコンピューティング装置700は、前面カメラ730を備えてもよい。モバイルコンピューティング装置700はさらに、オプションのキーパッド735を含んでもよい。オプションのキーパッド735は、物理キーパッド又はタッチスクリーンディスプレイ上で生成される「ソフト」キーパッドであってもよい。様々な実施形態において、出力要素は、グラフィカルユーザインターフェース(GUI)を表示するためのディスプレイ705と、視覚的インジケータ720(例えば、発光ダイオード)と、及び/又はオーディオトランスデューサ725(例えば、スピーカ)とを含む。いくつかの態様において、モバイルコンピューティング装置700は、ユーザに触覚フィードバックを提供するための振動トランスデューサを組み込んでいる。さらに別の態様において、モバイルコンピューティング装置700は、音声入力(例えば、マイクロホンジャック)、音声出力(例えば、ヘッドフォンジャック)、及びビデオ出力(例えば、HDMI(登録商標)ポート)のような入力及び/又は出力ポートを組み込むことで、外部装置との間で信号の送受信を行う。
【0062】
図8
はモバイルコンピューティング装置の一態様のアーキテクチャを示すブロック図である。すなわち、モバイルコンピューティング装置700は、システム(例えば、アーキテクチャ)802を組み込むことで、いくつかの態様を実現することができる。一実施形態において、システム802は、一つ又は複数のアプリケーション(例えば、ブラウザ、電子メール、カレンダー、連絡先マネージャ、メッセージ通信クライアント、ゲーム、及びメディアクライアント/プレーヤ)を実行することができる「スマートフォン」として実現される。いくつかの態様において、システム802は、統合されたパーソナルデジタルアシスタント(PDA)、無線電話などのコンピューティング装置として統合される。システム802は、タッチスクリーンディスプレイのようなディスプレイ805(ディスプレイ705と類似する)又は他の適切なユーザインターフェースを含んでもよい。システム802はまた、オプションのキーパッド835(キーパッド735と類似)と、音声、ビデオ、制御信号、又は他の適切な信号のための入力及び/又は出力ポートのような、1つ又は複数の周辺装置ポート830とを含んでもよい。
【0063】
いくつかの例において、システム802は、メモリ862に結合されたプロセッサ860を備えてもよい。システム802はまた、ニューラルネットワークプロセッサのような専用プロセッサ861を備えてもよい。1つ又は複数のアプリケーションプログラム866は、メモリ862にロードされ、オペレーティングシステム864上で、又はオペレーティングシステム1164に関連して実行してもよい。アプリケーションプログラムの例としては、電話ダイヤルプログラム、電子メールプログラム、個人情報管理(PIM)プログラム、ワープロプログラム、スプレッドシートプログラム、インターネットブラウザプログラム、メッセージ通信プログラムなどが含まれる。システム802はまた、メモリ862内の不揮発性記憶領域868を備える。不揮発性記憶領域868は、システム802の電源が切られたときに失われてはならない永続的な情報を記憶するために使用することが可能である。アプリケーション866は、電子メール又は電子メールアプリケーションによって使用される他のメッセージなど、不揮発性記憶領域868内の情報を使用し、不揮発性記憶領域868に記憶してもよい。同期アプリケーション(図示せず)もシステム802上に常駐し、ホストコンピュータ上に常駐する対応の同期アプリケーションとやり取りして、不揮発性記憶領域868に格納された情報とホストコンピュータ上に記憶された対応の情報との同期を維持するようにプログラミングされる。
【0064】
システム802は、1つ又は複数のバッテリとして実現されてもよい電源870を有する。電源870はさらに、バッテリを補充又は再充電する電源付き格納台又はACアダプタなどの外部電源を含んでもよい。
【0065】
システム802はさらに、無線周波数通信を送受信する機能を実行する無線インターフェース層872を含んでもよい。無線インターフェース層872は、通信キャリア又はサービスプロバイダを介してシステム802と「外部世界」との間の無線接続を容易にする。無線インターフェース層872との間の送信は、オペレーティングシステム864の制御の下で行われる。換言すれば、無線インターフェース層872により受信された通信は、オペレーティングシステム864を介してアプリケーションプログラム866に配布されてもよく、その逆も同様である。
【0066】
視覚的インジケータ820は、視覚的通知を提供するために使用することが可能で、且つ/又は音声インターフェース874は、音声トランスデューサ725(例えば、図7に示される音声トランスデューサ725)を介して可聴通知を生成するために使用されてもよい。示された実施形態において、視覚的インジケータ820は発光ダイオード(LED)であり、オーディオトランスデューサ725はスピーカであってもよい。これらの装置は、電源870に直接結合されることで、起動されたときに、バッテリ電力を節約するためにプロセッサ860及び他の構成要素がオフにされていても、通知機構によって指定された継続時間の間、オンにされた状態を維持することが可能である。LEDは、ユーザが装置の電源オン状態を示す行動を行うまで、無期限に点灯し続けるようにプログラムされてもよい。音声インターフェース874は、ユーザに可聴信号を提供し、ユーザから可聴信号を受信するために使用される。例えば、音声インターフェース874は、音声トランスデューサ725に結合されることに加えて、マイクロフォンに結合されることで、例えば電話会談を容易にするために、可聴入力を受け取ってもよい。本開示の実施形態によれば、マイクロフォンは、以下で説明するように、通知の制御を容易にするためにオーディオセンサとして機能することもできる。システム802は、周辺装置830(例えば、オンボードカメラ)のオペレーションにより静止画像、ビデオストリーム等を記録することを可能にするビデオインターフェース876をさらに含んでもよい。
【0067】
システム802を実現するモバイルコンピューティング装置700は、追加の特徴又は機能を有してもよい。例えば、モバイルコンピューティング装置700は、磁気ディスク、光ディスク、又はテープなどの追加のデータストレージ装置(取外し可能な装置及び/又は取外し不可能な装置)をさらに備えてもよい。このような追加のストレージは、図8において不揮発性記憶領域868により示されている。
【0068】
以上で説明されたように、モバイルコンピューティング装置700により生成又はキャプチャされ、システム802を介して記憶されたデータ/情報は、モバイルコンピューティング装置700上にローカルに記憶されてもよく、あるいは、データは、無線インターフェース層872を介して、又はモバイルコンピューティング装置700とモバイルコンピューティング装置700に関連付けられている別のコンピューティング装置(例えば、インターネットなどの、分散型コンピューティングネットワーク内のサーバコンピュータ)との間の有線接続を介して装置からアクセス可能な任意の数の記憶媒体に記憶されてもよい。このようなデータ/情報は、モバイルコンピューティング装置700を介して、無線インターフェース層872を介して、又は分散型コンピューティングネットワークを介してアクセスされてもよいことを、理解すべきである。同様に、このようなデータ/情報は、電子メール及び共同データ/情報共有システムを含む公知のデータ/情報送信及び記憶手段に従って、記憶及び使用のためにコンピューティング装置間で容易に送信されてもよい。
【0069】
なお、図7及び図8は、本方法及びシステムを図示するために記載されており、本開示を特定のステップシーケンス又はハードウェア又はソフトウェアコンポーネントの特定の組み合わせに限定することを意図していない。
【0070】
語句「少なくとも1つ」、「1つ又は複数」、「又は」、及び「及び/又は」は、操作において結合的且つ選言的なオープンエンド表現である。例えば、表現「A、B及びCのうちの少なくとも1つ」、「A、B又はCのうちの少なくとも1つ」、「A、B、及びCのうちの1つ又は複数」、「A、B、又はCのうちの1つ又は複数」、「A、B、及び/又はC」、及び「A、B、又はC」の各々は、Aのみ、Bのみ、Cのみ、AとB、AとC、BとC、又はA、B及びCを意味する。
【0071】
「1つの」エンティティという用語は、1つ又は複数の該エンティティを意味する。したがって、用語「1つ」、「1つ又は複数」、及び「少なくとも1つ」は、本明細書では互換的に使用されてもよい。また、用語「備える」、「含む」、及び「有する」が互換的に使用されてもよいことにも注意すべきである。
【0072】
本明細書で使用される用語「自動」及びその変形は、プロセス又はオペレーションが実行されるときに重要な手動入力なしになされる、通常は連続的又は半連続的な任意のプロセス又はオペレーションを指す。しかしながら、重要又は重要ではない手動入力を用いたとしても、入力がプロセス又はオペレーションの実行前に受け付けられたのであれば、当該プロセス又はオペレーションの実行は、自動的に行うことができる。手動入力がプロセス又はオペレーションの実行方法に影響を与える場合、そのような手動入力は重要な入力とみなされる。プロセス又は操作の実行を同意するための手動入力は、「実質的」とはみなされない。
【0073】
本明細書で論議されるステップ、機能、及び操作のいずれも、連続的で自動的に実行されてもよい。
【0074】
本開示の例示的なシステム及び方法は、コンピューティング装置に関連して説明されてきた。しかしながら、本開示を不必要に不明瞭にすることを避けるために、前述の説明ではいくつかの既知の構造及び装置を省略している。この省略は限定として解釈すべきではない。本開示の理解を提供するために、特定の詳細は説明される。しかしながら、本開示は、本明細書に記載された特定の詳細に加えて、様々な方法で実施されてもよいことを理解すべきである。
【0075】
さらに、本明細書で示された例示的態様において、システムの様々なコンポーネントがともに配置されていることが示されているが、システムのいくつかのコンポーネントは、LAN及び/又はインターネットのような分散型ネットワークの遠位部分に遠隔的に配置されていてもよく、又は専用システム内に配置されていてもよい。したがって、システムのコンポーネントは、1つ又は複数の装置、例えばサーバ、通信装置に結合されてもよく、あるいは、アナログ及び/又はデジタル電気通信ネットワーク、パケット交換ネットワーク、又は回線交換ネットワークのような分散ネットワークの特定のノード上にともに配置されてもよいことを、理解すべきである。前述の説明から理解されるように、コンピューティング効率の理由から、システムのコンポーネントは、システムのオペレーションに影響を与えることなく、コンポーネントの分散型ネットワーク内の任意の場所に配置されてもよい。
【0076】
さらに、要素を接続する様々なリンクは、有線リンク又は無線リンク、又はそれらの任意の組み合わせ、若しくは接続された要素にデータを提供し、及び/又は接続された要素からデータを通信することができる他の既知の又は将来開発される任意の要素であってもよいことを、理解すべきである。これらの有線又は無線リンクも、安全なリンクであってもよく、暗号化された情報を通信可能であってもよい。例えば、リンクとして使用される伝送媒体は、同軸ケーブル、銅線、及び光ファイバを含む電気信号の任意の適切なキャリアであってもよく、例えば、無線電波及び赤外データ通信中に生成されるような音波又は光波の形態をとることができる。
【0077】
特定のイベントシーケンスに関連してフローチャートを議論し、例示してきたが、開示されている設定及び態様のオペレーションに実質的に影響を与えることなく、シーケンスに対する変更、追加、及び省略があってもよいことを、理解すべきである。
【0078】
本開示のいくつかの変更及び修正を使用することができる。本開示のいくつかの特徴を提供し、他の特徴を提供しないことも可能である。
【0079】
他の設定において、本開示のシステム及び方法は、専用コンピュータ、プログラムされたマイクロプロセッサ又はマイクロコントローラ及び周辺集積回路素子、ASIC又は他の集積回路、デジタル信号プロセッサ、ハードワイヤード電子回路又は論理回路(例えば、ディスクリート素子回路)、プログラマブル論理装置又はゲートアレイ(例えば、PLD、PLA、FPGA、PAL)、専用コンピュータ、任意の類似の装置などと組み合わせて実施されてもよい。全体として、本開示の様々な態様を実施するために、本明細書に示される方法を実施することができる任意の装置又は手段を使用することができる。本開示に使用されることができる例示的なハー
ドウェアは、コンピュータ、手持ち装置、電話(例えば、セルラー電話、インターネット対応電話、デジタル電話、アナログ電話、ハイブリッド電話など)、及び当分野で知られている他のハードウェアを含む。これらの装置のいくつかは、プロセッサ(例えば、単一又は複数のマイクロプロセッサ)、メモリ、不揮発性ストレージ、入力装置、及び出力装置を備える。本明細書に記載された方法を実現するために、さらに、分散型処理又はコンポーネント/オブジェクト分散型処理、並列処理、又は仮想マシン処理を含むがこれらに限定されない代替のソフトウェア実現を構築してもよい。
【0080】
さらに別の設定において、開示された方法は、様々なコンピュータ又はワークステーションプラットフォーム上で使用可能な移植可能なソースコードを提供するオブジェクト又はオブジェクト指向ソフトウェア開発環境を使用するソフトウェアと組み合わせて容易に実現されてもよい。代替として、開示されたシステムは、標準論理回路又はVLSI設計を使用して部分的に又は完全にハードウェアで実装されてもよい。本開示にかかるシステムを実現するためにソフトウェア又はハードウェアを使用するか否かは、システムの速度及び/又は効率要件、特定の機能、及び使用されている特定のソフトウェア又はハードウェアシステム又はマイクロプロセッサ又はマイクロコンピュータシステムに依存する。
【0081】
さらに別の設定において、開示された方法は、記憶媒体上に記憶され、コントローラ及びメモリと協働するプログラムされた汎用コンピュータ、専用コンピュータ、マイクロプロセッサなどの上で実行されることができるソフトウェアで部分的に実現されてもよい。これらのインスタンスにおいて、本開示のシステム及び方法は、サーバ又はコンピュータワークステーション上に常駐するリソースとして、また専用の測定システム、システムコンポーネントなどに組み込まれるルーチンとして、パーソナルコンピュータ上に組み込まれるプログラム、例えば、アプレット、JAVA(登録商標)、又はCGIスクリプトとして実装することができる。システム及び/又は方法を、ソフトウェア及び/又はハードウェアシステムに物理的に組み込むことにより、システムを実現することもできる。
【0082】
本開示は、説明されている規格及びプロトコルに限定されない。本明細書に記載されていない他の類似の規格及びプロトコルは既に存在し、本開示に含まれている。さらに、本明細書に記載された規格及びプロトコル、及び本明細書に記載されていない他の類似の規格及びプロトコルは、実質的に同じ機能を有するより高速又はより効率的な均等物に周期的に置き換えられる。同じ機能を有するこのような代替の規格及びプロトコルは、本開示に含まれる均等物であると考えられる。
【0083】
様々な設定及び態様において、本開示は、それらの様々な組合せ、サブ組合せ、及びサブセットを含む、本明細書で図示及び説明されるようなコンポーネント、方法、プロセス、システム、及び/又は装置を含む。当業者は、本開示を理解できれば、本開示のシステム及び方法をどのように製造及び使用するかを理解するであろう。本開示は、様々な設定及び態様において、以前の装置又はプロセスで例えばパフォーマンスを向上させ、使いやすさを実現し、且つ/又は実現コストを低減するために使用されていた可能性のある項目がない状態を含み、本明細書で又はその様々な設定又は態様において図示及び/又は記載されていない項目がない状態で、装置及びプロセスを提供することを含む。
【0084】
本開示は、少なくとも以下の部分で提供される例に従って、音声出力を生成するためのシステム及び方法に関する。
【0085】
(A1) 一態様において、いくつかの例は、音声出力を生成するための方法を含む。前記方法は、画像センサによりキャプチャされた、ユーザによるインタラクティブな動きの画像入力を受け取ることと、前記インタラクティブな動きを、音声要素識別子のシーケンスにマッピングすることと、前記音声要素識別子のシーケンスについて音楽理論ルール実施を実行することにより、前記音声要素識別子のシーケンスを処理して音楽シーケンスを生成することと、前記音楽シーケンスを表す音声出力を生成することと、を含む。
【0086】
(A2) A1のいくつかの例において、前記音声要素識別子を処理することは、音楽理論ルールに違反する音声要素識別子のシーケンスのうちの少なくとも1つの音声要素識別子を修正することと、前記修正された音声要素識別子に基づいて前記音楽シーケンスを生成することと、を含む。
【0087】
(A3) A1~A2のいくつかの例において、前記少なくとも1つの音声要素識別子を修正することは、前記音声要素識別子に関連付けられるピッチを変更することを含む。
【0088】
(A4) A1~A3のいくつかの例において、前記ピッチを変更することは、前記音楽理論ルールを満たすコード進行にマッチングさせることを含む。
【0089】
(A5) A1~A4のいくつかの例において、前記少なくとも1つの音声要素識別子を修正することは、前記音楽シーケンスを生成する際に、前記少なくとも1つの音声要素識別子を省略することを含む。
【0090】
(A6) A1~A5のいくつかの例において、前記少なくとも1つの音声要素識別子を修正することは、前記少なくとも1つの音声要素識別子の期間を変更することを含む。
【0091】
(A7) A1~A6のいくつかの例において、前記インタラクティブな動きをマッピングすることは、複数の楽器セットから所定の楽器のセットを選択することと、前記インタラクティブな動きを、選択された所定の楽器のセット内の楽器にマッピングすることと、を含む。
【0092】
(A8) A1~A7のいくつかの例において、前記方法は、音楽サンプルから所定の楽器のセットを識別するニューラルネットワークエンジンを使用して前記複数の楽器セットを生成することをさらに含む。
【0093】
(A9) A1~A8のいくつかの例において、前記方法は、前記画像入力にオーバーレイされたグラフィカルユーザインターフェースを含む出力画像を前記ユーザに表示することをさらに含み、前記インタラクティブな動きは、前記グラフィカルユーザインターフェースと重複する前記ユーザのユーザ要素を含む。
【0094】
(A10) A1~A9のいくつかの例において、前記ユーザのユーザ要素は、前記ユーザの指、手、腕、足、及び/又は脚である。
【0095】
(A11) A1~A10のいくつかの例において、前記グラフィカルユーザインターフェースは、複数の所定の音声要素識別子に対応する複数のアイコンを含み、前記インタラクティブな動きをマッピングすることは、アイコンと重複するユーザ要素を有するインタラクティブな動きを、重複されたアイコンに対応する所定の音声要素識別子にマッピングすることを含む。
【0096】
(A12) A1~A11のいくつかの例において、前記複数の所定の音声要素識別子は、単一要素識別子とマルチ要素識別子とを含む。
【0097】
(A13) A1~A12のいくつかの例において、前記インタラクティブな動きは、前記ユーザにより行われる顔表情要素である。
【0098】
(A14) A1~A13のいくつかの例において、前記インタラクティブな動きは、前記ユーザにより実行されるジェスチャである。
【0099】
さらに別の態様において、いくつかの例はコンピューティングシステムを含み、前記コンピューティングシステムは1つ又は複数のプロセッサと、前記1つ又は複数のプロセッサに結合されたメモリとを備え、前記メモリは複数の命令を記憶しており、前記1つ又は複数の命令が前記1つ又は複数のプロセッサにより実行された場合、前記1つ又は複数のプロセッサは、本明細書に説明された方法のうちのいずれかの方法(例えば、上記A1~A14)を実行する。
【0100】
さらに別の態様において、いくつかの例は、ストレージ装置の1つ又は複数のプロセッサにより実行されるための1つ又は複数のプログラムを記憶している非一時的なコンピュータ可読記憶媒体を含み、前記1つ又は複数のプログラムは本明細書で説明された方法(例えば、上記A1~A14)のうちのいずれかの方法を実行するための命令を含む。
【0101】
さらに別の態様において、いくつかの例はコンピューティングシステムを含み、前記コンピューティングシステムは1つ又は複数のプロセッサと、前記1つ又は複数のプロセッサに結合されたメモリとを備え、前記メモリは複数の命令を記憶しており、前記1つ又は複数の命令が前記1つ又は複数のプロセッサにより実行された場合、前記1つ又は複数のプロセッサは、本明細書に説明された方法のうちのいずれかの方法(例えば、上記方法500)を実行する。
【0102】
さらに別の態様において、いくつかの例は、ストレージ装置の1つ又は複数のプロセッサにより実行されるための1つ又は複数のプログラムを記憶している非一時的なコンピュータ可読記憶媒体を含み、前記1つ又は複数のプログラムは本明細書で説明された方法(例えば、上記方法500)のうちのいずれかの方法を実行するための命令を含む。
【0103】
例えば、本開示の態様は、本開示の態様にかかる方法、システム、及びコンピュータプログラム製品のブロック図及び/又はオペレーション説明を参照して以上に説明されている。ブロック内に記された機能/動作は、任意のフローチャートに示された順序とは異なる順序で発生することができる。例えば、関連する機能/動作によっては、連続して示される2つのブロックは実際には実質的に同時に実行されてもよく、又はこれらのブロックは時には逆の順序で実行されてもよい。
【0104】
本願で提供された1つ又は複数の態様の説明及び例示は、特許請求される本開示の範囲をいかなる態様で制限又は限定することも意図していない。本明細書で説明された態様、例及び詳細は、所有権を伝えるのに十分であり、かつ、他の者が特許請求される本開示の最善の形態を形成及び使用することを可能にするのに十分であるとみなされる。特許請求される本開示は、本明細書で説明された態様、例、又は詳細に限定されるものと解釈すべきではない。様々な特徴(構造的特徴及び方法的特徴)は、組み合わせて図示又は説明されるか又は個別に図示又は説明されるかにかかわらず、特定の特徴セットを有する実施形態を形成するためには、選択的に含む又は省略することが意図されている。本願の説明及び例示を提供することにより、当業者は、特許請求される開示のより広い範囲から逸脱しない、本願で実現された一般的な発明構想のより広い態様の要旨に含まれる変更、修正及び代替態様を想定することができる。
【符号の説明】
【0105】
104 音声出力
110 コンピューティング装置
112 画像センサ
114 深度センサ
116 ユーザ入力プロセッサ
118 ディスプレイ
120 コンピューティング装置
122 音声要素プロセッサ
124 音楽理論エンジン
126 シンセサイザ
128 エフェクトエンジン
130 ビートクオンタイザ
150 ネットワーク

200 ユーザ入力プロセッサ
210 ジェスチャプロセッサ
220 顔表情プロセッサ
230 指位置プロセッサ

502 画像センサによりキャプチャされた、ユーザによるインタラクティブな動きの画像入力を受け取る
504 インタラクティブな動きを、音声要素識別子のシーケンスにマッピングする
506 音声要素識別子のシーケンスについて音楽理論ルール実施を実行することにより、音声要素識別子のシーケンスを処理して音楽シーケンスを生成する
508 音楽シーケンスを表す音声出力を生成する

600 コンピューティング装置
602 プロセッシングユニット
604 システムメモリ
605 オペレーティングシステム
606 プログラムモジュール
609 取り外し可能なストレージ装置
610 取り外し不可能なストレージ装置
612 入力装置
614 出力装置
616 通信接続
620 アプリケーション
621 ユーザ入力プロセッサ
622 音声要素プロセッサ
623 音楽理論エンジン
624 シンセサイザ
625 エフェクトプロセッサ
626 ビートクオンタイザ
650 他のコンピューティング装置

861 専用プロセッサ
860 プロセッサ
805 ディスプレイ
830 周辺装置ポート
835 キーパッド
862 メモリ
866 アプリ
868 記憶装置
870 電源
876 ビデオインターフェース
874 音声インターフェース
872 無線インターフェース層
図1
図2
図3
図4A
図4B
図5
図6
図7
図8
【手続補正書】
【提出日】2024-06-25
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
音声出力を生成するための方法であって、 画像センサによりキャプチャされた、ユーザによるインタラクティブな動きの画像入力を受け取ることと、 前記インタラクティブな動きを、音声要素識別子のシーケンスにマッピングすることと、 前記音声要素識別子のシーケンスについて音楽理論ルール実施を実行することにより、前記音声要素識別子のシーケンスを処理して音楽シーケンスを生成することと、 前記音楽シーケンスを表す音声出力を生成することと、 を含む方法。
【請求項2】
前記音声要素識別子を処理することは、 音楽理論ルールに違反する前記音声要素識別子のシーケンスのうちの少なくとも1つの音声要素識別子を修正することと、 前記修正された音声要素識別子に基づいて前記音楽シーケンスを生成することと、 を含む請求項1に記載の方法。
【請求項3】
前記少なくとも1つの音声要素識別子を修正することは、前記音声要素識別子に関連付けられるピッチを変更すること、 を含む請求項2に記載の方法。
【請求項4】
前記ピッチを変更することは、前記音楽理論ルールを満たすコード進行にマッチングさせること、 を含む請求項3に記載の方法。
【請求項5】
前記少なくとも1つの音声要素識別子を修正することは、前記音楽シーケンスを生成する際に、前記少なくとも1つの音声要素識別子を省略することを含む、 請求項2に記載の方法。
【請求項6】
前記少なくとも1つの音声要素識別子を修正することは、前記少なくとも1つの音声要素識別子の期間を変更すること、 を含む請求項2に記載の方法。
【請求項7】
前記インタラクティブな動きをマッピングすることは、 複数の楽器セットから所定の楽器のセットを選択することと、 前記インタラクティブな動きを、選択された所定の楽器のセット内の楽器にマッピングすることと、 を含む請求項1に記載の方法。
【請求項8】
前記方法は、音楽サンプルから所定の楽器のセットを識別するニューラルネットワークエンジンを使用して前記複数の楽器セットを生成すること、 をさらに含む請求項7に記載の方法。
【請求項9】
前記方法は、前記画像入力にオーバーレイされたグラフィカルユーザインターフェースを含む出力画像を前記ユーザに表示することをさらに含み、前記インタラクティブな動きは、前記グラフィカルユーザインターフェースと重複する前記ユーザのユーザ要素を含む、 請求項1に記載の方法。
【請求項10】
前記ユーザの前記ユーザ要素は、前記ユーザの指、手、腕、足、及び/又は脚である、 請求項9に記載の方法。
【請求項11】
前記グラフィカルユーザインターフェースは、複数の所定の音声要素識別子に対応する複数のアイコンを含み、 前記インタラクティブな動きをマッピングすることは、アイコンと重複するユーザ要素を有するインタラクティブな動きを、重複されたアイコンに対応する所定の音声要素識別子にマッピングすることを含む、 請求項9に記載の方法。
【請求項12】
前記複数の所定の音声要素識別子は、単一要素識別子とマルチ要素識別子とを含む、 請求項11に記載の方法。
【請求項13】
前記インタラクティブな動きは、前記ユーザにより行われる顔表情要素である、 請求項1に記載の方法。
【請求項14】
前記インタラクティブな動きは、前記ユーザにより実行されるジェスチャである 請求項1に記載の方法。
【請求項15】
音声出力を生成するためのシステムであって、請求項1~14のいずれかの方法を実行するように、マシン可読命令により設定された1つ又は複数のハードウェアプロセッサを含む、システム。
【請求項16】
1つ又は複数のプロセッサにより実行可能な命令を含む非一時的なコンピュータ可読記憶媒体であって、 前記命令は、前記1つ又は複数のプロセッサにより実行されると、前記1つ又は複数のプロセッサに、請求項1~14のいずれかの方法を実行させる非一時的なコンピュータ可読記憶媒体。
【請求項17】
コンピュータにより実行されると、請求項1から14のいずれかに記載の方法を前記コンピュータに実現させる、コンピュータプログラム。
【国際調査報告】