特開2024-158045 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 上田真太郎の特許一覧

特開2024-158045音響装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024158045

(43)【公開日】2024-11-08

(54)【発明の名称】音響装置

(51)【国際特許分類】

G10H 1/00 20060101AFI20241031BHJP

G10L 25/30 20130101ALI20241031BHJP

G10L 13/00 20060101ALI20241031BHJP

G10K 15/04 20060101ALI20241031BHJP

【ＦＩ】

G10H1/00 Z

G10L25/30

G10L13/00 100Y

G10K15/04 302D

【審査請求】有

【請求項の数】1

【出願形態】ＯＬ

(21)【出願番号】P 2023072882

(22)【出願日】2023-04-27

(11)【特許番号】

(45)【特許公報発行日】2023-08-10

(71)【出願人】

【識別番号】722015339

【氏名又は名称】上田真太郎

(72)【発明者】

【氏名】上田真太郎

【テーマコード（参考）】

5D208

5D478

【Ｆターム（参考）】

5D208CA04

5D208CE02

5D478CC12

(57)【要約】

【課題】発声を必要としない新しい演奏方法を提供すること。
【解決手段】音声情報を機械学習させ、モーションセンサを有するマイクロフォンが検知したマイクロフォンの動き情報と対応するユーザの声に近い音声データを選択し、楽曲の歌詞に対応する形で音声出力させる。
【選択図】図２

【特許請求の範囲】

【請求項1】

ユーザが持つマイクロフォンの動きを検知して制御装置に前記検知した内容の情報を送信するモーションセンサを含むことを特徴とするマイクロフォンと、
前記モーションセンサから受信した情報を機械学習によって解析し、対応する音声データをデータベースまたはROMから選択して出力部へ送信する制御部と、
前記音声データを前記制御部によって再生される楽曲の歌詞と対応する形で出力する出力部と
を備えることを特徴とする音響装置。

【請求項2】

前記モーションセンサは、前記マイクロフォンの振る角度や速度と対応する形で音の高低・強弱・音程を認識することを特徴とする請求項１に記載の音響装置。

【請求項3】

音声情報に基づいて、前記ユーザの声に近い音声を定量化した値を出力するよう、コンピュータを機能させるための学習済みモデルであって、
ニューラルネットワークで構成され、
前記ニューラルネットワークは前記音声情報を入力する入力層と、入力された音声を解析する中間層と、前記解析された音声の高低・強弱・音程などの特徴情報を取得する出力層から構成されたものであり、
前記出力層、前記中間層、前記出力層を通じて学習することを特徴とし、
必要に応じて追加層を追加し、前記追加層と前記学習済みモデルの一部を含めて再度、前記学習済みモデルに基づく重み付け演算並びに学習を行うものであり、
前記ニューラルネットワークの出力層または追加層から前記ユーザの声に近い音声を定量化した値を出力するよう、コンピュータを機能させるための学習済みモデル。

【請求項4】

前記モーションセンサから受信した情報を前記学習済みモデルを使用して解析するステップと、
前記解析した情報に基づいて再生するべき音声データを前記データベースまたはROMから選択して必要に応じて音の高低・強弱・音程を調整して音声合成処理を行うステップと、
音声データまたは合成音声データを出力部へ送信するステップと、
前記音声データまたは前記合成音声データを出力するステップと
を含む方法。

【請求項5】

請求項４に記載の方法をコンピュータに実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、音響装置、学習済みモデル、方法及びプログラムに関する。

【背景技術】

【0002】

従来、人の声を取得してその音声信号を電気信号に変換するマイクロフォンと、マイクロフォンによって変換された電気信号を振動に変換して人間の耳に聞こえる音を出力する音響変換装器と、楽曲データを再生する再生機器と、テレビ・プロジェクター・モニターなどから楽曲に合わせた映像を出力する映像出力機器とで構成される演奏装置が知られている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開平０４―１９１８８２号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

一方、従来の演奏方法や特許文献１にみられるような演奏装置において、歌唱者が歌唱した音声を電気信号に変換して出力するといった音響出力手段が主となっている。

【0005】

本開示は、歌唱者の音声データを予めプログラムに機械学習させ、モーションセンサによって例えばマイクロフォンを振ることによりセンサが反応し、制御装置がセンサからの情報を受信し、対応する音声データを再生することで歌唱するといった新しい演奏方法を提供する。

【0006】

昨今のウイルス感染症予防対策として社会的距離を保つといった一時的対策は、知らずの内に人々の健常な心の間に歪みを生じさせており、本開示は、前記対策を超越した弊風によって人間関係の構築ないし社会生活の充実が困難となるといった状態の恒常化を抑制し、人々が健康的で楽しく前を向いて生活を送れるようにし、経済産業を活性化させることを、解決しようとする根源的課題とする。

【課題を解決するための手段】

【0007】

上記課題を解決するため、ユーザが持つマイクロフォンの動きを検知して制御装置に検知した内容の情報を送信するモーションセンサを含むことを特徴とするマイクロフォンと、モーションセンサから受信した情報を解析し、対応する音声データをデータベースまたはROMから選択して出力部へ送信する制御部と、音声データを制御部によって再生される楽曲の歌詞と対応する形で出力する出力部を備えることを特徴とする。

【発明の効果】

【0008】

本開示によれば、新たな歌唱体験によって、リモート文化の浸透で健康に悩む人々に対して運動の機会を与えることができる。さらに、本開示に基づく外出機会が増えることで人間関係の希薄化を抑制することにも貢献できる。

【図面の簡単な説明】

【0009】

【図1】本実施形態における音響装置の概念を示す図である。

【図2】本実施形態における音響装置を活用した一例を示す図である。

【図3】本実施形態における音響装置を活用した一例を示す図である。

【図4】本実施形態におけるマイクロフォンの構成の一例を示す図である。

【図5】本実施形態における歌唱表現の一例を示す図である。

【図6】本実施形態における制御装置の構成の一例を示す図である。

【図7】本実施形態における音声を機械学習させる方法の一例を示す図である。

【図8】本実施形態における歌唱表現を実現するためのプログラムの処理に関するフローチャートの一例を示す図である。

【図9】本実施形態における拡声器の構成の一例を示す図である。

【発明を実施するための形態】

【0010】

以下、本開示の実施形態について、図面に基づいて詳細に説明する。
なお、以下の実施形態により、開示される特許請求の範囲に係る発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが本発明の解決手段に必須であるとは限らない。

【0011】

図１は、本実施形態おける音響装置１４の概念を示す図であり、モーションセンサによってユーザ１０の動きを検知ないし取得して数値化し、デジタル信号として制御装置２００へユーザ１０の動き情報を送信するマイクロフォン１００と、モーションセンサが検知ないし取得したユーザ１０の動き情報を受信して出力部１１２へ伝達する制御装置２００と、ユーザ１０の動きに対応したユーザ１０の音声データを再生する拡声器３００と、楽曲を再生する音響変換機４００と、再生する楽曲に対応した映像や歌詞を出力する表示部５００とを備える。

【0012】

図２は、本実施形態における音響装置１４を活用した一例を示す図である。

【0013】

図２においてユーザ１０はマイクロフォン１００を持ち、縦に振ることで音の高低を表現する。なお、この一例では予めプログラムがユーザ１００の音声情報を機械学習させてユーザ１００の特徴情報を取得し、データとしてデータベース２５０に保存され、その特徴情報に基づいて、制御装置２００が再生する楽曲の歌詞に対応したユーザ１０の音声情報を制御装置２００が選択して拡声器３００に伝達し、電気信号から振動に変換してユーザ１０の音声として出力する。機械学習とは、周知の技術としてディープラーニング(Deep Learning)が一例として挙げられる。

【0014】

ユーザ１０は、制御装置２００が再生する楽曲に対応する映像や歌詞を表示する表示部５００を見ながら歌詞のタイミングに合わせてマイクロフォン１００を振ることで歌唱としての動作を実現する。

【0015】

音響変換機４００は、制御装置２００が再生して伝達する楽曲の電気信号を振動に変換することによって、音を出力する。

【0016】

図３は、ユーザ１０がマイクロフォン１００を横に振った場合の一例を示す図である。本実施形態ではマイクロフォン１００を横に振ることは、歌唱を連続する場合に用いる動作である。なお、前後に振ることによっても連続歌唱を実現可能とする。

【0017】

図４は、本実施形態におけるマイクロフォン１００の構成の一例を示す図である。

【0018】

モーションセンサ１１１は、ユーザ１０のマイクロフォン１００を振る動きを検知する。センサの一例として加速度センサやジャイロセンサを用いることでマイクロフォン１００を振る速度や角速度を検知し、制御装置２００へ取得した情報を電気信号に変換して無線で送信する。

【0019】

出力部１１２は、モーションセンサ１１１が検知ないし取得したユーザ１０の動き情報を制御装置２００から電気信号として伝達され、受信した電気信号を振動に変換して出力する。

【0020】

図５は、本実施形態における歌唱表現の一例を示す図である。

【0021】

１０１aは、マイクロフォン１００を縦に振ることで音の高低と対応する演奏方法の一例を示す。ユーザ１０がマイクロフォン１００を高く持ち上げればジャイロセンサが動きを検知し、角速度を計算することで高い音として認識する。マイクロフォン１００の持つ高さを低くするほど低い音として認識する。

【0022】

１０２bは、マイクロフォン１００を振る速度と音の強弱が対応する演奏方法の一例を示す。ユーザ１０がマイクロフォン１００を振る速度を加速度センサが検知し、振る速度が速いほど音が強くなり、振る速度が遅いほど音は弱くなるように認識する。

【0023】

図６は、本実施形態における制御装置２００の構成の一例を示す図である。

【0024】

制御装置２００は、プロセッサ２１０と、ROM２２０と、RAM２３０と、センサインタフェース２４０と、データベース２５０と、表示インタフェース２６０と、出力インタフェース２７０とを含む。これらのコンポーネントは、バス２８８を介して互いに通信可能に接続されている。

【0025】

プロセッサ２１０は、少なくとも１つの集積回路によって構成される。一例として、CPU(Central Processing Unit)、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)その他これらの組み合わせ等によって構成され、制御装置２００を制御するために必要な計算を行う。プロセッサ２１０はRAM２３０、ROM２３０またはデータベース２５０からデータを読み込んで演算を行い、結果をRAM２３０に書き込み、楽曲データを再生するためにデータベース２５０から曲を選択して音響変換機４００に曲情報を送信し、機械学習されたユーザ１０の音声データをモーションセンサ１１１から送信される情報に基づいて合成処理を行い、合成音声データを出力部１１２へ送信する。

【0026】

ROM２２０には音声データを機械学習させるプログラムや映像処理システム、サウンドシステム、制御装置のオペレーティングシステム、データベース管理システムが含まれている。なお、楽曲情報、機械学習を行うプログラム、音声データを格納する。

【0027】

データベース２５０は、楽曲情報、音声データを機械学習させるプログラム、音声データを格納する。楽曲情報には曲名、歌手名、作詞者、作曲者、発売年、ジャンル、各曲に対応する音源データや歌詞データを含む。

【0028】

RAM２３０は、楽曲データの読み込み、楽曲を再生するプログラムやユーザ１０の音声データを機械学習するプログラム、出力部１１２へユーザ１０の合成音声データを伝達するプログラム、制御装置２００を制御するプログラムを実行するために必要な情報を一時的に保存する。

【0029】

センサインタフェース２４０は、プロセッサ２１０とモーションセンサ１１１間のデータ伝送を中継する。

【0030】

表示インタフェース２６０は、プロセッサ２１０と表示部５００間のデータ伝送を中継する。

【0031】

出力インタフェース２７０は、プロセッサ２１０と出力部１１２間のデータ伝送を中継する。

【0032】

図７は、本実施形態におけるユーザ１０の音声を機械学習させる方法の一例を示す図である。

【0033】

入力層において、ユーザ１０の声をマイクロフォン１００その他の方法によって録音するか、予め用意したユーザ１０の音声データを読み込む。

【0034】

中間層において、入力層で読み込んだユーザ１０の音声情報を解析する。

【0035】

出力層において、中間層で解析したユーザ１０の声の高低、強弱、音程などの特徴情報を取得し、データとしてROM２２０またはデータベース２５０に保存する。

【0036】

また、本実施形態における機械学習の方法としてディープラーニング（Deep Learning）を一例として用いており、ニューラルネットワーク２２２で学習したユーザ１０の音声情報をさらに現実のユーザ１０の音声に近づけるため、追加層を用意し、前回のニューラルネットワーク２２２で事前学習した学習済みモデルの一部と追加層を含めて再び学習を行うことでより精度の高いユーザ１０の特徴情報を取得することができる。周知の技術としてファインチューニング（Fine-tuning）がある。また、より高い精度を実現するために機械学習用の音声情報データセットを用いる。

【0037】

図８は、本実施形態におけるプログラムが学習済みモデルを用いたユーザ１０の特徴情報に基づいて、モーションセンサ１１１がユーザ１０によるマイクロフォン１００の動きを検知し、検知された動き情報に対応するユーザ１０の音声データを選択し、合成し、ユーザ１０の合成音声を出力部１１２出力するまでのフローチャートの一例を示す。

【0038】

ステップS１００は、ユーザ１０が持つマイクロフォン１００の動きをモーションセンサ１１１が検知し、検知された動き情報は制御装置２００に電気信号として送信される。受信した情報を解析する。

【0039】

ステップS２００は、ステップS１００で解析した情報に基づいて再生するべき音声データを選択し、音の高低や強弱、音程の調整といった合成処理を行う。

【0040】

ステップS３００は、ステップS２００で選択された再生するべき合成音声データが出力インタフェース２７０を経由して出力部１１２へ伝達される。

【0041】

ステップS４００は、ステップS３００で出力部１１２へ伝達された再生するべき合成音声データを振動に変換することによって、出力部１１２はユーザ１０の合成音声を、再生される楽曲の歌詞と対応する形で出力する。

【0042】

図９は、本実施形態における拡声器３００の構成の一例を示す図である。

【0043】

信号変換器３１０は、制御装置２００で処理されたユーザ１０の音声情報を受信して振動に変換し、人が聞き取れる音として出力部１１２より出力する。

【産業上の利用可能性】

【0044】

モーションセンサを有するマイクロフォンを用いて演奏することが可能となることによって、新たな歌唱表現が生み出されることに因んで音楽のバリュエーションが増え、健康用途にも利用でき、外出機会も増えることで人間関係の希薄性を抑制することができる。

【符号の説明】

【0045】

１０ユーザ
１４音響装置
１００マイクロフォン
２００制御装置
３００拡声器
４００音響変換機
５００表示部
１１１モーションセンサ
１１２出力部
１０１a 歌唱表現方法１
１０２b 歌唱表現方法２
２１０プロセッサ
２２０ ROM
２３０ RAM
２４０センサインタフェース
２５０データベース
２６０表示インタフェース
２７０出力インタフェース
２８８バス
２２２ニューラルネットワーク
２３３音声出力に関するフローチャート
S１００モーションセンサからの情報を解析
S２００再生するべき音声データを選択する
S３００選択された音声データを出力部へ伝達
S４００音声データを再生する

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【手続補正書】

【提出日】2023-05-15

【手続補正1】

【補正対象書類名】図面

【補正対象項目名】図５

【補正方法】変更

【補正の内容】

【図5】

【手続補正2】

【補正対象書類名】明細書

【補正対象項目名】０００７

【補正方法】変更

【補正の内容】

【0007】

上記課題を解決するため、ユーザが持つマイクロフォンの動きを検知して制御装置に検知した内容の情報を送信するモーションセンサを含むことを特徴とするマイクロフォンと、ユーザの音声を機械学習させることでユーザの音声の高低、強弱といった特徴情報を取得し、データとしてデータベースまたはROMに保存し、モーションセンサが取得したユーザが持つマイクロフォンの動きである角速度や加速度を、特徴情報に基づくユーザの音声データと制御装置が再生する楽曲の歌詞の表示タイミングに対応させる形で、特徴情報に基づくユーザの音声データをデータベースまたはROMから選択して出力部へ送信することを特徴とする制御部と、送信された特徴情報に基づくユーザの音声データを歌詞の表示タイミングに合わせて出力する出力部を備えることを特徴とする

【手続補正3】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

ユーザが持つマイクロフォンの動きを検知して制御装置に前記検知した内容の情報を送信するモーションセンサを含むことを特徴とするマイクロフォンと、
前記ユーザの音声を機械学習させることで前記ユーザの音声の高低、強弱といった特徴情報を取得し、データとしてデータベースまたはROMに保存し、前記モーションセンサが取得した前記ユーザが持つマイクロフォンの動きである角速度や加速度を、前記特徴情報に基づく前記ユーザの音声データに対応させる形で、前記特徴情報に基づく前記ユーザの音声データをプロセッサによって前記データベースまたはROMから選択され、前記制御装置が再生する楽曲の歌詞の表示タイミングに合わせて出力部へ送信することを特徴とする制御部と、
前記角速度や加速度は、前記マイクロフォンを高く持ち上げると高い音として認識し、前記マイクロフォンの持つ高さを低くすると低い音として認識することを特徴とする音響装置であって、
前記送信された特徴情報に基づく前記ユーザの音声データを前記タイミングに合わせて出力する出力部と
を備えることを特徴とする音響装置。

【手続補正5】

【補正対象書類名】明細書

【補正対象項目名】０００１

【補正方法】変更

【補正の内容】

【0001】

本開示は、音響装置に関する。

【手続補正書】

【提出日】2023-07-07

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

ユーザが持つマイクロフォンの動きを検知して制御装置に前記検知した内容の情報を送信するモーションセンサを含むことを特徴とするマイクロフォンと、
前記ユーザの音声を機械学習させることで前記ユーザの音声の高低、強弱といった特徴情報を取得し、データとしてデータベースまたはROMに保存し、前記モーションセンサが取得した前記ユーザが持つマイクロフォンの動きである角速度や加速度を、前記特徴情報に基づく前記ユーザの音声データに対応させる形で、前記特徴情報に基づく前記ユーザの音声データをプロセッサによって前記データベースまたはROMから選択され、前記制御装置が再生する楽曲の歌詞の表示タイミングに合わせて出力部へ送信することを特徴とする制御部と、
前記角速度は、前記マイクロフォンを高く持ち上げると高い音として認識し、前記マイクロフォンの持つ高さを低くすると低い音として認識し、前記加速度は、前記マイクロフォンを振る速度が速いほど音が強くなるように認識し、前記マイクロフォンを振る速度が遅いほど音は弱くなるように認識することを特徴とする音響装置であって、
前記送信された特徴情報に基づく前記ユーザの音声データを前記タイミングに合わせて出力する出力部と
を備えることを特徴とする音響装置。

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版