(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024158045
(43)【公開日】2024-11-08
(54)【発明の名称】音響装置
(51)【国際特許分類】
G10H 1/00 20060101AFI20241031BHJP
G10L 25/30 20130101ALI20241031BHJP
G10L 13/00 20060101ALI20241031BHJP
G10K 15/04 20060101ALI20241031BHJP
【FI】
G10H1/00 Z
G10L25/30
G10L13/00 100Y
G10K15/04 302D
【審査請求】有
【請求項の数】1
【出願形態】OL
(21)【出願番号】P 2023072882
(22)【出願日】2023-04-27
(11)【特許番号】
(45)【特許公報発行日】2023-08-10
(71)【出願人】
【識別番号】722015339
【氏名又は名称】上田 真太郎
(72)【発明者】
【氏名】上田 真太郎
【テーマコード(参考)】
5D208
5D478
【Fターム(参考)】
5D208CA04
5D208CE02
5D478CC12
(57)【要約】
【課題】発声を必要としない新しい演奏方法を提供すること。
【解決手段】音声情報を機械学習させ、モーションセンサを有するマイクロフォンが検知したマイクロフォンの動き情報と対応するユーザの声に近い音声データを選択し、楽曲の歌詞に対応する形で音声出力させる。
【選択図】
図2
【特許請求の範囲】
【請求項1】
ユーザが持つマイクロフォンの動きを検知して制御装置に前記検知した内容の情報を送信するモーションセンサを含むことを特徴とするマイクロフォンと、
前記モーションセンサから受信した情報を機械学習によって解析し、対応する音声データをデータベースまたはROMから選択して出力部へ送信する制御部と、
前記音声データを前記制御部によって再生される楽曲の歌詞と対応する形で出力する出力部と
を備えることを特徴とする音響装置。
【請求項2】
前記モーションセンサは、前記マイクロフォンの振る角度や速度と対応する形で音の高低・強弱・音程を認識することを特徴とする請求項1に記載の音響装置。
【請求項3】
音声情報に基づいて、前記ユーザの声に近い音声を定量化した値を出力するよう、コンピュータを機能させるための学習済みモデルであって、
ニューラルネットワークで構成され、
前記ニューラルネットワークは前記音声情報を入力する入力層と、入力された音声を解析する中間層と、前記解析された音声の高低・強弱・音程などの特徴情報を取得する出力層から構成されたものであり、
前記出力層、前記中間層、前記出力層を通じて学習することを特徴とし、
必要に応じて追加層を追加し、前記追加層と前記学習済みモデルの一部を含めて再度、前記学習済みモデルに基づく重み付け演算並びに学習を行うものであり、
前記ニューラルネットワークの出力層または追加層から前記ユーザの声に近い音声を定量化した値を出力するよう、コンピュータを機能させるための学習済みモデル。
【請求項4】
前記モーションセンサから受信した情報を前記学習済みモデルを使用して解析するステップと、
前記解析した情報に基づいて再生するべき音声データを前記データベースまたはROMから選択して必要に応じて音の高低・強弱・音程を調整して音声合成処理を行うステップと、
音声データまたは合成音声データを出力部へ送信するステップと、
前記音声データまたは前記合成音声データを出力するステップと
を含む方法。
【請求項5】
請求項4に記載の方法をコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音響装置、学習済みモデル、方法及びプログラムに関する。
【背景技術】
【0002】
従来、人の声を取得してその音声信号を電気信号に変換するマイクロフォンと、マイクロフォンによって変換された電気信号を振動に変換して人間の耳に聞こえる音を出力する音響変換装器と、楽曲データを再生する再生機器と、テレビ・プロジェクター・モニターなどから楽曲に合わせた映像を出力する映像出力機器とで構成される演奏装置が知られている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
一方、従来の演奏方法や特許文献1にみられるような演奏装置において、歌唱者が歌唱した音声を電気信号に変換して出力するといった音響出力手段が主となっている。
【0005】
本開示は、歌唱者の音声データを予めプログラムに機械学習させ、モーションセンサによって例えばマイクロフォンを振ることによりセンサが反応し、制御装置がセンサからの情報を受信し、対応する音声データを再生することで歌唱するといった新しい演奏方法を提供する。
【0006】
昨今のウイルス感染症予防対策として社会的距離を保つといった一時的対策は、知らずの内に人々の健常な心の間に歪みを生じさせており、本開示は、前記対策を超越した弊風によって人間関係の構築ないし社会生活の充実が困難となるといった状態の恒常化を抑制し、人々が健康的で楽しく前を向いて生活を送れるようにし、経済産業を活性化させることを、解決しようとする根源的課題とする。
【課題を解決するための手段】
【0007】
上記課題を解決するため、ユーザが持つマイクロフォンの動きを検知して制御装置に検知した内容の情報を送信するモーションセンサを含むことを特徴とするマイクロフォンと、モーションセンサから受信した情報を解析し、対応する音声データをデータベースまたはROMから選択して出力部へ送信する制御部と、音声データを制御部によって再生される楽曲の歌詞と対応する形で出力する出力部を備えることを特徴とする。
【発明の効果】
【0008】
本開示によれば、新たな歌唱体験によって、リモート文化の浸透で健康に悩む人々に対して運動の機会を与えることができる。さらに、本開示に基づく外出機会が増えることで人間関係の希薄化を抑制することにも貢献できる。
【図面の簡単な説明】
【0009】
【
図1】本実施形態における音響装置の概念を示す図である。
【
図2】本実施形態における音響装置を活用した一例を示す図である。
【
図3】本実施形態における音響装置を活用した一例を示す図である。
【
図4】本実施形態におけるマイクロフォンの構成の一例を示す図である。
【
図5】本実施形態における歌唱表現の一例を示す図である。
【
図6】本実施形態における制御装置の構成の一例を示す図である。
【
図7】本実施形態における音声を機械学習させる方法の一例を示す図である。
【
図8】本実施形態における歌唱表現を実現するためのプログラムの処理に関するフローチャートの一例を示す図である。
【
図9】本実施形態における拡声器の構成の一例を示す図である。
【発明を実施するための形態】
【0010】
以下、本開示の実施形態について、図面に基づいて詳細に説明する。
なお、以下の実施形態により、開示される特許請求の範囲に係る発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが本発明の解決手段に必須であるとは限らない。
【0011】
図1は、本実施形態おける音響装置14の概念を示す図であり、モーションセンサによってユーザ10の動きを検知ないし取得して数値化し、デジタル信号として制御装置200へユーザ10の動き情報を送信するマイクロフォン100と、モーションセンサが検知ないし取得したユーザ10の動き情報を受信して出力部112へ伝達する制御装置200と、ユーザ10の動きに対応したユーザ10の音声データを再生する拡声器300と、楽曲を再生する音響変換機400と、再生する楽曲に対応した映像や歌詞を出力する表示部500とを備える。
【0012】
図2は、本実施形態における音響装置14を活用した一例を示す図である。
【0013】
図2においてユーザ10はマイクロフォン100を持ち、縦に振ることで音の高低を表現する。なお、この一例では予めプログラムがユーザ100の音声情報を機械学習させてユーザ100の特徴情報を取得し、データとしてデータベース250に保存され、その特徴情報に基づいて、制御装置200が再生する楽曲の歌詞に対応したユーザ10の音声情報を制御装置200が選択して拡声器300に伝達し、電気信号から振動に変換してユーザ10の音声として出力する。機械学習とは、周知の技術としてディープラーニング(Deep Learning)が一例として挙げられる。
【0014】
ユーザ10は、制御装置200が再生する楽曲に対応する映像や歌詞を表示する表示部500を見ながら歌詞のタイミングに合わせてマイクロフォン100を振ることで歌唱としての動作を実現する。
【0015】
音響変換機400は、制御装置200が再生して伝達する楽曲の電気信号を振動に変換することによって、音を出力する。
【0016】
図3は、ユーザ10がマイクロフォン100を横に振った場合の一例を示す図である。本実施形態ではマイクロフォン100を横に振ることは、歌唱を連続する場合に用いる動作である。なお、前後に振ることによっても連続歌唱を実現可能とする。
【0017】
図4は、本実施形態におけるマイクロフォン100の構成の一例を示す図である。
【0018】
モーションセンサ111は、ユーザ10のマイクロフォン100を振る動きを検知する。センサの一例として加速度センサやジャイロセンサを用いることでマイクロフォン100を振る速度や角速度を検知し、制御装置200へ取得した情報を電気信号に変換して無線で送信する。
【0019】
出力部112は、モーションセンサ111が検知ないし取得したユーザ10の動き情報を制御装置200から電気信号として伝達され、受信した電気信号を振動に変換して出力する。
【0020】
図5は、本実施形態における歌唱表現の一例を示す図である。
【0021】
101aは、マイクロフォン100を縦に振ることで音の高低と対応する演奏方法の一例を示す。ユーザ10がマイクロフォン100を高く持ち上げればジャイロセンサが動きを検知し、角速度を計算することで高い音として認識する。マイクロフォン100の持つ高さを低くするほど低い音として認識する。
【0022】
102bは、マイクロフォン100を振る速度と音の強弱が対応する演奏方法の一例を示す。ユーザ10がマイクロフォン100を振る速度を加速度センサが検知し、振る速度が速いほど音が強くなり、振る速度が遅いほど音は弱くなるように認識する。
【0023】
図6は、本実施形態における制御装置200の構成の一例を示す図である。
【0024】
制御装置200は、プロセッサ210と、ROM220と、RAM230と、センサインタフェース240と、データベース250と、表示インタフェース260と、出力インタフェース270とを含む。これらのコンポーネントは、バス288を介して互いに通信可能に接続されている。
【0025】
プロセッサ210は、少なくとも1つの集積回路によって構成される。一例として、CPU(Central Processing Unit)、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)その他これらの組み合わせ等によって構成され、制御装置200を制御するために必要な計算を行う。プロセッサ210はRAM230、ROM230またはデータベース250からデータを読み込んで演算を行い、結果をRAM230に書き込み、楽曲データを再生するためにデータベース250から曲を選択して音響変換機400に曲情報を送信し、機械学習されたユーザ10の音声データをモーションセンサ111から送信される情報に基づいて合成処理を行い、合成音声データを出力部112へ送信する。
【0026】
ROM220には音声データを機械学習させるプログラムや映像処理システム、サウンドシステム、制御装置のオペレーティングシステム、データベース管理システムが含まれている。なお、楽曲情報、機械学習を行うプログラム、音声データを格納する。
【0027】
データベース250は、楽曲情報、音声データを機械学習させるプログラム、音声データを格納する。楽曲情報には曲名、歌手名、作詞者、作曲者、発売年、ジャンル、各曲に対応する音源データや歌詞データを含む。
【0028】
RAM230は、楽曲データの読み込み、楽曲を再生するプログラムやユーザ10の音声データを機械学習するプログラム、出力部112へユーザ10の合成音声データを伝達するプログラム、制御装置200を制御するプログラムを実行するために必要な情報を一時的に保存する。
【0029】
センサインタフェース240は、プロセッサ210とモーションセンサ111間のデータ伝送を中継する。
【0030】
表示インタフェース260は、プロセッサ210と表示部500間のデータ伝送を中継する。
【0031】
出力インタフェース270は、プロセッサ210と出力部112間のデータ伝送を中継する。
【0032】
図7は、本実施形態におけるユーザ10の音声を機械学習させる方法の一例を示す図である。
【0033】
入力層において、ユーザ10の声をマイクロフォン100その他の方法によって録音するか、予め用意したユーザ10の音声データを読み込む。
【0034】
中間層において、入力層で読み込んだユーザ10の音声情報を解析する。
【0035】
出力層において、中間層で解析したユーザ10の声の高低、強弱、音程などの特徴情報を取得し、データとしてROM220またはデータベース250に保存する。
【0036】
また、本実施形態における機械学習の方法としてディープラーニング(Deep Learning)を一例として用いており、ニューラルネットワーク222で学習したユーザ10の音声情報をさらに現実のユーザ10の音声に近づけるため、追加層を用意し、前回のニューラルネットワーク222で事前学習した学習済みモデルの一部と追加層を含めて再び学習を行うことでより精度の高いユーザ10の特徴情報を取得することができる。周知の技術としてファインチューニング(Fine-tuning)がある。また、より高い精度を実現するために機械学習用の音声情報データセットを用いる。
【0037】
図8は、本実施形態におけるプログラムが学習済みモデルを用いたユーザ10の特徴情報に基づいて、モーションセンサ111がユーザ10によるマイクロフォン100の動きを検知し、検知された動き情報に対応するユーザ10の音声データを選択し、合成し、ユーザ10の合成音声を出力部112出力するまでのフローチャートの一例を示す。
【0038】
ステップS100は、ユーザ10が持つマイクロフォン100の動きをモーションセンサ111が検知し、検知された動き情報は制御装置200に電気信号として送信される。受信した情報を解析する。
【0039】
ステップS200は、ステップS100で解析した情報に基づいて再生するべき音声データを選択し、音の高低や強弱、音程の調整といった合成処理を行う。
【0040】
ステップS300は、ステップS200で選択された再生するべき合成音声データが出力インタフェース270を経由して出力部112へ伝達される。
【0041】
ステップS400は、ステップS300で出力部112へ伝達された再生するべき合成音声データを振動に変換することによって、出力部112はユーザ10の合成音声を、再生される楽曲の歌詞と対応する形で出力する。
【0042】
図9は、本実施形態における拡声器300の構成の一例を示す図である。
【0043】
信号変換器310は、制御装置200で処理されたユーザ10の音声情報を受信して振動に変換し、人が聞き取れる音として出力部112より出力する。
【産業上の利用可能性】
【0044】
モーションセンサを有するマイクロフォンを用いて演奏することが可能となることによって、新たな歌唱表現が生み出されることに因んで音楽のバリュエーションが増え、健康用途にも利用でき、外出機会も増えることで人間関係の希薄性を抑制することができる。
【符号の説明】
【0045】
10 ユーザ
14 音響装置
100 マイクロフォン
200 制御装置
300 拡声器
400 音響変換機
500 表示部
111 モーションセンサ
112 出力部
101a 歌唱表現方法1
102b 歌唱表現方法2
210 プロセッサ
220 ROM
230 RAM
240 センサインタフェース
250 データベース
260 表示インタフェース
270 出力インタフェース
288 バス
222 ニューラルネットワーク
233 音声出力に関するフローチャート
S100 モーションセンサからの情報を解析
S200 再生するべき音声データを選択する
S300 選択された音声データを出力部へ伝達
S400 音声データを再生する
【手続補正書】
【提出日】2023-05-15
【手続補正1】
【補正対象書類名】図面
【補正方法】変更
【補正の内容】
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0007
【補正方法】変更
【補正の内容】
【0007】
上記課題を解決するため、ユーザが持つマイクロフォンの動きを検知して制御装置に検知した内容の情報を送信するモーションセンサを含むことを特徴とするマイクロフォンと、ユーザの音声を機械学習させることでユーザの音声の高低、強弱といった特徴情報を取得し、データとしてデータベースまたはROMに保存し、モーションセンサが取得したユーザが持つマイクロフォンの動きである角速度や加速度を、特徴情報に基づくユーザの音声データと制御装置が再生する楽曲の歌詞の表示タイミングに対応させる形で、特徴情報に基づくユーザの音声データをデータベースまたはROMから選択して出力部へ送信することを特徴とする制御部と、送信された特徴情報に基づくユーザの音声データを歌詞の表示タイミングに合わせて出力する出力部を備えることを特徴とする
【手続補正3】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ユーザが持つマイクロフォンの動きを検知して制御装置に前記検知した内容の情報を送信するモーションセンサを含むことを特徴とするマイクロフォンと、
前記ユーザの音声を機械学習させることで前記ユーザの音声の高低、強弱といった特徴情報を取得し、データとしてデータベースまたはROMに保存し、前記モーションセンサが取得した前記ユーザが持つマイクロフォンの動きである角速度や加速度を、前記特徴情報に基づく前記ユーザの音声データに対応させる形で、前記特徴情報に基づく前記ユーザの音声データをプロセッサによって前記データベースまたはROMから選択され、前記制御装置が再生する楽曲の歌詞の表示タイミングに合わせて出力部へ送信することを特徴とする制御部と、
前記角速度や加速度は、前記マイクロフォンを高く持ち上げると高い音として認識し、前記マイクロフォンの持つ高さを低くすると低い音として認識することを特徴とする音響装置であって、
前記送信された特徴情報に基づく前記ユーザの音声データを前記タイミングに合わせて出力する出力部と
を備えることを特徴とする音響装置。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0001
【補正方法】変更
【補正の内容】
【0001】
本開示は、音響装置に関する。
【手続補正書】
【提出日】2023-07-07
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ユーザが持つマイクロフォンの動きを検知して制御装置に前記検知した内容の情報を送信するモーションセンサを含むことを特徴とするマイクロフォンと、
前記ユーザの音声を機械学習させることで前記ユーザの音声の高低、強弱といった特徴情報を取得し、データとしてデータベースまたはROMに保存し、前記モーションセンサが取得した前記ユーザが持つマイクロフォンの動きである角速度や加速度を、前記特徴情報に基づく前記ユーザの音声データに対応させる形で、前記特徴情報に基づく前記ユーザの音声データをプロセッサによって前記データベースまたはROMから選択され、前記制御装置が再生する楽曲の歌詞の表示タイミングに合わせて出力部へ送信することを特徴とする制御部と、
前記角速度は、前記マイクロフォンを高く持ち上げると高い音として認識し、前記マイクロフォンの持つ高さを低くすると低い音として認識し、前記加速度は、前記マイクロフォンを振る速度が速いほど音が強くなるように認識し、前記マイクロフォンを振る速度が遅いほど音は弱くなるように認識することを特徴とする音響装置であって、
前記送信された特徴情報に基づく前記ユーザの音声データを前記タイミングに合わせて出力する出力部と
を備えることを特徴とする音響装置。