(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024162908
(43)【公開日】2024-11-21
(54)【発明の名称】音波処理装置、音波処理方法、及びデータ構造
(51)【国際特許分類】
G10K 15/02 20060101AFI20241114BHJP
【FI】
G10K15/02
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2023078890
(22)【出願日】2023-05-11
(71)【出願人】
【識別番号】519429255
【氏名又は名称】株式会社日本知財総合研究所
(74)【代理人】
【識別番号】100185317
【氏名又は名称】石井 琢哉
(72)【発明者】
【氏名】朝倉 幾太郎
【テーマコード(参考)】
5D208
【Fターム(参考)】
5D208BF00
(57)【要約】
【課題】音を高品質で録音・再生する音波処理装置及び音波処理方法を提供する
【解決手段】音波をアナログ信号として入力する入力部と、入力部に入力されたアナログ信号を所定の時間間隔毎に複数の周波数強度(スペクトル)に変換する変換部と、周波数強度を所定の時間間隔毎のデジタル情報として記憶する記憶部と、を備える録音装置と、所定の時間間隔毎の所定個数の周波数強度のデジタル情報を入力する入力部と、所定個数の周波数の正弦波を発生する正弦波発生部と、前記デジタル情報に基づいて、前記正弦波発生部が発生した前記所定個数の正弦波の出力強度を周波数毎に調節する調節部と、前記調節部により出力強度を調節された前記所定個数の正弦波を合成する合成部を備え、所定の時間間隔毎に前記所定個数の正弦波の出力強度を調節して合成出力する再生装置からなる、録音再生システム。
【選択図】
図1
【特許請求の範囲】
【請求項1】
音波をアナログ信号として入力する入力手段と、
入力された前記アナログ信号を予め定めた時間間隔毎に複数の周波数強度に変換する変換手段と、
前記周波数強度を予め定めた時間間隔毎のデジタルデータとして記憶する記憶手段と、
を備える音波処理装置。
【請求項2】
予め定めた時間間隔毎の複数の周波数強度のデジタルデータを入力する入力手段と、
複数の周波数の正弦波を発生させる発振手段と、
前記デジタルデータに基づいて、前記正弦波の出力強度を調節する調節手段と、
前記出力強度を調節された前記複数の周波数の正弦波を合成する合成手段と、
前記正弦波が合成された結果の波形を出力する出力手段と、
を備える音波処理装置。
【請求項3】
音波をアナログ信号として入力する入力ステップと、
入力された前記アナログ信号を予め定めた時間間隔毎に複数の周波数強度に変換する変換ステップと、
前記周波数強度を予め定めた時間間隔毎のデジタルデータとして記憶する記憶ステップと、
を実行する音波処理方法。
【請求項4】
予め定めた時間間隔毎の複数の周波数強度のデジタルデータを入力する入力ステップと、
複数の周波数の正弦波を発生させる発振ステップと、
前記デジタルデータに基づいて、前記正弦波の出力強度を調節する調節ステップと、
前記出力強度を調節された前記複数の周波数の正弦波を合成する合成ステップと、
前記正弦波が合成された結果の波形を出力する出力ステップと、
を実行する音波処理方法。
【請求項5】
再生装置において音を再生するためのデータ構造であって、
予め定めた時間間隔毎の複数の周波数強度のデータを含み、
前記再生装置は、複数の周波数に対応する正弦波を発生させ、前記時間間隔毎に前記周波数強度のデータを入力し、当該周波数強度のデータを前記複数の周波数に対応する正弦波のデータに乗算した波形を合成することにより音データを生成するための、データ構造。
【請求項6】
前記周波数強度は、時間間隔あたり120個以上の周波数の周波数強度である、請求項5に記載のデータ構造。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音波処理装置、音波処理方法、及びデータ構造に関する。
【背景技術】
【0002】
音楽等の音波を録音・再生する技術としては、音波を物理的にレコード盤に刻むアナログ音源の技術と、音波を時間軸で分割するPCM(Pulse Code Modulation)やPDM(Pulse Density Modulation)等の方式でデジタル情報にAD(Analog to Digital)変換して情報媒体に書き込むデジタル音源の技術が存在する。
【0003】
デジタル音源は現代情報社会でやり取りされるデジタル情報と完全に整合し、アナログ音源を駆逐したとみなされていた。現在、デジタル音源を改良するために考えられている技術は主に2種類ある。一つはPCMのハイスペック化を目指すDVDオーディオ規格で、もう一つはPCMからPDMへの方式変更によるスーパーオーディオ規格である。これらの改良の目標は再生可能な周波数範囲の拡大と量子化ノイズの低減であり、この目標自体は既に十分過ぎるほどに達成されている。
【0004】
しかしながら、デジタル音源の録音再生技術は、既にオーバースペックと言えるほどに開発されてきたにも関わらず、デジタル音源がアナログ音源の良さを再現できたという評価は得られていない。しかもデジタル音源ではアナログ音源の良さが失われるとするユーザの声が根強くある。こうした状況下において、アナログ音源の良さを再現できるような新しいデジタル音源が望まれている。従来のデジタル音源の欠点とは「音を時間軸上で切り刻んでPCM信号に変換する」サンプリング理論の欠点であると言える。人間の耳は音をサンプリングして聞いているわけではない。人間の耳がやっていない切り刻まれた音を聞かされていることが先ず問題なのであるが、さらに、ここから派生する重大な問題がある。それは、音楽がPCM信号に変換された瞬間、サンプリング理論という極めて便利な数学でPCM信号を自由自在にデジタル加工できるようになってしまうことである。現在作られている全てのデジタル音源にはこのようなデジタル加工が当然のように施されている。即ち、人間の脳が決してやっていない数学的処理を施された音を我々は聞かされている。耳の良い人達はこれに違和感を持ちデジタル音源を拒否するのである。
【0005】
人間の耳は、蝸牛という器官に備わる多数の共振膜の振動を聴神経が感知しているのである。この「自然がやっていること」を完全に無視していることが従来のデジタル音源の根本的な欠点なのである。ゆえに、耳が実際にやっていることをそのまま模倣し「音を時間軸上で切り刻むのではなく周波数軸上で分割すること」そしてそのスペクトル情報を数値化することだけが、従来のレコード盤のようなアナログ音源の自然さを損なわない正しいデジタル音源の作成方法であると言える。
【0006】
本発明が「新しいデジタル音源」と称するのは「デジタル音源=PCM音源(PDM音源も音を切り刻む発想は全く同じ)」という今まで誰も疑わなかった大前提を完全に否定するものだからである。そこで先ず、従来のデジタル音源が全てPCM音源を当然の大前提と考えていることについて見てみよう。
【0007】
特許文献1には、A/D変換器が入力された音声信号をデジタル変換してデジタル信号を生成し、音声符号化処理を施して音声符号化データを生成し、記憶部が記憶する音声録音再生装置が記載されている。音声符号化データは、ADPCM( Adaptive Differential Pulse Code Modulation)の音声圧縮のアルゴリズムに基づいて音声強調デジタル信号に圧縮符号化処理を施して生成される。つまり、特許文献1には、音声信号をA/D変換器によりPCM信号に変換した上で、フォルマント検出により特定の音声を認識して強調する、一種のデジタル加工を行う技術が記載されている。
【0008】
特許文献2には、音声信号をA/D変換器によりPCM信号に変換した上で、特定周波数の音声信号を検出して録音の開始や再開を制御する発明が記載されている。
【0009】
特許文献1及び特許文献2のどちらも、特定の周波数を検出するためにPCM信号を用いることを当然の大前提としている。そして、何らかの加工をしたPCM信号をそのままデジタル音源としているので、上記で指摘したデジタル音源の音質は克服されていない。
【先行技術文献】
【特許文献】
【0010】
【特許文献1】特開2006-78882号公報
【特許文献2】特開2011-198348号公報
【発明の概要】
【発明が解決しようとする課題】
【0011】
本発明は、このような状況に鑑みてなされたものであり、人間の耳の器官がやっていることを忠実に模倣することで、新しい方式のデジタル化により音を高品質で録音・再生する音波処理装置及び音波処理方法を提供することを目的とする。
【課題を解決するための手段】
【0012】
請求項1に記載された発明は、音波をアナログ信号として入力する入力手段と、入力された前記アナログ信号を予め定めた時間間隔毎に複数の周波数強度に変換する変換手段と、前記周波数強度を予め定めた時間間隔毎のデジタルデータとして記憶する記憶手段と、を備える音波処理装置である。
請求項2に記載された発明は、予め定めた時間間隔毎の複数の周波数強度のデジタルデータを入力する入力手段と、複数の周波数の正弦波を発生させる発振手段と、前記デジタルデータに基づいて、前記正弦波の出力強度を調節する調節手段と、前記出力強度を調節された前記複数の周波数の正弦波を合成する合成手段と、前記正弦波が合成された結果の波形を出力する出力手段と、を備える音波処理装置である。
請求項3に記載された発明は、音波をアナログ信号として入力する入力ステップと、入力された前記アナログ信号を予め定めた時間間隔毎に複数の周波数強度に変換する変換ステップと、前記周波数強度を予め定めた時間間隔毎のデジタルデータとして記憶する記憶ステップと、を実行する音波処理方法である。
請求項4に記載された発明は、予め定めた時間間隔毎の複数の周波数強度のデジタルデータを入力する入力ステップと、複数の周波数の正弦波を発生させる発振ステップと、前記デジタルデータに基づいて、前記正弦波の出力強度を調節する調節ステップと、前記出力強度を調節された前記複数の周波数の正弦波を合成する合成ステップと、前記正弦波が合成された結果の波形を出力する出力ステップと、を実行する音波処理方法である。
請求項5に記載された発明は、再生装置において音を再生するためのデータ構造であって、予め定めた時間間隔毎の複数の周波数強度のデータを含み、前記再生装置は、複数の周波数に対応する正弦波を発生させ、前記時間間隔毎に前記周波数強度のデータを入力し、当該周波数強度のデータを前記複数の周波数に対応する正弦波のデータに乗算した波形を合成することにより音データを生成するための、データ構造である。
請求項6に記載された発明は、前記周波数強度は、時間間隔あたり120個以上の周波数の周波数強度である、請求項5に記載のデータ構造である。
【発明の効果】
【0013】
本発明によれば、音を高品質で録音・再生する音波処理装置及び音波処理方法を提供する。
【図面の簡単な説明】
【0014】
【
図1】本実施の形態が適用される録音再生システムの全体構成を示す図である。
【
図2】録音再生システムの録音装置の機能構成を示す図である。
【
図3】録音再生システムの再生装置の機能構成を示す図である。
【
図4】録音再生システムの録音装置が出力するデータを示す図である。
【
図5】録音再生システムの再生装置が音を生成する過程を説明する図である。
【発明を実施するための形態】
【0015】
本発明に係る録音再生システムについて、図面を参照しつつ説明する。なお、本発明は下記の実施形態に限定されるものではない。
【0016】
(第一の実施形態)
図1は、本実施の形態が適用される録音再生システムの全体構成を示す図である。
本実施の形態における録音再生装置は、装置全体の動作を制御する制御ユニット11と、データを記録する不揮発性の記憶ユニット12と、ユーザインタフェース画面等の表示に用いられる表示ユニット13と、ユーザの操作を受け付ける操作受付ユニット14と、電気信号を音として再生するスピーカ15と、音を電気信号に変換するマイク16と、通信インタフェース(=通信IF)17とを有している。
【0017】
本実施の形態における制御ユニット11は、CPU(=Central Processing Unit)101と、ファームウェア等が記録されたROM(=Read Only Memory)102と、ワークエリアとして用いられるRAM(=Random Access Memory)103とを有している。制御ユニット11は、いわゆるコンピュータとして機能する。なお、ROM102は、不揮発性の半導体メモリである。記憶ユニット12は、不揮発性の書き換え可能な半導体メモリ等によって構成される。記憶ユニット12には、例えばマイク16で収録された音の周波数強度のデータ等が保存される。
【0018】
表示ユニット13は、例えば液晶ディスプレイや有機ELディスプレイで構成される。表示ユニット13には、ユーザによる操作を支援する情報が表示される。操作受付ユニット14は、例えば表示ユニット13の表面に配置されるタッチセンサ、筐体に配置されるスイッチ、ボタンで構成される。通信インタフェース17は、例えば無線LAN(=Local Area Network)、ブルートゥース(登録商標)、移動通信規格に準拠した無線装置である。因みに、制御ユニット11と各ユニット等とは、バス18や不図示の信号線を通じて接続されている。
【0019】
図2は、録音再生システムの録音装置の機能構成を示す図である。
図2に示す機能モジュールは、CPU101(
図1参照)によるプログラムの実行を通じて制御されるハードウェアとソフトウェアで構成される。
【0020】
図2に示す録音装置20は、入力部21、増幅部22、変換部23、録音機能制御部24、記憶部25、出力部26からなる。入力部21は、例えば集音機能を有するマイクであり、増幅部22は、集音した音声や音楽の信号を増幅する機能を有する増幅器からなる。変換部23は、増幅された音声又は音楽の信号から電子的共振回路によって特定の周波数の信号を抽出する共振器から構成されている。電子的共振回路は、複数の周波数毎に用意されている。例えば、共振器が、共振器1、共振器2・・・共振器NまでのN個からなる場合、N個の異なる周波数についての強度信号が生成される。そして、生成された強度信号は、アナログからデジタルに変換するAD変換器でデジタルデータに変換される。このような変換は、小さな微小時間間隔、例えば、50ms毎(1秒/20Hz)に繰り返されるので、時間間隔の個数がMである場合には、異なるN個の周波数別に時間間隔M個の周波数強度を録音機能制御部24が記憶部25に記録させる。出力部26は、記録されたデータを、さらに、CD等に出力する。
【0021】
図3は、録音再生システムの再生装置30の機能構成を示す図である。
図3に示す再生装置は、入力部31、発振部32、調節部33、合成部34、出力部35、再生機能制御部36からなる。
入力部31は、録音データを読み取る入力機能を有する。発振部32は、複数の異なる周波数の正弦波を生成する機能を有し、本実施形態においては、複数の発振器がそれぞれ異なる周波数の正弦波を生成する。調節部33は、生成された正弦波を周波数強度に合致するように音量を調整し、合成部34は、調整されたそれぞれの周波数の波形を合成する。出力部35は、例えば、スピーカ等により出力する。
【0022】
図4は、録音再生システムの録音装置が出力するデータを示す図である。録音機能制御部24は、録音装置の変換部23が周波数毎に算出したそれぞれの周波数強度を時刻別に記憶部25に記憶させる。録音機能制御部24は、任意個数の周波数(N個)と任意個数の時間間隔数(M個)について出力することができる。説明を簡単にするために、
図4の例では、3つの周波数と4つの時間間隔についてのデータが示されている。最初のイニシャル時刻は、音量ゼロ、位相ゼロとなっている。N個の周波数とM個の時刻(時間間隔の開始時刻)に対するデータのN×M行列は、縦と横が逆であっても構わない。ここで、「周波数強度」とは、再生時に各周波数の発振回路で発振された各周波数の正弦波に重みとして調節部33において乗算して出力する際の重みに相当する変数である。例えば、
図4の周波数強度は、録音時に各共振回路の出力電圧の実効値を基準電圧により正規化して得られたものである。ここで、基準電圧とは、共振回路(共振周波数=fとする)に単位電圧の正弦波(周波数=f)を入力した場合に得られる出力電圧の実効値である。
【0023】
各共振回路(共振周波数=f)の基準電圧は共振周波数fによって異なるため、予め共振回路毎に測定し記憶部25に記憶しておく必要がある。正規化とは、録音時に得られる各共振回路の出力電圧(実効値)を当該共振回路の基準電圧(実効値)で除算することである。こうして、録音機能制御部24は、N個の周波数fとM個の時刻tについて得られた周波数強度をN×M個のデジタルデータとして記憶部25に記憶する。ここで、Nは可聴音域を所定の周波数間隔(例えば0.0025オクターブ)で分割した場合の周波数の数で、Mは録音時間を所定の時間間隔(例えば50mS)で分割した場合の開始時刻の数である。
【0024】
楽曲全体の音量は楽曲によって異なるため、N×M個の周波数強度は、それらのうちの最大値によって除算することにより最終的な正規化が行われる。これにより、周波数強度の値は全て1以下でかつ0以上の無次元数となる。
図4は、説明のため、周波数f=20Hz、25Hz、30Hzで、時刻t(50mS単位)=0、1、2、3の場合の周波数強度の出力例としている。
【0025】
実用上、高品質の音として記録するためには、周波数の個数Nは大きい方がよい。人間の耳の蝸牛には共振器に相当する器官が4000個程度あり、0.0025オクターブの差を聴き分けることができると言われている。このため、周波数の個数Nを4000として、人間の蝸牛と同じ周波数の共振器を4000個用意するのが理想である。ある程度の音質を保ちながら、この4000個の周波数をどこまで間引けるかという点に関しては、120以上であることが望ましい。その理由は、以下のようになる。人間の耳が聞きとれる可聴域は、20Hzから20,000Hzの間と言われる。可聴域の最高周波数は最低周波数の約1000倍となっている。ここで、1オクターブ高い音というのは周波数が2倍高い音ということであり、また可聴域の範囲は2の10乗である1024に近い。即ち、可聴域は近似的に10オクターブの音域と言える。そして、1オクターブは12音階に分割されるので、10オクターブは120音階に分割されることになる。つまり、N=120が半音の違いを正しく再現するために最低限必要な周波数の数ということになる。このため、最低限必要な周波数の数は120であることが望ましい。つまり、録音再生に使われる周波数強度のデータは、120個以上の周波数強度を有するデータ構造であることが望ましい。
【0026】
図5は、録音再生システムの再生装置が音を生成する過程を説明する図である。録音再生システムの再生装置の発振部32は、複数の異なる周波数(N個)についてそれぞれの正弦波を生成する。説明を簡単にするため、
図5では、発振部32は、20Hz、25Hz、30Hzの3つの周期の正弦波を生成する例となっている。そして、再生制御部36は、
図4に示す周波数強度のデータを入力部31に入力すると、調節部33は各周波数の正弦波の音量を変えるように調節する。合成部34は、それぞれの周波数の正弦波を重ね合わせて合成波形を生成する。この場合、位相は、最初に正弦波を生成した時刻から時々刻々と変化するが、時刻ごとにリセットされるわけでなく一貫性を保って変化する。
【0027】
図4及び
図5では、説明を簡略化するために、周波数の種類を20Hz、25Hzそして30Hzの3つ(N=3)としている。
図5のグラフでは、横軸はmS単位の時間である。左側に3つの周波数の発振波形が示されている。音楽が開始した時点で、全ての周波数は位相ゼロから発振を開始し、そのまま音楽終了まで発振を続ける。この発振波形に、50mS毎に変化する音量の重みを掛けたものが右側の出力波形である。時刻tは50mS毎に1、2、3の順にカウントアップされる。通常、音楽は無音の状態から始まるので、この例では最初の50mSでは全ての周波数の音量がゼロとなっている。50mSから音楽が始まり、20Hzの音量は0.5、0.75、1の順に、25Hzの音量は0.25、0.5、0.75の順に、30Hzの音量は0.125、0.25、0.5の順に50mS毎に上昇する。20Hzの場合、振動周期が50mSなので、50mSは波形が丁度ゼロになるタイミングとなっているが、25Hzの場合は振動周期が40mSなので50mS毎の音量変化において不連続な波形となるが、そもそも50mSという短い間隔で音量を変えていけば、音量の変化は徐々に上昇・下降するものなので、多少の不連続は気にならない。波形は多少不連続でも、位相は発振波形と同じとなっている。これらの出力波形を足し合わせて合成したものが最下段の合成波形となり、これがスピーカから音波となって再生されることになる。
【0028】
人間の耳は波形を聞いているのではなく、周波数の共振強度を聞いているため、50mS間隔で起きる僅かな波形の不連続は感知されない。しかも、全周波数の不連続量が合計された結果は、統計的に強め合うより相殺し合うはずであるから、ほぼ無視できる。それよりも、上記の通り全周波数の位相が一貫しているというところが重要であり、これが違和感のない自然な音を再生可能にする。
【0029】
〔録音装置の処理〕
図6は、録音装置20の処理フローを示す図である。
図6に示すように、録音機能制御部24は、ユーザからの開始の指定を受けて録音装置の制御を開始する(START)。次に、録音機能制御部24は、経過時刻の計測を開始する(ステップ101)。次に、入力部21は周囲の音楽データの取得を開始する(ステップ102)。増幅部22は、入力された音楽データを増幅する(ステップ103)。変換部23は、増幅された音楽データをN個の周波数に対応する共振回路に入力する(ステップ104)。録音機能制御部24は、予め定めた時間(ΔT)が経過したか否かを判断する(ステップ105)。予め定めた時間が経過していない場合は、ステップ102からステップ104を継続する。予め定めた時間が経過したら、変換部23は、N個の周波数に相当する共振回路の出力電圧を計測し、計測した出力電圧を記憶ユニット12又はRAM103に一時ファイルとして記憶させる(ステップ106)。次に音楽が終了したかどうかを判断する(ステップ107)。音楽が終了していない間は、上記ステップ102からステップ106を繰り返す。音楽が終了した後は、一次ファイルに記憶された出力電圧の値を各周波数の基準電圧で正規化し、さらにその全結果の最大値で正規化して周波数強度を算出する(ステップ108)。つまり、変換部23は、複数の周波数のスペクトルを測定し、アナログ信号を複数の周波数強度データに変換するA/D変換機能も有する。そして、録音機能制御部24は、時刻毎の周波数強度を記憶部25に記憶させる(ステップ109)。上記処理が済んだら、録音装置20の処理は終了する(END)。
【0030】
〔再生装置の処理〕
図7は、再生装置30の処理フローを示す図である。
図3に示す再生機能制御部36は、ユーザからの開始の指定を受けて再生装置の制御を開始する(START)。次に、再生機能制御部36は、経過時刻の計測を開始する(ステップ201)。次に、発振部32は、複数の周波数の正弦波の発振を開始する(ステップ202)。入力部31は、
図1の記憶ユニット12あるいは図示しないCD媒体等に記憶された周波数強度のデータを取得する(ステップ203)。調節部33は、発振部32が発振した全周波数の正弦波について、それぞれの周波数強度で重み付けして、周波数毎の音量の波形を生成する(ステップ204)。合成部34は、複数の周波数の正弦波を合計して1つの波形に合成する(ステップ205)。合成した波形を音波として出力する(ステップ206)。次に、予め定めた時間(ΔT)が経過したかどうかを判断する(ステップ207)。ΔTが経過していなければステップ204に戻る。ΔTが経過したら録音されたデータが終了かどうかを判断する(ステップ208)。音楽が終了していない場合は、ステップ203に戻る。音楽が終了した場合は、再生装置30の処理は終了する(END)。
【0031】
本実施形態において、変換部23は、増幅された音を電子的共振回路によって特定の周波数の信号を抽出する共振器から構成されていると説明したが、必ずしも電子的共振回路に限定される必要はなく、変換部23は、物理的な共振器、つまり複数の周波数毎に用意された音叉であってもよい。それぞれの周波数毎の音叉に入力されたアナログ信号から周波数強度を電気信号として抽出できれば、電子的共振回路を用いた場合と同等レベルの録音装置を構成することができる。したがって、変換部23は、電子的共振回路だけでなく物理的共振器をも含み得る。
【0032】
本実施形態においては、音楽を例に説明したが、録音再生する音は、音楽に限定解釈される必要はなく、人間の声楽でも良く、人の会話でも良く、自然環境の音、騒音など録音再生され得る音であれば良い。
【0033】
本実施形態においては、人間が聞く音を録音再生することを説明しているが、人間の可聴領域以外の音を録音再生することもできる。例えば、人間の可聴領域よりも高周波領域を聴き分けられる犬などの動物のために、録音再生をするようなことも可能である。
【符号の説明】
【0034】
1…録音再生システム、11…制御ユニット、12…記憶ユニット、13…表示ユニット、14…操作受付ユニット、15…スピーカ、16…マイク、17…通信インタフェース、18…バス、20…録音装置、21…入力部、22…増幅部、23…変換部、24…録音機能制御部、25…記憶部、26…出力部、30…再生装置、31…入力部、32…発振部、33…調節部、34…合成部、35…出力部、36…再生機能制御部、101…CPU、102…ROM、103…RAM