特許第6424462号(P6424462)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特許6424462オーディオ信号の時間軸圧縮伸張方法および装置並びにプログラム
<>
  • 特許6424462-オーディオ信号の時間軸圧縮伸張方法および装置並びにプログラム 図000002
  • 特許6424462-オーディオ信号の時間軸圧縮伸張方法および装置並びにプログラム 図000003
  • 特許6424462-オーディオ信号の時間軸圧縮伸張方法および装置並びにプログラム 図000004
  • 特許6424462-オーディオ信号の時間軸圧縮伸張方法および装置並びにプログラム 図000005
  • 特許6424462-オーディオ信号の時間軸圧縮伸張方法および装置並びにプログラム 図000006
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6424462
(24)【登録日】2018年11月2日
(45)【発行日】2018年11月21日
(54)【発明の名称】オーディオ信号の時間軸圧縮伸張方法および装置並びにプログラム
(51)【国際特許分類】
   G10L 21/047 20130101AFI20181112BHJP
【FI】
   G10L21/047
【請求項の数】5
【全頁数】12
(21)【出願番号】特願2014-103789(P2014-103789)
(22)【出願日】2014年5月19日
(65)【公開番号】特開2015-219420(P2015-219420A)
(43)【公開日】2015年12月7日
【審査請求日】2017年3月24日
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】100077539
【弁理士】
【氏名又は名称】飯塚 義仁
(74)【代理人】
【識別番号】100125265
【弁理士】
【氏名又は名称】貝塚 亮平
(72)【発明者】
【氏名】岡崎 雅嗣
【審査官】 大野 弘
(56)【参考文献】
【文献】 特開2009−244704(JP,A)
【文献】 特開平11−352970(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/047
(57)【特許請求の範囲】
【請求項1】
オーディオ信号の原波形データを時間軸上で分割して断片化しセグメント波形を得る第1ステップと、
各セグメント波形の一部分をカットしあるいは各セグメント波形の終端に原セグメント波形から形成した挿入セグメント波形を加えてつなぎ合わせて第1圧伸波形を得る第2ステップと、
該第1圧伸波形の中の同一長さの2つの時間区間の波形を重複加算して得た波形を該2つの時間区間の波形の間に挿入しあるいは該2つの時間区間の波形と入れ替えて該第1圧伸波形を圧伸し第2の圧伸波形を得る第3ステップと
を有することを特徴とするオーディオ信号の時間軸圧縮伸張方法。
【請求項2】
オーディオ信号の原波形データを時間軸上で分割して断片化しセグメント波形を得る第1手段と、
各セグメント波形の一部分をカットしあるいは各セグメント波形の終端に原セグメント波形から形成した挿入セグメント波形を加えてつなぎ合わせて第1圧伸波形を得る第2手段と、
該第1圧伸波形の中の同一長さの2つの時間区間の波形を重複加算して得た波形を該2つの時間区間の波形の間に挿入しあるいは該2つの時間区間の波形と入れ替えて該第1圧伸波形を圧伸し第2の圧伸波形を得る第3手段と
を有することを特徴とするオーディオ信号の時間軸圧縮伸張装置。
【請求項3】
全体の圧伸率を指示する情報を取得し、該全体の圧伸率前記第手段における圧伸率と前記第手段における圧伸率とに振り分ける際のそれぞれの割合を決定し、第2手段用圧伸率と第3手段用圧伸率と得る第手段をさらに有し、
前記第2および第手段における圧伸率がそれぞれ前記第2手段用圧伸率と第3手段用圧伸率となるよう制御されることを特徴とする請求項2記載のオーディオ信号の時間軸圧縮伸張装置。
【請求項4】
前記第4手段は、全体の圧伸率に応じて前記第2手段用圧伸率と第3手段用圧伸率との割合が変化するように該割合を決定することを特徴とする請求項3記載のオーディオ信号の時間軸圧縮伸張装置。
【請求項5】
コンピュータに、
オーディオ信号の原波形データを時間軸上で分割して断片化しセグメント波形を得る手順と、
各セグメント波形の一部分をカットしあるいは各セグメント波形の終端に原セグメント波形から形成した挿入セグメント波形を加えてつなぎ合わせて第1圧伸波形を得る手順と、
該第1圧伸波形の中の同一長さの2つの時間区間の波形を重複加算して得た波形を該2つの時間区間の波形の間に挿入しあるいは該2つの時間区間の波形と入れ替えて該第1圧伸波形を圧伸し第2の圧伸波形を得る手順と
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、原オーディオ信号のピッチや音質を変化させずにテンポを遅くまたは速するよう原オーディオ信号の時間軸を圧縮または伸張する(「圧伸」と略すことがある)方法およびその装置並びにプログラムに関する。
【背景技術】
【0002】
ピッチや音質を変化させずにオーディオ信号の時間軸を圧伸する技術として、従来より、たとえば下記の特許文献1および特許文献2に記載された技術が知られている。
特許文献1記載の技術は、いわゆるカット・アンド・スプライス(CAS)と呼ばれる技術で、原信号を時間軸上で複数の区間に区切り、圧縮時には各区間の終端部分を一定割合でカットし、伸長時には各区間の間に、その直前の区間の信号から生成した信号を挿入してつなぎ合わせる。この文献では、挿入する信号の音量エンベロープを直前の区間の信号のエンベロープに合わせるとともに時間とともに減衰させるようにしている。
【0003】
特許文献2記載の技術は、OLA(Overlap and Add: 重複加算)と呼ばれる技術に属し、とくにそのうちの、いわゆるPICOLA(Pointer Interval Controlled Overlap and Add)により、原オーディオ信号の波形相関の最も高い隣接した同じ長さの2つの区間を抽出し、これら区間の信号を重複加算し、この重複加算された信号を元の2つの区間と入れ換えて時間圧縮し、あるいは元の2つの区間の間に挿入することで時間伸長するようにし、全体的な時間を短くしたり長くしたりしている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2002−175080号公報(第4〜5頁、図2
【特許文献2】特開2000−322099号公報(第2頁、図5図6
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1記載のようなCAS法では、伸長時に挿入する生成信号の長さは基本的に原オーディオ信号の直前区間の長さを超えることができず、また生成信号は実際にはその区間の音色の安定している後半部分を用いざるを得ないことから、時間軸を2倍程度にする場合には無音部分が生じたりして違和感が増大することとなり、時間軸の大幅な伸長はできない。
【0006】
他方、特許文献2に記載されたようなOLA法では、時間軸の2倍程度の大幅な伸長も可能であるものの、音量エンベロープの時間的変化も引き伸ばされるため、たとえば原オーディオ信号の音量エンベロープが短い時間で減衰していた場合伸長後は原音とは異なる長い減衰時間を持つ音量エンベロープとなり、原音とは印象がかなり変わってしまうという問題がある。とくに打楽器などの減衰系のオーディオ信号では、時間軸を大きく伸長すると、印象の変化が顕著となる。
【0007】
この発明は、上記に鑑み、カット・アンド・スプライス法とOLA法とを組み合わせる発想のもとで、時間軸の大幅な伸長をも可能とし、とくに打楽器などの減衰時間が定まっているオーディオ信号を聴取したときの印象をあまり変えることなく時間軸を大きく伸長することができるよう改善し、打楽器、打弦楽器や、ギターなどの弾く楽器など、音量エンベロープがテンポに依存して変化することのない楽器の音響を引き伸ばしたときの聴感上の品質を良好に保つことできる、オーディオ信号の時間軸圧縮伸張方法および装置並びにプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
請求項1に記載された本発明によるオーディオ信号の時間軸圧縮伸張方法は、オーディオ信号の原波形データを時間軸上で分割して断片化しセグメント波形を得る第1ステップと、各セグメント波形の一部分をカットしあるいは各セグメント波形の終端に原セグメント波形から形成した挿入セグメント波形を加えてつなぎ合わせて第1圧伸波形を得る第2ステップと、該第1圧伸波形の中の同一長さの2つの時間区間の波形を重複加算して得た波形を該2つの時間区間の波形の間に挿入しあるいは該2つの時間区間の波形と入れ替えて該第1圧伸波形を圧伸し第2の圧伸波形を得る第3ステップとを有することを特徴とする。
【0009】
請求項2に記載された本発明によるオーディオ信号の時間軸圧縮伸張装置は、オーディオ信号の原波形データを時間軸上で分割して断片化しセグメント波形を得る第1手段と、各セグメント波形の一部分をカットしあるいは各セグメント波形の終端に原セグメント波形から形成した挿入セグメント波形を加えてつなぎ合わせて第1圧伸波形を得る第2手段と、該第1圧伸波形の中の同一長さの2つの時間区間の波形を重複加算して得た波形を該2つの時間区間の波形の間に挿入しあるいは該2つの時間区間の波形と入れ替えて該第1圧伸波形を圧伸し第2の圧伸波形を得る第3手段とを有することを特徴とする。
【0010】
請求項3に記載された本発明によるオーディオ信号の時間軸圧縮伸張装置は、上記請求項2に記載された本発明によるオーディオ信号の時間軸圧縮伸張装置の第1から第手段に加えて、全体の圧伸率を指示する情報を取得し、該全体の圧伸率手段における圧伸率と第手段における圧伸率とに振り分ける際のそれぞれの割合を決定し第2手段用圧伸率と第3手段用圧伸率と得る第4手段をさらに有し、第2および第手段における圧伸率がそれぞれこの第2手段用圧伸率と第3手段用圧伸率となるよう制御されることが特徴となっている。
【0011】
請求項4に記載された本発明によるオーディオ信号の時間軸圧縮伸張装置は、上記請求項3に記載された本発明によるオーディオ信号の時間軸圧縮伸張装置において、第4手段が前記全体の圧伸率に応じて第2手段用圧伸率と第3手段用圧伸率との割合が変化するように該割合を決定することを特徴とする。
【0012】
請求項5に記載された本発明によるプログラムは、コンピュータに、オーディオ信号の原波形データを時間軸上で分割して断片化しセグメント波形を得る手順と、各セグメント波形の一部分をカットしあるいは各セグメント波形の終端に原セグメント波形から形成した挿入セグメント波形を加えてつなぎ合わせて第1圧伸波形を得る手順と、該第1圧伸波形の中の同一長さの2つの時間区間の波形を重複加算して得た波形を該2つの時間区間の波形の間に挿入しあるいは該2つの時間区間の波形と入れ替えて該第1圧伸波形を圧伸し第2の圧伸波形を得る手順とを実行させるためのプログラムである。
【発明の効果】
【0013】
この発明によれば、オーディオ信号の原波形データを時間軸上で分割して断片化しセグメント波形を得、この各セグメント波形の一部分をカットしあるいは各セグメント波形の終端に原セグメント波形から形成した挿入セグメント波形を加えてつなぎ合わせることにより、いわゆるCAS法による信号圧伸を行い、そこで得た圧伸波形の中の同一長さの2つの時間区間の波形を重複加算して得た波形を該2つの時間区間の波形の間に挿入しあるいは該2つの時間区間の波形と入れ替えることにより、いわゆるOLA法による信号圧伸を行うというように、2段構えの構成をとっているため、第1段目のCAS法による信号圧伸で原音の減衰過程での減衰音についての聴感上の印象を変えることなく伸長でき、さらに第2段目のOLA法による信号圧伸で、この減衰音についての印象が変わらないように伸長された信号をさらに伸長させることができるので、原音を大幅に伸長させる場合でも、伸長させた音を聴取したときの減衰部分での印象が原音から著しく変化することがなく、違和感のない信号圧伸が可能である。とくに打楽器などの減衰時間が定まっているオーディオ信号を聴取したときの印象をあまり変えることなく時間軸を大きく伸長することができ、打楽器、打弦楽器や、ギターなどの弾く楽器など、音量エンベロープがテンポに依存して変化することのない楽器の音響を引き伸ばしたときの聴感上の品質を良好に保つことできる。
【0014】
また、体の圧伸率から、第1段目のCAS法による信号圧伸率と第2段目のOLA法による信号圧伸率との割合を決定するようにしているため、それぞれの圧伸率を最適に定めることが可能となり、より違和感のない信号圧伸が実現できる。
【0015】
さらに、体の圧伸率から、第1段目のCAS法による信号圧伸率と第2段目のOLA法による信号圧伸率との割合を決定する際に、全体の圧伸率に応じてこの割合が変化するように決定するため、たとえば全体の圧伸率が比較的小さい場合には第1段目のCAS法による信号圧伸率を高く第2段目のOLA法による信号圧伸率を低くするようそれらの割合を決め、全体の圧伸率が比較的大きい場合には第1段目のCAS法による信号圧伸率を高くするとともに第2段目のOLA法による信号圧伸率も高くしてこの第2段目のOLA法による信号圧伸率の割合が高まるようそれらの割合を決めるなど、全体の圧伸率の大小に応じたきめ細かな最適な割合決定ができて、違和感のない信号圧伸が可能となる。
【図面の簡単な説明】
【0016】
図1】この発明の一実施例にかかるオーディオ信号の時間軸圧縮伸張システムのブロック図である。
図2図1の実施例における信号処理を説明するためのブロック図である。
図3】波形データのセグメンテーションを示すタイムチャートであり、同図(A)は原波形データを、同図(B)はセグメント波形の略図をそれぞれ示す。
図4】1つのセグメント波形についての処理を説明するための概略波形のタイムチャートであり、同図(A)はセグメント波形を、同図(B)はCAS法による処理後の波形を、同図(C)はOLA法による処理後の波形をそれぞれ示す。
図5】全体の圧伸率がどのような割合で分けられるかを示すグラフであり、同図(A)、(B)は全体の圧伸率に応じて異なる割合で変化する2つの例のそれぞれを示す。
【発明を実施するための形態】
【0017】
以下、この発明の実施の形態について、図面を参照しながら詳細に説明する。
【0018】
図1はこの発明の一実施例にかかるオーディオ信号の時間軸圧縮伸長システムのハードウェア構成を示すものである。このオーディオ信号の時間軸圧縮伸張システムは、汎用パーソナルコンピュータ上で動作するアプリケーションプログラムである信号圧伸処理プログラムおよびドライバ等によって構成されている。
【0019】
この図1に示すように、CPU15、メモリ16やHDD(ハードディスク)21、入力装置12、ディスプレイ14、各種インターフェイス11、20、22、演奏操作子13、ドライブ装置18等がバス17を介して接続されている。通信インタフェース11は、インターネット等の外部ネットワークを介して波形データ等のやりとりを行う。入力装置12は、キーボード、マウス等から構成されている。演奏操作子13は、鍵盤および打楽器を模擬するパッド操作子等によって構成されている。ディスプレイ14はユーザに対して各種情報を表示するものである。
【0020】
CPU15は、後述のプログラムにしたがい各種の演算処理を行うとともにバス17を介して他のハードウェアを制御する。メモリ17は、ROMおよびRAMを含み、ROMにはイニシャルプログラムローダ等が格納され、RAMはCPU15によって読み書きされる。ドライブ装置18はCD、DVDあるいはMO等の記憶媒体19の読み書きを行う。外部から入力されたオーディオ信号のアナログ波形は波形取込インターフェイスによりサンプリングされてデジタル波形データに変換された後、バス17を介して出力される。HDD21には、汎用パーソナルコンピュータのオペレーティングシステム、後述する波形編集のアプリケーションプログラム、波形データ等が格納される。波形出力インタフェース22は、バス17を介して供給されたデジタル波形データをアナログ波形に変換してアナログオーディオ信号とし、サウンドシステム23に送って音響を出力させる。
【0021】
このように構成されるシステムにおいて、パーソナルコンピュータの電源が供給されると、メモリ16のROMに格納されたイニシャルプログラムローダが実行され、オペレーティングシステムが立上る。このオペレーティングシステムにおいて所定の操作を行うと、実施例にかかる信号圧伸処理プログラムが起動される。この信号圧伸処理プログラムにおいて、ユーザが入力装置12を介して被処理信号を指定するとともに圧伸率を指示する。
【0022】
さらに図2をも参照して動作説明すると、指定された被処理信号の原波形データが、セグメント波形取得手段35により時間軸上で分割されて断片化され、多数のオリジナルセグメント波形データと挿入セグメント波形データとが取得されてHDD21などに格納される。このオリジナルセグメント波形データと挿入セグメント波形データは、読み出されてCAS手段33に取り込まれ、CAS法による原波形データの時間軸圧伸処理が行われる。このCAS処理により圧伸された波形データはOLA手段34に送られてOLA処理を受けて再度時間軸圧伸される。つまり、第1段目はCAS法による圧伸、第2段目はOLA法による圧伸というように異なる圧伸法による2段構えの圧伸処理が行われる。
【0023】
1段目のCAS手段33による圧伸率と2段目のOLA手段34による圧伸率のそれぞれは、ユーザから指示された全体の圧伸率に応じて、それらの割合として決定される。ユーザの指示による全体の圧伸率が圧伸率取得手段31によって取得されており、割合決定手段32において、この全体の圧伸率に応じてCAS手段33で圧伸する割合とOLA手段34で割合とが定められ、これに応じてCAS手段33およびOLA手段34が圧伸処理する。たとえば全体の圧伸率が1.5倍程度に伸長するというものであった場合には、CAS手段33での圧伸率を1.4倍に、OLA手段による圧伸率を1.1倍にするというように割合を決定する(この場合には両者が乗算されるため1.54倍の伸長になる)。また、全体の圧伸率を2倍とするときは、たとえばCAS手段33、OLA手段34とも√2倍とされる(これにより両者の乗算で、全体では2倍の伸長となる)。なお、これら各「手段」は、プログラムにおける処理ステップ(行程)を意味している。
【0024】
以下、さらに詳しく説明する。まず、セグメント波形取得手段35におけるオリジナルセグメント波形データの取得について説明すると、まず、被処理信号の原波形データにおける音量レベルのピークが検出され、各ピークの出現位置に基づいて、拍子(3拍子、4拍子等)、小節数、テンポ数等が自動的に決定される。そして、この決定結果はユーザが任意の値に修正することもできるようにもされている。なお、この被処理信号の原波形データは、波形取込インターフェイス20を介して取り込まれた外部からのオーディオ信号の波形データや、通信インターフェイス11を介して得たオーディオ信号の波形データ、あるいはドライブ装置18によって得たCD、DVD等の記憶媒体19からのオーディオ信号の波形データ等からユーザによって指定されたものである。
【0025】
つぎに、その決定結果に応じて、セグメント波形取得手段35では、原波形データの時間軸上での分割処理が行われる。原波形データが図3(A)で示すようなものであった場合、時刻t1、t2、t3、・・・で分割され、その分割結果として、図3(B)に示すようにセグメント化されたセグメント波形データS1、S2、S3、・・・が得られる。このセグメント波形データをオリジナルセグメント波形データと言うことにする。
【0026】
ここで、分割基準時となる時刻t1、t2、t3、・・・は、「制御ポイント」とも呼ばれ、種々に設定可能であるが、この例ではユーザによって指定される動作モードが単純決定モードであるか解析モードであるかに応じてデフォルトの制御ポイントが自動的に決定されるものとして説明する。
【0027】
「単純決定モード」においては、拍単位に制御ポイントが設定される。例えば、1小節で拍子が3拍子であれば、波形データを3等分する位置に制御ポイントが設定され、また2小節であれば6等分する位置に設定される。他方、「解析モード」においては、波形データの解析結果に基づいて制御ポイントが決定される。具体的には、音量エンベロープの立上がり開始位置、立下がり開始位置、ピッチの変化位置等が検出され、各検出位置に制御ポイントが設定される。以上のように決定されたデフォルトの制御ポイントは、原波形データとともにディスプレイ14上に、たとえば図3(A)のように表示される。このデフォルトの制御ポイントはユーザによって編集することが可能であり、具体的には、上記ディスプレイ表示画面上で、必要に応じて制御ポイントの追加、削除または移動ができるようになっている。
【0028】
こうしてオリジナルセグメント波形データが取得されると、セグメント波形取得手段35において、つぎに挿入セグメント波形データが取得される。この挿入セグメント波形データは、基本的には、オリジナルセグメント波形データと同じ長さのものとして取得され、各オリジナルセグメント波形データの間に挿入されるものである。i番目のオリジナルセグメント波形データSiの終端に続いてi番目の挿入セグメント波形データRiが挿入されることになるが、挿入セグメント波形データRiとしては、i+1番目のオリジナルセグメント波形データSi+1をそのままコピーした波形データ、あるいは、i番目のオリジナルセグメント波形データSiを時間軸上で反転した波形データのいずれかが選択される。デフォルト状態では、持続系の音に対しては前者のそのままコピーした波形データが用いられ、パーカッション系の音に対しては後者の反転した波形データが用いられる。
【0029】
これをいま少し説明すると、持続系の音では、i番目のオリジナルセグメント波形データSiとi+1番目のオリジナルセグメント波形データSi+1ではもともと滑らかに連続しており、そのためこれらの間にi+1番目のオリジナルセグメント波形データSi+1をコピーして得た波形データを挿入セグメント波形データRiとして挿入する場合には、i番目のオリジナルセグメント波形データSiとの間では滑らかな接続となる。この場合、持続系の音であるため、i+1番目のオリジナルセグメント波形データSi+1以外のオリジナルセグメント波形データをコピーして挿入セグメント波形データRiとして用いることも可能であるが、持続系の音ではアタックの無い部分(持続系の波形の途中)に制御ポイントが設定されることもあるので、注意を要する。というのは、オリジナルセグメント波形データSiとそれに続く挿入セグメント波形データRiとの間で位相がずれていると、耳障りなノイズが発生するので、両者間で位相合わせを行う必要が生じ、処理が煩雑になるからである。上述のようにオリジナルセグメント波形データSiのつぎのi+1番目のオリジナルセグメント波形データSi+1を挿入セグメント波形データRiとして用いれば、このような問題を回避することができる。
【0030】
ところが、持続系の音において、制御ポイントの直後に次の音のアタックがあった場合にはやや問題がある。この場合、一般的には、i+1番目のオリジナルセグメントの音のピッチは直前のi番目のオリジナルセグメントの音のピッチとは異なることになるため、オリジナルセグメントと挿入セグメントのピッチが異なるという、本来望ましくない事態になるからである。しかし、ここでは、後述のように、挿入セグメント波形データのエンベロープがその直前のオリジナルセグメント波形データから連続して滑らかに減衰していくように制御しており、この望ましくない事態の影響を軽減ないし回避している。すなわち、新たに始まる音のアタック部で音色やピッチが変化すると目立つが、減衰している波形の途中で音色やピッチが変化した場合には、前のアタック部の印象が強いために比較的目立たないものであることに着目した対処をしているからである。
【0031】
一方、パーカッション系の音においては、元々ノイズ的な成分が多いため、オリジナルセグメントSiから挿入セグメントRiへの接続部で目立ったノイズは発生しないことが多い。しかし、当該オリジナルセグメントSiまたは次のオリジナルセグメントSi+1等をそのまま挿入セグメントRiとして用いると、波形の先頭部分のアタックノイズが多少耳障りになる場合がある。そこで、オリジナルセグメントSiの波形データを時間軸上で反転した波形データを挿入セグメントRiとして用いることにより、このような不具合を解消するようにしている。さらに、オリジナルセグメントSiと挿入セグメントRiの接続部分をクロスフェードすると、いっそう両者を滑らかに接続することが可能になる。なお、反転した波形データを最後まで読み出すと、該反転波形データの終端部分にアタックノイズが再生され、多少耳障りになることがある。この場合は、反転波形データの途中のポイント(例えば先頭から2/3程度の長さのポイント)において、該反転波形データを折り返して(時間軸上でさらに反転させて)読み出すとよい。
【0032】
なお、挿入セグメントは以上説明したデフォルトのものに限定されるわけではなく、各オリジナルセグメント毎に、ユーザが所望の挿入セグメントを指定して、聴感上で最も好ましいものを選択することができるようになっている。また、挿入セグメントの波形データが選択されると、その波形データの各部のレベルが、該波形データのエンベロープレベルで除算される。これにより、挿入セグメントの波形データは、エンベロープが平坦な波形データに変換される。
【0033】
つぎに、挿入セグメントRiのエンベロープ波形が、オリジナルセグメントSiのエンベロープ波形曲線に応じて決定される。オリジナルセグメントSiのエンベロープ波形は一般に時間関数で表される減衰率(減衰曲線)となっているので、これを算出し、挿入セグメントRiのエンベロープレベルの初期値をオリジナルセグメントSiの終端レベルに合わせるとともに上記の減衰率(減衰曲線)が維持されるように挿入セグメントRiのエンベロープ波形が決定される。これにより、挿入セグメントRiのエンベロープ特性が、オリジナルセグメントSiに対して自然につながるようになる。
【0034】
ただし、制御ポイントの決定時に単純決定モードが選択された場合等においては、オリジナルセグメントSiの終端部においてエンベロープレベルが最大になることもある。この場合には、挿入セグメントRiのエンベロープレベルは、オリジナルセグメントSiの終端時のレベルに制限するようにしておく。
【0035】
以上のように、各挿入セグメントのエンベロープが決定されると、挿入セグメントR1、R2、R3、・・・の各々の平坦化波形データに対して、上記決定されたエンベロープが乗算される。これにより、各挿入セグメントの波形データは、この決定されたエンベロープを有するようになる。こうして取得されたオリジナルセグメント波形データと挿入セグメント波形データは、HDD21などに格納されて、読み出しを待つことになる。
【0036】
ここで、前述のように、たとえば、全体の圧伸率が1.5倍程度であったとして、割合決定手段32によりCAS手段33での圧伸率が1.4倍に、OLA手段34での圧伸率が1.1倍に決定されているとしよう。この場合、一つのオリジナルセグメント波形データSiに関して図4を参照して説明すると、CAS手段33では、図4(A)に示すようなオリジナルセグメント波形データSiをそのまま読み込むとともに、挿入セグメント波形データRiを先頭からオリジナルセグメント波形データSiの時間長の0.4倍の時間長分だけ読み込み、これらを図4(B)に示すように、つなぎ合わせて結合する。ここで、結合された波形データは、先に述べたとおり、オリジナルセグメントSiと挿入セグメントRiのエンベロープがスムーズにつながっており、そのため、原音の減衰曲線が維持されることになり、減衰音についての聴感上の印象の変化がない。そして、このようなつなぎ合わせ結合処理を、すべてのオリジナルセグメント波形データに関して行い、全体として1.4倍に伸長された結合波形データを得る。
【0037】
このCAS手段33での処理結果としての結合波形データはつぎにOLA手段34においてOLA法による圧伸処理を受ける。図4(B)に示すようなCAS処理後の結合波形データがOLA法により圧伸され、結合波形データの全体(Si+Ri)がこの例では図4(C)に示すように1.1倍に伸長され、この伸長された波形データOiが出力波形データとして出力される。
【0038】
ここでは、OLA手段34においてPICOLA(Pointer Interval Controlled Overlap and Add)により圧伸が行われる。入力される結合波形データのうちの波形相関の最も高い隣接した同じ長さの2つの小区間が抽出され、これら小区間の波形が重複加算される。時間圧縮する場合は、この重複加算された波形が元の2つの小区間と入れ換えられる。時間伸長する場合は、重複加算された波形が元の2つの小区間の間に挿入される。ここでは後者のように重複加算された波形が元の2つの小区間の間に挿入されることが入力結合波形データの全体(Si+Ri)に行われて1.1倍に伸長されることになる。そのため、入力結合波形データのエンベロープも引き伸ばされることになるが、大きく引き伸ばされることにはならないため、原音の減衰過程での聴感上の印象の変化を抑えるようにしながら、全体として1.5倍程度の時間軸伸長を実現できる。
【0039】
なお、上記の説明では、便宜上、結合波形データの全体(Si+Ri)にわたりPICOLA処理を行うものとしたが、結合波形データ(Si+Ri)のうちのアタック部分にはこの処理を施さないようにすることもできる。さらに、PICOLA法による圧伸が行われるものとしたが、波形データを波形周期(ピッチ)と同期した分析窓で互いにオーバーラップした短い断片に分割して処理するPSOLA(Pitch Synchronous Overlap and Add)や、周期パターンを明示的に検出せずに相互相関などに基づく尺度を用いてオーバーラップさせた断片間の接続位置を検出するSOLA(Synchronous Overlap and Add)等の他のOLA法を採用することもできる。
【0040】
全体の圧伸率をどのような割合でCAS手段33とOLA手段34とに受け持たせるか、つまり割合決定手段32が全体の圧伸率からどのようにしてCAS圧伸率とOLA圧伸率とを決定するか、については、一般的にいうと、全体の伸長率が小さい場合にはOLAによる伸長はほとんどなく主にCASによる伸長とし、全体の伸長率が増えてくるにつれてCASによる伸長を頭打ちとしてその代わりにOLAによる伸長割合を増やしていくようにするのが、原音の減衰過程での聴感上の印象の変化を抑えるようにしながら全体の時間軸伸長を大きくすることにとっては望ましい。
【0041】
そのため、具体的には、たとえば図5(A)あるいは図5(B)のような割合となるように割合決定手段32が決定するのが好ましい。図5(A)、(B)では横軸はユーザによる設定の種類A、B、C、D、Eを示し、縦軸がLOGスケールで表された全体の圧伸率を示し、設定A、B、C、D、Eの順で全体の圧伸率が直線的に大きくなるものとされている。
【0042】
図5(A)では、全体の圧伸率が√2程度までの設定A、B、Cでは、CASによる伸長割合がほぼ100%、OLAによる伸長割合がほぼ0%と定められる。全体の圧伸率が√2を超えるような設定D、E等では、CASによる伸長率が√2で横ばいとなり、√2を超える伸長率をOLAが受け持つようにされる。そのため、全体の圧伸率が2の場合には、CASによる伸長率とOLAによる伸長率はともに√2となり、全体の圧伸率の50%ずつの割合となる。
【0043】
図5(B)では、割合特性は図5(A)のように折れ線状ではなく、曲線になっている。すなわち全体の圧伸率√2を境にOLAによる伸長を加えていくのではなく、全体の圧伸率が1以上になると、全体の圧伸率の増大に連れて少しずつOLAによる伸長割合が増えていく。全体の圧伸率√2以下のように圧伸率が小さい場合には、CASによる伸長割合が圧倒的に大きく、OLAによる伸長割合は非常に小さいが、それでも圧伸率が大きくなるにしたがってOLAによる伸長割合が増えていく。全体の圧伸率が√2を超えるようになるとさらにOLAによる伸長割合が増え、全体の圧伸率が2に近づくと、図5(A)の場合と同様に、CASによる伸長率とOLAによる伸長率はともに√2前後となり、全体の圧伸率の50%ずつの割合となる。
【0044】
なお、上記の実施例は汎用のハードウェアを用いソフトウェア処理によってデジタル・オーディオ信号の時間軸圧伸を行っているが、DSP(Digital Signal Processor)や専用LSI等のハードウェアによることもできることはもちろんである。また、上記の実施例は単体の装置(スタンドアロンタイプの汎用パーソナルコンピュータ)によって処理を行っているが、複数の装置が連携して処理を行うようにしてもよい。例えば、通信ネットワークを介して相互に通信可能に接続されたサーバとクライアントとが連携して処理を行ったり、あるいは、サーバ側の複数の装置が協調してウェブサービスを提供する所謂クラウドとして処理を行うようにしてもよい。
【符号の説明】
【0045】
11 通信インターフェイス
12 入力装置
13 演奏操作子
14 ディスプレイ
15 CPU
16 メモリ(ROM、RAM)
17 バス
18 ドライブ装置
19 記憶媒体
20 波形取込インターフェイス
21 HDD
22 波形出力インターフェイス
23 サウンドシステム
31 圧伸率取得手段
32 割合決定手段
33 CAS手段
34 OLA手段
35 セグメント波形取得手段
図1
図2
図3
図4
図5