(58)【調査した分野】(Int.Cl.,DB名)
前記プロセッサは、前記ユーザによって前記第1速度より速い第3速度が設定される場合、前記音声信号を前記第3速度の話速に変換し、且つ前記第1の抑圧量と前記第2の抑圧量との差分より小さい第3の抑圧量で前記音声信号の雑音を抑制した上で、前記第3速度に応じて前記音声信号を再生する請求項1に記載の電子機器。
前記ユーザによって前記第1速度より速い第3速度が設定される場合、前記音声信号を前記第3速度の話速に変換し、且つ前記第1の抑圧量と前記第2の抑圧量との差分より小さい第3の抑圧量で前記音声信号の雑音を抑制した上で、前記第3速度に応じて前記音声信号を再生する請求項4に記載の方法。
前記ユーザによって前記第1速度より速い第3速度が設定される場合、前記音声信号を前記第3速度の話速に変換し、且つ前記第1の抑圧量と前記第2の抑圧量との差分より小さい第3の抑圧量で前記音声信号の雑音を抑制した上で、前記第3速度に応じて前記音声信号を再生するための処理を実行する請求項6に記載のプログラム。
【発明を実施するための形態】
【0007】
以下、添付の図面を用いて、本実施形態にかかる電子機器、方法およびプログラムについて説明する。
【0008】
図1は、本実施形態にかかる電子機器を適用したタブレット端末の外観の一例を示す図である。本実施形態は、タブレット端末に電子機器を適用した例について説明するが、これに限定するものではなく、例えば、スマートフォン、携帯電話機、PDA(Personal Digital Assistant)、ノートブック型のパーソナルコンピュータ、デジタルテレビジョン等に電子機器を適用することも可能である。本実施形態では、タブレット端末は、
図1に示すように、本体部11と、表示部12と、カメラモジュール13と、を備えている。
【0009】
本体部11は、薄い直方体の箱型の筐体を有している。表示部12は、LCD(Liquid Crystal Display)等で構成された表示画面121(
図2参照)と、静電容量式のタッチパネルや電磁誘導方式のデジタイザ等によって構成され、当該表示画面121上でのスタイラスペンまたは指等によるタッチ操作(タップ)を検出可能に設けられたタッチパネル122(
図2参照)と、を有するタッチパネルディスプレイである。カメラモジュール13は、本体部11において、表示画面121が設けられた面とは反対側の面の前方を撮像可能に設けられた撮像部である。
【0010】
図2は、本実施形態にかかるタブレット端末のハードウェア構成の一例を示す図である。本実施形態にかかるタブレット端末は、
図2に示すように、CPU(Central Processing Unit)101と、システムコントローラ102と、メインメモリ103と、グラフィックスコントローラ104と、BIOS(Basic Input / Output)−ROM(Read Only Memory)105と、不揮発性メモリ106と、無線通信デバイス107と、エンベデットコントローラ(EC)108と、電話回線通信モジュール109と、スピーカーモジュール110と、GPS(Global Positioning System)受信部111と、マイクロフォン112と、を備える。
【0011】
CPU101は、タブレット端末の各部の動作を制御する制御部として機能するプロセッサ(コンピュータ)の一例であり、電子回路に搭載されている。具体的には、CPU101は、BIOS−ROM105に記憶されたBIOSを実行する。その後、CPU101は、記憶装置の一例である不揮発性メモリ106からメインメモリ103にロードされる各種プログラムを実行する。CPU101によって実行されるプログラムには、OS(Operating System)201等の各種アプリケーションプログラムが含まれる。
【0012】
システムコントローラ102は、CPU101のローカルバスと各種モジュールとの間を接続するデバイスである。また、システムコントローラ102は、メインメモリ103に対するアクセスを制御するメモリコントローラを有している。また、システムコントローラ102は、PCI EXPRESS規格のシリアルバス等を介してグラフィックスコントローラ104と通信する機能を有している。
【0013】
グラフィックスコントローラ104は、表示部12を制御する表示制御部として機能する。具体的には、グラフィックスコントローラ104は、表示部12に対して各種情報を表示させる場合、各種情報を表示するための表示信号を生成し、当該表示信号を表示画面121に出力することによって、各種情報を表示画面121に表示させる。
【0014】
無線通信デバイス107は、無線LAN(Local Area Network)やBluetooth(登録商標)等によって外部機器との無線通信を実行するデバイスである。エンベデットコントローラ108は、タブレット端末の電源をオンまたはオフする。
【0015】
カメラモジュール13は、上述したように、本体部11において、表示画面121が設けられた面とは反対側の面の前方を撮像可能に設けられた撮像部である。本実施形態では、カメラモジュール13は、ユーザが表示画面121に表示されたボタンに対してタッチ操作を行ったことがタッチパネル122によって検出された場合に、タブレット端末の周囲の撮像を行う。
【0016】
スピーカーモジュール110は、システムコントローラ102を介してCPU101から入力される音の信号に基づいて、音声等の音を出力する。マイクロフォン112は、タブレット端末の周囲の音を集音可能に設けられる。そして、マイクロフォン112は、集音した音声等の音の信号(以下、入力音声信号と言う)をメインメモリ103に保存する。
【0017】
電話回線通信モジュール109は、例えば3G等の移動通信システムを用いて、基地局を介して外部機器とデータ通信を行うためのモジュールである。GPS受信部111は、GPSで計測されたタブレット端末の位置情報を受信する。
【0018】
図3は、本実施形態にかかるタブレット端末で実現されるソフトウェア構成の一例を示す図である。本実施形態では、タブレット端末は、
図3に示すように、CPU101がメインメモリ201に記憶された各種プログラムを実行することによって、音声取得部300、話速変換部301、雑音抑圧量算出部302、雑音抑圧部303および話速設定部304を実現する。
【0019】
音声取得部300は、タッチパネル122により検出したタッチ操作によって入力音声信号の出力が指示された場合に、不揮発性メモリ106に記憶された入力音声信号を取得する。話速設定部304は、タッチパネル122により検出したタッチ操作に従って、音声取得部300によって取得された入力音声信号の再生速度である話速(ユーザによって設定される速度の一例)に関する情報である話速情報を設定する。本実施形態では、話速設定部304は、再生するための処理(以下、話速変換処理と言う)を実行前の入力音声信号に対する、話速変換処理後の入力音声信号の話速の倍率を示す情報を話速情報として設定する。また、ユーザによって設定される話速(入力音声信号の再生速度)は、入力音声信号を再生するための再生速度を決定するために用いられる情報であれば、どのような情報であっても良く、例えば、入力音声信号の再生速度を倍率で示すパラメータ、入力音声信号(特に、ユーザが発生する音声)に含まれる信号の基本周期(ピッチ)で示すパラメータであっても良い。
【0020】
本実施形態では、話速設定部304は、話速変換処理前の入力音声信号の話速に対する、話速変換処理後の入力音声信号の話速の倍率を話速情報として設定しているが、話速変換処理後の入力音声信号の話速に関する情報を話速情報として設定するものであれば、これに限定するものではない。例えば、話速設定部304は、話速変換処理後の入力音声信号の話速を示す情報を話速情報として設定しても良い。
【0021】
話速変換部301は、話速設定部304により予め設定された話速情報に応じて、音声取得部300により取得された入力音声信号の話速を変換する話速変換処理を実行する。雑音抑圧量算出部302は、入力音声信号に含まれる雑音を抑制する量(以下、雑音抑圧量と言う)を算出する雑音抑圧量算出処理を実行する。雑音抑圧部303は、入力音声信号に含まれる雑音を、雑音抑圧量算出部302により算出された雑音抑圧量で抑制する雑音抑圧処理を実行する。本実施形態では、タブレット端末は、
図3に示すように、話速変換部301による話速変換処理、雑音抑圧量算出部302による雑音抑圧量算出処理、および雑音抑圧部303による雑音抑圧処理の順に各処理を実行しているが、これに限定するものではない。例えば、タブレット端末は、雑音抑圧量算出部302による雑音抑圧量算出処理、話速変換部301による話速変換処理、および雑音抑圧部303による雑音抑圧処理の順に各処理を実行しても良い。若しくは、タブレット端末は、雑音抑圧量算出部302による雑音抑圧量算出処理、雑音抑圧部303による雑音抑圧処理、および話速変換部301による話速変換処理の順に各処理を実行しても良い。
【0022】
次に、
図4を用いて、本実施形態にかかるタブレット端末における入力音声信号の話速変換処理の流れについて説明する。
図4は、本実施形態にかかるタブレット端末における入力音声信号の話速変換処理の流れを示すフローチャートである。
【0023】
音声取得部300は、タッチパネル122により検出したタッチ操作によって入力音声信号の再生が指示された場合に、不揮発性メモリ106から入力音声信号を取得する音声取得処理を実行する(ステップS401)。本実施形態では、音声取得部300は、不揮発性メモリ106に記憶された入力音声信号を、再生対象の音の信号の一例として取得しているが、これに限定するものではなく、サーバ等の外部機器に記憶された音の信号を、再生対象の音の信号として取得しても良い。
【0024】
話速変換部301は、音声取得部300によって入力音声信号が取得されると、話速設定部304によって予め設定された話速情報に従って、当該取得された入力音声信号の話速を変換する話速変換処理を実行する(ステップS402)。その際、話速変換部301は、音声の基本周期を用いて、取得された入力音声信号の話速を下げたり、取得された入力音声信号の話速を上げたりすることによって、話速変換処理を実行する。具体的には、話速変換部301は、取得された入力音声信号に含まれる音声の基本周期(ピッチ)を伸縮することによって、当該取得された入力音声信号の話速を変換する話速変換処理を実行する。本実施形態では、再生対象の音の信号の一例として音声の信号である入力音声信号が取得されるため、話速変換部301は、音声の基本周期を用いて、取得された入力音声信号の話速変換処理を実行するが、再生対象の音の信号が人の声以外の所定の基本周期を持つ音の信号である場合には、当該音の基本周期を用いて、再生対象の音の信号の話速変換処理を実行する。
【0025】
本実施形態では、話速設定部304は、入力音声信号の話速変換処理に先立って、話速情報を設定するためのGUI(Graphic User Interface)を表示画面121に表示する。そして、話速設定部304は、タッチパネル122によって検出されたGUIに対するタッチ操作に応じて、話速情報を設定する。
【0026】
雑音抑圧量算出部302は、話速変換部301によって入力音声信号の話速が変換されると、話速変換処理後の入力音声信号の話速に基づいて、当該入力音声信号に含まれる雑音の雑音抑圧量を算出する雑音抑圧量算出処理を実行する(ステップS403)。具体的には、雑音抑圧量算出部302は、話速設定部304によって第1の話速に関する話速情報が設定される場合には(すなわち、話速変換部301によって入力音声信号に含まれる音声のピッチが第1ピッチに変換される場合には)、第1の雑音抑圧量(第1の抑圧量の一例)を算出する。一方、雑音抑圧量算出部302は、話速設定部304によって第1の話速よりも小さい第2の話速に関する話速情報が設定される場合には(すなわち、第1の話速よりも遅い第2の話速に変換する場合、若しくは話速変換部301によって入力音声信号に含まれる音声のピッチが第1ピッチより長い第2ピッチに変換される場合には)、第1の雑音抑圧量より大きい第2の雑音抑圧量(第2の抑圧量の一例)を算出する。
【0027】
例えば、雑音抑圧量算出部302は、話速変換処理前の入力音声信号の話速の0.5倍の第1の話速に関する話速情報が設定される場合には、8dBを第1の雑音抑圧量として算出する。一方、雑音抑圧量算出部302は、話速変換処理前の入力音声信号の話速の0.5倍以下の第2の話速に関する話速情報が設定される場合には、10dBを第2の雑音抑圧量として算出する。
【0028】
雑音抑圧部303は、例えばスペクトルサブストラクション等を用いて、話速変換処理後の入力音声信号に含まれる雑音を、雑音抑圧量算出部302によって算出された雑音抑圧量で抑制する雑音抑圧処理を実行する(ステップS404)。具体的には、雑音抑圧部303は、第1話速(本実施形態では、話速変換処理前の入力音声信号の話速の0.5倍よりは速い話速)に関する話速情報が設定される場合、第1の話速に変換する入力音声信号が含む雑音を、第1の雑音抑圧量で抑制する。一方、雑音抑圧部303は、入力音声信号の話速が第1の話速より遅い第2の話速(本実施形態では、話速変換処理前の入力音声信号の話速の0.5倍以下の話速)に変換する場合、第2の話速に変換された入力音声信号が含む雑音を、第2の雑音抑圧量で抑制する。そして、雑音抑圧部303は、雑音抑圧処理後の入力音声信号を、出力音声信号としてスピーカーモジュール110に出力する(ステップS405)。本実施形態では、タブレット端末は、
図4に示すように、話速変換部301による話速変換処理(ステップS402)、雑音抑圧量算出部302による雑音抑圧量算出処理(ステップS403)、および雑音抑圧部303による雑音抑圧処理(ステップS404)の順に各処理を実行しているが、これに限定するものではない。例えば、タブレット端末は、雑音抑圧量算出部302による雑音抑圧量算出処理(ステップS403)、話速変換部301による話速変換処理(ステップS402)、および雑音抑圧部303による雑音抑圧処理(ステップS404)の順に各処理を実行しても良い。若しくは、タブレット端末は、雑音抑圧量算出部302による雑音抑圧量算出処理(ステップS403)、雑音抑圧部303による雑音抑圧処理(ステップS404)、および話速変換部301による話速変換処理(ステップS402)の順に各処理を実行しても良い。
【0029】
これにより、入力音声信号が第2の話速に変換されて、当該入力音声信号に含まれる雑音の位相が崩れた場合に、入力音声信号の位相の崩れを回復しなくても、当該入力音声信号の音質の劣化を防止できるので、入力音声信号を第2の話速に変換する場合に、所望の話速の入力音声信号を出力することができる。
【0030】
本実施形態では、雑音抑圧部303は、入力音声信号の話速が、話速変換処理前の入力音声信号の話速の0.5倍以下の第2の話速に変換する場合に、第2の話速に変換する入力音声信号に含まれる雑音を第2の雑音抑圧量で抑制しているが、入力音声信号の話速が、話速変換処理前の入力信号の話速より遅い第2の話速に変換する場合には、第2の話速に変換する入力音声信号に含まれる雑音を第2の雑音抑圧量で抑圧するようにしても良い。
【0031】
また、本実施形態では、雑音抑圧部303は、入力音声信号の話速を第1の話速より速い第3の話速に変換する場合には、第1の雑音抑圧量を基準として、当該第1の雑音抑圧量と第2の雑音抑圧量との差分より小さい変化量(第3の抑圧量)で、第3の話速に変換する入力音声信号の雑音を抑制する。若しくは、雑音抑圧部303は、入力音声信号の話速を第3の話速に変換する場合、第3の話速に変換する入力音声信号が含む雑音の抑制を禁止する(言い換えると、第3の話速に変換する入力音声信号が含む雑音を抑制しない)。これにより、入力音声信号の話速を第3の話速に変換する場合に、話速変換処理によって入力音声信号に含まれる雑音の崩れによって音質が劣化していないにも関わらず、雑音が必要以上に抑制されることを防止できる。
【0032】
図5は、本実施形態にかかるタブレット端末によって雑音抑圧処理を実行したときの入力音声信号の波形のスペクトルの一例を示す図である。
図5に示す入力音声信号の波形のスペクトルにおいて、縦軸は入力音声信号の波形のパワーを示し、横軸は入力音声信号の周波数を示している。また、
図5において、第1のスペクトル501は、話速変換処理前の入力音声信号のスペクトルである。また、
図5において、第2のスペクトル502は、第2の話速(話速変換処理前の入力音声信号の話速の0.5倍の話速)に話速を変換しかつ雑音を抑制していない入力音声信号のスペクトルである。また、
図5において、第3のスペクトル503は、第2の話速に話速を変換しかつ第2の雑音抑圧量(例えば、8dB)で雑音を抑制した入力音声信号のスペクトルである。
【0033】
図5に示すように、第2のスペクトル502は、第1のスペクトル501と比較して、凹凸を有しており、音質が劣化している。これに対して、第3のスペクトル503は、第2のスペクトル502と比較して、凹凸が平滑化されており、音質の劣化が軽減されている。
【0034】
このように、本実施形態のタブレット端末によれば、入力音声信号を第2の話速に変換する場合に、入力音声信号の音質の劣化を防止しつつ所望の話速の入力音声信号を出力することができる。
【0035】
本実施形態では、雑音抑圧部303は、話速変換処理前の入力音声信号の話速の0.5倍以下に当該入力音声信号の話速が変換する場合に、当該入力音声信号が含む雑音を、第2の雑音抑圧量で抑制しているが、話速変換処理前の入力音声信号の話速の0.5±0.1倍以下の話速に変換する場合も、入力音声信号に含まれる雑音を、第2の雑音抑圧量で抑制することによって、入力音声信号の話速を0.5倍以下に変換した場合と同様に、入力音声信号の音質の劣化を防止しつつ所望の話速の入力音声信号を出力することができる。
【0036】
なお、本実施形態のタブレット端末で実行されるプログラムは、ROM等に予め組み込まれて提供される。本実施形態のタブレット端末で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成しても良い。
【0037】
さらに、本実施形態のタブレット端末で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態のタブレット端末で実行されるプログラムまたは機能をインターネット等のネットワーク経由で提供または配布するように構成しても良い。
【0038】
本実施形態のタブレット端末で実行されるプログラムは、上述した各部(音声取得部300、話速変換部301、雑音抑圧量算出部302、雑音抑圧部303、話速設定部304)を含むモジュール構成となっており、実際のハードウェアとしてはCPU101が上記ROMからプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、音声取得部300、話速変換部301、雑音抑圧量算出部302、雑音抑圧部303、話速設定部304が主記憶装置上に生成されるようになっている。
【0039】
本発明の実施形態を説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。