特許第6409163号(P6409163)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通コネクテッドテクノロジーズ株式会社の特許一覧

特許6409163音声処理装置、音声処理プログラムおよび音声処理方法
<>
  • 特許6409163-音声処理装置、音声処理プログラムおよび音声処理方法 図000002
  • 特許6409163-音声処理装置、音声処理プログラムおよび音声処理方法 図000003
  • 特許6409163-音声処理装置、音声処理プログラムおよび音声処理方法 図000004
  • 特許6409163-音声処理装置、音声処理プログラムおよび音声処理方法 図000005
  • 特許6409163-音声処理装置、音声処理プログラムおよび音声処理方法 図000006
  • 特許6409163-音声処理装置、音声処理プログラムおよび音声処理方法 図000007
  • 特許6409163-音声処理装置、音声処理プログラムおよび音声処理方法 図000008
  • 特許6409163-音声処理装置、音声処理プログラムおよび音声処理方法 図000009
  • 特許6409163-音声処理装置、音声処理プログラムおよび音声処理方法 図000010
  • 特許6409163-音声処理装置、音声処理プログラムおよび音声処理方法 図000011
  • 特許6409163-音声処理装置、音声処理プログラムおよび音声処理方法 図000012
  • 特許6409163-音声処理装置、音声処理プログラムおよび音声処理方法 図000013
  • 特許6409163-音声処理装置、音声処理プログラムおよび音声処理方法 図000014
  • 特許6409163-音声処理装置、音声処理プログラムおよび音声処理方法 図000015
  • 特許6409163-音声処理装置、音声処理プログラムおよび音声処理方法 図000016
  • 特許6409163-音声処理装置、音声処理プログラムおよび音声処理方法 図000017
  • 特許6409163-音声処理装置、音声処理プログラムおよび音声処理方法 図000018
  • 特許6409163-音声処理装置、音声処理プログラムおよび音声処理方法 図000019
  • 特許6409163-音声処理装置、音声処理プログラムおよび音声処理方法 図000020
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6409163
(24)【登録日】2018年10月5日
(45)【発行日】2018年10月24日
(54)【発明の名称】音声処理装置、音声処理プログラムおよび音声処理方法
(51)【国際特許分類】
   G10L 21/034 20130101AFI20181015BHJP
   G10L 21/0364 20130101ALI20181015BHJP
【FI】
   G10L21/034
   G10L21/0364
【請求項の数】4
【全頁数】20
(21)【出願番号】特願2014-87996(P2014-87996)
(22)【出願日】2014年4月22日
(65)【公開番号】特開2015-206928(P2015-206928A)
(43)【公開日】2015年11月19日
【審査請求日】2017年1月10日
(73)【特許権者】
【識別番号】318012780
【氏名又は名称】富士通コネクテッドテクノロジーズ株式会社
(74)【代理人】
【識別番号】100113608
【弁理士】
【氏名又は名称】平川 明
(74)【代理人】
【識別番号】100105407
【弁理士】
【氏名又は名称】高田 大輔
(74)【代理人】
【識別番号】100175190
【弁理士】
【氏名又は名称】大竹 裕明
(72)【発明者】
【氏名】藤沢 信利
(72)【発明者】
【氏名】赤間 勝明
【審査官】 菊池 智紀
(56)【参考文献】
【文献】 特開2000−181477(JP,A)
【文献】 特開2007−199337(JP,A)
【文献】 特開2008−5041(JP,A)
【文献】 特開2003−37650(JP,A)
【文献】 特開2009−122204(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/0316−21/0364,
19/00−19/26,15/20
G11B 20/10
(57)【特許請求の範囲】
【請求項1】
録音機能を備える音声処理装置であって、
レベルの異なる音声を取り込んで録音データを生成する音声入力手段と、
前記音声入力手段で生成した前記録音データのレベルが閾値以下か否かを判別し、閾値以下となった場合、前記録音データを音声のまとまり毎に複数のフレームに分割し、該フレーム毎に前記録音データに含まれる音声のレベルを判別し、前記録音データのレベルが基準レベルと異なる場合、該基準レベルに基づいて、前記録音データのレベルを調整した新たな録音データを生成する音声処理手段と、
前記音声処理手段で生成した前記録音データを記憶する記憶手段と、
を備えることを特徴とする音声処理装置。
【請求項2】
前記音声処理手段は、取り込んだ前記録音データのレベルと前記基準レベルの差分を判別し、該差分に基づいて前記フレーム毎にレベルを増減させることを特徴とする請求項1に記載の音声処理装置。
【請求項3】
録音機能を備える音声処理装置の音声処理方法であって、
レベルの異なる音声を取り込んで録音データを生成し、
生成された前記録音データのレベルが閾値以下か否かを判別し、閾値以下となった場合、前記録音データを音声のまとまり毎に複数のフレームに分割し、
該フレーム毎に前記録音データのレベルを判別し、前記録音データのレベルが基準レベルと異なる場合、該基準レベルに基づいて、前記録音データのレベルを調整した新たな録音データを生成
生成した前記録音データを記憶手段に記憶させる
処理を含む音声処理方法。
【請求項4】
録音機能を備える音声処理装置のコンピュータに実行させる音声処理プログラムであって、
レベルの異なる音声を取り込んで録音データを生成し、
生成された前記録音データのレベルが閾値以下か否かを判別し、閾値以下となった場合、前記録音データを音声のまとまり毎に複数のフレームに分割し、
該フレーム毎に前記録音データのレベルを判別し、前記録音データのレベルが基準レベルと異なる場合、該基準レベルに基づいて、前記録音データのレベルを調整した新たな録音データを生成し、
生成した前記録音データを記憶手段に記憶させる
処理をコンピュータに実行させる音声処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の技術は、録音データに対する音声処理技術に関する。
【背景技術】
【0002】
録音・再生機能を備える音声処理装置は、たとえば録音した音声メッセージを送信する音声メールなどのようにコミュニケーションを図るものや、音声メッセ−ジ、周囲の会話や会議などを録音するボイスメモなどに利用される。音声処理装置の録音・再生機能には、たとえば録音された音声データの音量などのばらつきを解消するために、音声データを調整して再生処理を行うものがある。音声データに生じる音量などのばらつきは、たとえば録音と再生とが異なる機器で行われる場合や、録音を行う周囲の環境などの影響を受ける。
【0003】
このような録音データの調整処理に関し、記憶した音声メッセージのレベル情報を検出して再生処理を行う交換機側にて、レベル情報に応じて音声メッセージのレベルを変換することが知られている(たとえば、特許文献1)。また、音声メールの作成時において、録音時の環境情報を付加し、この環境情報に基づいて雑音除去処理を決定して音声メールの内容を編集することが知られている(たとえば、特許文献2)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平7−297928号公報
【特許文献2】特開2004−236245号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、音声メッセージやボイスメモなどによる音声の録音処理では、たとえば複数人の発言を録音する場合、それぞれの発声による音声レベルや録音する音声処理装置までの距離などの相違により、録音した音声のレベルが大きくばらつく場合がある。また録音音声は、たとえば同一人が発した音声を録音した場合でも、発言者の動作により録音する音声処理装置との距離に変化が生じる場合や、録音環境が変化することで音声のレベルがばらつく場合がある。さらに録音データを複数作成した場合、録音データ毎に集音環境や発言者の状態の相違により、音声のレベルが相違する。
【0006】
録音機能を備える音声処理装置では、たとえば録音音声レベルの大小に応じてマイクロフォンの集音感度(ダイナミックレンジ)を変動させるものがあるが、録音される音声のレベルの変動を抑えることはできない。従って、発せられた音声のレベルに変動があると、音声処理装置は、変動を生じたままの音声を録音することになる。
【0007】
音声のレベルにばらつきがある録音データが再生された場合、利用者は、たとえばレベル変化による音量の変化に応じて音量調整の操作を行うことになる。すなわち、利用者は、たとえばレベルが低い部分の音声が再生された場合、音量が小さくなり、再生された音声が聞き取りづらくなるため音量を増加させることになる。また、音量が大きく設定された状態でレベルが大きい音声が再生されると、スピーカから大音量で出力されるため、利用者は音量を減少させる操作を行うことになる。このように音声処理装置では、録音データを再生する際に常に音量調整操作が必要となり、利用者に操作の煩わしさを感じることになるという課題がある。
【0008】
また、音声処理装置は、たとえば録音環境や録音レベルに応じて再生する録音データのレベルを調整する機能を備えていても、音声のレベルにばらつきが含まれる録音データについて、レベルを一律に調整したのでは音量の変動を解消できないという課題がある。
【0009】
そこで、本開示の技術の目的は、録音した音声について、再生処理時に録音音声のレベルの変動を抑えることにある。
【0010】
また、本開示の技術の他の目的は、録音データの再生処理時に音声処理装置の音量調整操作を生じさせず、音声処理装置の操作性の向上を図ることにある。
【課題を解決するための手段】
【0011】
上記目的を達成するため、本開示の技術の一側面は、録音機能を備える音声処理装置であって、音声入力手段と、音声処理手段と、記憶手段とを備える。音声入力手段は、レベルの異なる音声を取り込んで録音データを生成する。音声処理手段は、前記音声入力手段で生成した前記録音データのレベルが閾値以下か否かを判別し、閾値以下となった場合、前記録音データを音声のまとまり毎に複数のフレームに分割し、該フレーム毎に前記録音データに含まれる音声のレベルを判別し、前記録音データのレベルが基準レベルと異なる場合、該基準レベルに基づいて、前記録音データのレベルを調整した新たな録音データを生成する。記憶手段は、前記音声処理手段で生成した前記録音データを記憶する。

【発明の効果】
【0012】
本開示の技術によれば、次のいずれかの効果が得られる。
【0013】
(1) 録音データの再生時に、スピーカ等から出力される音声の再生音量の変動が抑制され、再生時に聞き取りやすい録音音声を提供することができる。
【0014】
(2) 再生音量の変動が抑制されることで、録音データを再生する音声処理装置の音量調整操作が不要となり、音声再生時の利便性を向上させることができる。
【図面の簡単な説明】
【0015】
図1】第1の実施の形態に係る音声処理装置の一例を示す図である。
図2】音声処理の一例を示すフローチャートである。
図3】録音データのレベル調整の一例を示す図である。
図4】第2の実施の形態に係る音声処理装置の一例を示す図である。
図5】録音データの分割状態の一例を示す図である。
図6】音量レベル設定テーブルの一例を示す図である。
図7】録音データテーブルの一例を示す図である。
図8】音量レベル調整による新たな録音データの生成状態例を示す図である。
図9】録音データの調整処理を示す図である。
図10】音声処理の一例を示すフローチャートである。
図11】ファイル作成処理の一例を示すフローチャートである。
図12】ファイルレベル変換処理の一例を示すフローチャートである。
図13】録音データ変換処理の一例を示すフローチャートである。
図14】第3の実施の形態に係る音声処理の状態例を示す図である。
図15】録音データの調整処理を示す図である。
図16】音声処理の他の例を示す図である。
図17】録音データの調整処理の他の例を示す図である。
図18】他の実施の形態に係る音声処理状態例を示す図である。
図19】音声処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0016】
〔第1の実施の形態〕
【0017】
図1は、第1の実施の形態に係る音声処理装置の一例を示している。この音声処理装置2は、本開示の音声処理装置の一例である。
【0018】
音声処理装置2は、会話などの人が発声した言葉や周囲の音などを含む音声を録音するとともに、録音した音声の編集処理を行う装置である。この音声処理装置2には、音声入力手段4、マイクロフォン6、音声処理手段8、記憶手段10が備えられている。
【0019】
音声入力手段4は、マイクロフォン6を利用して集音した外部音声を取り込み、録音データを生成する録音機能の一例である。また、音声入力手段4は、たとえばマイクロフォン6のダイナミックレンジ(集音能力)の制御機能を備えてもよい。
【0020】
マイクロフォン6は、たとえば一人が発したレベルの異なる音声や、音声のレベルが異なる複数人の声を含む音声を集音する。この音声のレベルは、たとえば音圧や音量の大きさであり、マイクロフォン6で取り込んだ音声信号の大きさを示している。マイクロフォン6は、音声処理装置2に内蔵されたものや、発言者に向けて持ち運び可能なもののいずれでもよく、または単一または、複数本を切替えて利用するものであってもよい。
【0021】
音声処理手段8は、取り込んだ録音データを所定の音声のまとまり毎にフレーム分割するとともに、分割された各録音データファイルの音量レベルを調整して、新たな録音データファイルを生成する。録音データの分割では、音声のまとまりとしてたとえば、発言する者を基準に録音データを切り分けるほか、一連の発言毎に録音データを切り分けてもよい。そして、レベル調整では、フレーム分割された各録音データファイル間で音量レベルのばらつきを無くすように、音量レベルが調整され、新たな録音データが生成される。その他音声処理手段8では、たとえば音声処理装置2の全体動作制御などを行ってもよい。
【0022】
記憶手段10は、音声処理手段8で生成されたフレーム毎の新たな録音データを格納する手段の一例であり、たとえば音声処理装置2に内蔵されたメモリのほか、挿抜可能なカード型のICメモリ、半導体メモリ、磁気ディスクなどが含まれる。そのほか記憶手段10には、カセットテープやDAT(Digital Audio Tape)などの磁気テープを利用してもよい。そして記憶手段10は、新たに生成された録音データを格納するとともに、音声処理装置2に対し、録音したデータの再生の要求に応じて録音データファイルの読み出しなどが行われる。
【0023】
音声処理装置2では、音声入力手段4が取り込んだ録音データについて、音声処理手段8がフレーム毎に音声のレベルのばらつきを抑え、同等なレベルに調整する。
【0024】
<音声制御処理について>
【0025】
図2は、音声処理の一例を示している。図2に示す処理手順、処理内容は一例であり、本発明がかかる構成に限定されない。
【0026】
音声処理は、本開示の音声処理方法または音声処理プログムの一例であり、音声の録音処理、録音データの分析および分解処理、録音データのレベル変換処理、新たな録音データの生成が含まれる。
【0027】
音声の録音処理では、たとえば音声処理が開始されると、録音したデータを記憶手段10に形成された音声バッファに格納し、録音データファイルを生成する(S1)。次に、録音処理と並行に、または録音処理が完了した後に、録音データを音声のまとまり毎のフレームに分割する(S2)。このフレーム分割では、たとえば音声データの無音区間を基準に一連の発言や発言者が変わったタイミングと判断して録音データファイルを分割する。
【0028】
分割されたフレーム毎に録音データファイルの音声のレベルを判別する(S3)。判別したデータは、たとえば記憶手段10に格納され、テーブル化される。このテーブルは、たとえば図3に示すように録音データテーブル12Aとして、各フレーム12−1、12−2、12−3・・・で区分けされている。各フレーム12−1、12−2、12−3・・・には、たとえば検出した音声のレベルとともに音声データが格納される。
【0029】
録音データのレベルが判別されると、この音声のレベルが予め設定されまたは所定のタイミングで設定される基準レベルと一致するか否かを判断する(S4)。この判別処理では、録音された音声と基準レベルとの差分を算出する。そして、録音データの調整処理として、算出したレベルの差分が無い場合(S4のYES)は、音声のレベルを維持させる(S5)。
【0030】
またレベルに差分が有る場合(S4のNO)、音声のレベルを基準レベルと同等にするようにレベルを更新させる(S6)。レベルの更新では、音声処理手段8により図3に示すように、記憶手段10の録音データテーブル12Bのレベルを変更させる。音声処理手段8は、テーブル12Aのレベルを基準レベルと同じ、または一定の範囲内になるようにテーブル12Bを書き換え、レベルが調整された新たな録音データを生成する(S7)。
【0031】
斯かる構成によれば、録音データの再生時に、スピーカ等から出力される音声の再生音量の変動が抑制され、再生時に聞き取りやすい録音音声を提供することができる。再生音量の変動が抑制されることで、録音データを再生する音声処理装置の音量調整操作が不要となり、音声再生時の利便性を向上させることができる。
【0032】
〔第2の実施の形態〕
【0033】
図4は、第2の実施の形態に係る音声処理装置の一例を示している。図4に示す構成は一例であり、本開示の技術がかかる構成に限定されるものではない。
【0034】
音声処理装置20は、マイクロフォン6によって集音された音声の録音機能とともに、その録音データの調整処理機能を備えている。この音声処理装置20は、たとえば録音装置のほか、録音機能および録音プログラムまたは録音データに対する音声処理プログラムを実行可能なPC(Personal Computer)、携帯情報処理装置などが含まれる。
【0035】
音声処理装置20は、たとえばプロセッサ22、記憶部24、音声入出力部30、音量レベル測定部34、音声増幅回路36、タイマ37が形成されている。また、音声処理装置20には、操作部38、表示部40、通信部42などを備えている。
【0036】
記憶部24は、たとえば音声処理装置20を動作させるプログラムや録音データなどを記憶するROM(Read Only Memory)26やプログラムの実行領域として機能するRAM(Random Access Memory)28で形成される。
【0037】
ROM26は、不揮発性メモリであって、音声処理装置20のOS(Operating System)や音声処理を行うためのアプリケーションプログラムなどのプログラムを記憶するほか、録音データファイルや録音データテーブル70(図7)などが記憶される。ROM26は、たとえばHDD(Hard Disk Drive)などの磁気ディスクやフラッシュメモリやSSD(Solid State Drive)などの半導体メモリで形成されればよい。
【0038】
RAM28は、音声処理を実行するためのワークエリアとして音声バッファを形成し、また音声処理プログラムを展開する。プロセッサ22は、プログラムを実行する演算処理手段であり、RAM28に展開されたプログラムにより音声処理を実行する。
【0039】
音声入出力部30は、本開示の音声入出力手段の一例であり、マイクロフォン6からの入力音声の録音処理や録音データの解析、分割処理などを実行するほか、スピーカ32により、録音データファイルの再生処理を行う。
【0040】
音量レベル測定部34は、音声処理手段の一部であって、音声入出力部30で取り込んだ録音データについて、音量レベルを解析する。
【0041】
音声増幅回路36は、フレーム毎に設定された音量レベルになるように録音データを調整する本開示の音声処理手段の一部を形成する回路の一例であり、たとえばアンプ(Amplifier)で形成される。音声増幅回路36は、生成された録音データテーブル70の指示情報に基づいて、対応するフレームに対して音量レベルを増減させる。
【0042】
通信部42は、通信アンテナ44を利用して外部の通信機器とデータの送受信を行う手段の一例である。音声処理装置20は、たとえば音声データファイルを添付した音声メールなど、音声処理を行った録音データや録音データテーブル70を、通信部42を介して外部の通信機器に送信してもよい。また音声処理装置20は、たとえば外部の通信機器から録音データファイルを受信してもよい。
【0043】
<取り込んだ録音データについて>
【0044】
図5は、録音データの分割状態の一例を示している。マイクロフォン6によって取り込んだ録音データは、たとえば図5に示すように、周囲で人が音声を発した時には大きな音量レベルを示し、無音または遠距離や小さな声で発した音声に対して小さな音量レベルを示している。また録音データには、たとえば時間経過に従って大きな音量レベルが続いた後、小さな音量レベルが続く状態となり音声のまとまりが生じている。このような音声のまとまりは、たとえば人が一連の言葉の固まり(会話)を発した状態や、発声した人が切り替わった状態を示している。
【0045】
このような音量レベルがばらついた録音データをそのまま再生処理すると、音量レベルの大きなときには、大きな音声で再生され、音量レベルが小さい場合は、小さな音声となる。音声処理装置20では、録音データに含まれる音声のまとまり毎にフレーム分割し、分割された録音データファイル間での音声レベルを解析する。録音データのフレーム分割では、たとえば音量レベルの変動に基づいて分割しており、音声が発せられた固まりのほか、無音や一定レベル以下の音声の固まりも分割する。
【0046】
また音声処理装置20は、各録音データファイルについて、音量レベル測定部34により音量レベルが解析される。音声は、1つの録音データファイル内でも音量レベルが変動する。音声処理装置20では、音量レベル測定部34で生成された録音データファイル内の音量レベルの最高値または平均値に基づいて音量レベルを設定する。
【0047】
音量レベルは、たとえば図6に示すように、記憶部24に格納された音量レベル設定テーブル50を利用して設定される。この音量レベル設定テーブル50は、たとえば音量レベルの検出値に対し、所定の閾値が設定されている。音量レベルの閾値は、たとえば録音データに含まれる音圧などの範囲について均等に分けられるほか、録音データの再生時に人が音量を調整する傾向にある音圧の範囲について細分化して設定してもよい。
【0048】
音声処理装置20では、取り込んだ録音データについてたとえば図7に示すようにフレーム毎に音量レベル情報と音声データとを関連付けた録音データテーブル70を作成し、ROM26に格納している。録音データテーブル70は、録音データを解析した情報であるとともに、この録音データの再生処理を実行するときの指示情報となる。
【0049】
録音データテーブル70には、たとえばフレーム毎に、記録トラックAとして設定音量レベル情報を格納し、記録トラックBとして発声音声を含む音声データが格納される。録音データテーブル70は、録音した時系列に従ってフレームを配列している。
【0050】
<音声処理について>
【0051】
図8は、音量レベルの調整による新たな録音データの生成状態を示している。
【0052】
音声処理装置20は、たとえば図8のAに示すように、出力音量レベルとしてたとえば音量レベル居3が予め設定され、または音声処理の実行操作を行う利用者によって設定されると、この設定を制御情報として記憶する。変換前の録音データは、図8のBに示すように、たとえば言葉の固まり毎に音量レベルに大小のばらつきが生じている。
【0053】
録音データには、設定された音量レベル3に対し、発声部分X1a、X3aは大きな音量で録音され、発声部分X2aが小さな音量で録音されている。この録音データは、たとえば図9のAに示すように、録音データテーブル70に、言葉のかたまりで分割されたフレーム1、3、5の音量レベル情報72、74、76として音量レベル4、音量レベル1、音量レベル4がそれぞれ特定されている。
【0054】
音声増幅回路36では、図8のCに示すように、録音データのうち、設定された音量レベル3よりも大きな音で録音された発声部分X1a、X3aについて音量を低減させ、発声部分X1b、X3bに変換する。また、音声増幅回路36は、音量レベル3よりも小さい音量の発声部分X2aについて、音量を音量レベル3に基づいて増幅させ、発声部分X2bに変換する。そして、音声増幅回路36は、音量レベルを変化させた新たな録音データを生成する。また、音声処理では、無音区間として特定されたフレームについては音量の増減処理を行わない。
【0055】
この音声処理では、たとえば図9のBに示すように、録音データテーブル70について、音量レベル情報72、74、76として音量レベル3が設定され、この設定情報に基づいて音量を増減した新たな録音データが生成される。
【0056】
<音声処理の具体例について>
【0057】
図10図13は、音声処理の一例を示すフローチャートである。図10図13に示す処理手順、処理内容は一例である。
【0058】
この音声処理は、本開示の音声処理方法または音声処理プログムの一例である。音声処理装置20は、音声入力の開始判断として、たとえば操作部38の押下や表示部40に設定されたタッチパネルの操作により録音機能が開始されたか否かを判断する(S11)。取り込んだ録音データは、たとえば音声入出力部30や記憶部24に形成された音声バッファに記録される(S12)。音声バッファでは、たとえば録音データについて、時間経過情報に関連付けて音量レベルの波形検出を行ってもよい。
【0059】
音声処理装置20は、フレーム分割処理として、たとえば音量レベル測定部34により音量レベルを測定し(S13)、発声部分と無音部分とを判別する。音声処理では、たとえば発声のかたまりの区切り部分を抽出するため、無音または閾値未満の音量レベルが所定時間として、3秒以上続いたか否かを判断する(S14)。音声処理装置20では、無音が所定時間継続していない場合(S14のNO)、音量レベルの変化が一連の言葉の途中の抑揚であり、同一の人が続けて発声して会話が継続していると判断し、録音状態のまま、音量レベル監視を継続する。
【0060】
音声処理装置20は、音量レベルが無音または閾値未満の状態が所定時間継続した場合(S14のYES)、録音した音声についてフレーム分割したファイルを作成する(S15)とともに、無音部分について音量レベル「0」のファイルを追加する(S16)。フレーム分割では、たとえば音量レベルが閾値未満となったタイミング、すなわち所定時間の計時を開始したタイミングで録音データを分割すればよい。また音声処理装置20は、フレーム分割した時点から次の音声入力を検出するまで音量レベル「0」の録音データを作成する。
【0061】
音声処理装置20は、音声入力が終了したか否かを判別し(S17)、たとえば利用者による録音機能停止操作があった場合には、音声入力の終了とし(S17のYES)、記憶した音声ファイルのレベル変換処理に移行する(S18)。音声入力が終了していない場合(S17のNO)、再び音声が検出されると、続けて録音処理と無音または閾値未満の音量レベルの検出を行う。
【0062】
なお、音声ファイルのレベル変換処理は、録音処理の終了後に実行される場合に限られない。音声処理装置20は、録音処理と同時に、音声バッファに蓄積された録音データをフレーム毎に音声ファイルのレベルを変換させてもよい。
【0063】
<ファイル作成処理について>
【0064】
S15のファイル作成処理では、たとえば図11に示すように、フレーム分割した録音データファイルについて、音声データに関連付けた音量レベルを示す録音データテーブル70を作成する。録音データテーブル70は、録音データの再生処理を行う際の設定音量情報であり、無音や閾値未満の音声を含ませないように、フレーム分割処理後に作成される。
【0065】
音声処理装置20は、たとえば音量レベル設定テーブル50を読み出し、記憶した録音データの波形情報と音量レベルの閾値とを比較し、音量レベルの設定値を設定する(S21)。設定された音量レベルは、音声データと関連付けて録音データテーブル70に設定する(S22、S23)。作成された録音データテーブル70(録音データファイル)は、記憶部24に格納される(S24)。
【0066】
<ファイルレベルの変換処理について>
【0067】
ファイルレベル変換処理では、作成された録音データファイルについて、音声レベルを所定の設定値に設定させる。音声処理装置20では、例えば図12に示すように、録音データ全体のタイムフレームに従った順序で、作成した録音データファイル毎に音量レベルを読み込む(S31)。また音声処理装置20は、タイムフレームに従って音声データを読込み(S32)、録音データの変換をさせ(S33)、変換した音量レベルと音声データとを関連付けた新たな録音データを作成する。録音データの変換処理では、音声データの音量を増幅や減衰させるとともに、録音データテーブル70に格納される音量レベルの設定値も変換する。
【0068】
ファイルのレベル変換処理は、タイムフレーム毎に処理し、全てのフレームの変換処理が完了するまで実行される(S34)。全てのフレームが変換されると(S34のYES)、音声処理装置20は、タイムフレームに従って変換後の録音データファイルを記憶部24に格納する(S35)。
【0069】
<録音データの変換処理について>
【0070】
録音データの変換処理では、たとえば図13に示すように、音声処理装置20は、設定された出力音量レベルを取得すると(S41)、録音データファイルをフレーム毎に、録音データファイルの音量レベルが「0」か否かを判別する(S42)。この判断では、完全な無音(音量レベル「0」)の場合のほか、無音と判断する閾値未満か否かを判断してもよい。
【0071】
録音データの音量レベルが「0」でない、または閾値以上の場合(S42のNO)、録音データファイルの音量レベルが出力音量レベルよりも小さいか否かを判断する(S43)。または録音データの音量レベルが「0」または、閾値未満の場合(S42のYES)、録音データファイルの音量レベル(「0」)と無音の音声データを出力ファイルに複写する(S44)。出力ファイルは、たとえば記憶部24内に形成される新たな録音データテーブル70を示す。
【0072】
録音データファイルの音量レベルが出力音量レベルよりも小さい場合(S43のYES)、録音データファイルの音量レベルを出力音量レベルになるように増幅させる(S45)。または録音データファイルの音量レベルが出力音量レベルよりも大きい場合(S43のNO)、録音データファイルの音量レベルを出力音量レベルになるように減衰させる(S46)。録音データファイルの変換処理では、録音データを音量レベルと設定された出力音量レベルとの差分を算出し、この差分に基づいて音量レベルの増幅または減衰させればよい。録音データファイルの増幅または減衰処理は、たとえば音声増幅回路36によって実行される。
【0073】
そして、音声処理装置20では、増幅または減衰させた録音データファイルについて、出力ファイルのフレーム音量レベルを保存し(S47)、出力ファイルの音量レベルを録音データテーブル70に設定する(S48)。
【0074】
斯かる構成によれば、録音データの再生時に、スピーカ等から出力される音声の再生音量の変動が抑制され、再生時に聞き取りやすい録音音声を提供することができる。再生音量の変動が抑制されることで、録音データを再生する音声処理装置の音量調整操作が不要となり、音声再生時の利便性を向上させることができる。また、無音区間の監視により、音声データが含まれる部分のみの音量レベルを変換させることで、再生時に雑音などが増幅されず、聞取り易い音声データを生成できる。
【0075】
〔第3の実施の形態〕
【0076】
図14は、第3の実施の形態に係る音声処理の状態例を示している。音声処理装置20は、たとえば図14のAに示すように、音量レベルの設定値として、出力音量レベルが設定されている。変換前の録音データは、図14のBに示すように、たとえば言葉の固まり毎に音量レベルに大小のばらつきが生じている。
【0077】
録音データは、設定された出力音量レベルに対し、発声部分X2aの部分が小さな音量で録音されている。この実施の形態では、録音データの音量レベルについて、出力音量レベルよりも小さい部分の増幅のみを行う場合を示している。
【0078】
そこで、音声増幅回路36では、図14のCに示すように、録音データうち、出力音量レベルよりも小さい音量の発声部分X2bについて、音量を設定された出力音量レベルに基づいて増幅させ、発声部分X2bに変換する。また音声処理装置20は、図15のAに示すように、変換前の録音データファイルについて録音データテーブル70の発生部分X2aに対応するフレーム3について、音量レベル情報80Aが設定されている。そして音声処理装置20は、発生部分X2aの音量レベルが変換されると、図15のBに示すように、音量レベル情報80Bに出力音量レベルを設定する。
【0079】
<音声処理の他の例について>
【0080】
録音データは、たとえば図16のBに示すように、設定された出力音量レベルに対し、発声部分X1a、X3aの部分が大きな音量で録音されている。このような録音データに対し、音声処理装置20は、たとえば録音データファイルについて、設定された出力音量レベルを基準とし、この出力音量レベルよりも大きな音量レベルのフレームについて音量レベルを減衰させる。
【0081】
そこで、音声増幅回路36では、図16のCに示すように、録音データうち、出力音量レベルよりも大きい音量の発声部分X1a、X3aについて、出力音量レベルに基づいて減衰させ、発声部分X1b、X3bに変換する。また音声処理装置20は、図17のAに示すように、変換前の録音データファイルについて録音データテーブル70の発生部分X1aに対応するフレーム1、および発声部分X3aに対応するフレーム5について、音量レベル情報82A、84Aが設定されている。そして音声処理装置20は、発生部分X1a、X3aの音量レベルが変換されると、図17のBに示すように、音量レベル情報82B、84Bに出力音量レベルを設定する。
【0082】
なお、録音データに対する音声処理については、音声処理装置20の利用者が任意で増幅または減衰を選択してもよく、または予め設定してもよい。そのほか、音声処理装置20は、たとえば音声処理の選択について、発声部分X1a、X2a、X3a・・・の音量のばらつきに対し、出力音量レベルに近い方のフレームを基準にして、増副処理または減衰処理を設定させてもよい。
【0083】
斯かる構成によれば、録音データの再生処理において、フレーム間の音量のばらつき量が軽減でき、利用者による音量の調整作業の煩わしさを解消できる。また、音声処理を行うことで、再生処理時に音量のばらつきを抑えられるので、フレーム間において利用者が音声の内容の把握をし易くさせることができる。
【0084】
〔他の実施の形態〕
【0085】
以上説明した実施の形態について、変形例を以下に列挙する。
【0086】
(1) 上記実施の形態では、音声処理装置2がマイクロフォン6で取り込んだ録音データについて音声処理を行う場合を示したが、これに限られない。音声処理装置2は、外部の通信機器から録音データを受信し、この録音データに含まれる音声についてフレーム分割し、このフレーム毎に音量レベルを調整してもよい。
【0087】
(2) 上記実施の形態では、音声処理装置2が録音した、または外部から受信した1つの録音データに含まれる音声についてフレーム分割して音量レベルを調整する場合を示したがこれに限られない。音声処理装置2は、複数の録音データ間で音量レベルのばらつきを解析し、音量レベルの調整処理を行ってもよい。これにより録音機器により予め分割された録音データや複数の録音データが添付された音声メールについて、これらの録音データを連続して再生する場合、録音データ毎に再生音量がばらつくのを防止できる。
【0088】
(3) 上記実施の形態では、音声処理装置20は、音声の録音処理を行いながら閾値未満の音量である無音状態を監視し、無音状態が一定時間継続したときにフレーム分けする場合を示したがこれに限られない。音声処理装置20は、たとえば一定時間毎にフレーム分割して録音データファイルを作成し、フレーム毎に音量レベルを監視して、音量レベルを増幅または減衰させる音声処理を行ってもよい。
【0089】
音声処理装置20は、図18のAに示すように、時間経過に従って音量レベルにばらつきがある録音データを記憶する。音声処理装置20は、録音データについて、設定時間tとして、たとえば3〔秒〕毎にフレームカットして録音データファイルを作成するとともに、図18のBに示すように、その録音データファイルの情報を管理する録音データテーブル90を作成する。録音データファイルでは、たとえば最初の発声部分に含まれる音声データ1が音声データ1a、1bとしてフレーム1、フレーム2に録音される。つまり、音声データ1は、たとえば少なくとも2つのフレームに跨って録音されているので、4秒以上の長さを有する。次に、録音データファイルは、たとえばフレーム3として無音区間が記録されている。
【0090】
このように音声処理装置20は、無音区間に関わらず、録音処理の開始からタイマ37の計時に基づいて録音データファイルを作成してもよい。そして音声処理装置20は、作成された録音データファイルについて、音量レベルを把握するとともに、音量レベルの増幅処理または減衰処理を行ってもよい。
【0091】
音声処理装置20による音声処理では、たとえば図19に示すように、音声入力が開始されたことを契機に(S51のYES)、タイマ37による計時を開始する(S52)。音声処理装置20は、マイクロフォン6から入力される録音データを音声バッファに記録し(S53)、フレーム分割の設定時間tが経過したか否かを監視する(S54)。設定時間tが経過した場合(S54のYES)、録音データをフレームカットし(S55)、録音データファイルの作成処理に移行する(S56)。録音データファイルの作成の後、録音データについて、各録音データファイルについて、ファイルレベルの変換処理として出力音量レベルへの変換処理が行われる(S57)。ファイル作成処理(S56)およびファイルレベル変換処理(S57)は、既述のS15およびS18(図10)と同様の処理が行われればよく、その説明を割愛する。
【0092】
なお、音声処理装置20は、作成された録音データファイルについて、録音処理と同時にファイル作成処理およびファイルレベル変換処理を行ってもよい。また作成された録音データファイルは、たとえば音声データを含む連続した録音データ同士を1つの録音データに結合してもよい。
【0093】
(4) 上記実施の形態では、録音データファイルに対する音量レベルの変換処理において、1つの出力音量レベルを基準に音量レベルの増幅または減衰の処理を行ったが、これに限られない。音量レベルの変換処理では、複数の出力音量レベルを設定し、処理を行う録音データファイル毎に、いずれかの出力音量レベルに基づいて変換処理を行ってもよい。
【0094】
出力音量レベルの設定は、たとえば利用者がファイル毎に設定してもよく、または録音処理の時間情報に基づいて設定してもよい。または出力音量レベルは、たとえば別途登録し、または音声の解析などにより発声者の声質などに応じて選択してもよい。
【0095】
斯かる構成によれば、音声処理装置20は、無音区間の到来に関わらず録音データファイルを作成することで、音声バッファを形成するRAMの容量が少ない場合でも、音声処理を実行できる。また録音データについて、分割フレーム毎の長さを一定にすることで、録音時に音声バッファに対する容量の負担を軽減できる。そのほか録音データを所定時間毎に区切ることで、発声時間が長い区間について、細かく音量レベルを解析し、その出力の増幅または減衰をさせることで、音量のばらつきを小さくでき、把握しやすい音量の録音データを作成することができる。
【0096】
次に、以上述べた実施の形態に関し、更に以下の付記を開示する。本開示の技術に係る技術的思想は上位概念から下位概念まで、様々なレベルやバリエーションにより把握できるものであり、以下の付記に本開示の技術が限定されるものではない。
【0097】
(付記1)録音機能を備える音声処理装置であって、
レベルの異なる音声を取り込んで録音データを生成する音声入力手段と、
前記音声入力手段で生成した前記録音データを、音声のまとまり毎に複数のフレームに分割し、該フレーム毎に前記録音データに含まれる音声のレベルを判別し、前記録音データのレベルが基準レベルと異なる場合、該基準レベルに基づいて、前記録音データのレベルを調整した新たな録音データを生成する音声処理手段と、
前記音声処理手段で生成した前記録音データを記憶する記憶手段と、
を備えることを特徴とする音声処理装置。
【0098】
(付記2)前記音声処理手段は、取り込んだ前記録音データのレベルと前記基レベルの差分を判別し、該差分に基づいて前記フレーム毎にレベルを増減させることを特徴とする付記1に記載の音声処理装置。
【0099】
(付記3)前記音声処理手段は、前記録音データの音量レベルを監視し、前記基準レベルに基づいて前記録音データの音量レベルを調整することを特徴とする付記1または付記2に記載の音声処理装置。
【0100】
(付記4)前記音声処理手段は、前記録音データのレベルが閾値以下か否かを判別し、閾値以下となった場合、前記録音データを分割してフレーム分けすることを特徴とする付記1ないし付記3のいずれか1つに記載の音声処理装置。
【0101】
(付記5)さらに、録音時間を計時するタイマを備え、
前記音声処理手段は、前記録音データのレベルが前記閾値以下の状態が所定時間以上経過した場合、前記録音データを分割して低レベルフレームを作成し、該低レベルフレーム以外のフレームについてレベルの調整を行うことを特徴とする付記4に記載の音声処理装置。
【0102】
(付記6)録音機能を備える音声処理装置の音声処理方法であって、
レベルの異なる音声を取り込んで録音データを生成し、
生成された前記録音データを、音声のまとまり毎に複数のフレームに分割し、
該フレーム毎に前記録音データのレベルを判別し、前記録音データのレベルが基準レベルと異なる場合、該基準レベルに基づいて、前記録音データのレベルを調整した新たな録音データを生成する、
処理を含む音声処理方法。
【0103】
(付記7)録音機能を備える音声処理装置のコンピュータに実行させる音声処理プログラムであって、
レベルの異なる音声を取り込んで録音データを生成し、
生成された前記録音データを、音声のまとまり毎に複数のフレームに分割し、
該フレーム毎に前記録音データのレベルを判別し、前記録音データのレベルが基準レベルと異なる場合、該基準レベルに基づいて、前記録音データのレベルを調整した新たな録音データを生成する、
処理をコンピュータに実行させる音声処理プログラム。
【0104】
以上、本開示の構成の好ましい実施形態等について説明した。しかし、本開示の技術は上記実施の形態の記載に限定されるものではない。特許請求の範囲に記載され、または明細書に開示された技術の要旨に基づき、当業者において様々な変形や変更が可能であることは勿論である。そして斯かる変形や変更が本開示の技術に含まれることは言うまでもない。
【符号の説明】
【0105】
2、20 音声処理装置
4 音声入力手段
6 マイクロフォン
8 音声処理手段
10 記憶手段
12A、12B 録音データテーブル
12−1、12−2、・・・ フレーム
22 プロセッサ
24 記憶部
26 ROM
28 RAM
30 音声入出力部
32 スピーカ
34 音量レベル測定部
36 音声増幅回路
37 タイマ
50 音量レベル設定テーブル
70、90 録音データテーブル
72、74、76、80A、80B、82A、82B、84A、84B 音量レベル情報

図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19