特許6409163 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通コネクテッドテクノロジーズ株式会社の特許一覧

特許6409163音声処理装置、音声処理プログラムおよび音声処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6409163

(24)【登録日】2018年10月5日

(45)【発行日】2018年10月24日

(54)【発明の名称】音声処理装置、音声処理プログラムおよび音声処理方法

(51)【国際特許分類】

G10L 21/034 20130101AFI20181015BHJP

G10L 21/0364 20130101ALI20181015BHJP

【ＦＩ】

G10L21/034

G10L21/0364

【請求項の数】4

【全頁数】20

(21)【出願番号】特願2014-87996(P2014-87996)

(22)【出願日】2014年4月22日

(65)【公開番号】特開2015-206928(P2015-206928A)

(43)【公開日】2015年11月19日

【審査請求日】2017年1月10日

(73)【特許権者】

【識別番号】318012780

【氏名又は名称】富士通コネクテッドテクノロジーズ株式会社

(74)【代理人】

【識別番号】100113608

【弁理士】

【氏名又は名称】平川明

(74)【代理人】

【識別番号】100105407

【弁理士】

【氏名又は名称】高田大輔

(74)【代理人】

【識別番号】100175190

【弁理士】

【氏名又は名称】大竹裕明

(72)【発明者】

【氏名】藤沢信利

(72)【発明者】

【氏名】赤間勝明

【審査官】菊池智紀

(56)【参考文献】

【文献】特開２０００−１８１４７７（ＪＰ，Ａ）

【文献】特開２００７−１９９３３７（ＪＰ，Ａ）

【文献】特開２００８−５０４１（ＪＰ，Ａ）

【文献】特開２００３−３７６５０（ＪＰ，Ａ）

【文献】特開２００９−１２２２０４（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ２１／０３１６−２１／０３６４，

１９／００−１９／２６，１５／２０

Ｇ１１Ｂ２０／１０

(57)【特許請求の範囲】

【請求項1】

録音機能を備える音声処理装置であって、
レベルの異なる音声を取り込んで録音データを生成する音声入力手段と、
前記音声入力手段で生成した前記録音データのレベルが閾値以下か否かを判別し、閾値以下となった場合、前記録音データを音声のまとまり毎に複数のフレームに分割し、該フレーム毎に前記録音データに含まれる音声のレベルを判別し、前記録音データのレベルが基準レベルと異なる場合、該基準レベルに基づいて、前記録音データのレベルを調整した新たな録音データを生成する音声処理手段と、
前記音声処理手段で生成した前記録音データを記憶する記憶手段と、
を備えることを特徴とする音声処理装置。

【請求項2】

前記音声処理手段は、取り込んだ前記録音データのレベルと前記基準レベルの差分を判別し、該差分に基づいて前記フレーム毎にレベルを増減させることを特徴とする請求項１に記載の音声処理装置。

【請求項3】

録音機能を備える音声処理装置の音声処理方法であって、
レベルの異なる音声を取り込んで録音データを生成し、
生成された前記録音データのレベルが閾値以下か否かを判別し、閾値以下となった場合、前記録音データを音声のまとまり毎に複数のフレームに分割し、
該フレーム毎に前記録音データのレベルを判別し、前記録音データのレベルが基準レベルと異なる場合、該基準レベルに基づいて、前記録音データのレベルを調整した新たな録音データを生成し、
生成した前記録音データを記憶手段に記憶させる
処理を含む音声処理方法。

【請求項4】

録音機能を備える音声処理装置のコンピュータに実行させる音声処理プログラムであって、
レベルの異なる音声を取り込んで録音データを生成し、
生成された前記録音データのレベルが閾値以下か否かを判別し、閾値以下となった場合、前記録音データを音声のまとまり毎に複数のフレームに分割し、
該フレーム毎に前記録音データのレベルを判別し、前記録音データのレベルが基準レベルと異なる場合、該基準レベルに基づいて、前記録音データのレベルを調整した新たな録音データを生成し、
生成した前記録音データを記憶手段に記憶させる
処理をコンピュータに実行させる音声処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示の技術は、録音データに対する音声処理技術に関する。

【背景技術】

【0002】

録音・再生機能を備える音声処理装置は、たとえば録音した音声メッセージを送信する音声メールなどのようにコミュニケーションを図るものや、音声メッセ−ジ、周囲の会話や会議などを録音するボイスメモなどに利用される。音声処理装置の録音・再生機能には、たとえば録音された音声データの音量などのばらつきを解消するために、音声データを調整して再生処理を行うものがある。音声データに生じる音量などのばらつきは、たとえば録音と再生とが異なる機器で行われる場合や、録音を行う周囲の環境などの影響を受ける。

【0003】

このような録音データの調整処理に関し、記憶した音声メッセージのレベル情報を検出して再生処理を行う交換機側にて、レベル情報に応じて音声メッセージのレベルを変換することが知られている（たとえば、特許文献１）。また、音声メールの作成時において、録音時の環境情報を付加し、この環境情報に基づいて雑音除去処理を決定して音声メールの内容を編集することが知られている（たとえば、特許文献２）。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開平７−２９７９２８号公報

【特許文献2】特開２００４−２３６２４５号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

ところで、音声メッセージやボイスメモなどによる音声の録音処理では、たとえば複数人の発言を録音する場合、それぞれの発声による音声レベルや録音する音声処理装置までの距離などの相違により、録音した音声のレベルが大きくばらつく場合がある。また録音音声は、たとえば同一人が発した音声を録音した場合でも、発言者の動作により録音する音声処理装置との距離に変化が生じる場合や、録音環境が変化することで音声のレベルがばらつく場合がある。さらに録音データを複数作成した場合、録音データ毎に集音環境や発言者の状態の相違により、音声のレベルが相違する。

【0006】

録音機能を備える音声処理装置では、たとえば録音音声レベルの大小に応じてマイクロフォンの集音感度（ダイナミックレンジ）を変動させるものがあるが、録音される音声のレベルの変動を抑えることはできない。従って、発せられた音声のレベルに変動があると、音声処理装置は、変動を生じたままの音声を録音することになる。

【0007】

音声のレベルにばらつきがある録音データが再生された場合、利用者は、たとえばレベル変化による音量の変化に応じて音量調整の操作を行うことになる。すなわち、利用者は、たとえばレベルが低い部分の音声が再生された場合、音量が小さくなり、再生された音声が聞き取りづらくなるため音量を増加させることになる。また、音量が大きく設定された状態でレベルが大きい音声が再生されると、スピーカから大音量で出力されるため、利用者は音量を減少させる操作を行うことになる。このように音声処理装置では、録音データを再生する際に常に音量調整操作が必要となり、利用者に操作の煩わしさを感じることになるという課題がある。

【0008】

また、音声処理装置は、たとえば録音環境や録音レベルに応じて再生する録音データのレベルを調整する機能を備えていても、音声のレベルにばらつきが含まれる録音データについて、レベルを一律に調整したのでは音量の変動を解消できないという課題がある。

【0009】

そこで、本開示の技術の目的は、録音した音声について、再生処理時に録音音声のレベルの変動を抑えることにある。

【0010】

また、本開示の技術の他の目的は、録音データの再生処理時に音声処理装置の音量調整操作を生じさせず、音声処理装置の操作性の向上を図ることにある。

【課題を解決するための手段】

【0011】

上記目的を達成するため、本開示の技術の一側面は、録音機能を備える音声処理装置であって、音声入力手段と、音声処理手段と、記憶手段とを備える。音声入力手段は、レベルの異なる音声を取り込んで録音データを生成する。音声処理手段は、前記音声入力手段で生成した前記録音データのレベルが閾値以下か否かを判別し、閾値以下となった場合、前記録音データを音声のまとまり毎に複数のフレームに分割し、該フレーム毎に前記録音データに含まれる音声のレベルを判別し、前記録音データのレベルが基準レベルと異なる場合、該基準レベルに基づいて、前記録音データのレベルを調整した新たな録音データを生成する。記憶手段は、前記音声処理手段で生成した前記録音データを記憶する。

【発明の効果】

【0012】

本開示の技術によれば、次のいずれかの効果が得られる。

【0013】

(1) 録音データの再生時に、スピーカ等から出力される音声の再生音量の変動が抑制され、再生時に聞き取りやすい録音音声を提供することができる。

【0014】

(2) 再生音量の変動が抑制されることで、録音データを再生する音声処理装置の音量調整操作が不要となり、音声再生時の利便性を向上させることができる。

【図面の簡単な説明】

【0015】

【図1】第１の実施の形態に係る音声処理装置の一例を示す図である。

【図2】音声処理の一例を示すフローチャートである。

【図3】録音データのレベル調整の一例を示す図である。

【図4】第２の実施の形態に係る音声処理装置の一例を示す図である。

【図5】録音データの分割状態の一例を示す図である。

【図6】音量レベル設定テーブルの一例を示す図である。

【図7】録音データテーブルの一例を示す図である。

【図8】音量レベル調整による新たな録音データの生成状態例を示す図である。

【図9】録音データの調整処理を示す図である。

【図10】音声処理の一例を示すフローチャートである。

【図11】ファイル作成処理の一例を示すフローチャートである。

【図12】ファイルレベル変換処理の一例を示すフローチャートである。

【図13】録音データ変換処理の一例を示すフローチャートである。

【図14】第３の実施の形態に係る音声処理の状態例を示す図である。

【図15】録音データの調整処理を示す図である。

【図16】音声処理の他の例を示す図である。

【図17】録音データの調整処理の他の例を示す図である。

【図18】他の実施の形態に係る音声処理状態例を示す図である。

【図19】音声処理の一例を示すフローチャートである。

【発明を実施するための形態】

【0016】

〔第１の実施の形態〕

【0017】

図１は、第１の実施の形態に係る音声処理装置の一例を示している。この音声処理装置２は、本開示の音声処理装置の一例である。

【0018】

音声処理装置２は、会話などの人が発声した言葉や周囲の音などを含む音声を録音するとともに、録音した音声の編集処理を行う装置である。この音声処理装置２には、音声入力手段４、マイクロフォン６、音声処理手段８、記憶手段１０が備えられている。

【0019】

音声入力手段４は、マイクロフォン６を利用して集音した外部音声を取り込み、録音データを生成する録音機能の一例である。また、音声入力手段４は、たとえばマイクロフォン６のダイナミックレンジ（集音能力）の制御機能を備えてもよい。

【0020】

マイクロフォン６は、たとえば一人が発したレベルの異なる音声や、音声のレベルが異なる複数人の声を含む音声を集音する。この音声のレベルは、たとえば音圧や音量の大きさであり、マイクロフォン６で取り込んだ音声信号の大きさを示している。マイクロフォン６は、音声処理装置２に内蔵されたものや、発言者に向けて持ち運び可能なもののいずれでもよく、または単一または、複数本を切替えて利用するものであってもよい。

【0021】

音声処理手段８は、取り込んだ録音データを所定の音声のまとまり毎にフレーム分割するとともに、分割された各録音データファイルの音量レベルを調整して、新たな録音データファイルを生成する。録音データの分割では、音声のまとまりとしてたとえば、発言する者を基準に録音データを切り分けるほか、一連の発言毎に録音データを切り分けてもよい。そして、レベル調整では、フレーム分割された各録音データファイル間で音量レベルのばらつきを無くすように、音量レベルが調整され、新たな録音データが生成される。その他音声処理手段８では、たとえば音声処理装置２の全体動作制御などを行ってもよい。

【0022】

記憶手段１０は、音声処理手段８で生成されたフレーム毎の新たな録音データを格納する手段の一例であり、たとえば音声処理装置２に内蔵されたメモリのほか、挿抜可能なカード型のＩＣメモリ、半導体メモリ、磁気ディスクなどが含まれる。そのほか記憶手段１０には、カセットテープやＤＡＴ（Digital Audio Tape）などの磁気テープを利用してもよい。そして記憶手段１０は、新たに生成された録音データを格納するとともに、音声処理装置２に対し、録音したデータの再生の要求に応じて録音データファイルの読み出しなどが行われる。

【0023】

音声処理装置２では、音声入力手段４が取り込んだ録音データについて、音声処理手段８がフレーム毎に音声のレベルのばらつきを抑え、同等なレベルに調整する。

【0024】

＜音声制御処理について＞

【0025】

図２は、音声処理の一例を示している。図２に示す処理手順、処理内容は一例であり、本発明がかかる構成に限定されない。

【0026】

音声処理は、本開示の音声処理方法または音声処理プログムの一例であり、音声の録音処理、録音データの分析および分解処理、録音データのレベル変換処理、新たな録音データの生成が含まれる。

【0027】

音声の録音処理では、たとえば音声処理が開始されると、録音したデータを記憶手段１０に形成された音声バッファに格納し、録音データファイルを生成する（Ｓ１）。次に、録音処理と並行に、または録音処理が完了した後に、録音データを音声のまとまり毎のフレームに分割する（Ｓ２）。このフレーム分割では、たとえば音声データの無音区間を基準に一連の発言や発言者が変わったタイミングと判断して録音データファイルを分割する。

【0028】

分割されたフレーム毎に録音データファイルの音声のレベルを判別する（Ｓ３）。判別したデータは、たとえば記憶手段１０に格納され、テーブル化される。このテーブルは、たとえば図３に示すように録音データテーブル１２Ａとして、各フレーム１２−１、１２−２、１２−３・・・で区分けされている。各フレーム１２−１、１２−２、１２−３・・・には、たとえば検出した音声のレベルとともに音声データが格納される。

【0029】

録音データのレベルが判別されると、この音声のレベルが予め設定されまたは所定のタイミングで設定される基準レベルと一致するか否かを判断する（Ｓ４）。この判別処理では、録音された音声と基準レベルとの差分を算出する。そして、録音データの調整処理として、算出したレベルの差分が無い場合（Ｓ４のＹＥＳ）は、音声のレベルを維持させる（Ｓ５）。

【0030】

またレベルに差分が有る場合（Ｓ４のＮＯ）、音声のレベルを基準レベルと同等にするようにレベルを更新させる（Ｓ６）。レベルの更新では、音声処理手段８により図３に示すように、記憶手段１０の録音データテーブル１２Ｂのレベルを変更させる。音声処理手段８は、テーブル１２Ａのレベルを基準レベルと同じ、または一定の範囲内になるようにテーブル１２Ｂを書き換え、レベルが調整された新たな録音データを生成する（Ｓ７）。

【0031】

斯かる構成によれば、録音データの再生時に、スピーカ等から出力される音声の再生音量の変動が抑制され、再生時に聞き取りやすい録音音声を提供することができる。再生音量の変動が抑制されることで、録音データを再生する音声処理装置の音量調整操作が不要となり、音声再生時の利便性を向上させることができる。

【0032】

〔第２の実施の形態〕

【0033】

図４は、第２の実施の形態に係る音声処理装置の一例を示している。図４に示す構成は一例であり、本開示の技術がかかる構成に限定されるものではない。

【0034】

音声処理装置２０は、マイクロフォン６によって集音された音声の録音機能とともに、その録音データの調整処理機能を備えている。この音声処理装置２０は、たとえば録音装置のほか、録音機能および録音プログラムまたは録音データに対する音声処理プログラムを実行可能なＰＣ（Personal Computer）、携帯情報処理装置などが含まれる。

【0035】

音声処理装置２０は、たとえばプロセッサ２２、記憶部２４、音声入出力部３０、音量レベル測定部３４、音声増幅回路３６、タイマ３７が形成されている。また、音声処理装置２０には、操作部３８、表示部４０、通信部４２などを備えている。

【0036】

記憶部２４は、たとえば音声処理装置２０を動作させるプログラムや録音データなどを記憶するＲＯＭ（Read Only Memory）２６やプログラムの実行領域として機能するＲＡＭ（Random Access Memory）２８で形成される。

【0037】

ＲＯＭ２６は、不揮発性メモリであって、音声処理装置２０のＯＳ（Operating System）や音声処理を行うためのアプリケーションプログラムなどのプログラムを記憶するほか、録音データファイルや録音データテーブル７０（図７）などが記憶される。ＲＯＭ２６は、たとえばＨＤＤ（Hard Disk Drive）などの磁気ディスクやフラッシュメモリやＳＳＤ(Solid State Drive）などの半導体メモリで形成されればよい。

【0038】

ＲＡＭ２８は、音声処理を実行するためのワークエリアとして音声バッファを形成し、また音声処理プログラムを展開する。プロセッサ２２は、プログラムを実行する演算処理手段であり、ＲＡＭ２８に展開されたプログラムにより音声処理を実行する。

【0039】

音声入出力部３０は、本開示の音声入出力手段の一例であり、マイクロフォン６からの入力音声の録音処理や録音データの解析、分割処理などを実行するほか、スピーカ３２により、録音データファイルの再生処理を行う。

【0040】

音量レベル測定部３４は、音声処理手段の一部であって、音声入出力部３０で取り込んだ録音データについて、音量レベルを解析する。

【0041】

音声増幅回路３６は、フレーム毎に設定された音量レベルになるように録音データを調整する本開示の音声処理手段の一部を形成する回路の一例であり、たとえばアンプ（Amplifier）で形成される。音声増幅回路３６は、生成された録音データテーブル７０の指示情報に基づいて、対応するフレームに対して音量レベルを増減させる。

【0042】

通信部４２は、通信アンテナ４４を利用して外部の通信機器とデータの送受信を行う手段の一例である。音声処理装置２０は、たとえば音声データファイルを添付した音声メールなど、音声処理を行った録音データや録音データテーブル７０を、通信部４２を介して外部の通信機器に送信してもよい。また音声処理装置２０は、たとえば外部の通信機器から録音データファイルを受信してもよい。

【0043】

＜取り込んだ録音データについて＞

【0044】

図５は、録音データの分割状態の一例を示している。マイクロフォン６によって取り込んだ録音データは、たとえば図５に示すように、周囲で人が音声を発した時には大きな音量レベルを示し、無音または遠距離や小さな声で発した音声に対して小さな音量レベルを示している。また録音データには、たとえば時間経過に従って大きな音量レベルが続いた後、小さな音量レベルが続く状態となり音声のまとまりが生じている。このような音声のまとまりは、たとえば人が一連の言葉の固まり（会話）を発した状態や、発声した人が切り替わった状態を示している。

【0045】

このような音量レベルがばらついた録音データをそのまま再生処理すると、音量レベルの大きなときには、大きな音声で再生され、音量レベルが小さい場合は、小さな音声となる。音声処理装置２０では、録音データに含まれる音声のまとまり毎にフレーム分割し、分割された録音データファイル間での音声レベルを解析する。録音データのフレーム分割では、たとえば音量レベルの変動に基づいて分割しており、音声が発せられた固まりのほか、無音や一定レベル以下の音声の固まりも分割する。

【0046】

また音声処理装置２０は、各録音データファイルについて、音量レベル測定部３４により音量レベルが解析される。音声は、１つの録音データファイル内でも音量レベルが変動する。音声処理装置２０では、音量レベル測定部３４で生成された録音データファイル内の音量レベルの最高値または平均値に基づいて音量レベルを設定する。

【0047】

音量レベルは、たとえば図６に示すように、記憶部２４に格納された音量レベル設定テーブル５０を利用して設定される。この音量レベル設定テーブル５０は、たとえば音量レベルの検出値に対し、所定の閾値が設定されている。音量レベルの閾値は、たとえば録音データに含まれる音圧などの範囲について均等に分けられるほか、録音データの再生時に人が音量を調整する傾向にある音圧の範囲について細分化して設定してもよい。

【0048】

音声処理装置２０では、取り込んだ録音データについてたとえば図７に示すようにフレーム毎に音量レベル情報と音声データとを関連付けた録音データテーブル７０を作成し、ＲＯＭ２６に格納している。録音データテーブル７０は、録音データを解析した情報であるとともに、この録音データの再生処理を実行するときの指示情報となる。

【0049】

録音データテーブル７０には、たとえばフレーム毎に、記録トラックＡとして設定音量レベル情報を格納し、記録トラックＢとして発声音声を含む音声データが格納される。録音データテーブル７０は、録音した時系列に従ってフレームを配列している。

【0050】

＜音声処理について＞

【0051】

図８は、音量レベルの調整による新たな録音データの生成状態を示している。

【0052】

音声処理装置２０は、たとえば図８のＡに示すように、出力音量レベルとしてたとえば音量レベル居３が予め設定され、または音声処理の実行操作を行う利用者によって設定されると、この設定を制御情報として記憶する。変換前の録音データは、図８のＢに示すように、たとえば言葉の固まり毎に音量レベルに大小のばらつきが生じている。

【0053】

録音データには、設定された音量レベル３に対し、発声部分Ｘ１ａ、Ｘ３ａは大きな音量で録音され、発声部分Ｘ２ａが小さな音量で録音されている。この録音データは、たとえば図９のＡに示すように、録音データテーブル７０に、言葉のかたまりで分割されたフレーム１、３、５の音量レベル情報７２、７４、７６として音量レベル４、音量レベル１、音量レベル４がそれぞれ特定されている。

【0054】

音声増幅回路３６では、図８のＣに示すように、録音データのうち、設定された音量レベル３よりも大きな音で録音された発声部分Ｘ１ａ、Ｘ３ａについて音量を低減させ、発声部分Ｘ１ｂ、Ｘ３ｂに変換する。また、音声増幅回路３６は、音量レベル３よりも小さい音量の発声部分Ｘ２ａについて、音量を音量レベル３に基づいて増幅させ、発声部分Ｘ２ｂに変換する。そして、音声増幅回路３６は、音量レベルを変化させた新たな録音データを生成する。また、音声処理では、無音区間として特定されたフレームについては音量の増減処理を行わない。

【0055】

この音声処理では、たとえば図９のＢに示すように、録音データテーブル７０について、音量レベル情報７２、７４、７６として音量レベル３が設定され、この設定情報に基づいて音量を増減した新たな録音データが生成される。

【0056】

＜音声処理の具体例について＞

【0057】

図１０〜図１３は、音声処理の一例を示すフローチャートである。図１０〜図１３に示す処理手順、処理内容は一例である。

【0058】

この音声処理は、本開示の音声処理方法または音声処理プログムの一例である。音声処理装置２０は、音声入力の開始判断として、たとえば操作部３８の押下や表示部４０に設定されたタッチパネルの操作により録音機能が開始されたか否かを判断する（Ｓ１１）。取り込んだ録音データは、たとえば音声入出力部３０や記憶部２４に形成された音声バッファに記録される（Ｓ１２）。音声バッファでは、たとえば録音データについて、時間経過情報に関連付けて音量レベルの波形検出を行ってもよい。

【0059】

音声処理装置２０は、フレーム分割処理として、たとえば音量レベル測定部３４により音量レベルを測定し（Ｓ１３）、発声部分と無音部分とを判別する。音声処理では、たとえば発声のかたまりの区切り部分を抽出するため、無音または閾値未満の音量レベルが所定時間として、３秒以上続いたか否かを判断する（Ｓ１４）。音声処理装置２０では、無音が所定時間継続していない場合（Ｓ１４のＮＯ）、音量レベルの変化が一連の言葉の途中の抑揚であり、同一の人が続けて発声して会話が継続していると判断し、録音状態のまま、音量レベル監視を継続する。

【0060】

音声処理装置２０は、音量レベルが無音または閾値未満の状態が所定時間継続した場合（Ｓ１４のＹＥＳ）、録音した音声についてフレーム分割したファイルを作成する（Ｓ１５）とともに、無音部分について音量レベル「０」のファイルを追加する（Ｓ１６）。フレーム分割では、たとえば音量レベルが閾値未満となったタイミング、すなわち所定時間の計時を開始したタイミングで録音データを分割すればよい。また音声処理装置２０は、フレーム分割した時点から次の音声入力を検出するまで音量レベル「０」の録音データを作成する。

【0061】

音声処理装置２０は、音声入力が終了したか否かを判別し（Ｓ１７）、たとえば利用者による録音機能停止操作があった場合には、音声入力の終了とし（Ｓ１７のＹＥＳ）、記憶した音声ファイルのレベル変換処理に移行する（Ｓ１８）。音声入力が終了していない場合（Ｓ１７のＮＯ）、再び音声が検出されると、続けて録音処理と無音または閾値未満の音量レベルの検出を行う。

【0062】

なお、音声ファイルのレベル変換処理は、録音処理の終了後に実行される場合に限られない。音声処理装置２０は、録音処理と同時に、音声バッファに蓄積された録音データをフレーム毎に音声ファイルのレベルを変換させてもよい。

【0063】

＜ファイル作成処理について＞

【0064】

Ｓ１５のファイル作成処理では、たとえば図１１に示すように、フレーム分割した録音データファイルについて、音声データに関連付けた音量レベルを示す録音データテーブル７０を作成する。録音データテーブル７０は、録音データの再生処理を行う際の設定音量情報であり、無音や閾値未満の音声を含ませないように、フレーム分割処理後に作成される。

【0065】

音声処理装置２０は、たとえば音量レベル設定テーブル５０を読み出し、記憶した録音データの波形情報と音量レベルの閾値とを比較し、音量レベルの設定値を設定する（Ｓ２１）。設定された音量レベルは、音声データと関連付けて録音データテーブル７０に設定する（Ｓ２２、Ｓ２３）。作成された録音データテーブル７０（録音データファイル）は、記憶部２４に格納される（Ｓ２４）。

【0066】

＜ファイルレベルの変換処理について＞

【0067】

ファイルレベル変換処理では、作成された録音データファイルについて、音声レベルを所定の設定値に設定させる。音声処理装置２０では、例えば図１２に示すように、録音データ全体のタイムフレームに従った順序で、作成した録音データファイル毎に音量レベルを読み込む（Ｓ３１）。また音声処理装置２０は、タイムフレームに従って音声データを読込み（Ｓ３２）、録音データの変換をさせ（Ｓ３３）、変換した音量レベルと音声データとを関連付けた新たな録音データを作成する。録音データの変換処理では、音声データの音量を増幅や減衰させるとともに、録音データテーブル７０に格納される音量レベルの設定値も変換する。

【0068】

ファイルのレベル変換処理は、タイムフレーム毎に処理し、全てのフレームの変換処理が完了するまで実行される（Ｓ３４）。全てのフレームが変換されると（Ｓ３４のＹＥＳ）、音声処理装置２０は、タイムフレームに従って変換後の録音データファイルを記憶部２４に格納する（Ｓ３５）。

【0069】

＜録音データの変換処理について＞

【0070】

録音データの変換処理では、たとえば図１３に示すように、音声処理装置２０は、設定された出力音量レベルを取得すると（Ｓ４１）、録音データファイルをフレーム毎に、録音データファイルの音量レベルが「０」か否かを判別する（Ｓ４２）。この判断では、完全な無音（音量レベル「０」）の場合のほか、無音と判断する閾値未満か否かを判断してもよい。

【0071】

録音データの音量レベルが「０」でない、または閾値以上の場合（Ｓ４２のＮＯ）、録音データファイルの音量レベルが出力音量レベルよりも小さいか否かを判断する（Ｓ４３）。または録音データの音量レベルが「０」または、閾値未満の場合（Ｓ４２のＹＥＳ）、録音データファイルの音量レベル（「０」）と無音の音声データを出力ファイルに複写する（Ｓ４４）。出力ファイルは、たとえば記憶部２４内に形成される新たな録音データテーブル７０を示す。

【0072】

録音データファイルの音量レベルが出力音量レベルよりも小さい場合（Ｓ４３のＹＥＳ）、録音データファイルの音量レベルを出力音量レベルになるように増幅させる（Ｓ４５）。または録音データファイルの音量レベルが出力音量レベルよりも大きい場合（Ｓ４３のＮＯ）、録音データファイルの音量レベルを出力音量レベルになるように減衰させる（Ｓ４６）。録音データファイルの変換処理では、録音データを音量レベルと設定された出力音量レベルとの差分を算出し、この差分に基づいて音量レベルの増幅または減衰させればよい。録音データファイルの増幅または減衰処理は、たとえば音声増幅回路３６によって実行される。

【0073】

そして、音声処理装置２０では、増幅または減衰させた録音データファイルについて、出力ファイルのフレーム音量レベルを保存し（Ｓ４７）、出力ファイルの音量レベルを録音データテーブル７０に設定する（Ｓ４８）。

【0074】

斯かる構成によれば、録音データの再生時に、スピーカ等から出力される音声の再生音量の変動が抑制され、再生時に聞き取りやすい録音音声を提供することができる。再生音量の変動が抑制されることで、録音データを再生する音声処理装置の音量調整操作が不要となり、音声再生時の利便性を向上させることができる。また、無音区間の監視により、音声データが含まれる部分のみの音量レベルを変換させることで、再生時に雑音などが増幅されず、聞取り易い音声データを生成できる。

【0075】

〔第３の実施の形態〕

【0076】

図１４は、第３の実施の形態に係る音声処理の状態例を示している。音声処理装置２０は、たとえば図１４のＡに示すように、音量レベルの設定値として、出力音量レベルが設定されている。変換前の録音データは、図１４のＢに示すように、たとえば言葉の固まり毎に音量レベルに大小のばらつきが生じている。

【0077】

録音データは、設定された出力音量レベルに対し、発声部分Ｘ２ａの部分が小さな音量で録音されている。この実施の形態では、録音データの音量レベルについて、出力音量レベルよりも小さい部分の増幅のみを行う場合を示している。

【0078】

そこで、音声増幅回路３６では、図１４のＣに示すように、録音データうち、出力音量レベルよりも小さい音量の発声部分Ｘ２ｂについて、音量を設定された出力音量レベルに基づいて増幅させ、発声部分Ｘ２ｂに変換する。また音声処理装置２０は、図１５のＡに示すように、変換前の録音データファイルについて録音データテーブル７０の発生部分Ｘ２ａに対応するフレーム３について、音量レベル情報８０Ａが設定されている。そして音声処理装置２０は、発生部分Ｘ２ａの音量レベルが変換されると、図１５のＢに示すように、音量レベル情報８０Ｂに出力音量レベルを設定する。

【0079】

＜音声処理の他の例について＞

【0080】

録音データは、たとえば図１６のＢに示すように、設定された出力音量レベルに対し、発声部分Ｘ１ａ、Ｘ３ａの部分が大きな音量で録音されている。このような録音データに対し、音声処理装置２０は、たとえば録音データファイルについて、設定された出力音量レベルを基準とし、この出力音量レベルよりも大きな音量レベルのフレームについて音量レベルを減衰させる。

【0081】

そこで、音声増幅回路３６では、図１６のＣに示すように、録音データうち、出力音量レベルよりも大きい音量の発声部分Ｘ１ａ、Ｘ３ａについて、出力音量レベルに基づいて減衰させ、発声部分Ｘ１ｂ、Ｘ３ｂに変換する。また音声処理装置２０は、図１７のＡに示すように、変換前の録音データファイルについて録音データテーブル７０の発生部分Ｘ１ａに対応するフレーム１、および発声部分Ｘ３ａに対応するフレーム５について、音量レベル情報８２Ａ、８４Ａが設定されている。そして音声処理装置２０は、発生部分Ｘ１ａ、Ｘ３ａの音量レベルが変換されると、図１７のＢに示すように、音量レベル情報８２Ｂ、８４Ｂに出力音量レベルを設定する。

【0082】

なお、録音データに対する音声処理については、音声処理装置２０の利用者が任意で増幅または減衰を選択してもよく、または予め設定してもよい。そのほか、音声処理装置２０は、たとえば音声処理の選択について、発声部分Ｘ１ａ、Ｘ２ａ、Ｘ３ａ・・・の音量のばらつきに対し、出力音量レベルに近い方のフレームを基準にして、増副処理または減衰処理を設定させてもよい。

【0083】

斯かる構成によれば、録音データの再生処理において、フレーム間の音量のばらつき量が軽減でき、利用者による音量の調整作業の煩わしさを解消できる。また、音声処理を行うことで、再生処理時に音量のばらつきを抑えられるので、フレーム間において利用者が音声の内容の把握をし易くさせることができる。

【0084】

〔他の実施の形態〕

【0085】

以上説明した実施の形態について、変形例を以下に列挙する。

【0086】

(1) 上記実施の形態では、音声処理装置２がマイクロフォン６で取り込んだ録音データについて音声処理を行う場合を示したが、これに限られない。音声処理装置２は、外部の通信機器から録音データを受信し、この録音データに含まれる音声についてフレーム分割し、このフレーム毎に音量レベルを調整してもよい。

【0087】

(2) 上記実施の形態では、音声処理装置２が録音した、または外部から受信した１つの録音データに含まれる音声についてフレーム分割して音量レベルを調整する場合を示したがこれに限られない。音声処理装置２は、複数の録音データ間で音量レベルのばらつきを解析し、音量レベルの調整処理を行ってもよい。これにより録音機器により予め分割された録音データや複数の録音データが添付された音声メールについて、これらの録音データを連続して再生する場合、録音データ毎に再生音量がばらつくのを防止できる。

【0088】

(3) 上記実施の形態では、音声処理装置２０は、音声の録音処理を行いながら閾値未満の音量である無音状態を監視し、無音状態が一定時間継続したときにフレーム分けする場合を示したがこれに限られない。音声処理装置２０は、たとえば一定時間毎にフレーム分割して録音データファイルを作成し、フレーム毎に音量レベルを監視して、音量レベルを増幅または減衰させる音声処理を行ってもよい。

【0089】

音声処理装置２０は、図１８のＡに示すように、時間経過に従って音量レベルにばらつきがある録音データを記憶する。音声処理装置２０は、録音データについて、設定時間ｔとして、たとえば３〔秒〕毎にフレームカットして録音データファイルを作成するとともに、図１８のＢに示すように、その録音データファイルの情報を管理する録音データテーブル９０を作成する。録音データファイルでは、たとえば最初の発声部分に含まれる音声データ１が音声データ１ａ、１ｂとしてフレーム１、フレーム２に録音される。つまり、音声データ１は、たとえば少なくとも２つのフレームに跨って録音されているので、４秒以上の長さを有する。次に、録音データファイルは、たとえばフレーム３として無音区間が記録されている。

【0090】

このように音声処理装置２０は、無音区間に関わらず、録音処理の開始からタイマ３７の計時に基づいて録音データファイルを作成してもよい。そして音声処理装置２０は、作成された録音データファイルについて、音量レベルを把握するとともに、音量レベルの増幅処理または減衰処理を行ってもよい。

【0091】

音声処理装置２０による音声処理では、たとえば図１９に示すように、音声入力が開始されたことを契機に（Ｓ５１のＹＥＳ）、タイマ３７による計時を開始する（Ｓ５２）。音声処理装置２０は、マイクロフォン６から入力される録音データを音声バッファに記録し（Ｓ５３）、フレーム分割の設定時間ｔが経過したか否かを監視する（Ｓ５４）。設定時間ｔが経過した場合（Ｓ５４のＹＥＳ）、録音データをフレームカットし（Ｓ５５）、録音データファイルの作成処理に移行する（Ｓ５６）。録音データファイルの作成の後、録音データについて、各録音データファイルについて、ファイルレベルの変換処理として出力音量レベルへの変換処理が行われる（Ｓ５７）。ファイル作成処理（Ｓ５６）およびファイルレベル変換処理（Ｓ５７）は、既述のＳ１５およびＳ１８（図１０）と同様の処理が行われればよく、その説明を割愛する。

【0092】

なお、音声処理装置２０は、作成された録音データファイルについて、録音処理と同時にファイル作成処理およびファイルレベル変換処理を行ってもよい。また作成された録音データファイルは、たとえば音声データを含む連続した録音データ同士を１つの録音データに結合してもよい。

【0093】

(4) 上記実施の形態では、録音データファイルに対する音量レベルの変換処理において、１つの出力音量レベルを基準に音量レベルの増幅または減衰の処理を行ったが、これに限られない。音量レベルの変換処理では、複数の出力音量レベルを設定し、処理を行う録音データファイル毎に、いずれかの出力音量レベルに基づいて変換処理を行ってもよい。

【0094】

出力音量レベルの設定は、たとえば利用者がファイル毎に設定してもよく、または録音処理の時間情報に基づいて設定してもよい。または出力音量レベルは、たとえば別途登録し、または音声の解析などにより発声者の声質などに応じて選択してもよい。

【0095】

斯かる構成によれば、音声処理装置２０は、無音区間の到来に関わらず録音データファイルを作成することで、音声バッファを形成するＲＡＭの容量が少ない場合でも、音声処理を実行できる。また録音データについて、分割フレーム毎の長さを一定にすることで、録音時に音声バッファに対する容量の負担を軽減できる。そのほか録音データを所定時間毎に区切ることで、発声時間が長い区間について、細かく音量レベルを解析し、その出力の増幅または減衰をさせることで、音量のばらつきを小さくでき、把握しやすい音量の録音データを作成することができる。

【0096】

次に、以上述べた実施の形態に関し、更に以下の付記を開示する。本開示の技術に係る技術的思想は上位概念から下位概念まで、様々なレベルやバリエーションにより把握できるものであり、以下の付記に本開示の技術が限定されるものではない。

【0097】

（付記１）録音機能を備える音声処理装置であって、
レベルの異なる音声を取り込んで録音データを生成する音声入力手段と、
前記音声入力手段で生成した前記録音データを、音声のまとまり毎に複数のフレームに分割し、該フレーム毎に前記録音データに含まれる音声のレベルを判別し、前記録音データのレベルが基準レベルと異なる場合、該基準レベルに基づいて、前記録音データのレベルを調整した新たな録音データを生成する音声処理手段と、
前記音声処理手段で生成した前記録音データを記憶する記憶手段と、
を備えることを特徴とする音声処理装置。

【0098】

（付記２）前記音声処理手段は、取り込んだ前記録音データのレベルと前記基レベルの差分を判別し、該差分に基づいて前記フレーム毎にレベルを増減させることを特徴とする付記１に記載の音声処理装置。

【0099】

（付記３）前記音声処理手段は、前記録音データの音量レベルを監視し、前記基準レベルに基づいて前記録音データの音量レベルを調整することを特徴とする付記１または付記２に記載の音声処理装置。

【0100】

（付記４）前記音声処理手段は、前記録音データのレベルが閾値以下か否かを判別し、閾値以下となった場合、前記録音データを分割してフレーム分けすることを特徴とする付記１ないし付記３のいずれか１つに記載の音声処理装置。

【0101】

（付記５）さらに、録音時間を計時するタイマを備え、
前記音声処理手段は、前記録音データのレベルが前記閾値以下の状態が所定時間以上経過した場合、前記録音データを分割して低レベルフレームを作成し、該低レベルフレーム以外のフレームについてレベルの調整を行うことを特徴とする付記４に記載の音声処理装置。

【0102】

（付記６）録音機能を備える音声処理装置の音声処理方法であって、
レベルの異なる音声を取り込んで録音データを生成し、
生成された前記録音データを、音声のまとまり毎に複数のフレームに分割し、
該フレーム毎に前記録音データのレベルを判別し、前記録音データのレベルが基準レベルと異なる場合、該基準レベルに基づいて、前記録音データのレベルを調整した新たな録音データを生成する、
処理を含む音声処理方法。

【0103】

（付記７）録音機能を備える音声処理装置のコンピュータに実行させる音声処理プログラムであって、
レベルの異なる音声を取り込んで録音データを生成し、
生成された前記録音データを、音声のまとまり毎に複数のフレームに分割し、
該フレーム毎に前記録音データのレベルを判別し、前記録音データのレベルが基準レベルと異なる場合、該基準レベルに基づいて、前記録音データのレベルを調整した新たな録音データを生成する、
処理をコンピュータに実行させる音声処理プログラム。

【0104】

以上、本開示の構成の好ましい実施形態等について説明した。しかし、本開示の技術は上記実施の形態の記載に限定されるものではない。特許請求の範囲に記載され、または明細書に開示された技術の要旨に基づき、当業者において様々な変形や変更が可能であることは勿論である。そして斯かる変形や変更が本開示の技術に含まれることは言うまでもない。

【符号の説明】

【0105】

２、２０音声処理装置
４音声入力手段
６マイクロフォン
８音声処理手段
１０記憶手段
１２Ａ、１２Ｂ録音データテーブル
１２−１、１２−２、・・・フレーム
２２プロセッサ
２４記憶部
２６ＲＯＭ
２８ＲＡＭ
３０音声入出力部
３２スピーカ
３４音量レベル測定部
３６音声増幅回路
３７タイマ
５０音量レベル設定テーブル
７０、９０録音データテーブル
７２、７４、７６、８０Ａ、８０Ｂ、８２Ａ、８２Ｂ、８４Ａ、８４Ｂ音量レベル情報

【図1】