(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022126314
(43)【公開日】2022-08-30
(54)【発明の名称】録音装置、録音プログラム、及び録音方法
(51)【国際特許分類】
H04M 11/00 20060101AFI20220823BHJP
G10L 25/51 20130101ALI20220823BHJP
【FI】
H04M11/00 302
G10L25/51
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2021024325
(22)【出願日】2021-02-18
(71)【出願人】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(74)【代理人】
【識別番号】100180275
【弁理士】
【氏名又は名称】吉田 倫太郎
(74)【代理人】
【識別番号】100161861
【弁理士】
【氏名又は名称】若林 裕介
(72)【発明者】
【氏名】石黒 高詩
【テーマコード(参考)】
5K201
【Fターム(参考)】
5K201AA05
5K201BC19
5K201CA02
5K201CD05
5K201CD09
5K201EA05
5K201EC06
(57)【要約】
【課題】 所望する音声呼又はモデム呼を区別して録音できる録音装置を提供する。
【解決手段】 本発明の録音装置は、ネットワークから通信端末間で送受信される通信パケットの複製パケットを取得する複製パケット取得手段と、前記複製パケットに含まれる通信音に基づいて、当該通信音がモデム呼又は音声呼のいずれであるかを判定する判定手段と、前記判定手段の判定結果が所望の呼である場合に、記録部に判定した前記通信音を録音データとして順次記録する蓄積手段とを有する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ネットワークから通信端末間で送受信される通信パケットの複製パケットを取得する複製パケット取得手段と、
前記複製パケットに含まれる通信音に基づいて、当該通信音がモデム呼又は音声呼のいずれであるかを判定する判定手段と、
前記判定手段の判定結果が所望の呼である場合に、記録部に判定した前記通信音を録音データとして順次記録する蓄積手段と
を有することを特徴とする録音装置。
【請求項2】
前記判定手段は、モデム信号固有の単一周波数信号を検出することによって前記通信音が前記モデム呼であるか否かを判定することを特徴とする請求項1に記載の録音装置。
【請求項3】
前記判定手段は、前記通信音の有音区間内の信号レベルに関するヒストグラムデータを生成し、当該ヒストグラムデータに基づいて前記通信音が前記音声呼であるか否かを判定することを特徴とする請求項1又は2に記載の録音装置。
【請求項4】
前記蓄積手段は、前記通信音がプッシュボタン信号又はダイヤルパルス信号である場合には、当該通信音に対して無音化処理を行った上で、前記記録部に当該通信音を記録することを特徴とする請求項1~3のいずれかに記載の録音装置。
【請求項5】
コンピュータを
ネットワークから通信端末間で送受信される通信パケットの複製パケットを取得する複製パケット取得手段と、
前記複製パケットに含まれる通信音に基づいて、当該通信音がモデム呼又は音声呼のいずれであるかを判定する判定手段と、
前記判定手段の判定結果が所望の呼である場合に、記録部に判定した前記通信音を録音データとして順次記録する蓄積手段と
して機能させることを特徴とする録音プログラム。
【請求項6】
録音装置に使用する録音方法であって、
複製パケット取得手段とは、ネットワークから通信端末間で送受信される通信パケットの複製パケットを取得し、
判定手段は、前記複製パケットに含まれる通信音に基づいて、当該通信音がモデム呼又は音声呼のいずれであるかを判定し、
蓄積手段は、前記判定手段の判定結果が所望の呼である場合に、記録部に判定した前記通信音を録音データとして順次記録する
ことを特徴とする録音方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、録音装置、録音プログラム、及び録音方法に関し、例えば、モデム呼と音声呼とが混在する通信ネットワークをモニタリングし、通信音を録音する録音装置に適用し得る。
【背景技術】
【0002】
近年、VoIP(Voice over Internet Protocol)技術を使用したIP電話、モデム機器等の普及が進んでいる。
【0003】
また、これらの装置の普及に伴い、通信ネットワークからIP(例えば、RTP(Real-time Transport Protocol))パケットをミラーリング(複製)し、複製したパケット内に含まれる通信音(音声呼やモデム呼)を記録(録音)して管理するための様々な技術が存在している(例えば、特許文献1~4参照)。
【0004】
録音データが音声呼の場合には、例えば、電話サービス等において、音声品質を客観的に評価(例えば、MOS(Mean Opinion Score)値による評価)するために、使用される。
【0005】
また、録音データがモデム呼の場合には、例えば、モデム通信を利用した機器の制御が正常に行われているか解析するために使用される。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2007-282004号公報
【特許文献2】特開2015-177411号公報
【特許文献3】特開2015-198358号公報
【特許文献4】特開2018-174438号公報
【特許文献5】特開2001-282266号公報
【特許文献6】特開2011―70084号公報
【特許文献7】特開2017-184062号公報
【特許文献8】特開2020-115096号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、従来技術(上述の特許文献1~4に記載の技術を含む、従来技術)では、音声呼とモデム呼が混在していても、音声呼とモデム呼を区別することなく全て録音してしまう。
【0008】
例えば、モデム通信問題解析のためモデム呼の録音データが必要な場合、不要な音声呼も録音することにより、下記の問題が生じる。
【0009】
第1に、不要な音声呼分の容量によって、記録装置(例えば、ハードディスク(HDD))容量を大量に消費してしまう。即ち、大容量のHDDを準備するためのコストが増大することになる。第2に、録音データ量が膨大となり、かつ、音声呼、モデム呼の録音データが混在するので、解析作業の時間、労力が増大することになる。第3に、不必要な音声呼の録音データが記録装置に残ってしまうことにより、情報漏洩のリスクが高くなる。
【0010】
一方、音声呼の解析のみを行いたい場合でも、上記第1~第3と同様の問題が生じることになる。
【0011】
そのため、所望する音声呼又はモデム呼を区別して録音できる録音装置、録音プログラム、及び録音方法が望まれている。
【課題を解決するための手段】
【0012】
第1の本発明の録音装置は、(1)ネットワークから通信端末間で送受信される通信パケットの複製パケットを取得する複製パケット取得手段と、(2)前記複製パケットに含まれる通信音に基づいて、当該通信音がモデム呼又は音声呼のいずれであるかを判定する判定手段と、(3)前記判定手段の判定結果が所望の呼である場合に、記録部に判定した前記通信音を録音データとして順次記録する蓄積手段とを有することを特徴とする。
【0013】
第2の本発明の録音プログラムは、コンピュータを(1)ネットワークから通信端末間で送受信される通信パケットの複製パケットを取得する複製パケット取得手段と、(2)前記複製パケットに含まれる通信音に基づいて、当該通信音がモデム呼又は音声呼のいずれであるかを判定する判定手段と、(3)前記判定手段の判定結果が所望の呼である場合に、記録部に判定した前記通信音を録音データとして順次記録する蓄積手段として機能させることを特徴とする。
【0014】
第3の本発明は、録音装置に使用する録音方法であって、(1)複製パケット取得手段とは、ネットワークから通信端末間で送受信される通信パケットの複製パケットを取得し、(2)判定手段は、前記複製パケットに含まれる通信音に基づいて、当該通信音がモデム呼又は音声呼のいずれであるかを判定し、(3)蓄積手段は、前記判定手段の判定結果が所望の呼である場合に、記録部に判定した前記通信音を録音データとして順次記録することを特徴とする。
【発明の効果】
【0015】
本発明によれば、所望する音声呼又はモデム呼を区別して録音できる。
【図面の簡単な説明】
【0016】
【
図1】第1の実施形態に係る録音装置を含む各装置の接続構成の例について示すブロック図である。
【
図2】第1の実施形態に係る録音装置の全体的な動作について示すフローチャートである。
【
図3】第1の実施形態に係るモデム呼/音声呼判定部に適用される周波数検出装置の構成を示す構成図である。
【
図4】第1の実施形態に係るモデム呼/音声呼判定部で判別するモデム呼特有の信号の一例を示す説明図である。
【
図5】第2の実施形態に係る録音装置を含む各装置の接続構成の例について示すブロック図である。
【
図6】第2の実施形態に係る音声信号の信号レベルのヒストグラム分布の一例を説明する説明図である。
【
図7】第2の実施形態に係るモデム信号の信号レベルのヒストグラム分布の一例を説明する説明図である。
【
図8】第2の実施形態に係る音声検出装手段の機能的構成を示したブロック図である。
【
図9】第2の実施形態に係るRBT除去フィルタ部及び通話区間判定部における通話区間判定を実行する際の処理(主に、通話区間判定を行う前段階の処理)を示すフローチャートである。
【
図10】第2の実施形態に係る通話区間判定部における通話区間判定の詳細処理を示すフローチャートである。
【
図11】第2の実施形態に係る信号レベルヒストグラム生成部及び判定処理部の詳細処理を示すフローチャートである。
【
図12】第2の実施形態に係る音声信号及びモデム信号のヒストグラムデータの一例を示す説明図である。
【
図13】変形実施形態に係るPB信号無音化装置を含むPB信号を無音化する具体例を示す説明図である。
【
図14】変形実施形態に係るPB信号検出器の一例を示す構成図である。
【
図15】変形実施形態に係るダイヤルパルス信号無音化装置の一例を示す構成図である。
【発明を実施するための形態】
【0017】
(A)第1の実施形態
以下では、録音装置、録音プログラム、及び録音方法の第1の実施形態を、図面を参照しながら詳細に説明する。
【0018】
(A-1)第1の実施形態の構成
(A-1-1)全体構成
図1は、第1の実施形態に係る録音装置を含む各装置の接続構成の例について示すブロック図である。
【0019】
図1では、通信端末10が、固定電話回線(アナログ電話回線)に接続されており、当該固定電話回線がIP網50(VoIP網)を中継して通信端末60に接続される構成について示している。
【0020】
通信端末10及び通信端末60の種類(例えば、電話機やモデム端末(FAX等を含む))や、対応する通信方式は限定されないものである。
【0021】
図1の構成では、通信端末10に接続された固定電話回線(アナログ電話回線)が交換機20、ゲートウェイ装置30、及びスイッチ40(SW40)を経由してIP網50に接続されている。また、
図1では、IP網50と通信端末60との間の接続構成については図示を省略しているが、種々の接続構成を適用することができる。
【0022】
交換機20は、近端側(通信端末10)から供給されるアナログ信号を受信し、ディジタル変換して遠端側の伝送路(固定電話回線の伝送路)に送出する。また、交換機20は、遠端側(通信端末60)の伝送路から供給されたディジタル信号をアナログ信号に変換し、通信端末10側に供給する。
【0023】
ゲートウェイ装置30は、固定電話回線をIP網50に接続する中継装置である。なお、ゲートウェイ装置30には、近端側の固定電話回線を終端する際に、近端側のエコーを制御するための適応エコーキャンセラ等が備えられていても良い。
【0024】
スイッチ40は、ゲートウェイ装置30及びIP網50間に配置される中継装置である。また、スイッチ40は、通信端末10及び通信端末60間で通信される通信音(音声呼、モデム呼)が含まれるパケット(例えば、RTPパケット)を取得し、後述する録音装置80に転送する。パケットの取得方法は特に限定されないが、例えば、ミラーリングポートから出力されたパケットを受信し、モニタ対象となる通信端末10及び通信端末60に関するRTPパケットを抽出する等である。
【0025】
録音装置80は、スイッチ40から転送されたパケットの内、音声呼又はモデム呼のいずれかを録音する装置である。また、この実施形態では、録音装置80は、リアルタイムで通信端末10及び通信端末60間の通信パケットの内、音声呼又はモデム呼のいずれかを録音することとなるが、別段リアルタイムで行う必要も無く、所定のタイミングでデータ(パケット)を与えて、音声呼又はモデム呼のいずれかを録音しても良い。
【0026】
(A-1-2)録音装置80の詳細構成
図1において、録音装置80は、一次記録部81と、モデム呼/音声呼判定部82と、録音データ蓄積部83と、記録部84と、複製パケット取得手段としての通信部85とを有する。
【0027】
録音装置80は、プロセッサやメモリ等を有するコンピュータにプログラム(実施形態に係る録音プログラム)をインストールして実現するようにしてもよいが、この場合でも、録音装置80は機能的には
図1を用いて示すことができる。なお、録音装置80については一部又は全部をハードウェア的に実現するようにしても良い。
【0028】
一次記録部81は、スイッチ40から転送されたミラーリングしたパケットに含まれる通信音を一次記録媒体に録音するものである。一次記録媒体は、例えば、メモリ、HDD等である。一次記録部81に記録されたデータは、後述するモデム呼/音声呼判定部82の判定結果に関わらず、所定のタイミングで削除される。なお、変形例として、一次記録部81は、省略しても良い。この場合、後述するモデム呼/音声呼判定部82に、SW40から取得した通信音が入力信号としてそのまま入力されることになる。
【0029】
モデム呼/音声呼判定部82は、一次記録部81に記録された通信音がモデム呼か、又は音声呼かを判定するものである。
【0030】
第1の実施形態では、モデム呼/音声呼判定部82は、モデム呼固有の信号検出ができたか否かにより、通信音がモデム呼か音声呼かを判定する。モデム呼固有の信号とは、着側モデムの応答信号(2100Hz)やITU-T勧告Vシリーズのモデム通信で出現する単周波信号である。モデム呼/音声呼判定部82は、通信音の判定結果を後述する録音データ蓄積部83に与える。
【0031】
録音データ蓄積部83は、モデム呼/音声呼判定部82の判定結果が所望の呼の場合には、記録部84に通信音(録音データ)を記録する。
【0032】
なお、録音データ蓄積部83は、双方向の音声(通信端末10及び通信端末60間の音声データ)は、基本的に分離して記録部84に記録するが、双方向の音声データを加算して合成した上で記録部84に記録しても良い。記録部84のHDD容量の節約となるためである。
【0033】
記録部84は、録音データ蓄積部83が所望の呼と判断した通信音(モデム呼又は音声呼)を記憶するものである。記録部84は、例えば、HDD等で構成される。
【0034】
通信部85は、スイッチ40との間で通信を行い、ミラーリングされた通信パケット(通信音)を取得するものである。
【0035】
(A-2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態の録音装置80の動作を説明する。
【0036】
(A-2-1)録音装置80の全体的な動作
図2は、第1の実施形態に係る録音装置の全体的な動作について示すフローチャートである。
【0037】
録音装置80は、通信部85を介してSW40でミラーリングした通信端末10及び通信端末60間のパケットに含まれる通信音を取得(受信)する(S11)。
【0038】
録音装置80は、取得した通信音を一次記録部81に記録する(S12)。
【0039】
録音装置80のモデム呼/音声呼判定部82は、一次記録部81に記録した通信音がモデム呼か否かを判定する(S13)。モデム呼/音声呼判定部82は判定結果を録音データ蓄積部83に与える。なお、第1の実施形態では、通信音がモデム呼ではないと判定された場合には、音声呼とみなすこととする。
【0040】
録音装置80の録音データ蓄積部83は、上述のステップS13の判定結果が所望の呼と一致するか否か判定する(S14)。なお、ここでの所望の呼は、例えば、設定ファイル等に予め記録されたデータ(モデム呼又は音声呼のいずれを記憶するかが明示されたデータ)に基づき判定される。
【0041】
録音装置80の録音データ蓄積部83は、判別された通信音が所望の呼と一致する場合のみ、記録部84に当該通信音を録音データとして記録する(S15)。
【0042】
(A-2-2)モデム呼固有の信号検出動作(ステップS13の詳細動作)
次に、モデム呼/音声呼判定部82がモデム呼固有の信号を検出する方法を述べる。ここでは、時間領域で、単一周波数信号(モデム呼固有の信号)を検出する方法を述べる(その他にも、例えば特許文献8に記載の技術も適用できる)。
【0043】
図3は、第1の実施形態に係るモデム呼/音声呼判定部に適用される周波数検出装置の構成を示す構成図である。
【0044】
図3に示すように、帯域通過フィルタ(BPF:Band Pass Filter)110には、所望する選択帯域信号が0dB伝送できるように前もって設定しておく。BPF110を0dB伝送できる選択帯域信号を「S」とし、選択帯域外信号を「N」とすると、入力信号は「S+N」、BPF出力信号は「S」と表すことができる。
【0045】
判定器120は、選択帯域信号Sの平均電力POW_Sの値と帯域外信号Nの平均電力POW_Nの値とを算出し、さらに信号対雑音比SNRを算出する。
【0046】
選択帯域信号Sの平均電力POW_Sの値が事前に定義した閾値TH_POW_S以上、かつ、信号対雑音比SNRが事前に定義した閾値TH_SNR以上であるとき、入力信号はBPFを通過可能な単一周波数信号であると判定することができる。
【0047】
これを具体的に式で表現すると以下の通りとなる。
POW_S=<S2> …(A1)
POW_N=<(S+N)2>-POW_S
=<S2+2SN+N2>-POW_S
=<S2>+2<SN>+<N2>-POW_S
=<S2>+<N2>-POW_S
=<N2> …(A2)
SNR=10log10(POW_S/POW_N) …(A3)
【0048】
POW_S≧TH_POW_S、かつ、SNR≧TH_SNRならば、入力信号は選定した単一周波数である。これ以外のときは選定した単一周波数ではない。
【0049】
ここで、上記式において、演算子<>は時間平均を表し、単一周波数信号Sとこれ以外の信号Nとの積SNの平均値<SN>はゼロである。
【0050】
図4は、第1の実施形態に係るモデム呼/音声呼判定部で判別するモデム呼特有の信号の一例を示す説明図である。
【0051】
モデム呼/音声呼判定部82は、例えば、
図4に示したモデム通信規格の中から所望するモデム通信規格で使用される単一周波数信号を上述の
図3の周波数検出装置100に設定して、当該モデム信号を判別することになる。判別したいモデム信号が複数存在する場合には、周波数検出装置100を並列的に構成すれば良い。
【0052】
なお、2100Hz単一周波数信号は、450ms周期で位相反転したり、AM変調が加わる場合があるが、これらは区別しなくても良い。又は区別して、信号種別を記載したログを記録部84に録音データと共に記録しても良い。
【0053】
(A-3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
【0054】
録音装置80は、通信音の内、必要とする呼(音声呼又はモデム呼)のみ録音データとして記録部84に記録することにより、記録容量の節約をすることが可能となった。
【0055】
また、所望呼のみ記録部84に記録することにより、音声呼及びモデム呼の録音データが混在することが無くなったことにより、いずれかの呼の解析作業をスムーズに行うことが可能となった。
【0056】
さらに、所望呼ではない不必要なデータは、記録部84に記録しないために、情報漏洩のリスクを低減できる。
【0057】
(B)第2の実施形態
以下では、録音装置、録音プログラム、及び録音方法の第2の実施形態を、図面を参照しながら詳細に説明する。
【0058】
(B-1)第2の実施形態の構成
(B-1-1)全体構成
図5は、第2の実施形態に係る録音装置を含む各装置の接続構成の例について示すブロック図である。上述の
図1の接続構成(第1の実施形態の接続構成)との相違は、
図5では、録音装置80の代わりに、録音装置80Aが適用される点である。
【0059】
また、
図5において、録音装置80Aは、一次記録部81と、モデム呼/音声呼判定部82Aと、録音データ蓄積部83と、記録部84と、通信部85とを有する。録音装置80Aは、上述のモデム呼/音声呼判定部82の代わりに、モデム呼/音声呼判定部82Aが適用される点が第1の実施形態の録音装置80と異なる。以下では、第1の実施形態と異なる点を中心に説明を行う。
【0060】
第2の実施形態のモデム呼/音声呼判定部82Aは、音声検出装置70を備える。音声検出装置70は、音声信号が他の信号(モデム信号等)に比べて、信号レベルの変動が大きいという特徴から、信号レベルのヒストグラム分布に基づき、入力信号(通信音)が音声信号(音声呼)か否か(言い換えれば、音声信号かモデム信号か)を判定する。
【0061】
図6は、第2の実施形態に係る音声信号の信号レベルのヒストグラム分布の一例を説明する説明図である。
図6(A)では、一定時間(8秒間)の音声信号の波形の一例を示している。また、
図6(B)では、横軸を時間とし、縦軸を信号レベル(信号パワー)とし、
図6(A)の音声信号の信号レベルを5ms周期で示している。そして、
図6(C)では、横軸を信号レベル軸とし、縦軸を信号レベルの回数とし、
図6(B)の信号レベルごとの回数のヒストグラムを示している。
【0062】
一方、
図7は、第2の実施形態に係るモデム信号の信号レベルのヒストグラム分布の一例を説明する説明図である。
図7(A)~(C)では、上述の
図6(A)~(C)と同様に、モデム信号(G3 FAX)の各情報を示している。
【0063】
ここで、音声信号の信号レベルのヒストグラム分布(
図6(C))と、モデム信号の信号レベルのヒストグラム分布(
図7(C))とを比較すると、音声信号はヒストグラムでの分布が散らばっているのに対して、モデム信号は一定信号レベルに集中しているのが分かる。
【0064】
そこで、第2の実施形態では、入力信号に対して有音判定を行った後、所定時間分の有音区間を抽出して信号レベルのヒストグラムを生成し、ヒストグラムの分散値等を参照することにより、入力信号が音声か否かを判定する。これにより、例えば、特許文献5に記載の手法(自己相関)を用いるよりも、少ない演算量で音声を検出することができる。
【0065】
(B-1-2)音声検出部の詳細構成
図8は、第2の実施形態に係る音声検出装置の機能的構成を示したブロック図である。
【0066】
図8において、音声検出装置70は、RBT除去フィルタ部71と、通話区間判定部72と、無音区間除去有音抽出部73と、信号レベルヒストグラム生成部74と、判定処理部75とを有する。
【0067】
RBT除去フィルタ部71は、入力信号からリングバックトーン(RBT)の周波数帯域(400±20Hz)を除去するフィルタである。なお、ダイヤルトーン、ビジートーンも、RBTと同程度の周波数帯域であるため、当該フィルタにより該当する周波数帯域が除去されることになる。
【0068】
通話区間判定部72は、入力信号に対して通話区間を判定する機能部である。通話区間判定部72は、例えば、日本国では、RBTが1秒オン、2秒オフの繰り返しで、実行される性質に着目して、一次記録部81から与えられた入力信号の信号レベルと、RBT除去フィルタ部71でフィルタ処理を施した入力信号の信号レベルとの差分からRBT区間を判定し、RBT区間が終わった直後を通話区間と判定する。また、通話区間判定部72は、所定時間(例えば、8秒)、RBTが検出されない場合、RBT区間は無いと判定する。そして、通話区間判定部72は、判定結果を無音区間除去有音抽出部73に送付する。
【0069】
無音区間除去有音抽出部73は、通話区間判定部72で判定された通話区間から無音区間を除去し、所定時間分の有音区間を抽出する。通話区間判定部72で判定した通話区間は、RBT区間以外の区間を意味するため、まず、無音区間除去有音抽出部73は、通話区間から話者が話をしていないと判断できる無音区間を除去する。無音区間除去有音抽出部73が、通話区間から無音区間を除去する方法は、種々様々な方法を適用することができるが、例えば、特許文献6に記載の技術を用いて、有音無音判定を行い、通話区間内の無音区間を判定し、判定した無音区間を通話区間から除去する等の方法を用いても良い。
【0070】
無音区間除去有音抽出部73は、通話区間から無音区間を除去した残りの有音区間から所定時間分(例えば、8秒間)の有音区間を抽出する(以下、抽出した区間を「抽出有音区間」と呼ぶものとする)。無音区間除去有音抽出部73は、抽出した抽出有音区間の情報(例えば、抽出有音区間内の信号レベルの情報)を信号レベルヒストグラム生成部74に与える。
【0071】
信号レベルヒストグラム生成部74は、抽出有音区間内の単位時間(例えば、5ms)あたりの信号レベルの回数を積算し、ヒストグラムデータを生成する。信号レベルヒストグラム生成部74は生成したヒストグラムデータを判定処理部75に与える。
【0072】
判定処理部75は、信号レベルヒストグラム生成部74から与えられたヒストグラムデータ(抽出有音区間)の有音(例えば-40dBm以上)の上位n個(nの値は例えば15)を降順に並べる。有音を示すヒストグラムデータがn個未満の場合は、n個未満のヒストグラムデータを用いることとなる。降順に並べたヒストグラムにて計算した合計値(回数の合計値)が、閾値T1(例えば、数百個)未満の場合、無音(又は有音区間が短い)と判定する。さらに、判定処理部75は、降順に並べたヒストグラムにて計算した分散値(div)が閾値T2(例えば、35)より大きい場合、音声であると判定し、一方、閾値T2未満の場合、モデム、FAX、DTMF、保留音などの音声以外の他の信号と判定する。判定処理部75は、判定結果を録音データ蓄積部83に与える。
【0073】
(B-2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態の録音装置80Aの動作を説明する。
【0074】
第2の実施形態の録音装置80Aの全体的な動作は、上述の
図2で示した録音装置80と同様である。ただし、上述のステップS13の処理(通信音の判定処理)が第1の実施形態と異なるので、以下では、異なる点を中心に説明する。
【0075】
モデム呼/音声呼判定部82A(音声検出装置70)は、一次記録部81から通信音(入力信号S1)を取得すると処理を開始する。入力信号S1は、例えば、所定長(例えば5ms)のフレーム期間に区切られた単位で与えられる。以下、分割された入力信号S1をフレーム単位で表現するときにS1(f)と呼ぶものとする。つまり、「(f)」は、f番目のフレームにおけるパラメータ値を示す(後述するS2、P1、P2、P1´、P2´、Lも同様である)。
【0076】
図9は、第2の実施形態に係るRBT除去フィルタ部及び通話区間判定部における通話区間判定を実行する際の処理(主に、通話区間判定を行う前段階の処理)を示すフローチャートである。
【0077】
まず、RBT除去フィルタ部71は、入力信号S1(f)からRBT周波数(周波数400±20Hz)の成分を取り除く。以下、入力信号S1(f)に対してRBT除去フィルタ部71によるフィルタリング処理を施した入力信号を「RBT除去フィルタ通過信号S2(f)」と呼ぶものとする。RBT除去フィルタ部71は、RBT除去フィルタ通過信号S2(f)を通話区間判定部72に与える。
【0078】
通話区間判定部72では、まず、入力信号S1(f)とRBT除去フィルタ通過信号S2(f)のそれぞれに対して、信号レベルを算出する(S101)。信号レベルの算出方法は種々様々であるが、例えば、入力信号を2乗積分して求めても良い。以下、入力信号S1(f)に対して2乗積分した結果を「信号レベルP1(f)」と呼び、RBT除去フィルタ通過信号S2(f)に対して2乗積分した結果を「信号レベルP2(f)」と呼ぶものとする。
【0079】
次に、通話区間判定部72では、LPF(Low Pass Filter)に信号レベルP1(f)、信号レベルP2(f)を入力し、その周波数特性における低域成分を通過させた信号を、出力する(S102)。以下、信号レベルP1(f)に対してLPF処理を施した結果を「信号レベルP1´(f)」と呼び、RBT除去フィルタ通過信号S2(f)に対してLPF処理を施した結果を「信号レベルP2´(f)」と呼ぶものとする。
【0080】
なお、適用するLPFの構成及びパラメータ値等は種々様々な値を適用することができる(例えば、CR=8ms(時定数)と設定しても良い)。また、LPFの適用は省略しても良い。
【0081】
次に、信号レベルP1´(f)及び信号レベルP2´(f)の電力の単位をdBmに変換し(S103)、以下の(1)式により信号レベル差L(f)(dB)を算出する(S104)。
L(f)=P1´(f)-P2´(f) …(1)
【0082】
次に、上記で算出した信号レベル差L(f)を用いて入力信号に対して通話区間判定を実行するステップS105の処理(通話区間とRBT区間の切り分け処理)を説明する。
【0083】
図10は、第2の実施形態に係る通話区間判定部における通話区間判定処理の詳細を示すフローチャートである。
【0084】
上述のステップS101~S104の処理により算出された信号レベル差L(f)(例えば5msのフレーム期間ごとの信号レベル差)が入力されると、処理を開始する。
【0085】
通話区間判定部72は、所定時間(例えば、100ms)内で10dB以上の信号レベル差を検出したか否か判定する(S105-1)。例えば、通話区間判定部72は、5msのフレーム期間ごとの信号レベル差L(f)が20回連続して10dB以上となるか否かで判定を行う(この他にも、平均値、中央値等の種々様々な統計値を用いて判定しても良い)。通話区間判定部72は、所定時間(例えば、100ms)内で10dB以上の信号レベル差を検出した場合、次のステップS105-2の処理を実行し、一方、10dB以上の信号レベル差を検出しない場合、後述するステップS105-6の処理に移行する。
【0086】
通話区間判定部72は、上述のステップS105-1の処理により所定時間内で10dB以上の信号レベル差を検出した場合、RBTを検出(RBT区間の始まりを検出)したと判定する(S105-2)。
【0087】
通話区間判定部72は、RBTを検出後、10dB未満の信号レベル差L(f)を検出したか否か判定する(S105-3)。通話区間判定部72は、10dB未満の信号レベル差L(f)を検出した場合のみ、次のステップS105-4の処理を実行する。
【0088】
続けて、通話区間判定部72は、上述のS105-3で、10dB未満の信号レベル差L(f)を検出後、2.5秒間10dB以上の信号レベル差Lを未検出か否か判定する(S105-4)。例えば、通話区間判定部72は、5msのフレーム期間ごとの信号レベル差L(f)が500回連続して10dB未満か否かで判定を行う(他にも、信号レベル差L(f)が平均して10dB未満か否か等の統計値で判定しても良い)。通話区間判定部72は、10dB以上の信号レベル差Lを検出しない場合のみ(つまり、10dB未満の信号レベル差Lを継続検出した場合のみ)、次のステップS105-5の処理を実行する。
【0089】
通話区間判定部72は、上述のステップS105-2の処理でRBTを検出してから最後に10dB以上の信号レベル差L(f)を検出した箇所までをRBT区間と判定し、残余の区間を通話区間と判定する(S105-5)。
【0090】
一方、通話区間判定部72は、上述のステップS105-1の処理により所定時間内(100ms)で10dB以上の信号レベル差L(f)を検出しない場合、所定時間(例えば、8秒)経過したか否か判定する(S105-6)。通話区間判定部72は、8秒間10dB以上の信号レベル差L(f)を検出しない場合のみ、次の処理を実行する。
【0091】
通話区間判定部72は、8秒間10dB以上の信号レベル差L(f)を検出しない場合、RBT区間は無い(言い換えれば、8秒の判定区間は通話区間)と判定する(S105-7)。
【0092】
通話区間判定部72は、上述のステップS105-5、S105-7で判定した通話区間の判定結果(通話区間の情報)を無音区間除去有音抽出部73に与える。
【0093】
無音区間除去有音抽出部73は、上述の判定結果(通話区間の情報)を基に、RBT除去フィルタ通過信号S2の通話区間から無音区間を除去する処理を行う。通話区間から無音区間を除去する処理は、例えば、特許文献6に記載の技術により無音と判定された区間をRBT除去フィルタ通過信号S2の通話区間から除去し、除去した残りの通話区間、つまり有音区間(話をしている可能性のある区間(又はモデム信号の可能性がある区間))から所定時間分(例えば、8秒間)を抽出する。
【0094】
無音区間除去有音抽出部73は、所定時間分を抽出した抽出有音区間の情報(例えば、抽出有音区間内の信号レベルP2´の情報)を信号レベルヒストグラム生成部74に与える。
【0095】
図11は、第2の実施形態に係る信号レベルヒストグラム生成部及び判定処理部の詳細処理を示すフローチャートである。
【0096】
信号レベルヒストグラム生成部74は、抽出有音区間内の信号レベルのヒストグラム(信号レベルごとの回数)を生成する(S201)。信号レベルヒストグラム生成部74は、抽出有音区間内の信号レベルのヒストグラムを判定処理部75に与える。
【0097】
判定処理部75は、信号レベルヒストグラム生成部74から与えられたヒストグラムデータ(抽出有音区間)を降順に並べる(S202)。
【0098】
例えば、
図12は、音声信号及びモデム信号(FAX信号)のヒストグラムデータを降順に並べた一例を示す説明図である。
図12(A)は、抽出有音区間内の音声信号ヒストグラムデータの一例を示しており、
図12(B)は、
図12(A)の有音(例えば-40dBm以上)の上位n個(nの値は例えば15)を降順に並べた結果を示している。一方、
図12(C)は、抽出有音区間内のモデム信号ヒストグラムデータの一例を示しており、
図12(D)は、
図12(C)の有音(例えば-40dBm以上)の上位n個(nの値は例えば15)を降順に並べた結果を示している。有音を示すヒストグラムデータがn個未満の場合は、n個未満のヒストグラムデータを用いることとなる。
【0099】
判定処理部75は、降順に並べたヒストグラムデータに基づき、以下の(2)式により、抽出有音区間内の信号レベルの合計値(回数の合計値)を算出する(S203)。nの値は例えば15である。
【数1】
【0100】
判定処理部75は、上記(2)式により算出した抽出有音区間内の信号レベルの回数の合計値sumと、閾値T1とを比較する(S204)。判定処理部75は、合計値sumが、閾値T1(例えば、数百個)未満の場合、後述するステップS209の処理に移行する。一方、判定処理部75は、合計値sumが、閾値T1(例えば、数百個)以上の場合、次の処理を実行する。
【0101】
判定処理部75は、降順に並べたヒストグラムデータに基づき、以下の(3)式により、抽出有音区間内の信号レベルの分散値を算出する(S205)。なお、下記(3)式におけるsumは、上記(2)式で算出したsumと同一である。nの値は例えば15である。
【数2】
【0102】
判定処理部75は、上記(3)式により算出した抽出有音区間内の信号レベルの分散値divと、閾値T2とを比較する(S206)。判定処理部75は、分散値divが、閾値T2(例えば、35)を超える場合、抽出有音区間内の信号は音声と判定する(S207)。一方、判定処理部75は、分散値divが、閾値T2以下の場合、抽出有音区間内の信号は、モデム、FAX、DTMF、保留音などの音声以外の他の信号と判定する(S208)。
【0103】
また、判定処理部75は、上述のステップS204の処理で、合計値sumが、閾値T1未満と判定された場合、抽出有音区間内の信号は、無音(又は有音区間が短い)と判定する(S209)。
【0104】
判定処理部75は、上述のステップS207~S209で判定した判定結果を録音データ蓄積部83に送付して処理を終了する。
【0105】
(B-3)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態の効果に加えて、以下のような効果を奏することができる。
【0106】
第2の実施形態の音声検出装置70は、音声信号はレベル変動が大きいという特徴に基づき、有音区間を抽出して生成したヒストグラムの分散値等を参照することにより、入力信号が音声か否かを判定することとした。これにより、音声呼に関しては、より正確な判定を行うことができる。
【0107】
(C)他の実施形態
上述した各実施形態においても種々の変形実施形態を言及したが、本発明は、以下の変形実施形態にも適用できる。
【0108】
(C-1)変形例として、録音データ蓄積部83は、録音データからの情報漏洩リスクを低減するために、特定の信号を無音化して記録部84に録音データを録音するようにしても良い(又は、一次記録部81に記憶する前に当該無音化処理を行っても良い)。例えば、PB信号(プッシュボタン信号)は、クレジットカード番号や暗証番号情報を含んでいることがあるため、PB信号を無音化して録音する。PB信号を無音化する具体例を以下に示す。
【0109】
図13は、変形実施形態に係るPB信号無音化装置を含むPB信号を無音化する具体例を示す説明図である。
【0110】
図13(A)において、PB信号無音化装置300は、入力信号からPB信号を識別検出するためのPB信号検出器310と、PB信号検出器310と同期するために入力信号にPB信号の検出時間分の遅延を与える遅延部320と、PB信号検出時に入力信号(PB信号)を無音化する制御を行うPB信号無音化処理部330とを有する。
【0111】
図13(B)では、PB信号検出器310で入力信号に対してPB検出処理を行い(例えば、検出時間は40ms)、PB信号を検出できた場合には、遅延(例えば、40msの遅延)を与えた入力信号に無音化制御を行う例が示されている(即ち、PB信号である入力信号の出力は無し(ゼロ)となる)。一方、PB信号が検出できない場合には、入力信号は音声信号であるので、そのまま入力信号が出力されることになる。
【0112】
次に、PB信号検出器310の具体的な構成について説明する。
【0113】
PB信号は低群(697、770、852、941Hz)のいずれかの周波数と、高群(1209、1336、1477、1633Hz)のいずれかの周波数を組み合わせた、2つの周波数から構成されているので、PB信号検出器310は、高群または低群の帯域阻止を行ってから、低群と高群の単周波を検出する構成となる。
【0114】
図14は、変形実施形態に係るPB信号検出器の一例を示す構成図である。
【0115】
図14において、PB信号検出器310は、入力信号に対して高群帯域の通過を阻止する高群帯域阻止BSF311と、入力信号に対して低群帯域の通過を阻止する低群帯域阻止BSF312と、高群帯域阻止BSF311を通過した入力信号に対して各低群の帯域のみ通過させる各BPF313と、低群帯域阻止BSF312を通過した入力信号に対して各高群の帯域のみ通過させる各BPF314と、単一周波数信号(697、…1633Hz)を判定する各判定器315と、誤検出や瞬断防止のため、一定時間以上の信号継続又は信号断を監視するタイマ処理部316とを有する。
【0116】
図14における「S+N」及び「S」の用語は、上述の
図3で説明したものと同様である。また、各判定器315が高群又は低群のいずれかの単一周波数信号と判定する手法は、例えば、上述の判定器120で示した手法を適用することができる。
【0117】
各判定器315で、低群のいずれか1つと高群のいずれか1つの単一周波数信号が各々検出(判定)されると、PB信号が検出されたことになる。
【0118】
(C-2)また、一部のコールセンタ等では、上述のPB信号の代わりにダイヤルパルス信号を用いて情報入力することも可能なので、ダイヤルパルス信号についても、PB信号と同様に無音化して録音するようにしても良い。
【0119】
図15は、変形実施形態に係るダイヤルパルス信号無音化装置の一例を示す構成図である。
図15において、ダイヤルパルス無音化装置400は、入力信号からダイヤルパルス信号を識別検出するためのダイヤルパルス信号検出器410と、ダイヤルパルス信号検出器410と同期するために入力信号にダイヤルパルス信号の検出時間分の遅延を与える遅延部420と、ダイヤルパルス信号検出時に入力信号(ダイヤルパルス信号)を無音化する制御を行うダイヤルパルス信号無音化処理部430とを有する。
【0120】
ダイヤルパルス信号検出器410に適用する構成及びダイヤルパルス信号検出方法等は、特に限定されないものであるが、例えば、特許文献7に記載の技術を適用することができる。
【0121】
(C-3)変形例として、第1の実施形態の録音装置80は、第2の実施形態の音声検出装置70を備えても良い。即ち、録音装置80は、モデム信号の判定については周波数検出装置100を使用してモデム信号の判定行い、音声信号の判定については音声検出装置70を使用して音声信号の判定を行っても良い。モデム信号の判定及び音声信号の判定について適用する順番は特に限定されるものでは無い。例えば、モデム信号の判定を行った入力信号について、モデム信号ではないと判定された場合に、続けて、録音装置80は音声検出装置70を用いて入力信号が音声信号であるか否か判定を行っても良い。
【0122】
(C-4)上記第2の実施形態では、RBT区間を除去する処理を行った上で、有音区間のヒストグラムデータを生成していたが、電話ではない音声会議サービス等のように入力信号にRBTが含まれない場合は、RBT区間を除去する処理を省略しても良い。
【0123】
(C-5)上記第2の実施形態では、信号レベルヒストグラム生成部74でヒストグラムデータを生成する前に、無音区間除去有音抽出部73で通話区間から無音区間を除去していたが、ヒストグラムデータを生成後、無音と推定できる信号レベル(例えば、―40dBm以下)を計算対象外として、残りの有音区間の信号レベルの合計値と分散値を算出して、入力信号が音声か否かを判定しても良い。
【0124】
(C-6)上記第2の実施形態では、ステップS204の処理で合計値sumが閾値T1未満の場合、無音(又は有音区間が短い)として処理を終了していたが、ステップS205以下の処理を実行しても良い。
【符号の説明】
【0125】
10、60…通信端末、20…交換機、30…ゲートウェイ装置、40…スイッチ、50…IP網、70…音声検出装置、71…RBT除去フィルタ部、72…通話区間判定部、73…無音区間除去有音抽出部、74…信号レベルヒストグラム生成部、75…判定処理部、80、80A…録音装置、81…一次記録部、82…モデム呼/音声呼判定部、82A…モデム呼/音声呼判定部、83…録音データ蓄積部、84…記録部、100…周波数検出装置、110…BPF、120…判定器、300…PB信号無音化装置、310…PB信号検出器、313、314…BPF、315…判定器、316…タイマ処理部、320…遅延部、330…PB信号無音化処理部、400…ダイヤルパルス無音化装置、410…ダイヤルパルス信号検出器、420…遅延部、430…ダイヤルパルス信号無音化処理部、311…高群帯域阻止BSF、312…低群帯域阻止BSF。