IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ナカヨの特許一覧

特開2022-141541通話録音システム、主装置、音声認識依頼端末、プログラム、および電話機の通話録音方法
<>
  • 特開-通話録音システム、主装置、音声認識依頼端末、プログラム、および電話機の通話録音方法 図1
  • 特開-通話録音システム、主装置、音声認識依頼端末、プログラム、および電話機の通話録音方法 図2
  • 特開-通話録音システム、主装置、音声認識依頼端末、プログラム、および電話機の通話録音方法 図3
  • 特開-通話録音システム、主装置、音声認識依頼端末、プログラム、および電話機の通話録音方法 図4
  • 特開-通話録音システム、主装置、音声認識依頼端末、プログラム、および電話機の通話録音方法 図5
  • 特開-通話録音システム、主装置、音声認識依頼端末、プログラム、および電話機の通話録音方法 図6
  • 特開-通話録音システム、主装置、音声認識依頼端末、プログラム、および電話機の通話録音方法 図7
  • 特開-通話録音システム、主装置、音声認識依頼端末、プログラム、および電話機の通話録音方法 図8
  • 特開-通話録音システム、主装置、音声認識依頼端末、プログラム、および電話機の通話録音方法 図9
  • 特開-通話録音システム、主装置、音声認識依頼端末、プログラム、および電話機の通話録音方法 図10
  • 特開-通話録音システム、主装置、音声認識依頼端末、プログラム、および電話機の通話録音方法 図11
  • 特開-通話録音システム、主装置、音声認識依頼端末、プログラム、および電話機の通話録音方法 図12
  • 特開-通話録音システム、主装置、音声認識依頼端末、プログラム、および電話機の通話録音方法 図13
  • 特開-通話録音システム、主装置、音声認識依頼端末、プログラム、および電話機の通話録音方法 図14
  • 特開-通話録音システム、主装置、音声認識依頼端末、プログラム、および電話機の通話録音方法 図15
  • 特開-通話録音システム、主装置、音声認識依頼端末、プログラム、および電話機の通話録音方法 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022141541
(43)【公開日】2022-09-29
(54)【発明の名称】通話録音システム、主装置、音声認識依頼端末、プログラム、および電話機の通話録音方法
(51)【国際特許分類】
   H04M 3/53 20060101AFI20220921BHJP
   G10L 15/00 20130101ALI20220921BHJP
   G10L 15/30 20130101ALI20220921BHJP
【FI】
H04M3/53
G10L15/00 200Z
G10L15/30
【審査請求】未請求
【請求項の数】19
【出願形態】OL
(21)【出願番号】P 2021041903
(22)【出願日】2021-03-15
(71)【出願人】
【識別番号】000134707
【氏名又は名称】株式会社ナカヨ
(74)【代理人】
【識別番号】100104570
【弁理士】
【氏名又は名称】大関 光弘
(72)【発明者】
【氏名】北嶋 友之
(72)【発明者】
【氏名】青柳 博久
【テーマコード(参考)】
5K201
【Fターム(参考)】
5K201BA11
5K201CB16
5K201CB17
5K201CC02
5K201CC03
5K201DC02
5K201DC05
5K201EC01
5K201EC06
5K201EC10
5K201ED01
(57)【要約】
【課題】ユーザに負担をかけることなく、録音された通話音声データのなかからテキスト変換対象の通話音声データを選択して、そのテキストデータを取得する。
【解決手段】通話録音機能を有する主装置1と、音声認識サーバ4を利用して、主装置1により録音された通話音声データのテキストデータを取得する音声認識依頼端末2と、を有する。主装置1は、通話の録音に際して、この通話が所定のテキスト変換対象条件を満足するか否かを判断し、満足するならば、その通話音声データにテキスト変換対象フラグを付与する。音声認識依頼端末2は、主装置1により録音された通話音声データのなかから、テキスト変換対象フラグが付与された通話音声データを選択し、選択した通話音声データを含む音声認識依頼を音声認識サーバに送信して、音声認識サーバ4からそのテキストデータを取得する。
【選択図】図1
【特許請求の範囲】
【請求項1】
電話機の通話を録音する通話録音システムであって、
前記電話機を収容するとともに、前記電話機の通話を録音するための通話録音機能を有する主装置と、
音声認識サーバを利用して、前記主装置により録音された通話音声データのテキストデータを取得する音声認識依頼端末と、を備え、
前記主装置は、
前記電話機の通話の録音に際して、当該通話が所定のテキスト変換対象条件を満足するか否かを判断する条件判断手段と、
前記条件判断手段により前記通話が前記テキスト変換対象条件を満足すると判断された場合に、当該通話が録音された通話音声データに所定のテキスト変換対象フラグを付与するフラグ付与手段と、を有し、
前記音声認識依頼端末は、
前記主装置により録音された通話音声データのなかから、前記テキスト変換対象フラグが付与された通話音声データを選択するテキスト変換対象選択手段と、
前記テキスト変換対象選択手段により選択された通話音声データを含む音声認識依頼を前記音声認識サーバに送信して、前記音声認識サーバから当該通話音声データのテキストデータを取得するテキスト変換依頼手段と、を有する
ことを特徴とする通話録音システム。
【請求項2】
請求項1に記載の通話録音システムであって、
前記フラグ付与手段は、
前記通話音声データのファイル名に所定の文字あるいは所定の文字列を追記することにより、当該通話音声データに前記テキスト変換対象フラグを付与する
ことを特徴とする通話録音システム。
【請求項3】
電話機の通話を録音する通話録音システムであって、
前記電話機を収容するとともに、前記電話機の通話を録音するための通話録音機能を有する主装置と、
音声認識サーバを利用して、前記主装置により録音された通話音声データのテキストデータを取得する音声認識依頼端末と、を備え、
前記主装置は、
前記電話機の通話の録音に際して、当該通話が所定のテキスト変換対象条件を満足するか否かを判断する条件判断手段と、
前記条件判断手段により前記通話が前記テキスト変換対象条件を満足すると判断された場合に、所定の通常形式により当該通話が録音された通話音声データを所定のテキスト変換対象形式の通話音声データに変換する形式変換手段と、を有し、
前記音声認識依頼端末は、
前記主装置により録音された通話音声データのなかから、前記テキスト変換対象形式の通話音声データを選択するテキスト変換対象選択手段と、
前記テキスト変換対象選択手段により選択された通話音声データを含む音声認識依頼を前記音声認識サーバに送信して、前記音声認識サーバから当該通話音声データのテキストデータを取得するテキスト変換依頼手段と、を有する
ことを特徴とする通話録音システム。
【請求項4】
請求項3に記載の通話録音システムであって、
前記形式変換手段は、
前記通話音声データの符号化方式を、所定の符号化方式に変換することにより、前記通常形式の通話音声データを前記テキスト変換対象形式の通話音声データに変換する
ことを特徴とする通話録音システム。
【請求項5】
電話機の通話を録音する通話録音システムであって、
前記電話機を収容するとともに、前記電話機の通話を録音するための通話録音機能を有する主装置と、
音声認識サーバを利用して、前記主装置により録音された通話音声データのテキストデータを取得する音声認識依頼端末と、を備え、
前記主装置は、
前記電話機の通話の録音に際して、当該通話が所定のテキスト変換対象条件を満足するか否かを判断する条件判断手段と、
前記条件判断手段により前記通話が前記テキスト変換対象条件を満足しないと判断された場合に、所定のテキスト変換対象形式によって録音された当該通話の通話音声データを所定の通常形式の通話音声データに変換する形式変換手段と、を有し、
前記音声認識依頼端末は、
前記主装置により録音された通話音声データのなかから、前記テキスト変換対象形式の通話音声データを選択するテキスト変換対象選択手段と、
前記テキスト変換対象選択手段により選択された通話音声データを含む音声認識依頼を前記音声認識サーバに送信して、前記音声認識サーバから当該通話音声データのテキストデータを取得するテキスト変換依頼手段と、を有する
ことを特徴とする通話録音システム。
【請求項6】
請求項5に記載の通話録音システムであって、
前記形式変換手段は、
前記通話音声データのビットレートあるいはチャンネル数を、所定のビットレートあるいはチャンネル数に変換することにより、前記テキスト変換対象形式の通話音声データを前記通常形式の通話音声データに変換する
ことを特徴とする通話録音システム。
【請求項7】
電話機を収容するとともに、当該電話機の通話を録音するための通話録音機能を有する主装置であって、
前記電話機の通話の録音に際して、当該通話が所定のテキスト変換対象条件を満足するか否かを判断する条件判断手段と、
前記条件判断手段により前記通話が前記テキスト変換対象条件を満足すると判断された場合に、当該通話が録音された通話音声データに所定のテキスト変換対象フラグを付与するフラグ付与手段と、を有する
ことを特徴とする主装置。
【請求項8】
電話機を収容するとともに、当該電話機の通話を録音するための通話録音機能を有する主装置であって、
前記電話機の通話の録音に際して、当該通話が所定のテキスト変換対象条件を満足するか否かを判断する条件判断手段と、
前記条件判断手段により前記通話が前記テキスト変換対象条件を満足すると判断された場合に、所定の通常形式により当該通話が録音された通話音声データを所定のテキスト変換対象形式の通話音声データに変換する形式変換手段と、を有する
ことを特徴とする主装置。
【請求項9】
電話機を収容するとともに、当該電話機の通話を録音するための通話録音機能を有する主装置であって、
前記電話機の通話の録音に際して、当該通話が所定のテキスト変換対象条件を満足するか否かを判断する条件判断手段と、
前記条件判断手段により前記通話が前記テキスト変換対象条件を満足しないと判断された場合に、所定のテキスト変換対象形式によって録音された当該通話の通話音声データを所定の通常形式の通話音声データに変換する形式変換手段と、を有する
ことを特徴とする主装置。
【請求項10】
音声認識サーバを利用して、収容する電話機の通話を録音するための通話録音機能を有する主装置により録音された通話音声データのテキストデータを取得する音声認識依頼端末であって、
前記主装置により録音された通話音声データのなかから、所定のテキスト変換対象フラグが付与された通話音声データを選択するテキスト変換対象選択手段と、
前記テキスト変換対象選択手段により選択された通話音声データを含む音声認識依頼を前記音声認識サーバに送信して、前記音声認識サーバから当該通話音声データのテキストデータを取得するテキスト変換依頼手段と、を有する
ことを特徴とする音声認識依頼端末。
【請求項11】
音声認識サーバを利用して、収容する電話機の通話を録音するための通話録音機能を有する主装置により録音された通話音声データのテキストデータを取得する音声認識依頼端末であって、
前記主装置により録音された通話音声データのなかから所定のテキスト変換対象形式の通話音声データを選択するテキスト変換対象選択手段と、
前記テキスト変換対象選択手段により選択された通話音声データを含む音声認識依頼を前記音声認識サーバに送信して、前記音声認識サーバから当該通話音声データのテキストデータを取得するテキスト変換依頼手段と、を有する
ことを特徴とする音声認識依頼端末。
【請求項12】
電話機を収容するとともに、当該電話機の通話を録音するための通話録音機能を有する主装置として、コンピュータを機能させるためのプログラムであって、
前記プログラムは、
前記コンピュータを、
前記電話機の通話の録音に際して、当該通話が所定のテキスト変換対象条件を満足するか否かを判断する条件判断手段、および
前記条件判断手段により前記通話が前記テキスト変換対象条件を満足すると判断された場合に、当該通話が録音された通話音声データに所定のテキスト変換対象フラグを付与するフラグ付与手段として機能させる
ことを特徴とするプログラム。
【請求項13】
電話機を収容するとともに、当該電話機の通話を録音するための通話録音機能を有する主装置として、コンピュータを機能させるためのプログラムであって、
前記プログラムは、
前記コンピュータを、
前記電話機の通話の録音に際して、当該通話が所定のテキスト変換対象条件を満足するか否かを判断する条件判断手段、および
前記条件判断手段により前記通話が前記テキスト変換対象条件を満足すると判断された場合に、所定の通常形式により当該通話が録音された通話音声データを所定のテキスト変換対象形式の通話音声データに変換する形式変換手段として機能させる
ことを特徴とするプログラム。
【請求項14】
電話機を収容するとともに、当該電話機の通話を録音するための通話録音機能を有する主装置として、コンピュータを機能させるためのプログラムであって、
前記プログラムは、
前記コンピュータを、
前記電話機の通話の録音に際して、当該通話が所定のテキスト変換対象条件を満足するか否かを判断する条件判断手段、および
前記条件判断手段により前記通話が前記テキスト変換対象条件を満足しないと判断された場合に、所定のテキスト変換対象形式によって録音された当該通話の通話音声データを所定の通常形式の通話音声データに変換する形式変換手段として機能させる
ことを特徴とするプログラム。
【請求項15】
音声認識サーバを利用して、収容する電話機の通話を録音するための通話録音機能を有する主装置により録音された通話音声データのテキストデータを取得する音声認識依頼端末として、コンピュータを機能させるためのプログラムであって、
前記プログラムは、
前記コンピュータを、
前記主装置により録音された通話音声データのなかから、所定のテキスト変換対象フラグが付与された通話音声データを選択するテキスト変換対象選択手段、および
前記テキスト変換対象選択手段により選択された通話音声データを含む音声認識依頼を前記音声認識サーバに送信して、前記音声認識サーバから当該通話音声データのテキストデータを取得するテキスト変換依頼手段として機能させる
ことを特徴とするプログラム。
【請求項16】
音声認識サーバを利用して、収容する電話機の通話を録音するための通話録音機能を有する主装置により録音された通話音声データのテキストデータを取得する音声認識依頼端末として、コンピュータを機能させるためのプログラムであって、
前記プログラムは、
前記コンピュータを、
前記主装置により録音された通話音声データのなかから所定のテキスト変換対象形式の通話音声データを選択するテキスト変換対象選択手段、および
前記テキスト変換対象選択手段により選択された通話音声データを含む音声認識依頼を前記音声認識サーバに送信して、前記音声認識サーバから当該通話音声データのテキストデータを取得するテキスト変換依頼手段として機能させる
ことを特徴とするプログラム。
【請求項17】
電話機の通話録音方法であって、
前記電話機を収容するとともに、前記電話機の通話を録音するための通話録音機能を有する主装置は、
前記電話機の通話の録音に際して、当該通話が所定のテキスト変換対象条件を満足するか否かを判断し、
前記通話が前記テキスト変換対象条件を満足すると判断された場合に、当該通話が録音された通話音声データに所定のテキスト変換対象フラグを付与し、
音声認識サーバを利用して、前記主装置により録音された通話音声データのテキストデータを取得する音声認識依頼端末は、
前記主装置により録音された通話音声データのなかから、前記テキスト変換対象フラグが付与された通話音声データを選択し、
前記選択された通話音声データを含む音声認識依頼を前記音声認識サーバに送信して、前記音声認識サーバから当該通話音声データのテキストデータを取得する
ことを特徴とする電話機の通話録音方法。
【請求項18】
電話機の通話録音方法であって、
前記電話機を収容するとともに、前記電話機の通話を録音するための通話録音機能を有する主装置は、
前記電話機の通話の録音に際して、当該通話が所定のテキスト変換対象条件を満足するか否かを判断し、
前記通話が前記テキスト変換対象条件を満足すると判断された場合に、所定の通常形式により当該通話が録音された通話音声データを所定のテキスト変換対象形式の通話音声データに変換し、
音声認識サーバを利用して、前記主装置により録音された通話音声データのテキストデータを取得する音声認識依頼端末は、
前記主装置により録音された通話音声データのなかから前記テキスト変換対象形式の通話音声データを選択し、
前記選択された通話音声データを含む音声認識依頼を前記音声認識サーバに送信して、前記音声認識サーバから当該通話音声データのテキストデータを取得する
ことを特徴とする電話機の通話録音方法。
【請求項19】
電話機の通話録音方法であって、
前記電話機を収容するとともに、前記電話機の通話を録音するための通話録音機能を有する主装置は、
前記電話機の通話の録音に際して、当該通話が所定のテキスト変換対象条件を満足するか否かを判断し、
前記通話が前記テキスト変換対象条件を満足しないと判断された場合に、所定のテキスト変換対象形式によって録音された当該通話の通話音声データを所定の通常形式の通話音声データに変換し、
音声認識サーバを利用して、前記主装置により録音された通話音声データのテキストデータを取得する音声認識依頼端末は、
前記主装置により録音された通話音声データのなかから前記テキスト変換対象形式の通話音声データを選択し、
前記選択された通話音声データを含む音声認識依頼を前記音声認識サーバに送信して、前記音声認識サーバから当該通話音声データのテキストデータを取得する
ことを特徴とする電話機の通話録音方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電話機の通話録音技術に関する。
【背景技術】
【0002】
従来、電話通信分野で音声認識技術が利用されている。例えば、特許文献1に記載の留守番電話センタは、伝言メッセージ毎に、伝言メッセージの音声データに音声認識処理を実施してこの音声データをテキスト変換し、そのテキストデータの一部を、発信者番号、着信日時等の情報とともに電話機に送信して表示し、再生対象の伝言メッセージを電話機のユーザに選択させる。そして、選択された伝言メッセージの音声データを電話機に送信して、この音声データを電話機に再生させる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2002-218066号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
近年、コールセンタ等において、電話対応トラブル等の回避のため、自身が収容する電話機の通話を録音するための通話録音機能を備えた主装置が普及している。このような主装置では、通話内容を容易に確認できるようにするために、録音された通話音声データに音声認識処理を実施して、通話内容をテキストデータ化しておくことが好ましい。
【0005】
ここで、音声認識処理に第三者が提供するネットワークサービスを利用する場合、録音された通話音声データのすべてに音声認識処理を実施して通話内容をテキストデータ化すると、通信トラヒックが増大する、テキストデータの保存領域が増大する等の問題が生じる。また、音声認識処理のネットワークサービスが有料の場合、利用コストが嵩む。一方、テキストデータに変換する通話音声データをユーザに選択させると、ユーザは、相手番号、通話日時等に基づいて、個々の通話音声データについてテキスト変換の要否を判断しなければならず、煩雑である。
【0006】
本発明は、上記事情に鑑みてなされたものであり、その目的は、ユーザに負担をかけることなく、録音された通話音声データのなかからテキスト変換対象の通話音声データを選択して、そのテキストデータを取得することができる技術を提供することにある。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明は、自身が収容する電話機の通話を録音するための通話録音機能を有する主装置と、音声認識サーバを利用して、主装置により録音された通話音声データのテキストデータを取得する音声認識依頼端末と、を用いる。
【0008】
ここで、主装置は、電話機の通話の録音に際して、この通話が所定のテキスト変換対象条件(発信元、応答元、日時、通話時間、通話実績等)を満足するか否かを判断し、満足するならば、録音された通話音声データに所定のテキスト変換対象フラグを付与するか、あるいは、通常形式として定めた所定の録音形式により録音された通話音声データを、通常形式とは異なる所定の録音形式(テキスト変換対象形式)の通話音声データに変換する。もしくは、所定のテキスト変換対象条件を満足しないならば、テキスト変換対象形式により録音された通話音声データを通常形式の通話音声データに変換する。
【0009】
また、音声認識依頼端末は、主装置により録音された通話音声データのなかから、テキスト変換対象フラグが付与された通話音声データ、あるいは、テキスト変換対象形式の通話音声データを選択し、選択した通話音声データを含む音声認識依頼を音声認識サーバに送信して、音声認識サーバからそのテキストデータを取得する。
【0010】
例えば、本発明の一態様は、
電話機の通話を録音する通話録音システムであって、
前記電話機を収容するとともに、前記電話機の通話を録音するための通話録音機能を有する主装置と、
音声認識サーバを利用して、前記主装置により録音された通話音声データのテキストデータを取得する音声認識依頼端末と、を備え、
前記主装置は、
前記電話機の通話の録音に際して、当該通話が所定のテキスト変換対象条件を満足するか否かを判断する条件判断手段と、
前記条件判断手段により前記通話が前記テキスト変換対象条件を満足すると判断された場合に、当該通話が録音された通話音声データに所定のテキスト変換対象フラグを付与するフラグ付与手段と、を有し、
前記音声認識依頼端末は、
前記主装置により録音された通話音声データのなかから、前記テキスト変換対象フラグが付与された通話音声データを選択するテキスト変換対象選択手段と、
前記テキスト変換対象選択手段により選択された通話音声データを含む音声認識依頼を前記音声認識サーバに送信して、前記音声認識サーバから当該通話音声データのテキストデータを取得するテキスト変換依頼手段と、を有する。
【0011】
また、本発明の他の態様は、
電話機の通話を録音する通話録音システムであって、
前記電話機を収容するとともに、前記電話機の通話を録音するための通話録音機能を有する主装置と、
音声認識サーバを利用して、前記主装置により録音された通話音声データのテキストデータを取得する音声認識依頼端末と、を備え、
前記主装置は、
前記電話機の通話の録音に際して、当該通話が所定のテキスト変換対象条件を満足するか否かを判断する条件判断手段と、
前記条件判断手段により、前記通話が前記テキスト変換対象条件を満足すると判断された場合に、所定の通常形式により当該通話が録音された通話音声データを所定のテキスト変換対象形式の通話音声データに変換する形式変換手段と、を有し、
前記音声認識依頼端末は、
前記主装置により録音された通話音声データのなかから前記テキスト変換対象形式の通話音声データを選択するテキスト変換対象選択手段と、
前記テキスト変換対象選択手段により選択された通話音声データを含む音声認識依頼を前記音声認識サーバに送信して、前記音声認識サーバから当該通話音声データのテキストデータを取得するテキスト変換依頼手段と、を有する。
【0012】
また、本発明のさらに他の態様は、
電話機の通話を録音する通話録音システムであって、
前記電話機を収容するとともに、前記電話機の通話を録音するための通話録音機能を有する主装置と、
音声認識サーバを利用して、前記主装置により録音された通話音声データのテキストデータを取得する音声認識依頼端末と、を備え、
前記主装置は、
前記電話機の通話の録音に際して、当該通話が所定のテキスト変換対象条件を満足するか否かを判断する条件判断手段と、
前記条件判断手段により前記通話が前記テキスト変換対象条件を満足しないと判断された場合に、所定のテキスト変換対象形式によって録音された当該通話の通話音声データを所定の通常形式の通話音声データに変換する形式変換手段と、を有し、
前記音声認識依頼端末は、
前記主装置により録音された通話音声データのなかから前記テキスト変換対象形式の通話音声データを選択するテキスト変換対象選択手段と、
前記テキスト変換対象選択手段により選択された通話音声データを含む音声認識依頼を前記音声認識サーバに送信して、前記音声認識サーバから当該通話音声データのテキストデータを取得するテキスト変換依頼手段と、を有する。
【発明の効果】
【0013】
本発明では、電話機の通話の録音に際して、この通話が所定のテキスト変換対象条件を満足するか否かが判断され、テキスト変換対象条件を満足すると判断された場合にのみ、この通話が録音された通話音声データが、音声認識サーバに送信されてテキストデータに変換される。このため、ユーザは、主装置により録音された個々の通話音声データについてテキスト変換の要否を判断する必要がない。したがって、本発明によれば、ユーザに負担をかけることなく、録音された通話音声データのなかからテキスト変換対象の通話音声データを選択して、そのテキストデータを取得することができる。
【図面の簡単な説明】
【0014】
図1図1は、本発明の第1実施の形態に係る通話録音システムの概略構成図である。
図2図2は、本発明の第1実施の形態に係る通話録音システムの動作例を説明するためのシーケンス図である。
図3図3は、本発明の第1実施の形態に係る通話録音システムの動作例を説明するためのシーケンス図であり、図2の続きである。
図4図4は、主装置1の概略機能構成図である。
図5図5は、主装置1の通話録音動作を説明するためのフロー図である。
図6図6は、図5に示すテキスト変換対象条件判断処理S206を説明するためのフロー図である。
図7図7は、主装置1の通話録音リスト・通話音声データ送信動作を説明するためのフロー図である。
図8図8は、音声認識依頼端末2の概略機能構成図である。
図9図9は、音声認識依頼端末2の動作を説明するためのフロー図である。
図10図10は、本発明の第2実施の形態に係る通話録音システムの概略構成図である。
図11図11は、本発明の第2実施の形態に係る通話録音システムの動作例を説明するためのシーケンス図である。
図12図12は、本発明の第2実施の形態に係る通話録音システムの動作例を説明するためのシーケンス図であり、図11の続きである。
図13図13は、主装置1aの概略機能構成図である。
図14図14は、主装置1aの通話録音動作を説明するためのフロー図である。
図15図15は、音声認識依頼端末2aの概略機能構成図である。
図16図16は、音声認識依頼端末2aの動作を説明するためのフロー図である。
【発明を実施するための形態】
【0015】
以下に、本発明の実施の形態について図面を参照して説明する。
[第1実施の形態]
図1は、本実施の形態に係る通話録音システムの概略構成図である。
【0016】
図示するように、本実施の形態に係る通話録音システムは、主装置1と、音声認識依頼端末2と、を備えて構成される。主装置1は、複数の内線電話機3を収容しており、内線電話機3と外線電話網5との通話を録音する通話録音機能を備えている。音声認識依頼端末2は、WAN(Wide Area Network)、LAN(Local Area Network)等のネットワーク6を介して主装置1および音声認識サーバ4に接続されており、音声認識サーバ4を利用して、主装置1により録音された通話音声データのテキストデータを取得する。
【0017】
図2および図3は、本実施の形態に係る通話録音システムの動作例を説明するためのシーケンス図である。
【0018】
外線電話網5から主装置1に接続要求が着信し、これに従って、主装置1が内線電話機3を呼び出していずれかの内線電話機3が接続要求に応答したとする。これにより、接続要求元である外線電話網5側の電話機と接続応答元である内線電話機3との間に主装置1経由で通話路が確立されて両者間の通話が開始されると(S100)、主装置1は、この通話の録音を開始する(S101)。その後、主装置1は、接続要求元と接続応答元との通話が終了すると(S102)、この通話の録音を終了する(S103)。
【0019】
つぎに、主装置1は、この通話が所定のテキスト変換対象条件を満足しているか否かを判断する(S104)。ここでは、接続要求元と接続応答元との通話がテキスト変換対象条件を満足すると判断されたものとする。この場合、主装置1は、この通話が録音された通話音声データをテキスト変換対象に決定し(S105)、この通話音声データに所定のテキスト変換対象フラグを付与する(S106)。
【0020】
さて、音声認識依頼端末2は、定期的な録音リスト要求タイミングの到来、録音リスト要求操作の受付等、所定の録音リスト要求イベントが発生すると(S107)、取得範囲時刻として前回の録音リスト要求イベントの発生時刻の指定を伴う通話録音リスト要求を主装置1に送信する(S108)。
【0021】
これを受けて、主装置1は、通話録音リスト要求で指定されている取得範囲時刻以降に録音された通話音声データのファイル情報の一覧を含む通話録音リストを作成し(S109)、この通話録音リストを音声認識依頼端末2に送信する(S110)。
【0022】
音声認識依頼端末2は、主装置1から通話録音リストを受け取ると、この通話録音リストから、テキスト変換対象フラグが付与された通話音声データを抽出し、この通話音声データをテキスト変換対象に特定する(S111)。それから、テキスト変換対象のファイル名の指定を伴う通話音声データ要求を主装置1に送信する(S112)。
【0023】
これを受けて、主装置1は、自身に記憶されている通話音声データのなかから、通話音声データ要求で指定されているファイル名の通話音声データを検索し、この通話音声データを音声認識依頼端末2に送信する(S113)。
【0024】
つぎに、音声認識依頼端末2は、主装置1から受け取った通話音声データを含む音声認識依頼を音声認識サーバ4に送信する(S114)。これを受けて、音声認識サーバ4は、音声認識依頼端末2から受け取った音声認識依頼に含まれている通話音声データに音声認識処理を実施して、この通話音声データのテキストデータを生成する(S115)。そして、このテキストデータを音声認識依頼端末2に送信する(S116)。
【0025】
つぎに、音声認識依頼端末2は、音声認識サーバ4から受け取ったテキストデータを、このテキストデータの変換元となったテキスト変換対象の通話音声データに紐付けて登録する(S117)。そして、通話音声データの指定を伴うテキスト表示操作を操作者から受け付けたならば、この通話音声データに紐付けられて登録されているテキストデータを表示する。
【0026】
つぎに、本実施の形態に係る通話録音システムを構成する主装置1および音声認識依頼端末2について説明する。
【0027】
なお、内線電話機3には既存の一般的な内線電話機を利用することができ、また、音声認識サーバ4には、ネットワークサービスとして音声認識処理を提供する既存のサーバを利用することができるので、これらの詳細な説明を省略する。
【0028】
まず、主装置1の詳細を説明する。
【0029】
図4は、主装置1の概略機能構成図である。
【0030】
図示するように、主装置1は、外線インターフェース部100と、内線インターフェース部101と、ネットワークインターフェース部102と、呼制御部103と、通話処理部104と、通話履歴記憶部105と、通話録音部106と、通話音声データ記憶部107と、条件判断部108と、フラグ付与部109と、要求処理部110と、テキスト変換履歴記憶部111と、を有する。
【0031】
外線インターフェース部100は、外線電話網5に接続するためのインターフェースであり、内線インターフェース部101は、内線電話機3に接続するためのインターフェースであり、そして、ネットワークインターフェース部102は、ネットワーク6に接続するためのインターフェースである。
【0032】
呼制御部103は、所定の呼制御手順に従い、内線電話機3および外線電話網5と連携して呼制御処理を実施する。これにより、内線電話機3同士の通話路、あるいは、内線電話機3と外線電話網5側の電話機との通話路を確立・解放する。
【0033】
通話処理部104は、呼制御部103によって確立された通話路を用いて、内線電話機3同士、あるいは内線電話機3と外線電話網5側の電話機との通話を中継する。
【0034】
通話履歴記憶部105には、呼制御部103によって確立された通話路を用いた通話の通話履歴が記憶される。
【0035】
通話録音部106は、接続要求元が外線電話網5側の電話機である場合に、この接続要求元と接続応答元である内線電話機3との通話を録音し、その通話音声データを、ユニークなファイル名(例えば連番を含むファイル名)、録音(通話)開始日時、接続要求元の番号情報、接続応答元の番号情報、録音(通話)時間、テキスト変換指示の有無を含むファイル情報に紐付けて通話音声データ記憶部107に記憶する。この際、通話録音部106は、内線インターフェース部101を介して接続応答元である内線電話機3からテキスト変換指示を受け付けたならば、ファイル情報に含まれているテキスト変換指示の有無を、テキスト変換指示「なし」からテキスト変換指示「あり」に変更する。
【0036】
通話音声データ記憶部107には、接続要求元である外線電話網5側の電話機と接続応答元である内線電話機3との通話が録音された通話音声データが、そのファイル情報に紐付けられて記憶される。
【0037】
条件判断部108は、通話音声データ記憶部107に記憶されている通話音声データが所定のテキスト変換対象条件を満足するか否かを、例えば以下のように判断する。
【0038】
通話音声データのファイル情報に含まれている接続要求元の番号情報(外線電話網5側の電話機の電話番号)が所定の電話番号である場合、あるいは接続応答元の番号情報(内線電話機3の内線番号)が所定の内線番号である場合に、テキスト変換対象条件を満足すると判断する。
【0039】
また、通話音声データのファイル情報に含まれている録音開始日時が所定の曜日、所定の時間帯、あるいは所定の期間内である場合に、テキスト変換対象条件を満足すると判断する。
【0040】
また、通話履歴記憶部105を参照し、通話音声データのファイル情報に接続要求元の番号情報として含まれている電話番号との通話実績に基づいて、テキスト変換対象条件を満足するか否かを判断する。例えば、通話履歴記憶部105に、この接続要求元の番号情報に合致する電話番号との通話履歴が、この通話音声データに対応する通話の通話履歴以外に存在しない場合あるいは所定数以上存在する場合に、テキスト変換対象条件を満足すると判断する。
【0041】
また、後述のテキスト変換履歴記憶部111を参照し、通話音声データのテキスト変換実績に基づいてテキスト変換対象条件を満足するか否かを判断する。例えば、通話音声データに紐付けられているファイル情報に接続要求元の番号情報として含まれている電話番号との通話のテキスト変換履歴がテキスト変換履歴記憶部111に記憶されている場合に、テキスト変換対象条件を満足すると判断する。
【0042】
また、通話音声データのファイル情報に含まれている録音時間が所定時間以上である場合に、テキスト変換対象条件を満足すると判断する。
【0043】
また、通話音声データの先頭区間(例えば開始10秒間)から所定の音声キーワード(人名、要件名等)を検出した場合に、テキスト変換対象条件を満足すると判断する。
【0044】
また、通話音声データのファイル情報に含まれているテキスト変換指示の有無がテキスト変換指示「あり」の場合に、テキスト変換対象条件を満足すると判断する。
【0045】
フラグ付与部109は、通話音声データ記憶部107に記憶されている通話音声データのうち、条件判断部108によりテキスト変換対象条件を満足すると判断された通話音声データに所定のテキスト変換対象フラグを付与する。
【0046】
例えば、テキスト変換対象条件を満足する通話音声データのファイル情報に含まれているファイル名の所定位置に所定の文字あるいは所定の文字列を追記することにより、この通話音声データにテキスト変換対象フラグを付与する。例えば、拡張子を含むファイル名「ABCD.aac」がファイル情報に含まれている場合、テキスト変換対象フラグを示す文字列「convert」を、拡張子を除いたファイル名「ABCD」の末尾に付加して、拡張子を含むファイル名を「ABCDconvert.aac」とする。あるいは、テキスト変換対象フラグを示す文字「x」を拡張子「aac」の末尾に付加して、拡張子を含むファイル名を「ABCD.aacx」とする。
【0047】
要求処理部110は、ネットワークインターフェース部102を介して音声認識依頼端末2より受け付けた各種要求を処理する。
【0048】
例えば、音声認識依頼端末2から通話録音リスト要求を受け付けた場合、通話音声データ記憶部107を参照して、ファイル情報に含まれている録音開始日時が、通話録音リスト要求で指定されている取得範囲時刻以降の通話音声データを抽出する。そして、抽出した通話音声データのファイル情報の一覧を含む通話録音リストを作成し、この通話録音リストを音声認識依頼端末2に送信する。
【0049】
また、音声認識依頼端末2から通話音声データ要求を受け付けた場合、この通話音声データ要求で指定されたファイル名を含むファイル情報に紐付けられて通話音声データ記憶部107に記憶されている通話音声データを、このファイル情報とともに音声認識依頼端末2に送信する。また、このファイル情報を後述のテキスト変換履歴記憶部111に記憶する。
【0050】
テキスト変換履歴記憶部111には、音声認識依頼端末2に送信された通話音声データのファイル情報が通話音声データのテキスト変換履歴として記憶される。
【0051】
上記構成の主装置1は、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)などの集積ロジックICによりハード的に実現されるか、DSP(Digital Signal Processor)等の計算機によりソフトウエア的に実現される。あるいは、CPUと、メモリと、ハードディスク、フラッシュメモリ等の補助記憶装置と、NIC(Network Interface Card)、電話回線インターフェースボード等の通信インターフェースと、を備えたPC等の汎用コンピュータにおいて、CPUが所定のプログラムを補助記憶装置からメモリ上にロードして実行することにより実現されてもよい。
【0052】
図5は、主装置1の通話録音動作を説明するためのフロー図である。
【0053】
外線電話網5からの接続要求が外線インターフェース部100を介して呼制御部103に着信し、これに従って、呼制御部103が内線インターフェース部101を介して内線電話機3を呼び出していずれかの内線電話機3が接続要求に応答し、接続要求元(外線電話網5側の電話機)と接続応答元(内線電話機3)との間に通話路が確立され、通話処理部104により両者間の通話が開始されることにより、このフローが開始される。
【0054】
まず、通話録音部106は、接続要求元(外線電話網5側の電話機)と接続応答元(内線電話機3)との通話の録音を開始し、その通話音声データを、ユニークなファイル名、録音開始日時、接続要求元の番号情報、接続応答元の番号情報、録音時間、およびテキスト変換指示の有無を含むファイル情報に紐付けて通話音声データ記憶部107に逐次記憶する(S200)。ここで、ファイル情報に含まれる録音時間およびテキスト変換指示の有無には、それぞれデフォルト値(録音時間「0」およびテキスト変換指示「なし」)が用いられる。
【0055】
つぎに、通話録音部106は、呼制御部103が通話を終了するまでに(S202でNO)、内線インターフェース部101を介して接続応答元(内線電話機3)からテキスト変換指示を受信した場合(S201でYES)、録音中の通話について、通話音声データとともに通話音声データ記憶部107に記憶されているファイル情報に含まれるテキスト変換指示の有無を、テキスト変換指示「なし」からテキスト変換指示「あり」に更新する(S203)。
【0056】
その後、呼制御部103が通話を終了すると(S202でYES)、通話録音部106は、通話の録音を終了し(S204)、この通話の通話音声データとともに通話音声データ記憶部107に記憶されているファイル情報に含まれる録音時間を録音終了時の録音時間(録音開始時刻から録音終了時刻までの経過時間)に更新する(S205)。
【0057】
つぎに、条件判断部108は、通話音声データ記憶部107に新たに記憶された通話音声データについて、後述のテキスト変換条件判断処理によりテキスト変換対象条件を満足しているか否かを判断する(S206)。そして、テキスト変換対象条件を満足すると判断したならば(S207でYES)、フラグ付与部109に、その通話音声データを通知してフラグ付与を指示する。
【0058】
これを受けて、フラグ付与部109は、条件判断部108より通知された通話音声データにテキスト変換対象フラグを付与する(S208)。例えば、通話音声データとともに通話音声データ記憶部107に記憶されているファイル情報に含まれるファイル名に所定の文字あるいは所定の文字列を追記することにより、この通話音声データにテキスト変換対象フラグを付与する。
【0059】
図6は、図5に示すテキスト変換対象条件判断処理S206を説明するためのフロー図である。
【0060】
条件判断部108は、判断対象の通話音声データのファイル情報に含まれる接続要求元の番号情報(外線電話網5側の電話機の電話番号)が所定の電話番号であるか、あるいは接続応答元の番号情報(内線電話機3の内線番号)が所定の内線番号であるならば(S2060でYES)、テキスト変換対象条件を満足すると判断する(S2067)。
【0061】
また、条件判断部108は、判断対象の通話音声データのファイル情報に含まれる録音開始日時が、所定の曜日、所定の時間帯、あるいは所定の期間内であるならば(S2061でYES)、テキスト変換対象条件を満足すると判断する(S2067)。
【0062】
また、条件判断部108は、通話履歴記憶部105を参照し、判断対象の通話音声データのファイル情報に接続要求元の番号情報として含まれている電話番号との通話履歴が、この判断対象の通話音声データに対応する通話の通話履歴以外に存在しない、あるいは、所定数以上存在するならば(S2062でYES)、テキスト変換対象条件を満足すると判断する(S2067)。
【0063】
また、条件判断部108は、テキスト変換履歴記憶部111を参照し、判断対象の通話音声データのファイル情報に接続要求元の番号情報として含まれている電話番号との通話のテキスト変換履歴が存在するならば(S2063でYES)、テキスト変換対象条件を満足すると判断する(S2067)。
【0064】
また、条件判断部108は、判断対象の通話音声データのファイル情報に含まれている録音時間が所定時間以上であるならば(S2064でYES)、テキスト変換対象条件を満足すると判断する(S2067)。
【0065】
また、条件判断部108は、判断対象の通話音声データの先頭区間(例えば開始10秒間)に対して音声認識処理を実施して、その区間から所定の音声キーワード(人名、要件名等)を検出したならば(S2065でYES)、テキスト変換対象条件を満足すると判断する(S2067)。
【0066】
また、条件判断部108は、判断対象の通話音声データのファイル情報に含まれるテキスト変換指示の有無がテキスト変換指示「あり」であるならば(S2066でYES)、テキスト変換対象条件を満足すると判断する(S2067)。
【0067】
一方、条件判断部108は、上述のS2060~S2066の判断結果がいずれも「NO」であるならば、テキスト変換対象条件を満足しないと判断する(S2068)。
【0068】
図7は、主装置1の通話録音リスト・通話音声データ送信動作を説明するためのフロー図である。
【0069】
要求処理部110は、ネットワークインターフェース部102を介して音声認識依頼端末2から通話録音リスト要求を受信すると(S210でYES)、通話音声データ記憶部107を参照し、この通話録音リスト要求で指定されている取得範囲時刻以降に録音された通話音声データのファイル情報の一覧を含む通話録音リストを作成する(S211)。そして、ネットワークインターフェース部102を介して音声認識依頼端末2に、この通話録音リストを送信する(S212)。
【0070】
また、要求処理部110は、ネットワークインターフェース部102を介して音声認識依頼端末2から通話音声データ要求を受信すると(S213でYES)、この通話音声データ要求で指定されたファイル名を含むファイル情報に紐付けられている通話音声データを通話音声データ記憶部107から検索する(S214)。そして、ネットワークインターフェース部102を介して音声認識依頼端末2に、この通話音声データを送信する(S215)。
【0071】
つぎに、音声認識依頼端末2の詳細を説明する。
【0072】
図8は、音声認識依頼端末2の概略機能構成図である。
【0073】
図示するように、音声認識依頼端末2は、ネットワークインターフェース部200と、マンマシンインターフェース部201と、通話録音リスト要求部202と、通話音声データ要求部203と、音声認識依頼部204と、テキスト変換結果記憶部205と、主制御部206と、を有する。
【0074】
ネットワークインターフェース部200は、ネットワーク6に接続するためのインターフェースである。
【0075】
マンマシンインターフェース部201は、ユーザに情報を表示したり、ユーザから各種操作を受け付けたりするためのインターフェースであり、キーボード、マウス等の入力装置およびLCD(Liquid Crystal Display)等の表示装置、あるいはタッチセンサ付きディスプレイ等の入出力装置を含む。
【0076】
通話録音リスト要求部202は、ネットワークインターフェース部200を介して主装置1に、取得範囲時刻の指定を伴う通話録音リスト要求を送信して、主装置1から通話録音リストを取得する。
【0077】
通話音声データ要求部203は、ネットワークインターフェース部200を介して主装置1に、テキスト変換対象の通話音声データのファイル名の指定を伴う通話音声データ要求を送信して、主装置1から通話音声データを取得する。
【0078】
音声認識依頼部204は、ネットワークインターフェース部200を介して音声認識サーバ4に、テキスト変換対象の通話音声データを含む音声認識依頼を送信して、音声認識サーバ4からその音声認識結果であるテキストデータを取得する。
【0079】
テキスト変換結果記憶部205には、テキスト変換対象の通話音声データの音声認識結果であるテキストデータが記憶される。
【0080】
主制御部206は、音声認識依頼端末2の各部200~205を統括的に制御する。
【0081】
上記構成の音声認識依頼端末2は、ASIC、FPGAなどの集積ロジックICによりハード的に実現されるか、DSP等の計算機によりソフトウエア的に実現される。あるいは、CPUと、メモリと、ハードディスク、フラッシュメモリ等の補助記憶装置と、NIC、無線アダプタ等の通信インターフェースと、を備えたPC等の汎用コンピュータにおいて、CPUが所定のプログラムを補助記憶装置からメモリ上にロードして実行することにより実現されてもよい。
【0082】
図9は、音声認識依頼端末2の動作を説明するためのフロー図である。
【0083】
このフローは、定期的な録音リスト要求タイミングの到来、マンマシンインターフェース部201を介したユーザからの録音リスト要求操作の受付等、所定の録音リスト要求イベントが発生することにより開始される。
【0084】
まず、主制御部206は、通話録音リスト要求部202に通話録音リスト要求の送信を指示する。これを受けて、通話録音リスト要求部202は、ネットワークインターフェース部200を介して主装置1に、取得範囲時刻として前回の録音リスト要求イベントの発生時刻の指定を伴う通話録音リスト要求を送信して(S300)、主装置1から通話録音リストを受信する(S301)。そして、受信した通話録音リストを主制御部206に渡す。
【0085】
つぎに、主制御部206は、テキスト変換対象フラグが付与されている通話音声データを通話録音リストから検索する(S302)。具体的には、通話録音リストに記述されているファイル情報のなかに、所定の文字あるいは所定の文字列が追記されたファイル名を含むファイル情報が含まれている場合に、そのファイル情報により特定される通話音声データにテキスト変換フラグが付与されていると判断する。そして、テキスト変換対象フラグが付与されている通話音声データを検索できたならば(S302でYES)、主制御部206は、通話音声データ要求部203に、そのファイル情報に含まれているファイル名を通知して通話音声データ要求の送信を指示する。
【0086】
これを受けて、通話音声データ要求部203は、ネットワークインターフェース部200を介して主装置1に、主制御部206より通知されたファイル名の指定を伴う通話音声データ要求を送信して(S303)、主装置1から通話音声データを受信する(S304)。そして、受信した通話音声データを主制御部206に渡す。
【0087】
つぎに、主制御部206は、音声認識依頼部204に、通話音声データ要求部203より受け取った通話音声データを渡して音声認識依頼の送信を指示する。この際、通話音声データの拡張子にテキスト変換フラグが付与されているならば、これを除去してから音声認識依頼部204に渡す。これを受けて、音声認識依頼部204は、ネットワークインターフェース部200を介して音声認識サーバ4に、主制御部206より受け取った通話音声データを含む音声認識依頼を送信する(S305)。
【0088】
そして、音声認識依頼部204は、音声認識サーバ4から、音声認識依頼に対する応答として音声認識結果のテキストデータを受信すると、このテキストデータを主制御部206に渡す。これを受けて、主制御部206は、音声認識依頼部204から受け取ったテキストデータを、音声認識依頼部204に渡した通話音声データのファイル情報に紐付けてテキスト変換結果記憶部205に記憶する(S306)。
【0089】
その後、主制御部206は、マンマシンインターフェース部201を介してユーザから受け付けた指示に従い、以上のようにしてテキスト変換結果記憶部205に記憶されたテキストデータをマンマシンインターフェース部201に表示することができる。
【0090】
以上、本発明の第1実施の形態について説明した。
【0091】
本実施の形態では、接続要求元である外線電話網5側の電話機と接続応答元である内線電話機3との通話の録音に際して、この通話が所定のテキスト変換対象条件を満足するか否かが判断され、テキスト変換対象条件を満足すると判断された場合にのみ、この通話が録音された通話音声データが音声認識サーバ4に送信されてテキストデータに変換される。このため、ユーザは、主装置1により録音された個々の通話音声データについて、テキスト変換の要否を判断する必要がない。したがって、本実施の形態によれば、ユーザに負担をかけることなく、録音された通話音声データのなかからテキスト変換対象の通話音声データを選択して、そのテキストデータを取得することができる。
【0092】
[第2実施の形態]
図10は、本実施の形態に係る通話録音システムの概略構成図である。
【0093】
本実施の形態に係る通話録音システムが、図1に示す第1実施の形態に係る通話録音システムと異なる点は、主装置1に代えて主装置1aを用いたこと、および音声認識依頼端末2に代えて音声認識依頼端末2aを用いたことである。その他の構成は、図1に示す第1実施の形態に係る通話録音システムと同様である。
【0094】
主装置1aは、図1に示す第1実施の形態に係る通話録音システムの主装置1と同様に、複数の内線電話機3を収容しており、内線電話機3と外線電話網5との通話を録音する通話録音機能を備えている。また、音声認識依頼端末2aも、図1に示す第1実施の形態に係る通話録音システムの音声認識依頼端末2と同様に、ネットワーク6を介して主装置1aおよび音声認識サーバ4に接続されており、音声認識サーバ4を利用して、主装置1aにより録音された通話音声データのテキストデータを取得する。
【0095】
図11および図12は、本実施の形態に係る通話録音システムの動作例を説明するためのシーケンス図である。
【0096】
外線電話網5から主装置1aに接続要求が着信し、これに従って、主装置1aが内線電話機3を呼び出し、いずれかの内線電話機3が接続要求に応答したとする。これにより、接続要求元である外線電話網5側の電話機と接続応答元である内線電話機3との間に主装置1a経由で通話路が確立されて両者間の通話が開始されると(S400)、主装置1aは、所定の通常形式として定めた所定の録音形式によりこの通話の録音を開始する(S401)。その後、主装置1aは、接続要求元と接続応答元との通話が終了すると(S402)、この通話の録音を終了する(S403)。
【0097】
つぎに、主装置1aは、この通話が所定のテキスト変換対象条件を満足しているか否かを判断する(S404)。ここでは、接続要求元と接続応答元との通話がテキスト変換対象条件を満足すると判断されたものとする。この場合、主装置1aは、この通話が録音された通話音声データをテキスト変換対象に決定し(S405)、通常形式に従ってこの通話が録音された通話音声データを、テキスト変換対象形式として定めた所定の録音形式の通話音声データに変換する(S406)。
【0098】
さて、音声認識依頼端末2aは、定期的な録音リスト要求タイミングの到来、録音リスト要求操作の受付等、所定の録音リスト要求イベントが発生すると(S407)、取得範囲時刻として前回の録音リスト要求イベントの発生時刻の指定を伴う通話録音リスト要求を主装置1aに送信する(S408)。
【0099】
これを受けて、主装置1aは、通話録音リスト要求で指定されている取得範囲時刻以降に録音された通話音声データについて、そのファイル名、録音形式等を含むファイル情報の一覧を含む通話録音リストを作成し(S409)、この通話録音リストを音声認識依頼端末2aに送信する(S410)。
【0100】
音声認識依頼端末2aは、主装置1aから通話録音リストを受け取ると、この通話録音リストから、テキスト変換対象形式に変換された通話音声データを抽出し、この通話音声データをテキスト変換対象に特定する(S411)。それから、テキスト変換対象の指定を伴う通話音声データ要求を主装置1aに送信する(S412)。
【0101】
これを受けて、主装置1aは、自身に記憶されている通話音声データのなかから、通話音声データ要求で指定されているファイル名の通話音声データを検索し、この通話音声データを音声認識依頼端末2aに送信する(S413)。
【0102】
つぎに、音声認識依頼端末2aは、主装置1aから受け取った通話音声データを含む音声認識依頼を音声認識サーバ4に送信する(S414)。これを受けて、音声認識サーバ4は、音声認識依頼端末2aから受け取った音声認識依頼に含まれている通話音声データに音声認識処理を実施して、この通話音声データのテキストデータを生成する(S415)。そして、このテキストデータを音声認識依頼端末2aに送信する(S416)。
【0103】
つぎに、音声認識依頼端末2aは、音声認識サーバ4から受け取ったテキストデータを、このテキストデータの変換元となったテキスト変換対象の通話音声データに紐付けて登録する(S417)。そして、通話音声データの指定を伴うテキスト表示操作を操作者から受け付けたならば、この通話音声データに紐付けられて登録されているテキストデータを表示する。
【0104】
つぎに、本実施の形態に係る通話録音システムを構成する主装置1aおよび音声認識依頼端末2aについて説明する。
【0105】
まず、主装置1aの詳細を説明する。
【0106】
図13は、主装置1aの概略機能構成図である。
【0107】
図示するように、主装置1aが、図4に示す第1実施の形態に係る主装置1と異なる点は、通話録音部106に代えて通話録音部106aを用いたこと、および、フラグ付与部109に代えて録音形式変換部112を用いたことである。その他の構成は、主装置1と同様である。
【0108】
通話録音部106aは、接続要求元が外線電話網5側の電話機である場合に、この接続要求元と接続応答元である内線電話機3との通話を通常形式で録音し、その通話音声データを、ユニークなファイル名、録音形式、録音(通話)開始日時、接続要求元の番号情報、接続応答元の番号情報、録音(通話)時間、テキスト変換指示の有無を含むファイル情報に紐付けて通話音声データ記憶部107に記憶する。この際、通話録音部106aは、内線インターフェース部101を介して接続応答元である内線電話機3からテキスト変換指示を受け付けたならば、ファイル情報に含まれているテキスト変換指示の有無を、テキスト変換指示「なし」からテキスト変換指示「あり」に変更する。
【0109】
録音形式変換部112は、通話音声データ記憶部107に記憶されている通話音声データのうち、条件判断部108によりテキスト変換対象条件を満足すると判断された通話音声データの録音形式を、通常形式からテキスト変換対象形式に変換する。具体的には、通話音声データの符号化方式を、例えばAAC(Advanced Audio Coding)からMP3(MPEG1 Audio Layer3)形式に変換する。
【0110】
上記構成の主装置1aは、第1実施の形態の主装置1と同様に、ASIC、FPGAなどの集積ロジックICによりハード的に実現されるか、DSP等の計算機によりソフトウエア的に実現される。あるいは、CPUと、メモリと、ハードディスク、フラッシュメモリ等の補助記憶装置と、NIC、電話回線インターフェースボード等の通信インターフェースと、を備えたPC等の汎用コンピュータにおいて、CPUが所定のプログラムを補助記憶装置からメモリ上にロードして実行することにより実現されてもよい。
【0111】
図14は、主装置1aの通話録音動作を説明するためのフロー図である。
【0112】
外線電話網5からの接続要求が外線インターフェース部100を介して呼制御部103に着信し、これに従って、呼制御部103が内線インターフェース部101を介して内線電話機3を呼び出していずれかの内線電話機3が接続要求に応答し、接続要求元(外線電話網5側の電話機)と接続応答元(内線電話機3)との間に通話路が確立され、通話処理部104により両者間の通話が開始されることにより、このフローが開始される。
【0113】
まず、通話録音部106aは、接続要求元(外線電話網5側の電話機)と接続応答元(内線電話機3)との通話の録音を、通常形式に従って開始し、その通話音声データを、ユニークなファイル名、録音形式、録音開始日時、接続要求元の番号情報、接続応答元の番号情報、録音時間、およびテキスト変換指示の有無を含むファイル情報に紐付けて通話音声データ記憶部107に逐次記憶する(S500)。ここでファイル情報に含まれる録音時間およびテキスト変換指示の有無には、それぞれ、デフォルト値(録音時間「0」およびテキスト変換指示「なし」)が用いられる。
【0114】
つぎに、通話録音部106aは、呼制御部103が通話を終了するまでに(S502でNO)、内線インターフェース部101を介して接続応答元(内線電話機3)からテキスト変換指示を受信した場合(S501でYES)、録音中の通話について、通話音声データとともに通話音声データ記憶部107に記憶されているファイル情報に含まれているテキスト変換指示の有無を、テキスト変換指示「なし」からテキスト変換指示「あり」に更新する(S503)。
【0115】
その後、呼制御部103が通話を終了すると(S502でYES)、通話録音部106aは、通話の録音を終了し(S504)、この通話の通話音声データとともに通話音声データ記憶部107に記憶されているファイル情報に含まれる録音時間を録音終了時の録音時間(録音開始時刻から録音終了時刻までの経過時間)に更新する(S505)。
【0116】
つぎに、条件判断部108は、通話音声データ記憶部107に新たに記憶された通話音声データについて、図6を用いて説明したテキスト変換条件判断処理によりテキスト変換対象条件を満足しているか否かを判断する(S506)。そして、テキスト変換対象条件を満足すると判断したならば(S507でYES)、録音形式変換部112に、その通話音声データを通知してテキスト変換対象形式への変換を指示する。
【0117】
これを受けて、録音形式変換部112は、通話音声データ記憶部107に記憶されている通話音声データのうち、条件判断部108により通知された通話音声データの録音形式を、通常形式からテキスト変換対象形式に変換する(S508)。具体的には、通話音声データの符号化方式を、例えばAACからMP3形式に変換する。これに伴い、録音形式変換部112は、テキスト変換対象形式に変換された通話音声データに紐付けられて通話音声データ記憶部107に記憶されているファイル情報に含まれている録音形式を、通常形式からテキスト変換対象形式に更新する。
【0118】
つぎに、音声認識依頼端末2aの詳細を説明する。
【0119】
図15は、音声認識依頼端末2aの概略機能構成図である。
【0120】
図示するように、音声認識依頼端末2aが、図8に示す第1実施の形態に係る音声認識依頼端末2と異なる点は、主制御部206に代えて主制御部206aを用いたことである。その他の構成は、音声認識依頼端末2と同様である。
【0121】
主制御部206aは、音声認識依頼端末2aの各部200~205を統括的に制御する。
【0122】
上記構成の音声認識依頼端末2aは、第1実施の形態に係る音声認識依頼端末2と同様に、ASIC、FPGAなどの集積ロジックICによりハード的に実現されるか、DSP等の計算機によりソフトウエア的に実現される。あるいは、CPUと、メモリと、ハードディスク、フラッシュメモリ等の補助記憶装置と、NIC、無線アダプタ等の通信インターフェースと、を備えたPC等の汎用コンピュータにおいて、CPUが所定のプログラムを補助記憶装置からメモリ上にロードして実行することにより実現されてもよい。
【0123】
図16は、音声認識依頼端末2aの動作を説明するためのフロー図である。
【0124】
このフローは、定期的な録音リスト要求タイミングの到来、マンマシンインターフェース部201を介したユーザからの録音リスト要求操作の受付等、所定の録音リスト要求イベントが発生することにより開始される。
【0125】
まず、主制御部206aは、通話録音リスト要求部202に通話録音リスト要求の送信を指示する。これを受けて、通話録音リスト要求部202は、ネットワークインターフェース部200を介して主装置1aに、取得範囲時刻として前回の録音リスト要求イベントの発生時刻の指定を伴う通話録音リスト要求を送信して(S600)、主装置1aから通話録音リストを受信する(S601)。そして、受信した通話録音リストを主制御部206aに渡す。
【0126】
つぎに、主制御部206aは、録音形式がテキスト変換対象形式の通話音声データを通話録音リストから検索する(S602)。具体的には、通話録音リストに記述されているファイル情報に含まれている録音形式がテキスト変換対象形式である場合に、そのファイル情報により特定される通話音声データがテキスト変換対象形式の通話音声データであると判断する。そして、テキスト変換対象形式の通話音声データを検索できたならば(S602でYES)、主制御部206aは、通話音声データ要求部203に、そのファイル情報に含まれているファイル名を通知して通話音声データ要求の送信を指示する。
【0127】
これを受けて、通話音声データ要求部203は、ネットワークインターフェース部200を介して主装置1aに、主制御部206aより通知されたファイル名の指定を伴う通話音声データ要求を送信して(S603)、主装置1aから通話音声データを受信する(S604)。そして、受信した通話音声データを主制御部206aに渡す。
【0128】
つぎに、主制御部206aは、音声認識依頼部204に通話音声データ要求部203より受け取った通話音声データを渡して音声認識依頼の送信を指示する。これを受けて、音声認識依頼部204は、ネットワークインターフェース部200を介して音声認識サーバ4に、主制御部206aより受け取った通話音声データを含む音声認識依頼を送信する(S605)。
【0129】
そして、音声認識依頼部204は、音声認識サーバ4から音声認識依頼に対する応答として音声認識結果のテキストデータを受信すると、このテキストデータを主制御部206aに渡す。これを受けて、主制御部206aは、音声認識依頼部204から受け取ったテキストデータを、音声認識依頼部204に渡した通話音声データのファイル情報に紐付けてテキスト変換結果記憶部205に記憶する(S606)。
【0130】
その後、主制御部206aは、マンマシンインターフェース部201を介してユーザから受け付けた指示に従い、以上のようにしてテキスト変換結果記憶部205に記憶されたテキストデータをマンマシンインターフェース部201に表示することができる。
【0131】
以上、本発明の第2実施の形態について説明した。
【0132】
本実施の形態においても、上記第1実施の形態と同様に、接続要求元である外線電話網5側の電話機と接続応答元である内線電話機3との通話の録音に際して、この通話が所定のテキスト変換対象条件を満足するか否かが判断され、テキスト変換対象条件を満足すると判断された場合にのみ、この通話が録音された通話音声データが音声認識サーバ4に送信されてテキストデータに変換される。このため、ユーザは、主装置1aにより録音された個々の通話音声データについて、テキスト変換の要否を判断する必要がない。したがって、本実施の形態によれば、ユーザに負担をかけることなく、録音された通話音声データのなかからテキスト変換対象の通話音声データを選択して、そのテキストデータを取得することができる。
【0133】
なお、本実施の形態の主装置1aにおいて、通話録音部106aは、接続要求元である外線電話網5側の電話機と接続応答元である内線電話機3との通話を通常形式で録音し、条件判断部108によりこの通話がテキスト変換対象条件を満足していると判断された場合に、録音形式変換部112が、この通話音声データをテキスト変換対象形式の通話音声データに変換している。しかし、本発明はこれに限定されない。通話録音部106aは、接続要求元である外線電話網5側の電話機と接続応答元である内線電話機3との通話をテキスト変換対象形式で録音し、条件判断部108によりこの通話がテキスト変換対象条件を満足していると判断されなかった場合に、録音形式変換部112が、この通話音声データのビットレートを例えば128kbpsから64kbpsに変換したり、あるいは、この通話音声データのチャンネル数を例えばステレオからモノラルに変換したりするなど、通常形式の通話音声データに変換してもよい。この場合、テキスト変換対象形式を高品質とすることできるので、テキスト変換対象形式で録音された通話音声データの音声認識率を向上させることができる。また、通話形式を低品質として通話音声データの保存領域を節約(データ容量を削減)することができる。
【0134】
なお、本発明は上記の実施の形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。
【0135】
例えば、上記の各実施の形態において、主装置1、1aは、図6に示すフローに従い、S2060~S2066のすべての条件について、それを満足するか否かを判断することにより、通話が所定のテキスト変換対象条件を満足するか否かを判断している。しかし、本発明はこれに限定されない。S2060~S2066の少なくとも一つの条件について、それを満足するか否かを判断することにより、通話がテキスト変換対象条件を満足するか否かを判断するものでもよい。
【0136】
また、上記の各実施の形態において、主装置1、1aは、図5図14に示すように、通話終了後に、その通話がテキスト変換対象条件を満足するか否かを図6に示すフローに従って判断している。しかし、本発明はこれに限定されない。例えば、図6のS2060~S2063に示すような通話開始前に判断可能な条件は、通話開始時に判断してもよい。また、図6のS2064~S2066に示すような通話中に判断可能な条件は、通話中に判断してもよい。
【0137】
また、上記の各実施の形態において、主装置1、1aは、接続要求元である外線電話網5側の電話機と接続応答元である内線電話機3との通話を録音しているが、本発明はこれに限定されない。内線電話機3と通話相手との通話をすべて録音するようにしてもよい。あるいは、通話中の内線電話機3から録音指示を受け付けた場合に、この通話を録音するようにしてもよい。
【0138】
また、上記の各実施の形態において、音声認識依頼端末2、2aは、主装置1、1aと同じ装置上に構成されて一体化していてもよい。また、音声認識サーバ4は、音声認識依頼端末2、2aと同じ装置上に構成されて一体化していてもよい。
【符号の説明】
【0139】
1、1a:主装置 2、2a:音声認識依頼端末
3:内線電話機 4:音声認識サーバ 5:外線電話網
6:ネットワーク 100:外線インターフェース部
101:内線インターフェース部
102:ネットワークインターフェース部
103:呼制御部 104:通話処理部
105:通話履歴記憶部 106、106a:通話録音部
107:通話音声データ記憶部 108:条件判断部
109:フラグ付与部 110:要求処理部
111:テキスト変換履歴記憶部 112:録音形式変換部
200:ネットワークインターフェース部
201:マンマシンインターフェース部
202:通話録音リスト要求部 203:通話音声データ要求部
204:音声認識依頼部 205:テキスト変換結果記憶部
206、206a:主制御部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16