IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立ソリューションズの特許一覧

特開2023-84571音声処理システム、プログラム、方法、オンライン会議システム、および音声通話装置
<>
  • 特開-音声処理システム、プログラム、方法、オンライン会議システム、および音声通話装置 図1
  • 特開-音声処理システム、プログラム、方法、オンライン会議システム、および音声通話装置 図2
  • 特開-音声処理システム、プログラム、方法、オンライン会議システム、および音声通話装置 図3
  • 特開-音声処理システム、プログラム、方法、オンライン会議システム、および音声通話装置 図4
  • 特開-音声処理システム、プログラム、方法、オンライン会議システム、および音声通話装置 図5
  • 特開-音声処理システム、プログラム、方法、オンライン会議システム、および音声通話装置 図6
  • 特開-音声処理システム、プログラム、方法、オンライン会議システム、および音声通話装置 図7
  • 特開-音声処理システム、プログラム、方法、オンライン会議システム、および音声通話装置 図8
  • 特開-音声処理システム、プログラム、方法、オンライン会議システム、および音声通話装置 図9
  • 特開-音声処理システム、プログラム、方法、オンライン会議システム、および音声通話装置 図10
  • 特開-音声処理システム、プログラム、方法、オンライン会議システム、および音声通話装置 図11
  • 特開-音声処理システム、プログラム、方法、オンライン会議システム、および音声通話装置 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023084571
(43)【公開日】2023-06-19
(54)【発明の名称】音声処理システム、プログラム、方法、オンライン会議システム、および音声通話装置
(51)【国際特許分類】
   G10L 17/00 20130101AFI20230612BHJP
   G10L 15/10 20060101ALI20230612BHJP
   H04M 3/56 20060101ALI20230612BHJP
【FI】
G10L17/00 200C
G10L15/10 200W
H04M3/56 Z
G10L15/10 500Z
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2021198830
(22)【出願日】2021-12-07
(71)【出願人】
【識別番号】000233055
【氏名又は名称】株式会社日立ソリューションズ
(74)【代理人】
【識別番号】110000279
【氏名又は名称】弁理士法人ウィルフォート国際特許事務所
(72)【発明者】
【氏名】大木 勝
【テーマコード(参考)】
5K201
【Fターム(参考)】
5K201AA09
5K201BB09
5K201CA01
5K201DC02
5K201DC05
(57)【要約】      (修正有)
【課題】音声により継続的に人物の認証を行う音声処理システム、音声処理方及びオンライン会議システムを提供する。
【解決手段】音声処理システム21は、特定人物の音声の特徴を表す声紋データを記憶する記憶部32と、継続的な受信音声データに含まれる人物の音声を取得する音声情報受信処理部37と、声紋データに基づいて、取得された音声に対して時系列に声紋認証を行い、特定人物の音声と推定される度合いを表す認証結果値を時系列に生成する認証管理システム36と、を有する。
【選択図】図2
【特許請求の範囲】
【請求項1】
特定人物の音声の特徴を表す声紋データを記憶する記憶部と、
継続的な受信音声データに含まれる人物の音声を取得する受信処理部と、
前記声紋データに基づいて前記取得された音声に対して時系列に声紋認証を行い、前記特定人物の音声と推定される度合いを表す認証結果値を時系列に生成する認証処理部と、
を有する音声処理システム。
【請求項2】
前記認証結果値が所定の閾値以上である間、前記受信音声データにおける前記特定人物の音声のみの音声データまたは前記特定人物の音声を取り除いた音声データを生成する認証結果処理部を更に有する、
請求項1に記載の音声処理システム。
【請求項3】
前記記憶部は、所定の文脈を示す文脈データを更に記憶し、
前記認証結果値が所定の閾値を下回っていれば、前記受信音声データにおける音声の文脈を抽出し、前記抽出された文脈と前記文脈データに示された文脈とが一致するか否かにより異なる処理を行う認証結果処理部を更に有する、
請求項1に記載の音声処理システム。
【請求項4】
所定の宛先アドレスに宛てた所定の電子メールを生成する電子メール処理部を更に有し、
前記認証結果処理部は、前記抽出された文脈と前記文脈データに示された文脈とが一致したら、前記電子メール処理部に前記電子メールを生成させる、
請求項3に記載の音声処理システム。
【請求項5】
所定の宛先アドレスに宛てた所定の電子メールを生成する電子メール処理部と、
前記認証結果値が所定の閾値を下回っていれば、前記電子メール処理部に前記電子メールを生成させる認証結果処理部と、を更に有する、
請求項1に記載の音声処理システム。
【請求項6】
前記認証処理部は、所定の継続時間だけ前記取得された音声に対して声紋認証を行い、前記継続時間が経過すると前記音声に対する声紋認証を終了する、
請求項3または5に記載の音声処理システム。
【請求項7】
前記認証結果処理部は、前記認証結果値が所定の閾値以上である間、前記受信音声データにおける前記特定人物の音声のみの音声データを生成する通過モードと、前記特定人物の音声を取り除いた音声データを生成する廃棄モードとが選択可能である、
請求項2に記載の音声処理システム。
【請求項8】
コンピュータに、
特定人物の音声の特徴を表す声紋データを記憶し、
継続的な受信音声データを受信し、
前記声紋データに基づいて前記受信音声データに対して時系列に声紋認証を行い、前記特定人物の音声と推定される度合いを表す認証結果値を時系列に生成する、ことを実行させるための音声処理プログラム。
【請求項9】
コンピュータが、
特定人物の音声の特徴を表す声紋データを記憶し、
継続的な受信音声データを受信し、
前記声紋データに基づいて前記受信音声データに対して時系列に声紋認証を行い、前記特定人物の音声と推定される度合いを表す認証結果値を時系列に生成する、ことを実行する音声処理方法。
【請求項10】
通信ネットワークを介して複数の参加者が相互に音声で対話を行うためのオンライン会議システムであって、
参加者の音声を収音した音声データを加工し、他の参加者に聴取させる音声データを生成する音声処理システムを有し、
前記音声処理システムは、
特定人物の音声の特徴を表す声紋データを記憶する記憶部と、
継続的な受信音声データに含まれる人物の音声を取得する受信処理部と、
前記声紋データに基づいて前記取得された音声に対して時系列に声紋認証を行い、前記特定人物の音声と推定される度合いを表す認証結果値を時系列に生成する認証処理部と、
前記認証結果値が所定の閾値以上であるか否かに応じて前記受信音声データを加工する認証結果処理部と、を有し、
前記認証結果処理部は、前記特定人物の音声を通過させる通過モードと前記特定人物の音声を廃棄する廃棄モードとが選択可能であり、
前記通過モードでは、前記認証結果値が前記閾値以上である音声を通過させ、前記認証結果値が前記閾値を下回っている音声を所定条件を満たせば通過させ、
前記廃棄モードでは、前記認証結果値が前記閾値以上である音声を廃棄し、前記認証結果値が前記閾値を下回っている音声を通過させる、
オンライン会議システム。
【請求項11】
前記所定条件は、利用者が通過を許可したという条件である、
請求項10に記載のオンライン会議システム。
【請求項12】
前記所定条件は、前記受信音声データから音声が取得された人物が所定人数以下の場合には前記人物の音声を通過させ、前記受信音声データから音声が取得された人物が前記所定人数を超えている場合には前記認証結果値と音量とに基づいて選択された前記所定人数の音声のみを通過させることである、
請求項10に記載のオンライン会議システム。
【請求項13】
利用者が通信ネットワークを介して通話相手と相互に音声で通話を行うための音声通話装置であって、
前記通話相手の音声を収音した第1音声データを加工し、前記利用者に聴取させる第2音声データを生成する音声処理システムを有し、
前記音声処理システムは、
特定人物の音声の特徴を表す声紋データを記憶する記憶部と、
継続的な受信音声データに含まれる人物の音声を取得する受信処理部と、
前記声紋データに基づいて前記取得された音声に対して時系列に声紋認証を行い、前記特定人物の音声と推定される度合いを表す認証結果値を時系列に生成する認証処理部と、
前記認証結果値が所定の閾値以上であるか否かに応じた処理を実行する認証結果処理部と、を有し、
前記記憶部は、単語を登録した文脈データを更に記憶し、
前記認証結果処理部は、
前記認証結果値が前記閾値を下回っている音声について、前記文脈データに基づいて不審であるか否か判定し、不審であったら、前記通話の録音と、警告用の電子メールの送信と、音声による警告との1つ以上を実行する、
音声通話装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声の認証を行う技術に関する。
【背景技術】
【0002】
様々な用途で音声データが活用されている。電話やオンライン会議では音声データにより通話が実現される。また、会議の議事録を作成するのにも音声データが利用される。それら様々な用途においてデータに含まれる音の中から特定の人物の音声を特定することが求められている。
【0003】
音声から人物の本人確認を行う技術として音声認証技術がある。音声認証には、コールセンターにおける電話相手の人物を確認するといった用途がある。また、スマーフォンのロック解除といった用途もある(特許文献1参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特表2015-509680号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
一般的に音声認証技術は本人確認のために利用される。そのため本人確認が終われば音声認証も終わる。しかしながら、継続的に人物を特定することが要求される場面がある。例えば、オンライン会議や電話の音声から特定の人物の音声のみを抽出したい場合がある。また、電話を利用した様々な特殊詐欺を防止するために、電話の音声において通話相手が悪意の人物であるか否かを継続的に計測したい場合がある。
【0006】
本開示のひとつの目的は、音声により継続的に人物の認証を行う技術を提供することである。
【課題を解決するための手段】
【0007】
本開示のひとつの態様による音声処理システムは、特定人物の音声の特徴を表す声紋データを記憶する記憶部と、継続的な受信音声データに含まれる人物の音声を取得する受信処理部と、前記声紋データに基づいて前記取得された音声に対して時系列に声紋認証を行い、前記特定人物の音声と推定される度合いを表す認証結果値を時系列に生成する認証処理部と、を有する。
【0008】
本開示の他の態様によるオンライン会議システムは、通信ネットワークを介して複数の参加者が相互に音声で対話を行うためのオンライン会議システムであって、参加者の音声を収音した音声データを加工し、他の参加者に聴取させる音声データを生成する音声処理システムを有し、前記音声処理システムは、特定人物の音声の特徴を表す声紋データを記憶する記憶部と、継続的な受信音声データに含まれる人物の音声を取得する受信処理部と、前記声紋データに基づいて前記取得された音声に対して時系列に声紋認証を行い、前記特定人物の音声と推定される度合いを表す認証結果値を時系列に生成する認証処理部と、前記認証結果値が所定の閾値以上であるか否かに応じて前記受信音声データを加工する認証結果処理部と、を有し、前記認証結果処理部は、前記特定人物の音声を通過させる通過モードと前記特定人物の音声を廃棄する廃棄モードとが選択可能であり、前記通過モードでは、前記認証結果値が前記閾値以上である音声を通過させ、前記認証結果値が前記閾値を下回っている音声を所定条件を満たせば通過させ、前記廃棄モードでは、前記認証結果値が前記閾値以上である音声を廃棄し、前記認証結果値が前記閾値を下回っている音声を通過させる。
【0009】
本開示の他の態様による、音声通話装置は、利用者が通信ネットワークを介して通話相手と相互に音声で通話を行うための音声通話装置であって、前記通話相手の音声を収音した音声データを加工し、前記利用者に聴取させる音声データを生成する音声処理システムを有し、前記音声処理システムは、特定人物の音声の特徴を表す声紋データを記憶する記憶部と、継続的な受信音声データに含まれる人物の音声を取得する受信処理部と、前記声紋データに基づいて前記取得された音声に対して時系列に声紋認証を行い、前記特定人物の音声と推定される度合いを表す認証結果値を時系列に生成する認証処理部と、前記認証結果値が所定の閾値以上であるか否かに応じた処理を実行する認証結果処理部と、を有し、前記記憶部は、単語を登録した文脈データを更に記憶し、前記認証結果処理部は、前記認証結果値が前記閾値を下回っている音声について、前記文脈データに基づいて不審であるか否か判定し、不審であったら、前記通話の録音と、警告用の電子メールの送信と、音声による警告との1つ以上を実行する。
【発明の効果】
【0010】
本開示のひとつの態様によれば、音声により継続的に人物の認証を行うことが可能になる。
【図面の簡単な説明】
【0011】
図1】実施例1におけるオンライン会議システムの概略のブロック図である。
図2】実施例1における音声処理システムのブロック図である。
図3】実施例1における音声処理システムが実行する処理のフローチャートである。
図4】実施例1におけるシステム共通データを示すテーブルである。
図5】実施例1における個別データを示すテーブルである。
図6】実施例1における個別データの他の例を示すテーブルである。
図7】実施例1の変形例における音声処理システムのブロック図である。
図8】実施例2における音声通話装置の概略のブロック図である。
図9】実施例2における音声処理システムのブロック図である。
図10】実施例2における音声処理システムが実行する処理のフローチャートである。
図11】実施例2におけるシステム共通データを示すテーブルである。
図12】実施例2における個別データを示すテーブルである。
【発明を実施するための形態】
【0012】
以下、本発明の実施形態について図面を参照して説明する。
【実施例0013】
実施例1では、マイクで収音された音声から参加者の音声のみを相手に聞かせることが可能なオンライン会議システムを例示する。
【0014】
図1は、実施例1におけるオンライン会議システムの概略のブロック図である。
【0015】
図1を参照すると、オンライン会議システム11は、音声あるいは音声および画像による複数の参加者の相互に対話を実現するシステムである。オンライン会議システム11には音声処理システム21が組み込まれている。音声処理システム21は、収音した音声から参加者91、91の音声を識別して抽出するシステムである。なお、図1にはオンライン会議システム11により2人の参加者91、91が別々の拠点にいて1対1で会議を行う例を示しているが、この形態に限定されることはない。参加者91のいる拠点が3か所以上であってもよい。また、1つの拠点にいる参加者91が複数人であってもよい。また、1つの拠点にいる人物のうち音声を識別して抽出する参加者91も1人に限定されない。1つの拠点にいる複数の参加者91の音声を識別して抽出するものであってもよい。
【0016】
オンライン会議システム11は、一例として、クラウド上に構築されたセンタシステム(不図示)と、参加者91、91の利用するパーソナルコンピュータ、スマートフォン、あるいはタブレット端末などの端末装置(不図示)とにより構成される。その場合、音声処理システム21は、クラウド上のシステムに組み込まれても良いし、端末装置に組み込まれてもよい。
【0017】
図2は、実施例1における音声処理システムのブロック図である。図2の音声処理システム21は、ここでは一例としてクラウド上に実装され、参加者91、91の端末装置(不図示)からインターネット92経由で音声データ(受信音声データ)を受信し、受信音声データから参加者91、91の音声を抽出し、抽出した音声から送信音声データを生成し、インターネット92経由で参加者91、91の端末装置(不図示)に送信する。
【0018】
ここでは一例として、参加者91の端末装置からの受信音声データから参加者91の音声を抽出し、抽出した音声から送信音声データを生成して参加者91の端末装置に送信する処理と、参加者91の端末装置からの受信音声データから参加者91の音声を抽出し、抽出した音声から送信音声データを生成して参加者91の端末装置に送信する処理とは同じ処理であるものとする。以下、参加者91の端末装置からの受信音声データから参加者91の音声を抽出し、抽出した音声から送信音声データを生成して参加者91の端末装置に送信する処理に主に着目して説明する。
【0019】
音声処理システム21は、中央演算部31と記憶部32を備えている。
【0020】
中央演算部31はCPU(不図示)とメモリ(不図示)とを備え、ソフトウェアプログラムを実行することによりシステムが実現される。中央演算部31により、通信部33、音声受信部34、音声送信部35、認証管理システム36、および認証結果判断システム40が実現される。認証管理システム36は、音声情報受信処理部37、音声情報認証処理部38、および認証結果出力部39を含む。認証結果判断システム40は認証結果処理部41を含む。
【0021】
記憶部32は、ソフトウェアプログラムの処理に利用されるデータが格納される記憶装置である。記憶部32には、参加者91、91の音声の特徴を表す声紋データが登録された声紋データベース(声紋DB)42が格納されている。
【0022】
通信部33は、インターネット92経由のデータ通信を実現する通信装置である。
【0023】
音声受信部34は、参加者91の端末装置から受信音声データを受信し、認証管理システム36に提供する。
【0024】
認証管理システム36は、受信音声データに対して時系列に継続的に声紋認証を行って、参加者91の認証結果を時系列に出力する。参加者91の認証結果は、例えば、参加者91の音声であると推定される度合いを表す指標値(認証結果値)である。
【0025】
認証管理システム36において、音声情報受信処理部37は、音声受信部34から受信音声データを受信し、人物の音声を取得する。ここでは複数の人物の音声が取得される場合もあり、例えば、参加者91の音声と、他の人物の音声とが取得される場合がある。音声情報認証処理部38は、声紋データに基づいて、受信音声データから取得された人物の音声に対して時系列に声紋認証を行い、認証結果値を時系列に生成する。認証結果値は、参加者91の音声と推定される度合いを表すので、その値が大きいほど参加者91の音声である可能性が高い。認証結果出力部39は、認証結果として、受信音声データから取得された人物の音声とその音声の認証結果値とを出力する。
【0026】
認証結果判断システム40は、認証管理システム36による認証結果に基づき、受信音声データに関する処理を実行する。
【0027】
認証結果判断システム40において、認証結果処理部41は、認証管理システム36の認証結果出力部39が出力した時系列の認証結果値を順次、所定の閾値と比較し、認証結果値が閾値以上である間、その認証結果値に対応する人物の音声を参加者91の音声であると判断し、参加者91の音声のみの音声データを生成する。
【0028】
音声送信部35は、認証結果処理部41で生成された参加者91の音声のみの音声データを送信音声データとして、通信部33およびインターネット92を介して、参加者91の端末装置に送信する。その結果、参加者91の端末装置では、参加者91の端末装置にて収音された音声データに含まれる参加者91の音声のみが出力され、参加者91に聴取される。
【0029】
以下、音声処理システム21の処理について更に詳細に説明する。
【0030】
図3は、実施例1における音声処理システムが実行する処理のフローチャートである。音声処理システム21は、システム共通データおよび個別データを用いて処理を実行する。システム共通データは、個々の人物に依存しない共通的なデータである。音声処理システム21の全体あるいは一部が汎用的なものとしてパッケージ化される場合、その全体的な動作モードはシステム共通データとして設定されてもよい。個別データは、個々の人物のそれぞれについて記録されるデータである。
【0031】
図4は、実施例1におけるシステム共通データを示すテーブルである。
【0032】
システム共通データには、声紋認証閾値、メール送信閾値、アクションモード、音声調整実施機能、文脈チェック、音声録音実施、送信メールアドレス、メール送信/通話者への警告という各項目についての設定値が登録されている。
【0033】
声紋認証閾値は、音声データから取得された人物の音声が声紋DB42に登録されている人物のものであるか否かを判定するために、認証結果値と比較される閾値である。認証結果値がこの閾値以上であれば、音声データから取得された音声の人物が声紋DB42に登録されている声紋データの人物と同一人物であると判定される。本実施例では声紋認証閾値は80%と設定されている。
【0034】
メール送信閾値は、認証結果値に応じて予め決められた電子メールを送信するために、認証結果値と比較される閾値である。認証結果値がこの閾値を下回った場合に、予め決められた電子メールが送信される。例えば、音声データから取得された音声の人物が声紋DB42に登録されている声紋データの人物でない場合に自動的に電子メールを送信するという利用が可能である。本実施例では、電子メールを送信する機能は利用されないので、メール送信閾値は設定されていない。
【0035】
アクションモードは、認証結果値が声紋認証閾値以上であった場合に実行するアクションを定める設定情報である。認証結果値が声紋認証閾値以上であった場合に、当該人物の音声を通過させるか、廃棄処理するか、あるいは認証結果値が声紋認証閾値以上であっても何もしないかを設定することができる。
【0036】
音声調整実施機能は、認証結果値が声紋認証閾値を下回った場合の廃棄処理に関する動作を規定する設定情報である。ここでいう廃棄処理は、単に音声を廃棄するだけの処理ではなく、設定されたモードによって異なる処理が実行される。この廃棄処理を音声調整実施機能と呼ぶ。音声調整実施機能には、自動、手動、オフという3つのモードがある。自動のモードが設定された場合、認証結果値が声紋認証閾値を下回っている人物の音声について、音声データから音声が取得された人物が所定人数以下の場合にはその音声を通過させ、所定人数を超えている場合には認証結果値が高い値でありかつ音量が大きい方から所定人数の音声のみを通過させる。なお、この所定人数は利用者によって設定可能であってもよい。例えば、1名でオンライン会議に参加するときには1名に設定すればよい。手動のモードが設定された場合、認証結果値が声紋認証閾値を下回っている人物の音声を通過させるか廃棄するかを利用者が選択可能となる。オフのモードが設定された場合、認証結果値が声紋認証閾値を下回っている人物の音声を廃棄する。本実施例では音声調整実施機能は自動に設定されている。
【0037】
文脈チェックは、認証結果値が声紋認証閾値を下回った場合に、その音声で語られている文脈の検査を行うか否かを規定する設定情報である。文脈チェックがオンに設定されていれば、認証結果値が声紋認証閾値を下回った音声の文脈の検査を行う。文脈の検査は、例えば、音声で語られた発話に予め設定された単語が登場するか否かの検査である。文脈チェックには、例えば、不審な発言に登場する頻度の高い単語を予め登録しておき、その単語が登場したらその音声の人物は不審な人物である可能性が高いと判断するといった用途がある。
【0038】
音声録音実施は、認証結果値が声紋認証閾値を下回ったが文脈チェックで不審と判断されなかった場合に、当該音声を録音するか否かを規定する設定情報である。音声録音実施がオンに設定されていれば、認証結果値が声紋認証閾値を下回ったが文脈チェックで不審と判断されなかった場合にも当該音声を録音する。音声録音実施がオフに設定されていれば、認証結果値が声紋認証閾値を下回ったが文脈チェックで不審と判断されなかった場合には当該音声を録音しない。本実施例では音声録音実施はオフに設定されている。
【0039】
送信メールアドレスは、認証結果値がメール送信閾値を下回った場合に電子メールを送信する宛先アドレスを規定する設定情報である。メール送信/通話者への警告は、認証結果値がメール送信閾値を下回った場合に電子メールの送信または警告出力を行うか否かを規定する設定情報である。本実施例では電子メールの送信あるいは警告出力が設定されておらず、そのため送信メールアドレスも設定されていない。
【0040】
図5は、実施例1における個別データを示すテーブルである。個別データには、各人物の声紋情報、名前、および統計情報が記録される。声紋情報は当該人物の音声の特徴を示す声紋情報である。ひとりの人物に対して複数の声紋情報を設定可能である。名前は当該人物の氏名や呼称である。統計情報は、当該人物の利用履歴から取得される統計情報が記録される。統計情報には、会議カウンタ、会議時間、および会議履歴が記録される。会議カウンタは、当該人物が会議に参加した回数である。会議時間は、当該人物が会議に参加した時間である。会議履歴には、当該人物が参加した会議の開催日時である。
【0041】
図6は、実施例1における個別データの他の例を示すテーブルである。図6の例では、図4および図5に示した例と異なり、声紋認証閾値を人物毎に設定可能としている。
【0042】
図3を参照すると、まず、音声処理システム21は、ステップ101にて、音声情報受信処理部37により、受信音声データから人物の音声を取得する。更に、音声処理システム21は、ステップ102にて、音声情報認証処理部38により、取得された音声に対して、声紋DB42に登録されている声紋データに基づく声紋認証を実施する。その結果、取得された音声について認証結果値が算出される。
【0043】
音声処理システム21は、ステップ103にて、音声情報認証処理部38により、アクションモードが通過のモードに設定されているか否か判定する。アクションモードが通過のモードに設定されていれば、音声処理システム21は、ステップ104にて、音声情報認証処理部38により、認証結果値が声紋認証閾値以上であるか否か判定する。認証結果値が声紋認証閾値以上であれば、音声処理システム21は、ステップ105にて、認証結果出力部39により、認証結果値が声紋認証閾値以上となった当該音声および当該人物の統計情報を更新し、当該音声を通過させる旨を画面に表示し、認証結果処理部41により当該音声を通過させる。認証結果処理部41により通過させられた音声は音声送信部35から、通信部33と通信ネットワークの例であるインターネット92とを介して、会議の他の参加者の端末装置に送信される。
【0044】
ステップ104で認証結果値が声紋認証閾値を下回っていた場合、音声処理システム21は、ステップ106にて、音声情報認証処理部38により音声調整実施機能がオンに設定されているか否か判定する。ここでいうオンには、自動と手動の2つのモードがある。音声調整実施機能が手動に設定されていれば、音声処理システム21は、ステップ107にて、音声情報認証処理部38により、利用者(会議の参加者)に、認証結果値が声紋認証閾値を下回っていた当該音声を通過させるか否か確認する。このとき、音声情報認証処理部38は、認証を実施した声紋の人物、認証結果値および閾値、当該音声に関する情報(例:音声の文字による表示、判定ボタン)を表示し利用者に判断の入力を促す。一方、音声調整実施機能が自動に設定されていれば、音声処理システム21は、ステプ107をスキップしてステップ108に進む。
【0045】
音声処理システム21は、ステップ108にて、音声情報認証処理部38により、当該音声を通過させるか否か判定する。このとき、音声調整実施機能が自動に設定されていれば所定の自動判定によって判定し、音声調整実施機能が手動に設定されていればステップ107にて利用者により入力された判断に従う。自動判定は、上述した廃棄処理の自動のモードにより当該音声を通過させるか否かが決まる。すなわち、認証結果値が声紋認証閾値を下回っている人物の音声について、音声データから音声が取得された人物が1名の場合にはその音声を通過させ、複数名の場合には認証結果値が最も高い値でありかつ音量が最も大きい音声のみを通過させる。
【0046】
当該音声を通過させると判定した場合、音声処理システム21は、音声情報認証処理部38により、ステップ109にて、当該音声を通過させる音声として登録する。音声処理システム21は、更に、ステップ110にて、音声情報認証処理部38により当該音声の統計情報を更新し、認証結果出力部39により当該音声を通過させる旨を画面に表示し、認証結果処理部41により当該人物の音声を通過させる。
【0047】
ステップ108にて、当該音声を通過させないと判定した場合、音声処理システム21は、音声情報認証処理部38により、ステップ112にて、音声情報認証処理部38により当該音声の統計情報を更新し、認証結果出力部39により当該音声を通過させない旨を画面に表示し、認証結果処理部41により当該音声を廃棄する。
【0048】
ステップ106にて、音声調整実施機能がオフに設定されていれば、音声処理システム21は、ステップ111にて、音声情報認証処理部38により認証結果値が声紋認証閾値を下回った当該音声の統計情報を更新し、認証結果出力部39により当該音声を廃棄する旨を画面に表示し、認証結果処理部41により当該音声を廃棄する。
【0049】
ステップ103にて、アクションモードが通過に設定されていなければ、音声処理システム21は、ステップ113にて、音声情報認証処理部38により、アクションモードが廃棄に設定されているか否か判定する。アクションモードが廃棄に設定されていれば、音声処理システム21は、ステップ114にて、音声情報認証処理部38により、認証結果値が声紋認証閾値以上であるか否か判定する。認証結果値が声紋認証閾値以上であれば、音声処理システム21は、ステップ115にて、音声情報認証処理部38により認証結果値が声紋認証閾値以上となった当該音声および当該人物の統計情報を更新し、認証結果出力部39により当該音声を廃棄する旨を画面に表示し、認証結果処理部41により当該音声を廃棄する。認証結果値が声紋認証閾値を下回っていれば、音声処理システム21は、ステップ116にて、認証結果出力部39により、認証結果値が声紋認証閾値を下回った当該音声の統計情報を更新し、当該音声を通過させる旨を画面に表示し、認証結果処理部41により当該音声を通過させる。
【0050】
本実施例のオンライン会議システム11は、音声処理システム21で設定あるいは取得されるデータに基づいて管理画面に各種情報を表示してもよい。例えば、声紋認証による音声の通過および廃棄の機能がオンかオフかの設定情報、認証結果値が声紋認証閾値以上の音声を通過させるか廃棄するかの設定情報、声紋認証閾値、音声調整実施機能の設定情報と更にその人数設定、などを管理画面に表示してもよい。また、例えば、受信音声データから音声が取得されている人物の人数、音声を通過させている人物の人数、音声を通過させている人物の情報、音声を廃棄している人物の人数、通過させている音声の認証結果値、音声を通過させていることを表す点灯ランプ、などをオンライン会議の画面に表示してもよい。また、参加者91が自分の音声が通過できるかどうかを事前に確認する機能を設け、その機能を起動するテストボタンを管理画面あるいはオンライン会議画面に表示してもよい。また、自分の音声が受信音声データから取得されているが、声紋認証により廃棄されていることを警告音で通知することにしてもよい。
【0051】
以上説明した本実施例によれば、音声処理システム21は、特定人物の音声の特徴を表す声紋データを記憶する記憶部32と、継続的な受信音声データに含まれる人物の音声を取得する音声情報受信処理部37と、声紋データに基づいて、取得された音声に対して時系列に声紋認証を行い、特定人物の音声と推定される度合いを表す認証結果値を時系列に生成する音声情報認証処理部38と、を有する。これにより、特定人物の音声の特徴を表す声紋データに基づいて受信音声データに対して時系列に声紋認証を行い、特定人物の音声と推定される度合いを表す認証結果値を時系列に生成するので、音声により継続的に人物の認証を行うことが可能となる。
【0052】
また、音声処理システム21は、認証結果値を所定の閾値と比較し、認証結果値が閾値以上である間、受信音声データにおけるその特定人物の音声のみの音声データを生成する認証結果処理部を更に有する。したがって、声紋認証により条件が満たされている間、その音声の音声データを生成するので、声紋認証が条件を満たす音声のみを通過させることができる。
【0053】
また、本実施例によれば、オンライン会議システム11は、通信ネットワーク95を介して複数の参加者91、91が相互に音声で対話を行うためのオンライン会議システムであって、第1参加者91の音声を収音した第1音声データを加工し、第2参加者91に聴取させる第2音声データを生成する音声処理システム21を有し、音声処理システム21は、特定人物の音声の特徴を表す声紋データを記憶する記憶部32と、継続的な受信音声データに含まれる人物の音声を取得する音声情報受信処理部37と、声紋データに基づいて、取得された音声に対して時系列に声紋認証を行い、特定人物の音声と推定される度合いを表す認証結果値を時系列に生成する音声情報認証処理部38と、認証結果値を所定の声紋認証閾値と比較し、認証結果値が声紋認証閾値以上であるか否かに応じて受信音声データを加工する認証結果処理部41と、を有し、認証結果処理部41は、特定人物の音声を通過させる通過モードと特定人物の音声を廃棄する廃棄モードとが選択可能であり、通過モードでは、認証結果値が声紋認証閾値以上である音声を通過させ、認証結果値が声紋認証閾値を下回る音声を所定条件を満たせば通過させ、廃棄モードでは、認証結果値が声紋認証閾値以上である音声を廃棄し、認証結果値が声紋認証閾値を下回る音声を通過させる。
【0054】
そして、一例として、その所定条件は、利用者が通過を許可したという条件である。他の例として、所定条件は、受信音声データから音声が取得された人物が所定人数以下の場合には人物の音声を通過させ、受信音声データから音声が取得された人物が所定人数を超えている場合には認証結果値と音量とに基づいて選択された所定人数の音声のみを通過させることである。
【0055】
なお、上述した本実施例では、音声処理システム21がクラウド上に実装される例を示したが、参加者91、91の利用するパーソナルコンピュータ、スマートフォン、あるいはタブレット端末などの端末装置上に実装してもよい。
【0056】
図7は、実施例1の変形例における音声処理システムのブロック図である。図7を参照すると、端末装置上に実装された音声処理システム21は、図2に示した音声処理システム21とは、通信部33を備えていない点で相違する。参加者91の音声は、端末装置(不図示)が備えたあるいは端末装置に接続されたマイク51で収音され、その受信音声データが音声処理システム21の音声受信部34にて受信される。また、音声送信部35からの送信音声データは、端末装置が備える通信部52を介してインターネット92へ送信される。ここでは端末装置上に実装された音声処理システム21が端末装置に備えられた通信部52を通信に用いる例を示したが、他の構成も可能である。例えば、図2に示したクラウド上の音声処理システム21と同様に音声処理システム21内に通信部を備えてもよい。
【実施例0057】
実施例2では、通話相手が悪意の人物であるか否かを通話音声から継続的に計測する音声通話装置を例示する。
【0058】
図8は、実施例2における音声通話装置の概略のブロック図である。
【0059】
図8を参照すると、音声通話装置12は、スマートフォン、携帯電話、固定電話機、パーソナルコンピュータなど音声による通話を実現する端末装置である。利用者93は、音声通話装置12を利用して、不図示のインターネットや移動体通信網などの通信ネットワークを介して通話相手と音声による通話を行うことができる。音声通話装置12には音声処理システム21が組み込まれている。音声処理システム21は、予め設定された通話相手94を識別し、他の通話相手との通話に対して所定の処理を行うシステムである。
【0060】
図9は、実施例2における音声処理システムのブロック図である。図9の音声処理システム21は、中央演算部31により、電子メールシステム44および電子メール送信部46が実現され、記憶部32に文脈データベース(文脈DB)43が記憶される点で、図7に示した音声処理システム21と異なる。電子メールシステム44は電子メール処理部45を含む。また、図9の音声処理システム21は、通信ネットワーク95および通信部52を介して受信音声データを受信する。音声送信部35からの送信音声データは、スピーカ53により音声に変換され、利用者93に聴取される。
【0061】
認証結果処理部41は、認証結果出力部39からの認証結果値に加え、文脈DB43に登録されている文脈データを用いて、認証結果に応じた処理を実行する。文脈データは、不審な通話の文脈を判定するためのデータである。文脈データには、不審な通話に登場する単語の一覧が登録されている。電子メールシステム44は電子メールを送信する機能を備えたシステムである。電子メール処理部45は、認証結果処理部41からの指示で、予め設定された宛先に宛てた予め設定された電子メールを生成する。生成された電子メールは、電子メール送信部46により、通信部52および通信ネットワーク95を介して所定の宛先に送信される。
【0062】
図10は、実施例2における音声処理システムが実行する処理のフローチャートである。
【0063】
図11は、実施例2におけるシステム共通データを示すテーブルである。実施例2のシステム共通データは、図4に示した実施例1のものと同様である。ただし、実施例2では、文脈チェックがオフに設定され、音声録音実施がオンに設定され、送信メールアドレスが設定され、メール送信/通話者への警告はオンに設定されている。
【0064】
図12は、実施例2における個別データを示すテーブルである。実施例2における個別データは、統計情報として記録される項目が、図5に示した実施例1のものと異なる。実施例2の統計情報は、予め登録された人物との通話履歴から取得される統計情報が記録される。実施例2の統計情報には、通話カウンタ、通話時間、および通話履歴が記録される。通話カウンタは、当該人物と通話を行った回数である。通話時間は、当該人物と通話を行った時間である。通話履歴には、当該人物と通話を行った日時である。
【0065】
図10を参照すると、まず、音声処理システム21は、ステップ101にて、音声情報受信処理部37により、受信音声データから人物の音声を取得する。更に、音声処理システム21は、ステップ102にて、音声情報認証処理部38により、取得された音声に対して、声紋DB42に登録されている声紋データに基づく声紋認証を実施する。その結果、取得された音声について認証結果値が算出される。
【0066】
音声処理システム21は、ステップ201にて、音声情報認証処理部38により、認証結果値が声紋認証閾値以上であるか否か判定する。認証結果値が声紋認証閾値以上であれば、音声処理システム21は、ステップ202にて、認証結果出力部39により、認証結果値が声紋認証閾値以上となった当該音声および当該人物の統計情報を更新し、認証結果処理部41により当該音声を通過させて通常の通話を継続させる。
【0067】
ステップ201にて認証結果値が声紋認証閾値を下回った場合、音声処理システム21は、ステップ203にて、音声情報認証処理部38により、文脈チェックを行うか否か判定する。文脈を行うか否かは図11に示したシステム共通データにおける文脈チェックがオンかオフかにより判定できる。
【0068】
文脈チェックを行わないと判定された場合、音声処理システム21は、ステップ204にて、認証結果出力部39により、統計情報を更新し、認証結果処理部41により、通話音声の録音を開始し、利用者93に注意喚起を行い、電子メール処理部45に警告のための電子メールを生成させる。電子メール処理部45は、予め登録された宛先メールアドレスに宛てた予め設定された内容の電子メールを生成する。宛先メールアドレスには、図11に示したシステム共通データにおける送信メールアドレスが用いられる。生成された電子メールは、電子メール送信部46により、通信部52および通信ネットワーク95経由で宛先メールアドレスに送信される。注意喚起は例えば画面表示や音声出力などにより行われる。
【0069】
ステップ203にて文脈チェックを行うと判定された場合、音声処理システム21は、ステップ205にて、認証結果処理部41により、当該音声で語られている文脈の検査を行う。文脈の検査は、音声で語られた発話に、文脈DB43に予め設定された、不審な発言に登場する頻度の高い単語が登場するか否かの検査である。当該音声の登録された単語が登場したら、その音声の文脈が不審と推定される。
【0070】
ステップ206にて、音声処理システム21は、認証結果処理部41により、当該音声の文脈が不審か否か判定する。当該音声の文脈が不審であれば、ステップ207にて、音声処理システム21は、認証結果出力部39により、統計情報を更新し、認証結果処理部41により、通話音声の録音を開始し、利用者93に注意喚起を行い、電子メール処理部45に警告用の電子メールを生成させる。電子メール処理部45は、予め登録された宛先メールアドレスに宛てた予め設定された内容の電子メールを生成する。
【0071】
ステップ206にて文脈が不審でないと判定された場合、音声処理システム21は、ステップ208にて、認証結果出力部39により、統計情報を更新し、当該音声を通過させて通常の通話を継続させる。このとき、図11に示したシステム共通データにおいて、音声録音実施がオンに設定されていれば、音声処理システム21は、認証結果処理部41により、当該通話の音声の録音を開始する。
【0072】
なお、本実施例では、音声処理システム21は通話が継続している間、継続的に声紋認証を行う例を示したが、他の動作も可能である。例えば、通話が開始されてから所定の継続時間が経過するまで継続的に声紋認証を行い、それ以降は声紋認証を行わないことにしてもよい。例えば、通話が開始されてから30秒が経過するまで声紋認証を行い、そこで終了させてもよい。
【0073】
本実施例の音声通話装置12は、音声処理システム21で設定あるいは取得されるデータに基づいて各種情報を画面に表示してもよい。例えば、声紋認証による処理の機能がオンかオフかの設定情報、声紋認証閾値、警告用の電子メールを送信する宛先メールアドレス、文脈DB43に登録された単語などを管理画面に表示してもよい。また、例えば、通話の音声と一致した声紋DB42に登録されている人物の情報、通話の音声と一致する声紋DB42に登録されている人物が見つからない旨などを表示してもよい。また、音声通話装置12は、音声処理システム21で設定あるいは取得されるデータに基づいて警告音は発生させてもよい。例えば、通話の音声と一致する声紋DB42に登録されている人物が見つからない場合に警告音を発生させてもよい。
【0074】
以上説明した本実施例によれば、記憶部32は、所定の文脈を示す文脈データを記憶し、認証結果処理部41は、認証結果値を声紋認証閾値と比較し、継続的に認証結果値が声紋認証閾値を下回っていれば、受信音声データにおける音声の文脈を抽出し、抽出された文脈と、記憶部32に記憶されている文脈データに示された文脈とが一致するか否かにより異なる処理を行う。このように、認証結果値が閾値を下回った場合に更に文脈を検査し、検査結果によって異なる処理を行うので、声紋認証と文脈の検査とを併用することにより、不審な人物の通話を検知することができる。例えば、親族を装った不審な人物からの文脈に悪意ある音声が含まれる特殊詐欺の通話を検知し、何らかの処理を行うことが可能となる。
【0075】
また、電子メール処理部45は、所定の宛先アドレスに宛てた所定の電子メールを生成する機能を備え、認証結果処理部41は、抽出された文脈と文脈データに示された文脈とが一致したら、電子メール処理部45にその電子メールを生成させる。これにより、例えば、不審な人物からの悪意の電話と疑われる電話が来たことを所望の宛先に電子メールで通知することができる。
【0076】
また、認証結果処理部41は、認証結果値を声紋認証閾値と比較し、継続的に認証結果値が声紋認証閾値を下回っていれば、電子メール処理部45に電子メールを生成させる。
【0077】
また、音声情報認証処理部38は、所定の継続時間だけ、取得された音声に対して声紋認証を行い、その継続時間が経過すると音声に対する声紋認証を終了する。このように、継続的な声紋認証を所定の継続時間だけ実行することにより不審な通話を効率よく検知することができる。
【0078】
また、本実施例の音声通話装置12は、利用者93が通信ネットワーク95を介して通話相手94と相互に音声で通話を行うための音声通話装置であって、通話相手94の音声を収音した第1音声データを加工し、利用者93に聴取させる第2音声データを生成する音声処理システム21を有し、音声処理システム21は、特定人物の音声の特徴を表す声紋データを記憶する記憶部32と、継続的な受信音声データに含まれる人物の音声を取得する音声情報受信処理部37と、声紋データに基づいて、取得された音声に対して時系列に声紋認証を行い、特定人物の音声と推定される度合いを表す認証結果値を時系列に生成する音声情報認証処理部38と、認証結果値を声紋認証閾値と比較し、認証結果値が声紋認証閾値以上であるか否かに応じた処理を実行する認証結果処理部41と、を有し、記憶部32は、単語を登録した文脈データを更に記憶し、認証結果処理部41は、認証結果値が声紋認証閾値を下回る音声について、文脈データに基づいて不審であるか否か判定し、不審であったら、通話の録音と、警告用の電子メールの送信と、音声による警告との1つ以上を実行する。
【0079】
また、本実施例では、音声処理システム21が、端末装置である音声通話装置12に実装される例を示したが、他の構成も可能である。音声通話において音声データが伝送される経路のどこに音声処理システム21が実装されてもよく、例えば、クラウド上に音声データを中継するシステムを設け、そのシステムに音声処理システム21を組み込んでもよい。
【0080】
上述した本発明の実施形態は、本発明の説明のための例示であり、本発明の範囲をそれらの実施形態にのみ限定する趣旨ではない。当業者は、本発明の範囲を逸脱することなしに、他の様々な態様で本発明を実施することができる。
【符号の説明】
【0081】
11…オンライン会議システム、12…音声通話装置、21…音声処理システム、31…中央演算部、32…記憶部、33…通信部、34…音声受信部、35…音声送信部、36…認証管理システム、37…音声情報受信処理部、38…音声情報認証処理部、39…認証結果出力部、40…認証結果判断システム、41…認証結果処理部、42…声紋データベース、43…文脈データベース、44…電子メールシステム、45…電子メール処理部、46…電子メール送信部、51…マイク、52…通信部、53…スピーカ、92…インターネット、93…利用者、94…通話相手、95…通信ネットワーク、91…参加者、91…参加者
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12