(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025019875
(43)【公開日】2025-02-07
(54)【発明の名称】プログラム、情報処理装置及び情報処理方法
(51)【国際特許分類】
H04M 3/42 20060101AFI20250131BHJP
G08B 25/04 20060101ALI20250131BHJP
H04M 1/66 20060101ALI20250131BHJP
H04M 1/64 20060101ALI20250131BHJP
G10L 25/51 20130101ALI20250131BHJP
G06Q 50/10 20120101ALI20250131BHJP
【FI】
H04M3/42 Z
G08B25/04 E
H04M1/66
H04M1/64 C
G10L25/51
G06Q50/10
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2023123750
(22)【出願日】2023-07-28
(71)【出願人】
【識別番号】523288271
【氏名又は名称】もみじテック株式会社
(74)【代理人】
【識別番号】100114557
【弁理士】
【氏名又は名称】河野 英仁
(74)【代理人】
【識別番号】100078868
【弁理士】
【氏名又は名称】河野 登夫
(72)【発明者】
【氏名】平岡 弦己
【テーマコード(参考)】
5C087
5K127
5K201
5L049
5L050
【Fターム(参考)】
5C087AA10
5C087AA12
5C087DD05
5C087DD35
5C087EE08
5C087GG08
5C087GG09
5C087GG17
5C087GG19
5C087GG66
5C087GG84
5K127AA26
5K127BB04
5K127GD03
5K127HA05
5K127JA02
5K127KA04
5K201AA07
5K201BC19
5K201BC29
5K201BD04
5K201DC04
5K201DC05
5K201EC06
5L049CC11
5L050CC11
(57)【要約】
【課題】生成された合成音声を用いて知人になりすます、ディープフェイクによる犯罪の被害を未然に防止できるプログラム、情報処理装置及び情報処理方法を提供する。
【解決手段】送話者300の通話音声を取得し、通話音声を入力した場合に、該通話音声が合成音声か否かの分類情報を出力するよう学習された分類モデル1061に、取得した通話音声を入力して分類情報を出力し、出力された分類情報を受話者に出力する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
送話者の通話音声を取得し、
通話音声を入力した場合に、該通話音声が合成音声か否かの分類情報を出力するよう学習された学習モデルに、取得した通話音声を入力して分類情報を出力し、
出力された分類情報を受話者に出力する
処理をコンピュータに実行させるプログラム。
【請求項2】
前記送話者の通話音声が合成音声であると判定した場合、前記受話者に警告を出力する請求項1に記載のプログラム。
【請求項3】
前記送話者の通話音声が合成音声である確率を示す確信度を前記受話者に出力する請求項1に記載のプログラム。
【請求項4】
前記送話者の通話音声を録音する請求項1に記載のプログラム。
【請求項5】
前記送話者の通話音声が合成音声であると判定した場合、予め定められた通知先に通知する請求項1に記載のプログラム。
【請求項6】
前記送話者の通話音声が合成音声である確率を示す確信度、前記送話者の通話音声の録音指示を受け付ける録音受付部、及び、前記通知の実行指示を受け付ける通知受付部を表示部に表示する請求項5に記載のプログラム。
【請求項7】
前記送話者の通話音声が合成音声であると判定した場合、合成音声の通話音声に係るデータ及び言語生成モデルを用いて応答データを生成し、
生成した応答データに基づく応答を前記送話者に出力する
請求項1から6の何れか一項に記載のプログラム。
【請求項8】
制御部を備え、
前記制御部が、
送話者の通話音声を取得し、
通話音声を入力した場合に、該通話音声が合成音声か否かの分類情報を出力するよう学習された学習モデルに、取得した通話音声を入力して出力された分類情報を、受話者に出力する情報処理装置。
【請求項9】
送話者の通話音声を取得し、
通話音声を入力した場合に、該通話音声が合成音声か否かの分類情報を出力するよう学習された学習モデルに、取得した通話音声を入力して分類情報を出力し、
出力された分類情報を受話者に出力する処理をコンピュータに実行させる情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、プログラム、情報処理装置及び情報処理方法に関する。
【背景技術】
【0002】
近年、オレオレ詐欺、振り込め詐欺等、知人になりすまして受話者を騙す犯罪が多発している。これに対して、特許文献1では、通話パターン分析部を備え、通話時の通話パターンが特定のパターンに該当するか否かの分析結果に応じて危険度を判断する悪質通話対策システムが開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、上述した悪質通話対策システムでは、通話内容が予め定められた通話パターンに該当しない場合は、斯かる詐欺による被害を防止できず、かつ、最近、AI(Artificial Intelligence)によって生成された合成音声を用いる所謂ディープフェイクによる犯罪にも対応できない。
【0005】
本開示は斯かる事情に鑑みてなされたものであり、生成された合成音声を用いて知人になりすます、ディープフェイクによる犯罪の被害を未然に防止できるプログラム、情報処理装置及び情報処理方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本開示に係るプログラムは、送話者の通話音声を取得し、通話音声を入力した場合に、該通話音声が合成音声か否かの分類情報を出力するよう学習された学習モデルに、取得した通話音声を入力して分類情報を出力し、出力された分類情報を受話者に出力する処理をコンピュータに実行させる。
【0007】
本開示に係る情報処理装置は、制御部を備え、前記制御部が、送話者の通話音声を取得し、通話音声を入力した場合に、該通話音声が合成音声か否かの分類情報を出力するよう学習された学習モデルに、取得した通話音声を入力して出力された分類情報を、受話者に出力する。
【0008】
本開示に係る情報処理方法は、送話者の通話音声を取得し、通話音声を入力した場合に、該通話音声が合成音声か否かの分類情報を出力するよう学習された学習モデルに、取得した通話音声を入力して分類情報を出力し、出力された分類情報を受話者に出力する処理をコンピュータに実行させる。
【発明の効果】
【0009】
本発明によれば、生成された合成音声を用いて知人になりすます、ディープフェイクによる犯罪の被害を未然に防止できる。
【図面の簡単な説明】
【0010】
【
図1】本開示に係る実施形態を概念的に示す説明図である。
【
図2】本実施形態に係る端末装置の構成例を示す機能ブロック図である。
【
図3】本実施形態において表示部に表示される警告画面の一例を示す例示図である。
【
図5】訓練データDBの分類訓練データのレコードレイアウトの一例を示す説明図である。
【
図6】分類モデルの生成処理の手順を示すフローチャートである。
【
図7】着信があった場合における実施形態1の端末装置の対応例を説明するフローチャートである。
【
図8】本開示に係る実施形態を概念的に示す説明図である。
【
図9】本実施形態に係る端末装置の構成例を示す機能ブロック図である。
【
図10】訓練データDBの応答訓練データのレコードレイアウトの一例を示す説明図である。
【
図11】学習モデル管理DBのレコードレイアウトの一例を示す説明図である。
【
図12】応答モデルの生成処理の手順を示すフローチャートである。
【
図13】着信があった場合における実施形態2の端末装置の対応例を説明するフローチャートである。
【
図14】表示部に表示される警告画面の変形例を示す例示図である。
【発明を実施するための形態】
【0011】
以下、本発明をその実施の形態を示す図面に基づいて説明する。
【0012】
(実施形態1)
図1は、本開示に係る実施形態を概念的に示す説明図である。
本実施形態において、符号1は端末装置(情報処理装置)を示し、符号100はサーバ装置を示す。端末装置1は、携帯電話通信網、無線LAN(Local Area Network)及びインターネット等を含むネットワークNを介して、サーバ装置100に接続されている。
本実施形態において、端末装置1は、例えば携帯電話であり、着信があった場合、送話者の通話音声が合成音声であるか否かの分類結果をサーバ装置100から受信し、悪意ある送話者300からの電話に適宜対応する。
【0013】
図2は、本実施形態に係る端末装置1の構成例を示す機能ブロック図である。
端末装置1は、制御部11、記憶部12、スピーカ13、マイク14、録音部15、表示部16、受付部17、第1通信部18、第2通信部19、及び、読取部20を含む。各構成部はバスを介して接続されている。
【0014】
制御部11はCPU、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)等の演算処理装置を含み、記憶部12に記憶された制御プログラムP2を読み出して実行することにより、端末装置1に係る種々の情報処理、制御処理等を行う。
【0015】
記憶部12はRAM(Random Access Memory)、ROM(Read Only Memory)等のメモリ素子を含み、制御部11が処理を実行するために必要な制御プログラムP2又はデータ等を記憶している。また、記憶部12は、制御部11が演算処理を実行するために必要なデータ等を一時的に記憶する。更に、上述の如く、送話者の通話音声が合成音声である場合に通知を行うための通知先121が記憶されている。通知先121は、例えば、親戚、家族又は警察等の連絡先であり、受付部17を介して予めユーザから受け付けられる。
【0016】
スピーカ13は送話者からの通話音声を出力し、マイク14はユーザ(受話者)の音声を送話者に出力する。また、録音部15は、制御部11の指示に応じて、第1通信部18が受信する送話者の通話音声を録音し、記憶部12に記憶させる。
【0017】
表示部16は、液晶ディスプレイ又は有機EL(electroluminescence)ディスプレイ等であり、制御部11の指示に従い各種情報を表示する。例えば、表示部16には、後述する警告画面が表示される。
また、受付部17は、タッチパネルであり、表示部16に設けられている。ユーザのタッチ操作により、制御部11は、受付部17を介して、ユーザから指示を受け付ける。
【0018】
図3は、本実施形態において表示部16に表示される警告画面の一例を示す例示図である。警告画面には、「合成音声です。要注意」との警告メッセージ161が表示され、例えば、該警告メッセージ161は点滅する。他、前記警告画面には、サーバ装置100から送られた、送話者の通話音声が合成音声である確率を示す確信度162が表示され、送話者の通話音声を録音する指示を受け付ける「開始」ボタン163(録音受付部)が表示され、送話者の通話音声が合成音声である場合に通知先121に通知する指示を受け付ける「実行」ボタン164(通知受付部)が表示される。例えば、「開始」ボタン163及び「実行」ボタン164は所謂トグルボタンである。
【0019】
第1通信部18は、携帯電話通信網を介して、着信を受け付け、発呼を行う。即ち、第1通信部18は、送話者からの通話音声を受信し、受話者からの通話音声を送話者に送信する、オーディオ出力が行われる。
【0020】
第2通信部19は、例えば、無線LAN及びインターネットを介して、サーバ装置100とのデータ通信を行う。例えば、第2通信部19は、サーバ装置100に、送話者からの通話音声を送信し、後述の如く、送話者の通話音声が合成音声か否かの分別結果をサーバ装置100から受信する。
【0021】
読取部20は、CD(Compact Disc)-ROM又はDVD(Digital Versatile Disc)-ROMを含む可搬型記憶媒体200aを読み取る。制御部11が読取部20を介して、制御プログラムP2を可搬型記憶媒体200aより読み取り、記憶部12に記憶してもよい。また、ネットワークN等を介して他のコンピュータから制御部11が制御プログラムP2をダウンロードし、記憶部12に記憶してもよい。更に、半導体メモリ200bから、制御部11が制御プログラムP2を読み込んでもよい。
【0022】
サーバ装置100は、制御部101、記憶部102、通信部103、読取部104及び大容量記憶部105を含む。各構成部はバスを介して接続されている(
図1参照)。
【0023】
制御部101はCPU、MPU、GPU等の演算処理装置を含み、記憶部102に記憶された制御プログラムP1を読み出して実行することにより、サーバ装置100に係る種々の情報処理、制御処理等を行う。なお、制御プログラムP1は、単一のコンピュータ上で、又は1つのサイトにて配置されるか、もしくは複数のサイトにわたって分散され、通信ネットワークによって相互接続された複数のコンピュータ上で実行されるように展開することができる。なお、本実施形態では制御部101を単一のプロセッサであるものとして説明するが、マルチプロセッサであってもよい。
【0024】
記憶部102はRAM、ROM等のメモリ素子を含み、制御部101が処理を実行するために必要な制御プログラムP1又はデータ等を記憶している。また、記憶部102は、制御部101が演算処理を実行するために必要なデータ等を一時的に記憶する。
【0025】
通信部103は、例えば、無線LAN及びインターネットを介して、端末装置1とのデータ通信を行う。例えば、通信部103は、端末装置1に、送話者からの通話音声が合成音声か否かの分別結果を送信する。
【0026】
読取部104は、CD-ROM又はDVD-ROMを含む可搬型記憶媒体200aを読み取る。制御部101が読取部104を介して、制御プログラムP1を可搬型記憶媒体200aより読み取り、大容量記憶部105に記憶してもよい。また、ネットワーク等を介して他のコンピュータから制御部101が制御プログラムP1をダウンロードし、大容量記憶部105に記憶してもよい。更に、半導体メモリ200bから、制御部101が制御プログラムP1を読み込んでもよい。
【0027】
大容量記憶部105は、例えばHDD(Hard disk drive:ハードディスク)、SSD(Solid State Drive:ソリッドステートドライブ)等の記録媒体を備える。大容量記憶部105は、学習モデルDB(database)106及び訓練データDB107を含む。
【0028】
学習モデルDB106には、分類モデル1061(学習モデル)が格納されている。分類モデル1061は機械学習により生成された学習済みの学習モデルである。分類モデル1061は、端末装置1から送られた送話者の通話音声が合成音声であるか否かの分類を行う。即ち、分類モデル1061は、送話者の通話音声が合成音声であるか、人間の肉声であるかを分類する分類器である。
【0029】
図4は、分類モデル1061に関する説明図である。
分類モデル1061は、複数のニューロン(ノードともいう)が結合されたニューラルネットワークにより構成されている。分類モデル1061は、送話者の通話音声が入力される入力層、特徴量を抽出する畳み込み層又はプーリング層を含む隠れ層、送話者の通話音声が合成音声である確率を示す確信度(スコア)を出力する出力層を有し、送話者の通話音声が入力された場合、確信度(スコア)を出力するよう学習されている。斯かる確信度のスコアは0~1の間の数値である。
【0030】
分類モデル1061を構成するニューラルネットワークの種類は任意であり、入力するデータの形式や出力すべきデータの形式に応じて適宜選択される。例えば、分類モデル1061は、時系列の情報を扱うRNN(Recurrent Neural Network)、Transformer又はGPT(Generative Pre-Training)-2等の学習モデルが採用される。
【0031】
訓練データDB107は、分類モデル1061を構築(作成)するための訓練データを記憶している。具体的には、訓練データDB107は、分類モデル1061用の訓練データである分類訓練データ1071を記憶している。
【0032】
図5は、訓練データDB107の分類訓練データ1071のレコードレイアウトの一例を示す説明図である。分類訓練データ1071は、訓練ID列、入力データ列及び出力データ列を含む。
【0033】
訓練ID列は、各訓練データを識別するために、一意に特定される訓練データのIDを記憶している。入力データ列は、合成音声及び人間の肉声を含む通話音声の入力データを記憶している。出力データ列は、分類結果、即ち教師データを記憶している。出力データ列は、入力された入力データに対して、人間の肉声であるラベル(例えば「0」)と、AI(Artificial Intelligence)による合成音声であるラベル(例えば「1」)とを記憶している。
【0034】
図6は、分類モデル1061の生成処理の手順を示すフローチャートである。
図6に基づき、機械学習を行って分類モデル1061を生成する処理について説明する。
【0035】
サーバ装置100の制御部101は、訓練データDB107の分類訓練データ1071から(
図5参照)、入力データと、該入力データに対応する出力データとを複数取得する(ステップS101)。
【0036】
制御部101は、取得した入力データ、及び、該入力データに対応する前記出力データを用いて、送話者の通話音声が合成音声である確信度(スコア)を出力とする分類モデル1061を生成する(ステップS102)。
【0037】
制御部101は、前記入力データを分類モデル1061に順次入力し、前記確信度(スコア)を順次出力させる。制御部101は、出力された確信度(スコア)を、分類訓練データ1071に含まれる教師データである出力データと比較し、両者が近似するように中間層の各種パラメータを最適化して、分類モデル1061を生成する。
【0038】
制御部101は、生成した分類モデル1061を大容量記憶部105の学習モデルDB106に記憶し(ステップS103)、一連の処理を終了する。
【0039】
図7は、着信があった場合における実施形態1の端末装置1の対応例を説明するフローチャートである。
【0040】
端末装置1が着信を受け付け(ステップS201)、端末装置1のユーザ(受話者)が応答の為の操作を行った場合、制御部11は、第1通信部18を介して受信される送話者の通話音声(音声データ)をキャプチャし、第2通信部19を介してサーバ装置100に送信する(ステップS202)。
【0041】
端末装置1からの送話者の通話音声の音声データは、サーバ装置100の通信部103によって受信される。この際、サーバ装置100の制御部101は、通信部103を介して受信した送話者の通話音声を分類モデル1061の入力層に入力し、分類モデル1061の出力層から出力される確信度(スコア)を通信部103を介して端末装置1に送信する。サーバ装置100からの確信度(スコア)は端末装置1の第2通信部19によって受信される(ステップS203)。
【0042】
端末装置1の制御部11は、サーバ装置100からの確信度(スコア)に基づいて、送話者の通話音声が合成音声か否かの判定を行う(ステップS204)。サーバ装置100からの確信度(スコア)が閾値未満である場合、制御部11は合成音声でないと、即ち人間の肉声であると判定し(ステップS204:NO)、処理を終了する。
【0043】
一方、サーバ装置100からの確信度(スコア)が閾値以上である場合、制御部11は、合成音声であると判定し(ステップS204:YES)、表示部16に上述した警告画面を表示する(
図3参照)。即ち、表示部16には、「合成音声です。要注意」との警告メッセージ161が点滅表示され、サーバ装置100からの確信度(スコア)162が表示される(ステップS205)。
【0044】
次いで、ユーザが送話者の通話音声を録音するために警告画面の「開始」ボタン163をタッチ操作することに応じて、制御部11は録音部15に通話音声の録音を指示する。これに応じて、録音部15は送話者の通話音声の録音を開始する(ステップS206)。
【0045】
また、送話者の通話音声が合成音声であることを通知先121に通知すべく、ユーザが警告画面の「実行」ボタン164をタッチ操作することに応じて、制御部11は、記憶部12の通知先121への通知を第1通信部18に指示する。これに応じて、第1通信部18は通知先121への発呼を行う(ステップS207)。例えば、第1通信部18は、親戚、家族又は警察等の通知先121に連絡し、記憶部12に予め記憶されている、送話者の通話音声が合成音声である旨の音声を送信する。
【0046】
以降、制御部11は通話が終了したか否かを判定する(ステップS208)。通話が終了していないと判定した場合(ステップS208:NO)、制御部11は、通話が終了するまで斯かる判定を繰り返して行う。
【0047】
例えば、前記警告画面が表示され、ユーザが電話を切った場合、制御部11は、通話が終了したと判定し(ステップS208:YES)、録音部15に送話者の通話音声の録音の中止を指示し、斯かる指示に応じて録音部15は送話者の通話音声の録音を中止する(ステップS209)。録音部15によって録音された送話者の通話音声は、日付に対応付けられて例えば記憶部12に記憶され、処理は終了する。
【0048】
本実施形態においては、上述の如く、着信があった場合、端末装置1は、送話者の通話音声を取得してサーバ装置100に送信し、サーバ装置100からの確信度162に基づき、送話者の通話音声が合成音声である場合、ユーザ(受話者)に警告を行う。
従って、ユーザは警戒心を高める、又は電話を切る等防止策を取ることができ、AIによって生成された合成音声を用いて知人になりすます、ディープフェイクによる騙し被害を未然に防止できる。
【0049】
また、本実施形態においては、上述の如く、前記警告画面に、警告メッセージ161に加えて確信度(スコア)162が表示されるので、受話者が自ら、斯かる確信度162に基づいて、送話者の通話音声が合成音声であるか否かを分類できる。
【0050】
また、本実施形態においては、上述の如く、送話者の通話音声が合成音声である場合、送話者の通話音声を録音できるので、前記ディープフェイクによる被害が発生した場合に備え、証拠を確保できる。
【0051】
更に、本実施形態においては、上述の如く、送話者の通話音声が合成音声である場合、通知先121に通知できるので、前記ディープフェイクに対する対応の際、周りに助けを求めることができる。
【0052】
以上においては、送話者の通話音声が合成音声である場合、表示部16に前記警告画面(警告メッセージ161)を表示して警告を行う場合を例に挙げて説明したが、これに限定されるものではない。
例えば、スピーカ13を介して警告を行うように構成しても良い。例えば、送話者の通話音声が合成音声である場合、スピーカ13が所定の警告音を出力してもよく、所定の警告フレーズを読み上げるように構成しても良い。
また、端末装置1が振動部を備え、斯かる振動部を用いて警告を行うように構成しても良い。例えば、送話者の通話音声が合成音声である場合、前記振動部が所定のパターンで振動するように構成しても良い。
【0053】
また、以上においては、サーバ装置100が学習モデルDB106(分類モデル1061)を備える場合を例に挙げて説明したが、これに限定されるものではない。端末装置1が学習モデルDB106(分類モデル1061)を備えるように構成しても良い。
【0054】
(実施形態2)
図8は、本開示に係る実施形態を概念的に示す説明図である。
実施形態2では、実施形態1と同様、端末装置1が、ネットワークNを介して、サーバ装置100に接続されている。
【0055】
図9は、本実施形態に係る端末装置1の構成例を示す機能ブロック図である。
端末装置1は、携帯電話であり、制御部11、記憶部12、スピーカ13、マイク14、録音部15、表示部16、受付部17、第1通信部18、第2通信部19、及び、読取部20を含む。これら構成部については実施形態1で既に説明しており、詳しい説明を省略する。
【0056】
実施形態2に係る端末装置1は、更に、TTS(Text to Speech)部21を備えている。TTS部21は、後述の如く、サーバ装置100から送られる応答テキストをオーディオ出力に変換する所謂音声合成器である。
【0057】
サーバ装置100は、制御部101、記憶部102、通信部103、読取部104及び大容量記憶部105を含む(
図8参照)。制御部101、記憶部102、通信部103及び読取部104は実施形態1と同様であり、詳しい説明を省略する。
【0058】
大容量記憶部105は、例えばHDD、SSD等の記録媒体を備える。大容量記憶部105は、学習モデルDB106、訓練データDB107及び学習モデル管理DB108を含む。
【0059】
学習モデルDB106には、分類モデル1061及び応答モデル1062(言語生成モデル)が格納されている。分類モデル1061は、機械学習により生成された学習済みの学習モデルであり、実施形態1と同様、端末装置1から送られた送話者の通話音声が合成音声であるか否かの分類を行う。
【0060】
また、応答モデル1062は機械学習により生成された学習済みの言語生成モデルである。端末装置1から送られた送話者の通話音声が合成音声であると制御部101が判定した場合、応答モデル1062は、送話者による騙しを防ぐための応答テキストを生成する。
【0061】
応答モデル1062は、複数のニューロン(ノードともいう)が結合されたニューラルネットワークにより構成されている。応答モデル1062は、送話者の通話内容を表すテキスト(以下、通話内容テキストと称する)が入力される入力層、特徴量を抽出する畳み込み層又はプーリング層を含む隠れ層、送話者の通話内容に対応する応答テキスト(応答データ)を出力する出力層を有し、送話者の通話内容テキストが入力された場合、入力された通話内容テキストに応じた応答テキストを出力するよう学習されている。
応答モデル1062を構成するニューラルネットワークの種類は任意であり、例えば、GPT-2等の学習モデルが採用される。
【0062】
訓練データDB107は、分類モデル1061及び応答モデル1062を構築(作成)するための訓練データを記憶している。具体的には、訓練データDB107は、分類モデル1061用の訓練データである分類訓練データ1071と、応答モデル1062用の訓練データである応答訓練データ1072とを記憶している。分類訓練データ1071については既に説明しており、以下では、応答訓練データ1072についてのみ説明する。
【0063】
図10は、訓練データDB107の応答訓練データ1072のレコードレイアウトの一例を示す説明図である。応答訓練データ1072は、訓練ID列、入力データ列及び出力データ列を含む。
【0064】
訓練ID列は、各訓練データを識別するために、一意に特定される訓練データのIDを記憶している。入力データ列は、種々の通話内容テキストを入力データとして記憶している。出力データ列は、入力された通話内容テキストに対応できる適切な応答テキストを記憶している。
【0065】
学習モデル管理DB108は、学習済みの分類モデル1061及び応答モデル1062に関する情報を記憶している。具体的に、学習モデル管理DB108は、分類モデル1061及び応答モデル1062のファイル、分類モデル1061及び応答モデル1062を生成した日時情報等を記憶している。
【0066】
図11は、学習モデル管理DB108のレコードレイアウトの一例を示す説明図である。
学習モデル管理DB108は、モデルID列、学習モデル列、種類列及び生成日時列を含む。モデルID列は、学習済みの分類モデル1061及び応答モデル1062を識別するために、一意に特定される学習モデルのIDを記憶している。学習モデル列は、学習済みの分類モデル1061及び応答モデル1062のファイルを記憶している。また、種類列は、学習モデルの種類を記憶している。種類は、例えば分類モデル1061及び応答モデル1062夫々が出力する出力データにより分類される。また、生成日時列は、学習済みの分類モデル1061及び応答モデル1062を生成した夫々の日時情報を記憶している。
【0067】
図12は、応答モデル1062の生成処理の手順を示すフローチャートである。
図11に基づき、機械学習を行って応答モデル1062を生成する処理について説明する。
【0068】
サーバ装置100の制御部101は、訓練データDB107の応答訓練データ1072から(
図10参照)、入力データと、該入力データに対応する出力データとを複数取得する(ステップS301)。
【0069】
制御部101は、取得した入力データ、及び、該入力データに対応する前記出力データを用いて、入力された通話内容テキストに応じた応答テキストを出力する応答モデル1062を生成する(ステップS302)。
【0070】
制御部101は、前記入力データを応答モデル1062に順次入力し、前記応答テキストを順次出力させる。制御部101は、出力された応答テキストを、応答訓練データ1072に含まれる教師データである出力データと比較し、両者が近似するように中間層の各種パラメータを最適化して、応答モデル1062を生成する。
【0071】
制御部101は、生成した分類モデル1061を大容量記憶部105の学習モデルDB106に記憶し(ステップS303)、一連の処理を終了する。具体的には、制御部101は、生成した応答モデル1062に対してモデルIDを割り振り、割り振ったモデルIDに対応付けて、応答モデル1062のファイル及び生成日時を一つのレコードとして学習モデル管理DB108に記憶する。
【0072】
実施形態2に係るサーバ装置100は、更に、STT(Speech to Text)部109を備えている。STT部109は、端末装置1から送られた送話者の通話音声(音声データ)を、前記通話内容テキストに変換する。STT部109によって変換された送話者の通話内容テキストは、応答モデル1062に入力される。
【0073】
図13は、着信があった場合における実施形態2の端末装置1の対応例を説明するフローチャートである。
【0074】
端末装置1が着信を受け付け(ステップS401)、端末装置1のユーザ(受話者)が応答の為の操作を行った場合、制御部11は、第1通信部18を介して受信される送話者の通話音声(音声データ)をキャプチャし、第2通信部19を介してサーバ装置100に送信する(ステップS402)。
【0075】
端末装置1からの送話者の通話音声の音声データは、サーバ装置100の通信部103によって受信され、記憶部102に一時記憶される。サーバ装置100の制御部101は、記憶部102に記憶された送話者の通話音声を読み出して分類モデル1061の入力層に入力し、分類モデル1061の出力層から出力される確信度(スコア)を記憶部102に一時記憶する。
【0076】
この際、制御部101は、分類モデル1061の出力層から出力される確信度(スコア)に基づいて、送話者の通話音声が合成音声か否かの判定を行う。斯かる確信度(スコア)が閾値以上である場合、制御部101は、送話者の通話音声が合成音声であると判定し、記憶部102に記憶された送話者の通話音声を読み出してSTT部109に入力して前記通話内容テキストを取得する。次いで制御部101は取得した通話内容テキストを応答モデル1062に入力し、応答モデル1062から出力される応答テキストを取得する。制御部101は、取得した応答テキストを、確信度(スコア)と共に、通信部103を介して端末装置1に送信する。サーバ装置100からの応答テキスト及び確信度(スコア)は端末装置1の第2通信部19によって受信される(ステップS403)。端末装置1の制御部11は、受信した確信度(スコア)及び応答テキストを記憶部12に一時記憶する。
【0077】
続いて、制御部11は、表示部16に上述した警告画面を表示する(
図3参照)。即ち、表示部16には、警告メッセージ161が点滅表示され、確信度(スコア)162が表示される(ステップS404)。
【0078】
次いで、ユーザが送話者の通話音声を録音するために警告画面の「開始」ボタン163をタッチ操作することに応じて、制御部11は録音部15に通話音声の録音を指示する。これに応じて、録音部15は送話者の通話音声の録音を開始する(ステップS405)。
【0079】
また、送話者の通話音声が合成音声であることを通知先121に通知すべく、ユーザが警告画面の「実行」ボタン164をタッチ操作することに応じて、制御部11は、記憶部12の通知先121への通知を第1通信部18に指示する。これに応じて、第1通信部18は通知先121への発呼を行う(ステップS406)。
【0080】
続いて、制御部11は、記憶部12に記憶されている、サーバ装置100から受信した応答テキストを読み出してTTS部21に送る。TTS部21は、斯かる応答テキストを音声データに変換し、第1通信部18を介してオーディオ出力する(ステップS407)。即ち、応答テキストを読み上げた音声(以下、応答音声)が第1通信部18を介して送話者に出力される。
【0081】
例えば、「警察に通報する」、「通話内容は録音したので、警察に提出する」等の音声が送話者に出力される。
【0082】
以降、制御部11は通話が終了したか否かを判定する(ステップS408)。通話が終了していないと判定した場合(ステップS408:NO)、制御部11は、通話が終了するまで斯かる判定を繰り返して行う。
【0083】
また、制御部11によって、通話が終了したと判定された場合(ステップS408:YES)、録音部15は送話者の通話音声の録音を中止する(ステップS409)。録音部15によって録音された送話者の通話音声は例えば記憶部12に記憶される。
【0084】
本実施形態においても、送話者の通話音声が合成音声であると判定された場合、ユーザ(受話者)に警告を行う。従って、ユーザは警戒心を高める、又は電話を切る等防止策を取ることができ、AIによって生成された合成音声を用いて知人になりすます、ディープフェイクによる騙し被害を未然に防止できる。
【0085】
また、本実施形態においては、上述の如く、送話者の通話音声が合成音声である場合、サーバ装置100から取得した応答テキストに基づいて応答音声を送話者に出力する。よって、合成音声を用いて知人になりすまして受話者を騙そうとする悪意ある送話者300を断念させ、前記ディープフェイクによる被害の発生を未然に防止できる。
【0086】
以上においては、送話者の通話音声が合成音声である場合、端末装置1にて、自動的にサーバ装置100から受信した応答テキストがTTS部21によって音声データに変換されて送話者に出力される場合を例に挙げて説明したが、これに限定されるものではない。例えば、サーバ装置100から受信した応答テキストを、TTS部21で生成された合成音声で送話者に出力するか、又は、受話者が自分の肉声で送話者に発話するか選択できるように構成しても良い。以下、詳しく説明する。
【0087】
図14は、表示部16に表示される警告画面の変形例を示す例示図である。変形例の警告画面には、上述の如く、警告メッセージ161が点滅表示され、確信度162、「開始」ボタン163、及び、「実行」ボタン164が表示される。
【0088】
更に、変形例の警告画面には、「応答表示」ボタン165及び「自動応答」ボタン166が表示される。「応答表示」ボタン165は、サーバ装置100から受信した応答テキストを表示部16に表示する指示を受け付けるボタンであり、「自動応答」ボタン166はサーバ装置100から受信した応答テキストをTTS部21を用いて音声データに変換して送話者に出力させる指示を受け付けるボタンである。即ち、受話者が「応答表示」ボタン165をタッチ操作した場合、サーバ装置100から受信した応答テキストが表示部16に表示されるので、例えば受話者はマイク14に向かって、斯かる応答テキストを読み上げれば良い。また、受話者が「自動応答」ボタン166をタッチ操作した場合、サーバ装置100から受信した応答テキストはTTS部21によって音声データに変換されて送話者に出力される。
【0089】
また、以上においては、サーバ装置100が学習モデルDB106(分類モデル1061及び応答モデル1062)を備える場合を例に挙げて説明したが、これに限定されるものではない。端末装置1が学習モデルDB106(分類モデル1061及び応答モデル1062)を備えるように構成しても良い。
【0090】
なお、訓練データを用いて応答モデル1062を学習させる例を示したがこれに限るものではない。
応答モデル1062を学習させることなく、応答モデル1062に通話内容テキストと共に予め記憶部102に記憶したプロンプトを入力することにより、応答テキストを取得するようにしても良い。例えば、「あなたは詐欺電話対応の専門家GPTです。下記に示す通話内容テキストを参考に、詐欺電話を撃退する文章を作成してください」とするプロンプトを記憶しておく。制御部11はプロンプト及び通話内容テキスト(既に対話が続いている場合、通話内容の履歴のテキスト)を応答モデル1062に入力し、応答テキストを取得する。
【0091】
実施の形態1と同様の部分については、同一の符号を付して詳細な説明を省略する。
【0092】
実施の形態1~2で記載されている技術的特徴(構成要件)はお互いに組み合わせ可能であり、組み合わせることにより、新しい技術的特徴を想到することができる。
今回開示された実施形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
【0093】
各実施形態に記載した事項は相互に組み合わせることが可能である。また、特許請求の範囲に記載した独立請求項及び従属請求項は、引用形式に関わらず全てのあらゆる組み合わせにおいて、相互に組み合わせることが可能である。さらに、特許請求の範囲には他の2以上のクレームを引用するクレームを記載する形式(マルチクレーム形式)を用いているが、これに限るものではない。マルチクレームを少なくとも一つ引用するマルチクレーム(マルチマルチクレーム)を記載する形式を用いて記載しても良い。
【符号の説明】
【0094】
1 端末装置
11 制御部
100 サーバ装置
101 制御部
163 開始ボタン
164 実行ボタン
1061 分類モデル(学習モデル)
1062 応答モデル(言語生成モデル)