(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023146216
(43)【公開日】2023-10-12
(54)【発明の名称】テキスト化支援装置及びテキスト化支援方法
(51)【国際特許分類】
G10L 15/10 20060101AFI20231004BHJP
【FI】
G10L15/10 200W
G10L15/10 300G
【審査請求】有
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022053293
(22)【出願日】2022-03-29
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110000176
【氏名又は名称】弁理士法人一色国際特許事務所
(72)【発明者】
【氏名】山添 義明
(72)【発明者】
【氏名】松本 稜
(72)【発明者】
【氏名】谷澤 洋輔
(72)【発明者】
【氏名】高橋 雪城
(57)【要約】
【課題】通話内容に関する音声テキスト化の特性に関わらず、当該通話内容のキーワードマッチングを精度良好に実施可能とする。
【解決手段】テキスト化支援装置100において、各語彙の正しい音素の情報を規定したマスタデータ126を保持する記憶装置101と、通話録音データを音響モデル110に適用して音素を抽出し、マスタデータ126で音素が規定された語彙のうち、通話録音データに関して出現が想定されている語彙の正しい音素と、上述の抽出で得た音素との一致率を算定し、この算定の結果、音素同士が所定の一致率を示す語彙をキーワードマッチング結果として特定する演算装置104を含む構成とする。
【選択図】
図2
【特許請求の範囲】
【請求項1】
会話の場面ないし対象ごとに出現が想定される各語彙の正しい音素の情報を規定したマスタデータを保持する記憶装置と、
所定装置から得た通話録音データを音響モデルに適用して音素を抽出する処理と、前記マスタデータで音素が規定された語彙のうち、前記通話録音データの会話の場面ないし対象に関して出現が想定されている語彙の前記正しい音素と、前記抽出した音素との一致率を算定する処理と、前記算定の結果、音素同士が所定の一致率を示す前記語彙をキーワードマッチング結果として特定する処理を実行する演算装置と、
を含むテキスト化支援装置。
【請求項2】
前記記憶装置は、
母音間の発話類似度を規定した情報をさらに保持し、
前記演算装置は、
前記一致率の算定に際し、前記正しい音素及び前記抽出した音素のそれぞれに含まれる母音間の一致率を、前記発話類似度の情報に基づいて算定する処理と、前記正しい音素及び前記抽出した音素のそれぞれに含まれる子音間の一致率を算定する処理と、前記母音間の一致率を前記子音間の一致率よりも優位に重み付けて、前記母音間及び前記子音間の各一致率に基づき前記音素同士の一致率を算定するものである、
ことを特徴とする請求項1に記載のテキスト化支援装置。
【請求項3】
前記演算装置は、
前記一致率の算定に際し、
前記抽出した音素及び前記正しい音素のそれぞれに関して、当該音素に含まれる母音の配列において、連続する2つの母音の組みにおける類似度を前記発話類似度で特定し、前記類似度が基準以上の組みについては予め定めた1つの規定母音に畳み込み、前記類似度が基準を下回る組みについては先頭の母音を採用して、後尾の母音を前記配列において隣接する母音と次なる組みを形成する処理を実行して、音節配列を生成し、
前記抽出した音素及び前記正しい音素のそれぞれに関して生成した、前記音節配列の間で母音数を比較し、当該母音数が等しい場合、当該音節配列の元となった、前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定するものである、
ことを特徴とする請求項2に記載のテキスト化支援装置。
【請求項4】
前記演算装置は、
前記音節配列の間で母音数を比較し、前記抽出した音素よりも前記正しい音素に対応する音節配列での母音数が多い場合、前記正しい音素の音節配列が正とした場合、前記抽出した音素の音節配列において母音が欠けている部分について、当該正しい音素の対応音素で補って補正し、
前記補正が行われた前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定するものである、
ことを特徴とする請求項3に記載のテキスト化支援装置。
【請求項5】
前記演算装置は、
前記音節配列の間で母音数を比較し、前記抽出した音素よりも前記正しい音素に対応する音節配列での母音数が少ない場合、前記正しい音素の音節配列が正とした場合、前記抽出した音素の音節配列において母音が余剰となっている部分を削除して補正し、
前記補正が行われた前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定するものである、
ことを特徴とする請求項3に記載のテキスト化支援装置。
【請求項6】
情報処理装置が、
会話の場面ないし対象ごとに出現が想定される各語彙の正しい音素の情報を規定したマスタデータを記憶装置にて保持し、
所定装置から得た通話録音データを音響モデルに適用して音素を抽出する処理と、前記マスタデータで音素が規定された語彙のうち、前記通話録音データの会話の場面ないし対象に関して出現が想定されている語彙の前記正しい音素と、前記抽出した音素との一致率を算定する処理と、前記算定の結果、音素同士が所定の一致率を示す前記語彙をキーワードマッチング結果として特定する処理と、
を実行するテキスト化支援方法。
【請求項7】
前記情報処理装置が、
前記記憶装置において、母音間の発話類似度を規定した情報をさらに保持し、
前記一致率の算定に際し、前記正しい音素及び前記抽出した音素のそれぞれに含まれる母音間の一致率を、前記発話類似度の情報に基づいて算定する処理と、前記正しい音素及び前記抽出した音素のそれぞれに含まれる子音間の一致率を算定する処理と、前記母音間の一致率を前記子音間の一致率よりも優位に重み付けて、前記母音間及び前記子音間の各一致率に基づき前記音素同士の一致率を算定する、
ことを特徴とする請求項6に記載のテキスト化支援方法。
【請求項8】
前記情報処理装置が、
前記一致率の算定に際し、
前記抽出した音素及び前記正しい音素のそれぞれに関して、当該音素に含まれる母音の配列において、連続する2つの母音の組みにおける類似度を前記発話類似度で特定し、前記類似度が基準以上の組みについては予め定めた1つの規定母音に畳み込み、前記類似度が基準を下回る組みについては先頭の母音を採用して、後尾の母音を前記配列において隣接する母音と次なる組みを形成する処理を実行して、音節配列を生成し、
前記抽出した音素及び前記正しい音素のそれぞれに関して生成した、前記音節配列の間で母音数を比較し、当該母音数が等しい場合、当該音節配列の元となった、前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定する、
ことを特徴とする請求項7に記載のテキスト化支援方法。
【請求項9】
前記情報処理装置が、
前記音節配列の間で母音数を比較し、前記抽出した音素よりも前記正しい音素に対応する音節配列での母音数が多い場合、前記正しい音素の音節配列が正とした場合、前記抽出した音素の音節配列において母音が欠けている部分について、当該正しい音素の対応音素で補って補正し、
前記補正が行われた前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定する、
ことを特徴とする請求項8に記載のテキスト化支援方法。
【請求項10】
前記情報処理装置が、
前記音節配列の間で母音数を比較し、前記抽出した音素よりも前記正しい音素に対応する音節配列での母音数が少ない場合、前記正しい音素の音節配列が正とした場合、前記抽出した音素の音節配列において母音が余剰となっている部分を削除して補正し、
前記補正が行われた前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定する、
ことを特徴とする請求項8に記載のテキスト化支援方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキスト化支援装置及びテキスト化支援方法に関するものである。
【背景技術】
【0002】
営業員やコールセンタ等における通話内容が、コンプライアンス等の観点に照らして適切か確認するニーズが存在する。また近年では、そうした通話内容の録音データを聞き直して確認するといった旧来手法ではなく、当該音声データのテキスト化を行った上で確認対象とする手法も提案されている。
そうしたテキスト化に関連する従来技術としては、商談や営業活動の際の顧客への説明内容等のデータに基づいて、「禁止表現」の有無、および「必要事項」が含まれているか否かのいずれについてもチェック対象とするコンプライアンスチェックシステムおよびコンプライアンスチェックプログラム(特許文献1参照)などが提案されている。
【0003】
この技術は、業担当者が顧客に対して行った各発話についてコンプライアンスを遵守しているかをチェックするコンプライアンスチェックシステムであって、前記営業担当者の前記各発話の内容を音声認識技術によりテキスト化したテキストデータに対して、形態素解析を含む自然言語解析処理を行って解析済テキストデータとして出力するテキスト解析部と、前記各発話に係る前記解析済テキストデータ内の各発話について、所定の基準に従って連続する1つ以上の発話からなるブロックにまとめ、前記各ブロックにおいて、顧客に対して説明するべき必要事項として予め定義された第1のテキストデータの内容が説明されているか否かを判定する判定部と、前記各発話に係る前記解析済テキストデータについて、顧客に対して述べてはいけない禁止表現の内容として予め定義された第2のテキストデータにマッチするものがある場合に、対象の前記発話において対象の前記禁止表現が述べられたものと判定するキーワードマッチング部と、前記営業担当者が前記顧客に対して行った前記各発話のデータに前記営業担当者および/または前記顧客を特定する管理情報と関連付けて記録するデータ記録部と、を有し、前記テキスト解析部は、前記営業担当者が前記顧客に対して行った前記各発話のデータに、前記管理情報に基づいて抽出される前記営業担当者が前記顧客に対して行った過去の発話についても含め、前記判定部は、前記ブロックにおいて、前記第1のテキストデータの内容が説明されていると判定した場合に、前記ブロックに対して前記必要事項のカテゴリを付与して記録するとともに、前記必要事項のそれぞれについて、予め設定した所定の評価基準に基づいて、説明された度合を判定するシステムである。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
上述のようなテキスト化については、深層学習技術等の進展によって精度向上が図られてきおり、その利活用が進んでいる。例えば、金融分野における通話録音データの利活用の一例として、NGワードの発言有無、正しい顧客名、商品名の発音有無をチェックするといったものがある。
当該チェックに際しては、通話録音データをテキスト化したものに対して、キーワードマッチングを行うケースが多い。ところが、録音状況や発話者の癖などの要因により、テキスト化の精度が低くなりやすい通話(誤検知が多い通話)の存在も判明しており、こうした通話に関して、精度良くキーワードマッチングを行うことは困難であった。
【0006】
つまり、音声テキスト化の精度が低くなりがちな通話に関してキーワードマッチングを行うとしても、その精度は期待出来ず、結局のところチェック漏れが発生してしまう要因となっている。
【0007】
そこで本発明の目的は、通話内容に関する音声テキスト化の特性に関わらず、当該通話内容のキーワードマッチングを精度良好に実施可能とする技術を提供することにある。
【課題を解決するための手段】
【0008】
上記課題を解決する本発明のテキスト化支援装置は、会話の場面ないし対象ごとに出現が想定される各語彙の正しい音素の情報を規定したマスタデータを保持する記憶装置と、所定装置から得た通話録音データを音響モデルに適用して音素を抽出する処理と、前記マスタデータで音素が規定された語彙のうち、前記通話録音データの会話の場面ないし対象に関して出現が想定されている語彙の前記正しい音素と、前記抽出した音素との一致率を算定する処理と、前記算定の結果、音素同士が所定の一致率を示す前記語彙をキーワードマッチング結果として特定する処理を実行する演算装置と、を含むことを特徴とする。
また、本発明のテキスト化支援方法は、情報処理装置が、会話の場面ないし対象ごとに出現が想定される各語彙の正しい音素の情報を規定したマスタデータを記憶装置にて保持し、所定装置から得た通話録音データを音響モデルに適用して音素を抽出する処理と、前記マスタデータで音素が規定された語彙のうち、前記通話録音データの会話の場面ないし対象に関して出現が想定されている語彙の前記正しい音素と、前記抽出した音素との一致率を算定する処理と、前記算定の結果、音素同士が所定の一致率を示す前記語彙をキーワードマッチング結果として特定する処理と、を実行することを特徴とする。
【発明の効果】
【0009】
本発明によれば、通話内容に関する音声テキスト化の特性に関わらず、当該通話内容のキーワードマッチングを精度良好に実施可能となる。
【図面の簡単な説明】
【0010】
【
図1】本実施形態のテキスト化支援装置を含むネットワーク構成図である。
【
図2】本実施形態におけるテキスト化支援装置のハードウェア構成例を示す図である。
【
図3】本実施形態におけるオペレータ端末のハードウェア構成例を示す図である。
【
図4】本実施形態におけるコールセンタシステムのハードウェア構成例を示す図である。
【
図5】本実施形態における管理者端末のハードウェア構成例を示す図である。
【
図6】本実施形態の通話録音DBの構成例を示す図である。
【
図7】本実施形態の音素マスタテーブルの構成例を示す図である。
【
図8】本実施形態の発話類似度テーブルの構成例を示す図である。
【
図9】本実施形態におけるテキスト化支援方法のフロー例1を示す図である。
【
図10】本実施形態におけるテキスト化支援方法のフロー例2を示す図である。
【
図11】本実施形態におけるテキスト化支援方法のフロー例3を示す図である。
【発明を実施するための形態】
【0011】
<ネットワーク構成>
以下に本発明の実施形態について図面を用いて詳細に説明する。
図1は、本実施形態のテキスト化支援装置100を含むネットワーク構成図である。
図1に示すテキスト化支援装置100は、通話内容に関する音声テキスト化の特性に関わらず、当該通話内容のキーワードマッチングを精度良好に実施可能とするコンピュータである。
【0012】
本実施形態のテキスト化支援装置100は、
図1で示すように、インターネットや組織内のセキュアな回線などの適宜なネットワーク1を介して、オペレータ端末200、コールセンタシステム300、及び管理者端末400と、必要に応じて通信可能に接続されている。よって、これらを総称してテキスト化システム10としてもよい。
【0013】
本実施形態のテキスト化支援装置100は、例えば、コールセンタでのオペレータと顧客との会話内容がコンプライアンスや顧客対応の観点で適切であったか、会話中でのNGワードの出現や、或いは必須ワードの不出現といった事象についてキーワードマッチングで特定する支援装置と言える。
【0014】
勿論、コールセンタ業務におけるオペレータと顧客との会話に関してキーワードマッチングを行う状況のみを本発明の適用対象とするのみならず、音声データ中に必要な/禁忌のキーワードの出現状況を検証する機会が存在する業務等であれば、いずれについても適用可能である。
【0015】
一方、オペレータ端末200は、種々の商品やサービスに関する顧客からの問合せへの対応業務、或いは見込み客等に対する電話営業を行う担当者が使用する端末である。具体的には、PCと一体となった電話端末、スマートフォン、タブレット端末、パーソナルコンピュータなどを想定できる。こうしたオペレータ端末200での担当者と顧客との間の会話が録音され、通話録音データとして管理、活用されることとなる。
【0016】
また、コールセンタシステム300は、上述のオペレータ端末200と顧客の電話機との間で発着信の管理や、上述のオペレータ端末200での会話内容である通話録音データを管理するシステムとなる。よって、コールセンタシステム300は、通話録音データを記憶装置にて保持・管理し、テキスト化支援装置100に適宜配信する。
【0017】
また、管理者端末400は、上述のコールセンタの管理者が操作する端末である。この管理者端末400は、当該コールセンタでの業務終了時など適宜なタイミングで、一日など所定期間分の通話録音データに関して、上述のコンプライアンス等の所定観点でのチェックを行うべくキーワードマッチング処理の指示を、テキスト化支援装置100に行い、その処理結果を取得する端末となる。
<ハードウェア構成>
また、本実施形態のテキスト化支援装置100のハードウェア構成は、
図2に以下の如くとなる。
【0018】
すなわちテキスト化支援装置100は、記憶装置101、メモリ103、演算装置104、および通信装置105、を備える。
【0019】
このうち記憶装置101は、SSD(Solid State Drive)やハードディスクドライブなど適宜な不揮発性記憶素子で構成される。
【0020】
また、メモリ103は、RAMなど揮発性記憶素子で構成される。
【0021】
また、演算装置104は、記憶装置101に保持されるプログラム102をメモリ103に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうCPUである。
【0022】
また、通信装置105は、ネットワーク1と接続して、少なくともコールセンタシステム300との通信処理を担うネットワークインターフェイスカード等を想定する。
【0023】
なお、テキスト化支援装置100がスタンドアロンマシンである場合、ユーザからのキー入力や音声入力を受け付ける入力装置、処理データの表示を行うディスプレイ等の出力装置、を更に備えるとすれば好適である。
【0024】
また、記憶装置101内には、本実施形態のテキスト化支援装置として必要な機能を実装する為のプログラム102に加えて、通話録音DB125、音素マスタテーブル126、及び発話類似度テーブル1276が少なくとも記憶されている。ただし、これらデータベース等についての詳細は後述する。
【0025】
また、プログラム102は、音響モデル110、及び言語モデル111を備えるものとする。音響モデル110は、オペレータと顧客との間の会話に関する通話録音データから当該通話の音声を構成する音素を抽出する機能である。
【0026】
そのため、テキスト化支援装置100は、通話録音データが示す音声の特徴量(周波数や音の強弱)を分析し、取扱いしやすいデータとして変換する音響分析を事前に実行し、この音響分析結果が示す特徴量を音響モデル110に与えることになる。
【0027】
音響モデル110は、適宜な深層学習などにより、上述の特徴量と音素との対応関係を規定したモデルであって、上述の音声の特徴量を与えることで、音波の最小単位である音素を抽出する。
【0028】
なお、音素とは、音声を発したときに観測できる音波の最小構成要素である。日本語における音素は、母音(アイウエオ)、擬音(ン)、子音(23種類)の計3種類から成り立っている。例えば、「田中さん」の場合は、「t-a-n-a-k-a-s-a-n」が音素となる。
【0029】
本実施形態のテキスト化支援装置100は、音響モデル110により得た音素に基づいて、キーワードマッチングを行うこととなる。上述の場合、音素「t-a-n-a-k-a-s-a-n」
を、「田中さん」という日本語の語彙として特定する処理が該当する。より具体的には、各音素がどの単語に該当するか、音素マスタテーブル126を適宜利用しつつ、本発明のテキスト化支援方法を適用することで、音素を語彙に置換していく。
【0030】
一方、言語モデル111は、キーワードマッチングで得た語彙の群れを適宜に文章化する処理を担うものとなる。例えば、「田中さん」、「信州では」、「雪が」、「積もりましたよ」、といった語彙の群れを、語彙の群れと正しい(或いは高頻度で出現する)一文との関係についての統計データ等に基づいて、可能性の高い組み合わせ例として意味ある文章を構成する。
【0031】
また、本実施形態のオペレータ端末200のハードウェア構成は、
図3に以下の如くとなる。
【0032】
すなわちオペレータ端末200は、記憶装置201、メモリ203、演算装置204、入力装置205、出力装置206、および通信装置207、を備える。
【0033】
このうち記憶装置201は、SSD(Solid State Drive)やハードディスクドライブなど適宜な不揮発性記憶素子で構成される。
【0034】
また、メモリ203は、RAMなど揮発性記憶素子で構成される。
【0035】
また、演算装置204は、記憶装置201に保持されるプログラム202をメモリ203に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制
御処理を行なうCPUである。
【0036】
また、入力装置205は、ユーザたるオペレータからのキー入力や音声入力を受け付けるキーボードやマウスといった装置で構成される。
【0037】
また、出力装置206は、演算装置204での処理結果の表示を行うディスプレイやスピーカー等の装置で構成される。
【0038】
また、通信装置207は、ネットワーク1と接続して、コールセンタシステム300や管理者端末400(あるいはテキスト化支援装置100)との通信処理を担うネットワークインターフェイスカード等を想定する。
【0039】
また、本実施形態のコールセンタシステム300のハードウェア構成は、
図4に以下の如くとなる。
【0040】
すなわちコールセンタシステム300は、記憶装置301、メモリ303、演算装置304、および通信装置305、を備える。
【0041】
このうち記憶装置301は、SSD(Solid State Drive)やハードディスクドライブなど適宜な不揮発性記憶素子で構成される。
【0042】
また、メモリ303は、RAMなど揮発性記憶素子で構成される。
【0043】
また、演算装置304は、記憶装置301に保持されるプログラム302をメモリ303に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうCPUである。
【0044】
また、通信装置305は、ネットワーク1と接続して、少なくともテキスト化支援装置100や、オペレータ端末200との通信処理を担うネットワークインターフェイスカード等を想定する。
【0045】
なお、コールセンタシステム300がスタンドアロンマシンである場合、ユーザからのキー入力や音声入力を受け付ける入力装置、処理データの表示を行うディスプレイ等の出力装置、を更に備えるとすれば好適である。
【0046】
また、記憶装置301内には、本実施形態のコールセンタシステム300として必要な機能を実装する為のプログラム302に加えて、通話録音データ325が少なくとも記憶されている。この通話録音データ325は、テキスト化支援装置100における通話録音DB125のレコードとなるデータである。
【0047】
また、本実施形態の管理者端末400のハードウェア構成は、
図5に以下の如くとなる。
【0048】
すなわち管理者端末400は、記憶装置401、メモリ403、演算装置404、入力装置405、出力装置406、および通信装置407、を備える。
【0049】
このうち記憶装置401は、SSD(Solid State Drive)やハードディスクドライブなど適宜な不揮発性記憶素子で構成される。
【0050】
また、メモリ403は、RAMなど揮発性記憶素子で構成される。
【0051】
また、演算装置404は、記憶装置401に保持されるプログラム402をメモリ403に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうCPUである。
【0052】
また、入力装置405は、ユーザたるオペレータからのキー入力や音声入力を受け付けるキーボードやマウスといった装置で構成される。
【0053】
また、出力装置406は、演算装置404での処理結果の表示を行うディスプレイやスピーカー等の装置で構成される。
【0054】
また、通信装置407は、ネットワーク1と接続して、テキスト化支援装置100やコールセンタシステム300との通信処理を担うネットワークインターフェイスカード等を想定する。
<データ構造例>
続いて、本実施形態のテキスト化支援装置100が用いる各種情報について説明する。
図6に、本実施形態における通話録音DB125の一例を示す。本実施形態の通話録音DB125は、例えば、コールセンタシステム300から(またはオペレータ端末200から)取得した、オペレータと顧客との間の通話録音データを格納したデータベースである。
【0055】
この通話録音DB125は、例えば、通話日時及び通話対象の顧客を示す顧客IDをキーに、当該顧客の氏名、当該顧客から指定された商品・サービス名、対応オペレータのID、録音データファイル、といったデータを紐付けレコードの集合体となっている。
【0056】
また
図7に、本実施形態における音素マスタテーブル126の構成例を示す。本実施形態の音素マスタテーブル126は、語彙ごとの正しい音素を規定したテーブルである。
【0057】
この音素マスタテーブル126は、例えば、会話の場面や対象をキーとして、それら場面や対象に関する会話中に出現が想定される語彙の正しい音素の情報を規定した構成となっている。
【0058】
また
図8に、本実施形態における発話類似度テーブル127の構成例を示す。本実施形態の発話類似度テーブル127は、日本語の母音を発話した場合の各間における類似度を規定したテーブルである。
【0059】
この発話類似度テーブル127は、縦横に母音を列挙し、母音それぞれの間での類似度を、最大値1(完全一致)から最小値0(類似度ゼロ)までの間の非連続な数値で規定したマトリクスを構成している。
<フロー例1>
以下、本実施形態におけるテキスト化支援方法の実際手順について図に基づき説明する。以下で説明するテキスト化支援方法に対応する各種動作は、テキスト化支援装置100がメモリ等に読み出して実行するプログラムによって実現される。そして、このプログラムは、以下に説明される各種の動作を行うためのコードから構成されている。
【0060】
図9は、本実施形態におけるテキスト化支援方法のフロー例1を示す図である。この場合、テキスト化支援装置100は、例えば、コールセンタシステム300(ないしオペレータ端末200)から、通話録音データ325を取得し、これを通話録音DB125に格納する(s1)。
【0061】
また、テキスト化支援装置100は、予め定めたタイミングの到来を検知して、または管理者端末400からの指示を受けて、通話録音DB125で保持する通話録音データのうち、例えば、所定期間に関するものを抽出し、これを音響モデル110に適用することで、音素を抽出する(s2)。
【0062】
例えば、コールセンタのオペレータが「佐伯」という顧客に対して、定型の挨拶の後、「佐伯さん」という発話を行っていた通話録音データに関して、「T-A-I-K-I-S-A-N」という音素配列を抽出したとする。ここでは顧客氏名を処理対象としたが、これは一例であって、例えば、金融商品名を処理対象とするとしても好適である。
【0063】
続いて、テキスト化支援装置100は、上述の通話録音データに紐付く顧客IDから、当該通話対象の顧客が「佐伯」さんであることを特定し、この「佐伯さん」をキーワードマッチング対象の語彙として、その音素を音素マスタテーブル126から抽出する(s3)。この場合、「S-A-E-K-I-S-A-N」という音素配列が、音素マスタテーブル126における顧客ID「C018122:佐伯***」のレコードから抽出される。
【0064】
続いて、テキスト化支援装置100は、s2、s3でそれぞれ得た音素配列を比較し、その一致率を算定する(s4)。上述の場合、「T-A-I-K-I-S-A-N」という音素配列と、「S-A-E-K-I-S-A-N」という音素配列を照合すると、全8音素のうち、6つの音素が一致しており、6/8=0.75が一致率となる。
【0065】
もし、従来どおり、通話録音データから得た「T-A-I-K-I-S-A-N」という音素配列を言語モデル111に適用し、「大輝さん」というテキストを得て、これと、音素マスタテーブル126で規定の語彙「佐伯さん」というテキストと照合した場合、その一致率は、全4文字のうち2文字の一致で、一致率を2/4=0.5と算定することになる。キーワードマッチングの合否基準が、例えば一致率0.6であると、オペレータとしては確かに「佐伯さん」と顧客名を発話しているにも関わらず、言語モデル111での変換精度の影響によって、これらはマッチングしないと判定されることになってしまう。
【0066】
一方、本発明のテキスト化支援装置100によれば、こうした言語モデル111での変換精度の問題をクリアし、音素配列間の一致率に基づくキーワードマッチングを行うことが可能であり、従来よりも精度良好なキーワードマッチングが可能となっている。
<フロー例2>
図10は、本実施形態におけるテキスト化支援方法のフロー例2を示す図である。ここでは、上述のフロー例1における効果をさらに高めるべく、母音の観点を加えて音素配列の一致度を算定する手法について説明する。なお、本フローにおいては、上述のフロー例1におけるs1、s2までは同様であるため、それ以降の処理として説明を行うものとする。
【0067】
テキスト化支援装置100は、上述のフロー例1のように抽出した音素配列から母音(a、i、u、e、o)だけを抽出する(s10)。上述の例の場合、「A、I、I、A」という母音配列を抽出することになる。
【0068】
また、テキスト化支援装置100は、上述の通話対象の顧客「佐伯」さんに関する、音素および母音の抽出をs3、s10と同様に実行する(s11)。この場合、「S-A-E-K-I-S-A-N」という音素配列から、母音配列「A、E、I、A」を抽出することになる。
【0069】
続いて、テキスト化支援装置100は、s10、s11でそれぞれ得た母音配列におけ
る母音を、配列先頭から順に発話類似度テーブル127に照合し、母音配列間で対応する位置同士の母音の類似度を特定する(s12)。
【0070】
例えば、母音「A」と母音「A」は、発話類似度テーブル127によれば類似度「1」、母音「A」と母音「I」は、発話類似度テーブル127によれば類似度「0」、母音「A」と母音「U」は、発話類似度テーブル127によれば類似度「0」、母音「A」と母音「E」は、発話類似度テーブル127によれば類似度「0.5」、母音「A」と母音「O」は、発話類似度テーブル127によれば類似度「0.5」、などと特定する。
【0071】
その結果、上述の例であれば、「A、I、I、A」と「A、E、I、A」を照合し、「A」と「A」で類似度「1」、「I」と「E」で類似度「0.5」、「I」と「I」で類似度「1」、「A」と「A」で類似度「1」、となる。
【0072】
そこでテキスト化支援装置100は、s12で得た母音ごとの類似度に基づき、上述の音素配列における母音類似度を、(1+0.5+1+1)/4=0.875と算定する(s13)。
【0073】
また、テキスト化支援装置100は、s2、s3で得ている音素配列に基づき、子音についても一致率を算定する(s14)。上述の例の場合、「T-A-I-K-I-S-A-N」という音素配列における子音「T、K、S、N」と、「S-A-E-K-I-S-A-N」という音素配列における子音「S、K、S、N」を照合すると、全4音素のうち、3つの音素が一致しており、3/4=0.75が一致率となる。
【0074】
続いて、テキスト化支援装置100は、s13で得た母音類似度に重み付けをした上で、子音の一致率と加重平均を行って、音素配列間の一致率を算定する(s15)。
【0075】
例えば、上述の重み付けを「2」、すなわち子音の一致率より2倍の重みをつけて加重平均を行うとすれば、(子音一致率0.75+母音類似度0.875×重み2)/3=0.83、と一致率を算定できる。
<フロー例3>
図11は、本実施形態におけるテキスト化支援方法のフロー例3を示す図である。ここでは、上述のフロー例1、2における効果をさらに高めるべく、脱字や衍字への対処という観点を加えて音素配列の一致度を算定する手法について説明する。なお、本フローにおいては、上述のフロー例1におけるs1、s2、フロー例におけるs10、s11までは同様であるため、それ以降の処理として説明を行うものとする。
【0076】
テキスト化支援装置100は、上述のように抽出した、通話録音データにおける音素配列中の母音配列、及び、音素マスタテーブル126の対応レコードから読み出した音素配列中の母音配列のそれぞれに関して、当該母音配列において連続する2つの母音の組みにおける類似度を発話類似度テーブル127に基づき特定する(s20)。
【0077】
例えば、通話録音データから得た音素配列「O-H-A-Y-O-U-G-O-Z-A-I-M-A-S-U-S-A-K-I-S-A-N」中の母音配列「O、A、O、U、O、A、I、A、U、A、I、A」では、先頭から2つずつ母音を選択し、組み(1)「O、A」、組み(2)「O、U」、組み(3)「O、A」、組み(4)「I、A」、組み(5)「U、A」、組み(6)「I、A」といった計6つの組みを形成した場合、発話類似度テーブル127に基づき、組み(1)は類似度「0.5」、組み(2)は類似度「0.5」、組み(3)は類似度「0.5」、組み(4)は類似度「0」、組み(5)は類似度「0」、組み(6)は類似度「0」と特定できる。
【0078】
続いて、テキスト化支援装置100は、s20で特定した各組みの類似度が例えば0.5といった基準以上の組みについては予め定めた1つの規定母音(例:A、I、U)に畳み込み、類似度が基準を下回る組みについては先頭の母音を採用して、後尾の母音を音素配列中において隣接する母音と次なる組みを形成する処理を実行して、音節配列を生成する(s21)。
【0079】
上述の例の場合、組み(1)は母音「A」に集約(すなわち畳み込み。以下同様)、組み(2)は母音「U」に集約、組み(3)は母音「A」に集約、組み(4)は先頭の母音「I」を採用し、後尾の母音「A」を当初の組み(5)の先頭の母音「U」と組み合わせた新たな組み(5)’を形成し、これ以降の母音の配列についても組みを再構成し、上述の類似度に基づく集約を実行する。
【0080】
その結果、各組みの集約を経て残った音節配列は、「A、U、A、I、A、U、A、I、A」となる。
【0081】
テキスト化支援装置100は、こうした音節配列の生成を、音素マスタテーブル126で対応するレコードの音素配列「S-A-S-A-K-I-S-A-N」における母音配列「A、A、I、A」に関しても同様に実行し、「A、I、A」を得ることになる。
【0082】
次に、テキスト化支援装置100は、s21において、通話録音データ由来の音節配列中で、音素マスタテーブル126由来で生成した音節配列と一致する箇所について、音素マスタテーブル126由来の音節配列と母音数を比較し、当該母音数が等しい場合(s22:同数)、上述の箇所と音素マスタテーブル126由来の音節配列とで、対応する母音配列における母音の一致率を発話類似度テーブル127に基づき算定する(s23)。
【0083】
例えば、通話録音データの音素配列「O-H-A-Y-O-U-G-O-Z-A-I-M-A-S-U-S-A-K-I-S-A-N」中の母音配列「O、A、O、U、O、A、I、A、U、A、I、A」のうち、その音素配列が音素マスタテーブル126由来の音節配列「A、I、A」(これは母音配列「A、A、I、A」に基づく)と一致するのは、「O、A、I、A」の箇所である。
【0084】
よってテキスト化支援装置100は、通話録音データ由来の母音配列中「O、A、I、A」と、音素マスタテーブル126由来の母音配列「A、A、I、A」との間について、各母音の間の類似度を発話類似度テーブル127に基づいて特定し、例えば、(0.5+1+1+1)/4=0.875、などと算定する。
【0085】
一方、上述のs22での母音数の比較の結果、前記通話録音データ由来の母音数よりもマスタテーブル126由来の母音数が多い場合(s22:多)、テキスト化支援装置100は、脱字が行っていると推定し、マスタテーブル126由来の音節配列が正とし、通話録音データ由来の音節配列において母音が欠けている部分について、当該マスタテーブル126由来の対応音素で補って補正し(s24)、この補正が行われた母音配列とマスタテーブル126由来の母音配列との間で母音の一致率を発話類似度テーブル127に基づき算定する(s25)。
【0086】
例えば、通話録音データの音素配列「S-A-K-I-S-A」中の母音配列「A、I、A」は、その音素配列が音素マスタテーブル126由来の音節配列「A、I、A」(これは母音配列「A、A、I、A」に基づく)と一致する。ただし、対応する母音配列中の母音数は、マスタテーブル126由来の母音配列の方が1つ多い。
【0087】
そこで、テキスト化支援装置100は、通話録音データ由来の母音配列「A、I、A」
のうち、上述のマスタテーブル126由来の母音配列「A、A、I、A」と比べて不足している、すなわち欠けているものが先頭から2番目「A」である。よって、テキスト化支援装置100は、通話録音データ由来の母音配列「A、I、A」のうち、先頭「A」と2番目の「I」の間に、「A」を補って補正する。
【0088】
また、テキスト化支援装置100は、上述の補正を行った母音配列と、マスタテーブル126由来の母音配列の間の類似度を、発話類似度テーブル127に基づいて(1+1+1+1)/4=1、などと算定することになる。
【0089】
他方、上述のs22での母音数の比較の結果、前記通話録音データ由来の母音数よりもマスタテーブル126由来の母音数が少ない場合(s22:少)、テキスト化支援装置100は、衍字が行っていると推定し、マスタテーブル126由来の音節配列が正とし、通話録音データ由来の音節配列において母音が過剰となっている部分について削除して補正し(s26)、この補正が行われた母音配列とマスタテーブル126由来の母音配列との間で母音の一致率を発話類似度テーブル127に基づき算定する(s27)。
【0090】
例えば、通話録音データの音素配列「A-K-A-S-A-K-I-S-A」中の母音配列「A、A、A、I、A」は、その音素配列が音素マスタテーブル126由来の音節配列「A、I、A」(これは母音配列「A、A、I、A」に基づく)と一致する。ただし、対応する母音配列中の母音数は、マスタテーブル126由来の母音配列の方が1つ少ない。
【0091】
そこで、テキスト化支援装置100は、通話録音データ由来の母音配列「A、A、A、I、A」のうち、上述のマスタテーブル126由来の母音配列「A、A、I、A」と比べて過剰となっているものが先頭の「A」である。よって、テキスト化支援装置100は、通話録音データ由来の母音配列「A、A、A、I、A」のうち、先頭「A」を削除して補正する。
【0092】
また、テキスト化支援装置100は、上述の補正を行った母音配列と、マスタテーブル126由来の母音配列の間の類似度を、発話類似度テーブル127に基づいて(1+1+1+1)/4=1、などと算定することになる。
【0093】
なお、既にフロー例2で説明しているため、こうした母音配列の類似度にあわせて、子音配列の一致度も考慮して一致率を算定する概念についての説明は省略する。
【0094】
以上、本発明を実施するための最良の形態などについて具体的に説明したが、本発明はこれに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。
【0095】
こうした本実施形態によれば、通話内容に関する音声テキスト化の特性に関わらず、当該通話内容のキーワードマッチングを精度良好に実施可能となる。
【0096】
本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態のテキスト化支援装置において、前記記憶装置は、母音間の発話類似度を規定した情報をさらに保持し、前記演算装置は、前記一致率の算定に際し、前記正しい音素及び前記抽出した音素のそれぞれに含まれる母音間の一致率を、前記発話類似度の情報に基づいて算定する処理と、前記正しい音素及び前記抽出した音素のそれぞれに含まれる子音間の一致率を算定する処理と、前記母音間の一致率を前記子音間の一致率よりも優位に重み付けて、前記母音間及び前記子音間の各一致率に基づき前記音素同士の一致率を算定するものである、としてもよい。
【0097】
これによれば、上述の音素同士のマッチングに際して、マッチング対象の要素として(種類が少なく区別がしやすい、すなわち誤検知しにくい特性のある)母音を優先することとなり、一致率の精度を良好なものとしやすくなる。ひいては、通話内容に関する音声テキスト化の特性に関わらず、当該通話内容のキーワードマッチングをより精度良好に実施可能となる。
【0098】
また、本実施形態のテキスト化支援装置において、前記演算装置は、前記一致率の算定に際し、前記抽出した音素及び前記正しい音素のそれぞれに関して、当該音素に含まれる母音の配列において、連続する2つの母音の組みにおける類似度を前記発話類似度で特定し、前記類似度が基準以上の組みについては予め定めた1つの規定母音に畳み込み、前記類似度が基準を下回る組みについては先頭の母音を採用して、後尾の母音を前記配列において隣接する母音と次なる組みを形成する処理を実行して、音節配列を生成し、前記抽出した音素及び前記正しい音素のそれぞれに関して生成した、前記音節配列の間で母音数を比較し、当該母音数が等しい場合、当該音節配列の元となった、前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定するものである、としてもよい。
【0099】
これによれば、日本語では母音類似度が高い母音が連続する場合、二文字を1音節として発音するケースや、一文字しか発音しないケース、或いは一文字目を発音しないケース、同じ文字を不必要に重ねて発音するケースといった、脱字や衍字などの現象が生じ易いといった問題にも適切に対処することが可能となり、ひいては、通話内容に関する音声テキスト化の特性に関わらず、当該通話内容のキーワードマッチングをより精度良好に実施可能となる。
【0100】
また、本実施形態のテキスト化支援装置において、前記演算装置は、前記音節配列の間で母音数を比較し、前記抽出した音素よりも前記正しい音素に対応する音節配列での母音数が多い場合、前記正しい音素の音節配列が正とした場合、前記抽出した音素の音節配列において母音が欠けている部分について、当該正しい音素の対応音素で補って補正し、前記補正が行われた前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定するものである、としてもよい。
【0101】
これによれば、上述の脱字の事象に対して適切に対処し、通話内容に関する音声テキスト化の特性に関わらず、当該通話内容のキーワードマッチングをより精度良好に実施可能となる。
【0102】
また、本実施形態のテキスト化支援装置において、前記演算装置は、前記音節配列の間で母音数を比較し、前記抽出した音素よりも前記正しい音素に対応する音節配列での母音数が少ない場合、前記正しい音素の音節配列が正とした場合、前記抽出した音素の音節配列において母音が余剰となっている部分を削除して補正し、前記補正が行われた前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定するものである、としてもよい。
【0103】
これによれば、上述の衍字の事象に対して適切に対処し、通話内容に関する音声テキスト化の特性に関わらず、当該通話内容のキーワードマッチングをより精度良好に実施可能となる。
【0104】
また、本実施形態のテキスト化支援方法において、前記情報処理装置が、前記記憶装置において、母音間の発話類似度を規定した情報をさらに保持し、前記一致率の算定に際し、前記正しい音素及び前記抽出した音素のそれぞれに含まれる母音間の一致率を、前記発話類似度の情報に基づいて算定する処理と、前記正しい音素及び前記抽出した音素のそれ
ぞれに含まれる子音間の一致率を算定する処理と、前記母音間の一致率を前記子音間の一致率よりも優位に重み付けて、前記母音間及び前記子音間の各一致率に基づき前記音素同士の一致率を算定する、としてもよい。
【0105】
また、本実施形態のテキスト化支援方法において、前記情報処理装置が、前記一致率の算定に際し、前記抽出した音素及び前記正しい音素のそれぞれに関して、当該音素に含まれる母音の配列において、連続する2つの母音の組みにおける類似度を前記発話類似度で特定し、前記類似度が基準以上の組みについては予め定めた1つの規定母音に畳み込み、前記類似度が基準を下回る組みについては先頭の母音を採用して、後尾の母音を前記配列において隣接する母音と次なる組みを形成する処理を実行して、音節配列を生成し、前記抽出した音素及び前記正しい音素のそれぞれに関して生成した、前記音節配列の間で母音数を比較し、当該母音数が等しい場合、当該音節配列の元となった、前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定する、としてもよい。
【0106】
また、本実施形態のテキスト化支援方法において、前記情報処理装置が、前記音節配列の間で母音数を比較し、前記抽出した音素よりも前記正しい音素に対応する音節配列での母音数が多い場合、前記正しい音素の音節配列が正とした場合、前記抽出した音素の音節配列において母音が欠けている部分について、当該正しい音素の対応音素で補って補正し、前記補正が行われた前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定する、としてもよい。
【0107】
また、本実施形態のテキスト化支援方法において、前記情報処理装置が、前記音節配列の間で母音数を比較し、前記抽出した音素よりも前記正しい音素に対応する音節配列での母音数が少ない場合、前記正しい音素の音節配列が正とした場合、前記抽出した音素の音節配列において母音が余剰となっている部分を削除して補正し、前記補正が行われた前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定する、としてもよい。
【符号の説明】
【0108】
1 ネットワーク
100 テキスト化支援装置
101 記憶装置
102 プログラム
103 メモリ
104 演算装置
105 通信装置
110 音響モデル
111 言語モデル
125 通話録音DB
126 音素マスタテーブル
127 発話類似度テーブル
200 オペレータ端末
300 コールセンタシステム
400 管理者端末