特開2023-146216 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2023-146216テキスト化支援装置及びテキスト化支援方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023146216

(43)【公開日】2023-10-12

(54)【発明の名称】テキスト化支援装置及びテキスト化支援方法

(51)【国際特許分類】

G10L 15/10 20060101AFI20231004BHJP

【ＦＩ】

G10L15/10 200W

G10L15/10 300G

【審査請求】有

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2022053293

(22)【出願日】2022-03-29

(71)【出願人】

【識別番号】000005108

【氏名又は名称】株式会社日立製作所

(74)【代理人】

【識別番号】110000176

【氏名又は名称】弁理士法人一色国際特許事務所

(72)【発明者】

【氏名】山添義明

(72)【発明者】

【氏名】松本稜

(72)【発明者】

【氏名】谷澤洋輔

(72)【発明者】

【氏名】高橋雪城

(57)【要約】

【課題】通話内容に関する音声テキスト化の特性に関わらず、当該通話内容のキーワードマッチングを精度良好に実施可能とする。
【解決手段】テキスト化支援装置１００において、各語彙の正しい音素の情報を規定したマスタデータ１２６を保持する記憶装置１０１と、通話録音データを音響モデル１１０に適用して音素を抽出し、マスタデータ１２６で音素が規定された語彙のうち、通話録音データに関して出現が想定されている語彙の正しい音素と、上述の抽出で得た音素との一致率を算定し、この算定の結果、音素同士が所定の一致率を示す語彙をキーワードマッチング結果として特定する演算装置１０４を含む構成とする。
【選択図】図２

【特許請求の範囲】

【請求項1】

会話の場面ないし対象ごとに出現が想定される各語彙の正しい音素の情報を規定したマスタデータを保持する記憶装置と、
所定装置から得た通話録音データを音響モデルに適用して音素を抽出する処理と、前記マスタデータで音素が規定された語彙のうち、前記通話録音データの会話の場面ないし対象に関して出現が想定されている語彙の前記正しい音素と、前記抽出した音素との一致率を算定する処理と、前記算定の結果、音素同士が所定の一致率を示す前記語彙をキーワードマッチング結果として特定する処理を実行する演算装置と、
を含むテキスト化支援装置。

【請求項2】

前記記憶装置は、
母音間の発話類似度を規定した情報をさらに保持し、
前記演算装置は、
前記一致率の算定に際し、前記正しい音素及び前記抽出した音素のそれぞれに含まれる母音間の一致率を、前記発話類似度の情報に基づいて算定する処理と、前記正しい音素及び前記抽出した音素のそれぞれに含まれる子音間の一致率を算定する処理と、前記母音間の一致率を前記子音間の一致率よりも優位に重み付けて、前記母音間及び前記子音間の各一致率に基づき前記音素同士の一致率を算定するものである、
ことを特徴とする請求項１に記載のテキスト化支援装置。

【請求項3】

前記演算装置は、
前記一致率の算定に際し、
前記抽出した音素及び前記正しい音素のそれぞれに関して、当該音素に含まれる母音の配列において、連続する２つの母音の組みにおける類似度を前記発話類似度で特定し、前記類似度が基準以上の組みについては予め定めた１つの規定母音に畳み込み、前記類似度が基準を下回る組みについては先頭の母音を採用して、後尾の母音を前記配列において隣接する母音と次なる組みを形成する処理を実行して、音節配列を生成し、
前記抽出した音素及び前記正しい音素のそれぞれに関して生成した、前記音節配列の間で母音数を比較し、当該母音数が等しい場合、当該音節配列の元となった、前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定するものである、
ことを特徴とする請求項２に記載のテキスト化支援装置。

【請求項4】

前記演算装置は、
前記音節配列の間で母音数を比較し、前記抽出した音素よりも前記正しい音素に対応する音節配列での母音数が多い場合、前記正しい音素の音節配列が正とした場合、前記抽出した音素の音節配列において母音が欠けている部分について、当該正しい音素の対応音素で補って補正し、
前記補正が行われた前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定するものである、
ことを特徴とする請求項３に記載のテキスト化支援装置。

【請求項5】

前記演算装置は、
前記音節配列の間で母音数を比較し、前記抽出した音素よりも前記正しい音素に対応する音節配列での母音数が少ない場合、前記正しい音素の音節配列が正とした場合、前記抽出した音素の音節配列において母音が余剰となっている部分を削除して補正し、
前記補正が行われた前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定するものである、
ことを特徴とする請求項３に記載のテキスト化支援装置。

【請求項6】

情報処理装置が、
会話の場面ないし対象ごとに出現が想定される各語彙の正しい音素の情報を規定したマスタデータを記憶装置にて保持し、
所定装置から得た通話録音データを音響モデルに適用して音素を抽出する処理と、前記マスタデータで音素が規定された語彙のうち、前記通話録音データの会話の場面ないし対象に関して出現が想定されている語彙の前記正しい音素と、前記抽出した音素との一致率を算定する処理と、前記算定の結果、音素同士が所定の一致率を示す前記語彙をキーワードマッチング結果として特定する処理と、
を実行するテキスト化支援方法。

【請求項7】

前記情報処理装置が、
前記記憶装置において、母音間の発話類似度を規定した情報をさらに保持し、
前記一致率の算定に際し、前記正しい音素及び前記抽出した音素のそれぞれに含まれる母音間の一致率を、前記発話類似度の情報に基づいて算定する処理と、前記正しい音素及び前記抽出した音素のそれぞれに含まれる子音間の一致率を算定する処理と、前記母音間の一致率を前記子音間の一致率よりも優位に重み付けて、前記母音間及び前記子音間の各一致率に基づき前記音素同士の一致率を算定する、
ことを特徴とする請求項６に記載のテキスト化支援方法。

【請求項8】

前記情報処理装置が、
前記一致率の算定に際し、
前記抽出した音素及び前記正しい音素のそれぞれに関して、当該音素に含まれる母音の配列において、連続する２つの母音の組みにおける類似度を前記発話類似度で特定し、前記類似度が基準以上の組みについては予め定めた１つの規定母音に畳み込み、前記類似度が基準を下回る組みについては先頭の母音を採用して、後尾の母音を前記配列において隣接する母音と次なる組みを形成する処理を実行して、音節配列を生成し、
前記抽出した音素及び前記正しい音素のそれぞれに関して生成した、前記音節配列の間で母音数を比較し、当該母音数が等しい場合、当該音節配列の元となった、前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定する、
ことを特徴とする請求項７に記載のテキスト化支援方法。

【請求項9】

前記情報処理装置が、
前記音節配列の間で母音数を比較し、前記抽出した音素よりも前記正しい音素に対応する音節配列での母音数が多い場合、前記正しい音素の音節配列が正とした場合、前記抽出した音素の音節配列において母音が欠けている部分について、当該正しい音素の対応音素で補って補正し、
前記補正が行われた前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定する、
ことを特徴とする請求項８に記載のテキスト化支援方法。

【請求項10】

前記情報処理装置が、
前記音節配列の間で母音数を比較し、前記抽出した音素よりも前記正しい音素に対応する音節配列での母音数が少ない場合、前記正しい音素の音節配列が正とした場合、前記抽出した音素の音節配列において母音が余剰となっている部分を削除して補正し、
前記補正が行われた前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定する、
ことを特徴とする請求項８に記載のテキスト化支援方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、テキスト化支援装置及びテキスト化支援方法に関するものである。

【背景技術】

【0002】

営業員やコールセンタ等における通話内容が、コンプライアンス等の観点に照らして適切か確認するニーズが存在する。また近年では、そうした通話内容の録音データを聞き直して確認するといった旧来手法ではなく、当該音声データのテキスト化を行った上で確認対象とする手法も提案されている。
そうしたテキスト化に関連する従来技術としては、商談や営業活動の際の顧客への説明内容等のデータに基づいて、「禁止表現」の有無、および「必要事項」が含まれているか否かのいずれについてもチェック対象とするコンプライアンスチェックシステムおよびコンプライアンスチェックプログラム（特許文献１参照）などが提案されている。

【0003】

この技術は、業担当者が顧客に対して行った各発話についてコンプライアンスを遵守しているかをチェックするコンプライアンスチェックシステムであって、前記営業担当者の前記各発話の内容を音声認識技術によりテキスト化したテキストデータに対して、形態素解析を含む自然言語解析処理を行って解析済テキストデータとして出力するテキスト解析部と、前記各発話に係る前記解析済テキストデータ内の各発話について、所定の基準に従って連続する１つ以上の発話からなるブロックにまとめ、前記各ブロックにおいて、顧客に対して説明するべき必要事項として予め定義された第１のテキストデータの内容が説明されているか否かを判定する判定部と、前記各発話に係る前記解析済テキストデータについて、顧客に対して述べてはいけない禁止表現の内容として予め定義された第２のテキストデータにマッチするものがある場合に、対象の前記発話において対象の前記禁止表現が述べられたものと判定するキーワードマッチング部と、前記営業担当者が前記顧客に対して行った前記各発話のデータに前記営業担当者および／または前記顧客を特定する管理情報と関連付けて記録するデータ記録部と、を有し、前記テキスト解析部は、前記営業担当者が前記顧客に対して行った前記各発話のデータに、前記管理情報に基づいて抽出される前記営業担当者が前記顧客に対して行った過去の発話についても含め、前記判定部は、前記ブロックにおいて、前記第１のテキストデータの内容が説明されていると判定した場合に、前記ブロックに対して前記必要事項のカテゴリを付与して記録するとともに、前記必要事項のそれぞれについて、予め設定した所定の評価基準に基づいて、説明された度合を判定するシステムである。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１８－１２０６４０号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

上述のようなテキスト化については、深層学習技術等の進展によって精度向上が図られてきおり、その利活用が進んでいる。例えば、金融分野における通話録音データの利活用の一例として、ＮＧワードの発言有無、正しい顧客名、商品名の発音有無をチェックするといったものがある。
当該チェックに際しては、通話録音データをテキスト化したものに対して、キーワードマッチングを行うケースが多い。ところが、録音状況や発話者の癖などの要因により、テキスト化の精度が低くなりやすい通話（誤検知が多い通話）の存在も判明しており、こうした通話に関して、精度良くキーワードマッチングを行うことは困難であった。

【0006】

つまり、音声テキスト化の精度が低くなりがちな通話に関してキーワードマッチングを行うとしても、その精度は期待出来ず、結局のところチェック漏れが発生してしまう要因となっている。

【0007】

そこで本発明の目的は、通話内容に関する音声テキスト化の特性に関わらず、当該通話内容のキーワードマッチングを精度良好に実施可能とする技術を提供することにある。

【課題を解決するための手段】

【0008】

上記課題を解決する本発明のテキスト化支援装置は、会話の場面ないし対象ごとに出現が想定される各語彙の正しい音素の情報を規定したマスタデータを保持する記憶装置と、所定装置から得た通話録音データを音響モデルに適用して音素を抽出する処理と、前記マスタデータで音素が規定された語彙のうち、前記通話録音データの会話の場面ないし対象に関して出現が想定されている語彙の前記正しい音素と、前記抽出した音素との一致率を算定する処理と、前記算定の結果、音素同士が所定の一致率を示す前記語彙をキーワードマッチング結果として特定する処理を実行する演算装置と、を含むことを特徴とする。
また、本発明のテキスト化支援方法は、情報処理装置が、会話の場面ないし対象ごとに出現が想定される各語彙の正しい音素の情報を規定したマスタデータを記憶装置にて保持し、所定装置から得た通話録音データを音響モデルに適用して音素を抽出する処理と、前記マスタデータで音素が規定された語彙のうち、前記通話録音データの会話の場面ないし対象に関して出現が想定されている語彙の前記正しい音素と、前記抽出した音素との一致率を算定する処理と、前記算定の結果、音素同士が所定の一致率を示す前記語彙をキーワードマッチング結果として特定する処理と、を実行することを特徴とする。

【発明の効果】

【0009】

本発明によれば、通話内容に関する音声テキスト化の特性に関わらず、当該通話内容のキーワードマッチングを精度良好に実施可能となる。

【図面の簡単な説明】

【0010】

【図1】本実施形態のテキスト化支援装置を含むネットワーク構成図である。

【図2】本実施形態におけるテキスト化支援装置のハードウェア構成例を示す図である。

【図3】本実施形態におけるオペレータ端末のハードウェア構成例を示す図である。

【図4】本実施形態におけるコールセンタシステムのハードウェア構成例を示す図である。

【図5】本実施形態における管理者端末のハードウェア構成例を示す図である。

【図6】本実施形態の通話録音ＤＢの構成例を示す図である。

【図7】本実施形態の音素マスタテーブルの構成例を示す図である。

【図8】本実施形態の発話類似度テーブルの構成例を示す図である。

【図9】本実施形態におけるテキスト化支援方法のフロー例１を示す図である。

【図10】本実施形態におけるテキスト化支援方法のフロー例２を示す図である。

【図11】本実施形態におけるテキスト化支援方法のフロー例３を示す図である。

【発明を実施するための形態】

【0011】

＜ネットワーク構成＞
以下に本発明の実施形態について図面を用いて詳細に説明する。図１は、本実施形態のテキスト化支援装置１００を含むネットワーク構成図である。図１に示すテキスト化支援装置１００は、通話内容に関する音声テキスト化の特性に関わらず、当該通話内容のキーワードマッチングを精度良好に実施可能とするコンピュータである。

【0012】

本実施形態のテキスト化支援装置１００は、図１で示すように、インターネットや組織内のセキュアな回線などの適宜なネットワーク１を介して、オペレータ端末２００、コールセンタシステム３００、及び管理者端末４００と、必要に応じて通信可能に接続されている。よって、これらを総称してテキスト化システム１０としてもよい。

【0013】

本実施形態のテキスト化支援装置１００は、例えば、コールセンタでのオペレータと顧客との会話内容がコンプライアンスや顧客対応の観点で適切であったか、会話中でのＮＧワードの出現や、或いは必須ワードの不出現といった事象についてキーワードマッチングで特定する支援装置と言える。

【0014】

勿論、コールセンタ業務におけるオペレータと顧客との会話に関してキーワードマッチングを行う状況のみを本発明の適用対象とするのみならず、音声データ中に必要な／禁忌のキーワードの出現状況を検証する機会が存在する業務等であれば、いずれについても適用可能である。

【0015】

一方、オペレータ端末２００は、種々の商品やサービスに関する顧客からの問合せへの対応業務、或いは見込み客等に対する電話営業を行う担当者が使用する端末である。具体的には、ＰＣと一体となった電話端末、スマートフォン、タブレット端末、パーソナルコンピュータなどを想定できる。こうしたオペレータ端末２００での担当者と顧客との間の会話が録音され、通話録音データとして管理、活用されることとなる。

【0016】

また、コールセンタシステム３００は、上述のオペレータ端末２００と顧客の電話機との間で発着信の管理や、上述のオペレータ端末２００での会話内容である通話録音データを管理するシステムとなる。よって、コールセンタシステム３００は、通話録音データを記憶装置にて保持・管理し、テキスト化支援装置１００に適宜配信する。

【0017】

また、管理者端末４００は、上述のコールセンタの管理者が操作する端末である。この管理者端末４００は、当該コールセンタでの業務終了時など適宜なタイミングで、一日など所定期間分の通話録音データに関して、上述のコンプライアンス等の所定観点でのチェックを行うべくキーワードマッチング処理の指示を、テキスト化支援装置１００に行い、その処理結果を取得する端末となる。
＜ハードウェア構成＞
また、本実施形態のテキスト化支援装置１００のハードウェア構成は、図２に以下の如くとなる。

【0018】

すなわちテキスト化支援装置１００は、記憶装置１０１、メモリ１０３、演算装置１０４、および通信装置１０５、を備える。

【0019】

このうち記憶装置１０１は、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）やハードディスクドライブなど適宜な不揮発性記憶素子で構成される。

【0020】

また、メモリ１０３は、ＲＡＭなど揮発性記憶素子で構成される。

【0021】

また、演算装置１０４は、記憶装置１０１に保持されるプログラム１０２をメモリ１０３に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうＣＰＵである。

【0022】

また、通信装置１０５は、ネットワーク１と接続して、少なくともコールセンタシステム３００との通信処理を担うネットワークインターフェイスカード等を想定する。

【0023】

なお、テキスト化支援装置１００がスタンドアロンマシンである場合、ユーザからのキー入力や音声入力を受け付ける入力装置、処理データの表示を行うディスプレイ等の出力装置、を更に備えるとすれば好適である。

【0024】

また、記憶装置１０１内には、本実施形態のテキスト化支援装置として必要な機能を実装する為のプログラム１０２に加えて、通話録音ＤＢ１２５、音素マスタテーブル１２６、及び発話類似度テーブル１２７６が少なくとも記憶されている。ただし、これらデータベース等についての詳細は後述する。

【0025】

また、プログラム１０２は、音響モデル１１０、及び言語モデル１１１を備えるものとする。音響モデル１１０は、オペレータと顧客との間の会話に関する通話録音データから当該通話の音声を構成する音素を抽出する機能である。

【0026】

そのため、テキスト化支援装置１００は、通話録音データが示す音声の特徴量（周波数や音の強弱）を分析し、取扱いしやすいデータとして変換する音響分析を事前に実行し、この音響分析結果が示す特徴量を音響モデル１１０に与えることになる。

【0027】

音響モデル１１０は、適宜な深層学習などにより、上述の特徴量と音素との対応関係を規定したモデルであって、上述の音声の特徴量を与えることで、音波の最小単位である音素を抽出する。

【0028】

なお、音素とは、音声を発したときに観測できる音波の最小構成要素である。日本語における音素は、母音（アイウエオ）、擬音（ン）、子音（２３種類）の計３種類から成り立っている。例えば、「田中さん」の場合は、「t-a-n-a-k-a-s-a-n」が音素となる。

【0029】

本実施形態のテキスト化支援装置１００は、音響モデル１１０により得た音素に基づいて、キーワードマッチングを行うこととなる。上述の場合、音素「t-a-n-a-k-a-s-a-n」
を、「田中さん」という日本語の語彙として特定する処理が該当する。より具体的には、各音素がどの単語に該当するか、音素マスタテーブル１２６を適宜利用しつつ、本発明のテキスト化支援方法を適用することで、音素を語彙に置換していく。

【0030】

一方、言語モデル１１１は、キーワードマッチングで得た語彙の群れを適宜に文章化する処理を担うものとなる。例えば、「田中さん」、「信州では」、「雪が」、「積もりましたよ」、といった語彙の群れを、語彙の群れと正しい（或いは高頻度で出現する）一文との関係についての統計データ等に基づいて、可能性の高い組み合わせ例として意味ある文章を構成する。

【0031】

また、本実施形態のオペレータ端末２００のハードウェア構成は、図３に以下の如くとなる。

【0032】

すなわちオペレータ端末２００は、記憶装置２０１、メモリ２０３、演算装置２０４、入力装置２０５、出力装置２０６、および通信装置２０７、を備える。

【0033】

このうち記憶装置２０１は、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）やハードディスクドライブなど適宜な不揮発性記憶素子で構成される。

【0034】

また、メモリ２０３は、ＲＡＭなど揮発性記憶素子で構成される。

【0035】

また、演算装置２０４は、記憶装置２０１に保持されるプログラム２０２をメモリ２０３に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制
御処理を行なうＣＰＵである。

【0036】

また、入力装置２０５は、ユーザたるオペレータからのキー入力や音声入力を受け付けるキーボードやマウスといった装置で構成される。

【0037】

また、出力装置２０６は、演算装置２０４での処理結果の表示を行うディスプレイやスピーカー等の装置で構成される。

【0038】

また、通信装置２０７は、ネットワーク１と接続して、コールセンタシステム３００や管理者端末４００（あるいはテキスト化支援装置１００）との通信処理を担うネットワークインターフェイスカード等を想定する。

【0039】

また、本実施形態のコールセンタシステム３００のハードウェア構成は、図４に以下の如くとなる。

【0040】

すなわちコールセンタシステム３００は、記憶装置３０１、メモリ３０３、演算装置３０４、および通信装置３０５、を備える。

【0041】

このうち記憶装置３０１は、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）やハードディスクドライブなど適宜な不揮発性記憶素子で構成される。

【0042】

また、メモリ３０３は、ＲＡＭなど揮発性記憶素子で構成される。

【0043】

また、演算装置３０４は、記憶装置３０１に保持されるプログラム３０２をメモリ３０３に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうＣＰＵである。

【0044】

また、通信装置３０５は、ネットワーク１と接続して、少なくともテキスト化支援装置１００や、オペレータ端末２００との通信処理を担うネットワークインターフェイスカード等を想定する。

【0045】

なお、コールセンタシステム３００がスタンドアロンマシンである場合、ユーザからのキー入力や音声入力を受け付ける入力装置、処理データの表示を行うディスプレイ等の出力装置、を更に備えるとすれば好適である。

【0046】

また、記憶装置３０１内には、本実施形態のコールセンタシステム３００として必要な機能を実装する為のプログラム３０２に加えて、通話録音データ３２５が少なくとも記憶されている。この通話録音データ３２５は、テキスト化支援装置１００における通話録音ＤＢ１２５のレコードとなるデータである。

【0047】

また、本実施形態の管理者端末４００のハードウェア構成は、図５に以下の如くとなる。

【0048】

すなわち管理者端末４００は、記憶装置４０１、メモリ４０３、演算装置４０４、入力装置４０５、出力装置４０６、および通信装置４０７、を備える。

【0049】

このうち記憶装置４０１は、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）やハードディスクドライブなど適宜な不揮発性記憶素子で構成される。

【0050】

また、メモリ４０３は、ＲＡＭなど揮発性記憶素子で構成される。

【0051】

また、演算装置４０４は、記憶装置４０１に保持されるプログラム４０２をメモリ４０３に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうＣＰＵである。

【0052】

また、入力装置４０５は、ユーザたるオペレータからのキー入力や音声入力を受け付けるキーボードやマウスといった装置で構成される。

【0053】

また、出力装置４０６は、演算装置４０４での処理結果の表示を行うディスプレイやスピーカー等の装置で構成される。

【0054】

また、通信装置４０７は、ネットワーク１と接続して、テキスト化支援装置１００やコールセンタシステム３００との通信処理を担うネットワークインターフェイスカード等を想定する。
＜データ構造例＞
続いて、本実施形態のテキスト化支援装置１００が用いる各種情報について説明する。図６に、本実施形態における通話録音ＤＢ１２５の一例を示す。本実施形態の通話録音ＤＢ１２５は、例えば、コールセンタシステム３００から（またはオペレータ端末２００から）取得した、オペレータと顧客との間の通話録音データを格納したデータベースである。

【0055】

この通話録音ＤＢ１２５は、例えば、通話日時及び通話対象の顧客を示す顧客ＩＤをキーに、当該顧客の氏名、当該顧客から指定された商品・サービス名、対応オペレータのＩＤ、録音データファイル、といったデータを紐付けレコードの集合体となっている。

【0056】

また図７に、本実施形態における音素マスタテーブル１２６の構成例を示す。本実施形態の音素マスタテーブル１２６は、語彙ごとの正しい音素を規定したテーブルである。

【0057】

この音素マスタテーブル１２６は、例えば、会話の場面や対象をキーとして、それら場面や対象に関する会話中に出現が想定される語彙の正しい音素の情報を規定した構成となっている。

【0058】

また図８に、本実施形態における発話類似度テーブル１２７の構成例を示す。本実施形態の発話類似度テーブル１２７は、日本語の母音を発話した場合の各間における類似度を規定したテーブルである。

【0059】

この発話類似度テーブル１２７は、縦横に母音を列挙し、母音それぞれの間での類似度を、最大値１（完全一致）から最小値０（類似度ゼロ）までの間の非連続な数値で規定したマトリクスを構成している。
＜フロー例１＞
以下、本実施形態におけるテキスト化支援方法の実際手順について図に基づき説明する。以下で説明するテキスト化支援方法に対応する各種動作は、テキスト化支援装置１００がメモリ等に読み出して実行するプログラムによって実現される。そして、このプログラムは、以下に説明される各種の動作を行うためのコードから構成されている。

【0060】

図９は、本実施形態におけるテキスト化支援方法のフロー例１を示す図である。この場合、テキスト化支援装置１００は、例えば、コールセンタシステム３００（ないしオペレータ端末２００）から、通話録音データ３２５を取得し、これを通話録音ＤＢ１２５に格納する（ｓ１）。

【0061】

また、テキスト化支援装置１００は、予め定めたタイミングの到来を検知して、または管理者端末４００からの指示を受けて、通話録音ＤＢ１２５で保持する通話録音データのうち、例えば、所定期間に関するものを抽出し、これを音響モデル１１０に適用することで、音素を抽出する（ｓ２）。

【0062】

例えば、コールセンタのオペレータが「佐伯」という顧客に対して、定型の挨拶の後、「佐伯さん」という発話を行っていた通話録音データに関して、「Ｔ－Ａ－Ｉ－Ｋ－Ｉ－Ｓ－Ａ－Ｎ」という音素配列を抽出したとする。ここでは顧客氏名を処理対象としたが、これは一例であって、例えば、金融商品名を処理対象とするとしても好適である。

【0063】

続いて、テキスト化支援装置１００は、上述の通話録音データに紐付く顧客ＩＤから、当該通話対象の顧客が「佐伯」さんであることを特定し、この「佐伯さん」をキーワードマッチング対象の語彙として、その音素を音素マスタテーブル１２６から抽出する（ｓ３）。この場合、「Ｓ－Ａ－Ｅ－Ｋ－Ｉ－Ｓ－Ａ－Ｎ」という音素配列が、音素マスタテーブル１２６における顧客ＩＤ「Ｃ０１８１２２：佐伯＊＊＊」のレコードから抽出される。

【0064】

続いて、テキスト化支援装置１００は、ｓ２、ｓ３でそれぞれ得た音素配列を比較し、その一致率を算定する（ｓ４）。上述の場合、「Ｔ－Ａ－Ｉ－Ｋ－Ｉ－Ｓ－Ａ－Ｎ」という音素配列と、「Ｓ－Ａ－Ｅ－Ｋ－Ｉ－Ｓ－Ａ－Ｎ」という音素配列を照合すると、全８音素のうち、６つの音素が一致しており、６／８＝０．７５が一致率となる。

【0065】

もし、従来どおり、通話録音データから得た「Ｔ－Ａ－Ｉ－Ｋ－Ｉ－Ｓ－Ａ－Ｎ」という音素配列を言語モデル１１１に適用し、「大輝さん」というテキストを得て、これと、音素マスタテーブル１２６で規定の語彙「佐伯さん」というテキストと照合した場合、その一致率は、全４文字のうち２文字の一致で、一致率を２／４＝０．５と算定することになる。キーワードマッチングの合否基準が、例えば一致率０．６であると、オペレータとしては確かに「佐伯さん」と顧客名を発話しているにも関わらず、言語モデル１１１での変換精度の影響によって、これらはマッチングしないと判定されることになってしまう。

【0066】

一方、本発明のテキスト化支援装置１００によれば、こうした言語モデル１１１での変換精度の問題をクリアし、音素配列間の一致率に基づくキーワードマッチングを行うことが可能であり、従来よりも精度良好なキーワードマッチングが可能となっている。
＜フロー例２＞
図１０は、本実施形態におけるテキスト化支援方法のフロー例２を示す図である。ここでは、上述のフロー例１における効果をさらに高めるべく、母音の観点を加えて音素配列の一致度を算定する手法について説明する。なお、本フローにおいては、上述のフロー例１におけるｓ１、ｓ２までは同様であるため、それ以降の処理として説明を行うものとする。

【0067】

テキスト化支援装置１００は、上述のフロー例１のように抽出した音素配列から母音（ａ、ｉ、ｕ、ｅ、ｏ）だけを抽出する（ｓ１０）。上述の例の場合、「Ａ、Ｉ、Ｉ、Ａ」という母音配列を抽出することになる。

【0068】

また、テキスト化支援装置１００は、上述の通話対象の顧客「佐伯」さんに関する、音素および母音の抽出をｓ３、ｓ１０と同様に実行する（ｓ１１）。この場合、「Ｓ－Ａ－Ｅ－Ｋ－Ｉ－Ｓ－Ａ－Ｎ」という音素配列から、母音配列「Ａ、Ｅ、Ｉ、Ａ」を抽出することになる。

【0069】

続いて、テキスト化支援装置１００は、ｓ１０、ｓ１１でそれぞれ得た母音配列におけ
る母音を、配列先頭から順に発話類似度テーブル１２７に照合し、母音配列間で対応する位置同士の母音の類似度を特定する（ｓ１２）。

【0070】

例えば、母音「Ａ」と母音「Ａ」は、発話類似度テーブル１２７によれば類似度「１」、母音「Ａ」と母音「Ｉ」は、発話類似度テーブル１２７によれば類似度「０」、母音「Ａ」と母音「Ｕ」は、発話類似度テーブル１２７によれば類似度「０」、母音「Ａ」と母音「Ｅ」は、発話類似度テーブル１２７によれば類似度「０．５」、母音「Ａ」と母音「Ｏ」は、発話類似度テーブル１２７によれば類似度「０．５」、などと特定する。

【0071】

その結果、上述の例であれば、「Ａ、Ｉ、Ｉ、Ａ」と「Ａ、Ｅ、Ｉ、Ａ」を照合し、「Ａ」と「Ａ」で類似度「１」、「Ｉ」と「Ｅ」で類似度「０．５」、「Ｉ」と「Ｉ」で類似度「１」、「Ａ」と「Ａ」で類似度「１」、となる。

【0072】

そこでテキスト化支援装置１００は、ｓ１２で得た母音ごとの類似度に基づき、上述の音素配列における母音類似度を、（１＋０．５＋１＋１）／４＝０．８７５と算定する（ｓ１３）。

【0073】

また、テキスト化支援装置１００は、ｓ２、ｓ３で得ている音素配列に基づき、子音についても一致率を算定する（ｓ１４）。上述の例の場合、「Ｔ－Ａ－Ｉ－Ｋ－Ｉ－Ｓ－Ａ－Ｎ」という音素配列における子音「Ｔ、Ｋ、Ｓ、Ｎ」と、「Ｓ－Ａ－Ｅ－Ｋ－Ｉ－Ｓ－Ａ－Ｎ」という音素配列における子音「Ｓ、Ｋ、Ｓ、Ｎ」を照合すると、全４音素のうち、３つの音素が一致しており、３／４＝０．７５が一致率となる。

【0074】

続いて、テキスト化支援装置１００は、ｓ１３で得た母音類似度に重み付けをした上で、子音の一致率と加重平均を行って、音素配列間の一致率を算定する（ｓ１５）。

【0075】

例えば、上述の重み付けを「２」、すなわち子音の一致率より２倍の重みをつけて加重平均を行うとすれば、（子音一致率０．７５＋母音類似度０．８７５×重み２）／３＝０．８３、と一致率を算定できる。
＜フロー例３＞
図１１は、本実施形態におけるテキスト化支援方法のフロー例３を示す図である。ここでは、上述のフロー例１、２における効果をさらに高めるべく、脱字や衍字への対処という観点を加えて音素配列の一致度を算定する手法について説明する。なお、本フローにおいては、上述のフロー例１におけるｓ１、ｓ２、フロー例におけるｓ１０、ｓ１１までは同様であるため、それ以降の処理として説明を行うものとする。

【0076】

テキスト化支援装置１００は、上述のように抽出した、通話録音データにおける音素配列中の母音配列、及び、音素マスタテーブル１２６の対応レコードから読み出した音素配列中の母音配列のそれぞれに関して、当該母音配列において連続する２つの母音の組みにおける類似度を発話類似度テーブル１２７に基づき特定する（ｓ２０）。

【0077】

例えば、通話録音データから得た音素配列「Ｏ－Ｈ－Ａ－Ｙ－Ｏ－Ｕ－Ｇ－Ｏ－Ｚ－Ａ－Ｉ－Ｍ－Ａ－Ｓ－Ｕ－Ｓ－Ａ－Ｋ－Ｉ－Ｓ－Ａ－Ｎ」中の母音配列「Ｏ、Ａ、Ｏ、Ｕ、Ｏ、Ａ、Ｉ、Ａ、Ｕ、Ａ、Ｉ、Ａ」では、先頭から２つずつ母音を選択し、組み（１）「Ｏ、Ａ」、組み（２）「Ｏ、Ｕ」、組み（３）「Ｏ、Ａ」、組み（４）「Ｉ、Ａ」、組み（５）「Ｕ、Ａ」、組み（６）「Ｉ、Ａ」といった計６つの組みを形成した場合、発話類似度テーブル１２７に基づき、組み（１）は類似度「０．５」、組み（２）は類似度「０．５」、組み（３）は類似度「０．５」、組み（４）は類似度「０」、組み（５）は類似度「０」、組み（６）は類似度「０」と特定できる。

【0078】

続いて、テキスト化支援装置１００は、ｓ２０で特定した各組みの類似度が例えば０．５といった基準以上の組みについては予め定めた１つの規定母音（例：Ａ、Ｉ、Ｕ）に畳み込み、類似度が基準を下回る組みについては先頭の母音を採用して、後尾の母音を音素配列中において隣接する母音と次なる組みを形成する処理を実行して、音節配列を生成する（ｓ２１）。

【0079】

上述の例の場合、組み（１）は母音「Ａ」に集約（すなわち畳み込み。以下同様）、組み（２）は母音「Ｕ」に集約、組み（３）は母音「Ａ」に集約、組み（４）は先頭の母音「Ｉ」を採用し、後尾の母音「Ａ」を当初の組み（５）の先頭の母音「Ｕ」と組み合わせた新たな組み（５）’を形成し、これ以降の母音の配列についても組みを再構成し、上述の類似度に基づく集約を実行する。

【0080】

その結果、各組みの集約を経て残った音節配列は、「Ａ、Ｕ、Ａ、Ｉ、Ａ、Ｕ、Ａ、Ｉ、Ａ」となる。

【0081】

テキスト化支援装置１００は、こうした音節配列の生成を、音素マスタテーブル１２６で対応するレコードの音素配列「Ｓ－Ａ－Ｓ－Ａ－Ｋ－Ｉ－Ｓ－Ａ－Ｎ」における母音配列「Ａ、Ａ、Ｉ、Ａ」に関しても同様に実行し、「Ａ、Ｉ、Ａ」を得ることになる。

【0082】

次に、テキスト化支援装置１００は、ｓ２１において、通話録音データ由来の音節配列中で、音素マスタテーブル１２６由来で生成した音節配列と一致する箇所について、音素マスタテーブル１２６由来の音節配列と母音数を比較し、当該母音数が等しい場合（ｓ２２：同数）、上述の箇所と音素マスタテーブル１２６由来の音節配列とで、対応する母音配列における母音の一致率を発話類似度テーブル１２７に基づき算定する（ｓ２３）。

【0083】

例えば、通話録音データの音素配列「Ｏ－Ｈ－Ａ－Ｙ－Ｏ－Ｕ－Ｇ－Ｏ－Ｚ－Ａ－Ｉ－Ｍ－Ａ－Ｓ－Ｕ－Ｓ－Ａ－Ｋ－Ｉ－Ｓ－Ａ－Ｎ」中の母音配列「Ｏ、Ａ、Ｏ、Ｕ、Ｏ、Ａ、Ｉ、Ａ、Ｕ、Ａ、Ｉ、Ａ」のうち、その音素配列が音素マスタテーブル１２６由来の音節配列「Ａ、Ｉ、Ａ」（これは母音配列「Ａ、Ａ、Ｉ、Ａ」に基づく）と一致するのは、「Ｏ、Ａ、Ｉ、Ａ」の箇所である。

【0084】

よってテキスト化支援装置１００は、通話録音データ由来の母音配列中「Ｏ、Ａ、Ｉ、Ａ」と、音素マスタテーブル１２６由来の母音配列「Ａ、Ａ、Ｉ、Ａ」との間について、各母音の間の類似度を発話類似度テーブル１２７に基づいて特定し、例えば、（０．５＋１＋１＋１）／４＝０．８７５、などと算定する。

【0085】

一方、上述のｓ２２での母音数の比較の結果、前記通話録音データ由来の母音数よりもマスタテーブル１２６由来の母音数が多い場合（ｓ２２：多）、テキスト化支援装置１００は、脱字が行っていると推定し、マスタテーブル１２６由来の音節配列が正とし、通話録音データ由来の音節配列において母音が欠けている部分について、当該マスタテーブル１２６由来の対応音素で補って補正し（ｓ２４）、この補正が行われた母音配列とマスタテーブル１２６由来の母音配列との間で母音の一致率を発話類似度テーブル１２７に基づき算定する（ｓ２５）。

【0086】

例えば、通話録音データの音素配列「Ｓ－Ａ－Ｋ－Ｉ－Ｓ－Ａ」中の母音配列「Ａ、Ｉ、Ａ」は、その音素配列が音素マスタテーブル１２６由来の音節配列「Ａ、Ｉ、Ａ」（これは母音配列「Ａ、Ａ、Ｉ、Ａ」に基づく）と一致する。ただし、対応する母音配列中の母音数は、マスタテーブル１２６由来の母音配列の方が１つ多い。

【0087】

そこで、テキスト化支援装置１００は、通話録音データ由来の母音配列「Ａ、Ｉ、Ａ」
のうち、上述のマスタテーブル１２６由来の母音配列「Ａ、Ａ、Ｉ、Ａ」と比べて不足している、すなわち欠けているものが先頭から２番目「Ａ」である。よって、テキスト化支援装置１００は、通話録音データ由来の母音配列「Ａ、Ｉ、Ａ」のうち、先頭「Ａ」と２番目の「Ｉ」の間に、「Ａ」を補って補正する。

【0088】

また、テキスト化支援装置１００は、上述の補正を行った母音配列と、マスタテーブル１２６由来の母音配列の間の類似度を、発話類似度テーブル１２７に基づいて（１＋１＋１＋１）／４＝１、などと算定することになる。

【0089】

他方、上述のｓ２２での母音数の比較の結果、前記通話録音データ由来の母音数よりもマスタテーブル１２６由来の母音数が少ない場合（ｓ２２：少）、テキスト化支援装置１００は、衍字が行っていると推定し、マスタテーブル１２６由来の音節配列が正とし、通話録音データ由来の音節配列において母音が過剰となっている部分について削除して補正し（ｓ２６）、この補正が行われた母音配列とマスタテーブル１２６由来の母音配列との間で母音の一致率を発話類似度テーブル１２７に基づき算定する（ｓ２７）。

【0090】

例えば、通話録音データの音素配列「Ａ－Ｋ－Ａ－Ｓ－Ａ－Ｋ－Ｉ－Ｓ－Ａ」中の母音配列「Ａ、Ａ、Ａ、Ｉ、Ａ」は、その音素配列が音素マスタテーブル１２６由来の音節配列「Ａ、Ｉ、Ａ」（これは母音配列「Ａ、Ａ、Ｉ、Ａ」に基づく）と一致する。ただし、対応する母音配列中の母音数は、マスタテーブル１２６由来の母音配列の方が１つ少ない。

【0091】

そこで、テキスト化支援装置１００は、通話録音データ由来の母音配列「Ａ、Ａ、Ａ、Ｉ、Ａ」のうち、上述のマスタテーブル１２６由来の母音配列「Ａ、Ａ、Ｉ、Ａ」と比べて過剰となっているものが先頭の「Ａ」である。よって、テキスト化支援装置１００は、通話録音データ由来の母音配列「Ａ、Ａ、Ａ、Ｉ、Ａ」のうち、先頭「Ａ」を削除して補正する。

【0092】

【0093】

なお、既にフロー例２で説明しているため、こうした母音配列の類似度にあわせて、子音配列の一致度も考慮して一致率を算定する概念についての説明は省略する。

【0094】

以上、本発明を実施するための最良の形態などについて具体的に説明したが、本発明はこれに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。

【0095】

こうした本実施形態によれば、通話内容に関する音声テキスト化の特性に関わらず、当該通話内容のキーワードマッチングを精度良好に実施可能となる。

【0096】

本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態のテキスト化支援装置において、前記記憶装置は、母音間の発話類似度を規定した情報をさらに保持し、前記演算装置は、前記一致率の算定に際し、前記正しい音素及び前記抽出した音素のそれぞれに含まれる母音間の一致率を、前記発話類似度の情報に基づいて算定する処理と、前記正しい音素及び前記抽出した音素のそれぞれに含まれる子音間の一致率を算定する処理と、前記母音間の一致率を前記子音間の一致率よりも優位に重み付けて、前記母音間及び前記子音間の各一致率に基づき前記音素同士の一致率を算定するものである、としてもよい。

【0097】

これによれば、上述の音素同士のマッチングに際して、マッチング対象の要素として（種類が少なく区別がしやすい、すなわち誤検知しにくい特性のある）母音を優先することとなり、一致率の精度を良好なものとしやすくなる。ひいては、通話内容に関する音声テキスト化の特性に関わらず、当該通話内容のキーワードマッチングをより精度良好に実施可能となる。

【0098】

また、本実施形態のテキスト化支援装置において、前記演算装置は、前記一致率の算定に際し、前記抽出した音素及び前記正しい音素のそれぞれに関して、当該音素に含まれる母音の配列において、連続する２つの母音の組みにおける類似度を前記発話類似度で特定し、前記類似度が基準以上の組みについては予め定めた１つの規定母音に畳み込み、前記類似度が基準を下回る組みについては先頭の母音を採用して、後尾の母音を前記配列において隣接する母音と次なる組みを形成する処理を実行して、音節配列を生成し、前記抽出した音素及び前記正しい音素のそれぞれに関して生成した、前記音節配列の間で母音数を比較し、当該母音数が等しい場合、当該音節配列の元となった、前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定するものである、としてもよい。

【0099】

これによれば、日本語では母音類似度が高い母音が連続する場合、二文字を１音節として発音するケースや、一文字しか発音しないケース、或いは一文字目を発音しないケース、同じ文字を不必要に重ねて発音するケースといった、脱字や衍字などの現象が生じ易いといった問題にも適切に対処することが可能となり、ひいては、通話内容に関する音声テキスト化の特性に関わらず、当該通話内容のキーワードマッチングをより精度良好に実施可能となる。

【0100】

また、本実施形態のテキスト化支援装置において、前記演算装置は、前記音節配列の間で母音数を比較し、前記抽出した音素よりも前記正しい音素に対応する音節配列での母音数が多い場合、前記正しい音素の音節配列が正とした場合、前記抽出した音素の音節配列において母音が欠けている部分について、当該正しい音素の対応音素で補って補正し、前記補正が行われた前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定するものである、としてもよい。

【0101】

これによれば、上述の脱字の事象に対して適切に対処し、通話内容に関する音声テキスト化の特性に関わらず、当該通話内容のキーワードマッチングをより精度良好に実施可能となる。

【0102】

また、本実施形態のテキスト化支援装置において、前記演算装置は、前記音節配列の間で母音数を比較し、前記抽出した音素よりも前記正しい音素に対応する音節配列での母音数が少ない場合、前記正しい音素の音節配列が正とした場合、前記抽出した音素の音節配列において母音が余剰となっている部分を削除して補正し、前記補正が行われた前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定するものである、としてもよい。

【0103】

これによれば、上述の衍字の事象に対して適切に対処し、通話内容に関する音声テキスト化の特性に関わらず、当該通話内容のキーワードマッチングをより精度良好に実施可能となる。

【0104】

また、本実施形態のテキスト化支援方法において、前記情報処理装置が、前記記憶装置において、母音間の発話類似度を規定した情報をさらに保持し、前記一致率の算定に際し、前記正しい音素及び前記抽出した音素のそれぞれに含まれる母音間の一致率を、前記発話類似度の情報に基づいて算定する処理と、前記正しい音素及び前記抽出した音素のそれ
ぞれに含まれる子音間の一致率を算定する処理と、前記母音間の一致率を前記子音間の一致率よりも優位に重み付けて、前記母音間及び前記子音間の各一致率に基づき前記音素同士の一致率を算定する、としてもよい。

【0105】

また、本実施形態のテキスト化支援方法において、前記情報処理装置が、前記一致率の算定に際し、前記抽出した音素及び前記正しい音素のそれぞれに関して、当該音素に含まれる母音の配列において、連続する２つの母音の組みにおける類似度を前記発話類似度で特定し、前記類似度が基準以上の組みについては予め定めた１つの規定母音に畳み込み、前記類似度が基準を下回る組みについては先頭の母音を採用して、後尾の母音を前記配列において隣接する母音と次なる組みを形成する処理を実行して、音節配列を生成し、前記抽出した音素及び前記正しい音素のそれぞれに関して生成した、前記音節配列の間で母音数を比較し、当該母音数が等しい場合、当該音節配列の元となった、前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定する、としてもよい。

【0106】

また、本実施形態のテキスト化支援方法において、前記情報処理装置が、前記音節配列の間で母音数を比較し、前記抽出した音素よりも前記正しい音素に対応する音節配列での母音数が多い場合、前記正しい音素の音節配列が正とした場合、前記抽出した音素の音節配列において母音が欠けている部分について、当該正しい音素の対応音素で補って補正し、前記補正が行われた前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定する、としてもよい。

【0107】

また、本実施形態のテキスト化支援方法において、前記情報処理装置が、前記音節配列の間で母音数を比較し、前記抽出した音素よりも前記正しい音素に対応する音節配列での母音数が少ない場合、前記正しい音素の音節配列が正とした場合、前記抽出した音素の音節配列において母音が余剰となっている部分を削除して補正し、前記補正が行われた前記抽出した音素及び前記正しい音素のそれぞれの前記母音の配列の間で母音の一致率を前記発話類似度に基づき算定する、としてもよい。

【符号の説明】

【0108】

１ネットワーク
１００テキスト化支援装置
１０１記憶装置
１０２プログラム
１０３メモリ
１０４演算装置
１０５通信装置
１１０音響モデル
１１１言語モデル
１２５通話録音ＤＢ
１２６音素マスタテーブル
１２７発話類似度テーブル
２００オペレータ端末
３００コールセンタシステム
４００管理者端末

【図1】