IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ナカヨの特許一覧

特開2024-32135音声テキスト要約システムおよびその方法
<>
  • 特開-音声テキスト要約システムおよびその方法 図1
  • 特開-音声テキスト要約システムおよびその方法 図2
  • 特開-音声テキスト要約システムおよびその方法 図3
  • 特開-音声テキスト要約システムおよびその方法 図4
  • 特開-音声テキスト要約システムおよびその方法 図5
  • 特開-音声テキスト要約システムおよびその方法 図6
  • 特開-音声テキスト要約システムおよびその方法 図7
  • 特開-音声テキスト要約システムおよびその方法 図8
  • 特開-音声テキスト要約システムおよびその方法 図9
  • 特開-音声テキスト要約システムおよびその方法 図10
  • 特開-音声テキスト要約システムおよびその方法 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024032135
(43)【公開日】2024-03-12
(54)【発明の名称】音声テキスト要約システムおよびその方法
(51)【国際特許分類】
   G06F 16/38 20190101AFI20240305BHJP
【FI】
G06F16/38
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2022135619
(22)【出願日】2022-08-29
(71)【出願人】
【識別番号】000134707
【氏名又は名称】株式会社ナカヨ
(74)【代理人】
【識別番号】110000062
【氏名又は名称】弁理士法人第一国際特許事務所
(72)【発明者】
【氏名】佐々木 昌樹
(72)【発明者】
【氏名】黒飛 孝治
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FB01
5B175FB03
5B175HB03
(57)【要約】
【課題】本発明では、カスタマーセンターでの問い合わせなど、一般的な内容と専門的な内容が混在した音声テキストから文を抽出して読みやすい要約を作成する技術を提供することを目的とする。
【解決手段】本発明の音声テキスト要約システムは、音声テキスト要約サーバを備える音声テキスト要約システムであって、音声テキスト要約サーバが、順番に並ぶ複数の文からなる要約対象音声テキストから、一般抽出型による文抽出で、順関係を維持したまま文を抽出する一般抽出型による文抽出部と、要約対象音声テキストから、専門抽出型による文抽出で、順関係を維持したまま文を抽出する専門抽出型による文抽出部と、一般抽出型による文抽出部で抽出した文と、専門抽出型による文抽出部で抽出した文を、順関係を維持したまま結合し要約音声テキストを作成する要約音声テキスト作成部と、を有するものである。
【選択図】図1
【特許請求の範囲】
【請求項1】
音声テキスト要約サーバを備える音声テキスト要約システムであって、
前記音声テキスト要約サーバが、
順番に並ぶ複数の文からなる要約対象音声テキストから、一般抽出型による文抽出で、順関係を維持したまま文を抽出する一般抽出型による文抽出部と、
前記要約対象音声テキストから、専門抽出型による文抽出で、順関係を維持したまま文を抽出する専門抽出型による文抽出部と、
前記一般抽出型による文抽出部で抽出した文と、前記専門抽出型による文抽出部で抽出した文を、順関係を維持したまま結合し要約音声テキストを作成する要約音声テキスト作成部と、
を有する、音声テキスト要約システム。
【請求項2】
前記専門抽出型による文抽出部が、専門知識の学習モデルを用いて文抽出を行う、請求項1に記載の音声テキスト要約システム。
【請求項3】
前記専門抽出型による文抽出部が、専門語の辞書を用いて文抽出を行う、請求項1に記載の音声テキスト要約システム。
【請求項4】
前記専門抽出型による文抽出部において、前記専門知識の学習モデルに基づいた抽出が、1文ごとに類似度検索をして所定の閾値以上の類似度を示す文を抽出する、請求項2に記載の音声テキスト要約システム。
【請求項5】
前記要約対象音声テキストが時系列の順番に並ぶ複数の会話文からなる、請求項1に記載の音声テキスト要約システム。
【請求項6】
音声データから音声テキストを作成する音声認識サーバと、
前記音声データと、前記音声テキストと、前記要約音声テキストを管理する音声情報管理サーバと、
をさらに備える、請求項1~5のいずれか一つに記載の音声テキスト要約システム。
【請求項7】
順番に並ぶ複数の文からなる要約対象音声テキストから、一般抽出型による文抽出で、順関係を維持したまま文を抽出するステップ1と、
前記要約対象音声テキストから、専門抽出型による文抽出で、順関係を維持したまま文を抽出するステップ2と、
前記ステップ1で抽出した文と、前記ステップ2で抽出した文を、順関係を維持したまま結合し要約音声テキストを作成するステップ3と、
を有する音声テキスト要約方法。
【請求項8】
前記専門抽出型による文抽出が、専門知識の学習モデルを用いて文抽出を行う、請求項7に記載の音声テキスト要約方法。
【請求項9】
前記専門抽出型による文抽出が、専門語の辞書を用いて文抽出を行う、請求項7に記載の音声テキスト要約方法。
【請求項10】
前記ステップ2において、前記専門知識の学習モデルに基づいた抽出が、1文ごとに類似度検索をして所定の閾値以上の類似度を示す文を抽出する、請求項8に記載の音声テキスト要約方法。
【請求項11】
前記要約対象音声テキストが時系列の順番に並ぶ複数の会話文からなる、請求項7~10のいずれか一つに記載の音声テキスト要約方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声テキスト要約システム及びその方法に関する。
【背景技術】
【0002】
文章中の重要な部分をまとめて短く表現した要約はニュース記事、論文、書籍など種々のジャンルの文章で使われている。要約を読むことで文章全体を読まなくても短時間で要点を把握することができることから要約作成のニーズは高い。
要約の作成には一般に抽出型と生成型があることが知られている。抽出型は、対象の文章内に含まれる、その文章の内容を十分に説明している代表的な文(もしくは単語)を抽出する方法で要約を作成するアルゴリズムである。一方生成型は、対象の文章内には存在しない単語や構文を用いて要約を作成するアルゴリズムである。また最近は機械学習により作成した学習モデルを用いて重要な文や単語を抽出する手法も開発されている。
【0003】
例えば特許文献1には、要約対象テキストから要約テキストを作成するテキスト要約システムであって、複数の学習用テキストに対して、所定の前処理を行って学習データを作成する学習用前処理部と、学習データに基づいて機械学習により要約に係る学習モデルを作成する学習モデル作成部と、要約対象テキストに対して所定の前処理を行う前処理部と、前処理がなされた要約対象テキストに対して、学習モデルに基づいて要約テキストを作成する要約作成部と、要約テキストに対して所定の後処理を行って出力する後処理部とを有し、前処理では学習用テキストおよび要約対象テキストに含まれる語句を所定の記号に置換するなどの加工を行い、後処理では要約テキストに対して前処理部により置換された記号を元の語句に復元するなどの加工を行うことで処理負荷の低減を図るものが開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2019-16181号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
文章に含まれる数値や製品名などの単語を記号で置き換える前処理を行って学習モデルや要約を作成し、要約作成段階の後処理において記号から元の単語に戻すといった特許文献1に開示されている方法は、経済ニュース記事など出てくる単語が概ね類型的な文章に対して有効であると考えられる。しかしながらカスタマーセンターなどでの問い合わせの質問や回答は、客とオペレータとのその場の会話のやり取りで成り立つため、主に会話を円滑にするための一般語が多く含まれる文と、問い合わせ内容に係る製品や機能に関する専門語が多く含まれる文が複雑に混ざったテキストになる傾向がある。こうした非定型なテキストに対しては、前処理で単語を記号化した上で要約作成の後処理で元の単語に復元する方法は有効ではない。
そこで、本発明では、カスタマーセンターでの問い合わせなど、一般的な内容と専門的な内容が混在した音声テキストから文を抽出して読みやすい要約を作成する技術を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記の課題を解決するために、代表的な本発明の音声テキスト要約システムの一つは、音声テキスト要約サーバを備える音声テキスト要約システムであって、音声テキスト要約サーバが、順番に並ぶ複数の文からなる要約対象音声テキストから、一般抽出型による文抽出で、順関係を維持したまま文を抽出する一般抽出型による文抽出部と、要約対象音声テキストから、専門抽出型による文抽出で、順関係を維持したまま文を抽出する専門抽出型による文抽出部と、一般抽出型による文抽出部で抽出した文と、専門抽出型による文抽出部で抽出した文を、順関係を維持したまま結合し要約音声テキストを作成する要約音声テキスト作成部と、を有するものである。
【発明の効果】
【0007】
本発明によれば、カスタマーセンターでの問い合わせなど、一般的な内容と専門的な内容が混在した音声テキストから文を抽出して読みやすい要約を作成することができる。
上記した以外の課題、構成および効果は、以下の実施をするための形態における説明により明らかにされる。
【図面の簡単な説明】
【0008】
図1図1は、第1実施形態に係る音声テキスト要約システムのシステム構成図である。
図2図2は、主装置の機能構成図である。
図3図3は、音声情報管理サーバの機能構成図である。
図4図4は、音声情報記憶部に保存される情報内容の一例である。
図5図5は、音声テキスト要約サーバの機能構成図である。
図6図6は、専門知識の学習モデル記憶部47に保存される学習モデルの一覧表の一例である。
図7図7は、音声テキスト要約システムのシーケンス動作例である。
図8図8は、専門知識の学習モデル作成のフローチャートである。
図9図9は、音声テキスト要約作成のフローチャートである。
図10図10は、実施例における要約対象音声テキストの全文である。
図11図11は、実施例における要約音声テキストを示している。
【発明を実施するための形態】
【0009】
以下、図面を参照して、本発明の実施形態について説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
【0010】
[第1実施形態]
<音声テキスト要約システム>
図1は、第1実施形態に係る音声テキスト要約システムのシステム構成図である。
音声テキスト要約システム1は、主装置12、音声認識サーバ13、音声情報管理サーバ14、音声テキスト要約サーバ15を備えている。外線電話機10は、主装置12を介して内線電話機11と通話可能に接続する。会社のカスタマーセンターを例にとると、外線電話機10は客側に位置し、内線電話機11はオペレータ(会社)側に位置する。主装置12は、内線電話機11と連携して呼制御により、内線電話機11と外線電話機10、あるいは内線電話機11同士との間に通話路を確立または解放する。また、通話時の録音情報を保存して、音声情報管理サーバ14に録音情報を送信する。内線電話機11は、主装置12と連携して、外線電話機10、あるいは内線電話機11同士と通話可能に接続する。
【0011】
音声認識サーバ13は、録音情報(音声データ)から音声テキストを作成する。音声情報管理サーバ14は、外線電話機10と内線電話機11で通話した情報やその要約(録音情報、音声テキスト、要約音声テキスト)を管理する。音声テキスト要約サーバ15は、後述するように2つの文抽出方法(一般抽出型による文抽出、専門抽出型による文抽出)を用いて、音声テキストから要約音声テキストを作成する。
【0012】
操作端末16は、オペレータが操作する端末であり、音声情報管理サーバ14に、Webブラウザなどにより接続する。LAN17は、主装置12の配下にある内部ネットワークである。インターネット18は、外線電話機10や各種サーバを接続する外部ネットワークである。
【0013】
以下に本実施形態の音声テキスト要約システムを構成するいくつかの構成要素についてさらに説明する。
(主装置)
図2は、主装置12の機能構成図である。
WANインタフェース部20は、主装置12がインターネット18に接続するインタフェースである。LANインタフェース部21は、主装置12がLAN17に接続するインタフェースである。呼制御部22は、内線電話機11と外線電話機10、あるいは内線電話機11同士との間に通話路を確立、解放する。録音情報記憶部23は、通話時の録音情報(音声データ)を保存する。録音情報送信部24は、通話終了した際、保存した通話時の録音情報を音声情報管理サーバ14に送信する。録音情報を送信した後は録音情報記憶部23の録音情報は消去してもよい。
【0014】
(音声情報管理サーバ)
図3は、音声情報管理サーバ14の機能構成図である。なお、音声情報管理サーバ14の機能は主装置12に組み込まれてもよい。
ネットワークインタフェース部30は、音声情報管理サーバ14がインターネット18に接続するためのインタフェースである。操作端末インタフェース部31は、Webブラウザなどによりオペレータが操作するインタフェースである。例えば録音情報記憶部33に保存されている録音情報を閲覧、操作したり、音声テキスト作成の要求、要約音声テキスト作成の要求が行われる。
【0015】
録音情報受信部32は、主装置12が録音情報送信部24より送信した録音情報を受信する。録音情報記憶部33は、録音情報受信部32により受信した録音情報を保存する。音声テキスト作成要求送信部34は、オペレータが操作端末インタフェース部31により操作することで、音声認識サーバ13に音声テキスト作成要求(録音情報(音声データ)から音声テキストを作成する要求)を送信する。音声テキスト作成結果受信部35は、音声認識サーバ13が送信した音声テキスト作成要求結果を受信する。音声テキスト記憶部36は、音声テキスト作成結果受信部35により受信した音声テキストを保存する。要約音声テキスト作成要求送信部37は、オペレータが操作端末インタフェース部31により操作することで、音声テキスト要約サーバ15に要約音声テキスト作成要求(録音情報(音声テキスト)から要約音声テキストを作成する要求)を送信する。要約音声テキスト作成結果受信部38は、音声テキスト要約サーバ15が送信した要約音声テキスト作成結果を受信する。要約音声テキスト記憶部39は、要約音声テキスト作成結果受信部38により受信した要約音声テキストを保存する。音声情報記憶部40は、録音情報記憶部33と音声テキスト記憶部36と要約音声テキスト記憶部39の3つの記憶部を含む。ただし音声情報記憶部40は特定の領域に各記憶部を配置する構成に限らず、分散配置する構成であってもよい。
【0016】
図4は、音声情報記憶部40に保存される情報内容の一例である。
音声情報管理サーバ14は、主装置12で作成した録音情報を取得すると、図4に例示した以下の項目に整理して音声情報記憶部40の録音情報記憶部33に保存する。
日時:通話を開始した日時
お客様電話番号:外線電話機10の電話番号
お客様名称:主装置12の電話帳に登録してある名前で、お客様電話番号と関連付けている
発着信:内線電話機から発信した場合を発信、内線電話機が着信した場合を着信とする
内線番号:通話をした内線番号
対応者:主装置12の電話帳に登録してあるオペレータの名前で、内線電話機11の内線番号とオペレータの名前を関連付けている
録音時間:通話を録音した時間
録音ファイル名:通話を録音したファイルの名前
【0017】
音声テキストは、音声認識サーバ13により、録音ファイルから会話がテキストに変換され、1文と1文の音声開始位置(例えば音声開始時間)の情報が関連付けられたデータである。なお、1文ごとに会話者の情報を追加してもよい。
要約音声テキストは、音声テキスト要約サーバ15により、音声テキストを要約したデータである。なお、1文ごとに会話者の情報を追加してもよい。
【0018】
(音声テキスト要約サーバ)
図5は、音声テキスト要約サーバ15の機能構成図である。
ネットワークインタフェース部41は、音声テキスト要約サーバ15がインターネット18に接続するためのインタフェースである。操作端末インタフェース部42は、Webブラウザなどにより専門知識の学習モデルの管理者が操作するインタフェースである。例えば学習データ記憶部45に保存されている学習データや専門知識の学習モデル記憶部47に保存されている学習モデルの情報を閲覧、操作する。
【0019】
次に図5を用いて専門知識の学習モデルの作成について説明する。
専門知識の学習モデル作成要求受信部43は、操作端末16が送信した専門知識の学習モデル作成要求を、ネットワークインターフェース部41と操作端末インターフェース部42を通して受信する。専門知識の学習モデル作成要求内に学習用テキストも含ませることができる。
学習データ作成部44は、専門知識の学習モデル作成要求の受信により読み込まれた学習用テキストに対して、学習用テキストのカテゴリ(種類)により、学習データを作成する。学習データ記憶部45は、学習データ作成部44により作成した学習データを保存する。専門知識の学習モデル作成部46は、保存した学習データにもとづき専門知識の学習モデルを作成する。専門知識の学習モデル記憶部47は、専門知識の学習モデル作成部46で作成した専門知識の学習モデルを保存する。専門知識の学習モデル作成結果送信部48は、専門知識の学習モデル作成要求に対する結果を、操作端末インターフェース部42とネットワークインターフェース部41を通して操作端末16に送信する。
【0020】
図6は、専門知識の学習モデル記憶部47に保存される学習モデルの一覧表の一例である。学習用テキストはFAQ/問合せ事例/取扱説明書/工事・保守マニュアル/設計書など専門的な文書のカテゴリに分けることができる。さらに製品A、製品Bなど、製品ごとの単位に仕分けることができる。このように専門的な文書をカテゴリと製品の単位に仕分けることで、単位ごとに所定の専門知識が多く含まれる学習用テキストが得られ、係る学習用テキストを用いることで、所定の専門知識の単位で学習モデルを作成することができる。
学習用テキストには、専門知識の単位が機械的に判別可能なように、カテゴリや製品名などの情報を予め記録しておくことができる。したがって学習データ作成部44で学習用テキストを読み込ませる際に、機械が自動で専門知識単位ごとに学習用テキストを判別することができ、各専門知識単位ごとに学習用テキストを仕分けすることができる。専門知識の学習モデル作成部46では、こうして専門知識ごとに仕分けられた学習データの単位で学習が行われ、結果として専門知識単位での学習モデルが作成される。そして専門知識ごとに作成された学習モデルごとに専門知識の学習モデル記憶部47に保存される。
【0021】
次に図5を用いて要約音声テキストの作成について説明する。
要約音声テキスト作成要求受信部49は、音声情報管理サーバ14から送信されたオペレータからの要約音声テキスト作成要求を受信する。また要約音声テキスト作成要求内に音声管理情報サーバ14より音声テキスト(以下、「要約対象音声テキスト」ともいう)も受信する。要約対象音声テキスト取得部50は、要約音声テキスト作成要求受信部49により受信した要約対象音声テキストを取得する。
【0022】
一般抽出型による文抽出部51は、学習モデルを使わずに要約のアルゴリズムを使用して文抽出する場合と、日本語の汎用言語モデルを使用して文抽出する場合があり、専門知識に対し中立的な汎用的内容の文を抽出することができる。
学習モデルを使わずに要約のアルゴリズムを使用する場合は、TF-IDFを用いた類似度算出の手法や代数的アプローチの手法などを使ったアルゴリズム、例えば、LexRank、LSA、Reduction、Luhn、SumBasic、KLなどの公知の要約作成アルゴリズム技術を用いることができる。
日本語の汎用言語モデルを使用する場合は、学習データとしては、日本語のWikipediaや国語辞書など分野横断的にあらゆる分野をカバーする膨大な量のテキストを使用し、アルゴリズムについては、ディープラーニングや、RNN(Recurrent Neural Network)、BERTSUMExtモデルなど公知の技術を適宜使用する。モデルにはWord2Vecの他、BERTやGPTなどを用いる。
要約として文を抽出する場合、会話の1文にある会話の開始時間の情報は、文を抽出するための分析時は不要のため削除してもよい。
【0023】
専門抽出型による文抽出部52は、専門知識の学習モデルを用いて、要約対象音声テキストの会話1文ごとに、類似度を算出する。そして、類似度が所定の閾値よりも高い文を抽出する。類似度は専門知識単位ごとに算出してもよい。その場合は所定の文に対し算出された専門知識単位ごとの類似度から総合的に算出した1つの類似度と閾値とを比較することもできる。1つの類似度に集約する仕方は特に限定されない。
要約音声テキスト作成部53は、一般抽出型による文抽出部51で抽出した文と、専門抽出型による文抽出部52で抽出した文を時系列の順番に結合する。
要約音声テキスト作成結果送信部54は、要約音声テキスト作成要求に対する結果である要約音声テキストを音声情報管理サーバ14に送信する。
【0024】
図7は、音声テキスト要約システムのシーケンス動作例である。外線電話機10、主装置12、内線電話機11、音声情報管理サーバ14、操作端末16、音声認識サーバ13、音声テキスト要約サーバ15で行われる操作や送受信のやり取りが示されている。これらの動作の内容は上述の内容と重複するので説明は省略する。
【0025】
<専門抽出型による要約作成の手順>
次に、音声テキスト要約サーバ15において、専門知識の学習モデルを作成し、それを用いて音声テキストの要約を作成する手順を説明する。
(専門知識の学習モデル作成のフローチャート)
図8は、専門知識の学習モデル作成のフローチャートである。各手順について以下に説明する。
・専門知識の学習モデル作成要求受信(S101)
専門知識の学習モデル作成要求受信部43は、操作端末16からWebなどの端末インタフェースにより、専門知識の学習モデル作成要求を受信する。
・学習用テキスト読み込み(S102)
専門知識の学習モデル作成要求受信部43は、専門知識の学習モデル作成要求を受信した場合、作成要求内にある学習用テキストを読み込む。
【0026】
・学習用テキストの種類判定(S103)
学習用テキストによって、学習箇所が異なるため、学習テキストを種類(カテゴリ)ごとに判定する。
・学習対象を「機能」ごとに設定(S104)
取扱説明書/工事・保守マニュアル/設計書の場合は、「機能」ごとに内容(章、項番)が分かれている。専門知識の学習モデルを用いた要約作成では、要約対象音声テキストの1文ごとに「機能」の内容を比較して類似度を算出できるようにする。
・学習対象を「問合せ内容」ごとに設定(S105)
FAQ/問合せ事例の場合は、「問合せ内容」(例えば製品に関する問合せ)ごとに内容が分かれている。専門知識の学習モデルを用いた要約作成では、要約対象音声テキストの1文ごとに「問合せ内容」を比較して類似度を算出できるようにする。
【0027】
・テキストを整形(S106)
テキストを整形して書き方を統一する。テキストの書き方の違いによって検索結果に違いが起こる可能性を減らすために行う。
例えば、「全角英大文字、全角英小文字、半角英小文字」を「半角英大文字」に統一したり、「全角数字」を「半角数字」にする。
・形態素解析(S107)
例えば、オープンソースであるMeCabを使用し、MeCabのシステム辞書と、専門語辞書に基づいて、形態素解析する。その際専門語辞書を優先して形態素解析する。例えば、「主装置」という単語は、システム辞書では「主」と「装置」に分かち書きされるため、「主装置」という単語を専門語辞書に登録する。これにより、「主装置」というテキストは、「主装置」という1つの単語になる。
・ストップワードの単語の削除(S108)
索引語または検索語として利用する可能性が無い単語、あるいは利用すると検索効率が低下する単語を検索で使わないように削除する。「名詞」「動詞」「形容詞」以外の単語は、機能語と判断し、ストップワードとして削除したり、「記号」もストップワードとして削除する。また、一般的過ぎる単語、頻出し過ぎる単語(例:「あそこ」「あちら」「いくつ」など)や検索する文書データを特定する上で不十分なもの(例:アルファベット1文字)や検索語として通常使われないもの(例:最初の文字が「小文字のひらがな」「小文字のカタカナ」)をストップワードとして削除する。
・専門語の単語を変換(S109)
システム辞書と専門語辞書を用いた形態素解析によって、テキストを単語に分かち書きしたあと、各単語に対して、複数の書き方がある同じ意味の単語の表現を統一したり、一般的な単語の組み合わせ表現に変換する(例:「送受信」→「送信 受信」)。
これにより、同じ意味でも書き方の違いによって検索がヒットしなくなる可能性を減らす。なお、元の単語を残しておくこともできる。
・形態素解析の単語を分割(S110)
学習テキストで使われている単語の組み合わせで分割する(例:「アプリバージョン」を「アプリケーション バージョン」と分割し、さらに前後の分割前の単語を追加して、「アプリバージョン アプリケーション バージョン アプリバージョン」とする。)。
これにより、同じ意味でも検索文に入力する単語の組み合わせの違いによって検索がヒットしなくなる可能性を減らすことができる。
例えば、「アプリバージョン」という単語は、「アプリケーション」と「バージョン」の2つの単語の組み合わせパターンも含まれるようになる。従って、学習テキストに「アプリケーション」や「バージョン」という表現が使われている場合、「アプリバージョン」で検索すると、当該検索対象との類似度が高くなる。
S103~S110の手順は、学習データ作成部44で行われる。
【0028】
・学習データ記憶(S111)
学習データ記憶部45において、形態素解析の単語を分割する処理までの結果について、専門知識の学習モデルを作成するための学習データとして保存する。
・専門知識の学習モデル作成(S112)
専門知識の学習モデル作成部46において、学習用テキストで使われている単語をベクトル化(数値化)して、検索文と問合せ事例の類似度をベクトルの近さに基づいて算出できるようにする。単語のベクトル化には、例えばWord2Vecを用いて、単語とベクトルを対応付けた学習モデルを作成する。
単語のベクトルを用いて、TF-IDF法の計算により、検索対象として設定した「機能」ごと、または「問合せ内容」ごとにベクトル化(数値化)する。
・専門知識の学習モデル記憶(S113)
専門知識の学習モデル記憶部47において、専門知識の学習モデル作成で作成したモデルを保存する。
・専門知識の学習モデル作成結果送信(S114)
専門知識の学習モデル作成結果送信部48において、専門知識の学習モデル作成要求に対する結果を操作端末16に送信する。
【0029】
(音声テキスト要約作成のフローチャート)
次に上述した専門知識の学習モデルを用いて音声テキスト要約サーバ15で行われる音声テキストの要約を作成する手順を説明する。図9は、音声テキスト要約作成のフローチャートである。図9(a)は全体の手順を、図9(b)は専門抽出型による文抽出部52において行われる専門抽出型による文抽出の詳細手順を示している。
まず図9(a)に基づいて全体の手順について説明する。
・要約音声テキスト作成要求受信(S201)
要約音声テキスト作成要求受信部49は、音声情報管理サーバ14から要約音声テキスト作成要求を受信する。
・要約対象音声テキスト読み込み(S202)
要約音声テキスト作成要求受信部49は、要約音声テキスト作成要求を受信した場合、作成要求内にある要約対象音声テキストを読み込み、要約対象音声テキストは要約対象音声テキスト取得部50により取得される。
【0030】
・一般抽出型による文抽出(S203)
一般抽出型による文抽出部51において、上述のとおり公知の日本語の要約技術に基づいて、要約対象音声テキストから、文を抽出する(以下、「ステップ1」ともいう)。要約として文を抽出する場合、会話の1文にある会話の開始時間の情報は、文を抽出するための分析時は不要のため削除してもよい。
・専門抽出型による文抽出(S204)
専門抽出型による文抽出部52において、専門知識の学習モデルを用いて文抽出を行う(以下、「ステップ2」ともいう)。詳細は図9(b)に基づいて別途説明する。なお、一般抽出型による文抽出(S203)と専門抽出型による文抽出(S204)は、それぞれ要約対象音声テキストを基に抽出が行われる。
・要約音声テキスト作成(S205)
要約音声テキスト作成部53において、一般抽出型による文抽出と専門抽出型による文抽出の結果を時系列の順番に結合する(以下、「ステップ3」ともいう)。
・要約音声テキスト作成結果送信(S206)
要約音声テキスト作成結果送信部54において、要約音声テキスト作成要求に対する結果を音声情報管理サーバ14に送信する。
【0031】
次に図9(b)に基づいて専門抽出型による文抽出(S204)の手順について詳細に説明する。
・要約対象音声テキストの会話1文抽出(S301)
要約対象音声テキストに表れる会話テキスト1文ごとにベクトル化(数値化)するため、抽出する文があり、1文抽出できたらテキスト整形の処理へ、抽出する文がなければ「類似度による文抽出」(S308)の処理に移行する。
・テキストを整形(S302)
専門知識の学習モデル作成のフローチャート(図8)で説明した「テキストを整形」(S106)の処理と同様である。
更に、会話の1文にある会話の開始時間の情報は不要のため削除してもよい。
・形態素解析(S303)
専門知識の学習モデル作成のフローチャート(図8)で説明した「形態素解析」(S107)の処理と同様である。
・ストップワードの単語の削除(S304)
専門知識の学習モデル作成のフローチャート(図8)で説明した「ストップワードの単語の削除」(S108)の処理と同様である。
・専門語の単語を変換(S305)
専門知識の学習モデル作成のフローチャート(図8)で説明した「専門語の単語を変換」(S109)の処理と同様である。
・形態素解析の単語を分割(S306)
専門知識の学習モデル作成のフローチャート(図8)で説明した「形態素解析の単語を分割」(S110)の処理と同様である。
・会話1文のベクトル化(S307)
単語のベクトルを用いて、TF-IDF法の計算により、要約対象音声テキストの会話1文ごとにベクトル化(数値化)する。
・類似度による文抽出(S308)
要約対象音声テキストの会話1文ごとに、類似度を算出する。また、類似度が所定の閾値よりも高い文を抽出する。
【0032】
<実施例>
第1実施形態による要約音声テキスト作成の実施例を説明する。図10は、実施例における要約対象音声テキストの全文である。会話の1文に対し、会話の開始時間の情報がある。またステップ2の専門知識の学習モデルを適用した際の文の類似度も表示してある。実施例ではカスタマーセンターのオペレータと客でカメラ付きドアホンの取り付けに関する問い合せの会話が1文ごとにテキスト化されている。
【0033】
図11は、実施例における要約音声テキストを示している。図11(a)は、一般抽出型による文抽出(ステップ1)が適用され、一般的な内容の文が抽出されている。学習モデル無しの公知の日本語の要約技術が用いられたが、国語辞書など分野横断的内容で学習された日本語の学習モデルを用いて抽出してもよい。なお、会話の1文にある会話の開始時間の情報は、文を抽出するための分析時は不要のため削除される。
図11(b)は、専門抽出型による文抽出(ステップ2)を適用し、類似度91%以上の文を抽出した例が示されている。製品や型番など専門的な内容の文が抽出されていることがわかる。閾値を上げれば一般により専門的な文に絞られ、下げれば一般的な内容を含む割合の高い文も入ってくることから、閾値の値を調整して要約に含まれる専門的内容の割合を調整することが可能となる。なお、ここでも会話の1文にある会話の開始時間の情報は、文を抽出するための分析時は不要のため削除される。
図11(c)は、ステップ1とステップ2の抽出結果を時系列の順番に結合したものが最終成果物である要約音声テキストとして示されている。ステップ1とステップ2の抽出結果が重複する場合は結合する際に上書きされる。ステップ1の抽出は会話によく出る一般的な内容で会話を円滑にする内容が多く、ステップ2の抽出は要約に出てくることが期待される重要で専門的な内容が多く、ステップ3でこれらを結合することで会話として読みやすくかつ重要な内容が現れる文が要約として抽出されることが確認された。
なお、ステップ2で類似度の閾値との大小関係に応じて、要約に現れてほしい重要な文を抽出しているが、オペレータが要約の分量を行数で指定したり、割合(%)で指定した条件も考慮できるようにしてもよい。その際、条件に収まらなかった場合は、警告を出したり、ステップ1の抽出文を削除したり、条件に合うようにするために、類似度の閾値を変更するなどの措置を講ずることができる。また、ステップ2の抽出は要約に出てくることが期待される重要で専門的な内容が多いため、ステップ3でステップ2の抽出結果を強調するために、ステップ2の抽出した文の色を変えたり、太字に変えたりし、表示を変えるようにしてもよい。
【0034】
[第2実施形態]
第2実施形態は、ステップ2において、専門知識の学習モデルでなく予め登録してある専門語の辞書を用いる点で第1実施形態と異なる。
専門語の辞書を用いて、要約対象音声テキストの1文ごとに、文内で使用している単語を検索する。そして単語検索(完全一致)した結果、単語が見つかった件数が多い文を抽出する。
(効果)
例えばニーズのある製品に関する専門語の辞書を単語集といった形で構築し、完全一致でヒットする文を抽出することができ、学習モデルを使用する第1実施形態より少ない負荷で、要約対象音声テキストに含まれる文のうち、要約にも現れてほしい重要なものが、要約に現れるようになる。
【0035】
[第3実施形態]
第3実施形態は、ステップ2において、予め登録してある専門語の辞書に対する単語検索をする際、単語検索(完全一致、部分一致)した結果、単語が見つかった件数と一致した条件にもとづいた重みづけにより重要度を求め、重要度が高い文を抽出する点で第2実施形態と異なる。重要度は例えば以下のようにして定義すればよい。
重要度=[(完全一致の件数)×(完全一致の重みづけ)]+[(部分一致の件数)×(部分一致の重みづけ)]
(効果)
例えばニーズのある製品に関する専門語の辞書を単語集といった形で構築し、完全一致、部分一致と一致の条件にもとづいた重みづけでヒットする文を抽出することができ、学習モデルを使用する第1実施形態より少ない負荷で、要約対象音声テキストに含まれる文のうち、要約にも現れてほしい重要なものが、要約に現れるようになる。
【0036】
以上、本発明の実施の形態について説明したが、本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
例えば要約対象音声テキストの文の順番は実施例のように時系列である必要はなく、所定の順番で並んでおり、ステップ1~3において、文の順関係(前後関係)が維持されていればよい。また音声や文書の言語は日本語に限られるものではなく他の言語にも適用可能であることは言うまでもない。
【0037】
本発明の内容となり得る項目を以下に述べる、ただしこれに限られるものではない。
(項目1)
音声テキスト要約サーバを備える音声テキスト要約システムであって、
前記音声テキスト要約サーバが、
順番に並ぶ複数の文からなる要約対象音声テキストから、一般抽出型による文抽出で、順関係を維持したまま文を抽出する一般抽出型による文抽出部と、
前記要約対象音声テキストから、専門抽出型による文抽出で、順関係を維持したまま文を抽出する専門抽出型による文抽出部と、
前記一般抽出型による文抽出部で抽出した文と、前記専門抽出型による文抽出部で抽出した文を、順関係を維持したまま結合し要約音声テキストを作成する要約音声テキスト作成部と、
を有する、音声テキスト要約システム。
(項目2)
前記専門抽出型による文抽出部が、専門知識の学習モデルを用いて文抽出を行う、項目1に記載の音声テキスト要約システム。
(項目3)
前記専門抽出型による文抽出部が、専門語の辞書を用いて文抽出を行う、項目1に記載の音声テキスト要約システム。
(項目4)
前記専門抽出型による文抽出部において、前記専門知識の学習モデルに基づいた抽出が、1文ごとに類似度検索をして所定の閾値以上の類似度を示す文を抽出する、項目2に記載の音声テキスト要約システム。
(項目5)
前記要約対象音声テキストが時系列の順番に並ぶ複数の会話文からなる、項目1~4のいずれか一つに記載の音声テキストの要約システム。
(項目6)
音声データから音声テキストを作成する音声認識サーバと、
前記音声データと、前記音声テキストと、前記要約音声テキストを管理する音声情報管理サーバと、
をさらに備える、項目1~5のいずれか一つに記載の音声テキスト要約システム。
(項目7)
順番に並ぶ複数の文からなる要約対象音声テキストから、一般抽出型による文抽出で、順関係を維持したまま文を抽出するステップ1と、
前記要約対象音声テキストから、専門抽出型による文抽出で、順関係を維持したまま文を抽出するステップ2と、
前記ステップ1で抽出した文と、前記ステップ2で抽出した文を、順関係を維持したまま結合し要約音声テキストを作成するステップ3と、
を有する音声テキスト要約方法。
(項目8)
前記専門抽出型による文抽出が、専門知識の学習モデルを用いて文抽出を行う、項目7に記載の音声テキスト要約方法。
(項目9)
前記専門抽出型による文抽出が、専門語の辞書を用いて文抽出を行う、項目7に記載の音声テキスト要約方法。
(項目10)
前記ステップ2において、前記専門知識の学習モデルに基づいた抽出が、1文ごとに類似度検索をして所定の閾値以上の類似度を示す文を抽出する、項目8に記載の音声テキスト要約方法。
(項目11)
前記要約対象音声テキストが時系列の順番に並ぶ複数の会話文からなる、項目7~10のいずれか一つに記載の音声テキスト要約方法。
【符号の説明】
【0038】
1…音声テキスト要約システム、10…外線電話機、11…内線電話機、12…主装置、、13…音声認識サーバ、14…音声情報管理サーバ、15…音声テキスト要約サーバ、16…操作端末、17…LAN、18…インターネット、20…WANインタフェース部、21…LANインタフェース部、22…呼制御部、23…録音情報記憶部、24…録音情報送信部、30…ネットワークインタフェース部、31…操作端末インタフェース部、32…録音情報受信部、33…録音情報記憶部、34…音声テキスト作成要求送信部、35…音声テキスト作成結果受信部、36…音声テキスト記憶部、37…要約音声テキスト作成要求送信部、38…要約音声テキスト作成結果受信部、39…要約音声テキスト記憶部、40…音声情報記憶部、41…ネットワークインタフェース部、42…操作端末インタフェース部、43…専門知識の学習モデル作成要求受信部、44…学習データ作成部、45…学習データ記憶部、46…専門知識の学習モデル作成部、47…専門知識の学習モデル記憶部、48…専門知識の学習モデル作成結果送信部、49…要約音声テキスト作成要求受信部、50…要約対象音声テキスト取得部、51…一般抽出型による文抽出部、52…専門抽出型による文抽出部、53…要約音声テキスト作成部、54…要約音声テキスト作成結果送信部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11