IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許7545934人物発話音声とユーザコメントとを対応付けるプログラム、装置及び方法
<>
  • 特許-人物発話音声とユーザコメントとを対応付けるプログラム、装置及び方法 図1
  • 特許-人物発話音声とユーザコメントとを対応付けるプログラム、装置及び方法 図2
  • 特許-人物発話音声とユーザコメントとを対応付けるプログラム、装置及び方法 図3
  • 特許-人物発話音声とユーザコメントとを対応付けるプログラム、装置及び方法 図4
  • 特許-人物発話音声とユーザコメントとを対応付けるプログラム、装置及び方法 図5
  • 特許-人物発話音声とユーザコメントとを対応付けるプログラム、装置及び方法 図6
  • 特許-人物発話音声とユーザコメントとを対応付けるプログラム、装置及び方法 図7
  • 特許-人物発話音声とユーザコメントとを対応付けるプログラム、装置及び方法 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-28
(45)【発行日】2024-09-05
(54)【発明の名称】人物発話音声とユーザコメントとを対応付けるプログラム、装置及び方法
(51)【国際特許分類】
   G10L 15/22 20060101AFI20240829BHJP
   G10L 13/10 20130101ALI20240829BHJP
【FI】
G10L15/22 300U
G10L13/10 112B
【請求項の数】 10
(21)【出願番号】P 2021103588
(22)【出願日】2021-06-22
(65)【公開番号】P2023002380
(43)【公開日】2023-01-10
【審査請求日】2023-07-14
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【弁理士】
【氏名又は名称】早原 茂樹
(72)【発明者】
【氏名】田原 俊一
(72)【発明者】
【氏名】服部 元
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2021-56668(JP,A)
【文献】特開2020-27548(JP,A)
【文献】特開2020-113156(JP,A)
【文献】特開2014-164582(JP,A)
【文献】国際公開第2017/094212(WO,A1)
【文献】米国特許出願公開第2020/0395008(US,A1)
【文献】塚原裕史,内海慶,オープンプラットフォームとクラウドソーシングを活用した対話コーパス構築方法,言語処理学会 第21回年次大会 発表論文集,2015年03月,pp.147-150
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-17/26
(57)【特許請求の範囲】
【請求項1】
ユーザコメントと、当該ユーザコメントに起因した人物発話音声とを対応付けるようにコンピュータを機能させるプログラムであって、
人物発話音声と複数のユーザコメントとを含むコンテンツを取得するコンテンツ取得手段と、
人物発話音声を、人物コメントに変換する音声解析手段と、
人物コメントと、当該人物コメントの発声前の所定時間に投稿されたユーザコメントとの類似度を算出し、類似度が所定閾値以上高くなるユーザコメントを選択する対応コメント選択手段と、
選択されたユーザコメントに対する人物コメントの次に後続的に発話された人物コメントを選択する後続人物コメント選択手段と、
対応コメント選択手段によって選択されたユーザコメントと、後続人物コメント選択手段によって選択された人物コメントとを対話関係として決定する対話関係決定手段と
してコンピュータを機能させることを特徴とするプログラム。
【請求項2】
コンテンツは、放送コンテンツであり、
人物発話音声は、放送中に人物から発話された音声ベースのものであり、
ユーザコメントは、放送中に聴取者から投稿されたテキストベースのものであり、
ユーザコメントと人物コメントとが、対話形式を構成する場合を含む
ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。
【請求項3】
特定人物を模した特定キャラクタの音声対話シナリオに、人物発話音声を組み込む音声対話シナリオ生成手段を更に有し、
対話シナリオ生成手段は、
音声対話シナリオには、想定文が予め登録されており、
対話関係となるユーザコメントに対して、最も類似度が高い想定文を選択し、
対話関係となる後続人物コメントに紐付く後続人物発話音声を抽出し、
選択された想定文に、抽出した後続発話音声を対応付ける
ようにコンピュータを機能させることを特徴とする請求項1又は2に記載のプログラム。
【請求項4】
音声対話シナリオに予め登録された想定文には、同意となる1つ以上の単語(タグ)が紐付けられており、
音声対話シナリオ生成手段は、ユーザコメントに含まれる単語と、想定文に紐付けられた単語と比較して、類似度を算出する
ようにコンピュータを機能させることを特徴とする請求項3に記載のプログラム。
【請求項5】
対応コメント選択手段によって人物コメントに対するユーザコメントが選択されなかった場合、後続人物コメント選択手段に代えて、
人物コメントに含まれる単語から類義語を検索する類義語検索手段と、
各ユーザコメントに含まれる単語と、人物コメントの類義語とを比較し、最も類似度が高いユーザコメントを選択するユーザコメント選択手段と
して機能させ、
対話関係決定手段は、ユーザコメント選択手段によって選択されたユーザコメントと、当該人物コメントとを対話関係とする
ようにコンピュータを機能させることを特徴とする請求項1から4のいずれか1項に記載のプログラム。
【請求項6】
ユーザコメント選択手段は、
各ユーザコメントに含まれる名詞及び動詞からなる係り受け語と、人物コメントに含まれる名詞及び動詞からなる係り受け語とを解析し、
各ユーザコメントの係り受け語と、人物コメントの係り受け語とを比較し、最も類似度が高いユーザコメントを選択する
ようにコンピュータを機能させることを特徴とする請求項5に記載のプログラム。
【請求項7】
コンテンツは、複数の人物の発話音声を含み、
音声解析手段は、人物毎に、発話音声を分別して、各発話音声を人物コメントに変換し、
人物毎に、人物コメントに含まれる名詞のキーワードのリストを抽出するキーワードリスト抽出手段と、
人物毎に、キーワードリストに、当該ユーザコメントに含まれているキーワードをカウントするキーワードカウント手段と、
複数の人物の中で、キーワードリストのカウント数が最も多い人物の発話音声を、人物発話音声と決定する特定人物決定手段と
してコンピュータを機能させることを特徴とする請求項1から6のいずれか1項に記載のプログラム。
【請求項8】
特定人物の名前が予め設定されており、
キーワードカウント手段は、特定人物の名前が含まれているユーザコメントのみを抽出し、当該ユーザコメントに含まれているキーワードを、キーワードリストに対してカウントする
ようにコンピュータを機能させることを特徴とする請求項7に記載のプログラム。
【請求項9】
ユーザコメントと、当該ユーザコメントに起因した人物発話音声とを対応付ける対話解析装置であって、
人物発話音声と複数のユーザコメントとを含むコンテンツを取得するコンテンツ取得手段と、
人物発話音声を、人物コメントに変換する音声解析手段と、
人物コメントと、当該人物コメントの発声前の所定時間に投稿されたユーザコメントとの類似度を算出し、類似度が所定閾値以上高くなるユーザコメントを選択する対応コメント選択手段と、
選択されたユーザコメントに対する人物コメントの次に後続的に発話された人物コメントを選択する後続人物コメント選択手段と、
対応コメント選択手段によって選択されたユーザコメントと、後続人物コメント選択手段によって選択された人物コメントとを対話関係として決定する対話関係決定手段と
を有することを特徴とする対話解析装置。
【請求項10】
ユーザコメントと、当該ユーザコメントに起因した人物発話音声とを対応付ける装置の対話解析方法であって、
装置は、
人物発話音声と複数のユーザコメントとを含むコンテンツを取得する第1のステップと、
人物発話音声を、人物コメントに変換する第2のステップと、
人物コメントと、当該人物コメントの発声前の所定時間に投稿されたユーザコメントとの類似度を算出し、類似度が所定閾値以上高くなるユーザコメントを選択する第3のステップと、
選択されたユーザコメントに対する人物コメントの次に後続的に発話された人物コメントを選択する第4のステップと、
第3のステップによって選択されたユーザコメントと、第4のステップによって選択された人物コメントとを対話関係とする第5のステップと
を実行することを特徴とする対話解析方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザと対話する対話エージェントの技術に関する。
【背景技術】
【0002】
スマートフォンやタブレット端末を用いて、ユーザと自然に対話する「対話エージェント」の技術が普及している。この技術によれば、予め登録された「対話シナリオ」に沿って、ユーザとの間で音声によって対話を進行させる。例えば対話エージェントに、プロファイル(年齢、性別、出身地等の属性)や性格を持たせることによって、ユーザに対して人間らしい親近感を持たせることができる。ユーザは、その状況や趣味趣向に応じて所望のキャラクタ性を持つ対話エージェントを選択し、対話を楽しむことができる。
【0003】
従来、例えばtwitter(登録商標)のようなSNS(Social Networking Service)上で交換される投稿文を用いて、対話シナリオを生成する技術がある(例えば非特許文献1参照)。この技術によれば、ユーザの発話内容と類似度の高い投稿文を検索し、その投稿文に対する返答文を、対話エージェントの応答として用いる。
【0004】
また、深層学習に基づく話者(読み上げ調)の音声合成の技術もある(例えば非特許文献2参照)。この技術によれば、対話エージェントからの発話文を、そのキャラクタ特性に応じた声色で再現することができる。
【先行技術文献】
【非特許文献】
【0005】
【文献】別所史浩、原田達也、國吉康夫、「リアルタイムクラウドソーシングとTwitter大規模コーパスを利用した対話システム」、情報処理学会研究報告、Vol.2012-NL-206、[online]、[令和3年6月10日検索]、インターネット<URL:https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=81894&file_id=1&file_no=1>
【文献】橋本佳、高木信二、「深層学習に基づく統計的音声合成」、日本音響学会誌73巻1号(2017)、pp.55-62、[online]、[令和3年6月10日検索]、インターネット<URL:https://www.jstage.jst.go.jp/article/jasj/73/1/73_55/_pdf/-char/ja>
【文献】YouTube > DataAPI、[online]、[令和3年6月10日検索]、インターネット<URL:https://developers.google.com/youtube/v3?hl=ja>
【文献】Zhang, Aonan, et al. "Fully supervised speaker diarization." ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019.、[online]、[令和3年6月10日検索]、インターネット<URL:https://www.researchgate.net/publication/332791521_Fully_Supervised_Speaker_Diarization>
【発明の概要】
【発明が解決しようとする課題】
【0006】
ここで、対話エージェントを、例えば芸能人のような特定人物を模した特定キャラクタとして実装する場合を想定する。特定キャラクタは、その芸能人の通常の発話内容を模して対話する。ユーザは、その特定キャラクタと対話することによって、如何にもその芸能人と対話しているような感覚を持つことができる。
【0007】
しかしながら、特定人物における通常の発話文を音声合成で再現したとしても、イントネーションや話速が異なって、ユーザから見るとその特定キャラクタの発話音声に違和感を持ってしまう。結局、音声応答の特定人物らしさが低下することとなる。
例えば、「毎日食べているものってある?」というユーザの発話に対して、「野菜かな。健康のためにね!」と肯定的に応答する場面があれば、「野菜かな。健康のためにね~」と悲観的に応答する場面もある。このようなイントネーションや話速まで、音声合成によって再現することは極めて難しい。
【0008】
これに対し、本願の発明者らは、対話エージェントが、特定人物の発話を模したテキストではなく、その特定人物の発話音声をそのまま対話シナリオに組み込むことができないか、と考えた。具体的には、特定人物が登場する放送コンテンツから、その特定人物の対話における発話音声を取得することができないか、と考えた。そのためには、放送コンテンツから、人物発話音声とユーザコメントとを対応付けて抽出する技術が必要となる。
【0009】
そこで、本発明は、人物発話音声とユーザコメントとを対応付けるプログラム、装置及び方法を提供することを目的とする。また、人物発話音声を組み込んだ対話エージェントの音声対話シナリオを自動的に生成するプログラム等も提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明によれば、ユーザコメントと、当該ユーザコメントに起因した人物発話音声とを対応付けるようにコンピュータを機能させるプログラムであって、
人物発話音声と複数のユーザコメントとを含むコンテンツを取得するコンテンツ取得手段と、
人物発話音声を、人物コメントに変換する音声解析手段と、
人物コメントと、当該人物コメントの発声前の所定時間に投稿されたユーザコメントとの類似度を算出し、類似度が所定閾値以上高くなるユーザコメントを選択する対応コメント選択手段と、
選択されたユーザコメントに対する人物コメントの次に後続的に発話された人物コメントを選択する後続人物コメント選択手段と、
対応コメント選択手段によって選択されたユーザコメントと、後続人物コメント選択手段によって選択された人物コメントとを対話関係として決定する対話関係決定手段と
してコンピュータを機能させることを特徴とする。
【0011】
本発明のプログラムにおける他の実施形態によれば、
コンテンツは、放送コンテンツであり、
人物発話音声は、放送中に人物から発話された音声ベースのものであり、
ユーザコメントは、放送中に聴取者から投稿されたテキストベースのものであり、
ユーザコメントと人物コメントとが、対話形式を構成する場合を含む
ようにコンピュータを機能させることも好ましい。
【0012】
本発明のプログラムにおける他の実施形態によれば、
特定人物を模した特定キャラクタの音声対話シナリオに、人物発話音声を組み込む音声対話シナリオ生成手段を更に有し、
対話シナリオ生成手段は、
音声対話シナリオには、想定文が予め登録されており、
対話関係となるユーザコメントに対して、最も類似度が高い想定文を選択し、
対話関係となる後続人物コメントに紐付く後続人物発話音声を抽出し、
選択された想定文に、抽出した後続発話音声を対応付ける
ようにコンピュータを機能させることも好ましい。
【0013】
本発明のプログラムにおける他の実施形態によれば、
音声対話シナリオに予め登録された想定文には、同意となる1つ以上の単語(タグ)が紐付けられており、
音声対話シナリオ生成手段は、ユーザコメントに含まれる単語と、想定文に紐付けられた単語と比較して、類似度を算出する
ようにコンピュータを機能させることも好ましい。
【0014】
本発明のプログラムにおける他の実施形態によれば、
対応コメント選択手段によって人物コメントに対するユーザコメントが選択されなかった場合、後続人物コメント選択手段に代えて、
人物コメントに含まれる単語から類義語を検索する類義語検索手段と、
各ユーザコメントに含まれる単語と、人物コメントの類義語とを比較し、最も類似度が高いユーザコメントを選択するユーザコメント選択手段と
して機能させ、
対話関係決定手段は、ユーザコメント選択手段によって選択されたユーザコメントと、当該人物コメントとを対話関係とする
ようにコンピュータを機能させることも好ましい。
【0015】
本発明のプログラムにおける他の実施形態によれば、
ユーザコメント選択手段は、
各ユーザコメントに含まれる名詞及び動詞からなる係り受け語と、人物コメントに含まれる名詞及び動詞からなる係り受け語とを解析し、
各ユーザコメントの係り受け語と、人物コメントの係り受け語とを比較し、最も類似度が高いユーザコメントを選択する
ようにコンピュータを機能させることも好ましい。
【0016】
本発明のプログラムにおける他の実施形態によれば、
コンテンツは、複数の人物の発話音声を含み、
音声解析手段は、人物毎に、発話音声を分別して、各発話音声を人物コメントに変換し、
人物毎に、人物コメントに含まれる名詞のキーワードのリストを抽出するキーワードリスト抽出手段と、
人物毎に、キーワードリストに、当該ユーザコメントに含まれているキーワードをカウントするキーワードカウント手段と、
複数の人物の中で、キーワードリストのカウント数が最も多い人物の発話音声を、人物発話音声と決定する特定人物決定手段と
してコンピュータを機能させることも好ましい。
【0017】
本発明のプログラムにおける他の実施形態によれば、
特定人物の名前が予め設定されており、
キーワードカウント手段は、特定人物の名前が含まれているユーザコメントのみを抽出し、当該ユーザコメントに含まれているキーワードを、キーワードリストに対してカウントする
ようにコンピュータを機能させることも好ましい。
【0018】
本発明によれば、ユーザコメントと、当該ユーザコメントに起因した人物発話音声とを対応付ける対話解析装置であって、
人物発話音声と複数のユーザコメントとを含むコンテンツを取得するコンテンツ取得手段と、
人物発話音声を、人物コメントに変換する音声解析手段と、
人物コメントと、当該人物コメントの発声前の所定時間に投稿されたユーザコメントとの類似度を算出し、類似度が所定閾値以上高くなるユーザコメントを選択する対応コメント選択手段と、
選択されたユーザコメントに対する人物コメントの次に後続的に発話された人物コメントを選択する後続人物コメント選択手段と、
対応コメント選択手段によって選択されたユーザコメントと、後続人物コメント選択手段によって選択された人物コメントとを対話関係として決定する対話関係決定手段と
を有することを特徴とする。
【0019】
本発明によれば、ユーザコメントと、当該ユーザコメントに起因した人物発話音声とを対応付ける装置の対話解析方法であって、
装置は、
人物発話音声と複数のユーザコメントとを含むコンテンツを取得する第1のステップと、
人物発話音声を、人物コメントに変換する第2のステップと、
人物コメントと、当該人物コメントの発声前の所定時間に投稿されたユーザコメントとの類似度を算出し、類似度が所定閾値以上高くなるユーザコメントを選択する第3のステップと、
選択されたユーザコメントに対する人物コメントの次に後続的に発話された人物コメントを選択する第4のステップと、
第3のステップによって選択されたユーザコメントと、第4のステップによって選択された人物コメントとを対話関係とする第5のステップと
を実行することを特徴とする。
【発明の効果】
【0020】
本発明のプログラム、装置及び方法によれば、人物発話音声とユーザコメントとを対応付けることができる。また、人物発話音声を組み込んだ対話エージェントの音声対話シナリオを自動的に生成することができる。
【図面の簡単な説明】
【0021】
図1】本発明におけるシステム構成図である。
図2】人物コメントとユーザコメントとの対応関係を表す説明図である。
図3】本発明における対話解析装置の機能構成図である。
図4】ユーザコメントと、人物コメントと、後続人物コメントとの関係を表す説明図である。
図5】本発明における音声対話シナリオ作成部の説明図である。
図6】対応関係となる人物コメントが無い場合における対話解析装置の機能構成図である。
図7】複数の人物が発話する中で、特定人物を決定する対話解析装置の機能構成図である。
図8図6の各機能構成部の処理を表す説明図である。
【発明を実施するための形態】
【0022】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0023】
図1は、本発明におけるシステム構成図である。
【0024】
図1によれば、動画共有プラットフォームとしての放送サーバ2が配置されている。放送サーバ2は、例えばYouTube(登録商標)やradiko(登録商標)のような、ビデオ/オーディオオンデマンドサービスに基づく放送コンテンツを配信する。放送コンテンツとしては、ユーザ撮影のような映像やラジオ放送のような音声である。
放送サーバ2は、放送者側の端末3から放送コンテンツを受信し、その放送コンテンツを蓄積すると共に、ユーザ側の複数の端末4へ配信する。放送コンテンツには、放送者となる特定人物自ら発話した人物発話音声が含まれる。
【0025】
放送コンテンツは、映像や音声のコンテンツの再生に同期して、ユーザコメントも逐次表示されていくように、一体的に構成されたものである。
例えばライブストリーミングの放送コンテンツを想定した場合、ユーザは、放送中に、放送者の特定人物(例えば芸能人や有名人)に対して、テキストベースのユーザコメントをリアルタイムに投稿することできる。ユーザコメントとは、聴取者としてのユーザの質問、意見、自己開示のような投稿文である。投稿されたユーザコメントの一覧は、放送者の端末3及びユーザの端末4の両方に、共有的且つ同時に表示される。このとき、放送者の特定人物は、それらユーザコメントを閲覧しながら、その一部を読み上げて、回答することもできる。例えば、ユーザコメントは、ユーザから特定人物に対する質問や感想となり、人物発話音声は、特定人物からそのユーザに対する回答となる場合もある。即ち、ユーザのテキストベースの「ユーザコメント」と、特定人物の発話音声ベースの「人物コメント」とが、対話形式を構成することとなる。
【0026】
図1によれば、放送サーバ2から放送コンテンツを取得し、その対話内容を解析する「対話解析装置1」が備えられている。
対話解析装置1は、放送コンテンツから、人物発話音声とユーザコメントとを対応付ける。また、対話解析装置1は、人物発話音声を組み込んだ対話エージェントの音声対話シナリオを自動的に生成する音声対話シナリオ生成装置としても機能する。その音声対話シナリオに基づく対話エージェントは、その特定人物を模した特定キャラクタ(アバター)から、対話に応じた人物発話音声を再生することができる。
【0027】
図2は、人物コメントとユーザコメントとの対応関係を表す説明図である。
【0028】
図2(a)によれば、特定人物の発話音声に基づく人物コメントが、時系列に並んだものである。特定人物は、ライブストリーミングの中で、ユーザコメントを閲覧しながら、ユーザコメントと適宜対話しているように発話している。
図2(b)によれば、ライブストリーミングでユーザが投稿したユーザコメントが、時系列に並んだものである。放送者の特定人物は、ユーザコメントの全てに対して発話するわけではない。そのために、特定人物の発話内容が、いずれのユーザコメントに基づくものであるかは不明となっている。
【0029】
図2によれば、ユーザコメント「公園によく行くのかな?」に対して、特定人物は、「公園によく行くのかな?」と読み上げた上で、「公園には休日よく行くよ」と発話している。
また、ユーザコメント「好きな食べ物なに?」に対して、特定人物は、「好きな食べ物?」と読み上げた上で、「ハンバーグが好きかな」と発話している。
更に、ユーザコメント「普段、どんなアーティスト聞くの?」に対して、特定人物は、ユーザコメントを読み上げることなく、「KANAを聞くかな」と発話している。
【0030】
図3は、本発明における対話解析装置の機能構成図である。
【0031】
本発明の対話解析装置1は、ユーザコメントと、当該ユーザコメントに起因した人物発話音声とを対応付けるものである。
図2によれば、本発明の対話解析装置1は、コンテンツ取得部11と、音声解析部12と、対応コメント選択部13と、後続人物コメント選択部14と、対話関係決定部15と、音声対話シナリオ作成部16とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、対話解析方法としても理解できる。
【0032】
[コンテンツ取得部11]
コンテンツ取得部11は、放送サーバ2から放送コンテンツを取得する。
放送コンテンツには、人物発話音声とユーザコメントとが含まれている。人物発話音声は、放送中に人物から発話された音声ベースのものである。ユーザコメントは、放送中に聴取者から投稿されたテキストベースのものである。ユーザコメントと人物発話音声とのやりとりには、対話形式となる部分を含む。
【0033】
コンテンツ取得部11は、放送サーバ2へ、特定人物の名前を検索キーとして指定することによって、その特定人物が発話する放送コンテンツを検索して取得することができる。ライブストリーミングの放送コンテンツを取得する技術として、例えばYouTube Data APIがある(例えば非特許文献3参照)。この技術によれば、例えば特定人物名を指定すると、その特定人物による過去のライブストリーミングの放送コンテンツ(.mp4)を取得することができる。
【0034】
コンテンツ取得部11は、放送コンテンツにおける人物発話音声(.mp3)を、音声解析部12及び対話関係決定部15へ出力する。また、コンテンツ取得部11は、ユーザコメントを、人物発話音声と同期して、対応コメント選択部13へ出力する。
【0035】
[音声解析部12]
音声解析部12は、人物発話音声(.mp3)を、テキストベースの「人物コメント」に変換する。
音声解析としては、具体的には、例えばGoogle(登録商標)のCloud Speech-to-Text(登録商標)や、Microsoft(登録商標)のSpeech to Text(登録商標)のような技術を適用することができる。
変換した人物コメントは、対応コメント選択部13へ出力される。
【0036】
図4は、ユーザコメントと、人物コメントと、後続人物コメントとの関係を表す説明図である。
【0037】
[対応コメント選択部13]
対応コメント選択部13は、人物発話音声から変換された人物コメントと、ユーザコメントとを対応付ける。
ここで、特定人物の「人物発話音声」に対して、その人物発話音声の発声前の所定時間内(例えば1分間)に投稿された複数の「ユーザコメント」のみを対象とする。放送者となる特定人物は、投稿されたユーザコメントの中で最新のコメントに対してリアルタイムに回答をすると考えられる。そのために、所定時間よりも以前に投稿されたユーザコメントは、特定人物の発話内容に影響しないと考える。
【0038】
また、対応コメント選択部13は、人物コメントとユーザコメントとの類似度を算出し、類似度が所定閾値以上高くなるユーザコメントを選択する。
【0039】
類似度の算出には、例えばBERT(登録商標)を用いたものであってもよい。BERT(Bidirectional Encoder Representations from Transformers)とは、Seq2seqベースの事前学習モデルに基づく双方向学習のエンコード表現であり、Google(登録商標)の自然言語処理モデルである。このような分散表現生成アルゴリズム(embedding)を適用し、テキストを高次元ベクトルに置き換える。人物コメントの単語群のベクトルに対して、所定閾値を超えて且つ類似度が最も高いベクトルの単語群を含むユーザコメントを選択することができる。
【0040】
図4によれば、人物コメントに対して類似度が高いユーザコメントが、以下のように選択されている。
人物コメント「公園によく行くのかな?」
-> ユーザコメント「公園によく行くのかな?」
人物コメント「好きな食べ物?」
-> ユーザコメント「好きな食べ物なに?」
ここでは、特定人物は、ユーザコメントを一度読み上げているために、人物コメントと高く類似するユーザコメントが選択されて対応付けられている。
【0041】
[後続人物コメント選択部14]
後続人物コメント選択部14は、対応コメント選択部13によって選択されたユーザコメントに対する人物コメントの「次に後続的に発話された人物コメント(後続人物コメント)」を選択する。
【0042】
図4によれば、人物コメントに対して、後続人物コメントが、以下のように選択される。
人物コメント「公園によく行くのかな?」
-> 後続人物コメント「公園には休日よく行くよ」
人物コメント「好きな食べ物?」
-> 後続人物コメント「ハンバーグが好きかな」
ここでは、特定人物は、ユーザコメントを一度読み上げた後、自らの回答を発話している。
【0043】
[対話関係決定部15]
対話関係決定部15は、対応コメント選択部13によって選択されたユーザコメントと、後続人物コメント選択部14によって選択された人物コメント(後続人物コメント)とを対話関係として決定する。そして、対話関係決定部15は、ユーザコメントと人物コメント(後続人物コメント)とを対応付けて、メモリに登録する。
【0044】
図4によれば、ユーザコメントに対して、後続人物コメントが、以下のように対応付けられる。
ユーザコメント「公園によく行くのかな?」
-> 人物コメント「公園には休日よく行くよ」
ユーザコメント「好きな食べ物なに?」
-> 人物コメント「ハンバーグが好きかな」
【0045】
[音声対話シナリオ作成部16]
音声対話シナリオ作成部16は、メモリに登録されたユーザコメントと人物コメントの対話関係を用いて、特定人物を模した特定キャラクタの音声対話シナリオに、人物発話音声を組み込む。これによって、音声対話シナリオを自動的に作成することができる。
【0046】
音声対話シナリオは、対話エージェントがユーザと対話を進行させる一連のシナリオを記述したものである。音声対話シナリオには、ユーザが発話するであろうと想定される「想定文」が予め登録されている。
【0047】
図5は、本発明における音声対話シナリオ作成部の説明図である。
【0048】
音声対話シナリオ作成部16は、以下のステップで処理する。
(S1)対話関係となるユーザコメントに対して、最も類似度が高い想定文を選択する。
【0049】
類似度を算出するために、具体的には、想定文毎に、同意となる1つ以上の単語(タグ)が紐付けられていてもよい。音声対話シナリオ作成部16は、ユーザコメントに含まれる単語と、想定文に紐付けられた単語とを比較して、単語同士のベクトル間類似度を算出するものであってもよい。単語同士のベクトル間類似度が、所定閾値以上であって且つ最も高い単語を持つ想定文を選択する。類似度の算出には、前述したBERTを用いるものであってもよい。
【0050】
図5によれば、ユーザコメント毎に、以下のように類似度が高い想定文が選択される。
ユーザコメント 「公園によく行くのかな?」
-> 単語 「公園」 (タグの一致)
-> 想定文 「公園に行きますか?」 (類似度が最も高い想定文)
ユーザコメント 「好きな食べ物なに?」
-> 単語 「食べ物」 (タグの一致)
-> 想定文 「好きな食べ物は何ですか?」 (類似度が最も高い想定文)
【0051】
(S2)対話関係となる人物コメント(後続人物コメント)に紐付く人物発話音声(.mp3)を抽出する。人物発話音声は、コンテンツ取得部11によって取得された放送コンテンツに含まれたものである。
【0052】
図5によれば、人物コメントに対する人物発話音声が抽出される。
ユーザコメント 「公園によく行くのかな?」
-> 人物コメント 「公園には休日よく行くよ」
ユーザコメント 「好きな食べ物なに?」
-> 人物コメント 「ハンバーグが好きかな」
【0053】
(S3)その想定文に、抽出した人物発話音声を紐付ける。これによって、音声対話シナリオについて、想定文毎に、対話エージェントが応答すべき音声応答(例えば.mp3)が紐付けられる。
【0054】
図5によれば、人物コメントに対する人物発話音声が抽出される。
ユーザコメント 「公園によく行くのかな?」
-> 音声応答[公園には休日よく行くよ].mp3
ユーザコメント 「好きな食べ物なに?」
-> 音声応答[ハンバーグが好きかな].mp3
【0055】
対話エージェントは、音声対話シナリオを用いて、ユーザが発話した想定文に応じて、その音声応答で応答することができる。これによって、ユーザと対話エージェントとの間で、対話シーケンスを交互に進行させていくことができる。
【0056】
図6は、対応関係となる人物コメントが無い場合における対話解析装置の機能構成図である。
【0057】
図6によれば、対応コメント選択部13によって人物コメントに対するユーザコメントが選択されなかった場合を想定している。例えば前述した図2によれば、放送者の特定人物は、「KANAを聞くかな」と発話している一方で、例えば「KANAを聞きますか?」や「どんなアーティストを聞くの?」を発話していない。即ち、放送中に、放送者の特定人物は、ユーザコメントを確認した後、コメントを読み上げることなく、回答している。そのために、人物コメント「KANAを聞くかな」に対して、対話関係となるユーザコメントを発見できていない。
【0058】
そのために、図6によれば、対話解析装置1は、後続人物コメント選択部14に代えて、類義語検索部141及びユーザコメント選択部142を更に有する。
【0059】
[類義語検索部141]
類義語検索部141は、人物コメントに含まれる単語から類義語を検索する。
ここで、類義語を導出するために、例えばWord2vec(word to vector)を用いてもよい。Word2vecとは、単語を、意味ベクトルとして表現する分散表現技術をいう。
図6によれば、例えば人物コメントの単語「KANA」の類義語として、「歌手」「アーティスト」「音楽」が導出されている。
【0060】
[ユーザコメント選択部142]
ユーザコメント選択部142は、各ユーザコメントに含まれる単語と、人物コメントの類義語とを比較し、最も類似度が高いユーザコメントを選択する。
図6によれば、「歌手」「アーティスト」「音楽」を含むユーザコメントが、高い類似度として選択される。
【0061】
ここで、例えば人物コメントの名詞「KANA」の類義語として、「アーティスト」「音楽」「歌手」を含むユーザコメントを選択したとしても、以下のような複数のユーザコメントが選択される場合がある。
人物コメント「KANAを聞くかな」
<- ユーザコメント「普段、どんなアーティスト聞くの?」
<- ユーザコメント「アーティストになりたいなあ」
この場合、人物コメント「KANAを聞くかな」は、いずれのユーザコメントと対話関係にあるのか、認識することができない。
【0062】
そのために、本発明における他の実施形態として、ユーザコメント選択部142は、係り受け解析機能を有するものであってもよい。ユーザコメント選択部142は、具体的には、各ユーザコメントに含まれる係り受け語(名詞及び動詞)と、人物コメントに含まれる係り受け語(名詞及び動詞)とを比較し、最も類似度が高いユーザコメントを選択する。
係り受け解析とは、述語(動詞)に係る名詞を抽出するものである。日本語の係り受け解析方法としては、例えばSVM(Support Vector Machines)に基づくCaboCha(登録商標)がある。
【0063】
ここで、人物コメント及びユーザコメントを係り受け解析することによって、以下のように判別できる。
(係り受け関係)
人物コメント「KANAを聞くかな」 =<KANA、聞く>
「KANA」->類義語「歌手」「アーティスト」「音楽」
ユーザコメント「普段、どんなアーティスト聞くの?」=<アーティスト、聞く>
ユーザコメント「アーティストになりたいなあ」 =<アーティスト、なる>
この場合、人物コメント「KANAを聞くかな」に対して、係り受け関係が一致するユーザコメント「普段、どんなアーティスト聞くの?」が選択される。
【0064】
図7は、複数の人物が発話する中で、特定人物を決定する対話解析装置の機能構成図である。
図8は、図7の各機能構成部の処理を表す説明図である。
【0065】
前述した図2図6によれば、例えば放送者が1人の場合であって、その特定人物がユーザコメントに対して回答しながら放送するような事例に基づくものである。しかしながら、放送コンテンツの中で複数の放送者(特定人物とその他の第三者)が談話するような事例もある。その場合、放送コンテンツには、複数人の発話音声が混在しており、ユーザコメントがいずれの放送者に対するものか判断できない場合がある。人物コメントとユーザコメントとの対話関係を抽出するためにも、放送コンテンツの中で、特定人物の音声発話を特定する必要がある。
【0066】
図7及び図8によれば、対話解析装置1は、音声解析部12と対応コメント選択部13との間に、キーワードリスト抽出部121と、キーワードカウント部122と、特定人物決定部123とを更に有する。
【0067】
音声解析部12は、発話音声分別機能を更に有する。これによって、音声解析部12は、人物毎に、発話音声を分別して、各発話音声を人物コメントに変換する。具体的には、機械学習を用いて音声会話から話者の声を区別する技術がある(例えば非特許文献4参照)。
放送コンテンツには、複数人の発話音声が混在した場合であっても、音声解析部12は、図8のように、時間進行に応じて話者A及びBの発話音声を分別することができる。但し、この段階で、話者の分別はできても、話者を特定できているわけではない。
【0068】
[キーワードリスト抽出部121]
キーワードリスト抽出部121は、人物(話者)毎に、人物コメントに含まれる名詞のキーワードのリストを抽出する。
図8によれば、話者Aは、キーワード「食べ物」「バドミントン」「野球」を、過去一定時間に発話している。また、話者Bは、キーワード「ハンバーグ」「公園」「KANA」を、過去一定時間に発話している。
そして、キーワードリスト抽出部121は、話者毎に、キーワードリストを作成する。
【0069】
[キーワードカウント部122]
キーワードカウント部122は、人物(話者)毎に、キーワードリストに、当該ユーザコメントに含まれているキーワードをカウントする。
図8によれば、ユーザコメントに「ハンバーグ」「KANA」が登場し、キーワードリストにチェックが入っている。ここで、「ハンバーグ」「KANA」について、話者Bが過去に発話している。
【0070】
キーワードカウント部122に対して、特定人物の名前が予め設定する実施形態であってもよい。キーワードカウント部122は、特定人物の名前が含まれているユーザコメントのみを抽出し、当該ユーザコメントに含まれているキーワードを、キーワードリストに対してカウントする。
例えば特定人物の名前として、「X」を予め設定するとする。この場合、「X」が含まれた、例えばユーザコメント「ハンバーグを美味しそうに食べるXさんが簡単に想像できる」のようなユーザコメントのみを抽出する。この場合、キーワードである例えば「ハンバーグ」を、キーワードリストに対してカウントする。
【0071】
[特定人物決定部123]
特定人物決定部123は、複数の人物の中で、キーワードリストのカウント数が最も多い人物の発話音声を、人物発話音声と決定する。
特に、例えば特定人物の名前を用いたユーザコメントに含まれるキーワードは、特定人物が発話した人物コメントに含まれるキーワードと一致する可能性が高いといえる。
図8によれば、話者Bが、話者Aよりもチェックが入った割合が高い(話者Aのチェック率は0%、話者Bのチェック率は67%)。そのために、話者Bを、特定人物として決定する。
【0072】
これによって、対応コメント選択部13は、話者Bの人物コメントに対して、ユーザコメントを対応付けることができる。
尚、話者Aの人物コメントを、ユーザコメントとして処理することも好ましい。話者Aは、特定人物ではないので、ユーザコメントと同様に処理することができる。例えば話者Aが「あなたの好きな食べ物は何ですか?」と発話することによって、話者Bが「ハンバーグが好きですねー」と発話する場合もある。
【0073】
以上、詳細に説明したように、本発明のプログラム、装置及び方法によれば、人物発話音声とユーザコメントとを対応付けることができる。また、人物発話音声を組み込んだ対話エージェントの音声対話シナリオを自動的に生成することができる。
結果的に、対話エージェントの特定キャラクタにおける応答音声が、その特定人物の発話音声そのものとなり、ユーザは、如何にも特定人物と対話をしているような感覚を持つことができる。
【0074】
尚、これにより、例えば「人物発話音声とユーザコメントとを対応付けて、対話エージェントの音声対話シナリオを自動的に生成することができる」ことから、国連が主導する持続可能な開発目標(SDGs)の目標9「レジリエントなインフラを整備し、持続可能な産業化を推進するとともに、イノベーションの拡大を図る」に貢献することが可能となる。
【0075】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0076】
1 対話解析装置
11 コンテンツ取得部
12 音声解析部
121 キーワードリスト抽出部
122 キーワードカウント部
123 特定人物決定部
13 対応コメント選択部
14 後続人物コメント選択部
141 類義語検索部
142 ユーザコメント選択部
15 対話関係決定部
16 音声対話シナリオ作成部
2 放送サーバ
3 放送者側の端末
4 ユーザ側の端末
図1
図2
図3
図4
図5
図6
図7
図8