(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023072219
(43)【公開日】2023-05-24
(54)【発明の名称】推定装置、推定方法及び推定プログラム
(51)【国際特許分類】
G10L 25/51 20130101AFI20230517BHJP
G10L 25/30 20130101ALI20230517BHJP
G10L 25/18 20130101ALI20230517BHJP
【FI】
G10L25/51
G10L25/30
G10L25/18
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2021184619
(22)【出願日】2021-11-12
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】397038037
【氏名又は名称】学校法人成蹊学園
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】二瓶 芙巳雄
(72)【発明者】
【氏名】石井 亮
(72)【発明者】
【氏名】深山 篤
(72)【発明者】
【氏名】中野 有紀子
(57)【要約】
【課題】複数の発話者の間で生じた発話に対し、一つの推定器で複数の属性を同時に推定することができる。
【解決手段】推定装置10は、CNN111を用いて、複数の発話者の各発話にそれぞれ対応するメルスペクトログラムを、各発話者の音声特徴の共起関係を示す音声特徴ベクトルに変換する第1の変換部11と、BERTモデル121を用いて、発話者の発話の内容をテキストに書き起こしたデータを、分散表現ベクトルに変換する第2の変換部12と、記音声特徴ベクトルと分散表現ベクトルとを連結し、連結したベクトルを融合させる連結部13と、連結部13からの出力を基に、発話者の発話の談話行為のクラスを推定し、推定結果を出力する談話行為推定部14と、連結部13からの出力を基に、発話者の発話が重要発言か否かを推定し、推定結果を出力する重要発言推定部15と、を有する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
畳み込みニューラルネットワークを用いて、複数の発話者の各発話にそれぞれ対応するメルスペクトログラムを、各発話者の音声特徴の共起関係を示す音声特徴ベクトルに変換する第1の変換部と、
言語表現モデルを用いて、前記発話者の発話の内容をテキストに書き起こしたデータを、分散表現ベクトルに変換する第2の変換部と、
前記音声特徴ベクトルと前記分散表現ベクトルとを連結し、連結したベクトルを融合させる連結部と、
前記連結部からの出力を基に、前記発話者の発話の談話行為のクラスを推定し、推定結果を出力する第1の推定部と、
前記連結部からの出力を基に、前記発話者の発話が重要発言か否かを推定し、推定結果を出力する第2の推定部と、
を有することを特徴とする推定装置。
【請求項2】
前記第2の変換部は、一人の発話者の一つの有声区間の発話の内容をテキストに書き起こしたデータを入力とし、
前記第1の変換部は、前記一つの有声区間の各メルスペクトログラムを入力とし、
前記第1の推定部は、前記一つの有声区間の発話が属する談話行為のクラスを推定し、 前記第2の推定部は、前記一つの有声区間の発話が、重要発言か否かを推定することを特徴とする請求項1に記載の推定装置。
【請求項3】
前記言語表現モデルは、BERT(Bidirectional Encoder Representations from Transformers)モデルであることを特徴とする請求項1または2に記載の推定装置。
【請求項4】
推定方法が実行する推定方法であって、
畳み込みニューラルネットワークを用いて、複数の発話者の各発話にそれぞれ対応するメルスペクトログラムを、各発話者の音声特徴の共起関係を示す音声特徴ベクトルに変換する第1の変換工程と、
言語表現モデルを用いて、前記発話者の発話の内容をテキストに書き起こしたデータを、分散表現ベクトルに変換する第2の変換工程と、
前記音声特徴ベクトルと前記分散表現ベクトルとを連結し、連結したベクトルを融合させる連結工程と、
前記連結工程における出力を基に、前記発話者の発話の談話行為のクラスを推定し、推定結果を出力する第1の推定工程と、
前記連結工程における出力を基に、前記発話者の発話が重要発言か否かを推定し、推定結果を出力する第2の推定工程と、
を含んだことを特徴とする推定方法。
【請求項5】
コンピュータを請求項1~3のいずれか一つに記載の推定装置として機能させるための推定プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、推定装置、推定方法及び推定プログラムに関する。
【背景技術】
【0002】
従来、グループ会議で生じた発話の属性について、この発話が会議において重要なものであるか否かを推定する技術がある(非特許文献1)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Fumio Nihei, Yukiko I. Nakano, Yutaka Takase. “Fusing Verbal and Nonverbal Information for Extractive Meeting Summarization”, GIFT'18: Proceedings of the Group Interaction Frontiers in Technology, Articl No.9, Pages.1-9, 2018., [online],[令和3年11月1日検索],インターネット<URL:https://dl.acm.org/doi/pdf/10.1145/3279981.3279987>
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、非特許文献1に記載の技術では、推定可能な属性を、発話が会議において重要か否かの一種類のみに限定しており、複数の属性を推定するためには、各属性を推定するための推定器を、属性ごとに作成する必要がある。すなわち、複数の属性を推定するためには、属性ごとに複数の推定器を作成する必要がある。
【0005】
本発明は、上記に鑑みてなされたものであって、複数の発話者の間で生じた発話に対し、一つの推定器で複数の属性を同時に推定することができる推定装置、推定方法及び推定プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上述した課題を解決し、目的を達成するために、本発明に係る推定装置は、畳み込みニューラルネットワークを用いて、複数の発話者の各発話にそれぞれ対応するメルスペクトログラムを、各発話者の音声特徴の共起関係を示す音声特徴ベクトルに変換する第1の変換部と、言語表現モデルを用いて、発話者の発話の内容をテキストに書き起こしたデータを、分散表現ベクトルに変換する第2の変換部と、音声特徴ベクトルと分散表現ベクトルとを連結し、連結したベクトルを融合させる連結部と、連結部からの出力を基に、発話者の発話の談話行為のクラスを推定し、推定結果を出力する第1の推定部と、連結部からの出力を基に、発話者の発話が重要発言か否かを推定し、推定結果を出力する第2の推定部と、を有することを特徴とする。
【発明の効果】
【0007】
本発明によれば、複数の発話者の間で生じた発話に対し、一つの推定器で複数の属性を同時に推定することができる。
【図面の簡単な説明】
【0008】
【
図1】
図1は、実施の形態に係る推定装置の構成の一例を模式的に示す図である。
【
図3】
図3は、実施の形態に係る推定処理の処理手順を示すフローチャートである。
【
図4】
図4は、プログラムが実行されることにより、推定装置が実現されるコンピュータの一例を示す図である。
【発明を実施するための形態】
【0009】
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
【0010】
[実施の形態]
本実施の形態では、複数の発話者の間で生じた発話に対し、一つの推定器で複数の属性を同時に推定する推定装置について説明する。実施の形態に係る推定装置は、グループ会議で生じた発話の属性を複数種類推定するものであり、発話者の発話の談話行為のクラスと、発話者の発話が重要発言か否かとの二つの属性を独自に推定する。
【0011】
[推定装置]
次に、実施の形態に係る推定装置について説明する。
図1は、実施の形態に係る推定装置の構成の一例を模式的に示す図である。
【0012】
実施の形態に係る推定装置10は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。また、推定装置10は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースを有する。
【0013】
図1に示す推定装置10は、複数の発話者(会話参加者の全員)の各発話にそれぞれ対応するメルスペクトログラムと、会話参加者のうちの発話者の発話の内容をテキストに書き起こしたデータと、を入力とする。推定装置10は、推定器として深層学習技術を利用し、発話者の発話の談話行為のクラスと、発話者の発話が重要発言か否かと、の2つの属性を同時に出力する。メルスペクトログラムは、時間成分に対して、各周波数成分の強度を、例えば色で示したものである。
図1に示すように、推定装置10は、第1の変換部11、第2の変換部12、連結部13、談話行為推定部14(第1の推定部)及び重要発言推定部15(第2の推定部)を有する。
【0014】
第1の変換部11は、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)111を有する。実施の形態では、複数の発話者の音声情報の時間的かつ周波数的な近隣の情報を使用し、複数の発話者の発話の音声特徴の共起関係を捉えることを目的として、CNN111を採用する。
【0015】
第1の変換部11は、複数の発話者の各発話にそれぞれ対応するメルスペクトログラムの入力を受け付ける。第1の変換部11は、一人の発話者の一つの有声区間の各メルスペクトログラムを入力とする。そして、第1の変換部11は、CNN111を用いて、複数の発話者の各発話にそれぞれ対応するメルスペクトログラムを、各発話者の音声特徴の共起関係を示す音声特徴ベクトルに変換する。
図1の例では、4名の発話者のメルスペクトログラムを入力とし、CNN122を使用して200次元のベクトルを得る。なお、4名の発話者のメルスペクトログラムは、4名の会話者の発話している音声情報を、音声解析することで作成されたものである。
【0016】
第2の変換部12は、言語表現モデルを有する。第2の変換部12は、例えば、言語表現モデルとして、BERT(Bidirectional Encoder Representations from Transformers)モデル121を有する。BERTモデル121は、発話の書き起こしが入力される、分散表現ベクトルを出力する。
【0017】
第2の変換部12は、発話者の発話の内容をテキストに書き起こしたデータの入力を受け付ける。第2の変換部12は、一人の発話者の一つの有声区間の発話の内容をテキストに書き起こしたデータを入力とする。第2の変換部12は、BERTモデル121を用いて、発話者の発話の内容をテキストに書き起こしたデータを、分散表現ベクトルに変換する。第2の変換部12は、第1の変換部11における音声情報のベクトル化と同時に、発話の書き起こしをBERTモデル121に適用し、768次元のベクトルを得る。
【0018】
連結部13は、全結合ブロック131を有する。全結合ブロック131は、全結合のニューラルネットワークである。全結合ブロック131は、例えば、活性化関数として、ReLUを使用する。
【0019】
連結部13は、全結合ブロック131を用いて、第1の変換部11から出力された得られた音声特徴ベクトルと、第2の変換部12から出力された分散表現ベクトルとを連結し、2つのベクトルを融合(フュージョン)させる。全結合ブロック131は、談話行為推定ブロック(後述)のクラススコア、及び、重要発言推定ブロック(後述)のクラススコアを最適化するために使用される。全結合ブロック131は、音声特徴ベクトルと分散表現ベクトルとを連結し、968次元のベクトルとしたのち、全結合のニューラルネットワークFCを経て100次元のベクトル(フュージョンベクトル)とする。
【0020】
談話行為推定部14は、談話行為推定ブロック141を有する。談話行為推定ブロック141は、全結合のニューラルネットワークであり、例えば、活性化関数として、softmaxを使用する。談話行為推定ブロック141は、連結部13から出力されたフュージョンベクトルを基に、処理対象の発話が属する談話行為をとして、n種類(例えば、11種類)のクラスラベルの尤度として推定する。
【0021】
図2は、談話行為のクラスを示す図である。
図2に示すように、談話行為のクラスとして、例えば、情報提供、情報提供要求、提案、申し出などがある。情報提供は、処理対象の発話が、発話者が情報を提供する意図がある発話であることを示す。情報提供要求は、処理対象の発話が、発話者が対話相手から情報の提供を求める意図がある発話であることを示す。
【0022】
談話行為推定部14は、連結部13から出力を基に、談話行為推定ブロック141を用いて、発話者の発話の談話行為のクラスを推定し、推定結果を出力する。第1の推定部は、一人の発話者の一つの有声区間の発話が属する談話行為のクラスを推定する。
【0023】
重要発言推定部15は、重要発言推定ブロック151を有する。重要発言推定ブロック151は、全結合のニューラルネットワークであり、例えば、活性化関数として、softmaxを使用する。重要発言推定ブロック151は、連結部13から出力されたフュージョンベクトルを基に、処理対象の発話が重要発言か否かを2種類のクラスラベルの尤度として推定する。
【0024】
重要発言推定部15は、連結部13からの出力を基に、重要発言推定ブロック151を用いて、発話者の発話が重要発言か否かを推定し、推定結果を出力する。重要発言推定部15は、一つの有声区間の発話が、重要発言か否かを推定する。
【0025】
このように、推定装置10は、音声情報として、発話の区間における4名の会話参加者それぞれのメルスペクトログラムと、言語情報として、発話の区間における、当該発話の生成者(発話者)の発話の書き起こしと、を入力とし、談話行為のn種類のクラスラベルの尤度と、重要発言か否かの2種類のクラスラベルの尤度とを出力する。
【0026】
なお、重要発言推定部15は、重要発言か否かの2種類のクラスラベルに限らず、3種類以上のクラスラベルの尤度を出力してもよい。また、推定装置10は、CNN111、全結合ブロック131、談話行為推定ブロック141、重要発言推定ブロック151を、例えば一般に公開されているデータセットを訓練学習として、end-to-endで訓練する。このため、推定装置10は、マルチタスクなであり、タスクごとに訓練を行う必要がないため、タスクごとの訓練と比して、多大な訓練コストを必要とせず、実際の推定に適用するまでの処理が簡易である。
【0027】
[推定処理の処理手順]
次に、実施の形態に係る推定処理について説明する。
図3は、実施の形態に係る推定処理の処理手順を示すフローチャートである。
【0028】
図3に示すように、推定装置10は、複数の発話者の各発話にそれぞれ対応するメルスペクトログラムと、発話者の発話の内容をテキストに書き起こしたデータと、を入力として受け付ける(ステップS1,S3)。
【0029】
推定装置10では、第1の変換部11が、複数の発話者の各発話にそれぞれ対応するメルスペクトログラムを、CNN111を用いて、各発話者の音声特徴の共起関係を示す音声特徴ベクトルに変換する第1の変換処理を行う(ステップS2)。一方、推定装置10では、第2の変換部12が、BERTモデル121を用いて、発話者の発話の内容をテキストに書き起こしたデータを、分散表現ベクトルに変換する(ステップS4)。
【0030】
連結部13は、全結合ブロック131を用いて、第1の変換部11から出力された得られた音声特徴ベクトルと、第2の変換部12から出力された分散表現ベクトルとを連結し、2つのベクトルをフュージョンさせる連結処理を行う(ステップS5)。
【0031】
そして、談話行為推定部14は、連結部13から出力を基に、談話行為推定ブロック141を用いて、発話者の発話の談話行為のクラスを推定する談話行為推定処理を行い(ステップS6)、談話行為推定結果を出力する(ステップS7)。
【0032】
一方、重要発言推定部15は、連結部13からの出力を基に、重要発言推定ブロック151を用いて、発話者の発話が重要発言か否かを推定する重要発言推定処理を行い(ステップS8)、重要発言推定結果を出力する(ステップS9)。
【0033】
[実施の形態の効果]
このように、推定装置10は、談話行為推定部14及び重要発言推定部15の前段に、音声情報を変換するCNN111と、発話の書き起こしデータを処理するBERTモデル121と、CNN111から出力された音声特徴ベクトルと、BERTモデル121から出力された分散表現ベクトルとを連結し、2つのベクトルをフュージョンさせる連結部13とを設けた構成を有する。これによって、推定装置10は、複数の発話者の間で生じた発話に対し、1つの推定装置10のみで、発話の談話行為のクラスと、発話が重要発言か否かとの、複数の属性を同時に推定することができる。
【0034】
また、実施の形態では、複数の属性を推定する推定器をそれぞれ作成せず、一つの推定装置10のみで複数の属性を同時に推定する。このため、実施の形態によれば、それぞれの属性を独立して推定するよりも、推定装置10が捉えた属性間の互いに異なる特徴が互いの属性の推定性能を相補的に向上させることが期待できる。
【0035】
なお、推定装置10の入力は、音声情報及び言語情報に限定されない。推定装置は、音声情報及び言語情報に加え、さらに、会話者の表情に関する表情情報(例えば、発話者の顔貌を撮像した画像)や、発話者の視線の方向を示す視線情報を用いて、さらに詳細な推定を行うこともできる。この場合、推定装置は、表情情報を処理するNN及び視線情報を処理するNNを、CNN111及びBERTモデル121と並列に配置する。推定装置は、表情情報の変換情報、視線情報の変換情報、CNN111による音声特徴ベクトル及びBERTモデル121による分散表現ベクトルを連結し、融合させたフュージョンベクトルを、談話行為推定ブロック及び重要発言推定ブロックに入力して、各推定を行う。
【0036】
[実施の形態のシステム構成について]
推定装置10の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、推定装置10の機能の分散及び統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。
【0037】
また、推定装置10においておこなわれる各処理は、全部または任意の一部が、CPU、GPU(Graphics Processing Unit)、及び、CPU、GPUにより解析実行されるプログラムにて実現されてもよい。また、推定装置10においておこなわれる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。
【0038】
また、実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。
【0039】
[プログラム]
図4は、プログラムが実行されることにより、推定装置10が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
【0040】
メモリ1010は、ROM1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
【0041】
ハードディスクドライブ1090は、例えば、OS(Operating System)1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、推定装置10の各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、推定装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
【0042】
また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
【0043】
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
【0044】
以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
【符号の説明】
【0045】
10 推定装置
11 第1の変換部
12 第2の変換部
13 連結部
14 談話行為推定部
15 重要発言推定部
111 CNN
121 BERTモデル
131 全結合ブロック
141 談話行為推定ブロック
151 重要発言推定ブロック