(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-12
(45)【発行日】2023-09-21
(54)【発明の名称】テキストベースの話者変更検出を活用した話者ダイアライゼーション補正方法およびシステム
(51)【国際特許分類】
G10L 17/00 20130101AFI20230913BHJP
G10L 15/00 20130101ALI20230913BHJP
【FI】
G10L17/00 200D
G10L15/00 200Z
(21)【出願番号】P 2022012297
(22)【出願日】2022-01-28
【審査請求日】2022-01-28
(31)【優先権主張番号】10-2021-0017814
(32)【優先日】2021-02-08
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】505205812
【氏名又は名称】ネイバー コーポレーション
【氏名又は名称原語表記】NAVER Corporation
(73)【特許権者】
【識別番号】523303688
【氏名又は名称】ワークスモバイルジャパン株式会社
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】チョン ナムギュ
(72)【発明者】
【氏名】キム ゴンミン
(72)【発明者】
【氏名】クォン ヨンギ
(72)【発明者】
【氏名】ホ ヒス
(72)【発明者】
【氏名】イ ボンジン
(72)【発明者】
【氏名】イ チャンギュ
【審査官】菊地 陽一
(56)【参考文献】
【文献】特開2020-140169(JP,A)
【文献】特許第5296455(JP,B2)
【文献】米国特許出願公開第2016/0225374(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 17/00
G10L 15/00
(57)【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサを含むコンピュータ装置の話者ダイアライゼーション補正方法であって、
前記少なくとも1つのプロセッサが、入力されたオーディオストリームに対する話者ダイアライゼーションを実行する段階、
前記少なくとも1つのプロセッサが、前記入力されたオーディオストリームに含まれた音声を認識してテキストに変換する段階、
前記少なくとも1つのプロセッサが、前記変換されたテキストに基づいて話者変更を検出する段階、および
前記少なくとも1つのプロセッサが、前記検出された話者変更に基づいて前記話者ダイアライゼーションを補正する段階
を含み、
前記話者変更を検出する段階は、
発話区間ごとに音声認識結果の入力を受けて単語単位の話者変更確率を出力するように学習されたモジュールを利用して、単語単位のテキストごとに話者変更の有無を認識することを特徴とする
、話者ダイアライゼーション補正方法。
【請求項2】
前記発話区間ごとの音声認識結果は、EPD(End Point Detection)単位の音声認識結果を含むことを特徴とする、請求項1に記載の話者ダイアライゼーション補正方法。
【請求項3】
少なくとも1つのプロセッサを含むコンピュータ装置の話者ダイアライゼーション補正方法であって、
前記少なくとも1つのプロセッサが、入力されたオーディオストリームに対する話者ダイアライゼーションを実行する段階、
前記少なくとも1つのプロセッサが、前記入力されたオーディオストリームに含まれた音声を認識してテキストに変換する段階、
前記少なくとも1つのプロセッサが、前記変換されたテキストに基づいて話者変更を検出する段階、および
前記少なくとも1つのプロセッサが、前記検出された話者変更に基づいて前記話者ダイアライゼーションを補正する段階
を含み、
前記話者変更を検出する段階は、
発話区間ごとに音声認識結果の入力を受ける段階、
前記発話区間ごとの音声認識結果に含まれるテキストを単語単位のテキストにエンコードする段階、
対話文脈を考慮するように前記単語単位のテキストをエンコードする段階、および
前記対話文脈が考慮された単語単位のテキストごとに、前の単語単位のテキストと比べて話者変更があるかどうかを決定する段階
を含むことを特徴とする
、話者ダイアライゼーション補正方法。
【請求項4】
前記発話区間ごとの音声認識結果は、EPD(End Point Detection)単位の音声認識結果を含むことを特徴とする、請求
項3に記載の話者ダイアライゼーション補正方法。
【請求項5】
前記単語単位のテキストにエンコードする段階は、
前記発話区間ごとの音声認識結果が含むEPD単位のテキストを、sBERT(sentence Bidirectional Encoder Representations from Transformers)を利用して単語単位のテキストにエンコードすることを特徴とする、請求項3に記載の話者ダイアライゼーション補正方法。
【請求項6】
前記対話文脈を考慮するようにエンコードする段階は、
前記単語単位のテキストを、dBERT(dialog Bidirectional Encoder Representations from Transformers)を利用して対話文脈を考慮するようにエンコードすることを特徴とする、請求項3に記載の話者ダイアライゼーション補正方法。
【請求項7】
前記補正する段階は、
前記単語単位のテキストごとの話者変更の有無により、前記単語単位で前記話者ダイアライゼーションを補正することを特徴とする、請求項3に記載の話者ダイアライゼーション補正方法。
【請求項8】
請求項1
または2に記載の方法をコンピュータ装置に実行させるためのコンピュータプログラム。
【請求項9】
請求項3~7のうちいずれか一項に記載の方法をコンピュータ装置に実行させるためのコンピュータプログラム。
【請求項10】
コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサが、
入力されたオーディオストリームに対する話者ダイアライゼーションを実行し、
前記入力されたオーディオストリームに含まれた音声を認識してテキストに変換し、
前記変換されたテキストに基づいて話者変更を検出し、
前記検出された話者変更に基づいて前記話者ダイアライゼーションを補正し、
前記話者変更を検出するために、前記少なくとも1つのプロセッサが、
発話区間ごとに音声認識結果の入力を受けて単語単位の話者変更確率を出力するように学習されたモジュールを利用して、単語単位のテキストごとに話者変更の有無を認識すること
を特徴とする
、コンピュータ装置。
【請求項11】
コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサが、
入力されたオーディオストリームに対する話者ダイアライゼーションを実行し、
前記入力されたオーディオストリームに含まれた音声を認識してテキストに変換し、
前記変換されたテキストに基づいて話者変更を検出し、
前記検出された話者変更に基づいて前記話者ダイアライゼーションを補正し、
前記話者変更を検出するために、前記少なくとも1つのプロセッサが、
発話区間ごとに音声認識結果の入力を受け、
前記発話区間ごとの音声認識結果に含まれるテキストを単語単位のテキストにエンコードし、
対話文脈を考慮するように前記単語単位のテキストをエンコードし、
前記対話文脈が考慮された単語単位のテキストごとに、前の単語単位のテキストと比べて話者変更があるかどうかを決定すること
を特徴とする
、コンピュータ装置。
【発明の詳細な説明】
【技術分野】
【0001】
以下の説明は、テキストベースの話者変更検出を活用した話者ダイアライゼーション補正方法およびシステムに関する。
【背景技術】
【0002】
話者ダイアライゼーション(speaker diarisationまたはspeaker diarization)とは、入力オーディオストリームを話者識別子に基づいて同種のセグメントに分割するプロセスである。このような話者ダイアライゼーションは、オーディオストリームを話者ターンで構造化し、話者認識システムとともに使用するときに、話者の実際の識別子を提供することによって自動音声変換の可読性を高めることができる。オーディオストリームを話者ターンに構造化することは、各話者の音声を、そのオーディオストリームに含まれるダイアローグの順序に従って構造化することである。話者ダイアライゼーションのうちでも最も人気のあるものとして、ガウス混合モデルを利用して各話者をモデリングし、隠れマルコフモデル(Hidden Markov Model)のサポートによって各話者に該当するフレームを割り当てる方法がある。
【0003】
しかしながら、従来技術では、音声だけを使用して話者ダイアライゼーションを行うため多種多様なエラーが発生していた。一例として、話者変更があってはならない部分で話者変更が存在すると判断されるようなエラーがたびたび発生していた。
【先行技術文献】
【特許文献】
【0004】
【文献】韓国公開特許第10-2015-0093482号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
音声ベースの話者ダイアライゼーションの後、認識されたテキストに基づく話者変更検出によって話者変更誤りの地点を補正することができる、話者ダイアライゼーション補正方法およびシステムを提供する。
【課題を解決するための手段】
【0006】
少なくとも1つのプロセッサを含むコンピュータ装置の話者ダイアライゼーション補正方法であって、前記少なくとも1つのプロセッサが、入力されたオーディオストリームに対する話者ダイアライゼーションを実行する段階、前記少なくとも1つのプロセッサが、前記入力されたオーディオストリームに含まれた音声を認識してテキストに変換する段階、前記少なくとも1つのプロセッサが、前記変換されたテキストに基づいて話者変更を検出する段階、および前記少なくとも1つのプロセッサが、前記検出された話者変更に基づいて前記話者ダイアライゼーションを補正する段階を含む、話者ダイアライゼーション補正方法を提供する。
【0007】
一側によると、前記話者変更を検出する段階は、発話区間ごとに音声認識結果の入力を受けて単語単位の話者変更確率を出力するように学習されたモジュールを利用して、単語単位のテキストごとに話者変更の有無を認識することを特徴としてよい。
【0008】
他の側面によると、前記話者変更を検出する段階は、発話区間ごとに音声認識結果の入力を受ける段階、前記発話区間ごとの音声認識結果に含まれるテキストを単語単位のテキストにエンコードする段階、対話文脈を考慮するように前記単語単位のテキストをエンコードする段階、および前記対話文脈が考慮された単語単位のテキストごとに前の単語単位のテキストと比べ、話者変更があるかを決定する段階を含むことを特徴としてよい。
【0009】
また他の側面によると、前記発話区間ごとの音声認識結果は、EPD(End Point Detection)単位の音声認識結果を含むことを特徴としてよい。
【0010】
また他の側面によると、前記単語単位のテキストにエンコードする段階は、前記発話区間ごとの音声認識結果に含まれるEPD単位のテキストを、sBERT(sentence Bidirectional Encoder Representations from Transformers)を利用して単語単位のテキストにエンコードすることを特徴としてよい。
【0011】
また他の側面によると、前記対話文脈を考慮するようにエンコードする段階は、前記単語単位のテキストを、dBERT(dialog Bidirectional Encoder Representations from Transformers)を利用して対話文脈を考慮するようにエンコードすることを特徴としてよい。
【0012】
さらに他の側面によると、前記補正する段階は、前記単語単位のテキストごとの話者変更の有無にしたがい、前記単語単位で前記話者ダイアライゼーションを補正することを特徴としてよい。
【0013】
コンピュータ装置と結合して前記方法をコンピュータ装置に実行させるためにコンピュータ読み取り可能な記録媒体に記録された、コンピュータプログラムを提供する。
【0014】
前記方法をコンピュータ装置に実行させるためのプログラムが記録されている、コンピュータ読み取り可能な記録媒体を提供する。
【0015】
コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサが、入力されたオーディオストリームに対する話者ダイアライゼーションを実行し、前記入力されたオーディオストリームに含まれた音声を認識してテキストに変換し、前記変換されたテキストに基づいて話者変更を検出し、前記検出された話者変更に基づいて前記話者ダイアライゼーションを補正することを特徴とする、コンピュータ装置を提供する。
【発明の効果】
【0016】
音声ベースの話者ダイアライゼーションの後、認識されたテキストに基づく話者変更検出によって話者変更誤りの地点を補正することができる。
【図面の簡単な説明】
【0017】
【
図1】本発明の一実施形態における、ネットワーク環境の例を示した図である。
【
図2】本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。
【
図3】本発明の一実施形態における、話者ダイアライゼーション補正方法の例を示したフローチャートである。
【
図4】本発明の一実施形態における、話者ダイアライゼーション補正過程の例を示した図である。
【発明を実施するための形態】
【0018】
以下、実施形態について、添付の図面を参照しながら詳しく説明する。
【0019】
本発明の実施形態に係る話者ダイアライゼーション補正システムは、少なくとも1つのコンピュータ装置によって実現されてよく、本発明の実施形態に係る話者ダイアライゼーション補正方法は、話者ダイアライゼーション補正システムに含まれる少なくとも1つのコンピュータ装置によって実行されてよい。コンピュータ装置においては、本発明の一実施形態に係るコンピュータプログラムがインストールされて実行されてよく、コンピュータ装置は、実行されたコンピュータプログラムの制御にしたがって本発明の実施形態に係る話者ダイアライゼーション補正方法を実行してよい。上述したコンピュータプログラムは、コンピュータ装置と結合して話者ダイアライゼーション補正方法をコンピュータに実行させるためにコンピュータ読み取り可能な記録媒体に記録されてよい。
【0020】
図1は、本発明の一実施形態における、ネットワーク環境の例を示した図である。
図1のネットワーク環境は、複数の電子機器110、120、130、140、複数のサーバ150、160、およびネットワーク170を含む例を示している。このような
図1は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が
図1のように限定されることはない。また、
図1のネットワーク環境は、本実施形態に適用可能な環境の一例を説明するためのものに過ぎず、本実施形態に適用可能な環境が
図1のネットワーク環境に限定されることはない。
【0021】
複数の電子機器110、120、130、140は、コンピュータ装置によって実現される固定端末や移動端末であってよい。複数の電子機器110、120、130、140の例としては、スマートフォン、携帯電話、ナビゲーション、PC(personal computer)、ノート型PC、デジタル放送用端末、PDA(Personal Digital Assistant)、PMP(Portable Multimedia Player)、タブレットなどがある。一例として、
図1では、電子機器110の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器110は、実質的に無線または有線通信方式を利用し、ネットワーク170を介して他の電子機器120、130、140および/またはサーバ150、160と通信することのできる多様な物理的なコンピュータ装置のうちの1つを意味してよい。
【0022】
通信方式が限定されることはなく、ネットワーク170が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網、衛星網など)を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク170は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク170は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター-バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。
【0023】
サーバ150、160それぞれは、複数の電子機器110、120、130、140とネットワーク170を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する1つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ150は、ネットワーク170を介して接続した複数の電子機器110、120、130、140にサービス(一例として、コンテンツ提供サービス、グループ通話サービス(または、音声会議サービス)、メッセージングサービス、メールサービス、ソーシャルネットワークサービス、地図サービス、翻訳サービス、金融サービス、決済サービス、検索サービスなど)を提供するシステムであってよい。
【0024】
図2は、本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。上述した複数の電子機器110、120、130、140それぞれやサーバ150、160それぞれは、
図2に示したコンピュータ装置200によって実現されてよい。
【0025】
このようなコンピュータ装置200は、
図2に示すように、メモリ210、プロセッサ220、通信インタフェース230、および入力/出力インタフェース240を含んでよい。メモリ210は、コンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ROMやディスクドライブのような永続的大容量記録装置は、メモリ210とは区分される別の永続的記録装置としてコンピュータ装置200に含まれてもよい。また、メモリ210には、オペレーティングシステムと、少なくとも1つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ210とは別のコンピュータ読み取り可能な記録媒体からメモリ210にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD-ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース230を通じてメモリ210にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク170を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータ装置200のメモリ210にロードされてよい。
【0026】
プロセッサ210は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ210または通信インタフェース230によって、プロセッサ220に提供されてよい。例えば、プロセッサ220は、メモリ210のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。
【0027】
通信インタフェース230は、ネットワーク170を介してコンピュータ装置200が他の装置(例えば、上述した記録装置)と互いに通信するための機能を提供してよい。一例として、コンピュータシステム200のプロセッサ220がメモリ210のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース230の制御にしたがってネットワーク170を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク170を経てコンピュータ装置200の通信インタフェース230を通じてコンピュータ装置200に受信されてよい。通信インタフェース230を通じて受信された信号や命令、データなどは、プロセッサ220やメモリ210に伝達されてよく、ファイルなどは、コンピュータ装置200がさらに含むことのできる記録媒体(上述した永続的記録装置)に記録されてよい。
【0028】
入力/出力インタフェース240は、入力/出力装置250とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、またはマウスなどの装置を、出力装置は、ディスプレイ、スピーカのような装置を含んでよい。他の例として、入力/出力インタフェース240は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置250は、コンピュータ装置200と1つの装置で構成されてもよい。
【0029】
また、他の実施形態において、コンピュータ装置200は、
図2の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータ装置200は、上述した入力/出力装置250のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、データベースなどのような他の構成要素をさらに含んでもよい。
【0030】
図3は、本発明の一実施形態における、話者ダイアライゼーション補正方法の例を示したフローチャートである。本実施形態に係る話者ダイアライゼーション補正方法は、コンピュータ装置200によって実行されてよい。このとき、コンピュータ装置200のプロセッサ220は、メモリ210が含むオペレーティングシステムのコードと、少なくとも1つのコンピュータプログラムのコードとによる制御命令(instruction)を実行するように実現されてよい。ここで、プロセッサ220は、コンピュータ装置200に記録されたコードが提供する制御命令にしたがってコンピュータ装置200が
図3の方法に含まれる段階310~340を実行するようにコンピュータ装置200を制御してよい。
【0031】
段階310で、コンピュータ装置200は、入力されたオーディオストリームに対する話者ダイアライゼーションを実行してよい。上述したように、話者ダイアライゼーションとは、入力オーディオストリームを話者識別子に基づいて同種のセグメントに分割するプロセスであって、オーディオストリームを話者ターンで構造化し、話者認識システムとともに使用するときに、話者の実際の識別子を提供することによって自動音声変換の可読性を高めることのできる技術である。一例として、コンピュータ装置200は、ガウス混合モデルを用いて各話者をモデリングし、隠れマルコフモデル(Hidden Markov Model)のサポートによって各話者に該当するフレームを割り当ててよい。
【0032】
段階320で、コンピュータ装置200は、入力されたオーディオストリームに含まれた音声を認識してテキストに変換してよい。このとき、音声認識結果は、発話区間ごとに生成されてよい。一例として、発話区間ごとの音声認識結果は、EPD(End Point Detection)単位の音声認識結果を含んでよい。EPDは、オーディオストリームから音声のある領域だけを探索する技法であり、コンピュータ装置200は、このようなEPD単位で音声認識結果を生成してよい。このような音声認識結果は、テキスト形態であってよい。
【0033】
段階330で、コンピュータ装置200は、変換されたテキストに基づいて話者変更を検出してよい。一実施形態として、コンピュータ装置200は、発話区間ごとに音声認識結果の入力を受けて単語単位の話者変更確率を出力するように学習されたモジュールを利用して、単語単位のテキストごとに話者変更の有無を認識してよい。このようなモジュールはBERT(Bidirectional Encoder Representations from Transformers)で実現されてよいが、これに限定されることはない。BERTとは、自然語処理(Natural Language Processing:NLP)事前学習のためのトランスフォーマベースのマシンラーニング技術であって、教育を経ずに自然言語処理タスクを双方向で事前学習することができる。このようなBERTは、テキストを構成するtokenの文脈情報を反映した意味ベクトルを(contextual word embedding)学習することを目的とするが、原本テキストのtokenを任意に消し、transformerモデルが原本テキストを予測するようにBERTに対する学習が行われてよい。このようなBERT学習過程を先行(pre-training)する場合、個体名認識、品詞認識、意図認識、質疑回答などのような多様な自然語処理タスクの性能の向上を期待することができる。
【0034】
このとき、大容量のテキストデータを利用しながら、すべてのスペース(space)部分に対して句読点(ピリオド、疑問符、感嘆符など)である部分とそうでない部分を認識するようにBERTを学習する技術が存在する。本発明の実施形態では、BERTは、句読点の代わりに話者変更のある部分を認識するように学習してよい。より具体的な例として、コンピュータ装置200は、発話区間ごとに音声認識結果の入力を受けてよく、発話区間ごとの音声認識結果に含まれるテキストを単語単位のテキストにエンコードしてよい。このために、コンピュータ装置200は、発話区間ごとの音声認識結果に含まれるEPD単位のテキストを、sBERT(sentence-BERT)を利用して単語単位のテキストにエンコードしてよい。また、コンピュータ装置200は、単語単位のテキストがエンコードされた後、対話文脈を考慮するように単語単位のテキストをエンコードしてよい。一例として、コンピュータ装置200は、sBERTを利用してエンコードされた単語単位のテキストを、dBERT(dialog-BERT)を利用して対話文脈を考慮するように追加でエンコードしてよい。この後、コンピュータ装置200は、対話文脈が考慮された単語単位のテキストごとに、前の単語単位のテキストと比べて話者変更があるかどうかを決定してよい。このとき、sBERTおよびdBERTを含むBERTは、単語単位のテキストに対する話者変更確率を出力(一例として、話者変更時は「1」、話者維持時は「0」を出力)してよく、コンピュータ装置200は、このようなBERTの出力にしたがい、単語単位のテキストごとに話者変更の有無を決定してよい。
【0035】
段階340で、コンピュータ装置200は、検出された話者変更に基づいて話者ダイアライゼーションを補正してよい。例えば、段階310では音声に基づいて実行された話者ダイアライゼーションによって特定のEPD単位で話者が分割されたと判断されたが、段階330では該当のEPD単位と関連する単語に対して話者変更がないと判断された場合、コンピュータ装置200は、該当のEPD単位で話者が分割されないものとして話者ダイアライゼーションを補正してよい。このように、文脈が考慮されたテキストベースの話者変更の有無を話者ダイアライゼーションの補正に活用することにより、従来の話者ダイアライゼーション技術が抱えていた認識誤りの問題を解決することができる。
【0036】
図4は、本発明の一実施形態における、話者ダイアライゼーション補正過程の例を示した図である。
図4の実施形態では、話者1が「Good morning.I am Kil-dong Hong」と発話し、話者2が「Good morning」と発話した状況を仮定している。コンピュータ装置200は、オーディオストリーム410からEPD単位で音声を認識してよい。このとき、
図4のオーディオストリーム410は、認識されたEPD単位411、412、413、414を含んでいる。ここで、話者1が「I am」を発話した時点と話者2が「morning」を発話した時点がほぼ同じであり、EPD単位413には「話者1」が発話した「I am」と話者2が発話した「morning」の両方が含まれていると仮定する。この場合、音声だけを利用する話者ダイアライゼーションでは、EPD単位413の「I am morning」が1人の話者の発話として認識され得るという問題があった。
【0037】
コンピュータ装置200は、ASR(Automatic Speech Recognition)420を用いて、オーディオストリーム410からEPD単位411、412、413、414それぞれに対する音声を認識してよい。一例として、EPD単位411に対する音声認識結果は、話者1が発話した「good morning」を含んでよく、EPD単位412に対する音声認識結果は、話者2が発話した「good」を含んでよい。また、EPD単位413に対する音声認識結果は、話者1が発話した「I am」と話者2が発話した「morning」を含んでよく、EPD単位414に対する音声認識結果は、話者1が発話した「Kil-dong Hong」を含んでよい。
【0038】
このとき、コンピュータ装置200は、sBERT(sentence-BERT)430を用いて、EPD単位411、412、413、414それぞれに対する音声認識結果を単語単位のテキストにエンコードしてよい。言い換えれば、第1EPD単位411に対する音声認識結果は、単語単位のテキスト「good」および「morning」にエンコードされてよく、第2EPD単位412に対する音声認識結果は「good」に、第3EPD単位413に対する音声認識結果は「I」、「am」、および「morning」に、第4EPD単位414に対する音声認識結果は「Kil-dong」および「Hong」にそれぞれエンコードされてよい。より詳しく説明すると、コンピュータ装置200は、sBERT430を利用して、EPD単位のテキストを単語単位のテキストにエンコードしてよい。ここで、認識される単語のシーケンスは、{good、morning、good、I、am、morning、Kil-dong、Hong}であると仮定する。
【0039】
この後、コンピュータ装置200は、dBERT440を用いて、単語単位のテキストが対話文脈を考慮するように単語単位のテキストをエンコードしてよい。ここで、文脈を考慮するということは、少なくとも1つの前の単語単位のテキスト、および/または少なくとも1つの後ろの単語単位のテキストとともに考慮するということを意味してよい。例えば、単語単位のテキスト「I」の後ろに「am」が登場することは文脈的に適切であると決定される反面、「I」の前に「good」が登場したり「I」の後ろに「morning」が登場したりすることは、文脈的に不適であると決定されてよい。
【0040】
このとき、コンピュータ装置200は、このような対話文脈が考慮された単語単位のテキストごとに、前の単語単位のテキストと比べて話者変更があるかどうかを決定してよい。例えば、コンピュータ装置200は、認識された単語のシーケンス{good、morning、good、I、am、morning、Kil-dong、Hong}において、2つ目の「good」の前単語である「morning」に対する文脈により、話者が変更したことを認識してよい。さらに、コンピュータ装置200は、「I」の前単語である「good」に対する文脈により、話者が変更したことを認識してよい。このように、コンピュータ装置200は、テキストに基づいた話者認識を利用して、オーディオストリーム410に対する話者ダイアライゼーションを補正してよい。言い換えれば、オーディオストリーム410に対する話者ダイアライゼーションによって話者が変更されたとしても、テキストに基づく話者認識によって高い信頼度で話者が維持される場合には、話者が維持されていることによってオーディオストリーム410に対する話者ダイアライゼーションを補正することができる。これとは逆に、オーディオストリーム410に対する話者ダイアライゼーションによって話者が維持されたとしても、テキストに基づく話者認識によって高い信頼度で話者が変更された場合には、話者が変更されたことによってオーディオストリーム410に対する話者ダイアライゼーションを補正することができる。
【0041】
このために、コンピュータ装置200は、対話文脈が考慮された単語単位のテキストごとに、前の単語単位のテキストと比べて話者変更があるかどうかを決定するにあたり、その信頼度を計算してよく、計算された信頼度と閾値(一例として、話者変更のための第1閾値および/または話者維持のための第2閾値)を比べ、テキストに基づいた話者認識をオーディオストリーム410に対する話者ダイアライゼーションに反映するかどうかを決定してよい。このとき、信頼度を計算する方法としては周知の方法が使用されてよく、第1閾値および/または第2閾値は、信頼度を計算する方法によって予め設定されてよい。
【0042】
このように、本発明の実施形態によると、音声ベースの話者ダイアライゼーションの後、認識されたテキストによる話者変更検出によって話者変更誤りの地点を補正することができる。
【0043】
上述したシステムまたは装置は、ハードウェア構成要素、またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
【0044】
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。
【0045】
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。前記コンピュータ読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独または組み合わせて含んでよい。媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。プログラム命令の例としては、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。
【0046】
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
【0047】
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
【符号の説明】
【0048】
110、120、130、140:電子機器
150、160:サーバ
170:ネットワーク