(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2025-02-27
(45)【発行日】2025-03-07
(54)【発明の名称】情報処理装置、情報処理方法、及び情報処理プログラム
(51)【国際特許分類】
G10L 15/00 20130101AFI20250228BHJP
G10L 15/22 20060101ALI20250228BHJP
【FI】
G10L15/00 200B
G10L15/22 453
(21)【出願番号】P 2024174336
(22)【出願日】2024-10-03
【審査請求日】2024-10-03
【早期審査対象出願】
(73)【特許権者】
【識別番号】519110124
【氏名又は名称】PayPay株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】東海林 勝進
(72)【発明者】
【氏名】ジョウ ジャクヒン
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2007-133033(JP,A)
【文献】特開2024-115929(JP,A)
【文献】特開2005-228178(JP,A)
【文献】特開2016-62069(JP,A)
【文献】特開2012-247668(JP,A)
【文献】特開2022-111977(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
(57)【特許請求の範囲】
【請求項1】
コミュニケーションツールにおける会話内容をリアルタイムに書き起こした情報である第1テキスト
、及び所定の音声認識ツールを用いて前記会話内容の録音データを事後的に書き起こした情報である第2テキスト
において同一の内容が記載された文章をそれぞれ特定し、特定した文章の各々に対して前記コミュニケーションツールにおいてリアルタイムに会話内容の書き起こしを行う際に発話者が実際に発話した発話時刻として対応付けられた時刻表記と、前記音声認識ツールにおいて事後的に会話内容の書き起こしを行う際に処理開始から発話者の発話時刻として機械的に対応付けられた時刻表記の差から、前記コミュニケーションツールにおける処理タイミングと前記音声認識ツールにおける処理タイミングの差である時刻情報のずれを検出する検出部と、
前記時刻情報のずれに基づいて時間的に同期された前記第1テキストおよび前記第2テキストを用いて、情報が補完された前記会話内容を示す書き起こしコンテンツを生成する生成部と
を有することを特徴とする情報処理装置。
【請求項2】
前記検出部は、
入力データに基づいてコンテンツを自動的に生成するように学習が行われた学習済みモデルに対して、前記第1テキストと、前記第2テキストと、前記第1テキスト
および前記第2テキスト
において同一の内容が記載された文章をそれぞれ特定し、特定した文章の各々に対して前記コミュニケーションツールにおける処理時刻として対応付けられた時刻表記と、前記音声認識ツールによる処理時刻として対応付けられた時刻表記の差から、前記時刻情報のずれを検出するように指示する第1指示情報とを入力することにより、前記学習済みモデルから出力される前記時刻情報のずれを取得する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記検出部は、
前記第1指示情報において、前記時刻表記の差のうち、他の時刻表記の差と比較して相対的に乖離しているデータを除外して、前記時刻情報のずれを検出するように指示する
ことを特徴とする請求項
2に記載の情報処理装置。
【請求項4】
前記生成部は、
入力データに基づいてコンテンツを自動的に生成するように学習が行われた学習済みモデルに対して、時間的に同期された前記第1テキストおよび前記第2テキストと、前記第1テキストに含まれる発話者の情報、及び前記第2テキストに含まれる文章の情報を用いて前記会話内容を相互補完するように指示する指示情報とを入力することにより、前記学習済みモデルから出力される前記会話内容を前記書き起こしコンテンツとして取得する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項5】
コンピュータにより実行される情報処理方法であって、
コミュニケーションツールにおける会話内容をリアルタイムに書き起こした情報である第1テキスト
、及び所定の音声認識ツールを用いて前記会話内容の録音データを事後的に書き起こした情報である第2テキスト
において同一の内容が記載された文章をそれぞれ特定し、特定した文章の各々に対して前記コミュニケーションツールにおいてリアルタイムに会話内容の書き起こしを行う際に発話者が実際に発話した発話時刻として対応付けられた時刻表記と、前記音声認識ツールにおいて事後的に会話内容の書き起こしを行う際に処理開始から発話者の発話時刻として機械的に対応付けられた時刻表記の差から、前記コミュニケーションツールにおける処理タイミングと前記音声認識ツールにおける処理タイミングの差である時刻情報のずれを検出する検出工程と、
前記時刻情報のずれに基づいて時間的に同期された前記第1テキストおよび前記第2テキストを用いて、情報が補完された前記会話内容を示す書き起こしコンテンツを生成する生成工程と
を含むことを特徴とする情報処理方法。
【請求項6】
コンピュータに、
コミュニケーションツールにおける会話内容をリアルタイムに書き起こした情報である第1テキスト
、及び所定の音声認識ツールを用いて前記会話内容の録音データを事後的に書き起こした情報である第2テキスト
において同一の内容が記載された文章をそれぞれ特定し、特定した文章の各々に対して前記コミュニケーションツールにおいてリアルタイムに会話内容の書き起こしを行う際に発話者が実際に発話した発話時刻として対応付けられた時刻表記と、前記音声認識ツールにおいて事後的に会話内容の書き起こしを行う際に処理開始から発話者の発話時刻として機械的に対応付けられた時刻表記の差から、前記コミュニケーションツールにおける処理タイミングと前記音声認識ツールにおける処理タイミングの差である時刻情報のずれを検出する検出手順と、
前記時刻情報のずれに基づいて時間的に同期された前記第1テキストおよび前記第2テキストを用いて、情報が補完された前記会話内容を示す書き起こしコンテンツを生成する生成手順と
を実行させることを特徴とする情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。
【背景技術】
【0002】
従来、音声データの書き起こしを行う技術が提案されている。このような技術に関連して、たとえば、音声データのうち書き起こしが完了した位置を特定可能な書き起こし支援システムなどが提案されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記の従来技術には、書き起こしの精度の向上を図る上で改善の余地が残されている。
【0005】
本願は、上記に鑑みてなされたものであって、書き起こしの精度の向上を図ることができる情報処理装置、情報処理方法、及び情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本願に係る情報処理装置は、検出部と、生成部とを有する。検出部は、コミュニケーションツールにおける会話内容をリアルタイムに書き起こした情報である第1テキストと、所定の音声認識ツールを用いて会話内容の録音データを事後的に書き起こした情報である第2テキストとの間の時刻情報のずれを検出する。生成部は、時刻情報のずれに基づいて時間的に同期された第1テキストおよび第2テキストを用いて、情報が補完された会話内容を示す書き起こしコンテンツを生成する。
【発明の効果】
【0007】
実施形態の一態様によれば、書き起こしの精度の向上を図ることができるという効果を奏する。
【図面の簡単な説明】
【0008】
【
図1】
図1は、実施形態に係る情報処理の概要を説明するための図である。
【
図2】
図2は、実施形態に係る時間情報のずれの検出方法の概要を説明するための図である。
【
図3】
図3は、実施形態に係る書き起こし文の一例を説明するための図である。
【
図4】
図4は、実施形態に係る第1指示情報の一例を説明するための図である。
【
図5】
図5は、実施形態に係る学習済みモデルの出力結果の一例を示す図である。
【
図6】
図6は、実施形態に係る書き起こしコンテンツの生成方法の概要を説明するための図である。
【
図7】
図7は、実施形態に係る第2指示情報の一例を説明するための図である。
【
図8】
図8は、実施形態に係る学習済みモデルの出力結果の一例を示す図である。
【
図9】
図9は、実施形態に係る情報処理システムの構成例を示す図である。
【
図10】
図10は、実施形態に係る情報処理装置の構成例を示す図である。
【
図11】
図11は、実施形態に係る会議情報記憶部に記憶される情報の概要を示す図である。
【
図12】
図12は、実施形態に係る情報処理装置により実行される情報処理の処理手順の一例を示すフローチャートである。
【
図13】
図13は、実施形態または変形例に係る情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0009】
以下に本願に係る情報処理装置、情報処理方法、及び情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により情報処理装置、情報処理方法、及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0010】
〔実施形態〕
(1.情報処理の概要)
以下、図面を参照しつつ、実施形態に係る情報処理の概要を説明する。
図1は、実施形態に係る情報処理の概要を説明するための図である。以下に説明する情報処理は、たとえば、オンライン会議システム(「コミュニケーションツール」の一例)においてやり取りされる会話内容を書き起こした書き起こし文の書き起こしの精度の向上を図ることを目的とする。
【0011】
図1に示すように、実施形態に係る情報処理は、
図1に示す端末装置10、及び
図1に示す情報処理装置100を含む情報処理システムSYS(たとえば、
図9参照)により実現される。端末装置10及び情報処理装置100は、それぞれ、有線または無線により、ネットワークN(たとえば、
図9参照)に接続される。端末装置10、及び情報処理装置100は、ネットワークNを通じて、他の装置と通信できる。
【0012】
たとえば、オペレータUは、第1テキスト情報TX1-1(
図3など参照)、及び第2テキスト情報TX2-1(
図3など参照)を取得し、第1指示情報PRO-1(
図4など参照)を作成する。たとえば、端末装置10は、オペレータUの操作に従って、第1テキスト情報TX1-1、第2テキスト情報TX2-1、及び第1指示情報PRO-1を情報処理装置100に送信する(ステップS1)。
【0013】
第1テキスト情報TX1-1は、たとえば、コミュニケーションツールに搭載された書き起こし機能を用いて、コミュニケーションツールを通じて行われた会話内容をリアルタイムに書き起こした情報である。第2テキスト情報TX2-1は、所定の音声認識モデルを用いて会話内容の録音データを事後的に書き起こした情報である。第1指示情報PRO-1は、第1テキスト情報TX1-1に含まれている時刻情報と第2テキスト情報TX2-1に含まれている時刻情報との間のずれを検出させるための指示情報である。
【0014】
情報処理装置100は、端末装置10から第1テキスト情報TX1-1、第2テキスト情報TX2-1、及び第1指示情報PRO-1を受信すると、第1指示情報PRO-1に従って、第1テキスト情報TX1-1に含まれている時刻情報と、第2テキスト情報TX2-1に含まれている時刻情報との間のずれを検出する(ステップS2)。以下、
図2を用いて、実施形態に係る時刻情報のずれの検出方法の概要を説明する。
【0015】
図2に示すように、情報処理装置100は、入力データに基づいてコンテンツを自動的に生成するように学習が行われた学習済みモデルMdに対して、第1テキスト情報TX1-1と、第2テキスト情報TX2-1と、第1テキスト情報TX1-1に含まれている時刻表記と第2テキスト情報TX2-1に含まれている時刻表記との間のずれを検出するように指示する第1指示情報PRO-1とを入力することにより、学習済みモデルMdから出力される出力結果である時刻情報のずれOut-1を取得する。
【0016】
情報処理装置100は、学習済みモデルMdとして、たとえば、生成AI(Artificial Intelligence)を用いることができる。情報処理装置100は、生成AIとして、たとえば、自然言語処理の技術により文章生成が可能な言語モデルであるテキスト生成AIを用いることができる。以下、
図3を用いて、実施形態に係る書き起こし文の一例を説明する。
【0017】
図3に示すように、第1テキスト情報TX1-1および第2テキスト情報TX2-1は、同様のフォーマットで構成されている。たとえば、第1テキスト情報TX1-1および第2テキスト情報TX2-1は、会議における発話者を示す発話者情報J-1と、発話者情報J-1に隣接して表示される発話時刻情報J-2と、発話者情報J-1および発話時刻情報J-2の直下に表示される発話内容を示す発話内容情報J-3とを含んでいる。
【0018】
第1テキスト情報TX1-1と、第2テキスト情報TX2-1とは、互いに異なる特徴を有している。たとえば、第1テキスト情報TX1-1は、発話者の情報を含む一方で、会話内容の再現性が高くないという特徴を有する。また、第2テキスト情報TX2-1は、会話内容の再現性が高いが、発話者の情報を含んでいないという特徴を有する。
【0019】
また、第1テキスト情報TX1-1および第2テキスト情報TX2-1は、各々が異なるタイミングで処理された情報であるので、第1テキスト情報TX1-1と第2テキスト情報TX2-1との間に時刻情報のずれがある。そこで、情報処理装置100は、学習済みモデルMdに対して第1指示情報PRO-1を入力することにより、第1テキスト情報TX1-1に含まれている時刻情報と、第2テキスト情報TX2-1に含まれている時刻情報との間のずれを検出させる。以下、
図4を用いて、実施形態に係る第1指示情報PRO-1の一例を説明する。
【0020】
端末装置10のオペレータUは、学習済みモデルMdによる出力結果の精度を考慮し、たとえば、学習済みモデルMdが最終的な結論に至るまでの推論過程を出力させるための指示を交えた設計手法(「Chain of thought Prompting」とも称される。)を用いて、第1指示情報PRO-1を作成できる。
【0021】
たとえば、オペレータUは、
図4に示す第1指示情報PRO-1により、第1テキスト情報TX1-1および第2テキスト情報TX2-1において同一の内容が記載された所定数(たとえば、4セット)の文章をそれぞれ特定し、特定した文章の各々に対応付けられた時刻表記の差から、時刻情報のずれを検出することを、学習済みモデルMdに指示できる。
【0022】
また、たとえば、オペレータUは、学習済みモデルMdに対する指示として、発話者の特定が難しい挨拶などは使わないように挨拶よりも長い発話から会話内容を判定させることや、時刻表記の差のうち、他の時刻表記の差と比較して相対的に乖離しているデータを除外して、時刻情報のずれを検出することや、判断基準が曖昧とならないように判定に使ったフレーズを明示させることなどを第1指示情報PRO-1に盛り込むことができる。
【0023】
また、たとえば、オペレータUは、学習済みモデルMdに対する指示として、推定した時刻表記のずれを出力する際の形式(たとえば、第1テキスト情報TX1-1を基準として第2テキスト情報TX2-1の時刻が大きい場合をプラス、小さい場合をマイナスの整数秒とすることなど)を第1指示情報PRO-1に盛り込むことができる。
【0024】
以下、
図5を用いて、実施形態に係る学習済みモデルの出力結果の一例を説明する。学習済みモデルMdの出力結果である時刻情報のずれOut-1には、
図5に示すように、時刻情報のずれが含まれている。また、時刻情報のずれOut-1には、学習済みモデルMdの出力結果として、時刻表記のずれから推定される時刻情報のずれを示す情報に加えて、時刻情報のずれを導出するに至るまでの学習済みモデルMdの推論過程が算出手順として含まれている。
【0025】
図1に戻り、情報処理装置100は、学習済みモデルMdから取得した時刻情報のずれOut-1に関する情報を端末装置10に送信することにより、オペレータUに提供する(ステップS3)。
【0026】
端末装置10は、情報処理装置100から受信した時刻情報のずれを表示する。オペレータUは、情報処理装置100から取得した時刻情報のずれに基づいて、第1テキスト情報TX1-1と第2テキスト情報TX2-1とを同期させることにより、第1テキスト情報TX1-2および第2テキスト情報TX2-2を作成する。また、オペレータUは、第2指示情報PRO-2を作成する。端末装置10は、オペレータUの操作に従って、時刻情報のずれに基づいて時間的に同期された第1テキスト情報TX1-2および第2テキスト情報TX2-2とともに、第2指示情報PRO-2を情報処理装置100に送信する(ステップS4)。
【0027】
情報処理装置100は、端末装置10から、第1テキスト情報TX1-2、第2テキスト情報TX2-2、及び第2指示情報PRO-2を受信すると、時間的に同期された第1テキスト情報TX1-2および第2テキスト情報TX2-2を用いて、情報が補完された会話内容を示す書き起こしコンテンツを生成する(ステップS5)。以下、
図6を用いて、実施形態に係る書き起こしコンテンツの生成方法の概要を説明する。
【0028】
図6に示すように、情報処理装置100は、学習済みモデルMdに対して、時間的に同期された第1テキスト情報TX1-2および第2テキスト情報TX2-2と、第1テキスト情報TX1-2に含まれる発話者の情報、及び第2テキスト情報TX2-2に含まれる文章の情報を用いて、会話内容を相互補完するように指示する第2指示情報PRO-2とを入力することにより、学習済みモデルMdから出力される書き起こしコンテンツOut-2を取得する。以下、
図7を用いて、実施形態に係る第2指示情報PRO-2の一例を説明する。
【0029】
端末装置10のオペレータUは、第1テキスト情報TX1-2には発話者の情報が含まれているが、発話内容を示す文章の精度があまり高くない点や、第2テキスト情報TX2-2は発話内容を示す文章の精度は高いが、発話者の情報が含まれていない点を、学習済みモデルMdが最終的な結論に至るまでの推論のヒントとして盛り込んだ第2指示情報PRO-2を作成できる。
【0030】
また、たとえば、オペレータUは、学習済みモデルMdに対する指示として、書き起こしコンテンツを出力する際の形式を、第1テキスト情報TX1-2と同一の形式にしてほしい旨を第2指示情報PRO-2に盛り込むことができる。
【0031】
以下、
図8を用いて、実施形態に係る学習済みモデルの出力結果の一例を説明する。学習済みモデルMdから出力される補完後の書き起こしコンテンツOut-2は、
図8に示すように、第1テキスト情報TX1-2に含まれている発話者の情報と、第2テキスト情報TX2-2に含まれている発話内容を示す文章の情報とが相互に補完されている。
【0032】
図1に戻り、情報処理装置100は、学習済みモデルMdの出力結果として取得した補完後の書き起こしコンテンツOut-2の情報を端末装置10に送信することにより、オペレータUに提供する(ステップS6)。
【0033】
オペレータUは、情報処理装置100により生成された書き起こしコンテンツOut-2を参照することにより、会議システムを通じて実施された会議内容をより正確に振り返ることができる。
【0034】
上述してきたように、実施形態に係る情報処理装置100は、オンライン会議中にリアルタイムで実行された会話内容の書き起こし情報、及び所定の音声認識モデルを用いて会話内容の録音データを事後的に書き起こした書き起こし情報の各々特徴が異なる2つの書き起こし情報を時間的に同期させた後、時間的に同期させた各書き起こし情報を用いて、会話内容を相互補完した書き起こしコンテンツを生成できる。これにより、実施形態に係る情報処理装置100は、書き起こしの精度の向上を図ることができる。
【0035】
(2.システム構成)
以下、図面を参照しつつ、実施形態に係る情報処理システムSYSの構成について説明する。
図9は、実施形態に係る情報処理システムの構成例を示す図である。
【0036】
図9に示すように、実施形態に係る情報処理システムSYSは、端末装置10と、情報処理装置100とを含んで構成される。なお、
図9に示す情報処理システムSYSの構成は一例であり、たとえば、オンライン会議の処理を実行するオンライン会議サーバなど、
図1に例示される以外の他の装置が含まれていてもよい。
【0037】
端末装置10、及び情報処理装置100は、有線または無線によりネットワークNに接続される。端末装置10、及び情報処理装置100は、ネットワークNを介して、他の装置との間で相互に通信できる。
【0038】
ネットワークNは、たとえば、インターネットなどのWAN(Wide Area Network)や、LTE(Long Term Evolution)、4G(4th Generation)、及び5G(5th Generation:第5世代移動通信システム)などの移動体通信網などを含む。
【0039】
端末装置10は、移動体通信網や、Bluetooth(登録商標)や、無線LAN(Local Area Network)などの近距離無線通信によりネットワークNに接続し、ネットワークNを通じて、情報処理装置100などの他の装置と通信できる。
【0040】
また、端末装置10は、情報処理装置100から提供される書き起こしコンテンツを利用するオペレータUにより使用される。
【0041】
また、端末装置10は、たとえば、ノートPC(Personal Computer)、デスクトップPC、スマートフォン、タブレットPC、又はウェアラブルデバイスなどである。ウェアラブルデバイスとして、スマートグラスやスマートウォッチなどが例示されるが、かかる例には限られない。
【0042】
オペレータUは、端末装置10に予めインストールされているオンライン会議用のアプリケーションプログラム(以下、「会議用アプリ」と称する。)やウェブブラウザなどを通じてオンライン会議サーバにアクセスし、オンライン会議を行うことができる。また、オペレータUは、オンライン会議において、会議用アプリに搭載されている書き起こし機能を利用し、会話内容をリアルタイムに書き起こした書き起こし文を、会議用アプリの画面上に文字情報として表示させることができる。このとき、端末装置10は、書き起こし文に対応するテキスト情報(たとえば、
図1~
図3の第1テキスト情報TX1-1)を内部的に保存できる。
【0043】
また、端末装置10は、オペレータUの指示に従い、所定の音声認識モデルを用いてオンライン会議の音声データを事後的に書き起こした情報である第2テキスト情報TX2-1を生成し、内部的に保存できる。所定の音声認識モデルは、少なくとも会議用アプリに搭載されている書き起こし機能とは異なるアルゴリズムにより、音声データから会話内容の書き起こし文を生成することができるモデルであればよい。
【0044】
また、端末装置10は、たとえば、情報処理装置100から提供されるウェブコンテンツをウェブブラウザなどにより表示できる。なお、端末装置10は、情報の表示処理を実現する制御情報を情報処理装置100から受け取った場合には、制御情報に従って表示処理を実現する。
【0045】
制御情報は、たとえば、JavaScript(登録商標)などのスクリプト言語や、CSS(Cascading Style Sheets)などのスタイルシート言語や、Java(登録商標)などのプログラミング言語や、HTML(HyperText Markup Language)などのマークアップ言語などにより記述される。なお、情報処理装置100などから配信される所定のアプリケーションそのものを制御情報とみなしてもよい。
【0046】
情報処理装置100は、以下に説明する実施形態に係る情報処理を実行する。情報処理装置100がサーバ装置で構成される場合、単独のサーバ装置により実現されてもよいし、複数のサーバ装置および複数のストレージ装置が協働して動作するクラウドシステムなどにより実現されてもよい。情報処理装置100は、本願に係る情報処理方法を実現する情報処理装置の一例である。
【0047】
(3.情報処理装置100の構成)
以下、
図10を用いて、実施形態に係る情報処理装置100の機能構成の一例を説明する。
図10は、実施形態に係る情報処理装置100の構成例を示す図である。
図10に示すように、実施形態に係る情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。
【0048】
(通信部110)
通信部110は、たとえば、通信モジュールやNIC(Network Interface Card)などによって実現される。そして、通信部110は、ネットワークNと有線または無線で接続され、端末装置10などの他の装置との間で情報の送受信を行う。
【0049】
(記憶部120)
記憶部120は、たとえば、制御部130による制御および演算に用いられるプログラムおよびデータを記憶する。記憶部120は、たとえば、RAM(Random Access Memory)やフラッシュメモリ(Flash Memory)などの半導体メモリ素子、または、ハードディスクや光ディスクなどの記憶装置によって実現される。
図10に示すように、記憶部120は、会議情報記憶部121と、モデル情報記憶部122とを有する。
【0050】
(会議情報記憶部121)
会議情報記憶部121は、オンライン会議の会話内容に関する情報を記憶する。会議情報記憶部121に記憶される情報は、たとえば、会議用アプリに搭載されている書き起こし機能を利用し、会話内容をリアルタイムに書き起こした書き起こし文に対応するテキスト情報を含む。
図11は、実施形態に係る会議情報記憶部121に記憶される情報の概要を示す図である。
【0051】
図11に示すように、会議情報記憶部121に記憶される情報は、「会議ID」の項目と、「記録日時」の項目と、「録音情報」の項目と、「書き起こし情報」の項目とを有している。会話情報が有するこれらの項目は相互に対応付けられている。
【0052】
「会議ID」の項目には、記録されるオンライン会議のデータを特定するためにオンライン会議のデータごとに一意に付与される識別情報が記憶される。「記録日時」の項目には、オンライン会議のデータが記憶された日時を示す情報が記憶される。「録音情報」の項目には、オンライン会議の様子を録音した録音データが記憶される。「書き起こし情報」の項目には、オンライン会議中にリアルタイムで実行された会話内容の書き起こしデータが記憶される。
【0053】
たとえば、オンライン会議の録音情報は、所定の音声認識ツールを用いて会話内容の録音データを事後的に書き起こした情報である第2テキスト情報TX2-1などを生成する場合に用いられる。
【0054】
会議情報記憶部121に記憶される情報は、たとえば、オンライン会議を実施するオペレータUの操作に従って保存されてもよいし、オンライン会議における設定内容に従って自動的に保存されてもよい。
【0055】
(モデル情報記憶部122)
モデル情報記憶部122は、実施形態に係る情報処理を実行するモデルに関する情報が記憶される。モデル情報記憶部122に記憶されるモデルに関する情報には、入力されるデータなどに基づいて、各種コンテンツを生成するように学習が行われた生成AIであって、オンライン会議の音声データから会話内容を書き起こした書き起こし文の時刻情報のずれを検出したり、書き起こし文の内容を補完したりする生成AIなどの情報が記憶される。
【0056】
なお、モデル情報記憶部122は、会話内容の録音データを事後的に書き起こした情報である第2テキスト情報TX2-1を生成する所定の音声認識モデルに関する情報を記憶してもよい。
【0057】
生成AIは、たとえば、GPT(Generative Pre-trained Transformer)などのAI(Artificial Intelligence)により実現される。GPTは、自然言語処理の技術により文章生成が可能な言語モデルである。
【0058】
(制御部130)
制御部130は、コントローラ(controller)であり、たとえば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などによって、情報処理装置100内部の記憶装置に記憶されている各種プログラム(実施形態に係る「情報処理プログラム」の一例)がRAMを作業領域として実行されることにより実現される。
【0059】
また、制御部130は、たとえば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)、GPGPU(General Purpose Graphic Processing Unit)などの集積回路により実現され得る。
【0060】
図3に示すように、制御部130は、検出部131と、生成部132とを有し、これらの各部により、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130には、情報処理装置100が実行する各種処理の拡張などに応じて、
図10に示す各部とは異なる新たな機能部が導入されてもよい。
【0061】
(検出部131)
検出部131は、たとえば、オンライン会議システム(「コミュニケーションツール」の一例)においてやり取りされる会話内容をリアルタイムに書き起こした情報である第1テキスト情報TX1-1(たとえば、
図1~
図3など参照)と、所定の音声認識ツールを用いて会話内容の録音データを事後的に書き起こした情報である第2テキスト情報TX2-1(たとえば、
図1~
図3など参照)との間の時刻情報のずれを検出する。
【0062】
具体的には、検出部131は、入力データに基づいてコンテンツを自動的に生成するように学習が行われた学習済みモデルMdである生成AIに対して、第1テキスト情報TX1-1と、第2テキスト情報TX2-1と、第1テキスト情報TX1-1に含まれている時刻表記と第2テキスト情報TX2-1に含まれている時刻表記との間のずれを検出するように指示する第1指示情報PRO-1とを入力することにより、生成AIから出力される時刻情報のずれを取得する。
【0063】
また、検出部131は、第1指示情報PRO-1において、第1テキスト情報TX1-1および第2テキスト情報TX2-1において同一の内容が記載された所定数の文章をそれぞれ特定し、特定した文章の各々に対応付けられた時刻表記の差から、時刻情報のずれを検出するように指示できる。
【0064】
また、検出部131は、第1指示情報PRO-1において、時刻表記の差のうち、他の時刻表記の差と比較して相対的に乖離しているデータを除外して、時刻情報のずれを検出するように指示できる。
【0065】
(生成部132)
生成部132は、時刻情報のずれに基づいて時間的に同期された第1テキスト情報TX1-2および第2テキスト情報TX2-2(たとえば、
図6など参照)を用いて、情報が補完された会話内容を示す書き起こしコンテンツを生成する。
【0066】
具体的には、生成部132は、入力データに基づいてコンテンツを自動的に生成するように学習が行われた学習済みモデルMdである生成AIに対して、時間的に同期された第1テキスト情報TX1-2および第2テキスト情報TX2-2と、第1テキスト情報TX1-2に含まれる発話者の情報、及び第2テキスト情報TX2-2に含まれる文章の情報を用いて会話内容を相互補完するように指示する第2指示情報PRO-2とを入力することにより、生成AIから出力される会話内容を書き起こしコンテンツとして取得する。
【0067】
なお、生成部132は、所定の音声認識ツールを用いて会話内容の録音データを事後的に書き起こした情報である第2テキスト情報TX2-1などを生成してもよい。この場合、生成部132は、オペレータUから処理対象となる会議の情報を特定するための情報を受け付けて、受け付けた情報を用いて、第2テキスト情報TX2-1の元となる録音データを会議情報記憶部121から取得して、処理を実行する。
【0068】
(4.処理手順例)
以下、
図12を用いて、実施形態に係る情報処理装置100により実行される情報処理の流れについて説明する。
図12は、実施形態に係る情報処理装置100により実行される情報処理の処理手順の一例を示すフローチャートである。なお、
図12に示す処理手順は、情報処理装置100が有する制御部130により実行される。制御部130は、情報処理装置100の稼働中、
図12に示す処理手順を繰り返し実行する。
【0069】
図12に示すように、検出部131は、第1テキスト(たとえば、第1テキスト情報TX1-1)と、所定の音声認識ツールを用いて会話内容の録音データを事後的に書き起こした情報である第2テキスト(たとえば、第2テキスト情報TX2-1)との間の時刻情報のずれを検出する(ステップS101)。
【0070】
生成部132は、時刻情報のずれに基づいて時間的に同期された第1テキストおよび第2テキストを用いて、情報が補完あれた会話内容を示す書き起こしコンテンツを生成する(ステップS102)。
【0071】
また、生成部132は、生成した書き起こしコンテンツを、通信部を通じて端末装置10に送信することにより、オペレータUに提供して(ステップS103)、
図12に示す処理手順を終了する。
【0072】
(5.変形例)
(5-1.校正の指示について)
上述の実施形態において、情報処理装置100は、第2指示情報PRO-2として、句読点の挿入や位置、言葉遣い、及び漢字の誤りの訂正などを盛り込んでもよい。
【0073】
(5-2.処理対象について)
上述の実施形態に係る情報処理の対象は、オンライン会議における書き起こし情報には特に限定される必要はなく、オンライン会議以外のコミュニケーションツールでやり取りされる音声の書き起こしについても、同様に適用できる。また、上述の実施形態に係る情報処理の対象は、音声認識モデルで書き起こし可能な情報であればよく、たとえば、第1の音声認識モデルを用いて再現された情報と、第1の音声認識モデルとは異なる第2の音声認識モデルを用いて再現された情報とを対象としてもよい。
【0074】
(5-3.システム構成等)
また、上述の実施形態では、実施形態に係る情報処理装置100が、実施形態に係る情報処理を実行する例を説明したが、この例には限られない。たとえば、オンライン会議に関する情報処理を実行するオンライン会議サーバが実施形態に係る情報処理を実行してもよい。この場合、オンライン会議サーバが、実施形態に係る情報処理を実行するために情報処理装置100が有する機能を備えていればよい。
【0075】
また、上述の実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0076】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0077】
また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0078】
(6.ハードウェア構成)
また、上述してきた実施形態または変形例に係る情報処理装置100は、たとえば、
図13に示すような構成のコンピュータ1000によって実現される。
図13は、実施形態または変形例に係る情報処理装置100の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【0079】
コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
【0080】
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラムなどに基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAMなど、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD、フラッシュメモリ等により実現される。
【0081】
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインターフェイスであり、たとえば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナなどといった各種の入力装置1020から情報を受信するためのインターフェイスであり、たとえば、USBなどにより実現される。
【0082】
なお、入力装置1020は、たとえば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)などの光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリなどから情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリなどの外付け記憶媒体であってもよい。
【0083】
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
【0084】
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。たとえば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
【0085】
たとえば、コンピュータ1000が実施形態または変形例に係る情報処理装置100として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部130と同様の機能を実現する。すなわち、演算装置1030は、一次記憶装置1040上にロードされたプログラム(たとえば、情報処理プログラムの一例)との協働により、実施形態または変形例に係る情報処理装置100による処理を実現する。
【0086】
(7.効果)
上述してきたように、実施形態に係る情報処理装置100は、検出部131と、生成部132とを有する。検出部131は、オンライン会議システムにおける会話内容をリアルタイムに書き起こした情報である第1テキスト情報TX1-1と、所定の音声認識ツールを用いて会話内容の録音データを事後的に書き起こした情報である第2テキスト情報TX2-1との間の時刻情報のずれを検出する。生成部132は、時刻情報のずれに基づいて時間的に同期された第1テキスト情報TX1-2および第2テキスト情報TX2-2を用いて、情報が補完された会話内容を示す書き起こしコンテンツを生成する。
【0087】
また、検出部131は、入力データに基づいてコンテンツを自動的に生成するように学習が行われた学習済みモデルMdである生成AIに対して、第1テキスト情報TX1-1と、第2テキスト情報TX2-1と、第1テキスト情報TX1-1に含まれている時刻表記と第2テキスト情報TX2-1に含まれている時刻表記との間のずれを検出するように指示する第1指示情報PRO-1とを入力することにより、生成AIから出力される時刻情報のずれを取得する。
【0088】
また、検出部131は、第1指示情報PRO-1において、第1テキスト情報TX1-1および第2テキスト情報TX2-1において同一の内容が記載された所定数の文章をそれぞれ特定し、特定した文章の各々に対応付けられた時刻表記の差から、時刻情報のずれを検出するように指示できる。
【0089】
検出部131は、第1指示情報PRO-1において、時刻表記の差のうち、他の時刻表記の差と比較して相対的に乖離しているデータを除外して、時刻情報のずれを検出するように指示できる。
【0090】
また、生成部132は、入力データに基づいてコンテンツを自動的に生成するように学習が行われた学習済みモデルMdである生成AIに対して、時間的に同期された第1テキスト情報TX1-2および第2テキスト情報TX2-2と、第1テキスト情報TX1-2に含まれる発話者の情報、及び第2テキスト情報TX2-2に含まれる文章の情報を用いて会話内容を相互補完するように指示する第2指示情報PRO-2とを入力することにより、生成AIから出力される会話内容を書き起こしコンテンツとして取得する。
【0091】
このように、実施形態に係る情報処理装置100は、オンライン会議中にリアルタイムで実行された会話内容の書き起こし情報、及び所定の音声認識モデルを用いて会話内容の録音データを事後的に書き起こした書き起こし情報の各々特徴が異なる2つの書き起こし情報を時間的に同期させた後、時間的に同期させた各書き起こし情報を用いて、会話内容を相互補完した書き起こしコンテンツを生成できる。これにより、実施形態に係る情報処理装置100は、書き起こしの精度の向上を図ることができる。
【0092】
上述の効果は、上述した各部により実行される処理、又は各部により実行される処理のいずれかの組合せにより実現され得る。
【0093】
(8.その他)
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0094】
また、上述した情報処理装置100は、機能によっては外部のプラットフォームなどをAPI(Application Programming Interface)やネットワークコンピューティングなどで呼び出して実現するなど、構成は柔軟に変更できる。
【0095】
また、特許請求の範囲に記載した「部」は、「手段」や「回路」などに読み替えることができる。例えば、制御部は、制御手段や制御回路に読み替えることができる。
【符号の説明】
【0096】
SYS 情報処理システム
10 端末装置
100 情報処理装置
110 通信部
120 記憶部
121 会議情報記憶部
122 モデル情報記憶部
130 制御部
131 検出部
132 生成部
【要約】
【課題】書き起こしの精度の向上を図ること。
【解決手段】本願に係る情報処理装置は、検出部と、生成部とを有する。検出部は、コミュニケーションツールにおける会話内容をリアルタイムに書き起こした情報である第1テキストと、所定の音声認識ツールを用いて会話内容の録音データを事後的に書き起こした情報である第2テキストとの間の時刻情報のずれを検出する。生成部は、時刻情報のずれに基づいて時間的に同期された第1テキストおよび第2テキストを用いて、情報が補完された会話内容を示す書き起こしコンテンツを生成する。
【選択図】
図10