IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社オプティムの特許一覧

特開2022-99335プログラム、方法、情報処理装置、システム
<>
  • 特開-プログラム、方法、情報処理装置、システム 図1
  • 特開-プログラム、方法、情報処理装置、システム 図2
  • 特開-プログラム、方法、情報処理装置、システム 図3
  • 特開-プログラム、方法、情報処理装置、システム 図4
  • 特開-プログラム、方法、情報処理装置、システム 図5
  • 特開-プログラム、方法、情報処理装置、システム 図6
  • 特開-プログラム、方法、情報処理装置、システム 図7
  • 特開-プログラム、方法、情報処理装置、システム 図8
  • 特開-プログラム、方法、情報処理装置、システム 図9
  • 特開-プログラム、方法、情報処理装置、システム 図10
  • 特開-プログラム、方法、情報処理装置、システム 図11
  • 特開-プログラム、方法、情報処理装置、システム 図12
  • 特開-プログラム、方法、情報処理装置、システム 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022099335
(43)【公開日】2022-07-04
(54)【発明の名称】プログラム、方法、情報処理装置、システム
(51)【国際特許分類】
   G10L 15/10 20060101AFI20220627BHJP
   G10L 15/24 20130101ALI20220627BHJP
   G10L 15/00 20130101ALI20220627BHJP
   G10L 17/00 20130101ALI20220627BHJP
【FI】
G10L15/10 500Z
G10L15/24 Z
G10L15/00 200L
G10L17/00 200C
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2021208868
(22)【出願日】2021-12-23
(62)【分割の表示】P 2020212000の分割
【原出願日】2020-12-22
(71)【出願人】
【識別番号】500521522
【氏名又は名称】株式会社オプティム
(74)【代理人】
【識別番号】110002815
【氏名又は名称】IPTech弁理士法人
(72)【発明者】
【氏名】菅谷 俊二
(57)【要約】      (修正有)
【課題】音声の発声者の役割を推定し提示することで、音声認識処理の利便性を向上させることが可能なプログラム、方法、情報処理装置及びシステムを提供する。
【解決手段】プログラムは、集音装置により集音された音を取得するステップと、取得した音から、少なくとも1つの音声を抽出するステップと、抽出した音声を解析することで、テキスト情報に変換するステップと、テキスト情報に基づき、抽出した音声の発声者の役割を推定するステップと、変換したテキスト情報を、役割を識別可能にユーザに提示するステップと、をサーバに実行させる。
【選択図】図5
【特許請求の範囲】
【請求項1】
プロセッサと、メモリとを備えるコンピュータに実行させるためのプログラムであって、前記プログラムは、前記プロセッサに、
集音装置により集音された音を取得するステップと、
前記取得した音から、少なくとも1つの音声を抽出するステップと、
前記抽出した音声を解析することで、テキスト情報に変換するステップと、
前記テキスト情報に基づき、前記抽出した音声の発声者の役割を推定するステップと、
前記変換したテキスト情報を、前記役割を識別可能にユーザに提示するステップと、を実行させるプログラム。
【請求項2】
前記抽出するステップにおいて、
声の特徴に関する情報に基づいて、前記少なくとも1つの音声を抽出する、請求項1に記載のプログラム。
【請求項3】
前記抽出するステップにおいて、
前記音の方向に関する情報に基づいて、前記少なくとも1つの音声を抽出する、請求項1に記載のプログラム。
【請求項4】
前記抽出するステップにおいて、
前記音を取得するタイミングに関する情報に基づいて、前記少なくとも1つの音声を抽出する、請求項1に記載のプログラム。
【請求項5】
撮影装置により撮影された画像を取得するステップと、
前記取得した画像から、前記発声者の動作情報を取得するステップと、を前記プロセッサに実行させ、
前記抽出するステップにおいて、
前記音を集音したタイミングと、前記動作情報を取得したタイミングとに基づいて、前記音声を抽出する、請求項1に記載のプログラム。
【請求項6】
前記動作情報が、前記発声者の口又は手足の動作情報である、請求項5に記載のプログラム。
【請求項7】
前記推定するステップにおいて、
予め設定された前記役割の情報に基づいて、前記発声者の役割を推定する、請求項1~6のいずれかに記載のプログラム。
【請求項8】
前記推定するステップにおいて、所定の発言についての文字情報を入力データとし、発言をする者の役割を正解出力データとして学習された学習済みモデルに、前記テキスト情報を入力することで前記発声者の役割を推定する、請求項1~6のいずれかに記載のプログラム。
【請求項9】
前記抽出するステップにおいて、複数の音声を抽出し、
前記変換するステップにおいて、前記抽出した複数の音声をそれぞれ解析することで、複数のテキスト情報に変換し、
前記推定するステップにおいて、前記変換した複数のテキスト情報に基づき、前記抽出した複数の音声の発声者の役割をそれぞれ推定する、請求項1~8のいずれかに記載のプログラム。
【請求項10】
前記推定するステップにおいて、
前記複数の音声の発声者の役割として、主として医療行為を実施する担当者と、当該担当者を補助する担当者とをそれぞれ推定する、請求項9に記載のプログラム。
【請求項11】
前記推定するステップにおいて、
前記複数の音声の発声者の役割として、主となる話者と、当該話者の話を視聴する視聴者とをそれぞれ推定する、請求項9に記載のプログラム。
【請求項12】
前記推定するステップにおいて、
前記複数の音声の発声者の役割として、管理者と、当該管理者による被管理者とをそれぞれ推定する、請求項9に記載のプログラム。
【請求項13】
プロセッサと、メモリとを備えるコンピュータが実行する方法であって、前記方法は、前記プロセッサが、
集音装置により集音された音を取得するステップと、
前記取得した音から、少なくとも1つの音声を抽出するステップと、
前記抽出した音声を解析することで、テキスト情報に変換するステップと、
前記テキスト情報に基づき、抽出した音声の発声者の役割を推定するステップと、
前記変換したテキスト情報を、役割を識別可能にユーザに提示するステップと、を実行する方法。
【請求項14】
制御部を備える情報処理装置であって、前記制御部が、
集音装置により集音された音を取得するステップと、
前記取得した音から、少なくとも1つの音声を抽出するステップと、
前記抽出した音声を解析することで、テキスト情報に変換するステップと、
前記テキスト情報に基づき、抽出した音声の発声者の役割推定するステップと、
前記変換したテキスト情報を、役割を識別可能にユーザに提示するステップと、を実行する情報処理装置。
【請求項15】
集音装置により集音された音を取得する手段と、
前記取得した音から、少なくとも1つの音声を抽出する手段と、
前記抽出した音声を解析することで、テキスト情報に変換する手段と、
前記テキスト情報に基づき、抽出した音声の発声者の役割を推定する手段と、
前記変換したテキスト情報を、役割を識別可能にユーザに提示する手段と、を備えるシステム。

【発明の詳細な説明】
【技術分野】
【0001】
本開示は、プログラム、方法、情報処理装置、システムに関する。
【背景技術】
【0002】
声の波形の特徴で、発話者を区別する技術が知られている。例えば、特許文献1では、音声情報を含む生体情報を用い、ユーザを認証することが記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2015-061086号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来のシステムでは、音声情報を予め登録していないと話者を判別することができない。このため、音声認識処理によりテキスト情報を生成しても、音声情報が予め登録されていない場合には、発声者が判別できず、音声認識処理の利便性が損なわれることがある。
【0005】
本開示の目的は、音声認識処理の利便性を向上させることである。
【課題を解決するための手段】
【0006】
一実施形態によると、プロセッサと、メモリとを備えるコンピュータに実行させるためのプログラムであって、プログラムは、プロセッサに、集音装置により集音された音を取得するステップと、取得した音から、少なくとも1つの音声を抽出するステップと、抽出した音声を解析することで、テキスト情報に変換するステップと、テキスト情報に基づき、抽出した音声の発声者の役割を推定するステップと、変換したテキスト情報を、役割を識別可能にユーザに提示するステップと、を実行させるプログラムが提供される。
【発明の効果】
【0007】
本開示によれば、音声認識処理の利便性を向上させることができる。
【図面の簡単な説明】
【0008】
図1】システム1の全体構成を示す図である。
図2】サーバ20の機能的な構成を示す図である。
図3】サーバ20が記憶するテキスト情報データベース2021、音声情報データベース2022のデータ構造を示す図である。
図4】システム1を構成する機器などの概要を示す図である。
図5】サーバ20が、音データに基づいてテキストデータを生成する際の一連の処理を示すフローチャートである。
図6】執刀医と助手との会話に基づいて生成されたテキストデータの表示例を示す図である。
図7】講演者と視聴者との会話に基づいて生成されたテキストデータの表示例を示す図である。
図8】管理者と作業員との会話に基づいて生成されたテキストデータの表示例を示す図である。
図9】第2の実施形態における、システム1Aの全体構成を示す図である。
図10】第2の実施形態における、サーバ20Aの機能的な構成を示す図である。
図11】第2の実施形態における、サーバ20Aが記憶する画像情報データベース2023のデータ構造を示す図である。
図12】第2の実施形態における、システム1Aを構成する機器などの概要を示す図である。
図13】サーバ20Aの制御部203Aが音データと画像データとに基づいてテキストデータを生成する際の一連の処理を示すフローチャートである。
【発明を実施するための形態】
【0009】
以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。
【0010】
<第1の実施形態>
<概要>
以下の実施形態では、発声者の役割を推定し、発声者の発声内容と、推定した役割とをテキストデータとして記憶するシステム1について説明する。
【0011】
システム1は、集音装置により周囲の音を集音する。システム1は、集音した音に基づく音データから、少なくとも1つ以上の音声を抽出する。システム1は、抽出した音声の発声内容をテキスト情報に変換する。システム1は、テキスト情報に基づいて発声者の役割を推定する。システム1は、テキスト情報に、推定した役割を加えたテキストデータを記憶し、ユーザからの要求に応じて提示する。
【0012】
システム1は、例えば、病院などの医療施設等に設置され得る。具体的には、例えば、集音装置が手術室に設置され、システム1は、執刀医及び助手などの手術中の会話をテキスト情報に変換し、テキスト情報から推定される役割と共に記憶する。また、例えば、集音装置が病室に設置され、主治医及び看護師などの会話をテキスト情報に変換し、テキスト情報から推定される役割と共に記憶する。なお、執刀医及び主治医は、主として医療行為を実施する担当者の一例であり、助手及び看護師は、補助する担当者の一例である。これにより、術中及び日常の会話をテキスト情報及び役割を含むテキストデータとして記憶しておくことが可能となる。
【0013】
また、システム1は、例えば、セミナー、記者会見などの場にも設置され得る。具体的には、例えば、集音装置が会場に設置され、システム1は、講演者と視聴者との質疑応答をテキスト情報に変換し、テキスト情報から推定される役割と共に記憶する。これにより、議事録の作成の手間が軽減する。また、質問内容を容易に見返すことが可能となる。なお、講演者は、主となる話者の例示であり、主となる話者は、会合を進行を司る役を担う者、例えば、司会者等であってもよい。
【0014】
また、システム1は、例えば、作業現場などに設置され得る。具体的には、例えば、集音装置が現場に設置され、システム1は、管理者から作業員への指示の内容、作業員から管理者への報告の内容などをテキスト情報に変換し、テキスト情報から推定される役割と共に記憶する。なお、管理者は、指示者と換言しても構わない。また、作業員は、管理者により管理される被管理者の一例である。これにより、トラブル発生時の、管理者から作業員への指示漏れの有無等を確認することが可能となる。
【0015】
<1 システム全体の構成図>
図1は、システム1の全体の構成を示す図である。
【0016】
図1に示すように、システム1は、サーバ20と、エッジサーバ30と、集音装置40とを含む。サーバ20とエッジサーバ30とは、ネットワーク80を介して通信接続する。エッジサーバ30は、集音装置40と接続されている。例えば、集音装置40は、情報機器間の近距離通信システムで用いられる通信規格に基づく送受信装置である。具体的には、集音装置40は、例えば、Bluetooth(登録商標)モジュールなど2.4GHz帯を使用して、Bluetooth(登録商標)モジュールを搭載した他の情報機器からのビーコン信号を受信する。エッジサーバ30は、当該近距離通信を利用したビーコン信号に基づき、集音装置40から送信される情報を取得する。このように、集音装置40は、取得した発声者の音声の情報を、ネットワーク80を介さず、近距離通信によりエッジサーバ30へ送信する。なお、エッジサーバ30は、ネットワーク80を介して集音装置40と通信接続してもよい。
【0017】
サーバ20は、音に関する情報を管理する。音に関する情報は、例えば、音データ、音から抽出された音声に基づいて生成されるテキストデータ等を含む。図1に示すサーバ20は、通信IF22、入出力IF23、メモリ25、ストレージ26、及びプロセッサ29を有する。
【0018】
通信IF22は、サーバ20が外部の装置と通信するため、信号を入出力するためのインタフェースである。入出力IF23は、ユーザからの入力操作を受け付けるための入力装置とのインタフェース、および、ユーザに対し情報を提示するための出力装置とのインタフェースとして機能する。メモリ25は、プログラム、および、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えばDRAM(Dynamic Random Access Memory)等の揮発性のメモリである。ストレージ26は、データを保存するための記憶装置であり、例えばフラッシュメモリ、HDD(Hard Disc Drive)である。プロセッサ29は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路などにより構成される。
【0019】
本実施形態において、システム1がサーバ20を有する場合を例に説明しているが、システム1を複数のサーバの集合体として形成してもよい。1つ又は複数のハードウェアに対して本実施形態に係るシステム1を実現することに要する複数の機能の配分の仕方は、各ハードウェアの処理能力及び/又はシステム1に求められる仕様等に鑑みて適宜決定することができる。
【0020】
エッジサーバ30は、集音装置40から送信される信号を受信し、受信した信号を、サーバ20に送信する。また、エッジサーバ30は、サーバ20から取得した信号を集音装置40へ送信する。サーバ20から取得する信号には、例えば、集音装置40の設定を更新するための情報などが含まれる。図1では、エッジサーバ30が1台である場合を例に示しているが、システム1に収容されるエッジサーバは、複数台あっても構わない。
【0021】
集音装置40は、周囲の音を集音し、例えば、デジタル形式の音データに変換する。集音装置40は、音データに基づく音信号をエッジサーバ30へ送信する。集音装置40は、例えば、マイクにより実現される。マイクは、例えば、指向性マイク、又は無指向性マイクである。指向性マイクの指向性は、単一指向性であっても、双指向性であっても構わない。集音装置40は、例えば、音を効率的に集音可能な位置に設置される。図1では、集音装置40が1台である場合を例に示しているが、システム1に収容される集音装置40は、複数台あっても構わない。
【0022】
<1.1 サーバ20の構成>
図2は、サーバ20の機能的な構成を示す図である。図2に示すように、サーバ20は、通信部201と、記憶部202と、制御部203としての機能を発揮する。
【0023】
通信部201は、サーバ20が、外部の装置と通信するための処理を行う。
【0024】
記憶部202は、サーバ20が使用するデータ及びプログラムを記憶する。記憶部202は、テキスト情報データベース2021と、音声情報データベース2022等とを記憶する。
【0025】
テキスト情報データベース2021は、集音装置40で集音された音に基づいて生成されるテキストデータを記憶する。詳細は後述する。
【0026】
音声情報データベース2022は、サーバ20が集音装置40で集音された音に基づく音データを記憶する。詳細は後述する。
【0027】
制御部203は、サーバ20のプロセッサがプログラムに従って処理を行うことにより、各種モジュールとして示す機能を発揮する。
【0028】
受信制御モジュール2031は、サーバ20が外部の装置から通信プロトコルに従って信号を受信する処理を制御する。例えば、受信制御モジュール2031は、通信部201を制御し、集音装置40からエッジサーバ30を介して送信される音信号を受信する。
【0029】
送信制御モジュール2032は、サーバ20が外部の装置に対し通信プロトコルに従って信号を送信する処理を制御する。
【0030】
取得モジュール2033は、受信した音信号から音データを取得する。取得モジュール2033は、取得した音データを音声情報データベース2022に記憶する。取得モジュール2033は、例えば、所定の要件を満たすと、取得した音データを音声情報データベース2022に記憶する。所定の要件は、例えば、以下である。
・録音開始指示が入力されてから録音終了指示が入力されるまで
・予め設定された時間への到達
・音の継続した発生(例えば、音が発生すると録音を開始し、音が予め設定された期間発生しないと録音を停止する)
【0031】
音声解析モジュール2034は、取得された音データを解析する。音声解析モジュール2034は、例えば、所定の要件を満たすと、音データを解析する。所定の要件は、例えば、以下である。
・録音(解析)開始指示が入力されてから録音(解析)終了指示が入力されるまで
・予め設定された時間への到達
・音の継続した発生(例えば、音が発生すると解析を開始し、音が予め設定された期間発生しないと解析を停止する)
【0032】
音声解析モジュール2034は、取得された音データから所定の音声を抽出する。具体的には、音声解析モジュール2034は、例えば、下記のいずれかの情報に基づいて音データから所定の音声を抽出する。
・声の特徴
・音が集音された方向
・音が集音されたタイミング
・音を集音した集音装置
【0033】
より具体的には、例えば、音声解析モジュール2034は、音データに含まれる声の特徴、例えば、声の大きさ、音高(周波数)、有声、無声、音素の種類、及びフォルマント等から成る群から選択される少なくとも1つを分析する。音声解析モジュール2034は、分析結果に基づいて同一の者が発生したと推定される音声を、音データから抽出する。
【0034】
また、例えば、集音装置40が指向性を有している場合、音声解析モジュール2034は、集音装置40の指向性の情報に基づき、指向している方向から到来した音声を、音データから抽出する。
【0035】
また、例えば、発話するタイミングが予め分かっている場合、音声解析モジュール2034は、集音装置40が音を集音した時間に基づき、音データに含まれる音声を抽出する。例えば、音声解析モジュール2034は、講演等の発声に係るスケジュールを参照し、該当する時刻に達してから最初に発声した音声を、音データから抽出する。
【0036】
また、例えば、集音装置40が複数利用されている場合、音声解析モジュール2034は、集音装置40毎に集音された音声を、音データから抽出する。
【0037】
音声解析モジュール2034は、上記の抽出方法について、単独で発声者の音声を抽出してもよいし、複数の手法を組み合わせて発声者の音声を抽出してもよい。
【0038】
また、音声解析モジュール2034は、抽出した音声に対して音声認識処理を実行することで発声内容をテキスト情報に変換する。音声認識の手法は既存のいかなる手法を用いてもよい。変換されたテキスト情報は、テキスト情報データベース2021に記憶される。
【0039】
推定モジュール2035は、テキスト情報に基づき、発声者の役割を推定する。例えば、推定モジュール2035は、サーバ20の記憶部202に記憶されている学習済みモデルに、テキスト情報を入力することで、発声者の役割を推定する。
【0040】
学習済みモデルは、例えば、学習用データに基づき、モデル学習プログラムに従って機械学習モデルに機械学習を行わせることで生成される。本実施形態において、学習済みモデルは、例えば、テキスト情報データベース2021に記憶されている発言に対し、役割を出力するように学習されている。このとき、学習用データは、例えば、所定の発言についての文字情報を入力データとし、その発言をする者の役割を正解出力データとする。例えば、手術をリードする発言についての文字情報を入力データとし、手術をリードする発言をする者の役割である執刀医を正解出力データとする。また、手術を補助する発言についての文字情報を入力データとし、手術を補助する発言をする者の役割である助手を正解出力データとする。このように学習された学習済みモデルは、テキスト情報が入力されると、発声者の役割、例えば、執刀医、助手、主治医、看護師、講演者、視聴者、管理者、作業員等を出力する。
【0041】
推定モジュール2035は、音データから抽出した音声が複数ある場合、音声の内容が変換されたテキスト情報から、音声毎に役割を推定する。推定モジュール2035は、推定した役割を、テキスト情報と共にテキスト情報データベース2021に記憶させる。
【0042】
推定モジュール2035は、役割を一度推定した後は、同一の音声と推定可能な音声に対しては、同一の役割を付し、改めて役割を推定する処理を実行しなくてもよい。
【0043】
推定モジュール2035は、所定のタイミングで役割の推定をやりなおしてもよい。所定のタイミングは、例えば、以下である。
・予め設定した時間の経過
・録音の切り替わり
・新たな人物の登場
【0044】
提示モジュール2036は、ユーザからの要求に応じ、テキスト情報データベース2021に記憶されているテキストデータをユーザに提示する。
【0045】
<2 データ構造>
図3は、サーバ20が記憶するテキスト情報データベース2021、音声情報データベース2022のデータ構造を示す図である。
【0046】
図3に示すように、テキスト情報データベース2021は、項目「日時」と、項目「テキストID」と、項目「音声ID」と、項目「データ」等を含む。
【0047】
項目「日時」は、テキストデータの元となった音を集音した日時を示す情報である。
【0048】
項目「テキストID」は、テキストデータを識別する情報を示す。
【0049】
項目「音声ID」は、テキストデータの元となった音データを識別する情報を示す。例えば、テキストID「T001」は、音声ID「V001」に基づいて生成されたことを示す。
【0050】
項目「データ」は、テキストデータを記憶している。項目「データ」で記憶されるテキストデータには、音声の内容が変換されたテキスト情報、テキスト情報から推定された役割が含まれている。
【0051】
図3に示すように、音声情報データベース2022は、項目「日時」と、項目「音声ID」と、項目「データ」等を含む。
【0052】
項目「日時」は、音を集音した日時を示す情報である。
【0053】
項目「音声ID」は、取得した音データを識別する情報を示す。
【0054】
項目「データ」は、音データを記憶している。項目「データ」で記憶される音データは、例えば、wav等のデータ形式で記憶されている。
【0055】
<3 小括>
図4は、システム1の概要を示す図である。図4に示す例では、音声を取得する対象である人物Aおよび人物Bの周囲に、集音装置40が設置される。
【0056】
集音装置40は、集音装置40の周囲の音を取得する。集音装置40は、取得した音についての音信号をエッジサーバ30に送信する。
【0057】
エッジサーバ30は、受信した音信号をサーバ20に送信する。
【0058】
サーバ20は、受信した音信号についての音データを解析し、音データから音声を抽出する。サーバ20は、抽出した音声に対して音声認識処理を実行することで音声の内容をテキスト情報に変換する。サーバ20は、変換したテキスト情報から、音声の発声者の役割を推定する。
【0059】
これにより、サーバ20は、発声者が発した音声の内容を、発声者の役割とテキスト情報とを対応付けて記憶することが可能となる。
【0060】
<4 動作>
以下、サーバ20が集音装置40で集音された音に基づき、テキストデータを生成する際の一連の処理について説明する。
【0061】
図5は、サーバ20の制御部203が音データに基づいてテキストデータを生成する際の一連の処理を示すフローチャートである。以下の説明では、例えば、集音装置40の周囲には、図4に示すように人物Aと、人物Bとがいる場合を例に説明する。
【0062】
集音装置40は、周囲の音を集音する。このとき、例えば、人物Aが所定の発言をし、その後に、人物Bが人物Aの発言に対して応答をしたとする。集音装置40が集音した音には、人物Aの音声の後に、人物Bの音声が含まれる。集音装置40は、集音した音についての音信号を、エッジサーバ30を介してサーバ20へ送信する。
【0063】
ステップS501において、制御部203は、エッジサーバ30から受信した音信号から音データを取得する。
【0064】
ステップS502において、制御部203は、取得した音データを解析する。具体的には、例えば、制御部203は、取得した音データに含まれる声の特徴、例えば、声の大きさ、音高、有声、無声、音素の種類、フォルマント等から成る群から選択される少なくとも1つを分析する。制御部203は、人物Aが発生した音声を、第1特徴を有する第1音声として音データから抽出する。制御部203は、人物Aの後に人物Bが発生した音声を、第2特徴を有する第2音声として音データから抽出する。
【0065】
なお、ここでは、制御部203が、声の特徴に基づいて音データから音声を抽出する場合を例に説明した。制御部203は、声の特徴、集音装置40の指向方向、音が集音されたタイミング、集音に用いられた集音装置等から成る群から選択される少なくとも1つの手法を利用して音声を抽出してよい。
【0066】
ステップS503において、制御部203は、抽出した音声に対して音声認識処理を実行することで、音声の内容をテキスト情報に変換する。具体的には、例えば、制御部203は、第1音声に対して音声認識処理を実行することで、第1音声の内容を第1テキスト情報に変換する。制御部203は、第1テキスト情報をテキスト情報データベース2021に記憶する。また、制御部203は、第2音声に対して音声認識処理を実行することで、第2音声の内容をテキスト情報に変換する。制御部203は、第2テキスト情報をテキスト情報データベース2021に記憶する。
【0067】
ステップS504において、制御部203は、テキスト情報に基づき、音声の発声者の役割を推定する。具体的には、例えば、制御部203は、第1テキスト情報を学習済みモデルに入力する。学習済みモデルは、第1テキスト情報が入力されると、第1役割を出力する。また、制御部203は、第2テキスト情報を学習済みモデルに入力する。学習済みモデルは、第2テキスト情報が入力されると、第2役割を出力する。制御部203は、第1テキスト情報と第1役割とを関連付け、第2テキスト情報と第2役割とを関連付けてテキストデータとし、テキストデータをテキスト情報データベース2021に記憶する。
【0068】
ステップS505において、制御部203は、ユーザからの要望に応じ、テキスト情報データベース2021に記憶されているテキストデータをユーザに提示する。
【0069】
<5 画面例>
図6~8は、第1の実施形態において、テキストデータをユーザに提示する際の、ユーザが操作する端末のディスプレイの表示例を示す図である。ユーザ端末は、例えば据え置き型のPC(Personal Computer)、ラップトップPCであるとしてもよい。また、ユーザ端末は、ヘッドマウントディスプレイとして機能してもよく、例えば、透過型、非透過型、又はシースルー型ヘッドマウントディスプレイとして機能してもよい。なお、テキストデータは、ディスプレイでの表示に限らず、紙にプリントアウトされてユーザに提示されてもよい。
【0070】
図6は、人物Aが執刀医であり、人物Bが助手である場合のテキストデータの表示例を示す図である。
【0071】
図6において、オブジェクト601、607は、第1テキスト情報に基づいて推定される役割を表す。図6では、オブジェクト601、607は画面の左端に位置し、「執刀医」と表示されている。オブジェクト604は、第2テキスト情報に基づいて推定される役割を表す。図6では、オブジェクト604は画面の右端に位置し、「助手」と表示されている。このように、役割に応じてオブジェクトを表示する位置を変えることで、ユーザは、役割の表示位置を視認するだけで、役割の異なる者が会話していることを把握することが可能となる。
【0072】
図6では、オブジェクト601、607が画面の左端に沿って位置し、オブジェクト604が画面の右端に沿って位置する例を示しているが、オブジェクト601、607及びオブジェクト604の位置はこれに限定されない。オブジェクト601及びオブジェクト604は、同じ端部に位置していてもよい。
【0073】
アイコン602、608およびアイコン605は、役割に応じたアイコンを表す。例えば、アイコン602、608は、それぞれオブジェクト601、607の下に表示され、執刀医を識別するアイコンを示す。アイコン605は、オブジェクト604の下に表示され、助手を識別するアイコンを示す。当該アイコンは、例えば、役割に応じて制御部203によって自動的に設定されてもよい。
【0074】
ボックス603、609およびボックス606は、発声者それぞれの発言内容を表すテキスト情報が表示される。例えば、ボックス603、609は、画面の右端寄りに表示され、執刀医の発言を時刻と共に表示する。また、ボックス606は、画面の左端寄りに表示され、助手の発言を時刻と共に表示する。
【0075】
これにより、ユーザは、執刀医と助手とが手術中などに行った会話の内容を、各々の役割を識別する形でテキスト情報として確認することができる。このため、執刀医と助手との術中における会話を、例えば、研修医の指導の際に、指示の出し方が適切か、誤った判断をしていないか等の確認に活用することが可能となる。また、執刀医自身が、自分の担当した手術中の会話を確認することで、反省点の振り返り、改善点の発見などに役立てることができる。
【0076】
図7は、人物Aが講演者であり、人物Bが視聴者である場合のテキストデータの表示例を示す図である。
【0077】
図7において、オブジェクト701、707は、図6におけるオブジェクト601、607と同様に、第1テキスト情報に基づいて推定される役割を表す。図7では、オブジェクト701、707は画面の左端に位置し、「講演者」と表示されている。オブジェクト704は、図6におけるオブジェクト604と同様に、第2テキスト情報に基づいて推定される役割を表す。図7では、オブジェクト704は画面の右端に位置し、「視聴者」と表示されている。
【0078】
アイコン702、708およびアイコン705は、図6におけるアイコン602、608および605と同様に、役割に応じたアイコンを表す。例えば、アイコン702、708は、それぞれオブジェクト701、707の下に表示され、講演者を識別するアイコンを示す。アイコン705は、オブジェクト704の下に表示され、視聴者を識別するアイコンを示す。
【0079】
ボックス703、709およびボックス706は、図6におけるボックス603、609およびボックス606と同様に、発声者それぞれの発言内容を表すテキスト情報が表示される。例えば、ボックス703、709は、画面の右端寄りに表示され、講演者の発言を時刻と共に表示する。また、ボックス706は、画面の左端寄りに表示され、視聴者の発言を時刻と共に表示する。
【0080】
これにより、ユーザは、講演者と視聴者とが講演中などに行った会話、例えば質疑応答の内容を、各々の役割を識別する形でテキスト情報として確認することができる。このため、講演者は、質疑応答の内容をテキスト情報として確認することで、講演会における話の流れ、視聴者の反応などを確認することが可能となる。また、議事録を作成するユーザは、質疑応答の内容をテキスト情報として確認することで、容易に議事録を作成することが可能となる。
【0081】
図8は、人物Aが管理者であり、人物Bが作業員である場合のテキストデータの表示例を示す図である。
【0082】
図8において、オブジェクト801、807は、図7におけるオブジェクト701、707と同様に、第1テキスト情報に基づいて推定される役割を表す。図8では、オブジェクト801、807は画面の左端に位置し、「管理者」と表示されている。オブジェクト804は、図7におけるオブジェクト704と同様に、第2テキスト情報に基づいて推定される役割を表す。図8では、オブジェクト804は画面の右端に位置し、「作業員」と表示されている。
【0083】
アイコン802、808およびアイコン805は、図7におけるアイコン702、708および705と同様に、役割に応じたアイコンを表す。例えば、アイコン802、808は、それぞれオブジェクト801、807の下に表示され、管理者を識別するアイコンを示す。アイコン805は、オブジェクト804の下に表示され、作業員を識別するアイコンを示す。
【0084】
ボックス803、809およびボックス806は、図7におけるボックス703、709およびボックス706と同様に、発声者それぞれの発言内容を表すテキスト情報が表示される。例えば、ボックス803、809は、画面の右端寄りに表示され、管理者の発言を時刻と共に表示する。また、ボックス806は、画面の左端寄りに表示され、作業員の発言を時刻と共に表示する。
【0085】
これにより、ユーザは、管理者と作業員とが行った作業現場における会話、例えば当日の作業指示などの内容を、各々の役割を識別する形でテキスト情報として確認することができる。これにより、管理者は、作業指示の内容をテキスト情報として確認することで、当日の作業内容の振り返り、次の日の作業計画の立案などに役立てることが可能となる。また、管理者を管理監督する監督者が、管理者が作業員に出した指示内容、作業員の反応などをテキスト情報として確認することが可能となる。そのため、監督者は、ハラスメントなどの問題が生じたときに、指示の仕方が適切であったか、無理な負担を作業員に強いていないか、などを確認することが可能となる。
【0086】
このように、サーバ20は、音データから音声を抽出し、抽出した音声のテキスト情報への変換、変換したテキスト情報に基づいて発声者の役割を推定するようにしている。また、サーバ20は、受信した一つ、または複数の音データから、複数の発声者の役割を推定するようにしている。このため、サーバ20は、発声者について事前に登録された情報がなくても、発声者の役割を判別しながらテキスト情報をユーザへ提示することが可能となる。
【0087】
<6 変形例>
上記実施形態では、音声解析をサーバ20で実施する場合を説明したが、音声解析はサーバ20以外で実施されてもよい。例えば、エッジサーバ30が音声解析を実施し、テキスト情報をサーバ20へ送信してもよい。また、集音装置40が音声解析を実施し、テキスト情報をエッジサーバ30へ送信してもよい。なお、テキスト情報をサーバ20へ送信する場合であっても、音信号をサーバ20へ送信してもよい。
【0088】
また、上記実施形態では、推定処理をサーバ20で実施する場合を説明したが、推定処理は音声解析の後であれば、サーバ20以外で実施されてもよい。例えば、エッジサーバ30、又は集音装置40が音声解析を実施した場合には、エッジサーバ30が推定処理を実施し、役割に関する情報をサーバ20へ送信してもよい。また、集音装置40が音声解析を実施した場合には、集音装置40が推定処理を実施し、役割に関する情報をエッジサーバ30へ送信してもよい。
【0089】
<第2の実施形態>
第1の実施形態では、集音装置40のみを利用する場合を説明した。しかしながら、音声を抽出する方法はこれに限らない。第2の実施形態では、集音装置40に加え、撮影装置50を利用する方法について説明する。なお、第1の実施形態と同一の符号を付しているものについての詳細な説明は繰り返さない。
【0090】
<1 システム全体の構成図>
図9は、第2の実施形態における、システム1Aの全体の構成を示す図である。
【0091】
図9に示すように、システム1Aは、サーバ20Aと、エッジサーバ30と、集音装置40と、撮影装置50とを含む。サーバ20Aとエッジサーバ30とは、ネットワーク80を介して通信接続する。エッジサーバ30は、集音装置40と撮影装置50と接続されている。例えば、集音装置40と撮影装置50は、情報機器間の近距離通信システムで用いられる通信規格に基づく送受信装置である。具体的には、集音装置40と撮影装置50は、例えば、Bluetooth(登録商標)モジュールなど2.4GHz帯を使用して、Bluetooth(登録商標)モジュールを搭載した他の情報機器からのビーコン信号を受信する。エッジサーバ30は、当該近距離通信を利用したビーコン信号に基づき、集音装置40と撮影装置50から送信される情報を取得する。このように、集音装置40と撮影装置50は、取得した発声者の音声の情報、および発声者の動作情報を、ネットワーク80を介さず、近距離通信によりエッジサーバ30へ送信する。なお、エッジサーバ30は、ネットワーク80を介して集音装置40と撮影装置50と通信接続してもよい。
【0092】
撮影装置50は、受光素子により光を受光して、撮影画像として出力するためのデバイスである。撮影装置50は、設定されている方向の画像を撮影し、撮影により得られる画像データに基づく画像信号をエッジサーバ30へ送信する。撮影装置50は、例えば、以下のいずれかのデバイスが想定される。
・可視光カメラ
・赤外線カメラ
・紫外線カメラ
・超音波センサ
・RGB-Dカメラ
・LiDAR(Light Detection and Ranging)
図9では、撮影装置50が1台である場合を例に示しているが、システム1Aに収容される撮影装置50は、複数台あっても構わない。
【0093】
エッジサーバ30は、集音装置40から送信される音信号を受信し、受信した音信号を、サーバ20へ送信する。また、エッジサーバ30は、撮影装置50から送信される画像信号を受信し、受信した画像信号を、サーバ20へ送信する。
【0094】
<1.1 サーバ20Aの構成>
図10は、第2の実施形態における、サーバ20Aの機能的な構成を示す図である。
【0095】
取得モジュール2033Aは、受信制御モジュール2031で受信された音信号から音データを取得する。取得モジュール2033Aは、取得した音データを音声情報データベース2022に記憶する。取得モジュール2033Aは、受信制御モジュール2031で受信された画像信号から画像データを取得する。取得モジュール2033Aは、取得した画像データを画像情報データベース2023に記憶する。取得モジュール2022Aは、例えば、所定の要件を満たすと、取得した音データおよび画像データを、音声情報データベース2022および画像情報データベース2023にそれぞれ記憶する。所定の要件は、例えば、以下である。
・録音/録画開始指示が入力されてから録音/録画終了指示が入力されるまで
・予め設定された時間への到達
・音の継続した発生(例えば、音が発生すると録音/録画を開始し、音が予め設定された期間発生しないと録音/録画を停止する)
・発声者の動作を検知(例えば、発声者の口の動きを検知すると録音/録画を開始し、動作が予め設定された期間発生しないと録音/録画を停止する)
・発声者が別の発声者を指定する動作を検知(例えば、録音、および撮影していた発声者が異なる発声者を指定する動作を検知すると、指定された対象の録音および撮影を開始し、動作が予め設定された期間発生しないと録音および撮影を停止する)
【0096】
画像情報データベース2023は、サーバ20Aが撮影装置50で撮影された画像に基づく画像データを記憶する。
【0097】
画像解析モジュール2037は、取得した画像データを解析することで、画像データから動作情報を抽出する。例えば、画像解析モジュール2037は、学習済みモデルを用い、撮影装置50が撮影した画像から動作情報を抽出する。
【0098】
本実施形態において、学習済みモデルは、例えば、取得された画像データに対し、動作情報を出力するように学習されている。このとき、学習用データは、例えば、所定の動作を含む画像を入力データとし、その動作対象へのラベリング、ラベリングされた対象の変位を正解出力データとする。例えば、人物を含む画像を入力データとし、人物の口へのラベリング、ラベリングされた口の変位を正解出力データとする。なお、人物の手足のラベリング、ラベリングされた手足の変位を正解出力データとしてもよい。
【0099】
画像解析モジュール2037は、例えば、取得した画像データから撮影された人の口の動作情報を抽出する。なお、抽出される動作情報は口に限定されず、ジェスチャー等の動作であってもよい。画像解析モジュール2037は、抽出した動作情報を、音声解析モジュール2034Aに送信する。
【0100】
音声解析モジュール2034Aは、取得した音データと、画像解析によって得られた動作情報とから音声を抽出する。具体的には、音声解析モジュール2034Aは、例えば、動作情報と同期して発声された音声を、その人物の発声であると認識し、その人物の音声として音データから抽出する。より具体的には、口の動きと同期して発声された音声を、口が動いた人物の発声であると認識し、その人物の音声とする。
【0101】
音声解析モジュール2034Aは、撮影方向に複数の人物が含まれている場合において、それぞれの人物の音声を音データから抽出してもよい。また、音声解析モジュール2034Aは、声の特徴、音が集音された方向、音が集音されたタイミング、音を集音した集音装置に基づいて音声を抽出してもよい。音声解析モジュール2034Aは、単独で発声者の音声を抽出してもよいし、複数の手法を組み合わせて発声者の音声を抽出してもよい。
【0102】
<2 データ構造>
図11は、サーバ20Aが記憶する画像情報データベース2023のデータ構造を示す図である。
【0103】
図11に示すように、画像情報データベース2023は、項目「日時」と、項目「画像ID」と、項目「音声ID」と、項目「データ」等を含む。
【0104】
項目「日時」は、画像を録画した日時を示す情報である。
【0105】
項目「画像ID」は、画像データを識別する情報を示す。
【0106】
項目「音声ID」は、関連付けられている音データを識別する情報を示す。画像データと音データとは、例えば、時刻情報に基づいて関連付けられている。
【0107】
項目「データ」は、画像データを記憶している。項目「データ」で記憶される画像データは、例えば、jpeg等のデータ形式で記憶されている。
【0108】
<3 小括>
図12は、第2の実施形態におけるシステム1Aの概要を示す図である。図12に示す例では、音声を取得する対象である人物Aおよび人物Bの周囲に、集音装置40が設置される。また、人物Aおよび人物Bを撮影方向に含むように撮影装置50が設置される。
【0109】
集音装置40は、集音装置40の周囲の音を取得する。集音装置40は、取得した音信号をエッジサーバ30に送信する。
【0110】
撮影装置50は、撮影方向の画像を撮影する。撮影装置50は、取得した画像信号をエッジサーバ30に送信する。
【0111】
エッジサーバ30は、受信した音信号と画像信号とをサーバ20Aに送信する。
【0112】
サーバ20Aは、画像データの画像解析結果を参照し、受信した音信号についての音データから撮影されている人物の音声を抽出する。サーバ20Aは、抽出した音声に対して音声認識処理を実行することで音声の内容をテキスト情報に変換する。サーバ20Aは、変換したテキスト情報から、音声の発声者の役割を推定する。
【0113】
これにより、サーバ20Aは、発声者が発した音声の内容を、発声者の役割とテキスト情報とを対応付けて記憶することが可能となる。
【0114】
これにより、サーバ20Aは、取得した音データと画像データとから、より正確に音声を抽出し、テキスト情報に変換することが可能となる。そのため、サーバ20Aは、発声者の音声が小さく、周囲の音との差別化が困難な場合でも、正確に発声者の音声を抽出することができる。
【0115】
<4 動作>
以下、サーバ20Aが集音装置40で集音された音と撮影装置50で撮影された動作とに基づき、テキストデータを生成する際の一連の処理について説明する。
【0116】
図13は、サーバ20Aの制御部203Aが音データと画像データとに基づいてテキストデータを生成する際の一連の処理を示すフローチャートである。以下の説明では、例えば、集音装置40の周囲に、図12に示すように人物Aおよび人物Bがおり、人物Aおよび人物Bを撮影方向に含むように撮影装置50が設置される場合を例に説明する。
【0117】
集音装置40は、周囲の音を集音する。このとき、例えば、人物Aが所定の発言をし、その後に、人物Bが人物Aの発言に対する応答をしたとする。集音装置40が集音した音には、人物Aの音声の後に、人物Bの音声が含まれる。集音装置40は、集音した音についての音信号を、エッジサーバ30を介してサーバ20Aへ送信する。
【0118】
撮影装置50は、撮影方向の画像を撮影する。撮影装置50が撮影した画像には、人物Aの動作と、人物Bの動作とが含まれる。撮影装置50は、撮影した画像についての画像信号を、エッジサーバ30を介してサーバ20Aへ送信する。
【0119】
ステップS1301において、制御部203Aは、エッジサーバ30から受信した画像信号から画像データを取得する。
【0120】
ステップS1302において、制御部203Aは、取得した画像データを解析することで、画像データから動作情報を抽出する。制御部203Aは、例えば、撮影方向に含まれる人物Aおよび人物Bの動作、例えば、発言に伴う口の動き、ジェスチャー等についての動作情報を抽出する。
【0121】
ステップS1303において、制御部203Aは、取得した画像データの画像解析結果に基づいて、音データを解析する。具体的には、制御部203Aは、人物Aおよび人物Bの口の動きと同期して発声された音声を、人物Aおよび人物Bの発声であると認識し、人物Aおよび人物Bの音声として音データから抽出する。
【0122】
なお、ここでは、制御部203Aが、声の特徴および発声者の動作情報、特に口の動きに基づいて音データから音声を抽出する場合を例に説明した。制御部203Aは、声の特徴、集音装置40の指向方向、音が集音されたタイミング、集音に用いられた集音装置等から成る群から選択される少なくとも1つと、撮影装置50の撮影した、発声者の他の動作、例えば、発声に伴うジェスチャー、異なる発声者を指定する動き等から成る群から選択される少なくとも1つとを組み合わせて利用して音声を抽出してよい。
【0123】
<5 変形例>
上記実施形態では、画像解析および、画像解析結果に基づいた音声解析をサーバ20Aで実施する場合を説明したが、一連の解析処理はサーバ20以外で実施されてもよい。例えば、エッジサーバ30が画像解析および、画像解析結果に基づいた音声解析を実施し、テキスト情報をサーバ20Aへ送信してもよい。また、撮影装置50が画像解析を実施し、画像解析の結果を集音装置40に送信することで、集音装置40が音声解析を実施し、テキスト情報をエッジサーバ30へ送信してもよい。
【0124】
また、上記実施形態では、推定処理をサーバ20Aで実施する場合を説明したが、推定処理は音声解析の後であれば、サーバ20A以外で実施されてもよい。例えば、エッジサーバ30、又は集音装置40が音声解析を実施した場合には、エッジサーバ30が推定処理を実施し、役割に関する情報をサーバ20Aへ送信してもよい。また、集音装置40が音声解析を実施した場合には、集音装置40が推定処理を実施し、役割に関する情報をエッジサーバ30へ送信してもよい。
【0125】
また、上記実施形態では、推定モジュール2035が学習済みモデルを用いて発声者の役割を推定する場合を例に説明した。しかしながら、推定モジュール2035は、学習済みモデルを用いずに発声者の役割を推定してもよい。例えば、記憶部202は、役割と、所定の文言とが対応付けられたテーブルを予め記憶する。推定モジュール2035は、テーブルを参照し、テキスト情報から役割を推定する。
【0126】
<付記>
以上の各実施形態で説明した事項を以下に付記する。
【0127】
(付記1)
プロセッサ29と、メモリ25とを備えるコンピュータ20に実行させるためのプログラムであって、プログラムは、プロセッサ29に、集音装置40により集音された音を取得するステップ(S501)と、取得した音から、少なくとも1つの音声を抽出するステップ(S502)と、抽出した音声を解析することで、テキスト情報に変換するステップ(S503)と、テキスト情報に基づき、抽出した音声の発声者の役割を推定するステップ(S504)と、変換したテキスト情報を、役割を識別可能にユーザに提示するステップ(S505)と、を実行させるプログラム。
【0128】
(付記2)
抽出するステップ(S502)において、声の特徴に関する情報に基づいて、少なくとも1つの音声を抽出する、付記1に記載のプログラム。(段落0063)
【0129】
(付記3)
抽出するステップ(S502)において、音の方向に関する情報に基づいて、少なくとも1つの音声を抽出する、付記1に記載のプログラム。(段落0063)
【0130】
(付記4)
抽出するステップ(S502)において、音を取得するタイミングに関する情報に基づいて、少なくとも1つの音声を抽出する、付記1に記載のプログラム。(段落0063)
【0131】
(付記5)
撮影装置により撮影された画像を取得するステップ(S1301)と、取得した画像から、発声者の動作情報を取得するステップ(S1302)と、をプロセッサ29に実行させ、抽出するステップ(S502)において、音を集音したタイミングと、動作情報を取得したタイミングとに基づいて、音声を抽出する、付記1に記載のプログラム。(段落0095)
【0132】
(付記6)
動作情報が、撮影装置50で撮影した、発声者の口又は手足の動作情報である、付記5に記載のプログラム。(段落0095)
【0133】
(付記7)
推定するステップ(S504)において、予め設定された役割の情報に基づいて、発声者の役割を推定する、付記1~6のいずれかに記載のプログラム。(段落0039)
【0134】
(付記8)
推定するステップ(S504)において、所定の発言についての文字情報を入力データとし、発言をする者の役割を正解出力データとして学習された学習済みモデルに、テキスト情報を入力することで発声者の役割を推定する、付記1~6のいずれかに記載のプログラム。
(段落0040)
【0135】
(付記9)
抽出するステップ(S502)において、複数の音声を抽出し、変換するステップ(S503)において、抽出した複数の音声をそれぞれ解析することで、複数のテキスト情報に変換し、推定するステップ(S504)において、変換した複数のテキスト情報に基づき、抽出した複数の音声の発声者の役割をそれぞれ推定する、付記1~8のいずれかに記載のプログラム。(段落0036)
【0136】
(付記10)
推定するステップ(S504)において、複数の音声の発声者の役割として、主として医療行為を実施する担当者と、当該担当者を補助する担当者とをそれぞれ推定する、付記9に記載のプログラム。(段落0074)
【0137】
(付記11)
推定するステップ(S504)において、複数の音声の発声者の役割として、主となる話者と、当該話者の話を視聴する視聴者とをそれぞれ推定する、付記9に記載のプログラム。(段落0079)
【0138】
(付記12)
推定するステップ(S504)において、複数の音声の発声者の役割として、管理者と、当該管理者による被管理者とをそれぞれ推定する、付記9に記載のプログラム。(段落0084)
【0139】
(付記13)
プロセッサ29と、メモリ25とを備えるコンピュータ20が実行する方法であって、方法は、プロセッサ29が、集音装置40により集音された音を取得するステップ(S501)と、取得した音から、少なくとも1つの音声を抽出するステップ(S502)と、抽出した音声を解析することで、テキスト情報に変換するステップ(S503)と、テキスト情報に基づき、抽出した音声の発声者の役割を推定するステップ(S504)と、変換したテキスト情報を、役割を識別可能にユーザに提示するステップ(S505)と、を実行する方法。
【0140】
(付記14)
制御部203を備える情報処理装置20であって、制御部203が、集音装置40により集音された音を取得するステップ(S501)と、取得した音から、少なくとも1つの音声を抽出するステップ(S502)と、抽出した音声を解析することで、テキスト情報に変換するステップ(S503)と、テキスト情報に基づき、抽出した音声の発声者の役割を推定するステップ(S504)と、変換したテキスト情報を、役割を識別可能にユーザに提示するステップ(S505)と、を実行する情報処理装置20。
【0141】
(付記15)
集音装置40により集音された音を取得する手段(S501)と、取得した音から、少なくとも1つの音声を抽出する手段(S502)と、抽出した音声を解析することで、テキスト情報に変換する手段(S503)と、テキスト情報に基づき、抽出した音声の発声者の役割を推定する手段(S504)と、変換したテキスト情報を、役割を識別可能にユーザに提示する手段(S505)と、を備えるシステム。
【符号の説明】
【0142】
20 サーバ、22 通信IF、23 入出力IF、25 メモリ、26 ストレージ、29 プロセッサ、30 エッジサーバ、40 集音装置、50 撮影装置、80 ネットワーク、201 通信部、202 制御部、203 通信部、2021 テキスト情報データベース、2022 音声情報データベース、2023 画像情報データベース。


図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13