(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-03-21
(45)【発行日】2025-03-31
(54)【発明の名称】会話の記録を生成するためのプログラム、システム、および方法
(51)【国際特許分類】
G10L 15/00 20130101AFI20250324BHJP
G10L 17/00 20130101ALI20250324BHJP
【FI】
G10L15/00 200U
G10L17/00 200C
(21)【出願番号】P 2020190530
(22)【出願日】2020-11-16
【審査請求日】2023-11-08
(73)【特許権者】
【識別番号】515018091
【氏名又は名称】株式会社オルツ
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100107489
【氏名又は名称】大塩 竹志
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】吉村 歩
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開2016-029468(JP,A)
【文献】特開2013-011744(JP,A)
【文献】特開2019-061594(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-17/26
(57)【特許請求の範囲】
【請求項1】
第1のユーザ装置と第2のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を生成するためのプログラムであって、前記プログラムは、プロセッサ部を備えるサーバ装置において実行されると、
前記第1のユーザ装置から第1の音声を示すデータを受信することと、
前記第1の音声の話者を識別することと、
前記識別された話者が前記第1のユーザ装置で用いられている第1のアカウントにログインしている第1のユーザであるか否かを判定することと、
前記識別された話者が前記第1のユーザではないと判定される場合に、前記識別された話者が前記第1のユーザ装置を利用するゲストユーザであるか否かを判定することと、
前記識別された話者が前記第1のユーザであると判定される場合に、前記第1の音声を示すデータと前記第1の音声の話者が前記第1のユーザであることを示すデータとを出力することと、
前記識別された話者が前記ゲストユーザであると判定される場合に、前記第1の音声を示すデータと前記第1の音声の話者が前記ゲストユーザであることを示すデータとを出力することと、
前記識別された話者が前記第1のユーザでも前記ゲストユーザでもないと判定される場合に、前記第1の音声を示すデータを破棄することと
を含む処理を前記プロセッサ部に行わせる、プログラム。
【請求項2】
前記第1の音声の話者を識別することは、前記第1の音声の声紋に基づいて前記第1の音声の話者を識別することを含む、請求項1に記載のプログラム。
【請求項3】
前記第1の音声の話者を識別することは、前記第1の音声が発せれられたときの画像に基づいて前記第1の音声の話者を識別することを含む、請求項1~2のいずれか一項に記載のプログラム。
【請求項4】
前記第1の音声を示すデータと前記第1の音声の話者が前記第1のユーザであることを示すデータとを出力することは、前記第1の音声を示すデータと前記第1の音声の話者が前記第1のユーザであることを示すデータとを前記第1のユーザ装置に送信することを含み、
前記第1の音声を示すデータと前記第1の音声の話者が前記ゲストユーザであることを示すデータとを出力することは、前記第1の音声を示すデータと前記第1の音声の話者が前記ゲストユーザであることを示すデータとを前記第1のユーザ装置に送信することを含む、請求項1~3のいずれか一項に記載のプログラム。
【請求項5】
前記第1の音声を示すデータと前記第1の音声の話者が前記第1のユーザであることを示すデータとを出力することは、前記第1の音声を示すデータと前記第1の音声の話者が前記第1のユーザであることを示すデータとを記録することを含み、
前記第1の音声を示すデータと前記第1の音声の話者が前記ゲストユーザであることを示すデータとを出力することは、前記第1の音声を示すデータと前記第1の音声の話者が前記ゲストユーザであることを示すデータとを記録することを含む、請求項1~4のいずれか一項に記載のプログラム。
【請求項6】
第1のユーザ装置と第2のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を生成するためのシステムであって、
前記第1のユーザ装置から第1の音声を示すデータを受信する受信手段と、
前記第1の音声の話者を識別する識別手段と、
前記識別された話者が前記第1のユーザ装置に関連付けられたユーザであるか否かを判定する判定手段であって、前記判定手段は、
前記識別された話者が前記第1のユーザ装置で用いられている第1のアカウントにログインしている第1のユーザであるか否かを判定することと、
前記識別された話者が前記第1のユーザではないと判定される場合に、前記識別された話者が前記第1のユーザ装置を利用するゲストユーザであるか否かを判定することと
を行う、判定手段と、
前記識別された話者が前記第1のユーザ装置に関連付けられたユーザであると判定される場合に、前記第1の音声を示すデータと前記第1の音声の話者が前記識別された話者であることを示すデータとを出力する出力手段であって、前記出力手段は、
前記識別された話者が前記第1のユーザであると判定される場合に、前記第1の音声を示すデータと前記第1の音声の話者が前記第1のユーザであることを示すデータとを出力することと、
前記識別された話者が前記ゲストユーザであると判定される場合に、前記第1の音声を示すデータと前記第1の音声の話者が前記ゲストユーザであることを示すデータとを出力することと
を行う、出力手段と、
前記識別された話者が前記第1のユーザでも前記ゲストユーザでもないと判定される場合に、前記第1の音声を示すデータを破棄する破棄手段と
を備えるシステム。
【請求項7】
第1のユーザ装置と第2のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を生成するための方法であって、前記方法は、プロセッサ部を備えるサーバ装置において実行され、前記方法は、
前記プロセッサ部が、前記第1のユーザ装置から第1の音声を示すデータを受信することと、
前記プロセッサ部が、前記第1の音声の話者を識別することと、
前記プロセッサ部が、前記識別された話者が前記第1のユーザ装置で用いられている第1のアカウントにログインしている第1のユーザであるか否かを判定することと、
前記プロセッサ部が、前記識別された話者が前記第1のユーザではないと判定される場合に、前記識別された話者が前記第1のユーザ装置を利用するゲストユーザであるか否かを判定することと、
前記プロセッサ部が、前記識別された話者が前記第1のユーザであると判定される場合に、前記第1の音声を示すデータと前記第1の音声の話者が前記第1のユーザであることを示すデータとを出力することと、
前記プロセッサ部が、前記識別された話者が前記ゲストユーザであると判定される場合に、前記第1の音声を示すデータと前記第1の音声の話者が前記ゲストユーザであることを示すデータとを出力することと、
前記プロセッサ部が、前記識別された話者が前記第1の
ユーザでも前記ゲストユーザでもないと判定される場合に、前記第1の音声を示すデータを破棄することと
を含む方法。
【請求項8】
第1のユーザ装置と第2のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を生成するためのプログラムであって、前記プログラムは、音声入力手段と、プロセッサ部とを備える前記第1のユーザ装置において実行されると、
前記音声入力手段を介して入力された第1の音声を示すデータを受信することと、
前記第1の音声の話者を識別することと、
前記識別された話者が前記第1のユーザ装置で用いられている第1のアカウントにログインしている第1のユーザであるか否かを判定することと、
前記識別された話者が前記第1のユーザではないと判定される場合に、前記識別された話者が前記第1のユーザ装置を利用するゲストユーザであるか否かを判定することと、
前記識別された話者が前記第1のユーザであると判定される場合に、前記第1の音声を示すデータと前記第1の音声の話者が前記第1のユーザであることを示すデータとを出力することと、
前記識別された話者が前記ゲストユーザであると判定される場合に、前記第1の音声を示すデータと前記第1の音声の話者が前記ゲストユーザであることを示すデータとを出力することと、
前記識別された話者が前記第1のユーザでも前記ゲストユーザでもないと判定される場合に、前記第1の音声を示すデータを破棄することと
を含む処理を前記プロセッサ部に行わせる、プログラム。
【請求項9】
第1のユーザ装置と第2のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を生成するためのユーザ装置であって、前記ユーザ装置は、前記第1のユーザ装置であり、
音声を入力するための音声入力手段と、
音声入力手段を介して入力された第1の音声を示すデータを受信する受信手段と、
前記第1の音声の話者を識別する識別手段と、
前記識別された話者が前記第1のユーザ装置に関連付けられたユーザであるか否かを判定する判定手段であって、前記判定手段は、
前記識別された話者が前記第1のユーザ装置で用いられている第1のアカウントにログインしている第1のユーザであるか否かを判定することと、
前記識別された話者が前記第1のユーザではないと判定される場合に、前記識別された話者が前記第1のユーザ装置を利用するゲストユーザであるか否かを判定することと
を行う、判定手段と、
前記識別された話者が前記第1のユーザ装置に関連付けられたユーザであると判定される場合に、前記第1の音声を示すデータと前記第1の音声の話者が前記識別された話者であることを示すデータとを出力する出力手段であって、前記出力手段は、
前記識別された話者が前記第1のユーザであると判定される場合に、前記第1の音声を示すデータと前記第1の音声の話者が前記第1のユーザであることを示すデータとを出力することと、
前記識別された話者が前記ゲストユーザであると判定される場合に、前記第1の音声を示すデータと前記第1の音声の話者が前記ゲストユーザであることを示すデータとを出力することと
を行う、出力手段と、
前記識別された話者が前記第1のユーザでも前記ゲストユーザでもないと判定される場合に、前記第1の音声を示すデータを破棄する破棄手段と
を備えるユーザ装置。
【請求項10】
第1のユーザ装置と第2のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を生成するための方法であって、前記方法は、前記第1のユーザ装置において実行され、
前記第1のユーザ装置は、プロセッサ部を備え、前記方法は、
前記プロセッサ部が、前記第1のユーザ装置の音声入力手段を介して入力された第1の音声を示すデータを受信することと、
前記プロセッサ部が、前記第1の音声の話者を識別することと、
前記プロセッサ部が、前記識別された話者が前記第1のユーザ装置で用いられている第1のアカウントにログインしている第1のユーザであるか否かを判定することと、
前記プロセッサ部が、前記識別された話者が前記第1のユーザではないと判定される場合に、前記識別された話者が前記第1のユーザ装置を利用するゲストユーザであるか否かを判定することと、
前記プロセッサ部が、前記識別された話者が前記第1のユーザであると判定される場合に、前記第1の音声を示すデータと前記第1の音声の話者が前記第1のユーザであることを示すデータとを出力することと、
前記プロセッサ部が、前記識別された話者が前記ゲストユーザであると判定される場合に、前記第1の音声を示すデータと前記第1の音声の話者が前記ゲストユーザであることを示すデータとを出力することと、
前記プロセッサ部が、前記識別された話者が前記第1のユーザでも前記ゲストユーザでもないと判定される場合に、前記第1の音声を示すデータを破棄することと
を含む方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、会話の記録を生成するためのプログラム、システム、および方法に関する。より具体的には、本発明は、第1のユーザ装置と第2のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を生成するためのプログラム、システム、および方法に関する。
【背景技術】
【0002】
音声認識を使用し、議事録作成を行うシステムが知られている(例えば、特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
第1のユーザ装置と第2のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を音声認識を使用して生成する場合、第1のユーザが利用する第1のユーザ装置のマイクに対して第1のユーザが発した音声が、第2のユーザが利用する第2のユーザ装置のスピーカーから出力され、出力された音声が第2のユーザ装置のマイクによって第2のユーザ装置に入力されることにより、第1のユーザの音声があたかも第2のユーザによって発せられたかのように誤認識される場合がある。この場合には、生成される会話の記録には、第1のユーザの発言が記録されるとともに、第1のユーザの発言が第2のユーザの発言としてさらに記録されることになる。
【0005】
本発明の発明者は、第1のユーザの発言内容が重複して記録されると、生成される議事録が不確かなものとなり得るため、問題であると考えた。
【0006】
本発明は、上記問題に鑑みてなされたものであり、ユーザの発言内容が重複して記録されることを回避可能な、会話の記録を生成するためのプログラム、システム、および方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明は、例えば、以下の項目を提供する。
【0008】
(項目1)
第1のユーザ装置と第2のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を生成するためのプログラムであって、前記プログラムは、プロセッサ部を備えるサーバ装置において実行されると、
前記第1のユーザ装置から第1の音声を示すデータを受信することと、
前記第1の音声の話者を識別することと、
前記識別された話者が前記第1のユーザ装置に関連付けられたユーザであるか否かを判定することと、
前記識別された話者が前記第1のユーザ装置に関連付けられたユーザであると判定される場合に、前記第1の音声データを示すデータと前記第1の音声の話者が前記識別された話者であることを示すデータとを出力することと、
前記識別された話者が前記第1のユーザ装置に関連付けられたユーザではないと判定される場合に、前記第1の音声を示すデータを破棄することと
を含む処理を前記プロセッサ部に行わせる、プログラム。
(項目2)
前記識別された話者が前記第1のユーザ装置に関連付けられたユーザであるか否かを判定することは、
前記識別された話者が前記第1のユーザ装置で用いられている第1のアカウントを保有する第1のユーザであるか否かを判定することを含み、
前記識別された話者が前記第1のユーザであると判定される場合に、前記出力することは、前記第1の音声を示すデータと前記第1の音声の話者が前記第1のユーザであることを示すデータとを出力することを含む、項目1に記載のプログラム。
(項目3)
前記識別された話者が前記第1のユーザ装置に関連付けられたユーザであるか否かを判定することは、
前記識別された話者が前記第1のユーザ装置で用いられている第1のアカウントを利用するゲストユーザであるか否かを判定することを含み、
前記識別された話者が前記ゲストユーザであると判定される場合に、前記出力することは、前記第1の音声を示すデータと前記第1の音声の話者が前記ゲストユーザであることを示すデータとを出力することを含む、項目1または項目2に記載のプログラム。
(項目4)
前記第1の音声の話者を識別することは、前記第1の音声の声紋に基づいて前記第1の音声の話者を識別することを含む、項目1~3のいずれか一項に記載のプログラム。
(項目5)
前記第1の音声の話者を識別することは、前記第1の音声が発せれられたときの画像に基づいて前記第1の音声の話者を識別することを含む、項目1~3のいずれか一項に記載のプログラム。
(項目6)
前記出力することは、前記第1の音声を示すテキストと、前記話者を示すアイコンとを前記第1のユーザ装置に表示させることを含む、項目1~5のいずれか一項に記載のプログラム。
(項目7)
前記出力することは、前記第1の音声を示すデータと前記音声の話者が前記識別された話者であることを示すデータとを記録することを含む、項目1~6のいずれか一項に記載のプログラム。
(項目8)
第1のユーザ装置と第2のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を生成するためのシステムであって、
前記第1のユーザ装置から第1の音声を示すデータを受信する受信手段と、
前記第1の音声の話者を識別する識別手段と、
前記識別された話者が前記第1のユーザ装置に関連付けられたユーザであるか否かを判定する判定手段と、
前記識別された話者が前記第1のユーザ装置に関連付けられたユーザであると判定される場合に、前記第1の音声データを示すデータと前記第1の音声の話者が前記識別された話者であることを示すデータとを出力する出力手段と、
前記識別された話者が前記第1のユーザ装置に関連付けられたユーザではないと判定される場合に、前記第1の音声を示すデータを破棄する破棄手段と
を備えるシステム。
(項目9)
第1のユーザ装置と第2のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を生成するための方法であって、
前記第1のユーザ装置から第1の音声を示すデータを受信することと、
前記第1の音声の話者を識別することと、
前記識別された話者が前記第1のユーザ装置に関連付けられたユーザであるか否かを判定することと、
前記識別された話者が前記第1のユーザ装置に関連付けられたユーザであると判定される場合に、前記第1の音声データを示すデータと前記第1の音声の話者が前記識別された話者であることを示すデータとを出力することと、
前記識別された話者が前記第1のユーザ装置に関連付けられたユーザではないと判定される場合に、前記第1の音声を示すデータを破棄することと
を含む方法。
(項目10)
第1のユーザ装置と第2のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を生成するためのプログラムであって、前記プログラムは、音声入力手段と、プロセッサ部とを備える前記第1のユーザ装置において実行されると、
前記音声入力手段を介して入力された第1の音声を示すデータを受信することと、
前記第1の音声の話者を識別することと、
前記識別された話者が前記第1のユーザ装置に関連付けられたユーザであるか否かを判定することと、
前記識別された話者が前記第1のユーザ装置に関連付けられたユーザであると判定される場合に、前記第1の音声を示すデータと前記第1の音声の話者が前記識別された話者であることを示すデータとを出力することと、
前記識別された話者が前記第1のユーザ装置に関連付けられたユーザではないと判定される場合に、前記第1の音声を示すデータを破棄することと
を含む処理を前記プロセッサ部に行わせる、プログラム。
(項目11)
第1のユーザ装置と第2のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を生成するためのユーザ装置であって、前記ユーザ装置は、前記第1のユーザ装置であり、
音声を入力するための音声入力手段と、
音声入力手段を介して入力された第1の音声を示すデータを受信する受信手段と、
前記第1の音声の話者を識別する識別手段と、
前記識別された話者が前記第1のユーザ装置に関連付けられたユーザであるか否かを判定する判定手段と、
前記識別された話者が前記第1のユーザ装置に関連付けられたユーザであると判定される場合に、前記第1の音声を示すデータと前記第1の音声の話者が前記識別された話者であることを示すデータとを出力する出力手段と、
前記識別された話者が前記第1のユーザ装置に関連付けられたユーザではないと判定される場合に、前記第1の音声を示すデータを破棄する破棄手段と
を備えるユーザ装置。
(項目12)
第1のユーザ装置と第2のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を生成するためのプログラムであって、前記方法は、前記第1のユーザ装置において実行され、前記方法は、
前記第1のユーザ装置の音声入力手段を介して入力された第1の音声を示すデータを受信することと、
前記第1の音声の話者を識別することと、
前記識別された話者が前記第1のユーザ装置に関連付けられたユーザであるか否かを判定することと、
前記識別された話者が前記第1のユーザ装置に関連付けられたユーザであると判定される場合に、前記第1の音声を示すデータと前記第1の音声の話者が前記識別された話者であることを示すデータとを出力することと、
前記識別された話者が前記第1のユーザ装置に関連付けられたユーザではないと判定される場合に、前記第1の音声を示すデータを破棄することと
を含む方法。
【発明の効果】
【0009】
本発明によれば、ユーザの発言内容が重複して記録されることを回避可能な、会話の記録を生成するためのプログラム、システム、および方法を提供することができる。
【図面の簡単な説明】
【0010】
【
図1A】本発明者が開発した議事録生成アプリケーションを利用して、議事録を生成する様子の一例を概略的に示す図
【
図1B】本発明者が開発した議事録生成アプリケーションを利用して、議事録を生成する様子の一例を概略的に示す図
【
図1C】本発明者が開発した議事録生成アプリケーションを利用して、議事録を生成する様子の一例を概略的に示す図
【
図2A】本発明者が開発した議事録生成アプリケーションを利用して、議事録を生成する様子の一例を概略的に示す図
【
図2B】本発明者が開発した議事録生成アプリケーションを利用して、議事録を生成する様子の一例を概略的に示す図
【
図2C】本発明者が開発した議事録生成アプリケーションを利用して、議事録を生成する様子の一例を概略的に示す図
【
図2D】本発明者が開発した議事録生成アプリケーションを利用して、議事録を生成する様子の一例を概略的に示す図
【
図3】会話の記録を生成するためのシステム1000の構成の一例を示す図
【
図5】サーバ装置200のプロセッサ部230の構成の一例を示す図
【
図6】本発明の会話の記録を生成するためのシステム1000におけるデータフロー600の一例を示す図
【
図7】ステップS607の処理の一例を示すフローチャート
【
図8】ステップS703およびステップS704の詳細を示すフローチャート
【発明を実施するための形態】
【0011】
以下、図面を参照しながら、本発明の実施の形態を説明する。
【0012】
1.議事録生成アプリケーション
図1および
図2は、本発明者が開発した議事録生成アプリケーションを利用して、議事録を生成する様子の一例を概略的に示す図である。
【0013】
図1A~
図1Cに示される例では、2つの異なる空間に居るユーザAおよびユーザBが、ユーザ装置10およびユーザ装置20を利用して会話をしている。ユーザAおよびユーザBはそれぞれ、議事録生成アプリケーションを利用するためのアカウントを有している。ユーザAは、ユーザ装置10を介して自身のアカウントにログインしている。ユーザBは、ユーザ装置20を介して自身のアカウントにログインしている。
図1A(a)、
図1B(a)、
図1C(a)は、その会話での様子を示し、
図1A(b)、
図1B(b)、
図1C(b)は、そのときにユーザ装置10またはユーザ装置20の表示部に表示される議事録の一例を示す。
【0014】
まず、
図1A(a)に示されるように、ユーザAがユーザBに向かって「賛成です。」と発言するとき、ユーザAは、ユーザ装置10のマイクに対して「賛成です。」と発言する。すると、議事録生成アプリケーションは、ユーザAによる音声を認識し(すなわち、「賛成です。」を認識し)、かつ、その音声がユーザAがユーザ装置10に対して発言した音声であると認識することにより、「賛成です。」をユーザAによる発言として記録する。
【0015】
すると、
図1A(b)に示されるように、ユーザ装置10またはユーザ装置20の表示部には、ユーザAを示すアイコンと、発言内容「賛成です。」とが表示される。これにより、ユーザAが「賛成です。」と発言したことが視覚的に理解される。
【0016】
図1A(a)に示されるようにユーザAが発言した後、その発言は、
図1B(a)に示されるように、ユーザ装置20のスピーカーから出力される。これにより、ユーザBは、ユーザAの発言を聞くことができる。このとき、ユーザ装置20のマイクが、ユーザ装置20のスピーカーから出力された音声を拾ってしまうと、議事録生成アプリケーションは、ユーザ装置20のスピーカーから出力された音声を認識し(すなわち、「賛成です。」を認識し)、かつ、その音声がユーザBがユーザ装置20に対して発言した音声であると誤認識することにより、「賛成です。」をユーザBによる発言として記録する。
【0017】
すると、
図1B(b)に示されるように、ユーザ装置10またはユーザ装置20の表示部には、ユーザBを示すアイコンと、発言内容「賛成です。」とが表示される。しかしながら、この記録および表示は正しくない。ユーザBの意思にかかわらず、あたかもユーザBも賛成したかのように記録されるため、生成された議事録は不確かで信憑性が低いものとなる。
【0018】
そこで、議事録生成アプリケーションは、ユーザ装置20のマイクに入力された音声の話者を識別することにより、識別結果に基づいて、正しくない記録および表示を削除する。
【0019】
このようにして、
図1C(b)に示されるように、ユーザBを示すアイコンと、発言内容「賛成です。」とが削除されて、正しい記録だけが残り、正しい議事録が生成されることになる。これにより、議事録の信憑性を高めることができる。
【0020】
図2A~
図2Dに示される例では、2つの異なる空間に居るユーザA、ユーザB、ユーザCが、ユーザAのユーザ装置10およびユーザBのユーザ装置20を利用して会話をしている。ユーザA、ユーザB、ユーザCはそれぞれ、議事録生成アプリケーションを利用するためのアカウントを有している。ユーザAおよびユーザCは同一の空間に居る。ユーザAは、ユーザ装置10を介して自身のアカウントにログインしている。ユーザBは、ユーザ装置20を介して自身のアカウントにログインしている。ユーザCは、ユーザ装置10を利用して、ゲストユーザとして会話に参加している。
図2A(a)、
図2B(a)、
図2C(a)、
図2D(a)は、その会話での様子を示し、
図2A(b)、
図2B(b)、
図2C(b)、
図2D(b)は、そのときにユーザ装置10またはユーザ装置20の表示部に表示される議事録の一例を示す。
【0021】
まず、
図2A(a)に示されるように、ユーザCがユーザAおよびユーザBに向かって「賛成です。」と発言するとき、ユーザCは、ユーザ装置10のマイクに対して「賛成です。」と発言する。すると、議事録生成アプリケーションは、ユーザCによる音声を認識し(すなわち、「賛成です。」を認識し)、かつ、その音声がユーザAがユーザ装置10に対して発言した音声であると誤認識することにより、「賛成です。」をユーザAによる発言として記録する。
【0022】
すると、
図2A(b)に示されるように、ユーザ装置10またはユーザ装置20の表示部には、ユーザAを示すアイコンと、発言内容「賛成です。」とが表示される。しかしながら、この記録および表示は正しくない。ユーザAの意思にかかわらず、あたかもユーザAが賛成したかのように記録されるため、生成された議事録は不確かで信憑性が低いものとなる。
【0023】
そこで、議事録生成アプリケーションは、ユーザ装置10のマイクに入力された音声の話者を識別することにより、識別結果に基づいて、正しい話者に変更して記録する。
【0024】
このようにして、
図2B(b)に示されるように、ユーザAを示すアイコンがユーザCを示すアイコンに変更され、ユーザCを示すアイコンと、発言内容「賛成です。」とが表示される。正しい話者(ユーザC)による発言が記録され、正しい議事録が生成されることになる。
【0025】
図2A(a)に示されるようにユーザCが発言した後、その発言は、
図2C(a)に示されるように、ユーザ装置20のスピーカーから出力される。これにより、ユーザBは、ユーザCの発言を聞くことができる。このとき、ユーザ装置20のマイクが、ユーザ装置20のスピーカーから出力された音声を拾ってしまうと、議事録生成アプリケーションは、ユーザ装置20のスピーカーから出力された音声を認識し(すなわち、「賛成です。」を認識し)、かつ、その音声がユーザBがユーザ装置20に対して発言した音声であると誤認識することにより、「賛成です。」をユーザBによる発言として記録する。
【0026】
すると、
図2C(b)に示されるように、ユーザ装置10またはユーザ装置20の表示部には、ユーザBを示すアイコンと、発言内容「賛成です。」とが表示される。しかしながら、この記録および表示は正しくない。ユーザBの意思にかかわらず、あたかもユーザBも賛成したかのように記録されるため、生成された議事録は不確かで信憑性が低いものとなる。
【0027】
そこで、議事録生成アプリケーションは、ユーザ装置20のマイクに入力された音声の話者を識別することにより、識別結果に基づいて、正しくない記録および表示を削除する。
【0028】
このようにして、
図2Dに示されるように、ユーザBを示すアイコンと、発言内容「賛成です。」とが削除されて、正しい記録だけが残り、正しい議事録が生成されることになる。これにより、議事録の信憑性を高めることができる。
【0029】
上述した例では、各ユーザが議事録生成アプリケーションを利用するためのアカウントを有していることを例に説明したが、本発明はこれに限定されない。各ユーザがアカウントを有していない場合であっても、議事録生成アプリケーションにより、正しい議事録を生成することが可能である。
【0030】
上述した例では、誤認識された発言が記録された後に、話者識別の結果に基づいて、記録された発言の話者を変更するまたは記録された発言を削除することを説明したが、本発明はこれに限定されない。例えば、発言を記録する前に、話者を識別し、話者識別の結果に基づいて、正しい情報のみを記録するようにしてもよい。このとき、例えば、
図1Bに示される例では、ユーザBによる「賛成です。」という発言は記録も表示もされない。
【0031】
議事録生成アプリケーションは、例えば、以下に説明する本発明の会話の記録を生成するためのシステムによって実装され得る。
【0032】
2.本発明の会話の記録を生成するためのシステムの構成
図3は、会話の記録を生成するためのシステム1000の構成の一例を示す。
【0033】
システム1000は、少なくとも1つのユーザ装置100と、少なくとも1つのユーザ装置100にネットワーク400を介して接続されているサーバ装置200と、サーバ装置200に接続されているデータベース部300とを含む。
【0034】
ユーザ装置100は、スマートフォン、タブレット、パーソナルコンピュータ、スマートグラス等の任意の端末装置であり得る。ユーザ装置100は、ネットワーク400を介してサーバ装置200と通信することができる。ここで、ネットワーク400の種類は問わない。例えば、ユーザ装置100は、インターネットを介してサーバ装置200と通信してもよいし、LANを介してサーバ装置200と通信してもよい。
図2には2つのユーザ装置100が描写されているが、ユーザ装置100の数はこれに限定されない。ユーザ装置100の数は、2以上の任意の数であり得る。
【0035】
サーバ装置200は、ネットワーク400を介して少なくとも1つのユーザ装置100と通信することができる。また、サーバ装置200は、サーバ装置200に接続されているデータベース部300と通信することができる。
【0036】
サーバ装置200に接続されているデータベース部300には、例えば、ユーザのアカウントに関する情報が格納されている。ユーザのアカウントに関する情報は、少なくとも、ユーザの識別子(例えば、ユーザ名)と、そのユーザを識別する特徴(例えば、声紋、または、顔画像等)を含む。ユーザのアカウントに関する情報は、他の情報も含み得る。なお、ユーザの識別子と、そのユーザを識別する特徴とは、必ずしもユーザのアカウントに関連付けられる必要はなく、例えば、ユーザの識別子と、そのユーザを識別する特徴とが対応付けられて格納されれば足りる。
【0037】
【0038】
ユーザ装置100は、通信インターフェース部110と、入力部120と、表示部130と、メモリ部140と、プロセッサ部150と、音声入力部160と、音声出力部170とを備える。
【0039】
通信インターフェース部110は、ネットワーク400を介した通信を制御する。ユーザ装置100のプロセッサ部150は、通信インターフェース部110を介して、ユーザ装置100の外部から情報を受信することが可能であり、ユーザ装置100の外部に情報を送信することが可能である。通信インターフェース部110は、任意の方法で通信を制御し得る。
【0040】
入力部120は、ユーザが情報をユーザ装置100に入力することを可能にする。入力部120が、どのような態様で、ユーザが情報をユーザ装置100に入力することを可能にするかは問わない。例えば、入力部120がタッチパネルである場合には、ユーザがタッチパネルにタッチすることによって情報を入力するようにしてもよい。あるいは、入力部120がマウスである場合には、ユーザがマウスを操作することによって情報を入力するようにしてもよい。あるいは、入力部120がキーボードである場合には、ユーザがキーボードのキーを押下することによって情報を入力するようにしてもよい。
【0041】
表示部130は、情報を表示するための任意のディスプレイであり得る。
【0042】
メモリ部140には、ユーザ装置100における処理を実行するためのプログラムやそのプログラムの実行に必要とされるデータ等が格納されている。メモリ部140には、例えば、会話の記録を生成するためのプログラム(例えば、後述する
図7~
図8に示される処理を実現するプログラム)の一部または全部が格納されている。メモリ部140には、任意の機能を実装するアプリケーションが格納されていてもよい。メモリ部140には、例えば、音声データをテキストに変換する音声認識アプリケーションが格納されていてもよい。ここで、プログラムをどのようにしてメモリ部140に格納するかは問わない。例えば、プログラムは、メモリ部140にプリインストールされていてもよい。あるいは、プログラムは、ネットワーク400を経由してダウンロードされることによってメモリ部140にインストールされるようにしてもよい。メモリ部140は、任意の記憶手段によって実装され得る。
【0043】
プロセッサ部150は、ユーザ装置100全体の動作を制御する。プロセッサ部150は、メモリ部140に格納されているプログラムを読み出し、そのプログラムを実行する。これにより、ユーザ装置100を所望のステップを実行する装置として機能させることが可能である。プロセッサ部150は、単一のプロセッサによって実装されてもよいし、複数のプロセッサによって実装されてもよい。
【0044】
音声入力部160は、音声を受信するための任意の手段である。音声入力部160は、例えば、マイクである。
【0045】
音声出力部170は、音声を出力するための任意の手段である。音声出力部170は、例えば、スピーカーである。
【0046】
ユーザ装置100は、上記構成に加えて、例えば、画像を撮影可能である任意のカメラを備え得る。カメラは、ユーザ装置100に内蔵のカメラであってもよいし、ユーザ装置100に取り付けられる外部カメラであってもよい。
【0047】
図4Aに示される例では、ユーザ装置100の各構成要素がユーザ装置100内に設けられているが、本発明はこれに限定されない。ユーザ装置100の各構成要素のいずれかがユーザ装置100の外部に設けられることも可能である。例えば、入力部120、表示部130、メモリ部140、プロセッサ部150、音声入力部160、音声出力部170のそれぞれが別々のハードウェア部品で構成されている場合には、各ハードウェア部品が任意のネットワークを介して接続されてもよい。このとき、ネットワークの種類は問わない。各ハードウェア部品は、例えば、LANを介して接続されてもよいし、無線接続されてもよいし、有線接続されてもよい。ユーザ装置100は、特定のハードウェア構成には限定されない。例えば、プロセッサ部150をデジタル回路ではなくアナログ回路によって構成することも本発明の範囲内である。ユーザ装置100の構成は、その機能を実現できる限りにおいて上述したものに限定されない。
【0048】
【0049】
サーバ装置200は、通信インターフェース部210と、メモリ部220と、プロセッサ部230とを備える。
【0050】
通信インターフェース部210は、ネットワーク400を介した通信を制御する。また、通信インターフェース部210は、データベース部300との通信も制御する。サーバ装置200のプロセッサ部230は、通信インターフェース部210を介して、サーバ装置200の外部から情報を受信することが可能であり、サーバ装置200の外部に情報を送信することが可能である。例えば、サーバ装置200のプロセッサ部230は、少なくとも1つのユーザ装置100からネットワーク400を介して、音声を示すデータを受信する。音声を示すデータは、例えば、音声データ(例えば、音声波形のアナログ信号、音声波形のデジタル信号)であってもよいし、音声認識データ(例えば、音声認識により音声をテキスト化したテキストデータ)であってもよいし、それらのデータの組み合わせであってもよい。例えば、サーバ装置200のプロセッサ部230は、少なくとも1つのユーザ装置100からネットワーク400を介して、画像データを受信する。画像データは、例えば、静止画データであってもよいし、動画データであってもよい。例えば、サーバ装置200のプロセッサ部230は、少なくとも1つのユーザ装置100にネットワーク400を介して音声を示すデータ(例えば、音声データ、音声認識データ、またはそれらの組み合わせ)および音声の話者が誰であるかを示すデータを送信する。例えば、サーバ装置200のプロセッサ部230はデータベース部300からユーザのアカウントに関する情報を受信し得る。通信インターフェース部210は、任意の方法で通信を制御し得る。
【0051】
メモリ部220には、サーバ装置200の処理の実行に必要とされるプログラムやそのプログラムの実行に必要とされるデータ等が格納されている。例えば、会話の記録を生成するためのプログラム(例えば、後述する
図7~
図8に示される処理を実現するプログラム)の一部または全部が格納されている。メモリ部220には、例えば、音声データをテキストに変換する音声認識アプリケーションが格納されていてもよい。メモリ部220は、任意の記憶手段によって実装され得る。
【0052】
プロセッサ部230は、サーバ装置200全体の動作を制御する。プロセッサ部230は、メモリ部220に格納されているプログラムを読み出し、そのプログラムを実行する。これにより、サーバ装置200を所望のステップを実行する装置として機能させることが可能である。プロセッサ部230は、単一のプロセッサによって実装されてもよいし、複数のプロセッサによって実装されてもよい。
【0053】
図4Bに示される例では、サーバ装置200の各構成要素がサーバ装置200内に設けられているが、本発明はこれに限定されない。サーバ装置200の各構成要素のいずれかがサーバ装置200の外部に設けられることも可能である。例えば、メモリ部220、プロセッサ部230のそれぞれが別々のハードウェア部品で構成されている場合には、各ハードウェア部品が任意のネットワークを介して接続されてもよい。このとき、ネットワークの種類は問わない。各ハードウェア部品は、例えば、LANを介して接続されてもよいし、無線接続されてもよいし、有線接続されてもよい。サーバ装置200は、特定のハードウェア構成には限定されない。例えば、プロセッサ部230をデジタル回路ではなくアナログ回路によって構成することも本発明の範囲内である。サーバ装置200の構成は、その機能を実現できる限りにおいて上述したものに限定されない。
【0054】
図3、
図4Bに示される例では、データベース部300は、サーバ装置200の外部に設けられているが、本発明はこれに限定されない。データベース部300をサーバ装置200の内部に設けることも可能である。このとき、データベース部300は、メモリ部220を実装する記憶手段と同一の記憶手段によって実装されてもよいし、メモリ部220を実装する記憶手段とは別の記憶手段によって実装されてもよい。いずれにせよ、データベース部300は、サーバ装置200のための格納部として構成される。データベース部300の構成は、特定のハードウェア構成に限定されない。例えば、データベース部300は、単一のハードウェア部品で構成されてもよいし、複数のハードウェア部品で構成されてもよい。例えば、データベース部300は、サーバ装置200の外付けハードディスク装置として構成されてもよいし、ネットワークを介して接続されるクラウド上のストレージとして構成されてもよい。
【0055】
図5は、サーバ装置200のプロセッサ部230の構成の一例を示す。
【0056】
プロセッサ部230は、受信手段231と、識別手段232と、判定手段233と、出力手段234と、破棄手段235とを備える。
【0057】
受信手段231は、音声を示すデータを受信するように構成されている。音声を示すデータは、例えば、音声データであってもよいし、音声認識データであってもよいし、音声データと音声認識データとの組み合わせであってもよい。受信手段231は、例えば、少なくとも1つのユーザ装置100から通信インターフェース部210を介して、音声を示すデータを受信することができる。受信手段231が受信する音声を示すデータは、少なくとも1つのユーザ装置100から送信されたデータ自体であってもよいし、少なくとも1つのユーザ装置100から送信されたデータをプロセッサ部230が加工することによって生成されたデータ(例えば、プロセッサ部230が音声認識を行うことによって生成された音声認識データ)であってもよい。
【0058】
一実施形態において、受信手段231は、少なくとも1つのユーザ装置100から通信インターフェース部210を介して、音声データを受信することができる。別の実施形態において、受信手段231は、少なくとも1つのユーザ装置100から通信インターフェース部210を介して、音声認識データを受信することができる。別の実施形態において、受信手段231は、少なくとも1つのユーザ装置100から通信インターフェース部210を介して受信された音声データから生成された音声認識データを受信することができる。
【0059】
受信された音声を示すデータは、識別手段232に渡される。
【0060】
識別手段232は、受信されたデータが示す音声の話者を識別するように構成されている。識別手段232は、任意の手段を利用して、音声の話者を識別することができる。
【0061】
一実施形態において、識別手段232は、例えば、音声の声紋に基づいて、話者を識別することができる。例えば、識別手段232は、データベース部300に登録されている複数のユーザの声紋の各々と、音声の声紋とを比較することによって、話者を識別することができる。例えば、音声の声紋が、データベース部300に登録されている複数のユーザの声紋のうちの1つに一致する場合に、その声紋のユーザを音声の話者であると識別し、音声の声紋が、データベース部300に登録されている複数のユーザの声紋のいずれにも一致しない場合、あるいは、データベース部300に登録されている複数のユーザの声紋のうちの複数と一致する場合に、識別不能とすることができる。あるいは、例えば、データベース部300に登録されている複数のユーザの声紋のうち、音声の声紋が最も類似する声紋のユーザを音声の話者であると識別することができる。
【0062】
識別手段232は、音声分析の分野または音声認証の分野において公知の技術を用いて、音声から声紋を抽出することができる。また、識別手段232は、音声分析の分野または音声認証の分野において公知の技術を用いて、声紋の一致または類似を判定することができる。
【0063】
別の実施形態において、識別手段232は、例えば、音声が発せられたときの画像に基づいて、音声の話者を識別することができる。画像は、複数の静止画または動画であり得る。例えば、識別手段232は、音声が発せられたときの画像を分析し、唇が動いている人物を音声の話者であると識別することができる。このとき、識別手段232は、画像内の人物が誰であるかも識別する。例えば、識別手段232は、データベース部300に登録されている複数のユーザの顔画像の各々と、画像内の人物の顔画像とを比較することによって、画像内の人物を識別することができる。例えば、画像内の人物の顔画像が、データベース部300に登録されている複数のユーザの顔画像のうちの1つに一致する場合に、その顔画像のユーザを画像内の人物であると識別し、画像内の人物の顔画像が、データベース部300に登録されている複数のユーザの顔画像のいずれにも一致しない場合、あるいは、データベース部300に登録されている複数のユーザの顔画像のうちの複数と一致する場合に、識別不能とすることができる。あるいは、例えば、データベース部300に登録されている複数のユーザの顔画像のうち、画像内の人物の顔画像が最も類似する顔画像のユーザを画像内の人物であると識別することができる。
【0064】
識別手段232は、画像分析の分野または画像認証の分野において公知の技術を用いて、唇が動いている人物を識別することができる。また、識別手段232は、画像分析の分野または画像認証の分野において公知の技術を用いて、顔画像の一致または類似を判定することができる。
【0065】
判定手段233は、識別手段232によって識別された話者が、音声を示すデータを送信したユーザ装置に関連付けられたユーザであるか否かを判定するように構成されている。例えば、第1のユーザ装置と第2のユーザ装置とを含む複数のユーザ装置を利用した会話において、第1のユーザ装置から音声を示すデータを受信した場合、判定手段233は、識別手段232によって識別された話者が第1のユーザ装置に関連付けられたユーザであるか否かを判定する。ユーザ装置に関連付けられたユーザは、そのユーザ装置を利用するユーザであり得る。例えば、第1のユーザが第1のユーザ装置を介して自身のアカウントにログインした場合、第1のユーザは、第1のユーザ装置に関連付けられたユーザとなる。例えば、第2のユーザがゲストユーザとして第1のユーザ装置を利用する場合、第2のユーザは、第1のユーザ装置に関連付けられたユーザとなる。第1のユーザ装置のゲストユーザとしての登録は、例えば、第1のユーザ装置を介してゲストユーザのリクエストをサーバ装置200に送信することによって行われる。
【0066】
出力手段234は、識別手段232によって識別された話者が、音声を示すデータを送信したユーザ装置に関連付けられたユーザであると判定される場合に、音声を示すデータと、その音声の話者が識別手段232によって識別された話者であることを示すデータとを出力するように構成されている。例えば、第1のユーザ装置から音声を示すデータを受信した場合、識別手段232によって識別された話者が、第1のユーザ装置に関連付けられたユーザであると判定された場合に、出力手段234は、音声を示すデータと、その音声の話者が識別手段232によって識別された話者であることを示すデータとを出力する。
【0067】
出力手段234がデータを出力する態様は問わない。出力手段234は、例えば、データを少なくとも1つのユーザ装置100に送信し、そのデータを少なくとも1つのユーザ装置100に出力させるようにしてもよい。このとき、音声を示すデータが音声データである場合に、プロセッサ部230が、音声データに音声認識処理を行うことにより音声認識データに変換したうえで、出力手段234が、音声認識データを少なくとも1つのユーザ装置100に送信するようにしてもよい。あるいは、出力手段234が、音声データを少なくとも1つのユーザ装置100に送信した後に、少なくとも1つのユーザ装置100が音声データに音声認識処理を行うことにより音声認識データに変換するようにしてもよい。データを受信した少なくとも1つのユーザ装置100は、例えば、表示部130にデータを表示することができる。表示部130には、例えば、音声を示すテキストと、話者を示すアイコンとが表示され得る。これは、会話の可視的な記録となり得、会話が会議中のものであれば、これは議事録となり得る。例えば、少なくとも1つのユーザ装置100は、その記憶手段(例えば、内部記憶装置または外部記憶装置)にデータを記録することができる。記憶手段には、音声を示すデータと、その音声の話者が識別手段232によって識別された話者であることを示すデータとが対となって記録される。これは、会話の記録となり得、会話が会議中のものであれば、これは議事録となり得る。
【0068】
出力手段234は、例えば、データベース部300またはサーバ装置の記憶手段にデータを記録することができる。データベース部300またはサーバ装置の記憶手段には、音声を示すデータと、その音声の話者が識別手段232によって識別された話者であることを示すデータとが対となって記録される。これは、会話の記録となり得、会話が会議中のものであれば、これは議事録となり得る。
【0069】
破棄手段235は、識別手段232によって識別された話者が、音声を示すデータを送信したユーザ装置に関連付けられたユーザではないと判定された場合に、音声を示すデータを破棄するように構成されている。例えば、第1のユーザ装置から音声を示すデータを受信した場合、識別手段232によって識別された話者が、第1のユーザ装置に関連付けられたユーザではない場合に、破棄手段235は、音声を示すデータを破棄する。これは、例えば、識別手段232によって識別された話者が、第2のユーザ装置に関連付けられたユーザである場合、または、識別手段232によって識別された話者が、いずれのユーザ装置にも関連付けられていない場合であり得る。識別手段232によって識別された話者が、音声を示すデータを送信したユーザ装置に関連付けられたユーザではない場合は、上述したように、音声を示すデータが、ユーザが発した音声ではなくスピーカーによって発せられた音声を示し得るため、会話の記録を作成する上で不要なデータであるからである。破棄手段235が音声を示すデータを破棄することにより、プロセッサ部230は、誤った会話の記録を生成することを回避することができる。
【0070】
破棄手段235がデータを破棄する態様は問わない。破棄手段235は、データを最終的な会話の記録の生成に使用しない限り、任意の態様でデータを破棄することができる。例えば、破棄手段235は、データを完全に消去するようにしてもよいし、データを復元可能に消去するようにしてもよい。例えば、破棄手段235は、判定手段233による判定後すぐにデータを破棄してもよいし、一定期間データを保持した後にデータを破棄してもよい。例えば、破棄手段235は、例えば、
図1、
図2に示されるように、ユーザ装置に音声を示すデータを送信し、ユーザ装置から出力した後に、ユーザ装置にそのデータを破棄させるようにしてもよい。例えば、破棄手段235は、データベース部300またはサーバ装置の記憶手段にデータを記録した後に、そのデータを破棄するようにしてもよい。
【0071】
上述した
図5に示される例では、プロセッサ部230の各構成要素が同一のプロセッサ部230内に設けられているが、本発明はこれに限定されない。プロセッサ部230の各構成要素が複数のプロセッサ部に分散される構成も本発明の範囲内である。このとき、複数のプロセッサ部は、同一のハードウェア部品内に位置してもよいし、近傍または遠隔の別個のハードウェア部品内に位置してもよい。
【0072】
3.本発明の会話の記録を生成するためのシステムによる処理
図6は、本発明の会話の記録を生成するためのシステム1000におけるデータフロー600の一例を示す。本例では、第1のユーザと第2のユーザとが、第1のユーザ装置100
1と第2のユーザ装置100
2と利用して会話をするときに、第1のユーザが発言した場合を例に説明する。
図6では、第1のユーザ装置100
1と第2のユーザ装置100
2とサーバ装置200と、データベース部300との間のデータのフローが示されている。
【0073】
まず、第1のユーザが、第1のユーザ装置1001の音声入力部160(例えば、マイク)に対して発言する。
【0074】
ステップS601では、発言された第1の音声が、第1のユーザ装置1001の音声入力部160を介して第1のユーザ装置1001に入力される。入力された音声は、第1の音声を示すデータとして取り扱われる。第1の音声を示すデータは、例えば、音声データであってもよいし、第1のユーザ装置1001が音声認識処理を行う場合には、音声認識データであってもよい。
【0075】
ステップS602では、第1の音声を示すデータがサーバ装置200に送信される。サーバ装置200が第1の音声を示すデータを受信すると、受信された第1の音声を示すデータに対して、ステップS607の処理が行われる。
【0076】
ステップS603では、第1の音声を示すデータが第2のユーザ装置1002に送信される。第1の音声を示すデータは、第1のユーザ装置1001から第2のユーザ装置1002に直接的に送信されてもよいし、第1のユーザ装置1001から第2のユーザ装置1002に間接的に送信されてもよい。例えば、第1の音声を示すデータは、サーバ装置200を介して第2のユーザ装置1002に送信されることができる。このとき、ステップS602で送信されたデータの複製が第2のユーザ装置1002に送信されるようにしてもよい。
【0077】
第2のユーザ装置1002が第1の音声を示すデータを受信すると、ステップS604で、第2のユーザ装置1002の音声出力部170(例えば、スピーカー)から第1の音声を出力する。これにより、第2のユーザは、第1のユーザの発言を聞くことができる。
【0078】
ステップS605では、第2のユーザ装置1002の音声出力部170から出力された音声が、第2のユーザ装置1002の音声入力部160を介して第2のユーザ装置1002に入力される。入力された音声は、第2の音声を示すデータとして取り扱われる。第2の音声を示すデータは、例えば、音声データであってもよいし、第2のユーザ装置1002が音声認識処理を行う場合には、音声認識データであってもよい。
【0079】
ステップS606では、第2の音声を示すデータがサーバ装置200に送信される。サーバ装置200が第2の音声を示すデータを受信すると、受信された第2の音声を示すデータに対して、ステップS607の処理が行われる。
【0080】
ステップS607では、会話の記録を生成するための処理が行われる。ステップS607の詳細は、
図7を参照して後述する。
【0081】
ステップS607の処理により、ステップS602で受信された第1の音声を示すデータが、第1の音声の話者が第1のユーザであることを示すデータと共に出力される。他方で、ステップS607の処理により、ステップS606で受信された第2の音声を示すデータは、破棄される。
【0082】
ステップS608では、ステップS607で出力された、第1の音声を示すデータと、第1の音声の話者が第1のユーザであることを示すデータとが、第1のユーザ装置1001に送信される。音声を示すデータが音声データである場合に、プロセッサ部230が、音声データに音声認識処理を行うことにより音声認識データに変換したうえで、音声認識データを第1のユーザ装置1001に送信するようにしてもよい。あるいは、音声データを第1のユーザ装置1001に送信した後に、第1のユーザ装置1001が音声データに音声認識処理を行うことにより音声認識データに変換するようにしてもよい。
【0083】
第1のユーザ装置100
1がそれらのデータを受信すると、ステップS609では、受信されたデータが、第1のユーザ装置100
1の表示部130に表示される。例えば、表示部130には、
図1に示されるように、第1の音声を示すテキストと、第1の音声の話者が第1のユーザであることを示すアイコンとが表示され得る。これにより、第1のユーザの発言が記録された会話の記録が作成され、第1のユーザは、これを見ることができる。あるいは、これに代えて、または、これに加えて、ステップS609では、受信されたデータが、第1のユーザ装置100
1の記憶手段に記録されるようにしてもよい。これにより、第1のユーザの発言が記録された会話の記録が作成される。
【0084】
ステップS610では、ステップS607で出力された、第1の音声を示すデータと、第1の音声の話者が第1のユーザであることを示すデータとが、第2のユーザ装置1002に送信される。音声を示すデータが音声データである場合に、プロセッサ部230が、音声データに音声認識処理を行うことにより音声認識データに変換したうえで、音声認識データを第2のユーザ装置1002に送信するようにしてもよい。あるいは、音声データを第2のユーザ装置1002に送信した後に、第2のユーザ装置1002が音声データに音声認識処理を行うことにより音声認識データに変換するようにしてもよい。
【0085】
第2のユーザ装置100
2がそれらのデータを受信すると、ステップS611では、受信されたデータが、第2のユーザ装置100
2の表示部130に表示される。例えば、表示部130には、
図1に示されるように、第1の音声を示すテキストと、第1の音声の話者が第1のユーザであることを示すアイコンとが表示され得る。これにより、第1のユーザの発言が記録された会話の記録が作成され、第2のユーザは、これを見ることができる。あるいは、これに代えて、または、これに加えて、ステップS611では、受信されたデータが、第2のユーザ装置100
2の記憶手段に記録されるようにしてもよい。これにより、第1のユーザの発言が記録された会話の記録が作成される。
【0086】
ステップS608~ステップS611に代えて、または、ステップS608~ステップS611に加えて、ステップ612およびステップS613が行われるようにしてもよい。
【0087】
ステップS612では、ステップS607で出力された、第1の音声を示すデータと、第1の音声の話者が第1のユーザであることを示すデータとが、データベース部300に送信される。
【0088】
データベース部300がそれらのデータを受信すると、ステップS613では、受信されたデータが、データベース部300に記録される。例えば、データベース部300には、第1の音声を示すデータと、第1の音声の話者が第1のユーザであることを示すデータとが対となって記録される。これにより、第1のユーザの発言が記録された会話の記録が作成される。
【0089】
このようにして作成された会話の記録には、ステップS606で受信された第2の音声を示すデータは記録されないため、作成された会話の記録に第1のユーザの発言内容が重複して記録されることはない。
【0090】
図7は、ステップS607の処理の一例を示すフローチャートである。ステップS607の処理は、サーバ装置200のプロセッサ部230において行われる。
【0091】
ステップS701では、プロセッサ部230の受信手段231が、第1の音声を示すデータを受信する。第1の音声を示すデータは、第1のユーザ装置1001から通信インターフェース部210を介して受信され得る。受信される第1の音声を示すデータは、例えば、第1のユーザ装置1001から受信された音声データであってもよいし、第1のユーザ装置1001による音声認識処理によって生成された音声認識データであってもよいし、第1のユーザ装置1001から受信された音声データに対するプロセッサ部230による音声認識処理によって生成された音声認識データであってもよいし、音声データと音声認識データとの組み合わせであってもよい。
【0092】
ステップS702では、プロセッサ部230の識別手段232が、ステップS701で受信されたデータが示す第1の音声の話者を識別する。
【0093】
一実施形態において、識別手段232は、例えば、音声の声紋に基づいて、第1の音声の話者を識別する。例えば、識別手段232は、データベース部300に登録されている複数のユーザの声紋の各々と、第1の音声の声紋とを比較することによって、第1の音声の話者を識別することができる。例えば、第1の音声の声紋が、データベース部300に登録されている複数のユーザの声紋のうちの1つに一致する場合に、その声紋のユーザを第1の音声の話者であると識別することができる。あるいは、例えば、データベース部300に登録されている複数のユーザの声紋のうち、第1の音声の声紋が最も類似する声紋のユーザを第1の音声の話者であると識別することができる。
【0094】
別の実施形態において、識別手段232は、例えば、音声が発せられたときの画像に基づいて、第1の音声の話者を識別することができる。例えば、識別手段232は、第1の音声が発せられたときの画像を分析し、唇が動いている人物を第1の音声の話者であると識別することができる。このとき、識別手段232は、画像内の人物が誰であるかも識別する。例えば、識別手段232は、データベース部300に登録されている複数のユーザの顔画像の各々と、画像内の人物の顔画像とを比較することによって、画像内の人物を識別することができる。例えば、画像内の人物の顔画像が、データベース部300に登録されている複数のユーザの顔画像のうちの1つに一致する場合に、その顔画像のユーザを画像内の人物であると識別することができる。あるいは、例えば、データベース部300に登録されている複数のユーザの顔画像のうち、画像内の人物の顔画像が最も類似する顔画像のユーザを画像内の人物であると識別することができる。
【0095】
ステップS703では、プロセッサ部230の判定手段233が、ステップS702で識別された話者が、第1のユーザ装置1001に関連付けられたユーザであるか否かを判定する。ユーザ装置に関連付けられたユーザは、そのユーザ装置を利用するユーザであり得る。例えば、第1のユーザが第1のユーザ装置1001を介して自身のアカウントにログインした場合、第1のユーザは、第1のユーザ装置1001に関連付けられたユーザとなる。例えば、第2のユーザがゲストユーザとして第1のユーザ装置1001を利用する場合、第2のユーザは、第1のユーザ装置1001に関連付けられたユーザとなる。
【0096】
判定手段233は、例えば、第1のユーザ装置1001を利用するユーザのアカウントまたは第1のユーザ装置1001を利用するゲストユーザのアカウントと、ステップS702で識別された話者とを照合することにより、ステップS702で識別された話者が、第1のユーザ装置1001に関連付けられたユーザであるか否かを判定する。
【0097】
ステップS702で識別された話者が、第1のユーザ装置に関連付けられたユーザであると判定された場合、ステップS704に進む。ステップS702で識別された話者が、第1のユーザ装置に関連付けられたユーザではないと判定された場合、ステップS705に進む。
【0098】
ステップS704では、プロセッサ部230の出力手段234が、第1の音声を示すデータと、第1の音声の話者がステップS702で識別された話者であることを示すデータとを出力する。出力手段234がデータを出力する態様は問わない。例えば、ステップS608またはステップS610で説明されたように、第1のユーザ装置1001および/または第2のユーザ装置1002にデータが送信されるようにしてもよい。あるいは、ステップS612で説明されたように、データベース部300にデータが送信されるようにしてもよい。
【0099】
ステップS705では、プロセッサ部230の破棄手段235が、第1の音声を示すデータを破棄する。破棄手段235がデータを破棄する態様は問わない。破棄手段235は、データを最終的な会話の記録の生成に使用しない限り、任意の態様でデータを破棄することができる。例えば、破棄手段235は、データを完全に消去するようにしてもよいし、データを復元可能に消去するようにしてもよい。例えば、破棄手段235は、判定手段233による判定後すぐにデータを破棄してもよいし、一定期間データを保持した後にデータを破棄してもよい。例えば、破棄手段235は、例えば、ステップS608、ステップS610、ステップS612のように、第1のユーザ装置1001および/または第2のユーザ装置1002および/またはデータベース部300にデータを送信した後に、第1のユーザ装置1001および/または第2のユーザ装置1002および/またはデータベース部300にそのデータを破棄させるようにしてもよい。
【0100】
例えば、ステップS602で受信された第1の音声の場合、ステップS701で第1のユーザ装置から第1の音声を受信し、ステップS702で話者が第1のユーザであると識別され、ステップS703で、第1のユーザが第1のユーザ装置に関連付けられたユーザであると判定されるため、ステップS704に進み、第1の音声を示すデータと、第1の音声の話者が第1のユーザであることを示すデータとが出力される。
【0101】
例えば、ステップS606で受信された第2の音声の場合、ステップS701で第2のユーザ装置から第2の音声を受信し、ステップS702で話者が第1のユーザであると識別され、ステップS703で、第1のユーザが第2のユーザ装置に関連付けられたユーザではないと判定されるため、ステップS705に進み、第2の音声を示すデータが破棄される。
【0102】
図8は、ステップS703およびステップS704の詳細を示すフローチャートである。ステップS703は、ステップS7031およびステップS7032を含み、ステップS704は、ステップS7041およびステップ7042を含む。
【0103】
ステップS7031では、プロセッサ部230の判定手段233が、ステップS702で識別された話者が、第1のユーザ装置1001(第1の音声を示すデータを送信したユーザ装置)で用いられている第1のアカウントを保有する第1のユーザであるか否かを判定する。すなわち、ステップS7031では、ステップS702で識別された話者が、第1のユーザ装置1001に関連付けられたユーザのうち、第1のユーザ装置1001を介して自身のアカウントにログインしたユーザであるか否かが判定される。
【0104】
判定手段233は、例えば、第1のユーザ装置1001を利用するユーザのアカウントと、ステップS702で識別された話者とを照合することにより、判定を行うことができる。
【0105】
ステップS702で識別された話者が、第1のユーザ装置1001で用いられている第1のアカウントを保有する第1のユーザであると判定される場合、ステップS704のうちのステップS7041に進む。ステップS702で識別された話者が、第1のユーザ装置1001で用いられている第1のアカウントを保有する第1のユーザではないと判定される場合、ステップS7032に進む。
【0106】
ステップS7032では、プロセッサ部230の判定手段233が、ステップS702で識別された話者が、第1のユーザ装置1001(第1の音声を示すデータを送信したユーザ装置)で用いられている第1のアカウントを利用するゲストユーザであるか否かを判定する。すなわち、ステップS7032では、ステップS702で識別された話者が、第1のユーザ装置1001に関連付けられたユーザのうち、第1のユーザ装置1001を利用するゲストユーザであるか否かが判定される。
【0107】
判定手段233は、例えば、第1のユーザ装置1001を利用するゲストユーザのアカウントと、ステップS702で識別された話者とを照合することにより、判定を行うことができる。
【0108】
ステップS702で識別された話者が、第1のユーザ装置1001で用いられている第1のアカウントを利用するゲストユーザであると判定される場合、ステップS704のうちのステップS7042に進む。ステップS702で識別された話者が、第1のユーザ装置1001で用いられている第1のアカウントを利用するゲストユーザではないと判定される場合、ステップS705に進む。
【0109】
ステップS7041では、プロセッサ部230の出力手段234が、第1の音声を示すデータと、第1の音声の話者が第1のユーザであることを示すデータとを出力する。ステップS704で説明したように、出力手段234がデータを出力する態様は問わない。
【0110】
ステップS7042では、プロセッサ部230の出力手段234が、第1の音声を示すデータと、第1の音声の話者がゲストユーザであることを示すデータとを出力する。ステップS704で説明したように、出力手段234がデータを出力する態様は問わない。
【0111】
このようにして、第1のユーザ装置1001に関連付けられたユーザに応じたデータを出力することができる。
【0112】
図8に示される例では、ステップS703がステップS7031とステップS7032とを含むことを説明したが、本発明は、これに限定されない。例えば、ステップS703がステップS7032を含まないようにしてもよいし、ステップS703がステップS7031を含まないようにしてもよい。例えば、ステップS703がステップS7032を含まない場合、ステップS7031でNoと判定された場合には、ステップS705に進むことができる。
【0113】
ステップS703がステップS7032を含まない場合、対応するように、ステップS704はステップS7042を含まないようにしてもよい。ステップS703がステップS7031を含まない場合、対応するように、ステップS704はステップS7041を含まないようにしてもよい。
【0114】
図1に示される場合を例に、
図6~
図8の処理の一例を説明する。
【0115】
まず、ユーザAがユーザ装置10のマイクに対して「賛成です。」と発言する。
【0116】
ステップS601では、「賛成です。」の音声が、マイクを介してユーザ装置10に入力される。
【0117】
ステップS602では、「賛成です。」の音声を示すデータがサーバ装置200に送信される。本例では、「賛成です。」の音声データが送信されるものとする。サーバ装置200が「賛成です。」の音声を示すデータを受信すると、「賛成です。」の音声データに対して、ステップS607の処理が行われる。
【0118】
ステップS603では、「賛成です。」の音声データがユーザBのユーザ装置20に送信される。
【0119】
ユーザ装置20が「賛成です。」の音声データを受信すると、ステップS604で、ユーザ装置20のスピーカーから「賛成です。」の音声を出力する。これにより、ユーザBは、ユーザAによる「賛成です。」の発言を聞くことができる。
【0120】
ステップS605では、ユーザ装置20のスピーカーから出力された「賛成です。」の音声が、ユーザ装置20のマイクを介してユーザ装置20に入力される。本例では、この音声を“第2の「賛成です。」”と称する。
【0121】
ステップS606では、第2の「賛成です。」を示すデータがサーバ装置200に送信される。本例では、第2の「賛成です。」の音声データが送信されるものとする。サーバ装置200が第2の「賛成です。」の音声データを受信すると、第2の「賛成です。」の音声データに対して、ステップS607の処理が行われる。
【0122】
ステップS607では、「賛成です。」の音声データに対して以下の処理が行われる。
【0123】
ステップS701では、プロセッサ部230の受信手段231が、「賛成です。」の音声データを受信する。
【0124】
ステップS702では、プロセッサ部230の識別手段232が、「賛成です。」の音声データが示す音声の話者を識別する。例えば、「賛成です。」の音声データから声紋を抽出し、その声紋と、データベース部300に格納されている複数のユーザのアカウントに関する情報に含まれる声紋とを比較することにより、話者を識別する。ここでは、話者がユーザAであることが識別される。
【0125】
ステップS703では、プロセッサ部230の判定手段233が、ユーザAが、「賛成です。」の音声データを送信してきたユーザ装置10に関連付けられたユーザであるか否かを判定する。
【0126】
ここで、ステップS7031では、プロセッサ部230の判定手段233が、ユーザAが、ユーザ装置10で用いられているアカウントを保有するユーザであるか否かを判定する。ユーザAは、ユーザ装置10で用いられているアカウントを保有するユーザであるため、Yesと判定され、ステップS704のステップS7041に進む。
【0127】
ステップS704のステップS7041では、プロセッサ部230の出力手段234が、「賛成です。」の音声データと、「賛成です。」の音声の話者がユーザAであることを示すデータとを出力する。
【0128】
このようにして、ステップS607の処理により、ステップS602で受信された「賛成です。」の音声データが、「賛成です。」の音声の話者がユーザAであることを示すデータと共に出力される。
【0129】
ステップS607では、第2の「賛成です。」の音声データに対して以下の処理が行われる。
【0130】
ステップS701では、プロセッサ部230の受信手段231が、第2の「賛成です。」の音声データを受信する。
【0131】
ステップS702では、プロセッサ部230の識別手段232が、第2の「賛成です。」の音声データが示す音声の話者を識別する。例えば、第2の「賛成です。」の音声データから声紋を抽出し、その声紋と、データベース部300に格納されている複数のユーザのアカウントに関する情報に含まれる声紋とを比較することにより、話者を識別する。ここでは、話者がユーザAであることが識別される。
【0132】
ステップS703では、プロセッサ部230の判定手段233が、ユーザAが、第2の「賛成です。」の音声データを送信してきたユーザ装置20に関連付けられたユーザであるか否かを判定する。ユーザAはユーザ装置20に関連付けられたユーザではないため、Noと判定され、ステップS705に進む。
【0133】
ステップS705では、プロセッサ部230の破棄手段235が、第2の「賛成です。」の音声データを破棄する。
【0134】
このようにして、ステップS607の処理により、ステップS606で受信された第2の「賛成です。」の音声データが破棄され、会話の記録の作成には使用されない。
【0135】
ステップS608では、ステップS607で出力されたデータが、ユーザ装置10に送信される。このとき、プロセッサ部230が「賛成です。」の音声データに対して音声認識処理を行うことにより音声認識データ(例えば、「賛成です。」のテキストデータ)に変換して送信することができる。
【0136】
ユーザ装置10がそれらのデータを受信すると、ステップS609では、受信されたデータが、ユーザ装置10の表示部130に表示される。例えば、表示部130には、
図1Cに示されるように、「賛成です。」の音声を示すテキストと、「賛成です。」の音声の話者がユーザAであることを示すアイコンとが表示され得る。これにより、ユーザAの発言が記録された会話の記録が作成され、ユーザAは、これを見ることができる。
【0137】
ステップS610では、ステップS607で出力されたデータが、ユーザ装置20に送信される。このとき、プロセッサ部230が「賛成です。」の音声データに対して音声認識処理を行うことにより音声認識データ(例えば、「賛成です。」のテキストデータ)に変換して送信することができる。
【0138】
ユーザ装置20がそれらのデータを受信すると、ステップS611では、受信されたデータが、ユーザ装置20の表示部130に表示される。例えば、表示部130には、
図1Cに示されるように、「賛成です。」の音声を示すテキストと、「賛成です。」の音声の話者がユーザAであることを示すアイコンとが表示され得る。これにより、ユーザAの発言が記録された会話の記録が作成され、ユーザBは、これを見ることができる。
【0139】
このようにして作成された会話の記録には、ステップS606で受信された第2の「賛成です。」の音声を示すデータは記録されないため、作成された会話の記録にユーザAの発言内容が重複して記録されることはない。
【0140】
図2に示される場合を例に、
図6~
図8の処理の一例を説明する。
【0141】
まず、ユーザCがユーザ装置10のマイクに対して「賛成です。」と発言する。
【0142】
ステップS601では、「賛成です。」の音声が、マイクを介してユーザ装置10に入力される。
【0143】
ステップS602では、「賛成です。」の音声を示すデータがサーバ装置200に送信される。本例では、「賛成です。」の音声データが送信されるものとする。サーバ装置200が「賛成です。」の音声を示すデータを受信すると、「賛成です。」の音声データに対して、ステップS607の処理が行われる。
【0144】
ステップS603では、「賛成です。」の音声データがユーザBのユーザ装置20に送信される。
【0145】
ユーザ装置20が「賛成です。」の音声データを受信すると、ステップS604で、ユーザ装置20のスピーカーから「賛成です。」の音声を出力する。これにより、ユーザBは、ユーザCによる「賛成です。」の発言を聞くことができる。
【0146】
ステップS605では、ユーザ装置20のスピーカーから出力された「賛成です。」の音声が、ユーザ装置20のマイクを介してユーザ装置20に入力される。本例では、この音声を“第2の「賛成です。」”と称する。
【0147】
ステップS606では、第2の「賛成です。」を示すデータがサーバ装置200に送信される。本例では、第2の「賛成です。」の音声データが送信されるものとする。サーバ装置200が第2の「賛成です。」の音声データを受信すると、第2の「賛成です。」の音声データに対して、ステップS607の処理が行われる。
【0148】
ステップS607では、「賛成です。」の音声データに対して以下の処理が行われる。
【0149】
ステップS701では、プロセッサ部230の受信手段231が、「賛成です。」の音声データを受信する。
【0150】
ステップS702では、プロセッサ部230の識別手段232が、「賛成です。」の音声データが示す音声の話者を識別する。例えば、「賛成です。」の音声データから声紋を抽出し、その声紋と、データベース部300に格納されている複数のユーザのアカウントに関する情報に含まれる声紋とを比較することにより、話者を識別する。ここでは、話者がユーザCであることが識別される。
【0151】
ステップS703では、プロセッサ部230の判定手段233が、ユーザCが、「賛成です。」の音声データを送信してきたユーザ装置10に関連付けられたユーザであるか否かを判定する。
【0152】
ここで、ステップS7031では、プロセッサ部230の判定手段233が、ユーザCが、ユーザ装置10で用いられているアカウントを保有するユーザであるか否かを判定する。ユーザCは、ユーザ装置10で用いられているアカウントを保有するユーザではないため、Noと判定され、ステップS7032に進む。
【0153】
ステップS7032では、プロセッサ部230の判定手段233が、ユーザCが、ユーザ装置10で用いられているアカウントを利用するゲストユーザであるか否かを判定する。ユーザCは、ユーザ装置10で用いられているアカウントを利用するゲストユーザであるため、Yesと判定され、ステップS704のステップS7042に進む。
【0154】
ステップS704のステップS7042では、プロセッサ部230の出力手段234が、「賛成です。」の音声データと、「賛成です。」の音声の話者がユーザCであることを示すデータとを出力する。
【0155】
このようにして、ステップS607の処理により、ステップS602で受信された「賛成です。」の音声データが、「賛成です。」の音声の話者がユーザCであることを示すデータと共に出力される。
【0156】
ステップS607では、第2の「賛成です。」の音声データに対して以下の処理が行われる。
【0157】
ステップS701では、プロセッサ部230の受信手段231が、第2の「賛成です。」の音声データを受信する。
【0158】
ステップS702では、プロセッサ部230の識別手段232が、第2の「賛成です。」の音声データが示す音声の話者を識別する。例えば、第2の「賛成です。」の音声データから声紋を抽出し、その声紋と、データベース部300に格納されている複数のユーザのアカウントに関する情報に含まれる声紋とを比較することにより、話者を識別する。ここでは、話者がユーザCであることが識別される。
【0159】
ステップS703では、プロセッサ部230の判定手段233が、ユーザCが、第2の「賛成です。」の音声データを送信してきたユーザ装置20に関連付けられたユーザであるか否かを判定する。
【0160】
ここで、ステップS7031では、プロセッサ部230の判定手段233が、ユーザCが、ユーザ装置20で用いられているアカウントを保有するユーザであるか否かを判定する。ユーザCは、ユーザ装置20で用いられているアカウントを保有するユーザではないため、Noと判定され、ステップS7032に進む。
【0161】
ステップS7032では、プロセッサ部230の判定手段233が、ユーザCが、ユーザ装置20で用いられているアカウントを利用するゲストユーザであるか否かを判定する。ユーザCは、ユーザ装置20で用いられているアカウントを利用するゲストユーザではないため、Noと判定され、ステップS705に進む。
【0162】
ステップS705では、プロセッサ部230の破棄手段235が、第2の「賛成です。」の音声データを破棄する。
【0163】
このようにして、ステップS607の処理により、ステップS606で受信された第2の「賛成です。」の音声データが破棄され、会話の記録の作成には使用されない。
【0164】
ステップS608では、ステップS607で出力されたデータが、ユーザ装置10に送信される。このとき、プロセッサ部230が「賛成です。」の音声データに対して音声認識処理を行うことにより音声認識データ(例えば、「賛成です。」のテキストデータ)に変換して送信することができる。
【0165】
ユーザ装置10がそれらのデータを受信すると、ステップS609では、受信されたデータが、ユーザ装置10の表示部130に表示される。例えば、表示部130には、
図2Dに示されるように、「賛成です。」の音声を示すテキストと、「賛成です。」の音声の話者がユーザCであることを示すアイコンとが表示され得る。これにより、ユーザCの発言が記録された会話の記録が作成され、ユーザAおよびユーザCは、これを見ることができる。
【0166】
ステップS610では、ステップS607で出力されたデータが、ユーザ装置20に送信される。このとき、プロセッサ部230が「賛成です。」の音声データに対して音声認識処理を行うことにより音声認識データ(例えば、「賛成です。」のテキストデータ)に変換して送信することができる。
【0167】
ユーザ装置20がそれらのデータを受信すると、ステップS611では、受信されたデータが、ユーザ装置20の表示部130に表示される。例えば、表示部130には、
図2Dに示されるように、「賛成です。」の音声を示すテキストと、「賛成です。」の音声の話者がユーザCであることを示すアイコンとが表示され得る。これにより、ユーザCの発言が記録された会話の記録が作成され、ユーザBは、これを見ることができる。
【0168】
このようにして作成された会話の記録には、ステップS606で受信された第2の「賛成です。」の音声を示すデータは記録されないため、作成された会話の記録にユーザAの発言内容が重複して記録されることはない。
【0169】
上述した例では、発言を記録する前に、話者を識別し、話者識別の結果に基づいて、正しい情報のみを記録することを説明したが、本発明はこれに限定されない。例えば、
図1B、
図2A,
図2Cに示されるように、誤認識された発言が記録された後に、話者識別の結果に基づいて、記録された発言の話者を変更するまたは記録された発言を削除するようにしてもよい。
【0170】
上述した例では、2つのユーザ装置(第1のユーザ装置1001および第2のユーザ装置1002、または、ユーザ装置10およびユーザ装置20)を利用した会話を例に説明したが、本発明は、任意の数のユーザ装置を利用した会話に適用されることができる。
【0171】
図6~
図8を参照して上述した例では、特定の順序で処理が行われることを説明したが、各処理の順序は説明されたものに限定されず、論理的に可能な任意の順序で行われ得る。
【0172】
図7~
図8を参照して上述した例では、
図7~
図8に示される各ステップの処理は、プロセッサ部230とメモリ部220に格納されたプログラムとによって実現することが説明されたが、本発明はこれに限定されない。
図7~
図8に示される各ステップの処理のうちの少なくとも1つは、制御回路などのハードウェア構成によって実現されてもよい。
【0173】
上述した例では、サーバ装置200のプロセッサ部230が、ステップS607の処理を行うことを説明したが、本発明はこれに限定されない。ステップS607の処理をユーザ装置100のプロセッサ部150が行うことも、本発明の範囲内である。このとき、サーバ装置200はシステム1000から省略されてもよい。
【0174】
ステップS607の処理をユーザ装置100のプロセッサ部150が行う場合、ステップS607は、ステップS701の代わりにステップS701’を含み得る。
【0175】
ステップS701’では、ステップS601で音声入力部160を介して入力された音声を示すデータを受信する。
【0176】
その後のステップは、
図7を参照して上述したステップと同様であり、ここでは説明を省略する。
【0177】
本発明は、上述した実施形態に限定されるものではない。本発明は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。当業者は、本発明の具体的な好ましい実施形態の記載から、本発明の記載および技術常識に基づいて等価な範囲を実施することができることが理解される。
【産業上の利用可能性】
【0178】
本発明は、ユーザの発言内容が重複して記録されることを回避可能な、会話の記録を生成するためのプログラム、システム、および方法を提供することができるという点で有用である。
【符号の説明】
【0179】
10、20、100 ユーザ装置
200 サーバ装置
300 データベース部
400 ネットワーク
1000 システム