特開2022-79366 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社オルツの特許一覧

特開2022-79366会話の記録を生成するためのプログラム、システム、および方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
1C
2A
2B
2C
2D
3
4A
4B
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022079366

(43)【公開日】2022-05-26

(54)【発明の名称】会話の記録を生成するためのプログラム、システム、および方法

(51)【国際特許分類】

G10L 15/22 20060101AFI20220519BHJP

G10L 17/00 20130101ALI20220519BHJP

【ＦＩ】

G10L15/22 460Z

G10L17/00 200C

【審査請求】未請求

【請求項の数】12

【出願形態】ＯＬ

(21)【出願番号】P 2020190530

(22)【出願日】2020-11-16

(71)【出願人】

【識別番号】515018091

【氏名又は名称】株式会社オルツ

(74)【代理人】

【識別番号】100078282

【弁理士】

【氏名又は名称】山本秀策

(74)【代理人】

【識別番号】100107489

【弁理士】

【氏名又は名称】大塩竹志

(74)【代理人】

【識別番号】100113413

【弁理士】

【氏名又は名称】森下夏樹

(74)【代理人】

【識別番号】100181674

【弁理士】

【氏名又は名称】飯田貴敏

(74)【代理人】

【識別番号】100181641

【弁理士】

【氏名又は名称】石川大輔

(74)【代理人】

【識別番号】230113332

【弁護士】

【氏名又は名称】山本健策

(72)【発明者】

【氏名】吉村歩

(57)【要約】

【課題】会話の記録を生成するためのプログラム等を提供すること
【解決手段】第１のユーザ装置と第２のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を生成するためのプログラムが提供され、プログラムは、プロセッサ部を備えるサーバ装置において実行されると、第１のユーザ装置から第１の音声を示すデータを受信することと、第１の音声の話者を識別することと、識別された話者が第１のユーザ装置に関連付けられたユーザであるか否かを判定することと、識別された話者が第１のユーザ装置に関連付けられたユーザであると判定される場合に、第１の音声データを示すデータと第１の音声の話者が識別された話者であることを示すデータとを出力することと、識別された話者が第１のユーザ装置に関連付けられたユーザではないと判定される場合に、第１の音声を示すデータを破棄することとを含む処理をプロセッサ部に行わせる。
【選択図】図７

【特許請求の範囲】

【請求項1】

第１のユーザ装置と第２のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を生成するためのプログラムであって、前記プログラムは、プロセッサ部を備えるサーバ装置において実行されると、
前記第１のユーザ装置から第１の音声を示すデータを受信することと、
前記第１の音声の話者を識別することと、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザであるか否かを判定することと、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザであると判定される場合に、前記第１の音声データを示すデータと前記第１の音声の話者が前記識別された話者であることを示すデータとを出力することと、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザではないと判定される場合に、前記第１の音声を示すデータを破棄することと
を含む処理を前記プロセッサ部に行わせる、プログラム。

【請求項2】

前記識別された話者が前記第１のユーザ装置に関連付けられたユーザであるか否かを判定することは、
前記識別された話者が前記第１のユーザ装置で用いられている第１のアカウントを保有する第１のユーザであるか否かを判定することを含み、
前記識別された話者が前記第１のユーザであると判定される場合に、前記出力することは、前記第１の音声を示すデータと前記第１の音声の話者が前記第１のユーザであることを示すデータとを出力することを含む、請求項１に記載のプログラム。

【請求項3】

前記識別された話者が前記第１のユーザ装置に関連付けられたユーザであるか否かを判定することは、
前記識別された話者が前記第１のユーザ装置で用いられている第１のアカウントを利用するゲストユーザであるか否かを判定することを含み、
前記識別された話者が前記ゲストユーザであると判定される場合に、前記出力することは、前記第１の音声を示すデータと前記第１の音声の話者が前記ゲストユーザであることを示すデータとを出力することを含む、請求項１または請求項２に記載のプログラム。

【請求項4】

前記第１の音声の話者を識別することは、前記第１の音声の声紋に基づいて前記第１の音声の話者を識別することを含む、請求項１～３のいずれか一項に記載のプログラム。

【請求項5】

前記第１の音声の話者を識別することは、前記第１の音声が発せれられたときの画像に基づいて前記第１の音声の話者を識別することを含む、請求項１～３のいずれか一項に記載のプログラム。

【請求項6】

前記出力することは、前記第１の音声を示すテキストと、前記話者を示すアイコンとを前記第１のユーザ装置に表示させることを含む、請求項１～５のいずれか一項に記載のプログラム。

【請求項7】

前記出力することは、前記第１の音声を示すデータと前記音声の話者が前記識別された話者であることを示すデータとを記録することを含む、請求項１～６のいずれか一項に記載のプログラム。

【請求項8】

第１のユーザ装置と第２のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を生成するためのシステムであって、
前記第１のユーザ装置から第１の音声を示すデータを受信する受信手段と、
前記第１の音声の話者を識別する識別手段と、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザであるか否かを判定する判定手段と、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザであると判定される場合に、前記第１の音声データを示すデータと前記第１の音声の話者が前記識別された話者であることを示すデータとを出力する出力手段と、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザではないと判定される場合に、前記第１の音声を示すデータを破棄する破棄手段と
を備えるシステム。

【請求項9】

第１のユーザ装置と第２のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を生成するための方法であって、
前記第１のユーザ装置から第１の音声を示すデータを受信することと、
前記第１の音声の話者を識別することと、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザであるか否かを判定することと、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザであると判定される場合に、前記第１の音声データを示すデータと前記第１の音声の話者が前記識別された話者であることを示すデータとを出力することと、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザではないと判定される場合に、前記第１の音声を示すデータを破棄することと
を含む方法。

【請求項10】

第１のユーザ装置と第２のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を生成するためのプログラムであって、前記プログラムは、音声入力手段と、プロセッサ部とを備える前記第１のユーザ装置において実行されると、
前記音声入力手段を介して入力された第１の音声を示すデータを受信することと、
前記第１の音声の話者を識別することと、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザであるか否かを判定することと、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザであると判定される場合に、前記第１の音声を示すデータと前記第１の音声の話者が前記識別された話者であることを示すデータとを出力することと、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザではないと判定される場合に、前記第１の音声を示すデータを破棄することと
を含む処理を前記プロセッサ部に行わせる、プログラム。

【請求項11】

第１のユーザ装置と第２のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を生成するためのユーザ装置であって、前記ユーザ装置は、前記第１のユーザ装置であり、
音声を入力するための音声入力手段と、
音声入力手段を介して入力された第１の音声を示すデータを受信する受信手段と、
前記第１の音声の話者を識別する識別手段と、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザであるか否かを判定する判定手段と、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザであると判定される場合に、前記第１の音声を示すデータと前記第１の音声の話者が前記識別された話者であることを示すデータとを出力する出力手段と、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザではないと判定される場合に、前記第１の音声を示すデータを破棄する破棄手段と
を備えるユーザ装置。

【請求項12】

第１のユーザ装置と第２のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を生成するためのプログラムであって、前記方法は、前記第１のユーザ装置において実行され、前記方法は、
前記第１のユーザ装置の音声入力手段を介して入力された第１の音声を示すデータを受信することと、
前記第１の音声の話者を識別することと、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザであるか否かを判定することと、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザであると判定される場合に、前記第１の音声を示すデータと前記第１の音声の話者が前記識別された話者であることを示すデータとを出力することと、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザではないと判定される場合に、前記第１の音声を示すデータを破棄することと
を含む方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、会話の記録を生成するためのプログラム、システム、および方法に関する。より具体的には、本発明は、第１のユーザ装置と第２のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を生成するためのプログラム、システム、および方法に関する。

【背景技術】

【0002】

音声認識を使用し、議事録作成を行うシステムが知られている（例えば、特許文献１）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２００８－２２５０６８号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

第１のユーザ装置と第２のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を音声認識を使用して生成する場合、第１のユーザが利用する第１のユーザ装置のマイクに対して第１のユーザが発した音声が、第２のユーザが利用する第２のユーザ装置のスピーカーから出力され、出力された音声が第２のユーザ装置のマイクによって第２のユーザ装置に入力されることにより、第１のユーザの音声があたかも第２のユーザによって発せられたかのように誤認識される場合がある。この場合には、生成される会話の記録には、第１のユーザの発言が記録されるとともに、第１のユーザの発言が第２のユーザの発言としてさらに記録されることになる。

【0005】

本発明の発明者は、第１のユーザの発言内容が重複して記録されると、生成される議事録が不確かなものとなり得るため、問題であると考えた。

【0006】

本発明は、上記問題に鑑みてなされたものであり、ユーザの発言内容が重複して記録されることを回避可能な、会話の記録を生成するためのプログラム、システム、および方法を提供することを目的とする。

【課題を解決するための手段】

【0007】

本発明は、例えば、以下の項目を提供する。

【0008】

（項目１）
第１のユーザ装置と第２のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を生成するためのプログラムであって、前記プログラムは、プロセッサ部を備えるサーバ装置において実行されると、
前記第１のユーザ装置から第１の音声を示すデータを受信することと、
前記第１の音声の話者を識別することと、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザであるか否かを判定することと、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザであると判定される場合に、前記第１の音声データを示すデータと前記第１の音声の話者が前記識別された話者であることを示すデータとを出力することと、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザではないと判定される場合に、前記第１の音声を示すデータを破棄することと
を含む処理を前記プロセッサ部に行わせる、プログラム。
（項目２）
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザであるか否かを判定することは、
前記識別された話者が前記第１のユーザ装置で用いられている第１のアカウントを保有する第１のユーザであるか否かを判定することを含み、
前記識別された話者が前記第１のユーザであると判定される場合に、前記出力することは、前記第１の音声を示すデータと前記第１の音声の話者が前記第１のユーザであることを示すデータとを出力することを含む、項目１に記載のプログラム。
（項目３）
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザであるか否かを判定することは、
前記識別された話者が前記第１のユーザ装置で用いられている第１のアカウントを利用するゲストユーザであるか否かを判定することを含み、
前記識別された話者が前記ゲストユーザであると判定される場合に、前記出力することは、前記第１の音声を示すデータと前記第１の音声の話者が前記ゲストユーザであることを示すデータとを出力することを含む、項目１または項目２に記載のプログラム。
（項目４）
前記第１の音声の話者を識別することは、前記第１の音声の声紋に基づいて前記第１の音声の話者を識別することを含む、項目１～３のいずれか一項に記載のプログラム。
（項目５）
前記第１の音声の話者を識別することは、前記第１の音声が発せれられたときの画像に基づいて前記第１の音声の話者を識別することを含む、項目１～３のいずれか一項に記載のプログラム。
（項目６）
前記出力することは、前記第１の音声を示すテキストと、前記話者を示すアイコンとを前記第１のユーザ装置に表示させることを含む、項目１～５のいずれか一項に記載のプログラム。
（項目７）
前記出力することは、前記第１の音声を示すデータと前記音声の話者が前記識別された話者であることを示すデータとを記録することを含む、項目１～６のいずれか一項に記載のプログラム。
（項目８）
第１のユーザ装置と第２のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を生成するためのシステムであって、
前記第１のユーザ装置から第１の音声を示すデータを受信する受信手段と、
前記第１の音声の話者を識別する識別手段と、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザであるか否かを判定する判定手段と、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザであると判定される場合に、前記第１の音声データを示すデータと前記第１の音声の話者が前記識別された話者であることを示すデータとを出力する出力手段と、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザではないと判定される場合に、前記第１の音声を示すデータを破棄する破棄手段と
を備えるシステム。
（項目９）
第１のユーザ装置と第２のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を生成するための方法であって、
前記第１のユーザ装置から第１の音声を示すデータを受信することと、
前記第１の音声の話者を識別することと、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザであるか否かを判定することと、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザであると判定される場合に、前記第１の音声データを示すデータと前記第１の音声の話者が前記識別された話者であることを示すデータとを出力することと、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザではないと判定される場合に、前記第１の音声を示すデータを破棄することと
を含む方法。
（項目１０）
第１のユーザ装置と第２のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を生成するためのプログラムであって、前記プログラムは、音声入力手段と、プロセッサ部とを備える前記第１のユーザ装置において実行されると、
前記音声入力手段を介して入力された第１の音声を示すデータを受信することと、
前記第１の音声の話者を識別することと、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザであるか否かを判定することと、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザであると判定される場合に、前記第１の音声を示すデータと前記第１の音声の話者が前記識別された話者であることを示すデータとを出力することと、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザではないと判定される場合に、前記第１の音声を示すデータを破棄することと
を含む処理を前記プロセッサ部に行わせる、プログラム。
（項目１１）
第１のユーザ装置と第２のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を生成するためのユーザ装置であって、前記ユーザ装置は、前記第１のユーザ装置であり、
音声を入力するための音声入力手段と、
音声入力手段を介して入力された第１の音声を示すデータを受信する受信手段と、
前記第１の音声の話者を識別する識別手段と、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザであるか否かを判定する判定手段と、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザであると判定される場合に、前記第１の音声を示すデータと前記第１の音声の話者が前記識別された話者であることを示すデータとを出力する出力手段と、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザではないと判定される場合に、前記第１の音声を示すデータを破棄する破棄手段と
を備えるユーザ装置。
（項目１２）
第１のユーザ装置と第２のユーザ装置とを含む複数のユーザ装置を利用した会話の記録を生成するためのプログラムであって、前記方法は、前記第１のユーザ装置において実行され、前記方法は、
前記第１のユーザ装置の音声入力手段を介して入力された第１の音声を示すデータを受信することと、
前記第１の音声の話者を識別することと、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザであるか否かを判定することと、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザであると判定される場合に、前記第１の音声を示すデータと前記第１の音声の話者が前記識別された話者であることを示すデータとを出力することと、
前記識別された話者が前記第１のユーザ装置に関連付けられたユーザではないと判定される場合に、前記第１の音声を示すデータを破棄することと
を含む方法。

【発明の効果】

【0009】

本発明によれば、ユーザの発言内容が重複して記録されることを回避可能な、会話の記録を生成するためのプログラム、システム、および方法を提供することができる。

【図面の簡単な説明】

【0010】

【図1A】本発明者が開発した議事録生成アプリケーションを利用して、議事録を生成する様子の一例を概略的に示す図

【図1B】本発明者が開発した議事録生成アプリケーションを利用して、議事録を生成する様子の一例を概略的に示す図

【図1C】本発明者が開発した議事録生成アプリケーションを利用して、議事録を生成する様子の一例を概略的に示す図

【図2A】本発明者が開発した議事録生成アプリケーションを利用して、議事録を生成する様子の一例を概略的に示す図

【図2B】本発明者が開発した議事録生成アプリケーションを利用して、議事録を生成する様子の一例を概略的に示す図

【図2C】本発明者が開発した議事録生成アプリケーションを利用して、議事録を生成する様子の一例を概略的に示す図

【図2D】本発明者が開発した議事録生成アプリケーションを利用して、議事録を生成する様子の一例を概略的に示す図

【図3】会話の記録を生成するためのシステム１０００の構成の一例を示す図

【図4A】ユーザ装置１００の構成の一例を示す図

【図4B】サーバ装置２００の構成の一例を示す図

【図5】サーバ装置２００のプロセッサ部２３０の構成の一例を示す図

【図6】本発明の会話の記録を生成するためのシステム１０００におけるデータフロー６００の一例を示す図

【図7】ステップＳ６０７の処理の一例を示すフローチャート

【図8】ステップＳ７０３およびステップＳ７０４の詳細を示すフローチャート

【発明を実施するための形態】

【0011】

以下、図面を参照しながら、本発明の実施の形態を説明する。

【0012】

１．議事録生成アプリケーション
図１および図２は、本発明者が開発した議事録生成アプリケーションを利用して、議事録を生成する様子の一例を概略的に示す図である。

【0013】

図１Ａ～図１Ｃに示される例では、２つの異なる空間に居るユーザＡおよびユーザＢが、ユーザ装置１０およびユーザ装置２０を利用して会話をしている。ユーザＡおよびユーザＢはそれぞれ、議事録生成アプリケーションを利用するためのアカウントを有している。ユーザＡは、ユーザ装置１０を介して自身のアカウントにログインしている。ユーザＢは、ユーザ装置２０を介して自身のアカウントにログインしている。図１Ａ（ａ）、図１Ｂ（ａ）、図１Ｃ（ａ）は、その会話での様子を示し、図１Ａ（ｂ）、図１Ｂ（ｂ）、図１Ｃ（ｂ）は、そのときにユーザ装置１０またはユーザ装置２０の表示部に表示される議事録の一例を示す。

【0014】

まず、図１Ａ（ａ）に示されるように、ユーザＡがユーザＢに向かって「賛成です。」と発言するとき、ユーザＡは、ユーザ装置１０のマイクに対して「賛成です。」と発言する。すると、議事録生成アプリケーションは、ユーザＡによる音声を認識し（すなわち、「賛成です。」を認識し）、かつ、その音声がユーザＡがユーザ装置１０に対して発言した音声であると認識することにより、「賛成です。」をユーザＡによる発言として記録する。

【0015】

すると、図１Ａ（ｂ）に示されるように、ユーザ装置１０またはユーザ装置２０の表示部には、ユーザＡを示すアイコンと、発言内容「賛成です。」とが表示される。これにより、ユーザＡが「賛成です。」と発言したことが視覚的に理解される。

【0016】

図１Ａ（ａ）に示されるようにユーザＡが発言した後、その発言は、図１Ｂ（ａ）に示されるように、ユーザ装置２０のスピーカーから出力される。これにより、ユーザＢは、ユーザＡの発言を聞くことができる。このとき、ユーザ装置２０のマイクが、ユーザ装置２０のスピーカーから出力された音声を拾ってしまうと、議事録生成アプリケーションは、ユーザ装置２０のスピーカーから出力された音声を認識し（すなわち、「賛成です。」を認識し）、かつ、その音声がユーザＢがユーザ装置２０に対して発言した音声であると誤認識することにより、「賛成です。」をユーザＢによる発言として記録する。

【0017】

すると、図１Ｂ（ｂ）に示されるように、ユーザ装置１０またはユーザ装置２０の表示部には、ユーザＢを示すアイコンと、発言内容「賛成です。」とが表示される。しかしながら、この記録および表示は正しくない。ユーザＢの意思にかかわらず、あたかもユーザＢも賛成したかのように記録されるため、生成された議事録は不確かで信憑性が低いものとなる。

【0018】

そこで、議事録生成アプリケーションは、ユーザ装置２０のマイクに入力された音声の話者を識別することにより、識別結果に基づいて、正しくない記録および表示を削除する。

【0019】

このようにして、図１Ｃ（ｂ）に示されるように、ユーザＢを示すアイコンと、発言内容「賛成です。」とが削除されて、正しい記録だけが残り、正しい議事録が生成されることになる。これにより、議事録の信憑性を高めることができる。

【0020】

図２Ａ～図２Ｄに示される例では、２つの異なる空間に居るユーザＡ、ユーザＢ、ユーザＣが、ユーザＡのユーザ装置１０およびユーザＢのユーザ装置２０を利用して会話をしている。ユーザＡ、ユーザＢ、ユーザＣはそれぞれ、議事録生成アプリケーションを利用するためのアカウントを有している。ユーザＡおよびユーザＣは同一の空間に居る。ユーザＡは、ユーザ装置１０を介して自身のアカウントにログインしている。ユーザＢは、ユーザ装置２０を介して自身のアカウントにログインしている。ユーザＣは、ユーザ装置１０を利用して、ゲストユーザとして会話に参加している。図２Ａ（ａ）、図２Ｂ（ａ）、図２Ｃ（ａ）、図２Ｄ（ａ）は、その会話での様子を示し、図２Ａ（ｂ）、図２Ｂ（ｂ）、図２Ｃ（ｂ）、図２Ｄ（ｂ）は、そのときにユーザ装置１０またはユーザ装置２０の表示部に表示される議事録の一例を示す。

【0021】

まず、図２Ａ（ａ）に示されるように、ユーザＣがユーザＡおよびユーザＢに向かって「賛成です。」と発言するとき、ユーザＣは、ユーザ装置１０のマイクに対して「賛成です。」と発言する。すると、議事録生成アプリケーションは、ユーザＣによる音声を認識し（すなわち、「賛成です。」を認識し）、かつ、その音声がユーザＡがユーザ装置１０に対して発言した音声であると誤認識することにより、「賛成です。」をユーザＡによる発言として記録する。

【0022】

すると、図２Ａ（ｂ）に示されるように、ユーザ装置１０またはユーザ装置２０の表示部には、ユーザＡを示すアイコンと、発言内容「賛成です。」とが表示される。しかしながら、この記録および表示は正しくない。ユーザＡの意思にかかわらず、あたかもユーザＡが賛成したかのように記録されるため、生成された議事録は不確かで信憑性が低いものとなる。

【0023】

そこで、議事録生成アプリケーションは、ユーザ装置１０のマイクに入力された音声の話者を識別することにより、識別結果に基づいて、正しい話者に変更して記録する。

【0024】

このようにして、図２Ｂ（ｂ）に示されるように、ユーザＡを示すアイコンがユーザＣを示すアイコンに変更され、ユーザＣを示すアイコンと、発言内容「賛成です。」とが表示される。正しい話者（ユーザＣ）による発言が記録され、正しい議事録が生成されることになる。

【0025】

図２Ａ（ａ）に示されるようにユーザＣが発言した後、その発言は、図２Ｃ（ａ）に示されるように、ユーザ装置２０のスピーカーから出力される。これにより、ユーザＢは、ユーザＣの発言を聞くことができる。このとき、ユーザ装置２０のマイクが、ユーザ装置２０のスピーカーから出力された音声を拾ってしまうと、議事録生成アプリケーションは、ユーザ装置２０のスピーカーから出力された音声を認識し（すなわち、「賛成です。」を認識し）、かつ、その音声がユーザＢがユーザ装置２０に対して発言した音声であると誤認識することにより、「賛成です。」をユーザＢによる発言として記録する。

【0026】

すると、図２Ｃ（ｂ）に示されるように、ユーザ装置１０またはユーザ装置２０の表示部には、ユーザＢを示すアイコンと、発言内容「賛成です。」とが表示される。しかしながら、この記録および表示は正しくない。ユーザＢの意思にかかわらず、あたかもユーザＢも賛成したかのように記録されるため、生成された議事録は不確かで信憑性が低いものとなる。

【0027】

【0028】

このようにして、図２Ｄに示されるように、ユーザＢを示すアイコンと、発言内容「賛成です。」とが削除されて、正しい記録だけが残り、正しい議事録が生成されることになる。これにより、議事録の信憑性を高めることができる。

【0029】

上述した例では、各ユーザが議事録生成アプリケーションを利用するためのアカウントを有していることを例に説明したが、本発明はこれに限定されない。各ユーザがアカウントを有していない場合であっても、議事録生成アプリケーションにより、正しい議事録を生成することが可能である。

【0030】

上述した例では、誤認識された発言が記録された後に、話者識別の結果に基づいて、記録された発言の話者を変更するまたは記録された発言を削除することを説明したが、本発明はこれに限定されない。例えば、発言を記録する前に、話者を識別し、話者識別の結果に基づいて、正しい情報のみを記録するようにしてもよい。このとき、例えば、図１Ｂに示される例では、ユーザＢによる「賛成です。」という発言は記録も表示もされない。

【0031】

議事録生成アプリケーションは、例えば、以下に説明する本発明の会話の記録を生成するためのシステムによって実装され得る。

【0032】

２．本発明の会話の記録を生成するためのシステムの構成
図３は、会話の記録を生成するためのシステム１０００の構成の一例を示す。

【0033】

システム１０００は、少なくとも１つのユーザ装置１００と、少なくとも１つのユーザ装置１００にネットワーク４００を介して接続されているサーバ装置２００と、サーバ装置２００に接続されているデータベース部３００とを含む。

【0034】

ユーザ装置１００は、スマートフォン、タブレット、パーソナルコンピュータ、スマートグラス等の任意の端末装置であり得る。ユーザ装置１００は、ネットワーク４００を介してサーバ装置２００と通信することができる。ここで、ネットワーク４００の種類は問わない。例えば、ユーザ装置１００は、インターネットを介してサーバ装置２００と通信してもよいし、ＬＡＮを介してサーバ装置２００と通信してもよい。図２には２つのユーザ装置１００が描写されているが、ユーザ装置１００の数はこれに限定されない。ユーザ装置１００の数は、２以上の任意の数であり得る。

【0035】

サーバ装置２００は、ネットワーク４００を介して少なくとも１つのユーザ装置１００と通信することができる。また、サーバ装置２００は、サーバ装置２００に接続されているデータベース部３００と通信することができる。

【0036】

サーバ装置２００に接続されているデータベース部３００には、例えば、ユーザのアカウントに関する情報が格納されている。ユーザのアカウントに関する情報は、少なくとも、ユーザの識別子（例えば、ユーザ名）と、そのユーザを識別する特徴（例えば、声紋、または、顔画像等）を含む。ユーザのアカウントに関する情報は、他の情報も含み得る。なお、ユーザの識別子と、そのユーザを識別する特徴とは、必ずしもユーザのアカウントに関連付けられる必要はなく、例えば、ユーザの識別子と、そのユーザを識別する特徴とが対応付けられて格納されれば足りる。

【0037】

図４Ａは、ユーザ装置１００の構成の一例を示す。

【0038】

ユーザ装置１００は、通信インターフェース部１１０と、入力部１２０と、表示部１３０と、メモリ部１４０と、プロセッサ部１５０と、音声入力部１６０と、音声出力部１７０とを備える。

【0039】

通信インターフェース部１１０は、ネットワーク４００を介した通信を制御する。ユーザ装置１００のプロセッサ部１５０は、通信インターフェース部１１０を介して、ユーザ装置１００の外部から情報を受信することが可能であり、ユーザ装置１００の外部に情報を送信することが可能である。通信インターフェース部１１０は、任意の方法で通信を制御し得る。

【0040】

入力部１２０は、ユーザが情報をユーザ装置１００に入力することを可能にする。入力部１２０が、どのような態様で、ユーザが情報をユーザ装置１００に入力することを可能にするかは問わない。例えば、入力部１２０がタッチパネルである場合には、ユーザがタッチパネルにタッチすることによって情報を入力するようにしてもよい。あるいは、入力部１２０がマウスである場合には、ユーザがマウスを操作することによって情報を入力するようにしてもよい。あるいは、入力部１２０がキーボードである場合には、ユーザがキーボードのキーを押下することによって情報を入力するようにしてもよい。

【0041】

表示部１３０は、情報を表示するための任意のディスプレイであり得る。

【0042】

メモリ部１４０には、ユーザ装置１００における処理を実行するためのプログラムやそのプログラムの実行に必要とされるデータ等が格納されている。メモリ部１４０には、例えば、会話の記録を生成するためのプログラム（例えば、後述する図７～図８に示される処理を実現するプログラム）の一部または全部が格納されている。メモリ部１４０には、任意の機能を実装するアプリケーションが格納されていてもよい。メモリ部１４０には、例えば、音声データをテキストに変換する音声認識アプリケーションが格納されていてもよい。ここで、プログラムをどのようにしてメモリ部１４０に格納するかは問わない。例えば、プログラムは、メモリ部１４０にプリインストールされていてもよい。あるいは、プログラムは、ネットワーク４００を経由してダウンロードされることによってメモリ部１４０にインストールされるようにしてもよい。メモリ部１４０は、任意の記憶手段によって実装され得る。

【0043】

プロセッサ部１５０は、ユーザ装置１００全体の動作を制御する。プロセッサ部１５０は、メモリ部１４０に格納されているプログラムを読み出し、そのプログラムを実行する。これにより、ユーザ装置１００を所望のステップを実行する装置として機能させることが可能である。プロセッサ部１５０は、単一のプロセッサによって実装されてもよいし、複数のプロセッサによって実装されてもよい。

【0044】

音声入力部１６０は、音声を受信するための任意の手段である。音声入力部１６０は、例えば、マイクである。

【0045】

音声出力部１７０は、音声を出力するための任意の手段である。音声出力部１７０は、例えば、スピーカーである。

【0046】

ユーザ装置１００は、上記構成に加えて、例えば、画像を撮影可能である任意のカメラを備え得る。カメラは、ユーザ装置１００に内蔵のカメラであってもよいし、ユーザ装置１００に取り付けられる外部カメラであってもよい。

【0047】

図４Ａに示される例では、ユーザ装置１００の各構成要素がユーザ装置１００内に設けられているが、本発明はこれに限定されない。ユーザ装置１００の各構成要素のいずれかがユーザ装置１００の外部に設けられることも可能である。例えば、入力部１２０、表示部１３０、メモリ部１４０、プロセッサ部１５０、音声入力部１６０、音声出力部１７０のそれぞれが別々のハードウェア部品で構成されている場合には、各ハードウェア部品が任意のネットワークを介して接続されてもよい。このとき、ネットワークの種類は問わない。各ハードウェア部品は、例えば、ＬＡＮを介して接続されてもよいし、無線接続されてもよいし、有線接続されてもよい。ユーザ装置１００は、特定のハードウェア構成には限定されない。例えば、プロセッサ部１５０をデジタル回路ではなくアナログ回路によって構成することも本発明の範囲内である。ユーザ装置１００の構成は、その機能を実現できる限りにおいて上述したものに限定されない。

【0048】

図４Ｂは、サーバ装置２００の構成の一例を示す。

【0049】

サーバ装置２００は、通信インターフェース部２１０と、メモリ部２２０と、プロセッサ部２３０とを備える。

【0050】

通信インターフェース部２１０は、ネットワーク４００を介した通信を制御する。また、通信インターフェース部２１０は、データベース部３００との通信も制御する。サーバ装置２００のプロセッサ部２３０は、通信インターフェース部２１０を介して、サーバ装置２００の外部から情報を受信することが可能であり、サーバ装置２００の外部に情報を送信することが可能である。例えば、サーバ装置２００のプロセッサ部２３０は、少なくとも１つのユーザ装置１００からネットワーク４００を介して、音声を示すデータを受信する。音声を示すデータは、例えば、音声データ（例えば、音声波形のアナログ信号、音声波形のデジタル信号）であってもよいし、音声認識データ（例えば、音声認識により音声をテキスト化したテキストデータ）であってもよいし、それらのデータの組み合わせであってもよい。例えば、サーバ装置２００のプロセッサ部２３０は、少なくとも１つのユーザ装置１００からネットワーク４００を介して、画像データを受信する。画像データは、例えば、静止画データであってもよいし、動画データであってもよい。例えば、サーバ装置２００のプロセッサ部２３０は、少なくとも１つのユーザ装置１００にネットワーク４００を介して音声を示すデータ（例えば、音声データ、音声認識データ、またはそれらの組み合わせ）および音声の話者が誰であるかを示すデータを送信する。例えば、サーバ装置２００のプロセッサ部２３０はデータベース部３００からユーザのアカウントに関する情報を受信し得る。通信インターフェース部２１０は、任意の方法で通信を制御し得る。

【0051】

メモリ部２２０には、サーバ装置２００の処理の実行に必要とされるプログラムやそのプログラムの実行に必要とされるデータ等が格納されている。例えば、会話の記録を生成するためのプログラム（例えば、後述する図７～図８に示される処理を実現するプログラム）の一部または全部が格納されている。メモリ部２２０には、例えば、音声データをテキストに変換する音声認識アプリケーションが格納されていてもよい。メモリ部２２０は、任意の記憶手段によって実装され得る。

【0052】

プロセッサ部２３０は、サーバ装置２００全体の動作を制御する。プロセッサ部２３０は、メモリ部２２０に格納されているプログラムを読み出し、そのプログラムを実行する。これにより、サーバ装置２００を所望のステップを実行する装置として機能させることが可能である。プロセッサ部２３０は、単一のプロセッサによって実装されてもよいし、複数のプロセッサによって実装されてもよい。

【0053】

図４Ｂに示される例では、サーバ装置２００の各構成要素がサーバ装置２００内に設けられているが、本発明はこれに限定されない。サーバ装置２００の各構成要素のいずれかがサーバ装置２００の外部に設けられることも可能である。例えば、メモリ部２２０、プロセッサ部２３０のそれぞれが別々のハードウェア部品で構成されている場合には、各ハードウェア部品が任意のネットワークを介して接続されてもよい。このとき、ネットワークの種類は問わない。各ハードウェア部品は、例えば、ＬＡＮを介して接続されてもよいし、無線接続されてもよいし、有線接続されてもよい。サーバ装置２００は、特定のハードウェア構成には限定されない。例えば、プロセッサ部２３０をデジタル回路ではなくアナログ回路によって構成することも本発明の範囲内である。サーバ装置２００の構成は、その機能を実現できる限りにおいて上述したものに限定されない。

【0054】

図３、図４Ｂに示される例では、データベース部３００は、サーバ装置２００の外部に設けられているが、本発明はこれに限定されない。データベース部３００をサーバ装置２００の内部に設けることも可能である。このとき、データベース部３００は、メモリ部２２０を実装する記憶手段と同一の記憶手段によって実装されてもよいし、メモリ部２２０を実装する記憶手段とは別の記憶手段によって実装されてもよい。いずれにせよ、データベース部３００は、サーバ装置２００のための格納部として構成される。データベース部３００の構成は、特定のハードウェア構成に限定されない。例えば、データベース部３００は、単一のハードウェア部品で構成されてもよいし、複数のハードウェア部品で構成されてもよい。例えば、データベース部３００は、サーバ装置２００の外付けハードディスク装置として構成されてもよいし、ネットワークを介して接続されるクラウド上のストレージとして構成されてもよい。

【0055】

図５は、サーバ装置２００のプロセッサ部２３０の構成の一例を示す。

【0056】

プロセッサ部２３０は、受信手段２３１と、識別手段２３２と、判定手段２３３と、出力手段２３４と、破棄手段２３５とを備える。

【0057】

受信手段２３１は、音声を示すデータを受信するように構成されている。音声を示すデータは、例えば、音声データであってもよいし、音声認識データであってもよいし、音声データと音声認識データとの組み合わせであってもよい。受信手段２３１は、例えば、少なくとも１つのユーザ装置１００から通信インターフェース部２１０を介して、音声を示すデータを受信することができる。受信手段２３１が受信する音声を示すデータは、少なくとも１つのユーザ装置１００から送信されたデータ自体であってもよいし、少なくとも１つのユーザ装置１００から送信されたデータをプロセッサ部２３０が加工することによって生成されたデータ（例えば、プロセッサ部２３０が音声認識を行うことによって生成された音声認識データ）であってもよい。

【0058】

一実施形態において、受信手段２３１は、少なくとも１つのユーザ装置１００から通信インターフェース部２１０を介して、音声データを受信することができる。別の実施形態において、受信手段２３１は、少なくとも１つのユーザ装置１００から通信インターフェース部２１０を介して、音声認識データを受信することができる。別の実施形態において、受信手段２３１は、少なくとも１つのユーザ装置１００から通信インターフェース部２１０を介して受信された音声データから生成された音声認識データを受信することができる。

【0059】

受信された音声を示すデータは、識別手段２３２に渡される。

【0060】

識別手段２３２は、受信されたデータが示す音声の話者を識別するように構成されている。識別手段２３２は、任意の手段を利用して、音声の話者を識別することができる。

【0061】

一実施形態において、識別手段２３２は、例えば、音声の声紋に基づいて、話者を識別することができる。例えば、識別手段２３２は、データベース部３００に登録されている複数のユーザの声紋の各々と、音声の声紋とを比較することによって、話者を識別することができる。例えば、音声の声紋が、データベース部３００に登録されている複数のユーザの声紋のうちの１つに一致する場合に、その声紋のユーザを音声の話者であると識別し、音声の声紋が、データベース部３００に登録されている複数のユーザの声紋のいずれにも一致しない場合、あるいは、データベース部３００に登録されている複数のユーザの声紋のうちの複数と一致する場合に、識別不能とすることができる。あるいは、例えば、データベース部３００に登録されている複数のユーザの声紋のうち、音声の声紋が最も類似する声紋のユーザを音声の話者であると識別することができる。

【0062】

識別手段２３２は、音声分析の分野または音声認証の分野において公知の技術を用いて、音声から声紋を抽出することができる。また、識別手段２３２は、音声分析の分野または音声認証の分野において公知の技術を用いて、声紋の一致または類似を判定することができる。

【0063】

別の実施形態において、識別手段２３２は、例えば、音声が発せられたときの画像に基づいて、音声の話者を識別することができる。画像は、複数の静止画または動画であり得る。例えば、識別手段２３２は、音声が発せられたときの画像を分析し、唇が動いている人物を音声の話者であると識別することができる。このとき、識別手段２３２は、画像内の人物が誰であるかも識別する。例えば、識別手段２３２は、データベース部３００に登録されている複数のユーザの顔画像の各々と、画像内の人物の顔画像とを比較することによって、画像内の人物を識別することができる。例えば、画像内の人物の顔画像が、データベース部３００に登録されている複数のユーザの顔画像のうちの１つに一致する場合に、その顔画像のユーザを画像内の人物であると識別し、画像内の人物の顔画像が、データベース部３００に登録されている複数のユーザの顔画像のいずれにも一致しない場合、あるいは、データベース部３００に登録されている複数のユーザの顔画像のうちの複数と一致する場合に、識別不能とすることができる。あるいは、例えば、データベース部３００に登録されている複数のユーザの顔画像のうち、画像内の人物の顔画像が最も類似する顔画像のユーザを画像内の人物であると識別することができる。

【0064】

識別手段２３２は、画像分析の分野または画像認証の分野において公知の技術を用いて、唇が動いている人物を識別することができる。また、識別手段２３２は、画像分析の分野または画像認証の分野において公知の技術を用いて、顔画像の一致または類似を判定することができる。

【0065】

判定手段２３３は、識別手段２３２によって識別された話者が、音声を示すデータを送信したユーザ装置に関連付けられたユーザであるか否かを判定するように構成されている。例えば、第１のユーザ装置と第２のユーザ装置とを含む複数のユーザ装置を利用した会話において、第１のユーザ装置から音声を示すデータを受信した場合、判定手段２３３は、識別手段２３２によって識別された話者が第１のユーザ装置に関連付けられたユーザであるか否かを判定する。ユーザ装置に関連付けられたユーザは、そのユーザ装置を利用するユーザであり得る。例えば、第１のユーザが第１のユーザ装置を介して自身のアカウントにログインした場合、第１のユーザは、第１のユーザ装置に関連付けられたユーザとなる。例えば、第２のユーザがゲストユーザとして第１のユーザ装置を利用する場合、第２のユーザは、第１のユーザ装置に関連付けられたユーザとなる。第１のユーザ装置のゲストユーザとしての登録は、例えば、第１のユーザ装置を介してゲストユーザのリクエストをサーバ装置２００に送信することによって行われる。

【0066】

出力手段２３４は、識別手段２３２によって識別された話者が、音声を示すデータを送信したユーザ装置に関連付けられたユーザであると判定される場合に、音声を示すデータと、その音声の話者が識別手段２３２によって識別された話者であることを示すデータとを出力するように構成されている。例えば、第１のユーザ装置から音声を示すデータを受信した場合、識別手段２３２によって識別された話者が、第１のユーザ装置に関連付けられたユーザであると判定された場合に、出力手段２３４は、音声を示すデータと、その音声の話者が識別手段２３２によって識別された話者であることを示すデータとを出力する。

【0067】

出力手段２３４がデータを出力する態様は問わない。出力手段２３４は、例えば、データを少なくとも１つのユーザ装置１００に送信し、そのデータを少なくとも１つのユーザ装置１００に出力させるようにしてもよい。このとき、音声を示すデータが音声データである場合に、プロセッサ部２３０が、音声データに音声認識処理を行うことにより音声認識データに変換したうえで、出力手段２３４が、音声認識データを少なくとも１つのユーザ装置１００に送信するようにしてもよい。あるいは、出力手段２３４が、音声データを少なくとも１つのユーザ装置１００に送信した後に、少なくとも１つのユーザ装置１００が音声データに音声認識処理を行うことにより音声認識データに変換するようにしてもよい。データを受信した少なくとも１つのユーザ装置１００は、例えば、表示部１３０にデータを表示することができる。表示部１３０には、例えば、音声を示すテキストと、話者を示すアイコンとが表示され得る。これは、会話の可視的な記録となり得、会話が会議中のものであれば、これは議事録となり得る。例えば、少なくとも１つのユーザ装置１００は、その記憶手段（例えば、内部記憶装置または外部記憶装置）にデータを記録することができる。記憶手段には、音声を示すデータと、その音声の話者が識別手段２３２によって識別された話者であることを示すデータとが対となって記録される。これは、会話の記録となり得、会話が会議中のものであれば、これは議事録となり得る。

【0068】

出力手段２３４は、例えば、データベース部３００またはサーバ装置の記憶手段にデータを記録することができる。データベース部３００またはサーバ装置の記憶手段には、音声を示すデータと、その音声の話者が識別手段２３２によって識別された話者であることを示すデータとが対となって記録される。これは、会話の記録となり得、会話が会議中のものであれば、これは議事録となり得る。

【0069】

破棄手段２３５は、識別手段２３２によって識別された話者が、音声を示すデータを送信したユーザ装置に関連付けられたユーザではないと判定された場合に、音声を示すデータを破棄するように構成されている。例えば、第１のユーザ装置から音声を示すデータを受信した場合、識別手段２３２によって識別された話者が、第１のユーザ装置に関連付けられたユーザではない場合に、破棄手段２３５は、音声を示すデータを破棄する。これは、例えば、識別手段２３２によって識別された話者が、第２のユーザ装置に関連付けられたユーザである場合、または、識別手段２３２によって識別された話者が、いずれのユーザ装置にも関連付けられていない場合であり得る。識別手段２３２によって識別された話者が、音声を示すデータを送信したユーザ装置に関連付けられたユーザではない場合は、上述したように、音声を示すデータが、ユーザが発した音声ではなくスピーカーによって発せられた音声を示し得るため、会話の記録を作成する上で不要なデータであるからである。破棄手段２３５が音声を示すデータを破棄することにより、プロセッサ部２３０は、誤った会話の記録を生成することを回避することができる。

【0070】

破棄手段２３５がデータを破棄する態様は問わない。破棄手段２３５は、データを最終的な会話の記録の生成に使用しない限り、任意の態様でデータを破棄することができる。例えば、破棄手段２３５は、データを完全に消去するようにしてもよいし、データを復元可能に消去するようにしてもよい。例えば、破棄手段２３５は、判定手段２３３による判定後すぐにデータを破棄してもよいし、一定期間データを保持した後にデータを破棄してもよい。例えば、破棄手段２３５は、例えば、図１、図２に示されるように、ユーザ装置に音声を示すデータを送信し、ユーザ装置から出力した後に、ユーザ装置にそのデータを破棄させるようにしてもよい。例えば、破棄手段２３５は、データベース部３００またはサーバ装置の記憶手段にデータを記録した後に、そのデータを破棄するようにしてもよい。

【0071】

上述した図５に示される例では、プロセッサ部２３０の各構成要素が同一のプロセッサ部２３０内に設けられているが、本発明はこれに限定されない。プロセッサ部２３０の各構成要素が複数のプロセッサ部に分散される構成も本発明の範囲内である。このとき、複数のプロセッサ部は、同一のハードウェア部品内に位置してもよいし、近傍または遠隔の別個のハードウェア部品内に位置してもよい。

【0072】

３．本発明の会話の記録を生成するためのシステムによる処理
図６は、本発明の会話の記録を生成するためのシステム１０００におけるデータフロー６００の一例を示す。本例では、第１のユーザと第２のユーザとが、第１のユーザ装置１００_１と第２のユーザ装置１００_２と利用して会話をするときに、第１のユーザが発言した場合を例に説明する。図６では、第１のユーザ装置１００_１と第２のユーザ装置１００_２とサーバ装置２００と、データベース部３００との間のデータのフローが示されている。

【0073】

まず、第１のユーザが、第１のユーザ装置１００_１の音声入力部１６０（例えば、マイク）に対して発言する。

【0074】

ステップＳ６０１では、発言された第１の音声が、第１のユーザ装置１００_１の音声入力部１６０を介して第１のユーザ装置１００_１に入力される。入力された音声は、第１の音声を示すデータとして取り扱われる。第１の音声を示すデータは、例えば、音声データであってもよいし、第１のユーザ装置１００_１が音声認識処理を行う場合には、音声認識データであってもよい。

【0075】

ステップＳ６０２では、第１の音声を示すデータがサーバ装置２００に送信される。サーバ装置２００が第１の音声を示すデータを受信すると、受信された第１の音声を示すデータに対して、ステップＳ６０７の処理が行われる。

【0076】

ステップＳ６０３では、第１の音声を示すデータが第２のユーザ装置１００_２に送信される。第１の音声を示すデータは、第１のユーザ装置１００_１から第２のユーザ装置１００_２に直接的に送信されてもよいし、第１のユーザ装置１００_１から第２のユーザ装置１００_２に間接的に送信されてもよい。例えば、第１の音声を示すデータは、サーバ装置２００を介して第２のユーザ装置１００_２に送信されることができる。このとき、ステップＳ６０２で送信されたデータの複製が第２のユーザ装置１００_２に送信されるようにしてもよい。

【0077】

第２のユーザ装置１００_２が第１の音声を示すデータを受信すると、ステップＳ６０４で、第２のユーザ装置１００_２の音声出力部１７０（例えば、スピーカー）から第１の音声を出力する。これにより、第２のユーザは、第１のユーザの発言を聞くことができる。

【0078】

ステップＳ６０５では、第２のユーザ装置１００_２の音声出力部１７０から出力された音声が、第２のユーザ装置１００_２の音声入力部１６０を介して第２のユーザ装置１００_２に入力される。入力された音声は、第２の音声を示すデータとして取り扱われる。第２の音声を示すデータは、例えば、音声データであってもよいし、第２のユーザ装置１００_２が音声認識処理を行う場合には、音声認識データであってもよい。

【0079】

ステップＳ６０６では、第２の音声を示すデータがサーバ装置２００に送信される。サーバ装置２００が第２の音声を示すデータを受信すると、受信された第２の音声を示すデータに対して、ステップＳ６０７の処理が行われる。

【0080】

ステップＳ６０７では、会話の記録を生成するための処理が行われる。ステップＳ６０７の詳細は、図７を参照して後述する。

【0081】

ステップＳ６０７の処理により、ステップＳ６０２で受信された第１の音声を示すデータが、第１の音声の話者が第１のユーザであることを示すデータと共に出力される。他方で、ステップＳ６０７の処理により、ステップＳ６０６で受信された第２の音声を示すデータは、破棄される。

【0082】

ステップＳ６０８では、ステップＳ６０７で出力された、第１の音声を示すデータと、第１の音声の話者が第１のユーザであることを示すデータとが、第１のユーザ装置１００_１に送信される。音声を示すデータが音声データである場合に、プロセッサ部２３０が、音声データに音声認識処理を行うことにより音声認識データに変換したうえで、音声認識データを第１のユーザ装置１００_１に送信するようにしてもよい。あるいは、音声データを第１のユーザ装置１００_１に送信した後に、第１のユーザ装置１００_１が音声データに音声認識処理を行うことにより音声認識データに変換するようにしてもよい。

【0083】

第１のユーザ装置１００_１がそれらのデータを受信すると、ステップＳ６０９では、受信されたデータが、第１のユーザ装置１００_１の表示部１３０に表示される。例えば、表示部１３０には、図１に示されるように、第１の音声を示すテキストと、第１の音声の話者が第１のユーザであることを示すアイコンとが表示され得る。これにより、第１のユーザの発言が記録された会話の記録が作成され、第１のユーザは、これを見ることができる。あるいは、これに代えて、または、これに加えて、ステップＳ６０９では、受信されたデータが、第１のユーザ装置１００_１の記憶手段に記録されるようにしてもよい。これにより、第１のユーザの発言が記録された会話の記録が作成される。

【0084】

ステップＳ６１０では、ステップＳ６０７で出力された、第１の音声を示すデータと、第１の音声の話者が第１のユーザであることを示すデータとが、第２のユーザ装置１００_２に送信される。音声を示すデータが音声データである場合に、プロセッサ部２３０が、音声データに音声認識処理を行うことにより音声認識データに変換したうえで、音声認識データを第２のユーザ装置１００_２に送信するようにしてもよい。あるいは、音声データを第２のユーザ装置１００_２に送信した後に、第２のユーザ装置１００_２が音声データに音声認識処理を行うことにより音声認識データに変換するようにしてもよい。

【0085】

第２のユーザ装置１００_２がそれらのデータを受信すると、ステップＳ６１１では、受信されたデータが、第２のユーザ装置１００_２の表示部１３０に表示される。例えば、表示部１３０には、図１に示されるように、第１の音声を示すテキストと、第１の音声の話者が第１のユーザであることを示すアイコンとが表示され得る。これにより、第１のユーザの発言が記録された会話の記録が作成され、第２のユーザは、これを見ることができる。あるいは、これに代えて、または、これに加えて、ステップＳ６１１では、受信されたデータが、第２のユーザ装置１００_２の記憶手段に記録されるようにしてもよい。これにより、第１のユーザの発言が記録された会話の記録が作成される。

【0086】

ステップＳ６０８～ステップＳ６１１に代えて、または、ステップＳ６０８～ステップＳ６１１に加えて、ステップ６１２およびステップＳ６１３が行われるようにしてもよい。

【0087】

ステップＳ６１２では、ステップＳ６０７で出力された、第１の音声を示すデータと、第１の音声の話者が第１のユーザであることを示すデータとが、データベース部３００に送信される。

【0088】

データベース部３００がそれらのデータを受信すると、ステップＳ６１３では、受信されたデータが、データベース部３００に記録される。例えば、データベース部３００には、第１の音声を示すデータと、第１の音声の話者が第１のユーザであることを示すデータとが対となって記録される。これにより、第１のユーザの発言が記録された会話の記録が作成される。

【0089】

このようにして作成された会話の記録には、ステップＳ６０６で受信された第２の音声を示すデータは記録されないため、作成された会話の記録に第１のユーザの発言内容が重複して記録されることはない。

【0090】

図７は、ステップＳ６０７の処理の一例を示すフローチャートである。ステップＳ６０７の処理は、サーバ装置２００のプロセッサ部２３０において行われる。

【0091】

ステップＳ７０１では、プロセッサ部２３０の受信手段２３１が、第１の音声を示すデータを受信する。第１の音声を示すデータは、第１のユーザ装置１００_１から通信インターフェース部２１０を介して受信され得る。受信される第１の音声を示すデータは、例えば、第１のユーザ装置１００_１から受信された音声データであってもよいし、第１のユーザ装置１００_１による音声認識処理によって生成された音声認識データであってもよいし、第１のユーザ装置１００_１から受信された音声データに対するプロセッサ部２３０による音声認識処理によって生成された音声認識データであってもよいし、音声データと音声認識データとの組み合わせであってもよい。

【0092】

ステップＳ７０２では、プロセッサ部２３０の識別手段２３２が、ステップＳ７０１で受信されたデータが示す第１の音声の話者を識別する。

【0093】

一実施形態において、識別手段２３２は、例えば、音声の声紋に基づいて、第１の音声の話者を識別する。例えば、識別手段２３２は、データベース部３００に登録されている複数のユーザの声紋の各々と、第１の音声の声紋とを比較することによって、第１の音声の話者を識別することができる。例えば、第１の音声の声紋が、データベース部３００に登録されている複数のユーザの声紋のうちの１つに一致する場合に、その声紋のユーザを第１の音声の話者であると識別することができる。あるいは、例えば、データベース部３００に登録されている複数のユーザの声紋のうち、第１の音声の声紋が最も類似する声紋のユーザを第１の音声の話者であると識別することができる。

【0094】

別の実施形態において、識別手段２３２は、例えば、音声が発せられたときの画像に基づいて、第１の音声の話者を識別することができる。例えば、識別手段２３２は、第１の音声が発せられたときの画像を分析し、唇が動いている人物を第１の音声の話者であると識別することができる。このとき、識別手段２３２は、画像内の人物が誰であるかも識別する。例えば、識別手段２３２は、データベース部３００に登録されている複数のユーザの顔画像の各々と、画像内の人物の顔画像とを比較することによって、画像内の人物を識別することができる。例えば、画像内の人物の顔画像が、データベース部３００に登録されている複数のユーザの顔画像のうちの１つに一致する場合に、その顔画像のユーザを画像内の人物であると識別することができる。あるいは、例えば、データベース部３００に登録されている複数のユーザの顔画像のうち、画像内の人物の顔画像が最も類似する顔画像のユーザを画像内の人物であると識別することができる。

【0095】

ステップＳ７０３では、プロセッサ部２３０の判定手段２３３が、ステップＳ７０２で識別された話者が、第１のユーザ装置１００_１に関連付けられたユーザであるか否かを判定する。ユーザ装置に関連付けられたユーザは、そのユーザ装置を利用するユーザであり得る。例えば、第１のユーザが第１のユーザ装置１００_１を介して自身のアカウントにログインした場合、第１のユーザは、第１のユーザ装置１００_１に関連付けられたユーザとなる。例えば、第２のユーザがゲストユーザとして第１のユーザ装置１００_１を利用する場合、第２のユーザは、第１のユーザ装置１００_１に関連付けられたユーザとなる。

【0096】

判定手段２３３は、例えば、第１のユーザ装置１００_１を利用するユーザのアカウントまたは第１のユーザ装置１００_１を利用するゲストユーザのアカウントと、ステップＳ７０２で識別された話者とを照合することにより、ステップＳ７０２で識別された話者が、第１のユーザ装置１００_１に関連付けられたユーザであるか否かを判定する。

【0097】

ステップＳ７０２で識別された話者が、第１のユーザ装置に関連付けられたユーザであると判定された場合、ステップＳ７０４に進む。ステップＳ７０２で識別された話者が、第１のユーザ装置に関連付けられたユーザではないと判定された場合、ステップＳ７０５に進む。

【0098】

ステップＳ７０４では、プロセッサ部２３０の出力手段２３４が、第１の音声を示すデータと、第１の音声の話者がステップＳ７０２で識別された話者であることを示すデータとを出力する。出力手段２３４がデータを出力する態様は問わない。例えば、ステップＳ６０８またはステップＳ６１０で説明されたように、第１のユーザ装置１００_１および／または第２のユーザ装置１００_２にデータが送信されるようにしてもよい。あるいは、ステップＳ６１２で説明されたように、データベース部３００にデータが送信されるようにしてもよい。

【0099】

ステップＳ７０５では、プロセッサ部２３０の破棄手段２３５が、第１の音声を示すデータを破棄する。破棄手段２３５がデータを破棄する態様は問わない。破棄手段２３５は、データを最終的な会話の記録の生成に使用しない限り、任意の態様でデータを破棄することができる。例えば、破棄手段２３５は、データを完全に消去するようにしてもよいし、データを復元可能に消去するようにしてもよい。例えば、破棄手段２３５は、判定手段２３３による判定後すぐにデータを破棄してもよいし、一定期間データを保持した後にデータを破棄してもよい。例えば、破棄手段２３５は、例えば、ステップＳ６０８、ステップＳ６１０、ステップＳ６１２のように、第１のユーザ装置１００_１および／または第２のユーザ装置１００_２および／またはデータベース部３００にデータを送信した後に、第１のユーザ装置１００_１および／または第２のユーザ装置１００_２および／またはデータベース部３００にそのデータを破棄させるようにしてもよい。

【0100】

例えば、ステップＳ６０２で受信された第１の音声の場合、ステップＳ７０１で第１のユーザ装置から第１の音声を受信し、ステップＳ７０２で話者が第１のユーザであると識別され、ステップＳ７０３で、第１のユーザが第１のユーザ装置に関連付けられたユーザであると判定されるため、ステップＳ７０４に進み、第１の音声を示すデータと、第１の音声の話者が第１のユーザであることを示すデータとが出力される。

【0101】

例えば、ステップＳ６０６で受信された第２の音声の場合、ステップＳ７０１で第２のユーザ装置から第２の音声を受信し、ステップＳ７０２で話者が第１のユーザであると識別され、ステップＳ７０３で、第１のユーザが第２のユーザ装置に関連付けられたユーザではないと判定されるため、ステップＳ７０５に進み、第２の音声を示すデータが破棄される。

【0102】

図８は、ステップＳ７０３およびステップＳ７０４の詳細を示すフローチャートである。ステップＳ７０３は、ステップＳ７０３１およびステップＳ７０３２を含み、ステップＳ７０４は、ステップＳ７０４１およびステップ７０４２を含む。

【0103】

ステップＳ７０３１では、プロセッサ部２３０の判定手段２３３が、ステップＳ７０２で識別された話者が、第１のユーザ装置１００_１（第１の音声を示すデータを送信したユーザ装置）で用いられている第１のアカウントを保有する第１のユーザであるか否かを判定する。すなわち、ステップＳ７０３１では、ステップＳ７０２で識別された話者が、第１のユーザ装置１００_１に関連付けられたユーザのうち、第１のユーザ装置１００_１を介して自身のアカウントにログインしたユーザであるか否かが判定される。

【0104】

判定手段２３３は、例えば、第１のユーザ装置１００_１を利用するユーザのアカウントと、ステップＳ７０２で識別された話者とを照合することにより、判定を行うことができる。

【0105】

ステップＳ７０２で識別された話者が、第１のユーザ装置１００_１で用いられている第１のアカウントを保有する第１のユーザであると判定される場合、ステップＳ７０４のうちのステップＳ７０４１に進む。ステップＳ７０２で識別された話者が、第１のユーザ装置１００_１で用いられている第１のアカウントを保有する第１のユーザではないと判定される場合、ステップＳ７０３２に進む。

【0106】

ステップＳ７０３２では、プロセッサ部２３０の判定手段２３３が、ステップＳ７０２で識別された話者が、第１のユーザ装置１００_１（第１の音声を示すデータを送信したユーザ装置）で用いられている第１のアカウントを利用するゲストユーザであるか否かを判定する。すなわち、ステップＳ７０３２では、ステップＳ７０２で識別された話者が、第１のユーザ装置１００_１に関連付けられたユーザのうち、第１のユーザ装置１００_１を利用するゲストユーザであるか否かが判定される。

【0107】

判定手段２３３は、例えば、第１のユーザ装置１００_１を利用するゲストユーザのアカウントと、ステップＳ７０２で識別された話者とを照合することにより、判定を行うことができる。

【0108】

ステップＳ７０２で識別された話者が、第１のユーザ装置１００_１で用いられている第１のアカウントを利用するゲストユーザであると判定される場合、ステップＳ７０４のうちのステップＳ７０４２に進む。ステップＳ７０２で識別された話者が、第１のユーザ装置１００_１で用いられている第１のアカウントを利用するゲストユーザではないと判定される場合、ステップＳ７０５に進む。

【0109】

ステップＳ７０４１では、プロセッサ部２３０の出力手段２３４が、第１の音声を示すデータと、第１の音声の話者が第１のユーザであることを示すデータとを出力する。ステップＳ７０４で説明したように、出力手段２３４がデータを出力する態様は問わない。

【0110】

ステップＳ７０４２では、プロセッサ部２３０の出力手段２３４が、第１の音声を示すデータと、第１の音声の話者がゲストユーザであることを示すデータとを出力する。ステップＳ７０４で説明したように、出力手段２３４がデータを出力する態様は問わない。

【0111】

このようにして、第１のユーザ装置１００_１に関連付けられたユーザに応じたデータを出力することができる。

【0112】

図８に示される例では、ステップＳ７０３がステップＳ７０３１とステップＳ７０３２とを含むことを説明したが、本発明は、これに限定されない。例えば、ステップＳ７０３がステップＳ７０３２を含まないようにしてもよいし、ステップＳ７０３がステップＳ７０３１を含まないようにしてもよい。例えば、ステップＳ７０３がステップＳ７０３２を含まない場合、ステップＳ７０３１でＮｏと判定された場合には、ステップＳ７０５に進むことができる。

【0113】

ステップＳ７０３がステップＳ７０３２を含まない場合、対応するように、ステップＳ７０４はステップＳ７０４２を含まないようにしてもよい。ステップＳ７０３がステップＳ７０３１を含まない場合、対応するように、ステップＳ７０４はステップＳ７０４１を含まないようにしてもよい。

【0114】

図１に示される場合を例に、図６～図８の処理の一例を説明する。

【0115】

まず、ユーザＡがユーザ装置１０のマイクに対して「賛成です。」と発言する。

【0116】

ステップＳ６０１では、「賛成です。」の音声が、マイクを介してユーザ装置１０に入力される。

【0117】

ステップＳ６０２では、「賛成です。」の音声を示すデータがサーバ装置２００に送信される。本例では、「賛成です。」の音声データが送信されるものとする。サーバ装置２００が「賛成です。」の音声を示すデータを受信すると、「賛成です。」の音声データに対して、ステップＳ６０７の処理が行われる。

【0118】

ステップＳ６０３では、「賛成です。」の音声データがユーザＢのユーザ装置２０に送信される。

【0119】

ユーザ装置２０が「賛成です。」の音声データを受信すると、ステップＳ６０４で、ユーザ装置２０のスピーカーから「賛成です。」の音声を出力する。これにより、ユーザＢは、ユーザＡによる「賛成です。」の発言を聞くことができる。

【0120】

ステップＳ６０５では、ユーザ装置２０のスピーカーから出力された「賛成です。」の音声が、ユーザ装置２０のマイクを介してユーザ装置２０に入力される。本例では、この音声を“第２の「賛成です。」”と称する。

【0121】

ステップＳ６０６では、第２の「賛成です。」を示すデータがサーバ装置２００に送信される。本例では、第２の「賛成です。」の音声データが送信されるものとする。サーバ装置２００が第２の「賛成です。」の音声データを受信すると、第２の「賛成です。」の音声データに対して、ステップＳ６０７の処理が行われる。

【0122】

ステップＳ６０７では、「賛成です。」の音声データに対して以下の処理が行われる。

【0123】

ステップＳ７０１では、プロセッサ部２３０の受信手段２３１が、「賛成です。」の音声データを受信する。

【0124】

ステップＳ７０２では、プロセッサ部２３０の識別手段２３２が、「賛成です。」の音声データが示す音声の話者を識別する。例えば、「賛成です。」の音声データから声紋を抽出し、その声紋と、データベース部３００に格納されている複数のユーザのアカウントに関する情報に含まれる声紋とを比較することにより、話者を識別する。ここでは、話者がユーザＡであることが識別される。

【0125】

ステップＳ７０３では、プロセッサ部２３０の判定手段２３３が、ユーザＡが、「賛成です。」の音声データを送信してきたユーザ装置１０に関連付けられたユーザであるか否かを判定する。

【0126】

ここで、ステップＳ７０３１では、プロセッサ部２３０の判定手段２３３が、ユーザＡが、ユーザ装置１０で用いられているアカウントを保有するユーザであるか否かを判定する。ユーザＡは、ユーザ装置１０で用いられているアカウントを保有するユーザであるため、Ｙｅｓと判定され、ステップＳ７０４のステップＳ７０４１に進む。

【0127】

ステップＳ７０４のステップＳ７０４１では、プロセッサ部２３０の出力手段２３４が、「賛成です。」の音声データと、「賛成です。」の音声の話者がユーザＡであることを示すデータとを出力する。

【0128】

このようにして、ステップＳ６０７の処理により、ステップＳ６０２で受信された「賛成です。」の音声データが、「賛成です。」の音声の話者がユーザＡであることを示すデータと共に出力される。

【0129】

ステップＳ６０７では、第２の「賛成です。」の音声データに対して以下の処理が行われる。

【0130】

ステップＳ７０１では、プロセッサ部２３０の受信手段２３１が、第２の「賛成です。」の音声データを受信する。

【0131】

ステップＳ７０２では、プロセッサ部２３０の識別手段２３２が、第２の「賛成です。」の音声データが示す音声の話者を識別する。例えば、第２の「賛成です。」の音声データから声紋を抽出し、その声紋と、データベース部３００に格納されている複数のユーザのアカウントに関する情報に含まれる声紋とを比較することにより、話者を識別する。ここでは、話者がユーザＡであることが識別される。

【0132】

ステップＳ７０３では、プロセッサ部２３０の判定手段２３３が、ユーザＡが、第２の「賛成です。」の音声データを送信してきたユーザ装置２０に関連付けられたユーザであるか否かを判定する。ユーザＡはユーザ装置２０に関連付けられたユーザではないため、Ｎｏと判定され、ステップＳ７０５に進む。

【0133】

ステップＳ７０５では、プロセッサ部２３０の破棄手段２３５が、第２の「賛成です。」の音声データを破棄する。

【0134】

このようにして、ステップＳ６０７の処理により、ステップＳ６０６で受信された第２の「賛成です。」の音声データが破棄され、会話の記録の作成には使用されない。

【0135】

ステップＳ６０８では、ステップＳ６０７で出力されたデータが、ユーザ装置１０に送信される。このとき、プロセッサ部２３０が「賛成です。」の音声データに対して音声認識処理を行うことにより音声認識データ（例えば、「賛成です。」のテキストデータ）に変換して送信することができる。

【0136】

ユーザ装置１０がそれらのデータを受信すると、ステップＳ６０９では、受信されたデータが、ユーザ装置１０の表示部１３０に表示される。例えば、表示部１３０には、図１Ｃに示されるように、「賛成です。」の音声を示すテキストと、「賛成です。」の音声の話者がユーザＡであることを示すアイコンとが表示され得る。これにより、ユーザＡの発言が記録された会話の記録が作成され、ユーザＡは、これを見ることができる。

【0137】

ステップＳ６１０では、ステップＳ６０７で出力されたデータが、ユーザ装置２０に送信される。このとき、プロセッサ部２３０が「賛成です。」の音声データに対して音声認識処理を行うことにより音声認識データ（例えば、「賛成です。」のテキストデータ）に変換して送信することができる。

【0138】

ユーザ装置２０がそれらのデータを受信すると、ステップＳ６１１では、受信されたデータが、ユーザ装置２０の表示部１３０に表示される。例えば、表示部１３０には、図１Ｃに示されるように、「賛成です。」の音声を示すテキストと、「賛成です。」の音声の話者がユーザＡであることを示すアイコンとが表示され得る。これにより、ユーザＡの発言が記録された会話の記録が作成され、ユーザＢは、これを見ることができる。

【0139】

このようにして作成された会話の記録には、ステップＳ６０６で受信された第２の「賛成です。」の音声を示すデータは記録されないため、作成された会話の記録にユーザＡの発言内容が重複して記録されることはない。

【0140】

図２に示される場合を例に、図６～図８の処理の一例を説明する。

【0141】

まず、ユーザＣがユーザ装置１０のマイクに対して「賛成です。」と発言する。

【0142】

ステップＳ６０１では、「賛成です。」の音声が、マイクを介してユーザ装置１０に入力される。

【0143】

【0144】

ステップＳ６０３では、「賛成です。」の音声データがユーザＢのユーザ装置２０に送信される。

【0145】

ユーザ装置２０が「賛成です。」の音声データを受信すると、ステップＳ６０４で、ユーザ装置２０のスピーカーから「賛成です。」の音声を出力する。これにより、ユーザＢは、ユーザＣによる「賛成です。」の発言を聞くことができる。

【0146】

【0147】

【0148】

ステップＳ６０７では、「賛成です。」の音声データに対して以下の処理が行われる。

【0149】

ステップＳ７０１では、プロセッサ部２３０の受信手段２３１が、「賛成です。」の音声データを受信する。

【0150】

【0151】

ステップＳ７０３では、プロセッサ部２３０の判定手段２３３が、ユーザＣが、「賛成です。」の音声データを送信してきたユーザ装置１０に関連付けられたユーザであるか否かを判定する。

【0152】

ここで、ステップＳ７０３１では、プロセッサ部２３０の判定手段２３３が、ユーザＣが、ユーザ装置１０で用いられているアカウントを保有するユーザであるか否かを判定する。ユーザＣは、ユーザ装置１０で用いられているアカウントを保有するユーザではないため、Ｎｏと判定され、ステップＳ７０３２に進む。

【0153】

ステップＳ７０３２では、プロセッサ部２３０の判定手段２３３が、ユーザＣが、ユーザ装置１０で用いられているアカウントを利用するゲストユーザであるか否かを判定する。ユーザＣは、ユーザ装置１０で用いられているアカウントを利用するゲストユーザであるため、Ｙｅｓと判定され、ステップＳ７０４のステップＳ７０４２に進む。

【0154】

ステップＳ７０４のステップＳ７０４２では、プロセッサ部２３０の出力手段２３４が、「賛成です。」の音声データと、「賛成です。」の音声の話者がユーザＣであることを示すデータとを出力する。

【0155】

このようにして、ステップＳ６０７の処理により、ステップＳ６０２で受信された「賛成です。」の音声データが、「賛成です。」の音声の話者がユーザＣであることを示すデータと共に出力される。

【0156】

ステップＳ６０７では、第２の「賛成です。」の音声データに対して以下の処理が行われる。

【0157】

ステップＳ７０１では、プロセッサ部２３０の受信手段２３１が、第２の「賛成です。」の音声データを受信する。

【0158】

【0159】

ステップＳ７０３では、プロセッサ部２３０の判定手段２３３が、ユーザＣが、第２の「賛成です。」の音声データを送信してきたユーザ装置２０に関連付けられたユーザであるか否かを判定する。

【0160】

ここで、ステップＳ７０３１では、プロセッサ部２３０の判定手段２３３が、ユーザＣが、ユーザ装置２０で用いられているアカウントを保有するユーザであるか否かを判定する。ユーザＣは、ユーザ装置２０で用いられているアカウントを保有するユーザではないため、Ｎｏと判定され、ステップＳ７０３２に進む。

【0161】

ステップＳ７０３２では、プロセッサ部２３０の判定手段２３３が、ユーザＣが、ユーザ装置２０で用いられているアカウントを利用するゲストユーザであるか否かを判定する。ユーザＣは、ユーザ装置２０で用いられているアカウントを利用するゲストユーザではないため、Ｎｏと判定され、ステップＳ７０５に進む。

【0162】

ステップＳ７０５では、プロセッサ部２３０の破棄手段２３５が、第２の「賛成です。」の音声データを破棄する。

【0163】

【0164】

【0165】

ユーザ装置１０がそれらのデータを受信すると、ステップＳ６０９では、受信されたデータが、ユーザ装置１０の表示部１３０に表示される。例えば、表示部１３０には、図２Ｄに示されるように、「賛成です。」の音声を示すテキストと、「賛成です。」の音声の話者がユーザＣであることを示すアイコンとが表示され得る。これにより、ユーザＣの発言が記録された会話の記録が作成され、ユーザＡおよびユーザＣは、これを見ることができる。

【0166】

【0167】

ユーザ装置２０がそれらのデータを受信すると、ステップＳ６１１では、受信されたデータが、ユーザ装置２０の表示部１３０に表示される。例えば、表示部１３０には、図２Ｄに示されるように、「賛成です。」の音声を示すテキストと、「賛成です。」の音声の話者がユーザＣであることを示すアイコンとが表示され得る。これにより、ユーザＣの発言が記録された会話の記録が作成され、ユーザＢは、これを見ることができる。

【0168】

【0169】

上述した例では、発言を記録する前に、話者を識別し、話者識別の結果に基づいて、正しい情報のみを記録することを説明したが、本発明はこれに限定されない。例えば、図１Ｂ、図２Ａ，図２Ｃに示されるように、誤認識された発言が記録された後に、話者識別の結果に基づいて、記録された発言の話者を変更するまたは記録された発言を削除するようにしてもよい。

【0170】

上述した例では、２つのユーザ装置（第１のユーザ装置１００_１および第２のユーザ装置１００_２、または、ユーザ装置１０およびユーザ装置２０）を利用した会話を例に説明したが、本発明は、任意の数のユーザ装置を利用した会話に適用されることができる。

【0171】

図６～図８を参照して上述した例では、特定の順序で処理が行われることを説明したが、各処理の順序は説明されたものに限定されず、論理的に可能な任意の順序で行われ得る。

【0172】

図７～図８を参照して上述した例では、図７～図８に示される各ステップの処理は、プロセッサ部２３０とメモリ部２２０に格納されたプログラムとによって実現することが説明されたが、本発明はこれに限定されない。図７～図８に示される各ステップの処理のうちの少なくとも１つは、制御回路などのハードウェア構成によって実現されてもよい。

【0173】

上述した例では、サーバ装置２００のプロセッサ部２３０が、ステップＳ６０７の処理を行うことを説明したが、本発明はこれに限定されない。ステップＳ６０７の処理をユーザ装置１００のプロセッサ部１５０が行うことも、本発明の範囲内である。このとき、サーバ装置２００はシステム１０００から省略されてもよい。

【0174】

ステップＳ６０７の処理をユーザ装置１００のプロセッサ部１５０が行う場合、ステップＳ６０７は、ステップＳ７０１の代わりにステップＳ７０１’を含み得る。

【0175】

ステップＳ７０１’では、ステップＳ６０１で音声入力部１６０を介して入力された音声を示すデータを受信する。

【0176】

その後のステップは、図７を参照して上述したステップと同様であり、ここでは説明を省略する。

【0177】

本発明は、上述した実施形態に限定されるものではない。本発明は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。当業者は、本発明の具体的な好ましい実施形態の記載から、本発明の記載および技術常識に基づいて等価な範囲を実施することができることが理解される。

【産業上の利用可能性】

【0178】