(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022100996
(43)【公開日】2022-07-06
(54)【発明の名称】会話制御装置、会話制御方法及びコンピュータープログラム
(51)【国際特許分類】
G06F 3/0484 20220101AFI20220629BHJP
G10L 15/00 20130101ALI20220629BHJP
H04N 7/15 20060101ALI20220629BHJP
G06F 3/16 20060101ALI20220629BHJP
【FI】
G06F3/0484
G10L15/00 200U
H04N7/15 120
G06F3/16 650
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2020215319
(22)【出願日】2020-12-24
(71)【出願人】
【識別番号】399035766
【氏名又は名称】エヌ・ティ・ティ・コミュニケーションズ株式会社
(71)【出願人】
【識別番号】502095993
【氏名又は名称】NTTリミテッド・ジャパン株式会社
(74)【代理人】
【識別番号】110001634
【氏名又は名称】特許業務法人 志賀国際特許事務所
(72)【発明者】
【氏名】早川 修平
(72)【発明者】
【氏名】宮岸 大輝
【テーマコード(参考)】
5C164
5E555
【Fターム(参考)】
5C164FA10
5C164SB21S
5C164TA08S
5C164VA13P
5E555AA25
5E555AA26
5E555AA28
5E555AA46
5E555BA02
5E555BA05
5E555BB02
5E555BB04
5E555BC01
5E555BD09
5E555CA47
5E555CB64
5E555DA02
5E555DB41
5E555DB53
5E555DC09
5E555DC13
5E555DC33
5E555DC35
5E555EA03
5E555EA05
5E555EA19
5E555EA23
5E555FA00
(57)【要約】 (修正有)
【課題】ネットワークを介して行われる会話や会議において、状況の変化をより容易に参加者に認識させることが可能となる会話制御装置、会話制御方法及びコンピュータープログラムを提供する。
【解決手段】会話システム100において、会話制御装置20は、ネットワーク40を介して複数のユーザーによって行われている会話において、ユーザーの画像とともに表示される付加画像を決定する付加画像決定部と、ユーザーの画像と、付加画像決定部によって決定された付加画像と、をユーザーによって使用されるユーザー端末10に表示させるために必要な表示データを生成する表示情報生成部と、複数のユーザーによって行われる会話を制御する会話制御部と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ネットワークを介して複数のユーザーによって行われている会話において、ユーザーの画像とともに表示される付加画像を決定する付加画像決定部と、
前記ユーザーの画像と、前記付加画像決定部によって決定された付加画像と、をユーザーによって使用されるユーザー端末に表示させるために必要な表示データを生成する表示情報生成部と、
前記複数のユーザーによって行われる会話を制御する会話制御部と、
を備える会話制御装置。
【請求項2】
前記ユーザーの発話に関連すると推定される単語である関連単語を取得する認識部をさらに備え、
前記付加画像決定部は、前記認識部において取得された前記関連単語に基づいて前記画像情報を選択する、請求項1に記載の会話制御装置。
【請求項3】
前記ユーザーの画像に基づいて表情又は感情の推定を行う認識部をさらに備え、
前記付加画像決定部は、前記認識部において取得された表情又は感情に基づいて前記画像情報を選択する、請求項1に記載の会話制御装置。
【請求項4】
前記付加画像決定部は、前記ユーザーに関する情報であるユーザー情報に基づいて得られる1又は複数の文字列を含むタグ画像を前記付加画像として決定する、請求項1に記載の会話制御装置。
【請求項5】
ネットワークを介して複数のユーザーによって行われている会話において、ユーザーの画像とともに表示される付加画像を決定する付加画像決定ステップと、
前記ユーザーの画像と、前記付加画像決定ステップにおいて決定された付加画像と、をユーザーによって使用されるユーザー端末に表示させるために必要な表示データを生成する表示情報生成ステップと、
前記複数のユーザーによって行われる会話を制御する会話制御ステップと、
を有する会話制御方法。
【請求項6】
請求項1から4のいずれか一項に記載の会話制御装置としてコンピューターを機能させるためのコンピュータープログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オンラインで会話することを実現するための技術に関する。
【背景技術】
【0002】
従来から、ネットワークを介して会話や会議を行うためのシステムが提案されている。以前は音声のみを用いた会話や会議として使用されることが多かったが、近年の通信環境の発達により映像を用いた会話や会議が実現されてきている。そのようなシステムでは、カメラで撮影された参加者の顔画像が表示されることが一般的である。参加者は、自身の顔画像を提示することで、他者に対し自身の状況を伝えることができる。例えば、特許文献1には、撮影されたユーザーの顔領域の画像を抽出して背景にはぼかしをかけて表示することが記載されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
複数人が参加する会話や会議では、表示される画面が人数分に分けて表示されることがある。この場合、一人の顔画像が表示される画面の領域が狭くなってしまう。このことに応じて、各参加者の表情等の様子が認識しにくくなり、会話や会議の状況の変化が認識しにくくなってしまう可能性があった。
【0005】
上記事情に鑑み、本発明は、ネットワークを介して行われる会話や会議において、状況の変化をより容易に参加者に認識させることが可能となる技術の提供を目的としている。
【課題を解決するための手段】
【0006】
本発明の一態様は、ネットワークを介して複数のユーザーによって行われている会話において、ユーザーの画像とともに表示される付加画像を決定する付加画像決定部と、前記ユーザーの画像と、前記付加画像決定部によって決定された付加画像と、をユーザーによって使用されるユーザー端末に表示させるために必要な表示データを生成する表示情報生成部と、前記複数のユーザーによって行われる会話を制御する会話制御部と、を備える会話制御装置である。
【0007】
本発明の一態様は、上記の会話制御装置であって、前記ユーザーの発話に関連すると推定される単語である関連単語を取得する認識部をさらに備え、前記付加画像決定部は、前記認識部において取得された前記関連単語に基づいて前記画像情報を選択する。
【0008】
本発明の一態様は、上記の会話制御装置であって、前記ユーザーの画像に基づいて表情又は感情の推定を行う認識部をさらに備え、前記付加画像決定部は、前記認識部において取得された表情又は感情に基づいて前記画像情報を選択する。
【0009】
本発明の一態様は、上記の会話制御装置であって、前記付加画像決定部は、前記ユーザーに関する情報であるユーザー情報に基づいて得られる1又は複数の文字列を含むタグ画像を前記付加画像として決定する。
【0010】
本発明の一態様は、ネットワークを介して複数のユーザーによって行われている会話において、ユーザーの画像とともに表示される付加画像を決定する付加画像決定ステップと、前記ユーザーの画像と、前記付加画像決定ステップにおいて決定された付加画像と、をユーザーによって使用されるユーザー端末に表示させるために必要な表示データを生成する表示情報生成ステップと、前記複数のユーザーによって行われる会話を制御する会話制御ステップと、を有する会話制御方法である。
【0011】
本発明の一態様は、上記の会話制御装置としてコンピューターを機能させるためのコンピュータープログラムである。
【発明の効果】
【0012】
本発明により、ネットワークを介して行われる会話や会議において、状況の変化をより容易に参加者に認識させることが可能となる。
【図面の簡単な説明】
【0013】
【
図1】本発明の会話システム100のシステム構成を示す概略ブロック図である。
【
図2】ユーザー端末10の機能構成の具体例を示す概略ブロック図である。
【
図3】会話制御装置20の機能構成の具体例を示す概略ブロック図である。
【
図6】認識装置30の機能構成の具体例を示す概略ブロック図である。
【
図7】ユーザー端末10の表示部13に表示される画像の具体例を示す図である。
【
図8】ユーザー端末10の表示部13に表示される画像の具体例を示す図である。
【
図9】会話システム100の処理の流れの具体例を示すシーケンスチャートである。
【発明を実施するための形態】
【0014】
以下、本発明の具体的な構成例について、図面を参照しながら説明する。なお、以下の説明では、2名以上のユーザーが会話を行うための仮想的な繋がりを示す概念を会議室と呼ぶ。そのため、以下の説明における会議室は、必ずしもその名称が会議室である必要は無く、例えば単に会話と呼ばれたりセッションと呼ばれたりするものであっても、2名以上のユーザーが会話を行う仮想的な場であれば全て以下の説明における会議室に相当する。
【0015】
図1は、本発明の会話システム100のシステム構成を示す概略ブロック図である。会話システム100は、ユーザー端末10を操作するユーザー同士がネットワーク40を介して会話を行うためのシステムである。会話システム100は、複数のユーザー端末10、会話制御装置20及び認識装置30を含む。複数のユーザー端末10、会話制御装置20及び認識装置30は、ネットワーク40を介して通信可能に接続される。ネットワーク40は、無線通信を用いたネットワークであってもよいし、有線通信を用いたネットワークであってもよい。ネットワーク40は、複数のネットワークが組み合わされて構成されてもよい。
【0016】
図2は、ユーザー端末10の機能構成の具体例を示す概略ブロック図である。ユーザー端末10は、例えばスマートフォン、タブレット、パーソナルコンピューター、携帯ゲーム機、据え置き型ゲーム機、専用機器などの情報機器を用いて構成される。ユーザー端末10は、通信部11、操作部12、表示部13、音声入力部14、音声出力部15、記憶部16及び制御部17を備える。
【0017】
通信部11は、通信機器である。通信部11は、例えばネットワークインターフェースとして構成されてもよい。通信部11は、制御部17の制御に応じて、ネットワーク40を介して他の装置とデータ通信する。通信部11は、無線通信を行う装置であってもよいし、有線通信を行う装置であってもよい。
【0018】
操作部12は、キーボード、ポインティングデバイス(マウス、タブレット等)、ボタン、タッチパネル等の既存の入力装置を用いて構成される。操作部12は、ユーザーの指示をユーザー端末10に入力する際にユーザーによって操作される。操作部12は、入力装置をユーザー端末10に接続するためのインターフェースであっても良い。この場合、操作部12は、入力装置においてユーザーの入力に応じ生成された入力信号をユーザー端末10に入力する。操作部12は、マイク及び音声認識装置を用いて構成されてもよい。この場合、操作部12はユーザーによって発話された文言を音声認識し、認識結果の文字列情報をユーザー端末10に入力する。操作部12は、ユーザーの指示をユーザー端末10に入力可能な構成であればどのように構成されてもよい。
【0019】
表示部13は、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ等の画像表示装置である。表示部13は、会話を行う際に用いられる画像データを表示する。表示部13は、画像表示装置をユーザー端末10に接続するためのインターフェースであっても良い。この場合、表示部13は、画像データを表示するための映像信号を生成し、自身に接続されている画像表示装置に映像信号を出力する。
【0020】
音声入力部14は、マイクを用いて構成される。音声入力部14は、マイクそのものとして構成されてもよいし、外部機器としてマイクをユーザー端末10に接続するためのインターフェースとして構成されてもよい。マイクは、会話を行うユーザーの発話音声を取得する。音声入力部14は、マイクによって取得された音声のデータを制御部17に出力する。
【0021】
音声出力部15は、スピーカーやヘッドホンやイヤホン等の音声出力装置を用いて構成される。音声出力部15は、音声出力装置そのものとして構成されてもよいし、外部機器として音声出力装置をユーザー端末10に接続するためのインターフェースとして構成されてもよい。音声出力装置は、会話を行うユーザーが音声を聞き取ることができるように音声を出力することが望ましい。音声出力部15は、制御部17によって出力される音声信号に応じた音声を出力する。
【0022】
記憶部16は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。記憶部16は、制御部17によって使用されるデータを記憶する。記憶部16は、例えばユーザー情報記憶部161及び発話情報記憶部162として機能してもよい。
【0023】
ユーザー情報記憶部161は、ユーザー端末10を操作するユーザーに関する情報(以下「ユーザー情報」という。)を記憶する。ユーザー情報は、例えばユーザーのハンドルネーム、ユーザーのアイコンデータ、ユーザーの属性情報、ユーザーのプロフィールの情報を含んでもよい。ハンドルネームとは、ユーザーが会話システム100において会話を行う際に使用する名前(ニックネーム又は本名)である。アイコンデータとは、ユーザーが会話システム100において会話を行う際に使用する画像データである。属性情報は、例えばユーザーの年齢、性別、出身地、趣味、使用しているSNSアプリケーション、所属に関する情報を含んでもよい。
【0024】
発話情報記憶部162は、ユーザー端末10のユーザーの発話情報を記憶する。発話情報とは、ユーザーが発話することによって得られる音声データを含む。発話情報は、音声データに加えてさらに、その発話を行ったユーザーの識別情報(ユーザーID)を含んでもよい。例えば、発話情報記憶部162は、音声入力部14から入力された音声データを、そのユーザーのユーザーIDと対応付けて発話情報として記録する。
【0025】
制御部17は、CPU(Central Processing Unit)等のプロセッサーとメモリーとを用いて構成される。制御部17は、プロセッサーがプログラムを実行することによって、表示制御部171、会議制御部172、会話制御部173及び認識制御部174として機能する。なお、制御部17の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されても良い。上記のプログラムは、コンピューター読み取り可能な記録媒体に記録されても良い。コンピューター読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM、半導体記憶装置(例えばSSD:Solid State Drive)等の可搬媒体、コンピューターシステムに内蔵されるハードディスクや半導体記憶装置等の記憶装置である。上記のプログラムは、電気通信回線を介して送信されてもよい。
【0026】
表示制御部171は、通信部11を介して会話制御装置20から表示情報を受信する。表示制御部171は、取得された表示情報に基づいて画像信号を生成し、表示部13に表示させる。表示情報は、例えば表示される画像そのものを示す画像データであってもよい。この場合、画像データを生成する主体(画像データ生成部)は会話制御装置20の表示情報生成部233である。表示情報は、例えば表示される画像を生成するために必要となる情報(例えば、参加しているユーザーに関する情報)を示すデータであってもよい。この場合、表示制御部171は、表示データに基づいて、表示部13に表示するための画像データを生成する。この場合、画像データを生成する主体(画像データ生成部)は表示制御部171である。
【0027】
会議制御部172は、会話制御装置20において仮想的に設けられる会議に関する制御を行う。例えば、ユーザーが操作部12を操作することによって会話制御装置20が提供する会話サービスへログインすることを指示した場合、会議制御部172は、ログインするための処理を行う。例えば、ユーザーが操作部12を操作することによって新規の会議室を設置することを指示した場合、会議制御部172は、新規の会議室を設置するための処理を行う。例えば、ユーザーが操作部12を操作することによって会議室に入室することを指示した場合、会議制御部172は、指示された会議室へ入室するための処理を行う。
【0028】
会話制御部173は、他のユーザー端末10のユーザーとの間で行われる会話に関する制御を行う。他のユーザー端末10のユーザーとの会話は、いずれか1つの会議室に入室することで実現される。会議室に入室すると、その会議室に入室している他のユーザーとの間で会話を行うことができる。会議室への入室はどのような形で行われてもよい。例えば、会議室を示す文字やボタンやアイコンが1又は複数表示されている画面において、いずれかの文字、ボタン又はアイコンが操作されることによってその会議室への入室が行われてもよい。会議室毎に割り当てられたアドレス(例えば特定の識別番号やULR(Uniform Resource Locator)など)に対してアクセスが行われることによって、その会議室への入室が行われてもよい。会話制御部173は、例えば音声入力部14から入力された音声データを、通信部11を介して会話制御装置20へ送信する。会話制御部173は、会話制御装置20から音声データを受信すると、受信された音声データを音声出力部15から出力する。
【0029】
認識制御部174は、発話情報記憶部162に記録されている発話情報に対する認識処理の実行を認識装置30に対して依頼する。認識制御部174は、例えば所定の周期で、その1つの周期の間に発話情報記憶部162に新たに記録された発話情報について認識処理の実行を認識装置30に対して依頼してもよい。
【0030】
図3は、会話制御装置20の機能構成の具体例を示す概略ブロック図である。会話制御装置20は、例えばパーソナルコンピューターやサーバー装置などの情報処理装置を用いて構成される。会話制御装置20は、通信部21、記憶部22及び制御部23を備える。
【0031】
通信部21は、通信機器である。通信部21は、例えばネットワークインターフェースとして構成されてもよい。通信部21は、制御部23の制御に応じて、ネットワーク40を介して他の装置とデータ通信する。通信部21は、無線通信を行う装置であってもよいし、有線通信を行う装置であってもよい。
【0032】
記憶部22は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。記憶部22は、制御部23によって使用されるデータを記憶する。記憶部22は、例えばユーザー情報記憶部221、会議室情報記憶部222及び画像情報記憶部223として機能してもよい。ユーザー情報記憶部221は、ユーザー端末10を操作する複数のユーザーに関する情報(ユーザー情報)を記憶する。ユーザー情報記憶部221は、さらにそのユーザーが会話システム100において参加したことのあるイベントの履歴(以下「自身イベント履歴情報」という。)、会話システム100において他のユーザーとの間で行った会話に関する情報(以下「他者会話履歴」という。)、会話システム100において過去に行った会話に関する情報(以下「自身会話履歴」という。)などを記憶してもよい。複数のユーザーのユーザー情報は、予め会話制御装置20に登録されてもよい。
【0033】
自身イベント履歴情報は、例えばそのユーザーが過去に参加したことのあるイベントの日時、イベントの名前などを含んでもよい。他者会話履歴は、例えば過去に会議室で同席したことのある他のユーザー毎に、その会議室において両者が参加している間に行われた会話の情報を含んでもよいし、その会議室において両者が参加している間に行われた会話の中でも上記他のユーザーの発言の情報を含んでもよい。会話の情報とは、例えば会話の文字列そのものであってもよいし、会話において取得された関連単語であってもよい。発言の情報とは、例えば発言の文字列そのものであってもよいし、発言において取得された関連単語であってもよい。自身会話履歴は、例えば過去に会議室において自身が行った発言の情報を含んでもよい。
【0034】
関連単語とは、会話の内容に関連すると推定される単語である。例えば、関連単語は、その会話における主題に関連すると推定される重要な単語(以下「重要単語」という。)であってもよいし、その会話において所定の基準を越えて頻繁に出現する単語(以下「頻出単語」という。)であってもよいし、他の単語であってもよい。関連単語は、例えば会話を行っている主体(ユーザー)の感情を示す単語であってもよい。
【0035】
会議室情報記憶部222は、会議室に関する情報(以下「会議室情報」という。)を記憶する。会議室とは、会話システム100においてユーザーが会話を行うために設置する仮想的な部屋である。会議室情報は、例えばその会議室のID、その会議室において行われている会話から抽出された重要単語や頻出単語を示す情報、会議室に設定されている名前を示す情報、会議室が設置される予約の日時を示す情報、会議室の属性に関する情報を含んでもよい。会議室の属性に関する情報とは、例えばその会議室に入室可能な人数や、会議室に入室可能なユーザーを示す情報を含んでもよい。
【0036】
画像情報記憶部223は、画像情報を記憶する。画像情報は、会議室における会話が行われているユーザー端末10において、1又は複数のユーザーの画像と合わせて表示される画像の情報である。画像情報記憶部223は、画像情報と、関連情報とを対応付けて記憶する。関連情報は、その画像の属性や内容と関連する文言や物や事象を示す情報である。より具体的には、関連情報は、ユーザーの表情、発話内容、発話量、発話の音量、ユーザーの動きなどに基づいて得られる情報であってもよい。関連情報は、ユーザーの表情、発話内容、発話量、発話の音量、ユーザーの動きなどに基づいて推定されるユーザーの感情や行動を示す情報であってもよい。関連情報は、その画像が表示される際の条件を示す情報であってもよい。
【0037】
図4は、画像情報の具体例の一つを示す図である。
図4に示される画像は、例えばユーザーの画像(アイコンデータや撮像されたユーザーの画像等)の背景として表示される画像である。
図4に示される画像は、ユーザーの感情として威嚇、自信、誇張、傲慢、驚きなどの関連情報と対応付けて記憶されてもよい。
図4に示される画像は、所定以上の発話の音量を示す関連情報と対応付けて記憶されてもよい。
【0038】
図5は、画像情報の具体例の一つを示す図である。
図5に示される画像は、例えばユーザーの画像(アイコンデータや撮像されたユーザーの画像等)の頭部付近に重畳して表示される画像である。
図5に示される画像は、ユーザーの感情として威嚇、怒り、不満などの関連情報と対応付けて記憶されてもよい。画像情報は、表示される位置を示す情報と対応付けて定義されてもよい。例えば、
図5に示される画像情報は、人の頭部付近に一部重畳して表示されるように定義されてもよい。このような定義と、画像における認識結果とに基づいて、画像の実際の表示位置が決定されてもよい。例えば、人の頭部付近に表示されると定義されている場合には、ユーザーの画像において画像認識が行われることでユーザーの頭部が認識され、その部分に
図5の画像が重畳して表示されてもよい。
【0039】
制御部23は、CPU等のプロセッサーとメモリーとを用いて構成される。制御部23は、プロセッサーがプログラムを実行することによって、ユーザー制御部231、会議室制御部232、表示情報生成部233、会話制御部234、認識部235及び付加画像決定部236として機能する。なお、制御部23の各機能の全て又は一部は、ASICやPLDやFPGA等のハードウェアを用いて実現されても良い。上記のプログラムは、コンピューター読み取り可能な記録媒体に記録されても良い。コンピューター読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM、半導体記憶装置(例えばSSD)等の可搬媒体、コンピューターシステムに内蔵されるハードディスクや半導体記憶装置等の記憶装置である。上記のプログラムは、電気通信回線を介して送信されてもよい。
【0040】
ユーザー制御部231は、ユーザーに関する制御処理を行う。例えば、ユーザー制御部231は、会話制御装置20にアクセスしてくるユーザー端末10についてログインのための処理(例えば認証処理)を行ってもよい。ユーザー制御部231は、ユーザー端末10から受信されたユーザー情報をユーザー情報記憶部221に登録してもよい。
【0041】
会議室制御部232は、会議室に関する制御処理を行う。例えば、会議室制御部232は、会議室を新たに設置することについてユーザー端末10から指示を受けた場合には、受信される情報に基づいて会議室情報を生成し、会議室情報記憶部222に登録してもよい。また、会議室制御部232は、会議室を設置するタイミングになった場合には、その会議室を仮想的に設置する。会議室を設置するタイミングとは、例えば即時に会議室を新設することについてユーザー端末10から指示された場合にはその時であるし、予め会議室の設置の予約が登録されていた場合にはその日時が到来した時である。会議室制御部232は、ユーザーによって会議室へ参加するための所定の操作が行われた場合、所定の条件が満たされると、その会議室へユーザーを参加させるための処理を行う。例えば、会議室制御部232は、会議室情報記憶部222を更新することによって、会議室に新たなユーザーが参加したことを登録する。
【0042】
表示情報生成部233は、ユーザー端末10において表示される画像の生成に必要となる情報(表示情報)を生成する。表示情報は、例えば現在設置されている会議室に関する情報や、各会議室に入室している各ユーザー端末10のユーザーに関する情報を含んでもよい。表示情報は、さらに付加画像決定部236において決定された付加画像を含んでもよい。表示情報生成部233は、生成された表示情報を、ユーザー端末10に対して送信する。
【0043】
会話制御部234は、ユーザー端末10から音声データを受信する。会話制御部234は、各ユーザー端末10に対して出力されるべき音声データ(以下「会話音声データ」という。)を生成し、各ユーザー端末10に会話音声データを送信する。会話制御部234は、例えば各ユーザー端末10に対し、そのユーザーが入室している会議室における会話音声データを送信してもよい。
【0044】
認識部235は、各会議室の会話について認識結果を取得する。認識部235は、各会話を示す文字列(音声認識の結果)を取得してもよいし、各会話における関連単語を取得してもよい。認識部235は、認識処理そのものを実行することで認識結果を取得してもよいし、認識処理の実行を認識装置30に対して依頼し認識結果を取得してもよい。このような認識処理は、例えば予め行われた学習処理の結果を用いることで行われてもよい。認識部235は、各ユーザーの発話について認識結果を取得してもよい。認識部235は、各発話を示す文字列(音声認識の結果)を取得してもよいし、各発話における関連単語を取得してもよい。各ユーザーの発話に関して取得された認識結果は、各ユーザーのユーザー情報としてユーザー情報記憶部221に登録される。会議室の会話に関して取得された認識結果は、各会議室の会議室情報として会議室情報記憶部222に登録される。
【0045】
付加画像決定部236は、ユーザーの画像とともに表示される画像(付加画像)を決定する。付加画像決定部236は、例えば画像情報記憶部223に記憶されている複数の画像情報の中から、その画像情報に対応付けられている関連情報に基づいて画像情報を付加画像として選択してもよい。
【0046】
例えば、付加画像決定部236は、各画像情報に対応付けて記録されている関連情報と、認識部235によって取得された各ユーザーの発話に関する認識結果と、に基づいて画像情報を選択してもよい。より具体的には、付加画像決定部236は、各画像情報に対応付けて記録されている関連情報と、認識部235によって取得された各ユーザーの発話に関する認識結果と、が一致する画像情報を選択してもよい。
【0047】
例えば、付加画像決定部236は、各画像情報に対応付けて記録されている関連情報が示す条件を、ユーザーの発話の状況が満たした場合に、その画像情報を選択してもよい。関連情報が示す条件とは、例えばユーザーの発話内容に特定の文字列が含まれていることや、ユーザーの発話の音量が閾値を超えていることなどであってもよい。
【0048】
付加画像決定部236は、例えばユーザー情報やユーザーの発話の認識結果において得られる文字列を含むタグ画像を生成し、タグ画像を付加画像として決定してもよい。ユーザーの発話の認識結果は、例えば認識部235の認識結果であってもよい。
【0049】
図6は、認識装置30の機能構成の具体例を示す概略ブロック図である。認識装置30は、例えばパーソナルコンピューターやサーバー装置などの情報処理装置を用いて構成される。認識装置30は、通信部31、記憶部32及び制御部33を備える。
【0050】
通信部31は、通信機器である。通信部31は、例えばネットワークインターフェースとして構成されてもよい。通信部31は、制御部33の制御に応じて、ネットワーク40を介して他の装置とデータ通信する。通信部31は、無線通信を行う装置であってもよいし、有線通信を行う装置であってもよい。
【0051】
記憶部32は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。記憶部32は、制御部33によって使用されるデータを記憶する。記憶部32は、例えば制御部33の認識部331が認識処理を行う際に使用するデータを記憶する。このようなデータの具体例として、予め学習処理を行うことによって得られる学習済みモデルのデータがある。
【0052】
制御部33は、CPU等のプロセッサーとメモリーとを用いて構成される。制御部33は、プロセッサーがプログラムを実行することによって、認識部331として機能する。なお、制御部33の各機能の全て又は一部は、ASICやPLDやFPGA等のハードウェアを用いて実現されても良い。上記のプログラムは、コンピューター読み取り可能な記録媒体に記録されても良い。コンピューター読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM、半導体記憶装置(例えばSSD)等の可搬媒体、コンピューターシステムに内蔵されるハードディスクや半導体記憶装置等の記憶装置である。上記のプログラムは、電気通信回線を介して送信されてもよい。
【0053】
認識部331は、ユーザー端末10又は会話制御装置20から認識処理の要求を受けると、要求された音声について認識処理を実行する。例えば、認識処理は、音声データに対する音声認識処理であってもよいし、音声認識処理の結果として得られたテキストデータについて関連単語を取得する処理であってもよい。認識部331が関連単語を取得する処理は、例えば以下のように行われてもよい。上述したように記憶部32は、予め得られた学習済みモデルを記憶している。この学習済みモデルは、例えば発話の音声データ又は音声認識結果の文字データと、その発話における関連単語と、を対応付けた教師データを用いて機械学習を行うことによって得られる。認識部331は、記憶部32に記憶されている学習済みモデルに基づいて、ユーザー端末10又は会話制御装置20から要求された処理対象の音声に対して認識処理を行うことで、処理対象の音声における関連単語を取得する。
【0054】
認識部331は、認識処理の結果を、会話制御装置20に送信する。例えば、認識部331は、ユーザー端末10から認識処理の依頼を受けた場合であっても、認識結果(例えば取得された関連単語)に発話者を示すユーザーIDを対応付けて会話制御装置20に送信する。
【0055】
次に、ユーザー端末10において表示される画像について説明する。
【0056】
図7は、ユーザー端末10の表示部13に表示される画像の具体例を示す図である。
図7において、表示部13には、会議室内画面が表示されている。会議室内画面とは、ユーザーが会議室に入室している最中に表示される画像である。会議室内画面では、その会議室に入室している一部又は全部のユーザーの画像が表示される。表示される画面は1又は複数のユーザー領域51で形成される。各ユーザー領域51には、入室しているユーザーの画像が表示される。ユーザー領域51に表示される各ユーザーの画像は、カメラで撮影されている動画像であってもよいし、静止画像(例えばアイコン画像)であってもよい。
【0057】
各ユーザー領域51には、タグ画像43が表示される。一つのユーザー領域51に対して、一つのタグ画像43が関連づけられて表示されてもよいし、複数のタグ画像43が関連づけて表示されてもよい。複数のユーザー領域51が表示される場合には、各ユーザー領域51に関連づけられるタグ画像43の数は全て同じであってもよいし異なってもよい。
【0058】
タグ画像43には、関連づけられているユーザー領域51のユーザーの発話において取得された関連単語の文字列や、ユーザー情報(例えば属性情報やプロフィールの情報)を示す文字列の一部や全部が表示される。例えば、左上のユーザー領域51のタグ画像43には、“バスケ”という単語と“横浜”という単語と“ITエンジニア”という単語とが表示されている。このうち、例えば“バスケ”はユーザーの過去の発話から得られた関連単語の文字列であり、“横浜”はユーザー情報から得られた属性情報(例えば出身地)を示す文字列であり、“ITエンジニア”はユーザー情報から得られた属性情報(例えば現在の職業)を示す文字列であってもよい。ユーザーの過去の発話とは、現在開催されている会議室における会話での発話に限られる必要は無い。例えば、ユーザーの過去の発話とは、既に終了している過去の会議室におけるそのユーザーの発話であってもよい。その過去の会議室には、現在開催中の会議室におけるユーザーが必ずしも参加していなくてもよい。他のユーザー領域51の画像についても同様である。
【0059】
このようなタグ情報が表示されることによって、表示されている他のユーザーに関して、どのようなユーザーであるのか判断することが可能となる。例えば、過去の会話においてどのような発言をしてきたユーザーであるかや、そのユーザーのプロフィール等に関する情報を容易に取得することができる。
【0060】
図8は、ユーザー端末10の表示部13に表示される画像の具体例を示す図である。
図8において、表示部13には、
図7において各ユーザー領域51のユーザーが発話を行った後の画像が表示されている。
【0061】
左上のユーザー領域51には、
図4に示される画像情報が示す画像がユーザーの画像とともに表示されている。例えば、左上のユーザー領域51に対応付けられたユーザーが、その発話の内容や音量等に基づいて傲慢の感情であると判定されたことに応じて、このような画像情報の画像とともにユーザー画像が表示されてもよい。
【0062】
左上のユーザー領域51には、
図7の状態に比べてさらに“ドヤッ”という文字列を含むタグ画像43が追加して表示されている。例えば、左上のユーザー領域51に対応付けられたユーザーが、その発話の内容や音量等に基づいて傲慢の感情であると判定されたことに応じて、このような文字列を含むタグ画像43がさらに追加でユーザー領域51内に表示されてもよい。
【0063】
右下のユーザー領域51には、
図5に示される画像情報が示す画像がユーザーの画像とともに表示されている。例えば、右下のユーザー領域51に対応付けられたユーザーが、その発話の内容や音量等に基づいて怒りの感情であると判定されたことに応じて、このような画像情報の画像とともにユーザー画像が表示されてもよい。
【0064】
右下のユーザー領域51には、
図7の状態に比べてさらに“怒り”という文字列を含むタグ画像43が追加して表示されている。例えば、右下のユーザー領域51に対応付けられたユーザーが、その発話の内容や音量等に基づいて怒りの感情であると判定されたことに応じて、このような文字列を含むタグ画像43がさらに追加でユーザー領域51内に表示されてもよい。特定の文字列(例えば“怒り”)を含むタグ画像43では、その文字やタグ画像43が他のタグ画像とは異なる態様で表示されてもよい。例えば、
図8に示される例では、“怒り”を含むタグ画像43では、“怒り”の文字列の色が他のタグ画像と異なる色(例えば赤)であり、他のタグ画像とは異なる属性(例えば太文字)で表示されてもよい。
【0065】
このように画像情報やタグ画像43がユーザー領域51において表示されることによって、ネットワークを介して行われる会話や会議において、状況の変化をより容易に参加者に認識させることが可能となる。すなわち、参加するユーザーの数が多くなることに応じてユーザー領域51が小さくなる場合があるが、このような場合であっても、画像情報やタグ画像43はユーザー個々の表情や動きよりも認識しやすい。そのため、状況を認識しやすくすることが可能である。
【0066】
図9は、会話システム100の処理の流れの具体例を示すシーケンスチャートである。より具体的には、
図9は、ユーザー端末10においてタグ画像43等の画像や文字が表示される際の処理の流れの具体例を示す。まず、ユーザー端末10の認識制御部174が所定のタイミングで発話情報を認識装置30に送信する(ステップS101)。
【0067】
認識装置30の認識部331は、受信された発話情報に基づいて認識処理を実行し、関連単語を取得する(ステップS102)。認識部331は、取得された関連単語と、関連単語が取得された発話情報に関連づけられているユーザーIDと、を含む情報(以下「関連単語情報」という。)を生成する。認識部331は、生成された関連単語情報を会話制御装置20に送信する(ステップS103)。
【0068】
会話制御装置20の認識部235は、受信された関連単語情報を会議室情報記憶部222に記録する(ステップS104)。例えば、認識部235は、関連単語情報に含まれるユーザーIDに応じたユーザーに関連単語を対応付けて記録する。画像選択部236は、認識部235における認識結果に基づいて、ユーザーIDに応じたユーザーの画像とともに表示される画像情報を選択する(ステップS105)。このとき、画像選択部236は、必ずしも画像情報を選択する必要はない。関連情報に基づいて、選択されるべき画像情報が存在する場合にのみ画像情報が選択されればよい。
【0069】
表示情報生成部233は、会議室情報記憶部222に記録されている会議室情報に基づいて表示情報を生成する(ステップS106)。この表示情報には、関連単語等に基づいて選択された画像情報やタグ画像43が含まれてもよい。表示情報生成部233は、生成された表示情報をユーザー端末10に送信する(ステップS107)。ユーザー端末10の表示制御部171は、受信された表示情報に基づいて表示部13に画像や文字を表示する(ステップS108)。
【0070】
画像情報は、予め学習処理を行うことによって得られた学習済モデルとユーザーの発話内容とに基づいて動的に生成されてもよい。例えば、GAN等の技術を用いてこのような画像の生成が行われてもよい。
【0071】
画像選択部236は、ユーザーの発話内容ではなく、ユーザーの画像に基づいて画像情報を選択してもよい。例えば、ユーザーの顔の画像に基づいて表情又は感情の推定が行われた結果として“怒り”等の表情又は感情を示す情報が得られる場合には、このような情報に基づいて画像情報が選択されてもよい。このような表情又は感情の推定は、例えば認識部235によって行われてもよいし、認識装置30によって行われてもよい。このように、画像選択部236は、ユーザーの状況(発話の内容や画像)に基づいて画像情報を選択する。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0072】
100…会話システム, 10…ユーザー端末, 20…会話制御装置, 30…認識装置, 11…通信部, 12…操作部, 13…表示部, 14…音声入力部, 15…音声出力部, 16…記憶部, 161…ユーザー情報記憶部, 162…発話情報記憶部, 17…制御部, 171…表示制御部, 172…会議制御部, 173…会話制御部, 174…認識制御部, 21…通信部, 22…記憶部, 221…ユーザー情報記憶部, 222…会議室情報記憶部, 223…画像情報記憶部, 23…制御部, 231…ユーザー制御部, 232…会議室制御部, 233…表示情報生成部, 234…会話制御部, 235…認識部, 236…画像選択部, 31…通信部, 32…記憶部, 33…制御部, 331…認識部, 41…会議室領域画像, 42…アイコン画像, 43…タグ画像, 44…プロフィール画像, 51…ユーザー領域