(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-09-10
(54)【発明の名称】マルチヒューマンコンピュータインタラクションシーンでの話し相手の検出
(51)【国際特許分類】
G06T 7/00 20170101AFI20240903BHJP
G06V 10/82 20220101ALI20240903BHJP
G06V 40/16 20220101ALI20240903BHJP
G10L 15/00 20130101ALI20240903BHJP
G10L 25/30 20130101ALI20240903BHJP
【FI】
G06T7/00 660A
G06T7/00 350C
G06V10/82
G06V40/16 C
G10L15/00 200Z
G10L25/30
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023548657
(86)(22)【出願日】2023-06-21
(85)【翻訳文提出日】2023-08-10
(86)【国際出願番号】 CN2023101635
(87)【国際公開番号】W WO2024032159
(87)【国際公開日】2024-02-15
(31)【優先権主張番号】202210966740.5
(32)【優先日】2022-08-12
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】521162399
【氏名又は名称】之江実験室
(74)【代理人】
【識別番号】110000729
【氏名又は名称】弁理士法人ユニアス国際特許事務所
(72)【発明者】
【氏名】林 哲遠
(72)【発明者】
【氏名】宛 敏紅
(72)【発明者】
【氏名】朱 世強
(72)【発明者】
【氏名】王 文
(72)【発明者】
【氏名】張 春竜
(72)【発明者】
【氏名】李 特
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA05
5L096CA04
5L096FA64
5L096FA67
5L096FA69
5L096HA05
5L096HA11
5L096KA04
(57)【要約】
マルチヒューマンコンピュータインタラクションシーンでの話し相手の検出用の装置及び方法を開示する。前記方法の一例によれば、タイムスタンプ付きのビデオフレームデータ及びタイムスタンプ付きのオーディオフレームデータをリアルタイムに収集した後、音声認識、テキスト特徴抽出、オーディオ特徴抽出及び顔特徴抽出によって対応するテキストセマンティック特徴、ヴォイスオーディオ特徴及び人物の顔特徴などの情報を取得することができる。続いて、前記人物の顔特徴及び前記ヴォイスオーディオ特徴を融和して得た第1のマルチモーダル特徴に基づいて、ヒューマングループにおける現在時刻での話し手を認識することができ、さらにシーン特徴、前記テキストセマンティック特徴、前記人物の顔特徴及び前記ヴォイスオーディオ特徴を融和して得た第2のマルチモーダル特徴に基づいて、ヒューマングループにおける現在時刻での話し手の話し相手を認識し、前記話し相手がロボットであるか否かを判断することができ、それにより、ロボットのヒューマンコンピュータインタラクションのプロセスでのパフォーマンスを効果的に向上させる。
【選択図】
図2
【特許請求の範囲】
【請求項1】
マルチヒューマンを含むヒューマングループ及び少なくとも1つのロボットに関するマルチヒューマンコンピュータインタラクションシーンでの話し相手の検出用の装置であって、
タイムスタンプ付きのビデオフレームデータ及びタイムスタンプ付きのオーディオフレームデータをリアルタイムに収集するためのオーディオ・ビデオ収集モジュール(110)であって、前記ビデオフレームデータに含まれる複数のビデオフレームと前記オーディオフレームデータに含まれる複数のオーディオフレームとは前記タイムスタンプに従って同期されるオーディオ・ビデオ収集モジュール(110)と、
前記オーディオフレームデータに基づいてタイムスタンプ付きのテキスト情報を生成するためのテキスト生成モジュール(120)と、
マシンビジョン方法で前記ビデオフレームデータに含まれる各ビデオフレームにおける顔を検出し、複数のビデオフレームにおいて同一人物を追跡して顔シーケンスデータを取得するための顔処理モジュール(130)と、
機械学習又は深層学習方法で、前記タイムスタンプ付きのテキスト情報からテキストセマンティック特徴を抽出するためのテキスト特徴抽出モジュール(140)と、
機械学習又は深層学習方法で、前記オーディオフレームデータからヴォイスオーディオ特徴を抽出するためのオーディオ特徴抽出モジュール(150)と、
機械学習又は深層学習方法で、人物の顔の時系列特徴及び空間特徴を含む人物の顔特徴を前記顔シーケンスデータから抽出するための顔特徴抽出モジュール(160)と、
機械学習又は深層学習方法で、前記顔シーケンスデータにおける前記人物の顔特徴及び前記ヴォイスオーディオ特徴に基づいて前記ヒューマングループにおける現在時刻での話し手を認識し、前記現在時刻での話し手の情報を取得するための話し手検出モジュール(170)と、
機械学習又は深層学習方法で、シーン特徴、前記テキストセマンティック特徴、前記ヴォイスオーディオ特徴及び前記顔シーケンスデータにおける前記人物の顔特徴に基づいて、前記ヒューマングループにおける前記現在時刻での話し手の話し相手を認識し、前記現在時刻での話し手の話し相手がロボットであるか否かを検出するための話し相手認識モジュール(180)であって、前記シーン特徴は前の時刻の話し手の情報及び話し相手の情報を含む話し相手認識モジュール(180)と、を含む、ことを特徴とするマルチヒューマンコンピュータインタラクションシーンでの話し相手の検出用の装置。
【請求項2】
前記オーディオ・ビデオ収集モジュール(110)は、
カメラを用いて前記タイムスタンプ付きのビデオフレームデータをリアルタイムに収集するためのビデオ収集モジュール(111)と、
マイクロを用いて前記タイムスタンプ付きのオーディオフレームデータを収集するためのオーディオ収集モジュール(112)と、を含む、ことを特徴とする請求項1に記載の装置。
【請求項3】
前記ビデオフレームデータを時系列に記憶するためのビデオフレームデータベース(101)と、
前記オーディオフレームデータを時系列に記憶するためのオーディオフレームデータベース(102)と、をさらに含む、ことを特徴とする請求項1又は2に記載の装置。
【請求項4】
前記顔処理モジュール(130)は、
深層学習方法で前記ビデオフレームデータに含まれるビデオフレームにおける顔を検出し、2つ以上のビデオフレームから検出された同一顔に一意の固定識別子を付与して当該人物を表す顔検出モジュール(131)と、
前記顔検出モジュール(131)によって出力された検出結果に基づいて、複数の前記ビデオフレームにおいて同一人物を追跡し、タイムスタンプ付きの顔シーケンスデータを取得するための顔追跡モジュール(132)と、を含む、ことを特徴とする請求項1に記載の装置。
【請求項5】
前記タイムスタンプ付きの顔シーケンスデータを記憶するための顔データベース(103)をさらに含む、ことを特徴とする請求項4に記載の装置。
【請求項6】
前記話し手検出モジュール(170)は、
前記顔シーケンスデータに基づいてタイムスタンプに従って前記人物の顔特徴と、前記ヴォイスオーディオ特徴とを第1のマルチモーダル特徴に融和するための第1のマルチモーダル融合モジュール(171)と、
前記第1のマルチモーダル特徴を深層学習ネットワーク内に入力し、前記ヒューマングループにおける各人物の現在時刻での話し状態を1つずつ予測することにより、前記現在時刻での話し手及び対応する話し手の情報を決定するための話し状態検出モジュール(172)と、を含む、ことを特徴とする請求項1に記載の装置。
【請求項7】
タイムスタンプに従って前記話し手の情報を記憶するための話し手データベース(105)をさらに含む、ことを特徴とする請求項6に記載の装置。
【請求項8】
前記話し相手認識モジュール(180)は、
前記顔シーケンスデータに基づいてタイムスタンプに従って前記人物の顔特徴と、前記ヴォイスオーディオ特徴と、前記テキストセマンティック特徴と、前記シーン特徴とを第2のマルチモーダル特徴に融和するための第2のマルチモーダル融合モジュール(181)と、
前記第2のマルチモーダル特徴を深層学習ネットワーク内に入力し、前記ヒューマングループにおける各人物及び各前記ロボットが前記現在時刻での話し手の話し相手であるか否かを1つずつ予測し、それに応じて前記現在時刻での話し相手の情報を決定するための話し相手検出モジュール(182)と、を含む、ことを特徴とする請求項1に記載の装置。
【請求項9】
タイムスタンプに従って前記話し相手の情報を記憶するための話し相手データベース(106)をさらに含む、ことを特徴とする請求項1又は8に記載の装置。
【請求項10】
前記シーン特徴を記憶するためのシーンデータベース(107)をさらに含む、ことを特徴とする請求項1又は8に記載の装置。
【請求項11】
前記テキスト生成モジュール(120)は、前記オーディオフレームデータに基づいて複数の階層にそれぞれ対応するタイムスタンプ付きのテキスト情報を生成するための音声認識モジュール(121)であって、前記複数の階層は単語レベル、センテンスレベル、対話トピックレベルを含む音声認識モジュール(121)を含む、ことを特徴とする請求項1に記載の装置。
【請求項12】
前記テキスト情報を時系列に階層的に記憶するためのテキストデータベース(104)をさらに含む、ことを特徴とする請求項11に記載の装置
【請求項13】
マルチヒューマンを含むヒューマングループ及び少なくとも1つのロボットに関するマルチヒューマンコンピュータインタラクションシーンでの話し相手の検出用の方法であって、
オーディオ・ビデオ収集モジュール(110)によってタイムスタンプ付きのビデオフレームデータ及びタイムスタンプ付きのオーディオフレームデータをリアルタイムに収集するステップS1であって、前記ビデオフレームデータに含まれる複数のビデオフレームと前記オーディオフレームデータに含まれる複数のオーディオフレームとは前記タイムスタンプに従って同期されるステップS1と、
テキスト生成モジュール(120)によってリアルタイムに前記オーディオフレームデータに基づいてタイムスタンプ付きのテキスト情報を生成し、テキスト特徴抽出モジュール(140)によってタイムスタンプ付きのテキスト情報からテキストセマンティック特徴を抽出するステップS2と、
顔処理モジュール(130)によってマシンビジョン方法で前記ビデオフレームデータに含まれる各ビデオフレームにおける顔を検出し、複数のビデオフレームにおいて同一人物を追跡して顔シーケンスデータを取得し、顔特徴抽出モジュール(160)によって前記顔シーケンスデータから人物の顔特徴を抽出し、オーディオ特徴抽出モジュール(150)によって前記オーディオフレームデータからヴォイスオーディオ特徴を抽出するステップS3と、
話し手検出モジュール(170)によって機械学習又は深層学習方法で、前記人物の顔特徴及び前記ヴォイスオーディオ特徴に基づいて前記ヒューマングループにおける現在時刻での話し手を認識し、前記現在時刻での話し手の情報を取得するステップS4と、
話し相手認識モジュール(180)によって機械学習又は深層学習方法で、シーン特徴、前記テキストセマンティック特徴、前記ヴォイスオーディオ特徴及び前記人物の顔特徴に基づいて、前記ヒューマングループにおける前記現在時刻での話し手の話し相手を認識し、前記現在時刻での話し手の話し相手がロボットであるか否かを検出するステップS5であって、前記シーン特徴は前の時刻の話し手の情報及び話し相手の情報を含むステップS5と、を含む、ことを特徴とするマルチヒューマンコンピュータインタラクションシーンでの話し相手の検出用の方法。
【請求項14】
前記ステップS1において、
前記ビデオフレームデータはROSトピックの形態で発表され、画像トピックをサブスクライブすることによって前記ビデオフレームデータをリアルタイムに取得し、
前記オーディオフレームデータはROSトピックの形態で発表され、オーディオトピックをサブスクライブすることによって前記オーディオフレームデータをリアルタイムに取得し、
前記ステップS2において、YOLOを用いて顔検出を行い、Deep SORTのモデルを利用して複数ターゲット追跡を行い、前記追跡の結果としては、人物別にIDが付与され、全体プロセスを通じて各人物のIDが唯一且つ固定される、ことを特徴とする請求項13に記載の方法。
【請求項15】
前記ステップS4は、
前記顔シーケンスデータに基づいてタイムスタンプに従って前記人物の顔特徴及び前記ヴォイスオーディオ特徴を融和コードし、第1のマルチモーダル特徴を得るステップと、
深層学習方法で、前記第1のマルチモーダル特徴に基づいて前記ヒューマングループにおける現在時刻での話し手を予測するステップと、を含む、ことを特徴とする請求項13に記載の方法。
【請求項16】
前記ステップS5は、
前記顔シーケンスデータに基づいてタイムスタンプに従って前記シーン特徴、前記テキストセマンティック特徴、前記ヴォイスオーディオ特徴及び前記人物の顔特徴を融和コードし、第2のマルチモーダル特徴を得るステップと、
深層学習方法で、前記第2のマルチモーダル特徴に基づいて前記ヒューマングループにおける各人物が前記現在時刻での話し手の話し相手である確率を1つずつ予測するステップと、を含む、ことを特徴とする請求項13に記載の方法。
【請求項17】
Transformerモデルを用いて前記深層学習方法を行う、ことを特徴とする請求項15又は16に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータ技術の分野に属し、特にマルチヒューマンコンピュータインタラクションシーンでの話し相手の検出に関する。
【背景技術】
【0002】
言語インタラクションのプロセスでは、話し手と、話し手が応答を期待している相手である話し相手の両方がいなければならない。特に、ヒューマンコンピュータインタラクションのプロセスでは、ロボットは音声情報を受信した後に応答を行う。
【0003】
例えば、1人でロボットとインタラクションを行う場合、人間が話すとき、ロボットは必然的に対応する話し相手である。そのため、ロボットは受信した音声情報を直接処理して応答を行うことができる。このような機能は、いくつかのスマート端末で既に利用されており、且つ高い効果が得られている。
【0004】
しかしながら、ヒューマングループとロボットとのインタラクションは、1人とロボットとのインタラクションより複雑である。ヒューマンとヒューマン、ヒューマンとロボットとのインタラクションが同時に存在するため、ロボットは、話をしている人物が自分に話しているか否かを判断することができず、その結果、受信された全ての話しに対して機械的に応答することしかできず、ユーザ間の対話及び体験に重大な影響を与える。このような場合、人間は、ウェイクワードを繰り返し使用してロボットと複数回の対話を行うしかなく、対話の効率が低下する。
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記技術的問題を解決するために、本発明の実施例は、マルチヒューマンコンピュータインタラクションシーンでの話し相手の検出用の装置及び方法を提供する。
【課題を解決するための手段】
【0006】
本発明の一実施例によれば、マルチヒューマンコンピュータインタラクションシーンでの話し相手の検出用の装置であって、前記マルチヒューマンコンピュータインタラクションは、マルチヒューマンを含むヒューマングループ及び少なくとも1つのロボットに関する。ここで、前記装置は、タイムスタンプ付きのビデオフレームデータ及びタイムスタンプ付きのオーディオフレームデータをリアルタイムに収集するためのオーディオ・ビデオ収集モジュールであって、前記ビデオフレームデータに含まれる複数のビデオフレームと前記オーディオフレームデータに含まれる複数のオーディオフレームとはタイムスタンプに従って同期されるオーディオ・ビデオ収集モジュールと、前記オーディオフレームデータに基づいてタイムスタンプ付きのテキスト情報を生成するテキスト生成モジュールと、マシンビジョン方法で前記ビデオフレームデータに含まれる各ビデオフレームにおける顔を検出し、複数のビデオフレームにおいて同一人物を追跡して顔シーケンスデータを取得する顔処理モジュールと、機械学習又は深層学習方法で、前記タイムスタンプ付きのテキスト情報からテキストセマンティック特徴を抽出するためのテキスト特徴抽出モジュールと、機械学習又は深層学習方法で、前記オーディオフレームデータからヴォイスオーディオ特徴を抽出するためのオーディオ特徴抽出モジュールと、機械学習又は深層学習方法で、人物の顔の時系列特徴及び空間特徴を含む人物の顔特徴を前記顔シーケンスデータから抽出するための顔特徴抽出モジュールと、機械学習又は深層学習方法で、前記顔シーケンスデータにおける前記人物の顔特徴及び前記ヴォイスオーディオ特徴に基づいて前記ヒューマングループにおける現在時刻での話し手を認識し、前記現在時刻での話し手の情報を取得する話し手検出モジュールと、機械学習又は深層学習方法で、シーン特徴、前記テキストセマンティック特徴、前記ヴォイスオーディオ特徴及び前記顔シーケンスデータにおける前記人物の顔特徴に基づいて、前記ヒューマングループにおける前記現在時刻での話し手の話し相手を認識し、前記現在時刻での話し手の話し相手がロボットであるか否かを検出する話し相手認識モジュールと、を含む。ここで、前記シーン特徴は前の時刻の話し手の情報及び話し相手の情報を含む。また、前記シーン特徴は、話し相手認識モジュールによって呼び出されるために、シーンデータベースに記憶されてもよい。
【0007】
さらに、前記オーディオ・ビデオ収集モジュールは、カメラを用いてタイムスタンプ付きのビデオフレームデータをリアルタイムに収集するためのビデオ収集モジュールと、マイクロを用いてタイムスタンプ付きのオーディオフレームデータを収集するためのオーディオ収集モジュールと、を含む。オプションで、前記ビデオフレームデータは、ビデオフレームデータベースに時系列に記憶され、前記オーディオフレームデータはオーディオフレームデータベースに時系列に記憶される。
【0008】
さらに、前記顔処理モジュールは、深層学習方法で前記ビデオフレームデータに含まれるビデオフレームにおける顔を検出し、2つ以上のビデオフレームから検出された同一顔に一意の固定識別子を付与して当該人物を表す顔検出モジュールと、前記顔検出モジュールによって出力された検出結果に基づいて、複数のビデオフレームにおいて同一人物を追跡し、タイムスタンプ付きの顔シーケンスデータを取得するための顔追跡モジュールと、を含む。同一顔に一意の固定識別子を付与することにより、人物がシーン視野内で消えた後に再び出現しても、当該人物を元のidで表すことができる。オプションで、タイムスタンプ付きの顔シーケンスデータは顔データベースに記憶される。
【0009】
さらに、前記話し手検出モジュールは、前記顔シーケンスデータに基づいてタイムスタンプに従って前記人物の顔特徴と、前記ヴォイスオーディオ特徴とを第1のマルチモーダル特徴に融和するための第1のマルチモーダル融合モジュールと、前記第1のマルチモーダル特徴を深層学習ネットワーク内に入力し、前記ヒューマングループにおける各人物の現在時刻での話し状態を1つずつ予測することにより、前記現在時刻での話し手及び対応する話し手の情報を決定するための話し状態検出モジュールと、を含む。オプションで、現在時刻での話し手の情報は話し手データベース内に記憶される。例えば、前記話し手データベースはタイムスタンプに従って前記話し手の情報を記憶してもよい。
【0010】
さらに、前記話し相手認識モジュールは、前記顔シーケンスデータに基づいてタイムスタンプに従って上記人物の顔特徴と、前記ヴォイスオーディオ特徴と、前記テキストセマンティック特徴と、前記シーン特徴とを第2のマルチモーダル特徴に融和するための第2のマルチモーダル融合モジュールと、上記第2のマルチモーダル特徴を深層学習ネットワーク内に入力し、前記ヒューマングループにおける各人物及び各前記ロボットが前記現在時刻での話し手の話し相手であるか否かを1つずつ予測し、それに応じて前記現在時刻での話し相手の情報を決定するための話し相手検出モジュールと、を含む。オプションで、前記現在時刻での話し相手の情報は、他のモジュールによって呼び出されるか又は結果として出力されるために、話し相手データベース内に記憶される。例えば、前記話し相手データベースはタイムスタンプに従って前記話し相手の情報を記憶してもよい。
【0011】
さらに、前記テキスト生成モジュールは、前記オーディオフレームデータに基づいて複数の階層にそれぞれ対応するタイムスタンプ付きのテキスト情報を生成するための音声認識モジュールを含む。ここで、前記複数の階層は単語レベル、センテンスレベル、対話トピックレベルなどを含む。オプションで、テキストデータベースを用いて前記テキスト情報を時系列に階層的に記憶する。
【0012】
本発明の他の実施例によれば、マルチヒューマンコンピュータインタラクションシーンでの話し相手の検出用の方法であって、前記マルチヒューマンコンピュータインタラクションは、マルチヒューマンを含むヒューマングループ及び少なくとも1つのロボットに関する。ここで、前記方法は、オーディオ・ビデオ収集モジュールによって例えばカメラを用いてタイムスタンプ付きのビデオフレームデータをリアルタイムに収集し、例えばマイクロを用いてタイムスタンプ付きのオーディオフレームデータを収集し、前記ビデオフレームデータに含まれる複数のビデオフレーム及び前記オーディオフレームデータに含まれる複数のオーディオフレームはタイムスタンプに従って同期されるステップS1と、テキスト生成モジュールによってリアルタイムにオーディオフレームデータに対して音声認識を行うことにより、単語レベル、センテンスレベル、対話トピックレベルなどの異なる階層のタイムスタンプ付きのテキスト情報を生成し、テキスト特徴抽出モジュールによってタイムスタンプ付きのテキスト情報からテキストセマンティック特徴を抽出するステップS2と、顔処理モジュールによってマシンビジョン方法で前記ビデオフレームデータに含まれる各ビデオフレームにおける顔を検出し、複数のビデオフレームにおいて同一人物を追跡して顔シーケンスデータを得、顔特徴抽出モジュールによって前記顔シーケンスデータから人物の顔特徴を抽出し、オーディオ特徴抽出モジュールによって前記オーディオフレームデータからヴォイスオーディオ特徴を抽出するステップS3と、話し手検出モジュールによって機械学習又は深層学習方法で、前記人物の顔特徴及び前記ヴォイスオーディオ特徴に基づいて前記ヒューマングループにおける現在時刻での話し手を認識し、前記現在時刻での話し手の情報を取得するステップS4と、話し相手認識モジュールによって機械学習又は深層学習方法で、シーン特徴、前記テキストセマンティック特徴、前記ヴォイスオーディオ特徴及び前記人物の顔特徴に基づいて、前記ヒューマングループにおける前記現在時刻での話し手の話し相手を認識し、前記現在時刻での話し手の話し相手がロボットであるか否かを検出するステップS5と、を含む。ここで、前記シーン特徴は前の時刻の話し手の情報及び話し相手の情報を含む。
【0013】
さらに、前記ステップS1において、前記ビデオフレームデータはロボットオペレーティングシステム(Robot Operating System、ROS)トピックの形態で発表されてもよく、画像トピックをサブスクライブすることによってビデオフレームデータをリアルタイムに取得し、前記オーディオフレームデータはROSトピックの形態で発表されてもよく、オーディオトピックをサブスクライブすることによってオーディオフレームデータをリアルタイムに取得する。前記ステップS2において、YOLO(You Only Look Once、一度見るだけでよい)を用いて顔検出を行ってもよく、且つ深層簡単オンラインリアルタイム追跡(Deep Simple Online Realtime Tracking、Deep SORT)のモデルを利用して複数ターゲット追跡を行い、追跡の結果としては、人物別にIDが付与され、全体プロセスを通じて各人物のIDが唯一且つ固定される。
【0014】
さらに、前記ステップS4は、具体的には、前記顔シーケンスデータに基づいてタイムスタンプに従って前記人物の顔特徴及び前記ヴォイスオーディオ特徴を融和コードし、第1のマルチモーダル特徴を得るステップと、深層学習方法で、前記第1のマルチモーダル特徴に基づいて前記ヒューマングループにおける現在時刻での話し手を予測するステップと、を含んでもよい。
【0015】
さらに、前記ステップS5は、具体的には、前記顔シーケンスデータに基づいてタイムスタンプに従って前記シーン特徴、前記テキストセマンティック特徴、前記ヴォイスオーディオ特徴及び前記人物の顔特徴を融和コードし、すなわちマルチモーダル特徴融和を行い、第2のマルチモーダル特徴を得るステップと、深層学習方法で、前記第2のマルチモーダル特徴に基づいて前記ヒューマングループにおける各人物が前記現在時刻での話し手の話し相手である確率を1つずつ予測するステップと、を含んでもよい。オプションで、Transformer方法で前記コード及びデコードを行う。
【発明の効果】
【0016】
本発明の実施例のマルチヒューマンコンピュータインタラクションシーンでの話し相手の検出用の装置及び方法によれば、時々刻々と人数が変化するマルチヒューマンコンピュータインタラクションシーンにおいて話し相手の予測を行うことができる。具体的には、マルチモーダル融合モジュールによって異なる次元の特徴情報を関連付けることにより、話し相手の判断に有用な情報を抽出することができる。また、複雑な人工的な特徴抽出処理を必要とせず、深層学習方法で予測することで、利用プロセスにおける予測効率を効果的に向上させることができる。
【図面の簡単な説明】
【0017】
【
図1】本発明の実施例によるマルチヒューマンとロボットとのインタラクションシーンの概略図である。
【
図2】本発明の実施例によるマルチヒューマンコンピュータインタラクションシーンでの話し相手の検出装置のモジュール概略図である。
【
図3】本発明の実施例によるマルチヒューマンコンピュータインタラクションシーンでの話し相手の検出方法のフローチャートである。
【
図4】本発明の実施例による話し相手認識モジュールの選択可能なモデルアーキテクチャの概略図である。
【発明を実施するための形態】
【0018】
本発明の目的、構造及び機能をよりよく理解するために、以下は図面を参照し、本発明の実施例に係るマルチヒューマンコンピュータインタラクションシーンで話し相手の検出用の装置及び方法についてさらに詳細に説明する。
【0019】
図1に示すのはマルチヒューマンとロボットとのインタラクションシーンの一例の概略図である。
図1において、正方形はシーン内の物品を表し、二等辺三角形は、シーン内の人物を表し、頂角は、人物の向きを認識するために用いられてもよく、Rが付された円はロボットを表す。
図1に示すように、当該シーンにおけるヒューマンコンピュータインタラクションは、4人及び1つのロボットに関する。当業者であれば理解できるように、
図1は、マルチヒューマンコンピュータインタラクションシーンの単なる例であり、実際にヒューマンコンピュータインタラクションに参加する人数及びロボットの数は、これに限定されるべきではなく、時々刻々と変化してもよい。
【0020】
図2に示すのは本発明の実施例によるマルチヒューマンコンピュータインタラクションシーンでの話し相手の検出用の装置の機能モジュール図である。
図2に示すように、当該装置は、オーディオ・ビデオ収集モジュール110、テキスト生成モジュール120、顔処理モジュール130、テキスト特徴抽出モジュール140、オーディオ特徴抽出モジュール150、顔特徴抽出モジュール160、話し手検出モジュール170及び話し相手認識モジュール180を含む。
【0021】
ここで、オーディオ・ビデオ収集モジュール110は、例えばカメラを用いてタイムスタンプ付きのビデオフレームデータをリアルタイムに収集することができ(ここで、ビデオフレームデータには、例えばカラー画像のビデオフレームが含まれる)、マイクロを用いてタイムスタンプ付きのオーディオフレームデータを収集することができる。いくつかの実施例では、
図2に示すように、ビデオフレームデータ及びオーディオフレームデータをビデオフレームデータベース101又はオーディオフレームデータベース102内に時系列にそれぞれ記憶してもよい。また、前記ビデオフレームデータに含まれる複数のビデオフレーム及び前記オーディオフレームデータに含まれる複数のオーディオフレームは前記タイムスタンプに従って同期される。言い換えれば、同一時刻に収集されたビデオとオーディオはタイムスタンプに従って同期されるべきである。
【0022】
テキスト生成モジュール120は、例えば音声認識によってオーディオフレームデータに基づいて、単語レベル、センテンスレベル、対話トピックレベルなどの異なる階層に対応するタイムスタンプ付きのテキスト情報を生成することができる。いくつかの実施例では、
図2に示すように、上記テキスト情報をテキストデータベース104に記憶してもよい。
【0023】
顔処理モジュール130はマシンビジョン方法で例えばカラー画像のビデオフレームにおける顔を検出し、複数のビデオフレームにおいて同一人物を追跡して顔シーケンスデータを取得することができる。いくつかの実施例では、
図2に示すように、顔シーケンスデータを顔データベース103に記憶してもよい。ここで、前記複数のビデオフレームは、連続した複数のビデオフレームであってもよく、例えば、特定の時間長内にカメラが連続撮影した複数のビデオフレームであってもよい。しかし、前記複数のビデオフレームは、不連続な複数のビデオフレームであってもよく、これにより、人物がシーンから退出して再び戻ってきても、人物追跡を効果的に実現することができる。
【0024】
テキスト特徴抽出モジュール140は、異なる階層に対応するタイムスタンプ付きのテキスト情報を自然言語の深層学習ネットワーク内に入力し、タイムスタンプ付きのテキストセマンティック特徴を抽出することができる。いくつかの実施例では、テキスト情報を取得した後、テキストを単語シーケンスと見なし、例えばGloVeの単語エンコーダを使用してコードして特定の長さ(例えば128次元)のテキストセマンティック特徴ベクトルを得てもよい。
【0025】
オーディオ特徴抽出モジュール150はタイムスタンプ付きのオーディオフレームデータを深層学習ネットワーク内に入力することにより、タイムスタンプ付きのヴォイスオーディオ特徴を抽出することができる。例えば、まず、オーディオフレームデータを重複のあるオーディオセグメントに分割し、さらにオーディオセグメントに対して特徴抽出を行ってメル周波数ケプストラム係数(Mel-Frequency Cepstral Coefficients、MFCC)を取得して更なるオーディオ特徴抽出の入力としてもよい。例えば、MFCCを深層学習ネットワーク内に入力し、入力されたMFCCに基づいて特定の長さ(例えば128次元)のヴォイスオーディオ特徴ベクトルを生成してもよい。
【0026】
顔特徴抽出モジュール160は、顔シーケンスデータを深層学習ネットワーク内に入力することにより、タイムスタンプ付きの人物の顔特徴を抽出することができる。ここで、人物の顔特徴は、人物の顔の時系列、空間特徴を含んでもよい。例えば、各人物の顔シーケンスデータを1つの画像ブロックシーケンスと見なし、深層学習ネットワークによって当該画像ブロックシーケンスを視覚特徴コードに変換し、続いて当該視覚特徴コードと位置コードとを加算すると対応する人物の顔特徴を得ることができる。また、人物の顔特徴は特定の長さ(例えば128次元)の特徴ベクトルとして表現されてもよい。
【0027】
話し手検出モジュール170は、機械学習又は深層学習方法で、前記顔シーケンスデータにおける前記人物の顔特徴及び前記ヴォイスオーディオ特徴に基づいてヒューマングループにおける現在時刻での話し手を認識し、前記現在時刻での話し手の情報を取得することができる。いくつかの実施例では、
図2に示すように、現在時刻での話し手の情報を話し手データベース105内に記憶してもよい。例えば、話し手データベース105はタイムスタンプに従って話し手の情報を記憶してもよい。
【0028】
話し相手認識モジュール180は、機械学習又は深層学習方法で、シーン特徴、前記テキストセマンティック特徴、前記ヴォイスオーディオ特徴及び前記顔シーケンスデータにおける前記人物の顔特徴に基づいて、前記ヒューマングループにおける前記現在時刻での話し手の話し相手を認識し、現在時刻での話し手の話し相手がロボットであるか否かを検出することができる。いくつかの実施例では、
図2に示すように、話し相手の情報を話し相手データベース106内に記憶してもよい。
【0029】
具体的には、
図2に示すように、オーディオ・ビデオ収集モジュール110はビデオ収集モジュール111と、オーディオ収集モジュール112とを含んでもよい。ここで、ビデオ収集モジュール111は、例えばカメラを用いてタイムスタンプ付きの例えばカラー画像のビデオフレームをリアルタイムに収集することができる。オーディオ収集モジュール112は、例えばマイクロを用いてタイムスタンプ付きのオーディオフレームデータを収集することができる。また、例えば顔処理モジュール130の他のモジュールによって呼び出されるために、ビデオフレームデータベース101を用いてタイムスタンプ付きのビデオフレームデータを時系列に記憶してもよく、例えばテキスト生成モジュール120、オーディオ特徴抽出モジュール150などの他のモジュールによって呼び出されるために、オーディオフレームデータベース102を用いてタイムスタンプ付きのオーディオフレームデータを時系列に記憶してもよい。
【0030】
具体的には、
図2に示すように、顔処理モジュール130は顔検出モジュール131と、顔追跡モジュール132とを含んでもよい。ここで、顔検出モジュール131は、深層学習方法で前記ビデオフレームデータに含まれるビデオフレームにおける顔を検出し、2つ以上のビデオフレームから検出された同一顔に一意の固定識別子を付与して当該人物を表すことができ、顔追跡モジュール132は前記顔検出モジュール131によって出力された検出結果に基づいて、複数のビデオフレームにおいて同一人物を追跡し、タイムスタンプ付きの顔シーケンスデータを取得することができる。同一顔に一意の固定識別子を付与することにより、人物がシーン視野内で消えた後に再び出現しても、当該人物を元のidで表すことができる。いくつかの実施例では、
図2に示すように、例えば顔特徴抽出モジュール160の他のモジュールによって呼び出されるために、顔データベース103を用いてタイムスタンプ付きの顔シーケンスデータを記憶してもよい。
【0031】
具体的には、
図2に示すように、話し手検出モジュール170は第1のマルチモーダル融合モジュール171と、話し状態検出モジュール172とを含んでもよい。第1のマルチモーダル融合モジュール171は、前記顔シーケンスデータに基づいてタイムスタンプに従って上記人物の顔特徴と、ヴォイスオーディオ特徴とを第1のマルチモーダル特徴に融和することができ、話し状態検出モジュール172は、上記第1のマルチモーダル特徴を深層学習ネットワーク内に入力し、ヒューマングループにおける各人物の現在時刻での話し状態を1つずつ予測することにより、前記現在時刻での話し手及び対応する話し手の情報を決定することができる。いくつかの実施例では、
図2に示すように、例えば話し相手認識モジュール180の他のモジュールによって呼び出されるために、話し手データベース105を用いて現在時刻での話し手の情報を記憶してもよい。
【0032】
また、いくつかの実施例では、結合の方法で人物の顔特徴と、ヴォイスオーディオ特徴とを第1のマルチモーダル特徴に融和してもよい。例えば、人物の顔特徴及びヴォイスオーディオ特徴がいずれも128次元のベクトルである場合、特徴結合によって得られた第1のマルチモーダル特徴は256次元のベクトルとなる。
【0033】
具体的には、
図2に示すように、話し相手認識モジュール180は第2のマルチモーダル融合モジュール181と、話し相手検出モジュール182とを含んでもよい。第2のマルチモーダル融合モジュール181は、前記顔シーケンスデータに基づいてタイムスタンプに従って上記人物の顔特徴と、ヴォイスオーディオ特徴と、テキストセマンティック特徴と、シーンデータベース107からのシーン特徴とを第2のマルチモーダル特徴に融和することができ、話し相手検出モジュール182は、上記第2のマルチモーダル特徴を深層学習ネットワーク内に入力し、前記ヒューマングループにおける各人物及び各前記ロボットが前記現在時刻での話し手の話し相手であるか否かを1つずつ予測し、それに応じて前記現在時刻での話し相手の情報を決定することができる。いくつかの実施例では、
図2に示すように、例えばシーンデータベース107の他のモジュールによって呼び出されるために、話し相手データベース106を用いて現在時刻での話し相手の情報を記憶してもよい。あるいは、現在時刻での話し相手の情報を結果として直接出力してもよい。
【0034】
また、
図2に示すように、シーンデータベース107は、話し相手認識モジュール180によって用いられるために、前の時刻の話し手の情報、話し相手の情報を記憶してもよい。
【0035】
具体的には、
図2に示すように、テキスト生成モジュール120は音声認識モジュール121を含んでもよい。音声認識モジュール121は、オーディオフレームデータに基づいて音声認識を行い、単語レベル、センテンスレベル、対話トピックレベルなどの異なる階層に対応するタイムスタンプ付きのテキスト情報を生成することができる。いくつかの実施例では、
図2に示すように、例えばテキスト特徴抽出モジュール140の他のモジュールによって呼び出されるために、テキストデータベース104を用いて上記タイムスタンプ付きのテキスト情報を時系列に階層的に記憶してもよい。
【0036】
図3に示すのは本発明の実施例によるマルチヒューマンコンピュータインタラクションシーンでの話し相手の検出用の方法のフローチャートである。
図3に示すように、当該方法は、ステップS1~S5を含んでもよい。
【0037】
ステップS1において、オーディオ・ビデオ収集モジュール110によって例えばカメラを用いてタイムスタンプ付きのビデオフレームデータをリアルタイムに収集し、マイクロを用いてタイムスタンプ付きのオーディオフレームデータを収集する。ここで、前記ビデオフレームデータに含まれる複数のビデオフレーム及び前記オーディオフレームデータに含まれる複数のオーディオフレームはビデオフレームデータベース又はオーディオフレームデータベースに時系列に記憶されてもよい。このように、同一時刻に収集されたビデオとオーディオはタイムスタンプに従って同期されることが可能である。
【0038】
具体的には、現在時刻でのビデオフレームは実際の動作においてリアルタイムに取得されたカラー画像であってもよい。例えば、ロボットオペレーティングシステム(RobotOperating System、ROS)を用いるロボットシステムでは、単眼カメラで収集したカラー画像はROSトピックの方式で発表され、それにより画像トピックをサブスクライブすることによってカラー画像をリアルタイムに取得することができる。アレイマイクロが収集したオーディオ情報もROSトピックの方式で発表されてもよく、それによりオーディオトピックをサブスクライブすることによってオーディオ情報をリアルタイムに取得することができる。
【0039】
ステップS2において、テキスト生成モジュール120によってリアルタイムにオーディオフレームデータに対して音声認識を行うことにより、単語レベル、センテンスレベル、対話トピックレベルなどの異なる階層のタイムスタンプ付きのテキスト情報を生成し、テキスト特徴抽出モジュール140によってタイムスタンプ付きのテキスト情報からテキストセマンティック特徴を抽出する。いくつかの実施例では、上記テキスト情報をテキストデータベース104内に記憶してもよい。
【0040】
ステップS3において、顔処理モジュール130によってマシンビジョン方法でビデオフレームデータにおける顔を検出し、複数のビデオフレームにおいて同一人物を追跡して顔シーケンスデータを取得し、顔特徴抽出モジュール160によって前記顔シーケンスデータから人物の顔特徴を抽出し、オーディオ特徴抽出モジュール150によって前記オーディオフレームデータからヴォイスオーディオ特徴を抽出する。
【0041】
1つの例示的な実施例では、YOLOを用いて顔検出を行い、Deep SORTのモデルを用いて複数ターゲット追跡を行ってもよい。追跡の結果としては、人物別にIDが付与され、全体プロセスを通じて各人物のIDが唯一且つ固定される。
【0042】
ステップS4において、話し手検出モジュール170によって機械学習又は深層学習方法で、前記人物の顔特徴及び前記ヴォイスオーディオ特徴に基づいてヒューマングループにおける現在時刻での話し手を認識し、前記現在時刻での話し手の情報を取得する。
【0043】
具体的には、ステップS4は、前記顔シーケンスデータに基づいてタイムスタンプに従って前記人物の顔特徴及び前記ヴォイスオーディオ特徴を融和コードし、すなわちマルチモーダル特徴融和を行い、第1のマルチモーダル特徴を得るステップと、深層学習方法で、前記第1のマルチモーダル特徴に基づいてヒューマングループにおける現在時刻での話し手を予測するステップと、をさらに含んでもよい。
【0044】
ステップS5において、話し相手認識モジュール180によって機械学習又は深層学習方法で、シーン特徴、前記テキストセマンティック特徴、前記ヴォイスオーディオ特徴及び前記人物の顔特徴に基づいて、前記ヒューマングループにおける前記現在時刻での話し手の話し相手を認識し、現在時刻での話し手の話し相手がロボットであるか否かを検出する。
【0045】
具体的には、ステップS5は、前記顔シーケンスデータに基づいてタイムスタンプに従って前記シーン特徴、前記テキストセマンティック特徴、前記ヴォイスオーディオ特徴及び前記人物の顔特徴を融和コードし、すなわちマルチモーダル特徴融和を行い、第2のマルチモーダル特徴を得るステップと、深層学習方法で、前記第2のマルチモーダル特徴に基づいて前記ヒューマングループにおける各人物が前記現在時刻での話し手の話し相手である確率を1つずつ予測するステップと、をさらに含んでもよい。
【0046】
1つの例示的な実施例では、当業者によく知られているTransformerモデルを用いて、第1/第2のマルチモーダル特徴に基づいて予測する深層学習方法を実行してもよい。一般的に、Transformerモデルは入力、エンコーダ、デコーダ及び出力を含む。
【0047】
ここで、Transformerモデルの入力はコードされたシーケンスである。例えば、ビデオフレームデータにとっては、フレーム画像をブロック化して1つの画像シーケンスに並べ、各フレーム画像の収集時刻を当該画像シーケンスの1つの要素とするのが一般的である。テキスト情報については、文字はまず1つの単語シーケンスに単語化され、続いて単語シーケンスにおける各単語に対して単語コードを行うことにより、テキストコードシーケンスを生成する。オーディオフレームデータの場合も、Transformerモデルの入力として使用する前に、オーディオシーケンスにコードする必要がある。
【0048】
そして、Transformerモデルにおけるエンコーダは主に6層のコードモジュールで構成される。各コードモジュールは主に1つのマルチヘッドセルフアテンションメカニズム層(multi-head self-attention mechanism)及び1つの全結合前方伝播層(fully connected feed-forward)を含み、且ついずれも残差接続(residual connection)及び正規化(normalization)が加えられている。ここで、マルチヘッドセルフアテンションメカニズム層は前の層のシーケンスコードを入力とし、全結合層によって検索キー値トライアド(query、key、value)におけるq、k、v値を生成する。前記q、k、v値はいずれも長さが64の特徴ベクトルであってもよい。シーケンス間は各qを用いて各kに対してattentionを求め、計算式は
【数1】
となり、ここで、d
kは特徴ベクトルの長さを表し、64に等しい。
【0049】
同様に、Transformerモデルにおけるデコーダは主に6層のデコードモジュールで構成される。各デコードモジュールは2つのマルチヘッドセルフアテンションメカニズム層及び1つの全結合前方伝播層を含む。デコーダの入力はエンコーダの出力及びデコーダの前回の出力を含む。特に、デコーダの出力はTransformerモデルの出力である。
【0050】
以下、第2のマルチモーダル特徴に基づいて話し相手を予測することを例として、Transformerモデルの本発明の実施例における応用を概略的に説明する。
【0051】
図4に示すように、話し手の話し相手を効果的に認識するために、入力データは話し手の顔画像シーケンスと、他の人物の顔画像シーケンスと、対応する時間帯のオーディオフレームデータと、対応する時間帯のテキスト情報とを含む。まず、画像情報、オーディオ情報、テキスト情報に対してそれぞれ特徴抽出を行うことにより、対応する人物の顔特徴ベクトル、ヴォイスオーディオ特徴ベクトル及びテキストセマンティック特徴ベクトルを得、次に、マルチモーダル融合モジュールにおいて、全ての特徴ベクトルを結合し、マルチモーダルの融和を実現し、それにより、話し手及び各他の人物に対応する第2のマルチモーダル特徴を得、そして、融和により得られた第2のマルチモーダル特徴をTransformerエンコーダによってコードして話し手及び各他の人物の第2のマルチモーダルコード特徴ベクトルを得、最後に、当該第2のマルチモーダルコード特徴ベクトルをTransformerデコーダ内に伝送することにより、各他の人物が話し手の話し相手である確率を予測する。ここで、Transformerデコーダによる予測は、順序予測であってもよい。例えば、まずロボットが話し相手である確率を予測し、その後、各他の人物が話し相手である確率の予測を行ってもよい。いくつかの実施例では、
図4に示すように、前の人物の話し相手予測の結果をTransformerデコーダに再入力し、Transformerデコーダが次の人物に対して話し相手予測を行う時の入力としてもよい。言い換えれば、話し相手の認識を行う際に、Transformerデコーダにより、ヒューマングループのうち話し手以外の人物を1つずつ予測する。Transformerデコーダの最初の出力結果はロボットが話し相手である確率であり、その後の出力結果は順次他の各人物が話し相手である確率である。Transformerデコーダの出力結果が示す確率が予め設定された閾値より大きい場合、対応するロボット又は人物が話し相手であると考えられる。例えば、最初の出力結果が示す確率が前記予め設定された閾値より大きい場合、ロボットが現在時刻での話し手の話し相手であることを示す。
【0052】
理解されるように、本発明はいくつかの実施例を介して説明され、当業者であれば分かるように、本発明の精神及び範囲から逸脱することなく、これらの特徴及び実施例に対して様々な変更又は等価置換を行うことができる。また、本発明の教示の下で、これらの特徴及び実施例を、本発明の精神及び範囲から逸脱することなく、特定の状況及び材料に適合するように修正することができる。したがって、本発明はここで開示された具体的な実施例に限定されるものではなく、本発明の特許請求の範囲に落ちる全ての実施例は本発明の保護範囲に属する。
【手続補正書】
【提出日】2023-08-10
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
マルチヒューマンを含むヒューマングループ及び少なくとも1つのロボットに関するマルチヒューマンコンピュータインタラクションシーンでの話し相手の検出用の装置であって、
タイムスタンプ付きのビデオフレームデータ及びタイムスタンプ付きのオーディオフレームデータをリアルタイムに収集するためのオーディオ・ビデオ収集モジュール(110)であって、前記ビデオフレームデータに含まれる複数のビデオフレームと前記オーディオフレームデータに含まれる複数のオーディオフレームとは前記タイムスタンプに従って同期されるオーディオ・ビデオ収集モジュール(110)と、
前記オーディオフレームデータに基づいてタイムスタンプ付きのテキスト情報を生成するためのテキスト生成モジュール(120)と、
マシンビジョン方法で前記ビデオフレームデータに含まれる各ビデオフレームにおける顔を検出し、複数のビデオフレームにおいて同一人物を追跡して顔シーケンスデータを取得するための顔処理モジュール(130)と、
機械学習又は深層学習方法で、前記タイムスタンプ付きのテキスト情報からテキストセマンティック特徴を抽出するためのテキスト特徴抽出モジュール(140)と、
機械学習又は深層学習方法で、前記オーディオフレームデータからヴォイスオーディオ特徴を抽出するためのオーディオ特徴抽出モジュール(150)と、
機械学習又は深層学習方法で、人物の顔の時系列特徴及び空間特徴を含む人物の顔特徴を前記顔シーケンスデータから抽出するための顔特徴抽出モジュール(160)と、
機械学習又は深層学習方法で、前記顔シーケンスデータにおける前記人物の顔特徴及び前記ヴォイスオーディオ特徴に基づいて前記ヒューマングループにおける現在時刻での話し手を認識し、前記現在時刻での話し手の情報を取得するための話し手検出モジュール(170)と、
機械学習又は深層学習方法で、シーン特徴、前記テキストセマンティック特徴、前記ヴォイスオーディオ特徴及び前記顔シーケンスデータにおける前記人物の顔特徴に基づいて、前記ヒューマングループにおける前記現在時刻での話し手の話し相手を認識し、前記現在時刻での話し手の話し相手がロボットであるか否かを検出するための話し相手認識モジュール(180)であって、前記シーン特徴は前の時刻の話し手の情報及び話し相手の情報を含む話し相手認識モジュール(180)と、を含む、ことを特徴とするマルチヒューマンコンピュータインタラクションシーンでの話し相手の検出用の装置。
【請求項2】
前記オーディオ・ビデオ収集モジュール(110)は、
カメラを用いて前記タイムスタンプ付きのビデオフレームデータをリアルタイムに収集するためのビデオ収集モジュール(111)と、
マイクロを用いて前記タイムスタンプ付きのオーディオフレームデータを収集するためのオーディオ収集モジュール(112)と、を含む
こと、
及び/又は
前記ビデオフレームデータを時系列に記憶するためのビデオフレームデータベース(101)と、
前記オーディオフレームデータを時系列に記憶するためのオーディオフレームデータベース(102)と、をさらに含む、ことを特徴とする請求項1に記載の装置。
【請求項3】
前記顔処理モジュール(130)は、
深層学習方法で前記ビデオフレームデータに含まれるビデオフレームにおける顔を検出し、2つ以上のビデオフレームから検出された同一顔に一意の固定識別子を付与して当該人物を表す顔検出モジュール(131)と、
前記顔検出モジュール(131)によって出力された検出結果に基づいて、複数の前記ビデオフレームにおいて同一人物を追跡し、タイムスタンプ付きの顔シーケンスデータを取得するための顔追跡モジュール(132)と、を含
み、
前記タイムスタンプ付きの顔シーケンスデータを記憶するための顔データベース(103)をさらに含む、ことを特徴とする請求項
1に記載の装置。
【請求項4】
前記話し手検出モジュール(170)は、
前記顔シーケンスデータに基づいてタイムスタンプに従って前記人物の顔特徴と、前記ヴォイスオーディオ特徴とを第1のマルチモーダル特徴に融和するための第1のマルチモーダル融合モジュール(171)と、
前記第1のマルチモーダル特徴を深層学習ネットワーク内に入力し、前記ヒューマングループにおける各人物の現在時刻での話し状態を1つずつ予測することにより、前記現在時刻での話し手及び対応する話し手の情報を決定するための話し状態検出モジュール(172)と、を含
み、
タイムスタンプに従って前記話し手の情報を記憶するための話し手データベース(105)をさらに含む、ことを特徴とする請求項
1に記載の装置。
【請求項5】
前記話し相手認識モジュール(180)は、
前記顔シーケンスデータに基づいてタイムスタンプに従って前記人物の顔特徴と、前記ヴォイスオーディオ特徴と、前記テキストセマンティック特徴と、前記シーン特徴とを第2のマルチモーダル特徴に融和するための第2のマルチモーダル融合モジュール(181)と、
前記第2のマルチモーダル特徴を深層学習ネットワーク内に入力し、前記ヒューマングループにおける各人物及び各前記ロボットが前記現在時刻での話し手の話し相手であるか否かを1つずつ予測し、それに応じて前記現在時刻での話し相手の情報を決定するための話し相手検出モジュール(182)と、を含む、ことを特徴とする請求項1に記載の装置。
【請求項6】
タイムスタンプに従って前記話し相手の情報を記憶するための話し相手データベース(106)
と、
前記シーン特徴を記憶するためのシーンデータベース(107)と、をさらに含む、ことを特徴とする請求項1又は
5に記載の装置。
【請求項7】
前記テキスト生成モジュール(120)は、前記オーディオフレームデータに基づいて複数の階層にそれぞれ対応するタイムスタンプ付きのテキスト情報を生成するための音声認識モジュール(121)であって、前記複数の階層は単語レベル、センテンスレベル、対話トピックレベルを含む音声認識モジュール(121)を含
み、
前記テキスト情報を時系列に階層的に記憶するためのテキストデータベース(104)をさらに含む、ことを特徴とする請求項
1に記載の装置
【請求項8】
マルチヒューマンを含むヒューマングループ及び少なくとも1つのロボットに関するマルチヒューマンコンピュータインタラクションシーンでの話し相手の検出用の方法であって、
オーディオ・ビデオ収集モジュール(110)によってタイムスタンプ付きのビデオフレームデータ及びタイムスタンプ付きのオーディオフレームデータをリアルタイムに収集するステップS1であって、前記ビデオフレームデータに含まれる複数のビデオフレームと前記オーディオフレームデータに含まれる複数のオーディオフレームとは前記タイムスタンプに従って同期されるステップS1と、
テキスト生成モジュール(120)によってリアルタイムに前記オーディオフレームデータに基づいてタイムスタンプ付きのテキスト情報を生成し、テキスト特徴抽出モジュール(140)によってタイムスタンプ付きのテキスト情報からテキストセマンティック特徴を抽出するステップS2と、
顔処理モジュール(130)によってマシンビジョン方法で前記ビデオフレームデータに含まれる各ビデオフレームにおける顔を検出し、複数のビデオフレームにおいて同一人物を追跡して顔シーケンスデータを取得し、顔特徴抽出モジュール(160)によって前記顔シーケンスデータから人物の顔特徴を抽出し、オーディオ特徴抽出モジュール(150)によって前記オーディオフレームデータからヴォイスオーディオ特徴を抽出するステップS3と、
話し手検出モジュール(170)によって機械学習又は深層学習方法で、前記人物の顔特徴及び前記ヴォイスオーディオ特徴に基づいて前記ヒューマングループにおける現在時刻での話し手を認識し、前記現在時刻での話し手の情報を取得するステップS4と、
話し相手認識モジュール(180)によって機械学習又は深層学習方法で、シーン特徴、前記テキストセマンティック特徴、前記ヴォイスオーディオ特徴及び前記人物の顔特徴に基づいて、前記ヒューマングループにおける前記現在時刻での話し手の話し相手を認識し、前記現在時刻での話し手の話し相手がロボットであるか否かを検出するステップS5であって、前記シーン特徴は前の時刻の話し手の情報及び話し相手の情報を含むステップS5と、を含む、ことを特徴とするマルチヒューマンコンピュータインタラクションシーンでの話し相手の検出用の方法。
【請求項9】
前記ステップS1において、
前記ビデオフレームデータはROSトピックの形態で発表され、画像トピックをサブスクライブすることによって前記ビデオフレームデータをリアルタイムに取得し、
前記オーディオフレームデータはROSトピックの形態で発表され、オーディオトピックをサブスクライブすることによって前記オーディオフレームデータをリアルタイムに取得し、
前記ステップS2において、YOLOを用いて顔検出を行い、Deep SORTのモデルを利用して複数ターゲット追跡を行い、前記追跡の結果としては、人物別にIDが付与され、全体プロセスを通じて各人物のIDが唯一且つ固定される、ことを特徴とする請求項
8に記載の方法。
【請求項10】
前記ステップS4は、
前記顔シーケンスデータに基づいてタイムスタンプに従って前記人物の顔特徴及び前記ヴォイスオーディオ特徴を融和コードし、第1のマルチモーダル特徴を得るステップと、
深層学習方法で、前記第1のマルチモーダル特徴に基づいて前記ヒューマングループにおける現在時刻での話し手を予測するステップと、を含
み、
前記ステップS5は、
前記顔シーケンスデータに基づいてタイムスタンプに従って前記シーン特徴、前記テキストセマンティック特徴、前記ヴォイスオーディオ特徴及び前記人物の顔特徴を融和コードし、第2のマルチモーダル特徴を得るステップと、
深層学習方法で、前記第2のマルチモーダル特徴に基づいて前記ヒューマングループにおける各人物が前記現在時刻での話し手の話し相手である確率を1つずつ予測するステップと、を含む、ことを特徴とする請求項
8に記載の方法。
【国際調査報告】