(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-26
(45)【発行日】2025-01-10
(54)【発明の名称】シーン把握音声映像表現のための方法およびシステム
(51)【国際特許分類】
G06T 7/00 20170101AFI20241227BHJP
G10L 25/30 20130101ALI20241227BHJP
G06V 10/94 20220101ALI20241227BHJP
G06T 7/13 20170101ALI20241227BHJP
G10L 21/02 20130101ALI20241227BHJP
G06V 10/82 20220101ALN20241227BHJP
【FI】
G06T7/00 P
G10L25/30
G06T7/00 350C
G06V10/94
G06T7/13
G10L21/02
G06V10/82
(21)【出願番号】P 2024521386
(86)(22)【出願日】2022-04-22
(86)【国際出願番号】 JP2022019474
(87)【国際公開番号】W WO2023002737
(87)【国際公開日】2023-01-26
【審査請求日】2023-12-19
(32)【優先日】2021-07-19
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】000006013
【氏名又は名称】三菱電機株式会社
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】チャタージー,モイトレヤ
(72)【発明者】
【氏名】チェリアン,アノープ
(72)【発明者】
【氏名】ル・ルー,ジョナタン
【審査官】豊田 好一
(56)【参考文献】
【文献】Shijie GENG et al.,“Dynamic Graph Representation Learning for Video Dialog via Multi-Modal Shuffled Transformers”,Proceedings of the AAAI Conference on Artificial Intelligence,米国,2021年05月18日,Vol. 35,No. 2,pp.1415-1423
【文献】Jianing YANG et al.,“MTAG: Modal-Temporal Attention Graph for Unaligned Human Multimodal Language Sequences”,Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies,2021年
【文献】Chiori Hori et al.,"End-to-end Audio Visual Scene-aware Dialog Using Multimodal Attention-based Video Features", 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),英国,2019年03月,pp.2352 - 2356
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G10L 25/30
G06V 10/94
G06T 7/13
G10L 21/02
G06V 10/82
(57)【特許請求の範囲】
【請求項1】
シーンの音声映像表現を処理するためのシステムであって、
少なくとも1つのプロセッサと、
命令が格納された非一時的メモリとを備え、前記命令は、前記少なくとも1つのプロセッサによって実行されると、前記システムに、
シーンの音声映像表現を、エッジによって接続されたノードのグラフとして処理させ、前記グラフにおけるノードは、前記シーンにおけるオブジェクトの映像特徴を示しており、2つのノードを接続する、前記グラフにおけるエッジは、前記シーンにおける対応する2つのオブジェクトの相互作用を示し、前記グラフにおける少なくとも1つ以上のエッジは、前記対応する2つのオブジェクトの前記相互作用によって生成された音の音声特徴に関連付けられ、
前記シーンの前記音声映像表現を処理するために、前記命令は前記システムに、音声信号および映像信号からノードの前記グラフを生成させ、ノードの前記グラフを前記
非一時的メモリに格納させ、ノードの前記グラフに基づいてタスクを行なわ
せる、システム。
【請求項2】
前記シーンにおける対応する2つのオブジェクトの前記相互作用は、空間的相互作用および時間的相互作用のうちの1つまたはそれらの組合せを含む、請求項1に記載のシステム。
【請求項3】
前記グラフにおける少なくとも1つのノードは、前記シーンにおける他のオブジェクトとの相互作用なく、対応するオブジェクトによって生成された音の音声特徴に関連付けられる、請求項1に記載のシステム。
【請求項4】
音声特徴に関連付けられた前記エッジは、前記音を生成する主オブジェクトと、前記主オブジェクトに前記音を生成させるコンテキストオブジェクトとを接続し、前記エッジは、前記コンテキストオブジェクトのノードから前記主オブジェクトのノードを指す方向を有する、請求項1に記載のシステム。
【請求項5】
前記グラフにおける複数のエッジが音声特徴に関連付けられ、異なるエッジに関連付けられた音声特徴が互いに直交する、請求項1に記載のシステム。
【請求項6】
前記音声特徴は、前記音声特徴の対応するオブジェクトの視覚的特徴に基づいて複数のエッジに関連付けられ、前記視覚的特徴は、前記グラフからの前記対応するオブジェクトの1つ以上のサブグラフに対応する、請求項5に記載のシステム。
【請求項7】
前記シーンにおける複数の音の音声混合物を格納するようにさらに構成され、
前記エッジに関連付けられた前記音声特徴は2値マスクによって表現され、前記2値マスクは、前記音声混合物に適用されると、関連付けられた前記音声特徴を生成する、請求項1に記載のシステム。
【請求項8】
前記シーンの音声フレームおよび映像フレームを受け付けるように構成された入力インターフェイスをさらに備え、前記少なくとも1つのプロセッサは、受け付けられた前記音声フレームおよび映像フレームを前記エッジによって接続されたノードの前記グラフに変換するように訓練されたニューラルネットワークを実行するように構成され、さらに、
前記エッジによって接続されたノードの前記グラフを前記
非一時的メモリに格納するように構成された出力インターフェイスを備える、請求項1に記載のシステム。
【請求項9】
前記ニューラルネットワークは、対応する2つのオブジェクトの前記相互作用に前記音
を関連付けるようにエンドツーエンドで訓練された複数のサブネットワークを含み、前記複数のサブネットワークは、異なる対のオブジェクトの異なる相互作用に異なる注意を置くように訓練された、注意ベースのサブネットワークを含む、請求項8に記載のシステム。
【請求項10】
前記少なくとも1つのプロセッサは、前記シーンの前記音声映像表現を提供する、前記エッジによって接続されたノードの前記グラフを使用して、前記タスクを行なうように構成される、請求項1に記載のシステム。
【請求項11】
前記タスクは、アクション認識、異常検出、音の位置特定および強調、騒々しい背景音の除去、ならびに、システム制御のうちの1つまたはそれらの組合せを含む、請求項10に記載のシステム。
【請求項12】
シーンの音声映像表現を処理するための方法であって、前記方法は、前記方法を実現する格納された命令と結合されたプロセッサを使用し、前記命令は、前記プロセッサによって実行されると、前記方法のステップを実行し、前記ステップは、
シーンの音声映像表現を、エッジによって接続されたノードのグラフとして処理するステップを備え、前記グラフにおけるノードは、前記シーンにおけるオブジェクトの映像特徴を示しており、2つのノードを接続する、前記グラフにおけるエッジは、前記シーンにおける対応する2つのオブジェクトの相互作用を示し、前記グラフにおける少なくとも1つ以上のエッジは、前記対応する2つのオブジェクトの前記相互作用によって生成された音の音声特徴に関連付けられ、
前記処理するステップは、音声信号および映像信号からノードの前記グラフを生成するステップ、ノードの前記グラフをメモリに格納するステップ、および、ノードの前記グラフに基づいてタスクを行なうステッ
プを含む、方法。
【請求項13】
音声特徴に関連付けられた前記エッジは、前記音を生成する主オブジェクトと、前記主オブジェクトに前記音を生成させるコンテキストオブジェクトとを接続し、前記エッジは、前記コンテキストオブジェクトのノードから前記主オブジェクトのノードを指す方向を有する、請求項12に記載の方法。
【請求項14】
前記グラフにおける複数のエッジが音声特徴に関連付けられ、異なるエッジに関連付けられた音声特徴が互いに直交する、請求項12に記載の方法。
【請求項15】
前記シーンの音声フレームおよび映像フレームを受け付けるステップと、
受け付けられた前記音声フレームおよび映像フレームを前記エッジによって接続されたノードの前記グラフに変換するように訓練されたニューラルネットワークを実行するステップとをさらに備える、請求項12に記載の方法。
【請求項16】
前記シーンの前記音声映像表現を提供する、前記エッジによって接続されたノードの前記グラフを使用して、前記タスクを行なうステップをさらに備え、
前記タスクは、アクション認識、異常検出、音の位置特定および強調、騒々しい背景音の除去、ならびに、システム制御のうちの1つまたはそれらの組合せを含む、請求項12に記載の方法。
【請求項17】
方法を行なうためにプロセッサによって実行可能なプログラムが
記憶された、非一時的コンピュータ読取可能記憶媒体であって、前記方法は、
シーンの音声映像表現を、エッジによって接続されたノードのグラフとして処理するステップを備え、前記グラフにおけるノードは、前記シーンにおけるオブジェクトの映像特徴を示しており、2つのノードを接続する、前記グラフにおけるエッジは、前記シーンにおける対応する2つのオブジェクトの相互作用を示し、前記グラフにおける少なくとも1つ以上のエッジは、前記対応する2つのオブジェクトの前記相互作用によって生成された音の音声特徴に関連付けられ、
前記処理するステップは、音声信号および映像信号からノードの前記グラフを生成するステップ、ノードの前記グラフをメモリに格納するステップ、および、ノードの前記グラフに基づいてタスクを行なうステッ
プを含む、非一時的コンピュータ読取可能記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は一般に、音声映像シーン把握(scene aware)認識に関し、より特定的には、シーン把握音声映像表現を処理するための方法およびシステムに関する。
【背景技術】
【0002】
長年にわたって、周囲環境のシーンを取り込むためのさまざまな手法が開発されてきた。たとえば、写真および画像化の概念は数百年前に開発され、それ自体を徐々にデジタルドメインへ移行させている。当初、デジタル画像は、各々がその強度またはグレーレベルについての有限の離散量の数値表現を有する画素から構成される2次元(2D)表現として定義されてきた。しかしながら、画素表現は、異なる画像関連アプリケーションにとって必ずしも便利であるとは限らない。そのため、周囲環境の代替的表現が開発されてきた。
【0003】
たとえば、距離場画像表現は、アンチエイリアシング、レイマーチング(ray marching)、およびテクスチャ合成を含むさまざまなグラフィックスアプリケーションにおいて有用である。一例として、距離場は、数値制御(numerical control:NC)アプリケーションのシミュレーションにおいて広く使用されてきた。スケーラブルベクトルグラフィックス(Scalable Vector Graphics:SVG)は、相互作用性およびアニメーションのためのサポートを用いる2Dグラフィックス用の拡張マークアップ言語(Extensible Markup Language:XML)ベースのベクトル画像フォーマットである。SVGベースの表現はマップベースのアプリケーションにとって有利であることが見出された。それに加えて、またはそれに代えて、さまざまな特徴抽出および圧縮技術が、よりコンパクトでより効率的な画像表現および格納のために開発されてきた。たとえば、さまざまなオブジェクト検出およびセグメント化アプリケーションが、画素の強度ではなく、画素から抽出された特徴を分析するために開発されてきた。
【0004】
異なるアプリケーションのための異なる画像表現を見出すための同様の傾向が、ビデオドメインにおいて観察される。しかしながら、ビデオドメインはより多くの課題を提示する。なぜなら、表現は、空間ドメインにおけるオブジェクトの空間的変動だけでなく、時間ドメインにおけるそれらの進展も取り込むべきであるためである。そのため、多くの異なる表現が、映像ファイルを取り込んで格納するために開発されてきた。たとえば、さまざまな非可逆および可逆圧縮技術が、隣接する映像ファイルにおける類似性を利用するために開発され、さまざまな特徴抽出手法が、空間ドメインおよび時間ドメインの双方において特徴を抽出するために開発され、さまざまなグラフベースの手法が、映像における異なるオブジェクトの時間および空間での関係を表現するために開発されてきた。
【0005】
環境のシーンをさらに表現するために、デジタル音声技術が、歌、インストルメンタル曲、ポッドキャスト、音響効果、および他の音の録音を含む、音の録音、操作、大量生産、および分布において使用される。さまざまな技術は、適切な音声表現に依存する。たとえば、異なる音声符号化フォーマットが、デジタル音声の格納または送信のために開発されてきた。音声符号化フォーマットの例は、MP3、AAC、ボルビス(Vorbis)、FLAC、およびオーパス(Opus)を含む。また、画像処理と同様に、さまざまな手法が、音声ファイルから抽出された特徴と連携するために提案されてきた。これらの特徴ベースの手法は、自動音声認識システムにおいて広く使用される。
【0006】
音声モダリティおよび映像モダリティ双方のための共通の表現を提供する必要がある場合、シーンの表現は、さらにより困難な問題になる。これらのモダリティは同じシーンを表現するかもしれないが、これらの異なるモダリティは互いと自然に整列されないかもしれない。そのため、現代の技術は通常、前処理手法および後処理手法を加えることによって、これらのモダリティに別々に対処する。前処理手法の例は、音声処理を支援するために映像ファイルから手掛かりを導き出すこと、およびその逆を含む。後処理手法の例は、映像に注釈を付けるための音声キャプションを提供することを含む。
【0007】
しかしながら、これらの手法のいずれも、環境における音声映像シーンの複雑で豊かな表現には適していない。したがって、他のアプリケーションおよび手法にとって好適である音声映像シーンの新たな表現が必要である。加えて、そのような新たな表現を生成し処理するために構成されたシステムおよび方法が必要である。
【発明の概要】
【0008】
したがって、いくつかの実施形態の目的は、効率的で正確な態様でシーンの音声映像表現を処理するためのシステムおよび方法を提供することである。そのような処理の例は、音声映像表現を生成し、音声映像表現に基づいてアプリケーション特有のタスクを実行することを含む。そのため、一実施形態では、映像のシーンのシーン把握音声映像表現を示すグラフベースの表現が生成される。映像は、1つ以上のカメラといった1つ以上の画像/映像取り込み装置を使用して取り込まれ得る。1つ以上のカメラは、シーン把握音声映像表現を生成するためのコンピューティングシステムといったシステムに接続され得る。
【0009】
いくつかの実施形態は、シーン把握音声映像表現は、エッジによって接続されたノードのグラフ上にマッピングされた構造を含むという認識に基づいている。グラフにおけるノードの各々はオブジェクトを表現し、たとえば、シーンにおけるオブジェクトの映像特徴を示している。グラフにおけるエッジの各々は、2つのノードを接続する。グラフの各エッジは、シーンにおける対応する2つのオブジェクトの相互作用を示す。そのような態様で、グラフは、オブジェクトおよびそれらの相互作用を表現する。
【0010】
いくつかの実施形態では、グラフ表現は、シーンにおけるオブジェクトの検出および分類に基づいて生成され得る。また、グラフ表現のためのノード(すなわち、オブジェクト)およびエッジ(すなわち、オブジェクトの相互作用)は、予め定められた一組の可能なオブジェクトおよび一組の可能な相互作用に基づいて選択され得る。ノードおよびエッジの選択は、オブジェクトおよび相互作用の一意性を強化する。たとえば、人々のグループが一組の可能なオブジェクトに属していなければ、オブジェクトは、人々のグループとしてではなく人として分類され得る。
【0011】
いくつかの実施形態は、シーンは、空間的相互作用および時間的相互作用のうちの1つまたはそれらの組合せを含む、2つのオブジェクトの複雑な相互作用を含むという理解に基づいている。たとえば、取り込まれたシーンは、人々、車両、または動物を示す異なるオブジェクトと、空間ドメインにおける異なる音声と、時間ドメインにおける対応するオブジェクトの進展とを有する、動的コンテンツを含み得る。また、シーンは、オブジェクト間に存在する異なる相互作用または関係も含み得る。リアルタイムの例のシナリオでは、シーンは、異なるアクションをとっている人々、動いている車両、停まっている車両、走っている動物などといったオブジェクトを有する繁華街に対応し得る。異なるアクションをとっている人々は、自分の楽器を持ったミュージシャンを含み得る。このシーンでは、いくつかの楽器は、対応するミュージシャンによって活発に演奏されるかもしれず、一方、いくつかの楽器は演奏されないかもしれない。
【0012】
それに加えて、またはそれに代えて、いくつかの実施形態の目的は、オブジェクトの空間的および時間的相互作用を含む複雑な相互作用を有するグラフ表現を生成することである。そのため、いくつかの実施形態では、グラフ表現は、エッジによって十分に接続されたノードから構成される。ノードの各々は、シーンにおけるオブジェクトを示し、十分に接続されたエッジの各々は、シーンの空間ドメインおよび時間ドメインにおける2つのオブジェクトに対応する相互作用を示す。
【0013】
いくつかの実施形態は、相互作用において、いくつかのオブジェクトは音の生成に等しく寄与し得るという理解に基づいている。いくつかの場合、オブジェクトは、別のオブジェクトと相互作用しながら音を生成するかもしれず、また、音の生成に単独で寄与するかもしれない。たとえば、あるミュージシャンは、シーンにおいてギターを演奏しながら歌っているかもしれない。いくつかの他の場合、いくつかのオブジェクトは、音の生成に等しく寄与しないかもしれない。たとえば、あるミュージシャンは、歌わずにバイオリンを演奏しているかもしれない。そのような場合、音の生成に等しく寄与していないオブジェクトは、それらの相互作用のタイプに基づいて規定され得る。そのため、いくつかの実施形態では、そのようなオブジェクトの対応するエッジは、相互作用のタイプを規定する属性を含み得る。いくつかの例示的な実施形態では、相互作用のタイプはエッジの方向によって示され、方向付けられたエッジによって接続された対応するノード(すなわちオブジェクト)は、主オブジェクトとコンテキストオブジェクトとに識別され得る。たとえば、ミュージシャンによって演奏されるバイオリンを示すノードは主オブジェクトに対応し、バイオリンを演奏するミュージシャンはコンテキストオブジェクトに対応する。
【0014】
いくつかの実現化例では、グラフにおけるノードおよび/またはエッジは、オブジェクトによって、またはオブジェクトの相互作用によって生成された音の音声特徴に関連付けられ得る。たとえば、水中で水をはねながら吠える犬などのオブジェクトのノードは、対応する音声特徴に関連付けられ得る。同様に、主オブジェクトとコンテキストオブジェクトとを接続するエッジも、音声特徴に関連付けられ得る。それに加えて、またはそれに代えて、いくつかの実施形態の別の目的は、シーンの空間的情報および時間的情報の双方を含む映像特徴および音声特徴などの特徴を抽出することである。
【0015】
いくつかの実施形態は、映像特徴および音声特徴の合同抽出がシステムの全体的性能を向上させ得るという理解に基づいている。映像特徴および音声特徴の合同抽出は、前処理ステップおよび後処理ステップを除外することができ、それは全体的性能を向上させ得る。
【0016】
そのため、いくつかの実施形態は、音声混合物からオブジェクトの個々の音声を切り離す音声源分離フレームワークを開示する。音声混合物は、異なる音声信号の周波数の変化を含む混合音声スペクトログラムに対応し得る。音声は、映像からのオブジェクトおよび当該オブジェクトの対応する相互作用のビジュアルに基づいて、音声混合物から切り離され得る。
【0017】
いくつかの実施形態では、音声源分離フレームワークは、ニューラルネットワークを含み得る。ニューラルネットワークは、音声特徴をグラフのノードおよび/またはエッジに関連付けるようにエンドツーエンドで訓練された複数のサブネットワークを含み得る。複数のサブネットワークは、オブジェクトの異なる相互作用に異なる注意を提供するように訓練された、注意ベースのサブネットワークを含み得る。
【0018】
訓練された注意ベースのサブネットワークは、シーンにおけるオブジェクトの視覚的特徴を導き出すために使用され得る。視覚的特徴は、音声混合物からオブジェクトの音声を切り離すための音声源分離フレームワークを誘導する潜在的な聴覚的要素に対応する。たとえば、シーンにおけるバイオリンなどの楽器の視覚的特徴は、音声混合物からバイオリンの音を切り離すように音声源分離フレームワークを誘導し得る。
【0019】
いくつかの実施形態では、視覚的特徴は、グラフ表現から1つ以上のサブグラフとして抽出され得る。1つ以上のサブグラフは、音声特徴に直交性を提供する埋め込みベクトル(すなわち、低次元ベクトル表現)を提供し得る。また、シーンは、各オブジェクトについてのさまざまな音を含み得る。そのため、異なるオブジェクトおよび/またはエッジに関連付けられた音声特徴は、互いに直交する。音声特徴の直交性は、さまざまな音からの異なる個々の音声の分離を強化する。いくつかの実施形態では、エッジに関連付けられた音声特徴は、2値マスクによって表現され得る。2値マスクは、音声混合物からオブジェクトの対応する音声特徴を分離することによって、オブジェクトの所望の音声を分離する。
【0020】
いくつかの実施形態は、シーン把握音声映像表現が他のプロセスまたはアプリケーションへの入力として機能し得るという理解に基づいている。たとえば、コンピューティングシステムは、アクション認識および異常検出、音の位置特定および強調などの対応するアプリケーションのタスクを行なうために、生成されたシーン把握音声映像表現をサーバに提供し得る。コンピューティングシステムは、さまざまな機械学習方法を使用して、シーン把握音声映像表現で訓練され得る。そのため、音声映像表現の構造は、タスクを行なうためにニューラルネットワークを訓練するための教師あり学習として使用され得る。それに加えて、またはそれに代えて、いくつかの実施形態の別の目的は、生成されたシーン把握音声映像表現を使用してニューラルネットワークを訓練することである。
【0021】
そのような態様で、異なる実施形態に従ったグラフは、シーンの豊かで複雑な音声映像表現を取り込み得る。加えて、グラフは、訓練されたニューラルネットワークによるグラフの生成を可能にし、生成されたグラフを他のニューラルネットワークを訓練するために使用する識別可能な性質を有し得る。
【0022】
したがって、いくつかの実施形態は、シーンの音声映像表現を、エッジによって接続されたノードのグラフとして格納するように構成された非一時的メモリを開示する。グラフにおけるノードは、シーンにおけるオブジェクトの映像特徴を示している。2つのノードを接続する、グラフにおけるエッジは、シーンにおける対応する2つのオブジェクトの相互作用を示す。グラフでは、少なくとも1つ以上のエッジは、対応する2つのオブジェクトの相互作用によって生成された音の音声特徴に関連付けられる。
【0023】
したがって、いくつかの他の実施形態は、シーンの音声映像表現を生成するためのシステムを開示する。システムは、入力インターフェイスと、プロセッサと、出力インターフェイスとを含む。入力インターフェイスは、シーンの音声フレームおよび映像フレームを受け付けるように構成される。プロセッサは、受け付けられた音声フレームおよび映像フレームをシーンの音声映像表現のグラフに変換するように訓練されたニューラルネットワークを実行するように構成される。グラフはエッジによって接続されたノードを含み、グラフにおけるノードは、シーンにおけるオブジェクトの映像特徴を示しており、2つのノードを接続する、グラフにおけるエッジは、シーンにおける対応する2つのオブジェクトの相互作用を示し、グラフにおける少なくとも1つ以上のエッジは、2つの対応するオブジェクトの相互作用によって生成された音の音声特徴に関連付けられる。出力インターフェイスは、シーンの音声映像表現のグラフをメモリに格納するように構成される。
【0024】
したがって、いくつかの他の実施形態は、シーンの音声映像表現を、エッジによって接続されたノードのグラフとして格納するように構成されたメモリを含むシステムを開示する。グラフにおけるノードは、シーンにおけるオブジェクトの映像特徴を示しており、2つのノードを接続する、グラフにおけるエッジは、シーンにおける対応する2つのオブジェクトの相互作用を示し、グラフにおける少なくとも1つ以上のエッジは、2つの対応するオブジェクトの相互作用によって生成された音の音声特徴に関連付けられる。システムはさらに、シーンの音声映像表現のグラフを使用してタスクを行なうためにメモリに動作可能に接続されたプロセッサを含む。
【図面の簡単な説明】
【0025】
【
図1A】いくつかの実施形態に従った、シーンの音声映像表現をグラフとして示す図である。
【
図1B】いくつかの他の実施形態に従った、シーンの音声映像表現をグラフとして示す図である。
【
図1C】いくつかの他の実施形態に従った、シーンの音声映像表現をグラフとして示す図である。
【
図1D】いくつかの他の実施形態に従った、シーンの音声映像表現をグラフとして示す図である。
【
図1E】いくつかの他の実施形態に従った、シーンの音声映像表現をグラフとして示す図である。
【
図2】いくつかの実施形態に従った、シーンの音声映像表現を生成するためのシステムのブロック図である。
【
図3A】いくつかの実施形態に従った、シーンの音声映像表現を生成するための映像フレームからの音声特徴および映像特徴の抽出を表わす概要図である。
【
図3B】いくつかの実施形態に従った、シーンの音声映像表現を生成するための映像フレームからの音声特徴および映像特徴の抽出を表わす概要図である。
【
図3C】いくつかの実施形態に従った、音声音源分離タスクに対応するフレームワークを表わす概要図である。
【
図4】いくつかの例示的な実施形態に従った、シーンの音声映像表現のグラフを使用してタスクを行なうためのシステムのブロック概略図である。
【
図5】いくつかの例示的な実施形態に従った、
図4のシステムを使用するタスクに対応する例示的なシナリオを示す図である。
【
図6】いくつかの他の例示的な実施形態に従った、
図4のシステムを使用するタスクに対応する例示的なシナリオを示す図である。
【
図7】いくつかの他の例示的な実施形態に従った、
図4のシステムを使用するタスクに対応する例示的なシナリオを示す図である。
【発明を実施するための形態】
【0026】
以下の説明では、説明する目的のために、多くの特定の詳細が、本開示の完全な理解を提供するために述べられる。しかしながら、これらの特定の詳細がなくても本開示が実践され得ることは、当業者には自明であろう。他の事例では、本開示を不明瞭にすることを避けるために、装置および方法はブロック図の形式でのみ示される。
【0027】
この明細書および請求項で使用されるような、「たとえば」、「といった」、「などの」という用語、ならびに「備える」、「有する」、「含む」という動詞およびそれらの他の動詞形は、1つ以上の構成要素または他の項目のリストとともに使用される場合、非限定的であるとして各々解釈されるべきである。すなわち、リストは、他の追加の構成要素または項目を除外するとみなされるべきではない。「に基づいて」という用語は、少なくとも部分的に基づいていることを意味する。また、ここに採用されている言葉遣いおよび用語は説明のためのものであり、限定的であると見なされるべきでないということが理解されるべきである。この説明内で利用されるどの見出しも便宜上のものに過ぎず、法的効果または限定的効果を有していない。
【0028】
図1Aは、いくつかの実施形態に従った、シーンのシーン把握音声映像表現を示すグラフ102を表わす表現100を示す。シーンは映像108によって表現される。グラフ102は、ノード104A、ノード104B、ノード104C、ノード104D、ノード104E、ノード104F、およびノード104G(以下、ノード104A~104Gと呼ばれる)などのノードを含む。ノード104A~104Gは、エッジ106A、エッジ106B、エッジ106C、エッジ106D、エッジ106E、エッジ106F、およびエッジ106G(以下、エッジ106A~106Gと呼ばれる)などのエッジによって接続される。ノード104A~104Gの各ノードは、シーンにおけるオブジェクトの映像特徴を示している。たとえば、ノード104Aはシーンにおける犬を示し、ノード104Bは水を示し、ノード104Cはプールを示し、ノード104Dは歩道を示し、ノード102Eは植物を示し、ノード104Fは木を示し、ノード104Gはタンクを示す。2つのノードを接続するエッジ106A~106Gの各エッジは、シーンにおける対応する2つのオブジェクトの相互作用を示す。たとえば、ノード104A(すなわち犬)とノード104B(すなわち水)とを接続するエッジ106Aは、シーンにおける犬と水との相互作用を示す。いくつかの場合、ノード104A~104Gのうちの少なくとも1つのノードは、シーンにおける他のオブジェクトとの相互作用なく、対応するオブジェクトによって生成された音の音声特徴に関連付けられ得る。同様に、エッジ106B、106C、106D、106E、106F、および106Gは、
図1Aにおいて示されるように、対応する2つのオブジェクトの相互作用を示す。
【0029】
また、グラフ102では、ノード104A~104Gおよび/またはエッジ106A~106Gのいくつかは、音の音声特徴に関連付けられる。たとえば、ノード104Aは、シーンにおける犬の吠える声の音声特徴に関連付けられる。たとえば、この例では、エッジ106Aは、水がはねる音の音声特徴に関連付けられる。シーンでは、水がはねる音は、犬(すなわちノード104A)と水(すなわちノード104B)との間の相互作用に起因して生成される。音声特徴は、音声混合物110から取得され得る。
【0030】
いくつかの例示的な実施形態では、シーンは、対応する2つのオブジェクトの複雑な相互作用を含み得る。そのような複雑な相互作用は、シーンのグラフ表現に含まれ得る。それは、次に
図1Bを参照して説明される。
【0031】
図1Bは、いくつかの他の実施形態に従った、シーンのシーン把握音声映像表現を示すグラフ114を表わす表現112を示す。
図1Bに示されるように、シーンは映像116に対応する。いくつかの実施形態では、シーンにおける対応する2つのオブジェクトの相互作用は、オブジェクトの空間的相互作用および時間的相互作用のうちの1つまたはそれらの組合せを含み得る。オブジェクトの空間的相互作用および時間的相互作用は、グラフ114に示され得る。
図1Bに示されるように、グラフ114は、グラフ114のエッジによって互いに十分に接続されたノードを含む。グラフ114のエッジによって十分に接続されたノードは、空間的情報および時間的情報を含むオブジェクトの複雑な相互作用を示している。
【0032】
いくつかの場合、相互作用のタイプが示され得る。それは、次に
図1Cを参照して説明される。
【0033】
図1Cは、いくつかの他の実施形態に従った、シーンのグラフ120を表わす表現118を示す。グラフ120は、ミュージシャン、楽器などを含む映像122のシーンに対応する。
【0034】
いくつかの場合、互いに相互作用するシーンのいくつかのオブジェクトは、音の生成に等しく寄与するかもしれない。たとえば、あるミュージシャンは、木琴などの楽器を演奏しながら歌うかもしれない。いくつかの他の場合、オブジェクトは、音の生成に等しく寄与しないかもしれない。たとえば、別のミュージシャンは、フルートなどの楽器を演奏するだけかもしれない。そのような場合、ミュージシャンとフルートとの間の相互作用は、オブジェクト、すなわち、ミュージシャンとフルートとを接続するエッジの方向によって示され得る。
【0035】
グラフ120では、ノード124Aはフルートを示し、ノード124Bは、フルートを演奏するミュージシャンを示す。また、オブジェクト、すなわち、フルートおよびミュージシャンの各々は、主オブジェクトとコンテキストオブジェクトとに識別され得る。音声特徴に関連付けられた、グラフ120のエッジ126は、音を生成する主オブジェクトと、主オブジェクトに音を生成させるコンテキストオブジェクトとを接続する。エッジ126は、コンテキストオブジェクトのノード124Bから主オブジェクトのノード124Aを指す方向を有する。特に、音を生成するオブジェクト、すなわちフルートは、主オブジェクトとして定義され、フルートを演奏することによって音の生成を引き起こすオブジェクト、すなわちミュージシャンは、コンテキストオブジェクトとして定義される。ノード124Aとノード124Bとは、エッジ126などの方向付けられたエッジによって接続される。また、エッジ126は、ミュージシャンとフルートとの相互作用によって生成されたフルートの音に対応する音声特徴に関連付けら得る。フルートの音に対応する音声特徴は、シーンにおけるフルートの音の対応する視覚的特徴を判定することによって、エッジ126に関連付けられ得る。
【0036】
いくつかの実施形態では、シーンにおける視覚的特徴のために、グラフ120の1つ以上のサブグラフが作成され得る。それは
図1Dで説明される。
【0037】
図1Dは、いくつかの他の実施形態に従った、シーンのグラフ130を表わす表現128を示す。グラフ130は、グラフ
114に対応する。グラフ130は、映像、たとえば映像
116の空間的情報および時間的情報に対応するオブジェクトの複雑な相互作用を示す複数のエッジによって十分に接続されたノードを含む。また、エッジは、オブジェクトの相互作用によって生成された音に対応する音声特徴に関連付けられ得る。音声特徴は、オブジェクトの視覚的特徴に基づいてエッジに関連付けられる。視覚的特徴は、グラフ130のサブグラフ134から導き出され得る。サブグラフ134は、音声特徴に直交性を提供する埋め込みベクトルを提供し得る。音声特徴の直交性に起因して、グラフ130を格納するためにメモリが必要とする空間が減少され得る。また、埋め込みベクトルは、シーンにおける複数の音の音声混合物から音声特徴を分離する際に使用され得る。音声混合物は、混合音声スペクトログラム132によって表現され得る。
【0038】
同様に、異なる相互作用のための異なる音声特徴が、グラフ130などの完全なグラフからのサブグラフ134などの1つ以上のサブグラフを使用して分離され得る。そのようなサブグラフは、
図1Eにさらに示される。
【0039】
図1Eは、いくつかの実施形態に従った、映像140のシーンのグラフ、たとえばグラフ130の、サブグラフ142Aおよびサブグラフ142Bなどの1つ以上のサブグラフを表わす表現138を示す。サブグラフ142Aは、映像140における視覚的特徴140Aに対応し、サブグラフ142Bは、映像140における視覚的特徴140Bに対応する。たとえば、視覚的特徴140Aは、人々などのオブジェクトの特徴を含み、視覚的特徴140Bは、車両などのオブジェクトの特徴を含む。
【0040】
そのため、サブグラフ142Aは、シーンにおける人々を示すノードと、人々の相互作用を示すエッジとを含む。サブグラフ142Bは、シーンにおける車、電車などといった車両を示すノードと、車両の相互作用を示すエッジとを含む。グラフ142Aおよびグラフ142Bの各々のエッジは、異なるエッジに関連付けられた音声特徴が互いに直交するように音声特徴に関連付けられ得る。それは、映像140におけるさまざまな音から人々および車両の対応する音声特徴を分離する際に役立つ。
【0041】
シーンにおける異なるオブジェクトと、空間的および時間的相互作用などのオブジェクトの異なる相互作用との情報を含むそのようなグラフ表現は、環境の音声映像シーンの複雑で豊かな表現にとって好適であり得る。グラフ表現は、システムによって生成され得る。それは、次に
図2を参照して説明される。
【0042】
図2は、いくつかの実施形態に従った、シーンの音声映像表現を生成するためのシステム200のブロック図である。システム200は、入力インターフェイス202と、プロセッサ204と、出力インターフェイス206と、メモリ208とを含む。いくつかの例示的な実施形態では、メモリ208は、ニューラルネットワーク210を格納するように構成される。いくつかの他の例示的な実施形態では、メモリ208はさらに、シーンにおける複数の音の音声混合物を格納するように構成され得る。
【0043】
入力インターフェイス202は、シーンの音声フレームおよび映像フレームを受け付けるように構成される。いくつかの実施形態は、映像特徴および音声特徴の合同抽出がシステム200の全体的性能を向上させ得るという理解に基づいている。したがって、プロセッサ204は、受け付けられた音声フレームおよび映像フレームを、エッジ(たとえばエッジ106A~106G)によって接続されたノード(たとえばノード104A~104G)を含むシーンの音声映像表現のグラフ(たとえばグラフ102)に変換するように、ニューラルネットワーク210を実行するように構成され得る。
【0044】
グラフ102では、少なくとも1つ以上のエッジ(たとえばエッジ106A)が、2つの対応するオブジェクト(たとえば、ノード106Aおよびノード106B)の相互作用によって生成された音の音声特徴に関連付けられる。そのようなマルチモーダルグラフ(たとえばグラフ102)はシームレスなモダリティ間相互作用を可能にし、それは、マルチタスク学習などといったさまざまなタスクを実行する際に役立つ。そのため、対応する音の音声特徴は、音声混合物(たとえば混合音声スペクトログラム132)から分離される。混合音声スペクトログラム132は、シーンの複数の音または主オブジェクトのタイプごとのさまざまな音の混合物を含む。音声特徴の分離は、
図3Aおよび
図3Bでさらに詳細に説明される。
【0045】
図3Aおよび
図3Bは、いくつかの実施形態に従った、シーンのグラフ(たとえばグラフ102)を生成するための映像302からの音声特徴および映像特徴の分離を表わす概要
図300を示す。音声特徴および映像特徴の分離は、システム200によって行なわれる。映像302は、システム200への入力として提供される。
【0046】
いくつかの例示的な実施形態では、映像302におけるオブジェクトが、オブジェクト検出および分類手法を使用して検出および分類され得る。オブジェクト検出および分類手法は、より高速の領域ベース畳み込みニューラルネットワーク(Region-based Convolutional Neural Network:R-CNN)モデル、および、映像フレーム302におけるオブジェクトの検出のための境界ボックスを生成するResNetを含み得るものの、それらに限定されない。ResNetは、たとえばビジュアルゲノム(Visual Genome)データセットといったデータセットに基づいて事前訓練され得る。
【0047】
オブジェクト検出および分類後、オブジェクトの映像特徴が映像302から抽出され得る。例示的な一実施形態では、映像特徴は特徴ベクトルとして抽出され得る。たとえば、映像フレーム302からの映像特徴の特徴ベクトルは、2048個の次元ベクトルを含み得る。また、映像フレーム302からの音声特徴は、訓練された音声データセットに基づいて検出され得る。たとえば、音楽データセットに対応する音声特徴は、オーディオセット(AudioSet)データセットなどの音声データセットで訓練され得る。音声特徴は、たとえば512個の次元ベクトルといった特徴ベクトルとして抽出され得る。いくつかの実施形態では、音声特徴および映像特徴の特徴次元の一貫性を維持するために、映像特徴の次元ベクトルは、音声特徴の次元に従って符号化され得る。そのため、映像次元ベクトルは、音声特徴の次元に符号化され得る。たとえば、映像特徴の2048個の次元ベクトルは、512個の次元に符号化される。このように、映像特徴の映像次元ベクトルは音声特徴の次元ベクトルに整列され、異なる音声モダリティおよび映像モダリティのための共通の表現が取得される。また、異なる音声モダリティおよび映像モダリティの整列は、システム(たとえばシステム200)が、前処理および/または後処理タスク(キャプション付けなど)を除外しつつ、複数のタスクを同時に行なうことを可能にする。いくつかの例示的な実施形態では、次元ベクトルは、整流線形ユニット(rectified linear:ReLU)活性化関数を有する2層多層パーセプトロンなどの人工ニューラルネットワークを使用して符号化され得る。
【0048】
また、映像フレーム302の抽出された次元ベクトルから、グラフ304が構築される。グラフ304は、グラフ注意ネットワーク(Graph Attention Network:GAN)および再帰型ニューラルネットワーク(Recurrent Neural Network:RNN)306への入力として提供される。例示的な一実施形態では、GANおよびRNN306は、i)グラフ304のノードを更新すること、ii)グラフ304のノード間の対となった相互作用を取り込むこと、および、iii)音声特徴および映像特徴の特徴ベクトルをプールすることを含むグラフ304を処理し得る。
【0049】
GANおよびRNN306は、グラフ注意ネットワーク畳み込み(graph attention network convolution:GATConv)、エッジ畳み込み、および、特徴ベクトルプーリングなどの構成要素を含み得る。GATConvは、エッジ近接情報、および、多ヘッドグラフメッセージ受け渡し、たとえば、メッセージ受け渡しのための4つの注意ヘッドに基づいて、グラフ304におけるノードの特徴を更新する。
【0050】
ノードを更新後、GANおよびRNN306は、対となった相互作用、すなわち、ノードのエッジを、エッジ畳み込みを使用して取り込み得る。例示的な一実施形態では、エッジ畳み込みは、グラフ304の2つのノードの連結ベクトルを取り込む。たとえば、エッジ畳み込みは、2つのノードの連結ベクトル(512×2=1024)を取り込む。したがって、対となった相互作用のための次元ベクトルは、512次元ベクトルである。更新されたノードおよび対となった相互作用に対応する特徴ベクトルは、グラフ注意埋め込みベクトル308を取得するためにプールされる。グラフ注意埋め込みベクトル308は、単一のベクトル表現である。例示的な一実施形態では、特徴ベクトルは、グラフ注意埋め込みベクトル308を取得するために、グローバル最大および平均プール(Global Max and Average pool)手法などのプーリング手法を使用することによってプールされ得る。
【0051】
グラフ注意埋め込みベクトル308は、音声源分離フレームワーク310への入力として提供される。グラフ注意埋め込みベクトル308は、対応するオブジェクトおよび当該オブジェクトの相互作用の音声特徴を分離するための音声源分離フレームワーク310を誘導する映像302から導き出された視覚的特徴(たとえば、
図1Eの視覚的特徴140Aおよび140B)に対応する。
【0052】
音声源分離フレームワーク310は、オブジェクトおよび当該オブジェクトの相互作用に対応する視覚的特徴を導き出す注意ベースのニューラルネットワークアーキテクチャを含み得る。注意ベースのニューラルネットワークアーキテクチャは、各エッジ、すなわち、グラフ304における対応する2つのオブジェクトの相互作用に注意値を提供するように訓練され得る。注意値は、エッジの重要性、すなわち、グラフにおける対応する2つのオブジェクトの相互作用の重要性に対応する。音声源分離フレームワーク310は、間にある層をスキップすることによって、ある層の出力を次の層への入力として供給するスキップ接続314を含み得る。音声源分離フレームワーク310の注意ベースのニューラルネットワークアーキテクチャは、
図3Cでさらに説明される。
【0053】
また、音声源分離フレームワーク310は、分離されたマスク316を生成する。分離されたマスク316は、音声特徴に直交性を提供する埋め込みベクトルを含み得る。音声特徴の直交性は計算速度を向上させることができ、所望の音声を混合音声から一意的に分離することを可能にする。例示的な一実施形態では、音声源分離フレームワーク310は、埋め込みベクトル308に基づいて、混合音声スペクトログラム312からオブジェクトおよび/または相互作用の音声源を分離する。混合音声スペクトログラム312は、混合音声スペクトログラム132に対応する。また、分離されたマスク316は、音声特徴を分離された音声に変換するための変換器318に提供される。分離された音声は、出力320として提供される。
【0054】
図3Cは、いくつかの実施形態に従った、音声音源分離タスクに対応する音声源分離フレームワーク322を表わす概要図を示す。例示的な一実施形態では、音声音源分離タスクは、映像、たとえば映像302の音声混合物からピアノの音を分離することに対応し得る。
【0055】
音声源分離フレームワーク322は、ニューラルネットワーク326を含む。ニューラルネットワーク326は、RNN326A、RNN326B、およびRNN326C(すなわち、複数のRNN326A~326C)といった複数のRNNに対応する複数のサブネットワークを含む。複数のRNN326A~326Cは、対応する2つのオブジェクトの相互作用に音を関連付けるようにエンドツーエンドで訓練され得る。複数のRNN326A~326Cは、異なる対のオブジェクトの異なる相互作用に異なる注意を置くように訓練された、注意ベースのサブネットワークを含む。いくつかの例示的な実施形態では、複数のRNN326A~326Cは、グラフ324を使用して訓練され得る。たとえば、複数のRNN326A~326Cは、グラフ324における異なる対のオブジェクトの異なる相互作用に異なる注意を提供するように訓練され得る。いくつかの実施形態では、複数のRNN326A~326Cは、グラフ324における異なる対のオブジェクトの異なる相互作用に異なる注意を提供するために、教師あり学習(特に、自己教師あり学習)を行ない得る。
【0056】
グラフ324は、ノード324A、ノード324B、ノード324C、およびノード324Dなどのノードを有する、十分に接続されたグラフである。ノード324A、324B、324C、および324D(またはノード324A~324D)は、シーンのミュージシャンおよび楽器などのオブジェクトを示している。たとえば、ノード324Aおよびノード324Bはミュージシャンに対応し、ノード324Cおよびノード324Dは、ピアノおよびギターなどの楽器にそれぞれ対応する。ノード324A~324Dは、グラフ324のエッジによって互いに十分に接続される。音声特徴および映像特徴のそのようなマルチモーダル整列は、システムが複数のタスクを合同で学習することを可能にする。
【0057】
訓練された複数のサブネットワーク326A~326Cは、オブジェクトおよび当該オブジェクトの相互作用の音声特徴に直交性を提供する埋め込みベクトル328を提供し得る。埋め込みベクトルは、混合音声スペクトログラム332によって表現されるギターおよびピアノの音声混合物から音声特徴を分離する際に使用され得る。混合音声スペクトログラム332は、混合音声スペクトログラム312に対応する。
【0058】
埋め込みベクトル328は、埋め込みベクトル328A(E
1)と、埋め込みベクトル328B(E
2)と、埋め込みベクトル328C(E
3)とを含む。埋め込みベクトル328A、328B、および328Cの各々は、シーンにおける別個の音声生成オブジェクトに対応する。埋め込みベクトル328A~328Cは、ノードまたはエッジへの音声特徴に関連付けられ得る。そのため、埋め込みベクトル328A~328Cは、対応するオブジェクトまたは相互作用の音声のためのスペクトログラムマスク328を生成する。スペクトログラムマスク328は、
図3Bの分離されたマスク316に対応する。いくつかの実施形態では、埋め込みベクトル328A~328Cは、2値マスクを使用することによって、エッジに関連付けられる。2値マスクは、混合音声スペクトログラム322に適用されると、関連付けられた音声特徴を生成する。
【0059】
また、スペクトログラムマスクは、混合音声スペクトログラム332からのオブジェクトの音声源分離のために音声エンコーダ‐デコーダ330に提供される。混合音声スペクトログラム332は、混合音声スペクトログラム312に対応する。たとえば、混合音声スペクトログラム332は、ギターおよびピアノなどの楽器に対応する音声の混合物を含む。
【0060】
混合音声スペクトログラム332が音声エンコーダ‐デコーダ330に渡されると、埋め込みベクトル328は、混合音声スペクトログラム332からピアノの音声などの対応するオブジェクトの音声を除去する。ピアノの分離された音声は、出力334として取得される。訓練後、複数のサブネットワーク326は、混合音声スペクトログラム332からオブジェクトの音声を除去するスペクトログラムマスクを生成することを学習する。
【0061】
したがって、シーン把握音声映像表現のグラフ324は、異なるアプリケーションのタスクを行なうためのシステムへの入力として提供される。グラフ324は、十分に接続されたノード324A~324Dを含むため、そのようなグラフを使用するシステムは、新たなタスクを低い計算複雑性および低いストレージ消費で効率的に取り扱うことができるようになる。
【0062】
グラフを使用してタスクを行なうためのシステムは、次に
図4でさらに説明される。
【0063】
図4は、いくつかの例示的な実施形態に従った、シーンの音声映像表現のグラフを使用してタスクを行なうためのシステム400のブロック概略図である。システム400は、音声映像表現グラフ404を格納するメモリ402と、メモリ402に動作可能に接続されたプロセッサ406とを含む。メモリ402は、非一時的メモリであってもよい。音声映像表現グラフ404は、グラフ324に対応する。プロセッサ406は、音声映像表現グラフ404を使用してタスクを行なうように構成される。タスクは、アクション認識、異常検出、音の位置特定および強調、騒々しい背景音の除去、ならびに、システム制御のうちの1つまたはそれらの組合せを含み得る。
【0064】
アクション認識、異常検出、音の位置特定および強調、騒々しい背景音の除去、ならびに、システム制御のうちの1つまたはそれらの組合せは、
図5、
図6、および
図7を参照してさらに説明される。
例示的な実施形態
【0065】
図5は、いくつかの例示的な実施形態に従った、システム400の例示的な使用事例500の実現化例を示す。使用事例500は、セキュリティ監視アプリケーションなどの異常検出アプリケーションに対応する。実例となる例示的なシナリオでは、ある場所502で生じた事象が、その場所502の異なる箇所に設置されたカメラ504Aおよびカメラ504Bなどの1つ以上のカメラによって取り込まれ得る。場所502は、私有地または公有地などの屋内エリアまたは屋外エリアを含み得る。
【0066】
取り込まれた事象は、有線または無線ネットワーク接続を介して、システム400などのシステムへの入力として提供される。システム400は、グラフ404などのシーンの音声映像表現のグラフを使用して、アクションを認識し、異常アクションまたは事象を検出するために、取り込まれた事象を処理する。
【0067】
たとえば、カメラ504Aおよび504Bは、窓506を壊す映像を取り込む。カメラ504Aおよび504Bの各々は、人508が棒で窓506を壊す映像を取り込む。
図5に示されるように、カメラ504Aは人508の前側を取り込み、カメラ504Bは人508の後ろ側を取り込む。そのような事象の取り込まれた映像はシステム400に送信される。システム400は、カメラ504Aおよび504Bの双方によって取り込まれた事象のシーンに対応するグラフを生成する。システム400は、人508のアクションを認識し、グラフに基づいて異常アクションを検出する。
【0068】
それに加えて、またはそれに代えて、システム400は、異常事象を検出するために、窓506を壊す音などの音を位置特定して強調し得る。たとえば、カメラ504Bは、人508の手中の棒を取り込むために閉塞され得る。いくつかの場合、場所502の雰囲気は、カメラ504Aおよび504Bによって映像を取り込む際に影響を与え得る。そのような場合、窓506の破壊音はシステム400に送信され得る。システム400は、破壊音の音の位置特定および強調を行ない、位置特定され強調された破壊音に基づいて異常事象を検出し得る。
【0069】
同様の態様で、システム400は、車両ドライバー支援システムにおいて使用され得る。それは、次に
図6で説明される。
【0070】
図6は、いくつかの他の例示的な実施形態に従った、システム400の例示的な使用事例600の実現化例を示す。使用事例600は、車両604の車両ドライバー支援システム602に対応する。車両604は、自動運転車両、手動運転車両、または半自動運転車両に対応し得る。
【0071】
車両ドライバー支援システム602は、車両604が運転されるときに道路の映像を取り込むダッシュボードカメラ
606などの1つ以上のカメラを含み得る。車両ドライバー支援システム602は、リアカメラ(
図6に図示せず)も含み得る。
【0072】
車両ドライバー支援システム602は、取り込まれた映像をシステム400に送信し得る。システム400は、取り込まれた映像を処理し、車両604のナビゲーションを支援し得る。たとえば、システム400は、車両604の背後にいる救急車などの車両を、救急車車両の音に基づいて検出して識別し得る。車両ドライバー支援システム602は、検出された救急車車両の情報を受信し、車両604のドライバーまたはオペレータに命令し得る。たとえば、ドライバーまたはオペレータは、救急車車両に道を譲るために脇へ動くように命令され得る。それに加えて、またはそれに代えて、命令は、車両ドライバー支援システム602のインターフェイスを介して表示され得る。いくつかの他の場合、命令は、車両ドライバー支援システム602の音声出力を介して与えられ得る。たとえば、命令は、「救急車に道を譲ってください」ということを含み得る。
【0073】
いくつかの場合、救急車車両は、サイレン、ベルなどといった、救急車車両によって生成された音に基づいて検出され得る。
【0074】
図7は、いくつかの他の例示的な実施形態に従った
、システム400の例示的な使用事例700の実現化例を示す。使用事例700は、人間支援システム702に対応する。実例となる例示的なシナリオでは、人704が倒れるかまたは壁にぶつかり得る。人704が倒れた場合、転倒音は小さいかもしれない。また、転倒音はオブジェクト706によって妨害されるかもしれない。オブジェクト706は、犬に対応し得る。人704が倒れると、犬は吠えるかもしれない。
【0075】
人間支援システム702は、人704が倒れて犬706が吠える映像を取り込み得る。いくつかの場合、人間支援システム702は、オブジェクト706による妨害に起因して、人704の転倒を検出できないかもしれない。そのような場合、人間支援システム702は、映像をシステム400に送信し得る。
【0076】
システム400は、人間支援システム702から受信された映像を、メモリ402における音声映像表現グラフ404を使用して処理し得る。たとえば、システム400は、音声映像表現グラフ404に基づいて、妨害音、すなわちオブジェクト706の吠える声を減少させ、人704の転倒音を強調し得る。また、システム400は、強調された転倒音に基づいて異常アクションまたは事象を検出し得る。システム400はまた、転倒を異常アクションとして検出し、検出された異常アクションを人間支援システム702に送信し得る。人間支援システム702は、人704を支援するためにアラートをトリガし得る。たとえば、人間支援システム702は、人704の世話人にアラートメッセージを送信し得る。いくつかの場合、人間支援システム702は、人704の医療支援のための緊急呼出しを発し得る。
【0077】
そのような態様で、システム400は、音声映像表現グラフを使用して、異なるアプリケーションのために使用され得る。音声映像表現グラフは、空間ドメインにおけるオブジェクトの空間的変動と時間ドメインにおけるそれらの進展とを取り込む情報を含み、提供する。空間的変動と時間ドメインにおけるオブジェクトの進展との情報は、異なるアプリケーションの結果の精度を高め得る。また、音声映像表現グラフは、システム400が、新たなタスクを低い計算複雑性および低いストレージ消費で効率的に処理することを可能にし得る。
【0078】
以上の説明は例示的な実施形態を提供するに過ぎず、この開示の範囲、利用可能性、または構成を限定するよう意図されてはいない。むしろ、例示的な実施形態の以上の説明は、1つ以上の例示的な実施形態を実現するための実施可能説明を当業者に提供するであろう。添付された請求項で述べられるように開示された主題の精神および範囲から逸脱することなく、要素の機能および配置において行なわれ得るさまざまな変更が考えられる。
【0079】
実施形態の完全な理解を提供するために、特定の詳細が以上の説明で与えられる。しかしながら、実施形態はこれらの特定の詳細がなくても実践され得ることが、当業者によって理解され得る。たとえば、実施形態を不必要に詳細に述べて不明瞭にすることを避けるために、開示された主題におけるシステム、プロセス、および他の要素は、ブロック図の形式における構成要素として示されてもよい。他の事例では、実施形態を不明瞭にすることを避けるために、周知のプロセス、構造、および手法は、不必要な詳細なく示されてもよい。また、さまざまな図面における同じ参照番号および名称は、同じ要素を示す。
【0080】
また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、またはブロック図として表わされるプロセスとして説明されてもよい。フローチャートは動作を順次プロセスとして説明し得るが、動作の多くは並行してまたは同時に行なわれ得る。加えて、動作の順序は並べ替えられてもよい。プロセスはその動作が完了すると終了し得るが、図面で説明されていない、または図面に含まれていない追加のステップを有していてもよい。さらに、特に説明された任意のプロセスにおける全ての動作が、全ての実施形態において生じるとは限らない。プロセスは、方法、機能、手順、サブルーチン、サブプログラムなどに対応していてもよい。プロセスが機能に対応する場合、その機能の終了は、その機能が呼出機能または主機能に戻ることに対応し得る。
【0081】
さらに、開示された主題の実施形態は、少なくとも部分的に、手動でまたは自動的に実現されてもよい。手動のまたは自動的な実現は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組合せの使用を通して実行されるかまたは少なくとも支援されてもよい。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実現される場合、必要なタスクを行なうためのプログラムコードまたはコードセグメントは、マシン読取可能媒体に格納されてもよい。プロセッサが、必要なタスクを行なってもよい。
【0082】
ここに概説されたさまざまな方法またはプロセスは、さまざまなオペレーティングシステムまたはプラットフォームのうちのいずれか1つを採用する1つ以上のプロセッサ上で実行可能なソフトウェアとして符号化されてもよい。加えて、そのようなソフトウェアは、多くの好適なプログラミング言語および/またはプログラミングツールまたはスクリプト作成ツールのうちのいずれかを使用して書かれてもよく、また、フレームワークまたは仮想マシン上で実行される実行可能マシン語コードまたは中間コードとしてコンパイルされてもよい。典型的には、プログラムモジュールの機能性は、さまざまな実施形態において所望されるように組合されるかまたは分散されてもよい。
【0083】
本開示の実施形態は、その例が提供された方法として具現化されてもよい。当該方法の一部として実行される動作は、任意の好適なやり方で順序付けられてもよい。したがって、例示的な実施形態では連続的な動作として示されていても、動作が例示とは異なる順序で実行される実施形態が構築されてもよい。この場合、いくつかの動作を同時に実行することも含まれてもよい。また、請求項要素を修飾するための、請求項における「第1」、「第2」などの序数用語の使用は、それ自体、ある請求項要素の、別の請求項要素に対する優先順位、優位性、または順序、あるいは、方法の動作が行なわれる時間的順序を何ら暗示しておらず、単に、ある名前を有するある請求項要素を、(序数用語の使用を除き)同じ名前を有する別の要素から区別するために、これらの請求項要素を区別するラベルとして使用されているに過ぎない。
【0084】
本開示を、ある好ましい実施形態を参照して説明してきたが、本開示の精神および範囲内で他のさまざまな適合および変更が実施可能であることが理解されるべきである。したがって、添付された請求項の局面は、本開示の真の精神および範囲内に収まるようにそのような変形および変更を全て網羅することである。