IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 深▲せん▼市商▲湯▼科技有限公司の特許一覧

特表2022-542287オーディオビデオ情報処理方法及び装置、電子機器並びに記憶媒体
<>
  • 特表-オーディオビデオ情報処理方法及び装置、電子機器並びに記憶媒体 図1
  • 特表-オーディオビデオ情報処理方法及び装置、電子機器並びに記憶媒体 図2
  • 特表-オーディオビデオ情報処理方法及び装置、電子機器並びに記憶媒体 図3
  • 特表-オーディオビデオ情報処理方法及び装置、電子機器並びに記憶媒体 図4
  • 特表-オーディオビデオ情報処理方法及び装置、電子機器並びに記憶媒体 図5
  • 特表-オーディオビデオ情報処理方法及び装置、電子機器並びに記憶媒体 図6
  • 特表-オーディオビデオ情報処理方法及び装置、電子機器並びに記憶媒体 図7
  • 特表-オーディオビデオ情報処理方法及び装置、電子機器並びに記憶媒体 図8
  • 特表-オーディオビデオ情報処理方法及び装置、電子機器並びに記憶媒体 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-09-30
(54)【発明の名称】オーディオビデオ情報処理方法及び装置、電子機器並びに記憶媒体
(51)【国際特許分類】
   G06F 16/783 20190101AFI20220922BHJP
   G06T 7/00 20170101ALI20220922BHJP
   G06V 10/74 20220101ALI20220922BHJP
   G10L 25/18 20130101ALI20220922BHJP
   G10L 25/57 20130101ALI20220922BHJP
【FI】
G06F16/783
G06T7/00 660A
G06V10/74
G10L25/18
G10L25/57
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022505571
(86)(22)【出願日】2019-11-26
(85)【翻訳文提出日】2022-01-27
(86)【国際出願番号】 CN2019121000
(87)【国際公開番号】W WO2021056797
(87)【国際公開日】2021-04-01
(31)【優先権主張番号】201910927318.7
(32)【優先日】2019-09-27
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.SMALLTALK
(71)【出願人】
【識別番号】519453342
【氏名又は名称】深▲せん▼市商▲湯▼科技有限公司
【氏名又は名称原語表記】SHENZHEN SENSETIME TECHNOLOGY CO., LTD.
【住所又は居所原語表記】Room 201, Building A, No. 1, Qianwan Road, Qianhai Shenzhen-Hongkong Modern Service Industry Cooperation Zone Shenzhen, Guangdong 518000 (CN)
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】黄学峰
(72)【発明者】
【氏名】▲呉▼立威
(72)【発明者】
【氏名】▲張▼瑞
【テーマコード(参考)】
5B175
5L096
【Fターム(参考)】
5B175DA04
5B175FA01
5B175FB03
5L096DA02
5L096HA08
5L096HA11
5L096JA11
(57)【要約】
本願は、オーディオビデオ情報処理方法及び装置、電子機器並びに記憶媒体に関する。前記方法は、オーディオビデオファイルのオーディオ情報及びビデオ情報を取得することと、前記オーディオ情報の時間情報及び前記ビデオ情報の時間情報に基づいて、前記オーディオ情報のスペクトル特徴及び前記ビデオ情報のビデオ特徴を特徴融合し、融合特徴を得ることと、前記融合特徴に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定することと、を含む。
【特許請求の範囲】
【請求項1】
オーディオビデオ情報処理方法であって、前記方法は、
オーディオビデオファイルのオーディオ情報及びビデオ情報を取得することと、
前記オーディオ情報の時間情報及び前記ビデオ情報の時間情報に基づいて、前記オーディオ情報のスペクトル特徴及び前記ビデオ情報のビデオ特徴を特徴融合し、融合特徴を得ることと、
前記融合特徴に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定することと、を含む、オーディオビデオ情報処理方法。
【請求項2】
前記方法は、
前記オーディオ情報を所定の第1時間ステップ幅に応じて分割し、少なくとも1つのオーディオセグメントを得ることと、
各オーディオセグメントの周波数分布を決定することと、
前記少なくとも1つのオーディオセグメントの周波数分布をステッチングし、前記オーディオ情報に対応するスペクトログラムを得ることと、
前記スペクトログラムに対して特徴抽出を行い、前記オーディオ情報のスペクトル特徴を得ることと、を更に含むことを特徴とする
請求項1に記載の方法。
【請求項3】
各オーディオセグメントの周波数分布を決定することは、
各オーディオセグメントに対してウィンドウイング処理を行い、各ウィンドウイングされたオーディオセグメントを得ることと、
各ウィンドウイングされたオーディオセグメントに対してフーリエ変換を行い、前記少なくとも1つのオーディオセグメントのうちの各オーディオセグメントの周波数分布を得ることと、を含むことを特徴とする
請求項2に記載の方法。
【請求項4】
前記方法は、
前記ビデオ情報における各ビデオフレームに対して顔認識を行い、各前記ビデオフレームの顔画像を決定することと、
前記顔画像におけるターゲットキーポイントの所在する画像領域を取得し、前記ターゲットキーポイントのターゲット画像を得ることと、
前記ターゲット画像に対して特徴抽出を行い、前記ビデオ情報のビデオ特徴を得ることと、を更に含むことを特徴とする
請求項1から3のうちいずれか一項に記載の方法。
【請求項5】
前記顔画像におけるターゲットキーポイントの所在する画像領域を取得し、前記ターゲットキーポイントのターゲット画像を得ることは、
前記顔画像におけるターゲットキーポイントの所在する画像領域を所定の画像サイズにスケーリングし、前記ターゲットキーポイントのターゲット画像を得ることを含むことを特徴とする
請求項4に記載の方法。
【請求項6】
前記ターゲットキーポイントは、唇部キーポイントであり、前記ターゲット画像は、唇部画像であることを特徴とする
請求項4又は5に記載の方法。
【請求項7】
前記オーディオ情報の時間情報及び前記ビデオ情報の時間情報に基づいて、前記オーディオ情報のスペクトル特徴及び前記ビデオ情報のビデオ特徴を特徴融合し、融合特徴を得ることは、
前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得ることと、
前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得ることであって、各第1特徴の時間情報は、各第2特徴の時間情報とマッチングする、ことと、
時間情報がマッチングする第1特徴と第2特徴を特徴融合し、複数の融合特徴を得ることと、を含むことを特徴とする
請求項1から6のうちいずれか一項に記載の方法。
【請求項8】
前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得ることは、
所定の第2時間ステップ幅に応じて、前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得ること、又は、
ターゲット画像フレームのフレーム数に応じて、前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得ることを含むことを特徴とする
請求項7に記載の方法。
【請求項9】
前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得ることは、
所定の第2時間ステップ幅に応じて、前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得ること、又は、
前記ターゲット画像フレームのフレーム数に応じて、前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得ることを含むことを特徴とする
請求項8に記載の方法。
【請求項10】
前記オーディオ情報の時間情報及び前記ビデオ情報の時間情報に基づいて、前記オーディオ情報のスペクトル特徴及び前記ビデオ情報のビデオ特徴を特徴融合し、融合特徴を得ることは、
ターゲット画像フレームのフレーム数に応じて、前記オーディオ情報に対応するスペクトログラムを分割し、少なくとも1つのスペクトログラムセグメントを得ることであって、各スペクトログラムセグメントの時間情報は、各前記ターゲット画像フレームの時間情報とマッチングする、ことと、
各スペクトログラムセグメントに対して特徴抽出を行い、各第1特徴を得ることと、
各前記ターゲット画像フレームに対して特徴抽出を行い、各第2特徴を得ることと、
時間情報がマッチングする第1特徴と第2特徴を特徴融合し、複数の融合特徴を得ることと、を含むことを特徴とする
請求項1から6のうちいずれか一項に記載の方法。
【請求項11】
前記融合特徴に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定することは、
各融合特徴の時間情報の順番に応じて、異なる時系列ノードを利用して各融合特徴に対して特徴抽出を行うことであって、次の時系列ノードは、直前の時系列ノードの処理結果を入力とする、ことと、
頭尾時系列ノードから出力された処理結果を取得し、前記処理結果に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定することと、を含むことを特徴とする
請求項1から10のうちいずれか一項に記載の方法。
【請求項12】
前記融合特徴に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定することは、
時間次元で、前記融合特徴に対して少なくとも一段階の特徴抽出を行い、前記少なくとも一段階の特徴抽出を行った後の処理結果を得ることであって、各段階の特徴抽出は、畳み込み処理及び全結合処理を含む、ことと、
前記少なくとも一段階の特徴抽出を行った後の処理結果に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定することと、を含むことを特徴とする
請求項1から10のうちいずれか一項に記載の方法。
【請求項13】
オーディオビデオ情報処理装置であって、前記装置は、
オーディオビデオファイルのオーディオ情報及びビデオ情報を取得するように構成される取得モジュールと、
前記オーディオ情報の時間情報及び前記ビデオ情報の時間情報に基づいて、前記オーディオ情報のスペクトル特徴及び前記ビデオ情報のビデオ特徴を特徴融合し、融合特徴を得るように構成される融合モジュールと、
前記融合特徴に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定するように構成される判定モジュールと、を備える、オーディオビデオ情報処理装置。
【請求項14】
前記装置は、
前記オーディオ情報を所定の時間ステップ幅に応じて分割し、少なくとも1つのオーディオセグメントを得て、各オーディオセグメントの周波数分布を決定し、前記少なくとも1つのオーディオセグメントの周波数分布をステッチングし、前記オーディオ情報に対応するスペクトログラムを得て、前記スペクトログラムに対して特徴抽出を行い、前記オーディオ情報のスペクトル特徴を得るように構成される第1決定モジュールを更に備えることを特徴とする
請求項13に記載の装置。
【請求項15】
前記第1決定モジュールは具体的には、
前記オーディオ情報を所定の第1時間ステップ幅に応じて分割し、少なくとも1つの初期セグメントを得て、
各初期セグメントに対してウィンドウイング処理を行い、各ウィンドウイングされた初期セグメントを得て、
各ウィンドウイングされた初期セグメントに対してフーリエ変換を行い、前記少なくとも1つのオーディオセグメントのうちの各オーディオセグメントを得るように構成されることを特徴とする
請求項14に記載の装置。
【請求項16】
前記装置は、
前記ビデオ情報における各ビデオフレームに対して顔認識を行い、各前記ビデオフレームの顔画像を決定し、前記顔画像におけるターゲットキーポイントの所在する画像領域を取得し、前記ターゲットキーポイントのターゲット画像を得て、前記ターゲット画像に対して特徴抽出を行い、前記ビデオ情報のビデオ特徴を得るように構成される第2決定モジュールを更に備えることを特徴とする
請求項13から15のうちいずれか一項に記載の装置。
【請求項17】
前記第2決定モジュールは具体的には、前記顔画像におけるターゲットキーポイントの所在する画像領域を所定の画像サイズにスケーリングし、前記ターゲットキーポイントのターゲット画像を得るように構成されることを特徴とする
請求項16に記載の装置。
【請求項18】
前記ターゲットキーポイントは、唇部キーポイントであり、前記ターゲット画像は、唇部画像であることを特徴とする
請求項16又は17に記載の装置。
【請求項19】
前記融合モジュールは具体的には、
前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得て、
前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得て、各第1特徴の時間情報は、各第2特徴の時間情報とマッチングし、
時間情報がマッチングする第1特徴と第2特徴を特徴融合し、複数の融合特徴を得るように構成されることを特徴とする
請求項13から18のうちいずれか一項に記載の装置。
【請求項20】
前記融合モジュールは具体的には、
所定の第2時間ステップ幅に応じて、前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得、又は、
ターゲット画像フレームのフレーム数に応じて、前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得るように構成されることを特徴とする
請求項19に記載の装置。
【請求項21】
前記融合モジュールは具体的には、
所定の第2時間ステップ幅に応じて、前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得、又は、
前記ターゲット画像フレームのフレーム数に応じて、前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得るように構成されることを特徴とする
請求項20に記載の装置。
【請求項22】
前記融合モジュールは具体的には、
ターゲット画像フレームのフレーム数に応じて、前記オーディオ情報に対応するスペクトログラムを分割し、少なくとも1つのスペクトログラムセグメントを得て、各スペクトログラムセグメントの時間情報は、各前記ターゲット画像フレームの時間情報とマッチングし、
各スペクトログラムセグメントに対して特徴抽出を行い、各第1特徴を得て、
各前記ターゲット画像フレームに対して特徴抽出を行い、各第2特徴を得て、
時間情報がマッチングする第1特徴と第2特徴を特徴融合し、複数の融合特徴を得るように構成されることを特徴とする
請求項13から18のうちいずれか一項に記載の装置。
【請求項23】
前記判定モジュールは具体的には、
各融合特徴の時間情報の順番に応じて、異なる時系列ノードを利用して各融合特徴に対して特徴抽出を行い、次の時系列ノードは、直前の時系列ノードの処理結果を入力とし、
頭尾時系列ノードから出力された処理結果を取得し、前記処理結果に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定するように構成されることを特徴とする
請求項13から22のうちいずれか一項に記載の装置。
【請求項24】
前記判定モジュールは具体的には、
時間次元で、前記融合特徴に対して少なくとも一段階の特徴抽出を行い、前記少なくとも一段階の特徴抽出を行った後の処理結果を得て、各段階の特徴抽出は、畳み込み処理及び全結合処理を含み、
前記少なくとも一段階の特徴抽出を行った後の処理結果に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定するように構成されることを特徴とする
請求項13から22のうちいずれか一項に記載の装置。
【請求項25】
電子機器であって、前記電子機器は、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリと備え、
前記プロセッサは、前記メモリに記憶される命令を呼び出し、請求項1から12のうちいずれか一項に記載の方法を実行するように構成される、電子機器。
【請求項26】
コンピュータ可読記憶媒体であって、コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行される時、請求項1から12のうちいずれか一項に記載の方法を実現させる、コンピュータ可読記憶媒体。
【請求項27】
コンピュータプログラムであって、前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される時、前記電子機器におけるプロセッサに、請求項1から12のうちいずれか一項に記載の方法を実行させる、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本願は、2019年09月27日に中国特許局に提出された出願番号201910927318.7、出願名称が「オーディオビデオ情報処理方法及び装置、電子機器並びに記憶媒体」である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
【0002】
本願は、電子技術分野に関し、特にオーディオビデオ情報処理方法及び装置、電子機器並びに記憶媒体に関する。
【背景技術】
【0003】
多数のオーディオビデオファイルは、オーディオビデオファイルが、オーディオ情報及びビデオ情報からなるものであってもよい。幾つかの生体検知シーンにおいて、ユーザが指示に応じて録画したオーディオビデオファイルにより、ユーザの身元を検証することができる。例えば、ユーザに所定のアレイ配列のオーディオビデオファイルを朗読させることで検証を行う。一般的な攻撃手段は、偽造されたオーディオビデオファイルにより攻撃を行うことである。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本願は、オーディオビデオ情報処理の技術的解決手段を提供する。
【課題を解決するための手段】
【0005】
本願の一態様によれば、オーディオビデオ情報処理方法を提供する。前記方法は、
オーディオビデオファイルのオーディオ情報及びビデオ情報を取得することと、前記オーディオ情報の時間情報及び前記ビデオ情報の時間情報に基づいて、前記オーディオ情報のスペクトル特徴及び前記ビデオ情報のビデオ特徴を特徴融合し、融合特徴を得ることと、前記融合特徴に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定することと、を含む。
【0006】
可能な実現形態において、前記方法は、
前記オーディオ情報を所定の時間ステップ幅に応じて分割し、少なくとも1つのオーディオセグメントを得ることと、各オーディオセグメントの周波数分布を決定することと、前記少なくとも1つのオーディオセグメントの周波数分布をステッチングし、前記オーディオ情報に対応するスペクトログラムを得ることと、前記スペクトログラムに対して特徴抽出を行い、前記オーディオ情報のスペクトル特徴を得ることと、を更に含む。
【0007】
可能な実現形態において、前記オーディオ情報を所定の時間ステップ幅に応じて分割し、少なくとも1つのオーディオセグメントを得ることは、
前記オーディオ情報を所定の第1時間ステップ幅に応じて分割し、少なくとも1つの初期セグメントを得ることと、各初期セグメントに対してウィンドウイング処理を行い、各ウィンドウイングされた初期セグメントを得ることと、各ウィンドウイングされた初期セグメントに対してフーリエ変換を行い、前記少なくとも1つのオーディオセグメントのうちの各オーディオセグメントを得ることと、を含む。
【0008】
可能な実現形態において、前記方法は、
前記ビデオ情報における各ビデオフレームに対して顔認識を行い、各前記ビデオフレームの顔画像を決定することと、前記顔画像におけるターゲットキーポイントの所在する画像領域を取得し、前記ターゲットキーポイントのターゲット画像を得ることと、前記ターゲット画像に対して特徴抽出を行い、前記ビデオ情報のビデオ特徴を得ることと、を更に含む。
【0009】
可能な実現形態において、前記顔画像におけるターゲットキーポイントの所在する画像領域を取得し、前記ターゲットキーポイントのターゲット画像を得ることは、
前記顔画像におけるターゲットキーポイントの所在する画像領域を所定の画像サイズにスケーリングし、前記ターゲットキーポイントのターゲット画像を得ることを含む。
【0010】
可能な実現形態において、前記ターゲットキーポイントは、唇部キーポイントであり、前記ターゲット画像は、唇部画像である。
【0011】
可能な実現形態において、前記オーディオ情報の時間情報及び前記ビデオ情報の時間情報に基づいて、前記オーディオ情報のスペクトル特徴及び前記ビデオ情報のビデオ特徴を特徴融合し、融合特徴を得ることは、
前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得ることと、前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得ることであって、各第1特徴の時間情報は、各第2特徴の時間情報とマッチングする、ことと、時間情報がマッチングする第1特徴と第2特徴を特徴融合し、複数の融合特徴を得ることと、を含む。
【0012】
可能な実現形態において、前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得ることは、
所定の第2時間ステップ幅に応じて、前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得ること、又は、前記ターゲット画像フレームのフレーム数に応じて、前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得ることを含む。
【0013】
可能な実現形態において、前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得ることは、
所定の第2時間ステップ幅に応じて、前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得ること、又は、前記ターゲット画像フレームのフレーム数に応じて、前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得ることを含む。
【0014】
可能な実現形態において、前記オーディオ情報の時間情報及び前記ビデオ情報の時間情報に基づいて、前記オーディオ情報のスペクトル特徴及び前記ビデオ情報のビデオ特徴を特徴融合し、融合特徴を得ることは、
前記ターゲット画像フレームのフレーム数に応じて、前記オーディオ情報に対応するスペクトログラムを分割し、少なくとも1つのスペクトログラムセグメントを得ることであって、各スペクトログラムセグメントの時間情報は、各前記ターゲット画像フレームの時間情報とマッチングする、ことと、各スペクトログラムセグメントに対して特徴抽出を行い、各第1特徴を得ることと、各前記ターゲット画像フレームに対して特徴抽出を行い、各第2特徴を得ることと、時間情報がマッチングする第1特徴と第2特徴を特徴融合し、複数の融合特徴を得ることと、を含む。
【0015】
可能な実現形態において、前記融合特徴に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定することは、
各融合特徴の時間情報の順番に応じて、異なる時系列ノードを利用して各融合特徴に対して特徴抽出を行うことであって、次の時系列ノードは、直前の時系列ノードの処理結果を入力とする、ことと、頭尾時系列ノードから出力された処理結果を取得し、前記処理結果に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定することと、を含む。
【0016】
可能な実現形態において、前記融合特徴に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定することは、
時間次元で、前記融合特徴に対して少なくとも一段階の特徴抽出を行い、前記少なくとも一段階の特徴抽出を行った後の処理結果を得ることであって、各段階の特徴抽出は、畳み込み処理及び全結合処理を含む、ことと、前記少なくとも一段階の特徴抽出を行った後の処理結果に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定することと、を含む。
【0017】
本願の一態様によれば、オーディオビデオ情報処理装置を提供する。前記装置は、
オーディオビデオファイルのオーディオ情報及びビデオ情報を取得するように構成される取得モジュールと、
前記オーディオ情報の時間情報及び前記ビデオ情報の時間情報に基づいて、前記オーディオ情報のスペクトル特徴及び前記ビデオ情報のビデオ特徴を特徴融合し、融合特徴を得るように構成される融合モジュールと、
前記融合特徴に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定するように構成される判定モジュールと、を備える。
【0018】
可能な実現形態において、前記装置は、
前記オーディオ情報を所定の時間ステップ幅に応じて分割し、少なくとも1つのオーディオセグメントを得て、各オーディオセグメントの周波数分布を決定し、前記少なくとも1つのオーディオセグメントの周波数分布をステッチングし、前記オーディオ情報に対応するスペクトログラムを得て、前記スペクトログラムに対して特徴抽出を行い、前記オーディオ情報のスペクトル特徴を得るように構成される第1決定モジュールを更に備える。
【0019】
可能な実現形態において、前記第1決定モジュールは具体的には、前記オーディオ情報を所定の第1時間ステップ幅に応じて分割し、少なくとも1つの初期セグメントを得て、各初期セグメントに対してウィンドウイング処理を行い、各ウィンドウイングされた初期セグメントを得て、各ウィンドウイングされた初期セグメントに対してフーリエ変換を行い、前記少なくとも1つのオーディオセグメントのうちの各オーディオセグメントを得るように構成される。
【0020】
可能な実現形態において、前記装置は、
前記ビデオ情報における各ビデオフレームに対して顔認識を行い、各前記ビデオフレームの顔画像を決定し、前記顔画像におけるターゲットキーポイントの所在する画像領域を取得し、前記ターゲットキーポイントのターゲット画像を得て、前記ターゲット画像に対して特徴抽出を行い、前記ビデオ情報のビデオ特徴を得るように構成される第2決定モジュールを更に備える。
【0021】
可能な実現形態において、前記第2決定モジュールは具体的には、前記顔画像におけるターゲットキーポイントの所在する画像領域を所定の画像サイズにスケーリングし、前記ターゲットキーポイントのターゲット画像を得るように構成される。
【0022】
可能な実現形態において、前記ターゲットキーポイントは、唇部キーポイントであり、前記ターゲット画像は、唇部画像である。
【0023】
可能な実現形態において、前記融合モジュールは具体的には、前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得て、前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得て、各第1特徴の時間情報は、各第2特徴の時間情報とマッチングし、時間情報がマッチングする第1特徴と第2特徴を特徴融合し、複数の融合特徴を得るように構成される。
【0024】
可能な実現形態において、前記融合モジュールは具体的には、所定の第2時間ステップ幅に応じて、前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得、又は、前記ターゲット画像フレームのフレーム数に応じて、前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得るように構成される。
【0025】
可能な実現形態において、前記融合モジュールは具体的には、所定の第2時間ステップ幅に応じて、前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得、又は、前記ターゲット画像フレームのフレーム数に応じて、前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得るように構成される。
【0026】
可能な実現形態において、前記融合モジュールは具体的には、前記ターゲット画像フレームのフレーム数に応じて、前記オーディオ情報に対応するスペクトログラムを分割し、少なくとも1つのスペクトログラムセグメントを得て、各スペクトログラムセグメントの時間情報は、各前記ターゲット画像フレームの時間情報とマッチングし、各スペクトログラムセグメントに対して特徴抽出を行い、各第1特徴を得て、各前記ターゲット画像フレームに対して特徴抽出を行い、各第2特徴を得て、時間情報がマッチングする第1特徴と第2特徴を特徴融合し、複数の融合特徴を得るように構成される。
【0027】
可能な実現形態において、前記判定モジュールは具体的には、各融合特徴の時間情報の順番に応じて、異なる時系列ノードを利用して各融合特徴に対して特徴抽出を行い、次の時系列ノードは、直前の時系列ノードの処理結果を入力とし、頭尾時系列ノードから出力された処理結果を取得し、前記処理結果に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定するように構成される。
【0028】
可能な実現形態において、前記判定モジュールは具体的には、時間次元で、前記融合特徴に対して少なくとも一段階の特徴抽出を行い、前記少なくとも一段階の特徴抽出を行った後の処理結果を得て、各段階の特徴抽出は、畳み込み処理及び全結合処理を含み、前記少なくとも一段階の特徴抽出を行った後の処理結果に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定するように構成される。
【0029】
本願の一態様によれば、電子機器を提供する。前記電子機器は、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリと備え、
前記プロセッサは、上記オーディオビデオ情報処理方法を実行するように構成される。
【0030】
本願の一態様によれば、コンピュータ可読記憶媒体を提供する。該コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行される時、上記オーディオビデオ情報処理方法を実現させる。
【0031】
本願の一態様によれば、コンピュータプログラムを提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される時、前記電子機器におけるプロセッサは、上記オーディオビデオ情報処理方法を実行する。
【発明の効果】
【0032】
上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本願を限定するものではないことが理解されるべきである。
【0033】
本発明の他の特徴及び態様は、下記の図面に基づく例示的な実施例の詳細な説明を参照すれば明らかになる。
【図面の簡単な説明】
【0034】
図1】本願の実施例によるオーディオビデオ情報処理方法を示すフローチャートである。
図2】本願の実施例によるオーディオ情報のスペクトル特徴の取得プロセスを示すフローチャートである。
図3】本願の実施例によるビデオ情報のビデオ特徴の取得プロセスを示すフローチャートである。
図4】本願の実施例による融合特徴取得プロセスを示すフローチャートである。
図5】本願の実施例によるニューラルネットワークの一例を示すブロック図である。
図6】本願の実施例によるニューラルネットワークの一例を示すブロック図である。
図7】本願の実施例によるニューラルネットワークの一例を示すブロック図である。
図8】本願の実施例によるオーディオビデオ情報処理装置を示すブロック図である。
図9】本願の実施例による電子機器の例を示すブロック図である。
【0035】
ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本発明に適合する実施例を示し、かつ、明細書とともに本願の技術的解決手段を解釈することに用いられる。
【発明を実施するための形態】
【0036】
以下、図面を参照しながら本願の種々の例示的な実施例、特徴及び態様を詳しく説明する。図面における同一の符号は、同一または類似する機能を有する要素を示す。図面は、実施例の種々の態様を示しているが、特別な説明がない限り、必ずしも比率どおりの図面ではない。
【0037】
ここで使用した「例示的」という用語は「例、実施例として用いられるか、または説明のためのものである」ことを意味する。ここで、「例示的なもの」として説明される如何なる実施例は、他の実施例より好適または有利であると必ずしも解釈されるべきではない。
【0038】
本明細書において、用語「及び/又は」は、関連対象の関連関係を説明するためのものであり、3通りの関係が存在することを表す。例えば、A及び/又はBは、Aのみが存在すること、AとBが同時に存在すること、Bのみが存在するという3つの場合を表す。また、本明細書において、用語「少なくとも1つ」は、複数のうちのいずれか1つ又は複数のうちの少なくとも2つの任意の組み合わせを表す。例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCからなる集合から選ばれるいずれか1つ又は複数の要素を含むことを表す。
【0039】
なお、本願をより良く説明するために、以下の具体的な実施形態において具体的な細部を多く記載した。当業者は、これら具体的な詳細に関わらず、本開示は同様に実施可能であると理解すべきである。本発明の主旨を明確にするために、一部の実例において、当業者に熟知されている方法、手段、素子及び回路については詳しく説明しないことにする。
【0040】
本願の実施例で提供されるオーディオビデオ情報処理方案は、オーディオビデオファイルのオーディオ情報及びビデオ情報を取得し、続いて、オーディオ情報の時間情報及びビデオ情報の時間情報に基づいて、オーディオ情報のスペクトル特徴及びビデオ情報のビデオ特徴を特徴融合し、融合特徴を得ることができる。これにより、スペクトル特徴とビデオ特徴を融合する時に、時間的アライメントを確保し、正確な融合特徴を得ることができる。また、融合特徴に基づいて、オーディオ情報とビデオ情報が同期しているかどうかを判定することで、判定結果の正確性を向上させることができる。
【0041】
関連方案において、オーディオビデオファイル生成プロセスにおいて、オーディオ情報及びビデオ情報に対してそれぞれタイムスタンプを設定することができる。これにより、受信側は、タイムスタンプにより、オーディオ情報とビデオ情報が同期しているかどうかを判定することができる。このような方案は、オーディオビデオファイルの生成側に対する制限権を必要とする。しかしながら、オーディオビデオファイルの生成側に対する制御権を確保できないことが多く、適用過程においてこのような方案は、制約されてしまう。もう1つの関連方案において、オーディオ情報及びビデオ情報に対してそれぞれ検出を行い、続いて、ビデオ情報の時間情報とオーディオ情報の時間情報のマッチング度合いを算出する。このような方案における判定プロセスが複雑であり、且つ精度が低い。本願の実施例で提供されるオーディオビデオ情報処理方案において、判定プロセスが相対的簡単であり、判定結果が正確である。
【0042】
本願の実施例で提供されるオーディオビデオ情報処理方案は、例えば、オーディオビデオファイルに対する補正、また例えば、オーディオビデオファイルのオーディオ情報とビデオ情報とのオフセットの決定のような、オーディオビデオ情報におけるオーディオ情報とビデオ情報が同期しているかどうかを判定する如何なるシーンに適用可能である。幾つかの実施形態において、オーディオビデオ情報を利用して生体を判定するタスクにも適用可能である。本願の実施例で提供されるオーディオビデオ情報処理方案は、適用シーンに制約されないことに留意されたい。
【0043】
以下、本願の実施例で提供されるオーディオビデオ情報処理方案を説明する。
【0044】
図1は、本願の実施例によるオーディオビデオ情報処理方法を示すフローチャートである。該オーディオビデオ情報処理方法は、端末装置又は他のタイプの電子機器により実行されてもよい。ここで、端末装置は、ユーザ装置(User Equipment:UE)、携帯機器、ユーザ端末、端末、セルラ電話、コードレス電話、パーソナルデジタルアシスタント(Personal Digital Assistant:PDA)、ハンドヘルドデバイス、コンピューティングデバイス、車載機器、ウェアブル機器などであってもよい。幾つかの可能な実現形態において、該オーディオビデオ情報処理方法は、プロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出すことで実現することができる。以下、電子機器を実行主体として本願の実施例のオーディオビデオ情報処理方法を説明する。
【0045】
図1に示すように、前記オーディオビデオ情報処理方法は、下記ステップを含んでもよい。
【0046】
ステップS11において、オーディオビデオファイルのオーディオ情報及びビデオ情報を取得する。
【0047】
本願の実施例において、電子機器は、他の装置から送信されたオーディオビデオファイルを受信するか、又は、ローカルに記憶されるオーディオビデオファイルを取得する。続いて、オーディオビデオファイルにおけるオーディオ情報及びビデオ情報を抽出することができる。ここで、オーディオファイルのオーディオ情報は、収集されたレベル信号の大きさで表されてもよい。つまり、経時的に変動する高低レベル値で音声強度を表す信号であってもよい。高レベルと低レベルは、参照レベルに対するものである。例えば、参照レベルが0ボルトである場合、0ボルトより高いレベルは、高レベルと認められ、0ボルトより低いレベルは、低レベルと認められる。オーディオ情報のレベル値が高レベルであると、音声強度が参照音声強度以上であることを表す。オーディオ情報のレベル値が低レベルであると、音声強度が参照音声強度未満であることを表す。参照音声強度は、参照レベルに対応する。幾つかの実施形態において、オーディオ情報は、アナログ信号であってもよく、即ち、音声強度が経時的に連続変動する信号であってもよい。ここで、ビデオ情報は、ビデオフレームシーケンスであってもよく、複数のビデオフレームを含んでもよく、複数のビデオフレームは、時間情報の順番に応じて配列されてもよい。
【0048】
オーディオ情報は、対応する時間情報を持ち、対応的に、ビデオ情報は、対応する時間情報を持ち、オーディオ情報及びビデオ情報が同一のオーディオビデオファイルからのものであるため、オーディオ情報とビデオ情報が同期しているかどうかを判定することは、同じ時間情報を持つオーディオ情報とビデオ情報がマッチングしているかどうかを判定すると理解されてもよいことに留意されたい。
【0049】
ステップS12において、前記オーディオ情報の時間情報及び前記ビデオ情報の時間情報に基づいて、前記オーディオ情報のスペクトル特徴及び前記ビデオ情報のビデオ特徴を特徴融合し、融合特徴を得る。
【0050】
本願の実施例において、オーディオ情報に対して特徴抽出を行い、オーディオ情報のスペクトル特徴を得て、オーディオ情報の時間情報に基づいて、スペクトル特徴の時間情報を決定することができる。対応的に、ビデオ情報に対して特徴抽出を行い、ビデオ情報のビデオ特徴を得て、ビデオ情報の時間情報に基づいて、ビデオ特徴の時間情報を決定することができる。続いて、スペクトル特徴の時間情報及びビデオ特徴の時間情報に基づいて、同じ時間情報を持つスペクトル特徴及びビデオ特徴を特徴融合し、融合特徴を得る。ここで、同じ時間情報を持つスペクトル特徴及びビデオ特徴を特徴融合することができるため、特徴融合時、スペクトル特徴とビデオ特徴を時間的にアライメントすることを確保し、得られた融合特徴の正確性をより高くすることができる。
【0051】
ステップS13において、前記融合特徴に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定する。
【0052】
本願の実施例において、ニューラルネットワークを利用して融合特徴を処理することができる。また、他の方式で融合特徴を処理することもでき、ここで、これを限定しない。例えば、融合特徴に対して、畳み込み処理、全結合処理、正規化操作などを行うことで、オーディオ情報とビデオ情報が同期するかどうかの判定の判定結果を得ることができる。ここで、判定結果は、オーディオ情報とビデオ情報との同期を表す確率であってもよい。判定結果は1に近づくと、オーディオ情報とビデオ情報が同期していることを表す。判定結果は、0に近づくと、オーディオ情報とビデオ情報が同期しないことを表す。従って、融合特徴により、正確性の高い判定結果を得て、オーディオ情報とビデオ情報が同期しているかどうかの判定の正確性を向上させることができる。例えば、本願の実施例で提供されるオーディオビデオ情報処理方法で、リップシンクが取れていないビデオを判別することができる。ビデオウェブサイトなどのシーンに適用される場合、リップシンクが取れていない低品質ビデオをスクリーニングすることができる。
【0053】
本願の実施例において、オーディオビデオファイルのオーディオ情報及びビデオ情報を取得し、続いて、オーディオ情報の時間情報及びビデオ情報の時間情報に基づいて、オーディオ情報のスペクトル特徴及びビデオ情報のビデオ特徴を特徴融合し、融合特徴を得て、更に、前記融合特徴に基づいて、オーディオ情報とビデオ情報が同期しているかどうかを判定する。従って、オーディオファイルのオーディオ情報とビデオ情報が同期しているかどうかを判定する場合、オーディオ情報の時間情報及びビデオ情報の時間情報を利用してスペクトル特徴とビデオ特徴をアライメントさせ、判定結果の正確性を向上させることができ、且つ判定方法が簡単で実行しやすい。
【0054】
本願の実施例において、オーディオ情報は、レベル信号であってもよい。オーディオ情報のレベル値及び時間情報に基づいて、オーディオ情報の周波数分布を決定し、オーディオ情報の周波数分布に基づいて、オーディオ情報に対応するスペクトログラムを決定し、スペクトログラムから、オーディオ情報のスペクトル特徴を得ることができる。
【0055】
図2は、本願の実施例によるオーディオ情報のスペクトル特徴の取得プロセスを示すフローチャートである。
【0056】
可能な実現形態において、上記オーディオビデオ情報処理方法は、下記ステップを更に含んでもよい。
【0057】
S21において、前記オーディオ情報を所定の第1時間ステップ幅に応じて分割し、少なくとも1つのオーディオセグメントを得る。
【0058】
S22において、各オーディオセグメントの周波数分布を決定する。
【0059】
S23において、前記少なくとも1つのオーディオセグメントの周波数分布をステッチングし、前記オーディオ情報に対応するスペクトログラムを得る。
【0060】
S24において、前記スペクトログラムに対して特徴抽出を行い、前記オーディオ情報のスペクトル特徴を得る。
【0061】
該実現形態において、オーディオ情報を所定の第1時間ステップ幅に応じて分割し、複数のオーディオセグメントを得ることができる。各オーディオセグメントは、1つの第1時間ステップ幅に対応する。第1時間ステップ幅は、オーディオ情報サンプリングの時間間隔と同じであってもよい。例えば、0.005秒の時間ステップ幅でオーディオ情報を分割し、n個のオーディオセグメントを得る。nは、正整数である。対応的に、ビデオ情報をサンプリングしてn個のビデオフレームを得ることもできる。続いて、各オーディオセグメントの周波数分布を決定する。つまり、各オーディオセグメントの周波数が時間情報の変動に伴って変換する分布を決定する。続いて、各オーディオセグメントの時間情報の順番に応じて、各オーディオセグメントの周波数分布をステッチングし、オーディオ情報に対応する周波数分布を得る。得られたオーディオ情報に対応する周波数分布を画像で現わすことで、オーディオ情報に対応するスペクトログラムを得ることができる。ここのスペクトログラムは、オーディオ情報の周波数が時間情報に伴って変動する周波数分布図を表すことができる。例えば、オーディオ情報の周波数分布が密である場合、スペクトログラムに対応する画像位置は、高い画素値を有する。オーディオ情報の周波数分布が疎である場合、スペクトログラムに対応する画像位置は、低い画素値を有する。スペクトログラムにより、オーディオ情報の周波数分布を直観的に表す。続いて、ニューラルネットワークを利用してスペクトログラムに対して特徴抽出を行い、オーディオ情報のスペクトル特徴を得る。スペクトル特徴は、スペクトル特徴マップとして表されてもよい。該スペクトル特徴マップは、2つの次元の情報を有してもよい。1つの次元は、特徴次元であってもよく、各時点に対応するスペクトル特徴を表す。もう1つの次元は、時間次元であってもよく、スペクトル特徴に対応する時点を表す。
【0062】
オーディオ情報をスペクトログラムとして表すことで、オーディオ情報とビデオ情報をより良く結合させ、オーディオ情報に対する音声認識などの複雑な操作プロセスを減少させ、オーディオ情報とビデオ情報が同期しているかどうかを判定するプロセスをより簡単にすることができる。
【0063】
該実現形態の一例において、まず、各オーディオセグメントに対してウィンドウイング処理を行い、各ウィンドウイングされたオーディオセグメントを得る。更に、各ウィンドウイングされたオーディオセグメントに対してフーリエ変換を行い、前記少なくとも1つのオーディオセグメントのうちの各オーディオセグメントの周波数分布を得る。
【0064】
該例において、各オーディオセグメントの周波数分布を決定する場合、各オーディオセグメントに対してウィンドウイング処理を行うことができる。つまり、ウインドウ関数を各オーディオセグメントに作用することができる。例えば、ハミングウインドウを利用して各オーディオセグメントに対してウィンドウイング処理を行い、ウィンドウイングされたオーディオセグメントを得る。続いて、ウィンドウイングされたオーディオセグメントに対してフーリエ変換を行い、各オーディオセグメントの周波数分布を得る。複数のオーディオセグメントの周波数分布における最大周波数がmであるとすれば、複数のオーディオセグメントの周波数分布をステッチングすることで得られた周波数マップの大きさは、m×nであってもよい。各オーディオセグメントに対してウィンドウイング及びフーリエ変換を行うことで、各オーディオセグメントに対応する周波数分布を正確に得ることができる。
【0065】
本願の実施例において、取得されたビデオ情報に対してリサンプリングすることで、複数のビデオフレームを得ることができる。例えば、10フレーム/秒のサンプリングレートでビデオ情報をリサンプリングし、リサンプリングを行った後に得られた各ビデオフレームの時間情報は各オーディオセグメントの時間情報と同じである。続いて、得られたビデオフレームに対して画像特徴抽出を行い、各ビデオフレームの画像特徴を得る。続いて、各ビデオフレームの画像特徴に基づいて、各ビデオフレームにおける、ターゲット画像特徴を有するターゲットキーポイントを決定し、ターゲットキーポイントの所在する画像領域を決定し、続いて、該画像領域を切り出し、ターゲットキーポイントのターゲット画像フレームを得る。
【0066】
図3は、本願の実施例によるビデオ情報のビデオ特徴の取得プロセスを示すフローチャートである。
【0067】
可能な実現形態において、、上記オーディオビデオ情報処理方法は、下記ステップを含んでもよい。
【0068】
ステップS31において、前記ビデオ情報における各ビデオフレームに対して顔認識を行い、各前記ビデオフレームの顔画像を決定する。
【0069】
ステップS32において、前記顔画像におけるターゲットキーポイントの所在する画像領域を取得し、前記ターゲットキーポイントのターゲット画像を得る。
【0070】
ステップS33において、前記ターゲット画像に対して特徴抽出を行い、前記ビデオ情報のビデオ特徴を得る。
【0071】
該可能な実現形態において、ビデオ情報の各ビデオフレームに対して画像特徴抽出を行う。いずれか1つのビデオフレームに対して、該ビデオフレームの画像特徴に基づいて、該ビデオフレームに対して顔認識を行い、各ビデオフレームに含まれる顔画像を決定する。続いて、顔画像に対して、顔画像から、ターゲット画像特徴を有するターゲットキーポイント及びターゲットキーポイントの所在する画像領域を決定する。ここで、設定された顔テンプレートを利用してターゲットキーポイントの所在する画像領域を決定することができる。例えば、顔テンプレートでの、ターゲットキーポイントの位置を参照することができる。例えば、ターゲットキーポイントが、顔テンプレートの1/2画像位置にある場合、ターゲットキーポイントも顔画像の1/2画像位置にあると認められる。顔画像におけるターゲットキーポイントの所在する画像領域を決定した後、ターゲットキーポイントの所在する画像領域を切り出し、該ビデオフレームに対応するターゲット画像を得ることができる。このような方式で、顔画像により、ターゲットキーポイントのターゲット画像を得て、得られたターゲットキーポイントのターゲット画像をより正確にすることができる。
【0072】
一例において、前記顔画像におけるターゲットキーポイントの所在する画像領域を所定の画像サイズにスケーリングし、前記ターゲットキーポイントのターゲット画像を得ることができる。ここで、異なる顔画像におけるターゲットキーポイントの所在する画像領域の大きさは異なることがある。従って、ターゲットキーポイントの画像領域を統一的に所定の画像サイズにスケーリングすることができる。例えば、ビデオフレームと同じ画像サイズにスケーリングすることで、得られた複数のターゲット画像の画像サイズを一致させる。従って、複数のターゲット画像から抽出されたビデオ特徴も同じ特徴マップのサイズを有する。
【0073】
一例において、ターゲットキーポイントは、唇部キーポイントであってもよく、ターゲット画像は、唇部画像であってもよい。唇部キーポイントは、唇部中心点、口角点、唇部上下縁点等のキーポイントであってもよい。顔テンプレートを参照すると、唇部キーポイントは、顔画像の下部1/3の画像領域に位置してもよい。従って、顔画像の下部1/3の画像領域を切り出し、切り出された下部1/3の画像領域をスケーリングした後に得られた画像を唇部画像とする。オーディオファイルのオーディオ情報と唇部動作が関連付けられる(唇部が発音を補助する)ため、オーディオ情報とビデオ情報が同期しているかどうかを判定する場合に唇部画像を利用し、判定結果の正確性を向上させることができる。
【0074】
ここで、スペクトログラムは、1つの画像であってもよい。各ビデオフレームは、1つのターゲット画像フレームに対応してもよい。ターゲット画像フレームは、ターゲット画像フレームシーケンスを構成することができる。ここで、スペクトログラム及びターゲット画像フレームシーケンスは、ニューラルネットワークへの入力としてもよく、オーディオ情報とビデオ情報が同期しているかどうかについての判定結果は、ニューラルネットワークの出力であってもよい。
【0075】
図4は、本願の実施例による融合特徴の取得プロセスを示すフローチャートである。
【0076】
可能な実現形態において、上記ステップS12は、下記ステップを含んでもよい。
【0077】
ステップS121において、前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得る。
【0078】
ステップS122において、前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得て、各第1特徴の時間情報は、各第2特徴の時間情報とマッチングする。
【0079】
ステップS123において、時間情報がマッチングする第1特徴と第2特徴を特徴融合し、複数の融合特徴を得る。
【0080】
該実現形態において、ニューラルネットワークを利用してオーディオ情報に対応するスペクトログラムを畳み込み処理し、オーディオ情報のスペクトル特徴を得ることができる。該スペクトル特徴は、スペクトル特徴マップで表されてもよい。オーディオ情報が時間情報を有し、オーディオ情報のスペクトル特徴も時間情報を有するため、対応するスペクトル特徴マップの第1次元は、時間次元であってもよい。続いて、スペクトル特徴を分割し、複数の第1特徴を得ることができる。例えば、スペクトル特徴を時間ステップ幅が1sである複数の第1特徴に分割する。対応的に、ニューラルネットワークを利用して複数のターゲット画像フレームを畳み込み処理し、ビデオ特徴を得ることができる。該ビデオ特徴は、ビデオ特徴マップで表されてもよい。該ビデオ特徴マップの第1次元は、時間次元である。続いて、ビデオ特徴を分割し、複数の第2特徴を得ることができる。例えば、ビデオ特徴を時間ステップ幅が1sである複数の第2特徴に分割する。ここで、スペクトル特徴を分割するための時間ステップ幅は、ビデオ特徴を分割するための時間ステップ幅と同じであり、第1特徴の時間情報は、第2特徴の時間情報に一対一に対応する。つまり、3つの第1特徴及び3つの第2特徴が存在すれば、最初の第1特徴の時間情報は、最初の第2特徴の時間情報と同じである。2番目の第1特徴の時間情報は、2番目の第2特徴の時間情報と同じである。3番目の第1特徴の時間情報は、3番目の第2特徴の時間情報と同じである。続いて、ニューラルネットワークを利用して時間情報がマッチングする第1特徴及び第2特徴を特徴融合し、複数の融合特徴を得る。スペクトル特徴及びビデオ特徴を分割することで、同じ時間情報を有する第1特徴と第2特徴を特徴融合し、異なる時間情報を有する融合特徴を得ることができる。
【0081】
一例において、所定の第2時間ステップ幅に応じて、前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得る。又は、前記ターゲット画像フレームのフレーム数に応じて、前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得る。該例において、所定の第2時間ステップ幅に応じてスペクトル特徴を複数の第1特徴に分割することができる。第2時間ステップ幅は、実際の適用シーンに応じて設定されてもよい。例えば、第2時間ステップ幅は、1s、0.5s等と設定されてもよい。これにより、スペクトル特徴を任意の時間ステップ幅で分割することができる。又は、スペクトル特徴を数がターゲット画像フレームのフレーム数と同じ第1特徴に分割することができる。各第1特徴の時間ステップ幅は同じである。これにより、スペクトル特徴を所定の数の第1特徴に分割することを実現させる。
【0082】
一例において、所定の第2時間ステップ幅に応じて、前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得る。又は、前記ターゲット画像フレームのフレーム数に応じて前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得る。該例において、所定の第2時間ステップ幅に応じてビデオ特徴を複数の第2特徴に分割することができる。第2時間ステップ幅は、実際の適用シーンに応じて設定されてもよく、例えば、1s、0.5s等と設定されてもよい。これにより、ビデオ特徴を任意の時間ステップ幅で分割することができる。又は、ビデオ特徴を数がターゲット画像フレームのフレーム数と同じ第2特徴に分割することができる。各第2特徴の時間ステップ幅は同じである。これにより、スペクトル特徴を所定の数の第2特徴に分割することを実現させる。
【0083】
図5は、本願の実施例によるニューラルネットワークを示すブロック図である。以下、図5を参照しながら、該実現形態を説明する。
【0084】
ここで、ニューラルネットワークを利用してオーディオ情報のスペクトログラムに対して二次元畳み込み処理を行い、1つのスペクトル特徴マップを得る。該スペクトル特徴マップの第1次元は、時間次元であってもよく、オーディオ情報の時間情報を表す。これにより、スペクトル特徴マップの時間情報に基づいて、所定の時間ステップ幅に応じてスペクトル特徴マップを分割し、複数の第1特徴を得る。各第1特徴はそれとマッチングする1つの第2特徴が存在する。つまり、いずれか1つの第1特徴は、時間情報がマッチングする第2特徴情報が存在し、また、ターゲット画像フレームの時間情報とマッチングすると理解されてもよい。第1特徴は、対応する時間情報における、オーディオ情報のオーディオ特徴を含む。
【0085】
対応的に、上記ニューラルネットワークを利用してターゲット画像フレームからなるターゲット画像フレームシーケンスに対して二次元又は三次元畳み込み処理を行い、ビデオ特徴を得る。ビデオ特徴は、1つのビデオ特徴マップとして表されてもよい。ビデオ特徴マップの第1次元は、時間次元であってもよく、ビデオ情報の時間情報を表す。続いて、ビデオ特徴の時間情報に基づいて、所定の時間ステップ幅に応じてビデオ特徴マップを分割し、複数の第2特徴を得る。各第2特徴は、時間情報がマッチングする1つの第1特徴が存在する。各第2特徴は、対応する時間情報における、ビデオ情報のビデオ特徴を含む。
【0086】
続いて、同じ時間情報を有する第1特徴と第2特徴を特徴融合し、複数の融合特徴を得る。異なる融合特徴は、異なる時間情報に対応する。各融合特徴は、第1特徴からのオーディオ特徴及び第2特徴からのビデオ特徴を含んでもよい。第1特徴及び第2特徴がそれぞれn個であるとすれば、第1特徴及び第2特徴の時間情報の順番に応じて、n個の第1特徴及びn個の第2特徴をそれぞれ番号付け、n個の第1特徴は、第1特徴1、第1特徴2、……、第一特徴nとして表されてもよい。n個の第2特徴は、第2特徴1、第2特徴2、……、第2特徴nとして表されてもよい。第1特徴と第2特徴を特徴融合する時、第1特徴1と第2特徴1を結合し、融合特徴1を得て、第1特徴2と第2特徴2を結合し、融合特徴2を得て、……、第1特徴nと第2特徴nを結合し、融合特徴nを得ることができる。
【0087】
可能な実現形態において、各融合特徴の時間情報の順番に応じて、異なる時系列ノードを利用して各融合特徴に対して特徴抽出を行い、続いて、頭尾時系列ノードから出力された処理結果を取得し、前記処理結果に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定する。ここで、次の時系列ノードは、直前の時系列ノードの処理結果を入力とする。
【0088】
該実現形態において、上記ニューラルネットワークは、複数の時系列ノードを含んでもよい。各時系列ノードは、順次接続される。複数の時系列ノードを利用して、異なる時間情報の融合特徴に対して特徴抽出を行うことができる。図5に示すように、n個の融合特徴が存在するとすれば、時間情報の順番に応じて番号付けると、融合特徴1、融合特徴2、……、融合特徴nとして表されてもよい。時系列ノードを利用して融合特徴に対して特徴抽出を行う場合、最初の時系列ノードを利用して融合特徴1に対して特徴抽出を行い、第1処理結果を得て、2番目の時系列ノードを利用して融合特徴2に対して特徴抽出を行い、第2処理結果を得て、……、n番目の時系列ノードを利用して融合特徴nに対して特徴抽出を行い、第n処理結果を得る。それと同時に、最初の時系列ノードを利用して第2処理結果を受信し、2番目の時系列ノードを利用して第1処理結果及び第3処理結果を受信し、このように類推する。続いて、最初の時系列ノードの処理結果と最後の時系列ノードの処理結果を融合し、例えば、ステッチング又は点乗積操作を行い、融合した処理結果を得る。続いて、ニューラルネットワークの全結合層を利用して、該融合した処理結果を更に特徴抽出し、例えば、全結合処理、正規化操作等を行う。これによりオーディオ情報とビデオ情報が同期しているかどうかについての判定結果を得ることができる。
【0089】
可能な実現形態において、前記ターゲット画像フレームのフレーム数に応じて、前記オーディオ情報に対応するスペクトログラムを分割し、少なくとも1つのスペクトログラムセグメントを得る。各スペクトログラムセグメントの時間情報は、各前記ターゲット画像フレームの時間情報とマッチングする。続いて、各スペクトログラムセグメントに対して特徴抽出を行い、各第1特徴を得て、各前記ターゲット画像フレームに対して特徴抽出を行い、各第2特徴を得る。続いて、時間情報がマッチングする第1特徴と第2特徴を特徴融合し、複数の融合特徴を得る。
【0090】
図6は、本願の実施例によるニューラルネットワークの一例を示すブロック図である。以下、図6を参照しながら、上記実現形態で提供される融合方式を説明する。
【0091】
該実現形態において、ターゲット画像フレームのフレーム数に応じて、オーディオ情報に対応するスペクトログラムを分割し、少なくとも1つのスペクトログラムセグメントを得て、少なくとも1つのスペクトログラムセグメントに対して特徴抽出を行い、少なくとも1つの第1特徴を得る。ここで、ターゲット画像フレームのフレーム数に応じて、オーディオ情報に対応するスペクトログラムを分割し、得られたスペクトログラムセグメントの数は、ターゲット画像フレームのフレーム数と同じである。これにより、各スペクトログラムセグメントの時間情報がターゲット画像フレームの時間情報とマッチングすることを確保することができる。n個のスペクトログラムセグメントを得たとすれば、時間情報の順番に応じてスペクトログラムセグメントを番号付けると、複数のスペクトログラムセグメントは、スペクトログラムセグメント1、スペクトログラムセグメント2、……、スペクトログラムセグメントnとして表されれもよい。続いて、各スペクトログラムセグメントに対して、ニューラルネットワークを利用してn個のスペクトログラムセグメントを二次元畳み込み処理し、最終的にn個の第1特徴を得ることができる。
【0092】
対応的に、ターゲット画像フレームに対して畳み込み処理を行い、第2特徴を得る場合、ニューラルネットワークを利用して複数のターゲット画像フレームに対してそれぞれ畳み込み処理を行い、複数の第2特徴を得ることができる。n個のターゲット画像フレームが存在するとすれば、時間情報の順番に応じてターゲット画像フレームを番号付けると、n個のターゲット画像フレームは、ターゲット画像フレーム1、ターゲット画像フレーム2、……、ターゲット画像フレームnとして表されてもよい。続いて、各ターゲット画像フレームに対して、ニューラルネットワークを利用して各スペクトログラムセグメントを二次元畳み込み処理し、最終的にn個の第1特徴を得ることができる。
【0093】
続いて、時間情報がマッチングする第1特徴と第2特徴を特徴融合し、特徴融合を行った後に得られた融合特徴マップに基づいて、オーディオ情報とビデオ情報が同期しているかどうかを判定する。ここで、融合特徴マップに基づいて、オーディオ情報とビデオ情報が同期しているかどうかを判定するプロセスは、上記図5に対応する実現形態におけるプロセスと同じである。ここで、詳細な説明を省略する。該例において、複数のスペクトログラムセグメント及び複数のターゲット画像フレームに対してそれぞれ特徴抽出を行うことで、畳み込み処理の演算量を低減させ、オーディオビデオ情報処理の効率を向上させる。
【0094】
可能な実現形態において、時間次元で、融合特徴に対して少なくとも一段階の特徴抽出を行い、少なくとも一段階の特徴抽出を行った後の処理結果を得る。各段階の特徴抽出は、畳み込み処理及び全結合処理を含む。続いて、少なくとも一段階の特徴抽出を行った後の処理結果に基づいて、オーディオ情報とビデオ情報が同期しているかどうかを判定する。
【0095】
可能な実現形態において、時間次元で、融合特徴マップに対して複数段階の特徴抽出を行う。各段階の特徴抽出は、畳み込み処理及び全結合処理を含む。ここの時間次元は、融合特徴の第1特徴であってもよい。複数段階の特徴抽出により、複数段階の特徴抽出を行った後の処理結果を得ることができる。続いて、複数段階の特徴抽出を行った後の処理結果に対してステッチング又は点乗積操作、全結合操作、正規化操作などを行い、オーディオ情報とビデオ情報が同期しているかどうかについての判定結果を得ることができる。
【0096】
図7は、本願の実施例によるニューラルネットワークの一例を示すブロック図である。上記実現形態において、ニューラルネットワークは、複数の一次元畳み込み層及び全結合層を含んでもよい。図7に示したニューラルネットワークを利用してスペクトログラムに対して二次元畳み込み処理を行い、オーディオ情報のスペクトル特徴を得ることができる。スペクトル特徴の第1次元は、時間次元であってもよく、オーディオ情報の時間情報を表すことができる。対応的に、ニューラルネットワークを利用してターゲット画像フレームからなるターゲット画像フレームシーケンスに対して二次元又は三次元畳み込み処理を行い、ビデオ情報のビデオ特徴を得る。ビデオ特徴の第1次元は、時間次元であってもよく、ビデオ情報の時間情報を表すことができる。続いて、オーディオ特徴に対応する時間情報及びビデオ特徴に対応する時間情報に基づいて、ニューラルネットワークを利用してオーディオ特徴とビデオ特徴を融合する。例えば、同じ時間特徴を有するオーディオ特徴とビデオ特徴をステッチングし、融合特徴を得る。融合特徴の第1次元は、時間情報を表す。ある時間情報の融合特徴は、該時間情報のオーディオ特徴及びビデオ特徴に対応してもよい。続いて、時間次元で、融合特徴に対して少なくとも一段階の特徴抽出を行う。例えば、融合特徴に対して一次元畳み込み処理及び全結合処理を行い、処理結果を得る。続いて、更に、処理結果に対してステッチング又は点乗積操作、全結合操作、正規化操作などを行い、オーディオ情報とビデオ情報が同期しているかどうかについての判定結果を得ることができる。
【0097】
上記実施例で提供されるオーディオビデオ情報処理方法によれば、オーディオ情報に対応するスペクトログラムとターゲットキーポイントのターゲット画像フレームを結合し、オーディオビデオファイルのオーディオ情報とビデオ情報が同期しているかどうかを判定することができる。判定方法が簡単であり、判定結果の正確率が高い。
【0098】
本願の実施例で提供されるオーディオビデオ情報処理方案は、生体判別タスクに適用され、生体判別タスクにおけるオーディオビデオファイルのオーディオ情報とビデオ情報が同期しているかどうかを判定する。従って、生体判別タスクにおける不審な攻撃オーディオビデオファイルをスクリーニングすることができる。幾つかの実施形態において、本願で提供されるオーディオビデオ情報処理方案の判定結果を利用して、同一のオーディオビデオファイルのオーディオ情報とビデオ情報のオフセットを判定することで、同期しないオーディオビデオファイルのオーディオ情報とビデオ情報の時間差を更に決定することができる。
【0099】
本願で言及した上記各方法の実施例は、原理や論理から逸脱しない限り、互いに組み合わせることで組み合わせた実施例を構成することができ、スペース限りにより、本願において逐一説明しないことが理解されるべきである。
【0100】
また、本願は、オーディオビデオ情報処理装置、電子機器、コンピュータ可読記憶媒体、プログラムを更に提供する。上記はいずれも、本願で提供されるいずれか1つのオーディオビデオ情報処理方法を実現させるためのものである。対応する技術的解決手段及び説明は、方法に関連する記述を参照されたい。ここで、詳細な説明を省略する。
【0101】
具体的な実施形態の上記方法において、各ステップの記述順番は、厳しい実行順番として実施過程を限定するものではなく、各ステップの具体的な実行順番はその機能及び考えられる内在的論理により決まることは、当業者であれば理解すべきである。
【0102】
図8は、本願の実施例によるオーディオビデオ情報処理装置を示すブロック図である。図8に示すように、前記オーディオビデオ情報処理装置は、
オーディオビデオファイルのオーディオ情報及びビデオ情報を取得するように構成される取得モジュール41と、
前記オーディオ情報の時間情報及び前記ビデオ情報の時間情報に基づいて、前記オーディオ情報のスペクトル特徴及び前記ビデオ情報のビデオ特徴を特徴融合し、融合特徴を得るように構成される融合モジュール42と、
前記融合特徴に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定するように構成される判定モジュール43と、を備える。
【0103】
可能な実現形態において、前記装置は、
前記オーディオ情報を所定の時間ステップ幅に応じて分割し、少なくとも1つのオーディオセグメントを得て、各オーディオセグメントの周波数分布を決定し、前記少なくとも1つのオーディオセグメントの周波数分布をステッチングし、前記オーディオ情報に対応するスペクトログラムを得て、前記スペクトログラムに対して特徴抽出を行い、前記オーディオ情報のスペクトル特徴を得るように構成される第1決定モジュールを更に備える。
【0104】
可能な実現形態において、前記第1決定モジュールは具体的には、
前記オーディオ情報を所定の第1時間ステップ幅に応じて分割し、少なくとも1つの初期セグメントを得て、
各初期セグメントに対してウィンドウイング処理を行い、各ウィンドウイングされた初期セグメントを得て、
各ウィンドウイングされた初期セグメントに対してフーリエ変換を行い、前記少なくとも1つのオーディオセグメントのうちの各オーディオセグメントを得るように構成される。
【0105】
可能な実現形態において、前記装置は、
前記ビデオ情報における各ビデオフレームに対して顔認識を行い、各前記ビデオフレームの顔画像を決定し、前記顔画像におけるターゲットキーポイントの所在する画像領域を取得し、前記ターゲットキーポイントのターゲット画像を得て、前記ターゲット画像に対して特徴抽出を行い、前記ビデオ情報のビデオ特徴を得るように構成される第2決定モジュールを更に備える。
【0106】
可能な実現形態において、前記第2決定モジュールは具体的には、前記顔画像におけるターゲットキーポイントの所在する画像領域を所定の画像サイズにスケーリングし、前記ターゲットキーポイントのターゲット画像を得るように構成される。
【0107】
可能な実現形態において、前記ターゲットキーポイントは、唇部キーポイントであり、前記ターゲット画像は、唇部画像である。
【0108】
可能な実現形態において、前記融合モジュール42は具体的には、
前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得て、
前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得て、各第1特徴の時間情報は、各第2特徴の時間情報とマッチングし、
時間情報がマッチングする第1特徴と第2特徴を特徴融合し、複数の融合特徴を得るように構成される。
【0109】
可能な実現形態において、前記融合モジュール42は具体的には、
所定の第2時間ステップ幅に応じて、前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得、又は、
前記ターゲット画像フレームのフレーム数に応じて、前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得るように構成される。
【0110】
可能な実現形態において、前記融合モジュール42は具体的には、
所定の第2時間ステップ幅に応じて、前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得、又は、
前記ターゲット画像フレームのフレーム数に応じて、前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得るように構成される。
【0111】
可能な実現形態において、前記融合モジュール42は具体的には、
前記ターゲット画像フレームのフレーム数に応じて、前記オーディオ情報に対応するスペクトログラムを分割し、少なくとも1つのスペクトログラムセグメントを得て、各スペクトログラムセグメントの時間情報は、各前記ターゲット画像フレームの時間情報とマッチングし、
各スペクトログラムセグメントに対して特徴抽出を行い、各第1特徴を得て、
各前記ターゲット画像フレームに対して特徴抽出を行い、各第2特徴を得て、
時間情報がマッチングする第1特徴と第2特徴を特徴融合し、複数の融合特徴を得るように構成される。
【0112】
可能な実現形態において、前記判定モジュール43は具体的には、
各融合特徴の時間情報の順番に応じて、異なる時系列ノードを利用して各融合特徴に対して特徴抽出を行い、次の時系列ノードは、直前の時系列ノードの処理結果を入力とし、
頭尾時系列ノードから出力された処理結果を取得し、前記処理結果に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定するように構成される。
【0113】
可能な実現形態において、前記判定モジュール43は具体的には、
時間次元で、前記融合特徴に対して少なくとも一段階の特徴抽出を行い、前記少なくとも一段階の特徴抽出を行った後の処理結果を得て、各段階の特徴抽出は、畳み込み処理及び全結合処理を含み、
前記少なくとも一段階の特徴抽出を行った後の処理結果に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定するように構成される。
【0114】
幾つかの実施例において、本願の実施例で提供される装置における機能及びモジュールは、上記方法実施例に記載の方法を実行するために用いられ、具体的な実現形態は上記方法実施例の説明を参照されたい。簡潔化のために、ここで詳細な説明を省略する。
【0115】
本願の実施例はコンピュータ可読記憶媒体を更に提供する。該コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行される時、上記方法を実現させる。コンピュータ可読記憶媒体は、不揮発性コンピュータ可読記憶媒体又は揮発性コンピュータ可読記憶媒体であってもよい。
【0116】
本願の実施例は、コンピュータプログラムを更に提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される時、前記電子機器におけるプロセッサは、上記オーディオビデオ情報処理方法を実行する。
【0117】
本願の実施例は電子機器を更に提供する。該電子機器は、プロセッサと、プロセッサによる実行可能な命令を記憶するためのメモリとを備え、前記プロセッサは、上記方法を実行するように構成される。
【0118】
電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。
【0119】
図9は、一例示的な実施例による電子機器1900を示すブロック図である。例えば、電子機器1900は、サーバとして提供されてもよい。図9を参照すると、電子機器1900は、処理コンポーネント1922を備える。ぞれは1つ又は複数のプロセッサと、メモリ1932で表されるメモリリソースを更に備える。該メモリリソースは、アプリケーションプログラムのような、処理コンポーネント1922により実行される命令を記憶するためのものである。メモリ1932に記憶されているアプリケーションプログラムは、それぞれ一組の命令に対応する1つ又は1つ以上のモジュールを含んでもよい。なお、処理コンポーネント1922は、命令を実行して、上記方法を実行するように構成される。
【0120】
電子機器1900は、電子機器1900の電源管理を実行するように構成される電源コンポーネント1926と、電子機器1900をネットワークに接続するように構成される有線又は無線ネットワークインターフェース1950と、入力出力(I/O)インターフェース1958を更に備えてもよい。電子機器1900は、Windows(登録商標) ServerTM、Mac OS XTM、Unix(登録商標), Linux(登録商標)、FreeBSDTM又は類似したものような、メモリ1932に記憶されているオペレーティングシステムを実行することができる。
【0121】
例示的な実施例において、例えば、コンピュータプログラム命令を含むメモリ1932のような不揮発性コンピュータ可読記憶媒体を更に提供する。上記コンピュータプログラム命令は、電子機器1900の処理コンポーネント1922により実行されて上記方法を完了する。
【0122】
本願は、システム、方法及び/又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、コンピュータ可読記憶媒体を備えてもよく、プロセッサに本願の各態様を実現させるためのコンピュータ可読プログラム命令がそれに記憶されている。
【0123】
コンピュータ可読記憶媒体は、命令実行装置に用いられる命令を保持又は記憶することができる有形装置であってもよい。コンピュータ可読記憶媒体は、例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置又は上記の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例(非網羅的なリスト)は、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、デジタル多目的ディスク(DVD)、メモリスティック、フレキシブルディスク、命令が記憶されているパンチカード又は凹溝内における突起構造のような機械的符号化装置、及び上記任意の適切な組み合わせを含む。ここで用いられるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を通って伝搬する電磁波(例えば、光ファイバケーブルを通過する光パルス)、または、電線を通して伝送される電気信号などの、一時的な信号それ自体であると解釈されるべきではない。
【0124】
ここで説明されるコンピュータ可読プログラム命令を、コンピュータ可読記憶媒体から各コンピューティング/処理装置にダウンロードすることができるか、又は、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び/又は無線ネットワークのようなネットワークを経由して外部コンピュータ又は外部記憶装置にダウンロードすることができる。ネットワークは、伝送用銅線ケーブル、光ファイバー伝送、無線伝送、ルータ、ファイアウォール、交換機、ゲートウェイコンピュータ及び/又はエッジサーバを含んでもよい。各コンピューティング/処理装置におけるネットワークインターフェースカード又はネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各コンピューティング/処理装置におけるコンピュータ可読記憶媒体に記憶する。
【0125】
本願の操作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は1つ又は複数のプログラミング言語で記述されたソースコード又はターゲットコードであってもよい。前記プログラミング言語は、Smalltalk、C++などのようなオブジェクト指向プログラミング言語と、「C」プログラミング言語又は類似したプログラミング言語などの従来の手続型プログラミング言語とを含む。コンピュータ可読プログラム命令は、ユーザコンピュータ上で完全に実行してもよいし、ユーザコンピュータ上で部分的に実行してもよいし、独立したソフトウェアパッケージとして実行してもよいし、ユーザコンピュータ上で部分的に実行してリモートコンピュータ上で部分的に実行してもよいし、又はリモートコンピュータ又はサーバ上で完全に実行してもよい。リモートコンピュータの場合に、リモートコンピュータは、ローカルエリアネットワーク(LAN)やワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを通じてユーザのコンピュータに接続するか、または、外部のコンピュータに接続することができる(例えばインターネットサービスプロバイダを用いてインターネットを通じて接続する)。幾つかの実施例において、コンピュータ可読プログラム命令の状態情報を利用して、プログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)又はプログラマブル論理アレイ(PLA)のような電子回路をカスタマイズする。該電子回路は、コンピュータ可読プログラム命令を実行することで、本願の各態様を実現させることができる。
【0126】
ここで、本願の実施例の方法、装置(システム)及びコンピュータプログラム製品のフローチャート及び/又はブロック図を参照しながら、本願の各態様を説明する。フローチャート及び/又はブロック図の各ブロック及びフローチャート及び/又はブロック図における各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令により実現できる。
【0127】
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたはその他プログラマブルデータ処理装置のプロセッサに提供でき、それによって機器を生み出し、これら命令はコンピュータまたはその他プログラマブルデータ処理装置のプロセッサにより実行される時、フローチャート及び/又はブロック図における1つ又は複数のブロック中で規定している機能/操作を実現する装置を生み出した。これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶してもよい。これらの命令によれば、コンピュータ、プログラマブルデータ処理装置及び/又は他の装置は特定の方式で動作する。従って、命令が記憶されているコンピュータ可読記憶媒体は、フローチャート及び/又はブロック図おける1つ又は複数のブロック中で規定している機能/操作を実現する各態様の命令を含む製品を備える。
【0128】
コンピュータ可読プログラム命令をコンピュータ、他のプログラマブルデータ処理装置又は他の装置にロードしてもよい。これにより、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で一連の操作の工程を実行して、コンピュータで実施されるプロセスを生成する。従って、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で実行される命令により、フローチャート及び/又はブロック図における1つ又は複数のブロック中で規定している機能/操作を実現させる。
【0129】
図面におけるフローチャート及びブック図は、本願の複数の実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能および操作を例示するものである。この点で、フローチャート又はブロック図における各ブロックは、1つのモジュール、プログラムセグメント又は命令の一部を表すことができる。前記モジュール、、プログラムセグメント又は命令の一部は、1つまたは複数の所定の論理機能を実現するための実行可能な命令を含む。いくつかの取り替えとしての実現中に、ブロックに表記される機能は図面中に表記される順序と異なる順序で発生することができる。例えば、二つの連続するブロックは実際には基本的に並行して実行でき、場合によっては反対の順序で実行することもでき、これは関係する機能から確定する。ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行するための専用ハードウェアベースシステムにより実現するか、又は専用ハードウェアとコンピュータ命令の組み合わせにより実現することができる。
【0130】
以上は本発明の各実施例を説明したが、前記説明は例示的なものであり、網羅するものではなく、且つ開示した各実施例に限定されない。説明した各実施例の範囲と趣旨から脱逸しない場合、当業者にとって、多くの修正及び変更は容易に想到しえるものである。本明細書に用いられる用語の選択は、各実施例の原理、実際の応用、或いは市場における技術の改善を最もよく解釈すること、或いは他の当業者が本明細書に開示された各実施例を理解できることを目的とする。
図1
図2
図3
図4
図5
図6
図7
図8
図9
【手続補正書】
【提出日】2022-01-27
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
オーディオビデオ情報処理方法であって、前記方法は、
オーディオビデオファイルのオーディオ情報及びビデオ情報を取得することと、
前記オーディオ情報の時間情報及び前記ビデオ情報の時間情報に基づいて、前記オーディオ情報のスペクトル特徴及び前記ビデオ情報のビデオ特徴を特徴融合し、融合特徴を得ることと、
前記融合特徴に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定することと、を含む、オーディオビデオ情報処理方法。
【請求項2】
前記方法は、
前記オーディオ情報を所定の第1時間ステップ幅に応じて分割し、少なくとも1つのオーディオセグメントを得ることと、
各オーディオセグメントの周波数分布を決定することと、
前記少なくとも1つのオーディオセグメントの周波数分布をステッチングし、前記オーディオ情報に対応するスペクトログラムを得ることと、
前記スペクトログラムに対して特徴抽出を行い、前記オーディオ情報のスペクトル特徴を得ることと、を更に含むことを特徴とする
請求項1に記載の方法。
【請求項3】
各オーディオセグメントの周波数分布を決定することは、
各オーディオセグメントに対してウィンドウイング処理を行い、各ウィンドウイングされたオーディオセグメントを得ることと、
各ウィンドウイングされたオーディオセグメントに対してフーリエ変換を行い、前記少なくとも1つのオーディオセグメントのうちの各オーディオセグメントの周波数分布を得ることと、を含むことを特徴とする
請求項2に記載の方法。
【請求項4】
前記方法は、
前記ビデオ情報における各ビデオフレームに対して顔認識を行い、各前記ビデオフレームの顔画像を決定することと、
前記顔画像におけるターゲットキーポイントの所在する画像領域を取得し、前記ターゲットキーポイントのターゲット画像を得ることと、
前記ターゲット画像に対して特徴抽出を行い、前記ビデオ情報のビデオ特徴を得ることと、を更に含むことを特徴とする
請求項1から3のうちいずれか一項に記載の方法。
【請求項5】
前記顔画像におけるターゲットキーポイントの所在する画像領域を取得し、前記ターゲットキーポイントのターゲット画像を得ることは、
前記顔画像におけるターゲットキーポイントの所在する画像領域を所定の画像サイズにスケーリングし、前記ターゲットキーポイントのターゲット画像を得ることを含むことを特徴とする
請求項4に記載の方法。
【請求項6】
前記ターゲットキーポイントは、唇部キーポイントであり、前記ターゲット画像は、唇部画像であることを特徴とする
請求項4又は5に記載の方法。
【請求項7】
前記オーディオ情報の時間情報及び前記ビデオ情報の時間情報に基づいて、前記オーディオ情報のスペクトル特徴及び前記ビデオ情報のビデオ特徴を特徴融合し、融合特徴を得ることは、
前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得ることと、
前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得ることであって、各第1特徴の時間情報は、各第2特徴の時間情報とマッチングする、ことと、
時間情報がマッチングする第1特徴と第2特徴を特徴融合し、複数の融合特徴を得ることと、を含むことを特徴とする
請求項1から6のうちいずれか一項に記載の方法。
【請求項8】
前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得ることは、
所定の第2時間ステップ幅に応じて、前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得ること、又は、
ターゲット画像フレームのフレーム数に応じて、前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得ることを含むことを特徴とする
請求項7に記載の方法。
【請求項9】
前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得ることは、
所定の第2時間ステップ幅に応じて、前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得ること、又は、
前記ターゲット画像フレームのフレーム数に応じて、前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得ることを含むことを特徴とする
請求項8に記載の方法。
【請求項10】
前記オーディオ情報の時間情報及び前記ビデオ情報の時間情報に基づいて、前記オーディオ情報のスペクトル特徴及び前記ビデオ情報のビデオ特徴を特徴融合し、融合特徴を得ることは、
ターゲット画像フレームのフレーム数に応じて、前記オーディオ情報に対応するスペクトログラムを分割し、少なくとも1つのスペクトログラムセグメントを得ることであって、各スペクトログラムセグメントの時間情報は、各前記ターゲット画像フレームの時間情報とマッチングする、ことと、
各スペクトログラムセグメントに対して特徴抽出を行い、各第1特徴を得ることと、
各前記ターゲット画像フレームに対して特徴抽出を行い、各第2特徴を得ることと、
時間情報がマッチングする第1特徴と第2特徴を特徴融合し、複数の融合特徴を得ることと、を含むことを特徴とする
請求項1から6のうちいずれか一項に記載の方法。
【請求項11】
前記融合特徴に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定することは、
各融合特徴の時間情報の順番に応じて、異なる時系列ノードを利用して各融合特徴に対して特徴抽出を行うことであって、次の時系列ノードは、直前の時系列ノードの処理結果を入力とする、ことと、
頭尾時系列ノードから出力された処理結果を取得し、前記処理結果に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定することと、を含むことを特徴とする
請求項1から10のうちいずれか一項に記載の方法。
【請求項12】
前記融合特徴に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定することは、
時間次元で、前記融合特徴に対して少なくとも一段階の特徴抽出を行い、前記少なくとも一段階の特徴抽出を行った後の処理結果を得ることであって、各段階の特徴抽出は、畳み込み処理及び全結合処理を含む、ことと、
前記少なくとも一段階の特徴抽出を行った後の処理結果に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定することと、を含むことを特徴とする
請求項1から10のうちいずれか一項に記載の方法。
【請求項13】
オーディオビデオ情報処理装置であって、前記装置は、
オーディオビデオファイルのオーディオ情報及びビデオ情報を取得するように構成される取得モジュールと、
前記オーディオ情報の時間情報及び前記ビデオ情報の時間情報に基づいて、前記オーディオ情報のスペクトル特徴及び前記ビデオ情報のビデオ特徴を特徴融合し、融合特徴を得るように構成される融合モジュールと、
前記融合特徴に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定するように構成される判定モジュールと、を備える、オーディオビデオ情報処理装置。
【請求項14】
電子機器であって、前記電子機器は、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリと備え、
前記プロセッサは、前記メモリに記憶される命令を呼び出し、請求項1から12のうちいずれか一項に記載の方法を実行するように構成される、電子機器。
【請求項15】
コンピュータ可読記憶媒体であって、コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行される時、請求項1から12のうちいずれか一項に記載の方法を実現させる、コンピュータ可読記憶媒体。
【請求項16】
コンピュータプログラムであって、前記コンピュータプログラムが電子機器で実行される時、前記電子機器におけるプロセッサに、請求項1から12のうちいずれか一項に記載の方法を実行させる、コンピュータプログラム。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0031
【補正方法】変更
【補正の内容】
【0031】
本願の一態様によれば、コンピュータプログラムを提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される時、前記電子機器におけるプロセッサは、上記オーディオビデオ情報処理方法を実行する。
例えば、本願は以下の項目を提供する。
(項目1)
オーディオビデオ情報処理方法であって、前記方法は、
オーディオビデオファイルのオーディオ情報及びビデオ情報を取得することと、
前記オーディオ情報の時間情報及び前記ビデオ情報の時間情報に基づいて、前記オーディオ情報のスペクトル特徴及び前記ビデオ情報のビデオ特徴を特徴融合し、融合特徴を得ることと、
前記融合特徴に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定することと、を含む、オーディオビデオ情報処理方法。
(項目2)
前記方法は、
前記オーディオ情報を所定の第1時間ステップ幅に応じて分割し、少なくとも1つのオーディオセグメントを得ることと、
各オーディオセグメントの周波数分布を決定することと、
前記少なくとも1つのオーディオセグメントの周波数分布をステッチングし、前記オーディオ情報に対応するスペクトログラムを得ることと、
前記スペクトログラムに対して特徴抽出を行い、前記オーディオ情報のスペクトル特徴を得ることと、を更に含むことを特徴とする
項目1に記載の方法。
(項目3)
各オーディオセグメントの周波数分布を決定することは、
各オーディオセグメントに対してウィンドウイング処理を行い、各ウィンドウイングされたオーディオセグメントを得ることと、
各ウィンドウイングされたオーディオセグメントに対してフーリエ変換を行い、前記少なくとも1つのオーディオセグメントのうちの各オーディオセグメントの周波数分布を得ることと、を含むことを特徴とする
項目2に記載の方法。
(項目4)
前記方法は、
前記ビデオ情報における各ビデオフレームに対して顔認識を行い、各前記ビデオフレームの顔画像を決定することと、
前記顔画像におけるターゲットキーポイントの所在する画像領域を取得し、前記ターゲットキーポイントのターゲット画像を得ることと、
前記ターゲット画像に対して特徴抽出を行い、前記ビデオ情報のビデオ特徴を得ることと、を更に含むことを特徴とする
項目1から3のうちいずれか一項に記載の方法。
(項目5)
前記顔画像におけるターゲットキーポイントの所在する画像領域を取得し、前記ターゲットキーポイントのターゲット画像を得ることは、
前記顔画像におけるターゲットキーポイントの所在する画像領域を所定の画像サイズにスケーリングし、前記ターゲットキーポイントのターゲット画像を得ることを含むことを特徴とする
項目4に記載の方法。
(項目6)
前記ターゲットキーポイントは、唇部キーポイントであり、前記ターゲット画像は、唇部画像であることを特徴とする
項目4又は5に記載の方法。
(項目7)
前記オーディオ情報の時間情報及び前記ビデオ情報の時間情報に基づいて、前記オーディオ情報のスペクトル特徴及び前記ビデオ情報のビデオ特徴を特徴融合し、融合特徴を得ることは、
前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得ることと、
前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得ることであって、各第1特徴の時間情報は、各第2特徴の時間情報とマッチングする、ことと、
時間情報がマッチングする第1特徴と第2特徴を特徴融合し、複数の融合特徴を得ることと、を含むことを特徴とする
項目1から6のうちいずれか一項に記載の方法。
(項目8)
前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得ることは、
所定の第2時間ステップ幅に応じて、前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得ること、又は、
ターゲット画像フレームのフレーム数に応じて、前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得ることを含むことを特徴とする
項目7に記載の方法。
(項目9)
前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得ることは、
所定の第2時間ステップ幅に応じて、前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得ること、又は、
前記ターゲット画像フレームのフレーム数に応じて、前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得ることを含むことを特徴とする
項目8に記載の方法。
(項目10)
前記オーディオ情報の時間情報及び前記ビデオ情報の時間情報に基づいて、前記オーディオ情報のスペクトル特徴及び前記ビデオ情報のビデオ特徴を特徴融合し、融合特徴を得ることは、
ターゲット画像フレームのフレーム数に応じて、前記オーディオ情報に対応するスペクトログラムを分割し、少なくとも1つのスペクトログラムセグメントを得ることであって、各スペクトログラムセグメントの時間情報は、各前記ターゲット画像フレームの時間情報とマッチングする、ことと、
各スペクトログラムセグメントに対して特徴抽出を行い、各第1特徴を得ることと、
各前記ターゲット画像フレームに対して特徴抽出を行い、各第2特徴を得ることと、
時間情報がマッチングする第1特徴と第2特徴を特徴融合し、複数の融合特徴を得ることと、を含むことを特徴とする
項目1から6のうちいずれか一項に記載の方法。
(項目11)
前記融合特徴に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定することは、
各融合特徴の時間情報の順番に応じて、異なる時系列ノードを利用して各融合特徴に対して特徴抽出を行うことであって、次の時系列ノードは、直前の時系列ノードの処理結果を入力とする、ことと、
頭尾時系列ノードから出力された処理結果を取得し、前記処理結果に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定することと、を含むことを特徴とする
項目1から10のうちいずれか一項に記載の方法。
(項目12)
前記融合特徴に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定することは、
時間次元で、前記融合特徴に対して少なくとも一段階の特徴抽出を行い、前記少なくとも一段階の特徴抽出を行った後の処理結果を得ることであって、各段階の特徴抽出は、畳み込み処理及び全結合処理を含む、ことと、
前記少なくとも一段階の特徴抽出を行った後の処理結果に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定することと、を含むことを特徴とする
項目1から10のうちいずれか一項に記載の方法。
(項目13)
オーディオビデオ情報処理装置であって、前記装置は、
オーディオビデオファイルのオーディオ情報及びビデオ情報を取得するように構成される取得モジュールと、
前記オーディオ情報の時間情報及び前記ビデオ情報の時間情報に基づいて、前記オーディオ情報のスペクトル特徴及び前記ビデオ情報のビデオ特徴を特徴融合し、融合特徴を得るように構成される融合モジュールと、
前記融合特徴に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定するように構成される判定モジュールと、を備える、オーディオビデオ情報処理装置。
(項目14)
前記装置は、
前記オーディオ情報を所定の時間ステップ幅に応じて分割し、少なくとも1つのオーディオセグメントを得て、各オーディオセグメントの周波数分布を決定し、前記少なくとも1つのオーディオセグメントの周波数分布をステッチングし、前記オーディオ情報に対応するスペクトログラムを得て、前記スペクトログラムに対して特徴抽出を行い、前記オーディオ情報のスペクトル特徴を得るように構成される第1決定モジュールを更に備えることを特徴とする
項目13に記載の装置。
(項目15)
前記第1決定モジュールは具体的には、
前記オーディオ情報を所定の第1時間ステップ幅に応じて分割し、少なくとも1つの初期セグメントを得て、
各初期セグメントに対してウィンドウイング処理を行い、各ウィンドウイングされた初期セグメントを得て、
各ウィンドウイングされた初期セグメントに対してフーリエ変換を行い、前記少なくとも1つのオーディオセグメントのうちの各オーディオセグメントを得るように構成されることを特徴とする
項目14に記載の装置。
(項目16)
前記装置は、
前記ビデオ情報における各ビデオフレームに対して顔認識を行い、各前記ビデオフレームの顔画像を決定し、前記顔画像におけるターゲットキーポイントの所在する画像領域を取得し、前記ターゲットキーポイントのターゲット画像を得て、前記ターゲット画像に対して特徴抽出を行い、前記ビデオ情報のビデオ特徴を得るように構成される第2決定モジュールを更に備えることを特徴とする
項目13から15のうちいずれか一項に記載の装置。
(項目17)
前記第2決定モジュールは具体的には、前記顔画像におけるターゲットキーポイントの所在する画像領域を所定の画像サイズにスケーリングし、前記ターゲットキーポイントのターゲット画像を得るように構成されることを特徴とする
項目16に記載の装置。
(項目18)
前記ターゲットキーポイントは、唇部キーポイントであり、前記ターゲット画像は、唇部画像であることを特徴とする
項目16又は17に記載の装置。
(項目19)
前記融合モジュールは具体的には、
前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得て、
前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得て、各第1特徴の時間情報は、各第2特徴の時間情報とマッチングし、
時間情報がマッチングする第1特徴と第2特徴を特徴融合し、複数の融合特徴を得るように構成されることを特徴とする
項目13から18のうちいずれか一項に記載の装置。
(項目20)
前記融合モジュールは具体的には、
所定の第2時間ステップ幅に応じて、前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得、又は、
ターゲット画像フレームのフレーム数に応じて、前記スペクトル特徴を分割し、少なくとも1つの第1特徴を得るように構成されることを特徴とする
項目19に記載の装置。
(項目21)
前記融合モジュールは具体的には、
所定の第2時間ステップ幅に応じて、前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得、又は、
前記ターゲット画像フレームのフレーム数に応じて、前記ビデオ特徴を分割し、少なくとも1つの第2特徴を得るように構成されることを特徴とする
項目20に記載の装置。
(項目22)
前記融合モジュールは具体的には、
ターゲット画像フレームのフレーム数に応じて、前記オーディオ情報に対応するスペクトログラムを分割し、少なくとも1つのスペクトログラムセグメントを得て、各スペクトログラムセグメントの時間情報は、各前記ターゲット画像フレームの時間情報とマッチングし、
各スペクトログラムセグメントに対して特徴抽出を行い、各第1特徴を得て、
各前記ターゲット画像フレームに対して特徴抽出を行い、各第2特徴を得て、
時間情報がマッチングする第1特徴と第2特徴を特徴融合し、複数の融合特徴を得るように構成されることを特徴とする
項目13から18のうちいずれか一項に記載の装置。
(項目23)
前記判定モジュールは具体的には、
各融合特徴の時間情報の順番に応じて、異なる時系列ノードを利用して各融合特徴に対して特徴抽出を行い、次の時系列ノードは、直前の時系列ノードの処理結果を入力とし、
頭尾時系列ノードから出力された処理結果を取得し、前記処理結果に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定するように構成されることを特徴とする
項目13から22のうちいずれか一項に記載の装置。
(項目24)
前記判定モジュールは具体的には、
時間次元で、前記融合特徴に対して少なくとも一段階の特徴抽出を行い、前記少なくとも一段階の特徴抽出を行った後の処理結果を得て、各段階の特徴抽出は、畳み込み処理及び全結合処理を含み、
前記少なくとも一段階の特徴抽出を行った後の処理結果に基づいて、前記オーディオ情報と前記ビデオ情報が同期しているかどうかを判定するように構成されることを特徴とする
項目13から22のうちいずれか一項に記載の装置。
(項目25)
電子機器であって、前記電子機器は、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリと備え、
前記プロセッサは、前記メモリに記憶される命令を呼び出し、項目1から12のうちいずれか一項に記載の方法を実行するように構成される、電子機器。
(項目26)
コンピュータ可読記憶媒体であって、コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行される時、項目1から12のうちいずれか一項に記載の方法を実現させる、コンピュータ可読記憶媒体。
(項目27)
コンピュータプログラムであって、前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される時、前記電子機器におけるプロセッサに、項目1から12のうちいずれか一項に記載の方法を実行させる、コンピュータプログラム。
【国際調査報告】