特許7493515 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特許7493515敵対的生成ネットワークを用いた音声映像源分離および位置特定

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-05-23

(45)【発行日】2024-05-31

(54)【発明の名称】敵対的生成ネットワークを用いた音声映像源分離および位置特定

(51)【国際特許分類】

G10L 21/0272 20130101AFI20240524BHJP

G10L 21/0356 20130101ALI20240524BHJP

G10L 25/30 20130101ALI20240524BHJP

【ＦＩ】

G10L21/0272 100Z

G10L21/0356

G10L25/30

【請求項の数】 15

(21)【出願番号】P 2021538661

(86)(22)【出願日】2020-04-21

(65)【公表番号】

(43)【公表日】2022-06-23

(86)【国際出願番号】 IB2020053754

(87)【国際公開番号】W WO2020217165

(87)【国際公開日】2020-10-29

【審査請求日】2022-09-22

(31)【優先権主張番号】16/394,261

(32)【優先日】2019-04-25

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】390009531

【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション

【氏名又は名称原語表記】ＩＮＴＥＲＮＡＴＩＯＮＡＬＢＵＳＩＮＥＳＳＭＡＣＨＩＮＥＳＣＯＲＰＯＲＡＴＩＯＮ

【住所又は居所原語表記】ＮｅｗＯｒｃｈａｒｄＲｏａｄ，Ａｒｍｏｎｋ，ＮｅｗＹｏｒｋ１０５０４，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100112690

【弁理士】

【氏名又は名称】太佐種一

(72)【発明者】

【氏名】チャン、ヤン

(72)【発明者】

【氏名】ガン、チュアン

【審査官】毛利太郎

(56)【参考文献】

【文献】特開２０１８－０３６３５９（ＪＰ，Ａ）

【文献】Bochen Li, Karthik Dinesh, Zhiyao Duan, and Gaurav Sharma，SEE AND LISTEN: SCORE-INFORMED ASSOCIATION OF SOUND TRACKS TO PLAYERS IN CHAMBER MUSIC PERFORMANCE VIDEOS [online]，ICASSP 2017，米国，IEEE，2017年03月05日，pp.2906-2910，Internet <URL:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7952688>，[検索日 2023.11.28]

【文献】Shuaishuai Ye, Ting Jiang, Shan Qin, Weixia Zou, Chengyun Deng，Speech Enhancement Based on A New Architecture of Wasserstein Generative Adversarial Networks [online]，ISCSLP 2018，米国，IEEE，2018年11月26日，pp.399-403，Internet<URL:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8706647>，[検索日 2023.11.28]

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１３／００－２５／９３

(57)【特許請求の範囲】

【請求項1】

音声映像源分離処理のための方法であって、
ビデオ・エンコーダに、複数の音源の画像を示すビデオ・フレーム・データを受信するステップと、
前記ビデオ・エンコーダに、前記ビデオ・フレーム・データのオプティカル・フロー・フレーム・データを同時に受信するステップであって、前記オプティカル・フロー・フレーム・データは、前記ビデオ・フレーム・データのフレーム間のピクセルの動きを示す、ステップと、
前記ビデオ・エンコーダにおいて、前記受信されたビデオ・フレーム・データを、前記ビデオ・フレーム・データのフレーム内のピクセルを異なる音のチャネルに関連付ける情報を含むビデオ位置特定データに符号化するステップと、
前記ビデオ・エンコーダにおいて、前記受信されたオプティカル・フロー・フレーム・データを、前記ビデオ・フレーム・データのフレーム内の動き情報を前記異なる音のチャネルに関連付ける情報を含むビデオ分離データに符号化するステップと、
前記ビデオ・フレーム・データに関連する音声を受信するステップと、
前記受信された音声を短時間フーリエ変換（ＳＴＦＴ）関数を用いて処理して、前記受信された音声の時間ｔにおける異なる周波数ビンｎの値のリストを含むスペクトログラム・データを提供するステップと、
を含む方法。

【請求項2】

前記異なる音のチャネルの前記ビデオ分離データを前記スペクトログラム・データに関連付けて、混合物スペクトログラム・データを提供するステップをさらに含む、請求項１に記載の方法。

【請求項3】

前記混合物スペクトログラム・データからの特徴量を、前記異なる音のチャネルの異なるチャネルに関連付けられ、前記混合物スペクトログラム・データから抽出された特徴量としての音声の抽出された特徴量に抽出するステップと、
前記抽出された特徴量をビデオ・フレーム内の異なるピクセルと関係付けるために、前記音声の抽出された特徴量を前記位置特定データからの重みに関連付けるステップと
をさらに含む、請求項２に記載の方法。

【請求項4】

ビデオ・フレーム内の各ピクセルについて、前記抽出された特徴量を合計して、分離されたスペクトログラム・データを提供するステップをさらに含む、請求項３に記載の方法。

【請求項5】

ユーザによって選択されたピクセルの位置を入力データとして受信するステップと、
逆短時間フーリエ変換（ＩＳＴＦＴ）を用いて前記選択されたピクセルの前記分離されたスペクトログラム・データを前記ビデオ・フレームにつき受信された前記音声データと混合するステップと、
前記ＩＳＴＦＴを出力音声データとして提供するステップと
によってビデオ・フレームの選択されたピクセルの音声を合成するステップをさらに含む、請求項４に記載の方法。

【請求項6】

クラウド・サービスによって実装される、請求項１に記載の方法。

【請求項7】

音声映像源分離処理のための方法であって、
ＧＡＮ生成器とＧＡＮ判別器とを含むように構成された複数のディープ・ニューラル・ネットワーク（ＤＮＮs）を含む敵対的生成ネットワーク（ＧＡＮ）システムを提供するステップであって、前記ＧＡＮ生成器は、ビデオ・フレーム・データと、前記ビデオ・フレーム間のピクセルの動きを示す関連するオプティカル・フロー・フレーム・データとを受信するように構成される、ステップと、
前記ビデオ・フレーム・データに関連する音声を受信する音声受信機を提供するステップであって、前記音声受信機は、前記関連する音声を時間ｔにおける異なる周波数ビンｎの値のリストを含むスペクトログラム・データに変換する短時間フーリエ変換（ＳＴＦＴ）機能部を含む、ステップと、
前記ビデオ・フレーム・データのピクセルの選択を選択されたピクセルとして受信する入力部を提供するステップと、
音声合成器において前記選択されたピクセルのスペクトログラム・データを前記関連する音声と混合し、前記音声合成器の出力を逆短時間フーリエ変換（ＩＳＴＦＴ）機能部に提供するステップと、
前記ＩＳＴＦＴ機能部の出力を前記選択されたピクセルの出力音声として提供するステップと
を含む方法。

【請求項8】

前記ＧＡＮ生成器の前記ＤＮＮsは、
前記ビデオ・フレーム・データおよび前記オプティカル・フロー・フレーム・データを、前記ビデオ・フレーム内のピクセル位置を前記ビデオの音チャネル・データに関連付ける位置特定特徴量ベクトルと、前記ピクセルの動き情報を前記ビデオの前記音チャネル・データに関連付ける分離特徴量ベクトルとに符号化し、
ビデオ・フレームのタイミングを前記スペクトログラム・データと統一し、
前記スペクトログラム・データを、異なる音チャネルに関連する前記スペクトログラムの特徴量としてスペクトログラム分離特徴量に分離する
ように訓練される、請求項７に記載の方法。

【請求項9】

前記位置特定特徴量ベクトルの重み値を用いて、前記スペクトログラム分離特徴量を前記ピクセル位置に関連付けるステップをさらに含む、請求項８に記載の方法。

【請求項10】

前記ＧＡＮ生成器の前記ＤＮＮsおよび前記ＧＡＮ判別器の前記ＤＮＮsを訓練するステップをさらに含み、前記訓練は、前記ＧＡＮ生成器に複数の異なるビデオ・クリップを受信するステップと、勾配降下訓練プロセスを用いて、候補が本物であるか偽物であるかまたはクリーンであるか混合物であるかを正しく識別するように前記ＧＡＮ判別器を訓練しながら前記ＧＡＮ判別器を騙そうとする前記候補を生成するように前記ＧＡＮ生成器を訓練するステップとを含む、請求項７に記載の方法。

【請求項11】

クラウド・サービスによって実装される、請求項７に記載の方法。

【請求項12】

音声映像源分離処理のための方法であって、ＧＡＮ生成器とＧＡＮ判別器とを含むように構成された複数のディープ・ニューラル・ネットワーク（ＤＮＮs）を含む敵対的生成ネットワーク（ＧＡＮ）システムを訓練するステップであって、前記ＧＡＮ生成器は、ビデオ・フレーム・データと、前記ビデオ・フレーム間のピクセルの動きを示す関連するオプティカル・フロー・フレーム・データとを受信するように構成される、ステップを含み
、
前記訓練は、前記ＧＡＮ生成器に複数の異なるビデオ・クリップを受信するステップと、勾配降下訓練プロセスを用いて、候補が本物であるか偽物であるかまたはクリーンであるか混合物であるかを正しく識別するように前記ＧＡＮ判別器を訓練しながら前記ＧＡＮ判別器を騙そうとする前記候補を生成するように前記ＧＡＮ生成器を訓練するステップと、
前記ＧＡＮシステムの前記訓練は、前記源分離のための基準音としてＫ個の異なる音のチャネルを提供し、
音声を提供する複数の音源を含む画像を示すビデオ・フレーム・データに関連する前記音声を受信するステップと、
前記受信された音声を短時間フーリエ変換（ＳＴＦＴ）機能部で処理して、前記受信された音声を、時間ｔにおける異なる周波数ビンｎの値のリストを含むスペクトログラム・データに変換するステップと、
前記訓練されたＧＡＮ生成器への入力データとして、前記複数の音源を含む前記画像を示す前記ビデオ・フレーム・データと前記ビデオ・フレーム・データのオプティカル・フロー・フレーム・データとを受信するステップであって、前記オプティカル・フロー・フレーム・データは、前記ビデオ・フレーム・データのフレーム間のピクセルの動きを示し、前記訓練されたＧＡＮ生成器は、
前記受信されたビデオ・フレーム・データを、前記ビデオ・フレーム・データのフレーム内のピクセルを前記Ｋ個の異なる音のチャネルに関連付ける情報を含むビデオ位置特定データに符号化し、
前記受信されたオプティカル・フロー・フレーム・データを、前記ビデオ・フレーム・データのフレーム内の動き情報を前記Ｋ個の異なる音のチャネルに関連付ける情報を含むビデオ分離データに符号化し、
前記Ｋ個の異なる音のチャネルの前記ビデオ分離データを前記スペクトログラム・データに関連付けて、混合物スペクトログラム・データを提供し、
前記混合物スペクトログラム・データからの特徴量を、前記異なる音のチャネルの異なるチャネルに関連付けられ、前記混合物スペクトログラム・データから抽出された特徴量としての音声の抽出された特徴量に抽出し、
前記抽出された特徴量をビデオ・フレーム内の異なるピクセルと関係付けるために、前記音声の抽出された特徴量を前記位置特定データからの重みに関連付ける、
ステップと、
ユーザによって選択されたピクセルの位置を入力データとして受信するステップと、
逆短時間フーリエ変換（ＩＳＴＦＴ）を用いて前記選択されたピクセルの前記分離されたスペクトログラム・データを前記ビデオ・フレームにつき受信された前記音声データと混合するステップと、
前記ＩＳＴＦＴを前記選択されたピクセルに関連する音として出力音声データとして提供するステップと
を含む、
方法。

【請求項13】

ＧＡＮ生成器とＧＡＮ判別器とを含む複数のディープ・ニューラル・ネットワーク（ＤＮＮs）を含む敵対的生成ネットワーク（ＧＡＮ）システムであって、前記ＧＡＮ生成器は、ビデオ・フレーム・データと、前記ビデオ・フレーム間のピクセルの動きを示す関連するオプティカル・フロー・フレーム・データとを受信するように構成される、前記ＧＡＮシステムと、
前記ビデオ・フレーム・データに関連する音声を受信するように構成された音声受信機であって、前記関連する音声を時間ｔにおける異なる周波数ビンｎの値のリストを含むスペクトログラム・データに変換する短時間フーリエ変換（ＳＴＦＴ）機能部を含む音声受信機と、
前記ビデオ・フレーム・データのピクセルの選択を選択されたピクセルとして受信する入力部と、
音声合成器において前記選択されたピクセルのスペクトログラム・データを前記関連する音声と混合するように構成された音声合成器と、
音声合成器の出力を受信し、前記選択されたピクセルの音声の出力をその出力として提供するように構成された逆短時間フーリエ変換（ＩＳＴＦＴ）機能部と
を含む、音声映像源分離システム。

【請求項14】

前記ＧＡＮシステムは、
前記ＧＡＮ生成器に複数の異なるビデオ・クリップを受信するステップと、
前記ＧＡＮ生成器の前記ＤＮＮｓに勾配降下訓練プロセスを適用して、前記ＧＡＮ判別器を騙そうとする候補を生成するように前記ＧＡＮ生成器を訓練するステップと、
前記ＧＡＮ判別器に前記勾配降下訓練プロセスを適用して、前記候補が本物であるか偽物であるかまたはクリーンであるか混合物であるかを正しく識別するように前記ＧＡＮ判別器を訓練するステップと
によって最初に訓練される、請求項１３に記載の音声映像源分離システム。

【請求項15】

ビデオ・フレーム・データと、前記ビデオ・フレーム間のピクセルの動きを示す関連するオプティカル・フロー・フレーム・データとを受信するように構成されるビデオ・エンコーダであって、前記ビデオ・エンコーダは、前記ビデオ・フレーム・データを、前記ビデオ・フレーム・データのフレーム内のピクセルを異なる音のチャネルに関連付ける情報を含むビデオ位置特定データに符号化し、および前記オプティカル・フロー・フレーム・データを、前記ビデオ・フレーム・データのフレーム内の動き情報を前記異なる音のチャネルに関連付ける情報を含むビデオ分離データに符号化する、前記ビデオ・エンコーダと、
前記ビデオ・フレーム・データに関連する音声を受信するように構成された音声受信機であって、前記関連する音声を時間ｔにおける異なる周波数ビンｎの値のリストを含むスペクトログラム・データに変換する短時間フーリエ変換（ＳＴＦＴ）機能部を含む音声受信機と、
を含む、音声映像源分離システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、一般に源分離に関する。特に、音を位置特定するためにビデオ画像内の動き情報からの時間情報を用いて音源がビデオ・フレーム内の特定のピクセルに位置特定され、敵対的生成ネットワーク（ＧＡＮ：ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）が位置特定された音（単数または複数）の自然さを改良する。

【背景技術】

【0002】

源分離は、複数の音声の混合物を分離するタスクを指す。市販の発話処理システムにとって干渉およびノイズの存在下での発話を処理できることが重要であるため、源分離は発話の最も白熱する研究分野の一つである。

【0003】

音声映像源分離は、映像キュー、例えばビデオを利用する重要な部類の源分離である。ビデオ情報は、動きの併発、楽曲分離のための楽器の動作、および発話分離のための唇の動作など、多数の有用なキューを与えるため、分離性能を改良することが期待される。最近では、音声映像源分離にディープ・ラーニングのアプローチが応用されており、優れた結果を達成している。

【0004】

例えば、本発明の共同発明者の一人が参加して開発された一つのビデオベースの源分離システムＰｉｘｅｌＰｌａｙｅｒが、論文「ＴｈｅｓｏｕｎｄｏｆＰｉｘｅｌｓ」に記載される。この論文の表題名または単に「ＰｉｘｅｌＰｌａｙｅｒ」を用いてインターネット検索したウェブサイトにデモが提供される。ＰｉｘｅｌＰｌａｙｅｒは音を産出し、入力音をビデオ画像データの各ピクセルからの音を表す成分のセットに分離する。このシステムは、様々な楽器を演奏する一人または二人の人を含むいくつかのビデオを、ビデオ・データに関連する単一の聴覚入力とともに用いて訓練される。映像と音声のモダリティが同期されるため、ＰｉｘｅｌＰｌａｙｅｒシステムは、音声映像源分離および位置特定を学習して、入力音信号を異なる楽器カテゴリにそれぞれ対応するＮ個の音チャネルに分割することができ、音を位置特定し、異なる音声波を入力ビデオの各ピクセルに割り当てることができる。

【0005】

しかし、ＰｉｘｅｌＰｌａｙｅｒなどのこれらの源分離のアプローチの重要な問題は、出力される発話／楽曲が十分に自然に聞こえないことである。

【発明の概要】

【課題を解決するための手段】

【0006】

本発明は、このような音声映像源分離の問題およびその他の問題に対処する。

【0007】

例示的実施形態によれば、本発明は、ビデオ・エンコーダ・モジュールに、複数の音源に関連する映像データを含むビデオ・データを受信するステップと、ビデオ・エンコーダ・モジュールに、ビデオ・データのオプティカル・フロー・データを同時に受信するステップであって、オプティカル・フロー・データは、ビデオ・データのフレーム間のピクセルの動きを示す、ステップと、ビデオ・エンコーダにおいて、受信されたビデオ・データを、異なる音源をビデオ・データのフレーム内の異なるピクセルに関連付けるための情報を含む位置特定データに符号化するステップと、ビデオ・エンコーダにおいて、受信されたオプティカル・フロー・データを、ビデオ・データのフレーム内の異なる音源を単離するための映像キュー情報を含む分離データに符号化するステップとを含む、ビデオ・データ内の音源分離のための方法（ならびに装置およびコンピュータ製品）を開示する。

【0008】

別の例示的実施形態によれば、音声映像源分離処理のための方法であって、ＧＡＮ生成器とＧＡＮ判別器とを含むように構成された複数のディープ・ニューラル・ネットワーク（ＤＮＮｓ：ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）を含む敵対的生成ネットワーク（ＧＡＮ）システムを提供するステップであって、ＧＡＮ生成器は、ビデオ・フレーム・データと、ビデオ・フレーム間のピクセルの動きを示す関連するオプティカル・フロー・フレーム・データとを受信するように構成される、ステップと、ビデオ・フレーム・データに関連する音声を受信する音声受信機を提供するステップであって、音声受信機は、関連する音声を時間ｔにおける異なる周波数ビンｎの値のリストを含むスペクトログラム・データに変換する短時間フーリエ変換（ＳＴＦＴ：Ｓｈｏｒｔ‐ＴｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）機能部を含む、ステップと、ビデオ・フレーム・データのピクセルの選択を選択されたピクセルとして受信する入力部を提供するステップと、音声合成器において選択されたピクセルのスペクトログラム・データを関連する音声と混合し、音声合成器の出力を逆短時間フーリエ変換（ＩＳＴＦＴ：ＩｎｖｅｒｓｅＳｈｏｒｔ‐ＴｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）機能部に提供するステップと、ＩＳＴＦＴ機能部の出力を選択されたピクセルの出力音声として提供するステップとを含む方法も本明細書に開示される。

【0009】

別の例示的実施形態によれば、音声映像源分離処理のための方法であって、ＧＡＮ生成器とＧＡＮ判別器とを含むように構成された複数のディープ・ニューラル・ネットワーク（ＤＮＮｓ）を含む敵対的生成ネットワーク（ＧＡＮ）システムを訓練するステップであって、ＧＡＮ生成器は、ビデオ・フレーム・データと、ビデオ・フレーム間のピクセルの動きを示す関連するオプティカル・フロー・フレーム・データとを受信するように構成される、ステップを含み、訓練は、ＧＡＮ生成器に複数の異なるビデオ・クリップを受信するステップと、勾配降下訓練プロセスを用いて、候補が本物であるか偽物であるかまたはクリーンであるか混合物であるかを正しく識別するようにＧＡＮ判別器を訓練しながらＧＡＮ判別器を騙そうとする候補を生成するようにＧＡＮ生成器を訓練するステップとを含む、方法も本明細書に開示される。

【0010】

別の例示的実施形態によれば、音声映像源分離に使用される敵対的生成ネットワーク（ＧＡＮ）システムを訓練する方法であって、ＧＡＮシステムは、ＧＡＮ生成器とＧＡＮ判別器とを含むように構成された複数のディープ・ニューラル・ネットワーク（ＤＮＮｓ）を含み、ＧＡＮ生成器は、ビデオ・フレーム・データと、ビデオ・フレーム間のピクセルの動きを示す関連するオプティカル・フロー・フレーム・データとを受信するように構成され、訓練方法は、ＧＡＮ生成器に複数の異なるビデオ・クリップを受信するステップと、ＧＡＮ生成器のＤＮＮｓに勾配降下訓練プロセスを適用して、ＧＡＮ判別器を騙そうとする候補を生成するようにＧＡＮ生成器を訓練するステップと、ＧＡＮ判別器に勾配降下訓練プロセスを適用して、候補が本物であるか偽物であるかまたはクリーンであるか混合物であるかを正しく識別するようにＧＡＮ判別器を訓練するステップとを含む、方法も本明細書に開示される。

【0011】

さらなる例示的実施形態によれば、ＧＡＮ生成器とＧＡＮ判別器とを含む複数のディープ・ニューラル・ネットワーク（ＤＮＮｓ）を含む敵対的生成ネットワーク（ＧＡＮ）システムであって、ＧＡＮ生成器は、ビデオ・フレーム・データと、ビデオ・フレーム間のピクセルの動きを示す関連するオプティカル・フロー・フレーム・データとを受信するように構成される、ＧＡＮシステムと、ビデオ・フレーム・データに関連する音声を受信するように構成された音声受信機であって、関連する音声を時間ｔにおける異なる周波数ビンｎの値のリストを含むスペクトログラム・データに変換する短時間フーリエ変換（ＳＴＦＴ）機能部を含む音声受信機と、ビデオ・フレーム・データのピクセルの選択を選択されたピクセルとして受信する入力部と、音声合成器において選択されたピクセルのスペクトログラム・データを関連する音声と混合するように構成された音声合成器と、音声合成器の出力を受信し、選択されたピクセルの音声の出力をその出力として提供するように構成された逆短時間フーリエ変換（ＩＳＴＦＴ）機能部とを含む音声映像源分離システムも本明細書に開示される。

【0012】

次に本発明の実施形態を、添付の図面を参照して単なる例として説明する。

【図面の簡単な説明】

【0013】

【図1】ＰｉｘｅｌＰｌａｙｅｒで使用される従来の音声映像源分離回路のアーキテクチャを示す。

【図2】本発明の音声映像源分離回路の例示的実施形態を示す。

【図3】ペア・データを用いたＧＡＮ生成器の例示的な訓練に関する式を示す。

【図4】ペア・データを用いずにＧＡＮ生成器を訓練するための式を例示的に示す。

【図5】本発明の一実施形態によるクラウド・コンピューティング環境を示す。

【図6】本発明の一実施形態による抽象モデル層を示す。

【発明を実施するための形態】

【0014】

本発明をより良く説明するために、導入部で言及した従来の音声映像ＰｉｘｅｌＰｌａｙｅｒ分離回路のアーキテクチャ１００をより詳細に説明する説明を提供する。

【0015】

ＰｉｘｅｌＰｌａｙｅｒシステム
図１に示されるように、ＰｉｘｅｌＰｌａｙｅｒ１００は、ビデオ分析ネットワーク１０２、音声分析ネットワーク１１０、および音声合成器ネットワーク１２０を含む。

【0016】

ビデオ分析ネットワーク１０２は、ＲｅｓＮｅｔ‐１８の拡張版を用いて、Ｔはフレーム数であるＴ×Ｈ×Ｗ×３のサイズの入力ビデオを処理して、ビデオ・フレーム１０４から映像特徴量を抽出する。ＲｅｓＮｅｔスタック１０６は、Ｔ×（Ｈ／１６）×（Ｗ／１６）×Ｋのサイズのフレーム毎の特徴量を抽出し、ここでＫは音声源／チャネルの数である。時間プーリングおよびシグモイド活性化の後、サイズＫすなわち訓練中に使用される音源数の、フレーム・データの各ピクセルの映像特徴量ｉ_ｋ，（ｘ，ｙ）１０８が得られる。

【0017】

音声分析ネットワーク１１０は、短時間フーリエ変換（ＳＴＦＴ）を用いて入力音声１１４から音スペクトログラム１１２を導出し、続いてスペクトログラム・データをＵ‐Ｎｅｔ（畳み込みニューラル・ネットワークの一形式）アーキテクチャ１１６に入力される対数周波数スケール・データに変換する。Ｕ‐Ｎｅｔ１１６は、入力音をＫ個の成分１１８ｓ_ｋ，ｋ＝（１，…，Ｋ）に分割し、それによって、Ｋ個のチャネルに分割された入力音の時間周波数表現を提供する。図１に例示的に示されるシナリオでは、ビデオ・フレーム１０４に示される各音楽家に一つずつ二つの音源が存在するため、Ｋ＝２と想定しうる。しかし、実際にはＫは、訓練に使用されるデータセットにサンプリングされた異なる楽器カテゴリの総数であり、したがって上に特定されたｋ値は通常、図１に例示的に入力データとして示された二つの楽器以外の任意の数の追加の楽器に対応すると考えられるが、任意の特定のビデオ・クリップにおいて様々な楽器タイプｋの寄与はゼロである可能性もある。

【0018】

音声合成器ネットワーク１２０は、音声特徴量ｓ_ｋ１１８を用いたピクセルレベルの映像特徴量ｉ_ｋ，（ｘ，ｙ）１０８の映像ベースのスペクトログラム・マスキングによって音を予測する。予測されるスペクトログラムの大きさを入力スペクトログラムの位相と組み合わせ、逆ＳＴＦＴを適用することによって、予測の出力波形１２２が得られる。

【0019】

ＰｉｘｅｌＰｌａｙｅｒには、関連する映像入力を条件とした目的の音源を分離することを学習目的として異なるビデオからの音を混合して複合音声入力チャネルを生成する自己教師あり訓練手順が用いられる。訓練フェーズは、訓練セットのためにN個の複数のビデオがランダムにサンプリングされ、それらの関連する音声が入力データとして混合され、目標は、各音声をその関連する映像入力に伴って復元するようにニューラル・ネットワークを訓練することである点でユーザ・フェーズと異なった。

【0020】

ＰｉｘｅｌＰｌａｙｅｒのＲｅｓＮｅｔ‐１８スタック１０６は、最後の平均プーリング層および全結合（ｆｃ：ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ）層を除去して、最後の残差ブロックのストライドを除去し、このブロックの畳み込み層に３の拡張を持たせ、Ｋ個の出力チャネルの３×３畳み込み層を加えて修正された。各ビデオ・サンプルで、２２４×２２４×３のサイズのＴ個のフレームが入力として使用され、出力は時空間ｍａｘプーリング後のサイズＫの特徴量であった。

【0021】

音声分析ネットワークのＵ‐Ｎｅｔは、間にショートカットを伴う七つの畳み込み（またはダウン畳み込み）および七つの逆畳み込み（またはアップ畳み込み）を有するように修正された。Ｕ‐Ｎｅｔは、２５６×２５６×１のサイズの音声スペクトログラムおよび２５６×２５６×ＫのサイズのＫ個の特徴量マップの出力をとった。

【0022】

本発明
音声映像源分離のタスクに対するＰｉｘｅｌＰｌａｙｅｒなどの従来のアプローチを検討する際に、本発明者らは、そのような先行技術のシステムの限界には、少なくとも
‐ビデオにおける時間情報が考慮されないこと、
‐出力があまり自然に聞こえないこと、および
‐グラウンド・トゥルースを利用できないこと
が含まれることを認めた。

【0023】

ＰｉｘｅｌＰｌａｙｅｒの手法と同様に、また図２に例示的に示されるように、本発明は、図１に示されるＰｉｘｅｌＰｌａｙｅｒの音声入力１１４と同様に、ＳＴＦＴを用いてスペクトログラム・データ２１８に変換するための音声入力２０６を受信し、ＩＳＦＴＦを介して選択されたピクセルの音声出力を提供する。

【0024】

しかし、出力される発話／楽曲が自然に聞こえないという指摘された限界に対応して、本発明者らは、敵対的生成ネットワーク（ＧＡＮ）がＰａｓｃｕａｌらによって「ＳＥＧＡＮ：ＳｐｅｅｃｈＥｎｈａｎｃｅｍｅｎｔＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ」に記載されるように通常の源分離性能を潜在的に改良することが実証されていることから自然な画像／音声を生成できるモデルであることを認めた。この所見を動機として、本発明は、
１）ビデオ内の音を位置特定するためにビデオの動き検出を入力として用いることにより映像キューを利用して分離を支援し、
２）各音源をビデオのピクセル上に位置特定し、
３）ＧＡＮを利用して自然に聞こえる出力を生成する、
新規な源分離システムを提供する。

【0025】

したがって、本発明の問題の定式化は、音スペクトログラムの混合物ｓ（ｎ，ｔ）＝Σ_ｉｓ_ｉ（ｎ，ｔ）および対応するビデオｖ（ｘ，ｙ，ｔ）を前提として、位置ベースのスペクトログラムの推定

【0026】

【数1】

【0027】

を、ピクセルが発する音に真に対応するように産出することであり、ここでｘは水平位置インデックスであり、ｙは垂直位置インデックスであり、ｔはフレーム・インデックスであり、ｎは周波数インデックスであり、ここでＳ（ｎ，ｔ）は、フレームｔおよび周波数ビンｎにおけるスペクトログラム値を意味する。

【0028】

本発明の様々なモジュールの最初の概要として、またＰｉｘｅｌＰｌａｙｅｒについて記載された機構との違いの説明を開始するために、ビデオ符号化モジュール２１０は、ニューラル・ネットワーク２１２を用いて、入力ビデオ・ストリーム内の関連のコンテンツおよび動き情報をピクセル変動位置特定特徴量２１４および時間変動分離特徴量２１６に符号化する。位置特定特徴量２１４は、異なる源をビデオ内の異なるピクセルに関連付けるための情報を提供し、分離特徴量２１６は、動き情報からの異なる音源の単離のための源分離モジュール２２０への映像キューを提供する。

【0029】

源分離モジュール２２０は、音声混合物スペクトログラムｓ（ｎ，ｔ）２１８（ＰｉｘｅｌＰｌａｙｅｒと同様にＳＴＦＦを用いて音声入力２０６から導出）および分離ベクトル２１６をとって、チャネルｋに沿った分離にしたがって音声の分離特徴量２２２を提供する。次に、分離された特徴量２２２が、位置特定ベクトル２１４のデータから導出された重みを用いてピクセルに関連付けられる。より正確には重みは、フレームの各ピクセルが訓練中に使用されるｋ個の楽器カテゴリのそれぞれに対応する重みに関連付けられるように特定のピクセルに対応する２１４からの１×Ｋのサブベクトルである。様々な重みｗ_ｋ（ｘ，ｙ）は、任意の特定の入力ビデオ・クリップ２０２でそのチャネルの音がビデオ・クリップに存在しない場合にはゼロに等しい値を有しうる。

【0030】

上に簡単に言及したＳＥＧＡＮで使用される判別器に類似する判別器モジュール２３０は、入力スペクトログラムが本物であるか偽物であるかを指定するスカラー２３４を提供し、これはＧＡＮの決定的特徴である。音声判別器２３０は、入力スペクトログラムが本物（グラウンド・トゥルースの単一チャネルの音声）であるか位置特定ベクトル２１４を条件とした偽物（分離された結果）であるかを予測する。

【0031】

図２は、単一の音声判別器２３０を記号で示すが、実際には判別器記号２３０によって二つの判別器機能部が提供される。一方の判別器機能部は、音声が本物であるか偽物であるかを判別し（これはペア・ビデオ・データで使用される）、他方の判別器機能部は、音声がクリーンであるか混合物であるかを判別する（これはペア・データによらない訓練で使用される）。二つの判別器機能部のいずれが使用されるかは、使用される訓練ビデオ・クリップのタイプに依存し、各判別器機能部は、訓練についてより詳しく説明する際に後述するように、そのタイプの訓練ビデオ・クリップが使用されるときに最小化されるべき目的関数が異なる。

【0032】

源分離モジュール２２０の目標の一つは、音声判別器モジュール２３０を騙すことである（例えば本物であるか偽物であるかまたはクリーンであるか混合されたものであるか）。したがって、ビデオ符号化モジュール２１０（ＲｅｓＮｅｔ２１２およびプーリング層２１２Ａ、２１２Ｂを有する）、リサンプリングｄｅｃｏｎｖモジュール２４０、および源分離モジュール２２０（加算器２２６を含む）を含む図２に示される本発明と音声判別器モジュール２３０とが一緒にＧＡＮシステムを形成し、このＧＡＮシステムは分離された音声の強化を目的とする本発明の顕著な特徴の一つであり、ビデオ符号化モジュール２１０、リサンプリングｄｅｃｏｎｖモジュール２４０、および源分離モジュール２２０が一緒にＧＡＮシステムの生成器構成要素を形成し、判別器モジュール２３０が判別器構成要素として働く。

【0033】

後述のように、ＧＡＮの三つのニューラル・ネットワーク２１２、２２４、２３２の訓練が完了すると、システム２００は、混合物スペクトログラム２１８の位相を分離された特徴量２２２に適用し、その後システムは、重畳加算２２６および逆短時間フーリエ変換（ＩＳＴＦＴ）を行って、選択されたピクセルからの音として目的の波形２０８を復元する。

【0034】

ディスプレイ内の特定のピクセルを指すために使用されうるキーボードもしくはマウスなどのポインタ・デバイスまたはその組み合わせなどのユーザ入力デバイス、ならびにディスプレイ出力デバイスおよび音声出力回路は、当技術分野で周知であると考えられ、本発明の新規性の一部ではないため図２には示されない。加えて、図２の構成要素を実装するため、ならびに後述する訓練関数の計算を実行することによってネットワークの訓練を実装するために使用されるであろうプロセッサ（単数または複数）も、この態様が当技術分野で周知であると考えられることから図２には示されない。

【0035】

次に、主要な構成要素および動作の追加の詳細を説明する。

【0036】

ビデオ符号化モジュール
上述のように、ビデオ符号化モジュール２１０は、入力ビデオ情報内の関連のコンテンツ２０２および動き情報２０４を、ピクセル変動位置特定特徴量２１４および時間変動分離特徴量２１６に符号化する。分離特徴量２１６は、源分離モジュール２２０に映像キューを提供し、位置特定特徴量２１４は、異なる源をビデオ上の異なるピクセルに関連付けるために使用される。理想的には、本発明の訓練が完璧であれば、出力ビデオ・ディスプレイ上で関連する音を有する図２に例示的に示される入力ビデオ２０２のピクセルは、二人の音楽家の動作に起因する二つの楽器の周りの領域の動きを示す画像データのピクセルだけとなり、静止した背景ピクセルなどの任意の他のピクセルは関連する音を有しないと考えられる。本発明は、入力ビデオ２０２の音声ストリーム部分から収集され、ＧＡＮニューラル・ネットワークによって強化された、その楽器の音声音２０６を提供すると考えられる。

【0037】

ビデオ符号化モジュール２１０は、位置特定特徴量２１４から利用可能な位置特定を行うだけでなく、映像情報が分離を支援できるように分離特徴量２１６を提供する分離ベクトルを追加することによって、例えばＰｉｘｅｌＰｌａｙｅｒで使用される従来の方法で説明されるものを改良する。本明細書において「チャネル」とも呼ばれるパラメータＫは、異なる音特徴量に対するビデオ入力データ内の異なるピクセル動き領域に関係するものと最初に考えられうる。しかし、より正確にはパラメータＫは、システムの訓練中に様々なビデオ・クリップにおいて使用される楽器のデータベースに様々な楽器のいずれが含まれるかに関係する。したがって、重要な特徴は、本発明のＧＡＮシステムによって組み込まれるニューラル・ネットワークが様々な楽器の音を強化するように訓練されることである。

【0038】

ビデオ符号化モジュール２１０は、ＲｅｓＮｅｔモジュールがＰｉｘｅｌＰｌａｙｅｒについての説明と同様に構成される点で、一つ一つの入力フレームに対する２Ｄ畳み込み層のスタック２１２であるＰｉｘｅｌＰｌａｙｅｒで使用されるものに多少類似する。しかし、二つの重要な違いがある。第一に、本発明の符号化モジュール２１０は、生のビデオに加えて、オプティカル・フロー入力データ２０４として生のビデオの各フレームの動き画像データもとるため、本発明のＲｅｓＮｅｔスタック２１２は、このオプティカル・フロー・データ用の追加のＲｅｓＮｅｔユニットを含む。なお、ビデオ・フレーム２０２の各フレームおよびオプティカル・フロー・フレーム２０４の各フレームは、ＲｅｓＮｅｔスタック２１２の関連するそれぞれのＲｅｓＮｅｔに提供されるため、好ましい例示的実施形態ではスタック２１２には実際に六つのＲｅｓＮｅｔユニットが存在することに留意されたい。このような入力データの各フレーム・ユニットに対するそれぞれのＲｅｓＮｅｔユニットの一意性は、本発明がビデオ・フレーム２０２の画像動きデータから導出されたオプティカル・フロー・データ２０４のためのＲｅｓＮｅｔユニットも含むことを除いて、図１に示されるビデオ入力１０４と同様である。

【0039】

第二に、最初の畳み込みニューラル・ネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）層（すなわちＲｅｓＮｅｔ層２１２）の後、符号化モジュール２１０は二つのブランチ２１２Ａ、２１２Ｂに分かれる。第一ブランチ２１２Ａは、ＰｉｘｅｌＰｌａｙｅｒで行われるのと同様に、空間次元のｍｅａｎプーリングを行う。このブランチの出力は、まもなく説明するピクセル特徴量ｆｐ（ｘ，ｙ，ｋ）に対応するＸ×Ｙ×Ｋのサイズの三次元テンソルとしてのＸ^＊Ｙ^＊Ｋのサイズの位置特定特徴量２１４と呼ばれ、ここでＸ、Ｙ、Ｋはそれぞれ幅、高さ、および特徴量の次元である。第二ブランチ２１２Ｂは、追加のＣＮＮ層を適用して時間次元をさらに縮小し、最後に時間次元のｍｅａｎプーリングを行う。このブランチの出力は、Ｔ^＊Ｋのサイズの分離特徴量２１６と呼ばれ、ここでＴはビデオ・フレームの数である。

【0040】

ビデオ・エンコーダ２１０への入力は、ビデオ・フレーム・データｖ（ｘ，ｙ，ｔ）２０２およびオプティカル・フロー・データｏ（ｘ，ｙ，ｔ）２０４を含み、ここでｘは水平位置インデックスであり、ｙは垂直位置インデックスであり、ｔはビデオ・フレーム・インデックスである。本発明のＫパラメータ・データは、オプティカル・フロー入力データ２０４から部分的に導出され、オプティカル・フロー・データ２０４はさらに、ビデオ圧縮／伸長の技術において周知の従来の動き特徴検出手法を用いてビデオ・フレーム・データ２０２からビデオ・データ２０２内の動き特徴量として抽出され、通常はピクセルのブロックの単位でビデオ・データのフレーム間のピクセルの動きを示す。

【0041】

本発明のこの例示的実施形態において示されるように、ＲｅｓＮｅｔスタック２１２は、画像データ２０２およびオプティカル・フロー・データ２０４から残差を学習するように訓練される残差ネットワーク（ＲｅｓＮｅｔ：ＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ）層のスタックである。当技術分野で知られるように、残差は、ある層で学習される特徴量をその層への入力から減算したものであり、ＲｅｓＮｅｔ構想の開発の根底にあるのは、ディープ畳み込みニューラル・ネットワークが深くなるほど訓練が難しくなり、精度が劣化し始めるという認識である。ＲｅｓＮｅｔアプローチは、これらの懸念の両方に対処することが実証されている。したがって、好ましい例示的実施形態ではＲｅｓＮｅｔが用いられるが、この特定のニューラル・ネットワーク・タイプの機能／結果を達成するために他のニューラル・ネット機構が用いられることもできるため、本発明がＲｅｓＮｅｔニューラル・ネットワーク・アーキテクチャに基づくこの特定の例示的実施形態に限定されると見なされてはならない。

【0042】

二つのプーリング層２１２Ａ、２１２Ｂは、平均するかまたは最大値をとるかのいずれかを提供しうる、すなわちこれらのプーリング層はｍｅａｎプーリングまたはｍａｘプーリング層のいずれかでありうる。空間プーリング層２１２Ａはピクセル特徴量ベクトルｆｐ（ｘ，ｙ，ｋ）２１４を提供し、時間プーリング層２１２Ｂは時間特徴量ベクトルｆ_τ（ｔ，ｋ）２１６を提供し、ここでτは時間領域を示す。図２の点線２１４Ａは、ピクセル特徴量ベクトル・データ２１４が、音を異なるピクセルに関連付ける機構としての分離モジュール２２０における処理のための重み情報を提供することを示す。特に、分離モジュール２２０で使用される重み２１４Ａは、ピクセル特徴量ベクトル・データｆｐ（ｘ，ｙ，ｋ）２１４がＸ×Ｙ×Ｋの重みテンソルであることを前提として、ピクセル特徴量ベクトル・データ２１４内の選択されたピクセルに対応する１×Ｋのサブベクトルである。したがって、総重みテンソル２１４がＸ×Ｙ×Ｋであり、各抽出された特徴量２２２にＸ×Ｙのピクセルがあるため、抽出された特徴量２２２内の選ばれたピクセル（ｘ，ｙ）ごとにＫ個の重みがある。

【0043】

リサンプリングＤｅｃｏｎｖモジュール
本発明は、（１）ビデオ・フレーム・レート、および（２）スペクトログラム・フレーム・レートの二つの時間分解能を含む。ビデオ・フレーム・レートは通常、１２～２４フレーム／秒である。スペクトログラム２１８のフレーム・レートは通常、１００フレーム／秒である。ビデオ・フレーム・レートは、「リサンプリングｄｅｃｏｎｖ」モジュール２４０を介してスペクトログラム・データ２１８と統一され、それによってビデオ・フレーム・データ２０２が関連する音声入力データ２０６に関連付けられる。

【0044】

リサンプリングｄｅｃｏｎｖモジュール２４０の出力は、音声入力２０６のＳＴＦＴフィルタリング処理によって導出される混合物スペクトログラムｓ（ｎ，ｔ）２１８に関連付けられ、ここでｎは周波数インデックスであり、ｔはビデオ・フレーム時間である。混合物スペクトログラム２１８は、混合物スペクトログラム２１８の上の「プレート」記号によって示されるようにビデオ・フレーム単位でメモリ・バッファに記憶され、混合物スペクトル・データ２１８は、Ｋ個のチャネル全てのスペクトル・データを含む。したがって次のモジュールである分離モジュール２２０は、混合物スペクトログラム・フレーム２１８を、ビデオ・データ内のＫ個の異なる音源のための別々のチャネル成分に分離する機能を有する。

【0045】

源分離モジュール
源分離モジュール２２０内のＣｏｎｖＤｅｃｏｎｖモジュール２２４は、異なるチャネルｋに基づき混合物スペクトログラム・フレームｓ（ｎ，ｔ）２１８から特徴量を抽出して、抽出された特徴量２２２を提供するニューラル・ネットワークである。抽出された特徴量２２２は、これらの抽出された特徴量フレーム２２２の重み付けされた組み合わせが分離されたスペクトログラム・フレーム２２８になるため、スペクトログラムに多少関係する。したがって、例示的な三つの抽出された特徴量フレーム２２２は三つの入力ビデオ・フレーム２０２に対応するのではなく、Ｋ個のスペクトログラム特徴量があることを想起してＫ個のチャネルの異なるチャネルｋに関連付けられることが意図されることに留意されたい。このＣｏｎｖＤｅｃｏｎｖニューラル・ネットワークはＧＡＮの一部であるため、このニューラル・ネットで定義される抽出機構は、本発明によって導入されるＧＡＮシステム全体の訓練中の誤差逆伝播法による重み調整に基づく。抽出された特徴量ｆ_ｓ（ｎ，ｔ，ｋ）２２２は、エンコーダ２１０からの位置特定ベクトル２１４によって提供される重みを用いてビデオ・データのピクセルに関連付けられる。分離モジュール２２０内の「＋」記号２２６は、各ピクセルについての異なる特徴量２２２の線形加算を示す。したがって、ピクセル位置（ｘ，ｙ）およびビデオ・エンコーダ２１０からのそのピクセル特徴量ｆ_ｐ（ｘ，ｙ，ｋ）を前提として、分離モジュール２２０から出力される分離されたスペクトログラム２２８は、以下の通りである。

【0046】

【数2】

【0047】

上記の式から、分離されたスペクトログラム２２８は、ｋ個の特徴量２２２（例えばｆ_ｓ（ｎ，ｔ，１），ｆ_ｓ（ｎ，ｔ，２）…ｆ_ｓ（ｎ，ｔ，ｋ））とビデオ・エンコーダ２１０からのｋ個の線形結合の重み２１４（例えばｆ_ｐ（ｘ，ｙ，１），ｆ_ｐ（ｘ，ｙ，２）…ｆ_ｐ（ｘ，ｙ，ｋ）がエンコーダ２１０からのｋ個の線形結合の重み２１４である）との積からなる。ｋ個の特徴量が重みによって重み付け（乗算）されてから合計されて、分離されたスペクトログラム２２８が形成される。

【0048】

本発明は、音声入力２０６に対するＳＴＦＴフィルタリング機能を用いて混合物スペクトログラム２１８を導出することによって、図１で説明されたものと同様の音声スペクトログラム・データを導出する機能を実装する。図１のＰｉｘｅｌＰｌａｙｅｒの音声Ｕ‐Ｎｅｔ１１６によって行われる機能がＣｏｎｖＤｅｖｏｎｖＮＮ２２４によって行われて、ＰｉｘｅｌＰｌａｙｅｒの図１の音声特徴量１１８と同様に分離された特徴量２２２が導出される。加えて、ＰｉｘｅｌＰｌａｙｅｒの図１に示される音声分析ネットワーク１１０および音声合成器ネットワーク１２０と同様に、分離モジュール２２０が加算機能２２６を提供し、音声合成器２５０がＩＳＴＦＴを提供して音声出力２０８を提供する。

【0049】

しかし、本発明の音声処理は、少なくとも二つの重要な点でＰｉｘｅｌＰｌａｙｅｒの機構と異なる。

【0050】

第一に、本発明の方法は、混合物スペクトログラム２１８に加えて、ビデオ符号化モジュール２１０からの分離特徴量ベクトル２１６も入力としてとる。前述のように、分離特徴量ベクトル２１６は、ビデオ・データ２０２ならびにオプティカル・フロー・データ２０４から導出され、これはＰｉｘｅｌＰｌａｙｅｒと比較して本発明において新規である。また前述のように、分離特徴量２１６は、スペクトログラム・データ２１８を導出する際にビデオのタイミングが音声入力２０６から作成される音声のタイミングに一致するように音声スペクトログラムのフレーム・レートをビデオ・フレームのものと一致させるために本発明のリサンプリングｄｅｃｏｎｖモジュール２４０において時間的にリサンプリングされる。

【0051】

第二に、源分離モジュール２２０の出力は、ＰｉｘｅｌＰｌａｙｅｒで行われるように入力スペクトログラムに対する時間周波数マスクを予測する代わりに、分離されたスペクトログラム２２８を直接予測する。マスクの予測は、元の混合物スペクトログラムと同じサイズの０～１の値のマスクの行列を予測する。入力混合物スペクトログラムにマスクを掛けたものが、予測される分離されたスペクトログラム２２８になる。この顕著な特徴は、本発明においては、ＰｉｘｅｌＰｌａｙｅｒで行われるように図１に示されるマスクでこの機能を行うかわりに、分離されたスペクトログラム２２８の存在によって図２に示される。

【0052】

判別器モジュール
音声判別器モジュール２３０は、本発明の敵対的生成ネットワーク（ＧＡＮ）能力の判別器構成要素を提供し、この判別器機能部は、ＧＡＮシステムの初期訓練中に、入力スペクトログラムが本物（グラウンド・トゥルースの単一チャネルの音声）であるか位置特定ベクトル２１４を条件とした偽物（分離された結果）であるかを予測する。したがって、（ビデオ・エンコーダ２１０のＲｅｓＮｅｔスタック２１２と組み合わせた）源分離モジュール２２０のＣｏｎｖＤｅｃｏｎｖニューラル・ネットワーク２２４の目標の一つは、訓練中に音声判別器モジュール２３０を騙すことである。ＧＡＮシステムのこの訓練を達成するための式はまもなく記載され、さらに説明するように、これらのニューラル・ネットワーク２１２、２２４、２３２、２４０は、初期ＧＡＮ訓練中に順番に交互に更新される。

【0053】

しかし、「敵対的生成ネットワーク」の構想をさらに説明すると、ＧＡＮシステムは、教師なし学習の一形態として、二つのニューラル・ネットワークがゼロサムゲームのフレームワークにおいて互いに競合する機械学習システムのクラスである。ＧＡＮ手法は、少なくともいくつかの本物らしい特徴を持つことにより、人間の観察者にとって少なくとも表面的に真正に見える写真が生成されうる手法として始まった。ＧＡＮは、第一生成ネットワークを用いて候補を生成する一方で、第二判別ネットワークが候補を評価することによって実装され、競合はデータ分布の観点から動作する。生成ネットワークは、潜在空間から目的のデータ分布にマッピングすることを学習する一方で、判別ネットワークは、生成器によって生成された候補を真のデータ分布と見分ける。図２の「本物／偽物」の記号２３４は、判別ネットワークのエラー率を高める本発明の生成ネットワークの訓練目的を指すことを意図する。すなわち、本発明では、分離モジュール２２０内の生成ネットワークＧＡＮ構成要素２２４は（ＲｅｓＮｅｔ構成要素２１２およびリサンプリングｄｅｃｏｎｖ２４０からの入力と組み合わせて）、判別器ニューラル・ネットワーク２３０が合成でない、すなわちそれらが真のデータ分布の一部であると判断する新規候補を産出することによって、判別器モジュール２３０内の判別器ネットワーク構成要素２３２を「騙す」ことを試みる。既知のビデオ・クリップのデータセットが、判別器２３２の初期訓練データとして働き、その訓練には、認容可能な精度を達成するまで訓練データセットからのサンプルを判別器に提示することを含む。

【0054】

ＧＡＮシステムの生成器は、生成器が判別器をうまく騙せるか否かに基づいて訓練する。生成器は通常、定義済みの潜在空間からサンプリングされるランダム化された入力でシードされ、その後、生成器によって合成された候補が判別器によって評価され、生成ネットワークおよび判別器ネットワークの両方において誤差逆伝播法が適用される。その結果、判別器は合成画像をより良くフラグ付けすることを学習する一方で、生成器ネットワークはより良い画像を生成することを学習する。ＧＡＮシステムにおいて、生成器ニューラル・ネットワークは通常、ｃｏｎｖｄｅｃｏｎｖニューラル・ネットワーク２２４などを含む逆畳み込みニューラル・ネットワークであり、判別器ニューラル・ネットワークは通常、ｃｏｎｖニューラル・ネットワーク２３２などの畳み込みニューラル・ネットワークである。

【0055】

前述のように、本発明におけるＧＡＮ処理は、源分離の一部として、およびＰｉｘｅｌＰｌａｙｅｒなどの従来の源分離システムに対する改良として、より本物らしい音声を提供することに関する。

【0056】

ＰｉｘｅｌＰｌａｙｅｒシステムでの処理と同様に、線形結合の重みは、訓練中とテスト中とで異なって決定される。訓練中には、単一チャネルの音声のビデオ二つがつなぎ合わされて人工的な混合物が形成される。二つのチャネルのそれぞれを表す重みは、そのチャネルのビデオに属するピクセル上の位置特定特徴量をｍｅａｎプーリングすることにより得られる。テスト（例えばユーザ・フェーズ）中には、真の混合物ビデオが使用され、重みは一つのピクセルの位置特定特徴量である。分離結果は、そのピクセルが出す音を示すことが期待される。

【0057】

判別器モジュール２３０は、畳み込み層のスタックとそれに続くｍｅａｎプーリング層とそれに続く全結合層のスタックからなる、Ｐａｓｃｕａｌらによって説明される前述のＳｅｇａｎシステムの判別器モジュールに類似する。訓練中の判別器２３０の出力は、入力スペクトログラムが本物であるか偽物であるかを指定するスカラーである（ラベル２３４を参照）。

【0058】

最後に、図１に示されるＰｉｘｅｌＰｌａｙｅｒの音声合成器ネットワーク１２０と同様に、音声合成器ネットワーク２５０は、混合物スペクトログラムの位相を分離されたスペクトログラムに適用してから逆短時間フーリエ変換（ＩＳＴＦＴ）および重畳加算を行って波形を復元し、出力音声２０８を提供するスペクトログラム反転モジュールを含む。

【0059】

訓練フェーズ
本発明の音声映像源分離システムの訓練は、図２のニューラル・ネットワークすなわちエンコーダ２１０内のニューラル・ネットワーク２１２、分離器２２０内のｃｏｎｖ／ｄｅｃｏｎｖニューラル・ネットワーク２２４、および判別器２３０内のｃｏｎｖネットワーク２３２の初期訓練を含む。前述のように、ビデオ・エンコーダ２１０内のニューラル・ネットワーク２１２、リサンプリングｄｅｃｏｎｖネットワーク２４０、および分離器２２０内のｃｏｎｖ／ｄｅｃｏｎｖニューラル・ネットワーク２２４が一緒にＧＡＮシステムの生成器を形成し、判別器モジュール２３０のｃｏｎｖネットワーク２３２がＧＡＮシステムの判別器を形成する。訓練手順は、最小化／最大化するために様々なアルゴリズムを処理することを含み、これには図１または図２のいずれにも示されないプロセッサを要すると考えられる。

【0060】

訓練中には、少なくとも一つの音源を含む、典型的にはそれぞれ楽器を演奏する少なくとも二人の音楽家を含む様々なビデオ・クリップが導入され、訓練は、当技術分野で周知のように誤差逆伝播法を用いて損失関数を最小化するようにニューラル・ネットワークを調整することを含む。三つのニューラル・ネットワークの訓練中の更新は、順番に交互に生じる。

【0061】

音源分離システムの目的は、異なる音源からの音を分離し、それらをビデオ内の特定のピクセルで識別することであるため、訓練は通常少なくとも一対の音源を含むビデオ・クリップを用いる。訓練ビデオには、グラウンド・トゥルースを含むビデオ・クリップまたはグラウンド・トゥルースを含まないビデオ・クリップが含まれうる。

【0062】

本発明の文脈において、「グラウンド・トゥルース」という用語は、個々の音の源が既知である入力ビデオ・クリップを指す。グラウンド・トゥルースは、例えば、楽器を演奏する一人の音楽家など一つの音源を含むビデオ・クリップが導入される場合に既知である。しかし、本発明の目的は音源分離であるため、音分離のための訓練の目的でグラウンド・トゥルースを提供するより良い方法は、楽器を演奏する一人の音楽家をそれぞれ含む二つの別々のビデオを人工的に混合して、二つの既知のグラウンド・トゥルースを含む入力ビデオ・クリップを提供することである。しかし、まもなく説明するが、ＧＡＮの生成的損失および敵対的損失の最適化関数を適合させることによって、グラウンド・トゥルースを一切知らずに訓練が行われることができる。

【0063】

しかし最初に、全体的な訓練損失関数を以下に説明する。

【0064】

損失関数
ノイズありスペクトログラムをｘと表し、分離モジュールの出力をＧ（ｘ；ｚ）と表し、ここでｚは分離特徴量および位置特定特徴量を指す。対応する真のクリーンなスペクトログラムをｙと表す。（この説明でのｘ、ｙ、ｚパラメータは、前に用いられた使用法とは異なることに留意されたい。）判別器の出力をＤ（ｙ；ｚ）と表す。訓練中、ＧＡＮシステムの生成器の目標は下記の式１を最小化することであり、ＧＡＮシステムの判別器の目標は汎用式２を最大化することであり、これは以下の式３および４により正確に反映される。判別器および生成器は、勾配降下ステップを交互に行う。
Ｌ（Ｇ）＝ａＥ［ｌｏｇＤ（Ｇ（ｘ；ｚ）；ｚ）］＋ｂ（Ｇ（ｘ；ｚ）－ｙ）＾２（式１）
Ｌ｛Ｄ）＝Ｅ［ｌｏｇＤ（ｙ；ｚ）］－Ｅ［ｌｏｇＤ（Ｇ（ｘ；ｚ）；ｚ）］（式２）

【0065】

これらの上下の式において、Ｄ（）は判別器の出力を表し、Ｇ（）は生成器の出力を表し、ｘは入力混合物を表し、ｚは選択されたピクセル位置を表し、ｙはピクセルｚに対応するグラウンド・トゥルースのクリーンな音声を表す。
入力：任意の本物のスペクトログラムｓ_ｒｅａｌ（ｎ，ｔ）および偽物のスペクトログラムｓ_ｆａｋｅ（ｎ，ｔ）
本物／偽物判別器
出力：入力が本物であるか偽物であるかを判断。
Ｄ_ｒ／ｆ（ｓ_ｒｅａｌ（ｎ，ｔ））できるかぎり大きく
Ｄ_ｒ／ｆ（ｓ_ｆａｋｅ（ｎ，ｔ））できるかぎり小さく
ＭａｘＥｒｒｏｒ［（ｆ（Ｄ_ｒ／ｆ（ｓ_ｒｅａｌ（ｎ，ｔ）））＋ｆ（１－Ｄ_ｒ／ｆ（ｓ_ｆａｋｅ（ｎ，ｔ）））］（式３）
ノイズあり／クリーン判別器
ＭａｘＥｒｒｏｒ［（ｆ（Ｄ_ｎ／ｃ（ｓ_{ｃｌｅａｎ}（ｎ，ｔ）））＋ｆ（１－Ｄ_ｎ／ｃ（ｓ_{ｎｏｉｓｙ}（ｎ，ｔ）））］（式４）

【0066】

図３および図４は、ＧＡＮ生成器機能の式を提供し、生成器の目標は、訓練がペア・データを用いるか否かに応じてこれらの式を最小化することである。

【0067】

訓練フェーズ中には、前述のように、三つのモジュールがそれぞれの損失を最小化するように交互に更新される。換言すれば、初回の実行の後に一つのモジュールが更新され、その後、二回目の実行の後に別のモジュールが更新され、その後、三回目の実行の後に残る第三のモジュールが更新され、このシーケンスが繰り返される。したがって、例えば二つのプレーヤが以下の様式で更新される。ラウンド１で、生成器が、勾配降下法によって、訓練がペア・データを用いるか否かに応じて図３または図４の値を減少させるように更新され、ラウンド２で、判別器が、勾配上昇法によって、式２の値を増加させるように更新され、このプロセスが繰り返される。

【0068】

ペア・データによる訓練
訓練ビデオ・クリップがペア・データを含むときには、例えば楽器を演奏する一人の音楽家など単一の音源をそれぞれ有する二つの別々のビデオ・クリップからのビデオおよび音声を一緒に混合した結果としてペア・データが生じるため、グラウンド・トゥルースが既知である。

【0069】

ペア・データによる訓練では、グラウンド・トゥルースがｓ_１（ｎ，ｔ）およびｓ_２（ｎ，ｔ）で既知である。また、二つの源に対応するピクセルＲ_１、Ｒ_２も既知である。分離モジュールの出力

【0070】

【数3】

【0071】

が、図３に示した上の二つの式に示される。

【0072】

ペア・データにより訓練するときには、ＧＡＮ生成器ネットワークの訓練の目標は、図３の下の式に示すように、再構成損失と敵対的損失の合計を最小化することである。

【0073】

ペア・データによらない訓練
ペア・データによらない訓練の場合、グラウンド・トゥルースがｓ_１（ｎ，ｔ）およびｓ_２（ｎ，ｔ）で未知である。したがって、訓練の目標は、図４の式に示されるように、敵対的損失を最小化することである。

【0074】

システムの実装
本発明は、例えば本発明の構成要素の構築を可能にするアプリケーションとして、または本発明の構成要素の使用結果を実証するプレーヤとして提供されるクラウド・サービスを含む、多くの様々なコンピュータ実装物において実装されうる。本発明は、ニューラル・ネットワーク能力を実装するためのコプロセッサとして提供する一つ以上のニューラル・ネットワーク・アクセラレータを含むかまたは含まない、本発明の構成要素の構築を可能にする適切なライブラリにアクセスできるコンピュータも含みうる。

【0075】

したがって、本開示は、以下のようにクラウド・コンピューティングの詳細な説明を含むが、本明細書に記載の教示の実施態様は、クラウド・コンピューティング環境に限定されない。むしろ、本発明の実施形態は、現在知られているかまたは後に開発される他の任意のタイプのコンピューティング環境と連動して実施されることができる。

【0076】

クラウド・コンピューティングは、最小限の管理労力またはサービスのプロバイダとのインタラクションで迅速にプロビジョニングおよびリリースされうる、構成可能なコンピューティング・リソース（例えばネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス）の共有プールへの簡便なオンデマンド・ネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウドモデルは、少なくとも五つの特徴、少なくとも三つのサービス・モデル、および少なくとも四つの展開モデルを含みうる。

【0077】

特徴は以下の通りである。
オンデマンド・セルフ・サービス：クラウド・コンシューマは、サービスのプロバイダとの人的やり取りを要せずに必要に応じて自動的にサーバの時間およびネットワーク・ストレージなどのコンピューティング能力を一方的に設定しうる。
幅広いネットワーク・アクセス：能力はネットワーク上で利用可能であり、異種のシンまたはシック・クライアント・プラットフォーム（例えば携帯電話、ラップトップ、およびＰＤＡ）による利用を促進する標準的機構を通じてアクセスされる。
リソースのプール：プロバイダのコンピューティング・リソースは、マルチテナント・モデルを使用して複数のコンシューマに提供されるようにプールされ、様々な物理的リソースおよび仮想リソースが需要に応じて動的に割り当ておよび再割り当てされる。コンシューマは通常、提供されたリソースの正確な場所についての制御力または知識を有しないが、より抽象的なレベル（例えば国、州、またはデータセンタ）で場所を特定しうるという点で、場所にとらわれない感覚が存在する。
スピーディな拡張性：能力は、スピーディに弾力的に、場合によっては自動的に提供されて即座にスケール・アウトし、スピーディに解放されて即座にスケール・インしうる。コンシューマにとって、提供のために利用可能な能力は多くの場合無限に見え、いつでも任意の量で購入されうる。
測定されるサービス：クラウド・システムは、サービスの種類（例えばストレージ、処理、帯域幅、およびアクティブなユーザ・アカウント）に適した何らかの抽象レベルで計測能力を活用することにより、リソースの利用を自動的に制御および最適化する。リソースの利用状況は、監視、制御、および報告されることができ、利用されるサービスのプロバイダおよびコンシューマの両方に透明性を提供する。

【0078】

サービス・モデルは以下の通りである。
サービスとしてのソフトウェア（ＳａａＳ）：コンシューマに提供される能力は、クラウド・インフラストラクチャ上で実行されるプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブ・ブラウザなどのシン・クライアント・インタフェース（例えばウェブベースの電子メール）を通じて、様々なクライアント・デバイスからアクセス可能である。コンシューマは、限られたユーザ固有のアプリケーション構成設定を場合によっては除いて、ネットワーク、サーバ、オペレーティング・システム、ストレージまたは個々のアプリケーション能力をも含む基礎的クラウド・インフラストラクチャを管理または制御しない。
サービスとしてのプラットフォーム（ＰａａＳ）：コンシューマに提供される能力は、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成されるコンシューマが作成または入手したアプリケーションをクラウド・インフラストラクチャ上に展開することである。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む基礎的クラウド・インフラストラクチャを管理または制御しないが、展開されたアプリケーションおよび場合によってはアプリケーション・ホスティング環境構成を制御できる。
サービスとしてのインフラストラクチャ（ＩａａＳ）：コンシューマに提供される能力は、処理、ストレージ、ネットワーク、および他の基本的なコンピューティング・リソースを提供することであり、コンシューマは、オペレーティング・システムおよびアプリケーションを含みうる任意のソフトウェアを展開して実行させることができる。コンシューマは、基礎的クラウド・インフラストラクチャを管理または制御しないが、オペレーティング・システム、ストレージ、展開されたアプリケーションを制御でき、場合によっては選抜されたネットワーキング・コンポーネント（例えばホスト・ファイアウォール）を限定的に制御できる。

【0079】

展開モデルは以下の通りである。
プライベート・クラウド：クラウド・インフラストラクチャは、ある組織専用に運用される。クラウド・インフラストラクチャは、その組織または第三者によって管理されることができ、オン・プレミスまたはオフ・プレミスで存在することができる。
コミュニティ・クラウド：クラウド・インフラストラクチャは、いくつかの組織によって共有され、共有の懸念事項（例えばミッション、セキュリティ要件、ポリシー、およびコンプライアンスの考慮事項）を有する特定のコミュニティをサポートする。クラウド・インフラストラクチャは、これらの組織または第三者によって管理されることができ、オン・プレミスまたはオフ・プレミスで存在することができる。
パブリック・クラウド：クラウド・インフラストラクチャは、一般大衆または大きな業界グループに利用可能にされ、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド：クラウド・インフラストラクチャは、固有のエンティティであり続けるがデータおよびアプリケーションのポータビリティを可能にする標準化されたまたは専用の技術（例えばクラウド間の負荷平衡のためのクラウド・バースティング）によって一緒に結び付けられた二つ以上のクラウド（プライベート、コミュニティ、またはパブリック）の合成物である。

【0080】

クラウド・コンピューティング環境はサービス本位であり、無国籍性、低結合度、モジュール性、およびセマンティックな相互運用性に重点を置く。クラウド・コンピューティングの中心には、相互接続されたノードのネットワークを含むインフラストラクチャがある。

【0081】

ここで図５を参照すると、例示的なクラウド・コンピューティング環境５０が示される。示されているように、クラウド・コンピューティング環境５０は、例えばパーソナル・デジタル・アシスタント（ＰＤＡ：ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ）または携帯電話５４Ａ、デスクトップ・コンピュータ５４Ｂ、ラップトップ・コンピュータ５４Ｃ、もしくは自動車コンピュータ・システム５４Ｎまたはその組み合わせなどのクラウド・コンシューマによって使用されるローカル・コンピューティング・デバイスが通信しうる一つ以上のクラウド・コンピューティング・ノード１０を含む。ノード１０は互いに通信しうる。これらは、本明細書に上述したプライベート、コミュニティ、パブリックもしくはハイブリッド・クラウドまたはそれらの組み合わせなど、一つ以上のネットワークにおいて物理的または仮想的にグループ化されうる（図示せず）。これにより、クラウド・コンピューティング環境５０は、クラウド・コンシューマがローカル・コンピューティング・デバイス上にリソースを維持する必要のないサービスとしてインフラストラクチャ、プラットフォームもしくはソフトウェアまたはその組み合わせを提供することが可能になる。図５に示されるコンピューティング・デバイスのタイプ５４Ａ～Ｎは、例示を意図したものにすぎず、コンピューティング・ノード１０およびクラウド・コンピューティング環境５０は、任意のタイプのネットワークもしくはネットワークアドレス可能な接続またはその両方により（例えばウェブ・ブラウザを使用して）任意のタイプのコンピュータ化デバイスと通信しうるものと理解される。

【0082】

ここで図６を参照すると、クラウド・コンピューティング環境５０（図５）によって提供される機能抽象層のセットが示される。図６に示される構成要素、層、および機能は例示を意図したものにすぎず、本発明の実施形態はそれらに限定されないことを予め理解されたい。図示されるように、以下の層および対応する機能が提供される。

【0083】

ハードウェアおよびソフトウェア層６０は、ハードウェアおよびソフトウェア構成要素を含む。ハードウェア構成要素の例は、メイン・フレーム６１、ＲＩＳＣ（縮小命令セット・コンピュータ、ＲｅｄｕｃｅｄＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｅｒ）アーキテクチャ・ベース・サーバ６２、サーバ６３、ブレード・サーバ６４、記憶デバイス６５、ならびにネットワークおよびネットワーキング構成要素６６を含む。いくつかの実施形態では、ソフトウェア構成要素は、ネットワーク・アプリケーション・サーバ・ソフトウェア６７およびデータベース・ソフトウェア６８を含む。

【0084】

仮想化層７０は、仮想サーバ７１、仮想ストレージ７２、仮想プライベート・ネットワークを含む仮想ネットワーク７３、仮想アプリケーションおよびオペレーティング・システム７４、ならびに仮想クライアント７５という仮想エンティティの例が提供されうる抽象層を提供する。

【0085】

一例では、管理層８０は、以下で説明される機能を提供しうる。リソース・プロビジョニング８１は、クラウド・コンピューティング環境内でタスクを行うために利用されるコンピューティング・リソースおよびその他のリソースの動的調達を提供する。計測および価格設定８２は、クラウド・コンピューティング環境内でリソースが使用される際のコスト追跡、およびこれらのリソースの消費についての課金またはインボイシングを提供する。一例では、これらのリソースはアプリケーション・ソフトウェア・ライセンスを含みうる。セキュリティは、クラウド・コンシューマおよびタスクの識別検証、ならびにデータおよび他のリソースの保護を提供する。ユーザ・ポータル８３は、コンシューマおよびシステム管理者にクラウド・コンピューティング環境へのアクセスを提供する。サービス水準管理８４は、必要なサービス水準に達するようにクラウド・コンピューティング・リソースの割り当ておよび管理を提供する。サービス水準合意（ＳＬＡ：ＳｅｒｖｉｃｅＬｅｖｅｌＡｇｒｅｅｍｅｎｔ）の計画および履行８５は、ＳＬＡにしたがって将来の必要が見込まれるクラウド・コンピューティング・リソースの事前手配および調達を提供する。

【0086】

作業負荷層９０は、クラウド・コンピューティング環境が利用されうる機能の例を提供する。この層から提供されうる作業負荷および機能の例は、音声映像源分離がクラウド・サービスとして実装される本発明に関係するタスクを含む。

【0087】

本発明の様々な実施形態の説明は、例示を目的として提示されているものであり、網羅的であること、または開示された実施形態に限定されることを意図するものではない。記載された実施形態の範囲および精神から逸脱することなく、多数の修正例および変形例が通常の技術を有する当業者に明らかとなるであろう。本明細書で使用される用語は、実施形態の原理、実際の応用例、または市場に見られる技術に対する技術的改良を最も良く説明するため、または通常の技術を有する他の当業者が本明細書に開示される実施形態を理解できるようにするために選択された。

【0088】

本発明は、いくつかの例示的実施形態に関して説明されているが、当業者は本発明が修正を加えて実施されうることを認識するであろう。したがって、前述のように、本発明の構想は、任意の特徴保存暗号化（ＰＰＥ：ＰｒｏｐｅｒｔｙＰｒｅｓｅｒｖｉｎｇＥｎｃｒｙｐｔｉｏｎ）方式に組み込まれることもでき、本発明を説明するために使用される順序保存暗号化（ＯＰＥ：ＯｒｄｅｒＰｒｅｓｅｒｖｉｎｇＥｎｃｒｙｐｔｉｏｎ）に限定されない。

【0089】

さらに、出願人の意図は、後に審査中に修正される場合であっても、全てのクレーム要素の等価物を包含することであることに留意されたい。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版