特開2023-165667 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ザ　トラスティーズ　オブ　コロンビア　ユニバーシティ　イン　ザ　シティー　オブ　ニューヨークの特許一覧 ▶ ソフトバンクモバイル株式会社の特許一覧

特開2023-165667リアルタイムのノイズ除去ネットワークのためのダイナミックスライディングウィンドウ

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023165667

(43)【公開日】2023-11-16

(54)【発明の名称】リアルタイムのノイズ除去ネットワークのためのダイナミックスライディングウィンドウ

(51)【国際特許分類】

G10L 21/0208 20130101AFI20231109BHJP

【ＦＩ】

G10L21/0208 100Z

【審査請求】有

【請求項の数】5

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2023076242

(22)【出願日】2023-05-02

(31)【優先権主張番号】63/338,857

(32)【優先日】2022-05-05

(33)【優先権主張国・地域又は機関】US

(71)【出願人】

【識別番号】507247232

【氏名又は名称】ザトラスティーズオブコロンビアユニバーシティインザシティーオブニューヨーク

(71)【出願人】

【識別番号】501440684

【氏名又は名称】ソフトバンク株式会社

(74)【代理人】

【識別番号】110000877

【氏名又は名称】弁理士法人ＲＹＵＫＡ国際特許事務所

(72)【発明者】

【氏名】チャンシゼン

(72)【発明者】

【氏名】ルイリンズー

(72)【発明者】

【氏名】ルンディウー

(72)【発明者】

【氏名】石若裕子

(72)【発明者】

【氏名】ジンシュシアン

(72)【発明者】

【氏名】ユヤンズ

(57)【要約】（修正有）

【課題】ダイナミックスライディングウィンドウを使用する軽量のノイズ除去ネットワークを提供する。
【解決手段】ノイズ除去ネットワークは、ダイナミックスライディングウィンドウに基づいたＳＴＦＴを適用して取得されたスペクトログラムを入力とし、２Ｄの畳み込み層と一方向のＬＳＴＭと完全接続層とを介して入力スペクトログラムに対応する複素数値のマスクを出力する。入力スペクトログラムにマスクを適用してノイズ除去されたスペクトログラムを生成し、逆ＳＴＦＴを適用することによりノイズ除去されたオーディオ信号を得る。
【選択図】図４

【特許請求の範囲】

【請求項1】

ストリーミング方式でオーディオ信号を取得するように構成された取得ユニット；及び
入力バッファの長さが固定されていないダイナミックスライディングウィンドウを使用することにより、前記オーディオ信号をノイズ除去するように構成されたノイズ除去ユニット
を備える、オーディオ信号処理装置。

【請求項2】

前記ノイズ除去ユニットが前記オーディオ信号の一部を、第１の大きさを有する前記ダイナミックスライディングウィンドウにバッファし、その後前記オーディオ信号の前記一部をノイズ除去する間に前記オーディオ信号の次の一部をバッファするように構成された、請求項１に記載のオーディオ信号処理装置。

【請求項3】

前記ノイズ除去ユニットが、前記オーディオ信号の一部を、第１の大きさを有する前記ダイナミックスライディングウィンドウにバッファし、その後前記オーディオ信号の前記一部のノイズ除去及び前記オーディオ信号の次の一部のバッファを開始して、その後前記ノイズ除去が終了したときに前記バッファを停止するように構成された、請求項１に記載のオーディオ信号処理装置。

【請求項4】

請求項１から３のいずれか一項に記載のオーディオ信号処理装置としてコンピュータを機能させるためのプログラム。

【請求項5】

ストリーミング方式でオーディオ信号を取得する段階；及び
入力バッファの長さが固定されていないダイナミックスライディングウィンドウを使用することにより、前記取得する段階で取得された前記オーディオ信号をノイズ除去する段階
を備える、オーディオ信号処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、リアルタイム、ノイズ除去、スライディングウィンドウ、ニューラルネットワーク、データストリームに関する。

【背景技術】

【0002】

後続の文献は、本発明に関する。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】ＳａｎｔｉａｇｏＰａｓｃｕａｌ，ＡｎｔｏｎｉｏＢｏｎａｆｏｎｔｅ，ａｎｄＪｏａｎＳｅｒｒａ， "Ｓｅｇａｎ：Ｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋ，" ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１７０３．０９４５２，２０１７．

【非特許文献2】ＦｒａｎｃｏｉｓＧＧｅｒｍａｉｎ，ＱｉｆｅｎｇＣｈｅｎ，ａｎｄＶｌａｄｌｅｎＫｏｌｔｕｎ， "Ｓｐｅｅｃｈｄｅｎｏｉｓｉｎｇｗｉｔｈｄｅｅｐｆｅａｔｕｒｅｌｏｓｓｅｓ，" ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１８０６．１０５２２，２０１８．

【非特許文献3】ＣｒａｉｇＭａｃａｒｔｎｅｙａｎｄＴｉｌｌｍａｎＷｅｙｄｅ， "Ｉｍｐｒｏｖｅｄｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｗｉｔｈｔｈｅｗａｖｅ－ｕ－ｎｅｔ，" ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１８１１．１１３０７，２０１８．

【非特許文献4】Ｓｚｕ－ＷｅｉＦｕ，Ｃｈｉｅｎ－ＦｅｎｇＬｉａｏ，ＹｕＴｓａｏ，ａｎｄＳｈｏｕ－ＤｅＬｉｎ， "Ｍｅｔｒｉｃｇａｎ：Ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓｂａｓｅｄｂｌａｃｋ－ｂｏｘｍｅｔｒｉｃｓｃｏｒｅｓｏｐｔｉｍｉｚａｔｉｏｎｆｏｒｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔ，" ｉｎＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．ＰＭＬＲ，２０１９，ｐｐ．２０３１－２０４１．

【非特許文献5】ＲｕｉｌｉｎＸｕ，ＲｕｎｄｉＷｕ，ＹｕｋｏＩｓｈｉｗａｋａ，ＣａｒｌＶｏｎｄｒｉｃｋ，ａｎｄＣｈａｎｇｘｉＺｈｅｎｇ， "Ｌｉｓｔｅｎｉｎｇｔｏｓｏｕｎｄｓｏｆｓｉｌｅｎｃｅｆｏｒｓｐｅｅｃｈｄｅｎｏｉｓｉｎｇ，" ｉｎＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ，Ｈ．Ｌａｒｏｃｈｅｌｌｅ，Ｍ．Ｒａｎｚａｔｏ，Ｒ．Ｈａｄｓｅｌｌ，Ｍ．Ｆ．Ｂａｌｃａｎ，ａｎｄＨ．Ｌｉｎ，Ｅｄｓ．２０２０，ｖｏｌ．３３，ｐｐ．９６３３－９６４８，ＣｕｒｒａｎＡｓｓｏｃｉａｔｅｓ，Ｉｎｃ．

【非特許文献6】ＡｌｅｘａｎｄｒｅＤｅｆｏｓｓｅｚ，ＧａｂｒｉｅｌＳｙｎｎａｅｖｅ，ａｎｄＹｏｓｓｉＡｄｉ， "Ｒｅａｌｔｉｍｅｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｉｎｔｈｅｗａｖｅｆｏｒｍｄｏｍａｉｎ，" ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：２００６．１２８４７，２０２０．

【非特許文献7】ＸｉａｎｇＨａｏ，ＸｉａｎｇｄｏｎｇＳｕ，ＲａｄｕＨｏｒａｕｄ，ａｎｄＸｉａｏｆｅｉＬｉ， "Ｆｕｌｌｓｕｂｎｅｔ：Ａｆｕｌｌ－ｂａｎｄａｎｄｓｕｂ－ｂａｎｄｆｕｓｉｏｎｍｏｄｅｌｆｏｒｒｅａｌ－ｔｉｍｅｓｉｎｇｌｅ－ｃｈａｎｎｅｌｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔ，" ｉｎＩＣＡＳＳＰ２０２１－２０２１ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）．ＩＥＥＥ，２０２１，ｐｐ．６６３３－６６３７．

【非特許文献8】ＴｙｌｅｒＶｕｏｎｇ，ＹａｎｇｙａｎｇＸｉａ，ａｎｄＲｉｃｈａｒｄＭ．Ｓｔｅｒｎ， "Ａｍｏｄｕｌａｔｉｏｎ－ｄｏｍａｉｎｌｏｓｓｆｏｒｎｅｕｒａｌ－ｎｅｔｗｏｒｋ－ｂａｓｅｄｒｅａｌｔｉｍｅｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔ，" ２０２１．

【非特許文献9】ＱｉｑｕａｎＺｈａｎｇ，ＡａｒｏｎＮｉｃｏｌｓｏｎ，ＭｉｎｇｊｉａｎｇＷａｎｇ，ＫｕｌｄｉｐＫＰａｌｉｗａｌ，ａｎｄＣｈｅｎｘｕＷａｎｇ， "Ｄｅｅｐｍｍｓｅ：Ａｄｅｅｐｌｅａｒｎｉｎｇａｐｐｒｏａｃｈｔｏｍｍｓｅ－ｂａｓｅｄｎｏｉｓｅｐｏｗｅｒｓｐｅｃｔｒａｌｄｅｎｓｉｔｙｅｓｔｉｍａｔｉｏｎ，" ＩＥＥＥ／ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，ｖｏｌ．２８，ｐｐ．１４０４－１４１５，２０２０．

【非特許文献10】Ｈｙｅｏｎｇ－ＳｅｏｋＣｈｏｉ，ＳｕｎｇｊｉｎＰａｒｋ，ＪｉｅＨｗａｎＬｅｅ，ＨｏｏｎＨｅｏ，ＤｏｎｇｓｕｋＪｅｏｎ，ａｎｄＫｙｏｇｕＬｅｅ， "Ｒｅａｌ－ｔｉｍｅｄｅｎｏｉｓｉｎｇａｎｄｄｅｒｅｖｅｒｂｅｒａｔｉｏｎｗｉｔｈｔｉｎｙｒｅｃｕｒｒｅｎｔｕ－ｎｅｔ，" ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：２１０２．０３２０７，２０２１．

【非特許文献11】ＳｅｐｐＨｏｃｈｒｅｉｔｅｒａｎｄＪｕｒｇｅｎＳｃｈｍｉｄｈｕｂｅｒ， "Ｌｏｎｇｓｈｏｒｔｔｅｒｍｍｅｍｏｒｙ，" Ｎｅｕｒａｌｃｏｍｐｕｔａｔｉｏｎ，ｖｏｌ．９，ｎｏ．８，ｐｐ．１７３５－１７８０，１９９７．

【非特許文献12】ＡｒｉｅｌＥｐｈｒａｔ，ＩｎｂａｒＭｏｓｓｅｒｉ，ＯｒａｎＬａｎｇ，ＴａｌｉＤｅｋｅｌ，ＫｅｖｉｎＷｉｌｓｏｎ，ＡｖｉｎａｔａｎＨａｓｓｉｄｉｍ，ＷｉｌｌｉａｍＴ．Ｆｒｅｅｍａｎ，ａｎｄＭｉｃｈａｅｌＲｕｂｉｎｓｔｅｉｎ， "Ｌｏｏｋｉｎｇｔｏｌｉｓｔｅｎａｔｔｈｅｃｏｃｋｔａｉｌｐａｒｔｙ：Ａｓｐｅａｋｅｒ－ｉｎｄｅｐｅｎｄｅｎｔａｕｄｉｏ－ｖｉｓｕａｌｍｏｄｅｌｆｏｒｓｐｅｅｃｈｓｅｐａｒａｔｉｏｎ，" ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＧｒａｐｈｉｃｓ，ｖｏｌ．３７，ｎｏ．４，ｐｐ．１－１１，Ｊｕｌｙ２０１８．

【非特許文献13】Ｙ．Ｗａｎｇ，Ａ．Ｎａｒａｙａｎａｎ，ａｎｄＤ．Ｗａｎｇ， "Ｏｎｔｒａｉｎｉｎｇｔａｒｇｅｔｓｆｏｒｓｕｐｅｒｖｉｓｅｄｓｐｅｅｃｈｓｅｐａｒａｔｉｏｎ，" ＩＥＥＥ／ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，ｖｏｌ．２２，ｎｏ．１２，ｐｐ．１８４９－１８５８，２０１４．

【非特許文献14】ＪｏｒｔＦ．Ｇｅｍｍｅｋｅ，ＤａｎｉｅｌＰ．Ｗ．Ｅｌｌｉｓ，ＤｙｌａｎＦｒｅｅｄｍａｎ，ＡｒｅｎＪａｎｓｅｎ，ＷａｄｅＬａｗｒｅｎｃｅ，Ｒ．ＣｈａｎｎｉｎｇＭｏｏｒｅ，ＭａｎｏｊＰｌａｋａｌ，ａｎｄＭａｒｖｉｎＲｉｔｔｅｒ， "Ａｕｄｉｏｓｅｔ：Ａｎｏｎｔｏｌｏｇｙａｎｄｈｕｍａｎ－ｌａｂｅｌｅｄｄａｔａｓｅｔｆｏｒａｕｄｉｏｅｖｅｎｔｓ，" ｉｎＰｒｏｃ．ＩＥＥＥＩＣＡＳＳＰ２０１７，ＮｅｗＯｒｌｅａｎｓ，ＬＡ，２０１７．

【非特許文献15】ＪｏａｃｈｉｍＴｈｉｅｍａｎｎ，ＮｏｂｕｔａｋａＩｔｏ，ａｎｄＥｍｍａｎｕｅｌＶｉｎｃｅｎｔ， "Ｔｈｅｄｉｖｅｒｓｅｅｎｖｉｒｏｎｍｅｎｔｓｍｕｌｔｉ－ｃｈａｎｎｅｌａｃｏｕｓｔｉｃｎｏｉｓｅｄａｔａｂａｓｅ（ｄｅｍａｎｄ）：Ａｄａｔａｂａｓｅｏｆｍｕｌｔｉｃｈａｎｎｅｌｅｎｖｉｒｏｎｍｅｎｔａｌｎｏｉｓｅｒｅｃｏｒｄｉｎｇｓ，" ｉｎ２１ｓｔＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｇｒｅｓｓｏｎＡｃｏｕｓｔｉｃｓ，Ｍｏｎｔｒｅａｌ，Ｃａｎａｄａ，Ｊｕｎｅ２０１３，ＡｃｏｕｓｔｉｃａｌＳｏｃｉｅｔｙｏｆＡｍｅｒｉｃａ，ＴｈｅｄａｔａｓｅｔｉｔｓｅｌｆｉｓａｒｃｈｉｖｅｄｏｎＺｅｎｏｄｏ，ｗｉｔｈＤＯＩ１０．５２８１／ｚｅｎｏｄｏ．１２２７１２０．

【非特許文献16】ＣａｓｓｉａＶａｌｅｎｔｉｎｉ－Ｂｏｔｉｎｈａｏ，ＸｉｎＷａｎｇ，ＳｈｉｎｊｉＴａｋａｋｉ，ａｎｄＪｕｎｉｃｈｉＹａｍａｇｉｓｈｉ， "Ｉｎｖｅｓｔｉｇａｔｉｎｇｒｎｎ－ｂａｓｅｄｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｍｅｔｈｏｄｓｆｏｒｎｏｉｓｅ－ｒｏｂｕｓｔｔｅｘｔ－ｔｏ－ｓｐｅｅｃｈ，" ｉｎ９ｔｈＩＳＣＡＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓＷｏｒｋｓｈｏｐ，２０１６，ｐｐ．１４６－１５２．

【非特許文献17】ＣｅｅｓＨＴａａｌ，ＲｉｃｈａｒｄＣＨｅｎｄｒｉｋｓ，ＲｉｃｈａｒｄＨｅｕｓｄｅｎｓ，ａｎｄＪｅｓｐｅｒＪｅｎｓｅｎ， "Ａｎａｌｇｏｒｉｔｈｍｆｏｒｉｎｔｅｌｌｉｇｉｂｉｌｉｔｙｐｒｅｄｉｃｔｉｏｎｏｆｔｉｍｅ－ｆｒｅｑｕｅｎｃｙｗｅｉｇｈｔｅｄｎｏｉｓｙｓｐｅｅｃｈ，" ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，ｖｏｌ．１９，ｎｏ．７，ｐｐ．２１２５－２１３６，２０１１．

【非特許文献18】ＩＴＵ－ＴＲｅｃｏｍｍｅｎｄａｔｉｏｎ， "Ｐｅｒｃｅｐｔｕａｌｅｖａｌｕａｔｉｏｎｏｆｓｐｅｅｃｈｑｕａｌｉｔｙ（ｐｅｓｑ）：Ａｎｏｂｊｅｃｔｉｖｅｍｅｔｈｏｄｆｏｒｅｎｄ－ｔｏｅｎｄｓｐｅｅｃｈｑｕａｌｉｔｙａｓｓｅｓｓｍｅｎｔｏｆｎａｒｒｏｗ－ｂａｎｄｔｅｌｅｐｈｏｎｅｎｅｔｗｏｒｋｓａｎｄｓｐｅｅｃｈｃｏｄｅｃｓ，" Ｒｅｃ．ＩＴＵ－ＴＰ．８６２，２００１．

【非特許文献19】ＹｉＨｕａｎｄＰｈｉｌｉｐｏｓＣ．Ｌｏｉｚｏｕ， "Ｅｖａｌｕａｔｉｏｎｏｆｏｂｊｅｃｔｉｖｅｑｕａｌｉｔｙｍｅａｓｕｒｅｓｆｏｒｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔ，" ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，ｖｏｌ．１６，ｎｏ．１，ｐｐ．２２９－２３８，２００８．

【非特許文献20】ＭａｒｋＡ．ＣｌｅｍｅｎｔｓＳｃｈｕｙｌｅｒＲ．Ｑｕａｃｋｅｎｂｕｓｈ，ＴｈｏｍａｓＰ．Ｂａｒｎｗｅｌｌ，ＯｂｊｅｃｔｉｖｅＭｅａｓｕｒｅｓＯｆＳｐｅｅｃｈＱｕａｌｉｔｙ，ＰｒｅｎｔｉｃｅＨａｌｌ，ＥｎｇｌｅｗｏｏｄＣｌｉｆｆｓ，ＮＪ，１９８８．

【図面の簡単な説明】

【0004】

本発明のこれら及び他の態様は、以下に説明する実施形態を参照して明らかとなり、説明されるであろう。

【0005】

【図1】ダイナミック対固定の大きさのスライディングウィンドウを概略的に示す。

【図2】データパディングの図解を概略的に示す。

【図3】リアルタイムのパフォーマンスの比較を概略的に示す。

【図4】ネットワーク構造を概略的に示す。

【図5】ノイズ除去オーディオを概略的に示す。

【図6】データ処理装置１００として機能するコンピュータ１２００のハードウェア構成の例を概略的に示す。

【発明を実施するための形態】

【0006】

１．緒言
リアルタイムの音声ノイズ除去は、極めて需要がある－おそらくこれまでで最も需要がある－オーディオ処理タスクである。我々の世界が依然コロナウイルス感染症（ＣＯＶＩＤ）のパンデミックにより闇に包まれ、オンライン会議が我々の日常的な社会生活の「新たな通常」となってきているからである。特に最近、従来技術のリアルタイムのノイズ除去技術はすべて、ニューラルネットワークに基づいている［１、２、３、４、５、６、７、８］。それらは処理時間を低減するためネットワークの簡素性を保持しながら、妥当なノイズ除去の質を達成する新規のネットワーク構造を模索するものである。

【0007】

オフラインでの音声ノイズ除去と異なり、リアルタイムの設定でのオーディオ信号は、ストリーミング方式で提供される。ネットワークは、信号サンプルが到着したとたん、それらを処理し、可能な限り短い遅延で出力サンプルを発生させなければならない。結果として、概ねすべてのリアルタイムの技術において、固定の長さのスライディングウィンドウバッファを使用するのが共通の戦略となっている。

【0008】

このことは、当然の選択であるように思われる。ネットワークは、スライディングウィンドウバッファが入来オーディオサンプルにより満たされ、次にそのバッファにおいてデータをノイズ除去するまで待機する。後に、結果として生じる信号データがリアルタイムオーディオプレイヤーに供給される。この方法では、ネットワークは固定の長さＬの入力信号を予想する。ネットワークの処理時間が常にＬより短いものである限り、信号サンプルの到着から対応するノイズ除去されたサンプルの再生時間までの遅れ全体は制限されており、Ｌよりも長く２Ｌ未満である（セクション２．１の分析を参照）。

【0009】

しかしながら、実践において、リアルタイムのパフォーマンスを確実にするバッファの長さＬを選択するのは、不可能ではないが難しい。大きなＬは、長い遅れを生起させる；小さなＬは、Ｌより長いネットワークの処理時間をもたらす場合があり、結果として途切れ途切れのオーディオ再生になる。これは、実際の計算環境において、常に他のバックグラウンドプロセス（例えば、４Ｋビデオの再生及びゲーム）が存在するためである。Ｌが短いほど、ノイズ除去ネットワークは他のプロセスのＣＰＵ占有率に影響されやすい。手短に言うと、スライディングウィンドウ戦略は、リアルタイムのノイズ除去にとって基本的なものであるにもかかわらず、入念な調査ではとらえにくいままなのである。

【0010】

本発明者は、異なるスライディングウィンドウ戦略、すなわちダイナミックスライディングウィンドウを提案する。本発明者の手法では、入力バッファの長さが固定されていない。ネットワークは、現在バッファされているデータを、その長さと無関係に取り込み、待機がない状態でそれに対する処理を開始する。ネットワークが実行している間、新たに受信したデータは、バッファに蓄積され、ネットワークが現在のノイズ除去のラウンドを終えるときに処理される準備態勢にある。このスライディングウィンドウ戦略は、概念としては単純だが、他のプロセスのＣＰＵ占有率に対してよりロバストであり、それにより、より短くてより安定した遅れという結果になる。その利点を示すために、本発明者は、本発明者の手法が生じさせるオーディオ再生の遅延及び共通して使用されている固定の大きさのスライディングウィンドウを公的に分析する。知る限りにおいて、異なるスライディングウィンドウ戦略下でのネットワークの遅延が調査されるのは、今回が初めてである。

【0011】

多くの既存のリアルタイムのノイズ除去ネットワーク（例えば、［６、７、８］）は、ダイナミックスライディングウィンドウを容易には統合できない（セクション２．２の論述を参照）。したがって、本発明者は、リアルタイムの設定のために適合される軽量のノイズ除去ネットワーク、すなわち：ストリーム信号を受け入れること、及びダイナミックスライディングウィンドウを使用してそれらを処理することを提案する。スライディングウィンドウに亘るデータを入念にパディング及び再使用することで、本発明者のネットワークは、オフラインのストリーミングのない事例と比較して、ノイズ除去の質の喪失を受けない。

【0012】

本発明者は、提案のモデルといくつかの従来技術のリアルタイムのノイズ除去方法を比較する広範の実験を実行している。本発明者の提案のモデルが、すべての質のメトリックに関して互角のノイズ除去の質を取得したが、すべての比較された方法の中で再生の遅れが最も少ないという結果が示された。最も重要なことには、先行のリアルタイムのノイズ除去方法［６］と比較して、本発明者のモデルは、Ｚｏｏｍでの会議、４Ｋビデオの編集、及びテレビゲームなどの他のバックグラウンドのタスクがＣＰＵサイクルを先取りし得る現実世界のシナリオで、リアルタイムのパフォーマンスを維持するのによりロバストである。

【0013】

２．方法
本発明者は、固定の大きさのスライディングウィンドウが使用されるときのオーディオ再生の遅れを分析することから開始している。これは、本発明者の提案したダイナミックスライディングウィンドウを使用するときの遅れと比較されている（セクション２．１）。本発明者の分析に刺激されて、本発明者は、次に、より速くてよりロバストなノイズ除去のためのダイナミックスライディングウィンドウを活用する軽量のノイズ除去ネットワークを提案する（セクション２．２）。

【0014】

図１は、ダイナミック対固定の大きさのスライディングウィンドウを概略的に示す。異なるウィンドウが異なるハッチングにより示される。各ウィンドウは、個々にネットワークにより処理される。灰色の領域は、ＣＰＵサイクルが他のプロセスにより占有され、そのためネットワークの処理時間が増加する期間を示す。

【0015】

２．１データストリームのためのスライディングウィンドウ
固定の大きさのスライディングウィンドウ。概ねすべての既存のネットワークベースのノイズ除去モデルにおいて、入来オーディオ信号は、時間の連続する重複のないウィンドウ［Ｘ_１，Ｘ_２，…］として扱われる。各ウィンドウは、ストリーミング方式において充足される定常長さＬのオーディオサンプル（すなわち、Ｘ_ｉ∈Ｒ^Ｌ）をホストする。ネットワークＦは最新の未処理のウィンドウＸ_ｉを取り込み、ノイズ除去された結果Ｆ（Ｘ_ｉ）を出力し、その後、次のウィンドウＸ_ｉ＋１が満たされるまで待機する（図１の（ａ）を参照）。ｔ_ｋはウィンドウＸ_ｋのネットワークの処理時間を示す。ウィンドウの大きさが固定されているが、実践においてｔ_ｋは、他のバックグラウンドプロセスのＣＰＵ占有率に起因して、経時的に異なるということに留意されたい。本発明者の分析では、Ｘ_ｉを受け取った瞬間からネットワークがＦ（Ｘ_ｉ）を出力する瞬間までの遅延（又は遅れ）ｄ_ｉが、以下のように表されることが示されている。

【数1】

【0016】

式（１）の導出は些細なものではない。ここのスペースが限られているので、本発明者は導出の詳細を飛ばすが、本発明者はそれを一般的にオンラインで利用できるようにしている^１。

【0017】

本発明者の分析（１）は、以下を明示している：ｔ_ｉ＜Ｌが常に満たされる理想の場合には、ノイズ除去ネットワークが遅れの蓄積もなく、リアルタイムでスムーズに実行され；再生の遅延は上限が２Ｌとなる。しかしながら、実際には、ネットワークの実行は、よく、他のバックグラウンド計算プロセスに影響され、その処理時間ｔ_ｉはＬよりも長くなることがある。同時に、長さｔ_ｉのオーディオサンプルが到着し、バッファに蓄積する。この分量のデータを処理すべく、ネットワークは、

【数2】

の回数実行する必要がある。これは、ひいてはオーディオ再生の遅れを蓄積させ得る（そのため、（１）の合計の項）。

【0018】

ダイナミックスライディングウィンドウ。本発明者は、スライディングウィンドウの大きさをダイナミックに調節することを提案する。ネットワークがデータウィンドウＸ_ｉを処理し終えたあと即座に、バッファの新たに受信したデータは、長さｔ_ｉを有し、これはＬよりも大きい場合も、そうでない場合もある。バッファの長さと無関係に、本発明者は待機せずに、利用可能なバッファされたデータをノイズ除去する。図１の（ｂ）はプロセスを図解している。この戦略では、ウィンドウＸ_ｉを再生するための遅延ｄ_ｉは、以下である。

【数3】

【0019】

ｉ＝１のとき、第１のウィンドウの遅延はｄ_１＝Ｌ_０＋ｔ_１であり、式中Ｌ_０は開始時にノイズ除去の処理を開始するための初期のウィンドウの大きさである。本発明者らは再度式（２）の導出のための本発明者のオンラインの文献について読者に言及する。

【0020】

この分析では、ｄ_ｉが２つの連続するウィンドウＸ_ｋ－１及びＸ_ｋのネットワークの処理時間のみに依拠することが示されている。固定の大きさのスライディングウィンドウ（（１）に示す）と対照的に、蓄積する遅延がない。そのため、本発明者の手法は、計算能力の変動に対してよりロバストである。これは注目すべき利点である。なぜなら、実際の計算環境において、ノイズ除去の計算能力は絶えず変動するからである（セクション３．３を参照）。

【0021】

２．２ネットワーク構造及びデータパディング
ダイナミックスライディングウィンドウ戦略は、特定のネットワーク構造から独立しているが、多くの既存のリアルタイムのノイズ除去ネットワーク［６、７、８、９、１０］はそれを利用するよう容易に適合できない。それらの一部は、ネットワークの実行の前に所定のスライディングウィンドウの大きさを必要とする［６］。他にも、ネットワークの推論コストの低減に注目しているものはあるが、それらが入来データストリームをいかに取り扱うかが依然不明瞭である［７、８、９、１０］。

【0022】

提案されるネットワーク構造。本発明者は、ダイナミックスライディングウィンドウを使用する軽量のノイズ除去ネットワークを提案する。本発明者のネットワークは、［５］のノイズ除去の成分をもとに構築されている（そのため、その中のノイズ除去モデルよりかなり簡素である）。本発明者のネットワークへの入力は、データウィンドウＸ_ｉへＳＴＦＴを適用することにより取得されるスペクトログラムｓ_ｘである。スペクトログラムｓ_ｘは最初、時間－周波数領域でカーネルサイズ（５，５）及び膨張（１，１）を有する２Ｄの畳み込み層により処理される。結果生じる特徴マップは、非表示の大きさ４００の一方向性のＬＳＴＭ［１１］に供給される。最終的に、３つの完全に接続された層の非表示の大きさ（４００，６００，５１２）が、各タイムビンに対して適用される。他の発話エンハンスメントモデル［５、１２、１３］と類似して、本発明者のネットワークは、ｓ_ｘと同じ次元の複素数値のマスクｃを出力する。最後に、ノイズ除去されたオーディオ信号が、は、逆ＳＴＦＴを

【数4】

に適用することによって取得され、式中

【数5】

はアダマール積を示す。

【0023】

トレーニング時に、本発明者は後続の喪失関数を最適化している：

【数6】

式中

【数7】

はクリーンなオーディオのグラウンドトゥルーススペクトログラムを示す。ＳＴＦＴを計算するとき、本発明者は、ＦＦＴビンの数を５１０に、ハニング窓のサイズを４００に、ホップ長を１２８に設定している。

【0024】

図２は、データパディングの図解を概略的に示す。大きさ８及び６の連続する２つのウィンドウが、カーネルサイズ３の２つの１Ｄの畳み込みにより処理される。この事例において、本発明者は各ウィンドウに対する２つの未来の要素（ウィンドウＸ_ｉについて２２、２３）をパディングし、先行するウィンドウ（処理ウィンドウＸ_ｉから取得された１５、１６）からの第１の畳み込みの結果の２つの要素を再使用する。

【0025】

データパディング。本発明者のネットワーク（また多くのその他のもの）は、畳み込み層を有し、それは境界のデータを処理するためにパディングを必要とする。スライディングウィンドウの方法でストリーミングデータを取り扱うために、このことは、データウィンドウを処理するときに充分な「未来の」データ（例えば、図２のウィンドウＸ_ｉ－１についてはブロック１６及び１７）をバッファする必要があることを意味する。パディングデータの到着を待機することが、さらなる遅れ（本発明者の実施においては４８ミリ秒）を導入する。しかし、本発明者は、次のスライディングウィンドウのパディングデータの畳み込みの結果を再使用することができる（図２の図解を参照）。幾分かの計算のコストを節約することとは別に、パディングデータの再使用は、ネットワークのノイズ除去の質に対して重要である。それにより、本発明者のネットワークが、突如信号全体を取り込むかのように、同じノイズ除去の質を維持することが確実になる。おそらく意外に感じられるであろうが、そのような保証は、既存のリアルタイムのノイズ除去ネットワークに依然欠いている（セクション３．２の実験を参照）。

【0026】

３．実験
本発明者の実験には、２要素がある：本発明者は、本発明者のネットワークのノイズ除去の質を、従来技術のリアルタイムのノイズ除去モデルと比較することによって評価している（セクション３．２）。本発明者は、次に、従来型の固定の大きさのスライディングウィンドウの手法を凌ぐダイナミックスライディングウィンドウのパフォーマンスの利点を実証する（セクション３．３）。

【0027】

３．１．実験の設定
データセット。本発明者は、２つの一般的に利用可能なデータセットについての実験を実行している。Ｘｕら［５］により提供された第１のものは、ＡＶＳＰＥＥＣＨから選択されたクリーンなオーディオ［１２］、及びＡｕｄｉｏＳｅｔ［１４］及びＤＥＭＡＮＤ［１５］からのノイズを有する。本発明者は、このデータセットをＡＤＤデータセットと呼ぶ。加えて、本発明者はまた、Ｖａｌｅｎｔｉｎｉ［１６］のベンチマークを検証し、これは２８のスピーカーからのオーディオクリップを含む；各クリップは、対応するクリーン及びノイズ版を有する。

【0028】

評価のメトリック。ノイズ除去の質を評価すべく、本発明者は、後続の広く使用されている客観的なメトリックを使用する：（ｉ）ＳＴＯＩ：短時間客観的明瞭度（Ｓｈｏｒｔ－ＴｉｍｅＯｂｊｅｃｔｉｖｅＩｎｔｅｌｌｉｇｉｂｉｌｉｔｙ）［１７］；（ｉｉ）ＰＥＳＱ：客観的音声品質評価法（Ｐｅｒｃｅｐｔｕａｌｅｖａｌｕａｔｉｏｎｏｆｓｐｅｅｃｈｑｕａｌｉｔｙ）（本発明者は狭帯域版を使用）［１８］；（ｉｉｉ）ＣＳＩＧ：符号歪のＭＯＳ予測因子［１９］；（ｉｖ）ＣＢＡＫ：バックグラウンドノイズの攻撃性のＭＯＳ予測因子［１９］；（ｖ）ＣＯＶＬ：全体的な質のＭＯＳ予測因子［１９］；（ｖｉ）ＳＳＮＲ：セグメント信号雑音比（ＳｅｇｍｅｎｔａｌＳｉｇｎａｌ－ｔｏ－ＮｏｉｓｅＲａｔｉｏ）［２０］。

【0029】

本発明者は、ネットワークのリアルタイムのパフォーマンスを評価するために２つのメトリックを使用する：平均ネットワークの処理時間（Ｄ_Ｎ）及び最大のオーディオ再生の遅れ（Ｄ_Ａ）である。
Ｄ_Ｎは

【数8】

と定義され、式中Ｍはスライディングウィンドウの全例数であり、ｔ_ｉはウィンドウＸ_ｉの処理時間である。オーディオサンプルが来ると、Ｄ_Ａはオーディオサンプルの到着時間及びその再生時間の間の最大の遅れを（クリーンアップ後に）測定する。他に明記しない限り、ノイズ除去ネットワークは、ＣＰＵ（３．６０ＧＨｚＩｎｔｅｒ８－Ｃｏｒｅｉ７－９７００Ｋ）で実行され、メトリックはミリ秒で測定される。

【0030】

［表１］

【表1】

オフライン（上）及びリアルタイム（下）両方の設定でのＡＡＤデータセットのノイズ除去の質。すべての得点は、ＳＮＲ［－１０、－７、－３、０、３、７、１０］での入力オーディオの平均の結果である。第２位のものに下線が引かれている。

【0031】

３．２．リアルタイムの音声ノイズ除去の質
本発明者は、本発明者のノイズ除去モデルを、Ｄｅｍｕｃｓ４８［６］、ＦｕｌｌＳｕｂ［７］、及びＲＮＮ－Ｍｏｄ［８］を含むいくつかの最近提案されたリアルタイムのノイズ除去ネットワークと比較した。本発明者は、同じ前述のデータセットをこれらのモデルでトレーニングして、リアルタイム及びオフライン設定の両方でノイズ除去の質を評価している。オフライン設定において、オーディオ信号はすぐに提供され、そのためスライディングウィンドウは必要ない。同じネットワークからの２つの設定のノイズ除去の質を比較することにより、本発明者は、どの程度スライディングウィンドウ戦略がノイズ除去の質に影響を与えるのか理解することを望んでいる。

【0032】

Ｄｅｍｕｃｓ４８について、本発明者は、提供されたスライディングウィンドウの実装を使用する。ＦｕｌｌＳｕｂ及びＲＮＮ－Ｍｏｄは、ストリーミングの実装をもたらさず、本発明者は、ダイナミックスライディングウィンドウが追加されたときにこれらのノイズ除去の質が不安定になるということを見出した。したがって、本発明者は、過去及び未来の終わりに１６ミリ秒のパディングを伴う大きさ８０ミリ秒の固定の大きさのスライディングウィンドウをこれらのためにそれらを採用する。本発明者の実験が、許容し得る遅延を保持しながらも最善の可能なリアルタイムのノイズ除去の質をもたらすことを示したことから、本発明者はこのスライディングウィンドウの設定を選択している。

【0033】

表１に、ＡＤＤデータセットの評価の結果をまとめている。本発明者のモデルは、すべての質のメトリックに対する最高又は互角のリアルタイムのノイズ除去の質を備える。また、本発明者のモデルが、データパディング戦略のおかげで、対にされる相手であるオフラインと同じリアルタイムのノイズ除去の質を確実にする唯一のものであったことは、留意する価値がある。他のすべてのモデルでは、オフライン設定からリアルタイム設定に切り替えると質が低下する。さらに、Ｖａｌｅｎｔｉｎｉベンチマークのリアルタイムのノイズ除去の質の結果は、表２で報告されている。

【0034】

３．３．リアルタイムのパフォーマンス
制御実験。第１に、本発明者は、異なるネットワークモデルのＤ_Ｎ及Ｄ_Ａを測定した（表３を参照）。これらのモデルは、異なる長さの入力データを取り込み、本発明者はまた、多数のウィンドウにそれを分割することなく、すぐに、２００ミリ秒の信号処理するためのネットワーク実行時間を測定している。すべての測定は、大掛かりなバックグラウンドプロセスなしですませられた。結果は、専用の計算環境では、本発明者のネットワークが、従来技術のモデルと同じ速さであることを示している。

【0035】

［表２］

【表2】

Ｖａｌｅｎｔｉｎｉのノイズ除去の質。

【0036】

［表３］

【表3】

タイミングの比較。Ｄ_Ｎ及びＤ_Ａに加えて、本発明者はまた、２００ミリ秒のオーディオ（Ｓ_Ｎ）でのネットワーク推論のコストを報告する。ここで、数字はタイミングの平均及び標準偏差を含む。

【0037】

次に、本発明者はダイナミックスライディングウィンドウのリアルタイムのパフォーマンス及びＣＰＵリソースの変動が存在する中での固定の大きさのスライディングウィンドウを理解するための制御実験を行う。その目的で、本発明者は、２つのノイズ除去モデルを作成している：両者とも、ＡＡＤデータセットでトレーニングされた同じノイズ除去ネットワークを使用している（セクション２．２）。第１のものは、ダイナミックスライディングウィンドウを使用している（Ｄモデルと称す）が、第２のものは、固定の大きさのスライディングウィンドウを使用している（Ｆモデルと称す）。公平に比較するために、Ｄモデルの初期のウィンドウの大きさＬ_０は、Ｆモデルの固定のウィンドウの大きさと同じものに設定した（Ｌ_０＝１６ミリ秒）。本発明者は、同じオーディオのセットをノイズ除去するために２つのモデルを使用しており、その各々は５秒の長さを有している。計算能力の変動を改善するべく、２秒後、本発明者は故意に、因子ｓによりネットワーク処理を遅延させており、それにおいてｓはランダムに［１、７］から選択されている。これは、本発明者が同じ長さの遅延がＤモデル及びＦモデルの両方に追加されるのを確実にするとき、制御された方法でバックグラウンドプロセスによるＣＰＵ占有をシミュレートするものである。

【0038】

図３は、オーディオストリームが経時的に到着するときに測定されたＤ_Ｎ及びＤ_Ａを示す。開始時、両者は、リアルタイムでスムーズに実行することができる（再生の遅れＮ_Ａ＜１００ミリ秒で）。２秒後、計算能力が変動し始め、いくつかのスライディングウィンドウを時間内に処理させないようにする。結果として、Ｆモデルの再生の遅れＤ_Ａが蓄積し、出力されるオーディオ再生が途切れ途切れになる。対照的に、ＤモデルのＤ_Ａは安定し続けている、なぜならそれがダイナミックにウィンドウの大きさを増加させて遅延に追いつくことができるからである。この実験は、式（１）及び（２）における本発明者の理論的分析を確認するものである。

【0039】

図３は、ダイナミック及び固定のスライディングウィンドウの手法間におけるリアルタイムのパフォーマンスの比較を概略的に示す。本発明者は、人工的に、２秒後ネットワークの処理時間をランダムに１～７倍増加させて、ＣＰＵ能力の変動をシミュレートしている。曲線は、固定の乱数のシードでの１００回を超える試行の結果を平均化した。

【0040】

現実世界での実験。本発明者は、次に、現実のシナリオにおける本発明者のモデルのリアルタイムのパフォーマンスを調べており、バックグラウンドプロセスは、ＣＰＵサイクルを先取りし得る。ここで、本発明者は、４Ｋビデオの再生、Ｚｏｏｍでの会議、ｉＭｏｖｉｅでのビデオ編集、及びテレビゲームＡｐｅｘを含む異なるソフトウエアがバックグラウンドで実行されている間、同じセットのオーディオをノイズ除去している。Ａｐｅｘのゲームを実行するために、本発明者は８コアのＩｎｔｅｌＣＰＵ（３．６０ＧＨｚｉ７－９７００Ｋ）及びＧＰＵ（ＮＶＩＤＩＡＧｅＦｏｒｃｅＲＴＸ２０７０ＳＵＰＥＲ）を搭載したＷｉｎｄｏｗ１０ＰＣを使用している；他のソフトウエアのテストはＭａｃｂｏｏｋＰｒｏ（２．３ＧＨｚＩｎｔｅｒＱｕａｄ－Ｃｏｒｅｉ５）で行う。本発明者は、これらがいっそう多くのＣＰＵサイクルを要請することから、これらのソフトウエアを選択している。

【0041】

［表４］

【表4】

他のバックグラウンドソフトウエアを実行させたときのＤｅｍｕｃｓ４８及び本発明者のリアルタイムのノイズ除去の遅れ。各セルは、平均及び標準偏差両方でＤ_Ａ（Ｄ_Ｎ）を示す。数字は２０秒のオーディオを使用して測定されたものである。

【0042】

本発明者はこれらのソフトウエアを個々に実行しながら、本発明者のモデル及びＤｅｍｕｃｓ４８をそれぞれ使用してＤ_Ｎ及びＤ_Ａを測定している。本発明者は、固有のストリーミングの実装を有していて本発明者のものに匹敵するノイズ除去の質を提供することから、Ｄｅｍｕｃｓ４８と比較をしている。結果は表４に報告されている。バックグラウンドプロセスがかなり計算的に集中すると（例えば、ｉＭｏｖｉｅやＡｐｅｘ）、Ｄｅｍｕｃｓ４８の再生の遅れが劇的に増加するが、それに対して本発明者のモデルの遅れは軽度で安定し続ける。これは、本発明者のモデル及びダイナミックスライディングウィンドウ戦略のパフォーマンスの利点を示す明確な証拠である。

【0043】

４．結論
本発明者は、リアルタイムの音声ノイズ除去のためのダイナミックスライディングウィンドウ戦略を提案してきた。入念な分析及び実験を通して、本発明者は、広く使用されている固定の大きさのスライディングウィンドウ戦略を凌ぐその利点を実証した。本発明者のノイズ除去ネットワークは、ＳＯＴＡに匹敵するリアルタイムのノイズ除去の質を達成しながらも、ダイナミックスライディングウィンドウを利用することにより、短い遅れを保持する。注目すべきことに、それは本発明者のモデルが他のバックグラウンドのタスクが存在する現実世界のシナリオにおいてロバストに実行することを可能にする。

【0044】

図６は、データ処理装置１００、ＣＥＰ装置２００、バッチ処理装置３００、又は選択装置４００として機能するコンピュータ１２００のハードウェア構成の例を概略的に示す。コンピュータ１２００にインストールされるプログラムは、コンピュータ１２００に、本実施形態に係る装置の１又は複数「ユニット」として機能させるか、又はコンピュータ１２００に、装置に関連付けられる動作を実行させるか又は本実施形態に係るその１又は複数の「ユニット」を実行させ、及び／又はコンピュータ１２００に、本実施形態に係るプロセスを実行させるか又はプロセスの段階を実行させることができる。そのようなプログラムは、ＣＰＵ１２１２に対して、本明細書に記載されているフローチャート及びブロック図のブロックの一部又はすべてに関連付けられる特定の動作をコンピュータ１２００に実行させることにより、実行され得る。

【0045】

本実施形態に係るコンピュータ１２００は、ＣＰＵ１２１２、ＲＡＭ１２１４、及びグラフィックコントローラ１２１６を含み、これらはホストコントローラ１２１０を介して互いに接続されている。コンピュータ１２００はまた、通信インタフェース１２２２、記憶装置１２２４、ＤＶＤドライブ］、及びＩＣカードドライブなどの入出力ユニットを含み、これらは入出力コントローラ１２２０を介してホストコントローラ１２１０に接続されている。ＤＶＤドライブは、ＤＶＤ－ＲＯＭドライブ、ＤＶＤ－ＲＡＭドライブなどであり得る。記憶装置１２２４は、ハードディスクドライブ、ソリッドステートドライブなどであり得る。コンピュータ１２００はまた、ＲＯＭ１２３０やキーボードなどのレガシー入出力ユニットを含み、これらは入出力チップ１２４０を介して入出力コントローラ１２２０に接続される。

【0046】

ＣＰＵ１２１２は、ＲＯＭ１２３０及びＲＡＭ１２１４内に格納されたプログラムに従って動作し、それにより各ユニットを制御する。グラフィックコントローラ１２１６は、ＲＡＭ１２１４又はそれ自体において提供されたフレームバッファなどにある、ＣＰＵ１２１２により発せられたイメージデータを取得し、イメージデータがディスプレイデバイス１２１８に表示されるようにする。

【0047】

通信インタフェース１２２２は、ネットワークを介して他の電子デバイスと通信する。記憶装置１２２４は、コンピュータ１２００においてＣＰＵ１２１２により使用されるプログラム及びデータを格納する。ＤＶＤドライブは、ＤＶＤ－ＲＯＭなどからプログラム又はデータを読み取って記憶装置１２２４にプログラム又はデータを提供する。ＩＣカードドライブは、ＩＣカードからプログラム及びデータを読み取り、及び／又はＩＣカードにプログラム及びデータを書き込む。

【0048】

ＲＯＭ１２３０はその中に、作動時にコンピュータ１２００によって実行されるブートプログラムなど、及び／又はコンピュータ１２００のハードウェアに依存するプログラムを格納する。入出力チップ１２４０はまた、ＵＳＢポート、並列ポート、シリアルポート、キーボードポート、マウスポートなどを介して、入出力コントローラ１２２０に様々な入出力ユニットを接続できる。

【0049】

プログラムは、ＤＶＤ－ＲＯＭ又はＩＣカードなどのコンピュータ可読記憶媒体によって提供される。プログラムは、コンピュータ可読記憶媒体から読み取られ、同じくコンピュータ可読記憶媒体の例である記憶装置１２２４、ＲＡＭ１２１４、又はＲＯＭ１２３０にインストールされ、ＣＰＵ１２１２によって実行される。プログラムに書き込まれている情報処理は、コンピュータ１２００により読み取られ、その結果、プログラム及び上記の様々なタイプのハードウェアリソースの間で協働する。装置又は方法は、コンピュータ１２００の使用に応じて情報の演算又は処理を実装することによって構成され得る。

【0050】

例えば、通信がコンピュータ１２００及び外部のデバイスの間で行われている場合、ＣＰＵ１２１２は、ＲＡＭ１２１４にロードされる通信プログラムを実行し、通信インタフェース１２２２に、通信プログラムに書き込まれている処理に基づいて通信処理を行うよう命令することができる。通信インタフェース１２２２は、ＣＰＵ１２１２の制御下で、ＲＡＭ１２１４、記憶装置１２２４、ＤＶＤ－ＲＯＭ、又はＩＣカードなどの記録媒体に設けられた送信バッファ領域に格納されている伝送データを読み取って送信し、読み取った伝送データをネットワークに送信するか、又はネットワークから受信した受信データを記録媒体に設けられた受信バッファ領域などに書き込む。

【0051】

また、ＣＰＵ１２１２は、記憶装置１２２４、ＤＶＤドライブ（ＤＶＤ－ＲＯＭ）、ＩＣカードなどのような外部記録媒体に格納されたファイル又はデータベースの全部又は必要な部分がＲＡＭ１２１４に読み取られるようにし、ＲＡＭ１２１４上のデータに対し様々なタイプの処理を実行してよい。次に、ＣＰＵ１２１２は、外部記録媒体に処理済みのデータを書き込んで戻すことができる。

【0052】

様々なタイプのプログラム、データ、表、データベースなどの様々なタイプの情報が、記録媒体に格納されて情報処理される。ＣＰＵ１２１２は、ＲＡＭ１２１４に結果を戻して書き込むために、ＲＡＭ１２１４から読み取られたデータについて様々なタイプの処理を行うことができ、その処理は、本開示全体に記載され、プログラムの連続する命令により特定され、様々なタイプの動作、情報処理、条件の判断、条件的分岐、条件のない分岐、情報の検索／置換などを含む。また、ＣＰＵ１２１２は、記録媒体内のファイル、データベースなどにおける情報を検索してよい。例えば、各々が第２の属性の属性値に関連付けられる第１の属性の属性値を有する複数のエントリが、記録媒体に格納されるとき、ＣＰＵ１２１２は、複数のエントリから、第１の属性の属性値が指定された条件に適合するエントリを検索して、エントリに格納されている第２の属性の属性値を読み取り、それにより、所定の条件を満たした第１の属性と関連付けられる第２の属性の属性値を取得することができる。

【0053】

上で説明したプログラム又はソフトウエアモジュールは、コンピュータ１２００上又はコンピュータ１２００近傍のコンピュータ可読記憶媒体に格納されてよい。また、専用の通信ネットワーク又はインターネットに接続されるサーバシステムに設けられるハードディスク又はＲＡＭなどの記録媒体が、コンピュータ可読記憶媒体として使用でき、それにより、ネットワークを介してコンピュータ１２００にプログラムを提供する。

【0054】

本実施形態のフローチャート及びブロック図のブロックは、動作が行われるか又は装置の「ユニット」が動作の実行を担うプロセスの段階を表し得る。特定の段階及び「ユニット」は、専用回路、コンピュータ可読記憶媒体に格納されたコンピュータ可読命令が供給されるプログラマブル回路、及び／又はコンピュータ可読記憶媒体に格納されたコンピュータ可読命令が供給されるプロセッサによって実装され得る。専用回路は、デジタル及び／又はアナログのハードウェア回路を含むことができ、集積回路（ＩＣ）及び／又はディスクリート回路を含むことができる。例えば、プログラマブル回路は、再構成可能なハードウェア回路を含み得、例えば論理のＡＮＤ、ＯＲ、ＸＯＲ、ＮＡＮＤ、ＮＯＲ、及び他の論理動作、フリップフロップ、レジスタ、及びメモリ要素、例えばフィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プログラマブルロジックアレイ（ＰＬＡ）などが挙げられる。

【0055】

コンピュータ可読記憶媒体は、適切なデバイスによって実行される命令を格納できる任意の有形のデバイスを含むことができ、結果として、命令が格納されたコンピュータ可読記憶媒体は、フローチャート又はブロック図で指定された操作を実行するための手段を作成するために実行することができる命令を含む製品が含まれる。コンピュータ可読記憶媒体の例は、電子記憶媒体、磁気記憶媒体、光記憶媒体、電磁記憶媒体、半導体記憶媒体などを含むことができる。コンピュータ可読記憶媒体のより具体的な例は、フロッピー（登録商標）ディスク、ディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、電気的に消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、コンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、デジタルバーサタイルディスク（ＤＶＤ）、ブルーレイ（登録商標）ディスク、メモリスティック、集積回路カード、などを含み得る。

【0056】

コンピュータ可読命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又はＳｍａｌｌｔａｌｋ（登録商標）、ＪＡＶＡ（登録商標）、Ｃ＋＋などのようなオブジェクト指向プログラミング言語、及び「Ｃ」プログラミング言語又は同様のプログラミング言語のような従来の手続き型プログラミング言語を含む、１又は複数のプログラミング言語の任意の組み合わせで記述されたソースコード又はオブジェクトコードのいずれかを含んでよい。

【0057】

コンピュータ可読命令は、汎用コンピュータ、特殊目的のコンピュータ、又は他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路が、フローチャート又はブロック図で指定された演算を実行するための手段を生成するために当該コンピュータ可読命令を実行すべく、ローカルに又はローカルエリアネットワーク（ＬＡＮ）、インターネットなどのようなワイドエリアネットワーク（ＷＡＮ）を介して、汎用コンピュータ、特殊目的のコンピュータ、又は他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路に提供されてよい。プロセッサの例としては、コンピュータプロセッサ、処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、コントローラ、マイクロコントローラなどを含む。

【0058】

実施形態により本発明を説明してきたが、本発明の技術的範囲は上記の実施形態に限定されない。上記実施形態に、多様な変更又は改良を加えることが可能であることが当業者に明らかである。そのような変更又は改良を加えた実施形態はまた、本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

【0059】

特許請求の範囲、実施形態、及び図面において示した装置、システム、プログラム、及び方法における動作、手順、ステップ、及び段階などの各処理の実行順序は、特段「より前に」、「先立って」などと明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現し得ることに留意すべきである。特許請求の範囲、実施形態、及び図面の動作フローに関して、便宜上「第１に」又は「次に」などを用いて説明したとしても、この順で実施することが必須であることを意味するものではない。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【外国語明細書】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版