IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京百度網訊科技有限公司の特許一覧

特許7033183フィルタデバッグ方法、装置、電子機器、読み取り可能な記憶媒体及びコンピュータプログラム
<>
  • 特許-フィルタデバッグ方法、装置、電子機器、読み取り可能な記憶媒体及びコンピュータプログラム 図1
  • 特許-フィルタデバッグ方法、装置、電子機器、読み取り可能な記憶媒体及びコンピュータプログラム 図2
  • 特許-フィルタデバッグ方法、装置、電子機器、読み取り可能な記憶媒体及びコンピュータプログラム 図3
  • 特許-フィルタデバッグ方法、装置、電子機器、読み取り可能な記憶媒体及びコンピュータプログラム 図4
  • 特許-フィルタデバッグ方法、装置、電子機器、読み取り可能な記憶媒体及びコンピュータプログラム 図5
  • 特許-フィルタデバッグ方法、装置、電子機器、読み取り可能な記憶媒体及びコンピュータプログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-03-01
(45)【発行日】2022-03-09
(54)【発明の名称】フィルタデバッグ方法、装置、電子機器、読み取り可能な記憶媒体及びコンピュータプログラム
(51)【国際特許分類】
   H01P 11/00 20060101AFI20220302BHJP
【FI】
H01P11/00 200
【請求項の数】 15
(21)【出願番号】P 2020208116
(22)【出願日】2020-12-16
(65)【公開番号】P2022013589
(43)【公開日】2022-01-18
【審査請求日】2020-12-16
(31)【優先権主張番号】202010624108.3
(32)【優先日】2020-06-30
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】516262169
【氏名又は名称】北京百度網訊科技有限公司
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus,No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110002468
【氏名又は名称】特許業務法人後藤特許事務所
(72)【発明者】
【氏名】許 銘
(72)【発明者】
【氏名】解 ▲シン▼
(72)【発明者】
【氏名】劉 頴
(72)【発明者】
【氏名】斉 月震
(72)【発明者】
【氏名】李 瑞鋒
(72)【発明者】
【氏名】白 ▲ロ▼
【審査官】岸田 伸太郎
(56)【参考文献】
【文献】特開平09-326615(JP,A)
【文献】特開平07-336110(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H01P 11/00
H01P 1/205
(57)【特許請求の範囲】
【請求項1】
フィルタデバッグ方法であって、
フィルタの現在の孔パラメータと指標値を事前にトレーニングされたポリシーネットワークに入力するステップS1と、
前記ポリシーネットワークによって、前記フィルタの現在の孔パラメータと指標値とに基づいて、前記フィルタの研磨されるべき目標孔を特定するステップS2と、
前記フィルタの目標孔を研磨するようにロボットアームを制御するステップS3と、
前記フィルタの研磨後の指標値に基づいて前記フィルタの合否判定を行い、前記フィルタが合格であれば終了し、前記フィルタが不合格であれば、前記ステップS1~ステップS4を前記フィルタが合格となるまで繰り返し実行するステップS4と、を含むフィルタデバッグ方法。
【請求項2】
前記のフィルタの現在の孔パラメータと指標値を事前にトレーニングされたポリシーネットワークに入力することは、
フィルタの現在の孔パラメータに対してMLP(Multi-Layer Perceptron)処理を行って第1パラメータを得ることと、
前記フィルタの現在の指標値に対してMLP処理を行って第2パラメータを得ることと、
前記第1パラメータ及び前記第2パラメータを事前にトレーニングされたポリシーネットワークに入力することとを含み、
前記のポリシーネットワークによって、前記孔パラメータと前記指標値とに基づいて、前記フィルタの研磨されるべき目標孔を特定することは、
前記ポリシーネットワークによって、前記第1パラメータ及び前記第2パラメータに基づいて、前記フィルタの研磨されるべき目標孔を特定することを含む、請求項1に記載の方法。
【請求項3】
前記の前記フィルタの目標孔を研磨するようにロボットアームを制御することは、
前記フィルタの目標孔を1ステップ研磨するように、ロボットアームを制御することを含む、請求項1に記載の方法。
【請求項4】
前記フィルタの孔パラメータは、孔深さ及び孔径を含み、
前記フィルタの指標は、中心周波数、通過帯域幅、リターンロス、挿入損失、左帯域外抑圧、右帯域外抑圧の少なくとも1つを含む、請求項1に記載の方法。
【請求項5】
前記ポリシーネットワークは、シミュレーションフィルタのシミュレーション孔パラメータと前記シミュレーションフィルタのシミュレーション指標値とを含むシミュレーションデータを用いてトレーニングされたものである、請求項1に記載の方法。
【請求項6】
前記ポリシーネットワークは、
前記シミュレーションフィルタの1個の孔のシミュレーション孔パラメータを毎回変更する事前トレーニングを前記ポリシーネットワークに対し行って事前トレーニングネットワークを得るステップと、
前記ポリシーネットワークのパラメータを前記事前トレーニングネットワークのパラメータに初期化するステップと、
収束するまで前記ポリシーネットワークのパラメータを更新するステップと、によってトレーニングされる、請求項5に記載の方法。
【請求項7】
入力モジュールと、制御モジュールと、判定モジュールと、事前にトレーニングされたポリシーネットワークとを含むフィルタデバッグ装置であって、
前記入力モジュールは、フィルタの現在の孔パラメータと指標値を前記ポリシーネットワークに入力し、
前記ポリシーネットワークは、前記フィルタの現在の孔パラメータと指標値とに基づいて、前記フィルタの研磨されるべき目標孔を特定し、
前記制御モジュールは、前記フィルタの目標孔を研磨するようにロボットアームを制御し、
前記判定モジュールは、前記フィルタの研磨後の指標値に基づいて前記フィルタの合否判定を行い、前記フィルタが合格であれば終了し、前記フィルタが不合格であれば、前記フィルタが合格となるまで、前記入力モジュールと前記ポリシーネットワークと前記制御モジュールとによる処理をトリガーする、フィルタデバッグ装置。
【請求項8】
前記入力モジュールは、
フィルタの現在の孔パラメータに対してMLP処理を行って第1パラメータを得る第1処理ユニットと、
前記フィルタの現在の指標値に対してMLP処理を行って第2パラメータを得る第2処理ユニットと、
前記第1パラメータ及び前記第2パラメータを前記ポリシーネットワークに入力する入力ユニットとを含み、
前記ポリシーネットワークは、具体的には、
前記第1パラメータ及び前記第2パラメータに基づいて、前記フィルタの研磨されるべき目標孔を特定する、請求項7に記載の装置。
【請求項9】
前記制御モジュールは、具体的には、
前記フィルタの目標孔を1ステップ研磨するようにロボットアームを制御する、請求項7に記載の装置。
【請求項10】
前記フィルタの孔パラメータは、孔深さ及び孔径を含み、
前記フィルタの指標は、中心周波数、通過帯域幅、リターンロス、挿入損失、左帯域外抑圧、右帯域外抑圧の少なくとも1つを含む、請求項7に記載の装置。
【請求項11】
前記ポリシーネットワークは、シミュレーションフィルタのシミュレーション孔パラメータと前記シミュレーションフィルタのシミュレーション指標値とを含むシミュレーションデータを用いてトレーニングされたものである、請求項7に記載の装置。
【請求項12】
前記ポリシーネットワークは、
前記シミュレーションフィルタの1個の孔のシミュレーション孔パラメータを毎回変更する事前トレーニングを前記ポリシーネットワークに対し行って事前トレーニングネットワークを得るステップと、
前記ポリシーネットワークのパラメータを前記事前トレーニングネットワークのパラメータに初期化するステップと、
収束するまで前記ポリシーネットワークのパラメータを更新するステップと、によってトレーニングされる、請求項11に記載の装置。
【請求項13】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信するように接続されたメモリとを含む電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行され得るコマンドが記憶されており、
前記コマンドが前記少なくとも1つのプロセッサによって実行されることによって、前記少なくとも1つのプロセッサは、請求項1~6のいずれか一項に記載の方法を実行できる、電子機器。
【請求項14】
コンピュータコマンドが記憶されている非一時的コンピュータ読み取り可能な記憶媒体であって、
前記コンピュータコマンドは、請求項1~6のいずれか一項に記載の方法をコンピュータに実行させる、非一時的コンピュータ読み取り可能な記憶媒体。
【請求項15】
非一時的コンピュータ読み取り可能な記憶媒体に記憶されているコンピュータプログラムであって、
少なくとも1つのプロセッサによって実行されると、請求項1~6のいずれか一項に記載の方法を実現するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、強化学習技術に係り、特にフィルタの知的デバッグの技術分野に係り、具体的にはフィルタデバッグ方法、装置、電子機器及び読み取り可能な記憶媒体に係る。
【背景技術】
【0002】
5G通信時代の到来に伴い、セラミック誘電体フィルタなどのフィルタの需要が急速に増大し、フィルタの生産工程において、フィルタの性能を確保するために、フィルタ毎に熟練者による繰り返しのデバッグが必要となり、多大な人件費と時間費用を要し、フィルタのデバッグ効率が低下している。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本願は、フィルタデバッグ方法、装置、電子機器及び読み取り可能な記憶媒体を提供する。
【課題を解決するための手段】
【0004】
第1態様として、本願は、以下のステップを含むフィルタデバッグ方法を提供する。ステップS1において、フィルタの現在の孔パラメータと指標値を事前にトレーニングされたポリシーネットワークに入力する。ここで、前記ポリシーネットワークは、シミュレーションフィルタのシミュレーション孔パラメータと前記シミュレーションフィルタのシミュレーション指標値とを含むシミュレーションデータを用いてトレーニングされたものである。ステップS2において、前記ポリシーネットワークによって、前記フィルタの現在の孔パラメータと前記指標値とに基づいて、前記フィルタの研磨されるべき目標孔を特定する。ステップS3において、前記フィルタの目標孔を研磨するようにロボットアームを制御する。ステップS4において、前記フィルタの研磨後の指標値に基づいて前記フィルタの合否判定を行い、前記フィルタが合格であれば終了し、前記フィルタが不合格であれば、前記ステップS1~前記ステップS4を前記フィルタが合格となるまで繰り返し実行する。
【0005】
第2態様として、本願は、入力モジュールと、制御モジュールと、判定モジュールと、事前にトレーニングされたポリシーネットワークとを含むフィルタデバッグ装置を提供する。前記入力モジュールは、フィルタの現在の孔パラメータと指標値を前記ポリシーネットワークに入力する。ここで、前記ポリシーネットワークは、シミュレーションフィルタのシミュレーション孔パラメータと前記シミュレーションフィルタのシミュレーション指標値とを含むシミュレーションデータを用いてトレーニングされたものである。前記ポリシーネットワークは、前記フィルタの現在の孔パラメータと前記指標値とに基づいて、前記フィルタの研磨されるべき目標孔を特定する。前記制御モジュールは、前記フィルタの目標孔を研磨するようにロボットアームを制御する。前記判定モジュールは、前記フィルタの研磨後の指標値に基づいて前記フィルタの合否判定を行い、前記フィルタが合格であれば終了し、前記フィルタが不合格であれば、前記フィルタが合格となるまで、前記入力モジュールと前記ポリシーネットワークと前記制御モジュールとによる処理をトリガーする。
【0006】
第3態様として、本願は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信するように接続されたメモリとを含む電子機器を提供し、前記メモリには、前記少なくとも1つのプロセッサによって実行されるコマンドが記憶され、前記コマンドが前記少なくとも1つのプロセッサによって実行されることによって、前記少なくとも1つのプロセッサは、第1態様のいずれか一項の方法を実行できる。
【0007】
第4態様として、本願は、第1態様のいずれか一項の方法をコンピュータに実行させるためのコンピュータコマンドが記憶されている非一時的コンピュータ読み取り可能な記憶媒体を提供する。
【発明の効果】
【0008】
本願の技術によれば、ポリシーネットワークを事前にトレーニングしておくことで、ポリシーネットワークでフィルタの孔パラメータと指標値からフィルタのデバッグスキームを特定することが可能となり、フィルタの知的デバッグが実現される。本願では、強化学習技術を適用してポリシーネットワークをトレーニングし、それをフィルタデバッグ分野に適用し、フィルタを手動でデバッグする代わりにフィルタの知的デバッグを実現し、フィルタデバッグ効率を向上させ、従来技術に存在する問題を解決する。
【0009】
このセクションに記載された内容は、本願の実施例のポイントや重要な特徴を示すことを意図するものではなく、また、本願の範囲を限定するために使用されるものでもないと理解されたい。本願の他の特徴は、以下の明細書から容易に理解される。
【0010】
図面は、本構成をよりよく理解するためのものであり、本願の限定にならない。
【図面の簡単な説明】
【0011】
図1】本願の実施例1に係るフィルタデバッグ方法のフローチャートである。
図2】本願の実施例1に係る、フィルタの現在の孔パラメータと指標値をポリシーネットワークに入力する概略図である。
図3】本願の実施例1に係る、ポリシーネットワークの強化学習トレーニングのフローチャートである。
図4】本願の実施例1に係る、シミュレーションフィルタの現在のシミュレーション孔パラメータとシミュレーション指標値を入力とするポリシーネットワーク及び値ネットワークのアーキテクチャ図である。
図5】本願の実施例2に係るフィルタデバッグ装置の構造概略図である。
図6】本願の実施例を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0012】
以下、図面を参照して本願の例示的な実施例を説明し、理解することに寄与する本願の実施例の様々な詳細が含まれるが、それらは、単に例示的なものであると考えるべきである。よって、当業者にとって、ここに記載の実施例に対し、本願の範囲や趣旨から逸脱することなく様々な変更や修正を行うことができることを認識すべきである。同様に、明確及び簡潔のために、以下の記載では、既知の機能や構造の記載を省略している。
実施例1
【0013】
図1に示すように、本願は、以下のステップを含むフィルタデバッグ方法を提供する。
ステップS1:フィルタの現在の孔パラメータと指標値を事前にトレーニングされたポリシーネットワークに入力する。
ステップS2:前記ポリシーネットワークによって、前記フィルタの現在の孔パラメータと指標値とに基づいて、前記フィルタの研磨されるべき目標孔を特定する。
ステップS3:前記フィルタの目標孔を研磨するようにロボットアームを制御する。
ステップS4:前記フィルタの研磨後の指標値に基づいて前記フィルタの合否判定を行い、前記フィルタが合格であれば終了し、前記フィルタが不合格であれば、前記ステップS1~前記ステップS4を前記フィルタが合格となるまで繰り返し実行する。
【0014】
本願において、フィルタは、セラミック誘電体フィルタを含んでもよく、他のフィルタを含んでもよい。フィルタの孔パラメータは、孔深さ及び孔径を含み、フィルタの指標は、中心周波数、通過帯域幅、リターンロス、挿入損失、左帯域外抑圧及び右帯域外抑圧のうちの少なくとも1つを含んでもよい。フィルタの指標値は、フィルタの各項目の指標をテストすることにより得られる。即ち、フィルタの指標値は、フィルタの各項目の指標の値であり、分析機器のテストにより得られる。フィルタの合否は、フィルタの各項目の指標が要求を満たすか否かに依存し、一般的には、上記6項目の指標が要求を満たす場合にフィルタが合格する。フィルタのある1つ又は複数の指標が要求を満たさない場合、フィルタは、不合格であり、フィルタが合格となるまでフィルタの孔パラメータを調整する必要がある。
【0015】
本出願において、ポリシーネットワークは、強化学習によって得られる。ポリシーネットワークは、フィルタの孔パラメータ及び指標値に応じてフィルタデバッグポリシーを与える。フィルタにとって、デバッグポリシーは、具体的には、孔の研磨のポリシーである。換言すれば、ポリシーネットワークは、フィルタの孔パラメータ及び指標値に応じて、研磨対象となる1つ又は複数の孔を特定する。
【0016】
ステップS1において、フィルタの現在の孔パラメータ及び指標値をポリシーネットワークに直接入力することができる。その結果、ステップS2において、ポリシーネットワークは、フィルタの現在の孔パラメータ及び指標値を受信した後に、フィルタの現在の孔パラメータ及び指標値に対して予備的な処理を行い、その後、デバッグポリシーを与え、即ち、フィルタの研磨されるべき目標孔を特定することができる。
【0017】
目標孔の研磨に伴って、フィルタの各項目の指標値が変化するため、ステップS3の後に分析装置によりフィルタのテストをやり直して、研磨後のフィルタの指標値を得、研磨後のフィルタの指標値に基づいてフィルタの合否判定を行うようにしてもよい。
【0018】
本願では、フィルタが合格であれば、上記フィルタデバッグプロセスを終了する。フィルタが不合格であれば、フィルタデバッグを継続する必要があり、具体的には、フィルタが合格となるまで、ステップS1~ステップS4を繰り返し実行する。
【0019】
本願では、ポリシーネットワークを予めトレーニングし、ポリシーネットワークでフィルタの孔パラメータと指標値からフィルタのデバッグスキームを特定することを可能にすることで、フィルタの知的デバッグを実現する。本願では、強化学習技術を適用してポリシーネットワークをトレーニングし、それをフィルタデバッグ分野に適用し、フィルタを手動でデバッグする代わりに、フィルタの知的デバッグを実現し、フィルタデバッグ効率を向上させ、従来技術に存在する問題を解決する。
【0020】
本願では、ステップS1において、前述のようにフィルタの現在の孔パラメータと指標値を直接ポリシーネットワークに入力する実施形態を採用する以外に、フィルタの現在の孔パラメータと指標値を処理した後にポリシーネットワークに入力することもできる。後者の場合、ステップS1は、以下の実施形態を含む。
【0021】
任意選択で、前記のフィルタの現在の孔パラメータと指標値を事前にトレーニングされたポリシーネットワークに入力することは、フィルタの現在の孔パラメータに対してMLP(Multi-Layer Perceptron)処理を行って第1パラメータを得ることと、前記フィルタの現在の指標値に対してMLP処理を行って第2パラメータを得ることと、前記第1パラメータ及び前記第2パラメータを事前にトレーニングされたポリシーネットワークに入力することとを含む。
【0022】
それに応じて、前記ポリシーネットワークによって、前記孔パラメータと前記指標値とに基づいて、前記フィルタの研磨されるべき目標孔を特定することは、前記ポリシーネットワークによって、前記第1パラメータ及び前記第2パラメータに基づいて、前記フィルタの研磨されるべき目標孔を特定することを含む。
【0023】
ここで、MLPは、ANN(Artificial Neural Network)とも呼ばれる。MLPは、入出力層を除き、その間に複数の隠れ層を有することができる。最も単純なMLPは、1つの隠れ層を有する必要があり、即ち、単純なニューラルネットワークと呼ぶことができるように、入力層、隠れ層及び出力層を有する必要がある。本願では、ポリシーネットワークは、MLPであってもよい。
【0024】
該実施形態では、前記フィルタの現在の孔パラメータ(又は指標値)に対してのMLP処理が、フィルタの現在の孔パラメータ(又は指標値)をMLPに入力し、フィルタの現在の孔パラメータ(又は指標値)をMLPによって処理すると理解される。フィルタの現在の孔パラメータと指標値とを同一のMLPで処理してもよいし、フィルタの現在の孔パラメータと指標値とを別々の異なるMLPで処理してもよい。
【0025】
更に、フィルタ現在の孔パラメータに対してMLP処理を行う前に、フィルタ現在の孔パラメータに対して正規化処理を行ってもよい。即ち、フィルタの現在の孔パラメータに対して正規化処理を行った後に、フィルタの現在の孔パラメータに対してMLP処理を行う。
【0026】
ここで、正規化とは、孔パラメータを0~1の間の数字に正規化することを意味し、式(x-X_min)/(X_max-X_min)を用いることができる。
【0027】
更に、フィルタの現在の指標値に対するMLP処理に先立って、フィルタの現在の指標値に対して、まず以下の処理を行ってもよい。連続する指標値に対しては、目標指標値と真の指標値との差を算出し、離散的な指標値に対しては、指標値を0又は1に符号化する(例えば、フィルタの上記指標のうち、中心周波数、通過帯域幅及びリターンロスに対応する指標値は、連続する指標値となり、挿入損失、左側帯域外抑圧及び右側帯域外抑圧に対応する指標値は、離散的な指標値となる)。即ち、フィルタの現在の指標値に対して上記の処理を行った後に、フィルタの現在の指標値に対してMLP処理を行う。
【0028】
図2は、フィルタの現在の孔パラメータ及び指標値を事前にトレーニングされたポリシーネットワークに入力する上記の具体的なプロセスを示す。
【0029】
本実施形態では、フィルタの現在の孔パラメータ及び指標値をポリシーネットワークに入力する前に、予め現在の孔パラメータ及び指標値に対して上記の処理を行っているので、処理後のデータをポリシーネットワークで直接使用することができる。これにより、ポリシーネットワークは、より迅速に調整ポリシーを付与することができる。従って、該実施形態によれば、ポリシーネットワークの処理効率を向上させることができる。
【0030】
本願では、孔の研磨が過剰になり、フィルタが廃棄される事態を回避するために、ステップS3において、フィルタの目標孔に対し、制御可能な研磨を行うように、ロボットアームを制御する。
【0031】
任意選択で、前記の前記フィルタ目標孔を研磨するように前記のロボットアームを制御することは、前記フィルタの目標孔を1ステップ研磨するように、ロボットアームを制御することを含む。
【0032】
1ステップ研磨とは、1回の研磨につき1ステップだけを研磨することを意味し、ステップの大きさは、実際の需要に応じて予め設定しておくことができる。
【0033】
任意選択で、前記ポリシーネットワークは、シミュレーションフィルタのシミュレーション孔パラメータと前記シミュレーションフィルタのシミュレーション指標値とを含むシミュレーションデータを用いてトレーニングされたものである。
【0034】
上記シミュレーションデータは、予め作成したシミュレーションモデルで生産できるので、ポリシーネットワークに対しトレーニングする前に、シミュレーションモデルを予め作成してシミュレーション環境を構築する。シミュレーションモデルの数は、1つでもよいし、フィルタの指標項目数に関連してもよい。例えば、シミュレーションモデルの数は、フィルタの指標項目と同数であり、指標がある項目の数と同数のシミュレーションモデルをトレーニングできる。このように、各項目の指標は、それぞれのシミュレーションモデルに対応している。例えば、中心周波数、通過帯域幅、リターンロス、挿入損失、左帯域外抑圧、右帯域外抑圧の6項目の指標をフィッティングするために、6つの異なるシミュレーションモデルをトレーニングする。シミュレーションモデルのトレーニングは、XGBoostアルゴリズム、ニューラルネットワークアルゴリズムなどのアルゴリズムを用いることができるが、本願では具体的に説明しない。
【0035】
シミュレーションデータによってポリシーネットワークのトレーニングを実現し、トレーニングデータの多様性と制御性を確保することができ、ポリシーネットワークのトレーニング効果を高めることができる。
【0036】
シミュレーションデータを用いてポリシーネットワークを強化学習トレーニングするにあたり、強化トレーニング環境を構築する必要がある。強化学習トレーニング環境のstate(状態)とaction(行動)は、以下のように設計される。強化学習トレーニング環境のstateを2に分割し、一方をシミュレーションフィルタのシミュレーション孔パラメータ(例えば、孔深さと孔径情報)とし、他方をシミュレーションモデルがフィッティングしたシミュレーション指標値とする。強化学習トレーニング環境のactionは、stateに応じて、シミュレーションフィルタの研磨されるべき孔を特定することである。
【0037】
図3は、ポリシーネットワーク強化学習トレーニングのフローチャートを示す。図3に示すように、シミュレーションフィルタの現在のシミュレーション孔パラメータとシミュレーション指標値(即ち、シミュレーションフィルタの現在の状態)をポリシーネットワークに入力し、ポリシー(policy)ネットワークによって次の調整ポリシーを与え、環境によって、調整されたシミュレーションフィルタの状態を与え、調整されたシミュレーションフィルタの状態を値(value)ネットワークによって点数化し、シミュレーションモデルに基づいて、調整されたシミュレーションフィルタの状態が要求を満たすか否かを判定する。要求を満たす場合、ポリシーネットワークは、シミュレーションフィルタの当該ラウンドの調整を終了し、次のラウンドの調整を開始する。要求が満たされない場合、ポリシーネットワークは、該ラウンドの調整を繰り返し続ける。
【0038】
図4は、シミュレーションフィルタの現在のシミュレーション孔パラメータとシミュレーション指標値を入力としたポリシーネットワークと値ネットワークのアーキテクチャ図を示す。図4に示すように、シミュレーションフィルタの現在のシミュレーション孔パラメータは、正規化処理された後、MLP処理され、第1シミュレーションパラメータh1を得る。シミュレーションフィルタの現在のシミュレーション指標値は、連続的又は離散的に処理された後、MLP処理され、第2シミュレーションパラメータh2を得る。次に、h1とh2は、連結されてからポリシーネットワークと値ネットワークにそれぞれ入力される。
【0039】
上記h1及びh2は、例えば、128次元のベクトルであってもよく、h1及びh2の連結後の次元は、256次元であり、ポリシーネットワーク及び値ネットワークの次元は、共に256次元であってもよく、MLP隠れ層のノードの数は、256であってもよい。
【0040】
任意選択で、前記ポリシーネットワークは、前記シミュレーションフィルタの1個の孔のシミュレーション孔パラメータを毎回変更する事前トレーニングを前記ポリシーネットワークに対し行って、事前トレーニングネットワークを得るステップと、前記ポリシーネットワークのパラメータを前記事前トレーニングネットワークのパラメータに初期化するステップと、収束するまで前記ポリシーネットワークのパラメータを更新するステップとによってトレーニングされる。
【0041】
本実施形態では、勾配降下アルゴリズムを使用して、ポリシーネットワーク及び値ネットワークが収束するまで、ポリシーネットワークのパラメータを更新することができる。
【0042】
本実施形態では、ポリシーネットワークに対し事前トレーニングを行うことにより、ポリシーネットワークと値ネットワークの収束速度を向上させ、ポリシーネットワークのトレーニング効率を向上させることができる。
【0043】
なお、本願のフィルタデバッグ方法における複数の代替的な実施形態は、互いに組み合わせて実現してもよいし、単独で実現してもよく、本願では限定されない。
【0044】
本願の上記実施例は、少なくとも以下の利点又は効果を有する。
本願では、ポリシーネットワークを予めトレーニングし、ポリシーネットワークでフィルタの孔パラメータと指標値からフィルタのデバッグスキームを特定することを可能にすることで、フィルタの知的デバッグを実現する。本願では、強化学習技術を適用してポリシーネットワークをトレーニングし、それをフィルタデバッグ分野に適用し、フィルタを手動でデバッグする代わりにフィルタの知的デバッグを実現し、フィルタデバッグ効率を向上させ、従来技術に存在する問題を解決する。
実施例2
【0045】
図5に示すように、本願は、入力モジュール301、制御モジュール302、判定モジュール303及び事前にトレーニングされたポリシーネットワーク304を含むフィルタデバッグ装置300を提供する。入力モジュール301は、フィルタの現在の孔パラメータと指標値をポリシーネットワーク304に入力する。ポリシーネットワーク304は、前記フィルタの現在の孔パラメータと指標値とに基づいて、前記フィルタの研磨されるべき目標孔を特定する。制御モジュール302は、前記フィルタの目標孔を研磨するようにロボットアームを制御する。判定モジュール303は、前記フィルタの研磨後の指標値に基づいて前記フィルタの合否判定を行い、前記フィルタが合格であれば終了し、前記フィルタが不合格であれば、前記フィルタが合格となるまで、入力モジュール301とポリシーネットワーク304と制御モジュール302とによる処理をトリガーする。
【0046】
任意選択で、入力モジュール301は、フィルタの現在の孔パラメータに対してMLP処理を行って第1パラメータを得る第1処理ユニットと、前記フィルタの現在の指標値に対してMLP処理を行って第2パラメータを得る第2処理ユニットと、前記第1パラメータ及び前記第2パラメータを前記ポリシーネットワークに入力する入力ユニットとを含む。ポリシーネットワーク304は、具体的には、前記第1パラメータ及び前記第2パラメータに基づいて、前記フィルタの研磨されるべき目標孔を特定する。
【0047】
任意選択で、制御モジュール302は、具体的には、前記フィルタの目標孔を1ステップ研磨するようにロボットアームを制御する。
【0048】
任意選択で、前記フィルタの孔パラメータは、孔深さ及び孔径を含み、前記フィルタの指標は、中心周波数、通過帯域幅、リターンロス、挿入損失、左帯域外抑圧、右帯域外抑圧の少なくとも1つを含む。
【0049】
任意選択で、ポリシーネットワーク304は、シミュレーションフィルタのシミュレーション孔パラメータと前記シミュレーションフィルタのシミュレーション指標値とを含むシミュレーションデータを用いてトレーニングされたものである。
【0050】
任意選択で、ポリシーネットワーク304は、前記シミュレーションフィルタの1個の孔のシミュレーション孔パラメータを毎回変更する事前トレーニングを前記ポリシーネットワーク304に対し行って事前トレーニングネットワークを得るステップと、ポリシーネットワーク304のパラメータを前記事前トレーニングネットワークのパラメータに初期化するステップと、収束するまでポリシーネットワーク304のパラメータを更新するステップとによってトレーニングされる。
【0051】
本願のフィルタデバッグ装置300は、上記フィルタデバッグ方法の実施例における各プロセスを実現することができ、同様の効果を奏することができるので、その繰り返しを避けるために、ここではその説明を省略する。
【0052】
本願の実施例によれば、本願は、電子機器及び読み取り可能な記憶媒体を更に提供する。
【0053】
図6は、本願の方法実施例に係る電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図される。電子機器はまた、パーソナルデジタルプロセシング、セルラー電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティング装置など、様々な形態のモバイル装置を表してもよい。本明細書に示される構成要素、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び/又は特許請求される本願の実現を限定することを意図しない。
【0054】
図6に示すように、該電子機器は、1又は複数のプロセッサ701、メモリ702、及び高速インターフェースと低速インターフェースを含む、各構成要素を接続するためのインターフェースを含む。各構成要素は、異なるバスで相互に接続され、共通のマザーボード上に実装されてもよいし、必要に応じて他の形態で実装されてもよい。プロセッサは、インターフェースに結合されたディスプレイデバイスなどの外部入出力装置にGUIのグラフィカル情報を表示するために、メモリ内又はメモリ上に記憶されたコマンドを含む、電子機器内で実行されるコマンドを処理する。他の実施形態では、複数のプロセッサ及び/又は複数のバスが、必要に応じて、複数のメモリとともに使用される。また、複数の電子機器が接続され、各機器が必要な動作の一部(例えば、サーバアレイ、ブレードサーバの集合、マルチプロセッサシステムなどとして)を提供するようにしてもよい。図6では、1つのプロセッサ701を例に挙げている。
【0055】
メモリ702は、本願において提供される非一時的コンピュータ読み取り可能な記憶媒体である。ここで、前記メモリは、少なくとも1つのプロセッサによって実行されるコマンドが記憶されている。それによって、前記少なくとも1つのプロセッサは、本願において提供されるフィルタデバッグ方法を実行する。本願の非一時的コンピュータ読み取り可能な記憶媒体は、本願において提供されるフィルタデバッグ方法をコンピュータに実行させるためのコンピュータコマンドを記憶する。
【0056】
非一時的コンピュータ読み取り可能な記憶媒体としてのメモリ702は、本願の実施例におけるフィルタデバッグ方法に対応するプログラムコマンド/モジュール(例えば、図5に示す入力モジュール301、制御モジュール302、判定モジュール303及びポリシーネットワーク304)などの非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュールなどを記憶するために使用される。プロセッサ701は、メモリ702に記憶された非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することにより、問題解析装置の各種機能アプリケーションやデータ処理を実行し、即ち、上記方法の実施例におけるフィルタデバッグ方法を実現する。
【0057】
メモリ702は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを記憶することができるプログラム記憶領域と、電子機器の使用に応じて作成されたデータなどを記憶することができるデータ記憶領域とを含む。また、メモリ702は、高速ランダムアクセスメモリを含んでもよく、また、少なくとも1つの磁気ディスクメモリデバイス、フラッシュメモリデバイス、又は他の非一時的ソリッドステートメモリデバイスなどの非一時的メモリを含んでもよい。一部の実施形態では、メモリ702は、任意選択で、プロセッサ701に対して遠隔に設定されたメモリを含む。これらの遠隔メモリは、ネットワークを介して電子機器に接続される。上記ネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びこれらの組み合わせが挙げられるが、これらに限定されない。
【0058】
電子機器は、入力装置703と出力装置704とを更に含んでもよい。プロセッサ701、メモリ702、入力装置703及び出力装置704は、バス又は他の方式で接続され、図6では、バスを介して接続される例が示される。
【0059】
タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置703は、入力された数字又は文字情報を受信し、電子機器のユーザ設定及び機能制御に関するキー信号入力を生じる。出力装置704は、表示機器、補助照明装置(例えば、LED)、及び触覚フィードバック装置(例えば、振動モータ)などを含む。該表示機器は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むが、これらに限定されない。一部の実施形態では、表示機器は、タッチスクリーンであってもよい。
【0060】
本明細書に記載するシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現される。これらの様々な実施形態は、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及びコマンドを受信し、該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置にデータ及びコマンドを送信することができる専用又は汎用のプログラマブルプロセッサであってもよい少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈可能な1つ又は複数のコンピュータプログラムで実現することを含む。
【0061】
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プラグラマブルプロセッサの機械コマンドを含み、これらのコンピュータプログラムは、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語で実現される。本明細書で使用される場合、用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械読み取り可能な信号として機械コマンドを受信する機械読み取り可能な媒体を含む、プラグラマブルプロセッサに機械コマンド及び/又はデータを提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光学ディスク、メモリ、プログラム可能論理デバイス(PLD))を指す。用語「機械読み取り可能な信号」は、機械コマンド及び/又はデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。
【0062】
ユーザとの対話を提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、ユーザがコンピュータに入力を提供することができるキーボード及びポインティング装置(例えば、マウス又はトラックボール)とを有するコンピュータ上で実施され得る。他の種類の装置を使用して、ユーザとの対話を提供してもよい。例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよい。ユーザからの入力は、音声入力、又は触覚入力を含む任意の形態で受信される。
【0063】
本明細書に記載のシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとして)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、ユーザが本明細書に記載のシステム及び技術の実施形態と相互作用するグラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ)、又はそのようなバックエンド構成要素、ミドルウェア構成要素、又はフロントエンド構成要素の任意の組み合わせを含むコンピューティングシステムにおいて実施される。システムの構成要素は、任意の形式又は媒体(例えば、通信ネットワーク)のデジタルデータ通信によって互いに接続される。通信ネットワークとしては、例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネットなどが挙げられる。
【0064】
コンピュータシステムは、クライアント及びサーバを含む。クライアント及びサーバは、一般に、互いから離れており、通常、通信ネットワークを介して対話する。クライアントとサーバの関係は、それぞれのコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってよく、クラウドコンピューティングサーバ又はクラウドホストとも称され、クラウドコンピューティングサービスアーキテクチャにおけるホスト製品の1つであり、従来の物理ホスト及び仮想専用サーバ(VPS)サービスにおける管理困難性が高く、サービス拡張性が低いという欠点を解決する。
【0065】
本願の実施例の技術手段によれば、ポリシーネットワークを事前にトレーニングしておくことで、ポリシーネットワークでフィルタの孔パラメータと指標値からフィルタのデバッグスキームを特定することが可能となり、フィルタの知的デバッグが実現される。本願では、強化学習技術を適用してポリシーネットワークをトレーニングし、それをフィルタデバッグ分野に適用し、フィルタを手動でデバッグする代わりにフィルタの知的デバッグを実現し、フィルタデバッグ効率を向上させ、従来技術に存在する問題を解決する。
【0066】
上記に示された様々な形態のフローが、ステップの順序変更、追加、又は削除のために使用されることが理解されるべきである。例えば、本願に記載された各ステップは、並列に実行されても、順次的に実行されても、異なる順序で実行されてもよく、本願に開示された技術的解決手段の所望の結果を実現できる限り、本明細書ではこれについて限定しない。
【0067】
上述した具体的な実施形態は、本願の保護範囲への制限にならない。当業者にとって、設計の要求や他の要素によって様々な修正、組み合わせ、サブ組み合わせ及び置換を行うことができることは、明らかである。本願の趣旨や原則内に為した修正、均等置換及び改良などは、すべて本願の保護範囲に含まれるべきである。
図1
図2
図3
図4
図5
図6