IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧 ▶ ソニー コーポレイション オブ アメリカの特許一覧

特表2022-525423ダブルアクタークリティックアルゴリズムを通じた強化学習
<>
  • 特表-ダブルアクタークリティックアルゴリズムを通じた強化学習 図1
  • 特表-ダブルアクタークリティックアルゴリズムを通じた強化学習 図2
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-05-13
(54)【発明の名称】ダブルアクタークリティックアルゴリズムを通じた強化学習
(51)【国際特許分類】
   G06N 20/00 20190101AFI20220506BHJP
【FI】
G06N20/00
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021556310
(86)(22)【出願日】2020-02-25
(85)【翻訳文提出日】2021-09-16
(86)【国際出願番号】 US2020019652
(87)【国際公開番号】W WO2020190460
(87)【国際公開日】2020-09-24
(31)【優先権主張番号】62/821,243
(32)【優先日】2019-03-20
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.SMALLTALK
2.BLUETOOTH
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(71)【出願人】
【識別番号】504257564
【氏名又は名称】ソニー コーポレイション オブ アメリカ
(74)【代理人】
【識別番号】100092093
【弁理士】
【氏名又は名称】辻居 幸一
(74)【代理人】
【識別番号】100109070
【弁理士】
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【弁理士】
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100109335
【弁理士】
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【弁理士】
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100151987
【弁理士】
【氏名又は名称】谷口 信行
(72)【発明者】
【氏名】マクラシャン ジェイムズ
(57)【要約】
ダブルアクタークリティック(DAC)強化学習アルゴリズムが、方策の壊滅的過剰適合を伴わずに安定した方策改善及び積極的なニューラルネット最適化を可能にする。DACは、オフライン及びオンライン学習の両方で任意のデータ履歴を使用してモデルを訓練し、他の何らかの手段によって学習又は規定された既存の方策をスムーズに改善するために使用することができる。最終的に、DACは、離散及び連続行動空間を含む強化学習問題を最適化することができる。
【選択図】図2
【特許請求の範囲】
【請求項1】
エージェントのための強化学習アルゴリズムであって、
前記エージェントの現在の観察下で仮説的行動が選択されてその後に前記エージェントの挙動に従った場合に受け取られる予想される将来の割引報酬を前記エージェントの1又は2以上のプロセッサ内で推定する行動値モデルを使用して方策モデルを訓練することと、
前記行動値モデル及び前記方策モデルの両方の陳腐化したコピーを維持することと、
を含み、前記陳腐化したコピーは、前記新鮮なコピーと同様に初期化され、前記新鮮なコピーに対して学習アップデートが実行されるにつれて前記新鮮なコピーに一致するようにゆっくりと動かされ、
前記アルゴリズムは、該アルゴリズムが以前に収集されたデータを使用して訓練されるオフライン変種、及び前記アルゴリズムが前記方策モデルを訓練するにつれてデータが収集されるオンライン変種の両方を有する、
ことを特徴とするアルゴリズム。
【請求項2】
前記行動値モデルは、前記予想される将来の割引報酬Qを以下のように推定し、
ここで、rtは時間ステップtで受け取られる報酬であり、sは前記現在の環境状態の観察であり、aは前記仮説的行動であり、πは前記方策モデルであり、γは、より直近の報酬に対して将来の報酬がどれほど評価されるかを定める領域[0,1)における割引係数である、
請求項1に記載のアルゴリズム。
【請求項3】
前記方策モデルの前記陳腐化したコピーは、前記行動値モデルクリティックの前記新鮮なコピーによって評価されるべき古い方策として機能し、
前記行動値モデルの前記陳腐化したコピーは、新鮮な方策モデルが改善を行う以前の方策モデルのQ値を提供する、
請求項1に記載のアルゴリズム。
【請求項4】
環境状態の所与の観察(s)のための前記方策モデルの出力π(s)は、行動空間の領域にわたる確率分布のパラメータである、
請求項1に記載のアルゴリズム。
【請求項5】
前記行動空間が離散行動空間である場合、前記出力されるパラメータは確率質量値である、
請求項4に記載のアルゴリズム。
【請求項6】
前記行動空間が、連続するn次元の行動空間である場合、前記出力されるパラメータは、前記行動空間にわたる多変量ガウス分布の平均及び共分散である、
請求項4に記載のアルゴリズム。
【請求項7】
前記オフライン変種は、
有効データからタプルのミニバッチを抽出することと、
クリティック損失関数LQ、及びアクター損失関数Lπを計算することと、
前記クリティック損失関数及び前記アクター損失関数の各々をニューラルネットパラメータに関して微分することと、
前記ニューラルネットパラメータに対して確率的勾配降下ベースのアップデートを実行することと、
前記陳腐化したコピーを幾何学的係数によって前記新鮮なコピーに向けてアップデートすることと、
を含むオフラインアルゴリズムを含む、
請求項1に記載のアルゴリズム。
【請求項8】
離散行動事例では、前記陳腐化した方策モデルによる各行動選択の確率を過小評価することによって前記クリティック損失関数の目標が正確に計算され、
離散行動事例では、前記アクター損失の目標が正確に計算され、前記方策モデルを前記目標に一致させるために交差エントロピー損失関数が使用される、
請求項7に記載のアルゴリズム。
【請求項9】
連続行動事例では、前記クリティック損失関数及び前記アクター損失関数の目標が正確に計算されず、前記目標を確率的に近似するために前記方策モデルからの抽出及び前記方策モデルの前記陳腐化したコピーが使用され、前記抽出からの分散が確率的勾配降下法によって平滑化される、
請求項7に記載のアルゴリズム。
【請求項10】
前記クリティック損失関数及び前記アクター損失関数の各々の目標は、前記それぞれのクリティック損失関数及び前記アクター損失関数を最小化することで生じる最適解である、
請求項7に記載のアルゴリズム。
【請求項11】
所与の報酬についての前記クリティック損失関数及び結果としての観察の目標(TQ)は、以下の数式によって定められるスカラー値である、
請求項7に記載のアルゴリズム。
【請求項12】
前記アクター損失関数の目標(Tπ)は、前記行動値モデルの前記陳腐化したコピーからの前記Q値にわたる確率分布であり、各行動の密度が以下のように定められ、
ここで、τは、目標分布が最高スコアのQ値に向けてどれほど貪欲であるかを定める温度ハイパーパラメータであり、前記温度ハイパーパラメータがゼロに近づくにつれ、前記確率分布はより貪欲になり、前記温度ハイパーパラメータが無限大に近づくにつれ、前記確率分布はより均一になる、
請求項7に記載のアルゴリズム。
【請求項13】
前記確率分布は、(1)前記方策モデルが決定論的になって、前記環境内で使用された時に調査を妨げることを防ぐこと、及び(2)準最適な行動選択を過大評価する前記Q値の推定の比較的わずかな誤差を利用することによる前記方策モデルの最適化を防ぐこと、によって前記方策モデルが前記Q値の推定に過剰適合するのを防ぐ、
請求項12に記載のアルゴリズム。
【請求項14】
前記エージェントは予め訓練されたエージェントであり、前記行動値モデルは、所定数の初期ステップにわたって前記エージェントを訓練するためにのみ使用される、
請求項1に記載のアルゴリズム。
【請求項15】
エージェントの方策モデル及び行動値モデルを訓練する方法であって、
前記エージェントの現在の観察下で前記エージェントによって仮説的行動が選択されてその後に前記エージェントの挙動に従った場合に受け取られる予想される将来の割引報酬を前記エージェントの1又は2以上のプロセッサ内で推定することを含み、前記予想される将来の割引報酬Qは、
によって求められ、ここで、rtは時間ステップtで受け取られる報酬であり、sは前記現在の環境状態の観察であり、aは前記仮説的行動であり、πは前記方策モデルであり、γは、より直近の報酬に対して将来の報酬がどれほど評価されるかを定める領域[0,1)における割引係数であり、前記方法は、
前記行動値モデル及び前記方策モデルの両方の陳腐化したコピーを維持することをさらに含み、前記陳腐化したコピーは、前記新鮮なコピーと同様に初期化され、前記新鮮なコピーに対して学習アップデートが実行されるにつれて前記新鮮なコピーに一致するように段階的に動かされ、
前記アルゴリズムは、該アルゴリズムが以前に収集されたデータを使用して訓練されるオフライン変種、及び前記アルゴリズムが前記方策モデルを訓練するにつれてデータが収集されるオンライン変種の両方を有し、
前記方策モデルの前記陳腐化したコピーは、前記行動値モデルクリティックの前記新鮮なコピーによって評価されるべき古い方策として機能し、
前記行動値モデルの前記陳腐化したコピーは、新鮮な方策モデルが改善を行う以前の方策モデルのQ値を提供する、
ことを特徴とする方法。
【請求項16】
環境状態の所与の観察(s)のための前記方策モデルの出力π(s)は、行動空間の領域にわたる確率分布のパラメータであり、
前記行動空間は、離散行動空間又は連続行動空間のいずれかである、
請求項15に記載の方法。
【請求項17】
前記オフライン変種は、
有効データからタプルのミニバッチを抽出することと、
クリティック損失関数LQ、及びアクター損失関数Lπを計算することと、
前記クリティック損失関数及び前記アクター損失関数の各々をニューラルネットパラメータに関して微分することと、
前記ニューラルネットパラメータに対して確率的勾配降下ベースのアップデートを実行することと、
前記陳腐化したコピーを幾何学的係数によって前記新鮮なコピーに向けてアップデートすることと、
を含むオフラインアルゴリズムを含む、
請求項15に記載の方法。
【請求項18】
離散行動事例では、(1)前記陳腐化した方策モデルによる各行動選択の確率を過小評価することによって前記クリティック損失関数の目標が正確に計算され、(2)前記アクター損失の目標が正確に計算され、前記方策モデルを前記目標に一致させるために交差エントロピー損失関数が使用され、
連続行動事例では、前記クリティック損失関数及び前記アクター損失関数の目標が正確に計算されず、前記目標を確率的に近似するために前記方策モデルからの抽出及び前記方策モデルの前記陳腐化したコピーが使用され、前記抽出からの分散が確率的勾配降下法によって平滑化される、
請求項17に記載の方法。
【請求項19】
実行可能プログラムを記憶した非一時的コンピュータ可読記憶媒体であって、前記プログラムは、
前記エージェントの現在の観察下で仮説的行動が選択されてその後に前記エージェントの挙動に従った場合に受け取られる予想される将来の割引報酬を前記エージェントの1又は2以上のプロセッサ内で推定する行動値モデルを使用して方策モデルを訓練することと、
前記行動値モデル及び前記方策モデルの両方の陳腐化したコピーを維持することと、
を実行するように1又は2以上のプロセッサに命令し、前記陳腐化したコピーは、前記新鮮なコピーと同様に初期化され、前記新鮮なコピーに対して学習アップデートが実行されるにつれて前記新鮮なコピーに一致するようにゆっくりと動かされ、
前記アルゴリズムは、該アルゴリズムが以前に収集されたデータを使用して訓練されるオフライン変種、及び前記アルゴリズムが前記方策モデルを訓練するにつれてデータが収集されるオンライン変種の両方を有する、
ことを特徴とする非一時的コンピュータ可読記憶媒体。
【請求項20】
前記方策モデルの前記陳腐化したコピーは、前記行動値モデルクリティックの前記新鮮なコピーによって評価されるべき古い方策として機能し、
前記行動値モデルの前記陳腐化したコピーは、新鮮な方策モデルが改善を行う以前の方策モデルのQ値を提供する、
請求項19に記載の実行可能プログラムを記憶した非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
〔関連出願との相互参照〕
本出願は、2019年3月20日に出願された米国仮特許出願第62/821,243号に対する優先権の利益を主張するものであり、この文献の内容は引用により本明細書に組み入れられる。
【0002】
本発明の実施形態は、一般に機械学習システム及び方法に関する。具体的には、本発明は、知的人工エージェントなどの装置の強化学習にダブルアクタークリティック(double actor critic)アルゴリズムを使用するシステム及び方法に関する。
【背景技術】
【0003】
以下の背景情報は、先行技術の特定の態様(例えば、限定ではなく、手法、事実又は通念)の例を提示することができ、これらの例は先行技術のさらなる態様を読者にさらに伝えるのに役立つと期待されるが、本発明又はそのいずれかの実施形態をこれらの中で言及又は暗示される、或いはそれについて推測されるいずれかの事項に限定するものとして解釈すべきではない。
【0004】
既存のアクタークリティックアルゴリズムには、本発明の実施形態によって対処される後述するものを含む、産業的使用事例のための多くの重要な特性をサポートしているものがない。ほとんどの従来のアルゴリズムは、最新バージョンのアクターモデルからの決定を使用して生成される非常に厳密なデータセットを必要とする。他の従来のアルゴリズムは、どのように決定が行われたかについての明示的知識(例えば、データを生成したシステムからの決定確率(decision probability))を必要とする。いくつかの従来のアルゴリズムは、離散行動領域又は連続行動領域(discrete or continuous action domains)の両方ではなく一方しかサポートしていない。多くの手法は、壊滅的過剰適合(catastrophic overfitting)を回避するメカニズムに欠けている。いくつかの従来の方法は、その目的関数に、他の学習パラダイム又は予備知識との統合を制限する項を導入する。最後に、既存のシステムには、陳腐化した(stale)アクターモデル及びクリティックモデルの両方を、安定した方策反復(policy iteration)のための両目的において使用するものがない。
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記を考慮すると、従来の方法の欠陥の一部又は全部を満たすことができるアルゴリズムが必要とされていることは明らかである。
【課題を解決するための手段】
【0006】
ダブルアクタークリティック(DAC)は、以下を含む産業的使用事例のための多くの重要な特性を満たす。(1)DACは、いずれかの任意の方策に従って収集された過去のデータに作用することができる。(2)DACは、データ内の観察される決定がどのように行われたかに関する特別な知識を必要としない。(3)DACは、離散行動問題及び連続行動問題をサポートする。(4)DACは、限られたデータに対する壊滅的過剰適合を伴わずに積極的な方策最適化を実行する。(5)DACは、模倣学習(learning from demonstration)などの他の方策学習パラダイム又は予備知識と統合することができる。(6)DACは、安定した反復を提供して、ノイズの多い目的間モデル変更(noisy cross-objective model changes)に起因する適合エラーを回避する。
【0007】
例えば、DACは、異なる領域の温度測定値、時刻、エリア内の人数などに基づいて異なる冷暖房システムをオンにすべきかそれともオフにすべきかに決定が関与する離散行動HVAC制御問題(discrete-action HVAC control problem)を解決するために使用することができる。DACは、カメラからの画像及び関節の位置に基づいて物体をピックアンドプレースするロボットアーム及びマニピュレータの制御方法のような連続行動制御問題(continuous-action control problems)を解決するために使用することもできる。
【0008】
本発明の実施形態は、エージェントのための強化学習アルゴリズムであって、エージェントの現在の観察下で仮説的行動が選択されてその後にエージェントの挙動に従った場合に受け取られる予想される将来の割引報酬をエージェントの1又は2以上のプロセッサ内で推定する行動値モデルを使用して方策モデルを訓練することと、行動値モデル及び方策モデルの両方の陳腐化したコピーを維持することとを含み、陳腐化したコピーが、新鮮なコピーと同様に初期化され、新鮮なコピーに対して学習アップデートが実行されるにつれて新鮮なコピーに一致するようにゆっくりと動かされ、アルゴリズムが、アルゴリズムが以前に収集されたデータを使用して訓練されるオフライン変種、及びアルゴリズムが方策モデルを訓練するにつれてデータが収集されるオンライン変種の両方を有する、アルゴリズムを提供する。
【0009】
本発明の実施形態は、エージェントの方策モデル及び行動値モデルを訓練する方法であって、エージェントの現在の観察下でエージェントによって仮説的行動が選択されてその後にエージェントの挙動に従った場合に受け取られる予想される将来の割引報酬をエージェントの1又は2以上のプロセッサ内で推定することを含み、予想される将来の割引報酬Qが、
によって求められ、ここで、rtは時間ステップtで受け取られる報酬であり、sは現在の環境状態の観察であり、aは仮説的行動であり、πは方策モデルであり、γは、より直近の報酬に対して将来の報酬がどれほど評価されるかを定める領域[0,1)における割引係数であり、方法が、行動値モデル及び方策モデルの両方の陳腐化したコピーを維持することをさらに含み、陳腐化したコピーが、新鮮なコピーと同様に初期化され、新鮮なコピーに対して学習アップデートが実行されるにつれて新鮮なコピーに一致するように段階的に動かされ、アルゴリズムが、アルゴリズムが以前に収集されたデータを使用して訓練されるオフライン変種、及びアルゴリズムが方策モデルを訓練するにつれてデータが収集されるオンライン変種の両方を有し、方策モデルの陳腐化したコピーが、行動値モデルクリティックの新鮮なコピーによって評価されるべき古い方策として機能し、行動値モデルの陳腐化したコピーが、新鮮な方策モデルが改善を行う以前の方策モデルのQ値を提供する、方法をさらに提供する。
【0010】
本発明の実施形態は、実行可能プログラムを記憶した非一時的コンピュータ可読記憶媒体であって、プログラムが、(1)エージェントの現在の観察下で仮説的行動が選択されてその後にエージェントの挙動に従った場合に受け取られる予想される将来の割引報酬をエージェントの1又は2以上のプロセッサ内で推定する行動値モデルを使用して方策モデルを訓練することと、(2)行動値モデル及び方策モデルの両方の陳腐化したコピーを維持することと、を実行するように1又は2以上のプロセッサに命令し、陳腐化したコピーが、新鮮なコピーと同様に初期化され、新鮮なコピーに対して学習アップデートが実行されるにつれて新鮮なコピーに一致するようにゆっくりと動かされ、アルゴリズムが、アルゴリズムが以前に収集されたデータを使用して訓練されるオフライン変種、及びアルゴリズムが方策モデルを訓練するにつれてデータが収集されるオンライン変種の両方を有する、非一時的コンピュータ可読記憶媒体も提供する。
【0011】
本発明のこれらの及びその他の特徴、態様及び利点は、以下の図面、説明及び特許請求の範囲を参照することでより良く理解されるであろう。
【0012】
同じ参照記号が同様の要素を示すことができる添付図面の図によって、本発明のいくつかの実施形態を限定ではなく一例として示す。
【図面の簡単な説明】
【0013】
図1】本発明の実施形態による方法及びアルゴリズムを実行するように動作可能な人工知能エージェントのブロック図である。
図2】本発明の例示的な実施形態によるダブルアクタークリティックアルゴリズムの一般的方法ステップを示す図である。
【発明を実施するための形態】
【0014】
別途指示していない限り、図のイラストは必ずしも縮尺通りではない。
【0015】
図示の実施形態について説明する以下の詳細な説明を参照することによって、本発明及びその様々な実施形態をより良く理解することができる。図示の実施形態は一例として示すものであり、最終的に特許請求の範囲に定める本発明を限定するものではないと明確に理解されたい。
【0016】
本明細書で使用する用語は、特定の実施形態を説明するためのものにすぎず、本発明を限定するように意図するものではない。本明細書で使用する「及び/又は」という用語は、関連する記載項目のうちの1つ又は2つ以上のありとあらゆる組み合わせを含む。本明細書で使用する単数形の「a、an(英文不定冠詞)」及び「the(英文定冠詞)」は、その文脈で別途明確に示していない限り、単数形に加えて複数形も含むように意図される。さらに、「含む、備える(comprises及び/又はcomprising)」という用語は、本明細書で使用する場合、言及する特徴、ステップ、動作、要素及び/又はコンポーネントの存在を示すものであるが、1又は2以上の他の特徴、ステップ、動作、要素、コンポーネント、及び/又はこれらの群の存在又は追加を除外するものではないと理解されたい。
【0017】
特に定めがない限り、本明細書で使用する(技術用語及び科学用語を含む)全ての用語は、本発明が属する技術の当業者が一般に理解している意味と同じ意味を有する。さらに、一般に使用される辞書に定義されているような用語については、関連技術及び本開示の文脈におけるこれらの意味に従う意味を有すると解釈すべきであり、本明細書で明確に定義していない限り、理想的な又は過度に形式的な意味で解釈されるものではないと理解されるであろう。
【0018】
本発明の説明では、複数の技術及びステップが開示されていると理解されるであろう。これらはそれぞれ個々の利益を有し、それぞれ開示する他の技術の1つ又は2つ以上、又は場合によっては全てと共に使用することもできる。従って、明確にするために、本説明では個々のステップの全ての可能な組み合わせを不必要に繰り返さないようにする。しかしながら、本明細書及び特許請求の範囲については、このような組み合わせも本発明の範囲及び特許請求の範囲に完全に含まれるという理解の下で読むべきである。
【0019】
以下の説明では、本発明の完全な理解をもたらすために数多くの具体的な詳細を示す。しかしながら、当業者には、これらの具体的な詳細を伴わずとも本発明を実施できることが明らかであろう。
【0020】
本開示は本発明の例示として見なすべきであり、図及び説明によって示す具体的な実施形態に本発明を限定するように意図するものではない。
【0021】
「コンピュータ」又は「コンピュータ装置」は、構造化された入力を受け入れ、構造化された入力を規定のルールに従って処理し、処理の結果を出力として生成することができる1又は2以上の装置及び/又は1又は2以上のシステムを意味することができる。コンピュータ又はコンピュータ装置の例としては、コンピュータ、固定及び/又はポータブルコンピュータ、単一のプロセッサ、複数のプロセッサ、又は並行して及び/又は並行しないで動作できるマルチコアプロセッサを有するコンピュータ、汎用コンピュータ、スーパーコンピュータ、メインフレーム、スーパーミニコンピュータ、ミニコンピュータ、ワークステーション、マイクロコンピュータ、サーバ、クライアント、双方向テレビ、ウェブアプライアンス、インターネットアクセスを有する通信装置、コンピュータと双方向テレビとのハイブリッド結合、ポータブルコンピュータ、タブレットパーソナルコンピュータ(PC)、携帯情報端末(PDA)、携帯電話機、例えばデジタルシグナルプロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け命令セットプロセッサ(ASIP)、チップ、複数のチップ、システムオンチップ又はチップセットなどの、コンピュータ及び/又はソフトウェアをエミュレートする特定用途向けハードウェア、データ収集装置、光コンピュータ、量子コンピュータ、バイオコンピュータ、及び一般にデータを受け入れ、1又は2以上の記憶されたソフトウェアプログラムに従ってデータを処理し、結果を生成し、典型的には入力装置、出力装置、記憶装置、算術演算装置、論理装置及び制御装置を含むことができる装置を挙げることができる。
【0022】
「ソフトウェア」又は「アプリケーション」は、コンピュータを動作させるための規定のルールを意味することができる。ソフトウェア又はアプリケーションの例としては、1又は2以上のコンピュータ可読言語でのコードセグメント、グラフィック及び/又はテキスト命令、アプレット、プリコンパイル済みコード、解釈済みコード、コンパイル済みコード及びコンピュータプログラムを挙げることができる。
【0023】
本明細書で説明する実施形態例は、コンピュータにインストールされたコンピュータ実行可能命令(例えば、ソフトウェア)を含む動作環境、ハードウェア、又はソフトウェアとハードウェアとの組み合わせに実装することができる。コンピュータ実行可能命令は、コンピュータプログラミング言語で書くことができ、又はファームウェアロジックで具体化することができる。このような命令は、認可規格に従うプログラミング言語で書かれている場合、様々なハードウェアプラットフォーム上で様々なオペレーティングシステムと調和するように実行することができる。以下に限定するわけではないが、本発明の態様の動作を実行するためのコンピュータソフトウェアプログラムコードは、オブジェクト指向型プログラミング言語及び/又は従来の手続き型プログラミング言語、及び/又は、例えばハイパーテキストマークアップ言語(HTML)、ダイナミックHTML、拡張マークアップ言語(XML)、拡張スタイルシート言語(XSL)、文書スタイル意味指定言語(DSSSL)、カスケーディングスタイルシート(CSS)、同期化マルチメディア統合言語(SMIL)、ワイヤレスマークアップ言語(WML)、Java(商標)、Jini(商標)、C、C++、Smalltalk、Python、Perl、UNIX(登録商標)シェル、ビジュアルベーシック又はビジュアルベーシックスクリプト、仮想現実マークアップ言語(VRML)、ColdFusion(商標)又はその他のコンパイラ、アセンブラ、インタープリタ、或いはその他のコンピュータ言語又はプラットフォームなどのプログラミング言語を含む1又は2以上の好適なプログラミング言語のいずれかの組み合わせで書くことができる。
【0024】
本発明の態様の動作を実行するためのコンピュータソフトウェアプログラムコードは、Java、Smalltalk又はC++などのオブジェクト指向型プログラミング言語、及び「C」プログラミング言語又は同様のプログラミング言語などの従来の手続き型プログラミング言語を含む1又は2以上のプログラミング言語のいずれかの組み合わせで書くことができる。プログラムコードは、完全にユーザのコンピュータ上で、スタンドアロン型ソフトウェアパッケージとして一部をユーザのコンピュータ上で、一部をユーザのコンピュータ上でかつ一部を遠隔コンピュータ上で、又は完全に遠隔コンピュータ又はサーバ上で実行することができる。後者のシナリオでは、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含むいずれかのタイプのネットワークを通じて遠隔コンピュータをユーザのコンピュータに接続し、或いは(例えば、インターネットサービスプロバイダを使用してインターネットを通じて)外部コンピュータへの接続を形成することができる。プログラムコードを複数の計算ユニット間で分散して、各ユニットが全計算の一部を処理することもできる。
【0025】
以下では、本発明の実施形態による方法、装置(システム)及びコンピュータプログラム製品のフローチャート図及び/又はブロック図を参照しながら本発明の態様を説明する。フローチャート図及び/又はブロック図の各ブロック、並びにフローチャート図及び/又はブロック図のブロックの組み合わせは、コンピュータプログラム命令によって実行することができると理解されるであろう。これらのコンピュータプログラム命令を汎用コンピュータ、専用コンピュータ又はその他のプログラマブルデータ処理装置のプロセッサに与えて機械を生産することで、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサを介して実行される命令が、フローチャート及び/又はブロック図の1又は複数のブロックに規定される機能/動作を実行する手段を生み出すようにすることができる。
【0026】
また、コンピュータ、他のプログラマブルデータ処理装置又はその他の装置に特定の形で機能するように指示することができるこれらのコンピュータプログラム命令をコンピュータ可読媒体に記憶することにより、コンピュータ可読媒体に記憶された命令が、フローチャート及び/又はブロック図の1又は複数のブロック内に指定される機能/動作を実行する命令を含む製造の物品を生み出すようにすることもできる。
【0027】
さらに、プロセスステップ、方法ステップ又はアルゴリズムなどは一定の順序で説明することができるが、このようなプロセス、方法及びアルゴリズムは別の順序で機能するように構成することもできる。換言すれば、説明できるステップのいずれかの順番又は順序は、これらのステップを必ずしもこの順序で実行する必要があることを示すものではない。本明細書で説明するプロセスのステップは、いずれかの実用的な順序で実行することができる。さらに、いくつかのステップを同時に実行することもできる。
【0028】
本明細書で説明する様々な方法及びアルゴリズムは、例えば適切にプログラムされた汎用コンピュータ及び計算装置によって実行できることが容易に明らかになるであろう。通常、プロセッサ(例えば、マイクロプロセッサ)は、メモリ又は同様の装置から命令を受け取ってこれらの命令を実行することにより、これらの命令によって定められたプロセスを実行する。さらに、このような方法及びアルゴリズムを実行するプログラムは、様々な既知の媒体を用いて記憶して送信することができる。
【0029】
本明細書で使用する「コンピュータ可読媒体」という用語は、コンピュータ、プロセッサ又は同様の装置が読み取ることができるデータ(例えば、命令)を提供することに関与するいずれかの媒体を意味する。このような媒体は、以下に限定するわけではないが、不揮発性媒体、揮発性媒体及び送信媒体を含む多くの形態を取ることができる。不揮発性媒体は、例えば光又は磁気ディスク及びその他の永続的メモリを含む。揮発性媒体は、典型的にはメインメモリを構成するダイナミックランダムアクセスメモリ(DRAM)を含む。送信媒体は、プロセッサに結合されたシステムバスを含むワイヤを含む、同軸ケーブル、銅線及び光ファイバを含む。送信媒体は、無線周波数(RF)及び赤外線(IR)データ通信中に生成されるものなどの音波、光波及び電磁放射線を含み、又はこれらを伝えることができる。一般的な形態のコンピュータ可読媒体としては、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、他のいずれかの磁気媒体、CD-ROM、DVD、他のいずれかの光媒体、パンチカード、紙テープ、穴パターンを有する他のいずれかの物理的媒体、RAM、PROM、EPROM、FLASHEEPROM、他のいずれかのメモリーチップ又はカートリッジ、後述するような搬送波、又はコンピュータが読み取ることができる他のいずれかの媒体を挙げることができる。
【0030】
一連の命令をプロセッサに搬送することには、様々な形態のコンピュータ可読媒体が関与することができる。例えば、一連の命令は、(i)RAMからプロセッサに供給することができ、(ii)無線送信媒体を介して搬送することができ、及び/又は(iii)Bluetooth、TDMA、CDMA、3G、4G及び5Gなどの数多くのフォーマット、標準又はプロトコルに従ってフォーマットすることができる。
【0031】
本発明の実施形態は、本明細書に開示する動作を実行する装置を含むことができる。装置は、所望の目的で特別に構成することも、又は内部に記憶されたプログラムによって選択的に作動又は構成される汎用装置を含むこともできる。
【0032】
特に別途述べていない限り、また以下の説明及び特許請求の範囲から明らかになり得るように、本明細書全体を通じて、「処理する」、「計算する」、「算出する」又は「決定する」などの用語を利用した説明は、コンピュータシステムのレジスタ及び/又はメモリ内の電子量などの物理量として表されるデータを操作し、及び/又はコンピュータシステムのメモリ、レジスタ又は他のこのような情報記憶、送信又は表示装置内の物理量として同様に表される他のデータに変形させるコンピュータ、コンピュータシステム又は同様の電子計算装置の動作及び/又はプロセスを意味すると理解されたい。
【0033】
同様に、「プロセッサ」という用語は、レジスタ及び/又はメモリからの電子データを処理し、外部装置の物理的変化又は作動を引き起こすようにこの電子データをレジスタ及び/又はメモリへの記憶又は外部装置への伝達が可能な他の電子データに変換するいずれかの装置又は装置の一部を意味することができる。
【0034】
ここでは、及び一般的に、アルゴリズムは、所望の結果をもたらす首尾一貫した一連の行為又は動作であると考えられる。これらは、物理量の物理的操作を含む。通常、必ずというわけではないが、これらの量は、記憶、転送、合成、比較及び別様な操作が可能な電気又は磁気信号の形態を取る。主に共通使用という理由で、時にはこれらの信号を、ビット、値、要素、記号、文字、用語又は番号などと呼ぶことが便利であると分かっている。しかしながら、これらの及び同様の用語は、全て適切な物理量に関連付けられるべきものであり、これらの量に与えられた便利な表記にすぎないと理解されたい。
【0035】
「エージェント」又は「知的エージェント」又は「人工エージェント」又は「人工知能エージェント」という用語は、観察に応答して行動を選択するいずれかの人為的エンティティを意味するように意図される。「エージェント」は、ロボット、模擬ロボット、ソフトウェアエージェント又は「ボット」、適応エージェント、インターネット又はウェブボットを制限なく意味することができる。
【0036】
「ロボット」という用語は、感知又は観察に応答して行動又はコマンドを発行するコンピュータ又はコンピュータシステムによって直接的又は間接的に制御されるいずれかのシステムを意味することができる。この用語は、カメラ、タッチセンサ及び距離センサなどの物理的センサを有する従来の物理的ロボット、又は仮想シミュレーション内に存在する模擬ロボット、或いはネットワーク内のソフトウェアとして存在するメールボット又はサーチボットなどの「ボット」を制限なく意味することができる。この用語は、いずれかの脚付きロボット(limbed robots)、歩行ロボット、(以下に限定するわけではないが、組み立て、塗装、修理、メンテナンスなどの自動化のために使用されるロボットを含む)産業ロボット、車輪付きロボット、掃除又は芝刈りロボット、パーソナルアシスタントロボット、サービスロボット、医用又は外科ロボット、飛行ロボット、運転ロボット、航空機又は宇宙船ロボット、或いは車両用又はそれ以外の、実際の又は模擬の、知的家庭用又は作業用機器などの静止ロボットも含む、実質的に自律制御下で動作する他のいずれかのロボットを制限なく意味することもできる。
【0037】
「観察(observation又はobservations)」という用語は、エージェントがいずれかの手段によって受け取る、エージェントの環境又はエージェント自体に関するいずれかの情報を意味する。いくつかの実施形態では、この情報を、限定ではないが、カメラ、タッチセンサ、距離センサ、温度センサ、波長センサ、音響又は音声センサ、ポジションセンサ、圧力又は力センサ、速度又は加速度又はその他の動きセンサ、位置センサ(例えば、GPS)などの知覚装置を通じて受け取られる知覚情報又は信号とすることができる。他の実施形態では、この情報が、限定ではないが、一群の知覚装置と記憶された情報とを組み合わせたものから作成された、編集された、抽象的な又は状況的な情報を含むこともできる。非限定的な例では、エージェントが、エージェント自体又は他の物体の位置又は特性に関する抽象情報を観察として受け取ることができる。いくつかの実施形態では、この情報が、人々又は顧客、或いはその購買習慣、個人連絡先情報、個人的好みなどの特性を意味することができる。いくつかの実施形態では、観察を、限定ではないが、エージェントの現在又は過去の活動に関する固有感覚情報(proprioceptive information)又はその他の情報、エージェントの内部状態に関する情報、或いはエージェントによって既に計算又は処理された情報などの、エージェントの内部に関する情報とすることができる。
【0038】
「行動」という用語は、エージェントの環境、エージェントの物理的又は模擬的自己(physical or simulated self)、或いはエージェントの内部機能を制御し、これらに影響し、又はこれらを左右するための、最終的にはエージェントの将来の行動、行動選択、又は行動の好みを制御し、又はこれらに影響を与えることができるエージェントのいずれかの手段を意味する。多くの実施形態では、これらの行動が、物理的又は模擬サーボ又はアクチュエータを直接制御ことができる。いくつかの実施形態では、これらの行動を、エージェントの選択に影響するように意図された好み又は一連の好みの表現とすることができる。いくつかの実施形態では、エージェントの(単複の)行動に関する情報が、限定ではないが、エージェントの(単複の)行動にわたる確率分布、及び/又はエージェントの最終的な行動選択に影響するように意図された発信情報(outgoing information)を含むことができる。
【0039】
「状態」又は「状態情報」という用語は、限定ではないが、エージェントの現在及び/又は過去の観察に関する情報を含むことができる、環境又はエージェントの状態に関するいずれかの一群の情報を意味する。
【0040】
「方策」という用語は、いずれかの完全な又は部分的な状態情報からいずれかの活動情報へのいずれかの関数又はマッピングを意味する。方策は、ハードコーディングすることも、或いは限定ではないが、いずれかの強化学習法又は制御最適化法を含むいずれかの適切な学習法又は教示法を使用して修正、適合又は訓練することもできる。方策は、限定ではないが、特定の尺度、値又は関数を最適化することによって生じ得るものなどの明示的マッピング又は非明示的マッピングとすることができる。方策は、限定ではないが、どのような条件下で方策が開始又は継続できるかを反映する開始条件(又は確率)、どのような条件下で方策が終了できるかを反映する終了条件(又は確率)などの関連するさらなる情報、特徴又は特性を含むことができる。
【0041】
概して、本発明の実施形態は、方策の壊滅的過剰適合を伴わずに安定した方策改善及び積極的なニューラルネット最適化を可能にするDAC強化学習アルゴリズムを提供する。DACアルゴリズムは、オフライン及びオンライン学習の両方で任意のデータ履歴を使用してモデルを訓練し、他の何らかの手段によって学習又は規定された既存の方策をスムーズに改善するために使用することができる。最終的に、DACアルゴリズムは、離散及び連続行動空間を含む強化学習問題を最適化することができる。
【0042】
図1に、1又は2以上のプロセッサ12と、メモリ14と、観察データを取得するセンサ16とを有する知的エージェント10を概略的に示す。当然ながら、エージェント10には、当業で周知の従来の知的エージェントに存在すると理解できるような他のセンサ及びコンポーネントを含めることもできる。図1に示す表現は略図を目的としたものにすぎず、エージェントの特徴を限定するものとして解釈すべきではない。エージェント10は、図2に示すような方法20を実行することができる。図2の方法のさらなる詳細については、以下の明細書及び特許請求の範囲に記載する。
【0043】
高水準では、ニューラルネットワークモデルの実装を使用して、離散行動事例及び連続行動事例の両方にDACの高水準でのアルゴリズム的実装を使用することができる。また、DACは、他の何らかの手段によってハードコーディング又は訓練できる既存のアクターモデルを改善するために使用することもできる。
【0044】
DACは、主にアクターと呼ばれる方策モデルの訓練に関与するが、クリティックと呼ばれる行動値モデルも訓練する。クリティックは、アクターを訓練するサービスにおいて使用され、現在の観察下で仮説的行動(hypothetical action)が選択されてその後にアクターの規定の挙動に従う場合に受け取られる、予想される将来の割引報酬(discounted reward)を推定する。形式上、クリティックは、以下のように定義される関数Qを推定し、
(1)
ここで、rtは時間ステップtで受け取られる報酬であり、sは現在の環境状態の観察であり、aは仮説的行動であり、πはアクターであり、γは、より直近の報酬に対して将来の報酬がどれほど評価されるかを定める領域[0,1)における割引係数(discount factor)である。
【0045】
DACは、アクター及びクリティックがいずれも微分可能なニューラルネットとして実装されることを必要とする。DACは、アクターがパラメトリックな確率的方策(parametric stochastic policy)を定めることも必要とする。このことは、所与の環境状態の(単複の)観察についてのアクターの出力であるπ(s)が、行動空間の領域にわたる確率分布のパラメータであることを意味する。離散行動空間では、通常、これらの出力パラメータが確率質量値(又は対数確率質量値)であり、連続するn次元行動空間では、しばしばこれらの出力パラメータが、行動空間にわたる多変量ガウス分布の平均及び共分散である。
【0046】
DACは、アクターネットワーク及びクリティックネットワークの両方の陳腐化したコピーを維持する。何らかの新鮮なモデルの陳腐化したモデルは、新鮮なモデルと同様に初期化され、新鮮なモデルに対して学習アップデートが実行されるにつれて新鮮なモデルに一致するように段階的にゆっくりと動かされるモデルである。新鮮なモデルが不動点に収束すると仮定すると、その陳腐化したモデルは、その新鮮なモデルに向かうゆっくりとした動きに起因して新鮮なモデルよりも後の時点で不動収束点に到達できるにもかかわらず、同じ点に収束するようになる。
【0047】
本明細書では以下の表記法を使用する。
sは、環境状態の観察のミニバッチ(minibatch)を表す。
aは、環境内で実行できる行動選択のミニバッチを表す。
s’は、何らかの行動が実行された後の結果としての環境状態の観察のミニバッチを表す。
rは、スカラー報酬信号(scalar reward signal)のミニバッチを表す。
a’は、環境内で実行できる行動選択のミニバッチを表す。この表現は、数式がaに加えて第2の別の行動のミニバッチを考慮する際に使用される。例えば、a’は、以前の観察(s)ではなく結果としての観察(s’)に対する可能な行動を意味することができる。
θは、「新鮮な」クリティックニューラルネットの重みを表す。
θ’は、「陳腐化した」クリティックニューラルネットの重みを表す。
Q(s,a;θ)は、ニューラルネットの重みθを使用して仮説的行動が行われた時の観察ミニバッチのQ値のクリティック推定(critic estimate)を表す。
φは、「新鮮な」アクターニューラルネットの重みを表す。
φ’は、「陳腐化した」アクターニューラルネットの重みを表す。
π(s;φ)は、観察ミニバッチsのための重みφでのアクターからの行動確率分布パラメータを表す。
π(s,a;φ)は、ミニバッチsを観察する際にミニバッチを選択するための重みφでのアクターの確率密度を表す。
x~zは、分布パラメータzによって定められる分布から変数xが引き出されたことを表す。
【0048】
DACは、以前に収集されたデータを使用して訓練されるオフライン変種(offline variant)、及びDACがアクターを訓練するにつれてデータが収集されるオンライン変種(online variant)の両方を有する。
【0049】
以下のアルゴリズム1にオフラインアルゴリズムを示す。アルゴリズム1は、有効データから(s,a,r,s’)タプルのミニバッチを抽出し、クリティック損失(LQ)及びアクター損失(Lπ)を計算し、各損失をクリティック及びアクターのニューラルネットパラメータに関して微分し、パラメータに対して確率的勾配降下ベースのアップデート(SGD)を実行し、陳腐化したニューラルネットパラメータを幾何学的係数(k)によって新たなニューラルネットパラメータに向けてアップデートする。データからミニバッチを抽出する方法は、あらゆる数の抽出スキームを含むことができ、最も単純なスキームは、データから一様にランダムなミニバッチを抽出するものである。
【0050】
アルゴリズム1 オフラインDAC
【0051】
DACの定義の中核を成すものは、損失関数の目標(target)、並びに離散及び連続行動事例についてこれらの損失関数がどのように構築されるかである。損失関数の目標は、損失を最小化することで生じる最適解である。所与の報酬についてのクリティック損失関数及び結果としての観察の目標(TQ)は、以下のスカラー値である。
(2)
【0052】
この目標は、陳腐化したアクター及び陳腐化したクリティックを使用して次のステップから値をブートする。アクターは行動にわたる確率分布を定めるので、アクター損失関数の目標(Tπ)は確率分布である。具体的には、この目標は陳腐化したクリティックからのQ値にわたるボルツマン分布であり、各行動の密度は以下のように定義される。
(3)
【0053】
この定義において、τは、目標分布が最高スコアのQ値に向けてどれほど貪欲(greedy)であるかを定める「温度」ハイパーパラメータである。これらの値が0に近づくにつれ、分布はより貪欲になり、無限大に近づくにつれ、分布はより均一になる。
【0054】
ボルツマン分布を目標として使用すると、アクターが現在のQ値推定に過剰適合することが2つの方法で防がれる。第1に、方策が決定論的になって、環境内で使用された時に調査を妨げることが防がれる。第2に、準最適な行動選択を過大評価するわずかな誤差がQ関数推定に存在する場合、アクター最適化がこのわずかな誤差を利用しなくなる。代わりに、行動選択は、わずかな推定誤差のみに起因して異なる同様のスコアリング行動にわたって分散するようになる。
【0055】
確率的勾配降下は、目標に収束するために多くのミニバッチにわたる多くのステップを必要とするノイズの多いプロセスである。DACは、ゆっくりと動く陳腐化したアクター及びクリティックをそれぞれの目標において使用して、多くの必要な最適化ステップにわたって学習を安定させる。
【0056】
さらに、陳腐化したモデルを使用すると、表形式状態(tabular state)及び行動空間のための古典的な方策反復(PI)アルゴリズムに一致するさらに安定した方策改善がもたらされる。PIでは、入力方策が2つのステップによって改善される。第1に、方策のQ値が徹底的に評価される。第2に、Q値を最大化する方策を見つけることによって、改善された方策が計算される。PIは、最適な方策が見つかるまで、新たに改善された方策に対してこの改善プロセスを繰り返す。
【0057】
DACでは、陳腐化したアクターが、新鮮なクリティックによって評価されるべき古い方策として機能し、陳腐化したクリティックが、新鮮なアクターが改善を行う以前の方策のQ値を提供する。
【0058】
離散行動事例では、陳腐化したアクターによる各行動選択の確率を過小評価することによって、クリティックの目標(TQ)を正確に計算することができる。その後、クリティックと目標との間の差分のいずれかのノルムを使用して損失関数を表すことができる。典型的なL2ノルムの事例では、損失が以下のようになる。
(4)
【0059】
アクター損失では、目標分布(Tπ)を正確に計算することもでき、アクターを目標に一致させるために交差エントロピー損失関数が使用される。
(5)
【0060】
交差エントロピーが選択される理由は、離散型分布に向けた高速最適化を可能にするからである。目標分布がQ値にわたって滑らかなので、交差エントロピー損失を使用すると、確定的分布への崩壊までには至らない又は誤ってわずかな誤差を利用する積極的な最適化がもたらされる。
【0061】
連続行動事例では、無数の行動が存在するため、クリティック及びアクター損失関数の目標を正確に計算することができない。代わりに、目標を確率的に近似するために、アクター及び陳腐化したアクターからのサンプルが使用される。抽出からの分散は、確率的勾配降下法によって円滑化される。
【0062】
連続行動クリティック損失は、過小評価の代わりに陳腐化したアクターからの行動サンプルを使用する点を除いて離散行動クリティック損失に非常によく似ている。
(6)
【0063】
アクター損失の実装には以下の2つの課題がある。(1)連続行動にわたるボルツマン分布を正確に計算できない。(2)アクターモデルのパラメトリックな連続確率分布が、連続ボルツマン分布を完全に表せないことがある。
【0064】
これらの課題に対処するために、ボルツマン分布からアクター分布へのKLダイバージェンス(KL divergence)をアクターの損失関数として使用することができる。アクターを状態の確定関数f及び何らかの外部的に抽出されたノイズ(ε)に再パラメータ化することによってアクターの確率分布を抽出できると仮定すると、KLダイバージェンス損失は以下のように確率的に推定することができる。
(7)
【0065】
多くのパラメトリックな連続分布は、再パラメータ化すべきアクターが、一般的ガウス分布を含む外部的に抽出されたノイズを使用することを可能にする。
【0066】
オンラインアルゴリズムはオフラインアルゴリズムのステップ関数を使用して定められ、これを以下のアルゴリズム2に示す。
アルゴリズム2 オンラインDAC
【0067】
オンラインアルゴリズムは、データセットの代わりに相互作用できる環境の参照を受け取ることを除いて、オフラインアルゴリズムと同じハイパーパラメータを採用する。エージェントは、最初は当初空のデータセットを構築する。その後、現在の状態を観察する環境との一連の相互作用を繰り返し、アクターを使用して行動を選択して実行し、結果としての状態及び報酬を観察し、データセットに遷移を追加し、オフラインアルゴリズムステップを実行する。
【0068】
いくつかの文脈では、他の学習パラダイム(例えば、模倣学習)を使用してアクターを予め訓練しておくか、又は何らかの手段によってハードコーディングしておくことができる。この場合、DACは、アクターの状態を中止された位置から改善すべきである。しかしながら、クリティックが、ランダムに初期化されたパラメータを有する新たなモデルである場合、アクターモデルを最適化してランダムなクリティックモデルを最大化すると、アクターがより一様にランダムな方策に向けて引き戻されるようになる。この問題に対処するために、オンラインDACアルゴリズムを以下のアルゴリズム3に示すように修正する。
アルゴリズム3 オンラインDAC
【0069】
このDACのオンライン改善変種は、クリティックのみを訓練する最初のbステップを費やす。アルゴリズムは、このバーンイン期間(burn-in period)後にはオンラインDAC(アルゴリズム2)と同様に進行する。この結果、アクターへのアップデートが開始すると、アルゴリズムは、改善を行うべきアクターの有意義な評価を使用するようになる。
【0070】
当業者であれば、本発明の趣旨及び範囲から逸脱することなく多くの変更及び修正を行うことができる。従って、図示の実施形態はほんの一例として示したものであり、以下の特許請求の範囲によって定められる本発明を限定するものとして解釈すべきではないと理解されたい。例えば、以下では請求項の要素を特定の組み合わせで示しているが、本発明は、開示する要素よりも少ない、多い、又はこれらと異なる要素の他の組み合わせを含むと明確に理解されたい。
【0071】
本明細書において本発明及びその様々な実施形態を説明するために使用される単語は、その一般に定義される意味合いだけでなく、本明細書における特別な定義によって、これらが単一種を表す包括的構造、材料又は行為も含むと理解されたい。
【0072】
従って、本明細書では、以下の特許請求の範囲の単語又は要素の定義が、文言として明記された要素の組み合わせしか含まないわけではないように定められる。従って、この意味では、以下の特許請求の範囲内の要素のうちのいずれか1つに代えて2又は3以上の要素の同等の代用物を使用し、或いは特許請求の範囲内の2又は3以上の要素に代えて単一の要素を使用することもできると考えられる。上記では、要素を特定の組み合わせで機能するように説明し、当初はこのように特許請求することもあるが、場合によっては、特許請求する組み合わせから生じる1又は2以上の要素をこれらの組み合わせから削除することもでき、特許請求する組み合わせを下位の組み合わせ又は下位の組み合わせの変形例に向けることもできると明確に理解されたい。
【0073】
現在知られている又は後から考案される、当業者から見た本主題からのわずかな変化も、同等に特許請求の範囲に含まれることが明確に想定される。従って、現在当業者に知られている、及び将来的に当業者に知られる明らかな置換も、規定の要素の範囲に含まれるものとして定められる。
【0074】
従って、特許請求の範囲は、上記で具体的に図示し説明したもの、概念的に同等のもの、明らかに代用できるもの、及び本発明の基本的発想を組み込んだものを含むと理解されたい。
図1
図2
【国際調査報告】