特許7545534 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特許7545534自然言語およびビジョンデータを使用して制御ポリシーを学習する報酬生成方法、その命令を格納する非一時的コンピュータ可読媒体、及びそのシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-08-27

(45)【発行日】2024-09-04

(54)【発明の名称】自然言語およびビジョンデータを使用して制御ポリシーを学習する報酬生成方法、その命令を格納する非一時的コンピュータ可読媒体、及びそのシステム

(51)【国際特許分類】

G06N 20/00 20190101AFI20240828BHJP

G06N 3/092 20230101ALN20240828BHJP

【ＦＩ】

G06N20/00

G06N3/092

【請求項の数】 15

(21)【出願番号】P 2023110727

(22)【出願日】2023-07-05

(65)【公開番号】P2024014770

(43)【公開日】2024-02-01

【審査請求日】2023-07-05

(31)【優先権主張番号】17/869,528

(32)【優先日】2022-07-20

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】000005108

【氏名又は名称】株式会社日立製作所

(74)【代理人】

【識別番号】110000350

【氏名又は名称】ポレール弁理士法人

(72)【発明者】

【氏名】アンドリュージェームスウォーカー

(72)【発明者】

【氏名】ジョイディープアチャヤ

【審査官】北川純次

(56)【参考文献】

【文献】米国特許出願公開第２０２２／０１６４６７３（ＵＳ，Ａ１）

【文献】特表２０２０－５３０６０２（ＪＰ，Ａ）

【文献】特開２０２１－０９４６７７（ＪＰ，Ａ）

【文献】特表２０２０－５２２７９１（ＪＰ，Ａ）

【文献】特表２０２２－５０１７２５（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ２０／００

Ｇ０６Ｎ３／０２－３／１０

Ｇ０６Ｔ７／００

(57)【特許請求の範囲】

【請求項1】

報酬を強化学習に提供する方法であって、
プロセッサによって、
環境から得られた画像とテキストで規定されたタスク記述とを受信することと、
前記画像をスライスして複数のサブ画像にすることと、
前記タスク記述の前記テキストおよび前記サブ画像を埋め込んで、前記タスク記述に対する関連性に基づいて前記サブ画像の分布を生成する、埋込みモデルを実行することと、
前記サブ画像の前記分布から前記報酬を生成することと
を含む、方法。

【請求項2】

前記プロセッサによって、
前記タスク記述を更新するため、前記タスク記述に関するテキストの選択を受信することと、
前記テキストの選択に基づいて前記タスク記述を更新することと
を更に含む、請求項１に記載の方法。

【請求項3】

前記プロセッサによって、
前記テキストの選択に基づいて前記タスク記述を更新することが、前記テキストの選択を最適化することを含み、前記テキストの選択を最適化することが、
環境から得られた画像のデータベースから、前記強化学習の出力によってもたらされる成功エピソードと関連付けられた画像のセットを抽出することと、
前記画像のセットから、前記テキストの選択に関連するゴールに対応する画像の別のセットを抽出することと、
前記画像の別のセットおよび前記テキストの選択に対して意味抽出装置を実行して、意味空間における前記画像の別のセットおよび前記テキストの選択の埋込みを作成することと、
前記画像の別のセットおよび前記テキストの選択に対して前記意味空間内で最も近いポイントを決定することと、
前記意味空間内のベクトルを含む更新された前記タスク記述を、前記意味空間の最適化されたポイントから生成することと
を含む、請求項２に記載の方法。

【請求項4】

前記プロセッサによって、
前記タスク記述の前記テキストおよび前記サブ画像を埋め込んで、前記タスク記述に対する関連性に基づいて前記サブ画像の分布を生成する、埋込みモデルを実行することが、
前記サブ画像および前記タスク記述の埋込みの間の類似性スコアを計算することと、
前記サブ画像がそれぞれ前記タスク記述に関連する確率を示す、前記分布を生成することと、を含み、
前記報酬を前記サブ画像に対する分布から生成することが、前記分布のエントロピーに基づいて前記報酬を生成することを含む、
請求項１に記載の方法。

【請求項5】

前記プロセッサによって、
前記報酬がロボット制御システムに提供され、前記強化学習が前記報酬を処理して、前記強化学習の所与の状態に対するポリシーを更新する、請求項１に記載の方法。

【請求項6】

報酬を強化学習に提供する命令を格納する非一時的コンピュータ可読媒体であって、前記命令は、プロセッサに、
環境から得られた画像とテキストで規定されたタスク記述とを受信することと、
前記画像をスライスして複数のサブ画像にすることと、
前記タスク記述のテキストおよび前記サブ画像を埋め込んで、前記タスク記述に対する関連性に基づいて前記サブ画像の分布を生成する、埋込みモデルを実行することと、
前記サブ画像の前記分布から前記報酬を生成させる命令
を含む、非一時的コンピュータ可読媒体。

【請求項7】

前記命令が、
前記タスク記述を更新するため、前記タスク記述に関するテキストの選択を受信することと、
前記テキストの選択に基づいて前記タスク記述を更新することと
を更に含む、請求項６に記載の非一時的コンピュータ可読媒体。

【請求項8】

前記テキストの選択に基づいて前記タスク記述を更新することが、前記テキストの選択を最適化することを含み、前記テキストの選択を最適化することが、
環境から得られた画像のデータベースから、前記強化学習の出力によってもたらされる成功エピソードと関連付けられた画像のセットを抽出することと、
前記画像のセットから、前記テキストの選択に関連するゴールに対応する画像の別のセットを抽出することと、
前記画像の別のセットおよび前記テキストの選択に対して意味抽出装置を実行して、意味空間における前記画像の別のセットおよび前記テキストの選択の埋込みを作成することと、
前記画像の別のセットおよび前記テキストの選択に対して前記意味空間内で最も近いポイントを決定することと、
前記意味空間内のベクトルを含む更新された前記タスク記述を、前記意味空間の最適化されたポイントから生成することと
を含む、請求項７に記載の非一時的コンピュータ可読媒体。

【請求項9】

前記タスク記述の前記テキストおよび前記サブ画像を埋め込んで、前記タスク記述に対する関連性に基づいて前記サブ画像の分布を生成する、埋込みモデルを実行することが、
前記サブ画像および前記タスク記述の埋込みの間の類似性スコアを計算することと、
前記サブ画像がそれぞれ前記タスク記述に関連する確率を示す、前記分布を生成することと、を含み、
前記報酬を前記サブ画像に対する分布から生成することが、前記分布のエントロピーに基づいて前記報酬を生成することを含む、
請求項６に記載の非一時的コンピュータ可読媒体。

【請求項10】

前記報酬がロボット制御システムに提供され、前記強化学習が前記報酬を処理して、前記強化学習の所与の状態に対するポリシーを更新する、請求項６に記載の非一時的コンピュータ可読媒体。

【請求項11】

１つまたは複数のロボットを制御するように構成された、１つまたは複数のロボット制御システムと、
装置と、を備え、前記装置が、
前記１つまたは複数のロボット制御システムを制御する強化学習に報酬を提供するように構成された、プロセッサを備え、前記プロセッサが、
環境から得られた画像とテキストで規定されたタスク記述とを受信し、
前記画像をスライスして複数のサブ画像にし、
前記タスク記述の前記テキストおよび前記サブ画像を埋め込んで、前記タスク記述に対する関連性に基づいて前記サブ画像の分布を生成する、埋込みモデルを実行し、
前記サブ画像の前記分布から前記報酬を生成する
ように構成された、システム。

【請求項12】

前記プロセッサが、
前記タスク記述を更新するため、前記タスク記述に関するテキストの選択を受信し、
前記テキストの選択に基づいて前記タスク記述を更新する、ように構成された、
請求項１１に記載のシステム。

【請求項13】

前記プロセッサが、前記テキストの選択を最適化することによって、前記テキストの選択に基づいて前記タスク記述を更新するように構成され、前記テキストの選択を最適化することが、
環境から得られた画像のデータベースから、前記強化学習の出力によってもたらされる成功エピソードと関連付けられた画像のセットを抽出することと、
前記画像のセットから、前記テキストの選択に関連するゴールに対応する画像の別のセットを抽出することと、
前記画像の別のセットおよび前記テキストの選択に対して意味抽出装置を実行して、意味空間における前記画像の別のセットおよび前記テキストの選択の埋込みを作成することと、
前記画像の別のセットおよび前記テキストの選択に対して前記意味空間内で最も近いポイントを決定することと、
前記意味空間内のベクトルを含む更新された前記タスク記述を、前記意味空間の最適化されたポイントから生成することと
を含む、請求項１２に記載のシステム。

【請求項14】

前記プロセッサが、
前記サブ画像および前記タスク記述の埋込みの間の類似性スコアを計算し、
前記サブ画像がそれぞれ前記タスク記述に関連する確率を示す、前記分布を生成することによって、
前記タスク記述の前記テキストおよび前記サブ画像を埋め込んで、前記タスク記述に対する関連性に基づいて前記サブ画像の分布を生成する、埋込みモデルを実行するように構成され、
前記報酬を前記サブ画像に対する分布から生成することが、前記分布のエントロピーに基づいて前記報酬を生成することを含む、
請求項１１に記載のシステム。

【請求項15】

前記報酬が前記１つまたは複数のロボット制御システムに提供され、前記強化学習が前記報酬を処理して、前記強化学習の所与の状態に対するポリシーを更新する、請求項１１に記載のシステム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、全体として、ロボットシステムを対象とし、より具体的には、自然言語およびビジョンデータを使用して制御ポリシーを学習する報酬フィードバックのためのロボットシステムを対象とする。

【背景技術】

【0002】

関連技術では、様々なタスクに対するロボットの制御ポリシーは、古典的なハードコーディングの手法に基づく制御方法によって決定される。しかしながら、近年、強化学習（ＲＬ）における方法が、かかるポリシーを学習する際に有効であることが証明されている。この場合の枠組みは、エージェント（ロボット）が、状態と呼ばれる自身の環境に関する情報を取り込み、現在の状態を入力とするとともに取るべき次のアクションを出力とするポリシーを学習しようとするというものである。

【0003】

ロボットは、自身がアクションを行った後に到達する次の状態に基づいて、報酬を受け取る。報酬は、行ったアクションに関する情報をロボットに与えるものであり、大きい報酬は、行ったアクションが良好であったことをエージェントに伝え、小さい報酬は、アクションが良好ではなかったことを示す。

【0004】

報酬は、（１）疎な報酬および（２）密な報酬という、２つの基本的カテゴリに分けることができる。疎な報酬は、保持する情報が比較的少ない。例えば、疎な報酬は、タスクが完了していることのみをエージェントに伝え、他の情報は何も提供しないことがある。他方で、密な報酬は、フィードバック信号に、タスクが完了する前の中間ステップに関する更なる情報を与える。

【0005】

しかしながら、密な報酬は一般的に構築するのが難しく、概して、目下の特定のタスクに対してより慎重に作り上げる必要があるという形でトレードオフがもたらされる。

【0006】

関連技術では、良好な報酬関数を作成するための研究に多くの戦略が採用されてきた。ある特定の関連技術の戦略は、自然言語を使用して、報酬成形関数を作り上げる助けとすることを目標とする。

【0007】

つまり、エージェントは、報酬ＲＲを最適化するよう試みる代わりに、この報酬を、次式の形態の新しい報酬を作成する関数ＦＦを追加することによって、より多くの情報を有するものと置き換える。

【0008】

Ｒ’＝Ｒ＋Ｆ
適切なＦを選ぶこの技術は報酬成形と呼ばれる。関連技術の実現例には、言語命令ｌとエージェントが行った一連のアクションａとを受け取る方法を含む。次に、ペア（ｌ，ａ）が、成形関数Ｆを規定するのに使用される目下のタスクに関連するかを知るため、ポテンシャル関数が学習される。

【0009】

ここで、ポテンシャル関数は履歴データから学習しなければならず、言語命令ｌは特定のタスクに対して固定である。かかる方法は、技術的設定を要し、良好な成形関数を構築するのは非常に時間がかかる場合がある。

【発明の概要】

【発明が解決しようとする課題】

【0010】

したがって、より多くの情報を保持しつつも作り上げるのが比較的簡単である報酬関数を信頼性高く構築することができる、方法を開発することが必要とされている。これは、多品種少量の動的作業に適応するように生産ラインを迅速に再構成しなければならない、現代の製造（業）において特に重要である。

【0011】

これに関連して、タスクの性質は頻繁に変わることがあるので、ロボットエージェントは新しいポリシーを迅速に学習しなければならない。本明細書に記載する例示的実現例は、この作業において、エージェントに提供される報酬信号の作成に関する方法に焦点を当てる。

【0012】

強化学習における自然言語の使用は既にある程度研究されてきているが、履歴訓練データを必要とせずに使用することができる技法、または特定のタスクに合わせて調整された技法はない。

【0013】

タスクが頻繁に変わる可能性があり、ポリシーを更新するかまたは再学習させる必要がある場合、これには、有益なフィードバックをエージェントに提供してポリシーを再設計する助けとする、フィードバック信号（報酬）を生成する必要がある。有効なポリシーを学習することを助けるため、過度な手作業による推敲に依存しない、有用な報酬信号を生成する方法が、一般に必要とされている。

【0014】

更に、自然言語を使用することは重要であり、ポリシーを学習する助けとするのにある程度研究されてきているが、ポリシーを通知するのに言語命令をフレーズ化する最適な手法、いわゆる「プロンプトエンジニアリング」に焦点を当てた研究は比較的少ない。

【0015】

文言を注意深く選ぶことは学習に大きな影響を有し得る。言語命令で伝えられる意味内容は、エージェントを最適なポリシーへとガイドすることができるが、または適切にフレーズ化されていない場合、エージェントがどのようにしてタスクを完了するか理解できないままのことがある。

【0016】

例えば、「パレットを持ち上げて積み重ねられた他のパレットの上に乗せる」という命令について考える。ロボットの視界内にパレットの複数の山があることがあるので、かかる命令は潜在的に曖昧な可能性があり、意図される山に関心を向ける手法を伴わなければ、不十分なポリシーが学習されることがある。したがって、ポリシーを学習する際の言語の使用を最適化することが必要とされている。

【課題を解決するための手段】

【0017】

本開示の態様は、プロセッサによって、環境から得られた画像とテキストで規定されたタスク記述とを受信することと、環境から得られた画像をスライスして複数のサブ画像にすることと、タスク記述のテキストおよびサブ画像を埋め込んで、タスク記述に対する関連性に基づいてサブ画像の分布を生成する、埋込みモデルを実行することと、サブ画像の分布から報酬を生成することと、を含むことができる、報酬を強化学習に提供する方法を含むことができる。

【0018】

本開示の態様は、報酬を強化学習に提供する命令を格納する非一時的コンピュータ可読媒体であって、命令は、プロセッサに、環境から得られた画像とテキストで規定されたタスク記述とを受信することと、環境から得られた画像をスライスして複数のサブ画像にすることと、タスク記述のテキストおよびサブ画像を埋め込んで、タスク記述に対する関連性に基づいてサブ画像の分布を生成する、埋込みモデルを実行することと、サブ画像の分布から報酬を生成させる命令を含む、非一時的コンピュータ可読媒体を含むことができる。

【0020】

本開示の態様は、１つまたは複数のロボットを制御するように構成された、１つまたは複数のロボット制御システムと、装置と、を備え、装置が、１つまたは複数のロボット制御システムを制御する強化学習に報酬を提供するように構成された、プロセッサを備え、プロセッサが、環境から得られた画像とテキストで規定されたタスク記述とを受信し、環境から得られた画像をスライスして複数のサブ画像にし、タスク記述のテキストおよびサブ画像を埋め込んで、タスク記述に対する関連性に基づいてサブ画像の分布を生成する、埋込みモデルを実行し、サブ画像の分布から報酬を生成するように構成された、システムを含むことができる。

【発明の効果】

【0021】

本明細書に記載する例示的実現例を通して、強化学習を使用してロボットポリシーを学習するのに使用する、より良好な報酬関数をそれによって構築することができる。

【図面の簡単な説明】

【0022】

【図1】本明細書に記載する例示的実現例が適用されてもよい主要フロー図である。

【図2】報酬を作成する例示的実現例を示す図である。

【図3】１つの例示的実現例による、タスク記述更新ブロックの詳細を示す図である。

【図4】１つの例示的実現例による、報酬生成ブロックの詳細を示す図である。

【図5】１つの例示的実現例による、確率の計算のためのフロー図である。

【図6】例示的実現例を適用することができる物理的環境例を示す図である。

【図7】１つの例示的実現例による、管理装置にネットワーク接続された複数のロボットシステムを含むシステムを示す図である。

【図8】いくつかの例示的実現例で使用するのに適したコンピュータデバイス例を有するコンピューティング環境例を示す図である。

【発明を実施するための形態】

【0023】

以下の詳細な記載は、本出願の図面および例示的実現例の詳細を提供する。図面間で重複する要素の参照番号および記載は、明瞭にするために省略する。記載全体を通して使用される用語は、例として提供されるものであり、限定的であることを意図しない。

【0024】

例えば、「自動」という用語の使用は、本出願の実現例を実践する当業者における所望の実現例に応じて、完全自動の実現例、あるいは実現例の特定の態様に対するユーザまたは管理者の制御を伴う半自動の実現例を含むことがある。

【0025】

選択は、ユーザがユーザインターフェースまたは他の入力手段を通して実施することができ、あるいは所望のアルゴリズムを通して実現することができる。本明細書に記載するような例示的実現例は、単独でまたは組み合わせて利用することができ、例示的実現例の機能性は、所望の実現例による任意の手段を通して実現することができる。

【0026】

本開示の中核となるのは、テキスト情報およびアノテーション、ならびに処理タスクからの画像を通して最適化されたタスク記述から得られる、報酬関数を設計することが求められている、という点である。

【0027】

例示的実現例は、このデータを使用して、次に、タスク記述および各画像の類似性に基づいて確率分布を計算し、次にそれを使用して、タスクまたはサブタスクの完了を示す報酬値を出力することができる。

【0028】

本開示は、潜在的に報酬関数がなく、環境から得た観察結果から学習しなければならない、逆強化学習のスキーマを利用する。図１は、本明細書に記載する例示的実現例が適用されうる主要フロー図を示している。例示的実現例は、利用可能な画像データ１０５および学習済みのタスク記述１０４を使用して、タスク記述の更新１０３と報酬作成１０６とを選択的に行う方法を含む。

【0029】

この報酬は、使用されている現在のポリシーを更新するのに使用することができる、フィードバック信号をエージェント１０８に提供する。つまり、報酬を計算した後、これは一般の強化学習の枠組みと同じように処理されるのであるが、環境１１０からの状態１１１が観察され、状態１１１および計算したばかりの報酬１０７の両方がロボットエージェント１０８へと送られ、そこでは、この情報を使用してポリシーが更新されうる。

【0030】

この状態および報酬データを受信した後、エージェントは、環境１１０内で現在の状態１１１を更新するアクション１０９を選ぶことができる。この状態情報は、報酬の生成において使用される同じ画像１０５を含むことができ、または現在の時間ステップでの環境に関する情報をもたらす他の変数を含むことができる。

【0031】

エージェント１０８がタスクをどのように解決するかを学習する際に環境から十分な画像をデータベース１０１に収集した後、エージェントのタスクの学習がどの程度進捗しているかに基づいて、タスク記述を更新すべきか否かの決定が１０２で行われる。成功エピソード（つまり、ロボットがタスクの完了に成功したトライアル）からより多くの画像が収集されるので、これらを使用して、報酬の生成１０６で使用されるタスクの記述１０４を改良することができる。

【0032】

これは、作業者がタスクのコンポーネントに関連するキーワードを供給する、タスク記述更新ステップ１０３を介して行われ、次に既に収集されている画像データに基づいて、タスク記述がそれによって最適化される。この最適化されたタスク記述は、自然言語で表現されるのではなく、タスクを理解するのに必要とされる意味内容を保存する、特定の「意味空間」に埋め込まれる。

【0033】

最適化されたタスク記述１０４が作成されると、報酬生成部１０６を使用して報酬信号１０７が生成される。例示的実現例では、方法は、画像１０５を環境から得て、画像の意味内容とタスク記述との比較を行うことに依存することができる。それらの意味内容の類似性に基づいて、報酬信号１０７が作成される。この報酬は、それ自体で使用することができ、または既存の報酬内の情報を拡張する成形関数として使用することができる。

【0034】

図２は、報酬を作成する例示的実現例を示している。図２では、報酬を作成するのに本発明の実現例がどのように使用されるかの一例が示される。ロボットからの画像１０５は、タスクをどのように実施するかをロボットが学習すると作成される。

【0035】

次に、画像は、報酬作成ブロック１０６の内部でサブ画像１０６３へと分解される。これらのサブ画像、ならびにタスク記述は、意味空間へ埋込サブ画像１０６２、埋込タスク記述１０６４として入れられ、次に比較されて（１０６５）、各サブ画像とタスク記述との類似性スコアが得られる。

【0036】

これを、サブ画像が（たとえば、他のサブ画像と比べて）タスク記述に合致する尤度を反映する、確率分布１０６６に変えることができる。例えば、図２の例では、右列のサブ画像はタスク記述と何も関係がないので、その確率分布は０である。他方で、中央下および中央上のサブ画像はタスク記述と最も密に関係しているので、それらに関連する最も高い確率を有する。

【0037】

この分布から、分布がどの程度タスク全体に関連するかに関する集計統計が得られる関数を、それによって計算することができる。すべてのサブ画像にわたって均等に分散される分布は、タスクを解決するのに有用な関連情報をほとんど含まず、したがって高エントロピーを有する。

【0038】

一方、そのすべての確率質量が１つのサブ画像に集中した分布は、０エントロピーを有する。したがって、分布のエントロピーＨ（Ｐ）１０６７を使用して、それが特定の閾値を下回る場合には、報酬１０６８を規定することができる。平均または最大値などの他の関数を使用して、所望の実現例に応じて報酬を生成することができる。

【0039】

図３は、１つの例示的実現例による、タスク記述更新ブロック１０３の詳細を示している。タスク記述を更新するため、作業者は、タスクに関連するいくつかの基本キーワードまたは短いテキストプロンプトを選択する（１０３１）。

【0040】

これらのキーワードは、必ずしもそれらに限定されないが、ロボットエージェントがタスクにおいて達成しなければならないサブゴールまたはゴールを含むことができ、あるいは単にタスクに関連する単語であることができる。例えば、ロボットエージェントのタスクが「ネジを拾って穴に入れる」であれば、入力キーワードは「小片を拾って台に入れる」でもいいし、「小片」、「台」のキーワードだけでもいい。

【0041】

ここで、ユーザがタスクプロンプトを最適化したい場合（１０３２）、環境からの画像のデータベース１０１から、成功エピソードからの画像が１０３３で抽出される。成功エピソードとは、ロボットエージェントによるタスクを完了させるための試みが成功した一連のステップを意味する。このステップは、環境からの画像のデータベースが空でない場合のみ行うことができる。データベース１０１が空の場合、本質的には初期化ステップとして、キーワード１０３１をタスク記述１０４として、直接使用しなければならない。

【0042】

この成功エピソードの選択ステップ１０３３は、画像Ｘ_１、…、Ｘ_Ｔのシーケンスを選び、次にそれらの時間ステップそれぞれで受信される対応する報酬Ｒ_１、…、Ｒ_Ｔを調べることによって、自動的に実施することができる。次式の単純関数

【0043】

【数1】

【0044】

を使用して、エピソードが成功したか否かを決めることができ、ここで、Ｇ（Ｒ_１，…，Ｒ_Ｔ）＝１はエピソードが成功であったことを意味し、Ｇ（Ｒ_１，…，Ｒ_Ｔ）＝０はエピソードが成功ではなかったことを意味する。例えば、エージェントがゴール状態に達した場合のみ報酬Ｒ_ｔ＝１が受信され、それ以外はＲ_ｔ＝０である、ゴール調整の例では、関数Ｆは単に次式のようになる。

【0045】

【数2】

【0046】

成功エピソードが選択されると（１０３３）、これらの成功画像に属する画像から、入力キーワードに関連するゴールまたはサブゴールに対応する別のサブセットが選択される（１０３４）。これは、手動のアノテーションまたは教師なし戦略のどちらかを通して行うことができる。

【0047】

教師なしの事例では、これは、どの画像が埋込みキーワードの意味内容に最も密に合致するかを格付けすることによって行うことができる。いずれの場合も、キーワードに対応する画像が選択された後、キーワードおよびこれらの選択画像の両方が意味抽出装置に通される（１０３５）。

【0048】

意味抽出装置の出力は、サブゴール／ゴール画像および選択キーワードの両方の意味空間への埋込みである。この多モードデータは共通空間内にあるので、計算をより直接的に行うことができる。このデータは、意味空間内においてこのデータに最も近い最適点を見つけ出すことを目標とする最適化装置１０３７に通される。

【0049】

これは、単純に中心を取る方法、またはこのデータに関する損失を最小化するより複雑な最適化装置など、様々な手法で行うことができる。しかしながら、ここでの出力は最適なタスク記述１０４である。このタスク記述は自然言語で表現されるのではなく、意味空間内のベクトルとして表現され、したがって、本ブロック１０３の始まりに識別された選択画像１０３４およびキーワード１０３１に最も関連する意味内容を保持する。

【0050】

タスク記述１０４が指定され、画像１０５が環境から得られると、この画像を作成した状態へと至ったアクションに基づいて報酬を計算することができる。図４は、１つの例示的実現例による、報酬生成ブロック１０６の詳細を示している。

【0051】

このブロックの出力は、ポリシーを更新するのにエージェントに供給される報酬信号である。最初に、フローは、タスク記述１０４が自然言語で表現されているか、または意味空間内にあるかを確かめる（１０６１）。前者の事例は、環境からの画像が完成しておらず、供給されたキーワード１０３１のみが、初期化ステップなどでタスク記述１０４として受信されている場合に起こるであろう。

【0052】

前者の事例が真の場合（ＮＯ）、フローが進んで、自然言語で表現されたタスク記述を得て、それを意味抽出装置に通して埋込みタスク記述を得る（１０６２）。続いて、フローは次に画像１０５を得て、画像Ｘをスライスしてサブ画像Ｘ_ｉｊのＬ×Ｌのグリッドにする（１０６３）。

【0053】

Ｘ_ｉｊは、グリッドのｉ番目の行およびｊ番目の列におけるサブ画像Ｘを指す。次に、これらのサブ画像それぞれを意味抽出装置に通して、これらのサブ画像それぞれの意味空間への埋込みを行う（１０６４）。ドット積など、類似性の適切な基準ｓ（・，・）を使用して、それによってフローは、グリッドの各サブ画像Ｘ_ｉｊに関して、ｚとして表される埋込みテキスト記述に対する類似性を計算することができる（１０６５）。

【0054】

ｚ＝φ（ｃ）であり、ｃは、フローが初期段階の場合にタスク記述を規定するのに使用されるキーワードであることに注意されたい。つまり、フローは次式を計算する。

【0055】

【数3】

【0056】

次に、これらの類似性を、ソフトマックス関数（温度λを有する）を適用することなどによって、グリッドに対する確率分布に変えることができる。

【0057】

【数4】

【0058】

より一般には、この確率分布の計算は図５に記載するように行うことができる。図５は、１つの例示的実現例による、確率の計算のためのフロー図を示している。プロンプトの埋込とサブ画像の埋込との類似度Ｓｉｊを収集し（１０６５)、再重み付けされた類似度ＳｉｊであるＷｉｊを計算する（１０６５１)。これらはすべて正である。

【0059】

次に、それらの和Ｗ＝Σ_ｉ，ｗ_ｉｊが計算され（１０６５２）、ここから確率ｐ_ｉｊ＝ｗ_ｉｊ／Ｗをそれによって得ることができる（１０６６）。この確率分布１０６６は、サブ画像ｗ_ｉｊが、グリッド内の他の画像と比べて、タスク記述ｚに最も密に合致する確率として解釈することができる。

【0060】

ここから、任意の所望の実現例にしたがって確率分布を処理して、報酬信号を作成することができる（１０６７）。分布を特定の関数に通すことによって報酬信号を作成することができる、いくつかの手法がある。例えば、報酬信号を生成するため、エントロピーを次式のように計算することができる。

【0061】

【数5】

【0062】

その発想は、画像全体がタスクの記述１０４を反映する状態から得たものである場合、タスク記述ｚに関連するより少ないサブ画像Ｘ_ｉｊにより多くの情報が含まれるというものである。特定の閾値ｖに対してエントロピーＨ＜ｖである状態に対応する画像Ｘを、それによって決定することができる。

【0063】

このブロックの出力Ｆは、画像Ｘおよびタスク記述ｚに応じて決まり、次式の信号を規定するのに使用することができる。

【0064】

【数6】

【0065】

ここから、この信号Ｆ（Ｘ，ｚ）のみを使用して報酬信号１０７を規定することができ、または、既存の報酬Ｒが既に得られている場合、報酬成形を使用して別の報酬関数Ｒ’＝Ｒ＋Ｆを得ることによって報酬を修正できるという点で、報酬成形関数として処理することができる。

【0066】

図６は、例示的実現例を適用することができる物理的環境例を示している。ここで記載する例示的実現例は、ロボットの近くのデバイスに存在するドッカー化したマイクロサービスとして設定することができる。このデバイスは、ロボットにタスクを完了するために必要とするアクションを与えるポリシーの計算に関与する。

【0067】

このポリシーは、本明細書に記載する例示的実現例によって拡張される、強化学習（ＲＬ）アルゴリズム２０２を介して学習される。ＤＤＰＧ、ＳＡＣ、ＰＰＯなど、様々なＲＬアルゴリズムを使用することができる。本発明の環境では、ロボットがタスクを完了しようとする際にキャプチャされる画像１０５を提供するカメラ２０１があると仮定される。

【0068】

これらの画像は、別のデバイスに存在するデータベース１０１に格納されるが、ＲＬアルゴリズムを計算するのに使用されるデバイスがこれらの画像にアクセスすることができる限り、ＲＬアルゴリズムの同じデバイスに存在することもできる。

【0069】

ポリシーが、現在の状態に基づいてＲＬアルゴリズム２０２を使用してアクションを計算すると、ロボットに対するアクション命令２０３が、ロボットと通信するデバイスに送られる。これはやはり、ＲＬアルゴリズムが稼働する同じデバイスであることができる。ここから、このアクションが処理され、ロボット１０８に通信して、ポリシーによって指定される次のアクションへと移る。

【0070】

アクションが行われると、別のカメラ画像が撮られ、プロセスは繰り返す。提案される報酬方法は、ロボットが取り組もうと試みているタスクに関連する、キーワード１０３１の形態での人間の入力を使用することができる。これらは、ＲＬアルゴリズムが動作するエッジデバイスへと入力することができる。

【0071】

本明細書に記載する例示的実現例を通して、強化学習を使用してロボットポリシーを学習するのに使用する、より良好な報酬関数をそれによって構築することができる。これは、かかるアルゴリズムがロボットポリシーをより短時間で学習することを可能にする即効性を有するようになるので、個々のタスクそれぞれに合わせて調整される、高度にカスタマイズされた報酬の必要性が低減される。

【0072】

いくつかの事例では、必要とされるであろうものは、単一の言語命令と、場合によっては少量の追加のアノテーションとですべてである。実際の学習時間を低減する他に、提案される解決策によってリソース要件が全体的に少なくなる。例示的実現例では、環境を観察するカメラのみを必要とする可能性があるが、より複雑なフィードバックをロボットに提供することができる、詳細な感知要件に対する必要性を適宜低減させることができる。

【0073】

この複雑なフィードバックの構築は、一般に、顕著なエンジニアリングリソースを要する。他方で、例示的実現例は、詳細な技術的知識なしに利用することができ、必要とする時間投資は最小限である。

【0074】

図７は、１つの例示的実現例による、管理装置にネットワーク接続された複数のロボットシステムを含むシステムを示している。１つまたは複数のロボット制御システム７０１（例えば、ロボットアーム、旋盤、エアコンプレッサなどの制御システム）は、管理装置７０２に接続された対応するロボットハードウェアコントローラを通して、ネットワーク７００（例えば、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ））に通信可能に結合される。

【0075】

管理装置７０２は、ロボット制御システム７０１から収集された履歴データを収容し、またロボット制御システム７０１のそれぞれに対する遠隔制御を容易にする、データベース７０３を管理する。

【0076】

代替の例示的実現例では、ロボットシステムからのデータは、ロボット制御システム７０１からデータを取り込む専用データベースなどの中央レポジトリまたは中央データベース、あるいはエンタープライズリソースプランニングシステムなどのシステムに格納することができ、管理装置７０２は、中央レポジトリまたは中央データベースにアクセスするか、あるいはそこからデータを取り出すことができる。

【0077】

図８は、図７に示されるような管理装置など、いくつかの例示的実現例で使用するのに適したコンピュータデバイス例を有するコンピューティング環境例を示している。

【0078】

コンピューティング環境８００のコンピュータデバイス８０５は、１つもしくは複数の処理装置、コア、またはプロセッサ８１０、メモリ８１５（例えば、ＲＡＭ、ＲＯＭ、および／もしくはその他）、内部ストレージ８２０（例えば、磁気、光学、固体記憶装置、および／もしくは有機）、ならびに／あるいはＩ／Ｏインターフェース８２５を含むことができ、それらはいずれも、情報を通信する通信メカニズムまたはバス８３０で結合するか、あるいはコンピュータデバイス８０５に埋め込むことができる。

【0079】

Ｉ／Ｏインターフェース８２５はまた、所望の実現例に応じて、画像をカメラから受信するか、画像をプロジェクタまたはディスプレイに提供するように構成される。

【0080】

コンピュータデバイス８０５は、入力／ユーザインターフェース８３５および出力デバイス／インターフェース８４０に通信可能に結合することができる。入力／ユーザインターフェース８３５および出力デバイス／インターフェース８４０のどちらか一方または両方は、有線もしくは無線インターフェースであることができ、取外し可能であることができる。

【0081】

入力／ユーザインターフェース８３５は、入力を提供することができる、物理的または仮想の、任意のデバイス、構成要素、センサ、またはインターフェース（例えば、ボタン、タッチスクリーンインターフェース、キーボード、ポインティング／カーソル制御、マイクロフォン、カメラ、点字、モーションセンサ、光学リーダ、および／もしくはその他）を含んでもよい。

【0082】

出力デバイス／インターフェース８４０は、ディスプレイ、テレビ、モニタ、プリンタ、スピーカー、点字などを含んでもよい。いくつかの例示的実現例では、入力／ユーザインターフェース８３５および出力デバイス／インターフェース８４０は、コンピュータデバイス８０５を埋め込むか、またはそれに物理的に結合することができる。

【0083】

他の例示的実現例では、他のコンピュータデバイスが、コンピュータデバイス８０５の入力／ユーザインターフェース８３５および出力デバイス／インターフェース８４０として機能するか、またはその機能を提供してもよい。

【0084】

コンピュータデバイス８０５の例としては、高度モバイルデバイス（例えば、スマートフォン、自動車または他の機械のデバイス、人および動物が携帯するデバイスなど）、モバイルデバイス（例えば、タブレット、ノートブック、ラップトップ、パーソナルコンピュータ、ポータブルテレビ、ラジオなど）、ならびに移動用に設計されていないデバイス（例えば、デスクトップコンピュータ、他のコンピュータ、情報キオスク、１つまたは複数のプロセッサが埋め込まれたテレビおよび／またはそれらが結合されたテレビ、ラジオなど）を含んでもよいが、それらに限定されない。

【0085】

コンピュータデバイス８０５は、同じまたは異なる構成の１つもしくは複数のコンピュータデバイスを含む、任意の数のネットワーク化された構成要素、デバイス、およびシステムと通信するため、（例えば、Ｉ／Ｏインターフェース８２５を介して）外部ストレージ８４５およびネットワーク８５０に通信可能に結合することができる。

【0086】

コンピュータデバイス８０５、または任意の接続されたコンピュータデバイスは、サーバ、クライアント、シンサーバ、汎用マシン、専用マシン、または別のレベルとして機能するか、そのサービスを提供するか、あるいはその名称で呼ぶことができる。

【0087】

Ｉ／Ｏインターフェース８２５は、コンピューティング環境８００の少なくとも全ての接続された構成要素、デバイス、およびネットワークとの間で情報を通信するため、任意の通信もしくはＩ／Ｏプロトコルまたは規格（例えば、Ｅｔｈｅｒｎｅｔ（登録商標）、８０２．１１ｘ、ユニバーサルシステムバス、ＷｉＭａｘ、モデム、セルラーネットワークプロトコルなど）を使用して、有線および／または無線インターフェースを含むことができるが、それらに限定されない。

【0088】

ネットワーク８５０は、任意のネットワークまたはネットワークの組み合わせ（例えば、インターネット、ローカルエリアネットワーク、広域ネットワーク、電話ネットワーク、セルラーネットワーク、衛星ネットワークなど）であることができる。

【0089】

コンピュータデバイス８０５は、一時的媒体および非一時的媒体を含む、コンピュータ使用可能またはコンピュータ可読媒体を使用することができ、ならびに／あるいはそれらを使用して通信することができる。

【0090】

一時的媒体は、伝送媒体（例えば、金属ケーブル、光ファイバー）、信号、搬送波などを含む。非一時的媒体は、磁気媒体（例えば、ディスクおよびテープ）、光学媒体（例えば、ＣＤＲＯＭ、デジタルビデオディスク、ブルーレイディスク）、固体媒体（例えば、ＲＡＭ、ＲＯＭ、フラッシュメモリ、固体記憶装置）、ならびに他の不揮発性記憶装置またはメモリを含む。

【0091】

コンピュータデバイス８０５は、技術、方法、アプリケーション、プロセス、またはコンピュータ実行可能命令を、いくつかのコンピューティング環境例において実現するのに使用することができる。

【0092】

コンピュータ実行可能命令は、一時的媒体から取り出すことができ、また非一時的媒体に格納し、そこから取り出すことができる。実行可能命令は、任意のプログラミング、スクリプト、および機械言語（例えば、Ｃ、Ｃ＋＋、Ｃ＃、Ｊａｖａ（登録商標）、ＶｉｓｕａｌＢａｓｉｃ、Ｐｙｔｈｏｎ（登録商標）、Ｐｅｒｌ（登録商標）、ＪａｖａＳｃｒｉｐｔ（登録商標）など）の１つまたは複数によるものであることができる。

【0093】

プロセッサ８１０は、ネイティブまたは仮想環境において、任意のオペレーティングシステム（ＯＳ）（図示なし）下で実行することができる。ロジックユニット８６０、アプリケーションプログラミングインターフェース（ＡＰＩ）ユニット８６５、入力ユニット８７０、出力ユニット８７５、ならびに異なるユニットが互いと、ＯＳと、および他のアプリケーション（図示なし）と通信するための、ユニット間通信メカニズム８９５を含む、１つまたは複数のアプリケーションを配備することができる。

【0094】

記載したユニットおよび要素は、設計、機能、構成、または実装が可変であり、提供する説明に限定されない。プロセッサ８１０は、中央処理装置（ＣＰＵ）などのハードウェアプロセッサの形態、またはハードウェアおよびソフトウェアユニットの組み合わせであることができる。

【0095】

いくつかの例示的実現例では、情報または実行命令がＡＰＩユニット８６５によって受信されると、１つまたは複数の他のユニット（例えば、ロジックユニット８６０、入力ユニット８７０、出力ユニット８７５）に通信されてもよい。

【0096】

いくつかの例では、ロジックユニット８６０は、ユニット間の情報フローを制御し、上述したいくつかの例示的実現例では、ＡＰＩユニット８６５、入力ユニット８７０、出力ユニット８７５によって提供されるサービスを方向付けるように構成されてもよい。

【0097】

例えば、１つもしくは複数のプロセスまたは実装のフローは、ロジックユニット８６０のみによって、またはＡＰＩユニット８６５との組み合わせで制御されてもよい。入力ユニット８７０は、例示的実現例に記載される計算のための入力を得るように構成されてもよく、出力ユニット８７５は、例示的実現例に記載される計算に基づいて出力を提供するように構成されてもよい。

【0098】

プロセッサ８１０は、報酬を、１つまたは複数のロボット制御システムを制御する機械学習アルゴリズムに提供するように構成することができ、プロセッサは、画像１０５とテキストで規定されたタスク記述１０４とを受信し、画像をスライスして図２に示されるような複数のサブ画像にし、タスク記述のテキストおよびサブ画像を埋め込んで、タスク記述に対する関連性に基づいてサブ画像の分布を生成する、埋込みモデルを実行し、図２～図４に示されるようにサブ画像の分布から報酬を生成するように構成される。

【0099】

プロセッサ８１０は、タスク記述を更新するのに、タスク記述のためのテキストの選択を受信し、図３に示されるようなテキストの選択に基づいて、タスク記述を更新するように構成することができる。

【0100】

プロセッサ８１０は、テキストの選択を最適化することによって、テキストの選択に基づいてタスク記述を更新するように構成することができ、テキストの選択の最適化は、画像のデータベースから、機械学習アルゴリズムの出力によってもたらされる成功エピソードと関連付けられた画像のセットを抽出することと、画像のセットから、テキストの選択に関連するゴールに対応する画像の別のセットを抽出することと、画像の別のセットおよびテキストの選択に対して意味抽出装置を実行して、意味空間内における画像の別のセットおよびテキストの選択の埋込みを作成することと、画像の別のセットおよびテキストの選択に対して意味空間内で最も近いポイントを決定することと、図３の１０３で示されるような意味空間内のベクトルを含む更新されたタスク記述を、意味空間の最適化されたポイントから生成することと、を含む。

【0101】

プロセッサ８１０は、サブ画像およびタスク記述の埋込みの間の類似性スコアを計算し、サブ画像それぞれがタスク記述に関連する確率を示す分布を生成することによって、埋込みモデルを実行してタスク記述のテキストおよびサブ画像を埋め込んで、タスク記述に対する関連性に基づいて、サブ画像の分布を生成するように構成することができ、報酬をサブ画像に関する分布から生成することは、図４および図５に示されるような分布のエントロピーに基づいて、報酬を生成することを含む。

【0102】

所望の実現例に応じて、報酬が１つまたは複数のロボット制御システムに提供され、機械学習アルゴリズムは、報酬を処理して、図６に示されるような機械学習アルゴリズムの所与の状態に対するポリシーを更新する。

【0103】

詳細な記載のいくつかの部分は、コンピュータ内の動作のアルゴリズムおよび記号的表現に関して提示される。これらのアルゴリズム的説明および記号的表現は、データ処理分野の当業者が技術革新の本質を他の当業者に伝達するのに使用される手段である。アルゴリズムは、所望の最終状態または結果につながる一連の規定されたステップである。例示的実現例では、実施されたステップは、有形の結果を達成するために有形の量を物理的に操作することを要する。

【0104】

別段の具体的な提示がない限り、考察から明らかなように、説明全体を通して、「処理」、「コンピューティング」、「計算」、「決定」、「表示」などの用語を利用した考察は、コンピュータシステムのレジスタおよびメモリ内の物理的（電子的）量として提示されるデータを操作し、コンピュータシステムのメモリもしくはレジスタまたは他の情報記憶、送信、もしくは表示デバイス内の物理的量として同様に提示される他のデータに変換する、コンピュータシステムまたは他の情報処理デバイスの動作およびプロセスを含むことができるものと認識される。

【0105】

例示的実現例はまた、本明細書の動作を実施するための装置に関連してもよい。この装置は、必要な目的のために特別に構築されてもよく、あるいは１つもしくは複数のコンピュータプログラムによって選択的に活性化または再構成される、１つもしくは複数の汎用コンピュータを含んでもよい。

【0106】

かかるコンピュータプログラムは、コンピュータ可読記憶媒体またはコンピュータ可読信号媒体など、コンピュータ可読媒体に格納されてもよい。コンピュータ可読記憶媒体は、光学ディスク、磁気ディスク、読出し専用メモリ、ランダムアクセスメモリ、固体デバイスおよびドライブ、または電子情報を格納するのに適した他の任意のタイプの有形もしくは非一時的媒体など、有形媒体を含んでもよい。

【0107】

コンピュータ可読信号媒体は、搬送波などの媒体を含んでもよい。本明細書で提示されるアルゴリズムおよびディスプレイは、任意の特定のコンピュータまたは他の装置に本質的に関連しない。コンピュータプログラムは、所望の実現例の動作を実施する命令を含む、純粋なソフトウェア実現例を含んでもよい。

【0108】

様々な汎用システムが、本明細書の例によるプログラムおよびモジュールとともに使用されてもよく、または所望の方法ステップを実施する、より専門的な装置を構築するのに便利であると判明することがある。それに加えて、例示的実現例は、任意の特定のプログラミング言語を参照して記載されない。

【0109】

本明細書に記載されるような例示的実現例の技法を実現するのに、様々なプログラミング言語が使用されてもよいことが認識されるであろう。プログラミング言語の命令は、１つもしくは複数の処理デバイス、例えば中央処理装置（ＣＰＵ）、プロセッサ、またはコントローラによって実行されてもよい。

【0110】

当該分野では知られているように、上述の動作は、ハードウェア、ソフトウェア、またはソフトウェアとハードウェアの何らかの組み合わせによって実施することができる。例示的実現例の様々な態様が、回路およびロジックデバイス（ハードウェア）を使用して実現されてもよく、他の態様は、プロセッサによって実行された場合、本出願の実例を実施する方法をプロセッサに実施させる、機械可読媒体（ソフトウェア）に格納された命令を使用して実現されてもよい。

【0111】

更に、本出願のいくつかの例示的実現例は、ハードウェアのみによって実施されてもよく、他の例示的実現例はソフトウェアのみによって実施されてもよい。更に、記載した様々な機能は、単一のユニットで実施することができ、または様々な手法で多数の構成要素に拡散することができる。

【0112】

ソフトウェアによって実施される場合、方法は、コンピュータ可読媒体に格納された命令に基づいて、汎用コンピュータなどのプロセッサによって実行されてもよい。所望の場合、命令は、圧縮および／または暗号化された形式で媒体に格納することができる。

【0113】

更に、本出願の他の実現例が、本明細書を考慮し本出願の技法を実践することによって、当業者には明白となるであろう。記載した例示的実現例の様々な態様および／または構成要素は、単独でまたは任意の組み合わせで使用されてもよい。本明細書および例示的実現例は単なる例として見なされ、本出願の真の範囲および趣旨は以下の特許請求の範囲によって示されるものとする。

【符号の説明】

【0114】

１０１：環境のデータベース
１０３：タスク記述更新ブロック
１０６：報酬生成ブロック
１０８：エージェント
１１０：環境

【図1】