特許7536708 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧

特許7536708学習装置、学習方法、および学習プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-08-09

(45)【発行日】2024-08-20

(54)【発明の名称】学習装置、学習方法、および学習プログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20240813BHJP

G05B 23/02 20060101ALI20240813BHJP

G06N 3/092 20230101ALI20240813BHJP

【ＦＩ】

G06N20/00

G05B23/02 Z

G06N3/092

【請求項の数】 18

(21)【出願番号】P 2021083679

(22)【出願日】2021-05-18

(65)【公開番号】P2022177433

(43)【公開日】2022-12-01

【審査請求日】2023-03-09

(73)【特許権者】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】皆本岳

(72)【発明者】

【氏名】金子敏充

【審査官】山本俊介

(56)【参考文献】

【文献】特開２０１８－１０６４６６（ＪＰ，Ａ）

【文献】特開２００７－２７２６４６（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１８／０１９７０４６（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００－９９／００

Ｇ０５Ｂ２３／０２

(57)【特許請求の範囲】

【請求項1】

機器の現在状態を取得する取得部と、
強化学習モデルを学習する学習機能を有し、前記現在状態と前記強化学習モデルとに基づいて前記機器の第１行動を決定する第１行動決定部と、
前記現在状態と第１ルールとに基づいて、前記機器の第２行動を決定する第２行動決定部と、
前記現在状態、前記第１行動、および安全性に関する第２ルール、に基づいて、第４行動を決定する安全行動決定部と、
前記強化学習モデルの学習の進捗に応じて、前記第１行動から決定された前記第４行動および前記第２行動の何れか一方を、前記機器に出力する第３行動として選択する選択部と、
を備える学習装置。

【請求項2】

前記安全行動決定部は、
前記現在状態および前記第２ルールに基づいて前記第１行動の安全性を判定し、安全であると判定した場合前記第１行動を前記第４行動として決定し、安全ではないと判定した場合前記第１行動を安全な行動に修正した前記第４行動を決定する、
請求項１に記載の学習装置。

【請求項3】

前記安全行動決定部は、
前記第１行動が安全ではない判定した場合、該第１行動と負の報酬とを対応付けて前記強化学習モデルの学習データとして出力する、
請求項２に記載の学習装置。

【請求項4】

前記選択部は、
前記進捗である前記強化学習モデルの学習時間に応じて、前記第１行動を選択する確率と前記第２行動を選択する確率とを変化させる、
請求項１～請求項３の何れか１項に記載の学習装置。

【請求項5】

前記選択部は、
前記進捗である前記学習時間が短いほど前記第１行動を選択する確率を低く且つ前記第２行動を選択する確率を高くし、前記進捗である前記学習時間が長いほど前記第１行動を選択する確率を高く且つ前記第２行動を選択する確率を低くする、
請求項４に記載の学習装置。

【請求項6】

前記選択部は、
前記進捗である前記強化学習モデルで学習された価値関数に基づいて、前記価値関数により算出された前記第１行動および前記第２行動の各々の推定価値に応じて、前記第１行動および前記第２行動の何れか一方を前記第３行動として選択する、
請求項１～請求項５の何れか１項に記載の学習装置。

【請求項7】

前記選択部は、
前記第１行動および前記第２行動の内、前記価値関数により算出された前記推定価値の高い行動を、前記第３行動として選択する、
請求項６に記載の学習装置。

【請求項8】

前記選択部は、
前記第１行動の前記推定価値と前記第２行動の前記推定価値との差が大きいほど、前記第１行動および前記第２行動の内、推定価値の大きい行動を選択する確率を高くする、
請求項６または請求項７に記載の学習装置。

【請求項9】

前記選択部は、
前記進捗である前記強化学習モデルの学習時間および前記強化学習モデルで学習された価値関数に基づいて、前記第１行動を選択する確率と前記第２行動を選択する確率とを変化させる、
請求項６～請求項８の何れか１項に記載の学習装置。

【請求項10】

前記選択部は、
前記学習時間が所定時間未満である場合、
前記進捗である前記学習時間が短いほど前記第１行動を選択する確率を低く且つ前記第２行動を選択する確率を高くし、前記進捗である前記学習時間が長いほど前記第１行動を選択する確率を高く且つ前記第２行動を選択する確率を低くし、
前記学習時間が前記所定時間以上である場合、
前記第１行動および前記第２行動の内、前記価値関数により算出された前記推定価値の高い行動を、前記第３行動として選択する、
請求項９に記載の学習装置。

【請求項11】

前記進捗を表す画像を表示部に表示する表示制御部を備える、
請求項１～請求項１０の何れか１項に記載の学習装置。

【請求項12】

前記表示制御部は、
前記選択部が前記第１行動を選択する確率および前記第２行動を選択する確率の少なくとも一方を前記表示部に表示する、
請求項１１に記載の学習装置。

【請求項13】

前記表示制御部は、
前記第３行動が前記第１行動および前記第２行動の何れであるかを表す情報を前記表示部に表示する、
請求項１１または請求項１２に記載の学習装置。

【請求項14】

前記表示制御部は、
前記選択部が前記第１行動を選択した回数、および、前記選択部が前記第２行動を選択した回数、の少なくとも一方を前記表示部に表示する、
請求項１１～請求項１３の何れか１項に記載の学習装置。

【請求項15】

前記表示制御部は、
前記第１行動の安全性の判定結果を前記表示部へ表示する、
請求項１１～請求項１４の何れか１項に記載の学習装置。

【請求項16】

前記機器は、
少なくとも一部の機構が動作する移動体である、
請求項１～請求項１５の何れか１項に記載の学習装置。

【請求項17】

学習装置によって実行される学習方法であって、
機器の現在状態を取得するステップと、
前記現在状態と強化学習モデルとに基づいて前記機器の第１行動を決定するステップと、
前記現在状態と第１ルールとに基づいて、前記機器の第２行動を決定するステップと、
前記現在状態、前記第１行動、および安全性に関する第２ルール、に基づいて、第４行動を決定するステップと、
前記強化学習モデルの学習の進捗に応じて、前記第１行動から決定された前記第４行動および前記第２行動の何れか一方を、前記機器に出力する第３行動として選択するステップと、
を含む学習方法。

【請求項18】

機器の現在状態を取得するステップと、
前記現在状態と強化学習モデルとに基づいて前記機器の第１行動を決定するステップと、
前記現在状態と第１ルールとに基づいて、前記機器の第２行動を決定するステップと、
前記現在状態、前記第１行動、および安全性に関する第２ルール、に基づいて、第４行動を決定するステップと、
前記強化学習モデルの学習の進捗に応じて、前記第１行動から決定された前記第４行動および前記第２行動の何れか一方を、前記機器に出力する第３行動として選択するステップと、
をコンピュータに実行させるための学習プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、学習装置、学習方法、および学習プログラムに関する。

【背景技術】

【0002】

強化学習を用いた行動学習が行われている。強化学習では、様々な行動を試行錯誤して繰り返すことで機器の最適な行動を学習する。ロボットなどの機器を実際に用いて学習を行う場合、機器が意図せぬ状態に陥り、強化学習中に事故や故障が発生する場合がある。このため、学習中の安全性の確保が求められている。

【0003】

例えば、ルールベースで安全動作の枠組みを決定し、決定された枠組み内で強化学習により行動パラメータを決定する方法が開示されている。また、学習ベースのアルゴリズムによって生成された制御量を、ルールベースで生成した制御量から逸脱しないように修正する方法が提案されている。

【0004】

しかし、枠組み内の強化学習時にはランダムな行動探索が行われるため、従来技術では学習開始直後の性能が低く、必要な性能に達するまで時間を要していた。また、従来技術では学習ベースのアルゴリズムによって事前に学習する必要があった。このため、従来技術では、機器に適用しながら機器の行動を強化学習することは困難であった。

【先行技術文献】

【特許文献】

【0005】

【文献】特開２０１９－１０５８９１号公報

【文献】特許第６６６３８２２号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

本発明は、上記に鑑みてなされたものであって、機器に適用しながら強化学習が可能な、学習装置、学習方法、および学習プログラムを提供することを目的とする。

【課題を解決するための手段】

【0007】

実施形態の学習装置は、取得部と、第１行動決定部と、第２行動決定部と、安全行動決定部と、選択部と、を備える。取得部は、機器の現在状態を取得する。第１行動決定部は、強化学習モデルを学習する学習機能を有し、前記現在状態と前記強化学習モデルとに基づいて前記機器の第１行動を決定する。第２行動決定部は、前記現在状態と第１ルールとに基づいて、前記機器の第２行動を決定する。安全行動決定部は、前記現在状態、前記第１行動、および安全性に関する第２ルール、に基づいて、第４行動を決定する。選択部は、前記強化学習モデルの学習の進捗に応じて、前記第１行動および前記第２行動の何れか一方を、前記機器に出力する第３行動として選択する。

【図面の簡単な説明】

【0008】

【図1】学習システムの説明図。

【図2】学習システムの機能ブロック図。

【図3】第１行動を選択する確率の説明図。

【図4】表示画面の模式図。

【図5】表示画面の模式図。

【図6】表示画面の模式図。

【図7】学習装置の情報処理の流れを示すフローチャート。

【図8】移動ロボットの情報処理の流れを示すフローチャート。

【図9】報酬曲線の説明図。

【図10】学習システムの機能ブロック図。

【図11】表示画面の模式図。

【図12】表示画面の模式図。

【図13】学習装置の情報処理の流れを示すフローチャート。

【図14】ハードウェア構成図。

【発明を実施するための形態】

【0009】

以下に添付図面を参照して、学習装置、学習方法、および学習プログラムの実施形態を詳細に説明する。

【0010】

（第１の実施形態）
図１は、本実施形態の学習システム１の一例を示す説明図である。

【0011】

学習システム１は、学習装置１０Ａと、移動ロボット２０と、運行管理システム３０と、を備える。学習装置１０と、移動ロボット２０と、運行管理システム３０とは、無線または有線により通信可能に接続されている。

【0012】

学習装置１０Ａは、学習装置１０の一例である。学習装置１０は、移動ロボット２０の行動を強化学習により学習する情報処理装置である。

【0013】

移動ロボット２０は、機器の一例である。機器とは、学習装置１０によって行動を強化学習される対象の物である。行動は、動作と称される場合もある。機器は、少なくとも一部の機構が動作する移動体である。機器は、コンピュータによって制御されることで動作する。移動体は、少なくとも一部の機構が動作すればよく、移動体の本体の位置が移動する形態、移動体の本体の位置が移動せず固定された形態、の何れであってもよい。機器は、例えば、マニピュレータを有する作業ロボット、位置移動機構を有する移動ロボット、自動車、船舶、飛翔体、などである。自動車は、具体的には、自律走行する自動運転車などである。飛翔体は、例えば、ドローンなどである。

【0014】

本実施形態では、機器が移動ロボット２０である形態を一例として説明する。

【0015】

移動ロボット２０は、例えば、予め定められた機能を有する。図１には、移動ロボット２０が、工場や倉庫などの予め定められた領域内で自律的に移動しながら荷物などを運搬する運搬機能を有する例を示す。例えば、移動ロボット２０は、出発地点Ａから目的地点Ｂに向かって自律的に移動する。出発地点Ａは、移動ロボット２０の待機場所などである。目的地点Ｂは、運搬対象の荷物の保管場所などである。

【0016】

出発地点Ａを表す出発地点情報および目的地点Ｂを表す目的地点情報は、例えば、運行管理システム３０から移動ロボット２０へ送信される。運行管理システム３０は、移動ロボット２０の運行を管理する情報処理装置である。

【0017】

出発地点Ａから目的地点Ｂまでの間には、例えば、様々な障害物Ｃや進入禁止領域Ｄなどが存在する。障害物Ｃは、移動ロボット２０の移動の障害となる物である。障害物Ｃは、例えば、他の移動ロボット、壁、棚、扉、人、などである。進入禁止領域Ｄは、移動ロボット２０の侵入を禁止する領域である。移動ロボット２０は、障害物Ｃとの衝突を回避し、且つ、進入禁止領域Ｄへの侵入を回避しながら、走行可能領域Ｅを安全に且つ効率よく移動する必要がある。

【0018】

学習装置１０Ａは、移動ロボット２０の行動を強化学習する。本実施形態の学習装置１０Ａは、事前に学習するのではなく、実機である移動ロボット２０を現場適用しながら移動ロボット２０の行動を強化学習する。

【0019】

図２は、学習システム１の一例の機能ブロック図である。

【0020】

学習システム１は、学習装置１０Ａと、移動ロボット２０と、運行管理システム３０と、を備える。学習装置１０Ａ、移動ロボット２０、および運行管理システム３０は、ネットワークＮなどを介して通信可能に接続されている。

【0021】

移動ロボット２０は、制御部２２と、通信部２４と、センサ２６と、記憶部２８と、を備える。制御部２２、通信部２４、センサ２６および記憶部２８は、バス２９などを介して通信可能に接続されている。

【0022】

制御部２２は、移動ロボット２０において情報処理を実行する。制御部２２は、移動ロボット２０の行動を制御する。通信部２４は、ネットワークＮなどを介して学習装置１０Ａおよび運行管理システム３０と通信する通信インターフェースである。

【0023】

センサ２６は、移動ロボット２０および移動ロボット２０の周辺環境を検出する。本実施形態では、センサ２６は、移動ロボット２０の位置情報、車速情報、加速度情報、環境情報、などを検出する。環境情報は、移動ロボット２０の周囲の状態を表す情報である。環境情報は、例えば、移動ロボット２０の周囲の撮影画像、移動ロボット２０の周囲の障害物Ｃなどの物体の検出結果、などを表す情報である。

【0024】

センサ２６は、移動ロボット２０および移動ロボット２０の周辺環境を検出可能なセンサであればよい。センサ２６は、例えば、カメラ、レーダ装置、レーザーレンジファインダー、車速センサ、加速度センサなどである。

【0025】

センサ２６は、移動ロボット２０および移動ロボット２０の周辺環境を検出可能であればよく、配置位置および配置数は限定されない。また、センサ２６は、移動ロボット２０の外部に搭載されていてもよい。例えば、センサ２６は、移動ロボット２０が移動する移動環境に設置されていてもよい。また、センサ２６は、移動ロボット２０および移動ロボット２０の移動環境の双方に設置されていてもよい。

【0026】

制御部２２は、センサ２６の検出結果を学習装置１０Ａへ送信する。本実施形態では、制御部２２は、所定時間ごとにセンサ２６の検出結果を学習装置１０Ａへ送信する。すなわち、移動ロボット２０の制御部２２は、時系列に連続する検出結果を学習装置１０Ａへ順次送信する。

【0027】

記憶部２８は、各種のデータを記憶する。記憶部２８は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、フラッシュメモリ等の半導体メモリ素子、ハードディスク、光ディスク等である。

【0028】

運行管理システム３０は、移動ロボット２０の運行を管理する情報処理装置である。本実施形態では、運行管理システム３０は移動ロボット２０へ地図情報を送信する。なお、運行管理システム３０は、移動ロボット２０および学習装置１０Ａの双方へ地図情報を送信してもよい。

【0029】

地図情報は、出発地点情報、目的地点情報、進入禁止領域情報、走行可能領域情報、障害物情報、などを含む。出発地点情報は、出発地点を表す情報である。目的地点情報は、目的地点を表す情報である。進入禁止領域情報は、進入禁止領域を表す情報である。走行可能領域情報は、移動ロボット２０の走行可能な走行可能領域を表す情報である。具体的には、出発地点情報、目的地点情報、進入禁止領域情報、および走行可能領域情報は、図１中、出発地点Ａ、目的地点Ｂ、進入禁止領域Ｄ、および走行可能領域Ｅの各々を表す情報である。

【0030】

障害物情報は、障害物Ｃを表す情報である。本実施形態では、地図情報に含まれる障害物情報は、移動する可能性の低いまたは移動頻度の低い障害物Ｃを表す情報である。移動する可能性の低いまたは移動頻度の低い障害物Ｃは、例えば、壁、棚、扉、などである。

【0031】

学習装置１０Ａは、制御部４０と、記憶部４２と、入力部４４と、表示部４６と、通信部４８と、を備える。制御部４０、記憶部４２、入力部４４、表示部４６、および通信部４８は、バス４９などを介して通信可能に接続されている。

【0032】

記憶部４２は、各種のデータを記憶する。記憶部４２は、例えば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、ハードディスク、光ディスク等である。なお、記憶部４２は、学習装置１０Ａの外部に設けられた記憶装置であってもよい。また、記憶部４２は、プログラムや各種の情報を、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）やインターネットなどを介してダウンロードして記憶または一時記憶した記憶媒体であってもよい。

【0033】

入力部４４は、ユーザによる各種の操作を受付ける。入力部４４は、例えば、キーボードおよびマウスなどのポインティングデバイス、マイクロフォン、などである。

【0034】

表示部４６は、各種の情報を表示する。表示部４６は、例えば、移動ロボット２０に関する設定、移動ロボット２０の状態、および移動ロボット２０による作業状況などを表示する。

【0035】

なお、表示部４６と入力部４４とを一体的に構成し、タッチパネルとして構成してもよい。また、入力部４４および表示部４６は、学習装置１０Ｂとは別体として構成されていてもよい。この場合、入力部４４および表示部４６と、学習装置１０Ｂとを、通信可能に接続した構成とすればよい。

【0036】

通信部４８は、ネットワークＮなどを介して移動ロボット２０および運行管理システム３０と通信する通信インターフェースである。

【0037】

なお、記憶部４２および制御部４０の少なくとも一方を、ネットワークＮおよび通信部４８を介して接続されたサーバ装置などの外部の情報処理装置に搭載した構成としてもよい。また、制御部４０に含まれる後述する機能部の少なくとも１つを、ネットワークＮおよび通信部４８を介して制御部４０に接続された、サーバ装置などの外部の情報処理装置に搭載してもよい。

【0038】

制御部４０は、学習装置１０Ａにおいて各種の情報処理を実行する。

【0039】

制御部４０は、取得部４０Ａと、第１行動決定部４０Ｂと、第２行動決定部４０Ｃと、選択部４０Ｄと、表示制御部４０Ｅと、送信制御部４０Ｆと、を備える。

【0040】

取得部４０Ａ、第１行動決定部４０Ｂ、第２行動決定部４０Ｃ、選択部４０Ｄ、表示制御部４０Ｅ、および送信制御部４０Ｆは、１つまたは複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣなどのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２つ以上を実現してもよい。

【0041】

取得部４０Ａは、移動ロボット２０の現在状態を取得する。取得部４０Ａは、移動ロボット２０から受信したセンサ２６の検出結果および運行管理システム３０から受信した地図情報を用いて、移動ロボット２０の現在状態を取得する。なお、取得部４０Ａは、移動ロボット２０から地図情報を受信してもよい。

【0042】

移動ロボット２０の現在状態とは、移動ロボット２０の現在の状態情報である。状態情報は、移動ロボット２０本体の状態情報、周辺障害物の状態情報、および地図情報を含む。

【0043】

移動ロボット２０本体の状態情報とは、移動ロボット２０本体の状態を表す情報である。移動ロボット２０本体の状態情報は、例えば、移動ロボット２０の位置情報、車速情報、加速度情報、などである。

【0044】

例えば、取得部４０Ａは、取得部４０Ａから取得した検出結果に含まれる複数のカメラの撮影画像を解析することで、移動ロボット２０の位置情報を取得する。例えば、取得部４０Ａは、移動ロボット２０の移動環境に設置された複数のセンサ２６によって撮影された移動ロボット２０の撮影画像を画像解析することで、移動ロボット２０の位置座標を特定する。そして、取得部４０Ａは、特定した位置座標を、移動ロボット２０の位置情報として取得する。

【0045】

また、例えば、取得部４０Ａは、移動ロボット２０から取得した検出結果に含まれる車速情報および加速度情報を特定することで、移動ロボット２０の車速情報および加速度情報を取得する。取得部４０Ａは、移動ロボット２０の時系列の撮影画像などを解析することで、移動ロボット２０の車速情報および加速度情報を取得してもよい。

【0046】

周辺障害物の状態情報とは、移動ロボット２０の周辺に存在する障害物Ｃの状態を表す情報である。周辺障害物の状態情報は、例えば、移動ロボット２０の周辺に存在する障害物Ｃの位置情報および速度情報を含む。取得部４０Ａは、カメラおよびレーダ装置などのセンサ２６の検出結果を解析することで、障害物Ｃの位置情報および速度情報を取得する。なお、取得部４０Ａは、移動ロボット２０に対する障害物Ｃの相対位置および相対速度を、障害物Ｃの位置情報および速度情報として取得してもよい。また、取得部４０Ａは、移動ロボット２０の周辺の撮影画像を、周辺障害物の状態情報として取得してもよい。また、取得部４０Ａは、地図情報に含まれる障害物情報を特定することで、周辺障害物の状態情報を取得してもよい。

【0047】

取得部４０Ａは、移動ロボット２０の現在状態を取得すると、取得した現在状態の報酬を算出する。報酬とは、後述する第１行動決定部４０Ｂに設けられた強化学習モデルの学習で用いられる報酬である。

【0048】

取得部４０Ａは、移動ロボット２０の行動の結果である現在状態の好ましさに基づいて、強化学習モデルの学習で用いる報酬を算出する。

【0049】

詳細には、取得部４０Ａは、移動ロボット２０の行動の結果である現在状態が好ましい状態を表すほど、より大きな値の報酬を算出する。一方、取得部４０Ａは、移動ロボット２０の行動の結果である現在状態が好ましくない状態を表すほど、より小さい値の報酬を算出する。

【0050】

好ましい状態とは、移動ロボット２０が予め定められた基準に沿って行動した状態を意味する。基準は、予め定めればよい。例えば、好ましい状態は、障害物Ｃへの衝突を回避、進入禁止領域Ｄへの侵入を回避、目的地点Ｂへの到達、目的地点Ｂへの短い所要時間での到達、出発地点Ａから目的地点Ｂまでの複数回数の往復移動、などを表す。

【0051】

取得部４０Ａは、取得した移動ロボット２０の現在状態に基づいて、移動ロボット２０の行動が好ましい状態であるか否かを判別することで、報酬を算出する。

【0052】

例えば、以下の場合、取得部４０Ａは、移動ロボット２０の行動が好ましい状態であると判別し、より大きな値の報酬を算出する。例えば、取得部４０Ａが、取得した現在状態に基づいて、移動ロボット２０が目的地点Ｂに到達したと判別した場合を想定する。この場合、取得部４０Ａは、大きな値の報酬を算出する。また、取得部４０Ａが、取得した現在状態に基づいて、出発地点Ａから目的地点Ｂに到達するまでに要した所要時間を特定した場合を想定する。この場合、取得部４０Ａは、所要時間が短いほど大きな値の報酬を算出する。また、取得部４０Ａが、取得した現在状態に基づいて出発地点Ａから目的地点Ｂまでの単位時間あたりの往復回数を算出した場合を想定する。この場合、取得部４０Ａは、往復回数が多いほど大きな値の報酬を算出する。

【0053】

また、例えば、以下の場合、取得部４０Ａは移動ロボット２０の行動が好ましくない状態であると判別し、より小さい値、例えば、負の値の報酬を算出する。例えば、取得部４０Ａが、取得した現在状態に基づいて移動ロボット２０が好ましくない状態にあると判別した場合を想定する。例えば、取得部４０Ａが、現在状態に基づいて、目的地点Ｂへの到達不可能、移動ロボット２０の進入禁止領域Ｄへの侵入、移動ロボット２０の障害物Ｃへの衝突、などを判別した場合を想定する。この場合、取得部４０Ａは、より小さい値の報酬を算出する。

【0054】

次に、第１行動決定部４０Ｂについて説明する。第１行動決定部４０Ｂは、強化学習モデルを学習する学習機能を有する。第１行動決定部４０Ｂは、現在状態と強化学習モデルとに基づいて、移動ロボット２０の第１行動を決定する。すなわち、第１行動決定部４０Ｂは、強化学習モデルを用いた学習ベースで第１行動を決定する。

【0055】

強化学習モデルは、現在状態に基づいて第１行動を出力する機械学習モデルである。

【0056】

第１行動とは、移動ロボット２０が次にとる行動を表す情報である。言い換えると、第１行動は、学習ベースで決定される行動を表す情報である。第１行動は、例えば、移動ロボット２０の進行方向を示す情報である。進行方向は、例えば、右、左、直進、および停止、の何れか１つを表す。なお、第１行動は、移動ロボット２０の進行方向および目標速度を表す情報であってもよい。また、第１行動は、移動ロボット２０が次にとる行動を表す情報であればよく、進行方向および目標速度に限定されない。例えば、第１行動は、移動ロボット２０などの機器の動作機構に応じて決定すればよい。

【0057】

第１行動決定部４０Ｂは、取得部４０Ａで取得した移動ロボット２０の現在状態と報酬とを用いて、より報酬の高い現在状態の得られる第１行動を出力するように、強化学習モデルを学習する。強化学習のアルゴリズムには、公知の強化学習アルゴリズムを使用すればよい。強化学習のアルゴリズムには、例えばＱ－Ｌｅａｒｎｉｎｇ、Ｓａｒｓａ、Ａｃｔｏｒ－Ｃｒｉｔｉｃ等が用いられる。

【0058】

第１行動決定部４０Ｂは、強化学習モデルを用いた学習ベースで決定した第１行動を、選択部４０Ｄへ出力する。

【0059】

次に、第２行動決定部４０Ｃについて説明する。第２行動決定部４０Ｃは、現在状態と第１ルールとに基づいて、移動ロボット２０の第２行動を決定する。すなわち、第２行動決定部４０Ｃは、第１ルールを用いたルールベースで第２行動を決定する。

【0060】

第２行動とは、移動ロボット２０が次にとる行動を表す情報である。言い換えると、第２行動は、ルールベースで決定される行動を表す情報である。第２行動は、例えば、第１行動と同様に移動ロボット２０の進行方向を表す情報であってもよい。または、第１行動と同様に移動ロボット２０の進行方向および目標速度などを表す情報であってもよい。

【0061】

第１ルールとは、移動ロボット２０の安全性担保、および、移動ロボット２０の行動に関する最低要求性能、の少なくとも一方を満たすルールである。最低要求性能とは、移動ロボット２０の管理者などによって予め定められた、移動ロボット２０に対する最低基準の要求性能である。

【0062】

例えば、第１ルールは、出発地点情報と目的地点情報と地図情報からＡ^＊（Ａ－ｓｔａｒ）法などの探索アルゴリズムにより決定される経路に沿って進行することを表すルールである。また、第１ルールは、障害物Ｃが存在する場合には、障害物Ｃの手前で停止または障害物Ｃを避けた進行を表すルールである。なお、障害物Ｃの手前で停止するルールとした場合、障害物Ｃへの衝突は回避される。しかし、移動ロボット２０が目的地点Ｂに到達するまでに検出される障害物Ｃの数が多いほど、単位時間あたりの移動ロボット２０の行動効率は低下する。このため、安全性担保および最低要求性能の双方を満たすルールとなるように、第１ルールを設定することが好ましい。

【0063】

第２行動決定部４０Ｃは、移動ロボット２０の次の行動が第１ルールに沿った行動となるように、現在状態から移動ロボット２０が次にとる行動である第２行動を決定する。例えば、第２行動決定部４０Ｃは、第１ルールに沿ったＩＦ－ＴＨＥＮルール表現を用いた推論などによって、第２行動を決定する。

【0064】

第２行動決定部４０Ｃは、第１ルールによるルールベースで決定した第２行動を、選択部４０Ｄへ出力する。

【0065】

選択部４０Ｄは、第１行動決定部４０Ｂの強化学習モデルの学習の進捗に応じて、第１行動および第２行動の何れか一方を、移動ロボット２０に出力する第３行動として選択する。

【0066】

上述したように、第１行動は、強化学習モデルを用いた学習ベースで決定された行動である。第２行動は、第１ルールによるルールベースで決定された行動である。選択部４０Ｄは、強化学習モデルの学習の進捗に応じて学習ベースの第１行動およびルールベースの第２行動の何れか一方を第３行動として選択する。

【0067】

強化学習モデルの学習の進捗は、強化学習モデルの学習時間、強化学習モデルで学習された価値関数、の少なくとも一方によって表される。

【0068】

強化学習モデルの学習の進捗として、強化学習モデルの学習時間を用いる場合を説明する。学習時間は、例えば、強化学習モデルの試行回数または計算時間によって表される。

【0069】

選択部４０Ｄは、強化学習モデルの学習時間に応じて、第１行動を選択する確率と第２行動を選択する確率とを変化させる。

【0070】

詳細には、選択部４０Ｄは、学習時間が短いほど第１行動を選択する確率を低く且つ第２行動を選択する確率を高くし、学習時間が長いほど第１行動を選択する確率を高く且つ第２行動を選択する確率を低くする。すなわち、選択部４０Ｄは、学習開始時には学習ベースの第１行動を選択する確率をルールベースの第２行動を選択する確率より小さく設定する。そして、選択部４０Ｄは、学習ベースの第１行動を選択する確率を学習時間の経過に応じて線形に増加させる。

【0071】

図３は、第１行動を選択する確率の一例の説明図である。第１行動を選択する確率をεとし、第２行動を選択する確率を１－εとする。学習時間をｔとする。図３中の縦軸は第１行動を選択する確率を表し、横軸は学習時間を表す。

【0072】

例えば、学習開始時刻すなわちｔ＝０の時刻に第１行動を選択する確率をε＝ε_０とする。最大学習時間をｔ_ｍａｘとし、時刻ｔにおける第１行動を選択する確率をε＝ε_０（ｔ／ｔ_ｍａｘ）とする。この場合、第２行動を選択する確率は、１－ε＝ε_０（１－ｔ／ｔ_ｍａｘ）となる。

【0073】

選択部４０Ｄは、学習開始時点では、第１行動を選択する確率を小さくする。例えば、ε＝ε_０＝０．０５とする。そして、選択部４０Ｄは、学習時間が経過するほど、第１行動を選択する確率を高くし、第２行動を選択する確率を低くする。このため、選択部４０Ｄによる第１行動を選択する確率εは、例えば、図３に示す線図５０によって表される。

【0074】

このため、強化学習モデルの学習が不十分な学習初期の段階では、ルールベースで決定された第２行動が第３行動として選択される確率が高くなる。そして、強化学習モデルの学習の進捗が進行するほど、学習ベースで決定された第１行動が第３行動として選択される確率が高くなる。

【0075】

すなわち、選択部４０Ｄは、学習の進捗に拘わらず第１行動のみまたは第２行動のみを第３行動として選択する場合に比べて、獲得できる報酬の高い行動を第３行動として選択することができる。言い換えると、選択部４０Ｄは、強化学習モデルの学習の初期の段階から学習が十分に進行した段階の全般にわたって、移動ロボット２０の行動に関する最低要求性能を満たしながら強化学習モデルを学習可能な第３行動を選択することができる。

【0076】

なお、図３には、学習時間に対して第１行動を選択する確率を線形に変化させる形態を一例として示した。しかし、第１行動を選択する確率の変化は、線形に変化させる形態に限定されない。また、第１行動を選択する確率の変化は、ユーザによる入力部４４の操作指示などによって適宜変更可能としてもよい。

【0077】

なお、選択部４０Ｄは、強化学習モデルで学習された価値関数を、強化学習モデルの学習の進捗として用いてもよい。価値関数は、推定価値関数と称される場合がある。価値関数は、例えば、状態価値関数、行動価値関数、アドバンテージ関数、などである。

【0078】

この場合、選択部４０Ｄは、価値関数により算出された第１行動および第２行動の各々の推定価値に応じて、第１行動および第２行動の何れか一方を第３行動として選択する。

【0079】

例えば、価値関数として行動価値関数を用いる場合について、説明する。第１行動決定部４０Ｂにおいて、強化学習モデルは行動価値関数Ｑを学習する。行動価値関数Ｑ（Ｓ，Ａ）は状態Ｓにおいて行動Ａを選択した場合の推定価値を算出する。

【0080】

選択部４０Ｄは、行動価値関数Ｑ（Ｓ，Ａ）を用いて第１行動の推定価値を算出する。同様に、選択部４０Ｄは、行動価値関数Ｑ（Ｓ，Ａ）を用いて第２行動の推定価値を算出する。そして、選択部４０Ｄは、第１行動および第２行動の各々の推定価値に応じて、第１行動を選択する確率と第２行動を選択する確率とを変化させる。選択部４０Ｄは、第１行動および第２行動について、推定価値が高いほど第３行動として選択する確率を高くすればよい。

【0081】

また、選択部４０Ｄは、第１行動の推定価値と第２行動の推定価値との差が大きいほど、第１行動および第２行動の内、推定価値の大きい行動を選択する確率を高くしてもよい。

【0082】

なお、選択部４０Ｄは、第１行動および第２行動の内、行動価値関数Ｑ（Ｓ，Ａ）により算出された推定価値の高い行動を、第３行動として選択してもよい。

【0083】

また、選択部４０Ｄは、強化学習モデルの学習時間および強化学習モデルで学習された価値関数の双方を、強化学習モデルの学習の進捗として用いてもよい。

【0084】

この場合、選択部４０Ｄは、学習時間および価値関数に基づいて、第１行動を選択する確率と第２行動を選択する確率とを変化させればよい。

【0085】

例えば、選択部４０Ｄは、学習時間が所定時間未満である場合、学習時間が短いほど第１行動を選択する確率を低く且つ第２行動を選択する確率を高くし、学習時間が長いほど第１行動を選択する確率を高く且つ第２行動を選択する確率を低くする。そして、選択部４０Ｄは、学習時間が所定時間以上である場合、第１行動および第２行動の内、行動価値関数Ｑ（Ｓ，Ａ）により算出された推定価値の高い行動を、第３行動として選択すればよい。所定時間は、予め設定すればよい。また、所定時間は、ユーザによる入力部４４の操作指示などによって変更可能としてもよい。

【0086】

上記の例では、第１行動決定部４０Ｂの強化学習モデルで１つの行動価値関数Ｑ（Ｓ，Ａ）を学習し、第１行動と第２行動の推定価値を算出したが、強化学習モデルは第１行動決定部４０Ｂに関する行動価値関数Ｑ１（Ｓ，Ａ）と第２行動決定部４０Ｃに関する行動価値関数Ｑ２（Ｓ，Ａ）をそれぞれ学習し、第１行動と第２行動の推定価値を算出してもよい。

【0087】

この場合、行動価値関数Ｑ１（Ｓ，Ａ）を用いて第１行動の推定価値を算出し、行動価値関数Ｑ２（Ｓ，Ａ）を用いて第２行動の推定価値を算出する。

【0088】

更に、第１行動決定部４０Ｂに関する行動価値関数Ｑ１（Ｓ，Ａ）の学習では、強化学習モデルは第１行動と第２行動を実行した場合の学習データを用いて学習し、第１行動決定部４０Ｂに関する行動価値関数Ｑ２（Ｓ，Ａ）の学習では、強化学習モデルは第２行動を実行した場合の学習データのみを用いて学習する。

【0089】

図２に戻り説明を続ける。

【0090】

表示制御部４０Ｅは、各種の画像を表示部４６に表示する。

【0091】

本実施形態では、表示制御部４０Ｅは、強化学習モデルの学習の進捗、選択部４０Ｄが第１行動を選択する確率および第２行動を選択する確率の少なくとも一方、第３行動が第１行動および第２行動の何れであるかを表す情報、選択部４０Ｄが第１行動を選択した回数、および、選択部４０Ｄが第２行動を選択した回数、の少なくとも１つを、表示部４６に表示する。

【0092】

表示制御部４０Ｅが表示する強化学習モデルの学習の進捗は、現在時刻における進捗である。例えば、表示制御部４０Ｅは、強化学習モデルの学習時間、強化学習モデルの学習終了までの時間、などを現在時刻における進捗として表示する。このため、表示制御部４０Ｅは、現在時刻における強化学習モデルの学習の進捗状況を、ユーザに対して提供することができる。

【0093】

表示制御部４０Ｅが表示する確率は、現在時刻における、選択部４０Ｄが第１行動を選択する確率および第２行動を選択する確率の少なくとも一方である。上述したように、選択部４０Ｄが第１行動または第２行動を選択する確率は、学習の進捗に応じて変化する。このため、表示制御部４０Ｅが、上記確率を表示することで、現在時刻における第１行動を選択する確率および第２行動を選択する確率の少なくとも一方を、ユーザに対して提供することができる。

【0094】

表示制御部４０Ｅが表示する、第３行動が第１行動および第２行動の何れであるかを表す情報は、現在時刻において選択部４０Ｄが選択した第３行動を表す情報である。このため、表示制御部４０Ｅは、現在時刻において移動ロボット２０が次にとる行動が、第１行動および第２行動の何れであるかをユーザに対して容易に確認可能に提供することができる。

【0095】

また、表示制御部４０Ｅが、現在時刻までに第１行動を選択した回数および第２行動を選択した回数を表示部４６に表示することで、ユーザに対して第１行動および第２行動の選択状況を容易に提供することができる。

【0096】

表示制御部４０Ｅは、これらの情報を、１つの表示画面に表示してもよいし、異なる複数の表示画面に表示してもよい。また、表示制御部４０Ｅは、これらの情報の全てを、同じタイミングで表示画面に表示してもよいし、少なくとも１つの情報を他の情報とは異なるタイミングで表示画面に表示してもよい。

【0097】

図４～図６は、表示画面７０の一例を示す模式図である。

【0098】

図４は、表示画面６０の一例を示す模式図である。表示画面６０は、表示画面７０の一例である。

【0099】

表示画面６０は、強化学習モデルの学習の進捗を表す画像６０Ａと、第１行動を選択する確率６０Ｂと、第１行動を選択した回数６０Ｃと、第２行動を選択した回数６０Ｄと、を含む。図４には、強化学習モデルの学習の進捗を表す画像６０Ａとして、強化学習モデルの学習終了までの時刻を一例として示す。

【0100】

表示制御部４０Ｅは、選択部４０Ｄが選択した第３行動、第３行動の選択時に用いた第１行動を選択する確率ε、第３行動の選択に用いた第１行動、第２行動、および進捗を用いて、表示画面６０を生成し表示すればよい。

【0101】

図５は、表示画面６２の一例を示す模式図である。表示画面６２は、表示画面７０の一例である。

【0102】

表示画面６２は、第３行動が第１行動および第２行動の何れであるかを表す情報を含む。例えば、移動ロボット２０の行動候補が、進行方向である“直進”、“右”、“左”、および“停止”、である場合を想定する。そして、選択部４０Ｄによって第１行動が第３行動として選択され、選択された第１行動が進行方向“直進”を表す場合を想定する。

【0103】

この場合、例えば、表示制御部４０Ｅは、第１行動である学習ベースの行動を表す情報６２Ｃ、および、第２行動であるルールベースの行動を表す情報６２Ｄを表示する。そして、表示制御部４０Ｅは、情報６２Ｃの選択アイコンの色を有色表示し、情報６２Ｄの選択アイコンの色を無色表示とする。情報６２Ｃの選択アイコンを有色表示することで、表示制御部４０Ｅは、第１行動が第３行動として選択された状態であることを表示する。

【0104】

また、例えば、表示制御部４０Ｅは、移動ロボット２０を表すアイコン画像６２Ｂの周囲に、移動ロボット２０の行動候補を表す画像を表示する。そして、表示制御部４０Ｅは、選択された“直進”を表す画像を他の行動候補とは異なる色または明るさで表示する。例えば、表示制御部４０Ｅは、“直進”を表す画像を点灯し、他の行動候補を表す画像を非点灯とする。“直進”を表す画像を点灯することで、表示制御部４０Ｅは、第１行動である進行方向“直進”が第３行動として選択された状態であることを表示する。

【0105】

図６は、表示画面６４の一例を示す模式図である。表示画面６４は、表示画面７０の一例である。

【0106】

表示画面６４は、第３行動が第１行動および第２行動の何れであるかを表す情報を含む。例えば、移動ロボット２０の行動候補が、進行方向である“直進”、“右”、“左”、および“停止”、である場合を想定する。そして、選択部４０Ｄによって第２行動が第３行動として選択され、選択された第２行動が進行方向“左”を表す場合を想定する。

【0107】

この場合、例えば、表示制御部４０Ｅは、第１行動である学習ベースの行動を表す情報６４Ｃ、および、第２行動であるルールベースの行動を表す情報６４Ｄを表示する。そして、表示制御部４０Ｅは、情報６４Ｄの選択アイコンの色を有色表示し、情報６４Ｃの選択アイコンの色を無色表示とする。情報６４Ｄの選択アイコンを有色表示することで、表示制御部４０Ｅは、第２行動が第３行動として選択された状態であることを表示する。

【0108】

また、例えば、表示制御部４０Ｅは、移動ロボット２０を表すアイコン画像６４Ｂの周囲に、移動ロボット２０の行動候補を表す画像を表示する。そして、表示制御部４０Ｅは、選択された“左”を表す画像を他の行動候補とは異なる色または明るさで表示する。例えば、表示制御部４０Ｅは、“左”を表す画像を点灯し、他の行動候補を表す画像を非点灯とする。“左”を表す画像を点灯することで、表示制御部４０Ｅは、第２行動である進行方向“左”が第３行動として選択された状態であることを表示する。

【0109】

表示制御部４０Ｅが、これらの表示画面７０を表示部４６に表示することで、ユーザに対して学習の進捗状況などの各種の情報を分かりやすく提供することができる。このため、ユーザは表示画面７０を確認することで、移動ロボット２０の行動に関する強化学習モデルの学習が途中であるか完了しているかを容易に把握することができる。

【0110】

図２に戻り説明を続ける。

【0111】

送信制御部４０Ｆは、選択部４０Ｄで選択された第３行動を、通信部４８を介して移動ロボット２０へ送信する。

【0112】

移動ロボット２０の制御部２２は、通信部２４を介して運行管理システム３０から地図情報を受信する。制御部２２は、地図情報に含まれる出発地点情報によって表される出発地点Ａから、地図情報に含まれる目的地点情報によって表される目的地点Ｂへ向かって移動する行動を開始するように、移動ロボット２０の駆動部を制御する。この処理により、移動ロボット２０は、行動を開始する。

【0113】

移動ロボット２０の制御部２２は、行動を開始すると、センサ２６の検出結果を学習装置１０Ａへ送信する。制御部２２は、センサ２６の検出結果を所定間隔で順次学習装置１０Ａへ送信する。制御部２２は、送信した検出結果に対する応答として、学習装置１０Ａから第３行動を受信する。制御部２２は、受信した第３行動に応じた行動を実行するように、移動ロボット２０の駆動部を制御する。

【0114】

このため、移動ロボット２０は、学習装置１０Ａで決定された第３行動を実行する。すなわち、移動ロボット２０は、学習装置１０Ａから順次送信される第３行動に沿って行動することで、出発地点Ａから目的地点Ｂへ向かって移動することができる。

【0115】

次に、本実施形態の学習装置１０Ａの情報処理の流れの一例を説明する。

【0116】

図７は、本実施形態の学習装置１０Ａが実行する情報処理の流れの一例を示すフローチャートである。

【0117】

取得部４０Ａが、移動ロボット２０の現在状態を取得する（ステップＳ１００）。取得部４０Ａは、移動ロボット２０から受信したセンサ２６の検出結果および運行管理システム３０から受信した地図情報を用いて、移動ロボット２０の現在状態を取得する。

【0118】

次に、取得部４０Ａは、ステップＳ１００で取得した現在状態の報酬を算出する（ステップＳ１０２）。

【0119】

第１行動決定部４０Ｂは、ステップＳ１００で取得した現在状態およびステップＳ１０２で算出された報酬を用いて、より報酬の高い現在状態の得られる第１行動を出力するように、強化学習モデルを強化学習する（ステップＳ１０４）。

【0120】

第１行動決定部４０Ｂは、第１行動を決定する（ステップＳ１０６）。第１行動決定部４０Ｂは、ステップＳ１０４で強化学習した強化学習モデルへステップＳ１００で取得した現在状態を入力することで、強化学習モデルからの出力として第１行動を決定する。

【0121】

第２行動決定部４０Ｃは、第２行動を決定する（ステップＳ１０８）。第２行動決定部４０Ｃは、ステップＳ１００で取得した現在状態と第１ルールとに基づいて、移動ロボット２０の第２行動を決定する。

【0122】

次に、選択部４０Ｄは、第１行動決定部４０Ｂの強化学習モデルの学習の進捗を特定する（ステップＳ１１０）。例えば、選択部４０Ｄは、強化学習モデルの学習時間を学習の進捗として特定する。なお、上述したように、選択部４０Ｄは、強化学習モデルで学習された価値関数、または、学習時間および価値関数を、学習の進捗として特定してもよい。

【0123】

選択部４０Ｄは、ステップＳ１１０で特定した学習の進捗に応じて、ステップＳ１０６で決定された第１行動およびステップＳ１０８で決定された第２行動の一方を、第３行動として選択する（ステップＳ１１２）。

【0124】

送信制御部４０Ｆは、ステップＳ１１２で選択された第３行動を移動ロボット２０へ送信する（ステップＳ１１４）。

【0125】

表示制御部４０Ｅは表示画面７０を表示部４６に表示する（ステップＳ１１６）。なお、表示画面７０を表示部４６に表示するタイミングは、このタイミングに限定されない。例えば、表示制御部４０Ｅは、ステップＳ１００の処理開始前に表示画面７０の表示部４６への表示を開始し、制御部４０による処理状況に応じて表示画面７０の表示内容を更新してもよい。

【0126】

制御部４０は、処理を終了するか否かを判断する（ステップＳ１１８）。例えば、制御部４０は、ユーザによる入力部４４の操作指示などにより処理終了を示す信号が入力されたか否かを判別することで、ステップＳ１１８の判断を行う。ステップＳ１１８で否定判断すると（ステップＳ１１８：Ｎｏ）、上記ステップＳ１００へ戻る。ステップＳ１１８で肯定判断すると（ステップＳ１１８：Ｙｅｓ）、本ルーチンを終了する。

【0127】

次に、本実施形態の移動ロボット２０の情報処理の流れの一例を説明する。

【0128】

図８は、本実施形態の移動ロボット２０が実行する情報処理の流れの一例を示すフローチャートである。

【0129】

移動ロボット２０の制御部２２は、通信部２４を介して運行管理システム３０から地図情報を取得する（ステップＳ２００）。制御部２２は、地図情報に含まれる出発地点情報によって表される出発地点Ａから、地図情報に含まれる目的地点情報によって表される目的地点Ｂへ向かって移動する行動を開始するように、移動ロボット２０の駆動部を制御する。この処理により、移動ロボット２０は、行動を開始する（ステップＳ２０２）。

【0130】

制御部２２は、センサ２６の検出結果を学習装置１０Ａへ送信する（ステップＳ２０４）。

【0131】

制御部２２は、ステップＳ２０４で送信した検出結果に対する応答として、学習装置１０Ａから第３行動を受信する（ステップＳ２０６）。制御部２２は、受信した第３行動に応じた行動を実行するように、移動ロボット２０の駆動部を制御する。このため、移動ロボット２０は、学習装置１０Ａで決定された第３行動を実行する（ステップＳ２０８）。

【0132】

制御部２２は、処理を終了するか否かを判断する（ステップＳ２１０）。例えば、制御部２２は、ユーザによる操作指示などによって処理終了信号が入力されたか否かを判別することで、処理を終了するか否かを判断する（ステップＳ２１０）。ステップＳ２１０で否定判断すると（ステップＳ２１０：Ｎｏ）、ステップＳ２０４へ戻る。一方、ステップＳ２１０で肯定判断すると（ステップＳ２１０：Ｙｅｓ）、本ルーチンを終了する。

【0133】

以上説明したように、本実施形態の学習装置１０Ａは、取得部４０Ａと、第１行動決定部４０Ｂと、第２行動決定部４０Ｃと、選択部４０Ｄと、を備える。取得部４０Ａは、機器である移動ロボット２０の現在状態を取得する。第１行動決定部４０Ｂは、強化学習モデルを学習する学習機能を有し、現在状態と強化学習モデルとに基づいて移動ロボット２０の第１行動を決定する。第２行動決定部４０Ｃは、現在状態と第１ルールとに基づいて、移動ロボット２０の第２行動を決定する。選択部４０Ｄは、強化学習モデルの学習の進捗に応じて、第１行動および第２行動の何れか一方を、移動ロボット２０に出力する第３行動として選択する。

【0134】

第１行動は、強化学習モデルを用いた学習ベースで決定された行動である。第２行動は、第１ルールのルールベースで決定された行動である。選択部４０Ｄは、強化学習モデルの学習の進捗に応じて第１行動および第２行動の何れか一方を第３行動として選択する。

【0135】

このため、選択部４０Ｄは、強化学習モデルの学習が不十分な学習初期の段階ではルールベースで決定された第２行動を第３行動として選択し、強化学習モデルの学習の進捗が進行するほど、学習ベースで決定された第１行動を第３行動として選択する確率を高くすることができる。

【0136】

【0137】

図９は、報酬曲線の一例の説明図である。

【0138】

図９中、縦軸は報酬を表し、横軸は学習時間を表す。図９中、Ｐ１は、移動ロボット２０の最低要求性能を満たす報酬を表す。Ｐ２は、移動ロボット２０の最適要求性能を満たす報酬を表す。線図５２は、本実施形態の強化学習方法による報酬曲線を表す線図である。線図５２０は、従来の強化学習方法による報酬曲線を表す線図である。

【0139】

図９に示すように、従来の強化学習方法では、特に学習初期においてランダムな行動選択をする。このため、移動ロボット２０が目的地点Ｂに到達することができず、報酬を獲得できない。また、従来の強化学習方法では、最適要求性能を満たす報酬Ｐ２に達するまで時間を要する。また、従来技術では、強化学習モデルの学習が不十分な学習初期の段階で、学習ベースで決定された行動を移動ロボット２０が実行すると、移動ロボット２０が意図せぬ状態に陥り、強化学習中に事故や故障が発生する場合があった。

【0140】

このため、従来技術では、実機である移動ロボット２０などの機器に適用しながら強化学習を行うことは、要求性能の実現および安全性確保の観点から困難であった。

【0141】

一方、本実施形態の学習装置１０Ａでは、強化学習モデルの学習の進捗に応じて第１行動および第２行動の何れか一方を第３行動として選択する。このため、本実施形態の学習装置１０Ａでは、強化学習モデルの強化学習が不十分な学習初期の段階ではルールベースで決定された第２行動を第３行動として選択し、強化学習モデルの学習の進捗が進行するほど、学習ベースで決定された第１行動を第３行動として選択する確率を高くすることができる。よって、本実施形態の学習装置１０Ａは、学習初期の段階から学習の進捗が進捗した段階の全ての段階にわたって、最低要求性能を満たしながら学習データを収集しつつ移動ロボット２０を行動させることができる。

【0142】

このため、本実施形態の学習装置１０Ａは、実機である移動ロボット２０で運用しながら強化学習モデルを学習することができる。

【0143】

従って、本実施形態の学習装置１０Ａは、機器に適用しながら強化学習を行うことができる。

【0144】

（第２の実施形態）
本実施形態では、上記実施形態に加えて、安全に関するルールに基づいて行動を決定する安全行動決定部を更に備えた構成を説明する。

【0145】

なお、本実施形態において上記実施形態と同様の機能および構成の部分には、同じ符号を付与して詳細な説明を省略する。

【0146】

図１０は、本実施形態の学習システム１Ｂの一例の機能ブロック図である。

【0147】

学習システム１は、学習装置１０Ｂと、移動ロボット２０と、運行管理システム３０と、を備える。学習装置１０Ｂ、移動ロボット２０、および運行管理システム３０は、ネットワークＮなどを介して通信可能に接続されている。移動ロボット２０および運行管理システム３０は上記実施形態と同様である。

【0148】

学習装置１０Ｂは、学習装置１０の一例である。学習装置１０Ｂは、制御部４１と、記憶部４２と、入力部４４と、表示部４６と、通信部４８と、を備える。制御部４１、記憶部４２、入力部４４、表示部４６、および通信部４８は、バス４９などを介して通信可能に接続されている。学習装置１０Ｂは、制御部４０に替えて制御部４１を備える点以外は、上記実施形態の学習装置１０Ａと同様である。

【0149】

制御部４１は、学習装置１０Ｂにおいて各種の情報処理を実行する。

【0150】

制御部４１は、取得部４０Ａと、第１行動決定部４０Ｂと、第２行動決定部４０Ｃと、安全行動決定部４１Ｇと、選択部４１Ｄと、表示制御部４１Ｅと、送信制御部４０Ｆと、を備える。取得部４０Ａ、第１行動決定部４０Ｂ、第２行動決定部４０Ｃ、および送信制御部４０Ｆは、上記実施形態と同様である。すなわち、制御部４１は、選択部４０Ｄおよび表示制御部４０Ｅに替えて選択部４１Ｄおよび表示制御部４１Ｅを備え、安全行動決定部４１Ｇを更に備える点以外は、上記実施形態の制御部４０と同様である。

【0151】

上記実施形態で説明したように、第１行動決定部４０Ｂは、強化学習モデルを用いた学習ベースで第１行動を決定する。第１行動は、学習ベースの行動であるため、現状状態に応じた安全性を考慮した行動ではない。このため、第１行動が安全な行動であるとは限らない。選択部４１Ｄがルールベースの第２行動を第３行動として選択した場合には、移動ロボット２０の安全性が担保される。しかし、選択部４１Ｄが学習ベースの第１行動を選択した場合には、移動ロボット２０の安全性が担保されない場合があり、移動ロボット２０が危険な状態に陥る可能性がある。

【0152】

そこで、本実施形態の学習装置１０Ｂは、安全行動決定部４１Ｇを更に備える。

【0153】

安全行動決定部４１Ｇは、取得部４０Ａで取得した現在状態、第１行動決定部４０Ｂで決定された第１行動、および安全性に関する第２ルール、に基づいて、第４行動を決定する。

【0154】

第２ルールとは、移動ロボット２０の安全性担保を満たすルールである。第２ルールは、例えば、障害物Ｃの手前で停止または障害物Ｃを避けた進行を表すルールである。

【0155】

安全行動決定部４１Ｇは、移動ロボット２０の次の行動が第２ルールに沿った行動となるように、第１行動から第４行動を決定する。

【0156】

詳細には、安全行動決定部４１Ｇは、取得部４０Ａで取得した現在状態および第２ルールに基づいて前記第１行動の安全性を判定する。例えば、安全行動決定部４１Ｇは、第２ルールに沿ったＩＦ－ＴＨＥＮルール表現を用いた推論などによって、第１行動の安全性を判定する。

【0157】

具体的には、例えば、安全行動決定部４１Ｇは、以下の第２ルールに沿って第１行動の安全性を判定する。

【0158】

例えば、安全行動決定部４１Ｇは、現在状態で第１行動を移動ロボット２０が実行した場合、移動ロボット２０が進入禁止領域Ｄに侵入する進入可能性を計算する。進入可能性の計算結果が第１閾値より低い場合、安全行動決定部４１Ｇは、第１行動は安全であると判定する。一方、進入可能性の計算結果が第１閾値以上である場合、安全行動決定部４１Ｇは、第１行動は安全ではないと判定する。第１閾値は予め定めればよい。また、第１閾値は、ユーザによる入力部４４の操作指示などによって変更可能としてもよい。

【0159】

また、例えば、安全行動決定部４１Ｇは、現在状態で第１行動を移動ロボット２０が実行した場合、移動ロボット２０が障害物Ｃに衝突する衝突可能性を計算する。衝突可能性の計算結果が第２閾値より低い場合、安全行動決定部４１Ｇは、第１行動は安全であると判定する。一方、衝突可能性の計算結果が第２閾値以上である場合、安全行動決定部４１Ｇは、第１行動は安全ではないと判定する。第２閾値は予め定めればよい。また、第２閾値は、ユーザによる入力部４４の操作指示などによって変更可能としてもよい。

【0160】

そして、安全行動決定部４１Ｇは、第１行動を安全であると判定した場合、第１行動を第４行動として決定する。

【0161】

一方、第１行動を安全ではないと判定した場合、安全行動決定部４１Ｇは、第１行動を安全な行動に修正した第４行動を決定する。この場合、安全行動決定部４１Ｇは、第１行動を第２ルールに沿って安全な行動に修正すればよい。

【0162】

例えば、安全行動決定部４１Ｇは、予め安全性の高い安全行動を決定しておく。例えば、安全行動決定部４１Ｇは、進行方向「停止」を表す情報を、安全行動として予め決定する。そして、安全行動決定部４１Ｇは、第１行動を安全でないと判定した場合、第１行動を予め決定した安全行動に置き換え、第４行動として決定する。

【0163】

そして、安全行動決定部４１Ｇは、決定した第４行動を、選択部４１Ｄへ出力する。

【0164】

なお、安全行動決定部４１Ｇは、第１行動を安全ではない判定した場合、該第１行動と負の報酬とを対応付けて強化学習モデルの学習データとして出力してもよい。例えば、安全行動決定部４１Ｇは、第１行動と負の報酬とを対応付けて、学習データとして記憶部４２へ記憶する。また、安全行動決定部４１Ｇは、第１行動と負の報酬とを対応付けた学習データを、第１行動決定部４０Ｂへ直接出力してもよい。この場合、第１行動決定部４０Ｂは、学習データを用いて、強化学習モデルの強化学習を更に行えばよい。

【0165】

この場合、制御部４１は、強化学習モデルの学習データを効率よく収集することができる。

【0166】

選択部４１Ｄは、第１行動決定部４０Ｂの強化学習モデルの学習の進捗に応じて、第１行動から決定された第４行動および第２行動の何れか一方を、移動ロボット２０に出力する第３行動として選択する。選択部４１Ｄは、第１行動に替えて、安全行動決定部４１Ｇから受付けた第４行動を用いる点以外は、選択部４０Ｄと同様である。

【0167】

表示制御部４１Ｅは、各種の画像を表示部４６に表示する。

【0168】

表示制御部４１Ｅは、上記実施形態の表示制御部４０Ｅと同様に、強化学習モデルの学習の進捗、選択部４０Ｄが第１行動を選択する確率および第２行動を選択する確率の少なくとも一方、第３行動が第４行動および第２行動の何れであるかを表す情報、選択部４１Ｄが第４行動を選択した回数、および、選択部４１Ｄが第２行動を選択した回数、の少なくとも１つを、表示部４６に表示する。

【0169】

本実施形態の表示制御部４１Ｅは、安全行動決定部４１Ｇによる第１行動の安全性の判定結果を更に表示部４６へ表示してよい。

【0170】

図１１は、表示画面６６の一例を示す模式図である。表示画面６６は、表示画面７０の一例である。

【0171】

表示画面６６は、第３行動が第４行動および第２行動の何れであるかを表す情報を含む。例えば、移動ロボット２０の行動候補が、進行方向である“直進”、“右”、“左”、および“停止”、である場合を想定する。また、第１行動が“直進”であり、安全行動決定部４１Ｇで第１行動“直進”が安全と判定されて該第１行動が第４行動として決定された場合を想定する。そして、選択部４０Ｄによって第４行動が第３行動として選択され、選択された第４行動が“直進”を表す場合を想定する。

【0172】

この場合、例えば、表示制御部４１Ｅは、第４行動である学習ベースの行動を表す情報６６Ｃ、および、第２行動であるルールベースの行動を表す情報６６Ｄを表示する。そして、表示制御部４１Ｅは、情報６６Ｃの選択アイコンの色を有色表示し、情報６６Ｄの選択アイコンの色を無色表示とする。情報６６Ｃの選択アイコンを有色表示することで、表示制御部４１Ｅは、第４行動が第３行動として選択された状態であることを表示する。

【0173】

また、例えば、表示制御部４１Ｅは、移動ロボット２０を表すアイコン画像６６Ｂの周囲に、移動ロボット２０の行動候補を表す画像を表示する。そして、表示制御部４１Ｅは、選択された“直進”を表す画像を他の行動候補とは異なる色または明るさで表示する。例えば、表示制御部４１Ｅは、“直進”を表す画像を点灯し、他の行動候補を表す画像を非点灯とする。“直進”を表す画像を点灯することで、表示制御部４１Ｅは、第４行動である進行方向“直進”が第３行動として選択された状態であることを表示する。

【0174】

さらに、表示制御部４１Ｅは、第１行動の安全性の判定結果６６Ｅを更に表示する。図１１には、判定結果６６Ｅとして、第１行動が安全であることを示す情報を表示する形態を示す。また、図１１には、判定結果６６Ｅとして、現在選択されている第３行動が学習ベースの行動である第１行動に応じた行動である“直進”を表す情報を更に表示する形態を示す。なお、現在選択されている第３行動と安全性の判定結果の表示領域は、異なる領域であってよい。

【0175】

図１２は、表示画面６８の一例を示す模式図である。表示画面６８は、表示画面７０の一例である。

【0176】

表示画面６８は、第３行動が第４行動および第２行動の何れであるかを表す情報を含む。例えば、移動ロボット２０の行動候補が、進行方向である“直進”、“右”、“左”、および“停止”、である場合を想定する。また、第１行動が“右”であり、安全行動決定部４１Ｇで第１行動“右”が安全ではない、すなわち危険と判定された場合を想定する。そして、安全行動決定部４１Ｇによって、該第１行動である“右”を安全な“直進”に修正した第４行動を決定された場合を想定する。そして、選択部４０Ｄによって第４行動が第３行動として選択され、選択された第４行動が“直進”を表す場合を想定する。

【0177】

この場合、例えば、表示制御部４１Ｅは、第４行動である学習ベースの行動を表す情報６８Ｃ、および、第２行動であるルールベースの行動を表す情報６８Ｄを表示する。そして、表示制御部４１Ｅは、情報６８Ｃの選択アイコンの色を有色表示し、情報６８Ｄの選択アイコンの色を無色表示とする。情報６８Ｃの選択アイコンを有色表示することで、表示制御部４１Ｅは、第４行動が第３行動として選択された状態であることを表示する。

【0178】

また、例えば、表示制御部４１Ｅは、移動ロボット２０を表すアイコン画像６８Ｂの周囲に、移動ロボット２０の行動候補を表す画像を表示する。そして、表示制御部４１Ｅは、選択された“直進”を表す画像を他の行動候補とは異なる色または明るさで表示する。例えば、表示制御部４１Ｅは、“直進”を表す画像を点灯し、他の行動候補を表す画像を非点灯とする。“直進”を表す画像を点灯することで、表示制御部４１Ｅは、第４行動である進行方向“直進”が第３行動として選択された状態であることを表示する。

【0179】

さらに、表示制御部４１Ｅは、第１行動の安全性の判定結果６８Ｅを更に表示する。図１２には、判定結果６８Ｅとして、第１行動が安全ではない、すなわち危険であることを示す情報を表示する形態を示す。また、図１２には、判定結果６８Ｅとして、現在選択されている第３行動が学習ベースの行動である第１行動“右”を“直進”に修正した行動であることを表す情報を更に表示する形態を示す。なお、現在選択されている第３行動と安全性の判定結果の表示領域は、異なる領域であってよい。

【0180】

表示制御部４１Ｅが、安全行動決定部４１Ｇによる第１行動の安全性の判定結果を更に表示部４６に表示することで、選択された第３行動が第１行動をそのまま用いたものか、第１行動を修正した第４行動であるかを、ユーザに対して分かりやすく提供することができる。

【0181】

次に、本実施形態の学習装置１０Ｂの情報処理の流れの一例を説明する。

【0182】

図１３は、本実施形態の学習装置１０Ｂが実行する情報処理の流れの一例を示すフローチャートである。

【0183】

取得部４０Ａが、移動ロボット２０の現在状態を取得する（ステップＳ３００）。取得部４０Ａは、移動ロボット２０から受信したセンサ２６の検出結果および運行管理システム３０から受信した地図情報を用いて、移動ロボット２０の現在状態を取得する。

【0184】

次に、取得部４０Ａは、ステップＳ３００で取得した現在状態の報酬を算出する（ステップＳ３０２）。

【0185】

第１行動決定部４０Ｂは、ステップＳ３００で取得した現在状態およびステップＳ３０２で算出された報酬を用いて、より報酬の高い現在状態の得られる第１行動を出力するように、強化学習モデルを強化学習する（ステップＳ３０４）。

【0186】

第１行動決定部４０Ｂは、第１行動を決定する（ステップＳ３０６）。第１行動決定部４０Ｂは、ステップＳ３０４で強化学習した強化学習モデルへステップＳ３００で取得した現在状態を入力することで、強化学習モデルからの出力として第１行動を決定する。

【0187】

安全行動決定部４１Ｇは、ステップＳ３０６で決定された第１行動の安全性を判定する（ステップＳ３０８）。安全行動決定部４１Ｇは、第２ルールおよびステップＳ３００で取得した現在状態を用いて、第１行動の安定性を判定する。

【0188】

第１行動を安全と判定すると（ステップＳ３１０：Ｙｅｓ）、ステップＳ３１２へ進む。ステップＳ３１２では、安全行動決定部４１Ｇは、ステップＳ３０６で決定された第１行動を第４行動として決定する。そして、後述するステップＳ３１６へ進む。

【0189】

一方、第１行動を安全ではないと判定すると（ステップＳ３１０：Ｎｏ）、ステップＳ３１４へ進む。ステップＳ３１４では、安全行動決定部４１Ｇは、ステップＳ３０６で決定した第１行動を安全な行動に修正した第４行動を決定する（ステップＳ３１４）。そして、ステップＳ３１６へ進む。

【0190】

ステップＳ３１６では、第２行動決定部４０Ｃが、第２行動を決定する（ステップＳ３１６）。第２行動決定部４０Ｃは、ステップＳ３００で取得した現在状態と第１ルールとに基づいて、移動ロボット２０の第２行動を決定する。

【0191】

選択部４１Ｄは、第１行動決定部４０Ｂの強化学習モデルの学習の進捗を特定する（ステップＳ３１８）。例えば、選択部４１Ｄは、強化学習モデルの学習時間を学習の進捗として特定する。なお、上述したように、選択部４１Ｄは、強化学習モデルで学習された価値関数、または、学習時間および価値関数を、学習の進捗として特定してもよい。

【0192】

選択部４１Ｄは、ステップＳ３１８で特定した学習の進捗に応じて、ステップＳ３１２またはステップＳ３１４で決定された第４行動およびステップＳ３１６で決定された第２行動の一方を、第３行動として選択する（ステップＳ３２０）。

【0193】

送信制御部４０Ｆは、ステップＳ３２０で選択された第３行動を移動ロボット２０へ送信する（ステップＳ３２２）。

【0194】

表示制御部４１Ｅは表示画面７０を表示部４６に表示する（ステップＳ３２４）。なお、表示画面７０を表示部４６に表示するタイミングは、このタイミングに限定されない。例えば、表示制御部４１Ｅは、ステップＳ３００の処理開始前に表示画面７０の表示部４６への表示を開始し、制御部４１による処理状況に応じて表示画面７０の表示内容を更新してもよい。

【0195】

制御部４１は、処理を終了するか否かを判断する（ステップＳ３２６）。例えば、制御部４１は、ユーザによる入力部４４の操作指示などにより処理終了を示す信号が入力されたか否かを判別することで、ステップＳ３２６の判断を行う。ステップＳ３２６で否定判断すると（ステップＳ３２６：Ｎｏ）、上記ステップＳ３００へ戻る。ステップＳ３２６で肯定判断すると（ステップＳ３２６：Ｙｅｓ）、本ルーチンを終了する。

【0196】

以上説明したように、本実施形態の学習装置１０Ｂでは、安全行動決定部４１Ｇが、現在状態、第１行動、および安全性に関する第２ルール、に基づいて、第４行動を決定する。選択部４１Ｄは、進捗に応じて、第１行動から決定された第４行動および第２行動の何れか一方を第３行動として選択する。

【0197】

【0198】

そこで、本実施形態の学習装置１０Ｂは、安全行動決定部４１Ｇは、取得部４０Ａで取得した現在状態、第１行動決定部４０Ｂで決定された第１行動、および安全性に関する第２ルール、に基づいて、第４行動を決定する。そして、選択部４１Ｄは、進捗に応じて、第１行動から決定された第４行動および第２行動の何れか一方を第３行動として選択する。

【0199】

このため、本実施形態の学習装置１０Ｂは、上記実施形態の効果に加えて、第３行動の安全性を担保することができる。

【0200】

次に、上記実施形態の学習装置１０（学習装置１０Ａ、学習装置１０Ｂ）、移動ロボット２０、および運行管理システム３０のハードウェア構成の一例を説明する。

【0201】

図１４は、上記実施形態の学習装置１０、移動ロボット２０、および運行管理システム３０の一例のハードウェア構成図である。

【0202】

上記実施形態の学習装置１０、移動ロボット２０、および運行管理システム３０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）８６、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）８８、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０、およびＩ／Ｆ９２等がバス９４により相互に接続されており、通常のコンピュータを利用したハードウェア構成となっている。

【0203】

ＣＰＵ８６は、上記実施形態の学習装置１０、移動ロボット２０、および運行管理システム３０を制御する演算装置である。ＲＯＭ８８は、ＣＰＵ８６による情報処理を実現するプログラム等を記憶する。ＲＡＭ９０は、ＣＰＵ８６による各種処理に必要なデータを記憶する。Ｉ／Ｆ８２は、記憶部４２、入力部４４、表示部４６、通信部４８、通信部２４、センサ２６、および記憶部２８などに接続し、データを送受信するためのインターフェースである。

【0204】

上記実施形態の学習装置１０、移動ロボット２０、および運行管理システム３０では、ＣＰＵ８６が、ＲＯＭ８８からプログラムをＲＡＭ９０上に読み出して実行することにより、上記各機能がコンピュータ上で実現される。

【0205】

なお、上記実施形態の学習装置１０、移動ロボット２０、および運行管理システム３０で実行される上記各処理を実行するためのプログラムは、ＨＤＤ（ハードディスクドライブ）に記憶されていてもよい。また、上記実施形態の学習装置１０、移動ロボット２０、および運行管理システム３０で実行される上記各処理を実行するためのプログラムは、ＲＯＭ８８に予め組み込まれて提供されていてもよい。

【0206】

また、上記実施形態の学習装置１０、移動ロボット２０、および運行管理システム３０で実行される上記処理を実行するためのプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ－ＲＯＭ、ＣＤ－Ｒ、メモリカード、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、フレキシブルディスク（ＦＤ）等のコンピュータで読み取り可能な記憶媒体に記憶されてコンピュータプログラムプロダクトとして提供されるようにしてもよい。また、上記実施形態の学習装置１０、移動ロボット２０、および運行管理システム３０で実行される上記情報処理を実行するためのプログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するようにしてもよい。また、上記実施形態の学習装置１０、移動ロボット２０、および運行管理システム３０で実行される上記情報処理を実行するためのプログラムを、インターネットなどのネットワーク経由で提供または配布するようにしてもよい。

【0207】

なお、上記には、実施形態を説明したが、上記実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0208】

１０、１０Ａ、１０Ｂ学習装置
２０移動ロボット
４０Ａ取得部
４０Ｂ第１行動決定部
４０Ｃ第２行動決定部
４０Ｄ、４１Ｄ選択部
４０Ｅ、４１Ｅ表示制御部
４０Ｆ送信制御部
４１Ｇ安全行動決定部

【図1】