特許7572815 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツングの特許一覧

特許7572815テスト支援装置およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-10-16

(45)【発行日】2024-10-24

(54)【発明の名称】テスト支援装置およびプログラム

(51)【国際特許分類】

G06F 11/36 20060101AFI20241017BHJP

【ＦＩ】

G06F11/36 192

G06F11/36 188

G06F11/36 196

【請求項の数】 7

(21)【出願番号】P 2020147231

(22)【出願日】2020-09-02

(65)【公開番号】P2022042058

(43)【公開日】2022-03-14

【審査請求日】2023-08-24

(73)【特許権者】

【識別番号】591245473

【氏名又は名称】ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング

【氏名又は名称原語表記】ＲＯＢＥＲＴＢＯＳＣＨＧＭＢＨ

(74)【代理人】

【識別番号】100177839

【弁理士】

【氏名又は名称】大場玲児

(74)【代理人】

【識別番号】100172340

【弁理士】

【氏名又は名称】高橋始

(74)【代理人】

【識別番号】100182626

【弁理士】

【氏名又は名称】八島剛

(72)【発明者】

【氏名】中里研一

【審査官】円子英紀

(56)【参考文献】

【文献】米国特許出願公開第２０１９／０３５１３３４（ＵＳ，Ａ１）

【文献】中国特許出願公開第１１１５３００８１（ＣＮ，Ａ）

【文献】特開２０２０－１０８７３３（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１１／３６

(57)【特許請求の範囲】

【請求項1】

仮想環境上でテスト対象のシステムを模擬するとともに、前記システムに関するパラメータを設定可能なシミュレーション部（２１）と、
設定された前記パラメータに基づき前記シミュレーション部（２１）で模擬される前記システムをテストし、当該テストの結果を用いて機械学習を行う学習部（２２）と、
前記学習部（２２）の学習の速度に応じて第１の評価値を求める第１演算部（２６）と、
前記学習部（２２）がテスト時に選択した行動の多様さに応じて第２の評価値を求める第２演算部（２７）と、
設定された前記パラメータに対応する前記第１の評価値および前記第２の評価値を表示装置（１９）に表示させる出力処理部（２８）と、
を備えるテスト支援装置（１０）。

【請求項2】

前記学習部（２２）は、前記テストの結果を用いて強化学習を行う
請求項１に記載のテスト支援装置（１０）。

【請求項3】

前記第１演算部（２６）は、前記学習部（２２）による強化学習の学習曲線に基づいて、前記第１の評価値を求める
請求項２に記載のテスト支援装置（１０）。

【請求項4】

前記学習部（２２）によるテスト時の行動履歴を記録する記録部（２５）をさらに備え、
前記第２演算部（２７）は、前記行動履歴から場面ごとの方策をそれぞれ抽出し、当該方策に基づき前記第２の評価値を求める
請求項２または請求項３に記載のテスト支援装置（１０）。

【請求項5】

前記第２演算部（２７）は、前記場面の数、または前記方策の行動に対する確率の分布の少なくなくともいずれかに基づいて前記第２の評価値を求める
請求項４に記載のテスト支援装置（１０）。

【請求項6】

前記学習部（２２）は、前記パラメータの値が異なる複数の条件で前記システムをそれぞれテストし、
前記出力処理部（２８）は、前記複数の条件にそれぞれ対応する前記第１の評価値および前記第２の評価値を前記表示装置（１９）に表示させる
請求項１から５のいずれかに記載のテスト支援装置（１０）。

【請求項7】

設定されたパラメータに基づき仮想環境上で模擬されるシステムを、学習部（２２）にテストさせて、当該テストの結果を用いて前記学習部（２２）の機械学習を行う工程（Ｓ４）と、
前記学習部（２２）の学習の速度に応じて第１の評価値を求める工程（Ｓ５）と、
前記学習部（２２）がテスト時に選択した行動の多様さに応じて第２の評価値を求める工程（Ｓ６）と、
設定された前記パラメータに対応する前記第１の評価値および前記第２の評価値を表示装置（１９）に表示させる工程（Ｓ１０）と、
をコンピュータ（１１）に実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、テスト支援装置およびプログラムに関する。

【背景技術】

【0002】

従来、コンピュータに構築された仮想環境上でゲームやユーザインターフェース等の製品テストを行い、当該テストで得られたパラメータを実環境の構成に適用することで製品設計を効率化することが行われている。近年では、コンピュータの演算能力の向上及び人工知能（ＡＩ）技術の進展により、仮想環境上での製品テストを活用できる環境が充実しつつある。

【0003】

例えば、特許文献１では、統計的に処理した標準人の感性データベースを用いたコンピュータシステムにより、ユーザ個人の感性および体形に合わせた機器のデザインを行うことが提案されている。

【先行技術文献】

【特許文献】

【0004】

【文献】特開平９－２１８８８５号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

例えば、対話形式のシステムを仮想環境上でテストするときには、ＡＩプログラムをエージェントとしてテストを行わせることが考えられる。一方で、例えば習熟の容易さや面白さなどの感性的な要素を考慮してテストを行う場合、コンピュータが適切な評価を行うことがなお困難である。そのため、この種のテストでは、人間による作業工程が依然として多くを占めることが通常であり、その改善が要望されている。

【0006】

本発明は、上記の課題を背景としてなされたものであり、感性的な要素を考慮したシステムの最適化において、テストの際の人間の作業負荷を低減しうるテスト支援装置およびプログラムを提供する。

【課題を解決するための手段】

【0007】

本発明の一態様によれば、仮想環境上でテスト対象のシステムを模擬するとともに、システムに関するパラメータを設定可能なシミュレーション部（２１）と、設定されたパラメータに基づきシミュレーション部（２１）で模擬されるシステムをテストし、当該テストの結果を用いて機械学習を行う学習部（２２）と、学習部（２２）の学習の速度に応じて第１の評価値を求める第１演算部（２６）と、学習部（２２）がテスト時に選択した行動の多様さに応じて第２の評価値を求める第２演算部（２７）と、設定されたパラメータに対応する第１の評価値および第２の評価値を表示装置（１９）に表示させる出力処理部（２８）と、を備えるテスト支援装置（１０）が提供される。

【0008】

本発明の他の一態様によれば、設定されたパラメータに基づき仮想環境上で模擬されるシステムを、学習部（２２）にテストさせて、当該テストの結果を用いて学習部（２２）の機械学習を行う工程（Ｓ４）と、学習部（２２）の学習の速度に応じて第１の評価値を求める工程（Ｓ５）と、学習部（２２）がテスト時に選択した行動の多様さに応じて第２の評価値を求める工程（Ｓ６）と、設定されたパラメータに対応する第１の評価値および第２の評価値を表示装置（１９）に表示させる工程（Ｓ１０）と、をコンピュータ（１１）に実行させるプログラムが提供される。

【発明の効果】

【0009】

本発明によれば、感性的な要素を考慮したシステムの最適化において、テストの際の人間の作業負荷を低減できる。

【図面の簡単な説明】

【0010】

【図1】テスト支援装置のハードウェア構成例を示すブロック図である。

【図2】テスト支援装置のソフトウェア構成例を示すブロック図である。

【図3】テスト支援装置の動作例を示す流れ図である。

【図4】学習部の学習曲線の一例を示す図である。

【図5】第２演算部の処理の概要を示す図である。

【発明を実施するための形態】

【0011】

以下、本発明のテスト支援装置およびプログラムの実施形態について、図面を参照して説明する。以下に説明する構成は、本発明の一例（代表例）であり、これに限定されない。

【0012】

＜第１実施形態＞
第１実施形態では、対話形式のシステムにおけるパラメータ調整の一例として、カードゲームのテストプレイの事例を説明する。具体的に、第１実施形態では、仮想環境上で機械学習を行うＡＩプログラムにカードゲームをテストプレイさせて、ＡＩプログラムのテストプレイの結果に基づき当該カードゲームのパラメータＰを調整する。これにより、ゲームバランスの良好なカードゲームのルールを作成することができる。

【0013】

このカードゲームではそれぞれが異なる複数のカードを使用するものとする。また、各カードには、例えばトランプのように、スートに相当するカードの種類と、当該種類でのカードの順番を規定する数値が割り当てられているものとする。

【0014】

（テスト支援装置のハードウェア構成）
図１は、第１実施形態におけるテスト支援装置のハードウェア構成例を示すブロック図である。

【0015】

テスト支援装置１０は、ＣＰＵ（Central Processing Unit）１１と、ＲＯＭ（Read Only Memory）１２と、ＲＡＭ（Random Access Memory）１３と、記憶装置１４と、入力Ｉ／Ｆ１５および表示Ｉ／Ｆ１６を備えるコンピュータである。テスト支援装置１０の各要素は、バス１７を介して互いに接続されている。

【0016】

ＣＰＵ１１は、ＲＯＭ１２またはＲＡＭ１３に格納されたプログラムに従って、各種の演算処理を行うプロセッサである。ＲＯＭ１２は、不揮発性の記憶領域であって、例えばＢＩＯＳなどのプログラムが格納される。ＲＡＭ１３は、揮発性の記憶領域であって、ＣＰＵ１１が各種の演算処理を行う際の一時記憶領域として使用される。

【0017】

記憶装置１４は、不揮発性の大容量記憶媒体であって、例えば、ハードディスク（ＨＤＤ）やソリッドステートドライブ（ＳＳＤ）などが挙げられる。記憶装置１４は、オペレーティングシステム（ＯＳ）、テスト支援装置の各種機能を実現するプログラム、および当該プログラムで使用されるデータなどを記憶する。

【0018】

入力Ｉ／Ｆ１５は、外付けの入力装置１８と接続され、入力装置１８からの入力を受け付けるインターフェースである。入力装置１８としては、例えば、キーボードやポインティングデバイスなどが挙げられる。

【0019】

表示Ｉ／Ｆ１６は、外付けの表示装置１９と接続され、表示装置１９への出力を担うインターフェースである。表示装置１９としては、例えば、液晶ディスプレイなどのモニタ装置が挙げられる。

【0020】

テスト支援装置１０においては、起動後にＣＰＵ１１によりＢＩＯＳが実行され、記憶装置１４からＲＡＭ１３にＯＳが実行可能にロードされる。ＣＰＵ１１は、ＯＳの動作に従って、テスト支援装置１０のソフトウェアモジュールを記憶装置１４からＲＡＭ１３に随時実行可能にロードする。そして、ロードされたソフトウェアモジュールは、ＣＰＵ１１がプログラムを実行することで動作する。

【0021】

（テスト支援装置のソフトウェア構成）
図２は、第１実施形態におけるテスト支援装置のソフトウェア構成例を示すブロック図である。

【0022】

テスト支援装置１０は、ソフトウェアモジュールとして、シミュレーション部２１と、学習部２２と、入力処理部２３と、学習記録部２４と、履歴記録部２５と、第１演算部２６と、第２演算部２７と、出力処理部２８とを備える。

【0023】

シミュレーション部２１は、テスト対象となる対話形式のシステムを仮想環境上で模擬したシミュレータである。シミュレーション部２１は、例えば、学習部２２からの入力に対し、仮想環境上で模擬されるシステムの出力を返す。例えば、第１実施形態では、シミュレーション部２１はカードゲームを実行するゲームプログラムで構成される。
なお、シミュレーション部２１は、テスト対象のシステムにつき指定を受けたパラメータＰの設定値を変更することが可能である。

【0024】

学習部２２は、テスト対象のシステムのＡＩプレイヤーとして機能する機械学習のソフトウェアモジュールである。第１実施形態での学習部２２は、強化学習のエージェントとして、行動価値関数にしたがってテスト対象のシステム上での行動の選択を行う。ここで、エージェントが行動すると環境の状態が変化し、報酬が得られる。この報酬の総和を最大化する方策を学習していくことで学習部２２の強化学習が行われる。なお、強化学習で適用されるアルゴリズムは、例えば、モンテカルロ法、ＳＡＲＳＡ、Ｑ学習などのいずれでもよい。
また、学習部２２は、シミュレーション部２１で適用されているパラメータの設定値をシミュレーション部２１から取得する機能を有する。

【0025】

図２の例では、簡単のため、１つの学習部２２を有する構成を示している。しかし、テスト支援装置１０は、二以上の独立した複数の学習部２２を有していてもよい。

【0026】

入力処理部２３は、調整すべきパラメータの指定を、入力装置１８を介してユーザから受け付ける。また、入力処理部２３は、ユーザが対話形式のシステムの一方のプレイヤーとなる場合に、入力装置１８からのユーザの操作情報をシミュレーション部２１に出力する。

【0027】

学習記録部２４は、学習部２２の強化学習の進行を示す学習曲線の情報を記憶装置１４に記録する。学習曲線は、テストの回数とテスト結果の対応関係を示す。例えば、第１実施形態の学習記録部２４は、学習曲線の情報として、ゲームのテストプレイ回数と学習部２２の勝率の推移を示す情報を記録する。

【0028】

履歴記録部２５は、学習部２２によるテスト時の行動履歴の情報を記憶装置１４に記録する。履歴記録部２５は、毎回のゲームプレイにおいて学習部２２が選択した行動の履歴を時系列で記録し、テストプレイ回数を重ねるごとに当該履歴の情報を記憶装置１４に蓄積してゆく。

【0029】

第１演算部２６は、学習部２２の強化学習の速度に応じて第１の評価値Ｖ１を求める。例えば、第１実施形態での第１演算部２６は、学習記録部２４の学習曲線を用いて、ゲームの難易度を評価する指標として強化学習の速さから第１の評価値Ｖ１を算出する。

【0030】

第２演算部２７は、学習部２２が選択した行動の多様さに応じて第２の評価値Ｖ２を求める。例えば、第１実施形態での第２演算部２７は、履歴記録部２５の行動履歴から場面ごとの方策を抽出し、当該方策に基づいてゲーム中の戦略の複雑さを評価する指標として第２の評価値Ｖ２を算出する。

【0031】

出力処理部２８は、パラメータＰの設定値に対応する第１の評価値Ｖ１および第２の評価値Ｖ２を表示装置１９に表示させる制御を行う。出力処理部２８は、第１の評価値Ｖ１に対応付けて学習記録部２４の学習曲線（図４参照）を表示してもよい。また、出力処理部２８は、第２の評価値Ｖ２に対応付けて行動履歴の詳細や行動の状態遷移図（不図示）などを表示してもよい。

【0032】

（テスト支援装置の動作例）
図３は、テスト支援装置の動作例を示す流れ図である。図３の処理は、入力装置１８からのユーザの開始指示に応じて開始される。

【0033】

Ｓ１にて、入力処理部２３は、システム（カードゲーム）において調整すべきパラメータＰの指定を受け付ける。調整すべきパラメータＰの種類と調整範囲は、ユーザによって決定される。第１実施形態のＳ１では、例えば、カードゲームのカードの種類、カードの数値範囲などのうちから、調整すべきパラメータＰが指定される。なお、調整すべきパラメータＰは、１種類でもよく、複数種類の組み合わせであってもよい。

【0034】

Ｓ２にて、シミュレーション部２１は、指定されたパラメータＰの設定値としてテストに適用する初期値を決定する。

【0035】

Ｓ３にて、学習部２２は、パラメータＰの設定値をシミュレーション部２１から取得する。これにより、学習部２２においてパラメータＰが既知の状態となり、学習部２２は、シミュレーション部２１の現在の設定に応じた行動の選択が可能となる。

【0036】

Ｓ４にて、学習部２２は、プレイヤーとしてシミュレーション部２１を介してゲームをテストプレイし、強化学習を行う。例えば、強化学習の際のゲームのテストプレイでは、人と学習部２２の対戦や、異なる複数の学習部２２同士での対戦や、学習部２２と学習機能のないプレイヤープログラムの対戦など、様々な態様をとることができる。また、１回のテストプレイで対戦するプレイヤーの数は適宜変更することが可能である。

【0037】

このとき、履歴記録部２５は、学習部２２によるテスト時の行動履歴を記録する。また、学習記録部２４は、ゲームのテストプレイ回数に対応付けて学習部２２の勝率を記録する。これにより、ゲームのテストプレイ回数と学習部２２の勝率の推移を示す学習曲線を算出することができる。

【0038】

Ｓ５にて、第１演算部２６は、学習記録部２４の学習曲線を用いて、学習部２２の強化学習の速度（所定の勝率に達するプレイ回数の少なさ）に応じて第１の評価値Ｖ１を求める。例えば、所定の勝率に達するプレイ回数が少ないと第１の評価値Ｖ１は低い値を示し、所定の勝率に達するプレイ回数が多いと第１の評価値Ｖ１は高い値を示すものとする。

【0039】

ここで、図４に学習部２２の学習曲線の一例を示す。図４の横軸はゲームのテストプレイ回数ｐｎであり、図４の縦軸はゲームの勝率ｗｐである。また、図４の曲線Ｃ１はゲームの難易度が低いときの学習曲線の例を示し、図４の曲線Ｃ２はゲームの難易度がＣ１の場合よりも高いときの学習曲線の例を示す。

【0040】

学習部２２が強化学習を行うケースでは、テストプレイ回数ｐｎの増加に伴って学習部２２の学習が進行する。一般にテストプレイ回数ｐｎが増加するほど学習部２２の勝率ｗｐは向上する傾向を示す。

【0041】

また、ゲームの難易度が低い場合には学習部２２の学習が容易であるが、ゲームの難易度が高い場合には学習部２２の学習が困難となる。つまり、ゲームの難易度が低い場合の曲線Ｃ１は、所定の閾値Ｔｈの勝率ｗｐに相対的に少ないテストプレイ回数で達する。一方で、ゲームの難易度が高い場合の曲線Ｃ２は、曲線Ｃ１と比べると、閾値Ｔｈの勝率に達するテストプレイ回数が多くなる。

【0042】

このように、学習部２２の強化学習の速度（所定の勝率に達するテストプレイ回数）は、ゲームの難易度と高い相関を有している。そのため、第１の評価値Ｖ１はゲームの難易度の評価の指標として用いることが可能であることが分かる。例えば、第１の評価値Ｖ１が低い場合にはゲームの難易度が低く単調で飽きやすいと評価でき、第１の評価値Ｖ１が高い場合にはゲームの難易度が高く複雑で飽きにくいと評価できる。なお、第１の評価値Ｖ１が極端に高い場合には、ゲームが複雑すぎてとっつきにくいと評価される可能性もある。

【0043】

Ｓ６にて、第２演算部２７は、履歴記録部２５の行動履歴を用いて、学習部２２が選択した行動の多様さに応じて第２の評価値Ｖ２を求める。例えば、学習部２２が選択した行動が多様であるほど、第２の評価値Ｖ２は高い値を示すものとする。

【0044】

図５は、第２演算部２７の処理の概要を示す図である。
第２演算部２７は、まず、履歴記録部２５が記録した複数の行動履歴２５ａを参照する。第２演算部２７は、複数の行動履歴２５ａから、各々の場面Ｓ_ｘが適切なサイズとなるように状態空間を設定した上で、強化学習がある程度進行した状態における場面Ｓ_ｘごとの方策πを抽出する。場面Ｓ_ｘでの方策πは、以下の式（１）で表現される。
π（Ｓ_ｘ，ａ_ｙ）＝ｚ …（１）

【0045】

式（１）において、「ａ_ｙ」は場面Ｓ_ｘでエージェントが選択しうる行動の１つを示し、「ｚ」は場面Ｓ_ｘでエージェントが行動ａ_ｙを選択する確率を示す。

【0046】

そして、第２演算部２７は、場面Ｓ_ｘの総数と、各々の場面Ｓ_ｘの方策πに含まれる行動の確率分布との２つの特徴に基づいて、第２の評価値Ｖ２を算出する。

【0047】

ここで、場面Ｓ_ｘの数が増えるほどプレイ中に発生する局面は多様となり、ゲームが複雑になる傾向がある。そのため、第２演算部２７は、場面Ｓ_ｘの総数の多さに応じて第２の評価値Ｖ２の値を高くする。

【0048】

また、強化学習がある程度進行した状態において場面Ｓ_ｘで選択されうる行動ａが多様であれば、場面Ｓ_ｘでの行動が定石化されにくく、つまりゲーム中の行動が複雑なものとなる。そのため、第２演算部２７は、方策πに含まれる各行動に対する確率分布に基づいて第２の評価値Ｖ２を調整する。例えば、第２演算部２７は、方策πで複数の行動の確率がそれぞれ所定値以上となるケースでは、方策πで１つの行動のみ確率が高いケースよりも第２の評価値Ｖ２が高くする。なお、方策πでの行動ａの多様さは、例えばπ行列の値の分布や、スペクトル分解等による圧縮情報量を用いて求めてもよい。

【0049】

以上のようにして取得された第２の評価値Ｖ２は、展開の複雑さに起因するゲームの面白さ（あるいはゲームの戦略性の高さ）の指標として用いることが可能である。

【0050】

Ｓ７にて、テスト支援装置１０は、現在の設定値でのテスト終了条件を満たすかを判断する。例えば、テスト支援装置１０は、学習部２２の強化学習の状態が所定の収束条件を満たした場合や、学習部２２のプレイ回数が一定以上となった場合に、現在の設定値でのテスト終了条件を満たすと判断する。
テスト終了条件を満たす場合（Ｓ７のＹｅｓ）、処理はＳ８に移行する。一方、テスト終了条件を満たさない場合（Ｓ７のＮｏ）、Ｓ４に戻って上記の処理が繰り返される。

【0051】

Ｓ８にて、テスト支援装置１０は、指定されたパラメータＰの全テスト範囲でテストが実行済かを判断する。全テスト範囲でテストが実行済の場合（Ｓ８のＹｅｓ）、Ｓ１０に処理が移行する。一方、全テスト範囲でテストが実行済ではない場合（Ｓ８のＮｏ）、Ｓ９に処理が移行する。

【0052】

Ｓ９にて、シミュレーション部２１は、パラメータＰの設定値を次の値に更新する。その後、Ｓ４に戻って上記の処理が繰り返される。これにより、パラメータＰの全テスト範囲で学習部２２の強化学習が順次行われ、パラメータＰの全範囲の設定値について、それぞれ第１の評価値Ｖ１および第２の評価値Ｖ２が取得される。

【0053】

Ｓ１０にて、出力処理部２８は、パラメータＰのテスト結果を表示装置１９に表示する。Ｓ１０のテスト結果の表示では、例えば、パラメータＰの全テスト範囲の設定値につき、第１の評価値Ｖ１および第２の評価値Ｖ２がそれぞれ対応付けされて表示される。これにより、ユーザは、第１の評価値Ｖ１および第２の評価値Ｖ２の値を参考にして、パラメータＰの最適な値を選択することが可能となる。また、ユーザは、Ｓ１０のテスト結果の表示により、パラメータ空間におけるパラメータＰの全体的な傾向を定性的に把握することも可能である。
その後、図３の処理が終了する。

【0054】

以上のように、第１実施形態においては、学習部２２は、パラメータＰの設定値に基づきシミュレーション部２１で模擬されるシステムをテストし、当該テストの結果を用いて強化学習を行う（Ｓ４）。第１演算部２６は、学習部２２の強化学習の速度に応じて第１の評価値Ｖ１を求める（Ｓ５）。第２演算部２７は、学習部２２がテスト時に選択した行動の多様さに応じて第２の評価値Ｖ２を求める（Ｓ６）。そして、出力処理部２８は、パラメータＰの設定値に対応する第１の評価値Ｖ１および第２の評価値Ｖ２を表示装置１９に表示させる（Ｓ１０）。

【0055】

第１実施形態では、シミュレーション部２１で学習部２２を用いてテスト対象のシステムをテストさせることで、実環境でテストするケースを大幅に削減することができる。また、シミュレーション部２１でのテストは学習部２２によって行われるため、人間によるテストプレイの手間を大幅に削減できる。

【0056】

また、第１実施形態では、学習部２２の強化学習により、パラメータＰの設定値に対応する第１の評価値Ｖ１および第２の評価値Ｖ２がユーザに提示される。上記の評価値Ｖ１、Ｖ２はパラメータＰの設定値に応じて変動する定量的な指標であるので、評価値Ｖ１、Ｖ２を用いることでシステムのパラメータ設定の良し悪しをユーザは客観的に評価することが容易となる。

【0057】

したがって、第１実施形態のテスト支援装置１０によれば、感性的な要素を考慮したシステムの最適化において、テストプレイやテスト結果の評価の際の人間の作業負荷をそれぞれ低減できる。

【0058】

＜第２実施形態＞
第２実施形態は、第１実施形態の変形例であって、機械装置のヒューマンマシンインターフェース（ＨＭＩ）に関するパラメータ調整の事例について説明する。第２実施形態におけるテスト支援装置１０のハードウェア構成およびソフトウェア構成や、動作例はいずれも第１実施形態と同様である。そのため、第２実施形態の説明では第１実施形態との相違点を説明し、重複説明はいずれも省略する。

【0059】

第２実施形態では、一例として、自動車の運転用ＨＭＩを設計するときの前段階において、任意のパラメータＰの見積を仮想環境上のテストで得る場合を想定する。

【0060】

第２実施形態でのシミュレーション部２１は、運転用ＨＭＩを介した自動車の挙動を仮想環境上で模擬した自動車シミュレータとして構成される。運転用ＨＭＩの要素には、例えば、自動車のハンドル、ブレーキ、アクセル、シフトレバーなどが含まれる。そして、シミュレーション部２１は、自動車のハンドル、ブレーキ、アクセル、シフトレバーなどに関するパラメータＰ（例えば、ハンドル、ブレーキ、アクセルの応答性や、ギアの段数など）の設定値を変更することが可能である。

【0061】

第２実施形態での学習部２２は、シミュレーション部２１の自動車シミュレータのドライバーとして機能し、運転結果に基づき強化学習を行う。なお、第２実施形態での学習記録部２４は、学習曲線の情報として、例えば、学習部２２の運転回数と、運転の的確さを評価するスコアの推移を示す情報などを記録する。

【0062】

第２実施形態での第１演算部２６の動作は第１実施形態と同様であるが、図３のＳ５で取得される第１の評価値Ｖ１の意味は以下のように相違する。機械装置のＨＭＩの場合、強化学習が容易であるほど操作がシンプルで使いやすくＨＭＩが良好とみなすことができる。したがって、第２実施形態では、学習部２２の強化学習の速度が速い場合（第１の評価値Ｖ１が低い場合）は、強化学習の速度が遅い場合（第１の評価値Ｖ１が高い場合）よりも現在の設定が良好であると評価すればよい。

【0063】

同様に、第２実施形態での第２演算部２７の動作は第１実施形態と同様であるが、図３のＳ６で取得される第２の評価値Ｖ２の意味は以下のように相違する。機械装置のＨＭＩの場合、場面Ｓ_ｘの総数が増えたり、個々の場面で選択すべき行動の種類が多いほど複雑な操作や状況判断を行う必要が生じ、ＨＭＩの操作の難易度が上昇する。したがって、第２実施形態では、学習部２２が選択した行動が多様であって第２の評価値Ｖ２が高くなる場合を、第２の評価値Ｖ２が低くなる場合と比べて低く評価すればよい。

【0064】

第２実施形態においても、図３のＳ１０の表示では、第１実施形態と同様の表示が行われる。これにより、第２実施形態のような機械装置のＨＭＩのパラメータ調整においても、第１実施形態と同様の効果を得ることができる。

【0065】

＜実施形態の変形例＞
上記実施形態の１以上の機能を実現するプログラムは、ネットワークを介して装置に供給されてもよい。また、上記実施形態の構成は、１以上の機能を実現するハードウェア回路（例えば、ＡＳＩＣ）を用いて実現されてもよい。

【0066】

また、テスト支援装置１０でパラメータ調整のテストを行うケースは、上記実施形態のケースに限定されるものではない。例えば、自動車以外の機械装置のＨＭＩを対象としてテスト支援装置１０でテストを行ってもよい。また、例えば、ゲームの追加コンテンツのパラメータＰをテスト対象とし、追加コンテンツを導入した状態でのゲームバランスをテスト支援装置１０で調整することも可能である。

【0067】

上記実施形態では、シミュレーション部２１でプレイを行うＡＩプレイヤーが強化学習を行う構成を説明した。しかし、テスト対象の構成やパラメータＰの範囲などの問題状況によっては、ＡＩプレイヤーとしてルールベースエージェントを使用してもよい。ルールベースエージェントを使用する場合、学習の時間を大幅に削減することが可能となる。

【0068】

上記実施形態では、パラメータＰの全テスト範囲で学習部２２の強化学習が行われる例を説明した。しかし、テスト支援装置１０は、第１の評価値Ｖ１及び第２の評価値Ｖ２が所望の状態となるパラメータＰを探索し、条件を満たすパラメータＰの探索が終了した時点でテストを終了させてもよい。

【0069】

以上、本発明の好ましい実施形態について説明したが、本発明は、これらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。

【符号の説明】

【0070】

１０・・・テスト支援装置、１１・・・ＣＰＵ、１４・・・記憶装置、１９・・・表示装置、２１・・・シミュレーション部、２２・・・学習部、２６・・・第１演算部、２７・・・第２演算部、２８・・・出力処理部

【図1】