特開2022-165271 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日新電機株式会社の特許一覧 ▶ 国立大学法人京都工芸繊維大学の特許一覧

特開2022-165271モデル生成装置、図面検索装置、モデル生成方法、および図面検索方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022165271

(43)【公開日】2022-10-31

(54)【発明の名称】モデル生成装置、図面検索装置、モデル生成方法、および図面検索方法

(51)【国際特許分類】

G06N 20/00 20190101AFI20221024BHJP

G06F 30/10 20200101ALI20221024BHJP

G06F 16/53 20190101ALI20221024BHJP

G06Q 50/08 20120101ALI20221024BHJP

【ＦＩ】

G06N20/00

G06F30/10 200

G06F16/53

G06Q50/08

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2021070564

(22)【出願日】2021-04-19

(71)【出願人】

【識別番号】000003942

【氏名又は名称】日新電機株式会社

(71)【出願人】

【識別番号】504255685

【氏名又は名称】国立大学法人京都工芸繊維大学

(74)【代理人】

【識別番号】110000338

【氏名又は名称】特許業務法人ＨＡＲＡＫＥＮＺＯＷＯＲＬＤＰＡＴＥＮＴ＆ＴＲＡＤＥＭＡＲＫ

(72)【発明者】

【氏名】森本充

(72)【発明者】

【氏名】竹原輝巳

(72)【発明者】

【氏名】寶珍輝尚

【テーマコード（参考）】

5B146

5B175

5L049

【Ｆターム（参考）】

5B146AA02

5B146DC03

5B146DL04

5B175DA02

5L049CC07

(57)【要約】

【課題】図面検索におけるユーザの利便性を従来よりも高める。
【解決手段】学習装置（１１）において、学習用前処理部（１１４）は、所定の複数種類の前処理手法の組み合わせに従って、検索対象図面内容パラメータセットに含まれる複数の検索対象図面内容パラメータのそれぞれを前処理することにより、複数の前処理後検索対象図面内容パラメータセットを生成する。学習モデル生成部（１１３）は、所定の複数種類の機械学習アルゴリズムのそれぞれを適用することにより、複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて、複数の学習モデルを生成する。学習モデル生成部（１１３）は、（ｉ）複数の学習モデルのそれぞれの品質を示す複数の指標値に基づき、複数の学習モデルの内からベスト学習モデルを選択するとともに、（ｉｉ）ベスト学習モデルに対応する前処理手法をベスト前処理手法として選択する。
【選択図】図９

【特許請求の範囲】

【請求項1】

複数の検索対象図面からターゲット図面に対応する少なくとも１つの図面を検索するための学習モデルを生成するモデル生成装置であって、
上記複数の検索対象図面を解析することにより、上記複数の検索対象図面のそれぞれの記載内容に関連した複数の検索対象図面内容パラメータを含む検索対象図面内容パラメータセットを取得する検索対象図面内容パラメータ取得部と、
所定の複数種類の前処理手法の組み合わせに従って、上記検索対象図面内容パラメータセットに含まれる上記複数の検索対象図面内容パラメータのそれぞれを前処理することにより、複数の前処理後検索対象図面内容パラメータセットを生成する学習用前処理部と、
所定の複数種類の機械学習アルゴリズムのそれぞれを適用することにより、上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて、複数の学習モデルを生成する学習部と、を備えており、
上記学習部は、
上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて上記複数の学習モデルのそれぞれを検証することにより取得された、上記複数の学習モデルのそれぞれの品質を示す複数の指標値に基づき、上記複数の学習モデルの内からベスト学習モデルを選択し、
上記ベスト学習モデルに対応する前処理手法を、ベスト前処理手法として選択する、モデル生成装置。

【請求項2】

上記学習部は、上記複数の学習モデルの内、最も高い指標値を有する学習モデルを、上記ベスト学習モデルとして選択する、請求項１に記載のモデル生成装置。

【請求項3】

上記複数種類の前処理手法は、恒等処理とラベルエンコーディングとワンホットエンコーディングと正規化と標準化とを含んでいる、請求項１または２に記載のモデル生成装置。

【請求項4】

上記複数種類の機械学習アルゴリズムは、勾配ベースの機械学習アルゴリズムと距離ベースの機械学習アルゴリズムとを含んでいる、請求項１から３のいずれか１項に記載のモデル生成装置。

【請求項5】

上記勾配ベースの機械学習アルゴリズムは、決定木とロジスティック回帰とニューラルネットワークとを含んでおり、
上記距離ベースの機械学習アルゴリズムは、サポートベクターマシンを含んでいる、請求項４に記載のモデル生成装置。

【請求項6】

上記複数の前処理後検索対象図面内容パラメータセットの内の任意の１つを、注目データセットと称し、
上記学習部は、上記注目データセットの次元数が所定の次元数閾値以上である場合には、上記勾配ベースの機械学習アルゴリズムのみを適用して、上記注目データセットに対応する学習モデルを生成する、請求項４または５に記載のモデル生成装置。

【請求項7】

上記次元数閾値は、３０以上の所定の値として設定されている、請求項６に記載のモデル生成装置。

【請求項8】

複数の検索対象図面からターゲット図面に対応する少なくとも１つの図面を検索する図面検索装置であって、
上記複数の検索対象図面を解析することにより、上記複数の検索対象図面のそれぞれの記載内容に関連した複数の検索対象図面内容パラメータを含む検索対象図面内容パラメータセットが予め取得されており、
所定の複数種類の前処理手法の組み合わせに従って、上記検索対象図面内容パラメータセットに含まれる上記複数の検索対象図面内容パラメータのそれぞれを前処理することにより、複数の前処理後検索対象図面内容パラメータセットが予め生成されており、
所定の複数種類の機械学習アルゴリズムのそれぞれを適用することにより、上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて、複数の学習モデルが予め生成されており、
上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて上記複数の学習モデルのそれぞれを検証することにより取得された、上記複数の学習モデルのそれぞれの品質を示す複数の指標値に基づき、上記複数の学習モデルの内からベスト学習モデルが予め選択されており、
上記ベスト学習モデルに対応する前処理手法が、ベスト前処理手法として予め選択されており、
上記図面検索装置は、
上記ターゲット図面を解析することにより、上記ターゲット図面の記載内容に関連した複数のターゲット図面内容パラメータを含むターゲット図面内容パラメータセットを取得するターゲット図面内容パラメータ取得部と、
上記ベスト前処理手法に従って、上記ターゲット図面内容パラメータセットに含まれる上記複数のターゲット図面内容パラメータのそれぞれを前処理することにより、前処理後ターゲット図面内容パラメータセットを生成する検索用前処理部と、
（ｉ）上記前処理後ターゲット図面内容パラメータセットを上記ベスト学習モデルに入力し、かつ、（ｉｉ）上記前処理後ターゲット図面内容パラメータセットに応じた上記ベスト学習モデルの出力に基づき、上記少なくとも１つの図面を検索する検索部と、を備えている、図面検索装置。

【請求項9】

複数の検索対象図面からターゲット図面に対応する少なくとも１つの図面を検索するための学習モデルを生成するモデル生成方法であって、
上記複数の検索対象図面を解析することにより、上記複数の検索対象図面のそれぞれの記載内容に関連した複数の検索対象図面内容パラメータを含む検索対象図面内容パラメータセットを取得する検索対象図面内容パラメータ取得工程と、
所定の複数種類の前処理手法の組み合わせに従って、上記検索対象図面内容パラメータセットに含まれる上記複数の検索対象図面内容パラメータのそれぞれを前処理することにより、複数の前処理後検索対象図面内容パラメータセットを生成する学習用前処理工程と、
所定の複数種類の機械学習アルゴリズムのそれぞれを適用することにより、上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて、複数の学習モデルを生成する学習工程と、を含んでおり、
上記学習工程は、
上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて上記複数の学習モデルのそれぞれを検証することにより取得された、上記複数の学習モデルのそれぞれの品質を示す複数の指標値に基づき、上記複数の学習モデルの内からベスト学習モデルを選択する工程と、
上記ベスト学習モデルに対応する前処理手法を、ベスト前処理手法として選択する工程と、をさらに含んでいる、モデル生成方法。

【請求項10】

複数の検索対象図面からターゲット図面に対応する少なくとも１つの図面を検索する図面検索方法であって、
上記複数の検索対象図面を解析することにより、上記複数の検索対象図面のそれぞれの記載内容に関連した複数の検索対象図面内容パラメータを含む検索対象図面内容パラメータセットが予め取得されており、
所定の複数種類の前処理手法の組み合わせに従って、上記検索対象図面内容パラメータセットに含まれる上記複数の検索対象図面内容パラメータのそれぞれを前処理することにより、複数の前処理後検索対象図面内容パラメータセットが予め生成されており、
所定の複数種類の機械学習アルゴリズムのそれぞれを適用することにより、上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて、複数の学習モデルが予め生成されており、
上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて上記複数の学習モデルのそれぞれを検証することにより取得された、上記複数の学習モデルのそれぞれの品質を示す複数の指標値に基づき、上記複数の学習モデルの内からベスト学習モデルが予め選択されており、
上記ベスト学習モデルに対応する前処理手法が、ベスト前処理手法として予め選択されており、
上記図面検索方法は、
上記ターゲット図面を解析することにより、上記ターゲット図面の記載内容に関連した複数のターゲット図面内容パラメータを含むターゲット図面内容パラメータセットを取得するターゲット図面内容パラメータ取得工程と、
上記ベスト前処理手法に従って、上記ターゲット図面内容パラメータセットに含まれる上記複数のターゲット図面内容パラメータのそれぞれを前処理することにより、前処理後ターゲット図面内容パラメータセットを生成する検索用前処理工程と、
（ｉ）上記前処理後ターゲット図面内容パラメータセットを上記ベスト学習モデルに入力し、かつ、（ｉｉ）上記前処理後ターゲット図面内容パラメータセットに応じた上記ベスト学習モデルの出力に基づき、上記少なくとも１つの図面を検索する検索工程と、を含んでいる、図面検索方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の一態様は、モデル生成装置に関する。

【背景技術】

【0002】

例えば、プラントエンジニアリング分野では、大量の図面（例：過去図面）の取り扱いが必要となる。このため、大量の図面から、所望の図面を効率的に検索するための技術が要求されている。

【0003】

一例として、特許文献１には、図面検索システム（図面管理システム）のユーザインターフェースに関する技術が開示されている。特許文献１の図面検索システムは、ユーザによる機器名および図面の種別名のそれぞれの選択操作を受け付け、当該選択操作に応じた図面群を検索する。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２００３－９９４８４号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

特許文献１の図面検索システムによれば、ユーザに検索ワードの入力を行わせることなく、上記選択操作に応じた検索結果（図面群）を提示できる。しかしながら、後述するように、特許文献１の図面検索システムでは、ターゲット図面に対応する所望の図面（例：ターゲット図面との関連性が高いと考えられる特定の図面）を、検索結果から迅速に発見することは、ユーザにとって必ずしも容易ではない。

【0006】

このように、従来の図面検索技術では、ユーザの利便性を高めるための工夫について、なお改善の余地がある。本発明の一態様は、図面検索におけるユーザの利便性を従来よりも高めることを目的とする。

【課題を解決するための手段】

【0007】

上記の課題を解決するために、本発明の一態様に係るモデル生成装置は、複数の検索対象図面からターゲット図面に対応する少なくとも１つの図面を検索するための学習モデルを生成するモデル生成装置であって、上記複数の検索対象図面を解析することにより、上記複数の検索対象図面のそれぞれの記載内容に関連した複数の検索対象図面内容パラメータを含む検索対象図面内容パラメータセットを取得する検索対象図面内容パラメータ取得部と、所定の複数種類の前処理手法の組み合わせに従って、上記検索対象図面内容パラメータセットに含まれる上記複数の検索対象図面内容パラメータのそれぞれを前処理することにより、複数の前処理後検索対象図面内容パラメータセットを生成する学習用前処理部と、所定の複数種類の機械学習アルゴリズムのそれぞれを適用することにより、上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて、複数の学習モデルを生成する学習部と、を備えており、上記学習部は、上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて上記複数の学習モデルのそれぞれを検証することにより取得された、上記複数の学習モデルのそれぞれの品質を示す複数の指標値に基づき、上記複数の学習モデルの内からベスト学習モデルを選択し、上記ベスト学習モデルに対応する前処理手法を、ベスト前処理手法として選択する。

【0008】

また、本発明の一態様に係る図面検索装置は、複数の検索対象図面からターゲット図面に対応する少なくとも１つの図面を検索する図面検索装置であって、上記複数の検索対象図面を解析することにより、上記複数の検索対象図面のそれぞれの記載内容に関連した複数の検索対象図面内容パラメータを含む検索対象図面内容パラメータセットが予め取得されており、所定の複数種類の前処理手法の組み合わせに従って、上記検索対象図面内容パラメータセットに含まれる上記複数の検索対象図面内容パラメータのそれぞれを前処理することにより、複数の前処理後検索対象図面内容パラメータセットが予め生成されており、所定の複数種類の機械学習アルゴリズムのそれぞれを適用することにより、上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて、複数の学習モデルが予め生成されており、上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて上記複数の学習モデルのそれぞれを検証することにより取得された、上記複数の学習モデルのそれぞれの品質を示す複数の指標値に基づき、上記複数の学習モデルの内からベスト学習モデルが予め選択されており、上記ベスト学習モデルに対応する前処理手法が、ベスト前処理手法として予め選択されており、上記図面検索装置は、上記ターゲット図面を解析することにより、上記ターゲット図面の記載内容に関連した複数のターゲット図面内容パラメータを含むターゲット図面内容パラメータセットを取得するターゲット図面内容パラメータ取得部と、上記ベスト前処理手法に従って、上記ターゲット図面内容パラメータセットに含まれる上記複数のターゲット図面内容パラメータのそれぞれを前処理することにより、前処理後ターゲット図面内容パラメータセットを生成する検索用前処理部と、（ｉ）上記前処理後ターゲット図面内容パラメータセットを上記ベスト学習モデルに入力し、かつ、（ｉｉ）上記前処理後ターゲット図面内容パラメータセットに応じた上記ベスト学習モデルの出力に基づき、上記少なくとも１つの図面を検索する検索部と、を備えている。

【0009】

また、本発明の一態様に係るモデル生成方法は、複数の検索対象図面からターゲット図面に対応する少なくとも１つの図面を検索するための学習モデルを生成するモデル生成方法であって、上記複数の検索対象図面を解析することにより、上記複数の検索対象図面のそれぞれの記載内容に関連した複数の検索対象図面内容パラメータを含む検索対象図面内容パラメータセットを取得する検索対象図面内容パラメータ取得工程と、所定の複数種類の前処理手法の組み合わせに従って、上記検索対象図面内容パラメータセットに含まれる上記複数の検索対象図面内容パラメータのそれぞれを前処理することにより、複数の前処理後検索対象図面内容パラメータセットを生成する学習用前処理工程と、所定の複数種類の機械学習アルゴリズムのそれぞれを適用することにより、上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて、複数の学習モデルを生成する学習工程と、を含んでおり、上記学習工程は、上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて上記複数の学習モデルのそれぞれを検証することにより取得された、上記複数の学習モデルのそれぞれの品質を示す複数の指標値に基づき、上記複数の学習モデルの内からベスト学習モデルを選択する工程と、上記ベスト学習モデルに対応する前処理手法を、ベスト前処理手法として選択する工程と、をさらに含んでいる。

【0010】

また、本発明の一態様に係る図面検索方法は、複数の検索対象図面からターゲット図面に対応する少なくとも１つの図面を検索する図面検索方法であって、上記複数の検索対象図面を解析することにより、上記複数の検索対象図面のそれぞれの記載内容に関連した複数の検索対象図面内容パラメータを含む検索対象図面内容パラメータセットが予め取得されており、所定の複数種類の前処理手法の組み合わせに従って、上記検索対象図面内容パラメータセットに含まれる上記複数の検索対象図面内容パラメータのそれぞれを前処理することにより、複数の前処理後検索対象図面内容パラメータセットが予め生成されており、所定の複数種類の機械学習アルゴリズムのそれぞれを適用することにより、上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて、複数の学習モデルが予め生成されており、上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて上記複数の学習モデルのそれぞれを検証することにより取得された、上記複数の学習モデルのそれぞれの品質を示す複数の指標値に基づき、上記複数の学習モデルの内からベスト学習モデルが予め選択されており、上記ベスト学習モデルに対応する前処理手法が、ベスト前処理手法として予め選択されており、上記図面検索方法は、上記ターゲット図面を解析することにより、上記ターゲット図面の記載内容に関連した複数のターゲット図面内容パラメータを含むターゲット図面内容パラメータセットを取得するターゲット図面内容パラメータ取得工程と、上記ベスト前処理手法に従って、上記ターゲット図面内容パラメータセットに含まれる上記複数のターゲット図面内容パラメータのそれぞれを前処理することにより、前処理後ターゲット図面内容パラメータセットを生成する検索用前処理工程と、（ｉ）上記前処理後ターゲット図面内容パラメータセットを上記ベスト学習モデルに入力し、かつ、（ｉｉ）上記前処理後ターゲット図面内容パラメータセットに応じた上記ベスト学習モデルの出力に基づき、上記少なくとも１つの図面を検索する検索工程と、を含んでいる。

【発明の効果】

【0011】

本発明の一態様によれば、図面検索におけるユーザの利便性を従来よりも高めることができる。

【図面の簡単な説明】

【0012】

【図1】参考形態の情報処理システムの要部の構成を示すブロック図である。

【図2】参考形態における第１テーブルの一例を示す図である。

【図3】過去図面に対する特定文字列抽出処理の一例を示す図である。

【図4】参考形態における第２テーブルの一例を示す図である。

【図5】参考形態における第３テーブルの一例を示す図である。

【図6】新規図面に対する特定文字列抽出処理の一例を示す図である。

【図7】参考形態における関連性スコアの導出例について説明する図である。

【図8】参考形態における図面検索結果の一例を示す図である。

【図9】実施形態１における情報処理システムの要部の構成を示すブロック図である。

【図10】初期状態における内容パラメータ設定テーブルの一例を示す図である。

【図11】各データセットにおける前処理後内容パラメータ数の一例を示す図である。

【図12】データセット１のデータ構造を模式的に例示する図である。

【図13】正規化用データ表および標準化用データ表の一例を示す図である。

【図14】データセット・前処理手法対応テーブルの一例を示す図である。

【図15】学習用前処理部によって生成されたデータセットの一部を例示する図である。

【図16】評価結果テーブルの一例を示す図である。

【図17】更新後の内容パラメータ設定テーブルの一例を示す図である。

【図18】前処理後新規図面内容パラメータテーブルの一例を示す図である。

【図19】複数の生値・ラベル値変換テーブルの内の一部を例示する図である。

【図20】生値・ラベル値変換統合テーブルの一例を表す。

【発明を実施するための形態】

【0013】

〔参考形態〕
実施形態１の情報処理システム１００の説明に先立ち、参考形態としての情報処理システム１００ｓについて述べる。説明の便宜上、参考形態にて説明した構成要素（コンポーネント）と同じ機能を有する構成要素については、以降の各実施形態では、同じ符号を付記し、その説明を繰り返さない。また、簡潔化のため、公知技術と同様の事項についても、説明を適宜省略する。

【0014】

本明細書において以下に述べる各数値は、単なる一例であることに留意されたい。本明細書では、２つの数ＡおよびＢについての「Ａ～Ｂ」という記載は、特に明示されない限り、「Ａ以上かつＢ以下」を意味するものとする。

【0015】

（情報処理システム１００ｓの概要）
図１は、情報処理システム１００ｓの要部の構成を示すブロック図である。情報処理システム１００ｓは、情報処理装置１ｓ、過去物件図面ＤＢ（Database）９１、および新規物件図面ＤＢ９２を備える。

【0016】

情報処理装置１ｓは、制御装置１０ｓ、入力部７１、表示部７２、および記憶部８０を備える。制御装置１０ｓは、学習装置１１ｓおよび図面検索装置１２ｓを備える。本明細書の「物件」とは、例えば、プラントエンジニアリングにおける「サイト」を意味する。

【0017】

情報処理装置１ｓは、過去物件図面ＤＢ９１および新規物件図面ＤＢ９２と通信可能に接続されていればよい。このため、図１の例とは異なり、情報処理装置１ｓの内部に、過去物件図面ＤＢ９１および新規物件図面ＤＢ９２の少なくとも一方が設けられていてもよい。

【0018】

情報処理装置１ｓ（より具体的には、制御装置１０ｓ）による検索対象となる図面（検索対象図面）には、例えば、仕様図面、設計図面、および製作図面が含まれる。また、検索対象図面には、仕様書、設計書、および、見積書が含まれていてもよい。このように、検索対象図面は、「図面」という名称が含まれている書面に限定されない。一例として、検索対象図面には、プラントエンジニアリング分野におけるプロジェクトの計画に関する任意の種類の書面が含まれる。

【0019】

制御装置１０ｓは、情報処理装置１ｓの各部を統括的に制御する。記憶部８０は、制御装置１０ｓの処理に用いられる各種のデータおよびプログラムを格納する。以下に述べるように、制御装置１０ｓは、機械学習を利用して、複数の検索対象図面（例：過去図面ａ１～ＭＮ）から、ターゲット図面（例：図面ＮＤ）に対応する少なくとも１つの図面を検索する。

【0020】

入力部７１は、ユーザの操作（ユーザ操作）を受け付ける。表示部７２は、各種のデータを表示する。一例として、表示部７２には、制御装置１０ｓによる検索結果を示すデータが表示されてよい。なお、入力部７１と表示部７２とは、一体として設けられてもよい。例えば、タッチパネルを用いることにより、入力部７１と表示部７２とを一体化できる。

【0021】

（過去物件図面ＤＢ９１）
過去物件図面ＤＢ９１には、過去の各物件（既設の各物件）に関する各図面（厳密には、図面データ）が格納されている。以下の説明では、「図面Ａ（ある図面）の図面データ」を、単に「図面Ａ」と適宜略称する。また、「図面Ａの図面番号」を、単に「図面Ａ」と適宜略称する。

【0022】

参考形態では、過去物件図面ＤＢ９１には、複数のＭ個の異なる物件のそれぞれについての各図面が格納されている。Ｍは、１以上の整数である。以下、ｊ番目の物件を、「物件ｊ」とも称する。ｊは、１以上かつＭ以下の整数である。

【0023】

また、過去物件図面ＤＢ９１には、物件１～Ｍのそれぞれについて、Ｎ個（Ｎ種類）の異なる図面が格納されている。Ｎは、１以上の整数である。以下、物件ｊにおけるｉ番目の図面を、「図面（ｉ，ｊ）」とも称する。また、各物件におけるｉ番目（ｉ種類目）の図面を、総称的に図面ｉとも称する。ｉは、１以上かつＮ以下の整数である。

【0024】

以上のように、過去物件図面ＤＢ９１には、合計でＴ個の図面が格納されている。参考形態の例では、Ｔ＝Ｍ×Ｎである。Ｔは、２以上の整数であるものとする。つまり、ＭおよびＮの少なくとも１つは、１以上であるものとする。

【0025】

具体的には、過去物件図面ＤＢ９１では、図２に示す第１テーブルＴＢ１の形態で、各種類の図面番号が物件番号毎にリスト化されている。以下、第１テーブルＴＢ１を、「ＴＢ１」とも略記する。その他の要素についても、適宜同様に略記する。ＴＢ１は、「物件別ソート済の過去物件・図面対応テーブル」とも称される。ＴＢ１のｉ行ｊ列目のセルは、図面（ｉ，ｊ）の図面番号を示す。

【0026】

図２の例では、便宜上、物件１～３をそれぞれ、物件Ａ～Ｃとも表記する。図２の例では、１種類目の図面（図面１）は外形図であり、２種類目の図面（図面２）は組立図であり、３種類目の図面（図面３）は基礎図である。また、Ｎ種類目の図面（図面Ｎ）は構成図である。

【0027】

以下では、簡単のため、図２の例における図面（１，１）～（Ｎ，１）（すなわち、物件ＡにおけるＮ種類のそれぞれの図面）を、図面ａ１～ａＮとも表記する。例えば、図２の例における図面ａ１～ａＮはそれぞれ、物件Ａの外形図～構成図を指す。その他の物件における各図面についても、同様に表記する。

【0028】

以上のように、過去物件図面ＤＢ９１には、図面ａ１から図面ＭＮまでの、合計Ｔ個の図面が格納されている。以下、図面ａ１～ＭＮを総称的に、過去図面とも称する。過去図面は、検索対象図面の一例である。このため、図面ａ１～ＭＮは、検索対象図面群とも称される。

【0029】

また、本明細書では、複数の過去図面（検索対象図面）のうちの任意の１つの図面を、候補図面とも称する。一例として、図面ａ１（物件Ａの外形図）を候補図面とした場合の、各処理について主に例示する。その他の図面に対する処理については、適宜説明を省略するが、図面ａ１の場合と同様である。

【0030】

（学習装置１１ｓ）
学習装置１１ｓは、過去図面データ取得部１１１、過去図面内容パラメータ取得部１１２（候補図面内容パラメータ取得部，検索対象図面内容パラメータ取得部）、および学習モデル生成部１１３ｓを備える。学習装置１１ｓは、図面ａ１～ＭＮに基づき、図面検索装置１２ｓによる図面検索のための学習モデルを生成する。このことから、学習装置１１ｓは、モデル生成装置と称されてもよい。以下、学習装置１１ｓの処理の流れの一例について述べる。

【0031】

（候補図面の取得）
過去物件図面ＤＢ９１では、ＴＢ１ｓに従って、図面ａ１～ＭＮが、図面種類別に予めソートされている。従って、例えば、過去図面データ取得部１１１は、「図面ａ１→ｂ１→…→Ｍ１」の順に、各外形図を過去物件図面ＤＢ９１から取得する。続いて、過去図面データ取得部１１１は、「図面ａ２→ｂ２→…→Ｍ２」の順に、各組立図を過去物件図面ＤＢ９１から取得する。そして、最終的には、過去図面データ取得部１１１は、「図面ａＮ→ｂＮ→…→ＭＮ」の順に、各構成図を過去物件図面ＤＢ９１から取得する。

【0032】

上記の例の場合、過去図面データ取得部１１１は、はじめにＴＢ１ｓの１行１列目のセルを参照する。そして、過去図面データ取得部１１１は、上記セルに対応する図面（１，１）、すなわち図面ａ１を、過去物件図面ＤＢ９１から取得する。過去図面データ取得部１１１は、取得した図面ａ１を、過去図面内容パラメータ取得部１１２に供給する。

【0033】

（候補図面に対応する内容パラメータセットの取得）
過去図面内容パラメータ取得部１１２は、図面ａ１を解析することにより、当該図面ａ１に対応する内容パラメータセットを取得する。一例として、過去図面内容パラメータ取得部１１２は、図面ａ１にＯＣＲ処理を施し、ＯＣＲ処理後データを生成する。ＯＣＲ処理後データでは、図面ａ１において画像データとして表現されていた各文字が、文字コードへと変換されている。

【0034】

そして、過去図面内容パラメータ取得部１１２は、ＯＣＲ処理後データから、各図面について予め設定された特定の文字列（ストリング）を抽出（検出）する。以下、当該特定の文字列を、特定文字列と称する。参考形態では、Ｌ個（Ｌは２以上の整数）の異なる第ｋ特定文字列が、予め設定されているものとする。

【0035】

以下では、ｋ番目の特定文字列を、第ｋ特定文字列と称する。ｋは、１以上かつＬ以下の整数である。以下の説明では、第１特定文字列が「電圧値」、第２特定文字列が「電流値」、第３特定文字列が「ＯＲ」、第Ｌ特定文字列が「開」として設定されている場合について、例示する。

【0036】

但し、特定文字列は、上記の例に限定されない。特定文字列は、例えばエンジニアリング分野の図面中において、製品の仕様情報（技術情報）を説明するために、一般的に用いられている単語であればよい。

【0037】

図３は、図面ａ１に対する特定文字列抽出処理の一例を示す図である。図３の例では、図面ａ１の領域Ｌ１に、「電圧値９０Ｖ」という文字列が記載されている。この場合、過去図面内容パラメータ取得部１１２は、ＯＣＲ処理後データから、Ｌ１の「電圧値９０Ｖ」という一連の文字列を抽出する。過去図面内容パラメータ取得部１１２は、抽出した当該一連の文字列から、第１特定文字列「電圧値」をさらに抽出する。

【0038】

続いて、過去図面内容パラメータ取得部１１２は、上記一連の文字列に対し、公知の構文解析技術を適用することにより、第１特定文字列「電圧値」に後続する文字列「９０Ｖ」は、「電圧値」の属性を示していると判定する。この場合、過去図面内容パラメータ取得部１１２は、「９０Ｖ」という文字列中に含まれる数字「９０」を、「電圧値」の大きさを示す値として取得する。このように、過去図面内容パラメータ取得部１１２は、構文解析により、『Ｌ１に記載されている一連の文字列は、「電圧値が９０Ｖである」という仕様情報を示している』旨を判定する。

【0039】

また、図面ａ１の領域Ｌ２には、「電流値１．０Ａ」という一連の文字列が記載されている。過去図面内容パラメータ取得部１１２は、Ｌ１の例と同様にして、上記一連の文字列から、第２特定文字列「電流値」を抽出する。そして、過去図面内容パラメータ取得部１１２は、第２特定文字列「電流値」に後続する文字列「１．０Ａ」は、「電流値」の属性を示していると判定する。そこで、過去図面内容パラメータ取得部１１２は、「１．０Ａ」という文字列中に含まれる数字「１．０」を、「電流値」の大きさを示す値として取得する。このように、過去図面内容パラメータ取得部１１２は、『Ｌ２に記載されている一連の文字列は、「電流値が２．０Ａである」という仕様情報を示している』旨を判定する。

【0040】

ところで、図面ａ１には、第３特定文字列「ＯＲ」が記載されているが、当該第３特定文字列「ＯＲ」には、何ら文字列が後続していない。この場合、過去図面内容パラメータ取得部１１２は、ＯＣＲ処理後データに含まれる第３特定文字列「ＯＲ」の登場回数を検出する。当該検出処理の結果、過去図面内容パラメータ取得部１１２は、図面ａ１に含まれている第３特定文字列「ＯＲ」の個数が、３つである旨を判定する（領域Ｌ３を参照）。

【0041】

同様に、図面ａ１には、第Ｌ特定文字列「開」が記載されているが、当該第Ｌ特定文字列「開」に、何ら文字が後続していない。そこで、過去図面内容パラメータ取得部１１２は、Ｌ３の例と同様に、図面ａ１に含まれている第Ｌ特定文字列「開」の個数が、１つである旨を判定する（領域Ｌ４を参照）。

【0042】

以上の通り、過去図面内容パラメータ取得部１１２は、ＯＣＲ処理後データに対する解析結果に基づき、図面ａ１に対応する内容パラメータセットを取得する。当該内容パラメータセットは、第ｋ特定文字列に対応付けられた第ｋ内容パラメータ（以下、Ａｋ）を示すデータセットである。また、第１～第Ｌ内容パラメータを総称的に、内容パラメータとも称する。

【0043】

内容パラメータは、図面の記載内容（具体的には、特定文字列に係る記載内容）を数値化（定量化）したデータの１つであると言える。このため、内容パラメータは、図面の記載内容を示す指標として用いられる。なお、後述するターゲット図面内容パラメータとの区別のため、検索対象図面（過去図面）の内容パラメータを、検索対象図面内容パラメータとも称する。また、検索対象図面の第ｋ内容パラメータを、検索対象図面第ｋ内容パラメータとも称する。

【0044】

以下では、図面（ｉ，ｊ）のＡｋを、Ａｋ（ｉ，ｊ）とも表記する。上述の通り、過去図面内容パラメータ取得部１１２は、図面（ｉ，ｊ）に対する解析結果（より具体的には、図面（ｉ，ｊ）における特定文字列の検出結果）に基づき、Ａｋ（ｉ，ｊ）を設定する。

【0045】

一例として、過去図面内容パラメータ取得部１１２は、図面ａ１について、Ａ１＝９０と設定する（後述の図４のハッチング箇所も参照）。すなわち、過去図面内容パラメータ取得部１１２は、図面ａ１に記載されている第１特定文字列「電圧値」の大きさを示す値「９０」を、第１内容パラメータとして設定する。

【0046】

同様に、過去図面内容パラメータ取得部１１２は、Ａ２＝１．０と設定する。すなわち、過去図面内容パラメータ取得部１１２は、図面ａ１に記載されている第２特定文字列「電流値」の大きさを示す値「１．０」を、第２内容パラメータとして設定する。

【0047】

これに対し、過去図面内容パラメータ取得部１１２は、Ａ３＝３と設定する。すなわち、過去図面内容パラメータ取得部１１２は、図面ａ１における第３特定文字列「ＯＲ」の記載回数（登場回数）を示す値「３」を、第３内容パラメータとして設定する。

【0048】

同様に、過去図面内容パラメータ取得部１１２は、ＡＬ＝１と設定する。すなわち、過去図面内容パラメータ取得部は、図面ａ１における第Ｌ特定文字列「開」の記載回数を示す値「１」を、第Ｌ内容パラメータとして設定する。

【0049】

以上のように、過去図面内容パラメータ取得部１１２は、図面ａ１について、Ａ１～ＡＬを設定する。以上のように、過去図面内容パラメータ取得部１１２は、候補図面を解析することにより、当該候補図面の内容パラメータを取得する。このことから、過去図面内容パラメータ取得部１１２は、候補図面内容パラメータ取得部とも呼称される。

【0050】

また、過去図面内容パラメータ取得部１１２は、その他の過去図面についても、同様の処理を行う。すなわち、過去図面内容パラメータ取得部１１２は、図面ａ１～ＭＮのそれぞれに対し、Ａ１～ＡＬを設定する。

【0051】

その後、過去図面内容パラメータ取得部１１２は、図面ａ１～ＭＮのそれぞれのＡ１～ＡＬ、すなわち、Ａ１（１，１）～ＡＬ（Ｍ，Ｎ）、を示す第２テーブルＴＢ２を生成する。以下に述べるように、ＴＢ２は、参考形態における教師データの一例である。すなわち、過去図面内容パラメータ取得部１１２は、教師データを生成する機能部（教師データ生成部）としても動作する。

【0052】

ＴＢ２には、第２テーブル内第ｉサブテーブルＴＢ２－ｉが含まれている。ＴＢ２－ｉは、図面ｉのそれぞれのＡ１～ＡＬを示すテーブルである。図４には、一例として、ＴＢ２－１が示されている。ＴＢ２－１には、図面ａ１～Ｍ１（物件Ａ～Ｍの外形図）のそれぞれのＡ１～ＡＬが示されている。ＴＢ２ｓは、ＴＢ２－１～ＴＢ２－Ｎという、Ｎ個のサブテーブルのセットによって構成されている。このように、参考形態では、図面種別ごとにサブテーブルが作成される。

【0053】

（参考形態における学習モデルの生成）
学習モデル生成部１１３ｓは、図面ａ１～Ｍ１に対応する内容パラメータセット（すなわち、図面ａ１～Ｍ１におけるＡ１～ＡＬ）に基づき、当該図面ａ１～Ｍ１に応じた学習モデルを生成する。学習モデルの生成には、公知の機械学習アルゴリズムが使用されてよい。一例として、参考形態では、学習モデル生成部１１３ｓは、多項ロジスティック回帰によって、学習モデルを生成する。

【0054】

上述の通り、ＴＢ２には、複数の過去図面のそれぞれ（例：図面ａ１）の番号（識別子の一例）と、当該複数の過去図面のそれぞれのＡ１～ＡＬとの対応関係が示されている。そこで、学習モデル生成部１１３ｓは、ＴＢ２を教師データとして取得する。そして、学習モデル生成部１１３ｓは、当該教師データを用いた多項ロジスティック回帰を行うことにより、参考形態における学習モデルを生成する。

【0055】

一例として、学習モデル生成部１１３ｓは、ＴＢ２－１の各Ａ１～ＡＬに基づき、図面ａ１における第ｋ特定文字列に対応付けられた第ｋ重み係数（以下、Ｂｋ）を算出する。第１～第Ｌ重み係数を総称的に、重み係数とも称する。また、図面（ｉ，ｊ）のＢｋを、Ｂｋ（ｉ，ｊ）とも表記する。Ｂｋ（ｉ，ｊ）は、Ａｋ（ｉ，ｊ）に対応する重み係数である。重み係数は、後述する関連性スコアの算出に用いられる。

【0056】

例えば、学習モデル生成部１１３ｓは、上述の多項ロジスティック回帰によって、図面ａ１におけるＢ１～ＢＬを算出する。参考形態では、図面ａ１について、Ｂ１＝－０．５、Ｂ２＝－１．２、Ｂ３＝０．６、…、ＢＬ＝０．７として、それぞれの重み係数が算出されている（後述の図５のハッチング箇所を参照）。

【0057】

学習モデル生成部１１３ｓは、その他の過去図面についても、同様の処理を行う。すなわち、学習モデル生成部１１３ｓは、図面ａ１～ＭＮのそれぞれに対し、Ｂ１～ＢＬを設定する。このように、学習モデル生成部１１３ｓは、図面ａ１～ＭＮのそれぞれのＢ１～ＢＬ、すなわち、Ｂ１（１，１）～ＢＬ（Ｍ，Ｎ）、を含む学習モデルを生成する。

【0058】

そして、学習モデル生成部１１３ｓは、Ｂ１（１，１）～ＢＬ（Ｍ，Ｎ）を示す第３テーブルＴＢ３を生成する。ＴＢ３には、第３テーブル内第ｉサブテーブルＴＢ３－ｉが含まれている。ＴＢ３－ｉは、図面ｉのそれぞれのＢ１～ＢＬを示すテーブルである。図５には、一例として、ＴＢ３－１が示されている。ＴＢ３－１には、図面ａ１～Ｍ１のそれぞれのＢ１～ＢＬが示されている。このように、ＴＢ３－１は、ＴＢ２－１の内容パラメータに対応する重み係数を示す。ＴＢ３は、ＴＢ３－１～ＴＢ３－Ｎという、Ｎ個のサブテーブルのセットによって構成されている。

【0059】

（新規物件図面ＤＢ９２）
新規物件図面ＤＢ９２には、新規物件（例：これから建設が行われる予定である、少なくとも１つの物件）に関する各図面（以下、総称的に新規図面とも称する）が、新規物件データセットとして格納されている。以下では、新規物件データセットに含まれる１つの新規物件（物件Ｔ）について述べる。

【0060】

一例として、新規物件図面ＤＢ９２には、物件Ｔについて、過去物件と同種類のＮ個の異なる図面（外形図～構成図）が格納されている。以下では、物件Ｔの外形図を、新規図面の一例として例示する。また、物件Ｔの外形図を、図面ＮＤと称する（後述の図６も参照）。

【0061】

（図面検索装置１２ｓ）
図面検索装置１２ｓは、新規図面データ取得部１２１、新規図面内容パラメータ取得部１２２（ターゲット図面内容パラメータ取得部）、スコア演算部１２３ｓ、および検索結果データ生成部１２４ｓを備える。スコア演算部１２３ｓおよび検索結果データ生成部１２４ｓは、総称的に検索部と称されてもよい。

【0062】

参考形態では、図面検索装置１２ｓは、学習装置１１ｓによって生成された学習モデルを用いて、ターゲット図面を複数の検索対象図面のそれぞれと照合することにより、少なくとも１つの図面を検索する。参考形態の図面ＮＤは、ターゲット図面の一例である。以下に述べるように、図面検索装置１２ｓでは、上記学習モデルを用いて、図面ＮＤに対し、図面ａ１～ＭＮのそれぞれとの照合が行われる。

【0063】

（新規図面の取得）
新規図面データ取得部１２１は、過去図面データ取得部１１１と対になる機能部である。一例として、新規図面データ取得部１２１は、入力部７１が所定のユーザ操作を受け付けたことを契機として、新規物件図面ＤＢ９２の新規物件データセットに含まれている、所定の新規図面（例：図面ＮＤ）を取得する。新規図面データ取得部１２１は、取得した図面ＮＤを、新規図面内容パラメータ取得部１２２に供給する。

【0064】

（新規図面に対応する内容パラメータセットの取得）
新規図面内容パラメータ取得部１２２は、過去図面内容パラメータ取得部１１２と対になる機能部である。新規図面内容パラメータ取得部１２２は、過去図面内容パラメータ取得部１１２と同様の処理により、図面ＮＤに対応する内容パラメータセットを取得する。すなわち、新規図面内容パラメータ取得部１２２は、図面ＮＤにＯＣＲ処理を施し、当該図面ＮＤから特定文字列を抽出する。そして、新規図面内容パラメータ取得部１２２は、特定文字列の抽出結果に基づき、当該図面ＮＤの内容パラメータを設定する。以下、図面ＮＤの第ｋ内容パラメータを、Ｃｋとも称する。

【0065】

すなわち、新規図面内容パラメータ取得部１２２は、過去図面内容パラメータ取得部１１２と同じ解析手法によって図面ＮＤを解析することにより、当該図面ＮＤの内容パラメータを取得する。なお、上述の検索対象図面内容パラメータとの区別のため、ターゲット図面（図面ＮＤ）の内容パラメータを、ターゲット図面内容パラメータとも称する。また、ターゲット図面の第ｋ内容パラメータを、ターゲット図面第ｋ内容パラメータとも称する。ターゲット図面内容パラメータは、新規図面内容パラメータと称されてもよい。このため、ターゲット図面第ｋ内容パラメータは、新規図面第ｋ内容パラメータと称されてもよい。

【0066】

図６は、図面ＮＤに対する特定文字列抽出処理の一例を示す図である。図６は、図３と対になる図である。図６の例では、図面ＮＤの領域Ｒ１に、「電圧値５０Ｖ」という文字列が記載されている。従って、新規図面内容パラメータ取得部１２２は、第１特定文字列の抽出結果に基づき、Ｃ１＝５０と設定する（後述の図７も参照）。

【0067】

ところで、図面ＮＤの領域Ｒ１の位置は、図面ａ１の領域Ｌ１の位置とは異なっている（図３・図６を参照）。但し、図面ＮＤでは、図面ａ１とは記載位置が異なるものの、当該図面ａ１と同じ種類の仕様情報（電圧値）が記載されている。新規図面内容パラメータ取得部１２２による第１内容パラメータの設定手法によれば、図面ＮＤと図面ａ１との見かけ上の違い（例：第１特定文字列の記載位置の違い）によらず、図面ＮＤと図面ａ１と間の記載内容（第１特定文字列に係る仕様情報）自体の一致性を、定量的に評価できる。この点に関しては、以下に述べるＣ２～ＣＬ（換言すれば、領域Ｒ２～Ｒ４）についても同様である。

【0068】

また、図６の例では、図面ＮＤの領域Ｒ２に、「電流値２．５Ａ」という文字列が記載されている。従って、新規図面内容パラメータ取得部１２２は、第２特定文字列の抽出結果に基づき、Ｃ２＝２．５と設定する（図６を参照）。

【0069】

さらに、新規図面内容パラメータ取得部１２２は、図面ＮＤに含まれている第３特定文字列「ＯＲ」の個数が、３つである旨を判定する（図６の領域Ｒ３を参照）。従って、新規図面内容パラメータ取得部１２２は、Ｃ３＝３と設定する。

【0070】

同様に、新規図面内容パラメータ取得部１２２は、図面ＮＤに含まれている第Ｌ特定文字列「開」の個数が、２つである旨を判定する（図６の領域Ｒ４を参照）。従って、新規図面内容パラメータ取得部１２２は、ＣＬ＝２と設定する。

【0071】

以上のように、新規図面内容パラメータ取得部１２２は、図面ＮＤに対し過去図面内容パラメータ取得部１１２と同様の処理を行うことにより、Ｃ１～ＣＬを設定する。その後、新規図面内容パラメータ取得部１２２は、Ｃ１～ＣＬを示す新規図面内容パラメータテーブルＴＢ－ＮＤを生成する（図７を参照）。

【0072】

（関連性スコアの算出）
スコア演算部１２３ｓは、学習モデル生成部１１３ｓによって生成された学習モデル（より具体的には、Ｂ１（１，１）～ＢＬ（Ｍ，Ｎ））に基づき、関連性スコアを算出する。関連性スコアとは、図面ＮＤに対する各過去図面（図面ａ１～ＭＮ）の関連性の高さを示すスコア（指標）である。以下、図面（ｉ，ｊ）の関連性スコアを、ＳＣＯＲＥ（ｉ，ｊ）とも表記する。また、ＳＣＯＲＥ（ｉ，ｊ）を、ＳＣＯＲＥとも略記する。

【0073】

以下では、図７（特に、図７のハッチング箇所）を参照し、関連性スコアを算出する場合を例示する。以下の例では、説明の便宜上、図面ＮＤと同種類の過去図面（すなわち、外形図である図面ａ１～Ｍ１）のそれぞれについて、関連性スコアを算出する場合を説明する。但し、図面ＮＤと異なる種類の過去図面についても、図７の例と同様に関連性スコアが導出されることに留意されたい。

【0074】

図７は、関連性スコアの導出例について説明する図である。図７では、図面ａ１のＳＣＯＲＥを算出する例について主に述べる。スコア演算部１２３ｓは、（ｉ）新規図面内容パラメータ取得部１２２によって導出されたＣ１～ＣＬと、（ｉｉ）学習モデル生成部１１３ｓによって導出された、図面ａ１のＢ１～ＢＬと、を用いて、当該図面ａ１の第１素点～第Ｌ素点を算出する。

【0075】

以下、第ｋ素点を、ＳＳｋとも表記する。なお、図面（ｉ，ｊ）の第ｋ素点を、ＳＳｋ（ｉ，ｊ）とも表記する。また、第１素点～第Ｌ素点を総称的に、素点とも称する。ＳＳｋは、Ｂｋ（第ｋ重み係数）に対応している。

【0076】

具体的には、スコア演算部１２３ｓは、図面ＮＤの第ｋ内容パラメータ（Ｃｋ）と図面ａ１の第ｋ重み係数（Ｂｋ）との積を、ＳＳｋとして算出する。つまり、スコア演算部１２３ｓは、
ＳＳｋ＝Ｃｋ×Ｂｋ …（１）
を算出する。

【0077】

図７の例では、Ｃ１＝５０、Ｂ１＝－０．５である。このため、スコア演算部１２３ｓは、ＳＳ１＝５０×－０．５＝－２５として、ＳＳ１を導出する。同様にして、スコア演算部１２３ｓは、以降の各素点を算出する。例えば、スコア演算部１２３ｓは、ＳＳ２＝－３、ＳＳ３＝１．８、…、ＳＳＬ＝１．４として、各素点を算出する。

【0078】

続いて、スコア演算部１２３ｓは、図面ａ１の第１素点～第Ｌ素点に基づき、当該図面ａ１の関連性スコア（ＳＣＯＲＥ）を算出する。具体的には、スコア演算部１２３ｓは、第１素点から第Ｌ素点までの各素点の和を、ＳＣＯＲＥとして算出する。すなわち、スコア演算部１２３ｓは、
ＳＣＯＲＥ＝ΣＳＳｋ …（２）
を算出する。式（２）の右辺におけるｋの範囲は、１からＬまでである。この点は、後述する式（２Ａ）等についても同様である。

【0079】

以上のように、スコア演算部１２３ｓは、各Ｃｋと各Ｂｋとを用いて、ＳＣＯＲＥを算出する。以下、図面ａ１の関連性スコアを、ＳＣＯＲＥ（ａ１）とも表記する。その他の過去図面の関連性スコアについても、同様に表記する。図７の例では、スコア演算部１２３ｓによる計算の結果、ＳＣＯＲＥ（ａ１）＝－３０．４が得られた。

【0080】

続いて、スコア演算部１２３ｓは、同様の手法によって、残りの各過去図面（図７の例では、図面ｂ１～Ｍ１）のＳＣＯＲＥを算出する。図７の例では、スコア演算部１２３ｓによる計算の結果、ＳＣＯＲＥ（ｂ１）＝４１．１、ＳＣＯＲＥ（ｃ１）＝３６．５、…、ＳＣＯＲＥ（Ｍ１）＝４．２が得られた。

【0081】

また、図７の例では、ＳＣＯＲＥ（ａ１）～ＳＣＯＲＥ（Ｍ１）というＭ個のＳＣＯＲＥのうち、最大の関連性スコアはＳＣＯＲＥ（ｂ１）であることが確認された。また、上記Ｍ個のＳＣＯＲＥのうち、ＳＣＯＲＥ（ｃ１）が２番目に大きいことが確認された。さらに、上記Ｍ個のＳＣＯＲＥのうち、最小の関連性スコアはＳＣＯＲＥ（ａ１）であることが確認された。

【0082】

スコア演算部１２３ｓは、自身の計算結果を示す第４テーブルＴＢ４を生成する。ＴＢ４には、第４テーブル内第ｉサブテーブルＴＢ４－ｉが含まれている。ＴＢ４－ｉは、図面ｉのそれぞれのＳＳ１～ＳＳＬおよびＳＣＯＲＥを示すテーブルである。図７には、一例として、ＴＢ４－１が示されている。ＴＢ４－１には、図面ａ１～Ｍ１のそれぞれのＳＳ１～ＳＳＬおよびＳＣＯＲＥが示されている。このように、ＴＢ４－１は、ＴＢ－ＮＤおよびＴＢ３－１に基づいて生成される。ＴＢ４は、ＴＢ４－１～ＴＢ４－Ｎという、Ｎ個のサブテーブルのセットによって構成されている。

【0083】

なお、上述の式（１）は、
ＳＳｋ（ｉ，ｊ）＝Ｃｋ×Ｂｋ（ｉ，ｊ） …（１Ａ）
とも表記できる。このように、スコア演算部１２３ｓは、Ｂｋ（ｉ，ｊ）に基づきＳＳｋ（ｉ，ｊ）を算出する。

【0084】

また、上述の式（２）は、
ＳＣＯＲＥ（ｉ，ｊ）＝ΣＳＳｋ（ｉ，ｊ）
＝Σ｛Ｃｋ×Ｂｋ（ｉ，ｊ）｝…（２Ａ）
とも表記できる。このように、スコア演算部１２３ｓは、各ＳＳｋ（ｉ，ｊ）（すなわち、各Ｃｋおよび各Ｂｋ（ｉ，ｊ））に基づき、ＳＣＯＲＥ（ｉ，ｊ）を算出する。

【0085】

また、上述の式（２Ａ）は、
ＳＣＯＲＥ（ｉ，ｊ）＝Σ｛Ａｋ（ｉ，ｊ）×Ｂｋ（ｉ，ｊ）｝…（３）
において、Ａｋ（ｉ，ｊ）にＣｋを代入した式と理解することもできる。このように、スコア演算部１２３ｓは、学習モデル内の独立変数（説明変数）として、Ｃ１～ＣＬを適用することにより、従属変数（目的変数）であるＳＣＯＲＥを算出できる。なお、式（３）の右辺は、多項ロジスティック回帰における線形モデル（多項ロジスティック回帰モデル）の一例である。

【0086】

なお、ＳＳｋは、Ｃｋに応じた学習モデルの出力と表現することもできる。このことから、スコア演算部１２３ｓは、学習モデルの出力（ＳＳ１～ＳＳｋ）に基づき、ＳＣＯＲＥを算出すると表現することもできる。

【0087】

あるいは、学習モデルは、ＳＣＯＲＥを出力するように構成されてもよい。この場合、スコア演算部１２３ｓは、学習モデルの出力としてのＳＣＯＲＥを取得し、当該ＳＣＯＲＥを検索結果データ生成部１２４ｓに供給する。

【0088】

（候補順位の決定）
検索結果データ生成部１２４ｓは、スコア演算部１２３ｓによって算出されたＳＣＯＲＥ（ａ１）～ＳＣＯＲＥ（Ｍ１）に基づき、図面ＮＤに対応する候補順位（候補ランキング）を決定する。具体的には、検索結果データ生成部１２４ｓは、ＳＣＯＲＥ（ａ１）～ＳＣＯＲＥ（Ｍ１）に基づき、図面ａ１～Ｍ１（外形図）のそれぞれの候補順位（第１候補～第Ｍ候補）を決定する。

【0089】

検索結果データ生成部１２４ｓは、ＳＣＯＲＥ（ａ１）～ＳＣＯＲＥ（Ｍ１）を、各ＳＣＯＲＥの値に応じてソートする。一例として、検索結果データ生成部１２４ｓは、ＳＣＯＲＥ（ａ１）～ＳＣＯＲＥ（Ｍ１）を、値が大きい順にソートする。そして、検索結果データ生成部１２４ｓは、ｇ番目に大きいＳＣＯＲＥに対応する過去図面を、第ｇ候補（以下、候補ｇとも称する）として決定する。ｇは、１以上かつＭ以下の整数である。

【0090】

このようにＳＣＯＲＥに応じて候補番号を設定すれば、候補番号が小さくなるほど（より上位の候補であるほど）、過去図面と図面ＮＤとの関連性が高いことが期待される。例えば、候補１は、図面ａ１～Ｍ１のうち、図面ＮＤとの関連性が最も高いことがＳＣＯＲＥによって示されている過去図面を指す。

【0091】

上述の通り、ＳＣＯＲＥ（ｂ１）は、ＳＣＯＲＥ（ａ１）～ＳＣＯＲＥ（Ｍ１）のうち、最大の関連性スコア（１番目に大きい関連性スコア）である。そこで、検索結果データ生成部１２４ｓは、図面ｂ１を候補１として決定する（図８のハッチング箇所を参照）。このように、検索結果データ生成部１２４ｓは、図面ＮＤとの関連性が最も高い過去図面として、図面ｂ１を選択する。

【0092】

また、ＳＣＯＲＥ（ｃ２）は、ＳＣＯＲＥ（ａ１）～ＳＣＯＲＥ（Ｍ１）のうち、２番目に大きい関連性スコアである。そこで、検索結果データ生成部１２４ｓは、図面ｃ２を候補２として決定する。このように、検索結果データ生成部１２４ｓは、図面ＮＤとの関連性が２番目に高い過去図面として、図面ｃ２を選択する。

【0093】

さらに、ＳＣＯＲＥ（ａ１）は、ＳＣＯＲＥ（ａ１）～ＳＣＯＲＥ（Ｍ１）のうち、最小の関連性スコア（Ｍ番目に大きい関連性スコア）である。そこで、検索結果データ生成部１２４ｓは、図面ａ１を候補Ｍとして決定する。このように、検索結果データ生成部１２４ｓは、図面ＮＤとの関連性が最も低い（Ｍ番目に高い）過去図面として、図面ａ１を選択する。

【0094】

検索結果データ生成部１２４ｓは、図面ＮＤに対する図面ａ１～Ｍ１の候補番号を示すデータを生成する。当該データでは、図面ａ１～Ｍ１の図面番号（識別子）が、ＳＣＯＲＥに応じてソートされている。より具体的には、当該データでは図面ａ１～Ｍ１の図面番号が、ＳＣＯＲＥが高い順にソートされている。

【0095】

なお、検索結果データ生成部１２４ｓは、新規図面の種類が外形図とは異なる場合にも、当該新規図面と同種類の過去図面について、同様の処理を行う。例えば、新規図面の種類が組立図である場合を考える。この場合、検索結果データ生成部１２４ｓは、ＳＣＯＲＥ（ａ２）～ＳＣＯＲＥ（Ｍ２）に基づき、新規図面に対する図面ａ２～Ｍ２（組立図）のそれぞれの候補番号を決定する。その他の種類の図面についても同様である。

【0096】

以上のように、検索結果データ生成部１２４ｓは、種類ｉに属する図面ＮＤに対し、ＳＣＯＲＥ（ｉ，１）～ＳＣＯＲＥ（ｉ，Ｎ）に基づき、図面（ｉ，１）～図面（ｉ，Ｍ）の候補番号を設定する。具体的には、検索結果データ生成部１２４ｓは、ＳＣＯＲＥ（ｉ，１）～ＳＣＯＲＥ（ｉ，Ｍ）のうち、ｇ番目に大きいＳＣＯＲＥであるＳＣＯＲＥ（ｉ，ｇ）を特定する。そして、検索結果データ生成部１２４ｓは、ＳＣＯＲＥ（ｉ，ｇ）に対応する過去図面、すなわち図面（ｉ，ｇ）を、候補ｇとして決定する。

【0097】

一例として、検索結果データ生成部１２４ｓは、検索結果データとして第５テーブルＴＢ５を生成する。ＴＢ５では、図面ＮＤの種類ごとに、候補番号が高い順に（ＳＣＯＲＥが大きい順に）、過去図面がソートされている。図８には、ＴＢ５の一例が示されている。検索結果データ生成部１２４ｓは、ＴＢ５を表示部７２に供給し、当該ＴＢ５を表示部７２に表示させる。

【0098】

表示部７２にＴＢ５を表示させることにより、ユーザに、図面検索装置１２ｓ（より具体的には、検索結果データ生成部１２４ｓ）の検索結果を、一覧性が高い態様で提示することができる。

【0099】

但し、検索結果データ生成部１２４ｓは、ＴＢ５の全体を、必ずしも検索結果データとしてユーザに提示しなくともよい。過去図面数があまりに多い場合、ＴＢ５の全体をユーザに提示すると、かえってユーザの利便性が低下しうることも考えられるためである。

【0100】

従って、検索結果データは、ＴＢ５の少なくとも一部であればよい。検索結果データは、ターゲット図面（図面ＮＤ）に対応する少なくとも１つの図面（少なくとも１つの過去図面）を示すデータであればよい。

【0101】

ところで、上述の通り、候補１の図面は、複数の過去図面のうち、ＳＣＯＲＥが最も高い図面である。そこで、検索結果データのデータ量低減の観点からは、検索結果データを、候補１の図面のみを示すデータとして生成することも考えられる。

【0102】

しかしながら、プラントエンジニアリング分野における機器の設計を行う場合、設計者は各種の技術情報を総合的に判断する必要がある。このため、過去図面を参考として図面ＮＤに記載された機器を新たに設計する場合、ＳＣＯＲＥが最も高い過去図面（候補１の図面）が、設計の参考に最も適しているとは限らない。例えば、候補２の図面（ＳＣＯＲＥがより低い図面）が、候補１の図面に比べて、実際には設計の参考により適している場合もありうる。

【0103】

そこで、検索結果データは、上位の複数の候補（例：γ番目までの候補）を示すデータであることが好ましい。すなわち、検索結果データは、候補１～候補γの図面を示すデータであってよい。γは、１以上かつｇ以下の整数である。

【0104】

（参考形態の効果）
プラントエンジニアリングでは、物件Ｔに関するプロジェクトの進捗に伴い、図面ＮＤ（ターゲット図面）との関連性が高い過去図面を検索することが必要とされる場合がある（特許文献１も参照）。上記プロジェクトでは、過去物件における特定の種類の機器の設計・製作実績を参考に、物件Ｔにおける同種類の機器についての各種の計画（例：製作期間の予想、製作コストの試算）がなされる場合が多いためである。

【0105】

ここで、図面ＮＤと同様の仕様情報が記載されている過去図面であれば、図面ＮＤとの関連性が高いことが期待される。しかしながら、プラントエンジニアリングでは、過去物件の図面数が膨大であることが一般的である。このため、特許文献１の図面検索システムを用いたとしても、所望の図面（図面ＮＤとの関連性が高い過去図面）を検索結果から迅速に見つけ出すことは、ユーザにとって必ずしも容易ではない。特許文献１の図面検索システムにおいて、キーワードレス検索を行った場合には、検索結果としてかなり多数の過去図面がヒットすることが考えられるためである。

【0106】

そこで、キーワード検索機能を有する公知の図面検索システムを用いて、図面ＮＤとの関連性が高い所望の図面を検索することも一案である。例えば、図面ＮＤ中に記載されている特定文字列をキーワード（検索ワード）として、過去図面を検索することが考えられる。しかしながら、このようなキーワード検索を行った場合にも、所望の図面を検索結果から迅速に見つけ出すことは、ユーザにとって必ずしも容易ではない。キーワード検索を行った場合にも、検索結果としてかなり多数の過去図面がヒットすることが考えられるためである。また、適切な検索ワードをユーザが決定できない場合には、そもそもキーワード検索を利用することが困難である。

【0107】

以上の通り、従来の図面検索システムを用いて所望の図面を迅速に検索することは、プラントエンジニアリングについて十分な知識を有していないユーザ（例：新人設計者）にとって、困難を伴う。プラントエンジニアリングに精通したユーザ（例：ベテラン設計者）でなければ、従来の図面検索システムを用いて所望の図面を効率的に検索することは必ずしも容易ではないと考えられる。

【0108】

本願の発明者ら（以下、発明者ら）は、従来技術のこのような問題点に鑑み、情報処理システム１００ｓ（より具体的には、情報処理装置１ｓ）を新たに創作した。情報処理装置１ｓによれば、各過去図面に対する機械学習によって得られた学習モデルを用いて、図面ＮＤに対応する所望の図面を検索できる。

【0109】

まず、情報処理装置１ｓの学習装置１１ｓでは、各過去図面について、特定文字列に関連した内容パラメータ（検索対象図面内容パラメータ）が設定される。そして、当該検索対象図面内容パラメータに基づき、各過去図面の重み係数が設定される。

【0110】

その後、情報処理装置１ｓの図面検索装置１２ｓでは、図面ＮＤの内容パラメータ（ターゲット図面内容パラメータ）と各過去図面の重み係数とを用いて、当該図面ＮＤと当該各過去図面との関連性の高さを示す指標である関連性スコアが、過去図面ごとに算出される。そして、各過去図面が、関連性スコアの高い順にソートされる。つまり、関連性スコアに基づき、所望の図面の候補としての少なくとも１つの過去図面が、ユーザに提示される。

【0111】

このように、図面検索装置１２ｓによれば、キーワード検索機能を有する公知の図面検索システムとは異なり、キーワードレス検索によって、ユーザに所望の図面を効率的に検索させることができる。特に、図面検索装置１２ｓによれば、適切な検索ワードをユーザが決定できない場合であっても、ユーザに効率的な図面検索を行わせることができる。このため、図面検索装置１２ｓは、例えば上述の新人設計者の業務効率向上に特に好適と言える。

【0112】

なお、特許文献１の図面検索システムは、キーワードレス検索を前提としている点において、情報処理装置１ｓ（より具体的には、図面検索装置１２ｓ）と共通している。但し、特許文献１の図面検索システムでは、情報処理装置１ｓとは異なり、検索結果に対する順序付けがなされていない。このため、特許文献１の図面検索システムでは、検索結果の上位に挙げられる過去図面が、必ずしも図面ＮＤに対し高い関連性を有しているとは限らない。

【0113】

これに対し、情報処理装置１ｓでは、各過去図面が関連性スコアの高い順にソートされたデータが、検索結果としてユーザに提示される。このため、ユーザに、関連性スコアの高い順に、検索結果として提示された各過去図面を確認させることができる。つまり、ユーザに、より上位の候補に挙げられた過去図面を、優先的に確認させることができる。

【0114】

このように、情報処理装置１ｓでは、特許文献１の図面検索システムとは異なり、検索結果として提示された各過去図面を、ユーザにしらみつぶしに（総当たり方式で）確認させることが不要となる。それゆえ、情報処理装置１ｓによれば、特許文献１の図面検索システムに比べても、図面ＮＤに対応する所望の図面を、従来よりも簡便にユーザに発見させることが可能となる。すなわち、情報処理装置１ｓによれば、特許文献１の図面検索システムに比べて、ユーザの利便性をさらに向上させることができる。

【0115】

ところで、近年では、機械学習を利用した画像照合技術（例：顔認証技術）が広く用いられている。当該画像照合技術を用いて、所望の図面を検索することも考えられる。しかしながら、上記画像照合技術では、あくまで画像としての「見た目」（例：レイアウト）に基づいて、図面ＮＤと各過去図面との関連性が判定される。それゆえ、画像照合技術をベースとした図面検索手法（以下、画像照合ベース図面検索）は、情報処理装置１ｓに比べ、図面検索には適していない場合がある。以下、この点について述べる。

【0116】

例えば、図面の記載フォーマットが標準化（統一）されていない場合には、各図面の作成者ごとに、図面の記載方式が異なることも考えられる。それゆえ、２つの図面において同様の内容（例：仕様情報）が記載されている場合であっても、各図面において当該内容が異なる位置に表記される場合がある。例えば、「図３の領域Ｌ１」（以下、領域Ａとも称する）と「図６の領域Ｒ１」（以下、領域Ｂとも称する）とを参照されたい。

【0117】

このような場合、画像照合ベース図面検索では、領域Ａと領域Ｂとの位置が異なるため、図面ＮＤに対する図面ａ１の関連性が低いと評価されうる。しかしながら、上述の通り、領域Ａおよび領域Ｂには、同一の種類の仕様情報（電圧値に関する仕様情報）が記載されている。このため、実際には、図面ａ１は、図面ＮＤに対してある程度の関連性を有しているとも考えられる。

【0118】

以上の通り、画像照合ベース図面検索では、各図面に記載されている仕様情報の内容自体を考慮して、図面ＮＤと図面ａ１との関連性を評価することはできない。それゆえ、図面ＮＤとは見た目が異なっているものの、類似した内容自体が記載されている過去図面（図８の例では、図面ｂ１）を、適切に検索することはできない。

【0119】

これに対し、情報処理装置１ｓでは、画像照合ベース図面検索とは異なり、各図面に記載されている特定文字列に着目し、内容パラメータ（検索対象図面内容パラメータおよびターゲット図面内容パラメータ）が設定される。すなわち、情報処理装置１ｓでは、各図面に記載されている仕様情報の内容自体を考慮できる。そして、当該内容パラメータに基づき、図面ＮＤと各過去図面との関連性が評価（例：スコアリング）される。

【0120】

それゆえ、情報処理装置１ｓによれば、画像照合ベース図面検索とは異なり、図面ＮＤとは見た目が異なっているものの、類似した内容自体が記載されている過去図面（例：図面ｂ１）を、適切に検索できる。このように情報処理装置１ｓは、画像照合ベース図面検索に比べ、図面検索に適している。

【0121】

また、過去図面の数が多くなるほど、従来の図面検索システム（または、画像照合ベース図面検索）によって、所定の新規図面と関連性が高い過去図面を適切に検索することがより困難となる。それゆえ、情報処理装置１ｓは、過去図面の数が多くなるほど、ユーザの利便性向上により有益である。

【0122】

〔変形例〕
（１）本発明の一態様に係る情報処理装置は、プラントエンジニアリング以外の分野における図面の検索についても適用可能である。本発明の一態様に係る図面は、上記図面検索装置によって内容パラメータを取得することが可能な図面であればよい。

【0123】

（２）参考形態では、学習モデル生成部１１３ｓにおいて、多項ロジスティック回帰を用いて学習モデルを生成する場合を例示した。但し、学習モデルの生成手法（機械学習アルゴリズム）は、これに限定されない。

【0124】

学習モデル生成部１１３ｓは、上述の教師データを用いた機械学習により、学習モデルを生成できればよい。学習モデル生成部１１３ｓは、公知の機械学習アルゴリズムを用いて、学習モデルを生成できればよい。

【0125】

（３）検索結果データ生成部１２４ｓは、候補ｇとして選択した図面に対応する所定のデータを、さらに取得してもよい。図８の例の場合、検索結果データ生成部１２４ｓは、図面ｂ１（候補１）に対応する、所定の機器の仕様データを取得してもよい。プラントエンジニアリングの各種の計画では、過去図面とともに、当該過去図面に記載された所定の機器の仕様がともに参照される場合が多いためである。

【0126】

この場合、検索結果データ生成部１２４ｓは、検索結果データとともに、仕様データをユーザに提示できる。それゆえ、ユーザの利便性をさらに向上させることができる。一例として、情報処理装置１ｓでは、図面ａ１～ＭＮと仕様データとの対応関係を示すテーブルが予め準備されていてよい。検索結果データ生成部１２４ｓは、当該テーブルを参照し、候補ｇに対応する仕様データを取得すればよい。

【0127】

〔実施形態１〕
図９は、実施形態１の情報処理システム１００の要部の構成を示すブロック図である。情報処理システム１００の情報処理装置を、情報処理装置１と称する。情報処理装置１の制御装置を、制御装置１０と称する。制御装置１０の学習装置および図面検索装置をそれぞれ、学習装置１１（モデル生成装置）および図面検索装置１２と称する。

【0128】

（学習装置１１）
学習装置１１は、学習装置１１ｓとは異なり、学習用前処理部１１４をさらに備える。また、学習装置１１は、学習装置１１ｓの学習モデル生成部１１３ｓに替えて、学習モデル生成部１１３（学習部）を備える。なお、以下の説明では、特に明示されない限り、内容パラメータは、過去図面内容パラメータを指すものとする。同様に、特に明示されない限り、内容パラメータセットは、過去図面内容パラメータセットを指すものとする。

【0129】

実施形態１では、過去図面内容パラメータ取得部１１２は、第ｋ内容パラメータを取得するとともに、当該第ｋ内容パラメータの変数種類を示す情報（第ｋ内容パラメータ変数種類情報）をさらに取得する。第ｋ内容パラメータ変数種類情報とは、第ｋ内容パラメータの変数種類（データ種類）を示す情報である。具体的には、第ｋ内容パラメータ変数種類情報とは、第ｋ内容パラメータが質的変数（以下、ＶＬと表記する）または量的変数（以下、ＶＮと表記する）のいずれであるかを示す情報である。以下、第１～第ｋ内容パラメータ変数種類情報を総称的に、内容パラメータ変数種類情報と称する。

【0130】

一例として、過去図面内容パラメータ取得部１１２は、上述の構文解析の結果に基づいて、内容パラメータ変数種類情報を取得してよい。例えば、上述の通り、過去図面内容パラメータ取得部１１２は、構文解析の結果、第１特定文字列「電圧値」に後続する文字列「９０Ｖ」に含まれる数値「９０」が、電圧値の大きさであると判定する。この場合、過去図面内容パラメータ取得部１１２は、第１内容パラメータはＶＮであると判定する。同様に、過去図面内容パラメータ取得部１１２は、第２内容パラメータはＶＮであると判定する。

【0131】

また、過去図面内容パラメータ取得部１１２は、構文解析の結果、第３特定文字列「ＯＲ」は、量的変数に対応する文字が後続していない旨を判定する。この場合、過去図面内容パラメータ取得部１１２は、第３内容パラメータはＶＬであると判定する。同様に、過去図面内容パラメータ取得部１１２は、第Ｌ内容パラメータはＶＬであると判定する。

【0132】

（学習用前処理部１１４における処理の一例）
学習用前処理部１１４は、過去図面内容パラメータ取得部１１２から、図面ａ１～ＭＮに対応する内容パラメータセット（図面ａ１～ＭＮのそれぞれの第１～第Ｌ内容パラメータ）、および、内容パラメータ変数種類情報を取得する。そして、学習用前処理部１１４は、取得した内容パラメータ変数種類情報に応じて、内容パラメータ設定テーブルＴＢ６を生成する。

【0133】

以下の説明では、図面ａ１～Ｍ１（外形図）の内容パラメータセット（図面ａ１～Ｍ１のそれぞれの第１～第Ｌ内容パラメータ）に基づく各処理について主に述べる。従って、以下に述べる各図におけるテーブルおよびデータは、外形図の内容パラメータセットに基づいて生成されている。これらのテーブルおよびデータは、図２に示されるその他の種類の図面（例：組立図、基礎図、および構成図）についても、外形図に関する以下の説明と同様の処理の流れによって生成されることに留意されたい。このように、実施形態１では、これらのテーブルおよびデータは、図２に示されている図面の種類毎に生成される。

【0134】

図１０には、初期状態におけるＴＢ６の一例が示されている。図１０に示す通り、ＴＢ６は、（ｉ）第１～第Ｌ内容パラメータのそれぞれの変数種類（データ種類）と、（ｉｉ）当該第１～第Ｌ内容パラメータのそれぞれに適用すべき前処理手法と、の対応関係を示す表である。学習用前処理部１１４は、取得した内容パラメータ変数種類情報を、ＴＢ６の「変数」の項目に記録する。なお、第１～第Ｌ内容パラメータのそれぞれに適用すべき前処理手法は、現段階では未決定である。このため、初期状態のＴＢ６では、「前処理手法」の項目は全てブランク項目として設定されている。本明細書では、初期状態のＴＢ６を、ＴＢ６ｉｎｉｔとも称する。

【0135】

続いて、学習用前処理部１１４は、第ｋ内容パラメータ変数種類情報に応じて、第ｋ内容パラメータに複数種類の前処理手法を適用する。具体的には、実施形態１では、学習用前処理部１１４は、第ｋ内容パラメータがＶＬである場合には、第ｋパラメータに対し、以下の（ｉ）～（ｉｖ）、
（ｉ）生値（Raw値）をそのまま用いる処理（恒等処理）（以下、［Ｒ］と表記）；
（ｉｉ）ワンホットエンコーディング（One hot Encoding）（以下、［Ｏ］と表記）；
（ｉｉｉ）正規化（Normalization）（以下、［Ｎ］と表記）；
（ｉｉｉｉ）標準化（Standardization）（以下、［Ｓ］と表記）；
という４種類の前処理手法を適用する。

【0136】

なお、第ｋ内容パラメータがＶＬである場合には、当該第ｋ内容パラメータは、第ｋ特定文字列が過去図面内容パラメータ取得部１１２によってラベルエンコーディング（Label Encoding）（以下、［Ｌ］と表記）されることによって導出された値であると理解することもできる。このため、第ｋ内容パラメータがＶＬである場合には、［Ｒ］は［Ｌ］に読み替えることができる。このように、第ｋ内容パラメータがＶＬである場合には、［Ｒ］と［Ｌ］とは、等価な前処理手法である。なお、前処理手法［Ｌ］の一例については、後述する。

【0137】

他方、学習用前処理部１１４は、第ｋ内容パラメータがＶＮである場合には、第ｋパラメータに対し、以下の（ｉ）～（ｖ）、
（ｉ）［Ｒ］；
（ｉｉ）［Ｌ］；
（ｉｉｉ）［Ｏ］；
（ｉｖ）［Ｎ］；
（ｖ）［Ｓ］；
という５種類の前処理手法を適用する。但し、当業者であれば明らかである通り、本発明の一態様に係る前処理手法は、これらの例に限定されない。本発明の一態様に係る前処理手法は、ＶＬまたはＶＮに適用可能な任意の前処理手法であってよい。

【0138】

以上の通り、学習用前処理部１１４は、内容パラメータセットに含まれる各内容パラメータに対し、第ｋ内容パラメータ変数種類情報に応じた複数種類の前処理手法を適用することにより、当該内容パラメータセットを拡張（水増し）（data augmentation）する。以下、内容パラメータセットに含まれているＶＬおよびＶＮの個数を、ＦＬおよびＦＮとそれぞれ表記する。

【0139】

上記の説明から明らかである通り、実施形態１の例では、内容パラメータセットに対する前処理のパターンの組み合わせの総数は、４^ＦＬ×５^ＦＮ通りである。従って、実施形態１では、学習用前処理部１１４は、１つの内容パラメータセットを、４^ＦＬ×５^ＦＮ個の内容パラメータセットへと拡張する。以下、当該４^ＦＬ×５^ＦＮ個の内容パラメータセットを、総称的に拡張後内容パラメータセットと称する。そして、当該４^ＦＬ×５^ＦＮ個の内容パラメータセットのそれぞれを、データセット１、データセット２、…、データセット４^ＦＬ×５^ＦＮと称する。拡張後内容パラメータセットは、前処理後内容パラメータセットと称されてもよい。

【0140】

なお、参考形態における説明から理解される通り、過去図面内容パラメータセットは、検索対象図面内容パラメータセットと称されてもよい。従って、実施形態１における拡張後内容パラメータセットは、過去図面拡張後内容パラメータセット（あるいは、検索対象図面内容パラメータセット）と称されてもよい。同様に、前処理後内容パラメータセットは、前処理後過去図面内容パラメータセット（あるいは、前処理後検索対象図面内容パラメータセット）と称されてもよい。

【0141】

図１１には、各データセットにおける前処理後内容パラメータの数（以下、前処理後内容パラメータ数と称する）の一例が示されている。１つのデータセット（例：データセット１）における前処理後内容パラメータ数は、同データセットに含まれるデータの数とも表現できる。従って、例えば、データセット１における前処理後内容パラメータ数は、データセット１の次元数（要素数）と称されてもよい。また、以下では、前処理後の第ｋ内容パラメータを、前処理後第ｋ内容パラメータと称する。

【0142】

以下に述べる図１２からも明らかである通り、前処理後内容パラメータ数は、内容パラメータセットに含まれる各内容パラメータに対して適用される前処理手法に応じて変化しうる。例えば、より多くの内容パラメータに対して［Ｏ］が適用されるほど、前処理後内容パラメータ数が増加する傾向がある（後述の図１４も参照）。

【0143】

図１２は、データセット１のデータ構造を模式的に例示する図である。図１２の例におけるデータセット１は、（ｉ）第１内容パラメータに対して［Ｓ］が、（ｉｉ）第２内容パラメータに対して［Ｓ］が、（ｉｉｉ）第３内容パラメータに対して［Ｏ］が、（ｉｖ）第Ｌ内容パラメータに対して［Ｌ］が、それぞれ施されることにより、生成されたデータ構造（例：データフレーム）である（後述の図１４も参照）。

【0144】

図１２の例では、第３内容パラメータ（第３特定文字列「ＯＲ」に対応する内容パラメータ）がワンホットエンコーディングされることにより、「ＯＲ＿０」、「ＯＲ＿１」、「ＯＲ＿２」、および「ＯＲ＿３」という、４つの前処理後内容パラメータが生成されている。

【0145】

説明の便宜上の一例として、内容パラメータセットに含まれる第３内容パラメータ（Ａ３）の最小値が０であり、最大値が３である場合を考える。すなわち、内容パラメータセットにおいて、Ａ３が０から３までの４通りの離散値をとっている場合を考える。この場合、Ａ３のそれぞれの値は、４次元のワンホットベクトル（より具体的には、４ビットのワンホットベクトル）によって表現可能である。

【0146】

例えば、Ａ３＝０である場合、
ＯＲ＿０＝（１，０，０，０）；
ＯＲ＿１＝（０，０，０，０）；
ＯＲ＿２＝（０，０，０，０）；
ＯＲ＿３＝（０，０，０，０）；
である。

【0147】

また、Ａ３＝１である場合、
ＯＲ＿０＝（０，０，０，０）；
ＯＲ＿１＝（０，１，０，０）；
ＯＲ＿２＝（０，０，０，０）；
ＯＲ＿３＝（０，０，０，０）；
である。

【0148】

また、Ａ３＝２である場合、
ＯＲ＿０＝（０，０，０，０）；
ＯＲ＿１＝（０，０，０，０）；
ＯＲ＿２＝（０，０，１，０）；
ＯＲ＿３＝（０，０，０，０）；
である。

【0149】

また、Ａ３＝３である場合、
ＯＲ＿０＝（０，０，０，０）；
ＯＲ＿１＝（０，０，０，０）；
ＯＲ＿２＝（０，０，０，０）；
ＯＲ＿３＝（０，０，０，１）；
である。以上の通り、Ａ３＝ｉ（ｉは、０から３までの任意の自然数）であることは、ｉ番目の要素のみに成分「１」を有するワンホットベクトルＯＲ＿ｉによって表現される。

【0150】

続いて、前処理手法［Ｎ］の一例について説明する。以下では、学習用前処理部１１４が、第ｋ内容パラメータ（Ａｋ）を正規化する場合を例示する。まず、学習用前処理部１１４は、内容パラメータセットから、Ａｋの最大値（Ａｋｍａｘ）および最小値（Ａｋｍｉｎ）を取得する。

【0151】

そして、学習用前処理部１１４は、
Ａｋ＿Ｎｏｒｍａｌｉｚｅｄ＝（Ａｋ－Ａｋｍｉｎ）／（Ａｋｍａｘ－Ａｋｍｉｎ）
…（４）
の通り、Ａｋ＿Ｎｏｒｍａｌｉｚｅｄを算出する。Ａｋ＿Ｎｏｒｍａｌｉｚｅｄは、正規化後第ｋ内容パラメータ（より詳細には、正規化後過去図面第ｋ内容パラメータ）と称される。また、正規化後第１～第Ｌ内容パラメータを総称的に、正規化後内容パラメータ（より詳細には、正規化後過去図面内容パラメータ）と称する。正規化後内容パラメータは、前処理後内容パラメータの一例である。

【0152】

以上の通り、学習用前処理部１１４は、式（４）に従って、ＡｋをＡｋ＿Ｎｏｒｍａｌｉｚｅｄへと正規化する。正規化は、Ｍｉｎ－Ｍａｘスケーリングとも称される。式（４）から理解される通り、［Ｎ］によって生成されたデータセットでは、正規化後内容パラメータの最小値は０であり、最大値は１である。

【0153】

さらに、前処理手法［Ｓ］の一例について説明する。以下では、学習用前処理部１１４が、Ａｋを標準化する場合を例示する。まず、学習用前処理部１１４は、内容パラメータセットから、Ａｋの平均値（Ａｋｍｅａｎ）および標準偏差（Ａｋｓｄ）を導出する。

【0154】

続いて、学習用前処理部１１４は、
Ａｋ＿Ｓｔａｎｄａｒｄｉｚｅｄ＝（Ａｋ－Ａｋｍｅａｎ）／Ａｋｓｄ …（５）
の通り、Ａｋ＿Ｓｔａｎｄａｒｄｉｚｅｄを算出する。Ａｋ＿Ｓｔａｎｄａｒｄｉｚｅｄは、標準化後第ｋ内容パラメータ（より詳細には、標準化後過去図面第ｋ内容パラメータ）と称される。また、標準化後第１～第Ｌ内容パラメータを総称的に、標準化後内容パラメータ（より詳細には、標準化後過去図面内容パラメータ）と称する。標準化後内容パラメータは、前処理後内容パラメータの一例である。

【0155】

以上の通り、学習用前処理部１１４は、式（５）に従って、ＡｋをＡｋ＿Ｓｔａｎｄａｒｄｉｚｅｄへと標準化する。式（５）から理解される通り、［Ｓ］によって生成されたデータセットでは、標準化後内容パラメータの平均値は０であり、標準偏差は１である。

【0156】

学習用前処理部１１４は、［Ｓ］の過程にて取得したＡｋｍａｘおよびＡｋｍｉｎを記録した表（標準化用データ表）を生成してもよい。同様に、学習用前処理部１１４は、［Ｎ］の過程にて取得したＡｋｍｅａｎおよびＡｋｓｄを記録した表（正規化用データ表）を生成してもよい。

【0157】

図１３の正規化用データ表１３００Ａおよび標準化用データ表１３００Ｂはそれぞれ、実施形態１における正規化用データ表および標準化用データ表の一例である。具体的には、正規化用データ表１３００Ａおよび標準化用データ表１３００Ｂはそれぞれ、データセット１の生成に伴って生成された表である。

【0158】

上述の説明から理解される通り、［Ｎ］が施されない第ｋ内容パラメータについては、ＡｋｍａｘおよびＡｋｍｉｎがそもそも取得されない。このため、正規化用データ表１３００Ａでは、［Ｎ］が施されない第ｋ内容パラメータについては、ＡｋｍａｘおよびＡｋｍｉｎに、ダミー値（例：０）が割り当てられる。

【0159】

上述の例では、データセット１における前処理後第１～第３内容パラメータおよび前処理後第Ｌ内容パラメータはいずれも、［Ｎ］以外の前処理手法によって導出されている。このため、図１３に示される通り、正規化用データ表１３００Ａでは、前処理後第１～第３内容パラメータおよび前処理後第Ｎ内容パラメータについては、ＡｋｍａｘおよびＡｋｍｉｎとして、ダミー値である０が記録される。

【0160】

実施形態１では、学習用前処理部１１４によって、Ａ１ｍｅａｎ＝７１．９、Ａ１ｓｄ＝１０．５、Ａ２ｍｅａｎ＝２．４、Ａ２ｓｄ＝０．６が取得された場合を例示する。この場合、学習用前処理部１１４は、標準化用データ表１３００Ｂの第１内容パラメータおよび第２内容パラメータのそれぞれの項目に、これらの値を記録する。

【0161】

なお、［Ｓ］が施されない第ｋ内容パラメータについては、ＡｋｍｅａｎおよびＡｋｓｄがそもそも取得されない。このため、標準化用データ表１３００Ｂでは、［Ｓ］が施されない第ｋ内容パラメータについては、ＡｋｍｅａｎおよびＡｋｓｄに、ダミー値（例：０）が割り当てられる。図１３の例では、前処理後第３内容パラメータおよび前処理第Ｌ内容パラメータはいずれも、［Ｓ］以外の前処理手法によって導出されている。このため、標準化用データ表１３００Ｂでは、前処理後第３内容パラメータおよび前処理第Ｌ内容パラメータについては、ＡｋｍａｘおよびＡｋｍｉｎとして、ダミー値である０が記録される。

【0162】

学習用前処理部１１４は、各データセットと各前処理手法との対応関係を示すテーブル（データセット・前処理手法対応テーブル）を生成してよい。図１４のテーブルＴＢ７は、データセット・前処理手法対応テーブルの一例である。なお、図１４の例において、データセット１に対応する前処理手法にハッチングが付されている趣旨については後述する。

【0163】

図１５には、学習用前処理部１１４によって生成されたデータセットの一部が例示されている。図１５において、符号１５００Ａはデータセット１を、符号１５００Ｂはデータセット２を、符号１５００Ｃはデータセット４^ＦＬ×５^ＦＮを、それぞれ表す。上述の説明から理解される通り、データセット１における前処理後第１～第２内容パラメータはそれぞれ、標準化後第１～第２内容パラメータである。標準化後第１内容パラメータおよび標準化後第２内容パラメータはそれぞれ、上述の式（５）に従って第１内容パラメータおよび第２内容パラメータが標準化された値である。

【0164】

上述の図１４から理解される通り、図１５の例におけるデータセット２は、データセット１とは異なり、第３内容パラメータに対して［Ｌ］が適用されることにより生成されている。その他の内容パラメータに対する前処理手法については、データセット１の例と同様である。

【0165】

以上の通り、データセット２では、データセット１とは異なり、第３内容パラメータに対して［Ｏ］が適用されていない。それゆえ、データセット２の次元数は、データセット１の次元数よりも小さい。具体的には、上述の図１１に示す通り、データセット１の次元数は５０であり、データセット２の次元数は２８である。

【0166】

また、上述の図１４から理解される通り、図１５の例におけるデータセット４^ＦＬ×５^ＦＮは、データセット１・２とは異なり、全ての内容パラメータに対して［Ｏ］が適用されることにより生成されている。このため、データセット４^ＦＬ×５^ＦＮの次元数は、データセット１・２の次元数に比べて大きい。具体的には、図１１に示す通り、データセット４^ＦＬ×５^ＦＮの次元数は１５１である。

【0167】

（学習モデル生成部１１３における学習フェーズ）
学習モデル生成部１１３における処理は、学習フェーズと検証フェーズとに大別できる。まず、学習フェーズについて述べる。学習モデル生成部１１３は、学習用前処理部１１４から拡張後内容パラメータセット（データセット１～データセット４^ＦＬ×５^ＦＮ）を取得する。そして、学習モデル生成部１１３は、データセット１～データセット４^ＦＬ×５^ＦＮのそれぞれを、訓練データと検証データとに分割する。

【0168】

学習モデル生成部１１３は、データセット１～４^ＦＬ×５^ＦＮの内の任意の１つのデータセット（便宜上、注目データセットと称する）に対し、所定の複数種類の機械学習アルゴリズムのそれぞれを適用することによって、複数の学習モデルを生成する。具体的には、学習モデル生成部１１３は、所定の複数種類の機械学習アルゴリズムのそれぞれを適用することによって、注目データセットの訓練データを用いて、複数の学習モデルを生成する。

【0169】

一例として、学習モデル生成部１１３は、所定の複数種類の機械学習アルゴリズムのそれぞれを適用することによって、データセット１の訓練データを用いて、データセット１に対応する複数の学習モデルを生成する。このように、学習モデル生成部１１３は、注目データセットに対応する複数の学習モデルを生成する。

【0170】

実施形態１の例では、複数種類の機械学習アルゴリズムには、勾配ベースの機械学習アルゴリズムと距離ベースの機械学習アルゴリズムとが含まれる。勾配ベースの機械学習アルゴリズムとは、勾配降下法を利用した機械学習アルゴリズムである。勾配ベースの機械学習アルゴリズムの具体例としては、ＤＴ（Decision Tree，決定木）、ＬＲ（Logistic Regression，ロジスティック回帰）、およびＮＮ（Neural Network，ニューラルネットワーク）を挙げることができる。参考形態において述べた多項ロジスティック回帰は、ＲＳの一例である。

【0171】

なお、当然ながら、本発明の一態様に係る勾配ベースの機械学習アルゴリズムは、これらの例に限定されず、公知のその他のアルゴリズムが適用されてよい。この点については、以下に述べる距離ベースの機械学習アルゴリズムについても同様である。

【0172】

本発明の一態様に係るＤＴとは、より厳密には、ＧＢＤＴ（Gradient Boosting DT，勾配ブースティング決定木）を意味する。従って、本発明の一態様に係るＤＴの例としては、ＸＧＢｏｏｓｔ（eXtreme Gradient Boosting）およびＬｉｇｈｔＧＢＭ（Light Gradient Boosting Machine）を挙げることができる。

【0173】

距離ベースの機械学習アルゴリズムとは、各入力データに含まれる１つ以上のパラメータの分布を示す距離空間における各入力データ間の距離に基づいて、各入力データを評価（例：分類）する機械学習アルゴリズムである。距離ベースの機械学習アルゴリズムの具体例としては、ＳＶＭ（Support Vector Machine，サポートベクターマシン）および重回帰を挙げることができる。

【0174】

以上の通り、学習モデル生成部１１３は、データセット１～４^ＦＬ×５^ＦＮのそれぞれに対して各機械学習アルゴリズムを網羅的に（総当たりで）適用することにより、複数の学習モデルを生成してよい。これにより、以下に述べる検証フェーズにおいて評価（検証）の対象となる学習モデルを、十分な数だけ生成できる。

【0175】

加えて、学習モデル生成部１１３は、ある機械学習アルゴリズムの各ハイパーパラメータセットを変更してもよい。この場合、学習モデル生成部１１３は、変更後のハイパーパラメータセットを用いて、同機械学習アルゴリズムを適用して学習モデルをさらに生成する。このように、学習モデル生成部１１３は、ハイパーパラメータセットをも網羅的に適用することにより、複数の学習モデルを生成してもよい。これにより、さらに多くの学習モデルを生成できる（後述の図１６を参照）。

【0176】

（学習モデル生成部１１３における検証フェーズ）
続いて、検証フェーズについて述べる。学習モデル生成部１１３は、学習フェーズにおいて生成された複数の学習モデルのそれぞれの品質を、データセット１～４^ＦＬ×５^ＦＮのそれぞれを用いて（より具体的には、データセット１～４^ＦＬ×５^ＦＮのそれぞれの検証データを用いて）評価する。

【0177】

一例として、注目データセットとしてデータセットｊを考える。ｊは、後述するＴＢ８（図１６を参照）の列番号を示す添字である。学習モデル生成部１１３は、データセットｊに対応する複数の学習モデルのそれぞれについて、データセットｊの検証データを用いて、当該複数の学習モデルのそれぞれの予測精度（判定精度）を示す指標値を取得する。例えば、学習モデル生成部１１３は、後述するモデル（ｉ，ｊ）にデータセットｊの検証データを入力することにより、上記指標値をモデル（ｉ，ｊ）に出力（導出）させる。上記指標値は、モデル（ｉ，ｊ）の品質を示す指標値とも表現できる。

【0178】

実施形態１では、学習モデル生成部１１３は、上記指標値として、Accuracy（精度）を取得する。このことから、実施形態１における予測精度は、検索精度（より詳細には、過去図面の検索精度）と称されてもよい（図１６を参照）。但し、当業者であれば明らかである通り、本発明の一態様に係る指標値は上記の例に限定されず、機械学習分野における公知のその他の指標値が用いられてもよい。従って、例えば、学習モデル生成部１１３は、指標値として、Precision（適合率）またはRecall（再現率）を取得してもよい。

【0179】

学習モデル生成部１１３は、取得した複数の指標値に応じて、ベスト学習モデルを選択する。実施形態１の例では、学習モデル生成部１１３は、複数の指標値の内の最大値（最大指標値）を特定する。そして、学習モデル生成部１１３は、最大指標値を有する学習モデルを、ベスト学習モデルとして選択する。

【0180】

学習モデル生成部１１３は、評価フェーズにおける評価結果を示すテーブル（評価結果テーブル）を生成してよい。図１６のテーブルＴＢ８は、評価結果テーブルの一例である。ＴＢ８では、１つのデータセットと１つの機械学習アルゴリズムと１つのハイパーパラメータセット（例：Ｐａｒａ１）と１対１に対応するように、１つの指標値が記録されている。

【0181】

図１６の例におけるＰａｒａ１およびＰａｒａ２はそれぞれ、ある１つの機械学習アルゴリズム（例：ＤＴ）に適用されるハイパーパラメータセット（一連のハイパーパラメータ）を示す。図１６の例では、
・ＤＴのＰａｒａ１：データ分割方法＝"gni"、最大深度＝３、…
・ＤＴのＰａｒａ２：データ分割方法＝"entropy"、最大深度＝３、…
・ＬＲのＰａｒａ１：正則化の種類＝"l2"、正則化項の係数＝１．０、…
・ＬＲのＰａｒａ２：正則化の種類＝"l2"、正則化項の係数＝０．５、…
・ＮＮのＰａｒａ１：バッチサイズ＝２５６、最大学習回数＝１０００、…
・ＮＮのＰａｒａ２：バッチサイズ＝１２８、最大学習回数＝１０００、…
・ＳＶＭのＰａｒａ１：カーネルの種類＝"rbf"、正則化項の係数＝１．０、…
・ＳＶＭのＰａｒａ２：カーネルの種類＝"rbf"、正則化項の係数＝０．５、…
の通りである。なお、当業者であれば明らかである通り、ハイパーパラメータセットの数は２つに限定されない。例えば、Ｐａｒａ１～Ｐａｒａ５までの５つのハイパーパラメータセットが、各機械学習アルゴリズムに対して割り当てられてもよい。

【0182】

以下では、ＴＢ８のｉ行ｊ列目の成分を、ＴＢ８（ｉ，ｊ）と表記する。また、ＴＢ８（ｉ，ｊ）に対応する学習モデルを、モデル（ｉ，ｊ）と称する。ＴＢ８では、行方向（ｉ方向）に、機械学習アルゴリズムおよび当該機械学習アルゴリズムのハイパーパラメータセットが配列されている。そして、列方向（ｊ方向）に、データセットが配列されている。従って、一例として、図１６におけるＴＢ８（１，１）は、ＤＴにおいてＰａｒａ１が適用された場合に得られた検索精度である。図１６の例では、ＴＢ８（ｉ，ｊ）＝４２．１％である。上述の通り、ＴＢ８（１，１）は、Ｐａｒａ１が適用されたＤＴによって生成された学習モデル、すなわちモデル（１，１）の品質を示す指標値とも言える。

【0183】

説明の便宜上、図１６の例において、ＮＮのＰａｒａ１に対応する行番号を、ｉｍと表記する。図１６の例では、ＴＢ８（ｉｍ，１）＝８１．６％が、各ＴＢ８（ｉ，ｊ）の内の最大値である（ＴＢ８においてハッチングが付されているセルを参照）。

【0184】

以上の通り、学習装置１１は、図面ａ１～Ｍ１（外形図）の内容パラメータセット（便宜上、第１内容パラメータセットと称する）に基づいて、複数の学習モデルを生成する。そして、学習装置１１は、第１内容パラメータセットに基づいて生成した当該複数の学習モデルのそれぞれの品質を評価する（より具体的には、生成した複数の学習モデルのそれぞれの指標値を導出する）。

【0185】

外形図についての上記の例と同様に、学習装置１１は、図面の種類毎に、当該図面の内容パラメータセットに基づいて、複数の学習モデルを生成する。そして、学習装置１１は、当該内容パラメータセットに基づいて生成した複数の学習モデルのそれぞれの品質を評価する。

【0186】

一例として、学習装置１１は、図面ａ２～Ｍ２（組立図）の内容パラメータセット（便宜上、第２内容パラメータセットと称する）に基づいて、複数の学習モデルを生成する。そして、学習装置１１は、第２内容パラメータセットに基づいて生成した複数の学習モデルのそれぞれの品質を評価する。別の例として、学習装置１１は、図面ａＮ～ＭＮ（構成図）の内容パラメータセット（便宜上、第Ｎ内容パラメータセットと称する）に基づいて、複数の学習モデルを生成する。そして、学習装置１１は、第Ｎ内容パラメータセットに基づいて生成した複数の学習モデルのそれぞれの品質を評価する。

【0187】

実施形態１では、以上の通り第１内容パラメータセット～第Ｎ内容パラメータセットに基づいて導出された全ての指標値の内、ＴＢ８（ｉｍ，１）が、最大値であるものとする。従って、実施形態１では、学習モデル生成部１１３は、ＴＢ８（ｉｍ，１）を最大指標値として特定する。そして、学習モデル生成部１１３は、最大指標値を有する学習モデル、すなわちモデル（ｉｍ，１）を、ベスト学習モデルとして選択する。以上の通り、実施形態１の例では、学習モデル生成部１１３は、学習フェーズにおいて生成された複数の学習モデルの内、最も高品質な学習モデルを、ベスト学習モデルとして選択する。なお、本明細書では、ベスト学習モデルに対応する機械学習アルゴリズムを、ベスト機械学習アルゴリズムと称する。図１６の例におけるベスト機械学習アルゴリズムは、ＮＮである。

【0188】

なお、当業者であれば明らかである通り、ベスト学習モデルの選択手法は上記の例に限定されない。学習モデル生成部１１３は、複数の指標値に基づいて、複数の学習モデルの内から、ベスト学習モデルを選択できればよい。例えば、学習モデル生成部１１３は、複数の指標値に基づいて統計値を導出し、当該統計値に基づいてベスト学習モデルを選択してよい。実施形態１における最大指標値は、統計値の一例である。

【0189】

（学習フェーズについての補足）
ところで、距離ベースの機械学習アルゴリズムは、勾配ベースの機械学習アルゴリズムとは異なり、いわゆる「次元の呪い」の影響を受けることが知られている。このため、注目データセットの次元数が多い場合、距離ベースの機械学習アルゴリズムによって生成された学習モデル（以下、距離ベース学習モデルと称する）は、勾配ベースの機械学習アルゴリズムによって生成された学習モデル（以下、勾配ベース学習モデルと称する）に比べて、低品質な学習モデルとなる傾向にある。このことから、注目データセットの次元数が多い場合、当該注目データセットを用いて生成された距離ベース学習モデルがベスト学習モデルとして選択される可能性はそもそも低いと考えられる。

【0190】

そこで、実施形態１では、学習モデル生成部１１３は、注目データセットの次元数が所定の次元数閾値Ｄｔｈ以上である場合には、当該注目データセットを用いて距離ベースの機械学習アルゴリズムによって学習モデルを生成することを停止することが好ましい。これにより、品質が低いと予期される学習モデルが生成されることを未然に防止することができるので、学習フェーズにおける演算コストを低減できる。加えて、後続する評価フェーズにおける演算コストを低減することもできる。

【0191】

機械学習分野では、データセットの次元数が３０以上の場合、距離ベース学習モデルの品質が低下する傾向が高くなることが経験的に知られている。そこで、例えば、Ｄｔｈは３０以上の所定の値として設定されてよい。実施形態１では、Ｄｔｈ＝３０に設定されている場合を例示する。

【0192】

上述の通り、実施形態１の例では、データセット１の次元数は５０であり、データセット４^ＦＬ×５^ＦＮの次元数は１５１である。このため、図１６の例では、学習モデル生成部１１３は、データセット１およびデータセット４^ＦＬ×５^ＦＮに対しては、距離ベースの機械学習アルゴリズム（例：ＳＶＭ）による学習モデルの生成を行わない（ＴＢ８において「×」マークが付されているセルを参照）。

【0193】

以上のことから、図１６の例では、学習モデル生成部１１３は、データセット１およびデータセット４^ＦＬ×５^ＦＮに対しては、勾配ベースの機械学習アルゴリズム（例：ＤＴ、ＬＲ、およびＮＮ）のみを適用して、学習モデルを生成する。このように、学習モデル生成部１１３は、データセット１およびデータセット４^ＦＬ×５^ＦＮに対しては、距離ベース学習モデルを生成することなく、勾配ベース学習モデルのみを生成する。

【0194】

他方、学習モデル生成部１１３は、注目データセットの次元数がＤｔｈ未満である場合には、距離ベースの機械学習アルゴリズムを適用して、当該データセットを用いて学習モデルを生成してもよい。実施形態１の例では、データセット２の次元数は２８である。このため、図１６の例では、学習モデル生成部１１３は、データセット２に対しては、勾配ベース学習モデルを生成するとともに、距離ベース学習モデルをさらに生成する。

【0195】

（学習モデル生成部１１３における検証フェーズ後の処理）
学習モデル生成部１１３は、ＴＢ８に含まれている各データセットのうち、ベスト学習モデルに対応する１つのデータセットを、ベストデータセットとして選択する。図１６の例では、学習モデル生成部１１３は、データセット１をベストデータセットとして選択する。

【0196】

続いて、学習モデル生成部１１３は、ベストデータセットに対応する前処理手法を、ベスト前処理手法として選択する。実施形態１の例では、学習モデル生成部１１３は、上述のＴＢ７を参照し、データセット１に対応する前処理手法を、ベスト前処理手法として読み出す（図１４のハッチング箇所を参照）。以上の説明から理解される通り、学習モデル生成部１１３は、ベスト学習モデルに対応する前処理手法を、ベスト前処理手法として選択する。

【0197】

続いて、学習モデル生成部１１３は、上述のＴＢ６ｉｎｉｔにおける「前処理手法」の項目に、ベスト前処理手法を記録することにより、ＴＢ６ｉｎｉｔを更新する。本明細書では、更新後の内容パラメータ設定初期テーブルを、ＴＢ６ｎｅｗとも称する。図１７には、ＴＢ６ｎｅｗの一例が示されている。図１７の例では、データセット１に対応する前処理手法（換言すれば、ベスト学習モデルに対応する前処理手法）が、ベスト前処理手法として、「前処理手法」の項目に記録されている。

【0198】

（図面検索装置１２）
図９を再び参照し、図面検索装置１２について説明する。図面検索装置１２は、図面検索装置１２ｓとは異なり、検索用前処理部１２５をさらに備える。また、図面検索装置１２は、スコア演算部１２３ｓおよび検索結果データ生成部１２４ｓに替えて、検索部１２６をさらに備える。

【0199】

（検索用前処理部１２５における処理の一例）
検索用前処理部１２５は、新規図面内容パラメータ取得部１２２から、図面ＮＤに対応する内容パラメータセット（便宜上、新規図面内容パラメータセットと称する）を取得する。具体的には、新規図面内容パラメータセットとは、図面ＮＤの第１～第Ｌ内容パラメータ（Ｃ１～ＣＬ）を含むデータセットを意味する。一例として、検索用前処理部１２５は、新規図面内容パラメータ取得部１２２から、上述のＴＢ－ＮＤを取得する（図７を参照）。

【0200】

また、検索用前処理部１２５は、学習モデル生成部１１３から、ベスト前処理手法を取得する。一例として、検索用前処理部１２５は、学習モデル生成部１１３からＴＢ６を取得し、ＴＢ６からベスト前処理手法を読み出す。

【0201】

続いて、検索用前処理部１２５は、ベスト前処理手法に従って、新規図面内容パラメータセットに対して前処理を施すことにより、前処理後新規図面内容パラメータセットを生成する。すなわち、検索用前処理部１２５は、ベスト前処理手法と同じ前処理手法をＣ１～ＣＬのそれぞれに施すことにより、前処理後新規図面内容パラメータセットを生成する。実施形態１の例では、検索用前処理部１２５は、（ｉ）Ｃ１に［Ｓ］を施し、（ｉｉ）Ｃ２に［Ｓ］を施し、（ｉｉｉ）Ｃ３に［Ｏ］を施し、かつ、（ｉｖ）ＣＬに［Ｌ］を施す。

【0202】

なお、参考形態における説明から理解される通り、新規図面内容パラメータセットは、ターゲット図面内容パラメータセットと称されてもよい。従って、前処理後新規図面内容パラメータセットは、前処理後ターゲット図面内容パラメータセットと称されてもよい。

【0203】

検索用前処理部１２５は、前処理後新規図面内容パラメータセットを示すテーブル（前処理後新規図面内容パラメータテーブル）を生成してよい。図１８に示されているＴＢ－ＮＤＰは、実施形態１における前処理後新規図面内容パラメータテーブルの一例である。上述の説明から明らかである通り、前処理後新規図面内容パラメータセットは、データセット１と同じデータ構造を有している（上述の図１２も参照）。

【0204】

なお、検索用前処理部１２５における前処理手法［Ｓ］の一例について説明すれば、次の通りである。以下では、検索用前処理部１２５によって、Ｃｋ（図面ＮＤの第ｋ内容パラメータ）を標準化する場合について述べる。

【0205】

まず、検索用前処理部１２５は、上述の標準化用データ表１３００Ｂを参照し、ＡｋｍｅａｎおよびＡｋｓｄを取得する。続いて、検索用前処理部１２５は、
Ｃｋ＿Ｓｔａｎｄａｒｄｉｚｅｄ＝（Ｃｋ－Ａｋｍｅａｎ）／Ａｋｓｄ …（６）
の通り、Ｃｋ＿Ｓｔａｎｄａｒｄｉｚｅｄを算出する。Ｃｋ＿Ｓｔａｎｄａｒｄｉｚｅｄは、図面ＮＤにおける標準化後の第ｋ内容パラメータである。Ｃｋ＿Ｓｔａｎｄａｒｄｉｚｅｄは、標準化後新規図面第ｋ内容パラメータとも称される。標準化後新規図面第ｋ内容パラメータは、前処理後新規図面第ｋ内容パラメータの一例である。

【0206】

また、検索用前処理部１２５における前処理手法［Ｎ］の一例について説明すれば、次の通りである。まず、検索用前処理部１２５は、上述の正規化用データ表１３００Ａを参照し、ＡｋｍａｘおよびＡｋｍｉｎを取得する。続いて、検索用前処理部１２５は、
Ｃｋ＿Ｎｏｒｍａｌｉｚｅｄ＝（Ｃｋ－Ａｋｍｉｎ）／（Ａｋｍａｘ－Ａｋｍｉｎ）
…（７）
の通り、Ｃｋ＿Ｎｏｒｍａｌｉｚｅｄを算出する。Ｃｋ＿Ｎｏｒｍａｌｉｚｅｄは、図面ＮＤにおける正規化後の第ｋ内容パラメータである。Ｃｋ＿Ｎｏｒｍａｌｉｚｅｄは、正規化後新規図面第ｋ内容パラメータとも称される。正規化後新規図面第ｋ内容パラメータは、前処理後新規図面第ｋ内容パラメータの別の例である。

【0207】

（検索部１２６における検索フェーズ）
検索部１２６は、検索用前処理部１２５から、前処理後新規図面内容パラメータセットを取得する。また、検索部１２６は、学習モデル生成部１１３から、ベスト学習モデルを取得する。検索部１２６は、前処理後新規図面内容パラメータセットをベスト学習モデルに入力する。そして、検索部１２６は、前処理後新規図面内容パラメータセットに応じたベスト学習モデルの出力を、ベスト学習モデルから取得する。

【0208】

一例として、ベスト学習モデルが上述の関連性スコアを出力（導出）するように訓練された学習モデルである場合を考える。この場合、検索部１２６は、ベスト学習モデルに前処理後新規図面内容パラメータセットを入力することにより、当該前処理後新規図面内容パラメータセットに応じた関連性スコアを、ベスト学習モデルに出力させる。そして、検索部１２６は、参考形態と同様に、ベスト学習モデルの出力（例：関連性スコア）に基づいて、図面ＮＤに対応する少なくとも１つの過去図面を検索する。

【0209】

（実施形態１の効果）
情報処理システム１００（情報処理装置１）によっても、参考形態と同様に、図面検索におけるユーザの利便性を従来よりも高めることが可能となる。加えて、学習装置１１によれば、参考形態とは異なり、検索対象図面内容パラメータセット（過去図面内容パラメータセット）に対して複数種類の前処理手法が網羅的に施されることにより、当該検索対象図面内容パラメータセットが拡張される。すなわち、複数の前処理後検索対象図面内容パラメータセットが生成される。

【0210】

続いて、複数の機械学習アルゴリズムを適用することにより、複数の前処理後検索対象図面内容パラメータセット（例：データセット１～４^ＦＬ×５^ＦＮ）を用いて、複数の学習モデルが生成される。そして、複数の学習モデルのそれぞれの品質を示す指標値（例：過去図面の検索精度）に基づいて、当該複数の学習モデルの内から、ベスト学習モデルが選択される。言い換えれば、上記指標値に基づいて、複数の機械学習アルゴリズムの内から、ベスト機械学習アルゴリズムが選択される。続いて、ベスト学習モデルに対応するベスト前処理手法が選択される。

【0211】

一般的に、機械学習アルゴリズムによって生成される学習モデルの品質は、学習用データ（例：検索対象図面内容パラメータセット）に適用される前処理手法に応じて変化しうる。加えて、学習モデルの品質は、前処理後の学習用データに適用される機械学習アルゴリズムの種類に応じても変化しうる。

【0212】

適切な前処理手法および機械学習アルゴリズムが選択された場合には、高品質な学習モデルを生成することが可能である。但し、機械学習分野において適用可能な前処理手法および機械学習アルゴリズムの種類は、多岐に亘っている。このため、学習モデルの品質向上に好適な（理想的には最適な）前処理手法および機械学習アルゴリズムの組み合わせを、ユーザが人為的に選択することは必ずしも容易ではない。

【0213】

そこで、学習装置１１では、上述の通り、生成された複数の学習モデルのそれぞれを、上記指標値に基づいて網羅的に評価することにより、ベスト学習モデルおよびベスト前処理手法が選択される。すなわち、生成された複数の学習モデルに対してグリッドサーチを行うことにより、ベスト学習モデルおよびベスト前処理手法が選択される。

【0214】

上記の構成によれば、ユーザの人為的な選択を経ることなく、ベスト学習モデルおよびベスト前処理手法を特定することができる。すなわち、学習モデルの品質向上に最適である（少なくとも好適である）と期待される前処理手法および機械学習アルゴリズムの組み合わせを、学習装置１１によって自動的に選択できる。

【0215】

その後、図面検索装置１２では、学習装置１１によって選択されたベスト前処理手法に従って、ターゲット図面内容パラメータセット（新規図面内容パラメータセット）に対して前処理が施される。すなわち、ベスト前処理手法に従って、前処理後ターゲット図面内容パラメータセット（前処理後新規図面内容パラメータセット）が生成される。

【0216】

上記の構成によれば、ベスト学習モデルに適したデータ構造を有する入力データセットとして、前処理後ターゲット図面内容パラメータセットが生成される。このため、当該前処理後ターゲット図面内容パラメータセットをベスト学習モデルに入力することにより、参考形態に比べてさらに高精度な学習モデルの出力（例：ベスト学習モデルによって導出された関連性スコア）を得ることができる。

【0217】

以上の通り、情報処理システム１００では、（ｉ）学習装置１１によって予め選択されたベスト前処理手法、および、（ｉｉ）学習装置１１によって予め生成されたベスト学習モデルを用いて、図面検索装置１２に検索を行わせることができる。その結果、情報処理システム１００によれば、参考形態に比べてさらに高い検索精度を実現できる。

【0218】

（補足）
前処理手法［Ｌ］の一例について、以下に説明する。実施形態１では、学習用前処理部１１４は、生値・ラベル値変換テーブルに従って、生値（過去図面内容パラメータ取得部１１２によって取得された内容パラメータ）をラベルエンコーディングしてよい。具体的には、学習用前処理部１１４は、ある生値と当該生値に対応するラベル値の対応関係を示すテーブル（以下、生値・ラベル値変換テーブルと称する）に従って、生値をラベル値へと変換してよい。

【0219】

一例として、情報処理システム１００では、第１～第Ｌ内容パラメータのそれぞれについて、個別の生値・ラベル値変換テーブルが予め設定されている。以下、第ｋ内容パラメータに対応する生値・ラベル値変換テーブルを、第ｋ生値・ラベル値変換テーブルと称する。

【0220】

図１９には、複数の生値・ラベル値変換テーブルの内の一部が例示されている。図１９において、（ｉ）符号１９００－１は第１生値・ラベル値変換テーブルを、（ｉｉ）符号１９００－２は第２生値・ラベル値変換テーブルを、（ｉｉｉ）符号１９００－３は第３生値・ラベル値変換テーブルを、（ｉｖ）符号１９００－Ｌは第Ｌ生値・ラベル値変換テーブルを、それぞれ表す。

【0221】

図１９の例では、学習用前処理部１１４は、第ｋ生値・ラベル値変換テーブルに従って、第ｋ内容パラメータをラベルエンコーディングしてよい。例えば、学習用前処理部１１４は、第１生値・ラベル値変換テーブルに従って、第１内容パラメータをラベルエンコーディングする。また、学習用前処理部１１４は、第Ｌ生値・ラベル値変換テーブルに従って、第Ｌ内容パラメータをラベルエンコーディングする。

【0222】

以上の通り、第ｋ内容パラメータの変数種類によらず（すなわち、第ｋ内容パラメータがＶＬまたはＶＮのいずれであっても）、当該第ｋ内容パラメータに対し、前処理手法［Ｌ］が施されてよい。なお、上述の通り、第ｋ内容パラメータがＶＬである場合には、［Ｌ］は、［Ｒ］と等価な前処理手法であると言える。

【0223】

別の例として、情報処理システム１００では、第１～第Ｌ生値・ラベル値変換テーブルを統合したテーブル（以下、生値・ラベル値変換統合テーブルと称する）が予め作成されていてもよい。図２０における符号２０００は、生値・ラベル値変換統合テーブルの一例を表す。

【0224】

図２０の例において、生値・ラベル値変換統合テーブルのｋ行目は、第ｋ生値・ラベル値変換テーブルに対応する。従って、学習用前処理部１１４は、生値・ラベル値変換統合テーブルのｋ行目を参照し、第ｋ内容パラメータをラベルエンコーディングしてもよい。例えば、学習用前処理部１１４は、生値・ラベル値変換統合テーブルの２行目を参照し、第２内容パラメータをラベルエンコーディングする。

【0225】

〔ソフトウェアによる実現例〕
情報処理システム１００ｓ・１００（以下、単に「システム」と称する）の機能は、当該システムとしてコンピュータを機能させるためのプログラムであって、当該システムの各制御ブロック（特に制御装置１０ｓ・１０に含まれる各部）としてコンピュータを機能させるためのプログラムにより実現することができる。

【0226】

この場合、上記システムは、上記プログラムを実行するためのハードウェアとして、少なくとも１つの制御装置（例えばプロセッサ）と少なくとも１つの記憶装置（例えばメモリ）を有するコンピュータを備えている。この制御装置と記憶装置により上記プログラムを実行することにより、上記各実施形態で説明した各機能が実現される。

【0227】

上記プログラムは、一時的ではなく、コンピュータ読み取り可能な、１または複数の記録媒体に記録されていてもよい。この記録媒体は、上記システムが備えていてもよいし、備えていなくてもよい。後者の場合、上記プログラムは、有線または無線の任意の伝送媒体を介して上記システムに供給されてもよい。

【0228】

また、上記各制御ブロックの機能の一部または全部は、論理回路により実現することも可能である。例えば、上記各制御ブロックとして機能する論理回路が形成された集積回路も本発明の範疇に含まれる。この他にも、例えば量子コンピュータにより上記各制御ブロックの機能を実現することも可能である。

【0229】

また、上記各実施形態で説明した各処理は、ＡＩ（Artificial Intelligence：人工知能）に実行させてもよい。この場合、ＡＩは上記制御装置で動作するものであってもよいし、他の装置（例えばエッジコンピュータまたはクラウドサーバ等）で動作するものであってもよい。

【0230】

〔付記事項〕
本発明の一態様は、上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の一態様の技術的範囲に含まれる。

【符号の説明】

【0231】

１情報処理装置
１０制御装置
１１学習装置（モデル生成装置）
１２図面検索装置
１００情報処理システム
１１１過去図面データ取得部
１１２過去図面内容パラメータ取得部（検索対象図面内容パラメータ取得部）
１１３学習モデル生成部（学習部）
１１４学習用前処理部
１２１新規図面データ取得部
１２２新規図面内容パラメータ取得部（ターゲット図面内容パラメータ取得部）
１２５検索用前処理部
１２６検索部
ａ１～ＭＮ図面（過去図面，検索対象図面）
ＮＤ図面（新規図面，ターゲット図面）

【図1】