IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日新電機株式会社の特許一覧 ▶ 国立大学法人京都工芸繊維大学の特許一覧

特開2022-165271モデル生成装置、図面検索装置、モデル生成方法、および図面検索方法
<>
  • 特開-モデル生成装置、図面検索装置、モデル生成方法、および図面検索方法 図1
  • 特開-モデル生成装置、図面検索装置、モデル生成方法、および図面検索方法 図2
  • 特開-モデル生成装置、図面検索装置、モデル生成方法、および図面検索方法 図3
  • 特開-モデル生成装置、図面検索装置、モデル生成方法、および図面検索方法 図4
  • 特開-モデル生成装置、図面検索装置、モデル生成方法、および図面検索方法 図5
  • 特開-モデル生成装置、図面検索装置、モデル生成方法、および図面検索方法 図6
  • 特開-モデル生成装置、図面検索装置、モデル生成方法、および図面検索方法 図7
  • 特開-モデル生成装置、図面検索装置、モデル生成方法、および図面検索方法 図8
  • 特開-モデル生成装置、図面検索装置、モデル生成方法、および図面検索方法 図9
  • 特開-モデル生成装置、図面検索装置、モデル生成方法、および図面検索方法 図10
  • 特開-モデル生成装置、図面検索装置、モデル生成方法、および図面検索方法 図11
  • 特開-モデル生成装置、図面検索装置、モデル生成方法、および図面検索方法 図12
  • 特開-モデル生成装置、図面検索装置、モデル生成方法、および図面検索方法 図13
  • 特開-モデル生成装置、図面検索装置、モデル生成方法、および図面検索方法 図14
  • 特開-モデル生成装置、図面検索装置、モデル生成方法、および図面検索方法 図15
  • 特開-モデル生成装置、図面検索装置、モデル生成方法、および図面検索方法 図16
  • 特開-モデル生成装置、図面検索装置、モデル生成方法、および図面検索方法 図17
  • 特開-モデル生成装置、図面検索装置、モデル生成方法、および図面検索方法 図18
  • 特開-モデル生成装置、図面検索装置、モデル生成方法、および図面検索方法 図19
  • 特開-モデル生成装置、図面検索装置、モデル生成方法、および図面検索方法 図20
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022165271
(43)【公開日】2022-10-31
(54)【発明の名称】モデル生成装置、図面検索装置、モデル生成方法、および図面検索方法
(51)【国際特許分類】
   G06N 20/00 20190101AFI20221024BHJP
   G06F 30/10 20200101ALI20221024BHJP
   G06F 16/53 20190101ALI20221024BHJP
   G06Q 50/08 20120101ALI20221024BHJP
【FI】
G06N20/00
G06F30/10 200
G06F16/53
G06Q50/08
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2021070564
(22)【出願日】2021-04-19
(71)【出願人】
【識別番号】000003942
【氏名又は名称】日新電機株式会社
(71)【出願人】
【識別番号】504255685
【氏名又は名称】国立大学法人京都工芸繊維大学
(74)【代理人】
【識別番号】110000338
【氏名又は名称】特許業務法人HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】森本 充
(72)【発明者】
【氏名】竹原 輝巳
(72)【発明者】
【氏名】寶珍 輝尚
【テーマコード(参考)】
5B146
5B175
5L049
【Fターム(参考)】
5B146AA02
5B146DC03
5B146DL04
5B175DA02
5L049CC07
(57)【要約】
【課題】図面検索におけるユーザの利便性を従来よりも高める。
【解決手段】学習装置(11)において、学習用前処理部(114)は、所定の複数種類の前処理手法の組み合わせに従って、検索対象図面内容パラメータセットに含まれる複数の検索対象図面内容パラメータのそれぞれを前処理することにより、複数の前処理後検索対象図面内容パラメータセットを生成する。学習モデル生成部(113)は、所定の複数種類の機械学習アルゴリズムのそれぞれを適用することにより、複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて、複数の学習モデルを生成する。学習モデル生成部(113)は、(i)複数の学習モデルのそれぞれの品質を示す複数の指標値に基づき、複数の学習モデルの内からベスト学習モデルを選択するとともに、(ii)ベスト学習モデルに対応する前処理手法をベスト前処理手法として選択する。
【選択図】図9
【特許請求の範囲】
【請求項1】
複数の検索対象図面からターゲット図面に対応する少なくとも1つの図面を検索するための学習モデルを生成するモデル生成装置であって、
上記複数の検索対象図面を解析することにより、上記複数の検索対象図面のそれぞれの記載内容に関連した複数の検索対象図面内容パラメータを含む検索対象図面内容パラメータセットを取得する検索対象図面内容パラメータ取得部と、
所定の複数種類の前処理手法の組み合わせに従って、上記検索対象図面内容パラメータセットに含まれる上記複数の検索対象図面内容パラメータのそれぞれを前処理することにより、複数の前処理後検索対象図面内容パラメータセットを生成する学習用前処理部と、
所定の複数種類の機械学習アルゴリズムのそれぞれを適用することにより、上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて、複数の学習モデルを生成する学習部と、を備えており、
上記学習部は、
上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて上記複数の学習モデルのそれぞれを検証することにより取得された、上記複数の学習モデルのそれぞれの品質を示す複数の指標値に基づき、上記複数の学習モデルの内からベスト学習モデルを選択し、
上記ベスト学習モデルに対応する前処理手法を、ベスト前処理手法として選択する、モデル生成装置。
【請求項2】
上記学習部は、上記複数の学習モデルの内、最も高い指標値を有する学習モデルを、上記ベスト学習モデルとして選択する、請求項1に記載のモデル生成装置。
【請求項3】
上記複数種類の前処理手法は、恒等処理とラベルエンコーディングとワンホットエンコーディングと正規化と標準化とを含んでいる、請求項1または2に記載のモデル生成装置。
【請求項4】
上記複数種類の機械学習アルゴリズムは、勾配ベースの機械学習アルゴリズムと距離ベースの機械学習アルゴリズムとを含んでいる、請求項1から3のいずれか1項に記載のモデル生成装置。
【請求項5】
上記勾配ベースの機械学習アルゴリズムは、決定木とロジスティック回帰とニューラルネットワークとを含んでおり、
上記距離ベースの機械学習アルゴリズムは、サポートベクターマシンを含んでいる、請求項4に記載のモデル生成装置。
【請求項6】
上記複数の前処理後検索対象図面内容パラメータセットの内の任意の1つを、注目データセットと称し、
上記学習部は、上記注目データセットの次元数が所定の次元数閾値以上である場合には、上記勾配ベースの機械学習アルゴリズムのみを適用して、上記注目データセットに対応する学習モデルを生成する、請求項4または5に記載のモデル生成装置。
【請求項7】
上記次元数閾値は、30以上の所定の値として設定されている、請求項6に記載のモデル生成装置。
【請求項8】
複数の検索対象図面からターゲット図面に対応する少なくとも1つの図面を検索する図面検索装置であって、
上記複数の検索対象図面を解析することにより、上記複数の検索対象図面のそれぞれの記載内容に関連した複数の検索対象図面内容パラメータを含む検索対象図面内容パラメータセットが予め取得されており、
所定の複数種類の前処理手法の組み合わせに従って、上記検索対象図面内容パラメータセットに含まれる上記複数の検索対象図面内容パラメータのそれぞれを前処理することにより、複数の前処理後検索対象図面内容パラメータセットが予め生成されており、
所定の複数種類の機械学習アルゴリズムのそれぞれを適用することにより、上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて、複数の学習モデルが予め生成されており、
上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて上記複数の学習モデルのそれぞれを検証することにより取得された、上記複数の学習モデルのそれぞれの品質を示す複数の指標値に基づき、上記複数の学習モデルの内からベスト学習モデルが予め選択されており、
上記ベスト学習モデルに対応する前処理手法が、ベスト前処理手法として予め選択されており、
上記図面検索装置は、
上記ターゲット図面を解析することにより、上記ターゲット図面の記載内容に関連した複数のターゲット図面内容パラメータを含むターゲット図面内容パラメータセットを取得するターゲット図面内容パラメータ取得部と、
上記ベスト前処理手法に従って、上記ターゲット図面内容パラメータセットに含まれる上記複数のターゲット図面内容パラメータのそれぞれを前処理することにより、前処理後ターゲット図面内容パラメータセットを生成する検索用前処理部と、
(i)上記前処理後ターゲット図面内容パラメータセットを上記ベスト学習モデルに入力し、かつ、(ii)上記前処理後ターゲット図面内容パラメータセットに応じた上記ベスト学習モデルの出力に基づき、上記少なくとも1つの図面を検索する検索部と、を備えている、図面検索装置。
【請求項9】
複数の検索対象図面からターゲット図面に対応する少なくとも1つの図面を検索するための学習モデルを生成するモデル生成方法であって、
上記複数の検索対象図面を解析することにより、上記複数の検索対象図面のそれぞれの記載内容に関連した複数の検索対象図面内容パラメータを含む検索対象図面内容パラメータセットを取得する検索対象図面内容パラメータ取得工程と、
所定の複数種類の前処理手法の組み合わせに従って、上記検索対象図面内容パラメータセットに含まれる上記複数の検索対象図面内容パラメータのそれぞれを前処理することにより、複数の前処理後検索対象図面内容パラメータセットを生成する学習用前処理工程と、
所定の複数種類の機械学習アルゴリズムのそれぞれを適用することにより、上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて、複数の学習モデルを生成する学習工程と、を含んでおり、
上記学習工程は、
上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて上記複数の学習モデルのそれぞれを検証することにより取得された、上記複数の学習モデルのそれぞれの品質を示す複数の指標値に基づき、上記複数の学習モデルの内からベスト学習モデルを選択する工程と、
上記ベスト学習モデルに対応する前処理手法を、ベスト前処理手法として選択する工程と、をさらに含んでいる、モデル生成方法。
【請求項10】
複数の検索対象図面からターゲット図面に対応する少なくとも1つの図面を検索する図面検索方法であって、
上記複数の検索対象図面を解析することにより、上記複数の検索対象図面のそれぞれの記載内容に関連した複数の検索対象図面内容パラメータを含む検索対象図面内容パラメータセットが予め取得されており、
所定の複数種類の前処理手法の組み合わせに従って、上記検索対象図面内容パラメータセットに含まれる上記複数の検索対象図面内容パラメータのそれぞれを前処理することにより、複数の前処理後検索対象図面内容パラメータセットが予め生成されており、
所定の複数種類の機械学習アルゴリズムのそれぞれを適用することにより、上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて、複数の学習モデルが予め生成されており、
上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて上記複数の学習モデルのそれぞれを検証することにより取得された、上記複数の学習モデルのそれぞれの品質を示す複数の指標値に基づき、上記複数の学習モデルの内からベスト学習モデルが予め選択されており、
上記ベスト学習モデルに対応する前処理手法が、ベスト前処理手法として予め選択されており、
上記図面検索方法は、
上記ターゲット図面を解析することにより、上記ターゲット図面の記載内容に関連した複数のターゲット図面内容パラメータを含むターゲット図面内容パラメータセットを取得するターゲット図面内容パラメータ取得工程と、
上記ベスト前処理手法に従って、上記ターゲット図面内容パラメータセットに含まれる上記複数のターゲット図面内容パラメータのそれぞれを前処理することにより、前処理後ターゲット図面内容パラメータセットを生成する検索用前処理工程と、
(i)上記前処理後ターゲット図面内容パラメータセットを上記ベスト学習モデルに入力し、かつ、(ii)上記前処理後ターゲット図面内容パラメータセットに応じた上記ベスト学習モデルの出力に基づき、上記少なくとも1つの図面を検索する検索工程と、を含んでいる、図面検索方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の一態様は、モデル生成装置に関する。
【背景技術】
【0002】
例えば、プラントエンジニアリング分野では、大量の図面(例:過去図面)の取り扱いが必要となる。このため、大量の図面から、所望の図面を効率的に検索するための技術が要求されている。
【0003】
一例として、特許文献1には、図面検索システム(図面管理システム)のユーザインターフェースに関する技術が開示されている。特許文献1の図面検索システムは、ユーザによる機器名および図面の種別名のそれぞれの選択操作を受け付け、当該選択操作に応じた図面群を検索する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2003-99484号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1の図面検索システムによれば、ユーザに検索ワードの入力を行わせることなく、上記選択操作に応じた検索結果(図面群)を提示できる。しかしながら、後述するように、特許文献1の図面検索システムでは、ターゲット図面に対応する所望の図面(例:ターゲット図面との関連性が高いと考えられる特定の図面)を、検索結果から迅速に発見することは、ユーザにとって必ずしも容易ではない。
【0006】
このように、従来の図面検索技術では、ユーザの利便性を高めるための工夫について、なお改善の余地がある。本発明の一態様は、図面検索におけるユーザの利便性を従来よりも高めることを目的とする。
【課題を解決するための手段】
【0007】
上記の課題を解決するために、本発明の一態様に係るモデル生成装置は、複数の検索対象図面からターゲット図面に対応する少なくとも1つの図面を検索するための学習モデルを生成するモデル生成装置であって、上記複数の検索対象図面を解析することにより、上記複数の検索対象図面のそれぞれの記載内容に関連した複数の検索対象図面内容パラメータを含む検索対象図面内容パラメータセットを取得する検索対象図面内容パラメータ取得部と、所定の複数種類の前処理手法の組み合わせに従って、上記検索対象図面内容パラメータセットに含まれる上記複数の検索対象図面内容パラメータのそれぞれを前処理することにより、複数の前処理後検索対象図面内容パラメータセットを生成する学習用前処理部と、所定の複数種類の機械学習アルゴリズムのそれぞれを適用することにより、上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて、複数の学習モデルを生成する学習部と、を備えており、上記学習部は、上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて上記複数の学習モデルのそれぞれを検証することにより取得された、上記複数の学習モデルのそれぞれの品質を示す複数の指標値に基づき、上記複数の学習モデルの内からベスト学習モデルを選択し、上記ベスト学習モデルに対応する前処理手法を、ベスト前処理手法として選択する。
【0008】
また、本発明の一態様に係る図面検索装置は、複数の検索対象図面からターゲット図面に対応する少なくとも1つの図面を検索する図面検索装置であって、上記複数の検索対象図面を解析することにより、上記複数の検索対象図面のそれぞれの記載内容に関連した複数の検索対象図面内容パラメータを含む検索対象図面内容パラメータセットが予め取得されており、所定の複数種類の前処理手法の組み合わせに従って、上記検索対象図面内容パラメータセットに含まれる上記複数の検索対象図面内容パラメータのそれぞれを前処理することにより、複数の前処理後検索対象図面内容パラメータセットが予め生成されており、所定の複数種類の機械学習アルゴリズムのそれぞれを適用することにより、上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて、複数の学習モデルが予め生成されており、上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて上記複数の学習モデルのそれぞれを検証することにより取得された、上記複数の学習モデルのそれぞれの品質を示す複数の指標値に基づき、上記複数の学習モデルの内からベスト学習モデルが予め選択されており、上記ベスト学習モデルに対応する前処理手法が、ベスト前処理手法として予め選択されており、上記図面検索装置は、上記ターゲット図面を解析することにより、上記ターゲット図面の記載内容に関連した複数のターゲット図面内容パラメータを含むターゲット図面内容パラメータセットを取得するターゲット図面内容パラメータ取得部と、上記ベスト前処理手法に従って、上記ターゲット図面内容パラメータセットに含まれる上記複数のターゲット図面内容パラメータのそれぞれを前処理することにより、前処理後ターゲット図面内容パラメータセットを生成する検索用前処理部と、(i)上記前処理後ターゲット図面内容パラメータセットを上記ベスト学習モデルに入力し、かつ、(ii)上記前処理後ターゲット図面内容パラメータセットに応じた上記ベスト学習モデルの出力に基づき、上記少なくとも1つの図面を検索する検索部と、を備えている。
【0009】
また、本発明の一態様に係るモデル生成方法は、複数の検索対象図面からターゲット図面に対応する少なくとも1つの図面を検索するための学習モデルを生成するモデル生成方法であって、上記複数の検索対象図面を解析することにより、上記複数の検索対象図面のそれぞれの記載内容に関連した複数の検索対象図面内容パラメータを含む検索対象図面内容パラメータセットを取得する検索対象図面内容パラメータ取得工程と、所定の複数種類の前処理手法の組み合わせに従って、上記検索対象図面内容パラメータセットに含まれる上記複数の検索対象図面内容パラメータのそれぞれを前処理することにより、複数の前処理後検索対象図面内容パラメータセットを生成する学習用前処理工程と、所定の複数種類の機械学習アルゴリズムのそれぞれを適用することにより、上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて、複数の学習モデルを生成する学習工程と、を含んでおり、上記学習工程は、上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて上記複数の学習モデルのそれぞれを検証することにより取得された、上記複数の学習モデルのそれぞれの品質を示す複数の指標値に基づき、上記複数の学習モデルの内からベスト学習モデルを選択する工程と、上記ベスト学習モデルに対応する前処理手法を、ベスト前処理手法として選択する工程と、をさらに含んでいる。
【0010】
また、本発明の一態様に係る図面検索方法は、複数の検索対象図面からターゲット図面に対応する少なくとも1つの図面を検索する図面検索方法であって、上記複数の検索対象図面を解析することにより、上記複数の検索対象図面のそれぞれの記載内容に関連した複数の検索対象図面内容パラメータを含む検索対象図面内容パラメータセットが予め取得されており、所定の複数種類の前処理手法の組み合わせに従って、上記検索対象図面内容パラメータセットに含まれる上記複数の検索対象図面内容パラメータのそれぞれを前処理することにより、複数の前処理後検索対象図面内容パラメータセットが予め生成されており、所定の複数種類の機械学習アルゴリズムのそれぞれを適用することにより、上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて、複数の学習モデルが予め生成されており、上記複数の前処理後検索対象図面内容パラメータセットのそれぞれを用いて上記複数の学習モデルのそれぞれを検証することにより取得された、上記複数の学習モデルのそれぞれの品質を示す複数の指標値に基づき、上記複数の学習モデルの内からベスト学習モデルが予め選択されており、上記ベスト学習モデルに対応する前処理手法が、ベスト前処理手法として予め選択されており、上記図面検索方法は、上記ターゲット図面を解析することにより、上記ターゲット図面の記載内容に関連した複数のターゲット図面内容パラメータを含むターゲット図面内容パラメータセットを取得するターゲット図面内容パラメータ取得工程と、上記ベスト前処理手法に従って、上記ターゲット図面内容パラメータセットに含まれる上記複数のターゲット図面内容パラメータのそれぞれを前処理することにより、前処理後ターゲット図面内容パラメータセットを生成する検索用前処理工程と、(i)上記前処理後ターゲット図面内容パラメータセットを上記ベスト学習モデルに入力し、かつ、(ii)上記前処理後ターゲット図面内容パラメータセットに応じた上記ベスト学習モデルの出力に基づき、上記少なくとも1つの図面を検索する検索工程と、を含んでいる。
【発明の効果】
【0011】
本発明の一態様によれば、図面検索におけるユーザの利便性を従来よりも高めることができる。
【図面の簡単な説明】
【0012】
図1】参考形態の情報処理システムの要部の構成を示すブロック図である。
図2】参考形態における第1テーブルの一例を示す図である。
図3】過去図面に対する特定文字列抽出処理の一例を示す図である。
図4】参考形態における第2テーブルの一例を示す図である。
図5】参考形態における第3テーブルの一例を示す図である。
図6】新規図面に対する特定文字列抽出処理の一例を示す図である。
図7】参考形態における関連性スコアの導出例について説明する図である。
図8】参考形態における図面検索結果の一例を示す図である。
図9】実施形態1における情報処理システムの要部の構成を示すブロック図である。
図10】初期状態における内容パラメータ設定テーブルの一例を示す図である。
図11】各データセットにおける前処理後内容パラメータ数の一例を示す図である。
図12】データセット1のデータ構造を模式的に例示する図である。
図13】正規化用データ表および標準化用データ表の一例を示す図である。
図14】データセット・前処理手法対応テーブルの一例を示す図である。
図15】学習用前処理部によって生成されたデータセットの一部を例示する図である。
図16】評価結果テーブルの一例を示す図である。
図17】更新後の内容パラメータ設定テーブルの一例を示す図である。
図18】前処理後新規図面内容パラメータテーブルの一例を示す図である。
図19】複数の生値・ラベル値変換テーブルの内の一部を例示する図である。
図20】生値・ラベル値変換統合テーブルの一例を表す。
【発明を実施するための形態】
【0013】
〔参考形態〕
実施形態1の情報処理システム100の説明に先立ち、参考形態としての情報処理システム100sについて述べる。説明の便宜上、参考形態にて説明した構成要素(コンポーネント)と同じ機能を有する構成要素については、以降の各実施形態では、同じ符号を付記し、その説明を繰り返さない。また、簡潔化のため、公知技術と同様の事項についても、説明を適宜省略する。
【0014】
本明細書において以下に述べる各数値は、単なる一例であることに留意されたい。本明細書では、2つの数AおよびBについての「A~B」という記載は、特に明示されない限り、「A以上かつB以下」を意味するものとする。
【0015】
(情報処理システム100sの概要)
図1は、情報処理システム100sの要部の構成を示すブロック図である。情報処理システム100sは、情報処理装置1s、過去物件図面DB(Database)91、および新規物件図面DB92を備える。
【0016】
情報処理装置1sは、制御装置10s、入力部71、表示部72、および記憶部80を備える。制御装置10sは、学習装置11sおよび図面検索装置12sを備える。本明細書の「物件」とは、例えば、プラントエンジニアリングにおける「サイト」を意味する。
【0017】
情報処理装置1sは、過去物件図面DB91および新規物件図面DB92と通信可能に接続されていればよい。このため、図1の例とは異なり、情報処理装置1sの内部に、過去物件図面DB91および新規物件図面DB92の少なくとも一方が設けられていてもよい。
【0018】
情報処理装置1s(より具体的には、制御装置10s)による検索対象となる図面(検索対象図面)には、例えば、仕様図面、設計図面、および製作図面が含まれる。また、検索対象図面には、仕様書、設計書、および、見積書が含まれていてもよい。このように、検索対象図面は、「図面」という名称が含まれている書面に限定されない。一例として、検索対象図面には、プラントエンジニアリング分野におけるプロジェクトの計画に関する任意の種類の書面が含まれる。
【0019】
制御装置10sは、情報処理装置1sの各部を統括的に制御する。記憶部80は、制御装置10sの処理に用いられる各種のデータおよびプログラムを格納する。以下に述べるように、制御装置10sは、機械学習を利用して、複数の検索対象図面(例:過去図面a1~MN)から、ターゲット図面(例:図面ND)に対応する少なくとも1つの図面を検索する。
【0020】
入力部71は、ユーザの操作(ユーザ操作)を受け付ける。表示部72は、各種のデータを表示する。一例として、表示部72には、制御装置10sによる検索結果を示すデータが表示されてよい。なお、入力部71と表示部72とは、一体として設けられてもよい。例えば、タッチパネルを用いることにより、入力部71と表示部72とを一体化できる。
【0021】
(過去物件図面DB91)
過去物件図面DB91には、過去の各物件(既設の各物件)に関する各図面(厳密には、図面データ)が格納されている。以下の説明では、「図面A(ある図面)の図面データ」を、単に「図面A」と適宜略称する。また、「図面Aの図面番号」を、単に「図面A」と適宜略称する。
【0022】
参考形態では、過去物件図面DB91には、複数のM個の異なる物件のそれぞれについての各図面が格納されている。Mは、1以上の整数である。以下、j番目の物件を、「物件j」とも称する。jは、1以上かつM以下の整数である。
【0023】
また、過去物件図面DB91には、物件1~Mのそれぞれについて、N個(N種類)の異なる図面が格納されている。Nは、1以上の整数である。以下、物件jにおけるi番目の図面を、「図面(i,j)」とも称する。また、各物件におけるi番目(i種類目)の図面を、総称的に図面iとも称する。iは、1以上かつN以下の整数である。
【0024】
以上のように、過去物件図面DB91には、合計でT個の図面が格納されている。参考形態の例では、T=M×Nである。Tは、2以上の整数であるものとする。つまり、MおよびNの少なくとも1つは、1以上であるものとする。
【0025】
具体的には、過去物件図面DB91では、図2に示す第1テーブルTB1の形態で、各種類の図面番号が物件番号毎にリスト化されている。以下、第1テーブルTB1を、「TB1」とも略記する。その他の要素についても、適宜同様に略記する。TB1は、「物件別ソート済の過去物件・図面対応テーブル」とも称される。TB1のi行j列目のセルは、図面(i,j)の図面番号を示す。
【0026】
図2の例では、便宜上、物件1~3をそれぞれ、物件A~Cとも表記する。図2の例では、1種類目の図面(図面1)は外形図であり、2種類目の図面(図面2)は組立図であり、3種類目の図面(図面3)は基礎図である。また、N種類目の図面(図面N)は構成図である。
【0027】
以下では、簡単のため、図2の例における図面(1,1)~(N,1)(すなわち、物件AにおけるN種類のそれぞれの図面)を、図面a1~aNとも表記する。例えば、図2の例における図面a1~aNはそれぞれ、物件Aの外形図~構成図を指す。その他の物件における各図面についても、同様に表記する。
【0028】
以上のように、過去物件図面DB91には、図面a1から図面MNまでの、合計T個の図面が格納されている。以下、図面a1~MNを総称的に、過去図面とも称する。過去図面は、検索対象図面の一例である。このため、図面a1~MNは、検索対象図面群とも称される。
【0029】
また、本明細書では、複数の過去図面(検索対象図面)のうちの任意の1つの図面を、候補図面とも称する。一例として、図面a1(物件Aの外形図)を候補図面とした場合の、各処理について主に例示する。その他の図面に対する処理については、適宜説明を省略するが、図面a1の場合と同様である。
【0030】
(学習装置11s)
学習装置11sは、過去図面データ取得部111、過去図面内容パラメータ取得部112(候補図面内容パラメータ取得部,検索対象図面内容パラメータ取得部)、および学習モデル生成部113sを備える。学習装置11sは、図面a1~MNに基づき、図面検索装置12sによる図面検索のための学習モデルを生成する。このことから、学習装置11sは、モデル生成装置と称されてもよい。以下、学習装置11sの処理の流れの一例について述べる。
【0031】
(候補図面の取得)
過去物件図面DB91では、TB1sに従って、図面a1~MNが、図面種類別に予めソートされている。従って、例えば、過去図面データ取得部111は、「図面a1→b1→…→M1」の順に、各外形図を過去物件図面DB91から取得する。続いて、過去図面データ取得部111は、「図面a2→b2→…→M2」の順に、各組立図を過去物件図面DB91から取得する。そして、最終的には、過去図面データ取得部111は、「図面aN→bN→…→MN」の順に、各構成図を過去物件図面DB91から取得する。
【0032】
上記の例の場合、過去図面データ取得部111は、はじめにTB1sの1行1列目のセルを参照する。そして、過去図面データ取得部111は、上記セルに対応する図面(1,1)、すなわち図面a1を、過去物件図面DB91から取得する。過去図面データ取得部111は、取得した図面a1を、過去図面内容パラメータ取得部112に供給する。
【0033】
(候補図面に対応する内容パラメータセットの取得)
過去図面内容パラメータ取得部112は、図面a1を解析することにより、当該図面a1に対応する内容パラメータセットを取得する。一例として、過去図面内容パラメータ取得部112は、図面a1にOCR処理を施し、OCR処理後データを生成する。OCR処理後データでは、図面a1において画像データとして表現されていた各文字が、文字コードへと変換されている。
【0034】
そして、過去図面内容パラメータ取得部112は、OCR処理後データから、各図面について予め設定された特定の文字列(ストリング)を抽出(検出)する。以下、当該特定の文字列を、特定文字列と称する。参考形態では、L個(Lは2以上の整数)の異なる第k特定文字列が、予め設定されているものとする。
【0035】
以下では、k番目の特定文字列を、第k特定文字列と称する。kは、1以上かつL以下の整数である。以下の説明では、第1特定文字列が「電圧値」、第2特定文字列が「電流値」、第3特定文字列が「OR」、第L特定文字列が「開」として設定されている場合について、例示する。
【0036】
但し、特定文字列は、上記の例に限定されない。特定文字列は、例えばエンジニアリング分野の図面中において、製品の仕様情報(技術情報)を説明するために、一般的に用いられている単語であればよい。
【0037】
図3は、図面a1に対する特定文字列抽出処理の一例を示す図である。図3の例では、図面a1の領域L1に、「電圧値 90V」という文字列が記載されている。この場合、過去図面内容パラメータ取得部112は、OCR処理後データから、L1の「電圧値 90V」という一連の文字列を抽出する。過去図面内容パラメータ取得部112は、抽出した当該一連の文字列から、第1特定文字列「電圧値」をさらに抽出する。
【0038】
続いて、過去図面内容パラメータ取得部112は、上記一連の文字列に対し、公知の構文解析技術を適用することにより、第1特定文字列「電圧値」に後続する文字列「90V」は、「電圧値」の属性を示していると判定する。この場合、過去図面内容パラメータ取得部112は、「90V」という文字列中に含まれる数字「90」を、「電圧値」の大きさを示す値として取得する。このように、過去図面内容パラメータ取得部112は、構文解析により、『L1に記載されている一連の文字列は、「電圧値が90Vである」という仕様情報を示している』旨を判定する。
【0039】
また、図面a1の領域L2には、「電流値 1.0A」という一連の文字列が記載されている。過去図面内容パラメータ取得部112は、L1の例と同様にして、上記一連の文字列から、第2特定文字列「電流値」を抽出する。そして、過去図面内容パラメータ取得部112は、第2特定文字列「電流値」に後続する文字列「1.0A」は、「電流値」の属性を示していると判定する。そこで、過去図面内容パラメータ取得部112は、「1.0A」という文字列中に含まれる数字「1.0」を、「電流値」の大きさを示す値として取得する。このように、過去図面内容パラメータ取得部112は、『L2に記載されている一連の文字列は、「電流値が2.0Aである」という仕様情報を示している』旨を判定する。
【0040】
ところで、図面a1には、第3特定文字列「OR」が記載されているが、当該第3特定文字列「OR」には、何ら文字列が後続していない。この場合、過去図面内容パラメータ取得部112は、OCR処理後データに含まれる第3特定文字列「OR」の登場回数を検出する。当該検出処理の結果、過去図面内容パラメータ取得部112は、図面a1に含まれている第3特定文字列「OR」の個数が、3つである旨を判定する(領域L3を参照)。
【0041】
同様に、図面a1には、第L特定文字列「開」が記載されているが、当該第L特定文字列「開」に、何ら文字が後続していない。そこで、過去図面内容パラメータ取得部112は、L3の例と同様に、図面a1に含まれている第L特定文字列「開」の個数が、1つである旨を判定する(領域L4を参照)。
【0042】
以上の通り、過去図面内容パラメータ取得部112は、OCR処理後データに対する解析結果に基づき、図面a1に対応する内容パラメータセットを取得する。当該内容パラメータセットは、第k特定文字列に対応付けられた第k内容パラメータ(以下、Ak)を示すデータセットである。また、第1~第L内容パラメータを総称的に、内容パラメータとも称する。
【0043】
内容パラメータは、図面の記載内容(具体的には、特定文字列に係る記載内容)を数値化(定量化)したデータの1つであると言える。このため、内容パラメータは、図面の記載内容を示す指標として用いられる。なお、後述するターゲット図面内容パラメータとの区別のため、検索対象図面(過去図面)の内容パラメータを、検索対象図面内容パラメータとも称する。また、検索対象図面の第k内容パラメータを、検索対象図面第k内容パラメータとも称する。
【0044】
以下では、図面(i,j)のAkを、Ak(i,j)とも表記する。上述の通り、過去図面内容パラメータ取得部112は、図面(i,j)に対する解析結果(より具体的には、図面(i,j)における特定文字列の検出結果)に基づき、Ak(i,j)を設定する。
【0045】
一例として、過去図面内容パラメータ取得部112は、図面a1について、A1=90と設定する(後述の図4のハッチング箇所も参照)。すなわち、過去図面内容パラメータ取得部112は、図面a1に記載されている第1特定文字列「電圧値」の大きさを示す値「90」を、第1内容パラメータとして設定する。
【0046】
同様に、過去図面内容パラメータ取得部112は、A2=1.0と設定する。すなわち、過去図面内容パラメータ取得部112は、図面a1に記載されている第2特定文字列「電流値」の大きさを示す値「1.0」を、第2内容パラメータとして設定する。
【0047】
これに対し、過去図面内容パラメータ取得部112は、A3=3と設定する。すなわち、過去図面内容パラメータ取得部112は、図面a1における第3特定文字列「OR」の記載回数(登場回数)を示す値「3」を、第3内容パラメータとして設定する。
【0048】
同様に、過去図面内容パラメータ取得部112は、AL=1と設定する。すなわち、過去図面内容パラメータ取得部は、図面a1における第L特定文字列「開」の記載回数を示す値「1」を、第L内容パラメータとして設定する。
【0049】
以上のように、過去図面内容パラメータ取得部112は、図面a1について、A1~ALを設定する。以上のように、過去図面内容パラメータ取得部112は、候補図面を解析することにより、当該候補図面の内容パラメータを取得する。このことから、過去図面内容パラメータ取得部112は、候補図面内容パラメータ取得部とも呼称される。
【0050】
また、過去図面内容パラメータ取得部112は、その他の過去図面についても、同様の処理を行う。すなわち、過去図面内容パラメータ取得部112は、図面a1~MNのそれぞれに対し、A1~ALを設定する。
【0051】
その後、過去図面内容パラメータ取得部112は、図面a1~MNのそれぞれのA1~AL、すなわち、A1(1,1)~AL(M,N)、を示す第2テーブルTB2を生成する。以下に述べるように、TB2は、参考形態における教師データの一例である。すなわち、過去図面内容パラメータ取得部112は、教師データを生成する機能部(教師データ生成部)としても動作する。
【0052】
TB2には、第2テーブル内第iサブテーブルTB2-iが含まれている。TB2-iは、図面iのそれぞれのA1~ALを示すテーブルである。図4には、一例として、TB2-1が示されている。TB2-1には、図面a1~M1(物件A~Mの外形図)のそれぞれのA1~ALが示されている。TB2sは、TB2-1~TB2-Nという、N個のサブテーブルのセットによって構成されている。このように、参考形態では、図面種別ごとにサブテーブルが作成される。
【0053】
(参考形態における学習モデルの生成)
学習モデル生成部113sは、図面a1~M1に対応する内容パラメータセット(すなわち、図面a1~M1におけるA1~AL)に基づき、当該図面a1~M1に応じた学習モデルを生成する。学習モデルの生成には、公知の機械学習アルゴリズムが使用されてよい。一例として、参考形態では、学習モデル生成部113sは、多項ロジスティック回帰によって、学習モデルを生成する。
【0054】
上述の通り、TB2には、複数の過去図面のそれぞれ(例:図面a1)の番号(識別子の一例)と、当該複数の過去図面のそれぞれのA1~ALとの対応関係が示されている。そこで、学習モデル生成部113sは、TB2を教師データとして取得する。そして、学習モデル生成部113sは、当該教師データを用いた多項ロジスティック回帰を行うことにより、参考形態における学習モデルを生成する。
【0055】
一例として、学習モデル生成部113sは、TB2-1の各A1~ALに基づき、図面a1における第k特定文字列に対応付けられた第k重み係数(以下、Bk)を算出する。第1~第L重み係数を総称的に、重み係数とも称する。また、図面(i,j)のBkを、Bk(i,j)とも表記する。Bk(i,j)は、Ak(i,j)に対応する重み係数である。重み係数は、後述する関連性スコアの算出に用いられる。
【0056】
例えば、学習モデル生成部113sは、上述の多項ロジスティック回帰によって、図面a1におけるB1~BLを算出する。参考形態では、図面a1について、B1=-0.5、B2=-1.2、B3=0.6、…、BL=0.7として、それぞれの重み係数が算出されている(後述の図5のハッチング箇所を参照)。
【0057】
学習モデル生成部113sは、その他の過去図面についても、同様の処理を行う。すなわち、学習モデル生成部113sは、図面a1~MNのそれぞれに対し、B1~BLを設定する。このように、学習モデル生成部113sは、図面a1~MNのそれぞれのB1~BL、すなわち、B1(1,1)~BL(M,N)、を含む学習モデルを生成する。
【0058】
そして、学習モデル生成部113sは、B1(1,1)~BL(M,N)を示す第3テーブルTB3を生成する。TB3には、第3テーブル内第iサブテーブルTB3-iが含まれている。TB3-iは、図面iのそれぞれのB1~BLを示すテーブルである。図5には、一例として、TB3-1が示されている。TB3-1には、図面a1~M1のそれぞれのB1~BLが示されている。このように、TB3-1は、TB2-1の内容パラメータに対応する重み係数を示す。TB3は、TB3-1~TB3-Nという、N個のサブテーブルのセットによって構成されている。
【0059】
(新規物件図面DB92)
新規物件図面DB92には、新規物件(例:これから建設が行われる予定である、少なくとも1つの物件)に関する各図面(以下、総称的に新規図面とも称する)が、新規物件データセットとして格納されている。以下では、新規物件データセットに含まれる1つの新規物件(物件T)について述べる。
【0060】
一例として、新規物件図面DB92には、物件Tについて、過去物件と同種類のN個の異なる図面(外形図~構成図)が格納されている。以下では、物件Tの外形図を、新規図面の一例として例示する。また、物件Tの外形図を、図面NDと称する(後述の図6も参照)。
【0061】
(図面検索装置12s)
図面検索装置12sは、新規図面データ取得部121、新規図面内容パラメータ取得部122(ターゲット図面内容パラメータ取得部)、スコア演算部123s、および検索結果データ生成部124sを備える。スコア演算部123sおよび検索結果データ生成部124sは、総称的に検索部と称されてもよい。
【0062】
参考形態では、図面検索装置12sは、学習装置11sによって生成された学習モデルを用いて、ターゲット図面を複数の検索対象図面のそれぞれと照合することにより、少なくとも1つの図面を検索する。参考形態の図面NDは、ターゲット図面の一例である。以下に述べるように、図面検索装置12sでは、上記学習モデルを用いて、図面NDに対し、図面a1~MNのそれぞれとの照合が行われる。
【0063】
(新規図面の取得)
新規図面データ取得部121は、過去図面データ取得部111と対になる機能部である。一例として、新規図面データ取得部121は、入力部71が所定のユーザ操作を受け付けたことを契機として、新規物件図面DB92の新規物件データセットに含まれている、所定の新規図面(例:図面ND)を取得する。新規図面データ取得部121は、取得した図面NDを、新規図面内容パラメータ取得部122に供給する。
【0064】
(新規図面に対応する内容パラメータセットの取得)
新規図面内容パラメータ取得部122は、過去図面内容パラメータ取得部112と対になる機能部である。新規図面内容パラメータ取得部122は、過去図面内容パラメータ取得部112と同様の処理により、図面NDに対応する内容パラメータセットを取得する。すなわち、新規図面内容パラメータ取得部122は、図面NDにOCR処理を施し、当該図面NDから特定文字列を抽出する。そして、新規図面内容パラメータ取得部122は、特定文字列の抽出結果に基づき、当該図面NDの内容パラメータを設定する。以下、図面NDの第k内容パラメータを、Ckとも称する。
【0065】
すなわち、新規図面内容パラメータ取得部122は、過去図面内容パラメータ取得部112と同じ解析手法によって図面NDを解析することにより、当該図面NDの内容パラメータを取得する。なお、上述の検索対象図面内容パラメータとの区別のため、ターゲット図面(図面ND)の内容パラメータを、ターゲット図面内容パラメータとも称する。また、ターゲット図面の第k内容パラメータを、ターゲット図面第k内容パラメータとも称する。ターゲット図面内容パラメータは、新規図面内容パラメータと称されてもよい。このため、ターゲット図面第k内容パラメータは、新規図面第k内容パラメータと称されてもよい。
【0066】
図6は、図面NDに対する特定文字列抽出処理の一例を示す図である。図6は、図3と対になる図である。図6の例では、図面NDの領域R1に、「電圧値 50V」という文字列が記載されている。従って、新規図面内容パラメータ取得部122は、第1特定文字列の抽出結果に基づき、C1=50と設定する(後述の図7も参照)。
【0067】
ところで、図面NDの領域R1の位置は、図面a1の領域L1の位置とは異なっている(図3図6を参照)。但し、図面NDでは、図面a1とは記載位置が異なるものの、当該図面a1と同じ種類の仕様情報(電圧値)が記載されている。新規図面内容パラメータ取得部122による第1内容パラメータの設定手法によれば、図面NDと図面a1との見かけ上の違い(例:第1特定文字列の記載位置の違い)によらず、図面NDと図面a1と間の記載内容(第1特定文字列に係る仕様情報)自体の一致性を、定量的に評価できる。この点に関しては、以下に述べるC2~CL(換言すれば、領域R2~R4)についても同様である。
【0068】
また、図6の例では、図面NDの領域R2に、「電流値 2.5A」という文字列が記載されている。従って、新規図面内容パラメータ取得部122は、第2特定文字列の抽出結果に基づき、C2=2.5と設定する(図6を参照)。
【0069】
さらに、新規図面内容パラメータ取得部122は、図面NDに含まれている第3特定文字列「OR」の個数が、3つである旨を判定する(図6の領域R3を参照)。従って、新規図面内容パラメータ取得部122は、C3=3と設定する。
【0070】
同様に、新規図面内容パラメータ取得部122は、図面NDに含まれている第L特定文字列「開」の個数が、2つである旨を判定する(図6の領域R4を参照)。従って、新規図面内容パラメータ取得部122は、CL=2と設定する。
【0071】
以上のように、新規図面内容パラメータ取得部122は、図面NDに対し過去図面内容パラメータ取得部112と同様の処理を行うことにより、C1~CLを設定する。その後、新規図面内容パラメータ取得部122は、C1~CLを示す新規図面内容パラメータテーブルTB-NDを生成する(図7を参照)。
【0072】
(関連性スコアの算出)
スコア演算部123sは、学習モデル生成部113sによって生成された学習モデル(より具体的には、B1(1,1)~BL(M,N))に基づき、関連性スコアを算出する。関連性スコアとは、図面NDに対する各過去図面(図面a1~MN)の関連性の高さを示すスコア(指標)である。以下、図面(i,j)の関連性スコアを、SCORE(i,j)とも表記する。また、SCORE(i,j)を、SCOREとも略記する。
【0073】
以下では、図7(特に、図7のハッチング箇所)を参照し、関連性スコアを算出する場合を例示する。以下の例では、説明の便宜上、図面NDと同種類の過去図面(すなわち、外形図である図面a1~M1)のそれぞれについて、関連性スコアを算出する場合を説明する。但し、図面NDと異なる種類の過去図面についても、図7の例と同様に関連性スコアが導出されることに留意されたい。
【0074】
図7は、関連性スコアの導出例について説明する図である。図7では、図面a1のSCOREを算出する例について主に述べる。スコア演算部123sは、(i)新規図面内容パラメータ取得部122によって導出されたC1~CLと、(ii)学習モデル生成部113sによって導出された、図面a1のB1~BLと、を用いて、当該図面a1の第1素点~第L素点を算出する。
【0075】
以下、第k素点を、SSkとも表記する。なお、図面(i,j)の第k素点を、SSk(i,j)とも表記する。また、第1素点~第L素点を総称的に、素点とも称する。SSkは、Bk(第k重み係数)に対応している。
【0076】
具体的には、スコア演算部123sは、図面NDの第k内容パラメータ(Ck)と図面a1の第k重み係数(Bk)との積を、SSkとして算出する。つまり、スコア演算部123sは、
SSk=Ck×Bk …(1)
を算出する。
【0077】
図7の例では、C1=50、B1=-0.5である。このため、スコア演算部123sは、SS1=50×-0.5=-25として、SS1を導出する。同様にして、スコア演算部123sは、以降の各素点を算出する。例えば、スコア演算部123sは、SS2=-3、SS3=1.8、…、SSL=1.4として、各素点を算出する。
【0078】
続いて、スコア演算部123sは、図面a1の第1素点~第L素点に基づき、当該図面a1の関連性スコア(SCORE)を算出する。具体的には、スコア演算部123sは、第1素点から第L素点までの各素点の和を、SCOREとして算出する。すなわち、スコア演算部123sは、
SCORE=ΣSSk …(2)
を算出する。式(2)の右辺におけるkの範囲は、1からLまでである。この点は、後述する式(2A)等についても同様である。
【0079】
以上のように、スコア演算部123sは、各Ckと各Bkとを用いて、SCOREを算出する。以下、図面a1の関連性スコアを、SCORE(a1)とも表記する。その他の過去図面の関連性スコアについても、同様に表記する。図7の例では、スコア演算部123sによる計算の結果、SCORE(a1)=-30.4が得られた。
【0080】
続いて、スコア演算部123sは、同様の手法によって、残りの各過去図面(図7の例では、図面b1~M1)のSCOREを算出する。図7の例では、スコア演算部123sによる計算の結果、SCORE(b1)=41.1、SCORE(c1)=36.5、…、SCORE(M1)=4.2が得られた。
【0081】
また、図7の例では、SCORE(a1)~SCORE(M1)というM個のSCOREのうち、最大の関連性スコアはSCORE(b1)であることが確認された。また、上記M個のSCOREのうち、SCORE(c1)が2番目に大きいことが確認された。さらに、上記M個のSCOREのうち、最小の関連性スコアはSCORE(a1)であることが確認された。
【0082】
スコア演算部123sは、自身の計算結果を示す第4テーブルTB4を生成する。TB4には、第4テーブル内第iサブテーブルTB4-iが含まれている。TB4-iは、図面iのそれぞれのSS1~SSLおよびSCOREを示すテーブルである。図7には、一例として、TB4-1が示されている。TB4-1には、図面a1~M1のそれぞれのSS1~SSLおよびSCOREが示されている。このように、TB4-1は、TB-NDおよびTB3-1に基づいて生成される。TB4は、TB4-1~TB4-Nという、N個のサブテーブルのセットによって構成されている。
【0083】
なお、上述の式(1)は、
SSk(i,j)=Ck×Bk(i,j) …(1A)
とも表記できる。このように、スコア演算部123sは、Bk(i,j)に基づきSSk(i,j)を算出する。
【0084】
また、上述の式(2)は、
SCORE(i,j)=ΣSSk(i,j)
=Σ{Ck×Bk(i,j)}…(2A)
とも表記できる。このように、スコア演算部123sは、各SSk(i,j)(すなわち、各Ckおよび各Bk(i,j))に基づき、SCORE(i,j)を算出する。
【0085】
また、上述の式(2A)は、
SCORE(i,j)=Σ{Ak(i,j)×Bk(i,j)}…(3)
において、Ak(i,j)にCkを代入した式と理解することもできる。このように、スコア演算部123sは、学習モデル内の独立変数(説明変数)として、C1~CLを適用することにより、従属変数(目的変数)であるSCOREを算出できる。なお、式(3)の右辺は、多項ロジスティック回帰における線形モデル(多項ロジスティック回帰モデル)の一例である。
【0086】
なお、SSkは、Ckに応じた学習モデルの出力と表現することもできる。このことから、スコア演算部123sは、学習モデルの出力(SS1~SSk)に基づき、SCOREを算出すると表現することもできる。
【0087】
あるいは、学習モデルは、SCOREを出力するように構成されてもよい。この場合、スコア演算部123sは、学習モデルの出力としてのSCOREを取得し、当該SCOREを検索結果データ生成部124sに供給する。
【0088】
(候補順位の決定)
検索結果データ生成部124sは、スコア演算部123sによって算出されたSCORE(a1)~SCORE(M1)に基づき、図面NDに対応する候補順位(候補ランキング)を決定する。具体的には、検索結果データ生成部124sは、SCORE(a1)~SCORE(M1)に基づき、図面a1~M1(外形図)のそれぞれの候補順位(第1候補~第M候補)を決定する。
【0089】
検索結果データ生成部124sは、SCORE(a1)~SCORE(M1)を、各SCOREの値に応じてソートする。一例として、検索結果データ生成部124sは、SCORE(a1)~SCORE(M1)を、値が大きい順にソートする。そして、検索結果データ生成部124sは、g番目に大きいSCOREに対応する過去図面を、第g候補(以下、候補gとも称する)として決定する。gは、1以上かつM以下の整数である。
【0090】
このようにSCOREに応じて候補番号を設定すれば、候補番号が小さくなるほど(より上位の候補であるほど)、過去図面と図面NDとの関連性が高いことが期待される。例えば、候補1は、図面a1~M1のうち、図面NDとの関連性が最も高いことがSCOREによって示されている過去図面を指す。
【0091】
上述の通り、SCORE(b1)は、SCORE(a1)~SCORE(M1)のうち、最大の関連性スコア(1番目に大きい関連性スコア)である。そこで、検索結果データ生成部124sは、図面b1を候補1として決定する(図8のハッチング箇所を参照)。このように、検索結果データ生成部124sは、図面NDとの関連性が最も高い過去図面として、図面b1を選択する。
【0092】
また、SCORE(c2)は、SCORE(a1)~SCORE(M1)のうち、2番目に大きい関連性スコアである。そこで、検索結果データ生成部124sは、図面c2を候補2として決定する。このように、検索結果データ生成部124sは、図面NDとの関連性が2番目に高い過去図面として、図面c2を選択する。
【0093】
さらに、SCORE(a1)は、SCORE(a1)~SCORE(M1)のうち、最小の関連性スコア(M番目に大きい関連性スコア)である。そこで、検索結果データ生成部124sは、図面a1を候補Mとして決定する。このように、検索結果データ生成部124sは、図面NDとの関連性が最も低い(M番目に高い)過去図面として、図面a1を選択する。
【0094】
検索結果データ生成部124sは、図面NDに対する図面a1~M1の候補番号を示すデータを生成する。当該データでは、図面a1~M1の図面番号(識別子)が、SCOREに応じてソートされている。より具体的には、当該データでは図面a1~M1の図面番号が、SCOREが高い順にソートされている。
【0095】
なお、検索結果データ生成部124sは、新規図面の種類が外形図とは異なる場合にも、当該新規図面と同種類の過去図面について、同様の処理を行う。例えば、新規図面の種類が組立図である場合を考える。この場合、検索結果データ生成部124sは、SCORE(a2)~SCORE(M2)に基づき、新規図面に対する図面a2~M2(組立図)のそれぞれの候補番号を決定する。その他の種類の図面についても同様である。
【0096】
以上のように、検索結果データ生成部124sは、種類iに属する図面NDに対し、SCORE(i,1)~SCORE(i,N)に基づき、図面(i,1)~図面(i,M)の候補番号を設定する。具体的には、検索結果データ生成部124sは、SCORE(i,1)~SCORE(i,M)のうち、g番目に大きいSCOREであるSCORE(i,g)を特定する。そして、検索結果データ生成部124sは、SCORE(i,g)に対応する過去図面、すなわち図面(i,g)を、候補gとして決定する。
【0097】
一例として、検索結果データ生成部124sは、検索結果データとして第5テーブルTB5を生成する。TB5では、図面NDの種類ごとに、候補番号が高い順に(SCOREが大きい順に)、過去図面がソートされている。図8には、TB5の一例が示されている。検索結果データ生成部124sは、TB5を表示部72に供給し、当該TB5を表示部72に表示させる。
【0098】
表示部72にTB5を表示させることにより、ユーザに、図面検索装置12s(より具体的には、検索結果データ生成部124s)の検索結果を、一覧性が高い態様で提示することができる。
【0099】
但し、検索結果データ生成部124sは、TB5の全体を、必ずしも検索結果データとしてユーザに提示しなくともよい。過去図面数があまりに多い場合、TB5の全体をユーザに提示すると、かえってユーザの利便性が低下しうることも考えられるためである。
【0100】
従って、検索結果データは、TB5の少なくとも一部であればよい。検索結果データは、ターゲット図面(図面ND)に対応する少なくとも1つの図面(少なくとも1つの過去図面)を示すデータであればよい。
【0101】
ところで、上述の通り、候補1の図面は、複数の過去図面のうち、SCOREが最も高い図面である。そこで、検索結果データのデータ量低減の観点からは、検索結果データを、候補1の図面のみを示すデータとして生成することも考えられる。
【0102】
しかしながら、プラントエンジニアリング分野における機器の設計を行う場合、設計者は各種の技術情報を総合的に判断する必要がある。このため、過去図面を参考として図面NDに記載された機器を新たに設計する場合、SCOREが最も高い過去図面(候補1の図面)が、設計の参考に最も適しているとは限らない。例えば、候補2の図面(SCOREがより低い図面)が、候補1の図面に比べて、実際には設計の参考により適している場合もありうる。
【0103】
そこで、検索結果データは、上位の複数の候補(例:γ番目までの候補)を示すデータであることが好ましい。すなわち、検索結果データは、候補1~候補γの図面を示すデータであってよい。γは、1以上かつg以下の整数である。
【0104】
(参考形態の効果)
プラントエンジニアリングでは、物件Tに関するプロジェクトの進捗に伴い、図面ND(ターゲット図面)との関連性が高い過去図面を検索することが必要とされる場合がある(特許文献1も参照)。上記プロジェクトでは、過去物件における特定の種類の機器の設計・製作実績を参考に、物件Tにおける同種類の機器についての各種の計画(例:製作期間の予想、製作コストの試算)がなされる場合が多いためである。
【0105】
ここで、図面NDと同様の仕様情報が記載されている過去図面であれば、図面NDとの関連性が高いことが期待される。しかしながら、プラントエンジニアリングでは、過去物件の図面数が膨大であることが一般的である。このため、特許文献1の図面検索システムを用いたとしても、所望の図面(図面NDとの関連性が高い過去図面)を検索結果から迅速に見つけ出すことは、ユーザにとって必ずしも容易ではない。特許文献1の図面検索システムにおいて、キーワードレス検索を行った場合には、検索結果としてかなり多数の過去図面がヒットすることが考えられるためである。
【0106】
そこで、キーワード検索機能を有する公知の図面検索システムを用いて、図面NDとの関連性が高い所望の図面を検索することも一案である。例えば、図面ND中に記載されている特定文字列をキーワード(検索ワード)として、過去図面を検索することが考えられる。しかしながら、このようなキーワード検索を行った場合にも、所望の図面を検索結果から迅速に見つけ出すことは、ユーザにとって必ずしも容易ではない。キーワード検索を行った場合にも、検索結果としてかなり多数の過去図面がヒットすることが考えられるためである。また、適切な検索ワードをユーザが決定できない場合には、そもそもキーワード検索を利用することが困難である。
【0107】
以上の通り、従来の図面検索システムを用いて所望の図面を迅速に検索することは、プラントエンジニアリングについて十分な知識を有していないユーザ(例:新人設計者)にとって、困難を伴う。プラントエンジニアリングに精通したユーザ(例:ベテラン設計者)でなければ、従来の図面検索システムを用いて所望の図面を効率的に検索することは必ずしも容易ではないと考えられる。
【0108】
本願の発明者ら(以下、発明者ら)は、従来技術のこのような問題点に鑑み、情報処理システム100s(より具体的には、情報処理装置1s)を新たに創作した。情報処理装置1sによれば、各過去図面に対する機械学習によって得られた学習モデルを用いて、図面NDに対応する所望の図面を検索できる。
【0109】
まず、情報処理装置1sの学習装置11sでは、各過去図面について、特定文字列に関連した内容パラメータ(検索対象図面内容パラメータ)が設定される。そして、当該検索対象図面内容パラメータに基づき、各過去図面の重み係数が設定される。
【0110】
その後、情報処理装置1sの図面検索装置12sでは、図面NDの内容パラメータ(ターゲット図面内容パラメータ)と各過去図面の重み係数とを用いて、当該図面NDと当該各過去図面との関連性の高さを示す指標である関連性スコアが、過去図面ごとに算出される。そして、各過去図面が、関連性スコアの高い順にソートされる。つまり、関連性スコアに基づき、所望の図面の候補としての少なくとも1つの過去図面が、ユーザに提示される。
【0111】
このように、図面検索装置12sによれば、キーワード検索機能を有する公知の図面検索システムとは異なり、キーワードレス検索によって、ユーザに所望の図面を効率的に検索させることができる。特に、図面検索装置12sによれば、適切な検索ワードをユーザが決定できない場合であっても、ユーザに効率的な図面検索を行わせることができる。このため、図面検索装置12sは、例えば上述の新人設計者の業務効率向上に特に好適と言える。
【0112】
なお、特許文献1の図面検索システムは、キーワードレス検索を前提としている点において、情報処理装置1s(より具体的には、図面検索装置12s)と共通している。但し、特許文献1の図面検索システムでは、情報処理装置1sとは異なり、検索結果に対する順序付けがなされていない。このため、特許文献1の図面検索システムでは、検索結果の上位に挙げられる過去図面が、必ずしも図面NDに対し高い関連性を有しているとは限らない。
【0113】
これに対し、情報処理装置1sでは、各過去図面が関連性スコアの高い順にソートされたデータが、検索結果としてユーザに提示される。このため、ユーザに、関連性スコアの高い順に、検索結果として提示された各過去図面を確認させることができる。つまり、ユーザに、より上位の候補に挙げられた過去図面を、優先的に確認させることができる。
【0114】
このように、情報処理装置1sでは、特許文献1の図面検索システムとは異なり、検索結果として提示された各過去図面を、ユーザにしらみつぶしに(総当たり方式で)確認させることが不要となる。それゆえ、情報処理装置1sによれば、特許文献1の図面検索システムに比べても、図面NDに対応する所望の図面を、従来よりも簡便にユーザに発見させることが可能となる。すなわち、情報処理装置1sによれば、特許文献1の図面検索システムに比べて、ユーザの利便性をさらに向上させることができる。
【0115】
ところで、近年では、機械学習を利用した画像照合技術(例:顔認証技術)が広く用いられている。当該画像照合技術を用いて、所望の図面を検索することも考えられる。しかしながら、上記画像照合技術では、あくまで画像としての「見た目」(例:レイアウト)に基づいて、図面NDと各過去図面との関連性が判定される。それゆえ、画像照合技術をベースとした図面検索手法(以下、画像照合ベース図面検索)は、情報処理装置1sに比べ、図面検索には適していない場合がある。以下、この点について述べる。
【0116】
例えば、図面の記載フォーマットが標準化(統一)されていない場合には、各図面の作成者ごとに、図面の記載方式が異なることも考えられる。それゆえ、2つの図面において同様の内容(例:仕様情報)が記載されている場合であっても、各図面において当該内容が異なる位置に表記される場合がある。例えば、「図3の領域L1」(以下、領域Aとも称する)と「図6の領域R1」(以下、領域Bとも称する)とを参照されたい。
【0117】
このような場合、画像照合ベース図面検索では、領域Aと領域Bとの位置が異なるため、図面NDに対する図面a1の関連性が低いと評価されうる。しかしながら、上述の通り、領域Aおよび領域Bには、同一の種類の仕様情報(電圧値に関する仕様情報)が記載されている。このため、実際には、図面a1は、図面NDに対してある程度の関連性を有しているとも考えられる。
【0118】
以上の通り、画像照合ベース図面検索では、各図面に記載されている仕様情報の内容自体を考慮して、図面NDと図面a1との関連性を評価することはできない。それゆえ、図面NDとは見た目が異なっているものの、類似した内容自体が記載されている過去図面(図8の例では、図面b1)を、適切に検索することはできない。
【0119】
これに対し、情報処理装置1sでは、画像照合ベース図面検索とは異なり、各図面に記載されている特定文字列に着目し、内容パラメータ(検索対象図面内容パラメータおよびターゲット図面内容パラメータ)が設定される。すなわち、情報処理装置1sでは、各図面に記載されている仕様情報の内容自体を考慮できる。そして、当該内容パラメータに基づき、図面NDと各過去図面との関連性が評価(例:スコアリング)される。
【0120】
それゆえ、情報処理装置1sによれば、画像照合ベース図面検索とは異なり、図面NDとは見た目が異なっているものの、類似した内容自体が記載されている過去図面(例:図面b1)を、適切に検索できる。このように情報処理装置1sは、画像照合ベース図面検索に比べ、図面検索に適している。
【0121】
また、過去図面の数が多くなるほど、従来の図面検索システム(または、画像照合ベース図面検索)によって、所定の新規図面と関連性が高い過去図面を適切に検索することがより困難となる。それゆえ、情報処理装置1sは、過去図面の数が多くなるほど、ユーザの利便性向上により有益である。
【0122】
〔変形例〕
(1)本発明の一態様に係る情報処理装置は、プラントエンジニアリング以外の分野における図面の検索についても適用可能である。本発明の一態様に係る図面は、上記図面検索装置によって内容パラメータを取得することが可能な図面であればよい。
【0123】
(2)参考形態では、学習モデル生成部113sにおいて、多項ロジスティック回帰を用いて学習モデルを生成する場合を例示した。但し、学習モデルの生成手法(機械学習アルゴリズム)は、これに限定されない。
【0124】
学習モデル生成部113sは、上述の教師データを用いた機械学習により、学習モデルを生成できればよい。学習モデル生成部113sは、公知の機械学習アルゴリズムを用いて、学習モデルを生成できればよい。
【0125】
(3)検索結果データ生成部124sは、候補gとして選択した図面に対応する所定のデータを、さらに取得してもよい。図8の例の場合、検索結果データ生成部124sは、図面b1(候補1)に対応する、所定の機器の仕様データを取得してもよい。プラントエンジニアリングの各種の計画では、過去図面とともに、当該過去図面に記載された所定の機器の仕様がともに参照される場合が多いためである。
【0126】
この場合、検索結果データ生成部124sは、検索結果データとともに、仕様データをユーザに提示できる。それゆえ、ユーザの利便性をさらに向上させることができる。一例として、情報処理装置1sでは、図面a1~MNと仕様データとの対応関係を示すテーブルが予め準備されていてよい。検索結果データ生成部124sは、当該テーブルを参照し、候補gに対応する仕様データを取得すればよい。
【0127】
〔実施形態1〕
図9は、実施形態1の情報処理システム100の要部の構成を示すブロック図である。情報処理システム100の情報処理装置を、情報処理装置1と称する。情報処理装置1の制御装置を、制御装置10と称する。制御装置10の学習装置および図面検索装置をそれぞれ、学習装置11(モデル生成装置)および図面検索装置12と称する。
【0128】
(学習装置11)
学習装置11は、学習装置11sとは異なり、学習用前処理部114をさらに備える。また、学習装置11は、学習装置11sの学習モデル生成部113sに替えて、学習モデル生成部113(学習部)を備える。なお、以下の説明では、特に明示されない限り、内容パラメータは、過去図面内容パラメータを指すものとする。同様に、特に明示されない限り、内容パラメータセットは、過去図面内容パラメータセットを指すものとする。
【0129】
実施形態1では、過去図面内容パラメータ取得部112は、第k内容パラメータを取得するとともに、当該第k内容パラメータの変数種類を示す情報(第k内容パラメータ変数種類情報)をさらに取得する。第k内容パラメータ変数種類情報とは、第k内容パラメータの変数種類(データ種類)を示す情報である。具体的には、第k内容パラメータ変数種類情報とは、第k内容パラメータが質的変数(以下、VLと表記する)または量的変数(以下、VNと表記する)のいずれであるかを示す情報である。以下、第1~第k内容パラメータ変数種類情報を総称的に、内容パラメータ変数種類情報と称する。
【0130】
一例として、過去図面内容パラメータ取得部112は、上述の構文解析の結果に基づいて、内容パラメータ変数種類情報を取得してよい。例えば、上述の通り、過去図面内容パラメータ取得部112は、構文解析の結果、第1特定文字列「電圧値」に後続する文字列「90V」に含まれる数値「90」が、電圧値の大きさであると判定する。この場合、過去図面内容パラメータ取得部112は、第1内容パラメータはVNであると判定する。同様に、過去図面内容パラメータ取得部112は、第2内容パラメータはVNであると判定する。
【0131】
また、過去図面内容パラメータ取得部112は、構文解析の結果、第3特定文字列「OR」は、量的変数に対応する文字が後続していない旨を判定する。この場合、過去図面内容パラメータ取得部112は、第3内容パラメータはVLであると判定する。同様に、過去図面内容パラメータ取得部112は、第L内容パラメータはVLであると判定する。
【0132】
(学習用前処理部114における処理の一例)
学習用前処理部114は、過去図面内容パラメータ取得部112から、図面a1~MNに対応する内容パラメータセット(図面a1~MNのそれぞれの第1~第L内容パラメータ)、および、内容パラメータ変数種類情報を取得する。そして、学習用前処理部114は、取得した内容パラメータ変数種類情報に応じて、内容パラメータ設定テーブルTB6を生成する。
【0133】
以下の説明では、図面a1~M1(外形図)の内容パラメータセット(図面a1~M1のそれぞれの第1~第L内容パラメータ)に基づく各処理について主に述べる。従って、以下に述べる各図におけるテーブルおよびデータは、外形図の内容パラメータセットに基づいて生成されている。これらのテーブルおよびデータは、図2に示されるその他の種類の図面(例:組立図、基礎図、および構成図)についても、外形図に関する以下の説明と同様の処理の流れによって生成されることに留意されたい。このように、実施形態1では、これらのテーブルおよびデータは、図2に示されている図面の種類毎に生成される。
【0134】
図10には、初期状態におけるTB6の一例が示されている。図10に示す通り、TB6は、(i)第1~第L内容パラメータのそれぞれの変数種類(データ種類)と、(ii)当該第1~第L内容パラメータのそれぞれに適用すべき前処理手法と、の対応関係を示す表である。学習用前処理部114は、取得した内容パラメータ変数種類情報を、TB6の「変数」の項目に記録する。なお、第1~第L内容パラメータのそれぞれに適用すべき前処理手法は、現段階では未決定である。このため、初期状態のTB6では、「前処理手法」の項目は全てブランク項目として設定されている。本明細書では、初期状態のTB6を、TB6initとも称する。
【0135】
続いて、学習用前処理部114は、第k内容パラメータ変数種類情報に応じて、第k内容パラメータに複数種類の前処理手法を適用する。具体的には、実施形態1では、学習用前処理部114は、第k内容パラメータがVLである場合には、第kパラメータに対し、以下の(i)~(iv)、
(i)生値(Raw値)をそのまま用いる処理(恒等処理)(以下、[R]と表記);
(ii)ワンホットエンコーディング(One hot Encoding)(以下、[O]と表記);
(iii)正規化(Normalization)(以下、[N]と表記);
(iiii)標準化(Standardization)(以下、[S]と表記);
という4種類の前処理手法を適用する。
【0136】
なお、第k内容パラメータがVLである場合には、当該第k内容パラメータは、第k特定文字列が過去図面内容パラメータ取得部112によってラベルエンコーディング(Label Encoding)(以下、[L]と表記)されることによって導出された値であると理解することもできる。このため、第k内容パラメータがVLである場合には、[R]は[L]に読み替えることができる。このように、第k内容パラメータがVLである場合には、[R]と[L]とは、等価な前処理手法である。なお、前処理手法[L]の一例については、後述する。
【0137】
他方、学習用前処理部114は、第k内容パラメータがVNである場合には、第kパラメータに対し、以下の(i)~(v)、
(i)[R];
(ii)[L];
(iii)[O];
(iv)[N];
(v)[S];
という5種類の前処理手法を適用する。但し、当業者であれば明らかである通り、本発明の一態様に係る前処理手法は、これらの例に限定されない。本発明の一態様に係る前処理手法は、VLまたはVNに適用可能な任意の前処理手法であってよい。
【0138】
以上の通り、学習用前処理部114は、内容パラメータセットに含まれる各内容パラメータに対し、第k内容パラメータ変数種類情報に応じた複数種類の前処理手法を適用することにより、当該内容パラメータセットを拡張(水増し)(data augmentation)する。以下、内容パラメータセットに含まれているVLおよびVNの個数を、FLおよびFNとそれぞれ表記する。
【0139】
上記の説明から明らかである通り、実施形態1の例では、内容パラメータセットに対する前処理のパターンの組み合わせの総数は、4FL×5FN通りである。従って、実施形態1では、学習用前処理部114は、1つの内容パラメータセットを、4FL×5FN個の内容パラメータセットへと拡張する。以下、当該4FL×5FN個の内容パラメータセットを、総称的に拡張後内容パラメータセットと称する。そして、当該4FL×5FN個の内容パラメータセットのそれぞれを、データセット1、データセット2、…、データセット4FL×5FNと称する。拡張後内容パラメータセットは、前処理後内容パラメータセットと称されてもよい。
【0140】
なお、参考形態における説明から理解される通り、過去図面内容パラメータセットは、検索対象図面内容パラメータセットと称されてもよい。従って、実施形態1における拡張後内容パラメータセットは、過去図面拡張後内容パラメータセット(あるいは、検索対象図面内容パラメータセット)と称されてもよい。同様に、前処理後内容パラメータセットは、前処理後過去図面内容パラメータセット(あるいは、前処理後検索対象図面内容パラメータセット)と称されてもよい。
【0141】
図11には、各データセットにおける前処理後内容パラメータの数(以下、前処理後内容パラメータ数と称する)の一例が示されている。1つのデータセット(例:データセット1)における前処理後内容パラメータ数は、同データセットに含まれるデータの数とも表現できる。従って、例えば、データセット1における前処理後内容パラメータ数は、データセット1の次元数(要素数)と称されてもよい。また、以下では、前処理後の第k内容パラメータを、前処理後第k内容パラメータと称する。
【0142】
以下に述べる図12からも明らかである通り、前処理後内容パラメータ数は、内容パラメータセットに含まれる各内容パラメータに対して適用される前処理手法に応じて変化しうる。例えば、より多くの内容パラメータに対して[O]が適用されるほど、前処理後内容パラメータ数が増加する傾向がある(後述の図14も参照)。
【0143】
図12は、データセット1のデータ構造を模式的に例示する図である。図12の例におけるデータセット1は、(i)第1内容パラメータに対して[S]が、(ii)第2内容パラメータに対して[S]が、(iii)第3内容パラメータに対して[O]が、(iv)第L内容パラメータに対して[L]が、それぞれ施されることにより、生成されたデータ構造(例:データフレーム)である(後述の図14も参照)。
【0144】
図12の例では、第3内容パラメータ(第3特定文字列「OR」に対応する内容パラメータ)がワンホットエンコーディングされることにより、「OR_0」、「OR_1」、「OR_2」、および「OR_3」という、4つの前処理後内容パラメータが生成されている。
【0145】
説明の便宜上の一例として、内容パラメータセットに含まれる第3内容パラメータ(A3)の最小値が0であり、最大値が3である場合を考える。すなわち、内容パラメータセットにおいて、A3が0から3までの4通りの離散値をとっている場合を考える。この場合、A3のそれぞれの値は、4次元のワンホットベクトル(より具体的には、4ビットのワンホットベクトル)によって表現可能である。
【0146】
例えば、A3=0である場合、
OR_0=(1,0,0,0);
OR_1=(0,0,0,0);
OR_2=(0,0,0,0);
OR_3=(0,0,0,0);
である。
【0147】
また、A3=1である場合、
OR_0=(0,0,0,0);
OR_1=(0,1,0,0);
OR_2=(0,0,0,0);
OR_3=(0,0,0,0);
である。
【0148】
また、A3=2である場合、
OR_0=(0,0,0,0);
OR_1=(0,0,0,0);
OR_2=(0,0,1,0);
OR_3=(0,0,0,0);
である。
【0149】
また、A3=3である場合、
OR_0=(0,0,0,0);
OR_1=(0,0,0,0);
OR_2=(0,0,0,0);
OR_3=(0,0,0,1);
である。以上の通り、A3=i(iは、0から3までの任意の自然数)であることは、i番目の要素のみに成分「1」を有するワンホットベクトルOR_iによって表現される。
【0150】
続いて、前処理手法[N]の一例について説明する。以下では、学習用前処理部114が、第k内容パラメータ(Ak)を正規化する場合を例示する。まず、学習用前処理部114は、内容パラメータセットから、Akの最大値(Akmax)および最小値(Akmin)を取得する。
【0151】
そして、学習用前処理部114は、
Ak_Normalized=(Ak-Akmin)/(Akmax-Akmin)
…(4)
の通り、Ak_Normalizedを算出する。Ak_Normalizedは、正規化後第k内容パラメータ(より詳細には、正規化後過去図面第k内容パラメータ)と称される。また、正規化後第1~第L内容パラメータを総称的に、正規化後内容パラメータ(より詳細には、正規化後過去図面内容パラメータ)と称する。正規化後内容パラメータは、前処理後内容パラメータの一例である。
【0152】
以上の通り、学習用前処理部114は、式(4)に従って、AkをAk_Normalizedへと正規化する。正規化は、Min-Maxスケーリングとも称される。式(4)から理解される通り、[N]によって生成されたデータセットでは、正規化後内容パラメータの最小値は0であり、最大値は1である。
【0153】
さらに、前処理手法[S]の一例について説明する。以下では、学習用前処理部114が、Akを標準化する場合を例示する。まず、学習用前処理部114は、内容パラメータセットから、Akの平均値(Akmean)および標準偏差(Aksd)を導出する。
【0154】
続いて、学習用前処理部114は、
Ak_Standardized=(Ak-Akmean)/Aksd …(5)
の通り、Ak_Standardizedを算出する。Ak_Standardizedは、標準化後第k内容パラメータ(より詳細には、標準化後過去図面第k内容パラメータ)と称される。また、標準化後第1~第L内容パラメータを総称的に、標準化後内容パラメータ(より詳細には、標準化後過去図面内容パラメータ)と称する。標準化後内容パラメータは、前処理後内容パラメータの一例である。
【0155】
以上の通り、学習用前処理部114は、式(5)に従って、AkをAk_Standardizedへと標準化する。式(5)から理解される通り、[S]によって生成されたデータセットでは、標準化後内容パラメータの平均値は0であり、標準偏差は1である。
【0156】
学習用前処理部114は、[S]の過程にて取得したAkmaxおよびAkminを記録した表(標準化用データ表)を生成してもよい。同様に、学習用前処理部114は、[N]の過程にて取得したAkmeanおよびAksdを記録した表(正規化用データ表)を生成してもよい。
【0157】
図13の正規化用データ表1300Aおよび標準化用データ表1300Bはそれぞれ、実施形態1における正規化用データ表および標準化用データ表の一例である。具体的には、正規化用データ表1300Aおよび標準化用データ表1300Bはそれぞれ、データセット1の生成に伴って生成された表である。
【0158】
上述の説明から理解される通り、[N]が施されない第k内容パラメータについては、AkmaxおよびAkminがそもそも取得されない。このため、正規化用データ表1300Aでは、[N]が施されない第k内容パラメータについては、AkmaxおよびAkminに、ダミー値(例:0)が割り当てられる。
【0159】
上述の例では、データセット1における前処理後第1~第3内容パラメータおよび前処理後第L内容パラメータはいずれも、[N]以外の前処理手法によって導出されている。このため、図13に示される通り、正規化用データ表1300Aでは、前処理後第1~第3内容パラメータおよび前処理後第N内容パラメータについては、AkmaxおよびAkminとして、ダミー値である0が記録される。
【0160】
実施形態1では、学習用前処理部114によって、A1mean=71.9、A1sd=10.5、A2mean=2.4、A2sd=0.6が取得された場合を例示する。この場合、学習用前処理部114は、標準化用データ表1300Bの第1内容パラメータおよび第2内容パラメータのそれぞれの項目に、これらの値を記録する。
【0161】
なお、[S]が施されない第k内容パラメータについては、AkmeanおよびAksdがそもそも取得されない。このため、標準化用データ表1300Bでは、[S]が施されない第k内容パラメータについては、AkmeanおよびAksdに、ダミー値(例:0)が割り当てられる。図13の例では、前処理後第3内容パラメータおよび前処理第L内容パラメータはいずれも、[S]以外の前処理手法によって導出されている。このため、標準化用データ表1300Bでは、前処理後第3内容パラメータおよび前処理第L内容パラメータについては、AkmaxおよびAkminとして、ダミー値である0が記録される。
【0162】
学習用前処理部114は、各データセットと各前処理手法との対応関係を示すテーブル(データセット・前処理手法対応テーブル)を生成してよい。図14のテーブルTB7は、データセット・前処理手法対応テーブルの一例である。なお、図14の例において、データセット1に対応する前処理手法にハッチングが付されている趣旨については後述する。
【0163】
図15には、学習用前処理部114によって生成されたデータセットの一部が例示されている。図15において、符号1500Aはデータセット1を、符号1500Bはデータセット2を、符号1500Cはデータセット4FL×5FNを、それぞれ表す。上述の説明から理解される通り、データセット1における前処理後第1~第2内容パラメータはそれぞれ、標準化後第1~第2内容パラメータである。標準化後第1内容パラメータおよび標準化後第2内容パラメータはそれぞれ、上述の式(5)に従って第1内容パラメータおよび第2内容パラメータが標準化された値である。
【0164】
上述の図14から理解される通り、図15の例におけるデータセット2は、データセット1とは異なり、第3内容パラメータに対して[L]が適用されることにより生成されている。その他の内容パラメータに対する前処理手法については、データセット1の例と同様である。
【0165】
以上の通り、データセット2では、データセット1とは異なり、第3内容パラメータに対して[O]が適用されていない。それゆえ、データセット2の次元数は、データセット1の次元数よりも小さい。具体的には、上述の図11に示す通り、データセット1の次元数は50であり、データセット2の次元数は28である。
【0166】
また、上述の図14から理解される通り、図15の例におけるデータセット4FL×5FNは、データセット1・2とは異なり、全ての内容パラメータに対して[O]が適用されることにより生成されている。このため、データセット4FL×5FNの次元数は、データセット1・2の次元数に比べて大きい。具体的には、図11に示す通り、データセット4FL×5FNの次元数は151である。
【0167】
(学習モデル生成部113における学習フェーズ)
学習モデル生成部113における処理は、学習フェーズと検証フェーズとに大別できる。まず、学習フェーズについて述べる。学習モデル生成部113は、学習用前処理部114から拡張後内容パラメータセット(データセット1~データセット4FL×5FN)を取得する。そして、学習モデル生成部113は、データセット1~データセット4FL×5FNのそれぞれを、訓練データと検証データとに分割する。
【0168】
学習モデル生成部113は、データセット1~4FL×5FNの内の任意の1つのデータセット(便宜上、注目データセットと称する)に対し、所定の複数種類の機械学習アルゴリズムのそれぞれを適用することによって、複数の学習モデルを生成する。具体的には、学習モデル生成部113は、所定の複数種類の機械学習アルゴリズムのそれぞれを適用することによって、注目データセットの訓練データを用いて、複数の学習モデルを生成する。
【0169】
一例として、学習モデル生成部113は、所定の複数種類の機械学習アルゴリズムのそれぞれを適用することによって、データセット1の訓練データを用いて、データセット1に対応する複数の学習モデルを生成する。このように、学習モデル生成部113は、注目データセットに対応する複数の学習モデルを生成する。
【0170】
実施形態1の例では、複数種類の機械学習アルゴリズムには、勾配ベースの機械学習アルゴリズムと距離ベースの機械学習アルゴリズムとが含まれる。勾配ベースの機械学習アルゴリズムとは、勾配降下法を利用した機械学習アルゴリズムである。勾配ベースの機械学習アルゴリズムの具体例としては、DT(Decision Tree,決定木)、LR(Logistic Regression,ロジスティック回帰)、およびNN(Neural Network,ニューラルネットワーク)を挙げることができる。参考形態において述べた多項ロジスティック回帰は、RSの一例である。
【0171】
なお、当然ながら、本発明の一態様に係る勾配ベースの機械学習アルゴリズムは、これらの例に限定されず、公知のその他のアルゴリズムが適用されてよい。この点については、以下に述べる距離ベースの機械学習アルゴリズムについても同様である。
【0172】
本発明の一態様に係るDTとは、より厳密には、GBDT(Gradient Boosting DT,勾配ブースティング決定木)を意味する。従って、本発明の一態様に係るDTの例としては、XGBoost(eXtreme Gradient Boosting)およびLightGBM(Light Gradient Boosting Machine)を挙げることができる。
【0173】
距離ベースの機械学習アルゴリズムとは、各入力データに含まれる1つ以上のパラメータの分布を示す距離空間における各入力データ間の距離に基づいて、各入力データを評価(例:分類)する機械学習アルゴリズムである。距離ベースの機械学習アルゴリズムの具体例としては、SVM(Support Vector Machine,サポートベクターマシン)および重回帰を挙げることができる。
【0174】
以上の通り、学習モデル生成部113は、データセット1~4FL×5FNのそれぞれに対して各機械学習アルゴリズムを網羅的に(総当たりで)適用することにより、複数の学習モデルを生成してよい。これにより、以下に述べる検証フェーズにおいて評価(検証)の対象となる学習モデルを、十分な数だけ生成できる。
【0175】
加えて、学習モデル生成部113は、ある機械学習アルゴリズムの各ハイパーパラメータセットを変更してもよい。この場合、学習モデル生成部113は、変更後のハイパーパラメータセットを用いて、同機械学習アルゴリズムを適用して学習モデルをさらに生成する。このように、学習モデル生成部113は、ハイパーパラメータセットをも網羅的に適用することにより、複数の学習モデルを生成してもよい。これにより、さらに多くの学習モデルを生成できる(後述の図16を参照)。
【0176】
(学習モデル生成部113における検証フェーズ)
続いて、検証フェーズについて述べる。学習モデル生成部113は、学習フェーズにおいて生成された複数の学習モデルのそれぞれの品質を、データセット1~4FL×5FNのそれぞれを用いて(より具体的には、データセット1~4FL×5FNのそれぞれの検証データを用いて)評価する。
【0177】
一例として、注目データセットとしてデータセットjを考える。jは、後述するTB8(図16を参照)の列番号を示す添字である。学習モデル生成部113は、データセットjに対応する複数の学習モデルのそれぞれについて、データセットjの検証データを用いて、当該複数の学習モデルのそれぞれの予測精度(判定精度)を示す指標値を取得する。例えば、学習モデル生成部113は、後述するモデル(i,j)にデータセットjの検証データを入力することにより、上記指標値をモデル(i,j)に出力(導出)させる。上記指標値は、モデル(i,j)の品質を示す指標値とも表現できる。
【0178】
実施形態1では、学習モデル生成部113は、上記指標値として、Accuracy(精度)を取得する。このことから、実施形態1における予測精度は、検索精度(より詳細には、過去図面の検索精度)と称されてもよい(図16を参照)。但し、当業者であれば明らかである通り、本発明の一態様に係る指標値は上記の例に限定されず、機械学習分野における公知のその他の指標値が用いられてもよい。従って、例えば、学習モデル生成部113は、指標値として、Precision(適合率)またはRecall(再現率)を取得してもよい。
【0179】
学習モデル生成部113は、取得した複数の指標値に応じて、ベスト学習モデルを選択する。実施形態1の例では、学習モデル生成部113は、複数の指標値の内の最大値(最大指標値)を特定する。そして、学習モデル生成部113は、最大指標値を有する学習モデルを、ベスト学習モデルとして選択する。
【0180】
学習モデル生成部113は、評価フェーズにおける評価結果を示すテーブル(評価結果テーブル)を生成してよい。図16のテーブルTB8は、評価結果テーブルの一例である。TB8では、1つのデータセットと1つの機械学習アルゴリズムと1つのハイパーパラメータセット(例:Para1)と1対1に対応するように、1つの指標値が記録されている。
【0181】
図16の例におけるPara1およびPara2はそれぞれ、ある1つの機械学習アルゴリズム(例:DT)に適用されるハイパーパラメータセット(一連のハイパーパラメータ)を示す。図16の例では、
・DTのPara1:データ分割方法="gni"、最大深度=3、…
・DTのPara2:データ分割方法="entropy"、最大深度=3、…
・LRのPara1:正則化の種類="l2"、正則化項の係数=1.0、…
・LRのPara2:正則化の種類="l2"、正則化項の係数=0.5、…
・NNのPara1:バッチサイズ=256、最大学習回数=1000、…
・NNのPara2:バッチサイズ=128、最大学習回数=1000、…
・SVMのPara1:カーネルの種類="rbf"、正則化項の係数=1.0、…
・SVMのPara2:カーネルの種類="rbf"、正則化項の係数=0.5、…
の通りである。なお、当業者であれば明らかである通り、ハイパーパラメータセットの数は2つに限定されない。例えば、Para1~Para5までの5つのハイパーパラメータセットが、各機械学習アルゴリズムに対して割り当てられてもよい。
【0182】
以下では、TB8のi行j列目の成分を、TB8(i,j)と表記する。また、TB8(i,j)に対応する学習モデルを、モデル(i,j)と称する。TB8では、行方向(i方向)に、機械学習アルゴリズムおよび当該機械学習アルゴリズムのハイパーパラメータセットが配列されている。そして、列方向(j方向)に、データセットが配列されている。従って、一例として、図16におけるTB8(1,1)は、DTにおいてPara1が適用された場合に得られた検索精度である。図16の例では、TB8(i,j)=42.1%である。上述の通り、TB8(1,1)は、Para1が適用されたDTによって生成された学習モデル、すなわちモデル(1,1)の品質を示す指標値とも言える。
【0183】
説明の便宜上、図16の例において、NNのPara1に対応する行番号を、imと表記する。図16の例では、TB8(im,1)=81.6%が、各TB8(i,j)の内の最大値である(TB8においてハッチングが付されているセルを参照)。
【0184】
以上の通り、学習装置11は、図面a1~M1(外形図)の内容パラメータセット(便宜上、第1内容パラメータセットと称する)に基づいて、複数の学習モデルを生成する。そして、学習装置11は、第1内容パラメータセットに基づいて生成した当該複数の学習モデルのそれぞれの品質を評価する(より具体的には、生成した複数の学習モデルのそれぞれの指標値を導出する)。
【0185】
外形図についての上記の例と同様に、学習装置11は、図面の種類毎に、当該図面の内容パラメータセットに基づいて、複数の学習モデルを生成する。そして、学習装置11は、当該内容パラメータセットに基づいて生成した複数の学習モデルのそれぞれの品質を評価する。
【0186】
一例として、学習装置11は、図面a2~M2(組立図)の内容パラメータセット(便宜上、第2内容パラメータセットと称する)に基づいて、複数の学習モデルを生成する。そして、学習装置11は、第2内容パラメータセットに基づいて生成した複数の学習モデルのそれぞれの品質を評価する。別の例として、学習装置11は、図面aN~MN(構成図)の内容パラメータセット(便宜上、第N内容パラメータセットと称する)に基づいて、複数の学習モデルを生成する。そして、学習装置11は、第N内容パラメータセットに基づいて生成した複数の学習モデルのそれぞれの品質を評価する。
【0187】
実施形態1では、以上の通り第1内容パラメータセット~第N内容パラメータセットに基づいて導出された全ての指標値の内、TB8(im,1)が、最大値であるものとする。従って、実施形態1では、学習モデル生成部113は、TB8(im,1)を最大指標値として特定する。そして、学習モデル生成部113は、最大指標値を有する学習モデル、すなわちモデル(im,1)を、ベスト学習モデルとして選択する。以上の通り、実施形態1の例では、学習モデル生成部113は、学習フェーズにおいて生成された複数の学習モデルの内、最も高品質な学習モデルを、ベスト学習モデルとして選択する。なお、本明細書では、ベスト学習モデルに対応する機械学習アルゴリズムを、ベスト機械学習アルゴリズムと称する。図16の例におけるベスト機械学習アルゴリズムは、NNである。
【0188】
なお、当業者であれば明らかである通り、ベスト学習モデルの選択手法は上記の例に限定されない。学習モデル生成部113は、複数の指標値に基づいて、複数の学習モデルの内から、ベスト学習モデルを選択できればよい。例えば、学習モデル生成部113は、複数の指標値に基づいて統計値を導出し、当該統計値に基づいてベスト学習モデルを選択してよい。実施形態1における最大指標値は、統計値の一例である。
【0189】
(学習フェーズについての補足)
ところで、距離ベースの機械学習アルゴリズムは、勾配ベースの機械学習アルゴリズムとは異なり、いわゆる「次元の呪い」の影響を受けることが知られている。このため、注目データセットの次元数が多い場合、距離ベースの機械学習アルゴリズムによって生成された学習モデル(以下、距離ベース学習モデルと称する)は、勾配ベースの機械学習アルゴリズムによって生成された学習モデル(以下、勾配ベース学習モデルと称する)に比べて、低品質な学習モデルとなる傾向にある。このことから、注目データセットの次元数が多い場合、当該注目データセットを用いて生成された距離ベース学習モデルがベスト学習モデルとして選択される可能性はそもそも低いと考えられる。
【0190】
そこで、実施形態1では、学習モデル生成部113は、注目データセットの次元数が所定の次元数閾値Dth以上である場合には、当該注目データセットを用いて距離ベースの機械学習アルゴリズムによって学習モデルを生成することを停止することが好ましい。これにより、品質が低いと予期される学習モデルが生成されることを未然に防止することができるので、学習フェーズにおける演算コストを低減できる。加えて、後続する評価フェーズにおける演算コストを低減することもできる。
【0191】
機械学習分野では、データセットの次元数が30以上の場合、距離ベース学習モデルの品質が低下する傾向が高くなることが経験的に知られている。そこで、例えば、Dthは30以上の所定の値として設定されてよい。実施形態1では、Dth=30に設定されている場合を例示する。
【0192】
上述の通り、実施形態1の例では、データセット1の次元数は50であり、データセット4FL×5FNの次元数は151である。このため、図16の例では、学習モデル生成部113は、データセット1およびデータセット4FL×5FNに対しては、距離ベースの機械学習アルゴリズム(例:SVM)による学習モデルの生成を行わない(TB8において「×」マークが付されているセルを参照)。
【0193】
以上のことから、図16の例では、学習モデル生成部113は、データセット1およびデータセット4FL×5FNに対しては、勾配ベースの機械学習アルゴリズム(例:DT、LR、およびNN)のみを適用して、学習モデルを生成する。このように、学習モデル生成部113は、データセット1およびデータセット4FL×5FNに対しては、距離ベース学習モデルを生成することなく、勾配ベース学習モデルのみを生成する。
【0194】
他方、学習モデル生成部113は、注目データセットの次元数がDth未満である場合には、距離ベースの機械学習アルゴリズムを適用して、当該データセットを用いて学習モデルを生成してもよい。実施形態1の例では、データセット2の次元数は28である。このため、図16の例では、学習モデル生成部113は、データセット2に対しては、勾配ベース学習モデルを生成するとともに、距離ベース学習モデルをさらに生成する。
【0195】
(学習モデル生成部113における検証フェーズ後の処理)
学習モデル生成部113は、TB8に含まれている各データセットのうち、ベスト学習モデルに対応する1つのデータセットを、ベストデータセットとして選択する。図16の例では、学習モデル生成部113は、データセット1をベストデータセットとして選択する。
【0196】
続いて、学習モデル生成部113は、ベストデータセットに対応する前処理手法を、ベスト前処理手法として選択する。実施形態1の例では、学習モデル生成部113は、上述のTB7を参照し、データセット1に対応する前処理手法を、ベスト前処理手法として読み出す(図14のハッチング箇所を参照)。以上の説明から理解される通り、学習モデル生成部113は、ベスト学習モデルに対応する前処理手法を、ベスト前処理手法として選択する。
【0197】
続いて、学習モデル生成部113は、上述のTB6initにおける「前処理手法」の項目に、ベスト前処理手法を記録することにより、TB6initを更新する。本明細書では、更新後の内容パラメータ設定初期テーブルを、TB6newとも称する。図17には、TB6newの一例が示されている。図17の例では、データセット1に対応する前処理手法(換言すれば、ベスト学習モデルに対応する前処理手法)が、ベスト前処理手法として、「前処理手法」の項目に記録されている。
【0198】
(図面検索装置12)
図9を再び参照し、図面検索装置12について説明する。図面検索装置12は、図面検索装置12sとは異なり、検索用前処理部125をさらに備える。また、図面検索装置12は、スコア演算部123sおよび検索結果データ生成部124sに替えて、検索部126をさらに備える。
【0199】
(検索用前処理部125における処理の一例)
検索用前処理部125は、新規図面内容パラメータ取得部122から、図面NDに対応する内容パラメータセット(便宜上、新規図面内容パラメータセットと称する)を取得する。具体的には、新規図面内容パラメータセットとは、図面NDの第1~第L内容パラメータ(C1~CL)を含むデータセットを意味する。一例として、検索用前処理部125は、新規図面内容パラメータ取得部122から、上述のTB-NDを取得する(図7を参照)。
【0200】
また、検索用前処理部125は、学習モデル生成部113から、ベスト前処理手法を取得する。一例として、検索用前処理部125は、学習モデル生成部113からTB6を取得し、TB6からベスト前処理手法を読み出す。
【0201】
続いて、検索用前処理部125は、ベスト前処理手法に従って、新規図面内容パラメータセットに対して前処理を施すことにより、前処理後新規図面内容パラメータセットを生成する。すなわち、検索用前処理部125は、ベスト前処理手法と同じ前処理手法をC1~CLのそれぞれに施すことにより、前処理後新規図面内容パラメータセットを生成する。実施形態1の例では、検索用前処理部125は、(i)C1に[S]を施し、(ii)C2に[S]を施し、(iii)C3に[O]を施し、かつ、(iv)CLに[L]を施す。
【0202】
なお、参考形態における説明から理解される通り、新規図面内容パラメータセットは、ターゲット図面内容パラメータセットと称されてもよい。従って、前処理後新規図面内容パラメータセットは、前処理後ターゲット図面内容パラメータセットと称されてもよい。
【0203】
検索用前処理部125は、前処理後新規図面内容パラメータセットを示すテーブル(前処理後新規図面内容パラメータテーブル)を生成してよい。図18に示されているTB-NDPは、実施形態1における前処理後新規図面内容パラメータテーブルの一例である。上述の説明から明らかである通り、前処理後新規図面内容パラメータセットは、データセット1と同じデータ構造を有している(上述の図12も参照)。
【0204】
なお、検索用前処理部125における前処理手法[S]の一例について説明すれば、次の通りである。以下では、検索用前処理部125によって、Ck(図面NDの第k内容パラメータ)を標準化する場合について述べる。
【0205】
まず、検索用前処理部125は、上述の標準化用データ表1300Bを参照し、AkmeanおよびAksdを取得する。続いて、検索用前処理部125は、
Ck_Standardized=(Ck-Akmean)/Aksd …(6)
の通り、Ck_Standardizedを算出する。Ck_Standardizedは、図面NDにおける標準化後の第k内容パラメータである。Ck_Standardizedは、標準化後新規図面第k内容パラメータとも称される。標準化後新規図面第k内容パラメータは、前処理後新規図面第k内容パラメータの一例である。
【0206】
また、検索用前処理部125における前処理手法[N]の一例について説明すれば、次の通りである。まず、検索用前処理部125は、上述の正規化用データ表1300Aを参照し、AkmaxおよびAkminを取得する。続いて、検索用前処理部125は、
Ck_Normalized=(Ck-Akmin)/(Akmax-Akmin)
…(7)
の通り、Ck_Normalizedを算出する。Ck_Normalizedは、図面NDにおける正規化後の第k内容パラメータである。Ck_Normalizedは、正規化後新規図面第k内容パラメータとも称される。正規化後新規図面第k内容パラメータは、前処理後新規図面第k内容パラメータの別の例である。
【0207】
(検索部126における検索フェーズ)
検索部126は、検索用前処理部125から、前処理後新規図面内容パラメータセットを取得する。また、検索部126は、学習モデル生成部113から、ベスト学習モデルを取得する。検索部126は、前処理後新規図面内容パラメータセットをベスト学習モデルに入力する。そして、検索部126は、前処理後新規図面内容パラメータセットに応じたベスト学習モデルの出力を、ベスト学習モデルから取得する。
【0208】
一例として、ベスト学習モデルが上述の関連性スコアを出力(導出)するように訓練された学習モデルである場合を考える。この場合、検索部126は、ベスト学習モデルに前処理後新規図面内容パラメータセットを入力することにより、当該前処理後新規図面内容パラメータセットに応じた関連性スコアを、ベスト学習モデルに出力させる。そして、検索部126は、参考形態と同様に、ベスト学習モデルの出力(例:関連性スコア)に基づいて、図面NDに対応する少なくとも1つの過去図面を検索する。
【0209】
(実施形態1の効果)
情報処理システム100(情報処理装置1)によっても、参考形態と同様に、図面検索におけるユーザの利便性を従来よりも高めることが可能となる。加えて、学習装置11によれば、参考形態とは異なり、検索対象図面内容パラメータセット(過去図面内容パラメータセット)に対して複数種類の前処理手法が網羅的に施されることにより、当該検索対象図面内容パラメータセットが拡張される。すなわち、複数の前処理後検索対象図面内容パラメータセットが生成される。
【0210】
続いて、複数の機械学習アルゴリズムを適用することにより、複数の前処理後検索対象図面内容パラメータセット(例:データセット1~4FL×5FN)を用いて、複数の学習モデルが生成される。そして、複数の学習モデルのそれぞれの品質を示す指標値(例:過去図面の検索精度)に基づいて、当該複数の学習モデルの内から、ベスト学習モデルが選択される。言い換えれば、上記指標値に基づいて、複数の機械学習アルゴリズムの内から、ベスト機械学習アルゴリズムが選択される。続いて、ベスト学習モデルに対応するベスト前処理手法が選択される。
【0211】
一般的に、機械学習アルゴリズムによって生成される学習モデルの品質は、学習用データ(例:検索対象図面内容パラメータセット)に適用される前処理手法に応じて変化しうる。加えて、学習モデルの品質は、前処理後の学習用データに適用される機械学習アルゴリズムの種類に応じても変化しうる。
【0212】
適切な前処理手法および機械学習アルゴリズムが選択された場合には、高品質な学習モデルを生成することが可能である。但し、機械学習分野において適用可能な前処理手法および機械学習アルゴリズムの種類は、多岐に亘っている。このため、学習モデルの品質向上に好適な(理想的には最適な)前処理手法および機械学習アルゴリズムの組み合わせを、ユーザが人為的に選択することは必ずしも容易ではない。
【0213】
そこで、学習装置11では、上述の通り、生成された複数の学習モデルのそれぞれを、上記指標値に基づいて網羅的に評価することにより、ベスト学習モデルおよびベスト前処理手法が選択される。すなわち、生成された複数の学習モデルに対してグリッドサーチを行うことにより、ベスト学習モデルおよびベスト前処理手法が選択される。
【0214】
上記の構成によれば、ユーザの人為的な選択を経ることなく、ベスト学習モデルおよびベスト前処理手法を特定することができる。すなわち、学習モデルの品質向上に最適である(少なくとも好適である)と期待される前処理手法および機械学習アルゴリズムの組み合わせを、学習装置11によって自動的に選択できる。
【0215】
その後、図面検索装置12では、学習装置11によって選択されたベスト前処理手法に従って、ターゲット図面内容パラメータセット(新規図面内容パラメータセット)に対して前処理が施される。すなわち、ベスト前処理手法に従って、前処理後ターゲット図面内容パラメータセット(前処理後新規図面内容パラメータセット)が生成される。
【0216】
上記の構成によれば、ベスト学習モデルに適したデータ構造を有する入力データセットとして、前処理後ターゲット図面内容パラメータセットが生成される。このため、当該前処理後ターゲット図面内容パラメータセットをベスト学習モデルに入力することにより、参考形態に比べてさらに高精度な学習モデルの出力(例:ベスト学習モデルによって導出された関連性スコア)を得ることができる。
【0217】
以上の通り、情報処理システム100では、(i)学習装置11によって予め選択されたベスト前処理手法、および、(ii)学習装置11によって予め生成されたベスト学習モデルを用いて、図面検索装置12に検索を行わせることができる。その結果、情報処理システム100によれば、参考形態に比べてさらに高い検索精度を実現できる。
【0218】
(補足)
前処理手法[L]の一例について、以下に説明する。実施形態1では、学習用前処理部114は、生値・ラベル値変換テーブルに従って、生値(過去図面内容パラメータ取得部112によって取得された内容パラメータ)をラベルエンコーディングしてよい。具体的には、学習用前処理部114は、ある生値と当該生値に対応するラベル値の対応関係を示すテーブル(以下、生値・ラベル値変換テーブルと称する)に従って、生値をラベル値へと変換してよい。
【0219】
一例として、情報処理システム100では、第1~第L内容パラメータのそれぞれについて、個別の生値・ラベル値変換テーブルが予め設定されている。以下、第k内容パラメータに対応する生値・ラベル値変換テーブルを、第k生値・ラベル値変換テーブルと称する。
【0220】
図19には、複数の生値・ラベル値変換テーブルの内の一部が例示されている。図19において、(i)符号1900-1は第1生値・ラベル値変換テーブルを、(ii)符号1900-2は第2生値・ラベル値変換テーブルを、(iii)符号1900-3は第3生値・ラベル値変換テーブルを、(iv)符号1900-Lは第L生値・ラベル値変換テーブルを、それぞれ表す。
【0221】
図19の例では、学習用前処理部114は、第k生値・ラベル値変換テーブルに従って、第k内容パラメータをラベルエンコーディングしてよい。例えば、学習用前処理部114は、第1生値・ラベル値変換テーブルに従って、第1内容パラメータをラベルエンコーディングする。また、学習用前処理部114は、第L生値・ラベル値変換テーブルに従って、第L内容パラメータをラベルエンコーディングする。
【0222】
以上の通り、第k内容パラメータの変数種類によらず(すなわち、第k内容パラメータがVLまたはVNのいずれであっても)、当該第k内容パラメータに対し、前処理手法[L]が施されてよい。なお、上述の通り、第k内容パラメータがVLである場合には、[L]は、[R]と等価な前処理手法であると言える。
【0223】
別の例として、情報処理システム100では、第1~第L生値・ラベル値変換テーブルを統合したテーブル(以下、生値・ラベル値変換統合テーブルと称する)が予め作成されていてもよい。図20における符号2000は、生値・ラベル値変換統合テーブルの一例を表す。
【0224】
図20の例において、生値・ラベル値変換統合テーブルのk行目は、第k生値・ラベル値変換テーブルに対応する。従って、学習用前処理部114は、生値・ラベル値変換統合テーブルのk行目を参照し、第k内容パラメータをラベルエンコーディングしてもよい。例えば、学習用前処理部114は、生値・ラベル値変換統合テーブルの2行目を参照し、第2内容パラメータをラベルエンコーディングする。
【0225】
〔ソフトウェアによる実現例〕
情報処理システム100s・100(以下、単に「システム」と称する)の機能は、当該システムとしてコンピュータを機能させるためのプログラムであって、当該システムの各制御ブロック(特に制御装置10s・10に含まれる各部)としてコンピュータを機能させるためのプログラムにより実現することができる。
【0226】
この場合、上記システムは、上記プログラムを実行するためのハードウェアとして、少なくとも1つの制御装置(例えばプロセッサ)と少なくとも1つの記憶装置(例えばメモリ)を有するコンピュータを備えている。この制御装置と記憶装置により上記プログラムを実行することにより、上記各実施形態で説明した各機能が実現される。
【0227】
上記プログラムは、一時的ではなく、コンピュータ読み取り可能な、1または複数の記録媒体に記録されていてもよい。この記録媒体は、上記システムが備えていてもよいし、備えていなくてもよい。後者の場合、上記プログラムは、有線または無線の任意の伝送媒体を介して上記システムに供給されてもよい。
【0228】
また、上記各制御ブロックの機能の一部または全部は、論理回路により実現することも可能である。例えば、上記各制御ブロックとして機能する論理回路が形成された集積回路も本発明の範疇に含まれる。この他にも、例えば量子コンピュータにより上記各制御ブロックの機能を実現することも可能である。
【0229】
また、上記各実施形態で説明した各処理は、AI(Artificial Intelligence:人工知能)に実行させてもよい。この場合、AIは上記制御装置で動作するものであってもよいし、他の装置(例えばエッジコンピュータまたはクラウドサーバ等)で動作するものであってもよい。
【0230】
〔付記事項〕
本発明の一態様は、上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の一態様の技術的範囲に含まれる。
【符号の説明】
【0231】
1 情報処理装置
10 制御装置
11 学習装置(モデル生成装置)
12 図面検索装置
100 情報処理システム
111 過去図面データ取得部
112 過去図面内容パラメータ取得部(検索対象図面内容パラメータ取得部)
113 学習モデル生成部(学習部)
114 学習用前処理部
121 新規図面データ取得部
122 新規図面内容パラメータ取得部(ターゲット図面内容パラメータ取得部)
125 検索用前処理部
126 検索部
a1~MN 図面(過去図面,検索対象図面)
ND 図面(新規図面,ターゲット図面)
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20