IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ トヨタ自動車株式会社の特許一覧

特許7683457材料のスペクトルデータを用いた材料内含有元素種推定システム
<>
  • 特許-材料のスペクトルデータを用いた材料内含有元素種推定システム 図1
  • 特許-材料のスペクトルデータを用いた材料内含有元素種推定システム 図2
  • 特許-材料のスペクトルデータを用いた材料内含有元素種推定システム 図3
  • 特許-材料のスペクトルデータを用いた材料内含有元素種推定システム 図4
  • 特許-材料のスペクトルデータを用いた材料内含有元素種推定システム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-05-19
(45)【発行日】2025-05-27
(54)【発明の名称】材料のスペクトルデータを用いた材料内含有元素種推定システム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20250520BHJP
   G06N 3/02 20060101ALI20250520BHJP
【FI】
G06T7/00 350C
G06N3/02
【請求項の数】 1
(21)【出願番号】P 2021176900
(22)【出願日】2021-10-28
(65)【公開番号】P2023066428
(43)【公開日】2023-05-16
【審査請求日】2024-02-14
【新規性喪失の例外の表示】特許法第30条第2項適用 https://towardsdatascience.com/automatic-spectral-identificationusing-deep-metric-learning-with-1d-regnet-and-adacos-8b7fb36f2d5f 公開日:令和3年8月13日 〔刊行物等〕 https://github.com/ma921/XRDidentifier https://github.com/ma921/XRDidentifier/blob/main/COD-selection.txt https://github.com/ma921/XRDidentifier/blob/main/convertXRDspectra.py https://github.com/ma921/XRDidentifier/blob/main/download_cif_from_cod.py https://github.com/ma921/XRDidentifier/blob/main/net1d.py https://github.com/ma921/XRDidentifier/blob/main/read_cif.py https://github.com/ma921/XRDidentifier/blob/main/train_expert.py https://github.com/ma921/XRDidentifier/blob/main/utils_moe.py 公開日:令和3年8月13日 https://github.com/ma921/XRDidentifier/blob/main/README.md 公開日:令和3年8月13日 更新日:令和3年8月15日 〔刊行物等〕https://github.com/ma921/XRDidentifier https://github.com/ma921/XRDidentifier/blob/main/README.md https://github.com/ma921/XRDidentifier/blob/main/train_expert.py 更新日:令和3年9月16日
【新規性喪失の例外の表示】特許法第30条第2項適用 https://github.com/ma921/XRDidentifier/blob/main/train_moe.py 公開日:令和3年9月16日
(73)【特許権者】
【識別番号】000003207
【氏名又は名称】トヨタ自動車株式会社
(74)【代理人】
【識別番号】100071216
【弁理士】
【氏名又は名称】明石 昌毅
(74)【代理人】
【識別番号】100130395
【弁理士】
【氏名又は名称】明石 憲一郎
(72)【発明者】
【氏名】足立 真輝
【審査官】高野 美帆子
(56)【参考文献】
【文献】特開2021-076411(JP,A)
【文献】特表2019-537133(JP,A)
【文献】国際公開第2020/121918(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06N 3/02
(57)【特許請求の範囲】
【請求項1】
材料のスペクトルデータから前記材料の含有する元素種を推定するシステムであって、
材料のスペクトルデータが入力されるデータ入力層と、所定の次元の専門家モデル特徴量ベクトルを出力するベクトル出力層とを有し、前記スペクトルデータに基づいて前記専門家モデル特徴量ベクトルを算出する元素種毎に設けられた専門家モデルと、
前記元素種毎の専門家モデルの前記ベクトル出力層にて出力される前記専門家モデル特徴量ベクトルの重み付き線形結合により生成されたベクトルである結合特徴量ベクトルを出力するスパースゲート回路部と、
前記結合特徴量ベクトルが入力されるベクトル入力層と、前記元素種毎の前記材料に於けるその元素の含有の有無の判定を出力する判定出力層とを有し、前記結合特徴量ベクトルに基づいて前記元素種の各々が前記材料に含まれているか否かの判定を出力する含有元素判定多層パーセプトロン部と
を含み、
前記専門家モデルが1次元CNN処理部と距離学習処理部とを有し、
前記1次元CNN処理部が材料のスペクトルデータを入力されるとそのスペクトルデータに基づいて1次元畳み込みニューラルネットワークのアルゴリズムにより第一の特徴量ベクトルを演算して出力するよう構成され、
前記距離学習処理部が前記第一の特徴量ベクトルを入力されると深層距離学習のアルゴリズムを二回続けて実行する階層型距離学習のアルゴリズムによって前記第一の特徴量ベクトルに基づいて前記専門家モデル特徴量ベクトルを算出するよう構成されているシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、種々の材料から得られたスペクトルデータを解析するための技術に係り、より詳細には、粉末X線回折、赤外分光法などにより得られた任意の材料のスペクトルデータを、機械学習技術を用いて、スペクトルデータベースに蓄えられている既知材料のスペクトルデータと照合して、任意の材料に含有されている元素種を推定するシステムに係る。材料のスペクトルデータとしては、任意の1次元の変数に対してスペクトル強度値が計測される任意のスペクトルデータであり(フルスペクトルであっても、線スペクトルであってもよい。)、具体的には、粉末X線回折スペクトルや赤外分光スペクトルの他に、質量スペクトル、NMRスペクトル、吸光スペクトル、発光スペクトルなどであってよく、そのような場合も本発明の範囲に属する。
【背景技術】
【0002】
任意の材料の同定に於いては、その材料の、任意の計測方法によるスペクトルデータが計測され、そのスペクトルデータと既知材料のスペクトルデータとの照合が為されるところ、かかる同定されるべき材料のスペクトルデータと既知材料との照合に際して、いまや既知材料のスペクトルデータの数は膨大であり、人によるスペクトルデータの照合は、おびただしい時間、労力、費用を要するので、機械学習技術或いはAI技術を用いて、コンピュータにより自動的に材料のスペクトルデータの照合を実行することが種々試みられている。例えば、特許文献1に於いては、任意の材料から得られたX線回折スペクトルデータから特徴量を抽出して、特徴量に基づいて、既知の材料の回折パターンの中から類似度の高い回折パターンを選別できるように学習された機械学習モデルを用いて、かかる任意の材料を同定するシステムが提案されている。また、非特許文献1に於いては、材料のX線回折スペクトルデータから材料の結晶構造の次元数と空間群を識別する問題に対する幾つかの機械学習アルゴリズムの有効性が検査され、1次元のa-CNN(all convolutional neural network:全畳み込みニューラルネットワーク)を用いた識別器が精度よく結晶構造の次元数と空間群を識別できることが報告されている。かかる文献に於いては、a-CNNの学習段階に於いて、学習用データとして、各材料のX線回折スペクトルの既存データと、物理情報データ増強(physics-informed data augmentation)という手法により各材料の既存データに対して人為的なランダムに変更を加えて生成したデータとを用い、既存データの各材料について1つ又は2つのX線回折スペクトルデータしか存在しない場合でも、高精度にてスペクトルデータからの結晶構造の次元数と空間群の識別を達成する識別器を構成できたことが報告されている。非特許文献2に於いては、畳み込みニューラルネットワーク(CNN:convolutional neural network)を用いて、Sr(ストロンチウム)、Li(リチウム)、Al(アルミニウム)、O(酸素)から成る四元化合物の粉末X線回折データから、それらの化合物の構成相を識別できることが示されている。
【0003】
なお、膨大なクラス数の分類を精度良く達成するための機械学習技術として、深層距離学習(deep metric learning)と称される技術が提案されている。かかる深層距離学習については、多数の人の顔の認識を行うものとして、CosFace、ArcFace、AdaFaceなどと名付けられた種々のアルゴリズムが考案されており(非特許文献3、4等参照)、それらに於いては、2次元画像のCNNから得られる画像の特徴量ベクトルが上記の如き深層距離学習のアルゴリズムへ入力され、個々人の顔画像をCNNだけによる場合よりも高精度に識別し分類することに達成したことが報告されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2021-92467
【非特許文献】
【0005】
【文献】“Fast and interpretable classification of small X-ray diffraction datasets using data augmentation and deep neural networks”, F. Oviedo et al., npj Computational Materials volume 5, Article number: 60 (2019)
【文献】“A deep-learning technique for phase identification in multiphase inorganic compounds using synthetic XRD powderPatterns”, J.W. Lee, et al., Nature Communications volume 11, Article number: 86 (2020)
【文献】“Cosface: Large margin cosine loss for deep face recognition”, H.Wang et al., In CVPR(2018) URL https://arxiv.org/abs/1801.09414.
【文献】X.Zhang, et al., “Adacos: Adaptively sca1ing cosine logits for effectively learning deep face representations” In CVPR(2019) URL httPs://arxiv.org/abs/1905.00292.
【文献】“Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer”, N.Shazeer, et al.,in ICLR 2017 URL https://https://arxiv.org/pdf/1701.06538.pdf
【文献】I. Radosavovic, et al., “Designing network design spaces” CVPR 2020 https://arxiv.org/pdf/2003.13678.pdf
【発明の概要】
【発明が解決しようとする課題】
【0006】
種類を同定したい材料(未同定材料)のスペクトルデータを既知材料の既存データと照合して未同定材料の種類を同定する目的で、上記の文献の如く、機械学習技術を用いたスペクトルデータから材料の種類を識別し分類する識別器を構成する場合、既に触れた如く、既知材料の種類数は膨大であるので、識別器の分類するクラス数も膨大となる。例えば、アメリカ国立標準技術研究所等により提供されている無機結晶構造データベース(Inorganic Crystal Structure Database:ICSD)に於いて登録されている材料は、2021年現在で、136899種類に及ぶので、それらをX線回折データにより全て識別可能とする場合には、X線回折データの入力される識別器に於いて分類されるべきクラス数もそのデータベースの登録種類数となる。この点に関し、一般に、上記の如き機械学習技術を用いたスペクトルデータから材料の種類を識別し分類する識別器に於いて、分類するクラス数、即ち、材料の種類数が増えるほど、互いに異なる種類を識別する精度は、低下してしまうこととなる。
【0007】
ところで、ニューラルネットワーク(NN)によるクラス分類の技術に於いて、クラス数が膨大となるときに分類精度と効率とを改善する手法の一つとして、ミクスチャ・オブ・エキスパーツ(Mixture of Experts)モデルと呼ばれるモデルが提案されている(例えば、非特許文献5参照。以下、「MoEモデル」と称する。)。端的に述べれば、かかるMoEモデルに於いては、複数のNNモデルであって、それらのそれぞれが、分類したいクラスの一部を分類できるように学習されたモデル(専門家モデル)を構成し、それらの複数の専門家モデルのそれぞれから得られる特徴量ベクトルを結合したベクトルが、更に、分類したいクラスを分類できるよう学習されたNNモデル(MLP(multi-layer perceptron)モデル:多層パーセプトロンモデル)へ入力され、MLPモデルが分類結果を出力するよう構成される。このMoEモデルの構成によれば、クラス数が単独のNN又はCNNモデルだけでは、分類し切れないほど大きい場合でも高精度の分類を達成できる場合がある。
【0008】
そこで、本発明の発明者は、スペクトルデータからの任意の材料の同定に於けるMoEモデルの構成を有するCNNの利用可能性について検討した。その結果、本発明の発明者は、種々の元素毎に、その元素を含む材料のスペクトルデータから材料の種類を識別できるように学習された1次元CNNを用いた識別器を専門家モデルとして構成し、それらの種々の元素毎の専門家モデルから得られる特徴量ベクトルをスパースゲート回路のアルゴリズム(非特許文献5参照)に従って結合して得られるベクトルをMLPモデルへ入力するようにしたMoEモデルの形式の識別器を構成することによって、任意の材料のスペクトルデータから、その材料に含有される元素の種類(元素種)を精度良く推定することが可能な識別器を構成することに成功した。本発明に於いては、この知見が利用される。
【0009】
かくして、本発明の一つの課題は、任意の材料のスペクトルデータからその任意の材料に含有される元素種を推定することのできるシステムを提供することである。
【課題を解決するための手段】
【0010】
本発明によれば、上記の課題は、材料のスペクトルデータから前記材料の含有する元素種を推定するシステムであって、
材料のスペクトルデータが入力されるデータ入力層と、所定の次元の特徴量ベクトルを出力するベクトル出力層とを有し、前記スペクトルデータに基づいて前記特徴量ベクトルを算出する元素種毎に設けられた専門家モデルと
前記元素種毎の専門家モデルの前記ベクトル出力層にて出力される前記特徴量ベクトルの重み付き線形結合により生成されたベクトルである結合特徴量ベクトルを出力するスパースゲート回路部と、
前記結合特徴量ベクトルが入力されるベクトル入力層と、前記元素種毎の前記材料に於けるその元素の含有の有無の判定を出力する判定出力層とを有し、前記結合特徴量ベクトルに基づいて前記元素種の各々が前記材料に含まれているか否かの判定を出力する含有元素判定多層パーセプトロン部と
を含むシステム
によって達成される。
【0011】
上記の構成に於いて、
「材料のスペクトルデータ」は、任意の材料から得られた粉末X線回折スペクトル、赤外分光スペクトル、質量スペクトル、NMRスペクトル、吸光スペクトル、発光スペクトルなど、任意の1次元の変数に対してスペクトル強度値が計測されたデータであってよい。材料は、任意の無機物又は有機物であってよく、元素種は、任意の元素であってよいところ、本発明のシステムにより検査される材料に於いて含有される可能性のある全ての元素種であってよく、従って、通常の材料に含まれる全ての元素種であってもよい。実施の形態に於いては、本発明に於ける元素種は、通常の無機物又は有機物に含まれる75種類の元素種であってよい。
「専門家モデル」とは、元素種毎に設けられ、データ入力層にスペクトルデータが入力されると、スペクトルデータに基づいて1次元畳み込みニューラルネットワークのアルゴリズムを含むアルゴリズムを用いて演算されて得られたスペクトルデータに対応する特徴量ベクトルをベクトル出力層に於いて出力する手段である。専門家モデルの各々は、元素種毎に、その元素を含む既知材料のスペクトルデータを元素種別学習用データとして用い、元素種別学習用データのそれぞれがデータ入力層に入力されると、その入力されている元素別学習用データの材料の種類に対する確率が最大となるように元素種別学習用データのそれぞれの材料の種類に対する確率を出力するように学習されたモデルであり、ベクトル出力層に出力される特徴量ベクトルは、元素種別学習用データのそれぞれの材料の種類に対する確率を与えるロジットである。
「含有元素判定多層パーセプトロン部」とは、ベクトル入力層に結合特徴量ベクトルが入力されると、ニューラルネットワークのアルゴリズムにより、材料に於ける各元素種の含有する確率を演算し、その元素種の確率が所定値を上回ると、その元素種が材料に含有され、その元素の確率が所定値を下回ると、その元素種が材料に含有されていないとの判定を、判定出力層に出力するよう構成された手段である。「スパースゲート回路部」と「含有元素判定多層パーセプトロン部」とは、種々の既知材料のスペクトルデータを全体学習用データとして用い、全体学習用データのそれぞれが元素種毎の専門家モデルの各々に入力されると、含有元素判定多層パーセプトロン部に於いて演算される元素種毎のその元素種の含有する確率が、入力されている全体学習用データの材料に含有されている元素種については所定値を上回り、入力されている全体学習用データの材料に含有されていない元素種については前記の所定値を下回るように学習されるよう構成されている。
【0012】
上記の本発明のシステムに於いて、元素種毎に設けられる「専門家モデル」とは、上記の如く、端的に述べれば、それぞれの元素種について、それぞれの元素種を含む材料のスペクトルデータから、その材料の種類を識別できるように学習されたモデルである。即ち、例えば、リチウムについて設けられた専門家モデル(Li予測モデル)は、リチウムを含む材料のスペクトルデータが入力されると、その材料の種類を同定できるように構成され、酸素について設けられた専門家モデル(O予測モデル)は、酸素を含む材料のスペクトルデータが入力されると、その材料の種類を同定できるように構成される。そして、本発明のシステムに於いては、かかる専門家モデルが、検査されるべき材料に含まれるかどうかを検出したい全ての元素種に対して準備されることとなる。
【0013】
上記の専門家モデルのそれぞれは、基本的には、1次元畳み込みニューラルネットワークのアルゴリズムを含む機械学習のアルゴリズムに従って、材料のスペクトルデータから材料の種類を同定できるように学習される。ここで、「1次元畳み込みニューラルネットワークのアルゴリズム」は、1次元のスペクトルデータの如き、1次元の変数に対して強度値や輝度値などの値が付与されたデータを入力データとして、畳み込みニューラルネットワーク(CNN)のアルゴリズムにより演算を実行するアルゴリズムであってよい。各専門家モデルのデータ入力層に於いては、具体的には、スペクトルデータに於ける任意に設定されてよい所定の変数間隔毎のスペクトル値が一つのニューロン(パーセプトロン)へ割り当てられる。例えば、X線回折データの場合であれば、所定の角度毎の強度値が入力層の一つのニューロンに入力される(従って、0~120度の範囲に於いて、0.02度毎に強度値を一つのニューロンへ与える構成の場合、入力層に、6000個のニューロンが準備される。)。なお、通常、CNNに於いては、最終的な出力層に於いて識別結果や回帰演算の結果数値を出力するが、本発明に於いては、上記の如く、任意に設定されてよい所定の次元、例えば、1024次元、の特徴量ベクトルをその後の演算に利用するので、出力層は、かかる所定の次元数のニューロンにて構成され、それら一つ一つのニューロンの出力値を要素として、特徴量ベクトルが構成される(即ち、本発明のニューラルネットワークの演算は、通常の場合の識別又は回帰結果の出力段階よりも手前の段階までとなる。)。本発明の発明者の研究によれば、本発明の目的に於いては、1次元CNNのアルゴリズムとして、1D-RegNetのアルゴリズム(非特許文献6)が有利に用いられることが見出されている。
【0014】
また、「専門家モデル」に於いて、特徴量ベクトルを算出するアルゴリズムには、好ましくは、1次元CNNのアルゴリズムに連結して、既に述べた非特許文献3、4等に記載されている人の顔の認識のために提案されている「深層距離学習」のアルゴリズム(AdaCos、CosFace、ArcFace、SphereFaceなど)が実行されてよい。深層距離学習技術は、クラス分類問題を解くのに有利な技術であり、この技術に於いては、端的に述べれば、CNNの演算から得られた特徴量ベクトルと重みベクトルとのコサイン類似度が演算されて特徴量ベクトルを多次元球面上に写像した場合に、特徴量ベクトル同士の写像点間の球面上の距離が、特徴量ベクトルに対応するデータの特徴が異なるほど、離隔するように、重みベクトルが学習され、しかる後に、特徴量ベクトルと重みベクトルとのコサイン類似度を用いて、特徴量ベクトルに対応するデータが各クラスに分類される確率が算出される。本発明の「専門家モデル」の場合には、1次元CNNのアルゴリズムにより材料のスペクトルデータから特徴量ベクトルが算出された後、より精度良い結果が得られるように、その特徴量ベクトルが更に深層距離学習のアルゴリズムに従って演算処理されて変換されるようになっていてよい。なお、後の実施形態の欄にてより詳細に説明される如く、専門家モデルにて深層距離学習のアルゴリズムを実行する場合に、深層距離学習のアルゴリズムを二回続けて実行する「階層型距離学習」のアルゴリズムが実行されて、より高精度な結果が得られるようになっていてよい。
【0015】
元素種毎の専門家モデルの学習処理に於いては、上記の如く、元素種毎に、その元素を含む既知材料のスペクトルデータを学習用データ(元素種別学習用データ)として用い、学習用データのそれぞれがデータ入力層に入力されると、その入力されている学習用データの材料の種類に対する確率が最大となるように、学習用データのそれぞれの材料の種類に対する確率を出力するように学習が実行される。ここでの学習処理の方法は、任意の方法、例えば、逆伝播法に従って実行されてよい。そして、既に触れた如く、元素種毎の専門家モデルの後の演算処理に於いては、ベクトル出力層に出力される所定の次元の特徴量ベクトルが用いられることとなるところ、かかる特徴量ベクトルには、学習用データのそれぞれの材料の種類に対する確率を与える(前記の所定の次元数の)ロジットが用いられることとなる。
【0016】
かくして、各元素種の専門家モデルにて得られた特徴量ベクトルは、次いで、上記の本発明のシステムの構成から理解される如く、スパースゲート回路部にて重み付き線形結合により「結合特徴量ベクトル」として統合され(従って、ここに於いて、ベクトルの次元は変化しない。)、結合特徴量ベクトルがニューラルネットワークの構成を有する「含有元素判定多層パーセプトロン部」へ入力される。そして、含有元素判定多層パーセプトロン部に於いて、結合特徴量ベクトルに基づいて、元素種毎に、スペクトルデータの材料に於ける各元素種が含有される確率が演算され、各元素種について、その確率が、任意に設定されてよい所定値(例えば、0.5)を上回ると、その元素種が材料に含有され、その確率が所定値を下回ると、その元素種が材料に含有されていないとの判定が為されることとなる。
【0017】
上記のスパースゲート回路部及び含有元素判定多層パーセプトロン部は、種々の既知材料の既存のスペクトルデータを学習用データ(全体学習用データ)として用いた機械学習により構成される。具体的な学習処理に於いては、上記の如く、種々の既知材料の学習用データのそれぞれが元素種毎の専門家モデルの各々に入力されると、含有元素判定多層パーセプトロン部に於いて演算される元素種毎のその元素種の含有する確率が、入力されている学習用データの材料に含有されている元素種については所定値を上回り、入力されている学習用データの材料に含有されていない元素種については所定値を下回るように、スパースゲート回路部に於ける特徴量ベクトルの重み付き線形結合を演算する際の重みパラメータと含有元素判定多層パーセプトロン部に於けるニューラルネットワークのアルゴリズムを実行する際の重みパラメータが決定される。ここでの学習処理の方法も、任意の方法、例えば、逆伝播法に従って実行されてよい。
【0018】
各専門家モデルの学習及びスパースゲート回路部及び含有元素判定多層パーセプトロン部の学習に於いて用いられる既知材料のスペクトルデータとしては、任意のデータベースに登録又は保存されているデータが用いられてよい。例えば、無機物質のX線回折データから材料内に含有される元素種の推定を行う場合であれば、既知材料のスペクトルデータは、ICSDなどに登録されているデータであってよい。
【0019】
上記の本発明の材料内含有元素種推定システムの構成に於いては、端的に述べれば、元素種毎に1次元CNNを基本的なアルゴリズムとして用いて各元素を含有する材料の種類を識別可能に構成された専門家モデルと、それらの専門家モデルから得られる特徴量ベクトルを重み付き線形結合して、更に、ニューラルネットワークのアルゴリズムを用いて種々の材料に於ける各元素種の含有の有無を判定する含有元素判定多層パーセプトロン部とにより、所謂MoEモデルが構築される。かかる構成によれば、クラス分類の性能が向上し、単独のCNNモデルでは、識別し切れないほどの多数の材料についても、高精度にて、それぞれに含有している元素種を推定することが可能となる。
【0020】
ところで、通常、データベースに登録されている既知材料のデータは、各材料について、標準的なものが1、2例にて登録されているのみであるが、実際の計測で得られるスペクトルデータには、例えば、データに於けるピークの発生する角度、周波数などの変数のずれ(ピーク位置のずれ)、複数のピークの強度比の変動、ピークの消失、ピークの分裂などの種々の変動が生じうる。従って、もし本発明のシステムに於いて、データベースに登録されている標準的なデータのみにて学習を行った場合には、上記の如き変化が生じたデータに対して精度良く材料種類の識別や元素種の有無の推定を行うことが困難となる。そこで、上記の本発明のシステムの構成に於いて、学習用データとして、既知材料のスペクトルデータだけではなく、既知材料のスペクトルデータに対して上記の如き種々の変化を人工的に仮想的に加える処理(「物理ベースデータ増強」)を実行して生成した別のスペクトルデータ(拡張データ)が用いられてよい。
【0021】
かかる物理ベースデータ増強処理に於いては、具体的には、下記の処理が実行されてよい。
(i)ピークシフト処理-既知材料のスペクトルデータに於いて観察されているピークの発生する変数をランダムにずらす。
(ii) ピーク強度比変更処理-既知材料のスペクトルデータに於いて観察されている複数のピークの強度比をランダムに変化させる。
(iii)ピーク消失処理-既知材料のスペクトルデータに於いて観察されているピークをランダムに消去する。
(iv)ピーク分裂処理-既知材料のスペクトルデータに於いて観察されているピークを2つ以上にランダムに分裂させる。
(v)(i)~(iv)の少なくとも二つの組み合わせ
なお、それぞれの処理に於ける種々のデータの変更は、実際の計測データに於いて生じ得る変動の程度を考慮して、適合により、種々の程度により実行されてよい。また、好適には、物理ベースデータ増強のアルゴリズムに於いてピークシフト処理、ピーク強度比変更処理、ピーク消失処理及びピーク分裂処理の全てを実行して拡張データが生成されてよい。
【0022】
学習用データとして用いる拡張データは、通常、多いほど、識別器の識別精度の向上の効果が期待されるところ、拡張データの生成と学習処理を無用に多数回実行する必要はない。そこで、実施の形態に於いては、拡張データの生成とそれを用いた学習処理は、材料の種類の同定精度或いは材料内に含有される元素種の推定精度が所定値に達するまで、実行されてよい。即ち、専門家モデルの学習処理、スパースゲート回路部及び多層パーセプトロン部の学習処理は、任意の材料についての結果精度が所定値に達するまで、物理ベースデータ増強のアルゴリズムにより異なる拡張データが生成され、異なる拡張データを学習用データとして用いて反復実行されてよい。
【0023】
また、既に述べた如く、上記の専門家モデルの構成に於いて、深層距離学習のアルゴリズムが実行される場合には、深層距離学習を二回続けて実行する「階層型距離学習」のアルゴリズムによって種々の材料の種類に於ける各種類の確率を算出するよう構成されていてよい。「階層型距離学習」のアルゴリズムに於いては、1次元CNNの出力する特徴量ベクトルを、深層距離学習のアルゴリズムにより、少なくとも二回、変換してから、特徴量ベクトルに対応するデータが各クラス(本発明の場合には、材料の種類)に分類される確率が算出される。より具体的には、階層型距離学習のアルゴリズムに於いて、二回の深層距離学習のアルゴリズムを続ける構成の場合には、特徴量ベクトルが第一の深層距離学習を実行する処理部に入力されると、その第一の深層距離学習のアルゴリズムに従った演算により特徴量ベクトルが変換されて、任意に設定されてよい所定の次元の第二の特徴量ベクトルが算出される。かかる第二の特徴量ベクトルは、その最初の深層距離学習のアルゴリズムにより、各クラスの確率を算出する構成の場合に、確率を演算するために用いられるロジット(logit)であってよい。そして、その第二の特徴量ベクトル(第一の深層距離学習のアルゴリズムのロジット)が、更に、第二の深層距離学習のアルゴリズムを実行する処理部に入力され、その深層距離学習のアルゴリズムに従った演算により、第二の特徴量ベクトルが更に変換される処理が実行され、得られた特徴量ベクトル、即ち、第二の深層距離学習のアルゴリズムに於けるロジットから各クラスの確率が算出される。ロジットから各クラスの確率の算出には、例えば、softmax関数が用いられてよい。かかる階層型距離学習のアルゴリズムを用いると、材料の種類の同定精度が向上することが見出されている。なお、階層型距離学習のアルゴリズムが採用される際、各専門家モデルからスパースゲート回路部へ渡される特徴量ベクトルは、上記の第二の特徴量ベクトル、即ち、第一の深層距離学習の処理にて算出されるロジットであってよい。
【0024】
上記の階層型距離学習のアルゴリズムに使用されるアルゴリズムは、任意の深層距離学習のアルゴリズムであってよく、具体的には、AdaCos、CosFace、ArcFace、SphereFaceなどから選択されてよい。後の実施形態の欄に於いて例示されている如く、本発明の発明者の研究によれば、階層型距離学習のアルゴリズムとして、第一の深層距離学習のアルゴリズムにAdaCos(非特許文献4)を用い、第二の深層距離学習のアルゴリズムにCosFace(非特許文献3)を用いると、材料の種類の同定がより高精度に達成できることが見出されている。その場合、距離学習処理部に於いて、AdaCosのアルゴリズムに従って、1次元CNN処理部の出力した特徴量ベクトルがAdaCosのロジットに変換され、AdaCosのロジットが更にCosFaceのアルゴリズムに従ってCosFaceのロジットに変換され、CosFaceのロジットから種々の材料の種類に於ける各種類の確率が算出されてよい。そして、材料のスペクトルデータから材料内の元素種を推定するシステムに於いては、各専門家モデルからスパースゲート回路部へ渡される特徴量ベクトルは、AdaCosにて算出されるロジットであってよい。
【発明の効果】
【0025】
上記の本発明のシステムの構成に於いては、材料のスペクトルデータから材料に含有される元素種の推定に於いて、MoEモデルの構成を採用して、これにより、膨大な数の材料について、元素種の含有の有無の推定が可能となる。実際、本発明の発明者の研究に於いて、本発明の構成によれば、数十万種(種類数が6桁)の材料についての識別が高精度にて達成できることが見出された。また、本発明のシステムによれば、非常の多くの材料について、一つのシステムにて、材料に含有する元素種が推定できるので、任意の材料の種類を同定したい場合には、まず、本発明のシステムにて、材料に含有される元素種を推定し、その後に、含有されると推定された元素種の専門家モデルを用いて、材料種類を詳細に検出することが可能となる。かくして、より精度良く、よく多くの任意の材料のスペクトルデータに対応する材料の種類の同定が可能となることが期待される。
【0026】
本発明のその他の目的及び利点は、以下の本発明の好ましい実施形態の説明により明らかになるであろう。
【図面の簡単な説明】
【0027】
図1図1は、本実施形態による材料のスペクトルデータを用いた材料内含有元素種推定システムが実現されるコンピュータを模式的に表した図である。
図2図2は、本実施形態の材料内含有元素種推定システムの演算処理(識別器)の構成を説明する模式図である。
図3図3は、本実施形態のシステムに於ける専門家モデルに於いて深層距離学習のアルゴリズムを採用した場合の材料のスペクトルデータから材料種類を同定するまでの演算処理(識別器)の構成を説明する模式図である。
図4図4(A)は、本実施形態のシステムに於ける階層型距離学習のアルゴリズムを説明する模式図である。図4(B)は、階層型距離学習のアルゴリズムによる作用の概念を図式化したものであり、種々のデータから得られた1次元CNN処理で得られた特徴量ベクトル(点線円上の各点)を仮想的な球面上に写像した場合に、第一の距離学習処理で互いに類似した特徴のベクトルの群に分かれ、第二の距離学習処理で各群内での特徴量ベクトル間の球面上の距離が離れ、これにより、特徴量ベクトルに対する材料の高精度の分類が達成されることを描いている。
図5図5は、本実施形態のシステムに於ける物理ベースデータ増強のアルゴリズムにより、既存のスペクトルデータに与えられるデータの変化の例を模式的に表した図である。
【符号の説明】
【0028】
1…コンピュータ本体
2…コンピュータ端末
3…モニター
4…キーボード、マウス(入力装置)
10…データベース
【発明を実施するための最良の形態】
【0029】
コンピュータ装置の構成
本実施形態による任意の材料のスペクトルデータから材料の含有する元素種を推定するシステムは、この分野で通常使われている形式の、図1に例示されている如き、コンピュータ装置1に於けるコンピュータ・プログラムの作動により実現されてよい。コンピュータ装置1には、通常の態様にて、双方向コモン・バスにより相互に連結されたCPU、記憶装置、入出力装置(I/O)が装備され、記憶装置は、本実施形態の演算で使用する演算処理を実行する各プログラムを記憶したメモリと、演算中に使用されるワークメモリ及びデータメモリを含んでいる。また、実施者によるコンピュータ装置1への指示及び計算結果その他の情報の表示及び出力は、コンピュータ装置1に接続されたコンピュータ端末装置2を通じて為される。コンピュータ端末装置2には、通常の態様にて、モニター3とキーボード並びにマウスといった入力装置4が設けられ、プログラムが起動されると、実施者は、プログラムの手順に従ってモニター3上の表示に従って、入力装置4を用いてコンピュータ装置1に各種の指示及び入力を行うとともに、モニター3上にてコンピュータ装置1からの演算状態及び演算結果等を視覚的に確認することが可能となる。更に、本実施形態に於いては、後に説明される如く、既知材料の既存のスペクトルデータが使用されるところ、それらの既存のスペクトルデータは、任意のデータベースから取得されるようになっていてよく、従って、コンピュータ装置1は、任意のデータベース10に任意の手法にてアクセスできるようになっていてよい。なお、図示していないその他の周辺機器(結果を出力するプリンタ、計算条件及び演算結果情報等を入出力するための記憶装置など)がコンピュータ装置1及びコンピュータ端末装置2に装備されていてよいことは理解されるべきである。コンピュータ装置1を用いて、以下に述べる各種の処理又は演算を実行する際には、通常の態様にて、各種の処理又は演算に必要なプログラムが起動され、実施者は、コンピュータ端末装置2に於いて、プログラムに於いて準備された入力手順に従って、演算に必要なデータ、演算時の計算条件その他の各種設定を入力し、演算が開始される。そして、演算の実行中又は終了後に、演算結果が、適宜、コンピュータ端末装置2を通じて出力可能となる。
【0030】
上記のコンピュータ装置1に於いて、スペクトルデータからの材料内に含有される元素種の推定を行う場合、通常の機械学習技術を用いた演算処理と同様に、端的に述べれば、まず、既存データを学習用データとして用いた学習処理(演算に用いる重みなどのパラメータなどの決定)が実行され、これにより、材料内の元素種の推定を行うモデル(識別器)が構成され、しかる後に、学習済みの識別器に、任意の、含有される元素種を推定したい材料のスペクトルデータが入力され、識別器が識別結果として、材料に含有される元素種を出力する。かくして、学習処理を実行するときには、入力装置4からの実施者の入力操作によって、演算に於いて使用されるハイパーパラメータの設定、データベースからの既知材料の既存データの読込などが実行され、コンピュータ装置1は、プログラムメモリに記憶されたプログラムに従って、読込まれた既存データを学習用データとして用いて学習処理が実行される。そして、学習処理が完了すると、入力装置4からの実施者の入力操作によって、元素種を推定したい材料のスペクトルデータが入力され、コンピュータ装置1は、プログラムメモリに記憶されたプログラムに従い、学習済みの識別器により、入力されたスペクトルデータの材料内に含有される元素種を推定し、結果がコンピュータ端末装置2に出力され、モニター等に表示されることとなる。
【0031】
本実施形態に於いて、材料のスペクトルデータとしては、既に触れられている如く、粉末X線回折スペクトル、赤外分光スペクトル、質量スペクトル、NMRスペクトル、吸光スペクトル、発光スペクトルなど、任意の1次元の変数に対してスペクトル値又は強度値が計測されたデータであってよく、材料は、無機物又は有機物であってよい。学習用データとして用いられる既知材料の既存のデータは、任意の手法(計測又はシミュレーション)にて得られたデータや任意のデータベースから入手されたデータであってよい。例えば、無機物の粉末X線回折スペクトルであれば、アメリカ国立標準技術研究所等により提供されているICSDより入手可能なデータなどであってよい。
【0032】
識別器の構成
図2を参照して、本実施形態による材料のスペクトルデータから材料内に含有される元素種を推定するシステムに於ける識別器は、基本的には、材料に含有されているか否かが検査される全ての元素種について、元素種別に設けられる専門家モデルの群と、スパースゲート回路部と、多層パーセプトロン(MLP)モデル部(含有元素判定多層パーセプトロン部)とを含む。かかる構成に於いて、端的に述べれば、検査したい材料のスペクトルデータが元素種別の専門家モデルのそれぞれに入力されると、各専門家モデルは、材料のスペクトルデータに基づいて、任意に設定されてよい所定の次元の特徴量ベクトルを算出し、それらが、スパースゲート回路部へ渡され、そこに於いて、重み付き線形結合により一つの特徴量ベクトル(結合特徴量ベクトル)に統合される。そして、MLPモデル部は、結合特徴量ベクトルを受けると、材料に含有されているか否かが検査される全ての元素種について、元素種別に、その元素が入力されたスペクトルデータの材料に含まれている確率を算出し、その確率が所定値を超えている元素種が材料に含まれていると判定される。
【0033】
(1)専門家モデルの基本構成
上記のシステムの構成に於いて、先ず、元素種別に設けられる専門家モデルの各々は、端的に述べれば、機械学習技術を用いて、それぞれの元素種を含む材料のスペクトルデータを受けると、その材料の種類を識別できるように構成された識別器である。ただし、本実施形態の元素種の推定のためのシステムに組み込まれるときには、スペクトルデータを入力されるデータ入力層から所定の次元数の特徴量ベクトルが算出される層(ベクトル出力層)までが用いられる。
【0034】
専門家モデルに用いられる識別器は、基本的には、1次元のCNNのアルゴリズムを用いて材料のスペクトルデータから材料の種類を識別する識別器であってよく、1次元CNNのみを用いたものであってもよいが、好適には、1次元のCNNのアルゴリズムに深層距離学習のアルゴリズムを連結した構成のものであってよい。具体的には、図3に模式的に描かれている如く、専門家モデルに用いられる識別器の基本的な構成に於いては、スペクトルデータが入力されて特徴量ベクトルを算出する1次元CNN処理部と、1次元CNN処理部からの特徴量ベクトルを受けて各材料についての確率を決定する距離学習処理部とが含まれていてよい。
【0035】
より詳細には、まず、1次元CNN処理部は、通常の態様の1次元のCNNのアルゴリズムを実現する演算処理部であってよい。具体的には、CNNの入力層の複数のニューロンの各々に、材料のスペクトルデータの変数毎のスペクトル値(強度値、輝度値など)が入力され、畳み込み層、プーリング層及び全結合層での演算を経て、出力層に所定の次元数の特徴量ベクトルが算出される。例えば、スペクトルデータが、粉末X線回折スペクトルである場合、変数である2θの0~120度の範囲に於いて、0.02度毎の強度値が各ニューロンへ与えられるように、入力層には、6000個のニューロンが準備されてよい。また、出力層の特徴量ベクトルの次元は、適宜設定されてよい。上記の入力層に6000個の値が与えられる例の場合、例えば、出力層の特徴量ベクトルの次元数は、1024などであってよい。なお、本発明の発明者の研究によれば、本実施形態に於いては、1次元のCNNのアルゴリズムとしては、1D-RegNetのアルゴリズム(非特許文献6)が有利に用いられることが見出されている。
【0036】
距離学習処理部は、既に触れた如く、AdaCos、CosFace、ArcFace、SphereFaceなどと称される深層距離学習技術のアルゴリズムを実現する演算処理部であってよい。具体的には、1次元CNN処理部が出力する特徴量ベクトルを受けて、特徴量ベクトルと重みベクトルとのコサイン類似度が演算され、かかるコサイン類似度とハイパーパラメータとを用いて、ロジットが算出され、かかるロジットから、各クラスについて、特徴量ベクトルに対応するデータがそれぞれのクラスに分類される確率が算出される。ここで、距離学習処理部に於いて分類する各クラスは、本実施形態に於いては、各専門家モデルの対応する元素種を含む材料の種類であって、各データの対応し得る材料の種類である。ロジットから各クラスの確率への演算には、典型的には、softmax関数が用いられてよいが、これに限定されない。そして、各クラスの確率に於いて、最大確率を与えるクラスが選択され、その選択されたクラスの材料種が入力されたスペクトルデータの材料の種類として同定される。なお、後に説明される如く、本実施形態に於ける距離学習処理部に於いては、深層距離学習技術のアルゴリズムを少なくとも2回続けて実行する「階層型距離学習」のアルゴリズムが有利に採用されてよい。
【0037】
上記の1次元CNN処理部と距離学習処理部とを含む識別器の学習は、既に述べた如く、既知材料の既存データを学習用データとして用いて、所謂「エンド-トゥ-エンド学習」(End-to-end training)の方式により実行されてよい。なお、ここでの既知材料は、各専門家モデルの対応する元素種を含有する既知材料である。学習処理に於いては、具体的には、例えば、或る学習用データにより学習処理を実行する際には、1次元CNN処理部の入力層へ学習用データのスペクトルデータを入力し、距離学習処理部の、各クラスの確率を与える出力層に於いて、正解ラベル(入力された学習用データに対応する材料種類のクラスの確率=1とし、その他のクラスの確率=0とする。)を与え、距離学習処理部の出力層に於いて、損失関数を算出し、誤差逆伝播法のアルゴリズムに従って、1次元CNN処理部と距離学習処理部に於けるパラメータを更新する学習が実行されてよい。ここで、損失関数は、典型的には、交差エントロピー誤差でよいが、これに限定されない。なお、識別器の学習は、上記の如く、既知材料の既存データを用いた教師あり学習となるので、識別器にて分類可能なクラス、即ち、材料の種類は、既知材料の種類となる。
【0038】
(2)専門家モデルの距離学習部に於ける階層型距離学習の構成
上記の如く、本実施形態の専門家モデルの距離学習処理部に於いては、「階層型距離学習」のアルゴリズムが採用され、データから材料の種類の識別能の更なる向上が図られてよい。かかる階層型距離学習のアルゴリズムに於いては、既に触れた如く、深層距離学習のアルゴリズムに於ける演算処理が少なくとも二回続けて実行される。具体的には、まず、通常、深層距離学習のアルゴリズムに於いては、1次元CNN処理部の出力した特徴量ベクトル(i次元)と(クラス毎の)重みベクトルとのコサイン類似度とハイパーパラメータとから各クラス(k次元)のロジットが演算され、そのまま、各クラスの確率が算出される。一方、階層型距離学習の場合には、図4(A)に示されている如く、1次元CNN処理部の出力した特徴量ベクトル(i次元)を用いて、第一の距離学習処理部にて、ロジット(j次元)が演算され、次いで、そのロジットが、第二の距離学習処理部へ渡され、そこで、各クラス(k次元)のロジットが演算され、かかるロジットからsoftmax関数等を用いて各クラスの確率が算出されることとなる(深層距離学習のアルゴリズムを更に続ける場合には、ロジットが次の距離学習処理部へ渡される。)。なお、第一の距離学習処理部にて算出されるロジットのj次元は、任意に設定されてよく、1次元CNN処理部の出力した特徴量ベクトルのi次元と同一であっても異なっていてもよい。
【0039】
上記の階層型距離学習のアルゴリズムによれば、互いに似ている特徴のデータがより詳細に分類できるようになると考えられる。図4(B)の概念図を参照して、種々のデータの1次元CNN処理部の出力した特徴量ベクトルを仮想的な球面上に写像した段階では、図4(B)左に描かれている各点(●、▲、■等)の如く、各データの特徴量ベクトルの間の距離があまり離れておらず、識別能があまり高くないが、特徴量ベクトルが、第一の距離学習処理により、図4(B)中に描かれている各点の如く、異なる特徴を有するベクトルの間の距離が離隔するように変換され、更に、第二の距離学習処理により、図4(B)右に描かれている各点の如く、似た特徴を有するベクトルの間の距離も離隔するように変換されることとなる。即ち、異なる特徴を有するベクトル間だけでなく、似た特徴を有するベクトル間でも距離が開くので、これにより、似た特徴を有するベクトルについても識別能が向上されることとなると考えられる。
【0040】
なお、階層型距離学習のアルゴリズムに於いて採用されるアルゴリズムは、任意の深層距離学習のアルゴリズム、例えば、AdaCos、CosFace、ArcFace、SphereFaceから選択されてよい。本発明の発明者の研究によれば、第一の距離学習処理にAdaCosを用い、第二の距離学習処理にCosFaceを用いると、非常に良好な識別精度を達成できることが見出されている。その場合、各専門家モデルから、後に詳細に説明されるスパースゲート回路部へ渡される特徴量ベクトルは、AdaCosに於けるロジットであってよい。
【0041】
上記の如く、各専門家モデルの構成に於いて、1次元CNNと深層距離学習のアルゴリズムを採用することにより、材料のスペクトルデータから材料の種類を識別する識別能が向上することとなる。
【0042】
(3)スパースゲート回路部の構成
図2を再度参照して、スパースゲート回路部に於いては、各専門家モデルの算出した特徴量ベクトルの重み付き線形結合が演算される。具体的には、重み付き線形結合は、下記の式により与えられてよい。
=Σw元素 ・x元素 …(1)
ここで、x元素 は、各元素種の専門家モデル算出した特徴量ベクトルのi成分であり、w元素 は、各元素種の特徴量ベクトルに乗算される重みベクトルのi成分であり、Xは、結合特徴量ベクトルのi成分であり、Σは、検査の対象となる全元素種についての総和である。各元素種の特徴量ベクトルに乗算される重みベクトルは、後に説明される学習処理により決定される。
【0043】
(4)MLPモデル部の構成
MLPモデル部は、ニューラルネットワーク(全結合層)のアルゴリズムを用いて、ベクトル入力層にてスパースゲート回路部から受容した結合特徴量ベクトルから、検査対象としている全ての元素種についての元素種毎に、その元素種が材料に含有している確率を算出するよう構成される。そして、かかる確率が任意に設定されてよい所定値を上回っている元素種は、材料に含有すると判定され、確率が所定値を下回っている元素種は、材料に含有しないと判定される。より具体的には、ニューラルネットワークのアルゴリズムの演算に於いては、ベクトル入力層の各ニューロンに結合特徴量ベクトルの各成分が割り当てられ、ネットワークの出力側に於いては、元素種毎のロジットが算出され、各ロジットから、例えば、softmax関数を用いて各元素種についての確率が算出され(確率出力層)、判定出力層に於いて、確率と所定値との大小に応じて、各元素種の判定が出力される。確率から元素種が含有の有無を判定するための所定値は、例えば、0.5であってよいが、これに限定されない。
【0044】
(5)スパースゲート回路部とMLPモデル部の学習処理
スパースゲート回路部とMLPモデル部の学習処理は、既知材料の既存データを学習用データとして用いて、所謂「エンド-トゥ-エンド学習」(End-to-end training)の方式により実行されてよい。なお、ここでの既知材料は、検査対象となり得る全ての種類の材料である。また、各既知材料は、当然ながら、複数種類の元素を含み得るので、MLPモデル部の確率出力層に於いて、同時に複数のニューロンにて、確率が所定値を超え得ることとなる。即ち、MLPモデル部は、多クラス多ラベル問題を解く識別器に構成される。学習処理に於いては、具体的には、例えば、或る学習用データにより学習処理を実行する際には、各専門家モデルのベクトル入力層へ学習用データのスペクトルデータを入力し、MLPモデル部の各クラス(元素種)の確率を与える確率出力層に於いて、正解ラベル(入力された学習用データに対応する材料に含有される元素種のクラスの確率=1とし、含有されない元素種のクラスの確率=0とする。)を与え、MLPモデル部の確率出力層に於いて、損失関数を算出し、誤差逆伝播法のアルゴリズムに従って、MLPモデル部とスパースゲート回路部に於けるパラメータを更新する学習が実行されてよい。ここで、損失関数は、典型的には、交差エントロピー誤差でよいが、これに限定されない。なお、MLPモデル部とスパースゲート回路部の学習段階に於いては、各専門家モデルに於けるパラメータは、更新されない。
【0045】
物理ベースデータ増強による拡張データの生成
識別器の学習に用いる既存材料の利用可能な既存データの数は、殆どの場合、各材料について少数である。例えば、ICSDに登録されている無機物のデータとしては、各材料について、通常、標準的な1つ乃至2つのデータが登録されている。一方、既に述べた如く、実際の計測に於いては、計測値に種々の変動が発生し、計測データに於いては、既存データに比較して、ピークの発生する角度、周波数などの変数のずれ(ピーク位置のずれ)、複数のピークの強度比の変動、ピークの消失、ピークの分裂などが発生し得る。従って、もし識別器の学習用のデータとして、各材料について、データベースに登録されているような標準的な1つ乃至2つのデータのみが用いられている場合には、上記のような変動が生じているデータを精度良く分類し識別することが困難となる。
【0046】
そこで、本実施形態に於いて、好適には、既存材料の既存データに対して、実際の計測に発生し得る種々の変動を人工的に与えたデータを、コンピュータ上で生成し(物理ベースデータ増強処理)、それらのデータが、既存材料の既存データ(元データ)と共に、学習用データとして用いられてよい。かかる構成によれば、或る材料についての標準的なデータと異なる種々の変動を有する実際の計測データも、より高精度に識別し、その材料の種類の同定と含有される元素種の推定が可能になることが期待される。
【0047】
上記の物理ベースデータ増強処理に於いては、具体的には、元データに対して、以下の如き種々の変動を与える処理が適用されてよい(I(θ)は、変数θに於けるスペクトル値であり、θpr、θps等は、ピークを与える変数である。)。
(i)ピークシフト処理(図5(i)参照)-元データに於いて観察されているピークの発生する変数がずれるように変数に対するデータの位置をランダムにずらす。I(θ)→I(θ±Δ)[Δは、ランダムなシフト量]
(ii) ピーク強度比変更処理(図5(ii)参照)-元データに於いて観察されている複数のピークの強度比をランダムに変化させる。I(θpr):I(θps)=α:β[α:βは、ランダムに設定される強度比]
(iii)ピーク消失処理(図5(iii)参照)-元データに於いて観察されているピークをランダムに消去する。I(θpr)→0
(iv)ピーク分裂処理(図5(iv)参照)-元データに於いて観察されているピークを2つ以上にランダムに分裂させる。I(θpr)→I(θpr1)+I(θpr2
上記のそれぞれの変動を与える程度は、実際の計測で発生し得る変動と同程度となるように適宜設定されてよい。なお、上記の変動を与える処理は、一つの既存データに対して、任意に組み合わせて実行されてよい。物理ベースデータ増強処理により生成されたデータは、「拡張データ」と称する。
【0048】
原理的には、上記の拡張データが多いほど、識別又は分類精度が向上するが、或る程度のデータ量にて学習を実行すると、精度に変化がなくなってくるので、その状態から更に新たな拡張データの生成と学習処理を続けることは無駄となる。そこで、本実施形態に於いて、学習処理に於いては、新たな拡張データを生成して、学習処理を実行するサイクルを、精度を検証しながら、実行し、サイクルは、精度に変化が殆ど見られなくなるまで反復されてよい。一度の学習処理サイクルに於いて、拡張データは、各既存データに対して、数個、例えば、5個、ずつ生成され、既存データと共に学習用のデータとして用いられてよい。
【0049】
かくして、上記の本実施形態の構成に於いては、複数の、それぞれ、特定の元素種を含む材料について識別可能となるように学習された専門家モデル、スパースゲート回路及びMLPモデルから構成されるMoEモデルが採用される。かかる構成によれば、単独のCNNから成る識別器では識別し切れないほどの数のクラスを識別することが可能となることが期待されるので、非常に多くの材料について、含有される元素種の推定が可能となる。
【0050】
なお、図示していないが、上記の専門家モデルの群、スパースゲート回路及びMLPモデルから構成される識別器に於いて、MLPモデルが、入力された材料の種類を同定するように構成されていてもよい。その場合、MLPモデルの出力層にて識別されるクラスは、本システムで識別され得る材料の種類となる。学習処理に於いては、正解ラベルとして、入力された学習用データに対応する材料種類のクラスの確率=1とし、その他のクラスの確率=0としたものが設定されることとなる。
【0051】
実験例
上記の本実施形態の教示に従って、アメリカ国立標準技術研究所等により提供されているICSDにより提供されている粉末X線回折スペクトルデータのうち、6800種類のリチウムを含む材料のスペクトルデータを用いて、スペクトルデータから材料に含有される元素種を推定する識別器を構成し、材料内含有元素種の推定精度を検出して、本実施形態の有効性を検証した。なお、以下の実験例は、本実施形態の有効性を例示するものであって、本発明の範囲を限定するものではないことは理解されるべきである。
【0052】
実験に於ける識別器の構成に於いて、各元素の専門家モデルは、1次元CNN処理部と距離学習処理部とを含む構成とし、距離学習処理部は、階層型距離学習のアルゴリズムを実行する構成とした。スペクトルデータは、2θについて、0~120°の範囲のデータを用い、0.02度ずつのスペクトル強度値を、1次元CNN処理部の6000個のニューロンからなる入力層の各ニューロンへ入力させた。1次元CNNのアルゴリズムには、上記の1D-RegNetを用いた。1次元CNN処理部の出力する特徴量ベクトルは、1024次元とした。専門家モデルの距離学習処理部は、最初にAdaCosのアルゴリズムを実行し、次にCosFaceのアルゴリズムを実行する階層型距離学習を実行するよう構成した。AdaCosでは、入力側と出力側の双方に於いて、1024次元のベクトルを入出力するものとし、CosFaceでは、入力側で1024次元のベクトルを受けて、出力側で各元素を含有する材料種の数のクラスのロジットを出力するものとした。CosFaceのロジットから各クラスの確率の演算は、softmax関数を用いて行った。そして、各専門家モデルのAdaCosの出力をスパースゲート回路部へ渡す特徴量モデルとした。専門家モデルは、水素(H)、酸素(O)、テクネチウム(Tc)及び希ガス類(He, Ne, Ar, Kr, Xe)を除く元素番号83までの計75個の元素種のそれぞれについて構成した。
【0053】
MLPモデル部の元素種が含有しているか否かの判定に於いては、各元素種の含有確率が0.5を上回ったときに、含有していると判定した。
【0054】
学習用データとしては、ICSDにより入手した各材料の既存データと、既存データから上記の物理ベースデータ増強処理により生成した拡張データとを用いた。拡張データは、一回の学習サイクルに於いて5個ずつ生成して学習用のデータに用いた。なお、各拡張データは上記の4つの変動を与える処理を全て適用して生成した。そして、学習用のデータは、そのうちの70%を訓練データとし、15%を検証データとし、15%をテストデータとした。訓練データは、誤差逆伝播法による重みパラメータの更新に用い、検証データは、学習済モデルの汎用性の検証及びハイパーパラメータの調整に使用し、テストデータは、同定精度の検出に用いた。学習サイクルは、150エポック実行した(拡張データは、エポック毎に変更した。)。
【0055】
上記の計算実験の結果、推定精度は、以下の如くとなった。
【表1】
表1に於いて、推定精度は、各材料に含有する元素種が全て正解した例の割合である。距離学習処理「なし」とは、専門家モデルの演算に於いて、距離学習処理部を設けずに、1次元CNNの出力する特徴量ベクトルをそのままスパースゲート回路部へ入力した場合である。スパースゲート回路構成「重みなし」とは、スパースゲート回路部に於いて、各専門家モデルからの特徴量ベクトルをそのまま(重みなしで)線形結合して、結合特徴量ベクトルを生成した場合である。
【0056】
表1から理解される如く、本実施形態の構成により、材料のスペクトルデータから約77%の高精度にて、材料に含有される元素種を推定できることが示された。また、上記の結果から、専門家モデルに於いて、距離学習処理を実行すると、推定精度が格段に向上することと、スパースゲート回路部の構成として、既に説明されている如く、重み付き線形結合演算を採用すると、推定精度が向上することとが示された。
【0057】
かくして、上記の本実施形態によれば、材料のスペクトルデータから、材料の含有する元素種の推定が可能となる。
【0058】
以上の説明は、本発明の実施の形態に関連してなされているが、当業者にとつて多くの修正及び変更が容易に可能であり、本発明は、上記に例示された実施形態のみに限定されるものではなく、本発明の概念から逸脱することなく種々の装置に適用されることは明らかであろう。
図1
図2
図3
図4
図5