(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023179393
(43)【公開日】2023-12-19
(54)【発明の名称】製品製造における新出現問題の推測
(51)【国際特許分類】
G06F 16/908 20190101AFI20231212BHJP
G06Q 50/04 20120101ALI20231212BHJP
【FI】
G06F16/908
G06Q50/04
【審査請求】未請求
【請求項の数】14
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023093582
(22)【出願日】2023-06-07
(31)【優先権主張番号】22305827.2
(32)【優先日】2022-06-07
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】500102435
【氏名又は名称】ダッソー システムズ
【氏名又は名称原語表記】DASSAULT SYSTEMES
(74)【代理人】
【識別番号】110001243
【氏名又は名称】弁理士法人谷・阿部特許事務所
(72)【発明者】
【氏名】シャビエル グレアン
(72)【発明者】
【氏名】アルノー ダリー
【テーマコード(参考)】
5B175
5L049
【Fターム(参考)】
5B175DA10
5B175FA01
5B175FB04
5B175HB03
5L049CC04
(57)【要約】 (修正有)
【課題】製品製造における新出現問題を推測する方法、プログラムおよびシステムを提供する。
【解決手段】方法は、製品における一つまたは複数のスナップショットと、一つまたは複数の類似度閾値とを含む、時間順付けられたセットを取得するステップと、少なくとも一つの直近スナップショットを取得するステップと、時間順付けられたセットから一つまたは複数のスナップショットのサブセットを取得するステップと、取得したサブセットおよびベースラインから傾向を決定するステップと、を含む。傾向は、ベースラインに関する取得したサブセットのスナップショットの時間分布である。
【選択図】
図1
【特許請求の範囲】
【請求項1】
製品製造における新出現問題を推測するためのコンピュータ実装方法であって、
製品おける一つまたは複数のスナップショットと、一つまたは複数の類似度閾値と含む、時間順付けられたセットを取得するステップ(S10)と、
少なくとも一つの直近スナップショットを取得するステップ(S20)であって、前記少なくとも一つの直近スナップショットは、前記時間順付けられたセットにおける少なくとも一つのスナップショットの後に、時間順付けられている、ステップと、
前記時間順付けられたセットから一つまたは複数のスナップショットのサブセットを取得するステップ(S30)であって、前記一つまたは複数のスナップショットは、前記少なくとも一つの直近スナップショットの前に、時間順付けられており、前記少なくとも一つの直近スナップショットに関して、一つまたは複数の類似度閾値を上回る類似度を満たしている、ステップと、
前記取得されたサブセットおよびベースラインから傾向を決定するステップ(S40)であって、前記傾向は、前記ベースラインに対する前記取得されたサブセットの前記スナップショットの時間分布である、ステップと
を備えることを特徴とする、方法。
【請求項2】
前記傾向を決定するステップ(S40)は、前記サブセットのうちの一つまたは複数のスナップショットと、所定ベースラインの時間順付けられたセットとの間の比率を決定することにより、前記ベースラインに関する前記時間分布を計算するステップであって、前記所定ベースラインの時間順付けられたセットは、前記製品のスナップショットにおける所定の時間順付けられたセットである、ステップをさらに含むことを特徴とする、請求項1に記載の方法。
【請求項3】
前記傾向を決定するステップ(S40)は、前記取得されたサブセットの前記スナップショットを時系列分布に適合させることにより、前記時間分布を計算するステップと、前記計算された時間分布を一つまたは複数の所定ベースライン値と比較するステップとをさらに含むことを特徴とする、請求項1または2に記載の方法。
【請求項4】
前記傾向を決定するステップ(S40)は、前記サブセットのうちの前記一つまたは複数のスナップショットを入力として受け取る関数を定義することにより、前記時間分布を計算するステップであって、前記関数の出力は、前記関数の出力のうちの一つまたは複数の値と、確率分布のうちの一つまたは複数の所定ベースラインの値との間の比率を決定する前記確率分布と比較されている、ステップをさらに含むことを特徴とする、請求項1ないし3の何れか一つに記載の方法。
【請求項5】
前記一つまたは複数の類似度閾値は、前記時間順付けられたセットにおける一つまたは複数のスナップショットのうちの一つまたは複数の類似度標識にそれぞれ基づいていることを特徴とする、請求項1ないし4の何れか一つに記載の方法。
【請求項6】
前記一つまたは複数の類似度閾値は、前記時間順付けられたセットに含まれる前記製品における前記一つまたは複数のスナップショットの数に関する所定の閾値に追加的に基づいていることを特徴とする、請求項5に記載の方法。
【請求項7】
前記一つまたは複数の類似度標識は、前記製品におけるそれぞれのスナップショットに適用されるニューラルネットワーク・アーキテクチャから取得されていることを特徴とする、請求項5または6に記載の方法。
【請求項8】
前記一つまたは複数の類似度標識は、
前記製品の流通に関する情報、
物理的な刺激に対する前記製品の反応に関する情報、および/または
前記製品のテキスト説明
のうちの一つまたは複数を符号化することを特徴とする、請求項5ないし7の何れか一つに記載の方法。
【請求項9】
前記決定された傾向に対応する前記一つまたは複数のスナップショットの各々について、一つまたは複数のラベルを計算するステップであって、
前記一つまたは複数のスナップショットの各々からメタデータを取得するステップであって、それぞれのメタデータは、前記製品における物理的な値の範囲をそれぞれ含み、前記新出現問題を表現している、ステップと、
前記一つまたは複数のスナップショットの各々に、前記取得されたメタデータにそれぞれ対応するデータの一部を関係させるステップと
を含む、計算するステップ
をさらに備えることを特徴とする、請求項1ないし8の何れか一つに記載の方法。
【請求項10】
前記取得されたスナップショットに対する前記取得されたメタデータに関する第一の分布と、前記データセットに対する前記取得されたメタデータにおける第二の分布とを取得し、前記取得された第一の分布および前記第二の分布が異なっている、取得されたメタデータにそれぞれ対応するデータの一部を関係させるステップをさらに備えることを特徴とする、請求項9に記載の方法。
【請求項11】
前記直近スナップショットのメタデータに対する前記取得されたメタデータの整合性チェックを実行するステップをさらに備えることを特徴とする、請求項9または10に記載の方法。
【請求項12】
請求項1ないし11の何れかに記載の方法を実行するための命令を含むことを特徴とする、コンピュータプログラム。
【請求項13】
請求項12に記載のコンピュータプログラムをそこに記録していることを特徴とする、コンピュータ可読記録媒体。
【請求項14】
メモリおよびグラフィカル・ユーザー・インターフェースに結合されたプロセッサを備えるシステムであって、前記メモリは、請求項12に記載のコンピュータプログラムをその上に記録していることを特徴とする、システム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、コンピュータプログラムおよびシステムの分野に関し、より具体的には、製品製造における新出現問題(emerging problem)を推測する(inferring)ための方法、システム、およびプログラムに関連する。
【背景技術】
【0002】
製品製造における品質評価を行うためのシステムまたはプログラムが数多く提供されている。この状況の中で、製品製造における新出現問題を検出することは、ますます重要性を増している。
【0003】
新出現問題を検出するための既存の新出現問題の検出方法としては、例えば、傾向検出法(trend detection methods)、明示的意味解析(explicit semantic analysis)に基づく弱信号検出(weak signal detection)、センチメント分析(sentiment analysis)、異常検出(anomaly detection)に基づく弱信号検出、ならびに故障モードおよび影響解析(failure modes and effect analysis)(FMEA)のような、因果関係グラフ(cause-effect graphs)による問題予防(problem prevention)のための方法などが関係している。
【0004】
傾向検出法は、多くの事象における大局的な変化(global changes)を検出することに関係している。既存の傾向検出法の幾つかの例については、次のURLにおいて説明されている。すなわち、
URL: https://www.ibm.com/docs/en/siffs/2.0.3?topic=learning-trend-detection
【0005】
しかしながら、傾向検出法には幾つかの欠点(drawbacks)が提示されている。例えば、これらの方法における包括的な性質(global nature)に起因して、新出現問題を表している事象が全体量(global volume)のあまりにも小さな部分(too small portion)に対応しているため、全体量と区別することが困難な場合がある。さらに、事象の意味付けが時間と共に変化し、古い問題が新しい問題に置き換わる場合や、事象の量(volume of events)に変化が無い場合もある。さらに、これらの方法は、事象の量が変化しても、例えば、データの作成方法または捕捉方法における変更などにより、新出現問題がまだ発生していない場合には、十分に正確ではない。別の欠点として、ユーザーが特定の問題を検出するために、または傾向を検出するために総体量(overall volume)を減らすことを試みるために、事象のサブセット(subset)に焦点を提供する場合、セレンディピティ(serendipity)が欠如していることになる。
【0006】
明示的意味解析法に基づく弱信号検出は、事象のカテゴリを探索するアプローチである。弱信号検出では、問題が顕在化する前に、事象データから、問題に関連する意味付け(semantics)である事象カテゴリを抽出することが関係している。問題が顕在化し始めると、この方法では、組み合わされたフィルタにより、目に見えて問題が発生しているデータのクラスタが限定されるまで、様々な事象カテゴリに関するデータを手動でフィルタ抽出することが必要とされている。
【0007】
明示的意味解析法に基づく既存の弱信号検出に関する幾つかの例については、次のURLにおいて説明されている。すなわち
https://www.proxem.com/en/customer-interview-pierre-jallais-search-and-nlp-project-manager-total/?utm_source= twitter &utm_medium=social&utm_campaign=plezi、およびhttps://www.3Ds.com/insights/ customer-stories/ engie
【0008】
明示的意味解析法に基づく弱信号検出にも、幾つかの欠点が提示されている。例えば、可能な限りの全てのフィルタの組み合わせを探索することは、指数関数的なコスト(exponential cost)を要する。これは、特に弱信号の場合に当てはまるが、この弱信号は、積極的にデータをフィルタ抽出する必要がある。このため、新出現問題を早期に検出することを控える場合がある。また、新出現問題は、予め定義されたカテゴリに該当しない場合があり、偽陰性(false negatives)、すなわち、新出現問題が検出されないことに繋がる。さらに、症状の記述が、画像、3D形状(3D shapes)、または時系列(time series)などの、非テキストデータ(non textual data)の形態である場合、この方法は適していない。実際、意味解析には、ラベル付きデータ(labeled data)、すなわち正しく分類された大量の例が必要とされており、これには、通常、構築(build)および維持(maintain)に費用が掛かる。換言すると、このアプローチの重要な限界は、検出に先立ち、一貫した事例のセットを組み合わせる(construct)ためのクエリ(query)を構築すること(building)が必要となることである。
【0009】
センチメント分析法は、明示的意味解析に基づく弱信号検出のアプローチにおける特殊な方法である。ここで、抽出された意味付けは、ユーザーの感情を指している。
【0010】
既存のセンチメント分析法に関する幾つかの例については、以下に説明されている。次のURL、すなわち
https://dr.ntu.edu.sg/handle/10356/138444
において記載されている、
テングおよびヘ・シュウ(Teng, He Xu)著「製造業における概念レベルのセンチメント分析」("Concept-level sentiment analysis in manufacturing industry")
【0011】
既存のセンチメント分析法にも、幾つかの欠点が提示されている。例えば、感情は、品質の低い包括的な信号(generic signal)である。実際、それ自体では、感情は、本質的に異なる品質不良(non quality)の事象を識別することを可能にしない。また、感情は、それ自体で行動可能ではない。例えば、感情における変化は、特定の問題を解決するために進んで働くことになる専門家に送り届けることができない。さらに、感情は大局的な信号(global signal)であるため、センチメント分析は、傾向の検出と同じ欠点に悩まされる。さらに、センチメント分析を取り囲む最近の関心にも関わらす、一般的に、製造業における品質不良の検出および解決に使用される場合、より特殊な意味解析よりも、センチメント分析は、より限定的なアプローチとなる。
【0012】
異常検出法に基づく弱信号検出も、製造された製品に関する不具合(defects)を未然に防ぐための他のアプローチである。異常(anomaly)とは、信号(データ)が通常と異なっていることを意味する。これらのアプローチのアイデアは、プロセスに関する利用可能な全てのデータを監視し、データにおける異常値(outliers)(例えば、孤立した発生など)を探すことである。これは、例えば、自己符号化器(autoencoders)、すなわち、データを符号化し、その符号化からデータを再現する、ニューラルネットワーク(neural networks)によって行うことができる。そのデータが通常と異なっている場合、自己符号化器は、そのデータを正しく再現することなく、警告を誘発させることになる。他のアプローチでは、分類器(classifiers)、すなわち、回帰器(regressors)またはクラスタ化アルゴリズム(clustering algorithms)に依存し、データが、稀なカテゴリ、すなわち、予測またはクラスタに分類されると、警告を誘発させることになる。品質に関する異常検出は、ほとんどの時間においてプロセスが良い品質を作り出しているという仮説(hypothesis)に依存している。これらのアプローチは、再発する問題に対して警告を発するというよりも、孤立した事象(occurrences)に対して警告を発することに適応している。すなわち、設計または製造におけるエラーは、通常、孤立した異常ではなく、再発する問題を引き起こすことになるため、例えば、これらのアプローチは、設計または製造における根本的な原因(root causes)に起因する問題の検出にはあまり適していない。
【0013】
異常検出法に基づく既存の弱信号検出に関する幾つかの例は、次において説明されている。
ジン・ヤン等著(Yang, Jing, et al.)「製造業における不具合の検出のための深層学習の使用:包括的な調査および現在の課題」("Using deep learning to detects defects in manufacturing: a comprehensive survey and current challenges"), マテリアル(Materials)、資料13.24(2020年)、番号5755
また、他の例については、次のURLに説明されている。
https://towardsdatascience.com/anomaly-detection-in-manufacturing-part-1-an-introduction-8c29f70fc68b、および
https://www.mdpi.com/1996-1944/13/24/5755/ pdf
【0014】
異常検出法に基づく弱信号検出も、幾つかの欠点を有している。例えば、既存の方法では、偽陽性(false positives)、すなわち、データ内の新たな異常が必ずしも品質不良と関連付けられるわけではないこととを提示する傾向となる場合がある。偽陰性に関しても、同様である。すなわち、設計、製造、および保守の各プロセス、ならびに製品の使用状況などの一部は、必ずしも終始(end to end)計測されているとは限らないため、事前に(a priori)アラームを誘発させるためのデータが入可能でない場合がある。さらに、異常検出に基づく弱信号検出には、次元の呪い(curse of dimensionality)という問題が提示されている。すなわち、複雑な設計および製造プロセスによる複雑な製品の場合、データの次元は、通常、大規模化する。このため、適合率(precision)および再現率(recall)の間において良い妥協(good compromises)を構成するデータの表現を実現することは困難となる。また、異常検出は、他の事象とは異なる範囲外の孤立した現象(occurrences)に存在するため、次元性(dimensionality)に加えて、異常検出は、計測(instrumentation)の問題にも敏感である。これは、関連する異常を識別するために、事象が先験的に(a priori)データによって十分よく特徴付けられなければならないことを意味する。
【0015】
知識ベース法またはFMEAなどの、因果関係グラフ法による問題予防では、故障モードに繋がる因果関係(causality relations)を、ユーザーが観察して利用することが関係している。故障モードおよび影響解析のデータベースは、品質不良に関連していることが既知である、因果関係に関する以前から存在する(preexisting)データベースである。通常、それらには、過去の問題を分析した際に得られた知識が含まれている。この知識は、確認された問題に可能性のある原因をより迅速に分析するために使用することができる。また、それは、プロセスを効率的に計測し、最も有用なデータを収集するために、どのプローブをどこに配置するべきかを選択することにも役立つように、利用することができる。
【0016】
因果関係グラフ法による既存の問題予防に関する幾つかの例は、次において説明されている。
ビルギット・フォーゲル・ホイザー等著(Vogel-Heuser, Birgit, et al.)「デジタルツインの関連において意味付けおよびデータ分析を組み合わせる可能性」("Potential for combining semantics and data analysis in context of digital twins")、英国王立協会紀要(Philosophical Transactions of the Royal Society)、資料A379.2207(2021年)、番号20200368
また、他の例については、次において説明されている。
ツールキット、QIエッセンシャルズ(QI Essentials)、「故障モードおよび影響解析(FMEA)ツール」("Failure Modes and Effects Analysis (FMEA) Tool)、医療の質改善研究所(Institute for Healthcare Improvement)(2017年)
【0017】
因果関係グラフによる問題予防を利用する手法群にも、幾つかの欠点が共有されている。例えば、設計、生産、保守、および運用の各段階に推移している環境において、新たな種類の問題を検出するためには、データベースだけでは不十分である。さらに、(知識ベースまたは知識グラフなどの)因果関係グラフは、通常、問題検出の結果であり、問題分析によって後続される。それ故に、因果関係グラフは、分析を活かし、既知の問題を再発見しないために使用される。
【0018】
このような状況の中で、製品製造における新出現問題を推測するための改善された方法が依然として必要とされている。
【発明の概要】
【0019】
そこで、製品製造における新出現問題を推測するためのコンピュータ実装方法を提供する。本方法は、製品における一つまたは複数のスナップショットと、一つまたは複数の類似度閾値とを含む、時間順付けられたセットを取得するステップを備える。また、本方法は、少なくとも一つの直近スナップショットを取得するステップであって、少なくとも一つの直近スナップショットは、時間順付けられたセットにおける少なくとも一つのスナップショットの後に時間順付けられている、ステップを備える。また、本方法は、時間順付けられたセットから一つまたは複数のスナップショットのサブセットを検索するステップであって、一つまたは複数のスナップショットは、少なくとも一つの直近スナップショットの前に時間順付けられている、ステップと、少なくとも一つの直近スナップショットに関して、一つまたは複数の類似度閾値のうちの少なくとも一つを上回る類似度を満足するステップとを備える。また、本方法は、検索されたサブセットおよびベースラインから傾向を決定するステップであって、傾向は、ベースラインに関して検索されたサブセットのスナップショットの時間分布である、ステップを備える。
【0020】
本方法は、以下の一つまたは複数を備え得る。すなわち、
-傾向を決定するステップは、サブセットにおける一つまたは複数のスナップショットと、所定ベースラインの時間順付けられたセットとの間の比率を決定することにより、ベースラインに対する時間分布を計算するステップであって、所定ベースラインの時間順付けられたセットは、製品のスナップショットにおける所定の時間順付けられたセットである、ステップをさらに含む。
-傾向を決定するステップは、検索されたサブセットのスナップショットを時系列分布に適合させることにより、時間分布を計算するステップと、計算された時間分布を一つまたは複数の所定ベースラインの値と比較するステップをさらに含む。
-傾向を決定するステップは、サブセットのうちの一つまたは複数のスナップショットを入力として受け取る関数を定義することにより、時間分布を計算するステップであって、関数の出力は、関数の出力における一つまたは複数の値と、確率分布における一つまたは複数の所定ベースラインの値との間の比率を決定する確率分布と比較されている、ステップをさらに含む。
-一つまたは複数の類似度閾値は、時間順付けられたセットにおける一つまたは複数のスナップショットの一つまたは複数の類似度標識(similarity signatures)にそれぞれ基づいている。
-一つまたは複数の類似度閾値は、時間順付けられたセットに含まれる製品における一つまたは複数のスナップショットの数に関する所定の閾値に追加的に基づいている。
-一つまたは複数の類似度標識は、製品におけるそれぞれのスナップショットに適用されるニューラルネットワーク・アーキテクチャから取得されている。
-一つまたは複数の類似度標識は、次のうちの一つまたは複数を符号化する。すなわち、
〇製品の流通に関する情報
〇物理的な刺激に対する製品の反応に関する情報、および/または
〇製品のテキスト説明。
-決定された傾向に対応する一つまたは複数のスナップショットの各々について、一つまたは複数のラベルを計算するステップをさらに含み、
〇一つまたは複数のスナップショットの各々からメタデータを取得するステップであって、それぞれのメタデータは、製品における物理的な値の範囲を含み、新出現問題をそれぞれ表している、ステップと、
〇取得されたメタデータにそれぞれ対応するデータの一部(data pieces)を一つまたは複数のスナップショットの各々に関係させるステップと
を含む、計算するステップをさらに備える。
-検索されたスナップショットに対する取得されたメタデータに関する第一の分布と、データセットに対する取得されたメタデータに関する第二の分布とを取得し、取得された第一の分布および第二の分布が異なっている、取得されたメタデータにそれぞれ対応するデータの一部を関係させるステップをさらに備える。
-直近スナップショットのメタデータに対する取得されたメタデータの整合性チェックを行うステップをさらに備える。
【0021】
さらに、本方法を実行するための命令を含む、コンピュータプログラムを提供する。
【0022】
さらに、そのコンピュータプログラムをそこに記録している、コンピュータ可読記録媒体を提供する。
【0023】
さらに、メモリおよびグラフィカル・ユーザー・インターフェースに結合されたプロセッサを含むシステムであって、メモリは、コンピュータプログラムをそこに記録している、システムを提供する。
【図面の簡単な説明】
【0024】
ここで、非限定的な実施例を添付の図面を参照して説明するが、ここでは次の通りである。すなわち、
【
図3】本方法に関する実装形態の別の例を示す図である。
【発明を実施するための形態】
【0025】
図1におけるフローチャートを参照して、製品製造における新出現問題を推測するためのコンピュータ実装方法を提案する。本方法は、時間順付けられたセットを取得するステップS10を備える。時間順付けられたセットは、製品における一つまたは複数のスナップショットと、一つまたは複数の類似度閾値とを含む。また、本方法は、少なくとも一つの直近スナップショットを取得するステップS20を備える。少なくとも一つの直近スナップショットは、時間順付けられたセットにおける少なくとも一つのスナップショットの後に、時間順付けられている。また、本方法は、時間順付けられたセットから一つまたは複数のスナップショットのサブセットを検索するステップS30を備える。一つまたは複数のスナップショットは、少なくとも一つの直近スナップショットより前に、時間順付けられている。前述の一つまたは複数のスナップショットは、少なくとも一つの直近スナップショットに関して、一つまたは複数の類似度閾値のうちの少なくとも一つを上回る類似度を満たしている。また、本方法は、検索されたサブセットおよびベースラインから傾向を決定するステップS40を備える。傾向は、ベースラインに関する検索されたサブセットのスナップショットの時間分布である。
【0026】
このような方法は、製品製造における新出現問題の推測を改善する。実際、本方法は、新出現問題の発生確率(probability of occurrence)に関する事前の知識(previous knowledge)無しに、製品上の品質不良の問題を検出することがより良く可能である。本方法は、問題が以前に特定および/または予測されなかった種類のものであっても、新出現問題を推測することが可能である。また、本方法は、新出現問題の発生に繋がる因果関係が不明であっても、新出現問題を推測することが可能である。さらにまた、本方法は、スナップショットを取得するために使用される計測(instrumentation)に囚われない。実際、本方法は、問題に繋がる活動の計測が警告をもたらさなかった可能性があり、そのような計測が存在しない可能性があっても、新出現問題を推測することが可能である。
【0027】
本方法は、コンピュータに実装される。これは、本方法のステップ(または実質的に全てのステップ)が、少なくとも一つのコンピュータ、または任意のシステムによって同様に実行されることを意味する。そのため、本方法のステップは、コンピュータによって、場合によっては完全に自動で(fully automatically)、または、半自動で(semi-automatically)実行される。例では、本方法のステップのうちの少なくとも幾つかを誘発するステップは、ユーザーおよびコンピュータ間の対話(user-computer interaction)によって実行され得る。必要とされるユーザーおよびコンピュータ間の対話のレベルは、予見された自動化(automatism)のレベルに依存し、ユーザーの希望を実現する必要性とのバランスを取り得る。例では、このレベルは、ユーザー定義および/または事前定義され得る。
【0028】
本方法によって企図される製品は、航空宇宙、建築、建設、消費財、先端技術機器(high-tech devices)、産業機器、輸送、海洋(marine)、および/または沖合石油(offshore oil)/ガス生産(gas production)もしくは輸送を含む、種々かつ無限定の産業分野において製造、試験、および/または運用されるものである。製品は、陸上車両(terrestrial vehicle)(例えば、自動車および軽トラック機器、レーシングカー、オートバイ、トラックおよびモーター機器、トラックおよびバス、ならびに列車などを含む)の部品、航空車両/航空機(aerial vehicle/aircraft)(例えば、機体機器、航空宇宙機器、推進機器、防衛製品、航空機器、および宇宙機器などを含む)の部品、海軍車両(naval vehicle)(例えば、海軍機器、商船、海洋機器、ヨットおよび作業船、ならびに海洋機器などを含む)の部品、一般機械部品(例えば、産業用製造機械、重機械または装置、据付型装置(installed equipment)、産業用装置製品、金属加工製品、およびタイヤ製造製品などを含む)、電気機械または電子部品(例えば、家電製品、セキュリティ、制御および/または計装製品、演算および通信機器、半導体、ならびに医療機器および装置などを含む)、消費財(例えば、家具、家庭用品および園芸用品、レジャー用品、ファッション製品、耐久消費財小売業者製品、ならびに非耐久消費財小売業者製品などを含む)、包装(例えば、食品、飲料およびタバコ、美容および化粧、家庭用製品の包装などを含む)などの、任意の機械部品であり得る。
【0029】
製品製造における新出現問題とは、製品の製造プロセスの何れかの部分において何らかの種類の問題であり、これは、製品の品質低下または不具合をもたらす。例えば、生産ラインの何れのステップにおいても、製造された後の製品の試験段階(すなわち、品質保証業務(quality assurance tasks)を行うために商品化(commercialization)の前に試験を受けている製品)、および/または、製品が商品化された後の運用の間に、新出現問題が発生する可能性がある。新出現問題を推測することとは、本方法が時間順付けられたセットから製品に存在する新出現問題を検出することを意味する。
【0030】
時間順付けられたセットは、時間によって順序付けられた(すなわち、時系列的に(chronologically))、および一つまたは複数の類似度閾値(例えば、一つの類似度閾値のみ)によって順序付けられた、一つまたは複数のスナップショットを(例えば、物理メモリに格納することによって)含む、時系列データ構造によって形成されている。時系列データ構造は、スナップショットのうちの少なくとも一部(例えば、全て)に関するタイムスタンプおよび/または日付情報(例えば、日および/または時刻を含む)を含んでいてもよく、あるいは、そのような正確な情報を含まなくてもよい。後者の場合、時系列データ構造は、一つまたは複数のスナップショットの各々の間の時系列的順序を検索するように配置されてもよく、または時系列データ構造は、各スナップショットに関する順序付けのインデックスを含んでいてもよい。何れの場合でも、スナップショットは、相互の間の均一な時間量によって、または代替的に、非均一な時間量によって分離されてもよい。
【0031】
また、時間順付けられたセットは、一つまたは複数の類似度閾値を含む。慣習により、類似度閾値は、類似度の尺度における所定の下限に対応する、非負の数である。例えば、類似度の尺度の大きさおよび下限値を直接比較することにより、または類似度の尺度に関数a(例えば、単調増加関数(monotonically increasing function)など)を適用することにより、および関数の出力を所定の下限値と比較することにより、二つの(または複数の)スナップショットの各々における類似度の尺度が所定の下限値以上である場合に、時間順付けられた二つの(複数の)スナップショットは、類似すると見做される場合がある。一つまたは複数の類似度閾値は、任意の方法において提供されてよい。
【0032】
製品のスナップショットは、例えば、生産ラインにおいて、品質テストベッド(quality testbed)、および/または製品が稼働中である任意の他種類の構内(premise)/フロア(floor)における、製品の物理信号の分布を表す。製品のスナップショットは、例えば、2D情報、3D情報、テキスト情報(textual information)(例えば、注釈付きログの形式など)、または(例えば、歩留まり(yield)-ある時間量において処理される製品数、機械加工工具の回転速度などの、情報を表す)測定された物理データに対応する数値情報を含むデータ構造であってもよい。その分布は、任意の形状のものであり得る。例えば、分布が2D情報を含む場合、スナップショットは、画素のグリッドとして表現されることがあるが、グリッドは、不規則または規則的である可能性がある。物理信号は、例えば、可視光、非可視光(例えば、赤外線またはX線)、振動、音響、および温度を含んでもよい。物理信号は、センサから取得される任意の信号であり得る。センサは、物理信号を取得するように構成された、産業に使用される任意の種類のセンサであり得るが、これは、生産ラインにおいて、品質テストベッド、および/または製品が稼働中である任意の他種類の構内/フロアに作り付けにされてもよい。センサは、任意の手段を通じて物理信号を取得するように構成され得るが、例えば、センサは、可視光を捕捉するように構成されたRGBセンサ、深度センサ、IRセンサ、または産業用コンピュータ断層撮影スキャナ(industrial computed tomography scanner)などの超伝導転移端センサ(edge sensor)であってもよい。センサから取得された物理信号は、スナップショットが2D画像または3DのRGB/グレースケール/深度表現、または3D体積(volume)もしくはメッシュを含み得るように、製品の色レベル、グレーレベル、表面、体積占有率(volume occupancy)、製品の奥行きもしくは縁の有無(depth or presence of edges of the product)を通してスナップショットに表現され得る。
【0033】
このように、時間順付けられたセットは、一つまたは複数のスナップショットを時系列的に、例えば、スナップショットが対応するセンサによって取得された時刻に従って順序付けを行って格納する。例えば、センサは、ビデオカメラに組み込まれてよく、時間順付けられたセットのスナップショットは、ビデオカメラから取得されたビデオストリーム(video stream)の(例えば、RGB、グレースケール、またはCTスキャンなどの)フレームを含んでよい。この場合、例えば、時系列のセットは、各スナップショットの取得日および取得時間を示し得るタイムスタンプを(例えば、時間順付けられたセットに含まれる時系列データ構造において)追加的に含んでよい。
【0034】
図1に戻って参照して、ステップS10において取得された時間順付けのセットは、様々な時刻に、様々な場所において、様々なシステムまたはセンサを用いて、および/または様々な人もしくはエンティティによって形成されている可能性がある。換言すると、時間順付けられたセットに含まれるスナップショットは、生産ラインにおける任意のステップにおいて、試験段階の間に、および/または任意の構内における(同じ)製品の稼働中に取得されている可能性がある。スナップショットは、生産、試験、または運用の何れかの前段階において時系列的に順序付けられるため、本方法は、後続のステップS20ないしS40を実行するために、時間順付けられたセットのスナップショットに対して任意種類のデータ変換を実行し得る。
【0035】
例えば、時間順付けられたセットは、ステップS10において、溶接(welding)またはコンクリート建築(concrete building)の産業領域における生産ラインにおいて取得されることがあり、スナップショットは、製造中てある製品(例えば、製品の一部、または全部)の3Dスキャンまたは2Dスキャンである。この例では、スナップショットは、生産ラインの一部として設置された一つまたは複数の産業用コンピュータ断層撮影(CT)センサ、すなわち、溶接またはコンクリート建築の領域において典型的に出現するような、空隙(void)または気泡(bubbles)などの、既知種類の問題を検査するために既に設置されたセンサによって時系列的に取得され得る。
【0036】
別の例では、時間順付けられたセットは、ステップS10において、試験段階において、例えば、輸送の産業領域において、取得されることがあり、製品は、航空機(aircraft)の部品であり得る。試験段階において、スナップショットは、航空機に組み込まれたセンサから取得されてもよく、さらに、付随するデータ、例えば、試験後に書かれた、例えば、数日間に亘る、テストパイロットからの報告書(written report)を取り入れてもよい。
【0037】
さらに別の例では、時間順付けられたセットは、ステップS10において、車両群(vehicle fleets)の運用において取得されることもある。スナップショットは、例えば、ユーザーによって製造者(manufacturer)へ発行された保証請求(warranty claims)を含んでよい。各保証請求は、問題のテキスト説明によって付随された車両の2D画像を含み得る。
【0038】
本方法は、ステップS20において、少なくとも一つの直近スナップショットを取得する。少なくとも一つの直近スナップショットは、時間順付けられたセットにおける少なくとも一つのスナップショットの後に時間順付けられる。換言すると、直近スナップショットは、時間順付けられたセットにおける少なくとも一つのスナップショットの後に、時系列的に順序付けられる。少なくとも一つの直近スナップショットは、時間順付けられたセットから取得されてもよいし、または様々なシステムから取得されてもよいし(例えば、不揮発性ストレージから、ネットワークから、またはリアルタイムでスナップショットを送信するセンサから検索される)、および/または異なる人もしくはエンティティによって取得されてもよい。何れの場合も、少なくとも一つの直近スナップショットは、時間順付けられたセットに含まれる一つまたは複数のスナップショットの時系列的順序に関して、その時系列的順序に関する任意の指標(暗黙的または明示的に、タイムスタンプのように)を含み得る。
【0039】
例えば、時間順付けられたセットが溶接またはコンクリート建築の産業領域における生産ラインにおいて取得されている場合、ステップS20において取得された少なくとも一つの直近スナップショットは、時間順付けられたセットにおけるスナップショットの少なくとも一つ(例えば、直近スナップショットがリアルタイムで取得される場合、全て)の後に、時系列的に産業用CTセンサのうちの一つから受け取られた別のスナップショットであり得る。
【0040】
別の例では、ステップS10において取得された時間順付けのセットは、高い頻度で受け取られたスナップショット(例えば、スナップショットは、相互の間の数分間、または数時間から取得されてもよい)を含むことがある。ステップS20において取得された直近スナップショットは、試験の間における任意の時刻に時間順付けられたセットから取得され得る。
【0041】
さらに別の例では、今回の車両群の稼働中に時間順付けられたセットが取得されている場合、ステップS20において、少なくとも一つの直近スナップショットは、例えば、時間順付けられたセットの時系列に関して、最新の運用日からのスナップショットを取得することにより、時間順付けられたセットから取得されてもよい。
【0042】
本方法は、ステップS30において、時間順付けられたセットから一つまたは複数のスナップショットのサブセットを取得する。(サブセットのうちの)一つまたは複数のスナップショットは、ステップS20において取得された少なくとも一つの直近スナップショットの前に、時間順付けされる。サブセットのうちの一つまたは複数のスナップショットは、少なくとも一つの直近スナップショットに関して、一つまたは複数の類似度閾値のうちの少なくとも一つを上回る類似度を満たす。換言すると、サブセットにおける各スナップショットは、少なくとも一つの直近スナップショットに類似しており、すなわち、サブセットにおけるそれぞれのスナップショットと、少なくとも一つの直近スナップショットとの両方の類似度の尺度は、一つまたは複数の類似度閾値のうちの少なくとも一つ以上である。例えば、本方法は、任意の類似度メトリック(例えば、逆ユークリッド距離(inverse Euclidean distance)または余弦類似度メトリック(cosine similarity metric)など)を使用して、時間順付けられたセットにおける一つまたは複数のスナップショット間の類似度を比較してもよく、サブセットのうちの一つまたは複数のスナップショットは、類似度メトリックが所定の類似度閾値を上回る、時間順付けられたセットのそれらのスナップショットである。
【0043】
本方法は、ステップS40において、ステップS30において取得されたサブセット(類似するスナップショットを含む)と、ベースラインとから傾向を決定する。傾向は、ベースラインに対する取得されたサブセットのスナップショットの時間分布であり、そのため、ベースラインに対するスナップショットにおける頻度の変動を記述する。
【0044】
ベースラインは、取得されたサブセットのうちの一つまたは複数のスナップショットに関する比較として機能する、所定の値またはデータの分布に関する任意の集合体(collection)であってよい。ベースラインは、任意の方法で取得され得て、例えば、生産ラインの関連データ(contextual data)から提供されてもよく、または、サブセットのスナップショットの前に時系列的に順序付けられた、時間順付けられたセットの一つまたは複数のスナップショットによって構成される、時間順付けられたセットの時間窓(time window)サブセットから取得されてもよい。あるいは、本方法は、スナップショットのタイムスタンプを、時系列分布モデル(time series distribution)、例えば、パラメトリック統計分布(parametric statistical dustribution)、機械学習モデル(machine -learning model)、または多項式もしくは指数関数による時系列関数(polynomial or exponential time series function)に適合させてもよい。
【0045】
このように、傾向は、サブセットによって設定された時系列的順序によって決定される時間枠(temporal frame)(すなわち、少なくとも一つの直近スナップショットの取得時刻まで)において、製品における新出現問題を捉えることを可能にする。例えば、新出現問題が時間に対して増加する場合、その傾向は、製品に問題が出現していることを示している。そのため、例えば、スナップショットのメタデータに関して追加の検証を行うことにより、および/または結果を以前に検出された問題と比較することにより、新出現問題が既知であるか未知であるかを判定することが可能である。また、本方法は、任意の所定方法でベースラインを設定することを可能にし、それによってベースラインと比較されているサブセットの時間窓および/または時間分布を変更し得る。そのため、本方法は、例えば、ベースラインに対して短い時間軸(timeline)を設定することにより、および/または高い類似度閾値を設定することにより、新出現問題の検出速度を変更するように、問題検出の感度を変更することを可能にする。さらに、これは、例えば、ベースラインに対する直近の時間窓上の発生頻度の比(ratio of frequencies of occurrences)に対する閾値を変更することにより、検出されるべきである出現の種類、例えば、速い出現問題対遅い出現問題、または持続的な問題であっても選択することを可能にする。
【0046】
既存の傾向検出およびセンチメント分析法と比較して、本発明は、新出現問題の検出感度を改善する。実際、本方法は、(比較的)少数の初期発生から新出現問題を推測することを可能にする。換言すると、本方法は、傾向を決定するように、時間順付けられたセットにおける一つまたは複数のスナップショットのうちの比較的小さなサブセットを検索する必要があることのみである。
【0047】
既存の明示的意味解析法に基づく弱信号検出と比較して、本方法は、セレンディピティを実現している。すなわち、本方法は、任意種類の問題、予想外であった問題でさえも検出することを可能にする。また、新しい種類の問題に対して特定のカテゴリを必要とする、明示的意味解析に基づく弱信号検出とは対照的に、本方法では、カテゴリが不明である場合であっても、新出現問題を依然として検出する。
【0048】
既存の異常検出法に基づく弱信号検出と比較して、検出された問題を分類するためのカテゴリが利用可能である場合、事象を単独で考慮することが事象の意味付けに関する同じ統計分析を許容しないため、本発明は、異常検出が行わない、問題のラベル付けを可能にする。
【0049】
本方法は、例えば、製造プロセスにおける場合のように、複数の新出現問題が併発している可能性がある状況において、特に効率的である。実際、本発明は、併発する新出現問題の各々を効率的に判別し、それ故に、各新出現問題の処置を改善する。例えば、本方法は、判別された新出現問題の各々について種類を検出し(例えば、新出現型、持続型、および新出現低速型または新出現高速型として)、各型について設定された優先順位に従って新出現問題の処置を優先させ得る。
【0050】
そのため、本方法によって決定された傾向は、製品の製造を改善するために使用され得る。製造を改善するための方法の例示的な適用において、製品が直列に(in series)製造される場合、本方法は、直列に製造された製品のバッチ(batches)のスナップショット、すなわち、直列の製造の全段階における製品のスナップショット(例えば、CTスキャンなど)を含む、時間順付けられたセットを取得し得る。決定された傾向は、スナップショットの時間分布であるため、決定された傾向は、製造時における製品の仕様を含む。決定された傾向が新出現問題(例えば、製品の品質および/またはその使用の安全性に影響を及ぼす可能性のある問題など)を表している場合、本方法は、(製品の仕様を含む)傾向を設計者/エンジニアに送信してもよいし、自動システムに送信してもよく、このシステムは、決定された傾向によって検出された問題に一致する製品のバッチを(手動、半自動、または完全自動によって)スタンバイ状態にし得る。その後、設計者/エンジニアは、問題を調査し、問題を提示する製品の仕様を含む、決定された傾向によって全て、積極的に修正を実行し得る。これにより、本方法は、問題が一時停止を正当化する場合には製品の製造を一時停止し、設計または製造における根本原因(root causes)を特定するために完全な分析を行うことにより、例えば、傾向によって検出された問題の新たな発生を回避するために使用することができ、製造プロセス、設計、および/または保守プロセスを変更することによって上流で修正を行い、不具合が再び発生することを防止することができる。これにより、本方法は、下流(例えば、その後の試験において、または運用において、および/または認証プロセスを通過する間に)の問題を予測および防止し、不具合を早期に解決することによってコストを節約するために、使用することができる。
【0051】
特に、製造工程は完全に自動化されている可能性があり、本方法は、新出現問題の疑いが生じたときに何時でも、生産ラインを停止することを可能にする。その後、オペレータがデータをチェックし、ラインを再開するか、または是正措置(corrective action)を取るかを判定することになる。これは、例えば、高価な材料を処理するラインなどの、スループットよりも品質がより重視される、高位の(high-stakes)生産ラインに適用されることになる。
【0052】
別の応用例では、本方法は、CTスキャンによって構成される、製品のスナップショットから本方法によって決定された傾向に基づいて、生産工程における機械の破れ(tear)または摩耗(wear)などの、不具合を検出するために使用され得る。実際、生産ラインにおける破れまたは摩耗は、個々の異常値(outliers)ではなく、時間の経過とともに頻度および検出可能性において増加する、類似した再発性の高い事故を生じさせる。これにより、傾向の検出が、信頼性を高くするとともに、破れまたは摩耗に関連する問題を表すものとなる。そして、ユーザーは、破れまたは摩耗の対象となる機械の要素を固定して、問題を解決することができる。
【0053】
別の応用例では、本方法は、CTスキャンによって構成される、製品のスナップショットから本方法によって決定された傾向に基づいて、生産プロセスにおける不具合を検出するために使用されるが、不具合は、人間のオペレータまたは自律ロボットオペレータの挙動の推移(evolution)に起因している可能性がある。このような挙動は、適応的なフィードバック・ループに起因してゆっくりと進展し、品質が保証されていない製品の3D上に新しいパターンを生み出すことがある。例えば、溶接検査では、このような場合がある。このように、溶接検査の状況では、本方法が製品の不具合を表している傾向を取得するため、ユーザーは、製品の品質が許容可能レベル(acceptable level)に戻ることを確実にするように、本方法によって誘導される。
【0054】
別の応用例では、本方法は、機械加工工具(machining tool)の不適切な潤滑(incorrect lubrication)に起因する不具合を検出するために使用され得る。固定された閾値に対する工具の温度を見ることは、生産上の問題における信頼できる指標ではない。回転工具の温度に関与する生産上の問題を検出するには、この指標の推移(evolution)を、印加圧力(applied pressure)、温度、回転速度(rotating speed)、および成果物(work)の材質における時間的な値とともに考慮する必要があり、複数の実行に亘ってこれらのパラメータを考慮する必要がある。本方法は、これらの時系列をベクトル化することによって計算されて、その実行を特徴付けるメタデータに対して統合された、類似度標識(similarity signatures)を使用することにより、時間順付けられたセットと、一つまたは複数の類似度閾値とから、傾向を推測(つまり、検出)することによってこの問題を解決することを可能にする。これにより、機械の運転は、不具合を考慮し、問題を提示する機械の部品に集中することにより、是正措置を適用することができる。これにより、その問題を提示する機械加工工具の部品を探す時間が短縮されるため、機械の保守における使い心地(ergonomics)が改善される。
【0055】
別の応用例では、本方法は、水力発電所(hydroelectric power plant)のローター(rotors)において、稼働中における誤った保守プロセスに起因する潜在的な問題(latent problems)を検出するために使用され得る。例えば、ローターの部品の温度は、それ自体では問題でないが、圧力(pressure)、流率(flow rate)、発電電力(generated power)などの、他のパラメータを考慮すると、問題を提示する可能性がある。このように複数のパラメータに起因して、ローターの稼働に存在する他の外部パラメータが、直接測定によっては容易に検出可能ではない、他の問題を「隠す」、温度の変動を生じさせることがある。この場合、時間的に自然な信号の分割が無い(工作機械(machine tool)の場合におけるジョブ(job)に似ている)場合、信号を十分に短命な時間セグメントに任意に分割することができるが、各セグメントは、それ独自の類似度標識(similarity signature)を有する。本方法は、傾向の決定がベースラインを考慮するため、隠れた問題の検出精度を改善するために、これを利用することができる。これにより、問題を提示する機械加工工具の部品を探す時間が短縮されるため、ローターを不必要に使用停止にする必要が無くなるため、ローターの保守における使い勝手(ergonomics)および操作の安全性が改善される。
【0056】
ここで、類似度閾値の態様についてさらに説明する。
【0057】
一つまたは複数の類似度閾値は、時間順付けられたセットにおける一つまたは複数のスナップショットのうちの一つまたは複数の類似度標識にそれぞれ基づく場合がある。類似度閾値は、二つのスナップショットが類似していると見做すための、二つのスナップショット間の最小の類似度尺度である。例えば、本方法は、一方に基づく類似度によるクエリを実行してもよく、それらの類似度が類似度閾値を上回る場合、他方を検索することになる。二つのスナップショット間の類似度は、それらの標識に基づいて計算される。類似度標識は、製品における一つまたは複数の物理的特性を符号化し得る。類似度標識は、製品のスナップショットから計算されてもよいし、スナップショットに記述された(例えば、時間順付けられたセットにおいてスナップショットに関連する)情報の一部として提供されてもよい。類似度標識は、スナップショットにおいて表現される製品における一つまたは複数の物理的特性を処理することによって取得されてもよい。そのため、この標識は、多次元、例えば、100次元以上、さらに1.000次元以上であってもよい。製品における一つまたは複数の物理的特性は、スナップショットに表現された製品の形状、また色もしくは質感(texture)を介して、またはスナップショットに組み込まれた任意の他データ、例えば、注釈付きログに含まれるテキストによって、スナップショットに表現され得る。このように、類似度標識は、符号化された物理的特性に従って、時間順付けられたセットのスナップショット間の類似度の程度を与えることを可能にする。
【0058】
一つまたは複数の類似度閾値は、時間順付けられたセットに含まれる製品における一つまたは複数のスナップショットの数に関する所定の閾値に追加的に基づき得る。換言すると、(ステップS30においてサブセットを検索するために使用される)類似度閾値は、製品における一つまたは複数のスナップショットの数によって設定される密度に依存する。したがって、本方法は、統計的に有意な方法において類似スナップショットを検索するための方法の感度(sensitivity)を変更する。実際、本方法は、例えば、最小支持(minimum support)を設定し得て、すなわち、製品における一つまたは複数のスナップショットの数は、統計的に有意であると考えられる平均密度を表す最小数である。換言すると、最小数によって、類似していることが判明している二つのスナップショットが、発生確率の低い事象ではなく、むしろ製品(例えば、実際の生産ラインの間に)を表すものであることを保証することができる。別の例では、本方法は、(少なくとも一つの直近スナップショットを取得する前に)時間順付けられたセットにおけるn個のスナップショットのサブセットをランダムにサンプリングし、ランダムに検索されたn個のスナップショット間の中央値の類似度尺度(median similarity measure)を取得してもよい。中央値の類似度尺度は、閾値を決定するための基礎として使用され得る。
【0059】
一つまたは複数の類似度標識は、製品におけるそれぞれのスナップショットに適用されるニューラルネットワーク・アーキテクチャ(neural network architecture)から取得され得る。ニューラルネットワーク・アーキテクチャは、例えば、深層学習アーキテクチャ(deep learning architecture)、自己符号化器アーキテクチャ(autoencoder architecture)、変換器アーキテクチャ(transformer architecture)、またはコンテキスト依存型自己符号化器(context sensitive autoencoder)であり得る。ニューラルネットワーク・アーキテクチャは、(時間順付けられたセットのスナップショットによって捕捉された)製品における一つまたは複数の物理的特性を(一連の複雑な計算によって)処理し、データの優れたパターン(outstanding patterns)を構成する値のベクトルを出力するように訓練されてもよい。
【0060】
一つまたは複数の類似度標識は、製品の流通(distribution)に関する情報、物理的刺激(physical stimulation)に対する製品の反応に関する情報、および/または製品のテキスト説明(text description)のうちの一つまたは複数を符号化し得る。
【0061】
例えば、スナップショットは、2D画像のような2D表現であってもよい。この場合、本方法は、2D畳み込みネットワーク(2D convolutional networks)から類似度標識を取得し得る。換言すると、本方法は、2D畳み込みネットワークを適用することにより、または2D畳み込みネットワークから出力される類似度標識を取得することにより、類似度標識を計算し得る。2D畳み込みネットワークは、ラベルが利用可能である場合、画像分類に使用されるネットワークであってもよい。スナップショットに表現された製品の流通に関する情報を符号化すると、類似度標識は、出力の直前の層の出力であってもよい。本方法は、利用可能なラベルが無い場合に、敵対的ネットワーク(adversarial network)を使用し得る。敵対的ネットワークは、実画像(real images)および合成画像(synthetic images)を区別し、同時に現実的な合成画像(realistic synthetic images)を生成するように訓練され得る。敵対的ネットワークは、画像を生成する生成器ネットワーク(generator network)と、画像が生成された実物であるかどうかを分類する識別器ネットワーク(discriminator network)とを共同で訓練し得る。この場合、本方法は、出力前の識別器の層から類似度標識を取得し得る。また、本方法は、類似度標識を計算するために変換器ネットワークを使用することもできる。
【0062】
別の例では、スナップショットは、3D形状のような3D表現であってもよい。本方法は、類似度標識を取得するために、例えば、PointNetのような点群ベクトル化法(point cloud vectorization methods)を使用し得る。
【0063】
別の例では、スナップショットは、テキスト(例えば、テキストを含む保証請求(warranty claim)など)を含み得る。標識を取得するためのテキストを考慮するために、本方法は、例えば、BERT言語モデルおよびtfidfベクトル化を参照し得る。BERTモデルは、否定(negation)を含む様々な言語形態によって表現された場合であっても、テキストの意味を捉える。tfidfベクトル化は、BERTモデルが捕捉しない可能性のある特定の専門用語(jargon)を捕捉するために、スナップショットのセットに対して学習される。したがって、本方法は、多くのデータ、およびGPU時間を必要とする、時間順付けられたセットに対するBERTモデルを微調整する(fine-tune)か、または完全に訓練する(fully training)ための代替手段(alternative)を提供する。
【0064】
ここで、傾向の決定に関する態様の例について説明する。
【0065】
ステップS40において傾向を決定するステップは、サブセットのうちの一つまたは複数の(類似の)スナップショットと、製品のスナップショットにおける所定の時間順付けられたセットであり得る、所定ベースラインの時間順付けられたセットとの間の比率を決定することにより、ベースラインに対する時間分布を計算するステップをさらに含み得る。製品のスナップショットにおける所定の時間順付けられたセットは、このように時系列的に順序付けられる。
【0066】
このように、製品のスナップショットにおける所定の時間順付けられたセットは、検索されたサブセットおよびベースラインを比較するために役立つ基準の時間窓(reference time windows)として見られ得て、そのため、ベースラインに対する検索されたサブセットのスナップショットの時間分布を決定し得る。所定ベースラインの時間順付けられたセットにおける時系列的順序は、任意の方法において設定され得る。例えば、時系列的順序は、初期時刻(initial time)および最終時刻(final time)を含み得る。初期時刻および最終時刻の両方は、少なくとも一つの直近スナップショットの時刻に関して、新出現問題を検出するための最大年(maximum age)を定義すると見做され得る。さらに、所定ベースラインの時間順付けられたセットは、任意の所定数のスナップショットを含んでよい。
【0067】
それ故に、本方法は、サブセットのうちの一つまたは複数のスナップショットと、所定ベースラインの時間順付けられたセットとの間の比率を決定する。換言すると、本方法は、検索されたサブセットのスナップショット数と、所定ベースラインの時間順付けられたセットのスナップショット数との間の関係を決定し、それは、検索されたサブセットのスナップショット数が所定ベースラインの時間順付けられたセットのスナップショット数よりどれだけ大きいか(または小さいか)どうかを表し得る。比率の決定は、検索されたサブセットのスナップショット数と、所定ベースラインの時間順付けられたセットのスナップショット数とを分けることによって実行され得る。
【0068】
このようにして、本方法は、新出現問題の推測の精度(accuracy)を改善する。実際、初期時刻および最終時刻は、古いスナップショット、すなわち、少なくとも一つの直近スナップショットに関して古いスナップショットを「忘れる(forget)」ために、本方法の感度を変更し、そのため、過去に発生している新出現問題の再来(resurgence)を検出するために、本方法の感度を変更する。換言すると、本方法は、(傾向を偏らせる(bias the trend)可能性のある、過去の記憶に依存することなく)新しい傾向を決定することを可能にするように、本質的に、再発した新出現問題を新しい新出現問題とし取り扱う。さらに、所定ベースラインの時間順付けられたセットは、任意の所定数のスナップショットを含み得て、そのため、新出現問題の推移の速度(speed of evolution)を検出するために、本方法の感度を変更する。
【0069】
既存の異常検出法に基づく弱信号検出と比較して、本方法は、偽陽性(false positives)の発生も低減する。偽陽性に対応する個々の事象は、それ自体が問題でない場合もあれば、下流で問題を生じさせる場合もある。さらに、偽陽性が繰り返されることもない。そのため、偽陽性は、複数の製品またはバッチに残ったり繰り返されたりする、設計または工業プロセスの選択と関連付けることができない。既存の異常検出法は、時間順付けセットにおける全てのスナップショットに関して異常と思われる個々の事象の各々に対して警告を発する。しかしながら、偽陽性は、生産プロセス全体から見れば意味のない異常値(outliers)である可能性がある。ベースラインに対する取得されたサブセットのスナップショットの時間分布である傾向によって、本方法は、偽陽性の発生を回避し得る。新出現問題は時間経過に伴う事象のグループであるため、本方法は、グループに対して事後分析(posteriori analysis)を行い、時間順付けられたセットの残りのスナップショットに対してグループを特徴付けるために、最も関連性の高いデータを事後的に特定する。これにより、本方法は、不必要な人間の検証作業(validation workloads)を回避するため、これは、特に、設計の選択および生産、テストまたは保守のプロセスを改善するという状況において、生産性を加速させるが、新出現問題の改善された取り扱いがもたらされる。
【0070】
さらに、既存の異常検出法に基づく弱信号検出と比較して、本方法は、偽陰性(false negatives)の発生も低減する。すなわち、個々の事象は単独では異常と見做されない可能性があるが、非常に類似した事象の数が増えることにより、異常検出法では検出され得ない問題が示されることがある。このような偽陰性は、異常検出の場合、生産サイクルまたは運用における下流で繰り返される、検知されない問題を生み出す可能性がある。本方法は偽陰性の発生を低減することから、本方法は、検出されない問題が発生する確率を大幅に低減する。
【0071】
ステップS40における傾向の決定は、検索されたサブセットのスナップショットを時系列分布に適合させることにより、時間分布を計算するステップをさらに含み得る。適合させることとは、時系列分布のパラメータが類似するスナップショットの時間的頻度(temporal frequency)に適合するように、時系列分布のパラメータを修正することを意味する。例えば、時系列分布は、次の形式の放物線分布(parabolic distribution)とし得る。
f(x-d)=a+bx+cx2
ここで、関数fは、検索されたサブセットxのスナップショットの出現頻度(frequency of occurrence)であり、a、b、c、およびdは、調整可能なパラメータである。本方法は、類似するスナップショットの時間的頻度が関数fによって最もよく近似されるように、調整可能なパラメータを修正し得る。これは、古いスナップショット、すなわち、時系列分布に関して古いスナップショットを「忘れる(forget)」ために、本方法の感度を変更し得る。
【0072】
ステップS40における傾向の決定は、サブセットのうちの一つまたは複数のスナップショットを入力として受け取る関数(入力および出力を有する)を定義することにより、時間分布(time distribution)を計算するステップをさらに含み得る。関数の出力は、確率分布(probability distribution)と比較され得る。この比較は、関数の出力の一つまたは複数の値と、確率分布の一つまたは複数の所定ベースラインとの間の比率を決定し得る。そのため、本方法は、体制的変化(regime change)を検証するように、関数の出力と、一つまたは複数の所定ベースラインの値との間の任意の統計的な乖離(statistical divergence)を推測することが可能である。関数は、出力を確率分布のベースライン値と比較するように、スナップショットに適用される任意の統計関数(statistical function)であり得る。例えば、本方法は、カイ二乗検定(Chi-square test)(および関数の出力と所定のベースライン値との適合性(goodness)をテストする)、またはコルモゴロフ・スミルノフ検定(Kolmogorov-Smirnov test)などの乖離メトリック(divergence metric)を使用して、比較を実行し得る。このように、本方法は、確率分布に関する統計的な比較によって、新出現問題を推測するための優れた柔軟性(great flexibility)を可能にする。本方法は、傾向の推測に対して非常に柔軟性があり得る。例えば、本方法は、(例えば、多ベクトル表現(multi vectorial representation)を使用することによって)多次元の確率分布を認め得て、本方法は、時系列分布によって設定される時間フレーム(temporal frame)上において様々な構成を認め得る。したがって、本方法は、様々な構成を有する複数の推測ジョブ(inference jobs)を計画し得る。推測ジョブは、単に同時並行で進行するが、様々な問題を検出することになる。これは、本方法によって作られた、様々な構成を有する複数の推測ジョブによるものである。
【0073】
本方法は、決定された傾向に対応する一つまたは複数のスナップショットの各々について、一つまたは複数のラベルを計算するステップを備え得る。ラベルは、傾向において決定された新出現問題を示す情報を含む、情報の一部である。換言すると、ラベルは、製品の期待される挙動の物理的特性に関して(例えば、名目上の運用体制(nominal operation regimes)と比較して)不一致(discrepancy)を提示する、検索されたサブセットのスナップショットに関する情報を含む。
【0074】
一つまたは複数のラベルを計算するステップは、一つまたは複数のスナップショットの各々からメタデータを取得するステップを含み得る。それぞれのメタデータは、製品の物理的値(physical values)の一つまたは複数の範囲を含むデータの一部(data piece)(例えば、有限数(finite number)の値を取るカテゴリフィールド、またはテキストデータ(textual data)など)でそれぞれあり得る。それにより、メタデータは、新出現問題を表すものであり得る。例えば、本方法は、スナップショットに関連付けられるカテゴリフィールドの値(values of cvategorical fields)、またはテキストフィールド(textual fields)の単語(words)および/または表現(expressions)からメタデータを取得し得る。
【0075】
この計算するステップは、一つまたは複数のスナップショットの各々に、取得されたメタデータにそれぞれ対応するデータの一部を関連付けるステップも含み得る。
【0076】
このように、本方法では、傾向を表す各スナップショットに、新出現傾向の物理的特性を特徴付けるメタデータを結び付ける。これにより、ユーザーは、生産ラインの間、試験段階、または運用中の何れかにおいても、是正措置を適用するために必要な情報を提示され得る。
【0077】
また、本方法は、検索されたスナップショットに対する取得されたメタデータの第一の分布を取得するステップを備え得る。また、本方法は、データセットに対する取得されたメタデータの第二の分布を取得するステップを備え得る。本方法は、データの一部を関連付け得る。各データの一部は、取得された第一の分布および第二の分布が異なっている、取得されたメタデータに対応し得る。このようにして、ユーザーは、傾向を表している事例の物理的特性を最もよく記述するメタデータを(例えば、人間が読むことのできるラベルとして)提示される。
【0078】
これにより、本方法では、推定された新出現問題を、専門家(expert)による検証および取扱いを可能にする、状況データ(contextual data)(ラベルの形態において)と関連付ける。本方法によって実現される自動化によって、専門家による分析時間が短縮される。実際、本方法では、問題の個々の発生例をセットにして提供して、その問題を解決するための行動の最善策(best course)を専門家に決定させる。この自動化により、人為的なバイアスがかかる傾向がある、事例セットの手作業で構築する必要があった以前のアプローチよりも、応答時間(response times)が改善される。
【0079】
本方法は、取得されたメタデータと直近スナップショットのメタデータとの整合性チェック(consistency check)を実行するステップをさらに備え得る。そのため、整合性チェックは、検索されたスナップショットのメタデータに含まれる製品の物理的値の一つまたは複数の範囲が、直近スナップショットのメタデータに含まれる物理的値の一つまたは複数の範囲と一致することを(例えば、値の数値比較(numerical comparison)によって)検証する。それにより、整合性チェックは、直近スナップショットが傾向を表しているかどうかを確認することを可能にする。例えば、検索されたサブセットが問題を提示する場合、および製品が正常な動作に戻っている(問題がもはや存在しない)ことを示す物理的特性を、直近スナップショットが提示する場合、直近スナップショットは、もはや傾向を表すものでは無い。整合性チェックは、直近スナップショットが、例えば、同じモデルの車両群(fleet of vehicles)の故障の場合などにおいて、検索されたスナップショットにおいて捕捉された製品と同じ(または類似の製品)であることを表すことを検証し得る。
【0080】
ここで、
図2ないし4を参照して、実施例について説明する。
【0081】
図2は、本方法の実装形態を示す。ここでは、ステップS10において提供される時間順付けられたセットは、各スナップショットについて予め計算された類似度標識を有する。
【0082】
210において、実装形態は、ステップS10において提供された時間順付けられたセットのスナップショットについて、所定の類似度閾値を計算する。本方法は、スナップショットの最小数sを検索し得る。前述の最小数は、最小の統計的に有意なサブセット(またはクラスタ)であるが、そのサイズは、平均密度を設定する。ステップS210において、本方法は、ランダムにサンプリングされたスナップショットから、事前に計算された各類似度標識について、q回のクエリを実行し得る。本方法は、q回のクエリに従って、最も類似した結果の中央値類似度(median similarity)として所定の類似度閾値を設定し得る。
【0083】
220において、本方法は、ステップS20において提供された所与の直近事例(recent case)に対して類似する事例のサブセットを検索する。所与の直近事例cについて、本方法は、ステップS210において決定された一つまたは複数の類似度閾値を上回る類似度を満たすスナップショットのサブセットを検索し得る。本方法は、コサインメトリック距離(cosine metric distance)を使用して、類似度を検証し得る。すなわち、所与の直近スナップショットcについて、時間順付けられたセットc'のスナップショットは、次の場合、所定の類似度閾値similarity_thresholdを満たす。
cos(c,c’)>similarity_threshold
これにより、本方法は、後続のステップに進む前に、メモリに保存されたサブセットを保持し得る。
【0084】
本方法は、230において、新出現問題の傾向を決定するために進む。本方法は、まず、ステップS210において取得されたサブセットにおける要素数(number of elements)が所与の数sより大きいことを確認し得る。次いで、本方法は、サブセットの要素数と、ベースラインの時間窓における要素数との比数(ratio number)が頻度比閾値(frequency ratio threshold)を上回っていることを確認し得る。これにより、古い問題を忘れることが可能になる。本方法は、ここで説明する本方法の何れかを使用して、傾向を決定し得る。
【0085】
本方法は、240において、傾向における全ての要素について、未解決のメタデータ(outstanding metadata)を有するラベルを抽出し得る。本方法は、各スナップショットに関するメタデータとして、カテゴリフィールドからのラベル、テキストフィールドからのトークン化された単語(tokenized words)および表現(expressions)、および離散化された値範囲(discretized value ranges)を使用し得る。また、本方法は、最高単語頻度-逆文書頻度(top term frequency-inverse document frequency)(TFIDF)法を用いてメタデータ値を抽出し得る。
【0086】
本方法は、250において、サブセットにおける最高TFIDFを有するメタデータ値が直近事例のメタデータ値と一致することを確認することにより、直近スナップショットがラベルを例示するものであることを確認し得る。
【0087】
本方法は、260において、傾向によって表現される検出された新出現問題(emergent problem)を格納し得る。スナップショットは、以前のステップが全て正常に実行されている場合に格納される。
【0088】
本方法は、同じラベルを有する検出された問題を折り畳んで集約すること(collapsing and aggregating)により、実行時の運用において使用され得る。本方法は、ユーザー定義のフィルタおよびクエリに一致する、検出された問題のみを含む。
【0089】
ここで、類似度標識の生成について説明する。
【0090】
類似度標識は、複数種類のデータ(3D、2D、時系列、テキスト説明(text description)、テキストカテゴリ(textual categories)、日付(dates)、数値(numerical values))を有する報告事例を、高次元空間(例えば、1000次元など)の固定サイズのベクトルに符号化する。類似度標識は、スナップショットに含まれる情報を符号化するものである。その情報は、類似度の尺度が製品の本質的な物理的類似度(physical similarities)に従って事例をグループ化することになる、そのような方法において、ベクトル内に分散される。
【0091】
例えば、類似度標識は、以下の状況シナリオ(contextual scenarios)において見出される製品から計算されてもよい。すなわち、
●車両群の稼働中における問題を検出するステップ:
自動車ユーザーは、自動車のメーカーに保証請求を出すが、その際、テキスト説明および写真を使用して問題を説明する。また、それらは、メタデータとして機能し、同様によく標識に統合することができる、定義された値を選択するように、それらを強制するフォームに記入することもある。この場合、標識は、テキストのベクトル化された表現、および画像の組み合わせ(mix)から取得され得る。任意のメタデータは、(例えば、影響を受けた部品に関する情報、車両のブランド、車両のモデル、事故の日付、事故の場所等を含む)標識に符号化することができる。
●航空機の試験段階における問題を検出するステップ:
テストパイロットは、各テスト後に報告書を作成する。この報告書は、フォームおよびフリーテキストを含んでおり、航空機に組み込まれた多くのセンサの時系列的記録と関連付けられている。この場合、標識は、他フォームのメタデータおよび状況メタデータ(例えば、天候など)とと共に統合された、テキストおよび時系列のベクトル化された表現の組み合わせによって取得されることになる。
●製造中の製品、またはその一部における3Dまたは2Dスキャンに基づき、生産ラインの特定のステップにおける問題を検出するステップ:
これは、産業用コンピュータ断層撮影または産業用X線撮影(industrial radiography)によって行うことができる。通常、生産ラインの一部として、製品の全てまたはサンプルがスキャナを通過する。産業用X線撮影/断層撮影の場合、スキャナは、典型的には、溶接またはコンクリート建築の領域における空隙または気泡のなどの、既知種類の問題を検査するために既に設置されているものである。本発明の方法を用いて、それらの出力は、予期しない種類の問題を検出するために使用することができる。それらの出力は、3Dまたは2Dであるかに応じて、様々な技術によってベクトル化されており、その構成(configuration)、期日(due date)、オペレータ識別(operator identification)、その部品の供給者(suppliers)またはバッチ番号(batch numbers)などを含む、製品または注文のメタデータと共に類似度標識に統合される。
【0092】
テキストから類似度標識を生成するために、本方法は、BERT言語モデルとTFiDFベクトル化の両方を使用し得る。BERTモデルは、否定を含む様々な形式の言語によって表現されても、意味を正確に捉える。TFiDFベクトル化は、BERTモデルが捕捉し得ない、特定の専門用語を捕捉するために、スナップショットのセットにおいて訓練される。これは、スナップショットのセットにおいてBERTモデルを微調整するか、または完全に訓練するための代替手段であり、これは、多くのデータおよびGPU時間を必要とするものである。
【0093】
画像から類似度標識を生成するために、本方法は、例えば、2D畳み込みネットワークを使用し得る。これらのネットワークは、ラベルが利用可能である場合、画像分類(image classification)に慣行に従って(classically)使用される。符号化(encoding)は、出力の直前の層の出力である。ラベルが利用可能でない場合、例えば、実画像および合成画像を区別し、同時に現実的な合成画像を生成するように訓練された、敵対的ネットワークが使用され得る。敵対的ネットワークは、画像を生成する生成器ネットワークと、画像が生成された実物であるかどうかを分類する識別器ネットワークとを共同で訓練する。出力前の識別器の層は、符号化(encording)として利用することができる。また、近年では、変換器ネットワークが、画像を類似度用に符号化するために使用されている。
【0094】
3D形状から類似度標識を生成するために、本方法は、点群ベクトル化(point cloud vectorization)(例えば、PointNetなど)、または畳み込みネットワークなどの、既知の最新技術による方法(known state of the art methods)を使用し得る。点群ベクトル化は、例えば、次において説明されている。
チャールズ・R・チー等著(Charles R., et al.)、「PointNet:3D分類および分割のための点セットの深層学習」("Pointnet: Deep learning on point sets for 3D classification and segmentation")、コンピュータビジョンおよびパターン認識に関するIEEE会議の議事録、2017年
畳み込みネットワークは、例えば、次において説明されている。
ハオティアン・シュー、ミン・ドン、チョン・ジチュン著(Xu, Haotian, Ming Dong, and Zichun Zhong)、「3D形状分割のための方向性畳み込みネットワーク」("Directionally convolutional networks for 3D shape segmentation")、コンピュータビジョンに関するIEEE国階会議の議事録、2017年
【0095】
本方法では、ベクトルを連帯標識(joint signature)に統合し、積層型文脈依存自己符号化器(stacked context sensitive autoencoder)を使用し得る。長さが入力より小さい中間層において入力を符号化した後に、その自己符号化器は、出力における入力を再現することを学習し、同時に入力を圧縮することを学習する。中間層の出力は、標識として機能する。自己符号化器の入力は、統合するベクトルを連結することによって取得されるベクトルである。
【0096】
以前から存在する類似度標識が存在する場合、類似度標識の計算は、任意選択である。あるいは、以前から存在する標識、またはスナップショットの任意の既存のベクトル表現も、入力として取り込まれ、「統合する(merge)」ステップにおいて計算された標識と統合することができる。
【0097】
本方法は、新出現問題の推測を計画し、日付によって文書を照会し得る。本方法は、直近スナップショットを定期的に検索し、検索された各直近スナップショットについて傾向を推測し得る。
【0098】
性能上の理由から、スナップショットの頻度がそれを正当化する場合、本方法は、直近スナップショットのバッチを検索し、(個々の文書を検索する代わりに)バッチの各要素に分析を適用し得る。
【0099】
本方法は、クエリを定期的に実行し、スナップショットの年に関してフィルタ抽出して、前回の分析の後に発生したスナップショットのみを照会し得る。これにより、スナップショットが発生してから一定の時間以上経過しないように、スナップショットは処理されることになることが保証される。代替手段(alternative)は、スナップショットが発生する度に(スナップショットがログとして記録される度に)、各スナップショットについて、または、一定のスナップショット数(バッチサイズ)が利用可能である場合、ドキュメントの各バッチについて、分析を実行することである。スナップショットが分析されるまでの最大遅延時間(max delay)と、各ジョブ(job)において処理するバッチの最大サイズ(max size)との両方を管理するために、両方のアプローチを組み合わせることが可能である。
【0100】
ここで、類似度閾値の決定について説明する。
【0101】
類似度閾値は、セットのスナップショットが直近スナップショットとあまりに異質であるために取得されない場合における、類似度に対する下限値(lower limit)である。
【0102】
この閾値を決定するには、多くの方法があり得る。
●本方法は、以下のように類似度閾値を決定し得る。すなわち、ユーザーは、平均密度における最小支持(minimum support)にnを選択する。nは、典型的には、10~100の間で選択される。これは、統計的に有意(および、偶然に発生した類似事例のセットではない)と見做されるクラスタのための、平均密度のクラスタにおけるスナップショットの最小数である。これは、平均的な密度のクラスタの場合であり、より多くのスナップショットを有する、より密度の高いクラスタも考慮することができる。閾値はサイズNのクラスタにおける平均または中央値の類似度に基づいて計算されるため、閾値は、より密度の高い領域におけるより多くのスナップショットを検索することを可能にする。
●問題検出の前に、スナップショットのセットに対して、ランダムな数(通常10)の類似度クエリ(similarity queries)が実行される。n番目の最も類似したスナップショットと、クエリのスナップショットとの間の中央値の類似度尺度(median similarity measure)が、閾値として使用される。
【0103】
この複雑な方法の背景には、本方法が類似度の値に対して何らの制御も有しないことがある。符号化はニューラルネットワークによって行われ、その次元は説明可能な変数(explainable variables)に対応しないため、二つのスナップショット間の類似度の値を説明したり概念化したりすることは不可能である。そのため、本方法は、クラスタサイズの観点からユーザーに伝える。
【0104】
ここで、ステップS30におけるサブセットの決定について説明する。
【0105】
類似するスナップショットは、時間順付けセットにおけるインデックス、通常、類似度による探索のために最適化されているインデックス(index)から取得される。二つのスナップショット間の類似度は、それらの類似度標識に基づいて計算される。
【0106】
ユークリッド距離の逆数(inverse)を交換可能に使用することもできるが、メトリックは、通常、コサイン類似度(cosine similarity)である。
【0107】
このステップでは、各直近スナップショットについて、最も類似したスナップショットを取得する。具体的には、閾値を有する類似度が類似度閾値を上回る、スナップショットを取得する。
【0108】
日付に関するフィルタを類似度の探索に組み合わせることにより、あまりも古い問題(問題がデータを汚染し、アルゴリズムが古い問題の再発を検出するのを妨げることができる)を無視することが可能である。
【0109】
ここで、傾向の決定について説明する。
【0110】
一度サブセットが取得されると、直近スナップショットが例を表している、傾向のある問題を、サブセットが特徴付けると結論付ける(または、そうでない)前に、サブセットは、幾つかのチェックを受けることになる。このチェックは、以下の通りですある。すなわち、
●クラスタをラベル付けし、直近スナップショットがラベルと一致していることを確認するステップ、
●クラスタが望ましい傾向を有するかどうかを識別するステップ、および
●任意選択として、同じ問題が最近検出されていないことを確認するステップ。
【0111】
これらのチェックに合格する場合に限り、クラスタは、問題の検出、すなわち「検出された問題(detected problem)」という種類のオブジェクトを作成し保存することをもたらす。
【0112】
ここで、クラスタのラベル付けについて説明する。
【0113】
この部分は、二つの目的を果たす二つのステップに及ぶ。すなわち、
1.検索された事例を表すメタデータを抽出して、問題のメタデータとして機能するステップ、
2.問題の概要をユーザーが読み取り可能に計算するステップ。
【0114】
ステップ1は、離散的な事例のメタデータを使用して行われる。このステップでは、メタデータの抽出として、次のものを抽出する。すなわち、
●カテゴリカルフィールド(カテゴリカルフィールドとは、有限個の順序付け無しの値(unordered values)を取るフィールドである)からの値、
●テキストフィールドからの単語および表現。本方法は、例えば、次のURLにおいて説明されているように、最新技術のトークナイザ(tokenizers)を使用して取得することができる単語と、最新技術のフレーズ検出法(phrase detection methods)を使用して取得することができる複数単語の表現とを取得することができる。
https://courses.engr.illinois.edu/cs447/fa2018/Slides/Lecture17HO.pdf
●数値フィールドのための値範囲。
【0115】
検索された事例を表すメタデータ値を特定するために、本方法は、最も高い頻度値(most frequent values)(最多のカウント)を選択し得る。しかしながら、本方法では、頻度値が検索された事例の特徴でない場合であっても、全体的に頻度値があまりに頻繁に出現する傾向があることになるため、バイアスの影響を受け易くなる。これらのバイアスを回避するために、TFIDF尺度またはその変形を使用することが可能であり、これを行う簡単な方法は、事例のセット全体における値の出現数によってカウントを割ることにより、またはそのカウントが出現する事例の数でカウントを割ることにより、カウントを正規化することである。他の関連するメトリックおよびアルゴリズムには、YAKE!が含まれる。
【0116】
結果となるメタデータは、検索された事例を最もよく特徴付けるものである。そのメタデータの組み合わせがクラスタを特徴付けるために使用することができることを確認するために、代表性(representativity)の尺度に最小の閾値を強制することができる。閾値に達しない場合、問題検出を作成することができない(問題を検出しない)か、または単にメタデータを問題の特徴として受け入れることができないかの何れかである。
【0117】
ステップ2は、問題に対して人間が読み取り可能なラベルを作成するステップに存在する。
【0118】
これは、例えば、空白(blanks)を含むテキストを使用して、問題を表しているメタデータを組み合わせることによって行うことができる。例えば、後続のフィールド、すなわちモデル、部品、および問題のキーワード(problem keywords)に特徴的なメタデータが存在する場合、次のようなタイトルを生成することができる。すなわち、
「モデル「特性モデル」の「特性部分」における「特性キーワード」に関与する問題」
【0119】
また、記述的なテキストが利用可能である場合は、別の任意選択肢は、次に説明されているように、最新の要約技術(summarization techniques)を使用して、要約を生成することである。
マハク・ガンビー、ヴィシャル・グプタ著(Gambhir, Mahak, and Vishal Gupta)、「最新の自動テキスト要約技術:調査」("Recent automatic text summarization techniques: a survey")、人工知能レビュー、資料47.1(2017年)、頁1-66
【0120】
ここで、直近スナップショットがクラスタのラベルおよびメタデータと一致していることの検証について説明する。
【0121】
このステップにおいて、本方法は、問題検出を誘発する直近スナップショットが、問題のメタデータと一致していることを確認し得る。すなわち、特性メタデータ(characteristic metadata)が問題のために存在するフィールドにおいて、直近スナップショットのためのこれらのフィールドの値は、検索されたスナップショットの特性メタデータの一部である。
【0122】
そうでない場合、本方法は問題が検出されたとは見做さないため、検出された問題のオブジェクトを作成することはない。この仮定(assumption)は、特徴的なメタデータによって記述された問題がまだ有効であれば、同じメタデータを有する発生が多くなり、後で問題が検出されるようになるということである。
【0123】
本方法では、直近スナップショットに類似したスナップショットの日付(類似度閾値の制限内)を検索して、日付の分布が新出現問題について警告を発するべきかどうかを計算する。これを行うために、ユーザーは、閾値を定義しておき、問題を見る価値のあるものとする傾向を問題が有していると判定する。
【0124】
本方法は、以下の何れかの方法においてこれを行い得る。例えば、本方法は、検索されたタイムスタンプを時系列分布に適合させて、取得された分布のパラメータを予め決められた値と比較し得る。
【0125】
本方法は、体制的変化(regime change)を検出し得る。すなわち、ベースラインの時間窓上の確率分布を適合させるステップと、(例えば、カイ二乗検定を使用して)直近時間窓上の分布が同じであることをテストするステップ、または乖離メトリック(例えば、コルモゴロフ・スミルノフ検定など)を使用して両方の分布を比較するステップ。本方法は、直近時間窓(直近発生の最大年)およびベースラインの時間窓(最大年)をユーザーに指定させ得る。
【0126】
また、本方法は、一つまたは複数の時間窓において取得されたタイムスタンプの数をカウントし、その結果、またはその結果の関数を予め定められた値と比較し得る。また、本方法は、直近時間窓(直近発生の最大年)およびベースラインの時間窓(最大年)をユーザーに指定させ得る。代替的または追加的に、本方法は、各時間窓における事例の最小数、および直近時間窓とベースラインの時間窓とにおける最小比率をユーザーに指定させ得る。
【0127】
これにより、ユーザーは、様々な種類の問題(永続的、新出現)を様々な推移の速度で検出するようにシステムを構成することが可能になる。傾向の関連する速度と同様にして、直近かそうでないかということは産業界の状況によって依存することになるため、ユーザーにこれらのパラメータを調整させることが重要(essential)である。比率は、本方法の感度を調整することになるパラメータとして見做すことができる。
【0128】
最大年、またはベースラインの時間窓は、十分古いスナップショットを「忘れ(forget)」、そのために、過去に発生し、修正され、および再び出現し始めた問題の復活(resurgence)を検出するための能力を本方法に与える。このような場合、最大年は、過去に発生した数があまりに多くなり、比率の低下をもたらし、復活を隠してしまうことを防ぐことになる。比率は、次の式に従って計算され得る。すなわち、
【0129】
【0130】
ここで、#recentframeは直近時間窓のスナップショット数を意味し、#baselineframeは、ベースラインの時間窓のスナップショット数を意味する。
【0131】
ユーザーが複数種類の傾向に関心がある場合、様々な構成によって複数の問題検出のジョブを計画することになる。このジョブは、単に同時に進行することになり、同じクラスタを検索する可能性があるが、クラスタ内の傾向のチェックが異なっていることになるため、様々な問題を検出することになる。
【0132】
ここで、傾向の事後的な重複検出(duplicate detection)の検証について説明する。
【0133】
このチェックは、検出された問題のセットを照会し、重複を確認することにより、本方法によって実行され得る。重複のためのチェックは,複数の方法において、すなわち
●対応するラベルを比較することにより、
●対応するメタデータを比較することにより、
●それらのスナップショットのメタデータの分布を比較することにより、
●それらのスナップショットの類似度標識の分布を比較することにより、
行うことができる。
【0134】
本方法は、チェックを行わないことを選択し得て、それによってデフォルトで重複する問題を検出する可能性がある。しかしながら、ユーザーが検出された問題、またはそれの合成を視覚化する場合であっても、リストまたは合成を表示する前に、実行時に類似の検出された問題が折り畳まれる/集約される。
【0135】
これは、同じチェックを、検出時ではなく実行時に実行することに等価になる。これにより、より細かなフィルタ抽出が可能になり、重複する問題を構成するものの定義においてより柔軟にすることが可能になる。
【0136】
ここで、検出された問題の保存とさらなる行動(further action)とについて説明する。
【0137】
本方法は、問題を検出するのと同じプロセスにおいて、特定のユーザー、グループ、ディスカッションスレッド(discussion threads)、またはアプリケーションにプッシュ通知し(push notifications)得る。しかしながら、本方法は、問題検出の作業を、検出された問題のみを保存するように実装することのみを選択してもよい。そのため、通知、電子メールの送信、コミュニティにおける自動投稿(automatic post)の発行等などの、検出された問題に対して何をするべきかを決定するのは、他のアプリケーション、またはアプリケーションの他の部分の責務(responsibility)である。
【0138】
また、ユーザーは、直近に検出された問題のリストにフィルタを定義することにより、アプリケーションにおいて特定種類の検出された問題を購読し、それらの分析ダッシュボード(analytic dashboards)から特定の検出された問題の内/外にフィルタ抽出することもできる。
【0139】
問題が検出される場合、調査の前に、問題の発生に一致するバッチを自動的にスタンバイ状態に置き得る。
【0140】
処理されるジョブのキューの中で、問題のラベルのメタデータに対応するメタデータを有するジョブを削除し、「スタンバイ(standby)」キューにそれらを格納する。通常、調査の後に、専門家によって、ジョブを処理するか、またはジョブを取り消すかの決定が行われることになる。
【0141】
図3は、時間順付けられたセットの構築を例証している。
【0142】
本方法は、時間順付けられたセットを構築するためにスナップショットを取り込み(ingest)得る。これは、本方法が周辺部(edge)における、すなわち生産構内(production premises)におけるセンサからスナップショット310を取得し得る、連続プロセスとして実行され得る。本方法は、320において、スナップショットを未加工ストレージ(raw storage)(「レイク(lake)」とも呼ばれる)に格納し得る。本方法は、330において、システム・インデックス(system index)を検出して、時間順付けられたセットを構築し得る。
【0143】
本方法は、類似度標識を計算することにより、340においてデータを処理し得る。本方法は、類似度標識を計算する、自己符号化器のような標識モデルを訓練するために、未加工ストレージから機能し得る。換言すると、本方法は、モデルを訓練するために未加工ストレージにおけるデータの一部と、時間順付けられたセットを取得するために別の一部とを設定し得る。このように、本方法は、未加工ストレージ上の要素について類似度標識を計算し、そのため、スナップショットに類似度標識を組み込むことによってデータを富化し(enrich)得るが、このスナップショットは、350において本方法に送信され得る。
【0144】
本方法のコンピュータ実装形態の典型的な例は、この目的に適合したシステムによって本方法を実行することである。このシステムは、メモリおよびグラフィカル・ユーザー・インターフェース(GUI)に結合されたプロセッサを含み得るが、メモリは、本方法を実行するための命令を含む、コンピュータプログラムをそこに記録している。また、メモリは、データベースを格納し得る。メモリは、このような格納のために適合した任意のハードウェアであり、複数の物理的に異なる部分(例えば、プログラム用に一つ、場合によってはデータベース用に一つ)を含む可能性がある。
【0145】
図4は、システムの一例を示す図であり、このシステムは、クライアントコンピュータシステム、例えば、ユーザーのワークステーションである。
【0146】
実施例のクライアントコンピュータは、内部通信バス1000に接続された中央処理装置(CPU)1010、同じくバスに接続されたランダムアクセスメモリ(RAM)1070を備える。クライアントコンピュータは、バスに接続されたビデオ・ランダムアクセスメモリ1100に関連付けられるグラフィック処理ユニット(GPU)1110をさらに備える。ビデオRAM1100は、当技術分野ではフレームバッファ(frame buffer)としても知られている。大容量記憶装置コントローラ1020は、ハードドライブ1030のような大容量記憶装置へのアクセスを管理する。コンピュータプログラム命令およびデータを有形的に具現化するのに適した大容量記憶装置には、例として、EPROM、EEPROM、およびフラッシュ・メモリ装置などの半導体メモリ装置、内蔵ハードディスクおよび取り外し可能ディスクなどの磁気ディスク、光磁気ディスクなどを含む、不揮発性メモリの全ての形態が含まれる。前述の何れかは、特別に設計されたASIC(特定用途向け集積回路)によって補完され、または組み込まれ得る。ネットワークアダプタ1050は、ネットワーク1060へのアクセスを管理する。クライアントコンピュータは、カーソル制御装置、キーボードなどのような触覚デバイス1090を含み得る。カーソル制御装置は、ユーザーがディスプレイ1080上の任意の所望位置にカーソルを選択的に配置することを可能にするために、クライアントコンピュータにおいて使用される。さらに、カーソル制御デバイスは、ユーザーが種々のコマンドを選択し、制御信号を入力することを可能にする。カーソル制御装置は、制御信号をシステムに入力するための多数の信号生成装置を含む。典型的には、カーソル制御デバイスは、マウスであってもよく、マウスのボタンは、信号を生成するために使用される。代替的または追加的に、クライアントコンピュータシステムは、感応パッド、および/または感応スクリーンを含み得る。
【0147】
コンピュータプログラムは、コンピュータによって実行可能な命令を含み得るが、その命令は、上記のシステムに本方法を実行させるための手段を含んでいる。このプログラムは、システムのメモリを含む、任意のデータ記憶媒体に記録可能であり得る。プログラムは、例えば、デジタル電子回路、またはコンピュータのハードウェア、ファームウェア、ソフトウェア、もしくはそれらの組み合わせにおいて実装され得る。プログラムは、例えば、プログラム可能プロセッサによる実行のために機械可読記憶装置において有形的に具現化された製品など、装置として実装され得る。方法のステップは、入力データに対して動作し、出力を生成することによって本方法の機能を実行する、命令のプログラムを実行するプログラム可能プロセッサによって実行され得る。そのため、プロセッサは、データ記憶システム、少なくとも一つの入力デバイス、および少なくとも一つの出力デバイスからデータおよび命令を受信し、それらにデータおよび命令を送信するように、プログラム可能に結合され得る。アプリケーションプログラムは、高レベルの手続き型プログラミング言語もしくはオブジェクト指向プログラミング言語、または必要に応じて、アセンブリ言語もしくはマシン語において実装され得る。何れにしても、言語は、コンパイル型言語またはインタプリタ型言語であり得る。プログラムは、完全インストール型プログラムであってもよいし、更新型プログラムであってもよい。システム上でプログラムを適用することは、如何なる場合にも、本方法を実行するための命令をもたらす。コンピュータプログラムは、代替的に、クラウドコンピューティング環境のサーバに格納され、実行され得るが、このサーバは、一つまたは複数のクライアントとネットワークを介して通信している。そのような場合、処理ユニットがプログラムによって構成される命令を実行し、それによって本方法がクラウドコンピューティング環境上で実行されることを引き起こす。
【外国語明細書】