(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-06-08
(45)【発行日】2023-06-16
(54)【発明の名称】処理方法およびそれを利用した処理装置
(51)【国際特許分類】
G01M 99/00 20110101AFI20230609BHJP
G01H 17/00 20060101ALI20230609BHJP
【FI】
G01M99/00 A
G01H17/00 A
(21)【出願番号】P 2021540631
(86)(22)【出願日】2020-05-11
(86)【国際出願番号】 JP2020018806
(87)【国際公開番号】W WO2021033371
(87)【国際公開日】2021-02-25
【審査請求日】2022-02-03
(31)【優先権主張番号】P 2019150568
(32)【優先日】2019-08-20
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】314012076
【氏名又は名称】パナソニックIPマネジメント株式会社
(74)【代理人】
【識別番号】100123102
【氏名又は名称】宗田 悟志
(72)【発明者】
【氏名】堀井 俊嗣
【審査官】森口 正治
(56)【参考文献】
【文献】特開平10-281859(JP,A)
【文献】特開平10-274558(JP,A)
【文献】特開2017-153270(JP,A)
【文献】特開2019-066279(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G01M 99/00
G01H 17/00
(57)【特許請求の範囲】
【請求項1】
検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力する第1入力部と、
前記第1入力部に入力した前記検査情報を、周波数成分の時間変化が示される検査画像に変換する第1変換部と、
前記検査情報を取得する際の環境音の時間変化が示される環境音情報を入力する第2入力部と、
前記第2入力部に入力した前記環境音情報を、周波数成分の時間変化が示される環境音画像に変換する第2変換部と、
前記第2変換部において変換した前記環境音画像と、前記第1変換部において変換した前記検査画像とを学習済みのニューラルネットワークに入力してから、
前記環境音画像と前記検査画像とを合併させた結果に対して、前記ニューラルネットワークの処理を実行する処理部と、
前記処理部の処理結果として、前記検査対象の物体の検査結果を出力する出力部と、
を備えることを特徴とする処理装置。
【請求項2】
検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力する第1入力部と、
前記第1入力部に入力した前記検査情報を、周波数成分の時間変化が示される検査画像に変換する第1変換部と、
前記検査情報を取得する際の環境音の時間変化が示される環境音情報を入力する第2入力部と、
前記第2入力部に入力した前記環境音情報を、周波数成分の時間変化が示される環境音画像に変換する第2変換部と、
前記第2変換部において変換した前記環境音画像と、前記第1変換部において変換した前記検査画像とを学習済みのニューラルネットワークに入力してから、前記環境音画像と前記検査画像とに対して畳み込み層の処理を実行した結果を組み合わせる処理を行い、前記組み合わせる処理によって出力された組合せの結果に対して畳み込み層の処理が含まれた前記ニューラルネットワークの処理を実行する処理部と、
前記処理部の処理結果として、前記検査対象の物体の検査結果を出力する出力部と、
を備えることを特徴とする処理装置。
【請求項3】
前記第1入力部は、複数の前記検査情報を入力し、
前記第1変換部は、前記第1入力部に入力した複数の前記検査情報を複数の前記検査画像に変換し、
前記処理部は、前記環境音画像と、前記第1変換部において変換した複数の前記検査画像とを学習済みのニューラルネットワークに入力してから、前記ニューラルネットワークの処理を実行することを特徴とする請求項1
または2に記載の処理装置。
【請求項4】
前記処理部は、正常な物体における周波数成分の時間変化が示される参照画像も含めてニューラルネットワークの処理を実行することを特徴とする請求項1
から3のいずれか1項に記載の処理装置。
【請求項5】
検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力する第1入力部と、
前記検査情報を取得する際の環境音の時間変化が示される環境音情報を入力する第2入力部と、
前記第2入力部に入力した前記環境音情報と、前記第1入力部に入力した前記検査情報とを学習済みのニューラルネットワークに入力してから、
前記環境音情報と前記検査情報とを合併させた結果に対して、前記ニューラルネットワークの処理を実行する処理部と、
前記処理部の処理結果として、前記検査対象の物体の検査結果を出力する出力部と、
を備えることを特徴とする処理装置。
【請求項6】
検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力する第1入力部と、
前記検査情報を取得する際の環境音の時間変化が示される環境音情報を入力する第2入力部と、
前記第2入力部に入力した前記環境音情報と、前記第1入力部に入力した前記検査情報とを学習済みのニューラルネットワークに入力してから、前記環境音情報と前記検査情報とに対して畳み込み層の処理を実行した結果を組み合わせる処理を行い、前記組み合わせる処理によって出力された組合せの結果に対して畳み込み層の処理が含まれた前記ニューラルネットワークの処理を実行する処理部と、
前記処理部の処理結果として、前記検査対象の物体の検査結果を出力する出力部と、
を備えることを特徴とする処理装置。
【請求項7】
前記第1入力部は、複数の前記検査情報を入力し、
前記処理部は、前記環境音情報と、前記第1入力部に入力した複数の前記検査情報とを学習済みのニューラルネットワークに入力してから、畳み込み層の処理が含まれた前記ニューラルネットワークの処理を実行することを特徴とする請求項
5または6に記載の処理装置。
【請求項8】
前記処理部は、正常な物体における音の時間変化が示される参照情報も含めてニューラルネットワークの処理を実行することを特徴とする請求項
5から7のいずれか1項に記載の処理装置。
【請求項9】
前記処理部におけるニューラルネットワークは、前記出力部から出力される前記検査結果が良品あるいは欠陥を示すように学習されていることを特徴とする請求項1から
8のいずれか1項に記載の処理装置。
【請求項10】
前記出力部は、前記処理部におけるニューラルネットワークの処理の途中の特徴量も出力することを特徴とする請求項1から
9のいずれか1項に記載の処理装置。
【請求項11】
検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力するステップと、
入力した前記検査情報を、周波数成分の時間変化が示される検査画像に変換するステップと、
前記検査情報を取得する際の環境音の時間変化が示される環境音情報を入力するステップと、
入力した前記環境音情報を、周波数成分の時間変化が示される環境音画像に変換するステップと、
変換した前記環境音画像と、変換した前記検査画像とを学習済みのニューラルネットワークに入力してから、
前記環境音画像と前記検査画像とを合併させた結果に対して、前記ニューラルネットワークの処理を実行するステップと、
ニューラルネットワークの処理結果として、前記検査対象の物体の検査結果を出力するステップと、
を備えることを特徴とする処理方法。
【請求項12】
検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力するステップと、
入力した前記検査情報を、周波数成分の時間変化が示される検査画像に変換するステップと、
前記検査情報を取得する際の環境音の時間変化が示される環境音情報を入力するステップと、
入力した前記環境音情報を、周波数成分の時間変化が示される環境音画像に変換するステップと、
変換した前記環境音画像と、変換した前記検査画像とを学習済みのニューラルネットワークに入力してから、前記環境音画像と前記検査画像とに対して畳み込み層の処理を実行した結果を組み合わせる処理を行い、前記組み合わせる処理によって出力された組合せの結果に対して畳み込み層の処理が含まれた前記ニューラルネットワークの処理を実行するステップと、
ニューラルネットワークの処理結果として、前記検査対象の物体の検査結果を出力するステップと、
を備えることを特徴とする処理方法。
【請求項13】
検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力するステップと、
前記検査情報を取得する際の環境音の時間変化が示される環境音情報を入力するステップと、
入力した前記環境音情報と、入力した前記検査情報とを学習済みのニューラルネットワークに入力してから、
前記環境音情報と前記検査情報とを合併させた結果に対して、前記ニューラルネットワークの処理を実行するステップと、
ニューラルネットワークの処理結果として、前記検査対象の物体の検査結果を出力するステップと、
を備えることを特徴とする処理方法。
【請求項14】
検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力するステップと、
前記検査情報を取得する際の環境音の時間変化が示される環境音情報を入力するステップと、
入力した前記環境音情報と、入力した前記検査情報とを学習済みのニューラルネットワークに入力してから、前記環境音情報と前記検査情報とに対して畳み込み層の処理を実行した結果を組み合わせる処理を行い、前記組み合わせる処理によって出力された組合せの結果に対して畳み込み層の処理が含まれた前記ニューラルネットワークの処理を実行するステップと、
ニューラルネットワークの処理結果として、前記検査対象の物体の検査結果を出力するステップと、
を備えることを特徴とする処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、処理技術、特に画像に対する処理を実行する処理方法およびそれを利用した処理装置に関する。
【背景技術】
【0002】
製品の異常を検出するために、製品に取り付けたセンサからの信号に対してウェーブレット変換による時間軸上の周波数解析がなされ、周波数解析結果等が含まれる相関図に対するニューラルネットワークの処理が実行される(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
センサを製品に取り付けることができない場合、故障等の異常が生じている製品から発生する音を検出するためにマイクロホンが使用される。マイクロホンを使用する場合、製品の周辺で生じている騒音等の環境音も検出される。環境音の存在によって、製品から発生する音の検出精度が悪化する。
【0005】
本開示はこうした状況に鑑みなされたものであり、その目的は、環境音が存在する場合でも処理の正確性の低下を抑制する技術を提供することにある。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本開示のある態様の処理装置は、検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力する第1入力部と、第1入力部に入力した検査情報を、周波数成分の時間変化が示される検査画像に変換する第1変換部と、検査情報を取得する際の環境音の時間変化が示される環境音情報を入力する第2入力部と、第2入力部に入力した環境音情報を、周波数成分の時間変化が示される環境音画像に変換する第2変換部と、第2変換部において変換した環境音画像と、第1変換部において変換した検査画像とを学習済みのニューラルネットワークに入力してから、環境音画像と検査画像とを合併させた結果に対して、ニューラルネットワークの処理を実行する処理部と、処理部の処理結果として、検査対象の物体の検査結果を出力する出力部と、を備える。
本開示の別の態様の処理装置は、検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力する第1入力部と、第1入力部に入力した検査情報を、周波数成分の時間変化が示される検査画像に変換する第1変換部と、検査情報を取得する際の環境音の時間変化が示される環境音情報を入力する第2入力部と、第2入力部に入力した環境音情報を、周波数成分の時間変化が示される環境音画像に変換する第2変換部と、第2変換部において変換した環境音画像と、第1変換部において変換した検査画像とを学習済みのニューラルネットワークに入力してから、環境音画像と検査画像とに対して畳み込み層の処理を実行した結果を組み合わせる処理を行い、組み合わせる処理によって出力された組合せの結果に対して畳み込み層の処理が含まれたニューラルネットワークの処理を実行する処理部と、処理部の処理結果として、検査対象の物体の検査結果を出力する出力部と、を備える。
【0007】
本開示の別の態様もまた、処理装置である。この装置は、検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力する第1入力部と、検査情報を取得する際の環境音の時間変化が示される環境音情報を入力する第2入力部と、第2入力部に入力した環境音情報と、第1入力部に入力した検査情報とを学習済みのニューラルネットワークに入力してから、環境音情報と検査情報とを合併させた結果に対して、ニューラルネットワークの処理を実行する処理部と、処理部の処理結果として、検査対象の物体の検査結果を出力する出力部と、を備える。
本開示の別の態様の処理装置は、検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力する第1入力部と、検査情報を取得する際の環境音の時間変化が示される環境音情報を入力する第2入力部と、第2入力部に入力した環境音情報と、第1入力部に入力した検査情報とを学習済みのニューラルネットワークに入力してから、環境音情報と検査情報とに対して畳み込み層の処理を実行した結果を組み合わせる処理を行い、組み合わせる処理によって出力された組合せの結果に対して畳み込み層の処理が含まれたニューラルネットワークの処理を実行する処理部と、処理部の処理結果として、検査対象の物体の検査結果を出力する出力部と、を備える。
【0008】
本開示のさらに別の態様は、処理方法である。この方法は、検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力するステップと、入力した検査情報を、周波数成分の時間変化が示される検査画像に変換するステップと、検査情報を取得する際の環境音の時間変化が示される環境音情報を入力するステップと、入力した環境音情報を、周波数成分の時間変化が示される環境音画像に変換するステップと、 変換した環境音画像と、変換した検査画像とを学習済みのニューラルネットワークに入力してから、環境音画像と検査画像とを合併させた結果に対して、ニューラルネットワークの処理を実行するステップと、ニューラルネットワークの処理結果として、検査対象の物体の検査結果を出力するステップと、を備える。
本開示の別の態様の処理方法は、検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力するステップと、入力した検査情報を、周波数成分の時間変化が示される検査画像に変換するステップと、検査情報を取得する際の環境音の時間変化が示される環境音情報を入力するステップと、入力した環境音情報を、周波数成分の時間変化が示される環境音画像に変換するステップと、変換した環境音画像と、変換した検査画像とを学習済みのニューラルネットワークに入力してから、環境音画像と検査画像とに対して畳み込み層の処理を実行した結果を組み合わせる処理を行い、組み合わせる処理によって出力された組合せの結果に対して畳み込み層の処理が含まれたニューラルネットワークの処理を実行するステップと、ニューラルネットワークの処理結果として、検査対象の物体の検査結果を出力するステップと、を備える。
【0009】
本開示のさらに別の態様もまた、処理方法である。この方法は、検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力するステップと、 検査情報を取得する際の環境音の時間変化が示される環境音情報を入力するステップと、 入力した環境音情報と、入力した検査情報とを学習済みのニューラルネットワークに入力してから、環境音情報と検査情報とを合併させた結果に対して、ニューラルネットワークの処理を実行するステップと、ニューラルネットワークの処理結果として、検査対象の物体の検査結果を出力するステップと、を備える。
本開示の別の態様の処理方法は、検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力するステップと、検査情報を取得する際の環境音の時間変化が示される環境音情報を入力するステップと、入力した環境音情報と、入力した検査情報とを学習済みのニューラルネットワークに入力してから、環境音情報と検査情報とに対して畳み込み層の処理を実行した結果を組み合わせる処理を行い、組み合わせる処理によって出力された組合せの結果に対して畳み込み層の処理が含まれたニューラルネットワークの処理を実行するステップと、ニューラルネットワークの処理結果として、検査対象の物体の検査結果を出力するステップと、を備える。
【0010】
なお、以上の構成要素の任意の組合せ、本開示の表現を方法、装置、システム、コンピュータプログラム、またはコンピュータプログラムを記録した記録媒体などの間で変換したものもまた、本開示の態様として有効である。
【発明の効果】
【0011】
本開示によれば、環境音が存在する場合でも処理の正確性の低下を抑制できる。
【図面の簡単な説明】
【0012】
【
図1】実施例1に係る処理装置の構成を示す図である。
【
図2】
図2(a)-(b)は、
図1の変換部の処理の概要を示す図である。
【
図3】
図3(a)-(c)は、
図1の変換部の処理の概要を示す図である。
【
図4】
図4(a)-(c)は、
図1の処理部において使用される画像を示す図である。
【
図5】
図5(a)-(c)は、
図1の処理部の構成を示す図である。
【
図6】
図1の処理部における処理の概要を示す図である。
【
図7】第1変形例に係る処理部の構成を示す図である。
【
図8】第3変形例に係る処理部の構成を示す図である。
【
図9】
図9(a)-(c)は、第4変形例に係る処理部の構成を示す図である。
【
図10】実施例2に係る処理装置の構成を示す図である。
【
図11】実施例3に係る処理装置の構成を示す図である。
【発明を実施するための形態】
【0013】
(実施例1)
本開示の実施例を具体的に説明する前に、本実施例の概要を説明する。実施例1は、モータ等の回転装置のような製品に異常が含まれているか否かを判定する処理装置に関する。これまで、製品に異常が含まれているか否かを判定するために、モータの異音が人手により全数検査されている。しかしながら、官能検査であるため、人による判定基準のばらつきが生じたり、人による判定時間のばらつきが生じたり、人の状態(体調など)によるばらつきが生じたり、顧客要望の反映の難しさが存在したり、検査記録の難しさがあったりした。つまり、客観的かつ測定可能な良否判定基準がない。そのため、異音識別を自動化することによって、省人合理化、品質安定化が求められる。
【0014】
また、製品で発生する音を検出するために、加速度ピックアップがマグネットなどによって製品に直接接続される。このような状況下において、製品の周辺で生じている騒音等の環境音の影響が低減される。しかしながら、マグネットによる接続ができない製品については検査が困難になる。また、加速度ピックアップの接続場所を振動させないような音、例えば風切り音などの検査が困難になる。一方、製品で発生する音を検出するために、マイクロホンを使用すると、このような課題は生じない。しかしながら、製品の周辺で生じている騒音等の環境音の影響を受ける。そのため、環境音が存在する場合でも処理の正確性の低下を抑制することが求められる。
【0015】
本実施例に係る処理装置は、検査対象となる物体で発生する音を録音するためのマイクロホン(以下、「第1マイクロホン」という)を接続するとともに、環境音を録音するためのマイクロホン(以下、「第2マイクロホン」という)を接続する。処理装置は、第1マイクロホンにおいて取得した音を示す情報(以下、「検査情報」という)をもとに、検査情報における示される波形を周波数成分の時間変化に変換した画像(以下、「検査画像」という)を生成する。また、処理装置は、第2マイクロホンにおいて取得した音を示す情報(以下、「環境音情報」という)をもとに、環境音情報における示される波形を周波数成分の時間変化に変換した画像(以下、「環境音画像」という)を生成する。処理装置は、検査画像と環境音画像とに対してニューラルネットワークの処理を実行する。
【0016】
図1は、処理装置100の構成を示す。処理装置100は、マイクロホン10と総称される第1マイクロホン10a、第2マイクロホン10b、増幅器12と総称される第1増幅器12a、第2増幅器12b、A/Dコンバータ14と総称される第1A/Dコンバータ14a、第2A/Dコンバータ14bに接続されるとともに、入力部110と総称される第1入力部110a、第2入力部110b、変換部112と総称される第1変換部112a、第2変換部112b、処理部114、出力部118を含む。ここで、学習処理において処理部114が学習され、判定処理において処理部114が使用される。判定処理は、検査画像と環境音画像とにニューラルネットワークを使用することによって、検査画像が正常であるか不良であるかを判定する処理である。学習処理は、処理装置100以外の装置でなされ、学習結果が処理部114に適用されてもよい。
【0017】
第1マイクロホン10aは、検査対象の物体の近傍に配置され音を取得する。例えば、物体が故障等によって異音を発している場合に、第1マイクロホン10aは異音を取得する。一方、物体が正常である場合に、第1マイクロホン10aは異音を取得しない。第1マイクロホン10aは、取得した音を電子信号に変換する。電気信号に変換された音(以下、これもまた「音」という)は、時間の経過に対する電圧の波形で示される。電圧の絶対値がしきい値よりも大きい場合に振動の発生が示され、電圧の絶対値がしきい値以下である場合に、振動が発生していないことが示される。第1マイクロホン10aは、音を第1増幅器12aに出力する。第1増幅器12aは、第1マイクロホン10aからの音を増幅して、増幅した音を第1A/Dコンバータ14aに出力する。第1A/Dコンバータ14aは、第1増幅器12aからの音に対してA/D変換を実行することによって、アナログ信号の音をデジタル信号の音に変換する。第1A/Dコンバータ14aは、デジタル信号の音を処理装置100に出力する。
【0018】
処理装置100の第1入力部110aは、デジタル信号の音を第1A/Dコンバータ14aから受けつける。ここでは、学習処理において使用される音を「学習用情報」と呼び、判定処理に使用される音を「検査情報」と呼ぶ。学習用情報と検査情報は、いずれも音の時間変化が示される情報であるといえる。第1入力部110aは、学習用情報あるいは検査情報を第1変換部112aに出力する。
【0019】
第1変換部112aは、学習処理の場合に、第1入力部110aから受けつけた学習用情報を、周波数成分の時間変化が示される学習用画像に変換し、判定処理の場合に、第1入力部110aから受けつけた検査情報を、周波数成分の時間変化が示される検査画像に変換する。ここでは、
図2(a)-(b)、
図3(a)-(c)を使用しながら第1変換部112aでの処理を説明する。
図2(a)-(b)は、第1変換部112aの処理の概要を示す。
図2(a)は、学習用情報あるいは検査情報を示す。横軸が時間を示し、縦軸が強度、例えば電圧を示す。前述のごとく、学習用情報あるいは検査情報は波形を示す。第1期間300、第2期間302、第3期間304のような一定の短期間が規定される。これらは、例えば、6ミリ秒である。また、第1期間300と第2期間302、第2期間302と第3期間304のような隣接した期間は一部が重複するように配置される。
【0020】
第1変換部112aは、第1期間300における波形をフーリエ変換する。
図2(b)のように、フーリエ変換の結果は第1周波数データ400と示される。また、第1変換部112aは、第2期間302、第3期間304における波形をフーリエ変換する。フーリエ変換の結果は、
図2(b)のように第2周波数データ402、第3周波数データ404とそれぞれ示される。第1周波数データ400、第2周波数データ402、第3周波数データ404は周波数データと総称され、周波数データの横軸は時間を示し、周波数データの縦軸は強度を示す。
【0021】
図3(a)-(c)は、第1変換部112aの処理の概要を示す。
図3(a)は、
図2(b)の第1周波数データ400を示し、
図3(b)は、
図2(b)の第2周波数データ402を示す。
図3(c)は、第1周波数データ400等の周波数データをもとに生成されるスペクトログラムを示す。スペクトログラムにおいて、横軸が時間を示し、縦軸が周波数を示す。これは、各周波数データを、横方向にずらしながら縦方向に並べることによって生成される。また、スペクトログラムにおいて、周波数データの強度は、色の違い、濃度の違い等によって示される。ここでは、学習処理の場合におけるスペクトログラムが学習用画像に相当し、判定処理の場合におけるスペクトログラムが検査画像に相当する。
図1に戻る。第1変換部112aは、学習用画像あるいは検査画像を処理部114に出力する。
【0022】
第2マイクロホン10bは、物体が配置される空間に設置され、第1マイクロホン10aが物体から音を取得する際の騒音等の環境音を取得する。第2マイクロホン10bは、取得した環境音を電子信号に変換する。電気信号に変換された環境音(以下、これもまた「環境音」という)は、時間の経過に対する電圧の波形で示される。第2マイクロホン10bは、環境音を第2増幅器12bに出力する。第2増幅器12bは、第2マイクロホン10bからの環境音を増幅して、増幅した環境音を第2A/Dコンバータ14bに出力する。第2A/Dコンバータ14bは、第2増幅器12bからの環境音に対してA/D変換を実行することによって、アナログ信号の音をデジタル信号の音に変換する。第2A/Dコンバータ14bは、デジタル信号の環境音を処理装置100に出力する。
【0023】
処理装置100の第2入力部110bは、デジタル信号の環境音を第2A/Dコンバータ14bから受けつける。ここでは、受けつけた環境音を「環境音情報」と呼ぶ。環境音情報は、学習用情報あるいは検査情報を取得する際の環境音の時間変化が示される情報であるといえる。第2入力部110bは、環境音情報を第2変換部112bに出力する。
【0024】
第2変換部112bは、第2入力部110bから受けつけた環境音情報を、周波数成分の時間変化が示される環境音画像に変換する。第2変換部112bにおける変換処理は、第1変換部112aにおける変換処理と同一であるので、ここでは説明を省略する。第2変換部112bは、環境音画像を処理部114に出力する。
【0025】
処理部114は、学習用画像あるいは検査画像を第1変換部112aから受けつける。
図4(a)-(c)は、処理部114において使用される画像を示す。
図4(a)-(b)は、
図3(c)とは別の状況における学習用画像あるいは検査画像を示す。
図4(a)は、物体が正常である場合の学習用画像あるいは検査画像を示し、
図4(b)は、物体が故障等によって異音を発している場合の学習用画像あるいは検査画像を示す。
図4(c)は後述し、
図1に戻る。また、処理部114は、環境音画像を第2変換部112bから受けつける。
【0026】
処理部114は、学習処理の場合に、環境音画像と学習用画像とに対してニューラルネットワークの処理を実行し、判定処理の場合に、環境音画像と検査画像とに対してニューラルネットワークの処理を実行する。
図5(a)-(c)は、処理部114の構成を示す。
図5(a)は、処理部114の構成の一例を示す。処理部114は、畳み込み層142と総称される第1畳み込み層142a、第2畳み込み層142b、第3畳み込み層142c、第4畳み込み層142d、プーリング層144と総称される第1プーリング層144a、第2プーリング層144b、第3プーリング層144c、第4プーリング層144d、組合せ層146、全結合層148を含む。
【0027】
組合せ層146は、
図1の第1変換部112aと第2変換部112bに接続され、第1変換部112aから検査画像を入力し、第2変換部112bから環境音画像を入力する。ここでは、説明を明瞭にするために検査画像として説明するが、学習用画像であっても同様である。組合せ層146は、検査画像と環境音画像とを組み合わせる。組合せの第1例では、2つの入力である検査画像と環境音画像とが別のチャンネルとして1つに合併される。この場合、検査画像と環境音画像の組合せが生成される。組合せの第2例では、2つの入力である検査画像と環境音画像との対応する画素同士の差分が計算され、画素毎に差分を並べた画像(以下、「差分画像」という)が生成される。組合せの第3例では、検査画像と環境音画像と差分画像とが別のチャンネルとして1つに合併される。この場合、検査画像と環境音画像と差分画像の組合せが生成される。組合せの第4例では、環境音画像と差分画像とが別のチャンネルとして1つに合併される。この場合、環境音画像と差分画像の組合せが生成される。組合せの第5例では、検査画像と差分画像とが別のチャンネルとして1つに合併される。この場合、検査画像と差分画像の組合せが生成される。組合せ層146は、組合せの結果(以下、「組合画像」という)を出力する。検査画像、環境音画像、差分画像は「画像」と総称される。
【0028】
畳み込み層142は、組合画像の各チャンネルに対して、画像のサイズよりも小さいサイズの空間フィルタをずらしながら空間フィルタリングを実行する。空間フィルタリングは公知の技術であるので、ここでは説明を省略するが、この空間フィルタリングが畳み込み処理に相当し、畳み込み処理によって画像の特徴量が抽出される。畳み込み層142においてパディング等が実行されてもよい。さらに、畳み込み層142は、各チャンネルの画像に対して、複数の空間フィルタを並列に使用して、複数の空間フィルタリングを並列して実行してもよい。このような複数の空間フィルタの並列使用によって、画像が増加する。これは、組合画像におけるチャンネル数が増加することに相当する。
【0029】
プーリング層144は、組合画像における各チャンネルの画像内の任意の領域に含まれた複数の画素を1つの画素にまとめることによって、画像のサイズを小さくする。ここで、複数の画素を1つの画素にまとめるために、平均プーリングあるいは最大プーリングが実行される。平均プーリングでは、領域内の複数の画素値の平均値が1つの画素に対して使用され、最大プーリングでは、領域内の複数の画素値のうちの最大値が1つの画素に対して使用される。プーリング処理は、着目領域における代表値あるいは平均値の並進移動に対してロバスト性を強化するためになされる。
【0030】
ここでは、第1畳み込み層142a、第1プーリング層144a、第2畳み込み層142b、第2プーリング層144b、第3畳み込み層142c、第3プーリング層144c、第4畳み込み層142d、第4プーリング層144dの順に処理が実行される。つまり、組合画像に対して、畳み込み処理とプーリング処理とが繰り返し実行される。また、畳み込み処理とプーリング処理とが繰り返されることによって、各チャンネルの画像のサイズが順に小さくされる。その結果、1×1の空間次元となり、かつ1以上のチャンネル数を有する組合画像が全結合層148に出力される。
【0031】
全結合層148は、特徴量が抽出されている画像を受けつける。全結合層148は、特徴量に基づいて、複数のクラスへの分類を実行することによって、画像を識別する。全結合層148における処理には公知の技術が使用されればよいので、ここでは説明を省略するが、全結合層148における分類結果では、「OK」、「NG」の2つのクラスのそれぞれに対する確率が示される。ここで、「OK」は、環境音画像と検査画像との組合せに異音の成分が含まれない場合に相当し、「NG」は、環境音画像と検査画像との組合せに異音の成分が含まれる場合に相当する。
図1に戻る。
【0032】
学習処理において、処理部114では学習用画像が使用される。学習用画像では、異音の成分が含まれているか否かが未知である検査画像とは異なり、異音の成分が含まれていること、あるいは異音の成分が含まれていないことが既知である。また、処理部114は、学習用画像に異音の成分が含まれているか否かを示す教師データを受けつける。教師データは、「OK」あるいは「NG」を示す。処理部114は、環境音画像と学習用画像と組合せが、教師データとなるように、各畳み込み層142の空間フィルタの係数を学習させる。空間フィルタの係数の学習自体には公知の技術が使用されればよいので、ここでは説明を省略する。このように、処理部114におけるニューラルネットワークは、出力部118から出力される検査結果が良品あるいは欠陥を示すように学習されている。
【0033】
学習処理の後の判定処理において、処理部114では検査画像が使用される。ここで、学習処理が処理装置100以外でなされる場合、別の装置での学習処理で導出された空間フィルタの係数が、処理部114に設定される。処理部114は、環境音画像と検査画像とに対してニューラルネットワークの処理を実行する。出力部118は、処理部114の処理結果として、環境音画像と検査画像との組合せに異音の成分が含まれるか否かを示す情報、つまり検査対象の物体の検査結果を出力する。
【0034】
以下では、処理部114の構成の別の例を示す。
図5(b)は、処理部114の構成の別の一例を示す。処理部114は、畳み込み層142と総称される第1-1畳み込み層142aa、第1-2畳み込み層142ab、第1-3畳み込み層142ac、第2-1畳み込み層142ba、第2-2畳み込み層142bb、第2-3畳み込み層142bc、第4畳み込み層142d、プーリング層144と総称される第1-1プーリング層144aa、第1-2プーリング層144ab、第1-3プーリング層144ac、第2-1プーリング層144ba、第2-2プーリング層144bb、第2-3プーリング層144bc、第4プーリング層144d、組合せ層146、全結合層148を含む。
【0035】
第1-1畳み込み層142aa、第1-1プーリング層144aa、第1-2畳み込み層142ab、第1-2プーリング層144ab、第1-3畳み込み層142ac、第1-3プーリング層144acは順に並べられる。これらは、検査画像に対して前述の処理を実行する。第2-1畳み込み層142ba、第2-1プーリング層144ba、第2-2畳み込み層142bb、第2-2プーリング層144bb、第2-3畳み込み層142bc、第2-3プーリング層144bcは順に並べられる。これらは、環境音画像に対して前述の処理を実行する。
【0036】
組合せ層146は、第1-3プーリング層144acからの処理結果と、第2-3プーリング層144bcからの処理結果とを入力する。第1-3プーリング層144acからの処理結果は検査画像に対する処理結果(以下、「第1処理結果」という)であり、第2-3プーリング層144bcからの処理結果は環境音画像に対する処理結果(以下、「第2処理結果」という)である。ここで、第1処理結果と第2処理結果は複数のチャンネルによって構成されていてもよい。組合せ層146は、第1処理結果と第2処理結果とを組み合わせる。組合せは、前述の第1例から第5例のいずれかのようになされればよい。差分画像の生成は、第1処理結果と第2処理結果との互いに対応したチャンネル同士の間でなされる。組合せ層146は、組合せの結果(以下、これもまた「組合画像」という)を出力する。
【0037】
第4畳み込み層142d、第4プーリング層144dは、組合画像に対して畳み込み処理とプーリング処理とを順次実行する。全結合層148は、
図5(a)と同様に構成される。このような処理部114の構成に対する処理装置100の学習処理と判定処理は、これまでと同様であるので、ここでは説明を省略する。学習の結果、検査画像に対して畳み込み層142の処理を実行する際の重み係数と、環境音画像に対して畳み込み層142の処理を実行する際の重み係数とが共通にされてもよい。具体的には、第1-1畳み込み層142aaと第2-1畳み込み層142baとの間で重み係数が共通にされる。また、第1-2畳み込み層142abと第2-2畳み込み層142bbとの間で重み係数が共通にされ、第1-3畳み込み層142acと第2-3畳み込み層142bcとの間で重み係数が共通にされる。
【0038】
図5(c)は、処理部114の構成のさらに別の一例を示す。処理部114は、畳み込み層142と総称される第1-1畳み込み層142aa、第1-2畳み込み層142ab、第1-3畳み込み層142ac、第1-4畳み込み層142ad、第2-1畳み込み層142ba、第2-2畳み込み層142bb、第2-3畳み込み層142bc、第2-4畳み込み層142bd、プーリング層144と総称される第1-1プーリング層144aa、第1-2プーリング層144ab、第1-3プーリング層144ac、第1-4プーリング層144ad、第2-1プーリング層144ba、第2-2プーリング層144bb、第2-3プーリング層144bc、第2-4プーリング層144bd、組合せ層146、全結合層148を含む。
【0039】
第1-1畳み込み層142aa、第1-1プーリング層144aa、第1-2畳み込み層142ab、第1-2プーリング層144ab、第1-3畳み込み層142ac、第1-3プーリング層144ac、第1-4畳み込み層142ad、第1-4プーリング層144adは順に並べられる。これらは、検査画像に対して前述の処理を実行する。第2-1畳み込み層142ba、第2-1プーリング層144ba、第2-2畳み込み層142bb、第2-2プーリング層144bb、第2-3畳み込み層142bc、第2-3プーリング層144bc、第2-4畳み込み層142bd、第2-4プーリング層144bdは順に並べられる。これらは、環境音画像に対して前述の処理を実行する。
【0040】
組合せ層146は、第1-4プーリング層144adからの処理結果と、第2-4プーリング層144bdからの処理結果とを入力する。第1-4プーリング層144adからの処理結果は検査画像に対する処理結果(以下、これもまた「第1処理結果」という)であり、第2-4プーリング層144bdからの処理結果は環境音画像に対する処理結果(以下、これもまた「第2処理結果」という)である。組合せ層146は、第1処理結果と第2処理結果とを組み合わせる。組合せは、前述の第1例から第5例のいずれかのようになされればよい。組合せ層146は、組合せの結果(以下、これもまた「組合画像」という)を出力する。
【0041】
全結合層148は、
図5(a)と同様に構成される。このような処理部114の構成に対する処理装置100の学習処理と判定処理は、これまでと同様であるので、ここでは説明を省略する。学習の結果、検査画像に対して畳み込み層142の処理を実行する際の重み係数と、環境音画像に対して畳み込み層142の処理を実行する際の重み係数とが共通にされてもよい。具体的には、第1-1畳み込み層142aaと第2-1畳み込み層142baとの間で重み係数が共通にされ、第1-2畳み込み層142abと第2-2畳み込み層142bbとの間で重み係数が共通にされる。また、第1-3畳み込み層142acと第2-3畳み込み層142bcとの間で重み係数が共通にされ、第1-4畳み込み層142adと第2-4畳み込み層142bdとの間で重み係数が共通にされる。
【0042】
処理部114の構成から全結合層148が除外されてもよい。このような構成を
図6をもとに説明する。
図6は、処理部114における処理の概要を示す。ここでは、説明を明瞭にするために、1入力として示し、組合せ層146を省略している。しかしながら、
図5(a)-(c)と同様に、2入力であり、組合せ層146が含まれればよい。処理部114は、畳み込み層142と総称する第1畳み込み層142a、第2畳み込み層142b、第3畳み込み層142c、第4畳み込み層142d、第5畳み込み層142e、第6畳み込み層142f、プーリング層144と総称する第1プーリング層144a、第2プーリング層144b、第3プーリング層144c、第4プーリング層144d、第5プーリング層144eを含む。このような畳み込み層142、プーリング層144は、各処理を実行するブロックのイメージを示す。
【0043】
入力画像140は、前述の検査画像、学習用画像、環境音画像、組合せ画像等の画像を総称する処理部114におけるニューラルネットワークには、完全畳み込みニューラルネットワークと同様に、全結合層148が含まれないので、入力画像140のサイズに対する制限が設けられない。入力画像140は、第1畳み込み層142aに入力される。処理部114では、第1畳み込み層142a、第1プーリング層144a、第2畳み込み層142b、第2プーリング層144b、第3畳み込み層142c、第3プーリング層144c、第4畳み込み層142d、第4プーリング層144d、第5畳み込み層142e、第5プーリング層144e、第6畳み込み層142fが順に配置される。つまり、これまでと同様に、畳み込み処理とプーリング処理とが繰り返し実行される。
【0044】
このような構成における処理部114でも、学習用画像と環境音画像との組合せが教師データとなるように、各畳み込み層142の空間フィルタの係数を学習させる。本実施例において、教師データのサイズは1×1の空間次元を有する。そのため、教師データは、学習用画像と環境音画像との組合せに対して、限定された数のクラスのいずれかを示すだけである。つまり、1つのチャンネルに対する教師データは、1つのクラスに該当するか否かだけを示せばよい。そのため、物体に対して色塗りによるセグメンテーションがなされた画像を生成する場合と比較して、1つの教師データを生成するための作業量が低減する。その結果、作業量の増加を抑制しながら、教師データの数を多くすることが可能である。
【0045】
一方、学習用画像と環境音画像との組合せは、判定処理が正確に実行された場合に教師データが出力されるような元の画像であり、そのサイズは教師データが1×1の空間次元となるように定められる。ここで、入力画像140のサイズに対する制限が設けられないので、学習処理に使用される画像と、判定処理に使用される画像とが異なったサイズでもよい。空間フィルタの係数の学習自体には公知の技術が使用されればよいので、ここでは説明を省略する。
【0046】
以下では、処理装置100の変形例を説明する。
(第1変形例)
図1において、検査対象の物体の近傍に配置され音を取得するためのマイクロホン10が第1マイクロホン10aとは別に1以上設けられてもよい。また、このような1以上のマイクロホン10に対応するように増幅器12とA/Dコンバータ14が設けられる。追加される1以上のマイクロホン10は、検査対象の物体において第1マイクロホン10aとは異なった位置に取り付けられ、異なった位置における音を受けつける。追加される増幅器12と、追加されるA/Dコンバータ14はこれまでと同様であり、処理装置100の第1入力部110aは、複数の検査情報を入力する。複数の検査情報は、複数のマイクロホン10によって検出された情報である。第1変換部112aは、複数の検査情報を複数の検査画像に変換する。第1変換部112aにおける処理は、前述の通りである。第1変換部112aは、複数の検査画像を処理部114に出力する。
【0047】
処理部114は、環境音画像と、複数の検査画像とに対してニューラルネットワークの処理を実行する。
図7は、処理部114の構成を示す。処理部114は、畳み込み層142と総称される第1-1畳み込み層142aa、第1-2畳み込み層142ab、第1-3畳み込み層142ac、第2-1畳み込み層142ba、第2-2畳み込み層142bb、第2-3畳み込み層142bc、第3-1畳み込み層142ca、第3-2畳み込み層142cb、第3-3畳み込み層142cc、第N-1畳み込み層142na、第N-2畳み込み層142nb、第N-3畳み込み層142nc、プーリング層144と総称される第1-1プーリング層144aa、第1-2プーリング層144ab、第2-1プーリング層144ba、第2-2プーリング層144bb、第3-1プーリング層144ca、第3-2プーリング層144cb、第N-1プーリング層144na、第N-2プーリング層144nb、第3プーリング層144c、第4プーリング層144d、組合せ層146、デンスブロック150と総称される第1デンスブロック150a、第2デンスブロック150bを含む。
【0048】
処理部114は、第1検査画像から第N-1検査画像、つまりN-1種の検査画像を変換部112から受けつける。第1-1畳み込み層142aaは、第1検査画像を受けつけ、第2-1畳み込み層142baは、環境音画像を受けつけ、第3-1畳み込み層142caは、第2検査画像を受けつけ、第N-1畳み込み層142naは、第N-1検査画像を受けつける。第1-1畳み込み層142aa、第1-1プーリング層144aa、第1-2畳み込み層142ab、第1-3畳み込み層142ac、第1-2プーリング層144abは、第1検査画像に対するニューラルネットワークの処理を実行する。他の検査画像についても同様である。第2-1畳み込み層142ba、第2-1プーリング層144ba、第2-2畳み込み層142bb、第2-3畳み込み層142bc、第2-2プーリング層144bbは、環境音画像に対するニューラルネットワークの処理を実行する。
【0049】
組合せ層146は、第1-2プーリング層144abから第N-2プーリング層144nbのそれぞれからの処理結果を受けつける。組合せ層146は、前述のようにこれらの処理結果を組み合わせる。組合せの際に、異なる検査画像に対して互いに異なる色で合成してもよく、これによりカラー判定による処理が可能になる。組合せ層146は、組合せの結果(以下、これもまた「組合画像」という)を出力する。第1デンスブロック150aは、畳み込み層142、組合せ層146等の組合せによって構成される。デンスブロック150には公知の技術が使用されればよいので、ここでは説明を省略する。第1デンスブロック150aに続く、第3プーリング層144c、第2デンスブロック150b、第4プーリング層144dは、これまでと同様の処理を実行するので、ここでは説明を省略する。
図7の畳み込み層142、デンスブロック150について、
図7に合わせた学習がなされる。
【0050】
図7に示される処理部114の構成は、
図5(b)に類似する。しかしながら、処理部114の構成は、
図5(a)に類似してもよく、
図5(c)に類似してもよい。
【0051】
(第2変形例)
検査画像と環境音画像は、N次元Mチャンネル(N、M整数)を有する画像であってもよい。ここで、N次元には、1次元、2次元、3次元、4次元、・・・・が含まれる。このような検査画像と環境音画像に対して、処理部114はこれまでと同様の処理を実行すればよい。
【0052】
(第3変形例)
これまでの処理部114には、畳み込み層142、プーリング層144が含まれていたが、畳み込み層142、プーリング層144が含まれなくてもよい。
図8は、処理部114の構成を示す。処理部114は、組合せ層146、全結合層148と総称される第1-1全結合層148aa、第1-2全結合層148ab、第1-3全結合層148ac、第2-1全結合層148ba、第2-2全結合層148bb、第2-3全結合層148bc、第4全結合層148dを含む。つまり、組合せ層146を除いて、全結合層148だけが含まれる。第1-1全結合層148aaは、検査画像を受けつけ、第2-1全結合層148baは、環境音画像を受けつける。第1-1全結合層148aaから第1-3全結合層148acは、検査画像に対して全結合層の処理を実行し、第2-1全結合層148baから第2-3全結合層148bcは、環境音画像に対して全結合層の処理を実行する。組合せ層146は、第1-3全結合層148acと第2-3全結合層148bcから処理結果を受けつける。組合せ層146は、前述のようにこれらの処理結果を組み合わせる。組合せ層146は、組合せの結果(以下、これもまた「組合画像」という)を出力する。第4全結合層148dは、組合画像に対して全結合層の処理を実行する。
【0053】
図8に示される処理部114の構成は、
図5(b)に類似する。しかしながら、処理部114の構成は、
図5(a)に類似してもよく、
図5(c)に類似してもよい。
【0054】
(第4変形例)
これまでの組合せ層146では、組合せの第1例、第3例から第5例のように、複数のチャンネルが1つに合併されている。合併はこれに限定されない。
図9(a)-(c)は、処理部114の構成を示す。第1入力画像200a、第2入力画像200bは、組合せ層146に入力される2つの画像であり、学習用画像、検査画像、環境音画像、処理結果を含む。
図9(a)は、組合せ層146におけるこれまでの合併を示し、2つのチャンネルの第1入力画像200a、第2入力画像200bが合併により1つのチャンネルにされる。第1入力画像200a、第2入力画像200bを総称する入力画像200の数は「2」に限定されない。また、1つのチャンネルにされた画像が前述の組合画像に相当する。
図9(b)では、2つのチャンネルの第1入力画像200a、第2入力画像200bが、x軸方向に並べることによって1つのチャンネルにされる。
図9(c)では、2つのチャンネルの第1入力画像200a、第2入力画像200bが、y軸方向に並べることによって1つのチャンネルにされる。
【0055】
本開示における装置、システム、または方法の主体は、コンピュータを備えている。このコンピュータがプログラムを実行することによって、本開示における装置、システム、または方法の主体の機能が実現される。コンピュータは、プログラムにしたがって動作するプロセッサを主なハードウェア構成として備える。プロセッサは、プログラムを実行することによって機能を実現することができれば、その種類は問わない。プロセッサは、半導体集積回路(IC)、またはLSI(Large Scale Integration)を含む1つまたは複数の電子回路で構成される。複数の電子回路は、1つのチップに集積されてもよいし、複数のチップに設けられてもよい。複数のチップは1つの装置に集約されていてもよいし、複数の装置に備えられていてもよい。プログラムは、コンピュータが読み取り可能なROM、光ディスク、ハードディスクドライブなどの非一時的記録媒体に記録される。プログラムは、記録媒体に予め格納されていてもよいし、インターネット等を含む広域通信網を介して記録媒体に供給されてもよい。
【0056】
本実施例によれば、環境音画像と検査画像とに対して、畳み込み層の処理が含まれたニューラルネットワークの処理を実行するので、環境音が存在する場合でも処理の正確性の低下を抑制できる。また、マイクロホン10を使用するので、風切り音なども集音することができ、より人間の官能検査に近い検査を実行できる。また、マイクロホン10を使用するので、検査のための防音室が不要になるので、インライン化を容易に実現できる。
【0057】
また、環境音画像と複数の検査画像とに対してニューラルネットワークの処理を実行するので、複数のマイクロホン10からの音をもとに、検査画像に異音の成分が含まれるか否かを判定するので、判定精度を向上できる。また、ニューラルネットワークは、出力部118から出力される検査結果が良品あるいは欠陥を示すように学習されていているので、物体の検査を実行できる。
【0058】
また、検査画像と環境音画像とを組み合わせてから、組合せに対して畳み込み層142の処理とプーリング層144の処理を実行するので、処理量の増加を抑制できる。また、検査画像と環境音画像のそれぞれに対して畳み込み層142の処理とプーリング層144の処理を実行してから、これらの組合せに対して畳み込み層142の処理とプーリング層144の処理を実行するので、処理の精度を向上できる。また、検査画像と環境音画像のそれぞれに対して畳み込み層142の処理とプーリング層144の処理を実行してから、これらを組み合わせるので、処理の精度を向上できる。
【0059】
また、検査画像に対して畳み込み層142の処理を実行する際の重み係数と、環境音画像に対して畳み込み層142の処理を実行する際の重み係数とを共通にするので、処理の精度を向上できる。また、組合せとして、2つの入力を1つに合併するので、処理を簡易にできる。また、組合せとして、2つの入力の差分を導出するので、処理の精度を向上できる。また、組合せとして、差分に、2つの入力の少なくとも1つを合併するので、処理の精度を向上できる。1×1の空間次元を有する教師データに対して、畳み込み層142の空間フィルタの学習がなされている畳み込みニューラルネットワークを使用するので、教師データの作成の作業量を低減できる。また教師データの作成の作業量が低減されるので、学習の作業量の増加を抑制できる。また教師データの作成の作業量が低減されるので、教師データの数を多くできる。また、教師データの数が多くなるので、学習の精度を向上できる。
【0060】
また、検査画像と環境音画像は、N次元Mチャンネル(N、Mは整数)を有する画像であるので、本実施例の適用範囲を拡大できる。また、検査画像と環境音画像とを組み合わせてから、組合せに対して全結合層148の処理を実行するので、構成の自由度を向上できる。また、検査画像に対して全結合層148の処理を実行するとともに、環境音画像に対して全結合層148の処理を実行し、検査画像に対する処理結果と環境音画像に対する処理結果との組合せに対して全結合層148の処理を実行するので、構成の自由度を向上できる。また、検査画像に対して全結合層148の処理を実行するとともに、環境音画像に対して全結合層148の処理を実行し、検査画像に対する処理結果と環境音画像に対する処理結果とを組み合わせるので、構成の自由度を向上できる。
【0061】
本開示の一態様の概要は、次の通りである。本開示のある態様の処理装置(100)は、検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力する第1入力部(110a)と、第1入力部(110a)に入力した検査情報を、周波数成分の時間変化が示される検査画像に変換する第1変換部(112a)と、検査情報を取得する際の環境音の時間変化が示される環境音情報を入力する第2入力部(110b)と、第2入力部(110b)に入力した環境音情報を、周波数成分の時間変化が示される環境音画像に変換する第2変換部(112b)と、第2変換部(112b)において変換した環境音画像と、第1変換部(112a)において変換した検査画像とに対して、畳み込み層の処理が含まれたニューラルネットワークの処理を実行する処理部(114)と、処理部(114)の処理結果として、検査対象の物体の検査結果を出力する出力部(118)と、を備える。
【0062】
第1入力部(110a)は、複数の検査情報を入力し、第1変換部(112a)は、第1入力部(110a)に入力した複数の検査情報を複数の検査画像に変換し、処理部(114)は、環境音画像と、第1変換部(112a)において変換した複数の検査画像とに対してニューラルネットワークの処理を実行してもよい。
【0063】
処理部(114)におけるニューラルネットワークは、出力部(118)から出力される検査結果が良品あるいは欠陥を示すように学習されていてもよい。
【0064】
出力部(118)は、処理部(114)におけるニューラルネットワークの処理の途中の特徴量も出力してもよい。
【0065】
本開示のさらに別の態様は、処理方法である。この方法は、検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力するステップと、入力した検査情報を、周波数成分の時間変化が示される検査画像に変換するステップと、検査情報を取得する際の環境音の時間変化が示される環境音情報を入力するステップと、入力した環境音情報を、周波数成分の時間変化が示される環境音画像に変換するステップと、変換した環境音画像と、変換した検査画像とに対して、畳み込み層の処理が含まれたニューラルネットワークの処理を実行するステップと、ニューラルネットワークの処理結果として、検査対象の物体の検査結果を出力するステップと、を備える。
【0066】
(実施例2)
次に実施例2を説明する。実施例2は、実施例1と同様に、モータ等の回転装置のような製品に異常が含まれているか否かを判定する処理装置に関する。ニューラルネットワークを使用する場合、モータの品番毎の再学習が必要になる。このような再学習のために、学習の作業量が増加する。しかしながら、学習が不十分であると処理の正確性が低下する。実施例2に係る処理装置は、正常な物体における周波数成分の時間変化が示され、かつ検査画像と比較可能な画像(以下、「参照画像」という)を用意する。処理装置は、検査画像と環境音画像と参照画像との組合せに対して、ニューラルネットワークの処理を実行することによって、検査画像が正常であるか不良であるかを判定する。その際、処理装置では、検査画像と環境音画像と参照画像との組合せに対して検査画像が正常であるか不良であるかの情報を教師データとして学習が予めなされている。つまり、検査画像と環境音画像の組合せと参照画像との比較結果が正常であるか不良であるかが学習されている。その結果、商品リニューアルによって参照画像が変わる場合であっても、新たな参照画像と検査画像と環境音画像を処理装置に入力すればよくなり、未学習の音のパターンでも判定が可能になる。ここでは、これまでとの差異を中心に説明する。
【0067】
図10は、処理装置100の構成を示す。処理装置100では、
図1の処理装置100に記憶部116が加えられる。記憶部116は、参照画像を記憶する。参照画像は、正常な物体に対して予め取得されたスペクトログラムであるので、周波数成分の時間変化が示される画像である。
図4(c)は、検査対象の物体に対して基準となるスペクトログラムを示す。処理部114は、正常な物体における周波数成分の時間変化が示される参照画像も含めてニューラルネットワークの処理を実行する。処理部114は、学習処理の場合に、参照画像と学習用画像と環境音画像とに対してニューラルネットワークの処理を実行し、判定処理の場合に、参照画像と検査画像と環境音画像とに対してニューラルネットワークの処理を実行する。処理部114は、
図7と同様に示される。
【0068】
処理部114は、検査画像、環境音画像、参照画像を受けつける。第1-1畳み込み層142aaは、検査画像を受けつけ、第2-1畳み込み層142baは、環境音画像を受けつけ、第3-1畳み込み層142caは、参照画像を受けつける。第1-1畳み込み層142aa、第1-1プーリング層144aa、第1-2畳み込み層142ab、第1-3畳み込み層142ac、第1-2プーリング層144abは、検査画像に対するニューラルネットワークの処理を実行する。第2-1畳み込み層142ba、第2-1プーリング層144ba、第2-2畳み込み層142bb、第2-3畳み込み層142bc、第2-2プーリング層144bbは、環境音画像に対するニューラルネットワークの処理を実行する。第3-1畳み込み層142ca、第3-1プーリング層144ca、第3-2畳み込み層142cb、第3-3畳み込み層142cc、第3-2プーリング層144cbは、参照画像に対するニューラルネットワークの処理を実行する。組合せ層146は、第1-2プーリング層144abから第3-2プーリング層144cbのそれぞれからの処理結果を受けつける。組合せ層146は、前述のようにこれらの処理結果を組み合わせる。
【0069】
学習処理において、処理部114では学習用画像が使用される。学習用画像では、異音の成分が含まれているか否かが未知である検査画像とは異なり、異音の成分が含まれていること、あるいは異音の成分が含まれていないことが既知である。また、処理部114は、参照画像に対して学習用画像に異音の成分が含まれているか否かを示す教師データを受けつける。教師データは、「OK」あるいは「NG」を示す。処理部114は、学習用画像と環境音画像の組合せと参照画像との関係が、教師データとなるように、各畳み込み層142の空間フィルタの係数を学習させる。空間フィルタの係数の学習自体には公知の技術が使用されればよいので、ここでは説明を省略する。このように、処理部114におけるニューラルネットワークは、出力部118から出力される検査結果が良品あるいは欠陥を示すように学習されている。
【0070】
学習処理の後の判定処理において、処理部114では検査画像が使用される。ここで、学習処理が処理装置100以外でなされる場合、別の装置での学習処理で導出された空間フィルタの係数が、処理部114に設定される。処理部114は、環境音画像と検査画像と参照画像とに対してニューラルネットワークの処理を実行する。出力部118は、処理部114の処理結果として、参照画像に対して検査画像と環境音画像の組合せに異音の成分が含まれるか否かを示す情報、つまり検査対象の物体の検査結果を出力する。
【0071】
本実施例によれば、検査画像と環境音画像と参照画像とに対してニューラルネットワークの処理を実行することによって、検査画像と環境音画像の組合せと参照画像の比較結果として、検査画像に異音の成分が含まれるか否かを示す情報を出力できる。また、検査画像と環境音画像の組合せと参照画像の比較結果が出力されるので、参照画像が変わっても新たな参照画像による学習の量を低減できる。また、参照画像が変わっても新たな参照画像による学習の量が低減されるので、学習の作業量の増加を抑制できる。
【0072】
本開示の一態様の概要は、次の通りである。処理部(114)は、正常な物体における周波数成分の時間変化が示される参照画像も含めてニューラルネットワークの処理を実行してもよい。
【0073】
(実施例3)
次に実施例3を説明する。実施例3は、実施例1と同様に、モータ等の回転装置のような製品に異常が含まれているか否かを判定する処理装置に関する。これまで、学習用画像、検査画像、環境音画像等の画像に対してニューラルネットワークの処理が実行されている。実施例2に係る処理装置は、学習用情報、検査情報、環境音情報等の情報に対してニューラルネットワークを実行する。ここでは、これまでとの差異を中心に説明する。
【0074】
図11は、処理装置100の構成を示す。処理装置100は、マイクロホン10と総称される第1マイクロホン10a、第2マイクロホン10b、増幅器12と総称される第1増幅器12a、第2増幅器12b、A/Dコンバータ14と総称される第1A/Dコンバータ14a、第2A/Dコンバータ14bに接続されるとともに、入力部110と総称される第1入力部110a、第2入力部110b、処理部114、出力部118を含む。処理部114は、学習用情報あるいは検査情報を第1入力部110aから受けつけ、環境音情報を第2入力部110bから受けつける。処理部114は、学習処理の場合に、学習用情報と環境音情報とに対してニューラルネットワークの処理を実行し、判定処理の場合に、検査情報と環境音情報とに対してニューラルネットワークの処理を実行する。処理部114における処理はこれまでと同様でよいので、ここでは説明を省略する。
【0075】
本実施例によれば、波形が示される検査情報と、波形が示される環境音情報とに対してニューラルネットワークの処理を実行するので、検査情報から検査画像への変換と、環境音情報から環境音画像への変換とを不要にできる。また、検査情報から検査画像への変換と、環境音情報から環境音画像への変換とが不要になるので、処理量を低減できる。
【0076】
本開示の一態様の概要は、次の通りである。本開示の別の態様もまた、処理装置(100)である。この装置は、検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力する第1入力部(110a)と、検査情報を取得する際の環境音の時間変化が示される環境音情報を入力する第2入力部(110b)と、第2入力部(110b)に入力した環境音情報と、第1入力部(110a)に入力した検査情報とに対して、畳み込み層の処理が含まれたニューラルネットワークの処理を実行する処理部(114)と、処理部(114)の処理結果として、検査対象の物体の検査結果を出力する出力部(118)と、を備える。
【0077】
第1入力部(110a)は、複数の検査情報を入力し、処理部(114)は、環境音情報と、第1入力部(110a)に入力した複数の検査情報とに対してニューラルネットワークの処理を実行してもよい。
【0078】
処理部(114)は、正常な物体における音の時間変化が示される参照情報も含めてニューラルネットワークの処理を実行してもよい。
【0079】
本開示のさらに別の態様もまた、処理方法である。この方法は、検査対象の物体から取得した検査情報であって、かつ音の時間変化が示される検査情報を入力するステップと、検査情報を取得する際の環境音の時間変化が示される環境音情報を入力するステップと、入力した環境音情報と、入力した検査情報とに対して、畳み込み層の処理が含まれたニューラルネットワークの処理を実行するステップと、ニューラルネットワークの処理結果として、検査対象の物体の検査結果を出力するステップと、を備える。
【0080】
以上、本開示を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素あるいは各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本開示の範囲にあることは当業者に理解されるところである。
【0081】
実施例1、第1変形例から第4変形例、実施例2、実施例3における処理部114の構成は、複数の畳み込み層142と複数のプーリング層144とが交互に並べんでいる。しかしながらこれに限らず例えば、処理部114は、GoogLeNet系、DenseNet系等の構成を有していてもよい。本変形例によれば、構成の自由度を向上できる。
【0082】
実施例1、第1変形例から第4変形例、実施例2、実施例3における処理部114の構成は、複数の畳み込み層142と複数のプーリング層144とが交互に並べんでいる。しかしながらこれに限らず例えば、処理部114では、畳み込み層142のみが含まれて畳み込み処理だけが実行されてもよいし、プーリング層144のみが含まれてプーリング処理だけが実行されてもよい。本変形例によれば、構成の自由度を向上できる。
【0083】
実施例1、第1変形例から第4変形例、実施例2、実施例3における出力部118は、処理部114におけるニューラルネットワークの処理結果を出力する。しかしながらこれに限らず例えば、出力部118は、処理部114におけるニューラルネットワークの処理の途中の特徴量を出力してもよい。本変形例によれば、構成の自由度を向上できる。
【0084】
実施例1、第1変形例から第4変形例、実施例2、実施例3の任意の組合せも有効である。本変形例によれば、実施例1、第1変形例から第4変形例、実施例2、実施例3の任意の組合せによる効果を得ることができる。例えば、実施例2と第1変形例の組合せとして、第1入力部110aは、複数の検査画像を入力する。処理部114は、環境音画像と複数の検査画像と参照画像とに対してニューラルネットワークの処理を実行する。本変形例によれば、処理精度を向上できる。例えば、実施例3と第1変形例の組合せとして、入力部110は、複数の検査情報を入力する。処理部114は、環境音情報と、入力部110に入力した複数の検査情報とに対してニューラルネットワークの処理を実行する。その際、変換部112は省略される。本変形例によれば、処理量の増加を抑制しながら、処理精度を向上できる。
【産業上の利用可能性】
【0085】
本開示によれば、環境音が存在する場合でも処理の正確性の低下を抑制できる。
【符号の説明】
【0086】
10 マイクロホン、 12 増幅器、 14 A/Dコンバータ、 100 処理装置、 110 入力部、 112 変換部、 114 処理部、 116 記憶部、 118 出力部、 140 入力画像、 142 畳み込み層、 144 プーリング層、 146 組合せ層、 148 全結合層、 150 デンスブロック。