IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士ゼロックス株式会社の特許一覧

<>
  • 特開-情報処理装置及びプログラム 図1
  • 特開-情報処理装置及びプログラム 図2
  • 特開-情報処理装置及びプログラム 図3
  • 特開-情報処理装置及びプログラム 図4
  • 特開-情報処理装置及びプログラム 図5
  • 特開-情報処理装置及びプログラム 図6
  • 特開-情報処理装置及びプログラム 図7
  • 特開-情報処理装置及びプログラム 図8
  • 特開-情報処理装置及びプログラム 図9
  • 特開-情報処理装置及びプログラム 図10
  • 特開-情報処理装置及びプログラム 図11
  • 特開-情報処理装置及びプログラム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024046010
(43)【公開日】2024-04-03
(54)【発明の名称】情報処理装置及びプログラム
(51)【国際特許分類】
   G10L 25/51 20130101AFI20240327BHJP
   G10L 25/21 20130101ALI20240327BHJP
   G10L 25/18 20130101ALI20240327BHJP
   G10L 25/27 20130101ALI20240327BHJP
【FI】
G10L25/51
G10L25/21
G10L25/18
G10L25/27
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2022151140
(22)【出願日】2022-09-22
(71)【出願人】
【識別番号】000005496
【氏名又は名称】富士フイルムビジネスイノベーション株式会社
(74)【代理人】
【識別番号】110001210
【氏名又は名称】弁理士法人YKI国際特許事務所
(72)【発明者】
【氏名】宇高 勉
(72)【発明者】
【氏名】秋山 実
(57)【要約】      (修正有)
【課題】情報処理装置から外部装置に送信される音のデータから人の音声が認識されるのを防止しつつも、異音の解析に有用な情報を外部装置に送信する。
【解決手段】情報処理装置は、音センサが検出した音データをスペクトログラムに変換し、このスペクトログラムからその音データが異音を含むか否かを判定する。異音を含むと判定した場合、情報処理装置は、そのスペクトログラムの各点の値を時刻ごとに周波数方向に合計することにより、音の強度の時系列データを生成する。そして、その時系列データにおいて、人の声が認識できない程度の時間分解能に対応する長さTの区間ごとに、その区間内の強度データのうちの最大値をその区間の強度地として選び、他のデータは破棄する。
【選択図】図3
【特許請求の範囲】
【請求項1】
プロセッサを有し、
前記プロセッサは、
装置が発する音の強度の時間的な変化を示す第1データを取得し、
前記第1データから、人の声を認識できない時間分解能に対応する時間幅の区間ごとに当該区間内での最大値を抽出し、前記最大値以外を破棄することにより、第2データを生成し、
前記第2データを外部装置に送信する、
情報処理装置。
【請求項2】
前記プロセッサは、
前記装置が発する音のスペクトログラムから、前記スペクトログラムが表す音が前記装置の正常時の音であるか否かを判定し、
前記スペクトログラムが表す音が前記正常時の音でないと判定した場合に、当該スペクトログラムから前記第1データを生成する、
請求項1に記載の情報処理装置。
【請求項3】
前記プロセッサは、更に、
前記スペクトログラムに対して時間軸方向に繰り返し発生周波数解析を実行し、
前記繰り返し発生周波数解析の結果から所定条件を満たす強度のピークを求め、求めたピークの繰り返し発生周波数及び強度を表す第3データを生成し、
前記第3データを前記第2データと対応付けて前記外部装置に送信する、
請求項2に記載の情報処理装置。
【請求項4】
前記プロセッサは、更に、
前記スペクトログラムから、そのスペクトログラムにおける各周波数の音の強度の分布を示す第4データを生成し、
前記第4データを前記第2データと対応付けて前記外部装置に送信する、
請求項2に記載の情報処理装置。
【請求項5】
装置が発する音の強度の時間的な変化を示す第1データを取得し、
前記第1データから、人の声を認識できない時間分解能に対応する時間幅の区間ごとに当該区間内での最大値を抽出し、前記最大値以外を破棄することにより、第2データを生成し、
前記第2データを外部装置に送信する、
処理をコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及びプログラムに関する。
【背景技術】
【0002】
装置が動作しているときに当該装置が発する音を解析することで、当該装置の異常を検知する技術が知られている。
【0003】
特許文献1には、画像形成装置の動作時の音特性を収集する集音手段と、音データを遠隔した場所に送る送信手段とを備え、遠隔地で上記音データと正常音データを比較して異音の有無を判断するシステムが開示されている。
【0004】
このようなシステムでは、画像形成装置を利用者と、遠隔地でその画像形成装置の音声を解析する者とが異なることがある。例えば、画像形成装置のベンダが、顧客の施設に設置した画像形成装置の音を通信ネットワーク経由でベンダ側の解析装置に収集して解析する例が多い。
【0005】
また、このようなシステムでは、集音手段が画像形成装置の周囲の音声、例えば人の会話音声を拾ってしまうことがある。画像形成装置の利用者と解析を行う解析者とが異なる場合、集音手段が拾った音声をそのまま解析者側に送ると、利用者のプライバシーの侵害に繋がるおそれがある。
【0006】
送信する音信号からプライバシー保護等のために人の声の成分を抑制する技術として以下のものがある。
【0007】
特許文献2には、離れた場所の様子を、その場所にいる者のプライバシーを侵害することなくリアルタイムに知ることを可能とするシステムが開示されている。このシステムでは、対象の場所にある端末装置が、その場所の音声を音センサにより集音し、得られた音声信号にフィルタ処理等の加工を施すことにより、会話音声の周波数帯をカットする。そして、加工後の音声を監視者の居る場所に送信する。
【0008】
特許文献3には、音データリンクの近くでの人の会話を盗聴することが防止できるような装置が提案されている。音データリンクのための音センサが検知した音信号は、フィルタにより人の声の信号成分の大部分を減衰させられた上で、着信地へと送信される。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特許第4810389号公報(特開2008-92358号公報)
【特許文献2】特開2008-301529号公報
【特許文献3】特開平10-322291号公報
【発明の概要】
【発明が解決しようとする課題】
【0010】
本発明の目的は、情報処理装置から外部装置に送信される音のデータから人の音声が認識されるのを防止しつつも、異音の解析に有用な情報を外部装置に送信することである。
【課題を解決するための手段】
【0011】
請求項1に係る発明は、プロセッサを有し、前記プロセッサは、装置が発する音の強度の時間的な変化を示す第1データを取得し、前記第1データから、人の声を認識できない時間分解能に対応する時間幅の区間ごとに当該区間内での最大値を抽出し、前記最大値以外を破棄することにより、第2データを生成し、前記第2データを外部装置に送信する、情報処理装置である。
【0012】
請求項2に係る発明は、前記プロセッサは、前記装置が発する音のスペクトログラムから、前記スペクトログラムが表す音が前記装置の正常時の音であるか否かを判定し、前記スペクトログラムが表す音が前記正常時の音でないと判定した場合に、当該スペクトログラムから前記第1データを生成する、請求項1に記載の情報処理装置である。
【0013】
請求項3に係る発明は、前記プロセッサは、更に、前記スペクトログラムに対して時間軸方向に繰り返し発生周波数解析を実行し、前記繰り返し発生周波数解析の結果から所定条件を満たす強度のピークを求め、求めたピークの繰り返し発生周波数及び強度を表す第3データを生成し、前記第3データを前記第2データと対応付けて前記外部装置に送信する、請求項2に記載の情報処理装置である。
【0014】
請求項4に係る発明は、前記プロセッサは、更に、前記スペクトログラムから、そのスペクトログラムにおける各周波数の音の強度の分布を示す第4データを生成し、前記第4データを前記第2データと対応付けて前記外部装置に送信する、請求項2に記載の情報処理装置である。
【0015】
請求項5に係る発明は、装置が発する音の強度の時間的な変化を示す第1データを取得し、前記第1データから、人の声を認識できない時間分解能に対応する時間幅の区間ごとに当該区間内での最大値を抽出し、前記最大値以外を破棄することにより、第2データを生成し、前記第2データを外部装置に送信する、処理をコンピュータに実行させるためのプログラムである。
【発明の効果】
【0016】
請求項1又は5に係る発明によれば、外部装置に送信される音のデータから人の音声が認識されるのを防止しつつも、異音の解析に有用な情報を外部装置に送信することができる。
【0017】
請求項2に係る発明によれば、装置が発する音が正常時の音でないと判定された場合に第1データが生成され、その第1データから第2データが生成されて外部装置に送信される。
【0018】
請求項3に係る発明によれば、第2データから欠落しやすい低強度の周期性の異音(すなわち装置の正常時の音でない音)の情報を外部装置に提供することができる。
【0019】
請求項4に係る発明によれば、正常時の音でない音を表すと判定されたスペクトログラムから生成された、各周波数の音の強度の分布の情報を外部装置に提供することができる。
【図面の簡単な説明】
【0020】
図1】実施形態に係る情報処理システムの構成を示す図である。
図2】実施形態に係る画像処理装置の構成を示す図である。
図3】画像処理装置が異音報告のために実行する全体的な手順を例示する図である。
図4】時間軸解析データを生成する処理手順の例を示す図である。
図5】スペクトログラムとこれに対する解析の方向を説明する図である。
図6】音強度の時系列データの例を示す図である。
図7】周期性異音解析データを生成する処理手順の例を示す図である。
図8】周期性異音解析データの例を示す図である。
図9】周波数解析データを生成する処理手順の例を示す図である。
図10】画像処理装置の動作情報の例を示す図である。
図11】動作情報を異音報告データに組み込む処理手順の例を示す図である。
図12】コンピュータのハードウエア構成を例示する図である。
【発明を実施するための形態】
【0021】
図1を参照して、実施形態に係る情報処理システムについて説明する。図1は、実施形態に係る情報処理システムの構成の一例を示すブロック図である。
【0022】
実施形態に係る情報処理システムは、画像処理装置10とサーバ12とを含む。複数の画像処理装置10や複数のサーバ12が、情報処理システムに含まれてもよい。
【0023】
画像処理装置10とサーバ12は、他の装置と通信する機能を有する。その通信は、ケーブルを利用する有線通信であってもよいし、無線通信であってもよい。無線通信として、例えば、近距離無線通信やWi-Fi(登録商標)等が用いられる。これら以外の規格の無線通信が用いられてもよい。例えば、画像処理装置10とサーバ12は、LAN(Local Area Network)やインターネット等の通信経路Nを介して他の装置と通信してもよい。
【0024】
画像処理装置10は、情報処理装置の一例であり、例えば、プリント機能、スキャン機能及びコピー機能の中の少なくとも1つの機能を有する。画像処理装置10は、プリンタ、スキャナ、コピー機、又は、複合機(例えば、プリント機能、スキャン機能及びコピー機能等を有する装置)等である。
【0025】
サーバ12は、外部装置の一例であり、画像処理装置10等の装置が発する音を解析する。画像処理装置10は、自身が発する音を表す音データを解析して異音発生の有無を判定し、異音が発生した場合に、その異音の特徴を示す異音報告データを生成してサーバ12に送信する。異音とは、画像処理装置10が正常時(すなわち正常に動作している時)には発しない音である。異音は、画像処理装置10に発生している故障や不具合を特定するための判断材料となる。サーバ12は、異音報告データを解析することにより、異音の発生原因(例えば故障の起こった部品)を判定する。
【0026】
例えば、装置を提供する事業者が、顧客先に設置した画像処理装置10等の装置が発する音を解析することで、当該装置の異常を検知し対処を行うサービスが考えられる。この場合、そのサービスにサーバ12が用いられる。
【0027】
なお、図1に示す例では、音の分析の対象となる装置として画像処理装置10が挙げられているが、その対象となる装置は画像処理装置10に限定されるものではなく、画像処理装置10以外の装置でもよい。
【0028】
以下、図2を参照して、画像処理装置10の構成について説明する。図2には、画像処理装置10の構成の一例が示されている。
【0029】
画像処理装置10は、画像形成部14と、画像処理部16と、音センサ18と、カメラ20と、通信装置22と、ユーザインターフェース(UI)24と、メモリ26と、プロセッサ28とを含む。
【0030】
画像形成部14は、例えば、プリント機能、スキャン機能及びコピー機能の中の少なくとも1つの機能を有する。例えば、画像形成部14は、画像データをプリントしてもよいし、原稿を光学的に読み取って画像データを生成してもよいし、その読み取った画像データをプリントしてもよい。
【0031】
画像処理部16は、画像データに対して画像処理を施す。画像処理は、例えば、圧縮処理、伸長処理、文字認識処理(例えばOCR)等である。画像処理の対象である画像データは、画像処理装置10の例えばスキャン機能によって生成されてもよいし、画像処理装置10以外の装置から画像処理装置10に送信されてもよい。
【0032】
音センサ18は、画像処理装置10が発した音を検出し、検出した音を表す音データを生成する。音センサ18は、例えば、画像処理装置10の筐体の内部や外周のうちの1以上の箇所に設置される。また、音センサ18は、画像処理装置10の周囲に設置されて、画像処理装置10が発した音や、その周囲の音を集音してもよい。
【0033】
音センサ18が生成する音データは、音センサ18が検出した音の強度の時間的な変化を示すデータである。すなわち、音データは、音センサ18が音をサンプリングするサンプリング時刻ごとに、その時刻で検知した音の強度の値を含む。
【0034】
カメラ20は、画像処理装置10の周囲を撮影する。その撮影によって、画像処理装置10の周囲を表す画像データが生成される。カメラ20は、画像処理装置10自体に設置されず、画像処理装置10の周囲に設置されて、画像処理装置10の周囲を撮影してもよい。
【0035】
通信装置22は、通信チップや通信回路等を有する1又は複数の通信インターフェースを含み、他の装置に情報を送信する機能、及び、他の装置から情報を受信する機能を有する。通信装置22は、近距離無線通信やWi-Fi等の無線通信機能を有してもよいし、有線通信機能を有してもよい。
【0036】
UI24はユーザインターフェースであり、ディスプレイと入力装置とを含む。ディスプレイは、液晶ディスプレイ又はELディスプレイ等である。入力装置は、キーボード、マウス、入力キー又は操作パネル等である。UI24は、ディスプレイと入力装置とを兼ね備えたタッチパネル等のUIであってもよい。
【0037】
メモリ26は、データを記憶する1又は複数の記憶領域を構成する装置である。メモリ26は、例えば、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、各種のメモリ(例えばRAM、DRAM、NVRAM、ROM、等)、その他の記憶装置(例えば光ディスク等)、又は、それらの組み合わせである。
【0038】
プロセッサ28は、画像処理装置10の各部の動作の制御を行う。また、プロセッサ28は、画像処理装置10の動作情報の記録や編集、異音発生の検知、サーバ12への異音の報告、等の情報処理を実行する。
【0039】
以下、フローチャートを参照して、異音報告のためにプロセッサ28が実行する処理手順の例を説明する。
【0040】
図3は、プロセッサ28が異音報告のために実行する全体的な処理の例を示す。
【0041】
この手順では、プロセッサ28は、まず、音センサ19から取得した音データをスペクトログラムに変換する(S10)。スペクトログラムは、例えば、時間、周波数、強度の3次元のデータである。例えば時間を横軸、周波数を縦軸にとり、音の強度を輝度(又は濃度)で表した場合、スペクトログラムは二次元のグレースケール画像となる。S10の変換処理は、例えば、STFT(短時間フーリエ変換)等、スペクトログラムを計算するための公知の演算アルゴリズムを用いて行えばよい。
【0042】
所定長さの期間の(言い換えれば所定のデータ量の)の音データがバッファメモリ(これは例えばメモリ26内に確保される)内に蓄積されるごとに、図3の処理が開始され、S10でそのバッファメモリ内の音データからスペクトログラムが計算される。
【0043】
次にプロセッサ28は、そのスペクトログラムから異音の有無を判定する(S12)。
【0044】
この判定は、例えば、機械学習エンジンを用いて行う。機械学習エンジンとしては、例えば、オートエンコーダ(Autoencoder:自己符号化器)を用いてもよい。この場合に用いるオートエンコーダは、画像処理装置10が発する様々な正常な音のサンプルのスペクトログラムを用いて学習したものである。すなわち、そのオートエンコーダは、入力層に正常な音のスペクトログラム画像を入力したときに、出力層からその入力画像になるべく近い画像が出力されるように学習を行ったものである。したがって、学習済みのオートエンコーダは、正常な音のスペクトログラム画像が入力として与えられた場合には、その入力によく似た画像を出力する。一方、入力として正常でない音のスペクトログラム画像が与えられた場合、その学習済みのオートエンコーダは、その入力とはかなり異なった画像を出力する。
【0045】
S12の判定では、S10での得られたスペクトログラムの画像を学習済みのオートエンコーダに入力し、これに応じてオートエンコーダが出力した画像とその入力画像との画素毎の差分をとる。そして、それら画素毎の差分の総和が所定の閾値以下であれば、出力画像は入力画像と似ているので、その入力画像は正常な音のスペクトログラム画像であると判定される。これに対して、画素毎の差分の総和がその閾値を超える場合には、出力画像は入力画像と似ていないので、入力画像は正常な音を表すものではない、すなわち異音を含んだ音を表している、と判定される。
【0046】
この例で用いるオートエンコーダは、ソフトウエアとして実装してもよいし、例えばAI(人工知能)用のプロセッサ等のハードウエア回路を用いて実装してもよい。
【0047】
なお、オートエンコーダを用いるのは一つの例に過ぎない。S12の判定には、オートエンコーダ以外の別の手法を用いてもよい。
【0048】
次にプロセッサ28は、S12の判定の結果が「異音あり」であるか否かを判定する(S14)。この判定の結果がNoの場合、S10で取得した音データは画像処理装置10の正常時の音を示しているので、プロセッサ28は、サーバ12に異音報告データを送ることなく、その音データに関する処理を終える。
【0049】
S14の判定の結果がYesの場合、S10で得たスペクトログラムを用いて異音報告データを生成し(S16)、その異音報告データをサーバ12に送信する(S18)。
【0050】
S16で生成される異音報告データは、S10で取得した音データが含んでいる異音の特徴を表すデータを含む。また、その異音報告データは、その音データのサンプリング期間と同じ期間の画像処理装置10の動作情報のように、異音の原因の解析に利用可能な情報を更に含んでいてもよい。
【0051】
異音の特徴を表すデータとして、S10で取得した音データそのもの、又はS10での変換で得られたスペクトログラムをサーバ12に送ることも考えられる。しかし、これらのデータからは人間が聞き取れる音を再現可能であり、画像処理装置10の近くにいる人の声など、画像処理装置10のユーザ側の秘密に触れる情報がサーバ12に伝わることになる。このような事態は、サーバ12の運営者が画像処理装置10のユーザ側を盗聴していると捉えられるおそれもある。
【0052】
そのようなリスクを避けるために、本実施形態では、異音の特徴を表すデータとして、人の声が再現できないように加工したデータを用いる。
【0053】
本実施形態では、異音の特徴を表すデータの一つとして、画像処理装置10が発する音の強度の時間的な変化を表す時系列データをサーバ12に送るが、このデータは、人の声が認識できない程度の粗い分解能に加工する。一般に、人の声の下限周波数は120Hz程度である。例えば、そのデータを200Hz以下の分解能(すなわち時間分解能だと5ミリ秒以上)のものとすれば、聞き取り可能な人の声をそのデータから再現することは非常に困難となる。このように、画像処理装置10が発する音の強度の時系列データを、人の声が認識できない程度の分解能に加工したものを、時間軸解析データと呼ぶこととする。
【0054】
S16で生成する異音報告データに含める時間軸解析データを生成する手順の例を図4に示す。
【0055】
この手順では、プロセッサ28は、S10の変換で得られたスペクトログラムから、画像処理装置10の音の強度の時系列データを生成する(S20)。スペクトログラムが正常な音を表す場合には異音報告データは生成されないので、このS20が実行されるのは、図3の手順のS14でそのスペクトログラムが異音ありと判定された場合である。すなわち、S20で生成される時系列データは、異音ありと判定されたスペクトログラムから生成される。
【0056】
S20でプロセッサ28は、そのスペクトログラムの画像の各点の値を、時刻ごとに周波数方向に合計する。時刻ごとの合計は、その時刻における音の強度を表す。
【0057】
図5にスペクトログラムの画像100の例を示す。この画像の横軸は時間、縦軸は周波数を示す。画像の各点の濃度が、その点に対応する時刻における、その点に対応する周波数成分の強度を表す。黒の濃度が高い点ほど、強度が大きい。S20では、画像100の各時刻において、その時刻における各周波数の点の濃度を、周波数方向、すなわち図中の矢印A1の方向に沿って合計することにより、その時刻の音の強度を求める。したがって、生成される時系列データの時間分解能は、スペクトログラムの時間分解能と同じである。
【0058】
S10で求められるスペクトログラムの時間分解能は、音センサ18のサンプリング間隔よりも大きいので、S20で求められる時系列データの時間分解能は、音センサ18が出力する音データの時間分解能よりも粗い。
【0059】
S20で生成された音強度の時系列データの例を図6に示す。図6の例は、音の時系列データを、横軸が時間、縦軸が音の強度(これは同じ時刻における各周波数の値の合計)の棒グラフで表現したものである。図では、説明の便宜上、横軸の時間を所定長さの区間ごとに区切っている。この区間の長さTは、人の声が認識できない程度の時間分解能に応じて決まる長さである。その時間分解能を例えば200Hz以下とした場合、区間の長さTは5ミリ秒以上の所定の値である。例示した時系列データは、長さTの区間ごとに、4つの強度データを含む。例えば、図示した範囲で最も時間的に早い(すなわち図では最も左側)の区間には、L1、L2、L3、L4の4つの強度データがこの順に並んでいる。
【0060】
次にプロセッサ28は、その時系列データの時間分解能を低下させることにより、サーバ12に送る時間軸解析データを生成する(S22)。S22では、プロセッサ28は、時系列データの長さTの区間ごとに、その区間内の強度データのうちの最大値のデータを抽出し、残りのデータを破棄することにより、時間軸解析データを生成する。
【0061】
図6の例で言えば、S22では、プロセッサ28は、区間ごとに、その区間内の4つのデータのうちの最大値(図では、同じ区間内の他の3つよりも濃度が薄い棒グラフで表す)のみを抽出する。時間的に最も早い区間では、L1、L2、L3、L4の4つの強度データのうちの最大値L4が抽出される。
【0062】
このように生成された時間軸解析データは、長さTの区間ごとに1つのデータを有するものとなる。この長さTは人の声が認識できない程度の時間分解能に対応する時間幅以上であるため、時間軸解析データから人の声を認識することは不可能又は極めて困難となる。
【0063】
また、時間軸解析データは、長さTの区間ごとにその区間内での最大値の情報を含むので、元の時系列データが含んでいた異音の情報のうちの多くの部分を保存したものとなる。区間内の最大値は、その区間で異音が発生している場合、その異音の情報を含んでいる可能性が高い。逆に、例えば、時系列データを長さTの区間ごとに平均化したり、ローパスフィルタを用いたりする方法では、強いが短い異音の情報が欠落したり弱まったりする可能性がある。これに対して、この実施形態の、区間ごとに最大値を残す方法では、そのような欠落等は生じにくい。
【0064】
時間軸解析データは、例えば、後述する動作情報と組み合わせることにより、不規則に発生する異音や、単発的に発生する異音の原因の解析に使用可能である。
【0065】
プロセッサ28は、S22で生成した時間軸解析データを、サーバ12に送信する異音報告データに含める(S24)。
【0066】
次に、プロセッサ28がサーバ12に送る異音の情報の別の例を説明する。この例でプロセッサ28がサーバ12に送るのは、周期性異音解析データである。
【0067】
上述した時間軸解析データは、不規則な異音や単発的な異音の解析には利用可能である。しかし、このデータでは、周期性の異音(例えばそのうち特に低強度のもの)の検出は困難である。そこで、プロセッサ28は、周期性の異音の情報を含んだ周期性異音解析データをスペクトログラムから生成する。
【0068】
このためにプロセッサ28は、図7に示すように、図2の手順のS10で生成したスペクトログラムに対して、周波数帯域ごとに、時間軸方向に周波数解析を実行する(S30)。図5に例示したスペクトログラムの画像100を参照すると、S30の解析では、矢印A2に示す方向に沿って、スペクトログラムの画像100に対して周波数解析を行う。S30では、例えば、周波数帯域ごとに、スペクトログラムにおけるその帯域内の各点の値を時間軸方向に合計し、この結果得られる時刻ごとの合計値の時間的な変化を示すデータに対して時間軸方向に周波数解析を行う。
【0069】
S30で行う解析のことを、繰り返し発生周波数解析と呼ぶことにする。繰り返し発生周波数解析の結果は、周波数軸と強度軸の2つの軸からなる二次元空間上のグラフとなる。
【0070】
スペクトログラムの画像100に周期的な異音波形が現れている場合、繰り返し発生周波数解析の結果には、その異音波形の繰り返し発生周波数の位置にピークが現れる。このピークの情報、すなわち繰り返し発生周波数と強度の情報は、周期的な異音を発する不具合の検出に利用可能である。
【0071】
プロセッサ28は、スペクトログラムの周波数帯域ごとに、その周波数帯域についての繰り返し発生周波数解析の結果に対して、次のS32及びS34の処理を行う。
【0072】
すなわち、プロセッサ28は、その繰り返し発生周波数解析の結果に現れる各ピークにつき、周波数軸上の位置(すなわち繰り替えし周波数の値)と強度軸上での位置(すなわち強度の値)とを求める(S32)。そしてプロセッサ28は、求めた各ピークの情報(すなわち繰り返し発生周波数と強度)のうち顕著なものを抽出し、これら顕著なピークの情報を表す周期性異音解析データを生成する(S34)。S34では、例えば、当該周波数帯域についての繰り返し発生周波数解析の結果に現れるピークのうち、強度が高い順に所定数個のピークの情報を抽出する。ただし、これは一例に過ぎない。この代わりに、例えば、あらかじめ定めた閾値以上の強度を持つピークをすべて、顕著なピークとして抽出してもよい。このとき用いる閾値は、周波数帯域ごとに定めてもよい。これらは、顕著なピークが満たすべき所定条件の例である。
【0073】
図8に、S34で生成される周期性異音解析データの例を示す。図8の例では、周期性異音解析データは、スペクトログラムの周波数帯域ごとに、その帯域に対する繰り返し派生周波数解析(S30)の結果に表れる強度が上位3位以内の3つのピークについて、そのピークが表す繰り返し発生周波数と強度の値を含んでいる。
【0074】
プロセッサ28は、生成した周期性異音解析データを、サーバ12に送信する異音報告データに含める(S36)。これにより、周期性異音解析データは、上述した時間軸解析データ等の他のデータと共に、図3の手順のS18でサーバ12に送信される。
【0075】
図7の手順では、スペクトログラムの周波数帯ごとに、時間軸方向に繰り返し発生周波数解析を行うので、元の音データのどの周波数帯で周期性の異音が発生しているのかを示す情報が求められる。そして、周波数帯ごとの周期性の異音の情報、すなわち上述した繰り返し発生周波数解析の結果におけるピークの情報が、サーバ12に提供されることとなる。
【0076】
次に、プロセッサ28がサーバ12に送る異音の情報の更に別の例を説明する。この例でプロセッサ28がサーバ12に送るのは、周波数解析データである。
【0077】
この例では、プロセッサ28は、例えば、図9に示す手順を実行する。この手順では、プロセッサ28は、図3の手順のS10で求められたスペクトログラムに対して、そのスペクトログラムの各点の値を周波数ごとに時間軸方向(図5では矢印A2の方向)に合計することにより、周波数解析データを生成する(S40)。スペクトログラムの値の周波数ごとの合計値は、その周波数の音の強度を表す。すなわち、S40で生成される周波数解析データは、音センサ18が出力した音データに対して周波数解析を行った結果と実質的に同じ情報を表す。ただし、S40の周波数解析データは、スペクトログラムから生成されるので、周波数軸方向の分解能がスペクトログラムと等しい。
【0078】
S40で生成される周波数解析データは、画像処理装置10が発する音のどの周波数成分が顕著であるかを示すものなので、例えば、連続的な異音の原因解析に利用することができる。
【0079】
プロセッサ28は、生成した周波数解析データを異音報告データに含める(S42)。これにより、周波数解析データは、上述した時間軸解析データ等の他のデータと共に、図3の手順のS18でサーバ12に送信される。
【0080】
プロセッサ28は、上に例示した各種の解析データに加えて、画像処理装置10の動作情報をサーバ12に送ってもよい。
【0081】
動作情報は、各時点における画像処理装置10の各部の動作状態を示す情報である。図10に、プロセッサ28が記録する動作情報の例を示す。
【0082】
図10に示す表形式の動作情報の横軸は時間を表す。この動作情報の各行は、画像処理装置10を構成する各部品を表す。動作情報の横軸は、所定のサンプリング時刻ごとに区切られている。すなわち、動作情報の各列は、個々のサンプリング時刻を表す。行と列が交わる位置のセルには、その行に対応する部品が、その列に対応するサンプリング時刻において動作していたか否かを示す値が記録される。図示例では、動作していた場合には値「1」が、動作していなかった場合には値「0」が記録される。
【0083】
プロセッサ28は、画像処理装置10を制御している間、例えば所定時間ごとの各サンプリング時刻にて各部品の動作の有無を判定し、その判定結果を動作情報に記録する。ここでの動作の有無の判定は、例えば、各部品に対してプロセッサ28が発する動作命令や、各部品の動作有無を検知するセンサの信号に基づき、公知の方法により行われる。動作情報は、メモリ26内、又は図2では省略した不揮発性記憶装置内に保持される。
【0084】
図10では、動作情報を表形式で表現したが、動作情報の形式はこれに限定されない。同等の内容の情報を表現可能であればどのような形式でもよい。
【0085】
図3の手順のS16で異音報告データを生成する際、プロセッサ28は、図11に示す手順を実行する。すなわち、プロセッサ28は、S14で異音有りと判定したスペクトログラムのもとになった音声データの検出を期間と同じ期間の動作情報をメモリ又は不揮発性記憶装置内から取得する(S50)。そして、取得した動作情報を異音報告データに含める(S52)。これにより、動作情報は、上述した時間軸解析データ等の解析データと共に、図3の手順のS18でサーバ12に送信される。
【0086】
なお、プロセッサ28がサーバ12に送信する異音報告データには、上述した時間軸解析データ、周期性異音解析データ、周波数解析データ、動作情報のすべてが含まれる必要はない。プロセッサ28は、それらのうち解析目的に必要な1以上を含む異音報告データを生成すればよい。また異音報告データには、上に例示したデータ以外の他のデータが含まれてもよい。
【0087】
画像処理装置10から異音報告データを受け取ったサーバ12は、その異音報告データが表す異音についての原因等の解析を行う。
【0088】
例えば、サーバ12は、異音報告データに含まれる時間軸解析データと動作情報とを突き合わせることにより、異音の原因である部品を特定する。この特定の処理では、サーバ12は、例えば、時間軸解析データの区間ごとに、その区間において動作している部品を動作情報から特定する。そして、時間軸解析データにおけるその区間の音の強度が、特定した部品が正常動作時に発する音の強度よりも顕著に高い(例えば所定量以上高い)場合に、その部品が異音の原因になっている可能性があると判定する。なお、画像処理装置10の音の強度の時系列データを動作情報と突き合わせて異音原因を推定することは、従来も行われているので、この例でもその従来の手法を用いてもよい。
【0089】
またサーバ12は、周期性異音解析データ(図8参照)から、公知の解析手法により、周期性の異音を発している部品を特定する。またサーバ12は、周波数解析データから、公知の解析手法により、連続性の異音を発している部品を特定する。
【0090】
以上、本発明の実施形態及び変形例を説明した。これら実施形態及び変形例はあくまで例示的なものにすぎず、本発明の範囲内で様々な変形や改良が可能である。
【0091】
以上に説明した実施形態における画像処理装置の情報処理機構は、例えば、汎用のコンピュータを用いて構成される。このコンピュータは、例えば、図12に例示するように、プロセッサ1002、ランダムアクセスメモリ(RAM)等のメモリ(主記憶装置)1004、フラッシュメモリやSSD(ソリッドステートドライブ)、HDD(ハードディスクドライブ)等の不揮発性記憶装置である補助記憶装置1006を制御するコントローラ、各種の入出力装置1008とのインターフェース、ローカルエリアネットワークなどのネットワークとの接続のための制御を行うネットワークインターフェース1010等が、例えばバス1012等のデータ伝送路を介して接続された回路構成を有する。上記実施形態の処理の内容が記述されたプログラムが、ネットワーク等を経由してそのコンピュータにインストールされ、補助記憶装置1006に記憶される。補助記憶装置1006に記憶されたプログラムが、プロセッサ1002によりメモリ1004を用いて実行されることにより、本実施形態の情報処理機構が構成される。
【0092】
上記各実施形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ(例えばCPU:Central Processing Unit、等)や、専用のプロセッサ(例えばGPU:Graphics Processing Unit、ASIC:Application Specific Integrated Circuit、FPGA:Field Programmable Gate Array、プログラマブル論理デバイス、等)を含むものである。
【0093】
また上記各実施形態におけるプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施形態において記載した順序のみに限定されるものではなく、適宜に変更してもよい。
【0094】
上記実施形態では、便宜上、単一のプロセッサ28が図示した各処理手順を実行するものとして説明したが、これは一例に過ぎない。この代わりに、複数のプロセッサ28が協働して図示した処理手順を実行してもよい。この場合、役割ごとにプロセッサ28が設けられていてもよい。例えば、音センサ18が出力した音データをスペクトログラムに変換するプロセッサ、スペクトログラムが異音を表しているかを判定するAIプロセッサ、スペクトログラムを加工して音強度の時系列データや周波数解析データを生成するプロセッサ等がその例である。
【0095】
(付記)
(((1)))
プロセッサを有し、
前記プロセッサは、
装置が発する音の強度の時間的な変化を示す第1データを取得し、
前記第1データから、人の声を認識できない時間分解能に対応する時間幅の区間ごとに当該区間内での最大値を抽出し、前記最大値以外を破棄することにより、第2データを生成し、
前記第2データを外部装置に送信する、
情報処理装置。
(((2)))
前記プロセッサは、
前記装置が発する音のスペクトログラムから、前記スペクトログラムが表す音が前記装置の正常時の音であるか否かを判定し、
前記スペクトログラムが表す音が前記正常時の音でないと判定した場合に、当該スペクトログラムから前記第1データを生成する、
(((1)))に記載の情報処理装置。
(((3)))
前記プロセッサは、更に、
前記スペクトログラムに対して時間軸方向に繰り返し発生周波数解析を実行し、
前記繰り返し発生周波数解析の結果から所定条件を満たす強度のピークを求め、求めたピークの繰り返し発生周波数及び強度を表す第3データを生成し、
前記第3データを前記第2データと対応付けて前記外部装置に送信する、
(((2)))に記載の情報処理装置。
(((4)))
前記プロセッサは、更に、
前記スペクトログラムから、そのスペクトログラムにおける各周波数の音の強度の分布を示す第4データを生成し、
前記第4データを前記第2データと対応付けて前記外部装置に送信する、
(((2)))又は(((3)))に記載の情報処理装置。
(((5)))
装置が発する音の強度の時間的な変化を示す第1データを取得し、
前記第1データから、人の声を認識できない時間分解能に対応する時間幅の区間ごとに当該区間内での最大値を抽出し、前記最大値以外を破棄することにより、第2データを生成し、
前記第2データを外部装置に送信する、
処理をコンピュータに実行させるためのプログラム。
【0096】
(((1)))又は(((5)))に係る発明によれば、外部装置に送信される音のデータから人の音声が認識されるのを防止しつつも、異音の解析に有用な情報を外部装置に送信することができる。
(((2)))に係る発明によれば、装置が発する音が正常時の音でないと判定された場合に第1データが生成され、その第1データから第2データが生成されて外部装置に送信される。
(((3)))に係る発明によれば、第2データから欠落しやすい低強度の周期性の異音(すなわち装置の正常時の音でない音)の情報を外部装置に提供することができる。
(((4)))に係る発明によれば、正常時の音でない音を表すと判定されたスペクトログラムから生成された、各周波数の音の強度の分布の情報を外部装置に提供することができる。
【符号の説明】
【0097】
10 画像処理装置、12 サーバ、18 音センサ、28 プロセッサ。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12