IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ SBドライブ株式会社の特許一覧

特許7624494情報処理装置、サイレン音判定方法、サイレン音判定プログラム
<>
  • 特許-情報処理装置、サイレン音判定方法、サイレン音判定プログラム 図1
  • 特許-情報処理装置、サイレン音判定方法、サイレン音判定プログラム 図2
  • 特許-情報処理装置、サイレン音判定方法、サイレン音判定プログラム 図3
  • 特許-情報処理装置、サイレン音判定方法、サイレン音判定プログラム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2025-01-22
(45)【発行日】2025-01-30
(54)【発明の名称】情報処理装置、サイレン音判定方法、サイレン音判定プログラム
(51)【国際特許分類】
   G10L 25/51 20130101AFI20250123BHJP
   G10L 21/12 20130101ALI20250123BHJP
   G10L 21/14 20130101ALI20250123BHJP
【FI】
G10L25/51
G10L21/12
G10L21/14
【請求項の数】 8
(21)【出願番号】P 2023182297
(22)【出願日】2023-10-24
【審査請求日】2023-11-06
(73)【特許権者】
【識別番号】517326475
【氏名又は名称】BOLDLY株式会社
(74)【代理人】
【識別番号】110002516
【氏名又は名称】弁理士法人白坂
(72)【発明者】
【氏名】芝端 成元
【審査官】大野 弘
(56)【参考文献】
【文献】特開2022-077758(JP,A)
【文献】特開2020-140050(JP,A)
【文献】特開2021-144221(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/14
G10L 25/51
G10L 21/12
(57)【特許請求の範囲】
【請求項1】
音を画像に変換した画像データと、前記音にサイレン音が含まれるか否かを示す情報がアノテーションされた教師データを学習した学習モデルを記憶する記憶部と、
音の入力を受け付ける受付部と、
前記音を、当該音の音量を明るさで表す画像に変換するものであって、所定時間長の前記音の各時間毎の音量から特定される前記音量の中央値に応じた明るさの画像に変換して画像データを生成する変換部と、
前記変換部により変換された画像データに対して前処理を実行する前処理部と、
前記前処理部による処理後の画像データと、前記学習モデルとに基づいて、前記受付部が受け付けた音にサイレン音が含まれるか否かを判定する判定部と、
前記判定部がサイレン音を含むと判定した場合に、アラートを報知する報知部と、
を備える情報処理装置。
【請求項2】
前記変換部は、前記音の音量の中央値が、予め定められた基準値となるように前記音を補正したうえで、画像に変換する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記変換部は、前記所定時間長の音をフーリエ変換して、時間軸上の周波数成分を示す画像データに変換する
ことを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記前処理部は、前記前処理として、前記画像データから所定の帯域の周波数をカットするノイズ除去を実行する
ことを特徴とする請求項3に記載の情報処理装置。
【請求項5】
前記前処理部は、前記前処理として、サイレン音の周波数以外の周波数を除去する
ことを特徴とする請求項4に記載の情報処理装置。
【請求項6】
前記学習モデルは、更にサイレン音の種別を学習した学習モデルであり、
前記判定部は、更に、サイレン音を含むと判定した場合に、当該サイレン音の種別を判定し、
前記報知部は、前記アラートとともにサイレン音の種別を示す情報を報知する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項7】
音を画像に変換した画像データと、前記音にサイレン音が含まれるか否かを示す情報がアノテーションされた教師データを学習した学習モデルを記憶する記憶部にアクセス可能なコンピュータが、
音の入力を受け付ける受付ステップと、
前記音を、当該音の音量を明るさで表す画像に変換するものであって、所定時間長の前記音の各時間毎の音量から特定される前記音量の中央値に応じた明るさの画像に変換して画像データを生成する変換ステップと、
前記変換ステップにより変換された画像データに対して前処理を実行する前処理ステップと、
前記前処理ステップによる処理後の画像データと、前記学習モデルとに基づいて、前記受付ステップが受け付けた音にサイレン音が含まれるか否かを判定する判定ステップと、
前記判定ステップがサイレン音を含むと判定した場合に、アラートを報知する報知ステップと、
を実行するサイレン音判定方法。
【請求項8】
音を画像に変換した画像データと、前記音にサイレン音が含まれるか否かを示す情報がアノテーションされた教師データを学習した学習モデルを記憶する記憶部にアクセス可能なコンピュータに、
音の入力を受け付ける受付機能と、
前記音を、当該音の音量を明るさで表す画像に変換するものであって、所定時間長の前記音の各時間毎の音量から特定される前記音量の中央値に応じた明るさの画像に変換して画像データを生成する変換機能と、
前記変換機能により変換された画像データに対して前処理を実行する前処理機能と、
前記前処理機能による処理後の画像データと、前記学習モデルとに基づいて、前記受付機能が受け付けた音にサイレン音が含まれるか否かを判定する判定機能と、
前記判定機能がサイレン音を含むと判定した場合に、アラートを報知する報知機能と、
を実現させるサイレン音判定プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音にサイレン音が含まれるか否かを判定する情報処理装置、サイレン音判定方法、及びサイレン音判定プログラムに関する。
【背景技術】
【0002】
緊急車両の通行時には、一般車両は、緊急車両の走行の妨げにならないように道路脇によけて一時停止することが日本の道路交通法において定められている。しかし、場合によっては、車両の運転手が緊急車両のサイレンの音を聞き漏らす可能性がある。そこで、特許文献1には、マイクで受音した音から緊急車両のサイレン音を識別し、サイレン音を検出した場合に、緊急車両の接近を知らせる表示を行う表示器を具備した緊急車両安全通行装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2001-67587号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、上記特許文献1に記載の技術では、マイクで受音した音からサイレン音を識別する構成上、サイレン音と似たような音が鳴っていた場合には、サイレン音と誤認する可能性があるという問題がある。
【0005】
そこで、本発明は上記問題に鑑みて成されたものであり、集音した音からサイレン音を検出する他の手法を提供することができる情報処理装置、サイレン音判定方法、サイレン音判定プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の一実施形態に係る情報処理装置は、音を画像に変換した画像データと、音にサイレン音が含まれるか否かを示す情報がアノテーションされた教師データを学習した学習モデルを記憶する記憶部と、音の入力を受け付ける受付部と、音を、当該音の音量を明るさで表す画像に変換するものであって、音量の中央値に応じた明るさの画像に変換して画像データを生成する変換部と、変換部により変換された画像データに対して前処理を実行する前処理部と、前処理部による処理後の画像データと、学習モデルとに基づいて、受付部が受け付けた音にサイレン音が含まれるか否かを判定する判定部と、判定部がサイレン音を含むと判定した場合に、アラートを報知する報知部と、を備える。
【0007】
本発明の一実施形態に係る情報処理装置において、変換部は、音の音量の中央値が、予め定められた基準値となるように音を補正したうえで、画像に変換することとしてもよい。
【0008】
本発明の一実施形態に係る情報処理装置において、変換部は、所定時間長の音をフーリエ変換して、時間軸上の周波数成分を示す画像データに変換することとしてもよい。
【0009】
本発明の一実施形態に係る情報処理装置において、前処理部は、前処理として、画像データから所定の帯域の周波数をカットするノイズ除去を実行することとしてもよい。
【0010】
本発明の一実施形態に係る情報処理装置において、前処理部は、前処理として、前処理部は、前処理として、サイレン音の周波数以外の周波数を除去することとしてもよい。
【0011】
本発明の一実施形態に係る情報処理装置において、学習モデルは、更にサイレン音の種別を学習した学習モデルであり、判定部は、更に、サイレン音を含むと判定した場合に、当該サイレン音の種別を判定し、報知部は、アラートとともにサイレン音の種別を示す情報を報知することとしてもよい。
【0012】
本発明の一実施形態に係る情報処理装置によるサイレン音判定方法は、音を画像に変換した画像データと、音にサイレン音が含まれるか否かを示す情報がアノテーションされた教師データを学習した学習モデルを記憶する記憶部にアクセス可能なコンピュータが、音の入力を受け付ける受付ステップと、音を画像に変換して画像データを生成する変換ステップと、変換ステップにより変換された画像データに対して前処理を実行する前処理ステップと、前処理ステップによる処理後の画像データと、学習モデルとに基づいて、受付ステップが受け付けた音にサイレン音が含まれるか否かを判定する判定ステップと、判定ステップがサイレン音を含むと判定した場合に、アラートを報知する報知ステップと、を実行する。
【0013】
本発明の一実施形態に係る情報処理装置のサイレン音判定プログラムは、音を画像に変換した画像データと、音にサイレン音が含まれるか否かを示す情報がアノテーションされた教師データを学習した学習モデルを記憶する記憶部にアクセス可能なコンピュータに、音の入力を受け付ける受付機能と、音を画像に変換して画像データを生成する変換機能と、変換機能により変換された画像データに対して前処理を実行する前処理機能と、前処理機能による処理後の画像データと、学習モデルとに基づいて、受付機能が受け付けた音にサイレン音が含まれるか否かを判定する判定機能と、判定機能がサイレン音を含むと判定した場合に、アラートを報知する報知機能と、を実現させる。
【発明の効果】
【0014】
本発明の一実施形態によれば、集音した音にサイレン音が含まれているか否かを判定することができる。
【図面の簡単な説明】
【0015】
図1】本発明の一実施形態に係るサイレン音判定システムの概略図である。
図2】本発明の一実施形態に係る情報処理装置の構成例を示すブロック図である。
図3】本発明の一実施形態に係る情報処理装置の動作例であって学習モデルの生成方法を示すフローチャートである。
図4】本発明の一実施形態に係る情報処理装置の動作例であって音にサイレン音が含まれるかを判定する判定処理を示すフローチャートである。
【発明を実施するための形態】
【0016】
以降、図を用いて、本開示に係る発明(本発明ともいう)の一実施形態に係る情報処理装置について説明する。
【0017】
<概要>
図1は、本実施形態に係るサイレン音の有無を判定するシステムの概要を示す図である。
【0018】
図1に示す情報処理装置100は、収音した音にサイレンの音が含まれるか否かを判定し、判定結果を報知することができるコンピュータシステムである。図1に示すように、情報処理装置100は、車両10に搭載されたマイク11が収音した音データを取得する。マイク11は、車両10外部に設けられてもよいし、車両10内部に設けられてもよい。このとき、収音された音データには、緊急車両20(例えば、救急車。ただし、これに限定するものではない。)が発しているサイレン音が含まれている可能性がある。情報処理装置100は、取得した音データを画像に変換し、当該画像を用いて、音データにサイレン音が含まれるか否かを判定する。情報処理装置100は、サイレン音を含む音が画像に変換された画像データ31と、サイレン音を含まない音が画像に変換された画像データ30と、を学習した学習モデル141を利用して、音データにサイレン音が含まれるか否かを判定する。そして、情報処理装置100は、音データにサイレン音が含まれていると判定した場合に、その旨を車両10に報知する。当該報知を受けて、車両10は、緊急車両20の通過を妨げないよう、道路脇に避けることができる。車両10にあっては、窓を閉めて音楽をかけていたりした場合などには、車両10外部の緊急車両20のサイレン音を聞き逃す可能性があるが、本実施形態に係る情報処理装置100によれば、サイレン音を検知してその旨を示すアラートを報知することができる。なお、情報処理装置100は、車両10に搭載されていてもよいし、車両10外部にあって、ネットワークを介して、車両10と通信可能に接続された装置であってもよい。
【0019】
なお、車両10と情報処理装置100との間のネットワークは、無線ネットワークや有線ネットワークを含む。具体的には、例えば、ネットワークは、ワイヤレスLAN(wireless LAN:WLAN)や広域ネットワーク(wide area network:WAN)、LTE(long term evolution)、第4世代通信(4G)、第5世代通信(5G)、及び第6世代通信(6G)以降の移動体通信システム等であってよい。なお、ネットワークは、これらの例に限られず、例えば、公衆交換電話網(Public Switched Telephone Network:PSTN)やブルートゥース(Bluetooth(登録商標))、光回線、ADSL(Asymmetric Digital Subscriber LINE)回線、衛星通信網等であってもよい。さらに、ネットワークは、例えば、NB-IoT(Narrow Band IoT)、eMTC(enhanced Machine Type Communication)等のIoT向けの無線通信方式を含んでもよい。また、ネットワークは、路車間通信や車車間通信で用いられる通信方式を含んでよい。なお、ネットワークは、これらの組み合わせであってもよい。
【0020】
<構成>
図2は、情報処理装置100の構成例を示すブロック図である。図2に示すように、情報処理装置100は、通信部110と、入力部120と、制御部130と、記憶部140と、出力部150と、を備える。情報処理装置100は、プロセッサとメモリを備えるコンピュータであってよく、サーバ装置やPC、タブレット端末、ノートPC、スマートフォンなどによって実現されてよいが、これらに限定するものではない。
【0021】
通信部110は、他の装置と、有線又は無線の通信により情報を送受信する機能を有する。通信部110は、例えば、外部の装置(例えば、走行する車両)から、音データを受信し、制御部130に伝達することとしてよい。また、通信部110は、制御部130からの指示に従って、指定された宛て先に、指定された情報を送信することとしてもよい。通信部110は、一例として、サイレン音が含まれることを示す情報を送信することとしてもよい。
【0022】
入力部120は、情報処理装置100のユーザからの入力を受け付けて、制御部130に伝達する機能を有する。入力部120は、例えば、情報処理装置100に備えられたハードウェアキーや、タッチパネルやタッチキーなどのソフトキーなどにより実現することができる。なお、入力部120に対する入力は音声による入力であってもよく、この場合、入力部120は、マイクロフォンにより実現される。入力部120は、例えば、マイクであってよく、周囲の音を集音して、制御部130に伝達することとしてよい。集音した周囲の音には、サイレン音が含まれていてもよい。
【0023】
記憶部140は、情報処理装置100が動作する上で必要とする各種のプログラム及び各種のデータを記憶する記録媒体である。記憶部140は、例えば、HDD(Hard Disc Drive)、SSD(Solid State Drive)、フラッシュメモリ等により実現されるが、これらに限定するものではない。記憶部140は、例えば、情報処理装置100が通信部110を介してアクセス可能なクラウドストレージであってもよい。
【0024】
記憶部140は、学習モデル141を記憶していることとしてよい。
【0025】
学習モデル141は、音を画像に変換した画像データと、当該画像データのもととなった音にサイレン音が含まれるか否かを学習した学習モデルである。換言すれば、学習モデル141は、音を画像に変換した画像データと、サイレン音の有無と、の関係を学習したモデルである。学習モデル141は、音を画像に変換した画像データと、当該画像データの元となった音にサイレン音が含まれているか否かを示す情報がアノテーションされたデータを教師データとして、学習され、生成されたモデルであってよい。学習モデル141は、一例として、ニューラルネットワーク、サポートベクターマシン等を利用して、学習を行って生成されたモデルであってよいが、これらに限定するものではない。ここで音を画像に変換した画像データとは、音を時間軸方向に周波数成分で表現した画像であって、音の音量の大小を、画像の明るさで示した画像であってよい。音を変換した画像データは、音をフーリエ変換した画像データであってよい。このとき、画像データは、その元となる音の音量の中央値を基準として補正した音を画像に変換した画像データであることが好ましい。即ち、画像データは、音の音量の中央値を算出し、当該中央値が、予め定められた基準値となるように補正(音全体を、その音量の中央値が基準値と等しくなるようにシフト)され、補正後の音がフーリエ変換された画像データであってよい。
【0026】
学習モデル141は、情報処理装置100により作成されたものであってもよいし、情報処理装置100以外の装置が作成したものであってもよい。
【0027】
出力部150は、制御部130からの指示に従って、指示されたデータを出力する機能を有する。出力部150は、例えば、音にサイレン音が含まれていたことを示す情報を出力することとしてよい。出力部150による情報の出力は、情報処理装置100に付属する、あるいは、接続されたモニタ(表示装置)等に、文字や画像による出力を行うものであってもよいし、情報処理装置100に付属する、あるいは、接続されたスピーカから音声を出力するものであってもよいし、通信部110を介して外部の装置(例えば、車両10)に通信による情報の出力を行うものであってもよい。出力部150は、例えば、制御部130からの指示に従って、サイレン音を検知したことを示すアラートを出力する。
【0028】
制御部130は、情報処理装置100の各部を制御する機能を有するプロセッサである。制御部130は、記憶部140に記憶されているプログラムを実行することにより、情報処理装置100が果たすべき機能を実現する。制御部130は、受付部131と、変換部132と、前処理部133と、判定部134と、報知部135と、を実現する。また、制御部130は、学習部136として機能してもよい。
【0029】
受付部131は、サイレン音を含む蓋然性のある音を示す音データを受け付ける。受付部131は、例えば、通信部101を介して、情報処理装置100外部の装置(例えば、車両10)から、当該外部の装置が集音して得た音データを受け付けることとしてもよい。また、あるいは、受付部131は、マイクロフォンとしての入力部102を介して、音データを受け付けることとしてもよい。受付部131は、受け付けた音データを変換部132に伝達する。受付部131は、所定時間長の音データを受け付けることとしてもよいし、ストリーミングで逐次音データを受け付けることとしてもよい。
【0030】
変換部132は、受付部131が受け付けた音データを、画像データに変換する。変換部132は、一例として、所定時間長の音データを、フーリエ変換(高速フーリエ変換でもよい)にかけることで、画像データに変換する。即ち、変換部132は、音データを、横軸に時間軸、縦軸に周波数軸をとった画像データに変換する。また、変換部132は、音の音量を画像の明るさで表現した画像データに変換する。変換部132は音量が大きいほど明るく、音量が小さいほど暗い画像を生成することとしてよいが、これは逆であってもよい。ここで、画像の明るさとは、画像における輝度のことであってよい。したがって、変換部132は、音を、時間軸方向に各タイミングで音が存在する周波数にデータがプロットされるとともに、当該プロットの輝度が音量の大小によって決定された画像データに変換する。変換部132は、音を画像データに変換する前に、音の音量の中央値に応じて音を補正してから画像データに変換してもよい。即ち、変換部132は、伝達された所定時間長の音データについての各時間毎(例えば、0.1秒毎であってよいが、これに限定するものではない)の音量のなかから中央値を特定する。そして、変換部132は、その中央値が所定の基準値(音量)と同じになるように音データ全体の音量を補正してから画像データに変換する。即ち、変換部132は、中央値が所定の基準値となるようにシフトさせた音量だけ、音全体の音量を補正(シフト)させる。これによって、情報処理装置100は、生成される画像データの輝度値が全体として、一定範囲内におさまるようにすることができ、音を中央値に基づく補正をしない場合に比して、音にサイレン音が含まれるか否かをより正確に検出することができる。即ち、騒がしい場所で集音された音と、静かな場所で集音された音とでは、同じ音量基準で画像データに変換した場合に、その画像としての明るさ(輝度)に大きな差が出る可能性がある。そうすると、画像の輝度によって、サイレン音の有無が正確に判定できなくなる可能性があるところ、音の音量の中央値に基づいて、音を事前に補正してから画像に変換することで、騒がしい場所で集音された音であっても、静かな場所で集音された音であっても、サイレン音の有無を検出できる。なお、画像データは、縦軸が時間軸、横軸が周波数軸であってもよい。所定時間長は、一例として、1秒であってもよいし、5秒であってもよいし、0.5秒であってもよく、任意である。この所定時間長は、情報処理装置100によりサイレン音の検知を何に利用するかによって定められてよい。即ち、リアルタイム性が要求される場合には、所定時間長は短い方がよく、そうでない場合には、短くなくてもよいということになる。ただし、所定時間長は、音データにサイレン音が含まれるか否かを判定できるに足る長さを必要とするものとする。受付部131が受け付けた音データが、所定時間長よりも長い場合には、変換部132は、所定時間長になるように音データを時間軸方向で分割してから画像データに変換するようにしてもよい。変換部132が、音データを画像データに変換することにより、音の状態では、わかりにくいサイレン音の有無を画像として判定することができるようになる。
【0031】
前処理部133は、変換部132が音データを変換した画像データの前処理を行う。ここでいう前処理は、音データにサイレン音が含まれていたか否かを判定する前に画像データに対して行う処理のことであり、不要なデータを削除することであり、一般的に、ノイズ除去と呼ばれる処理のことであってよい。ノイズ除去を行うことにより、情報処理装置100は、より正確な判定ができるようになる。前処理部133は、例えば、所定の周波数帯を抽出できるように、第1閾値以上の周波数、及び、第2閾値以下の周波数を、画像データに変換する。ここで所定の周波数帯は、サイレン音の周波数帯のことであってよい。例えば、救急車であれば、そのサイレン音の周波数は、770Hz~960Hzとすることが法律で定められている。また、例えば、消防車であれば、そのサイレン音の周波数は、300~850Hzであることが定められている。したがって、前処理部133は、検出したいサイレン音の周波数に応じて画像データのフィルタリング処理を行うこととしてよい。具体的には、前処理部133は、例えば、サイレン音として救急車のサイレン音のみ検出できればよいのであれば、760Hz未満、970Hz以上をカットすることとしてよい。また、例えば、サイレン音として消防車と救急車の双方を検出するのであれば、前処理部133は、300Hz未満、960Hz以上をカットすることとしてよい。サイレン音の周波数に対して、どれだけの誤差を設けてカットするかは適宜であってよく、予めユーザによって設定されることとしてよい。これによって、例えば、サイレン音よりも高い周波数領域の雑音となる音に該当する部分を画像データからカットすることができるので、情報処理装置100は、より正確にサイレン音の有無を判定することができるようになる。これによって、例えば、サイレン音よりも低い周波数領域の雑音となる音に該当する部分を画像データからカットすることができるので、情報処理装置100は、より正確にサイレン音の有無を判定することができるようになる。前処理部133は、前処理を行った後の画像データを判定部134に伝達する。
【0032】
なお、前処理部133は、必要に応じて、周波数カット以外の処理を行ってもよい。
【0033】
判定部134は、前処理部133が前処理をした画像データにサイレン音が含まれているか否かを判定する。判定部134は、伝達された画像データと、学習モデル141と、を用いて、画像データにサイレン音が含まれているか否かを判定する。即ち、画像データのもととなった音の中にサイレン音が含まれているか否かを判定する。判定部134は、伝達された画像データを学習モデル141に入力し、画像データにサイレン音が含まれているか否かを判定することとしてよい。この判定は、サイレン音が含まれている可能性を示すパーセンテージを出力するものであってもよく、この場合に、そのパーセンテージが所定の値以上(例えば、70%以上)であれば、サイレン音が含まれていると判定するようにしてもよい。判定部134は、判定結果(サイレン音の有無)を報知部135に伝達する。判定部134は、上述のパーセンテージを判定結果として報知部135に伝達することとしてもよい。
【0034】
報知部135は、判定部134による判定結果を報知することとしてよい。即ち、判定部134が、画像データがサイレン音を含むと判定した場合に、その旨を示すアラートを報知することとしてもよい。報知部135は、一例として、出力部150に受付部131が受け付けた音にサイレン音が含まれていたことを示す情報を、文字あるいは画像によって情報処理装置100に接続されたモニタに出力(表示)させることとしてよい。あるいは、報知部135は、出力部150に、音声によって、サイレン音が含まれていたことを示す情報を、情報処理装置100に接続されたスピーカに音声出力させることとしてもよい。また、あるいは、報知部135は、サイレン音が含まれていたことを示す情報として、車両に対する停止指示を出力部150に出力させることとしてもよい。受付部131が受け付けた音データが車両10により集音された音であり、車両10が自動運転車両(運転支援車両(一部自動制御の車両)でもよい)である場合に、緊急車両が近づいていることが検知された場合に、車両10に対する停止指示を出力することで、自動運転車両を停止させ、緊急車両が通過しやすいように構成することができる。当該停止指示は、自動運転車両が走行している道路の道路わきに寄った上での停止を促すものであってもよい。停止指示は自動運転車両を直接制御可能なコマンドであってもよいし、自動運転車両が受け付けた停止指示を解釈して自動運転を行うものであってもよい。
【0035】
なお、画像データにサイレン音が含まれないと判定された場合には、報知部135は何も報知しないこととしてもよいし、サイレン音が含まれていなかったことを示す情報を報知することとしてもよい。
【0036】
学習部136は、学習モデル141を生成する。学習部136は、音データを画像に変換した画像データと、当該音データにサイレン音が含まれているか否かを示す情報をアノテーションした情報を教師データとして、学習し、学習モデル141を生成する。学習部136は、複数の教師データを学習することで、音データを画像に変換した画像データにサイレン音が含まれるか否かを推定できる学習モデル141を生成することができる。学習部136は、一例として、ニューラルネットワークやサポートベクターマシンを利用して学習を行うこととしてよいが、これらに限定するものではない。学習部136は、生成した学習モデル141を記憶部140に記憶することとしてよい。また、学習部136は、新たな教師データの入力を受け付けて再学習を行い、学習モデル141を更新する機能を有してもよい。
【0037】
以上が、情報処理装置100の構成の説明である。
【0038】
<動作>
ここから、情報処理装置100の動作について説明する。
【0039】
まず、図3を用いて、学習モデル141の生成についての動作を説明する。
【0040】
図3に示すように、制御部130の学習部136は、音を画像に変換した画像データと、音にサイレン音が含まれるか否かを示す情報がアノテーションされた教師データを受け付ける。この教師データは、通信部110を介して外部の装置から受信したデータであってもよいし、入力部120を介して情報処理装置100に接続された外部メモリ等から取得したデータであってもよいし、情報処理装置100が受音した音を変換部132により画像データに変換し、情報処理装置100のユーザがサイレン音が鳴っていたかに基づいてサイレン音が含まれるか否かを示す情報の入力を当該ユーザから受け付けて制御部130が生成した教師データであってもよい。当該教師データに含まれる音を画像に変換した画像データは、実際の音を時間軸方向に周波数成分に変換するとともに、音量の大小を明るさ(輝度)で表現した画像データであってよい。音にはサイレン音が含まれている場合もあれば、含まれていない場合もある。また、当該画像データは、音を、当該音の音量の中央値に基づいて補正した音を変換したものであってよく、音の音量の中央値を基準値と同じ値になるように音全体の音量をずらす補正を行ってから変換したものであってよい。
【0041】
学習部136は、教師データを複数受け付け、音が画像に変換された画像データと、サイレン音と、の関係を学習する。即ち、学習部136は、画像データにサイレン音が含まれるか否かを学習する。学習部136は、複数の教師データを学習し、学習モデル141を生成する。
【0042】
学習部136は、生成した学習モデル141を記憶部140に記憶し(ステップS303)、処理を終了する。
【0043】
次に、図4を用いて、音にサイレン音が含まれるか否かを判定する処理について、図4に示すフローチャートを用いて説明する。
【0044】
情報処理装置100の受付部131は、音の入力を受け付ける(ステップS401)。当該音には、サイレン音が含まれているかもしれないし、含まれていないかもしれない。受付部131は、通信部110を介して外部の装置から音データを受信することで音の入力を受け付けてもよいし、入力部120のマイクから音の入力を受け付けてもよい。受付部131は、受け付けた音を、変換部132に伝達する。
【0045】
変換部132は、受付部131から音データを伝達されると、音データの音量を単位時間毎(例えば、0.1秒毎)にサンプリングし、その中央値を特定する。変換部132は、特定した中央値を、予め定めた基準値となるように音の音量全体をずらす補正を行う。即ち、当該中央値が基準値と等しい値になるようにずらした音量の分だけ、音全体の音量をずらす補正を行う。その後に変換部132は、当該音データに対して、FFT(Fast Fourier Transfer)処理をかけることで、時間軸と周波数軸とからなる画像データに変換する(ステップS402)。変換部132は、音データを変換して得られた画像データを、前処理部133に伝達する。
【0046】
前処理部133は、画像データを伝達されると、画像データに対して、前処理を施す(ステップS403)。即ち、前処理部133は、所定の周波数帯域以外の周波数のデータをカットする。即ち、前処理部133は、伝達された画像データから不要なデータとなるノイズの除去を行う。不要なデータとは、サイレン音の周波数帯域以外の周波数の音のデータのことであってよい。前処理部133は、ノイズ除去後の画像データを、判定部134に伝達する。
【0047】
判定部134は、ノイズ除去後の画像データを受け取ると、当該画像データにサイレン音が含まれるか否かを判定する(ステップS404)。即ち、判定部134は、伝達された画像データを、学習モデル141に入力して、画像データにサイレン音が含まれるか否かを判定する。なお、画像データにサイレン音が含まれるか否かは、厳密には、画像データの元となった音データにサイレン音が含まれるか否かを意味する。
【0048】
判定部134が画像データがサイレン音を含むと判定した場合には(ステップS404のYES)、報知部135は、画像データにサイレン音が含まれることを報知し(ステップS405)、処理を終了する。当該報知は、情報処理装置100のモニタへの情報の表示、情報処理装置100のスピーカからの音声出力、通信部110を介した外部の装置への情報送信のうちの少なくともいずれかによって実現されてよい。
【0049】
一方で、判定部134が画像データにサイレン音が含まれないと判定した場合には(ステップS404のNO)、情報処理装置100は、処理を終了する。なお、このとき、報知部135は、音にサイレン音が含まれていなかったことを示す情報を報知することとしてもよい。
【0050】
以上が、情報処理装置100の動作である。
【0051】
<まとめ>
以上に説明したように、情報処理装置100は、音を画像に変換し、画像データとサイレン音との関係を学習した学習モデル141を用いて、音にサイレン音が含まれているか否かを判定することできる。音ではなく、画像に変換することで、従来とは異なったアプローチにより、サイレン音の有無を判定することができる。情報処理装置100は、音を、時間軸方向に音の存在を周波数成分で、音の大きさを画像の明るさ(画素輝度)で表現した画像データに変換することで、サイレン音の有無を判定する。このとき、情報処理装置100は、集音した音の音量の大小に応じて、音を画像データに変換する前に、音の中央値が基準値にあうように音を補正してから変換する。したがって、変換後の画像データの明るさを、一様に同じ程度にすることができるので、情報処理装置100は、集音された場所に依存せず(静かな場所、騒がしい場所に関わりなく)サイレン音の有無を正確に判定することができる。サイレン音の有無を判定することができることにより、例えば、情報処理装置100は、自動運転車両に対して、サイレン音が検知できた場合に、道路脇に車両を寄せて一時停止するよう指示することができる。
【0052】
<補足>
上記実施の形態に係る情報処理装置100は、上記実施の形態に限定されるものではなく、他の手法により実現されてもよいことは言うまでもない。以下、各種変形例について説明する。
【0053】
(1)上記実施の形態において、学習モデル141は、サイレン音を含む画像データと、サイレン音を含まない画像データと、を学習したモデルであるとしたが、このサイレン音は、各種の緊急車両を含むこととしてもよいし、一種の緊急車両のサイレン音のみを含むこととしてもよい。また、学習モデル141は、各緊急車両に応じた学習モデルが用意されてもよい。即ち、緊急車両の種類に応じた学習モデルが個別に用意されてもよい。
【0054】
また、学習モデル141が各種の緊急車両のサイレン音を含む画像データを学習したモデルである場合に、サイレン音がいずれの緊急車両のサイレン音なのかを推定できるモデルであってもよい。この場合、学習モデル141は、サイレン音を含む音を画像に変換した画像データと、当該サイレン音が何の緊急車両のサイレン音かを示す情報をアノテーションした情報を、教師データとして学習したモデルとなる。これにより、学習モデル141は、音を画像に変換した画像データを、当該学習モデル141に入力するとで、サイレン音が含まれている場合に、サイレン音が含まれていること、並びに、当該サイレン音がいずれの緊急車両のものかを示す情報を推定して出力することができる。したがって、情報処理装置100は、ユーザや車両等に対して、推定したサイレン音の種別に応じた対応を促すことができる。
【0055】
(2)上記実施の形態において、サイレン音を緊急車両のサイレン音としたが、これは、緊急車両のサイレン音に限定するものではない。サイレン音は緊急車両以外のサイレン音であってもよく、例えば、緊急地震速報の警報音などであってもよい。
【0056】
(3)上記実施の形態おいて、情報処理装置100は、一度サイレン音を検出した場合であって、同じサイレン音を検出すると報知を行わないように構成されてもよい。例えば、一度画像データからサイレン音を検出してから、所定時間内(例えば、30秒としてよいが、これに限定するものではない)に、別の画像データからサイレン音を検出した場合には、報知を行わないように構成されてもよい。また、あるいは、一度サイレン音を検出した場合であって、時間的に連続する画像データにおいてサイレン音を検出し続ける限りは、サイレン音を検出した画像データ以降の画像データに基づく報知を行わないように構成されてもよい。
また、情報処理装置100によってサイレン音を検知できた場合に、その旨を報知する報知処理は、情報処理装置100のユーザの許可を得て行うこととしてもよい。また、情報処理装置100がサイレン音を検知した場合であってその報知を行ったあとに、情報処理装置100は、ユーザからの入力に基づいて当該報知の停止指示を受け付けて、報知の停止指示を行ってもよい。即ち、連続する複数の画像データから連続してサイレン音を検知するような場合においてサイレン音があったことを連続して報知すると受信側にとって煩わしい可能性があるが、当該構成によりこれを抑制することができる。
なお、サイレン音の報知を停止した場合であって、サイレン音を画像データから検知できなくなってから所定時間(例えば、15秒としてよいが、これに限定するものではない)経過した後で画像データから新たにサイレン音を検知した場合には情報処理装置100は新たに報知を行うこととしてよい。
【0057】
(4)上記実施の形態において、情報処理装置100は、前処理部133によって前処理を行った後の画像データを用いて、サイレン音が含まれているか否かを判定することとしたが、判定部134は、前処理を行っていない画像データを用いて、サイレン音が含まれているか否かを判定するように構成されてもよい。
【0058】
(5)上記実施の形態において、サイレン音の検出は、車両10に搭載された情報処理装置100や、車両10外部の情報処理装置100により行われることを説明したが、これはその限りではない。サイレン音の検出は上記情報処理装置100と同等の機能を有するアプリケーションによって実現されてよく、例えば、車両10の運転手のスマートフォンによって当該アプリケーションが実行されることによって、実現されてもよい。
【0059】
(6)情報処理装置100の各機能部は、集積回路(IC(Integrated Circuit)チップ、LSI(Large Scale Integration))等に形成された論理回路(ハードウェア)や専用回路によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。また、各機能部は、1または複数の集積回路により実現されてよく、複数の機能部の機能を1つの集積回路により実現されることとしてもよい。さらに、上述した情報処理装置100は、複数の情報処理装置コンピュータで実現してもよいし、機能によっては、外部のプラットフォーム等をAPI(Application Programming Interface)等で呼び出して実現してもよい。
【0060】
情報処理装置100の各機能部をソフトウェアにより実現する場合、情報処理装置100は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラム及び各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。すなわち、本発明に係る情報処理装置100は、CPUがRAM上にロードされたプログラムを実行することにより、上述した各構成部として機能する。上記記録媒体としては、「一時的でない有形の媒体」、例えば、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、当該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
【0061】
なお、上記プログラムは、例えば、ActionScript、JavaScript(登録商標)、Python、Rubyなどのスクリプト言語、C言語、C++、C#、Objective-C、Swift、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装されてよい。さらに、特許請求の範囲における「部(section、module、unit)」との記載は、「手段」や「回路」に読み替えてもよい。例えば、通信部は、通信手段や通信回路に読み替えることができる。
【0062】
また、本開示のプログラムは、当該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して、情報処理装置100に提供されてもよい。
【0063】
(7)上述のように、本発明に関して、特定の実施形態に関して説明したが、本発明が開示された実施形態に限定されないことを述べる。また、特許請求の範囲は、それぞれ、組み合わせた構成を包含であって、特許請求の範囲の変更及び類似の構成を包含するものであってもよい。
【0064】
以上説明した本開示の各態様によれば、安全かつ快適な自動運転車両の運行が可能となることにより、持続可能な開発目標(SDGs)の目標11「住み続けられるまちづくりを」の達成に貢献できる。
【符号の説明】
【0065】
100 情報処理装置
110 通信部
120 入力部
130 制御部
131 受付部
132 変換部
133 前処理部
134 判定部
135 報知部
136 学習部
140 記憶部
150 出力部
【要約】
【課題】集音した音にサイレン音が含まれているか否かを判定することができる情報処理装置を提供することを目的とする。
【解決手段】情報処理装置は、音を画像に変換した画像データと、音にサイレン音が含まれるか否かを示す情報がアノテーションされた教師データを学習した学習モデルを記憶する記憶部と、音の入力を受け付ける受付部と、音を、当該音の音量を明るさで表す画像に変換するものであって、音量の中央値に応じた明るさの画像に変換して画像データを生成する変換部と、変換部により変換された画像データに対して前処理を実行する前処理部と、前処理部による処理後の画像データと、学習モデルとに基づいて、受付部が受け付けた音にサイレン音が含まれるか否かを判定する判定部と、判定部がサイレン音を含むと判定した場合に、アラートを報知する報知部と、を備える。
【選択図】 図2
図1
図2
図3
図4