IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特表2024-545405道路区間認識のためのマルチモード認知メカニズム
<>
  • 特表-道路区間認識のためのマルチモード認知メカニズム 図1
  • 特表-道路区間認識のためのマルチモード認知メカニズム 図2
  • 特表-道路区間認識のためのマルチモード認知メカニズム 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-06
(54)【発明の名称】道路区間認識のためのマルチモード認知メカニズム
(51)【国際特許分類】
   G10L 25/51 20130101AFI20241129BHJP
   G10L 25/30 20130101ALI20241129BHJP
【FI】
G10L25/51
G10L25/30
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024529431
(86)(22)【出願日】2022-11-25
(85)【翻訳文提出日】2024-05-16
(86)【国際出願番号】 IB2022061436
(87)【国際公開番号】W WO2023100049
(87)【国際公開日】2023-06-08
(31)【優先権主張番号】17/456,895
(32)【優先日】2021-11-30
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【弁理士】
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【弁理士】
【氏名又は名称】片岡 忠彦
(74)【復代理人】
【識別番号】110000420
【氏名又は名称】弁理士法人MIP
(72)【発明者】
【氏名】ジャオ、シートン
(72)【発明者】
【氏名】シュウ、ジンウェン
(72)【発明者】
【氏名】ユァン、ツォン、ファン
(72)【発明者】
【氏名】リー、ヤドン
(72)【発明者】
【氏名】ゾウ、ハイボ
(72)【発明者】
【氏名】シャー、スアンイン
(57)【要約】
マルチモード認知メカニズムを使用した道路区間認識のためのアプローチでは、プロセッサは、路上テストからオーディオ信号を受信する。プロセッサh、第1のモードで、オーディオ信号を処理して音響スペクトル密度分布図を生成し、それぞれの少なくとも1つの道路区間切替点を識別する。プロセッサは、第2のモードで、オーディオ信号のスペクトログラムを処理して、それぞれの少なくとも1つの道路区間切替点を識別する。プロセッサは、第3のモードで、機械学習モデルを使用して、オーディオ信号のフレーム毎の予想音を予測し、予想音と実際音との間の類似性を計算し、類似性が事前設定済みの類似性閾値より小さいときにそれぞれの少なくとも1つの道路切替点を識別する。プロセッサは、3つのモードの結果を組み合わせて、道路区間切替点の最終セットを取得する。
【特許請求の範囲】
【請求項1】
1つまたは複数のプロセッサによって、路上テストからオーディオ信号を受信することと、
前記1つまたは複数のプロセッサによって、第1のモードで、前記オーディオ信号を処理して音響スペクトル密度分布図を生成し、それぞれの少なくとも1つの道路区間切替点を識別することと、
前記1つまたは複数のプロセッサによって、第2のモードで、前記オーディオ信号の音波のスペクトログラムを処理して、前記それぞれの少なくとも1つの道路区間切替点を識別することと、
前記1つまたは複数のプロセッサによって、第3のモードで、機械学習モデルを使用して、前記オーディオ信号のフレーム毎の予想音を予測し、前記予想音と実際音との間の類似性を計算し、前記類似性が事前設定済みの類似性閾値より小さいときに前記それぞれの少なくとも1つの道路切替点を識別することと、
前記1つまたは複数のプロセッサによって、前記第1のモード、前記第2のモード、および前記第3のモードの結果を組み合わせて、道路区間切替点の最終セットを取得することと
を含む、コンピュータ実装方法。
【請求項2】
前記オーディオ信号を処理して前記音響スペクトル密度分布図を生成し、前記それぞれの少なくとも1つの道路区間切替点を識別することは、
前記1つまたは複数のプロセッサによって、背景音フィルタおよびローパス・フィルタで前記オーディオ信号を前処理して、前処理済みのオーディオ・シーケンスを生み出すこと、
前記1つまたは複数のプロセッサによって、前記前処理済みのオーディオ・シーケンスに対するスライド・ウィンドウ処理を使用して、スペクトル密度分布図を生成すること、ならびに
前記1つまたは複数のプロセッサによって、前記スペクトル密度分布図上の変遷における少なくとも1つの対応する極限点を識別すること
を含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記スペクトル密度分布図上の前記変遷における前記少なくとも1つの対応する極限点を識別することは、
前記1つまたは複数のプロセッサによって、前記スペクトル密度分布図の垂直軸上の前記スペクトル密度の変化傾向に基づいて、前記少なくとも1つの対応する極限点を見つけること、および
前記1つまたは複数のプロセッサによって、事前設定済みの閾値を使用して、前記スペクトル密度分布図上の外れ値の極限点を除外すること
を含む、請求項2に記載のコンピュータ実装方法。
【請求項4】
前記オーディオ信号の音波の前記スペクトログラムを処理して、前記それぞれの少なくとも1つの道路区間切替点を識別することが、
前記1つまたは複数のプロセッサによって、前記オーディオ信号の周波数を使用して、前記オーディオ信号のスペクトログラム画像を生成すること、
前記1つまたは複数のプロセッサによって、コントラスト強調、およびカラー画像からグレースケール画像への変換を使用して、前記オーディオ信号の前記スペクトログラム画像を前処理すること、
前記1つまたは複数のプロセッサによって、2値化を使用して前記前処理済みのスペクトログラム画像をフィルタ処理し、前記グレースケール画像を2値画像に変換すること、
前記1つまたは複数のプロセッサによって、減弱および拡大の演算用のカーネルを使用した前記前処理済みおよびフィルタ処理済みのスペクトログラム画像に関する画像形態処理を完了させて、完全処理済みのスペクトログラム画像を生成すること、ならびに
前記1つまたは複数のプロセッサによって、前記完全処理済みのスペクトログラム画像に最大接続ドメインがないかサーチすることによって、前記それぞれの少なくとも1つの道路区間切替点を識別すること
を含む、請求項1に記載のコンピュータ実装方法。
【請求項5】
前記機械学習モデルは、路上テストからの履歴オーディオ信号データで訓練され、
前記機械学習モデルは、長短期記憶(LSTM)モデルである、
請求項1に記載のコンピュータ実装方法。
【請求項6】
前記事前設定済みの類似性閾値は、前記機械学習モデルにおける履歴データの性能に基づく、請求項1に記載のコンピュータ実装方法。
【請求項7】
前記予想音が前記実際音に類似しているほど、前記予想音と前記実際音との間の前記類似性が小さくなる、請求項1に記載のコンピュータ実装方法。
【請求項8】
1つまたは複数のコンピュータ可読ストレージ媒体と、前記1つまたは複数のコンピュータ可読ストレージ媒体に一括して格納済みのプログラム命令とを含み、前記格納済みのプログラム命令は、
路上テストからオーディオ信号を受信するためのプログラム命令、
第1のモードで、前記オーディオ信号を処理して音響スペクトル密度分布図を生成し、それぞれの少なくとも1つの道路区間切替点を識別するためのプログラム命令、
第2のモードで、前記オーディオ信号の音波のスペクトログラムを処理して、前記それぞれの少なくとも1つの道路区間切替点を識別するためのプログラム命令、
第3のモードで、機械学習モデルを使用して、前記オーディオ信号のフレーム毎の予想音を予測し、前記予想音と実際音との間の類似性を計算し、前記類似性が事前設定済みの類似性閾値より小さいときに前記それぞれの少なくとも1つの道路切替点を識別するためのプログラム命令、ならびに
前記第1のモード、前記第2のモード、および前記第3のモードの結果を組み合わせて、道路区間切替点の最終セットを取得するためのプログラム命令
を含む、コンピュータ・プログラム製品。
【請求項9】
前記オーディオ信号を処理して前記音響スペクトル密度分布図を生成し、前記それぞれの少なくとも1つの道路区間切替点を識別するための前記プログラム命令は、
背景音フィルタおよびローパス・フィルタで前記オーディオ信号を前処理して、前処理済みのオーディオ・シーケンスを生み出すためのプログラム命令、
前記前処理済みのオーディオ・シーケンスに対するスライド・ウィンドウ処理を使用して、スペクトル密度分布図を生成するためのプログラム命令、および
前記スペクトル密度分布図上の変遷における少なくとも1つの対応する極限点を識別するためのプログラム命令
を含む、請求項8に記載のコンピュータ・プログラム製品。
【請求項10】
前記スペクトル密度分布図上の前記変遷における前記少なくとも1つの対応する極限点を識別するための前記プログラム命令は、
前記スペクトル密度分布図の垂直軸上の前記スペクトル密度の変化傾向に基づいて、前記少なくとも1つの対応する極限点を見つけるためのプログラム命令、および
事前設定済みの閾値を使用して、前記スペクトル密度分布図上の外れ値の極限点をフィルタ処理するためのプログラム命令
を含む、請求項9に記載のコンピュータ・プログラム製品。
【請求項11】
前記オーディオ信号の音波の前記スペクトログラムを処理して、前記それぞれの少なくとも1つの道路区間切替点を識別するための前記プログラム命令は、
前記オーディオ信号の周波数を使用して、前記オーディオ信号のスペクトログラム画像を生成するためのプログラム命令、
コントラスト強調、およびカラー画像からグレースケール画像への変換を使用して、前記オーディオ信号の前記スペクトログラム画像を前処理するためのプログラム命令、
2値化を使用して前記前処理済みのスペクトログラム画像をフィルタ処理し、前記グレースケール画像を2値画像に変換するためのプログラム命令、
減弱および拡大の演算用のカーネルを使用した前記前処理済みおよびフィルタ処理済みのスペクトログラム画像に関する画像形態処理を完了させて、完全処理済みのスペクトログラム画像を生成するためのプログラム命令、ならびに
前記完全処理済みのスペクトログラム画像に最大接続ドメインがないかサーチすることによって、前記それぞれの少なくとも1つの道路区間切替点を識別するためのプログラム命令
を含む、請求項8に記載のコンピュータ・プログラム製品。
【請求項12】
前記機械学習モデルは、路上テストからの履歴オーディオ信号データで訓練され、
前記機械学習モデルは、長短期記憶(LSTM)モデルである、
請求項8に記載のコンピュータ・プログラム製品。
【請求項13】
前記事前設定済みの類似性閾値は、前記機械学習モデルにおける履歴データの性能に基づく、請求項8に記載のコンピュータ・プログラム製品。
【請求項14】
前記予想音が前記実際音に類似しているほど、前記予想音と前記実際音との間の前記類似性が小さくなる、請求項8に記載のコンピュータ・プログラム製品。
【請求項15】
1つまたは複数のコンピュータ・プロセッサと、
1つまたは複数のコンピュータ可読ストレージ媒体と、
前記1つまたは複数のコンピュータ・プロセッサのうちの少なくとも1つによる実行のための、前記1つまたは複数のコンピュータ可読ストレージ媒体に一括して格納済みのプログラム命令とを含み、前記格納済みのプログラム命令は、
路上テストからオーディオ信号を受信するためのプログラム命令、
第1のモードで、前記オーディオ信号を処理して音響スペクトル密度分布図を生成し、それぞれの少なくとも1つの道路区間切替点を識別するためのプログラム命令、
第2のモードで、前記オーディオ信号の音波のスペクトログラムを処理して、前記それぞれの少なくとも1つの道路区間切替点を識別するためのプログラム命令、
第3のモードで、機械学習モデルを使用して、前記オーディオ信号のフレーム毎の予想音を予測し、前記予想音と実際音との間の類似性を計算し、前記類似性が事前設定済みの類似性閾値より小さいときに前記それぞれの少なくとも1つの道路切替点を識別するためのプログラム命令、ならびに
前記第1のモード、前記第2のモード、および前記第3のモードの結果を組み合わせて、道路区間切替点の最終セットを取得するためのプログラム命令
を含む、コンピュータ・システム。
【請求項16】
前記オーディオ信号を処理して前記音響スペクトル密度分布図を生成し、前記それぞれの少なくとも1つの道路区間切替点を識別するための前記プログラム命令は、
背景音フィルタおよびローパス・フィルタで前記オーディオ信号を前処理して、前処理済みのオーディオ・シーケンスを生み出すためのプログラム命令、
前記前処理済みのオーディオ・シーケンスに対するスライド・ウィンドウ処理を使用して、スペクトル密度分布図を生成するためのプログラム命令、ならびに
前記スペクトル密度分布図上の変遷における少なくとも1つの対応する極限点を識別するためのプログラム命令
を含む、請求項15に記載のコンピュータ・システム。
【請求項17】
前記スペクトル密度分布図上の前記変遷における前記少なくとも1つの対応する極限点を識別するための前記プログラム命令は、
前記スペクトル密度分布図の垂直軸上の前記スペクトル密度の変化傾向に基づいて、前記少なくとも1つの対応する極限点を見つけるためのプログラム命令、および
事前設定済みの閾値を使用して、前記スペクトル密度分布図上の外れ値の極限点をフィルタ処理するためのプログラム命令
を含む、請求項16に記載のコンピュータ・システム。
【請求項18】
前記オーディオ信号の音波の前記スペクトログラムを処理して、前記それぞれの少なくとも1つの道路区間切替点を識別するための前記プログラム命令は、
前記オーディオ信号の周波数を使用して、前記オーディオ信号のスペクトログラム画像を生成するためのプログラム命令、
コントラスト強調、およびカラー画像からグレースケール画像への変換を使用して、前記オーディオ信号の前記スペクトログラム画像を前処理するためのプログラム命令、
2値化を使用して前記前処理済みのスペクトログラム画像をフィルタ処理し、前記グレースケール画像を2値画像に変換するためのプログラム命令、
減弱および拡大の演算用のカーネルを使用した前記前処理済みおよびフィルタ処理済みのスペクトログラム画像に関する画像形態処理を完了させて、完全処理済みのスペクトログラム画像を生成するためのプログラム命令、ならびに
前記完全処理済みのスペクトログラム画像に最大接続ドメインがないかサーチすることによって、前記それぞれの少なくとも1つの道路区間切替点を識別するためのプログラム命令
を含む、請求項15に記載のコンピュータ・システム。
【請求項19】
前記機械学習モデルは、路上テストからの履歴オーディオ信号データで訓練され、
前記機械学習モデルは、長短期記憶(LSTM)モデルである、
請求項15に記載のコンピュータ・システム。
【請求項20】
前記事前設定済みの類似性閾値は、前記機械学習モデルにおける履歴データの性能に基づく、請求項15に記載のコンピュータ・システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般に、認知コンピューティングの分野に関し、より詳細には、道路区間認識のためのマルチモード認知メカニズムに関する。
【背景技術】
【0002】
車のメーカは、その車を全てのタイプの環境でテストする。多くのテストが、閉じた軌道で行われる可能性があるが、現実の世界の車のテストは、現実の世界の条件で行われる必要がある。閉じた軌道から得たデータを、公道での運転から集められた情報と組み合わせることによって、自動車メーカは、テストを使用して、彼らが望み、市場を満足させることになる車両を作り出す。生産中の車のテストは、性能および安心から信頼性および安全まであらゆるものをカバーする。車のテストの背後にある意図は、製造業者が、フル生産に移る前に、モデルの全ての欠陥および潜在的問題を解決できるようにすることである。
【0003】
路上テストを行う人にとっての通常の方法は、特殊な道路で運転し、車が発する何らかの音に耳を傾けて、車が故障しているか観察することである。現在のビジネスのデジタル化に伴い、一部の自動車メーカは、人間の主観による聞き取りを置き換えるために音声信号処理技術および機械学習方法を使用して、障害を識別し始めている。車両の路上テスト中の障害識別のために、現在の道路区間の識別、および異なるモデルの選択が必要である。したがって、路上テストが実施されている道路区間の自動識別の必要がある。一般に、道路区間を識別するための2つの方式がある。第1は、事前適用済みのルールに基づいて、音の大きさおよび周波数を感知することである。しかし、多くの道路形状があるとき、これに基づいて道路区間を正確に感知することが不可能になるおそれがあり、異常音が干渉を引き起こすおそれがある。第2は、ニューラル・ネットワーク・アーキテクチャを使用することであるが、運転テスト工程における変則的なノイズが原因で、この方法の正確度が限定される。
【発明の概要】
【0004】
本発明の実施形態の態様は、マルチモード認知メカニズムを使用した道路区間認識のための方法、コンピュータ・プログラム製品、およびコンピュータ・システムを開示する。プロセッサが、路上テストからオーディオ信号を受信する。プロセッサは、第1のモードで、オーディオ信号を処理して音響スペクトル密度分布図を生成し、それぞれの少なくとも1つの道路区間切替点を識別する。プロセッサは、第2のモードで、オーディオ信号のスペクトログラムを処理して、それぞれの少なくとも1つの道路区間切替点を識別する。プロセッサは、第3のモードで、機械学習モデルを使用して、オーディオ信号のフレーム毎の予想音を予測し、予想音と実際音との間の類似性を計算し、類似性が事前設定済みの類似性閾値より小さいときにそれぞれの少なくとも1つの道路切替点を識別する。プロセッサは、3つのモードの結果を組み合わせて、道路区間切替点の最終セットを取得する。
【0005】
本発明の実施形態の態様は、道路区間認識の3つの別個のモードの結果を組み合わせたマルチモード認知メカニズムを使用して、道路区間認識の正確度を改善する。
【0006】
本発明の実施形態の一部の態様では、オーディオ信号を処理して音響スペクトル密度分布図を生成し、それぞれの少なくとも1つの道路区間切替点を識別することは、背景音フィルタおよびローパス・フィルタでオーディオ信号を前処理して、前処理済みのオーディオ・シーケンスを生み出すこと、前処理済みのオーディオ・シーケンスに対するスライド・ウィンドウ処理を使用して、スペクトル密度分布図を生成すること、ならびにスペクトル密度分布図上の変遷における少なくとも1つの対応する極限点を識別することを含む。
【0007】
本発明の実施形態の一部の態様では、スペクトル密度分布図上の変遷における少なくとも1つの対応する極限点を識別することは、スペクトル密度分布図の垂直軸上のスペクトル密度の変化傾向に基づいて、少なくとも1つの対応する極限点を見つけること、および事前設定済みの閾値を使用して、スペクトル密度分布図上の外れ値の極限点を除外することを含む。
【0008】
本発明の実施形態の一部の態様では、オーディオ信号の音波のスペクトログラムを処理して、それぞれの少なくとも1つの道路区間切替点を識別することは、オーディオ信号の周波数を使用して、オーディオ信号のスペクトログラム画像を生成すること、コントラスト強調、およびカラー画像からグレースケール画像への変換を使用して、オーディオ信号のスペクトログラム画像を前処理すること、2値化を使用して前処理済みのスペクトログラム画像をフィルタ処理し、グレースケール画像を2値画像に変換すること、減弱および拡大の演算(corrosion and expansion operation)用のカーネルを使用した前処理済みおよびフィルタ処理済みのスペクトログラム画像に関する画像形態処理を完了させて、完全処理済みのスペクトログラム画像を生成すること、ならびに完全処理済みのスペクトログラム画像に最大接続ドメインがないかサーチすることによって、それぞれの少なくとも1つの道路区間切替点を識別することを含む。
【0009】
本発明の実施形態の一部の態様では、機械学習モデルが、路上テストからの履歴オーディオ信号データで訓練される。そして、機械学習モデルは、長短期記憶(LSTM:long short-term memory)モデルである。
【0010】
本発明の実施形態の一部の態様では、事前設定済みの類似性閾値は、機械学習モデルにおける履歴データの性能に基づく。
【0011】
本発明の実施形態の一部の態様では、予想音が実際音に類似しているほど、予想音と実際音との間の類似性が小さくなる。
【図面の簡単な説明】
【0012】
図1】本発明の実施形態による分散型データ処理環境を例示した機能ブロック図である。
図2】本発明の実施形態による、分散型データ処理環境のサーバ上で稼働する、マルチモード認知メカニズムを使用した道路区間認識のための、マルチモード道路認識プログラムの動作ステップを図示した流れ図である。
図3】本発明の実施形態による、マルチモード道路認識プログラムを稼働させるための、図1の分散型データ処理環境のサーバの構成要素のブロック図である。
【発明を実施するための形態】
【0013】
本発明の実施形態は、車両の路上テスト中の障害識別のために、現在の道路区間の識別、および異なるモデルの選択が必要であることを認識している。本発明の実施形態は、路上テストが実施されている道路区間を自動識別する方法の必要性を認識している。一般に、道路区間を識別するための2つの方式がある。第1は、事前適用済みのルールに基づいて、音の大きさおよび周波数を感知することである。しかし、多くの道路形状があるとき、これに基づいて道路区間を正確に感知することが不可能になるおそれがあり、異常音が干渉を引き起こすおそれがある。第2は、ニューラル・ネットワーク・アーキテクチャを使用することであるが、運転テスト工程における変則的なノイズが原因で、この方法の正確度が限定される。
【0014】
本発明の実施形態は、ノイズ認識に基づくマルチモード認知メカニズムを使用した道路区間の認識のためのシステムおよび方法を提供する。本発明の実施形態は、3つのモードを利用して道路区間を識別し、3つのモードからの結果を組み合わせて、道路区間切替点の最終セットを取得し、車の障害音の干渉を効果的に除去する。本発明の実施形態は、(1)音響波スペクトル密度を分析し、(2)音響波スペクトログラムの接続ドメインを見つけ、(3)時系列予測モデルを構築する。
【0015】
本発明の実施形態は、(1)1つのモードで、スペクトログラムの最大接続ドメインを見つけること、およびもう1つのモードで、予測モデルを使用することによって、車の不調音の干渉を取り除くこと、ならびに(2)マルチモード認知メカニズムを使用して、道路区間認識の正確度を改善することという、このシステムおよび方法の利点を認識している。
【0016】
本発明の実施形態の実装形態は様々な形式をしていてもよく、例示的な実装形態の詳細が、図を参照しながら後で論じられる。
【0017】
図1は、本発明の一実施形態による、全体で100と示された、分散型データ処理環境を例示した機能ブロック図である。本明細書で使用される際の用語「分散型」は、単一のコンピュータ・システムとして共に動作する複数の物理的に別個のデバイスを含むコンピュータ・システムを表す。図1は、一実装形態を例示しているにすぎず、異なる実施形態が実施され得る環境に関してどのような限定も示唆していない。特許請求の範囲に記載されたような本発明の範囲から逸脱することなく、図示された環境への多くの変更が当業者によって行われてもよい。
【0018】
分散型データ処理環境100は、ネットワーク105を介して相互接続された、サーバ110およびユーザ・コンピューティング・デバイス130を含む。ネットワーク105は、例えば、テレコミュニケーション・ネットワーク、ローカル・エリア・ネットワーク(LAN)、インターネットなどのワイド・エリア・ネットワーク(WAN)、または3つの組合せとすることが可能であり、有線、ワイヤレス、または光ファイバ接続を含むことができる。ネットワーク105は、音声、データ、および映像情報を含むマルチメディア信号を含む、データ、音声、もしくは映像信号、またはそれらの組合せを受信および伝送する能力がある、1つまたは複数の有線もしくはワイヤレスまたはその両方のネットワークを含むことができる。一般に、ネットワーク105は、サーバ110と、ユーザ・コンピューティング・デバイス130と、分散型データ処理環境100内の他のコンピューティング・デバイス(図示せず)との間の通信をサポートすることになる、接続およびプロトコルの任意の組合せとすることが可能である。
【0019】
サーバ110は、スタンドアロン・コンピューティング・デバイス、管理サーバ、ウェブ・サーバ、モバイル・コンピューティング・デバイス、または、データを受信、送信、および処理する能力がある他のいずれかの電子デバイスもしくはコンピューティング・システムとすることが可能である。他の実施形態では、サーバ110は、クラウド・コンピューティング環境などにおける、複数のコンピュータをサーバ・システムとして利用した、サーバ・コンピューティング・システムを表すことができる。別の実施形態では、サーバ110は、ラップトップ・コンピュータ、タブレット・コンピュータ、ネットブック・コンピュータ、パーソナル・コンピュータ(PC)、デスクトップ・コンピュータ、パーソナル・デジタル・アシスタント(PDA)、スマートフォン、または、ネットワーク105を介してユーザ・コンピューティング・デバイス130、および、分散型データ処理環境100内の他のコンピューティング・デバイス(図示せず)と通信する能力がある、任意のプログラム可能電子デバイスとすることが可能である。別の実施形態では、サーバ110は、分散型データ処理環境100内でアクセスされたとき、シームレスなリソースの単一のプールとして機能するクラスタ型コンピュータおよび構成要素(例えば、データベース・サーバ・コンピュータ、アプリケーション・サーバ・コンピュータ、等)を利用したコンピューティング・システムを表す。サーバ110は、マルチモード道路認識プログラム112およびデータベース114を含む。サーバ110は、図3に関してさらに詳細に図示および説明されるような、内部および外部のハードウェア構成要素を含んでもよい。
【0020】
マルチモード道路認識プログラム112は、マルチモード認知メカニズムを使用した道路区間認識のための方法として動作する。図2で説明される図示された実施形態では、マルチモード道路認識プログラム112は、3つのモードを使用して、道路区間の間の切替点を見つけることによって、道路区間を識別する。いくつかの実施形態では、マルチモード道路認識プログラム112は、3つのモードを同時に完了させる。他の実施形態では、マルチモード道路認識プログラム112は、3つのモードを一斉に完了させる。図示された実施形態では、マルチモード道路認識プログラム112は、スタンドアロン・プログラムである。別の実施形態では、マルチモード道路認識プログラム112は、例えば、自動車テスト・ソフトウェア・パッケージなど、別のソフトウェア製品に統合されてもよい。マルチモード道路認識プログラム112は、図2に関してさらに詳細に図示および説明される。
【0021】
第1のモードの場合、マルチモード道路認識プログラム112は、音響スペクトル密度分布図を使用して、道路区間切替点を見つける。一実施形態では、マルチモード道路認識プログラム112は、背景音フィルタおよびローパス・フィルタで、入来するオーディオ信号を前処理し、処理済みのオーディオ・シーケンスを出力する。一実施形態では、マルチモード道路認識プログラム112は、オーディオ・シーケンスに対するスライド・ウィンドウ処理を使用して、スペクトル密度分布図を生成する。例えば、マルチモード道路認識プログラム112は、長さ1のウィンドウを使用して、(1)ステップ長0.5秒(s)の時系列データ上でウィンドウをスライドさせ、オーディオ信号の1sセグメント毎にスペクトル密度を計算し、水平軸が時間であり垂直軸がスペクトル密度であるスペクトル密度の変化のグラフ(つまり、スペクトル密度分布図)を生成する。一実施形態では、マルチモード道路認識プログラム112は、スペクトル密度分布図上の変遷における少なくとも1つの対応する極限点(つまり、道路区間切替点)を見つける。マルチモード道路認識プログラム112は、図の垂直軸のスペクトル密度の変化傾向に基づいて、これらの極限点を見つける。いくつかの実施形態では、マルチモード道路認識プログラム112は、事前設定済みの閾値を使用して、低すぎる超低点(つまり、外れ値)を除外する。
【0022】
第2のモードの場合、マルチモード道路認識プログラム112は、画像処理技術を使用して、受信オーディオ信号の音波のスペクトログラムを処理し、道路区間切替点を見つける。一実施形態では、マルチモード道路認識プログラム112は、オーディオ信号の周波数を使用して、オーディオ信号のスペクトログラムを生成する。スペクトログラムは、周波数ドメインの特性、つまり、信号が経時的に変動するときの受信オーディオ信号の周波数(つまり、信号強度または「大きさ」)のスペクトルの視覚表現を示す。一実施形態では、マルチモード道路認識プログラム112は、例えば、コントラスト強調、もしくはカラー画像からグレースケール画像への変換、またはそれらの組合せを使用して、オーディオ信号のスペクトログラム(「スペクトログラム画像」とも呼ばれる)を前処理する。一実施形態では、マルチモード道路認識プログラム112は、2値化、つまり、グレースケール画像から2値画像への変換を使用して、(前処理済みの)スペクトログラム画像をフィルタ処理する。一部の実施形態では、マルチモード道路認識プログラム112は、例えば、大津法、ローカル・ミーン法、ローカル・ガウス法など、スペクトログラム画像に対する1つまたは複数のフィルタ処理方法を使用する。一実施形態では、マルチモード道路認識プログラム112は、減弱および拡大の演算用の任意の形状およびサイズのカーネルを使用して、(前処理済みおよびフィルタ処理済みの)スペクトログラム画像に関する画像形態処理を完了させる。一実施形態では、マルチモード道路認識プログラム112は、処理済みのスペクトログラム画像に最大接続ドメインがないかサーチすることによって、異なる道路区間のロケーション、および道路区間切替点のロケーションを見つける。マルチモード道路認識プログラム112は、接続ドメイン(白いドメイン)全てを見つけ、これらから、様々な道路区間であると考えられる最大接続ドメインを識別する。
【0023】
第3のモードの場合、マルチモード道路認識プログラム112は、機械学習モデルを使用して、受信オーディオ信号のフレーム毎に音を予測し、予測値と実際値との間の類似性を計算し、類似性は、道路区間切替点における事前設定済みの閾値より低い。一実施形態では、マルチモード道路認識プログラム112は、路上テストからの履歴オーディオ信号データで訓練された機械学習モデルを使用する。一実施形態では、マルチモード道路認識プログラム112は、長短期記憶(LSTM)を使用してスペクトル重心を学習し、LSTMは、履歴データで訓練された、本明細書で時系列予測モデルとして使用される、オープンソースの機械学習モデルである。一実施形態では、マルチモード道路認識プログラム112は、オーディオ信号のプレフレームに基づいて、LSTMによって、現在の入力オーディオ信号の次のフレーム(つまり、音のシーケンス内のサンプリング・ポイントまたは瞬間)を予測する。次の瞬間の実際音のパフォーマンスが予測と一致しておらず、類似性が特定の閾値より低いとき、機械学習モデルの識別可能な異常な状況が発生したことが考えられる。一実施形態では、マルチモード道路認識プログラム112は、機械学習モデルにおける履歴データの性能に基づく事前設定済みの損失閾値を受信する。一実施形態では、マルチモード道路認識プログラム112は、予測したフレームと検出した信号との間の損失を計算し、予測した次のフレームが実際のオーディオ性能に類似しているほど、損失が小さくなる。一実施形態では、マルチモード道路認識プログラム112は、損失が閾値を超過した道路区間の切替点を見つける。
【0024】
データベース114は、マルチモード道路認識プログラム112によって受信、使用、もしくは出力、またはそれらの組合せが行われるデータ用のリポジトリとして動作する。受信、使用、もしくは生成、またはそれらの組合せが行われるデータは、例えば、路上テスト中にデータを収集するセンサなどの、集音機器から受信されたオーディオ信号、および、マルチモード道路認識プログラム112によって受信、使用、もしくは出力、またはそれらの組合せが行われる他のいずれかのデータを含んでもよいがこれらに限定されない。データベース114には、ハードディスク・ドライブ、データベース・サーバ、またはフラッシュ・メモリなど、サーバ110によってアクセスおよび利用されることが可能なデータおよび構成ファイルを格納する能力がある、任意のタイプのストレージ・デバイスが提供されることが可能である。一実施形態では、データベース114は、データの格納もしくはアクセスまたはその両方を行うために、マルチモード道路認識プログラム112によってアクセスされる。図示の実施形態では、データベース114は、サーバ110に常駐している。別の実施形態では、データベース114は、別のコンピューティング・デバイス、サーバ、クラウド・サーバに常駐していてもよいし、または、マルチモード道路認識プログラム112がデータベース114にアクセスできることを条件に、分散型データ処理環境100内の他の場所(図示せず)にある複数のデバイスにわたって拡散してもよい。
【0025】
ユーザ・コンピューティング・デバイス130は、アプリケーション・ユーザ・インターフェースを通じてユーザがマルチモード道路認識プログラム112と対話可能な、ユーザに関連付けられたコンピューティング・デバイスとして動作する。図示された実施形態では、ユーザ・コンピューティング・デバイス130は、ユーザ・インターフェース132のインスタンスを含む。一実施形態では、ユーザ・コンピューティング・デバイス130は、ラップトップ・コンピュータ、タブレット・コンピュータ、スマートフォン、スマートウォッチ、eリーダ、スマートグラス、ウェアラブル・コンピュータ、または、ネットワーク105を介して、分散型データ処理環境100内の様々な構成要素およびデバイスと通信する能力がある、いずれかのプログラム可能電子デバイスとすることが可能である。一般に、ユーザ・コンピューティング・デバイス130は、機械可読プログラム命令を実行し、ネットワーク105などのネットワークを介して、分散型データ処理環境100内の他のコンピューティング・デバイス(図示せず)と通信する能力がある、1つもしくは複数のプログラム可能電子デバイス、またはプログラム可能電子デバイスの組合せを表す。
【0026】
ユーザ・インターフェース132は、サーバ110上のマルチモード道路認識プログラム112と、ユーザ・コンピューティング・デバイス130のユーザとの間のインターフェースを提供する。一実施形態では、ユーザ・インターフェース132は、モバイル・アプリケーション・ソフトウェアである。モバイル・アプリケーション・ソフトウェア、または「アプリ」は、スマートフォン、タブレット・コンピュータ、および他のモバイル・コンピューティング・デバイス上で稼働するようにデザインされたコンピュータ・プログラムである。一実施形態では、ユーザ・インターフェース132は、テキスト、文書、ウェブ・ブラウザ・ウインドウ、ユーザ・オプション、アプリケーション・インターフェース、および、動作のための命令を表示することができ、プログラムがユーザに提示する情報(グラフィック、テキスト、および音など)、ならびにプログラムを制御するためにユーザが採用する制御シーケンスを含むことができる、グラフィカル・ユーザ・インターフェース(GUI)またはウェブ・ユーザ・インターフェース(WUI)でもよい。ユーザ・インターフェース132は、ユーザ・コンピューティング・デバイス130のユーザが、マルチモード道路認識プログラム112の出力の閲覧もしくは管理またはその両方を行うことを可能にする。
【0027】
図2は、マルチモード認知メカニズムを使用した道路区間認識のための、マルチモード道路認識プログラム112の動作ステップを図示した流れ図200である。図2に図示されたプロセスは、マルチモード道路認識プログラム112の1つの可能な反復を例示していることを理解されたい。
【0028】
ステップ210では、マルチモード道路認識プログラム112は、音響スペクトル密度分布図を使用して、道路区間切替点を見つける。一実施形態では、マルチモード道路認識プログラム112は、受信オーディオ信号を使用して音響スペクトル密度分布図を生成し、道路区間切替点を見つける。一実施形態では、マルチモード道路認識プログラム112は、背景音フィルタおよびローパス・フィルタで、入来するオーディオ信号を前処理し、処理済みのオーディオ・シーケンスを出力する。一実施形態では、マルチモード道路認識プログラム112は、オーディオ・シーケンスに対するスライド・ウィンドウ処理を使用して、スペクトル密度分布図を生成する。例えば、マルチモード道路認識プログラム112は、長さ1のウィンドウを使用して、(1)ステップ長0.5秒(s)の時系列データ上でウィンドウをスライドさせ、オーディオ信号の1sセグメント毎にスペクトル密度を計算し、水平軸が時間であり垂直軸がスペクトル密度であるスペクトル密度の変化のグラフ(つまり、スペクトル密度分布図)を生成する。一実施形態では、マルチモード道路認識プログラム112は、スペクトル密度分布図上の変遷における少なくとも1つの対応する極限点(つまり、道路区間切替点)を見つける。マルチモード道路認識プログラム112は、図の垂直軸のスペクトル密度の変化傾向に基づいて、これらの極限点を見つける。いくつかの実施形態では、マルチモード道路認識プログラム112は、事前設定済みの閾値を使用して、低すぎる超低点(つまり、外れ値)を除外する。
【0029】
ステップ220では、マルチモード道路認識プログラム112は、画像処理技術を使用して、受信オーディオ信号の音波のスペクトログラムを処理し、道路区間切替点を見つける。一実施形態では、マルチモード道路認識プログラム112は、画像処理技術を使用して、受信オーディオ信号の音波のスペクトログラムを処理し、道路区間切替点を見つける。一実施形態では、マルチモード道路認識プログラム112は、オーディオ信号の周波数を使用して、オーディオ信号のスペクトログラムを生成する。スペクトログラムは、周波数ドメインの特性、つまり、信号が経時的に変動するときの受信オーディオ信号の周波数(つまり、信号強度または「大きさ」)のスペクトルの視覚表現を示す。一実施形態では、マルチモード道路認識プログラム112は、例えば、コントラスト強調、もしくはカラー画像からグレースケール画像への変換、またはそれらの組合せを使用して、オーディオ信号のスペクトログラム(「スペクトログラム画像」とも呼ばれる)を前処理する。一実施形態では、マルチモード道路認識プログラム112は、2値化、つまり、グレースケール画像から2値画像への変換を使用して、(前処理済みの)スペクトログラム画像をフィルタ処理する。一部の実施形態では、マルチモード道路認識プログラム112は、例えば、大津法、ローカル・ミーン法、ローカル・ガウス法など、スペクトログラム画像に対する1つまたは複数のフィルタ処理方法を使用する。一実施形態では、マルチモード道路認識プログラム112は、減弱および拡大の演算用の任意の形状およびサイズのカーネルを使用して、(前処理済みおよびフィルタ処理済みの)スペクトログラム画像に関する画像形態処理を完了させる。一実施形態では、マルチモード道路認識プログラム112は、処理済みのスペクトログラム画像に最大接続ドメインがないかサーチすることによって、異なる道路区間のロケーション、および道路区間切替点のロケーションを見つける。マルチモード道路認識プログラム112は、全ての接続ドメイン(白いドメイン)を見つけ、これらから、様々な道路区間であると考えられる最大接続ドメインを識別する。
【0030】
ステップ230では、マルチモード道路認識プログラム112は、機械学習モデルを使用して、受信オーディオ信号のフレーム毎に音を予測し、予測値と実際値との間の類似性を計算し、類似性は、道路区間切替点における事前設定済みの閾値より低い。一実施形態では、マルチモード道路認識プログラム112は、路上テストからの履歴オーディオ信号データで訓練された機械学習モデルを使用する。一実施形態では、マルチモード道路認識プログラム112は、長短期記憶(LSTM)を使用してスペクトル重心を学習し、LSTMは、履歴路上テスト・データで訓練された、本明細書で時系列予測モデルとして使用される、オープンソースの機械学習モデルである。一実施形態では、マルチモード道路認識プログラム112は、オーディオ信号のプレフレームに基づいて、LSTMによって、受信オーディオ信号の次のフレーム(つまり、音のシーケンス内のサンプリング・ポイントまたは瞬間)を予測する。次の瞬間の実際音のパフォーマンスが予測と一致しておらず、類似性が特定の閾値より低いとき、機械学習モデルが識別および出力可能な異常な状況が発生したことが考えられる。一実施形態では、マルチモード道路認識プログラム112は、機械学習モデルにおける履歴データの性能に基づく事前設定済みの損失閾値を受信する。一実施形態では、マルチモード道路認識プログラム112は、予測したフレームと検出した信号との間の損失を計算し、予測した次のフレームが実際のオーディオ性能に類似しているほど、損失が小さくなる。一実施形態では、マルチモード道路認識プログラム112は、損失が閾値を超過した道路区間の切替点を見つける
【0031】
ステップ240では、マルチモード道路認識プログラム112は、3つのモードの結果を組み合わせて、切替点のセットを取得する。一実施形態では、結果を組み合わせた後、マルチモード道路認識プログラム112は、事前設定済みの時間間隔を使用して、最終切替点のセットを決定する。一実施形態では、例えば3秒(s)など、事前設定済みの時間間隔の間、時間間隔内で道路区間切替点が発生したことを識別した、3つのモード(つまり、ステップ210、220、もしくは230、またはそれらの組合せにおける道路区間を識別するモード)のうちの2つ以上(つまり、3つのうちの2つ)がある場合、マルチモード道路認識プログラム112は、時間間隔内で道路区間切替点が発生したと決定する。一実施形態では、マルチモード道路認識プログラム112は、事前設定済みの時間間隔内でモードのうちの2つ以上が道路区間切替点を識別したかどうかを決定する。事前設定済みの時間間隔内でモードのうちの2つ以上が道路区間切替点を識別した場合、マルチモード道路認識プログラム112は、事前設定済みの時間間隔内で道路区間切替点が発生したと決定する。事前設定済みの時間間隔内でモードのうちの1つが道路区間切替点を識別したか、モードのうちのどれも識別しなかった場合、マルチモード道路認識プログラム112は、事前設定済みの時間間隔内で道路区間切替点が発生しなかったと決定する。
【0032】
別の実施形態では、例えば3秒(s)など、事前設定済みの時間間隔の間、モード(つまり、ステップ210、220、もしくは230、またはそれらの組合せにおける道路区間を識別するモード)のうちの3つ全てが、時間間隔内で道路区間切替点が発生したことを識別した場合、マルチモード道路認識プログラム112は、時間間隔内で道路区間切替点が発生したと決定する。例えば、マルチモード道路認識プログラム112は、3つのモードの結果[5s,50s,55s,59s,64s,69s]、[4s,50s,56s,58s,64s,70s]、および[4s,50s,55s,58s,64s,69s]をそれぞれ組み合わせて、切替点のセットを取得する。事前設定済みの時間間隔3sを使用して、マルチモード道路認識プログラム112は、事前設定済みの時間間隔を使用して切替点の最終セットを決定する。0~3sの場合、マルチモード道路認識プログラム112は、切替点がないことを識別する。2~5sの場合、マルチモード道路認識プログラム112は、第1のモードから5s、第2のモードから4s、および第3のモードから4sを識別し、したがって、マルチモード道路認識プログラム112は、最終的な切替点として4sを識別する。48~51sの場合、マルチモード道路認識プログラム112は、第1のモードから50s、第2のモードから50s、および第3のモードから50sを識別し、したがって、マルチモード道路認識プログラム112は、最終的な切替点として50sを識別する。54~57sの場合、マルチモード道路認識プログラム112は、第1のモードから55s、第2のモードから56s、および第3のモードから55sを識別し、したがって、マルチモード道路認識プログラム112は、最終的な切替点として55sを識別する。56~59sの場合、マルチモード道路認識プログラム112は、第1のモードから59s、第2のモードから58s、および第3のモードから58sを識別し、したがって、マルチモード道路認識プログラム112は、最終的な切替点として58sを識別する。62~65sの場合、マルチモード道路認識プログラム112は、第1のモードから64s、第2のモードから64s、および第3のモードから64sを識別し、したがって、マルチモード道路認識プログラム112は、最終的な切替点として64sを識別する。68~71sの場合、マルチモード道路認識プログラム112は、第1のモードから69s、第2のモードから70s、および第3のモードから69sを識別し、したがって、マルチモード道路認識プログラム112は、最終的な切替点として69sを識別する。この例の場合、マルチモード道路認識プログラム112は、[4s,50s,55s,58s,64s,69s]として切替点の最終セットを識別する。この最終出力は、[[4s-50s],[55s-58s],[64s-69s]]と表現された時間間隔の形でも表現可能である。
【0033】
図3は、本発明の実施形態による、図1の分散型データ処理環境100内でサーバ110がマルチモード道路認識プログラム112を稼働させるのに適切な、コンピューティング・デバイス300の構成要素のブロック図を図示している。図3は、一実装形態の例証を提供しているにすぎず、異なる実施形態が実施されることが可能な環境に関するどのような限定も示唆していないことを理解されたい。図示された環境への多くの変更が行われることが可能である。
【0034】
コンピューティング・デバイス300は、通信ファブリック302を含み、通信ファブリック302は、キャッシュ316、メモリ306、永続ストレージ308、通信ユニット310、および入出力(I/O)インターフェース312の間の通信を提供する。通信ファブリック302には、プロセッサ(マイクロプロセッサ、通信およびネットワーク・プロセッサなど)、システム・メモリ、周辺デバイス、ならびに、システム内の他のいずれかのハードウェア構成要素の間で、データもしくは制御情報またはその両方を伝えるようにデザインされた任意のアーキテクチャが提供されることが可能である。例えば、通信ファブリック302には、1つまたは複数のバスまたはクロスバー・スイッチが提供されることが可能である。
【0035】
メモリ306および永続ストレージ308は、コンピュータ可読ストレージ媒体である。本実施形態では、メモリ306は、ランダム・アクセス・メモリ(RAM)を含む。一般に、メモリ306は、任意の適切な揮発性または不揮発性コンピュータ可読ストレージ媒体を含むことができる。キャッシュ316は、メモリ306からの、最近アクセスされたデータ、およびアクセスされたデータの近くのデータを保持することによって、コンピュータ・プロセッサ304の性能を強化する高速メモリである。
【0036】
プログラムは、それぞれのコンピュータ・プロセッサ304のうちの1つまたは複数によるキャッシュ316を介した実行もしくはアクセスまたはその両方のために、永続ストレージ308およびメモリ306に格納されてもよい。一実施形態では、永続ストレージ308は、磁気ハードディスク・ドライブを含む。代替として、または磁気のハードディスク・ドライブに加えて、永続ストレージ308は、ソリッド・ステート・ハード・ドライブ、半導体ストレージ・デバイス、リード・オンリ・メモリ(ROM)、消去可能プログラマブル・リード・オンリ・メモリ(EPROM)、フラッシュ・メモリ、または、プログラム命令もしくはデジタル情報を格納する能力がある他のいずれかのコンピュータ可読ストレージ媒体を含むことができる。
【0037】
また、永続ストレージ308によって使用される媒体は取外し可能でもよい。例えば、取外し可能ハード・ドライブが、永続ストレージ308のために使用されてもよい。他の例は、永続ストレージ308の一部でもある別のコンピュータ可読ストレージ媒体への移送のためにドライブに挿入される、光学および磁気ディスク、サム・ドライブ、ならびにスマート・カードを含む。
【0038】
通信ユニット310は、これらの例では、他のデータ処理システムまたはデバイスとの通信を行う。これらの例では、通信ユニット310は、1つまたは複数のネットワーク・インターフェース・カードを含む。通信ユニット310は、物理通信リンクおよびワイヤレス通信リンクのいずれかまたは両方を使用して通信してもよい。プログラムは、通信ユニット310を通じて永続ストレージ308にダウンロードされてもよい。
【0039】
I/Oインターフェース312は、サーバ110に接続され得る他のデバイスとのデータの入力および出力を可能にする。例えば、I/Oインターフェース312は、キーボード、キーパッド、タッチ・スクリーン、もしくは、他のいくつかの適切な入力デバイス、またはそれらの組合せなど、外部デバイス318への接続を提供してもよい。また、外部デバイス318は、例えば、サム・ドライブ、ポータブル光または磁気ディスク、およびメモリ・カードなどの、ポータブル・コンピュータ可読ストレージ媒体を含むことができる。本発明の実施形態を実践するために使用されるソフトウェアおよびデータは、このようなポータブル・コンピュータ可読ストレージ媒体に格納されることが可能であり、I/Oインターフェース312を介して永続ストレージ308にロードされることが可能である。I/Oインターフェース312は、ディスプレイ320にも接続する。
【0040】
ディスプレイ320は、ユーザにデータを表示するためのメカニズムを提供し、例えば、コンピュータ・モニタでもよい。
【0041】
本明細書に記載のプログラムは、本発明の特定の実施形態においてブログラムが実行されるアプリケーションに基づいて識別される。しかし、本明細書における任意の特定のプログラム用語体系は便宜上使用されるにすぎず、したがって、本発明は、このような用語体系による識別もしくは示唆またはその両方が行われた任意の特定のアプリケーションにおける使用だけに限定されるべきでないことを理解されたい。
【0042】
本発明は、システム、方法、もしくはコンピュータ・プログラム製品、またはそれらの組合せでもよい。コンピュータ・プログラム製品は、本発明の態様をプロセッサに実行させるためのコンピュータ可読プログラム命令を有する、コンピュータ可読ストレージ媒体(または複数の媒体)を含んでもよい。
【0043】
コンピュータ可読ストレージ媒体は、命令実行デバイスによる使用のための命令を保持および格納可能な有形デバイスとすることが可能である。コンピュータ可読ストレージ媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイス、または前述のいずれかの適切な組合せでもよいがこれらに限定されない。コンピュータ可読ストレージ媒体のより具体的な例の完全に網羅されていないリストは、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、リード・オンリ・メモリ(ROM)、消去可能プログラマブル・リード・オンリ・メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク・リード・オンリ・メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリ・スティック、フロッピー(登録商標)・ディスク、命令を記録したパンチ・カードまたは溝内隆起構造などの機械的にエンコードされたデバイス、および前述のいずれかの適切な組合せを含む。本明細書で使用されるようなコンピュータ可読ストレージ媒体は、本質的に、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を通じて伝搬する電磁波(例えば、光ファイバ・ケーブルを通過する光パルス)、またはワイヤを通じて伝送される電気信号などの一時的な信号であると解釈されるべきではない。
【0044】
本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング/処理デバイスに、あるいは、例えば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくはワイヤレス・ネットワーク、またはその組合せなど、ネットワークを介して外部コンピュータまたは外部ストレージ・デバイスに、ダウンロードされることが可能である。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、もしくはエッジ・サーバ、またはそれらの組合せを備えてもよい。各コンピューティング/処理デバイスのネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、コンピュータ可読プログラム命令をネットワークから受け取り、それぞれのコンピューティング/処理デバイス内のコンピュータ可読ストレージ媒体に格納するためにコンピュータ可読プログラム命令を転送する。
【0045】
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、インストラクション・セット・アーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、または、Smalltalk(登録商標)、C++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語、もしくは類似のプログラミング言語などの従来の手続き型プログラミング言語を含む1つもしくは複数のプログラミング言語の任意の組合せで書かれたソース・コードもしくはオブジェクト・コードでもよい。コンピュータ可読プログラム命令は、全面的にユーザのコンピュータ上で、または、部分的にユーザのコンピュータ上で、スタンド・アロンのソフトウェア・パッケージとして、あるいは、部分的にユーザのコンピュータ上かつ部分的にリモート・コンピュータ上で、または全面的にリモート・コンピュータもしくはサーバ上で実行してもよい。後者のシナリオでは、リモート・コンピュータが、ローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続されてもよいし、または接続が、(例えば、インターネット・サービス・プロバイダを使用してインターネットを通じて)外部コンピュータに対して行われてもよい。いくつかの実施形態では、例えば、プログラム可能論理回路機器、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路機器は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路機器を個別化にすることによって、コンピュータ可読プログラム命令を実行してもよい。
【0046】
本発明の態様は、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品の流れ図もしくはブロック図またはその両方を参照しながら本明細書で説明される。流れ図もしくはブロック図またはその両方の各ブロック、および流れ図もしくはブロック図またはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実行可能であることが理解されよう。
【0047】
これらのコンピュータ可読プログラム命令は、コンピュータ、または他のプログラム可能データ処理装置のプロセッサを介して実行する命令が、流れ図もしくはブロック図またはその両方の1つまたは複数のブロックで指定された機能/行為を実行するための手段を作り出すべく、機械を生み出すために汎用コンピュータ、専用コンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供されてもよい。また、これらのコンピュータ可読プログラム命令は、流れ図もしくはブロック図またはその両方の1つまたは複数のブロックで指定された機能/行為の態様を実行する命令を含む製品を、命令を格納したコンピュータ可読ストレージ媒体が備えるべく、コンピュータ可読ストレージ媒体に格納されてもよく、コンピュータ、プログラム可能データ処理装置、もしくは他のデバイス、またはそれらの組合せに、特定の様式で機能するように指図することが可能である。
【0048】
また、コンピュータ可読プログラム命令は、コンピュータ、他のプログラム可能装置、または他のデバイス上で実行する命令が、流れ図もしくはブロック図またはその両方の1つまたは複数のブロックで指定された機能/行為を実行するべく、コンピュータ実行処理を生み出すためのコンピュータ、他のプログラム可能装置、または他のデバイスで一連の動作ステップを実施するために、コンピュータ、他のプログラム可能データ処理装置、または他のデバイスにロードされてもよい。
【0049】
図中の流れ図およびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を示している。この点に関して、流れ図またはブロック図の中の各ブロックは、指定の論理機能を実施するための1つまたは複数の実行可能命令を含む、命令のモジュール、セグメント、または一部を表すことができる。一部の代替的な実装形態では、ブロックに記された機能は、図に記された順序とは無関係に行われてもよい。例えば、連続して示された2つのブロックが、実際には、実質的に同時に実行されてもよいし、またはブロックが、時には、含まれる機能に応じて逆の順序で実行されてもよい。ブロック図もしくは流れ図またはその両方の各ブロック、および、ブロック図もしくは流れ図またはその両方におけるブロックの組合せは、指定の機能もしくは行為を行うか、または、専用ハードウェアとコンピュータ命令との組合せを実行する、専用ハードウェア・ベースのシステムによって実行されることが可能であることも指摘される。
【0050】
本発明の様々な実施形態の説明は、例証のために提示されてきたが、網羅的であること、または開示の実施形態に限定されることを意図するものではない。本発明の範囲および思想から逸脱することなく、多くの変更および変形が当業者には明らかとなろう。本明細書で使用される専門用語は、実施形態の原理、実用的用途、もしくは、市場で見つかる技術に対する技術的改善を最もうまく説明するように、または、本明細書で開示された実施形態を当業者が理解できるようにするために選ばれた。
図1
図2
図3
【手続補正書】
【提出日】2024-06-07
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
1つまたは複数のプロセッサによって、路上テストからオーディオ信号を受信することと、
前記1つまたは複数のプロセッサによって、第1のモードで、前記オーディオ信号を処理して音響スペクトル密度分布図を生成し、それぞれの少なくとも1つの道路区間切替点を識別することと、
前記1つまたは複数のプロセッサによって、第2のモードで、前記オーディオ信号の音波のスペクトログラムを処理して、前記それぞれの少なくとも1つの道路区間切替点を識別することと、
前記1つまたは複数のプロセッサによって、第3のモードで、機械学習モデルを使用して、前記オーディオ信号のフレーム毎の予想音を予測し、前記予想音と実際音との間の類似性を計算し、前記類似性が事前設定済みの類似性閾値より小さいときに前記それぞれの少なくとも1つの道路切替点を識別することと、
前記1つまたは複数のプロセッサによって、前記第1のモード、前記第2のモード、および前記第3のモードの結果を組み合わせて、道路区間切替点の最終セットを取得することと
を含む、コンピュータ実装方法。
【請求項2】
前記オーディオ信号を処理して前記音響スペクトル密度分布図を生成し、前記それぞれの少なくとも1つの道路区間切替点を識別することは、
前記1つまたは複数のプロセッサによって、背景音フィルタおよびローパス・フィルタで前記オーディオ信号を前処理して、前処理済みのオーディオ・シーケンスを生み出すこと、
前記1つまたは複数のプロセッサによって、前記前処理済みのオーディオ・シーケンスに対するスライド・ウィンドウ処理を使用して、スペクトル密度分布図を生成すること、ならびに
前記1つまたは複数のプロセッサによって、前記スペクトル密度分布図上の変遷における少なくとも1つの対応する極限点を識別すること
を含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記スペクトル密度分布図上の前記変遷における前記少なくとも1つの対応する極限点を識別することは、
前記1つまたは複数のプロセッサによって、前記スペクトル密度分布図の垂直軸上の前記スペクトル密度の変化傾向に基づいて、前記少なくとも1つの対応する極限点を見つけること、および
前記1つまたは複数のプロセッサによって、事前設定済みの閾値を使用して、前記スペクトル密度分布図上の外れ値の極限点を除外すること
を含む、請求項2に記載のコンピュータ実装方法。
【請求項4】
前記オーディオ信号の音波の前記スペクトログラムを処理して、前記それぞれの少なくとも1つの道路区間切替点を識別することが、
前記1つまたは複数のプロセッサによって、前記オーディオ信号の周波数を使用して、前記オーディオ信号のスペクトログラム画像を生成すること、
前記1つまたは複数のプロセッサによって、コントラスト強調、およびカラー画像からグレースケール画像への変換を使用して、前記オーディオ信号の前記スペクトログラム画像を前処理すること、
前記1つまたは複数のプロセッサによって、2値化を使用して前記前処理済みのスペクトログラム画像をフィルタ処理し、前記グレースケール画像を2値画像に変換すること、
前記1つまたは複数のプロセッサによって、減弱および拡大の演算用のカーネルを使用した前記前処理済みおよびフィルタ処理済みのスペクトログラム画像に関する画像形態処理を完了させて、完全処理済みのスペクトログラム画像を生成すること、ならびに
前記1つまたは複数のプロセッサによって、前記完全処理済みのスペクトログラム画像に最大接続ドメインがないかサーチすることによって、前記それぞれの少なくとも1つの道路区間切替点を識別すること
を含む、請求項1に記載のコンピュータ実装方法。
【請求項5】
前記機械学習モデルは、路上テストからの履歴オーディオ信号データで訓練され、
前記機械学習モデルは、長短期記憶(LSTM)モデルである、
請求項1に記載のコンピュータ実装方法。
【請求項6】
前記事前設定済みの類似性閾値は、前記機械学習モデルにおける履歴データの性能に基づく、請求項1に記載のコンピュータ実行方法。
【請求項7】
前記予想音が前記実際音に類似しているほど、前記予想音と前記実際音との間の前記類似性が小さくなる、請求項1に記載のコンピュータ実装方法。
【請求項8】
路上テストからオーディオ信号を受信するためのプログラム命令、
第1のモードで、前記オーディオ信号を処理して音響スペクトル密度分布図を生成し、それぞれの少なくとも1つの道路区間切替点を識別するためのプログラム命令、
第2のモードで、前記オーディオ信号の音波のスペクトログラムを処理して、前記それぞれの少なくとも1つの道路区間切替点を識別するためのプログラム命令、
第3のモードで、機械学習モデルを使用して、前記オーディオ信号のフレーム毎の予想音を予測し、前記予想音と実際音との間の類似性を計算し、前記類似性が事前設定済みの類似性閾値より小さいときに前記それぞれの少なくとも1つの道路切替点を識別するためのプログラム命令、ならびに
前記第1のモード、前記第2のモード、および前記第3のモードの結果を組み合わせて、道路区間切替点の最終セットを取得するためのプログラム命令
を含む、コンピュータ・プログラム。
【請求項9】
前記オーディオ信号を処理して前記音響スペクトル密度分布図を生成し、前記それぞれの少なくとも1つの道路区間切替点を識別するための前記プログラム命令は、
背景音フィルタおよびローパス・フィルタで前記オーディオ信号を前処理して、前処理済みのオーディオ・シーケンスを生み出すためのプログラム命令、
前記前処理済みのオーディオ・シーケンスに対するスライド・ウィンドウ処理を使用して、スペクトル密度分布図を生成するためのプログラム命令、および
前記スペクトル密度分布図上の変遷における少なくとも1つの対応する極限点を識別するためのプログラム命令
を含む、請求項8に記載のコンピュータ・プログラム。
【請求項10】
前記スペクトル密度分布図上の前記変遷における前記少なくとも1つの対応する極限点を識別するための前記プログラム命令は、
前記スペクトル密度分布図の垂直軸上の前記スペクトル密度の変化傾向に基づいて、前記少なくとも1つの対応する極限点を見つけるためのプログラム命令、および
事前設定済みの閾値を使用して、前記スペクトル密度分布図上の外れ値の極限点をフィルタ処理するためのプログラム命令
を含む、請求項9に記載のコンピュータ・プログラム。
【請求項11】
前記オーディオ信号の音波の前記スペクトログラムを処理して、前記それぞれの少なくとも1つの道路区間切替点を識別するための前記プログラム命令は、
前記オーディオ信号の周波数を使用して、前記オーディオ信号のスペクトログラム画像を生成するためのプログラム命令、
コントラスト強調、およびカラー画像からグレースケール画像への変換を使用して、前記オーディオ信号の前記スペクトログラム画像を前処理するためのプログラム命令、
2値化を使用して前記前処理済みのスペクトログラム画像をフィルタ処理し、前記グレースケール画像を2値画像に変換するためのプログラム命令、
減弱および拡大の演算用のカーネルを使用した前記前処理済みおよびフィルタ処理済みのスペクトログラム画像に関する画像形態処理を完了させて、完全処理済みのスペクトログラム画像を生成するためのプログラム命令、ならびに
前記完全処理済みのスペクトログラム画像に最大接続ドメインがないかサーチすることによって、前記それぞれの少なくとも1つの道路区間切替点を識別するためのプログラム命令
を含む、請求項8に記載のコンピュータ・プログラム。
【請求項12】
前記機械学習モデルは、路上テストからの履歴オーディオ信号データで訓練され、
前記機械学習モデルは、長短期記憶(LSTM)モデルである、
請求項8に記載のコンピュータ・プログラム。
【請求項13】
前記事前設定済みの類似性閾値は、前記機械学習モデルにおける履歴データの性能に基づく、請求項8に記載のコンピュータ・プログラム。
【請求項14】
前記予想音が前記実際音に類似しているほど、前記予想音と前記実際音との間の前記類似性が小さくなる、請求項8に記載のコンピュータ・プログラム。
【請求項15】
1つまたは複数のコンピュータ・プロセッサと、
1つまたは複数のコンピュータ可読ストレージ媒体と、
前記1つまたは複数のコンピュータ・プロセッサのうちの少なくとも1つによる実行のための、前記1つまたは複数のコンピュータ可読ストレージ媒体に一括して格納済みのプログラム命令とを含み、前記格納済みのプログラム命令は、
路上テストからオーディオ信号を受信するためのプログラム命令、
第1のモードで、前記オーディオ信号を処理して音響スペクトル密度分布図を生成し、それぞれの少なくとも1つの道路区間切替点を識別するためのプログラム命令、
第2のモードで、前記オーディオ信号の音波のスペクトログラムを処理して、前記それぞれの少なくとも1つの道路区間切替点を識別するためのプログラム命令、
第3のモードで、機械学習モデルを使用して、前記オーディオ信号のフレーム毎の予想音を予測し、前記予想音と実際音との間の類似性を計算し、前記類似性が事前設定済みの類似性閾値より小さいときに前記それぞれの少なくとも1つの道路切替点を識別するためのプログラム命令、ならびに
前記第1のモード、前記第2のモード、および前記第3のモードの結果を組み合わせて、道路区間切替点の最終セットを取得するためのプログラム命令
を含む、コンピュータ・システム。
【請求項16】
前記オーディオ信号を処理して前記音響スペクトル密度分布図を生成し、前記それぞれの少なくとも1つの道路区間切替点を識別するための前記プログラム命令は、
背景音フィルタおよびローパス・フィルタで前記オーディオ信号を前処理して、前処理済みのオーディオ・シーケンスを生み出すためのプログラム命令、
前記前処理済みのオーディオ・シーケンスに対するスライド・ウィンドウ処理を使用して、スペクトル密度分布図を生成するためのプログラム命令、ならびに
前記スペクトル密度分布図上の変遷における少なくとも1つの対応する極限点を識別するためのプログラム命令
を含む、請求項15に記載のコンピュータ・システム。
【請求項17】
前記スペクトル密度分布図上の前記変遷における前記少なくとも1つの対応する極限点を識別するための前記プログラム命令は、
前記スペクトル密度分布図の垂直軸上の前記スペクトル密度の変化傾向に基づいて、前記少なくとも1つの対応する極限点を見つけるためのプログラム命令、および
事前設定済みの閾値を使用して、前記スペクトル密度分布図上の外れ値の極限点をフィルタ処理するためのプログラム命令
を含む、請求項16に記載のコンピュータ・システム。
【請求項18】
前記オーディオ信号の音波の前記スペクトログラムを処理して、前記それぞれの少なくとも1つの道路区間切替点を識別するための前記プログラム命令は、
前記オーディオ信号の周波数を使用して、前記オーディオ信号のスペクトログラム画像を生成するためのプログラム命令、
コントラスト強調、およびカラー画像からグレースケール画像への変換を使用して、前記オーディオ信号の前記スペクトログラム画像を前処理するためのプログラム命令、
2値化を使用して前記前処理済みのスペクトログラム画像をフィルタ処理し、前記グレースケール画像を2値画像に変換するためのプログラム命令、
減弱および拡大の演算用のカーネルを使用した前記前処理済みおよびフィルタ処理済みのスペクトログラム画像に関する画像形態処理を完了させて、完全処理済みのスペクトログラム画像を生成するためのプログラム命令、ならびに
前記完全処理済みのスペクトログラム画像に最大接続ドメインがないかサーチすることによって、前記それぞれの少なくとも1つの道路区間切替点を識別するためのプログラム命令
を含む、請求項15に記載のコンピュータ・システム。
【請求項19】
前記機械学習モデルは、路上テストからの履歴オーディオ信号データで訓練され、
前記機械学習モデルは、長短期記憶(LSTM)モデルである、
請求項15に記載のコンピュータ・システム。
【請求項20】
前記事前設定済みの類似性閾値は、前記機械学習モデルにおける履歴データの性能に基づく、請求項15に記載のコンピュータ・システム。
【国際調査報告】