(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-09-01
(54)【発明の名称】対象の検出方法、装置、電子機器、記憶媒体およびプログラム
(51)【国際特許分類】
G06V 20/59 20220101AFI20220825BHJP
G06T 7/00 20170101ALI20220825BHJP
G06V 10/82 20220101ALI20220825BHJP
【FI】
G06V20/59
G06T7/00 300F
G06T7/00 350C
G06V10/82
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021558015
(86)(22)【出願日】2020-12-21
(85)【翻訳文提出日】2021-09-29
(86)【国際出願番号】 CN2020137919
(87)【国際公開番号】W WO2021238185
(87)【国際公開日】2021-12-02
(31)【優先権主張番号】202010477936.9
(32)【優先日】2020-05-29
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】518209698
【氏名又は名称】シェンチェン センスタイム テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】SHENZHEN SENSETIME TECHNOLOGY CO.,LTD
(74)【代理人】
【識別番号】110001427
【氏名又は名称】弁理士法人前田特許事務所
(72)【発明者】
【氏名】ジャン アオ
(72)【発明者】
【氏名】ドゥー ティエンユエン
(72)【発明者】
【氏名】ワン フェイ
(72)【発明者】
【氏名】チエン チェン
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA02
5L096CA04
5L096DA02
5L096EA39
5L096FA69
5L096GA51
5L096HA05
5L096HA11
5L096KA04
(57)【要約】
本発明は、対象の検出方法、装置、電子機器および記憶媒体を提供し、ここで、当該対象の検出方法は、検出されるキャビン内の画像を取得することと、キャビン内の人員が減らす場合、前記検出されるキャビン内の画像に対してターゲット検出を実行し、前記検出されるキャビン内の画像に検出される対象がいるか否かを決定することと、前記検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、プリセット時間を超えることに応答して、提示情報を送信することと、を含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
対象の検出方法であって、
検出されるキャビン内の画像を取得することと、
キャビン内の人員が減らす場合、前記検出されるキャビン内の画像に対してターゲット検出を実行し、前記検出されるキャビン内の画像に検出される対象がいるか否かを決定することと、
前記検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、プリセット時間を超えることに応答して、提示情報を送信することと、を含む、前記対象の検出方法。
【請求項2】
前記検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、プリセット時間を超えることに応答して、提示情報を送信することは、
減らしたキャビン内人員が乗客である場合、前記検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、第1プリセット時間を超えることに応答して、第1提示情報を送信することであって、前記第1提示情報は、乗客に物の残りを提示するために使用されることと、
減らしたキャビン内人員が運転者である場合、前記検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、第2プリセット時間を超えることに応答して、第2提示情報を送信することであって、前記第2提示情報は、運転者に物の残りを提示するために使用されることと、を含む、
請求項1に記載の対象の検出方法。
【請求項3】
減らしたキャビン内人員が、運転者および/または乗客であり、前記検出されるキャビン内の画像に検出される対象がいると決定した後、提示情報を送信する前に、前記対象の検出方法は、
前記キャビンにおける前記検出される対象の位置に従って、前記検出される対象の帰属人員を決定することをさらに含み、前記検出される対象の帰属人員は、運転者および/または乗客である、
請求項1または2に記載の対象の検出方法。
【請求項4】
前記検出されるキャビン内の画像に対してターゲット検出を実行することは、
前記検出されるキャビン内の画像に対して特徴抽出を実行して、複数のチャネルのうちの各チャネルに対応する第1特徴マップを取得することであって、各チャネルに対応する第1特徴マップは、当該チャネルに対応する画像特徴カテゴリにおける検出される対象の特徴に対して強化処理を実行した後の特徴マップであることと、
各前記チャネルに対して、当該チャネルに対応する第1特徴マップと他のチャネルにそれぞれ対応する第1特徴マップに対して、特徴情報融合を実行して、融合された第2特徴マップを取得することと、
前記融合された第2特徴マップに基づいて、前記検出されるキャビン内の画像内の前記検出される対象を検出することと、を含む、
請求項1ないし3のいずれか一項に記載の対象の検出方法。
【請求項5】
各前記チャネルに対して、当該チャネルに対応する第1特徴マップと他のチャネルにそれぞれ対応する第1特徴マップに対して、特徴情報融合を実行して、融合された第2特徴マップを取得することは、
特徴情報融合を実行する複数の第1特徴マップに対して、前記複数の第1特徴マップに対応する重み行列を決定することと、
前記重み行列に基づいて、前記複数の第1特徴マップの特徴情報に対して加重加算を実行して、各融合特徴情報を含む前記第2特徴マップを取得することと、を含む、
請求項4に記載の対象の検出方法。
【請求項6】
前記融合された第2特徴マップに基づいて、前記検出されるキャビン内の画像内の前記検出される対象を検出することは、
前記融合された第2特徴マップに基づいて、設定数の候補領域を決定することであって、各候補領域は、数を設定する特徴ポイントを含むことと、
各候補領域に含まれる特徴ポイントの特徴データに基づいて、当該候補領域に対応する信頼度を決定することであって、各候補領域に対応する信頼度は、当該候補領域に前記検出される対象を含む信頼度を表すために使用されることと、
各候補領域に対応する信頼度および異なる候補領域間の重複領域に基づいて、前記設定数の候補領域から、検出される対象に対応する検出領域をスクリーニングすることであって、前記検出領域は、前記検出されるキャビン内の画像における前記検出される対象の位置を識別するために使用されることと、を含む、
請求項4に記載の対象の検出方法。
【請求項7】
前記検出されるキャビン内の画像を取得することは、
検出されるキャビン内のビデオストリームを取得することと、
前記検出されるキャビン内のビデオストリームに含まれる連続するマルチフレームのキャビン内の画像から、前記検出されるキャビン内の画像を間隔を置いて抽出することと、を含む、
請求項1に記載の対象の検出方法。
【請求項8】
前記検出されるキャビン内の画像に対してターゲット検出を実行することは、
前記検出されるキャビン内のビデオストリームにおける各キャビン内の画像を追跡される画像として使用し、各非最初のフレームの追跡される画像に対して、当該非最初のフレームの追跡される画像の前の一フレームの追跡される画像内の前記検出される対象の位置情報、および当該非最初のフレームの追跡される画像に基づいて、当該非最初のフレームの追跡される画像における前記検出される対象の予測位置情報を決定することと、
当該非最初のフレームの追跡される画像が、検出される対象を検出する、検出されるキャビン内の画像であるか否かを決定することと、
当該非最初のフレームの追跡される画像が、検出される対象を検出する検出されるキャビン内の画像であると決定した場合、検出された位置情報を当該非最初のフレームの追跡される画像における検出される対象の位置情報として使用することと、
当該非最初のフレームの追跡される画像が、検出される対象を検出する検出されるキャビン内の画像であると決定した場合、決定した予測位置情報を当該非最初のフレームの追跡される画像における検出される対象の位置情報として使用することと、をさらに含む、
請求項7に記載の対象の検出方法。
【請求項9】
前記検出されるキャビン内の画像に対してターゲット検出を実行することは、ニューラルネットワークによって実行され、
前記ニューラルネットワークは、検出されるサンプル対象を含むキャビン内のサンプル画像と、検出されるサンプル対象を含まないキャビン内のサンプル画像を使用してトレーニングすることにより得られる、
請求項1ないし8のいずれか一項に記載の対象の検出方法。
【請求項10】
対象の検出装置であって、
検出されるキャビン内の画像を取得するように構成される、画像取得モジュールと、
キャビン内の人員が減らす場合、前記検出されるキャビン内の画像に対してターゲット検出を実行し、前記検出されるキャビン内の画像に検出される対象がいるか否かを決定するように構成される、画像検出モジュールと、
前記検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、プリセット時間を超えることに応答して、提示情報を送信するように構成される、提示モジュールと、を備える、前記対象の検出装置。
【請求項11】
前記提示モジュールが、前記検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、プリセット時間を超えることに応答して、提示情報を送信するように構成されることは、
減らしたキャビン内人員が乗客である場合、前記検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、第1プリセット時間を超えることに応答して、第1提示情報を送信し、前記第1提示情報は、乗客に物の残りを提示するために使用され、
減らしたキャビン内人員が運転者である場合、前記検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、第2プリセット時間を超えることに応答して、第2提示情報を送信するように構成されることを含み、前記第2提示情報は、運転者に物の残りを提示するために使用される、
請求項10に記載の対象の検出装置。
【請求項12】
減らしたキャビン内人員が、運転者および/または乗客であり、画像検出モジュールが、前記検出されるキャビン内の画像に検出される対象がいると決定した後、提示モジュールが、提示情報を送信する前に、前記画像検出モジュールは、さらに、
前記キャビンにおける前記検出される対象の位置に従って、前記検出される対象の帰属人員を決定するように構成され、前記検出される対象の帰属人員は、運転者および/または乗客である、
請求項10または11に記載の対象の検出装置。
【請求項13】
前記画像検出モジュールが、前記検出されるキャビン内の画像に対してターゲット検出を実行するように構成されることは、
前記検出されるキャビン内の画像に対して特徴抽出を実行して、複数のチャネルのうちの各チャネルに対応する第1特徴マップを取得し、各チャネルに対応する第1特徴マップは、当該チャネルに対応する画像特徴カテゴリにおける検出される対象の特徴に対して強化処理を実行した後の特徴マップであり、
各前記チャネルに対して、当該チャネルに対応する第1特徴マップと他のチャネルにそれぞれ対応する第1特徴マップに対して、特徴情報融合を実行して、融合された第2特徴マップを取得し、
前記融合された第2特徴マップに基づいて、前記検出されるキャビン内の画像内の前記検出される対象を検出するように構成されることを含む、
請求項10ないし12のいずれか一項に記載の対象の検出装置。
【請求項14】
前記画像検出モジュールが、各前記チャネルに対して、当該チャネルに対応する第1特徴マップと他のチャネルにそれぞれ対応する第1特徴マップに対して、特徴情報融合を実行して、融合された第2特徴マップを取得するように構成されることは、
特徴情報融合を実行する複数の第1特徴マップに対して、前記複数の第1特徴マップに対応する重み行列を決定し、
前記重み行列に基づいて、前記複数の第1特徴マップの特徴情報に対して加重加算を実行して、各融合特徴情報を含む前記第2特徴マップを取得するように構成されることを含む、
請求項13に記載の対象の検出装置。
【請求項15】
前記画像検出モジュールが、前記融合された第2特徴マップに基づいて、前記検出されるキャビン内の画像内の前記検出される対象を検出するように構成されることは、
前記融合された第2特徴マップに基づいて、設定数の候補領域を決定し、各候補領域は、数を設定する特徴ポイントを含み、
各候補領域に含まれる特徴ポイントの特徴データに基づいて、当該候補領域に対応する信頼度を決定し、各候補領域に対応する信頼度は、当該候補領域に前記検出される対象を含む信頼度を表すために使用され、
各候補領域に対応する信頼度および異なる候補領域間の重複領域に基づいて、前記設定数の候補領域から、検出される対象に対応する検出領域をスクリーニングするように構成されることを含み、前記検出領域は、前記検出されるキャビン内の画像における前記検出される対象の位置を識別するために使用される、
請求項13に記載の対象の検出装置。
【請求項16】
前記画像取得モジュールが、前記検出されるキャビン内の画像を取得するように構成されることは、
検出されるキャビン内のビデオストリームを取得し、
前記検出されるキャビン内のビデオストリームに含まれる連続するマルチフレームのキャビン内の画像から、前記検出されるキャビン内の画像を間隔を置いて抽出するように構成されることを含む、
請求項10に記載の対象の検出装置。
【請求項17】
前記画像検出モジュールが、前記検出されるキャビン内の画像に対してターゲット検出を実行するように構成されることは、さらに、
前記検出されるキャビン内のビデオストリームにおける各キャビン内の画像を追跡される画像として使用し、各非最初のフレームの追跡される画像に対して、当該非最初のフレームの追跡される画像の前の一フレームの追跡される画像内の前記検出される対象の位置情報、および当該非最初のフレームの追跡される画像に基づいて、当該非最初のフレームの追跡される画像における前記検出される対象の予測位置情報を決定し、
当該非最初のフレームの追跡される画像が、検出される対象を検出する、検出されるキャビン内の画像であるか否かを決定し、
当該非最初のフレームの追跡される画像が、検出される対象を検出する検出されるキャビン内の画像であると決定した場合、検出された位置情報を当該非最初のフレームの追跡される画像における検出される対象の位置情報として使用し、
当該非最初のフレームの追跡される画像が、検出される対象を検出する検出されるキャビン内の画像であると決定した場合、決定した予測位置情報を当該非最初のフレームの追跡される画像における検出される対象の位置情報として使用するように構成されることを含む、
請求項16に記載の対象の検出装置。
【請求項18】
前記検出されるキャビン内の画像に対してターゲット検出を実行することは、ニューラルネットワークによって実行され、
前記ニューラルネットワークは、検出されるサンプル対象を含むキャビン内のサンプル画像と、検出されるサンプル対象を含まないキャビン内のサンプル画像を使用してトレーニングすることにより得られる、
請求項10ないし17のいずれか一項に記載の対象の検出装置。
【請求項19】
プロセッサ、メモリおよびバスを備える、電子機器であって、前記メモリは、前記プロセッサの実行可能な機械可読命令を記憶し、電子機器が実行されるとき、前記プロセッサと前記メモリとは、バスを介して通信し、前記機械可読命令は、前記プロセッサによって実行されるとき、請求項1ないし9のいずれか一項に記載の対象の検出方法を実行する、前記電子機器。
【請求項20】
コンピュータプログラムを記憶する、コンピュータ可読記憶媒体であって、当該コンピュータプログラムは、プロセッサによってじっこうされるとき、請求項1ないし9のいずれか一項に記載の対象の検出方法を実行する、前記コンピュータ可読記憶媒体。
【請求項21】
コンピュータ可読コードを含む、コンピュータプログラムであって、
前記コンピュータ可読コードが電子機器で実行されるとき、前記電子機器内のプロセッサは、請求項1ないし9のいずれか1項に記載の対象の検出方法を実現するために実行される、前記コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2020年5月29日に中国特許局に提出された、出願番号が202010477936.9である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照によって本願に組み込まれる。
【0002】
本発明は、追跡技術分野に関し、対象の検出方法、装置、電子機器、記憶媒体およびコンピュータプログラムに関するが、これに限定されない。
【背景技術】
【0003】
車両インターネットの発展に伴い、公衆交通機関は、ますます多くの人に便利な旅行を提供し、乗車環境では、乗客または運転者は、通常、個人の持ち物を携帯するため、乗車環境では、常に、乗客が個人の持ち物を紛失する事件があり、乗車環境における物の紛失を効果的に防ぎ、乗車環境での物の安全を向上させることは、緊急の問題である。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明の実施例は、少なくとも、対象検出の技術案を提供する。
【課題を解決するための手段】
【0005】
本発明の実施例は、対象の検出方法を提供し、前記方法は、
検出されるキャビン内の画像を取得することと、キャビン内の人員が減らす場合、前記検出されるキャビン内の画像に対してターゲット検出を実行し、前記検出されるキャビン内の画像に検出される対象がいるか否かを決定することと、前記検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、プリセット時間を超えることに応答して、提示情報を送信することと、を含む。
【0006】
本発明のいくつかの実施例において、前記検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、プリセット時間を超えることに応答して、提示情報を送信することは、
減らしたキャビン内人員が乗客である場合、前記検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、第1プリセット時間を超えることに応答して、第1提示情報を送信ことであって、前記第1提示情報は、乗客に物の残りを提示するために使用されることと、減らしたキャビン内人員が運転者である場合、前記検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、第2プリセット時間を超えることに応答して、第2提示情報を送信することであって、前記第2提示情報は、運転者に物の残りを提示するために使用されることと、を含む。
【0007】
本発明のいくつかの実施例において、減らしたキャビン内人員が、運転者および/または乗客であり、前記検出されるキャビン内の画像に検出される対象がいると決定した後、提示情報を送信する前に、前記対象の検出方法は、
前記キャビンにおける前記検出される対象の位置に従って、前記検出される対象の帰属人員を決定することをさらに含み、ここで、前記検出される対象の帰属人員は、運転者および/または乗客である。
【0008】
本発明のいくつかの実施例において、前記検出されるキャビン内の画像に対してターゲット検出を実行することは、
前記検出されるキャビン内の画像に対して特徴抽出を実行して、複数のチャネルのうちの各チャネルに対応する第1特徴マップを取得することであって、ここで、各チャネルに対応する第1特徴マップは、当該チャネルに対応する画像特徴カテゴリにおける検出される対象の特徴に対して強化処理を実行した後の特徴マップであることと、各前記チャネルに対して、当該チャネルに対応する第1特徴マップと他のチャネルにそれぞれ対応する第1特徴マップに対して、特徴情報融合を実行して、融合された第2特徴マップを取得することと、前記融合された第2特徴マップに基づいて、前記検出されるキャビン内の画像内の前記検出される対象を検出することと、を含む。
【0009】
本発明のいくつかの実施例において、各前記チャネルに対して、当該チャネルに対応する第1特徴マップと他のチャネルにそれぞれ対応する第1特徴マップに対して、特徴情報融合を実行して、融合された第2特徴マップを取得することは、
特徴情報融合を実行する複数の第1特徴マップに対して、前記複数の第1特徴マップに対応する重み行列を決定することと、前記重み行列に基づいて、前記複数の第1特徴マップの特徴情報に対して加重加算を実行して、各融合特徴情報を含む前記第2特徴マップを取得することと、を含む。
【0010】
本発明のいくつかの実施例において、前記融合された第2特徴マップに基づいて、前記検出されるキャビン内の画像内の前記検出される対象を検出することは、
前記融合された第2特徴マップに基づいて、設定数の候補領域を決定することであって、各候補領域は、数を設定する特徴ポイントを含むことと、各候補領域に含まれる特徴ポイントの特徴データに基づいて、当該候補領域に対応する信頼度を決定することであって、各候補領域に対応する信頼度は、当該候補領域に前記検出される対象を含む信頼度を表すために使用されることと、各候補領域に対応する信頼度および異なる候補領域間の重複領域に基づいて、前記設定数の候補領域から、検出される対象に対応する検出領域をスクリーニングすることであって、前記検出領域は、前記検出されるキャビン内の画像における前記検出される対象の位置を識別するために使用されることと、を含む。
【0011】
本発明のいくつかの実施例において、前記検出されるキャビン内の画像を取得することは、
検出されるキャビン内のビデオストリームを取得することと、前記検出されるキャビン内のビデオストリームに含まれる連続するマルチフレームのキャビン内の画像から、検出されるキャビン内の画像を間隔を置いて抽出することと、を含む。
【0012】
本発明のいくつかの実施例において、前記検出されるキャビン内の画像に対してターゲット検出を実行することは、
前記検出されるキャビン内のビデオストリームにおける各キャビン内の画像を追跡される画像として使用し、各非最初のフレームの追跡される画像に対して、当該非最初のフレームの追跡される画像の前の一フレームの追跡される画像内の前記検出される対象の位置情報、および当該非最初のフレームの追跡される画像に基づいて、当該非最初のフレームの追跡される画像における前記検出される対象の予測位置情報を決定することと、当該非最初のフレームの追跡される画像が、検出される対象を検出する、検出されるキャビン内の画像であるか否かを決定することと、当該非最初のフレームの追跡される画像が、検出される対象を検出する検出されるキャビン内の画像であると決定した場合、検出された位置情報を当該非最初のフレームの追跡される画像における検出される対象の位置情報として使用することと、当該非最初のフレームの追跡される画像が、検出される対象を検出する検出されるキャビン内の画像であると決定した場合、決定した予測位置情報を当該非最初のフレームの追跡される画像における検出される対象の位置情報として使用することと、をさらに含む。
【0013】
本発明のいくつかの実施例において、前記検出されるキャビン内の画像に対してターゲット検出を実行することは、ニューラルネットワークによって実行され、
前記ニューラルネットワークは、検出されるサンプル対象を含むキャビン内のサンプル画像と、検出されるサンプル対象を含まないキャビン内のサンプル画像を使用してトレーニングすることにより得られる。
【0014】
本発明の実施例は、さらに、対象の検出装置を提供し、当該装置は、
検出されるキャビン内の画像を取得するように構成される、画像取得モジュールと、キャビン内の人員が減らす場合、前記検出されるキャビン内の画像に対してターゲット検出を実行し、前記検出されるキャビン内の画像に検出される対象がいるか否かを決定するように構成される、画像検出モジュールと、前記検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、プリセット時間を超えることに応答して、提示情報を送信するように構成される、提示モジュールと、を備える。
【0015】
本発明のいくつかの実施例において、前記提示モジュールが、前記検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、プリセット時間を超えることに応答して、提示情報を送信するように構成されることは、
減らしたキャビン内人員が乗客である場合、前記検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、第1プリセット時間を超えることに応答して、第1提示情報を送信し、前記第1提示情報は、乗客に物の残りを提示するために使用され、減らしたキャビン内人員が運転者である場合、前記検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、第2プリセット時間を超えることに応答して、第2提示情報を送信するように構成されることを含み、前記第2提示情報は、運転者に物の残りを提示するために使用される。
【0016】
本発明のいくつかの実施例において、減らしたキャビン内人員が、運転者および/または乗客であり、画像検出モジュールが、前記検出されるキャビン内の画像に検出される対象がいると決定した後、提示モジュールが、提示情報を送信する前に、前記画像検出モジュールは、さらに、
前記キャビンにおける前記検出される対象の位置に従って、前記検出される対象の帰属人員を決定するように構成され、ここで、前記検出される対象の帰属人員は、運転者および/または乗客である。
【0017】
本発明のいくつかの実施例において、前記画像検出モジュールが、前記検出されるキャビン内の画像に対してターゲット検出を実行するように構成されることは、
前記検出されるキャビン内の画像に対して特徴抽出を実行して、複数のチャネルのうちの各チャネルに対応する第1特徴マップを取得し、ここで、各チャネルに対応する第1特徴マップは、当該チャネルに対応する画像特徴カテゴリにおける検出される対象の特徴に対して強化処理を実行した後の特徴マップであり、
各前記チャネルに対して、当該チャネルに対応する第1特徴マップと他のチャネルにそれぞれ対応する第1特徴マップに対して、特徴情報融合を実行して、融合された第2特徴マップを取得し、
前記融合された第2特徴マップに基づいて、前記検出されるキャビン内の画像内の前記検出される対象を検出するように構成されることを含む。
【0018】
本発明のいくつかの実施例において、前記画像検出モジュールが、各前記チャネルに対して、当該チャネルに対応する第1特徴マップと他のチャネルにそれぞれ対応する第1特徴マップに対して、特徴情報融合を実行して、融合された第2特徴マップを取得するように構成されることは、
特徴情報融合を実行する複数の第1特徴マップに対して、前記複数の第1特徴マップに対応する重み行列を決定し、
前記重み行列に基づいて、前記複数の第1特徴マップの特徴情報に対して加重加算を実行して、各融合特徴情報を含む前記第2特徴マップを取得するように構成されることを含む。
【0019】
本発明のいくつかの実施例において、前記画像検出モジュールが、前記融合された第2特徴マップに基づいて、前記検出されるキャビン内の画像内の前記検出される対象を検出するように構成されることは、
前記融合された第2特徴マップに基づいて、設定数の候補領域を決定し、各候補領域は、数を設定する特徴ポイントを含み、
各候補領域に含まれる特徴ポイントの特徴データに基づいて、当該候補領域に対応する信頼度を決定し、各候補領域に対応する信頼度は、当該候補領域に前記検出される対象を含む信頼度を表すために使用され、
各候補領域に対応する信頼度および異なる候補領域間の重複領域に基づいて、前記設定数の候補領域から、検出される対象に対応する検出領域をスクリーニングするように構成されることを含み、前記検出領域は、前記検出されるキャビン内の画像における前記検出される対象の位置を識別するために使用される。
【0020】
本発明のいくつかの実施例において、前記画像取得モジュールが、前記検出されるキャビン内の画像を取得するように構成されることは、
検出されるキャビン内のビデオストリームを取得し、
前記検出されるキャビン内のビデオストリームに含まれる連続するマルチフレームのキャビン内の画像から、前記検出されるキャビン内の画像を間隔を置いて抽出するように構成されることを含む。
【0021】
本発明のいくつかの実施例において、前記画像検出モジュールが、前記検出されるキャビン内の画像に対してターゲット検出を実行するように構成されることは、
前記検出されるキャビン内のビデオストリームにおける各キャビン内の画像を追跡される画像として使用し、各非最初のフレームの追跡される画像に対して、当該非最初のフレームの追跡される画像の前の一フレームの追跡される画像内の前記検出される対象の位置情報、および当該非最初のフレームの追跡される画像に基づいて、当該非最初のフレームの追跡される画像における前記検出される対象の予測位置情報を決定し、
当該非最初のフレームの追跡される画像が、検出される対象を検出する、検出されるキャビン内の画像であるか否かを決定し、
当該非最初のフレームの追跡される画像が、検出される対象を検出する検出されるキャビン内の画像であると決定した場合、検出された位置情報を当該非最初のフレームの追跡される画像における検出される対象の位置情報として使用し、
当該非最初のフレームの追跡される画像が、検出される対象を検出する検出されるキャビン内の画像であると決定した場合、決定した予測位置情報を当該非最初のフレームの追跡される画像における検出される対象の位置情報として使用するように構成されることを含む。
【0022】
本発明のいくつかの実施例において、前記検出されるキャビン内の画像に対してターゲット検出を実行することは、ニューラルネットワークによって実行され、
前記ニューラルネットワークは、検出されるサンプル対象を含むキャビン内のサンプル画像と、検出されるサンプル対象を含まないキャビン内のサンプル画像を使用してトレーニングすることにより得られる。
【0023】
本発明の実施例は、さらに、プロセッサ、メモリおよびバスを備える、電子機器を提供し、前記メモリは、前記プロセッサによって実行可能な機械可読命令を記憶し、電子機器が実行するとき、前記プロセッサは、前記メモリとバスを介して通信し、前記機械可読命令は、前記プロセッサによって実行されるとき、上記の任意の1つの対象の検出方法を実行する。
【0024】
本発明の実施例は、さらに、コンピュータプログラムを記憶する、コンピュータ可読記憶媒体を提供し、当該コンピュータプログラムは、プロセッサによって実行されるとき、上記の任意の1つの対象の検出方法を実行する。
【0025】
本発明の実施例は、さらに、コンピュータ可読コードを含む、コンピュータプログラムを提供し、前記コンピュータ可読コードが、電子機器で実行されるとき、前記電子機器内のプロセッサは、上記の任意の1つの対象の検出方法を実現するために実行される。
【発明の効果】
【0026】
本発明の実施例において、キャビンシナリオにおける残り物を検出する方式を提供し、検出されるキャビン内の画像を取得することにより、キャビン内の人員が減らすとき、取得された検出されるキャビン内の画像に対してターゲット検出を実行することができ、それにより、検出されるキャビン内の画像に検出される対象がいるか否かを決定することができ、例示的に、当該検出される対象は、キャビン内の人員によって紛失された物であり得、そうすると、キャビン内の人員によって紛失された物を検出した場合、対応する提示を実行することができ、それにより、乗車環境内の物を失う確率を低減し、乗車環境内の物の安全性を向上させることができる。
【0027】
本発明の上記の目的、特徴および利点をより明確且つ理解しすくするために、以下は、好ましい実施例を添付の図面と合わせて、詳細な説明をする。
【図面の簡単な説明】
【0028】
本発明の実施例の技術的解決策をより明確に説明するために、以下は、実施例で必要な図面を簡単に紹介する。ここでの図面は、本明細書に組み込まれてその一部を構成し、これらの図面は、本発明と一致する実施例を示すものであり、明細書とともに本発明の実施例の技術的解決策を説明するために使用される。以下の図面は、本発明のいくつかの実施例のみを示したため、範囲の限定として見なされるべきではなく、当業者にとっては、創造的な作業なしに、これらの図面に従って他の関連する図面を得ることもできることを理解されたい。
【
図1】本発明の実施例による対象の検出方法の例示的なフローチャートである。
【
図2】本発明の実施例による検出される対象を検出する方法フローチャートである。
【
図3】本発明の実施例による検出されるキャビン内の画像内の検出される対象の検出領域を決定する方法フローチャートである。
【
図4】本発明の実施例による検出される対象を追跡する方法フローチャートである。
【
図5】本発明の実施例によるニューラルネットワークのうちのターゲット検出ネットワークのトレーニング方法のフローチャートである。
【
図6】本発明の実施例による別のニューラルネットワークのうちのターゲット追跡ネットワークのトレーニング方法のフローチャートである。
【
図7】本発明の実施例による対象の検出装置の例示的な構造図である。
【
図8】本発明の実施例による電子機器の概略図である。
【発明を実施するための形態】
【0029】
本発明の実施例の目的、技術的解決策および利点をより明確にするために、以下は、本発明の実施例の図面を参照して、本発明の実施例における技術的解決策を明確、且つ完全に説明し、明らかに、説明される実施例は、本願実施例の一部に過ぎず、実施例の全てではない。通常、ここでの図面で説明および示された本発明の実施例のコンポーネンは、様々な異なる構成で配置および設計されることができる。そのため、以下は、是面で提供された本発明の実施例の詳細な説明は、保護請求の本発明の範囲を制限することを目的としなく、本発明の選択された実施例を表示することに過ぎない。本発明の実施例に基づいて、創造的な努力なしに当業者によって取得される他のすべての実施例は、すべて本願の保護範囲に含まれる。
【0030】
類似する参照番号および文字は、次の図面で類似した項目を示し、従って、特定の一項が1つの図面で定義されると、後の図面では、それに対してさらなる定義及び説明を実行する必要がないことを注意されたい。
【0031】
いくつかの公衆シナリオにおいて、常に、物を紛失する現象が発生し、例えば、乗車環境では、常に、乗客が個人の持ち物を失う事件があり、通常、乗客が物を失った後、思い出した後失った物を探し、当該プロセスの時間がかかり、且つ、比較的に面倒である。乗車環境における物の紛失を効果的に防ぎ、乗車環境における物の安全を向上させることは、本発明の実施例が解决しようとする課題である。
【0032】
上記の研究に基づいて、本発明の実施例は、キャビンシナリオにおける残り物(忘れ物)を検出する方式を提供し、検出されるキャビン内の画像を取得することにより、キャビン内の人員が減らすとき、取得された検出されるキャビン内の画像に対してターゲット検出を実行することができ、それにより、検出されるキャビン内の画像に検出される対象がいるか否かを決定することができ、例示的に、当該検出される対象は、キャビン内の人員によって紛失された物であり得、そうすると、キャビン内の人員によって紛失された物を検出した場合、対応する提示を実行することができ、それにより、乗車環境内の物を失う確率を低減し、乗車環境内の物の安全性を向上させることができる。
【0033】
本実施例を理解し易くするために、まず、本発明の実施例によって開示される対象の検出方法を詳細に紹介する。本発明の実施例による対象の検出方法の実行主体は、通常、特定のコンピューティング能力を有するコンピュータ機器であり、当該コンピュータ機器は、例えば、端末機器またはサーバまたは他の処理機器を含み、端末機器は、ユーザ機器(UE:User Equipment)、モバイル機器、ユーザ端末などであり得る。いくつかの可能な実施形態において、当該対象の検出方法は、プロセッサによって、メモリに記憶されるコンピュータ可読命令を呼び出す方式を介して実現さすることができる。
【0034】
図1を参照すると、本発明の実施例による対象の検出方法のフローチャートであり、以下のS101ないしS103を含む。
【0035】
S101において、検出されるキャビン内の画像を取得する。
【0036】
ここで、当該キャビンは、タクシーキャビン、列車キャビンまたは飛行機キャビンなどの公衆交通機関のキャビンであり得、検出されるキャビン内の画像は、キャビン内の固定位置に設置された画像収集機器によって撮影された検出されるキャビン内の画像に従うことができる。
【0037】
S102において、キャビン内の人員が減らす場合、検出されるキャビン内の画像に対してターゲット検出を実行し、検出されるキャビン内の画像に検出される対象がいるか否かを決定する。
【0038】
例示的に、取得された検出されるキャビン内の画像に従って、キャビン内に人員の増加および人員の減少がいるか否かをモニタリング、キャビン内の人員が減らしたと検出された場合、取得された検出されるキャビン内の画像に対してターゲット検出を実行することができ、例えば、キャビン内に減らした人員の残り物があるか否かを検出する。
【0039】
例示的に、検出されるキャビン内の画像に対してターゲット検出を実行することは、携帯電話、財布、ハンドバッグ、トランクなどの、予め設定された乗客または運転者に紛失し易い物を検出することであり得る。
【0040】
S103において、検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、プリセット時間を超えることに応答して、提示情報を送信する。
【0041】
例示的に、キャビン内の人員が減らした場合、即ち、人員がキャビンから離れたと検出した場合、キャビン内に仍然としてキャビンから離れた人員の残り物があると検出した場合、提示して、キャビンから離れた人員を提示することができる。
【0042】
本発明の実施例は、キャビンシナリオにおける残り物を検出する方式を提供し、検出されるキャビン内の画像を取得することにより、キャビン内の人員が減らすとき、取得された検出されるキャビン内の画像に対してターゲット検出を実行することができ、それにより、検出されるキャビン内の画像に検出される対象がいるか否かを決定することができ、例示的に、当該検出される対象は、キャビン内の人員によって紛失された物であり得、そうすると、キャビン内の人員によって紛失された物を検出した場合、対応する提示を実行することができ、それにより、乗車環境内の物を失う確率を低減し、乗車環境内の物の安全性を向上させることができる。
【0043】
上記のS103に対して、検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、プリセット時間を超えることに応答して、提示情報を送信するとき、
減らしたキャビン内人員が乗客である場合、検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、第1プリセット時間を超えることに応答して、第1提示情報を送信することであって、第1提示情報は、乗客に物の残りを提示するために使用されることと、
減らしたキャビン内人員が運転者である場合、検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、第2プリセット時間を超えることに応答して、第2提示情報を送信するように構成されることとを含み得、第2提示情報は、運転者に物の残りを提示するために使用される。
【0044】
例示的に、ここでの第1プリセット時間と第2プリセット時間は同じであってもよいし、異なってもよいし、運転者が、一時的にキャビンから離れた可能性があることを考慮して、ここでの第2プリセット時間は、第1プリセット時間より大きいことができる。
【0045】
例示的に、第1提示情報と第2提示情報は、両方とも音声放送であり得、ここで第1提示情報は、乗客または運転者を提示するために使用され、第2提示情報は、運転者を提示するために使用される。
【0046】
これから分かるように、本発明の実施例において、異なるタイプのキャビン内人員に対して、キャビン内に残り物があると検出した場合、それぞれ提示して、乗車の安全を向上させる。
【0047】
本発明のいくつかの実施例において、減らしたキャビン内人員が、運転者および/または乗客であり、検出されるキャビン内の画像に検出される対象がいると決定した後、提示情報を送信する前に、対象の検出方法は、
キャビンにおける検出される対象の位置に従って、検出される対象の帰属人員を決定することをさらに含み、ここで、検出される対象の帰属人員は、運転者および/または乗客である。
【0048】
取得された検出されるキャビン内の画像に従って、各キャビン内人員がキャビン内における位置、および当該キャビン内人員に対応する検出される物を決定することができ、このようにして、検出される対象と位置との関連付け関係、および位置とキャビン内人員との関連付け関係を確立することができ、その後、さらに、キャビンにおける検出される対象の位置に従って、当該検出される対象の帰属人員を決定することができる。検出される対象の帰属人員を決定した後、帰属人員に従って対応する提示情報を送信する。
【0049】
これから分かるように、本発明の実施例において、キャビンにおける検出される対象の位置に基づいて、検出される対象の帰属人員を決定し、それにより、後続の分類提示の実行を容易にすることができる。
【0050】
一実施形態において、上記のS102に対して、検出されるキャビン内の画像に対してターゲット検出を実行するとき、
図2を参照すると、以下のステップS201ないしS203を含む。
【0051】
S201において、検出されるキャビン内の画像に対して特徴抽出を実行して、複数のチャネルのうちの各チャネルに対応する第1特徴マップを取得し、ここで、各チャネルに対応する第1特徴マップは、当該チャネルに対応する画像特徴カテゴリにおける検出される対象の特徴に対して強化処理を実行した後の特徴マップである。
【0052】
検出されるキャビン内の画像に対して特徴抽出を実行することは、事前にトレーニングされた特徴抽出ネットワークを介して特徴抽出を実行して、複数のプリセットチャネルに対応する第1特徴マップを取得することであり得、ここで、各チャネルは、検出されるキャビン内の画像に対応する画像特徴カテゴリとして理解でき、例えば、検出されるキャビン内の画像に対して特徴抽出を実行した後、2つのチャネルにそれぞれ対応する第1特徴マップを取得することができ、そのうちの最初のチャネルは、検出されるキャビン内の画像のテクスチャ特徴に対応することができ、二番目のチャネルは、検出されるキャビン内の画像の色の特徴に対応することができ、三番目のチャネルは、検出されるキャビン内の画像のサイズ特徴に対応することができ、このようにして、各画像特徴カテゴリにおける検出されるキャビン内の画像の特性図を取得することができる。
【0053】
検出される対象とキャビン内の背景を明確に区別するために、検出されるキャビン内の画像に対して特徴抽出を実行して、第1特徴マップを取得するプロセスでは、各チャネルに対応する第1特徴マップ内の検出される対象を表す特徴情報と、キャビン内の背景を表す特徴情報に対して区別処理を実行する。例えば、検出される対象を表す特徴情報に対して強化処理を実行し、キャビン内背景を表す特徴情報に対して弱化処理を実行することができ、または、検出される対象を表す特徴情報にのみ強化処理を実行することができ、または、キャビン内背景を表す特徴情報にのみ弱化処理を実行することができ、それにより、取得された各第1特徴マップのうち、検出される対象を示す特徴情報の強度が、キャビン内背景を示す特徴情報の強度より大きくする。
【0054】
S202において、各チャネルに対して、当該チャネルに対応する第1特徴マップと他のチャネルにそれぞれ対応する第1特徴マップに対して、特徴情報融合を実行して、融合された第2特徴マップを取得する。
【0055】
各チャネルの傾向は、当該チャネルに対応する画像特徴カテゴリにおける検出されるキャビン内の画像の特徴情報を示すため、特徴情報がより完全な特徴マップを取得するために、ここでは、各チャネルに対して、当該チャネルに対応する第1特徴マップと他のチャネルにそれぞれ対応する第1特徴マップに対して、特徴情報融合を実行して、複数の画像特徴カテゴリを含む第2特徴マップを取得することができる。
【0056】
ここで、各チャネルに対応する第1特徴マップ内の特徴情報は、当該チャネルに対応する第1特徴マップ内の特徴データを介して示すことができ、特徴情報の融合は、各第1特徴マップ内の特徴データを融合して、融合された第2特徴マップを取得することを指す。
【0057】
具体的に、第1特徴マップに基づいて特徴情報の融合を実行して、第2特徴マップをどのように取得するかの詳細なプロセスは、以下で具体的な実施例の形で詳細に説明する。
【0058】
S203において、融合された第2特徴マップに基づいて、検出されるキャビン内の画像内の検出される対象を検出する。
【0059】
ここで、融合された第2特徴マップに基づいて、検出されるキャビン内の画像内の検出される対象を検出するプロセスは、事前にトレーニングされたニューラルネットワークのうちのターゲット検出ネットワークに基づいて、検出されるキャビン内の画像内の検出される対象を検出することであり得、即ち、融合された第2特徴マップを当該事前にトレーニングされたニューラルネットワークのうちのターゲット検出ネットワークに入力して、検出されるキャビン内の画像内の検出される対象を検出することを完了できる。
【0060】
ここで、検出されるキャビン内の画像内の検出される対象を検出することは、検出されるキャビン内の画像に検出される対象がいるか否かを検出することを指すことができ、且つ、検出されるキャビン内の画像に検出される対象がいると決定した場合、当該検出されるキャビン内の画像にける検出される対象の位置情報を決定する。
【0061】
本発明の実施例において、特徴抽出を介してえられた第1特徴マップは、当該チャネルに対応する画像特徴カテゴリにおける検出される対象の特徴に対して強化処理を実行した後の特徴マップであり、即ち、各第1特徴マップに含まれる検出される対象の特徴情報は、非検出される対象の特徴情報と比較して強化処理が実行され、このようにして、特徴情報を介して、検出される対象と検出されるキャビン内の画像内の背景領域とを明確に区別でき、その後、各チャネルに対して、当該チャネルに対応する第1特徴マップと、他のチャネルにそれぞれ対応する第1特徴マップに対して特徴情報の融合を実行して、特徴情報がより完全な検出される対象を取得し、その後、このような第2特徴マップに基づいて、検出されるキャビン内の画像内の検出される対象の検出を完了して、検出されるキャビン内の画像内の検出される対象を正確に検出することができる。
【0062】
上記のS202に対して、各チャネルに対して、当該チャネルに対応する第1特徴マップと他のチャネルにそれぞれ対応する第1特徴マップに対して、特徴情報融合を実行して、融合された第2特徴マップを取得するとき、
(1)特徴情報融合を実行する複数の第1特徴マップに対して、複数の第1特徴マップに対応する重み行列を決定することと、
(2)重み行列に基づいて、複数の第1特徴マップの特徴情報に対して加重加算を実行して、各融合特徴情報を含む第2特徴マップを取得するここと、を含み得る。
【0063】
いくつかの実施例において、検出されるキャビン内の画像に対して特徴抽出を実行した後、h*w*cのサイズの第1特徴マップを取得し、ここで、cは、第1特徴マップの数、即ち、検出されるキャビン内の画像に対して特徴抽出を実行した後得られるチャネル数を示し、各チャネルは、1つの第1特徴マップに対応し、h*wは、各第1特徴マップのサイズを示し、且つ、各第1特徴マップは、h*w個の特徴ポイントに対応する特徴データを含む。
【0064】
ここで、複数の第1特徴マップに対して特徴情報の融合を実行することにより、得られた融合された第2特徴マップのサイズは、同じくh*w*cであり、即ち、同様に、各チャネルは、1つの第2特徴マップに対応し、各第2特徴マップのサイズはh*wであり、第2特徴マップのうちの任意の1つの特徴ポイントに対応する特徴データは、各チャネルに対応する第1特徴マップの、および第2特徴マップの当該任意の1つの特徴ポイントと同じ位置の特徴ポイントに対応する特徴データを融合することにより得られることであり、具体的な融合方式は、以下の通りである。
【0065】
ここでの重み行列は、c個のチャネルにそれぞれ対応する重みベクトルを含み、各チャネルに対応する重みベクトル内の重み値は、各第1特徴マップ内の特徴データが、当該チャネルに対応する第2特徴マップを決定するときの重み値を示す。
【0066】
例えば、cは、3と等しく、即ち、検出されるキャビン内の画像に対して特徴抽出を実行した後、3つのチャネルに対応する第1特徴マップを取得することを示し、即ち、3つの第1特徴マップを取得し、各第1特徴マップには、h*w個の特徴ポイントに対応する特徴データが含まれ、このh*w個の特徴データは、h*w次元の特徴ベクトルを構成でき、特徴ベクトル内の各特徴データは、即ち、第1特徴マップの各特徴ポイントの特徴データに対応する。
【0067】
このよいにして、各チャネルに対応する第1特徴マップの特徴ベクトル、および当該第1特徴マップが、当該チャネルの第2特徴マップを構成するときに対応する重み値を決定した後、当該チャネルに対応する重み行列に従って、各チャネルに対応する第1特徴マップ内の特徴データに対して加重加算を実行して、当該チャネルに対応する第2特徴マップ内の特徴データを取得することができる。
【0068】
これから分かるように、本発明の実施例において、検出される対象に含まれる特徴情報を豊富にし、およびキャビン内の画像内の検出される対象と背景領域の区別を増加して、後に、より豊富で且つ、背景領域との区別がより大きい特徴情報に基づいて、当該検出されるキャビン内の画像に、検出される対象がいるか否か、および検出される対象の位置情報を正確に決定することを容易にする。
【0069】
以下は、各チャネルに対応する第1特徴マップを融合して融合された第2特徴マップをどのように取得するかを一実施例で説明する。
【0070】
検出されるキャビン内の画像に対して特徴抽出を実行して、3つのチャネルに対応する第1特徴マップを取得し、各第1特徴マップのサイズは、h*wであり、即ち、各第1特徴マップは、h*w個の特徴データを含み、各第1特徴マップに対応する特徴ベクトルによって構成された特徴行列が、
であると仮定すると、
ここで、
は、最初のチャネルに対応する第1特徴マップの特徴ベクトルを示すために使用されることができ、
は、最初のチャネルに対応する第1特徴マップ内の最初の特徴ポイントの特徴データを示し、
は、最初のチャネルに対応する第1特徴マップ内の二番目の特徴ポイントの特徴データを示し、
は、最初のチャネルに対応する第1特徴マップ内のh*w番目の特徴ポイントの特徴データを示す。
【0071】
は、最初のチャネルに対応する第2特徴マップの特徴ベクトルを示すために使用されることができ、
は、最初のチャネルに対応する第2特徴マップ内の最初の特徴ポイントの特徴データを示し、
は、最初のチャネルに対応する第1特徴マップ内の二番目の特徴ポイントの特徴データを示し、
は、二番目のチャネルに対応する第2特徴マップ内のh*w番目の特徴ポイントの特徴データを示す。
【0072】
は、最初のチャネルに対応する第3特徴マップの特徴ベクトルを示すために使用されることができ、
は、最初のチャネルに対応する第3特徴マップ内の最初の特徴ポイントの特徴データを示し、
は、最初のチャネルに対応する第1特徴マップ内の二番目の特徴ポイントの特徴データを示し、
は、三番目のチャネルに対応する第3特徴マップ内のh*w番目の特徴ポイントの特徴データを示す。
【0073】
3つの第1特徴マップに対応する重み行列が、
であると仮定すると、
ここで、
は、最初のチャネルに対応する第2特徴マップを決定するとき、異なる第1特徴マップにそれぞれ対応する重みベクトルを示し、
は、最初のチャネルに対応する第1特徴マップ内の各特徴データが、最初のチャネルに対応する第2特徴マップを決定するときの重み値を示し、
は、二番目のチャネルに対応する第1特徴マップ内の各特徴データが、最初のチャネルに対応する第2特徴マップを決定するときの重み値を示し、
は、三番目のチャネルに対応する第1特徴マップ内の各特徴データが、最初のチャネルに対応する第2特徴マップを決定するときの重み値を示す。
【0074】
ここで、
は、最初のチャネルに対応する第2特徴マップを決定するとき、異なる第2特徴マップにそれぞれ対応する重みベクトルを示し、
は、最初のチャネルに対応する第1特徴マップ内の各特徴データが、最初のチャネルに対応する第2特徴マップを決定するときの重み値を示し、
は、二番目のチャネルに対応する第2特徴マップ内の各特徴データが、最初のチャネルに対応する第2特徴マップを決定するときの重み値を示し、
は、三番目のチャネルに対応する第2特徴マップ内の各特徴データが、二番目のチャネルに対応する第2特徴マップを決定するときの重み値を示す。
【0075】
ここで、
は、最初のチャネルに対応する第3特徴マップを決定するとき、異なる第3特徴マップにそれぞれ対応する重みベクトルを示し、
は、最初のチャネルに対応する第1特徴マップ内の各特徴データが、最初のチャネルに対応する第2特徴マップを決定するときの重み値を示し、
は、二番目のチャネルに対応する第3特徴マップ内の各特徴データが、最初のチャネルに対応する第3特徴マップを決定するときの重み値を示し、
は、三番目のチャネルに対応する第2特徴マップ内の各特徴データが、二番目のチャネルに対応する第2特徴マップを決定するときの重み値を示す。
【0076】
いくつかの実施例において、重み行列に基づいて、複数の第1特徴マップの特徴情報に対して加重加算を実行する場合、最初のチャネルに対応する第2特徴マップを決定するとき、以下の公式(1)に従って決定することができる。
(1)
【0077】
ここで、最初のチャネルに対応する第2特徴マップ内の最初の特徴ポイントの特徴データは、
であり、最初のチャネルに対応する第2特徴マップ内の二番目の特徴ポイントの特徴データは、
であり、最初のチャネルに対応する第2特徴マップ内のh*w番目の特徴ポイントの特徴データは、
である。
【0078】
同様に、同じ方式に従って、二番目のチャネルに対応する第2特徴マップおよび三番目のチャネルに対応する第2特徴マップを決定することができる。
【0079】
上記の融合された第2特徴マップを決定する方式は、第1特徴マップに対応する重み行列を決定して、各チャネルを含む対応する第2特徴マップを取得し、そうすると、各第2特徴マップは、すべて複数チャネルに対応する画像特徴カテゴリにおける特徴を融合して得られることであり、検出されるキャビン内の画像に検出される対象が含まれる場合、融合された第2特徴マップには、検出される対象のより豊富な特徴情報が含まれることができ、さらに、第1特徴マップでは検出対象の特徴に対して強化処理を実行したため、第1特徴マップに基づいて得られた融合された第2特徴マップでの、検出される対象の特徴情報と背景領域の特徴情報との区別もより大きく、それにより、後のより豊富で且つ背景領域との区別がよる大きい特徴情報に基づいて、当該検出されるキャビン内の画像に、検出される対象がいるか否か、および検出される対象の位置情報を正確に決定することを容易にする。
【0080】
融合された第2特徴マップを取得した後、融合された第2特徴マップに従って、検出されるキャビン内の画像内の検出される対象を検出することができ、いくつかの実施例において、融合された第2特徴マップに基づいて、検出されるキャビン内の画像内の検出される対象を検出するとき、
図3に示されたように、以下のステップS301ないしS303を含み得る。
【0081】
S301において、融合された第2特徴マップに基づいて、設定数の候補領域を決定し、各候補領域は、数を設定する特徴ポイントを含む。
【0082】
ここで、候補領域は、検出される対象を含む可能性がある領域を指し、ここで、候補領域の数および各候補領域に含まれる特徴ポイントの設定数は、事前にトレーニングされたニューラルネットワークのうちの候補領域抽出ネットワークによって決定されることができる。
【0083】
いくつかの実施例において、候補領域の設定数は、ターゲット検出ネットワークのテスト精度に基づいて考慮され、例えば、ネットワークトレーニングのプロセスでは、大量の検出されるサンプル画像にそれぞれ対応する融合された第2サンプル特徴マップに対して、候補領域の数を調整し続け、その後、テストプロセスでは、トレーニングするターゲット検出ネットワークをテストし、異なる候補領域に対応するテスト精度を介して、候補領域の設定数を決定する。
【0084】
ここで、各候補領域に含まれる設定数は、ターゲット検出ネットワークのテスト速度と、テスト精度とを総合的に考慮することに基づいて事前に決定することができ、例えば、ネットワークトレーニングのプロセスでは、まず、候補領域の数を変化しなく、各候補領域に含まれる特徴ポイントの数を調整し続け、その後、テストプロセスでは、ターゲット検出ネットワークをテストし、テスト速度およびテスト精度を総合的に考慮して、各候補領域に含まれる特徴ポイントの設定数を決定する。
【0085】
S302において、各候補領域に含まれる特徴ポイントの特徴データに基づいて、当該候補領域に対応する信頼度を決定し、各候補領域に対応する信頼度は、当該候補領域に検出される対象を含む信頼度を表すために使用される。
【0086】
各候補領域に含まれる特徴ポイントは、すべて特徴データに対応し、これらの特徴データに従って、当該候補領域が検出される対象を含む信頼度を決定することができ、例示的に、各候補領域に対応する信頼度に対して、事前にトレーニングされるニューラルネットワークのうちのターゲット検出ネットワークを介して決定されることができ、即ち、当該候補領域内の特徴データを事前にトレーニングされるニューラルネットワークのうちのターゲット検出ネットワークに入力して、当該候補領域に対応する信頼度を取得することができる。
【0087】
S303において、各候補領域に対応する信頼度および異なる候補領域間の重複領域に基づいて、設定数の候補領域から、検出される対象に対応する検出領域をスクリーニングし、検出領域は、検出されるキャビン内の画像における検出される対象の位置を識別するために使用される。
【0088】
いくつかの実施例において、各候補領域に対応する信頼度および異なる候補領域間の重複領域に基づいて、設定数の候補領域から検出される対象に対応する検出領域をスクリーニングするとき、ここで、まず設定数の候補領域から信頼度ソートする前の設定数のターゲット候補領域をスクリーニングすることができ、その後、事前に設定された信頼度閾値および異なる候補領域間の重複領域に基づいて、検出される対象に対応する検出領域を決定することができる。
【0089】
例えば、対応する信頼度が、当該信頼度閾値より高いターゲット候補領域が、検出される対象に対応する検出領域の確率が大きいと見なされ、且つ、候補領域間に重複する候補領域があると総合的に考慮する場合、重複した候補領域の重複面積が、設定面積閾値より大きい場合、重複した候補領域に含まれる検出される対象は、同じ検出される対象である可能性があることを説明することができ、当該考慮に基づいて、さらに、ターゲット候補領域で検出される対象に対応する検出領域を選択し、例えば、ターゲット候補領域で、信頼度が信頼度閾値より高いターゲット候補領域を保留し、且つ、重複した領域のターゲット候補領域で、信頼度が最も高いターゲット候補領域を保留して、検出される対象に対応する検出領域を取得することができる。
【0090】
以上の設定数の候補領域から信頼度ソートの前の設定数のターゲット候補領域をスクリーニングするプロセスでは、ターゲット検出ネットワークに従って決定されることができ、具体的には、ターゲット検出ネットワークのテスト速度とテスト精度を総合的に考慮することに基づいて事前に決定することができ、例えば、ネットワークトレーニングのプロセスでは、ターゲット候補領域の数を調整し続け、その後、テストプロセスでは、ターゲット検出ネットワークをテストし、テスト速度およびテスト精度を総合的に考慮して、ここでのターゲット候補領域の設定数を決定する。
【0091】
もちろん、ここでの各候補領域に対応する信頼度が、すべて設定閾値より小さい場合、当該検出されるキャビン内の画像に検出される対象がいないと示し、当該場合については、本発明の実施例は詳細に説明しない。
【0092】
上記のS301ないしS303に従って、検出されるキャビン内の画像の検出される対象を含む検出領域を取得することができ、即ち、検出されるキャビン内の画像における検出される対象の位置を取得することができ、ここで、融合された第2特徴マップを介して候補領域を決定し、融合された第2特徴マップに含まれる検出される対象の特徴情報と背景領域の特徴情報の区別が比較的におおきく、且つ、含まれる検出される対象の特徴情報がより豊富であるため、当該融合された第2特徴マップに基づいて、検出される領域における検出される対象の位置を示す候補領域および各候補領域の信頼度を正確に取得することができる。さらに、ここでは、候補領域の重複領域を考慮して、検出される対象がいる可能位置情報をスクリーニングして、当該検出されるキャビン内の画像に検出される対象がいるか否かおよび検出される対象の位置情報を正確に取得することができることを提案する。
【0093】
本発明の実施例によって提案される対象の検出方法は、多くの適用シナリオでは、検出されるキャビン内の画像を取得し続け、検出されるキャビン内の画像を検出する必要があり、例えば、交通輸送シナリオにおける残り物を検出する場合があるため、車に画像収集部品を設置し、例えば、車にカメラを設置し、且つ、当該カメラを設定位置に向かって撮影するようにすることができ、この場合、以下のステップに従って、検出されるキャビン内の画像を取得することができる。
【0094】
(1)検出されるキャビン内のビデオストリームを取得する。
【0095】
(2)検出されるキャビン内のビデオストリームに含まれる連続するマルチフレームのキャビン内の画像から、検出されるキャビン内の画像を間隔を置いて抽出する。
【0096】
例示的に、交通輸送のシナリオにおける残り物を検出する時に対して、ここでの検出されるキャビン内のビデオストリームは、画像収集部品が、車内設定位置に対して撮影したビデオストリームであり得、各秒で収集されたビデオストリームは、連続のマルチフレームのキャビン内の画像を含み得、隣接する2フレームの画像間の期間が短いため、隣接する2フレームのキャビン内の画像の類似度が高いことを考慮して、検出効率を改善するために、ここでは、連続のマルチフレームのキャビン内の画像で間隔抽出を実行して、上記の検出されるキャビン内の画像を取得することができることを提案する。例えば、ある期間で得られた検出されるキャビン内のビデオストリームに1000フレームの画像が含まれる場合、一フレームごとに一回抽出して、500フレームの検出されるキャビン内の画像を取得することができ、ここで、この500フレームの検出されるキャビン内の画像を検出して、キャビン内の残り物を検出する目的を完了することができる。
【0097】
ここで、間隔方式に従って検出されるキャビン内の画像を抽出し、検出されるキャビン内のビデオストリームから検出する必要がある検出されるキャビン内の画像を取得して、検出効率を改善することができる。
【0098】
別の一実施形態において、上記のS102に対して、前記検出されるキャビン内の画像に対してターゲット検出を実行するとき、さらに、各フレームキャビン内の画像における検出される対象の位置情報を追跡することができ、
図4に示されたように、さらに、以下のS401ないしS404を含む。
【0099】
S401において、検出されるキャビン内のビデオストリームにおける各キャビン内の画像を追跡される画像として使用し、各非最初のフレームの追跡される画像に対して、当該非最初のフレームの追跡される画像の前の一フレームの追跡される画像内の検出される対象の位置情報、および当該非最初のフレームの追跡される画像に基づいて、当該非最初のフレームの追跡される画像における検出される対象の予測位置情報を決定する。
【0100】
検出される対象を追跡するとき、検出されるキャビン内のビデオストリームのうちの第2フレームキャビン内の画像から始め、検出される対象を順次に追跡することができ、第1フレームのキャビン内の画像における検出される対象の位置情報は、上記のターゲット検出方式を介して決定することができる。例えば、上記の方式に従って、間隔を置いて抽出されたキャビン内の画像に対して対象検出を実行し、間隔を置いて抽出されるキャビン内の画像における検出される対象の位置情報をそれぞれ決定する。例示的に、例えば、第1フレームのキャビン内の画像、第3フレームのキャビン内の画像、第5フレームのキャビン内の画像などの単数フレームのキャビン内の画像に対してターゲット検出を実行し、第2フレームキャビン内の画像における検出される対象の位置情報を追跡するとき、第1フレームのキャビン内の画像内の検出される対象の位置情報および当該第2フレームキャビン内の画像に基づいて、第2フレームキャビン内の画像における検出される対象の予測位置情報を決定することができる。
【0101】
具体的には、検出される対象を追跡するとき、予めトレーニングされたニューラルネットワークのうちのターゲット追跡ネットワークに基づいて追跡することができ、例えば、第1フレームの追跡される画像と第2フレームの追跡される画像に対して、当該第1フレームの追跡される画像における検出される対象の検出領域、および当該検出領域に含まれる特徴ポイントの特徴データに従い、ここでの検出領域は、対応する座標情報を有し、その後、当該検出領域、当該検出領域に含まれる特徴ポイントの特徴データおよび第2フレームの追跡される画像をターゲット追跡ネットワークに入力して、第1フレーム追跡される画像における検出される対象の検出領域に対応する座標情報に基づいて、第2フレームの追跡される画像における当該座標情報に対応する部分的な領域で、当該検出領域に含まれる特徴ポイントの特徴データとの類似度が閾値を超える検出領域があるか否かを探すことができ、ある場合、第2フレームの追跡される画像が、第1フレームの追跡される画像における検出される対象を含むと決定し、且つ、第1フレームの追跡される画像における検出される対象が第2フレーム追跡される画像における位置情報を取得し、即ち、検出される対象の追跡完了することができる。
【0102】
もちろん、第2フレームの追跡される画像における当該座標情報に対応する部分的な領域に、当該検出領域に含まれる特徴ポイントの特徴データとの類似度が閾値を超える検出領域がない場合、第2フレームの追跡される画像に、第1フレームの追跡される画像内の検出される対象が含まれないと説明でき、当該検出される対象が位置を移動したことを決定できる。
【0103】
S402において、当該非最初のフレームの追跡される画像が、検出される対象を検出する、検出されるキャビン内の画像であるか否かを決定する。
【0104】
当該非最初のフレームの追跡される画像に含まれる検出される対象の予測位置情報を取得した後、当該非最初のフレームの追跡される画像における検出される対象の位置情報に基づいて、次のフレームの追跡される画像における当該検出される対象の位置情報を予測することができる。
【0105】
その前に、まず、当該非最初のフレームの追跡される画像が、検出される対象を検出した検出されるキャビン内の画像であるか否かを決定して、当該非最初のフレーム追跡される画像における検出された検出される対象の位置情報に基づいて、当該非最初のフレームの追跡される画像における当該検出される対象の予測位置情報を修正するか否かを考慮することを容易にし、それにより、修正された位置情報に基づいて、次のフレーム追跡される画像における検出される対象の位置を追跡する。
【0106】
S403において、当該非最初のフレームの追跡される画像が、検出される対象を検出する検出されるキャビン内の画像であると決定した場合、検出された位置情報を当該非最初のフレームの追跡される画像における検出される対象の位置情報として使用する。当該非最初のフレームの追跡される画像が、検出される対象を検出する検出されるキャビン内の画像であると決定した場合、決定した予測位置情報を当該非最初のフレームの追跡される画像における検出される対象の位置情報として使用する。
【0107】
当該非最初のフレームの追跡される画像が、検出される対象を検出する検出されるキャビン内の画像であると決定した場合、検出された位置情報を当該非最初のフレームの追跡される画像における検出される対象の位置情報として使用し、即ち、当該非最初のフレームの追跡される画像における当該検出される対象の予測位置情報の修正を完了し、後続で、当該非最初のフレームの追跡される画像における当該検出される対象の位置情報に基づいて、当該検出される対象を追跡するとき、より正確にすることができる。
【0108】
当該非最初のフレームの追跡される画像が、検出される対象を検出した検出されるキャビン内の画像ではない場合、当該非最初のフレームの追跡される画像における検出される対象の予測位置情報に基づいて、次のフレームの追跡される画像における当該検出される対象の位置を追跡し続けることができ、当該方式は、各モーメントでのキャビン内における検出される対象の位置を推定し、それにより、追跡効率を改善することができる。
【0109】
本発明の実施例において、非最初のフレームの追跡される画像の次のフレームの追跡される画像における検出される対象の位置情報に基づいて、当該非最初のフレームの追跡される画像を追跡し、当該非最初のフレームの追跡される画像における検出される対象の予測位置情報を決定し、追跡プロセスでは、検出された位置情報に基づいて予測された位置情報を調整することもでき、このようにして、検出される対象を追跡する効率と精度を向上させることができる。
【0110】
一実施形態において、本発明の実施例による検出されるキャビン内の画像に対してターゲット検出を実行することは、ニューラルネットワークによって実行され、ここでのニューラルネットワークは、検出されるサンプル対象を含むキャビン内のサンプル画像と、検出されるサンプル対象を含まないキャビン内の画像を使用してトレーニングすることにより得られる。
【0111】
例示的に、ニューラルネットワークのうちターゲット検出を実行するネットワークは、以下の方式に従ってトレーニングして得られることができ、
図5に示されたように、具体的に、S501ないしS505を含む。
【0112】
S501において、検出されるキャビン内のサンプル画像を取得する。
【0113】
ここでの検出されるキャビン内のサンプル画像は、即ち、検出されるサンプル対象を含むキャビン内のサンプル画像を含み、陽性サンプル画像と記載でき、および検出されるサンプル対象を含まないキャビン内のサンプル画像を含み、陰性サンプル画像と記載できる。
【0114】
車内シナリオにおける物の検出に対して、キャビン内のサンプル画像における残り物の形態は、様々なカラーブロックであり得、例えば、携帯電話、トランクなどは、長方形のカラーブロックで表示することができ、ウォーターカップは、円筒形のカラーブロックで表示できることを考慮して、実行ニューラルネットワークが、どれが検出される対象であるか、どれが座席、窓などの車内背景であるかをより良く識別できるようにするために、ここでは、非検出される対象を表示するために、キャビン内のサンプル画像にいくつかの非検出される物のランダムカラーブロックを追加し、ニューラルネットワークをトレーニングすることにより、真の検出される対象および非真のランダムカラーブロックおよび車内背景を区別し続けて、精度高いニューラルネットワークを取得することができる。
【0115】
S502において、検出されるキャビン内のサンプル画像に対して特徴抽出を実行して、複数のチャネルのうちの各チャネルに対応する第1サンプル特徴マップを取得し、ここで、各チャネルに対応する第1サンプル特徴マップは、当該チャネルに対応する画像特徴カテゴリにおける検出されるサンプル対象の特徴に対して強化処理を実行した後のサンプル特徴マップである。
【0116】
ここで、検出されるサンプル画像に対して特徴抽出を実行して、複数のチャネルのうちの各チャネルに対応する第1サンプル特徴マップを取得するプロセスは、上記の検出されるキャビン内の画像に対して特徴抽出を実行して、複数のチャネルのうちの各チャネルに対応する第1特徴マップを取得するプロセスと類似し、ここでは繰り返して説明しない。
【0117】
S503において、各チャネルに対して、当該チャネルに対応する第1サンプル特徴マップと他のチャネルにそれぞれ対応する第1サンプル特徴マップに対して、特徴情報融合を実行して、融合された第2サンプル特徴マップを取得する。
【0118】
ここで、第1サンプル特徴マップに基づいて、融合された第2サンプル特徴マップを取得するプロセスは、上記の第1特徴マップに基づいて、融合された第2特徴マップを取得するプロセスと類似し、ここでは繰り返して説明しない。
【0119】
S504において、融合された第2サンプル特徴マップに基づいて、検出されるキャビン内のサンプル画像内の検出されるサンプル対象を予測する。
【0120】
ここで、融合された第2サンプル特徴マップに基づいて、キャビン内のサンプル画像における検出されるサンプル対象を事前に記憶することは、上記の融合された第2特徴マップに基づいて、検出されるキャビン内の画像における検出される対象を検出するプロセスと類似し、ここでは繰り返して説明しない。
【0121】
S505において、予測された検出されるキャビン内のサンプル画像における検出されるサンプル対象、検出されるサンプルを含む検出されるキャビン内のサンプル画像内の、および検出されるサンプルを含まない検出されるキャビン内のサンプル画像に基づいて、ニューラルネットワークのうちのネットワークパラメータ値を調整する。
【0122】
ここで、予測された検出されるキャビン内のサンプル画像における検出されるサンプル対象の位置情報、検出されるサンプルを含む検出されるキャビン内のサンプル画像、および検出されるサンプルを含まない検出されるキャビン内サンプル画像を介して、予測された検出されるキャビン内のサンプル画像における検出されるサンプル対象の位置情報の損失値を決定し、損失値を介して、ニューラルネットワークのうちのネットワークパラメータ値を調整し、複数のトレーニングの後、例えば、損失値が設定閾値より小さくするとき、トレーニングを停止して、トレーニングされたニューラルネットワークを取得することができる。
【0123】
さらに、上記の検出される画像を追跡するプロセスに対して、本発明の実施例は、さらに、ニューラルネットワークのうちのターゲット追跡ネットワークをトレーニングするプロセスを含み、ここで、検出されるサンプル対象、検出されるサンプル対象を含む追跡されるサンプル画像、および検出されるサンプル対象を含まない追跡されるサンプル画像をトレーニングして得られることができる。
【0124】
ここでの検出されるサンプル対象は、追跡する必要があるサンプル対象を指すことができ、例えば、車内シナリオにおける物の検出に対して、ここでの検出されるサンプル対象は、様々な車内シナリオにおける乗客の物であり得る。
【0125】
例示的に、ニューラルネットワークのうちのターゲット追跡ネットワークは、以下の方式を介してトレーニングして得られることができ、
図6に示されたように、具体的には、S601ないしS603を含む。
【0126】
S601において、追跡されるサンプル画像および検出されるサンプル対象に対応する検出されるサンプル対象情報を取得する。
【0127】
ここでの追跡されるサンプル画像は、検出されるサンプル対象を追跡する必要があるサンプル画像を指すことができ、ここでの追跡されるサンプル画像は、検出されるサンプル対象を含む陽性サンプル画像と、検出されるサンプル対象を含まない陰性サンプル画像を含む。
【0128】
ニューラルネットワークのうちのターゲット追跡ネットワークをトレーニングするとき、検出されるサンプル対象の検出領域画像および追跡されるサンプル画像を実行ニューラルネットワークに同時に入力することができ、当該検出されるサンプル対象の検出領域画像は、含検出されるサンプル対象に対応する検出されるサンプル対象情報を含み、即ち、検出される対象の検出領域、および当該検出領域に含まれる特徴ポイントの特徴データを含み得る。
【0129】
もちろん、同様に、キャビン内のシナリオにおける物の検出に対して、実行ニューラルネットワークが、どれが検出される対象であるか、どれが座席、窓などの車内背景であるかをより良く識別できるようにするために、ここでは、非検出される対象を表示するために、追跡されるサンプル画像にいくつかの非検出される対象のランダムカラーブロックを追加し、ニューラルネットワークをトレーニングすることにより、真の検出される対象および非真のランダムカラーブロックおよび車内背景を区別し続けて、ターゲット追跡を正確に実行するニューラルネットワークを取得することができる。
【0130】
S602において、検出されるサンプル対象情報および追跡されるサンプル画像に基づいて、サンプル画像における検出されるサンプル対象の位置を追跡し、サンプル画像における検出されるサンプル対象の位置情報を予測する。
【0131】
具体的に、同じ領域の連続に取得されたサンプル画像における検出されるサンプル対象を追跡することに対して、まず、検出されるサンプル対象情報の検出されるサンプル対象に対応する検出領域に基づいて、追跡されるサンプル画像における当該検出されるサンプル対象のっ部分的な領域を決定することができ、ここでの部分的な領域は、検出されるサンプル対象に対応する検出領域と接近し、それにより、部分的な領域で、特徴データに基づいて検出されるサンプル対象を見つけて、追跡されるサンプル画像における検出されるサンプル対象の位置情報を予測することができる。
【0132】
S603において、追跡されるサンプル画像における予測される検出されるサンプル対象の位置情報、検出されるサンプル対象を含む追跡されるサンプル画像と、検出されるサンプル対象を含まない追跡されるサンプル画像に基づいて、実行ニューラルネットワークのうちのネットワークパラメータ値を調整する。
【0133】
ここで、追跡されるサンプル画像における予測された検出されるサンプル対象の位置情報、検出されるサンプル対象を含む追跡されるサンプル画像と、検出されるサンプル対象を含まない追跡されるサンプル画像を介して、追跡されるサンプル画像内の検出されるサンプル対象の位置情報の損失値を決定することができ、複数のトレーニングの後、損失値を介して、ニューラルネットワークのうちのネットワークパラメータ値を調整し、例えば、損失値が設定閾値より小さくするとき、トレーニングを停止して、ニューラルネットワークのターゲット追跡ネットワークを取得することができる。
【0134】
本発明の実施例によるニューラルネットワークのターゲット追跡ネットワークのトレーニングプロセスは、追跡されるサンプル画像および検出されるサンプル対象に対応する検出されるサンプル対象情報を取得することにより、追跡されるサンプル画像における検出されるサンプル対象の位置を追跡し、それにより、追跡されるサンプル画像における検出されるサンプル対象の位置を迅速に決定し、その後、追跡されるサンプル画像における予測される検出されるサンプル対象の位置情報、検出されるサンプル対象を含む追跡されるサンプル画像と、検出されるサンプル対象を含まない追跡されるサンプル画像を介して、ニューラルネットワークのネットワークパラメータ値を調整して、精度の高いニューラルネットワークを取得し、当該精度の高いニューラルネットワークに基づいて、検出される対象に対して正確な追跡を実行することができる。
【0135】
当業者は、具体的な実施形態の上記方法において、ステップの書き込み順序は、厳密な実行順序で、実装過程の制限となることではなく、各ステップの特定の実行順序は、その機能と可能性に基づくべきであることを理解することができる。
【0136】
同じ技術構想に基づいて、本発明の実施例では、さらに、対象の検出方法に対応する対象の検出装置を提供し、本発明の実施例における装置が問題を解决する原理と本発明の実施例の上記の対象の検出方法と似てるため、装置の実施は方法の実施を参照でき、繰り返す部分は再び説明しない。
【0137】
図7を参照すると、本発明の実施例による対象の検出装置700の概略図であり、当該対象の検出装置700は、画像取得モジュール701、画像検出モジュール702、提示モジュール703を備える。
【0138】
画像取得モジュール701は、検出されるキャビン内の画像を取得するように構成され、
画像検出モジュール702は、キャビン内の人員が減らす場合、検出されるキャビン内の画像に対してターゲット検出を実行し、検出されるキャビン内の画像に検出される対象がいるか否かを決定するように構成され、
提示モジュール703は、検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、プリセット時間を超えることに応答して、提示情報を送信するように構成される。
【0139】
本発明のいくつかの実施例において、前記提示モジュール703が、前記検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、プリセット時間を超えることに応答して、提示情報を送信するように構成されることは、
減らしたキャビン内人員が乗客である場合、前記検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、第1プリセット時間を超えることに応答して、第1提示情報を送信し、前記第1提示情報は、乗客に物の残りを提示するために使用され、減らしたキャビン内人員が運転者である場合、前記検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、第2プリセット時間を超えることに応答して、第2提示情報を送信するように構成されることを含み、前記第2提示情報は、運転者に物の残りを提示するために使用される。
【0140】
本発明のいくつかの実施例において、減らしたキャビン内人員が、運転者および/または乗客であり、画像検出モジュール702が、前記検出されるキャビン内の画像に検出される対象がいると決定した後、提示モジュールが、提示情報を送信する前に、前記画像検出モジュール702は、さらに、
前記キャビンにおける前記検出される対象の位置に従って、前記検出される対象の帰属人員を決定するように構成され、ここで、前記検出される対象の帰属人員は、運転者および/または乗客である。
【0141】
本発明のいくつかの実施例において、前記画像検出モジュール702が、前記検出されるキャビン内の画像に対してターゲット検出を実行するように構成されることは、
前記検出されるキャビン内の画像に対して特徴抽出を実行して、複数のチャネルのうちの各チャネルに対応する第1特徴マップを取得し、ここで、各チャネルに対応する第1特徴マップは、当該チャネルに対応する画像特徴カテゴリにおける検出される対象の特徴に対して強化処理を実行した後の特徴マップであり、
各前記チャネルに対して、当該チャネルに対応する第1特徴マップと他のチャネルにそれぞれ対応する第1特徴マップに対して、特徴情報融合を実行して、融合された第2特徴マップを取得し、
前記融合された第2特徴マップに基づいて、前記検出されるキャビン内の画像内の前記検出される対象を検出するように構成されることを含む。
【0142】
本発明のいくつかの実施例において、前記画像検出モジュール702が、各前記チャネルに対して、当該チャネルに対応する第1特徴マップと他のチャネルにそれぞれ対応する第1特徴マップに対して、特徴情報融合を実行して、融合された第2特徴マップを取得するように構成されることは、
特徴情報融合を実行する複数の第1特徴マップに対して、前記複数の第1特徴マップに対応する重み行列を決定し、
前記重み行列に基づいて、前記複数の第1特徴マップの特徴情報に対して加重加算を実行して、各融合特徴情報を含む前記第2特徴マップを取得するように構成されることを含む。
【0143】
本発明のいくつかの実施例において、前記画像検出モジュール702が、前記融合された第2特徴マップに基づいて、前記検出されるキャビン内の画像内の前記検出される対象を検出するように構成されることは、
前記融合された第2特徴マップに基づいて、設定数の候補領域を決定し、各候補領域は、数を設定する特徴ポイントを含み、
各候補領域に含まれる特徴ポイントの特徴データに基づいて、当該候補領域に対応する信頼度を決定し、各候補領域に対応する信頼度は、当該候補領域に前記検出される対象を含む信頼度を表すために使用され、
各候補領域に対応する信頼度および異なる候補領域間の重複領域に基づいて、前記設定数の候補領域から、検出される対象に対応する検出領域をスクリーニングするように構成されることを含み、前記検出領域は、前記検出されるキャビン内の画像における前記検出される対象の位置を識別するために使用される。
【0144】
本発明のいくつかの実施例において、前記画像取得モジュール701が、前記検出されるキャビン内の画像を取得するように構成されることは、
検出されるキャビン内のビデオストリームを取得し、
前記検出されるキャビン内のビデオストリームに含まれる連続するマルチフレームのキャビン内の画像から、前記検出されるキャビン内の画像を間隔を置いて抽出するように構成されることを含む。
【0145】
本発明のいくつかの実施例において、前記画像検出モジュール702が、前記検出されるキャビン内の画像に対してターゲット検出を実行するように構成されることは、
前記検出されるキャビン内のビデオストリームにおける各キャビン内の画像を追跡される画像として使用し、各非最初のフレームの追跡される画像に対して、当該非最初のフレームの追跡される画像の前の一フレームの追跡される画像内の前記検出される対象の位置情報、および当該非最初のフレームの追跡される画像に基づいて、当該非最初のフレームの追跡される画像における前記検出される対象の予測位置情報を決定し、
当該非最初のフレームの追跡される画像が、検出される対象を検出する、検出されるキャビン内の画像であるか否かを決定し、
当該非最初のフレームの追跡される画像が、検出される対象を検出する検出されるキャビン内の画像であると決定した場合、検出された位置情報を当該非最初のフレームの追跡される画像における検出される対象の位置情報として使用し、
当該非最初のフレームの追跡される画像が、検出される対象を検出する検出されるキャビン内の画像であると決定した場合、決定した予測位置情報を当該非最初のフレームの追跡される画像における検出される対象の位置情報として使用するように構成されることを含む。
【0146】
本発明のいくつかの実施例において、対象の検出装置は、さらに、ニューラルネットワークトレーニングモジュール704を備え、ニューラルネットワークトレーニングモジュール704は、
検出されるキャビン内の画像に対してターゲット検出を実行するニューラルネットワークをトレーニングするように構成され、ニューラルネットワークは、検出されるサンプル対象を含むキャビン内サンプル画像と、検出されるサンプル対象を含まないキャビン内サンプル画像を使用してトレーニングして得られる。
【0147】
図1内の対象の検出方法に対応して、本発明の実施例は、さらに、電子機器800を提供し、
図8に示されたように、本発明の実施例による電子機器800の例示的な構造図であり、前記電子機器は、
プロセッサ81、メモリ82、およびバス83を備え、メモリ82は、実行命令を記憶するように構成され、ストレージ821および外部メモリ822を含み、ここでのストレージ821は、内部メモリとも称し得、プロセッサ401内の演算データ、およびハードディスクなどの外部メモリ4022と交換するデータを一時的に格納するように構成され、プロセッサ81は、ストレージ821および外部メモリ822を介してデータ交換を実行し、電子機器800が実行するとき、プロセッサ81とメモリ82とは、バス83を介して通信して、プロセッサ81に上記の方法実施例における任意の1つの対象の検出方法を実行させる。
【0148】
本発明の実施例は、さらに、コンピュータプログラムを記憶する、コンピュータ可読記憶媒体を提供し、当該コンピュータプログラムは、プロセッサによって実行されるとき、上記の方法実施例における任意の1つの対象の検出方法を実行する。ここで、当該記憶媒体は、揮発性または不揮発性のコンピュータ可読記憶媒体であり得る。
【0149】
本発明の実施例による対象の検出方法のコンピュータプログラム製品は、プログラムコードを記憶するコンピュータ可読記憶媒体を含み、プログラムコードに含まれる命令は、上記の方法実施例における任意の1つの対象の検出方法を実行するために使用されることができ、具体的には、上記の方法実施例を参照でき、ここでは繰り返して説明しない。
【0150】
本発明の実施例は、さらに、プロセッサによって実行されるとき、上記の実施例の任意の1つの方法を実現する、コンピュータプログラムを提供する。当該コンピュータプログラム製品は、具体的に、ハードウェア、ソフトウェアまたはそれらを組み合わせる方式を介して実現されることができる。1つの例示的な実施例において、前記コンピュータプログラム製品は、具体的には、コンピュータ記憶媒体として具現され、別の例示的な実施例において、コンピュータプログラム製品は、具体的には、ソフトウェア開発キット(SDK:Software Development Kit)などのソフトウェア製品として具現される。
【0151】
当業者なら理解できるが、説明の便宜および簡潔のために、上記に説明されるシステムおよび装置の具体的な作業プロセスは、上記の方法の実施例における対応するプロセスを参照することができ、ここでは繰り返して説明しない。本発明によるいくつかの実施例において、開示されたシステム、装置および方法は、他の方法で実現できることを理解されたい。上記で説明された装置実施例は、例示的なものに過ぎず、例えば、前記ユニットの分離は、論理機能の分離に過ぎず、実際の実現ときには別の分離方法があり、例えば、複数のユニットまたはコンポーネントを別のシステムに統合または集積したり、または一部の特徴を無視したり、または実行しないことができる。なお、表示または議論される相互結合、または直接結合、または通信接続は、いくつかの通信インターフェースを使用して実現することができ、装置またはユニット間の間接結合または通信接続は、電気的または機械的な形であってもよく、他の形であってもよい。
【0152】
前記分離部品として説明されるユニットは、物理的に分離されいてもされなくてもよく、ユニットとして表示される部品は、物理的ユニットであってもなくてもよい。つまり、1箇所に配置されてもよく、複数のネットワークユニットに分散されてもよい。実際のニーズに従って、その中の一部またはすべてのユニットを選択して、本実施例の技術案の目的を実現することができる。
【0153】
さらに、本発明の各実施例における各機能ユニットは、1つの処理ユニットに統合されてもよく、または各ユニットが、物理的に別々に存在してもよく、または2つまたは2つ以上のユニットが1つのユニットに統合されてもよい。
【0154】
前記機能が、ソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用される場合、プロセッサ実行可能な不揮発のコンピュータ可読記憶媒体に記憶されることができる。このような理解に基づいて、本発明の技術的解決策は、本質的にまたは先行技術に対して寄与する部分または前記技術的解決策の一部は、ソフトウェア製品の形で具現されることができ、前記コンピュータソフトウェア製品は、1つの記憶媒体に記憶され、1台のコンピュータ機器(パーソナルコンピュータ、サーバ、またはネットワーク機器等であり得る)に本発明の各実施例に記載の方法のすべてまたは一部のステップを実行させるためのいくつかの命令を含む。前述した記憶媒体は、Uディスク、モバイルハードディスク、読み取り専用メモリ(ROM:Read-Only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、磁気ディスクまたは光ディスク等のプログラムコードを記憶することができる様々な媒体を含む。
【0155】
最後に、上記の実施例は、本発明の技術的解決策を説明するための本発明の具体的な実施形態に過ぎず、それに対する限制ではなく、本発明の保護範囲はこれに限定されないことに留意されたい。上記の実施例を参照して本発明に対して詳細に説明したが、当業者は、本発明で開示された技術範囲内で任意の本技術分野を精通している技術人は、依然として、上記の実施例で記載された技術的解決策を修正し、または変更を容易に想到し、またはそのうちの部分的な技術特徴に対して均等に置き換えることができ、これらの修正、変化または置き換えは、対応する技術的解決策の本質を本発明の実施例の技術的解決策の思想および範囲を逸脱させなく、すべて、本発明の保護範囲に含まれるべきであることを理解するはずである。したがって、本発明の保護範囲は、特許請求の保護範囲を基準とするべきである。
【産業上の利用可能性】
【0156】
本発明は、対象の検出方法、装置、電子機器、記憶媒体およびコンピュータプログラムを提供し、ここで、当該対象の検出方法は、検出されるキャビン内の画像を取得することと、キャビン内の人員が減らす場合、前記検出されるキャビン内の画像に対してターゲット検出を実行し、前記検出されるキャビン内の画像に検出される対象がいるか否かを決定することと、前記検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、プリセット時間を超えることに応答して、提示情報を送信することと、を含む。このようにして、キャビン内人員が紛失した物を検出した場合、対応する提示を実行して、乗車環境における物を失う確率を低減し、乗車環境における物の安全性を向上させることができる。
【手続補正書】
【提出日】2021-09-29
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
対象の検出方法であって、
検出されるキャビン内の画像を取得することと、
キャビン内の人員が減らす場合、前記検出されるキャビン内の画像に対してターゲット検出を実行し、前記検出されるキャビン内の画像に検出される対象がいるか否かを決定することと、
前記検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、プリセット時間を超えることに応答して、提示情報を送信することと、を含む、前記対象の検出方法。
【請求項2】
前記検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、プリセット時間を超えることに応答して、提示情報を送信することは、
減らしたキャビン内人員が乗客である場合、前記検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、第1プリセット時間を超えることに応答して、第1提示情報を送信することであって、前記第1提示情報は、乗客に物の残りを提示するために使用されることと、
減らしたキャビン内人員が運転者である場合、前記検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、第2プリセット時間を超えることに応答して、第2提示情報を送信することであって、前記第2提示情報は、運転者に物の残りを提示するために使用されることと、を含む、
請求項1に記載の対象の検出方法。
【請求項3】
減らしたキャビン内人員が、運転者および/または乗客であり、前記検出されるキャビン内の画像に検出される対象がいると決定した後、提示情報を送信する前に、前記対象の検出方法は、
前記キャビンにおける前記検出される対象の位置に従って、前記検出される対象の帰属人員を決定することをさらに含み、前記検出される対象の帰属人員は、運転者および/または乗客である、
請求項1または2に記載の対象の検出方法。
【請求項4】
前記検出されるキャビン内の画像に対してターゲット検出を実行することは、
前記検出されるキャビン内の画像に対して特徴抽出を実行して、複数のチャネルのうちの各チャネルに対応する第1特徴マップを取得することであって、各チャネルに対応する第1特徴マップは、当該チャネルに対応する画像特徴カテゴリにおける検出される対象の特徴に対して強化処理を実行した後の特徴マップであることと、
各前記チャネルに対して、当該チャネルに対応する第1特徴マップと他のチャネルにそれぞれ対応する第1特徴マップに対して、特徴情報融合を実行して、融合された第2特徴マップを取得することと、
前記融合された第2特徴マップに基づいて、前記検出されるキャビン内の画像内の前記検出される対象を検出することと、を含む、
請求項1ないし3のいずれか一項に記載の対象の検出方法。
【請求項5】
各前記チャネルに対して、当該チャネルに対応する第1特徴マップと他のチャネルにそれぞれ対応する第1特徴マップに対して、特徴情報融合を実行して、融合された第2特徴マップを取得することは、
特徴情報融合を実行する複数の第1特徴マップに対して、前記複数の第1特徴マップに対応する重み行列を決定することと、
前記重み行列に基づいて、前記複数の第1特徴マップの特徴情報に対して加重加算を実行して、各融合特徴情報を含む前記第2特徴マップを取得することと、を含む、
請求項4に記載の対象の検出方法。
【請求項6】
前記融合された第2特徴マップに基づいて、前記検出されるキャビン内の画像内の前記検出される対象を検出することは、
前記融合された第2特徴マップに基づいて、設定数の候補領域を決定することであって、各候補領域は、数を設定する特徴ポイントを含むことと、
各候補領域に含まれる特徴ポイントの特徴データに基づいて、当該候補領域に対応する信頼度を決定することであって、各候補領域に対応する信頼度は、当該候補領域に前記検出される対象を含む信頼度を表すために使用されることと、
各候補領域に対応する信頼度および異なる候補領域間の重複領域に基づいて、前記設定数の候補領域から、検出される対象に対応する検出領域をスクリーニングすることであって、前記検出領域は、前記検出されるキャビン内の画像における前記検出される対象の位置を識別するために使用されることと、を含む、
請求項4に記載の対象の検出方法。
【請求項7】
前記検出されるキャビン内の画像を取得することは、
検出されるキャビン内のビデオストリームを取得することと、
前記検出されるキャビン内のビデオストリームに含まれる連続するマルチフレームのキャビン内の画像から、前記検出されるキャビン内の画像を間隔を置いて抽出することと、を含む、
請求項1に記載の対象の検出方法。
【請求項8】
前記検出されるキャビン内の画像に対してターゲット検出を実行することは、
前記検出されるキャビン内のビデオストリームにおける各キャビン内の画像を追跡される画像として使用し、各非最初のフレームの追跡される画像に対して、当該非最初のフレームの追跡される画像の前の一フレームの追跡される画像内の前記検出される対象の位置情報、および当該非最初のフレームの追跡される画像に基づいて、当該非最初のフレームの追跡される画像における前記検出される対象の予測位置情報を決定することと、
当該非最初のフレームの追跡される画像が、検出される対象を検出する、検出されるキャビン内の画像であるか否かを決定することと、
当該非最初のフレームの追跡される画像が、検出される対象を検出する検出されるキャビン内の画像であると決定した場合、検出された位置情報を当該非最初のフレームの追跡される画像における検出される対象の位置情報として使用することと、
当該非最初のフレームの追跡される画像が、検出される対象を検出する検出されるキャビン内の画像であると決定した場合、決定した予測位置情報を当該非最初のフレームの追跡される画像における検出される対象の位置情報として使用することと、をさらに含む、
請求項7に記載の対象の検出方法。
【請求項9】
前記検出されるキャビン内の画像に対してターゲット検出を実行することは、ニューラルネットワークによって実行され、
前記ニューラルネットワークは、検出されるサンプル対象を含むキャビン内のサンプル画像と、検出されるサンプル対象を含まないキャビン内のサンプル画像を使用してトレーニングすることにより得られる、
請求項1ないし8のいずれか一項に記載の対象の検出方法。
【請求項10】
対象の検出装置であって、
検出されるキャビン内の画像を取得するように構成される、画像取得モジュールと、
キャビン内の人員が減らす場合、前記検出されるキャビン内の画像に対してターゲット検出を実行し、前記検出されるキャビン内の画像に検出される対象がいるか否かを決定するように構成される、画像検出モジュールと、
前記検出されるキャビン内の画像に検出される対象がいる状態の持続時間が、プリセット時間を超えることに応答して、提示情報を送信するように構成される、提示モジュールと、を備える、前記対象の検出装置。
【請求項11】
プロセッサ、メモリおよびバスを備える、電子機器であって、前記メモリは、前記プロセッサの実行可能な機械可読命令を記憶し、電子機器が実行されるとき、前記プロセッサと前記メモリとは、バスを介して通信し、前記機械可読命令は、前記プロセッサによって実行されるとき、請求項1ないし9のいずれか一項に記載の対象の検出方法を実行する、前記電子機器。
【請求項12】
コンピュータプログラムを記憶する、コンピュータ可読記憶媒体であって、当該コンピュータプログラムは、プロセッサによってじっこうされるとき、請求項1ないし9のいずれか一項に記載の対象の検出方法を実行する、前記コンピュータ可読記憶媒体。
【請求項13】
コンピュータ可読コードを含む、コンピュータプログラムであって、
前記コンピュータ可読コードが電子機器で実行されるとき、前記電子機器内のプロセッサは、請求項1ないし9のいずれか1項に記載の対象の検出方法を実現するために実行される、前記コンピュータプログラム。
【国際調査報告】