(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-19
(45)【発行日】2024-09-30
(54)【発明の名称】視覚障がい者検知システム
(51)【国際特許分類】
H04N 7/18 20060101AFI20240920BHJP
【FI】
H04N7/18 D
(21)【出願番号】P 2020108012
(22)【出願日】2020-06-23
【審査請求日】2023-03-07
(73)【特許権者】
【識別番号】000004651
【氏名又は名称】日本信号株式会社
(74)【代理人】
【識別番号】110000752
【氏名又は名称】弁理士法人朝日特許事務所
(72)【発明者】
【氏名】石川 智之
(72)【発明者】
【氏名】三宮 肇
【審査官】塚本 丈二
(56)【参考文献】
【文献】国際公開第2020/054058(WO,A1)
【文献】国際公開第2019/181609(WO,A1)
【文献】特開2019-128799(JP,A)
【文献】特開2006-339741(JP,A)
【文献】特開2012-002645(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 7/18
(57)【特許請求の範囲】
【請求項1】
監視対象の空間
内をカメラで撮影した画像に白杖が含まれるか否かの検知結
果により視覚障がい者が存在するか否かの判定をし、
前記空間内に設置されたマイクで拾った音に白杖で床を叩いた音が含まれるか否かの検知結果によって当該判定の信頼度を判定する
視覚障がい者検知システム。
【請求項2】
前記マイクで拾った音の周波数成分の大きさの経時変化を表すスペクトログラムを生成することにより、白杖で床を叩いたとき生じる音を検知する
請求項1に記載の視覚障がい者検知システム。
【請求項3】
指向性のある前記マイクと、前記マイクの感度が高い方向が撮影方向となるように設置された前記カメラを備える
請求項1又は2に記載の視覚障がい者検知システム。
【請求項4】
視覚障がい者の検知結果を目的変数とし、マイクが拾った音の情報を説明変数とする教師データを用いた機械学習により生成された学習モデルに対し、運用時に
前記空間内に設置されたマイクで拾った音の情報を説明変数として入力したときに前記学習モデルが出力する情報
が示す、前記空間内に設置されたマイクで拾った音に白杖で床を叩いた音が含まれるか否かの検知結果によって前記判定の信頼度を判定する
請求項1乃至3のいずれか1項に記載の視覚障がい者検知システム。
【請求項5】
運用中にカメラで撮影した画像からの視覚障がい者の検知結果を目的変数とし、当該画像の撮影時期にマイクが拾った音の情報を説明変数とする教師データを用いた機械学習により前記学習モデルを更新する
請求項4に記載の視覚障がい者検知システム。
【請求項6】
異なる位置に配置された複数のマイクで拾った音の各々から
白杖で床を叩いた音を検知したときに、検知に用いた複数の音に含まれ
る白杖で床を叩いた音の大きさから
白杖打音の音源の位
置を特定する
請求項1乃至5のいずれか1項に記載の視覚障がい者検知システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、視覚障がい者を検知する技術に関する。
【背景技術】
【0002】
公共の場所(例えば駅等)の管理者(例えば、駅係員等)が、通行人の中に何らかの支援を必要とする人(以下、要支援者という)がいることが分かれば、その要支援者に対し適した支援を速やかに提供することができる。
【0003】
視覚障がい者は要支援者である場合が多い。従って、公共の場所の通行人の中に視覚障がい者が含まれる場合、その視覚障がい者を速やかに検知したい、というニーズがある。
【0004】
公共の場所で視覚障がい者を検知する技術を開示している文献として、例えば特許文献1がある。特許文献1には、カメラにより撮影された画像から白杖を認識することで、その白杖を用いている視覚障がい者を検知する処理をコンピュータに実行させるためのプログラムが提案されている。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1に記載の技術による場合、視覚障がい者がカメラの死角に入ると、その視覚障がい者が監視対象の空間内にいるのかいないのかが分からなくなる。その結果、視覚障がい者の検知の精度が不十分となる場合がある。
【0007】
上述の事情に鑑み、本発明は、カメラの死角にいる視覚障がい者であっても検知できる技術を提供する。
【課題を解決するための手段】
【0008】
本発明は、監視対象の空間内をカメラで撮影した画像に白杖が含まれるか否かの検知結果により視覚障がい者が存在するか否かの判定をし、前記空間内に設置されたマイクで拾った音に白杖で床を叩いた音が含まれるか否かの検知結果によって当該判定の信頼度を判定する視覚障がい者検知システムを第1の態様として提案する。
【0009】
第1の態様に係る視覚障がい者検知システムによれば、視覚障がい者が白杖で床を叩いた音が届く範囲内にマイクがある限り、その視覚障がい者が検知される。従って、第1の態様に係る視覚障がい者検知システムによれば、カメラの死角にいる視覚障がい者であっても検知できる。
また、第1の態様に係る視覚障がい者検知システムによれば、音による視覚障がい者の検知の結果の信頼度が分かる。
【0010】
第1の態様に係る視覚障がい者検知システムにおいて、前記マイクで拾った音の周波数成分の大きさの経時変化を表すスペクトログラムを生成することにより、白杖で床を叩いたとき生じる音を検知する、という構成が第2の態様として採用されてもよい。
【0011】
第2の態様に係る視覚障がい者検知システムによれば、カメラの死角にいる視覚障がい者であっても検知できる。
【0012】
第1又は第2の態様に係る視覚障がい者検知システムにおいて、指向性のある前記マイクと、前記マイクの感度が高い方向が撮影方向となるように設置された前記カメラを備える、という構成が第3の態様として採用されてもよい。
【0013】
第3の態様に係る視覚障がい者検知システムによれば、監視対象外の空間で生じるノイズをマイクが拾いにくいため、監視対象の空間内における音による視覚障がい者の検知の信頼度が高まる。
【0014】
第1乃至第3のいずれかの態様に係る視覚障がい者検知システムにおいて、視覚障がい者の検知結果を目的変数とし、マイクが拾った音の情報を説明変数とする教師データを用いた機械学習により生成された学習モデルに対し、運用時に前記空間内に設置されたマイクで拾った音の情報を説明変数として入力したときに前記学習モデルが出力する情報が示す、前記空間内に設置されたマイクで拾った音に白杖で床を叩いた音が含まれるか否かの検知結果によって前記判定の信頼度を判定する、という構成が第4の態様として採用されてもよい。
【0015】
第4の態様に係る視覚障がい者検知システムによれば、学習モデルにより高い精度で音による視覚障がい者の検知が行われる。
【0016】
第4の態様に係る視覚障がい者検知システムにおいて、運用中にカメラで撮影した画像からの視覚障がい者の検知結果を目的変数とし、当該画像の撮影時期にマイクが拾った音の情報を説明変数とする教師データを用いた機械学習により前記学習モデルを更新する、という構成が第5の態様として採用されてもよい。
【0017】
第5の態様に係る視覚障がい者検知システムによれば、学習モデルの出力の精度が向上する。
【0018】
第1乃至第5のいずれかの態様に係る視覚障がい者検知システムにおいて、異なる位置に配置された複数のマイクで拾った音の各々から白杖で床を叩いた音を検知したときに、検知に用いた複数の音に含まれる白杖で床を叩いた音の大きさから白杖打音の音源の位置を特定する、という構成が第6の態様として採用されてもよい。
【0019】
第6の態様に係る視覚障がい者検知システムによれば、検知された視覚障がい者の位置及び移動方向の少なくとも一方が分かる。
【図面の簡単な説明】
【0024】
【
図1】一実施形態に係る視覚障がい者検知システムの全体構成を模式的に示した図。
【
図2】一実施形態に係るサーバ装置の機能構成を模式的に示した図。
【
図3】一実施形態に係るサーバ装置が生成するスペクトログラムを例示した図。
【
図4】一実施形態に係るサーバ装置が監視対象の空間内における視覚障がい者の有無を判定するために用いる条件を例示した図。
【
図5】一実施形態に係るサーバ装置が音により視覚障がい者を検知することで得られる効果を説明するための図。
【
図6】一実施形態に係るサーバ装置が音により視覚障がい者を検知することで得られる効果を説明するための図。
【
図7】一実施形態に係る端末装置が表示する画面を例示した図。
【
図8】一変形例に係る視覚障がい者検知システムの全体構成を模式的に示した図。
【
図9】一変形例に係るサーバ装置の機能構成を模式的に示した図。
【
図10】一変形例に係るサーバ装置が白杖打音の音源の位置を特定する様子を模式的に示した図。
【
図11】一変形例に係る端末装置が表示する画面を例示した図。
【
図12】一変形例に係るサーバ装置の機能構成を模式的に示した図。
【発明を実施するための形態】
【0025】
[実施形態]
以下に、本発明の一実施形態に係る視覚障がい者検知システム1を説明する。
図1は視覚障がい者検知システム1の全体構成を模式的に示した図である。視覚障がい者検知システム1は、マイク11、カメラ12、サーバ装置13及び端末装置14を備える。
【0026】
マイク11は、監視対象の空間S内に設置され、継続的に、空間Sにおいて聞こえる音を拾い、拾った音の波形を示す音データを生成し、生成した音データをサーバ装置13に出力する。マイク11とサーバ装置13は、音データの入出力のため、有線又は無線で接続されている。
【0027】
カメラ12は、例えば可視光カメラであり、空間S内に設置され、所定のフレームレートで継続的に空間Sを撮影し、撮影した画像を表す画像データを生成し、生成した画像データを順次、サーバ装置13に出力する。カメラ12とサーバ装置13は、画像データの入出力のため、有線又は無線で接続されている。
【0028】
マイク11は指向性を持ち、マイク11の感度が高い方向がカメラ12の撮影方向となるように、マイク11とカメラ12が設置されている。
【0029】
サーバ装置13は、マイク11から取得する音データと、カメラ12から取得する画像データを用いて、空間S内に視覚障がい者が存在するか否かを判定する役割を果たす装置である。サーバ装置13のハードウェアは一般的なコンピュータであり、各種データを記憶するメモリと、各種データ処理を行うプロセッサと、外部の装置とデータの入出力を行うインタフェースとを備える。
【0030】
端末装置14は、空間Sの管理者等(例えば、空間Sが駅構内の空間であれば、駅係員等)が使用する端末装置であり、サーバ装置13による判定の結果、すなわち、空間S内に視覚障がい者が存在するか否かを管理者等に通知する役割を果たす。そのため、サーバ装置13と端末装置14は、例えば無線により通信接続されている。端末装置14のハードウェアはディスプレイを備える一般的なコンピュータであり、各種データを記憶するメモリと、各種データ処理を行うプロセッサと、外部の装置とデータの入出力を行うインタフェースとを備える。なお、
図1において、端末装置14は1つのみ記載されているが、端末装置14の数はサーバ装置13から通知を受ける空間Sの管理者等の数に応じて様々に変化してよい。
【0031】
図2は、サーバ装置13の機能構成を模式的に示した図である。サーバ装置13のハードウェアであるコンピュータは、サーバ装置13用のプログラムに従うデータ処理を行うことで、
図2に示す構成部を備える装置として機能する。以下に
図2に示す構成部を説明する。
【0032】
音データ取得部131は、マイク11から出力される音データを受け取り、受け取った音データをフィルタ処理部132に引き渡す。
【0033】
フィルタ処理部132は、音データ取得部131から引き渡された音データが示す音からノイズ成分を除去するとともに、その音から、視覚障がい者が白杖で床を叩いたときに生じる音に多く成分が含まれる周波数帯の成分を取り出すためのフィルタ処理を行う。フィルタ処理部132は、フィルタ処理を行った後の音データをスペクトログラム生成部133に引き渡す。
【0034】
スペクトログラム生成部133は、フィルタ処理部132から引き渡された音データが示す音の周波数成分の大きさ(振幅)の経時変化を表す画像であるスペクトログラムを生成する。
図3は、スペクトログラム生成部133が生成するスペクトログラムを例示した図である。
図3のスペクトログラムの横軸は時間、縦軸は周波数、画像の明るさ(又は色)は振幅を示している。なお、
図3(A)は、空間S内に視覚障がい者がいない場合にスペクトログラム生成部133が生成するスペクトログラムの例である。また、
図3(B)は、空間S内に視覚障がい者が1名いて、その視覚障がい者が白杖で床を叩きながら歩いている場合にスペクトログラム生成部133が生成するスペクトログラムの例である。
図3(B)において、概ね一定の時間間隔を空けて2kHzを超える周波数帯において現れる大きい振幅が、白杖が床を叩くときに生じる音(以下、「白杖打音」という)の成分を示している。
【0035】
図2を参照し、サーバ装置13の機能構成の説明を続ける。スペクトログラム生成部133は、生成したスペクトログラムを表す画像データ(以下、「スペクトログラムデータ」という)を学習モデル134に引き渡す。
【0036】
学習モデル134は、多数の以下の(1)及び(2)で示される教師データを用いた機械学習により生成された学習モデルである。
(1)白杖で床を叩きながら歩く視覚障がい者を含む通行人群が歩いている空間S内(又は空間Sと床の素材が類似している空間内)でマイク11(又はマイク11と類似の性能のマイク)により拾った音のスペクトログラムを表すスペクトログラムデータに、視覚障がい者が存在することを示すラベル「存在」を対応付けた教師データ
(2)白杖で床を叩きながら歩く視覚障がい者を含まない通行人群が歩いている空間S内(又は空間Sと床の素材が類似している空間内)でマイク11(又はマイク11と類似の性能のマイク)により拾った音のスペクトログラムを表すスペクトログラムデータに、視覚障がい者が存在しないことを示すラベル「不在」を対応付けた教師データ
【0037】
ここで、教師データに含まれるスペクトログラムデータは機械学習における説明変数として用いられ、それらのスペクトログラムデータに対応付けられたラベル(「存在」又は「不在」)は機械学習における目的変数として用いられる。
【0038】
学習モデル134の生成において採用される機械学習の方式は、例えばディープラーニングであるが、これに限られない。
【0039】
学習モデル134は、スペクトログラム生成部133から引き渡されるスペクトログラムデータを説明変数として取り込み、取り込んだスペクトログラムデータの解析結果として、「存在」又は「不存在」を目的変数として出力する。学習モデル134は、出力した「存在」又は「不存在」を示すデータ(以下、「解析結果データ」という)を判定部137に引き渡す。
【0040】
画像データ取得部135は、カメラ12から出力される画像データを受け取り、受け取った画像データを画像認識部136に引き渡す。
【0041】
画像認識部136は、画像データ取得部135から引き渡された画像データが表す画像に含まれる物(通行人や通行人の所持物等)を既知の画像認識手法により認識し、認識した物の種別と、その物の画像中における位置を示すデータ(以下、「認識結果データ」という)を判定部137に引き渡す。
【0042】
判定部137は、学習モデル134から継続的に解析結果データを受け取るとともに、画像認識部136から継続的に認識結果データを受け取り、それらのデータに基づき、空間S内に視覚障がい者が存在するか否かを判定する。
【0043】
判定部137は、
図4に示すリスト(以下、「判定条件リスト」という)に記載されている判定条件に従い、現在、空間S内に障がい者が存在することを示す「存在」、空間S内に障がい者が存在しないことを示す「不在」、空間S内に視覚障がい者が存在する可能性があることを示す「可能性」のいずれであるかを判定する。
【0044】
上記の判定を行うため、判定部137は、まず、画像による視覚障がい者の検知結果を特定する。具体的には、判定部137は、画像認識部136から順次、引き渡される認識結果データが示す物の種別に「白杖」が含まれるか否かを判定し、その判定の結果を一時的に記憶する。
【0045】
続いて、判定部137は、最新の認識結果データが示す物の種別に「白杖」が含まれる場合は、画像による検知結果として「検知あり」を選択する。一方、最新の認識結果データが示す物の種別に「白杖」が含まれない場合は、過去のnフレーム(nは所定の自然数)の画像に応じた認識結果データのいずれかが示す物の種別に「白杖」が含まれるか否かを判定し、含まれる場合は、画像による検知結果として「過去nフレームで検知あり」を選択する。そして、最新及び過去のnフレームの画像に応じた認識結果データのいずれが示す物の種別にも「白杖」が含まれない場合は、画像による検知結果として「検知なし」を選択する。
【0046】
また、判定部137は、最新の解析結果データが「存在」を示す場合、音による検知結果として「検知あり」を選択し、最新の解析結果データが「不在」を示す場合、音による検知結果として「検知なし」を選択する。
【0047】
判定部137は、上記のように選択した画像による視覚障がい者の検知結果と、音による視覚障がい者の検知結果との組み合わせに応じて、判定条件リスト(
図4)の「結果」欄に記載される状態を、空間S内における視覚障がい者の有無に関する判定結果と特定する。例えば、画像による視覚障がい者の検知結果が「検知なし」であり、音による視覚障がい者の検知結果が「検知なし」であれば、判定部137は、判定条件リスト(
図4)の第1行の「結果」欄の「不在」を読み取り、空間S内に視覚障がい者は存在しない、と判定する。
【0048】
上記のように判定部137が行う判定の結果は、カメラ12で撮影した画像による視覚障がい者の検知結果(判定条件リストの「画像」欄)の信頼度を、マイク11で拾った音による視覚障がい者検知結果(判定条件リストの「音」欄)に基づき判定した結果を示している。
【0049】
例えば、画像による検知結果が「検知なし」である場合、音による検知結果が「検知なし」であれば、判定条件リストの第1行に従い、判定部137の判定結果は「存在」となるが、音による検知結果が「検知あり」であれば、判定条件リストの第3行に従い、判定部137の判定結果は「可能性」となる。また、画像による検知結果が「過去nフレームで検知あり」である場合、音による検知結果が「検知あり」であれば、判定条件リストの第5行に従い、判定部137の判定結果は「存在」となるが、音による検知結果が「検知なし」であれば、判定条件リストの第6行に従い、判定部137の判定結果は「可能性」となる。これらは、画像による検知結果の信頼度が、音による検知結果により判定されていることを意味する。
【0050】
図5及び
図6は、判定部137が画像による検知結果と音による検知結果の両方を用いて視覚障がい者の有無を判定することにより得られる効果を説明するための図である。
【0051】
図5は、視覚障がい者がいない状態の空間Sに、新たに視覚障がい者が入ってきた場合に、どのタイミングで視覚障がい者が空間Sにいると判定されるかを示したタイムチャートである。なお、
図5において、視覚障がい者がカメラ12の撮影範囲に入ってきたタイミングは時刻t5である。
【0052】
図5(A)は、画像による検知結果のみを用いて空間Sにおける視覚障がい者の有無を判定する場合のタイムチャートを例示している。画像による検知結果のみを用いる場合、検知結果が「検知なし」から「検知あり」に変化したとき(時刻t5)に、すぐさま空間Sに視覚障がい者が存在する、と判定するのは必ずしも望ましくない。なぜなら、画像から白杖が誤認識される場合があるためである。従って、ここでは、例として、過去4フレームに応じた画像による検知結果が全て「検知あり」であった場合に、空間Sに視覚障がい者が存在する、と判定するものとする。この場合、4フレーム連続で「検知あり」となった時刻t8に、空間Sに視覚障がい者が存在する、と判定されることになる。
【0053】
図5(B)は、画像による検知結果と音による検知結果の両方を用いて空間S内における視覚障がい者の有無を判定する場合のタイムチャートを例示している。通常、カメラ12の撮影範囲に視覚障がい者が入るより前に、マイク11はその視覚障がい者の白杖打音を拾い始める。ここでは、例として、マイク11が白杖打音を拾い始めたタイミングが時刻t1であるものとする。
【0054】
この場合、判定部137は、まず、時刻t1に「可能性」と判定し、時刻t5に「存在」と判定する。すなわち、時刻t5において画像による検知結果が「検知なし」から「検知あり」に変化した際、既に音による検知結果が「検知あり」であったため、画像による検知結果の信頼性が高い、と考えられる。従って、判定部137は、時刻t5にすぐさま、「存在」と判定することができる。
【0055】
上記のように、画像による検知結果のみを用いて空間S内における視覚障がい者の有無を判定する場合よりも、画像による検知結果と音による検知結果の両方を用いて空間S内における視覚障がい者の有無を判定する場合の方が、より速やかに視覚障がい者を検知した、と判定することができる。
【0056】
図6は、視覚障がい者がいる状態の空間Sにおいて、その視覚障がい者が所持する白杖が他の通行人等に隠れて、カメラ12が撮影した5フレーム分の画像に映らなかった場合に、どれくらいの期間、視覚障がい者が空間Sにいないと誤判定されるかを示したタイムチャートである。なお、
図6において、視覚障がい者がカメラ12の撮影した画像に白杖が映らなかった期間は時刻t2から時刻t6までの期間である。
【0057】
図6(A)は、画像による検知結果のみを用いて空間Sにおける視覚障がい者の有無を判定する場合のタイムチャートを例示している。画像による検知結果のみを用いる場合、検知結果が「検知あり」から「検知なし」に変化したとき(時刻t2)に、すぐさま空間Sに視覚障がい者が存在しない、と判定するのは必ずしも望ましくない。なぜなら、白杖が他の通行人等に隠れて画像に一時的に写っていないが、視覚障がい者は空間S内にいる場合があるためである。従って、ここでは、例として、過去4フレームに応じた画像による検知結果が全て「検知なし」であった場合に、空間Sに視覚障がい者が存在しない、と判定するものとする。この場合、4フレーム連続で「検知なし」となった時刻t5に、空間Sに視覚障がい者が存在しない、と判定されることになる。
【0058】
その後、時刻t7に画像による検知結果が「検知なし」から「検知あり」になり、「検知あり」が4フレーム連続で「検知あり」となった時刻t10に、空間Sに視覚障がい者が存在する、と判定される。この場合、実際には視覚障がい者はずっと空間S内にいたので、時刻t5から時刻t10までの間、誤判定が行われることになる。
【0059】
図6(B)は、画像による検知結果と音による検知結果の両方を用いて空間S内における視覚障がい者の有無を判定する場合のタイムチャートを例示している。ここでは、例として、判定条件リスト(
図4)の「過去nフレームで検知あり」のnは「3」であるものとする。すなわち、最新及び過去3フレームの計4フレームのいずれにも白杖が写っていない場合、画像による検知結果は「過去nフレームで検知あり」から「検知なし」に変化するものとする。
【0060】
図6(B)に示されるように、この場合、判定部137は、画像による検知結果と、音による検知結果に基づき、時刻t6から時刻t7までは空間S内に視覚障がい者が存在する可能性がある、と判定し、その他の期間中は空間S内に視覚障がい者が存在する、と判定する。従って、誤判定が行われることがない。
【0061】
上記のように、画像による検知結果のみを用いて空間S内における視覚障がい者の有無を判定する場合よりも、画像による検知結果と音による検知結果の両方を用いて空間S内における視覚障がい者の有無を判定する場合の方が、誤判定の期間が短くなる。
【0062】
判定部137は、判定条件リスト(
図4)に従い行った判定の結果を示す判定結果データを送信部138に引き渡す。以上が、判定部137が行う判定の処理の説明である。
【0063】
図2を参照し、サーバ装置13の機能構成の説明を続ける。送信部138は、判定部137から引き渡される判定結果データが示す判定の結果を、画像データ取得部135がカメラ12から取得した最新の画像とともに表示する通知画面データを生成し、生成した通知画面データを端末装置14に送信する。なお、最新の画像に白杖が写っている場合、送信部138は、画像認識部136から認識結果データを受け取り、最新の画像に白杖の位置を示す枠をオーバーレイした画像を生成し、その画像を判定の結果とともに表示する通知画面データを生成し、その通知画面データを端末装置14に送信する。
【0064】
図7は、端末装置14がサーバ装置13から受信した通知画面データに従い表示する画面(以下、「通知画面」という)を例示した図である。
図7(A)は判定部137による判定結果が「不在」の場合の通知画面、
図7(B)は判定部137による判定結果が「可能性」の場合の通知画面、
図7(C)は判定部137による判定結果が「存在」の場合の通知画面を例示している。
【0065】
通知画面には、判定部137の判定結果に加え、カメラ12により撮影された最新の画像が表示される。また、画像認識部136により白杖の画像が認識されている場合には、その画像中に、白杖の位置を示す枠Cがオーバーレイ表示される。端末装置14のユーザ(空間Sの管理者等)は、通知画面を見て、空間Sにおける視覚障がい者の有無と、視覚障がい者が存在する場合はその位置を容易に知ることができる。
【0066】
[変形例]
上述した実施形態は本発明の技術的思想の範囲内で様々に変形されてよい。以下にそれらの変形例を示す。なお、以下に示す変形例の2以上が適宜組み合わされてもよい。
【0067】
(1)本発明に係る視覚障がい者検知システムが、互いに異なる位置に配置された複数のマイクを備え、それらのマイクで拾った音の各々から視覚障がい者を検知したときに、検知に用いた複数の音に含まれる視覚障がい者が白杖で床を叩いた音(白杖打音)の大きさから、視覚障がい者の位置及び移動速度の少なくとも一方を特定するように構成されてもよい。
【0068】
図8は、この変形例に係る視覚障がい者検知システム2の全体構成を模式的に示した図である。視覚障がい者検知システム2は、視覚障がい者検知システム1(
図1)と比較し、マイク11に代えて、指向性のないマイク11(1)~11(3)を備える点と、サーバ装置13に代えてサーバ装置23を備える点が異なっている。なお、
図8及び
図9において、視覚障がい者検知システム2が視覚障がい者検知システム1と共通して備える構成部には、視覚障がい者検知システム1において付された符号と同じ符号が付されている。
【0069】
図9は、視覚障がい者検知システム2が備えるサーバ装置23の機能構成を模式的に示した図である。サーバ装置23は、視覚障がい者検知システム1が備えるサーバ装置13と比較し、以下の点が異なっている。
(a)マイク11に応じた音データ取得部131、フィルタ処理部132、スペクトログラム生成部133、学習モデル134に代えて、マイク11(1)~11(3)の各々に応じた音データ取得部131(1)~131(3)、フィルタ処理部132(1)~132(3)、スペクトログラム生成部133(1)~133(3)、学習モデル134(1)~134(3)を備える点。
(b)マイク11(1)~11(3)の各々が拾った音に含まれる白杖打音の大きさから、視覚障がい者の位置を特定する位置特定部231を備える点。
(c)判定部137が、学習モデル134から引き渡される解析結果データに代えて、学習モデル134(1)~134(3)の各々から引き渡される解析結果データを用いて判定を行う点。
(d)送信部138が、判定部137の判定結果とともに、位置特定部231により特定された視覚障がい者の位置を表示する通知画面データを生成する点。
【0070】
判定部137は、学習モデル134(1)~134(3)から引き渡される解析結果データの1以上が「検知あり」を示す場合、音による検知結果は「検知あり」と判定する。ただし、これに代えて、判定部137が、例えば、学習モデル134(1)~134(3)から引き渡される解析結果データの2以上が「検知あり」を示す場合、音による検知結果は「検知あり」と判定する構成が採用されてもよいし、それらの解析結果データの3つ全てが「検知あり」を示す場合、音による検知結果は「検知あり」と判定する構成が採用されてもよい。
【0071】
位置特定部231は、学習モデル134(1)~134(3)から引き渡される解析結果データの1以上が「検知あり」を示す場合、学習モデル134(1)~134(3)がそれらの解析結果データの生成に用いたスペクトログラムデータをスペクトログラム生成部133(1)~133(3)から取得し、それらのスペクトログラムデータが示す音から、白杖打音の成分を特定し、その音の成分のピーク値を特定する。
【0072】
例えば、位置特定部231がスペクトログラム生成部133(1)から
図3のスペクトログラムを表すスペクトログラムデータを取得した場合、位置特定部231は、概ね一定の時間間隔を空けて2kHzを超える周波数帯において現れる大きい振幅のうち最新のもの(スペクトログラムの最も右側のもの)の値(ピーク値)を、マイク11(1)が拾った白杖打音の大きさとして特定する。同様に、位置特定部231は、スペクトログラム生成部133(2)及び133(3)から取得したスペクトログラムデータを用いて、マイク11(2)及び11(3)が拾った白杖打音の大きさを特定する。
【0073】
続いて、位置特定部231は、上記のように特定したマイク11(1)~11(3)の各々が拾った白杖打音の大きさに基づき、空間Sを上から平面視した2次元平面上の視覚障がい者の位置を特定する。マイク11(1)~11(3)の各々が拾う音の大きさ(デシベル)は、音源からマイク11(1)~11(3)の各々までの距離の対数に比例して減少する。その関係に従い、位置特定部231は、マイク11(1)~11(3)の各々が拾った白杖打音の大きさに基づき、マイク11(1)~11(3)の各々と白杖打音の音源との距離の比を特定する。続いて、位置特定部231は、マイク11(1)~11(3)から、特定した比を満たす2次元平面上の位置を特定する。
【0074】
図10は、例として、マイク11(1)から白杖打音の音源までの距離D1と、マイク11(2)から白杖打音の音源までの距離D2と、マイク11(3)から白杖打音の音源までの距離D3の比が3:4:5である場合に、白杖打音の音源の位置Pが特定される様子を模式的に示した図である。
【0075】
位置特定部231は、上記のように特定した2次元平面上の視覚障がい者の位置とその時点の現在時刻を対応付けて順次記憶する。そして、位置特定部231は、記憶した位置の経時変化から、視覚障がい者の移動方向及び移動速度を特定する。
【0076】
図11は、端末装置14がサーバ装置23から受信した通知画面データに従い表示する通知画面を例示した図である。視覚障がい者検知システム2においては、判定部137による判定結果と、カメラ12により撮影された画像に加え、音の大きさにより位置特定部231が特定した視覚障がい者の2次元平面上の位置Pと、移動方向及び移動速度を表す矢印Vが表示される。これにより、端末装置14のユーザ(空間Sの管理者等)は、視覚障がい者が他の通行人に隠れる等の理由でカメラ12の死角にいる場合であっても、視覚障がい者の位置を知ることができる。
【0077】
(2)本発明に係る視覚障がい者検知システムが、運用中に、カメラで撮影した画像からの視覚障がい者の検知結果を目的変数とし、その画像の撮影時期にマイクが拾った音の情報を説明変数とする教師データを用いて、機械学習により学習モデルを更新する構成が採用されてもよい。
【0078】
図12は、この変形例に係る視覚障がい者検知システム3が備えるサーバ装置33の機能構成を模式的に示した図である。なお、視覚障がい者検知システム3の全体構成は、サーバ装置13に代えてサーバ装置33を備える点を除き、視覚障がい者検知システム1の全体構成(
図1)と同様である。
【0079】
サーバ装置33の機能構成は、サーバ装置13の機能構成(
図2)と比較し、学習モデル更新部331を備える点が異なっている。なお、
図12において、サーバ装置33がサーバ装置13と共通して備える構成部には、サーバ装置13において付された符号と同じ符号が付されている。
【0080】
学習モデル更新部331は、判定部137の判定結果が「存在」又は「不在」である場合、その判定結果の導出に用いられた解析結果データを出力した際に学習モデル134に入力されたスペクトログラムデータをスペクトログラム生成部133から取得し、取得したスペクトログラムデータを説明変数とし、判定部137の判定結果を目的変数とする教師データを生成する。学習モデル更新部331は、生成したそれらの教師データを用いて、学習モデル134を更新する。その結果、学習モデル134が出力する解析結果の精度向上が期待できる。
【0081】
(3)本発明に係る視覚障がい者検知システムが、カメラ12を備えず、マイク11が拾った音のみに基づき、空間S内の視覚障がい者の有無を判定する構成が採用されてもよい。
【0082】
(4)上述した実施形態において、学習モデル134の生成に用いられる教師データの説明変数はスペクトログラムデータであるものとしたが、スペクトログラムデータに加えて、もしくはスペクトログラムデータに代えて、マイク11が拾った音データ(又は当該音データに対し、フィルタ処理部132がフィルタ処理を行った後の音データ)が説明変数として用いられてもよい。
【0083】
(5)音による視覚障がい者の有無の判定を、機械学習により生成された学習モデルによらずに、ルールベースの判定処理を行う判定部により行う構成が採用されてもよい。その場合、上述した実施形態において用いられるものとした学習モデル、すなわち、カメラで撮影した画像からの視覚障がい者の検知結果を目的変数とし、その画像の撮影時期にマイクが拾った音の情報を説明変数とする教師データを用いた機械学習により生成された学習モデルから、判定の規則を取り出し、取り出した判定の規則に従いルールベースの判定処理を行うようにしてもよい。
【符号の説明】
【0084】
1…視覚障がい者検知システム、2…視覚障がい者検知システム、3…視覚障がい者検知システム、11…マイク、12…カメラ、13…サーバ装置、14…端末装置、23…サーバ装置、33…サーバ装置、131…音データ取得部、132…フィルタ処理部、133…スペクトログラム生成部、134…学習モデル、135…画像データ取得部、136…画像認識部、137…判定部、138…送信部、231…位置特定部、331…学習モデル更新部。