特許7557974 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本信号株式会社の特許一覧

特許7557974視覚障がい者検知システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-19

(45)【発行日】2024-09-30

(54)【発明の名称】視覚障がい者検知システム

(51)【国際特許分類】

H04N 7/18 20060101AFI20240920BHJP

【ＦＩ】

H04N7/18 D

【請求項の数】 6

(21)【出願番号】P 2020108012

(22)【出願日】2020-06-23

(65)【公開番号】P2022003739

(43)【公開日】2022-01-11

【審査請求日】2023-03-07

(73)【特許権者】

【識別番号】000004651

【氏名又は名称】日本信号株式会社

(74)【代理人】

【識別番号】110000752

【氏名又は名称】弁理士法人朝日特許事務所

(72)【発明者】

【氏名】石川智之

(72)【発明者】

【氏名】三宮肇

【審査官】塚本丈二

(56)【参考文献】

【文献】国際公開第２０２０／０５４０５８（ＷＯ，Ａ１）

【文献】国際公開第２０１９／１８１６０９（ＷＯ，Ａ１）

【文献】特開２０１９－１２８７９９（ＪＰ，Ａ）

【文献】特開２００６－３３９７４１（ＪＰ，Ａ）

【文献】特開２０１２－００２６４５（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ７／１８

(57)【特許請求の範囲】

【請求項1】

監視対象の空間内をカメラで撮影した画像に白杖が含まれるか否かの検知結果により視覚障がい者が存在するか否かの判定をし、前記空間内に設置されたマイクで拾った音に白杖で床を叩いた音が含まれるか否かの検知結果によって当該判定の信頼度を判定する
視覚障がい者検知システム。

【請求項2】

前記マイクで拾った音の周波数成分の大きさの経時変化を表すスペクトログラムを生成することにより、白杖で床を叩いたとき生じる音を検知する
請求項１に記載の視覚障がい者検知システム。

【請求項3】

指向性のある前記マイクと、前記マイクの感度が高い方向が撮影方向となるように設置された前記カメラを備える
請求項１又は２に記載の視覚障がい者検知システム。

【請求項4】

視覚障がい者の検知結果を目的変数とし、マイクが拾った音の情報を説明変数とする教師データを用いた機械学習により生成された学習モデルに対し、運用時に前記空間内に設置されたマイクで拾った音の情報を説明変数として入力したときに前記学習モデルが出力する情報が示す、前記空間内に設置されたマイクで拾った音に白杖で床を叩いた音が含まれるか否かの検知結果によって前記判定の信頼度を判定する
請求項１乃至３のいずれか１項に記載の視覚障がい者検知システム。

【請求項5】

運用中にカメラで撮影した画像からの視覚障がい者の検知結果を目的変数とし、当該画像の撮影時期にマイクが拾った音の情報を説明変数とする教師データを用いた機械学習により前記学習モデルを更新する
請求項４に記載の視覚障がい者検知システム。

【請求項6】

異なる位置に配置された複数のマイクで拾った音の各々から白杖で床を叩いた音を検知したときに、検知に用いた複数の音に含まれる白杖で床を叩いた音の大きさから白杖打音の音源の位置を特定する
請求項１乃至５のいずれか１項に記載の視覚障がい者検知システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、視覚障がい者を検知する技術に関する。

【背景技術】

【0002】

公共の場所（例えば駅等）の管理者（例えば、駅係員等）が、通行人の中に何らかの支援を必要とする人（以下、要支援者という）がいることが分かれば、その要支援者に対し適した支援を速やかに提供することができる。

【0003】

視覚障がい者は要支援者である場合が多い。従って、公共の場所の通行人の中に視覚障がい者が含まれる場合、その視覚障がい者を速やかに検知したい、というニーズがある。

【0004】

公共の場所で視覚障がい者を検知する技術を開示している文献として、例えば特許文献１がある。特許文献１には、カメラにより撮影された画像から白杖を認識することで、その白杖を用いている視覚障がい者を検知する処理をコンピュータに実行させるためのプログラムが提案されている。

【先行技術文献】

【特許文献】

【0005】

【文献】特開２０１９－１０１５１０号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

特許文献１に記載の技術による場合、視覚障がい者がカメラの死角に入ると、その視覚障がい者が監視対象の空間内にいるのかいないのかが分からなくなる。その結果、視覚障がい者の検知の精度が不十分となる場合がある。

【0007】

上述の事情に鑑み、本発明は、カメラの死角にいる視覚障がい者であっても検知できる技術を提供する。

【課題を解決するための手段】

【0008】

本発明は、監視対象の空間内をカメラで撮影した画像に白杖が含まれるか否かの検知結果により視覚障がい者が存在するか否かの判定をし、前記空間内に設置されたマイクで拾った音に白杖で床を叩いた音が含まれるか否かの検知結果によって当該判定の信頼度を判定する視覚障がい者検知システムを第１の態様として提案する。

【0009】

第１の態様に係る視覚障がい者検知システムによれば、視覚障がい者が白杖で床を叩いた音が届く範囲内にマイクがある限り、その視覚障がい者が検知される。従って、第１の態様に係る視覚障がい者検知システムによれば、カメラの死角にいる視覚障がい者であっても検知できる。
また、第１の態様に係る視覚障がい者検知システムによれば、音による視覚障がい者の検知の結果の信頼度が分かる。

【0010】

第１の態様に係る視覚障がい者検知システムにおいて、前記マイクで拾った音の周波数成分の大きさの経時変化を表すスペクトログラムを生成することにより、白杖で床を叩いたとき生じる音を検知する、という構成が第２の態様として採用されてもよい。

【0011】

第２の態様に係る視覚障がい者検知システムによれば、カメラの死角にいる視覚障がい者であっても検知できる。

【0012】

第１又は第２の態様に係る視覚障がい者検知システムにおいて、指向性のある前記マイクと、前記マイクの感度が高い方向が撮影方向となるように設置された前記カメラを備える、という構成が第３の態様として採用されてもよい。

【0013】

第３の態様に係る視覚障がい者検知システムによれば、監視対象外の空間で生じるノイズをマイクが拾いにくいため、監視対象の空間内における音による視覚障がい者の検知の信頼度が高まる。

【0014】

第１乃至第３のいずれかの態様に係る視覚障がい者検知システムにおいて、視覚障がい者の検知結果を目的変数とし、マイクが拾った音の情報を説明変数とする教師データを用いた機械学習により生成された学習モデルに対し、運用時に前記空間内に設置されたマイクで拾った音の情報を説明変数として入力したときに前記学習モデルが出力する情報が示す、前記空間内に設置されたマイクで拾った音に白杖で床を叩いた音が含まれるか否かの検知結果によって前記判定の信頼度を判定する、という構成が第４の態様として採用されてもよい。

【0015】

第４の態様に係る視覚障がい者検知システムによれば、学習モデルにより高い精度で音による視覚障がい者の検知が行われる。

【0016】

第４の態様に係る視覚障がい者検知システムにおいて、運用中にカメラで撮影した画像からの視覚障がい者の検知結果を目的変数とし、当該画像の撮影時期にマイクが拾った音の情報を説明変数とする教師データを用いた機械学習により前記学習モデルを更新する、という構成が第５の態様として採用されてもよい。

【0017】

第５の態様に係る視覚障がい者検知システムによれば、学習モデルの出力の精度が向上する。

【0018】

第１乃至第５のいずれかの態様に係る視覚障がい者検知システムにおいて、異なる位置に配置された複数のマイクで拾った音の各々から白杖で床を叩いた音を検知したときに、検知に用いた複数の音に含まれる白杖で床を叩いた音の大きさから白杖打音の音源の位置を特定する、という構成が第６の態様として採用されてもよい。

【0019】

第６の態様に係る視覚障がい者検知システムによれば、検知された視覚障がい者の位置及び移動方向の少なくとも一方が分かる。

【図面の簡単な説明】

【0024】

【図1】一実施形態に係る視覚障がい者検知システムの全体構成を模式的に示した図。

【図2】一実施形態に係るサーバ装置の機能構成を模式的に示した図。

【図3】一実施形態に係るサーバ装置が生成するスペクトログラムを例示した図。

【図4】一実施形態に係るサーバ装置が監視対象の空間内における視覚障がい者の有無を判定するために用いる条件を例示した図。

【図5】一実施形態に係るサーバ装置が音により視覚障がい者を検知することで得られる効果を説明するための図。

【図6】一実施形態に係るサーバ装置が音により視覚障がい者を検知することで得られる効果を説明するための図。

【図7】一実施形態に係る端末装置が表示する画面を例示した図。

【図8】一変形例に係る視覚障がい者検知システムの全体構成を模式的に示した図。

【図9】一変形例に係るサーバ装置の機能構成を模式的に示した図。

【図10】一変形例に係るサーバ装置が白杖打音の音源の位置を特定する様子を模式的に示した図。

【図11】一変形例に係る端末装置が表示する画面を例示した図。

【図12】一変形例に係るサーバ装置の機能構成を模式的に示した図。

【発明を実施するための形態】

【0025】

［実施形態］
以下に、本発明の一実施形態に係る視覚障がい者検知システム１を説明する。図１は視覚障がい者検知システム１の全体構成を模式的に示した図である。視覚障がい者検知システム１は、マイク１１、カメラ１２、サーバ装置１３及び端末装置１４を備える。

【0026】

マイク１１は、監視対象の空間Ｓ内に設置され、継続的に、空間Ｓにおいて聞こえる音を拾い、拾った音の波形を示す音データを生成し、生成した音データをサーバ装置１３に出力する。マイク１１とサーバ装置１３は、音データの入出力のため、有線又は無線で接続されている。

【0027】

カメラ１２は、例えば可視光カメラであり、空間Ｓ内に設置され、所定のフレームレートで継続的に空間Ｓを撮影し、撮影した画像を表す画像データを生成し、生成した画像データを順次、サーバ装置１３に出力する。カメラ１２とサーバ装置１３は、画像データの入出力のため、有線又は無線で接続されている。

【0028】

マイク１１は指向性を持ち、マイク１１の感度が高い方向がカメラ１２の撮影方向となるように、マイク１１とカメラ１２が設置されている。

【0029】

サーバ装置１３は、マイク１１から取得する音データと、カメラ１２から取得する画像データを用いて、空間Ｓ内に視覚障がい者が存在するか否かを判定する役割を果たす装置である。サーバ装置１３のハードウェアは一般的なコンピュータであり、各種データを記憶するメモリと、各種データ処理を行うプロセッサと、外部の装置とデータの入出力を行うインタフェースとを備える。

【0030】

端末装置１４は、空間Ｓの管理者等（例えば、空間Ｓが駅構内の空間であれば、駅係員等）が使用する端末装置であり、サーバ装置１３による判定の結果、すなわち、空間Ｓ内に視覚障がい者が存在するか否かを管理者等に通知する役割を果たす。そのため、サーバ装置１３と端末装置１４は、例えば無線により通信接続されている。端末装置１４のハードウェアはディスプレイを備える一般的なコンピュータであり、各種データを記憶するメモリと、各種データ処理を行うプロセッサと、外部の装置とデータの入出力を行うインタフェースとを備える。なお、図１において、端末装置１４は１つのみ記載されているが、端末装置１４の数はサーバ装置１３から通知を受ける空間Ｓの管理者等の数に応じて様々に変化してよい。

【0031】

図２は、サーバ装置１３の機能構成を模式的に示した図である。サーバ装置１３のハードウェアであるコンピュータは、サーバ装置１３用のプログラムに従うデータ処理を行うことで、図２に示す構成部を備える装置として機能する。以下に図２に示す構成部を説明する。

【0032】

音データ取得部１３１は、マイク１１から出力される音データを受け取り、受け取った音データをフィルタ処理部１３２に引き渡す。

【0033】

フィルタ処理部１３２は、音データ取得部１３１から引き渡された音データが示す音からノイズ成分を除去するとともに、その音から、視覚障がい者が白杖で床を叩いたときに生じる音に多く成分が含まれる周波数帯の成分を取り出すためのフィルタ処理を行う。フィルタ処理部１３２は、フィルタ処理を行った後の音データをスペクトログラム生成部１３３に引き渡す。

【0034】

スペクトログラム生成部１３３は、フィルタ処理部１３２から引き渡された音データが示す音の周波数成分の大きさ（振幅）の経時変化を表す画像であるスペクトログラムを生成する。図３は、スペクトログラム生成部１３３が生成するスペクトログラムを例示した図である。図３のスペクトログラムの横軸は時間、縦軸は周波数、画像の明るさ（又は色）は振幅を示している。なお、図３（Ａ）は、空間Ｓ内に視覚障がい者がいない場合にスペクトログラム生成部１３３が生成するスペクトログラムの例である。また、図３（Ｂ）は、空間Ｓ内に視覚障がい者が１名いて、その視覚障がい者が白杖で床を叩きながら歩いている場合にスペクトログラム生成部１３３が生成するスペクトログラムの例である。図３（Ｂ）において、概ね一定の時間間隔を空けて２ｋＨｚを超える周波数帯において現れる大きい振幅が、白杖が床を叩くときに生じる音（以下、「白杖打音」という）の成分を示している。

【0035】

図２を参照し、サーバ装置１３の機能構成の説明を続ける。スペクトログラム生成部１３３は、生成したスペクトログラムを表す画像データ（以下、「スペクトログラムデータ」という）を学習モデル１３４に引き渡す。

【0036】

学習モデル１３４は、多数の以下の（１）及び（２）で示される教師データを用いた機械学習により生成された学習モデルである。
（１）白杖で床を叩きながら歩く視覚障がい者を含む通行人群が歩いている空間Ｓ内（又は空間Ｓと床の素材が類似している空間内）でマイク１１（又はマイク１１と類似の性能のマイク）により拾った音のスペクトログラムを表すスペクトログラムデータに、視覚障がい者が存在することを示すラベル「存在」を対応付けた教師データ
（２）白杖で床を叩きながら歩く視覚障がい者を含まない通行人群が歩いている空間Ｓ内（又は空間Ｓと床の素材が類似している空間内）でマイク１１（又はマイク１１と類似の性能のマイク）により拾った音のスペクトログラムを表すスペクトログラムデータに、視覚障がい者が存在しないことを示すラベル「不在」を対応付けた教師データ

【0037】

ここで、教師データに含まれるスペクトログラムデータは機械学習における説明変数として用いられ、それらのスペクトログラムデータに対応付けられたラベル（「存在」又は「不在」）は機械学習における目的変数として用いられる。

【0038】

学習モデル１３４の生成において採用される機械学習の方式は、例えばディープラーニングであるが、これに限られない。

【0039】

学習モデル１３４は、スペクトログラム生成部１３３から引き渡されるスペクトログラムデータを説明変数として取り込み、取り込んだスペクトログラムデータの解析結果として、「存在」又は「不存在」を目的変数として出力する。学習モデル１３４は、出力した「存在」又は「不存在」を示すデータ（以下、「解析結果データ」という）を判定部１３７に引き渡す。

【0040】

画像データ取得部１３５は、カメラ１２から出力される画像データを受け取り、受け取った画像データを画像認識部１３６に引き渡す。

【0041】

画像認識部１３６は、画像データ取得部１３５から引き渡された画像データが表す画像に含まれる物（通行人や通行人の所持物等）を既知の画像認識手法により認識し、認識した物の種別と、その物の画像中における位置を示すデータ（以下、「認識結果データ」という）を判定部１３７に引き渡す。

【0042】

判定部１３７は、学習モデル１３４から継続的に解析結果データを受け取るとともに、画像認識部１３６から継続的に認識結果データを受け取り、それらのデータに基づき、空間Ｓ内に視覚障がい者が存在するか否かを判定する。

【0043】

判定部１３７は、図４に示すリスト（以下、「判定条件リスト」という）に記載されている判定条件に従い、現在、空間Ｓ内に障がい者が存在することを示す「存在」、空間Ｓ内に障がい者が存在しないことを示す「不在」、空間Ｓ内に視覚障がい者が存在する可能性があることを示す「可能性」のいずれであるかを判定する。

【0044】

上記の判定を行うため、判定部１３７は、まず、画像による視覚障がい者の検知結果を特定する。具体的には、判定部１３７は、画像認識部１３６から順次、引き渡される認識結果データが示す物の種別に「白杖」が含まれるか否かを判定し、その判定の結果を一時的に記憶する。

【0045】

続いて、判定部１３７は、最新の認識結果データが示す物の種別に「白杖」が含まれる場合は、画像による検知結果として「検知あり」を選択する。一方、最新の認識結果データが示す物の種別に「白杖」が含まれない場合は、過去のｎフレーム（ｎは所定の自然数）の画像に応じた認識結果データのいずれかが示す物の種別に「白杖」が含まれるか否かを判定し、含まれる場合は、画像による検知結果として「過去ｎフレームで検知あり」を選択する。そして、最新及び過去のｎフレームの画像に応じた認識結果データのいずれが示す物の種別にも「白杖」が含まれない場合は、画像による検知結果として「検知なし」を選択する。

【0046】

また、判定部１３７は、最新の解析結果データが「存在」を示す場合、音による検知結果として「検知あり」を選択し、最新の解析結果データが「不在」を示す場合、音による検知結果として「検知なし」を選択する。

【0047】

判定部１３７は、上記のように選択した画像による視覚障がい者の検知結果と、音による視覚障がい者の検知結果との組み合わせに応じて、判定条件リスト（図４）の「結果」欄に記載される状態を、空間Ｓ内における視覚障がい者の有無に関する判定結果と特定する。例えば、画像による視覚障がい者の検知結果が「検知なし」であり、音による視覚障がい者の検知結果が「検知なし」であれば、判定部１３７は、判定条件リスト（図４）の第１行の「結果」欄の「不在」を読み取り、空間Ｓ内に視覚障がい者は存在しない、と判定する。

【0048】

上記のように判定部１３７が行う判定の結果は、カメラ１２で撮影した画像による視覚障がい者の検知結果（判定条件リストの「画像」欄）の信頼度を、マイク１１で拾った音による視覚障がい者検知結果（判定条件リストの「音」欄）に基づき判定した結果を示している。

【0049】

例えば、画像による検知結果が「検知なし」である場合、音による検知結果が「検知なし」であれば、判定条件リストの第１行に従い、判定部１３７の判定結果は「存在」となるが、音による検知結果が「検知あり」であれば、判定条件リストの第３行に従い、判定部１３７の判定結果は「可能性」となる。また、画像による検知結果が「過去ｎフレームで検知あり」である場合、音による検知結果が「検知あり」であれば、判定条件リストの第５行に従い、判定部１３７の判定結果は「存在」となるが、音による検知結果が「検知なし」であれば、判定条件リストの第６行に従い、判定部１３７の判定結果は「可能性」となる。これらは、画像による検知結果の信頼度が、音による検知結果により判定されていることを意味する。

【0050】

図５及び図６は、判定部１３７が画像による検知結果と音による検知結果の両方を用いて視覚障がい者の有無を判定することにより得られる効果を説明するための図である。

【0051】

図５は、視覚障がい者がいない状態の空間Ｓに、新たに視覚障がい者が入ってきた場合に、どのタイミングで視覚障がい者が空間Ｓにいると判定されるかを示したタイムチャートである。なお、図５において、視覚障がい者がカメラ１２の撮影範囲に入ってきたタイミングは時刻ｔ５である。

【0052】

図５（Ａ）は、画像による検知結果のみを用いて空間Ｓにおける視覚障がい者の有無を判定する場合のタイムチャートを例示している。画像による検知結果のみを用いる場合、検知結果が「検知なし」から「検知あり」に変化したとき（時刻ｔ５）に、すぐさま空間Ｓに視覚障がい者が存在する、と判定するのは必ずしも望ましくない。なぜなら、画像から白杖が誤認識される場合があるためである。従って、ここでは、例として、過去４フレームに応じた画像による検知結果が全て「検知あり」であった場合に、空間Ｓに視覚障がい者が存在する、と判定するものとする。この場合、４フレーム連続で「検知あり」となった時刻ｔ８に、空間Ｓに視覚障がい者が存在する、と判定されることになる。

【0053】

図５（Ｂ）は、画像による検知結果と音による検知結果の両方を用いて空間Ｓ内における視覚障がい者の有無を判定する場合のタイムチャートを例示している。通常、カメラ１２の撮影範囲に視覚障がい者が入るより前に、マイク１１はその視覚障がい者の白杖打音を拾い始める。ここでは、例として、マイク１１が白杖打音を拾い始めたタイミングが時刻ｔ１であるものとする。

【0054】

この場合、判定部１３７は、まず、時刻ｔ１に「可能性」と判定し、時刻ｔ５に「存在」と判定する。すなわち、時刻ｔ５において画像による検知結果が「検知なし」から「検知あり」に変化した際、既に音による検知結果が「検知あり」であったため、画像による検知結果の信頼性が高い、と考えられる。従って、判定部１３７は、時刻ｔ５にすぐさま、「存在」と判定することができる。

【0055】

上記のように、画像による検知結果のみを用いて空間Ｓ内における視覚障がい者の有無を判定する場合よりも、画像による検知結果と音による検知結果の両方を用いて空間Ｓ内における視覚障がい者の有無を判定する場合の方が、より速やかに視覚障がい者を検知した、と判定することができる。

【0056】

図６は、視覚障がい者がいる状態の空間Ｓにおいて、その視覚障がい者が所持する白杖が他の通行人等に隠れて、カメラ１２が撮影した５フレーム分の画像に映らなかった場合に、どれくらいの期間、視覚障がい者が空間Ｓにいないと誤判定されるかを示したタイムチャートである。なお、図６において、視覚障がい者がカメラ１２の撮影した画像に白杖が映らなかった期間は時刻ｔ２から時刻ｔ６までの期間である。

【0057】

図６（Ａ）は、画像による検知結果のみを用いて空間Ｓにおける視覚障がい者の有無を判定する場合のタイムチャートを例示している。画像による検知結果のみを用いる場合、検知結果が「検知あり」から「検知なし」に変化したとき（時刻ｔ２）に、すぐさま空間Ｓに視覚障がい者が存在しない、と判定するのは必ずしも望ましくない。なぜなら、白杖が他の通行人等に隠れて画像に一時的に写っていないが、視覚障がい者は空間Ｓ内にいる場合があるためである。従って、ここでは、例として、過去４フレームに応じた画像による検知結果が全て「検知なし」であった場合に、空間Ｓに視覚障がい者が存在しない、と判定するものとする。この場合、４フレーム連続で「検知なし」となった時刻ｔ５に、空間Ｓに視覚障がい者が存在しない、と判定されることになる。

【0058】

その後、時刻ｔ７に画像による検知結果が「検知なし」から「検知あり」になり、「検知あり」が４フレーム連続で「検知あり」となった時刻ｔ１０に、空間Ｓに視覚障がい者が存在する、と判定される。この場合、実際には視覚障がい者はずっと空間Ｓ内にいたので、時刻ｔ５から時刻ｔ１０までの間、誤判定が行われることになる。

【0059】

図６（Ｂ）は、画像による検知結果と音による検知結果の両方を用いて空間Ｓ内における視覚障がい者の有無を判定する場合のタイムチャートを例示している。ここでは、例として、判定条件リスト（図４）の「過去ｎフレームで検知あり」のｎは「３」であるものとする。すなわち、最新及び過去３フレームの計４フレームのいずれにも白杖が写っていない場合、画像による検知結果は「過去ｎフレームで検知あり」から「検知なし」に変化するものとする。

【0060】

図６（Ｂ）に示されるように、この場合、判定部１３７は、画像による検知結果と、音による検知結果に基づき、時刻ｔ６から時刻ｔ７までは空間Ｓ内に視覚障がい者が存在する可能性がある、と判定し、その他の期間中は空間Ｓ内に視覚障がい者が存在する、と判定する。従って、誤判定が行われることがない。

【0061】

上記のように、画像による検知結果のみを用いて空間Ｓ内における視覚障がい者の有無を判定する場合よりも、画像による検知結果と音による検知結果の両方を用いて空間Ｓ内における視覚障がい者の有無を判定する場合の方が、誤判定の期間が短くなる。

【0062】

判定部１３７は、判定条件リスト（図４）に従い行った判定の結果を示す判定結果データを送信部１３８に引き渡す。以上が、判定部１３７が行う判定の処理の説明である。

【0063】

図２を参照し、サーバ装置１３の機能構成の説明を続ける。送信部１３８は、判定部１３７から引き渡される判定結果データが示す判定の結果を、画像データ取得部１３５がカメラ１２から取得した最新の画像とともに表示する通知画面データを生成し、生成した通知画面データを端末装置１４に送信する。なお、最新の画像に白杖が写っている場合、送信部１３８は、画像認識部１３６から認識結果データを受け取り、最新の画像に白杖の位置を示す枠をオーバーレイした画像を生成し、その画像を判定の結果とともに表示する通知画面データを生成し、その通知画面データを端末装置１４に送信する。

【0064】

図７は、端末装置１４がサーバ装置１３から受信した通知画面データに従い表示する画面（以下、「通知画面」という）を例示した図である。図７（Ａ）は判定部１３７による判定結果が「不在」の場合の通知画面、図７（Ｂ）は判定部１３７による判定結果が「可能性」の場合の通知画面、図７（Ｃ）は判定部１３７による判定結果が「存在」の場合の通知画面を例示している。

【0065】

通知画面には、判定部１３７の判定結果に加え、カメラ１２により撮影された最新の画像が表示される。また、画像認識部１３６により白杖の画像が認識されている場合には、その画像中に、白杖の位置を示す枠Ｃがオーバーレイ表示される。端末装置１４のユーザ（空間Ｓの管理者等）は、通知画面を見て、空間Ｓにおける視覚障がい者の有無と、視覚障がい者が存在する場合はその位置を容易に知ることができる。

【0066】

［変形例］
上述した実施形態は本発明の技術的思想の範囲内で様々に変形されてよい。以下にそれらの変形例を示す。なお、以下に示す変形例の２以上が適宜組み合わされてもよい。

【0067】

（１）本発明に係る視覚障がい者検知システムが、互いに異なる位置に配置された複数のマイクを備え、それらのマイクで拾った音の各々から視覚障がい者を検知したときに、検知に用いた複数の音に含まれる視覚障がい者が白杖で床を叩いた音（白杖打音）の大きさから、視覚障がい者の位置及び移動速度の少なくとも一方を特定するように構成されてもよい。

【0068】

図８は、この変形例に係る視覚障がい者検知システム２の全体構成を模式的に示した図である。視覚障がい者検知システム２は、視覚障がい者検知システム１（図１）と比較し、マイク１１に代えて、指向性のないマイク１１（１）～１１（３）を備える点と、サーバ装置１３に代えてサーバ装置２３を備える点が異なっている。なお、図８及び図９において、視覚障がい者検知システム２が視覚障がい者検知システム１と共通して備える構成部には、視覚障がい者検知システム１において付された符号と同じ符号が付されている。

【0069】

図９は、視覚障がい者検知システム２が備えるサーバ装置２３の機能構成を模式的に示した図である。サーバ装置２３は、視覚障がい者検知システム１が備えるサーバ装置１３と比較し、以下の点が異なっている。
（ａ）マイク１１に応じた音データ取得部１３１、フィルタ処理部１３２、スペクトログラム生成部１３３、学習モデル１３４に代えて、マイク１１（１）～１１（３）の各々に応じた音データ取得部１３１（１）～１３１（３）、フィルタ処理部１３２（１）～１３２（３）、スペクトログラム生成部１３３（１）～１３３（３）、学習モデル１３４（１）～１３４（３）を備える点。
（ｂ）マイク１１（１）～１１（３）の各々が拾った音に含まれる白杖打音の大きさから、視覚障がい者の位置を特定する位置特定部２３１を備える点。
（ｃ）判定部１３７が、学習モデル１３４から引き渡される解析結果データに代えて、学習モデル１３４（１）～１３４（３）の各々から引き渡される解析結果データを用いて判定を行う点。
（ｄ）送信部１３８が、判定部１３７の判定結果とともに、位置特定部２３１により特定された視覚障がい者の位置を表示する通知画面データを生成する点。

【0070】

判定部１３７は、学習モデル１３４（１）～１３４（３）から引き渡される解析結果データの１以上が「検知あり」を示す場合、音による検知結果は「検知あり」と判定する。ただし、これに代えて、判定部１３７が、例えば、学習モデル１３４（１）～１３４（３）から引き渡される解析結果データの２以上が「検知あり」を示す場合、音による検知結果は「検知あり」と判定する構成が採用されてもよいし、それらの解析結果データの３つ全てが「検知あり」を示す場合、音による検知結果は「検知あり」と判定する構成が採用されてもよい。

【0071】

位置特定部２３１は、学習モデル１３４（１）～１３４（３）から引き渡される解析結果データの１以上が「検知あり」を示す場合、学習モデル１３４（１）～１３４（３）がそれらの解析結果データの生成に用いたスペクトログラムデータをスペクトログラム生成部１３３（１）～１３３（３）から取得し、それらのスペクトログラムデータが示す音から、白杖打音の成分を特定し、その音の成分のピーク値を特定する。

【0072】

例えば、位置特定部２３１がスペクトログラム生成部１３３（１）から図３のスペクトログラムを表すスペクトログラムデータを取得した場合、位置特定部２３１は、概ね一定の時間間隔を空けて２ｋＨｚを超える周波数帯において現れる大きい振幅のうち最新のもの（スペクトログラムの最も右側のもの）の値（ピーク値）を、マイク１１（１）が拾った白杖打音の大きさとして特定する。同様に、位置特定部２３１は、スペクトログラム生成部１３３（２）及び１３３（３）から取得したスペクトログラムデータを用いて、マイク１１（２）及び１１（３）が拾った白杖打音の大きさを特定する。

【0073】

続いて、位置特定部２３１は、上記のように特定したマイク１１（１）～１１（３）の各々が拾った白杖打音の大きさに基づき、空間Ｓを上から平面視した２次元平面上の視覚障がい者の位置を特定する。マイク１１（１）～１１（３）の各々が拾う音の大きさ（デシベル）は、音源からマイク１１（１）～１１（３）の各々までの距離の対数に比例して減少する。その関係に従い、位置特定部２３１は、マイク１１（１）～１１（３）の各々が拾った白杖打音の大きさに基づき、マイク１１（１）～１１（３）の各々と白杖打音の音源との距離の比を特定する。続いて、位置特定部２３１は、マイク１１（１）～１１（３）から、特定した比を満たす２次元平面上の位置を特定する。

【0074】

図１０は、例として、マイク１１（１）から白杖打音の音源までの距離Ｄ１と、マイク１１（２）から白杖打音の音源までの距離Ｄ２と、マイク１１（３）から白杖打音の音源までの距離Ｄ３の比が３：４：５である場合に、白杖打音の音源の位置Ｐが特定される様子を模式的に示した図である。

【0075】

位置特定部２３１は、上記のように特定した２次元平面上の視覚障がい者の位置とその時点の現在時刻を対応付けて順次記憶する。そして、位置特定部２３１は、記憶した位置の経時変化から、視覚障がい者の移動方向及び移動速度を特定する。

【0076】

図１１は、端末装置１４がサーバ装置２３から受信した通知画面データに従い表示する通知画面を例示した図である。視覚障がい者検知システム２においては、判定部１３７による判定結果と、カメラ１２により撮影された画像に加え、音の大きさにより位置特定部２３１が特定した視覚障がい者の２次元平面上の位置Ｐと、移動方向及び移動速度を表す矢印Ｖが表示される。これにより、端末装置１４のユーザ（空間Ｓの管理者等）は、視覚障がい者が他の通行人に隠れる等の理由でカメラ１２の死角にいる場合であっても、視覚障がい者の位置を知ることができる。

【0077】

（２）本発明に係る視覚障がい者検知システムが、運用中に、カメラで撮影した画像からの視覚障がい者の検知結果を目的変数とし、その画像の撮影時期にマイクが拾った音の情報を説明変数とする教師データを用いて、機械学習により学習モデルを更新する構成が採用されてもよい。

【0078】

図１２は、この変形例に係る視覚障がい者検知システム３が備えるサーバ装置３３の機能構成を模式的に示した図である。なお、視覚障がい者検知システム３の全体構成は、サーバ装置１３に代えてサーバ装置３３を備える点を除き、視覚障がい者検知システム１の全体構成（図１）と同様である。

【0079】

サーバ装置３３の機能構成は、サーバ装置１３の機能構成（図２）と比較し、学習モデル更新部３３１を備える点が異なっている。なお、図１２において、サーバ装置３３がサーバ装置１３と共通して備える構成部には、サーバ装置１３において付された符号と同じ符号が付されている。

【0080】

学習モデル更新部３３１は、判定部１３７の判定結果が「存在」又は「不在」である場合、その判定結果の導出に用いられた解析結果データを出力した際に学習モデル１３４に入力されたスペクトログラムデータをスペクトログラム生成部１３３から取得し、取得したスペクトログラムデータを説明変数とし、判定部１３７の判定結果を目的変数とする教師データを生成する。学習モデル更新部３３１は、生成したそれらの教師データを用いて、学習モデル１３４を更新する。その結果、学習モデル１３４が出力する解析結果の精度向上が期待できる。

【0081】

（３）本発明に係る視覚障がい者検知システムが、カメラ１２を備えず、マイク１１が拾った音のみに基づき、空間Ｓ内の視覚障がい者の有無を判定する構成が採用されてもよい。

【0082】

（４）上述した実施形態において、学習モデル１３４の生成に用いられる教師データの説明変数はスペクトログラムデータであるものとしたが、スペクトログラムデータに加えて、もしくはスペクトログラムデータに代えて、マイク１１が拾った音データ（又は当該音データに対し、フィルタ処理部１３２がフィルタ処理を行った後の音データ）が説明変数として用いられてもよい。

【0083】

（５）音による視覚障がい者の有無の判定を、機械学習により生成された学習モデルによらずに、ルールベースの判定処理を行う判定部により行う構成が採用されてもよい。その場合、上述した実施形態において用いられるものとした学習モデル、すなわち、カメラで撮影した画像からの視覚障がい者の検知結果を目的変数とし、その画像の撮影時期にマイクが拾った音の情報を説明変数とする教師データを用いた機械学習により生成された学習モデルから、判定の規則を取り出し、取り出した判定の規則に従いルールベースの判定処理を行うようにしてもよい。

【符号の説明】

【0084】

１…視覚障がい者検知システム、２…視覚障がい者検知システム、３…視覚障がい者検知システム、１１…マイク、１２…カメラ、１３…サーバ装置、１４…端末装置、２３…サーバ装置、３３…サーバ装置、１３１…音データ取得部、１３２…フィルタ処理部、１３３…スペクトログラム生成部、１３４…学習モデル、１３５…画像データ取得部、１３６…画像認識部、１３７…判定部、１３８…送信部、２３１…位置特定部、３３１…学習モデル更新部。

【図1】