(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022181825
(43)【公開日】2022-12-08
(54)【発明の名称】音声案内装置、音声案内方法及び音声案内プログラム
(51)【国際特許分類】
A61F 9/08 20060101AFI20221201BHJP
G06F 3/16 20060101ALI20221201BHJP
G06F 3/01 20060101ALI20221201BHJP
G10L 13/10 20130101ALI20221201BHJP
【FI】
A61F9/08 300
G06F3/16 540
G06F3/16 690
G06F3/16 610
G06F3/01 510
G10L13/10 114
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2021088998
(22)【出願日】2021-05-27
(71)【出願人】
【識別番号】000202361
【氏名又は名称】綜合警備保障株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】堀口 彰
(72)【発明者】
【氏名】羽山 西蔵
(72)【発明者】
【氏名】安藤 啓祐
(72)【発明者】
【氏名】相澤 桂
【テーマコード(参考)】
5E555
【Fターム(参考)】
5E555AA62
5E555AA76
5E555BA24
5E555BB24
5E555BC01
5E555BE08
5E555DA23
5E555DD06
5E555EA05
5E555EA09
5E555EA22
5E555FA00
(57)【要約】
【課題】視覚に障害のあるユーザに対して、出力されている案内音声が自分に対する音声案内であることを認識させ、混同させることなく、ユーザ毎に音声案内を有効に機能させる。
【解決手段】カメラ装置で撮像された撮像画像を解析することで、視覚に障害のあるユーザを検出すると共に、視覚に障害のあるユーザの少なくとも現在位置を検出する検出部と、検出部により、視覚に障害のあるユーザが複数検出された場合に、各ユーザに対して、それぞれ割り当てた異なる声質の案内音声データに基づいて案内音声を生成する割り当て部と、検出部により検出された、視覚に障害のある各ユーザの少なくとも現在位置に対応する音声出力装置を介して、各ユーザに割り当てた異なる声質の案内音声データに基づいて生成された案内音声を出力制御する出力制御部と、を備える。
【選択図】
図8
【特許請求の範囲】
【請求項1】
カメラ装置で撮像された撮像画像を解析することで、視覚に障害のあるユーザを検出すると共に、視覚に障害のあるユーザの少なくとも現在位置を検出する検出部と、
前記検出部により、視覚に障害のあるユーザが複数検出された場合に、各ユーザに対して、それぞれ割り当てた異なる声質の案内音声データに基づいて案内音声を生成する割り当て部と、
前記検出部により検出された、視覚に障害のある各ユーザの少なくとも現在位置に対応する音声出力装置を介して、各ユーザに割り当てた異なる声質の案内音声データに基づいて生成された前記案内音声を出力制御する出力制御部と、
を備える音声案内装置。
【請求項2】
前記割り当て部は、視覚に障害のある各ユーザに対して、少なくとも性別、音声周波数、音圧、音高、及び発話速度のうち、いずれか一つ又は複数が異なる案内音声データの割り当てを行うこと
を特徴とする請求項1に記載の音声案内装置。
【請求項3】
前記検出部は、視覚に障害のある各ユーザの特徴をそれぞれ検出し、
前記出力制御部は、各ユーザに対して割り当てられた声質の案内音声データで、検出した各ユーザの前記特徴を示す事前認識用音声案内を行うこと
を特徴とする請求項1又は請求項2に記載の音声案内装置。
【請求項4】
前記割り当て部は、前記案内音声データを生成する際に、音声案内を行う話者を示す固有名詞を含む前記案内音声データを生成すること
を特徴とする請求項1から請求項3のうち、いずれか一項に記載の音声案内装置。
【請求項5】
検出部が、カメラ装置で撮像された撮像画像を解析することで、視覚に障害のあるユーザを検出すると共に、視覚に障害のあるユーザの少なくとも現在位置を検出する検出ステップと、
前記検出ステップで、視覚に障害のあるユーザが複数検出された場合に、割り当て部が、各ユーザに対して、それぞれ割り当てた異なる声質の案内音声データに基づいて案内音声を生成する割り当てステップと、
出力制御部が、前記検出ステップで検出された、視覚に障害のある各ユーザの少なくとも現在位置に対応する音声出力装置を介して、各ユーザに割り当てた異なる声質の案内音声データに基づいて生成された前記案内音声を出力制御する出力制御ステップと、
を備える音声案内方法。
【請求項6】
コンピュータを、
カメラ装置で撮像された撮像画像を解析することで、視覚に障害のあるユーザを検出すると共に、視覚に障害のあるユーザの少なくとも現在位置を検出する検出部と、
前記検出部により、視覚に障害のあるユーザが複数検出された場合に、各ユーザに対して、それぞれ割り当てた異なる声質の案内音声データに基づいて案内音声を生成する割り当て部と、
前記検出部により検出された、視覚に障害のある各ユーザの少なくとも現在位置に対応する音声出力装置を介して、各ユーザに割り当てた異なる声質の案内音声データに基づいて生成された前記案内音声を出力制御する出力制御部として機能させること、
を特徴とする音声案内プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声案内装置、音声案内方法及び音声案内プログラムに関する。
【背景技術】
【0002】
今日において、例えば駅、施設等の構内又は構外において、例えば「5m先に改札口があります」又は「3m先に横断歩道があります」等の音声案内が、視覚に障害のあるユーザ等に対して提供されている。
【0003】
また、特許文献1(特開2020-125907公報)には、駅構内を通行するユーザ(視覚障害者)に向けて、そのユーザの移動方向に応じた音声案内を行う視覚障害者用音声案内システムが開示されている。これにより、駅構内を通行するユーザに対して不要となる音声案内を行わないようにすることができ、無駄な音声案内の出力を軽減できる。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、特許文献1の視覚障害者用音声案内システムを含め、従来の音声案内システムでは、視覚に障害のある複数のユーザが近い位置に存在していた場合、聴取した音声案内が、自分に対する音声案内なのか、又は、視覚に障害のある他のユーザに対する音声案内なのか、認識しづらいという問題があった。
【0006】
例えば、視覚に障害のある複数のユーザが同じ場所に位置しており、一方のユーザと他方のユーザは、それぞれ異なる方向に歩行していたとする。この状況で、一方のユーザに対して「5m直進した場所に改札口があります」との音声案内を行ったとする。この一方のユーザに対して行った音声案内が、一方のユーザとは反対方向に向かって歩行している他方のユーザにより、自分に対する音声案内だと誤認識されると、他方のユーザは、5m直進しても改札口には到着できない不都合を生ずる。
【0007】
本発明は、上述の課題に鑑みてなされたものであり、視覚に障害のあるユーザに対して、出力されている音声案内が自分に対する音声案内であることを認識させ、混同させることなく、ユーザ毎に音声案内を有効に機能させることを可能とした音声案内装置、音声案内方法及び音声案内プログラムの提供を目的とする。
【課題を解決するための手段】
【0008】
上述した課題を解決し、目的を達成するために、本発明は、カメラ装置で撮像された撮像画像を解析することで、視覚に障害のあるユーザを検出すると共に、視覚に障害のあるユーザの少なくとも現在位置を検出する検出部と、検出部により、視覚に障害のあるユーザが複数検出された場合に、各ユーザに対して、それぞれ割り当てた異なる声質の案内音声データに基づいて案内音声を生成する割り当て部と、検出部により検出された、視覚に障害のある各ユーザの少なくとも現在位置に対応する音声出力装置を介して、各ユーザに割り当てた異なる声質の案内音声データに基づいて生成された案内音声を出力制御する出力制御部と、を備える。
【発明の効果】
【0009】
本発明によれば、視覚に障害のあるユーザに対して、出力されている案内音声が自分に対する音声案内であることを認識させることができる。このため、混同させることなく、ユーザ毎に音声案内を有効に機能させることができる。
【図面の簡単な説明】
【0010】
【
図1】
図1は、実施の形態となる音声案内システムのシステム構成の一例を示す図である。
【
図2】
図2は、実施の形態の音声案内システムに設けられている解析装置のブロック図である。
【
図3】
図3は、解析装置に記憶されている地図データのフォーマットの一例を示す図である。
【
図4】
図4は、解析装置に記憶されている案内音声データのフォーマットの一例を示す図である。
【
図5】
図5は、ユーザ情報テーブルの模式図である。
【
図6】
図6は、解析装置のCPUが音声案内プログラムを実行することで実現される各機能の機能ブロック図である。
【
図7】
図7は、実施の形態の音声案内システムの音声案内動作の前半の流れを示すフローチャートである。
【
図8】
図8は、実施の形態の音声案内システムの音声案内動作の後半の流れを示すフローチャートである。
【
図9】
図9は、実施の形態の音声案内システムにおける音声案内動作を説明するための第1の模式図である。
【
図10】
図10は、実施の形態の音声案内システムにおける音声案内動作を説明するための第2の模式図である。
【
図11】
図11は、実施の形態の音声案内システムにおける音声案内動作を説明するための第3の模式図である。
【
図12】
図12は、実施の形態の音声案内システムにおける音声案内動作を説明するための第4の模式図である。
【発明を実施するための形態】
【0011】
以下、図面を参照して、本発明を提供した実施の形態の音声案内システムの説明をする。
【0012】
(システム構成)
図1は、実施の形態の音声案内システムのシステム構成を示す図である。この
図1に示すように、音声案内システムは、複数の端末装置60と、例えば管理室等の設けられた管理者端末装置である解析装置3とを、インターネット等の広域網又はLAN(Local Area Network)等のプライベート網を介して相互に接続することで構成されている。
【0013】
端末装置60は、例えばユーザが通行する通路に沿って所定の間隔で設けられる等のように、地理的に異なる位置に設けられている。各端末装置60は、それぞれカメラ装置1及びスピーカ装置2を備えている。カメラ装置1は、例えば定点カメラ装置となっており、固定された撮像領域内の通路等を通行するユーザを撮像する。なお、カメラ装置1は、撮像領域を変更可能なカメラ装置でもよい。スピーカ装置2は、音声出力装置の一例であり、案内音声を出力する。
【0014】
解析装置3は、各端末装置60のカメラ装置1の撮像画像を解析して、視覚に障害のあるユーザの特徴を解析する。そして、解析装置3は、視覚に障害のあるユーザ毎に異なる音声を割り当て、ユーザが移動する位置に設けられているスピーカ装置2から案内音声を出力する。これにより、近接する位置に視覚に障害のあるユーザが複数存在している場合でも、混同させることなくユーザ毎に音声案内を行うことができる。
【0015】
(解析装置のハードウェア構成)
図2は、解析装置3のハードウェア構成を示すブロック図である。この
図2に示すように、解析装置3は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、及び、通信部14を備えている。また、解析装置3は、HDD(Hard Disk Drive)15、入出力インターフェース(入出力I/F)16、及び、通信インターフェース(通信I/F)17を備えている。
【0016】
通信部14は、インターネット又はLAN等のネットワークを介して有線通信の他、ブルートゥース(登録商標)又はWi-Fi(登録商標)等の無線通信を行う。HDD15には、視覚に障害があるユーザに対して音声案内を行うための音声案内プログラム、地図データ50、案内音声データ51、及び、ユーザ情報テーブル52が記憶されている。
【0017】
地図データ50としては、
図3に示すように、音声案内を行う地理的範囲(以降、同じ意味で「サービスエリア」という表現も併せて用いる)に位置する施設、テナント、改札口、エレベータ装置等の施設名又は名称を含む施設情報及び位置情報と、その施設に対する音声案内を行う際の条件を示す出力条件情報とが関連付けられて記憶されている。
【0018】
案内音声データ51は、地図データ50に基づいて音声案内を行うためのデータであり、聴覚上異なる複数の案内音声データ51が記憶されている。さらに具体的には、案内音声データ51は、例えば「わたくし」、「太郎」、「花子」、「5」、「メートル」、「先」、「に」、「改札」、「口」、「が」、「あります」、「黒」、「白」、「色」、「の」、「カーディガン」、「を」、「コート」、「野球」、「帽子」、「ロング」、「ショート」、「ヘアー」等の各種単語毎の音声データである分割音声データとして記憶されている。
【0019】
一例ではあるが、
図4に示すように、聴覚上異なる複数の案内音声データ51には、各々を一意に表す案内音声IDが付与され、話者が男性の案内音声データ51及び話者が女性の案内音声データ51に分けて記憶されている。また、話者の性別が同じものであっても、聴覚上、聞き分けが容易な案内音声データ51が記憶されている。また、話者が男性の各案内音声データ51には、音声周波数を示す情報、音圧、音高及び発話速度を示す情報が、それぞれ記憶されている。話者が女性の案内音声データ51も同様であり、聴覚上、聞き分けが容易な案内音声データ51が記憶されている。また、話者が女性の各案内音声データ51にも、音声周波数を示す情報、音圧、音高及び発話速度を示す情報が、それぞれ記憶されている。
【0020】
実施の形態の音声案内システムの場合、視覚に障害があるユーザが複数存在する場合、
図4に示すような話者の性別、音声周波数、音圧、音高及び発話速度等をファクタとして用い、視覚に障害があるユーザがそれぞれ聞き分け容易な案内音声データ51を割り当てて音声案内を行う。
【0021】
図5に、ユーザ情報テーブル52の模式図を示す。この
図5に示すように、ユーザ情報テーブル52は、視覚に障害があるユーザとそのユーザ毎に割り当てられた案内音声データ51との対応を記憶するテーブルである。詳しくは後述するが、ユーザID、そのユーザの特徴(人物特徴)の情報、及びそのユーザに割り当てた案内音声データ51のID(案内音声ID)の対応を記憶する。
【0022】
入出力I/F16には、必要な場合に、表示部18及び操作部19が接続される。通信I/F17は、必要な場合に、ネットワークケーブルを介してネットワーク5に接続される。
【0023】
(解析装置の機能構成)
図6は、CPU11がHDD15に記憶されている音声案内プログラムを実行することでソフトウェア的に実現される各機能の機能ブロック図である。この
図6に示すように、CPU11は、音声案内プログラムを実行することで、映像取得部21、地図データ取得部22、画像解析部23、出力音声割り当て部24、通信制御部25、スピーカ切り替え部26及び緊急処理部27として機能する。
【0024】
映像取得部21は、各カメラ装置1で撮像されている地理的範囲を往来するユーザの撮像画像を取得する。地図データ取得部22は、各カメラ装置1で撮像されている地理的範囲の経緯度に対応する地図データ50をHDD15から取得する。画像解析部23は、検出部の一例であり、各カメラ装置1で撮像された撮像画像に基づいて、ユーザの人物特徴を解析し、また、視覚障害の有無等を判断する。
【0025】
画像解析部23は、視覚障害のあるユーザであると判断された場合に、解析されたそのユーザの特徴(人物特徴)の情報と一致する特徴(人物特徴)の情報が、ユーザ情報テーブル52に記憶されているか否かを判断する。ユーザ情報テーブル52に記憶されていない場合、画像解析部23は、解析したそのユーザを一意に表すユーザIDを発行し、発行したユーザIDと、解析したそのユーザの特徴(人物特徴)の情報とを対応付けて、ユーザ情報テーブル52に記憶する。
【0026】
また、画像解析部23は、カメラ装置1で撮像されている撮像画像の各座標に対応する経緯度に基づいて、そのユーザの現在位置を検出する。さらに、画像解析部23は、例えば数フレームの一連の撮像画像に写っている同じユーザの現在位置の差から、そのユーザの移動方向を検出する。また、画像解析部23は、視覚に障害のあるユーザが、例えば白杖を頭上50cm程度に掲げる動作、又は、白杖をユーザの顔の前あたりで左右に振る動作等の、「助けを求める動き」の有無を検出する。
【0027】
出力音声割り当て部24は、割り当て部の一例であり、画像解析部23により検出された、視覚に障害のあるユーザに対して、HDD15に記憶されている案内音声データ51を割り当てる。具体的には、画像解析部23により、新規にユーザが登録された場合、出力音声割り当て部24は、HDD15に記憶されている案内音声データ51のうち、既に割り当てられている案内音声とは異なる声質の別の案内音声データ51を割り当てる。そして、出力音声割り当て部24は、その案内音声データ51のID(案内音声ID)を新規ユーザの案内音声としてユーザ情報テーブル52に記憶する。さらに、出力音声割り当て部24は、ユーザ情報テーブル52を参照し、各ユーザに割り当てた、異なる声質の案内音声データ51に基づいて、各ユーザ用の案内音声を生成する。
【0028】
スピーカ切り替え部26は、出力制御部の一例であり、視覚に障害のあるユーザの現在位置に応じて、案内音声を出力するスピーカ装置2を切り替え制御し、そのユーザに割り当てられた声質の案内音声データ51で生成された案内音声を出力する。これにより、各ユーザ用に割り当てられた声質の案内音声で、各ユーザの移動に追従して音声案内が行われる。通信制御部25は、各端末装置60と通信を行い、カメラ装置1で撮像された撮像画像の取得及びスピーカ装置2に対する案内音声の送信等を行う。緊急処理部27は、画像解析部23において視覚に障害があるユーザ等から助けを求める動作が解析された際に、この解析結果に基づいて管理者等に緊急通知を行う。また、緊急処理部27は、助けを求めているユーザの位置に対応するスピーカ装置2を介して、係員が至急救助に向かう旨のメッセージの出力制御等を行う。
【0029】
なお、この例では、映像取得部21~緊急処理部27は、音声案内プログラムにより、ソフトウェアで実現することとした。しかし、これらのうち全部又は一部を、IC(Integrated Circuit)等のハードウェアで実現してもよい。
【0030】
また、音声案内プログラムは、インストール可能な形式又は実行可能な形式のファイル情報でCD-ROM、フレキシブルディスク(FD)などのコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。また、音声案内プログラムは、CD-R、DVD(Digital Versatile Disc)、ブルーレイ(登録商標)ディスク、半導体メモリ等のコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。また、音声案内プログラムは、インターネット等のネットワーク経由でインストールするかたちで提供してもよい。また、音声案内プログラムは、機器内のROM等に予め組み込んで提供してもよい。
【0031】
(音声案内動作)
図7及び
図8は、実施の形態の音声案内システムにおける音声案内動作の流れを示すフローチャートである。このうち、
図7は、音声案内動作の前半の流れを示すフローチャートである。また、
図8は、音声案内動作の後半の流れを示すフローチャートである。
【0032】
(ステップS1)
まず、
図7のフローチャートにおいて、ステップS1では、映像取得部21が、各カメラ装置1で撮像されたユーザ(通行人)の撮像画像を取得する。
【0033】
(ステップS2)
ステップS1の後、ステップS2では、画像解析部23が、ステップS1で取得された撮像画像からユーザの特徴(人物特徴)、現在位置、移動方向を解析する。
【0034】
ユーザの特徴としては、画像解析部23は、所定のアルゴリズムを用いて、そのユーザの年齢及び性別を検出する。また、画像解析部23は、撮像画像を解析することで、そのユーザの服装、服装の色、ハンドバッグ又はリュックサック等の所持品及び所持品の色等の特徴を検出する。これらの特徴を人物特徴と呼ぶ。
【0035】
また、画像解析部23は、カメラ装置1で撮像されている撮像画像の各座標に対応する経緯度に基づいて、そのユーザの現在位置を検出する。また、画像解析部23は、例えば数フレームの一連の撮像画像に写っている同じユーザの現在位置の差から、そのユーザの移動方向を検出する。
【0036】
(ステップS3)
ステップS2の後、ステップS3において、画像解析部23が、撮像画像に写っているユーザが、健常者であるか、又は、視覚に障害のあるユーザであるかを判別する。
【0037】
一例ではあるが、視覚に障害のあるユーザは、白色の杖である盲人安全杖を所有している。これに対して、視覚に障害は無いが、歩行が困難な老人は、茶色又は黒色等の杖を使用している。このため、画像解析部23は、撮像画像に写っているユーザが所有している杖の色が白色であるか否かに基づいて、視覚に障害のあるユーザであるか否かを判別する。
【0038】
また、視覚に障害のあるユーザは、障害物の有無等を確認するために、盲人安全杖で地面等を軽く叩きながら歩行するという、独特の動きがある。画像解析部23は、このような独特な動きの有無も、視覚に障害のあるユーザであるか否かを判別するためのファクタとして用いる。
【0039】
また、視覚に障害のあるユーザは、盲導犬を連れている場合がある。通常の犬は、首輪又はハーネスに、1本の紐状のリードが取り付けられている。これに対して盲導犬の場合、「U字型ハーネス」又は「バーハンドル型ハーネス」と呼ばれる、独特の形状のハーネスが装着されている。画像解析部23は、このようなハーネスの形状も、視覚に障害のあるユーザであるか否かを判別するためのファクタとして用いる。
【0040】
また、「U字型ハーネス」又は「バーハンドル型ハーネス」は、多くの場合、白色である。このため、画像解析部23は、犬に装着されているハーネスの色も、その犬を連れたユーザが、視覚に障害のあるユーザであるか否かを判別するためのファクタとして用いる。
【0041】
また、犬を連れての入場が制限される場所に対して、犬を連れて入場している場合、その犬は盲導犬であり、そのユーザは、視覚に障害のあるユーザである可能性が高い。このため、犬を連れての入場が制限される場所に対して、犬を連れているユーザを、画像解析部23は、視覚に障害のあるユーザとして判別する。
【0042】
また、盲導犬は、多くの場合、ユーザの進行方向に対して左側を歩行することが多い。このため、画像解析部23は、ユーザの進行方向に対して左側を歩行している犬を連れているか否かということも、視覚に障害のあるユーザであるか否かを判別するためのファクタとして用いる。
【0043】
さらに、画像解析部23は、サングラスの着用の有無、身障者マークの有無等も、視覚に障害のあるユーザであるか否かを判別するためのファクタとして用いる。
【0044】
(ステップS3:No→ステップS1へ)
次に、撮像画像に写っているユーザが、健常者のみである場合(ステップS3:No)、処理がステップS1に戻り、画像解析部23により、ステップS1~ステップS3の処理が繰り返し行われる。これに対して、撮像画像に写っているユーザが、視覚に障害のあるユーザであると判別した場合(ステップS3:Yes)、ステップS4に処理が進む。
【0045】
(ステップS4)
ステップS4では、画像解析部23が、ステップS2において撮像画像を解析することで得た、その視覚に障害があると判別したユーザの特徴(人物特徴)をもとにユーザ情報テーブル52を参照し、同じ特徴(人物特徴)の情報がユーザIDおよび案内音声IDと対応付けて記憶されているか否かによって、そのユーザが既に登録されたユーザか否かを判別する。
【0046】
(ステップS4:No→ステップS14へ)
ユーザ情報テーブル52に登録された既知のユーザでない場合は(ステップS4:No)、ステップS14に処理が進む。
【0047】
(ステップS14:新規に案内音声IDの割り当て)
ステップS14では、ステップS4において既知のユーザでないと判断したユーザに対し、画像解析部23が新たにユーザIDを発行する。画像解析部23は、発行したユーザIDと解析したそのユーザの特徴(人物特徴)の情報を対応づけてユーザ情報テーブル52に記憶する。また、これと共に、出力音声割り当て部24が、現在、他のユーザに割り当てられていない声質の案内音声データ51を割り当てる。そして、出力音声割り当て部24は、その案内音声データ51のID(案内音声ID)、及び、そのユーザのユーザID及び特徴(人物特徴)を関連付けてユーザ情報テーブル52に記憶する。すなわち、出力音声割り当て部24は、各ユーザ用の案内音声データ51として、聴覚的に差異のある案内音声データ51を割り当てる。
【0048】
(ステップS14の詳細説明)
聴覚的な差異は、性別、音声周波数(例えばフォルマント周波数)、音圧、音高、発話速度等のうち、いずれか一つ又は複数を異ならせることで生じさせる。具体的には、例えば視覚に障害のあるユーザが2名存在する場合、出力音声割り当て部24は、一方のユーザに対しては、男性の声の案内音声データ51を割り当て、他方のユーザに対しては、女性の声の音声データを割り当てる。または、出力音声割り当て部24は、一方のユーザに対しては、男性の声の案内音声データ51のうち、音声周波数が高く、発話速度が速い声質の案内音声データ51を割り当て、他方のユーザに対しては、同じ男性であっても、音声周波数が低く、発話速度が遅い声質の案内音声データ51を割り当てる。
【0049】
このように性別、音声周波数、音圧、音高、及び発話速度に基づいて、声質の異なる案内音声データ51を各ユーザに割り当てることで、各ユーザに対して、自分用の案内音声の声質を予め認識させ易くすることができる。
【0050】
(ステップS14→ステップS15;案内音声(事前認識用)の生成)
ステップS14の後、ステップS15において、出力音声割り当て部24は、ステップS13で割り当てられた案内音声IDに対応する案内音声データ51で、後述する「事前認識用音声案内」を内容とする案内音声を生成する。この際、出力音声割り当て部24は、案内音声データ51毎に対応づけられている、案内音声データ51の話者を示す固有名詞(例えば「太郎」又は「花子」など)を含む案内音声を生成する。このように生成した案内音声をユーザに対して出力することにより、これから自分に対して特定の話者の案内音声によって音声案内が行われることを、予め認識させることができる。
【0051】
(ステップS15の詳細説明)
出力音声割り当て部24は、割り当てられた案内音声IDに対応する案内音声データ51で、例えば「わたくし花子がご案内します」等の、「太郎」又は「花子」のような音声案内を行う話者を示す固有名詞を含む案内音声を生成する。これにより、自分に対しては、例えば「花子」の声質の案内音声で音声案内が行われることを、ユーザに対して予め認識させることができる。
【0052】
なお、この例は、「太郎」又は「花子」等の「名」の固有名詞を付加する例であった。この他、「氏」又は「氏名」の固有名詞を付加してもよいし、地名、国名、建物名等の他の固有名詞を付加してもよい。
【0053】
このようなステップS15の処理後、ステップS6へ処理が進む。
【0054】
(ステップS4:Yes)
一方、ステップS4において、既にユーザ情報テーブル52に登録された既知のユーザである場合は(ステップS4:Yes)、ステップS5に処理が進む。
【0055】
(ステップS5:割り当てられた案内音声IDの取得)
ステップS5では、出力音声割り当て部24が、ユーザ情報テーブル52からそのユーザに割り当てられた案内音声IDを取得する。これにより、処理がステップS6へ進む。
【0056】
ステップS6では、出力音声割り当て部24が、ステップS5で取得した、またはステップS13で割り当てた案内音声IDに対応する案内音声データ51で、ユーザの現在位置及び移動方向に対応する施設等の音声案内を含む案内音声を生成する。
【0057】
(ステップS6の詳細説明)
具体的には、ユーザの現在位置が、例えば店舗の近くである場合、出力音声割り当て部24は、HDD15から「右手」、「に」、「店舗」、「A」、「が」、「ございます」等の各種単語毎に、割り当てられた案内音声IDに対応する案内音声データ51を読み出す。また、出力音声割り当て部24は、読み出した案内音声データ51を組み合わせることで、「右手に店舗Aがございます」等の、ユーザの現在位置及び移動方向に対応する音声案内を内容とする案内音声を生成する。
【0058】
(ステップS7~ステップS8:スピーカ装置の決定、案内音声出力)
ステップS6の後、ステップS7へ処理が進み、スピーカ切り替え部26が、各ユーザの現在位置、又は、現在位置及び移動方向に基づいて、案内音声を出力するスピーカ装置2を決定する。その後、ステップS8へ処理が進み、ステップS6において出力音声割り当て部24が生成した、ユーザの現在位置及び移動方向に対応する施設等の音声案内を内容とする案内音声を、スピーカ切り替え部26が、ステップS7において決定したスピーカ装置2を介して出力制御する。または、ステップS14において出力音声割り当て部24が生成した事前認識用音声案内、及び、ユーザの現在位置及び移動方向に対応する施設等の音声案内を内容とする案内音声を、ステップS7において決定したスピーカ装置2を介して、スピーカ切り替え部26が出力制御する。
【0059】
(ステップS15~ステップS8の具体例)
ここで、「事前認識用音声案内」を含む案内音声を生成し、スピーカ装置2から出力するまでの流れについて、具体例を示して説明する。例えば、画像解析部23により解析されたユーザの特徴が、黒色のコートを着た女性である場合、出力音声割り当て部24は、HDD15から「黒」、「色」、「の」、「コート」、「を」、「着た」、「女性」、「の」、「方」等の各種単語毎に、そのユーザに割り当てた案内音声IDに対応する案内音声データ51を読み出す。また、出力音声割り当て部24は、読み出した案内音声データ51を組み合わせることで、「黒色のコートを着た女性の方」等の、解析されたユーザに対する音声案内であることをそのユーザに認識させるための音声案内(事前認識用音声案内)、およびそのユーザの現在位置及び移動方向に基づいた音声案内を含む案内音声を生成する。
【0060】
そして、スピーカ切り替え部26が、そのユーザの現在位置及び移動方向に基づいて、案内音声を出力するスピーカ装置を、例えば解析したそのユーザの撮像画像を撮像したカメラ装置1が設けられている端末装置60のスピーカ装置2に決定する。スピーカ切り替え部26は、決定したスピーカ装置2を介して、上述の案内音声を出力制御する。これにより、そのユーザに対して、上述の事前認識用音声案内を聞かせることができるので、今から出力される音声案内が、自分に対する音声案内であること、及び、その案内音声の声質を、そのユーザに対して予め認識させることができる。
【0061】
このようにして一人又は複数のユーザに対する音声案内が開始されると、スピーカ切り替え部26が、ユーザの現在位置及び移動方向に対応するスピーカ装置2を選択し、そのユーザに割り当てられた声質の案内音声を出力する。このように、ユーザに対する音声案内は、最初に割り当てられた声質の案内音声で、終始行われる。このため、視覚に障害のあるユーザが近接して複数存在した場合でも、異なる声質で各ユーザへの音声案内が行われるため、視覚に障害のある各ユーザは、出力されている音声案内が自分に対する音声案内であることを終始認識でき、混同することがない。よって、ユーザ毎に音声案内を有効に機能させることができる。
【0062】
(ステップS9及びステップS10)
次に、ステップS8の後、
図8のフローチャートのステップS9に処理が進み、出力音声割り当て部24が、サービスエリア外へユーザが移動したか否かを判定する。具体的には、出力音声割り当て部24は、ユーザ情報テーブル52への最終アクセス日時を参照し、現在時刻から一定時間(例えば1時間)以上前のものであれば、そのユーザはサービスエリア外へ移動したものと判定する。そのユーザはサービスエリア外へ移動したものと判定されると(ステップS9:Yes)、出力音声割り当て部24は、そのユーザに関する情報をユーザ情報テーブル52から消去する(ステップS10)。
【0063】
もしくは、画像解析部23が、施設出入口などのカメラ映像を解析することで、そのユーザが施設外へ移動したか否かを判定する(ステップS9)。カメラ映像により、そのユーザの施設外への移動が確認された場合(ステップS9:Yes)、出力音声割り当て部24は、そのユーザに関する情報をユーザ情報テーブル52から消去する(ステップS10)。
【0064】
(複数のユーザに対する音声案内の具体例)
さらに、具体的に説明すると、
図9~
図12は、視覚に障害のあるユーザA及びユーザBに対して行う音声案内を模式的に示す図である。まず、
図9に示すように店舗の第1の通路を、ユーザAが左方向から直進し、ユーザBが右方向から直進してきたとする。第1の通路に対しては、いわゆるT字路を形成するように第2の通路が設けられている。この第1の通路及び第2の通路に沿って、
図1に示した端末装置60に相当する端末装置60a~60hが所定の間隔で配置されている。ユーザA及びユーザBは、各々端末装置60aのカメラ装置1及び端末装置60fのカメラ装置1で撮像され、ユーザAは「黒色のコートを着た女性」、ユーザBは「グレーのスーツを着た男性」の特徴を持つことが解析されたとする。
【0065】
ユーザAは、第1の通路の端末装置60aのスピーカ装置2に近接した位置を歩行しており、ユーザBは、第1の通路の端末装置60fのスピーカ装置2に近接した位置を歩行している。この場合、スピーカ切り替え部26は、ユーザAに対する音声案内を出力するスピーカ装置として端末装置60aのスピーカ装置2を選択し、ユーザBに対する音声案内を出力するスピーカ装置として端末装置60fのスピーカ装置2を選択する。また、出力音声割り当て部24は、ユーザAに対しては、男性の話者の太郎さんの案内音声データ51(案内音声ID:M1)を割り当て、ユーザBに対しては、男性の話者の太郎さんとは異なる声質の、女性の話者の花子さんの案内音声データ51(案内音声ID:F1)を割り当てたものとする。
【0066】
スピーカ切り替え部26は、ユーザAに対して割り当てられた案内音声IDがM1の案内音声データ51で生成された、例えば「黒色のコートを着た女性の方、わたくし太郎がご案内します。」との事前認識用音声案内を含む案内音声を、端末装置60aのスピーカ装置2を介して出力する。これにより、ユーザAは、自分に対する音声案内は、男性の太郎さんの声で行われることを認識できる。なお、上述のように人物特徴に基づく事前認識用音声案内を行うことで、これから行われる音声案内が、自分用の音声案内であることを、ユーザAに対して、さらに認識させることができる。
【0067】
同様に、スピーカ切り替え部26は、ユーザBに対して割り当てられた、案内音声IDがF1の案内音声データ51で生成された、例えば「グレーのスーツを着た男性の方、わたくし花子がご案内します。この先、左に店舗Bがございます。」との事前認識用音声案内を含む案内音声を、端末装置60fのスピーカ装置2を介して出力する。これにより、ユーザBは、自分に対する音声案内は、女性の花子さんの声で行われることを認識できる。なお、上述のように人物特徴に基づく事前認識用音声案内を行うことで、これから行われる音声案内が、自分用の音声案内であることを、ユーザBに対して、さらに認識させることができる。
【0068】
次に、
図10に示すように、それぞれ直進するユーザA及びユーザBが、第2の通路に近い位置まで前進したとする。この場合、スピーカ切り替え部26は、ユーザAに対する案内音声を出力するスピーカ装置2として端末装置60bのスピーカ装置2を選択し、ユーザBに対する案内音声を出力するスピーカ装置2として端末装置60dのスピーカ装置2を選択する。
【0069】
そして、スピーカ切り替え部26は、ユーザAに対して割り当てられた案内音声IDがM1の案内音声データ51で生成された、例えば「この先、T字路です。店舗Aへは右折、店舗Bへは直進してください。」との案内音声を、端末装置60bのスピーカ装置2を介して出力する。また、スピーカ切り替え部26は、ユーザBに対して割り当てられた案内音声IDがF1の案内音声データ51で生成された、例えば「この先、T字路です。店舗Aへは左折してください。」との案内音声を、端末装置60dのスピーカ装置2を介して出力する。
【0070】
次に、
図11に示すように、ユーザAとユーザBが、ほぼ同時にT字路に差し掛かったとする。この場合、選択されるスピーカ装置は、同じ端末装置60cのスピーカ装置2となる。そして、スピーカ切り替え部26は、ユーザAに対して割り当てられた案内音声IDがM1の案内音声データ51で生成された、例えば「T字路です。店舗Aへは右折、店舗Bへは直進してください。」との案内音声を、端末装置60cのスピーカ装置2を介して出力する。また、スピーカ切り替え部26は、ユーザBに対して割り当てられた案内音声IDがF1の案内音声データ51で生成された、例えば「T字路です。店舗Aへは左折してください。」との案内音声を、端末装置60cのスピーカ装置2を介して出力する。
【0071】
図11の例では、各ユーザA、Bの位置は近接しているが、各ユーザA、Bは、事前に自分に対する案内音声の声質を認識している。また、ユーザAに対する音声案内で使用される案内音声IDがM1の声による案内音声と、ユーザBに対する音声案内で使用される案内音声IDがF1の声による案内音声とは、声質が異なるため、ユーザA及びユーザBは、自分に対する案内音声と、他方のユーザに対する案内音声を混同することなく聞き分けることができる。これにより、同じスピーカ装置2を介して、各ユーザA、Bに対する音声案内をほぼ同時に出力しても、それぞれ異なる声質の案内音声を、各ユーザA、Bが聞き分け、それぞれ自分に対する音声案内に従って行動することができる。このため、各ユーザA、Bに対する音声案内を有効に機能させることができる。
【0072】
さらに、
図12に示すように、第1の通路を直進することで、ユーザAが、端末装置60eのスピーカ装置2に近接した位置まで移動すると、スピーカ切り替え部26は、ユーザAに対して割り当てられた案内音声IDがM1の案内音声データ51で生成した、例えば「間も無く店舗Bに到着です。店舗Bは、右側にございます。」との案内音声を、端末装置60fのスピーカ装置2を介して出力する。これにより、ユーザAは、店舗Bまで自分が移動したことを認識できる。
【0073】
また、第2の通路に進入したユーザB、端末装置60hのスピーカ装置2に近接した位置まで移動すると、ユーザBに対して割り当てられた案内音声IDがF1の案内音声データ51で生成した、例えば「間も無く店舗Aに到着です。店舗Aは、左側にございます。」との案内音声を、端末装置60hのスピーカ装置2を介して出力する。これにより、ユーザBは、店舗Aの近くまで自分が移動したことを認識できる。
【0074】
このようにユーザの移動に応じてスピーカ装置2を切り替えながら、各ユーザに割り当てられた声質の異なる案内音声を出力することで、混同を生じさせることなく、各ユーザに対する音声案内を行うことができる。
【0075】
(緊急処理)
次に、
図8のフローチャートのステップS11では、画像解析部23は、視覚に障害のあるユーザが、例えば白杖を頭上50cm程度に掲げる動作、又は、白杖をユーザの顔の前あたりで左右に振る動作等の、「助けを求める動き」の有無を検出する。このような「助けを求める動き」が検出されない場合(ステップS11:No)、処理がステップS1に戻る。
【0076】
これに対して、「助けを求める動き」を検出した場合(ステップS11:Yes)、緊急処理部27が、視覚に障害のあるユーザが助けを求めていることを示す緊急通知を、例えば表示部18を介して行う(ステップS12)。
【0077】
また、これと共に、ステップS13において、スピーカ切り替え部26は、助けを求めているユーザの現在位置に対応するスピーカ装置2を介して、例えば「管理者に緊急通知を行いました。すぐに助けが参りますので、しばらくお待ちください。」等の音声案内を行う。すなわち、スピーカ切り替え部26は、助けに応じて管理者に連絡した旨の音声案内、及び、しばらくの待機をお願いする音声案内を、そのユーザに対して割り当てられている声質の案内音声で行う。これにより、助けを求めた視覚に障害があるユーザに対して、自分の助けを求める要望に応じて管理者等が動いてくれていることを認識させることができ、安心感を与えることができる。また、この緊急通知を受信すると、管理者又は警備員等の補助者が、助けを求めているユーザの位置に直行して補助を行うなどの対応が可能となる。
【0078】
(実施の形態の効果)
以上の説明から明らかなように、実施の形態の音声案内システムは、視覚に障害のある複数のユーザが近接する位置に存在する場合、各ユーザに対して、それぞれ異なる声質の案内音声データ51を割り当てて案内音声を生成する。そして、割り当てた声質の案内音声を、各ユーザの移動位置に対応するスピーカ装置2を介して出力する。これにより、視覚に障害のあるユーザが同じ場所に複数存在する場合でも、各ユーザが自分に対する案内音声を容易に聞き分け可能となり、ユーザ毎に音声案内を有効に機能させることができる。
【0079】
また、人物特徴を解析し、割り当てられた声質で、ユーザに対して自分に対する音声であることを認識させる音声案内(事前認識用音声案内)を行うことで、各ユーザに対して、自分用の案内音声を、他と区別してさらに認識させ易くすることができる。
【0080】
また、例えば「太郎」又は「花子」のように、音声案内を行う話者を示す固有名詞を音声案内に含めて出力することにより、各ユーザに対して、自分に対する音声案内を、より意識付けすることができる。
【0081】
また、ユーザの移動に応じて、案内音声を出力するスピーカ装置2を切り替えるため、同じスピーカ装置2から、常時、案内音声が出力されることで音声案内が健常者、近隣の店舗の店員、近隣の居住者等に対するノイズとなる不都合を防止できる。
【0082】
なお、上述の実施の形態の例では、視覚に障害のある各ユーザ(通行人)の人物特徴をそれぞれ登録したユーザ情報テーブル52を用いることで、視覚に障害のある各ユーザ(通行人)を一意に識別することとした。しかし、これに限らず、下記のようにしてもよい。
【0083】
例えば、視覚に障害のあるユーザ(通行人)に対して、自己の識別情報を含む電波を発信するBLEタグ等の無線タグを所持させる。BLEは、「Bluetooth(登録商標) Low Energy」の略語である。また、その無線タグが発信する自己の識別情報を含む電波の受信装置を、例えばカメラ装置1及びスピーカ装置2と共に端末装置60に設ける。
【0084】
受信装置は、無線タグからの電波を受信し、電波に含まれる識別情報を、ネットワーク5を介して解析装置3へ送信する。解析装置3は、識別情報を受信した受信装置と共に端末装置60に設けられているカメラ装置1で撮像された撮像画像を解析して検出したユーザの画像に、受信した識別情報を関連付けてデータベースに登録する。これにより、上述と同様に、視覚に障害のある各ユーザ(通行人)を一意に識別できる。
【0085】
最後に、上述の実施の形態は、一例として提示したものであり、本発明の範囲を限定することは意図していない。この新規な実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことも可能である。また、実施の形態及び実施の形態の変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【符号の説明】
【0086】
1 カメラ装置
2 スピーカ装置
3 解析装置
5 ネットワーク
11 CPU
12 ROM
13 RAM
14 通信部
15 HDD
16 入出力インターフェース(入出力I/F)
17 通信インターフェース(通信I/F)
18 表示部
19 操作部
21 映像取得部
22 地図データ取得部
23 画像解析部
24 出力音声割り当て部
25 通信制御部
26 スピーカ切り替え部
27 緊急処理部
50 地図データ
51 案内音声データ
52 ユーザ情報テーブル