特開2022-181825 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 綜合警備保障株式会社の特許一覧

特開2022-181825音声案内装置、音声案内方法及び音声案内プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022181825

(43)【公開日】2022-12-08

(54)【発明の名称】音声案内装置、音声案内方法及び音声案内プログラム

(51)【国際特許分類】

A61F 9/08 20060101AFI20221201BHJP

G06F 3/16 20060101ALI20221201BHJP

G06F 3/01 20060101ALI20221201BHJP

G10L 13/10 20130101ALI20221201BHJP

【ＦＩ】

A61F9/08 300

G06F3/16 540

G06F3/16 690

G06F3/16 610

G06F3/01 510

G10L13/10 114

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2021088998

(22)【出願日】2021-05-27

(71)【出願人】

【識別番号】000202361

【氏名又は名称】綜合警備保障株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】堀口彰

(72)【発明者】

【氏名】羽山西蔵

(72)【発明者】

【氏名】安藤啓祐

(72)【発明者】

【氏名】相澤桂

【テーマコード（参考）】

5E555

【Ｆターム（参考）】

5E555AA62

5E555AA76

5E555BA24

5E555BB24

5E555BC01

5E555BE08

5E555DA23

5E555DD06

5E555EA05

5E555EA09

5E555EA22

5E555FA00

(57)【要約】

【課題】視覚に障害のあるユーザに対して、出力されている案内音声が自分に対する音声案内であることを認識させ、混同させることなく、ユーザ毎に音声案内を有効に機能させる。
【解決手段】カメラ装置で撮像された撮像画像を解析することで、視覚に障害のあるユーザを検出すると共に、視覚に障害のあるユーザの少なくとも現在位置を検出する検出部と、検出部により、視覚に障害のあるユーザが複数検出された場合に、各ユーザに対して、それぞれ割り当てた異なる声質の案内音声データに基づいて案内音声を生成する割り当て部と、検出部により検出された、視覚に障害のある各ユーザの少なくとも現在位置に対応する音声出力装置を介して、各ユーザに割り当てた異なる声質の案内音声データに基づいて生成された案内音声を出力制御する出力制御部と、を備える。
【選択図】図８

【特許請求の範囲】

【請求項1】

カメラ装置で撮像された撮像画像を解析することで、視覚に障害のあるユーザを検出すると共に、視覚に障害のあるユーザの少なくとも現在位置を検出する検出部と、
前記検出部により、視覚に障害のあるユーザが複数検出された場合に、各ユーザに対して、それぞれ割り当てた異なる声質の案内音声データに基づいて案内音声を生成する割り当て部と、
前記検出部により検出された、視覚に障害のある各ユーザの少なくとも現在位置に対応する音声出力装置を介して、各ユーザに割り当てた異なる声質の案内音声データに基づいて生成された前記案内音声を出力制御する出力制御部と、
を備える音声案内装置。

【請求項2】

前記割り当て部は、視覚に障害のある各ユーザに対して、少なくとも性別、音声周波数、音圧、音高、及び発話速度のうち、いずれか一つ又は複数が異なる案内音声データの割り当てを行うこと
を特徴とする請求項１に記載の音声案内装置。

【請求項3】

前記検出部は、視覚に障害のある各ユーザの特徴をそれぞれ検出し、
前記出力制御部は、各ユーザに対して割り当てられた声質の案内音声データで、検出した各ユーザの前記特徴を示す事前認識用音声案内を行うこと
を特徴とする請求項１又は請求項２に記載の音声案内装置。

【請求項4】

前記割り当て部は、前記案内音声データを生成する際に、音声案内を行う話者を示す固有名詞を含む前記案内音声データを生成すること
を特徴とする請求項１から請求項３のうち、いずれか一項に記載の音声案内装置。

【請求項5】

検出部が、カメラ装置で撮像された撮像画像を解析することで、視覚に障害のあるユーザを検出すると共に、視覚に障害のあるユーザの少なくとも現在位置を検出する検出ステップと、
前記検出ステップで、視覚に障害のあるユーザが複数検出された場合に、割り当て部が、各ユーザに対して、それぞれ割り当てた異なる声質の案内音声データに基づいて案内音声を生成する割り当てステップと、
出力制御部が、前記検出ステップで検出された、視覚に障害のある各ユーザの少なくとも現在位置に対応する音声出力装置を介して、各ユーザに割り当てた異なる声質の案内音声データに基づいて生成された前記案内音声を出力制御する出力制御ステップと、
を備える音声案内方法。

【請求項6】

コンピュータを、
カメラ装置で撮像された撮像画像を解析することで、視覚に障害のあるユーザを検出すると共に、視覚に障害のあるユーザの少なくとも現在位置を検出する検出部と、
前記検出部により、視覚に障害のあるユーザが複数検出された場合に、各ユーザに対して、それぞれ割り当てた異なる声質の案内音声データに基づいて案内音声を生成する割り当て部と、
前記検出部により検出された、視覚に障害のある各ユーザの少なくとも現在位置に対応する音声出力装置を介して、各ユーザに割り当てた異なる声質の案内音声データに基づいて生成された前記案内音声を出力制御する出力制御部として機能させること、
を特徴とする音声案内プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声案内装置、音声案内方法及び音声案内プログラムに関する。

【背景技術】

【0002】

今日において、例えば駅、施設等の構内又は構外において、例えば「５ｍ先に改札口があります」又は「３ｍ先に横断歩道があります」等の音声案内が、視覚に障害のあるユーザ等に対して提供されている。

【0003】

また、特許文献１（特開２０２０－１２５９０７公報）には、駅構内を通行するユーザ（視覚障害者）に向けて、そのユーザの移動方向に応じた音声案内を行う視覚障害者用音声案内システムが開示されている。これにより、駅構内を通行するユーザに対して不要となる音声案内を行わないようにすることができ、無駄な音声案内の出力を軽減できる。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０２０－１２５９０７公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかし、特許文献１の視覚障害者用音声案内システムを含め、従来の音声案内システムでは、視覚に障害のある複数のユーザが近い位置に存在していた場合、聴取した音声案内が、自分に対する音声案内なのか、又は、視覚に障害のある他のユーザに対する音声案内なのか、認識しづらいという問題があった。

【0006】

例えば、視覚に障害のある複数のユーザが同じ場所に位置しており、一方のユーザと他方のユーザは、それぞれ異なる方向に歩行していたとする。この状況で、一方のユーザに対して「５ｍ直進した場所に改札口があります」との音声案内を行ったとする。この一方のユーザに対して行った音声案内が、一方のユーザとは反対方向に向かって歩行している他方のユーザにより、自分に対する音声案内だと誤認識されると、他方のユーザは、５ｍ直進しても改札口には到着できない不都合を生ずる。

【0007】

本発明は、上述の課題に鑑みてなされたものであり、視覚に障害のあるユーザに対して、出力されている音声案内が自分に対する音声案内であることを認識させ、混同させることなく、ユーザ毎に音声案内を有効に機能させることを可能とした音声案内装置、音声案内方法及び音声案内プログラムの提供を目的とする。

【課題を解決するための手段】

【0008】

上述した課題を解決し、目的を達成するために、本発明は、カメラ装置で撮像された撮像画像を解析することで、視覚に障害のあるユーザを検出すると共に、視覚に障害のあるユーザの少なくとも現在位置を検出する検出部と、検出部により、視覚に障害のあるユーザが複数検出された場合に、各ユーザに対して、それぞれ割り当てた異なる声質の案内音声データに基づいて案内音声を生成する割り当て部と、検出部により検出された、視覚に障害のある各ユーザの少なくとも現在位置に対応する音声出力装置を介して、各ユーザに割り当てた異なる声質の案内音声データに基づいて生成された案内音声を出力制御する出力制御部と、を備える。

【発明の効果】

【0009】

本発明によれば、視覚に障害のあるユーザに対して、出力されている案内音声が自分に対する音声案内であることを認識させることができる。このため、混同させることなく、ユーザ毎に音声案内を有効に機能させることができる。

【図面の簡単な説明】

【0010】

【図1】図１は、実施の形態となる音声案内システムのシステム構成の一例を示す図である。

【図2】図２は、実施の形態の音声案内システムに設けられている解析装置のブロック図である。

【図3】図３は、解析装置に記憶されている地図データのフォーマットの一例を示す図である。

【図4】図４は、解析装置に記憶されている案内音声データのフォーマットの一例を示す図である。

【図5】図５は、ユーザ情報テーブルの模式図である。

【図6】図６は、解析装置のＣＰＵが音声案内プログラムを実行することで実現される各機能の機能ブロック図である。

【図7】図７は、実施の形態の音声案内システムの音声案内動作の前半の流れを示すフローチャートである。

【図8】図８は、実施の形態の音声案内システムの音声案内動作の後半の流れを示すフローチャートである。

【図9】図９は、実施の形態の音声案内システムにおける音声案内動作を説明するための第１の模式図である。

【図10】図１０は、実施の形態の音声案内システムにおける音声案内動作を説明するための第２の模式図である。

【図11】図１１は、実施の形態の音声案内システムにおける音声案内動作を説明するための第３の模式図である。

【図12】図１２は、実施の形態の音声案内システムにおける音声案内動作を説明するための第４の模式図である。

【発明を実施するための形態】

【0011】

以下、図面を参照して、本発明を提供した実施の形態の音声案内システムの説明をする。

【0012】

（システム構成）
図１は、実施の形態の音声案内システムのシステム構成を示す図である。この図１に示すように、音声案内システムは、複数の端末装置６０と、例えば管理室等の設けられた管理者端末装置である解析装置３とを、インターネット等の広域網又はＬＡＮ（Local Area Network）等のプライベート網を介して相互に接続することで構成されている。

【0013】

端末装置６０は、例えばユーザが通行する通路に沿って所定の間隔で設けられる等のように、地理的に異なる位置に設けられている。各端末装置６０は、それぞれカメラ装置１及びスピーカ装置２を備えている。カメラ装置１は、例えば定点カメラ装置となっており、固定された撮像領域内の通路等を通行するユーザを撮像する。なお、カメラ装置１は、撮像領域を変更可能なカメラ装置でもよい。スピーカ装置２は、音声出力装置の一例であり、案内音声を出力する。

【0014】

解析装置３は、各端末装置６０のカメラ装置１の撮像画像を解析して、視覚に障害のあるユーザの特徴を解析する。そして、解析装置３は、視覚に障害のあるユーザ毎に異なる音声を割り当て、ユーザが移動する位置に設けられているスピーカ装置２から案内音声を出力する。これにより、近接する位置に視覚に障害のあるユーザが複数存在している場合でも、混同させることなくユーザ毎に音声案内を行うことができる。

【0015】

（解析装置のハードウェア構成）
図２は、解析装置３のハードウェア構成を示すブロック図である。この図２に示すように、解析装置３は、ＣＰＵ（Central Processing Unit）１１、ＲＯＭ（Read Only Memory）１２、ＲＡＭ（Random Access Memory）１３、及び、通信部１４を備えている。また、解析装置３は、ＨＤＤ（Hard Disk Drive）１５、入出力インターフェース（入出力Ｉ／Ｆ）１６、及び、通信インターフェース（通信Ｉ／Ｆ）１７を備えている。

【0016】

通信部１４は、インターネット又はＬＡＮ等のネットワークを介して有線通信の他、ブルートゥース（登録商標）又はＷｉ－Ｆｉ（登録商標）等の無線通信を行う。ＨＤＤ１５には、視覚に障害があるユーザに対して音声案内を行うための音声案内プログラム、地図データ５０、案内音声データ５１、及び、ユーザ情報テーブル５２が記憶されている。

【0017】

地図データ５０としては、図３に示すように、音声案内を行う地理的範囲（以降、同じ意味で「サービスエリア」という表現も併せて用いる）に位置する施設、テナント、改札口、エレベータ装置等の施設名又は名称を含む施設情報及び位置情報と、その施設に対する音声案内を行う際の条件を示す出力条件情報とが関連付けられて記憶されている。

【0018】

案内音声データ５１は、地図データ５０に基づいて音声案内を行うためのデータであり、聴覚上異なる複数の案内音声データ５１が記憶されている。さらに具体的には、案内音声データ５１は、例えば「わたくし」、「太郎」、「花子」、「５」、「メートル」、「先」、「に」、「改札」、「口」、「が」、「あります」、「黒」、「白」、「色」、「の」、「カーディガン」、「を」、「コート」、「野球」、「帽子」、「ロング」、「ショート」、「ヘアー」等の各種単語毎の音声データである分割音声データとして記憶されている。

【0019】

一例ではあるが、図４に示すように、聴覚上異なる複数の案内音声データ５１には、各々を一意に表す案内音声ＩＤが付与され、話者が男性の案内音声データ５１及び話者が女性の案内音声データ５１に分けて記憶されている。また、話者の性別が同じものであっても、聴覚上、聞き分けが容易な案内音声データ５１が記憶されている。また、話者が男性の各案内音声データ５１には、音声周波数を示す情報、音圧、音高及び発話速度を示す情報が、それぞれ記憶されている。話者が女性の案内音声データ５１も同様であり、聴覚上、聞き分けが容易な案内音声データ５１が記憶されている。また、話者が女性の各案内音声データ５１にも、音声周波数を示す情報、音圧、音高及び発話速度を示す情報が、それぞれ記憶されている。

【0020】

実施の形態の音声案内システムの場合、視覚に障害があるユーザが複数存在する場合、図４に示すような話者の性別、音声周波数、音圧、音高及び発話速度等をファクタとして用い、視覚に障害があるユーザがそれぞれ聞き分け容易な案内音声データ５１を割り当てて音声案内を行う。

【0021】

図５に、ユーザ情報テーブル５２の模式図を示す。この図５に示すように、ユーザ情報テーブル５２は、視覚に障害があるユーザとそのユーザ毎に割り当てられた案内音声データ５１との対応を記憶するテーブルである。詳しくは後述するが、ユーザＩＤ、そのユーザの特徴（人物特徴）の情報、及びそのユーザに割り当てた案内音声データ５１のＩＤ（案内音声ＩＤ）の対応を記憶する。

【0022】

入出力Ｉ／Ｆ１６には、必要な場合に、表示部１８及び操作部１９が接続される。通信Ｉ／Ｆ１７は、必要な場合に、ネットワークケーブルを介してネットワーク５に接続される。

【0023】

（解析装置の機能構成）
図６は、ＣＰＵ１１がＨＤＤ１５に記憶されている音声案内プログラムを実行することでソフトウェア的に実現される各機能の機能ブロック図である。この図６に示すように、ＣＰＵ１１は、音声案内プログラムを実行することで、映像取得部２１、地図データ取得部２２、画像解析部２３、出力音声割り当て部２４、通信制御部２５、スピーカ切り替え部２６及び緊急処理部２７として機能する。

【0024】

映像取得部２１は、各カメラ装置１で撮像されている地理的範囲を往来するユーザの撮像画像を取得する。地図データ取得部２２は、各カメラ装置１で撮像されている地理的範囲の経緯度に対応する地図データ５０をＨＤＤ１５から取得する。画像解析部２３は、検出部の一例であり、各カメラ装置１で撮像された撮像画像に基づいて、ユーザの人物特徴を解析し、また、視覚障害の有無等を判断する。

【0025】

画像解析部２３は、視覚障害のあるユーザであると判断された場合に、解析されたそのユーザの特徴（人物特徴）の情報と一致する特徴（人物特徴）の情報が、ユーザ情報テーブル５２に記憶されているか否かを判断する。ユーザ情報テーブル５２に記憶されていない場合、画像解析部２３は、解析したそのユーザを一意に表すユーザＩＤを発行し、発行したユーザＩＤと、解析したそのユーザの特徴（人物特徴）の情報とを対応付けて、ユーザ情報テーブル５２に記憶する。

【0026】

また、画像解析部２３は、カメラ装置１で撮像されている撮像画像の各座標に対応する経緯度に基づいて、そのユーザの現在位置を検出する。さらに、画像解析部２３は、例えば数フレームの一連の撮像画像に写っている同じユーザの現在位置の差から、そのユーザの移動方向を検出する。また、画像解析部２３は、視覚に障害のあるユーザが、例えば白杖を頭上５０ｃｍ程度に掲げる動作、又は、白杖をユーザの顔の前あたりで左右に振る動作等の、「助けを求める動き」の有無を検出する。

【0027】

出力音声割り当て部２４は、割り当て部の一例であり、画像解析部２３により検出された、視覚に障害のあるユーザに対して、ＨＤＤ１５に記憶されている案内音声データ５１を割り当てる。具体的には、画像解析部２３により、新規にユーザが登録された場合、出力音声割り当て部２４は、ＨＤＤ１５に記憶されている案内音声データ５１のうち、既に割り当てられている案内音声とは異なる声質の別の案内音声データ５１を割り当てる。そして、出力音声割り当て部２４は、その案内音声データ５１のＩＤ（案内音声ＩＤ）を新規ユーザの案内音声としてユーザ情報テーブル５２に記憶する。さらに、出力音声割り当て部２４は、ユーザ情報テーブル５２を参照し、各ユーザに割り当てた、異なる声質の案内音声データ５１に基づいて、各ユーザ用の案内音声を生成する。

【0028】

スピーカ切り替え部２６は、出力制御部の一例であり、視覚に障害のあるユーザの現在位置に応じて、案内音声を出力するスピーカ装置２を切り替え制御し、そのユーザに割り当てられた声質の案内音声データ５１で生成された案内音声を出力する。これにより、各ユーザ用に割り当てられた声質の案内音声で、各ユーザの移動に追従して音声案内が行われる。通信制御部２５は、各端末装置６０と通信を行い、カメラ装置１で撮像された撮像画像の取得及びスピーカ装置２に対する案内音声の送信等を行う。緊急処理部２７は、画像解析部２３において視覚に障害があるユーザ等から助けを求める動作が解析された際に、この解析結果に基づいて管理者等に緊急通知を行う。また、緊急処理部２７は、助けを求めているユーザの位置に対応するスピーカ装置２を介して、係員が至急救助に向かう旨のメッセージの出力制御等を行う。

【0029】

なお、この例では、映像取得部２１～緊急処理部２７は、音声案内プログラムにより、ソフトウェアで実現することとした。しかし、これらのうち全部又は一部を、ＩＣ（Integrated Circuit）等のハードウェアで実現してもよい。

【0030】

また、音声案内プログラムは、インストール可能な形式又は実行可能な形式のファイル情報でＣＤ－ＲＯＭ、フレキシブルディスク（ＦＤ）などのコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。また、音声案内プログラムは、ＣＤ－Ｒ、ＤＶＤ（Digital Versatile Disc）、ブルーレイ（登録商標）ディスク、半導体メモリ等のコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。また、音声案内プログラムは、インターネット等のネットワーク経由でインストールするかたちで提供してもよい。また、音声案内プログラムは、機器内のＲＯＭ等に予め組み込んで提供してもよい。

【0031】

（音声案内動作）
図７及び図８は、実施の形態の音声案内システムにおける音声案内動作の流れを示すフローチャートである。このうち、図７は、音声案内動作の前半の流れを示すフローチャートである。また、図８は、音声案内動作の後半の流れを示すフローチャートである。

【0032】

（ステップＳ１）
まず、図７のフローチャートにおいて、ステップＳ１では、映像取得部２１が、各カメラ装置１で撮像されたユーザ（通行人）の撮像画像を取得する。

【0033】

（ステップＳ２）
ステップＳ１の後、ステップＳ２では、画像解析部２３が、ステップＳ１で取得された撮像画像からユーザの特徴（人物特徴）、現在位置、移動方向を解析する。

【0034】

ユーザの特徴としては、画像解析部２３は、所定のアルゴリズムを用いて、そのユーザの年齢及び性別を検出する。また、画像解析部２３は、撮像画像を解析することで、そのユーザの服装、服装の色、ハンドバッグ又はリュックサック等の所持品及び所持品の色等の特徴を検出する。これらの特徴を人物特徴と呼ぶ。

【0035】

また、画像解析部２３は、カメラ装置１で撮像されている撮像画像の各座標に対応する経緯度に基づいて、そのユーザの現在位置を検出する。また、画像解析部２３は、例えば数フレームの一連の撮像画像に写っている同じユーザの現在位置の差から、そのユーザの移動方向を検出する。

【0036】

（ステップＳ３）
ステップＳ２の後、ステップＳ３において、画像解析部２３が、撮像画像に写っているユーザが、健常者であるか、又は、視覚に障害のあるユーザであるかを判別する。

【0037】

一例ではあるが、視覚に障害のあるユーザは、白色の杖である盲人安全杖を所有している。これに対して、視覚に障害は無いが、歩行が困難な老人は、茶色又は黒色等の杖を使用している。このため、画像解析部２３は、撮像画像に写っているユーザが所有している杖の色が白色であるか否かに基づいて、視覚に障害のあるユーザであるか否かを判別する。

【0038】

また、視覚に障害のあるユーザは、障害物の有無等を確認するために、盲人安全杖で地面等を軽く叩きながら歩行するという、独特の動きがある。画像解析部２３は、このような独特な動きの有無も、視覚に障害のあるユーザであるか否かを判別するためのファクタとして用いる。

【0039】

また、視覚に障害のあるユーザは、盲導犬を連れている場合がある。通常の犬は、首輪又はハーネスに、１本の紐状のリードが取り付けられている。これに対して盲導犬の場合、「Ｕ字型ハーネス」又は「バーハンドル型ハーネス」と呼ばれる、独特の形状のハーネスが装着されている。画像解析部２３は、このようなハーネスの形状も、視覚に障害のあるユーザであるか否かを判別するためのファクタとして用いる。

【0040】

また、「Ｕ字型ハーネス」又は「バーハンドル型ハーネス」は、多くの場合、白色である。このため、画像解析部２３は、犬に装着されているハーネスの色も、その犬を連れたユーザが、視覚に障害のあるユーザであるか否かを判別するためのファクタとして用いる。

【0041】

また、犬を連れての入場が制限される場所に対して、犬を連れて入場している場合、その犬は盲導犬であり、そのユーザは、視覚に障害のあるユーザである可能性が高い。このため、犬を連れての入場が制限される場所に対して、犬を連れているユーザを、画像解析部２３は、視覚に障害のあるユーザとして判別する。

【0042】

また、盲導犬は、多くの場合、ユーザの進行方向に対して左側を歩行することが多い。このため、画像解析部２３は、ユーザの進行方向に対して左側を歩行している犬を連れているか否かということも、視覚に障害のあるユーザであるか否かを判別するためのファクタとして用いる。

【0043】

さらに、画像解析部２３は、サングラスの着用の有無、身障者マークの有無等も、視覚に障害のあるユーザであるか否かを判別するためのファクタとして用いる。

【0044】

（ステップＳ３：Ｎｏ→ステップＳ１へ）
次に、撮像画像に写っているユーザが、健常者のみである場合（ステップＳ３：Ｎｏ）、処理がステップＳ１に戻り、画像解析部２３により、ステップＳ１～ステップＳ３の処理が繰り返し行われる。これに対して、撮像画像に写っているユーザが、視覚に障害のあるユーザであると判別した場合（ステップＳ３：Ｙｅｓ）、ステップＳ４に処理が進む。

【0045】

（ステップＳ４）
ステップＳ４では、画像解析部２３が、ステップＳ２において撮像画像を解析することで得た、その視覚に障害があると判別したユーザの特徴（人物特徴）をもとにユーザ情報テーブル５２を参照し、同じ特徴（人物特徴）の情報がユーザＩＤおよび案内音声ＩＤと対応付けて記憶されているか否かによって、そのユーザが既に登録されたユーザか否かを判別する。

【0046】

（ステップＳ４：Ｎｏ→ステップＳ１４へ）
ユーザ情報テーブル５２に登録された既知のユーザでない場合は（ステップＳ４：Ｎｏ）、ステップＳ１４に処理が進む。

【0047】

（ステップＳ１４：新規に案内音声ＩＤの割り当て）
ステップＳ１４では、ステップＳ４において既知のユーザでないと判断したユーザに対し、画像解析部２３が新たにユーザＩＤを発行する。画像解析部２３は、発行したユーザＩＤと解析したそのユーザの特徴（人物特徴）の情報を対応づけてユーザ情報テーブル５２に記憶する。また、これと共に、出力音声割り当て部２４が、現在、他のユーザに割り当てられていない声質の案内音声データ５１を割り当てる。そして、出力音声割り当て部２４は、その案内音声データ５１のＩＤ（案内音声ＩＤ）、及び、そのユーザのユーザＩＤ及び特徴（人物特徴）を関連付けてユーザ情報テーブル５２に記憶する。すなわち、出力音声割り当て部２４は、各ユーザ用の案内音声データ５１として、聴覚的に差異のある案内音声データ５１を割り当てる。

【0048】

（ステップＳ１４の詳細説明）
聴覚的な差異は、性別、音声周波数（例えばフォルマント周波数）、音圧、音高、発話速度等のうち、いずれか一つ又は複数を異ならせることで生じさせる。具体的には、例えば視覚に障害のあるユーザが２名存在する場合、出力音声割り当て部２４は、一方のユーザに対しては、男性の声の案内音声データ５１を割り当て、他方のユーザに対しては、女性の声の音声データを割り当てる。または、出力音声割り当て部２４は、一方のユーザに対しては、男性の声の案内音声データ５１のうち、音声周波数が高く、発話速度が速い声質の案内音声データ５１を割り当て、他方のユーザに対しては、同じ男性であっても、音声周波数が低く、発話速度が遅い声質の案内音声データ５１を割り当てる。

【0049】

このように性別、音声周波数、音圧、音高、及び発話速度に基づいて、声質の異なる案内音声データ５１を各ユーザに割り当てることで、各ユーザに対して、自分用の案内音声の声質を予め認識させ易くすることができる。

【0050】

（ステップＳ１４→ステップＳ１５；案内音声（事前認識用）の生成）
ステップＳ１４の後、ステップＳ１５において、出力音声割り当て部２４は、ステップＳ１３で割り当てられた案内音声ＩＤに対応する案内音声データ５１で、後述する「事前認識用音声案内」を内容とする案内音声を生成する。この際、出力音声割り当て部２４は、案内音声データ５１毎に対応づけられている、案内音声データ５１の話者を示す固有名詞（例えば「太郎」又は「花子」など）を含む案内音声を生成する。このように生成した案内音声をユーザに対して出力することにより、これから自分に対して特定の話者の案内音声によって音声案内が行われることを、予め認識させることができる。

【0051】

（ステップＳ１５の詳細説明）
出力音声割り当て部２４は、割り当てられた案内音声ＩＤに対応する案内音声データ５１で、例えば「わたくし花子がご案内します」等の、「太郎」又は「花子」のような音声案内を行う話者を示す固有名詞を含む案内音声を生成する。これにより、自分に対しては、例えば「花子」の声質の案内音声で音声案内が行われることを、ユーザに対して予め認識させることができる。

【0052】

なお、この例は、「太郎」又は「花子」等の「名」の固有名詞を付加する例であった。この他、「氏」又は「氏名」の固有名詞を付加してもよいし、地名、国名、建物名等の他の固有名詞を付加してもよい。

【0053】

このようなステップＳ１５の処理後、ステップＳ６へ処理が進む。

【0054】

（ステップＳ４：Ｙｅｓ）
一方、ステップＳ４において、既にユーザ情報テーブル５２に登録された既知のユーザである場合は（ステップＳ４：Ｙｅｓ）、ステップＳ５に処理が進む。

【0055】

（ステップＳ５：割り当てられた案内音声ＩＤの取得）
ステップＳ５では、出力音声割り当て部２４が、ユーザ情報テーブル５２からそのユーザに割り当てられた案内音声ＩＤを取得する。これにより、処理がステップＳ６へ進む。

【0056】

ステップＳ６では、出力音声割り当て部２４が、ステップＳ５で取得した、またはステップＳ１３で割り当てた案内音声ＩＤに対応する案内音声データ５１で、ユーザの現在位置及び移動方向に対応する施設等の音声案内を含む案内音声を生成する。

【0057】

（ステップＳ６の詳細説明）
具体的には、ユーザの現在位置が、例えば店舗の近くである場合、出力音声割り当て部２４は、ＨＤＤ１５から「右手」、「に」、「店舗」、「Ａ」、「が」、「ございます」等の各種単語毎に、割り当てられた案内音声ＩＤに対応する案内音声データ５１を読み出す。また、出力音声割り当て部２４は、読み出した案内音声データ５１を組み合わせることで、「右手に店舗Ａがございます」等の、ユーザの現在位置及び移動方向に対応する音声案内を内容とする案内音声を生成する。

【0058】

（ステップＳ７～ステップＳ８：スピーカ装置の決定、案内音声出力）
ステップＳ６の後、ステップＳ７へ処理が進み、スピーカ切り替え部２６が、各ユーザの現在位置、又は、現在位置及び移動方向に基づいて、案内音声を出力するスピーカ装置２を決定する。その後、ステップＳ８へ処理が進み、ステップＳ６において出力音声割り当て部２４が生成した、ユーザの現在位置及び移動方向に対応する施設等の音声案内を内容とする案内音声を、スピーカ切り替え部２６が、ステップＳ７において決定したスピーカ装置２を介して出力制御する。または、ステップＳ１４において出力音声割り当て部２４が生成した事前認識用音声案内、及び、ユーザの現在位置及び移動方向に対応する施設等の音声案内を内容とする案内音声を、ステップＳ７において決定したスピーカ装置２を介して、スピーカ切り替え部２６が出力制御する。

【0059】

（ステップＳ１５～ステップＳ８の具体例）
ここで、「事前認識用音声案内」を含む案内音声を生成し、スピーカ装置２から出力するまでの流れについて、具体例を示して説明する。例えば、画像解析部２３により解析されたユーザの特徴が、黒色のコートを着た女性である場合、出力音声割り当て部２４は、ＨＤＤ１５から「黒」、「色」、「の」、「コート」、「を」、「着た」、「女性」、「の」、「方」等の各種単語毎に、そのユーザに割り当てた案内音声ＩＤに対応する案内音声データ５１を読み出す。また、出力音声割り当て部２４は、読み出した案内音声データ５１を組み合わせることで、「黒色のコートを着た女性の方」等の、解析されたユーザに対する音声案内であることをそのユーザに認識させるための音声案内（事前認識用音声案内）、およびそのユーザの現在位置及び移動方向に基づいた音声案内を含む案内音声を生成する。

【0060】

そして、スピーカ切り替え部２６が、そのユーザの現在位置及び移動方向に基づいて、案内音声を出力するスピーカ装置を、例えば解析したそのユーザの撮像画像を撮像したカメラ装置１が設けられている端末装置６０のスピーカ装置２に決定する。スピーカ切り替え部２６は、決定したスピーカ装置２を介して、上述の案内音声を出力制御する。これにより、そのユーザに対して、上述の事前認識用音声案内を聞かせることができるので、今から出力される音声案内が、自分に対する音声案内であること、及び、その案内音声の声質を、そのユーザに対して予め認識させることができる。

【0061】

このようにして一人又は複数のユーザに対する音声案内が開始されると、スピーカ切り替え部２６が、ユーザの現在位置及び移動方向に対応するスピーカ装置２を選択し、そのユーザに割り当てられた声質の案内音声を出力する。このように、ユーザに対する音声案内は、最初に割り当てられた声質の案内音声で、終始行われる。このため、視覚に障害のあるユーザが近接して複数存在した場合でも、異なる声質で各ユーザへの音声案内が行われるため、視覚に障害のある各ユーザは、出力されている音声案内が自分に対する音声案内であることを終始認識でき、混同することがない。よって、ユーザ毎に音声案内を有効に機能させることができる。

【0062】

（ステップＳ９及びステップＳ１０）
次に、ステップＳ８の後、図８のフローチャートのステップＳ９に処理が進み、出力音声割り当て部２４が、サービスエリア外へユーザが移動したか否かを判定する。具体的には、出力音声割り当て部２４は、ユーザ情報テーブル５２への最終アクセス日時を参照し、現在時刻から一定時間（例えば１時間）以上前のものであれば、そのユーザはサービスエリア外へ移動したものと判定する。そのユーザはサービスエリア外へ移動したものと判定されると（ステップＳ９：Ｙｅｓ）、出力音声割り当て部２４は、そのユーザに関する情報をユーザ情報テーブル５２から消去する（ステップＳ１０）。

【0063】

もしくは、画像解析部２３が、施設出入口などのカメラ映像を解析することで、そのユーザが施設外へ移動したか否かを判定する（ステップＳ９）。カメラ映像により、そのユーザの施設外への移動が確認された場合（ステップＳ９：Ｙｅｓ）、出力音声割り当て部２４は、そのユーザに関する情報をユーザ情報テーブル５２から消去する（ステップＳ１０）。

【0064】

（複数のユーザに対する音声案内の具体例）
さらに、具体的に説明すると、図９～図１２は、視覚に障害のあるユーザＡ及びユーザＢに対して行う音声案内を模式的に示す図である。まず、図９に示すように店舗の第１の通路を、ユーザＡが左方向から直進し、ユーザＢが右方向から直進してきたとする。第１の通路に対しては、いわゆるＴ字路を形成するように第２の通路が設けられている。この第１の通路及び第２の通路に沿って、図１に示した端末装置６０に相当する端末装置６０ａ～６０ｈが所定の間隔で配置されている。ユーザＡ及びユーザＢは、各々端末装置６０ａのカメラ装置１及び端末装置６０ｆのカメラ装置１で撮像され、ユーザＡは「黒色のコートを着た女性」、ユーザＢは「グレーのスーツを着た男性」の特徴を持つことが解析されたとする。

【0065】

ユーザＡは、第１の通路の端末装置６０ａのスピーカ装置２に近接した位置を歩行しており、ユーザＢは、第１の通路の端末装置６０ｆのスピーカ装置２に近接した位置を歩行している。この場合、スピーカ切り替え部２６は、ユーザＡに対する音声案内を出力するスピーカ装置として端末装置６０ａのスピーカ装置２を選択し、ユーザＢに対する音声案内を出力するスピーカ装置として端末装置６０ｆのスピーカ装置２を選択する。また、出力音声割り当て部２４は、ユーザＡに対しては、男性の話者の太郎さんの案内音声データ５１（案内音声ＩＤ：Ｍ１）を割り当て、ユーザＢに対しては、男性の話者の太郎さんとは異なる声質の、女性の話者の花子さんの案内音声データ５１（案内音声ＩＤ：Ｆ１）を割り当てたものとする。

【0066】

スピーカ切り替え部２６は、ユーザＡに対して割り当てられた案内音声ＩＤがＭ１の案内音声データ５１で生成された、例えば「黒色のコートを着た女性の方、わたくし太郎がご案内します。」との事前認識用音声案内を含む案内音声を、端末装置６０ａのスピーカ装置２を介して出力する。これにより、ユーザＡは、自分に対する音声案内は、男性の太郎さんの声で行われることを認識できる。なお、上述のように人物特徴に基づく事前認識用音声案内を行うことで、これから行われる音声案内が、自分用の音声案内であることを、ユーザＡに対して、さらに認識させることができる。

【0067】

同様に、スピーカ切り替え部２６は、ユーザＢに対して割り当てられた、案内音声ＩＤがＦ１の案内音声データ５１で生成された、例えば「グレーのスーツを着た男性の方、わたくし花子がご案内します。この先、左に店舗Ｂがございます。」との事前認識用音声案内を含む案内音声を、端末装置６０ｆのスピーカ装置２を介して出力する。これにより、ユーザＢは、自分に対する音声案内は、女性の花子さんの声で行われることを認識できる。なお、上述のように人物特徴に基づく事前認識用音声案内を行うことで、これから行われる音声案内が、自分用の音声案内であることを、ユーザＢに対して、さらに認識させることができる。

【0068】

次に、図１０に示すように、それぞれ直進するユーザＡ及びユーザＢが、第２の通路に近い位置まで前進したとする。この場合、スピーカ切り替え部２６は、ユーザＡに対する案内音声を出力するスピーカ装置２として端末装置６０ｂのスピーカ装置２を選択し、ユーザＢに対する案内音声を出力するスピーカ装置２として端末装置６０ｄのスピーカ装置２を選択する。

【0069】

そして、スピーカ切り替え部２６は、ユーザＡに対して割り当てられた案内音声ＩＤがＭ１の案内音声データ５１で生成された、例えば「この先、Ｔ字路です。店舗Ａへは右折、店舗Ｂへは直進してください。」との案内音声を、端末装置６０ｂのスピーカ装置２を介して出力する。また、スピーカ切り替え部２６は、ユーザＢに対して割り当てられた案内音声ＩＤがＦ１の案内音声データ５１で生成された、例えば「この先、Ｔ字路です。店舗Ａへは左折してください。」との案内音声を、端末装置６０ｄのスピーカ装置２を介して出力する。

【0070】

次に、図１１に示すように、ユーザＡとユーザＢが、ほぼ同時にＴ字路に差し掛かったとする。この場合、選択されるスピーカ装置は、同じ端末装置６０ｃのスピーカ装置２となる。そして、スピーカ切り替え部２６は、ユーザＡに対して割り当てられた案内音声ＩＤがＭ１の案内音声データ５１で生成された、例えば「Ｔ字路です。店舗Ａへは右折、店舗Ｂへは直進してください。」との案内音声を、端末装置６０ｃのスピーカ装置２を介して出力する。また、スピーカ切り替え部２６は、ユーザＢに対して割り当てられた案内音声ＩＤがＦ１の案内音声データ５１で生成された、例えば「Ｔ字路です。店舗Ａへは左折してください。」との案内音声を、端末装置６０ｃのスピーカ装置２を介して出力する。

【0071】

図１１の例では、各ユーザＡ、Ｂの位置は近接しているが、各ユーザＡ、Ｂは、事前に自分に対する案内音声の声質を認識している。また、ユーザＡに対する音声案内で使用される案内音声ＩＤがＭ１の声による案内音声と、ユーザＢに対する音声案内で使用される案内音声ＩＤがＦ１の声による案内音声とは、声質が異なるため、ユーザＡ及びユーザＢは、自分に対する案内音声と、他方のユーザに対する案内音声を混同することなく聞き分けることができる。これにより、同じスピーカ装置２を介して、各ユーザＡ、Ｂに対する音声案内をほぼ同時に出力しても、それぞれ異なる声質の案内音声を、各ユーザＡ、Ｂが聞き分け、それぞれ自分に対する音声案内に従って行動することができる。このため、各ユーザＡ、Ｂに対する音声案内を有効に機能させることができる。

【0072】

さらに、図１２に示すように、第１の通路を直進することで、ユーザＡが、端末装置６０ｅのスピーカ装置２に近接した位置まで移動すると、スピーカ切り替え部２６は、ユーザＡに対して割り当てられた案内音声ＩＤがＭ１の案内音声データ５１で生成した、例えば「間も無く店舗Ｂに到着です。店舗Ｂは、右側にございます。」との案内音声を、端末装置６０ｆのスピーカ装置２を介して出力する。これにより、ユーザＡは、店舗Ｂまで自分が移動したことを認識できる。

【0073】

また、第２の通路に進入したユーザＢ、端末装置６０ｈのスピーカ装置２に近接した位置まで移動すると、ユーザＢに対して割り当てられた案内音声ＩＤがＦ１の案内音声データ５１で生成した、例えば「間も無く店舗Ａに到着です。店舗Ａは、左側にございます。」との案内音声を、端末装置６０ｈのスピーカ装置２を介して出力する。これにより、ユーザＢは、店舗Ａの近くまで自分が移動したことを認識できる。

【0074】

このようにユーザの移動に応じてスピーカ装置２を切り替えながら、各ユーザに割り当てられた声質の異なる案内音声を出力することで、混同を生じさせることなく、各ユーザに対する音声案内を行うことができる。

【0075】

（緊急処理）
次に、図８のフローチャートのステップＳ１１では、画像解析部２３は、視覚に障害のあるユーザが、例えば白杖を頭上５０ｃｍ程度に掲げる動作、又は、白杖をユーザの顔の前あたりで左右に振る動作等の、「助けを求める動き」の有無を検出する。このような「助けを求める動き」が検出されない場合（ステップＳ１１：Ｎｏ）、処理がステップＳ１に戻る。

【0076】

これに対して、「助けを求める動き」を検出した場合（ステップＳ１１：Ｙｅｓ）、緊急処理部２７が、視覚に障害のあるユーザが助けを求めていることを示す緊急通知を、例えば表示部１８を介して行う（ステップＳ１２）。

【0077】

また、これと共に、ステップＳ１３において、スピーカ切り替え部２６は、助けを求めているユーザの現在位置に対応するスピーカ装置２を介して、例えば「管理者に緊急通知を行いました。すぐに助けが参りますので、しばらくお待ちください。」等の音声案内を行う。すなわち、スピーカ切り替え部２６は、助けに応じて管理者に連絡した旨の音声案内、及び、しばらくの待機をお願いする音声案内を、そのユーザに対して割り当てられている声質の案内音声で行う。これにより、助けを求めた視覚に障害があるユーザに対して、自分の助けを求める要望に応じて管理者等が動いてくれていることを認識させることができ、安心感を与えることができる。また、この緊急通知を受信すると、管理者又は警備員等の補助者が、助けを求めているユーザの位置に直行して補助を行うなどの対応が可能となる。

【0078】

（実施の形態の効果）
以上の説明から明らかなように、実施の形態の音声案内システムは、視覚に障害のある複数のユーザが近接する位置に存在する場合、各ユーザに対して、それぞれ異なる声質の案内音声データ５１を割り当てて案内音声を生成する。そして、割り当てた声質の案内音声を、各ユーザの移動位置に対応するスピーカ装置２を介して出力する。これにより、視覚に障害のあるユーザが同じ場所に複数存在する場合でも、各ユーザが自分に対する案内音声を容易に聞き分け可能となり、ユーザ毎に音声案内を有効に機能させることができる。

【0079】

また、人物特徴を解析し、割り当てられた声質で、ユーザに対して自分に対する音声であることを認識させる音声案内（事前認識用音声案内）を行うことで、各ユーザに対して、自分用の案内音声を、他と区別してさらに認識させ易くすることができる。

【0080】

また、例えば「太郎」又は「花子」のように、音声案内を行う話者を示す固有名詞を音声案内に含めて出力することにより、各ユーザに対して、自分に対する音声案内を、より意識付けすることができる。

【0081】

また、ユーザの移動に応じて、案内音声を出力するスピーカ装置２を切り替えるため、同じスピーカ装置２から、常時、案内音声が出力されることで音声案内が健常者、近隣の店舗の店員、近隣の居住者等に対するノイズとなる不都合を防止できる。

【0082】

なお、上述の実施の形態の例では、視覚に障害のある各ユーザ（通行人）の人物特徴をそれぞれ登録したユーザ情報テーブル５２を用いることで、視覚に障害のある各ユーザ（通行人）を一意に識別することとした。しかし、これに限らず、下記のようにしてもよい。

【0083】

例えば、視覚に障害のあるユーザ（通行人）に対して、自己の識別情報を含む電波を発信するＢＬＥタグ等の無線タグを所持させる。ＢＬＥは、「Bluetooth（登録商標） Low Energy」の略語である。また、その無線タグが発信する自己の識別情報を含む電波の受信装置を、例えばカメラ装置１及びスピーカ装置２と共に端末装置６０に設ける。

【0084】

受信装置は、無線タグからの電波を受信し、電波に含まれる識別情報を、ネットワーク５を介して解析装置３へ送信する。解析装置３は、識別情報を受信した受信装置と共に端末装置６０に設けられているカメラ装置１で撮像された撮像画像を解析して検出したユーザの画像に、受信した識別情報を関連付けてデータベースに登録する。これにより、上述と同様に、視覚に障害のある各ユーザ（通行人）を一意に識別できる。

【0085】

最後に、上述の実施の形態は、一例として提示したものであり、本発明の範囲を限定することは意図していない。この新規な実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことも可能である。また、実施の形態及び実施の形態の変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

【符号の説明】

【0086】

１カメラ装置
２スピーカ装置
３解析装置
５ネットワーク
１１ＣＰＵ
１２ＲＯＭ
１３ＲＡＭ
１４通信部
１５ＨＤＤ
１６入出力インターフェース（入出力Ｉ／Ｆ）
１７通信インターフェース（通信Ｉ／Ｆ）
１８表示部
１９操作部
２１映像取得部
２２地図データ取得部
２３画像解析部
２４出力音声割り当て部
２５通信制御部
２６スピーカ切り替え部
２７緊急処理部
５０地図データ
５１案内音声データ
５２ユーザ情報テーブル

【図1】