IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フジテック株式会社の特許一覧

<>
  • 特許-エレベータ用の音声認識システム 図1
  • 特許-エレベータ用の音声認識システム 図2
  • 特許-エレベータ用の音声認識システム 図3
  • 特許-エレベータ用の音声認識システム 図4
  • 特許-エレベータ用の音声認識システム 図5
  • 特許-エレベータ用の音声認識システム 図6
  • 特許-エレベータ用の音声認識システム 図7
  • 特許-エレベータ用の音声認識システム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-13
(45)【発行日】2023-09-22
(54)【発明の名称】エレベータ用の音声認識システム
(51)【国際特許分類】
   G10L 15/28 20130101AFI20230914BHJP
   G10L 25/51 20130101ALI20230914BHJP
   G10L 15/24 20130101ALI20230914BHJP
   G10L 15/10 20060101ALI20230914BHJP
   B66B 3/00 20060101ALI20230914BHJP
【FI】
G10L15/28 400
G10L25/51 400
G10L15/24 Q
G10L15/10 200W
B66B3/00 F
B66B3/00 L
【請求項の数】 5
(21)【出願番号】P 2022019655
(22)【出願日】2022-02-10
(65)【公開番号】P2023117120
(43)【公開日】2023-08-23
【審査請求日】2022-02-10
【前置審査】
(73)【特許権者】
【識別番号】000112705
【氏名又は名称】フジテック株式会社
(74)【代理人】
【識別番号】110002734
【氏名又は名称】弁理士法人藤本パートナーズ
(72)【発明者】
【氏名】宮川 行宏
【審査官】菊地 陽一
(56)【参考文献】
【文献】特開2006-123161(JP,A)
【文献】実公平02-010559(JP,Y2)
【文献】特開平07-028488(JP,A)
【文献】特開2017-219746(JP,A)
【文献】特許第6648728(JP,B2)
【文献】特開2016-051081(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/28
G10L 25/51
G10L 15/24
G10L 15/10
B66B 3/00
(57)【特許請求の範囲】
【請求項1】
かご内に設置される集音装置であって、かご内の音を集音する集音部、及びかご内に搭乗者と対話するための音声を出力する出力部を備える外部連絡装置によって構成される集音装置で集音した音データから搭乗者の音声データを抽出し且つ該音声データの発生源の位置を特定する処理を実行する音処理手段と、
かご内を撮像した画像データに基づいて搭乗者の位置を特定する処理を実行する画像処理手段と、
前記音処理手段で抽出した前記音声データのうち、前記発生源の位置が前記画像処理手段で特定した前記搭乗者の位置と同じものであり、且つ外部に連絡を取ろうとしている連絡者が発したものに対して音声認識を行う音声認識手段と、を備える、
エレベータ用の音声認識システム。
【請求項2】
前記音処理手段は、前記音声データに基づいて発声元の搭乗者の特徴を示す音声特徴情報であって、前記音声データに関連付けられる音声特徴情報を抽出する音声特徴抽出手段を有する、
請求項1に記載のエレベータ用の音声認識システム。
【請求項3】
前記画像処理手段は、前記画像データに写る搭乗者の特徴を示す被写体特徴情報であって、被写体データに関連付けられる被写体特徴情報を抽出する被写体特徴抽出手段を有する、
請求項1又は請求項2に記載のエレベータ用の音声認識システム。
【請求項4】
前記画像データに写る搭乗者の挙動に基づいて音声認識を行う対象とすべき搭乗者であるか否かを判定する挙動判定手段を備え、
前記音声認識手段は、前記発生源の位置が、前記挙動判定手段によって音声認識を行う対象とすべき搭乗者であるかと判定された前記画像データが示す前記搭乗者の位置と同じである前記音声データに対して音声認識を行う、
請求項1乃至請求項3の何れか1項に記載のエレベータ用の音声認識システム。
【請求項5】
前記音声データに基づいて抽出された言葉に基づいて音声認識を行う対象とすべき搭乗者であるか否かを判定する言葉判定手段を備え、
前記音声認識手段は、前記言葉判定手段が音声認識を行う対象とすべき搭乗者であると判定した前記音声データに対して音声認識を行う、
請求項1乃至請求項4の何れか1項に記載のエレベータ用の音声認識システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、エレベータの搭乗者の音声を認識するためのエレベータ用の音声認識システムに関する。
【背景技術】
【0002】
従来、エレベータには、搭乗者の音声を認識する音声認識システムが搭載されているものがあり、例えば、特許文献1のエレベータには、かご内マイクで集音した音声を認識し、認識した音声に基づいてかご内の状況を認識する音声認識装置を備える音声認識システムが搭載されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2011-073819号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、上記従来のような音声認識システムのかご内マイクには、音声認識の対象とした搭乗者の音声だけでなく、音声認識の対象外の搭乗者の音声や環境音も入るため、音声認識装置が正しく音声を認識できないことがある。
【0005】
そこで、本発明は、かかる実情に鑑み、音声認識の精度を向上させることができるエレベータ用の音声認識システムの提供を課題とする。
【課題を解決するための手段】
【0006】
本発明のエレベータ用の音声認識システムは、
かご内で集音した音データから搭乗者の音声データを抽出し且つ該音声データの発生源の位置を特定する処理を実行する音処理手段と、
かご内を撮像した画像データに基づいて搭乗者の位置を特定する処理を実行する画像処理手段と、
前記音処理手段で抽出した前記音声データのうち、前記発生源の位置が前記画像処理手段で特定した前記搭乗者の位置と同じものに対して音声認識を行う音声認識手段と、を備える。
【0007】
上記構成のエレベータ用の音声認識システムは、搭乗者の音声の発生源の位置と搭乗者の立ち位置の対応関係が一致している音声データに対して音声認識手段が音声認識を行えるように構成されているため、音声認識の対象とすべき音声データとは別の音声データに音声認識をしてしまうことが抑えられ、これにより、音声認識の精度が向上するようになっている。
【0008】
本発明のエレベータ用の音声認識システムは、
前記音処理手段は、前記音声データに基づいて発声元の搭乗者の特徴を示す音声特徴情報を抽出する音声特徴抽出手段を有するように構成されていてもよい。
【0009】
このようにすれば、搭乗者の特徴を示す情報を用いることができるため、音声認識を行うべき対象であるか否かの判定や音声認識の精度を高めることができる。
【0010】
本発明のエレベータ用の音声認識システムは、
前記画像処理手段は、前記画像データに写る搭乗者の特徴を示す被写体特徴情報を抽出する被写体特徴抽出手段を有するように構成されていてもよい。
【0011】
この場合においても、搭乗者の特徴を示す情報を用いることができるため、音声認識を行うべき対象であるか否かの判定や音声認識の精度を高めることができる。
【0012】
本発明のエレベータ用の音声認識システムは、
前記画像データに写る搭乗者の挙動に基づいて音声認識を行う対象とすべき搭乗者であるか否かを判定する挙動判定手段を備え、
前記音声認識手段は、前記発生源の位置が、前記挙動判定手段によって音声認識を行う対象とすべき搭乗者であるか判定された前記画像データが示す前記搭乗者の位置と同じである前記音声データに対して音声認識を行うように構成されていてもよい。
【0013】
このようにすれば、搭乗者の動きも用いて音声認識を行うべき対象であるか否かの判定を行うことができるため、音声認識を行うべき対象であるか否かの判定精度を高めることができる。
【0014】
本発明のエレベータ用の音声認識システムは、
前記音声データに基づいて抽出された言葉に基づいて音声認識を行う対象とすべき搭乗者であるか否かを判定する言葉判定手段を備え、
前記音声認識手段は、前記言葉判定手段が音声認識を行う対象とすべき搭乗者であると判定した前記音声データに対して音声認識を行うようにしてもよい。
【0015】
このようにすれば、搭乗者の言葉に基づいて音声認識を行うべき対象であるか否かの判定を行うことができるため、音声認識を行うべき対象であるか否かの判定精度を高めることができる。
【発明の効果】
【0016】
以上のように、本発明のエレベータ用の音声認識システムは、音声認識の精度を向上させることができるという優れた効果を奏し得る。
【図面の簡単な説明】
【0017】
図1図1は、本発明の一実施形態に係るエレベータ用の音声認識システムの構成の概要を示すブロック図である。
図2図2は、同実施形態に係るエレベータ用の音声認識システムで用いる搭乗者情報の説明図である。
図3図3は、同実施形態に係るエレベータ用の音声認識システムで用いる画像データの説明図である。
図4図4は、同実施形態に係るエレベータ用の音声認識システムのメインフローチャートである。
図5図5は、同実施形態に係るエレベータ用の音声認識システムのサブフローチャートであって、音声関連情報を作成する処理の流れを示すサブフローチャートである。
図6図6は、同実施形態に係るエレベータ用の音声認識システムのサブフローチャートであって、画像処理手段を作成する処理の流れを示すサブフローチャートである。
図7図7は、同実施形態に係るエレベータ用の音声認識システムのサブフローチャートであって、搭乗者情報を作成する処理の流れを示すサブフローチャートである。
図8図8は、同実施形態に係るエレベータ用の音声認識システムのサブフローチャートであって、搭乗者が連絡者であるか否かを判定する処理の流れを示すサブローチャートである。
【発明を実施するための形態】
【0018】
以下、本発明の一実施形態にかかるエレベータ用の音声認識システム(以下、音声認識システムと称する)について、添付図面を参照しつつ説明する。
【0019】
音声認識システムは、かご内の搭乗者の音声に対して音声認識を行うように構成されたシステムである。また、本実施形態では、かご内の搭乗者のうち、外部に連絡を取ろうとしている搭乗者(本実施形態では連絡者と称する)を特定したうえで、この搭乗者の音声を認識できるように構成されていることを一例に挙げて音声認識システムの説明を行う。
【0020】
なお、音声認識システムで音声認識を行う対象とするかごは、例えば、図1に示すように、かご内の音を集音する集音装置Mと、かご内を撮像する撮像装置Cと、かごの外部に連絡をとるための外部連絡装置T(図3参照)とが設置されているものであればよい。
【0021】
本発明の音声認識システム1は、かご内で集音した音データに基づいて、搭乗者一人ごとに該搭乗者の音声データを含む音声関連情報を作成する処理を実行する音処理手段2と、かご内を撮像した画像データに基づいて、搭乗者一人ごとに該搭乗者が写る被写体データを含む被写体関連情報を作成する処理を実行する画像処理手段3と、同一の搭乗者の音声関連情報と被写体関連情報とを関連付けて搭乗者情報を作成する搭乗者情報作成手段4と、搭乗者情報に基づいて音声認識を行う対象とする搭乗者を選択する対象選択手段5と、対象選択手段5が音声認識を行う対象として選択した搭乗者の音声データに対して音声認識を行う音声認識手段6と、を備える。
【0022】
音処理手段2は、音データを取得する音データ取得手段20と、音データ取得手段20で取得した音データから搭乗者ごとの音声データを作成する音声作成手段21と、音声作成手段21が作成した音声データに基づいて音声の発生源(搭乗者の位置を示す情報であり、本実施形態では音声位置情報と称する)を導出する音声位置導出手段22と、音声作成手段21が抽出した音声データに基づいて発声元の搭乗者の特徴を示す情報(本実施形態では音声特徴情報と称する)を導出する音声特徴導出手段23と、を有する。
【0023】
音データ取得手段20が取得する音データとは、かご内に設置されている集音装置Mが集音した音データのことである。また、音データ取得手段20は、集音装置Mから直接的に音データを取得してもよいし、集音装置Mによって集音された後に記憶手段に記憶された音データを取得するように構成されていてもよい(すなわち、集音装置Mから間接的に音データを取得するように構成されていてもよい。
【0024】
音声作成手段21は、音データから雑音を除去する雑音除去処理と、雑音除去処理で雑音を除去した音データから搭乗者一人ごとの音声データを作成する音声抽出処理と、を実行するように構成されている。
【0025】
雑音除去処理において音データから除去する雑音とは、搭乗者がいない状態のかご内で集音できる音のことであり、かごの動作音や、かご内でのアナウンス、かご外から入り込む外部の環境音等のことである。
【0026】
さらに、雑音除去処理は、予め作成されている雑音のデータを取得し、該雑音のデータに基づいて音データから雑音の成分(雑音のデータに含まれている音成分と同一又は略同一の音成分)を除去するように構成されていればよい。
【0027】
音声抽出処理は、音データから搭乗者の音声に該当する部分を切り出すことによって音声データを作成してもよいし、音データから搭乗者の音声成分を分離することによって音声データを作成するように構成されていてもよい。すなわち、音声抽出処理は、搭乗者一人分の音声が入った音声データを作成するように構成されていればよい。
【0028】
音声位置導出手段22は、例えば、かご内に設置した複数の集音装置Mによって集音した複数の音データに基づいて音源位置情報を導出するように構成されていればよい。この場合、音声位置導出手段22は、複数の音データを比較して音の伝わる速さの差や、音圧の差を導出し、これらの情報と、各集音装置の設置位置等の情報とに基づいて音声の発生源の位置を導出するように構成されていればよい。
【0029】
また、音声位置情報は、かご内の所定の範囲のエリア(例えば、かご内を前後方向と左右方向とで区画することで設定した複数のエリア)の位置を示す情報であってもよいし、かご内における前後方向と左右方向の座標を示す情報であってもよい。
【0030】
音声特徴導出手段23は、音声データに基づいて音声成分(搭乗者の音声成分)の特徴を導出する音声成分導出処理と、音声成分導出処理で抽出した音声成分に基づいて搭乗者の特徴を示す音声特徴情報を導出する音声特徴導出処理とを実行するように構成されている。
【0031】
音声成分導出処理は、例えば、ケプストラム分析により、音声データから搭乗者の音声成分を導出するように構成されていればよい。また、音声成分導出処理で導出する音声成分とは、例えば、音の大きさや、高さ、音色等のことである。
【0032】
音声特徴導出処理は、音声成分導出処理で抽出した音声成分に基づいて性別や、年齢層等の搭乗者の外見に関連する特徴を導出するように構成されていればよい。
【0033】
ここで、図2に示すように、本実施形態の音処理手段2では、音声位置導出手段22が抽出した音源位置情報D11は音声データD10に関連付けられ、音声特徴導出手段23が音声特徴導出処理で導出した音声特徴情報D12は音声データD10に関連付ける。そのため、音声関連情報D1には、音声データD10と、音源位置情報D11と、音声特徴情報D12とが含まれる。
【0034】
画像処理手段3は、画像データを取得する画像データ取得手段30と、画像データ取得手段30で取得した画像データから搭乗者ごとの被写体データを抽出する被写体抽出手段31と、被写体抽出手段31が抽出した被写体データに基づいて搭乗者の位置情報(以下、被写体位置情報と称する)を導出する被写体位置導出手段32と、被写体抽出手段31が抽出した被写体データに基づいて被写体(搭乗者)の挙動を導出する挙動導出手段33と、被写体抽出手段31が抽出した被写体データに基づいて被写体(搭乗者)の特徴を示す情報(本実施形態では被写体特徴情報と称する)を導出する被写体特徴導出手段34と、を有する。
【0035】
画像データ取得手段30が取得する画像データとは、かご内に設置されている撮像装置C(例えば、カメラ等)が撮像した画像のことである。また、画像データ取得手段30は、撮像装置Cから直接的に画像データを取得してもよいし、撮像装置Cによって撮像された後に記憶手段に記憶された画像データを取得するように構成されていてもよい(すなわち、撮像装置Cから間接的に画像データを取得するように構成されていてもよい)。
【0036】
被写体抽出手段31は、画像データ内で搭乗者が写っている領域を指定する。本実施形態では、図3に示すように、画像データPに対して複数の区画領域P1が設定されており、被写体抽出手段31は、複数の区画領域P1のうち、搭乗者(H1,H2)が写っている区画領域P1を指定し、該区画領域P1を被写体データとするように構成されている。
【0037】
図3では、連絡者である搭乗者に符号「H1」を付し、連絡者でない搭乗者には符号「H2」を付している。
【0038】
なお、画像データPは、動画であってもよいし、静止画であってもよい。画像データPを静止画とする場合は、例えば、時系列順に連続する複数の静止画を一つの画像データとすればよい。
【0039】
被写体位置導出手段32は、被写体抽出手段31が抽出した被写体データに基づいて搭乗者の位置情報(かご内における搭乗者の位置を示す情報)を導出する。
【0040】
被写体位置導出手段32は、例えば、画像データP内での被写体データ(区画領域)P1の位置に基づいて搭乗者位置情報を導出するように構成されていてもよい。この場合、画像データの各区画領域には、予めかご内の対応する位置が関連付けておき、被写体位置導出手段32は、被写体抽出手段31が抽出した被写体データ(区画領域)Pの位置を搭乗者位置情報とするように構成されていればよい。
【0041】
挙動導出手段33は、図1に示すように、搭乗者の挙動を導出する挙動導出処理と、挙動導出処理で抽出した搭乗者の挙動に基づいて、搭乗者がかごの外部に連絡をとろうとしている連絡者であるか否かを判定する連絡者判定処理と、連絡者判定処理の判定結果に基づいて搭乗者がかごの外部に連絡をとろうとしている連絡者であることを示す連絡者情報、又は搭乗者がかごの外部に連絡をとろうとしている連絡者ではないことを示す非連絡者情報を被写体データに関連付ける連絡者情報付与処理と、を実行するように構成されている。
【0042】
本実施形態の挙動導出処理は、搭乗者の挙動の有無を判定し、搭乗者に挙動が有ると判定した場合は、搭乗者の挙動の種類と、搭乗者の向きとを導出するように構成されている。
【0043】
挙動導出処理は、例えば、搭乗者の挙動の種類として、搭乗者が発話していると認められる発話動作や、搭乗者が発話していないと認められる非発話動作を導出するように構成されていればよい。
【0044】
また、挙動導出処理は、例えば、搭乗者の向きとして、搭乗者が外部連絡装置の方に向いているか、搭乗者が外部連絡装置とは別の方に向いているかを導出するように構成されていればよい。
【0045】
連絡者判定処理は、挙動導出処理で導出した搭乗者の挙動の種類が発話動作であり、且つ搭乗者の向きが外部連絡装置の方である場合は搭乗者が連絡者であると判定し、挙動導出処理で搭乗者に挙動がないと判定した場合、若しくは、搭乗者の挙動の種類が非発話動作であると導出されるか、搭乗者の向きが搭乗者の挙動の種類が非発話動作であると導出された場合に、搭乗者が連絡者ではないと判定するように構成されている。
【0046】
連絡者情報付与処理は、図2に示すように、連絡者判定処理で搭乗者が連絡者であると判定した場合は被写体データD20に連絡者情報D22を関連付け、連絡者判定処理で搭乗者が連絡者でないと判定した場合は被写体データD20に非連絡者情報D23を関連付けるように構成されている。
【0047】
被写体特徴抽出手段で抽出する搭乗者の特徴も、性別や、年齢層等の搭乗者の外見に関連する特徴である。
【0048】
ここで、本実施形態の画像処理手段3では、被写体位置導出手段32が抽出した被写体位置情報D21は被写体データD20に関連付けられ、被写体特徴導出手段34が導出した被写体特徴情報D4も被写体データD20に関連付けられ、また、上述のように、連絡者情報D22又は非連絡者情報D23も被写体データD20に関連付けられる。そのため、画像関連情報D2には、被写体データD20と、被写体位置情報D21と、連絡者情報D22又は非連絡者情報D23の何れか一方と、被写体特徴情報D24とが含まれている。
【0049】
搭乗者情報作成手段4は、図1に示すように、音声データに関連付けられている音声位置情報と、被写体データに関連付けられている被写体位置情報とを比較し、音声位置情報と被写体位置情報とが同じ位置を示している場合は、音声関連情報と被写体関連情報とを関連付けて搭乗者情報を作成するように構成されている。
【0050】
なお、搭乗者情報作成手段4は、音声データに関連付けられている音声位置情報と、被写体データに関連付けられている被写体位置情報とが同じ位置を示しており、且つ音声特徴情報が示す搭乗者の特徴と被写体特徴情報が示す搭乗者の特徴とが対応している場合に音声データと被写体データとを関連付けて搭乗者情報を作成するように構成されていてもよい。
【0051】
対象選択手段5は、搭乗者の挙動と搭乗者が発した言葉に基づいて音声認識を行う対象とすべき搭乗者であるか否かを判定するように構成されている。
【0052】
より具体的に説明すると、対象選択手段5は、搭乗者情報を選択する選択手段50と、搭乗者の挙動情報に基づいて音声認識を行う対象とすべき搭乗者(本実施形態では連絡者)であるか否かを判定する挙動判定手段51と、搭乗者情報の音声データから搭乗者が発した言葉を抽出し、且つ抽出した言葉に基づいて音声認識を行う対象とすべき搭乗者であるか否かを判定する言葉判定手段52と、を有する。
【0053】
挙動判定手段51は、被写体データに非連絡者情報が関連付けられている場合に、搭乗者が音声認識を行う対象とすべき搭乗者(連絡者)でないと判定するように構成されている。
【0054】
言葉判定手段52は、搭乗者が連絡者であるか否かを判定するために予め設定されている判定用の言葉が音声データから抽出した言葉に含まれているか否かを判定し、音声データから抽出した言葉に判定用の言葉が含まれている場合は搭乗者を連絡者と判定し、音声データから抽出した言葉に判定用の言葉が含まれていない場合は搭乗者が連絡者でないと判定するように構成されている。判定用の言葉とは、例えば、かごの異常を示す言葉等のことである。
【0055】
音声認識手段6は、挙動判定手段51と言葉判定手段52により連絡者が特定されていない状態においては、選択手段50が選択した搭乗者情報に含まれる音声データの音声認識を行い、連絡者が特定されている状態においては、連絡者の搭乗者情報に含まれる音声データの音声認識を行うように構成されている。
【0056】
本実施形態に係る音声認識システム1の構成は、以上の通りである。続いて、音声認識システム1の動作を説明する。
【0057】
音声認識システム1は、図4に示すように、音処理手段2が音声関連情報を作成し(S1)、画像処理手段3が被写体関連情報を作成し(S2)、搭乗者情報を作成する場合(音声位置情報と被写体位置情報とが一致している場合)は(S3でYes)、搭乗者情報作成手段4が音声関連情報と被写体関連情報とに基づいて搭乗者情報を作成する(S4)。
【0058】
続いて、対象選択手段505が選択した搭乗者情報が連絡者のものであるか否かを判定し(S5)、対象選択手段505が搭乗者情報を連絡者のものであると判定した場合(S6でYes)は、音声データに対して音声認識手段6による音声認識を行う(S7)ように構成されている。
【0059】
なお、本実施形態の音声認識システムは、音声認識手段6による音声データに対する音声認識を終了した後、または、搭乗者情報を作成しない場合(S3でNo)、または、対象選択手段505が搭乗者情報を連絡者のものでないと判定した場合(S6でNo)、処理を終了するか(S8でYes)、処理を続行するか(S8でNo)を判定する。
【0060】
また、図4では、音処理手段2による処理の流れの後に画像処理手段3による処理の流れを図示しているが、搭乗者情報作成手段4による処理が実行される前に音処理手段2による処理と画像処理手段3による処理とを完了させることができれば、画像処理手段3による処理の後に音処理手段2の処理が実行されてもよいし、音処理手段2による処理と画像処理手段3による処理とが並列的に処理されてもよい。
【0061】
音処理手段2は、図5に示すように、音データ取得手段20が音データを取得するまで処理を繰り返し(S10でNo)、そして、音データ取得手段20が音データを取得すると(S10でYes)と、音声作成手段21が音データ取得手段20で取得した音データから搭乗者ごとの音声データを作成し(S11)、音声作成手段21によって作成された音声データに基づいて音声位置導出手段22が音源位置情報を導出し(S12)、さらに、音声作成手段21によって作成された音声データに基づいて音声特徴導出手段23が搭乗者の特徴を示す音声特徴情報を導出する(S13)。
【0062】
そして、導出された音源位置情報と音声特徴情報が音声データに関連付けられることによって、音声関連情報が作成される(S14)。
【0063】
画像処理手段3は、図6に示すように、画像データ取得手段30が画像データを取得するまで処理を繰り返し(S20でNo)、そして、画像データ取得手段30が画像データを取得すると(S20でYes)、被写体抽出手段31が画像データ取得手段30で取得した画像データから搭乗者ごとの被写体データを抽出し(S21)、被写体抽出手段31が抽出した被写体データに基づいて被写体位置導出手段32が被写体位置情報を導出し(S22)、被写体抽出手段31が抽出した被写体データに基づいて挙動導出手段33が被写体(搭乗者)の挙動を導出し、該挙動に基づいて被写体データに連絡者情報又は非連絡者情報の何れか一方を関連付け(S23)、被写体抽出手段31が抽出した被写体データに基づいて被写体特徴導出手段34が被写体(搭乗者)の被写体特徴情報を導出する(S24)。
【0064】
そして、連絡者情報又は非連絡者情報の何れか一方が関連付けられている被写体データに対して被写体位置情報と被写体特徴情報とを関連付けることによって画像関連情報を作成する(S25)。
【0065】
搭乗者情報作成手段4は、図7に示すように、音声データに関連付けられている音声位置情報と、被写体データに関連付けられている被写体位置情報とを比較し(S30)、音声位置情報と被写体位置情報とが同じ位置かを比較する処理を繰り返し(S31でNo)、音声位置情報と被写体位置情報とが同じ位置を示している場合(S31でYes)は、音声関連情報と被写体関連情報とを関連付けて搭乗者情報を作成する(S32)。
【0066】
対象選択手段505は、図8に示すように、選択手段50が搭乗者情報を選択し(S50)、挙動判定手段51により搭乗者が連絡者でないと判定され(S51でNo)、言葉判定手段52により搭乗者が連絡者でないと判定された場合(S52でNo)、搭乗者が連絡者でない旨を示す判定結果を出力し(S53)、言葉判定手段52により搭乗者が連絡者でないと判定された場合(S52でNo)、搭乗者が連絡者でない旨を示す判定結果を出力する(S53)。
【0067】
一方で、挙動判定手段51により搭乗者が連絡者であると判定されるか(S51でYes)、言葉判定手段52により搭乗者が連絡者であると判定された場合(S52でYes)、搭乗者が連絡者である旨を示す判定結果を出力する(S53)、言葉判定手段52により搭乗者が連絡者でないと判定された場合(S52でNo)、搭乗者が連絡者である旨を示す判定結果を出力する(S54)。
【0068】
そして、図4に示すように、搭乗者が連絡者であると判定結果が出力されている場合は(S6でYes)、音声認識手段6による音声認識を行う。
【0069】
そして、音声認識手段6による音声認識が行われる。
【0070】
以上のように、本実施形態の音声認識システム1によれば、搭乗者の音声の発生源の位置と搭乗者の立ち位置の対応関係が一致している音声データに対して音声認識手段が音声認識を行えるように構成されているため、音声認識の対象とすべき音声データとは別の音声データに音声認識をしてしまうことが抑えられる。
【0071】
このように、本実施形態の音声認識システム1は、音声認識の対象を適切に選択できるようにすることによって、音声認識の精度を向上させることができるようになっている。
【0072】
また、音声関連情報に含まれる音声特徴情報や、被写体特徴情報に含まれる被写体特徴情報等の発声元の搭乗者の特徴を示す情報を用いることができるため、これらの情報を用いることによって音声認識を行うべき対象であるか否かの判定や、音声認識の精度を高めることもできる。
【0073】
特に、本実施形態の音声特徴情報や被写体特徴情報は、搭乗者の外見に関連する特徴であるため、これらの情報を用いることによって音声認識を行うべき対象であるか否かの判定や、音声認識の精度を高めやすい。
【0074】
なお、上述のように、搭乗者情報作成手段4が、音声データに関連付けられている音声位置情報と被写体データに関連付けられている被写体位置情報とが同じ位置を示しており、且つ音声特徴情報が示す搭乗者の特徴と被写体特徴情報が示す搭乗者の特徴とが対応している場合に音声データと被写体データとを関連付けて搭乗者情報を作成するように構成されている場合は、連絡者の特定誤りを抑えることができる。
【0075】
さらに、本実施形態の音声認識システム1では、音声の発生源の位置(音声関連情報の音声位置情報)と搭乗者の位置(被写体関連情報の被写体位置情報)との対応関係に加えて、搭乗者の挙動に基づいても搭乗者が連絡者であるか否かを判定するように構成されているため、音声認識を行うべき対象を選択する精度が向上する。
【0076】
また、本実施形態の音声認識システム1においては、搭乗者が発した言葉に基づいても搭乗者が連絡者であるか否かを判定するように構成されているため、音声認識を行うべき対象を柔軟に選択できるようになる。
【0077】
なお、本発明に係るエレベータ用の音声認識システムは、上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変更を加え得ることは勿論である。
【0078】
上記実施形態において特に言及しなかったが、外部連絡装置Tとは、例えば、インターホンや、携帯情報端末(例えば、スマートホン)等のことである。
【0079】
上記実施形態の音声位置導出手段22は、複数の集音装置Mを用いるように構成されていたが、例えば、1つの集音装置Mを用いるように構成されていてもよい。但し、複数の集音装置Mを用いた方が、音声の発生源の位置を導出する精度が高まる。
【0080】
上記実施形態において特に言及しなかったが、音声認識手段6による音声認識を繰り返し行う際においては、連絡者を特定するための音処理手段2、画像処理手段3、搭乗者情報作成手段4、対象選択手段5による一連の処理を再度行ったうえで音声認識手段6による音声認識を行っても良いし、連絡者を特定した際に既に導出した情報(例えば、音声特徴情報や、被写体特徴情報等)を利用して、連絡者を特定するための一連の処理を行わずに音声認識手段6による音声認識を行っても良い。
【0081】
上記実施形態では、かご内の搭乗者のうち、連絡者を特定したうえで、この連絡者の音声を認識できるように構成されていることを一例に挙げて音声認識システム1の説明を行ったが、この構成に限定されない。音声認識システム1は、例えば、連絡者とは別の種類の搭乗者を特定したうえで、この搭乗者の音声を認識できるように構成されていてもよい。
【0082】
上記実施形態において特に言及しなかったが、音声認識システム1は、例えば、情報を記憶するための記憶装置や、制御用のマイコンを備え、かごに記憶装置と制御用のマイコンとが設置されるように構成されていてもよい。この場合、記憶装置には、かご内を撮像した画像データや、言葉判定手段52で用いる判定用の言葉(キーワード)を示す情報等が記憶され、また、音処理手段2や、画像処理手段3、搭乗者情報作成手段4と、対象選択手段5と、音声認識手段6による処理は制御用のマイコンにより実行される。なお、記憶装置に記憶させる情報は、例えば、データベース形式であってもよい。
【0083】
上記実施形態では、集音装置Mが外部連絡装置Tで構成されることを一例に挙げて説明を行ったが、外部連絡装置Tは、例えば、インターホンのように、かご内の音を集音する集音部と、かご内に音(より具体的には、搭乗者へのアナウンスや、搭乗者と対話するための音声等)を出力する出力部を備えているものであればよい。
【0084】
また、集音装置Mは、外部連絡装置T以外の装置によって構成することも可能であり、例えば、外部連絡装置Tではなく、かご内に設置されたマイクにより構成されていてもよい。この場合、かご内にスピーカーを設置すれば、このスピーカーを外部連絡装置Tの出力部の代用として用いれば、外部連絡装置Tを必要とせず、集音機能を重複させない構成にすることができる。
【0085】
上記実施形態において特に言及しなかったが、音声認識システム1では、かご内で集音した音データと、かご内を撮像した画像データとに基づいてかご内の状況を判定し、この判定結果に応じて必要なアクション(例えば、エレベータの動作の制御や、搭乗者への問いかけ等)を行うように構成されていてもよい。このようにすれば、判定したかご内の状況に基づいて、どのようなアクションをとるべきかを正しく判定できるようになる。
【符号の説明】
【0086】
1…音声認識システム、2…音処理手段、3…画像処理手段、4…搭乗者情報作成手段、5…対象選択手段、6…音声認識手段、20…音データ取得手段、21…音声作成手段、22…音声位置導出手段、23…音声特徴導出手段、30…画像データ取得手段、31…被写体抽出手段、32…被写体位置導出手段、33…挙動導出手段、34…被写体特徴導出手段、50…選択手段、51…挙動判定手段、52…言葉判定手段、505…対象選択手段、C…撮像装置、D1…音声関連情報、D10…音声データ、D11…音源位置情報、D12…音声特徴情報、D2…画像関連情報、D20…被写体データ、D21…被写体位置情報、D22…連絡者情報、D23…非連絡者情報、D24…被写体特徴情報、D4…被写体特徴情報、M…集音装置、P…画像データ、P1…区画領域、T…外部連絡装置
図1
図2
図3
図4
図5
図6
図7
図8