特許第6823085号(P6823085)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ラックスロボ カンパニー,リミティドの特許一覧

特許6823085音声命令による位置基盤音声認識システム(A Location Based Voice Recognition System Using A Voice Command)
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】6823085
(24)【登録日】2021年1月12日
(45)【発行日】2021年1月27日
(54)【発明の名称】音声命令による位置基盤音声認識システム(A Location Based Voice Recognition System Using A Voice Command)
(51)【国際特許分類】
   G10L 15/28 20130101AFI20210114BHJP
   G10L 15/06 20130101ALI20210114BHJP
【FI】
   G10L15/28 400
   G10L15/06 300Y
【請求項の数】21
【全頁数】16
(21)【出願番号】特願2018-564984(P2018-564984)
(86)(22)【出願日】2018年2月13日
(86)【国際出願番号】KR2018001857
(87)【国際公開番号】WO2019156272
(87)【国際公開日】20190815
【審査請求日】2020年6月10日
(31)【優先権主張番号】10-2018-0017032
(32)【優先日】2018年2月12日
(33)【優先権主張国】KR
【早期審査対象出願】
(73)【特許権者】
【識別番号】518434348
【氏名又は名称】ラックスロボ カンパニー,リミティド
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100114018
【弁理士】
【氏名又は名称】南山 知広
(74)【代理人】
【識別番号】100119987
【弁理士】
【氏名又は名称】伊坪 公一
(72)【発明者】
【氏名】ペク ソンミン
(72)【発明者】
【氏名】ソン ソンペ
【審査官】 山下 剛史
(56)【参考文献】
【文献】 特開2002−182679(JP,A)
【文献】 特開2014−83658(JP,A)
【文献】 特開2012−215668(JP,A)
【文献】 特開2011−118124(JP,A)
【文献】 特表2014−510942(JP,A)
【文献】 韓国公開特許第10−2009−0025939(KR,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−15/28
(57)【特許請求の範囲】
【請求項1】
少なくとも1つのマイクロホンを含む複数の音声命令受信装置、および
前記複数の音声命令受信装置とセンサーネットワークを介して連結されるセンサーネットワーク制御装置を含み、
前記センサーネットワーク制御装置は、
前記複数の音声命令受信装置の相対的な位置を決定するセンサー位置決定部、
前記相対的な位置に基づいて、使用者の位置を演算する使用者位置演算部、
前記複数の音声命令受信装置それぞれの音声の大きさに基づいて換算音声の大きさを演算し、換算音声の大きさに基づいて前記使用者の発話方向範囲を決定する発話方向演算部、および
前記発話方向範囲により前記複数の音声命令受信装置のうちの音声命令の対象となる対象音声命令受信装置を選定し、対象装置学習部および対象装置決定部を含む対象装置選定部を含み、
前記換算音声の大きさは、前記複数の音声命令受信装置が前記使用者から同じ距離にあると仮定した場合の音声の大きさであり、前記対象装置学習部は前記使用者の位置情報および発話方向および特定の時間間隔の間に同じ発話方向に同一の内容の連続した音声命令を発話するかどうか、または連続した命令で否定語があるかどうかに応じて決定される音声命令成功の成否を含む音声命令履歴を利用して、前記使用者の音声命令の機械学習を行い、
前記対象装置決定部は前記機械学習の結果に基づいて、 前記使用者の発話方向、位置情報と音声命令成功の成否に基づいた音声命令の内容別確率に基づいて音声命令の内容を決定する、位置基盤音声認識システム。
【請求項2】
前記発話方向演算部は、音減衰モデルを用いて前記複数の音声命令受信装置のそれぞれの音声の大きさを求める請求項1に記載の位置基盤音声認識システム。
【請求項3】
前記の音減衰モデルは、前記複数の音声命令受信装置の中の少なくとも一部のハウジングの影響または前記マイクロホンの指向性に基づく請求項2に記載の位置基盤音声認識システム。
【請求項4】
前記センサー位置決定部は、前記複数の音声命令受信装置のうちの少なくとも1つの音声命令受信装置から特定の周波数の音を放出して、前記複数の音声命令受信装置から放出された特定の周波数の音を受信し、受信された特定の周波数の音の大きさに基づいて、前記複数の音声命令受信装置の前記相対的な位置を演算して決定する請求項1に記載の位置基盤音声認識システム。
【請求項5】
前記使用者の発話方向範囲は、前記換算音声の大きさが最も大きい方向を中心にあらかじめ定められた範囲に決定される請求項1に記載の位置基盤音声認識システム。
【請求項6】
前記使用者の発話方向範囲は、前記換算音声の大きさが最も大きい方向の音声命令受信装置と前記換算音声の大きさが2番目に大きい音声命令受信装置が互いに隣接する場合には、前記換算音声の大きさが最も大きい方向の音声命令受信装置と前記換算音声の大きさが2番目に大きい音声命令受信装置の中間角度を中心に、あらかじめ定められた範囲に決定される請求項1に記載の位置基盤音声認識システム。
【請求項7】
前記対象装置選定部は、追加的な要素の位置の入力を受け、前記追加的な要素の位置に基づいて前記対象音声命令受信装置を選定する請求項1に記載の位置基盤音声認識システム。
【請求項8】
記対象装置学習部は、該当音声命令受信装置の機能情報、クラスタリング情報および複数の音声命令受信装置の機能の動作順序の少なくとも一つを含む属性情報を含む請求項1に記載の位置基盤音声認識システム。
【請求項9】
前記音声命令履歴は、使用者情報発話内容および音声命令成功の成否をさらに含み、音声命令が発話するたびに保存される請求項に記載の位置基盤音声認識システム。
【請求項10】
少なくとも1つのマイクロホンを含む複数の音声命令受信装置、および前記複数の音声命令受信装置とセンサーネットワークを介して連結されるセンサーネットワーク制御装置を含む位置基盤音声認識システムにおいて、
前記複数の音声命令受信装置の前記複数の音声命令受信装置の相対的な位置を決定する段階と、前記相対的な位置に基づいて使用者の位置を演算する段階と、
前記複数の音声命令受信装置それぞれの音声の大きさに基づいて換算音声の大きさを演算し、換算音声の大きさに基づいて前記使用者の発話方向範囲を決定する段階、および
前記発話方向範囲によって前記複数の音声命令受信装置のうち、音声命令の対象となる対象音声命令受信装置を選定する段階を含み、
前記対象音声命令受信装置を選定する段階は、前記使用者の位置情報、および発話方向の範囲および音声命令成功の成否を含む音声命令履歴を利用して、前記使用者の音声命令の機械学習を実行する段階と、前記機械学習に基づいて前記使用者の発話方向、位置情報と音声命令成功の成否に基づいた音声命令の内容別確率に基づいて音声命令の内容を決定し、決定された音声命令の内容に基づいて前記対象音声命令受信装置を決定する段階を含み、
前記換算音声の大きさは、前記複数の音声命令受信装置が前記使用者から同じ距離にあると仮定した場合の音声の大きさであり、前記音声命令成功の成否は、特定の時間間隔の間に同じ発話方向の範囲で同じ内容の連続した音声命令を発話するかどうか、または連続した命令で否定語があるかどうかに基づいて決定される位置基盤音声認識方法。
【請求項11】
前記使用者の発話方向範囲を決定する段階は、音減衰モデルを用いて前記複数の音声命令受信装置それぞれの音声の大きさを求める段階を含む請求項10に記載の位置基盤音声認識方法。
【請求項12】
前記音減衰モデルは、前記複数の音声命令受信装置の中の少なくとも一部のハウジングの影響または前記マイクロホンの指向性に基づく請求項11に記載の位置基盤音声認識方法。
【請求項13】
前記対象音声命令受信装置を選定する段階は、追加的な要素の位置の入力を受け、前記追加的な要素の位置に基づいて前記対象音声命令受信装置を選定する段階を含む請求項10に記載の位置基盤音声認識方法。
【請求項14】
前記相対的な位置を決定する段階は、前記複数の音声命令受信装置ごとに特定の周波数の音を放出する段階と、前記複数の音声命令受信装置のマイクが放出された特定の周波数の音を受信する段階と、受信された特定の周波数の音の大きさに基づいて前記複数の音声命令受信装置の前記相対的な位置を演算して決定する段階を含む請求項10に記載の位置基盤音声認識方法。
【請求項15】
前記使用者の発話方向の範囲は、前記換算音声の大きさが最大の方向を中心に所定の範囲で決定される請求項10に記載の位置基盤音声認識方法。
【請求項16】
前記使用者の発話方向の範囲は、前記換算音声の大きさが最も大きい方向の音声命令受信装置と前記換算音声の大きさが2番目に大きい音声命令受信装置が互いに隣接している場合に、前記換算音声の大きさが最も大きい方向の音声命令受信装置と前記換算音声の大きさが2番目に大きい音声命令の受信装置の中間角度を中心に所定の範囲で決定される請求項10に記載の位置基盤音声認識方法。
【請求項17】
前記音声命令履歴は、使用者情報、発話の内容と音声命令成功の成否をさらに含み、音声命令が発話されるたびに保存されている請求項10に記載の位置基盤音声認識方法。
【請求項18】
前記発話の内容は、使用者、対象音声命令受信装置および装置の動作を含んでいる、請求項10に記載の位置基盤音声認識方法。
【請求項19】
前記対象音声命令受信装置を選定する段階は、音声命令が不明確な命令である場合に、前記機械学習に基づいて、音声命令の内容を決定し、
前記不明確な命令は、代名詞を含む音声命令または対象音声命令受信装置に関する情報がない音声命令を含む、請求項10に記載の位置基盤音声認識方法。
【請求項20】
前記内容は、使用者、対象音声命令受信装置および装置の動作を含んでいる、請求項1に記載の位置基盤音声認識システム。
【請求項21】
前記対象装置決定部は、音声命令が不明確な命令である場合に、前記機械学習に基づいて前記音声命令の内容を決定し、
前記不明確な命令は、代名詞を含む音声命令または対象音声命令受信装置に関する情報がない音声命令を含む、請求項1に記載の位置基盤音声認識システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声命令による位置追跡および位置基盤音声認識システムに関する。特に、マイクロホンを含んでいる多数の装置がセンサーネットワークで連結されている状況で、使用者の音声命令の認識を容易にする位置追跡装置および位置基盤音声認識サービスに関する。
【背景技術】
【0002】
最近、音声命令によって様々なデバイスを制御する技術がだんだん普遍化している。特に、冷蔵庫TVなどの家電機器または照明など様々な装置に音声命令の適用が拡散している。しかし、音声命令の適用拡散と共に、使用者が望まない動作が発生する可能性がますます高まっている。複数の機器で同じ音声命令を使用する場合、例えば、スイッチをオンに動作するなどのように複数の機器で同じ音声命令の発話によって作動する場合に、使用者が意図しなかった機器で意図しなかった動作が起きる可能性が高くなった。
【0003】
このような問題を解決するために、従来技術は、カメラまたは赤外線ポインタを用いて使用者の視線を把握する方法を使用するか(米国特許第9825773号、米国特許第6970824号)、または同一デバイス内に多数のマイクロホンを設置して音源の方向を推定する方法も用いられた(米国特許第9554208号)。
【0004】
従来技術のように、カメラまたは赤外線ポインタを用いる場合、または同じデバイス内に多数のマイクロホンを設置する場合には、追加的なセンサーが必要となるため、製造業者の立場では費用的な負担が大きく、様々なセンサーデバイスを具現するための開発の負担も大きい。
【0005】
したがって、音声命令時に使用者の意図を把握して、所望の機器に所望の動作を音声で制御することができる技術が切実に要求されている。
【発明の概要】
【発明が解決しようとする課題】
【0006】
上記した問題点を解決するために、本発明は、複数のマイクロホンを活用して使用者の発話方向を決定し、決定された発話方向の範囲内にある命令対象機器を特定できる位置基盤音声認識サービスを提供しようとする。
【0007】
特に、本方法は、マイクロホンを含んでいる多数の装置がセンサーネットワークで連結されている状況で、使用者の音声命令の認識を容易にすることにその目的を置いている。したがって、音声命令の対象となる各装置の相対的な位置を把握し、音声命令が印加された時間差によって使用者の位置および方向を追跡する。使用者の位置および方向に基づいて、その命令の解釈を行う。
【課題を解決するための手段】
【0008】
前記技術的課題を解決するために、本発明に係る位置基盤音声認識システムは、それぞれ少なくとも1つのマイクロホンを含む複数の音声命令受信装置、および前記複数の音声命令受信装置とセンサーネットワークを介して連結されるセンサーネットワーク制御装置を含み、前記センサーネットワーク制御装置は、前記複数の音声命令受信装置の相対的な位置を決定するセンサー位置決定部、前記相対的な位置に基づいて、使用者の位置を演算する使用者位置演算部、前記複数の音声命令受信装置それぞれの音声の大きさに基づいて換算音声の大きさを演算し、換算音声の大きさに基づいて前記使用者の発話方向範囲を決定する発話方向演算部、および前記発話方向範囲により前記複数の音声命令受信装置のうちの音声命令の対象となる対象音声命令受信装置を選定する対象装置選定部を含み、前記換算音声の大きさは、前記複数の音声命令受信装置が前記使用者から同じ距離にあると仮定した場合の音声の大きさであることができる。
【0009】
この場合、前記発話方向演算部は、音減衰モデルを用いて前記複数の音声命令受信装置のそれぞれの音声の大きさを求めた後、前記複数の音声命令受信装置のそれぞれの音声の大きさに基づいて換算音声の大きさを演算することができる。
【発明の効果】
【0010】
従来技術は、発話方向を類推するための方法であって、使用者の視線または追加的なカメラ、あるいは赤外線ポインタなどを使用した。このような追加的な機器は、費用負担、具現および使用の困難などの短所がある。しかし、本発明は、音声命令を受信するマイクロホンを用いて使用者の位置に応じた意図把握を容易にした。また、本発明は、使用者の位置情報のみならず、命令を下した発話方向の情報も活用して、使用者に向上したサービスを提供することができる。
【0011】
このような方法は、センサーネットワーク(Sensor Network)、マシーン・ツー・マシーン(Machine to Machine,M2M)、MTC(Machine Type Communication)、およびモノのインターネット(Internet of Things,IoT)などの技術に基づいた知能型サービス(スマートホーム、スマートビルなど)、デジタル教育、保安および安全関連サービスなど、様々なサービスに活用されることができる。
【図面の簡単な説明】
【0012】
図1】本発明の実施例に係る位置基盤音声認識サービスシステムを示したブロック図である。
図2】本発明の実施例に係る位置基盤音声認識サービス動作のフローチャートである。
図3】本発明の実施例に係る発話方向決定動作についてのフローチャートである。
図4】本発明の実施例に係る音声命令受信装置を示した図である。
図5】本発明の実施例に係る指向性マイクロホンの極性パターン(Polar Pattern)を示したグラフである。
図6】本発明の実施例に係る発話方向決定動作を説明するための図である。
図7】本発明の実施例に係る発話方向決定動作を説明するための図である。
図8】本発明の実施例に係る対象装置選定部の詳細ブロック図である。
【発明を実施するための形態】
【0013】
以下の内容は、単に発明の原理を例示する。したがって当業者は、本明細書に明確に説明されたり図示されていなくても、発明の原理を具現して発明の概念と範囲に含まれた様々な装置を発明することができるものである。また、本明細書に列挙されたすべての条件付き用語および実施例は原則的に、発明の概念が理解されるようにするための目的にのみ明確に意図され、このように特別に列挙された実施例および状態に制限的でないものと理解されなければならない。
【0014】
上述した目的、特徴および長所は、添付された図面と関連した以下の詳細な説明によってより明確になり、それに従って発明が属する技術分野における通常の知識を有する者が発明の技術的思想を容易に実施することができる。以下に添付した図面を参照して説明する。
【0015】
図1は、本発明の実施例に係る位置基盤音声認識サービスシステムを示したブロック図である。
【0016】
図1を参照すると、本発明の実施例に係る位置基盤音声認識サービスシステムは、センサーネットワークで連結されている少なくとも1つ以上のマイクロホンを含んだ音声命令受信装置210、220およびセンサーネットワーク制御装置100を含む。この場合、センサーネットワーク制御装置100は、携帯電話、人工知能秘書(スマートスピーカー)、パーソナルコンピュータ(PC)、個別音声命令受信装置210、220のうちのいずれか1つ、ウェアラブル装置(スマートウォッチなど)、サーバーなどコンピューティング機能を行うことができる様々な装置のうちのいずれか1つであることができる。
【0017】
使用者300の音声命令が発話されると、音声命令受信装置210、220は、使用者300の音声命令を受信して音声命令、音声到達時間および音声の大きさなどをセンサーネットワーク制御装置100に伝送する。ここで、本発明の「音声命令」は、使用者の音声発話によって音声命令受信装置210、220の動作を要求する命令および音声命令受信装置210、220の回答を要求する質問をすべて包括する概念である。例えば、使用者がTVに向かって「チャンネル7番に変えて」という命令およびTVに向かって「今見ているチャンネルは何?」という質問も本発明の「音声命令」の範疇に含まれる。
【0018】
この場合、センサーネットワーク制御装置100は、使用者の発話がある場合に発話の内容が音声命令であるか、センサーネットワーク内の音声命令受信装置と関連のない内容であるかを確認することができる。
【0019】
ここで、音声命令受信装置210、220は、マイクロホンを介して音を入力することができるセンサーを含む装置すべてを意味することができる。例えば、照明スイッチ、TVまたは冷蔵庫などの各種家電機器またはモバイルフォンなど他のマイクロホンを含む各種機器およびセンサーがすべて音声命令受信装置に該当することができる。
【0020】
図1によると、センサーネットワーク制御装置100は、発話方向演算部110、対象装置選定部130、使用者位置演算部150、センサー位置決定部160、保存部170、通信部190および制御部195を含むことができる。このとき、センサーネットワーク制御装置100は、通信部190を介して上述した音声命令受信装置210、220とセンサーネットワーク400で連結されている。
【0021】
この場合、センサーネットワーク400は、共有機またはルータなどで連結された内部網であることもでき、インターネット、LoRa(Long Range)網、NB−IoT(Narrow Band−Internet of Things)、LTE網などの外部網であることもできる。また、センサーネットワーク制御装置100は、例えば、サーバー、PC、タブレット、モバイルフォンなどのコンピューティング機能を有する装置であることができる。
【0022】
また、通信部190は音声命令受信装置210、220との通信のための装置であって、WiFi、ZigBee、Bluetoothなどの無線通信装置であることができ、PLC(Ethernet,Power Line Communication)などの有線通信装置であることができる。
【0023】
以下では、図2図6を参照し、センサーネットワーク制御装置100の具体的な動作について説明する。
【0024】
センサーネットワーク制御装置100は、まずセンサーネットワークに連結された各装置の相対的な位置を演算して推定することができる(段階S510)。
【0025】
相対的な位置を推定する方法は、例えば以下のような方法を使用することができる。
【0026】
1)センサーネットワーク制御装置100のセンサー位置決定部160が、センサーネットワーク400に伝達される信号の大きさ、センサーネットワーク400上の音声命令受信装置のうちの少なくとも1つの音声命令受信装置210、220にビーコン(Beacon)が設置されている場合、ビーコン信号の大きさに基づいて、センサーネットワークに連結された各装置の相対的な位置を演算することができる。または、音声命令受信装置210、220のうちのいずれか1つが、ビーコン役割をする特定の信号を発生する装置を備え、センサー位置決定部160が、他の音声命令受信装置で受信された信号強度に基づいて、その特定の信号が到達する方向およびビーコンの役割をする音声命令受信装置210、220との相対的な位置を演算して、無線センサーネットワーク400上の各音声命令受信装置210、220の相対的な位置を演算することができる。
【0027】
この場合、ビーコン信号の代わりに、センサーネットワーク400が無線通信網の場合、無線通信信号の信号大きさ(例えば、RSSI(Received Signal Strength Indication))を用いて、センサーネットワークに連結された各装置の相対的な位置を演算することもできる。
【0028】
2)または、センサーネットワーク制御装置100のセンサー位置決定部160は最初の設定時に、または必要時に相対的な位置を演算するモードを行うことができる。このとき、センサーネットワーク400の各ノードで特定周波数の声を放出して、音声命令受信装置210、220のマイクロホンを介してこれを受信する。放出された特定周波数の音がマイクロホンに入力された値を分析して、各ノード(音声命令受信装置)周囲の各位置に応じた音の回折/反射/吸収などの物理的特徴についてのマップ(Map)を作成することができる。このような物理的特徴についてのマップを活用して、各音声命令受信装置210、220のセンサーネットワーク上の相対的な位置を演算することができる。
【0029】
この場合、前記マイクロホンは、ビームフォーミングマイクロホン(Beamforming Microphone)を活用することができる。ビームフォーミングマイクロホンは、その内部に含まれたマイクロホンアレイの位置、音の入射角によりその減衰率が決定されるように構成する。ビームフォーミングマイクロホンおよび演算された減衰率に基づいて、各音声命令受信装置210、220のセンサーネットワーク400上の相対的な位置を演算することができる。
【0030】
3)または、各音声命令受信装置210、220の追加的な機器の使用によって相対的な位置を演算することもできる。
【0031】
例えば、各音声命令受信装置210、220は、追加的にLEDランプを備えることができる。このとき、各音声命令受信装置210、220は、LEDランプを特定の規則により点灯/消灯させる。そして、携帯用装置のカメラは、LEDランプの点灯/消灯を受信する。そして、センサー位置決定部160は、LEDランプの点灯/消灯を受信したか否か、受信方向などに基づいて各音声命令受信装置210、220の相対的な位置を感知する。感知された位置情報を統合して、センサーネットワーク400上の音声命令受信装置210、220の相対的な位置を演算することができる。
【0032】
4)または、センサーネットワーク400のセンサー位置決定部160は、使用者300から各音声命令受信装置210、220の物理的位置を直接システムに入力を受けて、その位置情報を用いることもできる。
【0033】
上記でセンサー位置決定部160が様々な方法によって音声命令受信装置210、220の相対的な位置を決定することを例示したが、上述した方法の他にも当業者は様々な方法で各音声命令受信装置210、220の相対的な位置を把握することができる。
【0034】
この後、使用者300の音声命令が発話されると、各音声命令受信装置210、220のマイクロホンで音声命令210、220を受信する(段階S520)。
【0035】
一方、センサーネットワーク制御装置100の使用者位置演算部150は、各音声命令受信装置内のセンサー(マイクロホン)に印加される音声信号の印加(到達)時間差(Time Difference of Arrival,TDOA)および各音声命令受信装置の相対的な位置情報を用いて、使用者300の相対的な位置を演算する(段階S530)。
【0036】
この場合、各音声命令受信装置内にマイクロホンを複数設置して、位置追跡の容易性を増加させることができる。
【0037】
一方、センサーネットワーク内の音声命令受信装置210、220の総マイクロホンの個数または音声命令が受信されたマイクロホンの個数が少なくて使用者の位置を確定的に取得することが困難な場合、下記のような方法で近似に推定することができる。
【0038】
1)例えば、センサーネットワークが設置された室内空間を一定区域に区画し、マイクロホンに印加された音声命令の大きさに応じて区画された区間に使用者の位置を推定して、マッピングさせる方法を使用することができる。
【0039】
2)または、例えば少なくとも2つの音声命令受信装置210、220から演算された距離に基づいて、使用者の位置可能地域が重なる位置を使用者が位置する領域と推定することができる。
【0040】
3)または、センサーネットワーク内の音声命令受信装置210、220が位置した情報と該当場所の地図情報および音声命令が該当場所の室内環境のどの部分で反射/回折/吸収されるかについての追加的な情報に基づいて使用者の位置を推定することができる。
【0041】
4)または、使用者が持っているモバイル装置で無線信号またはビーコン信号を発生し、この信号をセンサーネットワーク400上の各音声命令受信装置で受信する。
【0042】
このとき、センサーネットワーク400上の音声命令受信装置が受信した信号の大きさ、到達角度情報に基づいて使用者の位置を推定することができる。
【0043】
5)または、使用者の足音に基づいて使用者の歩行速度、方向に対する情報を類推し、これを累積して使用者の現在位置を類推することができる。
【0044】
6)または、使用者が所持したカメラで撮影された映像やイメージと各無線ネットワークの音声命令受信装置で撮影された映像やイメージとの間に特徴点マッチングによって使用者の相対的な位置を推定することもできる。
【0045】
上述した方法の他にも当業者は、音の他に可視光、赤外線、紫外線などを用いてセンサーネットワーク400上の各音声命令受信装置の相対的な位置を演算することもできる。
【0046】
そして、センサーネットワーク制御装置100の発話方向演算部110は、使用者300の発話方向を演算して決定することができる(段階S540)。
【0047】
以下では、図3図6を参照して、発話方向決定についての詳細動作を説明する。
【0048】
図3によると、発話方向演算部110は、各音声命令受信装置210、220のハウジングの影響またはマイクロホンの指向性に基づいた音減衰モデルを適用して、使用者300の位置に対する相対的方向による各音声命令受信装置210、220に印加された音量を補正する(段階S532)。
【0049】
マイクロホン215を含む音声命令受信装置210、220は、通常的にハウジング212を有するため、音声を受信する場合に方向によって音声の受信強度が異なる。より具体的に、音声命令受信装置210、220が照明スイッチに具現された場合の実施例の図4を参照して説明する。ただし、本発明の音声命令受信装置210、220は、これに限定されない。
【0050】
図4(a)は、本発明の実施例に係る音声命令受信装置210、220が照明スイッチの場合であり、図4(b)は、図4(a)の照明スイッチのa−a’部分の切断面を示した図である。
【0051】
この場合、マイクロホン215前方の開口部213を介して伝達される音声217と、ハウジング212を通過して伝達される音声219は大きさの差異を有するようになり、音減衰モデルが差異を有するようになる。
【0052】
または、マイクロホン215が指向性を有する場合、例えば、ビームフォーミング(Beamforming)マイクロホンを使用する場合には、方向による極性パターン(Polar Pattern)を有するようになる。図5は、マイクロホン215が指向性を示した極性パターンに対する例示グラフである。したがって、この場合、指向性マイクロホンは、特定方向に音が印加される場合に、より大きな音が入力されるようになる。
【0053】
したがって、本発明の実施例は、正確な発話方向導出のために、マイクロホン215の指向性またはハウジングの影響による音減衰モデルを適用して、各音声命令受信装置210、220に印加された音量を補正する。
【0054】
この場合、音声命令受信装置210、220は、正確な方向を導出するために補助的に地磁気センサーなどの補助的な方向センサーをさらに含むことができる。
【0055】
または、音減衰モデルを適用する場合に、方向による減衰が起こらないか、方向による減衰がほとんど無視できる水準の減衰が起こる音声命令受信装置210、220があれば、このような音声命令受信装置210、220を選別して、選別された音声装置210、220に対する声の大きさを使用することもできる。
【0056】
その後、発話方向演算部110は、各音声命令受信装置210、220および演算された使用者の位置情報を用いて、距離に応じた音の減衰モデルを適用し、各装置が同じ距離にあるときの音量を換算して演算する(段階S534)。
【0057】
図6(a)を参照すると、使用者300が発話する場合に、顔がある方向(発話方向、a)には音がよりよく伝達され、顔の後方向(b)には音がもう少し減衰されて伝達されることになる。
【0058】
したがって、音の大きさを活用して発話方向を導出するために、段階(S532)で演算した音声の大きさは、図6(b)に示すように、使用者300から同じ距離に音声命令受信装置が存在すると仮定した音声の大きさに換算されるようになる。発話方向にある音声命令受信装置220の場合には、換算された音声の大きさ221が大きく算出され、発話方向にない音声命令受信装置210の場合には、換算された音声の大きさ211が相対的に小さく算出されるようになる。したがって、このような音声の大きさの換算によって発話方向を正確に求めることができるようになる。
【0059】
最後に換算された音量に基づいて、発話方向による同一距離の各センサーで受信される音量の大きさに対するモデルを適用し、使用者の発話方向範囲(図1の230参照)を演算して決定する(段階S536)。
【0060】
この場合、発話方向範囲は、換算された音声の大きさ211が最も大きい方向を中心にあらかじめ定められた範囲(例えば、換算された音声の大きさ211が最も大きい方向を中心に左/右15度の範囲)で定められることができる。
【0061】
または、換算された音声の大きさ211が最も大きい方向の音声命令受信装置と2番目に大きい方向の音声命令受信装置が互いに隣接する場合には、2つの音声命令受信装置の重心または中間角度を中心に、あらかじめ定められた範囲(例えば、30度)が発話方向になることができる。
【0062】
この場合、音声入力を受けたマイクロホンの個数が使用者の方向を確定的に取得することが困難な場合、以下のように近似に推定する方法を活用する。
【0063】
1)例えば、図6(a)に示すように、発話方向による音声の大きさの比をあらかじめ求めて発話方向による音声の大きさモデルを算出した後、換算された音声の大きさ間の比を求め、発話方向による音声の大きさモデルに適用して使用者300の発話方向を近似推定することができる。
【0064】
2)または、外部要因の影響を受けない通常的な状態での使用者の音声命令の大きさを保存しておいた後、外部要因の影響がない音声命令の大きさに基づいて発話方向を近似推定することもできる。
【0065】
具体的に、音声命令が印加されたときに、外部影響がない音声命令の大きさおよび発話方向による大きさの減衰率に対するモデルに基づいて、その命令方向を類推することができる。または、音声命令が印加されたときに、室内環境で音の反射/吸収などの物理的特性についてのマップ情報を用いて使用者の発話方向を類推することができる。
【0066】
3)または、使用者のビームフォーミングマイクロホンに入力される使用者の音声命令方向情報、使用者の外部から入る外部の音の方向情報(外部の音が存在しない場合、各無線ネットワークで人為的に発生した声に置換可能)、各無線ネットワークの音声命令受信装置で観測された方向に対する情報によって使用者の発話方向を決定することができる。この場合、ビームフォーミングマイクロホンは、特定方向でのみ声を受けることができるように、特殊な形態でハウジングされたマイクロホンで置換可能である。
【0067】
4)または、図7に示すように、各音声命令受信装置210、220が使用される空間の端に位置している場合には、使用者がその使用される空間の内部で命令を下すと仮定した後、各音声命令受信装置が使用される空間の内部で感知された強度を比較して、使用者の発話方向を類推することができる。
【0068】
5)または、同一距離に各音声命令受信装置があると仮定した後の換算音量の大きさに基づいて換算音量の大きさが最も大きい方向を発話方向に決定することもできる。
【0069】
再び図2を参照すると、センサーネットワーク制御装置100の対象装置選定部130は、使用者300の音声命令を解釈する過程で発話方向範囲230および使用者300の位置情報を参照して、音声命令の対象となる音声命令受信装置220を導出する(段階S550)。
【0070】
この場合、使用者300の音声命令の解釈を容易にするために、使用者の発話方向範囲230に含まれる音声命令受信装置220を選別し、選別された音声命令受信装置220で音声命令対象を制限して、音声命令対象決定過程を容易にすることができる。
【0071】
図8を参照すると、このような音声命令の解釈のために、対象装置選定部130は、対象装置学習部135および対象装置決定部137を含む。
【0072】
対象装置学習部135は、対象装置の選定のための機械学習を行う。
【0073】
機械学習時の音声命令の文脈的(Contextual)、環境的(Environmental)要素を参照して学習が行われる。特に、文脈的、環境的要素を参照するために、センサーネットワーク制御装置100の対象装置学習部135は、すなわち、各音声命令受信装置210、220に対する属性情報を備えることができる。
【0074】
例えば、前記属性情報は、該当音声命令受信装置210、220の相対的または絶対的位置情報、機能情報、クラスタリング情報、機能の動作順序および音声命令履歴を含むことができる。
【0075】
該当音声命令受信装置210、220の相対的または絶対的位置情報は、最初段階(S510)で把握した各音声命令受信装置の相対的位置または絶対的位置を意味する。
【0076】
機能情報は、該当音声命令受信装置210、220の種類、例えば、照明装置なのか、スピーカーなのかなどを示し、各装置の詳細機能情報、例えば、冷蔵庫の霜取り機能またはエアコンの送風/冷房モードなどの詳細機能情報をさらに含むことができる。
【0077】
クラスタリング情報とは、室内空間を区画した情報を意味し、例えば、寝室、茶の間、居間などの室内空間情報であることができる。
【0078】
機能の動作順序は、文脈的意味を把握するためのものであって、例えば、1つの音声命令受信装置210、220が炊飯器の場合、最初の加熱、蒸らしモードおよび保温モードなどの動作順序であることができる。または、様々な音声命令受信装置210、220の統合的な動作順序であることができる。例えば、洗濯機の動作後、乾燥器の動作が進行されたり、または冷蔵庫のドアが開いた後、電子レンジの動作が進行されたりという情報であることができる。
【0079】
音声命令履歴は、使用者情報、発話方向、発話内容、使用者発話位置情報および音声命令成功の可否を含むことができ、音声命令が発話するたびに保存されることができる。
【0080】
使用者情報は、使用者の一定時間分量の音声発声によって入力された音声命令から使用者の音声特徴に該当する情報を抽出した後、これを訓練データとして使用して話者モデルを生成し、該当話者を使用者として登録することにより、話者識別器を構成し、これを土台に使用者から発話した音声を用いて登録使用者中から特定使用者を識別するための情報である。
【0081】
発話方向、発話内容および使用者発話位置情報とは、音声命令の発話時に発話方向演算部110で把握した発話方向、テキスト形態の音声命令および使用者位置演算部150で演算した発話位置を意味する。
【0082】
音声命令成功の可否は、音声命令が正しく解釈されたかを把握する情報であって、特定時間区間の間特定発話方向に同じ発話内容で連続した命令を行うか、または連続した命令で否定語(例えば、「いや」など)があるかどうかにより決定されることができる。例えば、「それ消して」という命令が発話された後、TVが消えた後に「いや照明消せ」という命令が連続する場合に、「それ消して」という音声命令は、対象が正しく選ばれなかったものと保存されることができる。
【0083】
対象装置学習部135は、上述した属性情報を活用し、特定使用者がどのような発話方向でどのような対象装置にどのような内容の命令を下す確率が高いかを演算して保存することができる。例えば、Aという使用者は、夕方9時に天井方向に照明を消してという音声命令を発話する可能性が高い場合に、特定使用者の命令内容/発話方向に基づいて、特定対象装置を選択する確率を演算することができる。
【0084】
対象装置学習部135は、例えば、サポートベクターマシン(Support vector machine)、隠れマルコフモデル(Hidden Markov model)、回帰分析(Regression)、神経網(Neural network)、ナイーブベイズ分類(Naive Bayes Classification)などの方法によって学習することができる。
【0085】
対象装置決定部137は、基本的に、発話方向範囲230および使用者300の位置情報を参照して、音声命令の対象となる音声命令受信装置220を導出する。しかし、追加的に対象装置決定部137は、上述した対象装置学習部135で機械学習した属性情報に基づいて音声命令の文脈的意味を把握することができる。
【0086】
この場合、音声命令の意図と指定された音声命令受信装置210、220が明確な場合には、文脈的意味の解釈なしで音声命令を行うことができる。
【0087】
例えば、「寝室の照明器具を消して」という命令の場合には、行われる音声命令の意図(消して)と音声命令を行う音声命令受信装置210、220が明確であるため、別途の文脈的意味の解釈が必要ないことがある。
【0088】
しかし、音声命令に代名詞を入れるなどの不明確な命令の場合には、発話方向および使用者の位置を用いて音声命令の文脈的意味を解釈することができる。
【0089】
例えば、「それつけて」という音声命令がある場合には、対象音声命令受信装置210、220が不明確であるため、文脈的解釈が必要である。
【0090】
このとき、「それ」という代名詞を解釈するために、上述した属性情報、使用者の位置および発話方向情報を活用することができる。
【0091】
使用者の位置が寝室にあり、照明器具がある天井方向に向かって使用者が音声命令を発話した場合には、文脈的解釈によって照明器具を消すことができる。
【0092】
特に、連続命令の場合に発話方向の変化があらかじめ定められた範囲以内の場合には、文脈的に同一音声命令受信装置210、220に命令したとみなすことができる。例えば、「寝室の照明つけて」という命令の後で、使用者の発話方向の変化があらかじめ定められた範囲以内で再び「それまた消して」という音声命令が印加される場合には、対象デバイスを文脈的解釈により照明器具に決定することができる。
【0093】
または、その他追加的な要素の位置(例えば、ベッド、机の位置)をセンサーネットワーク制御装置100の保存部に保存し、ベッドの上で使用者300が命令を下す場合に、ベッドで音声命令が発話したという点を参照して対象音声命令受信装置を選別することもできる。
【0094】
最後に、センサーネットワーク制御装置100の保存部170は、音声命令対象装置、使用者の位置および発話方向の情報を保存することができる(段階S560)。したがって、保存された情報は、後に音声命令がある場合に、音声命令の解釈のための資料として、対象装置学習部135で活用されることができる。
【0095】
例えば、どの位置で、どの方向を見て、どんな意図、対象に対して命令を下したかについての情報を履歴(History)として累積、保存および学習し、該当命令が反復、あるいは類似した命令が入ってくる場合、このような学習された内容を基盤にその解釈を容易にする。例えば、使用者300が夜の時間帯にベッドの上で天井方向を発話方向にして照明スイッチをオフさせる行為を繰り返す場合に、このような情報を組み合わせて次に使用者の音声命令発話時に対象音声命令受信装置を選別して制御することに参照することができる。
【0096】
追加的に、制御部195は、選定された対象音声命令受信装置220に制御信号を送信することができる。例えば、制御部195は、対象音声命令受信装置220が照明スイッチまたは照明システムの場合、照明スイッチの点灯/消灯を制御信号によって制御することができる。または例えば、対象音声命令受信装置220がテレビの場合、制御部195テレビのオン/オフ、音量調節、チャンネル変更など様々な制御信号を送信することができる。または、対象音声命令受信装置220がオーディオの場合、制御部195オーディオのオン/オフ、音量調節、チャンネル変更など様々な制御信号を送信することができる。
【0097】
ただし、上述したように、音量調節、チャンネル変更などはオーディオ、TVに重複する命令であり得、オン/オフ(点灯/消灯)の場合は照明、オーディオ、TVなどに重複する命令であり得る。したがって、音声命令の内容が重複することがあり得る。しかし、本発明によると、使用者の発話方向が考慮されるので、重複している音声命令による望まない機器の望まない動作を防止することができる。
【0098】
したがって、本発明は、音声命令を受信するマイクロホンだけを用いて、その使用者の位置および方向による意図把握を容易にした。位置に応じた情報のみならず、命令を下した方向情報も使用して、使用者に向上したサービスを提供することができる。
【0099】
このような方法は、センサーネットワーク(Sensor Network)、マシーン・ツー・マシーン(Machine to Machine,M2M)、MTC(Machine Type Communication)、モノのインターネット(Internet of Things,IoT)のための方法であって、知能型サービス(スマートホーム、スマートビルディングなど)、デジタル教育、保安および安全関連サービスなどに活用されることができる。
【0100】
以上の説明は、本発明の技術思想を例示的に説明したものに過ぎないものであって、本発明が属する技術分野における通常の知識を有する者であれば本発明の本質的な特性から逸脱しない範囲内で様々な修正、変更および置換が可能である。
【0101】
したがって、本発明に開示された実施例および添付された図面は、本発明の技術思想を限定するためのものではなく説明するためのものであり、このような実施例および添付された図面によって本発明の技術思想の範囲が限定されるものはない。本発明の保護範囲は請求の範囲によって解釈しなければならず、これと同等な範囲内にあるあらゆる技術思想は、本発明の権利範囲に含まれるものと解釈されなければならない。
【要約】
本発明によれば、マイクロホンを含んでいる多数の装置がセンサーネットワークで連結されている状況で、使用者の音声命令の認識を容易にすることにその目的を置いている。各装置の相対的な位置を把握し、音声命令が入ってきた時間差によって使用者の位置および方向を追跡する。使用者の位置および方向に基づいて、その命令の解釈を行う。このような方法は、センサーネットワーク(Sensor Network)、マシーン・ツー・マシーン(Machine to Machine,M2M)、MTC(Machine Type Communication)、およびモノのインターネット(Internet of Things,IoT)のための方法であって、知能型サービス(スマートホーム、スマートビルなど)、デジタル教育、保安および安全関連サービスなどに活用されることができる。
【選択図】図1
図1
図2
図3
図4(a)】
図4(b)】
図5
図6(a)】
図6(b)】
図7
図8