(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025026801
(43)【公開日】2025-02-25
(54)【発明の名称】向上した信頼度を有する音響認識結果提供方法、装置およびコンピュータプログラム
(51)【国際特許分類】
G10L 15/32 20130101AFI20250217BHJP
G10L 17/26 20130101ALI20250217BHJP
G10L 15/16 20060101ALI20250217BHJP
G10L 15/10 20060101ALI20250217BHJP
G06N 3/045 20230101ALI20250217BHJP
【FI】
G10L15/32 210Z
G10L17/26
G10L15/16
G10L15/10 200W
G06N3/045
【審査請求】有
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2024129043
(22)【出願日】2024-08-05
(31)【優先権主張番号】10-2023-0105562
(32)【優先日】2023-08-11
(33)【優先権主張国・地域又は機関】KR
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.3GPP
2.ブルートゥース
3.BLUETOOTH
4.JAVA
5.WCDMA
(71)【出願人】
【識別番号】523429276
【氏名又は名称】コーチル インク
【氏名又は名称原語表記】COCHL INC.
(74)【代理人】
【識別番号】100083138
【弁理士】
【氏名又は名称】相田 伸二
(74)【代理人】
【識別番号】100189625
【弁理士】
【氏名又は名称】鄭 元基
(74)【代理人】
【識別番号】100196139
【弁理士】
【氏名又は名称】相田 京子
(74)【代理人】
【識別番号】100199004
【弁理士】
【氏名又は名称】服部 洋
(72)【発明者】
【氏名】パク ジョンス
(72)【発明者】
【氏名】ハン ヨンチャン
(72)【発明者】
【氏名】イ ドンモン
(72)【発明者】
【氏名】イ スビン
(72)【発明者】
【氏名】ジョン イルヨン
(72)【発明者】
【氏名】リム ヒュングイ
(57)【要約】 (修正有)
【課題】音響データを時間単位の区間に分割して、各区間に対する認識を遂行する過程で計算量を減らしながらも認識率の向上を図り、多様な周辺状況に対応して向上した正確度を有する音響認識結果提供方法、装置及びコンピュータプログラムを提供する。
【解決手段】携帯性と移動性が保障される無線通信装置である使用者端末と、外部サーバーが、それぞれネットワークを通じて音響データの認識正確度を向上させるためのサーバーと連結されるシステムにおいて、サーバーが実施する方法は、人工知能モデルを活用して、音響データを獲得する段階、音響データを分割して複数個の音響サブデータを生成する段階及び複数個の音響サブデータを音響認識モデルの入力として処理して各音響サブデータに対応する音響認識結果情報を生成する段階を含む。
【選択図】
図3
【特許請求の範囲】
【請求項1】
コンピューティング装置の一つ以上のプロセッサで遂行される方法において、
音響データを獲得する段階;
音響データを分割して複数個の音響サブデータを生成する段階;および
前記複数個の音響サブデータを音響認識モデルの入力として処理して各音響サブデータに対応する音響認識結果情報を生成する段階;を含む、向上した信頼度を有する音響認識結果提供方法。
【請求項2】
前記複数個の音響サブデータを生成する段階は、
前記音響データを予め設定された大きさ単位で分割して複数個の音響サブデータを生成する段階;を含み、
前記音響認識モデルは、
前記複数個の音響サブデータそれぞれを入力として各音響サブデータに対応する複数個の出力を提供する第1認識モデルおよび前記複数個の音響サブデータ間の組み合わせを通じて生成された組み合わせ再検証音響サブデータを入力として、組み合わせ再検証音響サブデータに対応する出力を提供する第2認識モデルを含む、請求項1に記載の向上した信頼度を有する音響認識結果提供方法。
【請求項3】
前記音響認識結果情報を生成する段階は、
前記第1認識モデルが前記各音響サブデータに対応して出力した音響認識結果情報に基づいて音響サブデータの再検証が必要な再検証音響サブデータを選別する段階;
前記選別された再検証音響サブデータを基準として組み合わせ再検証音響サブデータを生成する段階;および
前記組み合わせ再検証音響サブデータを前記第2認識モデルに入力として処理して音響認識結果情報を生成する段階;を含み、
前記第2認識モデルは、
クラウドAPIを通じて具現されることを特徴とする、請求項2に記載の向上した信頼度を有する音響認識結果提供方法。
【請求項4】
前記再検証音響サブデータを選別する段階は、
前記第1認識モデルの出力に関連した認識項目間の類似度点数を導き出す段階;および
算出された前記類似度点数に基づいて再検証音響サブデータを選別する段階;を含む、請求項3に記載の向上した信頼度を有する音響認識結果提供方法。
【請求項5】
前記再検証音響サブデータを選別する段階は、
前記第1認識モデルの出力に関連した音響認識結果情報が予め設定された再検証項目内に含まれるかどうかを識別する段階;および
前記音響認識結果情報が前記再検証項目内に含まれる場合、前記音響認識結果情報算出に基盤となる音響サブデータを再検証が必要な再検証音響サブデータとして選別する段階;を含む、請求項3に記載の向上した信頼度を有する音響認識結果提供方法。
【請求項6】
前記第1認識モデルは、
各認識項目別確率値を出力し、算出された確率値のうち最大値に該当する確率値に対応する認識項目に基づいて音響認識結果情報を生成することを特徴とし、
前記再検証音響サブデータを選別する段階は、
前記第1認識モデルを通じて算出された各認識項目別確率値のうち予め設定された臨界基準値を超過する認識項目が複数個である場合、前記音響認識結果情報算出に基盤となる音響サブデータを再検証が必要な再検証音響サブデータとして選別する段階;を含む、請求項3に記載の向上した信頼度を有する音響認識結果提供方法。
【請求項7】
前記音響認識結果情報を生成する段階は、
前記音響認識結果情報間の連関関係情報を生成する段階;および
前記連関関係情報に基づいて各音響サブデータに対応する前記音響認識結果情報のうち少なくとも一つの音響認識結果情報に対する補正を遂行する段階;を含む、請求項1に記載の向上した信頼度を有する音響認識結果提供方法。
【請求項8】
前記少なくとも一つの音響認識結果情報に対する補正を遂行する段階は、
第1音響認識結果情報と第2音響認識結果情報が予め設定された時間以内に生成された場合、前記第1音響認識結果と前記第2音響認識結果情報に対応する連関関係情報に基づいて第1音響認識結果および第2音響認識結果のうち少なくとも一つに対する補正を遂行することを特徴とする、請求項7に記載の向上した信頼度を有する音響認識結果提供方法。
【請求項9】
前記方法は、
ムード感知モデルを活用して前記音響認識結果情報に対応するムード情報を生成する段階;をさらに含み、
前記ムード情報は、
音響データが獲得される空間に関連した雰囲気に対する予測情報であって、場所予測情報および感情予測情報を含み、
前記音響認識結果情報を生成する段階は、
第1音響サブデータに対応する第1音響認識結果情報と前記第1音響サブデータに対応する前記ムード情報間の関連性情報を生成する段階;
前記関連性情報が予め設定された基準値以上である場合、前記第1音響認識結果情報に対する補正を遂行しない段階;および
前記関連性情報が予め設定された基準値未満である場合、前記第1音響認識結果情報に対する補正を遂行する段階;を含み、
前記ムード感知モデルは、
前記音響認識結果情報を認識して時点別周辺状況に対応する前記ムード情報を出力するように学習されたニューラルネットワークモデルであることを特徴とする、請求項1に記載の向上した信頼度を有する音響認識結果提供方法。
【請求項10】
前記第1音響認識結果情報に対する補正を遂行する段階は、
前記第1音響認識結果と類似性を有する複数のキーワードを識別する段階;
前記複数のキーワードそれぞれと前記ムード情報間の複数の関連性サブ情報を生成する段階;および
前記複数の関連性サブ情報のうち最大値に該当する最大関連性サブ情報を識別し、最大関連性サブ情報に対応するキーワードに基づいて前記第1音響認識結果情報に対する補正を遂行する段階;を含む、請求項9に記載の向上した信頼度を有する音響認識結果提供方法。
【請求項11】
一つ以上のインストラクションを保存するメモリ;および
前記メモリに保存された前記一つ以上のインストラクションを実行するプロセッサを含み、
前記プロセッサは前記一つ以上のインストラクションを実行することによって請求項1に記載された方法を遂行する、装置。
【請求項12】
ハードウェアであるコンピュータと結合されて請求項1に記載された方法を遂行できるようにコンピュータで読み取り可能な記録媒体に保存されたコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は音響データの認識率を向上させるための方法に関し、より具体的には、音響データを時間単位の区間に分割して、各区間に対する認識を遂行する過程で計算量を減らしながらも認識率の向上を図り、多様な周辺状況に対応して向上した正確度を有する音響認識結果を提供するための方法に関する。
【背景技術】
【0002】
完全に音を聞くことができないかまたは音をよく区別できない聴覚障害者は音を聞いて状況を判断することが難しいため日常生活に多くの困難があるだけでなく、音情報を利用して室内、室外環境での急迫した状況を認知することができないため即時に対処が不可能である。聴覚障害者だけでなく、イヤホン着用歩行者、高齢者などの聴覚がないか制限された状況では使用者周辺で発生する音響が遮断され得る。追加的に、使用者が睡眠をとるなど音響を感知し難い状況では周辺状況を認知することができず急迫した状況に置かれたり、事故に遭う恐れがある。
一方、このような環境の中で音響イベントを検出し認識する技術開発に対する必要性が台頭している。音響イベントを検出し認識する技術は、実生活環境のコンテクスト認識、急迫した状況認識、メディアコンテンツ認識、有線通信上の状況分析など多様な分野に応用可能な技術であって、持続的に研究されている。
音響イベント認識技術としては、オーディオ信号からMFCC、energy、spectral flux、zero crossing rateなど多様な特徴値を抽出して優秀な特徴を検証する研究とGaussian mixture modelまたはrule基盤の分類方法などに対する研究が主をなしており、最近では前記方法を改善するために、ディープラーニング基盤の機械学習方法が研究されている。しかし、このような方法は低い信号対比雑音比で音響検出の正確度が保障され、周辺の雑音と事件の音響を区別し難いという限界点を有する。
【0003】
すなわち、多様な周辺ノイズを含む実生活環境では信頼度の高い音響イベントの検出が困難であり得る。具体的には、有効な音響イベントを検出するためには、時系列的(すなわち、連続的)に獲得される音響データに対して音響イベントが発生したか否かを判断しなければならず、これと共にどのようなイベントクラスが発生したのかも認識しなければならないため、高い信頼度を担保することが困難であり得る。また、二以上のイベントが同時に発生する場合、単一イベント(monophonic)ではなく多重イベント(polyphonic)認識問題まで解決しなければならないため、音響イベントの認識率がさらに低くなり得る。
したがって、実生活環境で時系列的に獲得される音響データに対応して認識率を高めて、向上した信頼度を有する音響認識を提供しようとする需要が存在し得る。
【特許文献1】大韓民国登録特許10-2014-0143069
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明が解決しようとする課題は、前述した問題点を解決するためのものであって、音響データを時間単位の区間に分割して各区間に対する認識を遂行する過程で計算量を減らしながらも認識率の向上を図り、多様な周辺状況に対応して向上した正確度を有する音響認識結果を提供するためのものである。
本発明が解決しようとする課題は、以上で言及された課題に制限されず、言及されていないさらに他の課題は下記の記載から通常の技術者に明確に理解され得るであろう。
【課題を解決するための手段】
【0005】
前述した課題を解決するための本発明の多様な実施例に係る向上した信頼度を有する音響認識結果提供方法が開示される。前記方法は、音響データを獲得する段階、音響データを分割して複数個の音響サブデータを生成する段階および前記複数個の音響サブデータを音響認識モデルの入力として処理して各音響サブデータに対応する音響認識結果情報を生成する段階を含むことができる。
代案的な実施例で、前記複数個の音響サブデータを生成する段階は、前記音響データを予め設定された大きさ単位で分割して複数個の音響サブデータを生成する段階を含み、前記音響認識モデルは、前記複数個の音響サブデータそれぞれを入力として各音響サブデータに対応する複数個の出力を提供する第1認識モデルおよび前記複数個の音響サブデータ間の組み合わせを通じて生成された組み合わせ再検証音響サブデータを入力として、組み合わせ再検証音響サブデータに対応する出力を提供する第2認識モデルを含むことができる。
代案的な実施例で、前記音響認識結果情報を生成する段階は、前記第1認識モデルが前記各音響サブデータに対応して出力した音響認識結果情報に基づいて音響サブデータの再検証が必要な再検証音響サブデータを選別する段階、前記選別された再検証音響サブデータを基準として組み合わせ再検証音響サブデータを生成する段階および前記組み合わせ再検証音響サブデータを前記第2認識モデルに入力として処理して音響認識結果情報を生成する段階を含み、前記第2認識モデルは、クラウドAPIを通じて具現されることを特徴とすることができる。
代案的な実施例で、前記再検証音響サブデータを選別する段階は、前記第1認識モデルの出力に関連した認識項目間の類似度点数を導き出す段階および算出された前記類似度点数に基づいて再検証音響サブデータを選別する段階を含むことができる。
代案的な実施例で、前記再検証音響サブデータを選別する段階は、前記第1認識モデルの出力に関連した音響認識結果情報が予め設定された再検証項目内に含まれるかどうかを識別する段階および前記音響認識結果情報が前記再検証項目内に含まれる場合、前記音響認識結果情報算出に基盤となる音響サブデータを再検証が必要な再検証音響サブデータとして選別する段階を含むことができる。
代案的な実施例で、前記第1認識モデルは、各認識項目別確率値を出力し、算出された確率値のうち最大値に該当する確率値に対応する認識項目に基づいて音響認識結果情報を生成することを特徴とし、前記再検証音響サブデータを選別する段階は、前記第1認識モデルを通じて算出された各認識項目別確率値のうち予め設定された臨界基準値を超過する認識項目が複数個である場合、前記音響認識結果情報算出に基盤となる音響サブデータを再検証が必要な再検証音響サブデータとして選別する段階を含むことができる。
代案的な実施例で、前記音響認識結果情報を生成する段階は、音響認識結果情報間の連関関係情報を生成する段階および前記連関関係情報に基づいて各音響サブデータに対応する前記音響認識結果情報のうち少なくとも一つの音響認識結果情報に対する補正を遂行する段階;を含むことができる。
代案的な実施例で、前記少なくとも一つの音響認識結果情報に対する補正を遂行する段階は、第1音響認識結果情報と第2音響認識結果情報が予め設定された時間以内に生成された場合、前記第1音響認識結果と前記第2音響認識結果情報に対応する連関関係情報に基づいて第1音響認識結果および第2音響認識結果のうち少なくとも一つに対する補正を遂行することを特徴とすることができる。
代案的な実施例で、前記方法は、ムード感知モデルを活用して前記音響認識結果情報に対応するムード情報を生成する段階をさらに含み、前記ムード情報は音響データが獲得される空間に関連した雰囲気に対する予測情報であって、場所予測情報および感情予測情報を含み、前記音響認識結果情報を生成する段階は、第1音響サブデータに対応する第1音響認識結果情報と前記第1音響サブデータに対応する前記ムード情報間の関連性情報を生成する段階、前記関連性情報が予め設定された基準値以上である場合、前記第1音響認識結果情報に対する補正を遂行しない段階および前記関連性情報が予め設定された基準値未満である場合、前記第1音響認識結果情報に対する補正を遂行する段階を含み、前記ムード感知モデルは、前記音響認識結果情報を認識して時点別周辺状況に対応する前記ムード情報を出力するように学習されたニューラルネットワークモデルであることを特徴とすることができる。
【0006】
本発明の他の実施例によると、向上した信頼度を有する音響認識結果提供装置が開示される。前記装置は、一つ以上のインストラクションを保存するメモリおよび前記メモリに保存された前記一つ以上のインストラクションを実行するプロセッサを含み、前記プロセッサは前記一つ以上のインストラクションを実行することによって、前述した向上した信頼度を有する音響認識結果提供方法を遂行できる。
本発明のさらに他の実施例によると、コンピュータで読み取り可能な記録媒体に保存されたコンピュータプログラムが開示される。前記コンピュータプログラムはハードウェアであるコンピュータと結合されて、前述した向上した信頼度を有する音響認識結果提供方法を遂行できる。
本発明のその他の具体的な事項は詳細な説明および図面に含まれている。
【発明の効果】
【0007】
本発明の多様な実施例により、音響データを時間単位の区間に分割して、各区間に対する認識を遂行する過程で計算量を減らしながらも認識率の向上を図り、多様な周辺状況に対応して向上した正確度を有する音響認識結果を提供することができる。
本発明の効果は以上で言及された効果に制限されず、言及されていないさらに他の効果は下記の記載から通常の技術者に明確に理解され得るであろう。
【図面の簡単な説明】
【0008】
【
図1】本発明の一実施例に係る向上した信頼度を有する音響認識結果提供方法を遂行するためのシステムを概略的に示した図面である。
【
図2】本発明の一実施例に関連した向上した信頼度を有する音響認識結果提供方法を遂行するサーバーのハードウェア構成図である。
【
図3】本発明の一実施例に関連した向上した信頼度を有する音響認識結果提供方法を例示的に示したフローチャートを図示する。
【
図4A】本発明の一実施例に関連した音響データの分割過程を説明するための例示図である。
【
図4B】本発明の一実施例に関連した音響データの分割過程を説明するための例示図である。
【
図5】本発明の一実施例に関連した複数の人工知能モデルを活用した再検証を通じて音響認識結果情報を生成する過程を例示的に示したフローチャートである。
【
図6】本発明の一実施例に関連した音響認識モデルが音響認識結果を導き出す過程を例示的に示した例示図である。
【
図7】本発明の一実施例に関連した第1認識モデルおよび第2認識モデルを活用して音響データを認識する過程に関する例示図である。
【
図8】本発明の一実施例に関連した音響サブデータ間の連関関係により音響認識結果情報に対する補正を遂行する過程を例示的に示したフローチャートである。
【
図9A】本発明の一実施例に関連した音響認識結果情報を補正する過程を説明するための例示図である。
【
図9B】本発明の一実施例に関連した音響認識結果情報を補正する過程を説明するための例示図である。
【
図10】本発明の一実施例に関連した周辺環境および雰囲気を考慮して音響認識結果情報を生成する過程を例示的に示したフローチャートである。
【
図11】本発明の一実施例に関連した一般的な認識過程を通じて導き出される音響認識結果情報の限界点を説明するための例示図である。
【
図12】本発明の一実施例に関連した特定音響サブデータの前、後時点で対応する音響サブデータを通じて全般的な雰囲気を把握し、把握された雰囲気を考慮してより向上した正確度の音響認識結果情報を出力する過程を例示的に示した例示図である。
【発明を実施するための形態】
【0009】
多様な実施例が図面を参照して説明される。本明細書で、多様な説明が本発明の理解を提供するために提示される。しかし、このような実施例はこのような具体的な説明がなくても実行され得ることが明白である。
本明細書で使われる用語「コンポーネント」、「モジュール」、「システム」等はコンピュータ-関連エンティティ、ハードウェア、ファームウェア、ソフトウェア、ソフトウェアおよびハードウェアの組み合わせ、またはソフトウェアの実行を指し示す。例えば、コンポーネントはプロセッサ上で実行される処理過程(procedure)、プロセッサ、客体、実行スレッド、プログラム、および/またはコンピュータであり得るが、これらに制限されるものではない。例えば、コンピューティング装置で実行されるアプリケーションおよびコンピューティング装置がすべてコンポーネントであり得る。一つ以上のコンポーネントはプロセッサおよび/または実行スレッド内に常駐することができる。一コンポーネントは一つのコンピュータ内にローカル化され得る。一コンポーネントは2個以上のコンピュータの間に分配され得る。また、このようなコンポーネントはその内部に保存された多様なデータ構造を有する多様なコンピュータ読み取り可能な媒体から実行することができる。コンポーネントは例えば一つ以上のデータパケットを有する信号(例えば、ローカルシステム、分散システムで他のコンポーネントと相互作用する一つのコンポーネントからのデータおよび/または信号を通じて他のシステムとインターネットのようなネットワークを通じて伝送されるデータ)によりローカルおよび/または遠隔処理を通じて通信することができる。
また、用語「または」は排他的「または」ではなく内包的「または」を意味するものと意図される。すなわち、別途に特定されないか文脈上明確でない場合に、「XはAまたはBを利用する」という自然的な内包的置換のうち一つを意味するものと図される。すなわち、XがAを利用したり;XがBを利用したり;またはXがAおよびBすべてを利用する場合、「XはAまたはBを利用する」がこれらの場合のいずれにも適用され得る。また、本明細書に使われた「および/または」という用語は列挙された関連アイテムのうち一つ以上のアイテムの可能なすべての組み合わせを指し示し含むものと理解されるべきである。
また、「含む」および/または「含む」という用語は、該当特徴および/または構成要素が存在することを意味するものと理解されるべきである。ただし、「含む」および/または「含む」という用語は、一つ以上の他の特徴、構成要素および/またはこれらのグループの存在または追加を排除しないものと理解されるべきである。また、別途に特定されないか単数の形態を指示するものと文脈上明確でない場合に、本明細書と請求の範囲で単数は一般的に「一つまたはそれ以上」を意味するものと解釈されるべきである。
【0010】
当業者は追加的にここで開示された実施例に関連して説明された多様な例示的論理的ブロック、構成、モジュール、回路、手段、ロジック、およびアルゴリズム段階が電子ハードウェア、コンピュータソフトウェア、または両方すべての組み合わせで具現され得ることを認識しなければならない。ハードウェアおよびソフトウェアの相互交換性を明白に例示するために、多様な例示的コンポーネント、ブロック、構成、手段、ロジック、モジュール、回路、および段階はそれらの機能性の側面で一般的に前述された。そのような機能性がハードウェアでまたはソフトウェアで具現されるかどうかは全般的なシステムに賦課された特定アプリケーション(application)および設計制限にかかっている。熟練した技術者はそれぞれの特定アプリケーションのために多様な方法で説明された機能性を具現することができる。ただし、そのような具現の決定が本発明の領域を逸脱させるものと解釈されてはならない。
提示された実施例に対する説明は本発明の技術分野で通常の知識を有する者が本発明を利用したりまたは実施できるように提供される。このような実施例に対する多様な変形は本発明の技術分野で通常の知識を有する者に明白であろう。ここに定義された一般的な原理は、本発明の範囲を逸脱することなく他の実施例に適用され得る。そして、本発明はここに提示された実施例に限定されるものではない。本発明はここに提示された原理および新規の特徴と一貫する最広義の範囲で解釈されるべきである。
本明細書で、コンピュータは少なくとも一つのプロセッサを含むすべての種類のハードウェア装置を意味するもので、実施例により該当ハードウェア装置で動作するソフトウェア的構成も包括する意味として理解され得る。例えば、コンピュータはスマートフォン、タブレットPC、デスクトップ、ノートパソコンおよび各装置で駆動される使用者クライアントおよびアプリケーションをすべて含む意味として理解され得、また、これに制限されるものではない。
以下、添付された図面を参照して本発明の実施例を詳細に説明する。
本明細書で説明される各段階はコンピュータによって遂行されるものとして説明されるが、各段階の主体はこれに制限されるものではなく、実施例により各段階の少なくとも一部が互いに異なる装置で遂行されてもよい。
本発明の多様な実施例に係る向上した信頼度を有する音響認識結果提供方法は、音響データの認識率が向上するように認識された音響データに対する追加的な検証を遂行する方法、一定時間内に出力される音響認識結果に基づいて音響認識結果のうち少なくとも一部を補正する方法、または周辺環境と雰囲気をリアルタイムで把握し、これを音響データとともに考慮して音響認識結果を導き出す方法を含むことができる。実施例で、音響データの認識正確度の向上は、音響データで特定イベントを感知する認識正確度が向上することを意味し得る。
【0011】
音響データに対する追加的な検証を遂行する方法は、例えば、複数個のニューラルネットワークモデル(例えば、音響認識モデル)を活用して複数回追加的な音響認識結果を導き出して検証を遂行することによって、最終導き出される音響認識結果の信頼度の向上を図る方法を意味し得る。この場合、複数個のニューラルネットワークモデルそれぞれは、互いに異なる出力過程を有するニューラルネットワークモデルであり得る。例えば、各ニューラルネットワークモデルは、入力に活用される音響データの長さ区間が互いに異なるモデルであり、一つのモデルは1秒区間の音響データに基づいて音響認識結果を導き出すモデルであり得、他の一つのモデルは5秒の区間の音響データに基づいて音響認識結果を導き出すモデルであり得る。ただし、これに制限されず、複数個のニューラルネットワークモデルは互いに異なる性能を有する音響認識モデルであり得る。具体的な例として、一般的に比較的低性能の軽い第1認識モデルを活用して一次的に音響認識を遂行して音響認識結果を出力することができる。ここで、一次的に出力した音響認識結果に対する信頼度が多少劣ると判断される場合、第1認識モデルより高性能を有する第2認識モデルを通じて再度音響認識を遂行し、1次音響認識結果に対する再検証を遂行することになる。これは、平常時第1認識モデルを活用していて、必要に応じて第2認識モデルを活用して再検証のみを遂行するようにする構成で、計算量を効果的に減らしながらも認識結果の信頼度を向上させることができるという長所がある。
また、一定時間内に出力される音響認識結果に基づいて音響認識結果のうち少なくとも一部を補正する方法は、例えば、音響データに対応する音響認識結果に対する後処理補正を意味し得る。音響データが一定時間間隔で分割されて入力され得、本発明は各分割されたデータに対応する音響認識結果を出力することになる。この場合、一定時間内に出力された音響認識結果間の連関関係を把握して特定音響認識結果を他の音響認識結果に補正することができる。具体的な例として、音A(例えば、gunshot)という音響認識結果が出力された以後、n秒以内に音B(例えば、applause)という音響認識結果が出力される場合、音Aの認識結果を音C(例えば、爆竹音)に補正することができる。すなわち、一定時間内に出力(または認識)される音響認識結果間の連関関係を考慮して音響認識結果のうち少なくとも一つに対する補正を遂行することによって、認識正確度を向上させることができる。
また、本発明は周辺環境と雰囲気をリアルタイムで把握し、これを獲得される音響データとともに考慮して音響認識結果を導き出して音響データの認識正確度を向上させることができる。音響データが獲得される時点で該当周辺環境および雰囲気を感知する別途のニューラルネットワークモデル(例えば、ムード感知モデル)を活用して音響データの入力前と後の状況を認知することができ、これを音響分析過程で音響データとともに考慮することによって、出力される音響認識結果の信頼度を向上させることができる。具体的な例として、A音(例えば、爆竹音)の場合、一般的な音響認識モデルでgunshot(銃声)と認識され得る。短い爆発音の場合、高い正確度の音響認識結果を出力し難い。本発明は該当音が感知される前と後に感知される音響認識結果に基づいて音響データが獲得される状況に対応する雰囲気を把握し、これを音響データとともに考慮して音響認識結果を導き出すことができる。例えば、該当A音の認識以前と以後に、歌の声、拍手音、歓声が感知されたことを識別し、該当A音に関連した雰囲気が祝いの雰囲気(またはパーティー、明るいか、幸せな雰囲気)であると把握し、該当爆発音を「銃声」ではなく「爆竹音」と認識することになる。すなわち、認識しようとする音響データの前後時点で出力される音響認識結果に基づいて全般的な雰囲気を把握し、把握された雰囲気を考慮して音響データに対する認識を遂行することによって、音響認識結果の出力正確度を向上させることができる。音響データの認識正確度を向上させる方法に関連したより具体的な説明は、以下で詳しく後述することにする。
【0012】
図1は、本発明の一実施例に係る向上した信頼度を有する音響認識結果提供方法を遂行するためのシステムを概略的に示した図面である。
図1に図示された通り、本発明の一実施例に係る向上した信頼度を有する音響認識結果提供方法を遂行するためのシステムは、音響データの認識正確度を向上させるためのサーバー100、使用者端末200および外部サーバー300を含むことができる。ここで、
図1に図示された向上した信頼度を有する音響認識結果提供方法を遂行するためのシステムは一実施例に従ったものであり、その構成要素が
図1に図示された実施例に限定されるものではなく、必要に応じて付加、変更または削除され得る。
一実施例で、音響データの認識正確度を向上させるためのサーバー100は、音響データに基づいて特定イベントが発生したかどうかを判別することができる。具体的には、音響データの認識正確度を向上させるためのサーバー100は、実生活に関連した音響データを獲得し、獲得した音響データに対する分析を通じて特定イベントが発生したかどうかを判別することができる。一実施例で、特定イベントは、セキュリティ、安全または危険発生に関連したものであり、例えば、警報音、子供の泣き声、ガラスが割れる音、タイヤがパンクする音などの発生に関連したものであり得る。前述した特定イベントに関連した音響に対する具体的な記載は一例示に過ぎず、本発明はこれに制限されない。
実施例によると、音響データの認識正確度を向上させるためのサーバー100は、API(Application Programming Interface)により具現される任意のサーバーを含むことができる。例えば、使用者端末200は音響データを獲得してCloud APIを通じてサーバー100に伝達することができる。例えば、サーバー100は使用者端末200から音響データを獲得でき、音響データに対する分析を通じて非常警報音(例えば、サイレンの音)が発生したと判断することができる。実施例で、音響データの認識正確度を向上させるためのサーバー100は、音響認識モデル(例:人工知能モデル)を通じて音響データに対する分析を遂行できる。
一実施例で、音響認識モデル(例:人工知能モデル)は一つ以上のネットワーク関数で構成され、一つ以上のネットワーク関数は一般的に「ノード」と指称され得る互いに連結された計算単位の集合で構成され得る。このような「ノード」は「ニューロン(neuron)」と指称されてもよい。一つ以上のネットワーク関数は少なくとも一つ以上のノードを含んで構成される。一つ以上のネットワーク関数を構成するノード(またはニューロン)は一つ以上の「リンク」により互いに連結され得る。
【0013】
人工知能モデル内で、リンクを通じて連結された一つ以上のノードは相対的に入力ノードおよび出力ノードの関係を形成することができる。入力ノードおよび出力ノードの概念は相対的なものであって、一つのノードに対し出力ノードの関係にある任意のノードは他のノードとの関係で入力ノード関係にあり得、その逆も成立され得る。前述した通り、入力ノード対出力ノードの関係はリンクを中心に生成され得る。一つの入力ノードに一つ以上の出力ノードがリンクを通じて連結され得、その逆も成立され得る。
一つのリンクを通じて連結された入力ノードおよび出力ノードの関係で、出力ノードは入力ノードに入力されたデータに基づいてその値が決定され得る。ここで入力ノードと出力ノードを互いに連結するノードは加重値(weight)を有することができる。加重値は可変的であり得、人工知能モデルが所望する機能を遂行するために、使用者またはアルゴリズムによって可変され得る。例えば、一つの出力ノードに一つ以上の入力ノードがそれぞれのリンクによって互いに連結された場合、出力ノードは前記出力ノードと連結された入力ノードに入力された値およびそれぞれの入力ノードに対応するリンクに設定された加重値に基づいて出力ノード値を決定することができる。
前述した通り、人工知能モデルは一つ以上のノードが一つ以上のリンクを通じて互いに連結されて人工知能モデル内で入力ノードおよび出力ノードの関係を形成する。人工知能モデル内でノードとリンクの個数およびノードとリンクの間の連関関係、リンクそれぞれに付与された加重値の値により、人工知能モデルの特性が決定され得る。例えば、同じ個数のノードおよびリンクが存在し、リンク間の加重値が異なる二つの人工知能モデルが存在する場合、二つの人工知能モデルは互いに異なるものと認識され得る。
人工知能モデルを構成するノードのうち一部は、最初の入力ノードからの距離に基づいて、一つのレイヤ(layer)を構成することができる。例えば、最初の入力ノードからの距離がnであるノードの集合は、nレイヤを構成することができる。最初の入力ノードからの距離は、最初の入力ノードから該当ノードまで到達するために経なければならないリンクの最小個数によって定義され得る。しかし、このようなレイヤの定義は説明のための任意的なものであり、人工知能モデル内でレイヤの次数は前述と異なる方法で定義され得る。例えば、ノードのレイヤは最終の出力ノードからの距離によって定義されてもよい。
最初の入力ノードは人工知能モデル内のノードのうち他のノードとの関係でリンクを経ずにデータが直接入力される一つ以上のノードを意味し得る。または人工知能モデルネットワーク内で、リンクを基準としたノード間の関係において、リンクに連結された他の入力ノードを有さないノードを意味し得る。これと同様に、最終の出力ノードは人工知能モデル内のノードのうち他のノードとの関係で、出力ノードを有さない一つ以上のノードを意味し得る。また、隠れノードは最初の入力ノードおよび最終の出力ノードではない人工知能モデルを構成するノードを意味し得る。本発明の一実施例に係る人工知能モデルは入力レイヤのノードが出力レイヤに近い隠れレイヤのノードより多くてもよく、入力レイヤから隠れレイヤに進行されるにつれノードの数が減少する形態の人工知能モデルであり得る。
【0014】
人工知能モデルは一つ以上の隠れレイヤを含むことができる。隠れレイヤの隠れノードは以前のレイヤの出力と周辺隠れノードの出力を入力とすることができる。各隠れレイヤ別隠れノードの数は同じであってもよく異なってもよい。入力レイヤのノードの数は入力データのデータフィールドの数に基づいて決定され得、隠れノードの数と同じであってもよく異なってもよい。入力レイヤに入力された入力データは隠れレイヤの隠れノードによって演算され得、出力レイヤである完全連結レイヤ(FCL:fully connected layer)により出力され得る。
多様な実施例で、人工知能モデルは、複数の音響データと各音響データに対応する特徴情報を学習データにして教師あり学習(supervised learning)され得る。しかし、これに限定されず、多様な学習方法が適用され得る。
ここで、教師あり学習は通常的に特定データと特定データに関連した情報をラベリングして学習データを生成し、これを利用して学習させる方法であって、因果関係を有する二つのデータをラベリングして学習データを生成し、生成された学習データを通じて学習する方法を意味する。
一実施例で、音響データの認識正確度を向上させるためのサーバー100は、一つ以上のネットワーク関数の学習が事前に決定されたエポック以上遂行された場合、検証データを利用して学習の中断の可否を決定することができる。事前に決定されたエポックは全体学習目標エポックの一部であり得る。
検証データはラベリングされた学習データのうち少なくとも一部で構成され得る。すなわち音響データの認識正確度を向上させるためのサーバー100は、学習データを通じて人工知能モデルの学習を遂行し、人工知能モデルの学習が事前に決定されたエポック以上繰り返された後、検証データを利用して人工知能モデルの学習効果が事前に決定された水準以上であるかどうかを判断することができる。例えば、音響データの認識正確度を向上させるためのサーバー100は、100個の学習データを利用して目標反復学習回数が10回である学習を遂行する場合、事前に決定されたエポックである10回の反復学習を遂行した後、10個の検証データを利用して3回の反復学習を遂行し、3回の反復学習の間人工知能モデル出力の変化が事前に決定された水準以下である場合、さらに多くの学習が無意味なものと判断して学習を終了することができる。
すなわち、検証データは人工知能モデルの反復学習でエポック別学習の効果が一定以上であるか以下であるかに基づいて学習の完了を決定するのに利用され得る。前述した学習データ、検証データの数および反復回数は例示に過ぎず、本発明はこれに制限されない。
【0015】
音響データの認識正確度を向上させるためのサーバー100は、テストデータを利用して一つ以上のネットワーク関数の性能をテストして一つ以上のネットワーク関数の活性化の有無を決定することによって、人工知能モデルを生成することができる。テストデータは人工知能モデルの性能を検証するために使われ得、学習データのうち少なくとも一部で構成され得る。例えば、学習データのうち70%は人工知能モデルの学習(すなわち、ラベルと類似する結果値を出力するように加重値を調整するための学習)のために活用され得、30%は人工知能モデルの性能を検証するためのテストデータとして活用され得る。音響データの認識正確度を向上させるためのサーバー100は、学習が完了した人工知能モデルにテストデータを入力し誤差を測定して、事前に決定された性能以上であるかどうかにより人工知能モデルの活性化の有無を決定することができる。
音響データの認識正確度を向上させるためのサーバー100は、学習が完了した人工知能モデルにテストデータを利用して学習完了した人工知能モデルの性能を検証し、学習完了した人工知能モデルの性能が事前に決定された基準以上である場合、該当人工知能モデルを他のアプリケーションで使うように活性化され得る。
また、音響データの認識正確度を向上させるためのサーバー100は、学習完了した人工知能モデルの性能が事前に決定された基準以下である場合、該当人工知能モデルを非活性化して廃棄することができる。例えば、音響データの認識正確度を向上させるためのサーバー100は、正確度(accuracy)、精密度(precision)、再現率(recall)等の要素を基準として生成された人工知能モデルの性能を判断することができる。前述した性能評価基準は例示に過ぎず、本発明はこれに制限されない。音響データの認識正確度を向上させるためのサーバー100は、それぞれの人工知能モデルを独立的に学習させて複数の人工知能モデルを生成することができ、性能を評価して一定性能以上の人工知能モデルのみを使うことができる。しかし、これに限定されない。
本明細書に亘って、演算モデル、ニューラルネットワーク、ネットワーク関数、ニューラルネットワーク(neural network)は同じ意味で使われ得る(以下ではニューラルネットワークで統一して記述する。)。データ構造はニューラルネットワークを含むことができる。そしてニューラルネットワークを含んだデータ構造はコンピュータ読み取り可能媒体に保存され得る。ニューラルネットワークを含んだデータ構造はまた、ニューラルネットワークに入力されるデータ、ニューラルネットワークの加重値、ニューラルネットワークのハイパーパラメータ、ニューラルネットワークから獲得したデータ、ニューラルネットワークの各ノードまたはレイヤに関連した活性関数、ニューラルネットワークの学習のための損失関数を含むことができる。ニューラルネットワークを含んだデータ構造は前記開示された構成のうち任意の構成要素を含むことができる。すなわち、ニューラルネットワークを含んだデータ構造はニューラルネットワークに入力されるデータ、ニューラルネットワークの加重値、ニューラルネットワークのハイパーパラメータ、ニューラルネットワークから獲得したデータ、ニューラルネットワークの各ノードまたはレイヤに関連した活性関数、ニューラルネットワークのトレーニングのための損失関数など全部またはこれらの任意の組み合わせを含んで構成され得る。前述した構成の他にも、ニューラルネットワークを含んだデータ構造はニューラルネットワークの特性を決定する任意の他の情報を含むことができる。また、データ構造はニューラルネットワークの演算過程に使われたり発生するすべての形態のデータを含むことができ、前述した事項に制限されるものではない。コンピュータ読み取り可能媒体はコンピュータ読み取り可能記録媒体および/またはコンピュータ読み取り可能伝送媒体を含むことができる。ニューラルネットワークは一般的にノードと指称され得る互いに連結された計算単位の集合で構成され得る。このようなノードはニューロン(neuron)と指称されてもよい。ニューラルネットワークは少なくとも一つ以上のノードを含んで構成される。
【0016】
本発明の一実施例によると、音響データの認識正確度を向上させるためのサーバー100は、クラウドコンピューティングサービスを提供するサーバーであり得る。より具体的には、音響データの認識正確度を向上させるためのサーバー100は、インターネット基盤コンピューティングの一種であって、情報を使用者のコンピュータではなくインターネットに連結された他のコンピュータで処理するクラウドコンピューティングサービスを提供するサーバーであり得る。前記クラウドコンピューティングサービスはインターネット上に資料を保存しておき、使用者が必要な資料やプログラムを自身のコンピュータに設置せずともインターネット接続を通じていつどこででも利用できるサービスであり得、インターネット上に保存された資料を簡単な操作およびクリックで容易に共有して伝達することができる。また、クラウドコンピューティングサービスはインターネット上のサーバーに単純に資料を保存することだけでなく、別途にプログラムを設置せずともウェブで提供するアプリケーションの機能を利用して所望する作業を遂行でき、多くの人が同時に文書を共有して作業を進行できるサービスであり得る。また、クラウドコンピューティングサービスはIaaS(Infrastructure as a Service)、PaaS(Platform as a Service)、SaaS(Software as a Service)、仮想マシン基盤クラウドサーバーおよびコンテナ基盤クラウドサーバーのうち少なくとも一つの形態で具現され得る。すなわち、本発明の音響データの認識正確度を向上させるためのサーバー100は、前述したクラウドコンピューティングサービスのうち少なくとも一つの形態で具現され得る。前述したクラウドコンピューティングサービスの具体的な記載は例示に過ぎず、本発明はクラウドコンピューティング環境を構築する任意のプラットフォームを含んでもよい。
多様な実施例で、音響データの認識正確度を向上させるためのサーバー100は、ネットワークを通じて使用者端末200と連結され得、音響データを分析する音響認識モデルを生成して提供することができ、それだけでなく、音響認識モデルを通じて音響データを分析した情報(例えば、音響認識結果情報)を使用者端末に提供することができる。
ここで、ネットワークは複数の端末およびサーバーのようなそれぞれのノード相互間で情報交換が可能な連結構造を意味し得る。例えば、ネットワークは近距離通信網(LAN:Local Area Network)、広域通信網(WAN:Wide Area Network)、インターネット(WWW:World Wide Web)、有線/無線データ通信網、電話網、有線/無線テレビ通信網などを含む。
また、ここで、無線データ通信網は3G、4G、5G、3GPP(3rd Generation Partnership Project)、5GPP(5th Generation Partnership Project)、LTE(Long Term Evolution)、WIMAX(World Interoperability for Microwave Access)、ワイファイ(Wi-Fi)、インターネット(Internet)、LAN(Local Area Network)、Wireless LAN(Wireless Local Area Network)、WAN(Wide Area Network)、PAN(Personal Area Network)、RF(Radio Frequency)、ブルートゥース(Bluetooth)ネットワーク、NFC(Near-Field Communication)ネットワーク、衛星放送ネットワーク、アナログ放送ネットワーク、DMB(Digital Multimedia Broadcasting)ネットワークなどが含まれるがこれに限定されはしない。
【0017】
一実施例で、使用者端末200はネットワークを通じて音響データの認識正確度を向上させるためのサーバー100と連結され得、音響データの認識正確度を向上させるためのサーバー100に音響データを提供でき、提供された音響データに対する応答として各種イベント発生に関する音響認識結果情報(例えば、銃声、警報音、子供の泣き声、ガラスが割れる音、タイヤがパンクする音などの発生)の提供を受けることができる。
ここで、使用者端末200は携帯性と移動性が保障される無線通信装置であり、ナビゲーション、PCS(Personal Communication System)、GSM(Global System for Mobile communications)、PDC(Personal Digital Cellular)、PHS(Personal Handyphone System)、PDA(Personal Digital Assistant)、IMT(International Mobile Telecommunication)-2000、CDMA(Code Division Multiple Access)-2000、W-CDMA(W-Code Division Multiple Access)、Wibro(Wireless Broadband Internet)端末、スマートフォン(Smartphone)、スマートパッド(Smartpad)、タブレットPC(Tablet PC)などのようなすべての種類のハンドヘルド(Handheld)基盤の無線通信装置を含むことができるが、これに限定されない。例えば、使用者端末200は、特定領域に関連した感知を遂行するために特定領域に備えられ得る。例えば、使用者端末200は車両に備えられて車両が駐車中または走行中に発生する音響データを獲得することができる。他の例として、使用者端末200は子供たちが位置した領域(例えば、遊び場、または施設内空間)に対応して急迫した状況感知のために備えられてもよい。前述した使用者端末が備えられる具体的な位置または場所に関する説明は例示に過ぎず、本発明はこれに制限されない。
一実施例で、外部サーバー300はネットワークを通じて音響データの認識正確度を向上させるためのサーバー100と連結され得、音響データの認識正確度を向上させるためのサーバー100が人工知能モデルを活用して音響データを分析するために必要な各種情報/データを提供したり、人工知能モデルを活用した音響データ分析を遂行するにつれ導き出される結果データの提供を受けて保存および管理することができる。例えば、外部サーバー300は音響データの認識正確度を向上させるためのサーバー100の外部に別途に備えられる保存サーバーであり得るが、これに限定されない。以下、
図2を参照して音響データの認識正確度を向上させるためのサーバー100のハードウェア構成について説明することにする。
図2は、本発明の一実施例に関連した音響データの認識正確度を向上させるためのサーバーのハードウェア構成図である。
図2を参照すると、本発明の一実施例に係る音響データの認識正確度を向上させるためのサーバー100(以下、「サーバー100」)は一つ以上のプロセッサ110、プロセッサ110によって実行されるコンピュータプログラム151をロード(Load)するメモリ120、バス130、通信インターフェース140およびコンピュータプログラム151を保存するストレージ150を含むことができる。ここで、
図2には本発明の実施例と関連する構成要素のみ図示されている。したがって、本発明が属した技術分野の通常の技術者であれば
図2に図示された構成要素の他に他の汎用的な構成要素がさらに含まれ得ることが分かる。
【0018】
プロセッサ110はサーバー100の各構成の全般的な動作を制御する。プロセッサ110はCPU(Central Processing Unit)、MPU(Micro Processor Unit)、MCU(Micro Controller Unit)、GPU(Graphic Processing Unit)または本発明の技術分野に広く知られている任意の形態のプロセッサを含んで構成され得る。
プロセッサ110はメモリ120に保存されたコンピュータプログラムを読み出して本発明の一実施例に係る人工知能モデルのためのデータ処理を遂行できる。本発明の一実施例によりプロセッサ110はニューラルネットワークの学習のための演算を遂行できる。プロセッサ110はディープラーニング(DL:deep learning)で学習のための入力データの処理、入力データでのフィーチャの抽出、誤差計算、逆伝播(backpropagation)を利用したニューラルネットワークの加重値アップデートなどのニューラルネットワークの学習のための計算を遂行できる。
また、プロセッサ110はCPU、GPGPU、およびTPUのうち少なくとも一つがネットワーク関数の学習を処理することができる。例えば、CPUとGPGPUが共にネットワーク関数の学習、ネットワーク関数を利用したデータ分類を処理することができる。また、本発明の一実施例で複数のコンピューティング装置のプロセッサを共に使ってネットワーク関数の学習、ネットワーク関数を利用したデータ分類を処理することができる。また、本発明の一実施例に係るコンピューティング装置で遂行されるコンピュータプログラムはCPU、GPGPUまたはTPU実行可能プログラムであり得る。
本明細書でネットワーク関数は人工ニューラルネットワーク、ニューラルネットワークと相互に交換可能に使われ得る。本明細書でネットワーク関数は一つ以上のニューラルネットワークを含んでもよく、この場合ネットワーク関数の出力は一つ以上のニューラルネットワークの出力のアンサンブル(ensemble)であり得る。
プロセッサ110はメモリ120に保存されたコンピュータプログラムを読み出して本発明の一実施例に係る音響認識モデルを提供することができる。本発明の一実施例により、プロセッサ110は音響認識モデルを学習させるための計算を遂行できる。
本発明の一実施例によると、プロセッサ110は通常的にサーバー100の全般的な動作を処理することができる。プロセッサ110は前記にて詳察した構成要素を通じて入力または出力される信号、データ、情報などを処理したりメモリ120に保存されたアプリケーションを駆動することによって、使用者または使用者端末に適正な情報または機能を提供したり処理することができる。
また、プロセッサ110は本発明の実施例に係る方法を実行するための少なくとも一つのアプリケーションまたはプログラムに対する演算を遂行でき、サーバー100は一つ以上のプロセッサを具備することができる。
多様な実施例で、プロセッサ110はプロセッサ110内部で処理される信号(またはデータ)を一時的および/または永久的に保存するラム(RAM:Random Access Memory、図示されず)およびロム(ROM:Read-Only Memory、図示されず)をさらに含むことができる。また、プロセッサ110はグラフィック処理部、ラムおよびロムのうち少なくとも一つを含むシステムオンチップ(SoC:system on chip)形態で具現され得る。
メモリ120は各種データ、命令および/または情報を保存する。メモリ120は本発明の多様な実施例に係る方法/動作を実行するためにストレージ150からコンピュータプログラム151をロードすることができる。メモリ120にコンピュータプログラム151がロードされると、プロセッサ110はコンピュータプログラム151を構成する一つ以上のインストラクションを実行することによって前記方法/動作を遂行できる。メモリ120はRAMのような揮発性メモリで具現され得るであろうが、本発明の技術的範囲はこれに限定されるものではない。
【0019】
バス130はサーバー100の構成要素間の通信機能を提供する。バス130はアドレスバス(address Bus)、データバス(Data Bus)および制御バス(Control Bus)等多様な形態のバスで具現され得る。
通信インターフェース140はサーバー100の有線/無線インターネット通信を支援する。また、通信インターフェース140はインターネット通信以外の多様な通信方式を支援してもよい。このために、通信インターフェース140は本発明の技術分野に広く知られている通信モジュールを含んで構成され得る。いくつかの実施例で、通信インターフェース140は省略されてもよい。
ストレージ150はコンピュータプログラム151を非臨時的に保存することができる。サーバー100を通じて音響データの認識正確度を向上させるためのプロセスを遂行する場合、ストレージ150は音響データの認識正確度を向上させるためのプロセスを提供するために必要な各種情報を保存することができる。
ストレージ150はROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、フラッシュメモリなどのような不揮発性メモリ、ハードディスク、着脱型ディスク、または本発明が属する技術分野で広く知られている任意の形態のコンピュータで読み取り可能記録媒体を含んで構成され得る。
コンピュータプログラム151はメモリ120にロードされる時、プロセッサ110に本発明の多様な実施例に係る方法/動作を遂行させる一つ以上のインストラクションを含むことができる。すなわち、プロセッサ110は前記一つ以上のインストラクションを実行することによって、本発明の多様な実施例に係る前記方法/動作を遂行できる。
一実施例で、コンピュータプログラム151は音響データを獲得する段階、音響データを分割して複数個の音響サブデータを生成する段階および複数個の音響サブデータを音響認識モデルの入力として処理して各音響サブデータに対応する音響認識結果情報を生成する段階を含む向上した信頼度を有する音響認識結果提供方法を遂行するようにする一つ以上のインストラクションを含むことができる。
本発明の実施例に関連して説明された方法またはアルゴリズムの段階はハードウェアで直接具現されたり、ハードウェアによって実行されるソフトウェアモジュールで具現されたり、またはこれらの結合によって具現され得る。ソフトウェアモジュールはRAM(Random Access Memory)、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、フラッシュメモリ(Flash Memory)、ハードディスク、着脱型ディスク、CD-ROM、または本発明が属する技術分野で広く知られている任意の形態のコンピュータ読み取り可能記録媒体に常駐してもよい。
【0020】
本発明の構成要素はハードウェアであるコンピュータと結合されて実行されるためにプログラム(またはアプリケーション)で具現されて媒体に保存され得る。本発明の構成要素はソフトウェアプログラミングまたはソフトウェア要素で実行され得、これと同様に、実施例はデータ構造、プロセス、ルーチンまたは他のプログラミング構成の組み合わせで具現される多様なアルゴリズムを含み、C、C++、ジャバ(Java)、アセンブラ(assembler)などのようなプログラミングまたはスクリプト言語で具現され得る。機能的な側面は一つ以上のプロセッサで実行されるアルゴリズムで具現され得る。以下、
図3~
図12を参照して、サーバー100により遂行される向上した信頼度を有する音響認識結果提供方法について説明することにする。
図3は、本発明の一実施例に関連した向上した信頼度を有する音響認識結果提供方法を例示的に示したフローチャートである。
図3に図示された段階は必要によって順序が変更され得、少なくとも一つ以上の段階が省略または追加され得る。すなわち、以下の段階は本発明の一実施例に過ぎず、本発明の権利範囲はこれに制限されない。
本発明の一実施例によると、向上した信頼度を有する音響認識結果提供方法は音響データを獲得する段階(S100)を含むことができる。サーバー100は音響データ10を獲得することができる。音響データ10は実生活で獲得される音響に関連した情報を含むことができる。本発明の一実施例に係る音響データの獲得は、メモリ120に保存された音響データ10を受信したりまたはローディング(loading)するものであり得る。また、音響データの獲得は、有線/無線通信手段に基づいて他の保存媒体、他のコンピューティング装置、同一のコンピューティング装置内の別途処理モジュールからデータを受信またはローディングするものであり得る。
一実施例によると、音響データ10は使用者に関連した使用者端末200を通じて獲得され得る。例えば、使用者に関連した使用者端末200は、スマートフォン(Smartphone)、スマートパッド(Smartpad)、タブレットPC(Tablet PC)などのようなすべての種類のハンドヘルド(Handheld)基盤の無線通信装置または特定空間(例えば、使用者の住居空間)上に備えられた電子装置(例えば、マイクを通じて音響データを受信できる装置)等を含むことができる。
本発明の一実施例によると、向上した信頼度を有する音響認識結果提供方法は、音響データを分割して複数個の音響サブデータを生成する段階(S200)を含むことができる。実施例で、複数個の音響サブデータを生成する段階は、音響データを予め設定された大きさ単位で分割して複数個の音響サブデータを生成する段階を含むことができる。
サーバー100は音響データ10を一定時間単位で分割して複数個の音響サブデータを生成することができる。複数の音響サブデータは、時系列情報である音響データを特定時間単位に基づいて複数のフレームに分割したものであり得る。具体的には、サーバー100は音響データを予め定められた第1時間単位の大きさを有するように分割して複数個の音響サブデータを構成することができる。音響(または音)の場合、持続的に発生する時系列データであるので一定の時間区間で分割して各区間別認識が遂行されなければならない。
例えば、第1音響データが1分という時間に対応して獲得された音響データである場合、サーバー100は、第1時間単位を1秒に設定して第1音響データを分割して60個の音響サブデータ(または音響サブフレーム)を構成することができる。前述した第1時間単位および一つ以上の音響サブデータに関連した具体的な数値的記載は例示に過ぎず、本発明はこれに制限されない。実施例で、音響データを複数個の音響サブデータに分割する過程で、小さい時間単位で分割するほどニューラルネットワーク(すなわち、音響認識モデル)の計算量が減って性能が向上するという長所がある。入力に該当する音響サブデータの長さが短くなることにより計算量が顕著に減る場合、音響認識モデルは短い区間認識モデルとして活用が可能となるため、Edge SDKとして活用され得る。すなわち、音響データを複数個の短い区間で分割することにより、音響認識モデルがサーバー自体で実行可能な一つのアプリケーションを通じて駆動され得る。
実施例で、特定音響の場合、短い区間認識を遂行する音響認識モデルを通じて向上した信頼度を有する音響認識結果情報の導出が難しい場合もある。例えば、持続性(duration)が短い音の場合、特定区間のみを参照しては該当音響を正確に認識し難いという恐れがある。
より具体的な例として、
図4A を参照すると、短い持続性を有する銃声に関連した第1音響データ10aの場合、1秒単位で分割されて第1音響サブデータ11a~第8音響サブデータ18aに区分され得る。この場合、第3音響サブデータ13aで発生する銃声は、該当第3音響サブデータ13aに対応する区間内に全て含まれるので、一つの区間(すなわち、第3音響サブデータ13a)を考慮しても正確な認識が可能となり得る。
【0021】
一方、
図4B を参照すると、短い持続性を有する銃声に関連した第2音響データ10bも、同一に1秒単位で分割されて第1音響サブデータ11b~第8音響サブデータ18bに区分され得る。この場合、銃声は、
図4B に図示された通り、第2音響サブデータ12bと第3音響サブデータ13bにまたがって存在し得る。音響データは時系列的に獲得されるデータであり、一定の大きさを通じて分割されるものであるため、前述した通り、銃声の爆発音とエコが互いに異なる区間に存在し得る。この場合、音響認識モデルを通じて第2音響サブデータ12bおよび第3音響サブデータ13bそれぞれを認識する場合、完全な銃声をすべて含むものではないため正確な認識が不可能な場合もあり、これに伴い、出力の正確度(すなわち、認識正確度)が低下し得る。
すなわち、持続性の短い音響が互いに異なる区間に分割されることによって、音響認識の正確度が低下し得る。これを克服するために音響を分割する時間単位を大きく(例えば、2秒)することもできるが、このような場合には音響認識モデルの計算量が増えることになって安価のデバイスに活用が不可能であり、効率的でないという問題点がある。
これに伴い、本発明のサーバー100は別途のニューラルネットワークモデルを追加的に構成して認識正確度が欠如する状況で再度音響認識を遂行できる。すなわち、複数個のニューラルネットワークモデルを活用して複数回追加的な音響認識結果を導き出して再検証を遂行することによって、最終に導き出される音響認識結果の信頼性の向上を図ることができる。特に、単純に複数のニューラルネットワークモデルを複数回活用するものではない、認識正確度が多少欠如すると予測された特定状況に対応して追加的な検証を遂行することによって、計算量を効果的に減らしながらも認識結果の信頼度を向上させることができる。複数のニューラルネットワークモデルを活用して再検証を遂行することによって、認識正確度を向上させる構成に対する説明は
図5を参照して以下で詳しく後述することにする。
図5は、本発明の一実施例に関連した複数の人工知能モデルを活用した再検証を通じて音響認識結果情報を生成する過程を例示的に示したフローチャートである。
図5に図示された段階は必要によって順序が変更され得、少なくとも一つ以上の段階が省略または追加され得る。すなわち、以下の段階は本発明の一実施例に過ぎず、本発明の権利範囲はこれに制限されない。
一実施例によると、音響認識結果情報を生成する段階は、第1認識モデル210が各音響サブデータに対応して出力した音響認識結果情報に基づいて音響サブデータの再検証が必要な再検証音響サブデータを選別する段階(S311)を含むことができる。
実施例によると、本発明の音響認識モデルは複数個の音響サブデータそれぞれを入力として各音響サブデータに対応する複数個の出力を提供する第1認識モデル210を含むことができる。
一実施例によると、サーバー100はオートエンコーダを教師なし学習(Unsupervised Learning)方式を通じて学習させることができる。具体的には、サーバー100は入力データと類似する出力データを出力するようにオートエンコーダを構成する次元減少ネットワーク関数(例えば、エンコーダ)および次元復元ネットワーク関数(例えば、デコーダ)を学習させることができる。詳しく説明すると、次元減少ネットワーク関数を通じてエンコーディング過程で入力された音響データの核心特徴データ(またはフィーチャ(feature))のみを隠れレイヤを通じて学習し残りの情報を損失させることができる。この場合、次元復元ネットワーク関数を通じてのデコーディング過程で隠れレイヤの出力データは完ぺきなコピー値ではなく入力データ(すなわち、音響データ)の近似値であり得る。すなわち、サーバー100は出力データと入力データができるだけ同じとなるように加重値を調整することによって、オートエンコーダを学習させることができる。
【0022】
オートエンコーダは入力データと類似する出力データを出力するためのニューラルネットワークの一種であり得る。オートエンコーダは少なくとも一つの隠れレイヤを含むことができ、奇数個の隠れレイヤが入出力レイヤ間に配置され得る。それぞれのレイヤのノードの数は入力レイヤのノードの数からボトルネックレイヤ(エンコーディング)という中間レイヤに縮小されてから、ボトルネックレイヤから出力レイヤ(入力レイヤと対称)に縮小と対称となって拡張されてもよい。入力レイヤおよび出力レイヤの数は入力データの前処理以後に残った入力データの項目の数と対応し得る。オートエンコーダ構造でエンコーダに含まれた隠れレイヤのノードの数は入力レイヤから遠ざかるほど減少する構造を有することができる。ボトルネックレイヤ(エンコーダとデコーダの間に位置する最も少ないノードを有するレイヤ)のノードの数は、過度に小さい場合、十分な量の情報が伝達されないこともあるので、特定数以上(例えば、入力レイヤの半分以上など)に維持されてもよい。
サーバー100は客体情報がそれぞれタギングされた複数の学習データを含む学習データセットを学習された次元減少ネットワークの入力として出力された客体別特徴データをタギングされた客体情報とマッチングして保存することができる。具体的には、サーバー100は次元減少ネットワーク関数を利用して第1音響識別情報(例えば、ガラスが割れる音)がタギングされた第1学習データサブセットを次元減少ネットワーク関数の入力として、第1学習データサブセットに含まれた学習データに対する第1客体の特徴(feature)データを獲得することができる。獲得された特徴データはベクトルで表現され得る。この場合、第1学習データサブセットに含まれた複数の学習データそれぞれに対応して出力された特徴データは第1音響に関連した学習データを通じての出力であるのでベクトル空間上で比較的近い距離に位置することができる。サーバー100はベクトルで表現された第1音響に関連した特徴データに第1音響識別情報(すなわち、ガラスが割れる音)をマッチングして保存することができる。
学習されたオートエンコーダの次元減少ネットワーク関数の場合、次元復元ネットワーク関数が入力データをよく復元できるようにする特徴をよく抽出するように学習され得る。
また、例えば、第2音響識別情報(例えば、サイレンの音)がタギングされた第1学習データサブセットそれぞれに含まれた複数の学習データは次元減少ネットワーク関数を通じて特徴データ(すなわち、フィーチャ)に変換されてベクトル空間上に表示され得る。この場合、該当特徴データは第2音響識別情報(すなわち、サイレンの音)に関連した学習データを通じての出力であるので、ベクトル空間上で比較的近い距離に位置することができる。この場合、第2音響識別情報に対応する特徴データは第1音響識別情報(例えば、ガラスが割れる音)に対応する特徴データと異なるベクトル空間上に表示され得る。
実施例で、サーバー100は学習されたオートエンコーダで次元減少ネットワーク関数を含んで音響認識モデルを構成することができる。すなわち、前記のような学習過程を通じて生成された次元減少ネットワーク関数を含んで構成された音響認識モデルは音響サブデータを入力とする場合、該当音響サブデータを次元減少ネットワーク関数を活用した演算を通じて音響サブデータに対応する特徴情報(すなわち、フィーチャ)を抽出することができる。
この場合、音響認識モデルは音響サブデータに対応するフィーチャが表示された領域と客体別特徴データのベクトル空間上の距離比較を通じて音響スタイルの類似性を評価することができ、該当類似性評価に基づいて音響サブデータに対応する音響認識結果情報を出力することができる。一実施例で、音響認識結果情報は、複数の認識項目および複数の認識項目それぞれに対応する確率値を含むことができる。
【0023】
具体的には、音響認識モデル(または第1認識モデル)は音響サブデータを次元減少ネットワーク関数を利用して演算することによって、特徴情報(すなわち、フィーチャ)を出力することができる。この場合、音響認識モデルは、音響サブデータに対応して出力された特徴情報と学習を通じてベクトル空間上に事前記録された音響識別情報別特徴データ間の位置に基づいて音響サブデータに対応する複数の認識項目および各認識項目に対応する確率値を出力することができる。
複数の認識項目は、音響がいかなる項目に関連したものであるかを識別するためのもので、例えば、銃声、爆竹音、悲鳴、タイヤがパンクする音、サイレンの音、子犬が吠える声、雨が降る音などを含むことができるが、これに制限されない。このような複数の認識項目は、音響サブデータに対応して出力された特徴情報とベクトル空間上の位置が近い音響識別情報に基づいて生成され得る。例えば、音響認識モデルは第1音響サブデータに対応して出力された第1特徴情報と近接した位置にある特徴情報にマッチングされた音響識別情報を通じて複数の認識項目を構成することができる。前述した複数の認識項目に関連した具体的な記載は例示に過ぎず、本発明はこれに制限されない。
各認識項目に対応する確率値は、認識項目それぞれに対応して予測した正確度に関する情報であり得る。例えば、音響認識モデルは第1音響サブデータに対応して出力された第1特徴情報と近接した位置にある特徴情報にマッチングされた音響識別情報を通じて複数の認識項目情報を構成することができる。この場合、第1特徴情報が各音響識別情報に対応する特徴情報と位置が近いほど高い確率値が算出され得、第1特徴情報と各音響識別情報に対応する特徴情報の位置が遠いほど低い確率値が算出され得る。
具体的な例として、
図6に図示された通り、音響認識モデル(または第1認識モデル)は第1音響サブデータに対応して「サイレンの音」、「悲鳴」、「ガラスが割れる音」および「その他の音」に関連するという複数の認識項目310を出力することができる。また、音響認識モデルは各認識項目310に対応して「1」、「95」、「3」および「2」という確率値320を出力することができる。すなわち、音響認識モデルは第1音響サブデータに対応してサイレンの音に関連する確率が「1」であり、悲鳴に関連する確率が「95」であり、ガラスが割れる音に関連する確率が「3」であり、そしてその他の音に関連する確率が「2」という確率値320を出力することができる。前述した認識項目および確率値それぞれに対する具体的な数値に対する記載は例示に過ぎず、本発明はこれに制限されない。
すなわち、サーバー100は音響認識モデルを通じて音響データに基づいて生成された複数の音響サブデータそれぞれに対応する認識項目および各認識項目に対応する確率値を出力することができる。例えば、音響認識モデルは第1音響サブデータに対応して第1認識項目および第1認識項目それぞれに対応する確率値を出力することができ、第2音響サブデータに対応して第2認識項目および第2認識項目それぞれに対応する確率値を出力することができる。
一実施例によると、第1認識モデル210は各認識項目別確率値を算出し、算出された確率値のうち最大値に該当する確率値に対応する認識項目に基づいて音響認識結果情報を生成することを特徴とすることができる。例えば、
図6を参照すると、最大確率値95%に対応する認識項目を通じて、音響サブデータの認識結果がscreamであるという音響認識結果情報が生成されることになる。
また、実施例で、第1認識モデル210は各認識項目別確率値を算出し、算出された確率値が各認識項目に事前に設定された臨界確率値を超過するかどうかにより音響認識結果情報を生成することを特徴としてもよい。
多様な実施例によると、本発明の音響認識モデルは複数個で備えられ得る。音響認識モデルは第1認識モデル210および第2認識モデル220を含むことができる。この場合、第2認識モデル220は、入力に活用される音響サブデータの区間の長さが第1認識モデル210と異なるモデルであり得る。第2認識モデル220は第1認識モデル210より高い性能を有するニューラルネットワークモデルであり得る。例えば、第1認識モデル210は1秒の区間の音響サブデータに基づいて音響認識結果を導き出すように学習されたニューラルネットワークモデルであり、第2認識モデル220は2秒の区間の音響サブデータに基づいて音響認識結果を導き出すニューラルネットワークモデルであり得る。すなわち、第1認識モデル210および第2認識モデル220は互いに異なる性能を有するニューラルネットワークモデルであり、再検証にはより性能が良い第2認識モデル220が活用されることになる。実施例で、第1認識モデル210は比較的短い区間の音響サブデータを認識して結果を出力するニューラルネットワークモデルであり得、第2認識モデル220は比較的長い区間の音響サブデータを認識して結果を出力するニューラルネットワークモデルであり得る。
【0024】
第1認識モデル210の場合、短い区間の音響を分析するので、計算量が少なく、これに伴うコンピューティングパワーの消耗が少ないという長所がある。反面、第2認識モデル220の場合、比較的長い区間の音響を分析するので、計算量がより増加して安価のデバイスで応用プログラムとして設置されて活用され難いという短所があるが、認識する区間が長いので、出力の正確度が高いという長所がある。
多様な実施例で、サーバー100は第1認識モデル210に対応する出力結果、すなわち音響認識結果情報に基づいて他のニューラルネットワークモデル(例えば、第2認識モデル)を活用して再検証を遂行するかどうかを決定することができる。これは、平常時には、軽い第1認識モデル210を活用するが、出力正確度が欠如する場合にのみ追加的なニューラルネットワークモデルが活用されるようにすることによって、計算量および活用されるコンピューティングパワーを低減させるためである。
サーバー100は第1認識モデル210が各音響サブデータに対応して出力した音響認識結果情報に基づいて音響サブデータの再検証が必要な再検証音響サブデータを選別することができる。サーバー100は音響認識結果情報が事前に分類された項目(例えば、再検証が必要な項目)に関連されたりまたは音響認識結果情報の正確度が曖昧であると判断した場合に対応して再検証を遂行でき、再検証を遂行対象となる音響サブデータを選別することができる。
具体的な実施例で、サーバー100は第1認識モデル210を通じて算出された各認識項目間の類似度点数を算出し、算出された類似度点数に基づいて再検証音響サブデータを選別することができる。
例えば、第1認識モデルは、特定音響サブデータに対応して「銃声」、「風船が破裂する音」および「花火打ち上げの音」という認識項目を出力することができ、各認識項目の確率値を85%、90%および94%に算出することができる。この場合、最も高い確率値を有する花火打ち上げに基づいて音響認識結果情報が生成され得る。一方、サーバー100は第1認識モデル210が出力した認識項目間の類似度点数を算出することができる。実施例で、認識項目間の類似度点数は、各項目に対応する音響間の類似度評価に基づいて遂行され得る。一例として、認識項目それぞれに対応する代表音響サブデータを次元減少ネットワーク関数に入力することによって、各認識項目に対応するエンベディングを獲得でき、エンベディング類似度を通じて認識項目間の類似度が評価され得る。また、例えば、エンベディングされた単語ベクトル間のコサイン角度を計算して類似度を測定するコサイン類似度を活用して各認識項目間の類似度を評価してもよい。他の例として、セマンティックテキスト類似度を判断するためにSiamese networkとtransformer基盤のモデルが活用され得る。前述したキーワード間の類似度評価方法に対する具体的な記載は例示に過ぎず、本発明はこれに制限されない。追加的な実施例で、ジャカード類似度、ユークリッド距離およびワードネットを活用してキーワードまたは単語間の類似度を測定してもよい。
第1認識モデル210が出力した認識項目間の類似度評価に基づいて類似度点数が導き出されることになる。認識項目間の類似度が高いほど高い類似度点数が算出され、認識項目間の類似度が低いほど低い類似度点数が算出される。実施例によると、認識項目間の類似度が高いほど第1認識モデル210の出力正確度が低くなり得る。
例えば、第1認識モデル210がA音響サブデータに対応して出力した認識項目が「悲鳴」、「衝突音」および「雨が降る音」である場合、該当項目間の音響類似度が少ないので、類似性点数が低く算出される。すなわち、結果予測に候補となる認識項目が異なるほど各項目に対する特徴が明確に異なるので、第1認識モデルの出力の信頼度が担保される。反面、第1認識モデル210がB音響サブデータに対応して出力した認識項目が「銃声」、「風船が破裂する音」および「花火打ち上げの音」である場合、該当項目間の音響類似度が高いので、類似性点数が高く算出され得る。すなわち、結果予測に候補となる認識項目が非常に類似しているので、各項目の特徴を区分するための難易度が高いので、第1認識モデルの出力に対する信頼度が多少低くなり得る。
換言すると、音響的な特徴要素が全く類似していない認識項目(例えば、悲鳴、割れる音および雨が降る音)が出力される場合には最終に出力される認識結果が正確である可能性が高くなり得るが(各認識項目の音響的特徴が全く異なるのでニューラルネットワークが正しい出力を提供する確率が高い)、高い類似度を有する認識項目(例えば、銃声、爆竹音および花火打ち上げの音)が出力される場合には最終に出力される認識結果が多少不正確である可能性が高い。
【0025】
すなわち、サーバー100は第1認識モデル210が出力した認識項目の類似度点数を算出することによって、音響認識結果情報が信頼できるようなものであるかどうかを判別することができる。認識項目間の類似度点数が低い場合(すなわち、一定基準値以下である場合)には音響認識結果情報が信頼できるようなものと判別して、音響サブデータに対する別途の再検証を遂行せず、認識項目間の類似度点数が高い場合(すなわち、一定基準値を超過する場合)には音響認識結果情報の信頼度が低いと判別して、音響サブデータを再検証が必要な再検証音響サブデータとして選別することができる。
実施例で、音響サブデータに対する再検証は、第2認識モデル220を活用して音響認識結果情報を再度導き出すことを意味し得る。
また、サーバー100は第1認識モデル210を通じて算出された各認識項目別確率値のうち予め設定された臨界基準値を超過する認識項目が複数個である場合、音響認識結果情報算出に基盤となる音響サブデータを再検証が必要な再検証音響サブデータとして選別することができる。
例えば、第1認識モデルは、特定音響サブデータに対応して「銃声」、「風船が破裂する音」および「花火打ち上げの音」という認識項目を出力することができ、各認識項目の確率値を85%、90%および94%に算出することができる。この場合、最も高い確率値を有する花火打ち上げに基づいて音響認識結果情報が生成されることになる。ただし、他の認識項目のすべて、各認識項目に対応して事前に設定された臨界基準値(例えば、82%、85%および88%)を超過することができる。これは、第1認識モデル210が他の認識項目も確率が高いと判断したものであるので、音響認識結果情報の信頼度が多少低下することを意味し得る。例えば、認識項目a、b、cそれぞれの確率値が97%、6%および3%である場合には、認識項目aのみが確率値が事前に設定された臨界基準値(例えば、80%)を超過するので、音響認識結果情報に対する信頼度が高い可能性がある。
換言すると、確率値が各認識項目に対応する臨界基準値を超過する認識項目の数が少ないほど最終に出力される認識結果が正確である可能性が高くなり得るが(例えば、確率値が臨界基準値を超過する認識項目が一つである場合、認識結果の信頼度が最も高い可能性がある)、確率値が各認識項目に対応する臨界基準値を超過する認識項目の数が多いほど最終に出力される認識結果が多少不正確である可能性が高い。
すなわち、サーバー100は第1認識モデル210を通じて算出された各認識項目別確率値のうち予め設定された臨界基準値を超過する認識項目が複数個であるかを識別して音響認識結果情報が信頼できるようなものであるかどうかを判別することができる。確率値が臨界基準値を超過する認識項目が一つの場合には音響認識結果情報が信頼できるようなものと判別して音響サブデータに対する別途の再検証を遂行せず、確率値が臨界基準値を超過する認識項目が複数(すなわち、二つ以上)個である場合には音響認識結果情報が低いと判別して音響サブデータを再検証が必要な再検証音響サブデータとして選別することができる。
また、実施例で、再検証音響サブデータを選別する段階は、第1認識モデル210の出力に関連した音響認識結果情報が予め設定された再検証項目内に含まれるかどうかを識別する段階および音響認識結果情報が再検証項目内に含まれる場合、音響認識結果情報算出に基盤となる音響サブデータを再検証が必要な再検証音響サブデータとして選別する段階を含むことができる。
予め設定された再検証項目は、出力の正確度が多少低下すると予想されて事前に予め定義した項目の組み合わせであり得る。例えば、爆発音の場合、銃声なのか、風船が破裂する音であるか、爆竹が爆発する音であるか、花火打ち上げの音であるかのうち音響的特徴が類似しており区分が難しいので、該当音のうち一つで音響認識結果情報が生成された場合、十分な信頼性を担保し難い。
したがって、本発明は音響的特徴区分が難しい項目を予め事前に保存して予め設定された再検証項目を構築することができ、第1認識モデル210が予め設定された再検証項目に含まれた音響認識結果情報を出力する場合、サーバー100は該当音響認識結果情報の生成に基盤となった音響サブデータを再検証が必要な再検証音響サブデータとして選別することができる。
すなわち、区分が難しい類似する音響に基づいて予め設定された再検証項目を事前に構成することができ、第1認識モデルの出力(すなわち、音響認識結果情報)が予め設定された再検証項目に対応する場合、該当音響サブデータを再検証音響サブデータに決定することができる。
【0026】
実施例によると、音響認識結果情報を生成する段階は、選別された再検証音響サブデータを基準として組み合わせ再検証音響サブデータを生成する段階(S312)を含むことができる。
具体的には、サーバー100は再検証音響サブデータが選別される場合、再検証音響サブデータを基準として前、後に関連した追加音響サブデータを識別することができる。また、サーバー100は再検証音響サブデータと追加音響サブデータを組み合わせて組み合わせ再検証音響サブデータを生成することができる。
また、実施例で、音響認識結果情報を生成する段階は、組み合わせ再検証音響サブデータを第2認識モデル220に入力として処理して音響認識結果情報を生成する段階(S313)を含むことができる。
実施例によると、本発明の音響認識モデルは、複数個の音響サブデータ間の組み合わせを通じて生成された組み合わせ再検証音響サブデータを入力として組み合わせ再検証音響サブデータに対応する出力を提供する第2認識モデル220を含むことができる。
この場合、第2認識モデル220は、入力に活用される音響サブデータの区間の長さが第1認識モデル210と異なるモデルであり得る。第2認識モデル220は第1認識モデル210より高い性能を有するニューラルネットワークモデルであり得る。例えば、第1認識モデル210は1秒の区間の音響サブデータに基づいて音響認識結果を導き出すように学習されたニューラルネットワークモデルであり、第2認識モデル220は2秒の区間の音響サブデータに基づいて音響認識結果を導き出すニューラルネットワークモデルであり得る。すなわち、第1認識モデル210および第2認識モデル220は互いに異なる性能を有するニューラルネットワークモデルであり、再検証にはより性能が良い第2認識モデル220が活用されることになる。実施例で、第1認識モデル210は比較的短い区間の音響サブデータを認識して結果を出力するニューラルネットワークモデルであり得、第2認識モデル220は比較的長い区間の音響サブデータを認識して結果を出力するニューラルネットワークモデルであり得る。
実施例で、第2認識モデル220はクラウドAPIを通じて具現されることを特徴とすることができる。第2認識モデル220がクラウドAPIを通じて具現されるので低性能の装置でも比較的高性能の第2認識モデル220の活用が可能となり得る。
具体的な例として、
図7を参照すると、まず比較的低性能の軽い第1認識モデル210を活用して一次的に音響データ10に対応して生成された複数の音響サブデータ(第1音響サブデータ11、第2音響サブデータ12および第3音響サブデータ13)それぞれを入力として音響認識結果情報を出力することができる。
ここで、第2音響サブデータ12に対応して一次的に出力した音響認識結果情報に対する信頼度が多少劣ると判断される場合、音響認識結果情報に対応する音響サブデータ(すなわち第2音響サブデータ)を再検証が必要な再検証音響サブデータとして選別することができる。
この場合、サーバー100は第2音響サブデータ12の前、後に生成された追加音響サブデータを識別することができる。例えば、第2音響サブデータ12と隣接時点で生成された音響サブデータである第3音響サブデータ13を追加音響サブデータとして識別することができる。
【0027】
サーバー100は再検証音響サブデータと追加音響サブデータを組み合わせて組み合わせ再検証音響サブデータを生成することになる。すなわち、第2音響サブデータ12と第3音響サブデータ13の組み合わせを通じて組み合わせ再検証音響サブデータ20が生成され得る。
この場合、組み合わせ再検証音響サブデータ20は、音響サブデータの組み合わせを通じて生成されたことにより、最初の第1認識モデル210に入力される音響サブデータより長い長さを有することができる。すなわち、音響サブデータに対する認識結果が不正確であろうと判断される場合、組み合わせ再検証音響サブデータを生成することによって、不正確な出力を導き出す音響サブデータに対する再検証が遂行されるようにすることができる。
サーバー100は組み合わせ再検証音響サブデータ20は第2認識モデル220に入力として処理して音響認識結果情報を出力することができる。この場合、第2認識モデルは第1認識モデルより長い区間の音響サブデータに対する認識を遂行するニューラルネットワークモデルであるので、第1認識モデルより大きい範囲の音響サブデータ(すなわち、組み合わせ再検証音響サブデータ)に対する分析を通じて音響認識結果を導き出すので、より正確度高い音響認識結果情報を生成することができる。
すなわち、サーバー100は比較的軽い第1認識モデルを活用していて、必要に応じて第2モデルを活用して再検証のみを遂行するようにすることによって計算量を効果的に減らしながらも認識結果の信頼度を向上させる効果を提供することができる。
図8は、本発明の一実施例に関連した音響サブデータ間の連関関係により音響認識結果情報に対する補正を遂行する過程を例示的に示したフローチャートである。
実施例によると、音響認識結果情報を生成する段階は、複数個の音響認識結果情報間の連関関係情報を生成する段階(S321)を含むことができる。連関関係情報とは、各音響認識結果情報の関連性を示した情報であり得る。例えば、第1区間に対応する第1音響サブデータに対する認識結果生成された第1音響認識結果情報が「銃声」であり、第2区間に対応する第2音響サブデータに対する認識結果生成された第2音響認識結果情報が「拍手音」である場合、サーバー100は第1音響認識結果情報と第2音響認識結果情報が関連性がないという連関関係情報を生成することができる。前述した各音響認識結果情報に対する具体的な記載および連関関係情報に対する具体的な記載は例示に過ぎず、本発明はこれに制限されない。
また、音響認識結果情報を生成する段階は、連関関係情報に基づいて各音響サブデータに対応する音響認識結果情報のうち少なくとも一つの音響認識結果情報に対する補正を遂行する段階(S322)を含むことができる。サーバー100は音響認識結果情報の間の連関関係情報に基づいて少なくとも一つの音響認識結果情報に対する補正を遂行できる。サーバー100は各音響認識情報間の連関関係情報に基づいて音響認識結果情報を補正するかどうかを決定することができる。
具体的な実施例によると、少なくとも一つの音響認識結果情報に対する補正を遂行する段階は、第1音響認識結果情報と第2音響認識結果情報が予め設定された時間以内に生成された場合、第1音響認識結果と第2音響認識結果情報に対応する連関関係情報に基づいて第1音響認識結果および第2音響認識結果のうち少なくとも一つに対する補正を遂行することを特徴とすることができる。
すなわち、サーバー100は一定時間内に出力される音響認識結果情報に基づいて音響認識結果情報のうち少なくとも一部に対する後処理補正を遂行できる。音響データは一定時間間隔で分割されてフレーム形態でニューラルネットワークに入力され、各分割されたデータに対応して音響認識結果情報が導き出される。サーバー100は一定時間内に出力された音響認識結果間の連関関係情報を生成し、これを通じて隣接時点に対応する生成された音響認識結果間の連関関係により特定音響認識結果情報を他の音響認定結果に補正することができる。
このような構成は、単純に音響サブデータのみを基準として音響認識結果情報を生成する場合、より正確度を向上させるためである。例えば、音A(例えば、gunshot)という音響認識結果が出力された以後、n秒以内に音B(例えば、applause)という音響認識結果が出力される場合、音Aの認識結果を音C(例えば、爆竹音)に補正することができる。すなわち、一定時間内に出力(または認識)される音響認識結果間の連関関係を考慮して音響認識結果のうち少なくとも一つに対する補正を遂行することによって、認識正確度を向上させることができる。
【0028】
より具体的な例として、
図9A のような単一フレーム(すなわち、一つの音響サブデータ)を音響認識モデルに入力させる場合、「gunshot」という音響認識結果情報が生成され得る。これは単純に爆発音に関連した音響サブデータ一つのみを分析して導き出した結果であるので、高い正確度を担保できない。例えば、gunshotの場合、爆竹音や、花火打ち上げの音がや、または風船が破裂する音などの類似する音響的特徴を有する音が多いので、正確性が多少欠如する恐れがある。
図9B のように、特定音響認識結果情報(すなわち、gunshot)を基準として一定時間内に存在するフレームに対応する音響認識結果情報が誕生日祝いの歌を歌う声、拍手音、喜びの音であることを識別することができる。サーバー100は一定時間内に出力された他の音響認識結果を通じて特定音響認識結果(すなわち、gunshot)が他の音響認識結果情報と関連性がないという連関関係情報を生成することができる。これに伴い、特定音響認識結果情報を他の音響認識結果に後処理補正することになる。すなわち、最初に出力されたgunshotという音響認識結果情報を、一定時間内に出力された他の音響認識結果情報(例えば、誕生日祝いの歌を歌う声、拍手音、喜びの音)との関連性に基づいて生成された連関関係情報に基づいて他の音響認識結果情報である「爆竹が爆発する音」に補正することができる。実施例で、サーバー100は最初に出力されたgunshotが特定項目(例えば、爆発音に対応する項目)に含まれることを識別し、特定項目に含まれた他の種類のキーワードを選別して音響認識結果情報に対する補正を遂行できる。サーバー100は特定項目に含まれた他の種類の音響のうち他の音響認識結果と関連性を有するキーワード(例えば、爆竹が爆発する音)を選別して最初に出力された音響認識結果情報に対する補正を遂行できる。これに伴い、最初に出力されたgunshotという音響認識結果情報は「爆竹が爆発する音」に補正されることになる。
すなわち、サーバー100は一定時間内に出力(または認識)される音響認識結果情報間の連関関係を考慮して音響認識結果情報のうち少なくとも一つに対する後処理補正を遂行することによって、認識の正確度を向上させることができる。換言すると、近所時点で出力された音響認識結果情報と類似性を有さない特定音響認識結果情報を識別し、これを他の音響認識結果情報と関連性を有する他の音響認識結果情報に補正することによって、音響認識結果の正確度を向上させることができる。
図10は、本発明の一実施例に関連した周辺環境および雰囲気を考慮して音響認識結果情報を生成する過程を例示的に示したフローチャートである。
実施例によると、サーバー100はムード感知モデルを通じて音響認識結果情報に対応するムード情報を生成することができる。ムード感知モデルは、音響認識結果情報を認識して時点別周辺状況に対応するムード情報を出力するように学習されたニューラルネットワークモデルであり得る。
ムード情報は音響データが獲得される空間に関連した雰囲気に対する予測情報であって、場所予測情報および感情予測情報を含むことができる。
ムード感知モデルは各音響サブデータを通じて導き出された音響認識結果情報を基盤として、リアルタイムの雰囲気を把握するニューラルネットワークモデルであり得る。ムード感知モデルは音響認識結果情報を通じて、現在の音響データが獲得される場所がどこなのかに対する予測情報および音響データが獲得される雰囲気に対する予測情報を含むムード情報を生成することができる。ムード感知モデルは、キーワードを分析および音声の高低分析を通じて使用者の感情を分析でき、対話が遂行される場所を認識することができる。実施例で、ムード感知モデルは、自然言語処理モデルおよび感情分析モデルを含むことができる。自然言語処理モデルはテキストデータ(例えば、音響認識結果情報)を理解して処理するのに活用され、感情分析モデルは、文章に含まれた感情を感知するのに活用され得る。
【0029】
例えば、車両の走行騒音に関連した音響認識結果情報が持続的に獲得されるのを感知して現在の音響データが獲得される場所が「走行中の車両」であると判断することができる。他の例として、次第に高いトーンの音響認識結果情報が獲得されるのを感知してリアルタイムの雰囲気が「怒り」の感情に関連したものと判断することができる。前述した場所および感情に関する具体的な記載は例示に過ぎず、本発明はこれに制限されない。
サーバー100はムード感知モデルを通じて生成されたムード情報と音響サブデータに基づいて音響認識結果情報を生成することができる。これは、音響サブデータの入力前と後の状況または雰囲気を認知し、これを考慮してより正確度が高い音響認識結果情報を生成するためである。
図11を参照すると、特定音響サブデータを音響認識モデルの入力として処理して「子供の悲鳴(child scream)」という音響認識結果情報を導き出すことができる。ただし、該当子供の悲鳴が急迫した状況に関連した悲鳴であるか、遊んでいる子供が楽しくて悲鳴をあげるのか区分することが難しい場合もある。すなわち、すべての悲鳴が急迫した状況を意味するものではないので、悲鳴が急迫した状況に関連したものか、または楽しい状況で発生したものかを区分する必要がある。本発明はムードモデルを通じて特定音響サブデータの周辺時点の雰囲気に対応するムード情報を生成できるため、より適切な状況に合う音響認識結果情報を導出できるようになる。
サーバー100はムード感知モデルを活用して前後の雰囲気、すなわちムード情報を把握でき、これを活用してより適切な音響認識結果情報を生成することができる。例えば、サーバー100は
図12に図示された通り、隣接時点で「水でざぶんざぶんする音」、「子供たちの笑い声」および「子供を呼ぶお母さんの声」等を感知して特定音響サブデータに対応して「子供が楽しい状況で出す悲鳴」という音響認識結果情報を生成することができる。
具体的な実施例で、音響認識結果情報を生成する段階は、第1音響サブデータに対応する第1音響認識結果情報と第1音響サブデータに対応するムード情報間の関連性情報を生成する段階(S331)を含むことができる。
実施例で、関連性情報は、リアルタイムで生成されるムード情報と音響認識結果情報間の関連程度を数値化して示した情報であり得る。例えば、ムード情報が「幸せな感情」に関連し、音響認識結果情報が「銃声」に関連した場合、サーバー100はムード情報と音響認識結果情報間の関連程度が低いと判断してムード情報と音響認識結果情報間の関連性が20%という関連性情報を生成することができる。他の例として、ムード情報が「怒りおよび恐怖の感情」に関連し、音響認識結果情報が「銃声」に関連した場合、サーバー100はムード情報と音響認識結果情報間の関連程度が高いと判断してムード情報と音響認識結果情報間の関連性が93%という関連性情報を生成することができる。前述した関連性情報の生成に対する具体的な記載は例示に過ぎず、本発明はこれに制限されない。
音響認識結果情報を生成する段階は、関連性情報が予め設定された基準値以上である場合、第1音響認識結果情報に対する補正を遂行しない段階(S332)を含むことができる。予め設定された基準値は使用者によって事前に決定されるもので、リアルタイム出力された音響認識結果情報が適正であるかどうかを判別するための基準となり得る。音響認識結果情報とムード情報間の関連性情報が予め設定された基準値以上である場合、現在出力された音響認識結果情報が適正であると判断して別途の補正が遂行されないことができる。
音響認識結果情報を生成する段階は、関連性情報が予め設定された基準値未満である場合、第1音響認識結果情報に対する補正を遂行する段階(S333)を含むことができる。音響認識結果情報とムード情報間の関連性情報が予め設定された基準値未満である場合、現在出力された音響認識結果情報の正確度が低下したのであるので別途の補正が遂行されなければならない。
より具体的には、サーバー100は第1音響認識結果情報と類似性を有する複数のキーワードを識別することができる。例えば、第1音響認識結果情報が「銃声」である場合、サーバー100は「爆竹音」、「花火打ち上げの音」、「風船が破裂する音」等を複数のキーワードで識別することができる。前述した第1音響認識結果情報および複数のキーワードに対する具体的な説明は例示に過ぎず、本発明はこれに制限されない。
また、サーバー100は複数のキーワードそれぞれとムード情報間の複数の関連性サブ情報を生成することができる。すなわち、各キーワードとムード情報間の関連性程度を算出して複数の関連性サブ情報を生成することができる。例えば、ムード情報が「幸せな雰囲気」である場合、爆竹音に対応して93%という第1関連性サブ情報が生成され、花火打ち上げの音に対応して82%という第2関連性サブ情報が生成され、そして風船が破裂する音に対応して76%という第3関連性サブ情報が生成され得る。各関連性サブ情報に対する具体的な数値的記載は例示に過ぎず、本発明はこれに制限されない。
【0030】
サーバー100は複数の関連性サブ情報のうち最大値に該当する最大関連性サブ情報を識別して最大関連性サブ情報に対応するキーワードに基づいて第1音響認識結果情報に対する補正を遂行できる。例えば、サーバー100は最大関連性サブ情報(93%)に対応するキーワード(すなわち、 爆竹音)に基づいて第1音響認識結果情報に対する補正を遂行できる。
すなわち、サーバー100は特定音響認識結果情報がムード情報と似合わないと判断する場合(すなわち、音響認識結果情報とムード情報間の関連性情報が予め設定された基準値未満である場合)、該当音響認識結果と類似するキーワードのうちムード情報と最も関連性が高いキーワードを通じて特定音響認識結果情報に対する補正を遂行できる。
本発明の実施例に関連して説明された方法またはアルゴリズムの段階はハードウェアで直接具現されたり、ハードウェアによって実行されるソフトウェアモジュールで具現されたり、またはこれらの結合によって具現され得る。ソフトウェアモジュールはRAM(Random Access Memory)、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、フラッシュメモリ(Flash Memory)、ハードディスク、着脱型ディスク、CD-ROM、または本発明が属する技術分野で広く知られている任意の形態のコンピュータ読み取り可能記録媒体に常駐してもよい。
本発明の構成要素はハードウェアであるコンピュータと結合されて実行されるためにプログラム(またはアプリケーション)で具現されて媒体に保存され得る。本発明の構成要素はソフトウェアプログラミングまたはソフトウェア要素で実行され得、これと同様に、実施例はデータ構造、プロセス、ルーチンまたは他のプログラミング構成の組み合わせで具現される多様なアルゴリズムを含み、C、C++、ジャバ(Java)、アセンブラ(assembler)などのようなプログラミングまたはスクリプト言語で具現され得る。機能的な側面は一つ以上のプロセッサで実行されるアルゴリズムで具現され得る。
以上、添付された図面を参照して本発明の実施例を説明したが、本発明が属する技術分野の通常の技術者は本発明がその技術的思想や必須の特徴を変更することなく他の具体的な形態で実施され得ることが理解できるであろう。したがって、以上で記述した実施例はすべての面で例示的なものであり、制限的ではないものと理解されるべきである。