(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-13
(54)【発明の名称】音響データの認識正確度を向上させるための方法、装置およびプログラム
(51)【国際特許分類】
G10L 15/02 20060101AFI20241106BHJP
【FI】
G10L15/02 300F
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024526923
(86)(22)【出願日】2022-11-11
(85)【翻訳文提出日】2024-05-07
(86)【国際出願番号】 KR2022017701
(87)【国際公開番号】W WO2023090760
(87)【国際公開日】2023-05-25
(31)【優先権主張番号】10-2021-0161205
(32)【優先日】2021-11-22
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】523429276
【氏名又は名称】コーチル インク
【氏名又は名称原語表記】COCHL INC.
(74)【代理人】
【識別番号】100083138
【氏名又は名称】相田 伸二
(74)【代理人】
【識別番号】100189625
【氏名又は名称】鄭 元基
(74)【代理人】
【識別番号】100196139
【氏名又は名称】相田 京子
(74)【代理人】
【識別番号】100199004
【氏名又は名称】服部 洋
(72)【発明者】
【氏名】ハン ユンチャン
(72)【発明者】
【氏名】パク ジョンス
(72)【発明者】
【氏名】イ スビン
(72)【発明者】
【氏名】ジョン イルヨン
(72)【発明者】
【氏名】リム ヒュングイ
(72)【発明者】
【氏名】イ ドンムン
(57)【要約】
前述した課題を解決するための本発明の一実施例で、音響データの認識正確度を向上させるための方法が開示される。前記方法は、音響データに基づいて一つ以上の音響フレームを構成する段階、前記一つ以上の音響フレームそれぞれを音響認識モデルの入力として処理して各音響フレームに対応する予測値を出力する段階、前記各音響フレームに対応する予測値に基づいた臨界値分析を通じて一つ以上の認識音響フレームを識別する段階、前記一つ以上の認識音響フレームに基づいた時系列分析を通じて変換音響フレームを識別する段階および前記変換音響フレームに対応する予測値に対する変換を遂行する段階を含むことができる。
【選択図】
図3
【特許請求の範囲】
【請求項1】
コンピューティング装置の一つ以上のプロセッサで遂行される方法において、
音響データに基づいて一つ以上の音響フレームを構成する段階;
前記一つ以上の音響フレームそれぞれを音響認識モデルの入力として処理して各音響フレームに対応する予測値を出力する段階;
前記各音響フレームに対応する予測値に基づいた臨界値分析を通じて一つ以上の認識音響フレームを識別する段階;
前記一つ以上の認識音響フレームに基づいた時系列分析を通じて変換音響フレームを識別する段階;および
前記変換音響フレームに対応する予測値に対する変換を遂行する段階;を含む、音響データの認識正確度を向上させるための方法。
【請求項2】
前記音響データに基づいて一つ以上の音響フレームを構成する段階は、
前記音響データを予め定められた第1時間単位の大きさを有するように分割して前記一つ以上の音響フレームを構成する段階;を含む、請求項1に記載の音響データの認識正確度を向上させるための方法。
【請求項3】
前記一つ以上の音響フレームそれぞれの開始時点は、
隣接した音響フレームそれぞれの開始時点と第2時間単位の大きさの差を有するように決定されることを特徴とする、請求項2に記載の音響データの認識正確度を向上させるための方法。
【請求項4】
前記予測値は、
一つ以上の予測項目情報および前記一つ以上の予測項目情報それぞれに対応する予測数値情報を含み、
前記臨界値分析は、
前記各音響フレームに対応する一つ以上の予測数値情報それぞれが、前記各予測項目情報に対応して予め定められた臨界値以上であるかどうかを判別して前記一つ以上の認識音響フレームを識別する分析である、請求項1に記載の音響データの認識正確度を向上させるための方法。
【請求項5】
前記時系列分析を通じて変換音響フレームを識別する段階は、
前記一つ以上の認識音響フレームそれぞれに対応する予測項目情報を識別する段階;
前記識別された予測項目情報が予め定められた基準時間の間予め定められた臨界回数以上反復されるかどうかを判別する段階;および
前記判別結果に基づいて前記変換音響フレームを識別する段階;を含む、請求項4に記載の音響データの認識正確度を向上させるための方法。
【請求項6】
前記方法は、
一つ以上の認識音響フレームそれぞれに対応する予測項目情報に基づいて各認識音響フレーム間の連関関係を識別する段階;および
前記連関関係に基づいて前記一つ以上の音響フレームそれぞれに対応する臨界値および臨界回数の調整の有無を決定する段階;を含む、請求項5に記載の音響データの認識正確度を向上させるための方法。
【請求項7】
前記予測値に対する変換は、
前記変換音響フレームに基づいた前記音響認識モデルの出力を認識未対象項目に変換する雑音変換および前記変換音響フレームに関連した予測項目情報を校正予測項目情報に変換する音響項目変換のうち少なくとも一つを含む、請求項1に記載の音響データの認識正確度を向上させるための方法。
【請求項8】
前記校正予測項目情報は、
前記予測項目情報の連関関係に基づいて決定されることを特徴とする、請求項7に記載の音響データの認識正確度を向上させるための方法。
【請求項9】
一つ以上のインストラクションを保存するメモリ;および
前記メモリに保存された前記一つ以上のインストラクションを実行するプロセッサを含み、
前記プロセッサは前記一つ以上のインストラクションを実行することによって、請求項1に記載された方法を遂行する、装置。
【請求項10】
ハードウェアであるコンピュータと結合されて、請求項1に記載された方法を遂行できるようにコンピュータで読み取り可能な記録媒体に保存されたコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は音響データの認識率を向上させるための方法に関し、より具体的には、音響データの後処理補正を通じて認識率を向上させる技術に関する。
【背景技術】
【0002】
完全に音を聞くことができないかまたは音をよく区別できない聴覚障害者は、音を聞いて状況を判断することが難しいので日常生活に多くの困難があるだけでなく、音の情報を利用して室内、室外環境での危険な状況を認知することができないため即座に対応することが不可能である。聴覚障害者だけでなく、イヤホン着用歩行者、高齢者などの聴感覚がないか制限された状況では使用者周辺で発生する音響が遮断され得る。追加的に、使用者が睡眠をとるなどの音響の感知が難しい状況では、周辺の状況を認知できないため危険な状況に遭遇したり、事故に遭う恐れがある。
一方、このような環境の中で音響イベントを検出し認識する技術開発に対する必要性が台頭している。音響イベントを検出し認識する技術は、実生活環境コンテクストの認識、危険状況の認識、メディアコンテンツ認識、有線通信上の状況分析など多様な分野に応用可能な技術であって、持続的に研究されている。
音響イベント認識技術としては、オーディオ信号からMFCC、energy、spectral flux、zero crossing rateなど多様な特徴値を抽出して優秀な特徴を検証する研究とGaussian mixture modelまたはrule基盤の分類方法などに対する研究が主をなしており、最近では前記方法を改善するためにディープラーニング基盤の機械学習方法が研究されている。しかし、このような方法は低い信号対比雑音比で音響検出の正確度が保障され、周辺の雑音と事件の音響を区別し難いという限界点を有する。
すなわち、多様な周辺ノイズを含む実生活環境では信頼度の高い音響イベントの検出が困難であり得る。具体的には、有効な音響イベントを検出するためには、時系列的(すなわち、連続的)に獲得される音響データに対して音響イベントが発生したかどうかを判断しなければならず、これと共にどのようなイベントクラスが発生したのかも認識しなければならないため高い信頼度を担保することが困難であり得る。また、二つ以上のイベントが同時に発生する場合、単一イベント(monophonic)ではなく多重イベント(polyphonic)認識問題まで解決しなければならないため、音響イベントの認識率がさらに低くなり得る。
また、実生活で獲得された音響データで音響イベントを検出時、低い認識率を見せる理由は、音響イベントが発生していないにもかかわらずイベントが存在すると判断したり、イベントが発生したにもかかわらずイベントが存在しないと判断する確率すなわち、エラー検出(false alarm)の確率が存在するためである。
【0003】
したがって、時系列的に獲得される音響データに対応してエラー検出の確率を減少させる場合、実生活環境で向上した信頼度を有する音響イベントの検出が可能となり得る。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】大韓民国登録特許10-2014-0143069
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明が解決しようとする課題は前述した問題点を解決するためのものであって、音響データに関連した後処理補正を通じて向上した正確度を有する音響データ認識環境を提供するためのものである。
本発明が解決しようとする課題は以上で言及された課題に制限されず、言及されていないさらに他の課題は下記の記載から通常の技術者に明確に理解され得るであろう。
【課題を解決するための手段】
【0006】
前述した課題を解決するための本発明の多様な実施例に係る音響データの認識正確度を向上させるための方法を開示する。前記方法は、音響データに基づいて一つ以上の音響フレームを構成する段階、前記一つ以上の音響フレームそれぞれを音響認識モデルの入力として処理して各音響フレームに対応する予測値を出力する段階、前記各音響フレームに対応する予測値に基づいた臨界値分析を通じて一つ以上の認識音響フレームを識別する段階、前記一つ以上の認識音響フレームに基づいた時系列分析を通じて変換音響フレームを識別する段階および前記変換音響フレームに対応する予測値に対する変換を遂行する段階を含むことができる。
【0007】
代案的な実施例において、前記音響データに基づいて一つ以上の音響フレームを構成する段階は、前記音響データを予め定められた第1時間単位の大きさを有するように分割して前記一つ以上の音響フレームを構成する段階を含むことができる。
代案的な実施例において、前記一つ以上の音響フレームそれぞれの開始時点は、隣接した音響フレームそれぞれの開始時点と第2時間単位の大きさの差を有するように決定されることを特徴とすることができる。
代案的な実施例において、前記予測値は、一つ以上の予測項目情報および前記一つ以上の予測項目情報それぞれに対応する予測数値情報を含み、前記臨界値分析は、前記各音響フレームに対応する一つ以上の予測数値情報それぞれが、前記各予測項目情報に対応して予め定められた臨界値以上であるかどうかを判別して前記一つ以上の認識音響フレームを識別する分析であり得る。
代案的な実施例において、前記時系列分析を通じて変換音響フレームを識別する段階は、前記一つ以上の認識音響フレームそれぞれに対応する予測項目情報を識別する段階、前記識別された予測項目情報が予め定められた基準時間の間予め定められた臨界回数以上反復されるかどうかを判別する段階および前記判別結果に基づいて前記変換音響フレームを識別する段階を含むことができる。
代案的な実施例において、前記方法は、一つ以上の認識音響フレームそれぞれに対応する予測項目情報に基づいて各認識音響フレーム間の連関関係を識別する段階、前記連関関係に基づいて前記一つ以上の音響フレームそれぞれに対応する臨界値および臨界回数の調整の有無を決定する段階を含むことができる。
代案的な実施例において、前記予測値に対する変換は、前記変換音響フレームに基づいた前記音響認識モデルの出力を認識未対象項目に変換する雑音変換および前記変換音響フレームに関連した予測項目情報を校正予測項目情報に変換する音響項目変換のうち少なくとも一つを含むことができる。
代案的な実施例において、前記校正予測項目情報は、前記予測項目情報の連関関係に基づいて決定されることを特徴とすることができる。
【0008】
本発明の他の実施例によると、音響データの認識正確度を向上させるための方法を遂行する装置が開示される。前記装置は、一つ以上のインストラクションを保存するメモリおよび前記メモリに保存された前記一つ以上のインストラクションを実行するプロセッサを含み、前記プロセッサは前記一つ以上のインストラクションを実行することによって、前述した音響データの認識正確度を向上させるための方法を遂行できる。
本発明のさらに他の実施例によると、コンピュータで読み取り可能な記録媒体に保存されたコンピュータプログラムが開示される。前記コンピュータプログラムはハードウェアであるコンピュータと結合されて、前述した音響データの認識正確度を向上させるための方法を遂行できる。
本発明のその他具体的な事項は詳細な説明および図面に含まれている。
【発明の効果】
【0009】
本発明の多様な実施例により、音響データに対する補正を通じて音響データの認識正確度を向上させる効果を提供することができる。
本発明の効果は以上で言及された効果に制限されず、言及されていないさらに他の効果は下記の記載から通常の技術者に明確に理解され得るであろう。
【図面の簡単な説明】
【0010】
【
図1】本発明の一実施例に係る音響データの認識正確度を向上させるための方法を遂行するためのシステムを概略的に示した図面である。
【
図2】本発明の一実施例に関連した音響データの認識正確度を向上させるためのサーバーのハードウェア構成図である。
【
図3】本発明の一実施例に関連した音響データの認識正確度を向上させるための方法を例示的に示したフローチャートを図示する。
【
図4】本発明の一実施例に関連した音響データに基づいて一つ以上の音響フレームを構成する過程を説明するための例示図を図示する。
【
図5】本発明の一実施例に関連した音響認識モデルが音響フレームに基づいて予測値を出力する過程を説明するための例示図を図示する。
【
図6】本発明の一実施例に関連した臨界値分析過程を例示的に示したフローチャートを図示する。
【
図7】本発明の一実施例に関連した時系列分析過程を例示的に示したフローチャートを図示する。
【
図8】本発明の一実施例に関連した音響データ補正過程を説明するための例示的な表を図示する。
【
図9】本発明の一実施例に関連した音響データの補正過程を説明するための例示図を図示する。
【発明を実施するための形態】
【0011】
多様な実施例を図面を参照して説明する。本明細書で、多様な説明が本発明の理解を提供するために提示される。しかし、このような実施例はこのような具体的な説明がなくても実行され得ることは明らかである。
本明細書で使われる用語「コンポーネント」、「モジュール」、「システム」などはコンピュータ-関連エンティティ、ハードウェア、ファームウェア、ソフトウェア、ソフトウェアおよびハードウェアの組み合わせ、またはソフトウェアの実行を指称する。例えば、コンポーネントはプロセッサ上で実行される処理過程(procedure)、プロセッサ、客体、実行スレッド、プログラム、および/またはコンピュータであり得るが、これらに制限されるものではない。例えば、コンピューティング装置で実行されるアプリケーションおよびコンピューティング装置はいずれもコンポーネントであり得る。一つ以上のコンポーネントはプロセッサおよび/または実行スレッド内に常駐することができる。一コンポーネントは一つのコンピュータ内にローカル化され得る。一コンポーネントは2個以上のコンピュータの間に分配され得る。また、このようなコンポーネントはその内部に保存された多様なデータ構造を有する多様なコンピュータ読み取り可能な媒体から実行することができる。コンポーネントは例えば、一つ以上のデータパケットを有する信号(例えば、ローカルシステム、分散システムで他のコンポーネントと相互作用する一つのコンポーネントからのデータおよび/または信号を通じて他のシステムとインターネットのようなネットワークを通じて伝送されるデータ)によりローカルおよび/または遠隔処理を通じて通信することができる。
また、用語「または」は排他的「または」ではなく内包的「または」を意味するものと意図される。すなわち、特に特定されていないか文脈上明確でない場合に、「XはAまたはBを利用する」は自然的な内包的置換のうちの一つを意味するものと意図される。すなわち、XがAを利用したり;XがBを利用したり;またはXがAおよびBをすべて利用する場合、「XはAまたはBを利用する」がこれらの場合のうちいずれにも適用され得る。また、本明細書に使われた「および/または」という用語は、列挙された関連アイテムのうちの一つ以上のアイテムの可能なすべての組み合わせを指称し含むものと理解されるべきである。
また、「含む。」および/または「含む」という用語は、該当特徴および/または構成要素が存在することを意味するものと理解されるべきである。ただし、「含む。」および/または「含む」という用語は、一つ以上の他の特徴、構成要素および/またはこれらのグループの存在または追加を排除しないものと理解されるべきである。また、特に特定されていないか単数の形態を指示するものと文脈上明確でない場合に、本明細書と請求の範囲で単数は一般的に「一つまたはそれ以上」を意味するものと解釈されるべきである。
【0012】
当業者は追加的に、ここで開示された実施例に関連して説明された多様な例示的論理的ブロック、構成、モジュール、回路、手段、ロジック、およびアルゴリズム段階が電子ハードウェア、コンピュータソフトウェア、または両方の組み合わせで具現され得ることを認識しなければならない。ハードウェアおよびソフトウェアの相互の交換性を明白に例示するために、多様な例示的コンポーネント、ブロック、構成、手段、ロジック、モジュール、回路、および段階はそれらの機能性の側面で一般的に前記にて説明された。そのような機能性がハードウェアでまたはソフトウェアで具現されるかどうかは全般的なシステムに賦課された特定アプリケーション(application)および設計の制限にかかっている。熟練した技術者はそれぞれの特定アプリケーションのために多様な方法で説明された機能性を具現することができる。ただし、そのような具現の決定が本発明の領域を逸脱させるものと解釈されてはならない。
【0013】
提示された実施例に対する説明は、本発明の技術分野で通常の知識を有する者が本発明を利用したりまたは実施できるように提供される。このような実施例に対する多様な変形は、本発明の技術分野で通常の知識を有する者に明白であろう。ここに定義された一般的な原理は、本発明の範囲を逸脱することなく他の実施例に適用され得る。そして、本発明はここに提示された実施例に限定されるものではない。本発明はここに提示された原理および新規の特徴と一貫する最広義の範囲で解釈されるべきである。
本明細書で、コンピュータは少なくとも一つのプロセッサを含むすべての種類のハードウェア装置を意味するものであり、実施例により該当ハードウェア装置で動作するソフトウェア的構成も包括する意味で理解され得る。例えば、コンピュータはスマートフォン、タブレットPC、デスクトップ、ノートパソコンおよび各装置で駆動される使用者クライアントおよびアプリケーションをすべて含む意味として理解され得、また、これに制限されるものではない。
【0014】
以下、添付された図面を参照して本発明の実施例を詳細に説明する。
本明細書で説明される各段階はコンピュータによって遂行されるものとして説明されるが、各段階の主体はこれに制限されるものではなく、実施例により各段階の少なくとも一部が互いに異なる装置で遂行されてもよい。
ここで、本発明の多様な実施例に係る音響データの認識正確度を向上させるための方法は、音響データの認識率が向上するように音響データを補正する方法に関連したものであり得る。音響データに対する補正は例えば、音響データに関連した後処理補正を意味し得る。すなわち、本発明は時系列的な音響データを獲得する場合、該当音響データに対する後処理補正を遂行して音響データの認識過程で正確度を向上させることができる。実施例で、音響データの認識正確度の向上は、音響データで特定イベントを感知する認識正確度が向上することを意味し得る。
【0015】
一方、音響データで特定イベントを高い正確度を通じて感知または認識するためには、エラー検出の確率を低減させることが重要であり得る。ここで、エラー検出の確率とは、音響イベントが発生していないにもかかわらずイベントが存在すると判断したり、またはイベントが発生したにもかかわらずイベントが存在しないと判断する確率に関連したものであり得る。
実施例によると、音響データの認識正確度を向上させるための方法は、音響データのエラー検出の確率を最小化させるために、音響データを一定の時間単位を有する複数の音響フレームそれぞれに分割し、分割された音響フレームそれぞれに対応する音響認識を通じて音響データ認識の正確度の向上を図ることができる。この場合、各音響フレームは他の音響フレームと少なくとも一部の重複区間を有することができる。すなわち、本発明は時系列情報である音響データを一定の時間単位で細分化して複数の音響フレームを構成し、各音響フレームに対する分析を遂行でき、分析結果複数の音響フレームのうち少なくとも一部の音響フレームに対する変換を遂行できる。例えば、複数の音響フレームのうち少なくとも二つ以上の音響フレームに亘って特定の音響(例えば、サイレンの音)が認識される場合にのみ、特定の音響が認識されたと判断することができる。換言すると、複数の音響フレームのうち特定の音響フレームでのみ特定の音響(例えば、サイレンの音)が認識される場合(すなわち、特定の音響フレームと隣接した音響フレームでは特定の音響が認識されていない場合)には、特定の音響が認識されていないと判断して該当音響フレームに関連した変換を遂行できる。ここで、音響フレームに関連した変換とは、例えば、特定の音響フレームに関連して認識された音響(例えば、サイレンの音)が誤認識された音響であるので、該当音響を認識していないものに変換することや、または他の音響(例えば、認識に関連していない音響)に変換することを意味し得る。すなわち、一フレームでのみ認識された音はエラーとして除去することができ、フレームに関連して連続的に認識される音を正常に認識されたものと判断することができる。
【0016】
整理すれば、本発明は音響データをフレーム単位で細分化し、各フレームに関連して連続的に認識されない音は誤認識された音と判断して後処理補正を遂行することによって、全体の音響データの認識正確度を向上させることができる。音響データの認識正確度を向上させる方法に関連したより具体的な説明は、以下で詳しく後述することにする。
【0017】
図1は、本発明の一実施例に係る音響データの認識正確度を向上させるための方法を遂行するためのシステムを概略的に示した図面である。
図1に図示された通り、本発明の一実施例に係る音響データの認識正確度を向上させるための方法を遂行するためのシステムは、音響データの認識正確度を向上させるためのサーバー100、使用者端末200および外部サーバー300を含むことができる。ここで、
図1に図示された音響データの認識正確度を向上させるための方法を遂行するためのシステムは一実施例に従ったものであり、その構成要素が
図1に図示された実施例に限定されるものではなく、必要に応じて付加、変更または削除され得る。
【0018】
一実施例で、音響データの認識正確度を向上させるためのサーバー100は、音響データに基づいて特定イベントが発生したかどうかを判別することができる。具体的には、音響データの認識正確度を向上させるためのサーバー100は実生活に関連した音響データを獲得し、獲得した音響データに対する分析を通じて特定イベントが発生したかどうかを判別することができる。一実施例で、特定イベントは、セキュリティ、安全または危険の発生に関連したものであって、例えば、警報音、子供の泣き声、ガラスが割れる音、タイヤがパンクする音などの発生に関連したものであり得る。前述した特定イベントに関連した音響に対する具体的な記載は一例示に過ぎず、本発明はこれに制限されない。
【0019】
実施例によると、実生活で獲得される音響データは多様な周辺ノイズを含んでいるので、信頼度の高い音響イベントの検出が困難であり得る。これに伴い、本発明の音響データの認識正確度を向上させるためのサーバー100は音響データを受信する場合、該当音響データに対する後処理補正を遂行できる。ここで、後処理補正とは、音響データの認識過程でエラー検出の確率を低減させるための補正を意味し得る、例えば、後処理補正は、音響データの一部の区間で認識された音(例えば、ガラスが割れる音)を認識されていないものに変換(すなわち、ノイズで処理)するかまたは認識された音響結果を異なる音響に変換することを含むことができる。すなわち、音響データの認識正確度を向上させるためのサーバー100は、実生活に関連した時系列的な音響データを獲得し、獲得した音響データに対する後処理補正を通じて向上した認識正確度を担保することができる。
実施例によると、音響データの認識正確度を向上させるためのサーバー100はAPI(Application Programming Interface)により具現される任意のサーバーを含むことができる。例えば、使用者端末200は音響データを獲得してAPIを通じてサーバー100に伝達することができる。例えば、サーバー100は使用者端末200から音響データを獲得でき、音響データに対する分析を通じて非常警報音(例えば、サイレンの音)が発生したと判断することができる。実施例で、音響データの認識正確度を向上させるためのサーバー100は音響認識モデル(例:人工知能モデル)を通じて音響データに対する分析を遂行できる。
【0020】
一実施例で、音響認識モデル(例:人工知能モデル)は一つ以上のネットワーク関数で構成され、一つ以上のネットワーク関数は一般的に「ノード」と指称され得る相互に連結された計算単位の集合で構成され得る。このような「ノード」は「ニューロン(neuron)」と指称されてもよい。一つ以上のネットワーク関数は少なくとも一つ以上のノードを含んで構成される。一つ以上のネットワーク関数を構成するノード(またはニューロン)は一つ以上の「リンク」によって相互に連結され得る。
人工知能モデル内で、リンクを通じて連結された一つ以上のノードは相対的に入力ノードおよび出力ノードの関係を形成することができる。入力ノードおよび出力ノードの概念は相対的なものであって、一つのノードに対して出力ノード関係にある任意のノードは他のノードとの関係で入力ノード関係にあり得、その逆も成立し得る。前述した通り、入力ノード対出力ノード関係はリンクを中心に生成され得る。一つの入力ノードに一つ以上の出力ノードがリンクを通じて連結され得、その逆も成立し得る。
一つのリンクを通じて連結された入力ノードおよび出力ノードの関係において、出力ノードは入力ノードに入力されたデータに基づいてその値が決定され得る。ここで、入力ノードと出力ノードを相互に連結するノードは加重値(weight)を有することができる。加重値は可変的であり得、人工知能モデルが所望する機能を遂行するために、使用者またはアルゴリズムによって可変され得る。例えば、一つの出力ノードに一つ以上の入力ノードがそれぞれのリンクによって相互に連結された場合、出力ノードは前記出力ノードと連結された入力ノードに入力された値およびそれぞれの入力ノードに対応するリンクに設定された加重値に基づいて出力ノード値を決定することができる。
【0021】
前述した通り、人工知能モデルは一つ以上のノードが一つ以上のリンクを通じて相互に連結されて人工知能モデル内で入力ノードおよび出力ノードの関係を形成する。人工知能モデル内でノードとリンクの個数およびノードとリンクの間の相関関係、リンクそれぞれに付与された加重値の値により、人工知能モデルの特性が決定され得る。例えば、同じ個数のノードおよびリンクが存在し、リンクの間の加重値が異なる二つの人工知能モデルが存在する場合、二つの人工知能モデルは互いに異なるものと認識され得る。
人工知能モデルを構成するノードのうち一部は、最初の入力ノードからの距離に基づいて、一つのレイヤ(layer)を構成することができる。例えば、最初の入力ノードからの距離がnであるノードの集合は、nレイヤを構成することができる。最初の入力ノードからの距離は、最初の入力ノードから該当ノードまでに到達するために経なければならないリンクの最小個数によって定義され得る。しかし、このようなレイヤの定義は説明のための任意的なものであって、人工知能モデル内でレイヤの次数は前述したものと異なる方法で定義され得る。例えば、ノードのレイヤは最終の出力ノードからの距離によって定義されてもよい。
【0022】
最初の入力ノードは人工知能モデル内のノードのうち他のノードとの関係でリンクを経ずにデータが直接入力される一つ以上のノードを意味し得る。または人工知能モデルネットワーク内で、リンクを基準としたノード間の関係において、リンクで連結された他の入力ノードを有さないノードを意味し得る。これと同様に、最終の出力ノードは人工知能モデル内のノードのうち他のノードとの関係で、出力ノードを有さない一つ以上のノードを意味し得る。また、隠れノードは最初の入力ノードおよび最後の出力ノードではなく人工知能モデルを構成するノードを意味し得る。本発明の一実施例に係る人工知能モデルは、入力レイヤのノードが出力レイヤに近い隠れレイヤのノードより多くてもよく、入力レイヤから隠れレイヤに進行されるにつれてノードの数が減少する形態の人工知能モデルであり得る。
【0023】
人工知能モデルは一つ以上の隠れレイヤを含むことができる。隠れレイヤの隠れノードは以前のレイヤの出力と周辺の隠れノードの出力を入力にすることができる。各隠れレイヤ別隠れノードの数は同一であってもよく、異なってもよい。入力レイヤのノードの数は入力データのデータフィールドの数に基づいて決定され得、隠れノードの数と同一であってもよく、異なってもよい。入力レイヤに入力された入力データは隠れレイヤの隠れノードによって演算され得、出力レイヤである完全連結レイヤ(FCL:fully connected layer)により出力され得る。
【0024】
多様な実施例で、人工知能モデルは、複数の音響データと各音響データに対応する特徴情報を学習データとして教師あり学習(supervised learning)され得る。しかし、これに限定されず、多様な学習方法が適用され得る。
ここで、教師あり学習は通常的に特定データと特定データに関連した情報をラベリングして学習データを生成し、これを利用して学習させる方法であり、因果関係を有する二つのデータをラベリングして学習データを生成し、生成された学習データを通じて学習する方法を意味する。
【0025】
一実施例で、音響データの認識正確度を向上させるためのサーバー100は一つ以上のネットワーク関数の学習が事前に決定されたエポック以上遂行された場合、検証データを利用して学習の中断の有無を決定することができる。事前に決定されたエポックは全体学習目標エポックの一部であり得る。
検証データはラベリングされた学習データのうち少なくとも一部で構成され得る。すなわち、音響データの認識正確度を向上させるためのサーバー100は学習データを通じて人工知能モデルの学習を遂行し、人工知能モデルの学習が事前に決定されたエポック以上反復された後、検証データを利用して人工知能モデルの学習効果が事前に決定された水準以上であるかどうかを判断することができる。例えば、音響データの認識正確度を向上させるためのサーバー100は100個の学習データを利用して目標反復学習回数が10回である学習を遂行する場合、事前に決定されたエポックである10回の反復学習を遂行した後、10個の検証データを利用して3回の反復学習を遂行し、3回の反復学習の間、人工知能モデル出力の変化が事前に決定された水準以下である場合、それ以上の学習は無意味なものと判断して学習を終了することができる。
【0026】
すなわち、検証データは人工知能モデルの反復学習でエポック別学習の効果が一定以上であるか以下であるかに基づいて学習の完了を決定するのに利用され得る。前述した学習データ、検証データの数および反復回数は例示に過ぎず、本発明はこれに制限されない。
音響データの認識正確度を向上させるためのサーバー100は、テストデータを利用して一つ以上のネットワーク関数の性能をテストして一つ以上のネットワーク関数の活性化の有無を決定することによって、人工知能モデルを生成することができる。テストデータは人工知能モデルの性能を検証するために使われ得、学習データのうち少なくとも一部で構成され得る。例えば、学習データのうち70%は人工知能モデルの学習(すなわち、ラベルと類似する結果値を出力するように加重値を調整するための学習)のために活用され得、30%は人工知能モデルの性能を検証するためのテストデータとして活用され得る。音響データの認識正確度を向上させるためのサーバー100は、学習が完了した人工知能モデルにテストデータを入力して誤差を測定して事前に決定された性能以上であるかどうかにより人工知能モデルの活性化の有無を決定することができる。
【0027】
音響データの認識正確度を向上させるためのサーバー100は、学習が完了した人工知能モデルにテストデータを利用して学習完了した人工知能モデルの性能を検証し、学習完了した人工知能モデルの性能が事前に決定された基準以上である場合、該当人工知能モデルを他のアプリケーションで使うように活性化することができる。
また、音響データの認識正確度を向上させるためのサーバー100は学習完了した人工知能モデルの性能が事前に決定された基準以下である場合、該当人工知能モデルを非活性化して廃棄することができる。例えば、音響データの認識正確度を向上させるためのサーバー100は、正確度(accuracy)、精密度(precision)、再現率(recall)等の要素を基準として生成された人工知能モデルモデルの性能を判断することができる。前述した性能評価基準は例示に過ぎず、本発明はこれに制限されない。音響データの認識正確度を向上させるためのサーバー100はそれぞれの人工知能モデルを独立的に学習させて複数の人工知能モデルモデルを生成することができ、性能を評価して一定の性能以上の人工知能モデルのみを使うことができる。しかし、これに限定されない。
【0028】
本明細書に亘って、演算モデル、神経網、ネットワーク関数、ニューラルネットワーク(neural network)は同じ意味で使われ得る(以下では、神経網に統一して記述する)。データ構造は神経網を含むことができる。そして神経網を含んだデータ構造はコンピュータ読み取り可能媒体に保存され得る。神経網を含んだデータ構造はまた、神経網に入力されるデータ、神経網の加重値、神経網のハイパーパラメータ、神経網から獲得したデータ、神経網の各ノードまたはレイヤに関連した活性関数、神経網の学習のための損失関数を含むことができる。神経網を含んだデータ構造は前記開示された構成のうち任意の構成要素を含むことができる。すなわち、神経網を含んだデータ構造は神経網に入力されるデータ、神経網の加重値、神経網のハイパーパラメータ、神経網から獲得したデータ、神経網の各ノードまたはレイヤに関連した活性関数、神経網のトレーニングのための損失関数などの全部またはこれらの任意の組み合わせを含んで構成され得る。前述した構成以外にも、神経網を含んだデータ構造は神経網の特性を決定する任意の他の情報を含むことができる。また、データ構造は神経網の演算過程に使われたり発生するすべての形態のデータを含むことができ、前述した事項に制限されるものではない。コンピュータ読み取り可能媒体はコンピュータ読み取り可能記録媒体および/またはコンピュータ読み取り可能伝送媒体を含むことができる。神経網は一般的にノードと指称され得る相互に連結された計算単位の集合で構成され得る。このようなノードはニューロン(neuron)と指称されてもよい。神経網は少なくとも一つ以上のノードを含んで構成される。
【0029】
本発明の一実施例によると、音響データの認識正確度を向上させるためのサーバー100はクラウドコンピューティングサービスを提供するサーバーであり得る。より具体的には、音響データの認識正確度を向上させるためのサーバー100は、インターネット基盤コンピューティングの一種であり、情報を使用者のコンピュータではなくインターネットに連結された他のコンピュータで処理するクラウドコンピューティングサービスを提供するサーバーであり得る。前記クラウドコンピューティングサービスはインターネット上に資料を保存しておき、使用者が必要な資料やプログラムを自身のコンピュータに設置せずともインターネットの接続を通じて、いつ、どこででも利用できるサービスであり得、インターネット上に保存された資料を簡単な操作およびクリックで簡単に共有し伝達することができる。また、クラウドコンピューティングサービスはインターネット上のサーバーに単純に資料を保存することだけでなく、別途にプログラムを設置せずともウェブで提供する応用プログラムの機能を利用して所望する作業を遂行でき、複数の人が同時に文書を共有しながら作業を進行できるサービスであり得る。また、クラウドコンピューティングサービスはIaaS(Infrastructure as a Service)、PaaS(Platform as a Service)、SaaS(Software as a Service)、仮想マシン基盤クラウドサーバーおよびコンテナ基盤クラウドサーバーのうち少なくとも一つの形態で具現され得る。すなわち、本発明の音響データの認識正確度を向上させるためのサーバー100は前述したクラウドコンピューティングサービスのうち少なくとも一つの形態で具現され得る。前述したクラウドコンピューティングサービスの具体的な記載は例示に過ぎず、本発明はクラウドコンピューティング環境を構築する任意のプラットフォームを含んでもよい。
【0030】
多様な実施例で、音響データの認識正確度を向上させるためのサーバー100はネットワークを通じて使用者端末200と連結され得、音響データを分析する音響認識モデルを生成して提供できるだけでなく、音響認識モデルを通じて音響データを分析した情報(例えば、音響イベント情報)を使用者端末に提供することができる。
ここで、ネットワークは複数の端末およびサーバーのようなそれぞれのノード相互間で情報交換が可能な連結構造を意味し得る。例えば、ネットワークは近距離通信網(LAN:Local Area Network)、広域通信網(WAN:Wide Area Network)、インターネット(WWW:World Wide Web)、有線/無線データ通信網、電話網、有線/無線テレビ通信網などを含む。
【0031】
また、ここで、無線データ通信網は3G、4G、5G、3GPP(3rd Generation Partnership Project)、5GPP(5th Generation Partnership Project)、LTE(Long Term Evolution)、WIMAX(World Interoperability for Microwave Access)、ワイファイ(Wi-Fi)、インターネット(Internet)、LAN(Local Area Network)、Wireless LAN(Wireless Local Area Network)、WAN(Wide Area Network)、PAN(Personal Area Network)、RF(Radio Frequency)、ブルートゥース(Bluetooth)ネットワーク、NFC(Near-Field Communication)ネットワーク、衛星放送ネットワーク、アナログ放送ネットワーク、DMB(Digital Multimedia Broadcasting)ネットワークなどが含まれるが、これに限定されはしない。
【0032】
一実施例で、使用者端末200はネットワークを通じて音響データの認識正確度を向上させるためのサーバー100と連結され得、音響データの認識正確度を向上させるためのサーバー100に音響データを提供でき、提供された音響データに対する応答として各種イベント発生(例えば、警報音、子供の泣き声、ガラスが割れる音、タイヤがパンクする音などの発生)に関連した情報を提供を受けることができる。
ここで、使用者端末200は携帯性と移動性が保障される無線通信装置であり、ナビゲーション、PCS(Personal Communication System)、GSM(Global System for Mobile communications)、PDC(Personal Digital Cellular)、PHS(Personal Handyphone System)、PDA(Personal Digital Assistant)、IMT(International Mobile Telecommunication)-2000、CDMA(Code Division Multiple Access)-2000、W-CDMA(W-Code Division Multiple Access)、Wibro(Wireless Broadband Internet)端末、スマートフォン(Smartphone)、スマートパッド(Smartpad)、タブレットPC(Tablet PC)などのようなすべての種類のハンドヘルド(Handheld)基盤の無線通信装置を含むことができるが、これに限定されない。例えば、使用者端末200は、特定領域に関連した感知を遂行するために特定領域に備えられ得る。例えば、使用者端末200は車両に備えられて、車両が駐車中または走行中に発生する音響データを獲得することができる。前述した使用者端末が備えられる具体的な位置または場所に関する説明は例示に過ぎず、本発明はこれに制限されない。
【0033】
一実施例で、外部サーバー300はネットワークを通じて音響データの認識正確度を向上させるためのサーバー100と連結され得、音響データの認識正確度を向上させるためのサーバー100が人工知能モデルを活用して音響データを分析するために必要な各種情報/データを提供したり、人工知能モデルを活用した音響データ分析を遂行することによって導き出される結果データの提供を受けて保存および管理することができる。例えば、外部サーバー300は音響データの認識正確度を向上させるためのサーバー100の外部に別途に備えられる保存サーバーであり得るが、これに限定されない。以下、
図2を参照して音響データの認識正確度を向上させるためのサーバー100のハードウェア構成について説明することにする。
【0034】
図2は、本発明の一実施例に関連した音響データの認識正確度を向上させるためのサーバーのハードウェア構成図である。
図2を参照すると、本発明の一実施例に係る音響データの認識正確度を向上させるためのサーバー100(以下、「サーバー100」)は一つ以上のプロセッサ110、プロセッサ110によって遂行されるコンピュータプログラム151をロード(Load)するメモリ120、バス130、通信インターフェース140およびコンピュータプログラム151を保存するストレージ150を含むことができる。ここで、
図2には本発明の実施例に関連する構成要素のみが図示されている。したがって、本発明が属した技術分野の通常の技術者であれば
図2に図示された構成要素の他に他の汎用的な構成要素がさらに含まれ得ることが分かる。
プロセッサ110はサーバー100の各構成の全般的な動作を制御する。プロセッサ110はCPU(Central Processing Unit)、MPU(Micro Processor Unit)、MCU(Micro Controller Unit)、GPU(Graphic Processing Unit)または本発明の技術分野に広く知られている任意の形態のプロセッサを含んで構成され得る。
プロセッサ110はメモリ120に保存されたコンピュータプログラムを読み取って本発明の一実施例に係る人工知能モデルのためのデータ処理を遂行できる。本発明の一実施例によりプロセッサ110は神経網の学習のための演算を遂行できる。プロセッサ110はディープラーニング(DL:deep learning)で学習のための入力データの処理、入力データでのフィーチャー抽出、誤差計算、逆伝播(backpropagation)を利用した神経網の加重値アップデートなどの神経網の学習のための計算を遂行できる。
【0035】
また、プロセッサ110はCPU、GPGPU、およびTPUのうち少なくとも一つがネットワーク関数の学習を処理することができる。例えば、CPUとGPGPUが共にネットワーク関数の学習、ネットワーク関数を利用したデータ分類を処理することができる。また、本発明の一実施例で複数のコンピューティング装置のプロセッサを共に使ってネットワーク関数の学習、ネットワーク関数を利用したデータ分類を処理することができる。また、本発明の一実施例に係るコンピューティング装置で遂行されるコンピュータプログラムはCPU、GPGPUまたはTPU実行可能プログラムであり得る。
本明細書でネットワーク関数は人工神経網、ニューラルネットワークと相互に交換可能に使われ得る。本明細書でネットワーク関数は一つ以上のニューラルネットワークを含むこともでき、この場合、ネットワーク関数の出力は一つ以上のニューラルネットワークの出力のアンサンブル(ensemble)であり得る。
【0036】
プロセッサ110はメモリ120に保存されたコンピュータプログラムを読み取って本発明の一実施例に係る音響認識モデルを提供することができる。本発明の一実施例により、プロセッサ110は音響認識モデルを学習させるための計算を遂行できる。
本発明の一実施例によると、プロセッサ110は通常的にサーバー100の全般的な動作を処理することができる。プロセッサ110は前記にて詳察した構成要素を通じて入力または出力される信号、データ、情報などを処理したりメモリ120に保存された応用プログラムを駆動することによって、使用者または使用者端末に適正な情報または機能を提供したり処理することができる。
【0037】
また、プロセッサ110は本発明の実施例に係る方法を実行するための少なくとも一つのアプリケーションまたはプログラムに対する演算を遂行でき、サーバー100は一つ以上のプロセッサを具備することができる。
多様な実施例で、プロセッサ110はプロセッサ110内部で処理される信号(またはデータ)を一時的および/または永久的に保存するラム(RAM:Random Access Memory、図示されず)およびロム(ROM:Read-Only Memory、図示されず)をさらに含むことができる。また、プロセッサ110はグラフィック処理部、ラムおよびロムのうち少なくとも一つを含むシステムオンチップ(SoC:system on chip)の形態で具現され得る。
メモリ120は各種データ、命令および/または情報を保存する。メモリ120は本発明の多様な実施例に係る方法/動作を実行するためにストレージ150からコンピュータプログラム151をロードすることができる。メモリ120にコンピュータプログラム151がロードされると、プロセッサ110はコンピュータプログラム151を構成する一つ以上のインストラクションを実行することによって前記方法/動作を遂行できる。メモリ120はRAMのような揮発性メモリで具現され得るが、本発明の技術的範囲はこれに限定されるものではない。
【0038】
バス130はサーバー100の構成要素間の通信機能を提供する。バス130はアドレスバス(address Bus)、データバス(Data Bus)および制御バス(Control Bus)等多様な形態のバスで具現され得る。
通信インターフェース140はサーバー100の有線/無線インターネット通信を支援する。また、通信インターフェース140はインターネット通信以外の多様な通信方式を支援してもよい。このために、通信インターフェース140は本発明の技術分野に広く知られている通信モジュールを含んで構成され得る。いくつかの実施例で、通信インターフェース140は省略されてもよい。
【0039】
ストレージ150はコンピュータプログラム151を非臨時的に保存することができる。サーバー100を通じて音響データの認識正確度を向上させるためのプロセスを遂行する場合、ストレージ150は音響データの認識正確度を向上させるためのプロセスを提供するために必要な各種情報を保存することができる。
ストレージ150はROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、フラッシュメモリなどのような不揮発性メモリ、ハードディスク、着脱型ディスク、または本発明が属する技術分野で広く知られている任意の形態のコンピュータで読み込みできる記録媒体を含んで構成され得る。
コンピュータプログラム151はメモリ120にロードされる時、プロセッサ110に本発明の多様な実施例に係る方法/動作を遂行させる一つ以上のインストラクションを含むことができる。すなわち、プロセッサ110は前記一つ以上のインストラクションを実行することによって、本発明の多様な実施例に係る前記方法/動作を遂行できる。
【0040】
一実施例で、コンピュータプログラム151は音響データに基づいて一つ以上の音響フレームを構成する段階、一つ以上の音響フレームそれぞれを音響認識モデルの入力として処理して各音響フレームに対応する予測値を出力する段階、各音響フレームに対応する予測値に基づいた臨界値分析を通じて一つ以上の認識音響フレームを識別する段階、一つ以上の認識音響フレームに基づいて時系列分析を通じて変換音響フレームを識別する段階および変換音響フレームに対応する予測値に対する変換を遂行する段階を含む、音響データの認識正確度を向上させるための方法を遂行するようにする一つ以上のインストラクションを含むことができる。
【0041】
本発明の実施例に関連して説明された方法またはアルゴリズムの段階はハードウェアで直接具現されたり、ハードウェアによって実行されるソフトウェアモジュールで具現されたり、またはこれらの結合によって具現され得る。ソフトウェアモジュールはRAM(Random Access Memory)、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、フラッシュメモリ(Flash Memory)、ハードディスク、着脱型ディスク、CD-ROM、または本発明が属する技術分野で広く知られている任意の形態のコンピュータ読み取り可能記録媒体に常駐してもよい。
本発明の構成要素はハードウェアであるコンピュータと結合されて実行されるためにプログラム(またはアプリケーション)で具現されて媒体に保存され得る。本発明の構成要素はソフトウェアプログラミングまたはソフトウェア要素で実行され得、これと同様に、実施例はデータ構造、プロセス、ルーチンまたは他のプログラミング構成の組み合わせで具現される多様なアルゴリズムを含み、C、C++、ジャバ(Java)、アセンブラ(assembler)などのようなプログラミングまたはスクリプト言語で具現され得る。機能的な側面は一つ以上のプロセッサで実行されるアルゴリズムで具現され得る。以下、
図3~
図9を参照して、サーバー100により遂行される音響データの認識正確度を向上させるための方法について説明することにする。
【0042】
図3は、本発明の一実施例に関連した音響データの認識正確度を向上させるための方法を例示的に示したフローチャートである。
図3に図示された段階は必要によって順序が変更され得、少なくとも一つ以上の段階が省略または追加され得る。すなわち、以下の段階は本発明の一実施例に過ぎず、本発明の権利範囲はこれに制限されない。
本発明の一実施例によると、サーバー100は音響データを獲得することができる。音響データは実生活で獲得される音響に関連した情報を含むことができる。本発明の一実施例に係る音響データの獲得は、メモリ120に保存された音響データを受信したりまたはローディング(loading)するものであり得る。また、音響データの獲得は、有線/無線通信手段に基づいて他の保存媒体、他のコンピューティング装置、同一のコンピューティング装置内の別途の処理モジュールからデータを受信したりまたはローディングするものであり得る。
【0043】
一実施例によると、音響データは使用者に関連した使用者端末200を通じて獲得され得る。例えば、使用者に関連した使用者端末200は、スマートフォン(Smartphone)、スマートパッド(Smartpad)、タブレットPC(Tablet PC)などのようなすべての種類のハンドヘルド(Handheld)基盤の無線通信装置または特定空間(例えば、使用者の住居空間)上に備えられた電子装置(例えば、マイクを通じて音響データを受信できる装置)等を含むことができる。
本発明の一実施例によると、サーバー100は音響データに基づいて一つ以上の音響フレームを構成することができる(S100)。一つ以上の音響フレームは、時系列情報である音響データを特定時間単位に基づいて複数のフレームで分割したものであり得る。具体的には、サーバー100は音響データを予め定められた第1時間単位の大きさを有するように分割して一つ以上の音響フレームを構成することができる。例えば、第1音響データが1分という時間に対応して獲得された音響データである場合、サーバー100は、第1時間単位を2秒に設定して第1音響データを分割して30個の音響フレームを構成することができる。前述した第1時間単位および一つ以上の音響フレームに関連した具体的な数値的記載は例示に過ぎず、本発明はこれに制限されない。
【0044】
一実施例によると、サーバー100は一つ以上の音響フレームそれぞれが少なくとも一部重なるように一つ以上の音響フレームを構成することができる。
図4を参照して詳しく説明すると、一つ以上の音響フレームそれぞれの開始時点は、隣接した音響フレームそれぞれの開始時点と第2時間単位400bの大きさを有するように決定され得る。一実施例によると、第2時間単位400bの大きさは、第1時間単位400aの大きさより小さく決定され得る。すなわち、サーバー100は
図4に図示された通り、同じ第1時間単位400aを有する一つ以上の音響フレーム(すなわち、第1音響フレーム411、第2音響フレーム412、第3音響フレーム413等)410を生成することができる。この場合、各音響フレームは、隣接した音響フレームそれぞれと第1時間単位400aの大きさより小さい第2時間単位400bの大きさだけ差が出るように構成され得る。これに伴い、各音響フレームは、隣接した音響フレームそれぞれと少なくとも一部が重なり得る。
具体的な例として、音響データ400が10秒の間獲得された音響に関連し、第1時間単位400aが2秒に設定され得、第2時間単位400bは第1時間単位400aより小さい1秒に設定され得る。この場合、第1音響フレーム411は0~2秒の間獲得された音響に関連したものであり得、第2音響フレーム412は1~3秒の間獲得された音響に関連したものであり得、そして第3音響フレーム413は2~4秒の間獲得された音響に関連したものであり得る。前述した音響データの全体時間、第1時間単位、第2時間単位それぞれに関連した具体的な数値的記載は例示に過ぎず、本発明はこれに制限されない。
すなわち、各音響フレームの開始時点が隣接した音響フレームそれぞれの開始時点と第1時間単位400aの大きさより小さい第2時間単位400bの大きさの差を有するように、一つ以上の音響フレームが構成されることにより、各音響フレームの少なくとも一部は重複区間を有することができる。
【0045】
本発明の一実施例によると、サーバー100は一つ以上の音響フレームそれぞれを音響認識モデルの入力として処理して各音響フレームに対応する予測値を出力することができる(S200)。
一実施例によると、サーバー100は一実施例によると、サーバー100はオートエンコーダを教師なし学習(Unsupervised Learning)方式を通じて学習させることができる。具体的には、サーバー100は入力データと類似する出力データを出力するようにオートエンコーダを構成する次元減少ネットワーク関数(例えば、エンコーダ)および次元復元ネットワーク関数(例えば、デコーダ)を学習させることができる。詳しく説明すると、次元減少ネットワーク関数を通じてエンコーディング過程で入力された音響データの核心特徴データ(またはフィーチャー(feature))のみを隠れレイヤを通じて学習し、残りの情報を損失させることができる。この場合、次元復元ネットワーク関数を通じてのデコーディング過程で隠れレイヤの出力データは完ぺきなコピー値ではなく入力データ(すなわち、音響データ)の近似値であり得る。すなわち、サーバー100は出力データと入力データが最大限同一になるように加重値を調整することによって、オートエンコーダを学習させることができる。
【0046】
オートエンコーダは入力データと類似する出力データを出力するための神経網の一種であり得る。オートエンコーダは少なくとも一つの隠れレイヤを含むことができ、奇数個の隠れレイヤが入出力レイヤの間に配置され得る。それぞれのレイヤのノードの数は、入力レイヤのノードの数からボトルネックレイヤ(エンコーディング)という中間レイヤに縮小されてから、ボトルネックレイヤから出力レイヤ(入力レイヤと対称)に縮小と対称になって拡張されてもよい。入力レイヤおよび出力レイヤの数は入力データの前処理以後に残った入力データの項目の数と対応し得る。オートエンコーダ構造でエンコーダに含まれた隠れレイヤのノードの数は、入力レイヤから遠ざかるほど減少する構造を有することができる。ボトルネックレイヤ(エンコーダとデコーダの間に位置する最も少ないノードを有するレイヤ)のノードの数は、非常に小さい場合、十分な量の情報が伝達され得ないため、特定の数以上(例えば、入力レイヤの半分以上など)で維持されてもよい。
【0047】
サーバー100は、客体情報がそれぞれタギングされた複数の学習データを含む学習データセットを学習された次元減少ネットワークの入力として出力された客体別特徴データをタギングされた客体情報とマッチングして保存することができる。具体的には、サーバー100は次元減少ネットワーク関数を利用して、第1音響識別情報(例えば、ガラスが割れる音)がタギングされた第1学習データサブセットを次元減少ネットワーク関数の入力として、第1学習データサブセットに含まれた学習データに対する第1客体の特徴(feature)データを獲得することができる。獲得された特徴データはベクトルで表現され得る。この場合、第1学習データサブセットに含まれた複数の学習データそれぞれに対応して出力された特徴データは第1音響に関連した学習データを通じての出力であるので、ベクトル空間上で比較的近い距離に位置することができる。サーバー100はベクトルで表現された第1音響に関連した特徴データに第1音響識別情報(すなわち、ガラスが割れる音)をマッチングして保存することができる。
学習されたオートエンコーダの次元減少ネットワーク関数の場合、次元復元ネットワーク関数が入力データをよく復元できるようにする特徴をよく抽出するように学習され得る。
【0048】
また、例えば、第2音響識別情報(例えば、サイレンの音)がタギングされた第1学習データサブセットそれぞれに含まれた複数の学習データは、次元減少ネットワーク関数を通じて特徴データ(すなわち、フィーチャー)に変換されてベクトル空間上に表示され得る。この場合、該当特徴データは第2音響識別情報(すなわち、サイレンの音)に関連した学習データを通じての出力であるので、ベクトル空間上で比較的近い距離に位置することができる。この場合、第2音響識別情報に対応する特徴データは第1音響識別情報(例えば、ガラスが割れる音)に対応する特徴データと異なるベクトル空間上に表示され得る。
【0049】
実施例で、サーバー100は学習されたオートエンコーダで次元減少ネットワーク関数を含んで音響認識モデル500を構成することができる。すなわち、前記のような学習過程を通じて生成された次元減少ネットワーク関数を含んで構成された音響認識モデル500は音響フレームを入力にする場合、該当音響フレームを次元減少ネットワーク関数を活用した演算を通じて音響フレームに対応する特徴情報(すなわち、フィーチャー)を抽出することができる。
この場合、音響認識モデル500は音響フレームに対応するフィーチャーが表示された領域と客体別特徴データのベクトル空間上の距離の比較を通じて音響スタイルの類似性を評価することができ、該当類似性評価に基づいて音響データに対応する予測値を出力することができる。一実施例で、予測値は、一つ以上の予測項目情報および一つ以上の予測項目情報それぞれに対応する予測数値情報を含むことができる。
【0050】
具体的には、音響認識モデル500は音響フレームを次元減少ネットワーク関数を利用して演算することによって、特徴情報(すなわち、フィーチャー)を出力することができる。この場合、音響認識モデルは、音響フレームに対応して出力された特徴情報と学習を通じてベクトル空間上に事前に記録された音響識別情報別特徴データの間の位置に基づいて音響フレームに対応する一つ以上の予測項目情報および各予測項目情報に対応する予測数値情報を含むことができる。
一つ以上の予測項目情報は、どのような音に関連したものであるかに関する情報であり、例えば、ガラスが割れる音、タイヤがパンクする声、非常サイレンが作動する音、子犬が吠える声、雨が降る音などを含むことができる。このような予測項目情報は、音響フレームに対応して出力された特徴情報とベクトル空間上の位置が近い音響識別情報に基づいて生成され得る。例えば、音響認識モデルは第1音響フレームに対応して出力された第1特徴情報と近接した位置にある特徴情報にマッチングされた音響識別情報を通じて一つ以上の予測項目情報を構成することができる。前述した一つ以上の予測項目情報に関連した具体的な記載は例示に過ぎず、本発明はこれに制限されない。
【0051】
各予測項目情報に対応する予測数値情報は、予測項目情報それぞれに対応して予測した数値に関する情報であり得る。例えば、音響認識モデルは第1音響フレームに対応して出力された第1特徴情報と近接した位置にある特徴情報にマッチングされた音響識別情報を通じて一つ以上の予測項目情報を構成することができる。この場合、第1特徴情報が各音響識別情報に対応する特徴情報と位置が近いほど高い予測数値情報が出力され得、第1特徴情報と各音響識別情報に対応する特徴情報の位置が遠いほど低い予測数値情報が出力され得る。
具体的な例として、
図5に図示された通り、音響認識モデル500は第1音響フレーム411に対応して「サイレンの音」、「悲鳴」、「ガラスが割れる音」および「その他の音」に関連するという予測項目情報610を出力することができる。また、音響認識モデル500は各予測項目情報610に対応して「1」、「95」、「3」および「2」という予測数値情報620を出力することができる。すなわち、音響認識モデル500は第1音響フレーム411に対応してサイレンの音に関連する確率が1であり、悲鳴に関連する確率が95であり、ガラスが割れる音に関連する確率が「3」であり、そしてその他の音に関連する確率が「2」という予測値600を出力することができる。前述した予測項目情報および予測数値情報それぞれに対する具体的な数値に対する記載は例示に過ぎず、本発明はこれに制限されない。
すなわち、サーバー100は音響認識モデル500を通じて音響データに基づいて構成した一つ以上の音響フレームそれぞれに対応する予測値を出力することができる。例えば、音響認識モデル500は第1音響フレーム411に対応して第1予測値を出力し、第2音響フレーム412に対応して第2予測値を出力し、そして第3音響フレーム413に対応して第3予測値を出力することができる。
【0052】
本発明の一実施例によると、サーバー100は各音響フレームに対応する予測値に基づいた臨界値分析を通じて一つ以上の認識音響フレームを識別することができる(S300)。ここで、臨界値分析は、各音響フレームに対応する一つ以上の予測数値情報それぞれが、各予測項目情報に対応して予め定められた臨界値以上であるかどうかを判別して一つ以上の認識音響フレームを識別する分析を意味し得る。臨界値分析を通じて一つ以上の認識音響フレームを識別する方法に対する具体的な説明は、
図6を参照して以下で後述することにする。
一実施例で、サーバー100は一つ以上の音響フレームそれぞれに対応する一つ以上の予測数値情報それぞれを識別することができる(S310)。具体的な例として、一つ以上の音響フレームは、第1音響フレームおよび第2音響フレームを含むことができる。サーバー100は各音響フレームを音響認識モデル500の入力として処理して各音響フレームに対応する予測値を出力することができる。ここで、予測値は、一つ以上の予測項目情報および各予測項目情報に対応する予測数値情報を含むことができる。これに伴い、サーバー100は各音響フレームに対応して音響認識モデルが出力した予測値を通じて各音響フレームに対応する予測数値情報を識別することができる。
【0053】
例えば、サーバー100は第1音響フレーム411に対応する予測値を通じて「ガラスが割れる音」および「子供の泣き声」それぞれに対応する予測数値情報が「82」および「5」であることを識別することができる。
また、例えば、サーバー100は第2音響フレーム412に対応する予測値を通じて「ガラスが割れる音」および「サイレンの音」それぞれに対応する予測数値情報が「50」および「12」であることを識別することができる。前述した予測数値情報に対する具体的な数値的記載は例示に過ぎず、本発明はこれに制限されない。
また、サーバー100は一つ以上の予測項目情報に対応して予め定められた臨界値を識別することができる(S320)。一実施例で、各予測項目情報に対応して臨界値が事前に設定され得る。臨界値は、一定以上の正確度を有する音響認識結果を識別するための臨界値を意味し得る。例えば、第1音響フレームに対応する予測数値情報が臨界値以上である場合、第1音響フレームの音響認識結果は信頼できるような水準であることを意味し得る。他の例として、第2音響フレームに対応する予測数値情報が臨界値未満である場合、第2音響フレームの音響認識結果は正確度が多少欠如したことを意味し得る。前述した各音響フレームに対する具体的な記載は例示に過ぎず、本発明はこれに制限されない。
【0054】
このような臨界値は予測項目別に互いに異なるように設定され得る。一実施例によると、各予測項目別臨界値は、音響認識の難易度に対応して事前に決定され得る。例えば、認識が難しい音響であるほど臨界値が比較的低く設定され得、認識が容易な音響であるほど臨界値が比較的高く設定され得る。認識が容易であるかどうかに対する判別は例えば、ベクトル空間上で各音響識別情報に含まれた特徴情報の分布図に基づいたものであり得る。実施例で、特定の音響識別情報に対応して出力された特徴情報が広く分布した場合、認識が難しいものであり、特徴情報が密集しているほど認識が容易なものであり得る。すなわち、一つ以上の予測項目情報それぞれに対応して臨界値が設定されていてもよい。具体的な例として、比較的認識が容易な爆発音の臨界値は90であり得、認識が難しい子供の泣き声に関連した臨界値は60であり得る。前述した各音響に関連して予め設定された臨界値に対する具体的な説明は例示に過ぎず、本発明はこれに制限されない。
サーバー100は予測数値情報それぞれが予め定められた臨界値以上であるかどうかを判別して一つ以上の認識音響フレームを識別することができる(S330)。具体的には、サーバー100は各音響フレームに対応して予測値を出力することができる。この場合、各音響フレームに対応する予測値聞いた予測項目情報および予測数値情報を含むことができる。
【0055】
具体的な例として、サーバー100は第1音響フレーム411に対応する予測値を通じて「ガラスが割れる音」および「子供の泣き声」それぞれに対応する予測数値情報が「82」および「5」であることを識別することができ、第2音響フレーム412に対応する予測値を通じて「ガラスが割れる音」および「サイレンの音」それぞれに対応する予測数値情報が「50」および「12」であることを識別することができる。
【0056】
また、サーバー100は各音響フレームに対応する予測項目情報(すなわち、ガラスが割れる音、子供の泣き声、サイレンの音)それぞれに予め定められた臨界値を識別することができる。例えば、ガラスが割れる音、子供の泣き声およびサイレンの音に対応する予め定められた臨界値をそれぞれ80、60および90に識別することができる。
サーバー100は各音響フレームに対応する予測数値情報とこれに対応する臨界値それぞれを比較して一つ以上の認識音響フレームを識別することができる。
具体的には、サーバー100は出力した予測値に含まれた予測数値情報それぞれがすでに定められた臨界値以上であるかどうかを判別して一つ以上の認識音響フレームを識別することができる。
【0057】
この場合、サーバー100は第1音響フレーム411にガラスが割れる音に対応する予測数値情報が82であり、該当ガラスが割れる音に関連して予め定められた臨界値である80以上であることを識別して第1音響フレーム411を一つ以上の認識音響フレームとして識別することができる。また、サーバー100は第2音響フレーム412にガラスが割れる音に対応する予測数値情報が予め定められた臨界値である50であり、該当ガラスが割れる音に関連して予め定められた臨界値である80未満であることを識別して第2音響フレーム412は一つ以上の認識音響フレームと識別しないことができる。
換言すると、サーバー100は音響データ400に基づいて構成された一つ以上の音響フレームのうち予め定められた臨界値以上の予測数値情報を有する音響フレームのみを一つ以上の認識音響フレームとして識別することができる。すなわち、サーバー100は各音響フレームのうち正確度が劣る認識結果に関連したフレームは除去し、一定の信頼度以上のフレームのみを一つ以上の認識音響フレームとして識別することができる。
【0058】
本発明の一実施例によると、サーバー100は一つ以上の認識音響フレームに基づいた時系列分析を通じて変換音響フレームを識別することができる(S400)。ここで、時系列分析は、音響データが獲得される時点を観測して誤認識される音響が存在するかどうかを判別する分析を意味し得る。時系列分析を通じて一つ以上の変換音響フレームを識別する方法に対する具体的な説明は、
図7を参照して以下で後述することにする。
【0059】
一実施例で、サーバー100は一つ以上の認識音響フレームそれぞれに対応する予測項目情報を識別することができる(S410)。すなわち、サーバー100は臨界値分析結果識別された一つ以上の認識音響フレームそれぞれがどのような音響に関するものであるかを識別することができる。
例えば、一つ以上の認識音響フレームは、第1音響フレーム、第4音響フレームおよび第5音響フレームを含むことができる。この場合、サーバー100は各音響フレームの予測項目情報を識別することができる。例えば、第1音響フレームの予測項目情報は、「ガラスが割れる音」を含むことができ、第4音響フレームの予測項目情報は「サイレンの音」を含むことができ、そして第5音響フレームの予測項目情報は「サイレンの音」を含むことができる。前述した一つ以上の認識音響フレームおよび予測項目情報に対する具体的な記載は例示に過ぎず、本発明はこれに制限されない。
実施例で、サーバー100は予測項目情報が予め定められた基準時間の間予め定められた臨界回数以上反復されるかどうかを判別することができる(S420)。具体的には、サーバー100は予測項目情報それぞれには基準時間および臨界回数が事前に設定されていてもよい。例えば、子犬が吠える声の場合、基準時間は2個の音響フレームに関連した時間で予め定められ得、臨界回数は2回に予め定められ得る。換言すると、サーバー100は一つ以上の認識音響フレームが子犬が吠える声に関連した場合、該当項目情報(すなわち、子犬が吠える声)に予め定められている基準時間および予め定められている臨界回数を識別し、基準時間の間予め定められた臨界回数だけ子犬が吠える声が反復されて認識されたかどうかを判別することができる。すなわち、サーバー100は一つ以上の認識音響フレームを通じて特定の音響が予め定められた基準値だけ連続して認識されるかどうかを判別することができる。
【0060】
サーバー100は判別結果に基づいて変換音響フレームを識別することができる(S430)。サーバー100は一つ以上の認識音響フレームを通じて特定の音響が設定された基準値だけ連続して認識されていないと判別(すなわち、予め定められた基準時間内に予め定められた臨界回数以上反復されたと判別)した場合、一つ以上の認識音響フレームのうち少なくとも一つを変換音響フレームとして識別することができる。ここで、変換音響フレームは、誤認識確率を減らすために、すなわち、認識正確度の向上のために変換の対象となる音響フレームを意味し得る。
本発明の一実施例によると、サーバー100は変換音響フレームに対応する予測値に対する変換を遂行できる(S500)。実施例で、予測値に対する変換は、雑音変換および音響項目変換のうち少なくとも一つを含むことができる。
【0061】
雑音変換は、変換音響フレームに基づいた音響認識モデルの出力を認識未対象項目に変換することを意味し得る。すなわち、変換フレームに関連した音響認識モデルの出力(すなわち、予測値)を認識未対象項目(例えば、others)に変換することを意味し得る。
音響項目変換は、変換音響フレームに関連した予測項目情報を校正予測項目情報に変換することを意味し得る。ここで、校正予測項目情報は、予測項目情報の連関関係に基づいて決定され得る。
具体的な例として、変換音響フレームに関連した予測項目情報が「手を洗う音」という情報を含む場合、該当手を洗う音と連関関係を有する「便器に水が満ちる音」が校正予測項目情報として決定され得る。この場合、サーバー100は手を洗う音に関連した変換音響フレームが便器に水が満ちる音と認識されるように予測項目情報を変換することができる。前述した予測項目情報および校正予測項目情報に対する具体的な記載は例示に過ぎず、本発明はこれに制限されない。
結果として、サーバー100は一つ以上の認識音響フレームを通じて特定の音響が設定された基準値だけ連続して認識されていないと判別(すなわち、予め定められた基準時間内に予め定められた臨界回数以上反復されたと判別)する場合、変換フレームを識別し、該当変換フレームの予測値に対する変換を遂行できる。この場合、変換フレームの予測値変換は、変換フレームが認識されないように変換したり(すなわち、認識未対象項目に変換)またはイベントを認識しようとする場合、認識エラーを引き起こさない他の音響として認識されるように変換することを意味し得る。このような変換は、一つ以上の音響フレームそれぞれが、隣接した音響フレームと一部が重なることによって可能なものであり得る。例えば、第2時間単位を通じて一部が重なるように認識されるので、一つの音響フレームで単独で認識される音響フレームは変換フレームとして識別されて変換され得る。
すなわち、特定の音響をターゲティングにしてイベントを検出しようとする場合、誤認識に関連した音響フレームが認識エラーを引き起こさないように補正(または変換)することで、音声データの認識正確度を向上させることができる。
【0062】
本発明の一実施例によると、サーバー100は一つ以上の認識音響フレームそれぞれに対応する予測項目情報に基づいて各認識音響フレーム間の連関関係を識別することができる。例えば、一つ以上の認識音響フレームは、第1音響フレームおよび第2音響フレームを含むことができる。第1音響フレームは「便器に水を流す音」という予測項目情報を含むことができ、第2音響フレームは「手を洗う音」という予測項目情報を含むことができる。サーバー100は各音響フレーム間の連関関係を識別することができる。例えば、サーバー100は第1音響フレームの獲得以後に第2音響フレームの獲得が予測されるという連関関係を識別することができる。
実施例で、サーバー100は連関関係に基づいて一つ以上の音響フレームそれぞれに対応する臨界値および臨界回数の調整の有無を決定することができる。サーバー100は音響フレームの間の連関関係により音響フレームに対応する臨界値および前記臨界回数を調整することができる。すなわち、音響フレームの間の連関関係により、音響項目それぞれごとに予め設定された臨界値および臨界回数が可変的に調整され得る。
より具体的な例として、サーバー100は便器の水が流れる音響に関連したイベントを感知するために備えられ得る。この場合、音響データに基づいて獲得された第1音響フレームは「便器に水を流す音」という予測項目情報を含むことができ、第2音響フレームは「手を洗う音」という予測項目情報を含むことができる。例えば、第2音響フレームに関連した音響も水が流れる音に関するものであり、サーバー100が感知または認識する音響イベント(すなわち、便器に水を流す音)と類似し得る。これに伴い、サーバー100は音響フレーム間の連関関係(すなわち、第1音響フレームの獲得以後に手を洗う音の獲得が予測されるという連関関係)を識別して手を洗う音に関連した予測項目に対応する臨界値および臨界回数を調整することができる。
【0063】
例えば、サーバー100は手を洗う音に関連した音響予測項目に対応する臨界値を、既存の80から95に調整することができる。これに伴い、臨界値分析過程で手を洗う音を判断するための基準値が向上して認識の正確度がより向上し得る。この場合、既存より高い基準値が設定されることによって、音響フレームが手を洗う音と認識される確率が少なくなることにより、便器に水を流す音に関連したイベント認識の正確度が向上し得る。
他の例として、サーバー100は便器に水を流す音以後に手を洗う音に関連した音響予測項目に対応する臨界回数を、既存の2回から5回に調整することができる。手を洗う音が単独で認識される場合には、2回のみ連続で認識されても正常に認識されたものとで判別するが、関連した音(すなわち、便器に水を流す音)以後には5回反復して獲得されてこそ認識されたものと判別することができる。
すなわち、音響間の相関関係により臨界値および臨界回数を可変的に調整することによって、次の時点で獲得される音響フレームが認識未対象項目(例えば、others)として処理されるようにすることができる。換言すると、第1音響フレームが認識される場合、該当第1音響フレーム(例えば、便器に水を流す音)に関連した第2音響フレーム(例えば、手を洗う音)に関連した臨界値および臨界回数を調整して基準値を高めることにより、以後第2音響フレームが獲得される時、認識未対象項目として認識されるように処理することができる。これに伴い、感知しようとする第1音響フレームに関連した認識の正確度が最大化され得る。
【0064】
図8は、本発明の一実施例に関連した音響データ補正過程を説明するための例示的な表を図示する。
図9は、本発明の一実施例に関連した音響データの補正過程を説明するための例示図を図示する。
図8は、音響データに基づいて5個の音響フレームを構成した場合に対応して音響認識モデルが出力した予測値に関連した表であり得る。
図8に図示された通り、5個の音響フレームは、0~1秒に対応する第1音響フレーム、0.5~1.5に対応する第2音響フレーム、1~2秒に対応する第3音響フレーム、1.5~2.5秒に対応する第4音響フレーム、2~3秒に対応する第5音響フレームを含むことができる。この場合、第1時間単位400aは1秒であり、第2時間単位400bは0.5秒であり得る。隣接した音響フレームそれぞれの開始時点が第1時間単位400aの大きさより小さい第2時間単位400bの大きさだけ差が出るように構成されることによって、各音響フレームは、隣接した音響フレームそれぞれと少なくとも一部が重なり得る。
【0065】
また、各音響フレームに対応する予測項目情報および各予測項目情報に対応する予測数値情報は、
図8に図示された通りであり得る。例えば、予測数値情報は1に近いほど予測確率が高いことを意味し得、0に近いほど予測確率が低いことを意味し得る。例えば、0.5~1.5秒、すなわち第2音響フレームに対応するsirenの出力が0.9であって、最も高いことを確認することができる。これは、0.5~1.5秒の間に獲得された音響がsirenである確率が非常に高いことを意味し得る。
図9の(a)は、
図8の予測値に対応して臨界値分析を遂行した結果を示した例示図である。
図9の(a)を参照すると、sirenの場合、臨界値(例えば、0.6)以上のフレーム(すなわち、第2音響フレーム、第3音響フレームおよび第4音響フレーム)のみが識別されることを確認することができる。また、screamの場合、臨界値(例えば、0.3)以上のフレーム(すなわち、第1音響フレームおよび第4音響フレーム)のみが識別されることを確認することができる。また、glass breakの場合、臨界値(例えば、0.7)以上のフレーム(すなわち、第5音響フレーム)のみが識別されることを確認することができる。例えば、各予測項目に対応して臨界値以上の音響フレームが一つ以上の認識音響フレームとして識別され得る。
【0066】
図9の(b)は、
図8の予測値に対応して時系列分析を遂行した結果を示した例示図である。この場合、予め定められた基準時間は2個の音響フレームに関連した時間と予め設定され得、臨界回数は2回と予め設定され得る。
図9の(a)および(b)を参照すると、sirenの場合、2回連続で認識音響フレームの認識結果が観測された場合に関連したフレームのみが認識対象として残っていることを確認することができる。
【0067】
具体的には、
図9の(a)では第2音響フレームが一つ以上の認識音響フレームとして識別されたが、時系列分析結果
図9の(b)で変換されたことを確認することができる。すなわち、
図9の(a)で第1音響フレームと第2音響フレームの観測結果、2回連続で観測されていないので、サーバー100は第2音響フレームを変換フレームとして識別してothersに変換する補正を遂行できる。これに伴い、
図9の(b)のように、sirenの第2音響フレーム領域に「x」で表示され得る。これは該当区間でsirenの音が認識されていないことを示すものであり得る。以後の時点に関連して、第2音響フレームおよび第3音響フレームがすべて臨界値以上の予測数値情報を有することにより、第3音響フレームはsirenが認識されたと判断することができる。第4音響フレームも同様に、第3音響フレームおよび第4音響フレームがすべて臨界値以上の予測数値情報を有することによって、sirenが認識されたと判断することができる。
【0068】
また、screamの場合、臨界値分析結果、
図9の(a)と同様に、第1音響フレームおよび第4音響フレームに関連してscreamが発生したと感知したことを確認することができる。ただし、時系列分析過程で、第3音響フレームと第4音響フレームのすべてにおいて2回連続でscreamの発生が観測されていないので、サーバー100は第4音響フレームを変換フレームとして識別してothersに変換する補正を遂行できる。これに伴い、
図9の(b)のように、screamの第4音響フレーム領域に「x」で表示され得る。これは該当区間でsirenの音が認識されていないことを示すものであり得る。
追加的な実施例で、サーバー100は全体の音響データの認識結果に対する情報を使用者端末200に提供することができる。すなわち、全体の音響データの認識結果に対する情報は、時系列的に獲得された全体の音響データに対応して各時点別(例えば、各音響フレーム別)にどのような音が認識されたかに関する情報を含むことができる。例えば、全体の音響データの認識結果に対する情報は、
図9の(c)と同一であり得る。
【0069】
図9の(c)を参照すると、第2音響フレームに関連してsirenが認識されたという情報が表示され得る。この場合、sirenに関連した第2音響フレームは、
図9の(b)に図示された通り、時系列分析過程でsirenの音が認識されていないので、変換(または補正)されたものであり得る。実施例で、サーバー100は全体の音響データの認識結果に対する情報を提供する場合、臨界値を越えたが、時系列分析過程で除外された結果を再び復旧することができる。これは、音響認識過程では連続的に二回以上認識されてこそ認識対象として活用するが、全体的な認知情報を提供する場合には、該当認識結果を反映するためのものであり得る。
【0070】
本発明の実施例に関連して説明された方法またはアルゴリズムの段階は、ハードウェアで直接具現されたり、ハードウェアによって実行されるソフトウェアモジュールで具現されたり、またはこれらの結合によって具現され得る。ソフトウェアモジュールはRAM(Random Access Memory)、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、フラッシュメモリ(Flash Memory)、ハードディスク、着脱型ディスク、CD-ROM、または本発明が属する技術分野で広く知られている任意の形態のコンピュータ読み取り可能記録媒体に常駐してもよい。
本発明の構成要素はハードウェアであるコンピュータと結合されて実行されるためにプログラム(またはアプリケーション)で具現されて媒体に保存され得る。本発明の構成要素はソフトウェアプログラミングまたはソフトウェア要素で実行され得、これと同様に、実施例はデータ構造、プロセス、ルーチンまたは他のプログラミング構成の組み合わせで具現される多様なアルゴリズムを含んで、C、C++、ジャバ(Java)、アセンブラ(assembler)などのようなプログラミングまたはスクリプト言語で具現され得る。機能的な側面は一つ以上のプロセッサで実行されるアルゴリズムで具現され得る。
以上、添付された図面を参照して本発明の実施例を説明したが、本発明が属する技術分野の通常の技術者は本発明がその技術的思想や必須の特徴を変更することなく他の具体的な形態で実施され得ることが理解できるであろう。したがって、以上で記述した実施例はすべての面で例示的なものであり、制限的ではないものと理解されるべきである。
【国際調査報告】