(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-20
(45)【発行日】2024-08-28
(54)【発明の名称】音声認識結果及び参照データにおいて重要部分を決定し、連携する方法{METHOD FOR DETERMINING AND LINKING IMPORTANT PARTS AMONG STT RESULT AND REFERENCE DATA}
(51)【国際特許分類】
G10L 15/10 20060101AFI20240821BHJP
【FI】
G10L15/10 500T
(21)【出願番号】P 2024000067
(22)【出願日】2024-01-04
【審査請求日】2024-01-09
(31)【優先権主張番号】10-2023-0000740
(32)【優先日】2023-01-03
(33)【優先権主張国・地域又は機関】KR
【早期審査対象出願】
(73)【特許権者】
【識別番号】522357781
【氏名又は名称】アクションパワー コーポレイション
(74)【代理人】
【識別番号】110002789
【氏名又は名称】弁理士法人IPX
(72)【発明者】
【氏名】キム・ヒョンウ
(72)【発明者】
【氏名】ムン・ファンボク
(72)【発明者】
【氏名】キム・カンウク
【審査官】大野 弘
(56)【参考文献】
【文献】特開2008-152605(JP,A)
【文献】国際公開第2016/129118(WO,A1)
【文献】国際公開第2016/043110(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
G06F 40/00-40/58
(57)【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサーを含むコンピューティング装置により実行される、音声認識結果(STT;Speech-To-Text)及び参照データにおいて重要部分を決定する方法であって、
音声信号に対して音声認識を行って生成された、音声認識データを取得する段階;
前記音声信号に関連する参照データを取得する段階;
予め決定されたキーワード情報に基づき、前記音声認識データと前記参照データとのうち、いずれか1つのデータを選択する段階と、
選択されたデータのうちの一部である第1重要情報を決定する段階;及び
前記音声認識データと前記参照データとのうち、前記第1重要情報が決定されたデータではない他のデータにおいて、前記第1重要情報に関連する第2重要情報を決定する段階
を含み、
前記音声認識データと前記参照データとのうち、前記第1重要情報が決定されたデータではない他のデータにおいて、前記第1重要情報に関連する第2重要情報を決定する段階は、
前記他のデータにおいて、前記第1重要情報との単語類似度がしきい値以上の部分を、前記第2重要情報として決定する段階;
前記他のデータにおいて、前記第1重要情報との文章埋め込みベクター(sentence embedding vector)類似度がしきい値以上の部分を前記第2重要情報として決定する段階;
前記第1重要情報及び前記他のデータについて質疑応答(QA;Question Answering)モデルが出力した結果に基づき、前記他のデータにおいて前記第2重要情報を決定する段階;又は
時刻同期(time-sync)情報に基づき、前記他のデータにおいて前記第2重要情報を決定する段階
のうち、少なくとも1つの段階
を含む、
方法。
【請求項2】
請求項1において、
前記予め決定されたキーワード情報に基づき、いずれか1つの前記データを選択する段階は、
前記音声認識データと前記参照データとのうち、予め決定されたキーワードが多く含まれている方のデータを選択する段階
を含む、
方法。
【請求項3】
請求項1又は請求項2において、
前記予め決定されたキーワード情報に基づき、前記選択されたデータにおいて、前記第1重要情報を決定する段階
を含む、
方法。
【請求項4】
請求項3において、
前記予め決定されたキーワード情報に基づき、前記音声認識データと前記参照データとのうち、いずれか1つのデータを選択する段階は、
前記音声認識データと前記参照データとのうち、前記予め決定されたキーワードに類似した単語がより多く含まれているデータを選択する段階を含み、
前記予め決定されたキーワードに類似した単語は、編集距離の分析に基づき決定される、
方法。
【請求項5】
請求項3において、
前記予め決定されたキーワード情報に基づき、前記選択されたデータにおいて、前記第1重要情報を決定する段階は、
前記選択されたデータにおいて、前記予め決定されたキーワードとの類似度が最も高い部分を識別し、識別された部分に基づき、前記第1重要情報を決定する段階を含み、
前記予め決定されたキーワードとの類似度は、編集距離の分析に基づき決定される、
方法。
【請求項6】
請求項1において、
前記他のデータにおいて、前記第1重要情報との単語類似度がしきい値以上の部分を、前記第2重要情報として決定する段階は、
前記他のデータにおいて、前記第1重要情報と同一の単語又は類似した単語をしきい値以上含む部分を識別する段階;及び
前記識別された部分を前記第2重要情報として決定する段階
を含み、
前記類似した単語は、編集距離に基づいて識別される、
方法。
【請求項7】
請求項1において、
前記音声認識データと前記参照データとのうち、前記第1重要情報が決定されたデータではない他のデータにおいて、前記第1重要情報に関連する第2重要情報を決定する段階は、
前記第2重要情報の決定をガイドするためのUI(User Interface)データを生成する段階;及び
前記他のデータにおいて、前記UIを介して入力される情報に基づき、前記第1重要情報に関連する前記第2重要情報を決定する段階
をさらに含む、
方法。
【請求項8】
請求項1において、
前記音声認識データと前記参照データとのうち、前記第1重要情報が決定されたデータではない他のデータにおいて、前記第1重要情報に関連する第2重要情報を決定する段階は、
前記他のデータにおいて、前記第1重要情報とは異なる言語単位を前記第2重要情報として決定する段階を含み、
前記異なる言語単位は、単語単位、文単位、又は、段落単位を含む、
方法。
【請求項9】
請求項1において、
前記参照データは、前記音声認識データとの類似度分析に基づいて識別され、
前記類似度分析は、編集距離分析を含む、
方法。
【請求項10】
請求項9において、
前記参照データは、
前記音声信号に関連するノートデータ;
前記音声信号に関連するコンテンツデータ;又は
前記音声信号に関連する学習資料データ
のうち、少なくとも1つデータを含む、
方法。
【請求項11】
請求項1において、
前記方法は、
追加の参照データを取得する段階;
前記追加の参照データにおいて、前記第1重要情報及び前記第2重要情報に関連する第3重要情報を決定する段階;及び
前記第1重要情報、前記第2重要情報、及び前記第3重要情報を互いに関連付ける段階
をさらに含む、
方法。
【請求項12】
請求項1において、
前記方法は、
前記第1重要情報又は前記第2重要情報に基づき、前記音声認識データを再構成し、再構成音声認識データを提供する段階をさらに含み、
前記再構成音声認識データは、重要部分として決定された音声認識データだけを含み、
前記再構成音声認識データは、前記第1重要情報又は前記第2重要情報の言語単位より大きい言語単位を含む、
方法。
【請求項13】
請求項1において、
前記方法は、
前記第1重要情報又は前記第2重要情報に基づき、前記参照データを再構成し、再構成参照データを生成する段階をさらに含み、
前記参照データが映像データを含む場合、前記再構成参照データは、重要部分として決定された複数の部分的な映像だけをつなげることで生成される、
方法。
【請求項14】
請求項1において、
前記方法は、
前記第1重要情報又は前記第2重要情報に基づき、前記音声認識データに係る要約情報を生成する段階をさらに含み、
前記要約情報は、前記第1重要情報又は前記第2重要情報に基づく重みを活用して生成される、
方法。
【請求項15】
コンピューター可読保存媒体に保存されたコンピュータープログラムであって、前記コンピュータープログラムは、1つ以上のプロセッサーによって実行される場合、前記1つ以上のプロセッサーに、音声認識結果(STT;Speech-To-Text)及び参照データにおいて重要部分を決定するための以下の動作を実行させ、前記動作は、
音声信号に対して音声認識を行って生成された、音声認識データを取得する動作;
前記音声信号に関連する参照データを取得する動作;
予め決定されたキーワード情報に基づき、前記音声認識データと前記参照データとのうち、いずれか1つのデータ
を選択する動作と、
選択されたデータのうちの一部である第1重要情報を決定する段階;及び
前記音声認識データと前記参照データとのうち、前記第1重要情報が決定されたデータではない他のデータにおいて、前記第1重要情報に関連する第2重要情報を決定する動作
を含み、
前記音声認識データと前記参照データとのうち、前記第1重要情報が決定されたデータではない他のデータにおいて、前記第1重要情報に関連する第2重要情報を決定する動作は、
前記他のデータにおいて、前記第1重要情報との単語類似度がしきい値以上の部分を、前記第2重要情報として決定する動作;
前記他のデータにおいて、前記第1重要情報との文章埋め込みベクター(sentence embedding vector)類似度がしきい値以上の部分を前記第2重要情報として決定する動作;
前記第1重要情報及び前記他のデータについて質疑応答(QA; Question Answering)モデルが出力した結果に基づき、前記他のデータにおいて前記第2重要情報を決定する動作;又は
時刻同期(time-sync)情報に基づき、前記他のデータにおいて前記第2重要情報を決定する動作
のうち、少なくとも1つを含む、
コンピューター可読保存媒体に保存されたコンピュータープログラム。
【請求項16】
音声認識結果(STT;Speech-To-Text)及び参照データにおいて重要部分を決定するためのコンピューティング装置であって、
少なくとも1つのプロセッサー;及び
メモリー
を含み、
前記少なくとも1つのプロセッサーは、
音声信号に対して音声認識を行って生成された、音声認識データを取得し;
前記音声信号に関連する参照データを取得し;
予め決定されたキーワード情報に基づき、前記音声認識データと前記参照データとのうち、いずれか1つのデータ
を選択し、
選択されたデータのうちの一部である第1重要情報を決定し;且つ
前記音声認識データと前記参照データとのうち、前記第1重要情報が決定されたデータではない他のデータにおいて、前記第1重要情報に関連する第2重要情報を決定するように構成され、
前記音声認識データと前記参照データとのうち、前記第1重要情報が決定されたデータではない他のデータにおいて、前記第1重要情報に関連する第2重要情報を決定することは、
前記他のデータにおいて、前記第1重要情報との単語類似度がしきい値以上の部分を、前記第2重要情報として決定すること;
前記他のデータにおいて、前記第1重要情報との文章埋め込みベクター(sentence embedding vector)類似度がしきい値以上の部分を前記第2重要情報として決定すること;
前記第1重要情報及び前記他のデータについて質疑応答(QA; Question Answering)モデルが出力した結果に基づき、前記他のデータにおいて前記第2重要情報を決定すること;又は
時刻同期(time-sync)情報に基づき、前記他のデータにおいて前記第2重要情報を決定すること
のうち、少なくとも1つを含む、
装置。
【発明の詳細な説明】
【技術分野】
【0001】
【0002】
本発明は、複数のデータにおいて重要部分を決定する方法に係り、より具体的には、音声認識結果と参照データとの間において重要部分を決定し、互いに連携させる技術に関する。
【背景技術】
【0003】
最近は、情報オーバーロードの時代で、情報過多が問題になっている時代である。音声認識(STT;Speech to Text)サービスを利用するユーザーにとって、確認すべき資料の種類が多すぎるという問題が存在する。例えば、オンライン講義を学習に活用するために、音声認識(STT)サービスを利用しようとする大学院生がいるとしたら、その大学院生は、講義を録画した映像と音声を音声認識(STT)した結果であるテキスト、講義中にノートをとった内容又は講義資料のpdfファイル等をすべて見なければならない。
【0004】
ユーザーの立場からすると、このように多様で膨大な資料をすべて見ることが困難である可能性があり、重要部分だけを抜粋して見たいと思う可能性がある。しかし、互いに関連する複数のデータ(例えば、音声認識結果テキスト、ノート、関連するコンテンツ)において、重要部分はどこであるか、そして、各重要部分と対応する部分はどこであるかが分からず、複数のデータの各々において重要部分を確認しなければならないという不便さが存在する。
【0005】
大韓民国登録特許第10-1449430号(2014.10.02)は、コンテンツの要約された再生情報を生成する方法及び装置について開示している。
【先行技術文献】
【特許文献】
【0006】
【発明の概要】
【発明が解決しようとする課題】
【0007】
本開示は、音声認識(STT)結果と参照データとの間において、複数の重要部分を決定し、決定された複数の重要部分を互いに連携させる方法を提供することを目的とする。
【0008】
【0009】
しかし、本開示が解決しようとする技術的課題は、前述の技術的課題に限られるわけではなく、以下に説明する内容から、当業者にとって自明な範囲内において、多様な技術的課題が含まれることが可能であるものとする。
【課題を解決するための手段】
【0010】
前述の課題を実現するための本開示の一実施例に基づき、コンピューティング装置により実行される方法が開示される。上記方法は、音声信号に対して音声認識を行って生成された、音声認識データを取得する段階;参照データを取得する段階;上記音声認識データと上記参照データとのうち、いずれか1つのデータにおいて第1重要情報を決定する段階;及び上記音声認識データと上記参照データとのうち、上記第1重要情報が決定されたデータではない他のデータにおいて、上記第1重要情報に関連する第2重要情報を決定する段階を含むことが可能である。
【0011】
一実施例において、上記音声認識データと上記参照データとのうち、いずれか1つのデータにおいて第1重要情報を決定する段階は、ユーザーの入力に基づき、上記第1重要情報を決定する段階;又は、予め決定されたキーワード(keyword)情報に基づき、上記第1重要情報を決定する段階のうち、少なくとも1つの段階を含むことが可能である。
【0012】
一実施例において、上記予め決定されたキーワード情報に基づき上記第1重要情報を決定する段階は、上記予め決定されたキーワード情報に基づき、上記音声認識データと上記参照データとのうち、いずれか1つのデータを選択する段階;及び上記予め決定されたキーワード情報に基づき、上記選択されたデータにおいて、上記第1重要情報を決定する段階を含むことが可能である。
【0013】
一実施例において、上記予め決定されたキーワード情報に基づき、上記音声認識データと上記参照データとのうち、いずれか1つのデータを選択する段階は、上記音声認識データと上記参照データとのうち、 上記予め決定されたキーワードに類似した単語がより多く含まれているデータを選択する段階を含み、 上記予め決定されたキーワードに類似した単語は、編集距離の分析に基づき決定されることが可能である。
【0014】
一実施例において、上記予め決定されたキーワード情報に基づき、上記選択されたデータにおいて、上記第1重要情報を決定する段階は、上記選択されたデータにおいて、上記予め決定されたキーワードとの類似度が最も高い部分を識別し、識別された部分に基づき、上記第1重要情報を決定する段階を含み、上記予め決定されたキーワードとの類似度は、編集距離の分析に基づき決定されることが可能である。
【0015】
一実施例において、上記音声認識データと上記参照データとのうち、上記第1重要情報が決定されたデータではない他のデータにおいて、上記第1重要情報に関連する第2重要情報を決定する段階は、上記他のデータにおいて、上記第1重要情報との単語類似度がしきい値以上の部分を、上記第2重要情報として決定する段階;上記他のデータにおいて、上記第1重要情報との文章埋め込みベクター(sentence embedding vector)類似度がしきい値以上の部分を上記第2重要情報として決定する段階;上記第1重要情報及び上記他のデータについて質疑応答(QA;Question Answering)モデルが出力した結果に基づき、上記他のデータにおいて上記第2重要情報を決定する段階;又は、時刻同期(time-sync)情報に基づき、上記他のデータにおいて上記第2重要情報を決定する段階のうち、少なくとも1つの段階を含むことが可能である。
【0016】
一実施例において、上記他のデータにおいて、上記第1重要情報との単語類似度がしきい値以上の部分を、上記第2重要情報として決定する段階は、上記他のデータにおいて、上記第1重要情報と同一の単語又は類似した単語をしきい値以上含む部分を識別する段階;及び上記識別された部分を上記第2重要情報として決定する段階を含み、上記類似した単語は、編集距離に基づいて識別されることが可能である。
【0017】
一実施例において、上記音声認識データと上記参照データとのうち、上記第1重要情報が決定されたデータではない他のデータにおいて、上記第1重要情報に関連する第2重要情報を決定する段階は、上記第2重要情報の決定をガイドするためのUI(User Interface)データを生成する段階;及び上記他のデータにおいて、上記UIを介して入力される情報に基づき、上記第1重要情報に関連する上記第2重要情報を決定する段階を含むことが可能である。
【0018】
一実施例において、上記音声認識データと上記参照データとのうち、上記第1重要情報が決定されたデータではない他のデータにおいて、上記第1重要情報に関連する第2重要情報を決定する段階は、上記他のデータにおいて、上記第1重要情報とは異なる言語単位を上記第2重要情報として決定する段階を含み、上記異なる言語単位は、単語単位、文単位、又は、段落単位を含むことが可能である。
【0019】
一実施例において、上記参照データは、上記音声認識データとの類似度分析に基づいて識別され、上記類似度分析は、編集距離分析を含むことが可能である。
【0020】
一実施例において、上記参照データは、上記音声信号に関連するノートデータ;上記音声信号に関連するコンテンツデータ;又は上記音声信号に関連する学習資料データのうち、少なくとも1つのデータを含むことが可能である。
【0021】
一実施例において、上記方法は、追加の参照データを取得する段階;上記追加の参照データにおいて、上記第1重要情報及び上記第2重要情報に関連する第3重要情報を決定する段階;及び上記第1重要情報、上記第2重要情報、及び上記第3重要情報を互いに関連付ける段階をさらに含むことが可能である。
【0022】
一実施例において、上記方法は、上記第1重要情報又は上記第2重要情報に基づき、上記音声認識データを再構成し、再構成音声認識データを提供する段階をさらに含み、上記再構成音声認識データは、重要部分として決定された音声認識データだけを含み、上記再構成音声認識データは、上記第1重要情報又は上記第2重要情報の言語単位より大きい言語単位を含むことが可能である。
【0023】
一実施例において、上記方法は、上記第1重要情報又は上記第2重要情報に基づき、上記参照データを再構成し、再構成参照データを生成する段階をさらに含み、上記参照データが映像データを含む場合、上記再構成参照データは、重要部分として決定された複数の部分的な映像だけをつなげることで生成されることが可能である。
【0024】
一実施例において、上記方法は、上記第1重要情報又は上記第2重要情報に基づき、上記音声認識データに係る要約情報を生成する段階をさらに含み、上記要約情報は、上記第1重要情報又は上記第2重要情報に基づく重みを活用して生成されることが可能である。
【0025】
前述のような課題を実現するための本開示の一実施例に基づき、コンピューター可読保存媒体に保存されたコンピュータープログラムが開示される。上記コンピュータープログラムは、1つ以上のプロセッサーにおいて実行される場合、上記1つ以上のプロセッサーに、音声認識結果(STT;Speech-To-Text)及び参照データにおいて重要部分を決定するための以下の動作を実行させるが、上記動作は:音声信号に対して音声認識を行って生成された、音声認識データを取得する動作;参照データを取得する動作;上記音声認識データと上記参照データとのうち、いずれか1つのデータにおいて第1重要情報を決定する動作;及び上記音声認識データと上記参照データとのうち、上記第1重要情報が決定されたデータではない他のデータにおいて、上記第1重要情報に関連する第2重要情報を決定する動作を含むことが可能である。
【0026】
前述の課題を解決するための本開示の一実施例に基づくコンピューティング装置が開示される。上記装置は、少なくとも1つのプロセッサー;及びメモリーを含み、上記少なくとも1つのプロセッサーは、音声信号に対して音声認識を行って生成された、音声認識データを取得し;参照データを取得し;上記音声認識データと上記参照データとのうち、いずれか1つのデータにおいて第1重要情報を決定し;且つ、上記音声認識データと上記参照データとのうち、上記第1重要情報が決定されたデータではない他のデータにおいて、上記第1重要情報に関連する第2重要情報を決定するように構成されることが可能である。
【発明の効果】
【0027】
【0028】
本開示は、音声認識(STT)結果と参照データとの間において複数の重要部分を決定し、決定された複数の重要部分を互いに連携させる方法を提供することが可能であり、これによって音声認識に係る向上されたUX(User Experience)を具現化することが可能である。また、本開示は、音声認識(STT)結果と参照データとの間において互いに関連する複数の重要部分を決定するための技術的ソリューションを提供することが可能である。
【0029】
一方、本開示の効果は、前述の効果に限られるわけではなく、以下に説明する内容から、当業者にとって自明な範囲内において、多様な効果が含まれることが可能である。
【0030】
【図面の簡単な説明】
【0031】
【
図1】本開示の一実施例に基づく、音声認識結果及び参照データにおいて重要部分を決定するためのコンピューティング装置のブロック構成図である。
【
図2】本開示の一実施例に基づき、ネットワーク関数を示す概略図である。
【
図3】本開示の一実施例に基づく、音声認識結果及び参照データにおいて重要部分を決定するための複数のモジュールのブロック構成図である。
【
図4】本開示の一実施例に基づく、STT結果テキストにおいて重要情報として決定された場合のSTT結果-ノートUIを例示的に示している図面である。
【
図5】本開示の一実施例に基づく、STT結果テキストにおいて重要情報として決定された場合のSTT結果-関連コンテンツを例示的に示している図面である。
【
図6】本開示の一実施例に基づく、STT結果テキストにおいて重要情報として決定された場合の関連コンテンツ-ノートUIを例示的に示している図面である。
【
図7】本開示の一実施例に基づく、別途のページにおいて複数の重要情報をまとめて提供されるUIを例示的に示している図面である。
【
図8】本開示の一実施例に基づく、特定の単語についてハイライトを選択した場合、右側に参照データにおける複数の重要情報だけをまとめて一緒に提供される画面を例示的に示している図面である。
【
図9】本開示の一実施例に基づく、音声認識結果(STT;Speech-To-Text)及び参照データにおいて重要部分を決定する方法に係るフローチャートである。
【
図10】本開示の一実施例を具現化できる例示的なコンピューティング環境に係る簡略且つ一般的な概略図である。
【発明を実施するための形態】
【0032】
多様な実施例について以下に図面を参照用いて説明する。本明細書において多様な説明が本開示に対する理解を容易にするために示される。しかし、かかる実施例がかかる具体的な説明がなくても実施されることが可能であることは自明である。
【0033】
本明細書において、「コンポーネント」、「モジュール」、「システム」等の用語は、コンピューター関連エンティティ、ハードウェア、ファームウェア、ソフトウェア、ソフトウェアとハードウェアとの組み合わせ、又はソフトウェアの実行を指す。例えば、コンポーネントは、プロセッサー上で実行される処理手順(procedure)、プロセッサー、オブジェクト、実行スレッド、プログラム、及び/又はコンピューターになり得るが、これらに限定されるものではない。例えば、コンピューティング装置で実行されるアプリケーションとコンピューティング装置は、両方ともコンポーネントになり得る。1つ以上のコンポーネントは、プロセッサー及び/又は実行スレッドの中に常駐することが可能である。1つのコンポーネントは、1つのコンピューターの中でローカル化されることが可能である。1つのコンポーネントは、2つ以上のコンピューターに配分されることが可能である。また、このようなコンポーネントは、その内部に保存されている多様なデータ構造を有する多様なコンピューター可読媒体において実行することが可能である。コンポーネントは、例えば1つ以上のデータパケットを含む信号(例えば、ローカルシステムや分散システムにおいて他のコンポーネントと相互作用する1つのコンポーネントからのデータ及び/又は信号を用いて、他のシステムと、インターネットのようなネットワークを介して伝送されるデータ)を用いてローカル及び/又は遠隔処理等を通じて通信することが可能である。
【0034】
なお、用語「又は」は、排他的な「又は」ではなく、内包的な「又は」を意味する意図で使われる。つまり、特に特定されておらず、文脈上明確ではない場合、「Xは、A又はBを利用する」は、自然な内包的置換のうち1つを意味するものとする。つまり、XがAを利用したり;XがBを利用したり;又はXがA及びBの両方を利用する場合、「XはA又はBを利用する」は、これらのいずれにも当てはまるとすることが可能である。また、本明細書における「及び/又は」という用語は、取り挙げられた複数の関連アイテムのうち、1つ以上のアイテムの可能なすべての組み合わせを指し、含むものと理解されるべきである。
【0035】
また、述語としての「含む(含める)」及び/又は修飾語としての「含む(含める)」という用語は、当該特徴及び/又は構成要素が存在することを意味するものと理解されるべきである。ただし、述語としての「含む(含める)」及び/又は修飾語として「含む(含める)」という用語は、1つ以上の他のさらなる特徴、構成要素及び/又はこれらのグループの存在又は追加を排除しないものと理解されるべきである。また、特に数が特定されていない場合や、単数の形を示すことが文脈上明確でない場合、本明細書と請求範囲において単数は、一般的に「1つ又はそれ以上」を意味するものと解釈されるべきである。
【0036】
そして、「A又はBのうち少なくとも1つ」という用語については、「Aだけを含む場合」、「Bだけを含む場合」、「AとBの組み合わせの場合」を意味するものと解釈されるべきである。
【0037】
当業者は、さらに、ここに開示されている実施例に係るものとして説明された多様な例示的論理的ブロック、構成、モジュール、回路、手段、ロジック及びアルゴリズム段階が、電子ハードウェア、コンピューターソフトウェア、又はその両方の組み合わせによって実現されることが可能であることを認識すべきである。ハードウェアとソフトウェアとの相互交換性を明確に例示するために、多様な例示的コンポーネント、ブロック、構成、手段、ロジック、モジュール、回路及び段階が、それらの機能性の側面で一般的に上述された。そのような機能性がハードウェアとして実装されるか或いはソフトウェアとして実装されるかは、全般的なシステムに係る特定のアプリケーション(application)及び設計制限によって決まる。熟練した技術者は、個々の特定アプリケーションのために多様な方法で説明された機能性を実現することが可能である。ただし、そのような実現に係る決定が本開示内容の領域を逸脱するものと解釈されてはならない。
【0038】
ここに示す実施例に係る説明は、本開示の技術分野において通常の知識を持つ者が本発明を利用したり、又は実施できるように提供される。このような実施例に対する多様な変形は、本開示の技術分野において通常の知識を持つ者には明確に理解できるものである。ここに定義された一般的な原理は、本開示の範囲を逸脱することなく他の実施例に適用されることが可能である。従って、本発明はここに示す実施例だけに限定されるものではない。本発明はここに示す原理及び新規な特徴と一貫する最広義の範囲で解釈されるべきである。
【0039】
本開示において、ネットワーク関数、人工神経回路網及びニューラルネットワーク(neural network)は、相互置換可能に用いることが可能である。
【0040】
【0041】
図1は、本開示の一実施例に基づく、音声認識結果(STT;Speech-To-Text)及び参照データにおいて重要部分を決定するためのコンピューティング装置のブロック構成図である。
【0042】
図1に図示されたコンピューティング装置(100)の構成は、簡略化して示した例示に過ぎない。本開示の一実施例において、コンピューター装置(100)には、コンピューター装置(100)のコンピューティング環境を実装するための他の構成が含まれることが可能であり、開示されている構成のうち一部だけでコンピューター装置(100)を構成することも可能である。
【0043】
コンピューター装置(100)は、プロセッサー(110)、メモリー(130)、ネットワーク部(150)を含むことができる。
【0044】
本開示の一実施例において、プロセッサー(100)は、1つ以上のコアで構成されることが可能であり、コンピューティング中央処理装置(CPU:central processing unit)、汎用グラフィック処理装置(GPGPU:general purpose graphics processing unit)、テンサー処理装置(TPU:tensor processing unit)等のデータ分析、ディープラーニングのためのプロセッサーを含むことができる。プロセッサー(110)は、メモリー(130)に保存されたコンピュータープログラムを読み取り、本開示の一実施例における機械学習のためのデータ処理を実行することができる。本開示の一実施例に基づき、プロセッサー(110)は、ニューラルネットワークの学習のための演算を行うことができる。プロセッサー(110)は、ディープラーニング(DL:deep learning)において、学習のための入力データの処理、入力データからのフィーチャーの抽出、誤差計算、逆伝播(backpropagation)を利用したニューラルネットワークの重みの更新等のニューラルネットワークの学習のための計算を実行することができる。
プロセッサー(110)のCPUとGPGPUとTPUとのうち、少なくとも1つが、ネットワーク関数の学習を処理できる。例えば、CPUとGPGPUとがともにネットワーク関数の学習やネットワーク関数を利用したデータの分類を行うことができる。なお、本開示の一実施例において、複数のコンピューティング装置のプロセッサーを一緒に使ってネットワーク関数の学習やネットワーク関数を利用したデータ分類を行うことができる。また、本開示の一実施例における、コンピューティング装置において実行されるコンピュータープログラムは、CPU、GPGPU又はTPUで実行可能なプログラムになり得る。
【0045】
本開示の一実施例において、メモリー(130)は、プロセッサー(110)が生成したり、決定した任意の形態の情報及びネットワーク部(150)が受信した任意の形態の情報を保存することができる。
【0046】
本開示の一実施例において、メモリー(130)は、フラッシュメモリータイプ(flash memory type)、ハードディスクタイプ(hard disk type)、マルチメディアカードマイクロタイプ(multimedia card micro type)、カードタイプのメモリー(例えばSD又はXDメモリー等)、ラム(Random Access Memory、RAM)、SRAM(Static Random Access Memory)、ロム(Read-Only Memory、ROM)、EEPROM(Electrically Erasable Programmable Read-Only Memory)、PROM(Programmable Read-Only Memory)、磁気メモリー、磁気ディスク、光ディスクのうち少なくとも1つのタイプの保存媒体を含むことができる。コンピューティン装置(100)は、インターネット(internet)上で前記メモリー(130)の保存機能を実行するウェブストレージ(web storage)と連携して動作することも可能である。前述のメモリーに係る記述は、例示に過ぎず、本開示はこれらに限定されない。
【0047】
本開示の一実施例におけるネットワーク部(150)は、公衆電話交換網(PSTN:Public Switched Telephone Network)、xDSL(x Digital Subscriber Line)、RADSL(Rate Adaptive DSL)、MDSL(Multi Rate DSL)、VDSL(Very High Speed DSL)、UADSL(Universal Asymmetric DSL)、HDSL(High Bit Rate DSL)及び近距離通信網(LAN)等のような多様な有線通信システムを使用することが可能である。
【0048】
また、本明細書におけるネットワーク部(150)は、CDMA(Code Division Multi Access)、TDMA(Time Division Multi Access)、FDMA(Frequency Division Multi Access)、OFDMA(Orthogonal Frequency Division Multi Access)、SC-FDMA(Single Carrier-FDMA)及びその他のシステムのような多様な無線通信システムを利用することが可能である。
【0049】
本開示におけるネットワーク部(150)は、有線及び無線等のような通信の様態を問わずに構成されるとができ、短距通信網(LAN: Local Area Network), 個人通信網(PAN:Personal Area Network)、広域通信網(WAN:Wide Area Network)等の多様な通信網になり得る。また、前記ネットワークは、公知のワールドワイドウェブ(WWW:World Wide Web)になり得る他、赤外線(IrDA:Infrared Data Association)又は、ブルートゥース(登録商標)(Bluetooth)のように、短距離通信に利用される無線伝送技術を利用することもできる。
【0050】
【0051】
本明細書において説明された技術は、前記のネットワークだけでなく、他のネットワークで使われることもできる。
【0052】
図2は、本開示の一実施例において、ネットワーク関数を示す概略図である。
【0053】
本明細書の全体を通して、演算モデル、神経回路網、ネットワーク関数、ニューラルネットワーク(neural network)は、同一の意味で用いることができる。神経回路網は、一般的にノードと呼ばれる相互連結された計算単位の集合で構成されることが多い。このようなノードは、ニューロン(neuron)と称することもできる。神経回路網は、少なくとも1つ以上のノードを含めて構成される。神経回路網を構成するノード(またはニューロン)は1つ以上のリンクによって相互連結されることが可能である。
【0054】
神経回路網において、リンクを介して繋がっている1つ以上のノードは、相対的に入力ノード及び出力ノードの関係を形成することができる。入力ノード及び出力ノードの概念は相対的なものであり、あるノードに対して出力ノードとなる任意のノードは、他のノードとの関係においては入力ノードになり得るが、その逆も成立する。前述のように、入力ノードと出力ノードとの関係はリンクを中心にして成立することができる。1つの入力ノードに1つ以上の出力ノードがリンクを介して繋がることができ、その逆も成立する。
【0055】
1つのリンクを介して繋がっている入力ノード及び出力ノードの関係において、出力ノードのデータは入力ノードに入力されたデータに基づきその値が決められることが可能である。ここで入力ノードと出力ノードとを相互連結するノードは加重値(weight)を持つことができる。加重値は可変的なものになり得るが、神経回路網が所望の機能を行うために、利用者またはアルゴリズムによって変わることが可能である。例えば、1つの出力ノードに1つ以上の入力ノードが各リンクによって相互連結されている場合、出力ノードは前記出力ノードに繋がっている入力ノードに入力された値及び各入力ノードに対応するリンクに設定された加重値に基づき出力ノードの値を決定することができる。
【0056】
前述のように、神経回路網は、1つ以上のノードが1つ以上のリンクを介して相互連結され神経回路網の中で入力ノードと出力ノードの関係を形成する。神経回路網において、ノードとリンクの数及びノードとリンクとの間の相関関係、各リンクに付与された加重値の値によって、神経回路網の特性が決まることが可能である。例えば、同数のノード及びリンクが存在し、リンクの加重値の値がそれぞれ異なる2つの神経回路網が存在する場合、その2つの神経回路網を、相異なるものと認識することができる。
【0057】
神経回路網は、1つ以上のノードの集合で構成することができる。神経回路網を構成するノードの部分集合は、レイヤー(layer)を構成できる。神経回路網を構成する複数のノードのうち一部は、第1入力ノードからの距離に基づき、1つのレイヤー(layer)を構成することができる。例えば、第1入力ノードからの距離がnであるノードの集合は、nレイヤーを構成することができる。第1入力ノードからの距離は、第1入力ノードから当該ノードに到達するために経由しなければならないリンクの最小限の数を基に定義することができる。しかし、このようなレイヤーの定義は、説明のために任意に取り挙げたものであり、神経回路網の中におけるレイヤーの構成は、前述の説明と異なる方法で定義されることができる。例えば、ノードのレイヤーは、最終出力ノードからの距離を基に定義することもできる。
【0058】
第1入力ノードは、神経回路網の中のノードのうち、他のノードとの関係においてリンクを経由せずにデータが直接入力される1つ以上のノードを意味することができる。または、神経回路網のネットワークの中で、リンクを基準にしたノード間の関係において、リンクを介して繋がっている他の入力ノードを持たないノードを意味することができる。これと同様に、最終出力ノードは、神経回路網の中のノードのうち、他のノードとの関係において、出力ノードを持たない1つ以上のノードを意味することができる。また、ヒドンノードは、第1入力ノード及び最終出力ノードではないノードで、神経回路網を構成するノードを意味することができる。
【0059】
本開示の一実施例による神経回路網は、入力レイヤーのノードの数が、出力レイヤーのノードと同数で、入力レイヤーからヒドンレイヤーへと進むにつれ、ノードの数が一度減ってから、再び増加する形の神経回路網になり得る。本開示の一実施例による神経回路網は、入力レイヤーのノードの数が、出力レイヤーのノードの数より少なく、入力レイヤーからヒドンレイヤーへと進むにつれ、ノードの数が減少していく形の神経回路網になり得る。また、本開示の他の一実施例による神経回路網は、入力レイヤーのノードの数が、出力レイヤーのノードの数より多く、入力レイヤーからヒドンレイヤーへと進むにつれ、ノードの数が増加していく形の神経回路網になり得る。本開示の他の一実施例における神経回路網は、上述の神経回路網を組み合わせた形の神経回路網になり得る。
【0060】
ディープニューラルネットワーク(DNN:deep neural network、深層神経回路網)は、入力レイヤーと出力レイヤー以外に複数のヒドンレイヤーを含む神経回路網を意味することができる。ディープニューラルネットワークを利用するとデータの潜在的な構造(latent structures)を把握することができる。つまり、写真、文章、ビデオ、音声、音楽の潜在的な構造(例えば、ある物が写真に映っているか、文章の内容と感情はどのようなものなのか、音声の内容と感情はどのようなものなのか等)を把握することができる。ディープニューラルネットワークは、畳み込みニューラルネットワーク(CNN:convolutional neural network)、リカレントニューラルネットワーク(RNN;:recurrent neural network)、オートエンコーダー(auto encoder)、GAN(Generative Adversarial Networks)、制限ボルツマンマシン(RBM:restricted boltzmann machine)、深層信頼ネットワーク(DBN:deep belief network)、Qネットワーク、Uネットワーク、シャムネットワーク、敵対的生成ネットワーク(GAN:Generative Adversarial Network)等を含むことができる。前述のディープニューラルネットワークは、例示に過ぎず本開示はこれらに限定されない。
【0061】
本開示の一実施例において、ネットワーク関数は、オートエンコーダー(autoencoder)を含むこともできる。オートエンコーダーは、入力データに類似した出力データを出力するための人工神経回路網の一種になり得る。オートエンコーダーは、少なくとも1つのヒドンレイヤーを含むことができ、奇数個のヒドンレイヤーが入出力レイヤーの間に配置されることができる。各レイヤーのノード数は、入力レイヤーのノード数から、ボトルネックレイヤー(エンコード)という中間レイヤーに向かって減っていき、ボトルネックレイヤーから出力レイヤー(入力レイヤーと対称を成す)に向かって、縮小と対称する形で、拡張することもできる。オートエンコーダーは、非線形次元減少を行うことができる。入力レイヤー及び出力レイヤーの数は、入力データの前処理後に次元に対応することができる。オートエンコーダー構造において、エンコーダーに含まれたヒドンレイヤーのノードの数は、入力データから遠くなるほど減っていく構造を持つことができる。ボトルネックレイヤー(エンコーダーとデコーダーの間に位置する、ノードの数が最も少ないレイヤー)のノードの数が少なすぎる場合、十分な量の情報が伝わらない可能性があるため、特定の数以上(例えば、入力レイヤーの半分以上等)に維持されることもあり得る。
【0062】
ニューラルネットワークは、教師あり学習(supervised learning)、教師なし学習(unsupervised learning)、半教師あり学習(semi supervised learning)、または、強化学習(reinforcement learning)のうち、少なくともいずれか1つの方式で学習されることができる。ニューラルネットワークの学習は、ニューラルネットワークが特定の動作を行うための知識をニューラルネットワークに提供する過程になり得る。
【0063】
ニューラルネットワークは、出力のエラーを最小化する方向で学習されることが可能である。ニューラルネットワークの学習において、繰り返し学習データをニューラルネットワークに入力させ、学習データに関するニューラルネットワークの出力とターゲットのエラーを計算し、エラーを減らすための方向としてニューラルネットワークのエラーをニューラルネットワークの出力レイヤーから入力レイヤーの方向へ逆伝播(back propagation)してニューラルネットワークの各ノードの加重値を更新するプロセスが行われる。教師あり学習の場合、個々の学習データに正解がラベリングされている学習データを使い(つまり、ラベリングされた学習データ)、教師なし学習の場合は、個々の学習データに正解がラベリングされていない場合がある。つまり、例えばデータ分類に関する教師あり学習における学習データは、学習データの各々にカテゴリがラベリングされたデータになり得る。ラベリングされた学習データがニューラルネットワークに入力され、ニューラルネットワークの出力(カテゴリ)と学習データのラベルを比較することでエラー(error)を計算することが可能である。他の例として、データ分類に関する教師なし学習の場合、入力である学習データをニューラルネットワークの出力と比較することでエラーを計算することが可能である。計算されたエラーは、ニューラルネットワークにおいて逆方向(つまり、出力レイヤーから入力レイヤー方向)へ逆伝播され、逆伝播を通じてニューラルネットワークの各レイヤーの各ノードの連結加重値を更新することが可能である。更新される各ノードの連結加重値は、学習率(learing rate)によって変化量が決まることが可能である。入力データに対するニューラルネットワークの計算とエラーの逆伝播は、学習のサイクル(epoch)を構成することができる。学習率は、ニューラルネットワークの学習のサイクルの反復回数によって適用方式が変わることが可能である。例えば、ニューラルネットワークの学習初期においては、学習率を高くしてニューラルネットワークが早く一定のレベルの性能を確保するようにすることで効率を高め、学習の後半においては学習率を低くして精度を上げることが可能である。
【0064】
ニューラルネットワークの学習において、一般的に学習データは実際のデータ(つまり、学習されたニューラルネットワークを利用して処理しようとするデータ)の部分集合であることが可能であり、そのため学習データに係るエラーは減少するが、実際のデータに係るエラーは増加する学習サイクルが存在し得る。過剰適合(over fitting)は、このように学習データについて過度に学習したため、実際のデータにおいてエラーが増加する現象である。例えば、黄色い猫を見て猫を学習したニューラルネットワークが、黄色以外の色の猫を見ると猫であることを認識できない現象が過剰適合の一種になり得る。過剰適合は、マシンラーニングアルゴリズムのエラーを増加させる原因になり得る。このような過剰適合を防ぐために、多様な最適化方法を適用できる。過剰適合を防ぐためには、学習データを増加させる方法、正則化(regulaization)、学習の過程でネットワークのノードの一部を非活性化するドロップアウト(drop out)、バッチ正規化レイヤー(batch normalization layer)の活用等の方法を適用できる。
【0065】
【0066】
本開示の一実施例によると、音声認識(STT or ASR;Speech To Text,or Automatic Speech Recognition)は、音声をテキストに変換する文字起こし技術である。言い換えると、音声認識(STT)は、音声と対応する(文法的且つ表記法的に正しい)テキストを生成する技術である。かかる音声認識(STT)の入力(Input)は、音声信号、音声信号を変換したスペクトログラム(spectrogram)、又は、音声特徴(feature)のうち、少なくともいずれか1つを含むことが可能である。また、音声認識(STT)の出力(Output)は、文字列形式のテキストである。一方、音声認識(STT)モデルは、神経回路網モデルを含む多様な形態のモデルとして具現化されることが可能である。また、音声認識(STT)モデルは、具現化の方式によって、モジュール化された方式とモジュール化されていない方式のend-to-end(e2e)方式に分けられる。ここで、モジュール化された方式は、音響モデル(音声信号がどのような形態に表現されるかを示すモデル)、言語モデル(与えられた文章や単語に基づき、単語に発生確率を付与するモデル)、発音辞書等に分けて、音声認識を行うという伝統的な方式のモデル(例えば、Kaldi toolkit基盤のASRのうち一部のモデル、Hybrid-ASRモデル等)等を含むことが可能であるが、これらに限定されない。一方、モジュール化されていない方式は、e2eモデル(例えば、transformer-based encoder decoderモデル等)を意味し、下位モジュールを設けずに多くのデータを学習させ、モデルを生成することが可能である。一方、デコーディング(Decoding)手法は、ビームサーチ(Beam Search)手法が代表的なものであり、ビームサーチ手法は、状況に応じて最も正解に近い単語を1つだけ予測するのではなく、あらゆる可能性を踏まえることができ、文章全体を考慮し最適解を見つけ出す方法である。
【0067】
本開示の一実施例によると、編集距離(edit distance)は、多様な方式により決定されることが可能である。例えば、編集距離は、文字列が2つある場合、2つのうち1つの文字列を他の文字列に変換するときに必要な最小編集数と定義することが可能である。また、ここで編集の種類は、文字の削除(deletion)、挿入(insertion)、置換(substitution)等を含むことが可能である。また、編集距離は、発音に基づいて演算されたり、テキストに基づいて演算されることが可能である。例えば、編集距離は、テキストを発音記号に変換することに基づいて演算されたり、テキストそのものに基づいて演算(例えば、文字単位で演算)されることも可能である。また、編集距離アルゴリズムは、Levenshtein distance、Longest common subsequence、Hamming distance等を含むことが可能であり、かかるアルゴリズム 以外にも多様なアルゴリズムを含むことが可能である。
【0068】
一方、テキスト情報(T)とキーワード集合(Q = {q1、q2、...、qn})(ここで、Tとqiは両方とも長さが1以上の文字列)について、テキスト情報(T)においてキーワード集合(Q)の任意の要素(element)との編集距離がしきい値以下の文字列区間を検索するとき、ナイーブ(naive)な編集距離アルゴリズム又は単純な編集距離演算アルゴリズムが利用される場合、ランタイムが幾何級数的に増えるという問題点が存在する。本開示の一実施例に基づく、コンピューティング装置(100)は、その問題点を解決するために、テキスト情報(T)又はキーワード集合(Q)に含まれている複数の文字列に係る近似(approximate)情報を活用することもでき、近似化された情報を活用して検索を行うことも可能である。例えば、本開示の一実施例に基づく、コンピューティング装置(100)は、多重文字列近似マッチングアルゴリズム(multi-string approximate (fuzzy)matching algorithm)を利用し、テキスト情報(T)に含まれている単語のうち、キーワード集合(Q)との編集距離がしきい値以下の単語を類似した単語として決定することが可能である。
【0069】
例示として、コンピューティング装置(100)は、探索するキーワード(q)が1個である場合(例えば、キーワード集合Qの大きさが1の場合)PEX アルゴリズム(algorithm)を利用してテキスト情報(T)に含まれている複数の単語のうち、キーワード(q)との編集距離がしきい値以下の単語を決定することが可能である。また、コンピューティング装置(100)は、テキスト情報(T)において、キーワード(q、Qにおける唯一のelement)との編集距離がしきい値(k)以下の区間を決定することが可能であり、決定された区間に基づき単語を識別することが可能である。この場合、コンピューティング装置(100)は、「テキスト情報(T)に正解区間(つまり、キーワードとの編集距離がしきい値(k)以下の区間)が存在する場合、キーワード(q)をk+1個の要素に分割すると、k+1個の要素のうち少なくとも1個は、当該正解区間の中に存在する」という前提に基づき、テキスト情報(T)においてキーワード(q)との編集距離がしきい値(k)以下の区間を決定することが可能である。例えば、コンピューティング装置(100)は、キーワード(q)をk+1個の要素(element)に分割した後、Multi-string exact matching algorithm(例えば、Aho-corasick等)を利用して、テキスト情報(T)において上記k+1個の要素を探索することが可能であり、テキスト情報(T)において上記k+1個の要素のうち、少なくとも1つの要素が探索される場合、探索された要素の周辺の区間(例えば、探索された要素を起点にして両方向へキーワード(q)の長さと同等の区間)において編集距離がしきい値(k)以下の単語を識別することが可能である。また、コンピューティング装置(100)は、テキスト情報(T)において、上記k+1個の要素がすべて探索されない場合、「テキスト情報(T)において、キーワード(q)との編集距離がしきい値(k)以下の単語が存在しない」と決定することが可能である。
【0070】
他の例を挙げると、コンピューティング装置(100)は、探索するキーワードが2個以上の場合(例えば、キーワード集合Qの大きさが2以上の場合)Multi-PEX algorithmを利用してテキスト情報(T)に含まれている複数の単語のうち、キーワード(q1、q2、...)との編集距離がしきい値以下の単語を決定することが可能である。まず、コンピューティング装置(100)は、キーワード集合(Q)に含まれているすべてのキーワード(q1、q2、...)の各々をk+1個の要素に分割することが可能である。また、コンピューティング装置(100)は、すべてのキーワード集合(Q)の要素を一度に同じMulti-string exact matching algorithmに適用して探索することが可能である。一例として、コンピューティング装置(100)は、エイホ・コラシック(Aho-corasick)アルゴリズムを用いる場合、1つのトライ(trie)にすべてのキーワード集合(Q)の要素を含めて探索することが可能である。また、コンピューティング装置(100)は、テキスト情報(T)において、キーワード集合(Q)の少なくとも1つの要素が存在する場合、当該要素の周辺のテキスト(例えば、両方向へキーワード(q1、q2、...)の長さと同等の)区間において、編集距離がしきい値(k)以下の単語が存在するか否かを探索することが可能である。また、コンピューティング装置(100)は、テキスト情報(T)において、探索されたキーワード集合(Q)の要素が存在しない場合、テキスト情報(T)において「キーワード集合(Q)との編集距離がしきい値(k)以下の単語が存在しない」と決定することが可能である。
【0071】
【0072】
なお、音声認識データについては、音声認識結果テキスト情報(T)、テキスト情報(T)、音声認識結果、STT結果テキスト等といった表現が混用されることが可能であるが、上述の用語が「音声信号に対して音声認識を行って生成された、テキストデータ」意味するものであることは変わらないものとする。
【0073】
【0074】
本開示は、「音声認識結果(STT;Speech-To-Text)」及び「参照データ」から重要部分(重要情報)を決定する方法に関するものである。より具体的に、本開示は、(1)入力されたオーディオに対してSTTを実行(例えば、ビデオファイルの場合、オーディオと画像を分離したうえで、オーディオ ファイルに対して実行)し、(2)STT結果テキストと参照データとのうちいずれか1つである第1データにおいて第1重要情報を決定し、(3)STT結果テキストと参照データのうち第1データとは異なる第2データにおいて第1重要情報に関連する第2重要情報を決定し、(4)複数の重要部分を再構成する方法に関するものである。この場合、参照データは、入力された映像及び音声に基づき、ユーザーが直接記録したノート(=memo)データ、入力された映像及び音声に関連するコンテンツデータ又は入力された映像及び音声に関連する学習資料データ(例えば、PDFの講義資料)のうち、少なくともいずれか1つのデータを含むことが可能である。一実施例として、上記コンテンツデータ又は学習資料データは、ユーザーが直接アップロードしたデータであることも可能であり、予め決定されたキーワード及び/又は編集距離に基づいて提案あれたデータであることが可能である。
【0075】
図3は、本開示の一実施例に基づく、「音声認識結果及び参照データにおいて重要部分を決定するための複数のモジュール」のブロック構成図である。
【0076】
【0077】
図3を参照すると、コンピューティング装置(100)は、入力モジュール(10)、STTモジュール(20)、参照データ生成モジュール(30)、第1重要情報決定モジュール(40)、第2重要情報決定モジュール(50)及び再構成モジュール(60)を含むことが可能である。一方、このようなコンピューティング装置(100)に含まれることのできる複数のモジュールは、プロセッサー(110)により制御されたり、又は、プロセッサー(110)の動作により実行されることが可能である。また、音声認識結果及び参照データにおいて重要部分を決定するためにコンピューティング装置(100)に含まれることが可能であるモジュールは、以上で説明した複数のモジュールに限定されるわけではなく、追加のモジュールが含まれることが可能である。以下に、音声認識結果及び参照データにおいて重要部分を決定するための例示的な複数のモジュールについて、より具体的に説明する。
【0078】
【0079】
本開示の一実施例において、入力モジュール(10)は、オーディオ信号又はオーディオ信号から変換されたスペクトログラム(spectrogram)の入力を受け取ることが可能である。一例として、入力されたオーディオ信号又は、スペクトログラムは、ビデオ(例えば:Youtube(登録商標)映像、講義の録画映像、会話の録音音声ファイル等)から抽出されたものであることが可能である。
【0080】
【0081】
本開示の一実施例によると、STTモジュール(20)は、音声信号に対して音声認識を行って生成された、音声認識データを取得することが可能である。STTモジュール(20)は、入力モジュール(10)から入力を受けたオーディオ信号に対して音声認識(STT)を実行し音声認識結果テキストデータを出力することが可能である。なお、STTモジュール(20)は、深層学習に基づく神経回路網モデルとして公正されることが可能である。また、STTモジュール(20)は、音声認識(STT)処理を行う前に入力されたオーディオに対してノイズ除去及び音声強調(speech enhancement)、音声検出(VAD、Voice Activity Detection)、話者分離(Speaker Diarization)等の前処理を行うことが可能である。また、STTモジュール(20)は、STT結果テキストを校正する後処理ジュールとして音声認識補正モジュール(ASR correction module)又は文章符号挿入モジュールを含むことも可能である。一方、STTモデルの種類によって、前処理又は後処理モジュールが別途存在せず、End-to-Endモデルにおいて各機能が実装されることも可能である。
【0082】
【0083】
本開示の一実施例によると、参照データ生成モジュール(30)は、参照データを取得することが可能である。この場合、上記参照データは、上記音声信号に関連するノートデータ、上記音声信号に関連するコンテンツデータ又は上記音声信号に関連する学習資料データのうち、少なくとも1つのデータを含むことが可能である。この時、参照データは、上記音声認識データとの類似度分析に基づき識別されるか、又は、外部から検索されることが可能である。類似度分析は、上述の編集距離分析を含むことが可能である。また、参照データ生成モジュール(30)は、音声認識データに基づき、予め決定されたキーワードに類似した単語(類似単語)がより多く含まれているデータを参照データとして取得することも可能である。例えば、ユーザーのコンピューターのローカル(local)に保存されていたデータ、外部(例:ウェブサイト)から検索されたデータ等が参照データとして取得されることが可能である。また、参照データ生成モジュール(30)は、ユーザーが直接アップロードしたデータを参照データとして取得することも可能である。一実施例によると、参照データ生成モジュール(30)は、画像やPDFのような学習資料データの場合、OCR(Optical character recognition)等の技術に基づき、テキストに変換することが可能である。また、参照データ生成モジュール(30)は、ユーザーが学習資料データにメモをとった場合にも、そのメモの内容をOCR等の技術を用いてテキストに変換することが可能である。
【0084】
本開示の一実施例によると、第1重要情報決定モジュール(40)は、上記音声認識データと上記参照データとのうち、いずれか1つのデータにおいて第1重要情報を決定することが可能である。この場合、第1重要情報は、単語単位、文単位、段落単位等を含むことが可能である。例示として、第1重要情報決定モジュール(40)は、i)ユーザー入力に基づき第1重要情報を決定するか、ii)予め決定されたキーワード(keyword)情報に基づき上記第1重要情報を決定することも可能である。
【0085】
まず、第1重要情報決定モジュール(40)は、i)「ユーザー入力に基づき第1重要情報を決定」をすることが可能である。例えば、第1重要情報決定モジュール(40)は、ユーザーがユーザー端末を用いて音声を聴取したり、映像を視聴し、重要だと決定した情報を第1重要情報として決定することが可能である。また、第1重要情報決定モジュール(40)は、音声認識データと参照データとのうち1つのデータにおいて、予めハイライトをしておいた部分を認識し、当該部分を第1重要情報として決定することも可能である。なお、ユーザーが第1重要情報を決定する視点は、音声認識データが取得される前、又は、音声認識データが取得された後であることが可能である。例えば、第1重要情報決定モジュール(40)は、ユーザーが、音声信号に対して音声認識を行って生成された、音声認識データにおいて選択した重要情報を、上記第1重要情報として決定することが可能である(つまり、音声認識データが取得された後ユーザーが第1重要情報を決定することが可能である)。また、第1重要情報決定モジュール(40)は、ユーザーが音声を聴取したり、映像を視聴しながら参照データに重要情報を表示(例えば、ハイライト)し、その後アップロードした当該参照データにおいて表示されている部分を認識し当該部分を第1重要情報として決定することも可能である(つまり、音声認識データを取得する前にユーザーが第1重要情報を決定することも可能である)。例えば、ユーザーが講義を聞きながら学習資料にハイライトし、当該講義に音声認識を実行し、当該学習資料を参照データとしてアップロードした場合、第1重要情報決定モジュール(40)は、参照データである講義資料においてハイライトされている部分を第1重要情報として決定することが可能である。
【0086】
次に、第1重要情報決定モジュール(40)は、ii)「予め決定されたキーワード(keyword)情報に基づき上記第1重要情報を決定」することが可能である。一例として、予め決定されたキーワード情報は、ユーザーが大学講義を受講するとすれば、当該講義に係る主なキーワードをユーザーが入力しておいたものである事前情報を含むことが可能である。なお、事前情報は、ユーザーが音声を聴取したり映像を視聴しながら、参照データに含まれたノートデータに入力したテキスト情報、又は、音声を聴取したり映像を視聴する行為が終わった後、ユーザーが思いついた主なキーワードを入力したテキスト情報等を含むことが可能である。また、予め決定されたキーワード情報は、TF-IDF(Term Frequency-Inverse Document Frequency)技術、音声認識データについて、テーマ別に段落を区分する技術(topic segmentation)、区分された段落別にテーマを決定する技術(text classification)等を用いて決定されることが可能である。
【0087】
より具体的に、第1重要情報決定モジュール(40)は、「上記予め決定されたキーワード情報に基づき、上記音声認識データと上記参照データとのうち、いずれか1つのデータを選択する動作」、及び、「上記予め決定されたキーワード情報に基づき、上記選択されたデータにおいて、上記第1重要情報を決定する動作」を実行することが可能である。例えば、第1重要情報決定モジュール(40)は、予め決定されたキーワード情報(例えば、事前情報)に基づき、音声認識データと参照データとのち、1つのデータを選択することが可能である。一実施例において、第1重要情報決定モジュール(40)は、音声認識データにおいて、予め決定されたキーワードが比較的に多く含まれている場合、上記音声認識データを第1データとして選択することが可能である。また、第1重要情報決定モジュール(40)は、選択された音声認識データ(第1データ)のうち、予め決定されたキーワードが比較的に多く含まれている部分を第1重要情報として決定することが可能である。
【0088】
【0089】
一実施例によると、第1重要情報決定モジュール(40)は、編集距離に基づくキーワード分析を通じて、第1重要情報が生成されるデータを選択し、選択されたデータにおいて、予め決定されたキーワードとの類似度が最も高い部分を識別し、識別された部分に基づき、上記第1重要情報を決定することが可能である。より具体的な例として、第1重要情報決定モジュール(40)は、上記音声認識データと上記参照データとのうち、上記予め決定されたキーワードに類似した単語がより多く含まれているデータを選択することが可能である。この場合、予め決定されたキーワードに類似した単語は、上述の編集距離の分析に基づき決定されることが可能である。また、第1重要情報決定モジュール(40)は、上記選択されたデータにおいて、上記予め決定されたキーワードとの類似度が最も高い部分を識別し、識別された部分に基づき、上記第1重要情報を決定することが可能である。この場合、上記予め決定されたキーワードとの類似度は、上述の編集距離の分析に基づき決定されることが可能である。一例として、予め決定されたキーワードが「ダグロ」だとすると、音声認識結果テキスト情報の中から、「ダグロ」との編集距離がしきい値以下の「ダグゥロ」、「ダグゥンノ」、「ダグンノ」等の単語を識別することが可能であり、識別された単語を「予め決定されたキーワードに類似した単語(例えば、類似単語)」として決定することが可能である。例示として、第1重要情報決定モジュール(40)は、音声認識データ及び参照データのうち、予め決定されたキーワード(例えば、「ダグロ」)と類似した単語(例えば、「ダグゥロ」、「ダグゥンノ」、「ダグンノ」)がより多く含まれているデータである音声認識データを第1データとして選択することが可能である。また、第1重要情報決定モジュール(40)は、選択されたデータである音声認識データ(第1データ)において、予め決定されたキーワード(例えば、「ダグロ」)との類似度がもっとも高い部分(例えば、「ダグゥロ」、「ダグゥンノ」、「ダグンノ」等が含まれている文、段落、等)を識別し、識別された部分に基づき、上記第1重要情報を決定することが可能である。なお、第1重要情報決定モジュール(40)は、「音声認識データの場合、一部が間違って置換(substitution)される誤りが頻繁に生じるという問題点」、又は、「参照データの場合、OCRによって文字が誤認識される誤りが発生し得るという問題点」を考慮し、編集距離に基づく類似単語まで確認して予め決定されたキーワードが含まれているか否かを判断し第1重要情報を決定することが可能である。
【0090】
本開示の一実施例によると、第2重要情報決定モジュール(50)は、上記音声認識データと上記参照データとのうち、第1重要情報が決定されたデータ(第1データ)ではない他のデータ(第2データ)において、上記第1重要情報に関連する第2重要情報を決定することが可能である。例えば、第2重要情報決定モジュール(50)は、第1重要情報決定モジュール(40)によって音声認識データにおいて第1重要情報が決定された場合、参照データにおいて上記第1重要情報に関連する第2重要情報を決定することが可能である。さらに他の例として、第1重要情報決定モジュール(40)によって参照データのうち、関連するノートデータにおいて第1重要情報が決定された場合、第2重要情報決定モジュール(50)は、参照データのうち、関連するコンテンツデータにおいて、上記第1重要情報に関連する第2重要情報を決定することが可能である。この場合、参照データは、音声信号に関連するノートデータ、音声信号に関連するコンテンツデータ、音声信号に関連する学習資料データ等を含むことが可能である。
【0091】
また、第2重要情報決定モジュール(50)は、上記他のデータ(第2データ)において、上記第1重要情報とは異なる言語単位を上記第2重要情報として決定することも可能である。この場合、上記異なる言語単位は、単語単位、文単位、又は、段落単位を含むことが可能である。例えば、第1重要情報は単語単位であるが、第2重要情報は段落又は文単位であることも可能である。なお、第1重要情報決定モジュール(40)によって選択されたデータは第1データであり、1重要情報決定モジュール(40)によって選択されなかった、第1データではない他のデータは、第2データと称されることが可能である。例えば、計4種類のデータ(参照データに含まれる3種類のデータ(関連するノートデータ、関連するコンテンツデータ及び関連する学習資料データ)及び音声認識データ)のうち、関連するノートデータが第1データとして決定された場合、残りの3種類のデータ(関連するコンテンツデータ、関連する学習資料データ及び音声認識データ)のうち、いずれか1つ(例:関連する学習資料データ)が、第2データと称されることが可能である。以下において、説明を容易にするために、第2データが音声信号に関連するノートデータである実施例を中心に本開示を説明する。
【0092】
例示として、第2重要情報決定モジュール(50)は、(1)第1データではない他のデータ(つまり、第1重要決定モジュールによって選択されなかったデータ)において、上記第1重要情報との単語類似度がしきい値以上の部分を、上記第2重要情報として決定する動作、(2)上記他のデータにおいて、上記第1重要情報との文章埋め込みベクター(sentence embedding vector)類似度がしきい値以上の部分を上記第2重要情報として決定する動作、(3)上記第1重要情報及び上記他のデータについて質疑応答(QA;Question Answering)モデルが出力した結果に基づき、上記他のデータにおいて上記第2重要情報を決定する動作、又は、(4)時刻同期(time-sync)情報に基づき、上記他のデータにおいて上記第2重要情報を決定する動作のうち、少なくとも1つの動作によって、上記第1重要情報に関連する第2重要情報を自動的に決定することが可能である。つまり、第1重要情報決定モジュール(40)、上記動作のうち、少なくとも1つの動作に基づき、第2重要情報を自動的に決定することが可能である。
【0093】
まず、第2重要情報決定モジュール(50)は、(1)上記他のデータにおいて、上記第1重要情報との単語類似度がしきい値以上の部分を上記第2重要情報として決定することが可能である。例えば、第2重要情報決定モジュール(50)は、第1重要情報決定モジュール(40)によって音声認識データにおいて第1重要情報が決定された場合、他のデータである参照データ(例えば、ノートデータ)において、第1重要情報との単語類似度がしきい値以上の部分を第2重要情報として決定することが可能である。言い換えると、第2重要情報決定モジュール(50)は、他のデータである参照データ(例えば、ノートデータ)において、第1重要情報と同一又は類似した単語が比較的に多く含まれている部分を第2重要情報として決定することが可能である。
【0094】
より具体的な例として、第2重要情報決定モジュール(50)は、上記他のデータにおいて、上記第1重要情報と同一の単語又は類似した単語をしきい値以上の数だけ含む部分を識別し、上記識別された部分を上記第2重要情報として決定することも可能である。この場合、上記類似した単語は、上述の編集距離に基づいて識別されることが可能である。一例として、第2重要情報決定モジュール(50)は、他のデータである参照データ(例えば、ノートデータ)において、第1重要情報と同一の単語(例えば、「ダグロ」)又は、類似した単語(例えば、「ダグゥロ」、「ダグゥンノ」、「ダグンノ」)をしきい値以上含む部分を識別し、上記識別された部分を上記第2重要情報として決定することも可能である。なお、第2重要情報決定モジュール(50)は、「音声認識データの場合、一部が間違って置換(substitution)される誤りが頻繁に生じるという問題点」、又は、「参照データの場合、OCRによって文字が誤認識される誤りが発生し得るという問題点」を考慮し、編集距離に基づく類似単語まで確認して同一又は類似した単語が含まれているか否かを判断し、第2重要情報を決定することが可能である。
【0095】
また、第2重要情報決定モジュール(50)は、(2)上記他のデータにおいて、上記第1重要情報との文章埋め込みベクター(sentence embedding vector)類似度がしきい値以上の部分を上記第2重要情報として決定することが可能である。より具体的な例として、第2重要情報決定モジュール(50)は、第1重要情報に対する文章埋め込み(sentence embedding)を実行し、第1重要情報が決定されたデータ(第1データ)とは異なるデータ(第2データ)において、文や段落に対して文章埋め込み(sentence embedding vector)を実行することで、両ベクター間における類似度がしきい値以上の部分を第2重要情報として決定することが可能である。
【0096】
また、第2重要情報決定モジュール(50)は、(3)上記第1重要情報及び上記他のデータについて質疑応答(QA;Question Answering)モデルが出力した結果に基づき、上記他のデータにおいて上記第2重要情報を決定することが可能である。より具体的に、第2重要情報決定モジュール(50)は、質疑応答(QA;Question Answering)モデルに、i)第1重要情報とは異なるデータ(第2データ)及びii)「第2データにおいて第1重要情報に関連する段落は」という質疑を入力した後、QAモデルによって出力される第2データの文又は段落を、第2重要情報として決定することが可能である。
【0097】
【0098】
また、第2重要情報決定モジュール(50)は、(4)時刻同期(time-sync)情報に基づき、上記他のデータにおいて上記第2重要情報を決定することが可能である。一実施例によると、第2重要情報決定モジュール(50)は、オーディオ信号に係るタイムスタンプ(timestamp)情報を基準に、他のデータ(第2データ)において変化が発生いた時刻を考慮し、第2重要情報を決定することが可能である。一例として、第2重要情報決定モジュール(50)は、他のデータ(第2データ)がノートデータである場合、「ユーザーがノートにテキストを入力したタイムスタンプ情報」と「上記オーディオ信号に係るタイムスタンプ情報」との連携を通じて、第2重要情報を決定することが可能である。また、第2重要情報決定モジュール(50)は、他のデータ(第2データ)がコンテンツデータ又は学習資料データである場合、「マウスがクリック又はスクロールされたことに係るタイムスタンプ情報」及び「上記オーディオ信号に係るタイムスタンプ情報」との間の連携を辻て第2重要情報を決定することが可能である。
【0099】
【0100】
一実施例として、第2重要情報決定モジュール(50)は、上記第2重要情報の決定をガイドするためのUI(User Interface)データを生成し、上記他のデータ(第2データ)において、上記UIを介して入力される情報に基づき、上記第1重要情報に関連する上記第2重要情報を決定することも可能である。言い換えると、第2重要情報決定モジュール(50)は、ユーザーの入力に基づき、第1重要情報に関連する上記第2重要情報を決定することが可能である。例えば、第2重要情報決定モジュール(50)は、第1重要情報決定モジュール(40)によって、音声認識データ(第1データ)において第1重要情報が決定された場合、参照データ のうち、関連するノートデータ(第2データ)において第2重要情報の決定をガイドするためのUI(User Interface)データを生成し、UIを介したユーザーの入力に基づき、第2重要情報を決定することが可能である。例えば、第2重要情報決定モジュール(50)は、第2データである、関連するノートデータのうち、第1重要情報との類似度に基づき決定された第2重要情報の複数の候補を視覚的に区分してディスプレイし、第2重要情報の複数の候補の中から、ユーザーの選択によって、第2重要情報を決定することが可能である。
【0101】
【0102】
本開示の一実施例によると、コンピューティング装置(100)は、追加の参照データを取得することが可能である。また、コンピューティング装置(100)は、追加の参照データにおいて、上記第1重要情報及び上記第2重要情報に関連する第3重要情報を決定することが可能である。また、コンピューティング装置(100)は、上記第1重要情報、上記第2重要情報、及び上記第3重要情報を互いに関連付けることが可能である。例えば、コンピューティング装置(100)は、参照データとして音声信号に関連するノートデータを取得した場合、追加の参照データとして音声信号に関連するコンテンツデータ(例えば、学習補助用の映像データ、参考書籍データ等)を取得することが可能である。また、コンピューティング装置(100)は、音声認識データにおいて第1重要情報を決定し、参照データである音声信号に関連するノートデータにおいて第2重要情報を決定した場合、追加の参照データとして取得された音声信号に関連するコンテンツデータにおいて、上記第1重要情報及び上記第2重要情報に関連する第3重要情報を決定することが可能である。言い換えると、前述の追加の例示においては、「STT結果テキストにおける特定の部分(第1重要情報)-ノートデータ における特定の部分(第2重要情報)-関連するコンテンツにおける特定の部分(第3重要情報)」で構成された3組のデータ(Triple)が決定されることが可能である。
【0103】
本開示の一実施例によると、再構成モジュール(60)は、上記第1重要情報又は上記第2重要情報に基づき、上記音声認識データを再構成し、再構成音声認識データを提供することが可能である。ここで、上記再構成音声認識データは、重要部分として決定された音声認識データだけを含むことが可能である。また、上記再構成音声認識データは、上記第1重要情報又は上記第2重要情報の言語単位より大きい言語単位を含むことが可能である。一例として、第1重要情報又は第2重要情報の言語単位が単語単位である場合、上記再構成音声認識データは、単語単位より大きい言語単位である文単位又は文単位を含むことが可能である。
【0104】
本開示の一実施例によると、再構成モジュール(60)は、上記第1重要情報又は上記第2重要情報に基づき、上記参照データを再構成し、再構成参照データを生成することが可能である。この場合、上記参照データが映像データを含む場合、上記再構成参照データは、重要部分として決定された複数の部分的な映像だけをつなげることで生成されることが可能である。一例として、再構成モジュール(60)は、タイムスタンプ(timestamp)を基準に、複数の重要情報が含まれている映像だけをつなげて編集された参照データを生成することが可能である。
【0105】
本開示の一実施例によると、再構成モジュール(60)は、上記第1重要情報又は上記第2重要情報に基づき、上記音声認識データ及び上記参照データをそれぞれ再構成してから、再構成された音声認識データ及び再構成された参照データを融合し、ハイブリッド型のコア再構成データを生成することも可能である。かかるコア再構成データは、相異なる類型の複数のデータの複数の重要部分を抽出し、抽出された複数の重要部分を互いに連携させて、単一のデータとして一緒に提供するため、重要情報管理の効率を最大化することが可能である。
【0106】
【0107】
本開示の一実施例によると、再構成モジュール(60)は、上記第1重要情報又は上記第2重要情報に基づき、上記音声認識データに係る要約情報を生成することが可能である。この場合、上記要約情報は、上記第1重要情報又は上記第2重要情報に基づく重みを活用して生成されることが可能である。一例として、第1重要情報決定モジュール(40)により、参照データ(例えば、講義資料のハイライト部分のアップロード)において第1重要情報が決定され、第2重要情報決定モジュール(50)により、音声認識データにおいて関連する第2重要情報が決定された場合、再構成モジュール(60)は、音声認識データの第2重要情報に対して重みを付与するとともに、音声認識データに係る要約情報を生成することが可能である。
【0108】
【0109】
本開示の一実施例によると、「音声認識データと参照データのうち選択されたデータにおいて先に決定される第1重要情報」と「選択されなかった残りのデータにおいて、上記第1重要部分に基づいて決定される第2重要情報」との各々は、ユーザー入力によって決定される(手動で決定)動作又は自動的に決定される動作に基づいて生成されることが可能である。これは、以下の表1のように、4つの実施例として区分されることも可能である。
【0110】
【0111】
【0112】
本開示の一実施例によると、(1)第1実施例は、第1重要情報が手動で決定され、第2重要情報が自動的に決定される実施例である。例示として、コンピューティング装置(100)は、ユーザーの入力に基づき、上記選択されたデータ(=第1データ)において第1重要情報を決定(例えば、直接ハイライトを入力するか、又は、アップロードされた関連する学習資料においてハイライトされている部分を検出する)し、上記選択されなかった残りのデータ(=第2データ)において第1重要情報に関連する(係る)第2重要部分を上述の多様な動作に基づいて自動的に決定することが可能である。
【0113】
(2)第2実施例は、第1重要情報が自動的に決定され、第2重要情報が自動的に決定される実施例である。例示として、コンピューティング装置(100)は、上記選択されたデータ(=第1データ)において、予め決定されたキーワード情報に基づき第1重要情報を自動的に決定し、選択されなかった残りのデータ(=第2データ)において、第1重要情報に関連する(係る)第2重要部分を上述の多様な動作に基づいて自動的に決定することが可能である。
【0114】
(3)第3実施例は、第1重要情報が自動的に決定され、第2重要情報が手動で決定される実施例である。例示として、コンピューティング装置(100)は、上記選択されたデータ(=第1データ)において予め決定されたキーワード情報に基づき第1重要情報を自動的に決定し、選択されなかった残りのデータ(=第2データ)において第1重要情報に関連する(係る)第2重要情報の決定をガイドするためのUI(User Interface)データを提供し、上記UIを介して入力される情報に基づき、上記第1重要情報に関連する上記第2重要情報を手動で決定することが可能である。
【0115】
【0116】
(4)第4実施例は、第1重要情報が手動で決定され、第2重要情報が手動で決定される実施例である。例示として、コンピューティング装置(100)は、ユーザーの入力に基づき、上記選択されたデータ(=第1データ)において第1重要情報を決定(例えば、直接ハイライトを入力するか、又は、アップロードされた関連する学習資料においてハイライトされている部分を検出する)し、選択されなかった残りのデータ(=第2データ)において第1重要情報に関連する(係る)第2重要情報の決定をガイドするためのUI(User Interface)データを提供し、上記UIを介して入力される情報に基づき、上記第1重要情報に関連する上記第2重要情報を手動で決定することが可能である。
【0117】
【0118】
以下、
図4乃至
図7に図示されているUIには、オーディオデータ(A)(例えば、動画に含まれているオーディオデータ)、音声認識データ(B)、ノートデータ(C)、コンテンツデータ(D)が含まれることが可能である。一方、
図4乃至
図7に係る実施例においては、上述の第1実施例、つまり、「第1重要情報が手動で決定され、第2重要情報が自動的に決定される実施例」が重点的に説明される。言い換えると、コンピューティング装置(100)は、使用入力に基づき、上記選択されたデータ(=第1データ)において第1重要情報を決定(例えば、直接ハイライトを入力するか、又は、アップロードされた関連する学習資料においてハイライトされている部分を検出する)し、選択されなかった残りのデータ(=第2データ)において第1重要情報に関連する(係る)第2重要部分を上述の多様な動作に基づいて自動的に決定することが可能である。また、コンピューティング装置(100)は、決定された第1重要部分及び第2重要部分にハイライト表示をして提供することが可能である。
【0119】
【0120】
図4は、本開示の一実施例に基づく、STT結果テキストにおいて第1重要情報が決定された場合の「STT結果&ノート」のUIを例示的に示している図面であり、
図5は、本開示の一実施例に基づく、STT結果テキストにおいて第1重要情報が決定された場合の「STT結果&関連するコンテンツ」のUIを例示的に示している図面であり、
図6は、本開示の一実施例に基づく、STT結果テキストにおいて第1重要情報が決定された場合の「関連するコンテンツ&ノート」のUIを例示的に示している図面である。
図4乃至
図8を参照して説明する実施例においては、音声信号に関連するコンテンツデータ(D)が図示されているが、これに限られるわけではなく、関連するコンテンツデータの代わりに音声信号に関連する学習資料データが活用されることも可能である。
図4乃至
図8において、(A)は、入力されたオーディオデータ(又は、オーディオデータを含む映像データ)、(B)は、音声認識データ、(C)は、ユーザーが(A)を参照して作成したノートデータ、(D)は、音声信号に関連するコンテンツデータを指すことが可能である。
【0121】
図4は、本開示の一実施例に基づく、STT結果テキスト(音声認識データ)において、「ダグロ」及び「人口知能」が重要情報として決定された場合の「STT結果&ノート」のUIを例示的に示している図面であり、
図5は、本開示の一実施例に基づく、STT結果テキスト(音声認識データ)において、「ダグロ」及び「人口知能」が重要情報として決定された場合の「STT結果&関連するコンテンツ」のUIを例示的に示している図面であり、
図6は、本開示の一実施例に基づく、STT結果テキストにおいて「ダグロ」及び「人口知能」が重要情報として決定された場合の「関連するコンテンツ&ノート」のUIを例示的に示している図面である。
図4乃至
図6及び後述の
図7乃至
図8に図示されているUIを介して、ユーザーは、テキストを追加、変更、削除したり、編集(太字化、下線追加、ハイライト追加等)を行うことが可能である。
【0122】
例示として、
図4を参照すると、コンピューティング装置(100)は、音声認識データ(B)においてユーザーの入力に基づき、「ダグゥロ」及び「人口知能」を第1重要情報として決定することが可能である。また、コンピューティング装置(100)は、選択されなかったデータ(第2データ)であるノートデータ(C)において、 第1重要情報に関連する第2重要情報を決定することが可能である。一例として、コンピューティング装置(100)は、音声認識データ(B)のうち、間違って出力された「ダグゥロ」を、ユーザーが第1重要情報として決定した場合にも、ノートデータ(C)において「ダグゥロ」と類似した単語を編集距離に基づいて識別し、「ダグゥロ」と類似した単語である「ダグロ」を探し出して、第2重要情報として決定することが可能である。この場合、コンピューティング装置(100)は、編集距離に基づいて識別された類似した単語の英語表記(例えば、daglo)についても、第2重要情報として決定することが可能である。また、コンピューティング装置(100)は、第1重要情報として決定された「人口知能」についても、第2重要情報を自動的に決定する複数の動作のうち、少なくともいずれか1つを利用して第2重要情報を決定することが可能である。
【0123】
例示として、
図5を参照すると、コンピューティング装置(100)は、音声認識データ(B)においてユーザーの入力に基づき、「ダグゥロ」及び「人口知能」を第1重要情報として決定することが可能である。コンピューティング装置(100)は、選択されなかったデータ(第2データ)であるコンテンツデータ(D)において、第1重要情報に関連する第2重要情報を決定することが可能である。一例として、コンピューティング装置(100)は、音声認識データ(B)のうち、間違って出力された「ダグゥロ」を、ユーザーが第1重要情報として決定した場合にも、ノートデータ(C)において「ダグゥロ」と類似した単語を編集距離に基づいて識別し、「ダグゥロ」と類似した単語である「ダグロ」を探し出して、第2重要情報として決定することが可能である。この場合、コンピューティング装置(100)は、編集距離に基づいて識別された類似した単語の英語表記(例えば、daglo)についても、第2重要情報として決定することが可能である。また、
図5における、関連するコンテンツデータ(D)においては省略されているが、コンピューティング装置(100)は、第1重要情報として決定された「人口知能」についても、第2重要情報を自動的に決定する複数の動作のうち、少なくともいずれか1つを利用して関連するコンテンツデータ(D)において第2重要情報を決定することが可能である。
【0124】
【0125】
図6を参照すると、コンピューティング装置(100)は、追加の参照データ(例えば、第3データ)を取得することが可能である。また、コンピューティング装置(100)は、追加の参照データにおいて、上記第1重要情報及び上記第2重要情報に関連する第3重要情報を決定することが可能である。また、コンピューティング装置(100)は、上記第1重要情報、上記第2重要情報、及び上記第3重要情報を互いに関連付けることが可能である。例えば、コンピューティング装置(100)は、参照データとして音声信号に関連するノートデータ(C)を取得した場合、追加の参照データとして音声信号に関連するコンテンツデータ(D)を取得することが可能である。また、コンピューティング装置(100)は、音声認識データ(B)(=第1データ)において第1重要情報を決定し、参照データである音声信号に関連するノートデータ(C)(=第2データ)において第2重要情報を決定した場合、追加の参照データとして取得された音声信号に関連するコンテンツデータ(D)(=第3データ)において上記第1重要情報及び上記第2重要情報に関連する第3重要情報を決定することが可能である。言い換えると、「STT結果テキストにおける特定の部分(第1重要情報)-ノートデータ における特定の部分(第2重要情報)-関連するコンテンツにおける特定の部分(第3重要情報)」で構成された三重のデータの組み合わせ(Triple)が決定されることが可能であり、ハイライト等により視覚的に区分されて表示されることが可能である。
【0126】
図7は、本開示の一実施例に基づく、別途のページにおいて複数の重要情報をまとめて提供するUIを例示的に示している図面である。
【0127】
例示として
図7を参照すると、コンピューティング装置(100)は、別途のページにおいて、ユーザーに各データ別に重要情報(部分)をまとめて提供することが可能である。
図7の(B)を参照すると、コンピューティング装置(100)は、第1重要情報又は上記第2重要情報に基づき、上記音声認識データを再構成し、再構成音声認識データを提供することが可能である。この場合、上記再構成音声認識データは、重要部分として決定された音声認識データだけを含み、上記再構成音声認識データは、上記第1重要情報又は上記第2重要情報の言語単位より大きい言語単位を含むことが可能である。また、
図7の(C)及び(D)を参照すると、コンピューティング装置(100)は、第1重要情報又は上記第2重要情報に基づき、上記参照データ(例えば、ノートデータ(C)及び関連するコンテンツデータ(D))を再構成し、再構成参照データを提供することが可能である。この場合、上記再構成参照データは、重要部分として決定された参照データだけを含み、上記再構成参照データは、上記第1重要情報又は上記第2重要情報の言語単位より大きい言語単位を含むことが可能である。例えば、コンピューティング装置(100)は、第1重要情報又は上記第2重要情報が「単語」単位であっても、当該単語が含まれている文単位でのデータ(例えば、STT結果テキスト、ノート、関連するコンテンツ)別にまとめて、ユーザーに提供することが可能である。
【0128】
【0129】
なお、
図7は、ユーザーが音声認識データ(B)において「ダグゥロ」を ハイライトすると選択した場合における、右側にノートデータ(C)及びコンテンツデータ(D)の複数の重要部分だけをまとめて一緒に提供する画面の一例である。また、
図7の左側のハイライト部分を見ると、コンピューティング装置(100)は、実際にはユーザーが音声認識データ(B)において「ダグゥロ」だけをハイライトした場合にも、当該部分が含まれている文の頭からディスプレイすることが可能である。また、コンピューティング装置(100)は、話者情報と発話時刻も一緒にディスプレイすることが可能であり、当該部分をクリックすると、対応する映像や音声部分をタイムスタンプ(timestamp)に基づいて一緒に提供することが可能である。また、
図7において、右側のノートデータ(C)及びコンテンツデータ(D)には、ノートデータやコンテンツデータに係るすべてがディスプレイされるわけではなく、コンピューティング装置(100)は、ノートデータ(C)において「ダグゥロ」に関連する部分だけをまとめて提供したり、コンテンツデータ(D)において「ダグゥロ」に関連するpdfページだけをまとめて提供することが可能である。また、上述のように、音声認識データにおいて「ダグゥロ」と対応する単語単位が第1重要情報として決定された場合にも、コンピューティング装置(100)は、編集距離及び英語表記に基づき、ノートデータ(C)やコンテンツデータ(D)において 「ダグロ」、「daglo」も一緒に第2重要情報として決定し、重要情報だけをまとめて提供することが可能である。
【0130】
図8は、本開示の一実施例に基づき、特定の単語についてハイライトを選択した場合、右側において、参照データにおける複数の重要情報だけをまとめて一緒に提供される画面を例示的に示している図面である。具体的に、
図8は、本開示の一実施例に基づき、「人工知能」をハイライトすると選択した場合、右側において、ノートデータ(C)及びコンテンツデータ(D)の複数の重要情報だけをまとめて一緒に提供される画面を例示的に示している図面である。
【0131】
なお、
図8は、ユーザーが音声認識データ(B)において「人工知能」をハイライトすると選択した場合、右側において、ノートデータ(C)及びコンテンツデータ(D)の複数の重要部分だけをまとめて一緒に提供される画面の一例である。また、
図8の左側における複数のハイライト部分を見ると、コンピューティング装置(100)は、実際にはユーザーが音声認識データ(B)において「人工知能」だけをハイライトした場合にも、当該部分が含まれている文の頭からディスプレイすることが可能である。また、コンピューティング装置(100)は、話者情報と発話時刻も一緒にディスプレイすることが可能であり、当該部分をクリックすると、対応する映像や音声部分をタイムスタンプ(timestamp)に基づいて一緒に提供することが可能である。また、
図8において、右側のノートデータ(C)及びコンテンツデータ(D)には、ノートデータ(C)や コンテンツデータ(D)に係るすべてがディスプレイされるわけではなく、コンピューティング装置(100)は、ノートデータ(C)において「人工知能」 に関連する部分だけをまとめて提供したり、コンテンツデータ(D)において「人工知能」に関連するpdf ページだけをまとめて提供することが可能である。
【0132】
図7及び
図8においては省略されているが、一実施例によると、入力されたファイルに映像が含まれている場合、重要情報として決定された複数の部分的な映像だけで再構成された映像がユーザーに提供されることが可能である。他の一実施例によると、複数の重要情報に重みが付与され、それに基づいて音声認識データに係る要約情報が生成され、ユーザーに提供されることが可能である。
【0133】
【0134】
図9は、本開示の一実施例に基づく、音声認識結果(STT;Speech-To-Text)及び参照データにおいて重要部分を決定する方法に係るフローチャートである。
【0135】
図9に示す音声認識結果及び参照データにおいて重要部分を決定する方法は、コンピューティング装置(100)によって実行されることが可能である。以下に詳しい説明がなくても、コンピューティング装置(100)について詳述した内容は、音声認識結果及び参照データにおいて重要部分を決定することに係る説明にも、同様に適用されることが可能である。
【0136】
図9を参照すると、本開示の一実施例に基づく、音声認識結果及び参照データにおいて重要部分を決定する方法は、音声信号に対して音声認識を行って生成された、音声認識データを取得する段階(S110)、参照データを取得する段階(S120)、上記音声認識データと上記参照データとのうち、いずれか1つのデータにおいて第1重要情報を決定する段階(S130)及び上記音声認識データと上記参照データとのうち、上記第1重要情報が決定されたデータではない他のデータにおいて、上記第1重要情報に関連する第2重要情報を決定する段階(S140)を含むことが可能である。
【0137】
上記S110段階は、音声信号に対して音声認識を行って生成された、音声認識データを取得する段階である。
【0138】
上記S120段階は、参照データを取得する段階である。この場合、上記参照データは、上記音声認識データとの類似度分析に基づいて識別され、上記類似度分析は、編集距離分析を含むことが可能である。参照データには、上記音声信号に関連するノートデータ、上記音声信号に関連するコンテンツデータ、又は上記音声信号に関連する学習資料データのうち、少なくとも1つのデータが含まれることが可能である。ノートデータは、ユーザーが音声信号に関連して作成したテキストデータであることが可能であり、コンテンツデータは、関連するYouTube(登録商標)映像、ニュース記事、ローカルデータにおいて保存されているファイル等、音声信号に関連するコンテンツに係るデータであることが可能である。学習資料データは、音声信号が講義に関連している場合、PDFの形又はPPTの形の講義資料であることが可能である。コンテンツデータ又は学習資料データは、前述のように編集距離分析に基づいて識別され、提案されたものであることが可能であるが、これに限られるわけではなく、ユーザーが直接アップロードしたデータであることが可能である。
【0139】
上記S130段階は、上記音声認識データと上記参照データとのうち、いずれか1つのデータにおいて第1重要情報を決定する段階である。かかるS130段階は、ユーザーの入力に基づき、上記第1重要情報を決定する段階;又は予め決定されたキーワード(keyword)情報に基づき、上記第1重要情報を決定する段階のうち、少なくとも1つの段階を含むことが可能である。
【0140】
上記S140段階は、上記音声認識データと上記参照データとのうち、上記第1重要情報が決定されたデータではない他のデータにおいて、上記第1重要情報に関連する第2重要情報を決定する段階である。かかるS140段階は、上記他のデータにおいて、上記第1重要情報との単語類似度がしきい値以上の部分を、上記第2重要情報として決定する段階;上記他のデータにおいて、上記第1重要情報との文章埋め込みベクター(sentence embedding vector)類似度がしきい値以上の部分を上記第2重要情報として決定する段階;上記第1重要情報及び上記他のデータについて質疑応答(QA;Question Answering)モデルが出力した結果に基づき、上記他のデータにおいて上記第2重要情報を決定する段階;又は、時刻同期(time-sync)情報に基づき、上記他のデータにおいて上記第2重要情報を決定する段階のうち、少なくとも1つの段階を含むことが可能である。また、S140段階は、上記第2重要情報の決定をガイドするためのUI(User Interface)データを生成する段階;及び上記他のデータにおいて、上記UIを介して入力される情報に基づき、上記第1重要情報に関連する上記第2重要情報を決定する段階を含むことが可能である。また、S140段階は、上記他のデータにおいて、上記第1重要情報とは異なる言語単位を上記第2重要情報として決定する段階を含み、上記異なる言語単位は、単語単位、文単位、又は、段落単位を含むことが可能である。
【0141】
一方、音声認識結果(STT;Speech-To-Text)及び参照データにおいて重要部分を決定する方法は、追加の参照データを取得する段階;上記追加の参照データにおいて、上記第1重要情報及び上記第2重要情報に関連する第3重要情報を決定する段階;及び上記第1重要情報、上記第2重要情報、及び上記第3重要情報を互いに関連付ける段階をさらに含むことが可能である。
【0142】
また、音声認識結果(STT;Speech-To-Text)及び参照データにおいて重要部分を決定する方法は、上記第1重要情報又は上記第2重要情報に基づき、上記音声認識データを再構成し、再構成音声認識データを提供する段階をさらに含み、上記再構成音声認識データは、重要部分として決定された音声認識データだけを含み、上記再構成音声認識データは、上記第1重要情報又は上記第2重要情報の言語単位より大きい言語単位を含むことが可能である。
【0143】
また、音声認識結果(STT;Speech-To-Text)及び参照データにおいて重要部分を決定する方法は、上記第1重要情報又は上記第2重要情報に基づき、上記音声認識データに係る要約情報を生成する段階をさらに含み、上記要約情報は、上記第1重要情報又は上記第2重要情報に基づく重みを活用して生成することが可能である。
【0144】
【0145】
以上の説明における複数の段階は、本開示の具現化の例によっては、より多くの段階に分割されたり、より少ない段階にまとめられることが可能である。また、一部の段階は、必要に応じて省略される場合もあり、段階の順番が変更される場合もある。
【0146】
【0147】
本開示の一実施例に基づき、データ構造を保存したコンピューター可読保存媒体が開示される。
【0148】
データ構造は、データに効率的なアクセスおよび修正を可能にするデータの組織、管理、保存を意味することができる。データ構造は、特定の問題(例えば、最短時間でデータ検索、データ保存、データ修正)を解決するためのデータ組織を意味することができる。
データ構造は、特定のデータ処理機能をサポートするように設計されたデータ要素間の物理的または論理的な関係と定義することもできる。データ要素間の論理的な関係は、ユーザーが考えるデータ要素間の連結関係を含むことができる。データ要素間の物理的な関係は、 コンピューター可読保存媒体(例えば、ハードディスク)に物理的に保存されているデータ要素間の実際の関係を含むことができる。データ構造は具体的にデータの集合、データ間の関係、データに適用できる関数またはコマンドを含むことができる。効果的に設計されたデータ構造により、コンピューティング装置はコンピューティング装置のリソースを最小限に使用しながら計算を行うことができる。具体的にコンピューティング装置は効果的に設計されたデータ構造を通じて演算、読み取り、挿入、削除、比較、交換、検索の効率性を高めることができる。
【0149】
データ構造はデータ構造の形態によって線形データ構造と非線形データ構造に区分されることができる。線形データ構造は、一つのデータの後に一つのデータだけが連結される構造である可能性がある。線形データ構造はリスト(List)、スタック(Stack)、キュー(Queue)、デッキ(Deque)を含むことができる。リストは、内部的に順序が存在する一連のデータセットを意味することが可能である。リストは連結リスト(Linked List)を含むことができる。連結リストはそれぞれのデータがポインタを持って一列に連結されている方式でデータが連結されたデータ構造でありうる。連結リストでポインタは、次や以前のデータとの連結情報を含むことができる。連結リストは形態によって単一連結リスト、二重連結リスト、円形連結リストで表現できる。スタックは制限的にデータにアクセスできるデータリスト構造である可能性がある。スタックは、データ構造の片端でのみデータを処理(例えば、挿入または削除)できる線形データ構造である可能性がある。スタックに保存されたデータは、遅く入るほど早く出てくるデータ構造(LIFO-Last in First Out)である可能性がある。キューは制限的にデータにアクセスできるデータ羅列構造であり、スタックとは異なり遅く保存されたデータほど遅く出てくるデータ構造(FIFO-FirstinFirstOut)であることができる。デッキはデータ構造の両端でデータを処理できるデータ構造になり得る。
【0150】
非線形データ構造は、一つのデータの後に複数のデータが連結される構造である可能性がある。非線形データ構造はグラフ(Graph)データ構造を含むことができる。グラフデータ構造は頂点(Vertex)と幹線(Edge)で定義でき、幹線は互いに異なる二つの頂点を連結する線を含むことができる。グラフデータ構造ツリー(Tree)データ構造を含むことができる。ツリーデータ構造はツリーに含まれる複数の頂点のうち、互いに異なる2つの頂点を連結させる経路が一つのデータ構造になり得る。すなわち、グラフデータ構造でループ(loop)を形成しないデータ構造になり得る。
【0151】
本明細書にかけて、演算モデル、 神経回路網、ネットワーク関数、ニューラルネットワークは同じ意味で使用できる。(以下ではニューラルネットワークで統一して記述する。) データ構造はニューラルネットワークを含むことができる。そして、ニューラルネットワークを含むデータ構造は、コンピューター可読保存媒体に保存されることができる。ニューラルネットワークを含むデータ構造はまた、ニューラルネットワークに入力されるデータ、ニューラルネットワークの加重値、ニューラルネットワークのハイパーパラメータ、ニューラルネットワークから獲得したデータ、ニューラルネットワークの各ノードまたはレイヤーに関連する活性関数、ニューラルネットワークの学習のための損失関数を含むことができる。ニューラルネットワークを含むデータ構造は、前記開示された構成のうち任意の構成要素を含むことができる。すなわち、ニューラルネットワークを含むデータ構造は、ニューラルネットワークに入力されるデータ、ニューラルネットワークの加重値、ニューラルネットワークのハイパーパラメータ、ニューラルネットワークから獲得したデータ、ニューラルネットワークの各ノードまたはレイヤーに関連する活性関数、ニューラルネットワークのトレーニングのための損失関数など、全部またはこれらの任意の組み合わせを含んで構成されることができる。前述した構成以外にも、ニューラルネットワークを含むデータ構造は、ニューラルネットワークの特性を決定する任意の他の情報を含むことができる。また、データ構造は、ニューラルネットワークの演算過程で使用されたり発生するすべての形態のデータを含むことができ、前述の事項に制限されるわけではない。コンピューター可読保存媒体は、コンピューター可読記録媒体および/またはコンピューター可読伝送媒体を含むことができる。ニューラルネットワークは、一般的にノードと呼ばれる相互接続された計算単位の集合で構成されることができる。このようなノードはニューロン(neuron)と呼ばれることができる。ニューラルネットワークは、少なくとも1つ以上のノードを含んで構成される。
【0152】
データ構造は、ニューラルネットワークに入力されるデータを含むことができる。ニューラルネットワークに入力されるデータを含むデータ構造は、コンピューター可読保存媒体に保存されることができる。ニューラルネットワークに入力されるデータは、ニューラルネットワークの学習過程で入力される学習データおよび/または学習が完了したニューラルネットワークに入力される入力データを含むことができる。ニューラルネットワークに入力されるデータは、前処理(pre-processing)を経たデータおよび/または前処理対象となるデータを含むことができる。前処理はデータをニューラルネットワークに入力させるためのデータ処理過程を含むことができる。したがって、データ構造は前処理対象となるデータおよび前処理で発生するデータを含むことができる。前述のデータ構造は例示に過ぎず、本開示はこれに限定されない。
【0153】
データ構造は、ニューラルネットワークの加重値を含むことができる。(本明細書で加重値、パラメータは同じ意味で使用できる。) そして、神経回路網の加重値を含むデータ構造はコンピューター可読保存媒体に保存されることができる。ニューラルネットワークは、複数の加重値を含むことができる。加重値は可変的であり、ニューラルネットワークが望む機能を遂行するために、ユーザーまたはアルゴリズムによって可変することができる。例えば、一つの出力ノードに一つ以上の入力ノードがそれぞれのリンクによって相互接続された場合、出力ノードは前記出力ノードと連結された入力ノードに入力された値及びそれぞれの入力ノードに対応するリンクに設定されたパラメータに基づいて出力ノード値を決定することができる。前述のデータ構造は例示に過ぎず、本開示はこれに限定されない。
【0154】
制限ではなく例として、加重値は神経回路網学習過程で可変する加重値および/または神経回路網学習が完了した加重値を含むことができる。ニューラルネットワーク学習過程で可変される加重値は、学習サイクルが始まる時点の加重値および/または学習サイクルの間に可変される加重値を含むことができる。ニューラルネットワーク学習が完了した加重値は、学習サイクルが完了した加重値を含むことができる。したがって、ニューラルネットワークの加重値を含むデータ構造は、ニューラルネットワーク学習過程で可変される加重値および/またはニューラルネットワーク学習が完了した加重値を含むデータ構造を含むことができる。したがって、上述した加重値および/または各加重値の組み合わせは、神経回路網の加重値を含むデータ構造に含まれるものとする。前述のデータ構造は例示に過ぎず、本開示はこれに限定されない。
【0155】
ニューラルネットワークの加重値を含むデータ構造は、直列化(serialization)過程を経た後、コンピューター可読保存媒体(例えば、メモリ、ハードディスク)に保存されることができる。直列化は、データ構造を同一または他のコンピューティングデバイスに保存し、後で再構成して使用できる形態に変換する過程である可能性がある。コンピューティングデバイスは、データ構造を直列化し、ネットワークを介してデータを送受信することができる。直列化されたニューラルネットワークの加重値を含むデータ構造は、逆直列化(deserialization)を通じて同じコンピューティング装置または他のコンピューティング装置で再構成されることができる。ニューラルネットワークの加重値を含むデータ構造は、シリアル化に限定されるものではない。さらに、神経回路網の加重値を含むデータ構造は、コンピューティング装置の資源を最小限に使用しながら演算の効率を高めるためのデータ構造(例えば、非線形データ構造で B-Tree、Trie、m-way search tree、AVLtree、Red-Black Tree)を含むことができる。前述の事項は例示に過ぎず、本開示はこれに限定されない。
【0156】
データ構造は、ニューラルネットワークのハイパーパラメータ(Hyper-parameter)を含むことができる。そして、ニューラルネットワークのハイパーパラメータを含むデータ構造は、コンピューター可読保存媒体に保存されることができる。ハイパーパラメータは、ユーザーによって可変される変数である可能性がある。ハイパーパラメータは、例えば、学習率(learning rate)、コスト関数(cost function)、学習サイクル反復回数、加重値初期化(例えば、加重値初期化対象となる加重値の範囲設定)、Hidden Unit個数(例えば、ヒドゥンレイヤーの個数、ヒドゥンレイヤーのノード数)を含むことができる。前述のデータ構造は例示に過ぎず、本開示はこれに限定されない。
【0157】
【0158】
図10は、本開示の実施例が具現化されることのできる例示的なコンピューティング環境に係る簡略で一般的な概略図である。
【0159】
本開示が一般的にコンピューティング装置により具現化されることができると前述されているが、当業者であれば本開示が一つ以上のコンピューター上で実行されることのできるコンピューター実行可能命令及び/またはその他のプログラムモジュールと結合して及び/またはハードウェアとソフトウェアの組み合わせとして具現化されることができるということをよく理解できるだろう。
【0160】
一般的に、本明細書におけるモジュールは、特定のタスクを実行したり特定の抽象的なデータ類型を実装するルーティン、プログラム、コンポーネント、データ構造、その他等々を含む。また、当業者なら本開示の方法がシングルプロセッサーまたはマルチプロセッサーコンピューターシステム、ミニコンピューター、メインフレームコンピューターはもちろん、パーソナルコンピューター、ハンドヘルド(handheld)コンピューティング装置、マイクロプロセッサー基盤、またはプログラム可能な家電製品、その他等々(これらは、それぞれ1つ以上の関連する装置と繋がって動作することができる)をはじめとする、他のコンピューターシステムの構成によって実施されることができることをよく理解できるだろう。
【0161】
本開示において説明された実施例は、さらに、あるタスクが通信ネットワークを通じて繋がっている遠隔処理装置によって実行される分散コンピューティング環境で実施されることができる。分散コンピューティング環境において、プログラムモジュールは、ローカルや遠隔メモリー保存装置の両方に位置することができる。
【0162】
コンピューターは、多様なコンピューター可読媒体を含む。コンピューターによってアクセス可能な媒体はいずれもコンピューター可読媒体になり得るが、このようなコンピューター可読媒体は揮発性及び非揮発性媒体、一時的(transitory)及び非一時的(non-transitory)媒体、移動式及び非-移動式媒体を含む。制限ではなく例として、コンピューター可読媒体は、コンピューター可読保存媒体及びコンピューター可読伝送媒体を含むことができる。コンピューター可読保存媒体は、コンピューター可読命令、データ構造、プログラムモジュール又はその他のデータのような情報を保存する任意の方法又は技術により実装される揮発性及び非揮発性媒体、一時的及び非-一時的媒体、移動式及び非移動式媒体を含む。コンピューター可読保存媒体は、RAM、ROM、EEPROM、フラッシュメモリーまたはその他のメモリー技術、CD-ROM、DVD(digital video disk)またはその他の光ディスク保存装置、磁気カセット、磁気テープ、磁気ディスク保存装置またはその他の磁気保存装置、またはコンピューターによってアクセスされることができ、情報を保存するのに使われることのできる任意のその他の媒体を含むが、これに限定されない。
【0163】
コンピューター可読伝送媒体は、通常、搬送波(carrier wave)またはその他の伝送メカニズム(transport mechanism)のような被変調データ信号(modulated data signal)にコンピューター可読命令、データ構造、プログラムモジュールまたはその他のデータ等を実装し、すべての情報伝達媒体を含む。被変調データ信号という用語は、信号の中で情報をエンコードするように、その信号の特性のうち1つ以上を設定または変更した信号を意味する。制限ではなく例として、コンピューター可読伝送媒体は、有線ネットワークまたは直接配線接続(direct-wired connection)のような有線媒体、そして音響、RF、赤外線、その他の無線媒体のような無線媒体を含む。前述の媒体のいずれかによる任意の組み合わせもまたコンピューター可読伝送媒体の範囲に含まれるものとする。
【0164】
コンピューター(1102)を含む本開示の多様な側面を実現する例示的な環境(1100)が示されており、コンピューター(1102)は、処理装置(1104)、システムメモリー(1106)、システムバス(1108)を含む。システムバス(1108)は、システムメモリー(1106)(これに限定されない)をはじめとするシステムコンポーネントを処理装置(1104)につなげる。処理装置(1104)は、多様な商用プロセッサーのうち任意のプロセッサーになり得る。デュエルプロセッサーとその他のマルチプロセッサーアーキテクチャもまた処理装置(1104)として利用されることができる。
【0165】
システムバス(1108)は、メモリーバス、周辺装置バス、そして多様な商用バスアーキテクチャの中から、任意のものを使用するローカルバスにさらに相互連結されることのできる複数の類型のバス構造のうちいずれかになり得る。システムメモリー(1106)は、読み取り専用メモリー(ROM)(1110)やランダムアクセスメモリー(RAM)(1112)を含む。基本的な入出力システム(BIOS)は、ROM、EPROM、EEPROM等の非揮発性メモリー(1110)に保存され、このBIOSは、起動中の時等にコンピューター(1102)の中の複数の構成要素間の情報のやりとりをサポートする基本的なルーティンを含む。RAM(1112)は、またデータをキャッシュするための静的RAM等の高速RAMを含むことができる。
【0166】
コンピューター(1102)においては、また、内蔵型ハードディスクドライブ(HDD)(1114)(例えば、EIDE、SATA)―この内蔵型ハードディスクドライブ(1114)はまた適切なシャシー(図示は省略)の中で外付け型の用途で構成されることができる―、磁気フロッピーディスクドライブ(FDD)(1116)(例えば、移動式ディスケット(1118)から読み取ったりそれに書き込むためのものである)及び光ディスクドライブ(1120)(例えば、CD-ROMディスク(1122)を読み取ったり、DVD等のその他の高容量光媒体から読み取ったり、それに書き込むためのものである)を含む。ハードディスクドライブ(1114)、磁気ディスクドライブ(1116)及び光ディスクドライブ(1120)は、それぞれハードディスクドライブインターフェース(1124)、磁気ディスクドライブインターフェース(1126)及び光ドライブインターフェース(1128)によってシステムバス(1108)に繋がることができる。外付け型ドライブの実装のためのインターフェース(1124)は、例えば、USB(Universal Serial Bus)やIEEE1394インターフェース技術のうち、少なくとも1つまたはその両方を含む。
【0167】
これらのドライブ及びこれらに係るコンピューター可読媒体は、データ、データ構造、コンピューターで実行可能な命令、その他等々の非揮発性保存を提供する。コンピューター(1102)の場合、ドライブ及び媒体は、任意のデータを適切なデジタル形式に保存することに対応する。前述におけるコンピューター可読保存媒体に係る説明が、HDD、移動式磁気ディスク及びCDまたはDVD等の移動式光媒体について触れているが、当業者ならジップドライブ(zip drive)、磁気カセット、フラッシュメモリーカード、カートリッジ、その他等々のコンピューターにより読み取り可能な他の類型の保存媒体もまた例示的な運営環境で使われることができ、さらに、このような媒体のうち任意のある媒体が、本開示の方法を実行するためのコンピューターで実行可能な命令を含むことができることをよく理解できるだろう。
【0168】
運営システム(1130)、1つ以上のアプリケーションプログラム(1132)、その他のプログラムモジュール(1134)及びプログラムデータ(1136)をはじめとする多数のプログラムモジュールが、ドライブ及びRAM(1112)に保存されることができる。運営システム、アプリケーション、モジュール及び/またはデータの全部またはその一部分がまたRAM(1112)にキャッシュされることができる。本開示が商業的に利用可能な様々な運営システムまたは複数の運営システムの組み合わせにより実装されることができることをよく理解できるだろう。
【0169】
ユーザーは、1つ以上の有線・無線の入力装置、例えば、キーボード(1138)及びマウス(1140)等のポインティング装置を通じてコンピューター(1102)に命令及び情報を入力することができる。その他の入力装置(図示は省略)としてはマイク、IRリモコン、ジョイスティック、ゲームパッド、スタイラスペン、タッチスクリーン、その他等々があり得る。これら及びその他の入力装置が、よくシステムバス(1108)に繋がっている入力装置インターフェース(1142)を通じて処理装置(1104)に繋がることがあるが、並列ポート、IEEE1394直列ポート、ゲームポート、USBポート、IRインターフェース、その他等々のその他のインターフェースによって繋がることができる。
【0170】
モニター(1144)または他の類型のディスプレイ装置も、ビデオアダプター(1146)等のインターフェースを通じてシステムバス(1108)に繋がる。モニター(1144)に加えて、コンピューターは一般的にスピーカー、プリンター、その他等々のその他の周辺出力装置(図示は省略)を含む。
【0171】
コンピューター(1102)は、有線及び/または無線通信による(複数の)遠隔コンピューター(1148)等の1つ以上の遠隔コンピューターへの論理的接続を利用し、ネットワーク化された環境で動作することができる。(複数の)遠隔コンピューター(1148)は、ワークステーション、サーバーコンピューター、ルーター、パーソナルコンピューター、携帯用コンピューター、マイクロプロセッサー基盤の娯楽機器、ピア装置またはその他の通常のネットワークノードになることができ、一般的にコンピューター(1102)について述べられた構成要素のうち、多数またはその全部を含むが、簡略化するために、メモリー保存装置(1150)のみ図示されている。図示されている論理的接続は、近距離通信網(LAN)(1152)及び/または、より大きいネットワーク、例えば、遠距離通信網(WAN)(1154)における有線・無線の接続を含む。このようなLAN及びWANのネットワーキング環境は、オフィスや会社では一般的なもので、イントラネット等の全社的コンピューターネットワーク(enterprise-wide computer network)を容易にし、これらはすべて全世界のコンピューターネットワーク、例えば、インターネットに繋がることができる。
【0172】
LANネットワーキング環境で使われるとき、コンピューター(1102)は、有線及び/または無線通信ネットワークインターフェース、または、アダプター(1156)を通じてローカルネットワーク(1152)に繋がる。アダプター(1156)は、LAN(1152)への有線または無線通信を容易にすることができ、このLAN(1152)は、また無線アダプター(1156)と通信するためにそれに設置されている無線アクセスポイントを含む。WANネットワーキング環境で使われるとき、コンピューター(1102)は、モデム(1158)を含むことができたり、WAN(1154)上の通信サーバーに繋がったり、またはインターネットを通じる等、WAN(1154)を通じて通信を設定するその他の手段を持つ。内蔵型又は外付け型、そして、有線または無線装置になり得るモデム(1158)は、直列ポートインターフェース(1142)を通じてシステムバス(1108)に繋がる。ネットワーク化された環境において、コンピューター(1102)について説明されたプログラムモジュールまたはその一部分が、遠隔メモリー/保存装置(1150)に保存されることができる。図示されたネットワーク接続が例示的なものであり、複数のコンピューター間で通信リンクを設定する他の手段が使われることができるということは容易に理解できることである。
【0173】
コンピューター(1102)は、無線通信で配置されて動作する任意の無線装置またはユニット、例えば、プリンター、スキャナー、デスクトップ及び/または携帯用コンピューター、PDA(portable data assistant)、通信衛星、無線で検出可能なタグに係る任意の装備または場所及、及び電話と通信する動作をする。これは、少なくともWi-Fi及びブルートゥース(登録商標)無線技術を含む。従って、通信は、従来のネットワークのように予め定義された構造であったり、単純に少なくとも2つの装置の間でのアドホック通信(ad hoc communication)になり得る。
【0174】
Wi-Fi(Wireless Fidelity)は、有線で繋がっていなくても、インターネット等への接続を可能にする。Wi-Fiは、このような装置、例えば、コンピューターが室内及び室外で、つまり基地局の通話圏内のどこからでもデータを送受信できるようにするセル電話のような無線技術である。Wi-Fiネットワークは、安全で信頼性があり、高速である無線接続を提供するためにIEEE802.11(a、b、g、その他)という無線技術を使う。コンピューターを互いに、インターネット及び有線ネットワーク(IEEE802.3またはイーサネットを使う)に接続するためにWi-Fiが使われることができる。Wi-Fiネットワークは、非認可2.4や5GHzの無線帯域において、例えば、11Mbps(802.11a)または54Mbps(802.11b)のデータレートで動作したり、両帯域(デュエル帯域)を含む製品において動作することができる。
【0175】
本開示の技術分野における通常の知識を持つ者は情報及び信号が任意の多様な異なる技術及び手法を利用して示されることができることを理会できる。例えば、前記の説明において参照できるデータ、指示、命令、情報、信号、ビット、シンボル及びチップは、電圧、電流、電磁気派、磁場等または粒子、光学場等または粒子、またはこれらの任意の組み合わせによって示されることができる。
【0176】
本開示の技術分野において通常の知識を持つ者は、ここに開示された実施例に係る説明で取り挙げられた多様な例示的な論理ブロック、モジュール、プロセッサー、手段、回路、アルゴリズム段階が電子ハードウェア、(利便性のために、ここでは「ソフトウェア」と称される)多様な形のプログラムまたは設計コード、またはこれらすべての結合により実装されることができることを理解できるだろう。ハードウェア及びソフトウェアのこのような相互互換性を明確に説明するために、多様な例示的なコンポーネント、ブロック、モジュール、回路、及び段階がこれらの機能に着目して前記で一般的に説明された。このような機能がハードウェアやソフトウェアで実装されるかどうかは、特定のアプリケーションおよび全体システムに対して付与される設計上の制限によって決まる。本開示の技術分野において通常の知識を持つ者は、個々の特定のアプリケーションについて多様な手法で説明された機能を実現することができるが、このような実現の決定は、本開示の範囲を逸脱するものと解釈されてはならない。
【0177】
ここに示された多様な実施例は、方法、装置、または標準プログラミング及び/またはエンジニアリング技術を使った製造物品(article)によって実現できる。用語「製造物品」は、任意のコンピューターで可読な装置からアクセス可能なコンピュータープログラム、キャリアー、または媒体(media)を含む。例えば、コンピューターで可読保存媒体は、磁気保存装置(例えば、ハードディスク、フロッピーディスク、磁気ストリップ等)、光学ディスク(例えば、CD、DVD等)、スマートカード及びフラッシュメモリー装置(例えば、EEPROM、カード、スティック、キードライブ等)を含むが、これらに限定されるものではない。また、ここに示されている多様は保存媒体は、情報を保存するための1つ以上の装置及び/または他の機械可読媒体を含む。
【0178】
示されたプロセスにおける複数の段階の特定の順番または階層構造は、例示的なアプローチの一例であることを理解すべきである。設計上の優先順位に基づき、本開示の範囲内で、プロセスにおける段階の特定の順番または階層構造が再配列されることができることを理解すべきである。添付の方法請求項は、サンプルとしての順番で、多様な段階のエレメントを提供するが、示された特定の順番または階層構造に限定されることを意味するわけではない。
【0179】
示された実施例に関する説明は、任意の本開示の技術分野において通常の知識を持つ者が、本開示を利用したりまたは実施できるように提供される。このような実施例に対する多様な変形は、本開示の技術分野において通常の知識を持つ者には明確に理解できるものであり、ここに定義された一般的な原理は、本開示の範囲を逸脱することなく他の実施例に適用されることができる。従って、本開示はここに示す実施例によって限定されるものではなく、ここに示す原理及び新規な特徴と一貫する最広義の範囲で解釈されるべきである。