特許7541424 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アクションパワーコーポレイションの特許一覧

特許7541424音声認識結果及び参照データにおいて重要部分を決定し、連携する方法｛ＭＥＴＨＯＤＦＯＲＤＥＴＥＲＭＩＮＩＮＧＡＮＤＬＩＮＫＩＮＧＩＭＰＯＲＴＡＮＴＰＡＲＴＳＡＭＯＮＧＳＴＴＲＥＳＵＬＴＡＮＤＲＥＦＥＲＥＮＣＥＤＡＴＡ｝

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-08-20

(45)【発行日】2024-08-28

(54)【発明の名称】音声認識結果及び参照データにおいて重要部分を決定し、連携する方法｛ＭＥＴＨＯＤＦＯＲＤＥＴＥＲＭＩＮＩＮＧＡＮＤＬＩＮＫＩＮＧＩＭＰＯＲＴＡＮＴＰＡＲＴＳＡＭＯＮＧＳＴＴＲＥＳＵＬＴＡＮＤＲＥＦＥＲＥＮＣＥＤＡＴＡ｝

(51)【国際特許分類】

G10L 15/10 20060101AFI20240821BHJP

【ＦＩ】

G10L15/10 500T

【請求項の数】 16

(21)【出願番号】P 2024000067

(22)【出願日】2024-01-04

(65)【公開番号】P2024096530

(43)【公開日】2024-07-16

【審査請求日】2024-01-09

(31)【優先権主張番号】10-2023-0000740

(32)【優先日】2023-01-03

(33)【優先権主張国・地域又は機関】KR

【早期審査対象出願】

(73)【特許権者】

【識別番号】522357781

【氏名又は名称】アクションパワーコーポレイション

(74)【代理人】

【識別番号】110002789

【氏名又は名称】弁理士法人ＩＰＸ

(72)【発明者】

【氏名】キム・ヒョンウ

(72)【発明者】

【氏名】ムン・ファンボク

(72)【発明者】

【氏名】キム・カンウク

【審査官】大野弘

(56)【参考文献】

【文献】特開２００８－１５２６０５（ＪＰ，Ａ）

【文献】国際公開第２０１６／１２９１１８（ＷＯ，Ａ１）

【文献】国際公開第２０１６／０４３１１０（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１５／００－１５／３４

Ｇ０６Ｆ４０／００－４０／５８

(57)【特許請求の範囲】

【請求項1】

少なくとも１つのプロセッサーを含むコンピューティング装置により実行される、音声認識結果（ＳＴＴ；Ｓｐｅｅｃｈ－Ｔｏ－Ｔｅｘｔ）及び参照データにおいて重要部分を決定する方法であって、
音声信号に対して音声認識を行って生成された、音声認識データを取得する段階；
前記音声信号に関連する参照データを取得する段階；
予め決定されたキーワード情報に基づき、前記音声認識データと前記参照データとのうち、いずれか１つのデータを選択する段階と、
選択されたデータのうちの一部である第１重要情報を決定する段階；及び
前記音声認識データと前記参照データとのうち、前記第１重要情報が決定されたデータではない他のデータにおいて、前記第１重要情報に関連する第２重要情報を決定する段階
を含み、
前記音声認識データと前記参照データとのうち、前記第１重要情報が決定されたデータではない他のデータにおいて、前記第１重要情報に関連する第２重要情報を決定する段階は、
前記他のデータにおいて、前記第１重要情報との単語類似度がしきい値以上の部分を、前記第２重要情報として決定する段階；
前記他のデータにおいて、前記第１重要情報との文章埋め込みベクター（ｓｅｎｔｅｎｃｅｅｍｂｅｄｄｉｎｇｖｅｃｔｏｒ）類似度がしきい値以上の部分を前記第２重要情報として決定する段階；
前記第１重要情報及び前記他のデータについて質疑応答（ＱＡ；ＱｕｅｓｔｉｏｎＡｎｓｗｅｒｉｎｇ）モデルが出力した結果に基づき、前記他のデータにおいて前記第２重要情報を決定する段階；又は
時刻同期（ｔｉｍｅ－ｓｙｎｃ）情報に基づき、前記他のデータにおいて前記第２重要情報を決定する段階
のうち、少なくとも１つの段階
を含む、
方法。

【請求項2】

請求項１において、
前記予め決定されたキーワード情報に基づき、いずれか１つの前記データを選択する段階は、
前記音声認識データと前記参照データとのうち、予め決定されたキーワードが多く含まれている方のデータを選択する段階
を含む、
方法。

【請求項3】

請求項１又は請求項２において、
前記予め決定されたキーワード情報に基づき、前記選択されたデータにおいて、前記第１重要情報を決定する段階
を含む、
方法。

【請求項4】

請求項３において、
前記予め決定されたキーワード情報に基づき、前記音声認識データと前記参照データとのうち、いずれか１つのデータを選択する段階は、
前記音声認識データと前記参照データとのうち、前記予め決定されたキーワードに類似した単語がより多く含まれているデータを選択する段階を含み、
前記予め決定されたキーワードに類似した単語は、編集距離の分析に基づき決定される、
方法。

【請求項5】

請求項３において、
前記予め決定されたキーワード情報に基づき、前記選択されたデータにおいて、前記第１重要情報を決定する段階は、
前記選択されたデータにおいて、前記予め決定されたキーワードとの類似度が最も高い部分を識別し、識別された部分に基づき、前記第１重要情報を決定する段階を含み、
前記予め決定されたキーワードとの類似度は、編集距離の分析に基づき決定される、
方法。

【請求項6】

請求項１において、
前記他のデータにおいて、前記第１重要情報との単語類似度がしきい値以上の部分を、前記第２重要情報として決定する段階は、
前記他のデータにおいて、前記第１重要情報と同一の単語又は類似した単語をしきい値以上含む部分を識別する段階；及び
前記識別された部分を前記第２重要情報として決定する段階
を含み、
前記類似した単語は、編集距離に基づいて識別される、
方法。

【請求項7】

請求項１において、
前記音声認識データと前記参照データとのうち、前記第１重要情報が決定されたデータではない他のデータにおいて、前記第１重要情報に関連する第２重要情報を決定する段階は、
前記第２重要情報の決定をガイドするためのＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）データを生成する段階；及び
前記他のデータにおいて、前記ＵＩを介して入力される情報に基づき、前記第１重要情報に関連する前記第２重要情報を決定する段階
をさらに含む、
方法。

【請求項8】

請求項１において、
前記音声認識データと前記参照データとのうち、前記第１重要情報が決定されたデータではない他のデータにおいて、前記第１重要情報に関連する第２重要情報を決定する段階は、
前記他のデータにおいて、前記第１重要情報とは異なる言語単位を前記第２重要情報として決定する段階を含み、
前記異なる言語単位は、単語単位、文単位、又は、段落単位を含む、
方法。

【請求項9】

請求項１において、
前記参照データは、前記音声認識データとの類似度分析に基づいて識別され、
前記類似度分析は、編集距離分析を含む、
方法。

【請求項10】

請求項９において、
前記参照データは、
前記音声信号に関連するノートデータ；
前記音声信号に関連するコンテンツデータ；又は
前記音声信号に関連する学習資料データ
のうち、少なくとも１つデータを含む、
方法。

【請求項11】

請求項１において、
前記方法は、
追加の参照データを取得する段階；
前記追加の参照データにおいて、前記第１重要情報及び前記第２重要情報に関連する第３重要情報を決定する段階；及び
前記第１重要情報、前記第２重要情報、及び前記第３重要情報を互いに関連付ける段階
をさらに含む、
方法。

【請求項12】

請求項１において、
前記方法は、
前記第１重要情報又は前記第２重要情報に基づき、前記音声認識データを再構成し、再構成音声認識データを提供する段階をさらに含み、
前記再構成音声認識データは、重要部分として決定された音声認識データだけを含み、
前記再構成音声認識データは、前記第１重要情報又は前記第２重要情報の言語単位より大きい言語単位を含む、
方法。

【請求項13】

請求項１において、
前記方法は、
前記第１重要情報又は前記第２重要情報に基づき、前記参照データを再構成し、再構成参照データを生成する段階をさらに含み、
前記参照データが映像データを含む場合、前記再構成参照データは、重要部分として決定された複数の部分的な映像だけをつなげることで生成される、
方法。

【請求項14】

請求項１において、
前記方法は、
前記第１重要情報又は前記第２重要情報に基づき、前記音声認識データに係る要約情報を生成する段階をさらに含み、
前記要約情報は、前記第１重要情報又は前記第２重要情報に基づく重みを活用して生成される、
方法。

【請求項15】

コンピューター可読保存媒体に保存されたコンピュータープログラムであって、前記コンピュータープログラムは、１つ以上のプロセッサーによって実行される場合、前記１つ以上のプロセッサーに、音声認識結果（ＳＴＴ；Ｓｐｅｅｃｈ－Ｔｏ－Ｔｅｘｔ）及び参照データにおいて重要部分を決定するための以下の動作を実行させ、前記動作は、
音声信号に対して音声認識を行って生成された、音声認識データを取得する動作；
前記音声信号に関連する参照データを取得する動作；
予め決定されたキーワード情報に基づき、前記音声認識データと前記参照データとのうち、いずれか１つのデータを選択する動作と、
選択されたデータのうちの一部である第１重要情報を決定する段階；及び
前記音声認識データと前記参照データとのうち、前記第１重要情報が決定されたデータではない他のデータにおいて、前記第１重要情報に関連する第２重要情報を決定する動作
を含み、
前記音声認識データと前記参照データとのうち、前記第１重要情報が決定されたデータではない他のデータにおいて、前記第１重要情報に関連する第２重要情報を決定する動作は、
前記他のデータにおいて、前記第１重要情報との単語類似度がしきい値以上の部分を、前記第２重要情報として決定する動作；
前記他のデータにおいて、前記第１重要情報との文章埋め込みベクター（ｓｅｎｔｅｎｃｅｅｍｂｅｄｄｉｎｇｖｅｃｔｏｒ）類似度がしきい値以上の部分を前記第２重要情報として決定する動作；
前記第１重要情報及び前記他のデータについて質疑応答（ＱＡ；ＱｕｅｓｔｉｏｎＡｎｓｗｅｒｉｎｇ）モデルが出力した結果に基づき、前記他のデータにおいて前記第２重要情報を決定する動作；又は
時刻同期（ｔｉｍｅ－ｓｙｎｃ）情報に基づき、前記他のデータにおいて前記第２重要情報を決定する動作
のうち、少なくとも１つを含む、
コンピューター可読保存媒体に保存されたコンピュータープログラム。

【請求項16】

音声認識結果（ＳＴＴ；Ｓｐｅｅｃｈ－Ｔｏ－Ｔｅｘｔ）及び参照データにおいて重要部分を決定するためのコンピューティング装置であって、
少なくとも１つのプロセッサー；及び
メモリー
を含み、
前記少なくとも１つのプロセッサーは、
音声信号に対して音声認識を行って生成された、音声認識データを取得し；
前記音声信号に関連する参照データを取得し；
予め決定されたキーワード情報に基づき、前記音声認識データと前記参照データとのうち、いずれか１つのデータを選択し、
選択されたデータのうちの一部である第１重要情報を決定し；且つ
前記音声認識データと前記参照データとのうち、前記第１重要情報が決定されたデータではない他のデータにおいて、前記第１重要情報に関連する第２重要情報を決定するように構成され、
前記音声認識データと前記参照データとのうち、前記第１重要情報が決定されたデータではない他のデータにおいて、前記第１重要情報に関連する第２重要情報を決定することは、
前記他のデータにおいて、前記第１重要情報との単語類似度がしきい値以上の部分を、前記第２重要情報として決定すること；
前記他のデータにおいて、前記第１重要情報との文章埋め込みベクター（ｓｅｎｔｅｎｃｅｅｍｂｅｄｄｉｎｇｖｅｃｔｏｒ）類似度がしきい値以上の部分を前記第２重要情報として決定すること；
前記第１重要情報及び前記他のデータについて質疑応答（ＱＡ；ＱｕｅｓｔｉｏｎＡｎｓｗｅｒｉｎｇ）モデルが出力した結果に基づき、前記他のデータにおいて前記第２重要情報を決定すること；又は
時刻同期（ｔｉｍｅ－ｓｙｎｃ）情報に基づき、前記他のデータにおいて前記第２重要情報を決定すること
のうち、少なくとも１つを含む、
装置。

【発明の詳細な説明】

【技術分野】

【0001】

【0002】

本発明は、複数のデータにおいて重要部分を決定する方法に係り、より具体的には、音声認識結果と参照データとの間において重要部分を決定し、互いに連携させる技術に関する。

【背景技術】

【0003】

最近は、情報オーバーロードの時代で、情報過多が問題になっている時代である。音声認識（ＳＴＴ；ＳｐｅｅｃｈｔｏＴｅｘｔ）サービスを利用するユーザーにとって、確認すべき資料の種類が多すぎるという問題が存在する。例えば、オンライン講義を学習に活用するために、音声認識（ＳＴＴ）サービスを利用しようとする大学院生がいるとしたら、その大学院生は、講義を録画した映像と音声を音声認識（ＳＴＴ）した結果であるテキスト、講義中にノートをとった内容又は講義資料のｐｄｆファイル等をすべて見なければならない。

【0004】

ユーザーの立場からすると、このように多様で膨大な資料をすべて見ることが困難である可能性があり、重要部分だけを抜粋して見たいと思う可能性がある。しかし、互いに関連する複数のデータ（例えば、音声認識結果テキスト、ノート、関連するコンテンツ）において、重要部分はどこであるか、そして、各重要部分と対応する部分はどこであるかが分からず、複数のデータの各々において重要部分を確認しなければならないという不便さが存在する。

【0005】

大韓民国登録特許第１０－１４４９４３０号（２０１４．１０．０２）は、コンテンツの要約された再生情報を生成する方法及び装置について開示している。

【先行技術文献】

【特許文献】

【0006】

【文献】大韓民国登録特許第１０－１４４９４３０号

【発明の概要】

【発明が解決しようとする課題】

【0007】

本開示は、音声認識（ＳＴＴ）結果と参照データとの間において、複数の重要部分を決定し、決定された複数の重要部分を互いに連携させる方法を提供することを目的とする。

【0008】

【0009】

しかし、本開示が解決しようとする技術的課題は、前述の技術的課題に限られるわけではなく、以下に説明する内容から、当業者にとって自明な範囲内において、多様な技術的課題が含まれることが可能であるものとする。

【課題を解決するための手段】

【0010】

前述の課題を実現するための本開示の一実施例に基づき、コンピューティング装置により実行される方法が開示される。上記方法は、音声信号に対して音声認識を行って生成された、音声認識データを取得する段階；参照データを取得する段階；上記音声認識データと上記参照データとのうち、いずれか１つのデータにおいて第１重要情報を決定する段階；及び上記音声認識データと上記参照データとのうち、上記第１重要情報が決定されたデータではない他のデータにおいて、上記第１重要情報に関連する第２重要情報を決定する段階を含むことが可能である。

【0011】

一実施例において、上記音声認識データと上記参照データとのうち、いずれか１つのデータにおいて第１重要情報を決定する段階は、ユーザーの入力に基づき、上記第１重要情報を決定する段階；又は、予め決定されたキーワード（ｋｅｙｗｏｒｄ）情報に基づき、上記第１重要情報を決定する段階のうち、少なくとも１つの段階を含むことが可能である。

【0012】

一実施例において、上記予め決定されたキーワード情報に基づき上記第１重要情報を決定する段階は、上記予め決定されたキーワード情報に基づき、上記音声認識データと上記参照データとのうち、いずれか１つのデータを選択する段階；及び上記予め決定されたキーワード情報に基づき、上記選択されたデータにおいて、上記第１重要情報を決定する段階を含むことが可能である。

【0013】

一実施例において、上記予め決定されたキーワード情報に基づき、上記音声認識データと上記参照データとのうち、いずれか１つのデータを選択する段階は、上記音声認識データと上記参照データとのうち、上記予め決定されたキーワードに類似した単語がより多く含まれているデータを選択する段階を含み、上記予め決定されたキーワードに類似した単語は、編集距離の分析に基づき決定されることが可能である。

【0014】

一実施例において、上記予め決定されたキーワード情報に基づき、上記選択されたデータにおいて、上記第１重要情報を決定する段階は、上記選択されたデータにおいて、上記予め決定されたキーワードとの類似度が最も高い部分を識別し、識別された部分に基づき、上記第１重要情報を決定する段階を含み、上記予め決定されたキーワードとの類似度は、編集距離の分析に基づき決定されることが可能である。

【0015】

一実施例において、上記音声認識データと上記参照データとのうち、上記第１重要情報が決定されたデータではない他のデータにおいて、上記第１重要情報に関連する第２重要情報を決定する段階は、上記他のデータにおいて、上記第１重要情報との単語類似度がしきい値以上の部分を、上記第２重要情報として決定する段階；上記他のデータにおいて、上記第１重要情報との文章埋め込みベクター（ｓｅｎｔｅｎｃｅｅｍｂｅｄｄｉｎｇｖｅｃｔｏｒ）類似度がしきい値以上の部分を上記第２重要情報として決定する段階；上記第１重要情報及び上記他のデータについて質疑応答（ＱＡ；ＱｕｅｓｔｉｏｎＡｎｓｗｅｒｉｎｇ）モデルが出力した結果に基づき、上記他のデータにおいて上記第２重要情報を決定する段階；又は、時刻同期（ｔｉｍｅ－ｓｙｎｃ）情報に基づき、上記他のデータにおいて上記第２重要情報を決定する段階のうち、少なくとも１つの段階を含むことが可能である。

【0016】

一実施例において、上記他のデータにおいて、上記第１重要情報との単語類似度がしきい値以上の部分を、上記第２重要情報として決定する段階は、上記他のデータにおいて、上記第１重要情報と同一の単語又は類似した単語をしきい値以上含む部分を識別する段階；及び上記識別された部分を上記第２重要情報として決定する段階を含み、上記類似した単語は、編集距離に基づいて識別されることが可能である。

【0017】

一実施例において、上記音声認識データと上記参照データとのうち、上記第１重要情報が決定されたデータではない他のデータにおいて、上記第１重要情報に関連する第２重要情報を決定する段階は、上記第２重要情報の決定をガイドするためのＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）データを生成する段階；及び上記他のデータにおいて、上記ＵＩを介して入力される情報に基づき、上記第１重要情報に関連する上記第２重要情報を決定する段階を含むことが可能である。

【0018】

一実施例において、上記音声認識データと上記参照データとのうち、上記第１重要情報が決定されたデータではない他のデータにおいて、上記第１重要情報に関連する第２重要情報を決定する段階は、上記他のデータにおいて、上記第１重要情報とは異なる言語単位を上記第２重要情報として決定する段階を含み、上記異なる言語単位は、単語単位、文単位、又は、段落単位を含むことが可能である。

【0019】

一実施例において、上記参照データは、上記音声認識データとの類似度分析に基づいて識別され、上記類似度分析は、編集距離分析を含むことが可能である。

【0020】

一実施例において、上記参照データは、上記音声信号に関連するノートデータ；上記音声信号に関連するコンテンツデータ；又は上記音声信号に関連する学習資料データのうち、少なくとも１つのデータを含むことが可能である。

【0021】

一実施例において、上記方法は、追加の参照データを取得する段階；上記追加の参照データにおいて、上記第１重要情報及び上記第２重要情報に関連する第３重要情報を決定する段階；及び上記第１重要情報、上記第２重要情報、及び上記第３重要情報を互いに関連付ける段階をさらに含むことが可能である。

【0022】

一実施例において、上記方法は、上記第１重要情報又は上記第２重要情報に基づき、上記音声認識データを再構成し、再構成音声認識データを提供する段階をさらに含み、上記再構成音声認識データは、重要部分として決定された音声認識データだけを含み、上記再構成音声認識データは、上記第１重要情報又は上記第２重要情報の言語単位より大きい言語単位を含むことが可能である。

【0023】

一実施例において、上記方法は、上記第１重要情報又は上記第２重要情報に基づき、上記参照データを再構成し、再構成参照データを生成する段階をさらに含み、上記参照データが映像データを含む場合、上記再構成参照データは、重要部分として決定された複数の部分的な映像だけをつなげることで生成されることが可能である。

【0024】

一実施例において、上記方法は、上記第１重要情報又は上記第２重要情報に基づき、上記音声認識データに係る要約情報を生成する段階をさらに含み、上記要約情報は、上記第１重要情報又は上記第２重要情報に基づく重みを活用して生成されることが可能である。

【0025】

前述のような課題を実現するための本開示の一実施例に基づき、コンピューター可読保存媒体に保存されたコンピュータープログラムが開示される。上記コンピュータープログラムは、１つ以上のプロセッサーにおいて実行される場合、上記１つ以上のプロセッサーに、音声認識結果（ＳＴＴ；Ｓｐｅｅｃｈ－Ｔｏ－Ｔｅｘｔ）及び参照データにおいて重要部分を決定するための以下の動作を実行させるが、上記動作は：音声信号に対して音声認識を行って生成された、音声認識データを取得する動作；参照データを取得する動作；上記音声認識データと上記参照データとのうち、いずれか１つのデータにおいて第１重要情報を決定する動作；及び上記音声認識データと上記参照データとのうち、上記第１重要情報が決定されたデータではない他のデータにおいて、上記第１重要情報に関連する第２重要情報を決定する動作を含むことが可能である。

【0026】

前述の課題を解決するための本開示の一実施例に基づくコンピューティング装置が開示される。上記装置は、少なくとも１つのプロセッサー；及びメモリーを含み、上記少なくとも１つのプロセッサーは、音声信号に対して音声認識を行って生成された、音声認識データを取得し；参照データを取得し；上記音声認識データと上記参照データとのうち、いずれか１つのデータにおいて第１重要情報を決定し；且つ、上記音声認識データと上記参照データとのうち、上記第１重要情報が決定されたデータではない他のデータにおいて、上記第１重要情報に関連する第２重要情報を決定するように構成されることが可能である。

【発明の効果】

【0027】

【0028】

本開示は、音声認識（ＳＴＴ）結果と参照データとの間において複数の重要部分を決定し、決定された複数の重要部分を互いに連携させる方法を提供することが可能であり、これによって音声認識に係る向上されたＵＸ（ＵｓｅｒＥｘｐｅｒｉｅｎｃｅ）を具現化することが可能である。また、本開示は、音声認識（ＳＴＴ）結果と参照データとの間において互いに関連する複数の重要部分を決定するための技術的ソリューションを提供することが可能である。

【0029】

一方、本開示の効果は、前述の効果に限られるわけではなく、以下に説明する内容から、当業者にとって自明な範囲内において、多様な効果が含まれることが可能である。

【0030】

【図面の簡単な説明】

【0031】

【図1】本開示の一実施例に基づく、音声認識結果及び参照データにおいて重要部分を決定するためのコンピューティング装置のブロック構成図である。

【図2】本開示の一実施例に基づき、ネットワーク関数を示す概略図である。

【図3】本開示の一実施例に基づく、音声認識結果及び参照データにおいて重要部分を決定するための複数のモジュールのブロック構成図である。

【図4】本開示の一実施例に基づく、ＳＴＴ結果テキストにおいて重要情報として決定された場合のＳＴＴ結果－ノートＵＩを例示的に示している図面である。

【図5】本開示の一実施例に基づく、ＳＴＴ結果テキストにおいて重要情報として決定された場合のＳＴＴ結果－関連コンテンツを例示的に示している図面である。

【図6】本開示の一実施例に基づく、ＳＴＴ結果テキストにおいて重要情報として決定された場合の関連コンテンツ－ノートＵＩを例示的に示している図面である。

【図7】本開示の一実施例に基づく、別途のページにおいて複数の重要情報をまとめて提供されるＵＩを例示的に示している図面である。

【図8】本開示の一実施例に基づく、特定の単語についてハイライトを選択した場合、右側に参照データにおける複数の重要情報だけをまとめて一緒に提供される画面を例示的に示している図面である。

【図9】本開示の一実施例に基づく、音声認識結果（ＳＴＴ；Ｓｐｅｅｃｈ－Ｔｏ－Ｔｅｘｔ）及び参照データにおいて重要部分を決定する方法に係るフローチャートである。

【図10】本開示の一実施例を具現化できる例示的なコンピューティング環境に係る簡略且つ一般的な概略図である。

【発明を実施するための形態】

【0032】

多様な実施例について以下に図面を参照用いて説明する。本明細書において多様な説明が本開示に対する理解を容易にするために示される。しかし、かかる実施例がかかる具体的な説明がなくても実施されることが可能であることは自明である。

【0033】

本明細書において、「コンポーネント」、「モジュール」、「システム」等の用語は、コンピューター関連エンティティ、ハードウェア、ファームウェア、ソフトウェア、ソフトウェアとハードウェアとの組み合わせ、又はソフトウェアの実行を指す。例えば、コンポーネントは、プロセッサー上で実行される処理手順（ｐｒｏｃｅｄｕｒｅ）、プロセッサー、オブジェクト、実行スレッド、プログラム、及び／又はコンピューターになり得るが、これらに限定されるものではない。例えば、コンピューティング装置で実行されるアプリケーションとコンピューティング装置は、両方ともコンポーネントになり得る。１つ以上のコンポーネントは、プロセッサー及び／又は実行スレッドの中に常駐することが可能である。１つのコンポーネントは、１つのコンピューターの中でローカル化されることが可能である。１つのコンポーネントは、２つ以上のコンピューターに配分されることが可能である。また、このようなコンポーネントは、その内部に保存されている多様なデータ構造を有する多様なコンピューター可読媒体において実行することが可能である。コンポーネントは、例えば１つ以上のデータパケットを含む信号（例えば、ローカルシステムや分散システムにおいて他のコンポーネントと相互作用する１つのコンポーネントからのデータ及び／又は信号を用いて、他のシステムと、インターネットのようなネットワークを介して伝送されるデータ）を用いてローカル及び／又は遠隔処理等を通じて通信することが可能である。

【0034】

なお、用語「又は」は、排他的な「又は」ではなく、内包的な「又は」を意味する意図で使われる。つまり、特に特定されておらず、文脈上明確ではない場合、「Ｘは、Ａ又はＢを利用する」は、自然な内包的置換のうち１つを意味するものとする。つまり、ＸがＡを利用したり；ＸがＢを利用したり；又はＸがＡ及びＢの両方を利用する場合、「ＸはＡ又はＢを利用する」は、これらのいずれにも当てはまるとすることが可能である。また、本明細書における「及び／又は」という用語は、取り挙げられた複数の関連アイテムのうち、１つ以上のアイテムの可能なすべての組み合わせを指し、含むものと理解されるべきである。

【0035】

また、述語としての「含む（含める）」及び／又は修飾語としての「含む（含める）」という用語は、当該特徴及び／又は構成要素が存在することを意味するものと理解されるべきである。ただし、述語としての「含む（含める）」及び／又は修飾語として「含む（含める）」という用語は、１つ以上の他のさらなる特徴、構成要素及び／又はこれらのグループの存在又は追加を排除しないものと理解されるべきである。また、特に数が特定されていない場合や、単数の形を示すことが文脈上明確でない場合、本明細書と請求範囲において単数は、一般的に「１つ又はそれ以上」を意味するものと解釈されるべきである。

【0036】

そして、「Ａ又はＢのうち少なくとも１つ」という用語については、「Ａだけを含む場合」、「Ｂだけを含む場合」、「ＡとＢの組み合わせの場合」を意味するものと解釈されるべきである。

【0037】

当業者は、さらに、ここに開示されている実施例に係るものとして説明された多様な例示的論理的ブロック、構成、モジュール、回路、手段、ロジック及びアルゴリズム段階が、電子ハードウェア、コンピューターソフトウェア、又はその両方の組み合わせによって実現されることが可能であることを認識すべきである。ハードウェアとソフトウェアとの相互交換性を明確に例示するために、多様な例示的コンポーネント、ブロック、構成、手段、ロジック、モジュール、回路及び段階が、それらの機能性の側面で一般的に上述された。そのような機能性がハードウェアとして実装されるか或いはソフトウェアとして実装されるかは、全般的なシステムに係る特定のアプリケーション（ａｐｐｌｉｃａｔｉｏｎ）及び設計制限によって決まる。熟練した技術者は、個々の特定アプリケーションのために多様な方法で説明された機能性を実現することが可能である。ただし、そのような実現に係る決定が本開示内容の領域を逸脱するものと解釈されてはならない。

【0038】

ここに示す実施例に係る説明は、本開示の技術分野において通常の知識を持つ者が本発明を利用したり、又は実施できるように提供される。このような実施例に対する多様な変形は、本開示の技術分野において通常の知識を持つ者には明確に理解できるものである。ここに定義された一般的な原理は、本開示の範囲を逸脱することなく他の実施例に適用されることが可能である。従って、本発明はここに示す実施例だけに限定されるものではない。本発明はここに示す原理及び新規な特徴と一貫する最広義の範囲で解釈されるべきである。

【0039】

本開示において、ネットワーク関数、人工神経回路網及びニューラルネットワーク（ｎｅｕｒａｌｎｅｔｗｏｒｋ）は、相互置換可能に用いることが可能である。

【0040】

【0041】

図１は、本開示の一実施例に基づく、音声認識結果（ＳＴＴ；Ｓｐｅｅｃｈ－Ｔｏ－Ｔｅｘｔ）及び参照データにおいて重要部分を決定するためのコンピューティング装置のブロック構成図である。

【0042】

図１に図示されたコンピューティング装置（１００）の構成は、簡略化して示した例示に過ぎない。本開示の一実施例において、コンピューター装置（１００）には、コンピューター装置（１００）のコンピューティング環境を実装するための他の構成が含まれることが可能であり、開示されている構成のうち一部だけでコンピューター装置（１００）を構成することも可能である。

【0043】

コンピューター装置（１００）は、プロセッサー（１１０）、メモリー（１３０）、ネットワーク部（１５０）を含むことができる。

【0044】

本開示の一実施例において、プロセッサー（１００）は、１つ以上のコアで構成されることが可能であり、コンピューティング中央処理装置（ＣＰＵ：ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、汎用グラフィック処理装置（ＧＰＧＰＵ：ｇｅｎｅｒａｌｐｕｒｐｏｓｅｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、テンサー処理装置（ＴＰＵ：ｔｅｎｓｏｒｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）等のデータ分析、ディープラーニングのためのプロセッサーを含むことができる。プロセッサー（１１０）は、メモリー（１３０）に保存されたコンピュータープログラムを読み取り、本開示の一実施例における機械学習のためのデータ処理を実行することができる。本開示の一実施例に基づき、プロセッサー（１１０）は、ニューラルネットワークの学習のための演算を行うことができる。プロセッサー（１１０）は、ディープラーニング（ＤＬ：ｄｅｅｐｌｅａｒｎｉｎｇ）において、学習のための入力データの処理、入力データからのフィーチャーの抽出、誤差計算、逆伝播（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）を利用したニューラルネットワークの重みの更新等のニューラルネットワークの学習のための計算を実行することができる。
プロセッサー（１１０）のＣＰＵとＧＰＧＰＵとＴＰＵとのうち、少なくとも１つが、ネットワーク関数の学習を処理できる。例えば、ＣＰＵとＧＰＧＰＵとがともにネットワーク関数の学習やネットワーク関数を利用したデータの分類を行うことができる。なお、本開示の一実施例において、複数のコンピューティング装置のプロセッサーを一緒に使ってネットワーク関数の学習やネットワーク関数を利用したデータ分類を行うことができる。また、本開示の一実施例における、コンピューティング装置において実行されるコンピュータープログラムは、ＣＰＵ、ＧＰＧＰＵ又はＴＰＵで実行可能なプログラムになり得る。

【0045】

本開示の一実施例において、メモリー（１３０）は、プロセッサー（１１０）が生成したり、決定した任意の形態の情報及びネットワーク部（１５０）が受信した任意の形態の情報を保存することができる。

【0046】

本開示の一実施例において、メモリー（１３０）は、フラッシュメモリータイプ（ｆｌａｓｈｍｅｍｏｒｙｔｙｐｅ）、ハードディスクタイプ（ｈａｒｄｄｉｓｋｔｙｐｅ）、マルチメディアカードマイクロタイプ（ｍｕｌｔｉｍｅｄｉａｃａｒｄｍｉｃｒｏｔｙｐｅ）、カードタイプのメモリー（例えばＳＤ又はＸＤメモリー等）、ラム（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）、ＳＲＡＭ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ロム（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ＰＲＯＭ（ＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、磁気メモリー、磁気ディスク、光ディスクのうち少なくとも１つのタイプの保存媒体を含むことができる。コンピューティン装置（１００）は、インターネット（ｉｎｔｅｒｎｅｔ）上で前記メモリー（１３０）の保存機能を実行するウェブストレージ（ｗｅｂｓｔｏｒａｇｅ）と連携して動作することも可能である。前述のメモリーに係る記述は、例示に過ぎず、本開示はこれらに限定されない。

【0047】

本開示の一実施例におけるネットワーク部（１５０）は、公衆電話交換網（ＰＳＴＮ：ＰｕｂｌｉｃＳｗｉｔｃｈｅｄＴｅｌｅｐｈｏｎｅＮｅｔｗｏｒｋ）、ｘＤＳＬ（ｘＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）、ＲＡＤＳＬ（ＲａｔｅＡｄａｐｔｉｖｅＤＳＬ）、ＭＤＳＬ（ＭｕｌｔｉＲａｔｅＤＳＬ）、ＶＤＳＬ（ＶｅｒｙＨｉｇｈＳｐｅｅｄＤＳＬ）、ＵＡＤＳＬ（ＵｎｉｖｅｒｓａｌＡｓｙｍｍｅｔｒｉｃＤＳＬ）、ＨＤＳＬ（ＨｉｇｈＢｉｔＲａｔｅＤＳＬ）及び近距離通信網（ＬＡＮ）等のような多様な有線通信システムを使用することが可能である。

【0048】

また、本明細書におけるネットワーク部（１５０）は、ＣＤＭＡ（ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉＡｃｃｅｓｓ）、ＴＤＭＡ（ＴｉｍｅＤｉｖｉｓｉｏｎＭｕｌｔｉＡｃｃｅｓｓ）、ＦＤＭＡ（ＦｒｅｑｕｅｎｃｙＤｉｖｉｓｉｏｎＭｕｌｔｉＡｃｃｅｓｓ）、ＯＦＤＭＡ（ＯｒｔｈｏｇｏｎａｌＦｒｅｑｕｅｎｃｙＤｉｖｉｓｉｏｎＭｕｌｔｉＡｃｃｅｓｓ）、ＳＣ－ＦＤＭＡ（ＳｉｎｇｌｅＣａｒｒｉｅｒ－ＦＤＭＡ）及びその他のシステムのような多様な無線通信システムを利用することが可能である。

【0049】

本開示におけるネットワーク部（１５０）は、有線及び無線等のような通信の様態を問わずに構成されるとができ、短距通信網（ＬＡＮ：ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ），個人通信網（ＰＡＮ：ＰｅｒｓｏｎａｌＡｒｅａＮｅｔｗｏｒｋ）、広域通信網（ＷＡＮ：ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）等の多様な通信網になり得る。また、前記ネットワークは、公知のワールドワイドウェブ（ＷＷＷ：ＷｏｒｌｄＷｉｄｅＷｅｂ）になり得る他、赤外線（ＩｒＤＡ：ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ）又は、ブルートゥース（登録商標）（Ｂｌｕｅｔｏｏｔｈ）のように、短距離通信に利用される無線伝送技術を利用することもできる。

【0050】

【0051】

本明細書において説明された技術は、前記のネットワークだけでなく、他のネットワークで使われることもできる。

【0052】

図２は、本開示の一実施例において、ネットワーク関数を示す概略図である。

【0053】

本明細書の全体を通して、演算モデル、神経回路網、ネットワーク関数、ニューラルネットワーク（ｎｅｕｒａｌｎｅｔｗｏｒｋ）は、同一の意味で用いることができる。神経回路網は、一般的にノードと呼ばれる相互連結された計算単位の集合で構成されることが多い。このようなノードは、ニューロン（ｎｅｕｒｏｎ）と称することもできる。神経回路網は、少なくとも１つ以上のノードを含めて構成される。神経回路網を構成するノード（またはニューロン）は１つ以上のリンクによって相互連結されることが可能である。

【0054】

神経回路網において、リンクを介して繋がっている１つ以上のノードは、相対的に入力ノード及び出力ノードの関係を形成することができる。入力ノード及び出力ノードの概念は相対的なものであり、あるノードに対して出力ノードとなる任意のノードは、他のノードとの関係においては入力ノードになり得るが、その逆も成立する。前述のように、入力ノードと出力ノードとの関係はリンクを中心にして成立することができる。１つの入力ノードに１つ以上の出力ノードがリンクを介して繋がることができ、その逆も成立する。

【0055】

１つのリンクを介して繋がっている入力ノード及び出力ノードの関係において、出力ノードのデータは入力ノードに入力されたデータに基づきその値が決められることが可能である。ここで入力ノードと出力ノードとを相互連結するノードは加重値（ｗｅｉｇｈｔ）を持つことができる。加重値は可変的なものになり得るが、神経回路網が所望の機能を行うために、利用者またはアルゴリズムによって変わることが可能である。例えば、１つの出力ノードに１つ以上の入力ノードが各リンクによって相互連結されている場合、出力ノードは前記出力ノードに繋がっている入力ノードに入力された値及び各入力ノードに対応するリンクに設定された加重値に基づき出力ノードの値を決定することができる。

【0056】

前述のように、神経回路網は、１つ以上のノードが１つ以上のリンクを介して相互連結され神経回路網の中で入力ノードと出力ノードの関係を形成する。神経回路網において、ノードとリンクの数及びノードとリンクとの間の相関関係、各リンクに付与された加重値の値によって、神経回路網の特性が決まることが可能である。例えば、同数のノード及びリンクが存在し、リンクの加重値の値がそれぞれ異なる２つの神経回路網が存在する場合、その２つの神経回路網を、相異なるものと認識することができる。

【0057】

神経回路網は、１つ以上のノードの集合で構成することができる。神経回路網を構成するノードの部分集合は、レイヤー（ｌａｙｅｒ）を構成できる。神経回路網を構成する複数のノードのうち一部は、第１入力ノードからの距離に基づき、１つのレイヤー（ｌａｙｅｒ）を構成することができる。例えば、第１入力ノードからの距離がｎであるノードの集合は、ｎレイヤーを構成することができる。第１入力ノードからの距離は、第１入力ノードから当該ノードに到達するために経由しなければならないリンクの最小限の数を基に定義することができる。しかし、このようなレイヤーの定義は、説明のために任意に取り挙げたものであり、神経回路網の中におけるレイヤーの構成は、前述の説明と異なる方法で定義されることができる。例えば、ノードのレイヤーは、最終出力ノードからの距離を基に定義することもできる。

【0058】

第１入力ノードは、神経回路網の中のノードのうち、他のノードとの関係においてリンクを経由せずにデータが直接入力される１つ以上のノードを意味することができる。または、神経回路網のネットワークの中で、リンクを基準にしたノード間の関係において、リンクを介して繋がっている他の入力ノードを持たないノードを意味することができる。これと同様に、最終出力ノードは、神経回路網の中のノードのうち、他のノードとの関係において、出力ノードを持たない１つ以上のノードを意味することができる。また、ヒドンノードは、第１入力ノード及び最終出力ノードではないノードで、神経回路網を構成するノードを意味することができる。

【0059】

本開示の一実施例による神経回路網は、入力レイヤーのノードの数が、出力レイヤーのノードと同数で、入力レイヤーからヒドンレイヤーへと進むにつれ、ノードの数が一度減ってから、再び増加する形の神経回路網になり得る。本開示の一実施例による神経回路網は、入力レイヤーのノードの数が、出力レイヤーのノードの数より少なく、入力レイヤーからヒドンレイヤーへと進むにつれ、ノードの数が減少していく形の神経回路網になり得る。また、本開示の他の一実施例による神経回路網は、入力レイヤーのノードの数が、出力レイヤーのノードの数より多く、入力レイヤーからヒドンレイヤーへと進むにつれ、ノードの数が増加していく形の神経回路網になり得る。本開示の他の一実施例における神経回路網は、上述の神経回路網を組み合わせた形の神経回路網になり得る。

【0060】

ディープニューラルネットワーク（ＤＮＮ：ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ、深層神経回路網）は、入力レイヤーと出力レイヤー以外に複数のヒドンレイヤーを含む神経回路網を意味することができる。ディープニューラルネットワークを利用するとデータの潜在的な構造（ｌａｔｅｎｔｓｔｒｕｃｔｕｒｅｓ）を把握することができる。つまり、写真、文章、ビデオ、音声、音楽の潜在的な構造（例えば、ある物が写真に映っているか、文章の内容と感情はどのようなものなのか、音声の内容と感情はどのようなものなのか等）を把握することができる。ディープニューラルネットワークは、畳み込みニューラルネットワーク（ＣＮＮ：ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）、リカレントニューラルネットワーク（ＲＮＮ；：ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ）、オートエンコーダー（ａｕｔｏｅｎｃｏｄｅｒ）、ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ）、制限ボルツマンマシン（ＲＢＭ：ｒｅｓｔｒｉｃｔｅｄｂｏｌｔｚｍａｎｎｍａｃｈｉｎｅ）、深層信頼ネットワーク（ＤＢＮ：ｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋ）、Ｑネットワーク、Ｕネットワーク、シャムネットワーク、敵対的生成ネットワーク（ＧＡＮ：ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）等を含むことができる。前述のディープニューラルネットワークは、例示に過ぎず本開示はこれらに限定されない。

【0061】

本開示の一実施例において、ネットワーク関数は、オートエンコーダー（ａｕｔｏｅｎｃｏｄｅｒ）を含むこともできる。オートエンコーダーは、入力データに類似した出力データを出力するための人工神経回路網の一種になり得る。オートエンコーダーは、少なくとも１つのヒドンレイヤーを含むことができ、奇数個のヒドンレイヤーが入出力レイヤーの間に配置されることができる。各レイヤーのノード数は、入力レイヤーのノード数から、ボトルネックレイヤー（エンコード）という中間レイヤーに向かって減っていき、ボトルネックレイヤーから出力レイヤー（入力レイヤーと対称を成す）に向かって、縮小と対称する形で、拡張することもできる。オートエンコーダーは、非線形次元減少を行うことができる。入力レイヤー及び出力レイヤーの数は、入力データの前処理後に次元に対応することができる。オートエンコーダー構造において、エンコーダーに含まれたヒドンレイヤーのノードの数は、入力データから遠くなるほど減っていく構造を持つことができる。ボトルネックレイヤー（エンコーダーとデコーダーの間に位置する、ノードの数が最も少ないレイヤー）のノードの数が少なすぎる場合、十分な量の情報が伝わらない可能性があるため、特定の数以上（例えば、入力レイヤーの半分以上等）に維持されることもあり得る。

【0062】

ニューラルネットワークは、教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）、教師なし学習（ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）、半教師あり学習（ｓｅｍｉｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）、または、強化学習（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）のうち、少なくともいずれか１つの方式で学習されることができる。ニューラルネットワークの学習は、ニューラルネットワークが特定の動作を行うための知識をニューラルネットワークに提供する過程になり得る。

【0063】

ニューラルネットワークは、出力のエラーを最小化する方向で学習されることが可能である。ニューラルネットワークの学習において、繰り返し学習データをニューラルネットワークに入力させ、学習データに関するニューラルネットワークの出力とターゲットのエラーを計算し、エラーを減らすための方向としてニューラルネットワークのエラーをニューラルネットワークの出力レイヤーから入力レイヤーの方向へ逆伝播（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）してニューラルネットワークの各ノードの加重値を更新するプロセスが行われる。教師あり学習の場合、個々の学習データに正解がラベリングされている学習データを使い（つまり、ラベリングされた学習データ）、教師なし学習の場合は、個々の学習データに正解がラベリングされていない場合がある。つまり、例えばデータ分類に関する教師あり学習における学習データは、学習データの各々にカテゴリがラベリングされたデータになり得る。ラベリングされた学習データがニューラルネットワークに入力され、ニューラルネットワークの出力（カテゴリ）と学習データのラベルを比較することでエラー（ｅｒｒｏｒ）を計算することが可能である。他の例として、データ分類に関する教師なし学習の場合、入力である学習データをニューラルネットワークの出力と比較することでエラーを計算することが可能である。計算されたエラーは、ニューラルネットワークにおいて逆方向（つまり、出力レイヤーから入力レイヤー方向）へ逆伝播され、逆伝播を通じてニューラルネットワークの各レイヤーの各ノードの連結加重値を更新することが可能である。更新される各ノードの連結加重値は、学習率（ｌｅａｒｉｎｇｒａｔｅ）によって変化量が決まることが可能である。入力データに対するニューラルネットワークの計算とエラーの逆伝播は、学習のサイクル（ｅｐｏｃｈ）を構成することができる。学習率は、ニューラルネットワークの学習のサイクルの反復回数によって適用方式が変わることが可能である。例えば、ニューラルネットワークの学習初期においては、学習率を高くしてニューラルネットワークが早く一定のレベルの性能を確保するようにすることで効率を高め、学習の後半においては学習率を低くして精度を上げることが可能である。

【0064】

ニューラルネットワークの学習において、一般的に学習データは実際のデータ（つまり、学習されたニューラルネットワークを利用して処理しようとするデータ）の部分集合であることが可能であり、そのため学習データに係るエラーは減少するが、実際のデータに係るエラーは増加する学習サイクルが存在し得る。過剰適合（ｏｖｅｒｆｉｔｔｉｎｇ）は、このように学習データについて過度に学習したため、実際のデータにおいてエラーが増加する現象である。例えば、黄色い猫を見て猫を学習したニューラルネットワークが、黄色以外の色の猫を見ると猫であることを認識できない現象が過剰適合の一種になり得る。過剰適合は、マシンラーニングアルゴリズムのエラーを増加させる原因になり得る。このような過剰適合を防ぐために、多様な最適化方法を適用できる。過剰適合を防ぐためには、学習データを増加させる方法、正則化（ｒｅｇｕｌａｉｚａｔｉｏｎ）、学習の過程でネットワークのノードの一部を非活性化するドロップアウト（ｄｒｏｐｏｕｔ）、バッチ正規化レイヤー（ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎｌａｙｅｒ）の活用等の方法を適用できる。

【0065】

【0066】

本開示の一実施例によると、音声認識（ＳＴＴｏｒＡＳＲ；ＳｐｅｅｃｈＴｏＴｅｘｔ，ｏｒＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）は、音声をテキストに変換する文字起こし技術である。言い換えると、音声認識（ＳＴＴ）は、音声と対応する（文法的且つ表記法的に正しい）テキストを生成する技術である。かかる音声認識（ＳＴＴ）の入力（Ｉｎｐｕｔ）は、音声信号、音声信号を変換したスペクトログラム（ｓｐｅｃｔｒｏｇｒａｍ）、又は、音声特徴（ｆｅａｔｕｒｅ）のうち、少なくともいずれか１つを含むことが可能である。また、音声認識（ＳＴＴ）の出力（Ｏｕｔｐｕｔ）は、文字列形式のテキストである。一方、音声認識（ＳＴＴ）モデルは、神経回路網モデルを含む多様な形態のモデルとして具現化されることが可能である。また、音声認識（ＳＴＴ）モデルは、具現化の方式によって、モジュール化された方式とモジュール化されていない方式のｅｎｄ－ｔｏ－ｅｎｄ（ｅ２ｅ）方式に分けられる。ここで、モジュール化された方式は、音響モデル（音声信号がどのような形態に表現されるかを示すモデル）、言語モデル（与えられた文章や単語に基づき、単語に発生確率を付与するモデル）、発音辞書等に分けて、音声認識を行うという伝統的な方式のモデル（例えば、Ｋａｌｄｉｔｏｏｌｋｉｔ基盤のＡＳＲのうち一部のモデル、Ｈｙｂｒｉｄ－ＡＳＲモデル等）等を含むことが可能であるが、これらに限定されない。一方、モジュール化されていない方式は、ｅ２ｅモデル（例えば、ｔｒａｎｓｆｏｒｍｅｒ－ｂａｓｅｄｅｎｃｏｄｅｒｄｅｃｏｄｅｒモデル等）を意味し、下位モジュールを設けずに多くのデータを学習させ、モデルを生成することが可能である。一方、デコーディング（Ｄｅｃｏｄｉｎｇ）手法は、ビームサーチ（ＢｅａｍＳｅａｒｃｈ）手法が代表的なものであり、ビームサーチ手法は、状況に応じて最も正解に近い単語を１つだけ予測するのではなく、あらゆる可能性を踏まえることができ、文章全体を考慮し最適解を見つけ出す方法である。

【0067】

本開示の一実施例によると、編集距離（ｅｄｉｔｄｉｓｔａｎｃｅ）は、多様な方式により決定されることが可能である。例えば、編集距離は、文字列が２つある場合、２つのうち１つの文字列を他の文字列に変換するときに必要な最小編集数と定義することが可能である。また、ここで編集の種類は、文字の削除（ｄｅｌｅｔｉｏｎ）、挿入（ｉｎｓｅｒｔｉｏｎ）、置換（ｓｕｂｓｔｉｔｕｔｉｏｎ）等を含むことが可能である。また、編集距離は、発音に基づいて演算されたり、テキストに基づいて演算されることが可能である。例えば、編集距離は、テキストを発音記号に変換することに基づいて演算されたり、テキストそのものに基づいて演算（例えば、文字単位で演算）されることも可能である。また、編集距離アルゴリズムは、Ｌｅｖｅｎｓｈｔｅｉｎｄｉｓｔａｎｃｅ、Ｌｏｎｇｅｓｔｃｏｍｍｏｎｓｕｂｓｅｑｕｅｎｃｅ、Ｈａｍｍｉｎｇｄｉｓｔａｎｃｅ等を含むことが可能であり、かかるアルゴリズム以外にも多様なアルゴリズムを含むことが可能である。

【0068】

一方、テキスト情報（Ｔ）とキーワード集合（Ｑ＝｛ｑ１、ｑ２、...、ｑｎ｝）（ここで、Ｔとｑｉは両方とも長さが１以上の文字列）について、テキスト情報（Ｔ）においてキーワード集合（Ｑ）の任意の要素（ｅｌｅｍｅｎｔ）との編集距離がしきい値以下の文字列区間を検索するとき、ナイーブ（ｎａｉｖｅ）な編集距離アルゴリズム又は単純な編集距離演算アルゴリズムが利用される場合、ランタイムが幾何級数的に増えるという問題点が存在する。本開示の一実施例に基づく、コンピューティング装置（１００）は、その問題点を解決するために、テキスト情報（Ｔ）又はキーワード集合（Ｑ）に含まれている複数の文字列に係る近似（ａｐｐｒｏｘｉｍａｔｅ）情報を活用することもでき、近似化された情報を活用して検索を行うことも可能である。例えば、本開示の一実施例に基づく、コンピューティング装置（１００）は、多重文字列近似マッチングアルゴリズム（ｍｕｌｔｉ－ｓｔｒｉｎｇａｐｐｒｏｘｉｍａｔｅ（ｆｕｚｚｙ）ｍａｔｃｈｉｎｇａｌｇｏｒｉｔｈｍ）を利用し、テキスト情報（Ｔ）に含まれている単語のうち、キーワード集合（Ｑ）との編集距離がしきい値以下の単語を類似した単語として決定することが可能である。

【0069】

例示として、コンピューティング装置（１００）は、探索するキーワード（ｑ）が１個である場合（例えば、キーワード集合Ｑの大きさが１の場合）ＰＥＸアルゴリズム（ａｌｇｏｒｉｔｈｍ）を利用してテキスト情報（Ｔ）に含まれている複数の単語のうち、キーワード（ｑ）との編集距離がしきい値以下の単語を決定することが可能である。また、コンピューティング装置（１００）は、テキスト情報（Ｔ）において、キーワード（ｑ、Ｑにおける唯一のｅｌｅｍｅｎｔ）との編集距離がしきい値（ｋ）以下の区間を決定することが可能であり、決定された区間に基づき単語を識別することが可能である。この場合、コンピューティング装置（１００）は、「テキスト情報（Ｔ）に正解区間（つまり、キーワードとの編集距離がしきい値（ｋ）以下の区間）が存在する場合、キーワード（ｑ）をｋ＋１個の要素に分割すると、ｋ＋１個の要素のうち少なくとも１個は、当該正解区間の中に存在する」という前提に基づき、テキスト情報（Ｔ）においてキーワード（ｑ）との編集距離がしきい値（ｋ）以下の区間を決定することが可能である。例えば、コンピューティング装置（１００）は、キーワード（ｑ）をｋ＋１個の要素（ｅｌｅｍｅｎｔ）に分割した後、Ｍｕｌｔｉ－ｓｔｒｉｎｇｅｘａｃｔｍａｔｃｈｉｎｇａｌｇｏｒｉｔｈｍ（例えば、Ａｈｏ－ｃｏｒａｓｉｃｋ等）を利用して、テキスト情報（Ｔ）において上記ｋ＋１個の要素を探索することが可能であり、テキスト情報（Ｔ）において上記ｋ＋１個の要素のうち、少なくとも１つの要素が探索される場合、探索された要素の周辺の区間（例えば、探索された要素を起点にして両方向へキーワード（ｑ）の長さと同等の区間）において編集距離がしきい値（ｋ）以下の単語を識別することが可能である。また、コンピューティング装置（１００）は、テキスト情報（Ｔ）において、上記ｋ＋１個の要素がすべて探索されない場合、「テキスト情報（Ｔ）において、キーワード（ｑ）との編集距離がしきい値（ｋ）以下の単語が存在しない」と決定することが可能である。

【0070】

他の例を挙げると、コンピューティング装置（１００）は、探索するキーワードが２個以上の場合（例えば、キーワード集合Ｑの大きさが２以上の場合）Ｍｕｌｔｉ－ＰＥＸａｌｇｏｒｉｔｈｍを利用してテキスト情報（Ｔ）に含まれている複数の単語のうち、キーワード（ｑ１、ｑ２、...）との編集距離がしきい値以下の単語を決定することが可能である。まず、コンピューティング装置（１００）は、キーワード集合（Ｑ）に含まれているすべてのキーワード（ｑ１、ｑ２、...）の各々をｋ＋１個の要素に分割することが可能である。また、コンピューティング装置（１００）は、すべてのキーワード集合（Ｑ）の要素を一度に同じＭｕｌｔｉ－ｓｔｒｉｎｇｅｘａｃｔｍａｔｃｈｉｎｇａｌｇｏｒｉｔｈｍに適用して探索することが可能である。一例として、コンピューティング装置（１００）は、エイホ・コラシック（Ａｈｏ－ｃｏｒａｓｉｃｋ）アルゴリズムを用いる場合、１つのトライ（ｔｒｉｅ）にすべてのキーワード集合（Ｑ）の要素を含めて探索することが可能である。また、コンピューティング装置（１００）は、テキスト情報（Ｔ）において、キーワード集合（Ｑ）の少なくとも１つの要素が存在する場合、当該要素の周辺のテキスト（例えば、両方向へキーワード（ｑ１、ｑ２、...）の長さと同等の）区間において、編集距離がしきい値（ｋ）以下の単語が存在するか否かを探索することが可能である。また、コンピューティング装置（１００）は、テキスト情報（Ｔ）において、探索されたキーワード集合（Ｑ）の要素が存在しない場合、テキスト情報（Ｔ）において「キーワード集合（Ｑ）との編集距離がしきい値（ｋ）以下の単語が存在しない」と決定することが可能である。

【0071】

【0072】

なお、音声認識データについては、音声認識結果テキスト情報（Ｔ）、テキスト情報（Ｔ）、音声認識結果、ＳＴＴ結果テキスト等といった表現が混用されることが可能であるが、上述の用語が「音声信号に対して音声認識を行って生成された、テキストデータ」意味するものであることは変わらないものとする。

【0073】

【0074】

本開示は、「音声認識結果（ＳＴＴ；Ｓｐｅｅｃｈ－Ｔｏ－Ｔｅｘｔ）」及び「参照データ」から重要部分（重要情報）を決定する方法に関するものである。より具体的に、本開示は、（１）入力されたオーディオに対してＳＴＴを実行（例えば、ビデオファイルの場合、オーディオと画像を分離したうえで、オーディオファイルに対して実行）し、（２）ＳＴＴ結果テキストと参照データとのうちいずれか１つである第１データにおいて第１重要情報を決定し、（３）ＳＴＴ結果テキストと参照データのうち第１データとは異なる第２データにおいて第１重要情報に関連する第２重要情報を決定し、（４）複数の重要部分を再構成する方法に関するものである。この場合、参照データは、入力された映像及び音声に基づき、ユーザーが直接記録したノート（＝ｍｅｍｏ）データ、入力された映像及び音声に関連するコンテンツデータ又は入力された映像及び音声に関連する学習資料データ（例えば、ＰＤＦの講義資料）のうち、少なくともいずれか１つのデータを含むことが可能である。一実施例として、上記コンテンツデータ又は学習資料データは、ユーザーが直接アップロードしたデータであることも可能であり、予め決定されたキーワード及び／又は編集距離に基づいて提案あれたデータであることが可能である。

【0075】

図３は、本開示の一実施例に基づく、「音声認識結果及び参照データにおいて重要部分を決定するための複数のモジュール」のブロック構成図である。

【0076】

【0077】

図３を参照すると、コンピューティング装置（１００）は、入力モジュール（１０）、ＳＴＴモジュール（２０）、参照データ生成モジュール（３０）、第１重要情報決定モジュール（４０）、第２重要情報決定モジュール（５０）及び再構成モジュール（６０）を含むことが可能である。一方、このようなコンピューティング装置（１００）に含まれることのできる複数のモジュールは、プロセッサー（１１０）により制御されたり、又は、プロセッサー（１１０）の動作により実行されることが可能である。また、音声認識結果及び参照データにおいて重要部分を決定するためにコンピューティング装置（１００）に含まれることが可能であるモジュールは、以上で説明した複数のモジュールに限定されるわけではなく、追加のモジュールが含まれることが可能である。以下に、音声認識結果及び参照データにおいて重要部分を決定するための例示的な複数のモジュールについて、より具体的に説明する。

【0078】

【0079】

本開示の一実施例において、入力モジュール（１０）は、オーディオ信号又はオーディオ信号から変換されたスペクトログラム（ｓｐｅｃｔｒｏｇｒａｍ）の入力を受け取ることが可能である。一例として、入力されたオーディオ信号又は、スペクトログラムは、ビデオ（例えば：Ｙｏｕｔｕｂｅ（登録商標）映像、講義の録画映像、会話の録音音声ファイル等）から抽出されたものであることが可能である。

【0080】

【0081】

本開示の一実施例によると、ＳＴＴモジュール（２０）は、音声信号に対して音声認識を行って生成された、音声認識データを取得することが可能である。ＳＴＴモジュール（２０）は、入力モジュール（１０）から入力を受けたオーディオ信号に対して音声認識（ＳＴＴ）を実行し音声認識結果テキストデータを出力することが可能である。なお、ＳＴＴモジュール（２０）は、深層学習に基づく神経回路網モデルとして公正されることが可能である。また、ＳＴＴモジュール（２０）は、音声認識（ＳＴＴ）処理を行う前に入力されたオーディオに対してノイズ除去及び音声強調（ｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔ）、音声検出（ＶＡＤ、ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）、話者分離（ＳｐｅａｋｅｒＤｉａｒｉｚａｔｉｏｎ）等の前処理を行うことが可能である。また、ＳＴＴモジュール（２０）は、ＳＴＴ結果テキストを校正する後処理ジュールとして音声認識補正モジュール（ＡＳＲｃｏｒｒｅｃｔｉｏｎｍｏｄｕｌｅ）又は文章符号挿入モジュールを含むことも可能である。一方、ＳＴＴモデルの種類によって、前処理又は後処理モジュールが別途存在せず、Ｅｎｄ－ｔｏ－Ｅｎｄモデルにおいて各機能が実装されることも可能である。

【0082】

【0083】

本開示の一実施例によると、参照データ生成モジュール（３０）は、参照データを取得することが可能である。この場合、上記参照データは、上記音声信号に関連するノートデータ、上記音声信号に関連するコンテンツデータ又は上記音声信号に関連する学習資料データのうち、少なくとも１つのデータを含むことが可能である。この時、参照データは、上記音声認識データとの類似度分析に基づき識別されるか、又は、外部から検索されることが可能である。類似度分析は、上述の編集距離分析を含むことが可能である。また、参照データ生成モジュール（３０）は、音声認識データに基づき、予め決定されたキーワードに類似した単語（類似単語）がより多く含まれているデータを参照データとして取得することも可能である。例えば、ユーザーのコンピューターのローカル（ｌｏｃａｌ）に保存されていたデータ、外部（例：ウェブサイト）から検索されたデータ等が参照データとして取得されることが可能である。また、参照データ生成モジュール（３０）は、ユーザーが直接アップロードしたデータを参照データとして取得することも可能である。一実施例によると、参照データ生成モジュール（３０）は、画像やＰＤＦのような学習資料データの場合、ＯＣＲ（Ｏｐｔｉｃａｌｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ）等の技術に基づき、テキストに変換することが可能である。また、参照データ生成モジュール（３０）は、ユーザーが学習資料データにメモをとった場合にも、そのメモの内容をＯＣＲ等の技術を用いてテキストに変換することが可能である。

【0084】

本開示の一実施例によると、第１重要情報決定モジュール（４０）は、上記音声認識データと上記参照データとのうち、いずれか１つのデータにおいて第１重要情報を決定することが可能である。この場合、第１重要情報は、単語単位、文単位、段落単位等を含むことが可能である。例示として、第１重要情報決定モジュール（４０）は、ｉ）ユーザー入力に基づき第１重要情報を決定するか、ｉｉ）予め決定されたキーワード（ｋｅｙｗｏｒｄ）情報に基づき上記第１重要情報を決定することも可能である。

【0085】

まず、第１重要情報決定モジュール（４０）は、ｉ）「ユーザー入力に基づき第１重要情報を決定」をすることが可能である。例えば、第１重要情報決定モジュール（４０）は、ユーザーがユーザー端末を用いて音声を聴取したり、映像を視聴し、重要だと決定した情報を第１重要情報として決定することが可能である。また、第１重要情報決定モジュール（４０）は、音声認識データと参照データとのうち１つのデータにおいて、予めハイライトをしておいた部分を認識し、当該部分を第１重要情報として決定することも可能である。なお、ユーザーが第１重要情報を決定する視点は、音声認識データが取得される前、又は、音声認識データが取得された後であることが可能である。例えば、第１重要情報決定モジュール（４０）は、ユーザーが、音声信号に対して音声認識を行って生成された、音声認識データにおいて選択した重要情報を、上記第１重要情報として決定することが可能である（つまり、音声認識データが取得された後ユーザーが第１重要情報を決定することが可能である）。また、第１重要情報決定モジュール（４０）は、ユーザーが音声を聴取したり、映像を視聴しながら参照データに重要情報を表示（例えば、ハイライト）し、その後アップロードした当該参照データにおいて表示されている部分を認識し当該部分を第１重要情報として決定することも可能である（つまり、音声認識データを取得する前にユーザーが第１重要情報を決定することも可能である）。例えば、ユーザーが講義を聞きながら学習資料にハイライトし、当該講義に音声認識を実行し、当該学習資料を参照データとしてアップロードした場合、第１重要情報決定モジュール（４０）は、参照データである講義資料においてハイライトされている部分を第１重要情報として決定することが可能である。

【0086】

次に、第１重要情報決定モジュール（４０）は、ｉｉ）「予め決定されたキーワード（ｋｅｙｗｏｒｄ）情報に基づき上記第１重要情報を決定」することが可能である。一例として、予め決定されたキーワード情報は、ユーザーが大学講義を受講するとすれば、当該講義に係る主なキーワードをユーザーが入力しておいたものである事前情報を含むことが可能である。なお、事前情報は、ユーザーが音声を聴取したり映像を視聴しながら、参照データに含まれたノートデータに入力したテキスト情報、又は、音声を聴取したり映像を視聴する行為が終わった後、ユーザーが思いついた主なキーワードを入力したテキスト情報等を含むことが可能である。また、予め決定されたキーワード情報は、ＴＦ－ＩＤＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ－ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）技術、音声認識データについて、テーマ別に段落を区分する技術（ｔｏｐｉｃｓｅｇｍｅｎｔａｔｉｏｎ）、区分された段落別にテーマを決定する技術（ｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎ）等を用いて決定されることが可能である。

【0087】

より具体的に、第１重要情報決定モジュール（４０）は、「上記予め決定されたキーワード情報に基づき、上記音声認識データと上記参照データとのうち、いずれか１つのデータを選択する動作」、及び、「上記予め決定されたキーワード情報に基づき、上記選択されたデータにおいて、上記第１重要情報を決定する動作」を実行することが可能である。例えば、第１重要情報決定モジュール（４０）は、予め決定されたキーワード情報（例えば、事前情報）に基づき、音声認識データと参照データとのち、１つのデータを選択することが可能である。一実施例において、第１重要情報決定モジュール（４０）は、音声認識データにおいて、予め決定されたキーワードが比較的に多く含まれている場合、上記音声認識データを第１データとして選択することが可能である。また、第１重要情報決定モジュール（４０）は、選択された音声認識データ（第１データ）のうち、予め決定されたキーワードが比較的に多く含まれている部分を第１重要情報として決定することが可能である。

【0088】

【0089】

一実施例によると、第１重要情報決定モジュール（４０）は、編集距離に基づくキーワード分析を通じて、第１重要情報が生成されるデータを選択し、選択されたデータにおいて、予め決定されたキーワードとの類似度が最も高い部分を識別し、識別された部分に基づき、上記第１重要情報を決定することが可能である。より具体的な例として、第１重要情報決定モジュール（４０）は、上記音声認識データと上記参照データとのうち、上記予め決定されたキーワードに類似した単語がより多く含まれているデータを選択することが可能である。この場合、予め決定されたキーワードに類似した単語は、上述の編集距離の分析に基づき決定されることが可能である。また、第１重要情報決定モジュール（４０）は、上記選択されたデータにおいて、上記予め決定されたキーワードとの類似度が最も高い部分を識別し、識別された部分に基づき、上記第１重要情報を決定することが可能である。この場合、上記予め決定されたキーワードとの類似度は、上述の編集距離の分析に基づき決定されることが可能である。一例として、予め決定されたキーワードが「ダグロ」だとすると、音声認識結果テキスト情報の中から、「ダグロ」との編集距離がしきい値以下の「ダグゥロ」、「ダグゥンノ」、「ダグンノ」等の単語を識別することが可能であり、識別された単語を「予め決定されたキーワードに類似した単語（例えば、類似単語）」として決定することが可能である。例示として、第１重要情報決定モジュール（４０）は、音声認識データ及び参照データのうち、予め決定されたキーワード（例えば、「ダグロ」）と類似した単語（例えば、「ダグゥロ」、「ダグゥンノ」、「ダグンノ」）がより多く含まれているデータである音声認識データを第１データとして選択することが可能である。また、第１重要情報決定モジュール（４０）は、選択されたデータである音声認識データ（第１データ）において、予め決定されたキーワード（例えば、「ダグロ」）との類似度がもっとも高い部分（例えば、「ダグゥロ」、「ダグゥンノ」、「ダグンノ」等が含まれている文、段落、等）を識別し、識別された部分に基づき、上記第１重要情報を決定することが可能である。なお、第１重要情報決定モジュール（４０）は、「音声認識データの場合、一部が間違って置換（ｓｕｂｓｔｉｔｕｔｉｏｎ）される誤りが頻繁に生じるという問題点」、又は、「参照データの場合、ＯＣＲによって文字が誤認識される誤りが発生し得るという問題点」を考慮し、編集距離に基づく類似単語まで確認して予め決定されたキーワードが含まれているか否かを判断し第１重要情報を決定することが可能である。

【0090】

本開示の一実施例によると、第２重要情報決定モジュール（５０）は、上記音声認識データと上記参照データとのうち、第１重要情報が決定されたデータ（第１データ）ではない他のデータ（第２データ）において、上記第１重要情報に関連する第２重要情報を決定することが可能である。例えば、第２重要情報決定モジュール（５０）は、第１重要情報決定モジュール（４０）によって音声認識データにおいて第１重要情報が決定された場合、参照データにおいて上記第１重要情報に関連する第２重要情報を決定することが可能である。さらに他の例として、第１重要情報決定モジュール（４０）によって参照データのうち、関連するノートデータにおいて第１重要情報が決定された場合、第２重要情報決定モジュール（５０）は、参照データのうち、関連するコンテンツデータにおいて、上記第１重要情報に関連する第２重要情報を決定することが可能である。この場合、参照データは、音声信号に関連するノートデータ、音声信号に関連するコンテンツデータ、音声信号に関連する学習資料データ等を含むことが可能である。

【0091】

また、第２重要情報決定モジュール（５０）は、上記他のデータ（第２データ）において、上記第１重要情報とは異なる言語単位を上記第２重要情報として決定することも可能である。この場合、上記異なる言語単位は、単語単位、文単位、又は、段落単位を含むことが可能である。例えば、第１重要情報は単語単位であるが、第２重要情報は段落又は文単位であることも可能である。なお、第１重要情報決定モジュール（４０）によって選択されたデータは第１データであり、１重要情報決定モジュール（４０）によって選択されなかった、第１データではない他のデータは、第２データと称されることが可能である。例えば、計４種類のデータ（参照データに含まれる３種類のデータ（関連するノートデータ、関連するコンテンツデータ及び関連する学習資料データ）及び音声認識データ）のうち、関連するノートデータが第１データとして決定された場合、残りの３種類のデータ（関連するコンテンツデータ、関連する学習資料データ及び音声認識データ）のうち、いずれか１つ（例：関連する学習資料データ）が、第２データと称されることが可能である。以下において、説明を容易にするために、第２データが音声信号に関連するノートデータである実施例を中心に本開示を説明する。

【0092】

例示として、第２重要情報決定モジュール（５０）は、（１）第１データではない他のデータ（つまり、第１重要決定モジュールによって選択されなかったデータ）において、上記第１重要情報との単語類似度がしきい値以上の部分を、上記第２重要情報として決定する動作、（２）上記他のデータにおいて、上記第１重要情報との文章埋め込みベクター（ｓｅｎｔｅｎｃｅｅｍｂｅｄｄｉｎｇｖｅｃｔｏｒ）類似度がしきい値以上の部分を上記第２重要情報として決定する動作、（３）上記第１重要情報及び上記他のデータについて質疑応答（ＱＡ；ＱｕｅｓｔｉｏｎＡｎｓｗｅｒｉｎｇ）モデルが出力した結果に基づき、上記他のデータにおいて上記第２重要情報を決定する動作、又は、（４）時刻同期（ｔｉｍｅ－ｓｙｎｃ）情報に基づき、上記他のデータにおいて上記第２重要情報を決定する動作のうち、少なくとも１つの動作によって、上記第１重要情報に関連する第２重要情報を自動的に決定することが可能である。つまり、第１重要情報決定モジュール（４０）、上記動作のうち、少なくとも１つの動作に基づき、第２重要情報を自動的に決定することが可能である。

【0093】

まず、第２重要情報決定モジュール（５０）は、（１）上記他のデータにおいて、上記第１重要情報との単語類似度がしきい値以上の部分を上記第２重要情報として決定することが可能である。例えば、第２重要情報決定モジュール（５０）は、第１重要情報決定モジュール（４０）によって音声認識データにおいて第１重要情報が決定された場合、他のデータである参照データ（例えば、ノートデータ）において、第１重要情報との単語類似度がしきい値以上の部分を第２重要情報として決定することが可能である。言い換えると、第２重要情報決定モジュール（５０）は、他のデータである参照データ（例えば、ノートデータ）において、第１重要情報と同一又は類似した単語が比較的に多く含まれている部分を第２重要情報として決定することが可能である。

【0094】

より具体的な例として、第２重要情報決定モジュール（５０）は、上記他のデータにおいて、上記第１重要情報と同一の単語又は類似した単語をしきい値以上の数だけ含む部分を識別し、上記識別された部分を上記第２重要情報として決定することも可能である。この場合、上記類似した単語は、上述の編集距離に基づいて識別されることが可能である。一例として、第２重要情報決定モジュール（５０）は、他のデータである参照データ（例えば、ノートデータ）において、第１重要情報と同一の単語（例えば、「ダグロ」）又は、類似した単語（例えば、「ダグゥロ」、「ダグゥンノ」、「ダグンノ」）をしきい値以上含む部分を識別し、上記識別された部分を上記第２重要情報として決定することも可能である。なお、第２重要情報決定モジュール（５０）は、「音声認識データの場合、一部が間違って置換（ｓｕｂｓｔｉｔｕｔｉｏｎ）される誤りが頻繁に生じるという問題点」、又は、「参照データの場合、ＯＣＲによって文字が誤認識される誤りが発生し得るという問題点」を考慮し、編集距離に基づく類似単語まで確認して同一又は類似した単語が含まれているか否かを判断し、第２重要情報を決定することが可能である。

【0095】

また、第２重要情報決定モジュール（５０）は、（２）上記他のデータにおいて、上記第１重要情報との文章埋め込みベクター（ｓｅｎｔｅｎｃｅｅｍｂｅｄｄｉｎｇｖｅｃｔｏｒ）類似度がしきい値以上の部分を上記第２重要情報として決定することが可能である。より具体的な例として、第２重要情報決定モジュール（５０）は、第１重要情報に対する文章埋め込み（ｓｅｎｔｅｎｃｅｅｍｂｅｄｄｉｎｇ）を実行し、第１重要情報が決定されたデータ（第１データ）とは異なるデータ（第２データ）において、文や段落に対して文章埋め込み（ｓｅｎｔｅｎｃｅｅｍｂｅｄｄｉｎｇｖｅｃｔｏｒ）を実行することで、両ベクター間における類似度がしきい値以上の部分を第２重要情報として決定することが可能である。

【0096】

また、第２重要情報決定モジュール（５０）は、（３）上記第１重要情報及び上記他のデータについて質疑応答（ＱＡ；ＱｕｅｓｔｉｏｎＡｎｓｗｅｒｉｎｇ）モデルが出力した結果に基づき、上記他のデータにおいて上記第２重要情報を決定することが可能である。より具体的に、第２重要情報決定モジュール（５０）は、質疑応答（ＱＡ；ＱｕｅｓｔｉｏｎＡｎｓｗｅｒｉｎｇ）モデルに、ｉ）第１重要情報とは異なるデータ（第２データ）及びｉｉ）「第２データにおいて第１重要情報に関連する段落は」という質疑を入力した後、ＱＡモデルによって出力される第２データの文又は段落を、第２重要情報として決定することが可能である。

【0097】

【0098】

また、第２重要情報決定モジュール（５０）は、（４）時刻同期（ｔｉｍｅ－ｓｙｎｃ）情報に基づき、上記他のデータにおいて上記第２重要情報を決定することが可能である。一実施例によると、第２重要情報決定モジュール（５０）は、オーディオ信号に係るタイムスタンプ（ｔｉｍｅｓｔａｍｐ）情報を基準に、他のデータ（第２データ）において変化が発生いた時刻を考慮し、第２重要情報を決定することが可能である。一例として、第２重要情報決定モジュール（５０）は、他のデータ（第２データ）がノートデータである場合、「ユーザーがノートにテキストを入力したタイムスタンプ情報」と「上記オーディオ信号に係るタイムスタンプ情報」との連携を通じて、第２重要情報を決定することが可能である。また、第２重要情報決定モジュール（５０）は、他のデータ（第２データ）がコンテンツデータ又は学習資料データである場合、「マウスがクリック又はスクロールされたことに係るタイムスタンプ情報」及び「上記オーディオ信号に係るタイムスタンプ情報」との間の連携を辻て第２重要情報を決定することが可能である。

【0099】

【0100】

一実施例として、第２重要情報決定モジュール（５０）は、上記第２重要情報の決定をガイドするためのＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）データを生成し、上記他のデータ（第２データ）において、上記ＵＩを介して入力される情報に基づき、上記第１重要情報に関連する上記第２重要情報を決定することも可能である。言い換えると、第２重要情報決定モジュール（５０）は、ユーザーの入力に基づき、第１重要情報に関連する上記第２重要情報を決定することが可能である。例えば、第２重要情報決定モジュール（５０）は、第１重要情報決定モジュール（４０）によって、音声認識データ（第１データ）において第１重要情報が決定された場合、参照データのうち、関連するノートデータ（第２データ）において第２重要情報の決定をガイドするためのＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）データを生成し、ＵＩを介したユーザーの入力に基づき、第２重要情報を決定することが可能である。例えば、第２重要情報決定モジュール（５０）は、第２データである、関連するノートデータのうち、第１重要情報との類似度に基づき決定された第２重要情報の複数の候補を視覚的に区分してディスプレイし、第２重要情報の複数の候補の中から、ユーザーの選択によって、第２重要情報を決定することが可能である。

【0101】

【0102】

本開示の一実施例によると、コンピューティング装置（１００）は、追加の参照データを取得することが可能である。また、コンピューティング装置（１００）は、追加の参照データにおいて、上記第１重要情報及び上記第２重要情報に関連する第３重要情報を決定することが可能である。また、コンピューティング装置（１００）は、上記第１重要情報、上記第２重要情報、及び上記第３重要情報を互いに関連付けることが可能である。例えば、コンピューティング装置（１００）は、参照データとして音声信号に関連するノートデータを取得した場合、追加の参照データとして音声信号に関連するコンテンツデータ（例えば、学習補助用の映像データ、参考書籍データ等）を取得することが可能である。また、コンピューティング装置（１００）は、音声認識データにおいて第１重要情報を決定し、参照データである音声信号に関連するノートデータにおいて第２重要情報を決定した場合、追加の参照データとして取得された音声信号に関連するコンテンツデータにおいて、上記第１重要情報及び上記第２重要情報に関連する第３重要情報を決定することが可能である。言い換えると、前述の追加の例示においては、「ＳＴＴ結果テキストにおける特定の部分（第１重要情報）－ノートデータにおける特定の部分（第２重要情報）－関連するコンテンツにおける特定の部分（第３重要情報）」で構成された３組のデータ（Ｔｒｉｐｌｅ）が決定されることが可能である。

【0103】

本開示の一実施例によると、再構成モジュール（６０）は、上記第１重要情報又は上記第２重要情報に基づき、上記音声認識データを再構成し、再構成音声認識データを提供することが可能である。ここで、上記再構成音声認識データは、重要部分として決定された音声認識データだけを含むことが可能である。また、上記再構成音声認識データは、上記第１重要情報又は上記第２重要情報の言語単位より大きい言語単位を含むことが可能である。一例として、第１重要情報又は第２重要情報の言語単位が単語単位である場合、上記再構成音声認識データは、単語単位より大きい言語単位である文単位又は文単位を含むことが可能である。

【0104】

本開示の一実施例によると、再構成モジュール（６０）は、上記第１重要情報又は上記第２重要情報に基づき、上記参照データを再構成し、再構成参照データを生成することが可能である。この場合、上記参照データが映像データを含む場合、上記再構成参照データは、重要部分として決定された複数の部分的な映像だけをつなげることで生成されることが可能である。一例として、再構成モジュール（６０）は、タイムスタンプ（ｔｉｍｅｓｔａｍｐ）を基準に、複数の重要情報が含まれている映像だけをつなげて編集された参照データを生成することが可能である。

【0105】

本開示の一実施例によると、再構成モジュール（６０）は、上記第１重要情報又は上記第２重要情報に基づき、上記音声認識データ及び上記参照データをそれぞれ再構成してから、再構成された音声認識データ及び再構成された参照データを融合し、ハイブリッド型のコア再構成データを生成することも可能である。かかるコア再構成データは、相異なる類型の複数のデータの複数の重要部分を抽出し、抽出された複数の重要部分を互いに連携させて、単一のデータとして一緒に提供するため、重要情報管理の効率を最大化することが可能である。

【0106】

【0107】

本開示の一実施例によると、再構成モジュール（６０）は、上記第１重要情報又は上記第２重要情報に基づき、上記音声認識データに係る要約情報を生成することが可能である。この場合、上記要約情報は、上記第１重要情報又は上記第２重要情報に基づく重みを活用して生成されることが可能である。一例として、第１重要情報決定モジュール（４０）により、参照データ（例えば、講義資料のハイライト部分のアップロード）において第１重要情報が決定され、第２重要情報決定モジュール（５０）により、音声認識データにおいて関連する第２重要情報が決定された場合、再構成モジュール（６０）は、音声認識データの第２重要情報に対して重みを付与するとともに、音声認識データに係る要約情報を生成することが可能である。

【0108】

【0109】

本開示の一実施例によると、「音声認識データと参照データのうち選択されたデータにおいて先に決定される第１重要情報」と「選択されなかった残りのデータにおいて、上記第１重要部分に基づいて決定される第２重要情報」との各々は、ユーザー入力によって決定される（手動で決定）動作又は自動的に決定される動作に基づいて生成されることが可能である。これは、以下の表１のように、４つの実施例として区分されることも可能である。

【0110】

【0111】

【表1】

【0112】

本開示の一実施例によると、（１）第１実施例は、第１重要情報が手動で決定され、第２重要情報が自動的に決定される実施例である。例示として、コンピューティング装置（１００）は、ユーザーの入力に基づき、上記選択されたデータ（＝第１データ）において第１重要情報を決定（例えば、直接ハイライトを入力するか、又は、アップロードされた関連する学習資料においてハイライトされている部分を検出する）し、上記選択されなかった残りのデータ（＝第２データ）において第１重要情報に関連する（係る）第２重要部分を上述の多様な動作に基づいて自動的に決定することが可能である。

【0113】

（２）第２実施例は、第１重要情報が自動的に決定され、第２重要情報が自動的に決定される実施例である。例示として、コンピューティング装置（１００）は、上記選択されたデータ（＝第１データ）において、予め決定されたキーワード情報に基づき第１重要情報を自動的に決定し、選択されなかった残りのデータ（＝第２データ）において、第１重要情報に関連する（係る）第２重要部分を上述の多様な動作に基づいて自動的に決定することが可能である。

【0114】

（３）第３実施例は、第１重要情報が自動的に決定され、第２重要情報が手動で決定される実施例である。例示として、コンピューティング装置（１００）は、上記選択されたデータ（＝第１データ）において予め決定されたキーワード情報に基づき第１重要情報を自動的に決定し、選択されなかった残りのデータ（＝第２データ）において第１重要情報に関連する（係る）第２重要情報の決定をガイドするためのＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）データを提供し、上記ＵＩを介して入力される情報に基づき、上記第１重要情報に関連する上記第２重要情報を手動で決定することが可能である。

【0115】

【0116】

（４）第４実施例は、第１重要情報が手動で決定され、第２重要情報が手動で決定される実施例である。例示として、コンピューティング装置（１００）は、ユーザーの入力に基づき、上記選択されたデータ（＝第１データ）において第１重要情報を決定（例えば、直接ハイライトを入力するか、又は、アップロードされた関連する学習資料においてハイライトされている部分を検出する）し、選択されなかった残りのデータ（＝第２データ）において第１重要情報に関連する（係る）第２重要情報の決定をガイドするためのＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）データを提供し、上記ＵＩを介して入力される情報に基づき、上記第１重要情報に関連する上記第２重要情報を手動で決定することが可能である。

【0117】

【0118】

以下、図４乃至図７に図示されているＵＩには、オーディオデータ（Ａ）（例えば、動画に含まれているオーディオデータ）、音声認識データ（Ｂ）、ノートデータ（Ｃ）、コンテンツデータ（Ｄ）が含まれることが可能である。一方、図４乃至図７に係る実施例においては、上述の第１実施例、つまり、「第１重要情報が手動で決定され、第２重要情報が自動的に決定される実施例」が重点的に説明される。言い換えると、コンピューティング装置（１００）は、使用入力に基づき、上記選択されたデータ（＝第１データ）において第１重要情報を決定（例えば、直接ハイライトを入力するか、又は、アップロードされた関連する学習資料においてハイライトされている部分を検出する）し、選択されなかった残りのデータ（＝第２データ）において第１重要情報に関連する（係る）第２重要部分を上述の多様な動作に基づいて自動的に決定することが可能である。また、コンピューティング装置（１００）は、決定された第１重要部分及び第２重要部分にハイライト表示をして提供することが可能である。

【0119】

【0120】

図４は、本開示の一実施例に基づく、ＳＴＴ結果テキストにおいて第１重要情報が決定された場合の「ＳＴＴ結果＆ノート」のＵＩを例示的に示している図面であり、図５は、本開示の一実施例に基づく、ＳＴＴ結果テキストにおいて第１重要情報が決定された場合の「ＳＴＴ結果＆関連するコンテンツ」のＵＩを例示的に示している図面であり、図６は、本開示の一実施例に基づく、ＳＴＴ結果テキストにおいて第１重要情報が決定された場合の「関連するコンテンツ＆ノート」のＵＩを例示的に示している図面である。図４乃至図８を参照して説明する実施例においては、音声信号に関連するコンテンツデータ（Ｄ）が図示されているが、これに限られるわけではなく、関連するコンテンツデータの代わりに音声信号に関連する学習資料データが活用されることも可能である。図４乃至図８において、（Ａ）は、入力されたオーディオデータ（又は、オーディオデータを含む映像データ）、（Ｂ）は、音声認識データ、（Ｃ）は、ユーザーが（Ａ）を参照して作成したノートデータ、（Ｄ）は、音声信号に関連するコンテンツデータを指すことが可能である。

【0121】

図４は、本開示の一実施例に基づく、ＳＴＴ結果テキスト（音声認識データ）において、「ダグロ」及び「人口知能」が重要情報として決定された場合の「ＳＴＴ結果＆ノート」のＵＩを例示的に示している図面であり、図５は、本開示の一実施例に基づく、ＳＴＴ結果テキスト（音声認識データ）において、「ダグロ」及び「人口知能」が重要情報として決定された場合の「ＳＴＴ結果＆関連するコンテンツ」のＵＩを例示的に示している図面であり、図６は、本開示の一実施例に基づく、ＳＴＴ結果テキストにおいて「ダグロ」及び「人口知能」が重要情報として決定された場合の「関連するコンテンツ＆ノート」のＵＩを例示的に示している図面である。図４乃至図６及び後述の図７乃至図８に図示されているＵＩを介して、ユーザーは、テキストを追加、変更、削除したり、編集（太字化、下線追加、ハイライト追加等）を行うことが可能である。

【0122】

例示として、図４を参照すると、コンピューティング装置（１００）は、音声認識データ（Ｂ）においてユーザーの入力に基づき、「ダグゥロ」及び「人口知能」を第１重要情報として決定することが可能である。また、コンピューティング装置（１００）は、選択されなかったデータ（第２データ）であるノートデータ（Ｃ）において、第１重要情報に関連する第２重要情報を決定することが可能である。一例として、コンピューティング装置（１００）は、音声認識データ（Ｂ）のうち、間違って出力された「ダグゥロ」を、ユーザーが第１重要情報として決定した場合にも、ノートデータ（Ｃ）において「ダグゥロ」と類似した単語を編集距離に基づいて識別し、「ダグゥロ」と類似した単語である「ダグロ」を探し出して、第２重要情報として決定することが可能である。この場合、コンピューティング装置（１００）は、編集距離に基づいて識別された類似した単語の英語表記（例えば、ｄａｇｌｏ）についても、第２重要情報として決定することが可能である。また、コンピューティング装置（１００）は、第１重要情報として決定された「人口知能」についても、第２重要情報を自動的に決定する複数の動作のうち、少なくともいずれか１つを利用して第２重要情報を決定することが可能である。

【0123】

例示として、図５を参照すると、コンピューティング装置（１００）は、音声認識データ（Ｂ）においてユーザーの入力に基づき、「ダグゥロ」及び「人口知能」を第１重要情報として決定することが可能である。コンピューティング装置（１００）は、選択されなかったデータ（第２データ）であるコンテンツデータ（Ｄ）において、第１重要情報に関連する第２重要情報を決定することが可能である。一例として、コンピューティング装置（１００）は、音声認識データ（Ｂ）のうち、間違って出力された「ダグゥロ」を、ユーザーが第１重要情報として決定した場合にも、ノートデータ（Ｃ）において「ダグゥロ」と類似した単語を編集距離に基づいて識別し、「ダグゥロ」と類似した単語である「ダグロ」を探し出して、第２重要情報として決定することが可能である。この場合、コンピューティング装置（１００）は、編集距離に基づいて識別された類似した単語の英語表記（例えば、ｄａｇｌｏ）についても、第２重要情報として決定することが可能である。また、図５における、関連するコンテンツデータ（Ｄ）においては省略されているが、コンピューティング装置（１００）は、第１重要情報として決定された「人口知能」についても、第２重要情報を自動的に決定する複数の動作のうち、少なくともいずれか１つを利用して関連するコンテンツデータ（Ｄ）において第２重要情報を決定することが可能である。

【0124】

【0125】

図６を参照すると、コンピューティング装置（１００）は、追加の参照データ（例えば、第３データ）を取得することが可能である。また、コンピューティング装置（１００）は、追加の参照データにおいて、上記第１重要情報及び上記第２重要情報に関連する第３重要情報を決定することが可能である。また、コンピューティング装置（１００）は、上記第１重要情報、上記第２重要情報、及び上記第３重要情報を互いに関連付けることが可能である。例えば、コンピューティング装置（１００）は、参照データとして音声信号に関連するノートデータ（Ｃ）を取得した場合、追加の参照データとして音声信号に関連するコンテンツデータ（Ｄ）を取得することが可能である。また、コンピューティング装置（１００）は、音声認識データ（Ｂ）（＝第１データ）において第１重要情報を決定し、参照データである音声信号に関連するノートデータ（Ｃ）（＝第２データ）において第２重要情報を決定した場合、追加の参照データとして取得された音声信号に関連するコンテンツデータ（Ｄ）（＝第３データ）において上記第１重要情報及び上記第２重要情報に関連する第３重要情報を決定することが可能である。言い換えると、「ＳＴＴ結果テキストにおける特定の部分（第１重要情報）－ノートデータにおける特定の部分（第２重要情報）－関連するコンテンツにおける特定の部分（第３重要情報）」で構成された三重のデータの組み合わせ（Ｔｒｉｐｌｅ）が決定されることが可能であり、ハイライト等により視覚的に区分されて表示されることが可能である。

【0126】

図７は、本開示の一実施例に基づく、別途のページにおいて複数の重要情報をまとめて提供するＵＩを例示的に示している図面である。

【0127】

例示として図７を参照すると、コンピューティング装置（１００）は、別途のページにおいて、ユーザーに各データ別に重要情報（部分）をまとめて提供することが可能である。図７の（Ｂ）を参照すると、コンピューティング装置（１００）は、第１重要情報又は上記第２重要情報に基づき、上記音声認識データを再構成し、再構成音声認識データを提供することが可能である。この場合、上記再構成音声認識データは、重要部分として決定された音声認識データだけを含み、上記再構成音声認識データは、上記第１重要情報又は上記第２重要情報の言語単位より大きい言語単位を含むことが可能である。また、図７の（Ｃ）及び（Ｄ）を参照すると、コンピューティング装置（１００）は、第１重要情報又は上記第２重要情報に基づき、上記参照データ（例えば、ノートデータ（Ｃ）及び関連するコンテンツデータ（Ｄ））を再構成し、再構成参照データを提供することが可能である。この場合、上記再構成参照データは、重要部分として決定された参照データだけを含み、上記再構成参照データは、上記第１重要情報又は上記第２重要情報の言語単位より大きい言語単位を含むことが可能である。例えば、コンピューティング装置（１００）は、第１重要情報又は上記第２重要情報が「単語」単位であっても、当該単語が含まれている文単位でのデータ（例えば、ＳＴＴ結果テキスト、ノート、関連するコンテンツ）別にまとめて、ユーザーに提供することが可能である。

【0128】

【0129】

なお、図７は、ユーザーが音声認識データ（Ｂ）において「ダグゥロ」をハイライトすると選択した場合における、右側にノートデータ（Ｃ）及びコンテンツデータ（Ｄ）の複数の重要部分だけをまとめて一緒に提供する画面の一例である。また、図７の左側のハイライト部分を見ると、コンピューティング装置（１００）は、実際にはユーザーが音声認識データ（Ｂ）において「ダグゥロ」だけをハイライトした場合にも、当該部分が含まれている文の頭からディスプレイすることが可能である。また、コンピューティング装置（１００）は、話者情報と発話時刻も一緒にディスプレイすることが可能であり、当該部分をクリックすると、対応する映像や音声部分をタイムスタンプ（ｔｉｍｅｓｔａｍｐ）に基づいて一緒に提供することが可能である。また、図７において、右側のノートデータ（Ｃ）及びコンテンツデータ（Ｄ）には、ノートデータやコンテンツデータに係るすべてがディスプレイされるわけではなく、コンピューティング装置（１００）は、ノートデータ（Ｃ）において「ダグゥロ」に関連する部分だけをまとめて提供したり、コンテンツデータ（Ｄ）において「ダグゥロ」に関連するｐｄｆページだけをまとめて提供することが可能である。また、上述のように、音声認識データにおいて「ダグゥロ」と対応する単語単位が第１重要情報として決定された場合にも、コンピューティング装置（１００）は、編集距離及び英語表記に基づき、ノートデータ（Ｃ）やコンテンツデータ（Ｄ）において「ダグロ」、「ｄａｇｌｏ」も一緒に第２重要情報として決定し、重要情報だけをまとめて提供することが可能である。

【0130】

図８は、本開示の一実施例に基づき、特定の単語についてハイライトを選択した場合、右側において、参照データにおける複数の重要情報だけをまとめて一緒に提供される画面を例示的に示している図面である。具体的に、図８は、本開示の一実施例に基づき、「人工知能」をハイライトすると選択した場合、右側において、ノートデータ（Ｃ）及びコンテンツデータ（Ｄ）の複数の重要情報だけをまとめて一緒に提供される画面を例示的に示している図面である。

【0131】

なお、図８は、ユーザーが音声認識データ（Ｂ）において「人工知能」をハイライトすると選択した場合、右側において、ノートデータ（Ｃ）及びコンテンツデータ（Ｄ）の複数の重要部分だけをまとめて一緒に提供される画面の一例である。また、図８の左側における複数のハイライト部分を見ると、コンピューティング装置（１００）は、実際にはユーザーが音声認識データ（Ｂ）において「人工知能」だけをハイライトした場合にも、当該部分が含まれている文の頭からディスプレイすることが可能である。また、コンピューティング装置（１００）は、話者情報と発話時刻も一緒にディスプレイすることが可能であり、当該部分をクリックすると、対応する映像や音声部分をタイムスタンプ（ｔｉｍｅｓｔａｍｐ）に基づいて一緒に提供することが可能である。また、図８において、右側のノートデータ（Ｃ）及びコンテンツデータ（Ｄ）には、ノートデータ（Ｃ）やコンテンツデータ（Ｄ）に係るすべてがディスプレイされるわけではなく、コンピューティング装置（１００）は、ノートデータ（Ｃ）において「人工知能」に関連する部分だけをまとめて提供したり、コンテンツデータ（Ｄ）において「人工知能」に関連するｐｄｆページだけをまとめて提供することが可能である。

【0132】

図７及び図８においては省略されているが、一実施例によると、入力されたファイルに映像が含まれている場合、重要情報として決定された複数の部分的な映像だけで再構成された映像がユーザーに提供されることが可能である。他の一実施例によると、複数の重要情報に重みが付与され、それに基づいて音声認識データに係る要約情報が生成され、ユーザーに提供されることが可能である。

【0133】

【0134】

図９は、本開示の一実施例に基づく、音声認識結果（ＳＴＴ；Ｓｐｅｅｃｈ－Ｔｏ－Ｔｅｘｔ）及び参照データにおいて重要部分を決定する方法に係るフローチャートである。

【0135】

図９に示す音声認識結果及び参照データにおいて重要部分を決定する方法は、コンピューティング装置（１００）によって実行されることが可能である。以下に詳しい説明がなくても、コンピューティング装置（１００）について詳述した内容は、音声認識結果及び参照データにおいて重要部分を決定することに係る説明にも、同様に適用されることが可能である。

【0136】

図９を参照すると、本開示の一実施例に基づく、音声認識結果及び参照データにおいて重要部分を決定する方法は、音声信号に対して音声認識を行って生成された、音声認識データを取得する段階（Ｓ１１０）、参照データを取得する段階（Ｓ１２０）、上記音声認識データと上記参照データとのうち、いずれか１つのデータにおいて第１重要情報を決定する段階（Ｓ１３０）及び上記音声認識データと上記参照データとのうち、上記第１重要情報が決定されたデータではない他のデータにおいて、上記第１重要情報に関連する第２重要情報を決定する段階（Ｓ１４０）を含むことが可能である。

【0137】

上記Ｓ１１０段階は、音声信号に対して音声認識を行って生成された、音声認識データを取得する段階である。

【0138】

上記Ｓ１２０段階は、参照データを取得する段階である。この場合、上記参照データは、上記音声認識データとの類似度分析に基づいて識別され、上記類似度分析は、編集距離分析を含むことが可能である。参照データには、上記音声信号に関連するノートデータ、上記音声信号に関連するコンテンツデータ、又は上記音声信号に関連する学習資料データのうち、少なくとも１つのデータが含まれることが可能である。ノートデータは、ユーザーが音声信号に関連して作成したテキストデータであることが可能であり、コンテンツデータは、関連するＹｏｕＴｕｂｅ（登録商標）映像、ニュース記事、ローカルデータにおいて保存されているファイル等、音声信号に関連するコンテンツに係るデータであることが可能である。学習資料データは、音声信号が講義に関連している場合、ＰＤＦの形又はＰＰＴの形の講義資料であることが可能である。コンテンツデータ又は学習資料データは、前述のように編集距離分析に基づいて識別され、提案されたものであることが可能であるが、これに限られるわけではなく、ユーザーが直接アップロードしたデータであることが可能である。

【0139】

上記Ｓ１３０段階は、上記音声認識データと上記参照データとのうち、いずれか１つのデータにおいて第１重要情報を決定する段階である。かかるＳ１３０段階は、ユーザーの入力に基づき、上記第１重要情報を決定する段階；又は予め決定されたキーワード（ｋｅｙｗｏｒｄ）情報に基づき、上記第１重要情報を決定する段階のうち、少なくとも１つの段階を含むことが可能である。

【0140】

上記Ｓ１４０段階は、上記音声認識データと上記参照データとのうち、上記第１重要情報が決定されたデータではない他のデータにおいて、上記第１重要情報に関連する第２重要情報を決定する段階である。かかるＳ１４０段階は、上記他のデータにおいて、上記第１重要情報との単語類似度がしきい値以上の部分を、上記第２重要情報として決定する段階；上記他のデータにおいて、上記第１重要情報との文章埋め込みベクター（ｓｅｎｔｅｎｃｅｅｍｂｅｄｄｉｎｇｖｅｃｔｏｒ）類似度がしきい値以上の部分を上記第２重要情報として決定する段階；上記第１重要情報及び上記他のデータについて質疑応答（ＱＡ；ＱｕｅｓｔｉｏｎＡｎｓｗｅｒｉｎｇ）モデルが出力した結果に基づき、上記他のデータにおいて上記第２重要情報を決定する段階；又は、時刻同期（ｔｉｍｅ－ｓｙｎｃ）情報に基づき、上記他のデータにおいて上記第２重要情報を決定する段階のうち、少なくとも１つの段階を含むことが可能である。また、Ｓ１４０段階は、上記第２重要情報の決定をガイドするためのＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）データを生成する段階；及び上記他のデータにおいて、上記ＵＩを介して入力される情報に基づき、上記第１重要情報に関連する上記第２重要情報を決定する段階を含むことが可能である。また、Ｓ１４０段階は、上記他のデータにおいて、上記第１重要情報とは異なる言語単位を上記第２重要情報として決定する段階を含み、上記異なる言語単位は、単語単位、文単位、又は、段落単位を含むことが可能である。

【0141】

一方、音声認識結果（ＳＴＴ；Ｓｐｅｅｃｈ－Ｔｏ－Ｔｅｘｔ）及び参照データにおいて重要部分を決定する方法は、追加の参照データを取得する段階；上記追加の参照データにおいて、上記第１重要情報及び上記第２重要情報に関連する第３重要情報を決定する段階；及び上記第１重要情報、上記第２重要情報、及び上記第３重要情報を互いに関連付ける段階をさらに含むことが可能である。

【0142】

また、音声認識結果（ＳＴＴ；Ｓｐｅｅｃｈ－Ｔｏ－Ｔｅｘｔ）及び参照データにおいて重要部分を決定する方法は、上記第１重要情報又は上記第２重要情報に基づき、上記音声認識データを再構成し、再構成音声認識データを提供する段階をさらに含み、上記再構成音声認識データは、重要部分として決定された音声認識データだけを含み、上記再構成音声認識データは、上記第１重要情報又は上記第２重要情報の言語単位より大きい言語単位を含むことが可能である。

【0143】

また、音声認識結果（ＳＴＴ；Ｓｐｅｅｃｈ－Ｔｏ－Ｔｅｘｔ）及び参照データにおいて重要部分を決定する方法は、上記第１重要情報又は上記第２重要情報に基づき、上記音声認識データに係る要約情報を生成する段階をさらに含み、上記要約情報は、上記第１重要情報又は上記第２重要情報に基づく重みを活用して生成することが可能である。

【0144】

【0145】

以上の説明における複数の段階は、本開示の具現化の例によっては、より多くの段階に分割されたり、より少ない段階にまとめられることが可能である。また、一部の段階は、必要に応じて省略される場合もあり、段階の順番が変更される場合もある。

【0146】

【0147】

本開示の一実施例に基づき、データ構造を保存したコンピューター可読保存媒体が開示される。

【0148】

データ構造は、データに効率的なアクセスおよび修正を可能にするデータの組織、管理、保存を意味することができる。データ構造は、特定の問題（例えば、最短時間でデータ検索、データ保存、データ修正）を解決するためのデータ組織を意味することができる。
データ構造は、特定のデータ処理機能をサポートするように設計されたデータ要素間の物理的または論理的な関係と定義することもできる。データ要素間の論理的な関係は、ユーザーが考えるデータ要素間の連結関係を含むことができる。データ要素間の物理的な関係は、コンピューター可読保存媒体（例えば、ハードディスク）に物理的に保存されているデータ要素間の実際の関係を含むことができる。データ構造は具体的にデータの集合、データ間の関係、データに適用できる関数またはコマンドを含むことができる。効果的に設計されたデータ構造により、コンピューティング装置はコンピューティング装置のリソースを最小限に使用しながら計算を行うことができる。具体的にコンピューティング装置は効果的に設計されたデータ構造を通じて演算、読み取り、挿入、削除、比較、交換、検索の効率性を高めることができる。

【0149】

データ構造はデータ構造の形態によって線形データ構造と非線形データ構造に区分されることができる。線形データ構造は、一つのデータの後に一つのデータだけが連結される構造である可能性がある。線形データ構造はリスト（Ｌｉｓｔ）、スタック（Ｓｔａｃｋ）、キュー（Ｑｕｅｕｅ）、デッキ（Ｄｅｑｕｅ）を含むことができる。リストは、内部的に順序が存在する一連のデータセットを意味することが可能である。リストは連結リスト（ＬｉｎｋｅｄＬｉｓｔ）を含むことができる。連結リストはそれぞれのデータがポインタを持って一列に連結されている方式でデータが連結されたデータ構造でありうる。連結リストでポインタは、次や以前のデータとの連結情報を含むことができる。連結リストは形態によって単一連結リスト、二重連結リスト、円形連結リストで表現できる。スタックは制限的にデータにアクセスできるデータリスト構造である可能性がある。スタックは、データ構造の片端でのみデータを処理（例えば、挿入または削除）できる線形データ構造である可能性がある。スタックに保存されたデータは、遅く入るほど早く出てくるデータ構造（ＬＩＦＯ－ＬａｓｔｉｎＦｉｒｓｔＯｕｔ）である可能性がある。キューは制限的にデータにアクセスできるデータ羅列構造であり、スタックとは異なり遅く保存されたデータほど遅く出てくるデータ構造（ＦＩＦＯ－ＦｉｒｓｔｉｎＦｉｒｓｔＯｕｔ）であることができる。デッキはデータ構造の両端でデータを処理できるデータ構造になり得る。

【0150】

非線形データ構造は、一つのデータの後に複数のデータが連結される構造である可能性がある。非線形データ構造はグラフ（Ｇｒａｐｈ）データ構造を含むことができる。グラフデータ構造は頂点（Ｖｅｒｔｅｘ）と幹線（Ｅｄｇｅ）で定義でき、幹線は互いに異なる二つの頂点を連結する線を含むことができる。グラフデータ構造ツリー（Ｔｒｅｅ）データ構造を含むことができる。ツリーデータ構造はツリーに含まれる複数の頂点のうち、互いに異なる２つの頂点を連結させる経路が一つのデータ構造になり得る。すなわち、グラフデータ構造でループ（ｌｏｏｐ）を形成しないデータ構造になり得る。

【0151】

本明細書にかけて、演算モデル、神経回路網、ネットワーク関数、ニューラルネットワークは同じ意味で使用できる。（以下ではニューラルネットワークで統一して記述する。）データ構造はニューラルネットワークを含むことができる。そして、ニューラルネットワークを含むデータ構造は、コンピューター可読保存媒体に保存されることができる。ニューラルネットワークを含むデータ構造はまた、ニューラルネットワークに入力されるデータ、ニューラルネットワークの加重値、ニューラルネットワークのハイパーパラメータ、ニューラルネットワークから獲得したデータ、ニューラルネットワークの各ノードまたはレイヤーに関連する活性関数、ニューラルネットワークの学習のための損失関数を含むことができる。ニューラルネットワークを含むデータ構造は、前記開示された構成のうち任意の構成要素を含むことができる。すなわち、ニューラルネットワークを含むデータ構造は、ニューラルネットワークに入力されるデータ、ニューラルネットワークの加重値、ニューラルネットワークのハイパーパラメータ、ニューラルネットワークから獲得したデータ、ニューラルネットワークの各ノードまたはレイヤーに関連する活性関数、ニューラルネットワークのトレーニングのための損失関数など、全部またはこれらの任意の組み合わせを含んで構成されることができる。前述した構成以外にも、ニューラルネットワークを含むデータ構造は、ニューラルネットワークの特性を決定する任意の他の情報を含むことができる。また、データ構造は、ニューラルネットワークの演算過程で使用されたり発生するすべての形態のデータを含むことができ、前述の事項に制限されるわけではない。コンピューター可読保存媒体は、コンピューター可読記録媒体および／またはコンピューター可読伝送媒体を含むことができる。ニューラルネットワークは、一般的にノードと呼ばれる相互接続された計算単位の集合で構成されることができる。このようなノードはニューロン（ｎｅｕｒｏｎ）と呼ばれることができる。ニューラルネットワークは、少なくとも１つ以上のノードを含んで構成される。

【0152】

データ構造は、ニューラルネットワークに入力されるデータを含むことができる。ニューラルネットワークに入力されるデータを含むデータ構造は、コンピューター可読保存媒体に保存されることができる。ニューラルネットワークに入力されるデータは、ニューラルネットワークの学習過程で入力される学習データおよび／または学習が完了したニューラルネットワークに入力される入力データを含むことができる。ニューラルネットワークに入力されるデータは、前処理（ｐｒｅ－ｐｒｏｃｅｓｓｉｎｇ）を経たデータおよび／または前処理対象となるデータを含むことができる。前処理はデータをニューラルネットワークに入力させるためのデータ処理過程を含むことができる。したがって、データ構造は前処理対象となるデータおよび前処理で発生するデータを含むことができる。前述のデータ構造は例示に過ぎず、本開示はこれに限定されない。

【0153】

データ構造は、ニューラルネットワークの加重値を含むことができる。（本明細書で加重値、パラメータは同じ意味で使用できる。）そして、神経回路網の加重値を含むデータ構造はコンピューター可読保存媒体に保存されることができる。ニューラルネットワークは、複数の加重値を含むことができる。加重値は可変的であり、ニューラルネットワークが望む機能を遂行するために、ユーザーまたはアルゴリズムによって可変することができる。例えば、一つの出力ノードに一つ以上の入力ノードがそれぞれのリンクによって相互接続された場合、出力ノードは前記出力ノードと連結された入力ノードに入力された値及びそれぞれの入力ノードに対応するリンクに設定されたパラメータに基づいて出力ノード値を決定することができる。前述のデータ構造は例示に過ぎず、本開示はこれに限定されない。

【0154】

制限ではなく例として、加重値は神経回路網学習過程で可変する加重値および／または神経回路網学習が完了した加重値を含むことができる。ニューラルネットワーク学習過程で可変される加重値は、学習サイクルが始まる時点の加重値および／または学習サイクルの間に可変される加重値を含むことができる。ニューラルネットワーク学習が完了した加重値は、学習サイクルが完了した加重値を含むことができる。したがって、ニューラルネットワークの加重値を含むデータ構造は、ニューラルネットワーク学習過程で可変される加重値および／またはニューラルネットワーク学習が完了した加重値を含むデータ構造を含むことができる。したがって、上述した加重値および／または各加重値の組み合わせは、神経回路網の加重値を含むデータ構造に含まれるものとする。前述のデータ構造は例示に過ぎず、本開示はこれに限定されない。

【0155】

ニューラルネットワークの加重値を含むデータ構造は、直列化（ｓｅｒｉａｌｉｚａｔｉｏｎ）過程を経た後、コンピューター可読保存媒体（例えば、メモリ、ハードディスク）に保存されることができる。直列化は、データ構造を同一または他のコンピューティングデバイスに保存し、後で再構成して使用できる形態に変換する過程である可能性がある。コンピューティングデバイスは、データ構造を直列化し、ネットワークを介してデータを送受信することができる。直列化されたニューラルネットワークの加重値を含むデータ構造は、逆直列化（ｄｅｓｅｒｉａｌｉｚａｔｉｏｎ）を通じて同じコンピューティング装置または他のコンピューティング装置で再構成されることができる。ニューラルネットワークの加重値を含むデータ構造は、シリアル化に限定されるものではない。さらに、神経回路網の加重値を含むデータ構造は、コンピューティング装置の資源を最小限に使用しながら演算の効率を高めるためのデータ構造（例えば、非線形データ構造でＢ－Ｔｒｅｅ、Ｔｒｉｅ、ｍ－ｗａｙｓｅａｒｃｈｔｒｅｅ、ＡＶＬｔｒｅｅ、Ｒｅｄ－ＢｌａｃｋＴｒｅｅ）を含むことができる。前述の事項は例示に過ぎず、本開示はこれに限定されない。

【0156】

データ構造は、ニューラルネットワークのハイパーパラメータ（Ｈｙｐｅｒ－ｐａｒａｍｅｔｅｒ）を含むことができる。そして、ニューラルネットワークのハイパーパラメータを含むデータ構造は、コンピューター可読保存媒体に保存されることができる。ハイパーパラメータは、ユーザーによって可変される変数である可能性がある。ハイパーパラメータは、例えば、学習率（ｌｅａｒｎｉｎｇｒａｔｅ）、コスト関数（ｃｏｓｔｆｕｎｃｔｉｏｎ）、学習サイクル反復回数、加重値初期化（例えば、加重値初期化対象となる加重値の範囲設定）、ＨｉｄｄｅｎＵｎｉｔ個数（例えば、ヒドゥンレイヤーの個数、ヒドゥンレイヤーのノード数）を含むことができる。前述のデータ構造は例示に過ぎず、本開示はこれに限定されない。

【0157】

【0158】

図１０は、本開示の実施例が具現化されることのできる例示的なコンピューティング環境に係る簡略で一般的な概略図である。

【0159】

本開示が一般的にコンピューティング装置により具現化されることができると前述されているが、当業者であれば本開示が一つ以上のコンピューター上で実行されることのできるコンピューター実行可能命令及び／またはその他のプログラムモジュールと結合して及び／またはハードウェアとソフトウェアの組み合わせとして具現化されることができるということをよく理解できるだろう。

【0160】

一般的に、本明細書におけるモジュールは、特定のタスクを実行したり特定の抽象的なデータ類型を実装するルーティン、プログラム、コンポーネント、データ構造、その他等々を含む。また、当業者なら本開示の方法がシングルプロセッサーまたはマルチプロセッサーコンピューターシステム、ミニコンピューター、メインフレームコンピューターはもちろん、パーソナルコンピューター、ハンドヘルド（ｈａｎｄｈｅｌｄ）コンピューティング装置、マイクロプロセッサー基盤、またはプログラム可能な家電製品、その他等々（これらは、それぞれ１つ以上の関連する装置と繋がって動作することができる）をはじめとする、他のコンピューターシステムの構成によって実施されることができることをよく理解できるだろう。

【0161】

本開示において説明された実施例は、さらに、あるタスクが通信ネットワークを通じて繋がっている遠隔処理装置によって実行される分散コンピューティング環境で実施されることができる。分散コンピューティング環境において、プログラムモジュールは、ローカルや遠隔メモリー保存装置の両方に位置することができる。

【0162】

コンピューターは、多様なコンピューター可読媒体を含む。コンピューターによってアクセス可能な媒体はいずれもコンピューター可読媒体になり得るが、このようなコンピューター可読媒体は揮発性及び非揮発性媒体、一時的（ｔｒａｎｓｉｔｏｒｙ）及び非一時的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）媒体、移動式及び非－移動式媒体を含む。制限ではなく例として、コンピューター可読媒体は、コンピューター可読保存媒体及びコンピューター可読伝送媒体を含むことができる。コンピューター可読保存媒体は、コンピューター可読命令、データ構造、プログラムモジュール又はその他のデータのような情報を保存する任意の方法又は技術により実装される揮発性及び非揮発性媒体、一時的及び非－一時的媒体、移動式及び非移動式媒体を含む。コンピューター可読保存媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリーまたはその他のメモリー技術、ＣＤ－ＲＯＭ、ＤＶＤ（ｄｉｇｉｔａｌｖｉｄｅｏｄｉｓｋ）またはその他の光ディスク保存装置、磁気カセット、磁気テープ、磁気ディスク保存装置またはその他の磁気保存装置、またはコンピューターによってアクセスされることができ、情報を保存するのに使われることのできる任意のその他の媒体を含むが、これに限定されない。

【0163】

コンピューター可読伝送媒体は、通常、搬送波（ｃａｒｒｉｅｒｗａｖｅ）またはその他の伝送メカニズム（ｔｒａｎｓｐｏｒｔｍｅｃｈａｎｉｓｍ）のような被変調データ信号（ｍｏｄｕｌａｔｅｄｄａｔａｓｉｇｎａｌ）にコンピューター可読命令、データ構造、プログラムモジュールまたはその他のデータ等を実装し、すべての情報伝達媒体を含む。被変調データ信号という用語は、信号の中で情報をエンコードするように、その信号の特性のうち１つ以上を設定または変更した信号を意味する。制限ではなく例として、コンピューター可読伝送媒体は、有線ネットワークまたは直接配線接続（ｄｉｒｅｃｔ－ｗｉｒｅｄｃｏｎｎｅｃｔｉｏｎ）のような有線媒体、そして音響、ＲＦ、赤外線、その他の無線媒体のような無線媒体を含む。前述の媒体のいずれかによる任意の組み合わせもまたコンピューター可読伝送媒体の範囲に含まれるものとする。

【0164】

コンピューター（１１０２）を含む本開示の多様な側面を実現する例示的な環境（１１００）が示されており、コンピューター（１１０２）は、処理装置（１１０４）、システムメモリー（１１０６）、システムバス（１１０８）を含む。システムバス（１１０８）は、システムメモリー（１１０６）（これに限定されない）をはじめとするシステムコンポーネントを処理装置（１１０４）につなげる。処理装置（１１０４）は、多様な商用プロセッサーのうち任意のプロセッサーになり得る。デュエルプロセッサーとその他のマルチプロセッサーアーキテクチャもまた処理装置（１１０４）として利用されることができる。

【0165】

システムバス（１１０８）は、メモリーバス、周辺装置バス、そして多様な商用バスアーキテクチャの中から、任意のものを使用するローカルバスにさらに相互連結されることのできる複数の類型のバス構造のうちいずれかになり得る。システムメモリー（１１０６）は、読み取り専用メモリー（ＲＯＭ）（１１１０）やランダムアクセスメモリー（ＲＡＭ）（１１１２）を含む。基本的な入出力システム（ＢＩＯＳ）は、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ等の非揮発性メモリー（１１１０）に保存され、このＢＩＯＳは、起動中の時等にコンピューター（１１０２）の中の複数の構成要素間の情報のやりとりをサポートする基本的なルーティンを含む。ＲＡＭ（１１１２）は、またデータをキャッシュするための静的ＲＡＭ等の高速ＲＡＭを含むことができる。

【0166】

コンピューター（１１０２）においては、また、内蔵型ハードディスクドライブ（ＨＤＤ）（１１１４）（例えば、ＥＩＤＥ、ＳＡＴＡ）―この内蔵型ハードディスクドライブ（１１１４）はまた適切なシャシー（図示は省略）の中で外付け型の用途で構成されることができる―、磁気フロッピーディスクドライブ（ＦＤＤ）（１１１６）（例えば、移動式ディスケット（１１１８）から読み取ったりそれに書き込むためのものである）及び光ディスクドライブ（１１２０）（例えば、ＣＤ－ＲＯＭディスク（１１２２）を読み取ったり、ＤＶＤ等のその他の高容量光媒体から読み取ったり、それに書き込むためのものである）を含む。ハードディスクドライブ（１１１４）、磁気ディスクドライブ（１１１６）及び光ディスクドライブ（１１２０）は、それぞれハードディスクドライブインターフェース（１１２４）、磁気ディスクドライブインターフェース（１１２６）及び光ドライブインターフェース（１１２８）によってシステムバス（１１０８）に繋がることができる。外付け型ドライブの実装のためのインターフェース（１１２４）は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）やＩＥＥＥ１３９４インターフェース技術のうち、少なくとも１つまたはその両方を含む。

【0167】

これらのドライブ及びこれらに係るコンピューター可読媒体は、データ、データ構造、コンピューターで実行可能な命令、その他等々の非揮発性保存を提供する。コンピューター（１１０２）の場合、ドライブ及び媒体は、任意のデータを適切なデジタル形式に保存することに対応する。前述におけるコンピューター可読保存媒体に係る説明が、ＨＤＤ、移動式磁気ディスク及びＣＤまたはＤＶＤ等の移動式光媒体について触れているが、当業者ならジップドライブ（ｚｉｐｄｒｉｖｅ）、磁気カセット、フラッシュメモリーカード、カートリッジ、その他等々のコンピューターにより読み取り可能な他の類型の保存媒体もまた例示的な運営環境で使われることができ、さらに、このような媒体のうち任意のある媒体が、本開示の方法を実行するためのコンピューターで実行可能な命令を含むことができることをよく理解できるだろう。

【0168】

運営システム（１１３０）、１つ以上のアプリケーションプログラム（１１３２）、その他のプログラムモジュール（１１３４）及びプログラムデータ（１１３６）をはじめとする多数のプログラムモジュールが、ドライブ及びＲＡＭ（１１１２）に保存されることができる。運営システム、アプリケーション、モジュール及び／またはデータの全部またはその一部分がまたＲＡＭ（１１１２）にキャッシュされることができる。本開示が商業的に利用可能な様々な運営システムまたは複数の運営システムの組み合わせにより実装されることができることをよく理解できるだろう。

【0169】

ユーザーは、１つ以上の有線・無線の入力装置、例えば、キーボード（１１３８）及びマウス（１１４０）等のポインティング装置を通じてコンピューター（１１０２）に命令及び情報を入力することができる。その他の入力装置（図示は省略）としてはマイク、ＩＲリモコン、ジョイスティック、ゲームパッド、スタイラスペン、タッチスクリーン、その他等々があり得る。これら及びその他の入力装置が、よくシステムバス（１１０８）に繋がっている入力装置インターフェース（１１４２）を通じて処理装置（１１０４）に繋がることがあるが、並列ポート、ＩＥＥＥ１３９４直列ポート、ゲームポート、ＵＳＢポート、ＩＲインターフェース、その他等々のその他のインターフェースによって繋がることができる。

【0170】

モニター（１１４４）または他の類型のディスプレイ装置も、ビデオアダプター（１１４６）等のインターフェースを通じてシステムバス（１１０８）に繋がる。モニター（１１４４）に加えて、コンピューターは一般的にスピーカー、プリンター、その他等々のその他の周辺出力装置（図示は省略）を含む。

【0171】

コンピューター（１１０２）は、有線及び／または無線通信による（複数の）遠隔コンピューター（１１４８）等の１つ以上の遠隔コンピューターへの論理的接続を利用し、ネットワーク化された環境で動作することができる。（複数の）遠隔コンピューター（１１４８）は、ワークステーション、サーバーコンピューター、ルーター、パーソナルコンピューター、携帯用コンピューター、マイクロプロセッサー基盤の娯楽機器、ピア装置またはその他の通常のネットワークノードになることができ、一般的にコンピューター（１１０２）について述べられた構成要素のうち、多数またはその全部を含むが、簡略化するために、メモリー保存装置（１１５０）のみ図示されている。図示されている論理的接続は、近距離通信網（ＬＡＮ）（１１５２）及び／または、より大きいネットワーク、例えば、遠距離通信網（ＷＡＮ）（１１５４）における有線・無線の接続を含む。このようなＬＡＮ及びＷＡＮのネットワーキング環境は、オフィスや会社では一般的なもので、イントラネット等の全社的コンピューターネットワーク（ｅｎｔｅｒｐｒｉｓｅ－ｗｉｄｅｃｏｍｐｕｔｅｒｎｅｔｗｏｒｋ）を容易にし、これらはすべて全世界のコンピューターネットワーク、例えば、インターネットに繋がることができる。

【0172】

ＬＡＮネットワーキング環境で使われるとき、コンピューター（１１０２）は、有線及び／または無線通信ネットワークインターフェース、または、アダプター（１１５６）を通じてローカルネットワーク（１１５２）に繋がる。アダプター（１１５６）は、ＬＡＮ（１１５２）への有線または無線通信を容易にすることができ、このＬＡＮ（１１５２）は、また無線アダプター（１１５６）と通信するためにそれに設置されている無線アクセスポイントを含む。ＷＡＮネットワーキング環境で使われるとき、コンピューター（１１０２）は、モデム（１１５８）を含むことができたり、ＷＡＮ（１１５４）上の通信サーバーに繋がったり、またはインターネットを通じる等、ＷＡＮ（１１５４）を通じて通信を設定するその他の手段を持つ。内蔵型又は外付け型、そして、有線または無線装置になり得るモデム（１１５８）は、直列ポートインターフェース（１１４２）を通じてシステムバス（１１０８）に繋がる。ネットワーク化された環境において、コンピューター（１１０２）について説明されたプログラムモジュールまたはその一部分が、遠隔メモリー／保存装置（１１５０）に保存されることができる。図示されたネットワーク接続が例示的なものであり、複数のコンピューター間で通信リンクを設定する他の手段が使われることができるということは容易に理解できることである。

【0173】

コンピューター（１１０２）は、無線通信で配置されて動作する任意の無線装置またはユニット、例えば、プリンター、スキャナー、デスクトップ及び／または携帯用コンピューター、ＰＤＡ（ｐｏｒｔａｂｌｅｄａｔａａｓｓｉｓｔａｎｔ）、通信衛星、無線で検出可能なタグに係る任意の装備または場所及、及び電話と通信する動作をする。これは、少なくともＷｉ－Ｆｉ及びブルートゥース（登録商標）無線技術を含む。従って、通信は、従来のネットワークのように予め定義された構造であったり、単純に少なくとも２つの装置の間でのアドホック通信（ａｄｈｏｃｃｏｍｍｕｎｉｃａｔｉｏｎ）になり得る。

【0174】

Ｗｉ－Ｆｉ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ）は、有線で繋がっていなくても、インターネット等への接続を可能にする。Ｗｉ－Ｆｉは、このような装置、例えば、コンピューターが室内及び室外で、つまり基地局の通話圏内のどこからでもデータを送受信できるようにするセル電話のような無線技術である。Ｗｉ－Ｆｉネットワークは、安全で信頼性があり、高速である無線接続を提供するためにＩＥＥＥ８０２．１１（ａ、ｂ、ｇ、その他）という無線技術を使う。コンピューターを互いに、インターネット及び有線ネットワーク（ＩＥＥＥ８０２．３またはイーサネットを使う）に接続するためにＷｉ－Ｆｉが使われることができる。Ｗｉ－Ｆｉネットワークは、非認可２．４や５ＧＨｚの無線帯域において、例えば、１１Ｍｂｐｓ（８０２．１１ａ）または５４Ｍｂｐｓ（８０２．１１ｂ）のデータレートで動作したり、両帯域（デュエル帯域）を含む製品において動作することができる。

【0175】

本開示の技術分野における通常の知識を持つ者は情報及び信号が任意の多様な異なる技術及び手法を利用して示されることができることを理会できる。例えば、前記の説明において参照できるデータ、指示、命令、情報、信号、ビット、シンボル及びチップは、電圧、電流、電磁気派、磁場等または粒子、光学場等または粒子、またはこれらの任意の組み合わせによって示されることができる。

【0176】

本開示の技術分野において通常の知識を持つ者は、ここに開示された実施例に係る説明で取り挙げられた多様な例示的な論理ブロック、モジュール、プロセッサー、手段、回路、アルゴリズム段階が電子ハードウェア、（利便性のために、ここでは「ソフトウェア」と称される）多様な形のプログラムまたは設計コード、またはこれらすべての結合により実装されることができることを理解できるだろう。ハードウェア及びソフトウェアのこのような相互互換性を明確に説明するために、多様な例示的なコンポーネント、ブロック、モジュール、回路、及び段階がこれらの機能に着目して前記で一般的に説明された。このような機能がハードウェアやソフトウェアで実装されるかどうかは、特定のアプリケーションおよび全体システムに対して付与される設計上の制限によって決まる。本開示の技術分野において通常の知識を持つ者は、個々の特定のアプリケーションについて多様な手法で説明された機能を実現することができるが、このような実現の決定は、本開示の範囲を逸脱するものと解釈されてはならない。

【0177】

ここに示された多様な実施例は、方法、装置、または標準プログラミング及び／またはエンジニアリング技術を使った製造物品（ａｒｔｉｃｌｅ）によって実現できる。用語「製造物品」は、任意のコンピューターで可読な装置からアクセス可能なコンピュータープログラム、キャリアー、または媒体（ｍｅｄｉａ）を含む。例えば、コンピューターで可読保存媒体は、磁気保存装置（例えば、ハードディスク、フロッピーディスク、磁気ストリップ等）、光学ディスク（例えば、ＣＤ、ＤＶＤ等）、スマートカード及びフラッシュメモリー装置（例えば、ＥＥＰＲＯＭ、カード、スティック、キードライブ等）を含むが、これらに限定されるものではない。また、ここに示されている多様は保存媒体は、情報を保存するための１つ以上の装置及び／または他の機械可読媒体を含む。

【0178】

示されたプロセスにおける複数の段階の特定の順番または階層構造は、例示的なアプローチの一例であることを理解すべきである。設計上の優先順位に基づき、本開示の範囲内で、プロセスにおける段階の特定の順番または階層構造が再配列されることができることを理解すべきである。添付の方法請求項は、サンプルとしての順番で、多様な段階のエレメントを提供するが、示された特定の順番または階層構造に限定されることを意味するわけではない。

【0179】

示された実施例に関する説明は、任意の本開示の技術分野において通常の知識を持つ者が、本開示を利用したりまたは実施できるように提供される。このような実施例に対する多様な変形は、本開示の技術分野において通常の知識を持つ者には明確に理解できるものであり、ここに定義された一般的な原理は、本開示の範囲を逸脱することなく他の実施例に適用されることができる。従って、本開示はここに示す実施例によって限定されるものではなく、ここに示す原理及び新規な特徴と一貫する最広義の範囲で解釈されるべきである。

【図1】