特許7475589 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アクションパワーコーポレイションの特許一覧

特許7475589外国語を含むオーディオの音声認識方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-04-19

(45)【発行日】2024-04-30

(54)【発明の名称】外国語を含むオーディオの音声認識方法

(51)【国際特許分類】

G10L 15/10 20060101AFI20240422BHJP

G10L 15/16 20060101ALI20240422BHJP

G10L 15/22 20060101ALI20240422BHJP

【ＦＩ】

G10L15/10 500Z

G10L15/16

G10L15/22 470Z

【請求項の数】 9

(21)【出願番号】P 2022143274

(22)【出願日】2022-09-08

(65)【公開番号】P2024006851

(43)【公開日】2024-01-17

【審査請求日】2022-09-08

(31)【優先権主張番号】10-2022-0079789

(32)【優先日】2022-06-29

(33)【優先権主張国・地域又は機関】KR

(73)【特許権者】

【識別番号】522357781

【氏名又は名称】アクションパワーコーポレイション

(74)【代理人】

【識別番号】240000327

【弁護士】

【氏名又は名称】弁護士法人クレオ国際法律特許事務所

(72)【発明者】

【氏名】キムカンウク

(72)【発明者】

【氏名】ムンファンポク

(72)【発明者】

【氏名】クァクスンホ

【審査官】中村天真

(56)【参考文献】

【文献】韓国公開特許第２０２２－００２６９５８（ＫＲ，Ａ）

【文献】韓国公開特許第１０－２０２１－００１７０９０（ＫＲ，Ａ）

【文献】国際公開第２０２０／０１２８１３（ＷＯ，Ａ１）

【文献】特開平０６－１５００６１（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１５／００－１５／３４

(57)【特許請求の範囲】

【請求項1】

コンピューティング装置により実行される、ニューラルネットワークに基づく音声認識方法であって、
音声情報に対して、第１言語に基づき、第１テキスト（ｔｅｘｔ）データを生成する段階；
前記生成された第１テキストデータから問題テキストを検出する段階；
前記検出された問題テキストに対応する第２言語を識別する段階；及び
前記識別された第２言語に基づき、第２テキストデータを生成する段階
を含み、
前記第２言語は、前記第１言語と異なる言語であり、
前記生成された第１テキストデータから問題テキストを検出する段階は、
前記生成された第１テキストデータの信頼度を導出し、前記導出された信頼度に基づき、前記問題テキストを検出する段階を含み、
前記生成された第１テキストデータの信頼度を導出し、前記導出された信頼度に基づき、問題テキストを検出する段階は、
前記第１言語に係るチャンク単位のテキストの各々に対して信頼度を導出し、設定されているしきい値を下回る信頼度を持つチャンク単位のテキストを検出する段階、あるいは
前記生成された第１テキストデータに対して単語（ｗｏｒｄ）単位で信頼度を導出し、設定されているしきい値を下回る信頼度を持つ単語単位のテキストを検出する段階、
を含む、
方法。

【請求項2】

請求項１において、
前記音声情報に対して、第１言語に基づき、第１テキストデータを生成する段階は、
第１ニューラルネットワークモデルを利用し、前記音声情報に対して、前記第１言語に基づく音声認識を行う段階；及び
前記音声認識に基づき、前記第１言語に係るチャンク単位のテキストを出力する段階
を含む、
方法。

【請求項3】

請求項１において、
前記第２テキストデータは、
前記第１テキストデータから前記問題テキストを除いた残りのテキスト部分、及び
前記問題テキストに対応する音声部分に対して、前記第２言語に基づき生成した修正テキスト部分；
を含む、
方法。

【請求項4】

請求項３において、
前記生成された第１テキストデータの前記問題テキストに対応する部分に前記修正テキスト部分を併記して出力する段階
をさらに含む、
方法。

【請求項5】

請求項１において、
前記問題テキストは、チャンク（ｃｈｕｎｋ）単位のテキスト、サブ－単語（ｓｕｂ－ｗｏｒｄ）単位のテキスト、単語（ｗｏｒｄ）単位のテキスト、句（ｐｈｒａｓｅ）単位のテキスト、節（ｃｌａｕｓｅ）単位のテキスト、又は、文章単位のテキストのうち、少なくとも１つを含む、
方法。

【請求項6】

請求項１において、
前記検出された問題テキストに対応する第２言語を識別する段階は、
第１問題テキストに対応し、前記第１言語とは異なる言語である第２言語を識別する段階；及び
第２問題テキストに対応し、前記第１言語及び前記第２言語とは異なる言語である第３言語を識別する段階
をさらに含む、
方法。

【請求項7】

請求項６において、
前記識別された第２言語に基づき、第２テキストデータを生成する段階は、
前記第１問題テキストに対応する音声部分に対して、前記第２言語に基づき、第１修正テキストを生成する段階、及び
前記第２問題テキストに対応する音声部分に対して、前記第３言語に基づき、第２修正テキストを生成する段階
を含む、
方法。

【請求項8】

コンピューター可読保存媒体に保存されたコンピュータープログラムであって、当該コンピュータープログラムは、１つ以上のプロセッサーによって実行される場合、前記１つ以上のプロセッサーが音声認識のための動作を実行するようにし、当該動作は；
音声情報に対して、第１言語に基づき、第１テキストデータを生成する動作；
前記生成された第１テキストデータから問題テキストを検出する動作、
前記検出された問題テキストに対応する第２言語を識別する動作；及び
前記識別された第２言語に基づき、第２テキストデータを生成する動作
を含み、
前記第２言語は、前記第１言語と異なる言語であり、
前記生成された第１テキストデータから問題テキストを検出する段階は、
前記生成された第１テキストデータの信頼度を導出し、前記導出された信頼度に基づき、前記問題テキストを検出する段階を含み、
前記生成された第１テキストデータの信頼度を導出し、前記導出された信頼度に基づき、問題テキストを検出する段階は、
前記第１言語に係るチャンク単位のテキストの各々に対して信頼度を導出し、設定されているしきい値を下回る信頼度を持つチャンク単位のテキストを検出する段階、あるいは
前記生成された第１テキストデータに対して単語（ｗｏｒｄ）単位で信頼度を導出し、設定されているしきい値を下回る信頼度を持つ単語単位のテキストを検出する段階、
を含む、
コンピューター可読保存媒体に保存されたコンピュータープログラム。

【請求項9】

コンピューティング装置であって、
少なくとも１つのプロセッサー；及び
メモリー
を含み、
前記少なくとも１つのプロセッサーは、
音声情報に対して、第１言語に基づき、第１テキストデータを生成し；
前記生成された第１テキストデータから問題テキストを検出し；
前記検出された問題テキストに対応する第２言語を識別し；そして
前記識別された第２言語に基づき、第２テキストデータを生成するように構成され、
前記第２言語は、前記第１言語と異なる言語であり、
前記生成された第１テキストデータから問題テキストを検出する段階は、
前記生成された第１テキストデータの信頼度を導出し、前記導出された信頼度に基づき、前記問題テキストを検出する段階を含み、
前記生成された第１テキストデータの信頼度を導出し、前記導出された信頼度に基づき、問題テキストを検出する段階は、
前記第１言語に係るチャンク単位のテキストの各々に対して信頼度を導出し、設定されているしきい値を下回る信頼度を持つチャンク単位のテキストを検出する段階、あるいは
前記生成された第１テキストデータに対して単語（ｗｏｒｄ）単位で信頼度を導出し、設定されているしきい値を下回る信頼度を持つ単語単位のテキストを検出する段階、
を含む、
コンピューティング装置。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、外国語を含むオーディオの音声認識方法（ＭＥＴＨＯＤＦＯＲＲＥＣＯＧＮＩＺＩＮＧＴＨＥＶＯＩＣＥＯＦＡＵＤＩＯＣＯＮＴＡＩＮＩＮＧＦＯＲＥＩＧＮＬＡＮＧＵＡＧＥＳ）であって、外国語音声を含むオーディオファイルを、より高精度なテキストに変換する方法に係り、より具体的には、外国語を含むオーディオの言語を識別し、当該オーディオ情報に適合した音声認識結果テキストを出力する方法に関する。

【背景技術】

【0002】

従来、音声認識を行う言語モデルが存在するが、音声認識の対象である音源に外国語が含まれている場合、当該部分に対して音声認識を正しく実行できないという問題がある。例えば、従来の音声認識を行う言語モデルは、外国語で行ったインタビューを含むニュースなどのオーディオファイルに対し音声認識を行う場合、外国人をインタビューした部分に対して音声認識を正しく実行できないという問題がある。

【0003】

つまり、従来の音声認識を行う言語モデルでは、音声認識の対象となる音源が複数の言語を含む場合、音声認識を正しく行うことが困難である。特に、従来のモデルでは、対象となる音源のほとんどの部分を第１言語の発話が占めており、一部だけが第２言語の発話になっている場合、第２言語の発話の部分を正しく認識し、高精度なテキスト（ｔｅｘｔ）に変換することが困難である。従来のモデルが、多言語認識モデルを含む形で実装されることができるとしても、音源の一部分の言語が他の部分の言語と異なるか否かを判別できる技術がなく、当該部分が判別できたとしても、当該部分を如何に処理すべきかに係る技術が欠けているためである。

【0004】

従って、外国語音声を含む音源を正確に認識し、これに基づき、上記高精度なテキストに変換できる技術が求められている。

【0005】

一方、本開示は、前述の技術的背景に少なくとも基づいて案出されたものであるが、本開示の技術的課題又は目的が前述の問題又は課題を解決することに限られるわけではない。つまり、本開示は、前述の技術的課題（ｉｓｓｕｅ）以外にも、以下に説明する内容に係る多様な技術的課題をカバー（ｃｏｖｅｒ）できる。

【先行技術文献】

【特許文献】

【0006】

【文献】韓国公開特許第２０１８－０１２９４８６号公報

【発明の概要】

【発明が解決しようとする課題】

【0007】

本開示は、外国語音声を含むオーディオをより高精度なテキストに変換する方法を提供することを解決すべき課題とする。

【0008】

しかし、本開示が解決しようとする技術的課題は、前述の技術的課題に限られるわけではなく、以下に説明する内容から、当業者にとって自明な範囲内において、多様な技術的課題が含まれることが可能である。

【課題を解決するための手段】

【0009】

前述の課題を実現するための本開示の一実施例に基づき、コンピューティング装置により実行される方法が開示される。上記方法は、音声情報に基づき、第１言語に基づき、第１テキスト（ｔｅｘｔ）データを生成する段階；上記生成された第１テキストデータから問題テキストを検出する段階；上記検出された問題テキストに対応する第２言語を識別する段階；及び上記識別された第２言語に基づき、上記第２テキストデータを生成する段階を含むことが可能であり、上記第２言語は上記第１言語と異なる言語である場合がある。

【0010】

代わりに、上記生成された第１テキストデータの、上記問題テキストに対応する部分に、修正テキストを併記して出力する段階をさらに含むことが可能である。

【0011】

代わりに、上記生成された第１テキストデータから問題テキストを検出する段階は、上記生成された第１テキストデータの信頼度を導出し、上記導出された信頼度に基づき、上記問題テキストを検出する段階をさらに含むことも可能である。

【0012】

代わりに、上記音声情報に対して第１テキストデータを生成する段階は、第１ニューラルネットワークモデルを利用し、上記音声情報に対して上記第１言語に基づく音声認識を行う段階；及び上記音声認識に基づき、上記第１言語に対するチャンク単位のテキストを出力する段階を含むことが可能である。

【0013】

代わりに、上記生成された第１テキストデータの信頼度を導出し、上記導出された信頼度に基づき、問題テキストを検出する段階は、上記第１言語に係るチャンク単位のテキストの各々に対して信頼度を導出し、設定されているしきい値を下回る信頼度を持つチャンク単位のテキストを検出する段階を含むことが可能である。

【0014】

代わりに、上記生成された第１テキストデータの信頼度を導出し、上記導出された信頼度に基づき、問題テキストを検出する段階は、上記生成された第１テキストデータに対して単語（ｗｏｒｄ）単位で信頼度を導出し、設定されているしきい値を下回る信頼度を持つ単語単位のテキストを検出する段階を含むことが可能である。

【0015】

代わりに、上記第２テキストデータは、上記第１テキストデータから上記問題テキストを除いた残りのテキスト部分；及び上記問題テキストに対応する音声部分に対して上記第２言語に基づき生成した修正テキスト部分を含むことが可能である。

【0016】

代わりに、上記問題テキストは、チャンク（ｃｈｕｎｋ）単位のテキスト、サブ－単語（ｓｕｂ－ｗｏｒｄ）単位のテキスト、単語（ｗｏｒｄ）単位のテキスト、句（ｐｈｒａｓｅ）単位のテキスト、節（ｃｌａｕｓｅ）単位のテキスト、又は、文章単位のテキストのうち、少なくとも１つを含むことが可能である。

【0017】

代わりに、上記検出された問題テキストに対応する第２言語を識別する段階は、第１問題テキストに対応し、上記第１言語とは異なる言語である第２言語を識別する段階；及び第２問題テキストに対応し、上記第１言語及び上記第２言語とは異なる言語である第３言語を識別する段階をさらに含むことが可能である。

【0018】

代わりに、上記識別された第２言語に基づき、第２テキストデータを生成する段階は、上記第１問題テキストに対応する音声部分に対して、上記第２言語に基づき、第１修正テキストを生成する段階；及び上記第２問題テキストに対応する音声部分に対して、上記第３言語に基づき、第２修正テキストを生成する段階を含むことが可能である。

【0019】

前述のような課題を解決するための本開示の一実施例に基づき、コンピューター可読保存媒体に保存されたコンピュータープログラムが開示される。上記コンピュータープログラムは、１つ以上のプロセッサーにおいて実行される場合、上記１つ以上のプロセッサーが音声認識のための動作を実行するようにし、上記動作は；音声情報に対して、第１言語に基づき、第１テキストデータを生成する動作；上記生成された第１テキストデータから問題テキストを検出する段階；上記検出された問題テキストに対応する第２言語を識別する動作；及び前記識別された第２言語に基づき、第２テキストデータを生成する段階を含むことが可能であり、上記第２言語は：上記第１言語と異なる言語である場合がある。

【0020】

前述の課題を解決するための本開示の一実施例に基づき、コンピューティング装置が開示される。上記装置は、少なくとも１つのプロセッサー；及びメモリーを含み、上記プロセッサーは、音声情報に対して、第１言語に基づき、第１テキストデータを生成し；上記生成された第１テキストデータから問題テキストを検出し；上記検出された問題テキストに対応する第２言語を識別し；そして上記識別された第２言語に基づき、第２テキストデータを生成するように構成されることが可能であり、上記第２言語は、上記第１言語と異なる言語である場合がある。

【発明の効果】

【0021】

本開示は、外国語音声を含むオーディオをテキストに変換する方法を提供することができ、これを通じて外国語を含むオーディオの言語を識別し、オーディオ情報により適合した音声認識結果テキストを出力する方法を提供できる。

【0022】

一方、本開示の効果は、前述の技術的課題に限られるわけではなく、以下に説明する内容から、当業者にとって自明な範囲内において、多様な効果が含まれることが可能である。

【図面の簡単な説明】

【0023】

【図1】図１は、本開示の一実施例における音声認識を行うためのコンピューティング装置のブロック構成図である。

【図2】図２は、本開示の一実施例におけるネットワーク関数を示す概略図である。

【図3】図３は、本開示の一実施例における外国語を含むオーディオの音声認識を行うための方法を示すフローチャートである。

【図4】図４は、本開示の一実施例において、上記音声情報に対して、第１テキストデータを生成し、信頼度を導出する段階を説明するための概略図である。

【図5】図５は、本開示の一実施例において、第１テキストデータの信頼度を導出し、上記導出された信頼度に基づき、問題テキストを検出する段階を示す概略図である。

【図6】図６は、本開示の一実施例において、複数の問題テキスト（例えば、第１問題テキスト、第２問題テキスト等）が検出され、検出された複数のテキストに対応する複数の言語（例えば、第２言語、第３言語等）を識別する動作を示す概略図である。

【図7】図７は、本開示の一実施例において識別された（上記第１言語とは異なる言語である）少なくとも１つの言語に基づき、第２テキストデータを生成する過程を示す概略図である。

【図8】図８は、本開示の実施例を具現化できる例示的なコンピューティング環境に係る簡略で一般的な概略図である。

【発明を実施するための形態】

【0024】

多様な実施例が以下に図面を参照しながら説明されるが、図面を通して類似の図面番号は類似の構成要素を表すために使われる。本明細書において多様な説明が本開示に対する理解を容易にするために示される。しかし、これらの実施例がこれらの具体的な説明がなくても間違いなく実施されることができる。

【0025】

本明細書において、「コンポーネント」、「モジュール」、「システム」等の用語は、コンピューター関連エンティティ、ハードウェア、ファームウェア、ソフトウェア、ソフトウェアとハードウェアとの組み合わせ、またはソフトウェアの実行を指す。例えば、コンポーネントは、プロセッサー上で実行される処理手順（ｐｒｏｃｅｄｕｒｅ）、プロセッサー、オブジェクト、実行スレッド、プログラム、及び／またはコンピューターになり得るが、これらに限定されるものではない。例えば、コンピューティング装置で実行されるアプリケーションとコンピューティング装置は、両方ともコンポーネントになり得る。１つ以上のコンポーネントは、プロセッサー及び／または実行スレッドの中に常駐することができ、１つのコンポーネントは１つのコンピューターの中でローカル化されることができ、または２つ以上のコンピューターに配分されることもできる。また、このようなコンポーネントは、その内部に保存されている多様なデータ構造を持つ、多様なコンピューター可読媒体から実行することができる。コンポーネントは、例えば１つ以上のデータパケットを持つ信号（例えば、ローカルシステム、分散システムにおいて他のコンポーネントと相互作用する１つのコンポーネントからのデータ及び／または信号を通じて、他のシステムと、インターネットのようなネットワークを介して伝送されるデータ）によってローカル及び／または遠隔処理等を通じて通信することができる。

【0026】

用語「または」は、排他的な「または」ではなく、内包的な「または」を意味する意図で使われる。つまり、特に特定されておらず、文脈上明確ではない場合、「ＸはＡまたはＢを利用する」は、自然な内包的置換のうち１つを意味するものとする。つまり、ＸがＡを利用したり；ＸがＢを利用したり；またはＸがＡ及びＢの両方を利用する場合、「ＸはＡまたはＢを利用する」は、これらのいずれにも当てはまるとすることができる。また、本明細書における「及び／または」という用語は、取り挙げられた関連アイテムのうち、１つ以上のアイテムの可能なすべての組み合わせを指し、含むものと理解されるべきである。

【0027】

また、述語としての「含む（含める）」及び／または修飾語として「含む（含める）」という用語は、当該特徴及び／または構成要素が存在することを意味するものと理解されるべきである。ただし、述語としての「含む（含める）」及び／または修飾語として「含む（含める）」という用語は、１つ以上の他のさらなる特徴、構成要素及び／またはこれらのグループが存在すること、または追加されることを排除しないものと理解されるべきである。また、特に数が特定されていない場合や、単数の形を示すことが文脈上明確でない場合、本明細書と請求範囲において単数は、一般的に「１つまたはそれ以上」を意味するものと解釈されるべきである。

【0028】

そして、「Ａ又はＢのうち少なくとも１つ」という用語については、「Ａだけを含む場合」、「Ｂだけを含む場合」、「ＡとＢの組み合わせの場合」を意味するものと解釈されたい。

【0029】

当業者は、さらに、ここに開示される実施例に係るものとして説明された多様な例示的論理的ブロック、構成、モジュール、回路、手段、ロジック及びアルゴリズム段階が、電子ハードウェア、コンピューターソフトウェア、またはその両方の組み合わせによって実現されることができることを認識すべきである。ハードウェアとソフトウェアとの相互交換性を明確に例示するために、多様な例示的コンポーネント、ブロック、構成、手段、ロジック、モジュール、回路及び段階が、それらの機能性の側面で一般的に上述された。そのような機能性がハードウェアとして実装されるか或いはソフトウェアとして実装されるかは、全般的なシステムに係る特定のアプリケーション（ａｐｐｌｉｃａｔｉｏｎ）及び設計制限によって決まる。熟練した技術者は、個々の特定アプリケーションのために多様な方法で説明された機能性を実現できる。ただし、そのような実現に係る決定が本開示内容の領域を逸脱するものと解釈されてはならない。

【0030】

ここに示す実施例に係る説明は、本開示の技術分野において通常の知識を持つ者が本発明を利用したりまたは実施できるように提供される。このような実施例に対する多様な変形は、本開示の技術分野において通常の知識を持つ者にとっては明確であり、ここに定義された一般的な原理は、本開示の範囲を逸脱することなく他の実施例に適用されることができる。従って、本開示はここに示す実施例によって限定されるものではなく、ここに示す原理及び新規な特徴と一貫する最広義の範囲で解釈されるべきである。

【0031】

本開示において、ネットワーク関数、人工神経回路網及びニューラルネットワーク（ｎｅｕｒａｌｎｅｔｗｏｒｋ）は、相互置換可能に用いることが可能である。

【0032】

図１は、本開示の一実施例における音声認識を行うためのコンピューティング装置のブロック構成図である。

【0033】

図１に示すコンピューティング装置（１００）の構成は、簡略化された例示に過ぎない。本開示の一実施例において、コンピューティング装置（１００）は、コンピューター装置（５００）のコンピューティング環境を実装するための他の構成を含むことが可能であり、開示されている構成のうち一部だけでコンピューティング装置（１００）を構成することも可能である。

【0034】

コンピューティング装置（１００）は、プロセッサー（１１０）、メモリー（１３０）、ネットワーク部（１５０）を含むことができる。プロセッサー（１１０）は、１つ以上のコアで構成されることができ、コンピューティング装置の中央処理装置（ＣＰＵ：ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、汎用グラフィック処理装置（ＧＰＧＰＵ：ｇｅｎｅｒａｌｐｕｒｐｏｓｅｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、テンサー処理装置（ＴＰＵ：ｔｅｎｓｏｒｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）等のデータ分析、ディープラーニングのためのプロセッサーを含むことが可能である。プロセッサー（１１０）は、メモリー（１３０）に保存されたコンピュータープログラムを読み取り、本開示の一実施例における機械学習のためのデータ処理を実行することができる。本開示の一実施例に基づき、プロセッサー（１１０）は、ニューラルネットワークの学習のための演算を行うことができる。プロセッサー（１１０）は、ディープラーニング（ＤＬ：ｄｅｅｐｌｅａｒｎｉｎｇ）における学習のための入力データの処理、入力データからのフィーチャーの抽出、誤差計算、逆伝播（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）を利用したニューラルネットワークの重みの更新等のニューラルネットワークの学習のための計算を実行することができる。プロセッサー（１１０）のＣＰＵ、ＧＰＧＰＵ及びＴＰＵのうち少なくとも１つがネットワーク関数の学習を処理できる。例えば、ＣＰＵとＧＰＧＰＵがともにネットワーク関数の学習やネットワーク関数を利用したデータの分類を行うことができる。なお、本開示の一実施例において、複数のコンピューティング装置のプロセッサーを一緒に使ってネットワーク関数の学習やネットワーク関数を利用したデータ分類を行うことができる。また、本開示の一実施例におけるコンピューティング装置において実行されるコンピュータープログラムは、ＣＰＵ、ＧＰＧＰＵ及びＴＰＵで実行可能なプログラムになり得る。

【0035】

本開示の一実施例において、プロセッサー（１１０）は、音声認識を行うために音声情報を認識し、音声情報に対して、第１言語に基づく第１テキストデータを生成することができ、生成された第１テキストデータから問題テキストを検出する動作を行うことができる。この時、音声情報は、外国語を含む音声ファイル又はオーディオデータに係る情報になり得る。

【0036】

本開示の一実施例によると、プロセッサー（１１０）は、上記検出された問題テキストに対応する第２言語を識別することが可能である。また、上記プロセッサー（１１０）は、上記識別され第２言語に基づき第２テキストデータを生成することができ、上記第２言語は、上記第１言語と異なる言語になり得る。本開示内容において、「第１」、「第２」、「第３」等の用語は、ある構成要素を他の構成要素と区別し、明細書全体を通して一貫性を保つために用いられるものであり、これらの用語により権利範囲が限定されてはならない。

【0037】

本開示の一実施例において、メモリー（１３０）は、プロセッサー（１１０）が生成したり、決定した任意の形態の情報及びネットワーク部（１５０）が受信した任意の形態の情報を保存することができる。

【0038】

本開示の一実施例において、メモリー（１３０）は、フラッシュメモリータイプ（ｆｌａｓｈｍｅｍｏｒｙｔｙｐｅ）、ハードディスクタイプ（ｈａｒｄｄｉｓｋｔｙｐｅ）、マルチメディアカードマイクロタイプ（ｍｕｌｔｉｍｅｄｉａｃａｒｄｍｉｃｒｏｔｙｐｅ）、カードタイプのメモリー（例えばＳＤ又はＸＤメモリー等）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）、ＳＲＡＭ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ＰＲＯＭ（ＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、磁気メモリー、磁気ディスク、光ディスクのうち少なくとも１つのタイプの保存媒体を含むことができる。コンピューティング装置（１００）は、インターネット（ｉｎｔｅｒｎｅｔ）上で上記メモリー（１３０）の保存機能を実行するウェブストレージ（ｗｅｂｓｔｏｒａｇｅ）と連携して動作することも可能である。前述のメモリーに係る記述は、例示に過ぎず、本開示はこれらに限定されない。

【0039】

本開示の一実施例におけるネットワーク部（１５０）は、公衆電話交換網（ＰＳＴＮ：ＰｕｂｌｉｃＳｗｉｔｃｈｅｄＴｅｌｅｐｈｏｎｅＮｅｔｗｏｒｋ）、ｘＤＳＬ（ｘＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）、ＲＡＤＳＬ（ＲａｔｅＡｄａｐｔｉｖｅＤＳＬ）、ＭＤＳＬ（ＭｕｌｔｉＲａｔｅＤＳＬ）、ＶＤＳＬ（ＶｅｒｙＨｉｇｈＳｐｅｅｄＤＳＬ）、ＵＡＤＳＬ（ＵｎｉｖｅｒｓａｌＡｓｙｍｍｅｔｒｉｃＤＳＬ）、ＨＤＳＬ（ＨｉｇｈＢｉｔＲａｔｅＤＳＬ）及び近距離通信網（ＬＡＮ）等のような多様な有線通信システムを使用することができる。

【0040】

例えば、ネットワーク部（１５０）は、音声情報を外部システムから受信することが可能である。この時、データベースから受信される情報は、外国語を含むオーディオの音声認識を行うための学習用データ又は推論用データになり得る。音声情報は、上述の例示の情報を含むことが可能であるが、上述の例示に限らず、通常の技術者が理解できる範囲内において多様な構成が存在し得る。

【0041】

また、ネットワーク部（１５０）は、プロセッサー（１１０）により処理された情報やユーザーインターフェース等を、他の端末との通信を通じて送受信できる。例えば、ネットワーク部（１５０）は、プロセッサー（１１０）により生成されたユーザーインターフェースを、クライアント（例えば、ユーザー端末）に提供できる。また、ネットワーク部（１５０）は、クライアントが受け付けたユーザーの外部入力を受信し、プロセッサー（１１０）に転送できる。この時、プロセッサー（１１０）は、ネットワーク部（１５０）から受け取ったユーザーの外部入力を下に、ユーザーインターフェースを通じて提供される情報の出力、修正、変更、追加等の動作を処理できる。

【0042】

一方、本開示の一実施例において、コンピューティング装置（１００）は、クライアントとの通信を通して情報を送受信するコンピューティングシステムとしてサーバーを含むことが可能である。この時、クライアントは、サーバーにアクセス（ａｃｃｅｓｓ）できる任意の形の端末になり得る。例えば、サーバーであるコンピューティング装置（１００）は、外部データベースから単語グラフを作成して要約文章を抽出するための情報を受信し、会話の要約結果を生成し、会話の要約結果に係るユーザーインターフェースをユーザー端末に提供できる。この時、ユーザー端末は、サーバーであるコンピューティング装置（１００）から受信したユーザーインターフェースを出力し、ユーザーとの相互作用を通じて情報の入力を受けたり、処理することができる。

【0043】

追加の実施例において、コンピューティング装置（１００）は、任意のサーバーにおいて生成されたデータリソースを受け取り、追加の情報処理を行う任意の形の端末を含むことも可能である。

【0044】

図２は、本開示の一実施例におけるネットワーク関数を示す概略図である。

【0045】

本明細書の全体を通して、演算モデル、神経回路網、ネットワーク関数、ニューラルネットワーク（ｎｅｕｒａｌｎｅｔｗｏｒｋ）は、同一の意味で用いることができる。神経回路網は、一般的にノードと呼ばれる相互連結された計算単位の集合で構成されることが多い。このようなノードは、ニューロン（ｎｅｕｒｏｎ）と称することもできる。神経回路網は、少なくとも１つ以上のノードを含めて構成される。神経回路網を構成するノード（またはニューロン）は１つ以上のリンクによって相互連結されることが可能である。

【0046】

神経回路網において、リンクを介して繋がっている１つ以上のノードは、相対的に入力ノード及び出力ノードの関係を形成することができる。入力ノード及び出力ノードの概念は相対的なものであり、あるノードに対して出力ノードとなる任意のノードは、他のノードとの関係においては入力ノードになり得るが、その逆も成立する。前述のように、入力ノードと出力ノードとの関係はリンクを中心にして成立することができる。１つの入力ノードに１つ以上の出力ノードがリンクを介して繋がることができ、その逆も成立する。

【0047】

１つのリンクを介して繋がっている入力ノード及び出力ノードの関係において、出力ノードのデータは入力ノードに入力されたデータに基づきその値が決められることが可能である。ここで入力ノードと出力ノードとを相互連結するノードは重み（ｗｅｉｇｈｔ）を持つことができる。重みは可変的なものになり得るが、神経回路網が所望の機能を行うために、利用者またはアルゴリズムによって変わることが可能である。例えば、１つの出力ノードに１つ以上の入力ノードが各リンクによって相互連結されている場合、出力ノードは上記出力ノードに繋がっている入力ノードに入力された値及び各入力ノードに対応するリンクに設定された重みに基づき出力ノードの値を決定することができる。

【0048】

前述のように、神経回路網は、１つ以上のノードが１つ以上のリンクを介して相互連結され神経回路網の中で入力ノードと出力ノードの関係を形成する。神経回路網において、ノードとリンクの数及びノードとリンクとの間の相関関係、各リンクに付与された重みの値によって、神経回路網の特性が決まることが可能である。例えば、同数のノード及びリンクが存在し、リンクの重みの値がそれぞれ異なる２つの神経回路網が存在する場合、その２つの神経回路網を、相異なるものと認識することができる。

【0049】

神経回路網は、１つ以上のノードの集合で構成することができる。神経回路網を構成するノードの部分集合は、レイヤー（ｌａｙｅｒ）を構成できる。神経回路網を構成する複数のノードのうち一部は、第１入力ノードからの距離に基づき、１つのレイヤー（ｌａｙｅｒ）を構成することができる。例えば、第１入力ノードからの距離がｎであるノードの集合は、ｎレイヤーを構成することができる。第１入力ノードからの距離は、第１入力ノードから当該ノードに到達するために経由しなければならないリンクの最小限の数を基に定義することができる。しかし、このようなレイヤーの定義は、説明のために任意に取り挙げたものであり、神経回路網の中におけるレイヤーの構成は、前述の説明と異なる方法で定義されることができる。例えば、ノードのレイヤーは、最終出力ノードからの距離を基に定義することもできる。

【0050】

第１入力ノードは、神経回路網の中のノードのうち、他のノードとの関係においてリンクを経由せずにデータが直接入力される１つ以上のノードを意味することができる。または、神経回路網のネットワークの中で、リンクを基準にしたノード間の関係において、リンクを介して繋がっている他の入力ノードを持たないノードを意味することができる。これと同様に、最終出力ノードは、神経回路網の中のノードのうち、他のノードとの関係において、出力ノードを持たない１つ以上のノードを意味することができる。また、ヒドンノードは、第１入力ノード及び最終出力ノードではないノードで、神経回路網を構成するノードを意味することができる。

【0051】

本開示の一実施例による神経回路網は、入力レイヤーのノードの数が、出力レイヤーのノードと同数で、入力レイヤーから隠蔽レイヤー（ｈｉｄｄｅｎｌａｙｅｒ）へと進むにつれ、ノードの数が一度減ってから、再び増加する形の神経回路網になり得る。本開示の一実施例による神経回路網は、入力レイヤーのノードの数が、出力レイヤーのノードの数より少なく、入力レイヤーから隠蔽レイヤー（隠れ層）へと進むにつれ、ノードの数が減少していく形の神経回路網になり得る。また、本開示の他の一実施例による神経回路網は、入力レイヤーのノードの数が、出力レイヤーのノードの数より多く、入力レイヤーから隠蔽レイヤーへと進むにつれ、ノードの数が増加していく形の神経回路網になり得る。本開示の他の一実施例における神経回路網は、上述の神経回路網を組み合わせた形の神経回路網になり得る。

【0052】

ディープニューラルネットワーク（ＤＮＮ：ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ、深層神経回路網）は、入力レイヤーと出力レイヤー以外に複数の隠蔽レイヤーを含む神経回路網を意味することができる。ディープニューラルネットワークを利用するとデータの潜在的な構造（ｌａｔｅｎｔｓｔｒｕｃｔｕｒｅｓ）を把握することができる。つまり、写真、文章、ビデオ、音声、音楽の潜在的な構造（例えば、ある物が写真に映っているか、文章の内容と感情はどのようなものなのか、音声の内容と感情はどのようなものなのか等）を把握することができる。ディープニューラルネットワークは、畳み込みニューラルネットワーク（ＣＮＮ：ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）、リカレントニューラルネットワーク（ＲＮＮ；：ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ）、オートエンコーダー（ａｕｔｏｅｎｃｏｄｅｒ）、ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ）、制限ボルツマンマシン（ＲＢＭ：ｒｅｓｔｒｉｃｔｅｄｂｏｌｔｚｍａｎｎｍａｃｈｉｎｅ）、深層信頼ネットワーク（ＤＢＮ：ｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋ）、Ｑネットワーク、Ｕネットワーク、シャムネットワーク、敵対的生成ネットワーク（ＧＡＮ：ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）等を含むことができる。前述のディープニューラルネットワークは、例示に過ぎず本開示はこれらに限定されない。

【0053】

本開示の一実施例において、ネットワーク関数は、オートエンコーダー（ａｕｔｏｅｎｃｏｄｅｒ）を含むこともできる。オートエンコーダーは、入力データに類似した出力データを出力するための人工神経回路網の一種になり得る。オートエンコーダーは、少なくとも１つの隠蔽レイヤーを含むことができ、奇数個の隠蔽レイヤーが入出力レイヤーの間に配置されることができる。各レイヤーのノード数は、入力レイヤーのノード数から、ボトルネックレイヤー（エンコード）という中間レイヤーに向かって減っていき、ボトルネックレイヤーから出力レイヤー（入力レイヤーと対称を成す）に向かって、減少と対照的に、拡張することもできる。オートエンコーダーは、非線形次元減少を行うことができる。入力レイヤー及び出力レイヤーの数は、入力データの前処理後に次元に対応することができる。オートエンコーダー構造において、エンコーダーに含まれた隠蔽レイヤーのノードの数は、入力データから遠くなるほど減っていく構造を持つことができる。ボトルネックレイヤー（エンコーダーとデコーダーの間に位置する、ノードの数が最も少ないレイヤー）のノードの数が少なすぎる場合、十分な量の情報が伝わらない可能性があるため、特定の数以上（例えば、入力レイヤーの半分以上等）に維持されることもあり得る。

【0054】

ニューラルネットワークは、教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）、教師なし学習（ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）、半教師あり学習（ｓｅｍｉｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）、または、強化学習（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）のうち、少なくともいずれか１つの方式で学習されることができる。ニューラルネットワークの学習は、ニューラルネットワークが特定の動作を行うための知識をニューラルネットワークに提供する過程になり得る。

【0055】

ニューラルネットワークは、出力のエラーを最小化する方向で学習されることが可能である。ニューラルネットワークの学習において、繰り返し学習データをニューラルネットワークに入力させ、学習データに関するニューラルネットワークの出力とターゲットのエラーを計算し、エラーを減らすための方向としてニューラルネットワークのエラーをニューラルネットワークの出力レイヤーから入力レイヤーの方向へ逆伝播（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）してニューラルネットワークの各ノードの重みを更新するプロセスが行われる。教師あり学習の場合、個々の学習データに正解がラベリングされている学習データを使い（つまり、ラベリングされた学習データ）、教師なし学習の場合は、個々の学習データに正解がラベリングされていない場合がある。つまり、例えばデータ分類に関する教師あり学習における学習データは、学習データの各々にカテゴリがラベリングされたデータになり得る。ラベリングされた学習データがニューラルネットワークに入力され、ニューラルネットワークの出力（カテゴリ）と学習データのラベルを比較することでエラー（ｅｒｒｏｒ）を計算することが可能である。他の例として、データ分類に関する教師なし学習の場合、入力である学習データをニューラルネットワークの出力と比較することでエラーを計算することが可能である。計算されたエラーは、ニューラルネットワークにおいて逆方向（つまり、出力レイヤーから入力レイヤー方向）へ逆伝播され、逆伝播を通じてニューラルネットワークの各レイヤーの各ノードの連結加重値を更新することが可能である。更新される各ノードの連結加重値は、学習率（ｌｅａｒｉｎｇｒａｔｅ）によって変化量が決まることが可能である。入力データに対するニューラルネットワークの計算とエラーの逆伝播は、学習のサイクル（ｅｐｏｃｈ）を構成することができる。学習率は、ニューラルネットワークの学習のサイクルの反復回数によって適用方式が変わることが可能である。例えば、ニューラルネットワークの学習初期においては、学習率を高くしてニューラルネットワークが早く一定のレベルの性能を確保するようにすることで効率を高め、学習の後半においては学習率を低くして精度を上げることが可能である。

【0056】

ニューラルネットワークの学習において、一般的に学習データは実際のデータ（つまり、学習されたニューラルネットワークを利用して処理しようとするデータ）の部分集合であることが可能であり、そのため学習データに係るエラーは減少するが、実際のデータに係るエラーは増加する学習サイクルが存在し得る。過剰適合（ｏｖｅｒｆｉｔｔｉｎｇ）は、このように学習データについて過度に学習したため、実際のデータにおいてエラーが増加する現象である。例えば、黄色い猫を見て猫を学習したニューラルネットワークが、黄色以外の色の猫を見ると猫であることを認識できない現象が過剰適合の一種になり得る。過剰適合は、マシンラーニングアルゴリズムのエラーを増加させる原因になり得る。このような過剰適合を防ぐために、多様な最適化方法を適用できる。過剰適合を防ぐためには、学習データを増加させる方法、正則化（ｒｅｇｕｌａｉｚａｔｉｏｎ）、学習の過程でネットワークのノードの一部を非活性化するドロップアウト（ｄｒｏｐｏｕｔ）、バッチ正規化レイヤー（ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎｌａｙｅｒ）の活用等の方法を適用できる。

【0057】

図３は、本開示の一実施例における外国語を含むオーディオの音声認識を行うための方法を示すフローチャートである。

【0058】

本開示の一実施例におけるコンピューティング装置（１００）は、「外国語を含むオーディオの音声認識を行うための音声情報」を直接獲得したり、又は、外部システムから受信することが可能である。音声情報は、本開示の実施例において、音声認識を行い、テキストデータを生成する対象となる情報である。外部システムは、音声情報を保存し、管理するサーバーやデータベース等になり得る。コンピューティング装置（１００）は、直接取得したり、外部システムから受信した音声情報を「音声認識を行い、テキストデータを生成するための入力データ」として利用することができる。

【0059】

図３を参照すると、コンピューティング装置（１００）は、受信した音声情報に対して、第１言語に基づく第１テキストデータを生成することが可能である（Ｓ１１０）。例えば、コンピューティング装置（１００）は、音声情報に対して、上記第１言語に基づく音声認識を行うことができ、上記音声認識に基づき、上記第１言語に係るテキストを出力することが可能である。ここで出力されるテキストは、チャンク（ｃｈｕｎｋ）単位のテキスト、サブ－単語（ｓｕｂ－ｗｏｒｄ）単位のテキスト、単語（ｗｏｒｄ）単位のテキスト、句（ｐｈｒａｓｅ）単位のテキスト、節（ｃｌａｕｓｅ）単位のテキスト、文章単位のテキストを含むことができ、これらの類型以外にも、多様な類型のテキストを含むことが可能である。

【0060】

コンピューティング装置（１００）は、Ｓ１１０段階において生成された第１テキストデータから問題テキストを検出できる（Ｓ１２０）。前述のＳ１２０段階は、上記生成された第１テキストデータの信頼度を導出し、上記導出された信頼度に基づき、上記問題テキストを検出する段階をさらに含むことも可能である。つまり、Ｓ１２０段階では、第１テキストデータに係る信頼度情報に基づき、問題テキストを検出することが可能である。前述のような信頼度情報に係る具体的な実施例は、図４及び図５を用いて以下に後述する。一方、Ｓ１２０段階では、第１テキストデータから複数の問題テキストを検出することもできる。例えば、Ｓ１２０段階では、第１問題テキスト、第２問題テキスト等を含む複数の問題テキストを検出することもできる。前述のように複数の問題テキストを検出する具体的な実施例は、図６を参照しながら、以下に後述する。

【0061】

コンピューティング装置（１００）は、Ｓ１２０段階を通じて検出された問題テキストに対応する第２言語を識別することができる（Ｓ１３０）。ここで、第２言語は、上記第１言語と異なる言語になり得る。つまり、第２言語は、上記第１言語との関係において、外国語にあたる場合がある。また、コンピューティング装置は、Ｓ１２０段階において複数の問題テキストが検出された場合、上記第１言語と異なる言語を複数検出する場合もある。例えば、Ｓ１３０段階は、上記第１問題テキストに対応し、上記第１言語とは異なる言語である第２言語を識別する段階、及び前記第２問題テキストに対応し、上記第１言語及び上記第２言語とは異なる言語である第３言語を識別する段階をさらに含むことが可能である。

【0062】

コンピューティング装置（１００）は、Ｓ１３０段階において識別された第２言語に基づき、第２テキストデータを生成できる（Ｓ１４０）。ここで上記第２テキストデータは、上記第１テキストデータから上記問題テキストを除いた残りのテキスト部分、及び上記問題テキストに対応する音声部分に対して上記第２言語に基づき生成した修正テキスト部分を含むことが可能である。また、Ｓ１４０段階は、Ｓ１２０段階で複数の問題テキストが検出され、Ｓ１３０で複数の言語が検出された場合、複数の修正テキストを生成する段階をさらに含むことも可能である。例えば、Ｓ１４０段階は、上記第１問題テキストに対応する音声部分に対して、上記第２言語に基づき、第１修正テキストを生成する段階、及び上記第２問題テキストに対応する音声部分に対して、上記第３言語に基づき、第２修正テキストを生成する段階を含むことが可能である。

【0063】

コンピューティング装置は、Ｓ１４０段階以降に、上記生成された第１テキストデータの上記問題テキストに対応する部分に修正テキストを併記して出力する段階をさらに含むことも可能である。

【0064】

図４は、本開示の一実施例において、上記音声情報に対して、第１テキストデータを生成し、信頼度を導出する動作を説明するための概略図である。

【0065】

図４によると、本開示の一実施例におけるコンピューティング装置（１００）は、外国語の音声（例えば、第２言語）を含むオーディオをテキストに変換するめに外部システムから音声情報（１１）を受信することができる。

【0066】

ここで、音声情報（１１）は、外国語による会話に係る音声情報、複数の外国語を含むインタビューに係る音声情報、ニュース映像に含まれている外国語音声情報等を含むことが可能であり、これらの例以外にも多様な音声が含まれることが可能である。このように、上記音声情報は、１つの特定の言語に限定されず、テキストに変換する必要のある多様な外国語が含まれている音声情報を含むことが可能である。

【0067】

コンピューティング装置（１００）は、外部システムから受信した音声情報を、音声認識を行うための入力データとして使い、第１テキストデータ（１３）を出力することが可能である。例えば、図４の例は、第１ニューラルネットワークモデル（１２）に音声情報を入力し、第１言語に対する音声認識を行い、上記音声認識に基づき、上記第１言語に係るチャンク単位のテキストを出力することが可能である。ここで、チャンクとは、１つの意味を持つ言葉の塊であり、自然語処理（ＮＬＰ）においてテキスト分割に利用されることのできる１つの単位を意味し、チャンクの長さは可変的なものになり得る。また、コンピューティング装置（１００）は、第１ニューラルネットワークモデル（１２）を利用し、ＳＴＴ（Ｓｐｅｅｃｈ－ｔｏ－Ｔｅｘｔ）又は、ＡＳＲ（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）を行うことが可能である。ＳＴＴ又はＡＳＲは、音声信号又はそれを変換したスペクトラム（ｓｐｅｃｔｒｏｇｒａｍ）を入力データとして受け取り、文字列形態のテキストを出力することができる。これを通じて、上記第１言語に対して音声認識を行った結果である、上記第１テキストデータ（１３）を生成できる。

【0068】

コンピューティング装置（１００）は、上記生成された第１テキストデータの信頼度（１４）を導出することが可能である。例えば、音声情報に対して音声認識を行った結果として生成された第１テキストデータの信頼度（１１４）を計算することが可能である。上記信頼度を計算する過程は、正解に係る情報なしにＡＳＲの結果をどれだけ信頼できるかについて予測する過程になり得る。例えば、図４の例において、上記第１言語に係るチャンク単位のテキストの各々について（０．９９）、（０．１）、（０．９４）、（０．０８）の信頼度を導出することが可能である。

【0069】

説明を簡略化するために、第１テキストデータの信頼度（１４）と説明しているが、信頼度（１４）は、第１テキストデータ（１３）が生成された後、第１テキストデータ（１３）に基づいて計算されるものに限られるわけではない。例えば、第１ニューラルネットワークモデル（１２）は、音声情報（１１）に対し第１言語で音声認識を行う際、チャンク別にテキストを予測でき、チャンク別に予測したテキストの精度に対応する信頼度（１４）を導出することが可能である。つまり、第１テキストデータの信頼度（１４）を、第１テキストデータ（１３）の生成過程において導出することもできるが、生成された第１テキストデータ（１３）に基づいて導出することも可能である。

【0070】

また、上記信頼度導出過程においては、チャンク単位のテキストに対して信頼度を計算しているが、チャンク単位のテキストだけでなく、多様な単位のテキストに対して信頼度を計算することが可能である。例えば、サブ－単語（ｓｕｂ－ｗｏｒｄ）単位のテキスト、単語（ｗｏｒｄ）単位のテキスト、句（ｐｈｒａｓｅ）単位のテキスト、節（ｃｌａｕｓｅ）単位のテキストに対しても信頼度を導出することが可能である。一方、前述の過程において上記計算された第１テキストデータの信頼度（１４）は、問題テキストを検出するときベースとして利用することが可能であり、具体的な内容は以下に図５を用いて説明する。

【0071】

図５は、本開示の一実施例において、第１テキストデータの信頼度を導出し、上記導出された信頼度に基づき、問題テキストを検出する動作を示す概略図である。

【0072】

本開示の一実施例によると、コンピューティング装置（１００）は、上記生成された第１テキストデータの信頼度（１４）を導出し、上記導出された信頼度（１４）に基づき、問題テキストを検出することが可能である。また、この場合、複数の問題テキスト（２３）が検出されることが可能である。具体的に、コンピューティング装置（１００）は、設定されているしきい値（２１）未満の信頼度を持つチャンク単位のテキストを検出（２２）することが可能である。例えば、図５の例示によると、しきい値未満の信頼度を持つテキストを検出（２２）する過程において、しきい値（２１）が０．８に設定されている場合があり、設定されたしきい値（２１）である０．８未満の（０．１）と（０．０８）の信頼度を持つチャンク単位のテキストが複数の問題テキスト（２３）として検出されることが可能である。具体的に、第１言語が韓国語の場合、第１テキストデータ（１３）は、韓国語に基づき音声認識を行った結果である場合があり、第１テキストデータの一部分の信頼度がしきい値の０．８未満の値だった場合、当該部分が（韓国語ではなく外国語を含むテキストであると推測される）問題テキストとして検出されることが可能である。さらに、図４を用いて説明しているように、本開示の一実施例によると、上記第１テキストデータ（１３）に対して単語単位で信頼度を導出することが可能であり、設定されたしきい値未満の信頼度を持つ単語単位のテキストを検出することが可能である。また、チャンク単位及びサブ－単語単位以外にも、単語単位、句単位、節単位、文章単位等で信頼度を導出することが可能である。従って、上記問題テキスト（２３）は、チャンク単位のテキストに限られず、多様な単位のテキストを含むことが可能である。上記検出された複数の問題テキスト（２３）に対して言語識別が行われることが可能であり、これについても以下に図６を用いて詳しく説明する。

【0073】

図６は、本開示の一実施例において、複数の問題テキスト（例えば、第１問題テキスト、第２問題テキスト等）が検出され、検出された複数のテキストに対応する複数の言語（例えば、第２言語、第３言語等）を識別する動作を示す概略図である。

【0074】

本開示の一実施例によると、コンピューティング装置（１００）は、上記検出された複数の問題テキスト（２３）に対応する複数の言語を識別することが可能である。具体的に、コンピューティング装置（１００）は、言語識別（３３）を行うことで、第１問題テキスト（３１）に対応し、上記第１言語とは異なる言語である第２言語（３４）を識別することができ、同一の過程を通じて第２問題テキスト（３２）に対応し、上記第１言語及び第２言語とは異なる第３言語（３５）を識別することが可能である。この時、コンピューティング装置（１００）が言語識別（３３）を行うときに利用できるモデルは、ニューラルネットワークモデル、アルゴリズムに基づく言語識別モデル、又は、ＬＩＤ（ＳｐｏｋｅｎＬａｎｇｕａｇｅＩｄｅｎｔｉｆｉｃａｔｉｏｎ）等があり、他にも与えられた音声情報に基づき、その音声において使われている言語を区別する複数の技術を利用できる。例えば、第１言語に対しては、韓国語をベースにして信頼度を計算し、その結果、計算された信頼度が設定されているしきい値（２１）未満の値を持つチャンク単位の問題テキストに対して、第１問題テキスト（３１）に対応する第２言語（３４）は英語と識別し、第２問題テキスト（３２）に対応する第３言語（３５）は中国語と識別することが可能である。この時、第１言語の韓国語とは異なる言語の英語が第２言語（３４）として識別され、韓国語及び英語とは異なる言語の中国語が第３言語（３５）として識別されることが可能である。本開示において、「第１」、「第２」、「第３」等の用語は、ある構成要素を他の構成要素と区別し、明細書を通して一貫性を保つために用いられるものであり、これらの用語により権利範囲が限定されはならない。また、本開示における複数の実施例において、２つ以上の言語を区別する必要がなく、指示対象が１つの言語であることが明確な場合、第３言語（３５）は識別されない場合もある。例えば、第１問題テキスト（３１）と第２問題テキスト（３２）に対して言語識別（３３）を行った結果、上記２つの問題テキストに対応する言語が両方とも英語と識別される場合がある。このような場合に、上記２つの問題テキストに対応する英語は、第２言語（３４）として識別され、上記第２言語と異なる言語ではない第３言語（３５）は識別されない場合がある。また、コンピューティング装置（１００）は、識別された（上記第１言語とは異なる言語である）少なくとも１つの言語に基づき、第２テキストデータを生成することが可能であるが、以下に図７を用いて詳しく説明する。

【0075】

図７は、本開示の一実施例において識別された（上記第１言語とは異なる言語である）少なくとも１つの言語に基づき、第２テキストデータを生成する過程を示す概略図である。

【0076】

先ず、図６の実施例において、第１問題テキスト（３１）と第２問題テキスト（３２）に対応する第２言語（３４）及び第３言語（３５）を識別することが可能である。これに基づき、図７を参照すると、音声情報において、第１問題テキスト（３１）及び第２問題テキスト（３２）に対応する部分に対し、それぞれ第２言語（３４）、第３言語（３５）に基づく音声認識を行うことが可能である（４１）。例えば、第１問題テキスト（３１）に対応する言語は英語と識別され、第２問題テキスト（３２）に対応する言語は中国語と識別された場合、音声情報（１１）において第１及び第２問題テキストに対応する部分に対してそれぞれ英語及び中国語に基づく音声認識を行うことが可能である。また、本開示における他の実施例において、第１問題テキスト（３１）及び第２問題テキスト（３２）に対応する言語が１つの言語であることが明確な場合、第３言語（３５）は識別されない場合がある。例えば、第１問題テキスト（３１）と第２問題テキスト（３２）に対して言語識別（３３）を行った結果、上記２つの問題テキストに対応する言語が両方とも英語と識別される場合がある。このような場合、上記２つの問題テキストに対応する英語は、第２言語（３４）と識別され、上記第２言語と異なる言語ではない第３言語（３５）は識別されない場合があり、第１問題テキスト及び第２問題テキストに対応する部分の両方に対して英語に基づく音声認識が行われることが可能である。

【0077】

本開示の一実施例によると、コンピューティング装置（１００）は、第１問題テキスト（３１）に対応する音声部分に対し、上記第２言語（３４）に基づき、第１修正テキスト（４３）を生成し、上記第２問題テキスト（３２）に対応する音声部分に対し、上記第３言語（３５）に基づき、第２修正テキスト（４４）を生成することができ、これらの動作に基づき、第２テキストデータを生成することが可能である。例えば、上記音声情報のうち、第１及び第２問題テキストに対応する部分に対して、それぞれ英語及び中国語に基づく音声認識を行い、「英語に基づく音声認識の結果である第１修正テキスト」及び「中国語に基づく音声認識の結果である第２修正テキスト」を生成することが可能である。また、他の実施例において、第１問題テキスト（３１）及び第２問題テキスト（３２）に対応する言語が両方とも英語であった場合、上記音声情報において第１及び第２問題テキストに対応する部分の両方に対して英語に基づく音声認識を行い、「英語に基づく音声認識の結果である第１修正テキスト及び第２修正テキスト」を生成することが可能である。

【0078】

本開示を実行することで、外国語を含む音声情報のすべての部分に対し言語識別を行うのではなく、一部の信頼度の低い部分に対してのみ言語識別を行った上で、当該言語に基づいて音声認識を行った結果を出力することで、音声の内容により適合したテキストが結果として出力されるようになる。

【0079】

また、本開示の一実施例において、コンピューティング装置（１００）は、上記生成された第１テキストデータ（１３）の上記問題テキスト（２３）に対応する部分に、修正テキスト（４３，４４）を併記して出力することができる。例えば、第１言語が韓国語であり、第２言語（３４）が英語、第３言語（３５）が中国語の場合、第１テキストデータ（１３）の問題テキスト（２３）のうち、第１問題テキスト（３１）部分には、英語に基づく音声認識が行われた結果となるテキストである、第１修正テキスト（４３）を併記し、第２問題テキスト（３２）部分には、中国語に基づく音声認識が行われた結果となるテキストである、第２修正テキスト（４４）を併記して出力することが可能である。他の一実施例によると、修正テキストを併記して出力する場合、「外国語である可能性のある部分に外国語テキストを併記した」という案内（ｎｏｔｉｆｉｃａｔｉｏｎ）とともに出力することができる。

【0080】

さらに、本開示の他の実施例によると、コンピューティング装置（１００）は、音声情報（１１）とともに、ニュース映像等の映像が入力されて音声認識を行う際、検出された問題テキスト（２３）に対応する映像部分における字幕の有無を判断することができる。この時、コンピューティング装置（１００）は、問題テキスト（２３）に対応する映像部分に字幕が付いている場合、映像において字幕が出る部分を識別（ｄｅｔｅｃｔ）し、当該字幕部分をＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）を通じて取得できる。また、ＯＣＲを通じて取得した字幕情報は、「音声認識によって生成された第１テキストデータ（１３）の問題テキスト（２３）に対応する部分」に修正テキスト（４３、４４）とともに併記された状態で出力されることが可能である。例えば、ニュース映像に海外で発生した事件についての報道が含まれている場合、外国人に対するインタビューが含まれていることがあるが、この場合、外国人に対するインタビューの部分に字幕の情報が含まれている可能性がある。このような場合、ニュース映像において、外国人に対するインタビューにおける発話部分に対応するテキストを問題テキスト（２３）として検出することが可能であり、「当該ニュース映像のうち、外国人に対するインタビューにおける発話部分に対応する部分」に字幕が付いていた場合、当該字幕の部分を、ＯＣＲを通じて取得することが可能である。また、ＯＣＲを通じて取得した字幕情報は、「音声認識によって生成された第１テキストデータ（１３）の問題テキスト（２３）に対応する部分」に修正テキスト（４３、４４）とともに併記された状態で出力されることが可能である。

【0081】

図８は、本開示の実施例が具現化されることのできる例示的なコンピューティング環境に係る簡略で一般的な概略図である。

【0082】

本開示が一般的にコンピューティング装置により具現化されることができると前述されているが、当業者であれば本開示が一つ以上のコンピューター上で実行されることのできるコンピューター実行可能命令及び／またはその他のプログラムモジュールと結合して及び／またはハードウェアとソフトウェアの組み合わせとして具現化されることができるということをよく理解できるだろう。

【0083】

一般的に、本明細書におけるモジュールは、特定のタスクを実行したり、特定の抽象的なデータ類型を実装するルーティン、プログラム、コンポーネント、データ構造、その他等々を含む。また、当業者なら本開示の方法がシングルプロセッサーまたはマルチプロセッサーコンピューターシステム、ミニコンピューター、メインフレームコンピューターはもちろん、パーソナルコンピューター、ハンドヘルド（ｈａｎｄｈｅｌｄ）コンピューティング装置、マイクロプロセッサー基盤、またはプログラム可能な家電製品、その他等々（これらは、それぞれ１つ以上の関連する装置と繋がって動作することができる）をはじめとする、他のコンピューターシステムの構成によって実施されることができることをよく理解できるだろう。

【0084】

本開示において説明された実施例は、さらに、あるタスクが通信ネットワークを通じて繋がっている遠隔処理装置によって実行される分散コンピューティング環境で実施されることができる。分散コンピューティング環境において、プログラムモジュールは、ローカルや遠隔メモリー保存装置の両方に位置することができる。

【0085】

コンピューターは、多様なコンピューター可読媒体を含む。コンピューターによってアクセス可能な媒体はいずれもコンピューター可読媒体になり得るが、このようなコンピューター可読媒体は揮発性及び非揮発性媒体、一時的（ｔｒａｎｓｉｔｏｒｙ）及び非一時的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）媒体、移動式及び非－移動式媒体を含む。制限ではなく例として、コンピューター可読媒体は、コンピューター可読保存媒体及びコンピューター可読伝送媒体を含むことができる。コンピューター可読保存媒体は、コンピューター可読命令、データ構造、プログラムモジュール又はその他のデータのような情報を保存する任意の方法又は技術により実装される揮発性及び非揮発性媒体、一時的及び非一時的媒体、移動式及び非移動式媒体を含む。コンピューター可読保存媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリーまたはその他のメモリー技術、ＣＤ－ＲＯＭ、ＤＶＤ（ｄｉｇｉｔａｌｖｉｄｅｏｄｉｓｋ）またはその他の光ディスク保存装置、磁気カセット、磁気テープ、磁気ディスク保存装置またはその他の磁気保存装置、またはコンピューターによってアクセスされることができ、情報を保存するのに使われることのできる任意のその他の媒体を含むが、これに限定されない。

【0086】

コンピューター可読伝送媒体は、通常、搬送波（ｃａｒｒｉｅｒｗａｖｅ）またはその他の伝送メカニズム（ｔｒａｎｓｐｏｒｔｍｅｃｈａｎｉｓｍ）のような被変調データ信号（ｍｏｄｕｌａｔｅｄｄａｔａｓｉｇｎａｌ）にコンピューター可読命令、データ構造、プログラムモジュールまたはその他のデータ等を実装し、すべての情報伝達媒体を含む。被変調データ信号という用語は、信号の中で情報をエンコードするように、その信号の特性のうち１つ以上を設定または変更した信号を意味する。制限ではなく例として、コンピューター可読伝送媒体は、有線ネットワークまたは直接配線接続（ｄｉｒｅｃｔ－ｗｉｒｅｄｃｏｎｎｅｃｔｉｏｎ）のような有線媒体、そして音響、ＲＦ、赤外線、その他の無線媒体のような無線媒体を含む。前述の媒体のいずれかによる任意の組み合わせもまたコンピューター可読伝送媒体の範囲に含まれるものとする。

【0087】

コンピューター（１１０２）を含む本開示の多様な側面を実現する例示的な環境（１１００）が示されており、コンピューター（１１０２）は、処理装置（１１０４）、システムメモリー（１１０６）、システムバス（１１０８）を含む。システムバス（１１０８）は、システムメモリー（１１０６）（これに限定されない）をはじめとするシステムコンポーネントを処理装置（１１０４）につなげる。処理装置（１１０４）は、多様な商用プロセッサーのうち任意のプロセッサーになり得る。デュエルプロセッサーとその他のマルチプロセッサーアーキテクチャもまた処理装置（１１０４）として利用されることができる。

【0088】

システムバス（１１０８）は、メモリーバス、周辺装置バス、そして多様な商用バスアーキテクチャの中から、任意のものを使用するローカルバスにさらに相互連結されることのできる複数の類型のバス構造のうちいずれかになり得る。システムメモリー（１１０６）は、読み取り専用メモリー（ＲＯＭ）（１１１０）やランダムアクセスメモリー（ＲＡＭ）（１１１２）を含む。基本的な入出力システム（ＢＩＯＳ）は、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ等の非揮発性メモリー（１１１０）に保存され、このＢＩＯＳは、起動中の時等にコンピューター（１１０２）の中の複数の構成要素間の情報のやりとりをサポートする基本的なルーティンを含む。ＲＡＭ（１１１２）は、またデータをキャッシュするための静的ＲＡＭ等の高速ＲＡＭを含むことができる。

【0089】

コンピューター（１１０２）においては、また、内蔵型ハードディスクドライブ（ＨＤＤ）（１１１４）（例えば、ＥＩＤＥ、ＳＡＴＡ）―この内蔵型ハードディスクドライブ（１１１４）はまた適切なシャシー（図示は省略）の中で外付け型の用途で構成されることができる―、磁気フロッピーディスクドライブ（ＦＤＤ）（１１１６）（例えば、移動式ディスケット（１１１８）から読み取ったりそれに書き込むためのものである）及び光ディスクドライブ（１１２０）（例えば、ＣＤ－ＲＯＭディスク（１１２２）を読み取ったり、ＤＶＤ等のその他の高容量光媒体から読み取ったり、それに書き込むためのものである）を含む。ハードディスクドライブ（１１１４）、磁気フロッピーディスクドライブ（１１１６）及び光ディスクドライブ（１１２０）は、それぞれハードディスクドライブインターフェース（１１２４）、磁気ディスクドライブインターフェース（１１２６）及び光ドライブインターフェース（１１２８）によってシステムバス（１１０８）に繋がることができる。外付け型ドライブの実装のためのインターフェース（１１２４）は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）やＩＥＥＥ１３９４インターフェース技術のうち、少なくとも１つまたはその両方を含む。

【0090】

これらのドライブ及びこれらに係るコンピューター可読媒体は、データ、データ構造、コンピューターで実行可能な命令、その他等々の非揮発性保存を提供する。コンピューター（１１０２）の場合、ドライブ及び媒体は、任意のデータを適切なデジタル形式に保存することに対応する。前述におけるコンピューター可読保存媒体に係る説明が、ＨＤＤ、移動式磁気ディスク及びＣＤまたはＤＶＤ等の移動式光媒体について触れているが、当業者ならジップドライブ（ｚｉｐｄｒｉｖｅ）、磁気カセット、フラッシュメモリーカード、カートリッジ、その他等々のコンピューターにより読み取り可能な他の類型の保存媒体もまた例示的な運営環境で使われることができ、さらに、このような媒体のうち任意のある媒体が、本開示の方法を実行するためのコンピューターで実行可能な命令を含むことができることをよく理解できるだろう。

【0091】

運営システム（１１３０）、１つ以上のアプリケーションプログラム（１１３２）、その他のプログラムモジュール（１１３４）及びプログラムデータ（１１３６）をはじめとする多数のプログラムモジュールが、ドライブ及びＲＡＭ（１１１２）に保存されることができる。運営システム、アプリケーション、モジュール及び／またはデータの全部またはその一部分がまたＲＡＭ（１１１２）にキャッシュされることができる。本開示が商業的に利用可能な様々な運営システムまたは複数の運営システムの組み合わせにより実装されることができることをよく理解できるだろう。

【0092】

ユーザーは、１つ以上の有線・無線の入力装置、例えば、キーボード（１１３８）及びマウス（１１４０）等のポインティング装置を通じてコンピューター（１１０２）に命令及び情報を入力することができる。その他の入力装置（図示は省略）としてはマイク、ＩＲリモコン、ジョイスティック、ゲームパッド、スタイラスペン、タッチスクリーン、その他等々があり得る。これら及びその他の入力装置が、よくシステムバス（１１０８）に繋がっている入力装置インターフェース（１１４２）を通じて処理装置（１１０４）に繋がることがあるが、並列ポート、ＩＥＥＥ１３９４直列ポート、ゲームポート、ＵＳＢポート、ＩＲインターフェース、その他等々のその他のインターフェースによって繋がることができる。

【0093】

モニター（１１４４）または他の類型のディスプレイ装置も、ビデオアダプター（１１４６）等のインターフェースを通じてシステムバス（１１０８）に繋がる。モニター（１１４４）に加えて、コンピューターは一般的にスピーカー、プリンター、その他等々のその他の周辺出力装置（図示は省略）を含む。

【0094】

コンピューター（１１０２）は、有線及び／または無線通信による（複数の）遠隔コンピューター（１１４８）等の１つ以上の遠隔コンピューターへの論理的接続を利用し、ネットワーク化された環境で動作することができる。（複数の）遠隔コンピューター（１１４８）は、ワークステーション、サーバーコンピューター、ルーター、パーソナルコンピューター、携帯用コンピューター、マイクロプロセッサー基盤の娯楽機器、ピア装置またはその他の通常のネットワークノードになることができ、一般的にコンピューター（１１０２）について述べられた構成要素のうち、多数またはその全部を含むが、簡略化するために、メモリー保存装置（１１５０）のみ図示されている。図示されている論理的接続は、近距離通信網（ＬＡＮ）（１１５２）及び／または、より大きいネットワーク、例えば、遠距離通信網（ＷＡＮ）（１１５４）における有線・無線の接続を含む。このようなＬＡＮ及びＷＡＮのネットワーキング環境は、オフィスや会社では一般的なもので、イントラネット等の全社的コンピューターネットワーク（ｅｎｔｅｒｐｒｉｓｅ－ｗｉｄｅｃｏｍｐｕｔｅｒｎｅｔｗｏｒｋ）を容易にし、これらはすべて全世界のコンピューターネットワーク、例えば、インターネットに繋がることができる。

【0095】

ＬＡＮネットワーキング環境で使われるとき、コンピューター（１１０２）は、有線及び／または無線通信ネットワークインターフェース、または、アダプター（１１５６）を通じてローカルネットワーク（１１５２）に繋がる。アダプター（１１５６）は、ＬＡＮ（１１５２）への有線または無線通信を容易にすることができ、このＬＡＮ（１１５２）は、また無線アダプター（１１５６）と通信するためにそれに設置されている無線アクセスポイントを含む。ＷＡＮネットワーキング環境で使われるとき、コンピューター（１１０２）は、モデム（１１５８）を含むことができたり、ＷＡＮ（１１５４）上の通信サーバーに繋がったり、またはインターネットを通じる等、ＷＡＮ（１１５４）を通じて通信を設定するその他の手段を持つ。内蔵型又は外付け型、そして、有線または無線装置になり得るモデム（１１５８）は、直列ポートインターフェース（１１４２）を通じてシステムバス（１１０８）に繋がる。ネットワーク化された環境において、コンピューター（１１０２）について説明されたプログラムモジュールまたはその一部分が、遠隔メモリー／保存装置（１１５０）に保存されることができる。図示されたネットワーク接続が例示的なものであり、複数のコンピューター間で通信リンクを設定する他の手段が使われることができるということは容易に理解できることである。

【0096】

コンピューター（１１０２）は、無線通信で配置されて動作する任意の無線装置またはユニット、例えば、プリンター、スキャナー、デスクトップ及び／または携帯用コンピューター、ＰＤＡ（ｐｏｒｔａｂｌｅｄａｔａａｓｓｉｓｔａｎｔ）、通信衛星、無線で検出可能なタグに係る任意の装備または場所及、及び電話と通信する動作をする。これは、少なくともＷｉ－Ｆｉ（登録商標）及びブルートゥース（登録商標）無線技術を含む。従って、通信は、従来のネットワークのように予め定義された構造であったり、単純に少なくとも２つの装置の間でのアドホック通信（ａｄｈｏｃｃｏｍｍｕｎｉｃａｔｉｏｎ）になり得る。

【0097】

Ｗｉ－Ｆｉ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ）は、有線で繋がっていなくても、インターネット等への接続を可能にする。Ｗｉ－Ｆｉは、このような装置、例えば、コンピューターが室内及び室外で、つまり基地局の通話圏内のどこからでもデータを送受信できるようにするセル電話のような無線技術である。Ｗｉ－Ｆｉネットワークは、安全で信頼性があり、高速である無線接続を提供するためにＩＥＥＥ８０２．１１（ａ、ｂ、ｇ、その他）という無線技術を使う。コンピューターを互いに、インターネット及び有線ネットワーク（ＩＥＥＥ８０２．３またはイーサネットを使う）に接続するためにＷｉ－Ｆｉが使われることができる。Ｗｉ－Ｆｉネットワークは、非認可２．４や５ＧＨｚの無線帯域において、例えば、１１Ｍｂｐｓ（８０２．１１ａ）または５４Ｍｂｐｓ（８０２．１１ｂ）のデータレートで動作したり、両帯域（デュエル帯域）を含む製品において動作することができる。

【0098】

本開示の技術分野における通常の知識を持つ者は情報及び信号が任意の多様な異なる技術及び手法を利用して示されることができることを理解できる。例えば、上記の説明において参照できるデータ、指示、命令、情報、信号、ビット、シンボル及びチップは、電圧、電流、電磁気派、磁場等または粒子、光学場等または粒子、またはこれらの任意の組み合わせによって示されることができる。

【0099】

本開示の技術分野において通常の知識を持つ者は、ここに開示された実施例に係る説明で取り挙げられた多様な例示的な論理ブロック、モジュール、プロセッサー、手段、回路、アルゴリズム段階が電子ハードウェア、（利便性のために、ここでは「ソフトウェア」と称される）多様な形のプログラムまたは設計コード、またはこれらすべての結合により実装されることができることを理解できるだろう。ハードウェア及びソフトウェアのこのような相互互換性を明確に説明するために、多様な例示的なコンポーネント、ブロック、モジュール、回路、及び段階がこれらの機能に着目して上記で一般的に説明された。このような機能がハードウェアやソフトウェアで実装されるかどうかは、特定のアプリケーションおよび全体システムに対して付与される設計上の制限によって決まる。本開示の技術分野において通常の知識を持つ者は、個々の特定のアプリケーションについて多様な手法で説明された機能を実現することができるが、このような実現の決定は、本開示の範囲を逸脱するものと解釈されてはならない。

【0100】

ここに示された多様な実施例は、方法、装置、または標準プログラミング及び／またはエンジニアリング技術を使った製造物品（ａｒｔｉｃｌｅ）によって実現できる。用語「製造物品」は、任意のコンピューターで可読な装置からアクセス可能なコンピュータープログラム、キャリアー、または媒体（ｍｅｄｉａ）を含む。例えば、コンピューターで可読保存媒体は、磁気保存装置（例えば、ハードディスク、フロッピーディスク、磁気ストリップ等）、光学ディスク（例えば、ＣＤ、ＤＶＤ等）、スマートカード及びフラッシュメモリー装置（例えば、ＥＥＰＲＯＭ、カード、スティック、キードライブ等）を含むが、これらに限定されるものではない。また、ここに示されている多様な保存媒体は、情報を保存するための１つ以上の装置及び／または他の機械可読媒体を含む。

【0101】

示されたプロセスにおける複数の段階の特定の順番または階層構造は、例示的なアプローチの一例であることを理解すべきである。設計上の優先順位に基づき、本開示の範囲内で、プロセスにおける段階の特定の順番または階層構造が再配列されることができることを理解すべきである。添付の方法請求項は、サンプルとしての順番で、多様な段階のエレメントを提供するが、示された特定の順番または階層構造に限定されることを意味するわけではない。

【0102】

示された実施例に関する説明は、任意の本開示の技術分野において通常の知識を持つ者が、本開示を利用したりまたは実施できるように提供される。このような実施例に対する多様な変形は、本開示の技術分野において通常の知識を持つ者には明確に理解できるものであり、ここに定義された一般的な原理は、本開示の範囲を逸脱することなく他の実施例に適用されることができる。従って、本開示はここに示す実施例によって限定されるものではなく、ここに示す原理及び新規な特徴と一貫する最広義の範囲で解釈されるべきである。

【図1】