(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-09
(54)【発明の名称】強化されたコンテキスト・スイッチングのための照応解決
(51)【国際特許分類】
G06F 40/211 20200101AFI20231226BHJP
G06F 40/216 20200101ALI20231226BHJP
G10L 25/54 20130101ALN20231226BHJP
【FI】
G06F40/211
G06F40/216
G10L25/54
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023534158
(86)(22)【出願日】2021-12-02
(85)【翻訳文提出日】2023-06-05
(86)【国際出願番号】 IB2021061214
(87)【国際公開番号】W WO2022123400
(87)【国際公開日】2022-06-16
(32)【優先日】2020-12-10
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【氏名又は名称】片岡 忠彦
(72)【発明者】
【氏名】ボウマン、アーロン ケー
(72)【発明者】
【氏名】マーゾラティ、マウロ
(72)【発明者】
【氏名】ディアマンティ、ゲイリー フランシス
(72)【発明者】
【氏名】ウィルキン、ニコラス マイケル
(57)【要約】
コンピュータがマルチメディア・データを受信し、マルチメディア・データは複数のフレームを含む。コンピュータは、マルチメディア・データを、複数の周波数と複数の振幅とを有する信号波に変換する。コンピュータは、代名詞を有する複数のフレームから、フレームを決定する。コンピュータはそのフレームのトピックを識別する。コンピュータは、フレームのトピックと最高の相関係数を有するメディア・レポジトリ内のフレームを検索し、メディア・レポジトリからのフレームは、bag of objectsを含み、bag of objectsからのオブジェクトで代名詞を置換することによって照応曖昧性解消を解決する。
【特許請求の範囲】
【請求項1】
照応曖昧性解消のためのプロセッサ実施方法であって、
マルチメディア・データを受信することであって、前記マルチメディア・データは複数のフレームを含む、前記受信することと、
前記マルチメディア・データを信号波に変換することであって、前記信号波は、直接フーリエ変換を使用して、複数の周波数と複数の振幅を有する複数の正弦波に変換される、前記変換することと
代名詞を有する前記複数のフレームからフレームを識別することと、
ディープ・ニューラル・ネットワークを使用して前記フレームのトピックを識別することと、
前記フレームと最高の相関係数を有するメディア・レポジトリ内のフレームを検索することであって、前記メディア・レポジトリからの前記フレームはbag of objectsを含む、前記検索することと、
前記bag of objectsからのオブジェクトで前記代名詞を置換することによって前記照応曖昧性解消を解決することと
を含む、プロセッサ実施方法。
【請求項2】
前記マルチメディア・データを前記信号波に変換することが、
オート・デコーダ・ニューラル・ネットワークを使用して、前記マルチメディア・データを前記複数の振幅に変換することと、
前記複数の振幅の各々のタイム・フレームに基づいて、前記複数の振幅から前記信号波を生成することと
を含む、請求項1に記載の方法。
【請求項3】
前記複数のフレームの各々が持続時間を有し、前記持続時間は前記信号波の短時間フーリエ変換に基づいて決定される、請求項1に記載の方法。
【請求項4】
スペクトログラム・アプローチを使用して前記信号波をフレームに分離すること
をさらに含む、請求項1に記載の方法。
【請求項5】
前記最高の相関係数は、前記スペクトログラム・アプローチに基づいている、請求項4に記載の方法。
【請求項6】
ディープ・ニューラル・ネットワークを使用して、前記フレームのラベルを識別すること
をさらに含む、請求項1に記載の方法。
【請求項7】
前記オブジェクトを記述するベクトルを生成することであって、前記ベクトルは速度、加速度、および前記ラベルを含む、前記生成すること
をさらに含む、請求項6に記載の方法。
【請求項8】
照応曖昧性解消のためのコンピュータ・システムであって、
1つまたは複数のプロセッサ、1つまたは複数のコンピュータ可読メモリ、1つまたは複数のコンピュータ可読有形記憶媒体、および前記1つまたは複数のメモリの少なくとも1つを介して、前記1つまたは複数のプロセッサの少なくとも1つによって実行するために、前記1つまたは複数の有形記憶媒体の少なくとも1つに記憶されたプログラム命令を含み、前記コンピュータ・システムは、
マルチメディア・データを受信することであって、前記マルチメディア・データは複数のフレームを含む、前記受信することと、
前記マルチメディア・データを信号波に変換することであって、前記信号波は、直接フーリエ変換を使用して、複数の周波数と複数の振幅を有する複数の正弦波に変換される、前記変換することと
代名詞を有する前記複数のフレームからフレームを識別することと、
ディープ・ニューラル・ネットワークを使用して前記フレームのトピックを識別することと、
前記フレームと最高の相関係数を有するメディア・レポジトリ内のフレームを検索することであって、前記メディア・レポジトリからの前記フレームはbag of objectsを含む、前記検索することと、
前記bag of objectsからのオブジェクトで前記代名詞を置換することによって前記照応曖昧性解消を解決することと
を含む方法を実行することのできる、コンピュータ・システム。
【請求項9】
前記マルチメディア・データを前記信号波に変換することが、
オート・デコーダ・ニューラル・ネットワークを使用して、前記マルチメディア・データを前記複数の振幅に変換することと、
前記複数の振幅の各々のタイム・フレームに基づいて、前記複数の振幅から前記信号波を生成することと
を含む、請求項8に記載のコンピュータ・システム。
【請求項10】
前記複数のフレームの各々が持続時間を有し、前記持続時間は前記信号波の短時間フーリエ変換に基づいて決定される、請求項8に記載のコンピュータ・システム。
【請求項11】
スペクトログラム・アプローチを使用して前記信号波をフレームに分離すること
をさらに含む、請求項8に記載のコンピュータ・システム。
【請求項12】
前記最高の相関係数は、前記スペクトログラム・アプローチに基づいている、請求項11に記載のコンピュータ・システム。
【請求項13】
ディープ・ニューラル・ネットワークを使用して、前記フレームのラベルを識別すること
をさらに含む、請求項8に記載のコンピュータ・システム。
【請求項14】
前記オブジェクトを記述するベクトルを生成することであって、前記ベクトルは速度、加速度、および前記ラベルを含む、前記生成すること
をさらに含む、請求項13に記載のコンピュータ・システム。
【請求項15】
照応曖昧性解消のためのコンピュータ・プログラム製品であって、
1つまたは複数のコンピュータ可読有形記憶媒体と、前記1つまたは複数の有形記憶媒体の少なくとも1つに記憶されたプログラム命令とを含み、前記プログラム命令はプロセッサによって実行可能であり、前記プログラム命令は、
マルチメディア・データを受信するプログラム命令であって、前記マルチメディア・データは複数のフレームを含む、前記プログラム命令と、
前記マルチメディア・データを信号波に変換するプログラム命令であって、前記信号波は、直接フーリエ変換を使用して、複数の周波数と複数の振幅を有する複数の正弦波に変換される、前記プログラム命令と、
代名詞を有する前記複数のフレームからフレームを識別するプログラム命令と、
ディープ・ニューラル・ネットワークを使用して前記フレームのトピックを識別するプログラム命令と、
前記フレームと最高の相関係数を有するメディア・レポジトリ内のフレームを検索するプログラム命令であって、前記メディア・レポジトリからの前記フレームはbag of objectsを含む、前記プログラム命令と、
前記bag of objectsからのオブジェクトで前記代名詞を置換することによって前記照応曖昧性解消を解決するプログラム命令と
を含む、コンピュータ・プログラム製品。
【請求項16】
前記マルチメディア・データを前記信号波に変換するプログラム命令が、
オート・デコーダ・ニューラル・ネットワークを使用して、前記マルチメディア・データを前記複数の振幅に変換するプログラム命令と、
前記複数の振幅の各々のタイム・フレームに基づいて、前記複数の振幅から前記信号波を生成するプログラム命令と
を含む、請求項15に記載のコンピュータ・プログラム製品。
【請求項17】
前記複数のフレームの各々が持続時間を有し、前記持続時間は前記信号波の短時間フーリエ変換に基づいて決定される、請求項15に記載のコンピュータ・プログラム製品。
【請求項18】
スペクトログラム・アプローチを使用して前記信号波をフレームに分離するプログラム命令をさらに含む、請求項15に記載のコンピュータ・プログラム製品。
【請求項19】
前記最高の相関係数は、前記スペクトログラム・アプローチに基づいている、請求項18に記載のコンピュータ・プログラム製品。
【請求項20】
ディープ・ニューラル・ネットワークを使用して、前記フレームのラベルを識別するプログラム命令をさらに含む、請求項15に記載のコンピュータ・プログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般的には、コンピューティングの分野に関し、より詳細には、自然言語処理に関する。
【背景技術】
【0002】
自然言語処理(NLP)は、コンピュータ・サイエンス、人工知能、および大規模な自然言語コーパスを組み込んだマルチメディア・ファイルを処理するためのプログラミング・コンピュータなど、コンピュータと人間の自然言語との相互作用に関連する計算言語学の分野である。通常、NLPの人工知能コンポーネントには、自然言語を認識または処理するようにトレーニングされた1つまたは複数のニューラル・ネットワークが組み込まれている。
【0003】
ニューラル・ネットワークは、ニューラル・ユニットのコレクションに基づくコンピュータ・サイエンスの計算モデルである。各ニューラル・ユニットは、ニューラル・ネットワークを作成するために他のニューラル・ユニットと接続可能な人工ニューロンである。次いで、ニューラル・ネットワークは、テキスト埋め込み、または単語埋め込みのNLPなどの、従来のコンピュータ・プログラムが失敗する問題に対する解決策を見つけるようにトレーニングすることができる。
【発明の概要】
【0004】
一実施形態によれば、照応曖昧性解消(anaphora disambiguation)のための方法、コンピュータ・システム、およびコンピュータ・プログラム製品が提供される。本発明は、マルチメディア・データを受信するコンピュータを含んでもよく、マルチメディア・データは、複数のフレームを含む。コンピュータは、マルチメディア・データを、複数の周波数および複数の振幅を有する信号波に変換する。コンピュータは、代名詞を有する複数のフレームからフレームを決定する。コンピュータは、フレームのトピックを識別する。コンピュータは、フレームのトピックと最高の相関係数を有するメディア・レポジトリ内のフレームを検索し、メディア・レポジトリからのフレームはbag of objectsを含み、コンピュータは、bag of objectsからのオブジェクトで代名詞を置換することによって、照応曖昧性解消を解決する。
【0005】
本発明のこれらの、およびその他の目的、特徴および利点は、添付の図面と関連して読まれるべきである、本発明の以下の例示的な実施形態の詳細な説明から明らかになるであろう。図面の様々な特徴は、図示は、詳細な説明と併せて、当業者が本発明を理解するのを容易にする明瞭さのためであるので、一定に拡大縮小されたものではない。図面は以下を含む:
【図面の簡単な説明】
【0006】
【
図1】少なくとも1つの実施形態による、例示的なネットワーク化されたコンピュータ環境を示す図である。
【
図2】少なくとも1つの実施形態による、照応曖昧性解消プロセスを示す動作フローチャートである。
【
図3】少なくとも1つの実施形態による、
図1に描かれたコンピュータおよびサーバの内部コンポーネントおよび外部コンポーネントのブロック図である。
【
図4】本発明の実施形態による、クラウド・コンピューティング環境を描いた図である。
【
図5】本発明の実施形態による、抽象化モデル・レイヤを描いた図である。
【発明を実施するための形態】
【0007】
特許請求の範囲の構造および方法の詳細な実施形態が本明細書において開示されるが、開示された実施形態は、様々な形態で実施され得る特許請求の範囲の構造および方法の単なる例示にすぎないと理解することができる。しかしながら、本発明は、多くの異なる形態で実施することができ、本明細書に記載される例示的な実施形態に限定されるものと解釈されるべきではない。説明においては、提示された実施形態を不必要に不明瞭にすることを避けるために、よく知られている特徴および技術の詳細は省略されていることがある。
【0008】
前述のように、NLPは、コンピュータ・サイエンス、人工知能、および大規模な自然言語コーパスを組み込んだマルチメディア・ファイルを処理するためのプログラミング・コンピュータなど、コンピュータと人間の自然言語との相互作用に関連する計算言語学の分野である。
【0009】
従業員は、ビジネスをサポートするために必要な多くの異なる役割を維持するために、就業日を通してマルチタスクを実行する。例えば、多くのソフトウェア開発者は、様々なプロジェクトにおいて、様々な言語で作業している。ソフトウェア開発者は、ソーシャル・メディア、マーケティング、発明、プロジェクト管理、採用にも関与する可能性もある。タスクを達成するために多くの情報源が消費される。同時に、従業員はビデオを見たり、ポッドキャストを聞いたりして、タスクの解決に役立てる。学習スタイルの多くは間接的な形式であり、人がタスクに取り組んでいる間に、バックグラウンドにおいて発生する。人がタスクの変更と、メディアの消費の両方を行うとき、人は曖昧な代名詞を、以前のコンテキストまたは無関係な情報源と混同する。
【0010】
照応(anaphora)は、繰り返しを避けるために、文中で以前に使用された別の単語を参照または置き換える1つの単語(通常は代名詞)を使用するときの、自然言語の現象である。例えば、「スーザンはプレートを落として、それは大きな音で粉々になった」という文において、代名詞「それ」はプレートを指す。照応はまた、先行詞ではなく、先行詞を補完するものを指すこともある。例えば、「アイスクリームを食べた子供たちはごくわずかであり、代わりに彼らはそれを部屋のまわりに投げ捨てた」という文において、照応「彼ら」はアイスクリームを食べた子供たちではなく、アイスクリームを食べなかった子供たちを指す。
【0011】
照応の曖昧性解消を行うことは、自然言語を使用するマルチメディア・コンテンツのNLP処理を支援するだけでなく、ビデオを見たりポッドキャストを聞いたりしている間などに、マルチメディア・コンテンツの認知に支障のある消費者にとっても有益である可能性がある。そのため、とりわけ、自然言語の一部を信号に変換し、類似の信号を決定することに基づいて、自然言語における照応を解決するシステムを実現することが有利であり得る。
【0012】
一実施形態によれば、照応曖昧性解消プロセスを使用して、マルチメディア・ファイルから自然言語データを抽出し、それを複数の正弦波に変換した後、それを以前に解決された照応波のレポジトリと比較し、類似性を特定することに基づいて、最高の類似度の波形パターンを有する解決された照応を用いて、照応を解決することができる。
【0013】
本発明は、任意、可能な技術的詳細レベルの統合における、システム、方法、またはコンピュータ・プログラム製品、あるいはそれらの組合せであってもよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有する、コンピュータ可読記憶媒体を含んでもよい。
【0014】
コンピュータ可読記憶媒体は、命令実行デバイスによって使用される命令を保持し、記憶することができる、有形のデバイスとすることができる。コンピュータ可読記憶媒体は、例えば、それに限定はされないが、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または前述のものの任意、適切な組合せとしてもよい。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、以下を含む:ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、消去およびプログラム可能な読み取り専用メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み取り専用メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリ・スティック、フロッピー(R)・ディスク、パンチ・カード、またはその上に記録された命令を有する溝内の隆起した構造などの機械的に符号化されたデバイス、および前述のものの任意、適切な組合せ。本明細書で使用される場合には、コンピュータ可読記憶媒体は、それ自体が一時的な信号、例えば、電波またはその他の自由に伝播する電磁波、導波路またはその他の伝送媒体を伝播する電磁波(例えば、光ファイバ・ケーブルを通過する光パルス)、またはワイヤを介して伝送される電気信号、であると解釈すべきではない。
【0015】
本明細書に記載されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/プロセシング・デバイスにダウンロードするか、またはネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークまたは無線ネットワーク、あるいはそれらの組合せを介して外部コンピュータまたは外部記憶デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータまたはエッジ・サーバ、あるいはそれらの組合せを含んでもよい。各コンピューティング/プロセシング・デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング/プロセシング・デバイス内のコンピュータ可読記憶媒体に記憶するために、そのコンピュータ可読プログラム命令を転送する。
【0016】
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ(state-setting data)、集積回路用構成データ、またはSmalltalk(R)、C++、および同様のものなどのオブジェクト指向プログラミング言語、ならびに「C」プログラミング言語または類似のプログラミング言語などの手続き型プログラミング言語を含む1つまたは複数のプログラミング言語の任意の組合せで書かれている、ソース・コードもしくはオブジェクト・コードのいずれかとすることができる。コンピュータ可読プログラム命令は、スタンド・アロンのソフトウェア・パッケージとして、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、かつ部分的にリモート・コンピュータ上で、または完全にリモート・コンピュータまたはサーバ上で実行されてもよい。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを通してユーザのコンピュータに接続されてもよいし、または(例えば、インターネット・サービス・プロバイダを使用してインターネットを通して)外部コンピュータへの接続がなされてもよい。いくつかの実施形態では、例えば、プログラマブル論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによって、コンピュータ可読プログラム命令を実行することができる。
【0017】
本発明の態様は、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図またはブロック図、あるいはその両方を参照して本明細書に記載される。フローチャート図またはブロック図、あるいはその両方の各ブロック、ならびにフローチャート図またはブロック図、あるいはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実装され得ることが理解されるであろう。
【0018】
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令が、フローチャートまたはブロック図、あるいはその両方の1つまたは複数のブロックに指定された機能/動作を実施するための手段を作成するように、汎用コンピュータ、特殊用途コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサに提供されて、マシンを生成してもよい。これらのコンピュータ可読プログラム命令はまた、その中に記憶された命令を有するコンピュータ可読記憶媒体が、フローチャートまたはブロック図、あるいはその両方の1つまたは複数のブロックに指定された機能/動作の態様を実施する命令を含む製品を備えるように、コンピュータ、プログラム可能なデータ処理装置、または他の装置、あるいはそれらの組合せに対して、特定の様式で機能するように指示することができるコンピュータ可読記憶媒体に記憶されてもよい。
【0019】
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能な装置、または他のデバイス上で実行される命令が、フローチャートまたはブロック図、あるいはその両方の1つまたは複数のブロックに指定された機能/動作を実装するように、コンピュータ実施プロセスを生成するために、コンピュータ、他のプログラム可能なデータ処理装置、または他のデバイスにロードされて、コンピュータ、他のプログラム可能な装置、または他のデバイス上で一連の動作ステップを実行させてもよい。
【0020】
図のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能性、および動作を示す。これに関して、フローチャートまたはブロック図の各ブロックは、命令のモジュール、セグメント、または一部を表わしてもよく、これには、指定された論理機能を実装するための1つまたは複数の実行可能命令が含まれる。いくつかの代替実装では、ブロックに記された機能は、図に記された順序から外れて発生してもよい。例えば、連続して示される2つのブロックは、実際には実質的に同時に実行されてもよいし、ブロックが関係する機能に応じて逆の順序で実行されることもある。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図、あるいはその両方におけるブロックの組合せは、指定された機能または動作を実行するか、または特殊目的のハードウェアとコンピュータ命令の組合せを実行する特殊目的のハードウェア・ベースのシステムによって、実装できることにも留意されたい。
【0021】
以下に記載される例示的な実施形態は、データのチャンクを、各波が振幅および周波数を有する複数の正弦波に変換し、それらの振幅および周波数に基づいて正弦波を関係するレポジトリ・データに関連付けられた波と比較して、照応解決(anaphora resolution)を挿入することで曖昧性を解決することによって、マルチメディア・データにおける照応曖昧性解消を実行するシステム、方法、およびプログラム製品を提供する。
【0022】
図1を参照すると、少なくとも1つの実施形態による例示的なネットワーク化されたコンピュータ環境100が描かれている。ネットワーク化されたコンピュータ環境100は、クライアント・コンピューティング・デバイス102、サーバ112、および通信ネットワーク114を介して相互接続された照応レポジトリ122を含み得る。少なくとも1つの実装によれば、ネットワーク化されたコンピュータ環境100には、複数のクライアント・コンピューティング・デバイス102、およびサーバ112を含めることができ、図解の簡潔さのために、そのうちの各々の1つだけが示されている。
【0023】
通信ネットワーク114には、ワイド・エリア・ネットワーク(WAN)、ローカル・エリア・ネットワーク(LAN)、電気通信ネットワーク、ワイヤレス・ネットワーク、公衆交換網、またはサテライト・ネットワーク、あるいはそれらの組合せなどの、様々なタイプの通信ネットワークが含まれ得る。通信ネットワーク114は、ワイヤなどの接続、ワイヤレス通信リンク、または光ファイバ・ケーブルを含み得る。
図1は1つの実装の図解のみを提供するものであり、異なる実施形態が実装され得る環境に関するいかなる制限も意味しないことが、理解されよう。描かれている環境に対する多くの変更を、設計および実装の要件に基づいて行うことができる。
【0024】
クライアント・コンピューティング・デバイス102は、本発明の一実施形態に従って、ソフトウェア・プログラム108および照応曖昧性解消プログラム110Aをホストするとともに実行し、通信ネットワーク114を介してサーバ112と通信することを可能にされている、プロセッサ104およびデータ記憶デバイス106を含み得る。クライアント・コンピューティング・デバイス102は、例えば、モバイル・デバイス、電話、携帯情報端末、ネットブック、ラップトップ・コンピュータ、タブレット・コンピュータ、デスクトップ・コンピュータ、またはプログラムを実行し、ネットワークにアクセスすることができる任意のタイプのコンピューティング・デバイスであり得る。
図3を参照して考察するように、クライアント・コンピューティング・デバイス102は、それぞれ、内部コンポーネント302aおよび外部コンポーネント304aを含み得る。
【0025】
サーバ・コンピュータ112は、ラップトップ・コンピュータ、ネットブック・コンピュータ、パーソナル・コンピュータ(PC)、デスクトップ・コンピュータ、または照応曖昧性解消プログラム110Bおよびデータベース116をホストするとともに実行し、本発明の実施形態に従って、通信ネットワーク114を介してクライアント・コンピューティング・デバイス102と通信することができる、任意のプログラム可能な電子デバイス、またはプログラム可能な電子デバイスの任意のネットワークであってもよい。
図3を参照して考察するように、サーバ・コンピュータ112は、それぞれ、内部コンポーネント302bおよび外部コンポーネント304bを含み得る。サーバ112はまた、サービスとしてのソフトウェア(SaaS)、サービスとしてのプラットフォーム(PaaS)、またはサービスとしてのインフラストラクチャ(IaaS)などのクラウド・コンピューティング・サービス・モデルで動作し得る。サーバ112はまた、プライベート・クラウド、コミュニティ・クラウド、パブリック・クラウド、またはハイブリッド・クラウドなどのクラウド・コンピューティング展開モデルに配置することができる。
【0026】
トピック・ドメイン118は、複数のオブジェクトまたはbag of wordsとして記憶されている、以前に解決された照応と共に、大量にトピック・ドメインを記憶するデータベースであってもよい。トピック・ドメインは、NLP法を使用して、例えば、自然言語テキストからトピックを抽出することのできる、単語埋め込みアルゴリズムまたはトレーニングされたニューラル・ネットワークによって、不活性メディア・レポジトリ(inactive media repository)122から抽出される。
【0027】
照応レポジトリ122は、ビデオ・ストリーム、音声ストリーム、テキスト、音声ファイルおよびビデオ・ファイルなどの複数のマルチメディア・データをホストするとともに記憶することのできる、データベース、任意のプログラム可能な電子デバイス、あるいは、データベースもしくはプログラム可能な電子デバイス、またはその両方の任意のネットワークであってもよい。別の実施形態では、照応レポジトリ122は、ウェブ・ブラウザの検索機能を用いて動的に決定することができる。
【0028】
本実施形態によれば、照応曖昧性解消プログラム110A、110Bは、自然言語を分析し、1つまたは複数の照応文を決定し、照応文を信号に変換し、その信号を、波動類似性を用いて、以前に解決された媒体または不活性媒体と比較することによって、代名詞曖昧性解消を行うことができるプログラムであり得る。照応曖昧性解消法については、
図2について以下でさらに詳細に説明する。
【0029】
次に
図2を参照すると、照応曖昧性解消プロセス200を示す動作フローチャートが、少なくとも1つの実施形態に従って描かれている。202において、照応曖昧性解消プログラム110A、110Bは、マルチメディア・オブジェクトを受信する。マルチメディア・オブジェクトは、オーディオ、ビデオ、もしくはテキストなどの任意のタイプのファイルであるか、またはテキストに変換可能であり、任意の形式で提示される、自然言語を有するデータ・ストリームである。例示的な実施形態によれば、照応曖昧性解消プログラム110A、110Bは、クライアント・コンピューティング・デバイス102から、マルチメディア・オブジェクトを受信することができる。
【0030】
次に、204において、照応曖昧性解消プログラム110A、110Bは、マルチメディア・オブジェクトを経時的な信号(すなわち、波)に変換する。例示的な実施形態によれば、照応曖昧性解消プログラム110A、110Bは、オーディオ・データを抽出することによってマルチメディア・オブジェクトを信号波に変換するか、またはマルチメディア・オブジェクトにテキストが組み込まれている場合には、テキストを振幅値に変換する振幅オート・デコーダ・ニューラル・ネットワークを使用して、テキストをオーディオに変換することによって、各値に、その値が生成された時間に関連付けられたタイム・フレームが割り当てられる。別の実施形態では、照応曖昧性解消プログラム110A、110Bは、speech-to-textを使用して、マルチメディア・オブジェクトをテキストに変換し、次いで、オート・デコーダ・ニューラル・ネットワークを使用して、テキストを複数の経時的な振幅に変換する、トレーニングされたニューラル・ネットワークを適用し得る。加えて、照応曖昧性解消プログラム110A、110Bは、フーリエ変換を用いて、生成された信号を周波数スペクトルに変換し、将来の比較のために、信号を無限正弦波(infinite sine waves)の和に変換することができる(下記のステップ210および212を参照されたい)。
【0031】
例示的な実施形態によれば、照応曖昧性解消プログラム110A、110Bは、次式
【数1】
を用いて、信号を無限正弦波の和に変換することが可能であり、ここで、Nはサンプル数、nはカレントサンプル(current sample)、x
nは時刻nにおける信号の値、kはカレント周波数(0Hzから(N-1)Hzまで)、X
kは直接フーリエ変換(DFT)の結果である。
【0032】
照応曖昧性解消プログラム110A、110Bは、スペクトログラム・アプローチを使用して、信号を時間チャンク(フレーム)に分割することによって、生成された信号の周波数および位相を決定することができる。例示的な実施形態によれば、照応曖昧性解消プログラム110A、110Bは、連続時間の短時間フーリエ変換(STFT)アルゴリズムなどの、関係する高速フーリエ変換によってスペクトログラムを生成し得る。決定された周波数と位相を使用して、信号は次式
【数2】
を使用してプロットすることが可能であり、ここで、Nはサンプル数、nはカレントサンプル、x
nは時刻nにおける信号の値、kはカレント周波数(0Hzから(N-1)Hz)、X
kはDFTの結果(振幅と位相)、wはルック・バック・ウィンドウ関数(look back window function)、mはルック・バック時間(timeto look back)である。
【0033】
ルック・バック・ウィンドウwは、次式
【数3】
を用いることによって、ルック・バック時間値でパラメータ化することが可能であり、ここでパラメータmは、バックグラウンド情報を解析することによって経時的に学習することができる。パラメータmを調節するバックグラウンド情報は、情報エントロピおよびトピック深さに基づいてもよい。トピック深さは、フレームにおいてカバーされているプリンシプル・トピック(principle topic)を使用して測定することができる。プリンシプル・トピックが変化すると、値mの長さはそれに応じて調節することができる。エントロピ(X)は、次式
【数4】
を使用して決定することができる。
【0034】
次に、206において、照応曖昧性解消プログラム110A、110Bは、マルチメディア・データおよび信号をフレームに分割する。例示的な実施形態によれば、照応曖昧性解消プログラム110A、110Bは、マルチメディア・オブジェクトおよび関連する信号を、持続時間にわたって、フレームに分離することが可能であり、1つまたは複数のフレームが照応を含む。各フレームの持続時間は、前のステップで決定されたルック・バック時間値mに基づいて決定してもよい。
【0035】
次いで、208において、照応曖昧性解消プログラム110A、110Bは、ディープ・ニューラル・ネットワーク(DNN)およびword-to-vector法を使用して、信号を振幅値に符号化する。例示的な実施形態によれば、照応曖昧性解消プログラム110A、110Bは、DNNを使用して、各フレーム内の主要オブジェクトにラベルを付けてもよく、長・短期記憶(LSTM:long-short term memory)法を適用して各フレームを符号化することが可能であり、ラベルは、トピック・ドメイン118内の1つまたは複数のトピックと関連付けることができる。各オブジェクトに対して、速度、加速度、およびラベルを含む、オブジェクトを記述するベクトルが生成されてもよい。マルチメディア・オブジェクトがビデオ・コンテンツである場合、色相色(hue color)を、パラメータの1つとしてベクトルに追加してもよい。DNNがオブジェクトに対するラベルを決定できない場合には、照応曖昧性解消プログラム110A、110Bは、word-to-vectorマッピング(すなわち、単語埋め込み)方法を使用して、ラベルに対して類似の単語を決定してもよい。さらなる実施形態では、符号化されたフレームの各々の振幅は平均化されてもよい。
【0036】
次に、210にて、照応曖昧性解消プログラム110A、110Bは、意味符号化(semantic encoding)を実行する。例示的な実施形態によれば、決定されたラベルを有するトピック・ドメイン118を検索することによって照応曖昧性解消の位置が同定されない場合、照応曖昧性解消プログラム110A、110Bは、正弦波信号分解(sine wave signal decomposition)を使用して、オブジェクトと、不活性メディア・レポジトリ122内の複数のオブジェクトとの関係を識別することによって、意味符号化を実行してもよい。例示的な実施形態によれば、照応曖昧性解消プログラム110A、110Bは、離散フーリエ変換(DFT)を使用して一対のオブジェクト間の関係を分解することができる。
【0037】
次いで、212において、照応曖昧性解消プログラム110A、110Bは、相関係数を使用してコンテンツの関連性を識別する。例示的な実施形態によれば、照応曖昧性解消プログラム110A、110Bは、時間対振幅スペクトログラムおよび周波数対振幅スペクトログラムなどのスペクトログラムを使用して、現在のオブジェクトの信号を、不活性メディア・レポジトリ122内の複数のオブジェクトと比較することができる。例示的な実施形態によれば、照応曖昧性解消プログラム110A、110Bは、方程式Fn[f]=F[Fn-1[f]]、およびFn=(F-1)nを使用して主波形を見つけるために分数階(fractional)DFTを適用してもよく、ここでF[f]は関数fの連続フーリエ変換(すなわち、各オブジェクトから生成される信号)であり、nは非負の整数であり、F0[f]=fである。例示的な実施形態によれば、照応曖昧性解消プログラム110A、110Bは、不活性メディア・レポジトリ122内の1つまたは複数のオブジェクトの主波形と、マルチメディア・データ120からのフレーム内に照応を含む可能性のある、識別されたオブジェクトとの間の相関を識別することができる。例示的な実施形態によれば、照応曖昧性解消プログラム110A、110Bは、不活性メディア・レポジトリ122内の主波と、識別されたオブジェクトとの間の最高の相関係数が、照応曖昧性解消と関連付けられると決定することができる。
【0038】
次に、214において、照応曖昧性解消プログラム110A、110Bは、最高の相関係数に基づいてbag of objectsを抽出する。例示的な実施形態によれば、照応曖昧性解消プログラム110A、110Bは、マルチメディア・データ120内のすべての代名詞を特定し、最高の相関係数に関連付けられる不活性メディア・レポジトリ122内のbag of objects、またはbag of wordsを識別することができる。例示的な実施形態によれば、照応曖昧性解消プログラム110A、110Bは、speech-to-text DNNを使用して、各フレームをテキストに変換し、テキストを検索することに基づいてすべての代名詞を特定し、利用可能なすべての代名詞を用いて、曖昧性解消を必要とする代名詞を有するフレームを識別することができる。
【0039】
そして、216において、照応曖昧性解消プログラム110A、110Bは、bag of objectsに基づいて照応を解決する。例示的な実施形態によれば、照応曖昧性解消プログラム110A、110Bは、特定された代名詞において、最高の相関係数を有するbag of wordsからの単語を置換することができる。例えば、照応曖昧性解消プログラム110A、110Bは、bag of words内の単語の1つでテキスト内の代名詞を置換し、ビデオ内のキャプションなどのマルチメディア・データ120に、テキストを組み込むことができる。別の実施形態では、照応曖昧性解消プログラム110A、110Bは、最高の相関係数を有する不活性メディア・レポジトリ122からのフレームで、代名詞を有するマルチメディア・データ120からの対応するフレームを置換することができる。
【0040】
図2は、1つの実装の例証のみを提供するものであり、異なる実施形態を実現できる方法に関するいかなる制限をも意味しないことが理解されよう。描かれている環境に対する多くの変更を、設計および実装の要件に基づいて行うことができる。
【0041】
図3は、本発明の実施形態による、
図1に描かれたクライアント・コンピューティング・デバイス102およびサーバ112の内部コンポーネントおよび外部コンポーネントのブロック
図300である。
図3は、1つの実装の例証のみを提供するものであり、異なる実施形態を実現できる環境に関するいかなる制限も意味しないことを理解されたい。描かれている環境に対する多くの変更を、設計および実装の要件に基づいて行うことができる。
【0042】
データ処理システム302、304は、機械可読プログラム命令を実行することができる任意の電子デバイスを代表するものである。データ処理システム302、304は、スマート・フォン、コンピュータ・システム、PDA、または他の電子デバイスを代表するものである。データ処理システム302、304によって代表されるコンピューティングのシステム、環境、または構成、あるいはそれらの組合せの例としては、それに限定はされないが、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、ハンド・ヘルド・デバイスまたはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、ネットワークPC、ミニコンピュータ・システム、および上記のシステムまたはデバイスのいずれかを含む分散クラウド・コンピューティング環境が挙げられる。
【0043】
クライアント・コンピューティング・デバイス102およびサーバ112は、
図3に示される内部コンポーネント302a、bおよび外部コンポーネント304a、bのそれぞれのセットを含んでもよい。内部コンポーネント302のセットの各々は、1つまたは複数のバス326上の、1つまたは複数のプロセッサ320、1つまたは複数のコンピュータ可読RAM322、および1つまたは複数のコンピュータ可読ROM324、ならびに1つまたは複数のオペレーティング・システム328および1つまたは複数のコンピュータ可読有形記憶デバイス330を含む。クライアント・コンピューティング・デバイス102における1つまたは複数のオペレーティング・システム328、ソフトウェア・プログラム108および照応曖昧性解消プログラム110A、ならびにサーバ112における照応曖昧性解消プログラム110Bは、それぞれのRAM322(通常はキャッシュ・メモリを含む)の1つまたは複数を介して、各プロセッサ320の1つまたは複数により実行するために、それぞれのコンピュータ可読有形記憶デバイス330の1つまたは複数に記憶される。
図3に示す実施形態では、コンピュータ可読有形記憶デバイス330の各々は、内部ハード・ドライブの磁気ディスク記憶デバイスである。あるいは、コンピュータ可読有形記憶デバイス330の各々は、ROM324、EPROM、フラッシュ・メモリ、またはコンピュータ・プログラムおよびデジタル情報を記憶することができる、任意その他のコンピュータ可読有形記憶デバイスなどの半導体記憶デバイスである。
【0044】
内部コンポーネント302a、bの各セットは、CD-ROM、DVD、メモリ・スティック、磁気テープ、磁気ディスク、光ディスクまたは半導体記憶デバイスなどの、1つまたは複数のポータブルのコンピュータ可読有形記憶デバイス338との間で読み書きするためのR/Wドライブまたはインターフェース332も含む。認知スクリーン保護プログラム110A、110Bなどのソフトウェア・プログラムを、それぞれのポータブルのコンピュータ可読有形記憶デバイス338の1つまたは複数に記憶し、それぞれのR/Wドライブまたはインターフェース332を介して読み出し、それぞれのハード・ドライブ330にロードすることができる。
【0045】
内部コンポーネント302a、bの各セットは、TCP/IPアダプタ・カード、無線Wi-Fiインターフェース・カード、または3Gもしくは4Gの無線インターフェース・カードまたはその他の有線もしくは無線の通信リンクなどの、ネットワーク・アダプタまたはインターフェース336も含む。クライアント・コンピューティング・デバイス102内のソフトウェア・プログラム108および照応曖昧性解消プログラム110A、ならびにサーバ112内の照応曖昧性解消プログラム110Bは、外部コンピュータから、ネットワーク(例えば、インターネット、ローカル・エリア・ネットワーク、またはその他のワイド・エリア・ネットワーク)およびそれぞれのネットワーク・アダプタまたはインターフェース336を介して、クライアント・コンピューティング・デバイス102およびサーバ112にダウンロードすることができる。ネットワーク・アダプタまたはインターフェース336から、クライアント・コンピューティング・デバイス102におけるソフトウェア・プログラム108および照応曖昧性解消プログラム110Aと、サーバ112における照応曖昧性解消プログラム110Bとが、それぞれのハード・ドライブ330にロードされる。ネットワークは、銅線、光ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバあるいはそれらの組合せを含んでもよい。
【0046】
外部コンポーネント304a、bのセットの各々には、コンピュータ・ディスプレイ・モニタ344、キーボード342、およびコンピュータ・マウス334を含めることができる。外部コンポーネント304a、bには、タッチ・スクリーン、仮想キーボード、タッチ・パッド、ポインティング・デバイス、およびその他のヒューマン・インターフェース・デバイスを含めることもできる。内部コンポーネント302a、bのセットの各々は、コンピュータ・ディスプレイ・モニタ344、キーボード342、およびコンピュータ・マウス334にインターフェースするデバイス・ドライバ340も含む。デバイス・ドライバ340、R/Wドライブまたはインターフェース332、およびネットワーク・アダプタまたはインターフェース336は、(記憶デバイス330またはROM324、あるいはその両方に記憶される)ハードウェアおよびソフトウェアを備える。
【0047】
本開示はクラウド・コンピューティングについての詳細な説明を含むが、本明細書で記載された教示の実装は、クラウド・コンピューティング環境に限定されないことを予め理解されたい。むしろ、本発明の実施形態は、現在知られているか、または後に開発される任意、その他のタイプのコンピューティング環境と組み合わせて実装することが可能である。
【0048】
クラウド・コンピューティングは、最小限の管理作業またはサービスのプロバイダとの対話で、迅速にプロビジョニングおよびリリースができる、構成可能なコンピューティング・リソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス)の共有プールへの便利なオンデマンド・ネットワーク・アクセスを可能にする、サービス配信のモデルである。このクラウド・モデルには、少なくとも5つの特徴、少なくとも3つのサービス・モデル、および少なくとも4つの展開モデルを含めることができる。
【0049】
特徴は以下の通りである:
オンデマンド・セルフサービス(On-demand self-service):クラウド・コンシューマは、サービスのプロバイダとの人的な相互作用を必要とせずに、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどの、コンピューティング機能を一方的にプロビジョニングできる。
幅広いネットワーク・アクセス(Broad network access):機能は、ネットワーク経由で利用可能であり、異種のシン・クライアント・プラットフォームまたはシック・クライアント・プラットフォーム(例えば、モバイル・フォン、ラップトップ、およびPDA)での使用を促進する、標準メカニズムを介してアクセスされる。
リソース・プーリング(Resource pooling):プロバイダのコンピューティング・リソースは、マルチ・テナント・モデルを使用して、複数のコンシューマに、需要に応じて、動的に割り当て、および再割り当てされる、異なる物理リソースおよび仮想リソースのサービスを提供するためにプールされている。コンシューマは一般に、提供されるリソースの正確な場所を制御することができないか、またはそれについての知識を持たないが、より高い抽象化レベル(例えば、国、州、またはデータセンタ)で場所を指定できる可能性があるという点で、場所独立性の意味がある。
迅速な弾力性(Rapid elasticity):機能を迅速かつ弾力的に、場合によっては自動的にプロビジョニングして、迅速にスケール・アウトするとともに、迅速にリリースして素早くスケール・インすることができる。コンシューマには、プロビジョニングに利用可能な機能は無制限に見えることが多く、いつでも任意の数量で購入できる。
測定サービス(Measured service):クラウド・システムは、サービスのタイプ(例えば、ストレージ、処理、帯域幅、およびアクティブなユーザ・アカウント)に適した抽象化レベルで計量機能を活用することにより、リソースの使用を自動的に制御し、最適化する。リソースの使用を監視、制御、および報告できるため、利用されるサービスのプロバイダとコンシューマの両方に、透明性が提供される。
【0050】
サービス・モデルは次の通りである:
サービスとしてのソフトウェア(SaaS:Software as a Service):コンシューマに提供される機能は、クラウド・インフラストラクチャで実行されているプロバイダのアプリケーションを使用することである。これらのアプリケーションは、ウェブ・ブラウザ(例えば、ウェブ・ベースの電子メール)などのシン・クライアント・インターフェースを通して、様々なクライアント・デバイスからアクセス可能である。制限されたユーザ固有のアプリケーション構成設定が例外となる可能性を除き、コンシューマは、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または個々のアプリケーション機能を含む、基盤となるクラウド・インフラストラクチャの管理または制御を行わない。
サービスとしてのプラットフォーム(PaaS:Platform as a Service):コンシューマに提供される機能は、プロバイダがサポートするプログラミング言語とツールを使用して作成された、コンシューマが作成または取得したアプリケーションをクラウド・インフラストラクチャに展開することである。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、またはストレージなどの基盤となるクラウド・インフラストラクチャの管理または制御は行わないが、展開されたアプリケーションと、場合によってはアプリケーション・ホスティング環境構成に対する制御ができる。
サービスとしてのインフラストラクチャ(IaaS:Infrastructure as a Service):コンシューマに提供される機能は、コンシューマがオペレーティング・システムやアプリケーションを含む任意のソフトウェアを展開して実行できる処理、ストレージ、ネットワーク、およびその他の基本的なコンピューティング・リソースをプロビジョニングすることである。コンシューマは、基盤となるクラウド・インフラストラクチャの管理または制御は行わないが、オペレーティング・システム、ストレージ、展開されたアプリケーションに対する制御を行うとともに、場合によっては選択ネットワーク・コンポーネント(例えば、ホスト・ファイアウォール)の限定された制御を行う。
【0051】
展開モデルは次の通りである:
プライベート・クラウド:クラウド・インフラストラクチャは、組織専用に運用され、それは、組織またはサード・パーティによって管理され、オン・プレミスまたはオフ・プレミスに存在する可能性がある。
コミュニティ・クラウド:クラウド・インフラストラクチャは、複数の組織によって共有されて、懸念事項(例えば、ミッション、セキュリティ要件、ポリシー、およびコンプライアンス考慮事項)を共有する、特定のコミュニティをサポートする。それは、組織またはサード・パーティによって管理されてもよく、オン・プレミスまたはオフ・プレミスに存在する可能性がある。
パブリック・クラウド:クラウド・インフラストラクチャは、一般の人々または大規模な業界グループに対して利用可能にされ、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド:クラウド・インフラストラクチャは、固有のエンティティのままであるが、データとアプリケーションの移植性を可能にする標準化されたテクノロジまたは独自のテクノロジ(例えば、クラウド間の負荷平均化のためのクラウド・バースティング(cloud bursting))によって結び付けられた、2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)の合成体である。
【0052】
クラウド・コンピューティング環境は、無国籍性(statelessness)、低結合性(low coupling)、モジュール性、およびセマンティック相互運用性に重点を置いたサービス指向である。クラウド・コンピューティングの中心にあるのは、相互接続されたノードのネットワークを含む、インフラストラクチャである。
【0053】
ここで
図4を参照すると、例示的なクラウド・コンピューティング環境50が描かれている。図示されているように、クラウド・コンピューティング環境50は、例えば、携帯情報端末(PDA)もしくはセルラー電話54A、デスクトップ・コンピュータ54B、ラップトップ・コンピュータ54C、または自動車コンピュータ・システム54N、あるいはそれらの組合せなどの、クラウド・コンシューマによって使用されるローカル・コンピューティング・デバイスが、それによって通信することができる、1つまたは複数のクラウド・コンピューティング・ノード100を含む。ノード100は、互いに通信することができる。それらは、本明細書で上述したようなプライベート、コミュニティ、パブリック、またはハイブリッドの各クラウドなどの、1つまたは複数のネットワーク、またはそれらの組合せにおいて、物理的または仮想的にグループ化されてもよい(図示せず)。これにより、クラウド・コンピューティング環境50は、クラウド・コンシューマがローカル・コンピューティング・デバイス上のリソースを維持する必要がないサービスとして、インフラストラクチャ、プラットフォーム、またはソフトウェア、あるいはそれらの組合せを提供することができる。
図4に示されるタイプのコンピューティング・デバイス54A~Nは、説明のみを目的としており、コンピューティング・ノード100およびクラウド・コンピューティング環境50は、任意のタイプのネットワークまたはネットワーク・アドレス指定可能な接続、あるいはその両方を介して、(例えば、ウェブ・ブラウザを使用して)任意のタイプのコンピュータ化されたデバイスと通信できることが理解される。
【0054】
次に
図5を参照すると、クラウド・コンピューティング環境50によって提供される機能抽象化レイヤ500のセットが示されている。
図5に示すコンポーネント、レイヤ、および機能は説明のためにすぎず、本発明の実施形態はこれらに限定されないことを予め理解しておくべきである。図に示すように、以下のレイヤ、および対応する機能が提供される。
【0055】
ハードウェアおよびソフトウェア・レイヤ60は、ハードウェアおよびソフトウェアのコンポーネントを含む。ハードウェア・コンポーネントの例には、メインフレーム61;RISC(縮小命令セット・コンピュータ)アーキテクチャ・ベースのサーバ62;サーバ63;ブレード・サーバ64;記憶デバイス65;ならびにネットワークおよびネットワーキング・コンポーネント66が挙げられる。いくつかの実施形態では、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア67およびデータベース・ソフトウェア68を含む。
【0056】
仮想化レイヤ70は、抽象化レイヤを提供し、それから、仮想エンティティの以下の例が提供され得る:仮想サーバ71;仮想ストレージ72;仮想プライベート・ネットワークを含む、仮想ネットワーク73;仮想アプリケーションおよびオペレーティング・システム74;ならびに仮想クライアント75。
【0057】
一例では、管理レイヤ80は、以下に説明する機能を提供し得る。リソース・プロビジョニング81は、クラウド・コンピューティング環境内でタスクを実行するために利用されるコンピューティング・リソースおよびその他のリソースの動的調達を提供する。メータリングおよびプライシング82は、クラウド・コンピューティング環境内でリソースが使用される際のコスト追跡と、これらのリソースの消費に対する請求書送付(billing)またはインボイス送付を提供する。一例では、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含み得る。セキュリティは、クラウド・コンシューマおよびタスクに対する身分証明(identity verification)に加えて、データやその他のリソースの保護を提供する。ユーザ・ポータル83は、コンシューマおよびシステム管理者に対してクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理84は、必要なサービス・レベルに合致するように、クラウド・コンピューティング・リソース割り当ておよび管理を提供する。サービス・レベル・アグリーメント(SLA)計画および履行85は、SLAに従って将来の要件が予期されるクラウド・コンピューティング・リソースの事前手配と調達を提供する。
【0058】
ワークロード・レイヤ90は、クラウド・コンピューティング環境がそれに対して利用され得る機能の例を提供する。このレイヤから提供され得る、ワークロードおよび関数の例としては、マッピングおよびナビゲーション91;ソフトウェア開発およびライフサイクル管理92;仮想教室教育配信93;データ分析処理94;トランザクション処理95;および照応曖昧性解消96が挙げられる。照応曖昧性解消96は、マルチメディア・データ内の代名詞を識別し、代名詞フレームを波信号に変換することによって、代名詞を有するフレームの信号波に対して最高の相関係数を有する信号波を有する1つまたは複数のフレームを不活性メディア・レポジトリにおいて検索し、最高の相関係数を有するフレームからのトピックで、代名詞を置換することに関係する。
【0059】
本発明の様々な実施形態の説明は、例証の目的で提示されたが、網羅的であること、または開示された実施形態に限定することを意図するものではない。多くの変更および変形が、記載された実施形態の範囲から逸脱することなく、当業者に明らかになるであろう。本明細書で使用される用語は、実施形態の原理、実際的な応用、または市場で見出される技術に対する技術的改善を最もよく説明するために、または当業者が本明細書に開示される実施形態を理解できるようにするために選択された。
【手続補正書】
【提出日】2023-12-21
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
照応曖昧性解消のためのプロセッサ実施方法であって、
マルチメディア・データを受信することであって、前記マルチメディア・データは複数のフレームを含む、前記受信することと、
前記マルチメディア・データを信号波に変換することであって、前記信号波は、直接フーリエ変換を使用して、複数の周波数と複数の振幅を有する複数の正弦波に変換される、前記変換することと
代名詞を有する前記複数のフレームからフレームを識別することと、
ディープ・ニューラル・ネットワークを使用して前記フレームのトピックを識別することと、
前記フレームと最高の相関係数を有するメディア・レポジトリ内のフレームを検索することであって、前記メディア・レポジトリからの前記フレームはbag of objectsを含む、前記検索することと、
前記bag of objectsからのオブジェクトで前記代名詞を置換することによって前記照応曖昧性解消を解決することと
を含む、プロセッサ実施方法。
【請求項2】
前記マルチメディア・データを前記信号波に変換することが、
オート・デコーダ・ニューラル・ネットワークを使用して、前記マルチメディア・データを前記複数の振幅に変換することと、
前記複数の振幅の各々のタイム・フレームに基づいて、前記複数の振幅から前記信号波を生成することと
を含む、請求項1に記載の方法。
【請求項3】
前記複数のフレームの各々が持続時間を有し、前記持続時間は前記信号波の短時間フーリエ変換に基づいて決定される、請求項1に記載の方法。
【請求項4】
スペクトログラム・アプローチを使用して前記信号波をフレームに分離すること
をさらに含む、請求項1に記載の方法。
【請求項5】
前記最高の相関係数は、前記スペクトログラム・アプローチに基づいている、請求項4に記載の方法。
【請求項6】
ディープ・ニューラル・ネットワークを使用して、前記フレームのラベルを識別すること
をさらに含む、請求項1に記載の方法。
【請求項7】
前記オブジェクトを記述するベクトルを生成することであって、前記ベクトルは速度、加速度、および前記ラベルを含む、前記生成すること
をさらに含む、請求項6に記載の方法。
【請求項8】
照応曖昧性解消のためのコンピュータ・システムであって、
1つまたは複数のプロセッサ、1つまたは複数のコンピュータ可読メモリ、1つまたは複数のコンピュータ可読有形記憶媒体、および前記1つまたは複数のメモリの少なくとも1つを介して、前記1つまたは複数のプロセッサの少なくとも1つによって実行するために、前記1つまたは複数の有形記憶媒体の少なくとも1つに記憶されたプログラム命令を含み、前記コンピュータ・システムは、
マルチメディア・データを受信することであって、前記マルチメディア・データは複数のフレームを含む、前記受信することと、
前記マルチメディア・データを信号波に変換することであって、前記信号波は、直接フーリエ変換を使用して、複数の周波数と複数の振幅を有する複数の正弦波に変換される、前記変換することと
代名詞を有する前記複数のフレームからフレームを識別することと、
ディープ・ニューラル・ネットワークを使用して前記フレームのトピックを識別することと、
前記フレームと最高の相関係数を有するメディア・レポジトリ内のフレームを検索することであって、前記メディア・レポジトリからの前記フレームはbag of objectsを含む、前記検索することと、
前記bag of objectsからのオブジェクトで前記代名詞を置換することによって前記照応曖昧性解消を解決することと
を含む方法を実行することのできる、コンピュータ・システム。
【請求項9】
前記マルチメディア・データを前記信号波に変換することが、
オート・デコーダ・ニューラル・ネットワークを使用して、前記マルチメディア・データを前記複数の振幅に変換することと、
前記複数の振幅の各々のタイム・フレームに基づいて、前記複数の振幅から前記信号波を生成することと
を含む、請求項8に記載のコンピュータ・システム。
【請求項10】
前記複数のフレームの各々が持続時間を有し、前記持続時間は前記信号波の短時間フーリエ変換に基づいて決定される、請求項8に記載のコンピュータ・システム。
【請求項11】
スペクトログラム・アプローチを使用して前記信号波をフレームに分離すること
をさらに含む、請求項8に記載のコンピュータ・システム。
【請求項12】
前記最高の相関係数は、前記スペクトログラム・アプローチに基づいている、請求項11に記載のコンピュータ・システム。
【請求項13】
ディープ・ニューラル・ネットワークを使用して、前記フレームのラベルを識別すること
をさらに含む、請求項8に記載のコンピュータ・システム。
【請求項14】
前記オブジェクトを記述するベクトルを生成することであって、前記ベクトルは速度、加速度、および前記ラベルを含む、前記生成すること
をさらに含む、請求項13に記載のコンピュータ・システム。
【請求項15】
コンピュータに、請求項1ないし7のいずれかに記載の方法を実行させる、コンピュータ・プログラム。
【国際調査報告】