(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-08-29
(54)【発明の名称】メディア処理および表示のための方法、システム、およびコンピュータ・ プログラム製品
(51)【国際特許分類】
G06T 7/00 20170101AFI20220822BHJP
G06N 3/08 20060101ALI20220822BHJP
G06N 20/00 20190101ALI20220822BHJP
【FI】
G06T7/00 350C
G06N3/08
G06N20/00
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021566577
(86)(22)【出願日】2020-05-08
(85)【翻訳文提出日】2021-12-22
(86)【国際出願番号】 US2020032149
(87)【国際公開番号】W WO2020227651
(87)【国際公開日】2020-11-12
(32)【優先日】2019-05-09
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】521489034
【氏名又は名称】オートモビリア ツー リミテッド ライアビリティ カンパニー
(74)【代理人】
【識別番号】110001586
【氏名又は名称】弁理士法人アイミー国際特許事務所
(72)【発明者】
【氏名】ルシンダ ルイス
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096CA02
5L096DA02
5L096EA03
5L096EA35
5L096FA32
5L096FA67
5L096FA69
5L096GA51
5L096HA09
5L096HA11
5L096KA04
(57)【要約】
【課題】ユーザが、車両のような物体を識別し検索すること、同時にその物体の出所および文化的歴史を構築し知識を保存すること、人工知能ツールを訓練して物体を即座にかつ適切に識別すること等を可能にする方法、システムおよびコンピュータプログラム製品を提供する。
【解決手段】
ニューラルネットワークを使用して入力データを分類および識別し、結果(例えば、1880年代から現在およびそれ以降の日付の車両、車両アーチファクトおよび地理的位置の画像)を表示するための方法、システム、およびコンピュータプログラム製品であり、結果はディスプレイ上に、または仮想現実、拡張現実、および/または複合現実デバイスなどの仮想環境内に表示される。
【選択図】
図1
【特許請求の範囲】
【請求項1】
認証されたデータおよび分類法を用いて畳み込みニューラルネットワーク(CNN)を訓練するステップと、
処理装置によって、入力データを含む問合せを受信するステップと、
訓練されたCNNによって、認証されたデータおよび分類の要素に関して入力データを分類するステップと、
訓練されたCNNによって結果を生成するステップとを備え、前記結果は、入力データに最もマッチングする認証されたデータおよび分類の要素を含んでおり、
方法は、さらに、前記結果をデバイス上に表示するステップを備え、その結果は、画像、映像、テキスト、サウンド、拡張現実コンテンツ、仮想現実コンテンツ、または複合現実コンテンツのうちの1つまたは複数を含む、方法。
【請求項2】
前記認証されたデータは、著作権登録された著作物、メタデータ、およびテキストを含む、請求項1に記載の方法。
【請求項3】
前記著作権登録著作物が、画像、ビデオ録画、オーディオ録画、イラストまたは書き込みのうちの1つ以上を含む、請求項2に記載の方法。
【請求項4】
前記著作権登録著作物が、車両情報、地理的情報または文化情報の1つ以上を含む、請求項3に記載の方法。
【請求項5】
前記認証されたデータは、著作権登録データベースからのデータを含む、請求項1に記載の方法。
【請求項6】
前記分類法の要素が、行動、概念および感情、イベント、地理的都市、地理的国、地理的場所、地理的州、地理的位置データ、博物館コレクション、写真環境、写真方向、写真設定、写真技術、写真ビュー、標示、話題事項、車両コーチビルダー、車両色、車両状態、車両製造業者、車両モデル、車両部品、車両数量、車両シリアル番号、車両タイプ、および車両製造年からなる群から選択される、請求項1に記載の方法。
【請求項7】
前記入力データは、画像データ、映像データ、取込データ、または地理的位置データのうちの1つまたは複数を含む、請求項1に記載の方法。
【請求項8】
前記分類するステップが、入力データを分類法を用いて認証データにマッピングすることを含む、請求項1に記載の方法。
【請求項9】
前記結果が、画像、ビデオ、テキスト、またはサウンドのうちの1つまたは複数を含む、請求項1に記載の方法。
【請求項10】
前記結果を生成するステップは、車両情報、車両アーチファクト情報、または地理的情報のうちの1つまたは複数を生み出す、請求項1に記載の方法。
【請求項11】
前記結果を生成するステップは、前記入力データが前記認証されたデータの少なくとも1つの特徴または前記分類の少なくとも1つの要素の少なくとも1つの特徴にマッチングする見込みを生じさせる、請求項1に記載の方法。
【請求項12】
前記見込みは、クロスエントロピー関数によって決定される、請求項11に記載の方法。
【請求項13】
前記結果は拡張現実コンテンツを含み、
前記結果を表示するステップは、拡張現実装置に結果を表示することを備え、
前記拡張現実装置に結果を表示することは、
拡張現実表示装置の着用者の眼の中に光を通過させることを含み、前記拡張現 実表示装置は、光源と、複数の導波路を備える導波路スタックとを備えており、
前記拡張現実装置に結果を表示することは、さらに、
ディスプレイデバイスに光を結像すること、
ディスプレイデバイス上に、車両単独を、または車両と、画像データ、映像データ、入力データ、および地理的データのうちの少なくとも1つにマッチングする特徴を有する地理的位置および任意的な特定の日付とを組み合わせて、表示することと、を含む、請求項1に記載の方法。
【請求項14】
ディスプレイデバイス上に表示するステップは、地理的位置が時間とともにどのように変化したかを表示することと、前記地理的位置を経時的に通過した車両の履歴を表示することと、ある期間にわたって気象条件を表示することとのうちの少なくとも1つを含む、請求項13に記載の方法。
【請求項15】
認証されたデータおよび分類法を使用して再帰型ニューラルネットワーク(RNN)を訓練することをさらに含む、請求項1に記載の方法。
【請求項16】
前記入力データは非構造化データを含み、
前記方法は、
訓練されたRNNによって、非構造化データを処理して構造化データを生成することと、
訓練されたCNNによって、構造化データを分類することとを含む、請求項15に記載の方法。
【請求項17】
前記入力データは、ユーザがアップロードしたデータを含み、
前記方法は、
シャム(Siamese)ニューラルネットワークを用いて、ユーザがアップロードしたデータを認証し、前記認証されたユーザがアップロードしたデータを認証することと、
認証されたユーザアップロードデータを認証データに追加することとをさらに含む、請求項1に記載の方法。
【請求項18】
メモリと、
前記メモリに結合されたプロセッサとを備え、
前記プロセッサは、
認証されたデータおよび分類法を用いて畳み込みニューラルネットワーク(CNN)を訓練し、
処理装置によって、入力データを含む問合せを受信し、
訓練されたCNNによって、認証されたデータおよび分類法の要素に関して入力データを分類し、
訓練されたCNNによって、入力データに最も近い一致を含む認証データおよび分類法の要素を含む結果を生成し、
デバイス上に前記結果を表示するように構成されており、
前記結果は、画像、ビデオ、テキスト、サウンド、拡張現実コンテンツ、仮想現実コンテンツ、または複合現実コンテンツのうちの1つまたは複数を含む、システム。
【請求項19】
前記認証されたデータは、著作権登録された著作物、メタデータ、およびテキストを含む、請求項18に記載のシステム。
【請求項20】
コンピューティングデバイスによって実行されるときに、コンピューティングデバイスに以下の動作を行わせる実行可能命令を含むコンピュータ-読出し可能非一時的記憶媒体であって、
前記動作は、
認証されたデータと分類法を用いて畳み込みニューラルネットワーク(CNN)を訓練することと、
処理装置によって、入力データを含む問合せを受信することと、
訓練されたCNNによって、認証されたデータおよび分類法の要素に関して入力データを分類することと、
訓練されたCNNによって、入力データに最も近い一致を見せる認証データおよび分類法の要素を含む結果を生成することと、
デバイス上に、画像、ビデオ、テキスト、サウンド、拡張現実コンテンツ、仮想現実コンテンツ、または複合現実コンテンツのうちの1つまたは複数を含む結果を表示することとを備える、コンピュータ-読出し可能非一時的記憶媒体。
【発明の詳細な説明】
【背景技術】
【0001】
人類の最も重要な発明の一つである自動車についての文化的知識は非常に細分化されており、容易に検索することができない。今日、ユーザは、道路を走行する車両のような物体を見ることができ、それが何であるか不思議に思うことがある。あるいは、高速道路を走行する自律走行車は、情報(例えば、車両の型、モデル、年式、停止距離など)および搭載された機器(例えば、通信デバイス、コンピュータシステムなど)を学習するために、その近傍にある車両のような物体を識別する必要性を有することがある。このような情報は、現在、信用がなく、断片化されており、分散されており、検索可能な形式で容易に利用可能ではない。
【0002】
社会がますますデジタル化されるにつれて、人工知能(AI)を用いて人間の知能を増強し、厳選された質問に答えるという利点が現れてきた。自動車情報の市場はセグメント化(細分化)され、一貫性がなく、各セグメントによって収集される情報の各々は互いに関係がない。そのため、情報を容易に検索することができない。各市場セグメントの各々は、異なるニーズを有しており、例えば、ユーザは、関心のあるものの中から、特定の車両、自動関連アーキテクチャ、および/または文化的アーチファクトを瞬時に識別する必要性を有している。一方、自律走行車は、その近傍にある他の車両を識別し、それらが持つ能力を利用する必要性を有している。
【0003】
2018年における自動車広告事業は、旅行、食品、自動車修理のための広告を除き、38兆ドルを超えた。自動車広告部門は、広告市場全体で2番目に大きな広告部門である。最大の顧客は、自動車ブランドの伝統に興味を持つ新車購入者向けの広告主、収集に値する車の愛好家市場、自動車部品市場、保険、旅行、識別されていないアセットを有するメディアアーカイブ(資料群)や図書館、ファミリー車両を示す出所不明の写真アルバムを持つ消費者である。さらなる商業的機会は、政治、セキュリティ、法執行、および娯楽産業にある。
【0004】
既存のプラットフォームは、車両を十分に識別することができない。これらのプラットフォームは、認証されていないデータからの推定のみを行える。これらのプラットフォームを使用して車両を認証しようとする人は誰でも、何時間も費やすことがあり、それにも関わらず、正確な製造者、モデル、および年式については不確定である可能性がある。これらのプラットフォームは、自動車データの検証可能なソースを有しておらず、自動車を正確に識別することは望み薄である。インターネットを検索したり、車両の所有者に尋ねたりすることによって自動車を確実に認証することは、困難であり、欲求不満となる。そもそも、重要な知識は人間の記憶から消えていく。
【0005】
ユーザが以下の行為を行うことを可能にする方法、システムおよびコンピュータプログラム製品が必要とされている。その行為とは、車両のようなオブジェクト(以下の記載では、物体、対象物と記すこともある)を識別し、検索すること、同時にそのような物体およびそれらの文化的歴史に関する出所を構築し、知識を保存すること、人工知能ツールを訓練することによって物体を即座に、かつ適切に識別すること、文化的歴史を保存し、車両の進化によって影響を受ける歴史的場所を売り込むこと、直接得た歴史的記録に基づいて自動車の出所を確立すること、物体(例えば、車両)についてユーザを祝い、教育すること、歴史から学び、形状の進化を助長すること、人間とコンピュータとの対話を探索すること、自動車の広告市場に対処することである。本明細書で説明されるシステム、方法、およびコンピュータプログラム製品は、認証されたデータを使用して車両などの物体を迅速かつ正確に識別することを可能にし、さらに、車や文化に関するインパクトなどの知識を容易に確証するツールを欠く物体に関する出所を構築しながら、任意の物体の周りに生ずる社会的データのための骨組みを設けることを可能にするものである。
【0006】
本開示は、例として例示され、限定としてではなく、図面に関連して考慮される場合、以下の詳細な説明を参照してより完全に理解され得る。
【図面の簡単な説明】
【0007】
【
図1】本開示の少なくとも1つの態様による、画像処理およびデータ分析のための例示的なシステムを概略的に示す図である。
【
図2】本開示の少なくとも1つの態様による、メディア分類および識別のための例示的なシステムへのデータ入力を処理するために使用され得る畳み込みニューラルネットワーク(CNN)の例示的な構造を概略的に示す図である。
【
図3】本開示の少なくとも1つの態様による、データ処理およびデータ分析の方法300の1つの例示的なフローダイヤグラムを示す図である。
【
図4】メディア分類および識別のための例示的なシステムからの結果を、拡張現実技術を介して、表示する方法360の1つの例示的な例のフローダイヤグラムを示す図である。
【
図5】本明細書で説明される方法およびシステムを実施するためのシステムのダイヤグラム示す図である。
【
図6】本開示の少なくとも1つの局面による、メディア分類および識別のための例示的なシステムで使用され得る計算クラスタシステムのダイヤグラムを示す図である。
【
図7】本明細書で説明されるシステムおよび方法を実施するコンピューティングデバイス(計算装置)の一例のダイヤグラムを示す図である。
【発明を実施するための形態】
【0008】
本明細書では、メディア分類および識別のため、ならびに結果をディスプレイ(例えば、携帯電話、モニタ、拡張現実装置、混合現実装置)上に表示するための方法、システム、およびコンピュータプログラム製品が説明される。システムおよび方法は車両、車両アーチファクト、および地理的位置に関して説明されているが、システムおよび方法は任意の物体に広く適用可能である。例示的な実施形態では、システムおよび方法が、建物(例えば、建築物)、衣服、橋、工具、高速道路、山、公園、河川、都市、家に転換された車などに関係し得る。したがって、本明細書で説明されるシステムおよび方法は、複数の撮像および/または他の画像取得機構の様々な組合せを伴い得る多種多様な物体に適用することができる。
【0009】
本開示は、車両、車両部品、車両アーチファクト、文化的アーチファクト、地理的位置などを含むがこれらに限定されない物体を識別し、分類し、研究し、分析するために利用され得る画像処理およびデータ分析のためのシステムおよび方法を提供することによって、上記および他の欠点を克服する。単独で、または地理的位置および/または文化遺産物体と組み合わせて、写真中のすべての物体を識別し、次いで、それらに関連付けた説明を行うことは、独特な挑戦を表す。これとは逆に、歴史的な場所および物体(例えば、自由の女神像)の単独の識別、または車両との組み合わせの識別は、自然言語処理(NLP)からマルチラベル画像分類および識別までの革新的なマッピングを示す、広範な記述的な視覚的説明を形成する。
【0010】
例示的な実施形態では、ユーザの説明およびコメントを伴う、出所が証明されている自動車の写真、映像、キーワードおよびキャプションのリポジトリ(宝庫)を使用して、固有のAIパイプラインを訓練して、情報を、画像分類のためのターゲット空間にマッピングすることができる。例えば、アップロードされたユーザ画像が与えられると、AIモデルは、アセットの関連するセクションの最も適切な要約を作成し、例えば自動車製造業者および年式の適切なモデルへの画像のマルチラベル分類を実行することができる。複数の自動車および文化的アーチファクト(例えば、グローブコンパートメント、スポーク、ステアリングホイール、車両リフトなど)を含む画像の場合、認識された物体のそれぞれの周りにバウンディングボックスを確立し、画像全体に適切な要約テキストを作成するという追加のタスクが存在し得る。
【0011】
同様に、車両記載、すなわち「プロトタイプを見せて」という記載を取得し、それをAI支援発見で、高品質著作権画像の独占的データベースに押し上げるという逆の問題は、特徴ベクトルが説明のNLP埋め込みを含むという道程を表す。ターゲット空間は、属性を共有する車画像の集合体から構成されてもよく、例えば、クエリ(処理要求)は、特定の10年間の実験車の集合体にマッピングされてもよい。これは単一の機械学習(ML)パイプラインを含むことができ、RNN(LSTM/GRU)およびBERT導出注意モデルは、画像分類のためのCNNアーキテクチャおよび正しい識別のためのシャムニューラルネットワーク(Siamese Neural Network; SNN)と相互作用する。群衆の知恵を含む協調的なユーザ検証プロセスを使用して、ユーザがエラーを指摘し、訂正を提案することができるように、画像拡張の精度を改善することができる。ある注釈が誤りであり、ユーザがそのようにマークした場合、そのようなデータは、次のラウンドのニューラルアーキテクチャ訓練に供給される。
【0012】
いくつかの実施形態において、本明細書で説明するシステムおよび方法は、画像(および/または映像)のピクセルレベルの分析を実行することができる。それによって、車両の画像、映像、および/または仮想環境(例えば、拡張現実、複合現実、仮想現実など)、車両アーチファクト(例えば、車両ツールの画像、ゴーグル、タコメータ、ホイールスポーク、ガス缶などの特徴要素)、および/または地理的位置を作り出す。本明細書で説明するシステムおよび方法は、メディア処理システムに入力された画像または映像が、メモリに格納された画像、映像、および/または地理的位置の少なくとも1つの特徴に一致する特徴を含むかどうかをさらに判定することができる。実施態様では、システムおよび方法が、訓練データセットおよび/またはデータベースリポジトリ内で識別された最も近い一致データ(例えば、クロスエントロピー関数に基づいて最も高い確率スコアを有するデータ)を含む結果を生成する。その結果は、歴史、メーカー、モデル、年式などの車両に関するテキスト情報と共に車両の画像を含むことができる。システムおよび方法はさらに、少なくとも1つの車両および/または地理的位置に関する履歴情報を生成することができ、そのような情報は、仮想環境内に表示することができる。いくつかの実施態様では、本明細書で説明するシステムおよび方法が、自律車両において実施され、そこでは、道路上の周囲車両の画像および/または映像を取得し、周囲車両のサイズ、製造者、モデル、および搭載機器を示す結果を生成する。一つの実施例において、本明細書に記載のシステムおよび方法を組み込んだ自律車両は、「編成」(platooning)のために訓練することができる。「編成」の一つの例では、自走モードまたは半自律モードで動作する車両がその近傍の他の車両を分析して、例えば、車両間(V2V)通信が可能な車両なのか、他の搭載機器、各車両の推定停止距離および子供、ボール、自転車、タンブルウィードなどの周囲の環境物体を決定する。次いで、自律走行車両はV2V車両と通信して、それらの車両に対する安全な速度および距離を維持することができる。すなわち、車両は、調和的に一緒に移動し、信号で一緒に停止することができる。V2Vが不可能な付近の車両は、すべて未知の変数とみなすことができる。他の実施形態では、「編成(platooning)」が,車両対インフラストラクチャ(V2I)構成で車両と通信することができる構造の自律車両による認識を含むことができる。インフラストラクチャが本明細書に記載される方法およびシステムを装備している場合、V2I通信用には装備されていない車両の変数を考慮に入れて、V2I車両の編成を強化するために、信号機をタイミング制御または調整することができる。
【0013】
本明細書に記載されるシステムおよび方法は、車両、車両アーチファクトおよび/または地理的サイト(例えば、歴史的サイト、文化的サイト)の高品質でデジタル著作権画像を含む独占的データベースを使用して、訓練され得るという恩恵を有する。その恩恵は、例えば、開示されたシステムおよび方法によって生成される結果の精度が、車両、車両アーチファクトおよび/または地理的位置を研究および分析する既知の方法よりも改善されるという点である。データベースは、映像、埋め込みメタデータおよびテキストをさらに含むことができる。データベース自体は著作権で保護されていてもよい。データベースおよびデータアセット(例えば、画像、映像、テキストなど)は、それ自体が著作権保護されているので、それらは、ニューラルネットワークを訓練することができる認証されたデータの本体を形成する。
【0014】
本明細書で説明されるシステムおよび方法は、メディア処理システムの一部を形成する畳み込みニューラルネットワーク(CNN)、またはCNNと再帰型ニューラルネットワーク(RNN)の両方の組合せを利用する。CNNは、画像データ(例えば、車両、車両アーチファクト、風景などの画像を含む)、映像データ(例えば、車両の映像、歴史サイトの映像など)、地理的位置データ(例えば、全地球測位システムからの)または取込データ(例えば、ユーザインターフェースを介して入力されたテキストクエリ、音声クエリ、自然言語クエリなど)のうちの1つまたは複数を処理することができる。それによって、車両情報、車両アーチファクト情報、地理的位置などに関して、分類を実行し、および/または車両、車両アーチファクト(artifact)および/または地理的位置に関連する重要な特徴に一致する少なくとも1つの画像、映像、地理的位置および/または取込クエリの確率を生成する。回帰画像、映像、および/または仮想環境は、例えば、テキスト、オーディオ、および映像の形式で、歴史、設計、機械などの情報を用いて、注釈付けおよび/または階層化(例えば、オーバーレイ、アンダーレイ)されてもよい。
【0015】
RNNは、非構造化データ、例えば、自然言語検索クエリおよび/または音声入力を処理して、自然言語処理(NLP)を提供する。非構造化データは、構造化データに変換され、これはCNNに供給され、上述のように処理される。例示的な実施形態では、ニューラルネットワークアーキテクチャが、歴史的および文化的関心のある重要な対象領域の周りのデータを保存および蓄積する目的で、自然言語処理(RNN)と画像分類および識別技法(CNN)とのハイブリッドを作り出す。
【0016】
CNNは、少なくとも1つの入力(例えば、画像ピクセル)に事前定義された一組の関数変換を適用し、次いで、変換されたデータを利用して、例えば、分類、識別、画像認識、パターン認識などを実行する、多段アルゴリズムに基づく計算モデルである。CNNは、フィードフォワードニューラルネットワーク(FFNN)として実施され得るものであり、そのニューロン間の結合パターンが動物の視覚皮質の組織によって刺激される。個々の皮質ニューロンは、受容体視野として知られる空間の限られた領域の刺激に応答する。異なるニューロンの受容体視野は、視野を覆うように部分的に重なり合っている。その受容体視野内の刺激に対する個々のニューロンの応答は、畳み込み演算によって数学的に近似することができる。画像処理に加えて、CNNは、テキスト、オーディオおよび映像などの他の入力タイプに使用されてもよい。本実施の形態では、本明細書に記載するように、画像をメディア処理システムに入力することができ、CNNはそのデータを処理する。例えば、ユーザがフォード・サンダーバード(登録商標)自動車の写真を入力した場合、メディア処理システムは、フォード・サンダーバードの画像を、メーカー、モデル、年式、歴史、および写真および背景を取り囲む任意の既知の文脈情報とともに出力することができる。
【0017】
例示的な例では、CNNが畳み込み層、非線形層(例えば、調整された線形ユニット(ReLU)によって実装される)、プーリング層、および分類(完全に接続された)層を含む、様々なタイプの複数の層を含んでもよい。畳み込み層は、入力画像に1つ以上の学習可能なピクセルレベルフィルタを適用することによって、入力画像から特徴を抽出することができる。例示的な例では、ピクセルレベルフィルタが整数値の行列によって表されてもよい。整数値の行列は入力画像の面積にわたって畳み込まれて、各空間位置におけるフィルタのエントリと入力画像との間のドット成果物を計算し、したがって、入力画像のすべての空間位置におけるフィルタの応答を表す特徴マップを生成する。畳み込みフィルタは、入力画像内の有意な特徴の存在を示すパターンおよび領域を検出するために、訓練データセットに基づいてネットワーク訓練段階で定義される。
【0018】
畳込み層によって生成された特徴マップに非線形演算が適用されてもよい。例示的な例では、非線形演算が特徴マップ内のすべての負のピクセル値をゼロで置き換えるリニア化ユニット(ReLU)によって表すことができる。々な他の実施形態では、非線形演算が双曲線正接関数、S字関数、または他の適切な非線形関数によって表すことができる。
【0019】
プーリング層は最も関連性のある情報を保持しながら、サブサンプリングを実行して、解像度が低減された特徴マップを生成することができる。サブサンプリングは、画素のグループの最大値を平均化および/または決定することを含み得る。
【0020】
いくつかの実施形態では、畳み込み、非線形、およびプーリング層は結果が分類層(全結合層)に送信される前に、入力画像に複数回適用され得る。これらの層とともに、入力画像から有用な特徴を抽出し、非線形性を導入し、画像解像度を低下させる。その際に、それらの特徴を、入力画像のスケーリング、歪み、および小さな変換に対して低感度にする。
【0021】
畳み込み層とプーリング層からの出力は、入力画像の高レベルの特徴を表す。分類層の目的は、入力画像を様々なクラスに分類するためにこれらの特徴を使用することである。例示的な実施例では、分類層が、複数のニューロンを含む人工ニューラルネットワークによって表されてもよい。各ニューロンは。他のニューロンから、または外部ソースから入力を受け取り、重み付けされた入力と訓練可能なバイアス値との和に活性化関数を適用することによって出力を生成する。ニューラルネットワークは、入力層、少なくとも1つの隠れ層、および出力層を含む層に配置された複数のニューロンを含むことができる。隣接する層からのニューロンは、重み付けされたエッジによって接続される。「完全に接続された」という用語は、前の層のすべてのニューロンが次の層のすべてのニューロンに接続されていることを意味する。
【0022】
エッジ重みは、訓練データセットに基づいてネットワーク訓練段階で定義される。例示的な例では、エッジ重みのすべてがランダム値に初期化される。訓練データセット内の入力ごとに、ニューラルネットワークが起動される。ニューラルネットワークの観測された出力は、訓練データセットによって指定された所望の出力と比較され、誤差はニューラルネットワークの以前の層に伝播され、ニューラルネットワークの以前の層ではそれに応じて重みが調整される。このプロセスは、出力エラーが所定の閾値未満になるまで繰り返される。
【0023】
CNNは、SNN構成で実施することができる。SNN 構成には、2 つ以上の同一のサブネットワーク部品が含まれる。本実施の形態では、サブネットワークのアーキテクチャが同一であるだけでなく、ウェイトもそれらの間で共有される。SNNは、サブネットワークの入力(例えば、画像データ、映像データ、入力データ、地理的位置データなど)を比較するために使用され得る有用なデータ記述を学習する。例えば、入力は、サブネットワークとしてCNNをもつ画像データであってもよい。
【0024】
CNNは、一緒に動作する2つのネットワークを指すジェネラティブ・アドヴァーサリアル・ネットワーク(Generative Adversarial Network:GAN)において実施され得る。GANは任意の2つのネットワーク(例えば、FFNNとCNNとの組合せ)を含むことができ、一方はコンテンツを生成するように割り当てられ、他方はコンテンツを判断するように割り当てられる。識別ネットワークは、生成ネットワークから、訓練データまたは生成コンテンツのいずれかを受信する。次に、データソースを正しく予測するための識別ネットワークの能力が、生成ネットワークのエラーの一部として使用される。これは、競争の形を作り出し、そこでは、弁別器が、生成されたデータから実際のデータを区別する際により良くなり、発生器が弁別器に対する予測性を低下するようになることを学習する。非常に複雑な雑音パターンでさえも予測可能になり得るが、入力データに特徴が類似する生成されたコンテンツは区別することを学習することがより困難である。2つのネットワーク間のダイナミクスはバランスされる必要があり、予測または生成が他方と比較して良好すぎる場合、固有の発散があるので、GANは収束しない。
【0025】
RNNは、パス間および時間を通して接続するFFNNとして説明され得る。RNNは、それが供給される現在の入力だけでなく、それが時間的に以前に知覚したものも受信する。RNNでは、ニューロンに、以前の層からの情報だけでなく、以前のパスからの情報も供給することができる。テキストまたは写真のストリングは、一度に1つのピクセルまたは文字を供給されることができ、その結果、時間依存の重みは、順に以前にやってきたものに対して使用されることができるものであり、特定の時間(例えば、x秒)前に実際に起こったことに対して使用されるものではない。RNNは、エラーの保存を助け、層および時間を介してエラーを逆伝播する長い短期メモリ(Long Short-Term Memory:LSTM)として実施されてもよい。LSTMは、ゲートセル(a gated cell)におけるRNNの通常のフローの外側の情報を含む。情報はコンピュータのメモリ内のデータと同様に、セルに書き込んだり、セルに格納したり、セルから読み取ったりすることができる。セルはいつ読出し、書込み、および消去を許可するか、および開閉するゲートを介して何を記憶するかについての決定を行うことができる。これらのゲートはアナログであり、シグモイド(sigmoid)(すなわち、0~1の範囲内の全て)による要素ごとの乗算で実施される。
【0026】
RNNは、とりわけ質問応答および自然言語推論を含むNLPタスクを実行するために、トランスフォーマからの双方向エンコーダ表現(BERT)を用いて実施され得る。トランスフォーマベースの言語モデルを使用するBERTは、NLPタスクの精度を提供する言語表現モデルである。トランスフォーマ(変換器)は、符号化ステップにおいて、学習された単語埋め込みを使用して、ワンホットベクトル形式の単語を単語埋め込みベクトルに変換することができ、各単語埋め込みベクトルに対して、1つの出力ベクトルが存在する。BERTならびにその変異体およびトランスフォーマは、単独で、またはRNNとの任意の組合せで、本明細書の実施によるNLPタスクに適している。
【0027】
自然言語処理(Natural Language Processing (NLP))は、音声や文字として人間の言語を処理して生成するコンピュータプログラムの能力である。本実施の形態では、NLP(例えば、テキスト分類とテキスト生成を含む)を実行するために、1つ以上の再帰型ニューラルネットワーク(RNN)が構築される。本実施の形態のニューラルネットワークは層を持ち、各層は、入力セル、隠れセル、または出力セルのいずれかを並列に含む。一般に、2つの隣接する層は、完全に接続される(すなわち、すべてのニューロンが、すべてのニューロンに対して別の層である1つの層を形成する)。例えば、ネットワークは、論理ゲートをモデル化するために使用することができる2つの入力セル及び1つの出力セルを有することができる。
【0028】
拡張現実は仮想環境と仮想現実の組合せを指し、現実世界の画像とコンピュータグラフィック画像のような仮想世界の画像とを組合せる。拡張現実は、セミデジタル体験である。拡張現実の実施形態では、実画像を受信する画像キャプチャデバイス(例えば、カメラ、電話、ビデオレコーダなど)と、表示デバイス(例えば、実画像および仮想画像の両方を表示することができるヘッドマウントディスプレイ)とが、一緒に使用される。拡張現実を使用して、車両は例えば、特定の日付、時間、および/または気象条件に関連付けることができる地理的位置に重ね合わせることができる。特定の特徴および/または部品を識別するために、車両の画像上にラインを描くことができる。それらは、特定の設計タイプ、履歴時間、および/または文化的傾向に関連付けられてもよいし、関連付けられなくてもよい。
【0029】
仮想現実は、様々な入力および出力技術を使用して人間とコンピュータとの会話スキルを向上させることによって、人間およびコンピュータが効果的に対話し、通信することができる没入型環境を作り出す完全なデジタル体験である。このような技術は例えば、ヘッドマウントディスプレイ、データグローブ、またはモーションキャプチャシステムの使用を含む。これらの技法は、頭部、手、または他の運動(例えば、位置、方向など)を監視することによって、ユーザの位置の変化に関するデータを受信し、そのデータをコンピュータに送信し、コンピュータはユーザの視角内の物体のサイズおよび奥行きを(例えば、3D座標空間で)シミュレートする。
【0030】
複合現実とは、現実世界を仮想世界と合体させて新しい環境を作り出し、そこでは、物理的およびデジタル物体がリアルタイムで互いに相互作用する。複合現実では、実画像が画像取得デバイス(例えば、カメラ)を使用して取得することができ、環境内でユーザが向いている方向は取得された実画像に基づく。そして、ユーザの位置と所定の物体の位置との関係を決定し、その計算結果として得られたデータを、撮像された実世界画像上に重ねて仮想空間に表示する。複合現実は、典型的にはディスプレイデバイスと共に画像キャプチャデバイスを使用して実現される。
【0031】
図1は、本開示の少なくとも1つの態様による、画像処理およびデータ分析のための例示的なシステム100を概略的に示す。
【0032】
図1に概略的に示されているように、CNN 120および任意選択のRNN 122は、処理デバイス124およびメモリ126とともに、メディア処理システム101を形成する。メディア処理システム101は、画像データ110、映像データ112、地理的位置データ114、および入力データ116を処理して、画像分類結果130および/または仮想表示結果132を生成するために使用され得る。画像データ110は例えば、カメラによって取得された、またはスキャンされた少なくとも1つのデジタル画像を含むことができ、メモリに格納することができる。映像データ112は、例えば音声映像(オーディオビジュアル)記録装置またはダビング装置によって取得された、メモリに記憶され得る少なくとも1つのデジタル映像を含むことができる。地理的位置データ114は、経度、緯度、国、地域、歴史的または文化的な場所(例えば、ブルックリン橋)、都市、郵便番号、時間帯、道路地点、セルタワー信号などの例えば全地球測位システム(GPS)からの情報、ユーザインターフェースおよび/または他のナビゲーションシステムへの入力を含むことができる 。入力データ116は、ユーザインターフェースを介して入力されたキーワード検索クエリのような構造化データ、および/またはユーザインターフェースを介して入力された非構造化データを含んでもよい。非構造化データは、書かれた又は話された自然言語を含むことができる。
【0033】
CNN 120は、画像データ110、映像データ112、地理的位置データ114、および構造化入力データ116を処理して、例えば、車両情報(例えば、メーカー、モデル、年式、コンバーチブルセダン、スポーツユーティリティ車両またはSUV、プロトタイプなど)、車両アーチファクト(例えば、工具、ステアリングホイール、リフト、スポークなど)、および/または地理的位置(例えば、文化的な場所、歴史的な場所、名所など)に関して、画像分類結果130および/または仮想表示結果132を生成することができる。RNN 122は、入力データ116の非構造化データ(すなわち、自然言語処理)を処理して、構造化データを生成することができる。構造化されたデータは、本明細書で説明されるような処理のために、RNN 122からCNN 120に供給され得る。例示的な一例では、CNN 120は、画像データ110、映像データ112、地理的位置データ114、入力データ116、およびRNN 112からの構造化データを、データベース(例えば、高品質著作権画像および他の作品の適正データベース)からの画像およびデータと関連付けすることができる。それによって、例えば車両および/または地理的位置に関連してマッチングする重要な画像特徴を含む少なくとも1つの画像の見込みをもたらす。メディア処理システム101はまた、画像分類結果130の一部として、車両および/または地理的位置に関する歴史的、機械的、文化的、および他の情報を返すことができる。
【0034】
CNN120およびRNN122はとりわけ、非公開データ、公開データ、画像、映像、テキスト(例えば、ストーリー、様々な(例えば、数千の)車両に関するニュース記事、メモ、印刷されていない本など)、および/または地理的位置を含む、包括的かつ正確な訓練データセット140を使用して事前訓練されてもよい。車両または地理的位置ごとに、訓練データセットは複数のピクセルレベルの、任意選択で注釈を付けられた車両画像142および地理画像146を含むことができ、また、関連するテキスト144(例えば、歴史、ストーリー、説明、本、記事、図面、スケッチなど)を含むこともできる。本明細書の実施形態による訓練データセット140は、著作権のある画像、映像、およびテキスト(例えば、車両にまつわる20世紀の歴史、著作権のない本、車両に関する個人的な追想録、レースに関する物語、黄銅の時代に使用された金属)を含み、数十年にわたって構築された、独特の、包括的な、独占的な本体(約50万のアセットを含み、国会図書館での適時の著作権登録の記録を通して出所を検証する)であってもよい。著作権のある成果物(すなわち、認証されたデータ)は、とりわけ、自動車と、世界文化(時間、場所、歴史的文脈、およびメディアアセットに取り込まれた重要な背景アーキテクチャを含む)に対するそれらの影響とを識別する。最初に、訓練データセット140は、認証された著作権保護されたデータベースに含まれてもよい。訓練データセット内に含まれるアセットのすべてが著作権保護され、認証される。さらなる実施形態では、訓練データセット140がユーザによって入力されたデータ、および著作権登録されていないさらなるデータアセットを含むように拡張することができ、そのようなさらなるアセットは、学術的(例えば、引用文献および調査)であろうと、他の手段によって、または本明細書の実施形態によるSNNを使用することによって認証することができる。二次的ツイン(secondary twin)は、CNNに逆らって逆行する。訓練データセット140は、本明細書で説明されるシステムおよび方法で使用される場合、包括的かつ正確であるが、より発達した認証されたデータとともに成長し、発展する。
【0035】
一実施形態では、CNN 120の訓練が訓練データセット内の入力画像のすべてのセットに対してCNN 120を起動することを含むことができる。観測出力(例えば、CNN 120によって生成された画像)は訓練データセットによって指定された所望の出力(例えば、予想画像)と比較され、誤差が計算され、CNN 120のパラメータが調整される。このプロセスは、出力エラーが所定の閾値未満になるまで繰り返される。
【0036】
一実施形態では、RNN 122の訓練が訓練データセット内の非構造化データ入力のすべてのセットに対してRNN 120を活動化することを含むことができる。観測出力(例えば、CNN 120によって生成された構造化クエリ)は訓練データセットによって指定された所望の出力(例えば、予測されたクエリ)と比較され、エラーが計算され、それに応じてRNN 122のパラメータが調整される。実施形態では、このプロセスが出力エラーが所定の閾値未満になるまで繰り返されてもよい。RNNおよび深層学習モデルを使用する実施形態では、メディア処理システム101が機能し、相互関連データから推論を引き出すことができる。
【0037】
メディア処理システム101は、仮想現実、拡張現実、および/または複合現実環境において、仮想表示結果132を生成することができる。1つの例示的な例では、少なくとも1つの画像、映像、説明、音声記録などは、画像取得デバイス(例えば、カメラ、レコーダなど)によって取得された画像上に階層化され、ディスプレイ上に提示され得る。例えば、ユーザはリアルタイムで画像を取得するために画像取得デバイス(例えば、携帯電話)を使用することができ、メディア処理システム101は出力デバイス(例えば、ヘッドマウントディスプレイ)で見られるように、取得された画像上の画像、映像、およびテキストをオーバーレイまたはアンダーレイすることができる。
【0038】
1つの例示的な例では、CNNが自動車を識別するように訓練されてもよい。メディア処理システム101は、データ110、112、114、116を処理し、ユーザがメディア処理システム101に事実を学習するようクエリ要求し、特定の自動車の写真を見ることを可能にすることによって、自動車を識別し、車両履歴を保存することができる。実施態様では、メディア処理システム101が(例えば、画像分類結果130の一部として)返された画像を取り囲む履歴情報を提供し、その履歴情報のキュレーション(情報を集めて整理(公開・共有)すること)を引き起こすことができる。複数種類のクエリがサポートされている場合がある。たとえば、モデルをクエリするための写真アップロード(CNN) や音声入力(RNN) などである。
【0039】
図2は本開示の少なくとも1つの態様に従って、画像分類結果130および/または仮想表示結果132を生成するために、画像データ110、映像データ112、地理的位置データ114、および入力データ116を処理するために使用され得るCNN 120の例示的な構造を概略的に示す。いくつかの実施形態では、取得された画像が例えば、クロッピング(画像の切り出し)によって前処理されてもよく、クロッピング(画像の切り出し)は各フレームのいくつかの無関係な部分を除去するために実行されてもよい。例示的な実施例では、1024×1024ピクセルの解像度を有する画像が矩形画像の各辺から100ピクセル幅の画像マージンを除去するために切り取られてもよい。別の例示的な例では、自動車が輪郭取りされて、ノイズとなる背景要素から切り離されてもよい。
【0040】
図2によって概略的に示されるように、CNN 120は、1つ以上の画像を含む画像データ110を受け取る第1畳み込み層210Aを含んでもよい。第1畳み込み層210Aに続いて、圧縮層220Aおよび220B、ならびにプーリング層230が続き、次いで、全結合層240および第2畳み込み層210Bが続く。第2畳み込み層210Bは画像データ110の少なくとも1つの入力画像に対応する少なくとも1つの画像260を出力し、生成されたデータと訓練データセットとの間の差を反映する損失値250をさらに生成することができる。いくつかの実施形態では、損失値が経験的に決定され得るか、または事前定義された値(例えば、0.1)に設定され得る。
【0041】
ある実施形態では、損失値が以下のように決定される。
【0042】
【0043】
ここで、xは第2畳み込み層210Bによって生成される画素値であり、yは対応する出力画像画素の値である。[0047]各畳み込み層210A、210Bは、入力画像のシーケンスを表す3次元マトリクスに1つ以上の学習可能な画素レベルフィルタを適用することによって、入力データ110からの一連の入力画像から特徴を抽出することができる。画素レベルフィルタは整数値の行列によって表すことができ、整数値の行列は入力画像の次元にわたって畳み込まれて、各空間位置におけるフィルタのエントリと入力画像のエントリとの間のドット積を計算し、入力画像のすべての空間位置における第1畳み込み層210Aの応答を表す特徴マップを生成する。例示的な例では、第1畳み込み層210Aが2×2×2の寸法を有する10個のフィルタを含むことができる。第2畳み込み層210Bは複数の画像画素を表すマトリクスを生成するために、前の層によって生成された全ての値を順にマージすることができる。
【0044】
図3は、本開示の少なくとも1つの態様による、入力データを分類および識別する方法300の1つの例示的な例の流れ図を示す。方法300および/またはその個々の機能、ルーチン、サブルーチン、または動作の各々は方法を実行するコンピュータシステム(例えば、
図1のシステム100および/または処理デバイス124)の少なくとも1つのプロセッサによって実行され得る。いくつかの実施形態では、方法300が単一の処理スレッドによって実行され得る。あるいは方法300が2つ以上の処理スレッドによって実行されてもよく、各スレッドは方法の1つ以上の個別の機能、ルーチン、サブルーチン、または操作を実行してもよい。例示的な例では、方法300を実施する処理スレッドが(例えば、セマフォ、クリティカルセクション、および/または他のスレッド同期機構を使用して)同期され得る。あるいは、方法300を実施する処理スレッドが互いに非同期に実行されてもよい。
【0045】
ブロック310において、本方法を実行する処理デバイスは、認証されたデータおよび分類法(タクソノミー)を使用してCNNを訓練することができる。実施形態では認証されたデータが著作権で登録された著作物を含むことができ、著作権で登録された著作物には著作権画像、映像、テキスト、ストーリー、スケッチなどが含まれるが、これらに限定されない。認証されたデータはデータベースに記憶され、データベース自体は著作権登録される可能性がある。分類法は、データアセットを分類し、識別するために使用されてもよい。
【0046】
ブロック320において、処理デバイスは、入力データを含むクエリを受信することができる。入力データは本明細書の実施形態による、画像データ、映像データ、取込データ、および/または地理的位置データを含むことができるが、これらに限定されない。本実施の形態では、取込データがキーワードまたはテキストの文字列形式であってもよいし、タイプされたデータ形式であってもよいし、話し言葉のような構造化されていないデータ形式であってもよい。本方法は、RNNを訓練して、取込データの非構造化データを処理して、CNNによる処理に適した構造化データを形成するステップをさらに含むことができる。次いで、CNNは、構造化データを処理することができる。
【0047】
ブロック330において、処理デバイスは、訓練されたCNNによって、認証されたデータおよび分類の要素に関する入力データを分類することができる。分類中、CNNは、入力データの特徴を、認証されたデータの少なくとも1つの特徴および/または分類の要素に一致させることができる。例えば、入力データが画像を含む場合、CNNは画像のピクセルをスキャンし、特徴を識別し、次いで、特徴を認証されたデータ内の最も一致する特徴と一致させ、かつ/または分類法で分類されるものと一致させることができる。
【0048】
ブロック340において、処理デバイスは訓練されたCNNによって結果を生成することができ、この結果は、認証されたデータと、入力データに最も近い一致を含む分類の要素とを含む。例えば、5つの特徴が認証されたデータの5つのアセットそれぞれに一致する80%、82%、90%、95%および99%の確率を有する場合、返された結果は、入力データに一致する90%以上の確率を有する特徴を有する画像のみを含むことができる。
【0049】
ブロック350で、処理デバイスは結果を装置上に表示することができ、結果は、画像、映像、テキスト、サウンド、拡張現実コンテンツ、仮想現実コンテンツ、および/または複合現実コンテンツのうちの1つまたは複数を含む。本実施の形態では、結果は情報と重ねられてもよい。例えば、表示された画像は、テキスト、映像および/または画像内のオブジェクトに関する履歴情報で注釈を付けることができる。
【0050】
入力データを分類および識別する方法300の別の例示的な例では、本開示の少なくとも1つの態様によれば、方法を実行する処理デバイスは、少なくとも1つの車両および/または地理的位置の複数の画像を処理するために使用されるCNNの少なくとも1つのパラメータを決定するために、複数の入力画像を備える訓練データセットを処理することができる。様々な例示的な例では、CNNのパラメータが畳み込みフィルタ値及び/又は全結合層のエッジ重みを含み得る。例示的な例では、複数の入力画像が少なくとも1つの車両画像を含む。
【0051】
1つ以上の車両画像は車両単独で、または地理的位置(例えば、ルート66上のフォードモデルT)と組み合わせて、車両を図示することができる。
【0052】
本方法を実行する処理デバイスは任意に、自然言語クエリーおよび音声クエリーの形成でメディア処理システム101に入力される非構造化データを処理するために採用されるべきRNNの1つ以上のパラメータを決定するために、非構造化データを含む訓練データセットを処理し、CNNのための構造化データを生成することができる。様々な例示例において、RNNは例えば、非構造化された書かれた、および/または音声入力を使用して自然言語処理を行うように訓練される。
【0053】
メディア処理システム101は(a)(例えば、車両および/または地理的位置の)少なくとも1つの入力画像を含む画像データ、(b)(例えば、車両および/または地理的位置の)少なくとも1つの入力映像を含む映像データ、(c)キーワード、検索クエリ、および(例えば、車両および/または地理的位置に関する)非構造化データのうちの少なくとも1つを含む入力データ、ならびに(d)デバイスの位置を含む地理的位置データのうちの1つまたは複数を受信することができる。例示的な例では、メディア処理システム101が自動車の画像を単独で、または「この車の芸術的なデザインの特徴を見せて」と言う音声要求と一緒に受信することができる。
【0054】
本方法を実行する処理デバイスは、メディア処理システム101のRNNによって、受信された入力データの非構造化データを、選択的に処理することができる。RNNは、処理のためにCNNに供給される構造化データを出力する。前述の例示的な例では、RNNが「この車の芸術的なデザインの特徴を見せて」と言う音声要求の自然言語処理を実行することができる。
【0055】
本方法を実行する処理デバイスは、メディア処理システム101のCNNによって、i)例えば、車両情報および/または車両の地理的位置に関する、少なくとも1つの入力画像を分類するための画像データ110と、ii)例えば、車両情報および/または車両の地理的位置に関する、少なくとも1つの映像を分類するための映像データ112と、iii)キーワードまたは検索クエリのうちの少なくとも1つを分類するための構造化入力データ116と、iv)RNN(330)からの構造化データと、v)少なくとも1つの画像、映像および/または仮想表示を生成するための地理的位置データ114とのうちの1つまたは複数を処理することができる。画像データ、映像データ、地理的位置データ、入力データ、および有意な画像特徴を含むRNNデータの確率は、クロスエントロピー関数によって決定することができ、その誤差信号は、所望の出力値と実際の出力値との間の差に正比例する。前述の例示的な例では、自動車の画像およびCNNが「この車の芸術的なデザインの特徴を見せて」と言う音声要求を反映した、RNNの出力を処理することができる。
【0056】
本方法を実行する処理デバイスはメディア処理システムによって、(例えば、車両および/または地理的位置の)画像、(例えば、車両および地理的位置の)映像、(例えば、車両および/または地理的位置の)履歴、および/または他のテキスト情報のうちの少なくとも1つを含む結果を生成することができる。前述の例示的な例では、メディア処理システム101が自動車のメーカー、モデル、および年式を提供するテキスト単体で、またはこれらを組み合わせて、自動車の画像を生成することができる。生成された画像はまた、自動車の芸術的特徴を識別するラインおよびテキストで注釈付けされてもよい。
【0057】
この方法を実行する処理デバイスは結果を表示する。結果は、例えば携帯電話、iPad(登録商標)、モニタなどのユーザデバイス上に、または仮想現実、拡張現実、および/または複合現実システムのヘッドマウントディスプレイなどの仮想デバイス内に表示されることができる。
【0058】
図4は、本開示の少なくとも1つの態様による、結果を表示する方法360の1つの例示的な例の流れ図を示す。方法360および/またはその個々の機能、ルーチン、サブルーチン、または動作の各々は方法を実行するコンピュータシステムの少なくとも1つのプロセッサ(たとえば、
図1のシステム100および/または処理デバイス124)によって実行され得る。いくつかの実施形態では、方法360が単一の処理スレッドによって実行され得る。あるいは方法360が2つ以上の処理スレッドによって実行されてもよく、各スレッドは方法の1つ以上の個別の機能、ルーチン、サブルーチン、または操作を実行してもよい。例示的な例では、方法360を実装する処理スレッドが、例えば、セマフォ、クリティカルセクション、および/または他のスレッド同期機構を使用して同期され得る。あるいは、方法300を実装する処理スレッドが互いに非同期に実行されてもよい。
【0059】
例示的な方法360は、ディスプレイデバイス上に拡張現実ディスプレイを生成する。ブロック410において、本方法を実行する処理デバイスは、例えばヘッドマウントディスプレイのような拡張現実装置を装着しているユーザの視線方向を決定する。視線方向はヘッドセットの中心(例えば、前方を見る)およびヘッド位置に対する角度によって決定されてもよい。
【0060】
ブロック420において、方法を実行する処理デバイスは、ユーザと拡張現実装置との間の距離を使用して拡張現実装置の姿勢を決定する。
距離は、1つ以上の距離センサによって測定されてもよい。
【0061】
ブロック430において、方法を実行する処理デバイスは、ユーザの視線方向および拡張現実装置の姿勢に基づいて、拡張現実装置の画像入力の方向を制御する。例示的な例では、拡張現実装置が例えば、水平または垂直にデジタルカメラの方向を調整する駆動ユニットを含む。その結果、デジタルカメラに入射する被写体画像に対応する被写体(例えば、車両)が、拡張現実装置が固定されている場合でさえ選択され得る。
【0062】
ブロック440において、本方法を実行する処理デバイスは、画像入力の方向に1つ以上の被写体(例えば、車両)の画像を受信する。画像を記録及び記憶するためのカメラ又は他のデバイスを使用して、画像を取得することができる。
【0063】
ブロック450において、本方法を実行する処理デバイスは、1つ以上の被写体の画像をデジタル画像と合成することによって合成画像を生成する。
例示的な例では、合成画像が少なくとも1つの被写体の画像と共に画像、映像、およびテキストをレイヤ化して、拡張現実環境を生成する。
【0064】
ブロック460において、本方法を実行する処理デバイスは、合成画像を表示する。合成された画像は、ヘッドマウントディスプレイなどの拡張現実装置に表示されてもよい。例示的な実施例では、ユーザが世界中の地理的位置の映像が下に置かれたユーザの携帯電話を使用して取得された自動車の画像を見ることができる。画像は追加的に又は代替的に、自動車の異なる特徴を指し示す矢印のようなテキストで注釈付けされてもよい。ディスプレイはまた、音声情報および/または音楽、例えば、自動車の履歴の(例えば、人間またはボットによって話された)音声の説明を伴ってもよい。
【0065】
図5は本開示の少なくとも1つの態様による、画像処理およびデータ分析のための、クラウドベースのマイクロサーバ駆動アーキテクチャ(集合的に「アーキテクチャ」と呼ばれる)500とともに、ニューラルネットワークアーキテクチャおよびデータパイプラインの例を概略的に示す。
図5に概略的に示すように、アーキテクチャ500はメモリ(図示せず)と、メモリ内およびディスク上の両方の記憶装置用に構成されたデータベース510(例えば、MongoDB(登録商標)、Hbase(登録商標))とを含む。データベース510は、画像を分類および識別するための少なくとも1つの訓練された機械学習モデル512を含むことができる。実施形態では、ストレージまたはパーシスタンス層が、画像、メタデータを多次元キューブウェアハウスとして、MLモデル、テキストの説明、検索インデックス、および処理用データベースの基礎となるソフトウェア/アプリケーションとして格納することができる。アーキテクチャ500は、複数のコンテナ化マイクロサーバ522A~Cをさらに含むことができる。様々な実施例では、ランタイムロジック実行層が(例えば、Kubernetes l 8’を使用して)表現状態転送(REST)アプリケーションプログラミングインターフェース(API)を公開するドッキングコンテナベースのマイクロサービスの集合であってもよい。各要素511、513および515は対応するマイクロサービス522 A、BおよびCが分析するように訓練される分類学的特徴を表す。
【0066】
システム500は例えば、メディア処理システム101およびシステム100を含み、方法300および360を実行するように構成されたウェブアプリケーション532をさらに含むことができる。ウェブアプリケーション532はセキュリティを提供するために、非武装地帯(DMZ)ネットワーク530上に格納されてもよい。ユーザコメントおよび格付けから成る仮想メモリ部品534も、DMZネットワーク530上に格納され得る(すなわち、これらのコメントは、認証されるまで、訓練データセット140に追加されない)。システム500は、コンテンツの高い利用可能性を保証するために、プロキシサーバのコンテンツ配信ネットワークであるコンテンツ配信ネットワーク540をさらに含んでもよい。システム500は、少なくとも1つのアプリユーザ550がウェブアプリ532にアクセスし、結果を例えば携帯電話552Aまたはラップトップ552Bのようなユーザデバイス上で見ることができるウェブ提示層をさらに含んでもよい。様々な例示的実施形態では、プレゼンテーション層(例えば、ReactJS(登録商標))は、ウェブプレゼンテーション層(例えば、19HTML5/CSS)をレンダリング(表現)するために使用されてもよい。アーキテクチャは、クラウドまたは分散ネットワーク(例えば、Tim Berners-Leeを介したSOLID)で実施することができる。
【0067】
アーキテクチャ500は、アーキテクチャ500の構成要素間にサイバーセキュリティ層を提供するデジタルウォール560、562、564をさらに含むことができる。ウォール560は、DMZ 530内のパブリックウェブおよびアプリケーションユーザデバイス550と、ウェブアプリケーション532および仮想コンポーネント534との間に実装することができる。ウォール562は、DMZ 530とマイクロサーバ520、522A~Cとの間に実装されてもよい。ウォール564は、マイクロサーバ520とデータベース510との間に実装されてもよい。
【0068】
本明細書で説明される方法およびシステムの様々な例示的な実施形態によれば、CNNモデルは例えば、車両の製造メーカー、型、および製造年を識別するために、マルチラベル分類器を用いて実装され得る。これらの分類器は例えば、ResNet、VGG-19および/またはInceptionを使用して、TensorFlow(登録商標)およびKeras(登録商標)において実施され得る。本実施の形態の一態様によれば、これらはNLP埋め込み空間の領域に入ることを予測する密に接続された層に入る。この埋め込み空間は、関連するテキストアーチファクトを識別するためにNLPと共に使用される可能性がある。本実施の形態の一態様によれば、CNNを含む訓練されたSNNは、車両認証のために使用され得る。SNNは、コントラスト損失関数を使用して、サンプルを参照/フィンガープリントオブジェクトと比較することができる。
【0069】
本明細書で説明された方法およびシステムの様々な実施形態によれば、RNNモデルは、LSTM、ゲート付き回帰型ユニット(GRU)、およびアテンションモデルを用いて実施され得る。例えば、説明文を記入するユーザは、既に本物の履歴としてキュレーションされているものに加えて、RNN(LSTM/GRU)およびBERTのようなアテンションモデルに基づいてNLPモデルに入力し、説明文を通してユーザが自動車を見つけるのを支援する。CNN認識オブジェクトおよびそれらに関連するメタタグは、車両にマッピングするためにNLP結果において役割を果たすことができる。
【0070】
様々な実施態様によれば、メディア処理システム101は、マルチラベル分類器と比較した場合、約75%を超える精度、または約80%を超える精度、または約85%を超える精度、または約90%を超える精度、または約95%を超える精度、または約99%を超える精度を達成することができる。
【0071】
例示的な実施によれば、90%を超える精度率は、より人気があるか、または一般的な自動車について達成され得る。より珍しい自動車のような、あまり一般的でなかったり、限定生産された自動車では、約80%以上の正解率が達成される可能性がある。様々な例示的実施形態によれば、車両群が広範な説明から決定され得る。例えば、ユーザが「 フォード・マスタング(登録商標)を全て見せて」などの広範な記述を提供する場合、メディア処理システム101は、テキストが十分に記述的であるときに記述された車両を識別または認識する際に、90%を超える精度を提供することができる。文化遺産画像の場合、様々な実施態様では、メディア処理システム101が約80%を超える、または約85%を超える、または約90%を超える、または約95%を超える、または約99%を超える精度を提供することができる。例えば、メディア処理システム101は、クエリに一致する確率が約80%を超える結果を返すことができる。
【0072】
図6は、本開示の少なくとも1つの態様による、画像処理およびデータ分析のための例示的なシステムで使用され得るサーバ構成600の図を示す。
【0073】
サーバ構成600はマスタオープンソース管理ツールサーバおよびエージェント612(例えば、AmbariサーバおよびAmbariエージェント)を有する計算クラスタ610(例えば、Hadoopクラスタ)であってもよい。計算クラスタ610は、一対のスレーブエージェント614A~Bをさらに含むことができる。Hadoopクラスタは分散コンピューティング環境において大量の非構造化データを格納し、分析するように設計された一種の計算クラスタである。このようなクラスタは、低価格のコモディティコンピュータ上でHadoopのオープンソース分散処理ソフトウェアを実行する。クラスタは、大量の計算とデータを必要とする問題を多くのコンピュータが解決することを可能にする。
【0074】
図7は、本明細書で説明する方法のうちの任意の1つまたは複数を実行するために本明細書で説明するシステムによって実行可能な1組の命令を含むコンピュータシステム700の例示的な形態の機械の概略図を示す。本実施の形態の一態様によれば、システムが
図1~6に関連して示され、説明されたプロセスおよび対応する部品の実行を可能にする命令を含むことができる。
【0075】
他の実施形態では、システムがLAN、イントラネット、エクストラネット、またはインターネット内の他の機器に接続された(例えば、ネットワーク化された)マシンを含んでもよい。本機は、クライアント/サーバネットワーク環境のサーバマシンの容量で動作する場合がある。マシンはパーソナルコンピュータ(PC)、ニューラルコンピュータ、セットトップボックス(STB)、パーソナルデジタルアシスタント(PDA)、携帯電話、サーバ、ネットワークルータ、スイッチ、またはブリッジ、あるいはそのマシンによってとられるべきアクションを指定する(シーケンシャルまたはその他の)命令のセットを実行することができる任意のマシンであってもよい。さらに、単一のマシンのみが示されているが、用語「マシン」は本明細書で説明される方法のうちの任意の1つまたは複数を実行するために、命令のセット(または複数のセット)を個別にまたは一緒に実行するマシンの任意の集合を含むものと解釈されるべきである。
【0076】
例示的なコンピュータシステム700は、処理デバイス702と、メインメモリ704(例えば、読取り専用メモリ)と、フラッシュメモリと、同期DRAMのようなダイナミック・ランダム・アクセス・メモリ(DRAM)と、スタティックメモリ706(例えば、フラッシュメモリ、スタティック・ランダム・アクセス・メモリ(SRAM))と、バス730を介して互いに通信するデータ記憶デバイス718とを含むことができる。
【0077】
処理デバイス702は、マイクロプロセッサ、中央処理デバイスなどの少なくとも1つの汎用処理デバイスを表す。より詳細には、処理デバイス702が複雑な命令セット計算(CISC)マイクロプロセッサ、縮小命令セット計算(RISC)マイクロプロセッサ、非常に長い命令ワード(VLIW)マイクロプロセッサ、または命令セットの組合せを実施する他の命令セットまたはプロセッサを実施するプロセッサであってもよい。処理デバイス702は、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、デジタル信号プロセッサ(DSP)、ネットワークプロセッサなどの少なくとも1つの専用処理デバイスであってもよい。本実施の形態の他の態様によれば、処理デバイス702が本明細書で説明される動作およびプロセスを実行するために、本明細書で説明されるデバイスまたはシステムのための命令を実行するように構成される。
【0078】
コンピュータシステム700は、ネットワークインターフェースデバイス708をさらに含むことができる。コンピュータシステム700はまた、映像表示ユニット710(例えば、液晶ディスプレイ(LCD)または陰極線管(CRT))、英数字入力デバイス712(例えば、キーボード)、カーソル制御デバイス714(例えば、マウス)、および信号生成デバイス716(例えば、スピーカ)を含み得る。
【0079】
データ記憶デバイス718は、本明細書で説明される方法または機能のうちの任意の1つまたは複数を実施する、本明細書で説明されるデバイスおよびシステムの命令の少なくとも1つのセットが格納されるコンピュータ可読媒体728を含むことができる。命令はまた、コンピュータシステム700による実行中に、メインメモリ704内および/または処理デバイス702の処理ロジック726内に、完全にまたは少なくとも部分的に存在してもよく、メインメモリ704および処理デバイス702はまた、コンピュータ可読媒体を構成する。
【0080】
命令はさらに、ネットワークインターフェースデバイス708を介したネットワーク720によって送受信されてもよい。コンピュータ可読記憶媒体728は、例示的な実施形態として単一の媒体で示されているが、「コンピュータ可読記憶媒体」という用語は、少なくとも1つの命令セットを格納する単一または複数の媒体(例えば、集中型または分散型データベース、および/または関連するキャッシュおよびサーバ)を含むものと解釈されるべきである。「コンピュータ可読記憶媒体」という用語は、機械による実行のための命令セットを格納、符号化、または搬送することができ、機械に本開示の方法論のうち、任意の1つまたは複数を実行させる任意の媒体も含むものと解釈されるべきである。したがって、「コンピュータ可読記憶媒体」という用語は、固体メモリ、光学媒体、および磁気媒体を含むが、これらに限定されないものと解釈されるべきである。
【0081】
本明細書で説明される様々な例示的な実施形態では、ニューラルネットワークが例えば、回帰分析を使用して、入力データを分析してオブジェクトを分類する教師付き学習モデルである。実施例では、ユーザは画像をアップロードすることができ、メディア処理システムはそれを多くの要素に対して回帰させて、最も近い一致を決定する。教師付き学習モデルは、分類法の異なる高レベル要素を使用して訓練される。要素は分類のカテゴリに関連し、カテゴリは、ニューラルネットワークモデルを訓練するためにMLと共に使用される。一実施形態では、要素が行動(例えば、運転)、概念および感情(例えば、direction)、イベント(例えば、2007年東京モーターショー)、地理的都市(例えば、ロサンゼルス)、地理的国(例えば、米国)、地理的場所(例えば、LAX空港)、地理的州(例えば、カリフォルニア)、地理的位置データ(例えば、GPSからの位置情報)、博物館コレクション(例えば、ピーターソン自動車博物館)、写真環境(例えば、夜間)、写真の方向性(例えば、風景)、写真設定(例えば、オートガレージ)、写真技術(例えば、色)、写真ビュー(例えば、3/4フロントビュー)、標示(例えば、ボウリング場面)、トピック事項(例えば、米国文化)、車両コーチビルダー(例えば、Brewster&Co.)、車両色(例えば、緑色)、車両状態(例えば、新車)、車両製造者(例えば、原産国および大陸を含む)、車両モデル(例えば、ベントレイ61/2リットルスピード6ツアラー)、車両部品(例えば、8トラックカセットプレーヤー)、車両数量(例えば、1オブジェクト)、車両シリアル番号(例えば、シャーシ3559SA)、車両タイプ(例えば、水素燃料電池)および車両製造年(例えば、1957)を含み得るが、これらに限定されない 。
【0082】
本明細書に記載される実施形態は車両に関する情報およびそれらの社会への影響を保存し、明らかにすることができる。キュレートされ、認証された写真(画像データ)、映像(映像データ)、入力データ(例えば、テキストまたは音声入力)および地理的位置データの独自のデータセットに基づいて訓練された機械学習(ML)アルゴリズムを使用して、人工知能(AI)プラットフォーム(例えば、少なくとも1つの畳み込みニューラルネットワークおよび少なくとも1つの再帰型ニューラルネットワークを含む)が開発されており、このプラットフォームはとりわけ、1885年から現在までの車両を識別することができ、ストーリーおよびコメントを共有することによって車両の画像に注釈を付けるようにユーザに働きかけることができる。機械学習はデータ内のパターンを見つけて適用するアルゴリズムを含むが、これに限定されない。ニューラルネットワークは、MLの形態とすることができる。本明細書に記載される実施形態は、時間および空間を通して推進され、次いで多層ニューラルネットワークを通して識別される成形金属のアルケミカルメモリ(改質メモリ)を捕捉する一種のタイムマシンシャシを提供する。社会が本明細書に記載されるような、検索可能なメディア処理システムを介して車両に関する情報に容易にアクセスすることを可能にすることは、人間による説明文、将来の輸送ソリューション、および顕著な車両の歴史を増強し、保存する。
【0083】
実施態様では、ニューラルネットワークが訓練されるデータベースは、抽象概念(例えば、感情的、言語的、空間的、論理的、芸術的、および社会的)が参照メディアオブジェクト内に存在する異なる次元の知能を表す意味的(semantic)キーワードによって表現される、学際的研究である。例えば、「Art Deco」は、特定の自動車またはアーチファクト上に示される視覚的設計言語のために、1920年代から30年代の多数の車両に対して見られる意味的な芸術的キーワードである。深層学習を使用して、本明細書で説明されるニューラルネットワークは、メディアに見られるこれらの別個の知能の概念層のそれぞれについて繰り返し訓練され、これにより、意味的知能および社会へのリンクを通じて強化されたオブジェクト認識をもたらすことができる。エンジニアリング情報、レース結果、自動車ショー、自動車が展示された位置、評価等を含む追加のデータベースは、自動車に関する情報をさらに強化するために、独占的な自動車データベース上に階層化することができる。実施例では、例えば、ユーザは、図書館アーカイブ内のすべてのChevrolet Corvetteを頁でたどり、任意の車両に関連するエントリを読んだり聞いたりすることができる。同様に、実施態様では、ユーザは、合理化の進展を体験することができ、または特定の10年間、例えば1950年代の凝縮した車両設計言語を見ることができる。実施形態では、ユーザは、道路上の興味深い自動車にモバイルをかざして、メディア処理システムとの対話を通じてそのストーリーを知ることができる。例えば、メディア処理システムは、「あなたはV8エンジンが100年前に発明されたことを知っていたか」のように、事実に戻るように構成されてもよい 。
【0084】
本明細書で説明される実施形態は、複数の感覚入力(例えば、音声、画像、およびテキスト)を介して入力された車両を認識および識別し、例えば、アメリカの物語を語る際に、車両の出所および重要性に関するユーザの個人的な物語を記録するように構成される。家族は、偉大な祖父がかつてグランドキャニオンにまでドライブした車を知るために、家族写真のかたまりをアップロードすることができる。ユーザは、歴史的な場所のサイトに移動することができ、メディア処理システムを介して、過去数十年にわたってサイトを訪れた何百もの車両および家族を見ることができる。実施態様では、出来事を記録する家族の休暇の写真が、例えば没入型拡張現実(AR)を使用して仮想環境を作成するために、既存の地理的位置上に階層化することができる。実施態様では、AR環境で、ユーザが、時間-空間連続体内でぼんやりとした喜びを呼び戻しつつ、同じ文化遺産サイトで、自分の祖先および彼らの車両と共に自分自身を見ることを可能にする。例えば、「ゴールデンゲートブリッジで、何枚のファミリーカーの写真が撮られたか」を知ることができる。
【0085】
実施形態によれば、車両の画像の独自のデータベースは、「製造」、「モデル」、および「年」を含むが、これらに限定されない、異なるカテゴリに属するいくつかのラベル付けされた画像を含んでいる。「車両」は、航空機、列車、自動車(例えば、自動車、トラック、オートバイ、バンなど)、および宇宙船を含むが、これらに限定されず、物品(例えば、人および物品)を輸送するためのものを指す。各カテゴリに使用される画像が多ければ多いほど、モデル(例えば、畳み込みニューラルネットワーク)は画像が例えば、ポルシェ画像であるかフェラーリ画像であるかを判定するように、より良好に訓練され得る。この実施は、監視された機械学習を利用する。次いで、ラベル付けされた既知の画像を使用してモデルを訓練することができる。抽出された形式の画像はモデルの入力側に入り、ラベルは出力側にある。その目的は、入力から来る特徴を有する画像が出力内のラベルと一致するようにモデルを訓練することである。ひとたびモデルが訓練されると、未知の画像を認識し、分類し、および/または予測するために、モデルを使用することができる。例えば、新しい画像は、1933年型パッカード・トゥエルヴとして認識され、分類され、または予測され得る。畳み込みニューラルネットワークによる処理の一部として、新たに入力された画像も画素特徴抽出処理を経る。
【0086】
本明細書で開示される実施形態は、広告業界における基本的な問題、すなわち、特定の自動車ブランドまたは車両モデルまたはタイプに対するユーザの関心をどのように認証するかに対処することができる。識別されていないアルファロメオ(登録商標)をプラットフォームにアップロードするユーザのおかげで、ユーザは、この車両ブランドに対するユーザの関心を自己のものとして認識する。繰り返される対話を通じて、メディア処理システムは、車両情報に対するユーザの関心を学習する。このようなフィードバックループは、より良いターゲティングのために広告主にとって価値があり、今度は、将来の車両の製造業者にインテリジェンスを提供することができる。実施例に係る車両の専有データベースは、ML訓練データセットに保存される出所を提供する国会著作権局図書館でのタイムリーな登録を通じて、認証されてもよい。本実施の形態では、訓練データセット140が、例えばユーザによって入力されたデータおよび/または著作権登録されていない可能性があるが、例えば、本明細書で説明されるSNNを使用することによって認証され得る追加のアセットに基づいて、追加のデータアセットを含めて成長することができる。
【0087】
本明細書の実施形態による方法、システム、およびコンピュータプログラム製品は、自然言語処理(NLP)およびコンピュータビジョン、画像、ならびに映像処理を系統的に適用して、約1885年から現在まで、および将来まで特定の自動車を識別することができる、自動車の、著作権を有する可能性がある高品質のデジタル画像を含むデータセットから畳み込みおよび再帰型ニューラルネットワークを訓練することによって構築されるAIプラットフォームに関するものである。
【0088】
人間であることの本質は質問をすることであり、AIは技術進化、すなわち、車両(例えば、自動車)の移動、ならびに今日の車両遺産に息づく文化の残りの周囲の人工物についての信頼できる情報を提供しようとする。
【0089】
本明細書に記載の実施は車両を分類し、文書化するための革新的なAl駆動プラットフォームを提供する。ユーザは、特定された写真、ストーリー、コメント、家族の写真、記録を中心にフィードバックサイクルに参加することができる。それらの核心において、本明細書の実施は車両文化に関する知識を広めるために、車両、設計、コミュニティ、建築物、エンジニアリング、歴史、政府、および文化の間の結合を保ちながら、機械に対する人間の特異な関係を育て、探求する。車両または重要な車両文化遺産が未知である場合、プラットフォームは、アセットを識別し分類するために群衆の知恵を使用することができる。NLPによって、AIエージェントはメディアに示される車両および没入型環境に関するユーザとのチャット対話を開始することができ、したがって、人間-コンピュータ対話スキルを深めることができる。
【0090】
本明細書で説明される実施形態は、以下に列挙するものに関して照合され、関連付けられ、かつキュレーションされた履歴情報(例えば、画像、映像、メディア、テキスト、非構造化データ、地理的位置データなど)の保存およびアクセス可能性を提供する。その情報は、車両、人間社会における車両の使用、それらが使用され、または使用されてきた(例えば、レーシングおよび通り)環境(例えば地理的位置)、それらが如何にして使用され、または使用されてきたのか、それらが作り出す、または作り出してきた仕事(例えば、製造、保守、消費者使用、コレクターなど)、技術的および設計的特徴、および社会との特別な関係に関するものである。
【0091】
実施形態によれば、1880年代から現在および将来にかけて車両およびその環境に関して著作権登録および認証された知的財産に基づいて構築された専有参照データベース(例えば、ニューラルネットワーク)からMLを介して訓練された車両データセットから車両属性および要素に関する多次元入力クエリが照会され、複合現実アプリケーションにおいてAIが提供される。情報は、オーディオ、テキスト、映像、画像、および全地球測位システム(GPS)入力を含むが、これらに限定されない、複数の入力を使用して、本明細書で説明される実施形態から取り出されてもよく、入力要求は専用の訓練された車両データセットに対して参照され、複合現実環境において、分類および/または入力要求との一致を返す。車両に関する問い合わせは、正しい識別の確率で答えることができる。例えば、ユーザはメディア処理システムに「アウトユニオン・Wanderer W-25」と入力することができ、システムは単語を解釈して「アウトユニオン・Wanderer W-25」の画像を返すことができる。「アウトユニオン」によって構築される照会車両の確率は、パーセンテージとして表すことができる。例えば、返される画像、映像、テキスト、履歴などの「95%」確率はアウトユニオンであり、画像、映像、テキスト、履歴などが返される確率はモデル「Wanderer W-25」、例えば「85%」である。実施形態によれば、車両の短い履歴が現れ、メディア処理システム内の地理的位置サービスを使用して、この車両の最も近い例が、ユーザの現在位置と比較して、レビューのために物理的に利用可能であるかどうかの識別がなされる。
【0092】
実施態様では、情報は、ユーザが日常生活(例えば、通り、車ショーなど)で遭遇する可能性がある車両のユーザインターフェース、写真(例えば、デジタル画像、スキャン画像など)を介して、システム(例えば、携帯電話上のアプリ、ウェブサイトなど)にアップロードすることによって取り出すことができる。専有データベースから導出された画像認識を使用して、メディア処理システムは例えば、機械学習によってレンダリングされた訓練されたデータセットに基づく精度の確率で、車両メーカー、モデル、および発売年(本明細書では「年式」と呼ぶ)の一致する識別および/または分類を返すことができる。
【0093】
本明細書に記載する実施形態によれば、ユーザは、音声要求入力、クエリ、テキスト入力および/または自然言語をメディア処理システムに命令する。入力データは車両の型式、モデル、および年式を含むことができるが、これらに限定されない。例えば、ユーザは「フォード・サンダーバードを見せて」とメディア処理システムに入力されたマイクロフォンに話すことができる。マイクロフォンは、「フォード・サンダーバードを見せて」に最も近い一致を表す画像、映像、筆記履歴などのうちの少なくとも1つを、混合現実入力を介して提供される追加情報とともに返答する。ユーザは「1957年の赤色のフォード・サンダーバードを見せて」と話すことによってクエリを洗練することができ、メディア処理システムは、精度の確率とともに最も近い一致を有する少なくとも1つの画像を返答する。既存のプラットフォームは、その訓練データセットまたは情報リポジトリ(すなわち、データベース)に出所を持たないので、そのようなプラットフォームによって返される結果は不正確であったり、不完全であったりする可能性がある。そのようなプラットフォームは、認証されていない情報(例えば、著作権が登録されていないとか、日付、著者、メタデータで検証されていないなど)を公的に利用可能なウェブサイトから掘り出し得る。したがって、ある数のユーザが何か、例えばサンダーバードであると言う場合、プラットフォームは同意する。しかし、アセットまたは画像がサンダーバードの単なる複製である場合、そのような情報は、これらの既存のプラットフォームでは見落とされる。別の例では、複数年にわたるホンダ・アコード(登録商標)が、既存のプラットフォームによる権限では認識できない場合がある。
【0094】
実施形態によれば、ユーザは関心のある車両において入力デバイス(例えば、カメラ、映像レコーダなど)をポインティングすることによってクエリを開始し、メディア処理システムは少なくとも1つの入力画像および/または入力ビデオを受信し、それをML訓練されたデータセットと照合して、クエリされた車両に関する情報の拡張現実(AR)表示を提供する。情報のレベルは、ユーザ設定によって選択することができる。例えば、ユーザは「フェラーリ(登録商標)」のような車両メーカーのみを必要とするか、または「フェラーリ 250GT」のような車両メーカーおよびモデルを必要とする場合がある。あるいはユーザは、「V-8エンジン」のようなエンジンタイプの技術情報を必要とする場合があり、アプリケーションは情報のニューラルネットワークからV-8エンジンに一致する画像、映像、および/または情報を返すように構成される。本実施の形態によれば、各クエリ結果において、車両に関する追加の教育情報がユーザ設定に応じて提供される。例えば、ユーザは「ツートーン車両内部」のようなテキストまたは自然言語入力クエリを提出することができ、要求に対する一致は例えば、ツートーン内部を有する車両のメーカー、モデル、履歴、設計特徴などを示すオーバーレイテキストでユーザデバイス上に表示することができる。
【0095】
本明細書で説明される実施形態は、様々な分野で有用であり、例えば、エンティティは、編成され、キュレートされ、検索可能なプラットフォームから入手可能な車両に関するメディアアセットまたはユーザ情報を必要とすることがある。例示的な分野には、以下がある。1)広告業者:自動車関連ビジネスまたは自動車が認証された製品を必要とするように見える広告、2)自動車製造業者:ブランド構築に必要なマーケティング、製造業者の製品/サービスのロイヤリティおよび伝統的なプロモーション、3)保険業者:アセットおよび個人を保護する際に車両が重要であることを検証すること、4)娯楽:拡張/仮想現実、スキルゲームによる没頭体験、5)法執行:例えば、犯罪現場で傍観者の携帯電話によって撮られた写真および詐欺の検出からの調査に関与する車両の識別を助ける必要性、6)車両設計者:新しい設計のための歴史的な例および視点へのアクセスの必要性、7)旅行:道路沿いのサポート、燃料、宿泊、食料、興味深い道路、および道路沿いの関心のある地点、8)クラシックカー市場および収集家:自動車の購入者、販売者、および修理者は、部品信頼性、出所情報、特色、車が出現し使用されてきた歴史的変遷を必要とする、9)資料館と文書局:写真コレクションに見られる識別、出所、自動車の歴史に関する助力を必要とする。
【0096】
識別されていない写真のアップロード、およびメディア処理システムへの特定の車両ブランド・アーカイブ・セクションのレビューに費やされた時間によって表されるユーザの関心は、広告主のターゲットの後に求めることができる特定の車両ブランドおよび/またはセグメントに対するユーザの関心を自己認識する。例えば、ポルシェ(登録商標)アーカイブを読んで閲覧するユーザは、ポルシェ・ブランド広告の良好なターゲットである。
【0097】
プラットフォームと対話することによって、ユーザは特定の自動車ブランドまたは車両セクタへの関心を自己認識し、したがって、過去の自動車設計から学習することを望む顧客のための広告問題を解決し、例示されたマーケティング材料を検証し、我々の経済の自動車セクタにおける潜在的な買い手への通信をターゲットにする。ユーザは、自動車および社会に関する中央統合インテリジェンスプラットフォームを形成するために、他のデータセットをリンクする仮想ライブラリを介して、自動車および道路沿いの遺産に関する管理された情報を探索することができる。輸送に関するデザイナーは、過去135年間の自動車デザインから学んだレッスンに容易にアクセスすることができる。
【0098】
地理位置データは単独で、または建築および/または文化遺産サイトのキュレーションされた写真と組み合わせて、本明細書に記載されるように、メディア処理システムに入力することもできる。いくつかの実施形態では、アプリケーションが個人化されたユーザデータ(例えば、ユーザの好ましい燃料タイプ、ファストフード、およびホテルの好みをすべて記憶することができる)と、ナビゲーションシステムから受信した地理的位置データとに基づいて、ユーザを路傍のサービスに導くことができる。例えば、ユーザが、メディア処理システムによってアクセス可能なメモリに記憶されたユーザのプロファイルから知られているスポーツカーを運転すると仮定する。メディア処理システムは、メディア処理システムによってアクセス可能なメモリ上にも、ユーザのカレンダへのアクセスを有することができる。メディア処理システムは、ユーザのカレンダ予約位置への到着が15分間だと見込まれることを示すナビゲーションプログラムからの入力を受信することができるが、ユーザが楽しく、カレンダ予約に間に合うように運転することができる大きな2車線の道路がある。次に、メディア処理システムは、代替ルートを提案する。
【0099】
歴史を通じた家族は、車両を使用して休暇中に撮影された可能性のある写真で生活を確証してきた。このような画像データは、車両を含む歴史的な写真を用いて、文化遺産や歴史的な場所を実質的に増強するために使用することができる。例えば、拡張現実、仮想現実、および/または複合現実を使用する様々な実施形態によれば、メディア処理システムは、ユーザが履歴全体にわたってルート66を仮想的に巡回することを可能にすることができる。実施態様では、本明細書で説明されるシステムおよび方法が移動および道路旅行を強化するために、拡張現実、仮想現実、および/または複合現実を使用することができる。例えば、ユーザはルート66を下り、地理的位置データを使用して、デバイス(例えば、携帯電話)をホールドアップし、仮想表示デバイス(例えば、ヘッドマウント装置)内の履歴を通じて進化した現在の位置を見ることができる。
【0100】
実施形態によれば、車両に関する拡張現実を文化遺産観光に使用して、観光客の体験を向上させることができる。家族の写真の背景に見られる文脈情報をリンクすることは、例えば、アメリカの歴史的な場所のための認証された拡張現実システムを作成するための基礎を提供する。例えば、本明細書に記載の実施は、AAAなどの自動車クラブに有用である。モバイルデバイスは、画像データおよび/または地理的位置データを取得するために、車両および/または文化遺産の位置を指し示すことができ、メディア処理システムはその特定の位置における時間の経過とともに、車両および/または文化遺産の位置の画像を返すことができる。
【0101】
本開示の実施形態は、以下の特徴を考慮して説明することができる。
【0102】
第1の特徴では、方法が、認証されたデータおよび分類法を使用して畳み込みニューラルネットワーク(CNN)を訓練するステップと、入力データを含むクエリを処理デバイスによって受信するステップと、訓練されたCNNによって認証されたデータおよび分類法の要素に関して入力データを分類するステップと、訓練されたCNNによって入力データに最も近い一致を含む認証されたデータおよび分類法の要素を含む結果を生成するステップと、画像、映像、テキスト、サウンド、拡張現実コンテンツ、仮想現実コンテンツ、または複合現実コンテンツのうちの1つまたは複数を含む結果をデバイス上に表示するステップとを含む。
【0103】
第2の特徴では、第1の特徴に係る方法において、認証データが、著作権登録作品、メタデータ、及びテキストを含む。第3の特徴では、第2の特徴に係る方法において、著作者の著作権登録作品が、1つまたは複数の画像、ビデオ録画、オーディオ録音、イラストまたは書物を含む。第4の特徴では、第3の特徴に係る方法において、著作者の著作権登録作品が、1つまたは複数の車両情報、地理情報または文化情報を含む。第5の特徴では、第1の特徴に係る方法において、認証されたデータが、著作権登録データベースからのデータを含む。第6の特徴では、第1の特徴に係る方法において、分類法の要素が、行動、概念および感情、出来事、地理的都市、地理的国、地理的場所、地理的州、地理的位置データ、博物館コレクション、写真環境、写真方向性、写真設定、写真技術、写真ビュー、標示、話題事項、車両コーチビルダー、車両色、車両状態、車両製造業者、車両モデル、車両部品、車両数量、車両シリアル番号、車両タイプ、および車両製造年からなる群から選択される。第7の特徴では、第1の特徴に係る方法において、入力データは、1つまたは複数の画像データ、映像データ、取込データ、または地理的位置データを含む。第8の特徴では、第1の特徴に係る方法において、分類することは、分類法を使用して入力データを認証されたデータにマッピングすることを含む。第9の特徴では、第1の特徴に係る方法において、結果は、1つまたは複数の画像、映像、テキスト、またはサウンドを含む。第10の特徴では、第1の特徴に係る方法において、結果を生成することは、1つまたは複数の車両情報、車両アーチファクト情報、または地理的情報を生成することを含む。
【0104】
第11の特徴では、第1の特徴に係る方法において、結果を生成することは、入力データが少なくとも1つの認証されたデータ、または少なくとも分類要素にマッチングする確率を生むことを含む。第12の特徴では、第11の特徴に係る方法において、前記確率は、クロスエントロピー関数によって決定される。第13の特徴では、第1の特徴に係る方法において、前記結果は拡張現実コンテンツを含む。前記結果を表示することは、前記結果を拡張現実装置に表示することであって、 前記拡張現実ディスプレイデバイスの着用者の目に光を通すことを備え、前記拡張現実ディスプレイデバイスは、光源と、複数の導波路を含む導波路スタックとを含む。前記結果を表示することは、さらに、前記ディスプレイデバイスにおいて前記光を撮像することと、 前記ディスプレイデバイス上に、前記画像データ、前記映像データ、前記入力データ、および前記地理的データのうちの少なくとも1つにマッチングする特徴を有する車両を単独で、または地理的位置および任意選択で特定の日付と組み合わせて表示することとを含む。第14の特徴では、第13の特徴に係る方法において、前記ディスプレイデバイス上に表示することは、前記地理的位置が経時的にどのように変化したかを表示するステップと、前記地理的位置を経時的に通過した車両の履歴を表示するステップと、ある期間にわたる気象条件を表示するステップとのうちの少なくとも1つを含む。第15の特徴では、第1の特徴に係る方法において、認証されたデータおよび分類法を使用して、再帰型ニューラルネットワーク(RNN)を訓練することをさらに含む。第16の特徴では、第15の特徴に係る方法において、、前記入力データは非構造化データを含み、前記方法は、前記訓練されたRNNによって、前記非構造化データを処理して構造化データを生成するステップと、前記訓練されたCNNによって、前記構造化データを分類するステップとをさらに含む。第17の特徴では、第1の特徴に係る方法において、前記入力データはユーザがアップロードしたデータを含み、前記方法はさらに、SNNを用いてユーザがアップロードしたデータを認証し、認証されたユーザがアップロードしたデータを認証されたデータに追加することを含む。
【0105】
第18の特徴では、システムは、メモリと、メモリに結合されプロセッサとを備える。プロセッサは、認証されたデータおよび分類を使用して畳み込みニューラルネットワーク(CNN)を訓練し、入力データを含むクエリを処理装置によって受信し、訓練されたCNNによって、認証されたデータおよび分類の要素に関する入力データを分類し、訓練されたCNNによって、入力データに最も近い一致を含む認証されたデータおよび分類の要素を含む結果を生成し、その結果を装置上に表示する。その結果は、1つまたは複数の画像、映像、テキスト、サウンド、拡張現実コンテンツ、仮想現実コンテンツ、または複合現実コンテンツを含む。第19の特徴では、第18の特徴に係るシステムにおいて、前記認証されたデータは、著作権登録された著作物、メタデータ、およびテキストを含む。第20の特徴では、第19の特徴に係るシステムにおいて、著作権登録著作物が、画像、ビデオ録画、録音、イラストまたは書き物のうちの1つまたは複数を含む。第21の特徴では、第20の特徴に係るシステムにおいて、著作権登録著作物は、車両情報、地理情報または文化情報の1つ以上を含む。第22の特徴では、第18の特徴に係るシステムにおいて、前記認証データは著作権登録データベースからのデータを含む。第23の特徴では、第18の特徴に係るシステムにおいて、分類法の要素が、行動、概念および感情、出来事、地理的都市、地理的国、地理的場所、地理的州、地理的位置データ、博物館コレクション、写真環境、写真方向性、写真設定、写真技術、写真ビュー、標示、話題事項、車両コーチビルダー、車両色、車両状態、車両製造業者、車両モデル、車両部品、車両数量、車両シリアル番号、車両タイプおよび車両製造年からなる群から選択される。第24の特徴では、第18の特徴に係るシステムにおいて、前記入力データは、画像データ、映像データ、取込データ、または地理的位置データのうちの1つまたは複数を含む。第25の特徴では、第18の特徴に係るシステムにおいて、分類することは、分類法を使用して入力データを認証されたデータにマッピングすることを含む。第26の特徴では、第18の特徴に係るシステムにおいて、前記結果は、画像、映像、テキスト、またはサウンドのうちの1つまたは複数を含む。第27の特徴では、第18の特徴に係るシステムにおいて、前記結果を生成することは、車両情報、車両アーチファクト情報、または地理的情報のうちの1つまたは複数を生み出す。第28の特徴では、第18の特徴に係るシステムにおいて、前記結果を生成することは、前記入力データが少なくとも1つの前記認証されたデータの特徴または少なくとも1つの前記分類の要素の特徴にマッチングする見込みを生じさせる。第29の特徴では、第28の特徴に係るシステムにおいて、前記見込みは、クロスエントロピー関数によって決定される。第30の特徴では、第18の特徴に係るシステムにおいて、前記結果は拡張現実コンテンツを含み、前記結果を表示するステップは、前記結果を拡張現実装置に表示することと、前記拡張現実ディスプレイデバイスの着用者の目に光を通すことと、を備える。前記拡張現実ディスプレイデバイスは、光源と、複数の導波路を含む導波路スタックとを含む。前記結果を表示するステップは、さらに、前記ディスプレイデバイスにおいて前記光を撮像することと、前記ディスプレイデバイス上に、車両単独を、または車両と、前記画像データ、前記映像データ、前記入力データ、および前記地理的データのうちの少なくとも1つにマッチング地理的位置および任意的な特定の日付とを組み合わせて、表示することとを含む。第31の特徴では、第30の特徴に係るシステムにおいて、前記ディスプレイデバイス上に表示するステップは、前記地理的位置が経時的にどのように変化したかを表示することと、前記地理的位置を経時的に通過した車両の履歴を表示することと、ある期間にわたる気象条件を表示することとのうちの少なくとも1つを含む。第32の特徴では、第18の特徴に係るシステムにおいて、そのシステムが、さらに、認証されたデータおよび分類法を使用して、再帰型ニューラルネットワーク(RNN)を訓練するように構成されている。第33の特徴では、第32の特徴に係る方法において、前記入力データは非構造化データを含み、前記方法は、前記訓練されたRNNによって、前記非構造化データを処理して構造化データを生成するステップと、前記訓練されたCNNによって、前記構造化データを分類するステップとを含む。第34の特徴では、第18の特徴に係る方法において、前入力データはユーザがアップロードしたデータを含み、前記システムは、SNNを用いてユーザがアップロードしたデータを認証し、認証されたユーザアップロードデータを認証されたデータに追加するように構成されている。
【0106】
第35の特徴では、コンピューティングデバイスによって実行されるときに、実行可能命令を含むコンピュータ-読出し可能非一時的記憶媒体(computer-readable non-transitory storage medium)は、前記コンピューティングデバイスに、以下の動作を行わせる。その動作は、認証されたデータおよび分類法を使用して畳み込みニューラルネットワーク(CNN)を訓練することと、入力データを含むクエリを処理デバイスによって受信することと、訓練されたCNNによって、認証されたデータおよび分類法の要素に関して入力データを分類することと、訓練されたCNNによって、入力データに最も近い一致を含む認証されたデータおよび分類法の要素を含む結果を生成することと、その結果をデバイス上に表示することとを含む。その結果は、画像、映像、テキスト、サウンド、拡張現実コンテンツ、仮想現実コンテンツ、または複合現実コンテンツのうちの1つまたは複数を含む。第36の特徴では、第35の特徴に係るコンピュータ-読出し可能非一時的記憶媒体において、認証されたデータは、著作権登録著作物、メタデータ、およびテキストを含む。第37の特徴では、第36の特徴に係るコンピュータ-読出し可能非一時的記憶媒体において、著作権登録著作物が、画像、ビデオ録画、オーディオ録画、イラストまたは書込みのうちの1つまたは複数を含む。第38の特徴では、第37の特徴に係るコンピュータ-読出し可能非一時的記憶媒体において、著作権登録著作物が、車両情報、地理情報、または文化情報のうちの1つまたは複数を含む。第39の特徴では、第35に係るコンピュータ-読出し可能非一時的記憶媒体において、前記認証されたデータが著作権登録されたデータベースからのデータを含む。第40の特徴では、第35の特徴に係るコンピュータ-読出し可能非一時的記憶媒体において、分類法の要素が、行動、概念および感情、出来事、地理的都市、地理的国、地理的場所、地理的州、地理的位置データ、博物館コレクション、写真環境、写真方位、写真設定、写真技術、写真ビュー、標示、話題事項、車両コーチビルダー、車両色、車両状態、車両製造業者、車両モデル、車両部品、車両数量、車両シリアル番号、車両タイプ、および車両製造年からなる群から選択される。第41の特徴では、第35の特徴に係るコンピュータ-読出し可能非一時的記憶媒体において、前記入力データは、画像データ、映像データ、取込データ、または地理的位置データのうちの1つ以上を含む。第42の特徴では、第35の特徴に係るコンピュータ-読出し可能非一時的記憶媒体において、分類することは、分類法を使用して入力データを認証されたデータにマッピングすることを含む。第43の特徴では、第35の特徴に係るコンピュータ-読出し可能非一時的記憶媒体において、前記結果は、画像、映像、テキスト、または音声のうちの1つまたは複数を含む。第44の特徴では、第35の特徴に係るコンピュータ-読出し可能非一時的記憶媒体において、結果を生成することは、車両情報、車両アーチファクト情報、または地理的情報のうちの1つまたは複数を生み出す。第45の特徴では、第35の特徴に係るコンピュータ-読出し可能非一時的記憶媒体において、前記結果を生成することは、前記入力データが前記認証されたデータの少なくとも1つの特徴または前記分類の少なくとも1つの要素の特徴とマッチングする見込みを生み出す。第46の特徴では、第45の特徴に係るコンピュータ-読出し可能非一時的記憶媒体において、前記見込みは、クロスエントロピー関数によって決定される。第47の特徴では、第35の特徴に係るコンピュータ-読出し可能非一時的記憶媒体において、前記結果が拡張現実コンテンツを含み、結果を表示するステップは、拡張現実装置に結果を表示することと、拡張現実ディスプレイ装置の着用者の目に光を通すこととを含む。前記拡張現実ディスプレイ装置は、光源と、複数の導波路を備える導波路スタックとを備える。前記結果を表示するステップは、さらに、ディスプレイ装置で光を映し出すことと、ディスプレイ上に車両単独を、または車両と、画像データ、映像データ、入力データ、および地理的データのうちの少なくとも1つにマッチングする特徴を有する地理的位置および任意選択の特定の日付とを組み合わせて、表示することとを含む。第48の特徴では、第47の特徴に係るコンピュータ-読出し可能非一時的記憶媒体において、ディスプレイ装置上に表示するステップが、地理的位置が時間とともにどのように変化したかを表示することと、地理的位置を経時的に通過した車両の履歴を表示することと、ある期間にわたって気象条件を表示するこkととのうちの少なくとも1つを含む。第49の特徴では、第35の特徴に係るコンピュータ-読出し可能非一時的記憶媒体において、認証されたデータおよび分類法を使用して再帰型ニューラルネットワーク(RNN)を訓練することをさらに含む。第50の特徴では、第49の特徴に係るコンピュータ-読出し可能非一時的記憶媒体において、入力データが非構造化データを含み、本方法が、訓練されたRNNによって、非構造化データを処理して構造化データを生成するステップと、訓練されたCNNによって、構造化データを分類するステップとをさらに含む。第51の特徴では、第35の特徴に係るコンピュータ-読出し可能非一時的記憶媒体において、前記入力データはユーザがアップロードしたデータを含み、前記方法はさらに、SNNを用いてユーザアップロードデータを認証することと、認証されたユーザアップロードデータを認証されたデータに追加することとを含む。第52の特徴では、第51の特徴に係る媒体において、前記CNNによって、前記画像データ、前記映像データ、前記入力データ、および前記地理的位置データのうちの少なくとも1つを処理することによって、マッチングする特徴を備える1つまたは複数の車両の画像を生じさせる。
【0107】
前述の説明は本開示のいくつかの実施形態の良好な理解を提供するために、特定のシステム、部品、方法などの例などの多数の特定の詳細を記載する。しかし、本開示の少なくともいくつかの実施形態は、これらの特定の詳細なしで実施され得ることが当業者には明らかであろう。他の例では本開示を不必要に曖昧にすることを回避するために、周知の構成要素または方法は詳細に説明されないか、または単純なブロック図形式で提示される。したがって、記載された特定の詳細は、単に例として提示されているに過ぎない。特定の実施形態は、これらの例示的な詳細から変化してもよく、それでもなお、本開示の範囲内であると考えられる。上記の説明では、多数の詳細が記載されている。
【0108】
しかし、本開示の恩恵を受ける当業者には、本開示の実施形態がこれらの特定の詳細なしに実施され得ることが明らかであろう。いくつかの例では、説明を曖昧にすることを避けるために、周知の構造およびデバイスが詳細にではなく、ブロック図の形成で示される。
【0109】
詳細な記述のいくつかの部分は、計算機メモリ内のデータビットに対する演算のアルゴリズムおよび記号表現に関して提示される。これらのアルゴリズムの説明および表現は、データ処理技術の当業者が自分の仕事の内容を他の当業者に最も効果的に伝えるために使用する手段である。アルゴリズムは本明細書において、かつ一般的に、所望の結果につながる首尾一貫した一連のステップと考えられている。ステップとは、物理量の物理的操作を必要とするステップである。通常、必ずしも必要ではないが、これらの量は記憶、転送、結合、比較、およびその他の操作が可能な電気信号、磁気信号、または光信号の形成をとる。主に公共の利用に供するという理由で、これらの信号を、ビット、値、要素、記号、文字、語、数字などと呼べば、時として利便性が高いことが知られている。
【0110】
しかし、上記の全用語ならびに類似の用語は適切な物理量に対応しており、この物理量に適用される簡便な標識に過ぎないという点を留意すべきである。上記の議論から特に明記しない限り、本明細書全体を通して、「評価」、「選択」、「比較」、「調整」などの用語を利用する議論はコンピュータシステムのレジスタおよびメモリ内の物理(例えば、電子)量として表されるデータを、コンピュータシステムメモリまたはレジスタ内の物理量として同様に表される他のデータ、または他のそのような情報記憶、伝送、または表示デバイスに操作および変換する、コンピュータシステムまたは同様の電子コンピューティングデバイスの動作およびプロセスを指すことが理解される。
【0111】
本開示の実施は、本明細書の動作を実行するための装置にも関する。
この装置は、必要とされる目的に対して特別に構成され得るか、またはコンピュータに格納されたコンピュータプログラムによって選択的に作動させられるか、または再構成される汎用コンピュータを備え得る。このようなコンピュータプログラムは、フロッピーディスク、光ディスク、CD-ROM、磁気光ディスク、リードオンリーメモリ、ランダムアクセスメモリ、EPROM、EEPROM、磁気または光カード、または電子命令を記憶するのに適した任意のタイプの媒体を含む、任意のタイプのディスクなどのコンピュータ読み取り可能な記憶媒体に記憶することができる。
【0112】
本明細書に提示されるアルゴリズムおよび表示は本来的に、何らかの特定のコンピュータまたは他の装置と関連するものではない。様々な汎用システムを、本明細書の教示によるプログラムと共に使用することができ、あるいは、必要な方法ステップを実行するために、より特殊化された装置を構築することが便利であることが分かることがある。様々なこれらのシステムに対して必要とされる構造は、下記から明らかとなる。さらに、本開示は、任意の特定のプログラミング言語を参照して説明されない。様々なプログラミング言語を使用して、本明細書で説明する本開示の教示を実施することができることを理解されたい。
【0113】
上記の説明は、例示的であり限定的ではないことを意図されていることを理解されたい。多くの他の実施態様は上記の内容を読んで理解することにより、当業者には明らかになるのであろう。
【国際調査報告】