(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-05
(54)【発明の名称】エッジおよびサーバSOCのための人工知能およびクラウド技術を伴うシステムおよび方法
(51)【国際特許分類】
H04N 21/431 20110101AFI20240628BHJP
G06N 3/02 20060101ALI20240628BHJP
G06F 16/738 20190101ALI20240628BHJP
【FI】
H04N21/431
G06N3/02
G06F16/738
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023565625
(86)(22)【出願日】2022-05-03
(85)【翻訳文提出日】2023-10-24
(86)【国際出願番号】 US2022027496
(87)【国際公開番号】W WO2022235685
(87)【国際公開日】2022-11-10
(32)【優先日】2021-05-05
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-05-05
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】PCT/US2022/027035
(32)【優先日】2022-04-29
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】523402774
【氏名又は名称】ユニークファイ, インク
【氏名又は名称原語表記】UNIQUIFY, INC.
(74)【代理人】
【識別番号】110002365
【氏名又は名称】弁理士法人サンネクスト国際特許事務所
(72)【発明者】
【氏名】リー, ジョシュア
【テーマコード(参考)】
5B175
5C164
【Fターム(参考)】
5B175DA04
5B175JB02
5C164UB10S
5C164UB31S
5C164UB88P
(57)【要約】
本開示の態様は、システム、方法、コンピュータ命令、およびエッジシステムを伴い、エッジシステムは、1つまたは複数の対数量子化されたパラメータ値によって表される訓練済みニューラルネットワークの形態の物体検出/分類モデルを格納するように構成されたメモリであって、物体検出/分類モデルは、訓練済みニューラルネットワークの対数量子化されたパラメータ値に従って、1つまたは複数のニューラルネットワーク動作を通じて、画像データ上の1つまたは複数の物体を分類するように構成される、メモリと、システムオンチップ(SoC)またはその等価回路/ハードウェア/コンピュータ命令であって、画像データを取り込むことと、画像データとの関係で、1つまたは複数のニューラルネットワーク動作を通じて、1つまたは複数の訓練済みニューラルネットワークモデルを実行することと、画像データからの分類された1つまたは複数の物体に基づいて、画像データに1つまたは複数のオーバーレイを付加することと、画像データを、付加されたオーバーレイと共に出力として提供することと、を行うように構成された、システムオンチップ(SoC)またはその等価回路/ハードウェア/コンピュータ命令と、を伴う。
【選択図】
図23
【特許請求の範囲】
【請求項1】
1つまたは複数の訓練済み人工知能/ニューラルネットワーク(AI/NN)モデルAI/ニューラルネットワークモデルを格納するように構成されたメモリと、
ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを取り込むことと、
前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを、前記1つまたは複数の訓練済みAI/NNモデルを用いて処理することと、
前記1つまたは複数の訓練済みAI/NNモデルを用いた前記ブロードキャストデジタルコンテンツまたは前記ストリーミングデジタルコンテンツの前記処理に基づいて、別のデバイスから検索された補足コンテンツを前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツに付加することと、
前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを、別のデバイスから検索された前記補足コンテンツと共に出力として提供することと
を行うように構成されたシステムオンチップ(SoC)と、
を備えるエッジシステム。
【請求項2】
前記別のデバイスから検索された前記補足コンテンツが、インターネット接続から検索された1つまたは複数のソーシャルメディアの投稿を含む、
請求項1に記載のエッジシステム。
【請求項3】
前記SoCが、前記1つまたは複数の訓練済みAI/NNモデルを用いて、前記SoC内の1つまたは複数のシフタ回路によって実行される論理シフト演算の使用を通じて、前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを処理するように構成される、
請求項1に記載のエッジシステム。
【請求項4】
前記1つまたは複数の訓練済みAI/NNモデルを用いた前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツの処理に対応する加算演算が、前記SoC内の前記1つまたは複数のシフタ回路によって実行される、
請求項3に記載のエッジシステム。
【請求項5】
前記1つまたは複数の訓練済みAI/NNモデルを用いた前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツの処理に対応する加算演算が、前記SoC内の1つまたは複数の加算器回路によって実行される、
請求項3に記載のエッジシステム。
【請求項6】
前記SoCが、前記1つまたは複数の訓練済みAI/NNモデルを用いて、フィールドプログラマブルゲートアレイ(FPGA)によって実行される論理シフト演算の使用を通じて、前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを処理するように構成される、
請求項1に記載のエッジシステム。
【請求項7】
前記SoCが、前記1つまたは複数の訓練済みAI/NNモデルを用いて、1つまたは複数のハードウェアプロセッサによって実行される論理シフト演算の使用を通じて、前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを処理するように構成される、
請求項1に記載のエッジシステム。
【請求項8】
前記エッジシステムがテレビデバイスであり、
前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツが、テレビのオーディオ/映像データであり、
前記SoCが、前記テレビデバイスのディスプレイに前記出力を提供するように構成される、
請求項1に記載のエッジシステム。
【請求項9】
前記エッジシステムがセットトップボックスであり、
前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツが、テレビのオーディオ/映像データであり、
前記SoCが、前記セットトップボックスに接続されたテレビデバイスに前記出力を提供するように構成される、
請求項1に記載のエッジシステム。
【請求項10】
前記エッジシステムがストリーミングデバイスであり、
前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツが、テレビのオーディオ/映像データであり、
前記SoCが、前記ストリーミングデバイスに接続されたテレビデバイスに前記出力を提供するように構成される、
請求項1に記載のエッジシステム。
【請求項11】
前記エッジシステムが、前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを提供するように構成された第1のデバイスに接続され、
前記SoCが、前記エッジシステムに接続された第2のデバイスに前記出力を提供するように構成される、
請求項1に記載のエッジシステム。
【請求項12】
前記補足コンテンツとしてコンテンツサーバからデータを検索するように構成されたインターフェイス
をさらに備え、
前記メモリが、前記コンテンツサーバからの検索のために、前記1つまたは複数の訓練済みAI/NNモデルのモデル出力を補足コンテンツにマッピングするメタデータを格納するように構成され、
前記SoCが、メモリから前記メタデータを読み出し、前記1つまたは複数の訓練済みAI/NNモデルの前記モデル出力に基づき、インターフェイスを通じて、前記コンテンツサーバから対応する補足コンテンツを検索するように構成される、
請求項1に記載のエッジシステム。
【請求項13】
前記メタデータが、前記1つまたは複数の訓練済みAI/NNモデルの前記モデル出力を、購入可能な物体に関係する補足コンテンツにマッピングし、
前記SoCが、メモリから前記メタデータを読み出し、購入可能な物体のうち対応するものを、前記インターフェイスを通じて前記コンテンツサーバから検索するように構成され、前記購入可能な物体のうち前記対応するものは、前記1つまたは複数の訓練済みAI/NNモデルの前記モデル出力に基づいて提供される、
請求項12に記載のエッジシステム。
【請求項14】
前記1つまたは複数の訓練済みAI/NNモデルが、前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツに対して顔認識を行うように構成された顔認識モデルを含み、
前記SoCが、前記顔認識から識別された顔に基づいて前記補足コンテンツを付加するように構成される、
請求項1に記載のエッジシステム。
【請求項15】
前記1つまたは複数のAI/NNモデルに対応する1つまたは複数の対数量子化されたパラメータをサーバから検索し、前記1つまたは複数の対数量子化されたパラメータを前記メモリに格納するように構成されたインターフェイス
をさらに備え、
前記SoCが、前記1つまたは複数の訓練済みAI/NNモデルを用いて、前記1つまたは複数の対数量子化されたパラメータの使用を通じて、前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを処理するように構成される、
請求項1に記載のエッジシステム。
【請求項16】
前記1つまたは複数のAI/NNモデルが、前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツから1つまたは複数の物体を分類するように構成された物体分類モデルを備える、
請求項1に記載のエッジシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
【0002】
[0001]本出願は、2021年5月5日に出願され、「Systems and Methods Involving Artificial Intelligence and Cloud Technology for Edge and Server SOC」と題された、米国仮出願第63/184,576号、2021年5月5日に出願され、「Systems and Methods Involving Artificial Intelligence and Cloud Technology for Edge and Server SOC」と題された、米国仮出願第63/184,630号、および、2022年4月29日に出願され、「IMPLEMENTATIONS AND METHODS FOR PROCESSING NEURAL NETWORK IN SEMICONDUCTOR HARDWARE」と題された、PCT出願第PCT/US22/27035号に対する恩恵および優先権を主張し、それらの開示はその全体が参照によって本明細書に明示的に組み込まれている。
【0003】
[0002]本開示は、概して人工知能システムに関し、より具体的には、ハードウェアおよびソフトウェアの人工知能(AI)およびクラウド技術を伴うシステムおよび方法に関する。
関連技術
【0004】
[0003]多くの形態のデジタルコンテンツがある。用語「デジタルコンテンツ」は、消費者が消費する任意の視覚コンテンツ、可聴コンテンツ、および/または言語コンテンツを含み得る。例えば、デジタルコンテンツは、画像、映像、音、および/またはテキストから構成され得る。デジタルコンテンツの配信機構には、イーサネット、携帯電話網、衛星、ケーブル、インターネット、WIFI、および/または同類のものが含まれ得る。消費者にコンテンツを配信するために使用され得るデバイスには、TV、携帯電話、自動車ディスプレイ、監視カメラディスプレイ、パーソナルコンピュータ(PC)、タブレット、強化現実(AR)デバイス、仮想現実(VR)デバイス、およびさまざまなモノのインターネット(IoT)デバイスが含まれ得る。デジタルコンテンツは、生のスポーツイベントまたはその他のライブイベントなどの「リアルタイム」のコンテンツと、映画、連続ドラマ、または他の事前に録画されたイベントもしくは生でないイベントなどの「用意された」コンテンツとに分けることもできる。
【0005】
[0004]「リアルタイム」のコンテンツと「用意された」コンテンツはどちらも、さらなる補足またはアノテーションを行わずに消費者に提示される。
図1は、スポーツイベント(例えば、バスケットボールの試合)を含み得る「リアルタイム」のコンテンツの例を示している。デジタルコンテンツは、さらなる処理または関連するアノテーション無しに表示デバイス(例えばTV)に表示されることがある。場合によっては、デジタルコンテンツは、これらに限定されないが、スポーツイベントに関わるチームの点数や広告などのコンテンツに関係するアノテーションを含むことがあるが、そのようなアノテーションは、デジタルコンテンツを消費者にブロードキャストしているエンティティによって事前に含められる。しかし、そのようなアノテーションは、デジタルコンテンツを処理してそのコンテンツ向けの関連するアノテーションを見つけた結果ではない。
【発明の概要】
【0006】
[0005]本明細書に記載される例示的な実装は、デジタルコンテンツを処理して、物体検出、物体分類、顔認識、テキスト検出、自然言語処理から得られる情報などのコンテンツに関するインテリジェントな情報を入手し、クラウド/インターネット/システム/データベース/人々の中で見つかった適切な関連する情報を、処理されて消費者に提示できる状態にされるデジタルコンテンツの部分に結びつける/補足するための新規な手法を対象とする。例示的な実装は、処理されたデジタルコンテンツを、クラウド/インターネットで見つかった関連する適切な情報に結びつける/アノテーションする方法を提供し、ハードウェア、ソフトウェア、またはそれらの何らかの組合せとして実装される。提案される例示的な実装は、消費者と、処理されたデジタルコンテンツおよびアノテーションされたクラウド/インターネット情報との間の対話を可能にし得、それが、デジタルコンテンツを消費する際の消費者体験を向上させ得る。
【0007】
[0006]本明細書に記載される例示的な実装は、視覚デジタルコンテンツおよび/またはオーディオデジタルコンテンツを処理してよい。例えば、デジタルコンテンツを処理することは、視覚デジタルコンテンツおよびオーディオデジタルコンテンツ内で、人々、物体、概念、シーン、テキスト、および/または言語を分類、識別、および/または検出することを伴ってよい。別の例では、デジタルコンテンツを処理してオーディオコンテンツをテキストに変換し、変換されたテキスト内で関連する情報を識別してよい。分類または識別プロセスは、1人または複数の人々(例えば、存在もしくは個人情報)、物体の種類(例えば、車、船等)、テキストもしくは言語の意味、任意の概念、または任意のシーンを識別するための、デジタルコンテンツ内の画像、映像、音声、および/または言語の処理を含んでよい。例えば、さまざまなAIモデル、ニューラルネットワークモデル、および/または機械学習モデルが、デジタルコンテンツ内の画像、映像、および/または言語を処理および分類するために利用されてよいが、他のモデルまたはアルゴリズムも使用されてよい。デジタルコンテンツを処理して、そのコンテンツについての有用な情報を得て、クラウドまたはインターネットからの任意の適切な情報を結びつけ、見つかった情報を、処理される視覚デジタルコンテンツおよびオーディオデジタルコンテンツにアノテーションしてよく、それが次いで、視覚デジタルコンテンツを表示し、オーディオデジタルコンテンツを再生することができるデバイス上で消費者に提示できる状態にされてよい。クラウドまたはインターネットは、任意のサーバ、任意形態のデータベース、任意のコンピュータメモリ、任意の格納デバイス、または任意の消費者デバイスに存在する任意の情報を含み得る。
【0008】
[0007]本明細書に記載される例示的な実装では、ネットワークデバイス(例えば、サーバまたはハブ)が、デジタルコンテンツを処理して、そのデジタルコンテンツに関係する関連クラウド情報を結びつけるように構成されてよい。ネットワークデバイスは、AIモデル、ニューラルネットワークモデル、および/または機械学習モデルを利用してデジタルコンテンツを処理し、関連するまたは視聴者の興味を引くデジタルコンテンツ内の項目について、デジタルコンテンツを検出および/または分析してよい。ネットワークデバイスは、処理されたデジタルコンテンツを、表示デバイスを有するエッジデバイスに提供してよい。ネットワークデバイスは、クラウド情報の少なくとも一部が視聴者の指示に従ってデジタルコンテンツと共に表示され得るように、デジタルコンテンツを、そのデジタルコンテンツに関係する関連するクラウド/インターネット情報で補足してよい。デジタルコンテンツをそのデジタルコンテンツに関係する関連クラウド/インターネット情報で補足することは、デジタルコンテンツを消費する際の消費者体験を向上し得る。
【0009】
[0008]本明細書に記載される例示的な実装では、表示デバイスを有するエッジデバイスが、ネットワークデバイスからデジタルコンテンツのストリームを受信するように構成されてよい。エッジデバイスは、ネットワークデバイスによって処理されたクラウド情報で補足されたデジタルコンテンツを表示してよい。エッジデバイスは、ネットワークデバイスが存在しない場合に、デジタルコンテンツのストリームを処理するように構成されてもよい。例えば、エッジデバイスは、デジタルコンテンツを処理して、人々、物体、テキスト、およびシーンを識別および検出し、クラウドおよびインターネットからコンテンツへの関連する補足的な情報を得てよい。エッジデバイスは、クラウド/インターネットからのデジタルコンテンツに関係する関連情報でデジタルコンテンツを補足し、補足されたデジタルコンテンツを消費者/視聴者に提示してよい。エッジデバイスは、視聴者と、クラウド情報で補足されたデジタルコンテンツとのカスタマイズされた対話を可能にして、視聴者にとって対話型の体験を可能にしてよい。
【0010】
[0009]本開示の態様は、デジタルコンテンツを処理するためのエッジシステムを伴うことができ、このエッジシステムは、1つまたは複数の対数量子化されたパラメータ値によって表される訓練済みニューラルネットワークの形態の物体検出モデルを格納するように構成されたメモリであって、物体検出モデルは、訓練済みニューラルネットワークの対数量子化されたパラメータ値に従って、1つまたは複数のニューラルネットワーク動作を通じて、画像データ上の1つまたは複数の物体を分類するように構成される、メモリと、システムオンチップ(SoC)であって、画像/オーディオデータを取り込むことと、画像データとの関係で、1つまたは複数のニューラルネットワーク動作を通じて、1つまたは複数の訓練済みニューラルネットワークモデルを実行することと、画像/オーディオデータからの分類された1つまたは複数の物体に基づいて、画像データに1つまたは複数のオーバーレイを付加することと、画像/オーディオデータを、付加されたオーバーレイと共に出力として提供することと、を行うように構成されたSoCと、を備える。
【0011】
[0010]本開示の態様は、デジタルコンテンツを処理するためのテレビによって実施される方法を伴うことができ、この方法は、テレビ放送を取り込むことと、テレビ放送との関係で、訓練済みニューラルネットワークの1つまたは複数のニューラルネットワーク動作を通じて、1つまたは複数の訓練済みニューラルネットワークモデルを実行することと、画像データからの1つまたは複数の分類された物体に基づいてテレビデータに1つまたは複数のオーバーレイを付加することと、テレビのディスプレイに、付加されたオーバーレイと共にテレビデータを表示することと、を含む。
【0012】
[0011]本開示の態様は、デジタルコンテンツを処理するための命令を格納しているコンピュータプログラムを伴うことができ、このコンピュータプログラムは、1つまたは複数の対数量子化されたパラメータ値によって表される訓練済みニューラルネットワークの形態の物体検出モデルを格納するように構成されたメモリであって、物体検出モデルは、訓練済みニューラルネットワークの対数量子化されたパラメータ値に従って、1つまたは複数のニューラルネットワーク動作を通じて、画像データ上の1つまたは複数の物体を分類するように構成される、メモリと、システムオンチップ(SoC)であって、画像データを取り込むことと、画像データとの関係で、1つまたは複数のニューラルネットワーク動作を通じて、1つまたは複数の訓練済みニューラルネットワークモデルを実行することと、画像データからの分類された1つまたは複数の物体に基づいて、画像データに1つまたは複数のオーバーレイを付加することと、画像データを、付加されたオーバーレイと共に出力として提供することと、を行うように構成されたSoCと、を備える。
【0013】
[0012]本開示の態様は、デジタルコンテンツを処理するためのエッジシステムを伴うことができ、このエッジシステムは、テレビ放送を取り込む手段と、テレビ放送との関係で、訓練済みニューラルネットワークの1つまたは複数のニューラルネットワーク動作を通じて、1つまたは複数の訓練済みニューラルネットワークモデルを実行する手段と、画像データからの1つまたは複数の分類された物体に基づいてテレビデータに1つまたは複数のオーバーレイを付加する手段と、テレビのディスプレイに、付加されたオーバーレイと共にテレビデータを表示する手段と、を備える。
【0014】
[0013]本開示の態様は、エッジシステムを含むことができ、このエッジシステムは、1つまたは複数の訓練済み人工知能/ニューラルネットワーク(AI/NN)モデルAI/ニューラルネットワークモデルを格納するように構成されたメモリと、システムオンチップ(SoC)であって、ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを取り込むことと、ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを、1つまたは複数の訓練済みAI/NNモデルを用いて処理することと、1つまたは複数の訓練済みAI/NNモデルを用いたブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツの処理に基づいて、別のデバイスから検索された1つまたは複数の補足コンテンツをブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツに付加することと、ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを、別のデバイスから検索された補足コンテンツと共に出力として提供することと、を行うように構成されたSoCと、を伴うことができる。
【0015】
[0014]本開示の態様は、エッジシステムを含むことができ、このエッジシステムは、1つまたは複数の訓練済み人工知能/ニューラルネットワーク(AI/NN)モデルAI/ニューラルネットワークモデルを格納するメモリ手段と、ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを取り込む手段と、ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを、1つまたは複数の訓練済みAI/NNモデルを用いて処理することと、1つまたは複数の訓練済みAI/NNモデルを用いたブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツの処理に基づいて、別のデバイスから検索された補足コンテンツをブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツに付加する手段と、ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを、別のデバイスから検索された補足コンテンツと共に出力として提供する手段と、を含むことができる。
【0016】
[0015]本開示の態様は、エッジシステムのための方法を含むことができ、この方法は、ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを取り込むことと、ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを、1つまたは複数の訓練済みAI/NNモデルを用いて処理することと、1つまたは複数の訓練済みAI/NNモデルを用いたブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツの処理に基づいて、検索された補足コンテンツをブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツに付加することと、ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを、別のデバイスから検索された補足コンテンツと共に出力として提供することと、を含むことができる。
【0017】
[0016]本開示の態様は、エッジシステムのためのコンピュータプログラムを含むことができ、このコンピュータプログラムは、ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを取り込むことと、ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを、1つまたは複数の訓練済みAI/NNモデルを用いて処理することと、1つまたは複数の訓練済みAI/NNモデルを用いたブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツの処理に基づいて、検索された補足コンテンツをブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツに付加することと、ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを、別のデバイスから検索された補足コンテンツと共に出力として提供することと、を含む命令を伴うことができる。命令は、非一過性のコンピュータ可読媒体に格納され、1つまたは複数のプロセッサによって実行されることができる。
【図面の簡単な説明】
【0018】
【
図1】[0017]
図1は、関連技術による、デジタルコンテンツの例を示す図である。
【
図2A】[0018]
図2Aおよび
図2Bは、例示的な実装による、AIエッジSoCにより、関連するクラウド/インターネット情報で補足されたデジタルコンテンツの例を示す図である。
【
図2B】[0018]
図2Aおよび
図2Bは、例示的な実装による、AIエッジSoCにより、関連するクラウド/インターネット情報で補足されたデジタルコンテンツの例を示す図である。
【
図3A】[0019]
図3Aおよび
図3Bは、例示的な実装による、AIエッジデバイスの全体的なアーキテクチャの例を示す図である。
【
図3B】[0019]
図3Aおよび
図3Bは、例示的な実装による、AIエッジデバイスの全体的なアーキテクチャの例を示す図である。
【
図4A】[0020]
図4Aおよび
図4Bは、例示的な実装による、ニューラルネットワーク処理を用いるデジタルコンテンツ処理アーキテクチャの例を示す図である。
【
図4B】[0020]
図4Aおよび
図4Bは、例示的な実装による、ニューラルネットワーク処理を用いるデジタルコンテンツ処理アーキテクチャの例を示す図である。
【
図5】[0021]
図5は、例示的な実装による、デジタルコンテンツ処理SoCのための全体的なデータ経路アーキテクチャを示す図である。
【
図6】[0022]
図6は、例示的な実装による、どのように入力データフレームを下位分割するかの例を示す図である。
【
図7AB】[0023]
図7Aは、例示的な実装による、AI/ニューラルネットワークモデルのパラメータ構造の例を示す図である。[0024]
図7Bは、例示的な実装による、軸索(例えば、ニューラルネットワーク層の出力)構造の例を示す図である。
【
図8AB】[0025]
図8A~
図8Dは、例示的な実装による、さまざまなシステムにおけるAIエッジデバイスの例を示す図である。
【
図8CD】[0025]
図8A~
図8Dは、例示的な実装による、さまざまなシステムにおけるAIエッジデバイスの例を示す図である。
【
図9】[0026]
図9は、例示的な実装による、さまざまなニューラルネットワーク動作を実行することによりデジタルコンテンツを処理するためのAI処理要素(AIPE)の例を示す図である。
【
図10】[0027]
図10は、例示的な実装による、AIPEアレイの例を示す図である。
【
図11A】[0028]
図11Aおよび
図11Bは、例示的な実装による、処理されたデジタルコンテンツを使用するAIデジタルコンテンツアプリケーションのためのソフトウェアスタックの例を示す図である。
【
図11B】[0028]
図11Aおよび
図11Bは、例示的な実装による、処理されたデジタルコンテンツを使用するAIデジタルコンテンツアプリケーションのためのソフトウェアスタックの例を示す図である。
【
図13】[0030]
図13は、例示的な実装による、検出アルゴリズムを使用した、処理されたデジタルコンテンツの例を示す図である。
【
図14】[0031]
図14は、例示的な実装による、人検出アルゴリズムを使用した、処理されたデジタルコンテンツの例を示す図である。
【
図15】[0032]
図15は、例示的な実装による、人姿勢推定アルゴリズムを使用した、処理されたデジタルコンテンツの例を示す図である。
【
図16】[0033]
図16は、例示的な実装による、物体および人分析アルゴリズムを使用した、処理されたデジタルコンテンツの例を示す図である。
【
図17】[0034]
図17は、例示的な実装による、テキスト検出および自然言語処理アルゴリズムを使用した、処理されたデジタルコンテンツの例を示す図である。
【
図18A】[0035]
図18Aおよび
図18Bは、例示的な実装による、クラウド、インターネット、システム、および任意のデータベースの中で見つかった関連する情報で補足された、処理されたデジタルコンテンツの例を示す図である。
【
図18B】[0035]
図18Aおよび
図18Bは、例示的な実装による、クラウド、インターネット、システム、および任意のデータベースの中で見つかった関連する情報で補足された、処理されたデジタルコンテンツの例を示す図である。
【
図19】[0036]
図19は、例示的な実装による、クラウド、インターネット、システム、および任意のデータベースの中で見つかった関連する情報で補足された、処理されたデジタルコンテンツの例を示す図である。
【
図20A】[0037]
図20Aおよび
図20Bは、例示的な実装による、クラウド、インターネット、システム、および任意のデータベースの中で見つかった関連する情報で補足された、処理されたデジタルコンテンツの例を示す図である。
【
図20B】[0037]
図20Aおよび
図20Bは、例示的な実装による、クラウド、インターネット、システム、および任意のデータベースの中で見つかった関連する情報で補足された、処理されたデジタルコンテンツの例を示す図である。
【
図21A】[0038]
図21Aおよび
図21Bは、例示的な実装による、ソーシャルメディアプラットフォームからの関連する情報で補足された、処理されたデジタルコンテンツの例を示す図である。
【
図21B】[0038]
図21Aおよび
図21Bは、例示的な実装による、ソーシャルメディアプラットフォームからの関連する情報で補足された、処理されたデジタルコンテンツの例を示す図である。
【
図22A】[0039]
図22Aおよび
図22Bは、例示的な実装による、電子商取引プラットフォームで見つかった関連する情報で補足された、処理されたデジタルコンテンツの例を示す図である。
【
図22B】[0039]
図22Aおよび
図22Bは、例示的な実装による、電子商取引プラットフォームで見つかった関連する情報で補足された、処理されたデジタルコンテンツの例を示す図である。
【
図23】[0040]
図23は、例示的な実装による、デジタルコンテンツからの処理された情報を使用した、カスタマイズされたデジタルコンテンツの例を示す図である。
【
図24】[0041]
図24は、例示的な実装による、デジタルコンテンツからの処理された情報を使用した、カスタマイズされたデジタルコンテンツの例を示す図である。
【
図25】[0042]
図25は、例示的な実装による、さまざまなアルゴリズムを用いて処理する前のさまざまな入力画像前処理方法の処理の例を示す図である。
【発明を実施するための形態】
【0019】
[0043]以下の詳細な説明は、本出願の図および例示的な実装の詳細を提供する。図間の冗長な要素の参照番号および説明は、明確にするために省略される。説明全体を通じて使用される用語は、例として提供されており、制限となるよう意図されていない。例えば、「自動的」という用語の使用は、本出願の実装を実践する当業者の望ましい実装に応じて、実装の特定の態様に対するユーザまたは管理者の制御を伴う完全に自動的な実装または半自動的な実装を含んでよい。選択が、ユーザインターフェイスまたはその他の入力手段を介して、ユーザによって実施されることができ、あるいは望ましいアルゴリズムによって実施されることができる。本明細書に記載されている例示的な実装は、単独で、または組み合わせて利用されることができ、例示的な実装の機能は、望ましい実装に従って任意の手段によって実装されることができる。
【0020】
[0044]
図2Aおよび
図2Bは、例示的な実装による、どのようにデジタルコンテンツが処理されて、クラウド、インターネット、システム、任意のデータベース、および人々(例えば、人々のデバイスからの入力)からの関連する情報で補足されるかの例を示している。具体的には、
図2Bは、デジタルコンテンツがどのようにして
図2Aの例で使用される関連する情報で補足され得るかの流れを示している。210において、流れは、1つまたは複数のアルゴリズムを用いてデジタルコンテンツを処理する。例えば、デジタルコンテンツ202は、デジタルコンテンツ202を処理するための人工知能処理要素(AIPE)204を有するエッジSoCデバイスに提供されてよい。SoC204は、ネットワークの一部であっても、または独立したエッジデバイスであってもよい(例えば、インターネットに対応可能なTVなど)。SoC204は、デジタルコンテンツ202を受け取り、デジタルコンテンツを処理してデジタルコンテンツ202内の物体を検出または分類してよい。例えば、SoC204は、デジタルコンテンツ202を処理して、デジタルコンテンツ202がバスケットボール選手、バスケットボール、およびバスケットを含んでいることを検出してよい。212において、流れは、関連する補足情報を探索して見つけることができる。SoC204は、バスケットボール選手に関する情報など、処理されたデジタルコンテンツに関係する、クラウド/インターネット/システム/データベース/人々206の中の情報を探索して見つけてよい。例えば、SoC204は、リアルタイムのスポーツイベントに関わる1人または複数の選手ならびに選手のチームを検出または識別してよい。クラウド/インターネット/システム/データベース/人々206は、選手についての関連情報を含み得、SoC204は、クラウド/インターネット/システム/データベース/人々206からの関連情報でデジタルコンテンツ202を補足してよい。214において、流れは、処理されたデジタルコンテンツを、関連する補足情報と共に視聴のために提示してよい。SoC204は、次いで、クラウド/インターネット/システム/データベース/人々206からの情報でアノテーションされたデジタルコンテンツをエッジデバイス208に提供して、デジタルコンテンツを補足情報と共に視聴者に表示してよい。216において、流れは、関連する補足情報がデジタルコンテンツと共に表示される方式のカスタマイズを可能にしてよい。例えば、視聴者/消費者は、これらに限定されないが、選手の個人情報、選手のリアルタイムの統計、以前の試合の最近の統計、またはある期間にわたるシーズン統計、または選手の経歴、選手のソーシャルメディアコンテンツ、選手に関係する電子商取引情報などの補足情報を、デジタルコンテンツと一緒に表示する選択肢を有してよい。
【0021】
[0045]従来のTVおよびスマートTVは、リアルタイムで(例えば、1秒当たり60フレームで)物体検出、物体分類、顔認識、および自然言語処理を使用してデジタルコンテンツを処理する能力を持たない。従来のTVおよびスマートTVは、インターネットからコンテンツをストリーミングする(例えば、スマートTV)か、またはセットトップボックスを通じてコンテンツを受信するかのどちらかで、デジタルコンテンツを消費者に配信し得る。従来のTVは、ユーザ入力(例えば、リモコン入力、音声入力、またはカメラ入力)を受信し、処理することもある。
【0022】
[0046]AI TVとは、デジタルコンテンツを処理し、処理されたデジタルコンテンツの関連情報をクラウド/インターネット/システム/データベース/人々から探索し、見つかった関連する情報でデジタルコンテンツを補足し、デジタルコンテンツをリアルタイムで(例えば、1秒当たり60フレームで)補足情報と共に消費者/視聴者に提示するTVである。AI TVによって行われるデジタルコンテンツ処理の例として、AI TVは、ニューラルネットワークモデルを使用してリアルタイムでデジタルコンテンツを分類および識別し、クラウド/インターネット/システム/データベース/人々の中で関連する情報を見つけて、見つかった情報でコンテンツを補足してよい。AI TVは、デジタルコンテンツを処理し、さまざまなニューラルネットワーク/AIモデルなどの必要な分類アルゴリズムおよび検出アルゴリズムを実行してよい。AI TVは、消費者/視聴者と対話するように構成されてもよく、それにより、消費者が、どの補足情報をデジタルコンテンツと共に表示するか、補足情報を表示する方式、どこに表示するか、およびいつ補足情報を表示するかを選択できるようにする。そのように、AI TVは、ユーザがデジタルコンテンツを消費しながら、双方向体験を有することを可能にし得る。
【0023】
[0047]
図3Aおよび
図3Bは、例示的な実装による、AIクラウドTV SoCの全体的なアーキテクチャを示している。具体的には、
図3Bは、
図3Aの例で使用されるAIクラウドTV SoCの全体的なアーキテクチャの流れを示している。AIクラウドTV SoC302は、デジタルコンテンツを処理するように構成されてよい。AIクラウドTV SoC302は、デジタルコンテンツの処理で利用される複数の要素を備えてよい。例えば、AIクラウドTV SoC302は、入力/前処理ユニット(IPU)304、AI処理ユニット(APU)306、インターネットインターフェイス308、メモリインターフェイス310、出力処理ユニット(OPU)312、およびコントローラ論理314を備えてよい。
【0024】
[0048]320において、流れは、IPUにデジタルコンテンツを入力してよい。IPU304は、デジタルコンテンツ320を入力として受け取ってよい。322において、流れは、入力されたデジタルコンテンツを前処理し、準備のできたデジタルコンテンツをAPUおよびメモリインターフェイスに送る。IPU304は、AI処理ユニットおよびメモリインターフェイスによる使用のためにデジタルコンテンツ320を準備してよい。例えば、IPU304は、デジタルコンテンツ320を複数のフレームおよびオーディオデータとして受け取ってよく、複数のフレームおよびオーディオデータをAPUによって処理されるために準備する。IPU304は、準備のできたデジタルコンテンツ320をAPU306に提供する。APU306は、メモリインターフェイスを介してメモリから得るさまざまなニューラルネットワークモデルおよびその他のアルゴリズムを使用してデジタルコンテンツを処理する。例えば、メモリインターフェイス310は、デジタルコンテンツを処理するためにAPU306によって利用され得る複数のニューラルネットワークモデルおよびアルゴリズムを含んでいる。
【0025】
[0049]324において、流れは、メモリインターフェイスから、1つまたは複数のAI/ニューラルネットワークモデルを取り出してよい。メモリインターフェイス310は、クラウド/インターネット/システム/データベース/人々316から、ニューラルネットワークモデルおよびアルゴリズムを受信してよい。例えば、APUが、メモリインターフェイスから1つまたは複数のAI/ニューラルネットワークモデルを取り出してよい。326において、流れは、前処理された入力デジタルコンテンツを、1つまたは複数のAI/ニューラルネットワークモデルを用いて処理してよい。例えば、APU306は、前処理された入力デジタルコンテンツを、1つまたは複数のAI/ニューラルネットワークモデルを用いて処理してよい。328において、流れは、処理されたデジタルコンテンツの関連する補足情報を探索して見つけ、関連する補足情報をメモリインターフェイスに提供してよい。例えば、インターネットインターフェイス308は、処理されたデジタルコンテンツの関連する補足情報を探索して見つけ、関連する補足情報をメモリインターフェイス310に提供してよい。メモリインターフェイス310は、処理されたデジタルコンテンツに関連するクラウド/インターネット/システム/データベース/人々316からの情報を、インターネットインターフェイス308から受信する。330において、流れは、処理されたデジタルコンテンツおよび関連する補足情報をOPUに提供してよい。クラウド/インターネット/システム/データベース/人々316からの情報は、メモリ318に格納されてよく、またOPU312にも提供されてよい。332において、流れは、処理されたデジタルコンテンツおよび関連する補足情報を、アクセス可能になるようにフォーマットしてよい。OPU312は、クラウド/インターネット/システム/データベース/人々316からの情報を利用してデジタルコンテンツを補足してよく、補足情報およびデジタルコンテンツを消費者/視聴者に提供してよい。インターネットからの情報は、メモリ318に格納されてよく、OPUにとってアクセス可能であってよい。OPUは、メモリインターフェイス310を介してメモリ318に格納されている情報にアクセスしてよい。メモリ318は、内部メモリであっても外部メモリであってもよい。OPU312は、補足情報およびデジタルコンテンツ322を、表示デバイスに表示するために用意する。コントローラ論理314は、IPU304、APU306、OPU312、インターネットインターフェイス、およびメモリインターフェイス310の動作に関する命令を含んでよい。
【0026】
[0050]上記の手順は、デジタルコンテンツ320内のオーディオを処理するために利用されてもよい。例えば、APU306は、デジタルコンテンツのオーディオ部分を処理し、オーディオをテキストに変換し、自然言語処理ニューラルネットワークモデルまたはアルゴリズムを使用してオーディオコンテンツを処理してよい。インターネットインターフェイスは、クラウド/インターネット/システム/データベース/人々から関連情報を見つけて補足情報を作成し、OPUが、上記で複数のフレームに関して説明したのと同じようにして、エッジデバイスに提示するための補足情報およびデジタルコンテンツを用意する。
【0027】
[0051]
図4Aおよび
図4Bは、例示的な実装による、どのようにしてニューラルネットワーク/AIモデルを用いてデジタルコンテンツを処理するかの一般的なアーキテクチャの例を示している。具体的には、
図4Bは、
図4Aの例で使用されるニューラルネットワーク/AIモデルを用いてデジタルコンテンツを処理する一般的なアーキテクチャの流れを示している。AIモデルアーキテクチャ402は、入力処理404、ニューラルネットワーク406、および出力フォーマッタ408を含む。420において、流れは、デジタルコンテンツを受け取り、そのデジタルコンテンツを処理のために用意してよい。AIモデルアーキテクチャ402は、デジタルコンテンツ410を入力として受け取ってよく、入力処理404がデジタルコンテンツ410を準備する。入力処理404は、デジタルコンテンツ410の映像を複数のフレームとして用意しても、またはデジタルコンテンツ410のオーディオを用意してもよい。422において、流れは、処理されたデジタルコンテンツをニューラルネットワークに提供してよい。例えば、入力処理404は、用意されたデジタルコンテンツ410をニューラルネットワーク406に提供してよい。424において、流れは、デジタルコンテンツに複数のニューラルネットワーク動作を行ってよい。ニューラルネットワーク406は、デジタルコンテンツ410に複数の動作を行ってよい。例えば、ニューラルネットワーク406は、処理されたデジタルコンテンツ内で物体を検出するように構成されてよい。例えば、ニューラルネットワーク406は、デジタルコンテンツ内で、これらに限定されないが人々、物体、テキスト等の1つまたは複数の異なる物体を検出してよい。
【0028】
[0052]ニューラルネットワーク406は、すでに処理されたデジタルコンテンツを、さまざまなニューラルネットワークモデルおよびアルゴリズムでさらに処理することができる。一例として、バスケットボール選手が第1のニューラルネットワークモデルで検出された場合、検出されたバスケットボール選手の画像を他のニューラルネットワークモデルで処理して、身体部分(顔、手、足等)を検出する、または顔認識モデルを使用してその選手が誰であるかを判定することができる。
【0029】
[0053]入力処理404がデジタルコンテンツのオーディオを処理する場合、ニューラルネットワーク406は、音声認識のためにオーディオ入力を処理してよい。ニューラルネットワーク406は、検出された音声を、自然言語処理モデルを使用して処理して、音声を理解してよい。自然言語処理は、デジタルコンテンツに関連する関連情報を検出または識別してよい。出力フォーマッタ408は、クラウド/インターネット/システム/データベース/人々の中で、処理されたデジタルコンテンツに関連する情報を見つけ、見つかった情報を視聴者/消費者のためにデジタルコンテンツで補足することができる。
【0030】
[0054]426において、流れは、ニューラルネットワークの出力を利用して、デジタルコンテンツとの関係で補足情報を用意する。出力フォーマッタ408は、ニューラルネットワーク406の出力を利用して、デジタルコンテンツ412への補足情報を表示の準備ができた状態にする。例えば、出力フォーマッタ408は、デジタルコンテンツのオーディオの処理から得られた関連する情報を利用して、オーディオの処理から得られた関連情報に関係するデジタルコンテンツ412と一緒に、広告、情報等を表示してよい。別の例では、出力フォーマッタ408は、デジタルコンテンツの処理から得られた1つまたは複数の検出された人々または物体に関係する獲得された情報を利用して、獲得された情報を、処理されたデジタルコンテンツ(1つまたは複数の検出された人々または物体)と共に使用できる状態にしてよい。例えば、1人または複数の検出された人が運動選手である場合には、関係する運動用衣料品(例えば、ジャージ、ユニフォーム等)の広告が、デジタルコンテンツである運動選手と一緒に使用できる状態の補足情報であってよい。さらに別の例で、出力フォーマッタ408は、デジタルコンテンツの処理から検出された物体(検出された人々以外)に関係する獲得された情報を利用して、獲得された情報を、視聴者/消費者によって使用されるためのデジタルコンテンツ(検出された物体)への補足情報として準備ができた状態にしてよい。例えば、出力フォーマッタ408は、検出された物体の関連する広告または関係する情報などの補足情報を獲得し、それらを、AIエッジデバイスによって使用できる状態にすることができる。
【0031】
[0055]
図5は、例示的な実装による、デジタルコンテンツ処理SoCのための全体的なデータ経路アーキテクチャを示している。入力502(例えば、デジタルコンテンツ)は、入力データバッファ504およびメモリモジュール524によって受け取られてよい。テレビ映像/ブロードキャスト映像/ストリーミング映像データなどの画像データを伴う例では、そのようなデータは、処理されてフレーム508にされてよい。パラメータバッファ506が、メモリモジュールからパラメータを受け取り、このパラメータは、インターネットインターフェイス520を介してインターネットから得られてよい。インターネットインターフェイス520は、クラウドデータ510も提供してよく、クラウドデータ510は、処理された後の入力502に関係する情報を含んでよい。パラメータバッファ506からのパラメータおよび入力データバッファ504内の入力は、AIPE処理エンジン516に提供される。AIPE処理エンジン516は、パラメータバッファからのパラメータによって表されるニューラルネットワークモデルを用いて入力を処理し、出力を出力514に提供する。出力514は、入力データバッファ504からの入力に対してニューラルネットワークモデルを実行した中間結果を含んでよい。AIPE処理エンジン516の出力は、入力データバッファ504に提供され、AIPE処理エンジン516にフィードバックされてもよい。一部の態様では、パラメータ512からのパラメータは、対数量子化されたパラメータであってよい。しかし、一部の態様では、パラメータ512からのパラメータは、対数量子化されたパラメータではない。出力514内の情報は、入力データバッファ504に提供され、AIPE処理エンジン516にフィードバックされてもよい。出力514は、クラウド/インターネット/システム/データベース/人々から、処理された入力データへの関連する補足情報を、視聴者/消費者による使用のために得るために、出力処理ユニット522に提供されてよい。
【0032】
[0056]
図6は、例示的な実装による、どのように入力データフレームを下位分割するかの例を示している。デジタルコンテンツは、入力データフレームを含むことがあり、その入力データフレームが複数のサブフレームに下位分割されてよい。複数のサブフレームの各々は、例として384×216の大きさを有してよい。
図6のフレームは、どのようにフレームが下位分割され得るかの例であるが、本開示は
図6のフレームに限定されることは意図されない。
【0033】
[0057]
図7Aは、例示的な実装による、AI/ニューラルネットワークモデルのパラメータ構造の例を示している。パラメータは、多くの異なるサイズを有し得る(例えば、1キロバイト、20キロバイト、75キロバイト、4メガバイト)。
図7Aのパラメータは、AI/ニューラルネットワークモデルの層ごとに編成されている。
図7Bは、例示的な実装による、軸索(層の出力)構造の例を示している。軸索は、対応する層の構造に応じて、多くの異なるサイズを備え得る(例えば、5.5メガバイト、2メガバイト、1メガバイト、0.6メガバイト)。
図7Bの軸索は、AI/ニューラルネットワークモデルの対応する層ごとに編成されている。
【0034】
[0058]
図8A~
図8Dは、例示的な実装による、さまざまなシステムにおけるAIエッジデバイスの例を示している。
図8Aは、完全に一体化されたデバイスの中にTV SoC、AI TVエッジSoC、および表示パネルを備えるAI TV802の例を提供する。AI TV802は、デジタルコンテンツを処理して、クラウド/インターネット/システム/データベース/人々から獲得された、デジタルコンテンツに関連する関連データ/情報を含むデジタルコンテンツへの補足情報を、AI TV802による使用のために提供するAI TVエッジSoCを含む。
図8Bは、TV806に接続されるように構成された外部デバイスであるAIセットトップボックス804の例を提供する。AIセットトップボックス804は、HDMI接続を介してTV806に接続されてよいが、AIセットトップボックス804とTV806を接続するために他の接続が利用されてよい。AIセットトップボックス804は、セットトップボックス(STB)SoCおよびAIセットトップボックスSoCを備える。AIセットトップボックス804は、デジタルコンテンツを受け取り、そのデジタルコンテンツを処理し、クラウド/インターネット/システム/データベース/人々から獲得されたデジタルコンテンツに関連する関連データ/情報を含む、デジタルコンテンツへの補足情報を出力として提供する。補足情報は、デジタルコンテンツと共に、HDMI接続を介してTV806に提供されてよい。
図8Cは、TV810に接続されるように構成された外部デバイスであるストリーミングシステムデバイス808の例を提供する。ストリーミングシステムデバイス808は、HDMI接続を介してTV810に接続されてよいが、ストリーミングシステムデバイス808とTV810を接続するために他の接続が利用されてよい。ストリーミングシステムデバイス808は、ストリーミングSoCおよびAIストリーミングSoCを備える。ストリーミングシステムデバイス808は、デジタルコンテンツを受け取り、そのデジタルコンテンツを処理し、クラウド/インターネット/システム/データベース/人々から獲得されたデジタルコンテンツに関連する関連データを含む、デジタルコンテンツへの補足情報を出力として提供する。補足情報は、デジタルコンテンツと共に、HDMI接続を介してTV810に提供されてよい。
図8Dは、独立したデバイスであるAIエッジデバイス814の例を提供する。AIエッジデバイス814は、HDMI接続を介してセットトップボックス812からデジタルコンテンツを受け取り、デジタルコンテンツを処理して、クラウド/インターネット/システム/データベース/人々から獲得されたデジタルコンテンツに関連する関連データを含む、デジタルコンテンツへの補足情報を提供する。AIエッジデバイス814は、補足情報を、HDMI接続を介してデジタルコンテンツと共にTV816に提供する。
【0035】
[0059]本明細書に記載されるように、
図3Aおよび
図3Bに示されるようなエッジSoCを組み込んだ、
図8A~
図8Dに示されるようなエッジシステムがあることができ、エッジシステムは、1つまたは複数の訓練済み人工知能/ニューラルネットワーク(AI/NN)モデルAI/ニューラルネットワークモデルを格納するように構成されたメモリ318と、システムオンチップ(SoC)302とを伴うことができ、SoC302は、ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを(例えば、IPU304を介して)取り込むことと、1つまたは複数の訓練済みAI/NNモデルを用いてブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを(例えば、APU306を介して)処理することと、1つまたは複数の訓練済みAI/NNモデルを用いたブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツの処理に基づいて、別のデバイス(例えば、コンテンツサーバ、クラウドサーバ、インターネットサーバ/データベース等)から検索された補足コンテンツをブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツに(例えば、OPU312を介して)付加することと、ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを、別のデバイスから検索された補足コンテンツと共に出力として提供すること(例えば、322に示されるように)と、を行うように構成される。例示的な実装では、ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツは、望ましい実装に応じて、テレビのオーディオ/映像コンテンツ、ストリーミングサーバまたはアプリケーションからのストリーミングオーディオ/映像コンテンツ、インターネットオーディオ/映像、ローカルなブロードキャストコンテンツ(例えば、カメラなどの別のデバイスからの)、またはその他を含むことができる。
【0036】
[0060]望ましい実装に応じて、別のデバイスから検索される補足コンテンツは、
図21Aに示されるような、インターネット接続から検索された1つまたは複数のソーシャルメディアの投稿を含むことができる。
【0037】
[0061]望ましい実装に応じて、SoC302は、
図9に示されるように、1つまたは複数の訓練済みAI/NNモデルを用いて、SoC内の1つまたは複数のシフタ回路によって実行される論理シフト演算の使用を通じて、ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを処理するように構成されることができる。
【0038】
[0062]望ましい実装に応じて、1つまたは複数の訓練済みAI/NNモデルを用いたブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツの処理に対応する加算演算は、
図9に関して説明したように、SoC内の1つまたは複数のシフタ回路または1つまたは複数の加算器回路によって実行されることができる。
【0039】
[0063]望ましい実装に応じて、SoCは、
図9に関して説明したように、1つまたは複数の訓練済みAI/NNモデルを用いて、フィールドプログラマブルゲートアレイ(FPGA)または1つまたは複数のハードウェアプロセッサによって実行される論理シフト演算の使用を通じて、ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを処理するように構成される。
【0040】
[0064]望ましい実装に応じて、エッジシステムはテレビデバイスであることができ、ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツは、
図8Aに示されるようにテレビのオーディオ/映像データである。そのような例示的な実装では、SoCは、LCD/OLEDパネルなどのテレビデバイスのディスプレイに出力を提供するように構成されることができる。
【0041】
[0065]望ましい実装に応じて、エッジシステムはセットトップボックスであることができ、ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツは、
図8Bに示されるようにテレビのオーディオ/映像データである。そのような例示的な実装では、SoCは、セットトップボックスに接続されたテレビデバイスに出力を提供するように構成される。
【0042】
[0066]望ましい実装に応じて、エッジシステムはストリーミングデバイスであり、ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツは、
図8Cに示されるようにテレビのオーディオ/映像データである。そのような例示的な実装では、SoCは、ストリーミングデバイスに接続されたテレビデバイスに出力を提供するように構成される。
【0043】
[0067]望ましい実装に応じて、エッジシステムは、ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを提供するように構成された第1のデバイス(例えば、セットトップボックス、コンテンツサーバ等)に接続されることができ、SoCは、エッジシステムに接続された第2のデバイス(例えば、テレビデバイス、コンピュータデバイス等)に出力を提供するように構成される。
【0044】
[0068]望ましい実装に応じて、エッジシステムは、補足コンテンツとしてコンテンツサーバからデータを検索するように構成されたインターフェイスを伴うことができ、メモリは、コンテンツサーバからの検索のために、1つまたは複数の訓練済みAI/NNモデルのモデル出力を補足コンテンツにマッピングするメタデータを格納するように構成され、SoCは、メモリからメタデータを読み出し、1つまたは複数の訓練済みAI/NNモデルのモデル出力に基づき、インターフェイスを通じて、コンテンツサーバから対応する補足コンテンツを検索するように構成される。例示的な実装では、訓練済みAI/NNモデルの出力は、望ましい実装に従って、検索される特定のコンテンツにマッピングされた特定のラベルに関連付けられることができる。例えば、物体分類モデルの場合、分類された物体は、検索されるための望ましいコンテンツにマッピングされることができる(例えば、
図23に示されるように、バスケットボールの分類により、火の球の画像を検索することができる)。使用されるモデルに応じて他のマッピングも可能であり、本開示は特にこれに限定されない。例えば、メタデータは、1つまたは複数の訓練済みAI/NNモデルのモデル出力を、購入可能な物体に関係する補足コンテンツにマッピングすることができ、SoCは、メモリからメタデータを読み出し、購入可能な物体のうち対応するものを、インターフェイスを通じてコンテンツサーバから検索するように構成され、購入可能な物体のうち対応するものは、
図22Aに示されるように、1つまたは複数の訓練済みAI/NNモデルのモデル出力に基づいて提供される。
【0045】
[0069]望ましい実装に応じて、1つまたは複数の訓練済みAI/NNモデルは、ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツに対して顔認識を行うように構成された顔認識モデルを伴うことができ、SoCは、顔認識から識別された顔に基づいて補足コンテンツを付加するように構成される。
【0046】
[0070]
図9に関して説明したように、エッジシステムは、1つまたは複数のAI/NNモデルに対応する1つまたは複数の対数量子化されたパラメータをサーバ(例えば、クラウドサーバ、コンテンツサーバ、またはAI/NNモデルを訓練し、対応するパラメータを提供するように構成された任意のサーバもしくはデバイス)から検索し、1つまたは複数の対数量子化されたパラメータをメモリに格納するように構成されたインターフェイスを伴うことができ、SoCは、1つまたは複数の訓練済みAI/NNモデルを用いて、1つまたは複数の対数量子化されたパラメータの使用を通じて、ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを処理するように構成される。
【0047】
[0071]
図3Aおよび
図3Bに基づく
図8A~
図8Dに示されるような例示的な実装では、テレビによって実施される方法があることができ、この方法は、テレビ放送を取り込むことと、テレビ放送との関係で、訓練済みニューラルネットワークの1つまたは複数のニューラルネットワーク動作を通じて、1つまたは複数の訓練済みニューラルネットワークモデルを実行することと、画像データからの1つまたは複数の分類された物体に基づいてテレビデータに1つまたは複数のオーバーレイを付加することと、テレビのディスプレイに、付加されたオーバーレイと共にテレビデータを表示することと、を含む。望ましい実装に応じて、そのようなテレビによって実施される方法は、画像データからの1つまたは複数の分類された物体に基づいて、コンテンツサーバから1つまたは複数のオーバーレイとしてデータを検索すること、および/または、外部デバイスから1つまたは複数の対数量子化されたパラメータのデータを検索することと、1つまたは複数の対数量子化されたパラメータをメモリに格納することと、をさらに含むことができる。
【0048】
[0072]望ましい実装に応じて、エッジシステムは、1つまたは複数の対数量子化されたパラメータ値によって表される訓練済みニューラルネットワークの形態の物体検出/分類モデルを格納するように構成されたメモリであって、物体検出/分類モデルは、訓練済みニューラルネットワークの対数量子化されたパラメータ値に従って、1つまたは複数のニューラルネットワーク動作を通じて、画像データ上の1つまたは複数の物体を検出/分類するように構成される、メモリと、システムオンチップ(SoC)と、を伴うことができ、SoCは、画像データを取り込むことと、物体検出モデルを実行して、1つまたは複数のニューラルネットワーク動作を通じて、画像データから1つまたは複数の物体を分類することであって、1つまたは複数のニューラルネットワーク動作は、メモリから読み出された1つまたは複数の対数量子化されたパラメータ値に基づいて、画像データに対する論理シフト演算によって実行される、分類することと、画像データからの分類された1つまたは複数の物体に基づいて、画像データに1つまたは複数のオーバーレイを付加することと、画像データを、付加されたオーバーレイと共に出力として提供することと、を行うように構成される。
【0049】
[0073]望ましい実装に応じて、エッジシステムのための方法があることができ、この方法は、訓練済みニューラルネットワークの対数量子化されたパラメータ値に従って、1つまたは複数のニューラルネットワーク動作を通じて画像データ上の1つまたは複数の物体を分類/検出するように構成された物体検出/分類モデルを、受け取られた画像データに実行することであって、実行することは、対数量子化されたパラメータ値に基づいて画像データに論理シフト演算を実行することを含む、実行することと、分類された1つまたは複数の物体に基づいて、画像データに1つまたは複数のオーバーレイを付加することと、付加された1つまたは複数のオーバーレイと共に画像データを出力として提供することと、を含むことができる。
【0050】
[0074]
図9は、例示的な実装による、さまざまなニューラルネットワーク動作を実行することによってデジタルコンテンツを処理するためのAI処理要素(AIPE)の例を示している。
図9のAIPEは、畳み込み、バッチ正規化、パラメトリックReLU、リカレントニューラルネットワーク、および全結合ニューラルネットワーク動作などのさまざまなニューラルネットワーク動作を実行することによってデジタルコンテンツを処理するために、算術シフトアーキテクチャを備えてよい。しかし、本開示は、本明細書に開示される算術シフトアーキテクチャに限定されることは意図されない。一部の態様では、AIPEは、デジタルコンテンツを処理するための加算器または追加的なシフタを含んでよい。
図9のAIPEは、これらに限定されないが、畳み込み、dense層、パラメトリックReLU、maxプーリング、加算、および/または乗算などのニューラルネットワーク動作を処理するために、算術シフタ902および加算器904を利用する。算術シフタ902は、データ906と、対数量子化されたパラメータから導出されたシフト命令908とを入力として受け取る。データ906は、2の補数に基づく32ビットのデータを含んでよく、対数量子化されたパラメータから導出されたシフト命令908は、7ビットのデータを含んでよい。例えば、算術シフタ902は、32ビットの算術シフタを備えてよい。算術シフタ902は、対数量子化されたパラメータから導出されたシフト命令908に基づいてデータ906をシフトする。算術シフタ902の出力は、2の補数のアーキテクチャを通過し、バイアス910が加算される。一部の態様では、バイアス910は、32ビットのバイアスを備えてよい。加算器904は、算術シフタ902の出力を入力として受け取る。算術シフタ902の出力と符号ビット912との間のXOR演算の出力は、次いで加算器904に供給される。加算器904は、バイアス910、算術シフタ902の出力と符号ビット912との間のXOR演算の出力を桁上げ入力として受け取り、共に加算する。加算器904の出力は、フリップフロップ914に供給される。フリップフロップ914のデータは、
図9のAIPEに戻される。例えば、フリップフロップ914の出力は、マルチプレクサM1に供給され、データ906とデータ多重化される。フリップフロップ914の出力はまた、バイアスマルチプレクサM3に供給され、バイアス910と多重化される。フリップフロップ914の出力はまた、出力マルチプレクサM4に供給され、加算器904の出力と多重化される。フリップフロップ914の出力は、2の補数の形態であってよい。フリップフロップ914のデータの符号ビットも、パラメータマルチプレクサM2を制御するためにAIPEに戻される。例えば、フリップフロップ914のデータの符号ビットは、S2信号と共にOR演算子に供給され、OR演算の結果は、シフト命令908と一定の0信号とを多重化するマルチプレクサM2に供給される。
【0051】
[0075]
図9の例は、デジタルコンテンツを処理するために算術シフトアーキテクチャを利用するAIPEを開示している。しかし、本開示は、本明細書に開示される態様に限定されることは意図されない。AIPEは、例えば、2022年4月29日に出願され、「IMPLEMENTATIONS AND METHODS FOR PROCESSING NEURAL NETWORK IN SEMICONDUCTOR HARDWARE」と題された、PCT出願第PCT/US22/27035号に開示されるように、デジタルコンテンツを処理するためにさまざまなニューラルネットワーク動作を利用する論理シフト(例えば算術シフト、バイナリシフト等を介する)を伴う異なるアーキテクチャを備えてよい。上記出願は、その全体が参照によって明示的に本明細書に組み込まれている。そのような例示的な実装では、加算器回路が、望ましい実装を容易にするためにシフタ回路に置き換えられてもよい。
【0052】
[0076]
図10は、例示的な実装による、AIPEアレイの例を示している。
図10の例では、AIPEアレイは、複数のAIPEを備え、本明細書に開示されるように、データおよびパラメータ(カーネル)がこのAIPEに入力されて、デジタルコンテンツを処理するためのさまざまなニューラルネットワーク動作を行う。AIPEアーキテクチャは、シフタおよび論理ゲートを備えてよいが、他の要素を利用するように構成されてよく、本開示は、本明細書に開示される例に限定されることは意図されない。本明細書に開示される例は、パラメータから導出された7ビットのシフト命令と共に32ビットのデータを備え、データは、1ビット~Nビットであることができ、シフト命令は、1ビット~Mビットのパラメータであることができ、NおよびMは任意の正の整数である。一部の例は、1つの32ビットのシフタを含むが、シフタの数は、2つ以上であってよく、1つのシフタからO個のシフタまで変化してよく、Oは正の整数である。場合によっては、アーキテクチャは、データの128ビット、対数量子化されたパラメータの8ビットから導出されたシフト命令、および直列に(次々に)接続された7つのシフタを備える。また、本明細書に示された論理ゲートは、特定のアーキテクチャに応じて変化することができる論理ゲートの標準的なセットである。
【0053】
[0077]場合によっては、AIPEアーキテクチャは、シフタ、加算器、および/または論理ゲートを利用してよい。本明細書に開示される例は、対数量子化されたパラメータから導出された7ビットのシフト命令と共に32ビットのデータを備え、データは、1ビット~Nビットであることができ、シフト命令は、1ビット~Mビットのデータであることができ、NおよびMは任意の正の整数である。一部の例は、1つの32ビットのシフタと、1つの32ビットの2入力加算器とを含むが、シフタおよび加算器の数は2つ以上であってよく、1つのシフタからO個のシフタまで、および1つの加算器からP個の加算器まで変化してよく、OおよびPは正の整数である。場合によっては、アーキテクチャは、データの128ビット、シフト命令の8ビット、ならびに直列に(次々に)接続された2つのシフタ、および互いに直列接続された2つの加算器を備える。
【0054】
[0078]本明細書に開示されるAIPEアーキテクチャは、シフタおよび論理ゲートを備えて実装されてよく、その場合、シフト演算が乗算および加算/累算動作を代替する。本明細書に開示されるAIPEアーキテクチャは、シフタ、加算器、および論理ゲートを備えて実装されてもよく、その場合、シフト演算が乗算および加算/累算動作を代替する。しかし、一部の態様では、AIPEアーキテクチャは、乗算器、加算器、および/またはシフタから構成されてよい。
【0055】
[0079]
図11Aおよび
図11Bは、例示的な実装による、処理されたデジタルコンテンツを使用するAIデジタルコンテンツアプリケーションのためのソフトウェアスタックの例を示している。具体的には、
図11Bは、
図11Aの例で使用される、処理されたデジタルコンテンツを使用するAIデジタルコンテンツアプリケーションのためのソフトウェアスタックの流れを示している。1102において、流れは、さまざまなアルゴリズムによる使用のためにデジタルコンテンツを前処理する(ダウンサンプリング、アップサンプリング、クロップ等)。1104において、流れは、これらに限定されないが、物体検出、分類、認識、音声認識、自然言語処理などのAI/ニューラルネットワークモデルおよびさまざまなアルゴリズムを使用して、デジタルコンテンツを処理する。1106において、流れは、処理されたデジタルデータおよびデジタルデータの処理から得られた情報を、オペレーティングシステム(OS)が入手できるようにする。1108において、AIデジタルコンテンツAPIが、オペレーティングシステムを介して、処理されたデジタルデータにアクセスすることができる。1110において、AIDCアプリケーションが、AIDC APIを通じて、処理されたデジタルデータにアクセスし、アプリケーションの視聴者/ユーザと対話して有用なサービスおよび機能を提供することができる。
【0056】
[0080]
図12A~
図12Hは、例示的な実装による、処理されたデジタルコンテンツを利用し得るアプリケーションの例を示している。
図12Aでは、AI/ニューラルネットワークモデルおよびその他のアルゴリズムが、スポーツの試合のデジタルコンテンツを処理して、スポーツイベントに関連する選手、チーム、物体、またはテキストの少なくとも1つまたは複数を識別し、リアルタイムの統計、過去の統計、チーム統計、専門家の意見など、クラウド/インターネット/システム/データベース/人々の中で見つかった任意の関連する情報を補足する。見つかった補足情報と共に、処理されたデジタルコンテンツに基づいて、空想スポーツアプリケーションが開発されることができる。
図12Bでは、AI/ニューラルネットワークモデルおよびその他のアルゴリズムが、デジタルコンテンツを処理して、俳優などの個人を識別する。ディープフェイクアプリケーションが、誰かについての処理されたデジタルコンテンツを利用して、処理されたデジタルコンテンツ内の識別された個人を誰か他の者に入れ替え得る。
図12Cでは、AI/ニューラルネットワークモデルおよびその他のアルゴリズムが、デジタルコンテンツを処理して、人、物体、シーン、およびテキストを識別し、そのデジタルコンテンツに関してクラウド/インターネット/システム/データベース/人々の中で見つかった任意の関連する情報を補足する。ソーシャルアプリケーションが、処理されたデジタルコンテンツを利用して、友人または個人の任意のグループが、処理されたデジタルコンテンツを介して互いとつながり、取る行動を投票する、あるいは特定の種類の画像オーバーレイを処理されたコンテンツ上に置くことを決めるなど、互いと接触をとれるようにしてよい。
図12Dでは、AI/ニューラルネットワークモデルおよびその他のアルゴリズムが、デジタルコンテンツを処理して、そのデジタルコンテンツに現れる1人または複数の人を識別する。ゲームアプリケーションが、処理されたコンテンツを利用して、処理されたコンテンツとの関係で、ゲームまたは対話型の娯楽アプリケーションを生成してよい。例えば、ゲームアプリケーションは、コンテンツに現れる人々に視聴者が名前を付けることのできるプロンプトを提供してよい。
図12Eでは、AI/ニューラルネットワークモデルおよびその他のアルゴリズムがデジタルコンテンツを処理して、人々、イベント、およびテキストを識別する。ニュースアプリケーションが、処理されたデジタルコンテンツを利用し、識別された人々、イベント、およびテキストに関係するニュース記事または話を取得し、その記事または話を処理されたコンテンツに結びつけてよい。
図12Fでは、AI/ニューラルネットワークモデルおよびその他のアルゴリズムがデジタルコンテンツを処理して、人々、物体、およびテキストを識別する。視覚オーバーレイアプリケーションが、視聴者が処理されたデジタルコンテンツと対話するために、処理されたデジタルコンテンツを利用してよい。例えば、視覚オーバーレイアプリケーションは、ユーザが、処理されたコンテンツに任意の視覚オーバーレイを入れることを可能にしてよい。
図12Gでは、AI/ニューラルネットワークモデルおよびその他のアルゴリズムがデジタルコンテンツを処理して、デジタルコンテンツ内のすべての登場人物を識別する。チャットボットアプリケーションが、視聴者がデジタルコンテンツ内で識別された登場人物と会話をするために、処理されたデジタルコンテンツを利用する。
図12Hでは、AI/ニューラルネットワークモデルおよびその他のアルゴリズムがデジタルコンテンツを処理して、電子商取引プラットフォームに関連する任意の物体を識別する。電子商取引アプリケーションが、処理されたデジタルコンテンツを利用して、該当する電子商取引プラットフォームを、処理されたデジタルコンテンツの表示に結びつけてよい。例えば、デジタルコンテンツは、スポーツイベント(例えば、バスケットボールの試合)を含み得、電子商取引アプリケーションは、ユーザが識別されたチームの運動用衣料品を購入することを可能にする、またはユーザが今後のスポーツイベントの券を購入することを可能にしてよい。
【0057】
[0081]
図13は、例示的な実装による、検出アルゴリズムで処理されたデジタルコンテンツの例を示している。検出アルゴリズムは、デジタルコンテンツ内の物体および人々を検出してよい。例えば、検出アルゴリズムは、バスケットボール選手、身体部分(例えば、手、顔、脚、足、胴等)、バスケットボール、バックボード、およびバスケットを検出してよい。検出アルゴリズムは、広告やデジタルコンテンツに関与する選手/チームの点数など、デジタルコンテンツ内のテキストを検出してもよい。人々を検出すると、顔認識またはジャージ番号認識アルゴリズムなどの人認識アルゴリズムが、例えば
図14に示されるように、選手を識別することを試みて、検出された人々をさらに処理してよい。
図14では、認識アルゴリズムが、1人または複数の選手を識別し、処理されているデジタルコンテンツ内に選手の名前を提供してよい。
【0058】
[0082]
図15は、例示的な実装による、姿勢推定アルゴリズムで処理されたデジタルコンテンツの例を示している。
図15の例では、姿勢推定アルゴリズムは、デジタルコンテンツ内の人々の姿勢を検出してよい。選手が立っているまたは座っている、選手が歩いている、選手がボールをパスしている、または選手がボールを見ているなど、姿勢推定アルゴリズムで処理されるデジタルコンテンツに関する有用な情報が獲得されることができる。例えば、
図16に示されるように、バスケットボールの試合などのリアルタイムのスポーツイベントで、検出アルゴリズム、認識アルゴリズム、および/または姿勢推定アルゴリズムを用いてデジタルコンテンツを処理することによって収集された有用な情報を使用して、選手が攻撃側(アタッカー)であるか、それとも選手が守備側(ディフェンダー)であるかなど、コンテンツに関するより多くのことを分析することができる。
【0059】
[0083]
図17は、例示的な実装による、テキスト検出アルゴリズムおよび自然言語処理アルゴリズムで処理されたデジタルコンテンツの例を示している。
図17の例では、テキスト検出アルゴリズムは、デジタルコンテンツ内のテキストを検出してよい。例えば、検出アルゴリズムは、デジタルコンテンツ内の1つまたは複数の広告(例えば、自動車メーカ等)の中のテキストを検出してよい。別の例では、検出アルゴリズムは、リアルタイムのイベントにおける点数や残り時間に関する情報など、デジタルコンテンツに関係するテキストを検出してよい。テキスト検出アルゴリズムを使用してさまざまなテキストが検出された後、自然言語処理アルゴリズムを使用して、自動車のメーカまたはバスケットボールの試合に関する情報(例えば、点数、どのクオーターか、試合の残り時間等)を獲得するなど、検出されたテキストに関するより洞察のある情報を得ることができる。
【0060】
[0084]
図18Aおよび
図18Bは、例示的な実装による、クラウド/インターネット/システム/データベース/人々からの関連情報で補足された、処理されたデジタルコンテンツの例を示している。具体的には、
図18Bは、
図18Aの例で使用される、関連情報で補足された、処理されたデジタルコンテンツの流れを示している。1810において、流れは、1つまたは複数のアルゴリズムを使用してデジタルコンテンツを処理する。デジタルコンテンツ(例えば、バスケットボールに関係するコンテンツ)は、これらに限定されないが物体検出、テキスト検出、顔検出、姿勢推定等の1つまたは複数のアルゴリズムを用いて処理され得る。物体検出アルゴリズムが、デジタルコンテンツ内の選手、バスケットボール、バスケット、バックボードを検出してよい。テキスト検出アルゴリズムが、デジタルコンテンツ内のテキスト(例えば、ユニフォーム上のテキストまたは番号)を検出してよい。顔認識アルゴリズムが、デジタルコンテンツ内の選手または人々を識別してよい。姿勢推定アルゴリズムが、デジタルコンテンツ内の選手の姿勢を検出してよい。1812において、流れは、攻撃側または守備側の1人または複数の選手を識別する。例えば、1つまたは複数のアルゴリズムは、どの選手がバスケットボールを持っているかに基づいて攻撃側または守備側の選手を識別してよい。1814において、流れは、バスケットからの1人または複数の選手の距離を計算する。1つまたは複数のアルゴリズムは、バスケットからの各選手の距離を計算してよい。1816において、流れは、1人または複数の選手の補足情報を取得する。例えば、1つまたは複数の選手の補足情報は、バスケットから1人または複数の選手が位置する距離に基づいてよい。各選手の補足情報は、バスケットからの距離に基づくフィールドゴール率、またはバスケットからのその選手の距離に関係する他の統計情報を含んでよい。各選手の補足情報は、クラウド/インターネット/システム/データベース/人々から取得されてよい。1818において、流れは、デジタルコンテンツと共に表示される補足情報をカスタマイズする。例えば、視聴者が、デジタルコンテンツとの関係で表示デバイスに表示される補足情報をカスタマイズし得る。クラウド/インターネット/システム/データベース/人々からの補足情報によりアノテーションされたデジタルコンテンツ1802は、デジタルコンテンツ内で検出された選手についてクラウド1804から検索された統計情報などの情報を含んでよい。視聴者は、自身の好みに応じて、クラウド1804で見つかったどの補足情報を各自のデバイスで表示するかの選択肢を有し得る。AIエッジデバイスが、これらに限定されないが、物体検出アルゴリズム、認識アルゴリズム、テキスト検出アルゴリズム、自然言語処理アルゴリズムを含むさまざまなアルゴリズムを用いてデジタルコンテンツを処理し、クラウド/インターネット/システム/データベース/人々からの関連情報でデジタルコンテンツを補足した後、視聴者は、どの補足情報を表示するか、デバイスのどこに表示するか、自身のデバイスにいつ表示するかを決定することができる。
【0061】
[0085]
図19は、例示的な実装による、クラウド/インターネット/システム/データベース/人々からの関連情報で補足された、処理されたデジタルコンテンツの例を示している。
図19の例では、クラウド/インターネット/システム/データベース/人々から見つかった関連する補足情報が、視聴のためにデジタルコンテンツに重畳されてよい。
図19のデジタルコンテンツを検出アルゴリズムで処理して、選手、バスケット、およびバスケットボールを検出することができる。選手およびバスケットを検出した後、1つまたは複数のアルゴリズムを使用して各選手を処理して、バスケットからの各選手の距離を獲得することができる。バスケットまでの選手の距離が獲得されると、バスケットからの距離を考慮したその選手のフィールドゴール率(FGP)などの関連情報が、クラウド/インターネット/システム/データベース/人々から探索され、獲得されることができる。この距離に固有の選手のフィールドゴール率が、次いでデジタルコンテンツに補足されて、視聴者がそのような情報を自身が選択する任意の時に表示できる状態にすることができる。
【0062】
[0086]
図20Aおよび
図20Bは、例示的な実装による、クラウド/インターネット/システム/データベース/人々からの関連情報で補足された、処理されたデジタルコンテンツの例を示している。具体的には、
図20Bは、
図20Aの例で使用される、関連情報で補足された、処理されたデジタルコンテンツの流れを示している。2002において、流れは、1つまたは複数のアルゴリズムを用いて、デジタルコンテンツを処理する。例えば、デジタルコンテンツ(例えば、ニュースコンテンツ)は、テキストを検出するテキスト検出アルゴリズムなどのさまざまなアルゴリズムで処理されてよい。検出されたテキストは、自然言語処理アルゴリズムで処理されてよい。
図20Aでは、ニュースコンテンツなどのデジタルコンテンツが、テキスト検出および自然言語処理アルゴリズムで処理されて、さまざまな候補者の選挙の投票結果としてコンテンツを識別する。2004において、流れは、処理されたデジタルコンテンツの補足情報を取得する。デジタルコンテンツを処理して上述の情報を獲得すると、他の世論調査会社によって行われた他の投票情報などの関連する補足情報が、クラウド/インターネット/システム/データベース/人々の中で探索され、見つけられることができる。2006において、流れは、処理されたデジタルコンテンツを取得された補足情報で補足する。2008において、流れは、どの補足情報を表示するかをカスタマイズする。例えば、ユーザは、ユーザが選択する時に自分の表示デバイスで補足情報を表示することを決定することができる。
【0063】
[0087]
図21Aおよび
図21Bは、例示的な実装による、ソーシャルメディアプラットフォームからの関連情報で補足された、処理されたデジタルコンテンツの例を示している。具体的には、
図21Bは、
図21Aの例で使用される、関連情報で補足された、処理されたデジタルコンテンツの流れを示している。2102において、流れは、1つまたは複数のアルゴリズムを用いてデジタルコンテンツを処理する。1つまたは複数のアルゴリズムは、1人または複数の野球選手を検出する物体検出アルゴリズムなどのさまざまなアルゴリズムで、デジタルコンテンツ(例えば、野球コンテンツ)を処理してよい。顔認識アルゴリズムが、選手の顔に基づいて選手を検出し得る。テキスト認識アルゴリズムが、選手のジャージ番号を検出して、野球選手を識別し得る。
図21Aの例では、デジタルコンテンツをさまざまなアルゴリズムで処理して、野球の試合の中で投手、打者、捕手、および審判を検出する。デジタルコンテンツ内のすべての選手を識別するために、顔認識アルゴリズムおよび/またはジャージ番号認識アルゴリズムが使用されることができる。2104において、流れは、処理されたデジタルコンテンツの補足情報を取得する。例えば、クラウド/インターネット/システム/データベース/人々(この場合は、インターネット内のソーシャルメディアプラットフォーム、および/またはインターネットもしくはクラウドに接続された人々)からの関連情報が見つけられ、処理されるデジタルコンテンツに補足されることができる。2106において、流れは、視聴者をソーシャルメディアプラットフォームに、および視聴者同士を結びつける。
図21Aでは、ソーシャルメディアからの投稿または試合を見ている人々からのリアルタイムのコメントが、デジタルコンテンツに補足されることができる。2108において、流れは、どの補足情報を表示するかをカスタマイズする。例えば、視聴者は、デジタルコンテンツに補足情報を重畳することを決定することができる。そのようなオーバーレイは、補足情報が人々との社交上の対話からまたはソーシャルメディアプラットフォームから来るため、ソーシャルオーバーレイと呼ばれる。
【0064】
[0088]
図22Aおよび
図22Bは、例示的な実装による、クラウド/インターネット/システム/データベース/人々からの関連情報で補足された、処理されたデジタルコンテンツの例を示している。具体的には、
図22Bは、
図22Aの例で使用される、関連情報で補足された、処理されたデジタルコンテンツの流れを示している。2202において、流れは、1つまたは複数のアルゴリズムを用いて、デジタルコンテンツを処理する。1つまたは複数のアルゴリズムは、1人または複数の選手を検出する物体検出アルゴリズムなどのさまざまなアルゴリズムで、デジタルコンテンツ(例えば、バスケットボールコンテンツ)を処理してよい。顔認識アルゴリズムが、選手の顔に基づいて選手を検出し得る。テキスト認識アルゴリズムが、選手のジャージ番号を検出して、選手を識別し得る。
図22Aでは、デジタルコンテンツがさまざまなアルゴリズムで処理されて、ジャージ、靴、およびバスケットボールと共にバスケットボール選手を検出する。認識アルゴリズムを使用して、選手および選手のチームを識別することができる。2204において、流れは、電子商取引プラットフォームから関連する補足情報を見つける。この例では、クラウド/インターネット/システム/データベース/人々の中で見つかる関連する補足情報は、どこでジャージ、靴、もしくはバスケットボールを買えるか、またはいずれかの電子商取引ウェブサイトへのリンク、またはそのような製品の広告へのリンクなど、電子商取引プラットフォームに関係することができる。2206において、流れは、視聴者を電子商取引プラットフォームに結びつける。2208において、流れは、どの補足情報を表示するかをカスタマイズする。デジタルコンテンツが関連する補足情報で補足された後、視聴者は、そのような情報を表示し、使用して、製品を注文したり、そのような製品の価格または入手可能性を調べたりすることができる。広告主および電子商取引エンティティは、処理されたデジタルコンテンツを介して、消費者への直接のアクセスを有することができる。
【0065】
[0089]
図23は、例示的な実装による、デジタルコンテンツからの処理された情報を使用した、カスタマイズされたデジタルコンテンツの例を示している。一部の態様では、処理されたデジタルコンテンツ内で物体を検出すると、検出された物体は、カスタマイズ可能なオーバーレイを含むように変更されてよい。例えば、
図23はリアルタイムのバスケットボールの試合の例を提供し、ここではバスケットボールが検出されている。バスケットボールは、カスタマイズ可能なオーバーレイを含むように選択されてよく、オーバーレイは、
図23の例では、火と煙から構成されるオーバーレイを含んでいる。場合によっては、火と煙のオーバーレイを有するバスケットボールは、バスケットボールをシュートした者が良い試合をしており、その選手が「燃えて」いることを示すために利用され得る。しかし、場合によっては、多くの異なるオーバーレイが、検出された物体との関連で使用されてよく、本開示は、火と煙から構成されるオーバーレイに制限されることは意図されない。
【0066】
[0090]
図24は、例示的な実装による、デジタルコンテンツからの処理された情報を使用した、カスタマイズされたデジタルコンテンツの例を示している。一部の態様では、検出された物体を伴うイベントの発生を検出すると、結果として、カスタマイズ可能なオーバーレイが表示されてよい。例えば、
図24はリアルタイムのバスケットボールの試合の例を提供し、ここではバスケットボールが検出されている。リアルタイムのバスケットボールの試合中に、選手が、検出されたバスケットボールをスラムダンクすることがあり得、それにより、スラムダンクされているバスケットボールの発生が検出され、検出されたバスケットボールの上にオーバーレイが提供される。
図24の例では、検出されたバスケットボールのスラムダンクの発生が、爆発または花火から構成されるオーバーレイをもたらし得る。しかし、場合によっては、検出された物体を伴うイベントの発生の検出との関連で、多くの異なるオーバーレイが使用されてよく、本開示は、爆発または花火から構成されるオーバーレイに制限されることは意図されない。
【0067】
[0091]
図25は、例示的な実装による、さまざまなアルゴリズムを用いて処理する前のさまざまな入力画像前処理方法の処理の例を示している。デジタルコンテンツ2502は、未処理データを含むことがある。未処理データは、効果的または効率的に処理するには多過ぎる情報を含み得る高解像度(例えば、4Kまたは高精細度)を備えていることがある。そのため、未処理データは、未処理データを変更するために入力モジュール2504、2506、または2508に提供されてよい。未処理データの変更は、効果的なまたは効率的な処理を可能にし得る。一部の態様では、入力モジュール2504は、未処理データを受け取り、未処理データをダウンサンプリングしてよい。例えば、解像度のダウンサンプリングは、未処理データの解像度を、これに限定されないが400×200などのはるかに低い解像度に下げてよい。一部の態様では、入力モジュール2506は、未処理データを受け取り、100:1の圧縮率で未処理データを圧縮してよい。圧縮率は多くの異なる値を備えてよく、本開示は100:1の圧縮率に限定されることは意図されない。一部の態様では、入力モジュール2508は、未処理データを受け取り、未処理データをダウンサンプリングも圧縮もせず、そのため、入力モジュール2508は、未処理データのフルフレームバージョンを備えることになる。未処理データが高解像度を有し、高解像度の未処理データの処理が過度に多くの時間および処理リソースを要する場合には、入力モジュール2504が利用されて未処理データをダウンサンプリングしてよい。未処理データが高解像度を有し、高解像度の未処理データの処理が過度に多くの時間および処理リソースを要する場合には、入力モジュール2506が利用されて未処理データを圧縮してよい。AI精度が重要または必須であり、未処理データのフルフレームを処理するために処理リソースが利用可能である場合には、入力モジュール2508が利用されて、未処理データのフルフレームを提供してよい。入力モジュールの出力は、次いで、処理のためにそれぞれのニューラルネットワークアレイ2510、2512、2514に提供される。それぞれのニューラルネットワークアレイ2510、2512、2514の出力は、デジタルコンテンツ2516を補足するために使用されることができる。
【0068】
[0092]本開示は、本明細書において論じられる実装に限定されることは意図されず、他の実装も可能である。本明細書において提案されるAI SoCは、望ましい実装に従って、そのような機能を利用することができる他のエッジシステムまたはサーバシステムに拡張されることもでき、それらには、モバイルデバイス、監視デバイス(例えば、中央ステーションまたはローカルユーザ制御システムに接続されたカメラまたは他のセンサ)、パーソナルコンピュータ、タブレットもしくは他のユーザ機器、車両(例えば、ADASシステム、またはECUを利用したシステム)、モノのインターネットのエッジデバイス(例えば、アグリゲータ、ゲートウェイ、ルータ)、AR/VRシステム、スマート住宅およびその他のスマートシステムの実装等が含まれる。
【0069】
[0093]詳細な説明の一部は、コンピュータ内の動作のアルゴリズムおよび記号的表現として提示されている。これらのアルゴリズム的記述および記号表現は、革新的技術の本質を他の当業者に伝達するために、データ処理技術の当業者によって使用される手段である。アルゴリズムは、望まれる最終状態または結果につながる一連の定義されたステップである。例示的な実装では、実行されるステップは、有形の結果を達成するために、有形の量の物理的操作を必要とする。
【0070】
[0094]説明から明らかであるように、特に具体的に述べられない限り、説明全体を通じて、「処理」、「計算」、「算出」、「決定」、「表示」などの用語を利用する説明は、コンピュータシステムのレジスタおよびメモリ内の物理(電子)量として表されたデータを操作して、コンピュータシステムのメモリまたはレジスタあるいはその他の情報の格納デバイス、送信デバイス、または表示デバイス内の物理量として同様に表された他のデータに変換する、コンピュータシステムまたはその他の情報処理デバイスの動作およびプロセスを含むことができると理解される。
【0071】
[0095]例示的な実装は、本明細書における動作を実行するための装置に関連してもよい。この装置は、必要とされる目的のために特別に構築されてよく、あるいは1つまたは複数のコンピュータプログラムによって選択的に作動または再構成される1つまたは複数の汎用コンピュータを含んでよい。そのようなコンピュータプログラムは、コンピュータ可読ストレージ媒体またはコンピュータ可読信号媒体などのコンピュータ可読媒体に格納されてよい。コンピュータ可読ストレージ媒体は、これらに限定されないが、光ディスク、磁気ディスク、読み取り専用メモリ、ランダムアクセスメモリ、半導体デバイスおよびドライブ、あるいは電子情報を格納するのに適している任意のその他の種類の有形または非一過性の媒体などの、有形の媒体を含んでよい。コンピュータ可読信号媒体は、搬送波などの媒体を含んでよい。本明細書において提示されたアルゴリズムおよび表示は、本質的に、どの特定のコンピュータまたはその他の装置にも関連していない。コンピュータプログラムは、望ましい実装の動作を実行する命令を伴う純粋なソフトウェア実装を含むことができる。
【0072】
[0096]さまざまな汎用システムが、本明細書における例に従って、プログラムおよびモジュールと共に使用されてよく、または、望まれる方法のステップを実行するために、より特殊な装置を構築することが便利であると判明することもある。加えて、例示的な実装は、いずれかの特定のプログラミング言語を参照して説明されない。本明細書に記載された例示的な実装の技術を実装するために、さまざまなプログラミング言語が使用されてよいことが理解されるであろう。プログラミング言語の命令は、1つまたは複数の処理デバイス(例えば、中央処理装置(CPU)、プロセッサ、またはコントローラ)によって実行されてよい。
【0073】
[0097]当技術分野において知られているように、上記の動作は、ハードウェア、ソフトウェア、またはソフトウェアとハードウェアの何らかの組合せによって実行されることができる。例示的な実装のさまざまな態様は、回路および論理デバイス(ハードウェア)を使用して実装されてよいが、他の態様は、機械可読媒体に格納された命令(ソフトウェア)を使用して実装されてもよく、これらの命令は、プロセッサによって実行された場合、プロセッサに、本出願の実装を実行するための方法を実行させる。さらに、本出願の一部の例示的な実装は、ハードウェアのみで実行されてよく、一方、他の例示的な実装は、ソフトウェアのみで実行されてよい。さらに、説明されたさまざまな機能は、単一のユニットにおいて実行されることができ、または任意数の方式で複数のコンポーネントにわたって分散されることができる。ソフトウェアによって実行される場合、方法は、コンピュータ可読媒体に格納された命令に基づいて、汎用コンピュータなどのプロセッサによって実行されてよい。必要に応じて、命令は、圧縮された形式および/または暗号化された形式で媒体に格納されることができる。
【0074】
[0098]さらに、本明細書の検討および本出願の教示の実践から、本出願の他の実装が当業者にとって明らかになるであろう。説明された例示的な実装のさまざまな態様および/またはコンポーネントが、単独で、または任意の組合せで使用されてよい。本明細書および例示的な実装は、単なる例と見なされることが意図され、本出願の真の範囲および思想は、以下の特許請求の範囲によって示されている。
【手続補正書】
【提出日】2024-06-25
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
1つまたは複数の訓練済み人工知能/ニューラルネットワーク(AI/NN)モデ
ルを格納するように構成されたメモリと、
ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを取り込むことと、
前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを、前記1つまたは複数の訓練済みAI/NNモデルを用いて処理することと、
前記1つまたは複数の訓練済みAI/NNモデルを用いた前記ブロードキャストデジタルコンテンツまたは前記ストリーミングデジタルコンテンツの前記処理に基づいて、別のデバイスから検索された補足コンテンツを
、前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツ
を修正するために付加することと、
別のデバイスから検索された前記追加された補足コンテンツを用いて修正された前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを出力として提供することと
を行うように構成されたシステムオンチップ(SoC)と、
を備えるエッジシステム。
【請求項2】
前記別のデバイスから検索された前記補足コンテンツが、インターネット接続から検索された1つまたは複数のソーシャルメディアの投稿を含む、
請求項1に記載のエッジシステム。
【請求項3】
前記SoCが、前記1つまたは複数の訓練済みAI/NNモデルを用いて、前記SoC内の1つまたは複数のシフタ回路によって実行される論理シフト演算の使用を通じて、前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを処理するように構成される、
請求項1に記載のエッジシステム。
【請求項4】
前記1つまたは複数の訓練済みAI/NNモデルを用いた前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツの処理に対応する加算演算が、前記SoC内の前記1つまたは複数のシフタ回路によって実行される、
請求項3に記載のエッジシステム。
【請求項5】
前記1つまたは複数の訓練済みAI/NNモデルを用いた前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツの処理に対応する加算演算が、前記SoC内の1つまたは複数の加算器回路によって実行される、
請求項3に記載のエッジシステム。
【請求項6】
前記SoCが、前記1つまたは複数の訓練済みAI/NNモデルを用いて、フィールドプログラマブルゲートアレイ(FPGA)によって実行される論理シフト演算の使用を通じて、前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを処理するように構成される、
請求項1に記載のエッジシステム。
【請求項7】
前記SoCが、前記1つまたは複数の訓練済みAI/NNモデルを用いて、1つまたは複数のハードウェアプロセッサによって実行される論理シフト演算の使用を通じて、前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを処理するように構成される、
請求項1に記載のエッジシステム。
【請求項8】
前記エッジシステムがテレビデバイスであり、
前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツが、テレビのオーディオ/映像データであり、
前記SoCが、前記テレビデバイスのディスプレイに前記出力を提供するように構成される、
請求項1に記載のエッジシステム。
【請求項9】
前記エッジシステムがセットトップボックスであり、
前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツが、テレビのオーディオ/映像データであり、
前記SoCが、前記セットトップボックスに接続されたテレビデバイスに前記出力を提供するように構成される、
請求項1に記載のエッジシステム。
【請求項10】
前記エッジシステムがストリーミングデバイスであり、
前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツが、テレビのオーディオ/映像データであり、
前記SoCが、前記ストリーミングデバイスに接続されたテレビデバイスに前記出力を提供するように構成される、
請求項1に記載のエッジシステム。
【請求項11】
前記エッジシステムが、前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを提供するように構成された第1のデバイスに接続され、
前記SoCが、前記エッジシステムに接続された第2のデバイスに前記出力を提供するように構成される、
請求項1に記載のエッジシステム。
【請求項12】
前記補足コンテンツとしてコンテンツサーバからデータを検索するように構成されたインターフェイス
をさらに備え、
前記メモリが、前記コンテンツサーバからの検索のために、前記1つまたは複数の訓練済みAI/NNモデルのモデル出力を補足コンテンツにマッピングするメタデータを格納するように構成され、
前記SoCが、メモリから前記メタデータを読み出し、前記1つまたは複数の訓練済みAI/NNモデルの前記モデル出力に基づき、インターフェイスを通じて、前記コンテンツサーバから対応する補足コンテンツを検索するように構成される、
請求項1に記載のエッジシステム。
【請求項13】
前記メタデータが、前記1つまたは複数の訓練済みAI/NNモデルの前記モデル出力を、購入可能な物体に関係する補足コンテンツにマッピングし、
前記SoCが、メモリから前記メタデータを読み出し、購入可能な物体のうち対応するものを、前記インターフェイスを通じて前記コンテンツサーバから検索するように構成され、前記購入可能な物体のうち前記対応するものは、前記1つまたは複数の訓練済みAI/NNモデルの前記モデル出力に基づいて提供される、
請求項12に記載のエッジシステム。
【請求項14】
前記1つまたは複数の訓練済みAI/NNモデルが、前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツに対して顔認識を行うように構成された顔認識モデルを含み、
前記SoCが、前記顔認識から識別された顔に基づいて前記補足コンテンツを付加するように構成される、
請求項1に記載のエッジシステム。
【請求項15】
前記1つまたは複数のAI/NNモデルに対応する1つまたは複数の対数量子化されたパラメータをサーバから検索し、前記1つまたは複数の対数量子化されたパラメータを前記メモリに格納するように構成されたインターフェイス
をさらに備え、
前記SoCが、前記1つまたは複数の訓練済みAI/NNモデルを用いて、前記1つまたは複数の対数量子化されたパラメータの使用を通じて、前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツを処理するように構成される、
請求項1に記載のエッジシステム。
【請求項16】
前記1つまたは複数のAI/NNモデルが、前記ブロードキャストデジタルコンテンツまたはストリーミングデジタルコンテンツから1つまたは複数の物体を分類するように構成された物体分類モデルを備える、
請求項1に記載のエッジシステム。
【国際調査報告】