特表2022-505875 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ソニー・インタラクティブエンタテインメント　エルエルシーの特許一覧

特表2022-505875デジタルコンテンツの法的認可審査を実行するための方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
1C
2A
2B
2C
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2022-01-14

(54)【発明の名称】デジタルコンテンツの法的認可審査を実行するための方法

(51)【国際特許分類】

G06F 16/9035 20190101AFI20220106BHJP

G06Q 50/10 20120101ALI20220106BHJP

【ＦＩ】

G06F16/9035

G06Q50/10

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2021522956

(86)(22)【出願日】2019-09-27

(85)【翻訳文提出日】2021-04-26

(86)【国際出願番号】 US2019053638

(87)【国際公開番号】W WO2020096710

(87)【国際公開日】2020-05-14

(31)【優先権主張番号】16/184,684

(32)【優先日】2018-11-08

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】518187455

【氏名又は名称】ソニー・インタラクティブエンタテインメントエルエルシー

(74)【代理人】

【識別番号】100105924

【弁理士】

【氏名又は名称】森下賢樹

(72)【発明者】

【氏名】ラッセル、ライリー

【テーマコード（参考）】

5B175

5L049

【Ｆターム（参考）】

5B175DA10

5B175FB04

5B175HA01

5L049CC12

(57)【要約】

【解決手段】デジタルコンテンツの自動認可審査は、知的財産権の制限から免れていることが知られている、または一般的である可能性がある、デジタルコンテンツプレゼンテーションに現れるアイテムを識別し、そのようなアイテムを無視し、どの残りのアイテムが、知的財産権の制限の対象となる可能性があるのかを判断するように訓練された人工知能（ＡＩ）モデルを用いて実装され得る。次いで、それらの残りのアイテムを識別するレポートが生成され得る。
【選択図】図１Ａ

【特許請求の範囲】

【請求項1】

デジタルコンテンツの自動認可審査のための方法であって、
知的財産権の制限から免れていることが知られている、デジタルコンテンツプレゼンテーションに現れるアイテムを識別するように訓練された人工知能（ＡＩ）モデルを用いて前記デジタルコンテンツプレゼンテーションを分析することと、
免れていることが知られていない、前記デジタルコンテンツプレゼンテーションに現れるどのアイテムが一般的である可能性があるのかを判断するように訓練されたＡＩモデルを用いて前記デジタルコンテンツプレゼンテーションを分析することと、
免れていることが知られている、または一般的である可能性があると判断された識別されたアイテムを無視し、前記デジタルコンテンツプレゼンテーションに現れるどの残りのアイテムが、１つ以上の知的財産権の制限の対象になる可能性があるのかを判断するように訓練されるＡＩモデルを用いて前記デジタルコンテンツプレゼンテーションを分析することと、
１つ以上の知的財産権の制限の対象となる可能性がある、前記デジタルコンテンツプレゼンテーションに現れる前記残りのアイテムを識別するレポートを生成することと
を含む、方法。

【請求項2】

１つ以上の知的財産権の制限の対象となる可能性がある、前記デジタルコンテンツプレゼンテーションに現れる前記アイテムを、１つ以上の知的財産権の制限の対象とならない対応するアイテムと自動的にデジタルで置換することをさらに含む、請求項１に記載の方法。

【請求項3】

前記レポートが、１つ以上の知的財産権の制限の対象となる可能性がある、前記デジタルコンテンツプレゼンテーションに現れる１人以上の人物を識別する、請求項１に記載の方法。

【請求項4】

前記レポートが、１つ以上の知的財産権の制限の対象となる可能性がある、前記デジタルコンテンツプレゼンテーションに現れる１つ以上の場所を識別する、請求項１に記載の方法。

【請求項5】

前記レポートが、１つ以上の知的財産権の制限の対象となる可能性がある、前記デジタルコンテンツプレゼンテーションに現れる１つ以上のオブジェクトを識別する、請求項１に記載の方法。

【請求項6】

前記レポートが、１つ以上の知的財産権の制限の対象となる可能性がある、前記デジタルコンテンツプレゼンテーションに現れる１つ以上の音を識別する、請求項１に記載の方法。

【請求項7】

前記レポートが、１つ以上の知的財産権の制限の対象となる可能性がある、前記デジタルコンテンツプレゼンテーションに現れる音楽を識別する、請求項１に記載の方法。

【請求項8】

前記レポートが、１つ以上の知的財産権の制限の対象となる可能性がある、前記デジタルコンテンツプレゼンテーションに現れる１つ以上の建物を識別する、請求項１に記載の方法。

【請求項9】

前記レポートが、１つ以上の知的財産権の制限の対象となる可能性がある、前記デジタルコンテンツプレゼンテーションに現れる１つ以上の車両を識別する、請求項１に記載の方法。

【請求項10】

前記レポートが、１つ以上の知的財産権の制限の対象となる可能性がある、前記デジタルコンテンツプレゼンテーションに現れる１つ以上の芸術作品を識別する、請求項１に記載の方法。

【請求項11】

前記レポートが、１つ以上の知的財産権の制限の対象となる可能性があるアイテムの複数のインスタンスが、単一のオブジェクトによって表され、その結果前記アイテムが前記レポート中に１度しか現れないように構成される、請求項１に記載の方法。

【請求項12】

前記レポートが電子形式であり、対話型ツールを含む、請求項１に記載の方法。

【請求項13】

前記対話型ツールが、１つ以上の知的財産権の制限の対象となる可能性があるとしてフラグが立てられたアイテムのインスタンス数をユーザーに示すように構成される、請求項１２に記載の方法。

【請求項14】

前記対話型ツールが、１つ以上の知的財産権の制限の対象となる可能性があるとしてフラグが立てられたアイテムのインスタンス数をユーザーに示し、そのようなインスタンスの各々の代表的な画像を示すように構成される、請求項１２に記載の方法。

【請求項15】

前記対話型ツールが、１つ以上の知的財産権の制限の対象となる可能性があるとしてフラグが立てられたアイテムのインスタンス数をユーザーに示し、そのようなインスタンスの各々の代表的な画像を示すように構成され、前記対話型ツールによって、ユーザーが、前記デジタルコンテンツプレゼンテーションを通ってそのような各インスタンスに迅速にナビゲートすることが可能になる、請求項１２に記載の方法。

【請求項16】

前記デジタルコンテンツプレゼンテーションを分析することが、１つ以上のクラスのアイテムのインスタンスを識別するために、１つ以上のデジタル画像に対応するデータを解析することを含む、請求項１に記載の方法。

【請求項17】

前記１つ以上のクラスのアイテムが、テキスト、顔、車両、または建物を含む、請求項１６に記載の方法。

【請求項18】

前記デジタルコンテンツプレゼンテーションを分析することが、１つ以上のクラスのアイテムのインスタンスを識別するために、１つ以上のデジタル画像に対応するデータを解析することと、前記１つ以上のクラスの各々の各アイテムをカテゴリ化することとを含む、請求項１に記載の方法。

【請求項19】

前記デジタルコンテンツプレゼンテーションを分析することが、１つ以上のクラスのアイテムのインスタンスを識別するために、デジタル音声データを解析することを含む、請求項１に記載の方法。

【請求項20】

前記１つ以上のクラスのアイテムが、音楽、会話、またはサウンドエフェクトを含む、請求項１９に記載の方法。

【請求項21】

前記デジタルコンテンツプレゼンテーションを分析することが、１つ以上のクラスのアイテムのインスタンスを識別するためにデジタル音声データを解析することと、前記１つ以上のクラスの各々の各アイテムをカテゴリ化することとを含む、請求項１に記載の方法。

【請求項22】

デジタルコンテンツの自動認可審査のためのシステムであって、
１つ以上のプロセッサと、
前記１つ以上のプロセッサに結合されたメモリと、
前記１つ以上のプロセッサによる実行時に、前記システムに、
（ａ）知的財産権の制限から免れていることが知られている、デジタルコンテンツプレゼンテーションに現れるアイテムを識別するように訓練された人工知能（ＡＩ）モデルを用いて前記デジタルコンテンツプレゼンテーションを分析させ、
（ｂ）免れていることが知られていない、前記デジタルコンテンツプレゼンテーションに現れるどのアイテムが一般的である可能性があるのかを判断するように訓練されたＡＩモデルを用いて前記デジタルコンテンツプレゼンテーションを分析させ、
（ｃ）免れていることが知られている、または一般的である可能性があると判断された識別されたアイテムを無視し、前記デジタルコンテンツプレゼンテーションに現れるどの残りのアイテムが、１つ以上の知的財産権の制限の対象になる可能性があるのかを判断するように訓練されるＡＩモデルを用いて前記デジタルコンテンツプレゼンテーションを分析させ、
（ｄ）１つ以上の知的財産権の制限の対象となる可能性がある、前記デジタルコンテンツプレゼンテーションに現れる前記残りのアイテムを識別するレポートを生成させる
ように構成された前記メモリに格納された実行可能な命令と
を備える、前記システム。

【請求項23】

非一時的なコンピュータ可読媒体であって、コンピュータ可読命令をその中に埋め込ませ、前記命令が、１つ以上のプロセッサによる実行時に、
（ａ）知的財産権の制限から免れていることが知られている、デジタルコンテンツプレゼンテーションに現れるアイテムを識別するように訓練された人工知能（ＡＩ）モデルを用いて前記デジタルコンテンツプレゼンテーションを分析させ、
（ｂ）免れていることが知られていない、前記デジタルコンテンツプレゼンテーションに現れるどのアイテムが一般的である可能性があるのかを判断するように訓練されたＡＩモデルを用いて前記デジタルコンテンツプレゼンテーションを分析させ、
（ｃ）免れていることが知られている、または一般的である可能性があると判断された識別されたアイテムを無視し、前記デジタルコンテンツプレゼンテーションに現れるどの残りのアイテムが、１つ以上の知的財産権の制限の対象になる可能性があるのかを判断するように訓練されるＡＩモデルを用いて前記デジタルコンテンツプレゼンテーションを分析させ、
（ｄ）１つ以上の知的財産権の制限の対象となる可能性がある、前記デジタルコンテンツプレゼンテーションに現れる前記残りのアイテムを識別するレポートを生成させる
ように構成された、前記非一時的なコンピュータ可読媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、メディアコンテンツの分析に関し、より具体的には法的認可のためのデジタルコンテンツの分析に関する。

【背景技術】

【0002】

デジタルコンテンツの法規制の状況及び政治意識の高い状況はますます複雑化している。デジタルコンテンツのアイテムは、著作権または商標の保護など、多様な法的保護の対象となる場合がある。さらに、デジタルコンテンツに現れる特定の人物、場所、及びオブジェクトの画像は、パブリシティ権の対象となる場合がある。他の例では、画像、記号、または形状は、一部のまたは多くの個人またはグループにとって社会的に否定的な意味合いまたは意味を醸成してきた場合がある。例えば、映画、テレビ番組、音楽録音、ビデオゲームなどのデジタルコンテンツの製作者は、コンテンツの部分が別のコンテンツの権利を侵害していないと判断するために、新しいコンテンツに厳格な審査プロセスを受けさせる。プロセスは、一般に、１人以上の人が、コンテンツアイテムをそれが提示されるとおりに審査し、コンテンツの中に現れるアイテムを書き留め、これらのアイテムに認可のための審査を受けさせる。アイテムがパブリックドメインにあると判断された場合、またはコンテンツ製作者がそれらのアイテムをメディアコンテンツで使用するライセンス契約を確保することができる、もしくはすでに確保している場合、アイテムは認可され得る。この種の認可が可能ではない場合、問題のあるアイテムを削除するために、デジタルコンテンツを編集する必要がある場合がある。

【0003】

認可審査は手動で行われるために、認可審査は多大な時間を要し、高価であり、かつ人為ミスが生じやすい。さらに、法的保護の対象となるデジタルコンテンツ及びアイテムの膨大な量を考慮すると、デジタルコンテンツに現れるどの人物またはオブジェクトが認可を必要とするのかを判断することは困難である。

【0004】

本開示の態様が生じるのはこの状況においてである。

【図面の簡単な説明】

【0005】

【図1A】本開示の一態様に係るデジタルコンテンツの法的認可審査のための方法を示す概略図である。

【図1B】図１Ａのデジタルコンテンツの法的認可審査のための方法を実装する際の人工知能（ＡＩ）モデルの動作を示す概略図である。

【図1C】本開示の態様に従って、デジタルコンテンツのカテゴリ化項目からレポートを生成することを示す概略図である。

【図2A】本開示の態様に係るデジタルコンテンツの法的認可審査で使用するためのリカレントニューラルネットワークの簡略化したノード図である。

【図2B】本開示の態様に係るデジタルコンテンツの法的認可審査で使用するための展開されたリカレントニューラルネットワークの簡略化したノード図である。

【図2C】本開示の態様に係るデジタルコンテンツの法的認可審査で使用するための畳み込みニューラルネットワークの簡略図である。

【図3】本開示の態様に係る、訓練した音カテゴリ化及び分類ニューラルネットワークを使用する音カテゴリ化及び分類の方法を示すブロック図である。

【図4】本開示の態様に係るデジタルコンテンツの法的認可審査を実装するためのシステムのブロック図を示す。

【発明を実施するための形態】

【0006】

［序論］
本開示の態様によれば、人工知能（ＡＩ）は、例えば、商標、著作権、パブリシティ権、企業秘密などの１つ以上の知的財産（ＩＰ）の制限を受ける可能性があるアイテムのデジタルコンテンツの審査の特定の態様を自動化するために使用できるであろう。

【0007】

ＡＩモデルは、デジタルコンテンツプレゼンテーションからビデオ画像を分析し、デジタルコンテンツに現れる、例えば、人物、オブジェクト、場所、建物、芸術作品、またはテキストなどの関連するアイテムを識別するように訓練され得る。ＡＩモデルは、デジタルコンテンツプレゼンテーションから音声を分析し、デジタルコンテンツに現れる、例えば、音、個人の声、会話、または音楽などの他の関連するアイテムを識別するように同様に訓練され得る。アイテムが識別され、カテゴリ化されると、アイテムは、ＩＰの制限から免れている、または一般的であることが知られている類似アイテムのデータベースに比較され得る。例として、及び制限としてではなく、例えば、アイテムは、デジタルコンテンツプレゼンテーションの作成者、配布者、または出展者によってＩＰ権利者からすでにライセンスを受けているため、アイテムはＩＰの制限から免れていることが知られている場合がある。あるいは、関連するＩＰ権がデジタルコンテンツプレゼンテーションの作成者または配布者によってすでに所有されているため、アイテムが制限を免れている可能性がある。例えば、デジタルコンテンツプレゼンテーション（例えば、ビデオゲーム）の作成者または配布者が他の関連するコンテンツプレゼンテーション（例えば、他のビデオゲームまたは関連する映画）を作成し、関連するコンテンツプレゼンテーションからのキャラクタがデジタルコンテンツプレゼンテーションに表示される場合に、これが発生する場合がある。アイテムがＩＰの制限から免れていることが知られ得る別の方法は、問題のアイテムがすでに、例えばＩＰ権が期限切れになった結果としてなど、すでにパブリックドメインにある場合である。

【0008】

本明細書で使用される場合、用語、一般的は、ほとんどの場合、商標と関連している。知的財産技術の専門家が一般的に理解するように、一般化された商標または一般名となった商標としても知られている一般名称化商標とは、その人気または重要性のため、通常、商標権所有者の意図に反して、製品またはサービスの一般的なクラスの一般名または同義語になった商標またはブランド名である。Ｔｈｅｒｍｏｓ、Ｋｌｅｅｎｅｘ、ＣｈａｐＳｔｉｃｋ、Ａｓｐｉｒｉｎ、Ｄｕｍｐｓｔｅｒ、Ｂａｎｄ－Ａｉｄ、Ｖｅｌｃｒｏ（登録商標）、Ｈｏｏｖｅｒ、及びＳｐｅｅｄｏは、米国及び他の場所で一般的になった商標の例である。

【0009】

本開示の態様に従って、認可審査は、図１Ａに示す方法１００に従って進行する場合がある。デジタルコンテンツプレゼンテーション１０１は、認可の問題を呈していないアイテムを識別するように訓練された１つ以上の人工知能（ＡＩ）モデルを用いて分析され得る。例えば、第１のＡＩモデル１０２は、知的財産権の制限から免れていることが知られている、デジタルコンテンツプレゼンテーションに現れるアイテムを識別するように訓練され得、第２のＡＩモデル１０４は、デジタルコンテンツプレゼンテーション１０１に現れるどのアイテムが、免れていることは知られていないが、一般的である可能性があるのかを判断するように訓練され得る。次いで、残りのアイテム１０５は、残りのアイテムをそのカテゴリ化に従って記載するレポート１０７を生成するために使用され得る。レポートは、任意選択で、残りのアイテム１０５の各々がプレゼンテーション１０１のどこで発生しているのかを識別し得る。これによって、任意選択の自動置換プロセス１０８が容易になり、それによって免れていない、または一般的ではないアイテムを、免れているアイテムで置換し得る。そのような置換は、修正されたコンテンツ１１１を生成するために、テキスト、顔、車両、音楽、または会話をデジタルで変更する、ぼやけさせる、または削除することを含む場合がある。例として、デジタルコンテンツプレゼンテーション１０１に現れる選択された残りのアイテムは、免れていることが知られているコンテンツの代替アイテムを含むデータベースからの対応するアイテムと置換し得る。

【0010】

図１Ｂ～図１Ｃは、本開示の態様に係るデジタルコンテンツの自動認可審査の考えられる実施態様の詳細な実施例を示す。図１Ｂは、ビデオからのシーンに対するＡＩの適用を示す。この実施例においては、シーンは、この実施例では音楽１２５及び会話１２７の別々のトラックを含む音声データ１２３とともに、一連のデジタルビデオ画像１２１を含む。ビデオ画像１２１及び音声データ１２３は、それぞれ画像パーサＡＩ１２４及び音声パーサＡＩ１２６の中に送り込まれる。画像パーサＡＩ１２２は、画像のどの部分が異なるクラスのアイテム、例えば、テキスト１２９、顔１３１、車両１３３、及び建物１３５に対応しているのかを判断するために画像を分析する。当業者は、これらが、ビデオ画像に示されている場合がある多くの異なる考えられる異なるクラスのアイテムのうちのいくつかしか表していないことを認識する。他の考えられるクラスは、植物、動物、地理的場所、家具、及び芸術作品を含む場合がある。ビデオパーサＡＩ１２２は、それぞれが対応するクラス（例えば、示されている実施例ではテキスト、顔、車両、建物）の個々のアイテムを識別するように構成されている複数のＡＩを含む場合がある。例として、及び制限としてではなく、画像パーサＡＩは、ビデオ画像１２１の各フレームで顔を検出するために「顔パーサ」ＡＩとして、ｄｌｉｂまたはｏｐｅｎＣＶなどの標準的な顔検出ライブラリを含む場合がある。顔の以後のカテゴリ化を容易にするために、顔パーサは、ビデオ画像１２１に現れる顔の各インスタンスを識別し、どのインスタンスが同じ顔に一致するのかを判断し、例えば各インスタンスを識別情報と関連付けることによって、同じ顔の異なるインスタンスをともにグループ化し得る。同じように構成されたＡＩ構成要素は、示されている実施例のテキスト、車両、及び建物のために使用され得る。音声パーサＡＩ１２４は、同様に、会話及び音楽を分析するための別個のＡＩ構成要素を含む場合がある。音声パーサＡＩ１２４が、例えば音楽、会話、及び背景音のための別々の音声トラックにアクセスし、音声トラックを対応する音楽、会話、及び背景音のＡＩ構成要素に配信できる場合、音声１２３の分析は、非常に容易になり得る。

【0011】

画像パーサＡＩ１２２は、ビデオ画像１２１に示されている異なるクラスの個々のアイテムに対応する削減されたデータ１３７を出力する。例として、削減された情報は、所与のアイテムの１つ以上の最良のまたは代表的な画像を含む場合がある。例えば、所与の顔１３１は、ビデオ画像１２１の数百または数千のフレームに表示される場合がある。これらの画像のすべてが、所与の顔１３１に属している人物またはキャラクタを識別するために必要とされるわけではない。情報の量を削減するために、顔パーサＡＩは、ビデオ画像１２１で見出される異なる各顔のポートレート画像及びプロファイル画像を出力し得る。車両１３３または建物１３５は、それらを正確に識別するために２つ以上の画像を必要とする場合がある。いくつかの実施態様では、削減されたデータ１３７は、タイムスタンプ情報、またはいつ（例えば、どのフレーム）及びどこで（例えば、フレームのどの部分）所与の各アイテムがビデオ画像１２１に表示されるのかを識別する他の情報を含む場合がある。そのような情報は、問題がある可能性があるアイテムの審査及び／または置換を容易にするために役立ち得る。

【0012】

同様に、音声パーサＡＩ１２４は、音声データ１２３に示されている異なるクラスの個々のアイテムに対応する削減されたデータ１３９を出力し得る。例として、削減された音声データ１３９は、所与のアイテムの１つ以上の最良のまたは代表的な画像を含む場合がある。例えば、特定の単語または文章が会話１２７に複数回現れる場合もあれば、同じ音楽テーマが、おそらく異なる主音または異なる音楽スタイルで繰り返される場合もある。これらのインスタンスのすべてが、単語、文章、または音楽を識別するために必要とされるわけではない。一例として、情報の量を削減するために、音声パーサＡＩ１２４は、同じ単語または文章に対応する音の最良の例を出力し得る。音楽１２５のアイテムは、画像を正確に識別し、カテゴリ化するために２つ以上の画像を必要とする場合がある。例えば、同じ楽曲の異なる録音は、データ１２５に現れる場合がある。これらの録音のいくつかは、パブリックドメインにある場合があり、他はそうではない場合がある。いくつかの実施態様では、削減されたデータ１３９は、タイムスタンプ情報、またはいつ（例えば、どのフレーム）所与の各アイテムが音声データ１２３に現れるのかを識別する他の情報を含む場合がある。そのような情報は、問題がある可能性があるアイテムの審査及び／または置換を容易にするため役立ち得る。

【0013】

削減されたビデオデータ１３７及び削減された音声データ１３９は、それぞれビデオ画像１２１及び音声データ１２３に現れる対応するアイテムを識別するために、別々のビデオカテゴリ化ＡＩ構成要素１４１及び音声カテゴリ化ＡＩ構成要素１４３に送られる。示されている例では、ビデオカテゴリ化ＡＩ構成要素１４１は、テキスト１２６、顔１２８、車両１３０、及び建物１３２の削減されたビデオデータ１３７を分析するための別個のＡＩ構成要素を含む。同様に、音声カテゴリ化構成要素１４３は、音楽１３４及び会話１３６の削減された音声データ１３９を分析するための別個のＡＩ構成要素を含む場合がある。音声１２３がサウンドエフェクトを含むいくつかの実施態様では、音声パーサ１２４は、これらを分離する場合もあり、音声カテゴリ化ＡＩ構成要素１４３は別個のサウンドエフェクトＡＩを含んで、これらを分析し、カテゴリ化する場合がある。そのようなサウンドエフェクトカテゴリ化の実施例は、その内容全体が参照により本明細書に組み込まれる、２０１８年９月２８日に出願され、「ＳＯＵＮＤＣＡＴＥＧＯＲＩＺＡＴＩＯＮＳＹＳＴＥＭ」と題する、ＡｒｉｎｄａｍＪａｔｉらに対する米国特許出願第１６／１４７，３３１号に説明されている。

【0014】

ビデオカテゴリ化ＡＩ構成要素１４１は、例えば示されている実施例のテキスト、顔、車両、及び建物などの対応するクラスの既知のアイテムのラベル付きの画像とともに、対応する訓練されたデータベース（図示せず）を利用し得る。音声カテゴリ化ＡＩ構成要素１４３は、例えば音楽及び会話などの対応するクラスの既知のアイテムのラベル付きの音声データサンプルとともに、対応する訓練されたデータベース（図示せず）を利用し得る。ビデオカテゴリ化ＡＩ構成要素１４１は、ビデオ画像１２１に現れる削減されたビデオデータ１３７によって表されるアイテムに対応するビデオカテゴリ化データ１４５を出力する。例として、テキストカテゴリ化ＡＩ構成要素１２６は、ビデオ画像１２１に示されているテキスト１２９の各インスタンスに対応する文字列の形でデータを出力し得る。いくつかの例では、そのようなテキストカテゴリ化データは、示されているテキストのフォントも識別し得る。同様の方法で、顔カテゴリ化ＡＩ構成要素１２８は、示されている顔に対応する人物またはキャラクタを識別するテキスト文字列の形でデータを出力し得る。車両カテゴリ化ＡＩ構成要素１３０及び建物カテゴリ化構成要素１３２は、同様に、それぞれ示されている車両及び建物を識別するデータを出力し得る。

【0015】

音声カテゴリ化ＡＩ構成要素１４３は、音声データ１２３で発生する削減された音声データ１３９によって表されるアイテムに対応する音声カテゴリ化データ１４７を出力する。例として、音楽カテゴリ化ＡＩ構成要素１３４は、タイトル、作曲家、録音アーティストなど順に、音楽１２５で発生する楽曲を識別するテキスト文字列の形でデータを出力し得る。同様に、会話カテゴリ化ＡＩ構成要素１３６は、例えば会話１２７で使用される特定の名詞などの特定の識別された単語のリストを出力し得る。

【0016】

カテゴリ化を生成することは、役に立つが、ＩＰ認可審査の一部にしか過ぎない。ビデオカテゴリ化データ１４５及び音声カテゴリ化データ１４７の中の識別されたアイテムの数は、きわめて多い場合がある。したがって、ＩＰの制限を免れていることが知られているそれらのアイテムをデータから抜粋することによって、及びシーンで発生する各アイテム、オブジェクト、または音のあらゆるインスタンスを審査する必要なく固有のアイテム、オブジェクト、及び音のリストを作成することによって審査する必要のあるアイテムの数を削減することが望ましい。図１Ｂは、そのようなデータ削減がどのようにして達成される可能性があるのかの非限定的な実施例を示す。示されている実施例では、ビデオカテゴリ化データ１４５及び音声カテゴリ化データ１４７で識別されたアイテムは、ＩＰの制限を免れていることが知られているアイテムのデータベース１３８に対して比較し得る。上記のように、アイテムは、例えば、アイテムが一般的である、パブリックドメインにある、または例えばビデオ画像１２１及び音声データ１２３を含むデジタルコンテンツプレゼンテーションの作成者、配給者、または出展者などの関連するエンティティによって、ＩＰ権利者からすでにライセンスされているために、ＩＰの制限から免れていることが知られている場合がある。各クラスのカテゴリ化されたアイテムは、対応するクラスデータベースのアイテムに対して比較し得、任意の一致するアイテムには次いでフラグを立て得る。１４０に示すように、結果は次いで照合され得、任意のフラグを立てたアイテムは無視され得る。フラグが立てられなかったそれらのアイテムを記載するレポート１４９が、次いで生成され得る。

【0017】

図１Ｃに示す実施例では、俳優の顔、及び音楽が知的財産権の制限から免れており、建物及び単語「ダンプスター」が一般的であると仮定する。したがって、俳優の顔、及び音楽、建物、及び単語「ダンプスター」は、レポートには表示されない。「ロゴ」テキスト及び単語「Ｚｗｅｅｚｉｌ」は、そのそれぞれのデータベース内にないので、レポート１４９は、さらなる審査のためにそれらにフラグを立てる。

【0018】

既知のパブリックドメインのアイテム、既知の認可されたアイテムを削除または省略することによって、審査しなければならない材料の量を「圧縮すること」によって、レポート１４９をより役立つようにし得る。本開示の態様によれば、レポート１４９は、フラグを立てられたアイテムの複数のインスタンスがレポートで削減され、その結果アイテムが単一のオブジェクトによって表され、したがってアイテムがレポートに１度だけ表示されるように構成され得る。例として、同じプレゼンテーションにＭｉｃｋｙＭｏｕｓｅが３回、例えば看板のレンガの壁の上に、通りを歩いている人の帽子に、及びバスに１回現れる場合、「ＭｉｃｋｙＭｏｕｓｅ」は、レポート１４９では１回、識別され得るが、その使用の変形を反映するデータは、レポートで使用可能である場合がある。フラグを立てた同じアイテムの複数のインスタンス１５０の審査を容易にするために、レポート１４９は、電子形式である場合があり、対話型ツールを含む場合がある。そのようなツールは、フラグを立てたアイテムのインスタンスの数をユーザーに示し、それらのインスタンスのそれぞれの代表的な画像を示し、ユーザーが、コンテンツアイテムを通ってインスタンスの各々に迅速にナビゲートすることを可能にする情報を提供するように構成され得る。そのような情報は、コンテンツアイテムのタイムラインのインデックスを参照し得る。いくつかの実施態様では、情報は、インデックスに対応するコンテンツアイテムの部分にリンクするハイパーテキスト（例えば、ｈｔｍｌ、ｘｍｌ、または他のデータ）の形式である場合がある。そのような実施態様では、ユーザーは、レポート１４９に埋め込まれているハイパーテキストリンクをクリックすることによって、所与のフラグが立てられたインスタンスにナビゲートできる場合がある。

【0019】

本開示の態様によれば、いくつかのタイプのデジタルコンテンツは、画像パーサＡＩ１２２及び音声パーサＡＩ１２４または対応する画像カテゴリ化ＡＩ構成要素１４１及び音声カテゴリ化ＡＩ構成要素１４３を必要とすることなく分析できる。例えば、ビデオゲームコンテンツ等の特定の形式のビデオコンテンツは、この情報を容易に抽出可能であるフォーマットである。具体的には、ゲームデータは、通常、例えば、車両、ノンプレーヤーキャラクタ、音楽、会話、テキスト、建物などのゲームに現れるアセットを識別する情報を含む。そのようなアセットについての多くの関連情報は、画像または音声を分析する必要なくゲームデータから直接的に抽出できる。

【0020】

［ニューラルネットワークトレーニング］
デジタルコンテンツの自動認可審査を実装するＡＩモデルは、いくつかの異なるタイプのニューラルネットワークの１つ以上を含み得、多くの異なる層を有し得る。例として、及び制限としてではなく、分類ニューラルネットワークは、１つまたは複数の畳み込みニューラルネットワーク（ＣＮＮ）、リカレントニューラルネットワーク（ＲＮＮ）、及び／または動的ニューラルネットワーク（ＤＮＮ）から成る場合がある。

【0021】

図２Ａは、その各々が、活性化関数Ｓ、１つの入力重みＵ、反復隠れノード遷移重みＷ、及び出力遷移重みＶによって特徴付けられるノード２２０の層を有するＲＮＮの基本形式を示している。活性化関数Ｓは当技術分野で知られている任意の非線形関数である場合があり、（双曲線正接（ｔａｎｈ）関数に限定されないことに留意されたい。例えば、活性化関数Ｓは、シグモイド関数またはＲｅＬｕ関数である場合がある。他のタイプのニューラルネットワークとは異なり、ＲＮＮは、層全体に対して活性化関数及び重みの１つのセットを有する。図２Ｂに示すように、ＲＮＮは、時間Ｔ及びＴ＋１を通って移動する同じ活性化関数を有する一連のノード２２０と見なし得る。したがって、ＲＮＮは、前の時刻Ｔから現在の時刻Ｔ＋１へ結果を送ることによって履歴情報を維持する。

【0022】

重みＵ、Ｗ、及びＶを構成するいくつかの方法がある。入力重みＵは、メル周波数スペクトルに基づいて適用され得る。これらの異なる入力の重みは、ルックアップテーブルに格納され、必要に応じて適用されるであろう。システムが最初に適用するデフォルト値がある場合があるであろう。これらは、ユーザーによって手作業で修正される場合もあれば、機械学習によって自動的に修正される場合もある。

【0023】

いくつかの実施形態では、畳み込みＲＮＮが使用され得る。使用され得るもう１つのタイプのＲＮＮは、長短期記憶（ＬＳＴＭ）ニューラルネットワークであり、これは、入力ゲート活性化関数、出力ゲート活性化関数、及び忘却ゲート活性化関数を有するＲＮＮノードにメモリブロックを追加し、その結果、ネットワークがより長期間、一部の情報を保持することを可能にするゲートメモリを生じさせる。

【0024】

図２Ｃは、本開示の態様による、ＣＲＮＮなどの畳み込みニューラルネットワークの例示的なレイアウトを示す。この図では、畳み込みニューラルネットワークは、高さが４ユニット、及び幅が４ユニットで、１６ユニットの総面積を示すサイズの画像２３２に対して生成される。示されている畳み込みニューラルネットワークは、高さが２ユニット、及び幅が２ユニットで、スキップ値が１のフィルタ２３３サイズ、及びサイズ９のチャネル２３６を有する。明確にするために、図２Ｃでは、チャネルの第１の列とそのフィルタウィンドウとの間の接続２３４しか示していない。しかしながら、本開示の態様は、そのような実施態様に限定されていない。本開示の態様によれば、分類２２９を実装する畳み込みニューラルネットワークは、任意の数の追加のニューラルネットワークノード層２３１を有し得、そのような層タイプを、任意のサイズの追加の畳み込み層、完全に接続された層、プーリング層、最大プーリング層、ローカルコントラスト正規化層などとして含み得る。

【0025】

図２Ｄに見られるように、ニューラルネットワーク（ＮＮ）を訓練することは、ＮＮの重みの初期化から始まる２４１。一般に、初期重みは、無作為に分散される必要がある。例えば、ｔａｎｈ活性化関数を有するＮＮは、－１／√ｎと１／√ｎの間で分散される乱数値を有する必要があり、ここではｎは、ノードに対する入力の数である。

【0026】

初期化後、活性化関数及びオプティマイザーが定義される。ＮＮは、次いで特徴または入力データセットを与えられる２４２。異なる特徴ベクトルの各々は、既知のラベルを有する入力を与えられてよい。同様に、分類ＮＮは、既知のラベリングまたは分類を有する入力に対応する特徴ベクトルを与えられてよい。ＮＮは、次いで特徴または入力のためのラベルまたは分類を予測する２４３。予測したラベルまたはクラスは、既知のラベルまたはクラス（グラウンドトゥルースとしても知られる）に比較され、損失関数は、すべてのトレーニングサンプルに対して予測とグラウンドトゥルースとの間の全誤差を測定する２４４。例として、及び制限としてではなく、損失関数は、クロスエントロピー損失関数、二次コスト、トリプレット対照関数、指数コストなどである場合がある。目的に応じて、複数の異なる損失関数が使用され得る。ＮＮは、次いで、損失関数の結果を使用し、及び確率的勾配降下法などを使用するバックプロパゲーションなどのニューラルネットワーク用の既知の訓練方法を使用し、最適化され、訓練される２４５。各トレーニングエポックでは、オプティマイザーは、トレーニング損失関数（つまり、全誤差）を最小限に抑えるモデルパラメータ（例えば、重み）を選ぼうと試みる。データは、訓練サンプル、バリデーションサンプル、及び試験サンプルに分割される。

【0027】

トレーニング中、オプティマイザーは、トレーニングサンプルに対する損失関数を最小限に抑える。各トレーニングエポックの後、バリデーション損失及び精度を計算することによって、モードがバリデーションサンプルに対して評価される。著しい変化がない場合、トレーニングを停止できる。次いで、この訓練されたモデルは、テストデータのラベルを予測するために使用し得る。

【0028】

したがって、分類ニューラルネットワークは、デジタルコンテンツプレゼンテーションの画像内でアイテムを識別し、分類するように、既知のラベルまたは分類を有する音声入力から訓練され得る。

【0029】

上記の説明は、画像内のアイテムを分類することに関するが、本開示の態様はそのように限定されていない。具体的には、本開示の態様は、デジタルコンテンツが、１つ以上の知的財産権の制限を受ける可能性がある音について審査される実施態様を含む。

【0030】

図３は、音１０１のセグメントから始まる、システム１００と併せて使用され得る音分類及びカテゴリ化の考えられる動作のスキームを示す。複数のフィルタが、音１０１のセグメントに適用されて１０２、ウィンドウ音を作り出し、メル周波数ケプストラム１０３で音の表現を生成する。この周波数またはスペクトルドメイン信号は、次いでスペクトルドメイン信号の対数を取り、次いで別のＦＦＴを実行することによって圧縮される。ケプストラムは、音ウィンドウ内の異なるスペクトルバンドの変化率についての情報と見なすことができる。メル周波数ケプストラム表現は、訓練された音カテゴリ化及び分類ニューラルネットワーク１０４に提供される。訓練された音カテゴリ化及び分類ＮＮは、音のカテゴリ及びサブカテゴリを表すベクトル１０５、ならびに音の最も細かいレベルのカテゴリ、つまり分類１０６を表すベクトルを出力し得る。このカテゴリ化は、次いで自動認可審査中にデータベース１１０を検索するために使用され得る。

【0031】

［実施態様］
図４は、本開示の態様に係るデジタルコンテンツの自動認可審査のためのシステムを示す。システムは、ユーザー入力装置４０２に結合されたコンピューティングデバイス４００を含み得る。ユーザー入力装置４０２は、コントローラ、タッチスクリーン、マイク、キーボード、マウス、ジョイスティック、またはユーザーが音データを含む情報をシステムに入力することを可能にする他のデバイスである場合がある。ユーザー入力装置は、触覚フィードバックデバイス４２１に結合される場合がある。触覚フィードバックデバイス４２１は、例えば振動モータ、力フィードバックシステム、超音波フィードバックシステム、または空気圧フィードバックシステムである場合がある。

【0032】

コンピューティングデバイス４００は、例えば、シングルコア、デュアルコア、クアッドコア、マルチコア、プロセッサコプロセッサ、セルプロセッサなどの周知のアーキテクチャに従って構成され得る１つまたは複数のプロセッサユニット４０３を含み得る。また、コンピューティングデバイスは、１つ以上のメモリユニット４０４（例えば、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、読み取り専用メモリ（ＲＯＭ）など）を含み得る。

【0033】

プロセッサユニット４０３は、１つ以上のプログラムを実行し得、その部分は、メモリ４０４に格納され得、プロセッサ４０３は、例えば、データバス４０５を介してメモリにアクセスすることによって、メモリに動作可能に結合され得る。プログラムは、音をメル周波数ケプストラムに変換するためにサウンドフィルタ４０８を実装するように構成され得る。さらに、メモリ４０４は、音カテゴリ化及び分類ＮＮ４２１のトレーニングを実施するプログラムを含んでもよい。また、メモリ４０４は、画像データ４０８及び音声データ４０９などのデジタルコンテンツ用のデータの関連する部分を含んでもよい。また、メモリ４０４は、認可されたアイテムの１つ以上のデータベース４２２を含んでもよい。例えば画像及び音声用のパーサＡＩ、ならびに異なるクラスのアイテム（例えば、テキスト、顔、車両、建物、音楽、及び会話）用のカテゴリ化ＡＩなどのニューラルネットワークモジュール４２１も、メモリ４０４に格納され得る。メモリ４０４は、ニューラルネットワークモジュール４２１によって、データベース４２２内にあるとして識別されないアイテムを記載するレポート４１０を格納し得る。デジタルコンテンツデータ、ニューラルネットワークモジュール４２１、４２２は、大容量記憶装置４１８、またはネットワークインタフェース４１４を通してアクセスされたネットワーク４２０に結合されたサーバにデータ４１８として格納されてもよい。

【0034】

また、ＮＮの全体的な構造及び確率も、大容量記憶装置４１５にデータ４１８として格納され得る。プロセッサユニット４０３は、プロセッサに、本明細書に説明するようにニューラルネットワーク４２２を使用したデジタルコンテンツの自動認可審査の方法を実施させる、大容量記憶装置４１５にまたはメモリ４０４に格納された１つ以上のプログラム４１７を実行するようにさらに構成される。システム４００は、ＮＮトレーニングプロセスの一部としてニューラルネットワーク４２２を生成し、それらをメモリ４０４に格納し得る。完成したＮＮは、メモリ４０４にまたはデータ４１８として大容量記憶装置４１５に格納され得る。また、プログラム４１７（またはその部分）は、適切なプログラミングによって、知的財産権の制限から免れていることが知られているデジタルコンテンツデータ４０８、４０９に現れるアイテムを識別するように訓練された人工知能（ＡＩ）モデル４２２を用いてデジタルコンテンツプレゼンテーションを分析し、そのデータを、デジタルコンテンツプレゼンテーションに現れる、免れていることが知られていないどのアイテムが、一般的である可能性があるのかを判断し、どの残りのアイテムが、知的財産（ＩＰ）権の制限の対象となる可能性があるのかを判断するように訓練された他のＡＩモデル４２２を用いて分析し、ＩＰ権の制限の対象となる可能性があるアイテムを識別するためにレポート４１０を生成するように構成され得る。

【0035】

また、コンピューティングデバイス４００は、例えばバス４０５を介してシステムの他の構成要素と通信し得る、入出力（Ｉ／Ｏ）４０７、回路、電源（Ｐ／Ｓ）４１１、クロック（ＣＬＫ）４１２、及びキャッシュ４１３などの周知のサポート回路も含み得る。コンピューティングデバイスは、ネットワークインタフェース４１４を含み得る。プロセッサユニット４０３及びネットワークインタフェース４１４は、ローカルエリアネットワーク（ＬＡＮ）またはパーソナルエリアネットワーク（ＰＡＮ）を、適切なネットワークプロトコル、例えばＰＡＮの場合ブルートゥース（登録商標）を介して実装するように構成され得る。コンピューティングデバイスは、任意選択で、ディスクドライブ、ＣＤ－ＲＯＭドライブ、テープドライブ、フラッシュメモリなどの大容量記憶装置４１５を含み得、大容量記憶装置はプログラム及び／またはデータを格納し得る。また、コンピューティングデバイスは、システムとユーザーとの間の対話を容易にするためにユーザーインタフェース４１６を含み得る。ユーザーインタフェースは、モニタ、テレビ画面、スピーカ、ヘッドフォン、または情報をユーザーに伝達する他のデバイスを含み得る。

【0036】

コンピューティングデバイス４００は、電子通信ネットワーク４２０を介した通信を容易にするためにネットワークインタフェース４１４を含み得る。ネットワークインタフェース４１４は、ローカルエリアネットワーク及びインターネットなどの広域ネットワークを介して、有線通信または無線通信を実装するように構成され得る。デバイス４００は、ネットワーク４２０上で１つ以上のメッセージパケットを介してデータ及び／またはファイルに対する要求を送受信し得る。ネットワーク４２０を介して送信されたメッセージパケットは、一時的にメモリ４０４のバッファ４０９に格納され得る。カテゴリ化された音データベースは、ネットワーク４２０を通して利用可能であり、使用するためにメモリ４０４に部分的に格納され得る。

【0037】

本開示の態様によって、従来手作業で実行されている多大な時間を要するタスクであるＩＰ認可審査の大幅な自動化が可能になる。ＩＰの制限から免れていることが知られているまたは免れている可能性があるアイテムを自動的に識別し、無視し、残りのアイテムにレポートを集中させることによって、ＩＰ審査のタスクは大幅に合理化できる。

【0038】

上記は、本開示の好ましい実施形態の完全な説明であるが、多様な代替策、修正、及び均等物を使用することが可能である。上述の説明は、限定的ではなく、例示的であることを意図するものであることを理解すべきである。例えば、図の流れ図は、本開示の特定の実施形態によって実行される動作の特定の順序を示すが、そのような順序が必須ではない（例えば、代替実施形態は、異なる順序で動作を実行し得、特定の動作を結合し得、特定の動作を重複させ得るなど）を理解すべきである。さらに、多くの他の実施形態は、上述の説明を読み、理解すると当業者に明らかになるであろう。本開示は、特定の例示的な実施形態に関して説明されてきたが、本開示が、説明されている実施形態に限定されるのではなく、添付の特許請求の範囲の精神及び範囲内で変更形態及び改変形態で実施できることが認識される。したがって、本開示の範囲は、添付の特許請求の範囲によって権利が与えられる均等物の全体の範囲とともに、そのような特許請求の範囲に関して判定されるべきである。好ましいかどうかに関わらず、本明細書に説明された任意の特徴は、好ましいかどうかに関わらず、本明細書に説明された任意の他の特徴と組み合わされてよい。以下の特許請求の範囲では、不定冠詞「Ａ」または「Ａｎ」は、明示的に別段の定めをした場合を除き、冠詞に続く項目のうちの１つ以上の数を指す。添付の特許請求の範囲は、ミーンズプラスファンクションの限定が語句「するための手段（ｍｅａｎｓｆｏｒ）」を使用し、所与の請求項に明示的に説明されない限り、係る限定を含むものとして解釈されるべきではない。

【図1A】