(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-01-14
(54)【発明の名称】デジタルコンテンツの法的認可審査を実行するための方法
(51)【国際特許分類】
G06F 16/9035 20190101AFI20220106BHJP
G06Q 50/10 20120101ALI20220106BHJP
【FI】
G06F16/9035
G06Q50/10
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021522956
(86)(22)【出願日】2019-09-27
(85)【翻訳文提出日】2021-04-26
(86)【国際出願番号】 US2019053638
(87)【国際公開番号】W WO2020096710
(87)【国際公開日】2020-05-14
(32)【優先日】2018-11-08
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】518187455
【氏名又は名称】ソニー・インタラクティブエンタテインメント エルエルシー
(74)【代理人】
【識別番号】100105924
【氏名又は名称】森下 賢樹
(72)【発明者】
【氏名】ラッセル、ライリー
【テーマコード(参考)】
5B175
5L049
【Fターム(参考)】
5B175DA10
5B175FB04
5B175HA01
5L049CC12
(57)【要約】
【解決手段】デジタルコンテンツの自動認可審査は、知的財産権の制限から免れていることが知られている、または一般的である可能性がある、デジタルコンテンツプレゼンテーションに現れるアイテムを識別し、そのようなアイテムを無視し、どの残りのアイテムが、知的財産権の制限の対象となる可能性があるのかを判断するように訓練された人工知能(AI)モデルを用いて実装され得る。次いで、それらの残りのアイテムを識別するレポートが生成され得る。
【選択図】
図1A
【特許請求の範囲】
【請求項1】
デジタルコンテンツの自動認可審査のための方法であって、
知的財産権の制限から免れていることが知られている、デジタルコンテンツプレゼンテーションに現れるアイテムを識別するように訓練された人工知能(AI)モデルを用いて前記デジタルコンテンツプレゼンテーションを分析することと、
免れていることが知られていない、前記デジタルコンテンツプレゼンテーションに現れるどのアイテムが一般的である可能性があるのかを判断するように訓練されたAIモデルを用いて前記デジタルコンテンツプレゼンテーションを分析することと、
免れていることが知られている、または一般的である可能性があると判断された識別されたアイテムを無視し、前記デジタルコンテンツプレゼンテーションに現れるどの残りのアイテムが、1つ以上の知的財産権の制限の対象になる可能性があるのかを判断するように訓練されるAIモデルを用いて前記デジタルコンテンツプレゼンテーションを分析することと、
1つ以上の知的財産権の制限の対象となる可能性がある、前記デジタルコンテンツプレゼンテーションに現れる前記残りのアイテムを識別するレポートを生成することと
を含む、方法。
【請求項2】
1つ以上の知的財産権の制限の対象となる可能性がある、前記デジタルコンテンツプレゼンテーションに現れる前記アイテムを、1つ以上の知的財産権の制限の対象とならない対応するアイテムと自動的にデジタルで置換することをさらに含む、請求項1に記載の方法。
【請求項3】
前記レポートが、1つ以上の知的財産権の制限の対象となる可能性がある、前記デジタルコンテンツプレゼンテーションに現れる1人以上の人物を識別する、請求項1に記載の方法。
【請求項4】
前記レポートが、1つ以上の知的財産権の制限の対象となる可能性がある、前記デジタルコンテンツプレゼンテーションに現れる1つ以上の場所を識別する、請求項1に記載の方法。
【請求項5】
前記レポートが、1つ以上の知的財産権の制限の対象となる可能性がある、前記デジタルコンテンツプレゼンテーションに現れる1つ以上のオブジェクトを識別する、請求項1に記載の方法。
【請求項6】
前記レポートが、1つ以上の知的財産権の制限の対象となる可能性がある、前記デジタルコンテンツプレゼンテーションに現れる1つ以上の音を識別する、請求項1に記載の方法。
【請求項7】
前記レポートが、1つ以上の知的財産権の制限の対象となる可能性がある、前記デジタルコンテンツプレゼンテーションに現れる音楽を識別する、請求項1に記載の方法。
【請求項8】
前記レポートが、1つ以上の知的財産権の制限の対象となる可能性がある、前記デジタルコンテンツプレゼンテーションに現れる1つ以上の建物を識別する、請求項1に記載の方法。
【請求項9】
前記レポートが、1つ以上の知的財産権の制限の対象となる可能性がある、前記デジタルコンテンツプレゼンテーションに現れる1つ以上の車両を識別する、請求項1に記載の方法。
【請求項10】
前記レポートが、1つ以上の知的財産権の制限の対象となる可能性がある、前記デジタルコンテンツプレゼンテーションに現れる1つ以上の芸術作品を識別する、請求項1に記載の方法。
【請求項11】
前記レポートが、1つ以上の知的財産権の制限の対象となる可能性があるアイテムの複数のインスタンスが、単一のオブジェクトによって表され、その結果前記アイテムが前記レポート中に1度しか現れないように構成される、請求項1に記載の方法。
【請求項12】
前記レポートが電子形式であり、対話型ツールを含む、請求項1に記載の方法。
【請求項13】
前記対話型ツールが、1つ以上の知的財産権の制限の対象となる可能性があるとしてフラグが立てられたアイテムのインスタンス数をユーザーに示すように構成される、請求項12に記載の方法。
【請求項14】
前記対話型ツールが、1つ以上の知的財産権の制限の対象となる可能性があるとしてフラグが立てられたアイテムのインスタンス数をユーザーに示し、そのようなインスタンスの各々の代表的な画像を示すように構成される、請求項12に記載の方法。
【請求項15】
前記対話型ツールが、1つ以上の知的財産権の制限の対象となる可能性があるとしてフラグが立てられたアイテムのインスタンス数をユーザーに示し、そのようなインスタンスの各々の代表的な画像を示すように構成され、前記対話型ツールによって、ユーザーが、前記デジタルコンテンツプレゼンテーションを通ってそのような各インスタンスに迅速にナビゲートすることが可能になる、請求項12に記載の方法。
【請求項16】
前記デジタルコンテンツプレゼンテーションを分析することが、1つ以上のクラスのアイテムのインスタンスを識別するために、1つ以上のデジタル画像に対応するデータを解析することを含む、請求項1に記載の方法。
【請求項17】
前記1つ以上のクラスのアイテムが、テキスト、顔、車両、または建物を含む、請求項16に記載の方法。
【請求項18】
前記デジタルコンテンツプレゼンテーションを分析することが、1つ以上のクラスのアイテムのインスタンスを識別するために、1つ以上のデジタル画像に対応するデータを解析することと、前記1つ以上のクラスの各々の各アイテムをカテゴリ化することとを含む、請求項1に記載の方法。
【請求項19】
前記デジタルコンテンツプレゼンテーションを分析することが、1つ以上のクラスのアイテムのインスタンスを識別するために、デジタル音声データを解析することを含む、請求項1に記載の方法。
【請求項20】
前記1つ以上のクラスのアイテムが、音楽、会話、またはサウンドエフェクトを含む、請求項19に記載の方法。
【請求項21】
前記デジタルコンテンツプレゼンテーションを分析することが、1つ以上のクラスのアイテムのインスタンスを識別するためにデジタル音声データを解析することと、前記1つ以上のクラスの各々の各アイテムをカテゴリ化することとを含む、請求項1に記載の方法。
【請求項22】
デジタルコンテンツの自動認可審査のためのシステムであって、
1つ以上のプロセッサと、
前記1つ以上のプロセッサに結合されたメモリと、
前記1つ以上のプロセッサによる実行時に、前記システムに、
(a)知的財産権の制限から免れていることが知られている、デジタルコンテンツプレゼンテーションに現れるアイテムを識別するように訓練された人工知能(AI)モデルを用いて前記デジタルコンテンツプレゼンテーションを分析させ、
(b)免れていることが知られていない、前記デジタルコンテンツプレゼンテーションに現れるどのアイテムが一般的である可能性があるのかを判断するように訓練されたAIモデルを用いて前記デジタルコンテンツプレゼンテーションを分析させ、
(c)免れていることが知られている、または一般的である可能性があると判断された識別されたアイテムを無視し、前記デジタルコンテンツプレゼンテーションに現れるどの残りのアイテムが、1つ以上の知的財産権の制限の対象になる可能性があるのかを判断するように訓練されるAIモデルを用いて前記デジタルコンテンツプレゼンテーションを分析させ、
(d)1つ以上の知的財産権の制限の対象となる可能性がある、前記デジタルコンテンツプレゼンテーションに現れる前記残りのアイテムを識別するレポートを生成させる
ように構成された前記メモリに格納された実行可能な命令と
を備える、前記システム。
【請求項23】
非一時的なコンピュータ可読媒体であって、コンピュータ可読命令をその中に埋め込ませ、前記命令が、1つ以上のプロセッサによる実行時に、
(a)知的財産権の制限から免れていることが知られている、デジタルコンテンツプレゼンテーションに現れるアイテムを識別するように訓練された人工知能(AI)モデルを用いて前記デジタルコンテンツプレゼンテーションを分析させ、
(b)免れていることが知られていない、前記デジタルコンテンツプレゼンテーションに現れるどのアイテムが一般的である可能性があるのかを判断するように訓練されたAIモデルを用いて前記デジタルコンテンツプレゼンテーションを分析させ、
(c)免れていることが知られている、または一般的である可能性があると判断された識別されたアイテムを無視し、前記デジタルコンテンツプレゼンテーションに現れるどの残りのアイテムが、1つ以上の知的財産権の制限の対象になる可能性があるのかを判断するように訓練されるAIモデルを用いて前記デジタルコンテンツプレゼンテーションを分析させ、
(d)1つ以上の知的財産権の制限の対象となる可能性がある、前記デジタルコンテンツプレゼンテーションに現れる前記残りのアイテムを識別するレポートを生成させる
ように構成された、前記非一時的なコンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、メディアコンテンツの分析に関し、より具体的には法的認可のためのデジタルコンテンツの分析に関する。
【背景技術】
【0002】
デジタルコンテンツの法規制の状況及び政治意識の高い状況はますます複雑化している。デジタルコンテンツのアイテムは、著作権または商標の保護など、多様な法的保護の対象となる場合がある。さらに、デジタルコンテンツに現れる特定の人物、場所、及びオブジェクトの画像は、パブリシティ権の対象となる場合がある。他の例では、画像、記号、または形状は、一部のまたは多くの個人またはグループにとって社会的に否定的な意味合いまたは意味を醸成してきた場合がある。例えば、映画、テレビ番組、音楽録音、ビデオゲームなどのデジタルコンテンツの製作者は、コンテンツの部分が別のコンテンツの権利を侵害していないと判断するために、新しいコンテンツに厳格な審査プロセスを受けさせる。プロセスは、一般に、1人以上の人が、コンテンツアイテムをそれが提示されるとおりに審査し、コンテンツの中に現れるアイテムを書き留め、これらのアイテムに認可のための審査を受けさせる。アイテムがパブリックドメインにあると判断された場合、またはコンテンツ製作者がそれらのアイテムをメディアコンテンツで使用するライセンス契約を確保することができる、もしくはすでに確保している場合、アイテムは認可され得る。この種の認可が可能ではない場合、問題のあるアイテムを削除するために、デジタルコンテンツを編集する必要がある場合がある。
【0003】
認可審査は手動で行われるために、認可審査は多大な時間を要し、高価であり、かつ人為ミスが生じやすい。さらに、法的保護の対象となるデジタルコンテンツ及びアイテムの膨大な量を考慮すると、デジタルコンテンツに現れるどの人物またはオブジェクトが認可を必要とするのかを判断することは困難である。
【0004】
本開示の態様が生じるのはこの状況においてである。
【図面の簡単な説明】
【0005】
【
図1A】本開示の一態様に係るデジタルコンテンツの法的認可審査のための方法を示す概略図である。
【
図1B】
図1Aのデジタルコンテンツの法的認可審査のための方法を実装する際の人工知能(AI)モデルの動作を示す概略図である。
【
図1C】本開示の態様に従って、デジタルコンテンツのカテゴリ化項目からレポートを生成することを示す概略図である。
【
図2A】本開示の態様に係るデジタルコンテンツの法的認可審査で使用するためのリカレントニューラルネットワークの簡略化したノード図である。
【
図2B】本開示の態様に係るデジタルコンテンツの法的認可審査で使用するための展開されたリカレントニューラルネットワークの簡略化したノード図である。
【
図2C】本開示の態様に係るデジタルコンテンツの法的認可審査で使用するための畳み込みニューラルネットワークの簡略図である。
【
図3】本開示の態様に係る、訓練した音カテゴリ化及び分類ニューラルネットワークを使用する音カテゴリ化及び分類の方法を示すブロック図である。
【
図4】本開示の態様に係るデジタルコンテンツの法的認可審査を実装するためのシステムのブロック図を示す。
【発明を実施するための形態】
【0006】
[序論]
本開示の態様によれば、人工知能(AI)は、例えば、商標、著作権、パブリシティ権、企業秘密などの1つ以上の知的財産(IP)の制限を受ける可能性があるアイテムのデジタルコンテンツの審査の特定の態様を自動化するために使用できるであろう。
【0007】
AIモデルは、デジタルコンテンツプレゼンテーションからビデオ画像を分析し、デジタルコンテンツに現れる、例えば、人物、オブジェクト、場所、建物、芸術作品、またはテキストなどの関連するアイテムを識別するように訓練され得る。AIモデルは、デジタルコンテンツプレゼンテーションから音声を分析し、デジタルコンテンツに現れる、例えば、音、個人の声、会話、または音楽などの他の関連するアイテムを識別するように同様に訓練され得る。アイテムが識別され、カテゴリ化されると、アイテムは、IPの制限から免れている、または一般的であることが知られている類似アイテムのデータベースに比較され得る。例として、及び制限としてではなく、例えば、アイテムは、デジタルコンテンツプレゼンテーションの作成者、配布者、または出展者によってIP権利者からすでにライセンスを受けているため、アイテムはIPの制限から免れていることが知られている場合がある。あるいは、関連するIP権がデジタルコンテンツプレゼンテーションの作成者または配布者によってすでに所有されているため、アイテムが制限を免れている可能性がある。例えば、デジタルコンテンツプレゼンテーション(例えば、ビデオゲーム)の作成者または配布者が他の関連するコンテンツプレゼンテーション(例えば、他のビデオゲームまたは関連する映画)を作成し、関連するコンテンツプレゼンテーションからのキャラクタがデジタルコンテンツプレゼンテーションに表示される場合に、これが発生する場合がある。アイテムがIPの制限から免れていることが知られ得る別の方法は、問題のアイテムがすでに、例えばIP権が期限切れになった結果としてなど、すでにパブリックドメインにある場合である。
【0008】
本明細書で使用される場合、用語、一般的は、ほとんどの場合、商標と関連している。知的財産技術の専門家が一般的に理解するように、一般化された商標または一般名となった商標としても知られている一般名称化商標とは、その人気または重要性のため、通常、商標権所有者の意図に反して、製品またはサービスの一般的なクラスの一般名または同義語になった商標またはブランド名である。Thermos、Kleenex、ChapStick、Aspirin、Dumpster、Band-Aid、Velcro(登録商標)、Hoover、及びSpeedoは、米国及び他の場所で一般的になった商標の例である。
【0009】
本開示の態様に従って、認可審査は、
図1Aに示す方法100に従って進行する場合がある。デジタルコンテンツプレゼンテーション101は、認可の問題を呈していないアイテムを識別するように訓練された1つ以上の人工知能(AI)モデルを用いて分析され得る。例えば、第1のAIモデル102は、知的財産権の制限から免れていることが知られている、デジタルコンテンツプレゼンテーションに現れるアイテムを識別するように訓練され得、第2のAIモデル104は、デジタルコンテンツプレゼンテーション101に現れるどのアイテムが、免れていることは知られていないが、一般的である可能性があるのかを判断するように訓練され得る。次いで、残りのアイテム105は、残りのアイテムをそのカテゴリ化に従って記載するレポート107を生成するために使用され得る。レポートは、任意選択で、残りのアイテム105の各々がプレゼンテーション101のどこで発生しているのかを識別し得る。これによって、任意選択の自動置換プロセス108が容易になり、それによって免れていない、または一般的ではないアイテムを、免れているアイテムで置換し得る。そのような置換は、修正されたコンテンツ111を生成するために、テキスト、顔、車両、音楽、または会話をデジタルで変更する、ぼやけさせる、または削除することを含む場合がある。例として、デジタルコンテンツプレゼンテーション101に現れる選択された残りのアイテムは、免れていることが知られているコンテンツの代替アイテムを含むデータベースからの対応するアイテムと置換し得る。
【0010】
図1B~
図1Cは、本開示の態様に係るデジタルコンテンツの自動認可審査の考えられる実施態様の詳細な実施例を示す。
図1Bは、ビデオからのシーンに対するAIの適用を示す。この実施例においては、シーンは、この実施例では音楽125及び会話127の別々のトラックを含む音声データ123とともに、一連のデジタルビデオ画像121を含む。ビデオ画像121及び音声データ123は、それぞれ画像パーサAI124及び音声パーサAI126の中に送り込まれる。画像パーサAI122は、画像のどの部分が異なるクラスのアイテム、例えば、テキスト129、顔131、車両133、及び建物135に対応しているのかを判断するために画像を分析する。当業者は、これらが、ビデオ画像に示されている場合がある多くの異なる考えられる異なるクラスのアイテムのうちのいくつかしか表していないことを認識する。他の考えられるクラスは、植物、動物、地理的場所、家具、及び芸術作品を含む場合がある。ビデオパーサAI122は、それぞれが対応するクラス(例えば、示されている実施例ではテキスト、顔、車両、建物)の個々のアイテムを識別するように構成されている複数のAIを含む場合がある。例として、及び制限としてではなく、画像パーサAIは、ビデオ画像121の各フレームで顔を検出するために「顔パーサ」AIとして、dlibまたはopenCVなどの標準的な顔検出ライブラリを含む場合がある。顔の以後のカテゴリ化を容易にするために、顔パーサは、ビデオ画像121に現れる顔の各インスタンスを識別し、どのインスタンスが同じ顔に一致するのかを判断し、例えば各インスタンスを識別情報と関連付けることによって、同じ顔の異なるインスタンスをともにグループ化し得る。同じように構成されたAI構成要素は、示されている実施例のテキスト、車両、及び建物のために使用され得る。音声パーサAI124は、同様に、会話及び音楽を分析するための別個のAI構成要素を含む場合がある。音声パーサAI124が、例えば音楽、会話、及び背景音のための別々の音声トラックにアクセスし、音声トラックを対応する音楽、会話、及び背景音のAI構成要素に配信できる場合、音声123の分析は、非常に容易になり得る。
【0011】
画像パーサAI122は、ビデオ画像121に示されている異なるクラスの個々のアイテムに対応する削減されたデータ137を出力する。例として、削減された情報は、所与のアイテムの1つ以上の最良のまたは代表的な画像を含む場合がある。例えば、所与の顔131は、ビデオ画像121の数百または数千のフレームに表示される場合がある。これらの画像のすべてが、所与の顔131に属している人物またはキャラクタを識別するために必要とされるわけではない。情報の量を削減するために、顔パーサAIは、ビデオ画像121で見出される異なる各顔のポートレート画像及びプロファイル画像を出力し得る。車両133または建物135は、それらを正確に識別するために2つ以上の画像を必要とする場合がある。いくつかの実施態様では、削減されたデータ137は、タイムスタンプ情報、またはいつ(例えば、どのフレーム)及びどこで(例えば、フレームのどの部分)所与の各アイテムがビデオ画像121に表示されるのかを識別する他の情報を含む場合がある。そのような情報は、問題がある可能性があるアイテムの審査及び/または置換を容易にするために役立ち得る。
【0012】
同様に、音声パーサAI124は、音声データ123に示されている異なるクラスの個々のアイテムに対応する削減されたデータ139を出力し得る。例として、削減された音声データ139は、所与のアイテムの1つ以上の最良のまたは代表的な画像を含む場合がある。例えば、特定の単語または文章が会話127に複数回現れる場合もあれば、同じ音楽テーマが、おそらく異なる主音または異なる音楽スタイルで繰り返される場合もある。これらのインスタンスのすべてが、単語、文章、または音楽を識別するために必要とされるわけではない。一例として、情報の量を削減するために、音声パーサAI124は、同じ単語または文章に対応する音の最良の例を出力し得る。音楽125のアイテムは、画像を正確に識別し、カテゴリ化するために2つ以上の画像を必要とする場合がある。例えば、同じ楽曲の異なる録音は、データ125に現れる場合がある。これらの録音のいくつかは、パブリックドメインにある場合があり、他はそうではない場合がある。いくつかの実施態様では、削減されたデータ139は、タイムスタンプ情報、またはいつ(例えば、どのフレーム)所与の各アイテムが音声データ123に現れるのかを識別する他の情報を含む場合がある。そのような情報は、問題がある可能性があるアイテムの審査及び/または置換を容易にするため役立ち得る。
【0013】
削減されたビデオデータ137及び削減された音声データ139は、それぞれビデオ画像121及び音声データ123に現れる対応するアイテムを識別するために、別々のビデオカテゴリ化AI構成要素141及び音声カテゴリ化AI構成要素143に送られる。示されている例では、ビデオカテゴリ化AI構成要素141は、テキスト126、顔128、車両130、及び建物132の削減されたビデオデータ137を分析するための別個のAI構成要素を含む。同様に、音声カテゴリ化構成要素143は、音楽134及び会話136の削減された音声データ139を分析するための別個のAI構成要素を含む場合がある。音声123がサウンドエフェクトを含むいくつかの実施態様では、音声パーサ124は、これらを分離する場合もあり、音声カテゴリ化AI構成要素143は別個のサウンドエフェクトAIを含んで、これらを分析し、カテゴリ化する場合がある。そのようなサウンドエフェクトカテゴリ化の実施例は、その内容全体が参照により本明細書に組み込まれる、2018年9月28日に出願され、「SOUND CATEGORIZATION SYSTEM」と題する、Arindam Jatiらに対する米国特許出願第16/147,331号に説明されている。
【0014】
ビデオカテゴリ化AI構成要素141は、例えば示されている実施例のテキスト、顔、車両、及び建物などの対応するクラスの既知のアイテムのラベル付きの画像とともに、対応する訓練されたデータベース(図示せず)を利用し得る。音声カテゴリ化AI構成要素143は、例えば音楽及び会話などの対応するクラスの既知のアイテムのラベル付きの音声データサンプルとともに、対応する訓練されたデータベース(図示せず)を利用し得る。ビデオカテゴリ化AI構成要素141は、ビデオ画像121に現れる削減されたビデオデータ137によって表されるアイテムに対応するビデオカテゴリ化データ145を出力する。例として、テキストカテゴリ化AI構成要素126は、ビデオ画像121に示されているテキスト129の各インスタンスに対応する文字列の形でデータを出力し得る。いくつかの例では、そのようなテキストカテゴリ化データは、示されているテキストのフォントも識別し得る。同様の方法で、顔カテゴリ化AI構成要素128は、示されている顔に対応する人物またはキャラクタを識別するテキスト文字列の形でデータを出力し得る。車両カテゴリ化AI構成要素130及び建物カテゴリ化構成要素132は、同様に、それぞれ示されている車両及び建物を識別するデータを出力し得る。
【0015】
音声カテゴリ化AI構成要素143は、音声データ123で発生する削減された音声データ139によって表されるアイテムに対応する音声カテゴリ化データ147を出力する。例として、音楽カテゴリ化AI構成要素134は、タイトル、作曲家、録音アーティストなど順に、音楽125で発生する楽曲を識別するテキスト文字列の形でデータを出力し得る。同様に、会話カテゴリ化AI構成要素136は、例えば会話127で使用される特定の名詞などの特定の識別された単語のリストを出力し得る。
【0016】
カテゴリ化を生成することは、役に立つが、IP認可審査の一部にしか過ぎない。ビデオカテゴリ化データ145及び音声カテゴリ化データ147の中の識別されたアイテムの数は、きわめて多い場合がある。したがって、IPの制限を免れていることが知られているそれらのアイテムをデータから抜粋することによって、及びシーンで発生する各アイテム、オブジェクト、または音のあらゆるインスタンスを審査する必要なく固有のアイテム、オブジェクト、及び音のリストを作成することによって審査する必要のあるアイテムの数を削減することが望ましい。
図1Bは、そのようなデータ削減がどのようにして達成される可能性があるのかの非限定的な実施例を示す。示されている実施例では、ビデオカテゴリ化データ145及び音声カテゴリ化データ147で識別されたアイテムは、IPの制限を免れていることが知られているアイテムのデータベース138に対して比較し得る。上記のように、アイテムは、例えば、アイテムが一般的である、パブリックドメインにある、または例えばビデオ画像121及び音声データ123を含むデジタルコンテンツプレゼンテーションの作成者、配給者、または出展者などの関連するエンティティによって、IP権利者からすでにライセンスされているために、IPの制限から免れていることが知られている場合がある。各クラスのカテゴリ化されたアイテムは、対応するクラスデータベースのアイテムに対して比較し得、任意の一致するアイテムには次いでフラグを立て得る。140に示すように、結果は次いで照合され得、任意のフラグを立てたアイテムは無視され得る。フラグが立てられなかったそれらのアイテムを記載するレポート149が、次いで生成され得る。
【0017】
図1Cに示す実施例では、俳優の顔、及び音楽が知的財産権の制限から免れており、建物及び単語「ダンプスター」が一般的であると仮定する。したがって、俳優の顔、及び音楽、建物、及び単語「ダンプスター」は、レポートには表示されない。「ロゴ」テキスト及び単語「Zweezil」は、そのそれぞれのデータベース内にないので、レポート149は、さらなる審査のためにそれらにフラグを立てる。
【0018】
既知のパブリックドメインのアイテム、既知の認可されたアイテムを削除または省略することによって、審査しなければならない材料の量を「圧縮すること」によって、レポート149をより役立つようにし得る。本開示の態様によれば、レポート149は、フラグを立てられたアイテムの複数のインスタンスがレポートで削減され、その結果アイテムが単一のオブジェクトによって表され、したがってアイテムがレポートに1度だけ表示されるように構成され得る。例として、同じプレゼンテーションにMicky Mouseが3回、例えば看板のレンガの壁の上に、通りを歩いている人の帽子に、及びバスに1回現れる場合、「Micky Mouse」は、レポート149では1回、識別され得るが、その使用の変形を反映するデータは、レポートで使用可能である場合がある。フラグを立てた同じアイテムの複数のインスタンス150の審査を容易にするために、レポート149は、電子形式である場合があり、対話型ツールを含む場合がある。そのようなツールは、フラグを立てたアイテムのインスタンスの数をユーザーに示し、それらのインスタンスのそれぞれの代表的な画像を示し、ユーザーが、コンテンツアイテムを通ってインスタンスの各々に迅速にナビゲートすることを可能にする情報を提供するように構成され得る。そのような情報は、コンテンツアイテムのタイムラインのインデックスを参照し得る。いくつかの実施態様では、情報は、インデックスに対応するコンテンツアイテムの部分にリンクするハイパーテキスト(例えば、html、xml、または他のデータ)の形式である場合がある。そのような実施態様では、ユーザーは、レポート149に埋め込まれているハイパーテキストリンクをクリックすることによって、所与のフラグが立てられたインスタンスにナビゲートできる場合がある。
【0019】
本開示の態様によれば、いくつかのタイプのデジタルコンテンツは、画像パーサAI122及び音声パーサAI124または対応する画像カテゴリ化AI構成要素141及び音声カテゴリ化AI構成要素143を必要とすることなく分析できる。例えば、ビデオゲームコンテンツ等の特定の形式のビデオコンテンツは、この情報を容易に抽出可能であるフォーマットである。具体的には、ゲームデータは、通常、例えば、車両、ノンプレーヤーキャラクタ、音楽、会話、テキスト、建物などのゲームに現れるアセットを識別する情報を含む。そのようなアセットについての多くの関連情報は、画像または音声を分析する必要なくゲームデータから直接的に抽出できる。
【0020】
[ニューラルネットワークトレーニング]
デジタルコンテンツの自動認可審査を実装するAIモデルは、いくつかの異なるタイプのニューラルネットワークの1つ以上を含み得、多くの異なる層を有し得る。例として、及び制限としてではなく、分類ニューラルネットワークは、1つまたは複数の畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、及び/または動的ニューラルネットワーク(DNN)から成る場合がある。
【0021】
図2Aは、その各々が、活性化関数S、1つの入力重みU、反復隠れノード遷移重みW、及び出力遷移重みVによって特徴付けられるノード220の層を有するRNNの基本形式を示している。活性化関数Sは当技術分野で知られている任意の非線形関数である場合があり、(双曲線正接(tanh)関数に限定されないことに留意されたい。例えば、活性化関数Sは、シグモイド関数またはReLu関数である場合がある。他のタイプのニューラルネットワークとは異なり、RNNは、層全体に対して活性化関数及び重みの1つのセットを有する。
図2Bに示すように、RNNは、時間T及びT+1を通って移動する同じ活性化関数を有する一連のノード220と見なし得る。したがって、RNNは、前の時刻Tから現在の時刻T+1へ結果を送ることによって履歴情報を維持する。
【0022】
重みU、W、及びVを構成するいくつかの方法がある。入力重みUは、メル周波数スペクトルに基づいて適用され得る。これらの異なる入力の重みは、ルックアップテーブルに格納され、必要に応じて適用されるであろう。システムが最初に適用するデフォルト値がある場合があるであろう。これらは、ユーザーによって手作業で修正される場合もあれば、機械学習によって自動的に修正される場合もある。
【0023】
いくつかの実施形態では、畳み込みRNNが使用され得る。使用され得るもう1つのタイプのRNNは、長短期記憶(LSTM)ニューラルネットワークであり、これは、入力ゲート活性化関数、出力ゲート活性化関数、及び忘却ゲート活性化関数を有するRNNノードにメモリブロックを追加し、その結果、ネットワークがより長期間、一部の情報を保持することを可能にするゲートメモリを生じさせる。
【0024】
図2Cは、本開示の態様による、CRNNなどの畳み込みニューラルネットワークの例示的なレイアウトを示す。この図では、畳み込みニューラルネットワークは、高さが4ユニット、及び幅が4ユニットで、16ユニットの総面積を示すサイズの画像232に対して生成される。示されている畳み込みニューラルネットワークは、高さが2ユニット、及び幅が2ユニットで、スキップ値が1のフィルタ233サイズ、及びサイズ9のチャネル236を有する。明確にするために、
図2Cでは、チャネルの第1の列とそのフィルタウィンドウとの間の接続234しか示していない。しかしながら、本開示の態様は、そのような実施態様に限定されていない。本開示の態様によれば、分類229を実装する畳み込みニューラルネットワークは、任意の数の追加のニューラルネットワークノード層231を有し得、そのような層タイプを、任意のサイズの追加の畳み込み層、完全に接続された層、プーリング層、最大プーリング層、ローカルコントラスト正規化層などとして含み得る。
【0025】
図2Dに見られるように、ニューラルネットワーク(NN)を訓練することは、NNの重みの初期化から始まる241。一般に、初期重みは、無作為に分散される必要がある。例えば、tanh活性化関数を有するNNは、-1/√nと1/√nの間で分散される乱数値を有する必要があり、ここではnは、ノードに対する入力の数である。
【0026】
初期化後、活性化関数及びオプティマイザーが定義される。NNは、次いで特徴または入力データセットを与えられる242。異なる特徴ベクトルの各々は、既知のラベルを有する入力を与えられてよい。同様に、分類NNは、既知のラベリングまたは分類を有する入力に対応する特徴ベクトルを与えられてよい。NNは、次いで特徴または入力のためのラベルまたは分類を予測する243。予測したラベルまたはクラスは、既知のラベルまたはクラス(グラウンドトゥルースとしても知られる)に比較され、損失関数は、すべてのトレーニングサンプルに対して予測とグラウンドトゥルースとの間の全誤差を測定する244。例として、及び制限としてではなく、損失関数は、クロスエントロピー損失関数、二次コスト、トリプレット対照関数、指数コストなどである場合がある。目的に応じて、複数の異なる損失関数が使用され得る。NNは、次いで、損失関数の結果を使用し、及び確率的勾配降下法などを使用するバックプロパゲーションなどのニューラルネットワーク用の既知の訓練方法を使用し、最適化され、訓練される245。各トレーニングエポックでは、オプティマイザーは、トレーニング損失関数(つまり、全誤差)を最小限に抑えるモデルパラメータ(例えば、重み)を選ぼうと試みる。データは、訓練サンプル、バリデーションサンプル、及び試験サンプルに分割される。
【0027】
トレーニング中、オプティマイザーは、トレーニングサンプルに対する損失関数を最小限に抑える。各トレーニングエポックの後、バリデーション損失及び精度を計算することによって、モードがバリデーションサンプルに対して評価される。著しい変化がない場合、トレーニングを停止できる。次いで、この訓練されたモデルは、テストデータのラベルを予測するために使用し得る。
【0028】
したがって、分類ニューラルネットワークは、デジタルコンテンツプレゼンテーションの画像内でアイテムを識別し、分類するように、既知のラベルまたは分類を有する音声入力から訓練され得る。
【0029】
上記の説明は、画像内のアイテムを分類することに関するが、本開示の態様はそのように限定されていない。具体的には、本開示の態様は、デジタルコンテンツが、1つ以上の知的財産権の制限を受ける可能性がある音について審査される実施態様を含む。
【0030】
図3は、音101のセグメントから始まる、システム100と併せて使用され得る音分類及びカテゴリ化の考えられる動作のスキームを示す。複数のフィルタが、音101のセグメントに適用されて102、ウィンドウ音を作り出し、メル周波数ケプストラム103で音の表現を生成する。この周波数またはスペクトルドメイン信号は、次いでスペクトルドメイン信号の対数を取り、次いで別のFFTを実行することによって圧縮される。ケプストラムは、音ウィンドウ内の異なるスペクトルバンドの変化率についての情報と見なすことができる。メル周波数ケプストラム表現は、訓練された音カテゴリ化及び分類ニューラルネットワーク104に提供される。訓練された音カテゴリ化及び分類NNは、音のカテゴリ及びサブカテゴリを表すベクトル105、ならびに音の最も細かいレベルのカテゴリ、つまり分類106を表すベクトルを出力し得る。このカテゴリ化は、次いで自動認可審査中にデータベース110を検索するために使用され得る。
【0031】
[実施態様]
図4は、本開示の態様に係るデジタルコンテンツの自動認可審査のためのシステムを示す。システムは、ユーザー入力装置402に結合されたコンピューティングデバイス400を含み得る。ユーザー入力装置402は、コントローラ、タッチスクリーン、マイク、キーボード、マウス、ジョイスティック、またはユーザーが音データを含む情報をシステムに入力することを可能にする他のデバイスである場合がある。ユーザー入力装置は、触覚フィードバックデバイス421に結合される場合がある。触覚フィードバックデバイス421は、例えば振動モータ、力フィードバックシステム、超音波フィードバックシステム、または空気圧フィードバックシステムである場合がある。
【0032】
コンピューティングデバイス400は、例えば、シングルコア、デュアルコア、クアッドコア、マルチコア、プロセッサコプロセッサ、セルプロセッサなどの周知のアーキテクチャに従って構成され得る1つまたは複数のプロセッサユニット403を含み得る。また、コンピューティングデバイスは、1つ以上のメモリユニット404(例えば、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、読み取り専用メモリ(ROM)など)を含み得る。
【0033】
プロセッサユニット403は、1つ以上のプログラムを実行し得、その部分は、メモリ404に格納され得、プロセッサ403は、例えば、データバス405を介してメモリにアクセスすることによって、メモリに動作可能に結合され得る。プログラムは、音をメル周波数ケプストラムに変換するためにサウンドフィルタ408を実装するように構成され得る。さらに、メモリ404は、音カテゴリ化及び分類NN421のトレーニングを実施するプログラムを含んでもよい。また、メモリ404は、画像データ408及び音声データ409などのデジタルコンテンツ用のデータの関連する部分を含んでもよい。また、メモリ404は、認可されたアイテムの1つ以上のデータベース422を含んでもよい。例えば画像及び音声用のパーサAI、ならびに異なるクラスのアイテム(例えば、テキスト、顔、車両、建物、音楽、及び会話)用のカテゴリ化AIなどのニューラルネットワークモジュール421も、メモリ404に格納され得る。メモリ404は、ニューラルネットワークモジュール421によって、データベース422内にあるとして識別されないアイテムを記載するレポート410を格納し得る。デジタルコンテンツデータ、ニューラルネットワークモジュール421、422は、大容量記憶装置418、またはネットワークインタフェース414を通してアクセスされたネットワーク420に結合されたサーバにデータ418として格納されてもよい。
【0034】
また、NNの全体的な構造及び確率も、大容量記憶装置415にデータ418として格納され得る。プロセッサユニット403は、プロセッサに、本明細書に説明するようにニューラルネットワーク422を使用したデジタルコンテンツの自動認可審査の方法を実施させる、大容量記憶装置415にまたはメモリ404に格納された1つ以上のプログラム417を実行するようにさらに構成される。システム400は、NNトレーニングプロセスの一部としてニューラルネットワーク422を生成し、それらをメモリ404に格納し得る。完成したNNは、メモリ404にまたはデータ418として大容量記憶装置415に格納され得る。また、プログラム417(またはその部分)は、適切なプログラミングによって、知的財産権の制限から免れていることが知られているデジタルコンテンツデータ408、409に現れるアイテムを識別するように訓練された人工知能(AI)モデル422を用いてデジタルコンテンツプレゼンテーションを分析し、そのデータを、デジタルコンテンツプレゼンテーションに現れる、免れていることが知られていないどのアイテムが、一般的である可能性があるのかを判断し、どの残りのアイテムが、知的財産(IP)権の制限の対象となる可能性があるのかを判断するように訓練された他のAIモデル422を用いて分析し、IP権の制限の対象となる可能性があるアイテムを識別するためにレポート410を生成するように構成され得る。
【0035】
また、コンピューティングデバイス400は、例えばバス405を介してシステムの他の構成要素と通信し得る、入出力(I/O)407、回路、電源(P/S)411、クロック(CLK)412、及びキャッシュ413などの周知のサポート回路も含み得る。コンピューティングデバイスは、ネットワークインタフェース414を含み得る。プロセッサユニット403及びネットワークインタフェース414は、ローカルエリアネットワーク(LAN)またはパーソナルエリアネットワーク(PAN)を、適切なネットワークプロトコル、例えばPANの場合ブルートゥース(登録商標)を介して実装するように構成され得る。コンピューティングデバイスは、任意選択で、ディスクドライブ、CD-ROMドライブ、テープドライブ、フラッシュメモリなどの大容量記憶装置415を含み得、大容量記憶装置はプログラム及び/またはデータを格納し得る。また、コンピューティングデバイスは、システムとユーザーとの間の対話を容易にするためにユーザーインタフェース416を含み得る。ユーザーインタフェースは、モニタ、テレビ画面、スピーカ、ヘッドフォン、または情報をユーザーに伝達する他のデバイスを含み得る。
【0036】
コンピューティングデバイス400は、電子通信ネットワーク420を介した通信を容易にするためにネットワークインタフェース414を含み得る。ネットワークインタフェース414は、ローカルエリアネットワーク及びインターネットなどの広域ネットワークを介して、有線通信または無線通信を実装するように構成され得る。デバイス400は、ネットワーク420上で1つ以上のメッセージパケットを介してデータ及び/またはファイルに対する要求を送受信し得る。ネットワーク420を介して送信されたメッセージパケットは、一時的にメモリ404のバッファ409に格納され得る。カテゴリ化された音データベースは、ネットワーク420を通して利用可能であり、使用するためにメモリ404に部分的に格納され得る。
【0037】
本開示の態様によって、従来手作業で実行されている多大な時間を要するタスクであるIP認可審査の大幅な自動化が可能になる。IPの制限から免れていることが知られているまたは免れている可能性があるアイテムを自動的に識別し、無視し、残りのアイテムにレポートを集中させることによって、IP審査のタスクは大幅に合理化できる。
【0038】
上記は、本開示の好ましい実施形態の完全な説明であるが、多様な代替策、修正、及び均等物を使用することが可能である。上述の説明は、限定的ではなく、例示的であることを意図するものであることを理解すべきである。例えば、図の流れ図は、本開示の特定の実施形態によって実行される動作の特定の順序を示すが、そのような順序が必須ではない(例えば、代替実施形態は、異なる順序で動作を実行し得、特定の動作を結合し得、特定の動作を重複させ得るなど)を理解すべきである。さらに、多くの他の実施形態は、上述の説明を読み、理解すると当業者に明らかになるであろう。本開示は、特定の例示的な実施形態に関して説明されてきたが、本開示が、説明されている実施形態に限定されるのではなく、添付の特許請求の範囲の精神及び範囲内で変更形態及び改変形態で実施できることが認識される。したがって、本開示の範囲は、添付の特許請求の範囲によって権利が与えられる均等物の全体の範囲とともに、そのような特許請求の範囲に関して判定されるべきである。好ましいかどうかに関わらず、本明細書に説明された任意の特徴は、好ましいかどうかに関わらず、本明細書に説明された任意の他の特徴と組み合わされてよい。以下の特許請求の範囲では、不定冠詞「A」または「An」は、明示的に別段の定めをした場合を除き、冠詞に続く項目のうちの1つ以上の数を指す。添付の特許請求の範囲は、ミーンズプラスファンクションの限定が語句「するための手段(means for)」を使用し、所与の請求項に明示的に説明されない限り、係る限定を含むものとして解釈されるべきではない。
【国際調査報告】