(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025015418
(43)【公開日】2025-01-30
(54)【発明の名称】デジタルコンテンツを処理するための方法、コンピュータシステム、及びコンピュータプログラム(秘匿コンテンツに関する会議の自動処理)
(51)【国際特許分類】
G06Q 10/109 20230101AFI20250123BHJP
G06N 20/00 20190101ALI20250123BHJP
【FI】
G06Q10/109
G06N20/00
【審査請求】未請求
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2024071641
(22)【出願日】2024-04-25
(31)【優先権主張番号】18/354,730
(32)【優先日】2023-07-19
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【弁理士】
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【弁理士】
【氏名又は名称】片岡 忠彦
(74)【復代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】ユ-シアン チェン
(72)【発明者】
【氏名】チン-チュン リウ
(72)【発明者】
【氏名】ジョーイ エイチ.ワイ. ツェン
(72)【発明者】
【氏名】アマンダ プル ヤン
【テーマコード(参考)】
5L010
【Fターム(参考)】
5L010AA11
(57)【要約】
【課題】人工知能(Artificial Intelligence:AI)を通じて会議コンテンツの後処理を自動的に制作するためのシステムが必要とされる。
【解決手段】デジタルコンテンツを処理するための方法、コンピュータシステム、及びコンピュータプログラム製品が提供される。本発明は、機密文分類モデルを構築することを備え得る。本発明は、デジタルコンテンツを受信することを備え得、ここで当該デジタルコンテンツは、コンテンツ消費者の1つ又は複数のグループを対象としている。本発明は、機密文分類モデルを用いてデジタルコンテンツを処理することを備え得る。本発明は、コンテンツ消費者の1つ又は複数のグループの各々向けに、消費者固有のデジタルコンテンツを生成することを備え得る。
【選択図】
図1
【特許請求の範囲】
【請求項1】
機密文分類モデルを構築する段階;
デジタルコンテンツを受信する段階、ここで前記デジタルコンテンツは、コンテンツ消費者の1つ又は複数のグループを対象としている;
前記機密文分類モデルを用いて前記デジタルコンテンツを処理する段階;及び
前記コンテンツ消費者の1つ又は複数のグループの各々向けに、消費者固有のデジタルコンテンツを生成する段階
を備える、デジタルコンテンツを処理するための方法。
【請求項2】
前記機密文分類モデルを構築する段階は:
カスタマイズされたトレーニングデータセット及び既存のデータセットを用いて前記機密文分類モデルをトレーニングする段階
を更に有する、請求項1に記載の方法。
【請求項3】
前記カスタマイズされたトレーニングデータセットは、組織情報から導出されるキーワード及びエンティティで構成され、前記既存のデータセットは、1つ又は複数の公的に利用可能なリソースから調達された1つ又は複数の既存の機密単語データセットで構成される、請求項2に記載の方法。
【請求項4】
前記カスタマイズされたトレーニングデータセット及び前記既存のデータセットは、Word2Vecアルゴリズムを用いて前処理される、請求項2に記載の方法。
【請求項5】
前記コンテンツ消費者の1つ又は複数のグループは、ユーザインタフェース内でコンテンツ制作者によって識別される、請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記機密文分類モデルを用いて前記デジタルコンテンツを処理する段階は:
そのオリジナル形式で受信された前記デジタルコンテンツをオリジナルコンテンツデータベースに記憶する段階;
前記機密文分類モデルを用いて1つ又は複数の機密データセグメントを識別する段階;及び
前記1つ又は複数の機密データセグメントを、データタイプ、タイムスタンプ、又は対応する消費者の役割のうちの少なくとも1つ又は複数に従い、処理済みコンテンツデータベースに記憶する段階、ここで前記対応する消費者の役割は、前記コンテンツ消費者の1つ又は複数のグループのうちの少なくとも1つを含む
を更に有する、請求項1から4のいずれか一項に記載の方法。
【請求項7】
前記1つ又は複数の機密データセグメントを識別する段階は:
コンテンツ制作者によって手動で識別された1つ又は複数の追加の機密データセグメントを受信する段階;及び
前記1つ又は複数の追加の機密データセグメントを、前記処理済みコンテンツデータベースに記憶する段階
を更に含む、請求項6に記載の方法。
【請求項8】
組織情報の分析に基づき構成された組織の階層構造に基づき、前記組織内の複数の消費者を前記コンテンツ消費者の1つ又は複数のグループに割り当てる段階;及び
前記消費者固有のデジタルコンテンツを複数の消費者に表示する段階、ここで前記複数の消費者の各々は、彼らのコンテンツ消費者グループに対応する前記消費者固有のデジタルコンテンツにアクセスし得る
を更に備える、請求項1から4のいずれか一項に記載の方法。
【請求項9】
デジタルコンテンツを処理するためのコンピュータシステムであって:
1つ又は複数のプロセッサ、1つ又は複数のコンピュータ可読メモリ、1つ又は複数のコンピュータ可読有形記憶媒体、及び、前記1つ又は複数のメモリのうちの少なくとも1つを介した前記1つ又は複数のプロセッサのうちの少なくとも1つによる実行のために前記1つ又は複数の有形記憶媒体のうちの少なくとも1つに記憶されたプログラム命令を備え、前記コンピュータシステムは、
機密文分類モデルを構築する手順;
デジタルコンテンツを受信する手順、ここで前記デジタルコンテンツは、コンテンツ消費者の1つ又は複数のグループを対象としている;
前記機密文分類モデルを用いて前記デジタルコンテンツを処理する手順;及び
前記コンテンツ消費者の1つ又は複数のグループの各々向けに、消費者固有のデジタルコンテンツを生成する手順
を備える方法を実行することができる、コンピュータシステム。
【請求項10】
前記機密文分類モデルを構築する手順は:
カスタマイズされたトレーニングデータセット及び既存のデータセットを用いて前記機密文分類モデルをトレーニングするための、前記1つ又は複数のメモリのうちの少なくとも1つを介した前記1つ又は複数のプロセッサのうちの少なくとも1つによる実行のために前記1つ又は複数のコンピュータ可読記憶媒体のうちの少なくとも1つに記憶されたプログラム命令
を更に有する、請求項9に記載のコンピュータシステム。
【請求項11】
前記カスタマイズされたトレーニングデータセットは、組織情報から導出されるキーワード及びエンティティで構成され、前記既存のデータセットは、1つ又は複数の公的に利用可能なリソースから調達された1つ又は複数の既存の機密単語データセットで構成される、請求項10に記載のコンピュータシステム。
【請求項12】
前記カスタマイズされたトレーニングデータセット及び前記既存のデータセットは、Word2Vecアルゴリズムを用いて前処理される、請求項10に記載のコンピュータシステム。
【請求項13】
前記コンテンツ消費者の1つ又は複数のグループは、ユーザインタフェース内でコンテンツ制作者によって識別される、請求項9から12のいずれか一項に記載のコンピュータシステム。
【請求項14】
前記機密文分類モデルを用いて前記デジタルコンテンツを処理する手順は:
そのオリジナル形式で受信された前記デジタルコンテンツをオリジナルコンテンツデータベースに記憶するための、前記1つ又は複数のメモリのうちの少なくとも1つを介した前記1つ又は複数のプロセッサのうちの少なくとも1つによる実行のために前記1つ又は複数のコンピュータ可読記憶媒体のうちの少なくとも1つに記憶されたプログラム命令;
前記機密文分類モデルを用いて1つ又は複数の機密データセグメントを識別するための、前記1つ又は複数のメモリのうちの少なくとも1つを介した前記1つ又は複数のプロセッサのうちの少なくとも1つによる実行のために前記1つ又は複数のコンピュータ可読記憶媒体のうちの少なくとも1つに記憶されたプログラム命令;及び
前記1つ又は複数の機密データセグメントを、データタイプ、タイムスタンプ、又は対応する消費者の役割のうちの少なくとも1つ又は複数に従い、処理済みコンテンツデータベースに記憶するための、前記1つ又は複数のメモリのうちの少なくとも1つを介した前記1つ又は複数のプロセッサのうちの少なくとも1つによる実行のために前記1つ又は複数のコンピュータ可読記憶媒体のうちの少なくとも1つに記憶されたプログラム命令、ここで前記対応する消費者の役割は、前記コンテンツ消費者の1つ又は複数のグループのうちの少なくとも1つを含む
を更に有する、請求項9から12のいずれか一項に記載のコンピュータシステム。
【請求項15】
前記1つ又は複数の機密データセグメントを識別する手順は:
コンテンツ制作者によって手動で識別された1つ又は複数の追加の機密データセグメントを受信するための、前記1つ又は複数のメモリのうちの少なくとも1つを介した前記1つ又は複数のプロセッサのうちの少なくとも1つによる実行のために前記1つ又は複数のコンピュータ可読記憶媒体のうちの少なくとも1つに記憶されたプログラム命令;及び
前記1つ又は複数の追加の機密データセグメントを、前記処理済みコンテンツデータベースに記憶するための、前記1つ又は複数のメモリのうちの少なくとも1つを介した前記1つ又は複数のプロセッサのうちの少なくとも1つによる実行のために前記1つ又は複数のコンピュータ可読記憶媒体のうちの少なくとも1つに記憶されたプログラム命令
を更に含む、請求項14に記載のコンピュータシステム。
【請求項16】
デジタルコンテンツを処理するためのコンピュータプログラムであって、コンピュータに:
機密文分類モデルを構築する手順;
デジタルコンテンツを受信する手順、ここで前記デジタルコンテンツは、コンテンツ消費者の1つ又は複数のグループを対象としている;
前記機密文分類モデルを用いて前記デジタルコンテンツを処理する手順;及び
前記コンテンツ消費者の1つ又は複数のグループの各々向けに、消費者固有のデジタルコンテンツを生成する手順
を実行させるためのコンピュータプログラム。
【請求項17】
前記機密文分類モデルを構築する手順は:
カスタマイズされたトレーニングデータセット及び既存のデータセットを用いて前記機密文分類モデルをトレーニング手順
を更に有する、請求項16に記載のコンピュータプログラム。
【請求項18】
前記カスタマイズされたトレーニングデータセットは、組織情報から導出されるキーワード及びエンティティで構成され、前記既存のデータセットは、1つ又は複数の公的に利用可能なリソースから調達された1つ又は複数の既存の機密単語データセットで構成される、請求項17に記載のコンピュータプログラム。
【請求項19】
前記カスタマイズされたトレーニングデータセット及び前記既存のデータセットは、Word2Vecアルゴリズムを用いて前処理される、請求項17に記載のコンピュータプログラム。
【請求項20】
前記機密文分類モデルを用いて前記デジタルコンテンツを処理する手順は:
そのオリジナル形式で受信された前記デジタルコンテンツをオリジナルコンテンツデータベースに記憶する手順;
前記機密文分類モデルを用いて1つ又は複数の機密データセグメントを識別する手順;及び
前記1つ又は複数の機密データセグメントを、データタイプ、タイムスタンプ、又は対応する消費者の役割のうちの少なくとも1つ又は複数に従い、処理済みコンテンツデータベースに記憶する手順、ここで前記対応する消費者の役割は、前記コンテンツ消費者の1つ又は複数のグループのうちの少なくとも1つを含む
を更に有する、請求項16から19のいずれか一項に記載のコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、概してコンピューティングの分野に関し、より具体的には、デジタルコンテンツ処理に関する。
【背景技術】
【0002】
リモートワーク傾向に部分的に起因して、多くの組織が、他の議論の中でもとりわけ、彼らの最も重要な会議、公共サービス告知、及び講演の多くを、組織内の複数の消費者によってデジタルコンテンツが再生(replay)されることを可能にし得るオンラインソフトウェアを通じて実施している可能性がある。多くの場合、これら会議は記録される可能性があり、当該会議の一部は特定の条件下においてのみ視聴可能である。現在の手法は、通常、各特定の消費者のグループ向けの会議コンテンツの後処理、音声データを暗号化するための特定の暗号化デバイス、特定の機器による一意の認証、及び/又は、保護されたデータをエンコード及び/又はデコードするためのエンコーディング及び/又はデコーディング機器を必要とする。現在の手法は非効率であり得、ヒューマンエラー、及び/又はデジタルコンテンツ再生にアクセスすることができる消費者の数を減少させ得る制度的障壁に悩まされている可能性がある。
【0003】
従って、人工知能(Artificial Intelligence:AI)を通じて会議コンテンツの後処理を自動的に制作するためのシステムが必要とされる。より具体的には、コンテンツ制作者、及び、コンテンツ消費者のグループの役割に基づき、デジタルコンテンツ内の機密データセグメントを認識でき得るシステムが有益であり得る。
【発明の概要】
【発明が解決しようとする課題】
【0004】
人工知能(Artificial Intelligence:AI)を通じて会議コンテンツの後処理を自動的に制作するためのシステムが必要とされる。
【課題を解決するための手段】
【0005】
本発明の実施形態は、デジタルコンテンツ処理のための方法、コンピュータシステム、及びコンピュータプログラム製品を開示する。本発明は、機密文分類モデルを構築することを備え得る。本発明は、デジタルコンテンツを受信することを備え得、ここで当該デジタルコンテンツは、コンテンツ消費者の1つ又は複数のグループを対象としている。本発明は、機密文分類モデルを用いてデジタルコンテンツを処理することを備え得る。本発明は、コンテンツ消費者の1つ又は複数のグループの各々向けに、消費者固有のデジタルコンテンツを生成することを備え得る。
【0006】
別の実施形態において、方法は、カスタマイズされたトレーニングデータセット及び既存のデータセットを用いて機密文分類モデルをトレーニングすることを有し得、ここでカスタマイズされたトレーニングデータセットは、組織情報から導出されるキーワード及びエンティティで構成され、既存のデータセットは、1つ又は複数の公的に利用可能なリソースから調達された1つ又は複数の既存の機密単語データセットで構成され、カスタマイズされたトレーニングデータセット及び既存のデータセットはWord2Vecアルゴリズムを用いて前処理される。
【0007】
更なる実施形態において、方法は、そのオリジナル形式で受信されたデジタルコンテンツをオリジナルコンテンツデータベースに記憶すること、機密文分類モデルを用いて1つ又は複数の機密データセグメントを識別すること、及び、1つ又は複数の機密データセグメントを、データタイプ、タイムスタンプ、又は対応する消費者の役割のうちの少なくとも1つ又は複数に従い、処理済みコンテンツデータベースに記憶すること、ここで対応する消費者の役割は、コンテンツ消費者の1つ又は複数のグループのうちの少なくとも1つを含む、を有し得る。
【0008】
なおも別の実施形態において、方法は、組織情報の分析に基づき構成された組織の階層構造に基づき、組織内の複数の消費者をコンテンツ消費者の1つ又は複数のグループに割り当てること、及び、消費者固有のデジタルコンテンツを複数の消費者に表示すること、を有し得、ここで複数の消費者の各々は、彼らのコンテンツ消費者グループに対応する消費者固有のデジタルコンテンツにアクセスし得る。
【0009】
方法に加え、追加の実施形態は、異なるコンテンツ消費者のグループ向けに機密データセグメントについてデジタルコンテンツを自動的に後処理するためのコンピュータシステム及びコンピュータプログラム製品に向けられたものである。
【0010】
この概要は、詳細な説明において更に後述される概念から選択したものを、簡易的な形式で紹介するために提供される。この概要は、特許請求される主題の主要な特徴又は必須の特徴を特定することを意図しておらず、また特許請求される主題の範囲を決定する際の補助として使用されることも意図していない。
【図面の簡単な説明】
【0011】
本発明のこれらの及び他の目的、特徴及び利点は、添付図面に関連して読まれる、それらの例示的な実施形態の以下の詳細な説明から明らかになるであろう。例示は、当業者が詳細な説明と併せて本発明を理解することを容易にするにあたっての明確性のためのものであり、図面の様々な特徴は、縮尺通りではない。図面は、以下の通りである。
【0012】
【
図1】少なくとも一実施形態による、例示的なコンピューティング環境のブロック図を示す。
【0013】
【
図2】少なくとも一実施形態による、デジタルコンテンツ処理のためのプロセスを例示する動作フローチャートである。
【0014】
【
図3】少なくとも一実施形態による、
図2において論述される構成要素の一部を利用したトレーニングプロセスを例示するブロック図及びフローチャートを示す。
【発明を実施するための形態】
【0015】
以下で説明される例示的な実施形態は、デジタルコンテンツ処理のためのシステム、方法、及びプログラム製品を提供する。従って、本実施形態は、異なるコンテンツ消費者のグループ向けに機密データセグメントについてデジタルコンテンツを自動的に後処理することにより、デジタルコンテンツ処理及び機械学習の技術分野を改善する能力を有する。より具体的には、本発明は、機密文分類モデルを構築することを備え得る。本発明は、デジタルコンテンツを受信することを備え得、ここで当該デジタルコンテンツは、コンテンツ消費者の1つ又は複数のグループを対象としている。本発明は、機密文分類モデルを用いてデジタルコンテンツを処理することを備え得る。本発明は、コンテンツ消費者の1つ又は複数のグループの各々向けに、消費者固有のデジタルコンテンツを生成することを備え得る。
【0016】
先に説明された通り、リモートワーク傾向に部分的に起因して、多くの組織が、他の議論の中でもとりわけ、彼らの最も重要な会議、公共サービス告知、講演の多くを、組織内の複数の消費者によってデジタルコンテンツが再生されることを可能にし得るオンラインソフトウェアを通じて実施している可能性がある。多くの場合、これら会議は記録される可能性があり、当該会議の一部は特定の条件下においてのみ視聴可能である。現在の手法は、通常、各特定の消費者のグループ向けの会議コンテンツの後処理、音声データを暗号化するための特定の暗号化デバイス、特定の機器による一意の認証、及び/又は、保護されたデータをエンコード及び/又はデコードするためのエンコーディング及び/又はデコーディング機器を必要とする。現在の手法は非効率であり得、ヒューマンエラー、及び/又はデジタルコンテンツ再生にアクセスすることができる消費者の数を減少させ得る制度的障壁に悩まされている可能性がある。
【0017】
従って、人工知能(Artificial Intelligence:AI)を通じて会議コンテンツの後処理を自動的に制作するためのシステムが必要とされる。より具体的には、コンテンツ制作者、及び、コンテンツ消費者のグループの役割に基づき、デジタルコンテンツ内の機密データセグメントを認識でき得るシステムである。
【0018】
従って、とりわけ、機密文分類モデルを構築すること、及び、デジタルコンテンツを受信すること、ここでデジタルコンテンツはコンテンツ消費者の1つ又は複数のグループを対象としている、機密文分類モデルを用いてデジタルコンテンツを処理すること、及び、コンテンツ消費者の1つ又は複数のグループの各々向けに、消費者固有のデジタルコンテンツを生成すること、が有利であり得る。
【0019】
少なくとも一実施形態によれば、本発明は、コンテンツ制作者及びコンテンツ消費者(例えば、話し手及び聞き手)の役割に特に基づき、デジタルコンテンツ(例えば、ウェブカンファレンスの映像及び/又は音声)内の機密データセグメントを認識し得るシステムを提供することにより、デジタルコンテンツの処理を改善し得る。
【0020】
少なくとも一実施形態によれば、本発明は、再生されたデジタルコンテンツ内で識別された機密データセグメントを、役割に基づく方式で保持及び/又はマスキングすることにより、秘匿コンテンツについての会議映像の後処理を改善し得る。
【0021】
少なくとも一実施形態によれば、本発明は、自動認識に加えて、機密文分類モデル(Sensitive Sentence Classification Model:SSCM)を用いてコンテンツ提供者及び/又は話し手が機密データセグメントのマーキングを任意選択的に及び/又は手動でトリガすることを可能にすることにより、オンラインソフトウェアを通じて実施される会議における秘匿コンテンツの監視を改善し得る。
【0022】
少なくとも一実施形態によれば、本発明は、複数の役割の各々について別個に映像を編集するのとは対照的に、機密文分類モデル(SSCM)を用いて異なる役割について異なるフィルタルールを適用することにより、デジタルコンテンツが複数の消費者によって再生され得る効率を改善し得、ここで複数の消費者は組織内で異なる役割を実行している。
【0023】
少なくとも一実施形態によれば、本発明は、カスタマイズされたトレーニングデータセット及び既存のデータセットを用いてSSCMモデルをトレーニングすることにより、異なる消費者グループ向けの消費者固有のデジタルコンテンツを生成することを改善し得、ここでカスタマイズされたトレーニングデータセットは、組織情報から導出されるキーワード及びエンティティで構成され、既存のデータセットは、1つ又は複数の公的に利用可能なリソースから調達された1つ又は複数の既存の機密単語データセットで構成され、カスタマイズされたトレーニングデータセット及び既存のデータセットはWord2Vecアルゴリズムを用いて前処理される。
【0024】
少なくとも一実施形態によれば、本発明は、そのオリジナル形式で受信されたデジタルコンテンツをオリジナルコンテンツデータベースに記憶すること;機密文分類モデルを用いて1つ又は複数の機密データセグメントを識別すること;及び、1つ又は複数の機密データセグメントを、データタイプ、タイムスタンプ、又は対応する消費者の役割のうちの少なくとも1つ又は複数に従い、処理済みコンテンツデータベースに記憶すること、ここで対応する消費者の役割は、コンテンツ消費者の1つ又は複数のグループのうちの少なくとも1つを含む、により、SSCMモデルを用いてデジタルコンテンツを処理することを改善し得る。
【0025】
少なくとも一実施形態によれば、本発明は、コンテンツ制作者が、ユーザインタフェース内で機密コンテンツを手動で識別することを可能にすること、及び、コンテンツ消費者が、処理済みコンテンツデータベース内に記憶され、SSCMを再トレーニングするために使用され得る機密コンテンツを手動でマーキングすることを可能にすることにより、機密データセグメントを識別することを改善し得る。
【0026】
図1を参照すると、コンピューティング環境100は、コンテンツ処理モジュール150を用いて異なるコンテンツ消費者のグループ向けに機密データセグメントについてデジタルコンテンツを自動的に後処理することなど、本発明の方法を実行する際に関与するコンピュータコードの少なくとも一部の実行のための環境の例を含む。ブロック150に加えて、コンピューティング環境100は、例えば、コンピュータ101、ワイドエリアネットワーク(WAN)102、エンドユーザデバイス(EUD)103、リモートサーバ104、パブリッククラウド105、及びプライベートクラウド106を含む。この実施形態において、コンピュータ101は、プロセッサセット110(処理回路120及びキャッシュ121を含む)、通信ファブリック111、揮発性メモリ112、永続ストレージ113(上記で特定した通り、オペレーティングシステム122及びブロック150を含む)、周辺デバイスセット114(ユーザインタフェース(UI)デバイスセット123、ストレージ124、及びモノのインターネット(IoT)センサセット125を含む)、及びネットワークモジュール115を含む。リモートサーバ104は、リモートデータベース130を含む。パブリッククラウド105は、ゲートウェイ140、クラウドオーケストレーションモジュール141、ホスト物理マシンセット142、仮想マシンセット143、及びコンテナセット144を含む。
【0027】
コンピュータ101は、プログラムを実行すること、ネットワークにアクセスすること、又はリモートデータベース130などのデータベースを照会することが可能である、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、スマートウォッチ又は他のウェアラブルコンピュータ、メインフレームコンピュータ、量子コンピュータ、又は、現在既知又は将来開発されることになる任意の他の形態のコンピュータ又はモバイルデバイスの形態を取り得る。コンピュータ技術の分野においては良く理解されている通り、また技術に応じ、コンピュータ実装方法の実行は、複数のコンピュータの中で、及び/又は複数の位置間で分散され得る。他方、コンピューティング環境100に関する本提示において、提示を可能な限り簡潔にするため、詳細な論述は、単一のコンピュータ、具体的にはコンピュータ101に焦点を置いている。コンピュータ101は、
図1においてはクラウド内に示されていないが、それはクラウド内に位置し得る。他方、コンピュータ101は、断定的に示され得る任意の範囲を除き、クラウド内に存在することを必要とされない。
【0028】
プロセッサセット110は、現在既知又は将来開発されることになる任意のタイプの1つ又は複数のコンピュータプロセッサを含む。処理回路120は、複数のパッケージ、例えば、複数の調整された集積回路チップに分散され得る。処理回路120は、複数のプロセッサスレッド及び/又は複数のプロセッサコアを実装し得る。キャッシュ121は、プロセッサチップパッケージ内に位置するメモリであり、通常、プロセッサセット110上で実行されているスレッド又はコアによる迅速なアクセスのために利用可能であるべきデータ又はコードに対して使用される。キャッシュメモリは、通常、処理回路との相対的近接性に応じて、複数のレベルに編成される。代替的に、プロセッサセット用の幾つか又は全てのキャッシュは、「オフチップ」に位置し得る。幾つかのコンピューティング環境において、プロセッサセット110は、キュビットを用いて動作し、量子コンピューティングを実行するように設計され得る。
【0029】
コンピュータ可読プログラム命令は、通常、コンピュータ101にロードされて、コンピュータ101のプロセッサセット110によって一連の動作ステップを実行させ、それにより、コンピュータ実装方法を有効にし、その結果、そのようにして実行された命令は、本書に含まれるコンピュータ実装方法のフローチャート及び/又はナラティブな説明において指定される方法(「本発明の方法」と総称される)をインスタンス化することになる。これらのコンピュータ可読プログラム命令は、キャッシュ121及び以下で論述される他の記憶媒体などの様々なタイプのコンピュータ可読記憶媒体に記憶される。プログラム命令及び関連付けられたデータは、本発明の方法の実行を制御及び指示するために、プロセッサセット110によりアクセスされる。コンピューティング環境100において、本発明の方法を実行するための命令の少なくとも幾つかは、永続ストレージ113内のブロック150に記憶され得る。
【0030】
通信ファブリック111は、コンピュータ101の様々な構成要素が互いに通信することを可能にする信号伝導経路である。通常、このファブリックは、バス、ブリッジ、物理入力/出力ポート等を構成するスイッチ及び導電性経路などのスイッチ及び導電性経路で作成される。光ファイバ通信経路及び/又は無線通信経路など、他のタイプの信号通信経路が使用され得る。
【0031】
揮発性メモリ112は、現在既知又は将来開発されることになる任意のタイプの揮発性メモリである。例は、ダイナミック型ランダムアクセスメモリ(RAM)又はスタティック型RAMを含む。通常、揮発性メモリ112はランダムアクセスを特徴とするが、断定的に示されていない限りこれは必須ではない。コンピュータ101において、揮発性メモリ112は、単一のパッケージ内に位置し、コンピュータ101の内部に存在するが、代替的に又は追加的に、揮発性メモリは、複数のパッケージにわたり分散され、及び/又はコンピュータ101に対して外部に位置し得る。
【0032】
永続ストレージ113は、現在既知又は将来開発されることになるコンピュータ用の任意の形態の不揮発性ストレージである。このストレージの不揮発性は、コンピュータ101に対して、及び/又は、永続ストレージ113に対して直接、電力が供給されているかどうかにかかわらず、記憶されたデータが維持されることを意味する。永続ストレージ113は、リードオンリメモリ(ROM)であり得るが、通常、永続ストレージの少なくとも一部は、データの書き込み、データの削除、及びデータの再書き込みを可能にする。永続ストレージの幾つかのよく知られた形態は、磁気ディスク及びソリッドステート記憶デバイスを含む。オペレーティングシステム122は、様々な既知の専有オペレーティングシステム、又は、カーネルを採用するオープンソースのポータブルオペレーティングシステムインタフェース(Portable Operating System Interface)タイプのオペレーティングシステムなど、幾つかの形態を取り得る。ブロック150に含まれるコードは、通常、本発明の方法の実行に関与するコンピュータコードの少なくとも幾つかを含む。
【0033】
周辺デバイスセット114は、コンピュータ101の周辺デバイスのセットを含む。コンピュータ101の周辺デバイス及び他の構成要素の間のデータ通信接続は、Bluetooth(登録商標)接続、近距離無線通信(Near-Field Communication:NFC)接続、ケーブル(ユニバーサルシリアルバス(USB)タイプのケーブルなど)によって行われる接続、挿入タイプの接続(例えば、セキュアデジタル(secure digital:SD)カード)、ローカルエリア通信ネットワークを通じて行われる接続、及び更にはインターネットなどのワイドエリアネットワークを通じて行われる接続など、様々な方法で実装され得る。様々な実施形態において、UIデバイスセット123は、ディスプレイ画面、スピーカ、マイクロフォン、(ゴーグル及びスマートウォッチなどの)ウェアラブルデバイス、キーボード、マウス、プリンタ、タッチパッド、ゲームコントローラ、及びハプティックデバイスなどの構成要素を含み得る。ストレージ124は、外付けハードドライブなどの外部ストレージ、又はSDカードなどの挿入可能なストレージである。ストレージ124は、永続的及び/又は揮発性であり得る。幾つかの実施形態において、ストレージ124は、キュビットの形態でデータを記憶するための量子コンピューティング記憶デバイスの形態を取り得る。コンピュータ101が大量のストレージを有することが必要とされる実施形態において(例えば、コンピュータ101が大規模なデータベースをローカルに記憶及び管理する場合)、このストレージは、複数の、地理的に分散されたコンピュータにより共有されるストレージエリアネットワーク(SAN)などの、非常に大量のデータを記憶するように設計された周辺記憶デバイスにより提供され得る。IoTセンサセット125は、モノのインターネットのアプリケーションにおいて使用され得るセンサで構成されている。例えば、或るセンサは体温計であり得、別のセンサは動作検出器であり得る。
【0034】
ネットワークモジュール115は、コンピュータ101がWAN102を通じて他のコンピュータと通信することを可能にする、コンピュータソフトウェア、ハードウェア、及びファームウェアの集合体である。ネットワークモジュール115は、モデム又はWi-Fi(登録商標)信号トランシーバなどのハードウェア、通信ネットワーク伝送用にデータをパケット化及び/又はデパケット化するためのソフトウェア、及び/又はインターネットを介してデータを通信するためのウェブブラウザソフトウェアを含み得る。幾つかの実施形態において、ネットワークモジュール115のネットワーク制御機能及びネットワーク転送機能は、同じ物理ハードウェアデバイス上で実行される。他の実施形態(例えば、ソフトウェア定義ネットワーキング(Software-Defined Networking:SDN)を利用する実施形態)において、ネットワークモジュール115の制御機能及び転送機能は、制御機能が幾つかの異なるネットワークハードウェアデバイスを管理するように、物理的に別個のデバイス上で実行される。本発明の方法を実行するためのコンピュータ可読プログラム命令は、通常、ネットワークモジュール115に含まれるネットワークアダプタカード又はネットワークインタフェースを通じて、外部コンピュータ又は外部記憶デバイスからコンピュータ101にダウンロードされ得る。
【0035】
WAN102は、現在既知又は将来開発されることになる、コンピュータデータを通信するための任意の技術によって、非ローカルな距離にわたってコンピュータデータを通信することができる任意のワイドエリアネットワーク(例えば、インターネット)である。幾つかの実施形態において、WAN102は、Wi-Fiネットワークなど、ローカルエリアに位置するデバイス間でデータを通信するように設計されたローカルエリアネットワーク(local area network:LAN)によって置換及び/又は補完され得る。WAN及び/又はLANは、通常、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、及びエッジサーバなどのコンピュータハードウェアを含む。
【0036】
エンドユーザデバイス(End User Device:EUD)103は、エンドユーザ(例えば、コンピュータ101を運用する企業の顧客)によって使用及び制御される任意のコンピュータシステムであり、コンピュータ101に関連して上記で論述された形態のいずれかを取り得る。EUD103は、通常、コンピュータ101の動作から、有益且つ有用なデータを受信する。例えば、コンピュータ101がエンドユーザに推奨を提供するように設計されている仮想的な事例において、この推奨は、通常、コンピュータ101のネットワークモジュール115からWAN102を通じてEUD103に通信されることになる。このようにして、EUD103は、エンドユーザに対して、推奨を表示、又はそうでなければ提示することができる。幾つかの実施形態において、EUD103は、シンクライアント、ヘビークライアント、メインフレームコンピュータ、及びデスクトップコンピュータなどのようなクライアントデバイスであり得る。
【0037】
リモートサーバ104は、少なくとも幾つかのデータ及び/又は機能をコンピュータ101に供する任意のコンピュータシステムである。リモートサーバ104は、コンピュータ101を運用するのと同じエンティティによって制御及び使用され得る。リモートサーバ104は、コンピュータ101などの他のコンピュータによる使用のために有益且つ有用なデータを収集及び記憶するマシンを表す。例えば、コンピュータ101が過去のデータに基づき推奨を提供するように設計及びプログラミングされている仮想的な事例において、この過去のデータは、リモートサーバ104のリモートデータベース130からコンピュータ101に提供され得る。
【0038】
パブリッククラウド105は、ユーザによる直接のアクティブ管理を伴うことなく、コンピュータシステムリソース及び/又は他のコンピュータ機能、とりわけデータストレージ(クラウドストレージ)及びコンピューティング能力のオンデマンドの可用性を提供する、複数のエンティティによる使用のために利用可能な任意のコンピュータシステムである。クラウドコンピューティングは、通常、リソースの共有を活用して、コヒーレンス及び規模の経済を実現する。パブリッククラウド105のコンピューティングリソースの直接のアクティブ管理は、クラウドオーケストレーションモジュール141のコンピュータハードウェア及び/又はソフトウェアにより実行される。パブリッククラウド105により提供されるコンピューティングリソースは、通常、パブリッククラウド105内の、及び/又はパブリッククラウド105にとって利用可能な物理コンピュータのユニバースである、ホスト物理マシンセット142のコンピュータを構成する様々なコンピュータ上で実行される仮想コンピューティング環境により実装される。仮想コンピューティング環境(VCE)は、通常、仮想マシンセット143からの仮想マシン及び/又はコンテナセット144からのコンテナの形態を取る。これらのVCEは、画像として記憶され得、様々な物理マシンのホストの中で、及びその間で、画像として、又はVCEのインスタンス化の後に、のいずれかで転送され得ることが理解される。クラウドオーケストレーションモジュール141は、画像の転送及び記憶を管理し、VCEの新たなインスタンス化を展開し、VCE展開のアクティブなインスタンス化を管理する。ゲートウェイ140は、パブリッククラウド105がWAN102を通じて通信することを可能にする、コンピュータソフトウェア、ハードウェア、及びファームウェアの集合体である。
【0039】
ここで、仮想化コンピューティング環境(virtualized computing environment:VCE)の幾つかの更なる解説が提供される。VCEは、「画像」として記憶され得る。VCEの新たなアクティブインスタンスは、画像からインスタンス化され得る。2つのよく知られたVCEのタイプは、仮想マシン及びコンテナである。コンテナは、オペレーティングシステムレベルの仮想化を使用するVCEである。これは、カーネルが、コンテナと呼ばれる複数の隔離されたユーザ空間のインスタンスの存在を可能にする、オペレーティングシステムの特徴を指す。これらの隔離されたユーザ空間のインスタンスは、通常、それらの中で実行されているプログラムの観点から、実際のコンピュータとして挙動する。通常のオペレーティングシステム上で実行されているコンピュータプログラムは、コネクテッドデバイス、ファイル及びフォルダ、ネットワーク共有、CPUパワー、及び定量化可能なハードウェア機能など、そのコンピュータの全てのリソースを利用し得る。しかしながら、コンテナ内部で実行されているプログラムは、コンテナの、及びコンテナに割り当てられたデバイスのコンテンツのみを使用することができ、この特徴はコンテナ化として知られている。
【0040】
プライベートクラウド106は、コンピューティングリソースが単一の企業による使用のためにのみ利用可能であることを除き、パブリッククラウド105と同様である。プライベートクラウド106は、WAN102と通信状態にあるものとして示されているが、他の実施形態において、プライベートクラウドは、インターネットから完全に切断され、ローカル/プライベートネットワークを通じてのみアクセス可能であり得る。ハイブリッドクラウドは、異なるタイプの複数のクラウド(例えば、プライベートクラウド、コミュニティクラウド又はパブリッククラウドのタイプ)の複合体であり、多くの場合、異なるベンダによりそれぞれ実装される。複数のクラウドの各々は、別個の離散したエンティティのままであるが、より大きなハイブリッドクラウドアーキテクチャは、複数の構成クラウドの間におけるオーケストレーション、管理、及び/又はデータ/アプリケーションのポータビリティを可能にする、標準化された、又は専有の技術により結合されている。この実施形態において、パブリッククラウド105及びプライベートクラウド106は両方とも、より大きなハイブリッドクラウドの一部である。
【0041】
本実施形態によれば、コンピュータ環境100は、コンテンツ処理モジュール150を使用して、異なるコンテンツ消費者のグループに従い、機密データセグメントについてデジタルコンテンツを自動的に後処理し得る。コンテンツ処理方法は、
図2及び
図3に関して以下でより詳細に解説される。
【0042】
ここで
図2を参照すると、少なくとも一実施形態による、コンテンツ処理モジュール150によって使用される例示的なコンテンツ処理プロセス200を示す動作フローチャートが示されている。
【0043】
202で、コンテンツ処理モジュール150は、機密文分類モデル(SSCM)(例えば、分類モデル)を構築する。コンテンツ処理モジュール150は、組織内の話し手及び/又は消費者のグループの両方の役割に特に基づき、デジタルコンテンツ内の機密データセグメントの識別を可能にするために、SSCM(例えば、分類モデル)を構築し得る。組織は、構成員間で会議を実施する際にオンラインソフトウェアを利用し得る、事業エンティティ、非営利組織、教育機関、又は任意の他の組織であり得る。構成員は、コンテンツ制作者(例えば、経営陣、組織幹部、教授、教員)で構成され得、コンテンツ制作者は、会議内で発表する組織の話し手及び/又は構成員及びコンテンツ消費者(例えば、従業員、ボランティア、学生)であり得る。コンテンツ消費者は、デジタルコンテンツが制作され得る対象の組織参加者であり得る。コンテンツ消費者は、クライアント及び/又は一般大衆など、組織外部の消費者をも含み得る。SSCM(例えば、分類モデル)を構築する際に関与し得るトレーニングプロセスは、
図3においてより詳細に説明され得る。
【0044】
コンテンツ処理モジュール150は、機密単語及び/又は機密視覚コンテンツを含み得る、組織のデジタル媒体コンテンツ内の音声及び/又は視覚コンテンツを識別するためのSSCM(例えば、分類モデル)を構築する際に、1つ又は複数の既存の機密単語データセット及び/又はカスタマイズされたトレーニングデータセットを有する1つ又は複数の言語分析技法及び/又は1つ又は複数のディープラーニングモデルを利用し得る。1つ又は複数の機密単語は、概して、1つ又は複数の既存の機密単語データセットを用いて識別され得る、及び/又は、SSCM(例えば、分類モデル)を構築する際に利用されるカスタマイズされたトレーニングデータセットを用いて、消費者の役割設定に特に関連して識別され得る。以下及び
図3においてより詳細に解説される通り、1つ又は複数の既存の機密単語データセットは、1つ又は複数の公的に利用可能なデータセットから調達され得、且つ、カスタマイズされたトレーニングデータセットは、他のデータの中でもとりわけ、少なくとも、事前定義された消費者データ、消費者の役割、機密単語に基づき得る。
【0045】
1つ又は複数の言語分析技法は、他の実装の中でもとりわけ、IBM Watson(登録商標)(IBM Watson及び全てのWatsonベースの商標は、米国及び/又は他の国々におけるInternational Business Machines Corporationの商標又は登録商標である)、IBM Watson(登録商標)Speech to Text、IBM Watson(登録商標)Tone Analyzer、IBM Watson(登録商標)Natural Language Understanding及びIBM Watson(登録商標)Natural Language Classifierにおいて実装されるものなど、他の分析技法の中でもとりわけ、自然言語処理(Natural Language Processing:NLP)、潜在的ディリクレ配分法(Latent Dirichlet Allocation:LDA)、音声テキスト化(speech-to-text)、隠れマルコフモデル(Hidden markov model:HMM)、Nグラム(N-gram)、話者ダイアライゼーション(Speaker Diarization:SD)、文間意味的類似度(Semantic Textual Similarity:STS)、キーワード抽出(Keyword Extraction)を用いた機械学習モデルを含み得るが、これらに限定されない。以下でより詳細に説明される通り、1つ又は複数の言語分析技法は、SSCM(例えば、分類モデル)を用いてフィルタリングされ得る音声コンテンツのテキストトランスクリプトを生成する際に利用され得る。
【0046】
コンテンツ処理モジュール150によって利用され得る1つ又は複数のディープラーニングモデルは、画像、オブジェクト及び/又は他の視覚コンテンツ向けの他の画像認識ニューラルネットワーク(Image Recognition Neural Network)ディープラーニングモデルの中でもとりわけ、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)を含み得るが、これらに限定されない。以下でより詳細に説明される通り、1つ又は複数のディープラーニングモデルは、SSCM(例えば、分類モデル)を用いてフィルタリングされ得る視覚コンテンツを識別する際に利用され得る。CNNはまた、SSCM(例えば、分類モデル)のトレーニングプロセス中の処理のために利用され得、これについては以下及び
図3においてより詳細に説明される。
【0047】
コンテンツ処理モジュール150は、非構造化テキストデータから意味及び/又はメタデータを抽出する際に、上記で説明された1つ又は複数の言語分析技法及び/又は1つ又は複数のディープラーニングモデルを利用し得る。非構造化テキストデータは、組織から受信した組織情報を含み得る。組織情報は、他の組織情報の中でもとりわけ、内部文書、組織ディレクトリ、管理チェーン、職務記述書、従業員の役職、ユーザプロファイル、テキストファイル、音声ファイル、及び/又は映像ファイルを含み得るが、これらに限定されない。コンテンツ処理モジュール150は、組織及び/又は当該組織内の認可されたユーザから同意を受領するまでは、組織から受信した非構造化テキストデータ及び/又は任意の他のデータに対してテキスト分析を実行する際に、1つ又は複数の言語分析技法を利用しなくてよい。1つ又は複数の言語分析技法を利用するコンテンツ処理モジュール150は、少なくとも、カテゴリ、概念、分類、メタデータ、エンティティ、キーワード、センチメント、意味的役割、感情、関係及び/又は構文を抽出し得る。
【0048】
コンテンツ処理モジュール150は、カスタマイズされたトレーニングデータセットを構築する際に、機密及び非機密コンテンツを含む、複数の手動で識別された口頭言語例を追加的に利用し得る。コンテンツ処理モジュール150は、テンプレート(例えば、ベーステキスト)を利用し得、且つ、1つ又は複数の言語分析技法を利用して、当該テンプレート(例えば、ベーステキスト)内のエンティティ及び/又はキーワードを識別する。加えて、コンテンツ処理モジュール150は、ベーステキスト(例えば、テンプレート)内のエンティティ及び/又はキーワードを置換するために、同意語及び/又は反意語を用いることにより、テンプレート(例えば、ベーステキスト)のバリエーションを生成し得る。コンテンツ処理モジュール150は、テンプレート(例えば、ベーステキスト)のバリエーション、及び、既存のデータセットから受信した機密及び/又は非機密コンテンツの前処理を実行し得る。コンテンツ処理モジュール150は、Word2Vecモデルなどを含むがこれに限定されないNLPモデルを用いてこの入力を前処理し得る。NLPモデルは、テキストコーパスを入力として利用し、CNNによって機密又は非機密文のいずれかとして分類され得る出力を制作し得る。例えば、コンテンツ処理モジュール150はWord2Vecモデルを利用し得、当該アルゴリズムは、テキストコーパスを入力として受け入れ、テキストコーパスの各単語のベクトル表現を、CNNによって機密又は非機密のいずれかとして分類され得る出力として出力し得る。
【0049】
コンテンツ処理モジュール150はまた、SSCM(例えば、分類モデル)を構築する際に、消費者の役割設定を利用し得る。消費者の役割設定は、組織の階層構造に基づき得る。組織の階層構造は、組織によってコンテンツ処理モジュール150に提供される他のデータの中でもとりわけ、少なくとも上記で詳細に説明された組織情報を利用した組織の階層分析に基づき作成され得る。コンテンツ処理モジュール150は、組織及び/又は当該組織の認可されたユーザから同意を受領するのに先立ち、当該組織の階層分析を実行しなくてよい。コンテンツ処理モジュール150は、組織の階層分析を実行する際に、限定されないが、他の階層分析技法の中でもとりわけ、ガルトンワトソン分岐過程(Galton-Watson branching process)、軽量ディレクトリアクセスプロトコル(Lightweight Directory Access Protocol:LDAP)などの1つ又は複数のツール及び/又は技法を利用し得る。組織の階層構造は、組織内の複数のユーザの互いに対する相対的なポジションを示すディレクトリ情報ツリー(directory information tree:DIT)であり得る。階層構造は、組織内の各グループの役割に基づき、複数の消費者のグループにとって機密であるとみなされ得る情報を指定する際に利用され得る。例えば、報酬情報は、組織の営業グループ内の消費者にとっては機密であるとみなされ得るが、組織の給与グループ内で働く消費者にとっては機密であるとみなされない場合があり、そのため、SSCM(例えば、分類モデル)は、営業グループ向けのデジタルコンテンツ内の報酬の議論をブロックし得るが、給与グループ向けにはこれを行わない。別の例は、企業秘密を維持するという組織の目標に関する場合があり、そのため、公式、慣行、プロセス、設計、器具、パターン及び/又は情報の編集物などの情報は、複数の消費者内の異なるグループにとって機密であるとみなされ得る。
【0050】
SSCM(例えば、分類モデル)は、上記で説明された1つ又は複数のディープラーニングモデルによってデジタルコンテンツ内で識別された視覚コンテンツをブロック及び/又はマスキングする際にも利用され得る。例えば、組織内の内部会議において、コンテンツ処理モジュール150は、1つ又は複数のディープラーニングモデルを用いて、画面共有デッキ内の1つ又は複数の数字(number figure)を識別し得る。この例において、SSCM(例えば、分類モデル)は、コンテンツ消費者の少なくとも一部にとって機密な数字であると判定された1つ又は複数の数字内の年間収益数値(annual revenue number)をマスキング及び/又はブロックし得る。
【0051】
以下でより詳細に解説される通り、消費者の役割設定は、役割及び機密単語などの事前定義された消費者データを含み得、これらは、処理済みコンテンツデータベースへの所望の出力を生成する際にSSCM(例えば、分類モデル)によって利用され得る。例えば、XXXマネージャについての事前定義された消費者データは、以下を含み得る。
{
"keywords":["confidential","Contract","XXX company","Deal"],
"roles":["XXX manager"]
}
【0052】
別の実施形態において、コンテンツは、或る時点においては機密であり、後の時点においては機密でない場合がある。以下でより詳細に解説される通り、コンテンツ制作者(例えば、経営陣、組織幹部、教授、教員)は、異なるコンテンツ消費者のグループについて異なるマスキング期間を指定し得る。例えば、教授は、試験前に、教員助手及び学生のグループを対象としたデジタルコンテンツを制作し得る。当該デジタルコンテンツは、試験前には学生にとって部分的にのみ利用可能であり得るが、試験後にはその全部が利用可能であり得る。
【0053】
204で、コンテンツ処理モジュール150は、デジタルコンテンツを受信する。コンテンツ処理モジュール150は、コンテンツ消費者(例えば、従業員、ボランティア、学生)の1つ又は複数のグループ向けに、コンテンツ制作者(例えば、経営陣、組織幹部、教授、教員)によって制作され得るデジタルコンテンツを受信し得る。コンテンツ処理モジュール150は、少なくとも、インターネットブラウザ、専用ソフトウェアアプリケーションにおいて、及び/又はサードパーティソフトウェアアプリケーションとの統合として、デジタルコンテンツを受信し得る。サードパーティソフトウェアアプリケーションは、会議、告知を実施する、及び/又はコンテンツ消費者(例えば、従業員、ボランティア、学生)に対してデジタルコンテンツを制作及び/又は配布する際に、組織によって利用されるウェブカンファレンス及び/又は映像記録ソフトウェアを含み得る。
【0054】
デジタルコンテンツは、コンテンツ消費者の1つ又は複数のグループ向けに制作され得る。コンテンツ制作者(例えば、経営陣、組織幹部、教授、教員)は、少なくともインターネットブラウザ、専用ソフトウェアアプリケーション、及び/又はサードパーティソフトウェアアプリケーションに表示されるユーザインタフェースにおいて、デジタルコンテンツが対象とするコンテンツ消費者(例えば、従業員、ボランティア、学生)の1つ又は複数のグループを識別し得る。コンテンツ処理モジュール150はまた、ステップ202で生成された組織の階層構造に基づき、コンテンツが対象とするコンテンツ消費者の1つ又は複数のグループを識別し得る。以下でより詳細に解説される通り、コンテンツ処理モジュール150は、受信したデジタルコンテンツから、少なくとも音声及び/又は視覚コンテンツを抽出する際に、コンテンツ抽出器を利用し得る。次に、SSCM(例えば、分類モデル)が、コンテンツ消費者の1つ又は複数のグループに対応する音声及び/又は視覚コンテンツ内の機密データセグメントを識別する際に利用され得る。ステップ206に関して以下でより詳細に解説される通り、コンテンツ制作者(例えば、経営陣、組織幹部、教授、教員)はまた、ユーザインタフェース内でコンテンツのマスキング及び/又はブロックを手動でトリガし得る。コンテンツ制作者は、コンテンツ処理モジュール150によって処理済みコンテンツデータベースに自動的に記憶され得る特定のセグメントについてのデジタルコンテンツの制作中に、ユーザインタフェース内で1つ又は複数のグループのうちの少なくとも1つを手動で選択し得る。
【0055】
206で、コンテンツ処理モジュール150は、デジタルコンテンツを処理する。コンテンツ処理モジュール150は、SSCM(例えば、分類モデル)及び2つ又はそれより多くのコンテンツデータベースを用いて、コンテンツ消費者の各グループ向けのデジタルコンテンツを処理し得る。2つ又はそれより多くのコンテンツデータベースは、少なくともオリジナルコンテンツデータベース及び処理済みコンテンツデータベースを含み得る。2つ又はそれより多くのコンテンツデータベースは、データベース130内でコンテンツ処理モジュールによって維持され得る。オリジナルコンテンツデータベースは、コンテンツ制作者によって記録された通りのそのオリジナル形式でデジタルコンテンツを記憶し得る。処理済みコンテンツデータベースは、SSCM(例えば、分類モデル)によって識別された機密データセグメント及びそれらの対応する消費者の役割を記憶し得る。
【0056】
デジタルコンテンツは、少なくとも音声及び/又は映像コンテンツで構成され得る。コンテンツ処理モジュール150は、機密コンテンツを識別する際にSSCM(例えば、分類モデル)を用いてフィルタリングされ得る音声コンテンツのテキストトランスクリプトを生成する際に、音声テキスト化などの1つ又は複数の言語分析技法を利用し得る。コンテンツ処理モジュール150は、SSCM(例えば、分類モデル)を用いてフィルタリングされ得る視覚コンテンツを識別する際に画像及び/又はオブジェクト認識などの視覚分析技法を採用するために、音声テキスト化などの1つ又は複数の言語分析技法、及び/又は1つ又は複数のディープラーニングモデルを利用し得る。例えば、機密視覚コンテンツは、コンテンツ制作者が製品発表中に彼らの画面をクライアントと共有している間に検出され得る。コンテンツ制作者は、1つ又は複数の内部秘匿文書を除外(close out)し忘れた可能性がある。この例において、文書に「秘匿」というキーワードが含まれていることをコンテンツ処理モジュール150が検出すると、コンテンツ処理モジュール150は、いかなる機密データも漏洩しないことを確実にすべく、1つ又は複数の内部秘匿文書をマスキング及び/又はブロックし得る。コンテンツ処理モジュール150は、音声及び/又は視覚コンテンツ内でSSCM(例えば、分類モデル)に基づき機密情報を含み得ると識別されたコンテンツを処理済みコンテンツデータベースに記憶し得る。
【0057】
処理済みコンテンツデータベースは、SSCM(例えば、分類モデル)の出力を記憶し得る。コンテンツ処理モジュール150は、データタイプ、デジタルコンテンツ内のタイムスタンプ/位置及び/又は対応する消費者の役割に従い、機密データセグメントを記憶し得る。例えば、コンテンツ処理モジュール150は、以下を用いて、機密音声セグメントを処理済みコンテンツデータベースに記憶し得:
{
"type":"audio",
"startTime":"00:01:23",
"endTime":"00:01:59",
"keyWords":["profit","cost"],
"appliedRoles":["general public","non-employee"]
}
且つ、以下を用いて、機密映像セグメントを処理済みコンテンツデータベースに記憶し得る。
{
"type":"video",
"startTime":"00:10:23",
"endTime":"00:10:44",
"keyWords":["confidential","Contract","XXX company","Deal"],
"appliedRoles":["XXX manager"]
}
【0058】
コンテンツ処理モジュール150はまた、制作者によって手動で識別された1つ又は複数の機密データセグメントを処理済みコンテンツデータベース内に記憶し得る。加えて、コンテンツ処理モジュール150は、ステップ202において説明された1つ又は複数の言語分析技法を用いて制作者によって識別される1つ又は複数のデータセグメントに類似している可能性のある追加のコンテンツセグメントを識別し得る。コンテンツ処理モジュール150は、コンテンツ消費者(例えば、従業員、ボランティア、学生)内の各グループについて、手動で識別された、及び/又はコンテンツ処理モジュール150によって識別された機密データセグメントのリストを、ユーザインタフェースにおいて制作者に提示し得る。コンテンツ制作者(例えば、経営陣、組織幹部、教授、教員)は、各グループについて、1つ又は複数の機密データセグメントの各々を編集及び/又は承認し得る。
【0059】
ステップ208に関して以下でより詳細に解説される通り、コンテンツ処理モジュールは、消費者固有のデジタルコンテンツを生成する際に、オリジナルコンテンツデータベースに保存されたデジタルコンテンツ及び処理済みコンテンツデータベースに記憶された機密データセグメント利用し得る。
【0060】
別の実施形態において、コンテンツ処理モジュール150は、再生(playback)用に意図されたデジタルコンテンツ、並びに、組織の会議など、リアルタイムで消費されることが意図されたデジタルコンテンツのためにコンテンツ処理モジュール150が利用され得るよう、デジタルコンテンツを処理する際に、それが、リアルタイムで受信され、介在する遅延中にSSCM(例えば、分類モデル)を用いて処理され得るように、遅延を利用し得る。
【0061】
208で、コンテンツ処理モジュール150は、消費者固有のデジタルコンテンツを生成する。コンテンツ処理モジュール150は、消費者の役割設定に従い、各消費者グループについて消費者固有のデジタルコンテンツを生成し得る。
【0062】
コンテンツ処理モジュール150は、オリジナルコンテンツデータベースから、コンテンツ制作者によって記録された通りのそのオリジナル形式で、デジタルコンテンツを、及び、処理済みコンテンツデータベースに記憶されたタイムスタンプ、対応する消費者の役割、及び/又は関連付けられたデータを含む1つ又は複数の機密データセグメントを取り出すことにより、1つ又は複数の消費者グループの各々について消費者固有のデジタルコンテンツを生成し得る。従って、コンテンツ処理モジュール150は、1つ又は複数の消費者グループの各々向けに、どの映像オブジェクト及び/又は音声時間枠がマスキング及び/又はブロックを必要とし得るかを判定し得る。
【0063】
コンテンツ処理モジュール150は、音声及び/又は視覚的機密データセグメントをマスキング及び/又はブロックする際に、出力コンテンツプロセッサを利用し得る。出力コンテンツプロセッサは、デジタルコンテンツのマスキング及び/又はブロックの他の方法の中でもとりわけ、音声的機密データセグメントに関連付けられた時間枠にわたりサウンドをミュートし、デジタルコンテンツから完全なセグメントを削除して、デジタルコンテンツトランスクリプト内で識別されたキーワードを隠し、スクランブル、置換することで、音声及び/又は視覚的機密データセグメントをマスキング及び/又はブロックし得る。
【0064】
コンテンツ処理モジュール150は更に、ステップ204に関して上記で詳細に説明された、インターネットブラウザ、専用ソフトウェアアプリケーション、及び/又はサードパーティソフトウェアアプリケーションによって提示されるユーザインタフェース内の消費者グループ分けに従い、複数の消費者の各々に消費者固有のコンテンツを伝送及び/又は表示する際に、出力コンテンツプロセッサを利用し得る。コンテンツ処理モジュール150はまた、http、https、及び/又はftpを介してダウンロードするための一意のダウンロードリンクを各コンテンツ消費者向けに生成し得る。コンテンツ処理モジュール150は、消費者固有のコンテンツを伝送及び/又は表示するのに先立ち、コンテンツ制作者(例えば、経営陣、組織幹部、教授、教員)及び/又は組織内の別の認可された当事者から、生成された消費者固有のコンテンツの各バージョンについて承認を受領し得る。コンテンツ処理モジュール150はまた、コンテンツ消費者による閲覧を可能にするのに先立ち、コンテンツ消費者グループの確認(verification)を必要とし得る。コンテンツ処理モジュール150は、デバイスに関連付けられた消費者プロファイル、インターネットブラウザ、ソフトウェアアプリケーション、及び/又はサードパーティアプリケーションに関連付けられた消費者プロファイル、及び/又はユーザインタフェース内で消費者によって行われた手動選択に基づき、消費者グループの確認を受領し得る。
【0065】
コンテンツ処理モジュール150はまた、コンテンツ消費者が消費者固有のコンテンツ内の機密コンテンツを手動でマーキングすることを可能にし得る。コンテンツ処理モジュール150は、識別された機密コンテンツに関して消費者からの追加のフィードバックを要求し、且つ、カスタマイズされたトレーニングデータセット内に機密データセグメント及び関連付けられたデータを記憶し得る。コンテンツ処理モジュール150は、SSCM(例えば、分類モデル)を再トレーニングする際に識別された追加の機密データセグメントを利用し得、トレーニングプロセスについては、
図3に関して以下でより詳細に説明されている。
【0066】
ここで
図3を参照すると、少なくとも一実施形態による、
図2において論述された構成要素の一部を利用したSSCM(例えば、分類モデル)のトレーニングプロセスを例示するブロック図及びフローチャートが提供されている。
【0067】
少なくともステップ202に関して上記で詳細に説明された通り、組織内の話し手及び/又は消費者グループの両方の役割に特に基づく、デジタルコンテンツ内の機密データセグメントの識別を可能にするための機密文分類モデル(SSCM)310(例えば、分類モデル)の構築は、カスタマイズされたトレーニングデータセット302及び既存のデータセット304から開始されるトレーニングプロセスを含む。
【0068】
カスタマイズされたトレーニングデータセット302は、ステップ202で詳細に説明された1つ又は複数の言語分析を利用して抽出され得る他のデータの中でもとりわけ、少なくとも事前定義された消費者データ、消費者の役割、機密単語に基づき構築され得る。1つ又は複数の言語分析技法は、ステップ202で説明された組織情報など、組織から受信した非構造化テキストデータから意味及び/又はメタデータを抽出し得る。1つ又は複数の言語分析技法は、組織情報から、限定されないが、消費者、制作者、会社、組織、都市、地理的特徴及び/又は他のエンティティなどのエンティティを識別するために、テキスト分析を用いて意味及び/又はメタデータを抽出し得る。加えて、識別されたエンティティの各々に関連付けられたキーワードを抽出する際に、IBM Watson(登録商標)Natural Language Processing(登録商標)(IBM Watson及び全てのWatsonベースの商標は、米国及び/又は他の国々におけるInternational Business Machines Corporationの商標又は登録商標である)などの言語分析技法が利用され得る。識別されたエンティティ及びキーワードは、機密又は非機密のいずれかとして手動で識別され、同意語又は反意語を用いてエンティティ及び/又はキーワードを変更することによりバリエーションを生成するために使用され得る。カスタマイズされたトレーニングデータセット302は、識別されたエンティティ及びキーワード並びに生成されたバリエーションで構成されている。既存のデータセット304は、1つ又は複数の公的に利用可能なデータセットから調達された1つ又は複数の既存の機密単語データセットを用いて構築され得る。
【0069】
カスタマイズされたトレーニングデータセット302及び既存のデータセット304は、次に、前処理のために示されたWord2Vecモデル306などのNLPモデルへの入力として提供され得る。Word2Vecアルゴリズムによるカスタマイズされたトレーニングデータセット302及び既存のデータセット304の前処理においては、当該アルゴリズムによって出力された単語の埋め込みが類似単語についてのベクトルのグループ分けを可能にし得るよう、トレーニングデータセットから、機密又は非機密な単語の関連付けを学習するために、ニューラルネットワークモデルが利用され得る。音声コンテンツの場合、トレーニングプロセスは、IBM Watson(登録商標)Speech to Text(IBM Watson及び全てのWatsonベースの商標は、米国及び/又は他の国々におけるInternational Business Machines Corporationの商標又は登録商標である)を用いて実行され得る追加の音声テキスト化ステップを必要とし得る。
【0070】
畳み込みニューラルネットワーク(CNN)308が、次に、文の分類のために使用され得る。CNN308は、文のnxk表現を利用し得、ここでnは単語の数であり、kは各単語についてのベクトルの数である。CNNは、加えて、或る文が機密文又は非機密文のいずれであるかを判定する際に、静的及び非静的チャネル、複数のフィルタ幅及び特徴マップを有する畳み込み層、最大経時的プーリング、及び、ドロップアウト及びSoftMax出力を有する全結合層を利用し得る。
【0071】
従って、コンテンツ消費者の各グループ向けのデジタルコンテンツは、異なるコンテンツ消費者グループに従い機密データセグメントがマスキング及び/又はブロックされ得るよう、SSCM310(例えば、分類モデル)を用いて自動的に処理され得る。
【0072】
図2及び
図3は、1つの実施形態の例示のみを提供しており、異なる実施形態がどのように実装され得るかに関していかなる限定も示唆していないことが理解され得る。設計及び実装の要件に基づき、示されている実施形態に対する多くの修正が行われ得る。
【0073】
本開示の様々な態様は、ナラティブなテキスト、フローチャート、コンピュータシステムのブロック図、及び/又はコンピュータプログラム製品(computer program product:CPP)の実施形態に含まれる機械ロジックのブロック図によって説明される。任意のフローチャートに関し、関与する技術に応じて、所与のフローチャートにおいて示されているものとは異なる順序で動作が実行され得る。例えば、再び関与する技術に応じて、連続するフローチャートのブロックに示される2つの動作は、逆の順序で、単一の統合されたステップとして、同時に、又は少なくとも部分的に時間が重複する様式で実行され得る。
【0074】
コンピュータプログラム製品の実施形態(「CPP実施形態」又は「CPP」)は、本開示において使用される用語であり、所与のCPP請求項において指定されるコンピュータ動作を実行するための命令及び/又はデータに対応する機械可読コードを集合的に含む1つ又は複数の記憶デバイスのセットに集合的に含まれる1つ又は複数の記憶媒体(「複数の媒体」とも呼ばれる」)の任意のセットについて説明するものである。「記憶デバイス」は、コンピュータプロセッサによる使用のために命令を保持及び記憶し得る任意の有形デバイスである。コンピュータ可読記憶媒体は、電子記憶媒体、磁気記憶媒体、光学記憶媒体、電磁記憶媒体、半導体記憶媒体、機械記憶媒体、又は上述したものの任意の好適な組み合わせであり得るが、これらに限定されない。これらの媒体を含む幾つかの既知のタイプの記憶デバイスは、ディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROM又はフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、コンパクトディスクリードオンリメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピディスク、(パンチカード又はディスクの主要面に形成されたピット/ランドなどの)機械的にエンコードされたデバイス、又は上述したものの任意の好適な組み合わせを含む。コンピュータ可読記憶媒体は、当該用語が本開示において使用される場合、電波又は他の自由に伝搬する電磁波、導波路を通じて伝搬する電磁波、光ファイバケーブルを通過する光パルス、ワイヤを通じて伝達される電気信号、及び/又は他の伝送媒体などの一時的な信号自体の形態における記憶として解釈されないものとする。当業者により理解される通り、データは、アクセス中、デフラグメンテーション中、又はガベージコレクション中など、記憶デバイスの正常な動作中の幾つかの不定期な時点において、通常移動されるが、データは、それが記憶されている間において一時的ではないため、上記をもって、記憶デバイスが一時的なものとされることはない。
【0075】
本発明の様々な実施形態の説明は、例示の目的で提示されてきたが、包括的であること、又は、開示される実施形態に限定されることを意図するものではない。説明された実施形態の範囲から逸脱することなく、多くの修正及びバリエーションが、当業者には明らかになるであろう。本明細書で使用される専門用語は、実施形態の原理、実際の適用、又は市場で見られる技術に対する技術的改良を最も良く解説するため、又は他の当業者が本明細書に開示される実施形態を理解することを可能にするために選択されたものである。
【0076】
本開示は、プライバシ保護に関するいかなる地域法、州法、連邦法、又は国際法に違反する、又は、それらの違反を助長するものとして解釈されるべきではない。