特表2022-506274 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ バルブ　コーポレーションの特許一覧

特表2022-506274テキストの分類およびモデレーション

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
3C
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2022-01-17

(54)【発明の名称】テキストの分類およびモデレーション

(51)【国際特許分類】

G06F 16/35 20190101AFI20220107BHJP

G06F 40/279 20200101ALI20220107BHJP

G06F 40/151 20200101ALI20220107BHJP

【ＦＩ】

G06F16/35

G06F40/279

G06F40/151

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2021523497

(86)(22)【出願日】2019-10-31

(85)【翻訳文提出日】2021-05-26

(86)【国際出願番号】 US2019059254

(87)【国際公開番号】W WO2020092834

(87)【国際公開日】2020-05-07

(31)【優先権主張番号】16/179,781

(32)【優先日】2018-11-02

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】517160525

【氏名又は名称】バルブコーポレーション

(74)【代理人】

【識別番号】110001737

【氏名又は名称】特許業務法人スズエ国際特許事務所

(72)【発明者】

【氏名】ペダーセン、モルテン

【テーマコード（参考）】

5B091

5B109

5B175

【Ｆターム（参考）】

5B091AA15

5B091CA01

5B091CA21

5B091EA01

5B109QA01

5B109RB31

5B109RB33

5B109TA11

5B175DA01

5B175HB03

(57)【要約】

本明細書は、単語埋め込みプロセスに基づく機械学習手段によってテキストを分類し、モデレートする技術およびシステムを開示する。例えば、単語埋め込みベクトルは、遠隔演算システムによって維持されるコメントのコーパスから関連テキスト（例えば、類似の単語）のクラスタを決定するために使用される。次に、遠隔演算システムは、コメントのコーパス内で、人間ラベル付け入力から特定のタイプの単語またはスピーチを含むと決定された所与のクラスタからのテキストを含むコメントのサブセットを識別する。この情報によって、コメントのコーパスに、複数のクラスラベルのうちの１つがラベル付けされる。機械学習モデル（複数可）は、ラベル付けされたコメントのサンプリングされたセットを訓練用データとして使用し、複数のクラスラベルの１つとしてテキストを分類するように訓練される。実行時には、テキストはそのクラスラベルに基づいてモデレートされる。
【選択図】図１

【特許請求の範囲】

【請求項1】

方法であって、
コンピューティングシステムによって、コメントのコーパス内の個々の単語を単語埋め込みベクトルにマッピングすることと、
前記単語埋め込みベクトルに少なくとも部分的に基づいて、前記コメントのコーパスから関連する単語のクラスタを決定することと、
人間ラベル付け入力に基づいて、関連する単語のクラスタ内の１つ以上の単語が特定のタイプの単語であると決定することと、
前記コメントのコーパス内で、前記関連する単語のクラスタから少なくとも１つの単語を含むコメントのサブセットを識別することと、
前記コメントのコーパス内のコメントにラベル付けして、ラベル付けされたコメントを作成することであって、前記コメントのサブセットに含まれるコメントに、複数のクラスラベルの第１のクラスラベルがラベル付けされる、作成することと、
前記ラベル付けされたコメントのサンプリングされたセットを選択することと、
前記ラベル付けされたコメントのサンプリングされたセットを訓練用データとして使用して機械学習モデルを訓練し、前記複数のクラスラベルを使用してコメントを分類するように構成された、訓練された機械学習モデルを得ることと、
前記コンピューティングシステムによって、オンラインディスカッションフォーラムで提示される未分類コメントを受信することと、
前記訓練された機械学習モデルへの入力として、前記未分類コメントを提供することと、
前記訓練された機械学習モデルからの出力として、前記複数のクラスラベルを使用して前記未分類コメントの分類を生成して分類されたコメントを得ることであって、前記分類が、特定のコメントを前記第１のクラスラベルとして分類することを含む、得ることと、
クライアントマシンのディスプレイ上に前記分類されたコメントを提示させることであって、前記特定のコメントのテキストが、前記クライアントマシンの前記ディスプレイ上の前記テキストを隠すようにモデレートされる、提示させることと、を含む、方法。

【請求項2】

前記特定のコメントの前記分類は、前記特定のコメントが前記特定のタイプの単語を含む確率に関連するスコアとして前記訓練された機械学習モデルから出力され、前記特定のコメントは、前記スコアが閾値を満たすかまたは超えていることに少なくとも部分的に基づいて、前記第１のクラスラベルとして分類される、請求項１に記載の方法。

【請求項3】

前記第１のクラスラベルとしての前記特定のコメントの前記分類は、前記特定のコメントが有害な言語、ヘイトスピーチ、または冒涜的な表現のうちの少なくとも１つを含むことを示す、請求項１に記載の方法。

【請求項4】

前記クライアントマシンのユーザを識別することと、
前記ユーザに関連付けられたユーザプロファイルのユーザ嗜好設定を決定することであって、前記ユーザ嗜好設定が、前記ユーザが前記第１のクラスラベルとして分類されたコメントを見たくないことを示す、決定することと、をさらに含み、
前記特定のコメントの前記テキストは、前記ユーザプロファイルの前記ユーザ嗜好設定に少なくとも部分的に基づいてモデレートされる、請求項１に記載の方法。

【請求項5】

前記特定のコメントの前記テキストは、
前記特定のコメントの前記テキストの上に不透明な色をレンダリングすること、
前記テキストをぼかして前記テキストを判読できないようにすること、または
前記特定のコメントから前記テキストを取り除くことのうちの少なくとも１つによって、モデレートされる、請求項１に記載の方法。

【請求項6】

前記クライアントマシンから、前記クライアントマシンのユーザが前記特定のコメントの前記テキストの閲覧を要求したという指示を受信することと、
前記指示の前記受信に応答して、前記特定のコメントの前記テキストを前記クライアントマシンの前記ディスプレイ上に一時的に見せることと、をさらに含む、請求項１に記載の方法。

【請求項7】

前記特定のコメントの前記テキストを一時的に見せることに応答して、前記クライアントマシンの前記ディスプレイ上にフィードバック要素を提示させることと、
前記クライアントマシンから、前記フィードバック要素を介してユーザフィードバックを受信することであって、前記ユーザフィードバックが、前記ユーザが前記特定のコメントを前記第１のクラスラベルとして分類すると見なすかどうかを示す、受信することと、
少なくとも部分的に前記ユーザフィードバックに基づいて、前記機械学習モデルを再訓練し、前記複数のクラスラベルを使用してコメントを分類するように構成された新しく訓練された機械学習モデルを得ることと、をさらに含む、請求項６に記載の方法。

【請求項8】

前記特定のコメントの前記テキストを一時的に見せることに応答して、前記クライアントマシンの前記ディスプレイ上に制御要素を提示させることと、
前記クライアントマシンから、前記制御要素が選択されたという表示を受信することと、
前記制御要素が選択されたという前記表示に少なくとも部分的に基づいて、前記特定のコメントの前記テキストを前記クライアントマシンの前記ディスプレイ上に恒久的に見せることと、をさらに含む、請求項６に記載の方法。

【請求項9】

前記オンラインディスカッションフォーラムは、
前記クライアントマシン上で実行されているビデオゲームのゲーム内チャットセッション、または
ビデオゲームサービスプラットフォームと関連付けられたコミュニティメッセージボードのうちの少なくとも１つを含む、請求項１に記載の方法。

【請求項10】

システムであって、
１つ以上のプロセッサと、
コンピュータ実行可能命令を格納するメモリであって、前記コンピュータ実行可能命令が前記１つ以上のプロセッサによって実行されると、前記システムに、
単語埋め込みベクトルに少なくとも部分的に基づいて、コメントのコーパスから関連するテキストのクラスタを決定すること、
人間ラベル付け入力に基づいて、関連するテキストのクラスタ内のテキストの一部が特定のタイプの単語またはスピーチであると決定すること、
前記コメントのコーパス内で、前記関連するテキストのクラスタからのテキストを含むコメントのサブセットを識別すること、
前記コメントのコーパス内のコメントにラベル付けして、ラベル付けされたコメントを作成することであって、前記コメントのサブセットに含まれるコメントに、複数のクラスラベルうちの第１のクラスラベルがラベル付けされる、作成すること、
前記ラベル付けされたコメントのサンプリングされたセットを使用して機械学習モデルを訓練し、訓練された機械学習モデルを得ること、
前記訓練された機械学習モデルへの入力として、クライアントマシンのディスプレイ上に提示される未分類コメントを提供すること、
前記訓練された機械学習モデルからの出力として、前記第１のクラスラベルとして前記未分類コメントの分類を生成して分類されたコメントを得ること、および
前記分類されたコメントのテキストが前記クライアントマシンの前記ディスプレイ上で隠された状態で、前記クライアントマシンの前記ディスプレイ上に前記分類されたコメントを提示すること、を行わせる、メモリと、を備える、システム。

【請求項11】

前記コンピュータ実行可能命令は、前記１つ以上のプロセッサによって実行されると、前記システムに、
前記クライアントマシンのユーザを識別することと、
前記ユーザに関連付けられたユーザプロファイルのユーザ嗜好設定を決定することであって、前記ユーザ嗜好設定が、前記ユーザが前記第１のクラスラベルとして分類されたコメントを見たくないことを示す、決定することと、をさらに行わせ、
前記分類されたコメントの前記テキストは、前記ユーザプロファイルの前記ユーザ嗜好設定に少なくとも部分的に基づいて、前記クライアントマシンの前記ディスプレイ上で隠される、請求項１０に記載のシステム。

【請求項12】

前記クライアントマシンの前記ディスプレイ上に前記分類されたコメントを提示させることは、追加の分類されたコメントとともにオンラインディスカッションフォーラムにおいて前記分類されたコメントを提示させることを含む、請求項１０に記載のシステム。

【請求項13】

前記オンラインディスカッションフォーラムは、
前記クライアントマシンで実行されているビデオゲームのゲーム内チャットセッション、または
ビデオゲームサービスプラットフォームと関連付けられたコミュニティメッセージボードのうちの少なくとも１つを含む、請求項１２に記載のシステム。

【請求項14】

前記第１のクラスラベルが、有害な言葉、ヘイトスピーチ、または冒涜的な表現のうちの少なくとも１つに対応する、請求項１０に記載のシステム。

【請求項15】

前記コンピュータ実行可能命令は、前記１つ以上のプロセッサによって実行されると、前記システムに、
前記クライアントマシンから、前記クライアントマシンのユーザが前記分類されたコメントの前記テキストの閲覧を要求したという表示を受信することと、
前記表示の前記受信に応答して、前記分類されたコメントの前記テキストを前記クライアントマシンの前記ディスプレイ上に一時的に見せることと、
前記クライアントマシンから、
前記機械学習モデルを再訓練するために使用可能なユーザフィードバック、または
前記クライアントマシンの前記ディスプレイ上で前記分類されたコメントの前記テキストを恒久的に見せるという制御要素を前記ユーザが選択したことの指示、のうちの少なくとも１つを受信することと、をさらに行わせる、請求項１０に記載のシステム。

【請求項16】

方法であって、
コンピューティングシステムによって、かつ単語埋め込みベクトルに少なくとも部分的に基づいて、コメントのコーパス内に現れる関連するテキストのクラスタを決定することと、
人間ラベル付け入力に基づいて、関連するテキストのクラスタ内のテキストの一部が特定のタイプの単語またはスピーチであると決定することと、
前記コメントのコーパス内で、前記関連するテキストのクラスタからのテキストを含むコメントのサブセットを識別することと、
前記コメントのコーパス内のコメントにラベル付けしてラベル付けされたコメントを作成することであって、前記コメントのサブセットに含まれるコメントに、複数のクラスラベルの第１のクラスラベルがラベル付けされる、作成することと、
訓練された機械学習モデルを得るために、前記ラベル付けされたコメントのサンプリングされたセットを使用して機械学習モデルを訓練することと、
前記訓練された機械学習モデルへの入力として、クライアントマシンのディスプレイ上に提示される未分類テキストを提供することと、
分類されたテキストを得るために、前記訓練された機械学習モデルからの出力として、前記未分類テキストの分類を前記第１のクラスラベルとして生成することと、
前記分類されたテキストをモデレートすることと、を含む、方法。

【請求項17】

前記訓練された機械学習モデルが、第２の訓練された機械学習モデルであり、前記方法が、
前記コンピューティングシステムによって、前記コメントのコーパス内のテキストを前記単語埋め込みベクトルにマッピングすることと、
第１の訓練された機械学習モデルへの入力として前記単語埋め込みベクトルを提供することと、をさらに含み、
前記関連するテキストのクラスタを決定することが、前記第１の訓練された機械学習モデルからの出力に少なくとも部分的に基づく、請求項１６に記載の方法。

【請求項18】

前記クライアントマシンのユーザを識別することと、
前記ユーザに関連付けられたユーザプロファイルのユーザ嗜好設定を決定することであって、前記ユーザ嗜好設定が、前記ユーザが前記第１のクラスラベルとして分類されたテキストを見たくないことを示す、決定することと、をさらに含み、
前記分類されたテキストが、前記ユーザプロファイルの前記ユーザ嗜好設定に少なくとも部分的に基づいてモデレートされる、請求項１６に記載の方法。

【請求項19】

前記分類されたテキストを前記モデレートすることが、前記クライアントマシンの前記ディスプレイ上で隠されたテキストとして前記分類されたテキストを隠すことを含み、前記隠されたテキストが、
前記クライアントマシンで実行されているビデオゲームのゲーム内チャットセッション、または
ビデオゲームサービスプラットフォームと関連付けられたコミュニティメッセージボードのうちの少なくとも１つの一部として提示される、請求項１６に記載の方法。

【請求項20】

第１のクラスラベルが、有害な言葉、ヘイトスピーチ、または冒涜的な表現のうちの少なくとも１つに対応する、請求項１６に記載の方法。

【発明の詳細な説明】

【関連出願の相互参照】

【0001】

本願は、参照によりその全体が本明細書に組み込まれる、「ＣＬＡＳＳＩＦＩＣＡＴＩＯＮＡＮＤＭＯＤＥＲＡＴＩＯＮＯＦＴＥＸＴ」なる名称で２０１８年１１月２日に出願された米国特許出願第１６／１７９，７８１号の優先権を主張するＰＣＴ出願である。

【背景技術】

【0002】

ネットワークアクセス可能プラットフォームを利用するサービスプロバイダは、多くの場合、ユーザがプラットフォームの他のユーザとユーザ生成コンテンツを交換できるようにする。例えば、ビデオゲームの大規模なコレクションにユーザがアクセスするためのプラットフォームを提供するビデオゲームサービスプロバイダは、登録ユーザが、（例えば、ビデオゲームのプレイしながら、）オンラインメッセージボードにコメントを投稿すること、および／または他のユーザとのチャットセッションに参加することを可能にしてもよい。

【0003】

ユーザ生成コンテンツの大部分はユーザコミュニティによる消費に適切であるが、不適切なコンテンツを書く少数のユーザが多くの場合存在する。例えば、一部のユーザは、平均的なユーザに消費されるには不快および／または不適切と典型的に思われる有害な言語、ヘイトスピーチ、および／または冒涜的な表現を含むコメントを投稿する場合もある。ユーザがこのタイプの悪い行動をとると、適切な行動をとろうとする大多数のユーザのユーザ経験が低下する。

【0004】

ユーザコミュニティが大きい場合、人間のモデレーターはユーザ生成コンテンツを効果的にモデレートすることができない。さらに、不適切なコンテンツが他のユーザに見られる前に検閲する自動化されたアプローチが開発されているが、創造的なユーザは、多くの場合、意図的に単語のスペルを間違える（例えば、冒涜的な表現のスペルミス、ヘイトスピーチなど）、または、アルファベットの文字の代わりに記号を使用して、閲覧しているユーザにその意味を伝えながら有害な言語を偽装するなど、これらの自動化された検出システムを回避する方法を見つける。本明細書で行われる開示は、これらおよび他の考慮事項に関して提示されている。

【図面の簡単な説明】

【0005】

添付の図面を参照して詳細に説明する。図では、参照番号の左端の数字（複数可）は、参照番号が最初に現れる図を指す。異なる図における同じ参照番号の使用は、類似のまたは同一の構成要素または機能を示す。

【0006】

【図1】消費者ユーザ（複数可）のクライアントマシン（複数可）上に提示される前に、テキストを分類し、必要に応じてテキストをモデレートするように構成されたリモートコンピューティングシステムを含む例示的な環境を示す図である。テキストの分類には、単語の埋め込みに基づく機械学習アプローチが使用されてもよい。

【0007】

【図2】コメントのコーパスにラベル付けするために単語の埋め込みを使用する例示的な技術を示す図であり、ラベル付けされたコメントは、テキストを分類するよう機械学習モデル（複数可）を訓練するために使用可能である。

【0008】

【図3A】クライアントマシン上に提示される例示的なグラフィカルユーザインターフェース（ＧＵＩ）を示し、ＧＵＩは、モデレートされたテキストを有するコメントを含む。

【0009】

【図3B】ユーザがモデレートされたテキストに対してユーザ入力を提供し、ディスプレイ上にテキストを一時的に見せたときの図３Ａの例示的なＧＵＩを示す。

【0010】

【図3C】クライアントマシン上に提示された別の例示的なＧＵＩを示し、ＧＵＩは、テキストがモデレートされたことを示し、ユーザがモデレートされたテキストを閲覧するためのオプションを提供する。

【0011】

【図4】コメントのコーパスから生成された単語の埋め込みに基づいてテキストを分類するために機械学習モデル（複数可）を訓練するための例示的なプロセスのフロー図である。

【0012】

【図5】訓練された機械学習モデル（複数可）を利用して、クライアントマシン（複数可）に提示される前に、テキストを分類し、必要に応じてテキストをモデレートするための例示的なプロセスのフロー図である。

【0013】

【図6】識別されたユーザのユーザ嗜好設定に基づいて、必要に応じて、識別されたユーザのためにテキストをモデレートするための例示的なプロセスのフロー図である。

【0014】

【図7】モデレートされたテキストを一時的に見せ、そのモデレートされたテキストのリモートシステムの分類に関するユーザフィードバックを提供し、および／またはユーザのクライアントマシンのディスプレイ上にテキストを恒久的に見せることをユーザに可能にさせるための例示的なプロセスのフロー図である。

【発明を実施するための形態】

【0015】

本明細書では、中でも、テキストを分類し、その分類に基づいて、ユーザ（複数可）のクライアントマシン（複数可）にテキストが提示される前に、必要に応じて、テキストをモデレートするための技術、デバイス、およびシステムについて説明する。テキストは、単語埋め込みプロセスに基づく機械学習アプローチを使用して分類されてもよい。テキストが分類された後、あるクラスラベル（複数可）に割り当てられたテキストは、１つ以上のクラスのテキストが、このタイプのスピーチを見たくない聴衆によって見られないように、モデレートされ得る。例えば、有害な言語は、ほとんどのユーザにとって不快と見なされる可能性があり、本明細書に開示される技術およびシステムは、テキストを「有害」または「無害」として分類し、有害として分類されたテキストをモデレートすることで、ユーザがそのコンピュータ画面上にレンダリングされたテキストに有害な言語を見ないようにすることができる。しかしながら、本明細書に開示される技術およびシステムが任意のタイプのスピーチのテキストをモデレートするために任意のクラスのテキストにまで拡張され得ることは理解されたい。加えて、個々のユーザは、見たくないスピーチのカテゴリを定義することができ、テキストモデレーションはユーザ毎に行い、個々のユーザに対してテキストモデレーションをカスタマイズすることができる。

【0016】

開示された技術は、テキストなどのユーザ生成コンテンツをユーザが交換することができるネットワークアクセス可能プラットフォームを提供するリモートコンピューティングシステムによって、少なくとも部分的に実装されてもよい。例えば、リモートコンピューティングシステムは、ユーザによって生成されたコメント（例えば、他のユーザに送信されるメッセージ、オンラインメッセージボードに投稿されるコメントなど）を受信するように構成されてもよい。リモートコンピューティングシステムによって受信されたコメントはユーザによって生成されているため、リモートコンピューティングシステムで受信された際は本質的に未分類である。時間の経過とともに、リモートコンピューティングシステムは、コメントの大きなコーパスを収集してもよく、これは、コメントのコーパスで見つかったテキストを単語埋め込みベクトルにマッピングする単語の埋め込みを作成するために使用され得る。いくつかの実施形態では、これらの単語埋め込みベクトルは、比較的高次元のものであり得る（例えば、３００次元の埋め込みベクトル）。次に、単語埋め込みベクトルは、関連するテキスト（例えば、一緒にグループ化され得る類似している単語）のクラスタを決定するために使用され得る。

【0017】

これら関連するテキストのクラスタを使用して、コンピューティングシステムは、人間ラベル付け入力に基づいて、所与のクラスタ内のテキストの一部が特定のタイプの単語またはスピーチである（例えば、所与のクラスタにおける単語が有害な言語、冒涜的な表現、ヘイトスピーチなどを表現する）ことを決定してもよい。次に、コンピューティングシステムは、コメントのコーパス内で、所与のクラスタからのテキストを含むコメントのサブセットを識別し、識別されたサブセットに基づいてコメントのコーパス内のコメントを適切にラベル付けしてもよい。例えば、識別されたコメントのサブセットに、複数のクラスラベルの第１のクラスラベル（例えば、「有害」）がラベル付けされ、残りのコメントに複数のクラスラベルの第２のクラスラベル（例えば、「無害」）がラベル付けされてもよい。次に、ラベル付けされたコメントのサンプリングされたセットを使用して機械学習モデル（複数可）が訓練され、テキストを複数のクラスラベルの１つとして分類するように構成される訓練された機械学習モデル（複数可）が得られる。その後、コンピューティングシステムが１つ以上のクライアントマシンに提示される未分類のユーザ生成テキストを受信すると、コンピューティングシステムは、訓練された機械学習モデル（複数可）への入力として未分類のテキストを提供してもよく、複数のクラスラベルの一つとして未分類のテキストの分類を、訓練された機械学習モデル（複数可）からの出力として生成してもよい。第１のクラスラベルとして分類される任意のテキストは、そのテキストがクライアントマシン（複数可）のディスプレイ（複数可）上に提示されるときにモデレートされる（例えば、隠される）。

【0018】

本明細書に記載の技術およびシステムは、ユーザ生成コンテンツを交換することをユーザに可能にさせる任意のネットワークアクセス可能プラットフォームのユーザに対して改善されたユーザ経験を提供してもよい。これは、不快（例えば、有害な言語／スピーチ）と見なされるあるタイプ／クラスのスピーチに該当するテキストが、そのテキストによって不快になる可能性のあるユーザによって見られないようにモデレートされ得るからである。テキストをモデレートするための既存の自動化されたアプローチと比較して、技術とシステムも非常に柔軟である。これは、テキストを関連付けるための本明細書に記載する技術が、関連するテキストのクラスタを決定するためにシステムがテキストの意味論的な意味の理解を深めることを必要としない、単語埋め込みプロセスに基づくからである。これは、テキスト分類システムを回避する努力は、ユーザ生成コンテンツの作成に関してユーザの行動の変化に動的に適応するシステムの能力により、効果的でないことを意味する。例えば、本明細書に開示される技術およびシステムは、不適切または不快であると知られている単語の創造的なスペルミス、または分類システムを回避する試みとしてアルファベットの文字を記号で置換し、それでもテキストの消費するユーザに意図する意味論的な意味を伝えるテキストを検出するに十分に柔軟である。

【0019】

本明細書に記載する例の多くは、不適切な言語またはスピーチ（例えば、有害な言語、冒涜的な表現、および／またはヘイトスピーチ）に属するテキストの分類およびモデレーションを参照するが、本明細書に記載の技術およびシステムは、任意のタイプ／クラスのスピーチのテキストを分類し、モデレートするように構成されてもよく、システムは、テキストをモデレートする際の自身の嗜好に基づいて個々のユーザについてテキストをモデレートすることができるようにカスタマイズすることができることを理解されたい。

【0020】

図１は、テキストがユーザ（複数可）のクライアントマシン（複数可）上に提示される前に、テキストを分類し、必要に応じて、テキストをモデレートするように構成されたリモートコンピューティングシステムを含む例示的な環境１００を示す図である。テキストの分類には、以下により詳細に説明するように、単語埋め込みプロセスに基づく機械学習アプローチが使用されてもよい。

【0021】

ユーザ１０２のコミュニティは、１つ以上のクライアントマシン１０４に関連付けられてもよい。図１に示すクライアントマシン１０４（１）～（Ｎ）（集合的に１０４）は、ユーザ１０２がその上でプログラムを実行するために利用することができるコンピューティングデバイスを表す。これらのプログラムは、リモートコンピューティングシステム１０６へのアクセスを提供するクライアントアプリケーションおよび／またはウェブブラウザを含むがこれらに限定されないテキスト構成およびメッセージングプログラムを含んでもよい。いくつかの実施形態では、これらのアプリケーションのうちの１つ以上は、クライアントマシン１０４がその上で実行するためにビデオゲームプログラムをダウンロードおよび／または実行することを可能にする。クライアントマシン１０４は、プログラムを実行し、関連するディスプレイ上にテキストを含むグラフィックスをレンダリングするように構成される任意の好適なタイプのコンピューティングデバイスとして実装され得る。例えば、クライアントマシン１０４は、これらに限定されるものではないが、パーソナルコンピュータ（ＰＣ）、デスクトップコンピュータ、ラップトップコンピュータ、携帯電話（例えば、スマートフォン）、タブレットコンピュータ、ポータブルデジタルアシスタント（ＰＤＡ）、ウェアラブルコンピュータ（例えば、仮想現実（ＶＲ）ヘッドセット、拡張現実（ＡＲ）ヘッドセット、スマートグラスなど）、車載（例えば、車内）コンピュータ、テレビジョン（スマートテレビジョン）、セットトップボックス（ＳＴＢ）、ゲームコンソール、および／または任意の類似のコンピューティングデバイスを含み得る。さらに、クライアントマシン１０４は、それぞれのプラットフォーム（例えば、ハードウェアおよびソフトウェア）に関して多様であり得る。例えば、図１に示す複数のクライアントマシン１０４は、処理能力（例えば、中央処理ユニット（ＣＰＵ）モデル、グラフィックスプロセスユニット（ＧＰＵ）モデルなど）、グラフィックスドライババージョンなどに関して様々な性能を有する異なるタイプのクライアントマシン１０４を表してもよい

【0022】

クライアントマシン１０４は、コンピュータネットワーク１０８を介してリモートコンピューティングシステム１０６（本明細書において「コンピューティングシステム１０６」または「リモートシステム１０６」と短縮される場合もある）と通信してもよい。コンピュータネットワーク１０８は、これらに限定されるものではないが、インターネット、他のタイプのデータおよび／または音声ネットワーク、有線インフラストラクチャ（例えば、同軸ケーブル、光ファイバケーブルなど）、無線インフラストラクチャ（例えば、無線周波数（ＲＦ）、セルラ、衛星など）、および／または他の接続技術を表し得、および／または含み得る。コンピューティングシステム１０６は、場合によっては、コンピュータネットワーク１０８を介して維持され、かつアクセス可能なネットワークアクセス可能コンピューティングプラットフォームの一部でもよい。このようなネットワークアクセス可能コンピューティングプラットフォームは、「オンデマンドコンピューティング」、「サービスとしてのソフトウェア（ＳａａＳ）」、「プラットフォームコンピューティング」、「ネットワークアクセス可能プラットフォーム」、「クラウドサービス」、「データセンタ」などの用語を使用して参照されてもよい。

【0023】

いくつかの実施形態では、コンピューティングシステム１０６は、ビデオゲーム（およびそれと関連付けられるコンテンツ）をクライアントマシン１０４に配信する（例えば、ダウンロードする、ストリーミング配信するなど）ためのビデオゲームサービスを実装するビデオゲームプラットフォームとして機能するか、またはそれにアクセスする。一例では、クライアントマシン１０４は各々、その上にクライアントアプリケーションをインストールしてもよい。インストールされたクライアントアプリケーションは、ビデオゲームクラアイント（例えば、ビデオゲームをプレイするためのゲームソフトウェア）でもよい。クライアントアプリケーションがインストールされたクライアントマシン１０４は、コンピュータネットワーク１０８を介してコンピューティングシステム１０６からプログラム（例えば、ビデオゲーム）をダウンロードするか、ストリーミング配信するか、またはさもなければ受信するように構成されてもよい。プログラム（例えば、ビデオゲーム）が、クライアントマシン１０４上でダウンロードおよび実行のために個別に購入可能である直接購入モデル、サブスクリプションベースのモデル、プログラムが一定期間レンタルまたはリースされるか、ストリーミング配信されるか、またはさもなければクライアントマシン１０４に利用可能にされるコンテンツ配信モデルなど、任意のタイプのコンテンツ配信モデルをこの目的に利用することができる。したがって、個々のクライアントマシン１０４は、クライアントアプリケーションをロードすることによって実行可能な１つ以上のインストールされたビデオゲームを含んでもよい。

【0024】

インストールされたクライアントアプリケーション、および／または汎用ウェブブラウザはまた、リモートコンピューティングシステム１０６によって提供されるサービス（複数可）に登録されているクライアントマシン１０４のユーザ１０２に対して、リモートコンピューティングシステム１０６を介したメッセージング機能を有効にすることができる。例えば、リモートコンピューティングシステム１０６は、図１のクライアントマシン１０４（Ｎ）上に提示された例示的なオンラインディスカッションフォーラム１１０などの様々な形態のオンラインディスカッションフォーラムを実装することができる。オンラインディスカッションフォーラム１１０は、ユーザ１０２が、テキストを含むユーザ生成コンテンツを互いと交換することを可能にする。図１に示すオンラインディスカッションフォーラム１１０は、例示的な表現に過ぎず、リモートコンピューティングシステム１０６は、ユーザ１０２に対して任意の好適なタイプのオンラインディスカッションフォーラム１１０、例えば、これらに限定されるものではないが、メッセージボード、掲示板、消費者レビューサイト、ブログサイト、ソーシャルネットワーキングサイト、ゲーム内チャットセッション用のメッセージングアプリケーション（例えば、それらユーザ１０２のそれぞれのクライアントマシン１０４上でのビデオゲームの実行中のユーザ１０２間のチャットセッション）、および／または他の好適なタイプのオンラインディスカッションフォーラムを実装するように構成されてもよい。これらのオンラインディスカッションフォーラムのいずれにおいても、ユーザ１０２は、ユーザ生成コンテンツをオンラインディスカッションフォーラムに投稿するためにリモートコンピューティングシステム１０６に送信することができるテキストを含む独自のコンテンツを書くか、構成するか、生成するか、またはさもなければ作成してもよく、それにより、ユーザ生成コンテンツを１人以上の他のユーザ１０２がアクセス可能／閲覧可能にする。例えば、ユーザ１０２は、テキスト入力フィールドに自由形式のテキストを入力することでメッセージを構成することができ、これらのメッセージは、リモートシステム１０６を介して送信され、１人以上の他のユーザ１０２に（例えば、直接的な１対１のチャットセッション、グループチャットセッション、メッセージボードへのコメントの投稿などを使用して）利用可能にされる。

【0025】

図１は、リモートコンピューティングシステム１０６の例示的な構成要素を示すブロック図を示す。示された実装において、コンピューティングシステム１０６は、他の構成要素の中でも、１つ以上のプロセッサ１１２（例えば、中央処理ユニット（複数可）（ＣＰＵ（複数可）））と、メモリ１１４（または非一時的コンピュータ可読媒体１１４）と、通信インターフェース（複数可）１１６と、を含む。メモリ１１４（または非一時的コンピュータ可読媒体１１４）は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報を格納するための任意の方法または技術で実装される、揮発性および不揮発性メモリ、可換型および非可換型媒体を含み得る。そのようなメモリは、これらに限定されるものではないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリもしくは他のメモリ技術、ＣＤ－ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）もしくは他の光学ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージもしくは他の磁気ストレージデバイス、ＲＡＩＤストレージシステム、または所望の情報を格納するために使用することができ、かつコンピューティングデバイスによってアクセスすることができる任意の他の媒体を含む。コンピュータ可読媒体１１４は、メモリ１１４に格納された命令を実行するためにプロセッサ（複数可）１１２によってアクセス可能な任意の利用可能な物理媒体であってもよいコンピュータ可読記憶媒体（「ＣＲＳＭ」）として実装されてもよい。１つの基本的な実装では、ＣＲＳＭは、ランダムアクセスメモリ（「ＲＡＭ」）およびフラッシュメモリを含み得る。他の実装では、ＣＲＳＭは、これらに限定されるものではないが、読み取り専用メモリ（「ＲＯＭ」）、電気的に消去可能なプログラマブル読み取り専用メモリ（「ＥＥＰＲＯＭ」）、または所望の情報を格納することができ、かつプロセッサ（複数可）１１２によってアクセスすることができる任意の他の有形媒体を含んでもよい。ビデオゲームサービス１１８は、プロセッサ（複数可）１１２によって実行されると、コンピューティングシステム１０６に本明細書に記載の技術および動作を実施させる、メモリ１１４に格納された命令を表してもよい。ビデオゲームサービス１１８は、本明細書に記載の機能を可能にし得る実行可能な命令の例示的な例として提供されるが、ビデオゲームサービス以外の任意のタイプのサービスは、本明細書に記載の機能で構成されてもよく、本明細書に開示される技術およびシステムがビデオゲームサービス１１８を使用する限定された実装ではないことが理解されたい。

【0026】

図１に示されるように、コンピューティングシステム１０６は、ネットワーク１０８を介してクライアントマシン１０４から受信したコメント１２０（１）～（Ｎ）（集合的に１２０）を含むコメント１２０のコーパスを格納することができる。これらのコメント１２０は、任意の好適なメタデータ（例えば、コメント１２０を投稿したユーザ１０２のユーザアカウント、コメント１２０が投稿された時刻を示すタイムスタンプ、ユーザアカウントまたはコメント１２０を投稿したユーザ１０２のクライアントマシン１０４に関連付けられた場所データ）とともに、コンピューティングシステム１０６によって維持されてもよい。このようにして、コメント１２０のコーパスおよび関連するメタデータは、いつでもリモートコンピューティングシステム１０６にとってアクセス可能である。コメント１２０のコーパスは、コメント１２０のタイムスタンプに基づくなど、任意の好適な方法で整理されてもよく、これにより、システム１０６は、コメントを時系列的に整理することができる。コメント１２０は、テキスト（例えば、キャラクタ、単語、フレーズなど）、および場合によっては検索可能な他のコンテンツ（例えば、画像、ビデオなど）を含んでもよい。メタデータも検索可能であってもよい。このようにして、特定のテキスト（例えば、単語、フレーズなど）および／または特定のメタデータを含むコメント１２０は、検索クエリを使用して識別され得る。時間の経過とともに、ビデオゲームプラットフォームと頻繁に対話するユーザ１０２の大規模なコミュニティを考えると、リモートコンピューティングシステム１０６によって大量のコメント１２０を収集および維持することができる。大きさの感覚を与えるために、コメント１２０のコーパスは、１０億ものコメント１２０（すなわち、Ｎ≧１０億））を含むことができる。

【0027】

図１に示されるように、ビデオゲームサービス１１８は、他の可能な構成要素の中でも、単語埋め込み構成要素１２２、ラベル付け構成要素１２４、訓練構成要素１２６、テキスト分類器１２８、テキストプレゼンタ１３０、およびユーザ識別（ＩＤ）構成要素１３２を含み得、以下でより詳細に説明するように、その一部はサブ構成要素を含む。単語埋め込み構成要素１２２は、コメント１２０のコーパスから単語の埋め込みを作成するように構成されてもよい。「単語の埋め込み」は、語彙からの単語またはフレーズが、「単語埋め込みベクトル」１３４（１）～（Ｏ）（集合的に１３４）と呼ばれる実数のベクトルにマッピングされる、自然言語プロセス（ＮＬＰ）における言語モデリングおよび特徴学習技術の組に対する総称である。単語の埋め込みは、一般に、単語ごとに一次元の空間から、はるかに低い次元の連続ベクトル空間への数学的埋め込みを伴う。本開示の文脈において、単語埋め込み構成要素１２２は、コメント１２０のコーパス内のテキスト（例えば、単語）を単語埋め込みベクトル１３４にマッピングするように構成されてもよい。単語埋め込みベクトル１３４にマッピングされたテキストは、これらに限定されないが、単語、エングラム、または任意の他の好適なテキスト項目（例えば、フレーズ、文章、文書など）でもよい。さらに、本明細書で使用される「単語」は、認定された言語辞書で見つけられる文法的に正しい単語に限定されない。すなわち、本明細書で使用される「単語」は、スペルミスのある単語、または実際の単語に類似しているがそうではない文字、数字、および／または記号の組み合わせを含み得る。これが、開示されたテキスト分類システムを非常に柔軟にするものの一部であり、「単語」の意味論を理解することに依存しないため、辞書の定義が確立されている他の単語と単語の変形（例えば、偽単語）をクラスタ化し得る。

【0028】

単語埋め込み構成要素１２２は、訓練された機械学習モデル（複数可）１３６への入力として単語埋め込みベクトル１３４を提供し、訓練された機械学習モデル（複数可）１３６からの出力に基づいて、関連するテキスト１３８（１）～（Ｐ）のクラスタ（多くの場合「クラスタ」１３８と短縮される）を決定するようさらに構成されてもよい。単語埋め込み構成要素１２２によって使用される訓練された機械学習モデル（複数可）１３６は、以下の予測タスクを実施するよう訓練されてもよい：文脈（例えば、第１の単語のある一定数のスペース内に第２の単語）において第１のテキスト（例えば、第１の単語）および第２のテキスト（例えば、第２の単語）が与えられると、所与のテキスト（例えば、単語のペア）が一緒に属するか否かを予測する。クラスタ１３８の各々におけるテキストは、これらに限定されないが、単語、エングラム、フレーズ、文章、文書、または任意の他のテキスト単位を含んでもよい。図１は、単語埋め込み構成要素１２２によって生成された単語埋め込みデータ１４０を示す。ここで、単語埋め込みデータ１４０は、他の可能なデータの中でも、前述の単語埋め込みベクトル１３４および関連するテキストのクラスタ１３８を含む。

【0029】

いくつかの実施形態では、各単語埋め込みベクトル１３４は、比較的高次元ｉ、例えば、３００次元ベクトル１３４でもよく、これは、コメント１２０のコーパス内のテキスト部分（例えば、各単語）各々が、関連するテキスト１３８のクラスタを予測するために訓練された機械学習モデル（複数可）１３６によって使用されるｉ（例えば、ｉ＝３００）の特徴にマッピングされることを意味する。このようにして、単語の比較的大きなスペースおよび単語を配置できる場所が与えられると、訓練された機械学習モデル（複数可）１３６は、クラスタ１３８に一緒にグループ化され得るテキスト（例えば、単語）に関して正確な予測を行うように訓練される。例えば、訓練された機械学習モデル（複数可）１３６は、意味論の観点から単語が実際に何を意味するかといった理解を深めることを機械学習モデル（複数可）１３６に要求することなく、ベクトル空間における同様の位置／スポットに類似する単語を一緒に配置するよう訓練されてもよい。図示する例では、単語埋め込み構成要素１２２は、冒涜的な表現（例えば、正しいスペリングの罵り単語）と考えられる単語を、その単語の変形（例えば、罵り単語のスペルミス、文字を記号および／または数字で置換する罵り単語の変形）とクラスタ化してもよい。これにより、テキスト分類のフレームワークは、単語埋め込み構成要素１２２が、テキスト（例えば、同意語をグループ化するシステム）の意味論的な理解に基づいてテキストをクラスタ化するシステムによってさもなければ検出されない特定のタイプのスピーチの創造的な変形を「キャッチ」することができる点で、非常に柔軟になる。

【0030】

ラベル付け構成要素１２４は、人間ラベル付け入力１４２を受信するように構成されてもよい。この人間ラベル付け入力１４２は、公認なユーザ１４６のコンピューティングデバイス１４４を介してリモートコンピューティングシステム１０６に提供されてもよい。人間ラベル付け入力１４２に基づき、ラベル付け構成要素１２４は、所与のクラスタ１３８内のテキスト（例えば、１つ以上の単語）が特定のタイプの単語および／またはスピーチに対応するか決定することができる。例えば、公認のユーザ１４６は、罵り単語を「冒涜的な表現」としてラベル付けし、不快な単語を「ヘイトスピーチ」とラベル付けし、および／または暴力的な言語を「有害な言語」としてラベル付けするなどのタスクが与えられてもよい。これら人間によって作成されたラベルは、ラベル付け構成要素１２４によって「シード」ラベルとして使用されて、特定のクラスタ１３８内の人間がラベル付けした単語を識別し、次に、特定のクラスタ１３８内の単語を含むコメントを識別することによってコメント１２０のコーパス全体にわたってラベルを伝搬する。例えば、ラベル付け構成要素１２４は、人間ラベル付け入力１４２から、所与のクラスタ１３８内の特定の単語が「有害な」言語を表すことを決定し、この情報を用いて、ラベル付け構成要素１２４は、コメント１２０のコーパス内で、有害な言語に対応する特定の単語を含むクラスタ１３８からのテキスト（例えば、１つ以上の単語）を含むコメント１２０のサブセットを識別してもよい。次に、ラベル付け構成要素１２４は、その「有害な」ラベルを、コメント１２０のコーパスで識別されたコメント１２０のサブセットに伝播する一方で、サブセットから除外された残りのコメントが有害な言語を含まないことを示すよう残りのコメントを別のラベル（例えば、無害）でラベル付けしてもよい。本明細書に開示されるラベルの名前は単なる例示であり、任意の他の命名規則をクラスラベルに利用することができる。さらに、人間ラベル付け入力１４２は、不適切または不快なスピーチだけでなく、あらゆるタイプのスピーチにラベルを付けるために使用することができる。すなわち、任意のタイプ／クラスのスピーチは、コメント１２０のコーパスにおいて、モデレートされるスピーチのタイプ／クラスとして識別され得る。例えば、人間ラベル付け入力１４２が「食品」のトピックに関連する単語を識別するために使用される場合、ラベル付け構成要素１２４は、１人以上のユーザ１０２が食品のトピックに関連するコメント１２０を見ないよう、「食品」について論じるコメントを、モデレートされるクラスラベルとしてラベル付けすることができる。別の例として、人間ラベル付け入力１４２は、「ボッツ」によって生成され、スパム（例えば、ユーザにハイパーリンクをクリックするように誘惑するテキストを含む商用サイトへのハイパーリンク）と見なされるテキストを識別するために使用されてもよい。この場合、スパムを含むコメント１２０は、ユーザ１０２がスパムに晒されないようにモデレートされ得る。いずれにせよ、ラベル付け後、コメント１２０のコーパスにはラベル付けされたコメント１２０が含まれる。

【0031】

訓練構成要素１２６は、訓練された機械学習モデル（複数可）１４８を得るために訓練用データとしてコメント１２０のコーパス内のラベル付けされたコメント１２０のサンプリングされたセットを使用して機械学習モデル（複数可）を訓練するように構成されてもよい。訓練された機械学習モデル（複数可）１４８は、テキスト分類器１２８によって使用可能であり、テキスト（例えば、テキストを含むコメント）を複数のクラスラベルの１つとして分類する。機械学習は、一般に、機械学習モデル（複数可）を訓練するために、実施例のセット（「訓練用データ」と呼ばれる）を処理することを伴う。機械学習モデル（複数可）は、一度訓練されると、入力として新しいデータを受信し、出力として結果を推定または予測することができる学習済み機構である。例えば、訓練された機械学習モデルは、未知の入力（例えば、未知の画像）を複数のクラスラベル（例えば、画像を猫または犬としてラベル付けする）の１つとして分類するタスクが与えられた分類器を含むことができる。場合によっては、訓練された機械学習モデルは、マルチラベル分類タスクを実装するように構成される（例えば、画像を「猫」、「犬」、「アヒル」、「ペンギン」などとしてラベル付けする）。本開示の文脈において、訓練された機械学習モデル（複数可）１４８は、１つ以上のクライアントマシン１０４上に、（例えば、ユーザ１０２のクライアントマシン１０４にアクセス可能なオンラインディスカッションフォーラム１１０の一部として）提示される、未分類テキスト（例えば、ユーザ１０２によって書かれたテキストを含むコメント）の形態で未知の入力を受信してもよく、かつかつ訓練された機械学習モデル（複数可）１４８は、未分類テキストを複数のクラスラベルのうちの１つとして分類するタスクが与えられてもよい。クラスラベルが有害な言語に関わる場合、第１のクラスラベルは「有害」でもよく、第２のクラスラベルは「無害」でもよい。追加的に、または代替的に、訓練された機械学習モデルは、入力として受信した未知のデータに基づく分類タスクについて、確率、または確率のセットを推論するよう訓練され得る。本開示の文脈において、未知の入力は、再び、クライアントマシン（複数可）１０４のディスプレイ上に提示される未分類テキストであり得、訓練された機械学習モデル（複数可）１４８は、複数のクラスのうちの１つに属するテキストの確率を示すか、またはさもなければそれに関連するスコアを出力するタスクが与えられてもよい。例えば、スコアは、有害な言語として見なされるテキストを含むシステム１０６によって受信される未分類コメントの確率に関わってもよい。いくつかの実施形態では、訓練された機械学習モデル１４８によって出力されるスコアは、［０，１］の範囲で正規化される変数であり、１のスコアは、特定のタイプ／クラスのスピーチに対応する確率が高いテキストを示し得、０のスコアは、特定のタイプ／クラスのスピーチに対応する確率が低いテキストを示し得る。いくつかの実施形態では、訓練された機械学習モデル（複数可）１４８は、確率のセット（例えば、２つの確率）またはそれに関連するスコアを出力することができ、ここで、１つの確率（またはスコア）は、未分類のコメントが第１のクラスラベル（例、有害）として分類される確率に関わり、その他の確率（またはスコア）は、未分類のコメントが第２のクラスラベル（例、無害）として分類される確率に関わる。訓練された機械学習モデル（複数可）１４８によって出力されるスコアは、最終的な分類の決定（例えば、スコアが閾値より上の場合）に影響を与えるためにこれらの確率のいずれかと関連してもよい。コメント１２０が冒涜的な表現を含む例では、訓練された機械学習モデル（複数可）１４８は、出力として、第１のクラスラベル（例えば、「冒涜的な表現」）としてのコメントの分類、および／または第１のクラスラベルとして分類されたテキストをコメントが含む可能性に関わるスコアを生成してもよい。そのため、いくつかの実施形態では、機械学習モデル（複数可）１４８の出力は、コメントが特定のタイプのスピーチのテキストを含むか、またはテキストが特定のタイプの単語を含むことの信用度を示すことができる。

【0032】

訓練された機械学習モデル（複数可）１３６／１４８は、各々単一のモデルまたはベースレベルの機械学習モデルのアンサンブルを表してもよく、任意のタイプの機械学習モデルとして実装されてもよい。例えば、本明細書に記載の技術およびシステムと使用するのに好適な機械学習モデルは、これらに限定されないが、ニューラルネットワーク、ツリーベースモデル、サポートベクトルマシン（ＳＶＭ）、カーネル法、ランダムフォレスト、スプライン（例えば、多変量適応回帰スプライン）、隠れマルコフモデル（ＨＭＭ）、カルマンフィルタ（または拡張カルマンフィルタ）、ベイジアンネットワーク（またはベイジアン信念ネットワーク）、期待値最大化、遺伝子アルゴリズム、線形回帰アルゴリズム、非線形回帰アルゴリズム、ロジスティック回帰ベース分類モデル、またはそのアンサンブルを含む。「アンサンブル」は、加重平均または投票を使用するなどによって、出力（予測）が組み合わされる機械学習モデルの集まりを含み得る。アンサンブルの個々の機械学習モデルは、その専門知識が異なる可能性があり、アンサンブルは、アンサンブルの任意の個々の機械学習モデルよりも集合的に「スマートな」個々の機械学習モデルのコミティとして動作することができる。

【0033】

本明細書に記載の機械学習モデル（複数可）は、教師あり学習、教師なし学習、半教師あり学習、強化学習などのような任意の好適な学習技術を使用して訓練可能でもよい。訓練用データに含まれる特徴は、訓練用データの属性に関する定量化可能な情報のｎ次元特徴ベクトルの形式など、特徴のセットで表すことができる。訓練プロセスの一部として、訓練構成要素１２６は、機械学習に対して重みを設定してもよい。これらの重みは、訓練用データに含まれる特徴のセットに適用されてもよい。いくつかの実施形態において、訓練プロセス中に設定される重みは、機械学習モデル（複数可）の内部にあるパラメータに適用され得る（例えば、ニューラルネットワークの隠れ層内のニューロンに対する重み）。機械学習モデル（複数可）のこれらの内部パラメータは、特徴のセットのうちの個々の入力特徴と１対１でマッピングされ得るかまたはマッピングされ得ない。重みは、任意の所与の特徴またはパラメータが、訓練された機械学習モデルによって出力されるスコアに及ぼす影響を示し得る。

【0034】

テキストプレゼンタ１３０は、１つ以上のクライアントマシン１０４の関連するディスプレイ上にテキストを提示させるために、１つ以上のクライアントマシン１０４にテキストデータをサーブする（またはさもなければ送信する）ように構成されてもよい。例えば、テキストプレゼンタ１３０は、ネットワーク１０８を介して１つ以上のクライアントマシン１０４にデータを送信してもよく、該データは、クライアントマシン１０４で処理され、クライアントマシン１０４のディスプレイ上にコメント１２０（テキストを含む）を提示させる。テキストプレゼンタ１３０のテキストモデレーション構成要素１５０は、テキストがクライアントマシン（複数可）１０４のディスプレイ（複数可）上で容易に閲覧可能とならないよう、特定のクラスラベル（複数可）として分類されたテキストをモデレートするように構成されてもよい。例えば、テキストモデレーション構成要素１５０は、何らかの方法でテキストを隠すことで特定のクラスラベルのテキストをモデレートするように構成されてもよい。テキストをモデレートすることは、テキスト上に不透明な色（例えば、黒色）をレンダリングすること、テキストをぼやかして読めなくすること、テキストを含むコメント１２０からコメントを取り除くこと、またはそもそもクライアントマシン１０４にテキストデータを送信することを控えることを含み、クライアントマシン（複数可）１０４のディスプレイ（複数可）上にテキストを提示することを控えることを含んでもよいが、これらに限定されない。図１に示されるように、オンラインディスカッションフォーラム１１０は、テキスト上に不透明な色をレンダリングすることでモデレートされたテキストを有する、「ゲーマー２」からのコメントを含む。このようにして、クライアントマシン１０４（Ｎ）のユーザ１０２は、クライアントマシン１０４（Ｎ）のディスプレイ上に提示されたコメント１２０を閲覧することができるが、ユーザ１０２は、モデレートされたテキスト上にレンダリングされた不透明な色によって隠されたモデレートされたテキストを見ることはできない。

【0035】

ユーザＩＤ構成要素１３２は、ビデオゲームサービス１１８にアクセスするクライアントマシン１０４のユーザ１０２を識別するように構成されてもよい。ユーザＩＤ構成要素１３２は、ユーザ１０２を識別するために使用され得る資格証明書（例えば、ユーザ名、パスワード、生体データなど）のようなデータを含む、ユーザ１０２に対するユーザアカウントデータ１５２を維持してもよい。ユーザアカウントデータ１５２は、ユーザプロファイル１５４（１）～（Ｑ）（集合的に１５４）を含んでもよい。ユーザ嗜好設定は、ユーザプロファイル１５４と関連付けて維持され、ユーザ毎に、彼／彼女がモデレートしたいスピーチのタイプに関して個々のユーザ１０２の嗜好を決定することができる。例えば、ユーザ１０２は、ユーザ嗜好設定を介して、有害、ヘイトスピーチ、および／または冒涜的な表現として分類されるコメント１２０を見たくないことを特定してもよい。これらのユーザ嗜好設定は、ユーザ１０２のユーザプロファイル１５４と関連付けて格納され、ユーザ嗜好設定は、特定のユーザ１０２に対してテキストをモデレートするか否かを決定するために使用されてもよい。一般に、本明細書に開示される技術およびシステムは、ユーザ１０２が自身に提示されたテキストをモデレートすることに同意しない限りおよび同意されるまでテキストがモデレートされない同意プログラムを提供してもよい。いくつかの実施形態では、システムは、ヘイトスピーチのようなユーザコミュニティにおいて全員に不適切と思われるあるクラスのテキストをモデレートすることをデフォルトとし、他のクラスのテキストまたはスピーチを同意の選択肢として残すことができ、それによりユーザは表示されるコンテンツに対してどれだけのテキストをモデレートするかを制御することができる。

【0036】

リモートコンピューティングシステム１０６によって実装されるとして様々な構成要素が図１に示されているが、これらのうちの少なくともいくつかの構成要素は、本明細書に記載する機能の少なくともいくつかを行う目的のためにクライアントマシン１０４で実装され得ることを理解されたい。例えば、各クライアントマシン１０４上にインストールされたクライアントアプリケーションは、テキストがディスプレイ上に提示された場合に個々のクライアントマシン１０４でどのようにテキストがモデレートされるかを制御するように構成されたテキストモデレーション構成要素１５０を有するテキストプレゼンタ１３０を含んでもよい。

【0037】

図２は、コメント１２０のコーパスにラベル付けするために単語の埋め込みを使用する例示的な技術を示す図であり、ラベル付けされたコメント１２０はテキストを分類するよう機械学習モデル（複数可）１４８を訓練するために使用可能である。図２は、単語埋め込み構成要素１２２が、コメント１２０のコーパスからのテキスト（例えば、単語）を単語埋め込みベクトル１３４にマッピングする単語の埋め込みを作成した後のコメント１２０のコーパスからのテキスト（例えば、単語）の視覚化を表すドット視覚化２００を示す。ドット視覚化２００は、単語（例えば、上位１０，０００語）の視覚化を表すことができる。このドット視覚化２００は、Ｔ－分布確率近隣埋め込み（ｔ－ＳＮＥ）を使用して作成することができる。Ｔ－ＳＮＥは、二次元または三次元の低次元空間において視覚化するために高次元データを埋め込むのに非常に適した非線形次元低減技術である、視覚化のための機械学習アルゴリズムである。本開示の文脈では、類似しているベクトル１３４が近くの点によってモデル化され、類似していないベクトルが高い確率で離れた点によってモデル化されるように、ドット視覚化２００は、各ｉ次元（例えば、３００次元）の単語埋め込みベクトル１３４を二次元または三次元の点によってモデル化する。ｔ－ＳＮＥアルゴリズムは、２つの主要な段階を含み得る。第１に、確率分布は、類似しているオブジェクトが選ばれる可能性が高く、類似していない点が選ばれる可能性が非常に小さいように、高次元オブジェクトのペアに対して構成される。第２に、ｔ－ＳＮＥは、低次元マップ内の点に対して同様の確率分布を定め、マップ内の点の場所に対する２つの分布間のカルバックライブラー発散を最小化する。本開示の文脈では、類似しているコメント１２０のコーパスにおいて見つけられたテキスト（例えば、単語）は一緒にクラスタ化され、これらのクラスタ１３８はドット視覚化２００に示される。

【0038】

図２に示されるように、クラスタ１３８（Ｐ）は、例えば、単語Ｘ、単語Ｙ、および単語Ｚを含む単語のセットを含む。説明のために、クラスタ１３８（Ｐ）内の単語は有害な単語とみなされ、テキストモデレーション構成要素１５０は１つ以上のクライアントマシン１０４上に提示される前に有害な言語をモデレート（またはフィルタアウト）するように構成されているとする。図２の例では、公認のユーザ１４６は、リモートコンピューティングシステム１０６に人間ラベル付け入力１４２を提供してもよい。特に、公認のユーザ１４６は、（例えば、クラスラベル：「有害」を使用して）ワードＸを有害な単語としてラベル付けする場合がある。リモートコンピューティングシステム１０６は、この人間ラベル付け入力１４２に基づいて、単語Ｘがクラスタ１３８（Ｐ）内であると決定してもよい。言い換えれば、リモートコンピューティングシステム１０６は、クラスタ１３８（Ｐ）内の単語（複数可）が特定のタイプの単語またはスピーチであると決定することができ、この場合、単語Ｘが有害なスピーチまたは有害な単語として分類されると決定する。この情報を用いて、リモートコンピューティングシステム１０６は、コメント１２０のコーパス内において、クラスタ１３８（Ｐ）から少なくとも１つの単語（例えば、単語Ｘ、単語Ｙ、または単語Ｚのうちの１つ以上を含むコメント１２０）を含むコメント１２０のサブセットを識別してもよく、コンピューティングシステム１０６は、適切にコメント１２０のコーパスにラベル付けしてラベル付けされたコメントを作成することができる。この場合、コンピューティングシステム１０６は、識別されたサブセットに含まれるコメント１２０を第１のクラスラベル２０２（１）：有害、でラベル付けし、コメント１２０のコーパス内の残りのコメント１２０を第２のクラスラベル２０２（２）：無害、でラベル付けしてもよい。図２は、コメントＩＤ２０４によって識別可能なコメント１２０（１）～（Ｎ）を左の列に示し、コメント１２０に割り当てられたクラスラベル２０２を右の列に示す例示的な表を示し、各コメント１２０には複数のクラスラベル２０２のうちの１つが割り当てられている。

【0039】

図３Ａは、クライアントマシン１０４のディスプレイ上に提示される例示的なグラフィカルユーザインターフェース（ＧＵＩ）３００を示し、ＧＵＩ３００は、モデレートされたテキスト３０４を有するコメント１２０（２）を含む。ＧＵＩ３００は、限定的ではなく例として、クライアントマシン１０４のディスプレイ上に出力されるビデオゲームワールドのインスタンスとして示されている。例えば、ＧＵＩ３００は、クライアントマシン１０４のユーザ１０２がクライアントマシン１０４上で実行されているビデオゲームをプレイしている間に、クライアントマシン１０４のディスプレイ上にレンダリングされてもよい。加えて、オンラインディスカッションフォーラム１１０は、ＧＵＩ３００内に提示されてもよく、それによって、クライアントマシン１０４のユーザ１０２と、同じビデオゲームを同時にプレイしている他のユーザ１０２との間でコメント１２０を交換することが可能となる。これは、「ゲーム内チャット」として一般的に呼ばれ、共通のビデオゲームをプレイしているユーザ１０２はゲーム内チャットセッションを介してリアルタイムで互いと通信することができる。図３Ａに示されるゲーム内チャットセッションは、ユーザ１０２がオンラインでディスカッションに参加することを可能にするため、１つの例示的なタイプのオンラインディスカッションフォーラム１１０である。しかしながら、他のユーザ１０２による消費のためにユーザ１０２がコメント１２０を投稿することができるメッセージボードなど、他のタイプのオンラインディスカッションフォーラム１１０が本明細書で企図されていることを理解されたい。図３Ａでは、オンラインディスカッションフォーラム１１０は、クライアントマシン１０４のディスプレイの右上隅に与えられ、ビデオゲームコンテンツ上にレンダリングされる。オンラインディスカッションフォーラム１１０が提示されるウィンドウは、オンラインディスカッションフォーラム１１０が提示されたウィンドウの後ろにあるビデオゲームコンテンツの一部分をユーザ１０２が見ることを可能にするように、ある程度の透明性を有してレンダリングされてもよい。

【0040】

図３Ａの例では、クライアントマシン１０４のユーザ１０２は、コメントを構成するために（例えば、キーボードに）ユーザ入力を提供することができ、かつユーザ１０２は、制御要素（例えば、「投稿」ソフトボタン）を選択して、分類のためにコメントがリモートコンピューティングシステム１０６に送信されるようにすることができる。オンラインディスカッションフォーラム１１０は、テキスト分類器１２８によって分類され、クライアントマシン１０４のディスプレイ上に提示された複数のコメント１２０（１）～（３）を含むものとして示される。これらの個々のコメント１２０は、他のユーザ１０２によって構成された場合もある。本例において、「ゲーマー２」は、クライアントマシン１０４のユーザ１０２とは異なるユーザであり、ゲーマー２は、モデレートされるテキストとして分類されたテキスト３０４を含むコメント１２０（２）を投稿している。例えば、コメント１２０（２）のテキスト３０４は、有害な言語を含み得、その結果、テキスト分類器１２８は、コメント１２０（２）のテキスト３０４を特定のクラスラベル：有害、として分類するであろう。テキストモデレーション構成要素１５０は、クライアントマシン１０４のユーザ１０２がコメント１２０（２）の有害な言語に晒されないように、その分類に基づいてこのテキスト３０４をモデレートする。ここで、テキスト３０４のモデレーションは、テキスト３０４上に不透明な色をレンダリングすることでテキスト３０４を隠すことを伴うが、本明細書の他の場所で説明するような他のテキストモデレーション技術が実装されてもよい。

【0041】

図３Ｂは、ユーザ１０２がモデレートされたテキスト３０４に対してユーザ入力を提供し、クライアントマシン１０４のディスプレイ上でテキスト３０４を一時的に見せたときの、図３Ａの例示的なＧＵＩ３００を示す。図３Ｂの例では、ユーザ１０２は、マウスオーバーイベントの形態でユーザ入力を提供し、これは、コメント１２０（２）のモデレートされたテキスト３０４上でポインタ３０８を動かす（またはポインタ３０８を「ホバリング」する）ことを伴う。このユーザ入力に応答して、クライアントマシン１０４は、リモートコンピューティングシステム１０６に、ユーザ１０２がコメント１２０（２）のテキスト３０４を閲覧することを要求したという表示を送信することができる。この表示を受信したことに応答して、リモートシステム１０６は、コメント１２０（２）のテキスト３０４をクライアントマシン１０４のディスプレイ上で（例えば、クライアントマシン１０４に命令を送信することによって）一時的に見せてもよい。図３Ｂでは、テキスト３０４は「有害言語、有害言語…」として示され、ゲーマー２が、クライアントマシン１０４のユーザ１０２にとって不快となり得る有害言語を含むコメント１２０（２）をタイプしたことをほのめかす。ここでも、このタイプのテキストモデレーションはすべてのユーザに対して行われてもよく、または純粋に、あるタイプ／クラスのテキストがモデレートされることを望む場合にユーザが同意する同意プログラムでもよい。リモートシステム１０６がユーザ１０２のためにテキストをモデレートする場合でも、ユーザ１０２は、コメント１２０（２）のモデレートされたテキスト３０４を一時的に見せたいか否かを選ぶことができる。ユーザ１０２は、リモートシステム１０６にフィードバックを提供するために、またはコメント１２０（２）が不必要にモデレートされたと疑う場合に、モデレートされたテキスト３０４を一時的に見せることを選んでもよい。モデレートされたテキスト３０４は、ユーザ１０２がユーザ入力を提供しなくなることに応答して（例えば、ユーザ１０２がモデレートされたテキスト３０４上でのポインタ３０８のホバリングを停止するか、またはさもなければモデレートされたテキスト３０４からポインタ３０８を遠ざける場合）、テキスト３０４がモデレートされた（例えば、隠された）状態に戻されるという意味で、「一時的に」見せてもよい。

【0042】

モデレートされたテキスト３０４を一時的に見せることに応答して、リモートコンピューティングシステム１０６のテキストプレゼンタ１３０は、制御要素３１０（例えば、ソフトボタン「恒久的にテキストを見せる」）を提示させてもよい。図３Ｂにおけるこの例示的な制御要素３１０は、制御要素３１０が選択されると、もはやモデレートされなくなるように、モデレートされたテキスト３０４を恒久的に見せる。したがって、リモートシステム１０６がクライアントマシン１０４から制御要素３１０が選択されたとの指示を受信した場合、テキストプレゼンタ１３０は、テキストモデレーション構成要素１５０を介して、少なくともコメント１２０（２）がクライアントマシン１０４のディスプレイ上に提示されている間、クライアントマシン１０４のディスプレイ上でコメント１２０（２）のテキスト３０４を恒久的に見せてもよい。

【0043】

さらに、モデレートされたテキスト３０４を一時的に見せることに応答して、リモートコンピューティングシステム１０６のテキストプレゼンタ１３０は、クライアントマシン１０４のディスプレイ上にフィードバック要素３１２を提示させてもよい。このフィードバック要素３１２は、例として、図３Ｂに、ラジオボタンとして示され、その１つは、ユーザ１０２に提起された質問に応答してユーザフィードバックを提供するために選択可能である。例えば、フィードバック要素３１２は、一時的に見せたテキストを有するコメント１２０（２）が実際に有害か（ユーザの観点から）をユーザ１０２に尋ねることができる。ユーザ１０２は、ラジオボタンの１つを選択することでこのフィードバック質問に「はい」または「いいえ」の答えを提供することができる。図３Ｂの例において、ユーザ１０２は「はい」ラジオボタンを選択し、これに応答して、リモートシステム１０６は、ユーザ１０２がコメント１２０（２）をクラスラベル：有害、として分類されると見なしていることを示すユーザフィードバックをクライアントマシン１０４から受信する。このユーザフィードバックの受信に基づいて、訓練構成要素１２６は、テキスト分類器１２８の機械学習モデル（複数可）１４８を再訓練してもよい。機械学習モデル（複数可）１４８を再訓練するために、訓練構成要素１２６が単一のユーザからのユーザフィードバック以上のものを利用してもよいことを理解されたい。したがって、多くの異なるユーザ１０２は、それぞれのクライアントマシン１０４上に提示されるそれぞれのフィードバック要素３１２を介してユーザフィードバックを提供してもよく、このユーザフィードバックは集められ、機械学習モデル（複数可）１４８を再訓練して複数のクラスラベルのうちの１つとしてテキストを分類するための訓練用データとして使用されてもよい。

【0044】

図３Ｃは、クライアントマシン１０４上で提示される別の例示的なＧＵＩ３１４を示し、ＧＵＩはテキストがモデレートされたことを示し、ユーザがモデレートされたテキストを閲覧するためのオプションを提供する。本例では、モデレートされたテキストを含むコメント１２０（２）を提示する代わりに、テキストモデレーションは、モデレートされたテキストと一緒にコメント１２０（２）を提示することを控えることを伴う。このシナリオでは、テキストプレゼンタ１３０は、オンラインディスカッションフォーラム１１０のエリア３１６に示されるように、メッセージを提示させ、メッセージはテキストがモデレートされたことをユーザ１０２に通知し、ユーザ１０２に「コメントを閲覧する」ソフトボタンにユーザ入力を提供してモデレートされたテキストの閲覧を要求するオプションを提供する。図３Ｃのエリア３１６においてユーザ１０２が「コメントを閲覧する」ソフトボタンを選択すると、モデレートされたテキストが一時的に見せられてもよい。例えば、ＧＵＩ３１４は、図３Ｂに示されるＧＵＩ３００ラインにそったものに移行してもよく、モデレートされたテキスト３０４をユーザに見せ、制御要素３１０および／またはフィードバック要素３１２は、図３Ｂを参照して説明したように、ディスプレイ上に提示される。

【0045】

本明細書で説明するプロセスは、ロジックフローグラフ内のブロックの集合として示され、ハードウェア、ソフトウェア、またはそれらの組み合わせで実装できる一連の動作を表す。ソフトウェアのコンテキストでは、ブロックは、１つ以上のプロセッサによって実行されると、列挙された動作を実施するコンピュータ実行可能命令を表す。一般に、コンピュータ実行可能命令は、特定の機能を実施するかまたは特定の抽象データタイプを実装するルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。動作が記載される順序は、限定として解釈されることを意図するものではなく、任意の数の記載されたブロックが任意の順序で、および／または並列に組み合わされて、プロセスを実装することができる。

【0046】

図４は、コメント１２０のコーパスから生成された単語埋め込みに基づいてテキストを分類するために機械学習モデル（複数可）１４８を訓練するための例示的なプロセス４００のフロー図である。考察目的で、プロセス４００を前の図を参照して説明する。

【0047】

４０２において、リモートコンピューティングシステム１０６の単語埋め込み構成要素１２２は、単語埋め込みベクトル１３４に少なくとも部分的に基づいて、コメント１２０のコーパスからの関連するテキスト１３８のクラスタを決定してもよい。関連するテキスト１３８のクラスタは、関連する単語１３８のクラスタでもよい。ブロック４０２においてクラスタ１３８を決定することは、サブブロック４０４～４０６によって示されるように、サブ動作を含んでもよい。

【0048】

４０４において、単語埋め込み構成要素１２２は、コメント１２０のコーパス内のテキストを単語埋め込みベクトル１３４にマッピング（またはさもなければ関連付け）してもよい。いくつかの実施形態では、ブロック４０４におけるマッピングは、コメント１２０のコーパスから単語埋め込みベクトル１３４に個々の単語をマッピングすることを含む。４０６において、単語埋め込み構成要素１２２は、第１の訓練された機械学習モデル（複数可）１３６への入力として単語埋め込みベクトル１３４を提供してもよい。４０８において、単語埋め込み構成要素１２２は、第１の訓練された機械学習モデル（複数可）１３６からの出力に少なくとも部分的に基づいて関連するテキスト（例えば、単語）１３８のクラスタを決定してもよい。

【0049】

４１０において、リモートコンピューティングシステム１０６のラベル付け構成要素１２４は、関連するテキスト１３８のクラスタ内のテキスト（例えば、１つ以上の単語）の一部分が特定のタイプの単語またはスピーチであると、人間ラベル付け入力１４２に基づいて決定してもよい。例えば、人間ラベル付け入力１４２は、所与のクラスタ内の単語が有害な単語、ヘイトスピーチ、および／または冒涜的な表現であることを示してもよい。

【0050】

４１２において、ラベル付け構成要素１２４は、コメント１２０のコーパス内で、関連するテキスト１３８のクラスタ（例えば、関連する単語１３８のクラスタ）からのテキスト（例えば、少なくとも１つの単語）を含むコメントのサブセットを識別してもよい。言い換えれば、ラベル付け構成要素１２４は、人間ラベル付け単語、または単語埋め込みに応じてその人間ラベル付け単語とクラスタされる任意の単語を含むコメント１２０をラベル付け構成要素１２４が検索するため、特定のタイプの単語またはスピーチを含むコメント１２０を識別することができる。

【0051】

４１４において、ラベル付け構成要素１２４は、コメント１２０のコーパス内のコメント１２０にラベル付けしてラベル付けされたコメントを作成してもよい。サブブロック４１６によって示されるように、ブロック４１４におけるラベル付けは、第１のクラスラベル：有害、のような複数のクラスラベルのうちの１つで識別されたコメントのサブセットに含まれるコメント１２０にラベル付けすることを含んでもよい。

【0052】

４１８において、訓練構成要素１２６は、第２の訓練された機械学習モデル（複数可）１４８を得るために、ラベル付けされたコメントのサンプリングされたセットを訓練用データとして使用して機械学習モデルを訓練してもよい。このようにして、第２の訓練された機械学習モデル（複数可）１４８は、複数のクラスラベルを使用してテキスト（例えば、テキストを含むコメント）を分類するように構成される。サブブロック４２０によって示されるように、ブロック４１８における訓練は、ラベル付けされたコメントのコーパスから、訓練用データとしてラベル付けされたコメントのサンプリングされたセットを選択することを含んでもよい。この目的のために任意の好適な選択アルゴリズムが利用されてもよい。ブロック４１８からブロック４０２への戻り矢印によって示されるように、プロセス４００は機械学習モデル（複数可）１４８を再訓練する目的で反復することができる。この再訓練は、新しいコメント１２０がコメントのコーパスに追加されたとき、定期的な間隔で、更新されたコメント１２０のコーパスに基づいて、または任意の他の好適な基準に基づいて新しい単語埋め込みが作成されたときに生じ得る。

【0053】

図５は、訓練された機械学習モデル（複数可）１４８を利用して、クライアントマシン（複数可）１０４に提示される前に、テキストを分類し、必要に応じてテキストをモデレートするための例示的なプロセス５００のフロー図である。考察目的で、プロセス５００を前の図を参照して説明する。さらに、図４および図５におけるオフページ参照「Ａ」によって示されるように、プロセス５００は、機械学習モデル（複数可）１４８が複数のクラスラベルの１つとしてテキストを分類するよう訓練された後、プロセス４００のブロック４１８から続いてもよい。

【0054】

５０２において、リモートコンピューティングシステム１０６は、１つ以上のクライアントマシン１０４から、クライアントマシン（複数可）１０４のディスプレイ（複数可）上に提示される未分類テキストを受信してもよく、未分類テキストはユーザが生成するテキストである。例えば、未分類テキストは、１人以上のユーザ１０２によって書かれ投稿された１つ以上の未分類コメント１２０でもよく、リモートシステム１０６はオンラインディスカッションフォーラム１１０においてコメント（複数可）１２０を提示するタスクを与えられてもよい。いくつかの実施形態では、受信したテキストは、オンラインディスカッションフォーラム１１０（例えば、チャットセッション、メッセージボードなど）に参加している１人以上の他のユーザ１０２に１つ以上のメッセージで送信される。

【0055】

５０４において、リモートシステム１０６のテキスト分類器１２８は、（第２の）訓練された機械学習モデル（複数可）１４８への入力として未分類テキストを提供してもよい。未分類テキストは、テキストを含む未分類コメント（複数可）１２０でもよい。

【0056】

５０６において、テキスト分類器１２８は、複数のクラスラベルの１つとして未分類テキスト（例えば、テキストを含む未分類コメント（複数可）１２０）の分類を、訓練された機械学習モデル（複数可）１４８からの出力として生成し、分類されたテキスト（例えば、１つ以上の分類されたコメント１２０）を得てもよい。例えば、分類されたテキストは、モデレートされるスピーチのタイプ（例えば、有害なスピーチ、ヘイトスピーチ、および／または冒涜的な表現）に対応する第１のクラスラベルとしての特定のコメント１２０の分類を含んでもよい。いくつかの実施形態では、テキスト分類は、テキストが特定のタイプの単語またはスピーチである（または含むコメント（複数可）１２０）確率に関するスコアとして訓練された機械学習モデル（複数可）１４８から出力され、テキストは、スコアが閾値を満たすかまたは超えていることに少なくとも部分的に基づいて特定のクラスラベルとして分類されてもよい。

【0057】

５０８において、リモートコンピューティングシステム１０６のテキストプレゼンタ１３０は、クライアントマシン（複数可）１０４のディスプレイ（複数可）上に分類されたテキスト（例えば、テキストを含む分類されたコメント（複数可）１２０）を提示させ得る。サブブロック５１０によって示されるように、リモートコンピューティングシステム１０６のテキストモデレーション構成要素１５０は、モデレートされるべき特定のクラスラベルとして分類される任意の分類されたコメント（複数可）１２０のテキストをモデレートしてもよい。例えば、有害な言語、ヘイトスピーチ、または冒涜的な表現に対応する第１のクラスラベルとして分類されたテキストに関して、そのテキストはモデレートされてもよい。いくつかの実施形態では、ブロック５１０におけるテキストのモデレーションは、特定のコメント１２０のテキストをぼかしてテキストを判読しがたく／読めなくする、またはテキスト上に不透明な色をレンダリングしてテキストを隠すなどによってクライアントマシン（複数可）１０４のディスプレイ（複数可）上のモデレートされたテキストを隠すことを含んでもよい。いくつかの実施形態では、ブロック５０８における分類されたテキストの提示は、クライアントマシン（複数可）１０４上で実行されているビデオゲームのゲーム内チャットセッション、またはビデオゲームサービスプラットフォームと関連付けられるコミュニティメッセージボードのようなオンラインディスカッションフォーラム１１０において分類されたテキスト（例えば、テキストを含む分類されたコメント（複数可）１２０）を提示することを伴う。このようにして、モデレートされたテキストは、モデレートされていないテキストと提示されてもよい。例えば、モデレートされたテキストを含むコメントには、モデレートされたテキストを有するコメントと同じクラスラベルとして分類されなかった追加の分類されたコメントが提示されてもよい。いくつかの実施形態では、ブロック５１０においてテキストをモデレートすることは、（例えば、そもそもクライアントマシン１０４にテキストデータを送信することを控えることによって）モデレートされたテキストを提示することを控えることを含む。

【0058】

図６は、識別されたユーザのユーザ嗜好設定に基づいて、必要に応じて、識別されたユーザについてテキストをモデレートするための例示的なプロセス６００のフロー図である。考察目的で、プロセス６００を前の図を参照して説明する。さらに、図４および図６におけるオフページ参照「Ａ」によって示されるように、プロセス６００は、機械学習モデル（複数可）１４８が複数のクラスラベルの１つとしてテキストを分類するよう訓練された後、プロセス４００のブロック４１８から続いてもよい。

【0059】

６０２において、リモートコンピューティングシステム１０６のユーザＩＤ構成要素１３２は、クライアントマシン１０４のユーザ１０２を識別してもよい。例えば、ユーザ１０２は、資格証明書を使用してリモートシステム１０６のビデオゲームサービス１１８にログインする、および／またはユーザ１０２をサービスに自動的にログインさせるクライアントアプリケーションを立ち上げてもよい。

【0060】

６０４において、識別されたユーザ１０２と関連付けられるユーザプロファイル１５４のユーザ嗜好設定が決定されてもよい。これらのユーザ嗜好設定は、リモートシステム１０６のビデオゲームサービス１１８を使用している間にユーザ１０２が見ることを望まないタイプ／クラスのスピーチを示してもよい。例えば、ユーザ１０２は、ヘイトスピーチを見ることを回避したいと望む場合もあり、そのため、ユーザ１０２は彼／彼女自身のユーザ嗜好設定においてヘイトスピーチが、ユーザがテキストで（例えば、他のユーザからのユーザ生成コメント１２０で）見ることを望まないタイプのスピーチに対応するクラスラベルであると特定してもよい。

【0061】

６０６において、リモートコンピューティングシステム１０６は、識別されたユーザ１０２のクライアントマシン１０４のディスプレイ上に提示される未分類テキストを１つ以上のクライアントマシン１０４から受信してもよく、未分類テキストはユーザが生成するテキストである。例えば、未分類テキストは、１人以上のユーザ１０２によって書かれ投稿された１つ以上の未分類コメント１２０でもよい。

【0062】

６０８において、リモートシステム１０６のテキスト分類器１２８は、（第２の）訓練された機械学習モデル（複数可）１４８への入力として未分類テキストを提供してもよい。これは、テキストを含む未分類コメント（複数可）１２０を訓練された機械学習モデル（複数可）１４８への入力として提供することを伴ってもよい。

【0063】

６１０において、テキスト分類器１２８は、複数のクラスラベルのうちの１つとして未分類テキスト（例えば、テキストを含む未分類コメント（複数可）１２０）の分類を、訓練された機械学習モデル（複数可）１４８からの出力として生成し、分類されたテキスト（例えば、１つ以上の分類されたコメント１２０）を得てもよい。例えば、分類されたコメント１２０は、特定のタイプのスピーチ（例えば、ヘイトスピーチ）に対応する第１のクラスラベルとして特定のコメント１２０の分類を含んでもよい。いくつかの実施形態では、テキスト（例えば、テキストを含むコメント（複数可）１２０）の分類は、テキストが特定のタイプの単語またはスピーチである（またはコメント（複数可）１２０が含む）確率に関するスコアとして訓練された機械学習モデル（複数可）１４８から出力され、テキストは、スコアが閾値を満たすかまたは超えていることに少なくとも部分的に基づいて特定のクラスラベルとして分類されてもよい。

【0064】

６１２において、テキストモデレーション構成要素１５０は、特定のクラスラベルとして分類されたテキスト（例えば、コメント１２０のテキスト）をモデレートするか否かを、識別されたユーザについてブロック６０４で決定されたユーザ嗜好設定に基づいて、決定してもよい。例えば、第１のクラスラベルがヘイトスピーチに対応し、識別されたユーザ１０２に対するユーザ嗜好設定が、ユーザ１０２がヘイトスピーチを見ることを望まないと特定すると、ブロック６１２における決定は肯定決定となり、プロセス６００はブロック６１２からブロック６１４に「はい」の経路を辿り、テキストモデレーション構成要素１５０はユーザ嗜好設定（例えば、ヘイトスピーチとして分類されたテキスト）に応じて第１のクラスラベルとして分類されたテキストをモデレートすることができる。

【0065】

６１２において、テキストモデレーション構成要素１５０が、ユーザ嗜好設定に基づいて、（例えば、テキストがヘイトスピーチでない場合）ユーザ嗜好設定に応じてモデレートされるクラスラベルとしてテキストが分類されないことを決定すると、プロセス６００はブロック６１２からブロック６１６に「いいえ」の経路を辿り、テキストをモデレートすることなく、識別されたユーザ１０２のクライアントマシン１０４のディスプレイ上にテキストが提示され、それによって識別されたユーザ１０２にテキストが可視化（または閲覧可能に）される。

【0066】

図７は、モデレートされたテキストを一時的に見せ、そのモデレートされたテキストのリモートシステムの分類に関するユーザフィードバックを提供し、および／またはユーザのクライアントマシンのディスプレイ上にテキストを恒久的に見せることをユーザに可能にさせるための例示的なプロセス７００のフロー図である。考察目的で、プロセス７００を前の図を参照して説明する。さらに、図５、図６、および図７におけるオフページ参照「Ｂ」によって示されるように、プロセス７００は、少なくともいくらかのテキストがモデレートされた状態で、クライアントマシンのディスプレイ上にテキストが提示された後、プロセス５００のブロック５０８から、またはプロセス６００のブロック６１６から続けられてもよい。

【0067】

７０２において、リモートコンピューティングシステム１０６のテキストモデレーション構成要素１５０は、ユーザ１０２がモデレートされたテキスト（例えば、コメント１２０のテキスト）の閲覧を要求したことを示すユーザ入力（例えば、マウスオーバーイベント）をユーザ１０２のクライアントマシン１０４で受信したか否かを決定してもよい。このような７０２における表示は、ポインタ３０８がモデレートされたテキスト３０４上で動かされる（「ホバリングされる」）図３Ｂに示す例のようなマウスオーバーイベント、または図３Ｃに示されるように「コメントを閲覧する」ソフトボタンのユーザ選択でもよい。７０２においてリモートシステム１０６が、ユーザがモデレートされたテキストの閲覧を要求したというどの表示もどのクライアントマシン１０４からも受信しない場合、プロセス７００は、ブロック７０２における決定を反復することでブロック７０２から「いいえ」の経路を辿ってもよい。どこかの時点で、リモートシステム１０６は、クライアントマシン１０４のユーザ１０２がモデレートされたテキストの閲覧を要求したとの表示をクライアントマシン１０４から受信してもよく、プロセス７００はブロック７０２からブロック７０４に「はい」の経路を辿ってもよい。

【0068】

７０４において、ブロック７０２における表示の受信に応答して、テキストモデレーション構成要素１５０は、モデレートされたテキスト３０４（例えば、特定のコメント１２０（２）のモデレートされたテキスト）をクライアントマシン１０４のディスプレイ上で一時的に見せてもよい。ここでも、モデレートされたテキストを「一時的に」見せることは、ユーザがモデレートされたテキストの閲覧を要求していることを示すユーザ入力をユーザが提供し続ける限り（例えば、ポインタ３０８がモデレートされたテキスト３０４上をホバリングし続ける間）、テキストを見せる（または提示する）ことを含んでもよい。

【0069】

７０６において、７０４においてモデレートされたテキストを一時的に見せることに応答して、リモートシステム１０６はクライアントマシン１０４のディスプレイ上にフィードバック要素３１２を提示させてもよい。７０８において、ユーザフィードバックがフィードバック要素３１２を介して受信されると、訓練構成要素１２６は、そのユーザフィードバック（おそらく他のユーザから得た他のユーザフィードバックとともに）を使用して機械学習モデル（複数可）１４８を再訓練してもよい。この再訓練は結果として、複数のクラスラベルを使用してテキスト（例えば、テキストを含むコメント）を分類するように構成された新しく訓練された機械学習モデル（複数可）１４８を生じる。例えば、ブロック７０８においてフィードバック要素３１２を介して受信されたユーザフィードバックは、ユーザ１０２がモデレートされたテキスト（例えば、モデレートされたテキストを含むコメント）を特定のクラスラベルに分類するべきと見なすか否かを示してもよい。したがって、ユーザは、モデレートされたテキストが特定のタイプのスピーチ（例えば、有害なスピーチ、ヘイトスピーチ、冒涜的な表現など）として分類されると信じるか否かを示すように尋ねられてもよく、このユーザフィードバックは、テキスト分類のために機械学習モデル（複数可）１４８を再訓練するために使用可能な訓練用データとして（他のユーザフィードバックと集められて）扱われてもよい。

【0070】

７１０において、テキストモデレーション構成要素１５０は、ブロック７０２において検出されたユーザ入力（例えば、マウスオーバーイベント）が止められたか、または停止されたかを決定してもよい。ユーザ入力（例えば、マウスオーバーイベント）が止められていない場合、プロセス７００は、ブロック７１０から「いいえ」の経路を辿って、ユーザ入力が止められるまでブロック７１０における決定を反復する。モデレートされたテキストを見せることを要求するユーザ入力が止められたとの指示をクライアントマシン１０４から受信すると、プロセス７００は、ブロック７１０からブロック７１２まで「はい」の経路を辿り、テキストが再びモデレートされ、プロセス７００がブロック７０２に戻ることで反復する。このようにして、ユーザ１０２は、モデレートされたテキストを一時的に見せるためにモデレートされたテキスト上にポインタ３０８をホバリングし得、一旦ユーザがモデレートされたテキストからポインタ３０８を遠ざけるとモデレートされた状態に戻る。

【0071】

７１４において、ブロック７０４においてモデレートされたテキストを一時的に見せることに応答して、リモートシステム１０６は、クライアントマシン１０４のディスプレイ上に制御要素３１０を提示させてもよい。７１６において、ユーザが制御要素３１０を選択したか否かが決定される。そうである場合、リモートコンピューティングシステム１０６は、制御要素３１０が選択されたとの指示をクライアントマシン１０４から受信し、プロセス７００はブロック７１６からブロック７１８まで「はい」の経路を辿ってもよく、テキストモデレーション構成要素１５０は、少なくともテキスト（例えば、テキストを含むコメント）がクライアントマシン１０４のディスプレイ上に提示されている間、クライアントマシン１０４のディスプレイ上にモデレートされたテキストを恒久的に見せる。

【0072】

７１６において、リモートシステム１０６が、制御要素３１０が選択されたとの指示をクライアントマシン１０４から受信しない場合、プロセス７００はブロック７１６からブロック７２０まで「いいえ」の経路を辿ってもよく、テキストモデレーション構成要素１５０はブロック７０２において検出されたユーザ入力（例えば、マウスオーバーイベント）が止められたか、または停止されたか否かを決定してもよい。ユーザ入力（例えば、マウスオーバー）が継続される場合、プロセス７００はブロック７２０から「いいえ」の経路を辿って、制御要素３１０が選択されたか否かについてブロック７１６における決定を反復してもよい。制御要素３１０がまだ選択されていないと仮定すると、モデレートされたテキストを見せることを要求するユーザ入力が止められていることに応答して、プロセス７００はブロック７２０からブロック７１２まで「はい」の経路を辿ってもよく、テキストは再びモデレートされ、プロセス７００はブロック７０２に戻ることによって反復される。

【0073】

本明細書では、テキストモデレーションは、テキスト分類がどのようにして使用され得るかの主要な例として説明されているが、本明細書に記載の単語埋め込みプロセスによって作成された関連する単語１３８のクラスタから他の洞察が収集されてもよいことは理解されたい。例えば、推奨エンジンは、ユーザ１０２のユーザプロファイル１５４と関連付けられるテキストを分析して、関連する単語１３８のクラスタに基づいて製品（例えば、ビデオゲーム）をユーザ１０２に推奨することができるかを決定してもよい。例えば、所与のクラスタ１３８は、他のビデオゲームの名前を含んでもよい他の単語とグループ化される人気のあるビデオゲームの名前を含んでもよい。例えば、コメント１２０において第１のビデオゲームに言及するユーザは、関心のある他のビデオゲームを論じてもよく、コメント１２０のコーパスがビデオゲームやその側面を論じるこれらのタイプのコメントを含む場合、クラスタ１３８は、あるビデオゲームのタームが他のビデオゲームのタームと関連付けられると決定し、それにより、推奨エンジンにビデオゲームライブラリまたはカタログにおけるビデオゲーム間のマッピングを作成させることを可能にする。したがって、推奨エンジンがユーザアカウントデータ１５２から、特定のユーザ１０２が第１のビデオゲームに関心があると決定すると、推奨エンジンは、推奨エンジンが関連する単語１３８のクラスタを使用して決定した異なるビデオゲームをユーザ１０２に推奨することができる。

【0074】

本主題は、構造的特徴に特有の言語で説明されているが、添付の特許請求の範囲に定義された主題は、必ずしも説明された特定の特徴に限定されるものではないことを理解されたい。むしろ、特定の特徴は、特許請求の範囲を実装する例解的な形態として開示される。

【図1】