特許第6987969号(P6987969)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー・インタラクティブエンタテインメント エルエルシーの特許一覧

特許6987969自然言語処理のためのネットワークベースの学習モデル
<>
  • 特許6987969-自然言語処理のためのネットワークベースの学習モデル 図000002
  • 特許6987969-自然言語処理のためのネットワークベースの学習モデル 図000003
  • 特許6987969-自然言語処理のためのネットワークベースの学習モデル 図000004
  • 特許6987969-自然言語処理のためのネットワークベースの学習モデル 図000005
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6987969
(24)【登録日】2021年12月3日
(45)【発行日】2022年1月5日
(54)【発明の名称】自然言語処理のためのネットワークベースの学習モデル
(51)【国際特許分類】
   G10L 15/10 20060101AFI20211220BHJP
   G10L 15/22 20060101ALI20211220BHJP
【FI】
   G10L15/10 500T
   G10L15/22 453
【請求項の数】21
【全頁数】13
(21)【出願番号】特願2020-508313(P2020-508313)
(86)(22)【出願日】2018年7月12日
(65)【公表番号】特表2020-531895(P2020-531895A)
(43)【公表日】2020年11月5日
(86)【国際出願番号】US2018041837
(87)【国際公開番号】WO2019040197
(87)【国際公開日】20190228
【審査請求日】2020年4月13日
(31)【優先権主張番号】15/682,381
(32)【優先日】2017年8月21日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】518187455
【氏名又は名称】ソニー・インタラクティブエンタテインメント エルエルシー
(74)【代理人】
【識別番号】100105924
【弁理士】
【氏名又は名称】森下 賢樹
(72)【発明者】
【氏名】ヤング、スティーヴン
【審査官】 渡部 幸和
(56)【参考文献】
【文献】 特表2016−534616(JP,A)
【文献】 特開2001−268669(JP,A)
【文献】 CHEN, Yung-Nung,DETECTING ACTIONABLE ITEMS IN MEETINGS BY CONVOLUTIONAL DEEP STRUCTURED SEMANTIC MODELS,2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU),IEEE,2016年02月11日,pp.375-382
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−15/34
G06F 40/00−40/58
(57)【特許請求の範囲】
【請求項1】
自然言語処理のためのネットワークベースの学習モデルのシステムであって、前記システムが、
現在のコンテンツタイトルとのユーザ相互作用の間、現在の条件のセットを検出し、前記現在の条件のセットのもとでユーザによって行われた音声発話を取り込むマイクロフォンを含むエンドユーザデバイスと、
ネットワークサーバであって、
前記検出された条件のセットに関する情報及び前記音声発話のデジタル録音を受信するネットワークインターフェイスと、
メモリであって、
前記現在のコンテンツタイトルとの追跡されたユーザ相互作用と、
各カスタマイズされたワークフローが前記ユーザによって以前に取られた1つまたは複数のアクション及び前記ユーザが前記アクションのそれぞれを取った1つまたは複数の条件を特定する1つまたは複数のルールに関連付けられた、前記ユーザにカスタマイズされた複数の異なるワークフローと
に関する情報を格納する前記メモリと、
メモリに格納された命令を実行するプロセッサであって、前記プロセッサによる前記命令の実行が、
前記格納されたユーザ相互作用情報に基づいて前記音声発話を解釈し、
前記音声発話の前記解釈及び前記ルールの特定された一つに対応する前記検出された条件のセットに基づいて前記ユーザの意図を識別し、
前記識別された意図に基づいて予測を行い、前記予測が、前記ユーザにカスタマイズされた前記複数のワークフローから選択されたワークフローに対応し、前記選択されたワークフローが、前記検出された条件のセットに合致する条件を特定するルールに関連付けられ、
前記現在のコンテンツタイトルに関して前記選択されたワークフローに関連付けられた前記アクションを実行し、前記実行されるアクションが、前記選択されたワークフローに基づく、
前記プロセッサと
を含む、前記ネットワークサーバとを含む、システム。
【請求項2】
前記ネットワークサーバが、1つまたは複数のソーシャルコンタクトとの現在の相互作用中に、前記音声発話が行われたことを識別する、請求項1に記載のシステム。
【請求項3】
前記プロセッサが、前記ソーシャルコンタクトとの前記相互作用に重み付けすることによって前記意図を識別する、請求項2に記載のシステム。
【請求項4】
重みが、前記ソーシャルコンタクトが属するカテゴリにさらに基づく、請求項3に記載のシステム。
【請求項5】
前記プロセッサが、前記音声発話の分析に基づいて、前記ソーシャルコンタクトが属する前記カテゴリをさらに識別する、請求項4に記載のシステム。
【請求項6】
前記プロセッサが、前記ソーシャルコンタクトのうちの1つの少なくとも1つのユーザプロファイルの分析に基づいて、前記ソーシャルコンタクトが属する前記カテゴリをさらに識別する、請求項5に記載のシステム。
【請求項7】
前記カテゴリが、対象者属性、再生されているコンテンツタイトル、コンテンツタイトルが再生される頻度、前記コンテンツタイトルのレベル、及びコミュニティメンバシップのうちの少なくとも1つに基づく、請求項4に記載のシステム。
【請求項8】
前記プロセッサが、前記ソーシャルコンタクトのうちの1つによる各ネットワークコンテンツとの相互作用に関する情報を重み付けすることによって、前記意図を識別する、請求項2に記載のシステム。
【請求項9】
前記ネットワークサーバが、ネットワークコンテンツとの現在の相互作用中に前記音声発話が行われたことを識別し、前記現在の相互作用に関する前記格納されたユーザ相互作用情報をさらに更新する、請求項1に記載のシステム。
【請求項10】
格納された各ワークフローが、異なるタイプの意図に関連付けられている、請求項1に記載のシステム。
【請求項11】
自然言語処理のためのネットワークベースの学習モデルの方法であって、前記方法が、
情報をメモリに格納することであって、前記情報が、
現在のコンテンツタイトルとの追跡されたユーザ相互作用と、
各カスタマイズされたワークフローが前記ユーザによって以前に取られた1つまたは複数のアクション及び前記ユーザが前記アクションのそれぞれを取った1つまたは複数の条件を特定する1つまたは複数のルールに関連付けられた、前記ユーザにカスタマイズされた複数の異なるワークフローと
に関する、前記情報をメモリに格納することと、
前記現在のコンテンツタイトルとのユーザ相互作用の間、現在の条件のセットを検出することと、
前記現在の条件のセットのもとで前記ユーザによって行われた音声発話のデジタル録音を取り込むことと、
メモリに格納された命令を実行することであって、プロセッサによる前記命令の実行が、
前記格納されたユーザ相互作用情報に基づいて前記音声発話を解釈し、
前記音声発話の前記解釈及び前記ルールの特定された一つに対応する前記検出された条件のセットに基づいて前記ユーザの意図を識別し、
前記識別された意図に基づいて予測を行い、前記予測が、前記ユーザにカスタマイズされた前記複数のワークフローから選択されたワークフローに対応し、前記選択されたワークフローが、前記検出された条件のセットに合致する条件を特定するルールに関連付けられ、
前記現在のコンテンツタイトルに関して前記選択されたワークフローに関連付けられた前記アクションを実行し、前記実行されるアクションが、前記選択されたワークフローに基づく、方法。
【請求項12】
1つまたは複数のソーシャルコンタクトとの現在の相互作用中に前記音声発話が行われたことを識別することをさらに含む、請求項11に記載の方法。
【請求項13】
前記意図を識別することが、前記ソーシャルコンタクトとの前記相互作用に重み付けすること含む、請求項12に記載の方法。
【請求項14】
前記重み付けすることが、前記ソーシャルコンタクトが属するカテゴリにさらに基づく、請求項13に記載の方法。
【請求項15】
前記音声発話の分析に基づいて、前記ソーシャルコンタクトが属する前記カテゴリを識別することをさらに含む、請求項14に記載の方法。
【請求項16】
前記ソーシャルコンタクトのうちの1つの少なくとも1つのユーザプロファイルの分析に基づいて、前記ソーシャルコンタクトが属する前記カテゴリを識別することをさらに含む、請求項15に記載の方法。
【請求項17】
前記カテゴリが、対象者属性、再生されているコンテンツタイトル、コンテンツタイトルが再生される頻度、前記コンテンツタイトルのレベル、及びコミュニティメンバシップのうちの少なくとも1つに基づく、請求項14に記載の方法。
【請求項18】
前記意図を識別することが、前記ソーシャルコンタクトのうちの1つによる各ネットワークコンテンツとの相互作用に関する情報を重み付けすることを含む、請求項12に記載の方法。
【請求項19】
ネットワークコンテンツとの現在の相互作用中に前記音声発話が行われたことを識別し、前記現在の相互作用に関する前記格納されたユーザ相互作用情報を更新することをさらに含む、請求項11に記載の方法。
【請求項20】
格納された各ワークフローが、異なるタイプの意図に関連付けられている、請求項11に記載の方法。
【請求項21】
自然言語処理のためのネットワークベースの学習モデルの方法を実行するために、プロセッサによって実行可能なプログラムを具体化した非一時的コンピュータ可読媒体であって、前記方法が、
情報をメモリに格納することであって、前記情報が、
現在のコンテンツタイトルとの追跡されたユーザ相互作用と、
各カスタマイズされたワークフローが前記ユーザによって以前に取られた1つまたは複数のアクション及び前記ユーザが前記アクションのそれぞれを取った1つまたは複数の条件を特定する1つまたは複数のルールに関連付けられた、前記ユーザにカスタマイズされた複数の異なるワークフローと
に関する、前記情報をメモリに格納することと、
前記現在のコンテンツタイトルとのユーザ相互作用の間、現在の条件のセットを検出することと、
前記現在の条件のセットのもとで前記ユーザによって行われた音声発話のデジタル録音を取り込むことと、
前記格納されたユーザ相互作用情報に基づいて前記音声発話を解釈することと、
前記音声発話の前記解釈及び前記ルールの特定された一つに対応する前記検出された条件のセットに基づいて前記ユーザの意図を識別することと、
前記識別された意図に基づいて予測を行うことであって、前記予測が、前記ユーザにカスタマイズされた前記複数のワークフローから選択されたワークフローに対応前記選択されたワークフローが、前記検出された条件のセットに合致する条件を特定するルールに関連付けられる、前記予測を行うことと、
前記現在のコンテンツタイトルに関して前記選択されたワークフローに関連付けられた前記アクションを実行することであって、前記実行されるアクションが、前記選択されたワークフローに基づく、前記実行することと、を含む、非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本技術は、自然言語処理に関し、より詳細には、ネットワーク(例えば、ゲームネットワーク)相互作用に基づく自然言語処理のための学習モデルに関する。
【背景技術】
【0002】
現在のコンテンツプラットフォームは、様々なコンテンツ及びそのようなコンテンツに関連するオプションへのアクセスを提供し得る。その結果、そのようなプラットフォームは、構成、設定、及び移動が複雑になり得る。音声コマンドを使用し得るが、そのような音声コマンドにも、従来のワークフローに対応する複合ワークフローまたは複雑なワークフローが必要になり得る。例えば、ゲームのプレーヤは、ユーザデバイス120を使用して、ネットワークサーバ130でホストされ得るゲームにアクセスし得る。ゲームは、ネットワーク内の他のプレーヤと共にプレイされ得る。例えば、プレーヤAは、友人であるプレーヤB及びプレーヤCとゲームをプレイすることを望み得る。従来のワークフローを使用して同じことを実行するには、プレーヤがゲームを選択し(例えば、プレーヤのリストをスクロールすることを含み得る)、プレーヤBに招待状を送信するように指定し(例えば、プレーヤのリストをスクロールすることを含み得る)、プレーヤCに招待状を送信するように指定する必要があり得る。各ステップを実行することを口頭で要求することは、必ずしも効率的ではない場合がある。したがって、音声コマンドの使用は、従来のワークフローより遅くないにしても、従来のワークフローと同等に遅くなる場合がある。
【0003】
したがって、当技術分野では、自然言語処理のためのネットワークベースの学習モデルのシステム及び方法が必要である。
【発明の概要】
【0004】
本発明の実施形態は、自然言語処理のためのネットワークベースの学習モデルのシステム及び方法を含む。情報は、ネットワークコンテンツとのユーザ相互作用に関するメモリの格納情報であり得る。さらに、ユーザによって行われた音声発話のデジタル録音を取り込み得る。音声発話は、格納されたユーザ相互作用情報に基づいて解釈され得る。ユーザの意図は、解釈に基づいて識別され得て、予測は識別された意図に基づいて行われ得る。予測はさらに、選択されたワークフローに対応し得る。
【0005】
様々な実施形態は、自然言語処理のためのネットワークベースの学習モデルのシステムを含み得る。そのようなシステムは、ユーザ及びネットワークサーバによって行われた音声発話を取り込むマイクロフォンを含むエンドユーザデバイスを含み得る。そのようなネットワークサーバは、通信ネットワークを介して音声発話のデジタル録音を受信するネットワークインターフェイス、ネットワークコンテンツとのユーザ相互作用に関する情報を格納するメモリ、及び格納されたユーザ相互作用情報に基づいて音声発話を解釈し、音声発話の解釈に基づいてユーザの意図を識別し、選択されたワークフローに対応する予測を、識別された意図に基づいて予測するための命令を実行するプロセッサを含み得る。
【0006】
追加の実施形態は、自然言語処理のためのネットワークベースの学習モデルの方法を含み得る。そのような方法は、ネットワークコンテンツとのユーザ相互作用に関する情報をメモリに格納すること、ユーザによって行われた音声発話のデジタル録音を取り込むこと、格納されたユーザ相互作用情報に基づいて音声発話を解釈すること、音声発話の解釈に基づいてユーザの意図を識別すること、及び選択されたワークフローに対応する予測を、識別された意図に基づいて予測することを含み得る。
【0007】
さらなる実施形態は、上述したような自然言語処理のためのネットワークベースの学習モデルの方法を実行するために、プロセッサによって実行可能なプログラムを具体化した非一時的コンピュータ可読記憶媒体を含む。
【図面の簡単な説明】
【0008】
図1】自然言語処理のためのネットワークベースの学習モデルのシステムが実装され得るネットワーク環境を示す。
【0009】
図2】自然言語処理のためのネットワークベースの学習モデルで使用し得る例示的なサーバを示す。
【0010】
図3】自然言語処理のためのネットワークベースの学習モデルの例示的な方法を示すフローチャートである。
【0011】
図4】使用され得る例示的な電子エンターテイメントシステムである。
【発明を実施するための形態】
【0012】
本発明の実施形態は、自然言語処理のためのネットワークベースの学習モデルのシステム及び方法を含む。情報は、ネットワークコンテンツとのユーザ相互作用に関するメモリの格納情報であり得る。さらに、ユーザによって行われた音声発話のデジタル録音を取り込み得る。音声発話を構成する単語及び品詞は、自然言語処理モデルに基づいて識別され得る。そのような単語は、格納されたユーザ相互作用情報などの文脈情報に基づいてさらに解釈され得る。ユーザの意図は、解釈に基づいて識別され得て、予測は識別された意図に基づいて行われ得る。予測はさらに、選択されたワークフローに対応し得る。
【0013】
コンテンツネットワークでは、一部のコンテンツ相互作用はさらに、ソーシャル要素を有し得る。例えば、ゲームは1つまたは複数のソーシャルコンタクトと共にプレイされ得る。そのようなゲームの過程で、他のプレーヤとの相互作用には、コンテンツに直接的または間接的に関連する「トラッシュトーク」及び他の会話が含まれ得る。
【0014】
図1は、コンテンツのソーシャルベースの管理のためのシステムが実装され得るネットワーク環境100を示す。ネットワーク環境100は、1つまたは複数のクライアントデバイス120A〜Cがネットワークサーバ130及びサードパーティシステム140と通信し得る通信ネットワーク110を含み得る。
【0015】
通信ネットワーク110は、ローカルの専用ネットワーク(例えば、イントラネット)であり、及び/または代替的に、より大きな広域ネットワーク(例えば、クラウド)の一部であることが好ましい。通信ネットワーク110は、インターネットなどの広域ネットワーク(WAN)に通信可能に結合されたローカルエリアネットワーク(LAN)とすることができる。インターネットは、ネットワークサービスプロバイダを介して接続されたユーザ間でインターネットプロトコル(IP)データの送信及び交換を可能にする、相互接続されたコンピュータ及びサーバの広範なネットワークである。ネットワークサービスプロバイダの例には、公衆交換電話網、ケーブルサービスプロバイダ、デジタル加入者線(DSL)サービスのプロバイダ、または衛星サービスプロバイダがある。通信ネットワーク110は、ネットワーク環境100の様々な構成要素間の通信を可能にする。
【0016】
ユーザは、限定されないが、通信ネットワーク110を介して通信できる汎用コンピュータ、携帯電話、スマートフォン、パーソナルデジタルアシスタント(PDA)、ポータブルコンピューティングデバイス(例えば、ラップトップ、ネットブック、タブレット)、デスクトップコンピューティングデバイス、ハンドヘルドコンピューティングデバイス、タブレットデバイス、ゲームコンソール、スマートテレビ、または任意の他のタイプのコンピューティングデバイスを含むことができる、任意の数の異なる電子コンピューティングデバイス120A〜Cを使用し得る。そのようなデバイス120A〜Cは、限定されないが、ダウンロードされたサービスの場合に適切であり得るメモリカードまたはディスクドライブなどの他の記憶媒体からデータにアクセスするように構成されることが好ましい。そのようなデバイス120A〜Cは、限定されないが、ネットワークインターフェイス及びメディアインターフェイス、非一時的コンピュータ可読記憶装置(メモリ)、及びメモリに格納され得る命令を実行するためのプロセッサなどの標準ハードウェアコンピューティング構成要素を含むことが好ましい。例示的なコンピューティングデバイス120は、図4に関してさらに図示及び説明される。いくつかの実施形態では、コンピューティングデバイス120は、ユーザ入力を取り込み得る周辺機器(例えば、音声スイッチヘッドセット上のマイクロフォン)及びソフトウェア(例えば、メッセージングアプリケーション)に関連付けられ得る。
【0017】
ネットワークサーバ130は、ネットワークインターフェイス及びメディアインターフェイス、非一時的コンピュータ可読記憶装置(メモリ)、及び命令を実行するか、またはメモリに格納され得る情報にアクセスするためのプロセッサなどの標準的なハードウェアコンピューティング構成要素を含む、当技術分野で既知の任意のタイプのサーバまたは他のコンピューティングデバイスを含み得る。複数のサーバの機能は、単一のサーバに統合され得る。前述のサーバ(または統合サーバ)のいずれも、特定のクライアント側、キャッシュ、またはプロキシサーバの特性を持ち得る。これらの特性は、サーバの特定のネットワーク配置またはサーバの特定の構成に依存し得る。
【0018】
ネットワークサーバ130は、ネットワーク環境100内のユーザデバイス120に利用可能な様々なデジタルメディアコンテンツをホストし得る。(例えば、ユーザデバイス120の)各ユーザは、ユーザが自分のコンテンツのライブラリにアクセスすることを可能にするアカウントに関連付けられ得る。そのようなコンテンツは、他のコンテンツと同様に、ユーザによる相互作用を可能にする相互作用コンテンツであり得る。例えば、ゲームは複数のプレーヤによって同時にプレイされてもよいし、プレーヤ間の相互作用を含んでもよい。
【0019】
サードパーティシステム140は、様々なリソースのいずれかをネットワークサーバ130に提供して、自然言語処理、解釈、及びユーザの意図の識別を支援し得る。そのようなリソースは、発話が関連する(例えば、ゲームのリクエストを処理する際の)特定の文脈に関する情報を提供し得る。
【0020】
ネットワークサーバ130がコンテンツをホストするので、ネットワークサーバ130は、そのようなコンテンツを含む様々なユーザ相互作用を監視及び追跡し得る。そのような相互作用は、ネットワークコンテンツ、ならびにソーシャルコンタクトとの相互作用を含み得る。そのような相互作用は、行動、やり取りされるコミュニケーション、取られたアクション、発生するイベント、到達したマイルストーン(例えば、ポイント、レベル、トロフィ、実績など)、ならびにコンテンツ及び/またはソーシャルコンタクトに対する他の識別可能な反応を含み得る。さらに、コンテンツサーバ130は、ジャンル、開発者、プレイ要件(例えば、チームメンバの数、チームメンバの役割)などを含む、ユーザが相互作用するコンテンツタイトル(例えば、特定のゲーム)の詳細を追跡し得る。
【0021】
カスタマイズされたワークフローの学習モデルは、ワークフローの予測的選択を可能にするために、ネットワーク内のユーザアクティビティ(例えば、コンテンツ及びソーシャル相互作用)に基づいて開発され得る。したがって、ネットワークサーバ130は、ネットワーク内のユーザ相互作用に関する情報を追跡し得る。そのような相互作用は、ネットワークコンテンツ、ならびにソーシャルコンタクトとの相互作用を含み得る。追跡された相互作用情報により、特定のコンテンツタイトル、特定のコンテンツタイトルのジャンル、特定のソーシャルサークル、及び相互作用が行われる他の文脈に特有であり得る動作及び傾向のパターンが明らかにされ得る。学習モデルは、経時的に開発され得て、サードパーティサービス140によって提供されるリソース及び情報に部分的に依存し得る。
【0022】
さらに、ネットワークサーバ130は、ユーザが相互作用するソーシャルコンタクトに関する情報をさらに格納し得る。そのようなソーシャルコンタクトは、ネットワーク環境100内のユーザでもあり、ユーザによってそのように指定され得る。いくつかの実施形態では、ユーザは、親密度、共有アクティビティのタイプ、共通のコンテンツのタイプ、共通の関心、定義されたチームまたは氏族(タイトルに固有であってもなくてもよい)、または任意のその他のカテゴリによって、ソーシャルコンタクトをさらに特徴付け得る。ソーシャルコンタクトはまた、対象者属性データ、コミュニティメンバシップ、ユーザのライブラリ内の各コンテンツタイトル、コンテンツタイトルが再生される頻度などを含む、そのコンタクトを特徴付けるために使用され得る様々な他のパラメータに関連付けられ得る。
【0023】
ユーザデバイス120に関連付けられたマイクロフォンは、そのようなユーザ相互作用の過程の間で音声発話を取り込み得る。ネットワークサーバ130は、現在のユーザ相互作用、ならびに、いくつかの共通点を共有し得る過去のユーザ相互作用の文脈で音声発話のデジタル記録を分析し得る。そのような分析は、デジタル録音を復号化すること、音声発話をトランスクライブすること、キーワードまたは意図の他の指標を識別するために音声発話の単語を評価すること、1つまたは複数の可能な解釈を識別すること、及びユーザ相互作用情報の文脈に基づいて可能な解釈を絞り込むことを含み得る。各解釈はさらに、特定のワークフローを進めるための異なる意図に関連付けられ得る。次いで、ネットワークサーバ130は、音声発話の解釈に基づいて、ユーザが選択したいワークフローに関する予測を行い得る。
【0024】
図2は、自然言語処理のためのネットワークベースの学習モデルで使用され得る例示的なサーバ200を示す。サーバ200は、ネットワークサーバ130に関して上述したように、様々な標準ハードウェアを含み得るが、自然言語処理のためのネットワークベースの学習モデルは、自動音声認識210、ボイストゥテキスト220、自然言語プロセッサ調整230、エージェントディスパッチャ240(条件アクションルール250A及びアクションワークフロー250Bを含む)、学習モデル260、及び予測エンジン270など、より専門的な構成要素をさらに含み得る。
【0025】
自動音声認識210は、ユーザ発話のデジタル録音などのデジタル音声録音の復号化を可能にする。そのような発話は、例えば、mp3ファイルとして取り込まれてもよいが、任意のデジタル音声形式(例えば、ストリーミング音声)を使用してもよい。ボイストゥテキスト220は、デジタル録音を分析し、話された単語を識別し、識別された単語に基づいてテキストを生成するための、当技術分野で既知の任意のトランスクリプションアプリケーションを含み得る。
【0026】
自然言語プロセッサ調整230は、自然言語の表現を評価するために人工知能、フィルタ、分類器、機械学習技術などを利用できる任意のプロセッサを含み得る。そのような−学習モデル260に格納されている情報によって通知され得る−自然言語プロセッサ調整230により、ネットワークサーバ200は、ユーザによって行われた音声発話の可能な解釈を絞り込み、その音声発話を行う際のユーザのより具体的な意図を識別できる。いくつかの実施形態では、自然言語プロセッサ230は、どの特定の意図がユーザによって話されているかを識別する際に、最近行われた相互作用、頻度、相手(例えば、ソーシャルコンタクト)、コンテンツまたはソーシャルコンテンツの特性、識別可能なパターン及び傾向などを含む、様々な要因を重み付けし得る。自然言語プロセッサ調整230はさらに、様々なサードパーティサービス140を利用して、ユーザによって話された単語の解釈及び異なる文脈での意図の識別を支援し得る。
【0027】
エージェントディスパッチャ240は、そのようなサードパーティサービス140を管理し、特定のタスクまたはリクエストを支援するために、どのサードパーティサービス140を呼び出すかを具体的に識別し得る。エージェントディスパッチャ240はさらに、コンテンツ相互作用に関連して実行される特定の条件アクションルール250A及び応答アクション250Bに関連付けられたワークフロー250を管理し得る。例えば、ゲームの文脈では、そのようなワークフロー250は、様々なゲーム関連のアクティビティ(例えば、ゲームプレイのためのチームの編成)に関連し得る。各ワークフロー250は、どのアクション250B(例えば、タスク及びステップ)がアクティビティに従事することに関与するかを識別するために使用される1つまたは複数の条件アクションルール250Aを含み得る。しかし、各タスク及びステップには、ユーザからの特定の情報(例えば、入力)が必要になり得る。例えば、チームを編成するには、ユーザが1人または複数人のチームメンバを選択する必要があり得る。各ワークフローには、特定のユーザ向けにカスタマイズされた方法で1つまたは複数の機能及びサービスを呼び出すために使用されるプラグ可能なコードが含まれ得る。
【0028】
図に示すように、様々な入力が(例えば、ユーザアクションを含む環境内の状態を検出するセンサ及びインターフェイスから)受信され、条件アクションルール250Aの観点から評価され得る。そのような評価により、(例えば、アクション250Bからの)特定の応答アクションを実行すべきであるという発見がもたらされ得る。選択されたアクションに関する情報は、実行またはパフォーマンスのために、指定されたアクチュエータまたは他のアクタに提供され得る。
【0029】
ユーザによる発話を解釈し、応答するワークフローを識別するための学習モデル260は、ユーザに関するデータが収集されるにつれて保存され、経時的に改善され得る。したがって、ユーザの発話の解釈は、ユーザが参照し得る特定のエンティティ及びユーザによって使用される可能性のある品詞の識別に関して改善され得る。学習モデル260を改善するために使用される情報は、ネットワークサーバ130によって追跡されるように、ネットワーク内で行われ得る任意の様々なユーザ相互作用に関する情報を含み得る。そのようなユーザ相互作用は、ネットワークサーバ130でアクセスされるコンテンツに関連して行われ得て、同様に(例えば、メッセージアプリケーション及びその他の方法を介して送信されるメッセージなどの)相互作用は、(ネットワークサーバ130のコンテンツにもアクセスする)ソーシャルコンタクトに関連して行われ得る。学習モデル260は、ネットワーク内で追加のユーザ相互作用が行われるにつれて、継続的に更新及び改善され得る。したがって、自然言語プロセッサ調整230がユーザの意図を識別する際に参照し得る情報のベースは増大し続け、ユーザの意図を学習し、認識の向上を可能にし得る。したがって、学習モジュール260は、特定のユーザ及びユーザらのそれぞれの習慣、ネットワーク、及びその他のユーザ固有の特性に固有であり得る方法で、条件アクションルール250Aの改善、ならびに経時的な応答アクション250Bの選択に関与し得る。
【0030】
予測エンジン270は、自然言語プロセッサ調整230によって識別された意図が所定のワークフロー260に対応することを識別し得る。識別された意図は、所定のワークフローで実行するために必要な情報も提供し得る。
【0031】
図3は、自然言語処理のためのネットワークベースの学習モデルの例示的な方法を示すフローチャートである。図3の方法300は、限定されないが、CD、DVD、またはハードドライブなどの不揮発性メモリを含む、非一時的コンピュータ可読記憶媒体内の実行可能命令として具体化され得る。記憶媒体の命令は、1つのプロセッサ(または複数のプロセッサ)によって実行され、記憶媒体をホストするか、または他の方法で記憶媒体にアクセスするコンピューティングデバイスの様々なハードウェア構成要素に方法を実施させ得る。図3で特定されるステップ(及びその順序)は例示的なものであり、限定されないが、同様の実行の順序を含む様々な代替物、均等物、またはその派生物を含み得る。
【0032】
方法300では、ユーザ相互作用に関する情報を追跡し得て、ユーザの音声発話を、取り込み、トランスクライブし、解析し、次いで、追跡された相互作用の文脈で解釈し得て、その解釈に基づいて意図を識別し得て、識別された意図に基づいて、ワークフローの選択を予測し得る。
【0033】
ステップ310では、ネットワーク内のユーザ相互作用に関する情報を追跡し得る。そのような相互作用は、特定のコンテンツタイトルまたは特定のコンタクトに関して行われ得る。特定のコンテンツに関する各コンタクトによる相互作用を含む、特定のコンテンツタイトル及びコンタクトに関する情報(例えば、ユーザプロファイル)も追跡し得る。そのような情報は、学習モデル260などのデータベース、ならびにネットワークサーバ200にアクセス可能な複数の異なるデータベースに格納され得る。
【0034】
ステップ320では、ユーザの音声発話が取り込まれ得る。そのような取り込みは、ユーザデバイス120のマイクロフォンを介して行われ得る。そのような音声発話はさらに、通信ネットワーク110を介してネットワークサーバ130に送信され得る、デジタル録音(例えば、mp3音声ファイル)として保存され得る。
【0035】
ステップ330では、音声発話をトランスクライブして解析し得る。ネットワークサーバ130は、デジタル記録を(例えば、デコーダ210を介して)復号化し、復号化されたデジタル記録を(例えば、スピーチトゥテキスト220を介して)テキストにトランスクライブして解析し得る。
【0036】
ステップ340では、解析されたテキストは、ステップ310からの追跡された相互作用情報の文脈で分析及び解釈され得る。自然言語プロセッサ230は、可能性を絞り込むために、エージェントディスパッチャ240によって管理されるサードパーティサービス140、ならびに学習モデル260からの音声発話及び参照リソースの1つまたは複数の可能な解釈を識別し得る。
【0037】
ステップ350では、解釈に基づいて意図を識別し得る。そのような識別は、学習モデル260、ならびにネットワーク内のユーザ及びコンテンツに関する情報を維持し得る任意の他のデータベースへの参照を含み得る、様々な要因の重み付けに基づいて、自然言語プロセッサ調整230によって行われ得る。そのような重み付けは、コンテンツまたはソーシャルコンテンツの特性に基づき得て、追加情報が追跡されるにつれて経時的に調整され得る。
【0038】
ステップ360では、ワークフロー選択に関する予測を行い得る。予測エンジン270は、ステップ350で自然言語プロセッサ調整230によって識別された意図が、ワークフロー260に格納されたワークフローに対応することを識別し得る。
【0039】
図4は、ユーザが作成したメディアを放送メディアストリームにリアルタイムで組み込む際に使用し得る例示的な電子エンターテイメントシステムである。図4のエンターテイメントシステム400は、メインメモリ405、中央処理装置(CPU)410、ベクトルユニット415、グラフィックス処理ユニット420、入力/出力(I/O)プロセッサ425、I/Oプロセッサメモリ430、コントローラインターフェイス435、メモリカード440、ユニバーサルシリアルバス(USB)インターフェイス445、及びIEEE1394インターフェイス450を含む。エンターテイメントシステム400はさらに、バス475を介してI/Oプロセッサ425に接続されるオペレーティングシステム読み取り専用メモリ(OS ROM)455、音声処理ユニット460、光ディスク制御ユニット470、及びハードディスクドライブ465を含む。
【0040】
エンターテイメントシステム400は、電子ゲームコンソールであり得る。あるいは、エンターテイメントシステム400は、汎用コンピュータ、セットトップボックス、ハンドヘルドゲームデバイス、タブレットコンピューティングデバイス、またはモバイルコンピューティングデバイスもしくは電話として実装され得る。エンターテイメントシステムには、特定のフォームファクタ、目的、または設計に応じて、いくつかのオペレーティング構成要素が含まれ得る。
【0041】
図4のCPU410、ベクトルユニット415、グラフィックス処理ユニット420及びI/Oプロセッサ425は、システムバス485を介して通信する。さらに、図4のCPU410は、専用バス480を介してメインメモリ405と通信し、ベクトルユニット415及びグラフィックス処理ユニット420は、専用バス490を介して通信し得る。図4のCPU410は、OS ROM455及びメインメモリ405に格納されたプログラムを実行する。図4のメインメモリ405は、事前に格納されたプログラム、及び光ディスク制御ユニット470を使用してCD−ROM、DVD−ROM、または他の光ディスク(図示せず)からI/Oプロセッサ425を介して転送されるプログラムを含み得る。図4のI/Oプロセッサ425はまた、無線または他の通信ネットワーク(例えば、4$、LTE、1Gなど)を介して転送されるコンテンツの導入を可能にし得る。図4のI/Oプロセッサ425は、主に、CPU410、ベクトルユニット415、グラフィックス処理ユニット420、及びコントローラインターフェイス435を含むエンターテイメントシステム400の様々なデバイス間のデータ交換を制御する。
【0042】
図4のグラフィックス処理ユニット420は、CPU410及びベクトルユニット415から受信したグラフィックス命令を実行して、表示装置(図示せず)に表示するための画像を生成する。例えば、図4のベクトルユニット415は、オブジェクトを三次元座標から二次元座標に変換し、二次元座標をグラフィックス処理ユニット420に送信し得る。さらに、音声処理ユニット460は、スピーカ(図示せず)などのオーディオ機器に出力される音声信号を生成する命令を実行する。他のデバイスは、USBインターフェイス445、及びシステム400内にも、またはプロセッサなどの他の構成要素の一部としても組み込まれ得る、無線トランシーバなどのIEEE1394インターフェイス450を介してエンターテイメントシステム400に接続され得る。
【0043】
図4のエンターテイメントシステム400のユーザは、コントローラインターフェイス435を介してCPU410に命令を提供する。例えば、ユーザは、メモリカード440または他の非一時的コンピュータ可読記憶媒体に特定のゲーム情報を格納するようにCPU410に指示し得るか、または、いくつかの特定のアクションを実行するようゲーム内のキャラクタに指示し得る。
【0044】
本発明は、様々なエンドユーザデバイスによって動作可能であり得るアプリケーションで実装され得る。例えば、エンドユーザデバイスは、パーソナルコンピュータ、ホームエンターテイメントシステム(例えば、Sony PlayStation2(登録商標)またはSony PlayStation3(登録商標)またはSony PlayStation4(登録商標))、携帯ゲームデバイス(例えば、Sony PSP(登録商標)またはSony Vita(登録商標))、または、たとえ知名度の低いメーカのホームエンターテイメントシステムであってもよい。本明細書に記載される本方法論は、様々なデバイス上で動作可能であることを完全に意図している。本発明はまた、本システムの一実施形態が様々なパブリッシャからの様々なタイトルにわたって利用され得るクロスタイトル中立性で実装され得る。
【0045】
非一時的コンピュータ可読記憶媒体とは、実行のために中央処理装置(CPU)に命令を提供することに関与する任意の媒体または複数の媒体を指す。そのような媒体は、それぞれ、限定されないが、光ディスクまたは磁気ディスク及びダイナミックメモリなどの不揮発性媒体及び揮発性媒体を含む多くの形態をとることができる。非一時的コンピュータ可読媒体の一般的な形態は、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD−ROMディスク、デジタルビデオディスク(DVD)、任意の他の光学媒体、RAM、PROM、EPROM、FLASHEPROM、及び任意の他のメモリチップまたはカートリッジを含む。
【0046】
様々な形態の伝送媒体は、実行のために1つまたは複数の命令の1つまたは複数のシーケンスをCPUに伝送することに関与し得る。バスはデータをシステムRAMに伝送し、そこからCPUが命令を取得して実行する。システムRAMが受信した命令は、CPUによる実行の前または後のいずれに、任意選択で固定ディスクに格納できる。同様に、様々な形態の記憶装置を、必要なネットワークインターフェイス及びネットワークトポロジと同様に実装できる。
【0047】
前述の本技術の詳細な説明は、例示及び説明の目的で提示されたものである。説明は、網羅的であること、または技術を開示されている正確な形態に限定することを意図するものではない。上記の教示に照らして、多くの修正及び変形が可能である。記載された実施形態は、技術の原理、その実際の応用を最もよく説明し、他の当業者が、様々な実施形態において、及び考えられる特定の用途に適した様々な修正で技術を利用できるようにするために選択された。技術の範囲は、特許請求の範囲により規定されることが意図される。
図1
図2
図3
図4