(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-11-14
(54)【発明の名称】ソーシャルメディア投稿及びテキストデータからのユーザインテントの識別
(51)【国際特許分類】
G06F 16/38 20190101AFI20231107BHJP
【FI】
G06F16/38
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023524383
(86)(22)【出願日】2021-10-22
(85)【翻訳文提出日】2023-04-20
(86)【国際出願番号】 US2021056321
(87)【国際公開番号】W WO2022087465
(87)【国際公開日】2022-04-28
(32)【優先日】2020-10-23
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(71)【出願人】
【識別番号】596102126
【氏名又は名称】ソニー ピクチャーズ エンターテインメント インコーポレイテッド
(74)【代理人】
【識別番号】100092093
【氏名又は名称】辻居 幸一
(74)【代理人】
【識別番号】100109070
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100109335
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【氏名又は名称】近藤 直樹
(72)【発明者】
【氏名】シャハサバリ シャディ
(72)【発明者】
【氏名】ジュー ミャオチー
(72)【発明者】
【氏名】高島 芳和
(72)【発明者】
【氏名】オウヤン チャオ
(72)【発明者】
【氏名】チェン ピン
(72)【発明者】
【氏名】サックス ジョーダン
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
5B175FB03
(57)【要約】
テキストデータ及びソーシャルメディア投稿を分析して事業目標特徴を含むオーディエンス関心度の正確な尺度を取得することが、各事業目標特徴に基づいてテキストデータを収集することと、テキストデータから、メタデータ、アクション及びエンティティを含む情報を関連するつながりと共に抽出することと、インテント識別子を使用して、抽出された情報に基づいて、関連するエンティティを含むインテントを識別することと、抽出された情報を使用して、インテント基準に基づいて関連する入力データをフィルタ処理して認識することと、各事業目標特徴に関する集約データをインテントに関するフィードバックとして提供することと、を含む。
【選択図】
図3
【特許請求の範囲】
【請求項1】
テキストデータ及びソーシャルメディア投稿を分析して事業目標特徴を含むオーディエンス関心度の正確な尺度を取得するためのシステムであって、
事業目標特徴のうちの少なくとも1つに基づいてテキストデータを収集するデータ集約と、
情報抽出器及びインテント識別器を含むインテント識別と、
を備え、
前記情報抽出器は、前記収集されたテキストデータからメタデータ、アクション及びエンティティを含む情報を関連するつながりと共に抽出し、前記情報抽出器は、各単語の役割又は特徴セットを識別するツールを使用して情報を抽出し、
前記インテント識別器は、前記抽出された情報に基づいて、一般的アクションを目標に向けて集約することによって、関連するエンティティを含むインテントアクションを識別する、
ことを特徴とするシステム。
【請求項2】
前記インテント識別は、
前記収集されたテキストデータの各データに少なくとも1つのラベルを割り当てる、前記少なくとも1つのラベルを割り当てるように訓練された分類器と、
ラベル付けされた各データを訓練に基づいてスコア付けし、前記割り当てられたラベルに基づいてインテントを割り当てるスコアラーと、
をさらに含む、請求項1に記載のシステム。
【請求項3】
前記スコアラーは、前記割り当てられたラベルに確率を追加し、前記確率は、各ラベル付けされたデータが前記割り当てられたラベルに属する可能性がどれほどであるかを示す、
請求項2に記載のシステム。
【請求項4】
前記データ集約は、前記データ集約から収集された前記テキストデータが前記分類器及び前記情報抽出器に並行して送信されるように前記分類器及び前記情報抽出器に結合する、
請求項2に記載のシステム。
【請求項5】
前記スコアラー及び前記インテント識別器の両方は、前記スコアラーからの出力及び前記インテント識別器からの出力が重み付けされたバランスで使用されるように前記フィードバックに結合する、
請求項2に記載のシステム。
【請求項6】
前記インテント識別器の出力は、明確に識別されたインテントを有していない前記抽出された情報が前記分類器に送信されるように前記分類器の入力に結合する、
請求項2に記載のシステム。
【請求項7】
前記インテント識別器は、明確に識別されたインテントを有する前記抽出された情報が前記フィードバックに送信されるように前記フィードバックに結合する、
請求項1に記載のシステム。
【請求項8】
テキストデータ及びソーシャルメディア投稿を分析して事業目標特徴を含むオーディエンス関心度の正確な尺度を取得する方法であって、
各事業目標特徴に基づいて前記テキストデータを収集することと、
前記テキストデータから、メタデータ、アクション及びエンティティを含む情報を関連するつながりと共に抽出することと、
インテント識別子を使用して、前記抽出された情報に基づいて、関連するエンティティを含むインテントを識別することと、
前記抽出された情報を使用して、インテント基準に基づいて関連する入力データをフィルタ処理して認識することと、
各事業目標特徴に関する集約データを前記インテントに関するフィードバックとして提供することと、
を含むことを特徴とする方法。
【請求項9】
前記情報は、各単語の役割を識別するツールを使用して抽出される、
請求項8に記載の方法。
【請求項10】
一般的な概念又はアクションを目標に向けて集約することによってインテントが識別される、
請求項8に記載の方法。
【請求項11】
訓練済み分類器を使用して、前記収集されたテキストデータの各データに少なくとも1つのラベルを割り当てることをさらに含む、
請求項8に記載の方法。
【請求項12】
スコアラーを使用して、各ラベル付けされたデータを訓練に基づいてスコア付けし、前記割り当てられたラベルに基づいてインテントを割り当てることをさらに含む、
請求項11に記載の方法。
【請求項13】
前記フィードバックは、前記インテント識別器の出力と前記スコアラーの出力との間の重み付けされたバランスを使用する、
請求項12に記載の方法。
【請求項14】
情報を抽出することは、情報抽出器によって実行される、
請求項11に記載の方法。
【請求項15】
前記収集されたテキストデータを、前記分類器及び前記情報抽出器の両方と並行して適用することをさらに含む、
請求項14に記載の方法。
【請求項16】
明確に識別されたインテントを有する前記抽出された情報を前記フィードバックに送信することと、
明確に識別されたインテントを有していない前記抽出された情報を前記分類器に送信することと、
をさらに含む、請求項11に記載の方法。
【請求項17】
テキストデータ及びソーシャルメディア投稿を分析して事業目標特徴を含むオーディエンス関心度の正確な尺度を取得するためのコンピュータプログラムを記憶した非一時的コンピュータ可読記憶媒体であって、前記コンピュータプログラムは、
各事業目標特徴に基づいて前記テキストデータを収集することと、
前記テキストデータから、メタデータ、アクション及びエンティティを含む情報を関連するつながりと共に抽出することと、
インテント識別子を使用して、前記抽出された情報に基づいて、関連するエンティティを含むインテントを識別することと、
前記抽出された情報を使用して、インテント基準に基づいて関連する入力データをフィルタ処理して認識することと、
各事業目標特徴に関する集約データを前記インテントに関するフィードバックとして提供することと、
をコンピュータに行わせる実行可能命令を含む、ことを特徴とするコンピュータ可読記憶媒体。
【請求項18】
前記収集されたテキストデータの各データに少なくとも1つのラベルを割り当てることを前記コンピュータに行わせる実行可能命令をさらに含む、
請求項17に記載のコンピュータ可読記憶媒体。
【請求項19】
各ラベル付けされたデータを訓練に基づいてスコア付けし、前記割り当てられたラベルに基づいてインテントを割り当てることを前記コンピュータに行わせる実行可能命令をさらに含む、
請求項18に記載のコンピュータ可読記憶媒体。
【請求項20】
前記情報は、各単語の役割を識別するツールを使用して抽出される、
請求項17に記載のコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願との相互参照
本出願は、2020年10月23日に出願された「ソーシャルメディア投稿及びテキストデータからのユーザインテントの識別(User Intent identification from social media post and text data)」という名称の同時係属中の米国仮特許出願第63/105,026号の米国特許法第119条に基づく優先権の利益を主張するものである。上記出願の開示は引用により本明細書に組み入れられる。
【0002】
本開示は、テキストデータからインテント(意図)を抽出することに関し、具体的には、テキストデータ及びソーシャルメディア投稿を分析して、テキストデータからユーザのインテントを抽出することによってオーディエンス関心度の正確な尺度を取得することに関する。
【背景技術】
【0003】
現在のテキストデータインテント抽出法は、センチメント(感情)分析及びキーワード検索に基づく。これらは、ソーシャルメディア投稿などのいずれかのテキストデータに関しては初期の有用な手掛かりとなるが、テキストデータのノイズに起因して不正確であり、より深いビジネスインサイト(business insights)にとっては一般的すぎる。マーケティング用途での共通目標には、例えばソーシャルメディアデータからのシグナルを使用して興行的な予期せぬヒット又は大失敗の可能性を予測するような、オーディエンスの関心の系統的理解が必要である。従って、インテントは関心対象に関するアクション又は意見である。この対象は、製品、サービス、又はその他の関連するトピックであることができる。
【発明の概要】
【課題を解決するための手段】
【0004】
本開示は、テキストデータ及びソーシャルメディア投稿を分析して、テキストデータ及びソーシャルメディア投稿からユーザインテントを抽出することによってオーディエンス関心度の正確な尺度を取得するものである。
【0005】
1つの実装では、テキストデータ及びソーシャルメディア投稿を分析して事業目標特徴(business target features)を含むオーディエンス関心度の正確な尺度を取得するためのシステムを開示する。このシステムは、事業目標特徴のうちの少なくとも1つに基づいてテキストデータを収集するデータ集約と、情報抽出器及びインテント識別器を含むインテント識別と、正確なオーディエンス関心度を測定する方法とを含み、情報抽出器は、収集されたテキストデータからメタデータ、アクション及びエンティティを含む情報を関連するつながりと共に抽出し、情報抽出器は、各単語の役割又は特徴セットを識別するツールを使用して情報を抽出し、インテント識別器は、抽出された情報に基づいて、一般的アクションを目標に向けて集約することによって、関連するエンティティを含むインテントアクションを識別する。
【0006】
1つの実装では、インテント識別が、収集されたテキストデータの各データに少なくとも1つのラベルを割り当てる、少なくとも1つのラベルを割り当てるように訓練された分類器と、ラベル付けされた各データを訓練に基づいてスコア付けし、割り当てられたラベルに基づいてインテントを割り当てるスコアラーとをさらに含む。1つの実装では、スコアラーが、割り当てられたラベルに確率を追加し、この確率は、各ラベル付けされたデータが割り当てられたラベルに属する可能性がどれほどであるかを示す。1つの実装では、データ集約が、データ集約から収集されたテキストデータが分類器及び情報抽出器に並行して送信されるように分類器及び情報抽出器に結合する。1つの実装では、スコアラー及びインテント識別器の両方が、スコアラーからの出力及びインテント識別器からの出力が重み付けされたバランスで使用されるようにフィードバックに結合する。1つの実装では、インテント識別器の出力が、明確に識別されたインテントを有していない抽出された情報が分類器に送信されるように分類器の入力に結合する。1つの実装では、インテント識別器が、明確に識別されたインテントを有する抽出された情報がフィードバックに送信されるようにフィードバックに結合する。
【0007】
別の実装では、テキストデータ及びソーシャルメディア投稿を分析して事業目標特徴を含むオーディエンス関心度の正確な尺度を取得する方法を開示する。この方法は、各事業目標特徴に基づいてテキストデータを収集することと、テキストデータから、メタデータ、アクション及びエンティティを含む情報を関連するつながりと共に抽出することと、インテント識別子を使用して、抽出された情報に基づいて、関連するエンティティを含むインテントを識別することと、抽出された情報を使用して、インテント基準に基づいて関連する入力データをフィルタ処理して認識することと、各事業目標特徴に関する集約データをインテントに関するフィードバックとして提供することと、を含む。
【0008】
1つの実装では、情報が、各単語の役割を識別するツールを使用して抽出される。1つの実装では、一般的な概念又はアクションを目標に向けて集約することによってインテントが識別される。1つの実装では、方法が、訓練済み分類器を使用して、収集されたテキストデータの各データに少なくとも1つのラベルを割り当てることをさらに含む。1つの実装では、方法が、スコアラーを使用して、各ラベル付けされたデータを訓練に基づいてスコア付けし、割り当てられたラベルに基づいてインテントを割り当てることをさらに含む。1つの実装では、フィードバックが、インテント識別器の出力とスコアラーの出力との間の重み付けされたバランスを使用する。1つの実装では、情報を抽出することが情報抽出器によって実行される。1つの実装では、方法が、収集されたテキストデータを、分類器及び情報抽出器の両方と並行して適用することをさらに含む。1つの実装では、方法が、明確に識別されたインテントを有する抽出された情報をフィードバックに送信することと、明確に識別されたインテントを有していない抽出された情報を分類器に送信することと、をさらに含む。
【0009】
別の実装では、テキストデータ及びソーシャルメディア投稿を分析して事業目標特徴を含むオーディエンス関心度の正確な尺度を取得するためのコンピュータプログラムを記憶した非一時的コンピュータ可読記憶媒体を開示する。コンピュータプログラムは、各事業目標特徴に基づいてテキストデータを収集することと、テキストデータから、メタデータ、アクション及びエンティティを含む情報を関連するつながりと共に抽出することと、インテント識別子を使用して、抽出された情報に基づいて、関連するエンティティを含むインテントを識別することと、抽出された情報を使用して、インテント基準に基づいて関連する入力データをフィルタ処理して認識することと、各事業目標特徴に関する集約データをインテントに関するフィードバックとして提供することと、をコンピュータに行わせる実行可能命令を含む。
【0010】
1つの実装では、コンピュータ可読記憶媒体が、収集されたテキストデータの各データに少なくとも1つのラベルを割り当てることをコンピュータに行わせる実行可能命令をさらに含む。1つの実装では、コンピュータ可読記憶媒体が、各ラベル付けされたデータを訓練に基づいてスコア付けし、割り当てられたラベルに基づいてインテントを割り当てることをコンピュータに行わせる実行可能命令をさらに含む。1つの実装では、情報が、各単語の役割を識別するツールを使用して抽出される。
【0011】
本開示の態様を一例として示す本明細書からは、他の特徴及び利点も明らかになるはずである。
【0012】
同じ部分を同じ参照数字によって示す添付図面を検討することにより、本開示の詳細をその構造及び動作の両方に関して部分的に入手することができる。
【図面の簡単な説明】
【0013】
【
図1A】本開示の1つの実装による、テキストデータ及びソーシャルメディア投稿を分析してオーディエンス関心度の正確な尺度を取得するシステムのブロック図である。
【
図1B】本開示の1つの実装によるインテント識別の詳細なブロック図である。
【
図1C】本開示の別の実装による、テキストデータ及びソーシャルメディア投稿を分析してオーディエンス関心度の正確な尺度を取得するシステムのブロック図である。
【
図1D】本開示の別の実装による、テキストデータ及びソーシャルメディア投稿を分析してオーディエンス関心度の正確な尺度を取得するシステムのブロック図である。
【
図2A】「もうすぐゾンビランドを見るつもりだよ(I am going to watch Zombieland soon)」というツイートを処理して、「見るつもり(going to watch)」というアクションと、「私(I)」による「ゾンビランド(Zombieland)」という目的とを識別する1つの事例を示す図である。
【
図2B】「街はゾンビランドのようだ(The city seems like a Zombieland)」というツイートを処理して、「のようだ(seems like)」というアクションと、「ゾンビランド(Zombieland)」という目的及び「街(the city)」というソースとを識別する別の事例を示す図である。
【
図2C】「バッドボーイズ3を見るのは緊張するよ。だって大好きなものが面白くなくなっていると思うし、現実に直面したくないから(I’m nervous to see Bad Boys 3 because I think my fav has lost his funny and I don’t want to face the truth)」というツイートを処理する別の詳細な事例を示す図である。
【
図3】本開示の1つの実装による、テキストデータ及びソーシャルメディア投稿を分析して事業目標特徴を含むオーディエンス関心度の正確な尺度を取得する方法のフロー図である。
【
図4A】本開示の1つの実装によるコンピュータシステム及びユーザの表現である。
【
図4B】本開示の1つの実装による、テキスト分析アプリケーションをホストするコンピュータシステムを示す機能ブロック図である。
【発明を実施するための形態】
【0014】
上述したように、現在のテキストデータからのインテント抽出はセンチメント分析に基づいており、テキストデータのノイズに起因してオーディエンスの関心の尺度が不正確になってしまう。センチメント分析では、各収集されたデータにセンチメントラベル(例えば、「ポジティブ(肯定的)」、「ネガティブ(否定的)」、「ニュートラル(中立)」)を割り当てるように分類器を訓練し、各ラベル付けされたデータに、データがそのセンチメントラベルに属する可能性がどれほどであるかを示すようにスコア付けし、割り当てられたセンチメントラベルに基づいてインテントを割り当てる。従って、「ポジティブ」のラベルを付けられたデータの割合が高ければ、特定のアクション(例えば、映画を見に行くこと)を反映しているとみなされる。従って、センチメント分析では、(a)センチメント分析のための訓練済みデータに大きく基づいていること、(b)現在のセンチメントツール及び方法論は少数のカテゴリのみに限定されているが、インテントはさらに多くのタイプのカテゴリを含むことがあること、(c)同じ種類のセンチメントが必ずしも同じタイプのインテントを示すわけではないこと、(d)インテント識別では、ユーザの現在の意見センチメントがこのようなインテントを示していないことがあるので、将来的に考えられるユーザからのアクションについて検索が行われることなどの様々な理由で、ソーシャルメディア上のユーザインテントを事業目的のために信頼性高く明確に理解できないことが多い。
【0015】
本開示のいくつかの実装は、テキストデータ及びソーシャルメディア投稿を分析して、テキストデータ及びソーシャルメディア投稿からインテントを抽出することによってオーディエンス関心度の正確な尺度を取得するものである。以下の説明を読んだ後には、本開示を様々な実装及び用途で実装する方法が明らかになるであろう。本明細書では本開示の様々な実装について説明するが、これらの実装はほんの一例として提示するものであり、限定ではないと理解されたい。従って、様々な実装の詳細な説明は、本開示の範囲又は外延を限定するものとして解釈すべきではない。
【0016】
テキストデータ及びソーシャルメディア投稿を分析してオーディエンス関心度の正確な尺度を取得する実装において提供される特徴は、インテントを認識するために、以下に限定するわけではないが、(a)データ集約、(b)情報抽出、(c)インテント識別、(d)オーディエンス関心度の正確な尺度を取得するためのフィードバック、及び(e)新たなインテントの定義又は古いインテントの削除/更新、といった項目のうちの1つ又は2つ以上を含むことができる。
【0017】
図1Aは、本開示の1つの実装による、テキストデータ及びソーシャルメディア投稿を分析してオーディエンス関心度の正確な尺度を取得するシステム100のブロック図である。
図1Aの例示的な実装では、システム100が、データ集約102、インテント識別104、及びフィードバック106を含む。1つの実装では、インテント識別104が情報抽出を含む。
【0018】
1つの実装では、データ集約102が、各事業目標特徴に基づいてテキストデータを収集することを含む。例えば、映画に関するツイートを収集することができる。
【0019】
1つの実装では、オーディエンス関心度の正確な尺度を取得するためのフィードバック106が、ターゲットに関する集約データをインテントに関するフィードバック又は一般的意見として提供することを含む。別の実装では、異なる分析段階においてインテントカテゴリが変化する場合もある。例えば、最初は「チケットを買うこと」及び「映画を見ること」を収集することができるが、その後は「映画を見ること」しか収集されないことがある。さらなる実装では、インテントを使用してより良いデータを収集するようにフィードバックが追加される。例えば、映画によっては、俳優のような他の単語を使用すると認識しやすくなることがある。従って、データ収集品質のフィードバックの一部としての繰り返しを通じてデータ収集の精緻化を達成することができる。
【0020】
図1Bは、本開示の1つの実装によるインテント識別104の詳細なブロック図である。
図1Bの例示的な実装では、インテント識別104が、情報抽出器110及びインテント識別器112を含む。
【0021】
1つの実装では、情報抽出器110が、テキストからメタデータ、アクション及びエンティティを関連するつながりと共に抽出する。さらに、情報抽出器110は、各単語の役割を識別するツールを使用することによって情報を抽出する。例えば、単一のツイートから動詞句及び名詞を収集することができる。
【0022】
1つの実装では、インテント識別器112が、関連するエンティティを含む抽出情報に基づいて、一般的な概念/アクションを目的に向けて集約することによってインテントアクションを識別する。さらに、抽出情報を使用して、インテント基準に基づいて関連する入力データをフィルタ処理して認識する。例えば、映画を見るというアクションを含むツイートをサンプリングする。
【0023】
図1Cは、本開示の別の実装による、テキストデータ及びソーシャルメディア投稿を分析してオーディエンス関心度の正確な尺度を取得するシステム120のブロック図である。
図1Cでは、システム120が、データ集約102、インテント識別130、及びフィードバック132を含む。1つの実装では、インテント識別130が情報抽出を含む。
【0024】
1つの実装では、データ集約102が、各事業目標特徴に基づいてテキストデータを収集することを含む。例えば、映画に関するツイートを収集することができる。
【0025】
図1Cでは、データ集約102によって収集されたテキストデータが並行して適用され、訓練済み分類器122/スコアラー124がラベルに確率を追加し、情報抽出器126/インテント識別器128が明確なインテントを有するデータを発見する。
【0026】
図1Cの例示的な実装では、システム120が、
図1Aのシステム100とは対照的に、教師ありラベリング(supervised labeling)のために分類器を訓練することとインテント識別との組み合わせを伴う。
図1Cでは、インテント識別130が、分類器122、スコアラー124、情報抽出器126、及びインテント識別器128を含む。
【0027】
1つの実装では、分類器122が、データ集約102によって収集された各データに少なくとも1つのラベル(例えば、「プロモーション」、「インテント」、「ポジティブ」、及び「その他」)を割り当てるように訓練される。例えば、上記で定義したラベル(例えば、「プロモーション」、「インテント」、「ポジティブ」、又は「その他」)のうちの1つとして1つのツイートが割り当てられる。
【0028】
1つの実装では、スコアラー124が、各ラベル付きデータを訓練に基づいてスコア付けし、割り当てられたラベルに基づいてインテントを割り当てる。従って、「ポジティブ」のラベルを付けられたデータの割合が高ければ、特定のアクション(例えば、映画を見に行くこと)を反映しているとみなされる。
【0029】
図1Cの例示的な実装では、情報抽出器126が、テキストからメタデータ、アクション及びエンティティを関連するつながりと共に抽出する。さらに、情報抽出器126は、各単語の役割を識別するツールを使用することによって情報を抽出する。例えば、単一のツイートから動詞句及び名詞を収集することができる。
【0030】
図1Cの例示的な実装では、インテント識別器128が、関連するエンティティを含む抽出情報に基づいてインテントアクションを識別する。さらに、(情報抽出器126によって抽出された)抽出情報を使用して、インテント基準に基づいて関連する入力データをフィルタ処理して認識する。例えば、映画を見るというアクションを含むツイートをサンプリングする。
【0031】
図1Cの例示的な実装では、オーディエンス関心度の正確な尺度を取得するためのフィードバック132が、訓練済み分類器122/スコアラー124からの出力と、情報抽出器126/インテント識別器128からの出力とを組み合わせる。上述したように、訓練済み分類器122/スコアラー124の組み合わせはラベルに確率を追加し、情報抽出器126/インテント識別器128の組み合わせは明確なインテントを有するデータを発見する。この場合、2つの経路からの出力は、事業戦略精緻化への寄与に応じて重み付けされたバランスで併用することができる。例えば、明確なインテントを有するテキストは、第2の経路によって識別されたテキストよりも高い重要度を有することができる。
【0032】
図1Dは、本開示の別の実装による、テキストデータ及びソーシャルメディア投稿を分析してオーディエンス関心度の正確な尺度を取得するシステム150のブロック図である。
図1Dでは、システム150が、データ集約102、インテント識別150、及びフィードバック152を含む。1つの実装では、インテント識別150が情報抽出を含む。
【0033】
1つの実装では、データ集約102が、各事業目標特徴に基づいてテキストデータを収集することを含む。例えば、映画に関するツイートを収集することができる。
【0034】
図1Dでは、入力テキストデータが順次に適用される。例えば、データ集約102によって収集された入力テキストデータを最初に情報抽出器146及びインテント識別器148に送信して、明確なインテントを有するデータを発見することができる。その後、明確なインテントが識別されなかった入力テキストデータを訓練済み分類器142及びスコアラー144に送信してラベルに確率を追加することができる。
【0035】
1つの実装では、分類器142が、データ集約102によって収集された各データに少なくとも1つのラベル(例えば、「プロモーション」、「インテント」、「ポジティブ」、及び「その他」)を割り当てるように訓練される。例えば、上記で定義したラベル(例えば、「プロモーション」、「インテント」、「ポジティブ」、又は「その他」)のうちの1つとして1つのツイートが割り当てられる。
【0036】
1つの実装では、スコアラー144が、訓練に基づいて各ラベル付きデータをスコア付けし、割り当てられたラベルに基づいてインテントを割り当てる。従って、「ポジティブ」のラベルを付けられたデータの割合が高ければ、特定のアクション(例えば、映画を見に行くこと)を反映していると考えられる。
【0037】
図1Dの例示的な実装では、情報抽出器146が、テキストからメタデータ、アクション及びエンティティを関連するつながりと共に抽出する。さらに、情報抽出器146は、各単語の役割を識別するツールを使用することによって情報を抽出する。例えば、単一のツイートから動詞句及び名詞を収集することができる。
【0038】
図1Dの例示的な実装では、インテント識別器148が、関連するエンティティを含む抽出情報に基づいてインテントアクションを識別する。さらに、(情報抽出器146によって抽出された)抽出情報を使用して、インテント基準に基づいて関連する入力データをフィルタ処理して認識する。例えば、映画を見るというアクションを含むツイートをサンプリングする。
【0039】
図1Dでは、入力テキストデータが順次に適用される。例えば、データ集約102によって収集された入力テキストデータを最初に情報抽出器146及びインテント識別器148に送信して、明確なインテントを有するデータ160を発見することができる。その後、明確なインテントが識別されなかった入力テキストデータ162を訓練済み分類器142及びスコアラー144に送信して、出力164におけるテキストデータに確率を含むラベルを追加する。
【0040】
図1Dの例示的な実装では、オーディエンス関心度の正確な尺度を取得するためのフィードバック132が、情報抽出器146/インテント識別器148からの出力160と、訓練済み分類器142/スコアラー144からの164とを組み合わせる。上述したように、情報抽出器146/インテント識別器148の組み合わせは明確なインテントを有するデータ160を発見し、訓練済み分類器142/スコアラー144の組み合わせは、明確に識別されたインテントを有していないデータに確率を含むラベルを追加して出力164を生成する。この場合、2つの経路からの出力160、164は、事業戦略精緻化への寄与に応じて重み付けされたバランスで併用することができる。例えば、明確なインテントを有するテキスト160は、第2の経路によって識別されたテキスト164よりも高い重要度を有することができる。
【0041】
1つの使用事例では、「ユーザが特定の映画を見ようとしているか?」というユーザのインテントを識別することを目的とする。この場合、評価は、(1)人間の手動識別によって映画を見る可能性が高いものとして分類された全ての映画のうち、本システムによって正しいクラスとして捕捉されたものはいくつであるか、(2)システムによって映画を見る可能性が高いものとして識別された人物のうち、正しい予測、又は映画を見る可能性が高いとものとして人間がラベル付けしたクラスに実際に属するものはいくつであるか、という2つのメトリックに基づく。現在利用可能なセンチメント分析を使用すると、メトリック(1)は57.0%を受け取り、メトリック(2)は56.5%を受け取った。対照的に、上述した
図1B、
図1C又は
図1Dの実装を使用すると、メトリック(1)は72.3%を受け取り、メトリック(2)は70.6%を受け取った。従って、上述した実装は、事業目的の再検討を目的としてソーシャルメディアユーザのインテントを抽出して識別するために提供される。このインテントは、目標及びその関連する概念に関するアクション又は意見である。
【0042】
図2Aに、「もうすぐゾンビランドを見るつもりだよ(I am going to watch Zombieland soon)」というツイート200を処理して、「見るつもり(going to watch)」というアクションと、「私(I)」による「ゾンビランド(Zombieland)」という目的とを識別する(202を参照)1つの事例を示す。従って、目的の映画を見るというインテント204が、映画を見ることに対応するアクションと共に識別されている。
【0043】
図2Bに、「街はゾンビランドのようだ(The city seems like a Zombieland)」というツイート210を処理して、「のようだ(seems like)」というアクションと、「ゾンビランド(Zombieland)」という目的及び「街(the city)」というソースとを識別する(212を参照)別の事例を示す。従って、このツイート210における識別されたアクションは目的の映画を見ることに関連していないので、目的の映画を見るというインテント214は識別されていない。
【0044】
図2Cには、「バッドボーイズ3を見るのは緊張するよ。だって大好きなものが面白くなくなっていると思うし、現実に直面したくないから(I’m nervous to see Bad Boys 3 because I think my fav has lost his funny and I don’t want to face the truth)」というツイート220を処理する別の詳細な事例を示す。項目222にプロセスの抽出情報を示しており、ここでは「見る(see)」というアクションと、「バッドボーイズ3(Bad Boys 3)」という目的の映画とが識別されている。従って、目的の映画を見るというインテント224が、「映画(バッドボーイズ3)を見る(see the movie (Bad Boy 3))」ことに対応するアクションと共に識別されている。
【0045】
図3は、本開示の1つの実装による、テキストデータ及びソーシャルメディア投稿を分析して事業目標特徴を含むオーディエンス関心度の正確な尺度を取得する方法300のフロー図である。
図3の例示的な実装では、310において、各事業目標特徴に基づいてテキストデータを収集する。例えば、映画に関するツイートを収集することができる。
【0046】
次に、320において、テキストデータからメタデータ、アクション及びエンティティを含む情報を関連するつながりと共に抽出する。1つの実装では、各単語の役割を識別するツールを使用することによって情報を抽出する。例えば、単一のツイートから動詞句及び名詞を収集することができる。330において、関連するエンティティを含む抽出情報に基づいて、一般的な概念/アクションを目的に向けて集約することによってインテントアクションを識別する。さらに、340において、抽出情報を使用して、インテント基準に基づいて関連する入力データをフィルタ処理して認識する。例えば、映画を見るというアクションを含むツイートをサンプリングする。350において、目標に関する集約データをインテントに関するフィードバック又は一般的意見として提供する。
【0047】
なお、上述した方法の利点としては、(a)この方法が幅広いカテゴリのユーザインテントに適用されること、(b)アクションの組又はエンティティの組に基づいてインテントのカテゴリを定義する能力、(c)全ての既存のインテントをクラスタ化する能力、(d)情報抽出がインテントのタイプに依存しないことによって訓練データの潜在的バイアスを低減する能力、が挙げられる。
【0048】
図4Aは、本開示の実装によるコンピュータシステム400及びユーザ402の表現である。
図1A、
図1B及び
図1Cのそれぞれのシステム100、120及び140、並びに
図3の方法300に関して図示し説明したように、ユーザ402は、コンピュータシステム400を使用して、捕捉中に使用されるデータを削減するテキスト分析アプリケーション490を実行する。
【0049】
コンピュータシステム400は、
図4Bのテキスト分析アプリケーション490を記憶して実行する。また、コンピュータシステム400は、ソフトウェアプログラム404と通信することができる。ソフトウェアプログラム404は、テキスト分析アプリケーション490のためのソフトウェアコードを含むことができる。以下でさらに説明するように、ソフトウェアプログラム404は、CD、DVD又はストレージドライブなどの外部媒体にロードすることができる。
【0050】
さらに、コンピュータシステム400はネットワーク480に接続することもできる。ネットワーク480は、例えばクライアント-サーバアーキテクチャ、ピアツーピアネットワークアーキテクチャ又は他のタイプのアーキテクチャなどの様々な異なるアーキテクチャで接続することができる。例えば、ネットワーク480は、テキスト分析アプリケーション490内で使用されるエンジンとデータとを協調させるサーバ485と通信することができる。また、ネットワークは異なるタイプのネットワークとすることもできる。例えば、ネットワーク480は、インターネット、ローカルエリアネットワーク又はローカルエリアネットワークのいずれかの変形形態、ワイドエリアネットワーク、メトロポリタンエリアネットワーク、イントラネット又はエクストラネット、或いは無線ネットワークとすることができる。
【0051】
図4Bは、本開示の実装による、テキスト分析アプリケーション490をホストするコンピュータシステム400を示す機能ブロック図である。コントローラ410はプログラマブルプロセッサであり、コンピュータシステム400及びそのコンポーネントの動作を制御する。コントローラ410は、メモリ420又は埋め込みコントローラメモリ(図示せず)から(例えば、コンピュータプログラムの形態の)命令をロードし、これらの命令を実行してデータ処理などを行うようにシステムを制御する。コントローラ410は、その実行において、テキスト分析アプリケーション490にソフトウェアシステムを提供する。或いは、このサービスは、コントローラ410又はコンピュータシステム400内の別のハードウェアコンポーネントとして実装することもできる。
【0052】
メモリ420は、コンピュータシステム400の他のコンポーネントによって使用されるデータを一時的に記憶する。1つの実装では、メモリ420がRAMとして実装される。1つの実装では、メモリ420が、フラッシュメモリ及び/又はROMなどの長期又は固定メモリも含む。
【0053】
ストレージ430は、コンピュータシステム400の他のコンポーネントによって使用されるデータを一時的に又は長期にわたって記憶する。例えば、ストレージ430は、テキスト分析アプリケーション490によって使用されるデータを記憶する。1つの実装では、ストレージ430がハードディスクドライブである。
【0054】
メディアデバイス440は、取り外し可能媒体を受け取り、挿入された媒体に対してデータの読み取り及び/又は書き込みを行う。例えば、1つの実装では、メディアデバイス440が光ディスクドライブである。
【0055】
ユーザインターフェイス450は、コンピュータシステム400のユーザからのユーザ入力を受け入れてユーザ402に情報を提示するコンポーネントを含む。1つの実装では、ユーザインターフェイス450が、キーボード、マウス、オーディオスピーカ及びディスプレイを含む。コントローラ410は、ユーザ402からの入力を使用してコンピュータシステム400の動作を調整する。
【0056】
I/Oインターフェイス460は、外部記憶装置又は補助装置(例えば、プリンタ又はPDA)などの対応するI/O装置に接続するための1又は2以上のI/Oポートを含む。1つの実装では、I/Oインターフェイス460のポートが、USBポート、PCMCIAポート、シリアルポート及び/又はパラレルポートなどのポートを含む。別の実装では、I/Oインターフェイス460が、外部装置と無線で通信するための無線インターフェイスを含む。
【0057】
ネットワークインターフェイス470は、イーサネット接続をサポートするRJ-45又は(限定するわけではないが802.11を含む)「Wi-Fi」インターフェイスなどの有線及び/又は無線ネットワーク接続を含む。
【0058】
コンピュータシステム400は、コンピュータシステムに特有のさらなるハードウェア及びソフトウェア(例えば、電源、冷却、オペレーティングシステム)を含むが、これらのコンポーネントは、単純にするために
図4Bには具体的に示していない。他の実装では、コンピュータシステムの異なる構成(例えば、異なるバス又はストレージ構成、又はマルチプロセッサ構成)を使用することもできる。
【0059】
1つの実装では、システム100、120、140の各々が、1又は2以上のデジタルシグナルプロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲート/ロジックアレイ(FPGA)、又は他の同等の集積又は離散的論理回路を含むハードウェアで完全に構成されたシステムである。別の実装では、システム100、120、140の各々が、ハードウェア及びソフトウェアの組み合わせで構成される。
【0060】
本明細書に開示した実装の説明は、本発明をいずれかの当業者が実施又は利用できるように行ったものである。当業者には、これらの実装の数多くの修正が容易に明らかになると思われ、また本明細書で定める原理は、本発明の趣旨又は範囲から逸脱することなく他の実装にも適用することができる。従って、本開示は、本明細書に示す実装に限定されることを意図するものではなく、本明細書に開示する原理及び新規の特徴と一致する最も広い範囲を許容すべきものである。
【0061】
当業者であれば、本明細書で説明した様々な例示的なモジュール及び方法ステップは、電子ハードウェア、ソフトウェア、ファームウェア、又はこれらの組み合わせとして実装することができると理解するであろう。このハードウェアとソフトウェアとの互換性を明確に説明するために、本明細書では様々な例示的なモジュール及び方法ステップを一般にこれらの機能の面で説明した。このような機能がハードウェアとして実装されるか、それともソフトウェアとして実装されるかは、システム全体に課せられる特定の用途及び設計制約に依存する。当業者であれば、説明した機能を特定の用途毎に様々な方法で実装することができるが、このような実装決定は、本発明の範囲からの逸脱を生じるものとして解釈すべきではない。また、モジュール又はステップ内の機能をグループ化しているのは、説明を容易にするためである。本開示から逸脱することなく、特定の機能を1つのモジュール又はステップから別のモジュール又はステップに移行させることもできる。
【0062】
本開示の特定の実装では、必ずしも上述した各実施例の全ての特徴が必要なわけではない。さらに、本明細書に示す説明及び図面は、本発明によって幅広く検討される主題を表すものであると理解されたい。さらに、本開示の範囲は、当業者に明らかになると考えられる他の実装を完全に含み、従って添付の特許請求の範囲以外のものによって限定されるものではないと理解されたい。
【符号の説明】
【0063】
310 各事業目標特徴に基づいてテキストデータを収集
320 テキストデータからメタデータ、アクション及びエンティティを関連するつながりと共に抽出
330 抽出情報(メタデータ、アクション及びエンティティ)に基づいてインテントアクションを識別
340 抽出情報を使用して、インテント基準に基づいて関連する入力データをフィルタ処理して認識
350 目標に関する集約データをインテントに関するフィードバック又は一般的意見として提供
【国際調査報告】