【文献】
大竹 洋平、鈴木 良弥,マイクロブログのバースト現象に着目したユーザのクラスタリングおよび可視化,言語処理学会第21回年次大会 発表論文集 [online] Proceedings of the Twenty-first Annual Meeting of the Association for Natural Language Processing,日本,言語処理学会,2015年 8月14日,pp.226〜229
(58)【調査した分野】(Int.Cl.,DB名)
各トピックの第1ユーザインターフェイス構成要素の各々は、(i)識別子、および(ii)前記各トピックに関連付けられているトピック構成要素用語、と共に表示される、
請求項1〜請求項3の何れか1項に記載の方法。
前記インタラクティブ可視情報を更新することは、前記トピックセットの各トピックに対応する前記第1ユーザインターフェイス構成要素の表示位置を変更することを含まない、
請求項6に記載の方法。
前記複数のドキュメントに関する自由に利用可能なメタデータは、前記複数のドキュメントの各ドキュメントについて、著者情報、ドキュメント要約、発行日付、ドキュメントタイトル、およびメタデータキーワードを含む、
請求項9に記載の方法。
各人の第2ユーザインターフェイス構成要素の各々を表示することは、前記各人に関連付けられている少なくとも1つの割り当てられた人対トピック類似スコアが人対トピック類似閾値を満足することを示す判定にしたがって、前記第2ユーザインターフェイス構成要素を含めるように前記インタラクティブ可視情報を更新する、ことを含む、
請求項14に記載の方法。
前記接続の第1セットの各接続の可視表示を含めるように前記インタラクティブ可視情報を更新することは、前記各接続に関連付けられている割り当てられた人対トピック類似スコアが人対トピック類似閾値を満足することを示す判定にしたがって、前記各接続の前記可視表示を含めるように前記インタラクティブ可視情報を更新する、ことを含む、
請求項14または請求項15に記載の方法。
前記接続の第2セットの各接続の可視表示を含めるように前記インタラクティブ可視情報を更新することは、前記各接続に関連付けられている割り当てられた人対人類似スコアが人対人類似閾値を満足することを示す判定にしたがって、前記各接続の前記可視表示を含めるように、前記インタラクティブ可視情報を更新する、ことを含む、
請求項14または請求項15に記載の方法。
第2ユーザインターフェイス構成要素の各々は、第2ユーザインターフェイス構成要素の各々に関連付けられている人対トピックおよび人対人類似スコアに基づいて、前記表示部に配置される、
請求項1〜請求項17の何れか1項に記載の方法。
【発明を実施するための形態】
【0028】
複数の図面にわたって、対応する部分には同様の参照符号が付されている。
【0029】
本開示のシステム、方法およびデバイスの様々な実装は、様々な態様を含み、様々な態様の何れか1つが以下に記載する特性全体の責任を負うわけではない。本開示を限定することなく検討することで、様々な実装の態様がどのように使用されて、計算処理デバイスが協働データのトピック中心可視化を行うことができるのか、を理解することができる。
【0030】
本開示の実装は、協働データのトピック中心可視情報を表示する方法を提供する。本開示の実装は、効率的に任意のデータセット(例えば、ドキュメントの集合、ドキュメントメタデータ、または他の協働データセット)を採掘し、各データセットの明瞭な可視情報を表示する。実装のいくつかにおいて、トピックモデリングを使用して、ユーザが、経時的な協働およびトピックを可視化することを可能とする。トピックおよび発行所は、基礎をなすドキュメントおよび共同著作による協働について関心領域の確定を支援する方法において、類似している。トピックモデリングを使用することの利点は、発行所が適切に確定されない場合、または、あまりにも少ない、もしくはあまりにも多い発行所がある場合であっても、可視情報を生成することができることである。また、トピックモデリングは関連性によるノードをフィルタリングすることができる、これにより、煩雑でない可視情報を生成することを支援することができる。したがって、より大きいデータセットを扱うことが可能となる。単に発行所のメタデータを使用する場合と異なり、トピックモデリングは用語のベクトル空間を提供する。これは、関連性(即ち、コサイン類似)を計算するために自然な方法である。LDAモデル(例えば、非特許文献1)を使用することで、各トピックは用語セットおよび関連付けられている確率によって表される。実装のいくつかにおいて、トピックは任意のデータセットのドキュメントおよび人の空間を適切にカバーし、これにより、可視情報のノードは関連閾値を変動することで効率的にフィルタリングされ得る。トピックモデルベクトル空間は、可視情報においてトピックノードをレイアウトする適切な方法を提供する。用語の高次元ベクトル空間におけるトピックは、MDS(多次元スケーリング)によって、トピック間の類似スコアに基づいて2次元平面にマッピングされ得る。データを分析する人々にとって、アクティビティレベルの急激な上昇を知ることができることは重要である。異なる時間にわたる様々なトピックのポピュラリティの変化を可視化するために、各トピックのアクティビティストリームに対してバースト検出アルゴリズムを適用する。タイムラインスライダが操作されると、トピックノードは色を変更し、異なる「ヒート」レベルを示す。
【0031】
実装のいくつかは多様なコンテキストに対して本開示の技術を適用する。本開示の技術は、あるトピックエリアに熟練した人、教育に広い関心を有する人、最近アクティブな人、または経時的に多大な経験を有する人を発見するために適用されてもよい。他の応用は、様々なエリアで働く人のバランスを管理者が評価することを支援すること、経時的にチームのメンバがどのように協働するかに関するポリシーの効果を知ることを支援すること、を含む。
【0032】
様々な実装を詳細に説明する。実装の例は、添付図面に示されている。以下の詳細な説明において、本開示および実装をよく理解できるように、特定された多くの詳細を記述する。しかしながら、本発明は、特定された多くの詳細がなくても実施することができる。また、よく知られた方法、プロシージャ、構成要素および回路については、詳細に説明しない。実装の態様を不必要に不明瞭にしないためである。
【0033】
図1は、実装のいくつかによるサーバシステム104の一部分である可視検出訓練モジュール(インタラクティブ可視化モジュール)114を含む分散システム100を例示するブロック図である。分散環境100は一つもしくは複数のクライアント102(例えば、クライアント102−1、…、102−s)を含み、クライアント102の各々はユーザ106(例えば、ユーザ106−1、…、106−s)によって操作される。クライアント(デバイス)102およびユーザ106は一対一で対応していなくてもよい。サーバシステム104は、インターネットなどの一つもしくは複数の通信ネットワーク108によってクライアント102と相互に接続されている。
【0034】
クライアント102(「クライアントデバイス」、「クライアントコンピュータ」もしくは「計算処理デバイス」ともいう)は、任意のコンピュータもしくは同様のデバイスであってよい。クライアント102を介して、クライアント102のユーザ106が、サーバシステム104にリクエストを送信し、サーバシステム104から結果もしくはサービスを受け取ることができる。クライアントデバイスの例は、例えば、デスクトップコンピュータ、ノートブックコンピュータ、タブレットコンピュータ、モバイルフォン、PDA(personal digital assistants)、セットトップボックス、もしくは、これらの任意の組み合わせを含む。クライアント102は、一般的に、クライアントアプリケーション326(
図3)を稼動し、クライアントアプリケーション326はサーバシステム104にリクエストを送信することができる。例えば、クライアントのいくつかは、ウェブブラウザ324もしくは他のタイプのアプリケーションを含む。ウェブブラウザ324もしくは他のタイプのアプリケーションによって、ユーザ106は、通信ネットワーク108を介して、サーバシステム104からアクセスされるリソース(例えば、ウェブページおよびウェブサービスをブラウズおよび/もしくは使用するためにサーチすることができる。
【0035】
いくつかの例において、クライアントデバイス102は、ラップトップコンピュータもしくはスマートフォンなどのモバイルデバイスである。ユーザ106は、一般的に、モバイルデバイス(クライアント102)を使用して、ウェブブラウザ、メッセージングアプリケーション、ソーシャルメディアアプリケーションなどを実行し、DBLPコンピュータサイエンスビブリオグラフィ(DBLP computer science bibliography)、グーグルドキュメント(Google Docs)、IEEEデジタルライブラリ(IEEE Digital Library)、パブメド(PubMed)および他の同様なリポジトリなどの外部サービス122とインタラクションする。外部サービス122は、例えば、協働データ(例えば、特定の分野において複数の著者によって発行された記事、もしくは、特定のトピックに関する多数の様々なユーザによる貢献を含むソーシャルメディアデータ、あるいは、当該記事またはソーシャルメディアデータを説明するメタデータ)をホスティングする(もしくは、協働データへのリンクを提供する)。サーバシステム104は外部サービス122に接続し、協働データのトピック中心可視化を行うために使用する協働データを取得する。
【0036】
実装のいくつかにおいて、クライアントデバイス102は、ローカルな構成要素(例えば、
図3:アプリケーション326)を含み、ローカルな構成要素は、サーバシステム104のインタラクティブ可視化モジュール114と共に、インタラクティブ可視化提示システムの構成要素として機能する。実装のいくつかにおいて、構成要素はソフトウェアアプリケーションであり、ソフトウェアアプリケーションは、外部サービス122またはサーバシステム104に保存されている大規模データベースに含まれる協働データをまとめ、当該協働データを取り出す。実装のいくつかにおいて、ローカルな構成要素はクライアント102で稼動するが、他の実装では、ローカルな構成要素はサーバシステム104のインタラクティブ可視化モジュール114の一部分である。実装のいくつかにおいて、ローカルな構成要素およびインタラクティブ可視化モジュール114はサーバシステム104の複数のサーバに別個に実装される。
【0037】
通信ネットワーク108は、イントラネット、エクストラネット、インターネット、もしくはこれらのネットワークの組み合わせなどの、有線または無線の、任意のLAN(local area network)および/もしくはWAN(wide area network)であってよい。実装のいくつかにおいて、通信ネットワーク108は、HTTP(HyperText Transport Protocol)を使用して、TCP/IP(Transmission Control Protocol/Internet Protocol)を用いて情報を運ぶ。HTTPは、クライアントコンピュータが、通信ネットワーク108を介して利用可能な様々なリソースにアクセスすることを許可する。全体にわたって、用語「リソース」は、コンテンツ位置識別子(例えば、URL)を介してアクセス可能な情報および/もしくはサービスを参照し、例えば、ウェブページ、ドキュメント、データベース、画像、計算処理オブジェクト、サーチエンジン、もしくは他のオンライン情報サービスであってよい。
【0038】
実装のいくつかにおいて、サーバシステム104は協働データ(例えば、複数のドキュメントに関するメタデータ)に関する情報を配分する。実装のいくつかにおいて、サーバシステム104は、多くのファイルもしくは他の様々なタイプのデータ構造を含み、これらのファイルもしくはデータ構造は、テキスト、グラフィックス、ビデオ、音声、デジタルフォト、および他のデジタルメディアファイルの組み合わせを含む。
【0039】
実装のいくつかにおいて、サーバシステム104はインタラクティブ可視化モジュール114を含む。インタラクティブ可視化モジュール114はアプリケーション(もしくはアプリケーションの組み合わせ)であり、協働データの大規模集合を利用して、協働データのトピック中心可視化を行う。例えば、インタラクティブ可視化モジュール114はLDAベースアルゴリズムを用いてトピックを取得し、人(例えば、協働データの共著者など)の間の、および、人と取得したトピックとの間の接続を判定し、判定した接続の各々の類似スコアを判定し(、判定されたトピックのアクティビティバースト指標を判定し)、判定された接続(もしくは所定の類似スコア閾値を満たす接続だけ)を示すインタラクティブ可視化を行う(例えば、
図1:クライアントデバイス102−1などのクライアントデバイスにデータを提供することで、インタラクティブ可視化を行う)。実装のいくつかにおいて、インタラクティブ可視化は、スライダ(例えば、
図4C:タイムラインスライダ422)によって行われ、ユーザは期間(例えば、
図4C:2003年〜2005年に対応する選択された期間424)を選択することができ、これにより、ユーザは経時的な変化を見ることができる。
【0040】
実装のいくつかにおいて、サーバシステム104は外部サービス122に接続し、メタデータなどの協働データに関する情報を取得する。情報は、外部サービス122によって収集され、維持されている。取得された情報は、次に、サーバ104の可視化データベース112(データベース112ともいう)に保存される。実装のいくつかにおいて、可視化データベース112は、協働データ230、トピック232のセット、人234、人と人との接続236、人とトピックとの接続238、および他のデータを保存する。このデータを使用して、協働データのインタラクティブ可視化を行う(詳細は以下に記載する)。
【0041】
図2は、サーバシステム104で使用され得るサーバ200を例示するブロック図である。一般的なサーバシステムは、多くの個別サーバ200を含み、多くの個別サーバ200は同じ位置に配置されてもよいし、物理的に異なる複数の位置に配置されてもよい。サーバ200は、一般的に、メモリ214に記憶されているモジュール、プログラム、もしくは命令を実行することで、処理動作を実行する一つもしくは複数の処理ユニット(CPU)202、一つもしくは複数のネットワークもしくは他の通信インターフェイス204、メモリ214、これらの構成要素を相互に接続する一つもしくは複数の通信バス212を含む。通信バス212は、システム構成要素を相互に接続し、システム構成要素間の通信を制御する回路(チップセットともいう)を含んでいてもよい。実装のいくつかにおいて、サーバ200は、表示部208およびキーボードおよびマウスなどの一つもしくは複数の入力デバイスを含み得るユーザインターフェイス206を含む。
【0042】
実装のいくつかにおいて、メモリ214は、DRAM、SRAM、DDR RAMもしくは他のランダムソリッドステートメモリデバイスなどの高速ランダムアクセスメモリを含む。実装のいくつかにおいて、メモリ214は、一つもしくは複数の磁気ディスクストレージデバイス、光ディスクストレージデバイス、フラッシュメモリデバイスもしくは他の不揮発性ソリッドストレージデバイスなどの不揮発性メモリを含む。実装のいくつかにおいて、メモリ214は、CPU202から離れた位置に配置された一つもしくは複数のストレージデバイスを含む。メモリ214もしくは代替的にメモリ214内の不揮発性メモリデバイスは、非一時的コンピュータ可読ストレージ媒体を含む。実装のいくつかにおいて、メモリ214もしくはメモリ214のコンピュータ可読ストレージ媒体は、以下のプログラム、モジュールおよびデータ構造もしくはプログラム、モジュールおよびデータ構造のサブセットを保存する。
●オペレーティングシステム216。オペレーティングシステム216は、様々な基本システムサービスを取り扱い、ハードウェア依存タスクを実行するプロシージャを含む。
●通信モジュール218。通信モジュール218は、サーバ200を、他のコンピュータに、インターネット、他のWAN(wide area network)、LAN(local area network)、メトロポリタンエリアネットワークなどの一つもしくは複数の通信ネットワークインターフェイス204を(有線もしくは無線で)介して、接続する。
●ユーザインターフェイスモジュール220。ユーザインターフェイスモジュール220は、一つもしくは複数の入力デバイス210からの入力を受信し、表示部(例えば、サーバの各々の表示部208)での表示のために(、もしくは、
図3のクライアントデバイス102の表示部308などのクライアントデバイスの表示部での表示のために)、ユーザインターフェイスの構成要素を生成する。
●一つもしくは複数のウェブサーバ110。一つもしくは複数のウェブサーバ110は、クライアントデバイス102からリクエストを受信し、リクエストに応答して、ウェブページ、リソース、もしくはリンクをリターンする。実装のいくつかにおいて、リクエストの各々はデータベース(例えば、データベース112)にログインする。
●データベースアクセスモジュール222。データベースアクセスモジュール222は、データベース112に記憶されているデータを読む、書く、問い合わせるプロシージャを含む。(これにより、クライアントデバイス102は、可視化データベース112に記憶されているデータにアクセスすることを許可される。)
●インタラクティブ可視化モジュール114。インタラクティブ可視化モジュール114は、協働データのトピック中心可視化を行うため、もしくは、協働データのトピック中心可視化において提示するデータを生成するために使用される。(生成されたデータは、クライアントデバイス102によって使用され、トピック生成可視化を行う。)実装のいくつかにおいて、インタラクティブ可視化モジュール114は、クライアントデバイスからのリクエストに応答して(例えば、クライアントデバイス102は特定の期間の間特定のデータセットの協働データのインタラクティブ可視化のリクエストを送信する)、クライアントデバイスに特定のデータセットのトピックのセットを送信し(例えば、トピック識別モジュール224によって識別された)、特定のデータセットの人対人、人対トピック接続を識別する情報(例えば、接続識別モジュール226によって識別された接続)、および、識別された接続に割り当てられた類似スコアを識別する情報(例えば、類似スコア割り当てモジュール228によって割り当てられた類似スコア)を送信する。実装のいくつかにおいて、インタラクティブ可視化モジュール114は以下のモジュール、もしくはモジュールのサブセットもしくはスーパーセットを含む。
○トピック識別モジュール224。トピック識別モジュール224はデータセット(例えば、協働データのセットに関する情報)を分析し、データセットのトピックのセットを識別する。実装のいくつかにおいて、LDAベースアルゴリズムを使用し、トピックのセットの識別を支援する(
図6A、
図6B、
図7を使用して、以下でより詳細に説明する)。実装のいくつかにおいて、トピック識別モジュール224を使用し、トピックのセットのトピックの各々のバーストレベルを計算する(
図6A、
図6B、
図7を使用して、以下でより詳細に説明する)。
○接続識別モジュール226。接続識別モジュール226は、特定のデータベースで人対人(例えば、共著者)および人対トピック(例えば、特定の期間において特定のトピックに貢献した人々)接続を識別する(
図6A、
図6B、
図7を使用して、以下でより詳細に説明する)。
○類似スコア割り当てモジュール228。類似スコア割り当てモジュール228は、接続識別モジュール226によって識別された接続の各々に類似スコアを割り当てる(例えば、人対トピック接続の各々について、割り当てられた類似性スコアは、特定の期間における特定のトピックに特定の人が関連する度合いを示す)。
●一つもしくは複数の可視化データベース112。一つもしくは複数の可視化データベース112はインタラクティブ可視化モジュール114および/もしくは、インタラクティブ可視化モジュールの構成要素の1つもしくは複数で使用されるデータを記憶する。実装のいくつかにおいて、可視化データベース112は、SQLデータベースなどのリレーショナルデータベースであり、他の実装では、データベース112はJSONオブジェクトなどのデータ構造の集合もしくは非リレーショナル形式で記憶されたデータ構造およびリレーショナルデータベースの組み合わせを含む。実装のいくつかにおいて、可視化データベース112は以下を記憶する。
○協働データ230。協働データ230は、様々な外部サービス(例えば、DBLPコンピュータサイエンスビブリオグラフィ(DBLP computer science bibliography)、グーグルドキュメント(Google Docs)、IEEEデジタルライブラリ(IEEE Digital Library)、パブメド(PubMed)および他の科学会議およびジャーナルからのウェブサイトホスティング公開などの、
図1の外部サービス122−1)から収集される。実装のいくつかにおいて、協働データ230は複数のドキュメント(例えば、アカデミックな記事、一般向け記事、ソーシャルメディア投稿など)に関する自由に取得することができるメタデータを含む。
○トピックセット232。トピックセット232は、協働データの特定のセットについて、トピック識別モジュール(例えば、トピック識別モジュール224)によって識別される。実装のいくつかにおいて、可視化データベース112は協働データのセットの各々についてのトピックセット232を含む(他の実装において、よく使用されるトピックセット232は記憶され、トピックの他のセットは迅速に識別され記憶されない)。
○人234。人234は、協働データの特定のセットについて接続識別モジュールによって識別される一つもしくは複数の人対人および人対トピック接続と関連付けられている。実装のいくつかにおいて、可視化データベース112は協働データのセットの各々について人234を含む(他の実装において、よく使用される人234は記憶され、他の人は迅速に識別され記憶されない)。
○人対人接続236。人対人接続236は、協働データの特定のセットについて接続識別モジュール(例えば、接続識別モジュール226)によって識別される。実装のいくつかにおいて、可視化データベース112は協働データのセットの各々について人対人接続236を含む(他の実装において、よく使用される人対人接続236は記憶され、他の人対人接続は迅速に識別され記憶されない)。
○人対トピック接続238。人対トピック接続238は、協働データの特定のセットについて接続識別モジュールによって識別される(例えば、接続識別モジュール226)。実装のいくつかにおいて、可視化データベース112は、協働データのセットの各々について人対トピック接続238を含む(他の実装において、よく使用される人対トピック接続238は記憶され、他の人対トピック接続は迅速に識別され、記憶されない)。
【0043】
図2で識別された上記要素の各々は上記メモリデバイスの一つもしくは複数に記憶されてもよい。実行可能なプログラム、モジュール、もしくはプロシージャの各々は、上記機能を実行する命令のセットに対応する。上記識別されたモジュールもしくはプログラム(即ち、命令のセット)は別個のソフトウェアプログラム、プロシージャ、もしくはモジュール、として実装されなくてもよく、これらのモジュールの様々なサブセットが組み合わされ、様々な実装において再構成されてもよい。実装のいくつかにおいて、メモリ214は、上記識別されたモジュールおよびデータ構造のサブセットを記憶する。また、メモリ214は、上記されていない追加的なモジュールもしくはデータ構造を記憶していてもよい。
【0044】
図2はサーバ200を例示するが、
図2は、ここで説明する実装の構造的な概念ではなく、サーバシステム104で使用されるサーバで示され得る様々な特徴の機能的な例示であることを意図している。実用的には、別個に示された要素は組み合わされてもよいし、いくつかの要素は分離されてもよい。サーバシステム104の機能を実装するために使用されるサーバ200の実際の数、どの機能がどのサーバ200に割り当てられるか、は実装によって異なり、ピーク使用時および平均使用時にシステムが扱わなければならないデータトラフィック量に部分的に依存してもよい。
【0045】
図3は、実装のいくつかによるクライアントデバイス102を例示するブロック図である。クライアントデバイス102は、ラップトップコンピュータ、ノートブックコンピュータ、タブレットコンピュータ、デスクトップコンピュータ、スマートフォン、およびPDAを含む。クライアントデバイス102は、一般的に、一つもしくは複数の処理ユニット(CPU)302、一つもしくは複数のネットワークインターフェイス304、メモリ314、ユーザインターフェイス306およびこれらの構成要素を相互に接続する一つもしくは複数の通信バス312(チップセットともいう)を含む。ユーザインターフェイス306は一つもしくは複数のデバイス308を含み、一つもしくは複数のデバイス308は、一つもしくは複数のスピーカおよび/もしくは一つもしくは複数の可視ディスプレイを含むメディアコンテンツの提示を可能にする。ユーザインターフェイス306は一つもしくは複数の入力デバイス310も含み、一つもしくは複数の入力デバイス310は、キーボード、マウス、音声コマンド入力ユニットもしくはマイクロフォン、タッチスクリーンディスプレイ、タッチセンシティブ入力パッド、カメラ(例えば、様々なビジネス施設で写真の撮影を行うが、写真と共に位置情報は記憶しないカメラ)、ジェスチャキャプチャカメラ、もしくは他の入力ボタンもしくはコントロールなどのユーザ入力を容易にするユーザインターフェイス構成要素を含む。また、クライアントデバイス102のいくつかは、キーボードの補助として、もしくは、キーボードの代わりに、マイクロフォンおよび音声認識もしくはカメラおよびジェスチャ認識を使用する。
【0046】
メモリ314は、DRAM、SRAM、DDR RAMもしくは他のランダムアクセスソリッドステートメモリデバイスなどの高速ランダムアクセスメモリを含む。実装のいくつかにおいて、メモリは、一つもしくは複数の磁気ディスクストレージデバイス、一つもしくは複数の光ディスクストレージデバイス、一つもしくは複数のフラッシュメモリデバイス、もしくは一つもしくは複数の他の不揮発性ソリッドステートストレージデバイスなどの不揮発性メモリを含む。実装のいくつかにおいて、メモリ314は処理ユニット302から離れた位置に配置された一つもしくは複数のストレージデバイスを含む。メモリ314、もしくは、代替的に、メモリ314の不揮発性メモリは、不揮発性コンピュータ可読ストレージ媒体を含む。実装のいくつかにおいて、メモリ314もしくはメモリ314の非一時的コンピュータ可読ストレージ媒体は、以下のプログラム、モジュールおよびデータ構造もしくはプログラム、モジュールおよびデータ構造のサブセットもしくはスーパーセットを記憶する。
●オペレーティングシステム316。オペレーティングシステム316は、様々な基本システムサービスを扱い、ハードウェア依存タスクを実行するプロシージャを含む。
●通信モジュール318。通信モジュール318は、一つもしくは複数の通信ネットワークインターフェイス304を介して、および、インターネット、他のWAN(wide area network)、LAN(local area network)、メトロポリタンエリアネットワークなどの一つもしくは複数の通信ネットワーク108を介して、クライアントデバイス102を他のコンピュータおよびデバイスに、(有線または無線で)接続するために使用される。
●表示モジュール320。表示モジュール320は一つもしくは複数の入力デバイス310から入力を受信し、表示部308に表示するユーザインターフェイス構成要素を生成する(および/もしくは、
図2の一つもしくは複数のサーバ200から受信した情報に基づいて、表示するユーザインターフェイス構成要素を生成する)。
●入力処理モジュール322。入力処理モジュール322は、一つもしくは複数の入力デバイス310の1つからの一つもしくは複数のユーザ入力もしくはインタラクションを検出し、検出した入力もしくはインタラクションを解釈する。実装のいくつかにおいて、入力処理モジュール322は表示されたタイムラインスライダ(例えば、
図4Aおよび
図4Cのタイムラインスライダ422)で選択された期間(例えば、
図4Aおよび
図4Cの選択された期間)への変更を検出し、変更に応答して、インタラクティブ可視化で表示する情報を更新するためにサーバに(例えば、ウェブブラウザ324を介して)リクエストを送信する。
●ウェブブラウザ324。ウェブブラウザ324は、(インターネットなどの)ネットワーク104を介して、リモートコンピュータもしくはデバイスとユーザが通信することを可能とする。
●一つもしくは複数のアプリケーション326−1〜326−u。一つもしくは複数のアプリケーション326−1〜326−uは、クライアントデバイス102によって実行されるように構成されている。様々な実装において、アプリケーション326は、カメラモジュール、センサモジュール、一つもしくは複数のゲーム、アプリケーションマーケットプレイス、ペイメントプラットフォームおよび/もしくはソーシャルネットワークプラットフォームを含む。実装のいくつかにおいて、アプリケーション326の一つもしくは複数はウェブブラウザ324で稼動する。実装のいくつかにおいて、一つもしくは複数のアプリケーションは、デバイス102のユーザがインタラクティブ可視情報を見て、インタラクティブ可視情報とインタラクションすることを(例えば、
図6A、
図6B、
図7を使用して以下で説明する方法の何れかを使用して、)可能とするアプリケーションを含む。
●クライアントデータ328。クライアントデータ328はデバイス102もしくはデバイス102のユーザ106に関する情報を含む。実装のいくつかにおいて、クライアントデータ328は一つもしくは複数のユーザプロファイル330を含み、一つもしくは複数のユーザプロファイル330は、インタラクティブ可視情報を見ることに関するユーザの好みを記憶するために使用され得るユーザ固有情報を含んでいてもよい。実装のいくつかにおいて、クライアントデータ328はユーザデータを含み、ユーザデータはクライアントデバイスでのユーザアクティビティのログである。
●インタラクティブ可視化モジュール334(必須ではない)。インタラクティブ可視化モジュール334は、クライアントデバイスで提示するためにインタラクティブ可視化をローカルに行う。実装のいくつかにおいて、インタラクティブ可視化モジュール334は、サーバ側インタラクティブ可視化モジュール(例えば、サーバ200のインタラクティブ可視化モジュール114)の一つもしくは複数の構成要素を、クライアントデバイスが使用することを可能とし、ローカル動作を実行し、もしくは、一つもしくは複数の構成要素によって実行される動作のいくつかの実行をサーバと分割する。
●一つもしくは複数の可視化データベース338(必須ではない)。一つもしくは複数の可視化データベース338は、可視化データベース112(
図2)に記憶されているデータの全てまたは一部を記憶する。これにより、例えば、ネットワークトラフィック状態が遅い場合、ネットワークを介して一つもしくは複数のサーバ200と情報を交換するよりもデータはより効率的に記憶され、ローカルにアクセスされ得る。
【0047】
上記実行可能なモジュール、アプリケーションもしくはプロシージャのセットの各々は一つもしくは複数の上記メモリデバイスに記憶されてもよく、上記機能を実行する命令セットに対応する。上記モジュールもしくはプログラム(即ち、命令セット)は個別のソフトウェアプログラム、プロシージャ、もしくはモジュールとして実装されなくてもよい。これらのモジュールの様々なサブセットは組み合わされ、様々な実装において再構成されてもよい。実装のいくつかにおいて、メモリ314は、上記モジュールのサブセットおよびデータ構造を記憶してもよい。また、メモリ314は、上記していない追加的なモジュールもしくはデータ構造を記憶してもよい。
【0048】
図3はクライアントデバイス102を例示するが、
図3は実装の構造的な概念ではなく提示され得る様々な機能の機能的な説明を意図している。実用において、別個に示される要素は組み合わされてもよいし、要素のいくつかは分離されてもよい。
【0049】
実装のいくつかにおいて、サーバシステム104の機能のいくつかはクライアントデバイス102によって実行され、これらの機能の対応するサブモジュールはサーバシステム104ではなくクライアントデバイス102によって実行されてもよい(上記したように、例えば、インタラクティブ可視化モジュール114(
図2)の一つもしくは複数の構成要素によって実行される機能は、必須ではないインタラクティブ可視化モジュール334(
図3)によって代わりに実行されてもよい)。反対に、実装のいくつかにおいて、クライアントデバイス102の機能のいくつかはサーバシステム104によって実行され、これらの機能の対応するサブモジュールはクライアントデバイス102ではなくサーバシステム104に配置されてもよい。
図2および
図3に示されるサーバ200およびクライアントデバイス102は実装のいくつかを例示する。他の構成がここで説明する機能を実装するために使用されてもよい。
【0050】
図4A、
図4B、および
図4Cは、協働データの例示的なインタラクティブ可視化の態様を例示する。詳細には、
図4Aはユーザインターフェイス(例えば、
図3のクライアントデバイス102などの計算処理デバイスの表示部に表示されるユーザインターフェイス)であり、実装のいくつかによる協働データの可視化(協働マップ400ともいう)を例示する。
図4Bは、協働マップ400の一部分(例えば、協働マップ部分450)の拡大図を例示し、
図4Cはタイムラインスライダ(例えば、タイムラインスライダ422)を例示し、タイムラインスライダは協働マップの期間を選択するために使用され得る。
【0051】
図4Aはフジゼロックスパロアルト研究所(「FXPAL」)によって公開され、FXPALの発行記事データベースに維持されている複数の記事についてのインタラクティブ可視情報(協働マップ400)を例示する。協働マップ400は、特定の期間の間(例えば、タイムラインスライダ422に例示される2003年〜2005年に対応する選択された期間424)、トピックおよび関連付けられている一つもしくは複数の可視表示を提供する。説明を容易にするために、および、協働マップが煩雑になることを防ぐために、協働マップ400に例示されるトピックノード、人ノードおよび接続のサブセットだけにラベルを付ける。
【0052】
図4Aに例示されるように、協働マップ400は、トピックノード(例えば、トピックノード402−A、402−Bおよび402−C)、人ノード(例えば、人ノード404−Aおよび404−B)、人および他の人の間の接続の可視表示(例えば、共著者を示す人の間のライン、
図4Bにおいて例示的にラベル付けされている)およびトピックと人との間の接続の可視表示(例えば、ノード間のライン、
図4Bにおいて例示的にラベル付けされている)を含む。
【0053】
実装のいくつかにおいて、トピックノードの各々は可視的に第1ユーザのインターフェイスオブジェクトを用いて表示される。第1ユーザインターフェイスオブジェクトは正方形の図形、および、必須ではないが、トピックのバーストアクティビティレベルの表示(例えば、
図7を使用して以下で詳細に説明する)、トピックについてのトピック構成要素用語の所定の数(例えば、3用語)、およびトピックについての数値識別子、の一つもしくは複数を含む。例えば、(
図4Aおよび
図4Bに示されるように、)トピックノード402−Aは正方形の図形(およびトピックのバーストアクティビティレベルが低いことを示す表示)、3トピック構成要素用語(「仮想」、「現実」および「工場」)および[]に表示された数値識別子(「18」)を含む。実装のいくつかにおいて、トピックノードは、類似のトピックが近くに集まって配置されるように位置付けされる(例えば、
図4Aおよび
図4Bに示されるように、トピックノード402−Bはトピックノード402−Cよりもトピックノード402−Aに類似している)。
【0054】
実装のいくつかにおいて、人ノードの各々は、(上記した第1ユーザインターフェイスオブジェクトとは異なる)第2のユーザインターフェイスオブジェクトを用いて可視的に表示される。第2のユーザインターフェイスオブジェクトは円形図形および人ノードと関連付けられている人の名前を含む。例えば、(
図4Aおよび
図4Bに示されるように、)人ノード404−Aは円形図形および名前「Mark Newman」を含む。実装のいくつかにおいて、人ノードは、類似の人が近くに集まって配置されるように位置付けされる(例えば、
図4Aおよび
図4Bに示されるように、人ノード404Aは人ノード404−Cより人ノード404−Bに類似している)。
【0055】
実装のいくつかにおいて、人と他の人との間の接続の可視表示は、人と別の人とを接続するラインの各々として可視的に表示される(例えば、人対人接続406Aは人ノード404Aと人ノード404Bとを接続する)。実装のいくつかにおいて、人対人接続の可視表示の各々は、接続された人の間の類似の度合いを示す(長さが短い場合類似スコアは高い。
図4Aおよび
図4Bに示されるように、例えば、人対人接続406Aは人対人接続406−Bよりも高い類似スコアに関連付けられている)。
【0056】
実装のいくつかにおいて、人とトピックとの間の接続の可視表示は人とトピックとを接続するラインの各々として可視的に表示される(例えば、人対トピック接続408Aは人ノード404−Bをトピックノード402−Bと接続する)。実装のいくつかにおいて、人対トピック接続の可視表示は人対人接続の可視表示とは異なる外観を有する(例えば、異なる色、異なる幅などのライン)。実装のいくつかにおいて、人対トピック接続の可視表示の各々の長さは、接続された人対トピックの間の類似を示す(長さが短い場合、類似スコアは高い。例えば、
図4Aおよび
図4Bに示すように、人対トピック接続408−Aは、人対トピック接続408Aよりも高い類似スコアに関連付けられている)。
【0057】
実装のいくつかにおいて、トピックノードは協働マップ400の固定位置に表示され、人ノードは一時的な位置に表示される。これにより、ユーザが選択期間を(例えば、
図4Aおよび
図4Cに詳細に例示されるように、タイムラインスライダ422を使用して)操作する場合、トピックノードの位置は変更されないが、人ノードの位置は協働マップ400内で変更される。実装のいくつかにおいて、タイムラインスライダ422を使用して選択期間をユーザが操作するに従って、変更される人ノードの位置はアニメーションで表示される。これにより、様々な期間にわたって固定されたトピックに関連してどのように協働が変化したかに関する明瞭な表示をユーザに提供する。実装のいくつかにおいて、人ノードおよびトピックノードへの接続に関連付けられている類似スコアに依存して、人ノードは出現し、消失する(例えば、
図7を使用して詳細に説明されるように、閾値を越える類似スコアを有する人ノードだけが選択された期間について表示される。)。
【0058】
高レベルで、協働マップ400は、選択された期間(例えば、
図4Aの選択された期間424)にどの人々がどのトピックに協働したかを示す。実装のいくつかについて、ドキュメント(例えば、FXPAL発行物などの協働マップ400を描画するために使用される協働データの一部分であるドキュメント)のノードは、協働マップ400には描画されない。ドキュメントは、可視情報から価値のある情報を抽出するために必要ではないからである。実装のいくつかについて、協働マップ400で人ノードを迅速にクリックすると(例えば、人ノード404−A(例えば、Mark Newman)をクリックすると)、計算処理デバイスは人ノード404−Aによって表示される人に対応する著作されたドキュメントのリストを表示する。実装のいくつかにおいて、人ノードの各々を、選択し、ドラッグすることで、人ノードおよび人ノードへのリンクをより適切に見ることができる(例えば、人ノード404−Cをクリックし、所定の時間クリックを維持することで、ユーザはノード404−Cおよびノード404−Cに関連付けられている周辺の接続をドラッグし、隠れている何かを見ることができる)。実装のいくつかにおいて、上記によって、人ノードの各々の周辺が煩雑である場合でもユーザがよく見ることができるようにすることが可能となる。ノードが解放されると(例えば、ユーザがクリックを解除すると)、人ノードの各々は協働マップの元の位置に戻る。
【0059】
実装のいくつかにおいて、関連スコア閾値パラメータは人ノードのいくつがフィルタリングされ、いくつが可視化されるかを制御する。実装のいくつかにおいて、閾値を越える類似スコアを有するノードが取り出される。トピックノードに対する人ノードの類似スコアは人のドキュメントのトピックに対するコサイン類似度に基づいている。ドキュメントは(発行所と異なり、)2つ以上のトピックに関連していてもよい。関連スコアは、高い値を使用することで関連性が高い人ノードを検出する、もしくは標準的な値を使用することで、散乱および隠れを低減するなどの異なる目的を達成するために設定され得る。類似スコアおよび閾値の使用に関するさらなる詳細は、
図7を使用して以下で説明する。
【0060】
実装のいくつかにおいて、協働マップ400は4Kディスプレイなどの高解像度での表示に適するように最適化される。
【0061】
図5A〜
図5Cは、実装のいくつかによって、可視化の期間が操作されるに従って変動する協働データの可視情報の部分の一連のユーザインターフェイス(502、504、506)を示す。
【0062】
詳細には、
図5Aは第1の期間(例えば、2002年〜2004年)の協働マップの部分を例示する。第1の期間の間、「Jean-Danial Fakete」と関連付けられている第1の人ノード510は、1つのトピックノード(「[4] graph layout tree(グラフレイアウトツリー)」)に接続され、2つの異なる人(「P. Castagliola」および「M. Ghoniem」と関連付けられている他の2つの人ノードに接続される。
図5Bでは、第2の期間(例えば、2004年〜2006年)の間、第1の人ノード510は追加的な人ノード(「N. Henry」)および追加的なトピックノード(「[18] network social structure(ネットワークソーシャル構造)」)に接続されている。さらに、第2の人ノード512(
図5A)は、
図5Bには存在しない(関連付けられている人は、第2の期間の間、十分に関連していない。例えば、第2の人ノード512に関連付けられている類似スコアはスコアの閾値を越えないためである)。
【0063】
図5Cは、
図5Aおよび
図5Bに例示される期間に関連するその後の期間(2011年〜2013年)について例示し、第1の人ノード510(「Jean-Daniel Fakete」を表す人ノード)に接続されているトピックノードおよび人ノードへの変更を例示する。その後の期間の間、「Jean-Daniel Fakete」についての第1の人ノード510は協働マップの他の位置に移動し、他のトピック(「[19] analysis display knowledge(分析表示知識)」)および他の人々/協働作業者(例えば、「R. Vuillemont」および「C. Perin」)と関連付けられている。
【0064】
この方法で、タイムラインスライダ(例えば、
図4Aおよび
図4Cのタイムラインスライダ422)を操作して他の期間を選択することで、選択した期間の間の、人々および人々が貢献したトピックの間の協働の変化を迅速におよび容易に見ることが可能となる(また、
図5A〜
図5Cの第1の人ノードと関連付けられているトピックおよび人への変化によって例示されるように、選択された期間の間、最も関連する人だけを見ることが可能となる)。
【0065】
図6A、
図6Bは、実装のいくつかによる協働データのインタラクティブ可視化を行う方法を描写するフローチャートである。実装のいくつかにおいて、方法600は計算処理デバイス(例えば、
図1の計算処理デバイス102)、および/もしくは、計算処理デバイスの一つもしくは複数の構成要素(例えば、オペレーティングシステム126など)によって実行される。実装のいくつかにおいて、方法600は一つもしくは複数のサーバ200(
図2)と組み合わせられた計算処理デバイスによって実行される。例えば、一つもしくは複数のサーバ200は計算処理デバイス102にデータを送信し、計算処理デバイスはデータを使用し、方法600の動作を実行する(即ち、方法600の動作は一つもしくは複数のサーバ200によって実行される)。実装のいくつかにおいて、方法600は非一時的コンピュータ可読ストレージ媒体に記憶されている命令によって制御され、(
図3の)デバイス102の一つもしくは複数のプロセッサ302などの、デバイスの一つもしくは複数のプロセッサによって実行される。説明を簡潔にするために、方法600はデバイス102によって実行されるものとする。実装のいくつかにおいて、
図3に関して、方法600の動作は可視化データベース338、インタラクティブ可視化モジュール334(例えば、
図2のサーバ側インタラクティブ可視化モジュール114の一つもしくは複数の構成要素と通信して)、表示モジュール320、入力処理モジュール322、ウェブブラウザ324、通信モジュール318、入力デバイス310、表示部308(例えば、タッチセンシティブディスプレイ)の少なくとも部分によって、もしくはこれらを使用して実行される。また、デバイス102は一つもしくは複数のサーバ200からデータ(例えば、
図2の協働データ230、トピックのセット232、人234、人対人接続236および人対トピック接続238)を受信し、これらを方法600の一つもしくは複数の動作を実行するために使用する。方法600の動作のいくつかは、組み合わされてもよいし、および/または、動作の順序は変更されてもよい。
【0066】
図6Aに例示されるように、データセットD(例えば、協働データに関するメタデータ)を識別し、データセットの用語のベクトル空間Vを生成することで、方法600は開始する(602)。実装のいくつかにおいて、データセットはドキュメントメタデータを含む。実装のいくつかにおいて、メタデータは、トピックモデリング動作の間に使用する時間情報(例えば、発行年)およびテキストの量(例えば、要約)を含む。
【0067】
実装のいくつかにおいて、ワードがメタデータ(要約、キーワード、タイトルなど)から抽出され、ストップワードが除去される。用語のベクトル空間Vを生成するために、ドキュメントの各々は用語カウントのベクトルとして表され、用語のベクトル空間Vを生成する。Vから、kトピックのリストを特定のアルゴリズム(例えば、BleiのLDAアルゴリズム)を用いて判定する(604)。実装のいくつかにおいて、トピックの数kは予め定められている(もしくは、代替的に、kはユーザによって選択されてもよい)。
【0068】
以下に説明するようにLDAアルゴリズムの結果を用いて、Vの次元を低減する(606)。トピックの各々は、トピックについて条件を付された用語の確率に関連付けられている構成要素の用語を含む。確率は分類され、値は急速に低下するため、トピックの各々についてm個の用語だけ維持する(m=10とする)。構成要素の用語はk個のトピックの間で重複していてもよい。これらの構成要素の用語の和集合はVのサブ空間Vcを生成する(dim(Vc)〜k*m)。次元を低減することで、大規模データセットのスケーリングが容易となり、計算処理時間およびメモリ空間を効率的に使用することができる(これは、クライアントデバイスで可視化を行うために、ウェブブラウザにデータを送信する必要がある実装において特に重要である)。
【0069】
実装のいくつかにおいて、トピックについてバースト検出を計算する。例えば、トピックの各々について、タイムポイントの各々について関連ドキュメントの数を検出し、アクティビティストリームを生成する(608)。バースト検出アルゴリズム(例えば、非特許文献2)をトピックの各々のアクティビティストリームに適用する。次に、トピックのタイムポイントの各々について、バーストレベルを割り当てる(例えば、最高アクティビティレベルが3である場合、{0,1,2,3})。実装のいくつかにおいて、バーストレベルは可視情報において異なる「ヒート」カラー(例えば、
図4A、
図4B、
図5A〜
図5Cに示されるように、トピックノードの各々に対応するユーザインターフェイス構成要素に提示されるグリーン、イエロー、オレンジ、レッド)にマッピングされる。
【0070】
可視化においてトピックノードをレイアウトするために、ノードLのセットとしてトピックを含むように、グラフが定義される(610)。実装のいくつかにおいて、Lをレイアウトするために(例えば、可視情報におけるトピックの各々のxy座標を決定するために)、610〜612のベクトル空間のトピック間のコサイン類似に基づいて、MDSが利用されてもよい。実装のいくつかにおいて、コサイン類似はVcに関して計算される。
【0071】
実装のいくつかにおいて、タイムラインスライダ(例えば、
図4Cのタイムラインスライダ422)がダイヤル(例えば、
図4Cのダイヤル440)と共に提供され、(例えば、
図4Cの選択期間424を決定するための)間隔長さおよび時間位置を選択するために使用される。選択された時間間隔を使用して、(P*を生成するために)人ノードをフィルタリングし(614)、これにより、選択された期間(D*)に著作されたドキュメントを有する人々だけが可視情報において示される(616)。実装のいくつかにおいて、動作616〜624は、タイムラインスライダを使用して新しい期間が選択される(判定614が肯定される)毎に実行され、新しい期間に対応する可視情報を生成する。新しい期間が選択されない(判定614が否定される)場合、方法600の動作の何れかを再度実行することなく、可視情報は(例えば、
図3の計算処理デバイスの表示部上で)維持される。
【0072】
実装のいくつかにおいて、Lに対する類似スコアD*に基づく重みを有するノードおよびエッジであるLおよびP*でグラフG*が定義される(618)。選択された期間における共同著作者関係をもつ人ノードの間のリンクが(例えば、パープルで)強調される。人ノードと関連トピックノードとの間のリンクが(例えば、グレーで)示される。これらのリンクはアニメーションを動かすための、および、ノードリンクレイアウトを生成するための力を定義する。実装のいくつかにおいて、Lノードの固定位置を使用し、グラフG*のレイアウトモデルに向かう力を使用することで、G*はレイアウトされる(620)。
【0073】
実装のいくつかにおいて、トピックノードは、選択された期間の最大バーストレベルに基づいて色を付与される(622)。カラーパッチの各々のサイズは、(時間軸に添ったトピックの総合アクティビティに対する)期間の間のアクティビティの割合を表す。タイムラインスライダ(例えば、
図4Aのタイムラインスライダ422)は可視情報内で操作されるので、トピックのポピュラリティレベル(現在選択されている期間に対する類似スコア)は(他のトピックのポピュラリティレベルの視認可能な変化に添って)視認可能に増加し、その後低減する。
【0074】
図6Aおよび
図6Bの動作の順番は単なる例示であり、動作が実行可能な唯一の順番であることを示すことを意図していない。動作の順番は変更可能である(例えば、方法600の一つまたは複数の動作と以下の方法700の一つまたは複数の動作とを組み合わせてもよい。)。
【0075】
図7は、実装のいくつかによる協働データのインタラクティブ可視情報を提示する方法を例示する。実装のいくつかにおいて、方法700は、計算処理デバイス(例えば、
図1の計算処理デバイス102)および/または、計算処理デバイスの一つまたは複数の構成要素(例えば、オペレーティングシステム126など)によって実行される。実装のいくつかにおいて、方法700は、一つまたは複数のサーバ200(
図2)と組み合わせた計算処理デバイスによって実行される。例えば、一つまたは複数のサーバ200はデータを計算処理デバイス102に送信し、データが計算処理デバイスによって使用されることで、方法600の動作が実行される(即ち、方法700の動作のいくつかは一つまたは複数のサーバ200によって実行される)。実装のいくつかにおいて、方法700は、非一時的コンピュータ可読ストレージ媒体に記憶され、デバイス102の一つまたは複数のプロセッサ(
図3)などの、デバイスの一つまたは複数のプロセッサによって実行される命令によって統括される。説明を容易にするため、以下の説明において、方法700はデバイス102によって実行される。実装のいくつかにおいて、
図3に関連して、方法700の動作は、少なくとも部分的に可視情報データベース338、(例えば、
図2のサーバ側インタラクティブ可視化モジュール114の一つまたは複数の構成要素と通信する)インタラクティブ可視化モジュール334、表示モジュール320、入力処理モジュール322、ウェブブラウザ324、通信モジュール318、入力デバイス310、表示部308(例えば、タッチセンシティブディスプレイ)を使用することで実行される。デバイス102は、一つまたは複数のサーバ200から、方法700の一つまたは複数の動作を実行するために使用されるデータ(例えば、
図2の協働データ230、トピックセット232、人234、人対人接続236および人対トピック接続)を受信する。方法700の動作のいくつかを組み合わせることができ、および/または、動作のいくつかの順番を変更することができる。
【0076】
実装のいくつかにおいて、方法700は、デバイスが協働データの分析に基づいてトピックセットを取得した場合に開始されてもよい(702)。実装のいくつかにおいて、(例えば、
図1のサーバシステム104などのサーバシステムから)トピックの予め定められた数が取得される。実装のいくつかにおいて、予め定められた数は全ての利用可能なトピックの数より少ない。あまりにも多いトピックが同時に提示される場合に、インタラクティブ可視情報の煩雑さを低減するためである。実装のいくつかにおいて、分析は(
図6Aおよび
図6Bで説明したように)LDAアルゴリズムを使用して、トピックセットを識別し、LDA分析はサーバシステム(例えば、
図1のサーバシステム104)によって実行され、サーバシステムはトピックセットをデバイスに送信する。
【0077】
実装のいくつかにおいて、協働データは、複数のドキュメントに関する自由に利用することができるメタデータを含む。実装のいくつかにおいて、(PubMedおよび他の)発行サービスと関連付けられているウェブサイトから情報は取得される。実装のいくつかにおいて、複数のドキュメントに関して自由に利用することができるメタデータは、複数のドキュメントの各々についての、著者情報、ドキュメント要約、発行日、ドキュメントタイトル、およびメタデータキーワードを含む。実装のいくつかにおいて、メタデータは、さらに、著者識別、編集者識別、発行者識別、貢献者識別、ドキュメントタイトル、日付、発行所、ドキュメント要約およびドキュメントキーワードを含む。
【0078】
実装のいくつかにおいて、トピックセットは協働データ(例えば、複数の人と関連付けられている複数のドキュメント)に関する情報の分析に基づいて識別される。実装のいくつかにおいて、トピックセットの識別および分析はサーバによって実行され、サーバはコンピュータシステムと区別される。実装のいくつかにおいて、協働データ(例えば、個別ドキュメントまたは可視化されている他のタイプの協働データ)はインタラクティブ可視化において表示されない(即ち、トピックおよび複数の人との関連だけが表示され、個別ドキュメントは表示されない。)。
【0079】
実装のいくつかにおいて、デバイスは表示部(例えば、
図3の表示部308)に、インタラクティブ可視情報(例えば、
図4Aの協働マップ400)を表示する(704)。インタラクティブ可視情報は、トピックセットの各トピックに対応する第1ユーザインターフェイス構成要素(例えば、
図4Aおよび
図4Bのトピックノード402−A、402−B、および402−C)を含む。類似のトピックに対応する第1ユーザインターフェイス構成要素は互いに近くなるように(即ち、協働マップ400内で互いに近くに配置される)、第1ユーザインターフェイス構成要素は表示部に配置される(706)。例えば、MDS(multi-dimensional scaling)が使用され、(
図6Aおよび
図6Bで説明したように、)用語のベクトル空間のトピック間のコサイン類似に基づいて、可視情報にトピックノードをレイアウトする。実装のいくつかにおいて、デバイスはトピックセットのトピック対の各々についてトピック対トピック類似スコアを取得し、類似スコアを使用して、各トピックに対応する第1ユーザインターフェイス構成要素の相対的な位置の決定を支援する。
【0080】
実装のいくつかにおいて、各トピックの第1ユーザインターフェイス構成要素の各々は、(1)識別子(例えば、固有数値識別子または少なくとも1つの英数字またはシンボル文字を含む固有識別子)および(2)各トピックと関連付けられているトピック構成要素用語の予め定められた数(例えば、3、4または5)と共に表示される。例えば、(
図4Aおよび
図4Bに示すように、)トピックノード402−Aは四角の図形(およびトピックのバーストアクティビティレベルが低いことを示す表示)、3個のトピック構成要素用語(「virtual(仮想)」、「reality(現実)」、「factory(工場)」)および角括弧に表示される数値識別子(「18」)を含む。実装のいくつかにおいて、トピック構成要素の予め定められた数は、複数のドキュメントに関する情報からワードを抽出し、ドキュメントの各々を(例えば、用語のベクトル空間の)ワードに基づく用語カウントのベクトルで表し、(
図6Aおよび
図6Bで説明した)LDAなどのアルゴリズムを使用してトピックの予め定められた数を計算することで決定される。実装のいくつかにおいて、用語のベクトル空間で次元の低減が実行され、ベクトル空間のサブセットが生成される。これにより、(計算処理リソースおよびメモリ空間のより効率的な利用ができるので、)実施形態は極めて大きいデータセットに対して適切に対応することが可能となる。
【0081】
実装のいくつかにおいて、識別子は編集可能なフィールドであり、デバイスは第1ユーザインターフェイス構成要素の各々の識別子の選択を検出し、識別子の選択の検出に応じて、(例えば、ユーザが識別子をクリックした後ダイアログボックスを表示することで、)デバイスは、ユーザが各トピックの記述的名称を入力することを許可する。実装のいくつかにおいて、ユーザが記述的名称を入力した後、記述的名称は識別子の代わりにインタラクティブ可視情報内に表示される。
【0082】
実装のいくつかにおいて、インタラクティブ可視情報は、当初は、複数の人のサブセットと関連付けられているドキュメントの発行日付に基づくデフォルト期間の間、表示される。インタラクティブ可視情報は、全ての利用可能なドキュメントを含むように選択される(即ち、インタラクティブ可視情報は、当初は、全てのデータセットを示すように、表示される)。
【0083】
実装のいくつかにおいて、デバイスは、一つまたは複数の入力デバイス(例えば、
図3の入力デバイス310)を介して、(例えば、
図4Aおよび
図4Cのタイムラインスライダ422などのタイムラインスライダのユーザ操作に基づいて、)インタラクティブ可視化の特定の期間のユーザ選択を受信する(708)。これによれば、特定の期間にわたる著者とトピックとの間の関係(および著者と他の著者との間の関係)の可視表示を、ユーザは、迅速かつ容易に見ることができる。実装のいくつかにおいて、要求は、複数のドキュメントの識別子を含む。例えば、ユーザは、選択された複数のドキュメント(発行済みドキュメントのアカデミックリポジトリなど)に基づいてインタラクティブ可視情報を生成することができる。
【0084】
特定の期間のユーザ選択の受信に応じて、(例えば、可視化される協働データのタイプによって、特定の期間の間に発行されたドキュメントに基づいて、特定の期間に投稿されたソーシャルメディア投稿に基づいて、特定の期間のコードチェックインに基づいて、)デバイスは特定の期間に関連付けられている複数の一つもしくは複数のサブセットを識別する(708)。
【0085】
実装のいくつかにおいて、デバイスはトピックセットと複数の人のサブセットとの間の接続(即ち、人対トピック接続)の第1セットを取得する(710)。接続の第1セットの接続の各々は、特定の期間のトピックセットのトピックの各々に対する複数の人のサブセットの人の各々の類似を示す人対トピック類似スコアに関連付けられている(712)。デバイスは複数の人のサブセットにおいて関連する人の間の接続の第2セットを取得する(714)。接続の第2セットの接続の各々は、特定の期間に関連する人の内、各々異なる関連する人に対する、関連する人の内、各々類似する関連する人を示す人対人類似スコアに関連付けられている(716)。
【0086】
実装のいくつかにおいて、人対トピックおよび人対人の類似(または関連)スコアは、特定のトピックに対して特定の著者が(または他の人に対して人が)どのように関連するかに関する計測可能な表示を提供し、特定のトピックに対する特定の人の関連性が時間の経過に添って変化し、様々な期間における特定のトピックに対する貢献に基づいて、関連が増減するように、関連スコアは特定の期間について定まる。実装のいくつかにおいて、サーバ(例えば、
図1のサーバシステム104)によって類似スコアが割り当てられる。実装のいくつかにおいて、割り当てられたスコアは、当初、デフォルトの期間(例えば、全ての人のアクティビティを含む期間、または、人に関連付けられている全ての発行に対応する日付)に対して割り当てられ、割り当てられたスコアは、次に、新しい期間のユーザ選択に応じて更新される(即ち、割り当てられたスコアは動作708と共に更新される)。
【0087】
実装のいくつかにおいて、デバイスは、複数の人のサブセットの人の各々に対応する第2ユーザインターフェイス構成要素(例えば、
図4Aおよび
図4Bの人ノード404−A、404−B、404−C)を表示する(718)。実装のいくつかにおいて、(例えば、力が類似スコアに基づく、レイアウトモデルに向けられる力の適用に基づいて、)特定のトピックに類似する人および特定の人の第2ユーザインターフェイス構成要素は当該トピックおよび人の近くに配置されるように、第2ユーザインターフェイス構成要素は配置される。実装のいくつかにおいて、複数の人は協働データに含まれる複数のドキュメントの著者であり、関連する人の間の接続の第2セットにおける各接続は共著者間の関係を示す。
【0088】
実装のいくつかにおいて、人の各々の第2ユーザインターフェイス構成要素の各々を表示することは、人の各々に関連付けられている割り当てられた人対トピック類似スコアの少なくとも一つが人対トピック類似閾値を満足することを表す判定に応じて、第2ユーザインターフェイス構成要素を含ませるようにインタラクティブ可視情報を更新することを含む(即ち、選択された期間に関連する人だけがインタラクティブ可視情報に含まれる)。
【0089】
接続の第1セットおよび接続の第2セットの各々について、デバイスは接続の各々の可視表示を含むようにインタラクティブ可視情報を更新する(720)。例示的な可視表示は、接続の各々に関連付けられている2の関連する人(例えば、2の共著者)を接続するラインを表示する。人対人接続の例示的な可視表示は、
図4Aおよび
図4Bの人対人接続406−Aおよび406−Bに示される。人対トピック接続の例示的な可視表示は、
図4Aおよび
図4Bの人対トピック接続408−Aおよび408−Bに示される。
【0090】
実施形態のいくつかにおいて、可視表示の各々のライン幅は類似スコアに対応する(例えば、強く、類似度が高い接続のラインは太い。)実施形態のいくつかにおいて、接続の第1セットの接続の各々の可視表示は接続の第2セットの接続の各々の可視表示に関連するインタラクティブ可視情報内で可視的に区別可能に表示される。例えば、人とトピックとの間の接続は第1カラー(例えば、グレー)で表示され、人と他の人(共著者)との間の他の接続は、第1カラーとは異なる第2カラー(例えば、パープル)で表示される。
【0091】
実装のいくつかにおいて、接続の第1セットの接続の各々の可視表示を含めるようにインタラクティブ可視情報を更新することは、接続の各々に関連付けられている割り当てられた人対トピック類似スコアが人対トピック類似閾値を満足することを示す判定によって、接続の各々の可視表示を含むようにインタラクティブ可視情報を更新することを含む。実装のいくつかにおいて、接続の第2セットの接続の各々の可視表示を含めるようにインタラクティブ可視情報を更新することは、接続の各々に関連付けられている割り当てられた人対人類似スコアが人対人類似閾値を満足することを示す判定によって、接続の各々の可視表示を含めるようインタラクティブ可視情報を更新することを含む。関連性が十分ある(即ち、適切な閾値を越えた)接続だけが可視情報に含められ、これにより、関連性のない接続がインタラクティブ可視情報を乱すことがない。
【0092】
実装のいくつかにおいて、取得するステップ、表示するステップおよび更新するステップ(710〜720)は、全て、特定期間のユーザ選択の受信に応じて実行される。
【0093】
実装のいくつかにおいて、表示されるインタラクティブ可視情報は、さらに、トピックセットの各トピックのバーストアクティビティ表示の各々を含む。トピックの各々のバーストアクティビティ表示の各々は、特定の期間の各トピックに関連付けられているドキュメントの数(または人の数)を示す可視表示を提供する。例えば、
図6Aおよび
図6Bで説明したように、バースト検出は、予め定められた数のトピックの各トピックについて計算される(例えば、予め定められた数のトピックの各トピックについて、アクティビティストリームを生成するために、各時点について、関連するドキュメント数を検出する)。バースト検出アルゴリズムは、次に、トピックの各時点について、各トピックのアクティビティストリームに提供され、バーストレベル(例えば、0、1、2、3)が割り当てられる。実装のいくつかにおいて、バーストレベルがインタラクティブ可視情報に異なる「ヒート」カラー(例えば、
図4A、4B、
図5A〜5Cのトピックノードの各々について示すように、0:グリーン、1:イエロー、2:オレンジ、3:レッド)でマッピングされる。実装のいくつかにおいて、バーストは特定の期間について関連付けられたドキュメント/人の閾値より多いドキュメント/人をもつトピックとして定義される。
【0094】
実装のいくつかにおいて、デバイスは、一つまたは複数の入力デバイスを介して、新しいユーザ選択(例えば、
図4Aおよび
図4Cのタイムラインスライダ422などのタイムラインスライダで受信したユーザ入力)を受信し、特定の期間と異なる新しい期間のインタラクティブ可視情報を表示する。新しい要求の受信に応じて、デバイスは、接続の第1セットの各接続が新しい期間に固有の更新された人対トピック類似スコアに関連付けられていることを判定する。更新された人対トピック類似スコアは、特定の期間の接続の各々に関連付けられている人対トピック類似スコアの各々と区別される(即ち、更新された関連性スコアは、当初計算された類似スコアより大きいか、または小さく、インタラクティブ可視情報がこの変化を反映するために更新されるべきであることを示す。)。デバイスは、表示部の新しい位置に第2ユーザインターフェイス構成要素の各々を移動させ、新しい位置に基づいて接続の各々の可視表示の各々を更新する。例えば、類似スコアが当初計算された類似スコアより大きいことを表す判定にしたがって、第2ユーザインターフェイス構成要素の各々は、トピックの第1ユーザインターフェイス構成要素の近くに移動される。更新された類似スコアが当初計算した類似スコアより低いことを表す判定にしたがって、第2ユーザインターフェイス構成要素の各々は、トピックの第1ユーザインターフェイス構成要素から遠ざかるように移動される。(類似スコアを判定するためにLDAベースモデルを使用している実装について)実装のいくつかにおいて、更新された人対トピック類似スコアがスコア閾値を下回る場合、インタラクティブ可視情報は更新され、(即ち、ユーザによって選択された新しい期間について、この人とトピックとの間の接続がもはや十分ではないため、)人の各々に対応する第2ユーザインターフェイスが取り除かれる。いくつかの実装において、第2ユーザインターフェイス構成要素の各々は、第2ユーザインターフェイス構成要素の各々と関連付けられている人対トピックおよび人対人類似スコアに基づいて、表示部に配置される。いくつかの実装において、第2のユーザインターフェイス構成要素の各々は類似するトピックおよび類似する人の近くに配置される。
【0095】
例えば、
図4Bに示すように、人ノード404−Cはトピックノード「[9]similarity audio discourse」の近くに配置される。「David Ahn」は、(「David Ahn」の人ノード404−Cとトピックノード「[9]similarity audio discourse」との間の人対トピック接続408−Cに関連付けられている人対トピック類似スコアに基づいて、)トピックに類似しているためである。また、人ノード404−Cは他の人(例えば、「Christopher Culy」)の人ノードの近くに配置される。人ノード404−CはChristopher Culyとも類似しているからである(例えば、Christopher CulyおよびDavid Ahnは、トピックノード「[9]similarity audio discourse」に関連する記事を共著したからである。)。
【0096】
実装のいくつかにおいて、インタラクティブ可視情報を更新することは、トピックセットの各トピックに対応する第1ユーザインターフェイス構成要素の表示位置を変更することを含まない。すなわち、トピックのノード(第1ユーザインターフェイス構成要素)は固定され、人(第2ユーザインターフェイス構成要素)に対応するノードが移動したとしても、可視情報において移動しない。
【0097】
実装のいくつかにおいて、デバイスは複数の人の各人に関連する第2ユーザインターフェイス構成要素の各々のユーザ選択を受信し、ユーザ選択の受信に応じて、デバイスは、各人に関連付けられている協働データへのリンクを表示する。実装のいくつかにおいて、これにより、インタラクティブ可視情報は可視情報に直接的には表示されなくても、ユーザは、特定の著者に関連付けられているドキュメントに迅速にアクセスすることが可能となる。
【0098】
図7における動作の特定の順番は単なる例示であり、動作が実行され得る唯一の順番を示すことを意図していない。動作の順番は様々な方法で変更することができる。
【0099】
図8A〜
図8Dは、実装のいくつかによって、協働データのインタラクティブ可視情報を表示するシステムおよび方法の性能を示す分析チャートである。一つの実験において、可視化は2つのデータセットを使用してテストされる。即ち、(1)8年から20年に延長されたInfo Visからの公共データセット(非特許文献3)、(2)21年を越える発行についてのFXPALデータベースからのメタデータ、である。Info Visデータのベクトル空間Vの次元は8252であり、FXPALデータの次元は5626である。もっとも高い確率を有する構成要素の数としてm=10を使用した場合、サブスペースVcの次元は10k以下であり、kはトピックの数である。k=5、10、20としたテストにおいて、Info Visの次元は約30〜160のファクターによって低減される。
【0100】
ノードリンクグラフのサイズは、異なる数のトピック(k=5、10、20)について、および様々な関連スコア(コサイン類似)についてテストされる。トピックの異なる数kについての人ノード(p-node)およびエッジ(人対人および人対トピック接続)の総数を表1に示す。
【表1】
【0101】
Info Visデータの人の数は1075であり、FXPALデータの人の数は306である。表1のp-nodeを見ることで、人(およびドキュメント)の空間が適切にカバーされる。Info Visデータでは、k=20の場合、1075のp-node全てがカバーされ、k=5の場合、2のp-nodeだけがカバーされない。FXPALデータでは、k=20の場合、302のp-nodeの内4のp-nodeだけがカバーされない。人のドキュメントが(
図6Aおよび
図6Bで説明した)サブ空間Vcにない場合、カバーされないノードが生じる。p-nodeの適切なカバーまたはリコールは重要であり、これにより、データの部分は可視情報においてアクセス不能とならない。また、カバーは、トピックおよび次元が低減されたサブ空間Vcによって適切となる。一方、例えば、上位kのキーワードを採用するなどの、よりシンプルなアプローチでは、カバーは適切とならない。
【0102】
ノードおよびエッジの総数は多く(表1)、したがって、可視情報は煩雑となる。ノードおよびエッジは、関連スコア閾値を変動することでフィルタリングすることができ、これにより、関連性の高いオブジェクトだけが表示される。
図8Aおよび
図8Bは、異なる関連閾値で取得されたp-nodeおよびエッジを示す。
図8Cおよび
図8Dは、20年を越える期間で約5〜7のバーストがあったことを示す(k=5, 10, 20)。Info Vis データについて、レベル1のバーストはk=20でだけ発生し、FXPALデータについて、レベル2のバーストはk=20だけで発生している。一つの可能な説明は、FXPALではトピックがより多様であり、一方、Info Visは単一のリサーチ領域に関して焦点を当てた会議である、ということである。kの値が高いと、トピックはより多様となる。
【0103】
「第1」、「第2」などの用語が様々な構成要素を説明するために使用されるが、これらの構成要素はこれらの用語によって限定されない。これらの用語は一方の用語を他方の用語と区別するために使用されているだけである。例えば、第1の端子は第2の端子であってもよいし、同様に、第2の端子は第1の端子であってもよい。「第1の端子」の全ておよび「第2の端子」の全てが矛盾なく名称を変更されれば記載の意味も変更される。第1の端子および第2の端子は双方とも端子であるが、同じ端子ではない。
【0104】
ここで使用された用語は、特定の実装を説明することだけを目的としている。用語「および/または」は一つまたは複数の関連するアイテムの何れかのおよび全ての可能な組み合わせを参照する。
【0105】
上記において、説明を目的として、特定の実装を参照した。しかしながら、上記例示的な説明は、本開示を網羅すること、または、詳細な形態に限定することを意図していない。多くの変更が上記の観点から可能である。本開示の原理および本開示の実際の応用をもっとも適切に説明するために実装を選択し説明した。これにより、当業者であれば、特定の使用に適するように、様々な変更を施して、本開示および様々な実装を最適に利用することが可能である。