【文献】
武田 塁、後藤 文太朗,電子メール高度利用支援のための電子メールコミュニケーション視覚化ツール,情報処理学会研究報告,日本,社団法人情報処理学会,2007年 3月22日,Vol.2007、No.32,p.139−143
(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、特許文献1記載の技術では、実際にコミュニケーションが観測できる状態であることが前提となっているため、SNSやコミュニケーションツール上で発生したコミュニケーション特徴を可視化する目的に適合させることは容易ではない。
【0009】
また、特許文献2記載の技術では、ユーザ間のコミュニケーションインタラクションにおける価値観の差異評価に特化しているため、SNSなどのコミュニケーション特徴を可視化することには適していない。
【0010】
また、特許文献3記載の技術では、コミュニケーションの時間的な推移に基づいて組織コミュニケーションの推移を表示し、診断しているが、コミュニケーションの質・状況等、詳細なパラメータを含む分析に適応することができない。さらに、複数の視点での特徴を同時に扱うことができない。この点は、非特許文献1についても同様である。
【0011】
従来は、個人ユーザがSNSにおいて、どのようなコミュニケーションをしているのかを検出し、それに基づいて個人ユーザのコミュニケーションの技能を測定することは容易ではなかった。
【0012】
本発明は、このような事情に鑑みてなされたものであり、個人ユーザのコミュニケーション技能を可視化し、ユーザの操作スキルに対応するサービスを示す情報を提示することができるプログラム、端末装置およびデータ処理方法を提供することを目的とする。
【課題を解決するための手段】
【0013】
(1)上記の目的を達成するために、本発明は、以下のような手段を講じた。すなわち、本発明のプログラムは、ユーザの操作スキルに対応するサービスを示す情報を提示するプログラムであって、ユーザにより操作され、少なくとも一つのユーザ変数に基づいてラベリングされたユーザ操作データを取得する処理と、前記取得したユーザ操作データのユーザ変数をパラメータとして、ユーザの操作スキルを示す操作スキル特徴ベクトルを生成する処理と、ネットワーク上で操作されたネットワークデータのネットワーク変数をパラメータとして生成されたネットワークデータ特徴ベクトルを取得する処理と、前記操作スキル特徴ベクトルと前記ネットワークデータ特徴ベクトルとの類似度を算出する処理と、前記算出した類似度に基づいて、表示候補とする少なくとも一つのネットワークデータ特徴ベクトルを選出する処理と、前記選出したネットワークデータ特徴ベクトルを多次元空間にマッピングする処理と、前記マッピングされたネットワークデータ特徴ベクトルを画面に表示する処理と、の一連の処理を、コンピュータに実行させることを特徴とする。
【0014】
このように、ユーザにより操作され、少なくとも一つのユーザ変数に基づいてラベリングされたユーザ操作データを取得し、その取得したユーザ操作データのユーザ変数をパラメータとして、ユーザの操作スキルを示す操作スキル特徴ベクトルを生成し、ネットワーク上で操作されたネットワークデータのネットワーク変数をパラメータとして生成されたネットワークデータ特徴ベクトルを取得し、操作スキル特徴ベクトルとネットワークデータ特徴ベクトルとの類似度を算出し、算出した類似度に基づいて、表示候補とする少なくとも一つのネットワークデータ特徴ベクトルを選出し、選出したネットワークデータ特徴ベクトルを多次元空間にマッピングし、マッピングされたネットワークデータ特徴ベクトルを画面に表示するので、個人ユーザのコミュニケーション技能を可視化することが可能となる。これにより、ユーザの操作スキルに対応するサービスを示す情報を提示することが可能となる。
【0015】
(2)また、本発明のプログラムにおいて、前記ユーザ変数は、ユーザ操作データがどのようなシステム上の機能で取り扱われたかを示し、前記システム上の機能を特徴としたシステム機能特徴スキルベクトルに基づいて、前記操作スキル特徴ベクトルを生成することを特徴とする。
【0016】
このように、ユーザ変数は、ユーザ操作データがどのようなシステム上の機能で取り扱われたかを示し、システム上の機能を特徴としたシステム機能特徴スキルベクトルに基づいて、操作スキル特徴ベクトルを生成するので、各カテゴリから得られたテキストに対して付与されたラベルデータに基づいて、ある特定のユーザが投稿したテキストのシステム特徴に対する親和度合いをスキルとして抽出することが可能となる。例えば、ユーザが“SYNCHRONOUS”なコミュニケーションツール(チャットなど)に対して多くのコメントを投稿していた場合、“SYNCHRONOUS”なサービスに対して慣れ親しんでいると把握することができる。この頻度情報に基づいて、ユーザのシステム機能スキルベクトルを生成することによって、各システム機能特徴変数の頻度を表現することが可能となる。
【0017】
(3)また、本発明のプログラムにおいて、前記ユーザ変数は、ユーザ操作データがどのようなシステム上の状況で取り扱われたかを示し、前記システム上の状況を特徴とした状況特徴スキルベクトルに基づいて、前記操作スキル特徴ベクトルを生成することを特徴とする。
【0018】
このように、ユーザ変数は、ユーザ操作データがどのようなシステム上の状況で取り扱われたかを示し、システム上の状況を特徴とした状況特徴スキルベクトルに基づいて、操作スキル特徴ベクトルを生成するので、各カテゴリから得られたテキストに対して付与されたラベルデータに基づいて、ある特定のユーザが投稿したテキストの状況特徴に対する親和度合いをスキルとして抽出することが可能となる。例えば、ユーザが“PUBLIC”なコミュニケーションツール(チャットなど)に対して多くのコメントを投稿していた場合、“PUBLIC”なサービスに対して慣れ親しんでいると把握することができる。この頻度情報に基づいて、ユーザの状況特徴スキルベクトルを生成することによって、各状況特徴変数の頻度を表現することが可能となる。
【0019】
(4)また、本発明のプログラムにおいて、前記ユーザ変数は、ユーザ操作データがどのようなユーザの態度で取り扱われたかを示し、前記ユーザの態度を特徴としたユーザ態度スキルベクトルに基づいて、前記操作スキル特徴ベクトルを生成することを特徴とする。
【0020】
このように、ユーザ変数は、ユーザ操作データがどのようなユーザの態度で取り扱われたかを示し、ユーザの態度を特徴としたユーザ態度スキルベクトルに基づいて、操作スキル特徴ベクトルを生成するので、各カテゴリから得られたテキストに対して付与されたラベルデータに基づいて、ある特定のユーザが投稿したテキストのユーザ態度特徴に対する親和度合いをスキルとして抽出することが可能となる。例えば、ユーザが“THANK”や“GREET”に対して多くのコメントを投稿していた場合、社交的なコメント投稿に対して多くの経験・スキルを持つと把握することができる。この頻度情報に基づいて、ユーザの態度スキルベクトルを生成し、各ユーザ態度スキルベクトル変数の頻度を表現することが可能となる。
【0021】
(5)また、本発明のプログラムは、ユーザ操作データに含まれる重要語を選定し、重要度の高い単語を要素とする重要語ベクトルに基づいて、前記操作スキル特徴ベクトルを生成することを特徴とする。
【0022】
このように、ユーザ操作データに含まれる重要語を選定し、重要度の高い単語を要素とする重要語ベクトルに基づいて、操作スキル特徴ベクトルを生成するので、個人ユーザのコミュニケーション技能を明確に表現することが可能となる。これにより、ユーザの操作スキルに対応するサービスを示す情報を提示することが可能となる。
【0023】
(6)また、本発明のプログラムは、ユーザ操作データを入力する処理と、前記入力したユーザ操作データに対して、少なくとも一つのユーザ変数に基づいてラベリングを行なう処理と、を更に含むことを特徴とする。
【0024】
このように、ユーザ操作データを入力する処理と、前記入力したユーザ操作データに対して、少なくとも一つのユーザ変数に基づいてラベリングを行なう処理と、を更に含むので、入力したデータに対するラベリングを自動的に行なうことが可能となる。
【0025】
(7)また、本発明の端末装置は、ユーザの操作スキルに対応するサービスを示す情報を提示する端末装置であって、ユーザにより操作され、少なくとも一つのユーザ変数に基づいてラベリングされたユーザ操作データを取得するデータ取得部と、前記取得したユーザ操作データのユーザ変数をパラメータとして、ユーザの操作スキルを示す操作スキル特徴ベクトルを生成する操作スキル特徴ベクトル生成部と、ネットワーク上で操作されたネットワークデータのネットワーク変数をパラメータとして生成されたネットワークデータ特徴ベクトルを取得し、前記操作スキル特徴ベクトルと前記ネットワークデータ特徴ベクトルとの類似度を算出する類似度算出部と、前記算出した類似度に基づいて、表示候補とする少なくとも一つのネットワークデータ特徴ベクトルを選出し、前記選出したネットワークデータ特徴ベクトルを多次元空間にマッピングするマッピング部と、前記マッピングされたネットワークデータ特徴ベクトルを画面に表示する表示する表示部と、を備えることを特徴とする。
【0026】
このように、ユーザにより操作され、少なくとも一つのユーザ変数に基づいてラベリングされたユーザ操作データを取得し、その取得したユーザ操作データのユーザ変数をパラメータとして、ユーザの操作スキルを示す操作スキル特徴ベクトルを生成し、ネットワーク上で操作されたネットワークデータのネットワーク変数をパラメータとして生成されたネットワークデータ特徴ベクトルを取得し、操作スキル特徴ベクトルとネットワークデータ特徴ベクトルとの類似度を算出し、算出した類似度に基づいて、表示候補とする少なくとも一つのネットワークデータ特徴ベクトルを選出し、選出したネットワークデータ特徴ベクトルを多次元空間にマッピングし、マッピングされたネットワークデータ特徴ベクトルを画面に表示するので、個人ユーザのコミュニケーション技能を可視化することが可能となる。これにより、ユーザの操作スキルに対応するサービスを示す情報を提示することが可能となる。
【0027】
(8)また、本発明の端末装置は、入力したユーザ操作データに対して、少なくとも一つのユーザ変数に基づいてラベリングを行なう識別器を更に備えることを特徴とする。
【0028】
このように、入力したユーザ操作データに対して、少なくとも一つのユーザ変数に基づいてラベリングを行なう識別器を更に備えるので、入力したデータに対するラベリングを自動的に行なうことが可能となる。
【0029】
(9)また、本発明のデータ処理方法法は、ユーザの操作スキルに対応するサービスを示す情報を提示するデータ処理方法であって、ユーザにより操作され、少なくとも一つのユーザ変数に基づいてラベリングされたユーザ操作データを取得するステップと、前記取得したユーザ操作データのユーザ変数をパラメータとして、ユーザの操作スキルを示す操作スキル特徴ベクトルを生成するステップと、ネットワーク上で操作されたネットワークデータのネットワーク変数をパラメータとして生成されたネットワークデータ特徴ベクトルを取得するステップと、前記操作スキル特徴ベクトルと前記ネットワークデータ特徴ベクトルとの類似度を算出するステップと、前記算出した類似度に基づいて、表示候補とする少なくとも一つのネットワークデータ特徴ベクトルを選出するステップと、前記選出したネットワークデータ特徴ベクトルを多次元空間にマッピングするステップと、前記マッピングされたネットワークデータ特徴ベクトルを画面に表示するステップと、を少なくとも含むことを特徴とする。
【0030】
このように、ユーザにより操作され、少なくとも一つのユーザ変数に基づいてラベリングされたユーザ操作データを取得し、その取得したユーザ操作データのユーザ変数をパラメータとして、ユーザの操作スキルを示す操作スキル特徴ベクトルを生成し、ネットワーク上で操作されたネットワークデータのネットワーク変数をパラメータとして生成されたネットワークデータ特徴ベクトルを取得し、操作スキル特徴ベクトルとネットワークデータ特徴ベクトルとの類似度を算出し、算出した類似度に基づいて、表示候補とする少なくとも一つのネットワークデータ特徴ベクトルを選出し、選出したネットワークデータ特徴ベクトルを多次元空間にマッピングし、マッピングされたネットワークデータ特徴ベクトルを画面に表示するので、個人ユーザのコミュニケーション技能を可視化することが可能となる。これにより、ユーザの操作スキルに対応するサービスを示す情報を提示することが可能となる。
【発明の効果】
【0031】
本発明によれば、個人ユーザのコミュニケーション技能を可視化することが可能となる。これにより、ユーザの操作スキルに対応するサービスを示す情報を提示することが可能となる。
【発明を実施するための形態】
【0033】
以下、本発明の実施形態について図面を参照して説明する。
図1は、本実施形態に係るデータ処理システムの概略構成を示す図である。このデータ処理システムは、コミュニケーションデータ収集モジュール5、データベース7、ラベリングモジュール9、特徴ベクトル生成モジュール11、サービス特徴抽出・提示モジュール21、類似度計算・提示モジュール25、個人スキル抽出モジュール27、および表示モジュール23から構成されている。
【0034】
コミュニケーションデータ収集モジュール5は、SNS(Social Networking Service)1や、電子メール・通話データ3からデータを収集する。例えば、API(Application Programming Interface)を利用したクローリングなどによりデータを収集することができる。この場合、インターネットラジオ局のAPIや、Twitter(登録商標)のAPIを利用することができる。
【0035】
入力は、例えば、SNSのある期間の投稿テキスト情報、マルチメディアサービスのコメントデータ、電子メールのインタラクションデータ、チャットデータなどを利用することができる。また、同一のSNS内で、チャット機能やブログ機能などが存在していた場合には同一データとして扱うこともできるし、機能ごとに分割することもできる。このようにして収集されたデータは、データベース7に格納される。
【0036】
ラベリングモジュール9は、コミュニケーションデータ収集モジュール5が収集したデータに対して、コーディング(ラベリング)を実施する。このコーディングは、WEB上でGUI(Graphical User Interface)を提供し、オペレータが手作業で行ない、DBに格納することができる。例えば、コーディング規準は関連文献1に記載されているコミュニケーション分類スキームを利用することができる。
【0037】
[関連文献1]
Susan C. Herring(2007), A Faceted Classification Scheme for Computer-Mediated Discourse. Language@Internet.http://www.languageatinternet.org/articles/2007/761
本発明では、以下のような変数に基づいてコーディングを実施する。
【0038】
[システム特徴変数]
M1(Synchronicity)、M2(Message transmission)、M3(Persistence of transcript)、M4(Size of message buffer)、 M5(Channels of communication)、M6(Anonymous messaging)、M7(Private messaging)、M8(Filtering)、M9(Quoting)、M10(Message format)
これらのシステム特徴変数においては、各変数に対して値を設定することができる。例えば、M1であれば1の際にSynchronus、2の際にAsynchronousといったラベルを付与することができる。
【0039】
[状況特徴変数]
S1(Participation Structure)、S2(Participant characteristics)、S3(Purpose)、S4 (Topic or Theme)、S5(Tone)、S6(Activity)、S7(Norms)、S8(Code)
これらの状況特徴変数については、自由記述とすることもできるし、あらかじめ選択肢を与えることもできる。
【0040】
図2は、GUIイメージを示す図である。例えば、
図2に示すように、画面の左側にはコミュニケーションデータが表示され、右側にてコーディング結果を入力することができる。入力方法は、チェックボックスで入力をしたり、タッチパネルにて選択したりすることも可能である。コーディング自体は複数人で実施することもできる。その際には、複数の結果を比較し、結果の一致率や、相違のある結果をコーディング者に再提示することもできる。
【0041】
なお、変数は、上記の他にも情景変数、ユーザ態度変数などを自由に設定することも可能である。例えば、情景変数は、季節、時間帯、天候などを利用することができる。例えば、ユーザ態度変数としては話者の態度(提示・賛同、拒絶)などを利用することができ、例えば、以下の関連文献2の技術を利用して以下のように設定することができる。
【0042】
[関連文献2]
Herring, S. C., Das, A., & Penumarthy, S. (2005). CMC act taxonomy. http://www.slis.indiana.edu/faculty/herring/cmc.acts.html
A1(Inquire)、A2(Request)、A3(Invite)、A4(Desire)、A5(React)、A6(Manage)、A7(Direct)、A8(Accept)、A9(Apologize)、A10(Repair)、A11(Reject)、A12(Elaborate)、A13(Thank)、A14(Inform)、A15(Claim)、A16(Greet)
なお、ラベリングモジュール9にSVM(Support vector machine)などの識別器としての機能を持たせて、コーディングを自動で行なうことも可能である。自動でコーディングを実施する場合には、あらかじめシステムに登録した事前情報を利用したり、事前に学習データを収集・コーディングを実施し、識別器により自動ラベリングを実施したりすることができる。例えば、SNS(A)によって得られた情報がM1―M10まで固定であった場合、SNS(A)によって得られた他のデータについても同様の情報を自動で付与することができる。
【0043】
また、S1−S8などについて、自動でラベリングを付与することもできる。例えば、学習データとして、大量のコミュニケーションデータに対するコーディング結果が蓄積できた場合、識別器により自動でラベルを付与することができる。例えば、コーディング結果S1が付与されたコミュニケーションデータをTFIDFにより特徴ベクトル化し、SVMによりS1の正否を判断することよって、自動でラベルを付与することができる。
【0044】
図3は、コーディング(ラベリング)の動作を示すフローチャートである。まず、コミュニケーションデータ収集モジュール5を介してデータを取得し(ステップS1)、識別器があるかどうかを判断する(ステップS2)。識別器がある場合は、ステップS7に遷移する。一方、ステップS2において、識別器が無い場合は、ラベルデータがあるかどうかを判断し(ステップS3)、ラベルデータがある場合は、ステップS6に遷移する。ラベルデータが無い場合は、ラベルデータを取得し(ステップS4)、GUI表示され(ステップS5)、オペレータからラベリングされたデータに基づいて、識別器が生成される(ステップS6)。
【0045】
ここで、識別器は、例えば、“Support Vector Machine”を利用してラベルAであるかどうかを識別する場合、ラベルAが付与されたテキストデータ群から重要語を抽出し、重要語の頻度に基づいて特徴ベクトル化する。(例えば、TF/IDFに基づくBag of Words)ラベルAが付与された学習データ群とその特徴ベクトル群を正データ、ラベルデータAが付与されていない学習データとその特徴ベクトル群を負データとして学習に利用することで、ラベルAであるかどうかの識別器を生成することができる。そして、ラベルが付与されて(ステップS7)、終了する。
【0046】
図1において、特徴ベクトル生成モジュール11は、状況特徴スキル抽出機能13と、システム機能スキル抽出機能15と、ユーザ態度スキル抽出機能17と、重要語抽出機能19とを備えており、コーディング結果とコミュニケーションデータに基づいて、コミュニケーションデータを特徴量化する。例えば、入力したコーディング結果は、各変数の入力値をパラメータとして、多次元ベクトルとして表現することができる。例えば、システム機能特徴、状況特徴、ユーザ態度特徴をベクトルとして抽出することができる。また、これらのベクトルを一つにまとめて特徴ベクトルとして抽出することもできる。さらに、蓄積されたコミュニケーションデータより、TFIDF法に基づいて重要語を選定し、重要度の高い単語をベクトルの要素として、データ中の各要素となった単語の頻度を計算することによって、コミュニケーションデータをベクトル化することができる。
【0047】
図4は、特徴ベクトル生成モジュールの動作を示すフローチャートである。まず、コーディング結果とコミュニケーションデータを入力する(ステップT1)。次に、システム機能特徴ベクトルを抽出する(ステップT2)。次に、状況特徴ベクトルを抽出する(ステップT3)。次に、ユーザ態度ベクトルを抽出する(ステップT4)。次に、重要語ベクトルを抽出する(ステップT5)。そして、抽出したベクトルを統合して(ステップT6)、終了する。次に、上記のようにベクトルを抽出する処理について説明する。
【0048】
[システム機能ベクトル抽出処理]
各カテゴリから得られたテキストに対して付与されたラベルデータに基づいて、コミュニケーションデータがどのようなシステム機能上で為されたかを特徴として抽出する。例えば、あるひとつのコミュケーションサービスを分析単位とした場合、ユーザが“SYNCHRONOUS”なコミュニケーションツール(チャットなど)に対して多くのコメントを投稿していた場合、該当のサービス上では、“SYNCHRONOUS”なサービスがよく利用されていると把握することができる。この情報に基づいて、ユーザのシステム機能ベクトルを生成する。
【0049】
図5は、各システム機能特徴変数の頻度を表わした図である。このように視覚化する場合、分析データ数の違いを軽減するために、全ての分析単位数で正規化することもできる。また、必ずしもサービス単位で処理を実施する必要はなく、あるサービス内で発生したマクロなコミュニケーションデータを一つの分析単位としても良い。
【0050】
図6は、システム機能ベクトル抽出処理を示すフローチャートである。まず、ラベルデータを取得し(ステップP1)、要素数をカウントする(ステップP2)。次に、すべてのシステム機能変数について、カウントしたかどうかを判断し(ステップP3)、すべてのシステム機能変数について、カウントしていない場合は、ステップP2に遷移する。すべてのシステム機能変数について、カウントした場合は、全ての分析単位数で正規化を行なって(ステップP4)、ベクトルを生成する(ステップP5)。
【0051】
[状況特徴ベクトル抽出処理]
各カテゴリから得られたテキストに対して付与されたラベルデータに基づいて、コミュニケーションがどのような状況で為されたかを特徴として抽出する。例えば、分析単位を一つのコミュニケーションサービスとした場合を考える。ユーザ群が、第三者に閲覧できないコミュニケーション機能(プライベートチャットなど)に対して多くのコメントを投稿していた場合、コミュニケーションサービスを特徴づける機能として、プライベートチャットが重要であると把握することができる。この情報に基づいて、ユーザの状況特徴ベクトルを生成する。
【0052】
図7は、各状況特徴変数のラベリング結果の頻度を表わした図である。このように視覚化する場合、分析データ数の違いを軽減するために、全ての分析単位数で正規化することもできる。例えば、S2等、事前に要素が設定できない項目については、ユーザが利用しているSNS・コミュニティの年齢や、性別分布を事前に抽出し、パターン登録することもできる。例えば、SNS1でのコミュニティが女性、30代のみのコミュニティであった場合をパターン1として登録し、SNS2でのコミュニティが男女比率7:3、年齢分布として、20代:30代:40代=3:3:4をパターン2として登録することで頻度計算を実施することができる。
【0053】
図8は、状況特徴ベクトル抽出処理を示すフローチャートである。まず、ラベルデータを取得し(ステップQ1)、パターンの登録を行なう(ステップQ2)。次に、要素数をカウントし(ステップQ3)、すべての状況変数について、カウントしたかどうかを判断する(ステップQ4)。すべての状況変数について、カウントしていない場合は、ステップQ3に遷移する一方、すべてのシステム機能変数について、カウントした場合は、全ての分析単位数で正規化を行なって(ステップQ5)、ベクトルを生成する(ステップQ6)。
【0054】
[ユーザ態度ベクトル抽出処理]
各カテゴリから得られたテキストに対して付与されたラベルデータに基づいて、ユーザが投稿したテキストがどのような態度を示唆しているのかを特徴として抽出する。例えば、ユーザが“THANK”や“GREET”に対して多くのコメントを投稿していた場合、該当のコミュニケーションサービス(分析単位)上で社交的な行動が多くなされていると把握することができる。この情報に基づいて、ユーザの態度ベクトルを生成する。
【0055】
図9は、各ユーザ態度スキルベクトル変数の頻度を表わした図である。このように視覚化する場合、分析データ数の違いを軽減するために、全ての分析単位数で正規化することもできる。
【0056】
図10は、ユーザ態度ベクトル抽出処理を示すフローチャートである。まず、ラベルデータを取得し(ステップR1)、要素数をカウントする(ステップR2)。次に、すべてのユーザ態度変数について、カウントしたかどうかを判断し(ステップR3)、すべてのユーザ態度変数について、カウントしていない場合は、ステップR2に遷移する。すべてのユーザ態度変数について、カウントした場合は、全ての分析単位数で正規化を行なって(ステップR4)、ベクトルを生成する(ステップR5)。
【0057】
図1において、サービス特徴抽出・提示モジュール21は、特徴ベクトル生成モジュール11によって作成された特徴ベクトルに基づいて、多次元空間上へマッピングする。例えば、主成分分析を適用し、第1主成分・第2主成分を表現軸として利用することで2次元平面上のプロットとして表現することができる。また、第3主成分を加えることで三次元表示が可能となる。また、そのほかにも、SOM(Self-Organizing Map)などの可視化技術を利用することが可能である。
【0058】
図11は、特徴ベクトルをクラスタリングによってグルーピングする様子を示す図である。グルーピングの最大枠100の範囲内で、複数のグループ101が形成されている。各グループ101には、特徴ベクトル102が少なくとも1つ含まれている。また、特徴ベクトル102のように、分類の基準によって、異なる特徴を有する特徴ベクトルは、異なるグループに属することとなる。
図11に示すように、特徴ベクトルによって表現されたコミュニケーションデータは、さらにクラスタリング手法を適用することによって、グルーピングして表示することが可能である。クラスタリング方式は、例えば、K−means法などにより分類することができる。画面上でプロットをクリックすることによって、各SNS上のコミュニケーションデータの分類結果を閲覧することができる。なお、この処理は、主成分分析を適用する前にも実施することができる。
【0059】
図12は、特徴ベクトルを階層的に可視化した様子を示す図である。
図12では、グルーピングの最大枠200の範囲内で、最上位の階層201で複数のグループ206、207、220が形成されている。最上位の各グループ206、207、220は、それぞれ第2階層のグループ202、203、204を有している。第2階層のグループ202には、特徴ベクトル208、209が含まれており、さらに特徴ベクトル208、209は、第3階層のグループ210、211を有している。第2階層のグループ203、204も同様である。すなわち、第2階層のグループ214、215は、それぞれ、第3階層のグループ212、213を有している。また、第2階層のグループ218、219は、それぞれ、第3階層のグループ216、217を有している。
【0060】
図12に示すように、サービス特徴抽出・提示モジュール21は、システム特徴変数による特徴ベクトル、状況特徴変数による特徴ベクトル、コミュニケーションデータの重要語に基づく特徴ベクトルについて、階層的に可視化することも可能である。
図12では、システム特徴変数による空間を第1の空間としているが、順番は可変である。さらに、コミュニケーションデータの重要語に基づく特徴ベクトルについては、クラスタリングの結果に基づいて、代表的な重要語を空間上に表示することもできる。
【0061】
図13は、サービス特徴抽出・提示モジュールの動作を示すフローチャートである。まず、特徴ベクトルを抽出し(ステップV1)、K−means法における次元圧縮を行なうかどうかを判断する(ステップV2)。次元圧縮を行なわない場合は、ステップV5に遷移する一方、次元圧縮を行なう場合は、主成分分析を行ない(ステップV3)、第N主成分を抽出する(ステップV4)。次に、クラスタリングを行ない(ステップV5)、クラスタリング結果を可視化するために表示処理を行なう(ステップV6)。次に、すべての特徴ベクトルについて処理したかどうかを判断し(ステップV7)、すべての特徴ベクトルについて処理していない場合は、ステップV1に遷移する。一方、すべての特徴ベクトルについて処理した場合は、代表的な重要語を抽出し(ステップV8)、抽出した重要語に基づく特徴ベクトルを空間上に表示する処理を行なって(ステップV9)、終了する。
【0062】
次に、
図1における個人スキル抽出モジュール27について説明する。個人スキル抽出モジュール27は、システム機能スキル抽出機能を有している。システム機能スキル抽出機能は、各カテゴリから得られたテキストに対して付与されたラベルデータに基づいて、ある特定のユーザが投稿したテキストのシステム特徴に対する親和度合いをスキルとして抽出する。例えば、ユーザが“SYNCHRONOUS”なコミュニケーションツール(チャットなど)に対して多くのコメントを投稿していた場合、“SYNCHRONOUS”なサービスに対して慣れ親しんでいると把握することができる。この頻度情報に基づいて、ユーザのシステム機能スキルベクトルを生成する。例えば、
図3に示した様に、各システム機能特徴変数の頻度によって表現することができる。
【0063】
また、個人スキル抽出モジュール27は、状況特徴スキル抽出機能を有している。状況特徴スキル抽出機能は、各カテゴリから得られたテキストに対して付与されたラベルデータに基づいて、ある特定のユーザが投稿したテキストの状況特徴に対する親和度合いをスキルとして抽出する。例えば、ユーザが“PUBLIC”なコミュニケーションツール(チャットなど)に対して多くのコメントを投稿していた場合、“PUBLIC”なサービスに対して慣れ親しんでいると把握することができる。この頻度情報に基づいて、ユーザの状況特徴スキルベクトルを生成する。例えば、
図4に示した様に各状況特徴変数の頻度などを利用することにより計算することができる。
【0064】
S2については、ユーザが利用しているSNS・コミュニティの年齢や、性別分布を事前に抽出し、パターン登録することが出来る。例えば、SNS1でのコミュニティが女性、30代のみのコミュニティであった場合をパターン1として登録し、SNS2でのコミュニティが男女比率7:3、年齢分布として、20代:30代:40代=3:3:4をパターン2として登録することで頻度計算を実施することができる。
【0065】
また、個人スキル抽出モジュール27は、ユーザ態度スキル抽出機能を有している。ユーザ態度スキル抽出機能は、各カテゴリから得られたテキストに対して付与されたラベルデータに基づいて、ある特定のユーザが投稿したテキストのユーザ態度特徴に対する親和度合いをスキルとして抽出する。例えば、ユーザが“THANK”や“GREET”に対して多くのコメントを投稿していた場合、社交的なコメント投稿に対して多くの経験・スキルを持つと把握することができる。この頻度情報に基づいて、ユーザの態度スキルベクトルを生成する。例えば、
図5に示した様に、各ユーザ態度スキルベクトル変数の頻度などを利用することにより計算することができる。
【0066】
図1において、類似度計算・提示モジュール25は、個人スキル抽出モジュール27、サービス特徴抽出・提示モジュール21によって得られた特徴ベクトル同士を比較することによって、個人スキルとの類似度を計算する。類似度はコサイン距離などを利用することで計算することができる。類似度に基づいて、上位N件をユーザに提示することによって、個人スキルに適合したサービスを推薦することができる。
【0067】
図14は、類似度計算処理を示すフローチャートである。まず、個人スキル抽出モジュール27を介して、個人スキルベクトルを抽出し(ステップW1)、サービス特徴抽出・提示モジュール21を介して、サービス特徴ベクトルを抽出する(ステップW2)。次に、抽出した2つのベクトルの類似度を計算し(ステップW3)、すべてのSNSについて、類似を計算したかどうかを判断する(ステップW4)。すべてのSNSについて、類似度を計算していない場合は、ステップW2に遷移する。一方、すべてのSNSについて、類似度を掲載した場合は、類似度の高い方からN件抽出し(ステップW5)、ユーザに提示して(ステップW6)、終了する。
【0068】
図1において、表示モジュール23は、個人スキル抽出モジュール27によって得られたシステム機能スキルベクトルに基づいて、部分的な分布を計算し、可視化することが可能である。
図15は、システム機能スキルベクトルを表現した図である。
図15に示すように、例えば、M1の“SYNCHRONISITY”についての頻度をグラフ化することができる。また、その他に、複数のシステム特徴変数をまとめて表示することもできる。
図16は、M1からM4までのシステム特徴をまとめて可視化した例を示している。
【0069】
また、表示モジュール23は、個人スキル抽出モジュール27によって得られた状況特徴スキルベクトルに基づいて、部分的な分布を計算し、可視化することが可能である。
図17は、状況特徴スキルベクトルを表現した図である。
図17に示すように、例えば、S1のユーザ参加形態についての投稿頻度をグラフ化することができる。また、その他に、複数のシステム特徴変数をまとめて表示することもできる。
図18は、S1からS2までのシステム特徴をまとめて可視化した例を示している。
【0070】
また、表示モジュール23は、個人スキル抽出モジュール27によって得られたユーザ態度スキルベクトルに基づいて、部分的な分布を計算し、可視化することができる。
図19は、ユーザ態度スキルベクトルを表現した図である。
図19に示すように、例えば、A1−A3のユーザ参加形態についての投稿頻度をグラフ化することができる。また、その他に、複数のシステム特徴変数をまとめて表示することもできる。
図20は、A1からA16までのシステム特徴をまとめて可視化した例を示している。
【0071】
また、表示モジュール23は、以上の全てのスキルベクトルをカテゴリ毎にカテゴリベクトルとしてスキル表現空間を生成することによって、ユーザがどのようなスキルを多く利用しているかを可視化することができる。
図11に示したように、例えば、主成分分析を適用し、第1主成分・第2主成分を表現軸として利用することによって、2次元平面上のプロットとして表現することができる。第3主成分を加えることで三次元表示が可能となる。また、そのほかにもSOMなどの可視化技術を利用することが可能である。
【0072】
特徴ベクトルによって表現されたコミュニケーションデータは、さらにクラスタリング手法などを適用することでグルーピングして表示することもできる。クラスタリング方式は例えばK−means法などにより分類することができる。画面上でプロットをクリックすることによって、各SNS上のコミュニケーションデータの分類結果や投稿頻度を閲覧することができる。また、本システムにより得られたユーザのスキル分布を利用して、ユーザに対して特定のSNSを推薦することもできる。本実施形態に係るデータ処理システムを利用することによって、ユーザのスキルに応じた新規SNSを推薦することができる。
【0073】
以上説明したように、本実施形態によれば、実際にデータを取得することが困難なSNSに対してもコミュニケーション状況を可視化することができため、ユーザは、SNS上でどのようなコミュニケーションが行われているのかを事前に把握することが可能となる。これにより、ユーザは、自身に適したSNSを容易に選ぶことが可能となる。本実施形態によれば、従来技術では実現できなかった、複数の観点での特徴量(システム変数・状況変数・コミュニケーション変数など)を統一的に表示することができる。