【実施例1】
【0014】
図1は、本実施例における情報処理システムのシステム構成を示す図である。
図1に示すように、本実施例における情報処理システムは、各拠点(拠点1,2,…,n)、メンバ情報・グループウェアシステム、解析システムが、インターネット等のネットワークを介して接続されている。各拠点は、メールサーバ100を有しており、拠点間で電子メールの送受信を行うことが可能である。メンバ情報・グループウェアシステムは、メンバ情報DB101を有しており、組織を構成するメンバの情報や、メンバが所属する部署の情報を管理している。メンバ情報DB101のテーブルについては、
図13で後述する。解析システムは、解析サーバ102、解析情報DB103、クライアント端末104を有する。解析サーバ102は、組織内で送受信される電子メールを集計してトレンド用語を抽出したり、部署間のトレンド用語の類似度を算出する等、本実施例の主要な機能を実現する処理を行う。解析サーバ102の機能構成の詳細については、
図2で後述する。解析情報DB103は、解析サーバ102の処理結果などを記録する。解析情報DB103のテーブルについては、
図14〜17で後述する。クライアント端末104は、解析結果を確認する際に利用される。
【0015】
図2は、解析サーバ102の機能構成を示す図である。解析サーバ102は、用語抽出処理部200、用語出現回数カウント処理部201、トレンド用語抽出処理部202、トレンド用語類似度算出処理部203、結果表示部204、協業部署判定処理部205を有する。用語抽出処理部200は、メール(例えば、メール本文や添付ファイル)から所定の手法により用語を抽出する処理部である。用語抽出処理部200により実施される処理の詳細は
図3で後述する。用語出現回数カウント処理部201は、用語抽出処理部200により抽出された用語の出現回数をカウントする処理部である。用語出現回数カウント処理部201により実施される処理の詳細は、
図3で後述する。トレンド用語抽出処理部202は、用語出現回数カウント処理部のカウント結果に基づきトレンド用語を抽出する処理部である。トレンド用語抽出処理部202により実施される処理の詳細は、
図4で後述する。トレンド用語類似度算出処理部203は、トレンド用語抽出処理部202に抽出された複数の部署ごとのトレンド用語につき、相互の類似度を算出する処理である。トレンド用語抽出処理部203に実施される処理の詳細は、
図4で後述する。結果表示部204は、解析サーバ102による解析結果をクライアント端末104に表示させるための処理部である。結果表示部204によりクライアント端末104に表示される画面例の詳細については
図7〜
図12で後述する。協業部署判定処理部205は、所定手法により、各部署が協業中か否かを判定する処理部である。協業部署判定処理部205により実施される処理の詳細は、
図5で後述する。
【0016】
図3は、電子メールからトレンド用語を分析するため、電子メールが1通送られるごとに行われる処理を示すフローチャートである。
S100は、メールサーバ100が、電子メールを送信する処理である。
S101は、メールサーバ100が、S100で送信した電子メール情報を解析サーバ102に転送する処理である。転送される電子メール情報は、解析情報DB103のメール情報テーブル520の形式に従ったものであり、メールID521、送信者522、宛先(To)523、宛先(Cc)524、宛先(Bcc)525、送信日時526、件名527、本文528の情報を有する。これらの情報に加え、添付ファイルの有無やその形式、実際に添付されている添付ファイルのデータを含めてもよい。
【0017】
S102は、解析サーバ102が、メールサーバ100から転送された電子メール情報を解析情報DB102のメール情報テーブル520に格納する処理である。
【0018】
S103は、解析サーバ102が、メール情報テーブル520に格納した電子メールがどの部署からどの部署に送信されたものかを判定し、判定結果をカウントする処理である。解析サーバ102は、電子メールの送信元522、宛先(To)523、宛先(Cc)524、宛先(Bcc)525のメールアドレスの情報と、メンバ情報DB101のメンバ情報テーブル500の所属部署ID503、メールアドレス504の情報を利用して、どの部署からどの部署へ送信された電子メールであるかを判定する。解析サーバ102は、その結果を、解析情報DB103の部署間メール送受信回数テーブル560の送信元部署のテーブルの送信回数563と、送信先部署の受信回数564のカウンタに1ずつカウントアップすることで反映する。ただし、電子メールの宛先(To、Cc、Bcc)に複数のメールアドレスが指定されている場合、同一の部署コードのメンバが複数指定されていても、部署間メール送受信回数テーブルの送信元部署のテーブルの送信回数542、送信先部署の受信回数543のカウンタは1だけカウントアップすることとする。ここでカウントした電子メールの送受信回数は、協業部署判定処理部205が行う処理に用いられる。
【0019】
S104は、解析サーバ102が、S102で格納した電子メール情報の件名527、本文528のテキスト文書を単語ごとに分割し、トレンド用語の候補となる用語を抽出する処理である。S104の具体的な処理方法は任意とし、ここでは処理方法の一例として、(1)〜(4)の一連の処理方法を記載する。
【0020】
(1)解析サーバ102は、形態素解析処理を行い、テキスト文書を分解し、名詞句を抽出する。形態素解析処理には、例えば、MeCab(Yet Another Part-of-Speech and Morphological Analyzer)を使用することができる。MeCabは、京都大学情報学研究科と日本電信電話株式会社コミュニケーション科学基礎研究所の共同研究ユニットプロジェクトを通じて開発されたオープンソースの形態素解析エンジンである。
【0021】
(2)続いて、解析サーバ102は、形態素解析の結果から、統計処理に基づいて複合語を構築する。専門用語の多くは単語を組み合わせて、複雑な概念を表すことが多い。多くの形態素解析では単語を品詞単位で細かく分割するため、そのまま単語集計に使うには難がある。また、どの用語が重要であるか判断する仕組みを持たない。そこで、解析サーバ102は、形態素解析結果を複合語に組み立てる。複合語を構築するモジュールとして、例えばTermExtractを用いることができる。TermExtractは、1)形態素解析結果を複合語に組み立て、2)その複合語(単語の場合もある)を重要度の高い順に返す。また、TermExtractは、形態素解析によらない、英文及び中文の専門用語自動抽出機能なども有する。
【0022】
(3)解析サーバ102は、トレンド用語として適切な単語を抽出する。(1)、(2)の処理から得られる単語には、人名や地名のほか、会社独自の社内用語などが含まれる可能性があるが、本実施例では各部署の業務内容を把握するためにトレンド用語の抽出を行うため、その目的に合わない(業務に関係のない)単語をトレンド用語の候補から除外することが必要となる。そのため、あらかじめ集計対象用語リストテーブル540に業務等のカテゴリごとに集計の対象としたい用語を記録しておき、(1)、(2)の処理から得られた名詞句または複合語の突合せを行い、リストに合致するもののみをトレンド用語の候補として抽出する。集計対象用語リストテーブル540の内容は分析対象の組織の業務などにマッチしている必要がある。また、この方法では、集計対象用語リストテーブル540に未登録の新しい用語は抽出されないため、集計対象用語リストテーブル540のメンテナンスを随時行うことが必要となる。
【0023】
(4)最後に、解析サーバ102は、(1)、(2)、(3)の処理で抽出された単語を、事前に用意した同義語辞書テーブル530と照合し、同義語を代表的な表現に置き換える処理を行う。例えば、「PC」、「パソコン」、「パーソナルコンピュータ」という各用語はいずれも同じ意味として用いられており、これらが個々の用語として集計されると好ましい結果が得られない。そのため、(1)、(2)、(3)の処理から得られた用語を同義語533と照合し、一致するものがある場合は用語532に置き換える。なお、S104は、解析サーバ102の用語抽出処理部200によって行われる。
【0024】
S105は、解析サーバ102が、S104で抽出した用語のうち、用語出現回数カウントテーブル550に存在しない用語がないかどうかを判定する処理である。存在しない用語がある場合は、S106の処理に、存在しない用語がない場合はS107の処理に続く。
【0025】
S106は、解析サーバ102が、用語出現回数カウントテーブル550の、電子メールを送信した側の部署のテーブルに新しい用語ID552を出力し、用語553に新たな用語を登録する処理である。
【0026】
S107は、解析サーバ102が、S104で抽出した用語を、電子メールを送信した側の部署の用語出現回数カウントテーブル550にカウントアップする処理である。なお、S105、S106、S107は、解析サーバ102の用語出現回数カウント処理部201によって行われる。
【0027】
図4は、部署ごとのトレンド用語と、部署間のトレンド用語の類似度の算出処理を示すフローチャートである。
【0028】
S200は、解析サーバ102が、用語出現回数カウントテーブル550から、部署ごとのトレンド用語を抽出する処理である。解析サーバ102は、部署コードごとに用語出現回数カウントテーブル550の出現回数554が多い順にソートを行い、出現回数が多い用語をトレンド用語とする。トレンド用語の個数は任意とする。なお、S200は解析サーバ102のトレンド用語抽出処理部202によって行われる。
【0029】
S201は、解析サーバ102が、トレンド用語の類似度を算出する処理である。トレンド用語の類似度は、S200で割り出された各部署のトレンド用語が、部署間でどれだけ類似しているかを示す指標である。トレンド用語の類似度算出の例については、
図6に後述する。なお、S201は解析サーバ102のトレンド用語類似度算出処理部203によって行われる。
【0030】
S202は、解析サーバ102が、S201で算出したトレンド用語の類似度を、部署間トレンド用語類似度テーブルに記録する処理である。例えば、部署ID:0025の部署と部署ID:0245の部署のトレンド用語の類似度が54.5[%]であった場合は、部署ID:0025のテーブルの対象部署ID:245の列と、部署ID:0245のテーブルの対象部署ID:0025の列にそれぞれ類似度54.5を記録する。
【0031】
図5は、ある2つの部署が協業しているか協業していないかの判定を行うための処理を示すフローチャートである。
【0032】
S300は、解析サーバ102が、比較元の部署の電子メールの総送受信回数を算出する処理である。部署間メール送受信回数テーブルの部署IDが比較元の部署の部署IDであるテーブルについて、送信回数、受信回数の総和を計算する(算出された値をAとする)。
図16を例にとると、部署ID:0025の部署の電子メールの総送受信回数を算出する場合は、部署ID:0025のテーブルについて、送信回数と受信回数の総和(太い実線枠で囲んだ部分)を計算する。
【0033】
S301は、解析サーバ102が、比較元の部署と比較先の部署間における送受信回数を算出する処理である。解析サーバ102は、部署間メール送受信回数テーブルの部署IDが比較元の部署の部署IDであるテーブルについて、対象部署IDが比較先部署の部署IDと一致する列について、送信回数と受信回数の和を計算する(算出された値をBとする)。
図16を例にとると、部署ID:0025の部署と部署ID:0245の部署間の送受信回数を計算する場合は、解析サーバ102は、部署ID:0025のテーブルの対象部署ID:0245の列の和(破線枠で囲んだ部分)を計算する。
【0034】
S302は、S300、S301で算出したA、Bについて、解析サーバ102が、B/Aの値が別途定義されている閾値より大きいか小さいかを判定する処理である。B/Aの値は、(比較元の部署と比較先の部署でやり取りした電子メールの数)/(比較元の部署が送受信した電子メールの総数)を表しており、この値が大きいほど、比較元の部署と比較先の部署が電子メールによる連携を密にとっていることになる。解析サーバ102は、この値が閾値より小さい場合は非協業部署(同一プロジェクトなどに従事しておらず、協業していない部署)、閾値より大きい場合は協業部署(同一プロジェクトなどに従事しており、協業している部署)であると判定する。判定に用いる閾値は任意に決定することができ、例えば
図10の閾値設定画面413で設定することが可能とする。解析サーバ102は、B/Aの値が閾値より小さい場合は、比較先の部署を非協業部署と判定し(S303)、B/Aの値が閾値より大きい場合は、比較先の部署を協業部署と判定する(S304)。なお、S300、S301、S302、S303、S304は解析サーバ102の非協業部署判定処理部205によって行われる。
【0035】
図6は、
図4におけるトレンド用語の類似度を算出する処理(S201)の例300を図示したものである。部署コード:0025(OO本部1部2G)と、部署コード:0245(XX本部2部2G)の2部署があり、前者を比較元、後者を比較先の部署とする。
【0036】
比較元の部署ではトレンド用語として、”IoT”(出現回数510回)、”故障予知”(出現回数475回)、”O&M”(出現回数256回)、”産業機械”(出現回数180回)、”ビッグデータ”(出現回数96回)の5つが挙がっている。全トレンド用語の出現回数は1517回である。
【0037】
また、比較先の部署ではトレンド用語として、”O&M”(出現回数721回)、”産業機械”(出現回数547回)、”工作機械”(出現回数237回)、”ファクトリーオートメーション”(出現回数101回)、”バリューチェーンマネジメント”(出現回数32回)の5つが挙がっている。全トレンド用語の出現回数は1638回である。
【0038】
これより、比較元の部署と比較先の部署では、”O&M”と”産業機械”という2つのトレンド用語が合致していることが分かる。トレンド用語の類似度は、2部署間で合致しているトレンド用語について、下記の数1に示す式301のように計算する。
【0039】
【数1】
【0040】
上記例の場合、類似度は、{(256/1517+721/1638)+(180/1517+547/1638)}×100/2=54.5[%]と算出される。
【0041】
図7は、本システムでの電子メール分析による集計結果を表示するための画面例であり、クライアント端末104で確認することができる。結果表示部204が出力する確認画面400には、各部署を示す部署アイコン401、本部や部などのまとまりを示すグループ枠402、部署間のトレンド用語の類似度の高さを示す類似度線403が表示される。また、確認画面400は操作用のボタンとして、トレンド用語の類似度を表示する中心となる部署を変更する「部署変更」ボタン404、協業中の部署を非表示にする「協業中の部署を非表示」ボタン405、協業中の部署の判定に用いる閾値を変更する「閾値変更」ボタン406、全部署のトレンド用語の類似度を表示する「全部署の類似度を確認」ボタン407、確認画面400を閉じる「閉じる」ボタン408を有する。
図7は、「○○本部 第1部 2グループ」という部署を中心とし、各部署とのトレンド用語の類似度をマッピングした確認画面400の例である。○○本部 第1部 2グループを中心として他部署に類似度線が引かれており、○○本部 第1部 1グループ、3グループ、○○本部 第2部 1グループ、××本部 第2部 2グループとはトレンド用語の類似度が高かったことをグラフィカルに表現している。このように、結果表示部204は、○○本部 第1部 2グループと、これらのグループとの間において、部署間のトレンド類似度が高いほど上記類似度線403を太く表示している。
【0042】
図8は、2部署間のトレンド用語とトレンド用語の類似度を表示した確認画面409である。結果表示部204は、確認画面409において類似度線403のクリックを受け付けると、類似度線の両端の部署アイコン401のトレンド用語リスト410と、その部署間のトレンド用語の類似度411を吹き出しで表示する。例えば、
図8において、結果表示部204は、部署IDが0025である○○本部 第1部 2グループと、部署IDが0245である××本部 第2部 2グループとの間の太線のクリックが受け付けられると、部署IDが0025の部署間トレンド類似度テーブル570を参照し、0245で示される対象部署IDに対応するトレンド類似度を読みとり、類似度411を54.5として表示する。また、例えば、結果表示部204は、部署IDが0025である○○本部 第1部 2グループの部署アイコン401に対するクリックが受け付けられると、部署IDが0025の用語出現回数カウントテーブル550を参照し、上位5番目までのトレンド用語をトレンド用語リスト410として表示する。
【0043】
図9は、確認画面400の表示から、協業している部署間の類似度線を除外した画面例である。同一プロジェクトに従事している等の理由で協業している部署間(例えば、同一プロジェクトに従事している営業部署とSE部署など)では、業務において同じ用語が頻繁に使われるため、おのずとトレンド用語の類似度が高くなることが想定される。しかし、本実施例の趣旨は、業務上でかかわりのない部署間において偶然トレンド用語が一致しているケースを検出し、両者を引き合わせることで新しいビジネスチャンスを生むというものである。そのため、本実施例では、協業している部署間の類似度線を集計結果から外して確認する機能を有している。結果表示部204は、「協業中の部署を非表示」ボタン405の押下を受け付けることで、協業している部署間の類似度線を除外した確認画面412に遷移する。なお、協業中の部署と協業していない部署の判定は解析サーバ102の協業部署判定処理部205によって行われ、S300、S301、S302、S303、S304に該当する。例えば、結果表示部204は、上記「協業中の部署を非表示」ボタン405のクリックが受け付けられると、その旨を非協業部署判定処理部205に通知し、非協業部署判定処理部205が
図5に示した処理を実行する。非協業部署判定処理部205は、その結果を結果表示部204に通知し、結果表示部204が、非協業部署として通知された比較先の部署アイコン401と比較元の部署アイコン401との間の類似度線403を削除して非協業部署間の類似度線403に絞り込み、上記確認画面412を表示する。
【0044】
図10は、S302で協業中の部署と協業していない部署の判定に用いる閾値を設定するための閾値設定画面413を示している。結果表示部204は、画面413から確認画面400の「閾値変更」ボタン406の押下を受け付けると、上記閾値を不図示のメモリ上に記憶する。
【0045】
図11は、全部署間のトレンド用語の類似度の関係をマッピングした確認画面414であり、「全部署の類似度を確認」ボタン407から遷移することができる。例えば、
図11において、結果表示部204は、「全部署の類似度を確認」ボタン407のクリックが受け付けられると、すべての部署の部署間トレンド類似度テーブル570を参照し、部署ごとにトレンド類似度を読みとり、すべての部署間について類似度線403をマッピングした確認画面414を表示する。確認画面414は全部署管の類似度線がマッピングされているため、例えば会社の人事部や幹部層などが、体制の見直しを行うときなどに利用すると有効である。なお、
図8に示したように、当該画面において、ある部署の部署アイコン401がクリックされた場合は、クリックされた部署の用語出現回数カウントテーブル550を参照し、上位5番目までのトレンド用語をトレンド用語リスト410として表示される。また、部署間の類似度線403がクリックされた場合は、部署間トレンド類似度テーブル570を参照し、類似度411を表示する。
【0046】
図12は確認画面414のうち、協業している部署間の類似度線を除外した画面例である。「協業中の部署を非表示」ボタン405を押下することで、協業している部署間の類似度線を除外した確認画面415に遷移することができる。当該画面の表示方法については
図9に示した場合と同様であるため、ここではその説明を省略する。
【0047】
図13は、メンバ情報DB101のメンバ情報テーブル500、部署情報テーブル510の構成例を示す。
【0048】
メンバ情報テーブル500は、本実施例を適用する組織におけるメンバ(例えば、会社における従業員など)の情報を管理するテーブルであり、メンバID501、氏名502、所属部署ID503、メールアドレス504の情報を有する。
図13のメンバID:0001のデータを例にすると、メンバID:0001の鈴木 太郎というメンバは、所属部署ID:0025の部署に所属しており、aaa@example.co.jpというメールアドレスを利用していることを示す。
【0049】
部署情報テーブル510は、部署名と部署の階層構造を示す情報を管理するテーブルである。部署ID511、上位部署ID512、部署名513の情報を有する。上位部署IDの情報によって、部署のツリー構造を表現している。
図13のテーブルを例にすると、部署ID:0025の○○本部1部2Gは、上位に部署ID:0010の○○本部1部をもっている。部署ID:0010の○○本部1部は、上位に部署ID:0001の○○本部をもっている。部署ID:0001の○○本部は、上位部署IDが空白となっており、上位部署をもたない(最上位の部署)。
【0050】
図14は、解析情報DB103のメール情報テーブル520、同義語辞書テーブル530の構成例を示す。
【0051】
メール情報テーブル520は、各電子メールの情報を記録するテーブルであり、メールID521、送信者522、宛先(To)523、宛先(Cc)524、宛先(Bcc)525、送信日時526、件名527、本文528の情報をもつ。
図14のテーブルを例にすると、メールID:00000002の電子メールは、送信者のメールアドレスがaaa@example.co.jp、宛先(To)の電子メールアドレスがbbb@example.co.jpとddd@example.co.jp、宛先(Cc)のメールアドレスがeee@example.co.jp、宛先(Bcc)のメールアドレスがfff@example.co.jpであり、2017/01/13 9:30に送信された電子メールであり、件名は「RE:xxの件について」、本文は「XX様 お世話になっております…」と続く電子メールであることを示す。
【0052】
同義語辞書テーブル530は、用語の同義語を記録する辞書テーブルであり、S104において抽出した用語を同義語に置き換える処理に用いる。同義語辞書テーブル530は、用語ID531、用語532、同義語533をもつ。
図14のテーブルを例にすると、用語ID:0004の「AI」という用語は、「人工知能」という同義語を持つことを示す。
【0053】
図15は、解析情報DB103の集計対象用語リストテーブル540、用語出現カウントテーブル550の構成例を示す。
【0054】
集計対象用語リストテーブル540は、トレンド用語の算出を行う対象の用語リストであり、S104の処理で用いる。
図15のテーブルを例にすると、用語ID:0001の用語は、「生産技術」カテゴリの「工作機械」という用語であることを示す。
【0055】
用語出現回数カウントテーブル550は、S104で電子メールの件名・本文のテキストから抽出した用語を、でS105、S106、S107でカウントするためのテーブルであり、どの用語が何回出現したかを部署ごとに記録するものである。用語出現回数カウントテーブルは、部署ID551、用語ID552、用語553、出現回数554の情報をもつ。
図15のテーブルを例にすると、部署ID:0025の部署では、自部署から送信した電子メール中に、「IoT」という用語が510回、「ビッグデータ」という用語が149回、「故障予知」という用語が475回含まれていることを示す。
【0056】
図16は、解析情報DB103の部署間メール送受信回数テーブル560の構成例を示す。
【0057】
部署間メール送受信回数テーブル560は、ある部署が他部署に何回電子メールを送信し、他部署から何回電子メールを受信したかを記録するのに用いるテーブルである。
図16のテーブルを例にすると、部署ID:0001の部署は、部署ID:0002の部署に対して電子メールを368回送信しており、同部署から電子メールを314回受信していることを示す。
【0058】
図17は、解析情報DB103の部署間トレンド類似度テーブル570の構成例を示す。
【0059】
部署間トレンド類似度テーブル570は、ある部署と他の部署間のトレンド用語の類似度を記録するテーブルであり、部署ID571、対象部署ID572、トレンド類似度573の情報を有する。
図17のテーブルを例にすると、部署ID:0025の部署と部署ID:0245の部署間のトレンド用語の類似度は54.5[%]であることを示している。
【0060】
このように、本実施例では、組織の業務でやり取りされる電子メールからトレンド用語を抽出することで各部署がどんな業務にあたっているかを把握し、組織内で似たような業務を行っている部署がないかどうかを調査することができる。例えば、組織内において実は似たような業務を行っていたり、実は似たようなアイデアを持っていたという部署同士を引き合わせることで、潜在的なビジネスチャンスを顕在化することができる。また、有識者同士でノウハウを共有したり、議論を行うことでより高いレベルの知識形成につなげることができる。