【文献】
橋本 力,もう一つの意味的極性「活性/不活性」と知識獲得への応用,言語処理学会第18回年次大会発表論文集 チュートリアル 本会議 [CD−ROM],日本,言語処理学会,2012年 3月13日,93−96ページ
【文献】
後藤 淳,質問応答に基づく対災害情報分析システム,自然言語処理,日本,言語処理学会,2013年 6月14日,第20巻 第3号,367−404ページ
【文献】
田中 弥生,修辞ユニット分析からみたQ&Aサイトの言語的特徴,言語処理学会第17回年次大会発表論文集 チュートリアル 本会議 ワークショップ [CD−ROM],日本,言語処理学会,2011年 3月31日,248−251ページ
(58)【調査した分野】(Int.Cl.,DB名)
第1及び第2のカテゴリのいずれかに分類されたテキストの集合において、前記第1のカテゴリのテキストに対して、前記第2のカテゴリのテキストを対応付けるテキストマッチング装置であって、
前記集合に含まれるテキストは、当該テキストを構成する1又は複数の形態素、当該1又は複数の形態素の係り受け情報、及び、前記テキストに含まれる名詞と、当該名詞が係る述部との組合せからなる文の核内の名詞の分類と述部の分類との組合せとを素性として用いた機械学習を用いたテキスト分類装置により前記第1及び第2のカテゴリに分類されており、
前記テキストマッチング装置は、
前記第1のカテゴリのテキストと、前記第2のカテゴリのテキストとを互いに区別して記憶する記憶手段と、
前記記憶手段から、前記第1のカテゴリのテキストと前記第2のカテゴリのテキストとからなるテキストのペアを生成するテキストペア生成手段と、
前記テキストペア生成手段により生成された前記ペア内のテキストが前記テキスト分類装置により分類されたときの前記素性を含むマッチング用素性を、前記ペアから生成するマッチング用素性生成手段と、
前記マッチング用素性生成手段により生成されたマッチング用素性を用いて、前記ペアを構成する2つのテキストが互いにマッチするか否かを判定するマッチング手段とを含み、
前記マッチング手段は、予めマッチング用の学習データを用い、前記マッチング用素性により、テキストのペアがマッチするか否かを判定するように学習済の、機械学習モデルを含む、テキストマッチング装置。
前記第1及び第2のカテゴリの一方は問題の報告を表すテキストからなるカテゴリであり、他方は問題を解決するための支援情報を表すテキストからなるカテゴリである、請求項1又は請求項2に記載のテキストマッチング装置。
前記第1及び第2のカテゴリの一方は問題の解決を要望するテキストであり、他方は問題を解決するための支援情報を表すテキストである、請求項1又は請求項2に記載のテキストマッチング装置。
前記分類する手段は、少なくとも、前記核特定手段により特定された核について、当該核内の名詞について前記名詞分類手段が分類した結果と、当該核内で当該名詞が係る述部について前記述部分類手段が分類した結果との組合せを表す情報を素性として、与えられたテキストが前記特定のカテゴリに属するか否かを判定する、機械学習による判定手段を含む、請求項6に記載のテキスト分類装置。
【発明を実施するための形態】
【0029】
以下に説明する実施の形態の説明及び図面では、同じ部品には同じ参照符号を付してある。それらの名称及び機能も同じである。したがって、それらについての詳細な説明は繰返さない。
【0030】
[基本的考え方]
最初に、問題報告、要望連絡及び支援情報という3つのカテゴリに属するテキストを特定・収集するための核構成マトリックス手法(テーブル1)について説明し、続いて、その作用と効果について説明する。次に、問題報告と支援情報のマッチング・要望連絡と支援情報のマッチングのために開発した共起対マトリックス手法(テーブル2)について説明した後、その作用・効果について述べる。なお、以下では、問題報告というカテゴリに属するテキスト、要望連絡というカテゴリに属するテキスト及び支援情報というカテゴリに属するテキストを、それぞれ問題報告、要望連絡及び支援情報と呼ぶことがある。
【0032】
【表1】
本実施の形態では、問題報告、要望連絡、支援情報の特定・収集のために、核構成マトリックス手法と呼ばれる新規な方法を用いる。テーブル1を参照して、この手法は、テキストに表現されている名詞と述部との係り受け関係を、名詞の分類と述部の極性の組合せによって細分化する。ここでは、名詞はトラブル表現と非トラブル表現に、述部の極性は活性と非活性とに分類する。この極性にしたがい、各述部を活性テンプレートと非活性テンプレートとに分類する。
【0033】
トラブル表現とは、問題又は負担を表す名詞のことをいう。例えば、「故障」、「インフルエンザ」、「間違い」、「ヘドロ」、「インフルエンザ」、「アトピー」等が該当する。非トラブル表現とは、「お風呂」、「医療品」、「食料」等、一般的には、問題又は負担を表さない表現である。
【0034】
活性テンプレートとは、変数Xを含む表現パターンで、変数Xにより表される事物の機能等が「オン」になること(機能等が活性化すること)を示す助詞と述部との組合せのことをいう。例えば 「Xを引き起こす」、「Xを使う」、「Xを買う」、「Xを進行させる」、「Xを輸入する」、「Xが増える」等が該当する。これらはいずれもXにより表されるものの機能が発揮されるような表現である。
【0035】
不活性テンプレートとは、 変数Xを含む表現パターンで、変数Xにより表される事物の機能等が「オフ」になること(機能等が不活性化すること)を示すもののことをいう。例えば 「Xを防ぐ」、「Xを捨てる」、「Xが減る」、「Xを破壊する」、「Xが不可能になる」が該当する。
【0036】
本明細書では、活性と不活性とをまとめて「極性」と呼ぶ。
【0037】
このように核構成マトリックス手法では名詞と述部とをそれぞれ2つに分類した。その結果、4つの分類が得られる。これら4つの分類に細分化される係り受け関係は、以下の4タイプである。
【0038】
(A)問題核(1)
問題核(1)とは、名詞+述部のうち、名詞=トラブル表現、かつ、述部=活性テンプレートの係り受け表現のことをいう。例えば、「ヘドロが蓄積する」(ヘドロ=トラブル表現、Xが蓄積する=活性テンプレート)等が該当する。問題核(1)に該当する係り受け関係は、トラブル表現に該当する問題や負担の機能がオンになることをあらわし、問題が存在すること、影響を及ぼすこと等を示す傾向がある。
【0039】
(B)問題核(2)
問題核(2)とは、名詞が非トラブル表現で、かつ、述部が不活性テンプレートの係り受け関係のことをいう。例えば、「お風呂に困る」(お風呂=非トラブル表現、Xに困る=不活性テンプレート)等が該当する。災害時、断水又は停電のためにお風呂に入れないことが問題となっていたが、そのような場合に発生する可能性の高い表現である。問題核(2)に該当する係り受け関係は、非トラブル表現に該当する事象の機能がオフになることをあらわし、対処又は支援行為等が機能していないこと等を示す傾向がある。
【0040】
(C)支援核(1)
支援核(1)とは、名詞がトラブル表現で、述部が不活性テンプレートの係り受け関係のことをいう。例えば、「ヘドロを除去する」(ヘドロ=トラブル表現、Xを除去する=不活性テンプレート)等が該当する。支援核(1)に該当する係り受け関係は、トラブル表現に該当する問題又は負担の機能がオフになることをあらわすことで問題の解決又は弱体化等を示す傾向がある。
【0041】
(D)支援核(2)
支援核は、名詞が非トラブル表現で、述部が活性テンプレートの係り受け関係のことをいう。例えば、「お風呂を開放する」(お風呂=非トラブル表現、Xを開放する=活性テンプレート)等が該当する。支援核(2)に該当する係り受け関係は、非トラブル表現に該当する事象の機能がオンになることをあらわし、対処又は支援行為等が実行又は準備されていること等を示す傾向がある。
【0042】
本実施の形態では、支援核に要求マーカが付与されたものを要望核とする。要求マーカは、先行技術のうち、要望事項の収集に使用されているものと同様のものである。要望核には以下の2タイプがある。
【0043】
(E)要望核(1)
要望核(1)は、支援核(1)に要求マーカが付与されたものをいう。例えば「ヘドロを片付けてください」(ヘドロ=トラブル表現、Xを片付ける=不活性テンプレート、ください=要求マーカ)等が該当する。このタイプに該当する係り受け関係は、トラブル表現に該当する問題や負担の機能がオフになることを要求するもので、問題の解決や弱体化等に対する要望を示す傾向がある。
【0044】
(F)要望核(2)
要望核(2)は、支援核(2)に要求マーカが付与されたものをいう。例えば「お風呂を提供してほしい」(お風呂=非トラブル表現、Xを提供する=活性テンプレート、ほしい=要求マーカ)等が該当する。このタイプに該当する係り受け関係は、非トラブル表現に該当する事象の機能がオンになることを要求するもので、対処又は支援行為等の実行又は準備に対する要望を示す傾向がある。
【0045】
本実施の形態では、これら6タイプの核を用いることで、問題報告・要望連絡・支援情報の特定、収集の性能を向上させる。より具体的には、文の核(名詞+述部)がこれらのタイプのいずれであるかの情報を、インターネット上の各種のメッセージを分類するための分類器を学習させるための素性として用いる。以下、具体的に説明する。
【0046】
〈問題核の作用と効果〉
問題報告には、2つの問題核のいずれかが含まれる傾向が認められる。例えば、「〇〇市でアレルギー用の粉ミルクが足りないとのことです。」という問題報告には、問題核(1)に該当する表現が含まれている。そこで、分類器の素性として、テキスト中に問題核が有るか無いかを分類器の素性として利用する。後述する実験によれば、この素性を利用した場合、利用しない場合と比較して問題報告の特定・収集の性能が向上することが明らかとなった。
【0047】
〈支援核の作用と効果〉
支援情報には、2つの支援核のいずれかが含まれる傾向が認められる。例えば、「〇〇市役所でアレルギー幼児用の粉ミルクを配布します」という支援情報は、「粉ミルクを配布する」(粉ミルク=非トラブル、Xを配布する=活性テンプレート)という支援核に該当する表現を含む。そこで、本実施の形態では、分類器の素性として、テキスト中に支援核が有るか無いかを利用する。後述するように、この素性を利用した場合には、しない場合と比較して、支援情報の特定・収集の性能が向上することが実験の結果明らかになった。
【0048】
〈要望核の作用と効果〉
要望連絡には、2つの要望核のいずれかが含まれる傾向が認められる。例えば、「〇〇市にアレルギー幼児用の粉ミルクを届けてください!」という要望連絡は、「粉ミルクを届けてください」(粉ミルク=非トラブル、Xを届ける=活性テンプレート、ください=要求マーカ)という要望核(2)に該当する表現を含む。そこで、本実施の形態では、分類器の素性として、テキスト中に要望核が有るか無いかを利用する。この素性を利用した場合には、しない場合と比較して、要望連絡の特定・収集の性能が向上することが実験の結果明らかになった。
【0049】
<共起対マトリックス手法>
本実施の形態では、問題報告と支援情報とのマッチング及び要望連絡と支援情報とのマッチングのために、「共起対マトリックス手法」と呼ぶ新規な手法を用いる。この手法は、例えば問題報告に含まれる問題核と支援情報に含まれる支援核とが同じ名詞を共有する場合に、その問題報告と支援情報とからなるペアに対して適用できる。要望連絡と支援情報とのペアの場合も同様である。この手法は、これらペアの種類を、それらに含まれる核の分類と、述部の極性とによって細分化する。共起対マトリックス手法において、核の種類と、核に含まれる述部の極性とによる分類をマトリックス化したものを次のテーブル2に示す。
【0050】
【表2】
共起対マトリックス手法で細分化されるペアは、以下の2タイプである。
【0051】
(1)問題核‐支援核ペア
核の種類が問題核と支援核ペアで、かつ、述部の極性が問題核と支援核で反対となるペアのことをいう。すなわち、問題核(1)と支援核(1)のペアか、問題核(2)と支援核(2)のペアが該当する。核が他の関係となるペアは該当しない。問題‐支援核ペアの例は以下のテーブル3に示す通りである。それぞれの核は同じ名詞を共有することが前提である。
【0052】
【表3】
(2)要望核‐支援核ペア
核の種類が要望核と支援核ペアで、かつ、述部の極性が要望核と支援核で同じペアのことをいう。すなわち、要望核(1)と支援核(1)とのペアか、要望核(2)と支援核(2)とのペアが該当する。核が他の関係となるペアは該当しない。要望核‐支援ペアの例は以下のテーブル4に示す通りである。この場合も、それぞれの核が同じ名詞を共有することが前提である。
【0053】
【表4】
問題核と支援核のペア及び要望核と支援核とのペアの各々を上記したように2タイプに分類する。この分類を素性として用いることで、問題報告と支援情報とのマッチング及び要望連絡と支援情報とのマッチングの精度を向上させることができる。
【0054】
〈問題核‐支援核ペアの作用と効果〉
問題報告と支援情報とが適切にマッチできる場合は、これら情報の組合せが問題核‐支援核ペアを含む傾向が認められる。例えば、「〇〇市にアレルギー幼児用の粉ミルクが足りないとのことです」という問題報告と「〇〇市役所でアレルギー幼児用の粉ミルクを配布します」という支援情報とは、前者の問題が後者の支援情報によって解決する、又は、後者の情報が前者の問題解決に貢献する、という意味で適切なマッチングと考えられる。このペアには、「粉ミルクが足りない⇔粉ミルクを配布する」という問題核‐支援核ペアに該当する表現が含まれている。そこで、本実施の形態では、分類器の素性として、問題報告と支援情報のペアに問題核‐支援核ペアが有るか無いかを利用する。後述するように、この素性を利用した場合には、利用しない場合と比較して適切な問題要望‐支援情報ペアをマッチングできる性能が向上することが実験の結果明らかになった。
【0055】
〈要望核‐支援核ペアの作用と効果〉
要望報告と支援情報が適切にマッチできる場合は、これら情報の組合せが要望核‐支援核ペアを含む傾向が認められる。例えば、「〇〇市にアレルギー幼児用の粉ミルクを届けてください!」という要望連絡と「〇〇市役所でアレルギー幼児用の粉ミルクを配布します」という支援情報とは、前者の要望が、後者の支援情報によって解決する、又は、後者の情報が前者の問題の解決に貢献する、という意味で適切なマッチングと考えられる。これらの情報の組合せは、「粉ミルクを届けてください⇔粉ミルクを配布する」という要望核‐支援核ペアに該当する表現を含む。そこで、以下に述べる実施の形態では、分類器の素性として、要望報告と支援情報とのペアに要望核‐支援核ペアが有るか無いかを利用する。この素性を利用した場合には、利用しない場合と比較して適切な要望連絡‐支援情報ペアをマッチングできる性能が向上することが実験の結果明らかになった。
【0056】
[システムの構成]
図1を参照して、この実施の形態に係る情報マッチングシステム30は、インターネット40から、問題報告、要望連絡及び支援情報を含む様々な情報(以下これらを「メッセージ」と呼ぶ。)を収集し、後続する情報処理に適した形式に整形する情報収集部50と、情報収集部50により収集され整形されたメッセージに対して形態素解析を行なって、品詞等の情報が付与された形態素列の形式で出力する形態素解析部52と、形態素解析部52が出力する形態素解析後のメッセージに対して係り受け解析を行ない、形態素間の係り受け関係をメッセージに付与して出力する係り受け解析部54と、係り受け解析部54により係り受け関係が付与されたメッセージの出所である地名又は場所名を特定し、各メッセージに付与する地名・場所特定部58と、地名・場所特定部58がメッセージの出所を特定するために利用する地名・場所辞書を記憶する地名・場所辞書記憶装置56とを含む。携帯電話等から発信されるTwitter等のメッセージには、地名ではなくその発信地の緯度・経度情報が付与されることがある。地名・場所特定部58は、そのような緯度・経度情報から地名・場所名を特定する機能も持っている。
【0057】
情報マッチングシステム30はさらに、情報収集部50により収集され、形態素解析部52、係り受け解析部54及び地名・場所特定部58により処理されたメッセージを蓄積する情報蓄積部60と、処理対象の情報を分類するための機械学習モデルによる判定に用いる複数種類の素性を算出するために必要な情報(分類用素性の生成用データ)を格納する記憶装置62とを含む。
【0058】
情報マッチングシステム30はさらに、記憶装置62に記憶されたデータを用い、情報蓄積部60に蓄積されたメッセージの各々について素性を算出し、同じ素性を用いて学習済の機械学習モデルを用いて、メッセージを問題報告というカテゴリに属するテキストとそれ以外のテキストとに分類して問題報告のテキストを収集する問題報告収集装置64と、問題報告収集装置64により収集された問題報告を蓄積する問題報告蓄積部70と、記憶装置62に記憶されたデータを用いて情報蓄積部60に蓄積されたメッセージの各々について所定の素性を算出し、予め学習データにより学習済の機械学習モデルを用いることによりメッセージを支援情報というカテゴリに属するテキストとそれ以外のテキストとに分類し、支援情報を収集する支援情報収集装置66と、支援情報収集装置66により収集された支援情報を蓄積する支援情報蓄積部72と、記憶装置62に記憶されたデータを用い、情報蓄積部60に蓄積されたメッセージの各々について所定の素性を算出し、学習済の機械学習モデルを用いてメッセージを要望連絡というカテゴリに属するものとそれ以外とに分類し、要望連絡を収集する要望連絡収集装置68と、要望連絡収集装置68により収集された要望連絡を蓄積する要望連絡蓄積部74とを含む。問題報告収集装置64、支援情報収集装置66及び要望連絡収集装置68は、この情報マッチングシステム30で情報をマッチさせる準備として、予めテキストを分類するために好適に用いられる装置である。これらは分類のための機械学習モデルの素性として同じものを使用する。学習時と、実際の分類処理時とでも同じ素性を用いる。ただし、学習時には人手で教師データが付加されている。
【0059】
本実施の形態では、問題報告収集装置64、支援情報収集装置66及び要望連絡収集装置68は記憶装置62に記憶されたデータを用いた機械学習により実現される。
【0060】
機械学習の素性としては、核構成マトリックスにしたがい、メッセージ中の核(問題核、支援核、要望核)が持つ名詞の分類(トラブル系/非トラブル系)と核の述部の極性(活性/不活性)とから判定した核の種類と、図示しない評価表現辞書を用いて得られる、メッセージ中の評価表現、評価タイプ及び評価極性と、核中の名詞の意味クラスと、メッセージの係り受け関係において核に含まれる名詞を含むn−グラム等を用いる。後述するとおり、このn−グラムによって、メッセージに含まれる時間情報と、メッセージに関連した地域の情報と、メッセージのモダリティとがマッチングのための素性に含まれることになる。
【0061】
メッセージのモダリティとは、メッセージの記載の仕方に関連する主観的な意味内容のことをいう。例えば、「水が無い」「水が届く」というペアとして以下の3つの文脈(A)〜(C)があったときに、(A)と、(B)及び(C)とを区別するためのものである。
【0062】
(A)「水が無い」「水が届く予定です」
(B)「水が無い」「水が届くというのはデマ」
(C)「水が無い」「水が届くことを予想してます」
モダリティの分類の仕方には様々な立場があるが、大きく分けると、メッセージの内容に対する書き手の判断のあり方を表すモダリティと、読み手に対する態度を表すモダリティとの2つがある。前者はさらに、真偽判断のモダリティと、価値判断のモダリティとに分けられる。これらは、メッセージ中の述部に付随した表現(モダリティ要素)を手掛かりとして判定できる。例えば、真偽判断のモダリティとしては、断定、推量、判断、伝聞、説明等がある。上の例では「デマ」及び「予想してます」という語が、この文が推量、又は伝聞の類であることを示し、本実施の形態のような用途ではマッチングに対象として不適切であることを示す。一方、(A)のように文の述部が動詞等の終止形で終わる場合には、事実を述べているため、マッチングの対象として適切である。モダリティを判断するための語は、メッセージの核を中心としてその核に関連した位置に配されることが多い。したがって、メッセージの係り受け関係において核に含まれる名詞を含むn−グラムを素性に使用することにより、メッセージのモダリティを考慮した形でメッセージのマッチングができる。
【0063】
メッセージ内の時間情報、及び地域に関する情報についても同様である。
【0064】
記憶装置62が記憶する情報は、メッセージに関する前述の核構成マトリックスを構成するために、名詞の分類(トラブル系/非トラブル系)を記憶する図示しないトラブル表現辞書と、述部の極性(活性/不活性)を記憶した図示しない極性辞書と、メッセージが含む評価表現を特定するために使用される評価表現辞書と、メッセージが何らかの要求表現を含むか否かを判定するために使用される図示しない要求表現辞書と、各名詞についてその属する意味クラスを特定するための、名詞の意味クラス辞書とを含む。
【0065】
評価表現辞書とは、前述したように、メッセージ中に、何らかの事物に対する評価が存在しているか否かを判定するための辞書である。評価表現の判定とは、テキストファイルを入力として、機械学習を使って何らかの事象に対する意見や評判および評価(以下、これらをまとめて「評価情報」と呼ぶ。)がテキスト中の各文に存在するかどうかの判定を行なう処理である。その文に評価情報が存在すると認められた場合、その評価情報を表す表現の抽出(評価表現抽出)、その評価情報の意味的な分類(評価タイプ分類)及びその評価情報が肯定的なニュアンス(ポジティブ)を表すのか、否定的なニュアンス(ネガティブ)を表すのかの判定(評価極性判定)等を行なう。
【0066】
トラブル表現辞書とは、核の名詞がトラブルを表すか、表さないかを判断するための辞書で、病気、災害、故障等に関連する名詞を収録してある。
【0067】
極性辞書は、核に含まれる助詞と述部の組合せが、活性か、不活性か、それ以外かを判定するためのものである。様々な述部の表現と、各述部の極性が活性か不活性かを人手で判定した情報とを収録してある。
【0068】
要求表現辞書とは、メッセージ内又は核に含まれる述部が、要求マーカを含むか否かを判定するもので、人手で収集した要求マーカを収録してある。
【0069】
意味クラス辞書とは、単語を意味的に類似した単語からなるクラス(意味クラス)に分類したものを収録した辞書である。例えば、「インフルエンザ」「アトピー性皮膚炎」が同じ意味クラスとして登録されている。
【0070】
情報マッチングシステム30はさらに、問題報告蓄積部70に蓄積された問題報告と支援情報蓄積部72に蓄積された支援情報とについて、それぞれから1つずつ情報を取り出すことでペアを作成し、学習済の機械学習モデルを用いてそのペア内の情報のマッチングを行ない、マッチした問題報告と支援情報とを関連付けた情報(マッチ情報)を出力する問題報告・支援情報マッチング装置76を含む。問題報告・支援情報マッチング装置76は、問題報告と支援情報とについて、共起対マトリックス手法に基づいてそれぞれから得られる素性を含む所定の素性の組を用いてマッチングを行なう。
【0071】
情報マッチングシステム30はさらに、支援情報蓄積部72に蓄積された支援情報と要望連絡蓄積部74に蓄積された要望連絡とについて、それぞれから1つずつ情報を取り出すことでペアを作成し、学習済の機械学習モデルを用いてそのペア内の情報のマッチングを行ない、マッチした支援情報と要望連絡とを関連付けたマッチ情報を出力する要望連絡・支援情報マッチング装置78を含む。要望連絡・支援情報マッチング装置78も、要望連絡と支援情報とについて、共起対マトリックス手法に基づいてそれぞれから得られる素性を用いてマッチングを行なう。
【0072】
情報マッチングシステム30はさらに、問題報告・支援情報マッチング装置76及び要望連絡・支援情報マッチング装置78により出力されたマッチ情報を記憶する関連情報DB80と、問題報告・支援情報マッチング装置76及び要望連絡・支援情報マッチング装置78で行なわれるマッチングの際のマッチング用素性を生成するためのデータ(マッチング用素性生成用データ)を記憶した記憶装置82とを含む。関連情報DB80はデータベースであるから、例えば各情報の識別子により任意のマッチ情報を呼出したり、特定のキーワードを含むメッセージを含むマッチ情報を呼出したり、特定の地名と関連した場所をキーとして任意のメッセージを含むマッチ情報を呼出したりできる。
【0073】
問題報告・支援情報マッチング装置76と要望連絡・支援情報マッチング装置78とは互いに同じ構成であり、本実施の形態では機械学習手法の一例であるSVM(Support Vector Machine)を用いる点でも同様である。ただし、SVMの学習の際に用いられるデータが異なっている。
【0074】
情報マッチングシステム30はさらに、インターネットに接続されたウェブサーバ86と、関連情報DB80を用いた情報検索のためのプログラムからな出力生成部84とを含む。出力生成部84は、ウェブサーバ86を介して受信した問合せに応答して、上記した情報マッチングシステム30の各部を用いて、この問合せに含まれるメッセージを問題報告、支援情報及び要望連絡に分類して蓄積する。出力生成部84はまた、問合せに含まれるメッセージと、既存の問題報告、支援情報及び要望連絡とのマッチングをしてマッチング結果を関連情報DB80に蓄積する。出力生成部84はさらに、問合せに含まれるメッセージを含むマッチ情報であって、かつ問合せに含まれる検索条件を満足するマッチ情報を関連情報DB80から読出し、整形した出力データをウェブサーバ86を介して相手に送信する。
【0075】
関連情報DB80が生成されれば、その後は、関連情報DB80内の情報から、マッチした問題報告と支援情報又は要望連絡と支援情報とを抽出して端末に表示したり、他の装置にデータとして提供したりできる。この処理は、出力生成部84で実行されるプログラムにより行われる。ここでは、一例として、ウェブサーバ86を介して他の端末から問題報告、要望連絡又は支援情報等を含むメッセージの入力を受けたときに、そのメッセージとマッチするメッセージを返信する処理を出力生成部84で実現する。後述するように、出力生成部84によるマッチングでは、メッセージが発信された位置に関する地理的情報までマッチングの要素にできる。
【0076】
いうまでもなく、この情報マッチングシステム30は通信機能を有するコンピュータハードウェアと、そのハードウェアにより実行されるコンピュータプログラムと、そのコンピュータプログラムの実行時に出力生成のために必要なデータとにより実現される。これらのうち、
図1に示す情報収集部50、形態素解析部52、係り受け解析部54及び地名・場所特定部58は、従前の技術により容易に実現できる。したがってここでは、インターネット40から収集したメッセージから問題報告、支援情報、要望連絡を収集する処理と、それら情報をマッチングしてマッチ情報を生成し記憶する処理と、マッチ情報を利用して有用な情報を生成する処理とについて説明する。
【0077】
図2に、
図1に示す問題報告収集装置64の構成をブロック図形式で示す。
図1に示す支援情報収集装置66及び要望連絡収集装置68の構成も問題報告収集装置64と同様である。したがって以下では主として問題報告収集装置64の構成について説明する。
【0078】
図2を参照して、問題報告収集装置64は、情報蓄積部60から新たなメッセージを読出して、入力されたメッセージの係り受け関係の情報、形態素列等に基づき、記憶装置62に記憶されたデータを用いて所定の素性を算出する素性算出部100と、予め学習データにより、素性算出部100により算出された素性により学習済で、入力された素性ベクトルに基づいて、メッセージが問題報告か否かの判定結果をそのスコアとともに出力するSVM102と、SVM102により問題報告であると判定されたメッセージを選択して、SVM102のスコアを付して問題報告蓄積部70に格納する選択部104とを含む。SVM102は、多数のメッセージについて、それらから得た上記した素性の組と、メッセージが問題報告か否かを示すフラグ(正解データ)とにより構成される学習データを用いて学習済である。本実施の形態では、前述した核構成マトリックスという考え方により得られる素性(名詞の分類及び述部の極性)が使用されている点に特徴がある。
【0079】
支援情報収集装置66及び要望連絡収集装置68も、その構成は問題報告収集装置64と同じである。ただし、支援情報収集装置66ではSVM102の学習に、メッセージが支援情報か否かのフラグが付された学習データを使用して学習を行なう点及び要望連絡収集装置68ではメッセージが要望連絡か否かを示すフラグが付された学習データを使用して学習を行なう点が問題報告収集装置64と異なる。
【0080】
図3は、
図1に示す問題報告・支援情報マッチング装置76の簡略化したブロック図である。要望連絡・支援情報マッチング装置78も基本的には問題報告・支援情報マッチング装置76と同じ構成である。したがって、以下では問題報告・支援情報マッチング装置76の構成のみについて説明する。
【0081】
図3を参照して、問題報告・支援情報マッチング装置76は、問題報告蓄積部70及び支援情報蓄積部72の双方から1つずつメッセージを読出し、その2つのメッセージの組から、記憶装置82に記憶されたデータを用いて所定の素性を算出し素性ベクトルとして出力する素性算出部130と、素性算出部130から出力される素性ベクトルに基づいて、処理対象の問題報告と支援情報とがマッチするか否かを出力するよう、予め学習済のSVM132と、SVM132の出力に基づいて、素性算出部130が処理した問題報告と支援情報との組合せのうち、マッチするもののみを選択して関連情報DB80に格納する選択部134とを含む。素性算出部130が算出する素性は、前述した共起対マトリックス手法に基づく素性である、「名詞+述部」を構成する名詞における共通語の有無、共通する意味クラスの有無を含み、さらに、問題報告収集装置64のSVM102(
図2参照)による判定時のスコアを含む。
【0082】
SVM132についても、予めマッチしていると判定された問題報告と支援情報とを含む学習データにより、素性算出部130が算出する素性と同じ素性を用いて学習を行なっている。学習済のSVM132は、問題報告と支援情報とが与えられると、それらがマッチするか否かを出力する。
【0083】
要望連絡・支援情報マッチング装置78の構成は問題報告・支援情報マッチング装置76と同一である。ただし、SVM132の学習を行なう際の学習データが、要望連絡と支援情報との組合せに関するものである点が問題報告・支援情報マッチング装置76の場合と異なる。
【0084】
本実施の形態に係る出力生成部84は、ユーザが入力したメッセージに対し、そのメッセージとマッチする情報を出力するという機能を持つ。ここでは、入力されるメッセージとして、典型的には、「アレルギー対応の幼児ミルクが不足しています。」、「アレルギー対応の幼児粉ミルクを○○市役所で配布します。」等のような、問題報告、支援情報、または要望連絡のいずれかを含むメッセージを想定する。出力生成部84は、入力されたメッセージがこれらのいずれに相当するかに応じ、入力されたメッセージとマッチする情報を関連情報DB80から検索して一覧表示する。以下に説明するのは、出力生成部84を実現するプログラムとその入出力画面の一例である。
【0085】
図4を参照して、遠隔地の端末からウェブブラウザを経由して出力生成部84にアクセスすることにより表示される入力画面220は、メッセージの入力フィールド230と、検索に関する日付情報の入力パネル232と、地理的条件の入力パネル234と、検索のリクエストを情報マッチングシステム30に対して送信するトリガーとなる検索ボタン236とを含む。日付情報の入力パネル232及び地理的条件の入力パネル234は、メッセージの入力フィールド230とマッチする情報の内でも、さらに特定の条件で情報を絞り込むためのものである。ここでは日付及び地理的条件で情報を絞り込むことにしているが、さらに別の情報(たとえばキーワード、発信者、発信時刻、完了しているか否か)等を絞り込みの条件にしてもよい。
【0086】
図5は、
図4に示す画面で何らかのメッセージを入力して情報マッチングシステム30に送信した後、情報マッチングシステム30から返信されてくる画面の一例を示す。この例では、画面250は、ユーザにより入力されたメッセージを確認のために表示する入力表示領域260と、入力されたメッセージとマッチする情報を表示するマッチング情報表示パネル262と、マッチング情報表示パネル262に表示されたメッセージの発信地域又は関連地点を地図上にピン266の形式で表示する地図パネル264と、ユーザによって入力された検索条件を確認のために表示する検索条件表示パネル268と、条件を変えて検索するときにユーザが操作する再検索ボタン270とを含む。再検索ボタン270をクリックすると、
図4に示す入力画面220が表示される。
【0087】
図6に、出力生成部84を実現するプログラムの一例として、
図4及び
図5に示す画面を用いてユーザから入力されたメッセージとマッチする情報をユーザ端末に返信するプログラムの制御構造を示す。出力生成部84は、これ以外にも関連情報DB80を利用した様々な形のウェブアプリケーションとして実現可能である。
【0088】
図6を参照して、このプログラムは、ウェブサーバ86がユーザ端末からの検索要求を受信し、出力生成部84に引き渡すことで起動される。引数として、ユーザにより入力されたメッセージ、日付に関する検索条件及び地理的な検索条件がこのプログラムに渡される。この要求を発行した端末のGPS情報を、地理的情報に加えて、このプログラムに渡すようにしてもよい。この例ではそうしたGPS情報が出力生成部84に引数として渡されるものとする。
【0089】
最初に、メッセージに対する形態素解析を行ない(ステップ290)、形態素列を出力する。この形態素列に対する係り受け解析を行ない(ステップ292)、このメッセージに付与されている地理的情報又はGPS情報に基づいて、
図1に示される地名・場所辞書記憶装置56を用いてメッセージが発行された場所を特定して(ステップ294)メッセージに付加し、
図1の情報蓄積部60に追加する。これらの処理は、
図1に示す形態素解析部52、係り受け解析部54及び地名・場所特定部58が実行する。
【0090】
続いて、入力されたメッセージから、ステップ298で記憶装置62に格納された情報及び所定の素性算出方法にしたがって、メッセージの素性の組を算出し、素性ベクトルを形成する。続くステップ300で、
図1に示す問題報告収集装置64、支援情報収集装置66及び要望連絡収集装置68のそれぞれのSVM102(
図2参照)により、処理中のメッセージが問題報告、問題報告及び要望連絡のいずれかに該当するか否かを判定する。判定の結果、メッセージが問題報告であれば問題報告蓄積部70に、支援情報であれば支援情報蓄積部72に、要望連絡であれば要望連絡蓄積部74に、それぞれ蓄積する(ステップ302)。
【0091】
このように、入力されたメッセージを問題報告、支援情報及び要望連絡のいずれかに分類して蓄積するのは、このメッセージを、後に入力されるメッセージとのマッチング対象として追加するためである。
【0092】
その後、分類結果が何であったかを判定する(ステップ304)。入力されたメッセージが問題報告又は要望連絡である場合は、ステップ306で支援情報とのマッチングを行ない、メッセージが支援情報である場合はステップ308でこのメッセージと問題報告及び要望連絡とマッチングを行なう。続いて、ステップ306又はステップ308のマッチングの結果、メッセージとマッチした情報があるか否かを判定する(ステップ309)。このメッセージとマッチした情報があれば、マッチした情報とこのメッセージとを関連付けて関連情報DB80に追加する(ステップ310)。
【0093】
この後、関連情報DBに追加されたマッチ情報に基づいて、
図5に示す画面250に対応するHTML文書をステップ312で生成し、最初のメッセージを送信してきた端末に返信して、入力されたメッセージに対する処理を終了する。
【0094】
ステップ309の判定が否定の場合、すなわちステップ306及びステップ308で入力メッセージとマッチした情報がなかった場合には、制御はステップ314に進む。ステップ314では、入力されたメッセージとマッチした情報がなかったことを示す画面を出力して処理を終了する。この画面には、例えば「入力メッセージにマッチした情報はありませんでした。今後、マッチした情報が発見されたら通知しますか?」というテキストが画面250に表示され、通知をするか否かを選択するボタン等と、通知する際に必要な情報(メールアドレス等)を入力するためのフィールド、ボタン等とが表示される。ここで通知することが選択されたときには、このメッセージを含むマッチ情報を関連情報DB80で検索し、何らかのマッチ情報が発見されたら記録されているメールアドレスにその情報を送信する処理が必要になる。しかし、この情報送信の処理は本発明の本質的な部分には直接関連しないので、ここではその詳細は述べない。
【0095】
入力されたメッセージが問題報告、支援情報、及び要望連絡のいずれでもないとステップ304で判定された場合には、制御はステップ316に進む。この場合は、入力されたメッセージが適切なものでなかったことが予想される。したがって、ステップ316で、先に入力したメッセージの表現等の条件を変えて再度メッセージを入力することを示すメッセージを画面250に表示させて処理を終了する。ユーザが再検索ボタン270を押すと
図4に示す入力画面220が表示される。ユーザは、メッセージの表現、及び日時、場所等の検索条件を変えて再検索を実行できる。
【0096】
[システムの動作]
以上説明した情報マッチングシステム30は以下のように動作する。
図1を参照して、これに先立って、
図1に示す問題報告収集装置64、支援情報収集装置66、要望連絡収集装置68、問題報告・支援情報マッチング装置76及び要望連絡・支援情報マッチング装置78のSVMは、予め適切な学習データで学習を完了しているものとする。
【0097】
情報マッチングシステム30の情報収集部50は、最初にインターネット40上に存在する様々な情報を収集し、形態素解析部52に与える。ここでは、例えばTwitter等のように、比較的短い文で問題報告、要望連絡及び支援情報を伝達するようなシステム上で発信されている情報を主として収集する。形態素解析部52は各情報に対して形態素解析し、係り受け解析部54はさらに係り受け解析をして、各情報に各文の係り受け情報を付する。これら情報にはさらに、地名・場所特定部58が、関連する地域又は発信された地域等に関する情報を付与する。最終的にこれら情報は情報蓄積部60に蓄積される。なお、情報収集部50が収集する情報には、通常はその情報が発信された日付及び時刻が付されている。
【0098】
問題報告収集装置64の素性算出部100(
図2参照)は、情報蓄積部60から情報を読出し、記憶装置62に記憶された素性生成用データを用いて問題報告の判定のための素性をその情報から抽出して、素性ベクトルを生成する。これらの素性の中には、前述した通り、核構成マトリックス手法に基づき、情報中の名詞+述部の名詞に関する分類(トラブル系/非トラブル系)と、述部の極性(活性/不活性)とを表す素性が含まれる。
SVM102は、この素性ベクトルを受け、その素性ベクトルに対応する情報が問題報告か否かを判定し、判定結果を出力する。選択部104は、判定が肯定(情報は問題報告である。)ならこの情報を問題報告蓄積部70に追加する。判定が否定ならこの情報については何もせず、問題報告収集装置64は次の情報の処理に移る。
【0099】
支援情報収集装置66及び要望連絡収集装置68も問題報告収集装置64と同様に動作する。ただし、それぞれのSVMは、問題報告収集装置64のSVMと異なる学習データで学習を行なっているため、それぞれ、入力された情報が支援情報か否かと、要望連絡か否か、とを判定する。それ以外の点では問題報告収集装置64、支援情報収集装置66及び要望連絡収集装置68の動作に異なる点はない。
【0100】
こうして、問題報告蓄積部70、支援情報蓄積部72及び要望連絡蓄積部74には、問題報告、支援情報及び要望連絡がそれぞれ蓄積される。
【0101】
問題報告・支援情報マッチング装置76は、問題報告蓄積部70又は支援情報蓄積部72に新たな情報が蓄積されるたびに、その情報についてのマッチング処理を行なう。新たな情報が問題報告の場合には、支援情報蓄積部72に蓄積された支援情報の全てとマッチングを行ない、新たな情報が支援情報の場合には問題報告蓄積部70に蓄積された問題報告の全てとマッチングを行なう。ここでは、新たに問題報告蓄積部70に問題報告が追加されたときの問題報告・支援情報マッチング装置76の動作を説明する。
【0102】
図3を参照して、素性算出部130は、問題報告蓄積部70から新たな問題報告を読出すと、支援情報蓄積部72に蓄積された支援情報を読出し、その各々と、新たな問題報告とを組合せて、問題報告と支援情報との組合せを生成する。素性算出部130はさらに、これら組合せの全てについて、記憶装置82に記憶されたデータを用いて素性を算出し、素性ベクトルを生成する。これら素性は、問題報告収集装置64で使用された素性の全てに加え、前述した共起対マトリックス手法に基づく素性である、「名詞+述部」を構成する名詞における共通語の有無、共通する意味クラスの有無を含み、さらに、問題報告収集装置64のSVM102(
図2参照)による判定時のスコアを含む。
【0103】
SVM132は、素性算出部130により生成された素性ベクトルを受け、その素性ベクトルに対応する組合せに含まれる問題報告と支援情報とが、互いにマッチするか否かを判定し、その判定結果を出力する。
【0104】
選択部134は、SVM132の判定が肯定である組合せには関連情報DB80に追加し、そうでないときは何もしない。
【0105】
新たに問題報告・支援情報マッチング装置76が読出した情報が支援情報であるときは、問題報告・支援情報マッチング装置76は、上記した説明で支援情報と問題報告とを入れ替えた動作を行なう。
【0106】
したがって、問題報告・支援情報マッチング装置76により、関連情報DB80には、互いにマッチする問題報告と支援情報とが関連付けられて蓄積されていく。
【0107】
要望連絡・支援情報マッチング装置78の動作も同様である。したがって要望連絡・支援情報マッチング装置78の動作の詳細は繰返さない。要望連絡・支援情報マッチング装置78のSVMが使用する素性も、この実施の形態では問題報告・支援情報マッチング装置76が使用する素性と同じである。要望連絡・支援情報マッチング装置78により、関連情報DB80には、互いにマッチする支援情報と要望連絡とが関連付けられて蓄積されていく。
【0108】
このようにして、関連情報DB80には、互いにマッチする問題報告と支援情報とからなるマッチ情報及び支援情報と要望連絡とからなるマッチ情報が蓄積される。このマッチ情報が蓄積できれば、後はこの情報を様々に利用できる。本実施の形態で出力生成部84が実行する処理は、マッチ情報の利用方法の一例に過ぎない。これ以外にもこの情報の利用方法は数多く考えられる。
【0109】
本実施の形態に係る情報マッチングシステム30を利用しようとするユーザがある問題に遭遇し、その問題に対する解決策を知りたい場合を考える。ユーザは、情報マッチングシステム30を利用するために、
図4に示す入力画面220を端末に表示させる。例えば、情報マッチングシステム30を利用するためのURLにブラウザでアクセスするとこの画面が表示される。
【0110】
ユーザは、メッセージの入力フィールド230に自分が遭遇した問題、自分が提供しようとする支援に関する情報、何らかの要望事項等を表すメッセージを入力し、必要に応じて入力パネル232及び入力パネル234に検索条件を入力する。ユーザが検索ボタン236をクリックすると、メッセージのテキストと、入力された検索条件とをパラメータとして、検索要求が情報マッチングシステム30のウェブサーバ86に送信される。
【0111】
図1を参照して、ウェブサーバ86はこの検索要求を受信すると、メッセージのテキストと、入力された検索条件とをパラメータとして出力生成部84に渡す。出力生成部84は、
図6に制御構造を示すプログラムにパラメータを渡してこのプログラムを起動する。
【0112】
図6を参照して、出力生成部84は、入力されたメッセージに対して形態素解析(ステップ290)、係り受け解析(ステップ292)及び場所特定処理(ステップ294)をしたうえで、入力されたメッセージとステップ290,292及び294で得られた情報とを
図1に示す情報蓄積部60に蓄積する。検索条件が入力された場合、それらは「○月○日に」、「○○において」というような形でメッセージに付加される。
【0113】
問題報告収集装置64、支援情報収集装置66及び要望連絡収集装置68は、情報蓄積部60に新たな情報が蓄積されるたびに、問題報告、支援情報及び要望連絡をそれぞれ収集し、問題報告蓄積部70、支援情報蓄積部72及び要望連絡蓄積部74にそれぞれ蓄積する。
【0114】
問題報告・支援情報マッチング装置76は、問題報告蓄積部70又は支援情報蓄積部72に新たな問題報告又は支援情報が蓄積されるたびに、その情報とマッチする支援情報又は問題報告を支援情報蓄積部72及び問題報告蓄積部70からそれぞれ検索し、マッチする情報同士を関連付ける情報を関連情報DB80に蓄積する。同様に、要望連絡・支援情報マッチング装置78は、支援情報蓄積部72又は要望連絡蓄積部74に新たな情報が蓄積されるたびに、その情報とマッチする要望連絡又は支援情報を要望連絡蓄積部74及び支援情報蓄積部72からそれぞれ読出し、マッチする情報同士を関連付ける情報を関連情報DB80に蓄積する。出力生成部84は、関連情報DB80を検索して、入力されたメッセージと関連付けられた情報を抽出し、その情報を
図5のマッチング情報表示パネル262に一覧表示する。関連付けられた情報が多数ある場合にはマッチング情報表示パネル262はスクロール可能とする。出力生成部84はさらに、マッチング情報表示パネル262に表示された各情報について、それらに付されている地理的情報に基づいて、地図パネル264に各情報の発信された位置又は各情報が関連付けられている位置にピン266等を表示する。
【0115】
このように、入力されたメッセージとマッチする情報だけでなく、それらマッチした情報が発信された位置等を地図上に表示することで、どこでどのような問題が生じているか、どのような支援が提供されているか、どのような要望事項が発生しているかを容易に確認できる。したがって、効率的に、自分の持つ問題を解決したり、支援を有効に活用したり、必要性の高い地域に優先的に支援を回したりすることが可能になる。
【0116】
なお、
図5に示すような表示をする場合、既に解決した問題、災害時に既に必要な救援が得られ解決した問題報告、災害時に支援物資の配布が終了した支援情報等については、表示から取り除くことが望ましい。そのためには、例えば
図5に示すような画面を元に支援の分配先等を定めてそれら支援の提供者に連絡した後に、その処置によって解決した問題、支援物資が消尽した支援情報、及び充足された要望連絡等については、
図5において完了を示すフラグを入力できるようにすればよい。このフラグを問題報告蓄積部70、支援情報蓄積部72及び要望連絡蓄積部74に蓄積される情報、並びに関連情報DB80に蓄積されるマッチ情報に付与しておくことにより、既に解決済の問題報告、要求が充足された要望連絡、支援作業が完了した支援情報等については
図5の画面250に表示されなくなる。
【0117】
そのような構成の結果、次々に状況が変わるような環境下であっても、効率的に問題又は要望とその解決とをマッチさせることができる。
【0118】
[実施の形態の効果]
本実施の形態に係るシステムの効果が最も発揮される利用例の1つは、大規模災害時における被災者と支援団体のコミュニケーションの円滑化に関連する。大規模災害時には、先述したように、被災者からの問題報告及び要望連絡がTwitter等を介して発信されるものの、多量に発信されるツイートにこれらの情報が埋没してしまうという傾向がある。支援団体等が発信する支援情報についても同様である。こうした現象は、被災者が支援情報を必要としているにもかかわらず入手しにくいという問題に繋がる。一方で、支援団体にとっては、最も支援を必要としている相手が発見できないという問題に繋がる。仮に、被災者の要望及び問題を支援団体が認識できても、どの問題等が対処されたのかわからない状況では、複数の支援団体が同じ要望や問題に対応し、結果として、資源や時間が無駄に消費されるという問題にも繋がる。
【0119】
本実施の形態は、このような問題を解決する。問題報告・要望連絡・支援情報を特定し収集する技術は、必要とされる情報の埋没を防ぎ、被災者が支援情報を入手するのを容易にし、被災者が抱える問題及び要望を支援団体が把握することに貢献する。さらに、問題報告‐支援情報又は要望連絡‐支援情報のマッチング技術は、ある被災者が発信した問題報告に直接的に関連する支援情報を見つけ出し、リプライすること等を可能とする。また、支援団体にとっては、支援情報とマッチングされた問題報告又は要望連絡と、マッチングが見つからない問題報告又は要望連絡とを区別することで、どのような問題又は要望に対処できており、どのようなものに対処ができていないかを概観できるようになる。この結果、支援団体の資源及び時間の浪費を減らすことに貢献できる。
【0120】
なお、上記した実施の形態に係るシステム及びその考え方は、災害時に限定して利用可能なわけではない。日常的な商用利用においても価値が高い。例えば、上記実施の形態と同じ考え方で、あるユーザがコンピュータに関する問題、病気に関する問題又は何らかの要望を入力すると、ウェブ上にある情報をソースとして対処方法を支援情報として自動的に列挙する検索システム等を開発できる。
【0121】
上記実施の形態では、問題報告蓄積部70、支援情報蓄積部72及び要望連絡蓄積部74が互いに別の装置であるものとして説明したが、これらを1つの記憶装置に格納することもできる。同じファイルにこれらを全て格納することも可能である。要は、これら別々のカテゴリに属する情報を互いに区別できればよい。例えばファイル内の各レコードにそれらのカテゴリを表す情報を付すようにすればよい。
【0122】
現在、スマートフォンで音声により提供される質問応答システムが脚光をあびているが、質問‐応答システムで問題を解決するためには、どのような質問をすれば問題が解決できるのかを考慮しなくてはならない。適切な質問を考慮するためには、専門知識等が要求される場合も多い。上記実施の形態は、問題から直接に支援情報を検索することを可能とするため、質問‐応答システムの次世代の技術を構築するさきがけとなり、新しいサービスの開発にも貢献するという意味で重要なものである。
【0123】
[実験結果]
なお、上記実施の形態の効果を検証するため、いくつかの実験を行なった。以下に、その実験結果を比較例とともに示す。テーブル5,6,7はそれぞれ、問題報告、支援情報及び要望連絡の特定精度に関する実験結果である。
【0124】
【表5】
なお、上のテーブル5〜7において、「実施の形態」は、上記実施の形態で説明した通り、核構成マトリックスにしたがい、メッセージ中の核(問題核、支援核、要望核)が持つ名詞の分類(トラブル系/非トラブル系)と、核の述部の極性(活性/不活性)と、評価表現辞書を用いて得られる、メッセージ中の評価表現、評価タイプ、及び評価極性等と、核中の名詞の意味クラスと、メッセージの係り受け関係において、核に含まれる名詞を含むn−グラム等を用いる。比較例1は、実施の形態で用いたのと同様の手法だが、SVMの素性として名詞の分類(トラブル系/非トラブル系)と、核の述部の極性(活性/不活性)とを使用しないもの、すなわち核構成マトリックスに関連する素性を使用せずに行った実験結果である。比較例2は、実施の形態で用いたのと同様の手法だが、評価表現辞書を用いて得られる素性を使用せずに判定を行なったものである。比較例3は、実施の形態で用いたのと同様の手法だが、単語意味クラスを素性として使用せずに判定を行なったものである。
【0125】
各SVMの実験には、学習データ13,000件を用い、テストデータとして予め収集したデータから無作為に抽出した1,000件を用いた。評価者は発明者とは異なる3名であった。評価者による評価の一致率(Fleiss’ Kappa)は0.74であり、これは評価者による評価が十分な一致を示していることを表す。
【0126】
一方、マッチングの実験結果を、問題報告と支援情報とのマッチングを例として次のテーブル8に示す。
【0127】
【表6】
この実験は、9,000件の学習データで問題報告・支援情報マッチング装置76の学習をし、1,000件のテストデータで行なった。テストデータは、予め準備したデータから、1つの名詞の出現回数が30回以下となるように選択した。評価者は問題報告の実験の場合と同様、発明者以外の3人であった。その評価の一致率はFleiss’ Kappaで0.63と、これも評価が十分に一致していることを示している。
【0128】
以上のように本実施の形態によるシステムでは、種々の情報について、例えば問題報告とその解決策とを、ネットワーク上の膨大な情報からマッチングさせ、提示できる。したがって、キーワード検索等を用いるだけの検索サービスと比較して、はるかに的確にユーザが知りたい情報を探し出すことができる。したがって、今までの検索サービスに代わって、国外、国内の検索サービス等で広く利用される可能性がある。さらに、大規模災害時等においては、行政関係機関、NPO、ボランティアグループ等が、被災者とのコミュニケーションを円滑化する上で、上記実施の形態のようなシステムを活用できる。互いに問題とその回答、要望とその充足という関係にあるような情報が、今までは互いに全く関連付けられずに存在していたのと比較して、上記実施の形態ではそれらの間に明示的な関係をつけることが可能になり、情報をより整理した形で、適時にユーザに提示することが可能になる。
【0129】
[ハードウェア構成]
上記実施の形態に係る情報マッチングシステム30は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行される上記したコンピュータプログラムとにより実現できる。
図7はこのコンピュータシステム330の外観を示し、
図8はコンピュータシステム330の内部構成を示す。
【0130】
図7を参照して、このコンピュータシステム330は、メモリポート352及びDVD(Digital Versatile Disc)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。
【0131】
図8を参照して、コンピュータ340は、メモリポート352及びDVDドライブ350に加えて、CPU(中央処理装置)356と、CPU356、メモリポート352及びDVDドライブ350に接続されたバス366と、ブートプログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム及び作業データ等を記憶するランダムアクセスメモリ(RAM)360と、ハードディスク354を含む。コンピュータシステム330はさらに、他端末との通信を可能とするネットワークへの接続を提供するネットワークインターフェイス(I/F)344を含む。
【0132】
コンピュータシステム330を上記した実施の形態に係る情報マッチングシステム30の各機能部として機能させるためのコンピュータプログラムは、DVDドライブ350又はメモリポート352に装着されるDVD362又はリムーバブルメモリ364に記憶され、さらにハードディスク354に転送される。又は、プログラムはネットワーク368を通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。DVD362から、リムーバブルメモリ364から又はネットワーク368を介して、直接にRAM360にプログラムをロードしてもよい。
【0133】
このプログラムは、コンピュータ340を、上記実施の形態に係る情報マッチングシステム30の各機能部として機能させるための複数の命令からなる命令列を含む。コンピュータ340にこの動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム若しくはサードパーティのプログラム又は、コンピュータ340にインストールされる各種プログラミングツールキット又はプログラムライブラリにより提供される。したがって、このプログラム自体はこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールを呼出すことにより、上記したシステムとしての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能を全て提供するようにしてもよい。
【0134】
上記実施の形態では、情報蓄積部60、記憶装置62、問題報告蓄積部70、支援情報蓄積部72、要望連絡蓄積部74及び記憶装置82等はRAM360又はハードディスク354により実現される。これらの値はさらに、USBメモリ等のリムーバブルメモリ364に記憶されてもよいし、ネットワーク等の通信媒体を介して他のコンピュータに送信されてもよい。同様に、関連情報DB80も、RAM360及びハードディスク354と、CPU356で実行されるデータベース管理プログラムとにより実現される。データベース管理プログラムとしては、商業的に利用可能なものに加えて、いわゆるオープンソースのデータベース管理プログラムを使用することもできる。
【0135】
コンピュータプログラムを実行する際のコンピュータシステム330の動作は周知である。したがってここではその詳細については繰返さない。
【0136】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。