(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024121252
(43)【公開日】2024-09-06
(54)【発明の名称】データ分析装置及びデータ分析方法
(51)【国際特許分類】
G06F 40/279 20200101AFI20240830BHJP
G06F 40/284 20200101ALI20240830BHJP
G06F 16/35 20190101ALI20240830BHJP
【FI】
G06F40/279
G06F40/284
G06F16/35
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2023028246
(22)【出願日】2023-02-27
(71)【出願人】
【識別番号】504300088
【氏名又は名称】国立大学法人北海道国立大学機構
(71)【出願人】
【識別番号】000233538
【氏名又は名称】株式会社日立ソリューションズ東日本
(74)【代理人】
【識別番号】100081271
【弁理士】
【氏名又は名称】吉田 芳春
(72)【発明者】
【氏名】桝井 文人
(72)【発明者】
【氏名】高橋 哲也
【テーマコード(参考)】
5B091
5B175
【Fターム(参考)】
5B091AA15
5B091AB01
5B091CA02
5B091EA01
5B175DA01
5B175FA03
(57)【要約】
【課題】GTAプロセスを用いて自動化することができ、疎な意見であっても分析処理を効率良く行うことのできるデータ分析装置及びデータ分析方法を提供する。
【解決手段】データ分析装置は、入力されたネットワーク上の文情報を単文に分割し、分割した単文を構成要素群に単語分割して切片化する文分割・単語分割部と、文分割・単語分割部によって切片化された切片情報に対して、トピックモデルによる単語の分散表現を獲得してトピック生成を行うトピック抽出部と、トピック抽出部によって生成されたトピック毎にラベルを推定するラベル推定部とを備えており、ラベル推定部によって推定されたラベルに基づいて文情報を分析する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
入力されたネットワーク上の文情報を単文に分割し、分割した単文を構成要素群に単語分割して切片化する文分割・単語分割部と、該文分割・単語分割部によって切片化された切片情報に対して、トピックモデルによる単語の分散表現を獲得してトピック生成を行うトピック抽出部と、該トピック抽出部によって生成されたトピック毎にラベルを推定するラベル推定部とを備えており、前記ラベル推定部によって推定されたラベルに基づいて前記文情報を分析することを特徴とするデータ分析装置。
【請求項2】
前記文分割・単語分割部によって切片化された切片情報について、情報の直接性を考慮して優先順位付けを行う情報トリアージ部をさらに備えており、前記ラベル推定部は、前記情報トリアージ部で得た優先順位に基づいて、ラベルを推定するように構成されていることを特徴とする請求項1に記載のデータ分析装置。
【請求項3】
前記情報トリアージ部が、前記切片情報を、直接的に得た情報である1次情報、間接的に得た情報である2次情報、意思や意見を含む参考情報である1.5次情報、及びその他のノイズ情報である3次情報のいずれであるかにより、情報の直接性を判定するように構成されていることを特徴とする請求項2に記載のデータ分析装置。
【請求項4】
前記文分割・単語分割部が、形態素解析によって、分割した単文を構成要素群に単語分割するように構成されていることを特徴とする請求項1に記載のデータ分析装置。
【請求項5】
前記トピック抽出部が、潜在的ディリクレ配分法によってトピック生成を行うように構成されていることを特徴とする請求項1に記載のデータ分析装置。
【請求項6】
前記ラベル推定部が、各トピックの抽象度を算出し、算出した抽象度が高いトピックに対して潜在的ディリクレ配分法によってトピック生成を行うことを繰り返してトピック分類を最適化し、トピック毎にラベルを付与するように構成されていることを特徴とする請求項1に記載のデータ分析装置。
【請求項7】
入力されたネットワーク上の文情報を単文に分割し、分割した単文を構成要素群に単語分割して切片化し、前記切片化された切片情報に対して、トピックモデルによる単語の分散表現を獲得してトピック生成を行い、該生成されたトピック毎にラベルを推定し、該推定されたラベルに基づいて前記文情報を分析することを特徴とするデータ分析方法。
【請求項8】
前記切片化された切片情報について、情報の直接性を考慮して優先順位付けをして情報のトリアージを行い、該情報のトリアージによって得た優先順位に基づいて、前記ラベルを推定することを特徴とする請求項7に記載のデータ分析方法。
【請求項9】
前記情報のトリアージが、前記切片情報を、直接的に得た情報である1次情報、間接的に得た情報である2次情報、意思や意見を含む参考情報である1.5次情報、及びその他のノイズ情報である3次情報のいずれであるかにより、情報の直接性を判定することを特徴とする請求項8に記載のデータ分析方法。
【請求項10】
前記文分割及び単語分割が、形態素解析によって、分割した単文を構成要素群に単語分割するものであることを特徴とする請求項7に記載のデータ分析方法。
【請求項11】
前記トピックの抽出が、潜在的ディリクレ配分法によってトピック生成を行うものであることを特徴とする請求項7に記載のデータ分析方法。
【請求項12】
前記ラベルの推定が、各トピックの抽象度を算出し、算出した抽象度が高いトピックに対して潜在的ディリクレ配分法によってトピック生成を行うことを繰り返してトピック分類を最適化し、トピック毎にラベルを付与するものであることを特徴とする請求項7に記載のデータ分析方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ソーシャルネットワーキングサービス(SNS)や地域公共サービス等の種々のサービスにおけるデータを分析するデータ分析装置及びデータ分析方法に関する。
【背景技術】
【0002】
近年、地域活性化が社会の重要課題として認識されており、産学官による問題解決に向けた取り組みも多く見られる。これらの取り組みは、運用計画(Plan)、実施(Do)、意見収集・分析(Check)、及び改善(Action)のPDCAサイクルを実行することを基本としていることが多い。しかし、多くの場合において、PDCAサイクルがうまく実行できているとはいえない。その理由として、(1)地域振興に対するフィードバックの取得は意見箱や電話対応を通じて行われており、利用者の声が効率良く吸い上げられていない、(2)フィードバックチェックは人手に頼っており、時間的・人的コストが多大である、といった点があげられる。このことから、地域振興においては、意見収集・分析(Check)、及び改善(Action)の強化、特に、意見の収集と分析の効率化が求められる。
【0003】
一方、SNSは不特定多数のユーザから投稿された様々な情報や意見が蓄積された大規模情報源と言えるので、地域サービスに関しても相当規模の投稿が存在すると期待できる。さらに、SNSのユーザは比較的若い年齢層が主体と考えられるので、電話や意見箱を利用した場合とは異なる年齢層からの意見収集が期待できる。加えて、SNSへの投稿は電子化データとして入手できるので、コンピュータ上で処理可能である。従って、適切な分析手法を実装できれば、従来よりも大幅に効率的な処理が実現可能である。
【0004】
ところが、SNS上に投稿される地域サービス関連の意見は非常に疎であることから、機械学習や統計処理といった量的分析法をこれに直接適用しても効果が得にくい。この問題に対しては、少量のデータでも高い分析精度が得られる質的分析法を用いることができる。しかしながら、質的分析法は人間の判断による部分が多いため、人的コスト、時間的コスト、及び経済的コストが非常に高いという課題があった。
【0005】
代表的な質的分析法の一つである、GTA(グランデッド・セオリー・アプローチ、Grounded Theory Approach)を用いた従来技術として、特許文献1には、ひとりひとりが選んだデータを各々がどのように受け止めたかを効率的かつ高精度に把握するために、データの中に出てきた現象がどのようなメカニズムで生じているかについてGTAを用いて分析するデータ分析装置及びデータ分析方法が開示されている。
【0006】
特許文献2には、文章データを分類する先である分類項目、及び分類項目の階層を示す分類構造データの作成にGTAを用い、同じ回答者から得られる意味的に反対の質問に対する各回答を分類するための分類器を生成する分類器生成装置及び分類器生成方法が開示されている。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2022-045463号公報
【特許文献2】特許第6715758号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、特許文献1に開示された分析手法は、プロセス中で発生する文章属性や切片属性を人間が判断して設定するように構成されており、GTAプロセス全体を自動化して処理することはできない。
【0009】
また、特許文献2に開示された技術は、分類構造データの作成に関するものであり、GTAプロセスの応用や自動化を図るものではない。
【0010】
従って本発明の目的は、GTAプロセスを用いて自動化することができ、疎な意見であっても分析処理を効率良く行うことのできるデータ分析装置及びデータ分析方法を提供することにある。
【課題を解決するための手段】
【0011】
本発明によれば、データ分析装置は、入力されたネットワーク上の文情報を単文に分割し、分割した単文を構成要素群に単語分割して切片化する文分割・単語分割部と、文分割・単語分割部によって切片化された切片情報に対して、トピックモデルによる単語の分散表現を獲得してトピック生成を行うトピック抽出部と、トピック抽出部によって生成されたトピック毎にラベルを推定するラベル推定部とを備えており、ラベル推定部によって推定されたラベルに基づいて文情報を分析する。
【0012】
自治体などが実施する地域サービスに対してSNSに投稿された意見情報を対象として、質的分析法による意見情報分析を原問題と見なし、これを複数のより具体的な部分問題に分割して自動的に各部分問題を解くことで、これまで質的分析法の課題となっていた高コスト問題と効率性の問題を大幅に軽減している。具体的には、GTAによる分析を原問題(メインタスク)とみなし、これをより具体的な小問題(サブタスク)に分割することで各問題をより具体化し、これらを解く手段をそれぞれ実現している。本発明では、特に、GTAの分析プロセス、特にオープンコーディングを複数のサブタスクに分割し、これらのタスクに対応する手段を設けている。即ち、文分割・単語分割部、トピック抽出部、及びラベル推定部を設け、ラベルを推定している。このように、オープンコーディングのラベル推定部によって、ラベルが推定されるので、次のアキシャルコーディングにおいては、付与されたラベルのうち類似したラベルがまとめられて、カテゴリを決定することができ、カテゴリが決定されると、類似したトピックでかつ類似した文構造が、区別整理される。即ち、次の処理を進めるための部品群が整理された状態となる。その結果、分析処理を効率良く、自動化することができる。
【0013】
なお、アキシャルコーディングは、処理結果出力としてカテゴリ関連統合図を得ているが、これは、基本的には、オープンコーディングから得られた(整理された)情報を適切に繋ぎ合わせて概念化された各情報をグラフ構造として視覚化する作業である。即ち、分析対象の文書情報に含まれる概念同士の複雑な因果関係や非明示的な関係を、人間が容易に解釈できる状態に抽象化するためのコーディングに他ならない。従って、人間にとってはより分析されたと言え、人間が文情報を容易にかつ正確に分析するための可視化出力ができることとなる。
【0014】
文分割・単語分割部によって切片化された切片情報について、情報の直接性を考慮して優先順位付けを行う情報トリアージ部をさらに備えており、ラベル推定部は、情報トリアージ部で得た優先順位に基づいて、ラベルを推定するように構成されていることが好ましい。
【0015】
情報トリアージ部が、切片情報を、直接的に得た情報である1次情報、間接的に得た情報である2次情報、意思や意見を含む参考情報である1.5次情報、及びその他のノイズ情報である3次情報のいずれであるかにより、情報の直接性を判定するように構成されていることも好ましい。
【0016】
文分割・単語分割部が、形態素解析によって、分割した単文を構成要素群に単語分割するように構成されていることも好ましい。
【0017】
トピック抽出部が、潜在的ディリクレ配分法(LDA)によってトピック生成を行うように構成されていることも好ましい。
【0018】
ラベル推定部が、各トピックの抽象度を算出し、算出した抽象度が高いトピックに対してLDAによってトピック生成を行うことを繰り返してトピック分類を最適化し、トピック毎にラベルを付与するように構成されていることも好ましい。
【0019】
また、本発明によれば、データ分析方法は、入力されたネットワーク上の文情報を単文に分割し、分割した単文を構成要素群に単語分割して切片化し、切片化された切片情報に対して、トピックモデルによる単語の分散表現を獲得してトピック生成を行い、生成されたトピック毎にラベルを推定し、推定されたラベルに基づいて文情報を分析する。
【0020】
自治体などが実施する地域サービスに対してSNSに投稿された意見情報を対象として、質的分析法による意見情報分析を原問題と見なし、これを複数のより具体的な部分問題に分割して自動的に各部分問題を解くことで、これまで質的分析法の課題となっていた高コスト問題と効率性の問題を大幅に軽減している。具体的には、GTAによる分析を原問題(メインタスク)とみなし、これをより具体的な小問題(サブタスク)に分割することで各問題をより具体化し、これらを解く手段をそれぞれ実現している。本発明では、特に、GTAの分析プロセス、特にオープンコーディングを複数のサブタスクに分割し、これらのタスクに対応する工程を設けている。このように、オープンコーディングにおいて、ラベルが推定されるので、次のアキシャルコーディングにおいては、付与されたラベルのうち類似したラベルがまとめられて、カテゴリを決定することができ、カテゴリが決定されると、類似したトピックでかつ類似した文構造が、区別整理される。即ち、次の処理を進めるための部品群が整理された状態となる。その結果、分析処理を効率良く、自動化することができる。
【0021】
なお、アキシャルコーディングは、処理結果出力としてカテゴリ関連統合図を得ているが、これは、基本的には、オープンコーディングから得られた情報を適切に繋ぎ合わせて概念化された各情報をグラフ構造として視覚化する作業である。即ち、分析対象の文書情報に含まれる概念同士の複雑な因果関係や非明示的な関係を、人間が容易に解釈できる状態に抽象化するためのコーディングに他ならない。従って、人間にとってはより分析されたと言え、人間が文情報を容易にかつ正確に分析するための可視化出力ができることとなる。
【0022】
切片化された切片情報について、情報の直接性を考慮して優先順位付けをして情報のトリアージを行い、この情報のトリアージによって得た優先順位に基づいて、ラベルを推定することが好ましい。
【0023】
情報のトリアージが、切片情報を、直接的に得た情報である1次情報、間接的に得た情報である2次情報、意思や意見を含む参考情報である1.5次情報、及びその他のノイズ情報である3次情報のいずれであるかにより、情報の直接性を判定することも好ましい。
【0024】
文分割及び単語分割が、形態素解析によって、分割した単文を構成要素群に単語分割するものであることも好ましい。
【0025】
トピックの抽出が、潜在的ディリクレ配分法によってトピック生成を行うものであることも好ましい。
【0026】
ラベルの推定が、各トピックの抽象度を算出し、算出した抽象度が高いトピックに対して潜在的ディリクレ配分法によってトピック生成を行うことを繰り返してトピック分類を最適化し、トピック毎にラベルを付与するものであることも好ましい。
【発明の効果】
【0027】
本発明によれば、質的分析法の課題となっていた高コスト問題と効率性の問題を大幅に軽減することが可能となる。また、分布が非常に疎であるSNS上の地域サービスに関する意見情報に対して、高い精度で分析を行うことが可能となる。
【図面の簡単な説明】
【0028】
【
図1】本発明の一実施形態におけるデータ分析装置の主要部の構成をGTAのオープンコーディングのタスクと比較して示すブロック図である。
【
図2】
図1のデータ分析装置のタスク部の構成を概略的に示すブロック図である。
【
図3】
図1のデータ分析装置の文分割・単語分割部の具体的構成を示すブロック図である。
【
図4】
図3の文分割・単語分割部の動作を説明するフローチャートである。
【
図5】
図1のデータ分析装置の情報トリアージ部の具体的構成を示すブロック図である。
【
図6】
図5の情報トリアージ部の動作を説明するフローチャートである。
【
図7】
図1のデータ分析装置のトピック抽出部の具体的構成を示すブロック図である。
【
図8】
図7のトピック抽出部の動作を説明するフローチャートである。
【
図9】
図7のトピック抽出部の作用を説明する図である。
【
図10】
図1のデータ分析装置のラベル推定部の具体的構成を示すブロック図である。
【
図11】
図10のラベル推定部の動作を説明するフローチャートである。
【
図12】
図1のデータ分析装置の一適用例を示すブロック図である。
【
図13】
図1のデータ分析装置の他の適用例を示すブロック図である。
【発明を実施するための形態】
【0029】
図1は本発明の一実施形態におけるデータ分析装置の主要部の構成をGTAのオープンコーディングのタスクと比較して示しており、
図2はこのデータ分析装置の物理的構成を概略的に示している。なお、
図1(A)はGTAにおけるオープンコーディングを構成する作業ステップを示しており、
図1(B)はこのオープンコーディングの各作業ステップと対応する本実施形態のタスク部を示している。なお、以下の記載においては、数式を除いて、電子出願で使用できない傾斜文字によるベクトル表示は行っていない。
【0030】
代表的な質的分析法の1つであるGTAでは、オープンコーディング、アキシャルコーディング、セレクティブコーディングという3種類のコーディング作業によってデータから概念を抽出し、その概念同士を関連付けている。オープンコーディングは、
図1(A)に示すように、切片化、プロパティ付与、ディメンション付与、ラベル付与という4つの作業ステップから構成される。一般に、文書から人間判断によって概念を抽出して抽象化する作業は、作業者の主観からのバイアスを受けやすい作業となる。これを軽減するために、GTAでは「プロパティ」、「ディメンション」という二種類の基礎概念を抽出し、これらに基づいてさらに抽象度の高い「ラベル」を付与している。また、アキシャルコーディングは、カテゴリ化、パラダイム設定、関連付けの3つのステップから構成される。これによりデータ中に記述されたトピックや観点を構成するメカニズムを把握できる。アキシャルコーディングにおいては、オープンコーディングで付与されたラベルのうち、類似したラベルをまとめて「カテゴリ」という上位概念を作成する。このような作業の階層化により、概念の抽象度を上げる際に作業者に依存するバイアスを一定程度回避することができるのである。なお、GTAについては、下記の文献に詳細に記載されている。
Juliet Corbin., Anselm Strauss. “Grounded Theory Research: Procedures, Canons, and Evaluative Criteria” Qualitative Sociology, Vol.13, No, 1, (1990)
【0031】
以下、本明細書で用いる「プロパティ」、「ディメンション」、「ラベル」、及び「カテゴリ」という用語について、簡単に説明する。これら「プロパティ」、「ディメンション」、「ラベル」、及び「カテゴリ」は、対象となる文書から抽出された概念のことであり、それぞれ抽象度が異なるため、これらを区別するために異なる名称が与えられている。即ち、
「プロパティ」とは、作業者(分析者)の視点を示す概念であり、本実施形態では、切片構成文字列から抽出した主要文字列を用いている、
「ディメンション」とは、各プロパティから見た時にデータの位置付けを示す概念であり、本実施形態では、切片構成文字列を用いている、
「ラベル」とは、プロパティとラベルに基づく切片の主題概念であり、本実施形態では、プロパティ集合と関連が強いと判定された(予め用意された)ラベルテンプレートに関連する主要文字列を適用したものを用いている、
「カテゴリ」とは、類似したラベル集合を代表する概念であり、本実施形態では、プロパティと関連が強いと判定された(予め用意された)カテゴリテンプレートを用いている。
【0032】
上述したように、本実施形態では、
図1(A)に示すGTAのオープンコーディングの作業ステップに対応する複数のタスク部を設けている。即ち、
図1(B)に示すように、本実施形態のデータ分析装置は、タスク部として、SNS投稿文収集部11から入力されたネットワーク上の文情報を単文に分割し、分割した単文を構成要素群に単語分割して切片化する文分割・単語分割部12と、情報の直接性判定を行う情報トリアージ部13と、文分割・単語分割部12によって切片化された切片情報に対して、トピックモデルを用いてトピック抽出を行うトピック抽出部14と、トピック抽出部14によって抽出されたトピック毎に分類された切片情報に対して、ラベルを推定するラベル推定部15とを備えている。
【0033】
図2に示すように、本実施形態のデータ分析装置は、インターネットやLAN(ローカルエリアネットワーク)等のネットワークに接続されるサーバ10に上述したタスク部が設けられている。具体的には、サーバ10には、上述した文分割・単語分割部12、情報トリアージ部13、トピック抽出部14、ラベル推定部15、及びサーバ10への入出力と各タスク部の実行選択を行う処理統括部16が設けられている。これらタスク部は、区切り文字リストが記憶されている区切り文字リストデータベース(DB)20と、抽象化表現リストが記憶されている抽象化表現リストデータベース(DB)21と、切片リストが記憶されている切片リストデータベース(DB)22と、トピックリストが記憶されているトピックリストデータベース(DB)23と、推定用テンプレートが記憶されている推定用テンプレートデータベース(DB)24と、ラベルリストが記憶されているラベルリストデータベース(DB)25と接続されており、これらデータベースを参照して処理が進められる。
【0034】
文分割・単語分割部
図3は文分割・単語分割部12の具体的構成を示しており、
図4はこの文分割・単語分割部12の動作を説明している。
図1に示したSNS投稿文収集部11において、対象とするツイート文等の文情報の収集を行われ、収集された文情報は文分割・単語分割部12に入力される。この文分割・単語分割部12は、
図1に示すように、文分割部121と単語分割部122とを備えており、
図3に示す文末区切り手段12a、ユーザ名抽象化手段12b、URL抽象化手段12c、絵文字抽象化手段12d、数値情報抽象化手段12e、単語区切り手段12f、出現頻度計算手段12g、文末表現判定手段12h、及び切片リスト生成手段12iを備えている。
【0035】
文分割部121は、入力された文情報(文)を単文に分割するように構成されている。分割して得られた単文が切片となる。通常、文区切りには句点が有効であるが、SNS投稿文のようなツイート文には句読点が省略される場合が多いため、ヒューリスティック処理(ヒューリスティックス)が必要となる。また、正規表現を使用することが望ましい。
【0036】
単語分割部122は、後のステップを想定し、分割された各文を構成要素群に分割するように構成されている。要素としては単語やn-gramが考えられるが、本実施形態においては形態素解析を用いる。また、時間表現や数値表現、URLなどの特定表現を抽象化する。
【0037】
このように、文分割・単語分割部12では、入力されたツイート文等に含まれるテキスト文等の文情報を一文単位に分割する。このとき、後続処理を効率よく実施するために、時間表現や数値表現、一部特定表現を抽象化する。第1に、入力されたツイートに含まれるテキストを一文単位に分割する。ツイート中の文章は句読点の省略が多いため、区切り文字には句点に加えて特定の記号や絵文字、改行などを利用する。区切り文字と分割処理は正規表現を用いる。第2に、ユーザ名やURL、絵文字、数値情報などを「特定表現」と見なしてタグ付けを行なう。特定表現の例を表1に示す。特定表現の認識とタグ付け処理についても正規表現を用いる。
【0038】
【0039】
文分割は、句読点を基準として行い、ヒューリスティック処理を併用し、主要な処理は正規表現処理で実装し、ヒューリスティックスは、絵文字、顔文字、助動詞、特定記号、改行記号などを基準とする。
【0040】
以下、
図3及び
図4を参照して、文分割・単語分割部12の動作をより詳しく説明する。
【0041】
(文末区切り処理)
文分割・単語分割部12の文分割部121は、文末区切り手段12aによって、入力された文情報(入力文字列)を読み込み(ステップS1)、区切り文字リストデータベース20から区切り文字を読み込む(ステップS2)。この区切り文字リストデータベース20には、「、」、「,」、「。」、「.」などの記号文字や、「です」、「である」、「ほしい」、「ですか」といった文末表現が、「意見」、「希望」、「質問」といった属性情報と共に格納されている。次いで、入力文字列を区切り文字リストの格納情報と照合する(ステップS3)。次いで、区切り文字が見つかったか否かを判定し(ステップS4)、区切り文字が見つかれば、先頭文字列から見つかった区切り文字列までをひとまとまりの「切片」と判断して文字列を分割する(ステップS5)。その後、入力文字列の終端に達したか否かを判定し(ステップS6)、未照合の入力文字列がまだ存在する場合はステップS3へ戻って文字列照合を繰り返す。未照合の入力文字列が存在しない場合(入力文字列の終端に達した場合)は、分割後の文字列を切片リストに保存する(ステップS7)。
【0042】
(ユーザ名抽象化処理、URL抽象化処理、絵文字抽象化処理、数値情報抽象化処理)
次いで、抽象化表現リストデータベース21に格納されている抽象化表現を読み出し(ステップS8)、さらに、切片リストデータベース22から分割後の文字列を読み込み、抽象化表現と照合する(ステップS9)。次いで、文字列はあるか否かを判定し(ステップS10)、さらに抽象化表現はあるか否かを判定し(ステップS11)、抽象化表現と一致する文字列があれば、その文字列を抽象化する(ステップS12)。ユーザ名抽象化ステップ、URL抽象化ステップ、絵文字抽象化ステップ、数値情報抽象化ステップは抽象化表現リストデータベース21を参照する。この抽象化表現リストデータベース21には、例えば、メールアドレスやユーザ名を「@mailaddress」や「@user」、金銭情報を「@money」、絵文字を「@pict」といった特定の抽象化文字列に変換するための対応情報が格納されている。以上の抽象化処理によって、例えば、「gta@gmail.com」というメールアドレスは、「@mailaddress」という文字列に変換され、「http://www.homepage.jp」という文字列は「@url」という文字列に、「12万8000円」は「@money」に、絵文字は「@pict」という文字列に変換される。その後、分割文字列の終端に達したか否かを判定し(ステップS13)、未照合の入力文字列がまだ存在する場合はステップS9へ戻って照合を繰り返す。未照合の入力文字列が存在しない場合(文字列の終端に達した)場合は、次の文字列を読み込んで処理を繰り返す。
【0043】
(単語区切り処理)
抽象化処理が終わった対象文字列に対して、形態素解析又はn-gram解析を適用して単語分割を行う(ステップS14)。これにより単語列が得られる。例えば、「一次リーグ戦が始まりました。」という文字列からは「一次、リーグ戦、が、始まり、まし、た、。」という単語列が得られる。
【0044】
(出現頻度計算処理)
次いで、得られた単語をカウントして出現頻度を記憶する(ステップS15)。
【0045】
(文末表現判定処理)
次いで、区切り文字リストデータベース20から文末表現のリストを読み出し(ステップS16)、読み出した文末表現と単語列とを照合する(ステップS17)。文末表現と一致した単語列には対応する属性を関連付ける(ステップS18)。
【0046】
(切片リスト生成処理)
その後、一連の処理結果として得られた単語列と属性情報を切片リストに保存する(ステップS19)。分割後文字列がまだ存在する場合は、ステップS9へ戻って、処理を繰り返し、ステップS10において、分割後文字列が存在しないと判定した場合はこの処理を終了する。
【0047】
情報トリアージ部
図5は情報トリアージ部13の具体的構成を示しており、
図6は情報トリアージ部13の動作を説明している。この情報トリアージ部13では、「情報の正確性」に着目して情報分類を行う。即ち、対象とする情報を1次情報(直接得た情報)、2次情報(関節的に得た情報)、1.5次情報(考えや立場を示す情報)、3次情報(関連のない情報)に分類する。具体的には、1次情報、2次情報、1.5次情報、3次情報それぞれについて、正例と負例にラベル付けした情報を用意し、これを訓練データとした機械学習による分類器(例えばサポート・ベクター・マシンのような分類モデル)を作成する。サポート・ベクター・マシンの代わりに畳み込みニューラルネットワークを用いることも可能である。なお、「情報の正確性」に着目した情報分類法については、下記の文献に詳細に記載されている。
Yuuto Fukushima, Fumito Masui, Michal Ptaszynski, Yoko Nakajima, Keisuke Watanabe, Ryotaro Kawaishi, Taisei Nitta and Ryoya Sato: Macroanalysis of Microblogs: An Empirical Study of Communication Strategies on Twitter, In Proceedings of AAAI2014 Spring Symposum, pp.2-9, 2014.03, Palo Alto, USA.
【0048】
入力として与えられた情報(切片化された情報)に対して学習済みの判別モデルを適用し、1次情報、2次情報、1.5次情報、及び3次情報のいずれかに判定する。このタスク部は、トピッククラスタリングの精緻化やディンメンションやプロパティの決定処理、ラベル推定の補助処理として実行する。
図5に示すように、情報トリアージ部13は、切片リスト展開手段13a、出現頻度展開手段13b、正確性判定手段13c、1次情報判定手段13d、2次情報判定手段13e、1.5次情報判定手段13f、3次情報判定手段13g、及び切片リストデータベース22を備えている。
【0049】
以下、
図5及び
図6を参照して、情報トリアージ部13の動作を詳しく説明する。
【0050】
(切片リスト展開処理、出現頻度展開処理)
情報トリアージ部13は、まず、切片リストデータベース22に格納されている情報を読み込む(ステップS20)。具体的には、文分割・単語分割部12の処理結果として格納されている切片集合情報を読み出す。この情報には、それぞれの切片について、その構成単語に関する情報(表層文字列、品詞、出現頻度)が記録されている。次いで、読み込む切片集合情報が存在するかどうかを判定し(ステップS21)、存在しない場合はこの情報トリアージ部13の処理を終了する。即ち、読み込む切片情報が無くなるまで、ステップS20~ステップS30の処理を繰り返す。
【0051】
(正確性判定処理)
切片集合情報が存在する場合は、得られた切片集合情報を、あらかじめ作成した正確性分類器に適用し、正確性を判定する(ステップS22)。その結果、各切片情報が1次情報、2次情報、1.5次情報、又は3次情報のいずれかに分類される。
【0052】
(1次情報判定処理)
1次情報は、体験的事実、個別的事実、又は普遍的事実に関するものであり、書き手が自分で見たり、聞いたり、感じたりした事情について記載した情報である。例えば、表2に示すように、「コロナで試合ができなかったのでまとめてやる大会でした。」、「北見でカーリング見学」、「工大から道路を挟んで右手に見える白い建物がアルゴグラフィックス北見カーリングホールです。」といったものである。1次情報か否かを判定し(ステップS23)、1次情報と判定された切片には、1次情報の属性情報を付加する(ステップS24)。
【0053】
(2次情報判定処理)
2次情報は、意見、感情表現、意思表示、又は呼びかけに関するものであり、書き手が間接的に入手した事象について記載した情報である。例えば、「新しいカーリングホールイイね」、「皆がんばれ~~」、「カーリングホールでカーリング体験したいです。」、「おススメです。」といったものである。2次情報か否かを判定し(ステップS25)、2次情報と判定された切片には、2次情報の属性情報を付加する(ステップS26)。
【0054】
(1.5次情報判定処理)
1.5次情報は、URL付きツイート、又は伝聞推定表現に関するものであり、書き手の考えや意見について記載した情報である。例えば、「1677452969759_0.html」、「なんか(有名人が)新しいカーリングホールに来たらしいで」といったものである。1.5次情報か否かを判定し(ステップS27)、1.5次情報と判定された切片には、1.5次情報の属性情報を付加する(ステップS28)。
【0055】
(3次情報判定処理)
3次情報は、上記のいずれにも分類されなかったその他の情報(ノイズ)である。例えば、「地域情報サイトの総まとめ」といったものである。3次情報か否かを判定し(ステップS29)、3次情報と判定された切片には、3次情報の属性情報を付加し(ステップS30)、ステップS20へ戻る。3次情報ではないと判定した場合は、その切片情報を記憶してステップS20へ戻る。これにより、
図6の処理は読み込む切片情報が無くなるまで繰り返される。読み込む切片情報が無くなると、属性情報が付与された切片情報が切片リストDB22に保存され、処理が終了する。
【表2】
【0056】
トピック抽出部
図7はトピック抽出部14の具体的構成を示しており、
図8はこのトピック抽出部14の動作を説明しており、
図9はトピックモデルにおけるトピックと、単語と、文書との関連を説明している。トピック抽出部14は、文分割・単語分割部12によって切片化された情報(パラメータが付与された切片情報)に対して、トピックモデルを用いたトピック生成を行うように構成されている。トピックモデルは、単語の相互共起性をトピックとして扱うことで意味のまとまりを表現するものであり、切片群に基づいて作られる単語ベクトル空間を次元圧縮し、ベクトル情報をより低次元の潜在的トピックベクトル空間へ射影して分散表現を得る。ここで、分散表現とは複数の成分要素を持って概念を表現したものをいう。上記のような操作の結果、
図9に示すように、対象とする単語がそれぞれのトピックに帰属する確率がわかる。即ち、それぞれの文書がどのトピックと関連が強いかがわかる。このトピック抽出部14は、切片リスト展開手段14a、出現頻度展開手段14b、分散表現生成手段14c、トピック帰属確率計算手段14d、トピッククラスタリング手段14e、ノイズ判定手段14f、トピックリスト生成手段14g、切片リストデータベース22、及びトピックリストデータベース23を備えている。
【0057】
トピック抽出部14は、潜在的ディリクレ配分法(LDA)によってトピック生成を行うように構成されている。
【0058】
以下、
図7及び
図8を参照して、トピック抽出部14の動作を詳しく説明する。
【0059】
(切片リスト展開処理)
トピック抽出部14は、まず、切片リストデータベース22に格納されている情報を読み込む(ステップS40)。具体的には、情報トリアージ部13の結果として格納されているトリアージ情報を読み込む。この情報には、それぞれの切片が1次情報、1.5次情報、2次情報、及び3次情報のいずれであるかが記録されている。次に、切片の構成単語と出現頻度を読み込む(ステップS41)。次いで、切片集合情報がまだ存在するか否かを判定することにより(ステップS42)、切片集合情報が存在するまでこの読み込みを行う。次いで、読み込んだ切片集合情報に対応するトリアージ情報を照合し、その切片集合情報が3次情報であるか否かを判定する(ステップS43)。3次情報でなければ次の切片集合情報を読み込み、3次情報であればその切片集合情報を記憶する。
【0060】
(分散表現生成処理)
その後、記憶した切片集合情報を構成する単語(形態素)数をカウントし(ステップS44)、次いで、あらかじめユーザによって指定されたトピック数kを設定する(ステップS45)。次いで、記憶した切片集合情報に対して潜在的ディリクレ配分法(LDA)を適用する(ステップS46)。このLDAでは、多項分布とディリクレ分布により、トピックに対応したデータが生成されていると仮定する。例えば、「カーリング」をトピックとして持つ切片は「ストーン」や「アイス」といった単語から構成されていると考え、この関係を多項分布とディリクレ分布によって表現し、分散表現として切片データを生成する。切片データの生成は以下の処理を行うことにより実現できる。
(1)切片のトピック割合をディリクレ分布から生成する処理、
(2)各トピックの単語選択確率をディリクレ分布から生成する処理、
(3)切片の単語数と処理(1)の結果をパラメータとした多項分布から、トピック毎の単語数を生成する処理、
(4)処理(2)及び処理(3)から、各単語の使用回数を生成する処理を行うことで、各単語がトピックに帰属する確率が得られ、切片データと等価なデータが得られる。
【0061】
具体的には、切片を構成単語の集合として表現する。記憶した切片集合のトピックがk個である場合、切片sがns個の単語wiで構成される場合を考える。切片データを生成するために、あらかじめ決定されているトピックkに対して、M種類の単語からトピックに属する単語を選択する。この操作によって選択されたns個の単語は、単語の生起確率φk をパラメータとした多項分布によって表現できる。トピックが持つ単語数は、選択された単語数nsと切片が持つトピック割合θsをパラメータとした多項分布によって表現できる。この説明で用いられる記号の意味は以下の通りである。
α:切片のトピック割合を生成するディリクレ分布のパラメータ、
θs:切片sに各トピックkが属する確率を示すベクトル、
zs、k:切片sが属するトピックkの単語数、
β:トピックの単語生成確率を生成するディリクレ分布のパラメータ、
φk:各トピックでの単語wiが生成される確率を示すベクトル、
xd、i:切片sに登場する単語wiの個数。
【0062】
次に、多項分布とディリクレ分布について説明する。
多項分布は、M種類の値から1つを選択する試行をn
s回繰り返したときに、M種類の値がそれぞれ出現する回数を示すベクトルの分布である。このとき、パラメータは、試行回数n
sとM種類の値がそれぞれ出現する確率pである。例えば、x
iは単語iを追加した個数、p
iはM種類の単語から単語iを選択する確率である。
確率変数X = (x
1、 …、 x
M)がn
sとp =(p
1、…、p
M) をパラメータとする多項分布に従うとき、確率質量関数 f (x
1、 …、 x
M; n、p
1、…、p
M) は以下のようになる。
【数1】
多項分布では、それぞれの値が決まる確率と試行回数がパラメータになっている。そこで、それぞれの値が決まる確率をディリクレ分布によって決定する。
ディリクレ分布は、成分の和が1になる長さNのベクトルの集合が持つ確率分布であり、 パラメータは長さNのベクトルである。例えば、x
1は任意の切片の中でトピック1の単語が出現する確率である。
確率変数X = (x
1、 …、 x
M)がn
sとp = (p
1、…、p
M) をパラメータとするディリクレ分布に従うとき、確率質量関数 g(X; α) は以下のようになる。
【数2】
上式からわかるように、ディリクレ分布の実現値からは成分の和が1となるベクトルが得られるので、このベクトルを多項分布のパラメータpとする。
【0063】
(トピッククラスタリング処理)
設定したk個のトピック毎に、得られた切片の帰属確率を対応付け、トピック別クラスターを作成する。次いで、得られた各トピックそれぞれに対してコヒーレンスを計算する(ステップS47)。コヒーレンスとはトピックの抽象度を表す指標であり、トピックの頻出単語が切片中で共起する傾向が強ければ強いほど類似する単語であると仮定する。なお、単語間の類似性は、対数条件付き確率(LCP)を用いて表現する。
トピックtに対して出現頻度の高いM個の単語集合を
【数3】
単語が出現する文書数を
【数4】
単語が共起する文書数を
【数5】
とすると、コヒーレンスは以下のように計算できる。
【数6】
ただし、ここでは、MimnoらによるUmass-Coherenceを用いている。
【0064】
(ノイズ判定処理)
トピック毎に計算したコヒーレンス値をあらかじめ設定した閾値と比較し、閾値より小さければ、対象トピックに属する切片集合を削除する(ステップS48)。次いで、トピック数が減ったか否かを判定することにより(ステップS49)、対象としたトピック群をまとめてトピック判定処理を再度適用し、閾値より小さなコヒーレンスのトピックが無くなるまで処理を繰り返す。
【0065】
(トピックリスト生成処理)
最終的に得られたトピックと関連する切片データをトピックリストに保存し、処理を終了する。なお、LDAについては、下記の文献に詳細に記載されている。
Blei、D.M., Ng、 A.Y. and Jordan, M.I.: Latent Dirichlet Allocation, Journal of Machine Learning Research, 3, pp.993 1022(2003)
【0066】
ラベル推定部
図10はラベル推定部15の具体的構成を示しており、
図11はこのラベル推定部15の動作を説明している。ラベル推定部15は、各トピックの抽象度を算出し、抽象度が高いトピックに対してLDAによってトピック生成を行うことを繰り返してトピック分類を最適化し、トピック毎にラベルを付与する。即ち、ラベル推定部15は、入力された情報(トピック毎に分類された切片情報)に対してトピック毎のプロパティとディメンションのラベルを導出する。まず、得られたトピック群それぞれに属する切片群を参照し、同一のトピックに属する切片同士の類似性を判定すると共に、設定した閾値以上の類似度を持つ切片グループを抽出する。さらに、同じグループ内の切片構成文字列の包含関係を判定し、最も多くの切片を包含する切片をプロパティとして抽出し、各プロパティに包含される切片をディメンションとして抽出する。このラベル推定部15は、
図10に示すように、切片リスト展開手段15a、出現頻度展開手段15b、トピックリスト展開手段15c、類似度判定手段15d、包含関係判定手段15e、プロパティ抽出手段15f、ディメンション抽出手段15g、トピックラベル決定手段15h、ラベル生成手段15i、切片リストデータべース22、トピックリストデータべース23、推定用テンプレートデータべース24、及びラベルリストデータべース25を備えている。切片リスト展開手段15aは切片リストデータべース22を参照し、トピックリスト展開手段15cはトピックリストデータベース23を参照する。トピックラベル決定手段15hは推定用テンプレートデータベース24を参照する。さらに、プロパティ抽出手段15f、ディメンション抽出手段15gは、処理の結果を切片リストデータベース22に追加保存し、ラベル生成手段15iは生成したラベルをラベルリストデータべース25に保存する。
【0067】
以下、
図10及び
図11を参照して、ラベル推定部15の動作を詳しく説明する。
【0068】
ラベル推定部15は、まず、切片リストデータベース22から切片情報を読み込み(ステップS50)、トピックリストデータベース23からトピック情報を読み込んで(ステップS51)、トピック毎に分類された切片情報を得る。その後、このトピック毎に分類された切片情報に対してトピック毎のラベルを導出する。入力された情報(パラメータが付与された切片情報)、プロパティ、ディメンションを各切片に基づいて導出する。まず、得られた切片群を類似したグループ単位にまとめ、得られたグループ毎にトピックを決定する。これらのグループを特徴付けるものからディメンションを決定し、ディメンションを抽象化したものがプロパティとなる。
【0069】
以下、この処理工程を詳しく説明する。
【0070】
(切片リスト展開処理)、(出現頻度展開処理)、(トピックリスト展開処理)
ラベル推定部15は、まず、切片リストに格納された情報とトピックリストに格納された情報を読み出す。具体的には、情報トリアージ部13の結果として格納されている切片情報と、トピック抽出部14の結果として格納されているトピック情報と、各トピックに関連する切片のデータを読み出す。切片情報には、それぞれの切片について、その構成単語に関する情報(文字列、品詞、出現頻度)と1次情報、1.5次情報、2次情報、3次情報のいずれであるかが記録されている。トピックと関連する切片データには、それぞれの切片がどのトピックに属するかが記録されている。
【0071】
(類似度判定処理)、(包含関係判定処理)
次いで、ラベル推定部15は、トピックリストから読み出された情報からトピックをひとつ(Tk)選択する(ステップS52)。次いで、選択したトピックに属する切片を抽出する(ステップS53)。即ち、選択したトピックに属する切片の切片情報を参照し、切片リストを参照して各切片のトピック帰属確率と構成単語情報を確認する。このとき、トピックに属する各切片のsuffixリスト(サフィックスリスト)を作成する(ステップS54)。
【0072】
サフィックスリストとは、テキスト(文字列)における、各構成文字から文字列終端までの部分文字列(サフィックス)の集合である。このサフィックスリストは以下の手順で作成する。
1. 切片を構成する単語を全て繋げてテキストを生成する。
2. テキストを参照する。
3. 現在の文字が終端記号(行末)でなければ、テキスト中の左端の文字を読み込む。
4. 現在の文字が終端記号(行末)であれば、次の切片情報を読み込む。
5. 文字メモリに記憶された一つ前に参照した文字を参照する。
6. 参照した文字が数字でかつ現在の文字も数字である場合は、一つの文字列として統合し、上述の2.の処理へ進む。
7. 参照した文字が数字で現在の文字が数字でない場合は、文字メモリへ文字を記憶し、現在の文字を削除した後に文字列をサフィックスメモリに追加する、追加したデータの位置情報も付与しておく。
8. 参照した文字が数字でない場合は、文字メモリへ文字を記憶し、現在の文字を削除した後、データをサフィックスアレイデータベース(図示無し)に追加する。RDB中のデータ位置情報も付与しておく。
9. 行末でなければ、切片情報を読み込む。
10. 行末まで処理した場合、サフィックスアレイデータベース中の文字列を先頭文字で整列して処理を終了する。
11. 行末であれば処理を終了する。
【0073】
表3は、切片と切片を構成する文字列の例を示している。例えば、「フォームを真っ直ぐ安定させることが難しい」という切片の構成単語は、{フォーム、真っ直ぐ、安定、こと、難しい}なので、生成されるテキストは「フォーム真っ直ぐ安定こと難しい」となる。
【表3】
【0074】
表4~表6は、切片構成文字列に基づいて生成したn-gram作成例をそれぞれ示している。
【表4】
【0075】
【0076】
【0077】
表7~表8は、これらのデータを結合したn-gramリストを示しており、それぞれの文字列をデータベースの配列構造に格納したものがサフィックスアレイとなる。
【表7】
【0078】
【0079】
表9~表11は、前述した手順10において、先頭文字で整列したデータの例を示している。これらの表9~表11において、右端のカラムはサフィックスの先頭から抽出した共通文字列であり、その左隣のカラムにそれらの出現頻度が表示されている。
【表9】
【0080】
【0081】
【表11】
表10は表9の続きであり、表11は表10の続きである。
【0082】
作成した文字列は階層関係を持つので包含関係にある。しかし、最長文字列で代表すると冗長性が発生するので、これを回避するために各文字列の出現頻度比を利用したアダプテーション法と最長一致法を用いて、以下の手順のような絞り込みを行う。
1) 文字列クラスメモリから文字列クラスを読み込む。読み込んだ文字列クラスSiの頻度をSi (0 ≦ I ≦ Li) とする。ただし、Lは文字列の種類数とする。
2) 文字列クラスのスパースネスの排除を行う。頻度がSj < α(αは閾値)であるならば、対象の文字列クラスを削除する。
3) 参照済み文字列クラスメモリから、直前に読み込んだ文字列クラスを参照して比較し、2つの文字列クラスが文字列上の包含関係にあるかどうかを判定する。もし、Si ≧ α かつ Si ⊃ Sj (0 ≦ j ≦ L-1)であるならば、Siは独立クラスと判断する。
4) 2つの文字列クラスが包含関係にあると判断された場合、両者の出現頻度に基づいて頻度比を計算する。
5) 頻度比があらかじめ設定した閾値より小さい場合
【数7】
比較対象の文字列クラスは同一プロパティに属すると判断し、最長一致法によるクラス圧縮を行う。ここで、
【数8】
の場合、現在読み込んでいる文字列クラスは参照済文字列クラスの部分文字列であると判断して削除する。
【数9】
の場合、参照済文字列クラスは現在読み込んでいる文字列クラスの部分文字列であると判断して、参照済文字列クラスを削除する。
6) 頻度比があらかじめ設定した閾値以上である場合
【数10】
読み込んだ文字列クラスは独立したプロパティに属すると判断して登録する。
【0083】
ステップS54においてサフィックスリストを作成した後、i=1に初期設定し(ステップS55)、リストから、suffix(Si)を選択する(ステップS56)。次いで、j=1に初期設定し(ステップS57)、リストから、次のsuffix(Si+j)を選択する(ステップS58)。これにより選択したsuffix(Si)とsuffix(Si+j)との類似度を計算し(ステップS59)、類似度が閾値以上であるか否かを判定する(ステップS60)。類似度が閾値以上ではない場合(NOの場合)、jをインクリメントし(ステップS61)、ステップS58~ステップS60の処理を繰り返す。類似度が閾値以上である場合(YESの場合)、suffix(Si+j)をサフィックスリストから削除する(ステップS62)。次いで、削除リストを作成し(ステップS63)、リストの末尾のsuffixであるか否かを判定する(ステップS64)。リストの末尾ではない場合(NOの場合)、jをインクリメントし(ステップS61)、ステップS58~ステップS64の処理を繰り返す。リストの末尾である場合(YESの場合)、i=jであるか否かを判定する(ステップS65)。i=jではない場合(NOの場合)、jをインクリメントし(ステップS66)、ステップS56~ステップS65の処理を繰り返す。i=jである場合(YESの場合)、未選択のトピックはないか否かを判定する(ステップS67)。
【0084】
下記の表12~表14は、上述の手順2)によって文字列クラスのスパースネスを排除するサフィックスリストを示している。図の最も右側のカラムには、抽出した文字クラスのうち、削除するヒューリスティックスが示されている。また、表15~表16は、スパースネスが排除された結果を示している。さらに、表17は、手順3)~手順6)による包含関係の判断により、文字列クラスの圧縮が完了した状態のサフィックスリストを示している。
【0085】
【0086】
【0087】
【0088】
【0089】
【0090】
【0091】
(プロパティ付与処理)、(ディメンション付与処理)
以上の処理により、トピック別に包含関係を持つ切片が整理された文字列リストが得られる。トピック毎に、最も合計出現頻度が高い文字列リストに対応する切片を抽出し、プロパティとして保存する。表18は、サフィックスリストにおいて、文字列クラスとプロパティが関連付けられた結果を示している。表19は、プロパティが決定した状態を示している。表20は、プロパティ文字列で整列した切片リストの例である。
【0092】
具体的には、ステップS67において、未選択のトピックがあると判定した場合(NOの場合)、プロパティリストを作成し(ステップS68)、削除リストにおける類似度に応じてディメンションリストを作成する(ステップS69)。その後、ステップS52~ステップS67の処理を繰り返す。
【0093】
【0094】
【0095】
【0096】
(トピックラベル決定処理)、(ラベル付与処理)
推定用テンプレートからラベルテンプレートを読み出す。まず、プロパティ群を対象として、用意されたベースラベルとプロパティを構成する文字列との関連度を計算する。関連度が閾値を超える場合は、そのプロパティとカテゴリとを関連付ける。この処理を関連付ける対象がなくなるまで処理を繰り返す。次いで、関連付けられたプロパティを参照し、各プロパティを最も関連度の高いベースラベルに属すると判断する。ベースラベルにプロパティ文字列を代入してラベルを生成する。最後に、生成したラベルをラベルリストに保存して処理を終了する。即ち、トピック抽出の結果として得られたトピックに属するプロパティ集合が選ばれ、これがラベルとされる。例えば、あるトピックに属するプロパティとして「フリーズ、フロントストーン、安定」が得られたとすると、これがトピックラベルとされる。より可読性の高いラベルが必要な場合、これらラベルを人間が参照、解釈して、「ショットについて」といったラベルを付与しても良い。最後に、生成したラベルをラベルリストに保存して処理を終了する。ラベルリストには、切片番号、プロパティ情報、及びカテゴリ情報が保存される。
【0097】
具体的には、ステップS67において、未選択のトピックがないと判定した場合(YESの場合)、プロパティリストのエントリをラベルテンプレートと照合し(ステップS70)、ラベルリストを作成する(ステップS71)。
【0098】
以上詳細に説明したように、本実施形態によれば、GTAによる分析を原問題(メインタスク)とみなし、これをより具体的な小問題(サブタスク)に分割することで各問題をより具体化し、これらを解く手段をそれぞれ実現している。GTAの分析プロセスのうち、特にオープンコーディングを複数のサブタスクに分割し、これらのタスクに対応する、文分割・単語分割部12、トピック抽出部14、及びラベル推定部15を設け、ラベルを推定している。このように、オープンコーディングのラベル推定部15によって、ラベルが推定されるので、次のアキシャルコーディングにおいては、付与されたラベルのうち類似したラベルがまとめられて、カテゴリを決定することができ、カテゴリが決定されると、類似したトピックでかつ類似した文構造が、区別整理される。即ち、次の処理を進めるための部品群が整理された状態となる。その結果、分析処理を効率良く、自動化することができる。
【0099】
図12は本実施形態のデータ分析装置の一適用例を示している。
【0100】
この適用例は、本実施形態のデータ分析装置が質的分析を自動的に行うことにより、自治体による地域サービスを向上させるものである。まず、地域サービス利用者や地域住民による、SNSへの投稿又は投書箱への意見(電子化したもの)から、地域公共サービスに関連する意見を収集し、収集した意見について、本実施形態のデータ分析装置が自動的な質的分析を行い、その分析結果を提供された自治体が分析結果の確認及び考察を行うことにより、地域サービス利用者や地域住民への地域サービスを向上させるものである。
【0101】
図13は本実施形態のデータ分析装置の他の適用例を示している。
【0102】
この適用例は、
図12の適用例をさらに定量的分析と組み合わせたものである。地域サービス利用者や地域住民による、SNSへの投稿又は投書箱への意見(電子化したもの)から、地域公共サービスに関連する意見を収集し、収集した意見について、本実施形態のデータ分析装置が自動的な質的分析を行い、その分析結果を提供された自治体が分析結果の確認及び考察を行うことにより、地域サービス利用者や地域住民への地域サービスを向上させる。一方、データ分析装置による質的分析の分析結果及び意見情報を継続的に蓄積し、十分なデータ規模が確保できた段階で、それらのデータに対して量的分析法を適用するものである。これにより、質的分析法による分析結果に加えて、量的分析結果を得ることが可能となる。
【0103】
以上述べた実施形態は全て本発明を例示的に示すものであって限定的に示すものではなく、本発明は他の種々の変形態様及び変更態様で実施することができる。従って本発明の範囲は特許請求の範囲及びその均等範囲によってのみ規定されるものである。
【符号の説明】
【0104】
10 サーバ
11 SNS投稿文収集部
12 文分割・単語分割部
121 文分割部
122 単語分割部
12a 文末区切り手段
12b ユーザ名抽象化手段
12c URL抽象化手段
12d 絵文字抽象化手段
12e 数値情報抽象化手段
12f 単語区切り手段
12g 出現頻度計算手段
12h 文末表現判定手段
12i 切片リスト生成手段
13 情報トリアージ部
13a、14a、15a 切片リスト展開手段
13b、14b、15b 出現頻度展開手段
13c 正確性判定手段
13d 1次情報判定手段
13e 2次情報判定手段
13f 1.5次情報判定手段
13g 3次情報判定手段
14 トピック抽出部
14c 分散表現生成手段
14d トピック帰属確率計算手段
14e トピッククラスタリング手段
14f ノイズ判定手段
14g トピックリスト生成手段
15 ラベル推定部
15c、16b トピックリスト展開手段
15d 類似度判定手段
15e 包含関係判定手段
15f プロパティ抽出手段
15g ディメンジョン抽出手段
15h トピックラベル決定手段
15i ラベル生成手段
16 処理統括部
20 区切り文字リストデータベース
21 抽象化表現リストデータベース
22 切片リストデータベース
23 トピックリストデータベース
24 推定用テンプレートデータベース
25 ラベルリストデータベース