特開2024-121252 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人帯広畜産大学の特許一覧 ▶ 株式会社日立ソリューションズ東日本の特許一覧

特開2024-121252データ分析装置及びデータ分析方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024121252

(43)【公開日】2024-09-06

(54)【発明の名称】データ分析装置及びデータ分析方法

(51)【国際特許分類】

G06F 40/279 20200101AFI20240830BHJP

G06F 40/284 20200101ALI20240830BHJP

G06F 16/35 20190101ALI20240830BHJP

【ＦＩ】

G06F40/279

G06F40/284

G06F16/35

【審査請求】未請求

【請求項の数】12

【出願形態】ＯＬ

(21)【出願番号】P 2023028246

(22)【出願日】2023-02-27

(71)【出願人】

【識別番号】504300088

【氏名又は名称】国立大学法人北海道国立大学機構

(71)【出願人】

【識別番号】000233538

【氏名又は名称】株式会社日立ソリューションズ東日本

(74)【代理人】

【識別番号】100081271

【弁理士】

【氏名又は名称】吉田芳春

(72)【発明者】

【氏名】桝井文人

(72)【発明者】

【氏名】高橋哲也

【テーマコード（参考）】

5B091

5B175

【Ｆターム（参考）】

5B091AA15

5B091AB01

5B091CA02

5B091EA01

5B175DA01

5B175FA03

(57)【要約】

【課題】ＧＴＡプロセスを用いて自動化することができ、疎な意見であっても分析処理を効率良く行うことのできるデータ分析装置及びデータ分析方法を提供する。
【解決手段】データ分析装置は、入力されたネットワーク上の文情報を単文に分割し、分割した単文を構成要素群に単語分割して切片化する文分割・単語分割部と、文分割・単語分割部によって切片化された切片情報に対して、トピックモデルによる単語の分散表現を獲得してトピック生成を行うトピック抽出部と、トピック抽出部によって生成されたトピック毎にラベルを推定するラベル推定部とを備えており、ラベル推定部によって推定されたラベルに基づいて文情報を分析する。
【選択図】図１

【特許請求の範囲】

【請求項1】

入力されたネットワーク上の文情報を単文に分割し、分割した単文を構成要素群に単語分割して切片化する文分割・単語分割部と、該文分割・単語分割部によって切片化された切片情報に対して、トピックモデルによる単語の分散表現を獲得してトピック生成を行うトピック抽出部と、該トピック抽出部によって生成されたトピック毎にラベルを推定するラベル推定部とを備えており、前記ラベル推定部によって推定されたラベルに基づいて前記文情報を分析することを特徴とするデータ分析装置。

【請求項2】

前記文分割・単語分割部によって切片化された切片情報について、情報の直接性を考慮して優先順位付けを行う情報トリアージ部をさらに備えており、前記ラベル推定部は、前記情報トリアージ部で得た優先順位に基づいて、ラベルを推定するように構成されていることを特徴とする請求項１に記載のデータ分析装置。

【請求項3】

前記情報トリアージ部が、前記切片情報を、直接的に得た情報である１次情報、間接的に得た情報である２次情報、意思や意見を含む参考情報である１．５次情報、及びその他のノイズ情報である３次情報のいずれであるかにより、情報の直接性を判定するように構成されていることを特徴とする請求項２に記載のデータ分析装置。

【請求項4】

前記文分割・単語分割部が、形態素解析によって、分割した単文を構成要素群に単語分割するように構成されていることを特徴とする請求項１に記載のデータ分析装置。

【請求項5】

前記トピック抽出部が、潜在的ディリクレ配分法によってトピック生成を行うように構成されていることを特徴とする請求項１に記載のデータ分析装置。

【請求項6】

前記ラベル推定部が、各トピックの抽象度を算出し、算出した抽象度が高いトピックに対して潜在的ディリクレ配分法によってトピック生成を行うことを繰り返してトピック分類を最適化し、トピック毎にラベルを付与するように構成されていることを特徴とする請求項１に記載のデータ分析装置。

【請求項7】

入力されたネットワーク上の文情報を単文に分割し、分割した単文を構成要素群に単語分割して切片化し、前記切片化された切片情報に対して、トピックモデルによる単語の分散表現を獲得してトピック生成を行い、該生成されたトピック毎にラベルを推定し、該推定されたラベルに基づいて前記文情報を分析することを特徴とするデータ分析方法。

【請求項8】

前記切片化された切片情報について、情報の直接性を考慮して優先順位付けをして情報のトリアージを行い、該情報のトリアージによって得た優先順位に基づいて、前記ラベルを推定することを特徴とする請求項７に記載のデータ分析方法。

【請求項9】

前記情報のトリアージが、前記切片情報を、直接的に得た情報である１次情報、間接的に得た情報である２次情報、意思や意見を含む参考情報である１．５次情報、及びその他のノイズ情報である３次情報のいずれであるかにより、情報の直接性を判定することを特徴とする請求項８に記載のデータ分析方法。

【請求項10】

前記文分割及び単語分割が、形態素解析によって、分割した単文を構成要素群に単語分割するものであることを特徴とする請求項７に記載のデータ分析方法。

【請求項11】

前記トピックの抽出が、潜在的ディリクレ配分法によってトピック生成を行うものであることを特徴とする請求項７に記載のデータ分析方法。

【請求項12】

前記ラベルの推定が、各トピックの抽象度を算出し、算出した抽象度が高いトピックに対して潜在的ディリクレ配分法によってトピック生成を行うことを繰り返してトピック分類を最適化し、トピック毎にラベルを付与するものであることを特徴とする請求項７に記載のデータ分析方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ソーシャルネットワーキングサービス（ＳＮＳ）や地域公共サービス等の種々のサービスにおけるデータを分析するデータ分析装置及びデータ分析方法に関する。

【背景技術】

【0002】

近年、地域活性化が社会の重要課題として認識されており、産学官による問題解決に向けた取り組みも多く見られる。これらの取り組みは、運用計画（Ｐｌａｎ）、実施（Ｄｏ）、意見収集・分析（Ｃｈｅｃｋ）、及び改善（Ａｃｔｉｏｎ）のＰＤＣＡサイクルを実行することを基本としていることが多い。しかし、多くの場合において、ＰＤＣＡサイクルがうまく実行できているとはいえない。その理由として、（１）地域振興に対するフィードバックの取得は意見箱や電話対応を通じて行われており、利用者の声が効率良く吸い上げられていない、（２）フィードバックチェックは人手に頼っており、時間的・人的コストが多大である、といった点があげられる。このことから、地域振興においては、意見収集・分析（Ｃｈｅｃｋ）、及び改善（Ａｃｔｉｏｎ）の強化、特に、意見の収集と分析の効率化が求められる。

【0003】

一方、ＳＮＳは不特定多数のユーザから投稿された様々な情報や意見が蓄積された大規模情報源と言えるので、地域サービスに関しても相当規模の投稿が存在すると期待できる。さらに、ＳＮＳのユーザは比較的若い年齢層が主体と考えられるので、電話や意見箱を利用した場合とは異なる年齢層からの意見収集が期待できる。加えて、ＳＮＳへの投稿は電子化データとして入手できるので、コンピュータ上で処理可能である。従って、適切な分析手法を実装できれば、従来よりも大幅に効率的な処理が実現可能である。

【0004】

ところが、ＳＮＳ上に投稿される地域サービス関連の意見は非常に疎であることから、機械学習や統計処理といった量的分析法をこれに直接適用しても効果が得にくい。この問題に対しては、少量のデータでも高い分析精度が得られる質的分析法を用いることができる。しかしながら、質的分析法は人間の判断による部分が多いため、人的コスト、時間的コスト、及び経済的コストが非常に高いという課題があった。

【0005】

代表的な質的分析法の一つである、ＧＴＡ（グランデッド・セオリー・アプローチ、ＧｒｏｕｎｄｅｄＴｈｅｏｒｙＡｐｐｒｏａｃｈ）を用いた従来技術として、特許文献１には、ひとりひとりが選んだデータを各々がどのように受け止めたかを効率的かつ高精度に把握するために、データの中に出てきた現象がどのようなメカニズムで生じているかについてＧＴＡを用いて分析するデータ分析装置及びデータ分析方法が開示されている。

【0006】

特許文献２には、文章データを分類する先である分類項目、及び分類項目の階層を示す分類構造データの作成にＧＴＡを用い、同じ回答者から得られる意味的に反対の質問に対する各回答を分類するための分類器を生成する分類器生成装置及び分類器生成方法が開示されている。

【先行技術文献】

【特許文献】

【0007】

【特許文献1】特開２０２２－０４５４６３号公報

【特許文献2】特許第６７１５７５８号公報

【発明の概要】

【発明が解決しようとする課題】

【0008】

しかしながら、特許文献１に開示された分析手法は、プロセス中で発生する文章属性や切片属性を人間が判断して設定するように構成されており、ＧＴＡプロセス全体を自動化して処理することはできない。

【0009】

また、特許文献２に開示された技術は、分類構造データの作成に関するものであり、ＧＴＡプロセスの応用や自動化を図るものではない。

【0010】

従って本発明の目的は、ＧＴＡプロセスを用いて自動化することができ、疎な意見であっても分析処理を効率良く行うことのできるデータ分析装置及びデータ分析方法を提供することにある。

【課題を解決するための手段】

【0011】

本発明によれば、データ分析装置は、入力されたネットワーク上の文情報を単文に分割し、分割した単文を構成要素群に単語分割して切片化する文分割・単語分割部と、文分割・単語分割部によって切片化された切片情報に対して、トピックモデルによる単語の分散表現を獲得してトピック生成を行うトピック抽出部と、トピック抽出部によって生成されたトピック毎にラベルを推定するラベル推定部とを備えており、ラベル推定部によって推定されたラベルに基づいて文情報を分析する。

【0012】

自治体などが実施する地域サービスに対してＳＮＳに投稿された意見情報を対象として、質的分析法による意見情報分析を原問題と見なし、これを複数のより具体的な部分問題に分割して自動的に各部分問題を解くことで、これまで質的分析法の課題となっていた高コスト問題と効率性の問題を大幅に軽減している。具体的には、ＧＴＡによる分析を原問題（メインタスク）とみなし、これをより具体的な小問題（サブタスク）に分割することで各問題をより具体化し、これらを解く手段をそれぞれ実現している。本発明では、特に、ＧＴＡの分析プロセス、特にオープンコーディングを複数のサブタスクに分割し、これらのタスクに対応する手段を設けている。即ち、文分割・単語分割部、トピック抽出部、及びラベル推定部を設け、ラベルを推定している。このように、オープンコーディングのラベル推定部によって、ラベルが推定されるので、次のアキシャルコーディングにおいては、付与されたラベルのうち類似したラベルがまとめられて、カテゴリを決定することができ、カテゴリが決定されると、類似したトピックでかつ類似した文構造が、区別整理される。即ち、次の処理を進めるための部品群が整理された状態となる。その結果、分析処理を効率良く、自動化することができる。

【0013】

なお、アキシャルコーディングは、処理結果出力としてカテゴリ関連統合図を得ているが、これは、基本的には、オープンコーディングから得られた（整理された）情報を適切に繋ぎ合わせて概念化された各情報をグラフ構造として視覚化する作業である。即ち、分析対象の文書情報に含まれる概念同士の複雑な因果関係や非明示的な関係を、人間が容易に解釈できる状態に抽象化するためのコーディングに他ならない。従って、人間にとってはより分析されたと言え、人間が文情報を容易にかつ正確に分析するための可視化出力ができることとなる。

【0014】

文分割・単語分割部によって切片化された切片情報について、情報の直接性を考慮して優先順位付けを行う情報トリアージ部をさらに備えており、ラベル推定部は、情報トリアージ部で得た優先順位に基づいて、ラベルを推定するように構成されていることが好ましい。

【0015】

情報トリアージ部が、切片情報を、直接的に得た情報である１次情報、間接的に得た情報である２次情報、意思や意見を含む参考情報である１．５次情報、及びその他のノイズ情報である３次情報のいずれであるかにより、情報の直接性を判定するように構成されていることも好ましい。

【0016】

文分割・単語分割部が、形態素解析によって、分割した単文を構成要素群に単語分割するように構成されていることも好ましい。

【0017】

トピック抽出部が、潜在的ディリクレ配分法（ＬＤＡ）によってトピック生成を行うように構成されていることも好ましい。

【0018】

ラベル推定部が、各トピックの抽象度を算出し、算出した抽象度が高いトピックに対してＬＤＡによってトピック生成を行うことを繰り返してトピック分類を最適化し、トピック毎にラベルを付与するように構成されていることも好ましい。

【0019】

また、本発明によれば、データ分析方法は、入力されたネットワーク上の文情報を単文に分割し、分割した単文を構成要素群に単語分割して切片化し、切片化された切片情報に対して、トピックモデルによる単語の分散表現を獲得してトピック生成を行い、生成されたトピック毎にラベルを推定し、推定されたラベルに基づいて文情報を分析する。

【0020】

自治体などが実施する地域サービスに対してＳＮＳに投稿された意見情報を対象として、質的分析法による意見情報分析を原問題と見なし、これを複数のより具体的な部分問題に分割して自動的に各部分問題を解くことで、これまで質的分析法の課題となっていた高コスト問題と効率性の問題を大幅に軽減している。具体的には、ＧＴＡによる分析を原問題（メインタスク）とみなし、これをより具体的な小問題（サブタスク）に分割することで各問題をより具体化し、これらを解く手段をそれぞれ実現している。本発明では、特に、ＧＴＡの分析プロセス、特にオープンコーディングを複数のサブタスクに分割し、これらのタスクに対応する工程を設けている。このように、オープンコーディングにおいて、ラベルが推定されるので、次のアキシャルコーディングにおいては、付与されたラベルのうち類似したラベルがまとめられて、カテゴリを決定することができ、カテゴリが決定されると、類似したトピックでかつ類似した文構造が、区別整理される。即ち、次の処理を進めるための部品群が整理された状態となる。その結果、分析処理を効率良く、自動化することができる。

【0021】

なお、アキシャルコーディングは、処理結果出力としてカテゴリ関連統合図を得ているが、これは、基本的には、オープンコーディングから得られた情報を適切に繋ぎ合わせて概念化された各情報をグラフ構造として視覚化する作業である。即ち、分析対象の文書情報に含まれる概念同士の複雑な因果関係や非明示的な関係を、人間が容易に解釈できる状態に抽象化するためのコーディングに他ならない。従って、人間にとってはより分析されたと言え、人間が文情報を容易にかつ正確に分析するための可視化出力ができることとなる。

【0022】

切片化された切片情報について、情報の直接性を考慮して優先順位付けをして情報のトリアージを行い、この情報のトリアージによって得た優先順位に基づいて、ラベルを推定することが好ましい。

【0023】

情報のトリアージが、切片情報を、直接的に得た情報である１次情報、間接的に得た情報である２次情報、意思や意見を含む参考情報である１．５次情報、及びその他のノイズ情報である３次情報のいずれであるかにより、情報の直接性を判定することも好ましい。

【0024】

文分割及び単語分割が、形態素解析によって、分割した単文を構成要素群に単語分割するものであることも好ましい。

【0025】

トピックの抽出が、潜在的ディリクレ配分法によってトピック生成を行うものであることも好ましい。

【0026】

ラベルの推定が、各トピックの抽象度を算出し、算出した抽象度が高いトピックに対して潜在的ディリクレ配分法によってトピック生成を行うことを繰り返してトピック分類を最適化し、トピック毎にラベルを付与するものであることも好ましい。

【発明の効果】

【0027】

本発明によれば、質的分析法の課題となっていた高コスト問題と効率性の問題を大幅に軽減することが可能となる。また、分布が非常に疎であるＳＮＳ上の地域サービスに関する意見情報に対して、高い精度で分析を行うことが可能となる。

【図面の簡単な説明】

【0028】

【図1】本発明の一実施形態におけるデータ分析装置の主要部の構成をＧＴＡのオープンコーディングのタスクと比較して示すブロック図である。

【図2】図１のデータ分析装置のタスク部の構成を概略的に示すブロック図である。

【図3】図１のデータ分析装置の文分割・単語分割部の具体的構成を示すブロック図である。

【図4】図３の文分割・単語分割部の動作を説明するフローチャートである。

【図5】図１のデータ分析装置の情報トリアージ部の具体的構成を示すブロック図である。

【図6】図５の情報トリアージ部の動作を説明するフローチャートである。

【図7】図１のデータ分析装置のトピック抽出部の具体的構成を示すブロック図である。

【図8】図７のトピック抽出部の動作を説明するフローチャートである。

【図9】図７のトピック抽出部の作用を説明する図である。

【図10】図１のデータ分析装置のラベル推定部の具体的構成を示すブロック図である。

【図11】図１０のラベル推定部の動作を説明するフローチャートである。

【図12】図１のデータ分析装置の一適用例を示すブロック図である。

【図13】図１のデータ分析装置の他の適用例を示すブロック図である。

【発明を実施するための形態】

【0029】

図１は本発明の一実施形態におけるデータ分析装置の主要部の構成をＧＴＡのオープンコーディングのタスクと比較して示しており、図２はこのデータ分析装置の物理的構成を概略的に示している。なお、図１（Ａ）はＧＴＡにおけるオープンコーディングを構成する作業ステップを示しており、図１（Ｂ）はこのオープンコーディングの各作業ステップと対応する本実施形態のタスク部を示している。なお、以下の記載においては、数式を除いて、電子出願で使用できない傾斜文字によるベクトル表示は行っていない。

【0030】

代表的な質的分析法の１つであるＧＴＡでは、オープンコーディング、アキシャルコーディング、セレクティブコーディングという３種類のコーディング作業によってデータから概念を抽出し、その概念同士を関連付けている。オープンコーディングは、図１（Ａ）に示すように、切片化、プロパティ付与、ディメンション付与、ラベル付与という４つの作業ステップから構成される。一般に、文書から人間判断によって概念を抽出して抽象化する作業は、作業者の主観からのバイアスを受けやすい作業となる。これを軽減するために、ＧＴＡでは「プロパティ」、「ディメンション」という二種類の基礎概念を抽出し、これらに基づいてさらに抽象度の高い「ラベル」を付与している。また、アキシャルコーディングは、カテゴリ化、パラダイム設定、関連付けの３つのステップから構成される。これによりデータ中に記述されたトピックや観点を構成するメカニズムを把握できる。アキシャルコーディングにおいては、オープンコーディングで付与されたラベルのうち、類似したラベルをまとめて「カテゴリ」という上位概念を作成する。このような作業の階層化により、概念の抽象度を上げる際に作業者に依存するバイアスを一定程度回避することができるのである。なお、ＧＴＡについては、下記の文献に詳細に記載されている。
Juliet Corbin., Anselm Strauss. “Grounded Theory Research: Procedures, Canons, and Evaluative Criteria” Qualitative Sociology, Vol.13, No, 1, (1990)

【0031】

以下、本明細書で用いる「プロパティ」、「ディメンション」、「ラベル」、及び「カテゴリ」という用語について、簡単に説明する。これら「プロパティ」、「ディメンション」、「ラベル」、及び「カテゴリ」は、対象となる文書から抽出された概念のことであり、それぞれ抽象度が異なるため、これらを区別するために異なる名称が与えられている。即ち、
「プロパティ」とは、作業者（分析者）の視点を示す概念であり、本実施形態では、切片構成文字列から抽出した主要文字列を用いている、
「ディメンション」とは、各プロパティから見た時にデータの位置付けを示す概念であり、本実施形態では、切片構成文字列を用いている、
「ラベル」とは、プロパティとラベルに基づく切片の主題概念であり、本実施形態では、プロパティ集合と関連が強いと判定された（予め用意された）ラベルテンプレートに関連する主要文字列を適用したものを用いている、
「カテゴリ」とは、類似したラベル集合を代表する概念であり、本実施形態では、プロパティと関連が強いと判定された（予め用意された）カテゴリテンプレートを用いている。

【0032】

上述したように、本実施形態では、図１（Ａ）に示すＧＴＡのオープンコーディングの作業ステップに対応する複数のタスク部を設けている。即ち、図１（Ｂ）に示すように、本実施形態のデータ分析装置は、タスク部として、ＳＮＳ投稿文収集部１１から入力されたネットワーク上の文情報を単文に分割し、分割した単文を構成要素群に単語分割して切片化する文分割・単語分割部１２と、情報の直接性判定を行う情報トリアージ部１３と、文分割・単語分割部１２によって切片化された切片情報に対して、トピックモデルを用いてトピック抽出を行うトピック抽出部１４と、トピック抽出部１４によって抽出されたトピック毎に分類された切片情報に対して、ラベルを推定するラベル推定部１５とを備えている。

【0033】

図２に示すように、本実施形態のデータ分析装置は、インターネットやＬＡＮ（ローカルエリアネットワーク）等のネットワークに接続されるサーバ１０に上述したタスク部が設けられている。具体的には、サーバ１０には、上述した文分割・単語分割部１２、情報トリアージ部１３、トピック抽出部１４、ラベル推定部１５、及びサーバ１０への入出力と各タスク部の実行選択を行う処理統括部１６が設けられている。これらタスク部は、区切り文字リストが記憶されている区切り文字リストデータベース（ＤＢ）２０と、抽象化表現リストが記憶されている抽象化表現リストデータベース（ＤＢ）２１と、切片リストが記憶されている切片リストデータベース（ＤＢ）２２と、トピックリストが記憶されているトピックリストデータベース（ＤＢ）２３と、推定用テンプレートが記憶されている推定用テンプレートデータベース（ＤＢ）２４と、ラベルリストが記憶されているラベルリストデータベース（ＤＢ）２５と接続されており、これらデータベースを参照して処理が進められる。

【0034】

文分割・単語分割部
図３は文分割・単語分割部１２の具体的構成を示しており、図４はこの文分割・単語分割部１２の動作を説明している。図１に示したＳＮＳ投稿文収集部１１において、対象とするツイート文等の文情報の収集を行われ、収集された文情報は文分割・単語分割部１２に入力される。この文分割・単語分割部１２は、図１に示すように、文分割部１２１と単語分割部１２２とを備えており、図３に示す文末区切り手段１２ａ、ユーザ名抽象化手段１２ｂ、ＵＲＬ抽象化手段１２ｃ、絵文字抽象化手段１２ｄ、数値情報抽象化手段１２ｅ、単語区切り手段１２ｆ、出現頻度計算手段１２ｇ、文末表現判定手段１２ｈ、及び切片リスト生成手段１２ｉを備えている。

【0035】

文分割部１２１は、入力された文情報（文）を単文に分割するように構成されている。分割して得られた単文が切片となる。通常、文区切りには句点が有効であるが、ＳＮＳ投稿文のようなツイート文には句読点が省略される場合が多いため、ヒューリスティック処理（ヒューリスティックス）が必要となる。また、正規表現を使用することが望ましい。

【0036】

単語分割部１２２は、後のステップを想定し、分割された各文を構成要素群に分割するように構成されている。要素としては単語やｎ－ｇｒａｍが考えられるが、本実施形態においては形態素解析を用いる。また、時間表現や数値表現、ＵＲＬなどの特定表現を抽象化する。

【0037】

このように、文分割・単語分割部１２では、入力されたツイート文等に含まれるテキスト文等の文情報を一文単位に分割する。このとき、後続処理を効率よく実施するために、時間表現や数値表現、一部特定表現を抽象化する。第１に、入力されたツイートに含まれるテキストを一文単位に分割する。ツイート中の文章は句読点の省略が多いため、区切り文字には句点に加えて特定の記号や絵文字、改行などを利用する。区切り文字と分割処理は正規表現を用いる。第２に、ユーザ名やＵＲＬ、絵文字、数値情報などを「特定表現」と見なしてタグ付けを行なう。特定表現の例を表１に示す。特定表現の認識とタグ付け処理についても正規表現を用いる。

【0038】

【表1】

【0039】

文分割は、句読点を基準として行い、ヒューリスティック処理を併用し、主要な処理は正規表現処理で実装し、ヒューリスティックスは、絵文字、顔文字、助動詞、特定記号、改行記号などを基準とする。

【0040】

以下、図３及び図４を参照して、文分割・単語分割部１２の動作をより詳しく説明する。

【0041】

（文末区切り処理）
文分割・単語分割部１２の文分割部１２１は、文末区切り手段１２ａによって、入力された文情報（入力文字列）を読み込み（ステップＳ１）、区切り文字リストデータベース２０から区切り文字を読み込む（ステップＳ２）。この区切り文字リストデータベース２０には、「、」、「，」、「。」、「．」などの記号文字や、「です」、「である」、「ほしい」、「ですか」といった文末表現が、「意見」、「希望」、「質問」といった属性情報と共に格納されている。次いで、入力文字列を区切り文字リストの格納情報と照合する（ステップＳ３）。次いで、区切り文字が見つかったか否かを判定し（ステップＳ４）、区切り文字が見つかれば、先頭文字列から見つかった区切り文字列までをひとまとまりの「切片」と判断して文字列を分割する（ステップＳ５）。その後、入力文字列の終端に達したか否かを判定し（ステップＳ６）、未照合の入力文字列がまだ存在する場合はステップＳ３へ戻って文字列照合を繰り返す。未照合の入力文字列が存在しない場合（入力文字列の終端に達した場合）は、分割後の文字列を切片リストに保存する（ステップＳ７）。

【0042】

（ユーザ名抽象化処理、ＵＲＬ抽象化処理、絵文字抽象化処理、数値情報抽象化処理）
次いで、抽象化表現リストデータベース２１に格納されている抽象化表現を読み出し（ステップＳ８）、さらに、切片リストデータベース２２から分割後の文字列を読み込み、抽象化表現と照合する（ステップＳ９）。次いで、文字列はあるか否かを判定し（ステップＳ１０）、さらに抽象化表現はあるか否かを判定し（ステップＳ１１）、抽象化表現と一致する文字列があれば、その文字列を抽象化する（ステップＳ１２）。ユーザ名抽象化ステップ、ＵＲＬ抽象化ステップ、絵文字抽象化ステップ、数値情報抽象化ステップは抽象化表現リストデータベース２１を参照する。この抽象化表現リストデータベース２１には、例えば、メールアドレスやユーザ名を「@mailaddress」や「@user」、金銭情報を「@money」、絵文字を「@pict」といった特定の抽象化文字列に変換するための対応情報が格納されている。以上の抽象化処理によって、例えば、「gta@gmail.com」というメールアドレスは、「@mailaddress」という文字列に変換され、「http://www.homepage.jp」という文字列は「@url」という文字列に、「12万8000円」は「@money」に、絵文字は「@pict」という文字列に変換される。その後、分割文字列の終端に達したか否かを判定し（ステップＳ１３）、未照合の入力文字列がまだ存在する場合はステップＳ９へ戻って照合を繰り返す。未照合の入力文字列が存在しない場合（文字列の終端に達した）場合は、次の文字列を読み込んで処理を繰り返す。

【0043】

（単語区切り処理）
抽象化処理が終わった対象文字列に対して、形態素解析又はｎ－ｇｒａｍ解析を適用して単語分割を行う（ステップＳ１４）。これにより単語列が得られる。例えば、「一次リーグ戦が始まりました。」という文字列からは「一次、リーグ戦、が、始まり、まし、た、。」という単語列が得られる。

【0044】

（出現頻度計算処理）
次いで、得られた単語をカウントして出現頻度を記憶する（ステップＳ１５）。

【0045】

（文末表現判定処理）
次いで、区切り文字リストデータベース２０から文末表現のリストを読み出し（ステップＳ１６）、読み出した文末表現と単語列とを照合する（ステップＳ１７）。文末表現と一致した単語列には対応する属性を関連付ける（ステップＳ１８）。

【0046】

（切片リスト生成処理）
その後、一連の処理結果として得られた単語列と属性情報を切片リストに保存する（ステップＳ１９）。分割後文字列がまだ存在する場合は、ステップＳ９へ戻って、処理を繰り返し、ステップＳ１０において、分割後文字列が存在しないと判定した場合はこの処理を終了する。

【0047】

情報トリアージ部
図５は情報トリアージ部１３の具体的構成を示しており、図６は情報トリアージ部１３の動作を説明している。この情報トリアージ部１３では、「情報の正確性」に着目して情報分類を行う。即ち、対象とする情報を１次情報（直接得た情報）、２次情報（関節的に得た情報）、１．５次情報（考えや立場を示す情報）、３次情報（関連のない情報）に分類する。具体的には、１次情報、２次情報、１．５次情報、３次情報それぞれについて、正例と負例にラベル付けした情報を用意し、これを訓練データとした機械学習による分類器（例えばサポート・ベクター・マシンのような分類モデル）を作成する。サポート・ベクター・マシンの代わりに畳み込みニューラルネットワークを用いることも可能である。なお、「情報の正確性」に着目した情報分類法については、下記の文献に詳細に記載されている。
Yuuto Fukushima, Fumito Masui, Michal Ptaszynski, Yoko Nakajima, Keisuke Watanabe, Ryotaro Kawaishi, Taisei Nitta and Ryoya Sato: Macroanalysis of Microblogs: An Empirical Study of Communication Strategies on Twitter, In Proceedings of AAAI2014 Spring Symposum, pp.2-9, 2014.03, Palo Alto, USA.

【0048】

入力として与えられた情報（切片化された情報）に対して学習済みの判別モデルを適用し、１次情報、２次情報、１．５次情報、及び３次情報のいずれかに判定する。このタスク部は、トピッククラスタリングの精緻化やディンメンションやプロパティの決定処理、ラベル推定の補助処理として実行する。図５に示すように、情報トリアージ部１３は、切片リスト展開手段１３ａ、出現頻度展開手段１３ｂ、正確性判定手段１３ｃ、１次情報判定手段１３ｄ、２次情報判定手段１３ｅ、１．５次情報判定手段１３ｆ、３次情報判定手段１３ｇ、及び切片リストデータベース２２を備えている。

【0049】

以下、図５及び図６を参照して、情報トリアージ部１３の動作を詳しく説明する。

【0050】

（切片リスト展開処理、出現頻度展開処理）
情報トリアージ部１３は、まず、切片リストデータベース２２に格納されている情報を読み込む（ステップＳ２０）。具体的には、文分割・単語分割部１２の処理結果として格納されている切片集合情報を読み出す。この情報には、それぞれの切片について、その構成単語に関する情報（表層文字列、品詞、出現頻度）が記録されている。次いで、読み込む切片集合情報が存在するかどうかを判定し（ステップＳ２１）、存在しない場合はこの情報トリアージ部１３の処理を終了する。即ち、読み込む切片情報が無くなるまで、ステップＳ２０～ステップＳ３０の処理を繰り返す。

【0051】

（正確性判定処理）
切片集合情報が存在する場合は、得られた切片集合情報を、あらかじめ作成した正確性分類器に適用し、正確性を判定する（ステップＳ２２）。その結果、各切片情報が１次情報、２次情報、１．５次情報、又は３次情報のいずれかに分類される。

【0052】

（１次情報判定処理）
１次情報は、体験的事実、個別的事実、又は普遍的事実に関するものであり、書き手が自分で見たり、聞いたり、感じたりした事情について記載した情報である。例えば、表２に示すように、「コロナで試合ができなかったのでまとめてやる大会でした。」、「北見でカーリング見学」、「工大から道路を挟んで右手に見える白い建物がアルゴグラフィックス北見カーリングホールです。」といったものである。１次情報か否かを判定し（ステップＳ２３）、１次情報と判定された切片には、１次情報の属性情報を付加する（ステップＳ２４）。

【0053】

（２次情報判定処理）
２次情報は、意見、感情表現、意思表示、又は呼びかけに関するものであり、書き手が間接的に入手した事象について記載した情報である。例えば、「新しいカーリングホールイイね」、「皆がんばれ～～」、「カーリングホールでカーリング体験したいです。」、「おススメです。」といったものである。２次情報か否かを判定し（ステップＳ２５）、２次情報と判定された切片には、２次情報の属性情報を付加する（ステップＳ２６）。

【0054】

（１．５次情報判定処理）
１．５次情報は、ＵＲＬ付きツイート、又は伝聞推定表現に関するものであり、書き手の考えや意見について記載した情報である。例えば、「1677452969759_0.html」、「なんか（有名人が）新しいカーリングホールに来たらしいで」といったものである。１．５次情報か否かを判定し（ステップＳ２７）、１．５次情報と判定された切片には、１．５次情報の属性情報を付加する（ステップＳ２８）。

【0055】

（３次情報判定処理）
３次情報は、上記のいずれにも分類されなかったその他の情報（ノイズ）である。例えば、「地域情報サイトの総まとめ」といったものである。３次情報か否かを判定し（ステップＳ２９）、３次情報と判定された切片には、３次情報の属性情報を付加し（ステップＳ３０）、ステップＳ２０へ戻る。３次情報ではないと判定した場合は、その切片情報を記憶してステップＳ２０へ戻る。これにより、図６の処理は読み込む切片情報が無くなるまで繰り返される。読み込む切片情報が無くなると、属性情報が付与された切片情報が切片リストＤＢ２２に保存され、処理が終了する。

【表2】

【0056】

トピック抽出部
図７はトピック抽出部１４の具体的構成を示しており、図８はこのトピック抽出部１４の動作を説明しており、図９はトピックモデルにおけるトピックと、単語と、文書との関連を説明している。トピック抽出部１４は、文分割・単語分割部１２によって切片化された情報（パラメータが付与された切片情報）に対して、トピックモデルを用いたトピック生成を行うように構成されている。トピックモデルは、単語の相互共起性をトピックとして扱うことで意味のまとまりを表現するものであり、切片群に基づいて作られる単語ベクトル空間を次元圧縮し、ベクトル情報をより低次元の潜在的トピックベクトル空間へ射影して分散表現を得る。ここで、分散表現とは複数の成分要素を持って概念を表現したものをいう。上記のような操作の結果、図９に示すように、対象とする単語がそれぞれのトピックに帰属する確率がわかる。即ち、それぞれの文書がどのトピックと関連が強いかがわかる。このトピック抽出部１４は、切片リスト展開手段１４ａ、出現頻度展開手段１４ｂ、分散表現生成手段１４ｃ、トピック帰属確率計算手段１４ｄ、トピッククラスタリング手段１４ｅ、ノイズ判定手段１４ｆ、トピックリスト生成手段１４ｇ、切片リストデータベース２２、及びトピックリストデータベース２３を備えている。

【0057】

トピック抽出部１４は、潜在的ディリクレ配分法（ＬＤＡ）によってトピック生成を行うように構成されている。

【0058】

以下、図７及び図８を参照して、トピック抽出部１４の動作を詳しく説明する。

【0059】

（切片リスト展開処理）
トピック抽出部１４は、まず、切片リストデータベース２２に格納されている情報を読み込む（ステップＳ４０）。具体的には、情報トリアージ部１３の結果として格納されているトリアージ情報を読み込む。この情報には、それぞれの切片が１次情報、１．５次情報、２次情報、及び３次情報のいずれであるかが記録されている。次に、切片の構成単語と出現頻度を読み込む（ステップＳ４１）。次いで、切片集合情報がまだ存在するか否かを判定することにより（ステップＳ４２）、切片集合情報が存在するまでこの読み込みを行う。次いで、読み込んだ切片集合情報に対応するトリアージ情報を照合し、その切片集合情報が３次情報であるか否かを判定する（ステップＳ４３）。３次情報でなければ次の切片集合情報を読み込み、３次情報であればその切片集合情報を記憶する。

【0060】

（分散表現生成処理）
その後、記憶した切片集合情報を構成する単語（形態素）数をカウントし（ステップＳ４４）、次いで、あらかじめユーザによって指定されたトピック数kを設定する（ステップＳ４５）。次いで、記憶した切片集合情報に対して潜在的ディリクレ配分法（ＬＤＡ）を適用する（ステップＳ４６）。このＬＤＡでは、多項分布とディリクレ分布により、トピックに対応したデータが生成されていると仮定する。例えば、「カーリング」をトピックとして持つ切片は「ストーン」や「アイス」といった単語から構成されていると考え、この関係を多項分布とディリクレ分布によって表現し、分散表現として切片データを生成する。切片データの生成は以下の処理を行うことにより実現できる。
（１）切片のトピック割合をディリクレ分布から生成する処理、
（２）各トピックの単語選択確率をディリクレ分布から生成する処理、
（３）切片の単語数と処理（１）の結果をパラメータとした多項分布から、トピック毎の単語数を生成する処理、
（４）処理（２）及び処理（３）から、各単語の使用回数を生成する処理を行うことで、各単語がトピックに帰属する確率が得られ、切片データと等価なデータが得られる。

【0061】

具体的には、切片を構成単語の集合として表現する。記憶した切片集合のトピックがk個である場合、切片sがn_s個の単語w_iで構成される場合を考える。切片データを生成するために、あらかじめ決定されているトピックkに対して、M種類の単語からトピックに属する単語を選択する。この操作によって選択されたn_s個の単語は、単語の生起確率φ_kをパラメータとした多項分布によって表現できる。トピックが持つ単語数は、選択された単語数n_sと切片が持つトピック割合θ_sをパラメータとした多項分布によって表現できる。この説明で用いられる記号の意味は以下の通りである。
α：切片のトピック割合を生成するディリクレ分布のパラメータ、
θ_s：切片sに各トピックkが属する確率を示すベクトル、
z_s、k：切片sが属するトピックkの単語数、
β：トピックの単語生成確率を生成するディリクレ分布のパラメータ、
φ_k：各トピックでの単語w_iが生成される確率を示すベクトル、
x_d、i：切片sに登場する単語w_iの個数。

【0062】

次に、多項分布とディリクレ分布について説明する。
多項分布は、M種類の値から１つを選択する試行をn_s回繰り返したときに、M種類の値がそれぞれ出現する回数を示すベクトルの分布である。このとき、パラメータは、試行回数n_sとM種類の値がそれぞれ出現する確率pである。例えば、x_iは単語iを追加した個数、p_iはM種類の単語から単語iを選択する確率である。
確率変数X = (x₁、 …、 x_M)がn_sとp =(p₁、…、p_M) をパラメータとする多項分布に従うとき、確率質量関数 f (x₁、 …、 x_M; n、p₁、…、p_M) は以下のようになる。

【数1】

多項分布では、それぞれの値が決まる確率と試行回数がパラメータになっている。そこで、それぞれの値が決まる確率をディリクレ分布によって決定する。
ディリクレ分布は、成分の和が１になる長さNのベクトルの集合が持つ確率分布であり、パラメータは長さNのベクトルである。例えば、x₁は任意の切片の中でトピック１の単語が出現する確率である。
確率変数X = (x₁、 …、 x_M)がn_sとp = (p₁、…、p_M) をパラメータとするディリクレ分布に従うとき、確率質量関数 g(X; α) は以下のようになる。

【数2】

上式からわかるように、ディリクレ分布の実現値からは成分の和が1となるベクトルが得られるので、このベクトルを多項分布のパラメータpとする。

【0063】

（トピッククラスタリング処理）
設定したk個のトピック毎に、得られた切片の帰属確率を対応付け、トピック別クラスターを作成する。次いで、得られた各トピックそれぞれに対してコヒーレンスを計算する（ステップＳ４７）。コヒーレンスとはトピックの抽象度を表す指標であり、トピックの頻出単語が切片中で共起する傾向が強ければ強いほど類似する単語であると仮定する。なお、単語間の類似性は、対数条件付き確率（ＬＣＰ）を用いて表現する。
トピックtに対して出現頻度の高いM個の単語集合を

【数3】

単語が出現する文書数を

【数4】

単語が共起する文書数を

【数5】

とすると、コヒーレンスは以下のように計算できる。

【数6】

ただし、ここでは、MimnoらによるUmass-Coherenceを用いている。

【0064】

（ノイズ判定処理）
トピック毎に計算したコヒーレンス値をあらかじめ設定した閾値と比較し、閾値より小さければ、対象トピックに属する切片集合を削除する（ステップＳ４８）。次いで、トピック数が減ったか否かを判定することにより（ステップＳ４９）、対象としたトピック群をまとめてトピック判定処理を再度適用し、閾値より小さなコヒーレンスのトピックが無くなるまで処理を繰り返す。

【0065】

（トピックリスト生成処理）
最終的に得られたトピックと関連する切片データをトピックリストに保存し、処理を終了する。なお、ＬＤＡについては、下記の文献に詳細に記載されている。
Blei、D.M., Ng、 A.Y. and Jordan, M.I.: Latent Dirichlet Allocation, Journal of Machine Learning Research, 3, pp.993 1022(2003)

【0066】

ラベル推定部
図１０はラベル推定部１５の具体的構成を示しており、図１１はこのラベル推定部１５の動作を説明している。ラベル推定部１５は、各トピックの抽象度を算出し、抽象度が高いトピックに対してＬＤＡによってトピック生成を行うことを繰り返してトピック分類を最適化し、トピック毎にラベルを付与する。即ち、ラベル推定部１５は、入力された情報（トピック毎に分類された切片情報）に対してトピック毎のプロパティとディメンションのラベルを導出する。まず、得られたトピック群それぞれに属する切片群を参照し、同一のトピックに属する切片同士の類似性を判定すると共に、設定した閾値以上の類似度を持つ切片グループを抽出する。さらに、同じグループ内の切片構成文字列の包含関係を判定し、最も多くの切片を包含する切片をプロパティとして抽出し、各プロパティに包含される切片をディメンションとして抽出する。このラベル推定部１５は、図１０に示すように、切片リスト展開手段１５ａ、出現頻度展開手段１５ｂ、トピックリスト展開手段１５ｃ、類似度判定手段１５ｄ、包含関係判定手段１５ｅ、プロパティ抽出手段１５ｆ、ディメンション抽出手段１５ｇ、トピックラベル決定手段１５ｈ、ラベル生成手段１５ｉ、切片リストデータべース２２、トピックリストデータべース２３、推定用テンプレートデータべース２４、及びラベルリストデータべース２５を備えている。切片リスト展開手段１５ａは切片リストデータべース２２を参照し、トピックリスト展開手段１５ｃはトピックリストデータベース２３を参照する。トピックラベル決定手段１５ｈは推定用テンプレートデータベース２４を参照する。さらに、プロパティ抽出手段１５ｆ、ディメンション抽出手段１５ｇは、処理の結果を切片リストデータベース２２に追加保存し、ラベル生成手段１５ｉは生成したラベルをラベルリストデータべース２５に保存する。

【0067】

以下、図１０及び図１１を参照して、ラベル推定部１５の動作を詳しく説明する。

【0068】

ラベル推定部１５は、まず、切片リストデータベース２２から切片情報を読み込み（ステップＳ５０）、トピックリストデータベース２３からトピック情報を読み込んで（ステップＳ５１）、トピック毎に分類された切片情報を得る。その後、このトピック毎に分類された切片情報に対してトピック毎のラベルを導出する。入力された情報（パラメータが付与された切片情報）、プロパティ、ディメンションを各切片に基づいて導出する。まず、得られた切片群を類似したグループ単位にまとめ、得られたグループ毎にトピックを決定する。これらのグループを特徴付けるものからディメンションを決定し、ディメンションを抽象化したものがプロパティとなる。

【0069】

以下、この処理工程を詳しく説明する。

【0070】

（切片リスト展開処理）、（出現頻度展開処理）、（トピックリスト展開処理）
ラベル推定部１５は、まず、切片リストに格納された情報とトピックリストに格納された情報を読み出す。具体的には、情報トリアージ部１３の結果として格納されている切片情報と、トピック抽出部１４の結果として格納されているトピック情報と、各トピックに関連する切片のデータを読み出す。切片情報には、それぞれの切片について、その構成単語に関する情報（文字列、品詞、出現頻度）と１次情報、１．５次情報、２次情報、３次情報のいずれであるかが記録されている。トピックと関連する切片データには、それぞれの切片がどのトピックに属するかが記録されている。

【0071】

（類似度判定処理）、（包含関係判定処理）
次いで、ラベル推定部１５は、トピックリストから読み出された情報からトピックをひとつ（T_k）選択する（ステップＳ５２）。次いで、選択したトピックに属する切片を抽出する（ステップＳ５３）。即ち、選択したトピックに属する切片の切片情報を参照し、切片リストを参照して各切片のトピック帰属確率と構成単語情報を確認する。このとき、トピックに属する各切片のsuffixリスト（サフィックスリスト）を作成する（ステップＳ５４）。

【0072】

サフィックスリストとは、テキスト（文字列）における、各構成文字から文字列終端までの部分文字列（サフィックス）の集合である。このサフィックスリストは以下の手順で作成する。
１．切片を構成する単語を全て繋げてテキストを生成する。
２．テキストを参照する。
３．現在の文字が終端記号（行末）でなければ、テキスト中の左端の文字を読み込む。
４．現在の文字が終端記号（行末）であれば、次の切片情報を読み込む。
５．文字メモリに記憶された一つ前に参照した文字を参照する。
６．参照した文字が数字でかつ現在の文字も数字である場合は、一つの文字列として統合し、上述の２．の処理へ進む。
７．参照した文字が数字で現在の文字が数字でない場合は、文字メモリへ文字を記憶し、現在の文字を削除した後に文字列をサフィックスメモリに追加する、追加したデータの位置情報も付与しておく。
８．参照した文字が数字でない場合は、文字メモリへ文字を記憶し、現在の文字を削除した後、データをサフィックスアレイデータベース（図示無し）に追加する。ＲＤＢ中のデータ位置情報も付与しておく。
９．行末でなければ、切片情報を読み込む。
１０．行末まで処理した場合、サフィックスアレイデータベース中の文字列を先頭文字で整列して処理を終了する。
１１．行末であれば処理を終了する。

【0073】

表３は、切片と切片を構成する文字列の例を示している。例えば、「フォームを真っ直ぐ安定させることが難しい」という切片の構成単語は、｛フォーム、真っ直ぐ、安定、こと、難しい｝なので、生成されるテキストは「フォーム真っ直ぐ安定こと難しい」となる。

【表3】

【0074】

表４～表６は、切片構成文字列に基づいて生成したｎ－ｇｒａｍ作成例をそれぞれ示している。

【表4】

【0075】

【表5】

【0076】

【表6】

【0077】

表７～表８は、これらのデータを結合したｎ－ｇｒａｍリストを示しており、それぞれの文字列をデータベースの配列構造に格納したものがサフィックスアレイとなる。

【表7】

【0078】

【表8】

表８は表７の続きである。

【0079】

表９～表１１は、前述した手順１０において、先頭文字で整列したデータの例を示している。これらの表９～表１１において、右端のカラムはサフィックスの先頭から抽出した共通文字列であり、その左隣のカラムにそれらの出現頻度が表示されている。

【表9】

【0080】

【表10】

【0081】

【表11】

表１０は表９の続きであり、表１１は表１０の続きである。

【0082】

作成した文字列は階層関係を持つので包含関係にある。しかし、最長文字列で代表すると冗長性が発生するので、これを回避するために各文字列の出現頻度比を利用したアダプテーション法と最長一致法を用いて、以下の手順のような絞り込みを行う。
１）文字列クラスメモリから文字列クラスを読み込む。読み込んだ文字列クラスSiの頻度をSi (0 ≦ I ≦ Li) とする。ただし、Lは文字列の種類数とする。
２）文字列クラスのスパースネスの排除を行う。頻度がSj < α（αは閾値）であるならば、対象の文字列クラスを削除する。
３）参照済み文字列クラスメモリから、直前に読み込んだ文字列クラスを参照して比較し、２つの文字列クラスが文字列上の包含関係にあるかどうかを判定する。もし、Si ≧ α かつ Si ⊃ Sj (0 ≦ j ≦ L-1)であるならば、Siは独立クラスと判断する。
４）２つの文字列クラスが包含関係にあると判断された場合、両者の出現頻度に基づいて頻度比を計算する。
５）頻度比があらかじめ設定した閾値より小さい場合

【数7】

比較対象の文字列クラスは同一プロパティに属すると判断し、最長一致法によるクラス圧縮を行う。ここで、

【数8】

の場合、現在読み込んでいる文字列クラスは参照済文字列クラスの部分文字列であると判断して削除する。

【数9】

の場合、参照済文字列クラスは現在読み込んでいる文字列クラスの部分文字列であると判断して、参照済文字列クラスを削除する。
６）頻度比があらかじめ設定した閾値以上である場合

【数10】

読み込んだ文字列クラスは独立したプロパティに属すると判断して登録する。

【0083】

ステップＳ５４においてサフィックスリストを作成した後、i=1に初期設定し（ステップＳ５５）、リストから、suffix(Si)を選択する（ステップＳ５６）。次いで、j=1に初期設定し（ステップＳ５７）、リストから、次のsuffix(Si+j)を選択する（ステップＳ５８）。これにより選択したsuffix(Si)とsuffix(Si+j)との類似度を計算し（ステップＳ５９）、類似度が閾値以上であるか否かを判定する（ステップＳ６０）。類似度が閾値以上ではない場合（ＮＯの場合）、jをインクリメントし（ステップＳ６１）、ステップＳ５８～ステップＳ６０の処理を繰り返す。類似度が閾値以上である場合（ＹＥＳの場合）、suffix(Si+j)をサフィックスリストから削除する（ステップＳ６２）。次いで、削除リストを作成し（ステップＳ６３）、リストの末尾のsuffixであるか否かを判定する（ステップＳ６４）。リストの末尾ではない場合（ＮＯの場合）、jをインクリメントし（ステップＳ６１）、ステップＳ５８～ステップＳ６４の処理を繰り返す。リストの末尾である場合（ＹＥＳの場合）、i=jであるか否かを判定する（ステップＳ６５）。i=jではない場合（ＮＯの場合）、jをインクリメントし（ステップＳ６６）、ステップＳ５６～ステップＳ６５の処理を繰り返す。i=jである場合（ＹＥＳの場合）、未選択のトピックはないか否かを判定する（ステップＳ６７）。

【0084】

下記の表１２～表１４は、上述の手順２）によって文字列クラスのスパースネスを排除するサフィックスリストを示している。図の最も右側のカラムには、抽出した文字クラスのうち、削除するヒューリスティックスが示されている。また、表１５～表１６は、スパースネスが排除された結果を示している。さらに、表１７は、手順３）～手順６）による包含関係の判断により、文字列クラスの圧縮が完了した状態のサフィックスリストを示している。

【0085】

【表12】

【0086】

【表13】

表１３は表１２の続きである。

【0087】

【表14】

表１４は表１３の続きである。

【0088】

【表15】

【0089】

【表16】

表１６は表１５の続きである。

【0090】

【表17】

【0091】

（プロパティ付与処理）、（ディメンション付与処理）
以上の処理により、トピック別に包含関係を持つ切片が整理された文字列リストが得られる。トピック毎に、最も合計出現頻度が高い文字列リストに対応する切片を抽出し、プロパティとして保存する。表１８は、サフィックスリストにおいて、文字列クラスとプロパティが関連付けられた結果を示している。表１９は、プロパティが決定した状態を示している。表２０は、プロパティ文字列で整列した切片リストの例である。

【0092】

具体的には、ステップＳ６７において、未選択のトピックがあると判定した場合（ＮＯの場合）、プロパティリストを作成し（ステップＳ６８）、削除リストにおける類似度に応じてディメンションリストを作成する（ステップＳ６９）。その後、ステップＳ５２～ステップＳ６７の処理を繰り返す。

【0093】

【表18】

【0094】

【表19】

【0095】

【表20】

【0096】

（トピックラベル決定処理）、（ラベル付与処理）
推定用テンプレートからラベルテンプレートを読み出す。まず、プロパティ群を対象として、用意されたベースラベルとプロパティを構成する文字列との関連度を計算する。関連度が閾値を超える場合は、そのプロパティとカテゴリとを関連付ける。この処理を関連付ける対象がなくなるまで処理を繰り返す。次いで、関連付けられたプロパティを参照し、各プロパティを最も関連度の高いベースラベルに属すると判断する。ベースラベルにプロパティ文字列を代入してラベルを生成する。最後に、生成したラベルをラベルリストに保存して処理を終了する。即ち、トピック抽出の結果として得られたトピックに属するプロパティ集合が選ばれ、これがラベルとされる。例えば、あるトピックに属するプロパティとして「フリーズ、フロントストーン、安定」が得られたとすると、これがトピックラベルとされる。より可読性の高いラベルが必要な場合、これらラベルを人間が参照、解釈して、「ショットについて」といったラベルを付与しても良い。最後に、生成したラベルをラベルリストに保存して処理を終了する。ラベルリストには、切片番号、プロパティ情報、及びカテゴリ情報が保存される。

【0097】

具体的には、ステップＳ６７において、未選択のトピックがないと判定した場合（ＹＥＳの場合）、プロパティリストのエントリをラベルテンプレートと照合し（ステップＳ７０）、ラベルリストを作成する（ステップＳ７１）。

【0098】

以上詳細に説明したように、本実施形態によれば、ＧＴＡによる分析を原問題（メインタスク）とみなし、これをより具体的な小問題（サブタスク）に分割することで各問題をより具体化し、これらを解く手段をそれぞれ実現している。ＧＴＡの分析プロセスのうち、特にオープンコーディングを複数のサブタスクに分割し、これらのタスクに対応する、文分割・単語分割部１２、トピック抽出部１４、及びラベル推定部１５を設け、ラベルを推定している。このように、オープンコーディングのラベル推定部１５によって、ラベルが推定されるので、次のアキシャルコーディングにおいては、付与されたラベルのうち類似したラベルがまとめられて、カテゴリを決定することができ、カテゴリが決定されると、類似したトピックでかつ類似した文構造が、区別整理される。即ち、次の処理を進めるための部品群が整理された状態となる。その結果、分析処理を効率良く、自動化することができる。

【0099】

図１２は本実施形態のデータ分析装置の一適用例を示している。

【0100】

この適用例は、本実施形態のデータ分析装置が質的分析を自動的に行うことにより、自治体による地域サービスを向上させるものである。まず、地域サービス利用者や地域住民による、ＳＮＳへの投稿又は投書箱への意見（電子化したもの）から、地域公共サービスに関連する意見を収集し、収集した意見について、本実施形態のデータ分析装置が自動的な質的分析を行い、その分析結果を提供された自治体が分析結果の確認及び考察を行うことにより、地域サービス利用者や地域住民への地域サービスを向上させるものである。

【0101】

図１３は本実施形態のデータ分析装置の他の適用例を示している。

【0102】

この適用例は、図１２の適用例をさらに定量的分析と組み合わせたものである。地域サービス利用者や地域住民による、ＳＮＳへの投稿又は投書箱への意見（電子化したもの）から、地域公共サービスに関連する意見を収集し、収集した意見について、本実施形態のデータ分析装置が自動的な質的分析を行い、その分析結果を提供された自治体が分析結果の確認及び考察を行うことにより、地域サービス利用者や地域住民への地域サービスを向上させる。一方、データ分析装置による質的分析の分析結果及び意見情報を継続的に蓄積し、十分なデータ規模が確保できた段階で、それらのデータに対して量的分析法を適用するものである。これにより、質的分析法による分析結果に加えて、量的分析結果を得ることが可能となる。

【0103】

以上述べた実施形態は全て本発明を例示的に示すものであって限定的に示すものではなく、本発明は他の種々の変形態様及び変更態様で実施することができる。従って本発明の範囲は特許請求の範囲及びその均等範囲によってのみ規定されるものである。

【符号の説明】

【0104】

１０サーバ
１１ＳＮＳ投稿文収集部
１２文分割・単語分割部
１２１文分割部
１２２単語分割部
１２ａ文末区切り手段
１２ｂユーザ名抽象化手段
１２ｃＵＲＬ抽象化手段
１２ｄ絵文字抽象化手段
１２ｅ数値情報抽象化手段
１２ｆ単語区切り手段
１２ｇ出現頻度計算手段
１２ｈ文末表現判定手段
１２ｉ切片リスト生成手段
１３情報トリアージ部
１３ａ、１４ａ、１５ａ切片リスト展開手段
１３ｂ、１４ｂ、１５ｂ出現頻度展開手段
１３ｃ正確性判定手段
１３ｄ１次情報判定手段
１３ｅ２次情報判定手段
１３ｆ１．５次情報判定手段
１３ｇ３次情報判定手段
１４トピック抽出部
１４ｃ分散表現生成手段
１４ｄトピック帰属確率計算手段
１４ｅトピッククラスタリング手段
１４ｆノイズ判定手段
１４ｇトピックリスト生成手段
１５ラベル推定部
１５ｃ、１６ｂトピックリスト展開手段
１５ｄ類似度判定手段
１５ｅ包含関係判定手段
１５ｆプロパティ抽出手段
１５ｇディメンジョン抽出手段
１５ｈトピックラベル決定手段
１５ｉラベル生成手段
１６処理統括部
２０区切り文字リストデータベース
２１抽象化表現リストデータベース
２２切片リストデータベース
２３トピックリストデータベース
２４推定用テンプレートデータベース
２５ラベルリストデータベース

【図1】