特開2017-187898(P2017-187898A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧 ▶ 東芝ソリューション株式会社の特許一覧

特開2017-187898情報処理装置、情報処理方法およびプログラム
<>
  • 特開2017187898-情報処理装置、情報処理方法およびプログラム 図000003
  • 特開2017187898-情報処理装置、情報処理方法およびプログラム 図000004
  • 特開2017187898-情報処理装置、情報処理方法およびプログラム 図000005
  • 特開2017187898-情報処理装置、情報処理方法およびプログラム 図000006
  • 特開2017187898-情報処理装置、情報処理方法およびプログラム 図000007
  • 特開2017187898-情報処理装置、情報処理方法およびプログラム 図000008
  • 特開2017187898-情報処理装置、情報処理方法およびプログラム 図000009
  • 特開2017187898-情報処理装置、情報処理方法およびプログラム 図000010
  • 特開2017187898-情報処理装置、情報処理方法およびプログラム 図000011
  • 特開2017187898-情報処理装置、情報処理方法およびプログラム 図000012
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2017-187898(P2017-187898A)
(43)【公開日】2017年10月12日
(54)【発明の名称】情報処理装置、情報処理方法およびプログラム
(51)【国際特許分類】
   G06F 17/30 20060101AFI20170919BHJP
【FI】
   G06F17/30 210D
   G06F17/30 170A
   G06F17/30 180A
【審査請求】未請求
【請求項の数】9
【出願形態】OL
【全頁数】14
(21)【出願番号】特願2016-75373(P2016-75373)
(22)【出願日】2016年4月4日
(71)【出願人】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(71)【出願人】
【識別番号】301063496
【氏名又は名称】東芝デジタルソリューションズ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】特許業務法人酒井国際特許事務所
(72)【発明者】
【氏名】真鍋 俊彦
(57)【要約】
【課題】幅広いテキスト分析に適用可能な単語ベースの階層構造を生成して提示できる情報処理装置、情報処理方法およびプログラムを提供する。
【解決手段】実施形態の情報処理装置10は、文書情報を単語に分解する自然文解析部11と、分解された単語の少なくとも一部を、単語本体に対して当該単語と同一文内の修飾表現に基づく修飾情報を付加した単語表現に変換する単語整形部12と、複数の要素間の階層関係を表す階層構造であって、前記複数の要素の少なくとも一部に前記単語表現に変換された単語が含まれる階層構造を生成する階層構造生成部14と、階層構造を提示する階層構造提示部15と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
文書情報を単語に分解する解析手段と、
分解された単語の少なくとも一部を、単語本体に対して当該単語と同一文内の修飾表現に基づく修飾情報を付加した単語表現に変換する単語整形手段と、
複数の要素間の階層関係を表す階層構造であって、前記複数の要素の少なくとも一部に前記単語表現に変換された単語が含まれる階層構造を生成する生成手段と、
前記階層構造を提示する提示手段と、を備える情報処理装置。
【請求項2】
前記階層構造の要素となる単語の少なくとも一部について、当該単語を意味に基づいて分類したときに当該単語が属するカテゴリを示す意味カテゴリを判定する判定手段をさらに備える、請求項1に記載の情報処理装置。
【請求項3】
前記生成手段は、指定された意味カテゴリの要素を指定された階層に配置した前記階層構造を生成する、請求項2に記載の情報処理装置。
【請求項4】
前記提示手段は、指定された意味カテゴリの要素を強調した前記階層構造を提示する、請求項2または3に記載の情報処理装置。
【請求項5】
前記提示手段は、指定された意味カテゴリの要素および当該要素と階層関係にある要素を除く他の要素を消去した前記階層構造を提示する、請求項2または3に記載の情報処理装置。
【請求項6】
前記解析手段は、分解した単語に読みを付与し、
前記生成手段は、同一階層上で意味カテゴリが同一かつ読みが同一の要素を並列に配置した前記階層構造を生成する、請求項2乃至5のいずれか一項に記載の情報処理装置。
【請求項7】
前記生成手段は、同一階層上で意味カテゴリが同一かつ前記単語本体が同じで前記修飾情報のみが異なる前記単語表現の要素を並列に配置した前記階層構造を生成する、請求項2乃至6のいずれか一項に記載の情報処理装置。
【請求項8】
情報処理装置が、
文書情報を単語に分解するステップと、
分解された単語の少なくとも一部を、単語本体に対して当該単語と同一文内の修飾表現に基づく修飾情報を付加した単語表現に変換するステップと、
複数の要素間の階層関係を表す階層構造であって、前記複数の要素の少なくとも一部に前記単語表現に変換された単語が含まれる階層構造を生成するステップと、
前記階層構造を提示するステップと、を含む情報処理方法。
【請求項9】
コンピュータに、
文書情報を単語に分解する機能と、
分解された単語の少なくとも一部を、単語本体に対して当該単語と同一文内の修飾表現に基づく修飾情報を付加した単語表現に変換する機能と、
複数の要素間の階層関係を表す階層構造であって、前記複数の要素の少なくとも一部に前記単語表現に変換された単語が含まれる階層構造を生成する機能と、
前記階層構造を提示する機能と、を実現させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、情報処理装置、情報処理方法およびプログラムに関する。
【背景技術】
【0002】
テキスト分析の手法の一つとして、文書集合から単語を抽出して、抽出した単語の共起関係に基づいて単語の階層構造を生成し、この単語の階層構造に基づき文書を分類するものがある。この手法は、教師データなどの事前準備をすることなく文書を分類・整理できることや、文書同士の類似度計算に基づくクラスタリングに比べて効率的に処理できるなどの利点がある。
【0003】
しかし、従来の単語の階層構造を生成する手法では、名詞あるいは用言(動詞や形容詞など)の語幹部分だけを用いて階層構造を生成している。そのため、文書を客観的な内容で整理する目的には適しているが、文書作成者の判断(容易/困難)や評価(好評/不評)などの情報(活用語尾や文脈)が欠落しており、それらの情報が重要な意味を持つ評判分析やトラブル解析などには適していない。
【0004】
このため、評判分析やトラブル解析などの幅広いテキスト分析に適用できる単語ベースの階層構造を生成し、ユーザに提示できるようにすることが求められている。
【先行技術文献】
【非特許文献】
【0005】
【特許文献1】特許第3665480号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明が解決しようとする課題は、幅広いテキスト分析に適用可能な単語ベースの階層構造を生成して提示できる情報処理装置、情報処理方法およびプログラムを提供することである。
【課題を解決するための手段】
【0007】
実施形態の情報処理装置は、解析手段と、単語整形手段と、生成手段と、提示手段と、を備える。解析手段は、文書情報を単語に分解する。単語整形手段は、分解された単語の少なくとも一部を、単語本体に対して当該単語と同一文内の修飾表現に基づく修飾情報を付加した単語表現に変換する。生成手段は、複数の要素間の階層関係を表す階層構造であって、前記複数の要素の少なくとも一部に前記単語表現に変換された単語が含まれる階層構造を生成する。提示手段は、前記階層構造を提示する。
【図面の簡単な説明】
【0008】
図1図1は、実施形態の情報処理装置の機能的な構成例を示すブロック図である。
図2図2は、単語整形部の内部構成例を示すブロック図である。
図3図3は、意味カテゴリ判定部の内部構成例を示すブロック図である。
図4図4は、階層構造の提示例を示す図である。
図5図5は、階層構造の提示例を示す図である。
図6図6は、階層構造の提示例を示す図である。
図7図7は、実施形態の情報処理装置の処理手順の一例を示すフローチャートである。
図8図8は、第1変形例における階層構造の提示例を示す図である。
図9図9は、第2変形例における階層構造の提示例を示す図である。
図10図10は、実施形態の情報処理装置のハードウェア構成例を示すブロック図である。
【発明を実施するための形態】
【0009】
以下、実施形態の情報処理装置、情報処理およびプログラムを、図面を参照して詳細に説明する。
【0010】
<実施形態の概要>
本実施形態の情報処理装置は、評判分析やトラブル解析などの幅広いテキスト分析に適用できる単語ベースの階層構造を生成し、ユーザに提示するものである。本実施形態では、階層構造の要素(ノード)となる単語の少なくとも一部について、その単語の周辺表現をもとに修飾情報(「−ない」、「−できる」、「−しやすい」など)を単語本体に付加し、現象や評判などを把握できる単語表現に変換することで、文書作成者の判断(容易/困難)や評価(好評/不評)などを階層構造上で把握できるようにする。
【0011】
さらに、本実施形態では、階層構造の要素となる単語の少なくとも一部について意味カテゴリを判定し、提示する階層構造を意味カテゴリに従って制御できるようにする。意味カテゴリとは、単語をその意味に基づいて分類したときに単語が属するカテゴリであり、例えば、「トラブル」、「好評」、「不評」、「要望」などがある。単語の意味カテゴリは語彙辞書を用いて判定できるほか、単語表現に整形された単語の意味カテゴリについては、単語本体に付与された修飾情報に含まれる文字列パターン(修飾表現のパターン)などに基づいて、所定のルールに従って判定することができる。
【0012】
階層構造の要素となる単語の意味カテゴリを判定することにより、例えば、階層構造を構成する各要素のうち、ユーザにより指定された意味カテゴリの要素を強調した階層構造を提示したり、ユーザにより指定された意味カテゴリの要素および当該要素と階層関係にある要素のみを含み、それ以外の他の要素を消去した階層構造を提示したりすることができる。また、ユーザにより指定された意味カテゴリの要素を指定された階層に配置した階層構造を生成して提示することもできる。例えば、「好評」と「不評」の意味カテゴリを持つ単語だけを頂点に配置することで評判分析用の階層構造を生成して提示することができ、また、「トラブル」の意味カテゴリを持つ単語だけを頂点に配置することでトラブル分析用の階層構造を生成して提示することができる。
【0013】
<情報処理装置の構成>
図1は、本実施形態の情報処理装置10の機能的な構成例を示すブロック図である。本実施形態の情報処理装置10は、分析対象となる文書集合Xに基づき、単語表現を含む単語の階層構造を生成して表示装置20に表示させるものであり、例えば図1に示すように、自然文解析部11(解析手段)と、単語整形部12(単語整形手段)と、意味カテゴリ判定部13(判定手段)と、階層構造生成部14(生成手段)と、階層構造提示部15(提示手段)とを備える。
【0014】
自然文解析部11は、文書集合Xに含まれる文書情報を文単位で単語に分解する。自然文解析部11は、例えば公知の形態素解析技術を用いて実現できる。この場合、自然文解析部11は、入力された文書情報を形態素解析により文単位で単語に分解し、個々の単語にあたる形態素とその品詞の組み合わせの系列(以下、この系列を「形態素系列」と呼ぶ)を出力する。このとき、用言については活用語尾を正規化して出力する。例えば、「ブレーキが効かない」という文に対し、「ブレーキ<名詞>/が<助詞>/効く<動詞>/ない<助動詞>」という形態素系列を出力する。なお、本実施形態では自然文を解析することを想定しているが、これに限らず、あらゆる文を対象とすることができる。
【0015】
単語整形部12は、自然文解析部11によって分解された単語の少なくとも一部を単語表現に変換する。ここで単語表現とは、単語本体(用言については活用語尾を正規化したもの)に対して当該単語と同一文内の修飾表現に基づく修飾情報を付加したものであり、その表記から評判や現象などを把握できる単語の表現形式である。また、単語整形部12は、自然文解析部11によって分解された単語のうち、単語表現に変換した単語を含む所定の品詞の単語を抽出(フィルタリング)する。本実施形態では、名詞や形容詞や動詞などの自立語だけを抽出するものとする。
【0016】
図2は、単語整形部12の内部構成例を示すブロック図である。単語整形部12は、例えば図2に示すように、パターン照合部31と、品詞選別部33とを備える。
【0017】
パターン照合部31は、自然文解析部11から入力される形態素系列に対して修飾表現判定ルール32に含まれる整形パターンを用いたパターン照合を行い、整形パターンに当てはまる単語を、その整形パターンに対応する単語表現に変換する。整形パターンに当てはまらない単語については、そのままの形で出力される。上述した形態素系列の具体例においては、「効く<動詞>/ない<助動詞>」は修飾表現「−ない」を付加するパターンと照合できたことにより、パターン照合部31は「効く」という単語本体を「効く−ない」という単語表現に変換する。
【0018】
品詞選別部33は、自然文解析部11によって分解された単語のうち、パターン照合部31で単語表現に変換された単語を含めて、自立語(名詞や形容詞や動詞など)だけを抽出して出力する。上述した「ブレーキ<名詞>/が<助詞>/効く<動詞>/ない<助動詞>」という形態素系列の具体例においては、名詞である「ブレーキ」と、単語表現に変換された動詞である「効く−ない」だけが出力される。
【0019】
ここで、修飾表現判定ルール32の具体例について説明する。修飾表現判定ルール32は、修飾表現に基づく修飾情報を単語本体に付加して単語表現とするための予め定められたルールであり、パターン照合に用いる様々な整形パターンを含む。以下、修飾表現判定ルール32に含まれる整形パターンの例を示す。整形パターンを用いてパターン照合する形態素系列は、用言(動詞や形容詞など)の活用語尾が正規化されており、パターン照合は最長一致で行われる。なお、以下で示す例において、「[*]」は任意の表記を意味し、「<*>」は任意の品詞を意味する。例えば「[*]<動詞>」は、品詞が動詞であれば表記は問わないことを表している。ただし、動詞については「ある」、「なる」、「する」などをストップワードに指定し、これらの動詞は表記を陽に指定したとき以外は照合しないようにしてもよい。また、[X、Y]は表記がX、あるいは、Yを意味する。例えば、[ない、無い]は表記が「ない」と「無い」の両方に照合できる。
【0020】
「[*]−ない」という単語表現に変換する整形パターンの例
[*]<動詞>+[ない、無い]<助動詞> (例:「動かない」→「動く−ない」)
[*]<動詞>+[ます]<助動詞>+[ん]<助動詞> (例:「動きません」→「動く−ない」)
[*]<形容詞>+[ない、無い]<助動詞> (例:「美しくない」→「美しい−ない」)
[*]<形容詞>+[ある]<助動詞>+[ます]<助動詞>+[ん]<助動詞> (例:「美しくありません」→「美しい−ない」)
【0021】
「[*]−できる」または「[*]−できない」という単語表現に変換する整形パターンの例
[*]<動詞>+[こと、事]<*>+[*]<助詞>+[できる、出来る]<*> (例:「動くことができる」→「動く−できる」)
[*]<動詞>+[こと、事]<*>+[*]<助詞>+[できる、出来る]<*>+[ない、無い]<助動詞> (例:「動くことはできない」→「動く−できない」)
[*]<名詞>+[できる、出来る]<動詞>+[ない、無い]<助動詞> (例:「移動できない」→「移動-できない」)
[*]<名詞>+[する]<動詞>+[こと、事]<*>+[*]<助詞>+[できる、出来る]<動詞>+[ない]<助動詞> (例:「移動することができない」→「移動-できない」)
【0022】
「[*]−しやすい」または「[*]−しにくい」という単語表現に変換する整形パターンの例
[*]<名詞>+[する]<動詞>+[やすい、易い]<*> (例:「操作しやすい」→「操作−しやすい」)
[*]<名詞>+[する]<動詞>+[にくい、難い]<*> (例:「操作し難い」→「操作−しにくい」)
[*]<名詞>+[する]<動詞>+[やすい、易い]<*>+[ない、無い]<助動詞> (例:「操作しやすくない」→「操作−しにくい」)
【0023】
なお、以上の整形パターンは、修飾表現判定ルール32に含まれる整形パターンの一例である。修飾表現判定ルール32には、これら以外にも、様々な単語表現に対応して単語をその単語表現に変換するための整形パターンが含まれる。
【0024】
図1に戻り、意味カテゴリ判定部13は、単語整形部12が出力する単語、つまり、単語表現に変換された単語を含む自立語の少なくとも一部について、意味カテゴリを判定する。意味カテゴリの判定には、単語の表記と意味カテゴリの対応関係が記録された語彙辞書に加えて、修飾表現の文字列から意味カテゴリを判定するための意味カテゴリ判定ルールを用いる。意味カテゴリ判定部13は、意味カテゴリが判定できた自立語については判定した意味カテゴリを付与して出力し、意味カテゴリが判定できない自立語についてはそのまま(意味カテゴリを付与せずに)出力する。
【0025】
図3は、意味カテゴリ判定部13の内部構成例を示すブロック図である。意味カテゴリ判定部13は、例えば図3に示すように、表記照合部41と、修飾表現照合部43とを備える。
【0026】
表記照合部41は、単語の表記とその単語の意味カテゴリとの対応関係を記録した語彙辞書42を用いて、単語表現に変換されない自立語の意味カテゴリを、その自立語の表記に基づいて判定する。例えば表記照合部41は、語彙辞書42を参照することにより、「漏れる」という動詞の意味カテゴリを「トラブル」と判定する。
【0027】
修飾表現照合部43は、意味カテゴリ判定ルール44を用いて、単語表現に変換された自立語の意味カテゴリを判定する。意味カテゴリ判定ルール44は、単語表現に含まれる修飾表現の文字列に対するパターン照合により、単語表現に変換された自立語の意味カテゴリを判定するための予め定められたルールである。修飾表現照合部43は、この意味カテゴリ判定ルール44に従って、例えば上述の「効く−ない」の単語表現の意味カテゴリを「トラブル」と判定する。
【0028】
ここで、意味カテゴリ判定ルール44の具体例について説明する。なお、以下で示す例において、「[*1]」は任意の表記を意味し、「[*2]」は任意の0文字以上の修飾表現の文字列を意味し、「<*3>」は任意の品詞を意味する。ただし、「[*1]」については、パターンによって例外規則がある。
【0029】
[*1]−[*2]ない<動詞> → 「トラブル」
ただし、[*1]に当てはまる表記の意味カテゴリが語彙辞書42において「トラブル」あるいは「不評」として登録されていないことが条件となる。
【0030】
[*1]−[*2]ない<形容詞> → 「不評」
ただし、[*1]に当てはまる表記の意味カテゴリが語彙辞書42において「トラブル」あるいは「不評」として登録されている場合は「好評」とする。
【0031】
[*1]−しにくい<*3> → 「不評」
ただし、[*1]に当てはまる表記の意味カテゴリが語彙辞書42において「トラブル」あるいは「不評」として登録されている場合は「好評」とする。
【0032】
[*1]−しやすい<*3> → 「好評」
ただし、[*1]に当てはまる表記の意味カテゴリが語彙辞書42において「トラブル」あるいは「不評」として登録されている場合は「不評」とする。
【0033】
例えば、「効く−ない<動詞>」という品詞付き単語表現はパターン「[*1]−[*2]ない<動詞>」と照合できて意味カテゴリは「トラブル」と判定される。
【0034】
なお、以上のパターンと意味カテゴリとの対応関係は、意味カテゴリ判定ルール44の一例である。意味カテゴリ判定ルール44には、これら以外にも、様々な単語表現に対応して単語表現の意味カテゴリを判定するルールが含まれる。
【0035】
図1に戻り、階層構造生成部14は、意味カテゴリ判定部13の出力、つまり、意味カテゴリが判定されたものにはその意味カテゴリが付与された、単語表現に変換された単語を含む自立語を用いて、単語ベースの階層構造を生成する。この階層構造生成部14が生成する階層構造は、複数の要素間の階層関係を表すものであり、その要素の少なくとも一部に、単語表現に変換された単語が含まれる。この階層構造は、評判や現象などを把握できる単語表現を要素に持つため、好評/不評や容易/困難などを階層構造上で把握することができる。
【0036】
階層構造生成部14は、まず、意味カテゴリ判定部13が出力する単語(単語表現に変換された単語を含む自立語)の中から、階層構造の第1階層(ルート階層)となるルート要素を例えば以下の手順で選定し、階層構造の第1階層を構築する。
【0037】
すなわち、階層構造生成部14は、意味カテゴリ判定部13が出力する単語のうち、分析対象となる文書集合Xにおける出現文書数(当該単語が出現する文書の数)が多いものから一定数の単語をルート要素として選択する。ただし、出現文書数が所定の閾値を超える単語(多頻出語)は、ルート要素として選択しないようにする。また、上位のルート要素(より出現文書数の多いルート要素)と一定割合以上に出現文書が重複する単語はルート要素として選択しないようにしてもよい。階層構造生成部14は、ルート要素として選択した各単語を第1階層に配置して、階層構造の第1階層を構築する。
【0038】
次に、階層構造生成部14は、階層構造の第2階層以降の要素を例えば以下の手順で選定し、第2階層以降を順次構築する。
【0039】
すなわち、構築する階層の階層番号をiとしたときに、階層構造生成部14は、まず、第(i−1)階層の要素となる単語(以下、これを「注目単語」と呼ぶ)ごとに、注目単語およびその祖先となる単語(階層構造上で注目単語からルート要素の単語までの経路中にあるすべての単語)がすべて出現する文書集合Yを、分析対象となる文書集合Xから抽出する。そして、階層構造生成部14は、意味カテゴリ判定部13が出力する単語のうち、文書集合Yに含まれる注目単語以外のすべての単語の中から、注目単語の子要素となる一定数の単語を決定する。
【0040】
ここで、注目単語の子要素を決定する方法の具体例を説明する。注目単語の子要素は、例えば、文書集合Yに含まれる注目単語以外のすべての単語について、注目単語の子と仮定した場合の重みを計算し、算出した重みが大きい方から一定数の単語を注目単語の子要素とするといった方法で決定できる。この重み計算には、例えば下記の参考文献に記載されている「Offer Weight」を利用することができる。この場合、重み(OW)は、下記の式(1)および式(2)により表すことができる。なお、下記の式(1)および式(2)において、nは全文書中での出現文書数(文書集合X中での子の出現文書数)、Nは全文書数(文書集合Xの文書数)、rは親と同時に出現する子の文書数(文書集合Y中の子の出現文書数)、Rは親の出現文書数(文書集合Yの文書数)である。
OW=r×RW ・・・(1)
RW=log[((r+0.5)(N−n−R+r+0.5))/((n−r+0.5)(R−r+0.5))] ・・・(2)
参考文献:Robertson,S.E.,et al.Simple,Proven Approaches to Text Retrieval.University of Cambridge Technical Report.356,12,1994,p.1-8
【0041】
階層構造生成部14は、第(i−1)階層のすべての注目単語について以上の処理を繰り返すことで注目単語ごとに子要素を決定し、子要素に決定した各単語を第i階層に配置するとともに、各単語と注目単語との間をリンクで結び、階層構造の第i階層を構築する。そして、第i階層の構築を所定の階層数まで繰り返すことで、所定の階層数を持つ単語ベースの階層構造を生成する。
【0042】
階層構造提示部15は、階層構造生成部14により生成された階層構造を、例えば表示装置20に表示させることによりユーザに提示する。
【0043】
図4は、階層構造提示部15による階層構造の提示例を示す図である。階層構造提示部15は、例えば図4(a)に示すような階層構造を表示装置20に表示させる。この図4(a)に例示する階層構造において、矩形の枠で囲まれた文字列が階層構造の要素であり、要素の間を繋ぐ線が、要素間の階層関係を示すリンクである。この図4(a)に例示する階層構造では、「ブレーキ」の子要素として「効く−ない」や「パッド」などがあり、「エンジン」の子要素として「燃料」、「再始動−できない」、「漏れる」などがあることが示されている。この例のように、「効く−ない」や「再始動−できない」などの単語表現に変換された単語を要素に含む階層構造が提示されることで、ユーザは、文書作成者の判断(容易/困難)や評価(好評/不評)などを階層構造上で把握することができる。
【0044】
階層構造中の各要素からは対応する文書をハイパーリンクなどの手段により参照できるようにし、詳細な内容を調査できるようにする。例えば、図4(a)の階層構造中の「効く−ない」が選択されると、表示装置20には、図4(b)に示すように、選択された「効く−ない」とその親要素である「ブレーキ」とが同時に出現する文書のタイトル一覧(「ブレーキ∩効く−ない」の文書一覧)が表示される。そして、図4(b)の文書一覧の中で例えば「タイトル1」が選択されると、図4(c)に示すように、「タイトル1」の文書の中身が表示装置20に表示される。
【0045】
なお、図4では2階層の階層構造を例示しているが、階層構造生成部14により生成された階層構造が3階層以上である場合は、階層構造提示部15は、3階層以上の階層構造をユーザに提示する。また、階層構造を構成する要素のうち、意味カテゴリが付加された要素については、その要素の意味カテゴリをユーザが把握できるように提示してもよい。例えば、意味カテゴリが付加された要素の近傍に意味カテゴリを表示するといった方法が利用できる。
【0046】
また、ユーザによる意味カテゴリの指定を受け付けるようにし、階層構造提示部15が、指定された意味カテゴリの要素を強調した階層構造を提示するようにしてもよい。図5は、「トラブル」の意味カテゴリが指定された場合の階層構造の提示例を示す図である。この図5に例示する階層構造では、「トラブル」の意味カテゴリが付与された「効く−ない」、「再始動−できない」および「漏れる」の各要素が、斜字および太字により強調表示されている。
【0047】
また、階層構造提示部15は、指定された意味カテゴリの要素を強調した階層構造を提示する代わりに、指定された意味カテゴリの要素とその要素に対して階層関係にある要素のみからなり、他の要素を消去した階層構造を提示するようにしてもよい。図6は、「トラブル」の意味カテゴリが指定された場合の階層構造の提示例を示す図である。この図6に例示する階層構造は、「トラブル」の意味カテゴリが付与された「効く−ない」とその親要素である「ブレーキ」、「トラブル」の意味カテゴリが付与された「再始動−できない」および「漏れる」とその親要素である「エンジン」のみからなる階層構造となっており、「パッド」や「燃費」などの要素は消去されている。
【0048】
以上のように、ユーザによる意味カテゴリの指定があった場合に、指定された意味カテゴリの要素を強調した階層構造や、指定された意味カテゴリと関連性のない要素を消去した階層構造を提示することにより、ユーザは、所望の意味カテゴリの要素を階層構造上で容易に把握して、詳細な内容の調査を効率よく実施することができる。
【0049】
なお、本実施形態では階層構造をユーザに提示する方法の一例として表示装置20での表示を例示しているが、これに限らない。例えば、生成した階層構造を印刷用紙などの記録媒体に印刷出力することで提示してもよいし、生成した階層構造をファイルとして出力し、外部装置が閲覧できるようにすることで提示してもよい。
【0050】
<情報処理装置の動作>
次に、本実施形態の情報処理装置10の動作の概要について、図7を参照しながら説明する。図7は、実施形態の情報処理装置の処理手順の一例を示すフローチャートである。
【0051】
まず、分析対象となる文書集合Xが情報処理装置10に入力されると、自然文解析部11が、文書集合Xに含まれる自然文を解析して、文単位で単語に分解する(ステップS101)。
【0052】
次に、単語整形部12が、ステップS101で分解された単語のうちの少なくとも一部を、単語本体に修飾情報を付加した単語表現に変換する(ステップS102)。そして、単語整形部12は、ステップS101で分解された単語のうち、ステップS102で単語表現に変換した単語を含めて自立語だけを抽出する(ステップS103)。
【0053】
次に、意味カテゴリ判定部13が、ステップS103で抽出された自立語のうちの少なくとも一部について意味カテゴリを判定し、意味カテゴリが判定された自立語にはその意味カテゴリを付加し、意味カテゴリが判定できない自立語はそのままのかたちで出力する(ステップS104)。
【0054】
次に、階層構造生成部14が、意味カテゴリ判定部13から出力される自立語に基づいて階層構造を生成する。階層構造生成部14は、まず、構築する階層番号を表すiの値を1にセットし(ステップS105)、上述した方法により階層構造の第i階層の構築を行って(ステップS106)、iの値をインクリメント(+1)する(ステップS107)。そして、iの値が階層構造の階層数として予め定めた定数Dを超えたか否かを判定し(ステップS108)、iの値が定数Dを超えていなければ(ステップS108:No)、ステップS106に戻って以降の処理を繰り返す。一方、iの値が定数Dを超えると(ステップS108:Yes)、階層構造生成部14は階層構造の生成を終了する。そして、階層構造提示部15が、生成された階層構造を表示装置20に表示させることによりユーザに提示し(ステップS109)、情報処理装置10による一連の処理が終了する。
【0055】
<実施形態の効果>
以上、具体的な例を挙げながら詳細に説明したように、本実施形態によれば、階層構造の要素となる単語の少なくとも一部を、現象や評判などを把握できる形式の単語表現に変換しているので、評判分析やトラブル解析などを含めた幅広いテキスト分析に適用可能な単語ベースの階層構造を生成して提示することができる。
【0056】
また、本実施形態によれば、単語表現に変換された単語を含めて、階層構造の要素となる単語の少なくとも一部について意味カテゴリを判定しているので、提示する階層構造を意味カテゴリに従って制御することができる。例えば、ユーザにより指定された意味カテゴリの要素を強調した階層構造を提示したり、指定された意味カテゴリと関連性のない要素を消去した階層構造を提示したりすることにより、ユーザは、所望の意味カテゴリの要素を階層構造上で容易に把握して、詳細な内容の調査を効率よく実施することができる。
【0057】
また、単語表現に変換された単語に対する意味カテゴリの判定は、意味カテゴリ判定ルール44に従って、単語表現に含まれる修飾表現の文字列に対するパターン照合により行うようにしているので、語彙辞書42を用いて表記のみから意味カテゴリを判定する場合に比べて、より多くの単語に対し意味カテゴリを付与することができる。
【0058】
<第1変形例>
なお、上述した実施形態の情報処理装置10は、階層構造生成部14が、ユーザにより指定された意味カテゴリの要素を指定された階層に配置した階層構造を生成するように構成してもよい。例えば、指定された意味カテゴリの要素を第1階層(ルート階層)に配置する場合、階層構造生成部14は、ルート要素を決定する際に、まず、意味カテゴリ判定部13が出力する単語のうち、ユーザにより指定された意味カテゴリが付加された単語を選択する。そして、選択した単語のうち、分析対象となる文書集合Xにおける出現文書数が多いものから一定数の単語をルート要素に決定すればよい。なお、第2階層以降の要素は、上述した手順で決定すればよい。
【0059】
図8は、本変形例における階層構造の提示例を示す図であり、意味カテゴリが「トラブル」の要素を第1階層に配置した例を示している。この図8に例示する階層構造のように、ユーザにより指定された意味カテゴリの要素を指定された階層に配置した階層構造をユーザに提示することにより、ユーザは、この階層構造に基づき、意図する視点での分析を容易に行うことができる。また、図8の例のように、子要素に対応付けて、その子要素と親要素とが同時に出現する出現文書数を提示することにより、例えば、トラブルの現象ごとの発生件数や傾向などをユーザが容易に把握できるようになる。
【0060】
<第2変形例>
また、上述した実施形態の情報処理装置10は、同一階層上で意味カテゴリが同一かつ読みが同一の要素や、同一階層上で意味カテゴリが同一かつ単語本体が同じで修飾情報のみが異なる単語表現の要素などを並列に配置した階層構造を生成するように構成してもよい。
【0061】
本変形例では、例えば、上述の自然文解析部11が、文単位で分解した単語に読みを付与する。自然文解析部11は、上述のように公知の形態素解析技術を用いて実現される。公知の形態素解析技術では、形態素辞書中の読み情報に基づいて、個々の単語にあたる形態素に読みを付与することが一般的に行われている。なお、自然文解析部11により文単位で分解された単語に対して読みを付与する構成が別途備わっていてもよい。
【0062】
本変形例では、階層構造生成部14が、階層構造の第2階層以降の要素を上述した手順により決定した後、同一の親要素の子要素について、意味カテゴリが同一かつ読みが同一の要素や意味カテゴリが同一かつ単語本体が同じで修飾情報のみが異なる単語表現の要素を一つにまとめ、これらの要素を並列に配置した階層構造を生成する。
【0063】
図9は、本変形例における階層構造の提示例を示す図であり、「ブレーキ」の子要素として決定された、意味カテゴリが「トラブル」の要素である「効く−ない」、「効く−にくい」、「利く−ない」、「きく−ない」の各要素を並列に配置した例を示している。この図9に例示する階層構造のように、同一階層上で意味カテゴリが同一かつ読みが同一の要素や、同一階層上で意味カテゴリが同一かつ単語本体が同じで修飾情報のみが異なる単語表現の要素などを並列に配置することで、表記ゆれや仮名漢字変換の揺れ/誤りなどを吸収した階層構造をユーザに提示することができる。
【0064】
<補足説明>
本実施形態の情報処理装置10は、例えば、一般的なコンピュータを構成するハードウェアと、コンピュータで実行されるプログラム(ソフトウェア)との協働により実現することができる。例えば、コンピュータが所定のプログラムを実行することによって、上述した自然文解析部11、単語整形部12、意味カテゴリ判定部13、階層構造生成部14および階層構造提示部15を実現することができる。また、コンピュータが備える大容量記憶装置を用いて、上述した修飾表現判定ルール32、語彙辞書42、意味カテゴリ判定ルール44などを保持することができる。なお、修飾表現判定ルール32、語彙辞書42、意味カテゴリ判定ルール44などは、情報処理装置10の外部に保持され、情報処理装置10により適宜参照される構成であってもよい。
【0065】
図10は、本実施形態の情報処理装置10のハードウェア構成例を示すブロック図である。情報処理装置10は、例えば図10に示すように、CPU101などのハードウェアプロセッサと、RAM102やROM103などの記憶装置と、HDD104などの大容量記憶装置と、外部と通信を行う通信I/F105と、周辺機器を接続するための機器I/F106と、を備えた通常のコンピュータとしてのハードウェア構成を有する。階層構造を表示する表示装置20は、一例として、機器I/F106を介して情報処理装置10に接続される。
【0066】
上記のプログラムは、例えば、磁気ディスク、光ディスク、半導体メモリ、またはこれに類する記録媒体に記録されて提供される。プログラムを記録する記録媒体は、コンピュータシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。また、上記プログラムを、コンピュータに予めインストールするように構成してもよいし、ネットワークを介して配布される上記のプログラムをコンピュータに適宜インストールするように構成してもよい。
【0067】
上記のコンピュータで実行されるプログラムは、上述した自然文解析部11、単語整形部12、意味カテゴリ判定部13、階層構造生成部14および階層構造提示部15などの機能的な各部を含むモジュール構成となっており、プロセッサがこのプログラムを適宜読み出して実行することにより、上述した各部がRAM102などの主記憶装置上に生成されるようになっている。
【0068】
なお、本実施形態の情報処理装置10は、上述した機能的な各部の一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)などの専用のハードウェアにより実現する構成であってもよい。
【0069】
また、本実施形態の情報処理装置10は、複数台のコンピュータを通信可能に接続したネットワークシステムとして構成し、上述した各部を複数台のコンピュータに分散して実現する構成であってもよい。また、本実施形態の情報処理装置10は、クラウドシステム上で動作する仮想マシンであってもよい。
【0070】
以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0071】
10 情報処理装置
11 自然文解析部
12 単語整形部
13 意味カテゴリ判定部
14 階層構造生成部
15 階層構造提示部
20 表示装置
31 パターン照合部
32 修飾表現判定ルール
33 品詞選別部
41 表記照合部
42 語彙辞書
43 修飾表現照合部
44 意味カテゴリ判定ルール
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10