特許7221527 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社アナリティクスデザインラボの特許一覧

特許7221527分析方法、分析装置及び分析プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-02-06

(45)【発行日】2023-02-14

(54)【発明の名称】分析方法、分析装置及び分析プログラム

(51)【国際特許分類】

G06F 16/30 20190101AFI20230207BHJP

G06F 16/383 20190101ALI20230207BHJP

G06F 40/20 20200101ALI20230207BHJP

G06F 40/216 20200101ALI20230207BHJP

G06F 40/279 20200101ALI20230207BHJP

【ＦＩ】

G06F16/30

G06F16/383

G06F40/20

G06F40/216

G06F40/279

【請求項の数】 5

(21)【出願番号】P 2019084332

(22)【出願日】2019-04-25

(65)【公開番号】P2020181390

(43)【公開日】2020-11-05

【審査請求日】2022-01-20

(73)【特許権者】

【識別番号】517219410

【氏名又は名称】株式会社アナリティクスデザインラボ

(74)【代理人】

【識別番号】100101236

【弁理士】

【氏名又は名称】栗原浩之

(74)【代理人】

【識別番号】100166914

【弁理士】

【氏名又は名称】山▲崎▼ 雄一郎

(72)【発明者】

【氏名】野守耕爾

【審査官】和田財太

(56)【参考文献】

【文献】特開２００９－０９３６４７（ＪＰ，Ａ）

【文献】特開２００２－０４１５４３（ＪＰ，Ａ）

【文献】特開２００４－２８８１６８（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／００

Ｇ０６Ｆ４０／００

(57)【特許請求の範囲】

【請求項1】

分析装置が実行するテキストデータの分析方法であって、
前記テキストデータに含まれている第１語群に属する語及び第２語群に属する語の組み合わせの頻度に基づく要素からなる共起行列を作成する共起行列作成ステップと、
前記共起行列を入力とし、第１語群に属する語及び第２語群に属する語で構成される複数のトピックを抽出する潜在意味解析法を実行することにより、各トピックを条件とした第１語群に属する語の第１条件付確率、及び各トピックを条件とした第２語群に属する語の第２条件付確率を求めるトピック抽出ステップと、
前記第１条件付確率及び第１語群の出現頻度、並びに前記第２条件付確率及び第２語群の出現頻度に基づいて、各トピックを条件とした各前記テキストデータの条件付確率を計算し、前記条件付確率に基づいて各前記テキストデータに対する各トピックのスコアを求めるスコア計算ステップと、を備え、
前記共起行列作成ステップは、
前記テキストデータから前記第１語群に属する語及び前記第２語群に属する語の組み合わせの頻度を要素とする実測共起行列を作成し、
前記テキストデータから前記第１語群に属する語及び前記第２語群に属する語の組み合わせの期待頻度を要素とする期待共起行列を作成し、
前記期待共起行列の各要素に対する前記実測共起行列の各要素の差分あるいは比率を各要素とする前記共起行列を作成する
ことを特徴とする分析方法。

【請求項2】

請求項１に記載の分析方法であって、
前記共起行列作成ステップは、
前記テキストデータから文章を抽出し、各文章に含まれている前記第１語群に属する語及び前記第２語群に属する語の組み合わせの頻度を要素とする前記実測共起行列を作成し、
前記テキストデータから文章を抽出し、各文章に含まれている前記第１語群に属する語及び前記第２語群に属する語の組み合わせの期待頻度を要素とする前記期待共起行列を作成し、
前記期待共起行列の各要素に対する前記実測共起行列の各要素の差分あるいは比率を各要素とする前記共起行列を作成し、
前記スコア計算ステップは、前記第１条件付確率及び第１語群の出現頻度、並びに前記第２条件付確率及び第２語群の出現頻度に基づいて、各トピックを条件とした各文章の条件付確率を計算し、前記条件付確率に基づいて各前記テキストデータに対する各トピックのスコアを求める
ことを特徴とする分析方法。

【請求項3】

請求項１に記載する分析方法であって、
前記テキストデータは、カテゴリに分類されたテキスト部を含み、
前記共起行列作成ステップは、
第１のカテゴリに分類された前記テキスト部から抽出した前記第１語群に属する語、及び第２のカテゴリに分類された前記テキスト部から抽出した前記第２語群に属する語の組み合わせの頻度を要素とする前記実測共起行列を作成し、
第１のカテゴリに分類された前記テキスト部から抽出した前記第１語群に属する語、及び第２のカテゴリに分類された前記テキスト部から抽出した前記第２語群に属する語の組み合わせの期待頻度を要素とする前記期待共起行列を作成し、
前記期待共起行列の各要素に対する前記実測共起行列の各要素の差分あるいは比率を各要素とする前記共起行列を作成する
ことを特徴とする分析方法。

【請求項4】

テキストデータの分析装置であって、
前記テキストデータに含まれている第１語群に属する語及び第２語群に属する語の組み合わせの頻度に基づく要素からなる共起行列を作成する共起行列作成手段と、
前記共起行列を入力とし、第１語群に属する語及び第２語群に属する語で構成される複数のトピックを抽出する潜在意味解析法を実行することにより、各トピックを条件とした第１語群に属する語の第１条件付確率、及び各トピックを条件とした第２語群に属する語の第２条件付確率を求めるトピック抽出手段と、
前記第１条件付確率及び第１語群の出現頻度、並びに前記第２条件付確率及び第２語群の出現頻度に基づいて、各トピックを条件とした各前記テキストデータの条件付確率を計算し、前記条件付確率に基づいて各前記テキストデータに対する各トピックのスコアを求めるスコア計算手段と、を備え、
前記共起行列作成手段は、
前記テキストデータから前記第１語群に属する語及び前記第２語群に属する語の組み合わせの頻度を要素とする実測共起行列を作成し、
前記テキストデータから前記第１語群に属する語及び前記第２語群に属する語の組み合わせの期待頻度を要素とする期待共起行列を作成し、
前記期待共起行列の各要素に対する前記実測共起行列の各要素の差分あるいは比率を各要素とする前記共起行列を作成する
ことを特徴とする分析装置。

【請求項5】

テキストデータをコンピュータに分析させる分析プログラムであって、
前記コンピュータを、
前記テキストデータに含まれている第１語群に属する語及び第２語群に属する語の組み合わせの頻度に基づく要素からなる共起行列を作成する共起行列作成手段と、
前記共起行列を入力とし、第１語群に属する語及び第２語群に属する語で構成される複数のトピックを抽出する潜在意味解析法を実行することにより、各トピックを条件とした第１語群に属する語の第１条件付確率、及び各トピックを条件とした第２語群に属する語の第２条件付確率を求めるトピック抽出手段と、
前記第１条件付確率及び第１語群の出現頻度、並びに前記第２条件付確率及び第２語群の出現頻度に基づいて、各トピックを条件とした各前記テキストデータの条件付確率を計算し、前記条件付確率に基づいて各前記テキストデータに対する各トピックのスコアを求めるスコア計算手段として機能させ、
前記共起行列作成手段は、
前記テキストデータから前記第１語群に属する語及び前記第２語群に属する語の組み合わせの頻度を要素とする実測共起行列を作成し、
前記テキストデータから前記第１語群に属する語及び前記第２語群に属する語の組み合わせの期待頻度を要素とする期待共起行列を作成し、
前記期待共起行列の各要素に対する前記実測共起行列の各要素の差分あるいは比率を各要素とする前記共起行列を作成する
ことを特徴とする分析プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、テキストデータから個性的なトピックを抽出することができる分析方法、分析装置及び分析プログラムに関する。

【背景技術】

【0002】

昨今では、テキストの電子化の急増とテキストマイニングツールの普及に伴い、テキストデータからいかに有用な知識を抽出するかということが課題となっている。

【0003】

本発明者は、テキストデータから、単語そのものではなく文章のトピックを抽出する手法として知られるＰＬＳＡを応用した分析方法を発明した（特許文献１参照）。ＰＬＳＡは、元々文章分類のために開発された手法で、文章とそこに出現する単語の間には観測できない潜在的な意味クラスがあることを想定し、文章と単語の共通のトピックとなるような特徴を見つける手法である。

【0004】

このような分析方法においても、テキストデータからマイニングを行い、潜在的なトピックを抽出することはできる。しかしながら、ＰＬＳＡは、元々のテキストデータに高い頻度で発生する単語を元にトピックを抽出する傾向にあり、得られたトピックは典型的で目新しいものではない場合がある。

【先行技術文献】

【特許文献】

【0005】

【文献】特開２０１６－０５１２２０号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

本発明は、上記事情に鑑みてなされたものであり、テキストデータに低い頻度で発生するような単語であっても、当該単語に基づく個性的なトピックを抽出することができる分析方法、分析装置及び分析プログラムを提供することを目的とする。

【課題を解決するための手段】

【0007】

上記課題を解決する本発明の第１の態様は、分析装置が実行するテキストデータの分析方法であって、前記テキストデータに含まれている第１語群に属する語及び第２語群に属する語の組み合わせの頻度に基づく要素からなる共起行列を作成する共起行列作成ステップと、前記共起行列を入力とし、第１語群に属する語及び第２語群に属する語で構成される複数のトピックを抽出する潜在意味解析法を実行することにより、各トピックを条件とした第１語群に属する語の第１条件付確率、及び各トピックを条件とした第２語群に属する語の第２条件付確率を求めるトピック抽出ステップと、前記第１条件付確率及び第１語群の出現頻度、並びに前記第２条件付確率及び第２語群の出現頻度に基づいて、各トピックを条件とした各前記テキストデータの条件付確率を計算し、前記条件付確率に基づいて各前記テキストデータに対する各トピックのスコアを求めるスコア計算ステップと、を備え、前記共起行列作成ステップは、前記テキストデータから前記第１語群に属する語及び前記第２語群に属する語の組み合わせの頻度を要素とする実測共起行列を作成し、前記テキストデータから前記第１語群に属する語及び前記第２語群に属する語の組み合わせの期待頻度を要素とする期待共起行列を作成し、前記期待共起行列の各要素に対する前記実測共起行列の各要素の差分あるいは比率を各要素とする前記共起行列を作成することを特徴とする分析方法にある。

【0008】

本発明の第２の態様は、第１の態様に記載の分析方法であって、前記共起行列作成ステップは、前記テキストデータから文章を抽出し、各文章に含まれている前記第１語群に属する語及び前記第２語群に属する語の組み合わせの頻度を要素とする前記実測共起行列を作成し、前記テキストデータから文章を抽出し、各文章に含まれている前記第１語群に属する語及び前記第２語群に属する語の組み合わせの期待頻度を要素とする前記期待共起行列を作成し、前記期待共起行列の各要素に対する前記実測共起行列の各要素の差分あるいは比率を各要素とする前記共起行列を作成し、前記スコア計算ステップは、前記第１条件付確率及び第１語群の出現頻度、並びに前記第２条件付確率及び第２語群の出現頻度に基づいて、各トピックを条件とした各文章の条件付確率を計算し、前記条件付確率に基づいて各前記テキストデータに対する各トピックのスコアを求めることを特徴とする分析方法にある。

【0009】

本発明の第３の態様は、第１の態様に記載の分析方法であって、前記テキストデータは、カテゴリに分類されたテキスト部を含み、前記共起行列作成ステップは、第１のカテゴリに分類された前記テキスト部から抽出した前記第１語群に属する語、及び第２のカテゴリに分類された前記テキスト部から抽出した前記第２語群に属する語の組み合わせの頻度を要素とする前記実測共起行列を作成し、第１のカテゴリに分類された前記テキスト部から抽出した前記第１語群に属する語、及び第２のカテゴリに分類された前記テキスト部から抽出した前記第２語群に属する語の組み合わせの期待頻度を要素とする前記期待共起行列を作成し、前記期待共起行列の各要素に対する前記実測共起行列の各要素の差分あるいは比率を各要素とする前記共起行列を作成することを特徴とする分析方法にある。

【0010】

本発明の第４の態様は、テキストデータの分析装置であって、前記テキストデータに含まれている第１語群に属する語及び第２語群に属する語の組み合わせの頻度に基づく要素からなる共起行列を作成する共起行列作成手段と、前記共起行列を入力とし、第１語群に属する語及び第２語群に属する語で構成される複数のトピックを抽出する潜在意味解析法を実行することにより、各トピックを条件とした第１語群に属する語の第１条件付確率、及び各トピックを条件とした第２語群に属する語の第２条件付確率を求めるトピック抽出手段と、前記第１条件付確率及び第１語群の出現頻度、並びに前記第２条件付確率及び第２語群の出現頻度に基づいて、各トピックを条件とした各前記テキストデータの条件付確率を計算し、前記条件付確率に基づいて各前記テキストデータに対する各トピックのスコアを求めるスコア計算手段と、を備え、前記共起行列作成手段は、前記テキストデータから前記第１語群に属する語及び前記第２語群に属する語の組み合わせの頻度を要素とする実測共起行列を作成し、前記テキストデータから前記第１語群に属する語及び前記第２語群に属する語の組み合わせの期待頻度を要素とする期待共起行列を作成し、前記期待共起行列の各要素に対する前記実測共起行列の各要素の差分あるいは比率を各要素とする前記共起行列を作成することを特徴とする分析装置にある。

【0011】

本発明の第５の態様は、テキストデータをコンピュータに分析させる分析プログラムであって、前記コンピュータを、前記テキストデータに含まれている第１語群に属する語及び第２語群に属する語の組み合わせの頻度に基づく要素からなる共起行列を作成する共起行列作成手段と、前記共起行列を入力とし、第１語群に属する語及び第２語群に属する語で構成される複数のトピックを抽出する潜在意味解析法を実行することにより、各トピックを条件とした第１語群に属する語の第１条件付確率、及び各トピックを条件とした第２語群に属する語の第２条件付確率を求めるトピック抽出手段と、前記第１条件付確率及び第１語群の出現頻度、並びに前記第２条件付確率及び第２語群の出現頻度に基づいて、各トピックを条件とした各前記テキストデータの条件付確率を計算し、前記条件付確率に基づいて各前記テキストデータに対する各トピックのスコアを求めるスコア計算手段として機能させ、前記共起行列作成手段は、前記テキストデータから前記第１語群に属する語及び前記第２語群に属する語の組み合わせの頻度を要素とする実測共起行列を作成し、前記テキストデータから前記第１語群に属する語及び前記第２語群に属する語の組み合わせの期待頻度を要素とする期待共起行列を作成し、前記期待共起行列の各要素に対する前記実測共起行列の各要素の差分あるいは比率を各要素とする前記共起行列を作成することを特徴とする分析プログラムにある。

【発明の効果】

【0012】

本発明によれば、テキストデータに低い頻度で発生するような単語であっても、当該単語に基づく個性的なトピックを抽出することができる分析方法、分析装置及び分析プログラムが提供される。

【図面の簡単な説明】

【0013】

【図1】本実施形態に係る分析方法を実装した分析プログラムを実行する分析装置の機能ブロック図である。

【図2】ＰＬＳＡの概念図である。

【図3】分析装置での処理を示すフローチャートである。

【発明を実施するための形態】

【0014】

以下、本発明を実施するための形態について説明する。なお、実施形態の説明は例示であり、本発明は以下の説明に限定されない。

【0015】

〈実施形態１〉
図１は、本実施形態に係る分析方法を実行する分析プログラムを実行する分析装置の機能ブロック図である。分析プログラム１０は、分析装置１にインストールされて実行されるものである。分析装置１は、特に図示しないが、ＣＰＵ、ＲＡＭ、ハードディスク、入出力装置、通信手段等を備えた一般的なコンピュータである。

【0016】

ハードディスクには、分析装置１のＣＰＵ等を制御するためのオペレーティングシステムがインストールされている。このオペレーティングシステムにより、ハードディスクにインストールされた分析プログラム１０がＲＡＭに読み込まれ、ＲＡＭに読み込まれた分析プログラムがＣＰＵにより実行される。

【0017】

このような分析プログラムは、テキストデータを処理対象とする。テキストデータとは、文章を符号化したデータである。本発明でいう文章とは、テキストデータに含まれる一文である。テキストデータの符号化の方式（文字コード）は特に限定はなく、符号化により表される言語の種別も問わない。本実施形態では、テキストデータは日本語の文からなり、ＵＴＦ－８などの文字コードで表現されている。

【0018】

本実施形態では、テキストデータとして、日本の特許出願に添付された要約書の文章を用いる。具体的には、要約書及び特許請求の範囲に「電気」及び「車」を含む１０年分（出願日が２００７年１月１日から２０１６年１２月３１日）の電気自動車に関する特許出願（２６，４１９件）を抽出し、その特許出願の要約書の記載をテキストデータとする。

【0019】

【表1】

【0020】

表１にテキストデータの一例を示す。表１には、４つのテキストデータが例示されている。テキストデータＩＤは、個々のテキストデータを識別する情報であり、ここでは重複しない数値である。テキストデータは、発明の要約文である。文章ＩＤは、テキストデータに含まれる個々の文章を識別する情報であり、ここでは重複しない数値である。各文章ＩＤは、テキストデータＩＤとの関連も保持されている。以後、ＩＤが「１」であるテキストデータをテキストデータ「１」と表記し、ＩＤが「１」である文章を文章「１」と表記する。

【0021】

テキストデータを分析対象とする分析装置１は、共起行列作成手段１１、トピック抽出手段１２、及びスコア計算手段１３を備えている。本実施形態では、それらの各手段は、分析装置１で実行される分析プログラム１０として実装されている。分析プログラム１０は、分析装置１を各手段１１～１３として機能させるプログラムである。

【0022】

共起行列作成手段１１は、テキストデータから共起行列を作成する。共起行列とは、第１語群に属する語、及び第２語群に属する語の組み合わせの頻度に基づく要素からなる行列であり、具体的には、以下のように、実測共起行列と期待共起行列とから作成される。

【0023】

実測共起行列とは、第１語群に属する語及び第２語群に属する語の組み合わせ（共起ペアと称する）を含むテキストデータの頻度（件数）を要素とする行列である。実測共起行列は、次のようにして作成される。

【0024】

まず、共起行列作成手段１１は、テキストデータから文章を抽出する。具体的には、共起行列作成手段１１は、テキストデータを一つずつ読み込み、各テキストデータについて、句点など一文の末尾に用いられる文字を基準として文章を出力する。例えば、テキストデータＩＤ「１」については、表１に示すように４つの文章が抽出される。

【0025】

一つのテキストデータは、発明に関する記載が含まれているが、各文章に着目すると異なる観点で記載されていることが多い。表１のテキストデータＩＤ「１」からは、電気自動車の課題について述べた文章（文章ＩＤ「１」）や電気自動車の動作について述べた文章（文章ＩＤ「２」）などが得られることになる。

【0026】

後述するトピック抽出手段１２では、文章を元にトピックを抽出するが、もし、仮にテキストデータを元にトピックを抽出する場合、テキストデータに異なる観点の文章が複数含まれていると、適切なトピックとはいえない結果となりうる。しかし、本発明では、テキストデータから抽出した文章を元にトピックを抽出するので、後述するトピック抽出手段１２による抽出精度を向上させることができる。

【0027】

次に、共起行列作成手段１１は、各文章から第１語群及び第２語群を抽出する。第１語群及び第２語群は、所定の基準により文章から抽出された複数の語からなる。例えば、所定の基準としては、単語や特定の品詞、係り受け表現（文法的構造を持つ単語と単語のペア）などが挙げられる。第１語群と第２語群とで、異なる基準を用いるようにする。このような第１語群及び第２語群は、公知の形態素解析手法あるいは構文解析手法を適用することで得ることができる。

【0028】

次に、共起行列作成手段１１は、第１語群に属する語と、第２語群に属する語との組み合わせである共起ペアを含む文章の頻度を計算する。そして、その頻度を要素とする実測共起行列を作成する。実測共起行列のｉ行ｊ列の要素（ｉ，ｊ）は、第１語群に属するｉ番目の語と、第２語群に属するｊ番目の語からなる共起ペアを含む文章の頻度となる。

【0029】

【表2】

【0030】

表２に、実測共起行列を例示する。この実測共起行列は、文章から「単語」を抽出して第１語群とし、文章から「係り受け表現」を抽出して第２語群とするものである。第１語群に属する単語として「構成」「モータ」「制御」などが行方向に並び、第２語群に属する係り受け表現として「電力－供給」「否－判定」「バッテリ－充電」などが列方向に並んでいる。共起行列作成手段１１は、「構成」と「電力－供給」の共起ペアを含む文章の数をカウントする。表２の実測共起行列の例では、要素（１，１）の「１１８」は、「構成」及び「電力－供給」という共起ペアが存在する文章の頻度（件数）が１１８件であることを表している。

【0031】

なお、第１語群と第２語群の選び方は上述の例に限定されない。例えば、テキストデータ中に含まれる「名詞」に分類される語を第１語群とし、「動詞又は形容詞」に分類される語を第２語群としてもよい。この第２語群のように複数の品詞の何れかに分類される語から第１語群又は第２語群を抽出してもよい。

【0032】

期待共起行列とは、第１語群に属する語及び第２語群に属する語の共起ペアの期待頻度を要素とする行列である。期待頻度とは、理論的に推定される共起ペアを含む文章の頻度である。
第１語群に属するｉ番目の語（Ｘ_ｉ）が含まれる文章の件数を総頻度（ｎ（Ｘ_ｉ））とする。
第２語群に属するｊ番目の語（Ｙ_ｊ）が含まれる文章の件数を総頻度（ｎ（Ｙ_ｊ））とする。
文章の全件数を総文章数Ｎとする。
期待頻度は、ｎ（Ｘ_ｉ）・ｎ（Ｙ_ｊ）／Ｎである。

【0033】

共起行列作成手段１１は、第１語群に属する語が含まれる文章の件数を計上して総頻度（ｎ（Ｘ_ｉ））を求め、第２語群に属する語が含まれる文章の件数を計上して総頻度（ｎ（Ｙ_ｊ））を求める。そして、文章の全件数を計上して総文章数Ｎとし、期待頻度を計算する。このような期待頻度を、第１語群に属する語及び第２語群に属する語からなる全ての共起ペアについて計算する。

【0034】

【表3】

【0035】

表３は、共起行列作成手段１１により作成された期待共起行列の一例である。総文章数Ｎは、２２９，５９８件である。第１語群の一番目の語（Ｘ１）である「構成」の総頻度（ｎ（Ｘ１））は、５，８８０件である。第２語群の一番目の語（Ｙ１）である「電力－供給」の総頻度（ｎ（Ｙ１））は、１，３５０件である。要素（１，１）は「３４．６」である。これは、「構成」と「電力－供給」からなる共起ペアを含む文章の頻度は、理論的には「３４．６」であることを表している。

【0036】

共起行列は、第１語群に属する語、及び第２語群に属する語の組み合わせの頻度に基づく要素からなる行列である。より具体的には、共起行列は、期待共起行列の各要素に対する実測共起行列の各要素の差分あるいは比率を各要素とする行列である。

【0037】

共起行列作成手段１１は、期待共起行列の各要素に対する実測共起行列の各要素の差分あるいは比率を計算して共起行列を作成する。この共起行列は、次のトピック抽出手段１２の入力データとなる。期待共起行列の各要素に対する実測共起行列の各要素の差分あるいは比率として、実測共起行列の各要素（ｉ，ｊ）／期待共起行列の各要素（ｉ，ｊ）の対数を計算し、その値を共起行列の要素（ｉ，ｊ）とする。実測共起行列及び期待共起行列の各要素（ｉ，ｊ）がゼロの場合や、上記対数が負であれば、共起行列の要素はゼロとする。このようにして作成した共起行列を表４に例示する。

【0038】

なお、差分あるいは比率の取り方は、単純な差分（絶対誤差）としてもよいし、絶対誤差を期待頻度で除した相対誤差としてもよいし、単純な比率としてもよいし、そうした差分あるいは比率の絶対値を取ったり、二乗を取ったり、対数を取ったりしてもよい。ただしゼロで除して値が計算不可となることや値が負数となることがないように、そのような場合は上記のようにゼロに置換するなどの調整を施す。

【0039】

【表4】

【0040】

トピック抽出手段１２は、前記共起行列を入力とし、第１語群に属する語及び第２語群に属する語で構成される複数のトピックを抽出する潜在意味解析法を実行することにより、各トピックを条件とした第１語群に属する語の第１条件付確率、及び各トピックを条件とした第２語群に属する語の第２条件付確率を求める。トピックは、発明に関する文章の主題を表しているといえる。

【0041】

潜在意味解析法とは、自然言語処理の技法の一つであり、文書群と文書に含まれる用語群について、それらに関連した概念の集合を生成することで、その関係を分析する手法である。潜在意味解析法の具体例としては、ＬＳＩ（ＬａｔｅｎｔＳｅｍａｎｔｉｃＩｎｄｅｘｉｎｇ）、ＬＤＡ（ＬａｔｅｎｔＤｉｒｉｃｈｌｅｔＡｌｌｏｃａｔｉｏｎ）、ＰＬＳＡ（ＰｒｏｂａｂｉｌｉｓｔｉｃＬａｔｅｎｔＳｅｍａｎｔｉｃＡｎａｌｙｓｉｓ）を挙げることができる。

【0042】

本実施形態では、ＰＬＳＡを用いて説明する。図２は、ＰＬＳＡの概念図である。図２（ａ）に示すように、ＰＬＳＡは、文書分類に用いられるクラスタリング手法の一つであり、一般には、文章Ｄと、その文章に含まれる単語Ｗの間に潜在的なトピックＺがあると想定し、文章Ｄ及び単語Ｗの組み合わせで構成されるトピックＺを抽出するものである。ＰＬＳＡによるトピック抽出は、各トピックＺに属する文章Ｄの条件付確率及び各トピックＺに属する単語Ｗの条件付確率及びトピックＺの確率がＥＭアルゴリズムにより計算される。

【0043】

本実施形態では、このようなＰＬＳＡに入力するデータは、上述した共起行列である。ＰＬＳＡは、このような共起行列を入力として、図２（ｂ）に示すように、第１語群に属する語Ｗ１と、第２語群に属する語Ｗ２との間に潜在的なトピックＺがあると想定し、第１語群に属する語Ｗ１と第２語群に属する語Ｗ２の組み合わせで構成されるトピックＺを抽出するものである。すなわち、トピック抽出手段１２は、共起行列を入力としてＰＬＳＡを実行することで、各トピックＺを条件とした第１語群に属する語Ｗ１の第１条件付確率としてＰ（Ｗ１｜Ｚ）、及び各トピックＺを条件とした第２語群に属する語Ｗ２の第２条件付確率としてＰ（Ｗ２｜Ｚ）を計算する。本実施形態の例では、第１語群に属する語として単語（名詞、動詞、形容詞）を、第２語群に属する語として係り受け表現（名詞と動詞・形容詞の係り受けペア）を設定している。ＰＬＳＡの具体的な計算方法は、「Hofmann, T.:Probabilistic latent semantic analysis, Proc. Of Uncertainty in Artificial Intelligence, pp.289-296, 1999.」などの文献に記載の公知の技法を用いて実行することができる。

【0044】

表５に、ＰＬＳＡにより計算されたトピックに属する単語及び係り受け表現を例示する。表５には、複数作成されたトピックのうち、２つのトピックＺ０８とトピックＺ２１に属する単語及び係り受け表現が示されている。それぞれ条件付確率が高い順に単語および係り受け表現を並べており、それぞれの総頻度（ｎ（Ｘ_ｉ））と総頻度（ｎ（Ｙ１））も掲載している。

【0045】

【表5】

【0046】

トピックＺ０８についてみると、第１条件付確率が最上位である単語は「マスタシリンダ」という単語であり、第２条件付確率が最上位である係り受け表現は「基づく－発生」である。このようなトピックＺ０８に所属する単語及び係り受け表現に基づいて、トピックＺ０８の意味を解釈することができる。例えば、トピックＺ０８は、第１条件付確率が上位である単語に基づけば、ブレーキに関するトピックであると解釈することができる。また各単語および係り受け表現の総頻度にも着目すると、例えば「マスタシリンダ」「ブレーキ液圧」「ブレーキ操作」「液圧」など、「ブレーキ」という単語よりも比較的頻度の少ないブレーキに関する単語も上位の条件付確率が割り当てられており、より具体的な表現で構成された個性的なトピックが抽出されていることが分かる。

【0047】

ＰＬＳＡは、トピック数を予め設定する必要があり、また、初期値依存性があるため初期値によって結果が異なる。そこで、本実施形態のトピック抽出手段１２では、トピック数として範囲を持たせて複数設定し、初期値を変えてそれぞれのトピック数でＰＬＳＡを複数回実行し、それぞれの結果の情報量基準の値を計算する。そして、その全結果の中で情報量基準が最適となる結果を採用する。情報量基準の計算は、公知の方法（例えば「小西貞則,北川源四郎:情報量基準,朝倉書店,2004」参照）により行うことができる。なお、トピック数は、このような情報量基準に基づいて決定する場合に限定されず、任意に定めてもよい。

【0048】

本実施形態では、表６に示すように、トピック抽出手段１２により５０個のトピックが抽出され、それぞれのトピックの解釈がなされた。表６にトピック抽出手段により抽出されたトピックに解釈を与えたものを例示する。

【表6】

【0049】

スコア計算手段１３は、第１条件付確率及び第１語群の出現頻度、並びに第２条件付確率及び第２語群の出現頻度に基づいて、各トピックを条件とした各文章の条件付確率を計算する。そして、この条件付確率を各文章の発生確率で除した値を、各文章に対する各トピックのスコアとする。そして、そのスコアをテキストデータ単位に集約することで、各テキストデータに対する各トピックのスコアを求める。

【0050】

文章Ｓ_ｈにおけるトピックＺ_ｋのスコアは、Ｐ（Ｓ_ｈ｜Ｚ_ｋ）／Ｐ（Ｓ_ｈ）である（式（１））。ｋは、ＰＬＳＡで作成されたトピックを特定する番号であり、トピックの総数を最大とする自然数である。ｈは、文章を特定する番号（文章ＩＤ）であり、文章の総数を最大とする自然数である。

【0051】

【数1】

【0052】

第１語群に含まれる語（行要素Ｘ_ｉ）の集合をＳｘ_ｈとし（式（２））、第２語群に含まれる語（列要素Ｙｉ）の集合をＳｙ_ｈとする（式（３））。

【0053】

【数2】

【0054】

式（１）のＰ（Ｓ_ｈ｜Ｚ_ｋ）は、上記文章Ｓｘ_ｈと文章Ｓｙ_ｈに分解し、それぞれＰ（Ｓｘ_ｈ｜Ｚ_ｋ）とＰ（Ｓｙ_ｈ｜Ｚ_ｋ）を計算し、それらを統合してＰ（Ｓ_ｈ｜Ｚ_ｋ）を計算する。

【0055】

トピックＺ_ｋを条件とした文章Ｓｘ_ｈの条件付確率Ｐ（Ｓｘ_ｈ｜Ｚ_ｋ）を計算し（式（４））、トピックＺ_ｋを条件とした文章Ｓｙ_ｈの条件付確率Ｐ（Ｓｙ_ｈ｜Ｚ_ｋ）を計算する(式（５））。

【0056】

【数3】

【0057】

式（４）の行要素Ｘ_ｉが出現する中で文章Ｓｘ_ｈが出現する確率（第１語群の出現頻度）であるＰ（Ｓｘ_ｈ｜Ｘ_ｉ）は、Ｘ_ｉが出現する総頻度ｎ（Ｘ_ｉ）の逆数として計算される（式（６））。

【0058】

【数4】

【0059】

式（５）の列要素Ｙ_ｊが出現する中で文章Ｓｙ_ｈが出現する確率（第２語群の出現頻度）であるＰ（Ｓｙ_ｈ｜Ｙ_ｊ）は、Ｙ_ｊが出現する総頻度ｎ（Ｙ_ｊ）の逆数として計算される（式（７））。

【0060】

【数5】

【0061】

式（４）、式（５）のトピックＺ_ｋを条件とした行要素Ｘ_ｉの条件付確率（第１条件付確率）であるＰ（Ｘ_ｉ｜Ｚ_ｋ）と、トピックＺ_ｋを条件とした列要素Ｙ_ｊの条件付確率（第２条件付確率）であるＰ（Ｙ_ｊ｜Ｚ_ｋ）は、ＰＬＳＡの実行で得られる。したがって、式（１）のトピックＺ_ｋを条件とした文章Ｓ_ｈの条件付確率Ｐ（Ｓ_ｈ｜Ｚ_ｋ）は、式（８）で表される。

【0062】

【数6】

【0063】

文章Ｓ_ｈにおいて、行要素Ｘで定義される文章Ｓ_ｈｘと、列要素Ｙで定義される文章Ｓｙ_ｈの重みは同じであるため、式（８）中の、文章Ｓｘ_ｈを条件とした文章Ｓ_ｈの条件付確率Ｐ（Ｓ_ｈ｜Ｓｘ_ｈ）と、文章Ｓｙ_ｈを条件とした文章Ｓ_ｈの条件付確率Ｐ（Ｓ_ｈ｜Ｓｙ_ｈ）はそれぞれ０．５とする。

【0064】

式（１）の文章Ｓ_ｈの確率Ｐ（Ｓ_ｈ）は、式（９）で表され、Ｐ（Ｚ_ｋ）はＰＬＳＡの実行で得られる。

【0065】

【数7】

【0066】

このように、Ｐ（Ｓ_ｈ｜Ｚ_ｋ）とＰ（Ｓ_ｈ）との比をもって文章Ｓ_ｈにおけるトピックＺ_ｋのスコアとする。この値が１を超えるということは、文章Ｓ_ｈの発生確率はトピックＺ_ｋを条件とすることで上昇し、トピックＺ_ｋとの関係が強いということである。このようなスコアを採用することで、各文章Ｓ_ｈとトピックＺ_ｋの関係の強さを把握しやすくすることができる。表７に各文章Ｓ_ｈに対する各トピックＺ_ｋのスコアを例示する。

【0067】

【表7】

【0068】

例えば、文章ＩＤ「１」は、トピックＺ１についてのスコアが３．１であり、トピックＺ２についてのスコアが０．９であり、このようなスコアが全トピックについて計算されている。

【0069】

スコア計算手段１３は、文章ＩＤ単位に計算された各トピックのスコアをテキストデータＩＤ単位に集約する。文章単位のスコアをテキストデータ単位に集約する方法としては、最大値や平均値などを計算することが挙げられる。本実施形態では、トピック毎のスコアの最大値を、テキストデータＩＤの各トピックのスコアとする。

【0070】

【表8】

【0071】

表８を用いて、スコアの集計について具体的に説明する。テキストデータ「１」は文章「１」～文章「４」から構成されている。トピックごとに、文章「１」～文章「４」のうち最大値を求める。

【0072】

文章「１」～文章「４」に対するトピックＺ１のスコアは「３．１」「１．４」「０．８」「１．２」である。したがって、「３．１」が最大値となる。この最大値「３．１」がテキストデータ「１」に対するトピックＺ１のスコアとなる。以下同様に、トピックＺ２～Ｚ５０についてトピック毎に最大値を計算することで、テキストデータ「１」に対する各トピックのスコアを得る。このような最大値を求めてテキストデータに対する各トピックのスコアとする計算を、全テキストデータについて実行する。表８の斜体字で表されたスコアがテキストデータに対する各トピックのスコアである。このようにして、各テキストデータに対して、各トピックのスコアを得ることができる。

【0073】

このようにして得られたスコアから、トピックの該当の有無を表す１，０の情報を付与してもよい。例えば、閾値を「３」に設定し、スコアが３以上であれば「１」に３未満であれば「０」というフラグ情報を付与してもよい。表９にフラグ情報を示す。

【0074】

【表9】

【0075】

テキストデータ「１」は、トピックＺ１のスコアが「３．１」であるから（表９参照）、フラグ情報は「１」となる。同様に、トピックＺ２のスコアは「５．８」であるから、フラグ情報は「１」となる。トピックＺ５０のスコアは「２．４」であるから、フラグ情報は「０」となる。なお、閾値は「３」である必要はない。Ｐ（Ｓ_ｈ｜Ｚ_ｋ）／Ｐ（Ｓ_ｈ）で定義したスコアは１が基準と考えることができるので、閾値を「１」と設定してもよい。

【0076】

次に、本実施形態に係る分析装置１の動作について説明する。図３は、分析装置での処理を示すフローチャートである。

【0077】

まず、テキストデータから共起行列を作成する（ステップＳ１：共起行列作成ステップ）。具体的には、共起行列作成手段１１が、テキストデータから文章を抽出し、各文章に含まれている第１語群に属する語及び第２語群に属する語の組み合わせの個数を表す共起行列を作成し、これは実測共起行列と期待共起行列とから作成する。具体例については、上述したので説明は省略する。

【0078】

次に、共起行列を入力として潜在意味解析法を実行する（ステップＳ２：トピック抽出ステップ）。具体的には、トピック抽出手段１２が共起行列を入力とし、第１語群に属する語及び第２語群に属する語で構成される複数のトピックを抽出する潜在意味解析法を実行する。これにより、各トピックを条件とした第１語群に属する語の第１条件付確率、及び各トピックを条件とした第２語群に属する語の第２条件付確率が得られる。具体例については、上述したので説明は省略する。

【0079】

次に、各テキストデータに対する各トピックのスコアを計算する（ステップＳ３：スコア計算ステップ）。具体的には、スコア計算手段１３が、第１条件付確率及び第１語群の出現頻度、並びに第２条件付確率及び第２語群の出現頻度に基づいて、各トピックを条件とした各文章の条件付確率を各文章に対する各トピックのスコアとして求め、それをテキストデータ単位に集約することで、各テキストデータに対する各トピックのスコアを求める。具体例については上述したので説明は省略する。

【0080】

以上に述べたように、本実施形態に係る分析方法、分析装置及び分析プログラムによれば、テキストデータからトピックを抽出し、各テキストデータに対してトピックのスコアを求める。このようなスコアを求める前提となる共起行列は、期待共起行列に対する実測共起行列の差分あるいは比率を元に得られている。

【0081】

このようにして得られた共起行列を用いることで、テキストデータからより個性的なトピックを抽出することができる。これは次のような理由による。実測共起行列の各要素を実測共起頻度、期待共起行列の各要素を期待共起頻度と称する。実測共起頻度が高い共起ペアでも、元々全体の頻度が高い要素（表２でいう総頻度が高い第１語群の語や第２語群の語）が含まれるときには期待共起頻度も高くなるため、実測共起頻度を期待共起頻度で除すことで期待頻度の大きさが制限される。逆に実測共起頻度が高くない共起ペアでも、期待共起頻度がそれよりも十分低ければ共起行列の期待頻度は大きくなり、これにＰＬＳＡを適用した解ではこうした要素にも高い確率が割り当てられる可能性がある。つまり、通常のＰＬＳＡでは頻度が低い要素は高い確率が割り当てられない傾向があるが、上述したような共起行列を用いる本発明では、そうした要素にも高い確率が割り当てられる可能性があり、より個性的なトピックが抽出されることが期待できる。

【0082】

なお、通常の共起行列を用いてＰＬＳＡを適用した場合、頻度が高い要素に高い確率が割り当てられることから、結果として抽出されるトピックは典型的なものになる傾向があり、目新しさに欠けてしまう。

【0083】

また、テキストデータに含まれる文章ごとに共起行列を作成し、トピック抽出手段１２により文章を元にトピックを抽出した。これにより、テキストデータに異なる観点の文章が複数含まれている場合であっても、トピック抽出手段１２による抽出されたトピックは、異なる観点が混在したような曖昧さが低減され、より明確な内容のトピックを抽出することができる。

【0084】

また、共起行列の各要素は、期待共起行列に対する実測共起行列の比率の対数とした。このように対数を用いることにより、共起行列の比率が極端に高くなることを制限することができる。特に期待共起頻度は１未満となるケースも多く、比率のみでは値が高くなりすぎるものもある。この状態では共起行列全体の値の分布は大きくばらつき、極端な値の開きが生まれてしまうため、ＰＬＳＡを適用した際の最適化計算において、今度はこの極端に大きな値に引っ張られる結果となり、必要以上にデフォルメされた歪んだトピックとなることがありうる。そこで、この比率の値の対数を取ることで値の分布をならし、上記の現象を制限し、より適正なトピックを得ることができると期待できる。なお、共起行列の各要素の値は、期待共起行列に対する実測共起行列の差分あるいは比率を取ることで計算されるが、この差分あるいは比率の取り方は、単純な差分（絶対誤差）としてもよいし、絶対誤差を期待頻度で除した相対誤差としてもよいし、単純な比率としてもよいし、そうした差分あるいは比率の絶対値を取ったり、二乗を取ったり、対数を取ったりしてもよい。

【0085】

なお、本発明を上述した実施形態に基づいて説明したが、本発明は上記実施形態に限定されない。例えば、一台の分析装置１において各手段１１～１３による処理を実行させたが、このような態様に限らず、複数の分析装置にて各手段を分散して実行させてもよい。

【0086】

また、上記実施形態では、特許文献を対象としたものであるが、これに限定されない。例えば、顧客から得たアンケートの自由記述結果をテキストデータとし、顧客の潜在ニーズを抽出したり、コールセンターの問い合わせ履歴をテキストデータとし、消費者の隠れた評価の観点を抽出するなど、テキストデータの一般に適用することができる。

【0087】

〈比較例〉
上述した実施形態と同じテキストデータを用いて、実測共起行列及び期待共起行列を作成せずに、実測共起行列を共起行列としてトピックの抽出及びスコアの集計を行った比較例を示す。具体的には、テキストデータから文章を抽出し、各文章から、第１語群及び第２語群を抽出し、各文章に含まれている第１語群に属する語及び第２語群に属する語の組み合わせの個数を表す共起行列を作成する。

【0088】

このようにして作成した共起行列について、上述した実施形態と同様にトピック抽出を行った結果を表１０に示す。本発明では表６に示したように、５０個のトピックが抽出されたが、比較例においては表１０に示すように、３４個のトピックが抽出された。

【0089】

【表10】

【0090】

【表11】

【0091】

本発明で抽出された５０個のトピックには、上記比較例で抽出された３４個のトピックに対応するものもあるが、上記比較例では抽出されずに、本発明によってのみ得られたトピックも存在した。表１１にその例を示す。トピックＺ０９は、「シフトレンジ」や「パーキングレンジ」、「検出」、「停止」、「自動的－行う」といった表現で確率が高く、運転者の誤操作を抑制したり自動停止などの運転アシストに関する技術と解釈できる。トピックＺ２９は、「ナビゲーション装置」や「情報」、「目的地」、「位置情報」といった表現で確率が高く、位置情報を取得してドライバーにナビ情報として提供するなど、情報の取得と提供に関する技術と解釈できる。どちらも近年の自動車業界において付加価値を高める重要な機能が、本発明によってテキストデータから得ることができた。

【0092】

〈実施形態２〉
実施形態１では、複数あるテキストデータのそれぞれから文章を抽出し、各文章から共起行列を作成した。しかしながら、本発明はこれに限定されず、複数あるテキストデータから共起行列を作成してもよい。以下、本実施形態の分析方法、分析装置、分析プログラムについて説明するが、実施形態１と重複する説明は省略する。

【0093】

共起行列作成手段１１は、テキストデータから第１語群に属する語及び第２語群に属する語の組み合わせの頻度を表す共起行列を作成する。つまり、テキストデータは１又は複数の文章からなるが、文章単位では処理せずに、テキストデータ単位で処理する。なお、例として用いるテキストデータは、実施形態１の表１と同様である。

【0094】

まず、共起行列作成手段１１は、各テキストデータから第１語群及び第２語群を抽出する。

【0095】

次に、共起行列作成手段１１は、第１語群に属する語と、第２語群に属する語との組み合わせである共起ペアを含むテキストデータの頻度を計算する。そして、その頻度を要素とする実測共起行列を作成する。実測共起行列のｉ行ｊ列の要素（ｉ，ｊ）は、第１語群に属するｉ番目の語と、第２語群に属するｊ番目の語からなる共起ペアを含むテキストデータの頻度となる。

【0096】

次に、共起行列作成手段１１は、第１語群に属する語が含まれるテキストデータの件数を計上して総頻度（ｎ（Ｘ_ｉ））を求め、第２語群に属する語が含まれるテキストデータの件数を計上して総頻度（ｎ（Ｙ_ｊ））を求める。そして、テキストデータの全件数を計上して総テキストデータ数Ｎとし、期待頻度を計算する。このような期待頻度を、全ての第１語群に属する語及び第２語群に属する語について計算し、期待共起行列を作成する。

【0097】

次に、共起行列作成手段１１は、期待共起行列の各要素に対する実測共起行列の各要素の差分あるいは比率を計算して共起行列を作成する。実施形態１と同様に実測共起行列の各要素（ｉ，ｊ）／期待共起行列の各要素（ｉ，ｊ）の対数を計算し、その値を共起行列の要素（ｉ，ｊ）とする。

【0098】

このようにして得られた共起行列に対して、トピック抽出手段１２によりトピックの抽出を行う。この抽出については、実施形態１と同様であるのでここでの説明は省略する。

【0099】

実施形態１では、各トピックを条件とした各文章の条件付確率を計算したが、本実施形態では、各トピックを条件とした各テキストデータの条件付確率を計算する。

【0100】

具体的には、スコア計算手段１３は、第１条件付確率及び第１語群の出現頻度、並びに第２条件付確率及び第２語群の出現頻度に基づいて、各トピックを条件とした各テキストデータの条件付確率を計算する。そして、この条件付確率を各テキストデータの発生確率で除した値を、各テキストデータに対する各トピックのスコアとする。

【0101】

テキストデータＤ_ｈにおけるトピックＺ_ｋのスコアは、Ｐ（Ｄ_ｈ｜Ｚ_ｋ）／Ｐ（Ｄ_ｈ）である（式（１０））。ｋは、ＰＬＳＡで作成されたトピックを特定する番号であり、トピックの総数を最大とする自然数である。ｈは、テキストデータを特定する番号（テキストデータＩＤ）であり、テキストデータの総数を最大とする自然数である。

【0102】

【数8】

【0103】

第１語群に含まれる語（行要素Ｘ_ｉ）の集合をＤｘ_ｈとし（式（１１））、第２語群に含まれる語（列要素Ｙｉ）の集合をＤｙ_ｈとする（式（１２））。

【0104】

【数9】

【0105】

これらの集合を用いて、トピックＺ_ｋを条件としたテキストデータＤｘ_ｈの条件付確率Ｐ（Ｄｘ_ｈ｜Ｚ_ｋ）を計算し（式（１３））、トピックＺ_ｋを条件としたテキストデータＤｙ_ｈの条件付確率Ｐ（Ｄｙ_ｈ｜Ｚ_ｋ）を計算する(式（１４））。

【0106】

【数10】

【0107】

式（１３）の行要素Ｘ_ｉが出現する中でテキストデータＤｘ_ｈが出現する確率（第１語群の出現頻度）であるＰ（Ｄｘ_ｈ｜Ｘ_ｉ）は、Ｘ_ｉが出現する総頻度ｎ（Ｘ_ｉ）の逆数として計算される（式（１５）））

【0108】

【数11】

【0109】

式（１４）の列要素Ｙ_ｊが出現する中でテキストデータＤｙ_ｈが出現する確率（第１語群の出現頻度）であるＰ（Ｄｙ_ｈ｜Ｙ_ｊ）は、Ｙ_ｊが出現する総頻度ｎ（Ｙ_ｊ）の逆数として計算される（式（１６））

【0110】

【数12】

【0111】

式（１３）、式（１４）のトピックＺ_ｋを条件とした行要素Ｘ_ｉの条件付確率（第１条件付確率）であるＰ（Ｘ_ｉ｜Ｚ_ｋ）と、トピックＺ_ｋを条件とした列要素Ｙ_ｊの条件付確率（第２条件付確率）であるＰ（Ｙ_ｊ｜Ｚ_ｋ）は、ＰＬＳＡの実行で得られる。したがって、式（１０）のトピックＺ_ｋを条件としたテキストデータＤ_ｈの条件付確率Ｐ（Ｄ_ｈ｜Ｚ_ｋ）は、式（１７）で表される。

【0112】

【数13】

【0113】

テキストデータＤ_ｈにおいて、行要素Ｘで定義される文章Ｄ_ｈｘと、列要素Ｙで定義されるテキストデータＤｙ_ｈの重みは同じであるため、式（１７）中の、テキストデータＤｘ_ｈを条件としたテキストデータＤ_ｈの条件付確率Ｐ（Ｄ_ｈ｜Ｄｘ_ｈ）と、テキストデータＤｙ_ｈを条件としたテキストデータＤ_ｈの条件付確率Ｐ（Ｄ_ｈ｜Ｄｙ_ｈ）はそれぞれ０．５とする。

【0114】

式（１０）のテキストデータＤ_ｈの確率Ｐ（Ｄ_ｈ）は、式（１８）で表され、Ｐ（Ｚ_ｋ）はＰＬＳＡの実行で得られる。

【0115】

【数14】

【0116】

以上に述べたように、本実施形態に係る分析方法、分析装置及び分析プログラムによれば、実施形態１と同様の作用効果を奏する。また、本実施形態では、文章ごとではなく、テキストデータから共起行列を作成する。このため、本実施形態の分析方法等は、テキストデータに異なる観点の文章が複数含まれていない場合に、特に有用である。

【0117】

〈実施形態３〉
実施形態１ではテキストデータから抽出された文章を対象として共起行列を作成し、実施形態２ではテキストデータを対象として共起行列を作成したが、本発明はこれらに限定されない。

【0118】

本実施形態のテキストデータは、カテゴリに分類されたテキスト部（１又は複数の文章からなる）を複数備えた構造となっている。表１２にテキストデータを例示する。

【0119】

【表12】

【0120】

表１２に示すように、テキストデータは、複数のテキスト部からなり、各テキスト部は、カテゴリに分類されている。例えば、特許出願の明細書等に関するテキストデータには、タイトル（発明の名称）、課題、解決手段、効果などのカテゴリに分類されたテキスト部が含まれている。

【0121】

共起行列作成手段１１は、複数のカテゴリのうち特定の２個のカテゴリを用いる。この２個のカテゴリは、ユーザーに指定されたものである。それらの２個のカテゴリのうちの一つを第１のカテゴリ、他の一つを第２のカテゴリと称する。

【0122】

共起行列作成手段１１は、第１のカテゴリに分類されたテキスト部から第１語群に属する語、及び第２のカテゴリに分類されたテキスト部から第２語群に属する語の組み合わせの頻度を表す共起行列を作成する。

【0123】

共起行列作成手段１１は、全てのテキストデータのうち、第１のカテゴリに分類されたテキスト部から第１語群を抽出し、第２のカテゴリに分類されたテキスト部から第２語群を抽出する。

【0124】

【0125】

【表13】

【0126】

表１３は、第１のカテゴリを「タイトル」とし、第２のカテゴリを「解決手段」とし、第１語群を「名詞」とし、第２語群を「係り受け表現」として作成した実測共起行列を例示している。

【0127】

例えば、要素（１，１）は、第１のカテゴリ「タイトル」に分類されたテキスト部に「ブレーキ」という名詞が含まれ、かつ、第２のカテゴリ「解決手段」に分類されたテキスト部に「基づく－発生」という係り受け表現が含まれるような共起ペアが存在するテキストデータの数は８件であることを表す。

【0128】

次に、共起行列作成手段１１は、第１のカテゴリに分類されたテキスト部に、第１語群に属する語が含まれるテキストデータの件数を計上して総頻度（ｎ（Ｘ_ｉ））を求める。また、共起行列作成手段１１は、第２のカテゴリに分類されたテキスト部に、第２語群に属する語が含まれるテキストデータの件数を計上して総頻度（ｎ（Ｙ_ｊ））を求める。そして、テキストデータの全件数を計上して総テキストデータ数Ｎとし、期待頻度を計算する。このような期待頻度を、全ての第１語群に属する語及び第２語群に属する語について計算し、期待共起行列を作成する。

【0129】

【0130】

【0131】

本実施形態におけるスコアの計算は、Ｄｘ_ｈ、Ｄｙ_ｈの定義が異なる以外は、実施形態２と同様であるので詳細な説明は省略する。Ｄｘ_ｈは、第１のカテゴリに分類されたテキスト部から得られた、第１語群に含まれる語（行要素Ｘ_ｉ）の集合である（式（１９））。Ｄｙ_ｈは、第２のカテゴリに分類されたテキスト部から得られた、第２語群に含まれる語（列要素Ｙｉ）の集合である（式（２０））。

【0132】

【数15】

【0133】

以上に述べたように、本実施形態に係る分析方法、分析装置及び分析プログラムによれば、実施形態１及び実施形態２と同様の作用効果を奏する。また、本実施形態では、カテゴリに分けられたテキスト部を含む、構造化されたテキストデータを対象として分析する場合に特に有用である。

【符号の説明】

【0134】

１分析装置
１０分析プログラム
１１共起行列作成手段
１２トピック抽出手段
１３スコア計算手段

【図1】

【図2】

【図3】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版