特開2015-127916(P2015-127916A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌ・ティ・ティ・コムウェア株式会社の特許一覧

特開2015-127916分類装置、分類方法、及び分類プログラム
<>
  • 特開2015127916-分類装置、分類方法、及び分類プログラム 図000013
  • 特開2015127916-分類装置、分類方法、及び分類プログラム 図000014
  • 特開2015127916-分類装置、分類方法、及び分類プログラム 図000015
  • 特開2015127916-分類装置、分類方法、及び分類プログラム 図000016
  • 特開2015127916-分類装置、分類方法、及び分類プログラム 図000017
  • 特開2015127916-分類装置、分類方法、及び分類プログラム 図000018
  • 特開2015127916-分類装置、分類方法、及び分類プログラム 図000019
  • 特開2015127916-分類装置、分類方法、及び分類プログラム 図000020
  • 特開2015127916-分類装置、分類方法、及び分類プログラム 図000021
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2015-127916(P2015-127916A)
(43)【公開日】2015年7月9日
(54)【発明の名称】分類装置、分類方法、及び分類プログラム
(51)【国際特許分類】
   G06F 17/30 20060101AFI20150612BHJP
【FI】
   G06F17/30 414B
【審査請求】未請求
【請求項の数】9
【出願形態】OL
【全頁数】17
(21)【出願番号】特願2013-273479(P2013-273479)
(22)【出願日】2013年12月27日
(71)【出願人】
【識別番号】397065480
【氏名又は名称】エヌ・ティ・ティ・コムウェア株式会社
(74)【代理人】
【識別番号】100064908
【弁理士】
【氏名又は名称】志賀 正武
(74)【代理人】
【識別番号】100108578
【弁理士】
【氏名又は名称】高橋 詔男
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(72)【発明者】
【氏名】川前 徳章
(57)【要約】
【課題】nグラムを抽出するときの利便性を向上させることができる分類装置、分類方法、分類プログラムを提供すること。
【解決手段】分類装置は、確率分布から潜在変数の数K(Kは整数)を決定し、n(nは整数)グラムの単語を抽出するための潜在変数を推定する潜在変数推定部と、前記潜在変数推定部で推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率を推定する単語推定部と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
確率分布から潜在変数の数K(Kは整数)を決定し、n(nは整数)グラムの単語を抽出するための潜在変数を推定する潜在変数推定部と、
前記潜在変数推定部で推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率を推定する単語推定部と、
を備えることを特徴とする分類装置。
【請求項2】
n(nは整数)グラムの単語を抽出するための潜在変数を推定する潜在変数推定部と、
確率分布からnグラムの単語の数を決定し、前記潜在変数推定部で推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率を推定する単語推定部と、
を備えることを特徴とする分類装置。
【請求項3】
前記潜在変数推定部は、チャイニーズ・レストラン・プロセスにより、潜在変数の数Kを決定すること
を特徴とする請求項1または請求項2に記載の分類装置。
【請求項4】
前記単語推定部は、Pitman−Yorプロセスにより、nグラムの単語を推定すること
を特徴とする請求項2に記載の分類装置。
【請求項5】
前記潜在変数として、トピックを用いること
を特徴とする請求項1から請求項4のいずれか一項に記載の分類装置。
【請求項6】
確率分布から潜在変数の数K(Kは整数)を決定し、n(nは整数)グラムの単語を抽出するための潜在変数を推定する潜在変数推定過程と、
前記潜在変数推定過程により推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率の推定を行う単語推定過程と、
と有することを特徴とする分類方法。
【請求項7】
n(nは整数)グラムの単語を抽出するための潜在変数を推定する潜在変数推定過程と、
確率分布からnグラムの単語の数を決定し、前記潜在変数推定過程により推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率の推定を行う単語推定過程と、
を有すること特徴とする分類方法。
【請求項8】
分類装置のコンピュータに、
確率分布から潜在変数の数K(Kは整数)を決定し、n(nは整数)グラムの単語を抽出するための潜在変数を推定する潜在変数推定ステップと、
前記潜在変数推定ステップにより推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率を推定する単語推定テップと、
を実行させるための分類プログラム。
【請求項9】
分類装置のコンピュータに、
n(nは整数)グラムの単語を抽出するための潜在変数を推定する潜在変数推定ステップと、
確率分布からnグラムの単語の数を決定し、前記潜在変数推定ステップにより推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率を推定する単語推定ステップと、
を実行させるための分類プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、分類装置、分類方法、及び分類プログラムに関する。
【背景技術】
【0002】
nグラム(n−gram(nは整数))の抽出は、対象となる文書データをn単語単位でモデル化を行い、このモデル化の結果として可能となるものである。例えば、非特許文献1には、ベイズ理論に基づく階層構造の確率モデルを基本として、nグラム抽出を行うことが記載されている。
非特許文献1に示されるモデルでは、階層クラスにより、文書からトピックの潜在変数を取得し、トピックから単語の確率変数を取得している。また、非特許文献1に示されるモデルでは、以前の単語と以前のトピックとから次の単語間の状態を取得し、次の単語間の状態から、次の単語の確率変数を取得している。このようにして、非特許文献1では、連続するn単語からなるnグラムを抽出する。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Xuerul Wang、 Mc Callum A. Xing Wei、 Topical N−grams: Phrase and Topic Discovery、 with an Application to Information Retrieval、 ICDM2007、 2007 Oct. pp.679−702
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、非特許文献1に示されるモデルでは、トピックの潜在変数の数を予め決定しておく必要がある。また、非特許文献1に示されるモデルでは、最適な単語数のnグラムを抽出することが難しい。このように、nグラムを抽出するときの利便性が十分でないという問題があった。
【0005】
上述の課題を鑑みてなされたものであり、本発明は、nグラムを抽出するときの利便性を向上させることができる分類装置、分類方法、分類プログラムを提供することを課題とする。
【課題を解決するための手段】
【0006】
(1)本発明は、上述した課題を解決するためになされたもので、本発明の一態様は、分類装置であって、確率分布から潜在変数の数K(Kは整数)を決定し、n(nは整数)グラムの単語を抽出するための潜在変数を推定する潜在変数推定部と、前記潜在変数推定部で推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率を推定する単語推定部と、を備えることを特徴とする分類装置である。
【0007】
(2)本発明の一態様は、分類装置であって、n(nは整数)グラムの単語を抽出するための潜在変数を推定する潜在変数推定部と、確率分布からnグラムの単語の数を決定し、前記潜在変数推定部で推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率を推定する単語推定部と、を備えることを特徴とする分類装置である。
【0008】
(3)本発明の一態様は、上述のいずれかの分類装置であって、前記潜在変数推定部は、チャイニーズ・レストラン・プロセスにより、潜在変数の数Kを決定することを特徴とする分類装置である。
【0009】
(4)本発明の一態様は、上述のいずれかの分類装置であって、前記単語推定部は、Pitman−Yorプロセスにより、nグラムの単語を推定することを特徴とする分類装置である。
【0010】
(5)本発明の一態様は、上述のいずれかの分類装置であって、前記潜在変数として、トピックを用いることを特徴とする分類装置である。
【0011】
(6)本発明の一態様は、分類方法であって、確率分布から潜在変数の数K(Kは整数)を決定し、n(nは整数)グラムの単語を抽出するための潜在変数を推定する潜在変数推定過程と、前記潜在変数推定過程により推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率の推定を行う単語推定過程と、と有することを特徴とする分類方法である。
【0012】
(7)本発明の一態様は、分類方法であって、n(nは整数)グラムの単語を抽出するための潜在変数を推定する潜在変数推定過程と、確率分布からnグラムの単語の数を決定し、前記潜在変数推定過程により推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率の推定を行う単語推定過程と、を有すること特徴とする分類方法である。
【0013】
(8)本発明の一態様は、分類プログラムであって、分類装置のコンピュータに、確率分布から潜在変数の数K(Kは整数)を決定し、n(nは整数)グラムの単語を抽出するための潜在変数を推定する潜在変数推定ステップと、前記潜在変数推定ステップにより推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率を推定する単語推定テップと、を実行させるための分類プログラムである。
【0014】
(9)本発明の一態様は、分類プログラムであって、分類装置のコンピュータに、n(nは整数)グラムの単語を抽出するための潜在変数を推定する潜在変数推定ステップと、確率分布からnグラムの単語の数を決定し、前記潜在変数推定ステップにより推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率を推定する単語推定ステップと、を実行させるための分類プログラムである。
【発明の効果】
【0015】
本発明によれば、nグラムを抽出するときの利便性を向上させることができる。
【図面の簡単な説明】
【0016】
図1】本発明の実施形態に係るグラフィカルモデルの一例を示す概略図である。
図2】本実施形態に係るシンボルの一例を示す説明図である。
図3】本実施形態に係る分類システムの構成の一例を示すシステム構成図である。
図4】本実施形態に係る分類装置の構成の一例を示す概略ブロック図である。
図5】本実施形態に係る分類装置における計算処理の説明の一例を示すフローチャートである。
図6】本実施形態に係る分類装置における計算処理の処理内容の一例を説明する説明図である。
図7】本実施形態に係る分類装置における計算処理の処理内容の一例を説明する説明図である。
図8】本発明の比較例に係るグラフィカルモデルの一例を示す概略図である。
図9】本実施形態に係る分類装置の効果の一例を説明する説明図である。
【発明を実施するための形態】
【0017】
<実施形態>
以下、本発明の実施の形態について図面を参照しながら説明する。
図1は、本発明の実施形態に係るグラフィックモデルである。なお、本実施形態におけるシンボルとその定義については、図2に示す通りである。
【0018】
ノード11は、パラメータαのノードである。パラメータαは、トピックの数およびトピックを求めるための確率分布を生成するハイパーパラメータ(ディリクレパラメータ)である。
ノード12(潜在変数推定部)は、トピックの潜在変数Zijを求めるノードである。ここで、iは、トークン(単語)の番号であり、jは、文書の番号である。トピックの潜在変数Zijは、j番目のレビュー文書中のi番目のトークンを表す。本実施形態では、トピックの確率分布の生成プロセスとして、チャイニーズ・レストラン・プロセス(Chinese restaurant process)を導入している。チャイニーズ・レストラン・プロセスを導入することで、トピックの数(K(Kは整数))は、予め設定することなく、適切に決定される。
【0019】
ノード13は、パラメータλのノードである。パラメータλは、レイティングを求めるためのトピックごとの確率分布を生成するコンセントレーション・パラメータである。
ノード14は、レイティングの観測変数vを求めるノードである。レビュー文書には、当該レビュー文書に付随する付随情報であるメタデータが含まれている。メタデータとは、レビュー文書に対する評価を表す情報、レビュー文書の作成日時を表す情報やレビューデータの閲覧日時を表す情報、レビュー文書の閲覧数の情報などのことである。レイティングは、レビュー文書ごとのメタデータの情報により行われる。各レビュー文書に存在する同じ単語でも、レビュー文書のトピックにより異なる意味となることがある。例えば、「小さい」や「軽い」は、トピックがモバイル装置の場合には肯定的な意味となるが、トピックが果物の場合には否定的な意味となる。ノード14では、トピックごとのメタデータのベータ分布を使って、レビュー文書jごとのレイティングの観測変数vを求めている。
【0020】
本実施形態では、レイティングを連続値として扱い、レイティングの確率分布として、ベータ分布を用いているが、レイティングを離散値として扱い、レイティングの確率分布として、多項分布を用いてもよい。
【0021】
ノード15、15、…、15n−1は、パラメータγ(λ、λ、…、λn−1)のノードである。パラメータγ(λ、λ、…、λn−1)は、コンセントレーション・パラメータである。
ノード16、16、…、16n−1は、パラメータd(d、d、…、dn−1)のノードである。パラメータd(d、d、…、dn−1)は、ディスカウント・パラメータである。
【0022】
ノード17、17、…、17n−1は、nグラムの各単語の確率分布G(G、G、…、G)を求めるノードである。本実施形態において、ノード17、17、…、17n−1は、パラメータγと、パラメータdと、前のパラメータGと、から、ピットマン・ユア(Pitman−Yor)プロセスを階層的に用いて、nグラムの各単語の確率分布を求めている。すなわち、ノード17は、一般の文書集合全体で使われる基本となる確率分布Gを生成する。ノード17、…、17n−1は、Pitman−Yorプロセスを階層的に用いることで、各確率分布の確率分布により、トピックkのnグラムの各単語の確率分布Gk、…、Gを求める。
【0023】
ノード18(単語推定部)は、ノード12で求められたトピックの潜在変数Zjiと、トピックkごとの各単語の確率分布G、G、…、Gと、からレビュー文書jのトークンiのnグラムの単語の観測変数wjiを求める。ここで、nグラムの単語の数は、Pitman−Yorプロセスを階層的に用い、チャイニーズ・レストラン・プロセスと同様の手法を導入することで、適切に設定される。
【0024】
チャイニーズ・レストラン・プロセスは、ノンパラメトリックのディレクレ・プロセスで使用され、数の区切りを生成する。本実施形態では、このチャイニーズ・レストラン・プロセスを、トピックの事前確率分布として用いている。
【0025】
チャイニーズ・レストラン・プロセスは、各テーブルが無限数個の座席キャパシティを有する無限数個の円形テーブルを備えたレストランのメタファを使って記述される。テーブルに順に番号が付けられていると仮定し、Zはi番目の客が座るテーブル(トピック)の番号を示すものとする。店に客が入ると、その客が、誰かが座っているテーブルを選択する可能性は、既に座っている人の数に比例し、誰も座っていないテーブルを選択する可能性は、ある定数パラメータに比例する。すなわち、最初のテーブルに最初の客が座り(Z=1)、それから、テーブルに座るi番目の客の確率分布は、(1)式に示す通りになる。
【0026】
【数1】
【0027】
チャイニーズ・レストラン・プロセスは、レストランでテーブルに座る順番からランダムな区切りを取得する意味で、ディリクレ・プロセスの範疇の確率として記述できる。客は、テーブルを選択して座り、数の区切りを取得する。それは、ディリクレ・プロセスから得られるクラスタ構造と同様のものである。
【0028】
このように、トピックの確率分布の生成プロセスとして、チャイニーズ・レストラン・プロセスを導入することで、トピックの数Kは、予め設定することなく、適切に決定されることになる。
【0029】
次に、本実施形態におけるレイティングの推定について説明する。前述したように、本実施形態では、各レビュー文書でのレイティングの観測変数vを求めるのにベータ分布を使っている。この処理手順は、チャイニーズ・レストラン・プロセスと類似して記述できる。それは、レストランのテーブルに座る客の順番からランダムな区切りを取得する意味において、ディリクレ・プロセスと同様の確率として記述される。
【0030】
つまり、もし、トピックZijが、レビュー文書(レストラン)jでのi番目の客により選択されたテーブルのインデックスなら、以下のような分布となる。
【0031】
【数2】
【0032】
この式でのハイパーパラメータαは、補助可変サンプリングにより推定される。単語の提示での次元の減少と、それに対応する評価の決定と、を同時に達成するために、単語と、与えられたレイティングと、がベータ分布を使うトピックを介して結合される。したがって、レイティングの確率vjは、以下のように与えられる。
【0033】
【数3】
【0034】
次に、本実施形態におけるnグラムの単語の推定について説明する。前述したように、本実施形態では、nグラムの各単語の確率分布を、Pitman−Yorプロセスを階層的に用いて求めている。Pitman−Yorプロセスを階層的に用いることで、べき乗則をコントロールすることができる。
【0035】
つまり、べき乗則は、二つの量の間の数学上の関係であり、言語学上、ジップの法則として知られている。例えば、十分に大きなコーパスにおいて頻度nwで起こる単語wの確率P(nw)は、以下のように与えられる。
【0036】
【数4】
【0037】
Pitman−Yorプロセスは、ディリクレ・プロセスを定義し、無次元パラメータ空間上の確率分布の確率分布を定義することにより、ベイジアン・フレームワークでのノンパラメトリック推定を行う。Pitman−Yorプロセスは、以下のように示される。
【0038】
【数5】
【0039】
ここで、ディスカウント・パラメータdは、べき乗則の性質をコントロールするパラメータとなる。
【0040】
上式のPitman−Yorプロセスにおいて、パラメータGとして、確率分布Gと置き、これにより求められる確率分布をGとして、以下、再帰的に計算を行うことで、これに続くnグラムの各単語の確率分布を求めることができる。
【0041】
G〜PYP(γ,d,G)を生成する手続きは、式(1)により、チャイニーズ・レストラン・プロセスのメタファを使って記述できる。パラメータd及びγは、べき乗則をスムージングする効果を生み出す。
【0042】
つまり、最初のテーブルに最初の客が座り(z=1)、そして、i番目の客が選択するテーブルは、以下の分布に従う。
【0043】
【数6】
【0044】
ここで、テーブルの数が、レストランに入っていく客の数と同様に増加するとき、このディスカウント・パラメータは、べき乗則を生み出す。つまり、Pitman−Yorプロセスは、べき乗則分布に従った結果をもたらす。
【0045】
また、チャイニーズ・レストラン・プロセス手法を導入することで、nグラム連結モデルの単語の数を適切に設定することができる。つまり、本実施形態では、Pitman−yorプロセスを再帰的に用いることにより、nグラムの単語を生成している。nグラムの単語を形成するために、本実施形態では、単語を階層的にサンプルする。
【0046】
単語の基本の確率分布Gは、トピックk=0に割り当てられた基本となる単語のユニグラム(1グラム)の確率ベクトルである。確率分布Gは、以前の情報を使わずに、一般の文書集合全体で求められた確率分布である。単語の基本の確率分布Gは、以下のように取得できる。
【0047】
【数7】
【0048】
トピック特有のユニグラムの確率分布は、与えられた単語の基本の確率分布G及び現在のトピックkにより取得される。確率分布Gkは、求められた確率分布Gを、次のパラメータGとして置くことにより取得される。
【0049】
【数8】
【0050】
ここで、各トピックのnグラム単語の確率分布を生成するために、各トピックをレストランオーナーとみなす。このことにより、チャイニーズ・レストラン・プロセスは、チャイニーズ・レストラン・フランチャイズ・プロセスに拡張される。
【0051】
例えば、各単語の確率分布Gは、レストラン(単語の番号)uよりインデックスされ 、オーナー(トピック)kにより管理された関連するレストランを有している。ここで、確率分布Gは、uに続く条件付きwの確率であり、uは、トピックkでの以前のn−1単語の番号である。このレストランの客は、確率分布Gから取り出され、テーブルは、その確率分布の前の基本確率分布から取得され、料理は、単語から取得された値である。
【0052】
単語の確率の事前確率分布として、Pitman−yorプロセスを再帰的に置いていくことにより、各文書において同じ連続したトピックの割り当てから引き出された各nグラムが定義される。
【0053】
【数9】
【0054】
式(9)を使って、以前の確率分布Gを再帰的に置いていくことで、次の単語の確率分布を取得できる。なお、コンセントレーション・パラメータγ及びディスカウント・パラメータdは、そのフレーズの長さに関係する機能をもつ。この演算は、バックグランドの単語の確率分布Gが得られるまで繰り返される。
【0055】
各レストラン(単語の数)u及び料理(単語)wについて、cuwl及びtuwlを、それぞれ、kにより管理されたレストランuでテーブルlに座り料理(単語)wを食している客の数、及び、同じレストランuでkによる提供する料理wのテーブルの数と定義する。限界数を示すことにより、culは、kにより管理されるテーブルlに座る客の数となり、cuwは、kにより経営されるuでの食された料理wとなり、cは、kにより経営されたuの客の数となり、tは、kの経営するuのテーブルの数となる。その結果、G、G及びGから取り出された次の単語wは、再帰的に以下のように計算される。
【0056】
【数10】
【0057】
図2は、本実施形態に係るシンボルの一例を示す説明図である。
図示するように、D(K,W)は、レビュー文書の数(トピックの数、単語の数)を表す。Nは、レビュー文書jでの単語トークンの数を表す。vは、レビュー文書jに関連数レイティングを表す。zjiは、レビュー文書jにおける位番目のトークンに関連するトピックを表す。wjiは、レビュー文書jにおけるi番目のトークンを表す。uは、単語の順(フレーズ)を表す。u(/)は、単語の順を表す。Gは、与えられたコーパスでの単語の確率分布を表す。Gは、トピックkに特有な単語の確率分布を表す。Gは、トピックkにおいて、特有な単語uの確率分布を表す。αは、ハイパーパラメータを表す。dは、ディスカウント・パラメータを表す。γは、コンセントレーション・パラメータを表す。
【0058】
次に、図1に示したようなグラフィックモデルで示される処理について、具体的に説明する。上述のように、本実施形態では、チャイニーズ・レストラン・プロセスを導入して、潜在変数Zjiの数を決定し、Pitman−yorプロセスを階層的に用いることで、nグラム連結モデルの推定を行っている。これらの処理は、ギブスのサンプリングにより実現できる。
【0059】
図3は、本実施形態に係る分類システムの構成の一例を示す概略図であり、図4は、分類装置の構成の一例を示す概略ブロック図である。図3に示すように、本発明の実施形態に係るシステムは、ファイルサーバ51と、計算サーバ52と、データベース53と、サービスサーバ54とから構成される。
【0060】
ファイルサーバ51は、図4に示すように、計算対象となるレビューデータを保存するデータファイル保存部61を備えている。データファイル保存部61に保存するレビューデータは、インターネット上のブログの文書や、ウェブページの文書などである。また、レビューデータは、メタデータとレビューとが関連付けられた文書データである。なお、計算対象となるレビューデータは、インターネット上の文書に限られるものではない。
【0061】
計算サーバ52は、ファイルサーバ51から計算対象のレビューデータを取り出し、図1に示したグラフィックモデルで示されるような計算処理を行い、計算結果を出力する。計算サーバ52は、図4に示すように、事前処理部71と計算処理部72を備えている。事前処理部71は、計算処理対象のレビューデータを含むファイルから、単語を抽出する。そして、事前処理部71は、テキストID及び単語IDを付加し、その対応表をファイルシステムに保存する。計算処理部72は、図1に示したグラフィックモデルに対応するような計算処理を行う。
【0062】
データベース53は、図4に示すように、計算結果記憶部81を有している。計算サーバ52の計算処理部72の計算結果は、データベース53に送られ、計算結果記憶部81に保存される。
【0063】
サービスサーバ54は、計算結果をサービスの利用のために提供するためのサーバである。図4に示すように、サービスサーバ54は、呼び出し部91を備えている。ユーザ端末55からの呼び出しに応じて、呼び出し部91は、ユーザ端末55に計算結果をユーザ端末55に送る。この計算結果は、商品検索、レビュー検索、マーケティングなど、ユーザからのフィードバックや主観評価などの観測値(例えば、図2の連続値の観測変数v)を含む文書集合を扱う各種のサービスに利用できる。
【0064】
図5は、計算サーバ52における計算処理の説明の一例を示すフローチャートである。
図5において、まず、計算サーバ52の事前処理部71は、計算対象のテキスト毎に、単語及びメタデータ(作成日時、評価等)を抽出する。そして、事前処理部71は、各テキストにテキストIDを割り振り、各単語に単語IDを割り振る処理を行う(ステップS1)。
つまり、図6のテーブルT1では、最初のレコードのテキストには、「テキストAAAB」が記述され、最後のレコードのテキストには、「テキストXDCFR」が記述されている。最初のレコードのトークン(単語)には、「リンゴ」、「操作性」、「遺産」が記述されている。そして、最後のレコードのトークンには、「音楽」、「芸術」、「リンゴ」が記述されている。
【0065】
図6のテーブルT2は、このようなデータに対して、ステップS1で、テキストIDと単語IDを割り振る処理を行った場合の例である。図6のテーブルT2では、最初のレコードのテキストには、テキストIDとして「000」が割り振られ、最後のレコードのテキストには、テキストIDとして「086」が割り振られている。また、最初のレコードのトークン(単語)には、「0000」、「0003」、「0120」が単語IDとして割り振られている。そして、最後のレコードのトークンには、「1211234」、「03042」、「0000」が単語IDとして割り振られている。
【0066】
次に、計算サーバ52の計算処理部72は、乱数を発生し、その値を確率変数(Z)とする(ステップS2)。図7のテーブルT3は、ステップS2で、テキストIDと単語IDを割り振ったテーブルT2に対して、乱数を発生し、トピックの確率変数(Z)としたものである。つまり、テーブルT3の最初のレコードでは、トピックの確率変数として、乱数「11」、「8」、「3」が入れられている。また、最後のレコードでは、トピックの確率変数として、乱数「2」、「1」、「11」が入れられている。
【0067】
次に、計算サーバ52の計算処理部72は、ギブスサンプリングにより、潜在変数の推定を行う(ステップS3)。そして、サンプリングの数が予め設定されたら、処理を終了する(ステップS4)。これにより、トピックの潜在変数の数を最適に決定してトピックの潜在変数を推定し、推定されたトピックを用いてnグラムを推定することができる。
【0068】
<比較例>
図8は、比較例のグラフィックモデルである。図8において、ノード101は、ハイパーパラメータαのノードである。ハイパーパラメータαは、トピックの確率分布θを求めるのに用いられる。
ノード102は、文書データ毎に特異なトピックの確率分布θを求めるノードである。ここで、Dは、文書の数を表し、トピックの確率分布θは、文書毎に存在するD種類となる。
【0069】
ノード103、…、103、103i+1、…は、トピックの潜在変数z(z、…、z、zi+1、…)を取得するノードである。すなわち、ノード103、…、103、103i+1、…は、文書データから、ノード102で求められた文書毎に特異なトピックの確率分布θに基づき、トピックの潜在変数z、…、z、zi+1、…を取得する。ここで、zは、i番目(iは任意の整数)の単語(トークン:単語の最小単位)に関連するトピックである。
【0070】
ノード104は、ハイパーパラメータβのノードである。ハイパーパラメータβは、単語の確率分布φを求めるために用いられる。
ノード105は、トピック毎に特異な単語の確率分布φを求めるノードである。トピックの数はZであり、ノード105の単語の確率分布φは、Z種類となる。
【0071】
ノード106は、ハイパーパラメータεのノードである。ハイパーパラメータεは、次の単語間状態の確率分布σを求めるために用いられる。
ノード107は、以前の単語と以前のトピック毎に特異な次の単語間状態の確率分布σを求めるためのノードである。なお、次の単語間状態の確率分布σは、(Z×W)種類となる。
【0072】
ノード108は、ハイパーパラメータγのノードである。ハイパーパラメータγは、次の単語の確率分布ψを求めるために用いられる。ハイパーパラメータγは、初期値としてランダム値が用いられる。
ノード109は、以前の単語と現在のトピック毎に特異な次の単語の確率分布ψを求めるノードである。ここで、Zは、トピックの数、Wは、単語の数を表し、次の単語の確率分布ψは、(Z×W)種類となる。
【0073】
ノード110、…、110、110i+1、…は、単語の観測変数を取得するノードである。すなわち、ノード110、…、110、110i+1、…は、ノード103、…、103、103i+1、…で取得されたトピックz、…、z、zi+1、…から、ノード105で求められた単語の確率分布φに基づき、単語の観測変数w、…、w、wi+1、…を取得する。また、ノード110、110i+1、…は、以前の単語と現在のトピックから、ノード109で求められた次単語の確率分布ψに基づき、次の単語の観測変数w、wi+1、…を取得する。ここで、wは、i番目(iは任意の整数)の単語を表す。
【0074】
ノード111、111i+1、…は、以前の単語と以前のトピックとから、次の単語間の状態を取得するノードである。すなわち、ノード111、111i+1、…は、ノード103、…、103、103i+1…で取得された以前のトピックz、…、z、zi+1、…と、ノード110、…、110、110i+1、…で取得された以前の単語w、…、w、wi+1、…とから、ノード107で求められた次の単語間状態の確率分布σに基づき、次の単語間の状態の潜在変数x、xi+1、…を取得する。
【0075】
図8に示すように、比較例では、トピックを潜在変数として用いる場合、トピックの数を予め決めておく必要がある。図8の例では、トピックの数はZであり、この場合、トピック毎に特異な単語の確率分布φとして、Z種類の確率分布が必要になる。また、次の単語の確率分布ψとして、(Z×W)種類の確率分布が必要になる。トピックの数を多くすれば、処理数が増大する。トピックの数を少なくすれば、トピック毎の単語を精度良く推定できない。これに対して、本実施形態では、チャイニーズ・レストラン・プロセスを導入することで、トピックの数を適切に設定できる。
【0076】
また、図8に示す比較例では、以前の単語と以前のトピックとから、次の単語間の状態を取得して、次の単語を推定している。この構成は、基本的に、2グラム連結モデルである。図8に示す比較例でn(n>3)グラム抽出を行っても、2グラムモデルを基本とするものとなるため、意味のあるnグラム抽出は行えない。これに対して、本実施形態では、Piyman−Yorプロセスを階層的に導入することでnグラム連結モデルを実現できる。また、チャイニーズ・レストラン・プロセスを拡張して導入することで、nグラム抽出の単語の数を適切に設定できる。
【0077】
図9は、本実施形態により抽出したフレーズ(2グラム、3グラム)と、比較例により抽出したフレーズ(2グラム、3グラム)とを比較したものである。
ここでは、DVDタイトルと、本のタイトルと、音楽のタイトルとについて、本実施形態により抽出したフレーズと、図8に示した比較例により抽出したフレーズとについて、Precision(適合率)とRecall(再現率)とを比較している。
【0078】
ここで、Precisionは、(計算結果の中の正解数/計算結果の数)を示し、Recallは、(計算結果の中の正解数/全ての正解数)を示す。Precisionは、抽出結果中にどれくらい間違った結果が含まれているかの指標となり、Recallは、抽出のとりこぼしがどれくらいあるかの指標となる。基本的に、PrecisionとRecallとは、トレードオフの関係にある。
【0079】
図9に示す結果から、本実施形態では、PrecisionとRecallとの双方について、比較例より、良好な抽出結果が得られることが確認されている。例えば、2グラムの場合、本のタイトルでは、比較例では、Precisionが「0.67」、Recallが「0.60」であったが、本実施形態では、Precisionが「0.87」、Recallが「0.90」となり、PrecisionとRecallとの双方について、良好な抽出結果が得られている。また、3グラムの場合、本のタイトルでは、比較例では、Precisionが「0.46」、Recallが「0.42」であったが、本実施形態では、Precisionが「0.82」、Recallが「0.86」となり、PrecisionとRecallとの双方について、良好な抽出結果が得られている。
【0080】
このように、本実施形態によれば、分類装置は、確率分布から潜在変数の数K(Kは整数)を自動的に決定し、n(nは整数)グラムの単語を抽出するための潜在変数を推定する潜在変数推定部と、潜在変数推定部で推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率を推定する単語推定部と、を備える。
これにより、nグラムを抽出するときに予め潜在変数の数(トピックの数)を決めておく必要がなく、潜在変数の数を自動的に決定することができるため、潜在変数の数を適切に設定することができ、nグラムを抽出するときの利便性を向上させることができる。
【0081】
また、本実施形態によれば、分類装置は、n(nは整数)グラムの単語を抽出するための潜在変数を推定する潜在変数推定部と、確率分布からnグラムの単語の数を決定し、潜在変数推定部で推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率を推定する単語推定部と、を備える。
これにより、nグラムの単語の抽出におけるnを表す単語の数を適切に設定することができ、nグラムを抽出するときの利便性を向上させることができる。
【0082】
また、チャイニーズ・レストラン・プロセスを導入することで、トピックを潜在変数として用いてnグラムを推定する場合、トピックの数を予め決めておく必要がなく、トピックの数を適切に設定することができる。また、Piyman−Yorプロセスを階層的に導入することでnグラム連結モデルを実現することができ、また、チャイニーズ・レストラン・プロセスを拡張して導入することで、nグラム抽出の単語の数を適切に設定することができる。
【0083】
なお、上述した実施形態では、nグラムの抽出を、英単語を中心して説明しているが、本発明は、英単語によるnグラムの抽出ばかりでなく、日本語やその他の多言語においても抽出することができる。
【0084】
また、上述した実施形態では、トピックを潜在変数としてnグラムの抽出を行う場合について説明したが、潜在変数はトピックに限定されるものではない。また、トピック以外の潜在変数を用いる場合にも、チャイニーズ・レストラン・プロセスにより、同様にして潜在変数の数を最適に決定することができる。
【0085】
また、本実施形態の計算サーバ52の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムを、コンピュータシステムに読み込ませ、実行することにより、計算サーバ52に係る上述した種々の処理を行ってもよい。
【0086】
なお、ここでいう「コンピュータシステム」とは、OSや周辺機器などのハードウェアを含むものであってもよい。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリなどの書き込み可能な不揮発性メモリ、CD−ROMなどの可搬媒体、コンピュータシステムに内蔵されるハードディスクなどの記憶装置のことをいう。
【0087】
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネットなどのネットワークや電話回線などの通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置などに格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。
【0088】
ここで、プログラムを伝送する「伝送媒体」は、インターネットなどのネットワーク(通信網)や電話回線などの通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0089】
以上、本発明の実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計なども含まれる。
【符号の説明】
【0090】
51 ファイルサーバ
52 計算サーバ
53 データベース
54 サービスサーバ
55 ユーザ端末
61 データファイル保存部
71 事前処理部
72 計算処理部
81 計算結果記憶部
91 呼び出し部
図1
図2
図3
図4
図5
図6
図7
図8
図9