特許6763530 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 独立行政法人産業技術総合研究所の特許一覧

特許6763530歌詞のトピック推定情報生成システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6763530

(24)【登録日】2020年9月14日

(45)【発行日】2020年9月30日

(54)【発明の名称】歌詞のトピック推定情報生成システム

(51)【国際特許分類】

G06F 16/335 20190101AFI20200917BHJP

G06F 40/30 20200101ALI20200917BHJP

G06F 40/216 20200101ALI20200917BHJP

G06N 7/00 20060101ALI20200917BHJP

G06N 20/00 20190101ALI20200917BHJP

【ＦＩ】

G06F16/335

G06F40/30

G06F40/216

G06N7/00 150

G06N20/00

【請求項の数】16

【全頁数】31

(21)【出願番号】特願2018-568598(P2018-568598)

(86)(22)【出願日】2018年2月15日

(86)【国際出願番号】JP2018005227

(87)【国際公開番号】WO2018151203

(87)【国際公開日】20180823

【審査請求日】2019年6月18日

(31)【優先権主張番号】特願2017-26196(P2017-26196)

(32)【優先日】2017年2月15日

(33)【優先権主張国】JP

【国等の委託研究の成果に係る記載事項】（出願人による申告）平成２８年度、国立研究開発法人科学技術振興機構戦略的創造研究推進事業（ＡＣＣＥＬ）委託研究「次世代メディアコンテンツ生態系技術に関する研究開発と全体総括」、産業技術力強化法第１７条の適用を受ける特許出願

(73)【特許権者】

【識別番号】301021533

【氏名又は名称】国立研究開発法人産業技術総合研究所

(74)【代理人】

【識別番号】100091443

【弁理士】

【氏名又は名称】西浦 ▲嗣▼晴

(72)【発明者】

【氏名】佃洸摂

(72)【発明者】

【氏名】後藤真孝

【審査官】吉田誠

(56)【参考文献】

【文献】東海菜摘他，ユーザの行動に基づいた楽曲推薦システムの提案，情報処理学会研究報告音楽情報科学（ＭＵＳ）２０１６−ＭＵＳ−１１０［ｏｎｌｉｎｅ］，日本，情報処理学会，２０１６年２月２２日，第１−５ページ

【文献】平井辰典他，楽曲のビート類似度及び潜在トピックの類似度に基づくＤＪプレイの自動化，情報処理学会研究報告音楽情報科学（ＭＵＳ）２０１５−ＭＵＳ−１０８［ｏｎｌｉｎｅ］，日本，情報処理学会，２０１５年８月２４日，第１−８ページ

【文献】佐々木将人他，ＬｙｒｉｃｓＲａｄａｒ：歌詞の潜在的意味に基づく歌詞検索インタフェース，情報処理学会論文誌（ジャーナル）［ｏｎｌｉｎｅ］，日本，情報処理学会，２０１６年５月１５日，Ｖｏｌ．５７Ｎｏ．５，第１３６５−１３７４ページ

【文献】渡邉研斗他，大規模歌詞データからの潜在的トピック遷移のモデル化，第７７回（平成２７年）全国大会講演論文集（２）人工知能と認知科学，２０１５年３月１７日，第2-371〜2-372ページ

【文献】菊池剛他，多重トピック抽出手法を用いた歌詞に基づく楽曲情景推定手法の検討，電子情報通信学会２０１１年総合大会講演論文集情報・システム１，２０１１年２月２８日，第２６ページ

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１６／００−１６／９５８

Ｇ０６Ｆ４０／００

Ｇ０６Ｎ７／００

Ｇ０６Ｎ２０／００

(57)【特許請求の範囲】

【請求項1】

歌詞の内容から定まる歌詞の主題、本題またはテーマ等となるトピックを推定するのに確かな情報を得る歌詞のトピック推定情報生成システムであって、
複数のアーティストごとに、曲名及び前記歌詞からなる複数の歌詞データを取得する歌詞データ取得手段と、
１からＫ（正の整数）までの所定の数のトピック番号ｋ（１≦ｋ≦Ｋ）を生成するトピック番号生成手段と、
前記複数の歌詞データ中の複数の歌詞を形態素解析エンジンを用いた形態素解析により解析して複数の単語を抽出する解析手段と、
最初に前記複数のアーティスト毎の前記複数の歌詞データにランダムまたは任意に前記トピック番号を割り当てた後、あるアーティストａのある歌詞データＳ_ar以外の歌詞データでトピック番号ｋが割り当てられている歌詞データの数Ｒ_akと前記ある歌詞データＳ_arを除く前記複数のアーティストの前記複数の歌詞データの中で前記単語ｖにトピック番号ｋが割り当てられている回数Ｎ_kvとを基に前記ある歌詞データＳ_arのトピック番号がｋである確率ｐを求め、該確率から前記ある歌詞データＳ_arのトピック番号の確率分布を作成し、次に前記トピック番号の確率分布ｐに対応した出現確率に偏りのある乱数生成器を用いて、前記あるアーティストａの前記ある歌詞データＳ_arに割り当てた前記トピック番号を更新するトピック番号更新演算を行い、前記複数のアーティスト毎の前記複数の歌詞データの全てについて前記トピック番号更新演算を実施するトピック番号更新学習演算を、予め定めた回数実行するトピック番号学習手段と、
前記複数のアーティスト毎の前記複数の歌詞データに含まれる前記複数の単語にランダムまたは任意にスイッチ変数の値を割り当てた後、前記あるアーティストａの前記複数の歌詞データ中の前記複数の単語に対して前記割り当てたスイッチ変数の値から前記ある単語ｖ_arjに割り当てた前記スイッチ変数ｘの値がトピック語であるか背景語であるかの確率を計算してスイッチ変数の値の確率分布λ_aを作成し、次に前記スイッチ変数の値の確率分布に対応した出現確率に偏りのある乱数生成器を用いて、前記ある単語に割り当てた前記スイッチ変数の値を更新するスイッチ変数の値更新演算を行い、前記複数のアーティスト毎の前記複数の歌詞データに含まれる前記複数の単語の全てについて前記スイッチ変数の値の更新演算を実施するスイッチ変数の値更新学習演算を予め定めた回数実行するスイッチ変数の値学習手段と、
前記トピック番号学習手段の学習結果及び前記スイッチ変数の値学習手段の学習結果から、前記複数の歌詞データ毎のトピック番号と前記トピック番号毎の単語の確率分布を特定する出力手段とからなる歌詞のトピック推定情報生成システム。

【請求項2】

前記トピック番号学習手段において、前記トピック番号の確率分布を作成する際には、前記あるアーティストの前記ある歌詞データに割り当てたトピック番号以外の、全ての前記複数の歌詞データに割り当てたトピック番号が正しいと仮定していることを特徴とする請求項１に記載の歌詞のトピック推定情報生成システム。

【請求項3】

前記スイッチ変数の値学習手段において、前記スイッチ変数の値更新演算を行う際には、前記あるアーティストの前記ある歌詞データの前記複数の単語中のある単語に割り当てたスイッチ変数ｘ以外の、全ての単語に割り当てたスイッチ変数の値が正しいと仮定していることを特徴とする請求項１に記載の歌詞のトピック推定情報生成システム。

【請求項4】

前記トピック番号学習手段は、
前記トピック番号の確率分布を作成する際に、前記あるアーティストａの前記ある歌詞データＳ_ar以外の歌詞データでトピック番号ｋが割り当てられている歌詞データの数Ｒ_akを基に、前記ある歌詞データＳ_arのトピック番号がｋである第１の確率ｐ₁を計算し、
前記ある歌詞データＳ_arを除く前記複数のアーティストの前記複数の歌詞データの中で前記単語ｖにトピック番号ｋが割り当てられている回数Ｎ_kvを基に、前記ある歌詞データＳ_arのトピック番号がｋである第２の確率ｐ₂を計算し、
前記第１の確率ｐ₁と前記第２の確率ｐ₂から前記ある歌詞データＳ_arのトピック番号がｋである確率ｐを計算し、
これらの計算を全てのトピック番号に関して実施して前記ある歌詞データＳ_arの前記トピック番号が１〜Ｋである確率の和が１になるように正規化して前記ある歌詞データＳ_arの前記トピック番号の確率分布とすることを特徴とする請求項１に記載の歌詞のトピック推定情報生成システム。

【請求項5】

前記出力手段は、ある単語ｖにトピック番号ｋが割り当てられている回数Ｎ_kvから、各トピック番号毎の単語の確率分布を出力するように構成されている請求項１に記載の歌詞のトピック推定情報生成システム。

【請求項6】

前記出力手段における、前記トピック番号ｋの単語ｖの生起確率θ_kvは、下記式により求められ、
θ_kv＝（Ｎ_kv＋β）／（Ｎ_k＋β｜Ｖ｜）
但し、Ｎ_kvはある単語ｖにトピック番号ｋが割り当てられた回数、Ｎ_kはトピック番号ｋが割り当てられた全単語数、βはスムージング用パラメータ、｜Ｖ｜は単語の種類数である請求項５に記載の歌詞のトピック推定情報生成システム。

【請求項7】

前記スイッチ変数の値学習手段は、
前記あるアーティストａの全曲の歌詞データ中で前記スイッチ変数の値として０が割り当てられている単語の数Ｎ_aoを基に、前記単語ｖ_arj のスイッチ変数の値が０である第３の確率ｐ₃を計算し、
前記単語ｖ_arjを含む歌詞と同一の前記トピック番号ｚ_arが割り当てられた全アーティストの全曲の中で前記単語ｖ_arjに前記スイッチ変数の値として０が割り当てられている回数Ｎｚ_arｖ_arjを基に、前記単語ｖ_arjのスイッチ変数の値が０である第４の確率ｐ₄を計算し、
前記第３の確率ｐ₃と第４の確率ｐ₄から前記スイッチ変数が０である第５の確率ｐ₅を計算し、
前記あるアーティストの前記複数の歌詞データの中で前スイッチ変数の値として１が割り当てられている回数Ｎ_a1を基に、前記単語ｖ_arjの前記スイッチ変数の値が１である第６の確率ｐ₆を計算し、
前記複数のアーティストの前記複数の歌詞データの中で前記単語ｖ_arjに前記スイッチ変数の値として１が割り当てられている回数Ｎ_1varjを基に、前記単語ｖ_arjの前記スイッチ変数の値が１である第７の確率ｐ₇を計算し、
前記第６の確率ｐ₆と第７の確率ｐ₇から前記スイッチ変数が１である第８の確率ｐ₈を計算し、
前記第６の確率ｐ₆と第７の確率ｐ₇から前記単語ｖ_arjの前記スイッチ変数の値が０である確率と１である確率の和が１になるように正規化しての前記スイッチ変数の値の確率分布とする請求項１に記載の歌詞のトピック推定情報生成システム。

【請求項8】

前記出力手段における、前記複数の歌詞データ毎のトピック番号は、前記トピック番号学習手段において前記トピック番号更新学習演算を予め定めた回数実行して最後に前記複数の歌詞データに割り当てられたトピック番号である請求項１に記載の歌詞のトピック推定情報生成システム。

【請求項9】

学習に使用しなかったあるアーティストの新しい曲ｓの歌詞データに含まれる単語の確率分布を作成する第１の単語確率分布作成手段と、
前記複数のアーティストの前記複数の曲の歌詞データにそれぞれ含まれる単語の確率分布を作成する第２の単語確率分布作成手段と、
前記第１の単語確率分布作成手段で得た前記新しい曲ｓの歌詞データに含まれる単語の確率分布と前記前記第２の単語確率分布作成手段で得た前記複数の曲の歌詞データにそれぞれ含まれる単語の確率分布との間の類似度をそれぞれ求める類似度演算手段と、
前記複数の曲の歌詞データに対応する前記複数の曲の歌詞データの類似度を、前記トピック番号の重みとして加算して前記トピック番号の重み分布を作成する重み分布作成手段と、
前記重みが最大のトピック番号を前記新しい曲ｓの歌詞データのトピック番号とするトピック番号決定手段とを更に備えていることを特徴とする請求項１に記載の歌詞のトピック推定情報生成システム。

【請求項10】

背景の単語の生起確率を求めたい前記学習に使用しなかったあるアーティストの全ての曲の歌詞データに含まれる単語の確率分布を作成する第３の単語確率分布作成手段と、
前記アーティスト毎の全ての曲の歌詞データに含まれる単語の確率分布を作成する第４の単語確率分布作成手段と、
前記アーティスト毎の全ての曲の歌詞データに含まれる背景の単語の確率分布を作成する第５の単語確率分布作成手段と、
前記第３の単語確率分布作成手段で得た前記ある歌詞データに含まれる単語の確率分布と前記第４の単語確率分布作成手段で得た前記アーティスト毎の前記全ての曲の歌詞データに含まれる単語の確率分布との間の類似度をそれぞれ求める類似度演算手段と、
前記類似度演算手段で求めた前記アーティスト毎の前記類似度を前記第５の単語確率分布作成手段で得た前記アーティスト毎の全ての曲の歌詞データに含まれる背景の単語の確率分布にそれぞれ前記類似度を乗算して得た確率分布を前記アーティスト毎に足し合わせて重みの和が１になるように正規化して、背景の単語の生起確率とする背景の単語の生起確率作成手段とを更に具備することを特徴とする請求項９に記載の歌詞のトピック推定情報生成システム。

【請求項11】

【請求項12】

前記トピック番号学習手段において、前記トピック番号の確率分布を作成する際には、前記あるアーティストの前記ある歌詞データに割り当てたトピック番号以外の、全ての前記複数の歌詞データに割り当てたトピック番号が正しいと仮定していることを特徴とする請求項１１に記載の歌詞のトピック推定情報生成システム。

【請求項13】

前記トピック番号学習手段は、
前記トピック番号の確率分布を作成する際に、前記あるアーティストａの前記ある歌詞データＳ_ar以外の歌詞データでトピック番号ｋが割り当てられている歌詞データの数Ｒ_akを基に、前記ある歌詞データＳ_arのトピック番号がｋである第１の確率ｐ₁を計算し、
前記ある歌詞データＳ_arを除く前記複数のアーティストの前記複数の歌詞データの中で前記単語ｖにトピック番号ｋが割り当てられている回数Ｎ_kvを基に、前記ある歌詞データＳ_arのトピック番号がｋである第２の確率ｐ₂を計算し、
前記第１の確率ｐ₁と前記第２の確率ｐ₂から前記ある歌詞データＳ_arのトピック番号がｋである確率ｐを計算し、
これらの計算を全てのトピック番号に関して実施して前記ある歌詞データＳ_arの前記トピック番号が１〜Ｋである確率の和が１になるように正規化して前記ある歌詞データＳ_arの前記トピック番号の確率分布とすることを特徴とする請求項１１に記載の歌詞のトピック推定情報生成システム。

【請求項14】

前記出力手段は、ある単語ｖにトピック番号ｋが割り当てられている回数Ｎ_kvから、各トピック番号毎の単語の確率分布を出力するように構成されている請求項１３に記載の歌詞のトピック推定情報生成システム。

【請求項15】

前記出力手段における、前記トピック番号ｋの単語ｖの生起確率θ_kvは、下記式により求められ、
θ_kv＝（Ｎ_kv＋β）／（Ｎ_k＋β｜Ｖ｜）
但し、Ｎ_kvはある単語ｖにトピック番号ｋが割り当てられた回数、Ｎ_kはトピック番号ｋが割り当てられた全単語数、βはスムージング用パラメータ、｜Ｖ｜は単語の種類数である請求項１４に記載の歌詞のトピック推定情報生成システム。

【請求項16】

学習に使用しなかったあるアーティストの新しい曲ｓの歌詞データに含まれる単語の確率分布を作成する第１の単語確率分布作成手段と、
前記複数のアーティストの前記複数の曲の歌詞データにそれぞれ含まれる単語の確率分布を作成する第２の単語確率分布作成手段と、
前記第１の単語確率分布作成手段で得た前記新しい曲ｓの歌詞データに含まれる単語の確率分布と前記前記第２の単語確率分布作成手段で得た前記複数の曲の歌詞データにそれぞれ含まれる単語の確率分布との間の類似度をそれぞれ求める類似度演算手段と、
前記複数の曲の歌詞データに対応する前記複数の曲の歌詞データの類似度を、前記トピック番号の重みとして加算して前記トピック番号の重み分布を作成する重み分布作成手段と、
前記重みが最大のトピック番号を前記新しい曲ｓの歌詞データのトピック番号とするトピック番号決定手段とを更に備えていることを特徴とする請求項１１に記載の歌詞のトピック推定情報生成システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、歌詞のトピック推定情報生成システムに関するものである。

【背景技術】

【0002】

歌詞のトピックは、歌詞の内容から定まる歌詞の主題、本題またはテーマ等となるものである。この歌詞のトピックが正確に推定できれば、あるアーティストと歌詞のトピックの傾向が似たアーテッストを探して推薦したり、あるアーティストの曲の歌詞の傾向を知ることの自動化が可能になる。

【0003】

従来、歌詞のトピックを推定する技術としては、ＬＤＡ(Latent Dirichlet Allocation)法（非特許文献１）とクラスタリング法（非特許文献２）と呼ばれる技術がある。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】D.M. Blei, A. Y. Ng, and M. I. Jordan, "Latent Dirichlet Allocation,"The Journal of Machine Learning Research, 2003, pp. 993-1022

【非特許文献2】F. Kleedorfer, P. Knees, and T. Pohle, "Oh Oh Oh, Woah! Towards Automatic Topic Detection in Song Lyrics," In Proceedings of ISMIR 2008, 2008, pp. 287-292

【発明の概要】

【発明が解決しようとする課題】

【0005】

図２１（Ａ）に示すように、ＬＤＡ法では歌詞の単語毎にトピックが割り当てられるが、歌詞全体にトピックが割り当てられることがない。また図２１（Ｂ）に示すように、ＬＤＡ法ではアーティスト毎のトピック分布がモデル化されていない。さらに図２１（Ｃ）に示すように、ＬＤＡ法では歌詞中のいわゆる背景語を考慮していないので、各トピックの中でトピックとは無関係な単語の生起確率が高くなる可能性がある。

【0006】

またクラスタリング法では、図２２（Ａ）に示すように、歌詞の中の単語の発生回数や出現の有無に基づいてトピックを定めるが、数学的妥当性が自明でないため、トピックの決定までに試行錯誤が必要になる。また図２２（Ｂ）に示すように、単語をクラスタリングするために様々な数学的手法を試行錯誤で用いる必要がある。さらに図２２（Ｃ）に示すように、クラスタリング法では歌詞中のいわゆる背景語を考慮していないので、各トピックと関連の低い単語も含めた類似度が計算されることになり、トピックとは無関係な単語の影響で歌詞間の類似度が高くなる可能性がある。

【0007】

このような従来技術では、歌詞の意味解析を行う場合に、単語ごとにひとつのトピックを割り当てるのが一般的であり、歌詞のトピックの解釈が困難であった。また歌詞の数が少ないアーティストも歌詞の数が十分に存在するアーティストと同様の方法で推定器が構築され、意味解析の性能を低下させてしまっていた。

【0008】

本発明の目的は、数学的妥当性を持ってアーティスト毎のトピック分布を求めることができ、従来よりも歌詞のトピックの解釈に有効な情報を提供できる歌詞のトピック推定情報生成システムを提供することにある。

【0009】

本発明のさらなる目的は、トピック中において、歌詞中の背景語を考慮することにより、各トピックの中でトピックとは無関係な単語の生起確率が高くなるのを抑制できる歌詞のトピック推定情報生成システムを提供することにある。

【0010】

本発明を方法発明またはコンピュータプログラムの発明として把握した場合の各発明の目的は、数学的妥当性を持ってアーティスト毎のトピック分布を求めることができ、従来よりも歌詞のトピックの解釈に有効な情報を提供できる歌詞のトピック推定情報生成方法及びプログラムを提供することにある。

【0011】

また本発明を方法発明またはコンピュータプログラムの発明として把握した場合の各発明の目的は、トピック中において、歌詞中の背景語を考慮することにより、各トピックの中でトピックとは無関係な単語の生起確率が高くなるのを抑制できる歌詞のトピック推定情報生成方法及びプログラムを提供することにある。

【課題を解決するための手段】

【0012】

本発明は、歌詞の内容から定まる歌詞の主題、本題またはテーマ等となるトピックを推定するのに確かな情報を得る歌詞のトピック推定情報生成システムであり、歌詞データ取得手段と、トピック番号生成手段と、解析手段と、トピック番号学習手段と出力手段とを備えている。歌詞データ取得手段は、複数のアーティストごとに、曲名及び歌詞からなる複数の歌詞データを取得する。トピック番号生成手段は、１からＫ（正の整数）までの所定の数のトピック番号ｋを生成する。解析手段は、複数の歌詞データ中の複数の歌詞を形態素解析エンジンを用いた形態素解析により解析して複数の単語を抽出する。

【0013】

トピック番号学習手段は、複数のアーティスト毎の複数の歌詞データの全てについてトピック番号更新演算を実施するトピック番号更新学習演算を、予め定めた回数実行する。トピック番号更新演算では、最初に複数のアーティスト毎の複数の歌詞データにランダムまたは任意にトピック番号を割り当てた後、あるアーティストａのある歌詞データＳ_ar以外の歌詞データでトピック番号ｋが割り当てられている歌詞データの数Ｒ_akと、ある歌詞データＳ_arを除く複数のアーティストの複数の歌詞データの中で各単語ｖにトピック番号ｋが割り当てられている回数Ｎ_kvを基に、ある歌詞データＳ_arのトピック番号がｋである確率を求め、該確率からある歌詞データＳ_arのトピック番号の確率分布を作成する。次にトピック番号の確率分布に対応した出現確率に偏りのある乱数生成器を用いて、あるアーティストａのある歌詞データＳ_arに割り当てたトピック番号を更新するトピック番号更新演算を行う。そして出力手段は、トピック番号学習手段の学習結果から、複数のアーティスト毎に複数の歌詞データ毎のトピック番号とトピック番号毎の単語の確率分布を出力する。

【0014】

なお出力手段における、複数の歌詞データ毎のトピック番号は、トピック番号学習手段においてトピック番号更新学習演算を予め定めた回数実行して、最後に複数の歌詞データに割り当てられたトピック番号とする。このように最後の割り当て結果を出力すると、複数の歌詞データに適したトピック番号を割り当てることができる。

【0015】

なお歌詞データ取得手段では、複数のアーティスト毎に複数の歌詞データを取得し、出力手段では、複数のアーティスト毎の複数の歌詞データのトピック番号と該トピック番号毎の単語の確率分布を特定する。このようにするとアーティスト毎の複数の曲の歌詞のトピックをアーティストの個性を反映したものとして知ることができ、曲を選択する人に、アーティストを基準にした曲の情報を提供することができる。

【0016】

また形態素解析は、文章中から名詞あるいは特定の品詞群を単語として抽出する形態素解析エンジンを用いて実施される。形態素解析エンジンは、現在、種々提案されており、形態素解析エンジを用いれば、曲が膨大な数になっても、単語の抽出を簡単に行える。

【0017】

本発明によれば、任意のトピック数を決めると、トピック番号学習手段により最終的に更新されたアーティスト毎の複数の歌詞データ毎のトピック番号により、複数の歌詞データ毎のトピック番号が特定される。そして複数の歌詞データ毎のトピック番号が判ると、各トピック番号毎の単語の確率分布が判る。そのためトピックと関係のある単語集合及び、無関係な単語集合を人手で規定する必要がない。また生起確率の高い複数の単語が分かると、それらの単語からトピックを把握するのに確かな情報が得られることになり、各歌詞のトピックの尤もらしい意味を求めることができる。

【0018】

トピック番号学習手段においては、トピック番号の確率分布を作成する際には、あるアーティストのある歌詞データに割り当てたトピック番号以外の、全ての歌詞データに割り当てたトピック番号が正しいと仮定するのが好ましい。具体的には、トピック番号学習手段は、まずトピック番号の確率分布を作成する際に、あるアーティストａのある歌詞データＳ_ar以外の歌詞データでトピック番号ｋが割り当てられている歌詞データの数Ｒ_akを基に、ある歌詞データＳ_arのトピック番号がｋである第１の確率ｐ₁を計算する。次に、ある歌詞データＳ_arを除く複数のアーティストの複数の歌詞データの中で単語ｖにトピック番号が割り当てられている回数Ｎ_kvを基に、ある歌詞データＳ_arのトピック番号がｋである第２の確率ｐ₂を計算する。さらに第１の確率ｐ₁と第２の確率ｐ₂からある歌詞データＳ_arのトピック番号がｋである確率ｐを計算する。そして、これらの計算を全てのトピック番号に関して実施して、ある歌詞データＳ_arのトピック番号ｋが１〜Ｋである確率の和が１になるように正規化し、ある歌詞データＳ_arのトピック番号の確率分布とする。このように計算をすると、トピック番号の確率分布の精度が高くなる。

【0019】

また出力手段は、ある単語ｖにトピック番号ｋが割り当てられている回数Ｎ_kvから、各トピック番号毎の単語の確率分布を出力するように構成されているのが好ましい。

【0020】

出力手段における、トピック番号ｋの単語ｖの生起確率θ_kvは、下記式により求められ、
θ_kv＝（Ｎ_kv＋β）／（Ｎ_k＋β｜Ｖ｜）
但し、Ｎ_kvはある単語ｖにトピック番号ｋが割り当てられた回数、Ｎ_kはトピック番号ｋが割り当てられた全単語数、βはスムージング用パラメータ、｜Ｖ｜は単語の種類数である。

【0021】

本発明では、スイッチ変数の値学習手段を更に備えていてもよい。スイッチ変数の値学習手段は、複数のアーティスト毎の複数の歌詞データに含まれる複数の単語の全てについてスイッチ変数の値の更新演算を実施するスイッチ変数の値更新学習演算を、予め定めた回数実行する。ここでスイッチ変数の値更新演算では、複数のアーティスト毎の複数の歌詞データに含まれる複数の単語にランダムまたは任意にスイッチ変数の値を割り当てる。その後、あるアーティストａの複数の歌詞データ中の複数の単語に対して割り当てたスイッチ変数の値から、ある単語ｖ_arjに割り当てたスイッチ変数ｘの値がトピック語である（ｘ＝０）か背景語である（ｘ＝１）かの確率を計算してスイッチ変数の値の確率分布λ_aを作成する。次にスイッチ変数の値の確率分布に対応した出現確率に偏りのある乱数生成器を用いて、ある単語に割り当てたスイッチ変数の値を更新する。

【0022】

スイッチ変数の値学習手段による学習は、トピック番号学習手段による学習の前でも後でも行うことができる。スイッチ変数の値学習手段を設けると、ある単語がトピック語であるか背景語であるかを考慮するため、設けない場合よりも、トピック番号の推定精度が高くなる。これはスイッチ変数の値を考慮して複数の歌詞データ毎のトピック番号と複数のトピック番号毎の単語の生起確率が判ると、トピック番号毎の単語の生起確率において、トピックと関係の弱い単語（背景語）の生起確率を低くすることができ、歌詞のトピック番号を推定する際に背景語の影響力を小さくすることができるからである。

【0023】

スイッチ変数は、ある単語が想定されるトピックの主題に関連するものか背景に関連するものを規定する変数である。したがってこの変数を演算により特定すれば、トピックと関係のある単語集合及び、無関係な単語集合を人手で規定する必要がなくなる。

【0024】

スイッチ変数の値学習手段において、スイッチ変数の値更新演算を行う際には、あるアーティストのある歌詞データの複数の単語中のある単語に割り当てたスイッチ変数ｘ以外の、全ての単語に割り当てたスイッチ変数の値が正しいと仮定するのが好ましい。具体的には、スイッチ変数の値学習手段では、次の計算を行う。まず、あるアーティストａの全曲の歌詞データ中で前記スイッチ変数の値として０が割り当てられている単語の数Ｎ_aoを基に、単語ｖ_arj のスイッチ変数の値が０である第３の確率ｐ₃を計算する。次に単語ｖ_arjを含む歌詞と同一のトピック番号ｚ_arが割り当てられた全アーティストの全曲の中で単語ｖ_arjにスイッチ変数の値として０が割り当てられている回数Ｎｚ_arｖ_arjを基に、単語ｖ_arjのスイッチ変数の値が０である第４の確率ｐ₄を計算する。そして第３の確率ｐ₃と第４の確率ｐ₄からスイッチ変数が０である第５の確率ｐ₅を計算する。またあるアーティストの複数の歌詞データの中でスイッチ変数の値として１が割り当てられている回数Ｎ_a1を基に、単語ｖ_arjのスイッチ変数の値が１である第６の確率ｐ₆を計算する。また複数のアーティストの複数の歌詞データの中で、単語ｖ_arjにスイッチ変数の値として１が割り当てられている回数Ｎ_1varjを基に、単語ｖ_arjのスイッチ変数の値が１である第７の確率ｐ₇を計算する。そして第６の確率ｐ₆と第７の確率ｐ₇から前記スイッチ変数が１である第８の確率ｐ₈を計算し、第５の確率ｐ₅および第８の確率ｐ₈から単語ｖ_arjのスイッチ変数の値が０である確率と１である確率の和が１になるように正規化して、スイッチ変数の値の確率分布とする。このようにしてスイッチ変数の値の確率分布を求めると、アーティストaの全歌詞の中でスイッチ変数の値が０または１である割合および、単語ｖ_arjのスイッチ変数の値が全アーティストの全歌詞の中で０または１である割合の双方を考慮した結果としての確率分布を求めることができる。

【0025】

また学習に使用しなかったあるアーティストの新しい曲ｓの歌詞データのトピック番号を求める場合には、次の構成を採用すればよい。すなわち学習に使用しなかったあるアーティストの新しい曲ｓの歌詞データに含まれる単語の確率分布を作成する第１の単語確率分布作成手段と、複数のアーティストの複数の曲の歌詞データにそれぞれ含まれる単語の確率分布を作成する第２の単語確率分布作成手段と、第１の単語確率分布作成手段で得た新しい曲ｓの歌詞データに含まれる単語の確率分布と第２の単語確率分布作成手段で得た複数の曲の歌詞データにそれぞれ含まれる単語の確率分布との間のコサイン類似度あるいは任意の尺度の類似度をそれぞれ求める類似度演算手段と、複数の曲の歌詞データに対応する複数の曲の歌詞データの類似度を、トピック番号の重みとして加算してトピック番号の重み分布を作成する重み分布作成手段とをさらに設ける。そして重みが最大のトピック番号を新しい曲ｓの歌詞データのトピック番号とする。

【0026】

また学習に使用しなかったあるアーティストの新しい曲ｓの歌詞データのトピックを定めるためのさらなる情報を得るためには、第３の単語確率分布作成手段乃至第５の単語確率分布作成手段と、類似度演算手段と、生起確率作成手段とを設けた下記の構成を採用することができる。第３の単語確率分布作成手段は、背景の単語の生起確率を求めたい学習に使用しなかったアーティストの全ての曲の歌詞データに含まれる単語の確率分布を作成する。第４の単語確率分布作成手段は、学習に使用したアーティスト毎の全ての曲の歌詞データに含まれる単語の確率分布を作成する。第５の単語確率分布作成手段は、学習に使用したアーティスト毎の全ての曲の歌詞データに含まれる背景の単語の確率分布を作成する。類似度演算手段は、第３の単語確率分布作成手段で得た新しい曲ｓの歌詞データに含まれる単語の確率分布と第４の単語確率分布作成手段で得たアーティスト毎の全ての曲の歌詞データに含まれる単語の確率分布との間のコサイン類似度あるいは任意の尺度の類似度をそれぞれ求める。また背景の単語の生起確率作成手段は、類似度演算手段で求めたアーティスト毎の類似度を第５の単語確率分布作成手段で得たアーティスト毎の全ての曲の歌詞データに含まれる背景の単語の確率分布に基づいて背景の単語の生起確率を求める。具体的には、アーティスト毎の全ての曲の歌詞データに含まれる背景の単語の確率分布に類似度をそれぞれ乗算して得た確率分布をアーティスト毎に足し合わせて重みの和が１になるように正規化して、背景の単語の生起確率とする。そして生起確率作成手段で求めた生起確率を、あるアーティストの背景語の確率分布とする。背景語の確率分布からも、トピックの意味合いを知ることができる。

【0027】

本発明を歌詞のトピック推定情報生成方法として表現すると以下のように表現することができる。歌詞データ取得ステップでは、複数のアーティストごとに、曲名及び歌詞からなる複数の歌詞データを取得する。トピック番号生成ステップでは、１からＫ（正の整数）までの所定の数のトピック番号ｋ（１≦ｋ≦Ｋ）を生成する。解析ステップでは、複数の歌詞データ中の複数の歌詞を形態素解析により解析して複数の単語を抽出する。トピック番号学習ステップでは、最初に複数のアーティスト毎の前記複数の歌詞データにランダムまたは任意にトピック番号を割り当てた後、あるアーティストａのある歌詞データＳ_ar以外の歌詞データでトピック番号ｋが割り当てられている歌詞データの数Ｒ_akとある歌詞データＳ_arを除く複数のアーティストの複数の歌詞データの中で単語ｖにトピック番号ｋが割り当てられている回数Ｎ_kvとを基にある歌詞データＳ_arのトピック番号がｋである確率ｐを求め、該確率からある歌詞データＳ_arのトピック番号の確率分布を作成し、次にトピック番号の確率分布ｐに対応した出現確率に偏りのある乱数生成器を用いて、あるアーティストａのある歌詞データＳ_arに割り当てたトピック番号を更新するトピック番号更新演算を行い、複数のアーティスト毎の複数の歌詞データの全てについてトピック番号更新演算を実施するトピック番号更新学習演算を、予め定めた回数実行する。そして出力ステップでは、トピック番号学習ステップの学習結果から、複数の歌詞データ毎のトピック番号と前記トピック番号毎の単語の確率分布を特定する。

【0028】

本発明は、本発明のトピック推定情報生成方法の各ステップをコンピュータを用いて実施する場合のトピック推定情報生成用コンピュータプログラムとしても特定することができる。なおこのコンピュータプログラムは、コンピュータ読み取り可能な記媒体に記憶されているのが好ましい。

【図面の簡単な説明】

【0029】

【図1】本発明の歌詞のトピック推定情報生成システムの第１の実施の形態の構成を示すブロック図である。

【図2】本実施の形態をコンピュータを用いて実現する場合に用いるコンピュータプログラムのアルゴリズムの一例を示すフローチャートである。

【図3】歌詞の生成過程をモデル化したものを説明するために用いる図である。

【図4】アーティスト毎の曲を集める態様を示す図である。

【図5】形態素解析の一例を示す図である。

【図6】（Ａ）はトピック番号の付与を自動的に行うアルゴリズムのフローチャートであり、（Ｂ）は初期のトピック番号の付与の一例を示す図である。

【図7】トピック番号学習手段をソフトウエアで実現する場合のアルゴリズムの一例を示す図である。

【図8】図７のステップＳＴ４０８の詳細を示すフローチャートである。

【図9】本発明の歌詞のトピック推定情報生成システムの第２の実施の形態の構成を示すブロック図である。

【図10】第２の実施の形態をコンピュータを用いて実現する場合に用いるコンピュータプログラムのアルゴリズムの一例を示すフローチャートである。

【図11】歌詞の生成過程をモデル化したものを説明するために用いる図である。

【図12】（Ａ）は複数のアーティスト毎の複数の歌詞データに含まれる複数の単語にランダムまたは任意にスイッチ変数の値を割り当てるアルゴリズムを示すフローチャートであり、（Ｂ）は初期のスイッチ変数の例を示す図である。

【図13】図１０のステップＳＴ１４１２における「スイッチ変数の値の確率分布生成」ステップの詳細を示すフローチャートである。

【図14】（Ａ）は複数のトピック番号毎の単語の生起確率の例を示す図であり、（Ｂ）は複数のアーティスト毎の複数の歌詞データ毎のトピック番号を特定した例を示す図である。

【図15】学習に使用しなかったあるアーティストの新しい曲の歌詞データのトピック番号を求めるシステムの構成を示すブロック図である。

【図16】（Ａ）は図１５のシステムをソフトウエアを用いて実現するためのアルゴリズムを示すフローチャートであり、（Ｂ）は図１６（Ａ）のアルゴリズムの考え方を模擬的に示した図である。

【図17】アーティストの曲の歌詞データのトピックを定めるためのさらなる情報として背景の単語の生起確率を作成するシステムの構成を示すブロック図である。

【図18】（Ａ）は図１７のシステムをソフトウエアを用いて実現するためのアルゴリズムを示すフローチャートであり、（Ｂ）は図１８（Ａ）のアルゴリズムの考え方を模擬的に示した図である。

【図19】（Ａ）及び（Ｂ）は、実施の形態で得られるトピック毎の単語の確率分布の例を示す図であり、（Ｃ）は、背景後の単語の確率分布の例を示す図である。

【図20】（Ａ）及び（Ｂ）は、それぞれアーティスト毎の曲の背景の単語の生起確率分布の例を示す図である。

【図21】（Ａ）乃至（Ｃ）は、歌詞のトピックを推定する技術として、ＬＤＡ法を用いた場合における問題点を説明するために用いる図である。

【図22】（Ａ）乃至（Ｃ）は、歌詞のトピックを推定する技術として、クラスタリング法を用いた場合における問題点を説明するために用いる図である。

【発明を実施するための形態】

【0030】

以下図面を参照して本発明の実施の形態を詳細に説明する。

【0031】

［第１の実施の形態］
図１は、本発明の歌詞のトピック推定情報生成システムの第１の実施の形態の構成を示すブロック図である。本実施の形態の各ブロックは、コンピュータにインストールされたコンピュータプログラムによりコンピュータ内に実現されるか、複数のプロセッサと複数のメモリによって構成される。図２は、本実施の形態の基本システムをコンピュータを用いて実現する場合に用いる歌詞のトピック推定情報生成方法及びコンピュータプログラムのアルゴリズムの一例を示すフローチャートである。

【0032】

図１に示すように、本実施の形態の基本となる歌詞のトピック推定情報生成システム１は、歌詞データベース３、歌詞データ取得手段５、トピック番号生成手段７、トピック番号学習手段９、解析手段１１及び出力手段１３を備えている。

【0033】

本発明では、図３に示す歌詞の生成過程をモデル化した歌詞の生成過程モデルをベースとして、図１の各構成要素を用いることとした。そこでまず図３に示す歌詞の生成過程モデルについて説明する。歌詞を作成する場合には、ステップＳ１でアーティスト名と曲名を決める。ここでは例えば、アーティスト名「関谷洋」、曲名「戻らない夏」とする。次に曲のトピック番号を生成する（ステップＳ２）。ここでトピックとは、歌詞の内容から定まる歌詞の主題、本題またはテーマとなるもので、例えば「夏」、「女性の恋歌」、「旅」等である。このようなトピックをグループ分けする場合に、トピックに付けられる番号が、「トピック番号」である。本実施の形態において、「トピック番号」は、あくまでも番号であって、意味内容は含まない。大ざっぱに、アーティストの曲の歌詞のトピックを２０種類に分けるとすれば（複数の歌詞をその内容から２０のグループに分けるとすれば）、トピック番号は１〜２０の番号である。あるアーティストの複数の曲の歌詞をトピックの種類に分けて各トピックに番号を付け、トピック番号の発生確率を求めたものがトピック番号の確率分布である。次に歌詞に含まれるｊ番目の単語を決める場合には、トピックの単語分布から単語を順次生成する（ステップＳ４〜Ｓ５）。ｊ番目の単語が決められると、ｊ＋１番目の単語が決められ、すべの単語が決まると作詞は終了する。

【0034】

以下の説明では、本実施の形態をコンピュータ等のハードウエアで実現する場合に用いる理論を数式を用いて逐次説明する。このモデルを数式で示すと次のようになる。入力として与えられたトピックの数をＫ、歌詞データ集合内のアーティスト集合をＡ、名詞あるいは特定の品詞群の集合をＶとする。トピックｋ（1≦ｋ≦Ｋ)は単語の確率分布φk＝(φ_k1・，φ_k2，・・・,φ_kV ) を持ち、単語ｖ∈Ｖの生起確率φ_kv はφ_kv≧０かつ

【0035】

【数1】

を満たす。

【0036】

そしてアーティストａ∈Ａはトピック番号の確率分布θａ＝(θａ₁，θａ₂，．．．，θａ_K) を持ち、トピックk(1≦ｋ≦Ｋ) の生起確率θａ_k はθａ_k≧０かつ

【0037】

【数2】

を満たす。

【0038】

アーティストａ∈Ａはスイッチ変数の値を選ぶための確率分布λa ＝(λ_a0; λ_a1) を持つ。λ_a0 はスイッチ変数の値が０である確率であり、単語がトピックから選択されることを表す。λ_a1はスイッチ変数の値が１である確率であり、単語が背景から選択されることを表す。λ_a0≧０かつλ_a1≧０かつλ_a0 +λ_a1＝１を満たす。背景は単語の確率分布ψ＝（ψ₁，ψ₂，・・・ψ_|V|）を持ち、単語ｖ∈Ｖの生起確率ψ_vはψ_v≧０かつ

【0039】

【数3】

を満たす。

【0040】

本発明のシステムでは、図３のモデルを基礎として、歌詞のトピックを決定または推定するのに役立つ情報を自動生成する。歌詞データ取得手段５は、図２のステップＳＴ１及び図４に示すように、歌詞データベース３から複数のアーティストごとに、曲名及び歌詞からなる複数の歌詞データ（歌詞データ集合）を取得する。図４の例では、二人のアーティスト（関谷洋と吉井弘美）の曲をそれぞれ取得している。歌詞データベース３としては、例えば、MySQLを利用することができる。

【0041】

これをコンピュータを用いて実現するために、アーティストａの歌詞データの総数をＲ_a、ｒ（１≦ｒ≦Ｒ_a）番目の歌詞をＳ_arとすると、アーティストａの歌詞集合Ｄ_aは、

【0042】

【数4】

と表される。さらに、全アーティストの歌詞集合ＤはＤ＝｛Ｄ_a｝_a∈_Aと表される。

【0043】

トピック番号生成手段７は、図２のステップＳＴ２に示すように、１からＫ（正の整数）までの所定の数のトピック番号ｋを生成する。本実施の形態では、トピック番号生成手段７は、１〜２０のトピック番号を生成している。

【0044】

そして解析手段１１は、図２のステップＳＴ３及び図５に示すように、複数の歌詞データ中の複数の歌詞を形態素解析により解析して複数の単語を抽出する。形態素解析は、文章中から名詞あるいは特定の品詞群を単語として抽出する形態素解析エンジンを用いて実施される。形態素解析エンジンは、現在、種々提案されており、形態素解析エンジンを用いれば、曲が膨大な数になっても、単語の抽出を簡単に行える。本実施の形態では、図５に示すようにオープンソースの形態素解析エンジンＭｅＣａｂ（ HYPERLINK "http://taku910.github.io/mecab/" http://taku910.github.io/mecab/）を使用している。なお数学的には、歌詞Ｓ_ar に含まれる名詞あるいは特定の品詞群の数をＶ_ar とする。

【0045】

トピック番号学習手段９は、図２のステップＳＴ４及び図６（Ａ）のステップＳＴ４１〜ＳＴ４７に示すように、複数のアーティストｉ毎の複数の歌詞データにランダムまたは任意にトピック番号を割り当てる。本実施の形態では、図６（Ｂ）に示すように、最初は各トピック番号が付与される複数の歌詞データの生起確率が０．０５＝（１／Ｋ）になるようにしている。

【0046】

図７はトピック番号学習手段９をコンピュータを用いて実現する場合のソフトウエアのアルゴリズムの一例を示している。図７のアルゴリズムでは、複数のアーティストｉ毎の複数の歌詞データの全てについてトピック番号更新演算（図７のＳＴ４０４〜ＳＴ４１１）を実施するトピック番号更新学習演算（ＳＴ４０３〜ＳＴ４１１）を、予め定めた回数（ＳＴ４０２）実行する。本実施の形態では、あるアーティストａのある曲即ち歌詞データＳ_arに割り当てたトピック番号ｋ（ｋ＝１からＫまでのいずれかの整数）以外の、全ての歌詞データに割り当てたトピック番号が正しいと仮定して、あるアーティストａのある歌詞データＳ_arに割り当てたトピック番号がｋである確率を計算してトピック番号の確率分布を作成する（ＳＴ４０８）。

【0047】

図８は、ステップＳＴ４０８の詳細を示すフローチャートである。まずトピック番号ｋの確率分布を作成する際に、あるアーティストａのある歌詞データＳ_ar以外の歌詞データでトピック番号ｋが割り当てられている歌詞データの数Ｒ_akを基に、ある歌詞データＳ_arのトピック番号がｋである第１の確率ｐ₁を計算する（ステップＳＴ４０８Ｄ）。次に、ある歌詞データＳ_arを除く複数のアーティストの複数の歌詞データの中で単語ｖにトピック番号ｋが割り当てられている回数Ｎ_kvを基に、ある歌詞データＳ_arのトピック番号がｋである第２の確率ｐ₂を計算する（ＳＴ４０８Ｅ〜ＳＴ４０８Ｈ）。ステップＳＴ４０８Ｆでは、ある単語ｖが単語集合Ｖの中に在るか否かを判定し、ステップＳＴ４０８Ｇでは、その単語がある歌詞データＳ_arのなかに存在するかを判定する。ステップＳＴ４０８Ｇで「Ｎ」であればステップＳＴ４０８Ｉで、次の単語に変わる。そしてステップＳＴ４０８Ｆで「Ｎ」であれば、単語が無くなったので、ステップＳＴ４０８Ｊへと進む。ステップＳＴ４０８Ｊでは、第１の確率ｐ₁と第２の確率ｐ₂からある歌詞データＳ_arのトピック番号がｋである確率ｐを計算する。そして、これらの計算を全てのトピック番号（１〜Ｋ）に関して実施して、ある歌詞データＳ_arのトピック番号が１〜Ｋである確率の和が１になるように正規化し、ある歌詞データＳ_arのトピック番号の確率分布とする（ＳＴ４０８Ｃ）。このように計算をすると、トピック番号の確率分布の精度が高くなる。

【0048】

次に図７のステップＳＴ４０９において、ある曲即ちある歌詞データＳ_arのトピック番号を更新する。このトピック番号の更新では、トピック番号の確率分布に対応した出現確率に偏りのある乱数生成器を用いて、あるアーティストのある歌詞データに割り当てたトピック番号を更新する（ＳＴ４０９）。トピック番号更新演算（ＳＴ４０３，ＳＴ４０９）を、複数のアーティスト毎の複数の歌詞データの全てについて実施する（ＳＴ４０４，ＳＴ４１１）。そしてトピック番号更新演算を、複数のアーティスト毎の複数の歌詞データの全てについて実施するトピック番号更新学習演算（ＳＴ４０３〜ＳＴ４１１）を予め定めた回数［図７の例では５００回］実行する。なおトピック番号の確率分布は、イメージとしては、図６（Ｂ）に示すようなものである。またここで用いる「乱数生成器」は、概念で説明すれば、本実施の形態の場合、例えばトピック番号に対応する２０の面を有し、その面の面積が出現確率に比例している多面体からなる仮想のサイコロを振って出た面に割り当てられている数（１〜２０の数）を更新後のトピック番号とするものである。

【0049】

図１の出力手段１３は、図２のステップＳＴ５に示すように、トピック番号学習手段９の学習結果から、複数のアーティストｉ毎に複数の歌詞データ毎のトピック番号とトピック番号毎の単語の確率分布を出力する。なお出力手段１３における、複数の歌詞データ毎のトピック番号は、トピック番号学習手段９においてトピック番号更新学習演算を予め定めた回数（本実施の形態では５００回）実行して、最後に複数の歌詞データに割り当てられたトピック番号とする。このように最後の割り当て結果を出力すると、複数の歌詞データに適したトピック番号を割り当てることができる。

【0050】

具体的には、図７のステップＳＴ４０９における「トピック番号更新」で最後に更新した値を歌詞データに割り当てられたトピック番号とする。また出力手段１３は、ある単語ｖにトピック番号ｋが割り当てられている回数Ｎ_kvから、各トピック番号毎の単語の確率分布を出力する。具体的にはピック番号ｋの単語ｖの生起確率θ_kvは、下記式により求めて、この生起確率から各トピック番号毎の単語の確率分布を特定する。

【0051】

θ_kv＝（Ｎ_kv＋β）／（Ｎ_k＋β｜Ｖ｜）
但し、Ｎ_kvはある単語ｖにトピック番号ｋが割り当てられた回数、Ｎ_kはトピック番号ｋが割り当てられた全単語数、βは単語の出現回数に対するスムージング用パラメータ、｜Ｖ｜は単語の種類数である。

【0052】

（数式に基づくトピック番号の更新）
上記のトピック番号の更新を理論的に以下に説明する。まずθａ、φ_k、ψ、およびλaはそれぞれ事前分布としてパラメータα、β、γ、ρのディリクレ分布を持つと仮定する。アーティストａの曲Ｓ_ar のトピック番号をｚ_ar、アーティストａの歌詞Ｓ_ar のｊ番目の単語のスイッチ変数の値をx_arj とすると、歌詞集合Ｄ、トピック番号集合Ｚは

【0053】

【数5】

であり、スイッチ変数の値の集合Ｘは

【0054】

【数6】

であり、この同時分布は次式で表される。

【0055】

【数7】

ここで、

【0056】

【数8】

である。

【0057】

Ｐ（Ｄ，Ｚ，Ｘ｜α、β、γ、ρ）は全アーティストの全曲に対するトピック番号の割り当て（Ｚ）および、全アーティストの全曲の全単語に対するスイッチ変数の値の割り当て（Ｘ）を決めたときに、全ての歌詞の単語（Ｄ）、全てのトピック番号（Ｚ）、全てのスイッチ変数の割り当て（Ｘ）、の組合せが生じる確率を表す。これらのパラメータを積分消去することで、式（１）は次のように計算できる。

【0058】

【数9】

Ｎ_a0 とＮ_a1 はそれぞれ、アーティストａの歌詞データの単語の中でスイッチ変数の値が０である単語数と１である単語数を表し、Ｎ_a ＝Ｎ_a0+Ｎ_a1 である。Ｎ_1v は単語ｖの中で、スイッチ変数の値が１であるものの数を表し、Ｎ₁＝Σ_v∈_VＮ_1vである。Ｎ_k ＝Σ_v∈_VＮ_kvであり、Ｎ_kvは単語ｖにスイッチ変数の値が０のもとでトピック番号ｋが割り当てられた回数である。Ｒ_akはアーティストaの歌詞の中でトピック番号ｋが割り当てられた歌詞の数であり、

【0059】

【数10】

である。式（２）の中で下記式（３）の項は、全ての歌詞のトピック番号の割り当てが決まったときに、その割り当てが観測される確率を表す。

【0060】

【数11】

式（２）の中で下記の式（４）の項は、全ての歌詞の全ての単語のスイッチ変数の値の割り当てが決まったときに、その割り当てが観測される確率を表す。

【0061】

【数12】

式（２）の中で下記式（５）の項は、全ての歌詞のトピック番号の割り当ておよび、全ての歌詞の全ての単語のスイッチ変数の値の割り当てが決まったときに、全ての歌詞の全ての単語が観測される確率を表す。

【0062】

【数13】

アーティストａの曲Ｓ_ar のトピック番号をｚ_ar とすると、ｚ_ar＝ｋである確率は次式（６）で表される。

【0063】

【数14】

上記式において＼ar はアーティストａのｒ番目の歌詞を除いたときの値を表す。Ｎ_ar はアーティストaのｒ番目の歌詞内の単語数を、Ｎ_arv はアーティストａのｒ番目の歌詞内の単語ｖの数を表す。上記式（６）の中で下記式（７）の項は、アーティストａのｒ番目以外の曲にどれだけトピック番号ｋが割り当てられているかを表す。つまり、アーティストａの曲の中にトピック番号ｋが割り当てられた曲が多いほどアーティストａのｒ番目の曲のトピック番号がｋである確率が高くなる。

【0064】

【数15】

式（６）の中で下記式（８）の項は、アーティストａのｒ番目以外の曲を見たときに、アーティストａのｒ番目の歌詞内の単語にどれだけトピック番号ｋが割り当てられているかを表す。たとえば、アーティストａのｒ番目の曲に「夏」という単語がある場合、アーティストａのｒ番目の曲以外の全アーティストの全曲の中の「夏」という単語にどれだけトピック番号ｋが割り当てられているかを見ることになる。ただし、曲のトピック番号がｋであるとき、その曲の歌詞内の全ての単語にもトピック番号ｋが割り当てられていると考える。つまり、アーティストａのｒ番目の歌詞内にトピック番号ｋが割り当てられた単語が多いほど、アーティストａのｒ番目の曲のトピック番号がｋである確率が高くなる。

【0065】

【数16】

トピック番号の更新は式（２）の値が大きくなるように行われる。また、歌詞ごとのトピック番号の更新と並行して、トピック番号ごとの単語の確率分布も更新する。

【0066】

なお上記説明におけるスイッチ変数は、理論的には、後述する第２の実施の形態のスイッチ変数の値学習手段１１５が出力するスイッチ変数であるが、第１の実施の形態では、スイッチ変数を０として、スイッチ変数の値は更新していない。したがって第１の実施の形態では、背景語は考慮されない。

【0067】

［第２の実施の形態］
図９は、本発明の歌詞のトピック推定情報生成システムの第２の実施の形態の構成を示すブロック図である。本実施の形態の各ブロックは、コンピュータにインストールされたコンピュータプログラムによりコンピュータ内に実現されるか、複数のプロセッサと複数のメモリによって構成される。図１０は、第２の実施の形態をコンピュータを用いて実現する場合に用いるコンピュータプログラムのアルゴリズムの一例を示すフローチャートである。

【0068】

第２の実施の形態が、図１乃至図８を用いて説明した第１の実施の形態と相違するのは、スイッチ変数の値学習手段１１５を更に備えている点であり、その他の点は第１の実施の形態と同じである。そこで図９には、図１に示した第１の実施の形態と同じ機能を発揮する構成要件には、図１に付した符号の数に１００の数の符号を付して説明を省略する。また図１０のフローチャートには、図７に図に示した第１の実施の形態のステップと同じ機能を発揮するステップには、図７に付したステップの符号の数に１０００の数の符号を付して説明を省略する。更に図１１に示す歌詞の生成過程をモデル化した図においても、図３に示すモデルと同じステップには、図３に図に示した第１の実施の形態のステップと同じ機能を発揮するステップには、図３に付したステップの符号の数に１０の数の符号を付して説明を省略する。

【0069】

図９に示すように、本実施の形態では、スイッチ変数の値学習手段１１５を備えている。ここで歌詞に含まれるｊ番目の単語を決める場合に、トピックに関連する単語とするか、トピックに関連しない背景語とするかを決めるのが「スイッチ変数の値」である。即ちスイッチ変数は、ある単語が想定されるトピックの主題に関連するものか、背景に関連するものを規定する変数である。この変数を演算により特定すれば、トピックと関係のある単語集合及び無関係な単語集合を人手で規定する必要がなくなる。１００％トピックに関連する単語にする場合のスイッチ変数の値０の生起確率は１であり、５０％トピックに関連する単語にする場合のスイッチ変数の値０の生起確率は０．５である。ｊ番目の単語を決める場合には、ｊ番目の単語用のスイッチ変数の値の確率分布が使用されることになる。人が作詞をする場合には、このスイッチ変数の値の確率分布は人が決めることになる。

【0070】

図１１のステップＳ１４乃至Ｓ１８では、ｊ番目の単語用のスイッチ変数の値の確率分布に基づいて、この確率分布がトピックを示しているか否かにより（ステップＳ１６）、ｊ番目の単語をトピックの単語の分布から生成するか（ステップＳ１７）、背景の単語分布から生成することになる（ステップＳ１８）。ｊ番目の単語が決められると、ｊ＋１番目の単語が決められ（ステップＳ１９）、すべの単語が決まると作詞は終了する。

【0071】

スイッチ変数の値学習手段１１５は、スイッチ変数の値更新学習演算［図１０のステップＳＴ１４０９〜ＳＴ１４１５］を予め定めた回数［例では５００回］実行する。スイッチ変数の値更新学習演算では、まず事前の準備として、図１２（Ａ）に示すフローチャートのように、複数のアーティストｉ毎の複数の歌詞データに含まれる複数の単語にランダムまたは任意にスイッチ変数の値を割り当てる（ＳＴ１４１〜ＳＴ１５０）。図１２（Ｂ）に示すように、この例では、最初にトピックに関連する語である確率及び背景に関連する語である確率をそれぞれ、０．５としている。

【0072】

図１０に示すように、スイッチ変数の値学習手段１１５では、あるアーティストのある歌詞データの複数の単語中のある単語ｖに割り当てたスイッチ変数ｘ（ｘ＝トピック語であるか背景語であるかの確率変数）以外の、全ての単語に割り当てたスイッチ変数の値が正しいと仮定して、ある単語ｖに割り当てたスイッチ変数ｘの値が０または１である確率を計算してスイッチ変数の値の確率分布λ_aを作成する（図１０のステップＳＴ１４１０〜ＳＴ１４１２）。

【0073】

図１３には、図１０のステップＳＴ１４１２における「スイッチ変数の値の確率分布生成」ステップの詳細が示されている。まず、あるアーティストａの全曲の歌詞データ中でスイッチ変数の値として０が割り当てられている単語ｖ_arjの数Ｎ_aoを基に、単語ｖ_arj のスイッチ変数の値が０である第３の確率ｐ₃を計算する（ステップＳＴ１４１２Ａ）。次に単語ｖ_arjを含む歌詞と同じトピック番号ｚ_arが割り当てられた全アーティストの全曲の中で単語ｖ_arjにスイッチ変数の値として０が割り当てられている回数Ｎｚ_arｖ_arjを基に、単語ｖ_arjのスイッチ変数の値が０である第４の確率ｐ₄を計算する（ステップＳＴ１４１２Ｂ）。そして第３の確率ｐ₃と第４の確率ｐ₄からスイッチ変数が０である第５の確率ｐ₅を計算する（ステップＳＴ１４１２Ｃ）。またあるアーティストの複数の歌詞データの中でスイッチ変数の値として１が割り当てられている回数Ｎ_a1を基に、単語ｖ_arjのスイッチ変数の値が１である第６の確率ｐ₆を計算する（ステップＳＴ１４１２Ｄ）。また複数のアーティストの複数の歌詞データの中で、単語ｖ_arjにスイッチ変数の値として１が割り当てられている回数Ｎ_1varjを基に、単語ｖ_arjのスイッチ変数の値が１である第７の確率ｐ₇を計算する（ステップＳＴ１４１２Ｅ）。そして第６の確率ｐ₆と第７の確率ｐ₇から前記スイッチ変数が１である第８の確率ｐ₈を計算（ステップＳＴ１４１２Ｆ）し、第６の確率ｐ₆と第７の確率ｐ₇から単語ｖ_arjのスイッチ変数の値が０である確率と１である確率の和が１になるように正規化して、スイッチ変数の値の確率分布とする（ステップＳＴ１４１２Ｇ）。

【0074】

（数式に基づくスイッチ変数の更新）
上記のスイッチ変数の更新を理論的に以下に説明する。まずアーティストａの歌詞Ｓ_ar のｊ番目の単語のスイッチ変数の値をｘ_arj とすると、ｘ_arj＝０である確率は次式で表される。

【0075】

【数17】

＼_arj はアーティストａのｒ番目の歌詞のｊ番目の単語を除いたときの値を表す。上記式（９）の中で下記式（１０）の項は、アーティストａがどれだけトピックから単語を生成しやすいかを表し、その値が大きいほど、ａのｒ番目の歌詞のj 番目の単語のスイッチ変数の値が０である確率が高くなる。

【0076】

【数18】

式（９）の中で下記式（１１）の項は、ａのｒ番目の歌詞のj 番目の単語がどれだけトピック番号ｚ_arにおいて生起しやすいかを表し、その値が大きいほど、ａのｒ番目の歌詞のｊ番目の単語のスイッチ変数の値が０である確率が高くなる。たとえば、ａのｒ番目の歌詞のj 番目の単語が「夏」である場合、それ以外の全アーティストのトピック番号ｚ_arが割り当てられた全曲の全単語の中で「夏」という単語にどれだけスイッチ変数の値として０が割り当てられているかを見ることになる。

【0077】

【数19】

同様に、ｘ_arj＝１である確率は次式で表される。

【0078】

【数20】

式（１２）の中で下記式（１３）の項は、アーティストａがどれだけ背景から単語を生成しやすいかを表し、その値が大きいほど、ａのｒ番目の歌詞のj 番目の単語のスイッチ変数の値が１である確率が高くなる。

【0079】

【数21】

式（１２）の中で下記式（１４）の項は、ａのｒ番目の歌詞のｊ番目の単語がどれだけ背景から単語を生成しやすいかを表し、その値が大きいほど、ａのｒ番目の歌詞のｊ番目の単語のスイッチ変数の値が１である確率が高くなる。

【0080】

【数22】

図１０のステップＳＴ１４１３の単語のスイッチ変数の値の更新は式（２）の値が大きくなるように行われるのが好ましい。また、単語ごとのスイッチ変数の値の更新と並行して、アーティストごとのスイッチ変数の値の確率分布も更新する。

【0081】

具体的には、スイッチ変数の値の確率分布に対応した出現確率に偏りのある乱数生成器を用いて、ある単語に割り当てたスイッチ変数を更新するスイッチ変数の値更新演算を、複数のアーティスト毎の複数の歌詞データに含まれる複数の単語の全てについて実施する（ステップＳＴ１４１２〜ＳＴ１４１６）。なおここで用いる「乱数生成器」は、概念で説明すれば、本実施の形態の場合、例えば２つのスイッチ変数に対応する２つの面を有し、その面の面積が出現確率に比例している２面体からなる仮想のサイコロを振って出た目の面に割り当てたスイッチ変数を更新するスイッチ変数とするものである。

【0082】

図９の出力手段１１３は、図２のステップＳＴ５及び図１４（Ａ）及び図１４（Ｂ）に示すように、トピック番号学習手段１０９の学習結果及びスイッチ変数の値学習手段１１５の学習結果から、複数のアーティスト毎の複数の歌詞データ毎のトピック番号を特定し（図１４（Ｂ））、複数のトピック番号毎の単語の生起確率を生成する（図１４（Ａ））。このようにするとアーティスト毎の複数の曲の歌詞のトピックをアーティストの個性を反映したものとして知ることができ、曲を選択する人に、アーティストを基準にした曲の情報を提供することができる。

【0083】

出力手段１１３が出力する複数の歌詞データ毎のトピック番号は、トピック番号学習手段１０９においてトピック番号更新学習演算を予め定めた回数［図１０では５００回：図１０のステップＳＴ１４０２］実行して、最後にあるアーティストの複数の歌詞データに割り当てられたトピック番号［図１０のステップＳＴ１４０９で最後に更新されたトピック番号］とする。このように最後の割り当てに従うと、複数の歌詞データに最も適したトピック番号を割り当てることができる。

【0084】

また出力手段１１３が出力するトピック番号毎の単語の確率分布も、トピック番号学習手段１０９においてトピック番号更新学習演算を予め定めた回数［図１０では５００回：図１０のステップＳＴ１４０２］実行して、最後に記憶されたトピック番号毎の単語の確率分布である。出力手段１１３における、複数のトピック番号毎の単語の生起確率θ_kvは、下記式により求めるのが好ましい。

【0085】

【数23】

但し、Ｎ_kvはある単語ｖにトピック番号ｋが割り当てられた回数、Ｎ_kはトピック番号ｋが割り当てられた全単語数、βはスムージング用パラメータ、Ｖは単語の種類数である。スムージング用パラメータとは、各トピック番号における各単語の擬似的な生起回数である。単語の種類数とは、図４に示した歌詞データ内の歌詞に含まれるユニークな単語数である。上記演算式を用いて演算を行うと、トピックに１度も割り当てられなかった単語に対しても０より大きい確率が割り当てられ、より人間の直感に近づくという利点が得られる。

【0086】

（第２の実施の形態の効果）
第２の実施の形態によれば、任意のトピック数を決めると、トピック番号学習手段により最終的に更新された複数の歌詞データ毎のトピック番号により、複数の歌詞データ毎のトピック番号が特定される。またスイッチ変数の値学習手段により、最終的に更新されたスイッチ変数の値により、複数のトピック番号毎の単語の生起確率が生成される。複数の歌詞データ毎のトピック番号と複数のトピック番号毎の単語の生起確率が判ると、各トピック番号毎に生起確率が高い複数の単語が判る。そのためトピックと関係のある単語集合及び、無関係な単語集合を人手で規定する必要がない。また生起確率の高い複数の単語が分かると、それらの単語からトピックを定めるのに確かな情報が得られることになり、各歌詞のトピックの尤もらしい意味を求めることができる。

【0087】

［学習に使用しなかった歌詞のトピック番号推定システム］
学習に使用しなかったあるアーティストの新しい曲ｓの歌詞データのトピック番号を求める場合には、図１５に示すシステムの構成を採用すればよい。図１６（Ａ）のステップＳＴ２０１〜２１１は、図１５の実施の形態をコンピュータを用いて実現する場合のソフトウエアのアルゴリズムを示している。図１６（Ｂ）は、図１６（Ａ）のアルゴリズムの考え方を模擬的に示した図である。本実施の形態では、学習に使用しなかったあるアーティストの新しい曲ｓの歌詞データに含まれる単語の確率分布を作成するステップＳＴ２０２を実現する第１の単語確率分布作成手段１７と、複数のアーティストの複数の曲の歌詞データにそれぞれ含まれる単語の確率分布を作成するステップＳＴ２０７を実現する第２の単語確率分布作成手段１９と、第１の単語確率分布作成手段１７で得た新しい曲ｓの歌詞データに含まれる単語の確率分布と第２の単語確率分布作成手段１９で得た複数の曲の歌詞データにそれぞれ含まれる単語の確率分布との間のコサイン類似度あるいは任意の尺度の類似度をそれぞれ求めるステップＳＴ２０８を実現する類似度演算手段２１と、複数の曲の歌詞データに対応する複数の曲の歌詞データの類似度を、トピック番号の重みとして加算してトピック番号の重み分布を作成するステップＳＴ２１１の一手段を実現する重み分布作成手段２３とをさらに設ける。そしてトピック番号決定手段２５で、決定重みが最大のトピック番号を新しい曲ｓの歌詞データのトピック番号とする（ステップＳＴ２１１の残手段）。このようにすると、学習に用いていない歌詞のトピックを簡単に決定することができる。

【0088】

（背景の単語の生起確率を作成するシステム）
図１７は、学習に使用しなかったアーティストの曲ｓの歌詞データのトピックを定めるためのさらなる情報として背景の単語の生起確率を作成するシステムの構成を示すブロック図である。図１８（Ａ）のステップＳＴ３０１〜３０９は、図１７の実施の形態をコンピュータを用いて実現する場合のソフトウエアのアルゴリズムを示している。図１８（Ｂ）は、図１８（Ａ）のアルゴリズムの考え方を模擬的に示した図である。図１７において、図１の実施の形態と同じ部分には、図１に付した符号と同じ符号を付して説明を省略する。

【0089】

本実施の形態では、第３の単語確率分布作成手段２７乃至第５の単語確率分布作成手段３１と、類似度演算手段３３と、生起確率分布作成手段３５とを備えている。第３の単語確率分布作成手段２７は、背景の単語の生起確率を求めたい学習に使用しなかったアーティストの全ての曲の歌詞データに含まれる単語の確率分布を作成する（ステップＳＴ３０２）。第４の単語確率分布作成手段２９は、学習に使用したアーティスト毎の全ての曲の歌詞データに含まれる単語の確率分布を作成する（ＳＴ３０６）。第５の単語確率分布作成手段３１は、学習に使用したアーティスト毎の全ての曲の歌詞データに含まれる背景の単語の確率分布を作成する（ＳＴ３０６）。本実施の形態において、アーティスト毎の背景の単語分布は、図１１において全アーティストで共通の背景の単語分布を定めていたものを、アーティスト毎に背景の単語分布を定めることで求めることができる。類似度演算手段３３は、第３の単語確率分布作成手段２７で得た新しい曲ｓの歌詞データに含まれる単語の確率分布と第４の単語確率分布作成手段２９で得たアーティスト毎の全ての曲の歌詞データに含まれる単語の確率分布との間のコサイン類似度あるいは任意の尺度の類似度をそれぞれ求める（ＳＴ３０７）。また背景の単語の生起確率分布作成手段３５は、類似度演算手段３３で求めたアーティスト毎の類似度を第５の単語確率分布作成手段３１で得たアーティスト毎の全ての曲の歌詞データに含まれる背景の単語の確率分布にそれぞれ乗算して得た確率分布をアーティスト毎に足し合わせて重みの和が１になるように正規化して、背景の単語の生起確率とする（ＳＴ３０９）。そして背景の単語の生起確率分布作成手段３５で求めた生起確率を、あるアーティストの背景語の生起確率分布とする。背景語の確率分布からも、トピックの意味合いを知ることができる。

【0090】

［結果の例］
図１９（Ａ）及び（Ｂ）は、上記実施の形態で得られるトピック毎の単語の確率分布の例を示しており、図１９（Ｃ）は全ての曲の背景の単語の確率分布を示している。図１９（Ａ）のトピック毎の単語の確率分布からは、生起確率の高い語である「君」、「夢」、「僕」、「今」などから「前向き」というトピック１７の意味が定められている。図１９（Ｂ）のトピック毎の単語の確率分布からは、生起確率の高い語である「あなた」、「私」、「人」、「恋」などから「大人の女性の恋愛」というトピック１９の意味が定められている。図２０（Ａ）及び（Ｂ）は、それぞれアーティスト毎の曲の背景の単語の生起確率分布の例を示している。図２０（Ａ）は、あるアーティストAの曲の背景の単語の生起確率分布であり、図２０（Ｂ）は、あるアーティストBの曲の背景の単語の生起確率分布である。これらを見ると、アーティスト毎の背景の単語からもアーティストの曲のトピックの傾向に関する情報を得ることができる。

【0091】

［方法及びコンピュータプログラム］
本発明を歌詞のトピック推定情報生成方法及びコンピュータプログラムとして表現すると、本発明の構成は以下のように表現することができる。

【0092】

（１）複数のアーティストごとに、曲名及び歌詞からなる複数の歌詞データを取得する歌詞データ取得ステップと、
１からＫ（正の整数）までの所定の数のトピック番号ｋ（１≦ｋ≦Ｋ）を生成するトピック番号生成ステップと、
前記複数の歌詞データ中の複数の歌詞を形態素解析により解析して複数の単語を抽出する解析ステップと、
最初に前記複数のアーティスト毎の前記複数の歌詞データにランダムまたは任意に前記トピック番号ｋを割り当てた後、あるアーティストａのある歌詞データＳ_ar以外の歌詞データでトピック番号ｋが割り当てられている歌詞データの数Ｒ_akと前記ある歌詞データＳ_arを除く前記複数のアーティストの前記複数の歌詞データの中で前記単語ｖにトピック番号ｋが割り当てられている回数Ｎ_kvとを基に前記ある歌詞データＳ_arのトピック番号がｋである確率ｐを求め、該確率から前記ある歌詞データＳ_arのトピック番号の確率分布を作成し、次に前記トピック番号の確率分布ｐに対応した出現確率に偏りのある乱数生成器を用いて、前記あるアーティストａの前記ある歌詞データＳ_arに割り当てた前記トピック番号を更新するトピック番号更新演算を行い、前記複数のアーティスト毎の前記複数の歌詞データの全てについて前記トピック番号更新演算を実施するトピック番号更新学習演算を、予め定めた回数実行するトピック番号学習ステップと、
前記トピック番号学習ステップの学習結果から、前記複数の歌詞データ毎のトピック番号と前記トピック番号毎の単語の確率分布を特定する出力ステップとからなる歌詞のトピック推定情報生成方法。

【0093】

（２）前記複数のアーティスト毎の前記複数の歌詞データに含まれる前記複数の単語にランダムまたは任意にスイッチ変数の値を割り当てた後、前記あるアーティストａの前記複数の歌詞データ中の前記複数の単語に対して前記割り当てたスイッチ変数の値から前記ある単語ｖ_arjに割り当てた前記スイッチ変数の値がｘである確率を計算してスイッチ変数の値の確率分布λ_aを作成し、次に前記スイッチ変数の値の確率分布に対応した出現確率に偏りのある乱数生成器を用いて、前記ある単語に割り当てた前記スイッチ変数の値を更新するスイッチ変数の値更新演算を行い、前記複数のアーティスト毎の前記複数の歌詞データに含まれる前記複数の単語の全てについて前記スイッチ変数の値の更新演算を実施するスイッチ変数の値更新学習演算を予め定めた回数実行するスイッチ変数の値学習ステップを更に備えていることを特徴とする（１）に記載の歌詞のトピック推定情報生成方法。

【0094】

（３）前記トピック番号学習ステップにおいて、前記トピック番号の確率分布を作成する際には、前記あるアーティストの前記ある歌詞データに割り当てたトピック番号以外の、全ての前記複数の歌詞データに割り当てたトピック番号が正しいと仮定していることを特徴とする（１）に記載の歌詞のトピック推定情報生成方法。

【0095】

（４）前記スイッチ変数の値学習ステップは、前記スイッチ変数の値更新演算を行う際には、前記あるアーティストの前記ある歌詞データの前記複数の単語中のある単語に割り当てたスイッチ変数ｘ以外の、全ての単語に割り当てたスイッチ変数の値が正しいと仮定していることを特徴とする（２）に記載の歌詞のトピック推定情報生成方法。

【0096】

（５）前記トピック番号学習ステップは、
前記トピック番号の確率分布を作成する際に、前記あるアーティストａの前記ある歌詞データＳ_ar以外の歌詞データでトピック番号ｋが割り当てられている歌詞データの数Ｒ_akを基に、前記ある歌詞データＳ_arのトピック番号がｋである第１の確率ｐ₁を計算し、
前記ある歌詞データＳ_arを除く前記複数のアーティストの前記複数の歌詞データの中で前記単語ｖにトピック番号ｋが割り当てられている回数Ｎ_kvを基に、前記ある歌詞データＳ_arのトピック番号がｋである第２の確率ｐ₂を計算し、
前記第１の確率ｐ₁と前記第２の確率ｐ₂から前記ある歌詞データＳ_arのトピック番号がｋである確率ｐを計算し、
これらの計算を全てのトピック番号に関して実施して前記ある歌詞データＳ_arの前記トピック番号が１〜Ｋである確率の和が１になるように正規化して前記ある歌詞データＳ_arの前記トピック番号の確率分布とすることを特徴とする（１）に記載の歌詞のトピック推定情報生成方法。

【0097】

（６）前記出力ステップは、前記第２の確率ｐ₂を求める際の前記回数Ｎ_kvから、各トピック番号毎の単語の確率分布を出力するように構成されている（１）に記載の歌詞のトピック推定情報生成方法。

【0098】

（７）前記出力ステップにおける、前記トピック番号ｋの単語ｖの生起確率θ_kvは、下記式により求められ、
θ_kv＝（Ｎ_kv＋β）／（Ｎ_k＋β｜Ｖ｜）
但し、Ｎ_kvはある単語ｖにトピック番号ｋが割り当てられた回数、Ｎ_kはトピック番号ｋが割り当てられた全単語数、βはスムージング用パラメータ、｜Ｖ｜は単語の種類数である（６）に記載の歌詞のトピック推定情報生成方法。

【0099】

（８）前記スイッチ変数の値学習ステップは、
前記あるアーティストａの全曲の歌詞データ中で前記スイッチ変数の値として０が割り当てられている単語の数Ｎ_aoを基に、前記単語ｖ_arj のスイッチ変数の値が０である第３の確率ｐ₃を計算し、
前記単語ｖ_arjを含む歌詞と同一の前記トピック番号ｚ_arが割り当てられた全アーティストの全曲の中で前記単語ｖ_arjに前記スイッチ変数の値として０が割り当てられている回数Ｎｚ_arｖ_arjを基に、前記単語ｖ_arjのスイッチ変数の値が０である第４の確率ｐ₄を計算し、
前記第３の確率ｐ₃と第４の確率ｐ₄から前記スイッチ変数が０である第５の確率ｐ₅を計算し、
前記あるアーティストの前記複数の歌詞データの中で前スイッチ変数の値として１が割り当てられている回数Ｎ_a1を基に、前記単語ｖ_arjの前記スイッチ変数の値が１である第６の確率ｐ₆を計算し、
前記複数のアーティストの前記複数の歌詞データの中で前記単語ｖ_arjに前記スイッチ変数の値として１が割り当てられている回数Ｎ_1varjを基に、前記単語ｖ_arjの前記スイッチ変数の値が１である第７の確率ｐ₇を計算し、
前記第６の確率ｐ₆と第７の確率ｐ₇から前記スイッチ変数が１である第８の確率ｐ₈を計算し、
前記第６の確率ｐ₆と第７の確率ｐ₇から前記単語ｖ_arjの前記スイッチ変数の値が０である確率と１である確率の和が１になるように正規化しての前記スイッチ変数の値の確率分布とする（２）に記載の歌詞のトピック推定情報生成方法。

【0100】

（９）における、前記複数の歌詞データ毎のトピック番号は、前記トピック番号学習ステップにおいて前記トピック番号更新学習演算を予め定めた回数実行して最後に前記複数の歌詞データに割り当てられたトピック番号である（１）に記載の歌詞のトピック推定情報生成方法。

【0101】

（１０）学習に使用しなかったあるアーティストの新しい曲ｓの歌詞データに含まれる単語の確率分布を作成する第１の単語確率分布作成ステップと、
前記複数のアーティストの前記複数の曲の歌詞データにそれぞれ含まれる単語の確率分布を作成する第２の単語確率分布作成ステップと、
前記第１の単語確率分布作成ステップで得た前記新しい曲ｓの歌詞データに含まれる単語の確率分布と前記前記第２の単語確率分布作成ステップで得た前記複数の曲の歌詞データにそれぞれ含まれる単語の確率分布との間の類似度をそれぞれ求める類似度演算ステップと、
前記複数の曲の歌詞データに対応する前記複数の曲の歌詞データの類似度を、前記トピック番号の重みとして加算して前記トピック番号の重み分布を作成する重み分布作成ステップと、
前記重みが最大のトピック番号を前記新しい曲ｓの歌詞データのトピック番号とするトピック番号決定ステップとを更に備えていることを特徴とする（１）または（２）に記載の歌詞のトピック推定情報生成方法。

【0102】

（１１）背景の単語の生起確率を求めたい学習に使用しなかったあるアーティストａの全ての曲の歌詞データに含まれる単語の確率分布を作成する第３の単語確率分布作成ステップと、
前記アーティスト毎の全ての曲の歌詞データに含まれる単語の確率分布を作成する第４の単語確率分布作成ステップと、
前記アーティスト毎の全ての曲の歌詞データに含まれる背景の単語の確率分布を作成する第５の単語確率分布作成ステップと、
前記第３の単語確率分布作成ステップで得た前記ある歌詞データに含まれる単語の確率分布と前記第４の単語確率分布作成ステップで得た前記アーティスト毎の前記全ての曲の歌詞データに含まれる単語の確率分布との間の類似度をそれぞれ求める類似度演算ステップと、
前記類似度演算ステップで求めた前記アーティスト毎の前記類似度を前記第５の単語確率分布作成ステップで得た前記アーティスト毎の全ての曲の歌詞データに含まれる背景の単語の確率分布にそれぞれ乗算して得た確率分布を前記アーティスト毎に足し合わせて重みの和が１になるように正規化して、背景の単語の生起確率とする背景の単語の生起確率作成ステップとを更に具備することを特徴とする（１０）に記載の歌詞のトピック推定情報生成方法。

【0103】

（１２）上記（１）乃至（１１）に記載の歌詞のトピック推定情報生成方法におけるステップを、コンピュータを用いて実現するための歌詞のトピック推定情報生成用プログラム。

【0104】

（１３）コンピュータ読み取り可能な記憶媒体に記憶された（１２）に記載の歌詞のトピック推定情報生成用コンピュータプログラム。

【産業上の利用可能性】

【0105】

本発明によれば、任意のトピック数を決めると、トピック番号学習手段により最終的に更新された複数の歌詞データ毎のトピック番号により、複数の歌詞データ毎のトピック番号が特定される。そして複数の歌詞データ毎のトピック番号が判ると、各トピック番号毎の単語の確率分布が判る。そのためトピックと関係のある単語集合及び、無関係な単語集合を人手で規定する必要がない。また生起確率の高い複数の単語が分かると、それらの単語からトピックを定めるのに確かな情報が得られることになり、各歌詞のトピックの尤もらしい意味を求めることができる。

【符号の説明】

【0106】

１，１０１トピック推定情報生成システム
３，１０３歌詞データベース
５，１０５歌詞データ取得手段
７，１０７トピック番号生成手段
９，１０９トピック番号学習手段
１１，１１１解析手段
１３，１１３出力手段
１１５スイッチ変数の値学習手段

【図1】