【課題を解決するための手段】
【0019】
本発明によれば、日本語文に、当該日本語文から直接的に導出できない1つ以上のタグを付与するようにコンピュータを機能させるタグ付けプログラムであって、
日本語文と異なる多数の文章情報を蓄積した文章集合蓄積手段と、
1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶手段と、
形態素解析によって、日本語文から1つ以上の第2の語を抽出する形態素解析手段と、
第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、文章集合蓄積手段に対して検索し、第2の語に対する第1の語毎の共起頻度を算出する共起頻度算出手段と、
カテゴリ毎に、第2の語に対する共起頻度の合計となる統計共起頻度を算出する統計共起頻度算出手段と、
統計共起頻度が所定閾値以上となる当該カテゴリのタグを、日本語文に付与するタグ付け手段と
してコンピュータを機能させることを特徴とする。
【0020】
本発明のタグ付けプログラムにおける他の実施形態によれば、
カテゴリは、情動、感情又は感覚に応じて区分されており、
日本語文に付与されるカテゴリのタグは、情動タグ、感情タグ又は感覚タグであることも好ましい。
【0021】
本発明のタグ付けプログラムにおける他の実施形態によれば、
第1の語は、漢字であり、
第1の語の漢字は、全てのカテゴリについて同一の部首を含むことも好ましい。
【0022】
本発明のタグ付けプログラムにおける他の実施形態によれば、
第1の語の漢字は、全てのカテゴリについて部首「心」を含むことも好ましい。
【0023】
本発明のタグ付けプログラムにおける他の実施形態によれば、
マスメディアによって発行された文章を蓄積した拡張用文章蓄積手段を更に有し、
拡張用文章蓄積手段を用いて、第1の語と、当該第1の語の同義語及び類義語と共起する拡張語を抽出し、
カテゴリ記憶手段は、第1の語として拡張語を更に含むことも好ましい。
【0024】
本発明のタグ付けプログラムにおける他の実施形態によれば、
文章集合蓄積手段に蓄積された文章情報は、ブログサーバ又はSNS(Social Networking Service)サーバによって公開される個人によって記述された文章であることも好ましい。
【0025】
本発明のタグ付けプログラムにおける他の実施形態によれば、
カテゴリのタグを付与した第1の日本語文と、他の第2の日本語文との編集距離を算出する編集距離算出手段を更に有し、
タグ付け手段は、編集距離が所定閾値以下であれば、第1の日本語文に付与されたタグと同一のタグを、第2の日本語文に対しても付与することも好ましい。
【0026】
本発明のタグ付けプログラムにおける他の実施形態によれば、
形態素解析手段は、第2の語として自立語を抽出することも好ましい。
【0027】
本発明のタグ付けプログラムにおける他の実施形態によれば、
日本語文は、俳句、川柳若しくは短歌のような短詩、又は、各種名言であることも好ましい。
【0028】
本発明によれば、日本語文に、当該日本語文から直接的に導出できない1つ以上のタグを付与するタグ付け装置であって、
日本語文と異なる多数の文章情報を蓄積した文章集合蓄積手段と、
1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶手段と、
形態素解析によって、日本語文から1つ以上の第2の語を抽出する形態素解析手段と、
第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、文章集合蓄積手段に対して検索し、第2の語に対する第1の語毎の共起頻度を算出する共起頻度算出手段と、
カテゴリ毎に、第2の語に対する共起頻度の合計となる統計共起頻度を算出する統計共起頻度算出手段と、
統計共起頻度が所定閾値以上となる当該カテゴリのタグを、日本語文に付与するタグ付け手段と
を有することを特徴とする。
【0029】
本発明によれば、日本語文に、当該日本語文から直接的に導出できないコンピュータを用いて1つ以上のタグを付与するタグ付け方法であって、
日本語文と異なる多数の文章情報を蓄積した文章集合蓄積部と、
1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶部とを有し、
形態素解析によって、日本語文から1つ以上の第2の語を抽出する第1のステップと、
第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、文章集合蓄積部に対して検索し、第2の語に対する第1の語毎の共起頻度を算出する第2のステップと、
カテゴリ毎に、第2の語に対する共起頻度の合計となる統計共起頻度を算出する第3のステップと、
統計共起頻度が所定閾値以上となる当該カテゴリのタグを、日本語文に付与する第4のステップと
を有することを特徴とする。
【0030】
本発明によれば、日本語文に、当該日本語文から直接的に導出できない1つ以上のタグを付与するタグ付けサーバであって、
日本語文と異なる多数の文章情報を蓄積した文章集合蓄積手段と、
1つ以上の第1の語を含む複数のカテゴリを記憶するカテゴリ記憶手段と、
端末から利用者の操作に応じて入力された日本語文を受信する日本語文受信手段と、
形態素解析によって、日本語文から1つ以上の第2の語を抽出する形態素解析手段と、
第2の語と、カテゴリ毎の各第1の語との全ての組み合わせについて、文章集合蓄積手段に対して検索し、第2の語に対する第1の語毎の共起頻度を算出する共起頻度算出手段と、
カテゴリ毎に、第2の語に対する共起頻度の合計となる統計共起頻度を算出する統計共起頻度算出手段と、
統計共起頻度が所定閾値以上となる当該カテゴリのタグを、日本語文に付与するタグ付け手段と
当該日本語文に付与された1つ以上のタグを端末へ返信するタグ送信手段と
を有することを特徴とする。