特許第5980708号(P5980708)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許5980708対象文章を象徴する漢字を推定する漢字推定プログラム、装置、サーバ及び方法
<>
  • 特許5980708-対象文章を象徴する漢字を推定する漢字推定プログラム、装置、サーバ及び方法 図000002
  • 特許5980708-対象文章を象徴する漢字を推定する漢字推定プログラム、装置、サーバ及び方法 図000003
  • 特許5980708-対象文章を象徴する漢字を推定する漢字推定プログラム、装置、サーバ及び方法 図000004
  • 特許5980708-対象文章を象徴する漢字を推定する漢字推定プログラム、装置、サーバ及び方法 図000005
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5980708
(24)【登録日】2016年8月5日
(45)【発行日】2016年8月31日
(54)【発明の名称】対象文章を象徴する漢字を推定する漢字推定プログラム、装置、サーバ及び方法
(51)【国際特許分類】
   G06F 17/30 20060101AFI20160818BHJP
   G06F 17/27 20060101ALI20160818BHJP
【FI】
   G06F17/30 220A
   G06F17/30 170A
   G06F17/27 655
   G06F17/27 635
【請求項の数】12
【全頁数】13
(21)【出願番号】特願2013-59535(P2013-59535)
(22)【出願日】2013年3月22日
(65)【公開番号】特開2014-186429(P2014-186429A)
(43)【公開日】2014年10月2日
【審査請求日】2015年8月4日
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【弁理士】
【氏名又は名称】早原 茂樹
(72)【発明者】
【氏名】鈴木 雅実
(72)【発明者】
【氏名】石先 広海
(72)【発明者】
【氏名】服部 元
(72)【発明者】
【氏名】小野 智弘
【審査官】 田中 秀樹
(56)【参考文献】
【文献】 特開2013−011967(JP,A)
【文献】 特開2007−128224(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
G06F 17/27−17/28
(57)【特許請求の範囲】
【請求項1】
対象文章を象徴する漢字を推定するようにコンピュータを機能させる漢字推定プログラムであって、
前記対象文章から形態素解析によって単語を抽出する形態素解析手段と、
前記単語毎の出現頻度に応じて、特徴的な所定数の話題語(単語)を抽出する話題語抽出手段と、
前記話題語を漢字単位に区分すると共に、漢字毎に前記所定数の話題語の出現頻度を対応付ける漢字区分手段と、
前記出現頻度が高い所定数上位の漢字を、前記対象文章を象徴する漢字として推定する漢字推定手段と
してコンピュータを機能させることを特徴とする漢字推定プログラム。
【請求項2】
前記出現頻度は、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)値であるようにコンピュータを機能させることを特徴とする請求項1に記載の漢字推定プログラム。
【請求項3】
前記出現頻度は、出現した対象文章の数を表すDF(Document Frequency)値であるようにコンピュータを機能させることを特徴とする請求項1に記載の漢字推定プログラム。
【請求項4】
前記漢字推定手段は、漢字毎に当該漢字を含む熟語数を記憶した国語辞書情報を用いて、前記出現頻度が高く且つ前記熟語数が少ない所定数上位の漢字を、前記対象文章を象徴する漢字として推定する
うにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載の漢字推定プログラム。
【請求項5】
前記漢字推定手段は、
調整ポイント=(出現頻度/話題語数)/√(熟語数)
出現頻度:当該漢字を含む単語の出現頻度
話題語数:前記所定数の話題語の中で、当該漢字を含む話題語の数
熟語数 :前記国語辞書情報に基づく、当該漢字を含む熟語の数
によって算出された調整ポイントが高い順に所定数上位の漢字を、前記対象文章を象徴する漢字として推定する
ようにコンピュータを機能させることを特徴とする請求項4に記載の漢字推定プログラム。
【請求項6】
対象文章を、所定条件に基づいて別々に蓄積した複数の対象文章蓄積手段を有し、
前記話題語抽出手段は、前記単語毎の出現頻度に加えて、異なる対象文章蓄積手段同士を比較して特徴的に出現する所定数の話題語を抽出するようにコンピュータを機能させることを特徴とする請求項1から5のいずれか1項に記載の漢字推定プログラム。
【請求項7】
第1の単語に類似する、漢字のみで構成された第2の単語を対応付けて記憶した類似語蓄積手段と、
前記類似語蓄積手段を用いて、前記話題語抽出手段から出力された前記話題語(第1の単語)に類似する第2の単語を話題語として、前記漢字区分手段へ出力する話題語変換手段と
してコンピュータを機能させることを特徴とする請求項1から6のいずれか1項に記載の漢字推定プログラム。
【請求項8】
漢字と名言文章とを対応付けて蓄積した名言蓄積手段を更に有し、
前記漢字推定手段から出力された漢字と、前記名言蓄積手段を用いて当該漢字に対応する前記名言文章とを出力する
ようにコンピュータを機能させることを特徴とする請求項1から7のいずれか1項に記載の漢字推定プログラム。
【請求項9】
前記対象文章は、不特定多数の第三者によってコメント公開サーバに投稿されたコメント文章であるようにコンピュータを機能させることを特徴とする請求項1から8のいずれか1項に記載の漢字推定プログラム。
【請求項10】
対象文章を象徴する漢字を推定する装置であって、
前記対象文章から形態素解析によって単語を抽出する形態素解析手段と、
前記単語毎の出現頻度に応じて、特徴的な所定数の話題語(単語)を抽出する話題語抽出手段と、
前記話題語を漢字単位に区分すると共に、漢字毎に前記所定数の話題語の出現頻度を対応付ける漢字区分手段と、
前記出現頻度が高い所定数上位の漢字を、前記対象文章を象徴する漢字として推定する漢字推定手段と
を有することを特徴とする漢字推定用の装置。
【請求項11】
不特定多数の第三者によって投稿されたコメント文章を公開するコメント公開サーバと、ユーザ操作に基づく端末とネットワークを介して通信可能であり、対象文章を象徴する漢字を推定する漢字推定サーバであって、
前記コメント公開サーバから、コメント文章を対象文章として収集する対象文章収集手段と、
前記対象文章から形態素解析によって単語を抽出する形態素解析手段と、
前記単語毎の出現頻度に応じて、特徴的な所定数の話題語(単語)を抽出する話題語抽出手段と、
前記話題語を漢字単位に区分すると共に、漢字毎に前記所定数の話題語の出現頻度を対応付ける漢字区分手段と、
前記出現頻度が高い所定数上位の漢字を、前記対象文章を象徴する漢字として推定する漢字推定手段と
を有することを特徴とする漢字推定サーバ。
【請求項12】
装置を用いて、対象文章を象徴する漢字を推定する漢字推定方法であって、
前記対象文章から形態素解析によって単語を抽出する第1のステップと、
前記単語毎の出現頻度に応じて、特徴的な所定数の話題語(単語)を抽出する第2のステップと、
前記話題語を漢字単位に区分すると共に、漢字毎に前記所定数の話題語の出現頻度を対応付ける第3のステップと、
前記出現頻度が高い所定数上位の漢字を、前記対象文章を象徴する漢字として推定する第4のステップと
を有することを特徴とする漢字推定方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対象文章から自動的に要約を生成する技術に関する。
【背景技術】
【0002】
近年、テキスト要約技術の進歩によって、Webページに記述された長い対象文章も短時間で圧縮し、ブラウザで閲覧することができる。要約を更に進めると、そのような対象文章を、文やキーワードにまで凝縮させることもできる。但し、テキスト要約技術は、論理的な意味のまとまりを保持するものであっって、通常、パラグラフのような文章を生成するに留まる。
【0003】
テキスト要約技術は、対象文章から単語を抽出し、それら単語を含む文を繋ぎ合わせて要約文章を生成する。最近では、複数の対象文章を要約するものもあるが、いずれにせよ論理的な文章として再構成するものが一般的である(例えば非特許文献1参照)。また、内容網羅性及び可読性の高い要約を生成するために、文要素に種々の素性を付与する技術もある(例えば特許文献1参照)。一方で、対象文章に対して各種のアノテーションを施すことによって、簡易に検索する技術もある(例えば非特許文献2参照)。この技術によれば、対象文章における語の分布や形式的特徴から、種々の属性を付与するものであって、アノテーションされた情報自体を人間が参照することは少ない。
【0004】
人間が、原文となる対象文章を読むことなく、要約文章のみで理解するためには、要約文章には、ある程度の文章の長さが必要であり、原文の大意を反映することが必要である。しかし、その要求レベルに応じることは一般に非常に難度が高い。これに対して、検索結果の一覧等で表示される表題や目次的な情報を提示する技術もあるが、この技術によれば、そのリンク先を示すための中間段階の手掛り情報に過ぎない。
【0005】
テキスト要約及びアノテーションには、以下のような関係がある。
[テキスト要約]
(特徴)複数文章を一定の長さで論理的に再構成した要約文章の生成には難度が高い。
(ユーザ視点から)要約文章を理解するのに、時間を要する。
[アノテーション]
(特徴)基本的に文章単位で、要約文章を作成する。
(ユーザ視点から)直接参照ではなく、検索の手掛りとして、要約文章を使用する。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2011−243166号公報
【非特許文献】
【0007】
【非特許文献1】難波英嗣・奥村学、「ここまで来たテキスト自動要約」、情報処理 Vol43、2002 No.12、[online]、[平成25年2月11日検索]、インターネット<URL:http://www.ls.info.hiroshima-cu.ac.jp/~nanba/pdf/IPSJ-MGN431203_2002.pdf>
【非特許文献2】冨浦洋一・石田栄美、「学術論文検索の高度化のための論文アブストラクトのアノテーション」、テキストアノテーションワークショップ・コンテスト(国立情報学研究所)、2012、[online]、[平成25年2月11日検索]、インターネット<URL:http://nlp.nii.ac.jp/tawc/papers/C03_tomiura.pdf>
【非特許文献3】「JIS一種漢字2965字を用いて作成される漢字二字熟語数表」、名古屋大学教育学部紀要、Vol.44、 pp.243-299、1997.
【非特許文献4】「名言ナビ」、[online]、[平成25年2月11日検索]、インターネット<URL:http://www.meigennavi.net/>
【発明の概要】
【発明が解決しようとする課題】
【0008】
例えば毎年恒例のニュースとして、その年の世相を表わす「今年の漢字」の投票結果に対する注目度が高い。ここで、本願の発明者らは、テキスト要約を更に進めることによって、対象文章を「漢字」一文字にまで象徴させることができるのではないか、と考えた。即ち、人間によって記述されたニュース記事やコメント文章のような対象文章であっても、共感できる「漢字」一文字に象徴的に表現することができるのではないか、と考えた。
【0009】
そこで、本発明は、対象文章を象徴する漢字一文字を推定することができる漢字推定プログラム、装置、サーバ及び方法を提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明によれば、対象文章を象徴する漢字を推定するようにコンピュータを機能させる漢字推定プログラムであって、
対象文章から形態素解析によって単語を抽出する形態素解析手段と、
単語毎の出現頻度に応じて、特徴的な所定数の話題語(単語)を抽出する話題語抽出手段と、
話題語を漢字単位に区分すると共に、漢字毎に前記所定数の話題語の出現頻度を対応付ける漢字区分手段と、
出現頻度が高い所定数上位の漢字を、対象文章を象徴する漢字として推定する漢字推定手段と
してコンピュータを機能させることを特徴とする。
【0011】
本発明の漢字推定プログラムにおける他の実施形態によれば、
出現頻度は、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)値であるようにコンピュータを機能させることも好ましい。
【0012】
本発明の漢字推定プログラムにおける他の実施形態によれば、
出現頻度は、出現した対象文章の数を表すDF(Document Frequency)値であるようにコンピュータを機能させることも好ましい。
【0013】
本発明の漢字推定プログラムにおける他の実施形態によれば、
漢字推定手段は、漢字毎に当該漢字を含む熟語数を記憶した国語辞書情報を用いて、出現頻度が高く且つ熟語数が少ない所定数上位の漢字を、対象文章を象徴する漢字として推定する
ようにコンピュータを機能させることも好ましい。
【0014】
本発明の漢字推定プログラムにおける他の実施形態によれば、
漢字推定手段は、
調整ポイント=(出現頻度/話題語数)/√(熟語数)
出現頻度:当該漢字を含む単語の出現頻度
話題語数:所定数の話題語の中で、当該漢字を含む話題語の数
熟語数 :国語辞書情報に基づく、当該漢字を含む熟語の数
によって算出された調整ポイントが高い所定数上位の漢字を、対象文章を象徴する漢字として推定する
ようにコンピュータを機能させることも好ましい。
【0015】
本発明の漢字推定プログラムにおける他の実施形態によれば、
対象文章を、所定条件に基づいて別々に蓄積した複数の対象文章蓄積手段を有し、
話題語抽出手段は、単語毎の出現頻度に加えて、異なる対象文章蓄積手段同士を比較して特徴的に出現する所定数の話題語を抽出するようにコンピュータを機能させることも好ましい。
【0016】
本発明の漢字推定プログラムにおける他の実施形態によれば、
第1の単語に類似する、漢字のみで構成された第2の単語を対応付けて記憶した類似語蓄積手段と、
類似語蓄積手段を用いて、話題語抽出手段から出力された話題語(第1の単語)に類似する第2の単語を話題語として、漢字区分手段へ出力する話題語変換手段と
してコンピュータを機能させることも好ましい。
【0017】
本発明の漢字推定プログラムにおける他の実施形態によれば、
漢字と名言文章とを対応付けて蓄積した名言蓄積手段を更に有し、
漢字推定手段から出力された漢字と、名言蓄積手段を用いて当該漢字に対応する名言文章とを出力する
ようにコンピュータを機能させることも好ましい。
【0018】
本発明の漢字推定プログラムにおける他の実施形態によれば、
対象文章は、不特定多数の第三者によってコメント公開サーバに投稿されたコメント文章であるようにコンピュータを機能させることも好ましい。
【0019】
本発明によれば、対象文章を象徴する漢字を推定する装置であって、
対象文章から形態素解析によって単語を抽出する形態素解析手段と、
単語毎の出現頻度に応じて、特徴的な所定数の話題語(単語)を抽出する話題語抽出手段と、
話題語を漢字単位に区分すると共に、漢字毎に所定数の話題語の出現頻度を対応付ける漢字区分手段と、
出現頻度が高い所定数上位の漢字を、対象文章を象徴する漢字として推定する漢字推定手段と
を有することを特徴とする。
【0020】
本発明によれば、不特定多数の第三者によって投稿されたコメント文章を公開するコメント公開サーバと、ユーザ操作に基づく端末とネットワークを介して通信可能であり、対象文章を象徴する漢字を推定する漢字推定サーバであって、
コメント公開サーバから、コメント文章を対象文章として収集する対象文章収集手段と、
対象文章から形態素解析によって単語を抽出する形態素解析手段と、
単語毎の出現頻度に応じて、特徴的な所定数の話題語(単語)を抽出する話題語抽出手段と、
話題語を漢字単位に区分すると共に、漢字毎に所定数の話題語の出現頻度を対応付ける漢字区分手段と、
出現頻度が高い所定数上位の漢字を、対象文章を象徴する漢字として推定する漢字推定手段と
を有することを特徴とする。
【0021】
本発明によれば、装置を用いて、対象文章を象徴する漢字を推定する漢字推定方法であって、
対象文章から形態素解析によって単語を抽出する第1のステップと、
単語毎の出現頻度に応じて、特徴的な所定数の話題語(単語)を抽出する第2のステップと、
話題語を漢字単位に区分すると共に、漢字毎に所定数の話題語の出現頻度を対応付ける第3のステップと、
出現頻度が高い所定数上位の漢字を、対象文章を象徴する漢字として推定する第4のステップと
を有することを特徴とする。
【発明の効果】
【0022】
本発明の漢字推定プログラム、装置、サーバ及び方法によれば、対象文章を象徴する漢字一文字を推定することができる。
【図面の簡単な説明】
【0023】
図1】本発明における漢字推定装置の機能構成図である。
図2】本発明の漢字推定部によって「漢字」をソートした表である。
図3】本発明におけるシステム構成図である。
図4】本発明におけるシーケンス図である。
【発明を実施するための形態】
【0024】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0025】
図1は、本発明における漢字推定装置の機能構成図である。
【0026】
図1によれば、漢字推定装置1は、対象文章蓄積部10と、形態素解析部11と、話題語抽出部12と、漢字区分部13と、漢字推定部14と、類似語蓄積部15と、話題語変換部16と、漢字出力部17と、名言蓄積部18とを有する。これら機能構成部は、サーバに搭載されたコンピュータを機能させる漢字推定プログラムを実行させることによって実現できる。
【0027】
[対象文章蓄積部10]
対象文章蓄積部10は、多数の対象文章を、所定条件に基づいて蓄積する。ここで、所定条件に基づく対象文章の集合が、形態素解析部11へ出力される。「対象文章の集合」とは、何らかの意味を持つ時間的・空間的な範囲における集合であって、その集合を象徴する漢字一文字を抽出しようとするものである。
【0028】
対象文章蓄積部10は、例えば以下のような対象文章を蓄積するものであってもよい。
(1)ニュース記事に関する対象文章
主要なニュース記事を政治・経済等のジャンル毎に収録したサイトから収集する。
(2)オンラインコミュニティに関する対象文章
例えば映画レビューのコミュニティへの投稿文を収集する。
(3)twitter(登録商標)に関する対象文章
例えば個人の一定時間範囲(例えば1日)のツイートを収集する。
【0029】
例えば1年分のニュース記事に関する対象文章からは、その年の世相を表す「漢字」一文字を抽出することができる。また、1年間の世相のような広い対象ではなく、例えば、時間的には一日又は一週間のように短期間に限定してもよいし、空間的には国内の特定地域又は特定のコミュニティのような範囲に限定してもよい。また、個人の1日分のツイートから、その日を象徴する漢字を推定することもできる。そのような「漢字」一文字に接したユーザは、その漢字の雰囲気及び感覚から、その対象文章が生起された時間・空間における雰囲気及び感覚を、直観的に理解することができる。
【0030】
[形態素解析部11]
形態素解析部11は、対象文章蓄積部10から対象文章を入力する。ここでは、一定範囲の対象文章の集合が入力されることによって、結果的に、それら対象文章全体を象徴する「漢字」を推定することができる。形態素解析部11は、これら対象文章から、形態素解析によって単語を抽出する。ここで、「形態素解析」とは、文章を、意味のある単語に区切り、辞書を利用して品詞や内容を判別する技術をいう。「形態素」とは、文章の要素のうち、意味を持つ最小の単位(単語を含む)を意味する。
【0031】
[話題語抽出部12]
話題語抽出部12は、単語毎の出現頻度に応じて、特徴的な所定数の話題語を抽出する。最も簡単な方法としては、単なる出現頻度=出現回数であってもよい。また、所定数としては、例えば上位100個の話題語とするものであってもよい。
【0032】
ここで、出現頻度は、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)値であってもよい。TF−IDFとは、文章中に出現した単語がどのくらい特徴的であるかを識別するための指標をいう。TF(term frequency)は、その文章の中でその単語が出現した回数を表し、IDF(inverse document frequency)は、コーパス全体の中でその文章を含む文章数の自然対数を表す。そして、TF値×IDF値が、その文章中におけるその単語のTF−IDF値となる。高いTF−IDF値を持つ単語ほど、話題性が高い(重要)であると認識される。
【0033】
更に、出現頻度は、当該話題語が出現する対象文章の数を表すDF(Document Frequency)値であってもよい。例えば各対象文章が各ニュース記事であった場合、DF値は、その話題語が含まれた記事数となる。また、例えば各対象文章がツイートであった場合、DF値は、その話題語が含まれたツイート数となる。
【0034】
話題語抽出部12は、単語毎の出現頻度に加えて、異なる対象文章蓄積部10同士を比較して特徴的に出現する所定数の話題語を抽出するものであってもよい。例えば、2011年のニュース記事を対象文章として蓄積した対象文章蓄積部と、過去数年のニュース記事を対象文章として蓄積した対象文章蓄積部と、今年のニュース記事を対象文章として蓄積した対象文章蓄積部とを有するとする。このとき、毎年のように出現頻度が高い話題語も存在する。そこで、例えば今年だけ特有な話題語のみを、その年の話題語として抽出するのが好ましい。具体的には、話題語が出現するDF値(記事数)が、平均的な他の年よりも突出して多い場合にのみ、話題語と認定することができる。即ち、毎年のように出現する話題語は、その年を代表する話題語とはいえないためである。
【0035】
[漢字区分部13]
漢字区分部13は、話題語を漢字単位に区分すると共に、漢字毎に当該話題語の出現頻度を対応付ける。前述したように、出現頻度そのものであってもよいし、DF値やTF−IDF値であってもよい。例えば以下のように、漢字毎のDF値が導出される。
話題語「震災」(DF値=30)->
「震災」から導かれる震のDF値+=30
「震災」から導かれる災のDF値+=30
同様に、「震」については、「地震」「震度」・・・などから
「災」については、「災害」「被災」・・・などから
導かれる各々の話題語に対応するDF値が求められるので,
それらを合計することにより
-> 震のDF値=267
-> 災のDF値=234
【0036】
他の実施形態として、漢字区分部13は、所定の部首を含む漢字のみを、漢字推定部14へ出力するものであってもよい。例えば部首「心」を含む漢字のみを出力するものであってもよい。部首「心」を含むような漢字は、人間の心理や感情を表すものが多い。このように、漢字区分部13から出力される漢字の部首を特定することによって、ユーザに認識させる特定の目的に合わせて、漢字を推定することができる。
【0037】
[漢字推定部14]
漢字推定部14は、出現頻度が高い所定数上位の漢字を、対象文章を象徴する漢字として推定する。
【0038】
図2は、本発明の漢字推定部によって「漢字」をソートした表である。
【0039】
図2によれば、1年分のニュース記事に関する対象文章から、「今年の漢字」といえる上位20個の漢字が表されている。図2によれば、各漢字のDF値に基づいて降順にソートされている。例えば、過去数年の平均出現頻度(DF値:記事数)よりも所定閾値倍以上となる話題語のみが、今年の漢字として推定されることも好ましい。所定閾値倍は、パラメータとして調整可能であって、1.5〜2.0倍程度が適当であって、例えば1.7倍であってもよい。
【0040】
一方で、DF値やTF−IDF値のみを用いて上位の漢字を抽出するということは、漢字本来の特性が反映されていないことを意味する。次の段階として、漢字の持つ「造語能力(又は意味的多様性)」を考慮して、漢字を降順にソートすることが考えられる。その造語能力として、その漢字一文字が含まれる熟語数を用いる。
【0041】
そこで、他の実施形態として、漢字推定部14は、当該漢字を含む熟語数を記憶した国語漢字辞書情報を用いて、熟語数が少ない漢字ほど上位にソートさせるように、出現頻度に乗算することも好ましい。既存の国語辞書によれば、常用される基本漢字が用いられる漢字熟語の「熟語数(異なり数)」を知ることができる(例えば非特許文献3参照)。それによって、漢字の持つ熟語形成の多様性を反映させて、漢字をソートすることができる。即ち、ある漢字を含む熟語数に対して、話題語(熟語を含む)が占める割合が高いほど、その漢字への注目度が高いものと推定する。
【0042】
図2における「今年の漢字」として推定された上位の漢字の傾向として、出現頻度だけでなく、多様な単語の形成に関係する程度や、情緒的な意味を内在する程度が高いものが多い。即ち、多様な単語の形成に関係する程度や、情緒的な意味を内在する程度が高い漢字ほど、実際の出現頻度以上に注目されることを意味する。そこで、本発明によれば、これらの属性を定量化して、出現頻度に基づくソートを調整する。
【0043】
前項の具体例として、漢字のソートの調整パラメータとして、以下のものを用いる。
(1)当該漢字における(話題語の)熟語数a
(2)当該漢字における話題語を含む記事数b
(3)b/a=話題語当りの平均出現数
(4)当該漢字を含む熟語数(漢字の意味的多様性の基本尺度)
そして、漢字推定部14は、以下の式によって算出された調整ポイントによって、漢字をソートする。
調整ポイント=(出現頻度/話題語数)/√(熟語数)
【0044】
図2によれば、左列にDF順に漢字がソートされており、右列に調整ポイント順に漢字がソートされている。調整ポイントによれば、2011年は、「震」->「災」->「電」->「被」->・・・の順に、漢字が推定されている。尚、話題語が固有名詞である場合、その話題語を区分した漢字に割り当てる調整ポイントに0.1を乗算した値を与えるものとする。
【0045】
[類似語蓄積部15]
類似語蓄積部15は、第1の単語に類似する、漢字のみで構成された第2の単語を対応付けて記憶する。例えば以下のような対応付けである。
「オリンピック」<->「五輪」
【0046】
[話題語変換部16]
話題語変換部16は、類似語蓄積部15を用いて、話題語抽出部12から出力された話題語に類似する単語を話題語として、漢字区分部13へ出力する。ここで、話題語がカタカナ語であった場合は、同一対象を指す「漢字単語」に変換する。前述の例によれば、話題語「オリンピック」は、「五輪」に変換される。変換された「五輪」が、漢字区分部13へ出力されて、各漢字「五」「輪」に区分される。
【0047】
図3は、本発明におけるシステム構成図である。
【0048】
近年、インターネットを介して、ブログ(Web log)やミニブログ(mini Web log)(例えばtwitter(登録商標))のようなサイトに対して、不特定多数の第三者からのコメント文章が、活発に発信されている。図3によれば、ミニブログサーバ2が、インターネットに更に接続されている。不特定多数の第三者のコメント投稿者は、端末4を用いて、ミニブログサーバ2へコメント文章を投稿すると共に、他人のコメント文章を閲覧することができる。端末4は、例えば携帯端末やスマートフォンのようなものであってもよい。
【0049】
本発明によれば、漢字推定サーバ1が、インターネットに更に接続されている。漢字推定サーバ1は、一定範囲の多数のコメント文章(対象文章)をミニブログサーバ2から収集する。そして、漢字推定サーバ1は、それらコメント文章に関連する「漢字」(一文字)を推定する。推定された「漢字」は、ユーザ操作の端末3へ送信され、ユーザに認識させることができる。
【0050】
図3によれば、図1と比較して、対象文章収集部17と、漢字送信部18と、名言蓄積部19とを更に有する。
【0051】
[対象文章収集部17]
対象文章収集部17は、例えばミニブログサーバ3からコメント文章(対象文章)を収集する。これらコメント文章は、対象文章蓄積部10へ出力される。例えば、twitter(登録商標)の投稿文を対象文章とした場合、例えば個人の一定時間範囲、例えば1日分のツイートを収集することもできる。
【0052】
[漢字送信部18]
漢字送信部18は、推定された所定数上位の漢字を、端末3へ送信する。ここで、所定数とは、1個の漢字であってもよいし、複数個の漢字であってもよい。端末3を操作するユーザは、その漢字が持つ雰囲気や感覚を知ることができる。
【0053】
具体的な実施形態として、映画レビューのコミュニティへの投稿文を対象文章とした場合について説明する。それらの対象文章から漢字一文字を推定することによって、その映画に関する雰囲気や感覚を知ることができる。例えば、あるミュージカル映画の場合、そのコミュニティに1週間分で120件の投稿文があったとする。
話題語抽出部12は、以下の話題語を抽出したとする。
「青年」「フランス」「愛情」「革命」
次に、話題語変換部16は、以下のように話題語を変換する。
「フランス」->「仏」
次に、漢字区分部13は、以下のように漢字に区分する。
「青」「年」「仏」「愛」「情」「革」「命」
そして、漢字推定部14は、上位にソートされた漢字として以下のように推定する。
「愛」「革」「仏」「青」「情」・・・
最終的に、ユーザに明示する漢字一文字が1個の場合、「愛」のみが出力される。
【0054】
[名言蓄積部19]
名言蓄積部19は、漢字と名言文章とを対応付けて蓄積する。例えば以下のように対応付けられているとする。
漢字「誤」->名言「猿も木から落ちる」
ここで、漢字送信部18が、漢字「誤」を送信しようとしたとする。このとき、名言蓄積部18を参照し、漢字「誤」と共に、名言「猿も木から落ちる」も送信する。これによって、ユーザは、漢字のみではなく、その漢字と結び付きが深い各種の名台詞や俳句・川柳のような名言も知ることができる。
他の実施形態として、漢字送信部18が、抽出した漢字を名言サーバへ送信し、その漢字に対応する名言文章を受信するものであってもよい(例えば非特許文献4参照)。
【0055】
図4は、本発明におけるシーケンス図である。
【0056】
(S10)漢字推定サーバ1は、対象文章を収集する(前述の対象文章収集部17参照)。収集された対象文章は、対象文章蓄積部10へ蓄積される。
(S11)対象文章から形態素解析によって単語を抽出する(前述の形態素解析部11参照)。
(S12)単語毎の出現頻度に応じて、特徴的な所定数の話題語(単語)を抽出する(前述の話題語抽出部12参照)。尚、例えばカタカナ語のような話題語は、漢字で構成された話題語へ変換される(前述の話題語変換部16参照)。
(S13)話題語を漢字単位に区分すると共に、漢字毎に当該話題語の出現頻度を対応付ける(前述の漢字区分部13参照)。
(S14)出現頻度が高い所定数上位の漢字を、対象文章を象徴する漢字として推定する(前述の漢字推定部14参照)。
(S15)ここで、推定された漢字と共に、その漢字に対応する名言を検索してもよい(前述の名言蓄積部19参照)。
(S16)最後に、漢字推定サーバ1は、対象文章を象徴する漢字(又はその名言)を、ユーザ操作に基づく端末3へ送信する。
【0057】
以上、詳細に説明したように、本発明の漢字推定プログラム、装置、サーバ及び方法によれば、対象文章を象徴する漢字一文字を推定することができる。様々な時間や空間の範囲で生起する人々の多数の投稿文章を対象文章として、それらを象徴(総括)する漢字一文字を推定することができる。これによって、ユーザに対して、その漢字が持つ雰囲気や感覚を直観的に理解させ且つ共感させることができる。この点で、従来技術におけるテキスト要約やアノテーションと大きく異なる。
【0058】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0059】
1 漢字推定サーバ
10 対象文章蓄積部
11 形態素解析部
12 話題語抽出部
13 漢字区分部
14 漢字推定部
15 類似語蓄積部
16 話題語変換部
17 対象文章収集部
18 漢字送信部
19 名言蓄積部
2 ミニブログサーバ
3 端末
4 コメント投稿者用の端末
図1
図2
図3
図4