特許第6106489号(P6106489)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

<>
  • 特許6106489-語義解析装置、及びプログラム 図000004
  • 特許6106489-語義解析装置、及びプログラム 図000005
  • 特許6106489-語義解析装置、及びプログラム 図000006
  • 特許6106489-語義解析装置、及びプログラム 図000007
  • 特許6106489-語義解析装置、及びプログラム 図000008
  • 特許6106489-語義解析装置、及びプログラム 図000009
  • 特許6106489-語義解析装置、及びプログラム 図000010
  • 特許6106489-語義解析装置、及びプログラム 図000011
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6106489
(24)【登録日】2017年3月10日
(45)【発行日】2017年3月29日
(54)【発明の名称】語義解析装置、及びプログラム
(51)【国際特許分類】
   G06F 17/30 20060101AFI20170316BHJP
   G06F 17/27 20060101ALI20170316BHJP
【FI】
   G06F17/30 220Z
   G06F17/27 615
   G06F17/27 635
【請求項の数】5
【全頁数】12
(21)【出願番号】特願2013-69219(P2013-69219)
(22)【出願日】2013年3月28日
(65)【公開番号】特開2014-191777(P2014-191777A)
(43)【公開日】2014年10月6日
【審査請求日】2016年2月1日
【権利譲渡・実施許諾】特許権者において、実施許諾の用意がある。
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100064908
【弁理士】
【氏名又は名称】志賀 正武
(74)【代理人】
【識別番号】100108578
【弁理士】
【氏名又は名称】高橋 詔男
(72)【発明者】
【氏名】山田 一郎
(72)【発明者】
【氏名】宮▲崎▼ 太郎
【審査官】 早川 学
(56)【参考文献】
【文献】 特開平10−171807(JP,A)
【文献】 特開2010−225135(JP,A)
【文献】 白井清昭、外1名,辞書定義文を用いた低頻度語のための語義曖昧性解消モデルの学習,情報処理学会研究報告,社団法人情報処理学会,2003年11月 7日,Vol.2003,No.108,pp.127〜132(2003-NL-158)
【文献】 小川千隼、外1名,国語辞典と語義タグ付きコーパスを用いた頑健な語義曖昧性解消,言語処理学会第11回年次大会発表論文集,言語処理学会,2005年 3月15日,pp.1064〜1067
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
G06F 17/27
(57)【特許請求の範囲】
【請求項1】
複数の意味を有する単語についての複数の語義が記述された語義記述テキストデータから、前記語義それぞれを特徴付ける語義特徴付け単語を抽出する語義特徴付け単語抽出部と、
前記単語との共起関係に基づいてテキストデータの集合から前記単語の関連単語を抽出する関連単語抽出部と、
前記語義特徴付け単語抽出部が抽出した前記語義特徴付け単語と、前記関連単語抽出部が抽出した前記関連単語との類似度を計算する類似度計算部と、
前記類似度計算部により計算された類似度に基づいて前記語義特徴付け単語に対応した語義が使われやすい順位を決定するランキング処理部と、
を備えることを特徴とする語義解析装置。
【請求項2】
前記語義特徴付け単語抽出部は、前記語義記述テキストデータに記述されている各語義の定義文の最終文節に含まれる名詞を語義特徴付け単語として抽出する、
ことを特徴とする請求項1に記載の語義解析装置。
【請求項3】
前記語義特徴付け単語抽出部は、前記定義文の最終文節に含まれる名詞が複数の中の一つであることを表す特定単語である場合、前記最終文節を修飾している文節に含まれる名詞を語義特徴付け単語として抽出する、
ことを特徴とする請求項2に記載の語義解析装置。
【請求項4】
前記テキストデータの集合は、前記単語に基づいた検索を行う対象のテキストデータの集合である、
ことを特徴とする請求項1から請求項3のいずれか1項に記載の語義解析装置。
【請求項5】
語義解析装置として用いられるコンピュータを、
複数の意味を有する単語についての複数の語義が記述された語義記述テキストデータから、前記語義それぞれを特徴付ける語義特徴付け単語を抽出する語義特徴付け単語抽出部
前記単語との共起関係に基づいてテキストデータの集合から前記単語の関連単語を抽出する関連単語抽出部
前記語義特徴付け単語抽出部が抽出した前記語義特徴付け単語と、前記関連単語抽出部が抽出した前記関連単語との類似度を計算する類似度計算部
前記類似度計算部により計算された類似度に基づいて前記語義特徴付け単語に対応した語義が使われやすい順位を決定するランキング処理部
として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、語義解析装置、及びプログラムに関する。
【背景技術】
【0002】
従来、複数の意味を持つような曖昧性のある単語が、どのような意味で使われやすいかという指標は、国語辞典などで人手により生成された情報を用いていた。また、単語の意味を分類した英語の辞書であるWordNetなどでは、各単語に対して意味付けが人手で行われたSemCor Corpus (http://www.gabormelli.com/RKB/SemCor_Corpus)などを元に、単語に対しての語義をランキングしている(非特許文献1参照)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】"WordNet"、[online]、平成24年12月27日、PRINCETON UNIVERSITY、[平成25年3月14日検索]、インターネット〈URL:http://wordnet.princeton.edu/〉
【発明の概要】
【発明が解決しようとする課題】
【0004】
人が語義の使われやすさをランキングする作業は、膨大な時間を要するため、辞書の生成や更新は困難である。また、検索に用いる目的で語義のランキング結果を利用する場合は、その検索対象ごとに語義の使われやすさを設定するべきであり、人手でこの設定作業を行うことは非常に困難である。
【0005】
本発明は、このような事情を考慮してなされたもので、複数の意味を持つ単語が、どのような意味で使われやすいかを検索対象に応じてランキングすることができる語義解析装置、及びプログラムを提供する。
【課題を解決するための手段】
【0006】
[1] 本発明の一態様は、複数の意味を有する単語についての複数の語義が記述された語義記述テキストデータから、前記語義それぞれを特徴付ける語義特徴付け単語を抽出する語義特徴付け単語抽出部と、前記単語との共起関係に基づいてテキストデータの集合から前記単語の関連単語を抽出する関連単語抽出部と、前記語義特徴付け単語抽出部が抽出した前記語義特徴付け単語と、前記関連単語抽出部が抽出した前記関連単語との類似度を計算する類似度計算部と、前記類似度計算部により計算された類似度に基づいて前記語義特徴付け単語に対応した語義が使われやすい順位を決定するランキング処理部と、を備えることを特徴とする語義解析装置である。
この発明によれば、語義解析装置は、語義記述テキストデータから、複数の意味を有する単語の語義それぞれを特徴付ける語義特徴付け単語を抽出するとともに、複数の意味を有する当該単語との共起関係に基づいてテキストデータの集合から関連単語を抽出する。語義解析装置は、抽出した語義特徴付け単語と関連単語との間の類似度を計算し、得られた類似度に基づいて、語義記述テキストデータに記述されている各語義が使われやすい順位を決定する。
これにより、語義解析装置は、複数の意味を持つ単語が、どのような意味で使われやすいかをランキングすることができる。また、語義解析装置は、関連単語を抽出する対象となるテキストデータを変えることで、検索対象に応じて語義のランキングを決定することができる。
【0007】
[2] 本発明の一態様は、上述する語義解析装置であって、前記語義特徴付け単語抽出部は、前記語義記述テキストデータに記述されている各語義の定義文の最終文節に含まれる名詞を語義特徴付け単語として抽出する、ことを特徴とする。
この発明によれば、語義解析装置は、語義記述テキストデータに記述されている各語義の定義文の最終文節から語義特徴付け単語となる名詞を抽出する。
これにより、語義解析装置は、語義をよく表す名詞を語義特徴付け単語として抽出することができる。
【0008】
[3] 本発明の一態様は、上述する語義解析装置であって、前記語義特徴付け単語抽出部は、前記定義文の最終文節に含まれる名詞が複数の中の一つであることを表す特定単語である場合、前記最終文節を修飾している文節に含まれる名詞を語義特徴付け単語として抽出する、ことを特徴とする。
この発明によれば、語義解析装置は、語義の定義文の最終文節が、例えば、「ひとつ」、「一種」などの複数の中の一つであることを表す特定単語である場合、前記最終文節を修飾している文節から語義特徴付け単語となる名詞を抽出する。
これにより、語義解析装置は、語義特徴付け単語となる名詞を精度よく抽出することができる。
【0009】
[4] 本発明の一態様は、上述する語義解析装置であって、前記テキストデータの集合は、前記単語に基づいた検索を行う対象のテキストデータの集合である、ことを特徴とする。
この発明によれば、語義解析装置は、キーワード検索の対象となるテキストデータの集合から、キーワードとして用いられる単語の関連単語を抽出する。
これにより、語義解析装置は、複数の意味を持つ単語がどのような意味で使われやすいかを、検索対象に応じて精度よくランキングすることができる。
【0010】
[5] 本発明の一態様は、語義解析装置として用いられるコンピュータを、複数の意味を有する単語についての複数の語義が記述された語義記述テキストデータから、前記語義それぞれを特徴付ける語義特徴付け単語を抽出する語義特徴付け単語抽出部、前記単語との共起関係に基づいてテキストデータの集合から前記単語の関連単語を抽出する関連単語抽出部、前記語義特徴付け単語抽出部が抽出した前記語義特徴付け単語と、前記関連単語抽出部が抽出した前記関連単語との類似度を計算する類似度計算部、前記類似度計算部により計算された類似度に基づいて前記語義特徴付け単語に対応した語義が使われやすい順位を決定するランキング処理部、として機能させるためのプログラムである。
【発明の効果】
【0011】
本発明によれば、複数の意味を持つ単語が、どのような意味で使われやすいかを検索対象に応じてランキングすることができる。
【図面の簡単な説明】
【0012】
図1】本発明の一実施形態における語義解析装置の構成を示す機能ブロック図である。
図2】同実施形態における語義記述テキストの例を示す図である。
図3】同実施形態におけるベーステキスト集合の例を示す図である。
図4】同実施形態における語義解析装置の処理手順を示すフローチャートである。
図5】同実施形態における語義特徴付け単語の例を示す図である。
図6】同実施形態におけるランキング作成対象単語に対する関連単語の相互情報量の例を示す図である。
図7】同実施形態における関連単語及び語義特徴付け単語間の分布類似度の例を示す図である。
図8】同実施形態におけるランキング結果の例を示す図である。
【発明を実施するための形態】
【0013】
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
図1は、本発明の一実施形態による語義解析装置1の構成を示す機能ブロック図である。語義解析装置1は、1台または複数台のコンピュータ装置により実現され、同図に示すように、記憶部10、語義特徴付け単語抽出部11、関連単語抽出部12、類似度計算部13、及びランキング処理部14を備えて構成される。
【0014】
記憶部10は、各部の処理に用いられる各種データを記憶する。具体的には、記憶部10は、語義記述テキスト、及びベーステキスト集合を記憶する。語義記述テキストは、複数の意味を持つような曖昧性のある単語についての複数の語義が記述されたテキストデータ(語義記述テキストデータ)である。ベーステキスト集合とは、語義ランキングの作成対象である単語に関連する単語を抽出するベースとなるテキストデータの集合である。
【0015】
語義特徴付け単語抽出部11は、語義ランキングの作成対象である単語の語義を特徴付ける単語を記憶部10に記憶されている語義記述テキストから抽出する。以下では、語義ランキングの作成対象である単語を「ランキング作成対象単語」と記載し、語義を特徴付ける単語を「語義特徴付け単語」記載する。関連単語抽出部12は、記憶部10に記憶されているベーステキスト集合からランキング作成対象単語に関連する単語を抽出する。ベーステキスト集合として、例えば、ランキング作成対象単語をキーワードとして検索を行う対象のテキストデータの集合が用いられる。以下では、ランキング作成対象単語に関連する単語を、「関連単語」と記載する。類似度計算部13は、語義特徴付け単語抽出部11が抽出した語義特徴付け単語と関連単語抽出部12が抽出した関連単語との間の類似度を計算する。ランキング処理部14は、類似度計算部13が算出した類似度に基づいて、各語義特徴付け単語に対応した語義が使われやすい順位を決定する。これにより、ランキング処理部14は、語義記述テキストに記述されているどの語義が使われやすいかのランキングを生成する。
【0016】
次に、語義解析装置1に用いられるデータを説明する。
図2は、語義記述テキストの例を示す図である。この語義記述テキストとして、例えば、インターネット上で提供される既存の百科事典サービスであるWikipedia(http://ja.wikipedia.org/)の曖昧さ回避のページなどを利用できる。なお、語義記述テキストとして、例えば、国語辞典などの辞書データを用いることもできる。同図に示す語義記述テキストの例では、ランキング作成対象単語「雷」に対して、複数の語義を定義した文が記述されている。
【0017】
図3は、ベーステキスト集合の例を示す図である。同図においては、ベーステキスト集合として、番組EPG(Electronic Program Guide)が用いられる場合の例を示している。同図に示す番組EPGには、複数の番組について、番組を特定する識別子(Id)、番組名(Title)、番組名の短縮表示(Short Title)、番組説明(Description)、及び番組内容(Detail)の情報が含まれている。
【0018】
続いて、語義解析装置1の動作について説明する。
図4は、図1に示す語義解析装置1の動作手順を示すフローチャートである。
【0019】
[ステップS1:語義特徴付け単語抽出処理]
語義特徴付け単語抽出部11は、例えばインターネット上で公開されている語義記述テキストから、ランキング作成対象単語の語義記述テキストを読み出し、記憶部10に書き込む。あるいは、語義特徴付け単語抽出部11は、予め記憶部10に記憶されている国語辞典などの語義記述テキストからランキング作成対象単語の語義記述テキストを読み出してもよい。語義特徴付け単語抽出部11は、ランキング作成対象単語についての複数の語義が記述された語義記述テキストから、それらの各語義を特徴付ける語義特徴付け単語を抽出する。
【0020】
具体的には、語義特徴付け単語抽出部11は、ランキング作成対象単語についての語義が記述された語義記述テキストから、各語義を定義する最初の定義文を読み出して構文解析し、その定義文の最終文節を、語義特徴付け単語を抽出する対象の文節とする。以下、語義特徴付け単語を抽出する対象の文節を「単語抽出対象文節」と記載する。語義特徴付け単語抽出部11は、単語抽出対象文節にある名詞を抽出する。
【0021】
ただし、最終文節が「ひとつ」、「一種」などの複数の中の一つであることを表す特定単語の場合、語義特徴付け単語抽出部11は、その最終文節を修飾している「の格」であり、かつ、最終文節に最も近い文節を単語抽出対象文節とし、名詞を抽出する。なお、特定単語は、予め記憶部10に記憶させておく。例えば、図2に示すランキング作成対象単語「雷」の語義記述テキストの場合、定義文「ゲーム用語のひとつ」の最終文節は「ひとつ」である。そこで、語義特徴付け単語抽出部11は、最終文節「ひとつ」を修飾する文節「ゲーム用語の」を単語抽出対象文節とし、名詞「ゲーム用語」を抽出する。
【0022】
さらに、語義特徴付け単語抽出部11は、単語抽出対象文節から抽出した名詞に不要な接尾辞がある場合、その接尾辞を削除する。例えば、語義特徴付け単語抽出部11は、「漫画版」から接尾辞「版」を削除して「漫画」とする。なお、不要な接尾辞は、予め記憶部10に記憶しておく。また、語義特徴付け単語抽出部11は、定義文に単語抽出対象文節と並列関係にある文節が存在する場合、並列する文節も単語抽出対象文節として名詞を抽出することにより、複数の名詞の抽出を許す。図2に示す語義記述テキストの例に示す定義文「自然現象・気象のひとつ」の場合、最終文節「ひとつ」を修飾し、かつ最終文節に最も近い文節「気象の」が単語抽出対象文節となり、また、この文節と並列関係にある文節「自然現象・」も単語抽出対象文節となる。これにより、語義特徴付け単語抽出部11は、各単語抽出対象文節からそれぞれ、名詞「自然現象」、名詞「気象」を抽出する。
【0023】
語義特徴付け単語抽出部11は、単語抽出対象文節から名詞を抽出する際、できるだけ一般的な名詞を抽出するために、抽出した名詞を構成する形態素(最小の意味単位)を先頭から順に削除し、一般的な名詞か否かを判断する処理を行う。そこで、例えば、ウェブに頻出する上位100万語の名詞などを頻出名詞として予め記憶部10に記憶しておく。これは、例えば、インターネット上で公開されている頻出名詞のデータを取得して記憶することでもよく、インターネット上で各名詞を検索したときのヒット数などに基づいて選択した頻出名詞を記憶することでもよい。語義特徴付け単語抽出部11は、記憶部10に記憶されている頻出名詞と合致するまで、単語抽出対象文節から抽出した名詞を構成する形態素を、先頭から順に削除する。例えば、図2に示す語義記述テキストの4つめの定義文「日本の男性アイドルグループ」の場合、語義特徴付け単語抽出部11は、最終文節を単語抽出対象文節として名詞「男性アイドルグループ」を抽出する。語義特徴付け単語抽出部11は、この抽出した名詞を、形態素解析処理により「男性/アイドル/グループ」に分割する。そしてまず、語義特徴付け単語抽出部11は、「男性アイドルグループ」が一般的な名詞か否かを判断する。語義特徴付け単語抽出部11は、「男性アイドルグループ」は頻出名詞に含まれていないため、一般的な名詞ではないと判断して先頭の形態素「男性」を削除し、「アイドルグループ」が一般的な名詞か否かを判断する。語義特徴付け単語抽出部11は、「アイドルグループ」が頻出名詞に含まれるため一般的な名詞と判断し、4つめの定義文からは「アイドルグループ」を抽出する。
語義特徴付け単語抽出部11は、上記の処理により抽出した名詞を、語義特徴付け単語として類似度計算部13に出力する。
【0024】
図5は、上記処理により語義特徴付け単語抽出部11が抽出した語義特徴付け単語の例を示す図である。同図においては、語義特徴付け単語抽出部11が、図2に示す語義記述テキストの各定義文から抽出した語義特徴付け単語を示している。
【0025】
[ステップS2:関連単語抽出処理]
次に、関連単語抽出部12は、ベーステキスト集合からランキング作成対象単語の関連名詞を抽出する(ステップS2)。この処理では、ランキング作成対象単語をキーワードとして用いて検索を行う対象となるテキストデータの集合を、ベーステキスト集合として用いることができる。例えば、テレビ番組を検索する場合、番組EPGなどのテキストデータをベーステキスト集合として利用する。本実施形態では、図3に示す番組EPGをベーステキスト集合として用いる。
【0026】
関連単語抽出部12は、記憶部10に記憶されている番組EPGから番組内容を記述した文(例えばDetailに記述されている文)を抽出して形態素解析を行い、名詞を抽出する。この際、関連単語抽出部12は、文節ごとに一般的な名詞のみを抽出する。一般的な名詞であるかの判断は、ステップS1と同様に、記憶部10に記憶されている頻出名詞との合致に基づいて行う。
【0027】
次に、関連単語抽出部12は、抽出した名詞とランキング作成対象単語との関連性を評価する。この関連性の評価には、例えば、従来からある相互情報量という指標を使うことができる。単語Aと単語Bに対する相互情報量MI(A,B)は、以下の式(1)により定義される。ただし、単語Aをランキング作成対象単語、単語Bを関連単語とする。関連単語は、番組内容の記述文においてランキング作成対象単語と共起する名詞である。
【0028】
【数1】
【0029】
式(1)において、P(A,B)は単語Aと単語Bが同じ番組の番組内容(Detail)の記述文に出現している確率値、P(A)は全番組の番組内容の記述文において単語Aが出現する確率値、P(B)は全番組の番組内容の記述文において単語Bが出現する確率値を示す。相互情報量MI(A,B)の値が大きいほど、単語Aと単語Bは関係が深いと言える。関連単語抽出部12は、式(1)を用いて、ランキング作成対象単語(単語A)に対する各関連単語(単語B)の相互情報量を算出する。
【0030】
図6は、ランキング作成対象単語に対する各関連単語の相互情報量の例を示す図である。同図では、図3に示す番組EPGの番組内容の記述文においてランキング作成対象単語「雷」と共起する関連名詞についての相互情報量を示している。関連単語抽出部12は、各関連単語と、それら関連単語について算出した相互情報量とを類似度計算部13に出力する。
【0031】
[ステップS3:類似度計算処理]
次に、類似度計算部13は、ステップS1において抽出された語義特徴付け単語と、ステップS2において抽出された関連単語との間の類似度を求める。本実施形態では、類似度として分布類似度などの指標を利用する。分布類似度では、実際のテキスト等における単語の係り受けの関係に基づいて各単語をクラスタリングし、そのクラスタリングの結果から各単語のクラスへの所属確率の分布を求め、この確率分布間の距離から単語間の類似度を計算する。分布類似度については、例えば、参考文献「風間,De Saeger,鳥澤,村田,”係り受けの確率的クラスタリングを用いた大規模類似語リストの作成,”言語処理学会第第15回年次大会発表論文集,C1-6,pp.84-87. (2009))」に記載されている。類似度計算部13は、関連単語抽出部12から入力された関連単語のうち、相互情報量が上位の100までの関連単語を対象として、語義特徴付け単語抽出部11から入力された各語義特徴付け単語との分布類似度を、ベーステキスト集合の記述を利用して計算する。
【0032】
図7は、各関連単語と各語義特徴付け単語との分布類似度の計算結果例を示す。同図においては、図5に示す各語義特徴付け単語と、図6に示す関連単語のうち相互情報量が上位100に含まれる関連単語との分布類似度の計算結果を示している。類似度計算部13は、各関連単語と各語義特徴付け単語との分布類似度の計算結果をランキング処理部14に出力する。
【0033】
なお、上記においては類似度として、分布類似度を用いたが、単語間の類似度を定量的な値で示す他の指標値を用いてもよい。例えば、シソーラスにおける単語間の距離などを類似度として用いることができる。
【0034】
[ステップS4:ランキング処理]
ランキング処理部14は、ステップS3において計算された分布類似度を利用して、各語義のランキングを行う。そこで、ランキング作成対象単語の語義をSemとすると、ランキング処理部14は、以下の式(2)により各語義Semの重みであるWeight(Sem)を算出する。
【0035】
【数2】
【0036】
式(2)において、noun(Sem)は、語義Semの語義特徴付け単語としてステップS1で抽出された名詞である。また、D(noun(Sem))は、語義Semから語義特徴付け単語として抽出された名詞の数を示す。Dsim(t,es)は、単語tと単語esとの分布類似度を示し、単語tは、ステップS2において抽出された関連単語であり、単語esは、語義Semから語義特徴付け単語として抽出されたi番目の名詞noun(Sem)である(iは1以上D(noun(Sem))以下の整数)。例えば、図5に示すように、語義Semが「自然現象・気象のひとつ。稲妻。」の場合、noun(Sem)は「自然現象」及び「気象」であり、D(noun(Sem))は「2」であり、単語esは「自然現象」であり、単語esは「気象」である。
ランキング処理部14は、算出したWeight(Sem)の降順に語義をランキングした結果を示すデータを生成する。
【0037】
図8は、ランキング作成対象単語「雷」の語義に対するランキング結果を示す図である。ランキング処理部14は、ランキング結果として、語義Semのランキング(順位)と、その語義Semから語義特徴付け単語として抽出された名詞noun(Sem)と、算出された語義Semの重みWeight(Sem)とを対応付けたデータをランキング結果として生成する。ランキング処理部14は、生成したランキング結果のデータを、記憶部10に書き込む、あるいは、表示装置や他のコンピュータ装置などに出力する。
【0038】
番組をオンデマンドで配信するインターネット上のウェブサイトにおいてユーザが興味のある番組を検索する場合、例えば、番組EPGが検索対象として利用される。そこで、上述した実施形態のように、ベーステキスト集合として番組EPGを用いて語義のランキングを作成する。そして、ユーザが番組検索のために入力したキーワードがどのような意味で用いられたかをランキング結果から把握し、把握した意味を番組EPGの検索に利用することにより、番組検索の精度を高めることが可能となる。
また、例えば、ベーステキスト集合としてニューステキストの集合を用いた場合、「自然現象、気象」を語義特徴付け単語とした語義がランキングの上位となることが予想される。
このように、関連単語を抽出するためのベーステキスト集合を変えることによって、検索対象に依存した語義のランキング結果を得ることができる。
【0039】
以上説明したように、本実施形態の語義解析装置1によれば、大規模なテキスト集合を利用し、人手を介すことなく、複数の意味を持つような曖昧性のある単語が、どのような意味で使われやすいかを推定することができる。さらに、本実施形態の語義解析装置1によれば、ベーステキスト集合として利用する大規模テキスト集合を、検索対象の文書集合や、検索対象の文書集合と同じまたは類似のカテゴリの文書集合とすることにより、検索対象ごとに語義の使われやすさのランキングを得ることができる。
【0040】
なお、上述の語義解析装置1は、内部にコンピュータシステムを有している。そして、語義解析装置1の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
【0041】
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【符号の説明】
【0042】
1 語義解析装置
10 記憶部
11 語義特徴付け単語抽出部
12 関連単語抽出部
13 類似度計算部
14 ランキング処理部
図1
図2
図3
図4
図5
図6
図7
図8