特許第6223301号(P6223301)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許6223301コンテンツ文章に記述された所定対象の対象数値を用いて検索するプログラム及び検索装置
<>
  • 特許6223301-コンテンツ文章に記述された所定対象の対象数値を用いて検索するプログラム及び検索装置 図000002
  • 特許6223301-コンテンツ文章に記述された所定対象の対象数値を用いて検索するプログラム及び検索装置 図000003
  • 特許6223301-コンテンツ文章に記述された所定対象の対象数値を用いて検索するプログラム及び検索装置 図000004
  • 特許6223301-コンテンツ文章に記述された所定対象の対象数値を用いて検索するプログラム及び検索装置 図000005
  • 特許6223301-コンテンツ文章に記述された所定対象の対象数値を用いて検索するプログラム及び検索装置 図000006
  • 特許6223301-コンテンツ文章に記述された所定対象の対象数値を用いて検索するプログラム及び検索装置 図000007
  • 特許6223301-コンテンツ文章に記述された所定対象の対象数値を用いて検索するプログラム及び検索装置 図000008
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6223301
(24)【登録日】2017年10月13日
(45)【発行日】2017年11月1日
(54)【発明の名称】コンテンツ文章に記述された所定対象の対象数値を用いて検索するプログラム及び検索装置
(51)【国際特許分類】
   G06F 17/30 20060101AFI20171023BHJP
【FI】
   G06F17/30 350A
   G06F17/30 170A
   G06F17/30 330C
【請求項の数】11
【全頁数】16
(21)【出願番号】特願2014-172125(P2014-172125)
(22)【出願日】2014年8月27日
(65)【公開番号】特開2016-45908(P2016-45908A)
(43)【公開日】2016年4月4日
【審査請求日】2016年12月27日
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【弁理士】
【氏名又は名称】早原 茂樹
(72)【発明者】
【氏名】加藤 恒夫
【審査官】 山本 俊介
(56)【参考文献】
【文献】 特開2010−117797(JP,A)
【文献】 特開2013−182580(JP,A)
【文献】 特開2007−304692(JP,A)
【文献】 特開2013−178633(JP,A)
【文献】 米国特許出願公開第2006/0190461(US,A1)
【文献】 吉野 幸一郎 外2名,述語項の類似度に基づく情報抽出・推薦を行う音声対話システム,情報処理学会論文誌 論文誌ジャーナル Vol.52 No.12 [CD−ROM],日本,一般社団法人情報処理学会,2011年12月15日,第52巻第12号,p.3386-3397
【文献】 秋葉 泰弘 ほか,例からの学習技術の応用に向けて 1.基本技術とその応用上の課題,情報処理,日本,社団法人情報処理学会,1998年 2月15日,第39巻 第2号,145−151ページ
【文献】 山本和英、外1名,要約事例を用例として模倣利用したニュース記事要約,自然言語処理,日本,言語処理学会,2008年 7月10日,第15巻、第3号,pp.115〜158
【文献】 飯田 龍,意見抽出を目的とした機械学習による属性−評価値対同定,情報処理学会研究報告,日本,社団法人情報処理学会,2005年 1月12日,Vol.2005 No.1,第21頁乃至第28頁
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
(57)【特許請求の範囲】
【請求項1】
多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索するようにコンピュータを機能させるプログラムにおいて、
識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
前記コンテンツ文章から、所定対象に対する複数の対象数値を抽出する対象数値抽出手段と、
前記コンテンツ文章毎に、前記述語句テーブルを用いて、当該コンテンツ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するコンテンツ用識別子抽出手段と、
前記コンテンツ文章毎に、前記コンテンツ用識別子抽出手段によって抽出された前記識別子の系列を対応付けて登録する登録データベースと、
前記クエリ文章から、前記述語句テーブルを用いて、当該クエリ文章に含まれた述語句に対応する識別子の系列を抽出するクエリ用識別子抽出手段と、
前記登録データベースを用いて、前記クエリ用識別子抽出手段によって抽出された前記識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
してコンピュータを機能させることを特徴とするプログラム。
【請求項2】
多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索するようにコンピュータを機能させるプログラムにおいて、
識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
前記コンテンツ文章から、前記述語句テーブルを用いて、当該コンテンツ文章に含まれた述語句に対応する識別子の系列を抽出するコンテンツ用識別子抽出手段と、
前記コンテンツ文章毎に、前記コンテンツ用識別子抽出手段によって抽出された前記識別子の系列を対応付けて登録する登録データベースと、
前記クエリ文章から、所定対象に対する複数の対象数値を抽出する対象数値抽出手段と、
前記クエリ文章から、前記述語句テーブルを用いて、当該クエリ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するクエリ用識別子抽出手段と、
前記登録データベースを用いて、前記クエリ用識別子抽出手段によって抽出された前記識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
してコンピュータを機能させることを特徴とするプログラム。
【請求項3】
多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索するようにコンピュータを機能させるプログラムにおいて、
識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
前記コンテンツ文章から、前記述語句テーブルを用いて、当該コンテンツ文章に含まれた述語句に対応する識別子の系列を抽出するコンテンツ用識別子抽出手段と、
前記コンテンツ文章毎に、前記コンテンツ用識別子抽出手段によって抽出された前記識別子の系列を対応付けて登録する登録データベースと、
前記クエリ文章から、前記述語句テーブルを用いて、当該クエリ文章に含まれた述語句に対応する識別子の系列を抽出するクエリ用識別子抽出手段と、
前記登録データベースを用いて、前記クエリ用識別子抽出手段によって抽出された前記識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
してコンピュータを機能させることを特徴とするプログラム。
【請求項4】
多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索するようにコンピュータを機能させるプログラムにおいて、
識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
前記コンテンツ文章及び前記クエリ文章から、所定対象に対する複数の対象数値を抽出する対象数値抽出手段と、
前記コンテンツ文章毎に、前記述語句テーブルを用いて、当該コンテンツ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するコンテンツ用識別子抽出手段と、
前記コンテンツ文章毎に、前記コンテンツ用識別子抽出手段によって抽出された前記識別子の系列を対応付けて登録する登録データベースと、
前記クエリ文章から、前記述語句テーブルを用いて、当該クエリ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するクエリ用識別子抽出手段と、
前記登録データベースを用いて、前記クエリ用識別子抽出手段によって抽出された前記識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
してコンピュータを機能させることを特徴とするプログラム。
【請求項5】
前記所定対象として、第1の所定対象及び第2の所定対象を有し、
前記述語句テーブルは、識別子毎に、第1の所定対象における先出の対象数値及び後出の対象数値の関係と、第2の所定対象における先出の対象数値及び後出の対象数値の関係との組に対して、述語句を対応付けて予め定義しており、
前記コンテンツ用識別子抽出手段及び/又は前記クエリ用識別子抽出手段は、前記論理組に対して識別子の系列を抽出する
ようにコンピュータを機能させることを特徴とする請求項1から4のいずれか1項に記載のプログラム。
【請求項6】
前記対象数値抽出手段は、所定対象に基づく単語を含むパターンを照合することによって、文章から対象数値を抽出する
ようにコンピュータを機能させることを特徴とする請求項1から5のいずれか1項に記載のプログラム。
【請求項7】
前記対象数値は、点数、順位又は計測数値であり、
前記コンテンツ文章は、前記対象数値を含むスコアデータであり、
先出の対象数値及び後出の対象数値の関係は、大なり、小なり、等しいの論理関係である
ようにコンピュータを機能させることを特徴とする請求項1から6のいずれか1項に記載のプログラム。
【請求項8】
多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索する検索装置において、
識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
前記コンテンツ文章から、所定対象に対する複数の対象数値を抽出する対象数値抽出手段と、
前記コンテンツ文章毎に、前記述語句テーブルを用いて、当該コンテンツ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するコンテンツ用識別子抽出手段と、
前記コンテンツ文章毎に、前記コンテンツ用識別子抽出手段によって抽出された前記識別子の系列を対応付けて登録する登録データベースと、
前記クエリ文章から、前記述語句テーブルを用いて、当該クエリ文章に含まれた述語句に対応する識別子の系列を抽出するクエリ用識別子抽出手段と、
前記登録データベースを用いて、前記クエリ用識別子抽出手段によって抽出された前記識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
を有することを特徴とする検索装置。
【請求項9】
多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索する検索装置において、
識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
前記コンテンツ文章から、前記述語句テーブルを用いて、当該コンテンツ文章に含まれた述語句に対応する識別子の系列を抽出するコンテンツ用識別子抽出手段と、
前記コンテンツ文章毎に、前記コンテンツ用識別子抽出手段によって抽出された前記識別子の系列を対応付けて登録する登録データベースと、
前記クエリ文章から、所定対象に対する複数の対象数値を抽出する対象数値抽出手段と、
前記クエリ文章から、前記述語句テーブルを用いて、当該クエリ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するクエリ用識別子抽出手段と、
前記登録データベースを用いて、前記クエリ用識別子抽出手段によって抽出された前記識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
を有することを特徴とする検索装置。
【請求項10】
多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索する検索装置において、
識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
前記コンテンツ文章から、前記述語句テーブルを用いて、当該コンテンツ文章に含まれた述語句に対応する識別子の系列を抽出するコンテンツ用識別子抽出手段と、
前記コンテンツ文章毎に、前記コンテンツ用識別子抽出手段によって抽出された前記識別子の系列を対応付けて登録する登録データベースと、
前記クエリ文章から、前記述語句テーブルを用いて、当該クエリ文章に含まれた述語句に対応する識別子の系列を抽出するクエリ用識別子抽出手段と、
前記登録データベースを用いて、前記クエリ用識別子抽出手段によって抽出された前記識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
を有することを特徴とする検索装置。
【請求項11】
多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索する検索装置において、
識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
前記コンテンツ文章及び前記クエリ文章から、所定対象に対する複数の対象数値を抽出する対象数値抽出手段と、
前記コンテンツ文章毎に、前記述語句テーブルを用いて、当該コンテンツ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するコンテンツ用識別子抽出手段と、
前記コンテンツ文章毎に、前記コンテンツ用識別子抽出手段によって抽出された前記識別子の系列を対応付けて登録する登録データベースと、
前記クエリ文章から、前記述語句テーブルを用いて、当該クエリ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するクエリ用識別子抽出手段と、
前記登録データベースを用いて、前記クエリ用識別子抽出手段によって抽出された前記識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
を有することを特徴とする検索装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索する技術に関する。
【背景技術】
【0002】
文書に対する全文検索の技術には、一般に「転置インデックス(Inverted index)」が用いられる。転置インデックスとは、検索対象の文書群から、単語の位置情報を格納するための索引構造をいう。例えば、以下のような2つの方法がある。
レコード単位転置インデックス(record level inverted index)
単語単位インデックス(word level inverted index)
レコード単位転置インデックスは、単語と、その単語を含む全ての文書とをリストとして備える。
単語単位インデックスは、単語を含む全ての文書の他に、その単語が文書中のどこに現れるかという位置情報まで含む。
これら転置インデックスの技術によれば、クエリ(検索キー)として複数のキーワードが指定され、各キーワードを含む文書リストの積集合を算出し、候補となる文書を特定する。例えば、Google(登録商標)検索におけるページランクには、転置インデックスの文書検索技術が用いられている。
【0003】
従来、ニュース記事データベースに対するクエリとして、キーワードではなく、主語及び述語からなる述語項構造を用いて検索する技術がある(例えば非特許文献1参照)。この技術によれば、例えばスポーツ(例えば野球、サッカー、各種レースなど)のニュース記事を検索対象としている。述語項構造をクエリとすることによって、文脈やユーザの意図に合わせた検索結果を出力することができる。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】吉野幸一郎、森信介、河原達也、「述語項の類似度に基づく情報抽出・推薦を行う音声対話システム」、情報処理学会論文誌、Vol.52, No.12, pp.3386--3397, 2011、[online]、[平成26年7月31日検索]、インターネット<URL:http://plata.ar.media.kyoto-u.ac.jp/mori/research/public/yoshino-IPSJ11Dec.pdf>
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、非特許文献1に記載の技術のような述語項構造を用いても、日々投稿される多数の試合のコンテンツ文章を蓄積したニュース記事データベースから、日時・場所などの条件指定無しに特定の試合を検索することは難しい。出現する単語の重なりが大きいために、特別な検索条件(例えばスコアデータ等)を必要とする。例えばスポーツのニュース記事のように、チーム名や選手名が重なり合う多数の試合の中で、特定の試合に関するコンテンツ文章を検索することは難しい。
【0006】
スポーツのニュース記事の場合、必ず、順位や点数の変化のような、ストーリの流れを含んでいる。これに対し、本願の発明者らは、コンテンツ文章の中から、大まかなストーリの流れを断片的に抽出することができないか?と考えた。即ち、ユーザがクエリ文章として、大まかなストーリの流れを断片的に指定することによって、コンテンツ文章を検索することができないか?と考えた。例えば「Aは、順位を上げたが、結局、落ちた」のようか大まかなクエリ文章から、コンテンツ文章の検索対象を絞り込むことができれば、ユーザにとって簡易に検索することができる。
【0007】
そこで、本発明は、大まかなストーリの流れに基づいて、クエリ文章に類似するコンテンツ文章を検索することができる検索プログラム及び装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明によれば、多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索するようにコンピュータを機能させるプログラムにおいて、
識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
コンテンツ文章から、所定対象に対する複数の対象数値を抽出する対象数値抽出手段と、
コンテンツ文章毎に、述語句テーブルを用いて、当該コンテンツ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するコンテンツ用識別子抽出手段と、
コンテンツ文章毎に、コンテンツ用識別子抽出手段によって抽出された識別子の系列を対応付けて登録する登録データベースと、
クエリ文章から、述語句テーブルを用いて、当該クエリ文章に含まれた述語句に対応する識別子の系列を抽出するクエリ用識別子抽出手段と、
登録データベースを用いて、クエリ用識別子抽出手段によって抽出された識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
してコンピュータを機能させることを特徴とする。
【0009】
本発明によれば、多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索するようにコンピュータを機能させるプログラムにおいて、
識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
コンテンツ文章から、述語句テーブルを用いて、当該コンテンツ文章に含まれた述語句に対応する識別子の系列を抽出するコンテンツ用識別子抽出手段と、
コンテンツ文章毎に、コンテンツ用識別子抽出手段によって抽出された識別子の系列を対応付けて登録する登録データベースと、
クエリ文章から、所定対象に対する複数の対象数値を抽出する対象数値抽出手段と、
クエリ文章から、述語句テーブルを用いて、当該クエリ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するクエリ用識別子抽出手段と、
登録データベースを用いて、クエリ用識別子抽出手段によって抽出された識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
してコンピュータを機能させることを特徴とする。
【0010】
本発明によれば、多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索するようにコンピュータを機能させるプログラムにおいて、
識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
コンテンツ文章から、述語句テーブルを用いて、当該コンテンツ文章に含まれた述語句に対応する識別子の系列を抽出するコンテンツ用識別子抽出手段と、
コンテンツ文章毎に、コンテンツ用識別子抽出手段によって抽出された識別子の系列を対応付けて登録する登録データベースと、
クエリ文章から、述語句テーブルを用いて、当該クエリ文章に含まれた述語句に対応する識別子の系列を抽出するクエリ用識別子抽出手段と、
登録データベースを用いて、クエリ用識別子抽出手段によって抽出された識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
してコンピュータを機能させることを特徴とする。
【0011】
本発明によれば、多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索するようにコンピュータを機能させるプログラムにおいて、
識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
コンテンツ文章及びクエリ文章から、所定対象に対する複数の対象数値を抽出する対象数値抽出手段と、
コンテンツ文章毎に、述語句テーブルを用いて、当該コンテンツ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するコンテンツ用識別子抽出手段と、
コンテンツ文章毎に、コンテンツ用識別子抽出手段によって抽出された識別子の系列を対応付けて登録する登録データベースと、
クエリ文章から、述語句テーブルを用いて、当該クエリ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するクエリ用識別子抽出手段と、
登録データベースを用いて、クエリ用識別子抽出手段によって抽出された識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
してコンピュータを機能させることを特徴とする。
【0012】
本発明のプログラムにおける他の実施形態によれば、
所定対象として、第1の所定対象及び第2の所定対象を有し、
述語句テーブルは、識別子毎に、第1の所定対象における先出の対象数値及び後出の対象数値の関係と、第2の所定対象における先出の対象数値及び後出の対象数値の関係との組に対して、述語句を対応付けて予め定義しており、
コンテンツ用識別子抽出手段及び/又はクエリ用識別子抽出手段は、論理組に対して識別子の系列を抽出する
ようにコンピュータを機能させることも好ましい。
【0013】
本発明のプログラムにおける他の実施形態によれば、
対象数値抽出手段は、所定対象に基づく単語を含むパターンを照合することによって、文章から対象数値を抽出する
ようにコンピュータを機能させることも好ましい。
【0014】
本発明のプログラムにおける他の実施形態によれば、
対象数値は、点数、順位又は計測数値であり、
コンテンツ文章は、対象数値を含むスコアデータであり、
先出の対象数値及び後出の対象数値の関係は、大なり、小なり、等しいの論理関係である
ようにコンピュータを機能させることも好ましい。
【0015】
本発明によれば、多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索する検索装置において、
識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
コンテンツ文章から、所定対象に対する複数の対象数値を抽出する対象数値抽出手段と、
コンテンツ文章毎に、述語句テーブルを用いて、当該コンテンツ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するコンテンツ用識別子抽出手段と、
コンテンツ文章毎に、コンテンツ用識別子抽出手段によって抽出された識別子の系列を対応付けて登録する登録データベースと、
クエリ文章から、述語句テーブルを用いて、当該クエリ文章に含まれた述語句に対応する識別子の系列を抽出するクエリ用識別子抽出手段と、
登録データベースを用いて、クエリ用識別子抽出手段によって抽出された識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
を有することを特徴とする。
【0016】
本発明によれば、多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索する検索装置において、
識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
コンテンツ文章から、述語句テーブルを用いて、当該コンテンツ文章に含まれた述語句に対応する識別子の系列を抽出するコンテンツ用識別子抽出手段と、
コンテンツ文章毎に、コンテンツ用識別子抽出手段によって抽出された識別子の系列を対応付けて登録する登録データベースと、
クエリ文章から、所定対象に対する複数の対象数値を抽出する対象数値抽出手段と、
クエリ文章から、述語句テーブルを用いて、当該クエリ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するクエリ用識別子抽出手段と、
登録データベースを用いて、クエリ用識別子抽出手段によって抽出された識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
を有することを特徴とする。
【0017】
本発明によれば、多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索する検索装置において、
識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
コンテンツ文章から、述語句テーブルを用いて、当該コンテンツ文章に含まれた述語句に対応する識別子の系列を抽出するコンテンツ用識別子抽出手段と、
コンテンツ文章毎に、コンテンツ用識別子抽出手段によって抽出された識別子の系列を対応付けて登録する登録データベースと、
クエリ文章から、述語句テーブルを用いて、当該クエリ文章に含まれた述語句に対応する識別子の系列を抽出するクエリ用識別子抽出手段と、
登録データベースを用いて、クエリ用識別子抽出手段によって抽出された識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
を有することを特徴とする。
【0018】
本発明によれば、多数のコンテンツ文章の中から、クエリ文章に類似するコンテンツ文章を検索する検索装置において、
識別子毎に、先出の対象数値及び後出の対象数値の関係と、所定対象に対する述語句とを対応付けて、有限種類のイベントとして予め定義した述語句テーブルと、
コンテンツ文章及びクエリ文章から、所定対象に対する複数の対象数値を抽出する対象数値抽出手段と、
コンテンツ文章毎に、述語句テーブルを用いて、当該コンテンツ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するコンテンツ用識別子抽出手段と、
コンテンツ文章毎に、コンテンツ用識別子抽出手段によって抽出された識別子の系列を対応付けて登録する登録データベースと、
クエリ文章から、述語句テーブルを用いて、当該クエリ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子の系列を抽出するクエリ用識別子抽出手段と、
登録データベースを用いて、クエリ用識別子抽出手段によって抽出された識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する検索手段と
を有することを特徴とする。
【発明の効果】
【0019】
本発明のプログラム及び装置によれば、大まかなストーリの流れに基づいて、クエリ文章に類似するコンテンツ文章を検索することができる。
【図面の簡単な説明】
【0020】
図1】本発明における検索装置の第1の機能構成図である。
図2】第1の機能構成に基づく具体的な文章処理を表す説明図である。
図3】本発明における検索装置の第2の機能構成を表す説明図である。
図4】第2の機能構成に基づく具体的な文章処理を表す説明図である。
図5】本発明における検索装置の第3の機能構成を表す説明図である。
図6】本発明における検索装置の第4の機能構成を表す説明図である。
図7】述語句テーブルにおける他の例を表す説明図である。
【発明を実施するための形態】
【0021】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0022】
図1は、本発明における検索装置の第1の機能構成図である。
【0023】
図1によれば、検索装置(又はサーバ)に搭載されたコンピュータを機能させるプログラムの構成が表されている。検索装置をサーバとして構成した場合、例えば、インターネットのようなネットワークに接続されたものであってもよい。インターネットには、マスメディアサーバや、ブログサーバ、SNS(Social Networking Service)サーバ等が接続されている。マスメディアサーバは、一定の質を保った文章を公開する。また、ブログサーバやSNSサーバは、ユーザ端末から発信された投稿文章を公開する。特に、個人によって投稿された文章は、様々な最新の時事文章である場合も多い。検索装置1は、これら外部サーバ3から、コンテンツ文章(テキストデータ)を収集することができる。勿論、検索サーバ1は、予め大量の文章をディスクに蓄積したものであってもよい。
【0024】
検索装置1は、ユーザから「クエリ文章」を入力(又は受信)する。これに対し、検索装置1は、クエリ文章に類似する1つ以上の「コンテンツ文章」を出力(又は返信)する。図1によれば、検索装置1は、述語句テーブル10と、対象数値抽出部11と、コンテンツ用識別子抽出部12と、登録データベース13と、クエリ用識別子抽出部14と、検索部15とを有する。検索部15から出力された検索結果は、所定アプリケーションによって利用されるものであってもよいし、クエリ文書を入力したユーザへ明示されるものであってもよい。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。
【0025】
図2は、第1の機能構成に基づく具体的な文章処理を表す説明図である。以下では、図2を参照しつつ、図1における各機能構成部を説明する。
【0026】
図1及び図2によれば、コンテンツ文章は、対象数値抽出部11を介してコンテンツ用識別子抽出部12へ入力され、クエリ文章は、クエリ用識別子抽出部14へ直接的に入力されている。
【0027】
[述語句テーブル10]
述語句テーブル10は、「識別子」毎に、「先出の対象数値及び後出の対象数値の関係」と、所定対象に対する「述語句」とを対応付けて、有限種類のイベントとして予め定義したものである。述語句テーブル10は、コンテンツ用識別子抽出部12及びクエリ用識別子抽出部14から参照される。
「識別子」は、単なるID(IDentifier)や番号である。
「先出の対象数値及び後出の対象数値の関係」は、具体的には、大なり、小なり、等しいの論理関係である。
「述語句」は、対象数値の論理関係を、述語として表現した句である。
【0028】
図2によれば、対象数値->「順位」として、例えば以下のような述語句テーブルが定義されている。
<識別子> [対象数値間の関係]<->[述語句]
1 Qa<Ra 「下げる」「落ちる」・・・
2 Qa=Ra 「変わらず」「維持」・・・
3 Qa>Ra 「上げる」「追い上げ」・・・
Qa:先出の対象数値
Ra:後出の対象数値
【0029】
他の実施形態として、対象数値->「気温」として、例えば以下のような述語句テーブルを定義したものであってもよい。
<識別子> [対象数値間の関係]<->[述語句]
1 Qa<Ra 「上がる」「暑い」・・・
2 Qa=Ra 「変わらず」「維持」・・・
3 Qa>Ra 「下がる」「寒い」・・・
【0030】
[対象数値抽出部11]
対象数値抽出部11は、コンテンツ文章及び/又はクエリ文章を入力する。本発明が対象とするコンテンツ文章及び/又はクエリ文章には、所定対象に対する複数の対象数値が含まれているとする。コンテンツ文章は、例えば野球やサッカー、マラソンのようなスポーツで記録された、対象数値を含むスコアデータであってもよい。
【0031】
対象数値抽出部11は、コンテンツ文章及び/又はクエリ文章から、所定対象に対する複数の対象数値を抽出する。「所定対象の対象数値」とは、例えば点数、順位又は計測数値のようなものである。
また、これら対象数値は、コンテンツ文章及び/又はクエリ文章における文章の流れの中で変化するものであって、例えば以下のようなものがある。
野球の試合におけるチーム間の点数の変化
マラソンにおける個人の順位の変化
気温センサにおける気温の変化
【0032】
図2によれば、例えば以下のようなコンテンツ文章が入力されている。
「Aの順位は、3番手のまま・・・Aが、現在1位になる・・・Aは、2位に落ちた」
【0033】
対象数値抽出部11は、最初に、コンテンツ文章及び/又はクエリ文章から、形態素解析によって単語を抽出する。ここで、「形態素解析」とは、文法及び単語辞書を情報源として用いて、自然言語で書かれた文章を、意味のある形態素(Morpheme)に区切り、辞書を利用して品詞や内容を判別する技術をいう。
【0034】
また、対象数値抽出部11は、対象数値部分をワイルドカード*として含むパターン(形態素列)を予め登録している。そして、対象数値抽出部11は、形態素解析された単語列と、予め登録した所定対象に基づく単語を含むパターンとを照合することによって、ワイルドカード*の部分を抽出する。
所定対象「順位」 パターン照合:”*番”、”*位”
同様に、パターン照合によって、対象数値のみならず、日時、場所、チーム名等の概要情報も抽出することができる。
【0035】
前述の例によれば、対象数値抽出部11は、以下のような対象数値の系列を抽出することとなる。
所定対象「順位」:「3」->「1」->「2」
図1及び図2の第1の実施形態によれば、対象数値抽出部11によって抽出された対象数値の系列は、コンテンツ用識別子抽出部12へ出力される。
【0036】
[コンテンツ用識別子抽出部12]
コンテンツ用識別子抽出部12は、コンテンツ文章毎に、述語句テーブル10を用いて、当該コンテンツ文章から抽出された先出の対象数値及び後出の対象数値の関係に基づく識別子を抽出する。
【0037】
図2によれば、先出の対象数値及び後出の対象数値について、以下の関係となっている。
[先出の対象数値] [後出の対象数値]
3 > 1
1 < 2
これに対し、コンテンツ用識別子抽出部12は、この対象数値の関係に、述語句テーブル10を参照して、識別子を対応付ける。
<識別子> [先出の対象数値] [後出の対象数値]
3 3 > 1
1 1 < 2
そして、コンテンツ用識別子抽出部12は、コンテンツ文章に対する識別子の系列[3->1]を、登録データベース13へ出力する。
【0038】
[登録データベース13]
登録データベース13は、コンテンツ文章毎に、コンテンツ用識別子抽出部12によって抽出された識別子の系列を対応付けて登録する。
図2によれば、コンテンツ文章1に対して、以下のように登録される。
[コンテンツ文章名] [識別子の系列]
コンテンツ文章1 : 3->1
【0039】
[クエリ用識別子抽出部14]
クエリ用識別子抽出部14は、クエリ文章から、述語句テーブル10を用いて、当該クエリ文章に含まれた述語句に対応する識別子の系列を抽出する。
図2によれば、例えば以下のようなクエリ文章が入力されている。
「Aは、順位を上げたが、結局、落ちた」
ここでは、述語句テーブル10を参照し、以下の識別子が導出される。
[述語句] <識別子>
「上げる」 3
「落ちる」 1
そして、クエリ用識別子抽出部14は、クエリ文章に対する識別子の系列[3->1]を、検索部15へ出力する。
【0040】
[検索部15]
検索部15は、登録データベース11を用いて、クエリ用識別子抽出部14によって抽出された識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する。尚、識別子の系列の照合について、完全一致する必要はなく、順序関係が同一であればよい。即ち、識別子がスキップしていてもよい。
図2によれば、クエリ文章の識別子の系列[3->1]から、同一の順序関係を持つコンテンツ文章1が検索される。
【0041】
図3は、本発明における検索装置の第2の機能構成を表す説明図である。
図4は、第2の機能構成に基づく具体的な文章処理を表す説明図である。
【0042】
図3及び図4によれば、図1及び図2とは逆に、クエリ文章は、対象数値抽出部11を介してクエリ用識別子抽出部14へ入力され、コンテンツ文章は、コンテンツ用識別子抽出部12へ直接的に入力されている。
【0043】
図4によれば、例えば以下のようなコンテンツ文章が入力されている。
「Aは、順位を上げたが、結局、落ちた」
コンテンツ用識別子抽出部12は、述語句テーブル10を参照し、以下の識別子の系列[3->1]を出力する。
[述語句] <識別子>
「上げる」 3
「落ちる」 1
登録データベース13は、コンテンツ文章1に対して、以下のように登録する。
[コンテンツ文章名] [識別子の系列]
コンテンツ文章1 : 3->1
【0044】
また、図4によれば、例えば以下のようなコンテンツ文章が入力されている。
「Aの順位は、3番手のまま・・・Aが、現在1位になる・・・Aは、2位に落ちた」
対象数値抽出部11は、述語句テーブル10を参照し、以下の対象数値の系列を抽出する。
所定対象「順位」: 「3」->「1」->「2」
【0045】
図4によれば、先出の対象数値及び後出の対象数値について、以下の関係となっている。
[先出の対象数値] [後出の対象数値]
3 > 1
1 < 2
これに対し、クエリ用識別子抽出部14は、この対象数値の関係に、述語句テーブル10を参照して、クエリ文章に対する識別子の系列[3->1]を出力する。
<識別子> [先出の対象数値] [後出の対象数値]
3 3 > 1
1 1 < 2
【0046】
検索部15は、登録データベース11を用いて、クエリ用識別子抽出部14によって抽出された識別子の系列と同一の順序関係を持つ識別子の系列を対応付けて登録した1つ以上のコンテンツ文章を検索する。
図4によれば、クエリ文章の識別子の系列[3->1]から、同一の順序関係を持つコンテンツ文章1が、結果的に検索される。
【0047】
図5は、本発明における検索装置の第3の機能構成を表す説明図である。
【0048】
図5によれば、コンテンツ文章及びクエリ文章はそれぞれ、対象数値抽出部11を介してコンテンツ用識別子抽出部12及びクエリ用識別子抽出部14へ入力される。その他の機能構成部の動作は、前述した図1図4と全く同様である。
【0049】
図6は、本発明における検索装置の第4の機能構成を表す説明図である。
【0050】
図6によれば、コンテンツ文章及びクエリ文章はそれぞれ、コンテンツ用識別子抽出部12及びクエリ用識別子抽出部14へ直接的に入力される。その他の機能構成部の動作は、前述した図1図4と全く同様である。
【0051】
図7は、述語句テーブルにおける他の例を表す説明図である。
【0052】
図7(a)によれば、先出の対象数値(順位)Qaと、後出の対象数値(順位)Raとの関係のみならず、他の数値(例えば首位)1との関係についても区別して、述語句を対応付けて定義している。
【0053】
図7(b)によれば、2つの所定対象について、更なる対象数値の関係によって区別している。例えば、第1の所定対象を「チームA」とし、第2の所定対象を「チームB」として定義する。述語句テーブルは、識別子毎に、第1の所定対象(チームA)における先出の対象数値Qa及び後出の対象数値Raの関係と、第2の所定対象(チームB)における先出の対象数値Qb及び後出の対象数値Rbの関係との組に対して述語句を対応付けて予め定義している。この場合、コンテンツ用識別子抽出部12及び/又はクエリ用識別子抽出部14は、対象数値の関係となる論理組に対して、識別子を抽出する。
【0054】
以上、詳細に説明したように、本発明のプログラム及び装置によれば、大まかなストーリの流れに基づいて、クエリ文章に類似するコンテンツ文章を検索することができる。即ち、コンテンツ文章がスポーツであれば、ユーザはクエリ文章として、大まかな試合の流れを断片的な記憶から記述したものであっても、検索することができる。
【0055】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0056】
1 検索装置、検索サーバ
10 述語句テーブル
11 対象数値抽出部
12 コンテンツ用識別子抽出部
13 登録データベース
14 クエリ用識別子抽出部
15 検索部
2 ユーザ端末
3 外部サーバ
図1
図2
図3
図4
図5
図6
図7