(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-03-09
(45)【発行日】2022-03-17
(54)【発明の名称】検索装置および方法
(51)【国際特許分類】
G06F 16/332 20190101AFI20220310BHJP
G06F 16/38 20190101ALI20220310BHJP
【FI】
G06F16/332
G06F16/38
(21)【出願番号】P 2020078942
(22)【出願日】2020-04-28
【審査請求日】2020-05-28
(73)【特許権者】
【識別番号】500423444
【氏名又は名称】株式会社ソケッツ
(74)【代理人】
【識別番号】100086531
【氏名又は名称】澤田 俊夫
(74)【代理人】
【識別番号】110000763
【氏名又は名称】特許業務法人大同特許事務所
(72)【発明者】
【氏名】五十崎 正明
(72)【発明者】
【氏名】浦部 浩司
【審査官】甲斐 哲雄
(56)【参考文献】
【文献】特開2020-173611(JP,A)
【文献】特開2018-156420(JP,A)
【文献】特開2012-043115(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
予め登録されている一次メタワードセットに含まれる1または複数の一次メタワードを検索対象コンテンツに関連付ける検索対象コンテンツ用一次メタワード関連付けデータを保持する検索対象コンテンツ用一次メタワード関連付けデータ保持手段と、
上記一次メタワードセットに含まれる複数の一次メタワードを予め登録されている二次メタワードセットに含まれる二次メタワードに関連付ける二次メタワード用一次メタワード関連付けデータを保持する二次メタワード用一次メタワード関連付けデータ保持手段と、
上記二次メタワードセットに含まれる少なくとも1つの二次メタワードに表示対象コンテンツを関連付けて保持する表示対象コンテンツ保持手段と、
検索入力テキストを入力する検索入力手段と、
上記検索入力手段から入力された上記検索入力テキストから1または複数の二次メタワードを抽出する二次メタワード抽出手段と、
上記二次メタワード抽出手段によって抽出された上記1または複数の二次メタワードについて上記二次メタワード用
一次メタワード関連付けデータ保持手段を参照して当該1または複数の二次メタワードに関連する一次メタワードを決定する関連一次メタワード決定手段と、
上記関連一次メタワード決定手段によって決定された上記一次メタワードを用いて検索対象コンテンツを検索する検索手段と、
上記少なくとも1つの二次メタワードに関連して検索対象コンテンツが検索されたときに、当該少なくとも1つの二次メタワードに関連して上記表示対象コンテンツ保持手段に記憶されている上記表示対象コンテンツを表示する表示対象コンテンツ表示手段と、
上記
検索手段によって取り出された検索対象コンテンツを表示する検索対象コンテンツ表示手段とを有することを特徴とする検索装置。
【請求項2】
上記表示対象コンテンツは、上記二次メタワードに関連して記述されたテキストである請求項1記載の検索装置。
【請求項3】
上記検索対象コンテンツ用一次メタワード関連付けデータは、上記検索対象コンテンツの各々に対して1または複数の一次メタワードと、当該一次メタワードの検索対象コンテンツに関連するスコア値とを有し、
上記二次メタワード用一次メタワード関連付けデータは、上記二次メタワードの各々に対して複数の一次メタワードと、当該一次メタワードの二次メタワードに関連するスコア値とを有し、
上記検索手段は、抽出された二次メタワードについて上記二次メタワード用一次メタワード関連付けデータを参照して複数の一次メタワードの二次メタワードに関連するスコア値を取出し、当該関連付けられた複数の一次メタワードについて上記検索対象コンテンツ用一次メタワード関連付けデータを参照して上記複数の一次メタワードの検索対象コンテンツに関連するスコア値を取出し、上記複数の一次メタワードの二次メタワードに関連するスコア値および上記複数の一次メタワードの検索対象コンテンツに関連するスコア値に基づいて上記検索対象コンテンツを検索する請求項1または2に記載の検索装置。
【請求項4】
上記二次メタワード抽出手段は、上記検索入力手段から入力された上記検索入力テキストから上記1または複数の二次メタワードに加え、1または複数の一次メタワードを抽出し、
上記検索手段は、上記関連一次メタワード決定手段によって決定された上記一次メタワードに加え、上記抽出された1または複数の一次メタワードを用いて検索対象コンテンツを検索する請求項1~
3のいずれかに記載の検索装置。
【請求項5】
検索対象コンテンツ用一次メタワード関連付けデータ保持手段が、予め登録されている一次メタワードセットに含まれる1または複数の一次メタワードを検索対象コンテンツに関連付ける検索対象コンテンツ用一次メタワード関連付けデータを保持するステップと、
二次メタワード用一次メタワード関連付けデータ保持手段が、上記一次メタワードセットに含まれる複数の一次メタワードを予め登録されている二次メタワードセットに含まれる二次メタワードに関連付ける二次メタワード用一次メタワード関連付けデータを保持するステップと、
表示対象コンテンツ保持手段が、上記二次メタワードセットに含まれる少なくとも1つの二次メタワードに表示対象コンテンツを関連付けて保持するステップと、
検索入力手段が、検索入力テキストを入力するステップと、
二次メタワード抽出手段が、上記検索入力手段から入力された上記検索入力テキストから1または複数の二次メタワードを抽出するステップと、
関連一次メタワード決定手段が、上記二次メタワード抽出手段によって抽出された上記1または複数の二次メタワードについて上記二次メタワード用
一次メタワード関連付けデータ保持手段を参照して当該1または複数の二次メタワードに関連する一次メタワードを決定するステップと、
検索手段が、上記関連一次メタワード決定手段によって決定された上記一次メタワードを用いて検索対象コンテンツを検索するステップと、
表示対象コンテンツ表示手段が、上記少なくとも1つの二次メタワードに関連して検索対象コンテンツが検索されたときに、当該少なくとも1つの二次メタワードに関連して上記表示対象コンテンツ保持手段に記憶されている上記表示対象コンテンツを表示するステップと、
検索対象コンテンツ表示手段が、上記
検索手段によって取り出された検索対象コンテンツを表示するステップとを有することを特徴とする検索方法。
【請求項6】
コンピュータを、
予め登録されている一次メタワードセットに含まれる1または複数の一次メタワードを検索対象コンテンツに関連付ける検索対象コンテンツ用一次メタワード関連付けデータを保持する検索対象コンテンツ用一次メタワード関連付けデータ保持手段、
上記一次メタワードセットに含まれる複数の一次メタワードを予め登録されている二次メタワードセットに含まれる二次メタワードに関連付ける二次メタワード用一次メタワード関連付けデータを保持する二次メタワード用一次メタワード関連付けデータ保持手段、
上記二次メタワードセットに含まれる少なくとも1つの二次メタワードに表示対象コンテンツを関連付けて保持する表示対象コンテンツ保持手段、
検索入力テキストを入力する検索入力手段、
上記検索入力手段から入力された上記検索入力テキストから1または複数の二次メタワードを抽出する二次メタワード抽出手段、
上記二次メタワード抽出手段によって抽出された上記1または複数の二次メタワードについて上記二次メタワード用
一次メタワード関連付けデータ保持手段を参照して当該1または複数の二次メタワードに関連する一次メタワードを決定する関連一次メタワード決定手段、
上記関連一次メタワード決定手段によって決定された上記一次メタワードを用いて検索対象コンテンツを検索する検索手段、
上記少なくとも1つの二次メタワードに関連して検索対象コンテンツが検索されたときに、当該少なくとも1つの二次メタワードに関連して上記表示対象コンテンツ保持手段に記憶されている上記表示対象コンテンツを表示する表示対象コンテンツ表示手段、および、
上記
検索手段によって取り出された検索対象コンテンツを表示する検索対象コンテンツ表示手段、
として実行させるために使用されるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、検索技術に関し、とくに抽象度の高い語を用いて検索を行うのに適した検索技術に関する。
【背景技術】
【0002】
情報検索においては、検索対象に関連する特徴量(例えば説明文や関連記事に含まれる単語や、音楽、映像に対して物理的な解析をおこなった結果から得られる特徴など)の出現頻度に対して、検索対象のカテゴリ(たとえば、旅行、ファッション、化粧品、音楽 …) に対して特徴となる単語を統計情報から求めて、検索用の情報タグとして付加することが多い。特徴となる単語の抽出手法としては、TF-IDF(Term Frequency-Inverse Document Frequency)やLDA(Latent Dirichlet Allocation)などが用いられる。
【0003】
しかしながら、抽象度が高い語や、複数の単語で構成される語(以下フレーズ)については、テキストに出現する頻度が少なく、タグから漏れてしまうおそれがあり、抽象度が高い語を用いて検索することが困難な場合が多い。
【0004】
一般的な情報検索サイトでは、サービス運営者が情報を提供するコンテンツごとにそのコンテンツの内容を表す情報タグを付加し、ユーザから指定された検索条件ワードに完全一致、または部分一致したコンテンツ内容を提示する。情報検索サイトで、ユーザが選択したコンテンツの履歴に対して、それらのコンテンツのタグの統計分析を行い、そのユーザの選択する条件の偏りをユーザの嗜好情報とみなし、上記の情報を表示する際のフィルタ条件とすることで、各ユーザに対する最適化(パーソナライズ)が行われることがある。
【0005】
図1は、情報タグを利用した検索システム例である。この例では、旅行情報に関するそれぞれのコンテンツに対して
図2に示すような情報タグが付加されている。このタグおよびユーザ嗜好情報を用いて検索が行われる。
【0006】
サービスとして提供されるコンテンツとしては、商品、記事、楽曲、画像、動画といったものがあり、それぞれのコンテンツの特徴を表すタグを付加することで、コンテンツのカテゴリごとの表示、検索、ユーザ嗜好分析などに用いられている。タグとしては、例えば、コンテンツ種別が「化粧品」の場合には
図3に示すようなものがある。
【0007】
ところで、これらは、コンテンツ種別ごとに内容が異なっている。つまり、「旅行」「化粧品」「ファッション」「音楽」「飲料水」といったコンテンツ種別ごとにタグ種別の内容は異なるため、複数の種別のコンテンツを横断的に扱う際に問題となっていた。従って、コンテンツ種別に依存性が少ない、人の「感性」(ユーザの受ける「印象」、ユーザ自身の「感情」)を共通の情報として扱って情報タグとして扱うことが考えられる。
【0008】
しかし、例えば、同じ「スッキリ」といった印象ワードに対して、「化粧品」「ファッション」「飲料水」では意味が全く同じなわけではないため、単純に「スッキリ」というワードだけで検索しても、検索結果として提示されるコンテンツが、ユーザのイメージに合わないという問題がある。
【0009】
タグをコンテンツに付加する方法としては、一般的には以下のような手法が用いられる。
(1)対象コンテンツ(例えば商品)の説明文、紹介記事、ブログ、投稿欄への書き込み、SNS(Social Networking Service)上での書き込みなどのテキスト情報に対して、形態素解析などの手法を用いて、ワードや、フレーズを抽出し、商品の特徴を表すものをタグとして管理する。
(2)音楽コンテンツの場合には、音楽コンテンツに関するテキスト情報(例えば歌詞の内容、紹介記事など)から得られるタグに加えて、例えば、音楽信号のテンポ、音の大きさの時系列変化、周波数スペクトラム成分の時系列変化といった情報、ジャンル情報、歌手の声質や歌い方の特徴などに関係する情報をタグとして管理する。
(3)映像コンテンツの場合には、映像コンテンツに関する記事やシナリオ等のテキスト情報から得られるタグに加えて、映像シーンの色彩の変化、演出、BGMの印象、出演者のキャラクタ設定やセリフ、声優、監督など複数の要素から判定された情報をタグとして管理する。
【0010】
図4はタグの自動付与システム例である。X1の入力テキストデータとしてはコンテンツに関する内容が記載された、説明文、紹介記事、掲示板上での評価コメント、SNS上でのコンテンツに関するコメントなどが想定される。また、同時に、コンテンツの種別、識別ID、コンテンツ名などの属性が付加されているものとする。このテキスト情報に対して、X2において、記号などの不要な文字の除去、大文字小文字、半角全角をそろえるといった前処理をおこなったのち、X3で形態素解析を行うことで、単語レベルでの切り出しが可能になる。ここで、形態素解析の例としてMeCab形態素解析エンジンによる出力例を説明する。例えば、入力テキストとして「このクッションはふわふわで可愛い」というテキスト(
図5(A))を形態素解析すると、
図5(B)という出力が得られるため、キーワード抽出X3において「名詞」「副詞」「形容詞」だけ抽出すると、「クッション」「ふわふわ」「可愛い」という単語がキーワード抽出X3の出力として抽出される(
図5(C))。キーワード抽出にはユーザ辞書X4が参照されて良い。
【0011】
文書中の単語の重要度を求める方法にはLDA(Latent Dirichlet Allocation)やワードの意味に合わせたベクトルを用いるなど、さまざまな方法がある。ここでは、TF-IDFという手法を用いた例を説明する(https://ja.m.wikipedia.org/wiki/Tf-idf)。TF-IDFのTFは単語の出現頻度(文書の中で特定の単語が出現した回数)を、IDFは逆文書頻度(コーパス全体の中で文書を含んだ文書数の自然対数)を表し、それぞれ以下の意義がある。
TF: 文書dd内で出現頻度が高い単語ほど、その文書の特徴を表すのに重要である
IDF: 一般的にどの文書にも登場する「a」とか「the」などの単語は重要ではない
TF-IDFは、「文書ddにおける単語wwの重要度」を表している。このTF-IDFは、単語wと文書ddごとに決まる量なので、TF-IDF(w,d)とすると以下の式で定義される
TF-IDF(w,d)=TF(w,d)×IDF(w)
ここでは、コンテンツ種別ごとに出現するワードの重要度を求めるため、同じコンテンツ属性(pg)の文章は同じ文章として集計してTF-IDFの値を用いている。
TF-IDF(w,pg)=TF(w,pg)×IDF(w)
このようにして求められた重要度をそのコンテンツ種別におけるワードの重要度は数値が大きい程重要度が高いことを示す。
図4においては、統計情報の生成X5および重要度スコア値算出X6によってワードの重要度スコア値を算出する。
【0012】
各テキスト文章から抽出されたキーワードは、そのキーワードwが文中に出現した回数の値n_count(w)との関係とともに保存される(X7)。例えば「コンテンツ名A」に関するテキストからの抽出結果として、「クッション」「ふわふわ」「可愛い」のキーワードが1回ずつ抽出されたとする。その場合の
図4のキーワード抽出X3の出力例は
図6(A)に示すように以下のようになる。
コンテンツ名A:クッション:1,ふわふわ:1,可愛い:1
図4のタグ処理X7において、入力テキストX1に付加されているコンテンツ名単位で、抽出されたワードの回数を集計する。たとえば上記の抽出結果とは別の「コンテンツ名A」対するテキスト入力のキーワード抽出結果が
図6(B)に示すように
コンテンツ名A:ポーチ:1,柔らかい:1,可愛い:1,ふわふわ:2
とし、
sum_count(w)=Σn_count(w)
の計算を行うと(
図6(C))、タグ処理X7における集計結果は
図6(D)に示すように、つぎのようになる。
コンテンツ名A:ふわふわ:3,可愛い:2,軽い:1,クッション:1,ポーチ:1
さらに
図4の集計タグ付け処理X8では、このようコンテンツ名Aに関するキーワードの集計結果に対して、タグとして不要なワード、出現回数が一定値以下のものを削除し(フィルタ処理X9)、残ったワードwに対して、
図4の重要度スコア値算出処理X6で計算されたワードの重要度のスコア値weight_score(w)の値を用いたスコア値(word_score(w)=func(weight_score(w),sum_count(w))を用いて(
図6(E))、キーワードを決定する。例えば、各キーワードの重要度スコアをword_score(w)=func(weight_score(w)×sum_count(w)と計算し(
図6(F))、その値が一定値以上で、該当するキーワードの数が上限数以内のものを情報タグとして付加する。付加する際には、スコア値の高い順に並べたり、付加されるキーワードのスコア値を合計値が1になるように正規化して良い。タグは例えば
図6(G)に示すように以下のとおりタグとして出力される(X10)。
コンテンツ名A:ふわふわ:0.53,可愛い:0.32,軽い:0.15
【0013】
例えば、「ふわふわ」「可愛い」といったコンテンツに対する印象を表すワードがコンテンツのタグとして付加されている場合、これらのタグワードもしくは複数のタグワードを組み合わせにより、該当するコンテンツを検索することができる。
【0014】
ここで、「小悪魔」といった抽象的で連想される印象があるワードをタグとして付加して、そのタグワードを検索に利用する場合を考える。上述のようなタグ付加手法では、キーワードを抽出したテキストデータ内に「小悪魔」という単語が存在し、それがその商品の特徴を表している(例えばそのワードが一定の比率以上検出された等)場合にのみで情報タグとして付加される。しかしながら、実際にはコンテンツの情報タグとして「小悪魔」というワードが付加される確率は低い。そのため、このような抽象的なワードを情報タグとして付加するためには、システム運営者が手作業でコンテンツごとにタグを付加するといった、手間のかかる作業が必要となる。
【0015】
また、コンテンツに対する評価を書き込める掲示板などでは、運営者側で情報タグ候補となるリストを用意し、タグ付けするワードをリストの中から選ばせてタグ付けするといった方法で対応する場合もある。しかし、この場合、評価を書きこむユーザの主観的な判断でタグ付けされるため、タグ付け基準が正確性に欠けるという問題がある。
【0016】
抽象度の高いワードを用いて検索を行え、しかも、ユーザに対して提示内容の推薦情報を提供してユーザが検索結果を利用する際の便宜を図ることが好ましい。
【0017】
この発明に関連する先行技術文献としては、特開2017-062717号公報がある。この先行技術文献は、コンテンツの出演者、ジャンル等の属性の他、顧客が感じる気分や印象に残るシーンを言語的に表現する言葉等のメタワードをコンテンツに関連付けて、オペレータが顧客との対応に基づいて決定したメタワードを用いてコンテンツを検索する際に、検索結果としてのコンテンツとともに、対応するメタワードを提示して、オペレータと顧客とのコミュニケーションを支援するようにすることを開示している。
【0018】
なお、本発明は、上述の課題により限定的に理解されるべきでなく、その内容は特許請求の範囲に規定され、以下に実施例を用いて詳細に説明される。
【先行技術文献】
【特許文献】
【0019】
【発明の概要】
【発明が解決しようとする課題】
【0020】
タグのベースとなるテキスト群に出現しにくい抽象度の高いワードを用いて検索するのに適した検索技術を提供することが好ましい。
【課題を解決するための手段】
【0021】
この発明によれば、上述の目的を達成するために、特許請求の範囲に記載のとおりの構成を採用している。ここでは、発明を詳細に説明するのに先だって、特許請求の範囲の記載について補充的に説明を行なっておく。
【0022】
この発明の一側面によれば、上述の目的を達成するために、検索装置を:予め登録されている一次メタワードセットに含まれる1または複数の一次メタワードを検索対象コンテンツに関連付ける検索対象コンテンツ用一次メタワード関連付けデータを保持する検索対象コンテンツ用一次メタワード関連付けデータ保持手段と;上記一次メタワードセットに含まれる複数の一次メタワードを予め登録されている二次メタワードセットに含まれる二次メタワードに関連付ける二次メタワード用一次メタワード関連付けデータを保持する二次メタワード用一次メタワード関連付けデータ保持手段と;上記二次メタワードセットに含まれる少なくとも1つの二次メタワードに表示対象コンテンツを関連付けて保持する表示対象コンテンツ保持手段と;検索入力テキストを入力する検索入力手段と;上記検索入力手段から入力された上記検索入力テキストから1または複数の二次メタワードを抽出する二次メタワード抽出手段と;上記二次メタワード抽出手段によって抽出された上記1または複数の二次メタワードについて上記二次メタワード用一次メタワード関連付けデータ保持手段を参照して当該1または複数の二次メタワードに関連する一次メタワードを決定する関連一次メタワード決定手段と;上記関連一次メタワード決定手段によって決定された上記一次メタワードを用いて検索対象コンテンツを検索する検索手段と;上記少なくとも1つの二次メタワードに関連して検索対象コンテンツが検索されたときに、当該少なくとも1つの二次メタワードに関連して上記表示対象コンテンツ保持手段に記憶されている上記表示対象コンテンツを表示する表示対象コンテンツ表示手段と;上記検索手段によって取り出された検索対象コンテンツを表示する検索対象コンテンツ表示手段とを含むように構成している。
【0023】
一次メタワードは、二次メタワードを定義する構成要素である。一次メタワードはコーパス等から抽出しやすいワード、フレーズであり、上述の基本メタワードおよび感性メタワードに対応することが多いけれども、これに限定されない。二次メタワード(イディオムメタワード、イディオムタグともいう)はコーパス等から抽出しにくい抽象度の高いワード、フレーズであるけれどもこれに限定されない。
【0024】
検索対象コンテンツ用一次メタワード関連付けデータは、検索対象コンテンツに一次メタワードをタグとして関連付けるものである。二次メタワード用一次メタワード関連付けデータは、二次メタワードに一次メタワードをタグとして関連付けるものである。
【0025】
この構成においては、二次メタワードに表示対象コンテンツが関連付けられているので、二次メタワードの検索結果の表示に関連して当該表示対象コンテンツを表示することによりユーザに対して検索結果の閲覧について推薦情報、ヒント情報等の案内情報を提供することができる。
【0026】
この構成において、上記表示対象コンテンツは、上記二次メタワードに関連して記述されたテキストであって良い。上記表示対象コンテンツは、対象となるユーザコンテンツの種別、ユーザのプロファイリング(年代、性別、嗜好傾向)、季節、時間帯、天候などの環境条件に応じて適合化、最適化されてよい。
【0027】
また、この構成において、上記検索対象コンテンツ用一次メタワード関連付けデータは、上記検索対象コンテンツの各々に対して1または複数の一次メタワードと、当該一次メタワードの検索対象コンテンツに関連するスコア値とを有し;上記二次メタワード用一次メタワード関連付けデータは、上記二次メタワードの各々に対して複数の一次メタワードと、当該一次メタワードの二次メタワードに関連するスコア値とを有し;上記検索手段は、抽出された二次メタワードについて上記二次メタワード用一次メタワード関連付けデータを参照して複数の一次メタワードの二次メタワードに関連するスコア値を取出し、当該関連付けられた複数の一次メタワードについて上記検索対象コンテンツ用一次メタワード関連付けデータを参照して上記複数の一次メタワードの検索対象コンテンツに関連するスコア値を取出し、上記複数の一次メタワードの二次メタワードに関連するスコア値および上記複数の一次メタワードの検索対象コンテンツに関連するスコア値に基づいて上記検索対象コンテンツを検索するように構成されて良い。
【0028】
また、この構成において、当該検索装置は、上記二次メタワードセットに含まれる1または複数の二次メタワードを検索対象コンテンツに関連付ける検索対象コンテンツ用二次メタワード関連付けデータを保持する検索対象コンテンツ用二次メタワード関連付けデータ保持手段と;上記二次メタワードセットに含まれる1または複数の二次メタワードセットについて上記検索手段を用いて上記検索対象コンテンツについて検索を実行し、検索結果に基づいて上記1または複数の二次メタワードについて上記検索対象コンテンツのスコア値を算出して上記1または複数の二次メタワードおよび対応する検索対象コンテンツに関連するスコア値として上記検索対象コンテンツ用二次メタワード関連付けデータ保持手段に登録する学習手段とをさらに有し;上記検索手段は、上記二次メタワード抽出手段によって抽出された二次メタワードについて上記学習手段が学習済みの場合には上記検索対象コンテンツ用二次メタワード関連付けデータを参照して検索を行うように構成されて良い。
【0029】
また、この構成において、上記二次メタワード抽出手段は、上記検索入力手段から入力された上記検索入力テキストから上記1または複数の二次メタワードに加え、1または複数の一次メタワードを抽出し;上記検索手段は、上記関連一次メタワード決定手段によって決定された上記一次メタワードに加え、上記抽出された1または複数の一次メタワードを用いて検索対象コンテンツを検索するように構成されて良い。
【0030】
また、この構成において、上記二次メタワード用関連付けデータ保持手段に保持されている上記二次メタワード用関連付けデータの少なくとも1つの一次メタワードについて、コンテンツ種別、季節、シチュエーション、利用者の年齢・性別を有するパラメータ群のパラメータに依存してスコア値を変化させて良い。
【0031】
また、この構成において、上記パラメータは、コンテンツ種別、季節、シチュエーション、および/または利用者の属性であって良い。
【0032】
なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品(コンピュータプログラム)もこの発明の技術的な範囲に含まれることも当然である。
【0033】
この発明の上述の側面および他の側面は特許請求の範囲に記載され、以下、実施例等を用いて詳述される。
【発明の効果】
【0034】
この発明によれば、タグのベースとなるテキスト群に出現しにくい抽象度の高いワード、フレーズを用いて検索するのに適した検索技術を提供することができる。
【図面の簡単な説明】
【0035】
【
図1】従来の情報タグを利用した検索システム例を説明する図である。
【
図3】化粧品を例に挙げて従来の情報タグの例を説明する図である。
【
図4】情報タグをコンテンツに付加する例を説明する図である。
【
図5】形態素解析を用いた入力テキストの前処理を説明する図である。
【
図6】重要度スコア値を伴う情報タグをコンテンツに付加する例を説明する図である。
【
図8】実施例のイディオムメタワードを説明する図である。
【
図9】コンテンツに関連するメタワードおよび応答テキスト例を説明する図である。
【
図10】イディオムメタワードの例を説明する図である。
【
図11】実施例の具体的な構成例を示すブロック図である。
【
図12】実施例の検索例の前提を説明する図である。
【
図15】メタワードのフォーマット例を説明する図である。
【
図16】メタワードのフォーマット例を説明する図である。
【
図17】実施例の他の具体的な構成例を示すブロック図である。
【
図18】実施例の他の具体的な構成例を示すブロック図である。
【
図19】テーマワードおよび具体的な説明の例を示す図である。
【発明を実施するための形態】
【0036】
以下、この発明の実施例の検索装置について説明する。
【0037】
この実施例の検索装置は、従来型のタグ(以下、基本メタワード)による検索手法に対して、コンテンツごとに感性的なタグ(以下、感性メタワード)を付加し、ユーザの抽象度の高いワードによる要求に対しても検索できるようになっている。さらに、より抽象度の高いワード(以下、イディオムメタワード)に対して、それに関連した応答メッセージを定義し、そのイディオムメタワードによる検索結果のコンテンツ情報を提示する際に、推薦理由として提示させるようになっている。具体的には、イディオムメタワードは、その意味的な解釈を複数の感性メタワード、基本メタワードの集合体(以下メタワード因子ともいう)で表したメタワードとして定義される。この実施例の検索手法を採用することによって、
図7の実施例のように、抽象度の高いユーザからの検索要求に対しても、イディオムメタワードおよび感性メタワード、基本メタワードを抽出し、それを元に、複数のコンテンツ種別を横断したコンテンツとマッチングさせることができるようになる。
【0038】
このイディオムメタワードに含まれるメタワード因子(基本メタワード、感性メタワード)は
図8(A)のように、固定的に定義されるものと、コンテンツ種別、季節、シチュエーション、ユーザの年齢・性別などにより変動するもので構成される。感性メタワード群、基本メタワード群に含まれる因子数は最大上限数だけが定義されるもので、因子数は変動してもよい。また、変動因子はなくてもよい。ただし、イディオムメタワードに含まれる因子数は最小数、最大数が定義されている。感性メタワード群および基本メタワード群は
図8(B)に示すように個別のメタワードとそれぞれのスコア値とを含んでいる。
【0039】
イディオムメタワード内のメタワード因子は両者が混在した並び順でもよいけれども、この説明では固定メタワード、変動メタワードごとに前から後ろに向けて、スコア値の大きい順に並んでいる。ユーザからの要求に対しては、このイディオムメタワードを元に検索することで、コンテンツ種別や季節などの変動要因を考慮せずにイディオムメタワードの意味に対応するコンテンツ情報を得ることが可能となる。
【0040】
コンテンツに付加されるタグは
図9(A)に示すように、基本メタワード、感性メタワード、およびイディオムメタワードからなる。イディオムメタワードは
図9(B)に示すような情報を保持する。イディオムメタワードに関連付けられているメタワード因子や推薦理由は、対象となるコンテンツのドメイン、ユーザの
プロファイリング(年代、性別、嗜好傾向)、季節、時間帯、天気などの環境条件などに応じて変更または最適化されて良い。「イディオム名」は、イディオムメタワードの表示用の名称である。応答テキスト(推薦テキスト)の例は
図9(C)に示すとおりである。イディオムメタワードの例および対応するメタワード因子の例は
図10に示すとおりである。
【0041】
図11は、実施例の具体的な構成例を示しており、この図において、検索装置100は、テキスト入力部10、イディオムメタワード抽出部20、一次メタワード決定部30、検索部40、表示部50、イディオムメタワード辞書601、イディオムメタワード用タグ記憶部602、検索対象コンテンツ用タグ記憶部603、検索対象コンテンツ情報データベース604、および推薦テキスト記憶部605を含んで構成されている。検索装置100は典型系的には1または複数の計算機リソース(コンピュータシステム)を用いて構成される。検索装置100は、例えば、記録媒体201に記録されたコンピュータプログラムや通信ネットワーク(図示しない)を介して送信されてくるコンピュータプログラムをコンピュータシステム200にインストールすることにより実現される。コンピュータシステムは、CPU、主メモリ、バス、外部メモリ、種々の入出力インタフェース等を有してなり、パーソナルコンピュータ、スマートフォン、情報家電機器等であって良い。
【0042】
テキスト入力部10は、フリー入力テキスト、キャッチコピー等を入力して、形態素解析、意味解析等を行って、ワードやフレーズを切り出すものである。イディオムメタワードに先行して、または後続の予約語がある場合には、これに基づいてイディオムメタワードを切り出して良い。イディオムメタワード抽出部20は、イディオムメタワード辞書601を参照して1または複数のイディオムメタワードを抽出する。イディオムメタワード辞書601はイディオムメタワードの各エントリに対して同一のワードまたはフレーズの他に、候補となるワードまたはフレーズを保持してこれらのワードまたはフレーズが表れたときに該当するイディオムメタワードを抽出して良い。一次メタワード決定部30は、イディオムメタワード用タグ記憶部602を参照して、抽出したイディムメタワードに関連付けられた一次メタワード(基本メタワードまたは感性メタワード)およびそれぞれの重要度スコア値を取出す。検索部40は、抽出したイディオムメタワードに関連付けられた一次メタワードについて検索対象コンテンツ用タグ記憶部603を参照して、検索対象コンテンツとのマッチング度を算出し、マッチング度の大きな1または複数の検索対象コンテンツを特定する。マッチング度が予め定められた閾値よりも小さい場合には検索が失敗する。マッチング度は、イディオムメタワードに関連付けられた一次メタワードの重要度スコア値と、検索対象コンテンツに関連付けられた一次メタワードの重要度スコアとを掛け合わせて値を累積して算出して良い。これについては
図12および
図13を参照して後述する。表示部50は、マッチング度に基づいて決定された検索対象コンテンツに関する情報を検索対象コンテンツ情報データベース604を参照して内部または外部のアドレスから取り出して表示を行い、また、推薦テキスト記憶部605を参照してイディオムメタワードの推薦テキストを取り出して表示する。推薦テキストに替えて画像や音声を用いても良い。
【0043】
一次メタワードの重要度スコアは、先に説明したTF-IDFを用いて準備できる。イディオムメタワードの重要度スコアは、イディオムメタワードに対応するテキストについてTF-IDFを用いて準備できる。
【0044】
図12および
図13は、イディオムメタワードと検索対象コンテンツとのマッチング度の算出例を示しており、これ例では、「大人の品格」および「小悪魔」というイディオムメタワードと商品A、BおよびCとのマッチング度を算出する。イディオムメタワード「小悪魔」および「大人の品格」のイディオムメタワード用タグは
図12(A)に示すとおりであり、商品A、BおよびCの検索対象コンテンツ用タグは
図12(B)に示すとおりである。これらの商品に対して、各イディオムメタワードとのマッチング度を計算する。この計算例では、各イディオムメタワードのメタワード因子(一次メタワード)と、各商品のタグ内の同じワードに対して、そのワードのイディオム側のスコア値と、商品のタグのスコア値を掛け合わせて、それをすべてのイディオムメタワードのメタワード因子に対して加算した値をマッチングスコアー値とする。
【0045】
各イディオムメタワードに対する計算結果は
図13に示すとおりである。この結果、「大人の
品格」に対しては商品Bが表示され、併せて、イディオムメタワードの推薦テキストが表示される。
【0046】
なお、
図11におけるテキスト入力部10、イディオムメタワード抽出部20、一次メタワード決定部30、検索部40、表示部50は、それぞれ対応する検索方法の各ステップを実行する。
【0047】
なお、各コンテンツに対して関連性が高いイディオムメタワードをオフラインで計算して、あらかじめ各コンテンツのタグとして管理することもできる。例えば、
図17に示すように学習部70を設けて、検索対象コンテンツ用タグにイディオムメタワードおよび対応する重要度スコア値を付加して良い。このようにすることにより、イディオムメタワードを原始メタワード(基本メタワードおよび感性メタワード)と同様に扱うことができる。その際、1つのコンテンツに関連するイディオムメタワードは複数であって良い。このイディオムメタワードは、サービス提供者があらかじめ定義しておくことが前提になるが、ユーザ側からのリクエストに応じて追加して良い。
図17において
図11と対応する箇所には対応する符号を付した。
【0048】
図14はイディオムメタワード、感性メタワード、および基本メタワードの例を示す。また、
図15は、メタワードのフォーマット例をJSON(JavaScript
(登録商標) Object Notation)形式で示す。
図16(A)および(B)に示すようなフォーマットで記述されても良い。
【0049】
図18は、
図11の具体的な構成例の他の変形例を示す。この図においては、メタワード抽出部202を設け、入力テキストからイディオムメタワードのみでなく基本メタワードおよび/または感性メタワードも抽出して、この抽出した基本メタワードおよび/または感性メタワードとイディオムメタワードに基づいて決定した基本メタワードおよび/感性メタワードを用いて複合的に検索を行えるようにしている。
図18において
図11と対応する箇所には対応する符号を付した。
【0050】
なお、以上の説明において、キャッチコピーは商品、コンテンツ情報のキャンペーンテーマといった宣伝文句である。イディオムメタワードは基本的に固定で、追加修正も行われるけれども、変更頻度は低い。ユーザの欲求情報としてのユーザ要求入力テキスト、キャッチコピー、感情動機フレーズには、それぞれ複数のイディオムメタワードが関連付けられて良い。ユーザからの入力の場合には、テキスト、音声、画像、生体情報から複数の感性因子を抽出し、そのメタワード因子を多く持つイディオムメタデータに関連付ける。イディオムメタワードには複数の感性メタワード因子、基本メタワード因子が関連付けられる。これとは別にテーマワードを設定して複数の感性メタワード因子、基本メタワード因子が関連付けられて良い。これらに付加されているメタワード因子は、例えば季節、利用シーン、商品情報、関連記事、ネット上での評判などの情報を元に関連付けられることが想定され、それらの情報が更新されると付加されているメタワード因子も変更されて良い。テーマワードは付加されている感性メタワード因子とイディオムメタワードに付加されている感性メタワード因子との結びつきの強い場合にはテーマワードとイディオムメタワードとが関連付けられ良い。該当するテーマフレーズがない場合には関連付けされない。イディオムメタワード、テーマワードに付加されているメタワード因子が変更されれば、これらの関係も変更される。推薦テキストとしてテーマフレーズを用いて良い。
【0051】
図19はテーマワード「知床五湖」の紹介文で、ここから
図20に示すようなメタワード因子が抽出される。このうち、イディオムメタワード(イディオムタグ)は、メタワード因子から(大自然、眺望)→「雄大な自然」、(幻想的、ひっそり)→「幻想的な静寂」と関連付けられている。
【0052】
以上で実施例の説明を終了する。
【0053】
なお、この発明は上述の実施例に限定されることなく、その趣旨を逸脱しない範囲で種々変更が可能である。
【0054】
例えば、イディオムメタワードに関連付けされているメタワード因子は、特許第6571231号で用いられているような意味ベクトル空間にワードをマッピングした際にベクトル距離が近いメタワード因子の集合体として定義することもできる。
【0055】
一例において、メタワードとして用いられるワードの種別と数はあらかじめ定義されている(規定された一次メタワードという。規定一次メタワードともいう)ものとし、規定された一次メタワードに類似したワードは関連する規定された一次メタワードとして名寄せされているものとする。
ex.規定一次メタワード(温かい):あたたかい、あったかい、温かい、ホカホカ....(名寄されたワード)
【0056】
この例において、例えば、「大人の隠れ家」というイディオムメタワードに対して、この対象となるイディオムメタワードがあらわれる記事や説明文、あらすじ、エッセイなどのテキスト文の集合体に対して、対象となるイディオムメタワードの近傍にあらわれるワードのうち、名寄せ後の規定一次メタワードとのワード間の距離の統計情報を求めることで、そのイディオムメタワードを、規定一次メタワードを用いたベクトルとして表現できる。この規定一次メタワードで表現されるベクトル空間を意味ベクトル空間とする。この方法の1つとして「Word2Vec」(https://deepage.net/bigdata/machine_learning/2016/09/02/word2vec_power_of_word_vector.html)といった手法がある。各イディオムメタワードが意味ベクトル空間で表現された場合、複数のイディオムメタワード間の類似性は、たとえばコサイン類似度等の計算で求められる。
【0057】
例えば、対象イディオム「大人の隠れ家」に対して関連する規定一次メタワードを求める場合、類似度の高いフレーズである「大人の隠れ家」「男の隠れ家」「おとなの隠れ宿」といったワードを基準ワードとし、文章において、その前後に出現する規定一次メタワード、もしくは、規定一次メタワードに名寄せ可能なワードの出現率からイディオムメタワードと規定一次メタワードとの関連性を求める。
【0058】
以下の例を考える。
テキスト文の例
(1) 人には教えたくない、本当のおとなの隠れ家。秘密基地のようなワクワク感。
(2) 本当は内緒にしたい隠れ家!落ち着いた雰囲気のおしゃれな空間。
(3) 「遊びなれた人だけが知っている、大人の隠れ家」。そんな秘密の場所にはこだわりがあり、その本質を理解した客のみに扉は開かれる。
これらテキスト文の例においては、規定一次メタワードの関連性の高さを表すスコア値を正規化して大きい順に並べた場合、つぎのようになる。
「大人の隠れ家」
大人:0.241 落ち着いた:0.146 秘密:0.117 わくわく:0.104 内緒:0.08 こだわり:0.07 おしゃれ:0.06 本質:0.02 扉:0.01
このようにしてイディオムメタワードに、一次メタワードおよびそのスコア値を関連付けることができる。
【符号の説明】
【0059】
10 テキスト入力部
20 イディオムメタワード抽出部
30 一次メタワード決定部
40 検索部
50 表示部
70 学習部
100 検索装置
200 コンピュータシステム
201 記録媒体
202 メタワード抽出部
601 イディオムメタワード辞書
602 イディオムメタワード用タグ記憶部
603 検索対象コンテンツ用タグ記憶部
604 検索対象情報コンテンツデータベース
605 推薦テキスト記憶部