特表2020-513128(P2020-513128A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ネイバー コーポレーションの特許一覧

特表2020-513128トピック構造化方法、検索結果提供方法、コンピュータプログラムおよびトピック構造化システム
<>
  • 特表2020513128-トピック構造化方法、検索結果提供方法、コンピュータプログラムおよびトピック構造化システム 図000004
  • 特表2020513128-トピック構造化方法、検索結果提供方法、コンピュータプログラムおよびトピック構造化システム 図000005
  • 特表2020513128-トピック構造化方法、検索結果提供方法、コンピュータプログラムおよびトピック構造化システム 図000006
  • 特表2020513128-トピック構造化方法、検索結果提供方法、コンピュータプログラムおよびトピック構造化システム 図000007
  • 特表2020513128-トピック構造化方法、検索結果提供方法、コンピュータプログラムおよびトピック構造化システム 図000008
  • 特表2020513128-トピック構造化方法、検索結果提供方法、コンピュータプログラムおよびトピック構造化システム 図000009
  • 特表2020513128-トピック構造化方法、検索結果提供方法、コンピュータプログラムおよびトピック構造化システム 図000010
  • 特表2020513128-トピック構造化方法、検索結果提供方法、コンピュータプログラムおよびトピック構造化システム 図000011
  • 特表2020513128-トピック構造化方法、検索結果提供方法、コンピュータプログラムおよびトピック構造化システム 図000012
  • 特表2020513128-トピック構造化方法、検索結果提供方法、コンピュータプログラムおよびトピック構造化システム 図000013
  • 特表2020513128-トピック構造化方法、検索結果提供方法、コンピュータプログラムおよびトピック構造化システム 図000014
  • 特表2020513128-トピック構造化方法、検索結果提供方法、コンピュータプログラムおよびトピック構造化システム 図000015
  • 特表2020513128-トピック構造化方法、検索結果提供方法、コンピュータプログラムおよびトピック構造化システム 図000016
  • 特表2020513128-トピック構造化方法、検索結果提供方法、コンピュータプログラムおよびトピック構造化システム 図000017
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】特表2020-513128(P2020-513128A)
(43)【公表日】2020年4月30日
(54)【発明の名称】トピック構造化方法、検索結果提供方法、コンピュータプログラムおよびトピック構造化システム
(51)【国際特許分類】
   G06F 16/332 20190101AFI20200403BHJP
   G06F 16/31 20190101ALI20200403BHJP
   G06F 16/36 20190101ALI20200403BHJP
【FI】
   G06F16/332
   G06F16/31
   G06F16/36
【審査請求】有
【予備審査請求】未請求
【全頁数】27
(21)【出願番号】特願2019-554996(P2019-554996)
(86)(22)【出願日】2018年3月9日
(85)【翻訳文提出日】2019年10月4日
(86)【国際出願番号】KR2018002834
(87)【国際公開番号】WO2018186599
(87)【国際公開日】20181011
(31)【優先権主張番号】10-2017-0044683
(32)【優先日】2017年4月6日
(33)【優先権主張国】KR
(31)【優先権主張番号】10-2017-0085316
(32)【優先日】2017年7月5日
(33)【優先権主張国】KR
(81)【指定国】 AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DJ,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JO,JP,KE,KG,KH,KN,KP,KW,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT,TZ
(71)【出願人】
【識別番号】505205812
【氏名又は名称】ネイバー コーポレーション
【氏名又は名称原語表記】NAVER Corporation
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】ミン,ヘジン
(72)【発明者】
【氏名】キム,ジンホン
(72)【発明者】
【氏名】パク,チャンフン
(72)【発明者】
【氏名】キム,クァンヒョン
(57)【要約】
クエリに適したサブトピックを自動で抽出して構造化する技術を提供する。トピック構造化方法は、主題別に前記主題と関連するサブトピックを抽出する段階、前記サブトピックに対して前記主題の階層情報を利用してトピックツリーを生成する段階、および検索のためのクエリが与えられると、前記クエリが属する主題のトピックツリーに基づき、前記クエリに対する関連検索語として前記サブトピックを階層形で提供する段階を含む。
【特許請求の範囲】
【請求項1】
コンピュータが実現するトピック構造化方法であって、
主題別に前記主題と関連するサブトピックを抽出する段階、
前記サブトピックに対して前記主題の階層情報を利用してトピックツリーを生成する段階、および
検索のためのクエリが与えられると、前記クエリが属する主題のトピックツリーに基づき、前記クエリに対する関連検索語として前記サブトピックを階層形で提供する段階
を含む、トピック構造化方法。
【請求項2】
前記抽出する段階は、
前記主題を決定する核心オブジェクトと関連する単語を分析して前記サブトピックを抽出すること
を特徴とする、請求項1に記載のトピック構造化方法。
【請求項3】
前記サブトピックを文書出現頻度と検索頻度のうちの少なくとも1つによってフィルタリングする段階
をさらに含む、請求項1に記載のトピック構造化方法。
【請求項4】
前記サブトピックを類義語またはサブストリング関係によってクラスタリングして各クラスタの代表を選定する段階
をさらに含む、請求項1に記載のトピック構造化方法。
【請求項5】
前記生成する段階は、
前記サブトピックを前記階層情報の各クラス名にラベリングして前記トピックツリーを生成すること
を特徴とする、請求項1に記載のトピック構造化方法。
【請求項6】
前記生成する段階は、
前記サブトピックに対して単語埋め込みデータから類似単語を抽出する段階、
前記類似単語を類義語またはサブストリング関係によってクラスタリングする段階、および
前記クラスタリングされた単語を言語分類学上の各クラスにマッピングすることによってラベリングする段階
を含む、請求項1に記載のトピック構造化方法。
【請求項7】
前記トピックツリーの幅と深さのうちの少なくとも1つを減らして前記トピックツリーに対するリバランシングを実行する段階
をさらに含む、請求項1に記載のトピック構造化方法。
【請求項8】
前記提供する段階は、
前記クエリと前記サブトピックの関連性を示す主題点数と、前記サブトピックに対応する文書数、および前記クエリに対する正解性トピックのうちの少なくとも1つの条件によって前記サブトピックをフィルタリングする段階
を含む、請求項1に記載のトピック構造化方法。
【請求項9】
コンピュータが実現する検索結果提供方法であって、
検索のためのクエリが与えられると、前記クエリに対応する検索結果を提供する段階、
前記クエリが属する主題の階層情報に基づき、前記クエリに対する関連検索語として前記主題と関連するサブトピックを複数のデプスを有する階層形で提供する段階、および
前記サブトピックのうちの少なくとも1つの検索語が選択される場合、前記選択された検索語を含んだ前記クエリに対応する検索結果を提供する段階
を含む、検索結果提供方法。
【請求項10】
コンピュータシステムと結合してトピック構造化方法を実行させるためにコンピュータ読み取り可能な記録媒体に記録されたコンピュータプログラムであって、
前記トピック構造化方法は、
主題別に前記主題と関連するサブトピックを抽出する段階、
前記サブトピックに対して前記主題の階層情報を利用してトピックツリーを生成する段階、および
検索のためのクエリが与えられると、前記クエリが属する主題のトピックツリーに基づき、前記クエリに対する関連検索語として前記サブトピックを階層形で提供する段階
を含む、コンピュータプログラム。
【請求項11】
コンピュータが実現するトピック構造化システムであって、
コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
主題別に前記主題と関連するサブトピックを抽出する抽出部、
前記サブトピックに対して前記主題の階層情報を利用してトピックツリーを生成する生成部、および
検索のためのクエリが与えられると、前記クエリが属する主題のトピックツリーに基づき、前記クエリに対する関連検索語として前記サブトピックを階層形で提供する提供部
を備える、トピック構造化システム。
【発明の詳細な説明】
【技術分野】
【0001】
以下の説明は、クエリに適したサブトピックを自動抽出して構造化する技術に関する。
【背景技術】
【0002】
検索システムは、ユーザが入力したクエリに対して検索結果を提供するときに、検索条件にマッチングされた文書の他に、ユーザの追加探索をサポートする多様な機能も提供する。ユーザの追加探索をサポートする代表的なものとしては、関連検索語、関連タグ、検索語自動完成などがある。これらは、単語がペアとしてともに示される程度である共起(Co−occurrence)を基盤とし、クエリとして頻繁に登場する検索語やタグを把握することを基本としている。
【0003】
例えば、韓国公開特許第10−2012−0096806号公報(公開日2012年08月31日)には、ユーザ端末の位置情報に基づいて推薦検索語を選定してユーザに提供する検索語推薦システムおよび検索語推薦方法が開示されている。
【0004】
一方、ショッピング検索システムでは、ショッピングの意図があるクエリの場合、製品のブランド、カラー、値段などのような階層情報を活用して商品の探索をサポートする機能が提供される場合もある。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】韓国公開特許第10−2012−0096806号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
主題が明らかなクエリのトピックを提供し、効率的な情報探索のためのトピックの構造化が必要である。
【0007】
特定の主題が与えられたときに、該当の主題に適したサブトピックだけを抽出して特定の主題に対して自動で構築された階層情報を活用することにより、ユーザが所望する程度(細分化)に応じて適切に構造化して提示する方法を提供する。
【課題を解決するための手段】
【0008】
コンピュータが実現するトピック構造化方法であって、主題別に前記主題と関連するサブトピックを抽出する段階、前記サブトピックに対して前記主題の階層情報を利用してトピックツリーを生成する段階、および検索のためのクエリが与えられると、前記クエリが属する主題のトピックツリーに基づき、前記クエリに対する関連検索語として前記サブトピックを階層形で提供する段階を含む、トピック構造化方法を提供する。
【0009】
一側面によると、前記抽出する段階は、前記主題を決定する核心オブジェクトと関連する単語を分析して前記サブトピックを抽出してよい。
【0010】
他の側面によると、前記サブトピックを文書出現頻度と検索頻度のうちの少なくとも1つによってフィルタリングする段階をさらに含んでよい。
【0011】
また他の側面によると、前記サブトピックを類義語またはサブストリング(部分文字列)関係によってクラスタリングして各クラスタの代表を選定する段階をさらに含んでよい。
【0012】
また他の側面によると、前記生成する段階は、前記サブトピックを前記階層情報の各クラス名にラベリング(labeling)して前記トピックツリーを生成してよい。
【0013】
また他の側面によると、前記生成する段階は、前記サブトピックに対して単語埋め込み(Word Embedding)データから類似単語を抽出する段階、前記類似単語を類義語またはサブストリング(部分文字列)関係によってクラスタリングする段階、および前記クラスタリングされた単語を言語分類学上の各クラスにマッピングすることによってラベリングする段階を含んでよい。
【0014】
また他の側面によると、前記トピックツリーの幅(breadth)と深さ(depth)のうちの少なくとも1つを減らして前記トピックツリーに対するリバランシング(rebalancing)を実行する段階をさらに含んでよい。
【0015】
さらに他の側面によると、前記提供する段階は、前記クエリと前記サブトピックの関連性を示す主題点数、前記サブトピックに対応する文書数、および前記クエリに対する正解性トピックの有無のうちの少なくとも1つの条件によって前記サブトピックをフィルタリングする段階を含んでよい。
【0016】
コンピュータが実現する検索結果提供方法であって、検索のためのクエリが与えられると、前記クエリに対応する検索結果を提供する段階、前記クエリが属する主題の階層情報に基づき、前記クエリに対する関連検索語として前記主題と関連するサブトピックを複数の深さ(depth)を有する階層形で提供する段階、および前記サブトピックのうちの少なくとも1つの検索語が選択される場合、前記選択された検索語を含んだ前記クエリに対応する検索結果を提供する段階を含む、検索結果提供方法を提供する。
【0017】
コンピュータシステムと結合してトピック構造化方法を実行させるためにコンピュータ読み取り可能な記録媒体に記録されたコンピュータプログラムであって、前記トピック構造化方法は、主題別に前記主題と関連するサブトピックを抽出する段階、前記サブトピックに対して前記主題の階層情報を利用してトピックツリーを生成する段階、および検索のためのクエリが与えられると、前記クエリが属する主題のトピックツリーに基づき、前記クエリに対する関連検索語として前記サブトピックを階層形で提供する段階を含む、コンピュータプログラムを提供する。
【0018】
コンピュータが実現するトピック構造化システムであって、コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、主題別に前記主題と関連するサブトピックを抽出する抽出部、前記サブトピックに対して前記主題の階層情報に基づいてトピックツリーを生成する生成部、および検索のためのクエリが与えられると、前記クエリが属する主題のトピックツリーに基づき、前記クエリに対する関連検索語として前記サブトピックを階層形で提供する提供部を備える、トピック構造化システムを提供する。
【発明の効果】
【0019】
本発明の実施形態によると、特定の主題が与えられたときに、該当の主題に適したサブトピックだけを抽出して特定の主題に適した階層情報を自動で構築した後、ユーザが所望する程度(細分化)に応じて適切に構造化して提示することにより、主題に適しながらも該当のクエリと関連する詳細な属性/小主題をユーザが効率的に把握することができ、実質的な追加探索をサポートすることに寄与することができる。
【図面の簡単な説明】
【0020】
図1】本発明の一実施形態における、ネットワーク環境の例を示した図である。
図2】本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。
図3】本発明の一実施形態における、パターン化されたクエリを階層化する過程の例を示した図である。
図4】本発明の一実施形態における、サーバのプロセッサが含むことのできる構成要素の例を示した図である。
図5】本発明の一実施形態における、サーバが実行することのできる方法の例を示したフローチャートである。
図6】本発明の一実施形態における、「グアム」および「じゃがいも」というクエリに対し、サブトピック候補をフィルタリングおよびグルーピングする過程の一例を示した図である。
図7】本発明の一実施形態における、階層情報を構築する過程の一例を説明するためのフローチャートである。
図8】旅行の主題に対し、クラスタリングおよび言語分類学を利用して構築した階層情報の一例を示した図である。
図9】本発明の一実施形態における、構築されたトピックネットワークを深さが2であるツリー(2−デプスツリー)に変換する過程の例を示した図である。
図10】本発明の一実施形態における、ツリーリバランシング過程の一例を説明するためのフローチャートである。
図11】本発明の一実施形態における、ツリーリバランシング過程の例を示した図である。
図12】本発明の一実施形態における、ツリーリバランシング過程の例を示した図である。
図13】本発明の一実施形態における、2−デプストピック構造が反映された検索結果画面の例を示した図である。
図14】本発明の一実施形態における、2−デプストピック構造が反映された検索結果画面の例を示した図である。
【発明を実施するための形態】
【0021】
以下、本発明の実施形態について、添付の図面を参照しながら詳細に説明する。
【0022】
本発明の実施形態は、クエリに適したサブトピックを自動抽出して構造化する技術に関する。
【0023】
本明細書で具体的に開示される事項などを含む実施形態は、主題が明らかなクエリのトピックを提供し、効率的な情報探索のためのトピックを構造化することができ、これによって正確性、効率性、拡張性、費用節減などの側面において相当な長所を達成する。
【0024】
図1は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図1のネットワーク環境は、複数の電子機器110、120、130、140、複数のサーバ150、160、およびネットワーク170を含む例を示している。このような図1は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図1のように限定されることはない。
【0025】
複数の電子機器110、120、130、140は、コンピュータ装置によって実現される固定端末や移動端末であってよい。複数の電子機器110、120、130、140の例としては、スマートフォン、携帯電話、タブレット、ナビゲーション、PC(personal computer)、ノート型パンコン、デジタル放送用端末、PDA(Personal Digital Assistant)、PMP(Portable Multimedia Player)などがある。一例として、第1電子機器110は、無線または有線通信方式を利用し、ネットワーク170を介して他の電子機器120、130、140および/またはサーバ150、160と通信してよい。
【0026】
通信方式が限定されることはなく、ネットワーク170が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網)を活用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク170は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク170は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター−バスネットワーク、ツリーまたは階層的(hierarchical)ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。
【0027】
サーバ150、160それぞれは、電子機器110、120、130、140とネットワーク170を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する1つ以上のコンピュータ装置によって実現されてよい。
【0028】
一例として、サーバ160は、ネットワーク170を介して接続した第1電子機器110にアプリケーションのインストールのためのファイルを提供してよい。この場合、第1電子機器110は、サーバ160から提供されたファイルを利用してアプリケーションをインストールしてよい。また、第1電子機器110が含むオペレーティングシステム(Operating System:OS)および少なくとも1つのプログラム(一例として、ブラウザや前記インストールされたアプリケーション)の制御にしたがってサーバ150に接続し、サーバ150が提供するサービスやコンテンツの提供を受けてよい。例えば、第1電子機器110がアプリケーションの制御にしたがい、ネットワーク170を介してサービス要求メッセージをサーバ150に送信すると、サーバ150はサービス要求メッセージに対応するコードを第1電子機器110に送信してよく、第1電子機器110はアプリケーションの制御にしたがってコードに基づいた画面を構成して表示することにより、ユーザにコンテンツを提供してよい。
【0029】
図2は、本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。図2では、1つの電子機器に対する例として第1電子機器110の内部構成を、1つのサーバに対する例としてサーバ150の内部構成を説明する。他の電子機器120、130、140やサーバ160も、同一または類似の内部構成を有してよい。
【0030】
第1電子機器110とサーバ150は、メモリ211、221、プロセッサ212、222、通信モジュール213、223、および入力/出力インタフェース214、224を含んでよい。メモリ211、221は、コンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永久大容量記憶装置(permanent mass storage device)を含んでよい。また、メモリ211、221には、オペレーティングシステムと、少なくとも1つのプログラムコード(一例として、第1電気機器110にインストールされて駆動するアプリケーションなどのためのコード)が記録されてよい。このようなソフトウェア構成要素は、メモリ211、221とは別のコンピュータ読み取り可能な記録媒体からロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD−ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信モジュール213、223を通じてメモリ211、221にロードされてもよい。例えば、少なくとも1つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システム(一例として、上述したサーバ160)がネットワーク170を介して提供するファイルによってインストールされるプログラム(一例として、上述したアプリケーション)に基づいてメモリ211、221にロードされてよい。
【0031】
プロセッサ212、222は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ211、221または通信モジュール213、223によって、プロセッサ212、222に提供されてよい。例えば、プロセッサ212、222は、メモリ211、221のような記録装置に格納されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。
【0032】
通信モジュール213、223は、ネットワーク170を介して第1電子機器110とサーバ150とが互いに通信するための機能を提供してもよいし、他の電子機器(一例として、第2電子機器120)または他のサーバ(一例として、サーバ160)と通信するための機能を提供してもよい。一例として、第1電子機器110のプロセッサ212がメモリ211のような記録装置に格納されたプログラムコードにしたがって生成した要求(一例として、検索要求)が、通信モジュール213の制御にしたがってネットワーク170を介してサーバ150に伝達されてよい。これとは逆に、サーバ150のプロセッサ222の制御にしたがって提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール223とネットワーク170を経て第1電子機器110の通信モジュール213を通じて第1電子機器110に受信されてもよい。例えば、通信モジュール213を通じて受信したサーバ150の制御信号や命令などは、プロセッサ212やメモリ211に伝達されてよく、コンテンツやファイルなどは、第1電子機器110がさらに含むことのできる格納媒体に格納されてよい。
【0033】
入力/出力インタフェース214は、入力/出力装置215とのインタフェースのための手段であってよい。例えば、入力装置は、キーボードまたはマウスなどの装置を含んでよいし、出力装置は、アプリケーションの通信セッションを表示するためのディスプレイのような装置を含んでよい。他の例として、入力/出力インタフェース214は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。より具体的な例として、第1電子機器110のプロセッサ212は、メモリ211にロードされたコンピュータプログラムの命令を処理するにあたってサーバ150や第2電子機器120が提供するデータを利用して構成されるサービス画面やコンテンツが、入力/出力インタフェース214を通じてディスプレイに表示されるようにしてよい。入力/出力インタフェース224も同様に、サーバ150のプロセッサ222がメモリ221にロードされたコンピュータプログラムの命令を処理するにあたってサーバ150が提供するデータを利用して構成される情報を出力してよい。
【0034】
また、他の実施形態において、第1電子機器110およびサーバ150は、図2の構成要素よりも多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、第1電子機器110は、上述した入力/出力装置215のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、GPS(Global Positioning System)モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。より具体的な例として、第1電子機器110がスマートフォンである場合、一般的にスマートフォンが含んでいる加速度センサやジャイロセンサ、カメラ、物理的な各種ボタン、タッチパネルを利用したボタン、入力/出力ポート、振動のための振動器などのような多様な構成要素が第1電子機器110にさらに含まれるように実現されてよい。
【0035】
以下では、主題別クエリのサブトピック自動抽出および構造化のためのトピック構造化方法、およびトピック構造化システムの具体的な実施形態について説明する。
【0036】
一度のクエリに対して最大限多様な検索結果を提供することで効率的な情報探索ができるようにするためには、トピックの構造化(グループ化および階層化)が必要となる。
【0037】
検索システムがユーザによって入力されたクエリに対して検索結果を提供するときに、検索条件にマッチングされた文書の他に、ユーザの追加探索をサポートする多様な機能も提供する。代表的なものとして、関連検索語、連関タグ、検索語自動完成などが存在する。このような機能は、次のような点で有用性があると考えられる。
【0038】
第1に、ユーザが知りたい情報に関連する明確なクエリ名が分からない場合、クエリを推薦する機能をする。
【0039】
第2に、該当のクエリと関連する詳細な属性/小主題をユーザが間接的に把握できるようにする。
【0040】
しかしながら、「関連」という関係には、次のような問題がある。
【0041】
第1に、「関連」という関係が曖昧であり、該当のクエリとの具体的な関係(例:上/下位概念、類義語、または兄弟概念)が分からない。したがって、提供される検索語やタグの数が多くなれば構造的に整理することが困難となり、ユーザの利用性の観点から、ユーザに提供する検索語やタグの数を減らさざるを得なくなってしまう。
【0042】
第2に、クエリが多意性を有する場合、各意味によって関連する検索語やタグが整理されない状態で提供され、追加探索のサポートに繋がりにくくなってしまう。
【0043】
一方、ショッピングを意図したクエリの場合、ユーザが所望する商品の探索をサポートするために提供される階層情報が存在する。製品のブランド、カラー、値段などのように階層が極めて体系的であるため、迅速かつ効率的な探索のサポートにはなるが、このような情報は各販売会社などが手動で入力した情報であるため拡張性に限界があり、さらにショッピングクエリだけに対して適用される傾向にあるという問題がある。
【0044】
本発明では、ユーザの追加探索をサポートするとともに、該当のクエリと関連する詳細な属性/小主題をユーザが効率的に把握できるようにする機能を果たしながら、上述したような限界を解決することのできるサブトピック自動抽出および構造化技術を提案する。
【0045】
本発明の実施形態に係るトピック構造化システムの核心内容は、次のとおりとなる。
【0046】
(1)トピック構造化システムは、主題別の主要クエリを「メインオブジェクト+サブトピック」にパターン化する。このとき、メインオブジェクトとは、主題を決定する核心オブジェクトを意味し、サブトピックとは、サブオブジェクトと属性のうちの少なくとも1つを含む。サブオブジェクトとは、主題を具体化するオブジェクトを意味し、属性とは、suffixまたはprefixなどとして主題の属性を示す単語を意味する。
【0047】
(2)トピック構造化システムは、サブオブジェクトと属性の意味関係に基づいてパターン化されたクエリを階層化する。図3は、本発明の一実施形態における、パターン化されたクエリを階層化する過程の例を示した図である。図3に示すように、特定の主題のクエリ、すなわち、メインオブジェクト(MainObj)を基準にメインオブジェクト(MainObj)とサブトピック(SubObj、Suffix)を階層化してよい。
【0048】
(3)トピック構造化システムは、階層化されたクエリとサブトピックを検索結果(文書)とともにユーザに提供してよい。このとき、トピック構造化システムは、ユーザが所望する程度(細分化)に応じてサブトピックを適切に構造化して提示することにより、主題に適しながらも該当のクエリと関連する詳細なサブトピックをユーザが効率的に把握することができ、実質的な追加探索のサポートに寄与することができる。
【0049】
図4は、本発明の一実施形態における、サーバのプロセッサが含むことのできる構成要素の例を示した図であり、図5は、本発明の一実施形態における、サーバが実行することのできる方法の例を示したフローチャートである。
【0050】
図4に示すように、サーバ150のプロセッサ222は、構成要素として、抽出部410、精製部420、生成部430、調整部440、および提供部450を含んでよい。このようなプロセッサ222およびプロセッサ222の構成要素は、図5の方法が含む段階510〜550を実行するようにサーバ150を制御してよい。このとき、プロセッサ222およびプロセッサ222の構成要素は、メモリ221が含むオペレーティングシステムのコードと、少なくとも1つのプログラムのコードによる命令(instruction)を実行するように実現されてよい。また、プロセッサ222の構成要素は、オペレーティングシステムや少なくとも1つのプログラムが提供する制御命令にしたがってプロセッサ222によって実行される互いに異なる機能(different functions)の表現であってよい。例えば、プロセッサ222が上述した制御命令にしたがってメインオブジェクトとサブトピックを抽出する機能的表現として抽出部410が使用されてよい。
【0051】
プロセッサ222の構成要素を詳察すれば、次のとおりとなる。
【0052】
抽出部410のMainObj+Suffix Extractor(抽出モジュール)は、主題別にメインオブジェクトおよび属性を抽出する。メインオブジェクトと属性を抽出するためには、自然言語理解(Natural Language Understanding)技術が用いられてよい。
【0053】
抽出部410のSubObj Extractor(抽出モジュール)は、各主題に対してメインオブジェクト+(属性)があるときにサブオブジェクトを抽出する。サブオブジェクトを抽出するためには、多様な統計情報(例えば、クリック数、いいね数、コメント数、作成者数など)や辞書(dictionary)情報などが利用されてよい。
【0054】
精製部420のRanker(Suffix Ranker、SubObj Ranker)モジュールは、メインオブジェクトに対してサブオブジェクトおよび/または属性のランキングを重要度順に決定する。このとき、重要度を決定するために、ユーザからのクリック数、いいね数、コメント数、作成者数などのような多様な情報が活用されてよい。
【0055】
精製部420のPost−Processor(Post−Processor Ranker、Post−Processor Ranker)モジュールは、ランキングが決定されたサブオブジェクトおよび/または属性を受け、類義語やサブストリング(部分文字列)関係に基づいてこれをクラスタリングすることによって各クラスタの代表値を選定する。
【0056】
生成部430のTopicGraphToTreeモジュールは、クラスタリングされたサブオブジェクトおよび/または属性を集め、クエリや文書でどのくらいともに示されるか関係強度を検索した後、これをネットワーク(グラフ)構造で生成した後、ツリー(検索/クラスタ基盤ツリー)に変換するようになる。具体的な検索/クラスタ基盤ツリーについては、以下で説明する。
【0057】
生成部430のTree Constructorモジュールは、辞書基盤ツリーと検索/クラスタ基盤ツリー構造を統合して最終トピックツリー(例えば、2−デプスツリー構造)を構成する。
【0058】
調整部440のTopic rerankerモジュールは、トピックツリーに対してフィルタリング条件(一例として、文書数、主題適合度、正解性など)によって追加でフィルタリングする。
【0059】
調整部440のNew Object Assignerモジュールは、メインオブジェクトと関連する新たなアイテムを抽出してツリー構造に割り当てる。ツリー構造に割り当たらないほどアイテムが新たに増えた場合は、最初からプロセスを行って新たなツリーを構成する。
【0060】
提供部450のDocument Finding APIモジュールは、最終トピックツリーに基づいてクエリを構成して適合文書を抽出する。このとき、フィルタリング機能が含まれてもよい。
【0061】
提供部450のAuto−Taggerモジュールは、最終トピックツリーに基づいてトピックタグを構成して適合文書にタギングする。
【0062】
上述した構成要素を含むプロセッサ222により、図5の方法が含む段階510〜550が実行されてよい。
【0063】
図5において、段階510で、抽出部410は、各主題別に該当の主題を決定する核心オブジェクトであるメインオブジェクトと、該当の主題を具体化するサブトピックを抽出してよい。このとき、抽出部410は、文書上にメインオブジェクトとともに頻繁に登場する単語を分析したり、検索システムでメインオブジェクトとともに検索に頻繁に利用される単語を分析したりすることにより、サブオブジェクトおよび/または属性候補を抽出してよい。
【0064】
段階520で、精製部420は、サブトピックを文書内の出現頻度や検索頻度によってフィルタリングした後、単語同士の関係に基づいてグルーピングを実行してよい。候補フィルタリング過程では、サブオブジェクトおよび/または属性候補のうちの少なくとも一部をフィルタリングして使用してよい。具体的な一例として、精製部420は、文書内の出現頻度およびユーザの検索頻度のうちの少なくとも1つによってサブオブジェクトおよび/または属性をフィルタリングしてよい。また、出現頻度を特定の期間のデータに限定してフィルタリングしてよい。このとき、フィルタリング方法は、主題の特性に応じて異なってよく、例えば、示意性(時宜性)の高い主題であればここ最近の一定期間(例えば、現在から1週間前までの期間)のデータをフィルタリングしてよい。また、精製部420は、候補フィルタリング過程によって選定されたサブオブジェクトおよび/または属性候補を類義語やサブストリング関係などを考慮してグルーピングしてよく、グルーピング後には各グループから代表を選定してよい。代表を選定する方法は多様であってよく、一実施形態としては、検索頻度が最も高いものを代表として選定してよい。言い換えれば、精製部420は、サブトピックを重要度(例えば、文書内の出現頻度や検索頻度など)順にランキングした後、ランキングされたサブトピックを類義語やサブストリング関係によってクラスタリングすることで各クラスタの代表を選定してよい。上述したサブトピックの抽出および精製過程は、候補選定、グルーピング/代表選定過程でなされる。図6は、本発明の一実施形態における、「グアム」および「じゃがいも」というクエリに対し、候補をフィルタリングおよびグルーピングし、代表トピックを選定する過程の一例を示した図である。図6において、WTRIPおよびFOODとは、クエリの主題を示す分類コード(カテゴリ分類コード)であり、単語の横に記載されている数字は、クエリとともに関連して検索された頻度数を示すものである。
【0065】
再び図5において、段階530で、生成部430は、グルーピングされたサブトピックに対し、該当の主題の階層情報を利用してトピックツリーを生成してよい。生成部430は、各グルーピングされたサブトピックを、階層情報を活用して階層の各クラス名に合うようにラベリング(labeling)することによってトピックツリーを生成してよい。主題によっては、階層情報が存在する場合と階層情報が存在しない場合がある。例えば、多様な種類のコンテンツを含んでいるデータベースで構築された辞書情報は、階層情報に有効に活用することのできる情報の1つである。このとき、生成部430は、辞書情報のように予め存在する階層情報がある場合には、これに基づいてトピックツリーを生成してよい。例えば、料理やレシピの主題は、料理百科辞書に基づいて豊富な階層情報が存在する。この反面、旅行やショッピングの主題は、階層情報が存在せず、時期に応じて多様なサブトピックが生成されたり変更されたりする。生成部430は、階層情報が存在しない場合に、単語埋め込み(word embedding)基盤のクラスタリング技法と言語分類学(taxonomy)に基づいて階層情報を構築してトピックツリーの生成に活用してよい。本発明は、階層情報が存在しない場合でも自動的にトピックを階層化することができるという点に長所がある。
【0066】
図7は、本発明の一実施形態における、単語埋め込み基盤のクラスタリング技法と言語分類学を利用して階層情報を構築する過程の一例を説明するためのフローチャートである。図7を参照すると、生成部430は、サブトピックに対して単語埋め込みデータから類似単語を抽出し(S701)、抽出された単語を類義語やサブストリング関係に基づいてクラスタリングした後(S702)、クラスタリングされた単語を言語分類学に基づいてラベリングしてよい(S703)。図8は、旅行の主題に対し、クラスタリングおよび言語分類学を利用して構築した階層情報の一例を示した図である。単語埋め込み基盤のクラスタリング過程S702では、主題別文書(例えば、ブログ掲示文など)として単語埋め込みデータを学習し、このような学習データからクラスタリングが必要なサブトピックのワードベクトル値を把握した後、ワードベクトル値に基づいてクラスタリングを行う。このとき、クラスタリングは、階層的クラスタリング(hierarchical clustering)、K−平均アルゴリズム(K−means algorithm)、密度クラスタリング(density clustering)などのような多様な方法が活用されてよい。また、言語分類学活用過程S703では、クラスタリングされた結果を言語分類学上の各クラスにマッピングすることによってラベリングしてよい。このとき、言語分類学は汎用的であるため、主題に特化された階層情報と比較するときに不必要なクラスが多く存在する。したがって、不必要なクラスを削除する作業が必要となるが、これについては、後述する調整部440のリバランシング(rebalancing)過程で説明する。
【0067】
トピック階層化段階では、クラスタリングされたサブトピックを集め、クエリや文書でどのくらい共に示されるか関係強度を検索してネットワーク(グラフ)構造で生成した後、トピックツリーに変換し(クラスタ基盤ツリー)、辞書基盤で構築されたトピックツリーとクラスタリング基盤で構築されたトピックツリーとを統合して最終ツリー構造を構成してよい。
【0068】
再び図5において、段階540で、調整部440は、生成部430のトピック階層化段階で構築されたトピックツリー対し、ユーザやシステムの目的に応じてリバランシングを実行してよい。また、調整部440は、トピックツリーに対して主題適合度、検索意図、検索結果の量などを考慮して適切にプルーニング(Pruning)を実行してよい。
【0069】
表1は、本発明の一実施形態に係るトピックネットワークの定義を示したものである。
【0070】
(表1)
【0071】
【表1】
生成部430は、検索頻度とクラスタリングを利用して構築した情報を利用してトピックツリーを生成する。先ず、各単語をノード(node)とし、各単語同士の関連関係をエッジ(edge)で示してトピックネットワーク(G)を構築する。本発明の一実施形態に係るトピックネットワーク(G)におけるノード(V)およびエッジ(E)は、表1のように定義されてよい。このとき、生成部430は、検索頻度を考慮してトピックネットワークをトピックツリーに変更する。図9は、本発明の一実施形態によって構築されたトピックネットワークを深さが2であるツリー(2−デプスツリー)に変換する過程の例を示した図である。ネットワークをツリーに変更する方法としては多様なアルゴリズムが存在してよく、例えば、加重値グラフにおける最小全域木(minimum spanning tree)構築アルゴリズムなどが応用されてよい。この後、調整部440は、言語分類学を基盤としたツリーと検索頻度/クラスタリングを基盤としたツリーとを合わせ、ユーザやシステムの目的に応じてリバランシングを実行してよい。図10は、本発明の一実施形態における、ツリーリバランシング過程の一例を説明するためのフローチャートである。図10を参照すると、調整部440は、クラスタリング基盤ツリーでリーフノードに該当するクラスタを辞書基盤ツリーの該当のクラスに挿入してよい(S1001)。トピックツリーの幅(breadth)と深さ(depth)はクエリ別にそれぞれ異なり、ユーザが活用するものとしては概して深さおよび幅の両方の値が大きい傾向にあるため、これを減らす作業が必要となる(S1002〜S1003)。幅と深さを減らす方法は、言語分類学を基盤としたツリーと検索頻度/クラスタリングを基盤としたツリーとを結合する過程からなる。トピックツリーの幅値と深さ値は、システムの必要事項に応じて異なるように設定してよく、本発明の実施形態では深さが2であると仮定する(2 depth tree化)。この後、調整部440は、主題適合度、検索意図、検索結果の量などを考慮してトピックツリーのプルーニングを実行してよい(S1004)。図11は、ツリーリバランシング過程中に幅を減らすためのいくつかの方法を示すものであって、ボトムアップ(bottom−up)ノード移動、および/またはトップダウン(top−down)ノード移動によってトピックツリーの幅を減らしてよい。また、図12は、ツリーリバランシング過程中に深さを減らすためのいくつかの方法を示すものであって、一部のノードを子ノードに交換する方式によってトピックツリーの深さを減らしてよい。
【0072】
再び図5において、段階550で、提供部450は、クエリが属する主題のトピックツリーを利用し、サブトピックを該当のクエリに対応する検索結果とともに提供してよい。このとき、提供部450は、クエリに対する関連検索語としてサブトピックを多様な条件によってフィルタリングした後、検索結果とともに提供してよい。一例として、提供部450は、クエリの主題適合度によってサブトピックをフィルタリングしてよい。検索のためのクエリが与えられると、該当のクエリが属する主題を確認するようになるが、このとき、クエリが複数の主題に属する場合には、与えられた主題に適合しないトピックをフィルタリングする場合がある。このために、クエリとサブトピックの関連性を示す点数である「クエリ+サブトピック」の主題点数を活用してよい。主題点数把握方法としては、テキスト分類(Text categorization)アルゴリズム(例えば、SVM(support vector machine)、kNN(k−Nearest Neighbor)、CNN(Convolutional Neural Networks)など)が利用されてよい。他の例として、提供部450は、サブトピックに対応する文書数を利用してサブトピックをフィルタリングしてよい。検索結果に含まれる文書数が一定の件数以下と少なければ、有用性が低下するため、該当のサブトピックは除外してよい。また他の例として、提供部450は、クエリに対する正解性トピックの有無に応じてサブトピックをフィルタリングしてよい。検索結果として多くの文書を提供するよりも正解性のある情報を提供する方が適切なサブトピックとなる場合(例えば、グアムの天気のように正解性のある情報が求められる場合)、クエリに対する関連検索語として含ませてよい。
【0073】
提供部450は、ユーザが検索のために入力したクエリに対し、関連検索語として該当のクエリと関連する詳細なサブトピック(サブオブジェクトおよび/または属性)を階層形で表示してよい。主題別のトピックツリーは、一定の周期を単位としてアップデートされてよく、主題に応じて該当の主題の特性などを考慮してトピックツリーのアップデート周期が決定されてよい。
【0074】
図13および図14は、本発明の一実施形態における、2デプスのトピック構造が反映された検索結果画面の例を示した図である。例えば、ユーザが入力したクエリに対し、入力クエリに対応する検索結果を提供する過程において、入力クエリに該当する主題の階層情報に基づいて入力クエリの関連検索語としてdepth1のクエリとdepth2のクエリを提供してよい。図13を参照すると、ユーザが検索ウィンドウ1301にクエリ「グアム」を入力した場合、入力クエリに対応する検索結果とともに、該当の主題「グアム」の階層情報に基づき、入力クエリ「グアム」の関連検索語としてdepth1のクエリ1310とdepth2のクエリ1320を提供してよい。このとき、関連検索語として提供されるクエリそれぞれは、ユーザによって選択可能な形態で構成され、ユーザが選択したクエリが検索ウィンドウ1301に自動で追加入力される。図13に示すように、ユーザが初期クエリ「グアム」の関連検索語として提供されるdepth1のクエリ1310のうちから「グルメ店」を選択した場合、検索ウィンドウ1301には「グルメ店」が追加で入力され、「グアム グルメ店」をクエリとしたdepth1の検索結果1302が表示されてよい。次に、図14に示すように、ユーザがdepth2のクエリ1320のうちからクエリ「手作りハンバーガー」を選択した場合、検索ウィンドウ1301には「手作りハンバーガー」が追加で入力され、「グアム グルメ店 手作りハンバーガー」をクエリとしたdepth2の検索結果1402が表示されてよい。
【0075】
このように、本発明の実施形態によると、検索結果(文書)を階層構造のトピックとともに提供することによって効率的な追加探索をサポートし、一度のクエリとして最大限多様な検索結果を提供することができる。さらに、階層化されたトピック構造を検索ランキングに活用することもできる。言い換えれば、サブオブジェクトおよび属性が含まれた文書は、相対的に高品質の文書である可能性が高いため、検索ランキング時にこのような文書をブースティングするのに活用することができる。
【0076】
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)および前記OS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理、および生成してよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでもよい。また、並列プロセッサのような、他の処理構成も可能である。
【0077】
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、所望の動作をするように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ格納媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータで読み取り可能な記録媒体に格納されてよい。
【0078】
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータで読み取り可能な媒体に記録されてよい。このとき、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合された形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピーディスク、および磁気テープのような磁気媒体、CD−ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体も挙げられる。
【0079】
以上のように、実施形態を、限定された実施形態と図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
【0080】
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付の特許請求の範囲に属する。
【符号の説明】
【0081】
222:プロセッサ
410:抽出部
420:精製部
430:生成部
440:調整部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
【手続補正書】
【提出日】2019年10月4日
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピュータが実現するトピック構造化方法であって、
主題別に前記主題と関連するサブトピックを抽出する段階、
前記サブトピックに対して前記主題の階層情報を利用してトピックツリーを生成する段階、および
検索のためのクエリが与えられると、前記クエリが属する主題のトピックツリーに基づき、前記クエリに対する関連検索語として前記サブトピックを階層形で提供する段階
を含み、
前記生成する段階は、
前記サブトピックに該当する各単語をノードとし、単語同士の関連関係をエッジとして示すトピックネットワークを構築する段階、および
検索頻度を考慮して前記トピックネットワークをツリー構造に変更することにより、前記トピックツリーを生成する段階
を含む、トピック構造化方法。
【請求項2】
前記抽出する段階は、
前記主題を決定する核心オブジェクトと関連する単語を分析して前記サブトピックを抽出すること
を特徴とする、請求項1に記載のトピック構造化方法。
【請求項3】
前記サブトピックを文書出現頻度と検索頻度のうちの少なくとも1つによってフィルタリングする段階
をさらに含む、請求項1に記載のトピック構造化方法。
【請求項4】
前記サブトピックを類義語またはサブストリング関係によってクラスタリングして各クラスタの代表を選定する段階
をさらに含む、請求項1に記載のトピック構造化方法。
【請求項5】
前記生成する段階は、
前記サブトピックを前記階層情報の各クラス名にラベリングして前記トピックツリーを生成すること
を特徴とする、請求項1に記載のトピック構造化方法。
【請求項6】
前記生成する段階は、
前記サブトピックに対して単語埋め込みデータから類似単語を抽出する段階、
前記類似単語を類義語またはサブストリング関係によってクラスタリングする段階、および
前記クラスタリングされた単語を言語分類学上の各クラスにマッピングすることによってラベリングする段階
を含む、請求項1に記載のトピック構造化方法。
【請求項7】
前記トピックツリーの幅と深さのうちの少なくとも1つを減らして前記トピックツリーに対するリバランシングを実行する段階
をさらに含む、請求項1に記載のトピック構造化方法。
【請求項8】
前記提供する段階は、
前記クエリと前記サブトピックの関連性を示す主題点数と、前記サブトピックに対応する文書数、および前記クエリに対する正解性トピックのうちの少なくとも1つの条件によって前記サブトピックをフィルタリングする段階
を含む、請求項1に記載のトピック構造化方法。
【請求項9】
コンピュータが実現する検索結果提供方法であって、
検索のためのクエリが与えられると、前記クエリに対応する検索結果を提供する段階、
前記クエリが属する主題の階層情報に基づき、前記クエリに対する関連検索語として前記主題と関連するサブトピックを複数のデプスを有する階層形で提供する段階、および
前記サブトピックのうちの少なくとも1つの検索語が選択される場合、前記選択された検索語を含んだ前記クエリに対応する検索結果を提供する段階
を含み、
前記主題と関連するサブトピックを複数のデプスを有する階層形で提供する段階は、
前記サブトピックに対し、前記主題の階層情報を利用してトピックツリーを生成する段階、および
前記トピックツリーによって前記サブトピックを階層形で提供する段階
を含み、
前記生成する段階は、
前記サブトピックに該当する各単語をノードとし、単語同士の関連関係をエッジとして示すトピックネットワークを構築する段階、および
検索頻度を考慮して前記トピックネットワークをツリー構造に変更することにより、前記トピックツリーを生成する段階
を含む、検索結果提供方法。
【請求項10】
コンピュータシステムと結合してトピック構造化方法を実行させるためにコンピュータ読み取り可能な記録媒体に記録されたコンピュータプログラムであって、
前記トピック構造化方法は、
主題別に前記主題と関連するサブトピックを抽出する段階、
前記サブトピックに対して前記主題の階層情報を利用してトピックツリーを生成する段階、および
検索のためのクエリが与えられると、前記クエリが属する主題のトピックツリーに基づき、前記クエリに対する関連検索語として前記サブトピックを階層形で提供する段階
を含み、
前記生成する段階は、
前記サブトピックに該当する各単語をノードとし、単語同士の関連関係をエッジとして示すトピックネットワークを構築する段階、および
検索頻度を考慮して前記トピックネットワークをツリー構造に変更することにより、前記トピックツリーを生成する段階
を含む、コンピュータプログラム。
【請求項11】
コンピュータが実現するトピック構造化システムであって、
コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
主題別に前記主題と関連するサブトピックを抽出する抽出部、
前記サブトピックに対して前記主題の階層情報を利用してトピックツリーを生成する生成部、および
検索のためのクエリが与えられると、前記クエリが属する主題のトピックツリーに基づき、前記クエリに対する関連検索語として前記サブトピックを階層形で提供する提供部
を備え
前記生成部は、
前記サブトピックに該当する各単語をノードとし、単語同士の関連関係をエッジとして示すトピックネットワークを構築した後、検索頻度を考慮して前記トピックネットワークをツリー構造に変更することにより、前記トピックツリーを生成する、
トピック構造化システム。
【国際調査報告】