【解決手段】 同義語抽出方法は、対象キーワードに対して前記対象キーワードと関連するキーワードリストを抽出する段階、および音訳モデルを利用してキーワードリストから対象キーワードの原語表記に該当する同義語を抽出する段階を含む。
【発明の概要】
【発明が解決しようとする課題】
【0006】
商品情報から抽出されたキーワードに対し、キーワード間の関係を示すマルチグラフ構造を構築することができ、外来語の場合には、同義語として原語表記を自動抽出してマルチグラフに追加することができる方法およびシステムを提供する。
【0007】
外来語に対し、音訳モデル(transliteration model)を利用して商品名や商品関連クエリに出現する単語から該当の外来語の原語表記を抽出し、同義語として処理することができる方法およびシステムを提供する。
【課題を解決するための手段】
【0008】
コンピュータシステムが実行する同義語抽出方法であって、前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、当該同義語抽出方法は、前記少なくとも1つのプロセッサにより、対象キーワードに対し、前記対象キーワードと関連するキーワードリストを抽出する段階、および前記少なくとも1つのプロセッサにより、音訳モデル(transliteration model)を利用して前記キーワードリストから前記対象キーワードの原語表記に該当する同義語を抽出する段階を含む、同義語抽出方法を提供する。
【0009】
一側面によると、前記キーワードリストを抽出する段階は、前記対象キーワードを検索クエリとして入力した後にクリックした商品名リスト、各クリック商品と関連する他のクエリリスト、各クリック商品と関連するタグリストのうちの少なくとも1つを抽出してよい。
【0010】
他の側面によると、前記同義語を抽出する段階は、発音の最小単位を利用した音訳モデルを利用して前記同義語を抽出してよい。
【0011】
また他の側面によると、前記同義語を抽出する段階は、リンク型バイグラム(LBG:linked bi−gramed)のデータ形式を利用して前記対象キーワードを発音の最小単位に分離する段階を含んでよい。
【0012】
また他の側面によると、前記同義語を抽出する段階は、前記音訳モデルを利用して前記キーワードリストから抽出された単語のうちから、前記対象キーワードとマッチングする単語を前記同義語として抽出する段階を含んでよい。
【0013】
また他の側面によると、前記同義語を抽出する段階は、前記対象キーワードに対して前記マッチングする単語を置換して同義語候補を抽出する段階をさらに含んでよい。
【0014】
また他の側面によると、前記同義語を抽出する段階は、前記キーワードリストから特定言語の単語を抽出する段階をさらに含んでよい。
【0015】
また他の側面によると、前記同義語を抽出する段階は、前記対象キーワードが複合語からなる場合、単一語に分離する段階をさらに含んでよい。
【0016】
また他の側面によると、前記同義語を抽出する段階は、前記対象キーワードを検索クエリとして入力した後にクリックした商品名リスト、各クリック商品と関連する他のクエリリスト、各クリック商品と関連するタグリストのうちの少なくとも1つを利用して前記同義語を検証する段階をさらに含んでよい。
【0017】
また他の側面によると、前記同義語を抽出する段階は、前記対象キーワードを検索クエリとして入力した後にクリックした商品名リスト、各クリック商品と関連する他のクエリリスト、各クリック商品と関連するタグリストのうちの少なくとも1つに前記対象キーワードとマッチングする単語が出現するか否か、または出現する頻度に基づいて前記同義語を決定する段階をさらに含んでよい。
【0018】
また他の側面によると、前記同義語抽出方法は、前記少なくとも1つのプロセッサにより、商品辞書上のキーワード間の関係を示すマルチグラフを生成する段階、および前記少なくとも1つのプロセッサにより、前記同義語を前記マルチグラフに追加登録する段階をさらに含んでよい。
【0019】
また他の側面によると、前記生成する段階は、前記商品辞書に含まれる各商品別に、該当の商品とマッチングする商品情報をキーワードに変換する段階、および前記商品辞書から前記商品とマッチングする情報間の関係データをキーワード間の関係データとして抽出する段階を含んでよい。
【0020】
さらに他の側面によると、前記追加登録する段階は、前記マルチグラフ上に前記対象キーワードと前記同義語との関係を追加するか、あるいは前記マルチグラフ上のキーワードのうちで前記対象キーワードを検索クエリとして入力した後にクリックした商品名リスト、各クリック商品と関連する他のクエリリスト、各クリック商品と関連するタグリストのうちの少なくとも1つに前記同義語とともに出現するキーワード間の関係を追加してよい。
【0021】
前記同義語抽出方法をコンピュータに実行させるためのプログラムを提供する。
【0022】
コンピュータシステムであって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、対象キーワードに対し、前記対象キーワードと関連するキーワードリストを抽出した後、音訳モデルを利用して前記キーワードリストから前記対象キーワードの原語表記に該当する同義語を抽出する同義語抽出部を備える、コンピュータシステムを提供する。
【発明の効果】
【0023】
本発明の実施形態によると、商品情報から抽出されたキーワードに対し、キーワード間の関係を示すマルチグラフ構造を構築することができ、外来語の場合には、同義語として原語表記を自動抽出してマルチグラフに追加することができる。
【0024】
本発明の実施形態によると、外来語に対して音訳モデルを利用して商品名や商品関連クエリに出現する単語から該当の外来語の原語表記を抽出し、同義語として処理することができる。
【発明を実施するための形態】
【0026】
以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。
【0027】
本発明の実施形態は、外来語の原語表記を同義語として自動抽出する技術に関する。
【0028】
本明細書において具体的に開示される事項を含む実施形態は、外来語の原語表記を自動抽出して同義語として処理することができ、これによってキーワード管理の自動化、作業リソースの減少、サービス品質の改善、サービス拡大などの側面において相当な長所を達成することができる。
【0029】
図1は、本発明の一実施形態における、ネットワーク環境の例を示した図である。
図1のネットワーク環境は、複数の電子機器110、120、130、140、複数のサーバ150、160、およびネットワーク170を含む例を示している。このような
図1は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が
図1のように限定されることはない。
【0030】
複数の電子機器110、120、130、140は、コンピュータシステムによって実現される固定端末や移動端末であってよい。複数の電子機器110、120、130、140の例としては、スマートフォン、携帯電話、ナビゲーション、PC(personal computer)、ノート型PC、デジタル放送用端末、PDA(Personal Digital Assistant)、PMP(Portable Multimedia Player)、タブレット、ゲームコンソール、ウェアラブルデバイス、IoT(internet of things)デバイス、VR(virtual reality)デバイス、AR(augmented reality)デバイスなどがある。一例として、
図1では、電子機器110の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器110は、実質的に無線または有線通信方式を利用し、ネットワーク170を介して他の電子機器120、130、140および/またはサーバ150、160と通信することのできる多様な物理的なコンピュータシステムのうちの1つを意味してよい。
【0031】
通信方式が限定されることはなく、ネットワーク170が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網、衛星網など)を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク170は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク170は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター−バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。
【0032】
サーバ150、160それぞれは、複数の電子機器110、120、130、140とネットワーク170を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する1つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ150は、ネットワーク170を介して接続した複数の電子機器110、120、130、140に第1サービスを提供するシステムであってよく、サーバ160も、ネットワーク170を介して接続した複数の電子機器110、120、130、140に第2サービスを提供するシステムであってよい。より具体的な例として、サーバ150は、複数の電子機器110、120、130、140においてインストールされて実行されるコンピュータプログラムであるアプリケーションを通じ、該当のアプリケーションが目的とするサービス(一例として、キーワード管理サービスなど)を第1サービスとして複数の電子機器110、120、130、140に提供してよい。他の例として、サーバ160は、上述したアプリケーションのインストールおよび実行のためのファイルを複数の電子機器110、120、130、140に配布するサービスを第2サービスとして提供してよい。
【0033】
図2は、本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。
図2では、電子機器に対する例として電子機器110の内部構成およびサーバ150の内部構成について説明する。また、他の電子機器120、130、140やサーバ160も、上述した電子機器110またはサーバ150と同一または類似の内部構成を有してよい。
【0034】
電子機器110およびサーバ150は、メモリ211、221、プロセッサ212、222、通信モジュール213、223、および入力/出力インタフェース214、224を含んでよい。メモリ211、221は、非一時的なコンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、ディスクドライブ、SSD(solid state drive)、フラッシュメモリ(flash memory)などのような永続的大容量記録装置を含んでよい。ここで、ROM、SSD、フラッシュメモリ、ディスクドライブのような永続的大容量記録装置は、メモリ211、221とは区分される別の永続的記録装置として電子機器110やサーバ150に含まれてもよい。また、メモリ211、221には、オペレーティングシステムと、少なくとも1つのプログラムコード(一例として、電子機器110においてインストールされて実行されるブラウザや特定のサービスの提供のために電子機器110にインストールされるアプリケーションなどのためのコード)が記録されてよい。このようなソフトウェア構成要素は、メモリ211、221とは別のコンピュータ読み取り可能な記録媒体からロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD−ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信モジュール213、223を通じてメモリ211、221にロードされてもよい。例えば、少なくとも1つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システム(一例として、上述したサーバ160)がネットワーク170を介して提供するファイルによってインストールされるコンピュータプログラム(一例として、上述したアプリケーション)に基づいてメモリ211、221にロードされてよい。
【0035】
プロセッサ212、222は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ211、221または通信モジュール213、223によって、プロセッサ212、222に提供されてよい。例えば、プロセッサ212、222は、メモリ211、221のような記録装置に記録されたプログラムコードに従って受信される命令を実行するように構成されてよい。
【0036】
通信モジュール213、223は、ネットワーク170を介して電子機器110とサーバ150とが互いに通信するための機能を提供してもよいし、電子機器110および/またはサーバ150が他の電子機器(一例として、電子機器120)または他のサーバ(一例として、サーバ160)と通信するための機能を提供してもよい。一例として、電子機器110のプロセッサ212がメモリ211のような記録装置に記録されたプログラムコードに従って生成した要求が、通信モジュール213の制御に従ってネットワーク170を介してサーバ150に伝達されてよい。これとは逆に、サーバ150のプロセッサ222の制御に従って提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール223とネットワーク170を経て電子機器110の通信モジュール213を通じて電子機器110に受信されてよい。例えば、通信モジュール213を通じて受信されたサーバ150の制御信号や命令、コンテンツ、ファイルなどは、プロセッサ212やメモリ211に伝達されてよく、コンテンツやファイルなどは、電子機器110がさらに含むことのできる記録媒体(上述した永続的記録装置)に記録されてよい。
【0037】
入力/出力インタフェース214は、入力/出力装置215とのインタフェースのための手段であってよい。例えば、入力装置は、キーボード、マウス、マイクロフォン、カメラなどの装置を、出力装置は、ディスプレイ、スピーカ、触覚フィードバックデバイスなどのような装置を含んでよい。他の例として、入力/出力インタフェース214は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置215は、電子機器110と1つの装置で構成されてもよい。また、サーバ150の入力/出力インタフェース224は、サーバ150に接続するかサーバ150が含むことのできる入力または出力のための装置(図示せず)とのインタフェースのための手段であってよい。より具体的な例として、電子機器110のプロセッサ212がメモリ211にロードされたコンピュータプログラムの命令を処理するにあたり、サーバ150や電子機器120が提供するデータを利用して構成されるサービス画面やコンテンツが、入力/出力インタフェース214を通じてディスプレイに表示されてよい。
【0038】
また、他の実施形態において、電子機器110およびサーバ150は、
図2の構成要素よりも多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、電子機器110は、上述した入力/出力装置215のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、GPS(Global Positioning System)モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。より具体的な例として、電子機器110がスマートフォンである場合、一般的にスマートフォンが含んでいる加速度センサやジャイロセンサ、カメラモジュール、物理的な各種ボタン、タッチパネルを利用したボタン、入力/出力ポート、振動のための振動器などのような多様な構成要素が、電子機器110にさらに含まれるように実現されてよい。
【0039】
以下では、音訳モデルを利用した同義語抽出方法およびシステムの具体的な実施形態について説明する。
【0040】
図3は、本発明の一実施形態における、サーバのプロセッサが含むことのできる構成要素の例を示したブロック図であり、
図4は、本発明の一実施形態における、サーバが実行することのできる方法の例を示したフローチャートである。
【0041】
本実施形態に係るサーバ150は、インターネット上で使用されるキーワードを管理するサービスを提供するプラットフォームの役割を担う。特に、サーバ150は、商品辞書に含まれる各商品に対して関連キーワード間の関係を示すマルチグラフ構造を構築してよく、商品辞書に含まれる外来語の場合は、原語表記を自動抽出してマルチグラフに同義語として追加してよい。
【0042】
サーバ150のプロセッサ222は、
図4に示される同義語抽出方法を実行するための構成要素として、
図3に示すように、グラフ生成部310、同義語抽出部320、および同義語追加部330を備えてよい。実施形態によって、プロセッサ222の構成要素は、選択的にプロセッサ222に含まれても除外されてもよい。また、実施形態によって、プロセッサ222の構成要素は、プロセッサ222の機能の表現のために分離されても併合されてもよい。
【0043】
このようなプロセッサ222およびプロセッサ222の構成要素は、
図4の同義語抽出方法に含まれる段階410〜段階430を実行するようにサーバ150を制御してよい。例えば、プロセッサ222およびプロセッサ222の構成要素は、メモリ221が含むオペレーティングシステムのコードと、少なくとも1つのプログラムのコードとによる命令(instruction)を実行するように実現されてよい。
【0044】
ここで、プロセッサ222の構成要素は、サーバ150に記録されたプログラムコードが提供する命令に従ってプロセッサ222によって実行される、プロセッサ222の互いに異なる機能(different functions)の表現であってよい。例えば、サーバ150がキーワード間の関係を示すマルチグラフを生成するように上述した命令に従ってサーバ150を制御するプロセッサ222の機能的表現として、グラフ生成部310が利用されてよい。
【0045】
プロセッサ222は、サーバ150の制御と関連する命令がロードされたメモリ221から必要な命令を読み取ってよい。この場合、読み取られた命令は、以下で説明する段階410〜段階430をプロセッサ222が実行するように制御するための命令を含んでよい。
【0046】
段階410において、グラフ生成部310は、商品辞書に含まれる各商品に対し、商品情報から抽出されたキーワードとの関係を示すマルチグラフを生成してよい。商品辞書とは、キーワードを管理するためのデータベースシステムであって、キーワード、辞書類型、同義語集合で構成されてよい。商品辞書には、各商品別に、該当の商品とマッチングされる販売先、ブランド、カテゴリ、属性などの商品情報を含んでよい。
【0047】
上述した商品辞書は、商品管理(商品ブランド自動マッチング、商品カテゴリ自動マッチング、商品品質チェックなど)、ショッピング、検索、キーワード自動完成、タグ辞書、広告、ストア、NLU(自然言語理解)、AI(人工知能)などのような各種サービスで適用可能である。
【0048】
例えば、
図5に示すように、商品辞書500が、販売先510、ブランド520、カテゴリ530に区分されると仮定するとき、このような商品辞書500から販売先−ブランド、ブランド−カテゴリ、カテゴリ−販売先の関係データを抽出してよい。
【0049】
図6に示すように、グラフ生成部310は、販売先IDがS1であり、ブランドIDがB1であり、カテゴリIDがC1である商品Aに対し、該当の商品にマッチングされた販売者名称「ABC」、ブランド名称「DEF」、カテゴリ名称「GHI」をそれぞれキーワードに変換してよい。グラフ生成部310は、商品Aに対し、商品Aにマッチングされる商品情報をキーワード「ABC」、「DEF」、「GHI」に変換した後、変換されたキーワード間の関係を示すマルチグラフを生成してよい。グラフ生成部310は、商品辞書から商品にマッチングされた情報間の関係データを該当の情報に変換されたキーワード間の関係データとして抽出し、マルチグラフを生成してよい。
【0050】
図7を参照すると、グラフ生成部310は、キーワード「ABC」と「DEF」の間は販売先−ブランドという連結関係で、キーワード「DEF」と「GHI」の間はブランド−カテゴリという連結関係で、キーワード「ABC」と「GHI」の間は販売先−カテゴリという連結関係で生成されたマルチグラフ700を構築してよい。
【0051】
マルチグラフ700は、キーワード間の関係が、単一デプス(depth)のツリー構造はもちろん、複数のデプスを有するツリー構造で構築されてもよい。例えば、同一ブランド内の多数のシリーズ、すなわち、サブブランドが存在する場合は、ブランド−シリーズという連結関係が追加されてよい。
【0052】
上述したように、グラフ生成部310は、キーワード間の関係データを蓄積してデータベースを生成してよく、これをキーワード間の関係を示すマルチグラフ700構造として定義してよい。
【0053】
再び
図4において、段階420において、同義語抽出部320は、商品辞書に含まれるキーワードのうちの外来語に対し、音訳モデルを利用して商品名や商品関連クエリから該当の外来語の原語表記を同義語として抽出してよい。
【0054】
ショッピングなどで使用される単語の一部には、英語やフランス語、イタリア語、ドイツ語などのような多様な外国語から同化された外来語が含まれることがある。
【0055】
このような外来語の場合、単語の出処(すなわち、国)を特定し難いという問題がある。例えば、「Chanel」の場合、英語で発音すれば「チャンネル」や「チャネル」などと音訳されるし、フランス語で発音すれば「シャネル」や「シャノル」、「シャヌル」などと音訳される。
【0056】
キーワード「Chanel」を使用するためには、多国の発音をすべて収容することのできる音訳範囲(transliteration coverage)が必要となる。
【0057】
ディープラーニング(deep learning)を基盤として音訳を支援する学習モデルも存在するが、従来の学習モデルはモデル自体が重いだけなく、多様な国の発音を一度に支援することができない。英語であれば英語学習データが、フランス語であればフランス語の学習データが必要となるため、各言語の音訳プロセッシング(processing)を経なければならないという限界がある。
【0058】
これに比べ、本実施形態では、MWS(minimal word by sound)単位の音訳モデルを利用することによって外来語に対する同義語を抽出する。従来の学習モデルとは異なり、MWSは、学習データを最小にすることができ、多国語の発音まで1つの音訳プロセッシングで処理することができる。
【0059】
MWSとは、音節(syllable)とは異なる概念であって、発音の最小単位を意味する。表1は、単語例「happy」を音節とMWSに分けて示したものである。
【0061】
国ごと、言語ごと、人ごとに、同じ単語であっても多様な発音により、最小単位で表現することがある。表2は、単語例「happy」のMWSをハングルで表記したものである。
【0063】
ハングルを初声、中声、終声の次元的な区分から見るとき、ベクトル数値文字で表現してよい。例えば、ハングルの基本数値情報は、
図8のテーブルのとおりとなる。
【0064】
単語をMWSによって簡単に分離するためには、LBG(linked bi−gramed)のデータ形式を利用してよい。
【0067】
一例として、
図10に示すように、商品辞書で英文単語とハングル発音表記とのペアで構成された学習データセット1001を収集した後、MWS単位の分離学習によってMWSデータセット1002を抽出してよい。
【0068】
以下、音訳プロセッシング過程について説明する。
【0069】
図11および
図12は、英文単語「naver」(登録商標)に対する音訳プロセッシング過程を示している。
【0070】
プロセッサ222は、英文単語「naver」を、MWSによって分離可能なすべての場合の候補群に分離してよい(S1)。
【0071】
プロセッサ222は、段階S1で分離された候補群から、事前に構築されたMWSデータセット1002に存在するMWSを抽出してよい(S2)。
【0072】
プロセッサ222は、段階S1で分離された各候補群に、段階S2で抽出されたMWSをマッピングしてよい(S3)。
【0073】
プロセッサ222は、段階S3でマッピングされたMWSを互いに連結して併合してよい(S4)。このとき、候補群のうちの1つでもMWSデータセット1002に存在しない場合は、該当の候補群は除外してよい。
【0074】
プロセッサ222は、段階S4で併合されたMWSを音訳してよい(S5)。言い換えれば、プロセッサ222は、併合されたMWSにマッピングされたハングルベクトルをデコードすることにより、英文単語の音訳を取得してよい。
図12のS5過程の結果において、カッコの内の数字は、該当のハングル単語が
図10のMWS学習データセットから抽出された個数を意味してよく、必要時には、同義語を多様に抽出することのできる基礎として活用してよい。
【0075】
音訳プロセッシング結果の一例を下記のように示すが、これに限定されることはない。
【0077】
英文同義語を例とする一実施形態として、音訳モデルを経ることのできなかったハングル単語と英文同義語を収集し、従来の商品辞書から抽出されたMWSデータセットと共通するデータセットを抽出した後、最終MWSデータセットと併合させて適用してもよい。
【0078】
同義語抽出部320は、上述した音訳プロセッシングを経ることで、商品辞書に含まれる外来語に対して原語表記の同義語を抽出してよい。
【0079】
以下では、ハングルで表記された外来語の英語表記、すなわち、英文同義語を例として具体的な実施形態について説明する。
【0080】
同義語抽出部320は、商品辞書に含まれるキーワードのうちで外来語を対象キーワードとし、各対象キーワードに対して対象キーワードを検索クエリとして入力したユーザがクリックした商品名リスト、各クリック商品と関連するタグリスト、および各クリック商品と関連する他のクエリリスト(一例として、同一商品をクリックした他のユーザによって入力されたクエリ、同一ユーザが同一商品をクリックする前に入力した他のクエリなど)のうちの少なくとも1つのキーワードリストを抽出してよい。本明細書において、クリックとは、ユーザによるすべての類型の選択入力を意味してよい。
図13は、対象キーワード
と関連するクリック商品名リスト1311と、
と関連するクリック商品名リスト1321を例示的に示している。
【0082】
同義語抽出部320は、対象キーワードに対して抽出されたクリック商品名リストとクリック商品関連タグリスト、およびクエリリストのうちの少なくとも1つのキーワードリストから特定の言語の単語、すなわち、英文単語を抽出してよい。
【0083】
図14は、対象キーワード
と関連するクリック商品名リスト1311から抽出された英文単語リスト1411と、
と関連するクリック商品名リスト1321から抽出された英文単語リスト1421を例示的に示している(なお、
図14において、uniqloおよびエアリズム(airism)は登録商標である(他の図面においても同様))。
【0084】
同義語抽出部320は、音訳モデルを実行させ、先立って抽出された英文単語リストのうちから対象キーワードとマッチングする英文単語を抽出してよい。
【0085】
図15は、対象キーワード
と英文単語リスト1411とのマッチング結果1511と、対象キーワード
と英文単語リスト1421とのマッチング結果1521を例示的に示している。
【0086】
同義語抽出部320は、対象キーワードに対してマッチングされた英文単語を置換して英文同義語候補を抽出してよい。
【0087】
図16は、対象キーワード
に対する英文同義語候補1611と、
に対する英文同義語候補1621を示している。
【0088】
同義語抽出部320は、対象キーワードと関連するクリック商品名リストとクリック商品関連タグ/クエリリストに英文同義語候補が出現するか否か、あるいは出現する頻度などに基づいて最終英文同義語を決定してよい。同義語抽出部320は、英文同義語候補の単語が対象キーワードと関連するクリック商品名リストとクリック商品関連タグ/クエリリストに出現するパターンと一致する場合に最終英文同義語として決定してよく、あるいは英文同義語候補が複数であるときには、対象キーワードと関連するクリック商品名リストとクリック商品関連タグ/クエリリストで最も多く出現するパターンの単語を最終英文同義語として決定してよい。言い換えれば、同義語抽出部320は、対象キーワードと関連するクリック商品名リストとクリック商品関連タグ/クエリリストを利用することにより、対象キーワードの原語表記である英文同義語を検証することが可能となる。
【0089】
再び
図4において、段階430において、同義語追加部330は、外来語の原語表記を同義語としてマルチグラフ上に追加登録してよい。このとき、マルチグラフ上の従来のキーワードと同義語との関係を設定してよい。
【0090】
図17を参照すると、キーワード「ABC」と「DEF」との間が販売先−ブランドという連結関係、キーワード「DEF」と「GHI」との間がブランド−カテゴリという連結関係、キーワード「ABC」と「GHI」との間が販売先−カテゴリという連結関係で生成されたマルチグラフ700において、販売者名称「ABC」が外来語に該当する場合、マルチグラフ700上に外来語「ABC」の原語表記「XXX」を同義語1701として追加し、キーワード「ABC」と「XXX」との間に同義語関係を設定してよい。
【0091】
また、マルチグラフ700上のキーワードのうち、対象キーワード「ABC」と関連するクリック商品名リストとクリック商品関連タグ/クエリリストに同義語1701とともに出現するキーワードとの関係を追加設定してよい。
【0092】
したがって、本実施形態では、商品辞書に登録された外来語に対して原語表記の同義語を見つけ出し、自動登録することが可能となる。
【0093】
上述した方式を利用して商品辞書に登録されたキーワードに対して原語表記のキーワードを同義語として抽出してマルチグラフ上に追加登録することにより、キーワード間の同義語処理を解決しながら、マルチグラフを自動で拡張することが可能となる。
【0094】
音訳モデルを利用して外来語の原語表記を同義語として自動処理することにより、キーワード管理作業の自動化を実現し、関連作業のリソースを画期的に減らすことができる。
【0095】
上述では、音訳モデルを利用した同義語処理過程がマルチグラフを生成する過程の後になされる従属する過程として説明しているが、これに限定されることはなく、実施形態によっては、マルチグラフとは関係なく、個別の独立した過程として実行されることも可能である。
【0096】
このように、本発明の実施形態によると、商品情報から抽出されたキーワードに対し、キーワード間の関係を示すマルチグラフ構造を構築することができ、外来語の場合には、同義語として原語表記を自動抽出してマルチグラフに追加することができる。さらに、本発明の実施形態によると、外来語に対して音訳モデルを利用して商品名や商品関連クエリに出現する単語から該当の外来語の原語表記を抽出し、同義語として処理することができる。
【0097】
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
【0098】
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてもよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。
【0099】
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例は、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD−ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。
【0100】
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって代替されたり置換されたとしても、適切な結果を達成することができる。
【0101】
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。