(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0023】
以下、図面と実施例を参照しつつ、本発明をより詳細に説明する。ここに記載する具体的な実施形態が単に関連する発明を説明するためのものに過ぎず、当該発明への限定ではないことは、言うまでもない。また、注意すべきは、理解し易くするために、図面においては発明に関連する部分しか示されていない。
【0024】
注意すべきは、矛盾を生じない限り、本発明における実施例と実施形態における特徴は相互に組み合わせることができる。以下、図面を参照しつつ、実施例を踏まえて、本発明を詳しく説明する。
【0025】
図1は本発明のインターネットテキストマイニングに基づく関心地点の有効性の判断方法またはインターネットテキストマイニングに基づく関心地点の有効性の判断装置を適用できる実施例の例示的なシステムアーキテクチャ100を示している。
【0026】
図1に示すように、システムアーキテクチャ100は、端末装置101,102,103、ネットワーク104及びサーバ105を含み得る。ネットワーク104は、端末装置101,102,103とサーバ105の間で通信リンクの媒体を提供する。ネットワーク104は、有線、無線通信リンク、光ファイバケーブルなどの様々な種類の接続を含み得る。
【0027】
端末装置101,102,103は、ハードウェアでも、ソフトウェアであってもよい。端末装置101,102,103は、ハードウェアである場合、ディスプレイを備える様々な電子機器であってもよく、スマートフォン、タブレット、電子書籍リーダー、MP3(Moving Picture Experts Group Audio Layer III,ムービングピクチャーエクスパーツグループオーディオレイヤー3)プレーヤ、MP4(Moving Picture Experts Group Audio Layer IV,ムービングピクチャーエクスパーツグループオーディオレイヤー4)プレーヤ、ラップトップコンピュータおよびデスクトップコンピュータなどを含むが、それらに限定されない。端末装置101,102,103はソフトウェアである場合、上記の電子機器にインストールすることができる。それは、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散型サービスを提供するための複数のソフトウェアまたはソフトウェアモジュール)となってもよく、単一のソフトウェアまたはソフトウェアモジュールとなってもよい。ここでは具体的に限定しない。
【0028】
サーバ105は、様々なサービスを提供するサーバ、例えば、端末装置101,102,103を使用するユーザにナビゲーションサービスを提供可能なナビゲーションサーバであり得る。ナビゲーションサーバは、受信したユーザのナビゲーション先などのデータを解析し、処理結果(例えば、解析結果に基づいて確定された該ナビゲーション先が示すPOIが有効であるか否かを示す情報)を端末装置にフィードバックすることができる。
【0029】
なお、本発明の実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法は、サーバ104によって実行されてもよい。したがって、インターネットテキストマイニングに基づく関心地点の有効性の判断装置は、サーバ104に設けられてもよい。
【0030】
図1の端末装置101,102,103、ネットワーク104、およびサーバ105の数は単なる例示であることを理解されたい。必要に応じて、端末装置、ネットワーク、およびサーバの数を任意に加減してもよい。
【0031】
引き続き
図2を参照すると、本発明の実施形態に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法の一実施形態のフロー200が示されている。該インターネットテキストマイニングに基づく関心地点の有効性の判断方法は、以下のステップを含む。
【0032】
ステップ201:検出すべき関心地点を示すための検索ワード集合を確定する。
【0033】
検出すべきPOIは、地図アプリケーションまたはナビゲーションアプリケーションにおける任意のPOIであり得る。
【0034】
いくつかの任意選択実施形態では、地図アプリケーションまたはナビゲーションアプリケーションのサービスプロバイダは、地図および/またはナビゲーションサービスを提供できるPOIの名称および関連情報を格納できるPOIデータベースを維持することができる。
【0035】
これらの任意選択実施形態のいくつかの適用シナリオでは、地図アプリケーションまたはナビゲーションアプリケーションのサービスプロバイダは、それによって提供されるPOIの正確度を向上させるために、定期的に(例えば、所定の時間間隔で)または不定期的にPOIデータベース内のPOIステータスを更新することができる。
【0036】
これらの適用シナリオでは、検出すべき関心地点は、POIデータベース内の現在更新され確認される必要がある任意のPOIであり得る。
【0037】
または、他の適用シナリオでは、地図アプリケーションまたはナビゲーションアプリケーションを使用するユーザは、自分が行きたい行き先として特定のPOIの名称を入力する。そして、サービスプロバイダは、このPOIを検出すべき関心地点とすることができる。
【0038】
本実施例では、インターネットテキストマイニングに基づく関心地点の有効性の判断方法の実行主体(例えば、
図1に示すサーバ105)は、検出すべき関心地点を示すための検索ワード集合を様々な実施可能な方法で確定することができる。
【0039】
例えば、いくつかの任意選択実施形態として、検出すべきPOIの名称は、検索ワード集合における検索ワードとして直接使用されてもよい。
【0040】
または、他のいくつかの任意選択実施形態では、複数種の言語による検出すべきPOIの名称を検索ワード集合の検索ワードとすることができる。例えば、検出すべきPOIが「北京首都国際空港」である場合、この検出すべきPOIの中国語名称「北京首都国際空港」および対応する英語名称「Beijing Capital International Airport」を検索ワード集合の検索ワードとすることができる。
【0041】
または、さらなる他のいくつかの任意選択実施形態では、検出すべきPOIの略称を検索ワード集合の検索ワードとすることができる。例えば、検出すべきPOIが「北京首都国際空港」である場合、「北京首都国際空港」の略称である「首都国際空港」または「首都空港」などを検索ワード集合の検索ワードとすることができる。
【0042】
ステップ202:確定された検索ワードを検索キーワードとして検索し、検出すべき関心地点を記述するための記述情報集合を取得する。
【0043】
ここで、例えば、検索ワード集合の検索ワードは、検索結果を得るためのクエリ(query)として使用することができる。
【0044】
言うまでもなく、検索ワード集合における検索ワードのそれぞれについて、それをクエリとして検索すると、一連の検索結果を得られる。これらの検索結果は、例えば、検索結果ページに提示されているリンクの形式であり得る。
【0045】
いくつかの任意選択実施形態では、検索結果ページ上に表示された、事前設定された数の検索結果リンクによってリンクされているページにおける、検索ワードを記述するための語句を、検出すべき関心地点を記述するための記述情報とすることができる。
【0046】
詳しくは、これらの任意選択実施形態のいくつかの適用シナリオでは、検出すべきPOIの名称が「北京首都国際空港」であり、かつ「首都空港」が検索ワード集合における検索ワードの1つである場合、「首都空港」をクエリとして検索を行い、一連の検索結果を取得することができる。例えば、「最近の首都空港はより厳格な保安検査措置を講じていますので、乗客の皆様は早めに空港に到着し、チェックインおよびチェックアップの手続きを行ってください。」という語句を含む検索結果リンクの1つをクリックした場合、この語句は「北京首都国際空港」という検出すべきPOIの記述情報の1つとすることができる。
【0047】
ステップ203:検出すべき関心地点の名称と記述情報集合における記述情報を事前設定された有効性判別モデルに入力し、検出すべき関心地点の有効性を示すステータスタグを取得する。
【0048】
このステップにおける有効性判別モデルは、検出すべき関心地点の名称および記述情報集合における記述情報に従って、この検出すべき関心地点のステータスタグを確定することができる。ここで、「有効性」とは、検出すべき関心地点が現在有効な状態にあるか否かと理解することができる。
【0049】
例えば、検出すべき関心地点はAモールである場合、Aモールの有効性を示すステータスタグには、「営業」、「休業」、「閉店」、「移転」などがあり得る。言うまでもなく、これらのステータスタグのうち、「営業」はAモールが有効な状態にあることを示すためのステータスタグであり得るが、「休業」、「閉店」、「移転」はAモールが無効な状態にあることを示すためのステータスタグであり得る。
【0050】
いくつかの任意選択実施形態では、例えば、POIの有効性を示すためのステータスタグのステータスタグ集合を事前設定することができる。
【0051】
これらの任意選択実施形態では、ステータスタグ集合におけるステータスタグのそれぞれを、記述情報集合における記述情報にマッチングすることができる。例えば、記述情報とステータスタグとの間の意味類似度を確定し、ステータスタグ集合における、記述情報集合の記述情報との意味類似度が最も高いステータスタグを、この検出すべき関心地点の有効性を示すためのステータスタグとする。
【0052】
本実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法によれば、まず、検出すべき関心地点を示すための検索ワード集合を確定し、そして、確定された検索ワードを検索キーワードとして検索し、検索集合における検索ワードを記述するための記述情報集合を取得し、さらに、検出すべき関心地点の名称と記述情報集合における記述情報を事前構築された有効性判別モデルに入力し、検出すべき関心地点の有効性を示すためのステータスタグを取得し、インターネットテキストに対するマイニングを通じて、かつモデルに基づいてPOIの有効性を確定することで、地図における無効なPOI情報を適時に発見することができ、ユーザに正確な情報を提供することができ、ユーザのニーズを満たし、ユーザーエクスペリエンスを高めることができる。
【0053】
次に
図3を参照する。
図3は、本実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法の適用シナリオの一例を示す概略
図300である。
【0054】
図3に示す適用シナリオでは、地図またはナビゲーションサービスのサービスプロバイダは、POIを格納するデータベース301から、検出すべきPOIである「XXX衣料品卸売市場」を取得する。
【0055】
そして、符号302に示すように、検出すべきPOIの検索ワード集合を確定することができる。検索ワード集合には、検索ワードである「XXX衣料品卸売市場」、「XXX衣料品市場」および「XXX卸売市場」が含まれる。
【0056】
そして、符号303に示すように、検索ワード「XXX衣料品卸売市場」、「XXX衣料品市場」および「XXX卸売市場」をそれぞれ検索キーワードとして検索し、一連の検索結果を得られる。検索結果から、検索ワードを記述するための語句を抽出し、「XXX衣料品卸売市場」という検出すべきPOIの記述情報として、記述情報集合を形成することができる。
【0057】
そして、符号303に示すように、検出すべきPOIである「XXX衣料品卸売市場」と記述情報集合を事前構築された有効性判別モデルに入力することで、「XXX衣料品卸売市場」が有効か否かを示すためのステータスタグ(例えば、「移転」)を取得する。このように、本実施例に係る方法によれば、検出すべきPOIが有効の状態にあるか否かを判定することができるので、該地図やナビゲーションアプリケーションを利用するユーザは、POI検索および/またはナビゲーションを行う際に、適時に該POIの正確な状態を取得し、より正確な地図および/またはナビゲーション情報を取得することができる。
【0058】
本実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法のいくつかの任意選択実施形態では、検出すべき関心地点を示すための検索ワード集合を確定するステップ201は、検出すべき関心地点の名称と検出すべき関心地点の名称の同義語を確定し、検索ワード集合における検索ワードとすることを含み得る。
【0059】
通常、あるPOIの正式なかつ正確な名称は、最も公衆に知られるかまたは使われている名称ではない。この場合、検出すべきPOIの記述情報をできるだけ包括的かつ正確に収集するために、そして収集された記述情報の多様性不足によるステータスタグの誤判定を防止するために、検出すべきPOIの検索ワード集合を確定するに当たっては、検出すべきPOIの名称を検索ワード集合における検索ワードとするほか、この検出すべきPOIの同義語を検索ワード集合における検索ワードとすることもできる。
【0060】
これらの任意選択実施形態のいくつかの適用シナリオでは、事前設定された百科データベースから、検出すべきPOIの名称の同義語を確定することができる。通常には、百科データベースは、格納されるデータの範囲が広く正確性が高いという特徴を有する。また、百科データベースの各エントリーのデータには、通常、そのエントリーの同義語が含まれている。
【0061】
これらの任意選択実施形態の他の適用シナリオでは、検出すべきPOIの名称を検索ワードとして検索し、検索によるマッチング実体を関心地点の名称の同義語とすることもできる。ここで、マッチング実体は、事前設定された数の検索結果に含まれる実体のうち、検出すべき関心地点の名称との最長共通サブストリングのその名称に占める比率が事前設定された比率の閾値を超えた実体であってもよい。
【0062】
これらの適用シナリオでは、例えば、検出すべきPOIは「AAA衣料品市場」である場合、「AAA衣料品市場」を検索ワードとして検索することができる。検索結果ページに表示された検索結果から、最初のN件(例えば、上位10件)の検索結果を選択する。これらのN件の検索結果から、固有表現抽出(Named Entity Recognition,NER)アルゴリズムによって候補実体を決定する。候補実体のうち、検出すべきPOIとの最長共通サブストリングのその名称に占める比率が事前設定された比率の閾値(例えば、50%)を超えた候補実体を、マッチング実体とする。
【0063】
最長共通サブストリングは、最大共通サブストリングとも呼ばれ、2つまたは複数の文字列に含まれる共通サブストリングのうちの最も長いサブストリングを指すことができる。例えば、ある候補実体は「AAA衣料品卸売市場」である場合、この候補実体と検出すべきPOIの名称との間の最大共通サブストリングは「AAA衣料品」である。ここで、最大共通サブストリングである「AAA衣料品」が「AAA衣料品卸売市場」という実体名称に占める比率(5/9)は50%を超えているので、「AAA衣料品卸売市場」を検出すべきPOIである「AAA衣料品市場」の同義語とすることができる。
【0064】
これらの任意選択実施形態の別のいくつかの適用シナリオでは、検出すべきPOIの名称を検索ワードとして検索し、事前設定された数の検索結果からこの検出すべきPOIの名称を含む語句を抽出し、共参照解析ツールを利用して、抽出された語句から関心地点の名称を示すための単語を同義語として確定することもできる。
【0065】
実際の生活の中では、人々は重複を避けるために往々にして代詞、呼称および略語をもって、前に言及した実体の正式名称を示す。共参照解析(coreference resolution)とは、同一の実体を特徴付けるためのすべての代名詞をテキストから確定するための技術である。
【0066】
共参照解析ツールを利用すれば、検出すべきPOIを検索ワードとして検索した所定数の検索結果(例えば、上位N件の検索結果)から、この検出すべきPOIを示すための代名詞を確定し、かつ確定された単語を検出すべきPOIの名称の同義語とすることができる。
【0067】
共参照解析アルゴリズムは、現在広く研究されている技術である。当業者は、既存または将来開発予定の共参照解析アルゴリズムを利用して、検出すべきPOIを検索ワードとして検索した所定数の検索結果から、この検出すべきPOIを示すための代名詞を確定することができる。
【0068】
言うまでもなく、確定された検索ワード集合に含まれている検出すべきPOIの同義語がより全面的なものになるように、上記の検出すべきPOIの同義語を確定する方式における任意の少なくとも二者の組み合わせを採用して、検出すべきPOIの同義語を確定することもできる。
【0069】
さらに
図4を参照すると、インターネットテキストマイニングに基づく関心地点の有効性の判断方法のもう1つの実施例のフロー400が示されている。このインターネットテキストマイニングに基づく関心地点の有効性の判断方法のフロー400は、以下のステップを含む。
【0070】
ステップ401:検出すべき関心地点を示すための検索ワード集合を確定する。
【0071】
ステップ402:確定された検索ワードを検索キーワードとして検索し、検出すべき関心地点を記述するための記述情報集合を取得する。
【0072】
ステップ403:検出すべき関心地点の名称と記述情報集合における記述情報を事前構築された有効性判別モデルに入力し、検出すべき関心地点の有効性を示すためのステータスタグを取得する。
【0073】
前述のステップ401〜403は、
図2に示す実施例のステップ201〜203と同様に実行することができ、詳細はここで省略する。
【0074】
図2に示した実施例との相違点は、本実施例では、事前構築された有効性判別モデルが注意モデルである。
【0075】
注意モデル(Attention Model)は、人間の脳の注意モデルを模擬している。例えば、私たちは、絵を観察するとき、絵全体を見ることができるが、注意深くそして細かく観察する場合、実際、目が焦点を合わせているのはとても小さな部分に過ぎない。この場合、人間の脳は主にこの小さな部分の画像に注目している。つまり、全体像に対する人間の脳による注目は、バランスがとれておらず、ある程度の重みのかたよりがある。これこそ、ディープラーニングにおけるAttention Modelの中核的な構想である。
【0076】
本実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法を適用するに当たって、注意モデルは、入力された記述情報ごとにそれぞれ重みを決定し、かつ検出すべきPOIの各記述情報の加重総和に従って、確率が最も高いステータスタグを確定し、この検出すべきPOIの有効性を示すためのステータスタグとすることができる。
【0077】
図4をあわせると、本実施例では、注意モデルは以下のステップを通じて訓練して得ることができる。
【0078】
ステップ404:サンプル関心地点の名称、サンプル関心地点の記述情報を入力とし、サンプル関心地点のステータスタグを目標とし、初期注意モデルを訓練して、有効性判別モデルを取得する。
【0079】
初期の注意モデルのために初期のパラメータを設定し、サンプル関心地点の実際のステータスタグの確率を取得することができる。モデルから出力されるサンプル関心地点の実際のステータスタグの確率ができるだけ100%に近づくように、モデルにおけるパラメータを連続的に調整する。
【0080】
いくつかの適用シナリオでは、サンプル関心地点の記述情報は以下の方式で取得することができる。
【0081】
まず、サンプル関心地点の名称とサンプル関心地点の名称の同義語とからなる第1同義語集合を確定する。例えば、サンプル関心地点の名称がAであり、サンプル関心地点の同義語にA
1,…,A
Mがある場合、第1同義語集合はSet_name={A,A
1,…,A
M}となる。
【0082】
言うまでもなく、本実施例では、サンプル関心地点の名称の同義語は、
図2に示す実施例における検出すべき関心地点の確定方式と類似する方式で行うことができる。例えば、事前設定された百科データベースから、サンプル関心地点の名称の同義語を確定することができる。および/または、サンプル関心地点の名称を検索ワードとして検索し、かつ検索して取得したマッチング実体をサンプル関心地点の名称の同義語とすることもできる。なお、マッチング実体は、事前設定された数の検索結果に含まれている実体のうち、サンプル関心地点の名称との最長共通サブストリングのその名称に占める比率が事前設定された比率の閾値を超えた実体である。および/または、サンプル関心地点の名称を検索ワードとして検索し、事前設定された数の検索結果からサンプル関心地点の名称を含む語句を抽出し、共参照解析ツールを利用して、抽出された語句からサンプル関心地点の名称を示すための単語を同義語として確定することもできる。
【0083】
そして、サンプル関心地点のステータスタグとサンプル関心地点のステータスタグの同義語とからなる第2同義語集合を確定する。例えば、関心地点のステータスタグはBであり、ステータスタグの同義語にB
1,…,B
Nがある場合、第2同義語集合はSet_lable={B,B
1,…,B
N}となる。
【0084】
任意選択的に、ステータスタグの同義語は、以下の少なくとも1つに基づいて確定することができる。
【0085】
事前設定された同義語データベースから、サンプル関心地点のステータスタグの同義語を確定する。および/または、サンプル関心地点の名称を含む検索語句履歴から、事前設定された数の目標検索語句を確定し、かつ確定された目標検索語句から確定された、サンプル関心地点のステータスタグの意味との類似度が事前設定された類似度の閾値を超えた単語を、サンプル関心地点のステータスタグの同義語とすることができる。
【0086】
最後に、第1同義語集合から確定された第1同義語と第2同義語集合から確定された第2同義語を検索ワードとして検索し、かつ検索結果において第1同義語と第2同義語の両方が共にヒットされた語句をサンプル関心地点の記述情報とする。
【0087】
例えば、第1同義語集合がSet_name={A,A
1,…,A
M}であり、第2同義語集合がSet_lable={B,B
1,…,B
N}である場合、検索ワード集合L={AB,AB
1,…,AB
N,A
1B,A
1B
1…,A
1B
N,…,A
MB
N}を取得することができる。検索ワード集合における要素それぞれを検索ワードとして検索し、検索結果において第1同義語と第2同義語の両方が共にヒットされた語句をサンプル関心地点の記述情報とする。
【0088】
言うまでもなく、サンプル関心地点並びにその記述情報およびステータスタグを収集するプロセスにおいて、最終的に訓練して取得するモデルの予測正確率をより高めるために、訓練サンプルには、正のサンプルが含まれてもよく、負のサンプルが含まれてもよい。すなわち、訓練サンプルには、ステータスタグが該サンプル関心地点が有効な状態にあることを示すサンプルもあれば、ステータスタグが該サンプル関心地点が無効な状態にあることを示すサンプルもあることが可能である。
【0089】
以下、さらに
図5と
図6を参照しながら、本実施例のいくつかの任意選択実施形態における注意モデルの構成とその訓練方式を説明する。
【0090】
詳しくは、
図5は本実施例のいくつかの任意選択実施形態における注意モデルの具体的な構成を示し、
図6はこれらの任意選択実施形態における注意モデルの訓練ステップの具体的な実施プロセスを示す。
【0091】
図5に示すように、注意モデル500は、意味認識サブモデル501、特徴抽出サブモデル502、加重総和ユニット503、線形化ユニット504および分類器505などの構成を含み得る。
【0092】
意味認識サブモデル501は、入力されたサンプルPOIの名称と特定の記述情報s
i(i=1,2,…,n)の意味特徴を抽出し、意味特徴ベクトルを取得することに使用できる。
【0093】
特徴抽出サブモデル502は、サンプルPOIの名称および1つの記述情報s
i(i=1,2,…,n)から、1つまたは複数の事前設定されたルールに従って特徴抽出を行うことで、該サンプルPOIの該記述情報を特徴付ける記述特徴ベクトルを取得することに使用できる。
【0094】
いくつかの適用シナリオでは、特徴抽出サブモデル502は、事前設定されたルールに従って、記述情報に含まれるサンプル関心地点のステータスタグまたはサンプル関心地点のステータスタグの同義語の個数を示す特徴、および記述情報にはタグワードが含まれているか否かを示す特徴のうちの少なくとも一方を抽出することができる。言うまでもなく、ここで、タグワードはステータスタグそのものを含むほか、さらにステータスタグの同義語も含み得る。
【0095】
言うまでもなく、注意モデル500における意味認識サブモデル501と特徴抽出サブモデル502の具体的な個数は限定されない。
【0096】
詳しくは、注意モデルは1つの意味認識サブモデルと1つの特徴抽出サブモデルを含み得る。このようにして、意味認識サブモデルと特徴抽出サブモデルはサンプルPOIの名称並びに記述情報の意味特徴および記述特徴をそれぞれシリアルに抽出し、かつ該サンプルPOIに対する各記述情報の意味特徴ベクトルおよび記述特徴ベクトルをそれぞれ取得することができる。
【0097】
または、
図5に示すように、注意モデル500は複数の意味認識サブモデル501と複数の特徴抽出サブモデル502を含むこともできる。このようにして、各意味認識サブモデルと各特徴抽出サブモデルは意味特徴抽出および記述特徴抽出をパラレルに行うことができる。
【0098】
なお、注意モデルはさらに加重総和ユニット503を含み得る。加重総和ユニット503は、サンプルPOIの記述情報のそれぞれを意味認識サブモデルで識別して得られた意味特徴ベクトルと特徴抽出サブモデルで抽出して得られた記述特徴ベクトルを繋ぎ合わせて繋ぎ合わせ特徴ベクトルを取得し、加重総和を求め、そして加重総和を線形化ユニット504で線形化し、最後に線形化の結果を分類器505で分類し、サンプルPOIがその実際のサンプルタグ(ground truth)を有する確率を取得することができる。
【0099】
このように、注意モデルのモデルパラメータを連続的に調整することによって、それ相応に加重総和ユニット503の加重係数を調整することができるので、注意モデルから出力されるサンプルPOIがその実際のサンプルタグに属する確率が連続的に増加する。
【0100】
図6を参照すると、注意モデルの訓練プロセスがさらに具体的に示されている。
【0101】
ステップ601では、サンプル関心地点の1つについて、該サンプル関心地点の名称と該サンプル関心地点の記述情報の1つを意味認識サブモデルに入力し、該記述情報を特徴抽出サブモデルに入力し、意味認識サブモデルと特徴抽出サブモデルから出力された特徴ベクトルを繋ぎ合わせて、該サンプル関心地点の記述情報を記述するための特徴ベクトルを取得する。
【0102】
いくつかの任意選択実施形態では、意味認識サブモデルは注意モデルであってもよい。
図7を参照すると、注意モデルに基づく意味認識サブモデルの一実施例を示す例示的な構成図である。
【0103】
意味認識サブモデルは、名称特徴抽出サブモデル701、少なくとも1つの単語特徴抽出サブモデル702、および加重総和ユニット703を含む。名称特徴抽出サブモデル701および単語特徴抽出サブモデル702は両方とも、双方向LSTM(長・短期記憶、Long Short−Term Memory)に基づいてモデリングされて得られる。m個の単語を含む語句について、各単語x
1〜x
mを単語特徴抽出サブモデル702に入力し、一連の隠れベクトルh
1,h
2,…,h
mを得られる。さらに、名称特徴抽出サブモデルを使用してPOI名称について特徴抽出を行い、名称ベクトルv
POIを得られる。注意メカニズムを通じて、名称ベクトルv
POIおよび各隠れベクトルを使用してそれぞれ重みβ
i(i=1,2,…,m)を算出する。算出された重みβ
1,β
2,…,βmに基づき、加重総和ユニット703を使用して、記述情報の意味ベクトル表現v
sを算出する。
【0106】
そして、意味認識サブモデルから得られた意味特徴ベクトルv
sと、特徴抽出サブモデルから抽出された記述特徴ベクトルとを繋ぎ合わせることで、各記述情報のベクトル表現V
senを得られる。
【0107】
ステップ602では、該サンプル関心地点の各記述情報の特徴ベクトルの加重総和を確定する。
【0108】
詳しくは、注意メカニズムを使用して、該サンプル関心地点の各繋ぎ合わせ特徴ベクトルの加重総和v
cを算出する。
【0110】
式中、v
aはモデルパラメータであり、訓練中に連続的に調整されることが可能である。
【0111】
ステップ603では、加重総和に基づき、該サンプル関心地点のステータスタグに属する確率値を確定する。
【0112】
詳しくは、ステップ602に基づいて取得された加重総和v
cについて線形変換を行い、かつ分類器に入力してタグ確率分布の予測を行う。ここで、最も確率の高いタグが該サンプルPOIのステータスタグとして予測される。
【0113】
ステップ604では、事前設定された損失関数に基づき、実際のタグにある各サンプル関心地点の確率値の損失値を確定し、確定された損失値を注意モデルにおいてバックプロパゲーションし、注意モデルのモデルパラメータを調整することで、有効性判別モデルを取得する。
【0114】
例えば、損失関数は正確なタグの負の対数尤度(negative log likelihood)であってもよい。
【0116】
式中、公式(3)においては、jは訓練サンプル集合におけるi番目のサンプルPOIの正確なタグである。このようにして、上記の公式(3)を使用して、訓練サンプルの損失値を算出することができる。また、損失値のモデルにおけるバックプロパゲーション(例えば、確率的勾配降下法に基づくアルゴリズム)により、モデルパラメータを調整し、注意モデルを訓練することができる。
【0117】
図4〜
図7から分かるように、
図2に係る実施例と比較して、本実施例のインターネットテキストマイニングに基づく関心地点の有効性の判断方法のフロー400では、注意モデルに基づく有効性判別モデルを利用して、検出すべき関心地点のステータスタグを識別するので、有効性判別モデルは、POI状態の判定に重要な情報を記述情報から識別することができ、最終的に予測して得られたステータスタグがより正確になる。
【0118】
さらに
図8を参照すると、上記の各図に示された方法の実施形態として、本発明は、インターネットテキストマイニングに基づく関心地点の有効性の判断装置の一実施例を提供している。この装置の実施例は、
図2に示された方法の実施例に対応している。詳しくは、この装置は様々な電子機器に適用することができる。
【0119】
図8に示すように、本実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断装置は、検索ワード確定ユニット801、記述情報確定ユニット802および有効性判断ユニット803を含む。
【0120】
検索ワード確定ユニット801は、検出すべき関心地点を示すための検索ワード集合を確定するように構成され得る。
【0121】
記述情報確定ユニット802は、確定された検索ワードを検索キーワードとして検索し、検出すべき関心地点を示すための記述情報集合を取得するように構成され得る。
【0122】
有効性判断ユニット803は、検出すべき関心地点の名称と記述情報集合における記述情報を事前構築された有効性判別モデルに入力し、検出すべき関心地点の有効性を示すためのステータスタグを取得するように構成され得る。
【0123】
いくつかの任意選択実施形態では、検索ワード確定ユニット801はさらに、検出すべき関心地点の名称と検出すべき関心地点の名称の同義語を検索ワード集合における検索ワードとするように構成され得る。
【0124】
いくつかの任意選択実施形態では、事前構築された有効性判別モデルは、注意モデルであってもよい。
【0125】
これらの任意選択実施形態では、装置はさらに訓練ユニット(図示せず)を含み得る。訓練ユニットはさらに、サンプル関心地点の名称、サンプル関心地点の記述情報を入力とし、サンプル関心地点のステータスタグを目標とし、初期注意モデルを訓練して、有効性判別モデルを取得するように構成され得る。
【0126】
いくつかの任意選択実施形態では、注意モデルは、意味認識サブモデルと特徴抽出サブモデルを含み得る。
【0127】
これらの任意選択実施形態では、訓練ユニットはさらに、1つのサンプル関心地点について、該サンプル関心地点の名称と該サンプル関心地点の記述情報の1つを意味認識サブモデルに入力し、該記述情報を特徴抽出サブモデルに入力し、意味認識サブモデルと特徴抽出サブモデルから出力された特徴ベクトルを繋ぎ合わせて、該サンプル関心地点の該記述情報を記述するための特徴ベクトルを取得し、該サンプル関心地点の各記述情報の特徴ベクトルの加重総和を確定し、加重総和に基づいて該サンプル関心地点のステータスタグに属する確率値を確定し、事前設定された損失関数に基づいて、実際のタグにある各サンプル関心地点の確率値の損失値を確定し、確定された損失値を注意モデルにおいてバックプロパゲーションし、注意モデルのモデルパラメータを調整して、有効性判別モデルを取得するように構成され得る。
【0128】
いくつかの任意選択実施形態では、サンプル関心地点の記述情報は、サンプル関心地点の名称とサンプル関心地点の名称の同義語とからなる第1同義語集合を確定し、サンプル関心地点のステータスタグとサンプル関心地点のステータスタグの同義語とからなる第2同義語集合を確定し、第1同義語集合から確定された第1同義語と第2同義語集合から確定された第2同義語を検索ワードとして検索し、検索結果において第1同義語と第2同義語の両方が共にヒットされた語句をサンプル関心地点の記述情報とする方式によって取得することができる。
【0129】
いくつかの任意選択実施形態では、サンプル関心地点のステータスタグの同義語は、事前設定された同義語データベースから、サンプル関心地点のステータスタグの同義語を確定することと、サンプル関心地点の名称を含む検索語句履歴から、事前設定された数の目標検索語句を確定し、かつ確定された目標検索語句から確定された、サンプル関心地点のステータスタグの意味との類似度が事前設定された類似度の閾値を超えた単語を、サンプル関心地点のステータスタグの同義語とすることと、の少なくとも一方に基づいて確定されることができる。
【0130】
いくつかの任意選択実施形態では、装置はさらに同義語確定ユニットを含み得る。
【0131】
同義語確定ユニットは、事前設定された百科データベースから、関心地点の名称の同義語を確定することと、関心地点の名称を検索ワードとして検索し、かつ検索により取得されたマッチング実体を関心地点の名称の同義語とすることであって、マッチング実体は、事前設定された数の検索結果に含まれる実体のうち、関心地点の名称との最長共通サブストリングの、その名称に占める比率が、事前設定された比率の閾値を超えた実体であることと、関心地点の名称を検索ワードとして検索し、事前設定された数の検索結果から関心地点の名称を含む語句を抽出し、共参照解析ツールを利用して、抽出された語句から関心地点の名称を示すための単語を同義語として確定することと、のうちの少なくとも1つに基づいて関心地点の名称の同義語を確定するように構成され得る。ここで、関心地点は、検出すべき関心地点とサンプル関心地点の一方であってよい。
【0132】
以下、本発明の実施形態のインターネットテキストマイニングに基づく関心地点の有効性の判断方法を実施するための電子機器に適用されるコンピュータシステム900の概略構成図を示す
図9を参照する。
図9に示す電子機器はあくまでも一例であり、本発明の実施例の機能や使用範囲を限定するものではない。
【0133】
図9に示すように、コンピュータシステム900は、読み取り専用メモリ(ROM)902に格納されているプログラムまたは記憶部906からランダムアクセスメモリ(RAM)903にロードされたプログラムに従って様々な適切な動作と処理を行うことができる中央処理装置(CPU)901を含む。RAM903にはさらにシステム900の動作に必要な様々なプログラムやデータが格納されている。CPU901、ROM902、およびRAM903は、バス904を介して相互に接続されている。入出力(I/O)インターフェース905もバス904に接続されている。
【0134】
I/Oインターフェース905には、ハードディスクなどを含む記憶部906、LANカードやモデムなどのネットワークインタフェースカードを含む通信部907が接続されている。通信部907は、インターネットなどのネットワークを介して、通信処理を行う。ドライバ908も必要に応じて、I/Oインターフェース905に接続される。ドライバ908には、磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブルメディア909が必要に応じて装着され、そこから読み出されるコンピュータプログラムが所望により記憶部906にインストールされる。
【0135】
特に、本発明の実施例によれば、上述したフローチャートを参照しながら記載されたプロセスは、コンピュータソフトウェアプログラムとして実施することができる。例えば、本発明の実施例は、コンピュータ可読媒体上に具現化されているコンピュータプログラムを含むコンピュータプログラム製品を含み、該コンピュータプログラムは、フローチャートに示された方法を実行するためのプログラムコードを含む。このような実施例では、該コンピュータプログラムは、通信部907を介してネットワークからダウンロードおよびインストールされることができ、および/またはリムーバブルメディア909からインストールされることができる。該コンピュータプログラムが中央処理装置(CPU)901によって実行されると、本発明の方法で定義された上述の機能が実行される。注意すべきは、本明細書に記載するコンピュータ可読媒体は、コンピュータ可読信号媒体もしくはコンピュータ可読記憶媒体、またはその2つの任意の組み合わせであってよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光学、電磁気、赤外線、または半導体のシステム、装置もしくはデバイス、またはそれらの任意の組み合わせであってよいが、それらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、1本以上の導線による電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ(CD?ROM)、光メモリ、磁気メモリ、またはこれらの任意の適切な組み合わせを含むが、それらに限られない。本発明において、コンピュータ可読媒体は、プログラムを含むかまたは格納している任意の有形の媒体であってもよい。当該プログラムは、命令実行システム、装置またはデバイスに使用されるか、またはそれらと組み合わせて使用されることができる。本発明において、コンピュータ可読信号媒体は、ベースバンド内に含まれるか、またはキャリアの一部としてデータ信号を伝送することができ、その中には、コンピュータ読み取り可能なプログラムコードが担持されている。かかる伝送されるデータ信号は複数の形式を採用することができ、電磁信号、光信号または上記の任意の適切な組み合わせを含むが、それらに限られない。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。当該コンピュータ可読媒体は、命令実行システム、装置またはデバイスに使用されまたはそれらと組み合わせて使用されるプログラムを発信、伝送または転送することができる。コンピュータ可読媒体に含まれるプログラムコードは、任意の適切な媒体を使用して転送することができる。当該任意の適切な媒体とは、無線、有線、光ケーブル、RFなど、または上記の任意の適切な組み合わせを含むが、それらに限られない。
【0136】
本発明の動作を実行するためのコンピュータプログラムコードは1つまたは複数のプログラミング言語、またはそれらの組み合わせで作成されることができる。該プログラミング言語は、オブジェクト指向プログラミング言語(Java(登録商標)、Smalltalk、C++など)のほか、従来の手続き型プログラミング言語(「C」言語など)およびそれに類似するプログラミング言語をも含む。プログラムコードは、完全にユーザのコンピュータで実行されることも、部分的にユーザのコンピュータで実行されることも、単独のソフトウェアパッケージとして実行されることも、部分的にユーザのコンピュータで実行されながら部分的にリモートコンピュータで実行されることも、または完全にリモートコンピュータもしくはサーバで実行されることも可能である。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザのコンピュータに接続することができ、または(例えば、インターネットサービスプロバイダによるインターネットサービスを介して)外部のコンピュータに接続することができる。
【0137】
図面のうちのフローチャートおよびブロック図は、本発明の様々な実施例に係るシステム、方法およびコンピュータプログラム製品によって実施できるアーキテクチャ、機能および動作を示している。これについては、フローチャートまたはブロック図の各ブロックは、モジュール、プログラムセグメント、またはコードの一部を表すことができる。当該モジュール、プログラムセグメント、またはコードの一部には、所定のロジック機能を実施するための1つまたは複数の実行可能な命令が含まれている。さらに注意すべきは、いくつかの代替となる実施態様においては、ブロックに示されている機能は図面に示されているものとは異なる順序で実行されてもよい。例えば、連続して表された2つのブロックは、実際には関連する機能に応じて、ほぼ並行して実行されてもよく、時には、逆の順序で実行されてもよい。なお、ブロック図および/またはフローチャートにおけるすべてのブロック、ならびにブロック図および/またはフローチャートにおけるブロックの組み合わせは、所定の機能または操作を実行する専用のハードウェアベースのシステムで実施されてもよく、専用のハードウェアとコンピュータ命令との組み合わせで実施されてもよい。
【0138】
本発明の実施例に記載されたユニットは、ソフトウェアで実現されてもよく、ハードウェアで実現されてもよい。記載されたユニットは、プロセッサに設けられてもよく、例えば「検索ワード確定ユニット、記述情報確定ユニットおよび有効性判断ユニットを含むプロセッサ」と記載されてもよい。なお、これらのユニットの名称は、ユニットそのものを限定するものではない場合がある。例えば、検索ワード確定ユニットは、「検出すべき関心地点を示すための検索ワード集合を確定するためのユニット」と記載することもできる。
【0139】
別の態様では、本発明はまた、コンピュータ可読媒体を提供する。該コンピュータ可読媒体は、上記の実施例で説明された装置に含まれてもよく、または別々に存在して装置に組み込まれなくてもよい。上記のコンピュータ可読媒体には、1つまたは複数のプログラムは格納されている。かかる1つまたは複数のプログラムが該装置によって実行されると、該装置は、検出すべき関心地点を示すための検索ワード集合を確定し、確定された検索ワードを検索キーワードとして検索して検出すべき関心地点を記述するための記述情報集合を取得し、検出すべき関心地点の名称と記述情報集合における記述情報を事前構築された有効判別モデルに入力して、検出すべき関心地点の有効性を示すためのステータスタグを取得する。
【0140】
上記の説明はあくまでも本発明の好適な実施例および応用している技術の原理に対する説明に過ぎない。当業者であれば、本発明に言及された発明の範囲は、上記の技術的特徴の特定の組み合わせからなる技術的解決手段に限定されず、上記の発明構想から逸脱しない範囲内で上記の技術的特徴またはそれらの同等の特徴を任意に組み合わせてなる他の技術的解決手段をも含むことが理解できる。例えば、上記の特徴と本発明が開示した類似する機能を有する技術的特徴(それらに限られない)とが相互に置き換えてなる技術的解決手段をも含む。