特許第6846469号(P6846469)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッドの特許一覧

特許6846469インターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置
<>
  • 特許6846469-インターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置 図000005
  • 特許6846469-インターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置 図000006
  • 特許6846469-インターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置 図000007
  • 特許6846469-インターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置 図000008
  • 特許6846469-インターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置 図000009
  • 特許6846469-インターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置 図000010
  • 特許6846469-インターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置 図000011
  • 特許6846469-インターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置 図000012
  • 特許6846469-インターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置 図000013
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6846469
(24)【登録日】2021年3月3日
(45)【発行日】2021年3月24日
(54)【発明の名称】インターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置
(51)【国際特許分類】
   G06F 16/383 20190101AFI20210315BHJP
   G06F 16/30 20190101ALI20210315BHJP
【FI】
   G06F16/383
   G06F16/30
【請求項の数】17
【外国語出願】
【全頁数】24
(21)【出願番号】特願2019-125750(P2019-125750)
(22)【出願日】2019年7月5日
(65)【公開番号】特開2020-42779(P2020-42779A)
(43)【公開日】2020年3月19日
【審査請求日】2019年7月5日
(31)【優先権主張番号】201811053052.X
(32)【優先日】2018年9月10日
(33)【優先権主張国】CN
(73)【特許権者】
【識別番号】513224353
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
(74)【代理人】
【識別番号】110000729
【氏名又は名称】特許業務法人 ユニアス国際特許事務所
(72)【発明者】
【氏名】ホアン、チーチョウ
(72)【発明者】
【氏名】スン、ヤーミン
【審査官】 鹿野 博嗣
(56)【参考文献】
【文献】 特開2010−164688(JP,A)
【文献】 国際公開第2008/142791(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/383
G06F 16/30
(57)【特許請求の範囲】
【請求項1】
サーバにより実行されるインターネットテキストマイニングに基づく関心地点の有効性の判断方法であって、
検出すべき関心地点を示すための検索ワード集合を確定するステップと、
確定された検索ワードを検索キーワードとして検索し、前記検出すべき関心地点を記述するための記述情報集合を取得するステップと、
前記検出すべき関心地点の名称と前記記述情報集合における記述情報を事前構築された有効性判別モデルに入力し、前記検出すべき関心地点の有効性を示すためのステータスタグを取得するステップと、を含み、
前記有効性判別モデルは、サンプル関心地点の名称、前記サンプル関心地点の記述情報を入力とし、前記サンプル関心地点のステータスタグを目標とし、初期モデルを訓練して、前記有効性判別モデルを取得する訓練ステップにより取得される方法。
【請求項2】
前記検出すべき関心地点を示すための検索ワード集合を確定するステップは、
前記検出すべき関心地点の名称と前記検出すべき関心地点の名称の同義語を前記検索ワード集合における検索ワードとすることを含む請求項1に記載の方法。
【請求項3】
前記事前構築された有効性判別モデルは注意モデルである請求項1に記載の方法。
【請求項4】
前記注意モデルは、意味認識サブモデルと特徴抽出サブモデルを含み、
前記訓練ステップは、さらに、
1つのサンプル関心地点について、該サンプル関心地点の名称と該サンプル関心地点の記述情報の1つを意味認識サブモデルに入力し、該記述情報を特徴抽出サブモデルに入力し、意味認識サブモデルと特徴抽出サブモデルから出力された特徴ベクトルを繋ぎ合わせて、該サンプル関心地点を記述するための該記述情報の特徴ベクトルを取得することと、
該サンプル関心地点の各記述情報の特徴ベクトルの加重総和を確定することと、
前記加重総和に基づいて該サンプル関心地点のステータスタグに属する確率値を確定することと、
事前設定された損失関数に基づいて、実際のタグにおける各サンプル関心地点の確率値の損失値を確定し、確定された損失値を注意モデルにおいてバックプロパゲーションし、注意モデルのモデルパラメータを調整して、前記有効性判別モデルを取得することと、を含む請求項3に記載の方法。
【請求項5】
前記サンプル関心地点の記述情報は、
サンプル関心地点の名称とサンプル関心地点の名称の同義語とからなる第1同義語集合を確定することと、
サンプル関心地点のステータスタグとサンプル関心地点のステータスタグの同義語とからなる第2同義語集合を確定することと、
前記第1同義語集合から確定された第1同義語と前記第2同義語集合から確定された第2同義語を検索ワードとして検索し、検索結果のうち、第1同義語と第2同義語の両方が共にヒットされた語句をサンプル関心地点の記述情報とすることと、
によって取得される請求項3に記載の方法。
【請求項6】
前記サンプル関心地点のステータスタグの同義語は、
事前設定された同義語データベースから、前記サンプル関心地点のステータスタグの同義語を確定すること、および
前記サンプル関心地点の名称を含む検索語句履歴から、事前設定された数の目標検索語句を確定し、かつ確定された目標検索語句から確定された、前記サンプル関心地点のステータスタグの意味との類似度が事前設定された類似度の閾値を超えた単語を、前記サンプル関心地点のステータスタグの同義語とすること、
の少なくとも一方に基づいて確定される請求項5に記載の方法。
【請求項7】
関心地点の名称の同義語は、
事前設定された百科データベースから、関心地点の名称の同義語を確定することと、
関心地点の名称を検索ワードとして検索し、かつ検索によるマッチング実体を関心地点の名称の同義語とすることであって、前記マッチング実体は、事前設定された数の検索結果に含まれる実体のうち、関心地点の名称との最長共通サブストリングの、その名称に占める比率が、事前設定された比率の閾値を超えた実体であることと、
関心地点の名称を検索ワードとして検索し、事前設定された数の検索結果から関心地点の名称を含む語句を抽出し、共参照解析ツールを利用して、抽出された語句から関心地点の名称を示すための単語を同義語として確定することと、
のうちの少なくとも1つに基づいて確定され、
前記関心地点は、前記検出すべき関心地点および前記サンプル関心地点のうちの一方である請求項2または請求項5に記載の方法。
【請求項8】
インターネットテキストマイニングに基づく関心地点の有効性の判断装置であって、
検出すべき関心地点を示すための検索ワード集合を確定するように構成される検索ワード確定ユニットと、
確定された検索ワードを検索キーワードとして検索し、前記検出すべき関心地点を記述するための記述情報集合を取得するように構成される記述情報確定ユニットと、
前記検出すべき関心地点の名称と前記記述情報集合における記述情報を事前構築された有効性判別モデルに入力し、前記検出すべき関心地点の有効性を示すためのステータスタグを取得するように構成される有効性判断ユニットと、
サンプル関心地点の名称、前記サンプル関心地点の記述情報を入力とし、前記サンプル関心地点のステータスタグを目標とし、初期注意モデルを訓練して、前記有効性判別モデルを取得するように構成される訓練ユニットと、を備える装置。
【請求項9】
前記検索ワード確定ユニットはさらに、
前記検出すべき関心地点の名称と前記検出すべき関心地点の名称の同義語を、前記検索ワード集合における検索ワードとするように構成される請求項8に記載の装置。
【請求項10】
前記事前構築された有効性判別モデルは注意モデルである請求項8に記載の装置。
【請求項11】
前記注意モデルは意味認識サブモデルと特徴抽出サブモデルを含み、前記訓練ユニットはさらに、
1つのサンプル関心地点について、該サンプル関心地点の名称と該サンプル関心地点の記述情報の1つを意味認識サブモデルに入力し、該記述情報を特徴抽出サブモデルに入力し、意味認識サブモデルと特徴抽出サブモデルから出力された特徴ベクトルを繋ぎ合わせて、該サンプル関心地点を記述するための該記述情報の特徴ベクトルを取得し、
該サンプル関心地点の各記述情報の特徴ベクトルの加重総和を確定し、
前記加重総和に基づいて該サンプル関心地点のステータスタグに属する確率値を確定し、
事前設定された損失関数に基づいて、各サンプル関心地点の実際のタグにおける確率値の損失値を確定し、確定された損失値を注意モデルにおいてバックプロパゲーションし、注意モデルのモデルパラメータを調整して、前記有効性判別モデルを取得するように構成される請求項10に記載の装置。
【請求項12】
前記サンプル関心地点の記述情報は、
サンプル関心地点の名称とサンプル関心地点の名称の同義語とからなる第1同義語集合を確定することと、
サンプル関心地点のステータスタグとサンプル関心地点のステータスタグの同義語とからなる第2同義語集合を確定することと、
前記第1同義語集合から確定された第1同義語と前記第2同義語集合から確定された第2同義語を検索ワードとして検索し、検索結果のうち、第1同義語と第2同義語の両方が共にヒットされた語句をサンプル関心地点の記述情報とすることと、
によって取得される請求項10に記載の装置。
【請求項13】
前記サンプル関心地点のステータスタグの同義語は、
事前設定された同義語データベースから、前記サンプル関心地点のステータスタグの同義語を確定することと、
前記サンプル関心地点の名称を含む検索語句履歴から、事前設定された数の目標検索語句を確定し、かつ確定された目標検索語句から確定された、前記サンプル関心地点のステータスタグの意味との類似度が事前設定された類似度の閾値を超えた単語を前記サンプル関心地点のステータスタグの同義語とすることと、
の少なくとも一方に基づいて確定される請求項12に記載の装置。
【請求項14】
前記装置は、同義語確定ユニットをさらに含み、
前記同義語確定ユニットは、
事前設定された百科データベースから、関心地点の名称の同義語を確定することと、
関心地点の名称を検索ワードとして検索し、かつ検索によりマッチングされた実体を関心地点の名称の同義語とすることであって、前記マッチングされた実体は、事前設定された数の検索結果に含まれる実体のうち、関心地点の名称との最長共通サブストリングの、その名称に占める比率が、事前設定された比率の閾値を超えた実体であることと、
関心地点の名称を検索ワードとして検索し、事前設定された数の検索結果から関心地点の名称を含む語句を抽出し、共参照解析ツールを利用して、抽出された語句から関心地点の名称を示すための単語を同義語として確定することと、
のうちの少なくとも1つに基づいて関心地点の名称の同義語を確定するように構成され、
前記関心地点は、前記検出すべき関心地点および前記サンプル関心地点のうちの一方である請求項9または請求項12に記載の装置。
【請求項15】
1つまたは複数のプロセッサと、
1つまたは複数のプログラムを格納するための記憶装置と、を含む電子機器であって、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサにより実行されると、前記1つまたは複数のプロセッサに請求項1〜7のいずれか一項に記載の方法を実行させる電子機器。
【請求項16】
コンピュータプログラムが格納されているコンピュータ可読記憶媒体であって、
前記プログラムは、プロセッサにより実行されると、請求項1〜7のいずれか一項に記載の方法を実行するコンピュータ可読記憶媒体。
【請求項17】
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項1〜7のいずれか一項に記載の方法を実現する、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施例は、インターネット分野に関し、詳しくはインターネットテキストマイニング分野、特にインターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置に関する。
【背景技術】
【0002】
POI(Point of Interest,関心地点)とは、商店、病院、ガソリンスタンド、駅、レストランなど地図上の非地理的な意味を持つ任意の点を指す。1つのPOIには、名称、カテゴリ、座標など複数の情報が含まれ得る。例えば、POIのカテゴリには美食、ホテル、ショッピング、生活サービスなどが含まれ得る。1つのカテゴリにはさらに複数のサブカテゴリが含まれ得る。例えば、「美食」というカテゴリにはさらに中華料理店、外国料理レストラン、スナックバー、ケーキデザートショップ、カフェ、茶屋、バーなどのサブカテゴリが含まれ得る。
【0003】
現在、地図のような製品(例えば、地図アプリケーション、ナビゲーションアプリケーションなど)では、無効なPOIの発見は主にユーザのフィードバックに依存している。例えば、ユーザはナビゲーションアプリケーションを使用して特定のPOI位置に到達し、該POIが移転したと気づいた場合、該ナビゲーションアプリケーションを操作することで、該POIの無効を示す情報を、ナビゲーションサービスを提供するサーバにフィードバックすることができる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明の実施例は、インターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置を提供する。
【課題を解決するための手段】
【0005】
第1態様では、本発明の実施例は、インターネットテキストマイニングに基づく関心地点の有効性の判断方法であって、検出すべき関心地点を示すための検索ワード集合を確定するステップと、確定された検索ワードを検索キーワードとして検索し、検出すべき関心地点を記述するための記述情報集合を取得するステップと、検出すべき関心地点の名称と記述情報集合における記述情報を事前構築された有効性判別モデルに入力し、検出すべき関心地点の有効性を示すためのステータスタグを取得するステップと、を含む方法を提供する。
【0006】
いくつかの実施例では、検出すべき関心地点を示すための検索ワード集合を確定するステップは、検出すべき関心地点の名称と検出すべき関心地点の名称の同義語を検索ワード集合における検索ワードとすることを含む。
【0007】
いくつかの実施例では、事前構築された有効性判別モデルは注意モデルであり、有効性判別モデルは、サンプル関心地点の名称、サンプル関心地点の記述情報を入力とし、サンプル関心地点のステータスタグを目標とし、初期注意モデルを訓練して、有効性判別モデルを取得する訓練ステップにより取得される。
【0008】
いくつかの実施例では、注意モデルは意味認識サブモデルと特徴抽出サブモデルを含み、訓練ステップはさらに、1つのサンプル関心地点について、該サンプル関心地点の名称と該サンプル関心地点の記述情報の1つを意味認識サブモデルに入力し、該記述情報を特徴抽出サブモデルに入力し、意味認識サブモデルと特徴抽出サブモデルから出力された特徴ベクトルを繋ぎ合わせて、該サンプル関心地点を記述するための該記述情報の特徴ベクトルを取得することと、該サンプル関心地点の各記述情報の特徴ベクトルの加重総和を確定することと、加重総和に基づいて該サンプル関心地点のステータスタグに属する確率値を確定することと、事前設定された損失関数に基づいて、実際のタグにおける各サンプル関心地点の確率値の損失値を確定し、確定された損失値を注意モデルにおいてバックプロパゲーションし、注意モデルのモデルパラメータを調整して、有効性判別モデルを取得することと、を含む。
【0009】
いくつかの実施例では、サンプル関心地点の記述情報は、サンプル関心地点の名称とサンプル関心地点の名称の同義語とからなる第1同義語集合を確定することと、サンプル関心地点のステータスタグとサンプル関心地点のステータスタグの同義語とからなる第2同義語集合を確定することと、第1同義語集合から確定された第1同義語と第2同義語集合から確定された第2同義語を検索ワードとして検索し、検索結果のうち、第1同義語と第2同義語の両方が共にヒットされた語句をサンプル関心地点の記述情報とすることと、によって取得される。
【0010】
いくつかの実施例では、サンプル関心地点のステータスタグの同義語は、事前設定された同義語データベースから、サンプル関心地点のステータスタグの同義語を確定することと、サンプル関心地点の名称を含む検索語句履歴から、事前設定された数の目標検索語句を確定し、かつ確定された目標検索語句から確定された、サンプル関心地点のステータスタグの意味との類似度が事前設定された類似度の閾値を超えた単語を、サンプル関心地点のステータスタグの同義語とすることと、の少なくとも一方に基づいて確定される。
【0011】
いくつかの実施例では、関心地点の名称の同義語は、事前設定された百科データベースから、関心地点の名称の同義語を確定することと、関心地点の名称を検索ワードとして検索し、かつ検索によりマッチングされた実体を関心地点の名称の同義語とすることであって、マッチングされた実体は、事前設定された数の検索結果に含まれる実体のうち、関心地点の名称との最長共通サブストリングの、その名称に占める比率が、事前設定された比率の閾値を超えた実体であることと、関心地点の名称を検索ワードとして検索し、事前設定された数の検索結果から関心地点の名称を含む語句を抽出し、共参照解析ツールを利用して、抽出された語句から関心地点の名称を示すための単語を同義語として確定することと、のうちの少なくとも1つに基づいて確定され、ここでは、関心地点は、検出すべき関心地点およびサンプル関心地点のうちの一方である。
【0012】
第2の態様では、本発明の実施例は、インターネットテキストマイニングに基づく関心地点の有効性の判断装置であって、検出すべき関心地点を示すための検索ワード集合を確定するように構成される検索ワード確定ユニットと、確定された検索ワードを検索キーワードとして検索し、検出すべき関心地点を記述するための記述情報集合を取得するように構成される記述情報確定ユニットと、検出すべき関心地点の名称と記述情報集合における記述情報を事前構築された有効性判別モデルに入力し、検出すべき関心地点の有効性を示すためのステータスタグを取得するように構成される有効性判断ユニットと、を備える装置を提供する。
【0013】
いくつかの実施例では、検索ワード確定ユニットはさらに、検出すべき関心地点の名称と検出すべき関心地点の名称の同義語を、検索ワード集合における検索ワードとするように構成される。
【0014】
いくつかの実施例では、事前構築された有効性判別モデルは注意モデルであり、装置はさらに訓練ユニットを含み、訓練ユニットはさらに、サンプル関心地点の名称、サンプル関心地点の記述情報を入力とし、サンプル関心地点のステータスタグを目標とし、初期注意モデルを訓練して、有効性判別モデルを取得するように構成される。
【0015】
いくつかの実施例では、注意モデルは意味認識サブモデルと特徴抽出サブモデルを含み、訓練ユニットはさらに、1つのサンプル関心地点について、該サンプル関心地点の名称と該サンプル関心地点の記述情報の1つを意味認識サブモデルに入力し、該記述情報を特徴抽出サブモデルに入力し、意味認識サブモデルと特徴抽出サブモデルから出力された特徴ベクトルを繋ぎ合わせて、該サンプル関心地点を記述するための該記述情報の特徴ベクトルを取得し、該サンプル関心地点の各記述情報の特徴ベクトルの加重総和を確定し、加重総和に基づいて該サンプル関心地点のステータスタグに属する確率値を確定し、事前設定された損失関数に基づいて、各サンプル関心地点の実際のタグにおける確率値の損失値を確定し、確定された損失値を注意モデルにおいてバックプロパゲーションし、注意モデルのモデルパラメータを調整して、有効性判別モデルを取得するように構成される。
【0016】
いくつかの実施例では、サンプル関心地点の記述情報は、サンプル関心地点の名称とサンプル関心地点の名称の同義語とからなる第1同義語集合を確定することと、サンプル関心地点のステータスタグとサンプル関心地点のステータスタグの同義語とからなる第2同義語集合を確定することと、第1同義語集合から確定された第1同義語と第2同義語集合から確定された第2同義語を検索ワードとして検索し、検索結果のうち、第1同義語と第2同義語の両方が共にヒットされた語句をサンプル関心地点の記述情報とすることと、によって取得される。
【0017】
いくつかの実施例では、サンプル関心地点のステータスタグの同義語は、事前設定された同義語データベースから、サンプル関心地点のステータスタグの同義語を確定することと、サンプル関心地点の名称を含む検索語句履歴から、事前設定された数の目標検索語句を確定し、かつ確定された目標検索語句から確定された、サンプル関心地点のステータスタグの意味との類似度が事前設定された類似度の閾値を超えた単語をサンプル関心地点のステータスタグの同義語とすることと、の少なくとも一方に基づいて確定される。
【0018】
いくつかの実施例では、装置は、同義語確定ユニットをさらに含み、同義語確定ユニットは、事前設定された百科データベースから、関心地点の名称の同義語を確定することと、関心地点の名称を検索ワードとして検索し、かつ検索によりマッチングされた実体を関心地点の名称の同義語とすることであって、マッチングされた実体は事前設定された数の検索結果に含まれる実体のうち、関心地点の名称との最長共通サブストリングの、その名称に占める比率が、事前設定された比率の閾値を超えた実体であることと、関心地点の名称を検索ワードとして検索し、事前設定された数の検索結果から関心地点の名称を含む語句を抽出し、共参照解析ツールを利用して、抽出された語句から関心地点の名称を示すための単語を同義語として確定することと、のうちの少なくとも1つに基づいて関心地点の名称の同義語を確定するように構成され、ここでは、関心地点は、検出すべき関心地点およびサンプル関心地点のうちの一方である。
【0019】
第3の態様では、本発明の実施例は、1つまたは複数のプロセッサと、1つまたは複数のプログラムを格納するための記憶装置と、を含む電子機器であって、1つまたは複数のプログラムが1つまたは複数のプロセッサにより実行されると、1つまたは複数のプロセッサに第1の態様に記載の方法を実行させる電子機器を提供する。
【0020】
第4の態様では、本発明の実施例は、コンピュータプログラムが格納されているコンピュータ可読記憶媒体であって、プログラムは、プロセッサにより実行されると、第1の態様に記載の方法を実行するコンピュータ可読記憶媒体を提供する。
【0021】
本発明の実施例により提供されたインターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置によれば、まず、検出すべき関心地点を示すための検索ワード集合を確定し、そして、確定された検索ワードを検索キーワードとして検索し、検索集合における検索ワードを記述するための記述情報集合を取得し、さらに、検出すべき関心地点の名称と記述情報集合における記述情報を構築された有効性判別モデルに入力し、検出すべき関心地点の有効性を示すためのステータスタグを取得し、インターネットテキストに対するマイニングを通じて、かつモデルに基づいてPOIの有効性を確定することで、無効なPOI情報(例えば、地図アプリケーションまたはナビゲーションアプリケーションに存在する無効なPOI情報)を適時に発見することができ、ユーザに正確な情報を提供することができ、ユーザのニーズを満たし、ユーザーエクスペリエンスを高めることができる。
【図面の簡単な説明】
【0022】
本発明のその他の特徴、目的及び利点は、以下の図面を参照してなされる非限定的な実施例に係る詳細な説明を読むことにより、より明らかになるであろう。
図1図1は、本発明の一実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法が適用できる例示的なシステムアーキテクチャを示す図である。
図2図2は、本発明に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法の一実施例を示すフローチャートである。
図3図3は、本発明に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法の適用シナリオの一例を示す概略図である。
図4図4は、本発明に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法のもう1つの実施例を示すフローチャートである。
図5図5は、本発明に係る有効性判別モデルの1つの任意選択実施形態を示す概略的構成図である。
図6図6は、本発明に係る有効性判別モデルの訓練方法の1つの任意選択実施形態を示す概略的フローチャートである。
図7図7は、本発明に係る有効性判別モデルにおける、意味認識サブモデルの1つの任意選択実施形態を示す概略的構成図である。
図8図8は、本発明に係るインターネットテキストマイニングに基づく関心地点の有効性の判断装置の一実施例を示す構成図である。
図9図9は、本発明の実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法を達成するための電子機器に適用されるコンピュータシステムの構成概略図である。
【発明を実施するための形態】
【0023】
以下、図面と実施例を参照しつつ、本発明をより詳細に説明する。ここに記載する具体的な実施形態が単に関連する発明を説明するためのものに過ぎず、当該発明への限定ではないことは、言うまでもない。また、注意すべきは、理解し易くするために、図面においては発明に関連する部分しか示されていない。
【0024】
注意すべきは、矛盾を生じない限り、本発明における実施例と実施形態における特徴は相互に組み合わせることができる。以下、図面を参照しつつ、実施例を踏まえて、本発明を詳しく説明する。
【0025】
図1は本発明のインターネットテキストマイニングに基づく関心地点の有効性の判断方法またはインターネットテキストマイニングに基づく関心地点の有効性の判断装置を適用できる実施例の例示的なシステムアーキテクチャ100を示している。
【0026】
図1に示すように、システムアーキテクチャ100は、端末装置101,102,103、ネットワーク104及びサーバ105を含み得る。ネットワーク104は、端末装置101,102,103とサーバ105の間で通信リンクの媒体を提供する。ネットワーク104は、有線、無線通信リンク、光ファイバケーブルなどの様々な種類の接続を含み得る。
【0027】
端末装置101,102,103は、ハードウェアでも、ソフトウェアであってもよい。端末装置101,102,103は、ハードウェアである場合、ディスプレイを備える様々な電子機器であってもよく、スマートフォン、タブレット、電子書籍リーダー、MP3(Moving Picture Experts Group Audio Layer III,ムービングピクチャーエクスパーツグループオーディオレイヤー3)プレーヤ、MP4(Moving Picture Experts Group Audio Layer IV,ムービングピクチャーエクスパーツグループオーディオレイヤー4)プレーヤ、ラップトップコンピュータおよびデスクトップコンピュータなどを含むが、それらに限定されない。端末装置101,102,103はソフトウェアである場合、上記の電子機器にインストールすることができる。それは、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散型サービスを提供するための複数のソフトウェアまたはソフトウェアモジュール)となってもよく、単一のソフトウェアまたはソフトウェアモジュールとなってもよい。ここでは具体的に限定しない。
【0028】
サーバ105は、様々なサービスを提供するサーバ、例えば、端末装置101,102,103を使用するユーザにナビゲーションサービスを提供可能なナビゲーションサーバであり得る。ナビゲーションサーバは、受信したユーザのナビゲーション先などのデータを解析し、処理結果(例えば、解析結果に基づいて確定された該ナビゲーション先が示すPOIが有効であるか否かを示す情報)を端末装置にフィードバックすることができる。
【0029】
なお、本発明の実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法は、サーバ104によって実行されてもよい。したがって、インターネットテキストマイニングに基づく関心地点の有効性の判断装置は、サーバ104に設けられてもよい。
【0030】
図1の端末装置101,102,103、ネットワーク104、およびサーバ105の数は単なる例示であることを理解されたい。必要に応じて、端末装置、ネットワーク、およびサーバの数を任意に加減してもよい。
【0031】
引き続き図2を参照すると、本発明の実施形態に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法の一実施形態のフロー200が示されている。該インターネットテキストマイニングに基づく関心地点の有効性の判断方法は、以下のステップを含む。
【0032】
ステップ201:検出すべき関心地点を示すための検索ワード集合を確定する。
【0033】
検出すべきPOIは、地図アプリケーションまたはナビゲーションアプリケーションにおける任意のPOIであり得る。
【0034】
いくつかの任意選択実施形態では、地図アプリケーションまたはナビゲーションアプリケーションのサービスプロバイダは、地図および/またはナビゲーションサービスを提供できるPOIの名称および関連情報を格納できるPOIデータベースを維持することができる。
【0035】
これらの任意選択実施形態のいくつかの適用シナリオでは、地図アプリケーションまたはナビゲーションアプリケーションのサービスプロバイダは、それによって提供されるPOIの正確度を向上させるために、定期的に(例えば、所定の時間間隔で)または不定期的にPOIデータベース内のPOIステータスを更新することができる。
【0036】
これらの適用シナリオでは、検出すべき関心地点は、POIデータベース内の現在更新され確認される必要がある任意のPOIであり得る。
【0037】
または、他の適用シナリオでは、地図アプリケーションまたはナビゲーションアプリケーションを使用するユーザは、自分が行きたい行き先として特定のPOIの名称を入力する。そして、サービスプロバイダは、このPOIを検出すべき関心地点とすることができる。
【0038】
本実施例では、インターネットテキストマイニングに基づく関心地点の有効性の判断方法の実行主体(例えば、図1に示すサーバ105)は、検出すべき関心地点を示すための検索ワード集合を様々な実施可能な方法で確定することができる。
【0039】
例えば、いくつかの任意選択実施形態として、検出すべきPOIの名称は、検索ワード集合における検索ワードとして直接使用されてもよい。
【0040】
または、他のいくつかの任意選択実施形態では、複数種の言語による検出すべきPOIの名称を検索ワード集合の検索ワードとすることができる。例えば、検出すべきPOIが「北京首都国際空港」である場合、この検出すべきPOIの中国語名称「北京首都国際空港」および対応する英語名称「Beijing Capital International Airport」を検索ワード集合の検索ワードとすることができる。
【0041】
または、さらなる他のいくつかの任意選択実施形態では、検出すべきPOIの略称を検索ワード集合の検索ワードとすることができる。例えば、検出すべきPOIが「北京首都国際空港」である場合、「北京首都国際空港」の略称である「首都国際空港」または「首都空港」などを検索ワード集合の検索ワードとすることができる。
【0042】
ステップ202:確定された検索ワードを検索キーワードとして検索し、検出すべき関心地点を記述するための記述情報集合を取得する。
【0043】
ここで、例えば、検索ワード集合の検索ワードは、検索結果を得るためのクエリ(query)として使用することができる。
【0044】
言うまでもなく、検索ワード集合における検索ワードのそれぞれについて、それをクエリとして検索すると、一連の検索結果を得られる。これらの検索結果は、例えば、検索結果ページに提示されているリンクの形式であり得る。
【0045】
いくつかの任意選択実施形態では、検索結果ページ上に表示された、事前設定された数の検索結果リンクによってリンクされているページにおける、検索ワードを記述するための語句を、検出すべき関心地点を記述するための記述情報とすることができる。
【0046】
詳しくは、これらの任意選択実施形態のいくつかの適用シナリオでは、検出すべきPOIの名称が「北京首都国際空港」であり、かつ「首都空港」が検索ワード集合における検索ワードの1つである場合、「首都空港」をクエリとして検索を行い、一連の検索結果を取得することができる。例えば、「最近の首都空港はより厳格な保安検査措置を講じていますので、乗客の皆様は早めに空港に到着し、チェックインおよびチェックアップの手続きを行ってください。」という語句を含む検索結果リンクの1つをクリックした場合、この語句は「北京首都国際空港」という検出すべきPOIの記述情報の1つとすることができる。
【0047】
ステップ203:検出すべき関心地点の名称と記述情報集合における記述情報を事前設定された有効性判別モデルに入力し、検出すべき関心地点の有効性を示すステータスタグを取得する。
【0048】
このステップにおける有効性判別モデルは、検出すべき関心地点の名称および記述情報集合における記述情報に従って、この検出すべき関心地点のステータスタグを確定することができる。ここで、「有効性」とは、検出すべき関心地点が現在有効な状態にあるか否かと理解することができる。
【0049】
例えば、検出すべき関心地点はAモールである場合、Aモールの有効性を示すステータスタグには、「営業」、「休業」、「閉店」、「移転」などがあり得る。言うまでもなく、これらのステータスタグのうち、「営業」はAモールが有効な状態にあることを示すためのステータスタグであり得るが、「休業」、「閉店」、「移転」はAモールが無効な状態にあることを示すためのステータスタグであり得る。
【0050】
いくつかの任意選択実施形態では、例えば、POIの有効性を示すためのステータスタグのステータスタグ集合を事前設定することができる。
【0051】
これらの任意選択実施形態では、ステータスタグ集合におけるステータスタグのそれぞれを、記述情報集合における記述情報にマッチングすることができる。例えば、記述情報とステータスタグとの間の意味類似度を確定し、ステータスタグ集合における、記述情報集合の記述情報との意味類似度が最も高いステータスタグを、この検出すべき関心地点の有効性を示すためのステータスタグとする。
【0052】
本実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法によれば、まず、検出すべき関心地点を示すための検索ワード集合を確定し、そして、確定された検索ワードを検索キーワードとして検索し、検索集合における検索ワードを記述するための記述情報集合を取得し、さらに、検出すべき関心地点の名称と記述情報集合における記述情報を事前構築された有効性判別モデルに入力し、検出すべき関心地点の有効性を示すためのステータスタグを取得し、インターネットテキストに対するマイニングを通じて、かつモデルに基づいてPOIの有効性を確定することで、地図における無効なPOI情報を適時に発見することができ、ユーザに正確な情報を提供することができ、ユーザのニーズを満たし、ユーザーエクスペリエンスを高めることができる。
【0053】
次に図3を参照する。図3は、本実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法の適用シナリオの一例を示す概略図300である。
【0054】
図3に示す適用シナリオでは、地図またはナビゲーションサービスのサービスプロバイダは、POIを格納するデータベース301から、検出すべきPOIである「XXX衣料品卸売市場」を取得する。
【0055】
そして、符号302に示すように、検出すべきPOIの検索ワード集合を確定することができる。検索ワード集合には、検索ワードである「XXX衣料品卸売市場」、「XXX衣料品市場」および「XXX卸売市場」が含まれる。
【0056】
そして、符号303に示すように、検索ワード「XXX衣料品卸売市場」、「XXX衣料品市場」および「XXX卸売市場」をそれぞれ検索キーワードとして検索し、一連の検索結果を得られる。検索結果から、検索ワードを記述するための語句を抽出し、「XXX衣料品卸売市場」という検出すべきPOIの記述情報として、記述情報集合を形成することができる。
【0057】
そして、符号303に示すように、検出すべきPOIである「XXX衣料品卸売市場」と記述情報集合を事前構築された有効性判別モデルに入力することで、「XXX衣料品卸売市場」が有効か否かを示すためのステータスタグ(例えば、「移転」)を取得する。このように、本実施例に係る方法によれば、検出すべきPOIが有効の状態にあるか否かを判定することができるので、該地図やナビゲーションアプリケーションを利用するユーザは、POI検索および/またはナビゲーションを行う際に、適時に該POIの正確な状態を取得し、より正確な地図および/またはナビゲーション情報を取得することができる。
【0058】
本実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法のいくつかの任意選択実施形態では、検出すべき関心地点を示すための検索ワード集合を確定するステップ201は、検出すべき関心地点の名称と検出すべき関心地点の名称の同義語を確定し、検索ワード集合における検索ワードとすることを含み得る。
【0059】
通常、あるPOIの正式なかつ正確な名称は、最も公衆に知られるかまたは使われている名称ではない。この場合、検出すべきPOIの記述情報をできるだけ包括的かつ正確に収集するために、そして収集された記述情報の多様性不足によるステータスタグの誤判定を防止するために、検出すべきPOIの検索ワード集合を確定するに当たっては、検出すべきPOIの名称を検索ワード集合における検索ワードとするほか、この検出すべきPOIの同義語を検索ワード集合における検索ワードとすることもできる。
【0060】
これらの任意選択実施形態のいくつかの適用シナリオでは、事前設定された百科データベースから、検出すべきPOIの名称の同義語を確定することができる。通常には、百科データベースは、格納されるデータの範囲が広く正確性が高いという特徴を有する。また、百科データベースの各エントリーのデータには、通常、そのエントリーの同義語が含まれている。
【0061】
これらの任意選択実施形態の他の適用シナリオでは、検出すべきPOIの名称を検索ワードとして検索し、検索によるマッチング実体を関心地点の名称の同義語とすることもできる。ここで、マッチング実体は、事前設定された数の検索結果に含まれる実体のうち、検出すべき関心地点の名称との最長共通サブストリングのその名称に占める比率が事前設定された比率の閾値を超えた実体であってもよい。
【0062】
これらの適用シナリオでは、例えば、検出すべきPOIは「AAA衣料品市場」である場合、「AAA衣料品市場」を検索ワードとして検索することができる。検索結果ページに表示された検索結果から、最初のN件(例えば、上位10件)の検索結果を選択する。これらのN件の検索結果から、固有表現抽出(Named Entity Recognition,NER)アルゴリズムによって候補実体を決定する。候補実体のうち、検出すべきPOIとの最長共通サブストリングのその名称に占める比率が事前設定された比率の閾値(例えば、50%)を超えた候補実体を、マッチング実体とする。
【0063】
最長共通サブストリングは、最大共通サブストリングとも呼ばれ、2つまたは複数の文字列に含まれる共通サブストリングのうちの最も長いサブストリングを指すことができる。例えば、ある候補実体は「AAA衣料品卸売市場」である場合、この候補実体と検出すべきPOIの名称との間の最大共通サブストリングは「AAA衣料品」である。ここで、最大共通サブストリングである「AAA衣料品」が「AAA衣料品卸売市場」という実体名称に占める比率(5/9)は50%を超えているので、「AAA衣料品卸売市場」を検出すべきPOIである「AAA衣料品市場」の同義語とすることができる。
【0064】
これらの任意選択実施形態の別のいくつかの適用シナリオでは、検出すべきPOIの名称を検索ワードとして検索し、事前設定された数の検索結果からこの検出すべきPOIの名称を含む語句を抽出し、共参照解析ツールを利用して、抽出された語句から関心地点の名称を示すための単語を同義語として確定することもできる。
【0065】
実際の生活の中では、人々は重複を避けるために往々にして代詞、呼称および略語をもって、前に言及した実体の正式名称を示す。共参照解析(coreference resolution)とは、同一の実体を特徴付けるためのすべての代名詞をテキストから確定するための技術である。
【0066】
共参照解析ツールを利用すれば、検出すべきPOIを検索ワードとして検索した所定数の検索結果(例えば、上位N件の検索結果)から、この検出すべきPOIを示すための代名詞を確定し、かつ確定された単語を検出すべきPOIの名称の同義語とすることができる。
【0067】
共参照解析アルゴリズムは、現在広く研究されている技術である。当業者は、既存または将来開発予定の共参照解析アルゴリズムを利用して、検出すべきPOIを検索ワードとして検索した所定数の検索結果から、この検出すべきPOIを示すための代名詞を確定することができる。
【0068】
言うまでもなく、確定された検索ワード集合に含まれている検出すべきPOIの同義語がより全面的なものになるように、上記の検出すべきPOIの同義語を確定する方式における任意の少なくとも二者の組み合わせを採用して、検出すべきPOIの同義語を確定することもできる。
【0069】
さらに図4を参照すると、インターネットテキストマイニングに基づく関心地点の有効性の判断方法のもう1つの実施例のフロー400が示されている。このインターネットテキストマイニングに基づく関心地点の有効性の判断方法のフロー400は、以下のステップを含む。
【0070】
ステップ401:検出すべき関心地点を示すための検索ワード集合を確定する。
【0071】
ステップ402:確定された検索ワードを検索キーワードとして検索し、検出すべき関心地点を記述するための記述情報集合を取得する。
【0072】
ステップ403:検出すべき関心地点の名称と記述情報集合における記述情報を事前構築された有効性判別モデルに入力し、検出すべき関心地点の有効性を示すためのステータスタグを取得する。
【0073】
前述のステップ401〜403は、図2に示す実施例のステップ201〜203と同様に実行することができ、詳細はここで省略する。
【0074】
図2に示した実施例との相違点は、本実施例では、事前構築された有効性判別モデルが注意モデルである。
【0075】
注意モデル(Attention Model)は、人間の脳の注意モデルを模擬している。例えば、私たちは、絵を観察するとき、絵全体を見ることができるが、注意深くそして細かく観察する場合、実際、目が焦点を合わせているのはとても小さな部分に過ぎない。この場合、人間の脳は主にこの小さな部分の画像に注目している。つまり、全体像に対する人間の脳による注目は、バランスがとれておらず、ある程度の重みのかたよりがある。これこそ、ディープラーニングにおけるAttention Modelの中核的な構想である。
【0076】
本実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法を適用するに当たって、注意モデルは、入力された記述情報ごとにそれぞれ重みを決定し、かつ検出すべきPOIの各記述情報の加重総和に従って、確率が最も高いステータスタグを確定し、この検出すべきPOIの有効性を示すためのステータスタグとすることができる。
【0077】
図4をあわせると、本実施例では、注意モデルは以下のステップを通じて訓練して得ることができる。
【0078】
ステップ404:サンプル関心地点の名称、サンプル関心地点の記述情報を入力とし、サンプル関心地点のステータスタグを目標とし、初期注意モデルを訓練して、有効性判別モデルを取得する。
【0079】
初期の注意モデルのために初期のパラメータを設定し、サンプル関心地点の実際のステータスタグの確率を取得することができる。モデルから出力されるサンプル関心地点の実際のステータスタグの確率ができるだけ100%に近づくように、モデルにおけるパラメータを連続的に調整する。
【0080】
いくつかの適用シナリオでは、サンプル関心地点の記述情報は以下の方式で取得することができる。
【0081】
まず、サンプル関心地点の名称とサンプル関心地点の名称の同義語とからなる第1同義語集合を確定する。例えば、サンプル関心地点の名称がAであり、サンプル関心地点の同義語にA,…,Aがある場合、第1同義語集合はSet_name={A,A,…,A}となる。
【0082】
言うまでもなく、本実施例では、サンプル関心地点の名称の同義語は、図2に示す実施例における検出すべき関心地点の確定方式と類似する方式で行うことができる。例えば、事前設定された百科データベースから、サンプル関心地点の名称の同義語を確定することができる。および/または、サンプル関心地点の名称を検索ワードとして検索し、かつ検索して取得したマッチング実体をサンプル関心地点の名称の同義語とすることもできる。なお、マッチング実体は、事前設定された数の検索結果に含まれている実体のうち、サンプル関心地点の名称との最長共通サブストリングのその名称に占める比率が事前設定された比率の閾値を超えた実体である。および/または、サンプル関心地点の名称を検索ワードとして検索し、事前設定された数の検索結果からサンプル関心地点の名称を含む語句を抽出し、共参照解析ツールを利用して、抽出された語句からサンプル関心地点の名称を示すための単語を同義語として確定することもできる。
【0083】
そして、サンプル関心地点のステータスタグとサンプル関心地点のステータスタグの同義語とからなる第2同義語集合を確定する。例えば、関心地点のステータスタグはBであり、ステータスタグの同義語にB,…,Bがある場合、第2同義語集合はSet_lable={B,B,…,B}となる。
【0084】
任意選択的に、ステータスタグの同義語は、以下の少なくとも1つに基づいて確定することができる。
【0085】
事前設定された同義語データベースから、サンプル関心地点のステータスタグの同義語を確定する。および/または、サンプル関心地点の名称を含む検索語句履歴から、事前設定された数の目標検索語句を確定し、かつ確定された目標検索語句から確定された、サンプル関心地点のステータスタグの意味との類似度が事前設定された類似度の閾値を超えた単語を、サンプル関心地点のステータスタグの同義語とすることができる。
【0086】
最後に、第1同義語集合から確定された第1同義語と第2同義語集合から確定された第2同義語を検索ワードとして検索し、かつ検索結果において第1同義語と第2同義語の両方が共にヒットされた語句をサンプル関心地点の記述情報とする。
【0087】
例えば、第1同義語集合がSet_name={A,A,…,A}であり、第2同義語集合がSet_lable={B,B,…,B}である場合、検索ワード集合L={AB,AB,…,AB,AB,A…,A,…,A}を取得することができる。検索ワード集合における要素それぞれを検索ワードとして検索し、検索結果において第1同義語と第2同義語の両方が共にヒットされた語句をサンプル関心地点の記述情報とする。
【0088】
言うまでもなく、サンプル関心地点並びにその記述情報およびステータスタグを収集するプロセスにおいて、最終的に訓練して取得するモデルの予測正確率をより高めるために、訓練サンプルには、正のサンプルが含まれてもよく、負のサンプルが含まれてもよい。すなわち、訓練サンプルには、ステータスタグが該サンプル関心地点が有効な状態にあることを示すサンプルもあれば、ステータスタグが該サンプル関心地点が無効な状態にあることを示すサンプルもあることが可能である。
【0089】
以下、さらに図5図6を参照しながら、本実施例のいくつかの任意選択実施形態における注意モデルの構成とその訓練方式を説明する。
【0090】
詳しくは、図5は本実施例のいくつかの任意選択実施形態における注意モデルの具体的な構成を示し、図6はこれらの任意選択実施形態における注意モデルの訓練ステップの具体的な実施プロセスを示す。
【0091】
図5に示すように、注意モデル500は、意味認識サブモデル501、特徴抽出サブモデル502、加重総和ユニット503、線形化ユニット504および分類器505などの構成を含み得る。
【0092】
意味認識サブモデル501は、入力されたサンプルPOIの名称と特定の記述情報s(i=1,2,…,n)の意味特徴を抽出し、意味特徴ベクトルを取得することに使用できる。
【0093】
特徴抽出サブモデル502は、サンプルPOIの名称および1つの記述情報s(i=1,2,…,n)から、1つまたは複数の事前設定されたルールに従って特徴抽出を行うことで、該サンプルPOIの該記述情報を特徴付ける記述特徴ベクトルを取得することに使用できる。
【0094】
いくつかの適用シナリオでは、特徴抽出サブモデル502は、事前設定されたルールに従って、記述情報に含まれるサンプル関心地点のステータスタグまたはサンプル関心地点のステータスタグの同義語の個数を示す特徴、および記述情報にはタグワードが含まれているか否かを示す特徴のうちの少なくとも一方を抽出することができる。言うまでもなく、ここで、タグワードはステータスタグそのものを含むほか、さらにステータスタグの同義語も含み得る。
【0095】
言うまでもなく、注意モデル500における意味認識サブモデル501と特徴抽出サブモデル502の具体的な個数は限定されない。
【0096】
詳しくは、注意モデルは1つの意味認識サブモデルと1つの特徴抽出サブモデルを含み得る。このようにして、意味認識サブモデルと特徴抽出サブモデルはサンプルPOIの名称並びに記述情報の意味特徴および記述特徴をそれぞれシリアルに抽出し、かつ該サンプルPOIに対する各記述情報の意味特徴ベクトルおよび記述特徴ベクトルをそれぞれ取得することができる。
【0097】
または、図5に示すように、注意モデル500は複数の意味認識サブモデル501と複数の特徴抽出サブモデル502を含むこともできる。このようにして、各意味認識サブモデルと各特徴抽出サブモデルは意味特徴抽出および記述特徴抽出をパラレルに行うことができる。
【0098】
なお、注意モデルはさらに加重総和ユニット503を含み得る。加重総和ユニット503は、サンプルPOIの記述情報のそれぞれを意味認識サブモデルで識別して得られた意味特徴ベクトルと特徴抽出サブモデルで抽出して得られた記述特徴ベクトルを繋ぎ合わせて繋ぎ合わせ特徴ベクトルを取得し、加重総和を求め、そして加重総和を線形化ユニット504で線形化し、最後に線形化の結果を分類器505で分類し、サンプルPOIがその実際のサンプルタグ(ground truth)を有する確率を取得することができる。
【0099】
このように、注意モデルのモデルパラメータを連続的に調整することによって、それ相応に加重総和ユニット503の加重係数を調整することができるので、注意モデルから出力されるサンプルPOIがその実際のサンプルタグに属する確率が連続的に増加する。
【0100】
図6を参照すると、注意モデルの訓練プロセスがさらに具体的に示されている。
【0101】
ステップ601では、サンプル関心地点の1つについて、該サンプル関心地点の名称と該サンプル関心地点の記述情報の1つを意味認識サブモデルに入力し、該記述情報を特徴抽出サブモデルに入力し、意味認識サブモデルと特徴抽出サブモデルから出力された特徴ベクトルを繋ぎ合わせて、該サンプル関心地点の記述情報を記述するための特徴ベクトルを取得する。
【0102】
いくつかの任意選択実施形態では、意味認識サブモデルは注意モデルであってもよい。図7を参照すると、注意モデルに基づく意味認識サブモデルの一実施例を示す例示的な構成図である。
【0103】
意味認識サブモデルは、名称特徴抽出サブモデル701、少なくとも1つの単語特徴抽出サブモデル702、および加重総和ユニット703を含む。名称特徴抽出サブモデル701および単語特徴抽出サブモデル702は両方とも、双方向LSTM(長・短期記憶、Long Short−Term Memory)に基づいてモデリングされて得られる。m個の単語を含む語句について、各単語x〜xを単語特徴抽出サブモデル702に入力し、一連の隠れベクトルh,h,…,hを得られる。さらに、名称特徴抽出サブモデルを使用してPOI名称について特徴抽出を行い、名称ベクトルvPOIを得られる。注意メカニズムを通じて、名称ベクトルvPOIおよび各隠れベクトルを使用してそれぞれ重みβ(i=1,2,…,m)を算出する。算出された重みβ,β,…,βmに基づき、加重総和ユニット703を使用して、記述情報の意味ベクトル表現vを算出する。
【0104】
詳しくは、次の通りである。
【0105】
【0106】
そして、意味認識サブモデルから得られた意味特徴ベクトルvと、特徴抽出サブモデルから抽出された記述特徴ベクトルとを繋ぎ合わせることで、各記述情報のベクトル表現Vsenを得られる。
【0107】
ステップ602では、該サンプル関心地点の各記述情報の特徴ベクトルの加重総和を確定する。
【0108】
詳しくは、注意メカニズムを使用して、該サンプル関心地点の各繋ぎ合わせ特徴ベクトルの加重総和vを算出する。
【0109】
【0110】
式中、vはモデルパラメータであり、訓練中に連続的に調整されることが可能である。
【0111】
ステップ603では、加重総和に基づき、該サンプル関心地点のステータスタグに属する確率値を確定する。
【0112】
詳しくは、ステップ602に基づいて取得された加重総和vについて線形変換を行い、かつ分類器に入力してタグ確率分布の予測を行う。ここで、最も確率の高いタグが該サンプルPOIのステータスタグとして予測される。
【0113】
ステップ604では、事前設定された損失関数に基づき、実際のタグにある各サンプル関心地点の確率値の損失値を確定し、確定された損失値を注意モデルにおいてバックプロパゲーションし、注意モデルのモデルパラメータを調整することで、有効性判別モデルを取得する。
【0114】
例えば、損失関数は正確なタグの負の対数尤度(negative log likelihood)であってもよい。
【0115】
【0116】
式中、公式(3)においては、jは訓練サンプル集合におけるi番目のサンプルPOIの正確なタグである。このようにして、上記の公式(3)を使用して、訓練サンプルの損失値を算出することができる。また、損失値のモデルにおけるバックプロパゲーション(例えば、確率的勾配降下法に基づくアルゴリズム)により、モデルパラメータを調整し、注意モデルを訓練することができる。
【0117】
図4図7から分かるように、図2に係る実施例と比較して、本実施例のインターネットテキストマイニングに基づく関心地点の有効性の判断方法のフロー400では、注意モデルに基づく有効性判別モデルを利用して、検出すべき関心地点のステータスタグを識別するので、有効性判別モデルは、POI状態の判定に重要な情報を記述情報から識別することができ、最終的に予測して得られたステータスタグがより正確になる。
【0118】
さらに図8を参照すると、上記の各図に示された方法の実施形態として、本発明は、インターネットテキストマイニングに基づく関心地点の有効性の判断装置の一実施例を提供している。この装置の実施例は、図2に示された方法の実施例に対応している。詳しくは、この装置は様々な電子機器に適用することができる。
【0119】
図8に示すように、本実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断装置は、検索ワード確定ユニット801、記述情報確定ユニット802および有効性判断ユニット803を含む。
【0120】
検索ワード確定ユニット801は、検出すべき関心地点を示すための検索ワード集合を確定するように構成され得る。
【0121】
記述情報確定ユニット802は、確定された検索ワードを検索キーワードとして検索し、検出すべき関心地点を示すための記述情報集合を取得するように構成され得る。
【0122】
有効性判断ユニット803は、検出すべき関心地点の名称と記述情報集合における記述情報を事前構築された有効性判別モデルに入力し、検出すべき関心地点の有効性を示すためのステータスタグを取得するように構成され得る。
【0123】
いくつかの任意選択実施形態では、検索ワード確定ユニット801はさらに、検出すべき関心地点の名称と検出すべき関心地点の名称の同義語を検索ワード集合における検索ワードとするように構成され得る。
【0124】
いくつかの任意選択実施形態では、事前構築された有効性判別モデルは、注意モデルであってもよい。
【0125】
これらの任意選択実施形態では、装置はさらに訓練ユニット(図示せず)を含み得る。訓練ユニットはさらに、サンプル関心地点の名称、サンプル関心地点の記述情報を入力とし、サンプル関心地点のステータスタグを目標とし、初期注意モデルを訓練して、有効性判別モデルを取得するように構成され得る。
【0126】
いくつかの任意選択実施形態では、注意モデルは、意味認識サブモデルと特徴抽出サブモデルを含み得る。
【0127】
これらの任意選択実施形態では、訓練ユニットはさらに、1つのサンプル関心地点について、該サンプル関心地点の名称と該サンプル関心地点の記述情報の1つを意味認識サブモデルに入力し、該記述情報を特徴抽出サブモデルに入力し、意味認識サブモデルと特徴抽出サブモデルから出力された特徴ベクトルを繋ぎ合わせて、該サンプル関心地点の該記述情報を記述するための特徴ベクトルを取得し、該サンプル関心地点の各記述情報の特徴ベクトルの加重総和を確定し、加重総和に基づいて該サンプル関心地点のステータスタグに属する確率値を確定し、事前設定された損失関数に基づいて、実際のタグにある各サンプル関心地点の確率値の損失値を確定し、確定された損失値を注意モデルにおいてバックプロパゲーションし、注意モデルのモデルパラメータを調整して、有効性判別モデルを取得するように構成され得る。
【0128】
いくつかの任意選択実施形態では、サンプル関心地点の記述情報は、サンプル関心地点の名称とサンプル関心地点の名称の同義語とからなる第1同義語集合を確定し、サンプル関心地点のステータスタグとサンプル関心地点のステータスタグの同義語とからなる第2同義語集合を確定し、第1同義語集合から確定された第1同義語と第2同義語集合から確定された第2同義語を検索ワードとして検索し、検索結果において第1同義語と第2同義語の両方が共にヒットされた語句をサンプル関心地点の記述情報とする方式によって取得することができる。
【0129】
いくつかの任意選択実施形態では、サンプル関心地点のステータスタグの同義語は、事前設定された同義語データベースから、サンプル関心地点のステータスタグの同義語を確定することと、サンプル関心地点の名称を含む検索語句履歴から、事前設定された数の目標検索語句を確定し、かつ確定された目標検索語句から確定された、サンプル関心地点のステータスタグの意味との類似度が事前設定された類似度の閾値を超えた単語を、サンプル関心地点のステータスタグの同義語とすることと、の少なくとも一方に基づいて確定されることができる。
【0130】
いくつかの任意選択実施形態では、装置はさらに同義語確定ユニットを含み得る。
【0131】
同義語確定ユニットは、事前設定された百科データベースから、関心地点の名称の同義語を確定することと、関心地点の名称を検索ワードとして検索し、かつ検索により取得されたマッチング実体を関心地点の名称の同義語とすることであって、マッチング実体は、事前設定された数の検索結果に含まれる実体のうち、関心地点の名称との最長共通サブストリングの、その名称に占める比率が、事前設定された比率の閾値を超えた実体であることと、関心地点の名称を検索ワードとして検索し、事前設定された数の検索結果から関心地点の名称を含む語句を抽出し、共参照解析ツールを利用して、抽出された語句から関心地点の名称を示すための単語を同義語として確定することと、のうちの少なくとも1つに基づいて関心地点の名称の同義語を確定するように構成され得る。ここで、関心地点は、検出すべき関心地点とサンプル関心地点の一方であってよい。
【0132】
以下、本発明の実施形態のインターネットテキストマイニングに基づく関心地点の有効性の判断方法を実施するための電子機器に適用されるコンピュータシステム900の概略構成図を示す図9を参照する。図9に示す電子機器はあくまでも一例であり、本発明の実施例の機能や使用範囲を限定するものではない。
【0133】
図9に示すように、コンピュータシステム900は、読み取り専用メモリ(ROM)902に格納されているプログラムまたは記憶部906からランダムアクセスメモリ(RAM)903にロードされたプログラムに従って様々な適切な動作と処理を行うことができる中央処理装置(CPU)901を含む。RAM903にはさらにシステム900の動作に必要な様々なプログラムやデータが格納されている。CPU901、ROM902、およびRAM903は、バス904を介して相互に接続されている。入出力(I/O)インターフェース905もバス904に接続されている。
【0134】
I/Oインターフェース905には、ハードディスクなどを含む記憶部906、LANカードやモデムなどのネットワークインタフェースカードを含む通信部907が接続されている。通信部907は、インターネットなどのネットワークを介して、通信処理を行う。ドライバ908も必要に応じて、I/Oインターフェース905に接続される。ドライバ908には、磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブルメディア909が必要に応じて装着され、そこから読み出されるコンピュータプログラムが所望により記憶部906にインストールされる。
【0135】
特に、本発明の実施例によれば、上述したフローチャートを参照しながら記載されたプロセスは、コンピュータソフトウェアプログラムとして実施することができる。例えば、本発明の実施例は、コンピュータ可読媒体上に具現化されているコンピュータプログラムを含むコンピュータプログラム製品を含み、該コンピュータプログラムは、フローチャートに示された方法を実行するためのプログラムコードを含む。このような実施例では、該コンピュータプログラムは、通信部907を介してネットワークからダウンロードおよびインストールされることができ、および/またはリムーバブルメディア909からインストールされることができる。該コンピュータプログラムが中央処理装置(CPU)901によって実行されると、本発明の方法で定義された上述の機能が実行される。注意すべきは、本明細書に記載するコンピュータ可読媒体は、コンピュータ可読信号媒体もしくはコンピュータ可読記憶媒体、またはその2つの任意の組み合わせであってよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光学、電磁気、赤外線、または半導体のシステム、装置もしくはデバイス、またはそれらの任意の組み合わせであってよいが、それらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、1本以上の導線による電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ(CD?ROM)、光メモリ、磁気メモリ、またはこれらの任意の適切な組み合わせを含むが、それらに限られない。本発明において、コンピュータ可読媒体は、プログラムを含むかまたは格納している任意の有形の媒体であってもよい。当該プログラムは、命令実行システム、装置またはデバイスに使用されるか、またはそれらと組み合わせて使用されることができる。本発明において、コンピュータ可読信号媒体は、ベースバンド内に含まれるか、またはキャリアの一部としてデータ信号を伝送することができ、その中には、コンピュータ読み取り可能なプログラムコードが担持されている。かかる伝送されるデータ信号は複数の形式を採用することができ、電磁信号、光信号または上記の任意の適切な組み合わせを含むが、それらに限られない。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。当該コンピュータ可読媒体は、命令実行システム、装置またはデバイスに使用されまたはそれらと組み合わせて使用されるプログラムを発信、伝送または転送することができる。コンピュータ可読媒体に含まれるプログラムコードは、任意の適切な媒体を使用して転送することができる。当該任意の適切な媒体とは、無線、有線、光ケーブル、RFなど、または上記の任意の適切な組み合わせを含むが、それらに限られない。
【0136】
本発明の動作を実行するためのコンピュータプログラムコードは1つまたは複数のプログラミング言語、またはそれらの組み合わせで作成されることができる。該プログラミング言語は、オブジェクト指向プログラミング言語(Java(登録商標)、Smalltalk、C++など)のほか、従来の手続き型プログラミング言語(「C」言語など)およびそれに類似するプログラミング言語をも含む。プログラムコードは、完全にユーザのコンピュータで実行されることも、部分的にユーザのコンピュータで実行されることも、単独のソフトウェアパッケージとして実行されることも、部分的にユーザのコンピュータで実行されながら部分的にリモートコンピュータで実行されることも、または完全にリモートコンピュータもしくはサーバで実行されることも可能である。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザのコンピュータに接続することができ、または(例えば、インターネットサービスプロバイダによるインターネットサービスを介して)外部のコンピュータに接続することができる。
【0137】
図面のうちのフローチャートおよびブロック図は、本発明の様々な実施例に係るシステム、方法およびコンピュータプログラム製品によって実施できるアーキテクチャ、機能および動作を示している。これについては、フローチャートまたはブロック図の各ブロックは、モジュール、プログラムセグメント、またはコードの一部を表すことができる。当該モジュール、プログラムセグメント、またはコードの一部には、所定のロジック機能を実施するための1つまたは複数の実行可能な命令が含まれている。さらに注意すべきは、いくつかの代替となる実施態様においては、ブロックに示されている機能は図面に示されているものとは異なる順序で実行されてもよい。例えば、連続して表された2つのブロックは、実際には関連する機能に応じて、ほぼ並行して実行されてもよく、時には、逆の順序で実行されてもよい。なお、ブロック図および/またはフローチャートにおけるすべてのブロック、ならびにブロック図および/またはフローチャートにおけるブロックの組み合わせは、所定の機能または操作を実行する専用のハードウェアベースのシステムで実施されてもよく、専用のハードウェアとコンピュータ命令との組み合わせで実施されてもよい。
【0138】
本発明の実施例に記載されたユニットは、ソフトウェアで実現されてもよく、ハードウェアで実現されてもよい。記載されたユニットは、プロセッサに設けられてもよく、例えば「検索ワード確定ユニット、記述情報確定ユニットおよび有効性判断ユニットを含むプロセッサ」と記載されてもよい。なお、これらのユニットの名称は、ユニットそのものを限定するものではない場合がある。例えば、検索ワード確定ユニットは、「検出すべき関心地点を示すための検索ワード集合を確定するためのユニット」と記載することもできる。
【0139】
別の態様では、本発明はまた、コンピュータ可読媒体を提供する。該コンピュータ可読媒体は、上記の実施例で説明された装置に含まれてもよく、または別々に存在して装置に組み込まれなくてもよい。上記のコンピュータ可読媒体には、1つまたは複数のプログラムは格納されている。かかる1つまたは複数のプログラムが該装置によって実行されると、該装置は、検出すべき関心地点を示すための検索ワード集合を確定し、確定された検索ワードを検索キーワードとして検索して検出すべき関心地点を記述するための記述情報集合を取得し、検出すべき関心地点の名称と記述情報集合における記述情報を事前構築された有効判別モデルに入力して、検出すべき関心地点の有効性を示すためのステータスタグを取得する。
【0140】
上記の説明はあくまでも本発明の好適な実施例および応用している技術の原理に対する説明に過ぎない。当業者であれば、本発明に言及された発明の範囲は、上記の技術的特徴の特定の組み合わせからなる技術的解決手段に限定されず、上記の発明構想から逸脱しない範囲内で上記の技術的特徴またはそれらの同等の特徴を任意に組み合わせてなる他の技術的解決手段をも含むことが理解できる。例えば、上記の特徴と本発明が開示した類似する機能を有する技術的特徴(それらに限られない)とが相互に置き換えてなる技術的解決手段をも含む。
図1
図2
図3
図4
図5
図6
図7
図8
図9