(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-28
(45)【発行日】2022-12-06
(54)【発明の名称】POI名を抽出する方法、装置、デバイス、プログラム及びコンピュータ記憶媒体
(51)【国際特許分類】
G06F 16/583 20190101AFI20221129BHJP
【FI】
G06F16/583
(21)【出願番号】P 2021513957
(86)(22)【出願日】2020-05-28
(86)【国際出願番号】 CN2020092984
(87)【国際公開番号】W WO2021093308
(87)【国際公開日】2021-05-20
【審査請求日】2021-03-12
(31)【優先権主張番号】201911105580.X
(32)【優先日】2019-11-13
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】512015127
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(74)【代理人】
【識別番号】100108213
【氏名又は名称】阿部 豊隆
(72)【発明者】
【氏名】ファン,チーチョウ
(72)【発明者】
【氏名】ワン,ハイフォン
【審査官】三橋 竜太郎
(56)【参考文献】
【文献】特開2018-195272(JP,A)
【文献】特開2017-173900(JP,A)
【文献】特開2005-214961(JP,A)
【文献】国際公開第2018/213763(WO,A1)
【文献】国際公開第2008/146456(WO,A1)
【文献】特開2008-287388(JP,A)
【文献】特表2019-503025(JP,A)
【文献】特開2011-191982(JP,A)
【文献】特開2009-245179(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
コンピュータにより実行される、POI名を抽出する方法であって、
POIの画像データから認識された2つ以上のテキストセグメントを取得し、
前記テキストセグメントを使用して2つ以上の候補名を構築し、
予め訓練された名称ソートモデルを用いて各候補名をソートし、ソート結果に基づいてPOI名を特定することを含み、
前記名称ソートモデルは、各候補名から抽出された検索ウェブページ特徴、文書統計特徴、および語義特
徴を利用して、各候補名がPOI名となる確率を特定し、その確率に基づいて各候補名をソートする、方法。
【請求項2】
前記テキストセグメントを使用して2つ以上の候補名を構築することは、
前記テキストセグメントに対して順列・組み合わせを行って2つ以上の候補名を得ることを含み、
前記ソート結果に基づいてPOI名を特定することは、
先頭の候補名を前記POI名とすることを含む、請求項1に記載の方法。
【請求項3】
前記テキストセグメントを使用して2つ以上の候補名を構築することは、
前記テキストセグメントから支店情報セグメントを認識し、
前記テキストセグメントにおける前記支店情報セグメントを除く他のテキストセグメントに対して順列・組合わせを行って2つ以上の候補名を得ることを含み、
前記ソート結果に基づいてPOI名を特定することは、
先頭の候補名と前記支店情報セグメントとを組み合わせて前記POI名を得ることを含む、請求項1に記載の方法。
【請求項4】
前記テキストセグメントから前記支店情報セグメントを認識することは、
予め訓練された判別モデルを用いて各テキストセグメントを判別して、各テキストセグメントが支店情報セグメントであるか否かを判定することを含む、請求項3に記載の方法。
【請求項5】
前記判別モデルは、
サンプルデータをPOIデータベースから取得し、支店情報テキストをポジティブサンプルとし、非支店情報テキストをネガティブサンプルとし、
前記サンプルデータを用いて判別モデルを訓練する、
ことにより予め訓練して得たものである、請求項4に記載の方法。
【請求項6】
候補名から検索ウェブページ特徴を抽出することは、
候補名をqueryとして検索し、
取得された検索結果をセマンティックコーディングして検索結果の隠れベクトルを得て、前記候補名の検索ウェブページ特徴とすることを含む、請求項1に記載の方法。
【請求項7】
前記取得された検索結果をセマンティックコーディングして検索結果の隠れベクトルを得ることは、
上位N(Nは所定の正整数である)個の検索結果テキストを取得し、
取得された各検索結果テキストをそれぞれセマンティックコーディングして各検索結果テキストの隠れベクトルを取得し、
前記各検索結果テキストの隠れベクトルに対して統合処理を行って、前記検索結果の隠れベクトルを得ることを含む、請求項6に記載の方法。
【請求項8】
候補名から文書統計特徴を抽出することは、
ウェブページデータにおいて前記候補名の逆文書頻度を統計し、
前記逆文書頻度の表現ベクトルを前記候補名の文書統計特徴とすることを含む、請求項1に記載の方法。
【請求項9】
候補名から語義特徴を抽出することは、
候補名に含まれる各テキストセグメントの語義特徴、位置特徴及び文書統計特徴のうちの少なくとも1つに基づいて、各テキストセグメントの語義表現ベクトルを取得し、
前記各テキストセグメントの語義表現ベクトルに対して統合処理を行って前記候補名の語義表現ベクトルを得ることを含む、請求項1に記載の方法。
【請求項10】
前記テキストセグメントの語義表現ベクトルは、
テキストセグメントをセマンティックコーディングしてテキストセグメントの隠れベクトルを取得し、
候補名におけるテキストセグメントの位置をベクトル空間にマッピングしてテキストセグメントの位置表現ベクトルを取得し、
ウェブページデータにおいて前記テキストセグメントの逆文書頻度を統計して前記逆文書頻度の表現ベクトルを取得し、
テキストセグメントの隠れベクトル、位置表現ベクトル及び逆文書頻度の表現ベクトルをスプライシングして当該テキストセグメントの語義表現ベクトルを得る、ことにより特定される、請求項9に記載の方法。
【請求項11】
コンピュータにより実行される、名称ソートモデルを構築する方法であって、
POI名の正例および負例を含む訓練サンプルを取得し、
各訓練サンプルから検索ウェブページ特徴、文書統計特徴および語義特
徴を抽出し、各訓練サンプルがPOI名となる確率を特定し、
pairwiseアルゴリズムを用いて正例がPOI名となる確率と負例がPOI名となる確率との差を最大化することを訓練目標として訓練を行うことにより名称ソートモデルを得ることを含む、方法。
【請求項12】
訓練サンプルから検索ウェブページ特徴を抽出することは、
訓練サンプルをqueryとして検索し、
取得された検索結果をセマンティックコーディングして検索結果の隠れベクトルを取得して、前記訓練サンプルの検索ウェブページ特徴とすることを含む、請求項11に記載の方法。
【請求項13】
前記取得された検索結果をセマンティックコーディングして検索結果の隠れベクトルを得ることは、
上位N個(Nは所定の正整数である)の検索結果テキストを取得し、
取得された各検索結果テキストをそれぞれセマンティックコーディングして各検索結果テキストの隠れベクトルを取得し、
前記各検索結果テキストの隠れベクトルに対して統合処理を行って、前記検索結果の隠れベクトルを得ることを含む、請求項12に記載の方法。
【請求項14】
訓練サンプルから文書統計特徴を抽出することは、
ウェブページデータにおいて前記訓練サンプルの逆文書頻度を統計し、
前記逆文書頻度の表現ベクトルを前記訓練サンプルの文書統計特徴とすることを含む、請求項11に記載の方法。
【請求項15】
訓練サンプルから語義特徴を抽出することは、
訓練サンプルに含まれる各テキストセグメントの語義特徴、位置的特徴、および文書統計特徴のうちの少なくとも1つに基づいて各テキストセグメントの語義表現ベクトルを取得し、
前記各テキストセグメントの語義表現ベクトルに対して統合処理を行って前記訓練サンプルの語義表現ベクトルを得ることを含む、請求項11に記載の方法。
【請求項16】
前記テキストセグメントの語義表現ベクトルは、
テキストセグメントをセマンティックコーディングしてテキストセグメントの隠れベクトルを取得し、
候補名におけるテキストフラグメントの位置をベクトル空間にマッピングしてテキストフラグメントの位置表現ベクトルを取得し、
ウェブページデータにおいて前記テキストセグメントの逆文書頻度を統計して前記逆文
書頻度の表現ベクトルを取得し、
テキストセグメントの隠れベクトル、位置表現ベクトル、および逆文書頻度表現ベクトルをスプライシングして当該テキストセグメントの語義表現ベクトルを得る、
ことにより特定される請求項15に記載の方法。
【請求項17】
POI名を抽出する装置であって、
POIの画像データから認識された二つ以上のテキストセグメントを取得する取得ユニットと、
前記テキストセグメントを用いて2つ以上の候補名を構築する構築ユニットと、
予め訓練された名称ソートモデルを用いて各候補名をソートするソートユニットと、
前記ソートユニットによるソート結果に基づいてPOI名を特定する特定ユニットと、を備え、
前記名称ソートモデルは、各候補名から抽出された検索ウェブページ特徴、文書統計特徴、および語義特
徴を利用して、各候補名がPOI名となる確率を特定し、確率に基づいて各候補名をソートする、
装置。
【請求項18】
前記テキストセグメントから支店情報セグメントを認識する認識ユニットを更に備え、
前記構築ユニットは、具体的に、前記テキストセグメントにおける前記支店情報セグメントを除く他のテキストセグメントに対して順列・組合わせを行って2つ以上の候補名を取得し、
前記特定ユニットは、具体的に、先頭の候補名と前記支店情報セグメントとを組み合わせて前記POI名を得る、請求項17に記載の装置。
【請求項19】
前記認識ユニットは、具体的に、予め訓練された判別モデルを用いて各テキストセグメントを判別して、各テキストセグメントが支店情報セグメントであるか否かを判定し、
サンプルデータをPOIデータベースから取得し、支店情報テキストをポジティブサンプルとし、非支店情報テキストをネガティブサンプルとし、前記サンプルデータを用いて判別モデルを訓練するモデル訓練ユニットを更に備える、請求項18に記載の装置。
【請求項20】
前記ソートユニットは、名称ソートモデルを使用して候補名から検索ウェブページ特徴を抽出する場合に、具体的に、
候補名をqueryとして検索し、
上位N(Nは所定の正整数である)個の検索結果テキストを取得し、
取得された各検索結果テキストをそれぞれセマンティックコーディングして各検索結果テキストの隠れベクトルを取得し、
前記各検索結果テキストの隠れベクトルに対して統合処理を行って検索結果の隠れベクトルを得て、前記候補名の検索ウェブページ特徴とする、
請求項17に記載の装置。
【請求項21】
前記ソートユニットは、名称ソートモデルを使用して候補名から文書統計特徴を抽出する場合に、具体的に、
ウェブページデータにおいて前記候補名の逆文書頻度を統計し、
前記逆文書頻度の表現ベクトルを前記候補名の文書統計特徴とする、
請求項17に記載の装置。
【請求項22】
前記ソートユニットは、名称ソートモデルを使用して候補名から語義特徴を抽出する場合に、具体的に、
候補名に含まれる各テキストセグメントの語義特徴、位置特徴及び文書統計特徴のうちの少なくとも1つに基づいて、各テキストセグメントの語義表現ベクトルを取得し、
前記各テキストセグメントの語義表現ベクトルに対して統合処理を行って前記候補名の語義表現ベクトルを得る、
請求項17に記載の装置。
【請求項23】
名称ソートモデルを構築する装置であって、
POI名の正例および負例を含む訓練サンプルを取得するサンプル取得ユニットと、
各訓練サンプルから検索ウェブページ特徴、文書統計特徴及び語義特
徴を抽出し、各訓練サンプルがPOI名となる確率を特定し、pairwiseアルゴリズムを用いて正例がPOI名となる確率と負例がPOI名となる確率との差を最大化することを訓練目標として訓練を行うことにより名称ソートモデルを得るモデル訓練ユニットと、を備える、
装置。
【請求項24】
前記モデル訓練ユニットは、訓練サンプルから検索ウェブページ特徴を抽出する場合に、具体的に、
訓練サンプルをqueryとして検索し、
上位N(Nは所定の正整数である)個の検索結果テキストを取得し、
取得された各検索結果テキストをそれぞれセマンティックコーディングして各検索結果テキストの隠れベクトルを取得し、
前記各検索結果テキストの隠れベクトルに対して統合処理を行って検索結果の隠れベクトルを得て、前記訓練サンプルの検索ウェブページ特徴とする、請求項23に記載の装置。
【請求項25】
前記モデル訓練ユニットは、訓練サンプルから文書統計特徴を抽出する場合に、具体的に、
ウェブページデータにおいて前記訓練サンプルの逆文書頻度を統計し、
前記逆文書頻度の表現ベクトルを前記訓練サンプルの文書統計特徴とする、請求項23に記載の装置。
【請求項26】
前記モデル訓練ユニットは、訓練サンプルから語義特徴を抽出する場合に、具体的に、
訓練サンプルに含まれる各テキストセグメントの語義特徴、位置特徴及び文書統計特徴のうちの少なくとも1つに基づいて、各テキストセグメントの語義表現ベクトルを取得し、
前記各テキストセグメントの語義表現ベクトルに対して統合処理を行って前記訓練サンプルの語義表現ベクトルを得る、
請求項23に記載の装置。
【請求項27】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリと、を備え、
前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1~16の何れか一つに記載の方法を実行させる、電子デバイス。
【請求項28】
コンピュータに請求項1~16の何れか一つに記載の方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体。
【請求項29】
コンピュータに請求項1~16の何れか一つに記載の方法を実行させるためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、出願日が2019年11月13日、出願番号が201911105580.X、発明名称が「POI名を抽出する方法、装置、デバイス及びコンピュータ記憶媒体」である中国特許出願の優先権を請求した。
本出願は、コンピュータ技術分野に関し、特にビッグデータ分野においてPOI名を抽出する方法、装置、デバイス、プログラム及びコンピュータ記憶媒体に関する。
【背景技術】
【0002】
POI(Point of Interest)は関心ポイントを指し、地理情報システムにおける用語であり、ポイントとして抽象化できるすべての地理的な対象を一般的に指す。POIは、住宅、店舗、郵便ポスト、バス停、学校、病院などであって良い。POIの主な用途は、事物またはイベントの位置を記述することにより、事物またはイベントの位置に対する記述能力および検索能力を高めることにある。
【0003】
POIは、インターネット地図のようなアプリケーションにおいて非常に重要な役割を果たす。POIを利用することにより、ユーザは地図上で興味のある場所やその場所までの経路を容易に見つけることができる。現実世界では、社会の発展により、新たなPOIが次々と出現しており、新たに出現したPOIをいかに全面的に、即時に、正確にマイニングするかは非常に重要な仕事である。一般的な方法としては、例えばストリートビュー画像等の画像データを採集し、採集された画像データからPOI名を抽出し、採集場所と組み合わせることにより、POI名と位置との相関関係を確立することができる。
【0004】
なお、採集された画像データからPOI名を抽出する際に、従来技術は往々にして画像データに対して文字認識を行った後、人工による審査及び標識の方式でPOI名を確定する必要がある。この方式は、明らかに多大な労力が必要であり、コストが高い。
【発明の概要】
【発明が解決しようとする課題】
【0005】
これに鑑み、本発明は、人件費を低減するPOI名を抽出する方法、装置、デバイスおよびコンピュータ記憶媒体を提供する。
【課題を解決するための手段】
【0006】
第1の局面では、本発明は、POIの画像データから認識された2つ以上のテキストセグメントを取得し、前記テキストセグメントを使用して2つ以上の候補名を構築し、予め訓練された名称ソートモデルを用いて各候補名をソートし、ソート結果に基づいてPOI名を特定することを含み、前記名称ソートモデルは、各候補名から抽出された検索ウェブページ特徴、文書統計特徴、および語義特徴のうちの少なくとも1つを利用して、各候補名がPOI名となる確率を特定し、その確率に基づいて各候補名をソートする、関心ポイントPOI名を抽出する方法を提供する。
【0007】
本発明の好ましい態様によれば、前記テキストセグメントを使用して2つ以上の候補名を構築することは、前記テキストセグメントに対して順列・組み合わせを行って2つ以上の候補名を得ることを含み、前記ソート結果に基づいてPOI名を特定することは、先頭の候補名を前記POI名とすることを含む。
【0008】
本発明の好ましい態様によれば、前記テキストセグメントを使用して2つ以上の候補名を構築することは、前記テキストセグメントから支店情報セグメントを認識し、前記テキストセグメントにおける前記支店情報セグメントを除く他のテキストセグメントに対して順列・組合わせを行って2つ以上の候補名を得ることを含み、前記ソート結果に基づいてPOI名を特定することは、先頭の候補名と前記支店情報セグメントとを組み合わせて前記POI名を得ることを含む。
【0009】
本発明の好ましい態様によれば、前記テキストセグメントから前記支店情報セグメントを認識することは、予め訓練された判別モデルを用いて各テキストセグメントを判別して、各テキストセグメントが支店情報セグメントであるか否かを判定することを含む。
【0010】
本発明の好ましい態様によれば、前記判別モデルは、サンプルデータをPOIデータベースから取得し、支店情報テキストをポジティブサンプルとし、非支店情報テキストをネガティブサンプルとし、前記サンプルデータを用いて判別モデルを訓練する、ことにより予め訓練された。
【0011】
本発明の好ましい態様によれば、候補名から検索ウェブページ特徴を抽出することは、候補名をqueryとして検索し、取得された検索結果をセマンティックコーディングして前記候補名の検索ウェブページ特徴として検索結果の隠れベクトルを得ることを含む。
【0012】
本発明の好ましい態様によれば、前記取得された検索結果をセマンティックコーディングして検索結果の隠れベクトルを得ることは、上位N(Nは所定の正整数である)個の検索結果テキストを取得し、取得された各検索結果テキストをそれぞれセマンティックコーディングして各検索結果テキストの隠れベクトルを取得し、前記各検索結果テキストの隠れベクトルに対して統合処理を行った後、前記検索結果の隠れベクトルを得ることを含む。
【0013】
本発明の好ましい態様によれば、候補名から文書統計特徴を抽出することは、ウェブページデータにおいて前記候補名の逆文書頻度を統計し、前記逆文書頻度の表現ベクトルを前記候補名の文書統計特徴とすることを含む。
【0014】
本発明の好ましい態様によれば、候補名から語義特徴を抽出することは、候補名に含まれる各テキストセグメントの語義特徴、位置特徴及び文書統計特徴のうちの少なくとも1つに基づいて、各テキストセグメントの語義表現ベクトルを取得し、前記各テキストセグメントの語義表現ベクトルに対して統合処理を行って前記候補名の語義表現ベクトルを得ることを含む。
【0015】
本発明の好ましい態様によれば、前記テキストセグメントの語義表現ベクトルは、テキストセグメントをセマンティックコーディングしてテキストセグメントの隠れベクトルを取得し、候補名におけるテキストセグメントの位置をベクトル空間にマッピングしてテキストセグメントの位置表現ベクトルを取得し、ウェブページデータにおいて前記テキストセグメントの逆文書頻度を統計して前記逆文書頻度の表現ベクトルを取得し、テキストセグメントの隠れベクトル、位置表現ベクトル及び逆文書頻度の表現ベクトルをスプライシングして当該テキストセグメントの語義表現ベクトルを得る、ことにより特定される。
【0016】
第2の局面では、本発明は、POI名の正例および負例を含む訓練サンプルを取得し、各訓練サンプルから検索ウェブページ特徴、文書統計特徴および語義特徴のうちの少なくとも1つを抽出し、各訓練サンプルがPOI名となる確率を特定し、pairwiseアルゴリズムを用いて正例がPOI名となる確率と負例がPOI名となる確率との差を最大化することを訓練目標として訓練を行うことにより名称ソートモデルを得ることを含む名称ソートモデルを構築する方法を提供する。
【0017】
本発明の好ましい態様によれば、訓練サンプルから検索ウェブページ特徴を抽出することは、訓練サンプルをqueryとして検索し、取得された検索結果をセマンティックコーディングして前記訓練サンプルの検索ウェブページ特徴として検索結果の隠れベクトルを得ることを含む。
【0018】
本発明の好ましい態様によれば、前記取得された検索結果をセマンティックコーディングして検索結果の隠れベクトルを得ることは、上位N個(Nは所定の正整数である)の検索結果テキストを取得し、取得された各検索結果テキストをそれぞれセマンティックコーディングして各検索結果テキストの隠れベクトルを取得し、前記各検索結果テキストの隠れベクトルに対して統合処理を行った後、前記検索結果の隠れベクトルを得ることを含む。
【0019】
本発明の好ましい態様によれば、訓練サンプルから文書統計特徴を抽出することは、ウェブページデータにおいて前記訓練サンプルの逆文書頻度を統計し、前記逆文書頻度の表現ベクトルを前記訓練サンプルの文書統計特徴とすることを含む。
【0020】
本発明の好ましい態様によれば、訓練サンプルから語義特徴を抽出することは、訓練サンプルに含まれる各テキストセグメントの語義特徴、位置的特徴、および文書統計特徴のうちの少なくとも1つに基づいて各テキストセグメントの語義表現ベクトルを取得し、前記各テキストセグメントの語義表現ベクトルに対して統合処理を行って前記訓練サンプルの語義表現ベクトルを得ることを含む。
【0021】
本発明の好ましい態様によれば、前記テキストセグメントの語義表現ベクトルは、テキストセグメントをセマンティックコーディングしてテキストセグメントの隠れベクトルを取得し、候補名におけるテキストフラグメントの位置をベクトル空間にマッピングしてテキストフラグメントの位置表現ベクトルを取得し、ウェブページデータにおいて前記テキストセグメントの逆文書頻度を統計して前記逆文書頻度の表現ベクトルを取得し、テキストセグメントの隠れベクトル、位置表現ベクトル、および逆文書頻度表現ベクトルをスプライシングして当該テキストセグメントの語義表現ベクトルを得る、ことにより特定される。
【0022】
第3の局面では、本発明は、POIの画像データから認識された二つ以上のテキストセグメントを取得する取得ユニットと、前記テキストセグメントを用いて2つ以上の候補名を構築する構築ユニットと、予め訓練された名称ソートモデルを用いて各候補名をソートするソートユニットと、前記ソートユニットによるソート結果に基づいてPOI名を特定する特定ユニットと、を備え、前記名称ソートモデルは、各候補名から抽出された検索ウェブページ特徴、文書統計特徴、および語義特徴のうちの少なくとも1つを利用して、各候補名がPOI名となる確率を特定し、確率に基づいて各候補名をソートするPOI名を抽出する装置も提供する。
【0023】
第4の局面では、本発明は、POI名の正例および負例を含む訓練サンプルを取得するサンプル取得ユニットと、各訓練サンプルから検索ウェブページ特徴、文書統計特徴及び語義特徴のうちの少なくとも1つを抽出し、各訓練サンプルがPOI名となる確率を特定し、pairwiseアルゴリズムを用いて正例がPOI名となる確率と負例がPOI名となる確率との差を最大化することを訓練目標として訓練を行うことにより名称ソートモデルを得るモデル訓練ユニットと、を備える名称ソートモデルを構築する装置も提供する。
【0024】
第5の局面では、本発明は更に、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続されたメモリと、を備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに前記のいずれか一つに記載の方法を実行させる電子デバイスを提供する。
【0025】
第6の局面では、本発明は、コンピュータに前記の何れか一つに記載の方法を実行させるコンピュータコマンドが記憶される非一時的なコンピュータ可読記憶媒体も提供する。
【0026】
以上の技術案から分かるように、本発明により提供される方法、装置、デバイスおよびコンピュータ記憶媒体は、以下の利点を有する。
【0027】
1)本発明は、POIの画像データから認識されたテキストセグメントを用いて候補名を構築した後、候補名の検索ウェブページ特徴、文書統計特徴、語義特徴のうちの少なくとも1つを用いて、各候補名がPOI名となる確率を特定して各候補名をソートすることにより、高い精度でPOI名を自動的に抽出することを実現した。また、従来技術における人工による審査と標識の方式と比較して、人件費を低減した。
【0028】
2)本発明は、まず支店情報セグメントを認識した後に、その支店情報セグメント以外の他のテキストセグメントを用いて候補名を構築してソートを行い、そして先頭の候補名と支店情報セグメントを用いてPOI名を得ることにより、POI名の抽出の正確度と効率をさらに向上させることができる。
【0029】
3)本発明は、候補名の文書統計特徴、検索ページ特徴および語義特徴を用い、逆文書頻度、検索結果、各テキストセグメントの位置、逆文書頻度、語義などの候補名に対する表意能力記述をPOI名の確率の推定として候補名に導入することにより、POI名を最適に表意する候補名を選択する。
【0030】
前記選択可能な方式における他の効果は、以下で具体的な実施例と合わせて説明する。
【図面の簡単な説明】
【0031】
図面は、本技術案をより良く理解するためのものであり、本発明を制限するものではない。図面において、
【
図1】本発明の実施形態が適用され得る方法または装置の例示的なシステムアーキテクチャを示す。
【
図2】本発明の実施形態により提供される主要な方法のフローチャートである。
【
図3】本発明の実施形態により提供されるPOI看板画像の実例図である。
【
図4】本発明の実施形態により提供される好適な方法のフローチャートである。
【
図5】本発明の実施形態により提供される名称ソートモデルのアーキテクチャの模式図である。
【
図6】本発明の実施形態により提供されるソートモデルを構築する方法のフローチャートである。
【
図7】本発明の実施形態により提供されるPOI名を抽出する装置の構成図である。
【
図8】本発明の実施形態により提供される名称ソートモデルを構築する装置の構成図である。
【
図9】本発明の実施形態に係る方法を実現するための電子デバイスのブロック図である。
【発明を実施するための形態】
【0032】
以下、図面に基づいて、本発明の例示的な実施例を説明する。理解を容易にするために、本発明の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本発明の範囲及び思想から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
【0033】
図1は、本発明の実施形態が適用され得る方法または装置の例示的なシステムアーキテクチャを示した。
図1に示されたように、当該システムアーキテクチャは、端末デバイス101および102、ネットワーク103、およびサーバ104を含むことができる。ネットワーク103は、端末デバイス101、102とサーバ104との間に通信リンクの媒体を提供する。ネットワーク103は、有線、無線通信リンク、または光ファイバケーブルなどの様々なタイプの接続を含むことができる。
【0034】
ユーザは、端末デバイス101、102を用いて、ネットワーク103を介してサーバ104とインタラクションすることができる。端末デバイス101、102には、地図系アプリケーション、ウェブブラウザアプリケーション、通信系アプリケーション等の各種アプリケーションがインストールされて良い。
【0035】
端末デバイス101および102は、地図系アプリケーションを実行することができる様々な種類のユーザ装置であってよい。スマートフォン、タブレット、PC、スマートテレビなどが含まれるが、これらに限定されない。本発明で提供されるPOI名を抽出する装置および名称ソートモデルを構築する装置は、前記のサーバ104に設置、運行されても良く、サーバ104と別のデバイスに運行されても良い。これは、複数のソフトウェアまたはソフトウェアモジュールとして実現されてもよく(例えば、分散的なサービスを提供するために)、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよいが、ここで限定されない。サーバ104は、POIデータベース105とインタラクションして良い。具体的に、サーバ104は、POIデータベース105からデータを取得してもよく、POIデータベース105にデータを格納してもよい。POIデータベース105には、POI情報を含む地図データが格納されている。
【0036】
例えば、POI名を抽出する装置は前記サーバ104に設置、運行される。サーバ104は、本発明の実施形態により提供される方法によりPOI画像データに基づいてPOI名の抽出を行った後に、取得したPOI名と当該POI画像データに対応する場所とでPOIデータベース105を更新する。サーバ104は、端末デバイス101、102の検索リクエストに応じて、POIデータベース105を検索し、検索されたPOIの情報を端末デバイス101、102に返信することができる。端末デバイス101、102は、POI画像データを採用し、POI画像データ及び対応する採集場所情報をサーバ104にアップロードしても良い。
【0037】
サーバ104は、単一のサーバであっても良く、複数のサーバからなるサーバ群であってもよい。また、104は、サーバとして存在することに加えて、より高い演算性能を有する他のコンピュータシステムまたはプロセッサであってもよい。理解すべきなのは、
図1における端末デバイス、ネットワーク、サーバ及びデータベースの数は単なる例示的なものである。実施の必要に応じて、任意の数の端末デバイス、ネットワーク、サーバ、データベースを備えることができる。
【0038】
<実施形態1>
【0039】
図2は、本発明の実施形態により提供される主要な方法のフローチャートである。
図2に示されたように、当該方法は以下のステップを含むことができる。
【0040】
201において、POIの画像データから2つ以上のテキストセグメントを認識する。
【0041】
本発明のシナリオにおいて、POIの画像データが既に取得され、POIの画像データからPOI名を抽出する必要がある。本発明は、POIの画像データの採集方式に限定されるものではなく、専門の採集担当者がPOIに現地で採集したり、ユーザが端末デバイスを介して採集及びアップロードなどを行ったりすることもできる。このPOIの画像データは、通常、
図3に示されたように、撮影されたPOIの看板画像である。
【0042】
OCR(Optical Character Recognition、光学文字認識)などの方法でPOIの画像データに対してテキスト認識を行うことができる。本発明は、POIの看板画像に複数のテキストが含まれている場合に適用する。
図3に示されたように、この画像から「三千店舗」、「エコダイエット」、「銀座ガーデン店」の3つのテキストセグメントが認識される。
【0043】
また、説明すべきなのは、POIの画像データからテキストセグメントが1つだけ認識された場合には、そのテキストセグメントをそのままPOI名としてもよい。
【0044】
202において、認識により得られたテキストセグメントを用いて2つ以上の候補名を構築する。
【0045】
203において、予め訓練された名称ソートモデルを用いて各候補名をソートし、ソート結果に基づいてPOI名を特定する。
【0046】
ここで、名称ソートモデルは、各候補名から抽出された検索ウェブページ特徴、文書統計特徴、および語義特徴の少なくとも1つを利用して、各候補名がPOI名となる確率を特定し、確率に基づいて各候補名をソートする。
【0047】
一実施形態として、ステップ201で認識されたテキストセグメントに対して順列・組合わせを行った後に、2つ以上の候補名を取得し、そして予め訓練された名称ソートモデルを用いて各候補名称をソートし、先頭の候補名称をPOI名とすることができる。
【0048】
しかしながら、好ましい実施形態としては、最初にステップ201で認識されたテキストセグメントに対して支店情報の認識を行い、その後に候補名を構築しソートして最終的なPOI名を得ることができる。この方式によれば、より正確なPOI名を提供することができる。以下で実施形態と合わせてこのような好ましい実施形態を詳しく説明する。
【0049】
<実施形態2>
図4は、本発明の実施形態により提供される好適な方法のフローチャートである。
図4に示されたように、当該方法は以下のステップを含むことができる。
【0050】
401において、POIの画像データから二つ以上のテキストセグメントを認識する。
【0051】
このステップはステップ201と同じであり、ここでは言及しない。
【0052】
402では、認識されたテキストセグメントから支店情報セグメントを認識する。
【0053】
本ステップでは、予め訓練された判別モデルを用いて各テキストセグメントを判別して各テキストセグメントが支店情報セグメントであるか否かを判定することができる。
【0054】
本発明では、POIデータベースから予め訓練サンプルを取得し、例えば、POIデータベースからPOI名「海底撈鍋万柳店」を取得し、「海底撈鍋」と「万柳店」の2つのテキストセグメントに分割することができる。「海底撈鍋」を非支店情報セグメント、即ち反例として人工的に標識し、「万柳店」を支店情報セグメント、即ち正例として人工的に標識する。次に、訓練サンプルを用いて判別モデルを訓練する。なお、判別モデルは、ERNIE(Enhanced Representation from kNowledge IntEgration、知識強化語義表現モデル)、BERT(Bidirectional Encoder Representations from Transformers、Transformerによる双方向的エンコード表現)による判別モデル、GBDT(Gradient Boosting Decision Tree、勾配ブースティング決定木)モデルなどを採用することができるが、これらに限定されない。
【0055】
訓練により判別モデルが得られた後、テキストセグメントを判別モデルに入力すると、判別モデルが出力する判別結果、即ちテキストセグメントが支店情報セグメントであるかどうかを得ることができる。
【0056】
説明すべきなのは、予め訓練された判別モデルを用いて支店情報セグメントの認識を行う以外に、本発明で別の方式で支店の認識を行ってもよい。たとえば、テンプレートに基づく方式、キーワード辞書に基づく方式などである。例えば、「__支店」、「__支部」、「__分園」、「__分院」等のテンプレートを予め設定しておき、これらのテンプレートに合致するテキストセグメントを支店情報セグメントとして認識する。
【0057】
403において、認識されたテキストセグメントのうち、支店情報セグメントを除く他のテキストセグメントに対して順列・組み合わせを行って二つ以上の候補名を得る。
【0058】
認識されたテキストセグメントをm個とし、そのうちの一つの支店情報セグメントがtbとして認識され、残りのm-1個のテキストセグメントの集合T1を{ti},i=1,・・・,m-1とする。mは2以上の正整数であり、T1における各テキストセグメントに対して全順列・組み合わせを行って候補名集合Pを構築し、Pを{Pj}とする。つまり、PはT1からランダムにk個のテキストセグメントを抽出して順列・組合わせを行った和集合であり、kは1からm-1までの値をとる。
【0059】
例えば、
図3に示された画像から「三千店舗」、「エコダイエット」、「銀座ガーデン店」の3つのテキストセグメントが認識され、402において「銀座ガーデン店」が支店情報セグメントとして認識された。そして、残りのテキストセグメント「三千店舗」、「エコダイエット」に対して全順列・組み合わせを行って得られた集合Pは、{「三千店舗」、「エコダイエット」、「三千店舗エコダイエット」、「エコダイエット三千店舗」}である。つまり、「三千店舗」、「エコダイエット」、「三千店舗エコダイエット」、「エコダイエット三千店舗」という四つの候補名が得られ、この四つの候補名に対してPOI名となる確率のソートを行う必要がある。
【0060】
404において、予め訓練された名称ソートモデルを用いて各候補名をソートする。
【0061】
名称ソートモデルは、候補名から検索ウェブページ特徴、文書統計特徴、および語義特徴のうちの少なくとも1つを抽出し、候補名がPOI名となる確率を特定し、そして確率に基づいて候補名をソートする。好ましい実施形態として、本実施形態において、検索ウェブページ特徴、文書統計特徴、および語義特徴という三種類を抽出することを例として説明する。すなわち、各Pjを名称ソートモデルに入力し、Pjから検索ページ特徴、文書統計特徴、および語義特徴を抽出し、PjがPOI名となる確率を得た後に、各Pjの確率に基づいてソートを行う。
【0062】
以下では、
図5に示されたモデルアーキテクチャに合わせて、三種類の特徴の抽出についてそれぞれ詳しく説明する。
【0063】
1)検索ページ特徴の抽出。
【0064】
候補名Pjから検索ウェブページ特徴を抽出する際には、候補名Pjをquery(検索キーワード)として検索し、次に得られた検索結果をセマンティックコーディングして、検索結果の隠れベクトルを候補名Pjの検索ウェブページ特徴として得られる。
【0065】
演算量を削減するために、本実施形態では、検索結果のうち上位N個(Nは所定の正整数)の検索結果テキストを取ってよい。また、検索結果のタイトルは、一般的に検索結果テキストの意味をよく表すことができるため、上位N個の検索結果のタイトルテキストを取得することができる。例えば、上位N個の探索結果をR={dk},k=1,・・・,Nと記す。
【0066】
例えば、候補名「三千里エコダイエット」については、これをqueryとしてウェブページを検索し、検索結果から上位N個の検索結果のタイトルテキストを取得することで、大衆に理解されている当該POIの最も合理的な名称を得ることに寄与する。例えば、得られた検索結果のタイトルテキストには、「私はコメント_三千家エコダイエット」、「三千家エコダイエットしましょう」などが含まれる。そして、各タイトルテキストをそれぞれセマンティックコーディングして各検索結果のタイトルテキストの隠れベクトルを得る。
【0067】
セマンティックコーディングを行う際には、POI名のロングテール現象を解決するために、文字粒度の言語モデルERNIEを用いてセマンティックコーディングを行うことができる。しかし、ERNIE以外にも、従来のword2vecモデル、gloveモデルなどを用いることができる。後続の実施形態に関連するセマンティックコーディングによる隠れベクトル抽出の方法は同様であってもよい。
【0068】
例えば、検索結果のタイトルテキストdkをセマンティックコーディングしてベクトルシーケンスを取得し、その後にベクトルシーケンスを平均化してタイトルテキストdkの隠れベクトルhdkを得る。
【0069】
そして、各検索結果のタイトルテキストの隠れベクトルに対して統合処理を行って検索結果の隠れベクトルを得る。なお、統合処理は、平均化等の処理方式であってよい。たとえば、P
jの検索結果の隠れベクトルV
djは、
【数1】
である。
【0070】
2)文書統計特徴の抽出。
【0071】
ある場合に、幾つかの候補名が曖昧になる可能性があり、例えば候補名「三千店舗」について、「三千店舗エコダイエット」のPOI、「三千店舗茶店」のPOI、「三千店舗生乳茶」のPOIが存在する可能性がある。したがって、POI名として「三千店舗」を用いると、明らかに曖昧な問題がユーザに迷惑をかけることになる。本発明の実施形態では、候補名のIDF(inverse document frequency、逆文書頻度)特徴を導入して候補名の表意能力を記述することができる。もし候補名Pjがネット全体に出現する頻度が少ないほど、稀有であり、独立にPOIを表現する能力が高いと示す。
【0072】
以上の理論に基づいて、候補名P
jから文書統計特徴を抽出する際には、ウェブページデータにおいて候補名P
jのIDFを統計し、IDFの表現ベクトルをP
jの文書統計特徴とすることができる。具体的には、P
jのIDFは、次の式を使用して計算することができる。
【数2】
【0073】
ここで、DOC_NUMはウェブページの総数を表し、DFは候補名Pjを含むウェブページ数を表し、pow(x、y)関数はxのy乗を求めるためのものである。αはスーパーパラメータであり、実験値を取っても良く、人工で調整しても良い。
【0074】
候補名P
jのIDFが得られた後、IDFは連続した統計値であるため、モデルの安定性のためにIDFを離散化して埋め込み層(
図5ではEmbと示された)を用いて密ベクトルに転換して示せれば、P
jのIDF表現ベクトルV
idfjを取得することができる。
【0075】
3)語義素性の抽出。
【0076】
本発明では、候補名を直接にセマンティックコーディングして候補名の隠れベクトルを語義特徴として得ることができる。しかし、候補名は、全体として、文字列粒度のエンコーダでセマンティックコーディングを行うと、セグメントレベルの情報が欠落することになる。しかし、実際にはPOI画像データから抽出された名称セグメントは表意的な全体であるため、好ましい実施形態として、候補名の語義特徴の抽出は、主に2つのステップに分けられる。
【0077】
S1、候補名に含まれる各テキストセグメントの語義特徴、位置特徴、文書統計特徴のうちの少なくとも1つに基づいて、各テキストセグメントの語義表現ベクトルを得る。
【0078】
まず、候補名Pjについては、それに含まれるテキストセグメントtiごとに、語義特徴、位置的特徴、文書統計特徴のうちの少なくとも1つを抽出する必要があり、以下ではこれら3つの特徴の抽出を例に説明する。
【0079】
テキストセグメントtiの語義特徴を抽出する際に、テキストセグメントtiをセマンティックコーディングして、テキストセグメントtiの隠れベクトルVciを得ることができる。
【0080】
テキストセグメントtiの位置特徴を抽出する際には、候補名におけるテキストセグメントtiの位置をベクトル空間にマッピングしてテキストセグメントtiの位置表現ベクトルVposiを得る。
【0081】
テキストセグメントt
iの文書統計特徴を抽出する際には、以前の候補名の文書統計特徴の抽出と同様に、ウェブページデータにおいてテキストセグメントのIDFを統計し、IDFを離散化して埋め込み層(
図5ではEmbと示された)を利用して密ベクトルに転換して示せれば、t
iのIDF表現ベクトルV
idfiを取得することができる。
【0082】
最後に、Vci、Vposi、Vidfiをスプライシングしてテキストセグメントtiの語義表現ベクトルVtiを得る。たとえば、Vti=[Vci,Vposi,Vidfi]である。ここで、[,]はその中のベクトルをスプライシングすることを示す。
【0083】
S2、各テキストセグメントの語義表現ベクトルに対して統合処理を行って候補名の語義表現ベクトルを得る。
【0084】
例えば、候補名P
jの語義表現ベクトルV
cjは
【数3】
である。ここで、qはP
jに含まれるテキストセグメントの数である。
【0085】
候補名Pjの上記3つの特徴を完成させた後、得られたPjの探索結果の隠れベクトルVdj、IDF表現ベクトルVidfjおよび語義表現ベクトルVcjをスプライシングしてPjの特徴ベクトルVpjを得る。例えば、Vpj=[Vdj,Vidfj,Vcj]である。
【0086】
そして、Pjの特徴ベクトルVpjをMLP(multi-layer perceptron、多層パーセプトロン)を介してPOI名の確率ProbjとしてPjを得る。
【0087】
以上は名称ソートモデルの動作原理であり、後続で実施形態3と合わせて名称ソートモデルの構築プロセスを詳しく説明する。
【0088】
405において、先頭の候補名を支店情報セグメントと結合してPOI名を得る。
【0089】
各Pjの確率Probjの大きい順で各Pjをソートした後に、先頭の候補名を選択する。当該候補名は、POI名を構成するのに最も適合すると考えられる。
【0090】
上記の例に続いて、仮に上記のプロセスにより特定された集合P{「三千店舗」、「エコダイエット」、「三千店舗エコダイエット」、「エコダイエット三千店舗」}のうち4つの候補名の確率は、大きい順に次のようになる。
三千店舗エコダイエット 0.93
三千店舗 0.82
エコダイエット 0.47
エコダイエット三千店舗 0.21
【0091】
そこで、「三千店舗エコダイエット」と先に認識された支店情報セグメントである「銀座ガーデンショップ」とを組み合わせて最終的なPOI名である「三千店舗エコダイエット銀座ガーデンショップ」を得た。
【0092】
最終的にPOI名が特定された後、そのPOIの画像データに対応する場所情報を採集することと組合わせ、POI名、住所、座標などの情報をPOIデータベースに格納することができる。後続のユーザが地図アプリケーションにおいて当該POIを検索すると、当該POI名、住所、座標等の情報に基づいてユーザにサービスを提供することができる。
【0093】
<実施形態3>
図6は、本発明の実施形態により提供されるソートモデルを構築する方法のフローチャートである。
図6に示されたように、当該方法は以下のステップを含むことができる。
【0094】
601において、POI名の正例および負例を含む訓練サンプルを取得する。
【0095】
本発明では、既存のPOIデータベースからPOI名を取得して良い。POIデータベースに既に存在しているPOI名は一般的に正しい名称であるため、それを正例とする。次に、POIデータベースに既に存在しているPOI名に基づいて、不正確な名称を反例として人工で構築する。
【0096】
例として、仮にPOIデータベースから既存のPOI名「赤黄青幼稚園上地園」を取得して正例とする。ただし、実施形態2に対応するために、POI名から支店情報セグメントを削除して正例とし、すなわち「赤黄青幼稚園」を正例とすることが好ましい。そして、負例として「赤黄青」、「幼稚園赤黄青」、「幼稚園」などを人工的に構築する。この方式により多数の正例と負例を構築した後、訓練サンプルとする。
【0097】
602において、各訓練サンプルから検索ウェブページ特徴、文書統計特徴および語義特徴のうちの1つを抽出し、各訓練サンプルがPOI名となる確率を特定する。
【0098】
各訓練サンプルは、実施形態2のステップ404で提供される方法で、各訓練サンプル(すなわち、各正例および負例)について、検索ウェブページ特徴、文書統計特徴、および語義特徴のうちの少なくとも1つをそれぞれ抽出する。検索ページ特徴、文書統計特徴および語義特徴の抽出を例として、訓練サンプルごとの検索結果の隠れベクトル、IDF表現ベクトルおよび語義表現ベクトルを抽出してスプライシングした後、その訓練サンプルの特徴ベクトルを得る。そして、その訓練サンプルの特徴ベクトルをMLPを介してその訓練サンプルがPOI名となる確率を得る。具体的なプロセスは、実施形態におけるステップ404の記載を参照され、ここでは言及されない。
【0099】
603において、pairwiseアルゴリズムを用いて正例がPOI名となる確率と負例がPOI名となる確率との差を最大化することを訓練目標として訓練することにより、名称ソートモデルを得る。
【0100】
本発明ではモデル訓練にpairwiseアルゴリズムを利用する。すなわち、1つの訓練サンプルの正例と負例を用いてそれぞれ文書対を構成し、モデル訓練過程において正例がPOI名となる確率と負例がPOI名となる確率との差をできるだけ最大化する。たとえば、採用される損失関数Lossは、
【数4】
であって良い。
【0101】
ここで、margin和γはスーパーパラメータであり、θはモデルパラメータの1つであり、Probpは正例がPOI名となる確率であり、Probnは負例がPOI名となる確率である。上記のLossでL2正則化法を用いてモデルのオーバーフィッティングを防止した。
【0102】
訓練中にランダム勾配降下の方法を用いてモデルパラメータの最適化を行うことができる。
【0103】
以上は、本発明で提供される方法の詳細な説明である。以下は、実施形態と合わせて本発明で提供される装置を詳しく説明する。
【0104】
<実施形態4>
図7は、本発明の実施形態により提供されるPOI名を抽出装置の構成図である。
図7に示されたように、当該装置は、取得ユニット01、構築ユニット02、ソートユニット03、および特定ユニット04を含んでもよく、更に認識ユニット05およびモデル訓練ユニット06を含んでもよい。これらの各構成単位の主な機能は次の通りである。
【0105】
取得ユニット01は、POIの画像データから認識された二つ以上のテキストセグメントを取得する。本発明ではPOIの画像データからテキストセグメントを認識する方式に限定されるものではなく、例えばOCR方式で認識することができる。
【0106】
構築ユニット02は、テキストセグメントを用いて二つ以上の候補名を構築する。
【0107】
ソートユニット03は、予め訓練された名称ソートモデルを用いて各候補名をソートする。なお、名称ソートモデルは、各候補名から抽出された検索ページ特徴、文書統計特徴及び語義特徴のうちの少なくとも1つを利用して、各候補名がPOI名となる確率を特定し、確率に基づいて各候補名をソートする。
【0108】
特定ユニット04は、ソートユニットによるソート結果に基づいてPOI名を特定する。
【0109】
一実施形態として、構築ユニット02は、テキストセグメントに対して順列・組合わせを行って2つ以上の候補名を得ることができる。そして、特定ユニット04は、先頭の候補名を前記POI名とする。
【0110】
しかしながら、好ましい実施形態として、認識ユニット05は、テキストセグメントから支店情報セグメントを最初に認識することができる。次に、構築ユニット02により、テキストセグメントのうち支店情報セグメントを除く他のテキストセグメントに対して順列・組合わせを行って二つ以上の候補名を得る。それに応じて、特定ユニット04は、先頭の候補名と支店情報セグメントとを結合してPOI名を得る。
【0111】
具体的には、認識ユニット05は、予め訓練された判別モデルを用いて各テキストセグメントを判別して各テキストセグメントが支店情報セグメントであるか否かを判定してよい。
【0112】
モデル訓練ユニット06は、予め判別モデルを訓練する役割を担う。具体的には、POIデータベースからサンプルデータを取得し、支店情報テキストをポジティブサンプルとし、非支店情報テキストをネガティブサンプルとし、サンプルデータを用いて判別モデルを訓練することができる。
【0113】
ソートユニット03は、名称ソートモデルを用いて候補名称から検索ウェブページ特徴を抽出する際に、具体的に、候補名をqueryとして検索し、取得された検索結果をセマンティックコーディングして検索結果の隠れベクトルを前記候補名の検索ウェブページ特徴として得ることができる。
【0114】
なお、ソートユニット03は、取得された検索結果をセマンティックコーディングして検索結果の隠れベクトルを得る際に、具体的に、上位N個(Nは所定の正整数)の検索結果テキストを取得し、取得された各検索結果テキストに対してそれぞれセマンティックコーディングを行い、各検索結果テキストの隠れベクトルを取得し、各検索結果テキストの隠れベクトルに対して統合処理を行って検索結果の隠れベクトルを得ることができる。
【0115】
ソートユニット03は、名称ソートモデルを用いて候補名から文書統計特徴を抽出する際に、具体的に、ウェブページデータにおいて候補名の逆文書頻度を統計し、逆文書頻度の表現ベクトルを候補名の文書統計特徴とすることができる。
【0116】
ソートユニット03は、名称ソートモデルを用いて候補名から語義特徴を抽出する際に、具体的に、候補名に含まれる各テキストセグメントの語義特徴、位置的特徴及び文書統計特徴のうちの少なくとも1つに基づいて、各テキストセグメントの語義表現ベクトルを取得し、各テキストセグメントの語義表現ベクトルに対して統合処理を行って候補名の語義表現ベクトルを得る。
【0117】
ここで、ソートユニット03は、テキストセグメントをセマンティックコーディングしてテキストセグメントの隠れベクトルを取得し、候補名におけるテキストセグメントの位置をベクトル空間にマッピングしてテキストセグメントの位置表現ベクトルを取得し、ウェブページデータにおいて前記テキストセグメントの逆文書頻度を統計して前記逆文書頻度の表現ベクトルを取得し、テキストセグメントの隠れベクトル、位置表現ベクトルと逆文書頻度の表現ベクトルをスプライシングしてそのテキストセグメントの語義表現ベクトルを得ることにより、テキストセグメントの語義表現ベクトルを特定することができる。
【0118】
<実施形態5>
図8は、本発明の実施形態により提供される名称ソートモデルを確立する装置の構成図である。
図8に示されたように、当該装置は、サンプル取得ユニット11およびモデル訓練ユニット12を備えて良い。ここで、各構成要素の主な機能は次の通りである。
【0119】
サンプル取得ユニット11は、POI名の正例および負例を含む訓練サンプルを取得する。
【0120】
具体的に、既存のPOIデータベースからPOI名を取得することができる。POIデータベースに既に存在しているPOI名は一般的に正しい名称であるため、これを正例とする。次に、POIデータベースに既に存在しているPOI名に基づいて、幾つかの不正確な名称を負例として人工で構築する。好ましくは、POI名から支店情報セグメントを削除して正例とし、これに基づいて負例を構築してもよい。
【0121】
モデル訓練ユニット12は、各訓練サンプルから検索ウェブページ特徴、文書統計特徴、および語義特徴のうちの少なくとも1つを抽出し、各訓練サンプルがPOI名となる確率を特定し、pairwiseアルゴリズムを用いて正例がPOI名となる確率と負例がPOI名となる確率との差を最大化することを訓練目標として訓練を行うことにより、名称ソートモデルを得る。
【0122】
具体的には、モデル訓練ユニット12は、訓練サンプルから検索ウェブページ特徴を抽出する際に、具体的に、訓練サンプルをqueryとして探索し、取得された検索結果をセマンティックコーディングして検索結果の隠れベクトルを訓練サンプルの検索ページ特徴として得ることができる。
【0123】
ここで、モデル訓練ユニット12は、取得された検索結果をセマンティックコーディングして検索結果の隠れベクトルを得る際に、具体的に、上位N(Nは所定の正整数)個の検索結果テキストを取得し、取得された各検索結果テキストに対してそれぞれセマンティックコーディングを行って各検索結果テキストの隠れベクトルを取得し、各検索結果テキストの隠れベクトルに対して統合処理を行って検索結果の隠れベクトルを得ることができる。
【0124】
モデル訓練ユニット12は、訓練サンプルから文書統計特徴を抽出する際に、具体的に、ウェブページデータにおいて訓練サンプルの逆文書頻度を統計し、逆文書頻度の表現ベクトルを訓練サンプルの文書統計特徴とすることができる。
【0125】
モデル訓練ユニット12は、訓練サンプルから語義特徴を抽出する際に、具体的に、訓練サンプルに含まれる各テキストセグメントの語義特徴、位置特徴及び文書統計特徴のうちの少なくとも1つに基づいて、各テキストセグメントの語義表現ベクトルを取得し、各テキストセグメントの語義表現ベクトルに対して統合処理を行って訓練サンプルの語義表現ベクトルを得る。
【0126】
ここで、モデル訓練ユニット12は、テキストセグメントをセマンティックコーディングしてテキストセグメントの隠れベクトルを取得し、候補名におけるテキストセグメントの位置をベクトル空間にマッピングしてテキストセグメントの位置表現ベクトルを取得し、ウェブページデータにおいてテキストセグメントの逆文書頻度を統計して逆文書頻度の表現ベクトルを取得し、テキストセグメントの隠れベクトル、位置表現ベクトルと逆文書頻度の表現ベクトルをスプライシングしてそのテキストセグメントの語義表現ベクトルを得ることにより、テキストセグメントの語義表現ベクトルを特定することができる。
【0127】
本発明の実施形態によれば、本発明は更に、電子デバイスおよび可読記憶媒体を提供する。
【0128】
図9は、本発明の実施形態による方法の電子デバイスのブロック図である。電子デバイスは、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、PDA、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータであることが意図される。電子デバイスは、様々な形式のモバイル装置、例えば、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティング装置を示してもよい。本文で示された構成要素、それらの接続及び関係、ならびにそれらの機能は例示にすぎなく、本明細書において説明及び/又は請求される本発明の実現を限定することを意図するわけではない。
【0129】
図9に示すように、この電子デバイスは、一つ又は複数のプロセッサ901、メモリ902、及び各構成要素に接続するための高速インターフェース及び低速インターフェースを含むインターフェースを備える。各構成要素は、異なるバスで相互接続され、そして、共通マザーボードに、又は必要に応じて、他の態様で実装されてもよい。プロセッサは、電子デバイス内で実行されるコマンドを処理してもよく、メモリに記憶される又はメモリ上で外部入力/出力装置(例えば、インターフェースに結合される表示装置)にグラフィカルユーザインターフェースのグラフィカル情報を表示するコマンドを含む。他の実施形態において、必要な場合に、複数のプロセッサ及び/又は複数のバスが、複数のメモリとともに用いられてもよい。同様に、複数の電子デバイスが接続されてもよく、それぞれのデバイスが必要な操作の一部を提供する(例えば、サーババンク、ブレードサーバの集まり、又はマルチプロセッサシステムとする)。
図9において、一つのプロセッサ901を例とする。
【0130】
メモリ902は、本発明で提供される非一時的コンピュータ可読記憶媒体である。なお、前記メモリには、少なくとも1つのプロセッサが本発明に提供された方法を実行するように、前記少なくとも1つのプロセッサに実行可能なコマンドが記憶されている。本発明の非一時的コンピュータ可読記憶媒体は、本発明に提供された方法をコンピュータに実行させるためのコンピュータコマンドを記憶している。
【0131】
メモリ902は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム、モジュール、例えば、本発明の実施例における方法に対応するプログラムコマンド/ユニットを記憶するために用いられる。プロセッサ901は、メモリ902に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記の方法実施例における方法を実現する。
【0132】
メモリ902は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域はオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶してもよく、データ記憶領域は電子デバイスの使用により作成されたデータなどを記憶してもよい。また、メモリ902は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的メモリ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一時的固体記憶装置を含んでもよい。幾つかの実施例において、メモリ902は、プロセッサ901に対して遠隔設置されたメモリを選択的に含んでもよく、これらのリモートメモリは、ネットワークを介して電子デバイスに接続されてもよい。上記のネットワークの実例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。
【0133】
電子デバイスは、更に、入力装置903と出力装置904とを備えても良い。プロセッサ901、メモリ902、入力装置903及び出力装置904は、バス又は他の手段により接続されても良く、
図9においてバスによる接続を例とする。
【0134】
入力装置903は、入力された数字又はキャラクタ情報を受信し、電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置904は、表示装置、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モータ)などを含むことができる。当該表示装置は、液晶ディスプレイ(LCD)、発光ダイオードディスプレイ(LED)、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。
【0135】
本明細書に説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(専用集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、当該記憶システム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置にデータ及びコマンドを送信するようにつなげられた、特殊用途でもよく一般用途でもよい少なくとも一つのプログラマブルプロセッサを含む、プログラマブルシステム上で実行可能及び/又は解釈可能な一つ又は複数のコンピュータプログラムにおける実行を含んでもよい。
【0136】
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又は、コードとも称される)は、プログラマブルプロセッサの機械命令を含み、高水準のプロセス及び/又はオブジェクト向けプログラミング言語、及び/又はアセンブリ/機械言語で実行されることができる。本明細書で用いられる「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令及び/又はデータを提供するのに用いられる任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、及びプログラマブル論理デバイス(PLD))を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令及び/又はデータを提供するために用いられる任意の信号を指す。
【0137】
ユーザとのインタラクティブを提供するために、本明細書に説明されるシステムと技術は、ユーザに対して情報を表示するための表示装置(例えば、CRT(ブラウン管)又はLCD(液晶ディスプレイ)モニタ)、ユーザがコンピュータに入力を与えることができるキーボード及びポインティングデバイス(例えば、マウスや、トラックボール)を有するコンピュータ上に実施されることが可能である。その他の種類の装置は、さらに、ユーザとのインタラクションを提供するために使用されることが可能であり、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚的なフィードバック、聴覚的なフィードバック、又は触覚的なフィードバック)であり取得し、ユーザからの入力は、任意の形態で(音響、音声又は触覚による入力を含む)受信され得る。
【0138】
本明細書に説明されるシステムと技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる)、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイド・エリア・ネットワーク(「WAN」)、インターネットワークを含む。
【0139】
コンピュータシステムは、クライアントとサーバーを含み得る。クライアントとサーバーは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。
【0140】
以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本発明に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本発明で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。
【0141】
上記の具体的な実施形態は本発明の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本発明の思想及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本発明の保護範囲内に含まれるべきである。