(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-07-14
(54)【発明の名称】百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法
(51)【国際特許分類】
G06F 40/295 20200101AFI20220707BHJP
【FI】
G06F40/295
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022504557
(86)(22)【出願日】2020-04-22
(85)【翻訳文提出日】2022-01-21
(86)【国際出願番号】 CN2020086173
(87)【国際公開番号】W WO2021082370
(87)【国際公開日】2021-05-06
(31)【優先権主張番号】201911029961.4
(32)【優先日】2019-10-28
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】508135448
【氏名又は名称】南京師範大学
(74)【代理人】
【識別番号】110002262
【氏名又は名称】TRY国際特許業務法人
(72)【発明者】
【氏名】張 雪英
(72)【発明者】
【氏名】張 春菊
(72)【発明者】
【氏名】陳 玉冰
(72)【発明者】
【氏名】汪 陳
(72)【発明者】
【氏名】張 凱
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091AB06
(57)【要約】
百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法において、予め訓練された単語の埋め込みモデルを生成すること、Bi-LSTMとCRFとが集積した地名識別モデルを生成すること、曖昧性を解消するべき地名が所在する文書における地名を識別し単語の埋め込みを表示すること、曖昧性を有する地名字義名称及びその字義内容を取得すること、曖昧性を有する地名字義内容における地名を識別し、単語の埋め込みを表示すること、曖昧性を有する地名が所在する文書における地名リスト単語の埋め込みと、曖昧性を有する地名字義内容における地名リストの単語の埋め込みについて類似度を算出すること、曖昧性を有する地名の字義について頻度を統計すること、曖昧性を有する地名が最も指す可能な地理位置を総合的に評価することを含む。上述の方法により、位置サービスに同一の地名が複数の地理位置に対応する可能性があり、また、同一の位置が複数の記述名称を有する可能性があるという問題を効果的に解決し、「インターネット+」という時代の背景に、文書記述の地名が散在し分布して離々たる場合に極めて適合され、知能化位置サービス、ホログラフィ位置地図や地理空間データマイニングなどの急なニーズが満たされる。
【特許請求の範囲】
【請求項1】
オープンソースされる中国語ウィキペディアコーパスを用いて、Jiebaというツールにより切り出し、Word2vecというツールを用いて訓練し、予め訓練された単語の埋め込みモデルを取得する第一ステップと、
地名記述コーパスを用いて、Bi-LSTMとCRFが集積した地名識別モデル訓練をして、予め訓練された地名識別モデルを取得する第二ステップと、
百科知識ベースに基づいて、曖昧性を有する地名を検索し、ウェブクローラーの技術を用いて百科内層のURLアドレスをクローラして解析することにより、曖昧性を有する地名と対応する字義名称リストと字義内容を取得する第四ステップと、
【請求項2】
前記第二ステップには、具体的に、
地理百科コーパスとマイクロソフトコーパスを含む、地名訓練コーパスを取得するステップ1と、
二つのコーパスを混ぜ、試験コーパスを、85%の訓練集合、8%の試験集合及び7%の検証集合という三つの部分に分けるステップ2と、
ステップ2における訓練コーパスをBi-LSTMにおける各個タイムステップの入力として、入力層のセンテンスのシーケンスに転換して、次に、正方向LSTM隠れ出力シーケンスと逆方向LSTM隠れ入力シーケンスとを位置に従って継ぎ合せ、完全な隠れ出力シーケンスを取得して、コンテキストにおける語義記述の情報を十分に考慮して、特徴付きディープラーニングと表示を実現するステップ3と、
CRFモデルを組み合わせ、センテンスのシーケンスの記述を予測しながら、入力されたセンテンスのシーケンス記述レベルを対比して反復し、最終に予め訓練された地名識別モデルを取得するステップ4を含む、ことを特徴とする請求項1に記載の百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法。
【請求項3】
前記第六ステップには、コサイン類似度の方法を用いて、曖昧性を解消するべき地名が所在する文書における地名リストと対応する単語の埋め込みと、曖昧性を有する地名の各字義内容における地名リストと対応する単語の埋め込みの類似度を判断し、算出式は、
【請求項4】
前記第七ステップには、字義頻度を算出する式は、
【請求項5】
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特に、百科知識ベースと単語の埋め込みに基づく中国語地名の語義曖昧性解消方法に関する。
【背景技術】
【0002】
地名は、人々が宇宙に特定する地理実体に与えたコードであり、特定する地理実体と他の地理実体を区別するための標識である。地名は、社会に最もよく使われる公共の情報の一つとして、地理空間情報における重要な組み合わせ部分に該当しており、地理情報デジタル製品にとって不可欠な情報であり、また、大衆に最も受けられやすい位置決めの形態である。特に、現在、世界は、遍在情報社会とビッグデータの時代(出典:李徳仁、2012;Goodchild、2017;林琿、2018)に入っている。位置についてのビッグデータは、ビッグデータにおける重要な構成部分となり、世界上、80%の情報が位置と関連するものである(出典:劉経南、2014)。文書は、人々が最もよく使う自然言語であり、遍在地理のビッグデータソースの典型的な代表である。文書における地名は、位置情報の重要な構成部分であり、知能化位置サービス、ホログラフィ位置地図や地理空間データマイニングなどを実現するための鍵である。
【0003】
文書における地名の記述は、曖昧性という現象を有しており、同じの地名が複数の地理位置に対応する可能性があり、同じのアドレスが複数の記述名称を有する可能性もある(出典:Buscaldi、2008;Leidner、2008)。例えば、「鼓楼区」という地名は、南京市鼓楼区、徐州市鼓楼区、北京市鼓楼区や福州市鼓楼区などに対応可能である。しかしながら、精度が高く、網羅率が高く、しかも、人類の認知に合致する地名データは、LBSの高効率サービスを実現するための前提や保証である。現在、地名の曖昧性を解消する方法は、以下の四つの方法に帰納され得る。(1)認知試験法は、ランドマークによるアンケート調査とサポートベクター回帰方法を設計することにより、各ランドマークが「曖昧性の地名」に該当する所属度を特定する(出典:劉瑜、2008)。(2)地名辞典と地理本体の概念の類別との間の語義情報により、地名の曖昧性を解消する。当該方法は、簡単で実行され易いと共に、曖昧性を有する地名に対する推し量ることが可能であるが、地名辞典の規模とカバレッジに制限され、正確率が高くない(出典:杜萍、2012)。(3)地名を記述するコンテキスト情報を用いて、コーパスのコンテキストにおいて地名の確率重みを算出し、又は、曖昧性を有する地名について行政仕組みの木構造図を構築し、木構造のロバスト性に基づいて曖昧性を有する地名の空間語義を判断する(出典:唐旭日、2010;王宇、2012)。地名実体が互いに違って混在し、空間情報の粒度の大きさがばらばらであり、詳しい名前を付かない地名が大量に存在するということに鑑み、地理的関連度により算出を行い、辞典と規則モデルを組み合わせた位置情報消岐と融合方法を補助的に用いることにより、位置情報を自然言語による表現から構造化や規範化の形式まで効果的に転換することができる(出典:余麗、2015;馬雷雷、2016;王星光、2017)。(4)興味のあるポイント(POI)などインターネットデータを用いて、自己適応カーネル密度のファジィ集合の方法に基づいて、場所の範囲に対する自動化抽出を構築し、都市の場所をさらに理解する曖昧な認知範囲に、可視化の解決的手段を与える(出典:王聖音、2018)。しかしながら、上記の方法は、文書記述に地名が比較的に集中する場合に適用されるが、現在、「インターネット+」という時代の背景において、文書記述に地名が散在し分布して離々たる場合に適用されない。文書記述における地名の語義情報、特に、地名における空間語義を正確に理解することは、現在、地名データベースの構築と社会的ニーズとの間の矛盾を効果的に解決して、地理位置サービスや地理情報検索の技術等などを満たすための急なニーズとなる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明は、位置サービスにおいて同一の地名が複数の地理位置に対応する可能性があり、また、同一位置が複数の記述名称を有する可能性があるという問題を解決して、「インターネット+」という時代の背景において、文書記述に地名が散在し分布して離々たる場合に適用され、知能化位置サービス、ホログラフィ位置地図や地理空間データマイニングなどの急なニーズを満たすことができる、百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法を提供することを目的とする。
【課題を解決するための手段】
【0005】
本発明は、上記した発明の目的を達成するために、以下の技術的手段を提供する。
百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法は、
オープンソースされる中国語のウィキペディアコーパスを用いて、Jiebaというツールにより切り出しを行い、Word2vecというツールを用いて訓練して、予め訓練された単語の埋め込みモデルを取得する第一ステップと、
地名記述コーパスを用いて、Bi-LSTMとCRFとが集積した地名識別モデルを訓練して、予め訓練された地名識別モデルを取得する第二ステップと、
百科知識ベースに基づいて、曖昧性を有する地名を検索すると共に、ウェブクローラーの技術を用いて、百科内層のURLアドレスをクローラして解析することにより、曖昧性を有する地名と対応する字義名称リストと字義内容を取得する第四ステップと、
【0006】
さらに、前記第二ステップには、具体的に、
中国大百科全書の中国地理コーパス及びマイクロソフトコーパスを含む、地名訓練コーパスを取得するステップー1と、
二つのコーパスを混ぜて、試験コーパスを、85%の訓練集合、8%の試験集合及び7%の検証集合という三つの部分に分けるステップー2と、
ステップー2における訓練コーパスをBi-LSTMにおける各タイムステップの入力として、入力層のセンテンスのシーケンスに転換して、次に、正方向LSTM隠れ出力シーケンスと逆方向LSTM隠れ入力シーケンスとを位置に従って継ぎ合せ、完全な隠れ出力シーケンスを取得して、コンテキストにおける語義記述の情報を十分に考慮して、特徴付きディープラーニングと表示を実現するステップー3と、
CRFモデルを組み合わせ、センテンスのシーケンスの記述を予測しながら、入力されたセンテンスのシーケンス記述レベルを対比して反復し、最終に予め訓練された地名識別モデルを取得するステップー4を含む。
【0007】
さらに、前記第六ステップには、コサイン類似度の方法を用いて、曖昧性を解消するべき地名が所在する文書における地名リストと対応する単語の埋め込みと曖昧性を有する地名の各字義内容における地名リストと対応する単語の埋め込みの類似度を判断し、算出式は、
【0008】
【0009】
さらに、前記第七ステップには、字義頻度を算出する式は、
【0010】
【0011】
【発明の効果】
【0012】
本発明は、オンラインにリアルタイムで更新される百科知識ベースを用いて、Bi-LSTMとCRFとが集積したモデルにより、曖昧性を有する地名記述文書と字義内容の地名を識別しながら、単語の埋め込みを表示し、地名単語の埋め込みの類似度を算出し字義の頻度を統計するアルゴリズムを設計し、曖昧性を有する地名が最も指す可能な地理位置を総合的に評価し、位置サービスに同一の地名が複数の地理位置に対応する可能性があり、また、同一の位置が複数の記述名称を有する可能性があるという問題を効果的に解決し、「インターネット+」という時代の背景に、文書記述の地名が散在し分布して離々たる場合に極めて適合され、知能化位置サービス、ホログラフィ位置地図や地理空間データマイニングなどの急なニーズが満たされる、百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法を開示する。
【図面の簡単な説明】
【0013】
【
図1】本発明の実施例に係る方法のフローチャートである。
【
図2】本発明の実施例に係るBi-LSTMとCRFとが集積した地名識別モデルの模式図である。
【
図3】本発明の実施例に係る曖昧性を有する「人民路」という地名の例示図である。
【
図4】本発明の実施例に係る予め訓練された単語の埋め込みモデルにおいて、一部の地名埋め込みを可視化させた結果の図である。
【
図5】本発明の実施例に係る百科検索の字義及びその字義の内容を記述する図である。
【
図6】本発明の実施例に係る「鼓楼区」という曖昧性を有する地名が最も指す可能な地理位置を判断する例示的フローチャートである。
【発明を実施するための形態】
【0014】
以下、図面と実施例を参照しながら、本発明を詳しく説明する。
【0015】
図1に示されるように、本発明の実施例が開示する百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法は、主に、地名を識別する技術と、曖昧性を有する地名の語義を判断することという二つの部分を含み、その基本的なステップは、以下の通りである。
【0016】
第一ステップは、予め訓練された単語の埋め込みモデルの生成である。
【0017】
オープンソースされる中国語のウィキペディアコーパスを用いて、Jiebaというツールにより切り出し、Word2vecというツールを用いて訓練し、予め訓練された単語の埋め込みモデルを取得する。
【0018】
第二ステップは、Bi-LSTMとCRFとが集積した予め訓練された地名識別モデルの生成である。
【0019】
Bi-LSTMモデルを基に、予め訓練された単語の埋め込みモデルと正則化の策略(dropout)を用いて、文書の特徴を可及的に取得し、CRFに基づいてセンテンスのシーケンス記述を予測する。具体的に、以下のことを含む。
【0020】
ステップー1は、「中国大百科全書中国地理」のコーパス(単に地理百科コーパスと呼ばれ、http://www.geoip.com.cn:9004/ITIS/corpus.html)とマイクロソフトコーパスを含む、地名訓練コーパスを取得する。「中国大百科全書中国地理」のコーパスは、南京師範大学の仮想地理環境教育部重点試験室が構築した「中国語地名記述コーパス」(ほぼ118万字、人工記述10万個地名)であり、その地名の分布が比較的集合しており、記述が比較的強い規律性を有する。マイクロソフトコーパスは、ほぼ236万字であり、文書において地名実体の数が比較的少ないと共に分布が離々たり、均一でない一方、記述の形態が比較的自由である。
【0021】
ステップー2は、二つのコーパスを混ぜ、試験コーパスを85%の訓練集合、8%の試験集合及び7%の検証集合という三つの部分に分ける。
【0022】
ステップー3は、ステップー2における訓練コーパスをBi-LSTMにおける各タイムステップの入力として、入力層のセンテンスのシーケンス。
【0023】
ステップー4は、CRFモデルを組み合わせ、センテンスのシーケンスの記述を予測しながら、入力されたセンテンスのシーケンス記述レベルを対比して反復し、最終的に、性能が比較的良い予め訓練された地名識別モデルを取得する。
【0024】
第三ステップは、曖昧性を解消するべき地名が所在する文書における地名の識別と単語の埋め込みの表示である。
【0025】
【0026】
第四ステップは、曖昧性を有する地名字義の名称及びその字義内容の取得である。
【0027】
百度百科知識ベースに基づいて、曖昧性を有する地名(例えば「人民路」)を検索しながら、ウェブクローラーの技術により、百科内層のURLアドレスをクローラして解析することにより、曖昧性を有する地名と対応する字義名称リストと字義内容(つまり、各字義による記述的文書)を取得する。
【0028】
第五ステップは、地名字義内容における地名の識別と単語の埋め込みの表示である。
【0029】
【0030】
第六ステップは、曖昧性を有する地名の語義の判断である。
【0031】
【0032】
【0033】
【0034】
ステップー2は、曖昧性を有する地名の字義頻度の統計である。
【0035】
【0036】
式には、niは、第i個の字義名称の共起単語が、曖昧性を解消するべき文書に生成された地名リストQに現れた回数を示し、Mは、曖昧性を解消するべき文書から識別された地名の総数を示し、Nは、曖昧性を有する地名の字義名称の数を示す。
【0037】
ステップー1は、曖昧性を有する地名が最も指す可能な地理位置の総合的な評価である。
【0038】
【0039】
【0040】
本発明の効果を説明するためには、以下、具体的な適用例を参照しながら、本発明の実施例に係る方法をさらに説明する。曖昧性を有する地名「鼓楼区」については、「南京市の都市の中心であり、鼓楼区が国家に重要な科学技術創新センターと航運物流サービスセンターであり、国家東部地域の国際商業、金融、経済センター、華東地域高度産業及び本社企業集まり地域であり、南京の経済、文化及び教育のセンターであり、また、江蘇省委員会、省政府機構及び江蘇省軍区政治部の所在地であり、江蘇省の政治、文化、行政のセンターである」と、「福州市鼓楼区(昔、福州府▲みん▼県や侯官県であった)が福州市の市町村の西北部に位置しており、中国に、最初37個の国家サービス業総合的改革試行地区であり、福州市全体の経済、文化、政治中心及び現代金融サービス業センターであり、また、福州市の初等や中等の教育資源が最も豊か地区である。鼓楼区は、八▲みん▼における最も良い地域と呼ばれ、福建省の省政府と福州市の市政府の所在地である」という二つの段落による文書記述を例に挙げる。
【0041】
(1)予め訓練された単語の埋め込みモデルの生成
オープンソースされる中国語ウィキペディアコーパスを用いて、Jiebaというツールにより切り出し、Word2vecというツールを用いて訓練して、予め訓練された単語の埋め込みモデルを取得する。Word2vecにおいては、訓練パラメータが表1に示され、予め訓練された単語の埋め込みモデルに、一部の地名埋め込みを可視化させ、可視化した結果を
図4に示す。
【0042】
【0043】
【0044】
(3)予め訓練された地名識別モデルを用いて、曖昧性を解消するべき文書における地名の全てを識別し、地名リストを形成し、つまり、「‘南京市’、‘華東地域’、‘南京’、‘江蘇省’」という地名リスト1と、「‘福州市’、‘福州府’、‘▲みん▼県’、‘侯官県’、‘福州市’、‘中国’、‘福州’、‘福州市’、‘福建省’、‘福州市’」という地名リスト2を取得する。上記した地名リストについて(1)における予め訓練された単語の埋め込みモデルを用いて表示し、単語の埋め込みVecQを取得する。
【0045】
(4)百科知識ベースから、曖昧性を有する地名の字義名称及びその字義の内容の取得
「鼓楼区」という地名を入力し、ウェブページを解析することにより、「鼓楼区」という曖昧性を有する地名と対応する四文字の字義名称及びその字義内容を取得する。字義名称は、それぞれ、「‘南京市鼓楼区’、‘徐州市鼓楼区’、‘開封市鼓楼区’、‘福州市鼓楼区’」となり、バイドゥ百科を介して検索した字義及び当該字義の記述を
図5に示す。
【0046】
【0047】
表2 「鼓楼区」という曖昧性を有する地名の字義名称と字義内容の地名リスト
【0048】
【0049】
【0050】
表4 「鼓楼区」という曖昧性を有する地名における各個字義の分布頻度
【0051】
表5 「鼓楼区」という曖昧性を有する地名における最適な字義値の算出結果
【0052】
故に、「南京市の都市の中心であり、鼓楼区が国家に重要な科学技術創新センターと航運物流サービスセンターであり、国家東部地域の国際商業、金融、経済センター、華東地域高度産業及び本社企業集まり地域であり、南京の経済、文化及び教育のセンターであり、また、江蘇省委員会、省政府機構及び江蘇省軍区政治部の所在地であり、江蘇省の政治、文化、行政のセンターである」という段落によると、最適値は、南京市鼓楼区:0.7275825というものが最高となることから、係る鼓楼区が、南京市に所属される鼓楼区となる。
【0053】
また、「福州市鼓楼区(昔、福州府▲みん▼県や侯官県であった)が福州市の市町村の西北部に位置しており、中国に、最初37個の国家サービス業総合的改革試行地区であり、福州市全体の経済、文化、政治中心及び現代金融サービス業センターであり、また、福州市の初等、中等教育資源が最も豊か地区である。鼓楼区は、八▲みん▼における最も良い地域と呼ばれ、福建省の省政府と福州市の市政府の所在地である」という段落によると、福州市の鼓楼区:0.741367というものが最高となることから、係る鼓楼区が福州市の鼓楼区となる。
【国際調査報告】