IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ThinkX株式会社の特許一覧

特開2024-70182文書解析アルゴリズム、レコメンドシステム、文書解析方法及び文書解析プログラム
<>
  • 特開-文書解析アルゴリズム、レコメンドシステム、文書解析方法及び文書解析プログラム 図1a
  • 特開-文書解析アルゴリズム、レコメンドシステム、文書解析方法及び文書解析プログラム 図1b
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024070182
(43)【公開日】2024-05-22
(54)【発明の名称】文書解析アルゴリズム、レコメンドシステム、文書解析方法及び文書解析プログラム
(51)【国際特許分類】
   G06F 40/216 20200101AFI20240515BHJP
   G06F 40/237 20200101ALI20240515BHJP
【FI】
G06F40/216
G06F40/237
【審査請求】有
【請求項の数】4
【出願形態】OL
(21)【出願番号】P 2022180651
(22)【出願日】2022-11-10
(11)【特許番号】
(45)【特許公報発行日】2023-12-07
(71)【出願人】
【識別番号】520339622
【氏名又は名称】ThinkX株式会社
(74)【代理人】
【識別番号】100185144
【弁理士】
【氏名又は名称】木下 忠
(72)【発明者】
【氏名】大塚 一輝
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091EA01
(57)【要約】      (修正有)
【課題】意味が相反する単語同士をベクトル空間上で分離できる文書解析アルゴリズム、レコメンドシステム、文書解析方法及び文書解析プログラムを提供する。
【解決手段】大規模なテキストデータから学習した単語埋め込み行列を利用することができる文書解析アルゴリズムであって、単語埋め込み行列が含む語彙の集合の中から選択されたいくつかの反意語群をもとに、その反意語群により定義される任意の意図した概念を学習したモデルを生成する、前記モデルは、前記単語埋め込み行列が含む語のベクトルからなる高次元ベクトル空間上の超平面モデルとして学習される。前記超平面モデルは、前記反意語群で定義された意味概念について、前記単語埋め込み行列が含む任意の語ベクトルを、前記超平面の直行補空間への射影としてその概念の度合いを評価する。
【選択図】なし
【特許請求の範囲】
【請求項1】
計算機端末上で動作する文書解析アルゴリズムにおいて、
大規模なテキストデータから学習した単語埋め込み行列を利用することができ、
前記単語埋め込み行列が含む語彙の集合の中から選択されたいくつかの反意語群をもとに、その反意語群により定義される任意の意図した概念を学習したモデルを生成し、
前記モデルは前記単語埋め込み行列が含む語のベクトルからなる高次元ベクトル空間上の超平面モデルとして学習され、
前記超平面モデルは前記反意語群で定義された意味概念について、前記単語埋め込み行列が含む任意の語ベクトルを、前記超平面の直行補空間への射影としてその概念の度合いを評価する、
ことを特徴とする文書解析アルゴリズム。
【請求項2】
前記概念の度合いの正負の符号により、任意の語についてその概念のどちらの意味合いをもつかどうかで分類する請求項1に記載の文書解析アルゴリズム。
【請求項3】
請求項1又は2に記載の文書解析アルゴリズムにより、任意の複数の文書がもつ、任意の複数の意味概念の度合いを評価し、関連性を分析することで、文書それ自体や文書が説明する対象の関連性を評価するレコメンドシステム。
【請求項4】
請求項1又は2に記載の文書解析アルゴリズムを用いて文書の解析を行うコンピュータが実行する文書解析方法。
【請求項5】
請求項1又は2に記載の文書解析アルゴリズムを用いて文書の解析を行うコンピュータが実行する文書解析プログラム。





【発明の詳細な説明】
【技術分野】
【0001】
本発明は、任意に定義した意味情報を文書から定量的に測る数理アルゴリズム、文書解析アルゴリズムに関する。
【背景技術】
【0002】
文書からその特徴となる情報を解析する方法はこれまでいろいろな手法が採用されてきた。文書が持つトピックや、文書同士の関連性を得ることが主な動機である。
【0003】
例えば、センチメント分類技術と呼ばれる研究分野では、SNSの投稿内容等のドキュメントが含む感情を分類する。その背景技術には主に、予めセンチメント情報を付された辞書を参照することで文書分類を行うレキシコンベースの手法や、同様にセンチメント情報をラベルとして付した教師データにより学習する分類器を機械学習手法により生成する手法、またはこれらのハイブリッド手法であった。これらの手法ではいずれも数多くの(単語-センチメントラベル)辞書情報を人手で用意する必要があった。
非特許文献1では、肯定的・否定的な顔文字によって集められた大規模なツイートから感情特有単語の追加情報を学習する単語埋め込み行列SSWEを学習することで、反対の感情極性を持つ語を分類できるように単語埋め込み行列を改良した。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】「Tang, D., Wei, F., Yang, N., Zhou, M., Liu, T., & Qin, b. (2014). Learning Sentiment-Specific Word Embedding for Twitter Sentiment Classification. In: Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. 1, 1555-1565.」
【発明の概要】
【発明が解決しようとする課題】
【0005】
近年、GoogleNews等の大規模なWeb文書情報より得られた単語の連続分散表現すなわち単語埋め込み行列がもつ意味的な線形規則性を利用したセンチメント分析も行われたが、意味が相反する単語同士(例:yesとnoなど)がベクトル空間上で近いコサイン距離をもつためにこれらを分離できず、追加の情報なしには成功しなかった。
【課題を解決するための手段】
【0006】
本発明の計算機端末上で動作する文書解析アルゴリズムは、
大規模なテキストデータから学習した単語埋め込み行列を利用することができ、
前記単語埋め込み行列が含む語彙の集合の中から選択されたいくつかの反意語群をもとに、その反意語群により定義される任意の意図した概念を学習したモデルを生成し、
前記モデルは前記単語埋め込み行列が含む語のベクトルからなる高次元ベクトル空間上の超平面モデルとして学習され、
前記超平面モデルは前記反意語群で定義された意味概念について、前記単語埋め込み行列が含む任意の語ベクトルを、前記超平面の直行補空間への射影としてその概念の度合いを評価する。
【発明の効果】
【0007】
本発明では、数百万語の大規模テキストデータから学習済みの単語埋め込み行列内の連続分散表現を用いながらも、従来の方法では相反する意味の語が分離できず分析に失敗していた問題を解決する。膨大な辞書情報を用意することなく、文書の意味やセンチメント情報を解析するためのモデルを提供することができる。
【図面の簡単な説明】
【0008】
図1a】戦争と平和という意味概念について、各単語(※図左端のweapon, battle,等)がどちらの意味合いをどの程度持つかどうかを評価した結果である。
図1b】戦争と平和という意味概念について、映画(※図左端の「Batman Begins」「What Women Want」等)の内容説明する文書の意味の度合いを評価し、それらの関連性を分析した結果である。
【発明を実施するための形態】
【0009】
本発明の文書解析アルゴリズムは、計算機端末上で動作するものであり、大規模なテキストデータから学習した単語埋め込み行列を利用することができる。ここで「大規模なテキストデータから学習した単語埋め込み行列」とはWord2Vecなど公知のものを利用することができるが大規模なテキストデータから学習した単語埋め込み行列であればどのようなものでも構わない。
そして、単語埋め込み行列が含む語彙の集合の中から選択されたいくつかの反意語群をもとに、その反意語群により定義される任意の意図した概念を学習したモデルを生成する。
このモデルは単語埋め込み行列が含む語のベクトルからなる高次元ベクトル空間上の超平面モデルとして学習され、超平面モデルは反意語群で定義された意味概念について、単語埋め込み行列が含む任意の語ベクトルを、超平面の直行補空間への射影としてその概念の度合いを評価する。
さらに、概念の度合いの正負の符号により、任意の語についてその概念のどちらの意味合いをもつかどうか分類してもよい。
また、本発明のレコメンドシステムでは、これらの文書解析アルゴリズムにより、任意の複数の文書がもつ、任意の複数の意味概念の度合いを評価し、関連性を分析することで、文書それ自体や文書が説明する対象の関連性を評価する。
また、本発明の文書解析アルゴリズムを用いて文書の解析を行うコンピュータが実行する文書解析方法を提供することができる。さらには本発明の文書解析アルゴリズムを用いて文書の解析を行うコンピュータが実行する文書解析プログラムを提供することもできる。また、本発明も文書解析アルゴリズムの実施の形態は、これらに限らずコンピュータを用いた文書解析システムであってもよい。
【0010】
本発明の文書解析アルゴリズムは、微積分を含む一般的な数学的操作が可能な実行環境で実施される。ここで一般的な数学的操作が可能な実行環境とは、アセンブリやC言語をはじめとする計算言語(プログラミング言語)が動作する計算機であってもよい。この条件を備えていればチューリング等価であり、一般的な数学的操作は可能であると言える。
反意語群とは、例えば平和-戦争、 協調-対立、 愛-憎悪、 家族-外敵等の反意語の関係にある郡を意味する。もちろん語句が反意語の関係にあればこの例に限られない。
本発明では、4次元以上のベクトルを高次元ベクトルとする。(反意語ペア数 ×2)次元の超平面が生成される。ペア数は2ペア以上を前提とするため、最小で4次元の超平面が生成される。
単語埋め込み行列自体は一般に300次元程度の高次元ベクトル空間を張っている(※もちろん一般には次元数は300次元程度に限られない)。ここから何本か(=指定した反意語ペア数×2)の直交基底を特異値分解により取り出し、それらが張る高次元空間が超平面となる。
【0011】
超平面の直行補空間への射影について説明する。超平面の直行補空間はN次元空間において超平面がN-1次元であることから必ず1次元である。この1次元の直行補空間への射影は直行補空間の係数ベクトルをe、評価対象のベクトルをdとすれば、それらの内積 eTdで計算される。
ただし実際の計算ではeとdの次元は異なるため、dをeのベクトル空間に写したd‘を用いeTd ‘により計算される。
ここで、概念の度合いを評価するとは、eTdの値の正負によって、その意味の正負(又は0付近なら意味的に中立)を評価できる。
すなわち
・eTd ^ > 0 : その意味において語dは正の意味合いをもつ
・eTd ^ = 0 : その意味において語dは中立である
・eTd ^ < 0 : その意味において語dは負の意味合いをもつ
eT x > 0: In the A side of the hyperplane H
eT x < 0:In the B side of the hyperplane H
である。
【0012】
本発明の「 任意の語についてその概念のどちらの意味合いをもつかどうかで判断する」についてその一例を用いて説明する。
図1aは本発明の文書解析方法の実施結果である。戦争と平和という意味概念について、各単語(※図左端のweapon, battle,等)がどちらの意味合いをどの程度持つかどうかを判断している。図1bは戦争と平和という意味概念について、映画(※図左端の「Batman Begins」「What Women Want」等)を内容説明する文書の意味の度合いを評価し、それらの関連性を分析した結果である。
例えば、「戦争と平和」という意味概念について、「犯罪」がどちらの意味合いを持つかどうかを評価するとする。評価結果は[-∞, +∞]の値として出力される。図1aのグラフでは「criminal」という語の評価結果は-0.074となっている。値が負の側に振れていることより、この語は「戦争と平和」の意味概念において「戦争」の意味合いが強い語と判断される。同様に「weapon(兵器)」は-0.181、「battle(闘争)」は-0.31の値を示し、「犯罪」はこれらの語よりも「戦争」の意味合いは相対的に弱いと判断される。
逆に、「romantic(ロマンチック)」の語は0.426となっており、「平和」の極性が強いと判断される。
「machine(機械)」は0.005であり、 0に近いため、「戦争」でも「平和」でもどちらでもない中立な語であると判断される。
【0013】
本発明の「関連性を分析する」について説明する。例えば図1bでは映画を内容説明する文書の意味の度合いを評価し、それらの関連性を分析している。
負の値が最も強い(より戦争の意味合いをもつ)「Sin City」はバイオレンスものに属する映画ジャンルである一方、正の値が最も強い(より平和の意味合いをもつ)「Coach Carter」は青春ものに属する。
例えばユーザーのプロファイルよりそのユーザーは「戦争」に関心が高いと分析された場合、「Coach Carter」よりも「Sin City」を推薦した方が、より望ましいと判断される。
【0014】
より具体的な実施の形態を説明する。
学習させたいある概念に関するいくつかの反意語群を選ぶ。概念は平和、健康、芸術、近代、豪華、等の任意の概念でよいとする。選び出す個数は実験から2~10で十分であるという結果が得られている。
これらの反意語群に対応するベクトルを単語埋め込み行列Eから抜き出す。抜き出したベクトルを並べた行列を反意語行列Sする.反意語行列Sは選び出したベクトル個数nと特徴数の大きさmの行列である.これに自身の転置行列をかけ固有ベクトルを求める特異値分解を行う。そこで計算された固有ベクトルは反意語群のベクトル空間上でのデータの広がりを捉えており、特に特異値の大きな次元において反意語群を対称に隔てる幾何学的な配置を有する。したがって、これらの特異ベクトルにより多次元ベクトル空間上に張られる超平面Hは最初に選んだ反意語群を対称に隔てるような超平面となる。特異ベクトルの本数がnとなるようにSは分解されているから、n-1次元の超平面によりn次元空間は2つに分割される。この2つの部分空間上それぞれに、最初に選んだ相反する意味の語は配置されている。超平面上にある語は、この意味において中立的であり、逆に、超平面から距離が離れているほど、その部分空間側に属する意味の度合いが強いことになる。単語埋め込み行列の線形規則性の性質より、超平面が原点を通ることが仮定されるので、超平面Hの方程式は
e1x1+e2x2+・・・+enxn=0
の形式による定数項が0のn変数の線形一次方程式で与えらる。この係数ベクトルeと、単語埋め込み行列Eから選んだ任意の語をn次元空間に射影したベクトルdの内積eTdが、その語の意味評価に等しくなる。
【0015】
複数の単語から構成される文書の意味評価は、最も単純には各単語の意味評価の総和として求めることができる。その際に、助詞や冠詞などのストップワードは事前に除去される。
また、ある人物の紹介文があるとする。また、ある商品の紹介文があるとする。商品群を選ぶ際に重要と思われる概念を、予めいくつかモデル化しておく。例えば、豪華、癒し、伝統的、アウトドア、などの概念が考えられる.そして、それらの概念について、人物と商品の紹介文それぞれを評価する。傾向が一致した場合、その人物と商品の相性は良いと判断できる。分析する対象は、紹介文でなく検索クエリなどでも良いし、人物と商品でなく人物と人物でも良い(推薦システム)。
【0016】
本発明は、膨大な辞書情報を用意することなく、単に2~10ペア程度の任意の反意語を与えるだけで、それらの反意語群がもつ意味情報を学習し、あるテキストがもつその意味の度合いを数値として解析することができる。
このことは換言すれば、人間が人間にある概念を教えるのと同様に、任意のある概念(平和、健康、芸術、近代、豪華、等の任意の概念)に関するいくつかの語を提示するだけで、その概念を学習し、任意の文書がその意味についてどの程度の傾向を持つかを測ることができる。単にいくつかの言葉を使って教えるだけであり、極めて低コストで文書を解析することができる。
本発明と非特許文献1との大きな違いは、この文献の方法では既存の単語埋め込み行列に追加の情報を加え変更を行なっているのに対し、本発明は単語埋め込み行列自体に特別な変更を加えることなく、数学的操作のみで反対の極性を持つ語を分類し、意味評価に反映させることができる。
【0017】
今回開示された実施形態は、全ての点において例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内での全ての変更が含まれることが意図される。
図1a
図1b
【手続補正書】
【提出日】2023-09-07
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピュータが実行する文書解析方法において、
大規模なテキストデータから学習した単語埋め込み行列を利用することができ、
前記単語埋め込み行列が含む語彙の集合の中から選択されたいくつかの反意語群をもとに、その反意語群により定義される任意の意図した概念を学習したモデルを生成し、
前記モデルは前記単語埋め込み行列が含む語のベクトルからなる高次元ベクトル空間上の超平面モデルとして学習され、
この超平面モデルの学習は特異値分解によって、
選択された反意語群を対称に隔て、かつ互いに直交する基底ベクトルを求めることで行われ、この基底ベクトルが前記超平面を構成し
前記超平面モデルは前記反意語群で定義された意味概念について、前記単語埋め込み行列が含む任意の語ベクトルを、前記超平面の直行補空間への射影としてその概念の度合いを評価する、
ことを特徴とする文書解析方法
【請求項2】
前記概念の度合いの正負の符号により、任意の語についてその概念のどちらの意味合いをもつかどうかで分類する請求項1に記載の文書解析方法
【請求項3】
請求項1又は2に記載の文書解析方法により、任意の複数の文書がもつ、任意の複数の意味概念の度合いを評価し、関連性を分析することで、文書それ自体又は文書が説明する対象の関連性を評価するレコメンドシステム。
【請求項4】
請求項1又は2に記載の文書解析方法を用いて文書の解析を行うコンピュータが実行する文書解析プログラム。
【手続補正書】
【提出日】2023-09-23
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピュータが実行する文書解析方法において、
大規模なテキストデータから学習した単語埋め込み行列を利用することができ、
前記単語埋め込み行列が含む語彙の集合の中から選択されたいくつかの反意語群をもとに、その反意語群により定義される任意の意図した概念を学習したモデルを生成し、
前記モデルは前記単語埋め込み行列が含む語のベクトルからなる高次元ベクトル空間上の超平面モデルとして学習され、
この超平面モデルの学習は特異値分解によって、
選択された反意語群を対称に隔て、かつ互いに直交する基底ベクトルを求めることで行われ、この基底ベクトルが超平面を構成し、
前記超平面モデルは前記反意語群で定義された意味概念について、前記単語埋め込み行列が含む任意の語ベクトルを、超平面の直行補空間への射影としてその概念の度合いを評価する、
ことを特徴とする文書解析方法。
【請求項2】
前記概念の度合いの正負の符号により、任意の語についてその概念のどちらの意味合いをもつかどうかで分類する請求項1に記載の文書解析方法。
【請求項3】
請求項1又は2に記載の文書解析方法により、任意の複数の文書がもつ、任意の複数の意味概念の度合いを評価し、関連性を分析することで、文書それ自体又は文書が説明する対象の関連性を評価するレコメンドシステム。
【請求項4】
請求項1又は2に記載の文書解析方法を用いて文書の解析を行うコンピュータが実行する文書解析プログラム。