(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024142886
(43)【公開日】2024-10-11
(54)【発明の名称】意味論的注入を使用してカテゴリデータセットにおける傾向を分析するためのシステム及び方法
(51)【国際特許分類】
G06F 40/30 20200101AFI20241003BHJP
G06F 40/216 20200101ALI20241003BHJP
【FI】
G06F40/30
G06F40/216
【審査請求】未請求
【請求項の数】8
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023055271
(22)【出願日】2023-03-30
(71)【出願人】
【識別番号】390023711
【氏名又は名称】ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング
【氏名又は名称原語表記】ROBERT BOSCH GMBH
【住所又は居所原語表記】Stuttgart, Germany
(71)【出願人】
【識別番号】515022571
【氏名又は名称】ロバート ボッシュ エンジニアリング アンド ビジネス ソリューションズ プライヴェット リミテッド
【氏名又は名称原語表記】Robert Bosch Engineering and Business Solutions Private Limited
【住所又は居所原語表記】123, Industrial Layout, Hosur Road, Koramangala, Bangalore - 560 095, India
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【弁理士】
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【弁理士】
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【弁理士】
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【弁理士】
【氏名又は名称】上島 類
(72)【発明者】
【氏名】グプタ リシャブ
(57)【要約】 (修正有)
【課題】意味論的傾向を検出するための方法及びシステムを提供する。
【解決手段】システム100は、処理モジュール102、意味論的注入モジュール104、パターン生成モジュール108及び単語ベクトルモジュール106を備える。処理モジュール102は、複数のテキストベース文書を取得し、複数のテキストベース文書の各々の基本的なクリーニングを実行する。意味論的注入モジュール104は、計算された注入頻度値(I
freq)に基づいて、単語「A_クラス(C
i)_時間(T
j)」を挿入することにより、複数のテキストベース文書の各々において注入文を生成する。パターン生成モジュール108は、複数のテキストベース文書の各々の各注入文の各単語について、単語ベクトルモジュール106により作成された単語ベクトルの表現から傾向項目を抽出することによって意味論的傾向を生成する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
テキストベース文書からカテゴリデータセット内の意味論的傾向を検出するための方法(200)であって、
処理モジュール(102)により、複数のテキストベース文書(101)を取得するステップ(202)と、
前記処理モジュール(102)により、前記複数のテキストベース文書(101)の各々の各文から、少なくとも1つの記号、特殊文字及び予め定められた停止語を除去するステップ(204)と、
前記処理モジュール(102)により、前記複数のテキストベース文書の各々が関連付けられたカテゴリクラス(Ci)及び時間クラス(Tj)を識別するステップ(206)と、
意味論的注入モジュール(104)により、それぞれの前記文における単語の数(L)を決定するステップ(208)と、
前記意味論的注入モジュール(104)により、前記単語の数(L)に基づいて注入頻度値(Ifreq)を計算し、セット[0,(L-1)]から不連続乱数のIfreqの数を決定するステップと、
前記意味論的注入モジュール(104)により、決定された前記不連続乱数の各々によって示されるそれぞれの前記文内での位置における単語に先行して「A_クラス(Ci)_時間(Tj)」という単語を挿入することによって注入文を生成するステップと、
単語ベクトルモジュール(106)により、前記複数のテキストベース文書(101)の各々の各注入文の各単語について単語ベクトルを生成するステップ(210)と、
を含む方法において、
パターン生成モジュール(108)により、前記ステップ(210)において、前記複数のテキストベース文書(101)の各々の各注入文の各単語について作成された前記単語ベクトルの表現から傾向項目を抽出することによって意味論的傾向を生成するステップ(212)を含むことを特徴とする方法(200)。
【請求項2】
前記単語ベクトルは、Word2Vec技法を使用して生成される、請求項1に記載の方法(200)。
【請求項3】
前記注入頻度値(I
freq)は、[ceil{(log
2L)/2}],
【数1】
及び{ceil(L/2)}のうちの1つとして計算される、請求項1に記載の方法(200)。
【請求項4】
前記カテゴリクラス(Ci)は、テキストベース文書dkのテキストが関連付けられた文脈を示し得るものである、請求項1に記載の方法(200)。
【請求項5】
前記時間クラス(Tj)は、テキストベース文書dkのテキストが関連付けられた年、月又は日付を示し得るものである、請求項1に記載の方法(200)。
【請求項6】
テキストベース文書からカテゴリデータセット内の意味論的傾向を検出するためのシステム(100)であって、
複数のテキストベース文書(101)を取得し、前記複数のテキストベース文書(101)の各々の各文から、少なくとも1つの記号、特殊文字及び予め定められた停止語を除去するように構成された処理モジュール(102)であって、前記複数のテキストベース文書(101)の各々が関連付けられたカテゴリクラス(Ci)及び時間クラス(Tj)を識別するようにさらに構成された処理モジュール(102)と、
前記複数のテキストベース文書(101)の各々における各文について、それぞれの前記文における単語の数(L)を決定し、前記単語の数(L)に基づいて注入頻度値(Ifreq)を計算するように構成された意味論的注入モジュール(104)であって、セット[0,(L-1)]から不連続乱数のIfreqの数を決定し、決定された前記不連続乱数の各々によって示されるそれぞれの前記文内での位置における単語に先行して「A_クラス(Ci)_時間(Tj)」という単語を挿入することによって注入文を生成するようにさらに構成された意味論的注入モジュール(104)と、
前記複数のテキストベース文書(101)の各々の各注入文の各単語について単語ベクトルを生成するように構成された単語ベクトルモジュール(106)と、
を備えるシステム(100)において、
前記複数のテキストベース文書(101)の各々の各注入文の各単語について、前記単語ベクトルモジュール(106)により作成された前記単語ベクトルの表現から、傾向項目を抽出することによって意味論的傾向を生成するように構成されたパターン生成モジュール(108)を備えることを特徴とするシステム(100)。
【請求項7】
前記単語ベクトルは、Word2Vec技法を使用して生成される、請求項6に記載のシステム(100)。
【請求項8】
前記注入頻度値(I
freq)は、[ceil{(log
2L)/2}],
【数2】
及び{ceil(L/2)}のうちの1つとして計算される、請求項6に記載のシステム(100)。
【発明の詳細な説明】
【技術分野】
【0001】
本発明対象は、一般に、意味論的注入技法を使用して意味論的傾向を検出するための、特に、カテゴリデータ用途用の傾向分析のためのシステム及び方法に関する。
【背景技術】
【0002】
発明の背景技術
テキストベース文書は、テキスト分析活動のために使用される。テキスト分析活動においては、構造化されていないテキストベース文書が文脈的に理解され、さらに分析のために意味のあるデータに変換される。
【0003】
近年、CRM、KPO、ナレッジマネジメント、Web監視サービスなどのビジネスにおいては、構造化されたテキストストリームが大量に流入している。これは、「新興の話題」や「傾向」を発見し、それらの動的特性を分析することにこのデータを使用する機会を提供するものであり、これは意思決定プロセスにおける支援になり得る。新興の傾向分析のための従来の技法は、タスクを実行するための最初の選択肢であり、これらの技法は、さらに教師あり手法又は教師なし手法のいずれかに分類することができる。文献においては、既存の解決手段として、傾向を予測する単語の局所的特徴及び話題的特徴を使用する教師ありシステムが提案されている。特徴定義の必要性を克服するために、教師なしシステムにおいては、異なるタイムスライス全体にわたるそれらの広範な文脈比較により用語の意味における変化を捕捉するボラティリティ測定が使用される。既存の解決手段においては、エンティティ周りの単語のクラスタリングによるか、又は、それらの時系列上の進化の検出によるかのいずれかによって傾向を検出するために、潜在的ディリクレ割り当て(LDA)や生成確率モデルが広範囲に使用されている。それに加えて、これらの解決手段においては、異なるタイムスライス全体にわたる単語埋め込みの作成によって傾向を検出するために、積極的自己相互情報量(Positive Pointwise Mutual Information;PPMI)や自己相互情報量(Pointwise Mutual Information;PMI)などの関連付けの測定が、共起頻度に基づくスコアとして使用されている。さらに、そのような解決手段においては、タイムスライス全体にわたる同様の単語用の埋め込みの写像、又は、タイムスライス全体にわたる埋め込みの共同開発のいずれかによって、この領域での位置合わせの問題の解決が試みられている。実際には、従来の傾向分析技法は、用語頻度ベーススキームの方に大きく偏っており、この用語頻度ベーススキームは、特に、データセットがタイムスライス全体にわたって均一に分散していない領域固有のコーパスの場合、性能が乏しくなる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特許出願第202041055755号明細書
【発明の概要】
【発明が解決しようとする課題】
【0005】
関連する特許出願第202041055755号明細書においては、文脈構築のためにテキストベース文章からノイズの多い文を決定して除去するための方法及びシステムが開示されている。
【0006】
添付図面の簡単な説明
詳細な説明は、添付の図を参照しながら提供される。
【図面の簡単な説明】
【0007】
【
図1】本発明対象の例示的な実施形態に従った、テキストベース文書からカテゴリデータセット内の意味論的傾向を検出するためのシステム環境を示した図である。
【
図2】本発明対象の例示的な実施形態に従った、テキストベース文書からカテゴリデータセット内の意味論的傾向を検出するための方法のフローチャートを示した図である。
【発明を実施するための形態】
【0008】
実施形態の詳細な説明
本発明対象は、文脈傾向分析のために、テキストベース文書からカテゴリデータセット内の意味論的傾向を検出するための例示的な方法及びシステムを説明している。本明細書に記載されている例示的な方法及びシステムにおいては、従来の傾向分析に関連付けられた頻度に基づく偏りが克服され、所与の時間スライスでカテゴリ化された複数のテキストベース文章についての意味論的に有意義な傾向が検出される。
【0009】
本発明対象は、添付の図面を参照しながらさらに説明される。図面及び以下の説明においては、同一又は類似の部分の参照には可能な限り同一の参照符号が使用される。これらの説明及び図面は、本発明対象の原理を単に示したものであることに留意されたい。したがって、本明細書において明示的に説明されていない又は示されていないものであっても、本発明対象の原理を包含する様々な配置構成が案出される場合もあることが理解される。その上さらに、本明細書において、本発明対象の原理、態様及び例並びにそれらの特定の例を述べる全ての記述は、それらの等価物の包含も意図している。
【0010】
本方法及びシステムが実装される態様は、
図1乃至
図2に関連して詳細に説明される。ここで説明される方法及びシステムの態様は、任意の数の異なるデバイス、環境、及び/又は、実装において実施することが可能なものであるが、これらの例は、以下においては、システムの関連において説明される。本明細書に示されている本発明対象の図面は、例示を目的としたものであり、必ずしも縮尺通りに描写されているものではない点に留意されたい。
【0011】
図1には、本発明対象の実施例に従って、テキストベース文書からカテゴリデータセット内の意味論的傾向を検出するためのシステム100の環境が示されている。このシステム100は、様々な目的のための多様なコンテンツタイプを代表する信号及び/又は状態を処理するために、幅広い電子デバイスタイプにおいて見られる計算システムであるものとしてよい。システム100の例は、ラップトップ、ノートブックコンピュータ、デスクトップコンピュータ、サーバ、携帯電話、及び、パーソナルデジタルアシスタントを含み得るが、これらに限定されるものではない。
【0012】
システム100は、処理モジュール102を含み得る。この処理モジュール102は、マイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタル信号プロセッサ、中央処理ユニット、ステートマシン、論理回路、及び/又は、コンピュータ可読命令に基づいて信号及びデータを操作する任意の他のデバイスを含み得る。さらに、「プロセッサ」とラベル付けされた任意の機能ブロックを含む、図に示された様々な要素の機能が、コンピュータ可読命令を実行することができるハードウェアと同様に、専用ハードウェアの使用を通じて提供されるものとしてよい。
【0013】
さらに、システム100は、処理モジュール102に結合された、意味論的注入モジュール104、単語ベクトルモジュール106、及び、パターン生成モジュール108を含み得る。これらのモジュール104,106及び108は、ハードウェアとプログラミング、例えば、モジュール104,106及び108の様々な機能性を実装するためのプログラミング可能な命令との組合せとして実装されるものとしてよい。本明細書において説明する例においては、そのようなハードウェアとプログラミングとの組合せは、複数の異なる方式によって実装されるものとしてよい。例えば、パターン生成モジュール108用のプログラミングは、実行可能な命令であるものとしてよい。そのような命令は、システム100と直接的に又は(例えば、ネットワーク化された手段を介して)間接的に結合され得る非一時的な機械可読記憶媒体上に格納されるものとしてよい。本実施例においては、非一時的な機械可読記憶媒体は、プロセッサによって実行されるときに、モジュール104,106及び108に実施させるための命令を格納することができる。他の例においては、モジュール104,106及び108は、電子回路として実装されるものとしてよい。
【0014】
モジュール104,106及び108は、特に、特定のタスクを実行する又は特定の抽象データタイプを実装するルーチン、プログラム、オブジェクト、コンポーネント及びデータ構造を含む。また、モジュール104,106及び108は、信号プロセッサ、ステートマシン、論理回路、及び/又は、操作命令に基づいて信号を操作する任意の他のデバイス又はコンポーネントとして実装されるものとしてもよい。さらに、モジュール104,106及び108は、ハードウェアによって、処理ユニットにより実行されるコンピュータ可読命令によって、又は、それらの組合せによって実装することができる。
【0015】
さらに、システム100は、ストレージデバイス110を含む。このストレージデバイス110は、例えば、スタティックランダムアクセスメモリ(SRAM)やダイナミックランダムアクセスメモリ(DRAM)などの揮発性メモリ、及び/又は、読み取り専用メモリ(ROM)、消去可能プログラマブルROM、フラッシュメモリ、ハードディスク、光ディスク及び磁気テープなどの不揮発性メモリを含む任意の非一時的なコンピュータ可読媒体を含み得る。ストレージデバイス110は、活動データ103を格納することができる。一例においては、活動データ103は、複数のテキストベース文書
【数1】
を含み、ここで、各文書d
kは、M個のクラスのセット
【数2】
におけるカテゴリクラスci、L個のクラスのセット
【数3】
における時間クラスt
j、及び、注入頻度値(I
freq)を有する。
【0016】
一例においては、システム100は、インタフェース112を含む。このインタフェース112は、様々なインタフェース、例えば、ユーザ用のインタフェース112を含み得るものである。インタフェース112は、データ出力デバイスを含み得るものである。インタフェース112は、システム100との通信及び電子デバイスとの様々な通信を容易にすることができる。一例においては、インタフェース112は、ラップトップなどのシステム100と、1つ又は複数の他の計算デバイス(図示せず)との間の無線通信を可能にすることができる。
【0017】
以下の説明においては、テキストベース文書からカテゴリデータセット内の意味論的傾向を検出することが、システム100によってどのように実行されるかについて説明する。処理モジュール102は、複数のテキストベース文書D(101)を取得し、ここで、d
kは、N個のテキストベース文書のうちのk番目のテキストベース文書を示し、ここで、Nは、任意の正の数である。一例においては、N=1000である。各テキストベース文書d
kは、車両部品の名称、プログラムソースコード、バッチファイルなどのテキストを有しており、処理モジュール102によって読み取り可能である文書である。一例においては、複数のテキストベース文書D(101)は、複数の音声ノートをテキスト文書に変換することによって取得されるものとしてよい。そのような変換は、自動音声認識技術によって実行されるものとしてもよい。各テキストベース文書d
kは、文j
dkのセットを含み、
【数4】
によって定義されるM個のクラスのセットの中からクラスc
iに属する。Mの値が3である場合、M個のクラスのセットは、{c
1,c
2,c
3}である。クラスc
iは、テキストベース文書d
kが所属する技術分野である。各テキストベース文書d
kは、C={c
i}M
i=1などのカテゴリクラスc
i∈Cに属し、かつ、T={t
j}L
j=1などの時間クラスt
j∈Tに属する。システム100は、C
iT
jの各対について、上位k個の意味論的傾向項目を検出する。例えば、自動車においては、シートベルトに言及する全てのテキストベース文書を1つのクラスとみなすことができる。
【0018】
さらに、複数のテキストベース文書Dの基本的なクレンジングのための処理モジュール102によって、複数のテキストベース文書D(101)の各文書dkの文jdkのセットの各文から、少なくとも1つの記号、特殊文字及び予め定められた停止語が除去される。記号は、マーク又はサインを使用してアイデア、対象又は関係を表すことができる。特殊文字とは、アルファベット又は数字ではない文字であり、例えば、句読点は、特殊文字とみなされる。停止語とは、文書dkの文脈に関係がない単語である。各クラスciについて、停止語のリストが予め定められているものとしてもよく、文書dkのクラスciに基づいて、予め定められた停止語が、各文書dkの文jdkのセットの各文から除去される。一例においては、複数のテキストベース文書Dが英語のクラスに属する場合、冠詞及び前置詞は、予め定められた停止語とみなされるものとしてよく、基本的なクレンジングのために複数のテキストベース文書Dから除去することができる。
【0019】
処理モジュール102は、複数のテキストベース文書(101)の各々が属するカテゴリクラス(Ci)及び時間クラス(Tj)を識別するように構成されている。カテゴリクラスciは、テキストベース文書dkのテキストが関連付けられた文脈を示すものであってよい。自動車分野の例においては、複数のテキストベース文書D(101)がエンジンアセンブリに関連する場合、クラスciは、「エンジンアセンブリ」として識別されるものとしてよい。さらに、時間クラス(Tj)は、テキストベース文書dkのテキストが関連付けられた年、月又は日付を示すものであってよい。
【0020】
さらに、意味論的注入モジュール104は、複数のテキストベース文書の各々のテキストベース文書dkにおける各文について、それぞれの文における単語の数(L)を決定するように構成される。クリーニングされた各テキストベース文書dkのクラスciが識別されると、処理モジュール102は、この情報を、複数のテキストベース文書D(101)の各テキストベース文書dkにおける各文についての単語の数(L)を決定するために、意味論的注入モジュール104に送信する。決定された単語の数(L)は、各文のクリーニングされた長さの指標である。
【0021】
さらに、意味論的注入モジュール104は、複数のテキストベース文書D(101)の各テキストベース文書d
kの各文について決定された単語の数(L)に基づいて注入頻度値(I
freq)を計算するように構成されている。一例においては、注入頻度値(I
freq)は、[ceil{(log
2L)/2}],
【数5】
及び{ceil(L/2)}のうちの1つとして計算される。ceil(p)は、pの値が整数でない場合に、pの値の上位を四捨五入して整数値を返す関数である。本例においては、注入頻度値(I
freq)が[ceil{(log
2L)/2}]として計算される場合、{(log
2L)/2}の値は、{(log
2L)/2}の値に最も近くてそれよりも大きい整数値に四捨五入される。[ceil{(log
2L)/2}],
【数6】
及び{ceil(L/2)}のうちの1つとして注入頻度値(I
freq)を計算することにより、注入頻度値(I
freq)が、決定された単語の数(L)に比例しないこと、即ち、各文のクリーニングされた長さに比例しないことが保証される。一例においては、注入頻度値(I
freq)は、複数のテキストベース文書D(101)の各テキストベース文書d
kの各文について1として考慮される。
【0022】
一実施形態においては、意味論的注入モジュール104は、意味論的注入技法を実行する。この技法を使用する目的は、クリーンな文内に付加的なメタデータ(アンカと称される)を注入することであり、それによって、ベクトル空間は、(Word2Vec Gen(W)モジュール106によって生成されたものとして)ラベル付き領域に分割することができるようになる。文書d
kの長さ=len、カテゴリクラスC
i及び時間クラスT
jのクリーンな文が与えられた場合、意味論的注入技法においては、注入頻度(I
freq)が定義され、ここで、クリーンな文に注入されるべきアンカのカウントとしてI
freq∈Rとする。I
freqは、以下の式1
【数7】
によって与えられるように計算され、ここでは、対数関数により、I
freqがlenに比例しないこと(I
freq∝len)が保証される。これは、本質的にこの技法を無損失に近いものにするために役立つ。
【0023】
さらに意味論的注入モジュール104は、セット[0,(L-1)]から不連続乱数のIfreqの数をさらに決定する。一例においては、Lの値が4である場合、注入頻度値(Ifreq)は、[ceil{(log2L)/2}]を使用して1として計算される。その後、セット[0,(4-1)]、即ち、[0,3]から1つ(=Ifreqの数)の乱数が決定される。前述の例を用いれば、乱数は、0,1,2及び3のうちの1つとして決定される。Ifreqが2として計算される場合は、セット[0,(L-1)]から不連続の2つの乱数を決定することができる。
【0024】
セット[0,(L-1)]から不連続乱数のI
freqの数が決定されると、意味論的注入モジュール104は、決定された不連続乱数の各々によって示されるそれぞれの文での位置における単語に先行して単語「A_クラス(C
i)_時間(T
j)」を挿入することによって注入文を生成し、ここで、「A_C
iT
j」において、C
iは、カテゴリクラス、T
jは、文書d
kが属する時間クラスである。一例においては、カテゴリクラスC
i及び時間クラスT
jに属している長さlenの文書d
kについて、アンカ項目A_C
iT
jは、文書内のランダムで不連続な位置Pに注入され、ただし、
【数8】
である。
【0025】
さらに、単語ベクトルモジュール106は、複数のテキストベース文書の各々の各注入文の各単語について単語ベクトルを生成するように構成されている。この単語ベクトルモジュール106は、複数のテキストベース文書D(101)の各々の各注入文の各単語について単語ベクトルを生成する。各単語は、多次元のベクトルに置き換えられ、各単語のベクトルサイズは、同一である。したがって、各単語をそれぞれのベクトルにより置き換えた後の注入文は、各単語を行として表し、各ベクトルの次元を列として表す行列である。これらのベクトルは、簡素な数学的関数(ベクトル間のコサイン類似性)が、ベクトルによって表される単語間の意味論的類似性のレベルを示すように選択される。一例においては、単語ベクトルは、教師なしアルゴリズムを使用して生成されるものとしてよい。一例においては、この教師なしアルゴリズムは、Word2Vec技法に基づくものとしてよい。
【0026】
複数のテキストベース文書D(101)の各々の各注入文の各単語について単語ベクトルを生成すると、パターン生成モジュール108は、意味論的傾向を生成する。このパターン生成モジュール108は、単語ベクトルモジュール106によって作成された単語ベクトルの表現から傾向項目を抽出することによって意味論的傾向を生成するように構成されている。パターン生成モジュール108は、複数のテキストベース文書Dの各々について2段階のプロセスで単語ベクトルの表現から傾向項目を抽出する。ここでは、最初に、ci∈C及びtj∈Tなどのようなcitjの各対に対して、対応するアンカA_citjが識別される。第2のステップにおいては、ベクトル空間においてA_citjに最も近い単語ベクトルの表現から上位k個の単語が抽出される。これらの単語は、カテゴリクラスCi及び時間クラスTjについての上位k個の意味論的傾向を表す。
【0027】
一実施形態においては、複数の領域固有のドキュメント
【数9】
について、ここでは、各ドキュメントd
kが、C={c
i}M
i=1のようなカテゴリクラスC
i∈Cに属し、かつ、T={t
j}L
j=1のような時間クラスT
j∈Tに属する。パターン生成モジュール108は、さらにc
it
jの各対について上位k個の傾向項目を検出するように構成される。
【0028】
一実施形態においては、システム100は、固定サイズのスライド窓L内での全ての文書についての話題割り当ての再サンプリングにより、時間クラスtj+1内の新規文書についての定期的な更新を達成する。再サンプリングプロセスにおいては、時間クラスtj内のモデルのθ及びφは、時間クラスtj+1内のモデルについて、それぞれα及びβとして使用される。c∈[0,1]のような寄与係数cは、新規のモデル1の優先度に対する学習済みパラメータの寄与の度合いを決定する。全ての反復の後、各時間クラスには、θを使用して話題のセットが割り当てられ、各話題は、φを使用して単語(傾向項目)のセットによって特徴付けられ、テキストベース文書からは、文脈的にテキストベース文書が理解できるようにする。
【0029】
図2には、一例に従って、テキストベース文書からカテゴリデータセット内の意味論的傾向を検出するための方法200のフローチャートが示されている。この方法200は、任意の適当なハードウェア、非一時的な機械可読媒体又はそれらの組合せを通じてプロセッサ又はデバイスによって実行することができる。さらに、この方法200は、前述のシステム100に類似したシステムの関連において説明されているが、他の適当なデバイス又はシステムが方法200の実行のために使用されるものとしてもよい。
【0030】
いくつかの例においては、方法200にかかわるプロセスは、非一時的なコンピュータ可読媒体に格納された命令に基づいて実行することができる。処理モジュール102は、非一時的なコンピュータ可読媒体からコンピュータ可読命令をフェッチして実行するように、非一時的なコンピュータ可読媒体に通信可能に結合されるものとしてよい。非一時的なコンピュータ可読媒体には、例えば、デジタルメモリ、磁気ディスク及び磁気テープなどの磁気ストレージ媒体、ハードドライブ、又は、光学的に読み取り可能なデジタルデータストレージ媒体が含まれ得る。
【0031】
図2を参照すれば、ブロック202においては、複数のテキストベース文書
【数10】
が、複数のテキストベース文書D(101)から、当該テキストベース文書からのカテゴリデータセット内の意味論的傾向を検出するために処理モジュール102によって取得される。一例においては、複数のテキストベース文書によって受信され得る複数の音声ノートが、処理モジュール102によって取得されるものとしてよく、次いで、これらの音声ノートは、さらなる手続きのためにテキスト文書に変換される。複数のテキストベース文書Dの各テキストベース文書d
kは、文j
dkのセットを含み、以下のもの、即ち、
【数11】
によって定義されるM個のクラスのセットにおけるクラスc
iに属し、ただし、Mは、Nより小さい任意の値、例えば10よりも小さい任意の値を有し得る。
【0032】
ブロック204においては、方法200は、基本的なクレンジングのために、複数のテキストベース文書の各文書dkの文jdkのセットの各文から、少なくとも1つの記号、特殊文字及び予め定められた停止語を除去するステップを含み得る。
【0033】
ブロック206においては、方法200は、処理モジュール102により、複数のテキストベース文書Dのクリーニングされた各テキストベース文書dkが属するカテゴリクラス(Ci)及び時間クラス(Tj)を識別するステップを含み得る。例えば、クリーンな文が「右前輪がロックされた車両スピン対応アンチロックブレーキ」である場合、クラスciは、「サービスブレーキ」として識別されるものとしてよい。なぜなら、このクリーンな文は、ブレーキについて示しているからである。
【0034】
方法200のブロック208においては、クリーニングされた各文の長さである各テキストベース文書d
kにおける各文についての単語の数(L)が、意味論的注入モジュール104によって決定される。さらに、決定された単語の数(L)に基づいて、注入頻度値(I
freq)が計算される。一例においては、この注入頻度値(I
freq)は、[ceil{(log
2L)/2}],
【数12】
及び{ceil(L/2)}のうちの1つとして計算される。特定の例においては、処理モジュール102は、各テキストベース文書d
kの各文について、注入頻度値(I
freq)を1として仮定することができる。
【0035】
さらに、不連続乱数のIfreqの数が、セット[0,(L-1)]から決定され、注入文が、決定された不連続乱数の各々によって示されるそれぞれの文内での位置における単語に先行して「A_クラス(Ci)_時間(Tj)」という単語を挿入することによって生成され、ここで、「A_CiTj」において、Ciはカテゴリクラス、Tjは文書dkが属する時間クラスである。例えば、文書のクリーンな文「右前輪がロックされた車両スピン対応アンチロックブレーキ」について、クラスci=サービスブレーキは、「右A_サービスブレーキ前輪がロックされた車両スピンA_サービスブレーキ対応アンチロックブレーキ」として処理される。
【0036】
ブロック210においては、方法200は、単語ベクトルモジュール106により、複数のテキストベース文書Dの各々の各注入文の各単語について単語ベクトルを生成するステップを含み得る。したがって、各単語は、ベクトルによって置き換えられる。各ベクトルは、簡素な数学的関数(ベクトル間のコサイン類似性)が、ベクトルによって表される単語間の意味論的類似性のレベルを示すように選択され、したがって、ベクトルは、単語の共起統計を捕捉し、それによって、典型的に共起する単語又は類似した文脈を共有する単語は、ベクトル空間において互いにより近くなる。一例においては、単語ベクトルは、Word2Vec技法に基づいて生成されるものとしてよい。
【0037】
ブロック212においては、方法200は、パターン生成モジュール108により、ステップ210において、複数のテキストベース文書の各々の各注入文の各単語について作成された単語ベクトルの表現から傾向項目を抽出することによって意味論的傾向を生成するステップを含み得る。パターン生成モジュール108は、複数のテキストベース文書Dの各々について2段階のプロセスで単語ベクトルの表現から傾向項目を抽出する。ここでは、最初に、ci∈C及びtj∈Tなどのようなcitjの各対に対して、対応するアンカA_citjが識別される。第2のステップにおいては、ベクトル空間においてA_citjに最も近い単語ベクトルの表現から上位k個の単語が抽出される。これらの単語は、カテゴリクラスCi及び時間クラスTjについての上位k個の意味論的傾向を表す。
【0038】
本発明対象は、入力されたテキストベース文書から意味論的注入技法を使用して、カテゴリデータについての傾向を識別することにより、シームレスに動作するようなテキスト分析活動を支援するために採用される。この技法を用いることにより、システム100においては、従来の傾向分析に関連付けられた頻度に基づく偏りが克服され、所与の時間スライスでカテゴリ化されたテキストベース文書のコーパスについての意味論的に有意義な傾向が検出される。
【0039】
本開示のための態様は、構造的特徴及び/又は方法に特有の言語において説明されてきたが、添付の特許請求の範囲は、本明細書に記載された特定の特徴又は方法に限定されるものではないことは理解されるべきであり、むしろ、特定の特徴及び方法は、本開示の例として開示されている。
【手続補正書】
【提出日】2023-09-29
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
テキストベース文書からカテゴリデータセット内の意味論的傾向を検出するための方法(200)であって、
処理モジュール(102)により、複数のテキストベース文書(101)を取得するステップ(202)と、
前記処理モジュール(102)により、前記複数のテキストベース文書(101)の各々の各文から、少なくとも1つの記号、特殊文字及び予め定められた停止語を除去するステップ(204)と、
前記処理モジュール(102)により、前記複数のテキストベース文書の各々が関連付けられたカテゴリクラス(Ci)及び時間クラス(Tj)を識別するステップ(206)と、
意味論的注入モジュール(104)により、それぞれの前記文における単語の数(L)を決定するステップ(208)と、
前記意味論的注入モジュール(104)により、前記単語の数(L)に基づいて注入頻度値(Ifreq)を計算し、セット[0,(L-1)]から不連続乱数のIfreqの数を決定するステップと、
前記意味論的注入モジュール(104)により、決定された前記不連続乱数の各々によって示されるそれぞれの前記文内での位置における単語に先行して「A_クラス(Ci)_時間(Tj)」という単語を挿入することによって注入文を生成するステップと、
単語ベクトルモジュール(106)により、前記複数のテキストベース文書(101)の各々の各注入文の各単語について単語ベクトルを生成するステップ(210)と、
を含む方法において、
パターン生成モジュール(108)により、前記複数のテキストベース文書(101)の各々の各注入文の各単語について生成された前記単語ベクトルの表現から傾向項目を抽出することによって意味論的傾向を生成するステップ(212)を含むことを特徴とする方法(200)。
【請求項2】
前記単語ベクトルは、Word2Vec技法を使用して生成される、請求項1に記載の方法(200)。
【請求項3】
前記注入頻度値(I
freq)は、[ceil{(log
2L)/2}],
【数1】
及び{ceil(L/2)}のうちの1つとして計算される、請求項1に記載の方法(200)。
【請求項4】
前記カテゴリクラス(Ci)は、テキストベース文書dkのテキストが関連付けられた文脈を示し得るものである、請求項1に記載の方法(200)。
【請求項5】
前記時間クラス(Tj)は、テキストベース文書dkのテキストが関連付けられた年、月又は日付を示し得るものである、請求項1に記載の方法(200)。
【請求項6】
テキストベース文書からカテゴリデータセット内の意味論的傾向を検出するためのシステム(100)であって、
複数のテキストベース文書(101)を取得し、前記複数のテキストベース文書(101)の各々の各文から、少なくとも1つの記号、特殊文字及び予め定められた停止語を除去するように構成された処理モジュール(102)であって、前記複数のテキストベース文書(101)の各々が関連付けられたカテゴリクラス(Ci)及び時間クラス(Tj)を識別するようにさらに構成された処理モジュール(102)と、
前記複数のテキストベース文書(101)の各々における各文について、それぞれの前記文における単語の数(L)を決定し、前記単語の数(L)に基づいて注入頻度値(Ifreq)を計算するように構成された意味論的注入モジュール(104)であって、セット[0,(L-1)]から不連続乱数のIfreqの数を決定し、決定された前記不連続乱数の各々によって示されるそれぞれの前記文内での位置における単語に先行して「A_クラス(Ci)_時間(Tj)」という単語を挿入することによって注入文を生成するようにさらに構成された意味論的注入モジュール(104)と、
前記複数のテキストベース文書(101)の各々の各注入文の各単語について単語ベクトルを生成するように構成された単語ベクトルモジュール(106)と、
を備えるシステム(100)において、
前記複数のテキストベース文書(101)の各々の各注入文の各単語について、前記単語ベクトルモジュール(106)により生成された前記単語ベクトルの表現から、傾向項目を抽出することによって意味論的傾向を生成するように構成されたパターン生成モジュール(108)を備えることを特徴とするシステム(100)。
【請求項7】
前記単語ベクトルは、Word2Vec技法を使用して生成される、請求項6に記載のシステム(100)。
【請求項8】
前記注入頻度値(I
freq)は、[ceil{(log
2L)/2}],
【数2】
及び{ceil(L/2)}のうちの1つとして計算される、請求項6に記載のシステム(100)。
【外国語明細書】