特開2024-142886 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ローベルト　ボツシユ　ゲゼルシヤフト　ミツト　ベシユレンクテル　ハフツングの特許一覧 ▶ ロバート　ボッシュ　エンジニアリング　アンド　ビジネス　ソリューションズ　リミテッドの特許一覧

特開2024-142886意味論的注入を使用してカテゴリデータセットにおける傾向を分析するためのシステム及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024142886

(43)【公開日】2024-10-11

(54)【発明の名称】意味論的注入を使用してカテゴリデータセットにおける傾向を分析するためのシステム及び方法

(51)【国際特許分類】

G06F 40/30 20200101AFI20241003BHJP

G06F 40/216 20200101ALI20241003BHJP

【ＦＩ】

G06F40/30

G06F40/216

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2023055271

(22)【出願日】2023-03-30

(71)【出願人】

【識別番号】390023711

【氏名又は名称】ローベルトボツシユゲゼルシヤフトミツトベシユレンクテルハフツング

【氏名又は名称原語表記】ＲＯＢＥＲＴＢＯＳＣＨＧＭＢＨ

【住所又は居所原語表記】Ｓｔｕｔｔｇａｒｔ，Ｇｅｒｍａｎｙ

(71)【出願人】

【識別番号】515022571

【氏名又は名称】ロバートボッシュエンジニアリングアンドビジネスソリューションズプライヴェットリミテッド

【氏名又は名称原語表記】ＲｏｂｅｒｔＢｏｓｃｈＥｎｇｉｎｅｅｒｉｎｇａｎｄＢｕｓｉｎｅｓｓＳｏｌｕｔｉｏｎｓＰｒｉｖａｔｅＬｉｍｉｔｅｄ

【住所又は居所原語表記】１２３，ＩｎｄｕｓｔｒｉａｌＬａｙｏｕｔ，ＨｏｓｕｒＲｏａｄ，Ｋｏｒａｍａｎｇａｌａ，Ｂａｎｇａｌｏｒｅ－５６００９５，Ｉｎｄｉａ

(74)【代理人】

【識別番号】100114890

【弁理士】

【氏名又は名称】アインゼル・フェリックス＝ラインハルト

(74)【代理人】

【識別番号】100098501

【弁理士】

【氏名又は名称】森田拓

(74)【代理人】

【識別番号】100116403

【弁理士】

【氏名又は名称】前川純一

(74)【代理人】

【識別番号】100134315

【弁理士】

【氏名又は名称】永島秀郎

(74)【代理人】

【識別番号】100162880

【弁理士】

【氏名又は名称】上島類

(72)【発明者】

【氏名】グプタリシャブ

(57)【要約】（修正有）

【課題】意味論的傾向を検出するための方法及びシステムを提供する。
【解決手段】システム１００は、処理モジュール１０２、意味論的注入モジュール１０４、パターン生成モジュール１０８及び単語ベクトルモジュール１０６を備える。処理モジュール１０２は、複数のテキストベース文書を取得し、複数のテキストベース文書の各々の基本的なクリーニングを実行する。意味論的注入モジュール１０４は、計算された注入頻度値（Ｉ_ｆｒｅｑ）に基づいて、単語「Ａ＿クラス（Ｃ_ｉ）＿時間（Ｔ_ｊ）」を挿入することにより、複数のテキストベース文書の各々において注入文を生成する。パターン生成モジュール１０８は、複数のテキストベース文書の各々の各注入文の各単語について、単語ベクトルモジュール１０６により作成された単語ベクトルの表現から傾向項目を抽出することによって意味論的傾向を生成する。
【選択図】図１

【特許請求の範囲】

【請求項1】

テキストベース文書からカテゴリデータセット内の意味論的傾向を検出するための方法（２００）であって、
処理モジュール（１０２）により、複数のテキストベース文書（１０１）を取得するステップ（２０２）と、
前記処理モジュール（１０２）により、前記複数のテキストベース文書（１０１）の各々の各文から、少なくとも１つの記号、特殊文字及び予め定められた停止語を除去するステップ（２０４）と、
前記処理モジュール（１０２）により、前記複数のテキストベース文書の各々が関連付けられたカテゴリクラス（Ｃ_ｉ）及び時間クラス（Ｔ_ｊ）を識別するステップ（２０６）と、
意味論的注入モジュール（１０４）により、それぞれの前記文における単語の数（Ｌ）を決定するステップ（２０８）と、
前記意味論的注入モジュール（１０４）により、前記単語の数（Ｌ）に基づいて注入頻度値（Ｉ_ｆｒｅｑ）を計算し、セット［０，（Ｌ－１）］から不連続乱数のＩ_ｆｒｅｑの数を決定するステップと、
前記意味論的注入モジュール（１０４）により、決定された前記不連続乱数の各々によって示されるそれぞれの前記文内での位置における単語に先行して「Ａ＿クラス（Ｃ_ｉ）＿時間（Ｔ_ｊ）」という単語を挿入することによって注入文を生成するステップと、
単語ベクトルモジュール（１０６）により、前記複数のテキストベース文書（１０１）の各々の各注入文の各単語について単語ベクトルを生成するステップ（２１０）と、
を含む方法において、
パターン生成モジュール（１０８）により、前記ステップ（２１０）において、前記複数のテキストベース文書（１０１）の各々の各注入文の各単語について作成された前記単語ベクトルの表現から傾向項目を抽出することによって意味論的傾向を生成するステップ（２１２）を含むことを特徴とする方法（２００）。

【請求項2】

前記単語ベクトルは、Ｗｏｒｄ２Ｖｅｃ技法を使用して生成される、請求項１に記載の方法（２００）。

【請求項3】

前記注入頻度値（Ｉ_ｆｒｅｑ）は、［ｃｅｉｌ｛（ｌｏｇ_２Ｌ）／２｝］，

【数1】

及び｛ｃｅｉｌ（Ｌ／２）｝のうちの１つとして計算される、請求項１に記載の方法（２００）。

【請求項4】

前記カテゴリクラス（Ｃ_ｉ）は、テキストベース文書ｄ_ｋのテキストが関連付けられた文脈を示し得るものである、請求項１に記載の方法（２００）。

【請求項5】

前記時間クラス（Ｔ_ｊ）は、テキストベース文書ｄ_ｋのテキストが関連付けられた年、月又は日付を示し得るものである、請求項１に記載の方法（２００）。

【請求項6】

テキストベース文書からカテゴリデータセット内の意味論的傾向を検出するためのシステム（１００）であって、
複数のテキストベース文書（１０１）を取得し、前記複数のテキストベース文書（１０１）の各々の各文から、少なくとも１つの記号、特殊文字及び予め定められた停止語を除去するように構成された処理モジュール（１０２）であって、前記複数のテキストベース文書（１０１）の各々が関連付けられたカテゴリクラス（Ｃ_ｉ）及び時間クラス（Ｔ_ｊ）を識別するようにさらに構成された処理モジュール（１０２）と、
前記複数のテキストベース文書（１０１）の各々における各文について、それぞれの前記文における単語の数（Ｌ）を決定し、前記単語の数（Ｌ）に基づいて注入頻度値（Ｉ_ｆｒｅｑ）を計算するように構成された意味論的注入モジュール（１０４）であって、セット［０，（Ｌ－１）］から不連続乱数のＩ_ｆｒｅｑの数を決定し、決定された前記不連続乱数の各々によって示されるそれぞれの前記文内での位置における単語に先行して「Ａ＿クラス（Ｃ_ｉ）＿時間（Ｔ_ｊ）」という単語を挿入することによって注入文を生成するようにさらに構成された意味論的注入モジュール（１０４）と、
前記複数のテキストベース文書（１０１）の各々の各注入文の各単語について単語ベクトルを生成するように構成された単語ベクトルモジュール（１０６）と、
を備えるシステム（１００）において、
前記複数のテキストベース文書（１０１）の各々の各注入文の各単語について、前記単語ベクトルモジュール（１０６）により作成された前記単語ベクトルの表現から、傾向項目を抽出することによって意味論的傾向を生成するように構成されたパターン生成モジュール（１０８）を備えることを特徴とするシステム（１００）。

【請求項7】

前記単語ベクトルは、Ｗｏｒｄ２Ｖｅｃ技法を使用して生成される、請求項６に記載のシステム（１００）。

【請求項8】

前記注入頻度値（Ｉ_ｆｒｅｑ）は、［ｃｅｉｌ｛（ｌｏｇ_２Ｌ）／２｝］，

【数2】

及び｛ｃｅｉｌ（Ｌ／２）｝のうちの１つとして計算される、請求項６に記載のシステム（１００）。

【発明の詳細な説明】

【技術分野】

【0001】

本発明対象は、一般に、意味論的注入技法を使用して意味論的傾向を検出するための、特に、カテゴリデータ用途用の傾向分析のためのシステム及び方法に関する。

【背景技術】

【0002】

発明の背景技術
テキストベース文書は、テキスト分析活動のために使用される。テキスト分析活動においては、構造化されていないテキストベース文書が文脈的に理解され、さらに分析のために意味のあるデータに変換される。

【0003】

近年、ＣＲＭ、ＫＰＯ、ナレッジマネジメント、Ｗｅｂ監視サービスなどのビジネスにおいては、構造化されたテキストストリームが大量に流入している。これは、「新興の話題」や「傾向」を発見し、それらの動的特性を分析することにこのデータを使用する機会を提供するものであり、これは意思決定プロセスにおける支援になり得る。新興の傾向分析のための従来の技法は、タスクを実行するための最初の選択肢であり、これらの技法は、さらに教師あり手法又は教師なし手法のいずれかに分類することができる。文献においては、既存の解決手段として、傾向を予測する単語の局所的特徴及び話題的特徴を使用する教師ありシステムが提案されている。特徴定義の必要性を克服するために、教師なしシステムにおいては、異なるタイムスライス全体にわたるそれらの広範な文脈比較により用語の意味における変化を捕捉するボラティリティ測定が使用される。既存の解決手段においては、エンティティ周りの単語のクラスタリングによるか、又は、それらの時系列上の進化の検出によるかのいずれかによって傾向を検出するために、潜在的ディリクレ割り当て（ＬＤＡ）や生成確率モデルが広範囲に使用されている。それに加えて、これらの解決手段においては、異なるタイムスライス全体にわたる単語埋め込みの作成によって傾向を検出するために、積極的自己相互情報量（Positive Pointwise Mutual Information；ＰＰＭＩ）や自己相互情報量（Pointwise Mutual Information；ＰＭＩ）などの関連付けの測定が、共起頻度に基づくスコアとして使用されている。さらに、そのような解決手段においては、タイムスライス全体にわたる同様の単語用の埋め込みの写像、又は、タイムスライス全体にわたる埋め込みの共同開発のいずれかによって、この領域での位置合わせの問題の解決が試みられている。実際には、従来の傾向分析技法は、用語頻度ベーススキームの方に大きく偏っており、この用語頻度ベーススキームは、特に、データセットがタイムスライス全体にわたって均一に分散していない領域固有のコーパスの場合、性能が乏しくなる。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特許出願第２０２０４１０５５７５５号明細書

【発明の概要】

【発明が解決しようとする課題】

【0005】

関連する特許出願第２０２０４１０５５７５５号明細書においては、文脈構築のためにテキストベース文章からノイズの多い文を決定して除去するための方法及びシステムが開示されている。

【0006】

添付図面の簡単な説明
詳細な説明は、添付の図を参照しながら提供される。

【図面の簡単な説明】

【0007】

【図1】本発明対象の例示的な実施形態に従った、テキストベース文書からカテゴリデータセット内の意味論的傾向を検出するためのシステム環境を示した図である。

【図2】本発明対象の例示的な実施形態に従った、テキストベース文書からカテゴリデータセット内の意味論的傾向を検出するための方法のフローチャートを示した図である。

【発明を実施するための形態】

【0008】

実施形態の詳細な説明
本発明対象は、文脈傾向分析のために、テキストベース文書からカテゴリデータセット内の意味論的傾向を検出するための例示的な方法及びシステムを説明している。本明細書に記載されている例示的な方法及びシステムにおいては、従来の傾向分析に関連付けられた頻度に基づく偏りが克服され、所与の時間スライスでカテゴリ化された複数のテキストベース文章についての意味論的に有意義な傾向が検出される。

【0009】

本発明対象は、添付の図面を参照しながらさらに説明される。図面及び以下の説明においては、同一又は類似の部分の参照には可能な限り同一の参照符号が使用される。これらの説明及び図面は、本発明対象の原理を単に示したものであることに留意されたい。したがって、本明細書において明示的に説明されていない又は示されていないものであっても、本発明対象の原理を包含する様々な配置構成が案出される場合もあることが理解される。その上さらに、本明細書において、本発明対象の原理、態様及び例並びにそれらの特定の例を述べる全ての記述は、それらの等価物の包含も意図している。

【0010】

本方法及びシステムが実装される態様は、図１乃至図２に関連して詳細に説明される。ここで説明される方法及びシステムの態様は、任意の数の異なるデバイス、環境、及び／又は、実装において実施することが可能なものであるが、これらの例は、以下においては、システムの関連において説明される。本明細書に示されている本発明対象の図面は、例示を目的としたものであり、必ずしも縮尺通りに描写されているものではない点に留意されたい。

【0011】

図１には、本発明対象の実施例に従って、テキストベース文書からカテゴリデータセット内の意味論的傾向を検出するためのシステム１００の環境が示されている。このシステム１００は、様々な目的のための多様なコンテンツタイプを代表する信号及び／又は状態を処理するために、幅広い電子デバイスタイプにおいて見られる計算システムであるものとしてよい。システム１００の例は、ラップトップ、ノートブックコンピュータ、デスクトップコンピュータ、サーバ、携帯電話、及び、パーソナルデジタルアシスタントを含み得るが、これらに限定されるものではない。

【0012】

システム１００は、処理モジュール１０２を含み得る。この処理モジュール１０２は、マイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタル信号プロセッサ、中央処理ユニット、ステートマシン、論理回路、及び／又は、コンピュータ可読命令に基づいて信号及びデータを操作する任意の他のデバイスを含み得る。さらに、「プロセッサ」とラベル付けされた任意の機能ブロックを含む、図に示された様々な要素の機能が、コンピュータ可読命令を実行することができるハードウェアと同様に、専用ハードウェアの使用を通じて提供されるものとしてよい。

【0013】

さらに、システム１００は、処理モジュール１０２に結合された、意味論的注入モジュール１０４、単語ベクトルモジュール１０６、及び、パターン生成モジュール１０８を含み得る。これらのモジュール１０４，１０６及び１０８は、ハードウェアとプログラミング、例えば、モジュール１０４，１０６及び１０８の様々な機能性を実装するためのプログラミング可能な命令との組合せとして実装されるものとしてよい。本明細書において説明する例においては、そのようなハードウェアとプログラミングとの組合せは、複数の異なる方式によって実装されるものとしてよい。例えば、パターン生成モジュール１０８用のプログラミングは、実行可能な命令であるものとしてよい。そのような命令は、システム１００と直接的に又は（例えば、ネットワーク化された手段を介して）間接的に結合され得る非一時的な機械可読記憶媒体上に格納されるものとしてよい。本実施例においては、非一時的な機械可読記憶媒体は、プロセッサによって実行されるときに、モジュール１０４，１０６及び１０８に実施させるための命令を格納することができる。他の例においては、モジュール１０４，１０６及び１０８は、電子回路として実装されるものとしてよい。

【0014】

モジュール１０４，１０６及び１０８は、特に、特定のタスクを実行する又は特定の抽象データタイプを実装するルーチン、プログラム、オブジェクト、コンポーネント及びデータ構造を含む。また、モジュール１０４，１０６及び１０８は、信号プロセッサ、ステートマシン、論理回路、及び／又は、操作命令に基づいて信号を操作する任意の他のデバイス又はコンポーネントとして実装されるものとしてもよい。さらに、モジュール１０４，１０６及び１０８は、ハードウェアによって、処理ユニットにより実行されるコンピュータ可読命令によって、又は、それらの組合せによって実装することができる。

【0015】

さらに、システム１００は、ストレージデバイス１１０を含む。このストレージデバイス１１０は、例えば、スタティックランダムアクセスメモリ（ＳＲＡＭ）やダイナミックランダムアクセスメモリ（ＤＲＡＭ）などの揮発性メモリ、及び／又は、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブルＲＯＭ、フラッシュメモリ、ハードディスク、光ディスク及び磁気テープなどの不揮発性メモリを含む任意の非一時的なコンピュータ可読媒体を含み得る。ストレージデバイス１１０は、活動データ１０３を格納することができる。一例においては、活動データ１０３は、複数のテキストベース文書

【数1】

を含み、ここで、各文書ｄ_ｋは、Ｍ個のクラスのセット

【数2】

におけるカテゴリクラスｃｉ、Ｌ個のクラスのセット

【数3】

における時間クラスｔ_ｊ、及び、注入頻度値（Ｉ_ｆｒｅｑ）を有する。

【0016】

一例においては、システム１００は、インタフェース１１２を含む。このインタフェース１１２は、様々なインタフェース、例えば、ユーザ用のインタフェース１１２を含み得るものである。インタフェース１１２は、データ出力デバイスを含み得るものである。インタフェース１１２は、システム１００との通信及び電子デバイスとの様々な通信を容易にすることができる。一例においては、インタフェース１１２は、ラップトップなどのシステム１００と、１つ又は複数の他の計算デバイス（図示せず）との間の無線通信を可能にすることができる。

【0017】

以下の説明においては、テキストベース文書からカテゴリデータセット内の意味論的傾向を検出することが、システム１００によってどのように実行されるかについて説明する。処理モジュール１０２は、複数のテキストベース文書Ｄ（１０１）を取得し、ここで、ｄ_ｋは、Ｎ個のテキストベース文書のうちのｋ番目のテキストベース文書を示し、ここで、Ｎは、任意の正の数である。一例においては、Ｎ＝１０００である。各テキストベース文書ｄ_ｋは、車両部品の名称、プログラムソースコード、バッチファイルなどのテキストを有しており、処理モジュール１０２によって読み取り可能である文書である。一例においては、複数のテキストベース文書Ｄ（１０１）は、複数の音声ノートをテキスト文書に変換することによって取得されるものとしてよい。そのような変換は、自動音声認識技術によって実行されるものとしてもよい。各テキストベース文書ｄ_ｋは、文ｊ_ｄｋのセットを含み、

【数4】

によって定義されるＭ個のクラスのセットの中からクラスｃ_ｉに属する。Ｍの値が３である場合、Ｍ個のクラスのセットは、｛ｃ_１，ｃ_２，ｃ_３｝である。クラスｃ_ｉは、テキストベース文書ｄ_ｋが所属する技術分野である。各テキストベース文書ｄ_ｋは、Ｃ＝｛ｃ_ｉ｝Ｍ_ｉ＝１などのカテゴリクラスｃ_ｉ∈Ｃに属し、かつ、Ｔ＝｛ｔ_ｊ｝Ｌ_ｊ＝１などの時間クラスｔ_ｊ∈Ｔに属する。システム１００は、Ｃ_ｉＴ_ｊの各対について、上位ｋ個の意味論的傾向項目を検出する。例えば、自動車においては、シートベルトに言及する全てのテキストベース文書を１つのクラスとみなすことができる。

【0018】

さらに、複数のテキストベース文書Ｄの基本的なクレンジングのための処理モジュール１０２によって、複数のテキストベース文書Ｄ（１０１）の各文書ｄ_ｋの文ｊ_ｄｋのセットの各文から、少なくとも１つの記号、特殊文字及び予め定められた停止語が除去される。記号は、マーク又はサインを使用してアイデア、対象又は関係を表すことができる。特殊文字とは、アルファベット又は数字ではない文字であり、例えば、句読点は、特殊文字とみなされる。停止語とは、文書ｄ_ｋの文脈に関係がない単語である。各クラスｃ_ｉについて、停止語のリストが予め定められているものとしてもよく、文書ｄ_ｋのクラスｃ_ｉに基づいて、予め定められた停止語が、各文書ｄ_ｋの文ｊ_ｄｋのセットの各文から除去される。一例においては、複数のテキストベース文書Ｄが英語のクラスに属する場合、冠詞及び前置詞は、予め定められた停止語とみなされるものとしてよく、基本的なクレンジングのために複数のテキストベース文書Ｄから除去することができる。

【0019】

処理モジュール１０２は、複数のテキストベース文書（１０１）の各々が属するカテゴリクラス（Ｃ_ｉ）及び時間クラス（Ｔ_ｊ）を識別するように構成されている。カテゴリクラスｃ_ｉは、テキストベース文書ｄ_ｋのテキストが関連付けられた文脈を示すものであってよい。自動車分野の例においては、複数のテキストベース文書Ｄ（１０１）がエンジンアセンブリに関連する場合、クラスｃ_ｉは、「エンジンアセンブリ」として識別されるものとしてよい。さらに、時間クラス（Ｔ_ｊ）は、テキストベース文書ｄ_ｋのテキストが関連付けられた年、月又は日付を示すものであってよい。

【0020】

さらに、意味論的注入モジュール１０４は、複数のテキストベース文書の各々のテキストベース文書ｄ_ｋにおける各文について、それぞれの文における単語の数（Ｌ）を決定するように構成される。クリーニングされた各テキストベース文書ｄ_ｋのクラスｃ_ｉが識別されると、処理モジュール１０２は、この情報を、複数のテキストベース文書Ｄ（１０１）の各テキストベース文書ｄ_ｋにおける各文についての単語の数（Ｌ）を決定するために、意味論的注入モジュール１０４に送信する。決定された単語の数（Ｌ）は、各文のクリーニングされた長さの指標である。

【0021】

さらに、意味論的注入モジュール１０４は、複数のテキストベース文書Ｄ（１０１）の各テキストベース文書ｄ_ｋの各文について決定された単語の数（Ｌ）に基づいて注入頻度値（Ｉ_ｆｒｅｑ）を計算するように構成されている。一例においては、注入頻度値（Ｉ_ｆｒｅｑ）は、［ｃｅｉｌ｛（ｌｏｇ_２Ｌ）／２｝］，

【数5】

及び｛ｃｅｉｌ（Ｌ／２）｝のうちの１つとして計算される。ｃｅｉｌ（ｐ）は、ｐの値が整数でない場合に、ｐの値の上位を四捨五入して整数値を返す関数である。本例においては、注入頻度値（Ｉ_ｆｒｅｑ）が［ｃｅｉｌ｛（ｌｏｇ_２Ｌ）／２｝］として計算される場合、｛（ｌｏｇ_２Ｌ）／２｝の値は、｛（ｌｏｇ_２Ｌ）／２｝の値に最も近くてそれよりも大きい整数値に四捨五入される。［ｃｅｉｌ｛（ｌｏｇ_２Ｌ）／２｝］，

【数6】

及び｛ｃｅｉｌ（Ｌ／２）｝のうちの１つとして注入頻度値（Ｉ_ｆｒｅｑ）を計算することにより、注入頻度値（Ｉ_ｆｒｅｑ）が、決定された単語の数（Ｌ）に比例しないこと、即ち、各文のクリーニングされた長さに比例しないことが保証される。一例においては、注入頻度値（Ｉ_ｆｒｅｑ）は、複数のテキストベース文書Ｄ（１０１）の各テキストベース文書ｄ_ｋの各文について１として考慮される。

【0022】

一実施形態においては、意味論的注入モジュール１０４は、意味論的注入技法を実行する。この技法を使用する目的は、クリーンな文内に付加的なメタデータ（アンカと称される）を注入することであり、それによって、ベクトル空間は、（Ｗｏｒｄ２ＶｅｃＧｅｎ（Ｗ）モジュール１０６によって生成されたものとして）ラベル付き領域に分割することができるようになる。文書ｄ_ｋの長さ＝ｌｅｎ、カテゴリクラスＣ_ｉ及び時間クラスＴ_ｊのクリーンな文が与えられた場合、意味論的注入技法においては、注入頻度（Ｉ_ｆｒｅｑ）が定義され、ここで、クリーンな文に注入されるべきアンカのカウントとしてＩ_ｆｒｅｑ∈Ｒとする。Ｉ_ｆｒｅｑは、以下の式１

【数7】

によって与えられるように計算され、ここでは、対数関数により、Ｉ_ｆｒｅｑがｌｅｎに比例しないこと（Ｉ_ｆｒｅｑ∝ｌｅｎ）が保証される。これは、本質的にこの技法を無損失に近いものにするために役立つ。

【0023】

さらに意味論的注入モジュール１０４は、セット［０，（Ｌ－１）］から不連続乱数のＩ_ｆｒｅｑの数をさらに決定する。一例においては、Ｌの値が４である場合、注入頻度値（Ｉ_ｆｒｅｑ）は、［ｃｅｉｌ｛（ｌｏｇ_２Ｌ）／２｝］を使用して１として計算される。その後、セット［０，（４－１）］、即ち、［０，３］から１つ（＝Ｉ_ｆｒｅｑの数）の乱数が決定される。前述の例を用いれば、乱数は、０，１，２及び３のうちの１つとして決定される。Ｉ_ｆｒｅｑが２として計算される場合は、セット［０，（Ｌ－１）］から不連続の２つの乱数を決定することができる。

【0024】

セット［０，（Ｌ－１）］から不連続乱数のＩ_ｆｒｅｑの数が決定されると、意味論的注入モジュール１０４は、決定された不連続乱数の各々によって示されるそれぞれの文での位置における単語に先行して単語「Ａ＿クラス（Ｃ_ｉ）＿時間（Ｔ_ｊ）」を挿入することによって注入文を生成し、ここで、「Ａ＿Ｃ_ｉＴ_ｊ」において、Ｃ_ｉは、カテゴリクラス、Ｔ_ｊは、文書ｄ_ｋが属する時間クラスである。一例においては、カテゴリクラスＣ_ｉ及び時間クラスＴ_ｊに属している長さｌｅｎの文書ｄ_ｋについて、アンカ項目Ａ＿Ｃ_ｉＴ_ｊは、文書内のランダムで不連続な位置Ｐに注入され、ただし、

【数8】

である。

【0025】

さらに、単語ベクトルモジュール１０６は、複数のテキストベース文書の各々の各注入文の各単語について単語ベクトルを生成するように構成されている。この単語ベクトルモジュール１０６は、複数のテキストベース文書Ｄ（１０１）の各々の各注入文の各単語について単語ベクトルを生成する。各単語は、多次元のベクトルに置き換えられ、各単語のベクトルサイズは、同一である。したがって、各単語をそれぞれのベクトルにより置き換えた後の注入文は、各単語を行として表し、各ベクトルの次元を列として表す行列である。これらのベクトルは、簡素な数学的関数（ベクトル間のコサイン類似性）が、ベクトルによって表される単語間の意味論的類似性のレベルを示すように選択される。一例においては、単語ベクトルは、教師なしアルゴリズムを使用して生成されるものとしてよい。一例においては、この教師なしアルゴリズムは、Ｗｏｒｄ２Ｖｅｃ技法に基づくものとしてよい。

【0026】

複数のテキストベース文書Ｄ（１０１）の各々の各注入文の各単語について単語ベクトルを生成すると、パターン生成モジュール１０８は、意味論的傾向を生成する。このパターン生成モジュール１０８は、単語ベクトルモジュール１０６によって作成された単語ベクトルの表現から傾向項目を抽出することによって意味論的傾向を生成するように構成されている。パターン生成モジュール１０８は、複数のテキストベース文書Ｄの各々について２段階のプロセスで単語ベクトルの表現から傾向項目を抽出する。ここでは、最初に、ｃ_ｉ∈Ｃ及びｔ_ｊ∈Ｔなどのようなｃ_ｉｔ_ｊの各対に対して、対応するアンカＡ＿ｃ_ｉｔ_ｊが識別される。第２のステップにおいては、ベクトル空間においてＡ＿ｃ_ｉｔ_ｊに最も近い単語ベクトルの表現から上位ｋ個の単語が抽出される。これらの単語は、カテゴリクラスＣ_ｉ及び時間クラスＴ_ｊについての上位ｋ個の意味論的傾向を表す。

【0027】

一実施形態においては、複数の領域固有のドキュメント

【数9】

について、ここでは、各ドキュメントｄ_ｋが、Ｃ＝｛ｃ_ｉ｝Ｍ_ｉ＝１のようなカテゴリクラスＣ_ｉ∈Ｃに属し、かつ、Ｔ＝｛ｔ_ｊ｝Ｌ_ｊ＝１のような時間クラスＴ_ｊ∈Ｔに属する。パターン生成モジュール１０８は、さらにｃ_ｉｔ_ｊの各対について上位ｋ個の傾向項目を検出するように構成される。

【0028】

一実施形態においては、システム１００は、固定サイズのスライド窓Ｌ内での全ての文書についての話題割り当ての再サンプリングにより、時間クラスｔ_ｊ＋１内の新規文書についての定期的な更新を達成する。再サンプリングプロセスにおいては、時間クラスｔ_ｊ内のモデルのθ及びφは、時間クラスｔ_ｊ＋１内のモデルについて、それぞれα及びβとして使用される。ｃ∈［０，１］のような寄与係数ｃは、新規のモデル１の優先度に対する学習済みパラメータの寄与の度合いを決定する。全ての反復の後、各時間クラスには、θを使用して話題のセットが割り当てられ、各話題は、φを使用して単語（傾向項目）のセットによって特徴付けられ、テキストベース文書からは、文脈的にテキストベース文書が理解できるようにする。

【0029】

図２には、一例に従って、テキストベース文書からカテゴリデータセット内の意味論的傾向を検出するための方法２００のフローチャートが示されている。この方法２００は、任意の適当なハードウェア、非一時的な機械可読媒体又はそれらの組合せを通じてプロセッサ又はデバイスによって実行することができる。さらに、この方法２００は、前述のシステム１００に類似したシステムの関連において説明されているが、他の適当なデバイス又はシステムが方法２００の実行のために使用されるものとしてもよい。

【0030】

いくつかの例においては、方法２００にかかわるプロセスは、非一時的なコンピュータ可読媒体に格納された命令に基づいて実行することができる。処理モジュール１０２は、非一時的なコンピュータ可読媒体からコンピュータ可読命令をフェッチして実行するように、非一時的なコンピュータ可読媒体に通信可能に結合されるものとしてよい。非一時的なコンピュータ可読媒体には、例えば、デジタルメモリ、磁気ディスク及び磁気テープなどの磁気ストレージ媒体、ハードドライブ、又は、光学的に読み取り可能なデジタルデータストレージ媒体が含まれ得る。

【0031】

図２を参照すれば、ブロック２０２においては、複数のテキストベース文書

【数10】

が、複数のテキストベース文書Ｄ（１０１）から、当該テキストベース文書からのカテゴリデータセット内の意味論的傾向を検出するために処理モジュール１０２によって取得される。一例においては、複数のテキストベース文書によって受信され得る複数の音声ノートが、処理モジュール１０２によって取得されるものとしてよく、次いで、これらの音声ノートは、さらなる手続きのためにテキスト文書に変換される。複数のテキストベース文書Ｄの各テキストベース文書ｄ_ｋは、文ｊ_ｄｋのセットを含み、以下のもの、即ち、

【数11】

によって定義されるＭ個のクラスのセットにおけるクラスｃ_ｉに属し、ただし、Ｍは、Ｎより小さい任意の値、例えば１０よりも小さい任意の値を有し得る。

【0032】

ブロック２０４においては、方法２００は、基本的なクレンジングのために、複数のテキストベース文書の各文書ｄ_ｋの文ｊ_ｄｋのセットの各文から、少なくとも１つの記号、特殊文字及び予め定められた停止語を除去するステップを含み得る。

【0033】

ブロック２０６においては、方法２００は、処理モジュール１０２により、複数のテキストベース文書Ｄのクリーニングされた各テキストベース文書ｄ_ｋが属するカテゴリクラス（Ｃ_ｉ）及び時間クラス（Ｔ_ｊ）を識別するステップを含み得る。例えば、クリーンな文が「右前輪がロックされた車両スピン対応アンチロックブレーキ」である場合、クラスｃ_ｉは、「サービスブレーキ」として識別されるものとしてよい。なぜなら、このクリーンな文は、ブレーキについて示しているからである。

【0034】

方法２００のブロック２０８においては、クリーニングされた各文の長さである各テキストベース文書ｄ_ｋにおける各文についての単語の数（Ｌ）が、意味論的注入モジュール１０４によって決定される。さらに、決定された単語の数（Ｌ）に基づいて、注入頻度値（Ｉ_ｆｒｅｑ）が計算される。一例においては、この注入頻度値（Ｉ_ｆｒｅｑ）は、［ｃｅｉｌ｛（ｌｏｇ_２Ｌ）／２｝］，

【数12】

及び｛ｃｅｉｌ（Ｌ／２）｝のうちの１つとして計算される。特定の例においては、処理モジュール１０２は、各テキストベース文書ｄ_ｋの各文について、注入頻度値（Ｉ_ｆｒｅｑ）を１として仮定することができる。

【0035】

さらに、不連続乱数のＩ_ｆｒｅｑの数が、セット［０，（Ｌ－１）］から決定され、注入文が、決定された不連続乱数の各々によって示されるそれぞれの文内での位置における単語に先行して「Ａ＿クラス（Ｃ_ｉ）＿時間（Ｔ_ｊ）」という単語を挿入することによって生成され、ここで、「Ａ＿Ｃ_ｉＴ_ｊ」において、Ｃ_ｉはカテゴリクラス、Ｔ_ｊは文書ｄ_ｋが属する時間クラスである。例えば、文書のクリーンな文「右前輪がロックされた車両スピン対応アンチロックブレーキ」について、クラスｃ_ｉ＝サービスブレーキは、「右Ａ＿サービスブレーキ前輪がロックされた車両スピンＡ＿サービスブレーキ対応アンチロックブレーキ」として処理される。

【0036】

ブロック２１０においては、方法２００は、単語ベクトルモジュール１０６により、複数のテキストベース文書Ｄの各々の各注入文の各単語について単語ベクトルを生成するステップを含み得る。したがって、各単語は、ベクトルによって置き換えられる。各ベクトルは、簡素な数学的関数（ベクトル間のコサイン類似性）が、ベクトルによって表される単語間の意味論的類似性のレベルを示すように選択され、したがって、ベクトルは、単語の共起統計を捕捉し、それによって、典型的に共起する単語又は類似した文脈を共有する単語は、ベクトル空間において互いにより近くなる。一例においては、単語ベクトルは、Ｗｏｒｄ２Ｖｅｃ技法に基づいて生成されるものとしてよい。

【0037】

ブロック２１２においては、方法２００は、パターン生成モジュール１０８により、ステップ２１０において、複数のテキストベース文書の各々の各注入文の各単語について作成された単語ベクトルの表現から傾向項目を抽出することによって意味論的傾向を生成するステップを含み得る。パターン生成モジュール１０８は、複数のテキストベース文書Ｄの各々について２段階のプロセスで単語ベクトルの表現から傾向項目を抽出する。ここでは、最初に、ｃ_ｉ∈Ｃ及びｔ_ｊ∈Ｔなどのようなｃ_ｉｔ_ｊの各対に対して、対応するアンカＡ＿ｃ_ｉｔ_ｊが識別される。第２のステップにおいては、ベクトル空間においてＡ＿ｃ_ｉｔ_ｊに最も近い単語ベクトルの表現から上位ｋ個の単語が抽出される。これらの単語は、カテゴリクラスＣ_ｉ及び時間クラスＴ_ｊについての上位ｋ個の意味論的傾向を表す。

【0038】

本発明対象は、入力されたテキストベース文書から意味論的注入技法を使用して、カテゴリデータについての傾向を識別することにより、シームレスに動作するようなテキスト分析活動を支援するために採用される。この技法を用いることにより、システム１００においては、従来の傾向分析に関連付けられた頻度に基づく偏りが克服され、所与の時間スライスでカテゴリ化されたテキストベース文書のコーパスについての意味論的に有意義な傾向が検出される。

【0039】

本開示のための態様は、構造的特徴及び／又は方法に特有の言語において説明されてきたが、添付の特許請求の範囲は、本明細書に記載された特定の特徴又は方法に限定されるものではないことは理解されるべきであり、むしろ、特定の特徴及び方法は、本開示の例として開示されている。

【図1】

【図2】

【手続補正書】

【提出日】2023-09-29

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

テキストベース文書からカテゴリデータセット内の意味論的傾向を検出するための方法（２００）であって、
処理モジュール（１０２）により、複数のテキストベース文書（１０１）を取得するステップ（２０２）と、
前記処理モジュール（１０２）により、前記複数のテキストベース文書（１０１）の各々の各文から、少なくとも１つの記号、特殊文字及び予め定められた停止語を除去するステップ（２０４）と、
前記処理モジュール（１０２）により、前記複数のテキストベース文書の各々が関連付けられたカテゴリクラス（Ｃ_ｉ）及び時間クラス（Ｔ_ｊ）を識別するステップ（２０６）と、
意味論的注入モジュール（１０４）により、それぞれの前記文における単語の数（Ｌ）を決定するステップ（２０８）と、
前記意味論的注入モジュール（１０４）により、前記単語の数（Ｌ）に基づいて注入頻度値（Ｉ_ｆｒｅｑ）を計算し、セット［０，（Ｌ－１）］から不連続乱数のＩ_ｆｒｅｑの数を決定するステップと、
前記意味論的注入モジュール（１０４）により、決定された前記不連続乱数の各々によって示されるそれぞれの前記文内での位置における単語に先行して「Ａ＿クラス（Ｃ_ｉ）＿時間（Ｔ_ｊ）」という単語を挿入することによって注入文を生成するステップと、
単語ベクトルモジュール（１０６）により、前記複数のテキストベース文書（１０１）の各々の各注入文の各単語について単語ベクトルを生成するステップ（２１０）と、
を含む方法において、
パターン生成モジュール（１０８）により、前記複数のテキストベース文書（１０１）の各々の各注入文の各単語について生成された前記単語ベクトルの表現から傾向項目を抽出することによって意味論的傾向を生成するステップ（２１２）を含むことを特徴とする方法（２００）。

【請求項2】

前記単語ベクトルは、Ｗｏｒｄ２Ｖｅｃ技法を使用して生成される、請求項１に記載の方法（２００）。

【請求項3】

前記注入頻度値（Ｉ_ｆｒｅｑ）は、［ｃｅｉｌ｛（ｌｏｇ_２Ｌ）／２｝］，

【数1】

及び｛ｃｅｉｌ（Ｌ／２）｝のうちの１つとして計算される、請求項１に記載の方法（２００）。

【請求項4】

【請求項5】

【請求項6】

テキストベース文書からカテゴリデータセット内の意味論的傾向を検出するためのシステム（１００）であって、
複数のテキストベース文書（１０１）を取得し、前記複数のテキストベース文書（１０１）の各々の各文から、少なくとも１つの記号、特殊文字及び予め定められた停止語を除去するように構成された処理モジュール（１０２）であって、前記複数のテキストベース文書（１０１）の各々が関連付けられたカテゴリクラス（Ｃ_ｉ）及び時間クラス（Ｔ_ｊ）を識別するようにさらに構成された処理モジュール（１０２）と、
前記複数のテキストベース文書（１０１）の各々における各文について、それぞれの前記文における単語の数（Ｌ）を決定し、前記単語の数（Ｌ）に基づいて注入頻度値（Ｉ_ｆｒｅｑ）を計算するように構成された意味論的注入モジュール（１０４）であって、セット［０，（Ｌ－１）］から不連続乱数のＩ_ｆｒｅｑの数を決定し、決定された前記不連続乱数の各々によって示されるそれぞれの前記文内での位置における単語に先行して「Ａ＿クラス（Ｃ_ｉ）＿時間（Ｔ_ｊ）」という単語を挿入することによって注入文を生成するようにさらに構成された意味論的注入モジュール（１０４）と、
前記複数のテキストベース文書（１０１）の各々の各注入文の各単語について単語ベクトルを生成するように構成された単語ベクトルモジュール（１０６）と、
を備えるシステム（１００）において、
前記複数のテキストベース文書（１０１）の各々の各注入文の各単語について、前記単語ベクトルモジュール（１０６）により生成された前記単語ベクトルの表現から、傾向項目を抽出することによって意味論的傾向を生成するように構成されたパターン生成モジュール（１０８）を備えることを特徴とするシステム（１００）。

【請求項7】

前記単語ベクトルは、Ｗｏｒｄ２Ｖｅｃ技法を使用して生成される、請求項６に記載のシステム（１００）。

【請求項8】

前記注入頻度値（Ｉ_ｆｒｅｑ）は、［ｃｅｉｌ｛（ｌｏｇ_２Ｌ）／２｝］，

【数2】

及び｛ｃｅｉｌ（Ｌ／２）｝のうちの１つとして計算される、請求項６に記載のシステム（１００）。

【外国語明細書】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版