特開2023-26279 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ アバナードホールディングスエルエルシーの特許一覧

特開2023-26279自然言語処理およびレコメンデーション生成のためのマルチモデル手法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
1C
1D
1E
1F
1G
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023026279

(43)【公開日】2023-02-24

(54)【発明の名称】自然言語処理およびレコメンデーション生成のためのマルチモデル手法

(51)【国際特許分類】

G06F 16/33 20190101AFI20230216BHJP

【ＦＩ】

G06F16/33

【審査請求】有

【請求項の数】20

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2021187687

(22)【出願日】2021-11-18

(31)【優先権主張番号】17/445,074

(32)【優先日】2021-08-13

(33)【優先権主張国・地域又は機関】US

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＪＡＶＡ

２．ＰＹＴＨＯＮ

(71)【出願人】

【識別番号】521505507

【氏名又は名称】アバナードホールディングスエルエルシー

(74)【代理人】

【識別番号】100102406

【弁理士】

【氏名又は名称】黒田健二

(74)【代理人】

【識別番号】100100240

【弁理士】

【氏名又は名称】松本孝

(72)【発明者】

【氏名】小椋隆

(72)【発明者】

【氏名】中原悠

(72)【発明者】

【氏名】廣瀬直樹

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175DA01

5B175GC03

5B175HB03

(57)【要約】（修正有）

【課題】データソースのセットに対応する言語モデルのセットを生成するために、データソースのセットをモニタリングする方法、デバイス及びコンピュータ可読媒体を提供する。
【解決手段】方法は、キーワードグループの複数のセットを判断し、スキルカタログの複数のセットを生成し、処理すべきソース文書を受信し、キーフレーズセットを抽出及び第１の類似性距離を判断するために、ソース文書を処理し、関連性の値に基づき、対応するスキルカタログおよび関連する言語モデル選択し、対応するスキルカタログ及び関連する言語モデルを使用して、ソース文書と１つ以上のターゲット文書との間の第２の類似性距離を判断し、第２の類似性距離に少なくとも部分的に基づき、１つ以上のターゲット文書に関連する情報を出力する。
【選択図】図４

【特許請求の範囲】

【請求項1】

データソースのセットに対応する言語モデルのセットを生成するために、前記データソースのセットをデバイスによりモニタリングするステップと、
前記言語モデルのセットの中の各言語モデルがキーワードグループの対応するセットに関連するように、前記言語モデルのセットについてキーワードグループの複数のセットを前記デバイスにより判断するステップと、
各キーワードグループがスキルカタログの複数のセットの中のスキルカタログに関連するように、且つ前記言語モデルのセットの中の各言語モデルがスキルカタログの対応するセットに関連するように、前記言語モデルのセットと、前記キーワードグループの複数のセットとに基づき、前記スキルカタログの複数のセットを前記デバイスにより生成するステップと、
処理すべきソース文書を、前記デバイスにより、且つ各動的カタログのための前記言語モデルのセットを生成することに基づき、受信するステップと、
キーフレーズセットを抽出するため、および前記キーフレーズセットの中の各キーフレーズについて前記スキルカタログの複数のセットの中の対応するスキルカタログの中の各スキルに対する第１の類似性距離を判断するために、前記デバイスにより前記ソース文書を処理するステップであって、前記対応するスキルカタログについての類似性距離の平均は、前記ソース文書、前記対応するスキルカタログ、および関連する言語モデルの間の関連性を表す、前記処理するステップと、
前記対応するスキルカタログおよび前記関連する言語モデルを、前記関連性の値に基づき前記デバイスにより選択するステップと、
前記対応するスキルカタログおよび前記関連する言語モデルを使用して、前記ソース文書と１つ以上のターゲット文書との間の第２の類似性距離を判断するステップと、
前記第２の類似性距離に少なくとも部分的に基づき、１つ以上のターゲット文書に関連する情報を出力するステップと
を含む方法。

【請求項2】

構成要素が、第１の言語モデルにおいて第１の重みに関連し、第２の言語モデルにおいて第２の重みに関連する、請求項１に記載の方法。

【請求項3】

前記第１の言語モデルおよび前記第２の言語モデルは、
同じカタログおよび異なる自然言語処理技術、
異なるカタログおよび同じ自然言語処理技術、または
異なるカタログおよび異なる自然言語処理技術
のうちの１つに関連する、請求項２に記載の方法。

【請求項4】

前記構成要素は、
単語、
フレーズ、
文、または
文書セグメント
のうちの少なくとも１つである、請求項２に記載の方法。

【請求項5】

前記第２の類似性距離を判断するステップは、
前記対応するカタログおよび関連する言語モデル、ならびに前記１つ以上のターゲット文書の中のターゲット文書に文脈上関係する１つ以上の第２の構成要素に基づき、前記ソース文書内の第１の構成要素の強度を判断するステップと、
前記第１の構成要素の前記強度に基づき類似性スコアを判断するステップと
を含む、請求項１に記載の方法。

【請求項6】

前記第２の類似性距離を判断するステップは、
前記１つ以上のターゲット文書の中のターゲット文書から第１の構成要素を抽出するステップと、
前記関連する言語モデルを使用して、前記対応するカタログの第２の構成要素と前記第１の構成要素とを比較するステップと、
前記第２の構成要素と前記第１の構成要素との前記比較に基づき前記第２の類似性距離を判断するステップと
を含む、請求項１に記載の方法。

【請求項7】

前記キーフレーズセットを抽出するため、および前記キーフレーズセットの中の各キーフレーズについて前記第１の類似性距離を判断するために、前記ソース文書を処理するステップは、
前記対応する言語モデルを使用して前記ソース文書から前記キーフレーズセットを抽出するステップ、
前記キーフレーズセットの中のキーフレーズについて、前記対応するカタログの各構成要素に対する前記キーフレーズの類似性を表す対応する第１の類似性距離を判断するステップ、
前記キーフレーズに対する前記対応するカタログの総類似性を判断するために、前記キーフレーズセットについての対応する第１の類似性距離を集約するステップ
を含み、
前記対応するスキルカタログを選択するステップは、
前記対応するスキルカタログを前記総類似性に基づき選択するステップ
を含む、請求項１に記載の方法。

【請求項8】

前記第２の類似性距離を判断するステップは、
フィルタリングされた構成要素のセットを生成するために、前記ソース文書と、前記１つ以上のターゲット文書の中のターゲット文書との構成要素を、前記対応するスキルカタログを使用してフィルタリングするステップと、
前記フィルタリングされた構成要素を、前記関連する言語モデルを使用してスコアリングするステップと
を含む、請求項１に記載の方法。

【請求項9】

前記第２の類似性距離を判断するステップは、
前記類似性距離のセットに適用される統計的技術に少なくとも部分的に基づき、前記第２の類似性距離を判断するステップ
を含む、請求項８に記載の方法。

【請求項10】

前記ソース文書は、求人票であり、前記１つ以上のターゲット文書は、求人票のセットである、請求項１に記載の方法。

【請求項11】

前記ソース文書は、履歴書であり、前記１つ以上のターゲット文書は、履歴書のセットである、請求項１に記載の方法。

【請求項12】

１つ以上のメモリと、
前記１つ以上のメモリに結合された１つ以上のプロセッサと
を含むデバイスであって、前記１つ以上のプロセッサは、
データソースのセットに対応する言語モデルのセットを生成するために、前記データソースのセットをモニタリングすることと、
前記言語モデルのセットの中の言語モデルが、カタログの複数のセットの中のカタログの対応するセットに関連するように、且つ前記カタログの対応するセットが、異なる複数の自然言語処理アルゴリズムに対応する複数のカタログを含むように、前記言語モデルのセットについて前記カタログの複数のセットを生成することと、
処理すべきソースコンテンツを、各言語モデルについて前記カタログのセットを生成することに基づき受信することと、
関連性スコアの複数のセットを生成するために、前記ソースコンテンツを処理することであって、前記関連性スコアの複数のセットの中の関連性スコアのセットの中の関連性スコアは、前記ソースコンテンツと、前記カタログの複数のセットの中の前記カタログの対応するセットの中のカタログとの間の関連性の値を表す、前記処理することと、
前記関連性スコアに基づき、前記言語モデルと、前記カタログの複数のセットの中の関連するカタログとを選択することと、
前記選択された言語モデルを使用して前記ソースコンテンツとターゲットコンテンツとの間の類似性スコアを判断することと、
前記類似性スコアに基づくレコメンデーションのセットをレコメンデーションエンジンを使用して生成することと、
前記レコメンデーションのセットに関連する情報を出力することと
をするように構成される、デバイス。

【請求項13】

前記１つ以上のプロセッサは、前記レコメンデーションのセットに関係する自動化された応答アクションのセットを実行するようにさらに構成される、請求項１２に記載のデバイス。

【請求項14】

前記自動化された応答アクションのセットは、
訓練プログラムへの登録、
会議のスケジューリング、
タスクの割り当て、
コンテンツ検索タスク、
前記ターゲットコンテンツの提出、または
求人票への応答
のうちの少なくとも１つに関する応答アクションを含む、請求項１３に記載のデバイス。

【請求項15】

前記１つ以上のプロセッサは、
カテゴリのセットに関する閾値のセットが満たされているかどうかを前記類似性スコアに基づき判断するようにさらに構成され、カテゴリは、前記関連するカタログの構成要素に対応し、
前記１つ以上のプロセッサは、前記レコメンデーションのセットに関連する前記情報を出力するために、
前記閾値のセットが満たされていることを示すよう管理システム内の１つ以上のデータエントリを更新するように構成される、請求項１２に記載のデバイス。

【請求項16】

前記１つ以上のプロセッサは、
前記選択された言語モデルを使用して前記ソースコンテンツの非構造化データを構造化コンテンツに変換するようにさらに構成され、
前記１つ以上のプロセッサは、前記ソースコンテンツを処理するために、
前記構造化コンテンツを処理するように構成される、請求項１２に記載のデバイス。

【請求項17】

命令のセットを保存する非一時的コンピュータ可読媒体であって、前記命令のセットは、
１つ以上の命令
を含み、前記１つ以上の命令は、デバイスの１つ以上のプロセッサにより実行されると、前記デバイスに、
データソースのセットに対応する言語モデルのセットを生成することと、
カタログの複数のセットを生成することであって、
前記言語モデルのセットの中の各言語モデルは、前記カタログの複数のセットの中のカタログのセットに関連し、
前記カタログの複数のセットの中のカタログの各セットは、異なる複数の自然言語処理技術に対応する複数のカタログを含む、
カタログの複数のセットを生成することと、
処理すべきソースコンテンツを、前記カタログの複数のセットを生成することに基づき受信することと、
前記カタログの複数のセットに対応する関連性スコアの複数のセットを生成するために、前記ソースコンテンツを処理することであって、
関連性スコアは、前記ソースコンテンツの第１の構成要素と、前記カタログの複数のセットの中のカタログ内の第２の構成要素との間の意味論的類似性に対応する、
前記ソースコンテンツを処理することと、
前記関連性スコアの複数のセットに基づき、前記言語モデルのセットからの言語モデルと、前記カタログの複数のセットの中の関連するカタログとを選択することと、
前記選択された言語モデルおよび前記関連するカタログを使用して前記ソースコンテンツとターゲットコンテンツとの間の類似性スコアを判断することと、
前記類似性スコアに少なくとも部分的に基づき、ターゲットコンテンツに関連する情報を出力することと
をさせる、非一時的コンピュータ可読媒体。

【請求項18】

前記カタログの複数のセットの中のカタログの構成要素は、
単語、
フレーズ、
文、または
文書セグメント
のうちの少なくとも１つである、請求項１７に記載の非一時的コンピュータ可読媒体。

【請求項19】

前記デバイスに前記類似性スコアを判断させる前記１つ以上の命令は、前記デバイスに、
前記選択された言語モデルと、前記ソースコンテンツに文脈上関係する１つ以上の第２の構成要素とに基づき、前記ソースコンテンツ内の第１の構成要素の強度を判断することと、
前記第１の構成要素の前記強度に基づき類似性スコアを判断することと
をさせる、請求項１７に記載の非一時的コンピュータ可読媒体。

【請求項20】

前記デバイスに前記類似性スコアを判断させる前記１つ以上の命令は、前記デバイスに、
前記選択された言語モデルを使用して前記ソースコンテンツから構成要素の第１のセットを抽出することと、
前記選択された言語モデルを使用して前記ターゲットコンテンツから構成要素の第２のセットを抽出することと、
前記選択された言語モデルを使用して前記構成要素の第１のセットと前記構成要素の第２のセットとを比較することと、
前記構成要素の第１のセットと前記構成要素の第２のセットとの前記比較に基づき類似性スコアを判断することと
をさせる、請求項１７に記載の非一時的コンピュータ可読媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、全般的に、自然言語処理の方法およびデバイスに関する。

【背景技術】

【0002】

自然言語処理（ＮＬＰ：Ｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ）は、コンピュータサイエンスおよび人工知能の分野であり、コンピュータと人間の（自然）言語との間の相互作用、特に大量の自然言語データを処理するようコンピュータをプログラムする仕方に関わる。自然言語処理には、様々な例の中でも特に、記号的自然言語処理技術、統計的自然言語処理技術、またはニューラル自然言語処理技術などの多様な技術を使用できる。

【発明の概要】

【課題を解決するための手段】

【0003】

本願明細書に記載される一部の実装は、方法に関する。本方法は、データソースのセットに対応する言語モデルのセットを生成するために、データソースのセットをデバイスによりモニタリングするステップを含んでもよい。本方法は、言語モデルのセットの中の各言語モデルがキーワードグループの対応するセットに関連するように、言語モデルのセットについてキーワードグループの複数のセットをデバイスにより判断するステップを含んでもよい。本方法は、各キーワードグループがスキルカタログの複数のセットの中のスキルカタログに関連するように、且つ言語モデルのセットの中の各言語モデルがスキルカタログの対応するセットに関連するように、言語モデルのセットと、キーワードグループの複数のセットとに基づき、スキルカタログの複数のセットをデバイスにより生成するステップを含んでもよい。本方法は、処理すべきソース文書を、デバイスにより、且つ各動的カタログのための動的言語モデルのセットを生成することに基づき、受信するステップを含んでもよい。本方法は、キーフレーズセットを抽出するため、およびキーフレーズセットの中の各キーフレーズについてスキルカタログの複数のセットの中の対応するスキルカタログの中の各スキルに対する第１の類似性距離を判断するために、デバイスによりソース文書を処理するステップを含んでもよく、対応するスキルカタログについての類似性距離の平均（または類似性距離に適用される、例えば中央値、最頻値、標準偏差など他の統計的技術）は、ターゲットコンテンツ、対応するスキルカタログ、および関連する言語モデルの間の関連性を表す。本方法は、対応するスキルカタログおよび関連する言語モデルを、関連性の値に基づきデバイスにより選択するステップを含んでもよい。本方法は、対応するスキルカタログおよび関連する言語モデルを使用して、ソース文書と１つ以上のターゲット文書との間の第２の類似性距離を判断するステップを含んでもよい。本方法は、第２の類似性距離に少なくとも部分的に基づき、１つ以上のターゲット文書に関連する情報を出力するステップを含んでもよい。

【0004】

上記の方法の一部の実装において、構成要素が、第１の言語モデルにおいて第１の重みに関連し、第２の言語モデルにおいて第２の重みに関連してもよい。

【0005】

上記の方法の一部の実装において、第１の言語モデルおよび第２の言語モデルは、同じカタログおよび異なる自然言語処理技術、異なるカタログおよび同じ自然言語処理技術、または異なるカタログおよび異なる自然言語処理技術のうちの１つに関連してもよい。

【0006】

上記の方法の一部の実装において、構成要素は、単語、フレーズ、文、または文書セグメントのうちの少なくとも１つであってもよい。

【0007】

上記の方法の一部の実装において、第２の類似性距離を判断するステップは、対応するカタログおよび関連する言語モデル、ならびに１つ以上のターゲット文書の中のターゲット文書に文脈上関係する１つ以上の第２の構成要素に基づき、ソース文書内の第１の構成要素の強度を判断するステップと、第１の構成要素の強度に基づき類似性スコアを判断するステップとを含んでもよい。

【0008】

上記の方法の一部の実装において、第２の類似性距離を判断するステップは、１つ以上のターゲット文書の中のターゲット文書から第１の構成要素を抽出するステップと、関連する言語モデルを使用して、対応するカタログの第２の構成要素と第１の構成要素とを比較するステップと、第２の構成要素と第１の構成要素との比較に基づき第２の類似性距離を判断するステップとを含んでもよい。

【0009】

上記の方法の一部の実装において、キーフレーズセットを抽出するため、およびキーフレーズセットの中の各キーフレーズについて第１の類似性距離を判断するために、ソース文書を処理するステップは、対応する言語モデルを使用してソース文書からキーフレーズセットを抽出するステップ、キーフレーズセットの中のキーフレーズについて、対応するカタログの各構成要素に対するキーフレーズの類似性を表す対応する第１の類似性距離を判断するステップ、キーフレーズに対する対応するカタログの総類似性を判断するために、キーフレーズセットについての対応する第１の類似性距離を集約するステップを含んでもよく、対応するスキルカタログを選択するステップは、対応するスキルカタログを総類似性に基づき選択するステップを含んでもよい。

【0010】

上記の方法の一部の実装において、第２の類似性距離を判断するステップは、フィルタリングされた構成要素のセットを生成するために、ソース文書と、１つ以上のターゲット文書の中のターゲット文書との構成要素を、対応するスキルカタログを使用してフィルタリングするステップと、フィルタリングされた構成要素を、関連する言語モデルを使用してスコアリングするステップとを含んでもよい。

【0011】

上記の方法の一部の実装において、第２の類似性距離を判断するステップは、類似性距離のセットに適用される統計的技術に少なくとも部分的に基づき、第２の類似性距離を判断するステップを含んでもよい。

【0012】

上記の方法の一部の実装において、ソース文書は、求人票であってもよく、１つ以上のターゲット文書は、求人票のセットであってもよい。

【0013】

上記の方法の一部の実装において、ソース文書は、履歴書であってもよく、１つ以上のターゲット文書は、履歴書のセットであってもよい。

【0014】

本願明細書に記載される一部の実装は、デバイスに関する。デバイスは、１つ以上のメモリと、１つ以上のメモリに結合された１つ以上のプロセッサとを含んでもよい。１つ以上のプロセッサは、データソースのセットに対応する言語モデルのセットを生成するために、データソースのセットをモニタリングするように構成されてもよい。１つ以上のプロセッサは、言語モデルのセットの中の言語モデルが、カタログの複数のセットの中のカタログの対応するセットに関連するように、且つカタログの対応するセットが、異なる複数の自然言語処理アルゴリズムに対応する複数のカタログを含むように、言語モデルのセットについてカタログの複数のセットを生成するように構成されてもよい。１つ以上のプロセッサは、処理すべきソース文書を、各言語モデルについてカタログのセットを生成することに基づき受信するように構成されてもよい。１つ以上のプロセッサは、関連性スコアの複数のセットを生成するために、ソース文書を処理するように構成されてもよく、関連性スコアの複数のセットの中の関連性スコアのセットの中の関連性スコアは、ソース文書と、カタログの複数のセットの中のカタログの対応するセットの中のカタログとの間の関連性の値を表す。１つ以上のプロセッサは、関連性スコアに基づき、言語モデルと、カタログの複数のセットの中の関連するカタログとを選択するように構成されてもよい。１つ以上のプロセッサは、選択された言語モデルを使用してソースコンテンツとターゲットコンテンツとの間の類似性スコアを判断するように構成されてもよい。１つ以上のプロセッサは、類似性スコアに基づくレコメンデーションのセットをレコメンデーションエンジンを使用して生成するように構成されてもよい。１つ以上のプロセッサは、レコメンデーションのセットに関連する情報を出力するように構成されてもよい。

【0015】

上記のデバイスの一部の実装において、自動化された応答アクションのセットは、訓練プログラムへの登録、会議のスケジューリング、タスクの割り当て、コンテンツ検索タスク、ターゲットコンテンツの提出、または求人票への応答のうちの少なくとも１つに関する応答アクションを含む。

【0016】

上記のデバイスの一部の実装において、１つ以上のプロセッサは、カテゴリのセットに関する閾値のセットが満たされているかどうかを類似性スコアに基づき判断するようにさらに構成されてもよく、カテゴリは、関連するカタログの構成要素に対応し、１つ以上のプロセッサは、レコメンデーションのセットに関連する情報を出力するために、閾値のセットが満たされていることを示すよう管理システム内の１つ以上のデータエントリを更新するように構成されてもよい。

【0017】

上記のデバイスの一部の実装において、１つ以上のプロセッサは、選択された言語モデルを使用してソースコンテンツの非構造化データを構造化コンテンツに変換するようにさらに構成されてもよく、１つ以上のプロセッサは、ソースコンテンツを処理するために、構造化コンテンツを処理するように構成されてもよい。

【0018】

本願明細書に記載される一部の実装は、デバイスのための命令のセットを保存する非一時的コンピュータ可読媒体に関する。命令のセットは、デバイスの１つ以上のプロセッサにより実行されると、デバイスに、データソースのセットに対応する言語モデルのセットを生成させてもよい。命令のセットは、デバイスの１つ以上のプロセッサにより実行されると、デバイスに、カタログの複数のセットを生成させてもよい。命令のセットは、デバイスの１つ以上のプロセッサにより実行されると、デバイスに、処理すべきソースコンテンツを、カタログの複数のセットを生成することに基づき受信させてもよい。命令のセットは、デバイスの１つ以上のプロセッサにより実行されると、デバイスに、カタログの複数のセットに対応する関連性スコアの複数のセットを生成するために、ソースコンテンツを処理させてもよい。命令のセットは、デバイスの１つ以上のプロセッサにより実行されると、デバイスに、関連性スコアの複数のセットに基づき、言語モデルのセットからの言語モデルと、カタログの複数のセットの中の関連するカタログとを選択させてもよい。命令のセットは、デバイスの１つ以上のプロセッサにより実行されると、デバイスに、選択された言語モデルおよび関連するカタログを使用してソースコンテンツとターゲットコンテンツとの間の類似性スコアを判断させてもよい。命令のセットは、デバイスの１つ以上のプロセッサにより実行されると、デバイスに、類似性スコアに少なくとも部分的に基づき、ターゲットコンテンツに関連する情報を出力させてもよい。

【0019】

上記の非一時的コンピュータ可読媒体の一部の実装において、カタログの複数のセットの中のカタログの構成要素は、単語、フレーズ、文、または文書セグメントのうちの少なくとも１つであってもよい。

【0020】

上記の非一時的コンピュータ可読媒体の一部の実装において、デバイスに類似性スコアを判断させる１つ以上の命令は、デバイスに、選択された言語モデルと、ソースコンテンツに文脈上関係する１つ以上の第２の構成要素とに基づき、ソースコンテンツ内の第１の構成要素の強度を判断することと、第１の構成要素の強度に基づき類似性スコアを判断することとをさせてもよい。

【0021】

上記の非一時的コンピュータ可読媒体の一部の実装において、デバイスに類似性スコアを判断させる１つ以上の命令は、デバイスに、選択された言語モデルを使用してソースコンテンツから構成要素の第１のセットを抽出することと、選択された言語モデルを使用してターゲットコンテンツから構成要素の第２のセットを抽出することと、選択された言語モデルを使用して構成要素の第１のセットと構成要素の第２のセットとを比較することと、構成要素の第１のセットと構成要素の第２のセットとの比較に基づき類似性スコアを判断することとをさせてもよい。

【図面の簡単な説明】

【0022】

【図1A】本願明細書に記載されている例示の実装の図である。

【図1B】本願明細書に記載されている例示の実装の図である。

【図1C】本願明細書に記載されている例示の実装の図である。

【図1D】本願明細書に記載されている例示の実装の図である。

【図1E】本願明細書に記載されている例示の実装の図である。

【図1F】本願明細書に記載されている例示の実装の図である。

【図1G】本願明細書に記載されている例示の実装の図である。

【図2】本願明細書に記載されているシステムおよび／または方法が実装され得る例示の環境の図である。

【図3】図２の１つ以上のデバイスの例示のコンポーネントの図である。

【図4】自然言語処理およびレコメンデーション生成のためのマルチモデル手法に関する例示のプロセスのフローチャートである。

【発明を実施するための形態】

【0023】

以下の例示の実装の詳細な説明では、添付の図面を参照する。異なる図面中の同じ参照番号は、同じ構成要素または類似の構成要素を特定し得る。

【0024】

自然言語モデリングにおいて、言語モデルとは、自然言語処理エンティティ（例えばデバイス）が単語のシーケンスの確率を予測することを可能にするデータセットの表現である。様々な自然言語処理エンティティが、様々な例の中でも特に、統計的言語モデル（例えばＮグラムベースのモデル、隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）ベースのモデル、または言語ルールベースのモデル）、またはニューラル言語モデルなどの、様々な言語モデルを使用し得る。例として、従業員志願者を仕事にマッチングすることに関心のあるエンティティ（例えば組織）が、履歴書および求人情報のコーパスに基づき言語モデルを訓練して、従業員志願者を仕事にマッチングすることを目標とした自然言語処理を可能にすることもある。エンティティは、関連する自然言語処理エンティティが動作すべき領域に固有のコーパスに基づき言語モデルを訓練することにより、（例えばランダムまたは疑似ランダムな文書のコーパスに基づき訓練された）汎用の言語モデルを特定の領域に適用して使用するのに比べてより高レベルの精度を達成し得る。

【0025】

しかしながら、文書コーパスはたびたび変化するものであり、入力データを使用した予測の実行を成功させるにあたっては、多様な要因が関与し得る。例として言語モデルは、構造的、統一的、且つ静的なデータに基づくマスタデータセットを使用して生成可能である。しかしながら、マスタデータセットに基づく基礎をなす前提は、言語が変化し、または予測の文脈が変化するのに伴い、不正確になり得る。例として、或る従業員の特定されたスキルセットが特定の仕事の求人情報にマッチングするかどうかを予測する場合、第１の業界における予測は、第２の業界に適用されると正確でないかもしれず、または第１の業界に対して第１の時点で正確であっても後の第２の時点では正確ではないかもしれない。言い換えれば、予測が行われる環境が変化する（例えば求人情報およびそれに関連するスキルに影響を与える技術的進歩がある）のに伴い、静的なコーパスに基づく予測は不正確になるかもしれない。言語モデルは何百万の、または何十億ものデータポイントに基づくため、オペレータが手動で言語モデルの妥当性を維持するのは非実用的である。

【0026】

さらに、言語モデルが予測に適用された場合、言語モデルは、意味論的類似性に関して訓練される。例として言語モデルは、或る人物のプログラミングのスキルがソフトウェア開発に関する求人情報にマッチングするかどうかを予測するように訓練され得る。しかしながら、予測は単なるマッチングよりもはるかに複雑であり、言語モデルは、様々な要因の中でも特に、スキルの強度（例えば或る人物がスキルにおいてどの程度経験を積んでいるか）または熱意の強度（例えば或る人物が特定のスキルをどの程度使用したがっているか、または特定の業界に入りたがっているか）などの他の要因を考慮しない。結果として、予測のために言語モデルを使用しようとする試みは、従業員志願者が実際に関心を持つ求人情報を特定できないなど、低い成果につながってきた。この問題は、言語モデルがより多くのマッチング候補を特定しなければならないこと、およびマッチング候補の多くが不適切なマッチングであるため従業員志願者がより多くのマッチング候補を閲覧しなければならないことから、コンピューティングリソースの過剰な使用につながり得る。同じく、予測のために言語モデルを使用しようとする試みは、従業員が合わない役割に割り当てられることにつながっており、これは、割り当てが頻繁にやり直され、さらにそれに付随して言語モデルが頻繁に繰り返し使用されることにつながり得る。よって、自然言語処理ベースの予測の精度を向上させれば、コンピューティングリソースを使用して実行される予測の精度を向上させることにより当該のコンピューティングリソースの利用を削減することができる。

【0027】

本願明細書に記載されている一部の実装は、マルチモデル自然言語処理を使用した類似性の判断および予測を可能にする。例として言語処理システムは、複数のデータソースを使用して、複数の言語モデルと、各言語モデルについて複数のスキルカタログ候補とを生成してもよい。言語処理システムは、予測ごとに複数のスキルカタログ候補を評価して、言語処理システムが実行すべき特定の予測に最適なスキルカタログを選択してもよい。例として言語処理システムは、第１の業界に関する第１のデータソースおよび複数のタイプの自然言語処理技術を使用して、モデルの第１のセットを生成し、第２の業界に関する第２のデータソースおよび複数のタイプの自然言語処理技術を使用して、モデルの第２のセットを生成してもよい。この事例において言語処理システムは、予測が実行される対象の業界と、例えば予測のタイプとに基づき、（例えば特定のデータソースおよび特定の自然言語処理技術から生成された）特定のモデルを最適なモデルであると評価してもよく、さらにその特定のモデルを予測の実行に使用してもよい。このようにして言語処理システムは、より動的且つ正確な予測を可能にし、これにより、予測が正確であるとみなされる（例えば従業員志願者が求人情報とマッチングされる、または現在の従業員が役割とマッチングされる）可能性を向上させ得る。一部の実装は、従業員および求人情報に関して記載されるが、様々な例の中でも特に、マーケティングのターゲティング、教育的役割の割り当て、意味論的検索、または医療における診断など、マルチモデル予測に関わる他の文脈も予期されている。

【0028】

図１Ａ～図１Ｇは、自然言語処理およびレコメンデーション生成のためのマルチモデル手法に関連する例１００の図である。図１Ａ～図１Ｇに示されているように、例１００は、様々なデバイスの中でも特に、言語処理システム１０２を含む。これらのデバイスについては、図２および図３に関連してより詳細に記載される。

【0029】

図１Ａに参照番号１５０により示されているように、言語処理システム１０２は、データを取得し、言語モデルのセットを生成するとよい。例として言語処理システム１０２は、言語モデルＭ_１～Ｍ_Ｎを生成するために、データソース１０４－１～１０４－Ｎからデータを取得してもよい。一部の側面において、データソース１０４は、言語処理システム１０２がネットワークを介して通信し得る外部デバイス（例えばサーバまたはデータベース）を含んでもよい。さらに、または代わりに、データソース１０４は、言語処理システム１０２と共同設置（例えば単一のサーバシステムまたは単一のクラウド展開の中に共同設置）されてもよい。

【0030】

一部の実装において、言語処理システム１０２は、本願明細書に記載されているように、特定のセットのソースからデータを取得してスキルカタログの生成を可能にしてもよい。例として言語処理システム１０２は、サーバのセットと通信し、様々な例の中でも特に、ニュースソース、学術出版ソース、ソーシャルメディアフィードソース、企業説明ソース、または参照資料ソースなどの公開されているソースをモニタリングして、そこからデータを取得してもよい。さらに、または代わりに、言語処理システム１０２は、サーバのセットと通信し、様々な例の中でも特に、求人情報のセット、求人応募のセット、従業員の仕事上の役割に関する説明のセット、採用通知書のセット、または社内連絡のセットなどの非公開のソースをモニタリングして、そこからデータを取得してもよい。このようにして言語処理システム１０２は、本願明細書に記載されているように、言語モデルＭ_１～Ｍ_Ｎを生成するもととなるデータセットＬ_１～Ｌ_Ｎ（図示せず）を取得する。

【0031】

一部の実装において言語処理システム１０２は、１つ以上のデータ処理技術を使用して言語モデルのセットを生成してもよい。例として言語処理システム１０２は、様々な例の中でも特に、Ｗｏｒｄ２ｖｅｃ、ｆａｓｔＴｅｘｔ、ＧｌｏＶｅ、ベクトル空間モデリング、正規化圧縮距離判定、または特徴表現学習などの人工知能自然言語処理技術を適用して、データセットＬ_ｉから言語モデルＭ_ｉを生成してもよい。このようにして言語処理システム１０２は、多様なコーパス（データセットＬ）から多様な言語モデルを構築し、それによって言語処理システム１０２が、本願明細書に記載されているように、処理される特定のターゲット文書に最適なモデルを選択することが可能になる。言い換えれば、第１のデータセットに基づき意味論的解釈のために訓練されている第１の言語モデルは、ターゲット文書と異なる意味論的意味を持つ第２のデータセットに基づき意味論的解釈のために訓練されている第２の言語モデルに比べて、第１のデータセット内のデータと類似した意味論的意味を持つターゲット文書を構文解析するのに、より適しているかもしれない。このように、複数の言語モデルを生成することにより、言語処理システム１０２は、他の技術で使用されている単一の静的な言語モデルを使用するのに比べて、少なくとも１つの言語モデルの意味論的解釈がターゲット文書にマッチングする可能性を向上させる。

【0032】

一部の実装において言語処理システム１０２は、言語モデルのセットを生成するとき、構成要素の重み付けを、それぞれの言語モデルで異なるように行ってもよい。例として、上述のように、第１の言語モデルを生成するとき、言語処理システム１０２は、或る構成要素に第１の重みを割り当ててもよいが、第２の言語モデルにおいては、その構成要素に別の第２の重みを割り当ててもよい。この事例において、「Ｊａｖａ」などの単語は、コンピュータサイエンスに関わる文書のコーパスから生成された言語モデルでは、高い重みを割り当てられて重要であることが示され、旅行代理店の訓練資料のコーパスから生成された言語モデルでは、低い重みを割り当てられて重要でないことが示されてもよい。言い換えれば、「Ｊａｖａ」という言語でのプログラミングは、コンピュータプログラマに有用なスキルとして分類されてもよいが、「Ｊａｖａ（ジャワ）」島への旅行は、コンピュータプログラマに有用なスキルとして分類されてはならない。対照的に、「Ｊａｖａ」という言語でのプログラミングは、旅行案内業者に有用なスキルとして分類されてはならないが、「Ｊａｖａ（ジャワ）」島への旅行は、旅行案内業者に有用な経験として分類されてもよい。このように、複数の言語モデルを生成し、本願明細書に記載されているように、文書の構文解析に使用される言語モデルおよび関連するカタログを関連性の判断に基づき選択することで、単一の静的な言語モデルおよびカタログ（例えばすべての文脈において「Ｊａｖａ」などの構成要素に等しい待機を適用し得る）を使用するのに比べて、予測の精度が向上する。

【0033】

一部の側面において、構成要素の相対的な重みがそれぞれの言語モデルにおいて異なることがあるが、そうなるのは、それぞれの言語モデルが、異なる自然言語処理技術に関連する場合（例えば様々な技術が同じ単語の重要性を異なるように評価し得る）、異なるカタログに関連する場合（例えばそれぞれの言語モデルから様々なタイプのスキル抽出が行われたそれぞれのカタログは、同じ単語の重要性を異なるように評価し得る）、またはその組み合わせの場合である。この事例において、構成要素は、様々な例の中でも特に、単語、フレーズ、文、文書セグメント、または段落を含んでもよい。

【0034】

図１Ｂに参照番号１５２により示されているように、言語処理システム１０２は、「キーワードグループ」とも称されてもよいキーワードセットを、言語モデルのセットに基づき分析してもよい。例として言語処理システム１０２は、各モデルＭについて複数のキーワードセットＫを特定してもよい（例えば各モデルＭは、複数のキーワードを各キーワードグループが有するキーワードグループのセットに関連してもよい）。この事例において、言語処理システム１０２は、第１のモデルＭ_１に適用される第１の自然言語処理技術を使用して第１のキーワードセット｛Ｋ_{１，１，１，…}｝を特定し、第１のモデルＭ_１，…，に適用される第ｘの自然言語処理技術を使用して第ｘのキーワードセット｛Ｋ_{１，Ｘ，１，…}｝を特定し、第ｎのモデルＭ_Ｎに適用される第ｘの自然言語処理技術を使用して第ｘのキーワードセット｛Ｋ_{Ｎ，Ｘ，１，…}｝を特定してもよい。例として言語処理システム１０２は、第１の言語モデルを分析して、スキルカタログを生成するためのキーワードを決定してもよい。この事例において言語処理システム１０２は、コンピュータプログラミングの職務内容説明に関するデータセットＬ_ｉに関連する言語モデルＭ_ｉについて、例えば「プログラミング」、「Ｊａｖａ」、「ＡＩ」などのキーワードＫ_ｉを特定してもよい。同じく言語処理システム１０２は、金融サービス機関の従業員のデータセットＬ_ｊに関連する言語モデルＭ_ｊについて、例えば「銀行業」、「為替取引」、「外為」などのキーワードＫ_ｊを特定してもよい。

【0035】

図１Ｃに参照番号１５４により示されているように、言語処理システム１０２は、キーワードセットに基づきスキルカタログを生成してもよい。例として言語処理システム１０２は、各キーワードセットＫおよびモデルＭから複数のスキルカタログＣを生成してもよい。言い換えれば、各モデルＭには関連するスキルカタログＣが複数あってもよい。この事例において言語処理システム１０２は、第１のキーワードセット｛Ｋ_{１，１，１，…}｝を使用して第１のスキルカタログセット｛Ｃ_{１，１，１，…}｝を生成し、第１のキーワードセット｛Ｋ_{１，Ｘ，１，…}｝を使用して第ｘのスキルカタログ｛Ｃ_{１，Ｘ，１，…}｝を生成し、…、第ｘのキーワードセット｛Ｋ_{Ｎ，Ｘ，１，…}｝を使用して第ｘのスキルカタログ｛Ｃ_{Ｎ，Ｘ，１，…}｝を生成してもよい。本願明細書で使用されるとき、「Ｘ」および「第ｘ」という用語は、任意の数を指すことができ、したがって、例として第ｘのキーワードセットは、第ｘのスキルカタログと同じまたは異なる「数詞」のキーワードセットとされ得る。カタログは、キーエンティティの閾値近接性の範囲内から抽出されたエンティティのデータセットであってもよい。言い換えれば、スキルカタログは、キーワードの言語的な近傍からモデルを使用して抽出された単語のセットを含み、（例えば従業員志願者を仕事に、または現在の従業員を役割にマッチングするのに使用される）スキルを特定するカタログであってもよい。例として言語処理システム１０２は、キーワードＫ_ｊの言語的な近傍にある単語を言語モデルＭ_ｉを使用して抽出し、抽出された単語をカタログＣ：＝｛Ｃ_{ｉ，ｊ，１}，Ｃ_{ｉ，ｊ，２}，…，Ｃ_{ｉ，ｊ，Ｘ}｝と表してもよい。一部の実装において、言語処理システム１０２は多数のスキルカタログを生成してもよい。例として言語処理システム１０２は、言語モデルおよびキーワードセットの様々な組み合わせを様々な処理技術を使用して分析することに基づき、何十万の、または何百万ものスキルカタログを生成してもよい。言語処理システム１０２は、スキルカタログを定期的に更新してもよい。例として言語処理システム１０２は、言語モデルＭおよび／またはキーワードＫが決定されるもとであるデータソースに対する変更をモニタリングしてもよく、さらに、データソースの変更（例えば追加の情報が追加され、または既存の情報が削除される）に伴いスキルカタログを更新してもよい。

【0036】

一部の実装において言語処理システム１０２は、スキルカタログ中のスキルのクラスタリングを実行してもよい。例として言語処理システム１０２は、スキルカタログに関連する基礎をなす言語モデルにおける意味論的相関関係に基づき、スキルカタログ内の第１のスキルと第２のスキルとの間の相関関係を判断してもよい。この事例において、相関関係が基礎をなす言語モデルに依存していることに基づき、或るスキルのペアが、異なる文脈では異なる相関関係を有してもよい。一例として、「プログラミング」および「Ｐｙｔｈｏｎ」という２つのスキルは、コンピュータサイエンス関係のデータセットおよび言語モデル（例えばソフトウェア会社の専門事典の記載）を使用して構築された第１のスキルカタログでは密接に相関するかもしれないが、動物学関係のデータセットおよび言語モデル（例えば爬虫類の研究論文の学術データベース）を使用して構築された第２のスキルカタログでは相関が弱いかもしれない。このように、スキルのクラスタリングは、本願明細書に記載されているように言語処理システム１０２が文書の分析に最適なスキルカタログを選択するときに、言語処理システム１０２がそれぞれの文脈で意味論的類似性を区別することを保証するように構成される。言い換えれば、言語処理システム１０２が第１のスキルカタログを選択する場合、言語処理システム１０２は、２つのスキルを交換可能に近く、ほぼ等しく重み付けされると分析してもよい。対照的に、言語処理システム１０２が第２のスキルカタログを選択する場合、言語処理システム１０２は２つのスキルを違うように分析して、大きく異なる重みを用いてもよい。一部の実装において言語処理システム１０２は、様々なスキルカタログ内のスキルの稀少性を判断してもよい。例として言語処理システム１０２は、求人情報または履歴書の中で稀少な、外れ値のスキルを特定してもよく、さらに、スキルの稀少性に基づく重みを適用してもよい（例えば、稀少なスキルはより低い重みを与えられて、履歴書を多数排除しすぎて就職機会にマッチングするものがまったく特定されないことが回避されてもよい）。一部の事例において、言語処理システム１０２は、本願明細書に記載されているように、マッチングの結果に基づき重みを調整して、少なくとも１つのマッチングが特定されるか、または少なくとも閾値数のマッチングが特定されることを保証してもよい（マッチングが閾値類似性スコアを示す場合）。

【0037】

図１Ｄに参照番号１５６により示されているように、言語処理システム１０２は文書からキーフレーズセットを抽出してもよい。例として言語処理システム１０２は、文書ＴからキーフレーズセットＰ（Ｐ_１～Ｐ_Ｔ）を抽出してもよい。この事例において言語処理システム１０２は、（多数のスキルカタログＣのうち）最適なスキルカタログを判断するために、ソース文書（例えば求職者のマッチングを行うべき採用募集、または採用募集へのマッチングを行うべき履歴書）を選択し、自然言語処理を使用してソース文書からキーフレーズを抽出してもよい。

【0038】

一部の実装において言語処理システム１０２は、ソース文書を生成してもよい。例として言語処理システム１０２は、ユーザの勤務歴情報を保存する１つ以上のデータサーバと通信してもよく、さらに、様々な例の中でも特に、職歴情報または職務内容説明情報を含む履歴書を自動的に生成してもよい。この事例において言語処理システム１０２は、ユーザが自分自身の宣伝のための情報（例えば、様々な例の中でも特に、職歴の各項目の相対的な重要性または強度を示す情報、キャリア面での目標を示す情報、または履歴書で特定されているスキルもしくはスキルに対する熱意の相対的な強度を示す情報）などの追加情報を提供できるユーザインターフェースを提供してもよい。

【0039】

図１Ｅに参照番号１５８により示されているように、言語処理システム１０２はスキルカタログとキーフレーズセットとの言語的類似性距離を判断してもよい。例として言語処理システム１０２は、スキルカタログＣおよびキーフレーズセットＰに基づき、言語的類似性Ｄを判断してもよい。言い換えれば、言語処理システム１０２は、キーフレーズセットの各キーフレーズと、スキルカタログの各構成要素（例えば、様々な例の中でも特に、スキル、単語、フレーズ、文、文書セグメント、または段落）との間の類似性距離を判断してもよく、さらに、類似性距離を集約して、本願明細書に記載されているように、ソース文書に対するスキルカタログの適合度を表す総類似性距離（または「関連性の値」）を判断してもよい。各スキルカタログの関連性の値に基づき、言語処理システム１０２は、ソース文書を（例えば１つ以上のターゲット文書との関連で）分析するときに使用する特定のスキルカタログおよび特定の言語モデルを選択してもよい。本願明細書では、一部の側面が文書の分析に関して記載されているが、言語処理システム１０２または類似のシステムは、オーディオコンテンツ、ビデオコンテンツ、および／または同様のものなど、他のタイプのソースコンテンツおよびターゲットコンテンツを処理してもよい。

【0040】

言語処理システム１０２は、第１のスキルカタログ｛Ｃ_{１，１，１，…}｝と第１のキーフレーズセットＰ_１との第１の言語的類似性距離Ｄ_１，１、第１のスキルカタログ｛Ｃ_{１，Ｘ，１，…}｝と第ｘのキーフレーズセットＰ_Ｔとの第ｘの類似性距離Ｄ_１，Ｔ、第ｘのスキルカタログ｛Ｃ_{Ｎ，１，１，…}｝と第１のキーフレーズセットＰ_１との第ｘの類似性距離Ｄ_Ｎ，Ｔなどを判断してもよい。例として言語処理システム１０２は、各スキルカタログ候補と、キーフレーズセットＰの中の各キーフレーズ候補Ｐ_ｉとについて、言語的類似性距離Ｄ：＝｛Ｄ_１，１…｝を判断してもよい。この事例において言語処理システム１０２は、各スキルカタログ候補について言語的類似性距離Ｄの平均ｆ（Ｄ）を判断してもよく、さらに、本願明細書に記載されているように、言語的類似性距離の平均（または別の統計的メトリック）を比較してスキルカタログおよび関連する言語モデルを選択してもよい。

【0041】

図１Ｆに参照番号１６０により示されているように、言語処理システム１０２は、言語的類似性距離に基づきスキルカタログを選択してもよい。例として言語処理システム１０２は、言語的類似性距離Ｄに基づきスキルカタログＣ_Ｚを選択してもよい。この事例において言語処理システム１０２は、スキルカタログＣ_Ｚ∈Ｃを選択してもよく、ｍａｘ（ｆ（Ｄ））はＣ_Ｚである。言い換えれば、言語処理システム１０２は、スキルカタログ内の単語とソース文書内のキーフレーズとの間の類似性距離が最良である（例えば類似性において最も近い）スキルカタログを動的に選択してもよく、これをソース文書の「動的スキルカタログ」と呼ぶことができる。この事例において言語処理システム１０２は、スキルカタログＣ_Ｚ、関連する言語モデルＭ_Ｚ、およびターゲット文書Ｗの間の関係をスコアリングしてもよい。別の例において言語処理システム１０２は、ソース文書Ｔに基づきスキルカタログを選択してもよい。一部の実装において言語処理システム１０２は、ソース文書Ｔとターゲット文書Ｗとの組み合わせに基づきスキルカタログを選択してもよい。

【0042】

例として言語処理システム１０２は、ターゲット文書Ｗに対する類似性について３つの言語モデルおよび３つのスキルカタログを分析してもよく、さらに、組み合わさるとターゲット文書Ｗに対する適合度が最高になるスキルカタログＣおよびモデルＭを特定してもよい。この事例において言語処理システム１０２は、ソース文書Ｔを基準としてターゲット文書Ｗを分析するためのスキルカタログＣおよびモデルＭを選択してもよい。このようにして、言語処理システム１０２は、ターゲット文書Ｗとソース文書Ｔとの間の類似性を分析するためのスキルカタログおよび言語モデルを動的に選択し、それによって、単一のスキルカタログまたは言語モデルを使用するのに比べてマッチングを改善する。

【0043】

図１Ｆに参照番号１６２によりさらに示されているように、言語処理システム１０２は、ターゲット文書のキーフレーズセットを判断してもよい。例として言語処理システム１０２は、ターゲット文書ＷのキーフレーズセットＱ：＝｛Ｑ_１…Ｑ_Ｗ｝を判断してもよい。図１Ｆに参照番号１６４によりさらに示されているように、言語処理システム１０２は、言語的類似性距離セットを判断してもよい。例として言語処理システム１０２は、スキルカタログＣ_Ｚおよび選択されたスキルカタログＣ_Ｚに関連する言語モデルＭ_Ｚを使用して、個々のカタログ構成要素Ｃ：＝｛Ｃ_１…｝とＱ：＝｛Ｑ_１…｝との言語的類似性距離セットＥ：＝｛Ｅ_１，１…Ｅ_１，Ｗ｝を判断してもよい。

【0044】

一部の実装において言語処理システム１０２は、ソース文書およびターゲット文書を分析するとき、スキルカタログのフィルタリングを実行してもよい。例として言語処理システム１０２は、ソース文書またはターゲット文書に関連性のあるスキルをスキルカタログから抽出してもよい。この事例において言語処理システム１０２は、ソース文書またはターゲット文書のどちらにも関連性がない（例えば含まれていない）スキルを破棄し、それによって、スキルカタログからのすべてのスキルを使用して比較を判断するのに比べて処理量を削減してもよい。

【0045】

一部の実装において言語処理システム１０２は、言語モデルを使用してスコアリングを実行してもよい。例として言語処理システム１０２は、スキルカタログから抽出されたスキルを使用して、ターゲット文書およびソース文書の意味論的類似性、重要性、および／または重みを、抽出されたスキルに照らし、言語モデルを使用して判断してもよい。言い換えれば、ソース文書が「データ分析」スキルを含む場合、言語処理システム１０２は、言語モデルを使用して、「データ分析」スキルとターゲット文書内の「ＭｙＳＱＬ」スキルとの間の意味論的類似性を判断してもよい。

【0046】

この事例において言語処理システム１０２は、言語的類似性距離セットに基づく平均類似性距離ａｖｇ（Ｅ）＝ｆ（Ｅ）を判断してもよく、さらに、スキルカタログＣ_ＺおよびモデルＭ_Ｚを基準とするソース文書Ｔとターゲット文書Ｗとの間の言語的類似性を表す類似性スコアＹを生成してもよい。ソース文書Ｔが仕事Ｔの採用情報を表し、ターゲット文書ＷがユーザＷの履歴書を表す文脈において、言語処理システム１０２は、仕事Ｔに対するユーザＷの適格性の表現として類似性スコアを判断してもよい。この事例において言語処理システム１０２は、何千または何百万という候補のターゲット文書Ｗ（それぞれ個々のキーフレーズセットＱを備える）を分析して、ユーザと採用情報との間の最良のマッチングを示す最高の類似性スコアを判断してもよい。

【0047】

一部の実装において言語処理システム１０２は、ソース文書Ｔおよびターゲット文書Ｗの意味論的解釈に基づき類似性スコアに重み付けしてもよい。例として言語処理システム１０２は、スキルカタログ内の特定のキーフレーズ（例えば特定のスキルを表す）が、特定のフレーズの相対的な重要性を示す意味論的文脈に関連すると判断してもよい（

【0048】

【数1】

【0049】

は特定のスキルの高い重要性を示す）。この事例において言語処理システム１０２は、合計の類似性スコアを、特定のスキルに関する類似性距離Ｅ_ｉの方により大きく（且つ他のスキルに関する類似性距離Ｅ_ｊの方により小さく）重み付けしてもよい。このようにして言語処理システム１０２は、重み付けなしの静的なスキルマッピングを使用して実行されるのに比べてより高レベルな従業員と仕事とのマッピングを実行する。より高レベルなマッピングを実行することにより、言語処理システム１０２は、マッチングの精度を向上させ、それによって、マッチングが正確である可能性を高め、正確なマッチングを少なくとも１つは保証するために提供される必要のある結果の量を削減し、さらに、不正確なマッチングに基づく不正確なレコメンデーションに関連するコンピューティングリソースの浪費を削減する。

【0050】

図１Ｇに参照番号１６６により示されているように、言語処理システム１０２は、１つ以上のレコメンデーションを提供および／または実装してもよい。例として言語処理システム１０２は、クライアントデバイス１０６と通信して、言語的類似性距離セットを判断した結果に関連する情報を提供してもよい。この事例において言語処理システム１０２は、本願明細書に記載されている様々な例の中でも特に、求人にマッチングする履歴書を持つ従業員志願者に内定通知書を自動的に送信する、従業員志願者の履歴書を改善するための訓練プログラムを自動的にスケジューリングする、従業員志願者の面談のために採用責任者のカレンダーにカレンダーエントリを自動的に生成する、リストから求人を自動的に削除する、または新しい仕事にマッチングした従業員志願者が退いた役割を埋めるために新しい求人を自動的に生成するなどにより、レコメンデーションを自動的に実装してもよい。

【0051】

一部の実装において言語処理システム１０２は、採用のレコメンデーションを提供および／または実装してもよい。例として言語処理システム１０２は、金融サービス会社でのＩＴエンジニアの職務内容説明（例えば、この事例におけるスキルとしては、ＩＴ：｛“Ｊａｖａ”，“Ｐｙｔｈｏｎ”，“Ｃ＃”，“Ｒ”｝の第１のクラスタおよび金融サービス：｛“ローン処理”，“外為取引”｝の第２のクラスタが考えられるであろう）を、履歴書（例えば特定されるスキルとしては、ＩＴスキルの１つ以上に意味論的に相関する可能性がある「ＭｙＳＱＬ」および金融サービススキルの１つ以上に意味論的に相関する可能性がある「定量分析」が考えられるであろう）にマッチングしてもよい。この事例において言語処理システム１０２は、各マッチングの相対的な重要性および近接性に重み付けし、履歴書が閾値類似性スコアに達すると、履歴書に関連する従業員志願者の採用のレコメンデーションを提供してもよい。

【0052】

一部の実装において言語処理システム１０２は、類似性スコアの出力を提供してもよい。例として、（例えば、様々な例の中でも特に、スキル、用語、フレーズ、または文の言語分析に基づき）ソース文書とターゲット文書との類似性スコアを判断するのに基づいて、言語処理システム１０２は、例としてクライアントデバイス１０６などのダッシュボードまたはユーザインターフェースを介して、類似性スコアを出力として提供してもよい。この事例において、ダッシュボードは、合計の類似性スコア、スキルクラスタに固有の類似性スコアを含んでもよい（例えば上記の例では、ＩＴスキルクラスタについて第１の類似性スコアが生成されてもよく、さらに金融サービススキルクラスタについて第２の類似性スコアが生成されてもよく、そこから合計の類似性スコアが生成されてもよい）。例として言語処理システム１０２は、スキルクラスタの類似性スコアによる候補者のフィルタリングを可能にして、合計の類似性スコアが閾値を満たさなくても、特定のスキルクラスタ（例えばＩＴ）において閾値類似性スコアにマッチングする履歴書が特定されることを可能にしてもよい（例えばそれによって、特定の就職機会に対し重要性がより高いＩＴスキルなどのスキルを備えた候補者を特定し、それらの候補者が金融サービスのスキルなど、より重要性の低いスキルを習得するための訓練を行うことができるようにする）。この事例において言語処理システム１０２は、類似性スコアが閾値を満たしていないスキルクラスタのスキルを向上させる訓練を自動的にレコメンドしてもよい。

【0053】

一部の実装において言語処理システム１０２は、ソース文書またはターゲット文書の分析に基づく出力を提供してもよい。例として言語処理システム１０２は、就職機会に関する文書の非構造化データを分析して、スキルの意味論的文脈（例えば特定されたスキルが必須であるか任意であるか）を抽出してもよい。同じく言語処理システム１０２は、履歴書の文書の非構造化データを分析して、スキルの意味論的文脈（例えば、様々な例の中でも特に、スキルのリストおよびそのスキルの使用年数、または雇用された業界のリストおよびその雇用された業界にいた年数）を抽出してもよい。このようにして言語処理システム１０２は、様々な例の中でも特に、従業員志願者が仕事にマッチングされた理由、従業員志願者が将来仕事にマッチングされるために習得すべきスキル、従業員志願者に対して行うべき訓練、または従業員のスキルの市場価値の特定などの、定性評価を可能にする。

【0054】

構造化データの決定に基づき、言語処理システム１０２は、訓練済みのレコメンデーションモデル（例えば、文書を分析し、履歴書の就職機会に対するマッチングを試行した結果からレコメンデーションを特定するよう、教師あり機械学習を使用して訓練されたものであってもよい）を使用してレコメンデーションを自動的に提供してもよい。例として、言語処理システム１０２が履歴書と就職機会との類似性が低いと特定した場合、言語処理システム１０２は、（例えば人工知能を使用して、例としてスキルおよびスキルの保有年数などに対する変更をシミュレーションすることにより）履歴書および就職機会の変更されたバージョンの分析結果をシミュレーションしてもよい。この事例において、言語処理システム１０２が変更されたバージョンの履歴書と就職機会とのより良いマッチングを特定すると、言語処理システム１０２は、レコメンデーションを特定する出力を提供してもよい。具体的な例として、言語処理システム１０２は、履歴書に一定の経験年数がある別のコンピュータプログラミング言語を追加することで、履歴書が閾値未満の類似性スコアを有する状態から閾値以上の類似性スコアを有する状態に変化すると判断してもよい。この事例において言語処理システム１０２は、別のコンピュータプログラミング言語の訓練と、別のコンピュータプログラミング言語を使用する役割への割り当てとをレコメンドする出力を提供してもよい。このようにして言語処理システム１０２は、キャリアの進展を促進し、将来の雇用の見込みを改善させる役割を自動的に特定する。

【0055】

上記で指摘されたように、図１Ａ～図１Ｇは例として示されている。他の例は、図１Ａ～図１Ｇに関して記載されているものと異なり得る。

【0056】

図２は、本願明細書に記載されるシステムおよび／または方法が実装され得る例示の環境２００の図である。図２に示されているように、環境２００は、言語処理システム２０１を含んでもよく、言語処理システム２０１は、クラウドコンピューティングシステム２０２の１つ以上の構成要素を含んでもよく、且つ／またはクラウドコンピューティングシステム２０２の中で実行されてもよい。クラウドコンピューティングシステム２０２は、より詳細に後述されているように、１つ以上の構成要素２０３～２１３を含んでもよい。図２にさらに示されているように、環境２００は、ネットワーク２２０、データソース２３０、および／またはクライアントデバイス２４０を含んでもよい。環境２００のデバイスおよび／または構成要素は、有線接続および／または無線接続を介して相互接続してもよい。

【0057】

クラウドコンピューティングシステム２０２は、コンピューティングハードウェア２０３、リソース管理コンポーネント２０４、ホストオペレーティングシステム（ＯＳ：ｏｐｅｒａｔｉｎｇｓｙｓｔｅｍ）２０５、および／または１つ以上の仮想コンピューティングシステム２０６を含む。クラウドコンピューティングシステム２０２は、例として、ＡｍａｚｏｎＷｅｂＳｅｒｖｉｃｅｓプラットフォーム、ＭｉｃｒｏｓｏｆｔＡｚｕｒｅプラットフォーム、またはＳｎｏｗｆｌａｋｅプラットフォーム上で実行されてもよい。リソース管理コンポーネント２０４は、コンピューティングハードウェア２０３の仮想化（例えば抽象化）を実行して、１つ以上の仮想コンピューティングシステム２０６を作り出してもよい。リソース管理コンポーネント２０４は、仮想化を使用して、単一のコンピューティングデバイスのコンピューティングハードウェア２０３から分離された複数の仮想コンピューティングシステム２０６を作り出すことなどにより、単一のコンピューティングデバイス（例えばコンピュータまたはサーバ）が複数のコンピューティングデバイスのように動作することを可能にする。こうすることで、コンピューティングハードウェア２０３は、別々のコンピューティングデバイスを使用するのに比べてより高い効率性、より少ない消費電力、より高い信頼性、より高い可用性、より高い稼働率、より高い柔軟性、およびより低いコストで動作することができる。

【0058】

コンピューティングハードウェア２０３は、１つ以上のコンピューティングデバイスのハードウェアおよび対応するリソースを含む。例としてコンピューティングハードウェア２０３は、単一のコンピューティングデバイス（例えば単一のサーバ）の、または１つ以上のデータセンタにある複数のコンピューティングデバイスなど複数のコンピューティングデバイス（例えば複数のサーバ）の、ハードウェアを含んでもよい。図のように、コンピューティングハードウェア２０３は、１つ以上のプロセッサ２０７、１つ以上のメモリ２０８、１つ以上のストレージコンポーネント２０９、および／または１つ以上のネットワーキングコンポーネント２１０を含んでもよい。プロセッサ、メモリ、ストレージコンポーネント、およびネットワーキングコンポーネント（例えば通信コンポーネント）の例は、本願明細書の他の箇所に記載される。

【0059】

リソース管理コンポーネント２０４は、１つ以上の仮想コンピューティングシステム２０６を開始、停止、および／または管理するために、コンピューティングハードウェア２０３を仮想化できる仮想化アプリケーション（例えばコンピューティングハードウェア２０３などのハードウェア上で実行される）を含む。例としてリソース管理コンポーネント２０４は、仮想コンピューティングシステム２０６が仮想マシン２１１である場合などに、ハイパーバイザ（例えばベアメタル型もしくはタイプ１ハイパーバイザ、ホスト型もしくはタイプ２ハイパーバイザ、または別のタイプのハイパーバイザ）または仮想マシンモニタを含んでもよい。さらに、または代わりに、リソース管理コンポーネント２０４は、仮想コンピューティングシステム２０６がコンテナ２１２である場合などに、コンテナマネージャを含んでもよい。一部の実装において、リソース管理コンポーネント２０４は、ホストオペレーティングシステム２０５の中で、且つ／またはホストオペレーティングシステム２０５と連携して実行される。

【0060】

仮想コンピューティングシステム２０６は、コンピューティングハードウェア２０３を使用して、本願明細書に記載される動作および／またはプロセスをクラウドベースで実行することを可能にする仮想環境を含む。図のように、仮想コンピューティングシステム２０６は、様々な例の中でも特に、仮想マシン２１１、コンテナ２１２、または仮想マシンおよびコンテナを含むハイブリッド環境２１３を含んでもよい。仮想コンピューティングシステム２０６は、（例えば仮想コンピューティングシステム２０６の中の）ゲストオペレーティングシステムまたはホストオペレーティングシステム２０５上でアプリケーションを実行するために必要なバイナリファイル、ソフトウェアライブラリ、および／またはその他リソースを含むファイルシステムを使用して、１つ以上のアプリケーションを実行してもよい。

【0061】

言語処理システム２０１は、クラウドコンピューティングシステム２０２の１つ以上の構成要素２０３～２１３を含んでもよく、クラウドコンピューティングシステム２０２の中で実行してもよく、且つ／またはクラウドコンピューティングシステム２０２の中でホストされてもよいが、一部の実装において言語処理システム２０１は、クラウドベースでなくてもよく（例えばクラウドコンピューティングシステムの外部で実装されてもよい）、または部分的にクラウドベースであってもよい。例として言語処理システム２０１は、図３のデバイス３００など、クラウドコンピューティングシステム２０２の一部ではない１つ以上のデバイスを含んでもよく、これには、スタンドアロンサーバまたは別のタイプのコンピューティングデバイスが含まれてもよい。言語処理システム２０１は、本願明細書の他の箇所にさらに詳細に記載されている１つ以上の動作および／またはプロセスを実行してもよい。

【0062】

ネットワーク２２０は、１つ以上の有線ネットワークおよび／または無線ネットワークを含む。例としてネットワーク２２０は、セルラネットワーク、公衆陸上モバイルネットワーク（ＰＬＭＮ：ｐｕｂｌｉｃｌａｎｄｍｏｂｉｌｅｎｅｔｗｏｒｋ）、ローカルエリアネットワーク（ＬＡＮ：ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ワイドエリアネットワーク（ＷＡＮ：ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、プライベートネットワーク、インターネット、および／またはこれらもしくは他のタイプのネットワークの組み合わせを含んでもよい。ネットワーク２２０は、環境２００のデバイス間での通信を可能にする。

【0063】

データソース２３０は、本願明細書の他の箇所に記載されているように、１つ以上の言語モデルの生成、１つ以上のキーワードもしくはキーフレーズの特定、および／または意味論的類似性を判断するための文書の比較に関連する情報を受信、生成、保存、処理、および／または提供できる１つ以上のデバイスを含む。データソース２３０は、通信デバイスおよび／またはコンピューティングデバイスを含んでもよい。例としてデータソース２３０は、データベース、サーバ、データベースサーバ、アプリケーションサーバ、クライアントサーバ、ウェブサーバ、ホストサーバ、プロキシサーバ、（例えばコンピューティングハードウェア上で実行される）仮想サーバ、クラウドコンピューティングシステム内のサーバ、クラウドコンピューティング環境で使用されるコンピューティングハードウェアを含むデバイス、または同様のタイプのデバイスを含んでもよい。データソース２３０は、本願明細書の他の箇所に記載されているように、環境２００の他のデバイス１つ以上と通信してもよい。

【0064】

クライアントデバイス２４０は、本願明細書の他の箇所に記載されているように、自然言語処理技術、複数の言語モデル、および／または複数のカタログを使用して文書を比較することに関連する情報を受信、生成、保存、処理、および／または提供できる１つ以上のデバイスを含む。クライアントデバイス２４０は、通信デバイスおよび／またはコンピューティングデバイスを含んでもよい。例としてクライアントデバイス２４０は、無線通信デバイス、携帯電話、ユーザ機器、ラップトップコンピュータ、タブレットコンピュータ、デスクトップコンピュータ、ウェアラブル通信デバイス（例えばスマート腕時計、スマート眼鏡、ヘッドマウントディスプレイ、または仮想現実ヘッドセット）、または類似のタイプのデバイスを含んでもよい。

【0065】

図２に示されたデバイスおよびネットワークの数および配置は、例として示されている。実際には、図２に示されたものと比べて、追加のデバイスおよび／もしくはネットワーク、より少数のデバイスおよび／もしくはネットワーク、異なるデバイスおよび／もしくはネットワーク、または別様に配置されたデバイスおよび／もしくはネットワークがあってもよい。さらに、図２に示されている２つ以上のデバイスが単一のデバイスの中に実装されてもよく、または図２に示されている単一のデバイスが複数の分散型デバイスとして実装されてもよい。さらに、または代わりに、環境２００のデバイスのセット（例えば１つ以上のデバイス）が、環境２００のデバイスの別のセットにより実行されるものとして記載されている１つ以上の機能を実行してもよい。

【0066】

図３は、言語処理システム２０１、データソース２３０、および／またはクライアントデバイス２４０に対応してもよいデバイス３００の例示のコンポーネントの図である。一部の実装において、言語処理システム２０１、データソース２３０、および／またはクライアントデバイス２４０は、１つ以上のデバイス３００および／またはデバイス３００の１つ以上のコンポーネントを含んでもよい。図３に示されているように、デバイス３００は、バス３１０、プロセッサ３２０、メモリ３３０、入力コンポーネント３４０、出力コンポーネント３５０、および通信コンポーネント３６０を含んでもよい。

【0067】

バス３１０は、デバイス３００のコンポーネント間の有線通信および／または無線通信を可能にする１つ以上のコンポーネントを含む。バス３１０は、動作的結合、通信的結合、電子的結合、および／または電気的結合などを介して、図３の２つ以上のコンポーネントを結合してもよい。プロセッサ３２０は、中央処理ユニット、グラフィックス処理ユニット、マイクロプロセッサ、コントローラ、マイクロコントローラ、デジタル信号プロセッサ、フィールドプログラマブルゲートアレイ、特定用途向け集積回路、および／または別のタイプの処理コンポーネントを含む。プロセッサ３２０は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアとの組み合わせにおいて実装される。一部の実装においてプロセッサ３２０は、本願明細書の他の箇所に記載される１つ以上の動作または処理を実行するようにプログラムできる１つ以上のプロセッサを含む。

【0068】

メモリ３３０は、揮発性および／または不揮発性のメモリを含む。例としてメモリ３３０は、ランダムアクセスメモリ（ＲＡＭ：ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、読み取り専用メモリ（ＲＯＭ：ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、ハードディスクドライブ、および／または別のタイプのメモリ（例えばフラッシュメモリ、磁気メモリ、および／または光学メモリ）を含んでもよい。メモリ３３０は、内部メモリ（例えばＲＡＭ、ＲＯＭ、またはハードディスクドライブ）および／または着脱式メモリ（例えばユニバーサルシリアルバス接続による着脱式）を含んでもよい。メモリ３３０は、非一時的コンピュータ可読媒体であってもよい。メモリ３３０は、デバイス３００の動作に関係する情報、命令、および／またはソフトウェア（例えば１つ以上のソフトウェアアプリケーション）を保存する。一部の実装においてメモリ３３０は、バス３１０などを介して１つ以上のプロセッサ（例えばプロセッサ３２０）に結合された１つ以上のメモリを含む。

【0069】

入力コンポーネント３４０は、デバイス３００がユーザ入力および／または感知された入力などの入力を受信することを可能にする。例として入力コンポーネント３４０は、タッチスクリーン、キーボード、キーパッド、マウス、ボタン、マイクロフォン、スイッチ、センサ、グローバルポジショニングシステムセンサ、加速度計、ジャイロスコープ、および／またはアクチュエータを含んでもよい。出力コンポーネント３５０は、デバイス３００がディスプレイ、スピーカ、および／または発光ダイオードなどを介して出力を提供することを可能にする。通信コンポーネント３６０は、デバイス３００が有線接続および／または無線接続を介して他のデバイスと通信することを可能にする。例として通信コンポーネント３６０は、受信機、送信機、トランシーバ、モデム、ネットワークインターフェースカード、および／またはアンテナを含んでもよい。

【0070】

デバイス３００は、本願明細書に記載された１つ以上の動作またはプロセスを実行してもよい。例として非一時的コンピュータ可読媒体（例えばメモリ３３０）は、プロセッサ３２０により実行される命令のセット（例えば１つ以上の命令またはコード）を保存してもよい。プロセッサ３２０は、命令のセットを実行して、本願明細書に記載された１つ以上の動作またはプロセスを実行してもよい。一部の実装において、１つ以上のプロセッサ３２０による命令のセットの実行は、１つ以上のプロセッサ３２０および／またはデバイス３００に、本願明細書に記載された１つ以上の動作またはプロセスを実行させる。一部の実装において、本願明細書に記載された１つ以上の動作またはプロセスを実行するために、配線による回路構成が、命令の代わりに、または命令と組み合わせて使用されてもよい。さらに、または代わりに、プロセッサ３２０は、本願明細書に記載された１つ以上の動作またはプロセスを実行するように構成されてもよい。したがって、本願明細書に記載された実装は、ハードウェア回路構成とソフトウェアとのいかなる特定の組み合わせにも限定されない。

【0071】

図３に示されたコンポーネントの数および配置は、例として示されている。デバイス３００は、図３に示されたものと比べて、追加のコンポーネント、より少数のコンポーネント、異なるコンポーネント、または別様に配置されたコンポーネントを含んでもよい。さらに、または代わりに、デバイス３００のコンポーネントのセット（例えば１つ以上のコンポーネント）が、デバイス３００のコンポーネントの別のセットにより実行されるものとして記載されている１つ以上の機能を実行してもよい。

【0072】

図４は、自然言語処理およびレコメンデーション生成のためのマルチモデル手法に関連する例示のプロセス４００のフローチャートである。一部の実装において、図４の１つ以上のプロセスブロックが、言語処理システム（例えば言語処理システム１０２または言語処理システム２０１）により実行されてもよい。一部の実装において、図４の１つ以上のプロセスブロックは、データソース（例えばデータソース（単数または複数）１０４またはデータソース２３０）および／またはクライアントデバイス（例えばクライアントデバイス（単数または複数）１０６またはクライアントデバイス２４０）など、言語処理システムとは独立した、または言語処理システムを含む、別のデバイスまたはデバイスのグループにより実行されてもよい。さらに、または代わりに、図４の１つ以上のプロセスブロックは、プロセッサ３２０、メモリ３３０、入力コンポーネント３４０、出力コンポーネント３５０、および／または通信コンポーネント３６０など、デバイス３００の１つ以上のコンポーネントによって実行されてもよい。

【0073】

図４に示されているように、プロセス４００は、言語モデルのセットを生成するために、データソースのセットをモニタリングすることを含んでもよい（ブロック４１０）。例としてデバイスは、上述のように、データソースのセットに対応する言語モデルのセットを生成するために、データソースのセットをモニタリングしてもよい。

【0074】

図４にさらに示されているように、プロセス４００は、キーワードグループの複数のセットを判断することを含んでもよい（ブロック４２０）。例としてデバイスは、上述のように、言語モデルのセットの中の各言語モデルがキーワードグループの対応するセットに関連するように、言語モデルのセットについてキーワードグループの複数のセットを判断してもよい。

【0075】

図４にさらに示されているように、プロセス４００は、言語モデルのセットと、キーワードグループの複数のセットとに基づき、スキルカタログの複数のセットを生成することを含んでもよい（ブロック４３０）。例として、上述のように、デバイスは、各キーワードグループがスキルカタログの複数のセットの中のスキルカタログに関連するように、且つ言語モデルのセットの中の各言語モデルがスキルカタログの対応するセットに関連するように、言語モデルのセットと、キーワードグループの複数のセットとに基づき、スキルカタログの複数のセットを生成してもよい。

【0076】

図４にさらに示されているように、プロセス４００は、処理すべきソース文書を受信することを含んでもよい（ブロック４４０）。例としてデバイスは、上述のように、処理すべきソース文書を、各動的カタログのための言語モデルのセットを生成することに基づき、受信してもよい。

【0077】

図４にさらに示されているように、プロセス４００は、キーフレーズセットを抽出するため、および第１の類似性距離を判断するために、ソース文書を処理することを含んでもよい（ブロック４５０）。例としてデバイスは、上述のように、キーフレーズセットを抽出するため、およびキーフレーズセットの中の各キーフレーズについてスキルカタログの複数のセットの中の対応するスキルカタログの中の各スキルに対する第１の類似性距離を判断するために、ソース文書を処理してもよく、対応するスキルカタログについての類似性距離の平均は、ターゲットコンテンツ、対応するスキルカタログ、および関連する言語モデルの間の関連性を表す。

【0078】

図４にさらに示されているように、プロセス４００は、対応するスキルカタログおよび関連する言語モデルを、関連性の値に基づき選択することを含んでもよい（ブロック４６０）。例としてデバイスは、上述のように、対応するスキルカタログおよび関連する言語モデルを、関連性の値に基づき選択してもよい。

【0079】

図４にさらに示されているように、プロセス４００は、対応するスキルカタログおよび関連する言語モデルを使用して、ソース文書と１つ以上のターゲット文書との間の第２の類似性距離を判断することを含んでもよい（ブロック４７０）。例としてデバイスは、上述のように、対応するスキルカタログおよび関連する言語モデルを使用して、ソース文書と１つ以上のターゲット文書との間の第２の類似性距離を判断してもよい。

【0080】

図４にさらに示されているように、プロセス４００は、第２の類似性距離に少なくとも部分的に基づき、１つ以上のターゲット文書に関連する情報を出力することを含んでもよい（ブロック４８０）。例としてデバイスは、上述のように、第２の類似性距離に少なくとも部分的に基づき、１つ以上のターゲット文書に関連する情報を出力してもよい。

【0081】

プロセス４００は、後述され、且つ／または本願明細書の他の箇所に記載された他の１つ以上のプロセスに関連して記載される、任意の単一の実装または複数実装の任意の組み合わせなど、追加の実装を含んでもよい。

【0082】

第１の実装において、構成要素は、第１の言語モデルにおいて第１の重みに関連し、第２の言語モデルにおいて第２の重みに関連する。

【0083】

第２の実装単体、または第１の実装と組み合わされた第２の実装において、第１の言語モデルおよび第２の言語モデルは、同じカタログおよび異なる自然言語処理技術、異なるカタログおよび同じ自然言語処理技術、または異なるカタログおよび異なる自然言語処理技術のうちの１つに関連する。

【0084】

第３の実装単体、または第１および第２の実装の１つ以上と組み合わされた第３の実装において、構成要素は、単語、フレーズ、文、または文書セグメントのうちの少なくとも１つである。

【0085】

第４の実装単体、または第１～第３の実装の１つ以上と組み合わされた第４の実装において、第２の類似性距離を判断することは、対応するカタログおよび関連する言語モデル、ならびにターゲットコンテンツに文脈上関係する１つ以上の第２の構成要素に基づき、ソース文書内の第１の構成要素の強度を判断することと、第１の構成要素の強度に基づき類似性スコアを判断することとを含む。

【0086】

第５の実装単体、または第１～第４の実装の１つ以上と組み合わされた第５の実装において、第２の類似性距離を判断することは、１つ以上のターゲット文書の中のターゲット文書から第１の構成要素を抽出することと、関連する言語モデルを使用して、対応するカタログの第２の構成要素と第１の構成要素とを比較することと、第２の構成要素と第１の構成要素との比較に基づき第２の類似性距離を判断することとを含む。

【0087】

第６の実装単体、または第１～第５の実装の１つ以上と組み合わされた第６の実装において、キーフレーズセットを抽出するため、およびキーフレーズセットの中の各キーフレーズについて第１の類似性距離を判断するために、ソース文書を処理することは、対応する言語モデルを使用してソース文書からキーフレーズセットを抽出すること、キーフレーズセットの中のキーフレーズについて、対応するカタログの各構成要素に対するキーフレーズの類似性を表す対応する第１の類似性距離を判断すること、キーフレーズに対する対応するカタログの総類似性を判断するために、キーフレーズセットについての対応する第１の類似性距離を集約することを含み、対応するスキルカタログを選択することは、対応するスキルカタログを総類似性に基づき選択することを含む。

【0088】

第７の実装単体、または第１～第６の実装の１つ以上と組み合わされた第７の実装において、第２の類似性距離を判断することは、フィルタリングされた構成要素のセットを生成するために、ソース文書と、１つ以上のターゲット文書の中のターゲット文書との構成要素を、対応するスキルカタログを使用してフィルタリングすることと、フィルタリングされた構成要素を、関連する言語モデルを使用してスコアリングすることとを含む。

【0089】

第８の実装単体、または第１～第７の実装の１つ以上と組み合わされた第８の実装において、第２の類似性距離を判断することは、平均することを含み、第２の類似性距離は、類似性距離のセットの平均である。

【0090】

第９の実装単体、または第１～第８の実装の１つ以上と組み合わされた第９の実装において、ソース文書は、求人票であり、１つ以上のターゲット文書は、求人票のセットである。

【0091】

第１０の実装単体、または第１～第９の実装の１つ以上と組み合わされた第１０の実装において、ソース文書は、履歴書であり、１つ以上のターゲット文書は、履歴書のセットである。

【0092】

第１１の実装単体、または第１～第１０の実装の１つ以上と組み合わされた第１１の実装において、プロセス４００は、レコメンデーションエンジンを使用して、類似性スコアに基づくレコメンデーションのセットを生成することと、レコメンデーションのセットに関連する情報を出力することとを含む。

【0093】

第１２の実装単体、または第１～第１１の実装の１つ以上と組み合わされた第１２の実装において、プロセス４００は、レコメンデーションのセットに関係する自動化された応答アクションのセットを実行することを含む。

【0094】

第１３の実装単体、または第１～第１２の実装の１つ以上と組み合わされた第１３の実装において、自動化された応答アクションのセットは、訓練プログラムへの登録、会議のスケジューリング、タスクの割り当て、コンテンツ検索タスク、ターゲットコンテンツの提出、または求人票への応答のうちの少なくとも１つに関する応答アクションを含む。

【0095】

第１４の実装単体、または第１～第１３の実装の１つ以上と組み合わされた第１４の実装において、プロセス４００は、カテゴリのセットに関する閾値のセットが満たされているかどうかを類似性スコアに基づき判断することを含み、カテゴリは、関連する動的カタログの構成要素に対応し、レコメンデーションのセットに関連する情報を出力することは、閾値のセットが満たされていることを示すよう管理システム内の１つ以上のデータエントリを更新することを含む。

【0096】

第１５の実装単体、または第１～第１４の実装の１つ以上と組み合わされた第１５の実装において、プロセス４００は、選択された言語モデルを使用してソースコンテンツの非構造化データを構造化コンテンツに変換することを含み、ソースコンテンツを処理することは、構造化コンテンツを処理することを含む。

【0097】

図４はプロセス４００の例示のブロックを示すが、一部の実装ではプロセス４００は、図４に示されたものと比べて追加のブロック、より少数のブロック、異なるブロック、または別様に配置されたブロックを含んでもよい。さらに、または代わりに、プロセス４００のブロックの２つ以上が並列実行されてもよい。

【0098】

前述の開示は、例示および説明を提供するが、網羅的であることも、実装を開示された厳密な形態に限定することも意図していない。上記の開示を考慮して変更が加えられてもよく、または実装の実践から変更が習得される可能性もある。

【0099】

本願明細書で使用されるとき、「コンポーネント」という用語は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアとの組み合わせとして広く解釈されるものとする。当然のことながら、本願明細書に記載されたシステムおよび／もしくは方法は、様々な形態のハードウェア、ファームウェア、ならびに／またはハードウェアとソフトウェアとの組み合わせに実装されてもよい。これらのシステムおよび／または方法を実装するために使用される実際の専用制御ハードウェアまたはソフトウェアコードは、実装を限定するものではない。したがって、システムおよび／または方法の動作および挙動は、特定のソフトウェアコードを参照することなく本願明細書に記載されているが、当然のことながら、本願明細書の記載に基づくシステムおよび／または方法を実装するためにソフトウェアおよびハードウェアを使用できる。

【0100】

本願明細書で使用されるとき、閾値を満たすとは、文脈に応じて、値が閾値より大きいこと、閾値以上であること、閾値未満であること、閾値以下であること、閾値と等しいこと、閾値と等しくないこと、または同様のことを指すことができる。

【0101】

特徴の特定の組み合わせが特許請求の範囲に記載され且つ／または本明細書で開示されるが、これらの組み合わせは様々な実装の開示を限定することを意図したものではない。実際には、これらの特徴の多くが、特許請求の範囲に具体的に記載されなかった、且つ／または本明細書で開示されなかった形で組み合わされてもよい。下記に列挙される各従属クレームは、１つのみのクレームに直接従属するかもしれないが、様々な実装の開示は、クレームセット中の他のすべてのクレームと組み合わされた各従属クレームを含む。本願明細書で使用されるとき、項目のリスト「の少なくとも１つ」に言及するフレーズは、単一の要素を含め、当該の項目の任意の組み合わせを指す。一例として、「ａ、ｂ、またはｃのうちの少なくとも１つ」は、ａ、ｂ、ｃ、ａ－ｂ、ａ－ｃ、ｂ－ｃ、およびａ－ｂ－ｃ、ならびに複数の同じ項目のとの任意の組み合わせを対象とするものとする。

【0102】

本願明細書で使用されるいずれの構成要素、動作、または命令も、重要または必須とは、そのように明示的に記載されない限りは解釈されてはならない。さらに、本願明細書で使用されるとき、冠詞「或る（ａおよびａｎ）」は、１つ以上の項目を含むものとし、「１つ以上の（ｏｎｅｏｒｍｏｒｅ）」と交換可能なように使用され得る。さらに、本願明細書において使用されるとき、冠詞「この（ｔｈｅ）」は、冠詞「この（ｔｈｅ）」に関連して参照される１つ以上の項目を含むものとし、「１つ以上の（ｔｈｅｏｎｅｏｒｍｏｒｅ）」と交換可能なように使用され得る。さらに、本願明細書で使用されるとき、「セット（ｓｅｔ）」という用語は、１つ以上の項目（例えば関係する項目、無関係の項目、または関係する項目と無関係の項目との組み合わせ）を含むものとし、「１つ以上の（ｏｎｅｏｒｍｏｒｅ）」と交換可能なように使用され得る。１つのみの項目が意図される場合は、「１つのみ（ｏｎｌｙｏｎｅ）」というフレーズまたは同様の文言が使用される。さらに、本願明細書で使用されるとき、「有する（ｈａｓ、ｈａｖｅ、ｈａｖｉｎｇ）」または同様の用語は、非限定的な用語であるものとする。さらに、「基づき（ｂａｓｅｄｏｎ）」というフレーズは、別段の記載が明示的になされない限り、「少なくとも部分的に基づき（ｂａｓｅｄ，ａｔｌｅａｓｔｉｎｐａｒｔ，ｏｎ）」を意味するものとする。さらに、本願明細書で使用されるとき、「または（ｏｒ）」という用語は、別段の記載（例えば、「いずれか（ｅｉｔｈｅｒ）」または「のうちの１つのみ（ｏｎｌｙｏｎｅｏｆ）」と組み合わせて使用される場合）が明示的になされない限り、等位語句の連続の中で使用される場合、非排他的であるものとし、「および／または（ａｎｄ／ｏｒ）」と交換可能なように使用され得る。

【図1A】