IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アバナード ホールディングス エルエルシーの特許一覧

特開2023-26279自然言語処理およびレコメンデーション生成のためのマルチモデル手法
<>
  • 特開-自然言語処理およびレコメンデーション生成のためのマルチモデル手法 図1A
  • 特開-自然言語処理およびレコメンデーション生成のためのマルチモデル手法 図1B
  • 特開-自然言語処理およびレコメンデーション生成のためのマルチモデル手法 図1C
  • 特開-自然言語処理およびレコメンデーション生成のためのマルチモデル手法 図1D
  • 特開-自然言語処理およびレコメンデーション生成のためのマルチモデル手法 図1E
  • 特開-自然言語処理およびレコメンデーション生成のためのマルチモデル手法 図1F
  • 特開-自然言語処理およびレコメンデーション生成のためのマルチモデル手法 図1G
  • 特開-自然言語処理およびレコメンデーション生成のためのマルチモデル手法 図2
  • 特開-自然言語処理およびレコメンデーション生成のためのマルチモデル手法 図3
  • 特開-自然言語処理およびレコメンデーション生成のためのマルチモデル手法 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023026279
(43)【公開日】2023-02-24
(54)【発明の名称】自然言語処理およびレコメンデーション生成のためのマルチモデル手法
(51)【国際特許分類】
   G06F 16/33 20190101AFI20230216BHJP
【FI】
G06F16/33
【審査請求】有
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2021187687
(22)【出願日】2021-11-18
(31)【優先権主張番号】17/445,074
(32)【優先日】2021-08-13
(33)【優先権主張国・地域又は機関】US
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVA
2.PYTHON
(71)【出願人】
【識別番号】521505507
【氏名又は名称】アバナード ホールディングス エルエルシー
(74)【代理人】
【識別番号】100102406
【弁理士】
【氏名又は名称】黒田 健二
(74)【代理人】
【識別番号】100100240
【弁理士】
【氏名又は名称】松本 孝
(72)【発明者】
【氏名】小椋 隆
(72)【発明者】
【氏名】中原 悠
(72)【発明者】
【氏名】廣瀬 直樹
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175GC03
5B175HB03
(57)【要約】      (修正有)
【課題】データソースのセットに対応する言語モデルのセットを生成するために、データソースのセットをモニタリングする方法、デバイス及びコンピュータ可読媒体を提供する。
【解決手段】方法は、キーワードグループの複数のセットを判断し、スキルカタログの複数のセットを生成し、処理すべきソース文書を受信し、キーフレーズセットを抽出及び第1の類似性距離を判断するために、ソース文書を処理し、関連性の値に基づき、対応するスキルカタログおよび関連する言語モデル選択し、対応するスキルカタログ及び関連する言語モデルを使用して、ソース文書と1つ以上のターゲット文書との間の第2の類似性距離を判断し、第2の類似性距離に少なくとも部分的に基づき、1つ以上のターゲット文書に関連する情報を出力する。
【選択図】図4
【特許請求の範囲】
【請求項1】
データソースのセットに対応する言語モデルのセットを生成するために、前記データソースのセットをデバイスによりモニタリングするステップと、
前記言語モデルのセットの中の各言語モデルがキーワードグループの対応するセットに関連するように、前記言語モデルのセットについてキーワードグループの複数のセットを前記デバイスにより判断するステップと、
各キーワードグループがスキルカタログの複数のセットの中のスキルカタログに関連するように、且つ前記言語モデルのセットの中の各言語モデルがスキルカタログの対応するセットに関連するように、前記言語モデルのセットと、前記キーワードグループの複数のセットとに基づき、前記スキルカタログの複数のセットを前記デバイスにより生成するステップと、
処理すべきソース文書を、前記デバイスにより、且つ各動的カタログのための前記言語モデルのセットを生成することに基づき、受信するステップと、
キーフレーズセットを抽出するため、および前記キーフレーズセットの中の各キーフレーズについて前記スキルカタログの複数のセットの中の対応するスキルカタログの中の各スキルに対する第1の類似性距離を判断するために、前記デバイスにより前記ソース文書を処理するステップであって、前記対応するスキルカタログについての類似性距離の平均は、前記ソース文書、前記対応するスキルカタログ、および関連する言語モデルの間の関連性を表す、前記処理するステップと、
前記対応するスキルカタログおよび前記関連する言語モデルを、前記関連性の値に基づき前記デバイスにより選択するステップと、
前記対応するスキルカタログおよび前記関連する言語モデルを使用して、前記ソース文書と1つ以上のターゲット文書との間の第2の類似性距離を判断するステップと、
前記第2の類似性距離に少なくとも部分的に基づき、1つ以上のターゲット文書に関連する情報を出力するステップと
を含む方法。
【請求項2】
構成要素が、第1の言語モデルにおいて第1の重みに関連し、第2の言語モデルにおいて第2の重みに関連する、請求項1に記載の方法。
【請求項3】
前記第1の言語モデルおよび前記第2の言語モデルは、
同じカタログおよび異なる自然言語処理技術、
異なるカタログおよび同じ自然言語処理技術、または
異なるカタログおよび異なる自然言語処理技術
のうちの1つに関連する、請求項2に記載の方法。
【請求項4】
前記構成要素は、
単語、
フレーズ、
文、または
文書セグメント
のうちの少なくとも1つである、請求項2に記載の方法。
【請求項5】
前記第2の類似性距離を判断するステップは、
前記対応するカタログおよび関連する言語モデル、ならびに前記1つ以上のターゲット文書の中のターゲット文書に文脈上関係する1つ以上の第2の構成要素に基づき、前記ソース文書内の第1の構成要素の強度を判断するステップと、
前記第1の構成要素の前記強度に基づき類似性スコアを判断するステップと
を含む、請求項1に記載の方法。
【請求項6】
前記第2の類似性距離を判断するステップは、
前記1つ以上のターゲット文書の中のターゲット文書から第1の構成要素を抽出するステップと、
前記関連する言語モデルを使用して、前記対応するカタログの第2の構成要素と前記第1の構成要素とを比較するステップと、
前記第2の構成要素と前記第1の構成要素との前記比較に基づき前記第2の類似性距離を判断するステップと
を含む、請求項1に記載の方法。
【請求項7】
前記キーフレーズセットを抽出するため、および前記キーフレーズセットの中の各キーフレーズについて前記第1の類似性距離を判断するために、前記ソース文書を処理するステップは、
前記対応する言語モデルを使用して前記ソース文書から前記キーフレーズセットを抽出するステップ、
前記キーフレーズセットの中のキーフレーズについて、前記対応するカタログの各構成要素に対する前記キーフレーズの類似性を表す対応する第1の類似性距離を判断するステップ、
前記キーフレーズに対する前記対応するカタログの総類似性を判断するために、前記キーフレーズセットについての対応する第1の類似性距離を集約するステップ
を含み、
前記対応するスキルカタログを選択するステップは、
前記対応するスキルカタログを前記総類似性に基づき選択するステップ
を含む、請求項1に記載の方法。
【請求項8】
前記第2の類似性距離を判断するステップは、
フィルタリングされた構成要素のセットを生成するために、前記ソース文書と、前記1つ以上のターゲット文書の中のターゲット文書との構成要素を、前記対応するスキルカタログを使用してフィルタリングするステップと、
前記フィルタリングされた構成要素を、前記関連する言語モデルを使用してスコアリングするステップと
を含む、請求項1に記載の方法。
【請求項9】
前記第2の類似性距離を判断するステップは、
前記類似性距離のセットに適用される統計的技術に少なくとも部分的に基づき、前記第2の類似性距離を判断するステップ
を含む、請求項8に記載の方法。
【請求項10】
前記ソース文書は、求人票であり、前記1つ以上のターゲット文書は、求人票のセットである、請求項1に記載の方法。
【請求項11】
前記ソース文書は、履歴書であり、前記1つ以上のターゲット文書は、履歴書のセットである、請求項1に記載の方法。
【請求項12】
1つ以上のメモリと、
前記1つ以上のメモリに結合された1つ以上のプロセッサと
を含むデバイスであって、前記1つ以上のプロセッサは、
データソースのセットに対応する言語モデルのセットを生成するために、前記データソースのセットをモニタリングすることと、
前記言語モデルのセットの中の言語モデルが、カタログの複数のセットの中のカタログの対応するセットに関連するように、且つ前記カタログの対応するセットが、異なる複数の自然言語処理アルゴリズムに対応する複数のカタログを含むように、前記言語モデルのセットについて前記カタログの複数のセットを生成することと、
処理すべきソースコンテンツを、各言語モデルについて前記カタログのセットを生成することに基づき受信することと、
関連性スコアの複数のセットを生成するために、前記ソースコンテンツを処理することであって、前記関連性スコアの複数のセットの中の関連性スコアのセットの中の関連性スコアは、前記ソースコンテンツと、前記カタログの複数のセットの中の前記カタログの対応するセットの中のカタログとの間の関連性の値を表す、前記処理することと、
前記関連性スコアに基づき、前記言語モデルと、前記カタログの複数のセットの中の関連するカタログとを選択することと、
前記選択された言語モデルを使用して前記ソースコンテンツとターゲットコンテンツとの間の類似性スコアを判断することと、
前記類似性スコアに基づくレコメンデーションのセットをレコメンデーションエンジンを使用して生成することと、
前記レコメンデーションのセットに関連する情報を出力することと
をするように構成される、デバイス。
【請求項13】
前記1つ以上のプロセッサは、前記レコメンデーションのセットに関係する自動化された応答アクションのセットを実行するようにさらに構成される、請求項12に記載のデバイス。
【請求項14】
前記自動化された応答アクションのセットは、
訓練プログラムへの登録、
会議のスケジューリング、
タスクの割り当て、
コンテンツ検索タスク、
前記ターゲットコンテンツの提出、または
求人票への応答
のうちの少なくとも1つに関する応答アクションを含む、請求項13に記載のデバイス。
【請求項15】
前記1つ以上のプロセッサは、
カテゴリのセットに関する閾値のセットが満たされているかどうかを前記類似性スコアに基づき判断するようにさらに構成され、カテゴリは、前記関連するカタログの構成要素に対応し、
前記1つ以上のプロセッサは、前記レコメンデーションのセットに関連する前記情報を出力するために、
前記閾値のセットが満たされていることを示すよう管理システム内の1つ以上のデータエントリを更新するように構成される、請求項12に記載のデバイス。
【請求項16】
前記1つ以上のプロセッサは、
前記選択された言語モデルを使用して前記ソースコンテンツの非構造化データを構造化コンテンツに変換するようにさらに構成され、
前記1つ以上のプロセッサは、前記ソースコンテンツを処理するために、
前記構造化コンテンツを処理するように構成される、請求項12に記載のデバイス。
【請求項17】
命令のセットを保存する非一時的コンピュータ可読媒体であって、前記命令のセットは、
1つ以上の命令
を含み、前記1つ以上の命令は、デバイスの1つ以上のプロセッサにより実行されると、前記デバイスに、
データソースのセットに対応する言語モデルのセットを生成することと、
カタログの複数のセットを生成することであって、
前記言語モデルのセットの中の各言語モデルは、前記カタログの複数のセットの中のカタログのセットに関連し、
前記カタログの複数のセットの中のカタログの各セットは、異なる複数の自然言語処理技術に対応する複数のカタログを含む、
カタログの複数のセットを生成することと、
処理すべきソースコンテンツを、前記カタログの複数のセットを生成することに基づき受信することと、
前記カタログの複数のセットに対応する関連性スコアの複数のセットを生成するために、前記ソースコンテンツを処理することであって、
関連性スコアは、前記ソースコンテンツの第1の構成要素と、前記カタログの複数のセットの中のカタログ内の第2の構成要素との間の意味論的類似性に対応する、
前記ソースコンテンツを処理することと、
前記関連性スコアの複数のセットに基づき、前記言語モデルのセットからの言語モデルと、前記カタログの複数のセットの中の関連するカタログとを選択することと、
前記選択された言語モデルおよび前記関連するカタログを使用して前記ソースコンテンツとターゲットコンテンツとの間の類似性スコアを判断することと、
前記類似性スコアに少なくとも部分的に基づき、ターゲットコンテンツに関連する情報を出力することと
をさせる、非一時的コンピュータ可読媒体。
【請求項18】
前記カタログの複数のセットの中のカタログの構成要素は、
単語、
フレーズ、
文、または
文書セグメント
のうちの少なくとも1つである、請求項17に記載の非一時的コンピュータ可読媒体。
【請求項19】
前記デバイスに前記類似性スコアを判断させる前記1つ以上の命令は、前記デバイスに、
前記選択された言語モデルと、前記ソースコンテンツに文脈上関係する1つ以上の第2の構成要素とに基づき、前記ソースコンテンツ内の第1の構成要素の強度を判断することと、
前記第1の構成要素の前記強度に基づき類似性スコアを判断することと
をさせる、請求項17に記載の非一時的コンピュータ可読媒体。
【請求項20】
前記デバイスに前記類似性スコアを判断させる前記1つ以上の命令は、前記デバイスに、
前記選択された言語モデルを使用して前記ソースコンテンツから構成要素の第1のセットを抽出することと、
前記選択された言語モデルを使用して前記ターゲットコンテンツから構成要素の第2のセットを抽出することと、
前記選択された言語モデルを使用して前記構成要素の第1のセットと前記構成要素の第2のセットとを比較することと、
前記構成要素の第1のセットと前記構成要素の第2のセットとの前記比較に基づき類似性スコアを判断することと
をさせる、請求項17に記載の非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、全般的に、自然言語処理の方法およびデバイスに関する。
【背景技術】
【0002】
自然言語処理(NLP:Natural language processing)は、コンピュータサイエンスおよび人工知能の分野であり、コンピュータと人間の(自然)言語との間の相互作用、特に大量の自然言語データを処理するようコンピュータをプログラムする仕方に関わる。自然言語処理には、様々な例の中でも特に、記号的自然言語処理技術、統計的自然言語処理技術、またはニューラル自然言語処理技術などの多様な技術を使用できる。
【発明の概要】
【課題を解決するための手段】
【0003】
本願明細書に記載される一部の実装は、方法に関する。本方法は、データソースのセットに対応する言語モデルのセットを生成するために、データソースのセットをデバイスによりモニタリングするステップを含んでもよい。本方法は、言語モデルのセットの中の各言語モデルがキーワードグループの対応するセットに関連するように、言語モデルのセットについてキーワードグループの複数のセットをデバイスにより判断するステップを含んでもよい。本方法は、各キーワードグループがスキルカタログの複数のセットの中のスキルカタログに関連するように、且つ言語モデルのセットの中の各言語モデルがスキルカタログの対応するセットに関連するように、言語モデルのセットと、キーワードグループの複数のセットとに基づき、スキルカタログの複数のセットをデバイスにより生成するステップを含んでもよい。本方法は、処理すべきソース文書を、デバイスにより、且つ各動的カタログのための動的言語モデルのセットを生成することに基づき、受信するステップを含んでもよい。本方法は、キーフレーズセットを抽出するため、およびキーフレーズセットの中の各キーフレーズについてスキルカタログの複数のセットの中の対応するスキルカタログの中の各スキルに対する第1の類似性距離を判断するために、デバイスによりソース文書を処理するステップを含んでもよく、対応するスキルカタログについての類似性距離の平均(または類似性距離に適用される、例えば中央値、最頻値、標準偏差など他の統計的技術)は、ターゲットコンテンツ、対応するスキルカタログ、および関連する言語モデルの間の関連性を表す。本方法は、対応するスキルカタログおよび関連する言語モデルを、関連性の値に基づきデバイスにより選択するステップを含んでもよい。本方法は、対応するスキルカタログおよび関連する言語モデルを使用して、ソース文書と1つ以上のターゲット文書との間の第2の類似性距離を判断するステップを含んでもよい。本方法は、第2の類似性距離に少なくとも部分的に基づき、1つ以上のターゲット文書に関連する情報を出力するステップを含んでもよい。
【0004】
上記の方法の一部の実装において、構成要素が、第1の言語モデルにおいて第1の重みに関連し、第2の言語モデルにおいて第2の重みに関連してもよい。
【0005】
上記の方法の一部の実装において、第1の言語モデルおよび第2の言語モデルは、同じカタログおよび異なる自然言語処理技術、異なるカタログおよび同じ自然言語処理技術、または異なるカタログおよび異なる自然言語処理技術のうちの1つに関連してもよい。
【0006】
上記の方法の一部の実装において、構成要素は、単語、フレーズ、文、または文書セグメントのうちの少なくとも1つであってもよい。
【0007】
上記の方法の一部の実装において、第2の類似性距離を判断するステップは、対応するカタログおよび関連する言語モデル、ならびに1つ以上のターゲット文書の中のターゲット文書に文脈上関係する1つ以上の第2の構成要素に基づき、ソース文書内の第1の構成要素の強度を判断するステップと、第1の構成要素の強度に基づき類似性スコアを判断するステップとを含んでもよい。
【0008】
上記の方法の一部の実装において、第2の類似性距離を判断するステップは、1つ以上のターゲット文書の中のターゲット文書から第1の構成要素を抽出するステップと、関連する言語モデルを使用して、対応するカタログの第2の構成要素と第1の構成要素とを比較するステップと、第2の構成要素と第1の構成要素との比較に基づき第2の類似性距離を判断するステップとを含んでもよい。
【0009】
上記の方法の一部の実装において、キーフレーズセットを抽出するため、およびキーフレーズセットの中の各キーフレーズについて第1の類似性距離を判断するために、ソース文書を処理するステップは、対応する言語モデルを使用してソース文書からキーフレーズセットを抽出するステップ、キーフレーズセットの中のキーフレーズについて、対応するカタログの各構成要素に対するキーフレーズの類似性を表す対応する第1の類似性距離を判断するステップ、キーフレーズに対する対応するカタログの総類似性を判断するために、キーフレーズセットについての対応する第1の類似性距離を集約するステップを含んでもよく、対応するスキルカタログを選択するステップは、対応するスキルカタログを総類似性に基づき選択するステップを含んでもよい。
【0010】
上記の方法の一部の実装において、第2の類似性距離を判断するステップは、フィルタリングされた構成要素のセットを生成するために、ソース文書と、1つ以上のターゲット文書の中のターゲット文書との構成要素を、対応するスキルカタログを使用してフィルタリングするステップと、フィルタリングされた構成要素を、関連する言語モデルを使用してスコアリングするステップとを含んでもよい。
【0011】
上記の方法の一部の実装において、第2の類似性距離を判断するステップは、類似性距離のセットに適用される統計的技術に少なくとも部分的に基づき、第2の類似性距離を判断するステップを含んでもよい。
【0012】
上記の方法の一部の実装において、ソース文書は、求人票であってもよく、1つ以上のターゲット文書は、求人票のセットであってもよい。
【0013】
上記の方法の一部の実装において、ソース文書は、履歴書であってもよく、1つ以上のターゲット文書は、履歴書のセットであってもよい。
【0014】
本願明細書に記載される一部の実装は、デバイスに関する。デバイスは、1つ以上のメモリと、1つ以上のメモリに結合された1つ以上のプロセッサとを含んでもよい。1つ以上のプロセッサは、データソースのセットに対応する言語モデルのセットを生成するために、データソースのセットをモニタリングするように構成されてもよい。1つ以上のプロセッサは、言語モデルのセットの中の言語モデルが、カタログの複数のセットの中のカタログの対応するセットに関連するように、且つカタログの対応するセットが、異なる複数の自然言語処理アルゴリズムに対応する複数のカタログを含むように、言語モデルのセットについてカタログの複数のセットを生成するように構成されてもよい。1つ以上のプロセッサは、処理すべきソース文書を、各言語モデルについてカタログのセットを生成することに基づき受信するように構成されてもよい。1つ以上のプロセッサは、関連性スコアの複数のセットを生成するために、ソース文書を処理するように構成されてもよく、関連性スコアの複数のセットの中の関連性スコアのセットの中の関連性スコアは、ソース文書と、カタログの複数のセットの中のカタログの対応するセットの中のカタログとの間の関連性の値を表す。1つ以上のプロセッサは、関連性スコアに基づき、言語モデルと、カタログの複数のセットの中の関連するカタログとを選択するように構成されてもよい。1つ以上のプロセッサは、選択された言語モデルを使用してソースコンテンツとターゲットコンテンツとの間の類似性スコアを判断するように構成されてもよい。1つ以上のプロセッサは、類似性スコアに基づくレコメンデーションのセットをレコメンデーションエンジンを使用して生成するように構成されてもよい。1つ以上のプロセッサは、レコメンデーションのセットに関連する情報を出力するように構成されてもよい。
【0015】
上記のデバイスの一部の実装において、自動化された応答アクションのセットは、訓練プログラムへの登録、会議のスケジューリング、タスクの割り当て、コンテンツ検索タスク、ターゲットコンテンツの提出、または求人票への応答のうちの少なくとも1つに関する応答アクションを含む。
【0016】
上記のデバイスの一部の実装において、1つ以上のプロセッサは、カテゴリのセットに関する閾値のセットが満たされているかどうかを類似性スコアに基づき判断するようにさらに構成されてもよく、カテゴリは、関連するカタログの構成要素に対応し、1つ以上のプロセッサは、レコメンデーションのセットに関連する情報を出力するために、閾値のセットが満たされていることを示すよう管理システム内の1つ以上のデータエントリを更新するように構成されてもよい。
【0017】
上記のデバイスの一部の実装において、1つ以上のプロセッサは、選択された言語モデルを使用してソースコンテンツの非構造化データを構造化コンテンツに変換するようにさらに構成されてもよく、1つ以上のプロセッサは、ソースコンテンツを処理するために、構造化コンテンツを処理するように構成されてもよい。
【0018】
本願明細書に記載される一部の実装は、デバイスのための命令のセットを保存する非一時的コンピュータ可読媒体に関する。命令のセットは、デバイスの1つ以上のプロセッサにより実行されると、デバイスに、データソースのセットに対応する言語モデルのセットを生成させてもよい。命令のセットは、デバイスの1つ以上のプロセッサにより実行されると、デバイスに、カタログの複数のセットを生成させてもよい。命令のセットは、デバイスの1つ以上のプロセッサにより実行されると、デバイスに、処理すべきソースコンテンツを、カタログの複数のセットを生成することに基づき受信させてもよい。命令のセットは、デバイスの1つ以上のプロセッサにより実行されると、デバイスに、カタログの複数のセットに対応する関連性スコアの複数のセットを生成するために、ソースコンテンツを処理させてもよい。命令のセットは、デバイスの1つ以上のプロセッサにより実行されると、デバイスに、関連性スコアの複数のセットに基づき、言語モデルのセットからの言語モデルと、カタログの複数のセットの中の関連するカタログとを選択させてもよい。命令のセットは、デバイスの1つ以上のプロセッサにより実行されると、デバイスに、選択された言語モデルおよび関連するカタログを使用してソースコンテンツとターゲットコンテンツとの間の類似性スコアを判断させてもよい。命令のセットは、デバイスの1つ以上のプロセッサにより実行されると、デバイスに、類似性スコアに少なくとも部分的に基づき、ターゲットコンテンツに関連する情報を出力させてもよい。
【0019】
上記の非一時的コンピュータ可読媒体の一部の実装において、カタログの複数のセットの中のカタログの構成要素は、単語、フレーズ、文、または文書セグメントのうちの少なくとも1つであってもよい。
【0020】
上記の非一時的コンピュータ可読媒体の一部の実装において、デバイスに類似性スコアを判断させる1つ以上の命令は、デバイスに、選択された言語モデルと、ソースコンテンツに文脈上関係する1つ以上の第2の構成要素とに基づき、ソースコンテンツ内の第1の構成要素の強度を判断することと、第1の構成要素の強度に基づき類似性スコアを判断することとをさせてもよい。
【0021】
上記の非一時的コンピュータ可読媒体の一部の実装において、デバイスに類似性スコアを判断させる1つ以上の命令は、デバイスに、選択された言語モデルを使用してソースコンテンツから構成要素の第1のセットを抽出することと、選択された言語モデルを使用してターゲットコンテンツから構成要素の第2のセットを抽出することと、選択された言語モデルを使用して構成要素の第1のセットと構成要素の第2のセットとを比較することと、構成要素の第1のセットと構成要素の第2のセットとの比較に基づき類似性スコアを判断することとをさせてもよい。
【図面の簡単な説明】
【0022】
図1A】本願明細書に記載されている例示の実装の図である。
図1B】本願明細書に記載されている例示の実装の図である。
図1C】本願明細書に記載されている例示の実装の図である。
図1D】本願明細書に記載されている例示の実装の図である。
図1E】本願明細書に記載されている例示の実装の図である。
図1F】本願明細書に記載されている例示の実装の図である。
図1G】本願明細書に記載されている例示の実装の図である。
図2】本願明細書に記載されているシステムおよび/または方法が実装され得る例示の環境の図である。
図3図2の1つ以上のデバイスの例示のコンポーネントの図である。
図4】自然言語処理およびレコメンデーション生成のためのマルチモデル手法に関する例示のプロセスのフローチャートである。
【発明を実施するための形態】
【0023】
以下の例示の実装の詳細な説明では、添付の図面を参照する。異なる図面中の同じ参照番号は、同じ構成要素または類似の構成要素を特定し得る。
【0024】
自然言語モデリングにおいて、言語モデルとは、自然言語処理エンティティ(例えばデバイス)が単語のシーケンスの確率を予測することを可能にするデータセットの表現である。様々な自然言語処理エンティティが、様々な例の中でも特に、統計的言語モデル(例えばNグラムベースのモデル、隠れマルコフモデル(HMM:Hidden Markov Model)ベースのモデル、または言語ルールベースのモデル)、またはニューラル言語モデルなどの、様々な言語モデルを使用し得る。例として、従業員志願者を仕事にマッチングすることに関心のあるエンティティ(例えば組織)が、履歴書および求人情報のコーパスに基づき言語モデルを訓練して、従業員志願者を仕事にマッチングすることを目標とした自然言語処理を可能にすることもある。エンティティは、関連する自然言語処理エンティティが動作すべき領域に固有のコーパスに基づき言語モデルを訓練することにより、(例えばランダムまたは疑似ランダムな文書のコーパスに基づき訓練された)汎用の言語モデルを特定の領域に適用して使用するのに比べてより高レベルの精度を達成し得る。
【0025】
しかしながら、文書コーパスはたびたび変化するものであり、入力データを使用した予測の実行を成功させるにあたっては、多様な要因が関与し得る。例として言語モデルは、構造的、統一的、且つ静的なデータに基づくマスタデータセットを使用して生成可能である。しかしながら、マスタデータセットに基づく基礎をなす前提は、言語が変化し、または予測の文脈が変化するのに伴い、不正確になり得る。例として、或る従業員の特定されたスキルセットが特定の仕事の求人情報にマッチングするかどうかを予測する場合、第1の業界における予測は、第2の業界に適用されると正確でないかもしれず、または第1の業界に対して第1の時点で正確であっても後の第2の時点では正確ではないかもしれない。言い換えれば、予測が行われる環境が変化する(例えば求人情報およびそれに関連するスキルに影響を与える技術的進歩がある)のに伴い、静的なコーパスに基づく予測は不正確になるかもしれない。言語モデルは何百万の、または何十億ものデータポイントに基づくため、オペレータが手動で言語モデルの妥当性を維持するのは非実用的である。
【0026】
さらに、言語モデルが予測に適用された場合、言語モデルは、意味論的類似性に関して訓練される。例として言語モデルは、或る人物のプログラミングのスキルがソフトウェア開発に関する求人情報にマッチングするかどうかを予測するように訓練され得る。しかしながら、予測は単なるマッチングよりもはるかに複雑であり、言語モデルは、様々な要因の中でも特に、スキルの強度(例えば或る人物がスキルにおいてどの程度経験を積んでいるか)または熱意の強度(例えば或る人物が特定のスキルをどの程度使用したがっているか、または特定の業界に入りたがっているか)などの他の要因を考慮しない。結果として、予測のために言語モデルを使用しようとする試みは、従業員志願者が実際に関心を持つ求人情報を特定できないなど、低い成果につながってきた。この問題は、言語モデルがより多くのマッチング候補を特定しなければならないこと、およびマッチング候補の多くが不適切なマッチングであるため従業員志願者がより多くのマッチング候補を閲覧しなければならないことから、コンピューティングリソースの過剰な使用につながり得る。同じく、予測のために言語モデルを使用しようとする試みは、従業員が合わない役割に割り当てられることにつながっており、これは、割り当てが頻繁にやり直され、さらにそれに付随して言語モデルが頻繁に繰り返し使用されることにつながり得る。よって、自然言語処理ベースの予測の精度を向上させれば、コンピューティングリソースを使用して実行される予測の精度を向上させることにより当該のコンピューティングリソースの利用を削減することができる。
【0027】
本願明細書に記載されている一部の実装は、マルチモデル自然言語処理を使用した類似性の判断および予測を可能にする。例として言語処理システムは、複数のデータソースを使用して、複数の言語モデルと、各言語モデルについて複数のスキルカタログ候補とを生成してもよい。言語処理システムは、予測ごとに複数のスキルカタログ候補を評価して、言語処理システムが実行すべき特定の予測に最適なスキルカタログを選択してもよい。例として言語処理システムは、第1の業界に関する第1のデータソースおよび複数のタイプの自然言語処理技術を使用して、モデルの第1のセットを生成し、第2の業界に関する第2のデータソースおよび複数のタイプの自然言語処理技術を使用して、モデルの第2のセットを生成してもよい。この事例において言語処理システムは、予測が実行される対象の業界と、例えば予測のタイプとに基づき、(例えば特定のデータソースおよび特定の自然言語処理技術から生成された)特定のモデルを最適なモデルであると評価してもよく、さらにその特定のモデルを予測の実行に使用してもよい。このようにして言語処理システムは、より動的且つ正確な予測を可能にし、これにより、予測が正確であるとみなされる(例えば従業員志願者が求人情報とマッチングされる、または現在の従業員が役割とマッチングされる)可能性を向上させ得る。一部の実装は、従業員および求人情報に関して記載されるが、様々な例の中でも特に、マーケティングのターゲティング、教育的役割の割り当て、意味論的検索、または医療における診断など、マルチモデル予測に関わる他の文脈も予期されている。
【0028】
図1A図1Gは、自然言語処理およびレコメンデーション生成のためのマルチモデル手法に関連する例100の図である。図1A図1Gに示されているように、例100は、様々なデバイスの中でも特に、言語処理システム102を含む。これらのデバイスについては、図2および図3に関連してより詳細に記載される。
【0029】
図1Aに参照番号150により示されているように、言語処理システム102は、データを取得し、言語モデルのセットを生成するとよい。例として言語処理システム102は、言語モデルM~Mを生成するために、データソース104-1~104-Nからデータを取得してもよい。一部の側面において、データソース104は、言語処理システム102がネットワークを介して通信し得る外部デバイス(例えばサーバまたはデータベース)を含んでもよい。さらに、または代わりに、データソース104は、言語処理システム102と共同設置(例えば単一のサーバシステムまたは単一のクラウド展開の中に共同設置)されてもよい。
【0030】
一部の実装において、言語処理システム102は、本願明細書に記載されているように、特定のセットのソースからデータを取得してスキルカタログの生成を可能にしてもよい。例として言語処理システム102は、サーバのセットと通信し、様々な例の中でも特に、ニュースソース、学術出版ソース、ソーシャルメディアフィードソース、企業説明ソース、または参照資料ソースなどの公開されているソースをモニタリングして、そこからデータを取得してもよい。さらに、または代わりに、言語処理システム102は、サーバのセットと通信し、様々な例の中でも特に、求人情報のセット、求人応募のセット、従業員の仕事上の役割に関する説明のセット、採用通知書のセット、または社内連絡のセットなどの非公開のソースをモニタリングして、そこからデータを取得してもよい。このようにして言語処理システム102は、本願明細書に記載されているように、言語モデルM~Mを生成するもととなるデータセットL~L(図示せず)を取得する。
【0031】
一部の実装において言語処理システム102は、1つ以上のデータ処理技術を使用して言語モデルのセットを生成してもよい。例として言語処理システム102は、様々な例の中でも特に、Word2vec、fastText、GloVe、ベクトル空間モデリング、正規化圧縮距離判定、または特徴表現学習などの人工知能自然言語処理技術を適用して、データセットLから言語モデルMを生成してもよい。このようにして言語処理システム102は、多様なコーパス(データセットL)から多様な言語モデルを構築し、それによって言語処理システム102が、本願明細書に記載されているように、処理される特定のターゲット文書に最適なモデルを選択することが可能になる。言い換えれば、第1のデータセットに基づき意味論的解釈のために訓練されている第1の言語モデルは、ターゲット文書と異なる意味論的意味を持つ第2のデータセットに基づき意味論的解釈のために訓練されている第2の言語モデルに比べて、第1のデータセット内のデータと類似した意味論的意味を持つターゲット文書を構文解析するのに、より適しているかもしれない。このように、複数の言語モデルを生成することにより、言語処理システム102は、他の技術で使用されている単一の静的な言語モデルを使用するのに比べて、少なくとも1つの言語モデルの意味論的解釈がターゲット文書にマッチングする可能性を向上させる。
【0032】
一部の実装において言語処理システム102は、言語モデルのセットを生成するとき、構成要素の重み付けを、それぞれの言語モデルで異なるように行ってもよい。例として、上述のように、第1の言語モデルを生成するとき、言語処理システム102は、或る構成要素に第1の重みを割り当ててもよいが、第2の言語モデルにおいては、その構成要素に別の第2の重みを割り当ててもよい。この事例において、「Java」などの単語は、コンピュータサイエンスに関わる文書のコーパスから生成された言語モデルでは、高い重みを割り当てられて重要であることが示され、旅行代理店の訓練資料のコーパスから生成された言語モデルでは、低い重みを割り当てられて重要でないことが示されてもよい。言い換えれば、「Java」という言語でのプログラミングは、コンピュータプログラマに有用なスキルとして分類されてもよいが、「Java(ジャワ)」島への旅行は、コンピュータプログラマに有用なスキルとして分類されてはならない。対照的に、「Java」という言語でのプログラミングは、旅行案内業者に有用なスキルとして分類されてはならないが、「Java(ジャワ)」島への旅行は、旅行案内業者に有用な経験として分類されてもよい。このように、複数の言語モデルを生成し、本願明細書に記載されているように、文書の構文解析に使用される言語モデルおよび関連するカタログを関連性の判断に基づき選択することで、単一の静的な言語モデルおよびカタログ(例えばすべての文脈において「Java」などの構成要素に等しい待機を適用し得る)を使用するのに比べて、予測の精度が向上する。
【0033】
一部の側面において、構成要素の相対的な重みがそれぞれの言語モデルにおいて異なることがあるが、そうなるのは、それぞれの言語モデルが、異なる自然言語処理技術に関連する場合(例えば様々な技術が同じ単語の重要性を異なるように評価し得る)、異なるカタログに関連する場合(例えばそれぞれの言語モデルから様々なタイプのスキル抽出が行われたそれぞれのカタログは、同じ単語の重要性を異なるように評価し得る)、またはその組み合わせの場合である。この事例において、構成要素は、様々な例の中でも特に、単語、フレーズ、文、文書セグメント、または段落を含んでもよい。
【0034】
図1Bに参照番号152により示されているように、言語処理システム102は、「キーワードグループ」とも称されてもよいキーワードセットを、言語モデルのセットに基づき分析してもよい。例として言語処理システム102は、各モデルMについて複数のキーワードセットKを特定してもよい(例えば各モデルMは、複数のキーワードを各キーワードグループが有するキーワードグループのセットに関連してもよい)。この事例において、言語処理システム102は、第1のモデルMに適用される第1の自然言語処理技術を使用して第1のキーワードセット{K1,1,1,…}を特定し、第1のモデルM1,…,に適用される第xの自然言語処理技術を使用して第xのキーワードセット{K1,X,1,…}を特定し、第nのモデルMに適用される第xの自然言語処理技術を使用して第xのキーワードセット{KN,X,1,…}を特定してもよい。例として言語処理システム102は、第1の言語モデルを分析して、スキルカタログを生成するためのキーワードを決定してもよい。この事例において言語処理システム102は、コンピュータプログラミングの職務内容説明に関するデータセットLに関連する言語モデルMについて、例えば「プログラミング」、「Java」、「AI」などのキーワードKを特定してもよい。同じく言語処理システム102は、金融サービス機関の従業員のデータセットLに関連する言語モデルMについて、例えば「銀行業」、「為替取引」、「外為」などのキーワードKを特定してもよい。
【0035】
図1Cに参照番号154により示されているように、言語処理システム102は、キーワードセットに基づきスキルカタログを生成してもよい。例として言語処理システム102は、各キーワードセットKおよびモデルMから複数のスキルカタログCを生成してもよい。言い換えれば、各モデルMには関連するスキルカタログCが複数あってもよい。この事例において言語処理システム102は、第1のキーワードセット{K1,1,1,…}を使用して第1のスキルカタログセット{C1,1,1,…}を生成し、第1のキーワードセット{K1,X,1,…}を使用して第xのスキルカタログ{C1,X,1,…}を生成し、…、第xのキーワードセット{KN,X,1,…}を使用して第xのスキルカタログ{CN,X,1,…}を生成してもよい。本願明細書で使用されるとき、「X」および「第x」という用語は、任意の数を指すことができ、したがって、例として第xのキーワードセットは、第xのスキルカタログと同じまたは異なる「数詞」のキーワードセットとされ得る。カタログは、キーエンティティの閾値近接性の範囲内から抽出されたエンティティのデータセットであってもよい。言い換えれば、スキルカタログは、キーワードの言語的な近傍からモデルを使用して抽出された単語のセットを含み、(例えば従業員志願者を仕事に、または現在の従業員を役割にマッチングするのに使用される)スキルを特定するカタログであってもよい。例として言語処理システム102は、キーワードKの言語的な近傍にある単語を言語モデルMを使用して抽出し、抽出された単語をカタログC:={Ci,j,1,Ci,j,2,…,Ci,j,X}と表してもよい。一部の実装において、言語処理システム102は多数のスキルカタログを生成してもよい。例として言語処理システム102は、言語モデルおよびキーワードセットの様々な組み合わせを様々な処理技術を使用して分析することに基づき、何十万の、または何百万ものスキルカタログを生成してもよい。言語処理システム102は、スキルカタログを定期的に更新してもよい。例として言語処理システム102は、言語モデルMおよび/またはキーワードKが決定されるもとであるデータソースに対する変更をモニタリングしてもよく、さらに、データソースの変更(例えば追加の情報が追加され、または既存の情報が削除される)に伴いスキルカタログを更新してもよい。
【0036】
一部の実装において言語処理システム102は、スキルカタログ中のスキルのクラスタリングを実行してもよい。例として言語処理システム102は、スキルカタログに関連する基礎をなす言語モデルにおける意味論的相関関係に基づき、スキルカタログ内の第1のスキルと第2のスキルとの間の相関関係を判断してもよい。この事例において、相関関係が基礎をなす言語モデルに依存していることに基づき、或るスキルのペアが、異なる文脈では異なる相関関係を有してもよい。一例として、「プログラミング」および「Python」という2つのスキルは、コンピュータサイエンス関係のデータセットおよび言語モデル(例えばソフトウェア会社の専門事典の記載)を使用して構築された第1のスキルカタログでは密接に相関するかもしれないが、動物学関係のデータセットおよび言語モデル(例えば爬虫類の研究論文の学術データベース)を使用して構築された第2のスキルカタログでは相関が弱いかもしれない。このように、スキルのクラスタリングは、本願明細書に記載されているように言語処理システム102が文書の分析に最適なスキルカタログを選択するときに、言語処理システム102がそれぞれの文脈で意味論的類似性を区別することを保証するように構成される。言い換えれば、言語処理システム102が第1のスキルカタログを選択する場合、言語処理システム102は、2つのスキルを交換可能に近く、ほぼ等しく重み付けされると分析してもよい。対照的に、言語処理システム102が第2のスキルカタログを選択する場合、言語処理システム102は2つのスキルを違うように分析して、大きく異なる重みを用いてもよい。一部の実装において言語処理システム102は、様々なスキルカタログ内のスキルの稀少性を判断してもよい。例として言語処理システム102は、求人情報または履歴書の中で稀少な、外れ値のスキルを特定してもよく、さらに、スキルの稀少性に基づく重みを適用してもよい(例えば、稀少なスキルはより低い重みを与えられて、履歴書を多数排除しすぎて就職機会にマッチングするものがまったく特定されないことが回避されてもよい)。一部の事例において、言語処理システム102は、本願明細書に記載されているように、マッチングの結果に基づき重みを調整して、少なくとも1つのマッチングが特定されるか、または少なくとも閾値数のマッチングが特定されることを保証してもよい(マッチングが閾値類似性スコアを示す場合)。
【0037】
図1Dに参照番号156により示されているように、言語処理システム102は文書からキーフレーズセットを抽出してもよい。例として言語処理システム102は、文書TからキーフレーズセットP(P~P)を抽出してもよい。この事例において言語処理システム102は、(多数のスキルカタログCのうち)最適なスキルカタログを判断するために、ソース文書(例えば求職者のマッチングを行うべき採用募集、または採用募集へのマッチングを行うべき履歴書)を選択し、自然言語処理を使用してソース文書からキーフレーズを抽出してもよい。
【0038】
一部の実装において言語処理システム102は、ソース文書を生成してもよい。例として言語処理システム102は、ユーザの勤務歴情報を保存する1つ以上のデータサーバと通信してもよく、さらに、様々な例の中でも特に、職歴情報または職務内容説明情報を含む履歴書を自動的に生成してもよい。この事例において言語処理システム102は、ユーザが自分自身の宣伝のための情報(例えば、様々な例の中でも特に、職歴の各項目の相対的な重要性または強度を示す情報、キャリア面での目標を示す情報、または履歴書で特定されているスキルもしくはスキルに対する熱意の相対的な強度を示す情報)などの追加情報を提供できるユーザインターフェースを提供してもよい。
【0039】
図1Eに参照番号158により示されているように、言語処理システム102はスキルカタログとキーフレーズセットとの言語的類似性距離を判断してもよい。例として言語処理システム102は、スキルカタログCおよびキーフレーズセットPに基づき、言語的類似性Dを判断してもよい。言い換えれば、言語処理システム102は、キーフレーズセットの各キーフレーズと、スキルカタログの各構成要素(例えば、様々な例の中でも特に、スキル、単語、フレーズ、文、文書セグメント、または段落)との間の類似性距離を判断してもよく、さらに、類似性距離を集約して、本願明細書に記載されているように、ソース文書に対するスキルカタログの適合度を表す総類似性距離(または「関連性の値」)を判断してもよい。各スキルカタログの関連性の値に基づき、言語処理システム102は、ソース文書を(例えば1つ以上のターゲット文書との関連で)分析するときに使用する特定のスキルカタログおよび特定の言語モデルを選択してもよい。本願明細書では、一部の側面が文書の分析に関して記載されているが、言語処理システム102または類似のシステムは、オーディオコンテンツ、ビデオコンテンツ、および/または同様のものなど、他のタイプのソースコンテンツおよびターゲットコンテンツを処理してもよい。
【0040】
言語処理システム102は、第1のスキルカタログ{C1,1,1,…}と第1のキーフレーズセットPとの第1の言語的類似性距離D1,1、第1のスキルカタログ{C1,X,1,…}と第xのキーフレーズセットPとの第xの類似性距離D1,T、第xのスキルカタログ{CN,1,1,…}と第1のキーフレーズセットPとの第xの類似性距離DN,Tなどを判断してもよい。例として言語処理システム102は、各スキルカタログ候補と、キーフレーズセットPの中の各キーフレーズ候補Pとについて、言語的類似性距離D:={D1,1…}を判断してもよい。この事例において言語処理システム102は、各スキルカタログ候補について言語的類似性距離Dの平均f(D)を判断してもよく、さらに、本願明細書に記載されているように、言語的類似性距離の平均(または別の統計的メトリック)を比較してスキルカタログおよび関連する言語モデルを選択してもよい。
【0041】
図1Fに参照番号160により示されているように、言語処理システム102は、言語的類似性距離に基づきスキルカタログを選択してもよい。例として言語処理システム102は、言語的類似性距離Dに基づきスキルカタログCを選択してもよい。この事例において言語処理システム102は、スキルカタログC∈Cを選択してもよく、max(f(D))はCである。言い換えれば、言語処理システム102は、スキルカタログ内の単語とソース文書内のキーフレーズとの間の類似性距離が最良である(例えば類似性において最も近い)スキルカタログを動的に選択してもよく、これをソース文書の「動的スキルカタログ」と呼ぶことができる。この事例において言語処理システム102は、スキルカタログC、関連する言語モデルM、およびターゲット文書Wの間の関係をスコアリングしてもよい。別の例において言語処理システム102は、ソース文書Tに基づきスキルカタログを選択してもよい。一部の実装において言語処理システム102は、ソース文書Tとターゲット文書Wとの組み合わせに基づきスキルカタログを選択してもよい。
【0042】
例として言語処理システム102は、ターゲット文書Wに対する類似性について3つの言語モデルおよび3つのスキルカタログを分析してもよく、さらに、組み合わさるとターゲット文書Wに対する適合度が最高になるスキルカタログCおよびモデルMを特定してもよい。この事例において言語処理システム102は、ソース文書Tを基準としてターゲット文書Wを分析するためのスキルカタログCおよびモデルMを選択してもよい。このようにして、言語処理システム102は、ターゲット文書Wとソース文書Tとの間の類似性を分析するためのスキルカタログおよび言語モデルを動的に選択し、それによって、単一のスキルカタログまたは言語モデルを使用するのに比べてマッチングを改善する。
【0043】
図1Fに参照番号162によりさらに示されているように、言語処理システム102は、ターゲット文書のキーフレーズセットを判断してもよい。例として言語処理システム102は、ターゲット文書WのキーフレーズセットQ:={Q…Q}を判断してもよい。図1Fに参照番号164によりさらに示されているように、言語処理システム102は、言語的類似性距離セットを判断してもよい。例として言語処理システム102は、スキルカタログCおよび選択されたスキルカタログCに関連する言語モデルMを使用して、個々のカタログ構成要素C:={C…}とQ:={Q…}との言語的類似性距離セットE:={E1,1…E1,W}を判断してもよい。
【0044】
一部の実装において言語処理システム102は、ソース文書およびターゲット文書を分析するとき、スキルカタログのフィルタリングを実行してもよい。例として言語処理システム102は、ソース文書またはターゲット文書に関連性のあるスキルをスキルカタログから抽出してもよい。この事例において言語処理システム102は、ソース文書またはターゲット文書のどちらにも関連性がない(例えば含まれていない)スキルを破棄し、それによって、スキルカタログからのすべてのスキルを使用して比較を判断するのに比べて処理量を削減してもよい。
【0045】
一部の実装において言語処理システム102は、言語モデルを使用してスコアリングを実行してもよい。例として言語処理システム102は、スキルカタログから抽出されたスキルを使用して、ターゲット文書およびソース文書の意味論的類似性、重要性、および/または重みを、抽出されたスキルに照らし、言語モデルを使用して判断してもよい。言い換えれば、ソース文書が「データ分析」スキルを含む場合、言語処理システム102は、言語モデルを使用して、「データ分析」スキルとターゲット文書内の「MySQL」スキルとの間の意味論的類似性を判断してもよい。
【0046】
この事例において言語処理システム102は、言語的類似性距離セットに基づく平均類似性距離avg(E)=f(E)を判断してもよく、さらに、スキルカタログCおよびモデルMを基準とするソース文書Tとターゲット文書Wとの間の言語的類似性を表す類似性スコアYを生成してもよい。ソース文書Tが仕事Tの採用情報を表し、ターゲット文書WがユーザWの履歴書を表す文脈において、言語処理システム102は、仕事Tに対するユーザWの適格性の表現として類似性スコアを判断してもよい。この事例において言語処理システム102は、何千または何百万という候補のターゲット文書W(それぞれ個々のキーフレーズセットQを備える)を分析して、ユーザと採用情報との間の最良のマッチングを示す最高の類似性スコアを判断してもよい。
【0047】
一部の実装において言語処理システム102は、ソース文書Tおよびターゲット文書Wの意味論的解釈に基づき類似性スコアに重み付けしてもよい。例として言語処理システム102は、スキルカタログ内の特定のキーフレーズ(例えば特定のスキルを表す)が、特定のフレーズの相対的な重要性を示す意味論的文脈に関連すると判断してもよい(
【0048】
【数1】
【0049】
は特定のスキルの高い重要性を示す)。この事例において言語処理システム102は、合計の類似性スコアを、特定のスキルに関する類似性距離Eの方により大きく(且つ他のスキルに関する類似性距離Eの方により小さく)重み付けしてもよい。このようにして言語処理システム102は、重み付けなしの静的なスキルマッピングを使用して実行されるのに比べてより高レベルな従業員と仕事とのマッピングを実行する。より高レベルなマッピングを実行することにより、言語処理システム102は、マッチングの精度を向上させ、それによって、マッチングが正確である可能性を高め、正確なマッチングを少なくとも1つは保証するために提供される必要のある結果の量を削減し、さらに、不正確なマッチングに基づく不正確なレコメンデーションに関連するコンピューティングリソースの浪費を削減する。
【0050】
図1Gに参照番号166により示されているように、言語処理システム102は、1つ以上のレコメンデーションを提供および/または実装してもよい。例として言語処理システム102は、クライアントデバイス106と通信して、言語的類似性距離セットを判断した結果に関連する情報を提供してもよい。この事例において言語処理システム102は、本願明細書に記載されている様々な例の中でも特に、求人にマッチングする履歴書を持つ従業員志願者に内定通知書を自動的に送信する、従業員志願者の履歴書を改善するための訓練プログラムを自動的にスケジューリングする、従業員志願者の面談のために採用責任者のカレンダーにカレンダーエントリを自動的に生成する、リストから求人を自動的に削除する、または新しい仕事にマッチングした従業員志願者が退いた役割を埋めるために新しい求人を自動的に生成するなどにより、レコメンデーションを自動的に実装してもよい。
【0051】
一部の実装において言語処理システム102は、採用のレコメンデーションを提供および/または実装してもよい。例として言語処理システム102は、金融サービス会社でのITエンジニアの職務内容説明(例えば、この事例におけるスキルとしては、IT:{“Java”,“Python”,“C#”,“R”}の第1のクラスタおよび金融サービス:{“ローン処理”,“外為取引”}の第2のクラスタが考えられるであろう)を、履歴書(例えば特定されるスキルとしては、ITスキルの1つ以上に意味論的に相関する可能性がある「MySQL」および金融サービススキルの1つ以上に意味論的に相関する可能性がある「定量分析」が考えられるであろう)にマッチングしてもよい。この事例において言語処理システム102は、各マッチングの相対的な重要性および近接性に重み付けし、履歴書が閾値類似性スコアに達すると、履歴書に関連する従業員志願者の採用のレコメンデーションを提供してもよい。
【0052】
一部の実装において言語処理システム102は、類似性スコアの出力を提供してもよい。例として、(例えば、様々な例の中でも特に、スキル、用語、フレーズ、または文の言語分析に基づき)ソース文書とターゲット文書との類似性スコアを判断するのに基づいて、言語処理システム102は、例としてクライアントデバイス106などのダッシュボードまたはユーザインターフェースを介して、類似性スコアを出力として提供してもよい。この事例において、ダッシュボードは、合計の類似性スコア、スキルクラスタに固有の類似性スコアを含んでもよい(例えば上記の例では、ITスキルクラスタについて第1の類似性スコアが生成されてもよく、さらに金融サービススキルクラスタについて第2の類似性スコアが生成されてもよく、そこから合計の類似性スコアが生成されてもよい)。例として言語処理システム102は、スキルクラスタの類似性スコアによる候補者のフィルタリングを可能にして、合計の類似性スコアが閾値を満たさなくても、特定のスキルクラスタ(例えばIT)において閾値類似性スコアにマッチングする履歴書が特定されることを可能にしてもよい(例えばそれによって、特定の就職機会に対し重要性がより高いITスキルなどのスキルを備えた候補者を特定し、それらの候補者が金融サービスのスキルなど、より重要性の低いスキルを習得するための訓練を行うことができるようにする)。この事例において言語処理システム102は、類似性スコアが閾値を満たしていないスキルクラスタのスキルを向上させる訓練を自動的にレコメンドしてもよい。
【0053】
一部の実装において言語処理システム102は、ソース文書またはターゲット文書の分析に基づく出力を提供してもよい。例として言語処理システム102は、就職機会に関する文書の非構造化データを分析して、スキルの意味論的文脈(例えば特定されたスキルが必須であるか任意であるか)を抽出してもよい。同じく言語処理システム102は、履歴書の文書の非構造化データを分析して、スキルの意味論的文脈(例えば、様々な例の中でも特に、スキルのリストおよびそのスキルの使用年数、または雇用された業界のリストおよびその雇用された業界にいた年数)を抽出してもよい。このようにして言語処理システム102は、様々な例の中でも特に、従業員志願者が仕事にマッチングされた理由、従業員志願者が将来仕事にマッチングされるために習得すべきスキル、従業員志願者に対して行うべき訓練、または従業員のスキルの市場価値の特定などの、定性評価を可能にする。
【0054】
構造化データの決定に基づき、言語処理システム102は、訓練済みのレコメンデーションモデル(例えば、文書を分析し、履歴書の就職機会に対するマッチングを試行した結果からレコメンデーションを特定するよう、教師あり機械学習を使用して訓練されたものであってもよい)を使用してレコメンデーションを自動的に提供してもよい。例として、言語処理システム102が履歴書と就職機会との類似性が低いと特定した場合、言語処理システム102は、(例えば人工知能を使用して、例としてスキルおよびスキルの保有年数などに対する変更をシミュレーションすることにより)履歴書および就職機会の変更されたバージョンの分析結果をシミュレーションしてもよい。この事例において、言語処理システム102が変更されたバージョンの履歴書と就職機会とのより良いマッチングを特定すると、言語処理システム102は、レコメンデーションを特定する出力を提供してもよい。具体的な例として、言語処理システム102は、履歴書に一定の経験年数がある別のコンピュータプログラミング言語を追加することで、履歴書が閾値未満の類似性スコアを有する状態から閾値以上の類似性スコアを有する状態に変化すると判断してもよい。この事例において言語処理システム102は、別のコンピュータプログラミング言語の訓練と、別のコンピュータプログラミング言語を使用する役割への割り当てとをレコメンドする出力を提供してもよい。このようにして言語処理システム102は、キャリアの進展を促進し、将来の雇用の見込みを改善させる役割を自動的に特定する。
【0055】
上記で指摘されたように、図1A図1Gは例として示されている。他の例は、図1A図1Gに関して記載されているものと異なり得る。
【0056】
図2は、本願明細書に記載されるシステムおよび/または方法が実装され得る例示の環境200の図である。図2に示されているように、環境200は、言語処理システム201を含んでもよく、言語処理システム201は、クラウドコンピューティングシステム202の1つ以上の構成要素を含んでもよく、且つ/またはクラウドコンピューティングシステム202の中で実行されてもよい。クラウドコンピューティングシステム202は、より詳細に後述されているように、1つ以上の構成要素203~213を含んでもよい。図2にさらに示されているように、環境200は、ネットワーク220、データソース230、および/またはクライアントデバイス240を含んでもよい。環境200のデバイスおよび/または構成要素は、有線接続および/または無線接続を介して相互接続してもよい。
【0057】
クラウドコンピューティングシステム202は、コンピューティングハードウェア203、リソース管理コンポーネント204、ホストオペレーティングシステム(OS:operating system)205、および/または1つ以上の仮想コンピューティングシステム206を含む。クラウドコンピューティングシステム202は、例として、Amazon Web Servicesプラットフォーム、Microsoft Azureプラットフォーム、またはSnowflakeプラットフォーム上で実行されてもよい。リソース管理コンポーネント204は、コンピューティングハードウェア203の仮想化(例えば抽象化)を実行して、1つ以上の仮想コンピューティングシステム206を作り出してもよい。リソース管理コンポーネント204は、仮想化を使用して、単一のコンピューティングデバイスのコンピューティングハードウェア203から分離された複数の仮想コンピューティングシステム206を作り出すことなどにより、単一のコンピューティングデバイス(例えばコンピュータまたはサーバ)が複数のコンピューティングデバイスのように動作することを可能にする。こうすることで、コンピューティングハードウェア203は、別々のコンピューティングデバイスを使用するのに比べてより高い効率性、より少ない消費電力、より高い信頼性、より高い可用性、より高い稼働率、より高い柔軟性、およびより低いコストで動作することができる。
【0058】
コンピューティングハードウェア203は、1つ以上のコンピューティングデバイスのハードウェアおよび対応するリソースを含む。例としてコンピューティングハードウェア203は、単一のコンピューティングデバイス(例えば単一のサーバ)の、または1つ以上のデータセンタにある複数のコンピューティングデバイスなど複数のコンピューティングデバイス(例えば複数のサーバ)の、ハードウェアを含んでもよい。図のように、コンピューティングハードウェア203は、1つ以上のプロセッサ207、1つ以上のメモリ208、1つ以上のストレージコンポーネント209、および/または1つ以上のネットワーキングコンポーネント210を含んでもよい。プロセッサ、メモリ、ストレージコンポーネント、およびネットワーキングコンポーネント(例えば通信コンポーネント)の例は、本願明細書の他の箇所に記載される。
【0059】
リソース管理コンポーネント204は、1つ以上の仮想コンピューティングシステム206を開始、停止、および/または管理するために、コンピューティングハードウェア203を仮想化できる仮想化アプリケーション(例えばコンピューティングハードウェア203などのハードウェア上で実行される)を含む。例としてリソース管理コンポーネント204は、仮想コンピューティングシステム206が仮想マシン211である場合などに、ハイパーバイザ(例えばベアメタル型もしくはタイプ1ハイパーバイザ、ホスト型もしくはタイプ2ハイパーバイザ、または別のタイプのハイパーバイザ)または仮想マシンモニタを含んでもよい。さらに、または代わりに、リソース管理コンポーネント204は、仮想コンピューティングシステム206がコンテナ212である場合などに、コンテナマネージャを含んでもよい。一部の実装において、リソース管理コンポーネント204は、ホストオペレーティングシステム205の中で、且つ/またはホストオペレーティングシステム205と連携して実行される。
【0060】
仮想コンピューティングシステム206は、コンピューティングハードウェア203を使用して、本願明細書に記載される動作および/またはプロセスをクラウドベースで実行することを可能にする仮想環境を含む。図のように、仮想コンピューティングシステム206は、様々な例の中でも特に、仮想マシン211、コンテナ212、または仮想マシンおよびコンテナを含むハイブリッド環境213を含んでもよい。仮想コンピューティングシステム206は、(例えば仮想コンピューティングシステム206の中の)ゲストオペレーティングシステムまたはホストオペレーティングシステム205上でアプリケーションを実行するために必要なバイナリファイル、ソフトウェアライブラリ、および/またはその他リソースを含むファイルシステムを使用して、1つ以上のアプリケーションを実行してもよい。
【0061】
言語処理システム201は、クラウドコンピューティングシステム202の1つ以上の構成要素203~213を含んでもよく、クラウドコンピューティングシステム202の中で実行してもよく、且つ/またはクラウドコンピューティングシステム202の中でホストされてもよいが、一部の実装において言語処理システム201は、クラウドベースでなくてもよく(例えばクラウドコンピューティングシステムの外部で実装されてもよい)、または部分的にクラウドベースであってもよい。例として言語処理システム201は、図3のデバイス300など、クラウドコンピューティングシステム202の一部ではない1つ以上のデバイスを含んでもよく、これには、スタンドアロンサーバまたは別のタイプのコンピューティングデバイスが含まれてもよい。言語処理システム201は、本願明細書の他の箇所にさらに詳細に記載されている1つ以上の動作および/またはプロセスを実行してもよい。
【0062】
ネットワーク220は、1つ以上の有線ネットワークおよび/または無線ネットワークを含む。例としてネットワーク220は、セルラネットワーク、公衆陸上モバイルネットワーク(PLMN:public land mobile network)、ローカルエリアネットワーク(LAN:local area network)、ワイドエリアネットワーク(WAN:wide area network)、プライベートネットワーク、インターネット、および/またはこれらもしくは他のタイプのネットワークの組み合わせを含んでもよい。ネットワーク220は、環境200のデバイス間での通信を可能にする。
【0063】
データソース230は、本願明細書の他の箇所に記載されているように、1つ以上の言語モデルの生成、1つ以上のキーワードもしくはキーフレーズの特定、および/または意味論的類似性を判断するための文書の比較に関連する情報を受信、生成、保存、処理、および/または提供できる1つ以上のデバイスを含む。データソース230は、通信デバイスおよび/またはコンピューティングデバイスを含んでもよい。例としてデータソース230は、データベース、サーバ、データベースサーバ、アプリケーションサーバ、クライアントサーバ、ウェブサーバ、ホストサーバ、プロキシサーバ、(例えばコンピューティングハードウェア上で実行される)仮想サーバ、クラウドコンピューティングシステム内のサーバ、クラウドコンピューティング環境で使用されるコンピューティングハードウェアを含むデバイス、または同様のタイプのデバイスを含んでもよい。データソース230は、本願明細書の他の箇所に記載されているように、環境200の他のデバイス1つ以上と通信してもよい。
【0064】
クライアントデバイス240は、本願明細書の他の箇所に記載されているように、自然言語処理技術、複数の言語モデル、および/または複数のカタログを使用して文書を比較することに関連する情報を受信、生成、保存、処理、および/または提供できる1つ以上のデバイスを含む。クライアントデバイス240は、通信デバイスおよび/またはコンピューティングデバイスを含んでもよい。例としてクライアントデバイス240は、無線通信デバイス、携帯電話、ユーザ機器、ラップトップコンピュータ、タブレットコンピュータ、デスクトップコンピュータ、ウェアラブル通信デバイス(例えばスマート腕時計、スマート眼鏡、ヘッドマウントディスプレイ、または仮想現実ヘッドセット)、または類似のタイプのデバイスを含んでもよい。
【0065】
図2に示されたデバイスおよびネットワークの数および配置は、例として示されている。実際には、図2に示されたものと比べて、追加のデバイスおよび/もしくはネットワーク、より少数のデバイスおよび/もしくはネットワーク、異なるデバイスおよび/もしくはネットワーク、または別様に配置されたデバイスおよび/もしくはネットワークがあってもよい。さらに、図2に示されている2つ以上のデバイスが単一のデバイスの中に実装されてもよく、または図2に示されている単一のデバイスが複数の分散型デバイスとして実装されてもよい。さらに、または代わりに、環境200のデバイスのセット(例えば1つ以上のデバイス)が、環境200のデバイスの別のセットにより実行されるものとして記載されている1つ以上の機能を実行してもよい。
【0066】
図3は、言語処理システム201、データソース230、および/またはクライアントデバイス240に対応してもよいデバイス300の例示のコンポーネントの図である。一部の実装において、言語処理システム201、データソース230、および/またはクライアントデバイス240は、1つ以上のデバイス300および/またはデバイス300の1つ以上のコンポーネントを含んでもよい。図3に示されているように、デバイス300は、バス310、プロセッサ320、メモリ330、入力コンポーネント340、出力コンポーネント350、および通信コンポーネント360を含んでもよい。
【0067】
バス310は、デバイス300のコンポーネント間の有線通信および/または無線通信を可能にする1つ以上のコンポーネントを含む。バス310は、動作的結合、通信的結合、電子的結合、および/または電気的結合などを介して、図3の2つ以上のコンポーネントを結合してもよい。プロセッサ320は、中央処理ユニット、グラフィックス処理ユニット、マイクロプロセッサ、コントローラ、マイクロコントローラ、デジタル信号プロセッサ、フィールドプログラマブルゲートアレイ、特定用途向け集積回路、および/または別のタイプの処理コンポーネントを含む。プロセッサ320は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアとの組み合わせにおいて実装される。一部の実装においてプロセッサ320は、本願明細書の他の箇所に記載される1つ以上の動作または処理を実行するようにプログラムできる1つ以上のプロセッサを含む。
【0068】
メモリ330は、揮発性および/または不揮発性のメモリを含む。例としてメモリ330は、ランダムアクセスメモリ(RAM:random access memory)、読み取り専用メモリ(ROM:read only memory)、ハードディスクドライブ、および/または別のタイプのメモリ(例えばフラッシュメモリ、磁気メモリ、および/または光学メモリ)を含んでもよい。メモリ330は、内部メモリ(例えばRAM、ROM、またはハードディスクドライブ)および/または着脱式メモリ(例えばユニバーサルシリアルバス接続による着脱式)を含んでもよい。メモリ330は、非一時的コンピュータ可読媒体であってもよい。メモリ330は、デバイス300の動作に関係する情報、命令、および/またはソフトウェア(例えば1つ以上のソフトウェアアプリケーション)を保存する。一部の実装においてメモリ330は、バス310などを介して1つ以上のプロセッサ(例えばプロセッサ320)に結合された1つ以上のメモリを含む。
【0069】
入力コンポーネント340は、デバイス300がユーザ入力および/または感知された入力などの入力を受信することを可能にする。例として入力コンポーネント340は、タッチスクリーン、キーボード、キーパッド、マウス、ボタン、マイクロフォン、スイッチ、センサ、グローバルポジショニングシステムセンサ、加速度計、ジャイロスコープ、および/またはアクチュエータを含んでもよい。出力コンポーネント350は、デバイス300がディスプレイ、スピーカ、および/または発光ダイオードなどを介して出力を提供することを可能にする。通信コンポーネント360は、デバイス300が有線接続および/または無線接続を介して他のデバイスと通信することを可能にする。例として通信コンポーネント360は、受信機、送信機、トランシーバ、モデム、ネットワークインターフェースカード、および/またはアンテナを含んでもよい。
【0070】
デバイス300は、本願明細書に記載された1つ以上の動作またはプロセスを実行してもよい。例として非一時的コンピュータ可読媒体(例えばメモリ330)は、プロセッサ320により実行される命令のセット(例えば1つ以上の命令またはコード)を保存してもよい。プロセッサ320は、命令のセットを実行して、本願明細書に記載された1つ以上の動作またはプロセスを実行してもよい。一部の実装において、1つ以上のプロセッサ320による命令のセットの実行は、1つ以上のプロセッサ320および/またはデバイス300に、本願明細書に記載された1つ以上の動作またはプロセスを実行させる。一部の実装において、本願明細書に記載された1つ以上の動作またはプロセスを実行するために、配線による回路構成が、命令の代わりに、または命令と組み合わせて使用されてもよい。さらに、または代わりに、プロセッサ320は、本願明細書に記載された1つ以上の動作またはプロセスを実行するように構成されてもよい。したがって、本願明細書に記載された実装は、ハードウェア回路構成とソフトウェアとのいかなる特定の組み合わせにも限定されない。
【0071】
図3に示されたコンポーネントの数および配置は、例として示されている。デバイス300は、図3に示されたものと比べて、追加のコンポーネント、より少数のコンポーネント、異なるコンポーネント、または別様に配置されたコンポーネントを含んでもよい。さらに、または代わりに、デバイス300のコンポーネントのセット(例えば1つ以上のコンポーネント)が、デバイス300のコンポーネントの別のセットにより実行されるものとして記載されている1つ以上の機能を実行してもよい。
【0072】
図4は、自然言語処理およびレコメンデーション生成のためのマルチモデル手法に関連する例示のプロセス400のフローチャートである。一部の実装において、図4の1つ以上のプロセスブロックが、言語処理システム(例えば言語処理システム102または言語処理システム201)により実行されてもよい。一部の実装において、図4の1つ以上のプロセスブロックは、データソース(例えばデータソース(単数または複数)104またはデータソース230)および/またはクライアントデバイス(例えばクライアントデバイス(単数または複数)106またはクライアントデバイス240)など、言語処理システムとは独立した、または言語処理システムを含む、別のデバイスまたはデバイスのグループにより実行されてもよい。さらに、または代わりに、図4の1つ以上のプロセスブロックは、プロセッサ320、メモリ330、入力コンポーネント340、出力コンポーネント350、および/または通信コンポーネント360など、デバイス300の1つ以上のコンポーネントによって実行されてもよい。
【0073】
図4に示されているように、プロセス400は、言語モデルのセットを生成するために、データソースのセットをモニタリングすることを含んでもよい(ブロック410)。例としてデバイスは、上述のように、データソースのセットに対応する言語モデルのセットを生成するために、データソースのセットをモニタリングしてもよい。
【0074】
図4にさらに示されているように、プロセス400は、キーワードグループの複数のセットを判断することを含んでもよい(ブロック420)。例としてデバイスは、上述のように、言語モデルのセットの中の各言語モデルがキーワードグループの対応するセットに関連するように、言語モデルのセットについてキーワードグループの複数のセットを判断してもよい。
【0075】
図4にさらに示されているように、プロセス400は、言語モデルのセットと、キーワードグループの複数のセットとに基づき、スキルカタログの複数のセットを生成することを含んでもよい(ブロック430)。例として、上述のように、デバイスは、各キーワードグループがスキルカタログの複数のセットの中のスキルカタログに関連するように、且つ言語モデルのセットの中の各言語モデルがスキルカタログの対応するセットに関連するように、言語モデルのセットと、キーワードグループの複数のセットとに基づき、スキルカタログの複数のセットを生成してもよい。
【0076】
図4にさらに示されているように、プロセス400は、処理すべきソース文書を受信することを含んでもよい(ブロック440)。例としてデバイスは、上述のように、処理すべきソース文書を、各動的カタログのための言語モデルのセットを生成することに基づき、受信してもよい。
【0077】
図4にさらに示されているように、プロセス400は、キーフレーズセットを抽出するため、および第1の類似性距離を判断するために、ソース文書を処理することを含んでもよい(ブロック450)。例としてデバイスは、上述のように、キーフレーズセットを抽出するため、およびキーフレーズセットの中の各キーフレーズについてスキルカタログの複数のセットの中の対応するスキルカタログの中の各スキルに対する第1の類似性距離を判断するために、ソース文書を処理してもよく、対応するスキルカタログについての類似性距離の平均は、ターゲットコンテンツ、対応するスキルカタログ、および関連する言語モデルの間の関連性を表す。
【0078】
図4にさらに示されているように、プロセス400は、対応するスキルカタログおよび関連する言語モデルを、関連性の値に基づき選択することを含んでもよい(ブロック460)。例としてデバイスは、上述のように、対応するスキルカタログおよび関連する言語モデルを、関連性の値に基づき選択してもよい。
【0079】
図4にさらに示されているように、プロセス400は、対応するスキルカタログおよび関連する言語モデルを使用して、ソース文書と1つ以上のターゲット文書との間の第2の類似性距離を判断することを含んでもよい(ブロック470)。例としてデバイスは、上述のように、対応するスキルカタログおよび関連する言語モデルを使用して、ソース文書と1つ以上のターゲット文書との間の第2の類似性距離を判断してもよい。
【0080】
図4にさらに示されているように、プロセス400は、第2の類似性距離に少なくとも部分的に基づき、1つ以上のターゲット文書に関連する情報を出力することを含んでもよい(ブロック480)。例としてデバイスは、上述のように、第2の類似性距離に少なくとも部分的に基づき、1つ以上のターゲット文書に関連する情報を出力してもよい。
【0081】
プロセス400は、後述され、且つ/または本願明細書の他の箇所に記載された他の1つ以上のプロセスに関連して記載される、任意の単一の実装または複数実装の任意の組み合わせなど、追加の実装を含んでもよい。
【0082】
第1の実装において、構成要素は、第1の言語モデルにおいて第1の重みに関連し、第2の言語モデルにおいて第2の重みに関連する。
【0083】
第2の実装単体、または第1の実装と組み合わされた第2の実装において、第1の言語モデルおよび第2の言語モデルは、同じカタログおよび異なる自然言語処理技術、異なるカタログおよび同じ自然言語処理技術、または異なるカタログおよび異なる自然言語処理技術のうちの1つに関連する。
【0084】
第3の実装単体、または第1および第2の実装の1つ以上と組み合わされた第3の実装において、構成要素は、単語、フレーズ、文、または文書セグメントのうちの少なくとも1つである。
【0085】
第4の実装単体、または第1~第3の実装の1つ以上と組み合わされた第4の実装において、第2の類似性距離を判断することは、対応するカタログおよび関連する言語モデル、ならびにターゲットコンテンツに文脈上関係する1つ以上の第2の構成要素に基づき、ソース文書内の第1の構成要素の強度を判断することと、第1の構成要素の強度に基づき類似性スコアを判断することとを含む。
【0086】
第5の実装単体、または第1~第4の実装の1つ以上と組み合わされた第5の実装において、第2の類似性距離を判断することは、1つ以上のターゲット文書の中のターゲット文書から第1の構成要素を抽出することと、関連する言語モデルを使用して、対応するカタログの第2の構成要素と第1の構成要素とを比較することと、第2の構成要素と第1の構成要素との比較に基づき第2の類似性距離を判断することとを含む。
【0087】
第6の実装単体、または第1~第5の実装の1つ以上と組み合わされた第6の実装において、キーフレーズセットを抽出するため、およびキーフレーズセットの中の各キーフレーズについて第1の類似性距離を判断するために、ソース文書を処理することは、対応する言語モデルを使用してソース文書からキーフレーズセットを抽出すること、キーフレーズセットの中のキーフレーズについて、対応するカタログの各構成要素に対するキーフレーズの類似性を表す対応する第1の類似性距離を判断すること、キーフレーズに対する対応するカタログの総類似性を判断するために、キーフレーズセットについての対応する第1の類似性距離を集約することを含み、対応するスキルカタログを選択することは、対応するスキルカタログを総類似性に基づき選択することを含む。
【0088】
第7の実装単体、または第1~第6の実装の1つ以上と組み合わされた第7の実装において、第2の類似性距離を判断することは、フィルタリングされた構成要素のセットを生成するために、ソース文書と、1つ以上のターゲット文書の中のターゲット文書との構成要素を、対応するスキルカタログを使用してフィルタリングすることと、フィルタリングされた構成要素を、関連する言語モデルを使用してスコアリングすることとを含む。
【0089】
第8の実装単体、または第1~第7の実装の1つ以上と組み合わされた第8の実装において、第2の類似性距離を判断することは、平均することを含み、第2の類似性距離は、類似性距離のセットの平均である。
【0090】
第9の実装単体、または第1~第8の実装の1つ以上と組み合わされた第9の実装において、ソース文書は、求人票であり、1つ以上のターゲット文書は、求人票のセットである。
【0091】
第10の実装単体、または第1~第9の実装の1つ以上と組み合わされた第10の実装において、ソース文書は、履歴書であり、1つ以上のターゲット文書は、履歴書のセットである。
【0092】
第11の実装単体、または第1~第10の実装の1つ以上と組み合わされた第11の実装において、プロセス400は、レコメンデーションエンジンを使用して、類似性スコアに基づくレコメンデーションのセットを生成することと、レコメンデーションのセットに関連する情報を出力することとを含む。
【0093】
第12の実装単体、または第1~第11の実装の1つ以上と組み合わされた第12の実装において、プロセス400は、レコメンデーションのセットに関係する自動化された応答アクションのセットを実行することを含む。
【0094】
第13の実装単体、または第1~第12の実装の1つ以上と組み合わされた第13の実装において、自動化された応答アクションのセットは、訓練プログラムへの登録、会議のスケジューリング、タスクの割り当て、コンテンツ検索タスク、ターゲットコンテンツの提出、または求人票への応答のうちの少なくとも1つに関する応答アクションを含む。
【0095】
第14の実装単体、または第1~第13の実装の1つ以上と組み合わされた第14の実装において、プロセス400は、カテゴリのセットに関する閾値のセットが満たされているかどうかを類似性スコアに基づき判断することを含み、カテゴリは、関連する動的カタログの構成要素に対応し、レコメンデーションのセットに関連する情報を出力することは、閾値のセットが満たされていることを示すよう管理システム内の1つ以上のデータエントリを更新することを含む。
【0096】
第15の実装単体、または第1~第14の実装の1つ以上と組み合わされた第15の実装において、プロセス400は、選択された言語モデルを使用してソースコンテンツの非構造化データを構造化コンテンツに変換することを含み、ソースコンテンツを処理することは、構造化コンテンツを処理することを含む。
【0097】
図4はプロセス400の例示のブロックを示すが、一部の実装ではプロセス400は、図4に示されたものと比べて追加のブロック、より少数のブロック、異なるブロック、または別様に配置されたブロックを含んでもよい。さらに、または代わりに、プロセス400のブロックの2つ以上が並列実行されてもよい。
【0098】
前述の開示は、例示および説明を提供するが、網羅的であることも、実装を開示された厳密な形態に限定することも意図していない。上記の開示を考慮して変更が加えられてもよく、または実装の実践から変更が習得される可能性もある。
【0099】
本願明細書で使用されるとき、「コンポーネント」という用語は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアとの組み合わせとして広く解釈されるものとする。当然のことながら、本願明細書に記載されたシステムおよび/もしくは方法は、様々な形態のハードウェア、ファームウェア、ならびに/またはハードウェアとソフトウェアとの組み合わせに実装されてもよい。これらのシステムおよび/または方法を実装するために使用される実際の専用制御ハードウェアまたはソフトウェアコードは、実装を限定するものではない。したがって、システムおよび/または方法の動作および挙動は、特定のソフトウェアコードを参照することなく本願明細書に記載されているが、当然のことながら、本願明細書の記載に基づくシステムおよび/または方法を実装するためにソフトウェアおよびハードウェアを使用できる。
【0100】
本願明細書で使用されるとき、閾値を満たすとは、文脈に応じて、値が閾値より大きいこと、閾値以上であること、閾値未満であること、閾値以下であること、閾値と等しいこと、閾値と等しくないこと、または同様のことを指すことができる。
【0101】
特徴の特定の組み合わせが特許請求の範囲に記載され且つ/または本明細書で開示されるが、これらの組み合わせは様々な実装の開示を限定することを意図したものではない。実際には、これらの特徴の多くが、特許請求の範囲に具体的に記載されなかった、且つ/または本明細書で開示されなかった形で組み合わされてもよい。下記に列挙される各従属クレームは、1つのみのクレームに直接従属するかもしれないが、様々な実装の開示は、クレームセット中の他のすべてのクレームと組み合わされた各従属クレームを含む。本願明細書で使用されるとき、項目のリスト「の少なくとも1つ」に言及するフレーズは、単一の要素を含め、当該の項目の任意の組み合わせを指す。一例として、「a、b、またはcのうちの少なくとも1つ」は、a、b、c、a-b、a-c、b-c、およびa-b-c、ならびに複数の同じ項目のとの任意の組み合わせを対象とするものとする。
【0102】
本願明細書で使用されるいずれの構成要素、動作、または命令も、重要または必須とは、そのように明示的に記載されない限りは解釈されてはならない。さらに、本願明細書で使用されるとき、冠詞「或る(aおよびan)」は、1つ以上の項目を含むものとし、「1つ以上の(one or more)」と交換可能なように使用され得る。さらに、本願明細書において使用されるとき、冠詞「この(the)」は、冠詞「この(the)」に関連して参照される1つ以上の項目を含むものとし、「1つ以上の(the one or more)」と交換可能なように使用され得る。さらに、本願明細書で使用されるとき、「セット(set)」という用語は、1つ以上の項目(例えば関係する項目、無関係の項目、または関係する項目と無関係の項目との組み合わせ)を含むものとし、「1つ以上の(one or more)」と交換可能なように使用され得る。1つのみの項目が意図される場合は、「1つのみ(only one)」というフレーズまたは同様の文言が使用される。さらに、本願明細書で使用されるとき、「有する(has、have、having)」または同様の用語は、非限定的な用語であるものとする。さらに、「基づき(based on)」というフレーズは、別段の記載が明示的になされない限り、「少なくとも部分的に基づき(based,at least in part,on)」を意味するものとする。さらに、本願明細書で使用されるとき、「または(or)」という用語は、別段の記載(例えば、「いずれか(either)」または「のうちの1つのみ(only one of)」と組み合わせて使用される場合)が明示的になされない限り、等位語句の連続の中で使用される場合、非排他的であるものとし、「および/または(and/or)」と交換可能なように使用され得る。
図1A
図1B
図1C
図1D
図1E
図1F
図1G
図2
図3
図4
【外国語明細書】