IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドの特許一覧

特開2022-20543技能用語評定方法および装置、電子機器、コンピュータ読み取り可能な媒体
<>
  • 特開-技能用語評定方法および装置、電子機器、コンピュータ読み取り可能な媒体 図1
  • 特開-技能用語評定方法および装置、電子機器、コンピュータ読み取り可能な媒体 図2
  • 特開-技能用語評定方法および装置、電子機器、コンピュータ読み取り可能な媒体 図3
  • 特開-技能用語評定方法および装置、電子機器、コンピュータ読み取り可能な媒体 図4
  • 特開-技能用語評定方法および装置、電子機器、コンピュータ読み取り可能な媒体 図5
  • 特開-技能用語評定方法および装置、電子機器、コンピュータ読み取り可能な媒体 図6
  • 特開-技能用語評定方法および装置、電子機器、コンピュータ読み取り可能な媒体 図7
  • 特開-技能用語評定方法および装置、電子機器、コンピュータ読み取り可能な媒体 図8
  • 特開-技能用語評定方法および装置、電子機器、コンピュータ読み取り可能な媒体 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022020543
(43)【公開日】2022-02-01
(54)【発明の名称】技能用語評定方法および装置、電子機器、コンピュータ読み取り可能な媒体
(51)【国際特許分類】
   G06Q 10/04 20120101AFI20220125BHJP
   G06Q 10/10 20120101ALI20220125BHJP
   G06F 40/216 20200101ALI20220125BHJP
   G06F 40/279 20200101ALI20220125BHJP
   G16Y 40/20 20200101ALI20220125BHJP
【FI】
G06Q10/04
G06Q10/10 322
G06F40/216
G06F40/279
G16Y40/20
【審査請求】有
【請求項の数】19
【出願形態】OL
(21)【出願番号】P 2021017217
(22)【出願日】2021-02-05
(31)【優先権主張番号】202010598970.1
(32)【優先日】2020-06-28
(33)【優先権主張国・地域又は機関】CN
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.TENSORFLOW
(71)【出願人】
【識別番号】520095692
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】BEIJING BAIDU NETCOM SCIENCE TECHNOLOGY CO., LTD.
【住所又は居所原語表記】2/F Baidu Campus, No. 10, Shangdi 10th Street, Haidian District, Beijing, China
(74)【代理人】
【識別番号】100108855
【弁理士】
【氏名又は名称】蔵田 昌俊
(74)【代理人】
【識別番号】100103034
【弁理士】
【氏名又は名称】野河 信久
(74)【代理人】
【識別番号】100179062
【弁理士】
【氏名又は名称】井上 正
(74)【代理人】
【識別番号】100199565
【弁理士】
【氏名又は名称】飯野 茂
(74)【代理人】
【識別番号】100219542
【弁理士】
【氏名又は名称】大宅 郁治
(74)【代理人】
【識別番号】100153051
【弁理士】
【氏名又は名称】河野 直樹
(74)【代理人】
【識別番号】100162570
【弁理士】
【氏名又は名称】金子 早苗
(72)【発明者】
【氏名】ジンシュアイ・ジャン
(72)【発明者】
【氏名】チャオ・マ
(72)【発明者】
【氏名】ヘンシュ・ジュ
(72)【発明者】
【氏名】カイチュン・ヤオ
【テーマコード(参考)】
5B091
5L049
【Fターム(参考)】
5B091AA15
5B091AB08
5B091CA02
5B091EA01
5L049AA04
5L049AA06
(57)【要約】      (修正有)
【課題】採用担当者を補佐して、プロフィールの選別および対象人材の選別の効率と正確さを向上させる技能用語評定方法および装置、電子機器、コンピュータ読み取り可能な媒体を提供する。
【解決手段】機械学習の技術分野に関するものであり、評定するプロフィール文書から、複数の技能用語を含み、評定する第1の技能用語リストを決定するステップと、第1の技能用語リストにおける各技能用語に対して、あらかじめトレーニングされた技能用語評定モデルと当該技能用語の第1の技能用語リストにおける前後の文の情報とを用いて、当該技能用語の重要度を特徴付けするための、当該技能用語が出現する確率値を予測するステップと、を含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
評定するプロフィール文書から、複数の技能用語を含み、評定する第1の技能用語リストを決定するステップと、
前記第1の技能用語リストにおける各技能用語に対して、あらかじめトレーニングされた技能用語評定モデルと当該技能用語の前記第1の技能用語リストにおける前後の文の情報とを用いて、当該技能用語の重要度を特徴付けするための、当該技能用語が出現する確率値を予測するステップと、を含む
プロフィールの技能用語評定方法。
【請求項2】
評定するプロフィール文書から、評定する第1の技能用語リストを決定する前記ステップは、
前記プロフィール文書から、前記プロフィール文書に出現するすべての技能用語を含む第2の技能用語リストを決定するステップと、
前記第2の技能用語リストにおける各技能用語が属する技術分野を確定するステップと、
前記第2の技能用語リストにおけるすべての技能用語と対応する技術分野とに基づき、前記第1の技能用語リストを生成し、各前記技術分野を前記第1の技能用語リストにおける1つの技能用語とするステップと、を含む
請求項1に記載の技能用語評定方法。
【請求項3】
前記プロフィール文書から第2の技能用語リストを決定する前記ステップは、
前記プロフィール文書からプロフィールテキストデータを取得するステップと、
前記プロフィールテキストデータから、前記プロフィールテキストデータに出現するすべての技能用語を抽出し、前記第2の技能用語リストを生成するステップと、を含む
請求項2に記載の技能用語評定方法。
【請求項4】
前記プロフィールテキストデータから、前記プロフィールテキストデータに出現するすべての技能用語を抽出する前記ステップは、
あらかじめ設定された品詞分解ツールを用いて前記プロフィールテキストデータに品詞分解処理を行うことと、
あらかじめ設定された分野技能用語データベースを用いて、品詞分解処理結果から前記プロフィールテキストデータに出現するすべての技能用語を選別することと、を含む
請求項3に記載の技能用語評定方法。
【請求項5】
前記第2の技能用語リストにおける各技能用語が属する技術分野を確定する前記ステップは、
あらかじめ設定されたナレッジグラフを用いて、前記第2の技能用語リストにおける各技能用語が属する技術分野を確定することを含む
請求項2に記載の技能用語評定方法。
【請求項6】
前記技能用語評定モデルは、
プロフィールサンプルから抽出して得た複数のトレーニング技能用語を含む、トレーニングデータセットを取得し、
各トレーニング技能用語に対応する単語ベクトルを生成し、
各トレーニング技能用語に対して、当該トレーニング技能用語以外の各トレーニング技能用語に対応する単語ベクトルを入力とし、あらかじめ設定された単語埋め込みモデルを用いてモデルトレーニングを行い、前記単語埋め込みモデルの出力を当該トレーニング技能用語が出現する確率値とし、
あらかじめ設定された確率的勾配降下法を用いて前記単語埋め込みモデルのモデルパラメータを繰り返し更新し、前記技能用語評定モデルを得る
というステップによってトレーニングにより得られる
請求項1に記載の技能用語評定方法。
【請求項7】
各トレーニング技能用語に対応する単語ベクトルを生成する前記ステップは、
各トレーニング技能用語にワンホットエンコーディング処理を行い、各トレーニング技能用語に対応する単語ベクトルを得ることを含む
請求項6に記載の技能用語評定方法。
【請求項8】
前記単語埋め込みモデルはContinuous Bag of Wordsニューラルネットワークモデルを含む
請求項6に記載の技能用語評定方法。
【請求項9】
当該技能用語の前記第1の技能用語リストにおける前後の文の情報は前記第1の技能用語リストにおける当該技能用語以外のその他の技能用語を含み、
あらかじめトレーニングされた技能用語評定モデルと当該技能用語の前記第1の技能用語リストにおける前後の文の情報とを用いて、当該技能用語が出現する確率値を予測する前記ステップは、
前記第1の技能用語リストにおける当該技能用語以外の各技能用語に対応する単語ベクトルを生成することと、
当該技能用語以外の各技能用語に対応する単語ベクトルを前記技能用語評定モデルの入力とし、前記技能用語評定モデルを用いて当該技能用語が出現する確率値を予測して得ることと、を含む
請求項1に記載の技能用語評定方法。
【請求項10】
評定するプロフィール文書から、複数の技能用語を含み、評定する第1の技能用語リストを決定するための技能用語取得モジュールと、
前記第1の技能用語リストにおける各技能用語に対して、あらかじめトレーニングされた技能用語評定モデルと当該技能用語の前記第1の技能用語リストにおける前後の文の情報とを用いて、当該技能用語の重要度を特徴付けするための、当該技能用語が出現する確率値を予測するための技能用語評定モジュールと、を含む
技能用語評定装置。
【請求項11】
前記プロフィール文書から、前記プロフィール文書に出現するすべての技能用語を含む第2の技能用語リストを決定するための技能用語抽出サブモジュールと、
前記第2の技能用語リストにおける各技能用語が属する技術分野を確定するための技能分野確定サブモジュールと、
前記第2の技能用語リストにおけるすべての技能用語と対応する技術分野とに基づき、前記第1の技能用語リストを生成し、各前記技術分野を前記第1の技能用語リストにおける1つの技能用語とするための技能用語リスト生成サブモジュールと、を含む
請求項10に記載の技能用語評定装置。
【請求項12】
前記技能用語抽出サブモジュールは具体的に、前記プロフィール文書からプロフィールテキストデータを取得し、前記プロフィールテキストデータから前記プロフィールテキストデータに出現するすべての技能用語を抽出し、前記第2の技能用語リストを生成するためのものである
請求項11に記載の技能用語評定装置。
【請求項13】
前記技能用語抽出サブモジュールは具体的に、あらかじめ設定された品詞分解ツールを用いて前記プロフィールテキストデータに品詞分解処理を行い、あらかじめ設定された分野技能用語データベースを用いて、品詞分解処理結果から前記プロフィールテキストデータに出現するすべての技能用語を選別するためのものである
請求項12に記載の技能用語評定装置。
【請求項14】
前記技能分野確定サブモジュールは具体的に、あらかじめ設定されたナレッジグラフを用いて、前記第2の技能用語リストにおける各技能用語が属する技術分野を確定するためのものである
請求項11に記載の技能用語評定装置。
【請求項15】
モデルトレーニングモジュールをさらに含み、
前記モデルトレーニングモジュールは、プロフィールサンプルから抽出して得た複数のトレーニング技能用語を含む、トレーニングデータセットを取得し、各トレーニング技能用語に対応する単語ベクトルを生成し、各トレーニング技能用語に対して、当該トレーニング技能用語以外の各トレーニング技能用語に対応する単語ベクトルを入力とし、あらかじめ設定された単語埋め込みモデルを用いてモデルトレーニングを行い、前記単語埋め込みモデルの出力を当該トレーニング技能用語が出現する確率値とし、あらかじめ設定された確率的勾配降下法を用いて前記単語埋め込みモデルのモデルパラメータを繰り返し更新し、前記技能用語評定モデルを得るためのものである
請求項10に記載の技能用語評定装置。
【請求項16】
前記単語埋め込みモデルはCBOWニューラルネットワークモデルを含む
請求項15に記載の技能用語評定装置。
【請求項17】
1つ以上のプロセッサと、
1つ以上のプログラムが記憶され、前記1つ以上のプログラムが前記1つ以上のプロセッサにより実行されるときに、前記1つ以上のプロセッサに請求項1から9のいずれか一項に記載の技能用語評定方法を実現させるメモリと、を含む
電子機器。
【請求項18】
コンピュータプログラムが記憶されたコンピュータ読み取り可能な媒体であって、前記コンピュータプログラムが実行されるときに請求項1から9のいずれか一項に記載の技能用語評定方法を実現する
コンピュータ読み取り可能な記憶媒体。
【請求項19】
コンピュータプログラムを含み、前記コンピュータプログラムがプロセッサにより実行されるときに請求項1から9のいずれか一項に記載の技能用語評定方法を実現する
コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本願の実施例は機械学習技術分野に関するものであり、特に、プロフィールの技能用語評定方法および装置、電子機器、コンピュータ読み取り可能な媒体ならびにコンピュータプログラム製品に関するものである。
【背景技術】
【0002】
現在、企業の人材採用過程において、採用担当者が向き合うものは膨大な量の求職者のプロフィールであることが常であり、手作業での識別、判断、選別という方式を用いることが多いことから、企業の要求を満たす人材を膨大な量のプロフィールの中から選別するために、採用担当者は多くの時間を費やしてプロフィールにおける有効な情報を識別しなければならない。また、企業は、特に専門的技能において、異なるポジションに対して異なる専門的要求があるのが常であり、採用担当者の知識に限界があり、プロフィールのすべての専門的技能を効果的に識別できず、優秀なプロフィールを見逃すことになってしまう。
【0003】
よって、如何に採用担当者を補佐して、プロフィールの選別および対象人材の選別の効率と正確さを向上させるかということが目下解決の待たれる技術課題となっている。
【発明の概要】
【0004】
【課題を解決するための手段】
【0005】
本願の実施例はプロフィールの技能用語評定方法および装置、電子機器、コンピュータ読み取り可能な媒体ならびにコンピュータプログラム製品を提供する。
【0006】
第1の態様において、本願の実施例はプロフィールの技能用語評定方法を提供し、当該技能用語評定方法は、
評定するプロフィール文書から、複数の技能用語を含み、評定する第1の技能用語リストを決定するステップと、
前記第1の技能用語リストにおける各技能用語に対して、あらかじめトレーニングされた技能用語評定モデルと当該技能用語の前記第1の技能用語リストにおける前後の文の情報とを用いて、当該技能用語の重要度を特徴付けするための、当該技能用語が出現する確率値を予測するステップと、を含む。
【0007】
第2の態様において、本願の実施例は技能用語評定装置を提供し、当該技能用語評定装置は、
評定するプロフィール文書から、複数の技能用語を含み、評定する第1の技能用語リストを決定するための技能用語取得モジュールと、
前記第1の技能用語リストにおける各技能用語に対して、あらかじめトレーニングされた技能用語評定モデルと当該技能用語の前記第1の技能用語リストにおける前後の文の情報とを用いて、当該技能用語の重要度を特徴付けするための、当該技能用語が出現する確率値を予測するための技能用語評定モジュールと、を含む。
【0008】
第3の態様において、本願の実施例は電子機器を提供し、当該電子機器は、
1つ以上のプロセッサと、
1つ以上のプログラムが記憶され、前記1つ以上のプログラムが前記1つ以上のプロセッサにより実行されるときに、前記1つ以上のプロセッサに本願のいずれか1つの実施例が提供する技能用語評定方法を実現させるメモリと、を含む。
【0009】
第4の態様において、本願の実施例はコンピュータプログラムが記憶されたコンピュータ読み取り可能な媒体であって、前記コンピュータプログラムが実行されるときに本願のいずれか1つの実施例が提供する技能用語評定方法を実現するコンピュータ読み取り可能な媒体を提供する。
【0010】
第5の態様において、本願の実施例は、コンピュータプログラムを含み、前記コンピュータプログラムがプロセッサにより実行されるときに本願のいずれか1つの実施例が提供する技能用語評定方法を実現するコンピュータプログラム製品を提供する。
【0011】
本願の実施例が提供するプロフィールの技能用語評定方法および装置、電子機器、コンピュータ読み取り可能な媒体ならびにコンピュータプログラム製品は、技能用語評定の正確さ、プロフィールの選別効率を向上させており、手作業による選別と評定の時間コストを大幅に縮小している。
【図面の簡単な説明】
【0012】
図面は本願の実施例をさらに理解するために提供されるものであり、また明細書の一部を構成し、本願の実施例とともに本願を解釈するために用いられるものであって、本願を限定するものではない。図面を参照して詳細な例示的な実施例について説明することにより、上記およびその他の特徴と利点が当業者にとってより自明になるであろう。
図1】本願の実施例が提供するプロフィールの技能用語評定方法のフローチャートである。
図2図1におけるステップ11の具体的な実現方式のフローチャートである。
図3図2におけるステップ111の具体的な実現方式のフローチャートである。
図4】本願の実施例における技能用語評定モデルのトレーニング方法のフローチャートである。
図5】本願の実施例における単語埋め込みモデルのニューラルネットワーク構造の模式図である。
図6】本願の実施例が提供する技能用語評定装置の構造ブロック図である。
図7図6における技能用語取得モジュールの構造ブロック図である。
図8】本願の実施例が提供する他の技能用語評定装置の構造ブロック図である。
図9】本願の実施例が提供する電子機器の構造ブロック図である。
【発明を実施するための形態】
【0013】
当業者が本願の技術案をより良く理解できるように、以下に図面を組み合わせながら本願が提供するプロフィールの技能用語評定方法および装置、電子機器、コンピュータ読み取り可能な媒体ならびにコンピュータプログラム製品について詳細に説明する。
【0014】
以下では図面を参照しながら例示的な実施例についてより十分に説明していくが、説明する例示的な実施例は異なる形式で体現することができ、本明細書に記載の実施例に限定されると解釈してはならない。むしろ、これらの実施例を提供する目的は、本願を詳らかにかつ完全にし、当業者に本願の範囲を十分に理解させることである。
【0015】
矛盾することがなければ、本願の各実施例および実施例における各特徴を互いに組み合わせることができる。
【0016】
本明細書で使用する、「および/または」のような用語は、1つ以上の関連する列挙対象の任意およびすべての組み合わせを含む。
【0017】
本明細書にて使用する用語は特定の実施例を説明するためだけに使用され、本願を限定することは意図していない。本明細書にて使用する、単数形式の「1つ」および「当該」のような用語は、前後の文で別途明確に示さない限り、複数の形式を含むことも意図している。また、本明細書で「含む」および/または「……からなる」という用語を使用する場合、前記特徴、全体、ステップ、操作、要素および/またはコンポーネントが存在することを指すが、1つ以上のその他の特徴、全体、ステップ、操作、要素、コンポーネントおよび/またはそのグループの存在、あるいは追加は除外されない。
【0018】
別途限定しない限り、本明細書にて使用するすべての用語(技術および科学用語を含む)の意味は、当業者が一般的に理解する意味と同じである。また、一般辞書にて限定されるような用語は、それが関連技術および本願の背景における意味と一致する意味を有すると解釈されるべきであり、本明細書で明確に限定しない限り、理想化または過度の形式上の意味を有すると解釈されないということも合わせて理解されたい。
【0019】
図1は本願の実施例が提供するプロフィールの技能用語評定方法のフローチャートであり、図1に示すように、当該方法は技能用語評定装置により実行することができ、当該装置はソフトウェアおよび/またはハードウェアの形式で実現することができ、当該装置はサーバなどの電子機器内に統合することができる。当該技能用語の評定方法はステップ11およびステップ12を含む。
【0020】
ステップ11、評定するプロフィール文書から、複数の技能用語を含み、評定する第1の技能用語リストを決定する。
【0021】
いくつかの応用シーンにおいて、採用担当者が求職者の一件以上のプロフィール文書を取得した後、プロフィール文書を技能用語評定装置に送信して評定することができ、採用担当者がプロフィール文書を取得する経路は、求人用メールアドレス、求人サイト、求人用クライアントなどを介して取得してよい。いくつかの応用シーンにおいて、求人用メールアドレス、求人サイト、求人用クライアントなどが求職者のプロフィール文書を受信した後、プロフィール文書を自動的に技能用語評定装置に転送することもできる。いくつかの応用シーンにおいて、技能用語評定装置は所定時間おきに(例えば10分、20分など)自発的に問い合わせるという方式により、求人用メールアドレス、求人サイト、求人用クライアントなどから求職者のプロフィール文書を取得してもよい。いくつかの応用シーンにおいて、プロフィール文書は紙媒体のプロフィール文書であってもよく、採用担当者が紙媒体のプロフィール文書を取得した後、スキャンすることで紙媒体のプロフィール文書を電子版のプロフィール文書に変換してから技能用語評定装置に送信することができる。
【0022】
本願の実施例では、技能用語評定装置がプロフィール文書を受信した後、各プロフィール文書に対してステップ11およびステップ12の操作を行い、これにより各プロフィール文書の技能用語の自動評定が完了する。いくつかの実施例では、技能用語評定装置が各プロフィール文書の技能用語評定を終えた後、採用担当者が素早く正確に求職者のプロフィール技能画像を取得してプロフィールの選別を終えることができるように、マンマシンインターフェースなどの適切な方式により、採用担当者に各プロフィール文書の技能用語評定結果を提示することもできる。
【0023】
図2図1におけるステップ11の具体的な実現方式のフローチャートであり、図2に示すように、いくつかの実施例においてステップ11はステップ111からステップ113を含む。
【0024】
ステップ111、プロフィール文書から、プロフィール文書に出現するすべての技能用語を含む第2の技能用語リストを決定する。
【0025】
図3図2におけるステップ111の具体的な実現方式のフローチャートであり、図3に示すように、いくつかの実施例においてステップ111はステップ1111、ステップ1112を含む。
【0026】
ステップ1111、プロフィール文書からプロフィールテキストデータを取得する。
【0027】
具体的に、ステップ1111では、プロフィール文書を取得した後、プロフィール文書におけるプロフィールテキストデータを得るために、プロフィール文書を標準化、フォーマット化処理し、プロフィールテキストデータには、業務経験の記述、プロジェクト経験の記述、個人の専門的技能の記述などのテキストデータを含む。
【0028】
ステップ1112、プロフィールテキストデータから、プロフィールテキストデータに出現するすべての技能用語を抽出し、第2の技能用語リストを生成する。
【0029】
具体的に、ステップ1112では、プロフィールテキストデータに対して、まず、あらかじめ設定された品詞分解ツールを用いてプロフィールテキストデータに品詞分解処理を行い、プロフィールテキストデータにおける各単語を含む、品詞分解処理結果を得る。
【0030】
その後、あらかじめ設定された分野技能用語データベースを用いて、品詞分解処理結果からプロフィールテキストデータに出現するすべての技能用語を選別する。具体的には、品詞分解して得た単語を技能用語データベースにおける技能用語と照合することができ、合致すれば当該単語は技能用語であることを表す。ここで、技能用語は中国語形式の技能用語であってよく、英語形式の技能用語であってもよく、あるいは中国語、英語の略称形式の技能用語であってもよい。
【0031】
ステップ1112では、分野技能用語データベースによりプロフィールテキストデータにおける非技能用語をフィルタリングしてから、プロフィールテキストデータに出現するすべての技能用語を得て、当該すべての技能用語に基づいて第2の技能用語リストを生成する。
【0032】
ステップ112、第2の技能用語リストにおける各技能用語が属する技術分野を確定する。
【0033】
技能用語に対する採用担当者の理解を深めるために、いくつかの実施例では、技能用語が属する技術分野を識別する必要がある。具体的に、ステップ112では、あらかじめ設定されたナレッジグラフを用いて、第2の技能用語リストにおける各技能用語が属する技術分野を確定する。ナレッジグラフは技能用語と属する技術分野の対応関係とを含み、技術分野は複数の技能用語を含んでよい。例えば、「TensorFlow」という技能は「ディープラーニング」分野の技能である。採用担当者はある技能用語(例えばTensorFlow)について理解していない可能性があり、求職者のプロフィールへの理解に大きなずれが生じる恐れがあるため、いくつかの実施例では、あらかじめ設定された、技術分野と技能用語のナレッジグラフを導入することにより、技能用語の上位下位関係、相似関係などを拡大し、技能用語の説明を合理的に規範化し、即ち後続ステップのモデルの入力を規範化できるだけでなく、モデル出力結果の可読性も向上でき、プロフィールにおける技能用語に対する採用担当者の理解を深めている。
【0034】
ステップ113、第2の技能用語リストにおけるすべての技能用語と対応する技術分野とに基づき、第1の技能用語リストを生成し、各技術分野を第1の技能用語リストにおける1つの技能用語とする。
【0035】
いくつかの実施例では、ステップ113において、プロフィール文書に出現するすべての技能用語を取得して、各技能用語が属する技術分野を識別した後に、技術分野そのものも1つの技能用語とし、プロフィール文書に出現するすべての技能用語と対応する技術分野とに基づいて第1の技能用語リストを生成し、第1の技能用語リストにおいて、各技術分野は1つの技能用語とされる。
【0036】
ステップ12、第1の技能用語リストにおける各技能用語に対して、あらかじめトレーニングされた技能用語評定モデルと当該技能用語の第1の技能用語リストにおける前後の文の情報とを用いて、当該技能用語の重要度を特徴付けするための、当該技能用語が出現する確率値を予測する。
【0037】
なお、当該技能用語の第1の技能用語リストにおける前後の文の情報は第1の技能用語リストにおける当該技能用語以外のその他の技能用語を含む。ステップ12では、あらかじめトレーニングされた技能用語評定モデルの入力を当該技能用語以外のその他の技能用語に対応する単語ベクトルとし、その出力を当該技能用語が出現する確率値、即ち当該技能用語が、プロフィール文書においてその他の技能用語が既知である状態下で出現する確率とし、当該確率値は対応する技能用語の重要度を特徴付けることができ、確率値が大きいほど、当該技能用語の重要度はより高い。
【0038】
具体的に、ステップ12では、まず第1の技能用語リストにおける当該技能用語以外の各技能用語について、当該技能用語以外の各技能用語に対応する単語ベクトルを生成する。ここで、各技能用語に対応する単語ベクトルはワンホットエンコーディング(Onehot)という方式で生成してよい。
【0039】
その後、当該技能用語以外の各技能用語に対応する単語ベクトルをあらかじめトレーニングされた技能用語評定モデルの入力とし、前記技能用語評定モデルを用いて当該技能用語が出現する確率値を予測して得る。
【0040】
あらかじめトレーニングされた技能用語評定モデルを用いて第1の技能用語リストにおける各技能用語を予測し、第1の技能用語リストにおいて各技能用語が出現する確率値を得る。
【0041】
図4は本願の実施例における技能用語評定モデルのトレーニング方法のフローチャートであり、いくつかの実施例では、図4に示すように、技能用語評定モデルは以下のステップトレーニングにより得られる。
【0042】
ステップ21、プロフィールサンプルから抽出して得た複数のトレーニング技能用語を含む、トレーニングデータセットを取得する。
【0043】
ここで、複数のトレーニング技能用語はプロフィールサンプルから抽出した技能用語およびその対応する技術分野を含む。
【0044】
ステップ22、各トレーニング技能用語に対応する単語ベクトルを生成する。
【0045】
いくつかの実施例では、各トレーニング技能用語にワンホットエンコーディング(Onehot)処理を行って各トレーニング技能用語に対応する単語ベクトルを得ることができる。
【0046】
ステップ23、各トレーニング技能用語に対して、当該トレーニング技能用語以外の各トレーニング技能用語に対応する単語ベクトルを入力とし、あらかじめ設定された単語埋め込みモデルを用いてモデルトレーニングを行い、単語埋め込みモデルの出力を当該トレーニング技能用語が出現する確率値とする。
【0047】
ここで、当該トレーニング技技能用語以外の各トレーニング技能用語に対応する単語ベクトルはそれぞれ、x,x,…,x,と記され、Cは当該トレーニング技能用語以外のその他のトレーニング技能用語の総数量を表す。
【0048】
いくつかの実施例において、単語埋め込みモデルはContinuous Bag of Wordsニューラルネットワークモデル(CBOW)を含み、図5は本願の実施例における単語埋め込みモデルのニューラルネットワーク構造の模式図であり、図5に示すように、単語埋め込みモデルは入力層(Input layer)、隠れ層(Hidden layer)、出力層(Output layer)を含む。
【0049】
ここで、入力層はC個のトレーニング技能用語の入力{x,x,…,x}を有し、ウィンドウの大きさをC、単語テーブルの長さをVとし、Vは分野技能用語データベースにおける技能用語の総数量を表す。
【0050】
隠れ層はN次元のベクトルであって、Nは隠れ層のニューロンの数であり、隠れ層hの出力表示は以下の通りである。
【0051】
【数1】
【0052】
ここで、Wは入力層から隠れ層へ至るN*V次元の重み行列、hは隠れ層の出力であり、hはC個のトレーニング技能用語に対応する単語ベクトルの加重平均を表し、x,x,…,xは当該トレーニング技能用語以外のその他のトレーニング技能用語に対応する単語ベクトルをそれぞれ表す。
【0053】
出力層の入力はV×1次元のベクトルuであり、u=W’・hであって、W’は隠れ層から出力層へ至るN*V次元の重み行列で、ベクトルuの第j個の素子uはW’の第j列と隠れ層の出力hのスカラー積で、即ち
【0054】
【数2】
【0055】
であって、
【0056】
【数3】
【0057】
はW’の第j列を表し、uは分野技能用語データベースにおける第j個の技能用語のスコアを表し、スコアが最も高い技能用語を予測出力する技能用語として、Softmax(ロジスティック回帰)関数を用いてベクトルuを[0,1]の間に正規化することで、出力する技能用語の確率を予測して得て、最終的に出力層の出力ベクトルyを得る。出力ベクトルyの表示は以下の通りである。
【0058】
【数4】
【0059】
ここで、xはトレーニング技能用語テーブルにおける第i個の技能用語を表し、contex(x)はトレーニング技能用語テーブルにおけるx以外の残りの技能用語を表し、P(x|contex(x))は出力する第i個の技能用語が出現する確率値を表す。
【0060】
ステップ24、あらかじめ設定された確率的勾配降下法を用いて前記単語埋め込みモデルのモデルパラメータを繰り返し更新し、技能用語評定モデルを得る。
【0061】
ステップ24では、モデルトレーニング過程において、モデルが収束するまで確率的勾配降下法を用いてモデルパラメータWとW’を更新し続け、必要な技能用語評定モデルを最終的に得る。
【0062】
本願の実施例が提供する技能用語評定方法は、プロフィールにおける技能情報の抽出を自動化することに加え、技能用語の前後の文の情報とあらかじめトレーニングされた技能用語評定モデルを用いて、技能用語が出現する確率を予測し、確率値が大きいほど技能用語の重要性がより高いことを表し、これによりプロフィールにおける各技能用語の評定の自動化を実現しており、技能用語評定の正確さを高めるとともに、プロフィールの技能画像を速やかに構築でき、採用担当者がプロフィールの技能情報を素早く抽出し、プロフィール内容の確認およびプロフィール選別を終えることを効果的に補佐することができ、プロフィールの選別効率を高めており、手作業での選別と評定の時間コストを大幅に縮小している。
【0063】
図6は本願の実施例が提供する技能用語評定装置の構造ブロック図であり、図6に示すように、当該技能用語評定装置は上述の技能用語評定方法を実現するためのものであって、当該技能用語評定装置は、技能用語取得モジュール31と技能用語評定モジュール32とを含む。
【0064】
ここで、技能用語取得モジュール31は、評定するプロフィール文書から、複数の技能用語を含み、評定する第1の技能用語リストを決定するためのものである。
【0065】
技能用語評定モジュール32は、第1の技能用語リストにおける各技能用語に対して、あらかじめトレーニングされた技能用語評定モデルと当該技能用語の前記第1の技能用語リストにおける前後の文の情報とを用いて、当該技能用語の重要度を特徴付けするための、当該技能用語が出現する確率値を予測するためのものである。
【0066】
図7図6における技能用語取得モジュールの構造ブロック図であり、図7に示すように、いくつかの実施例では、技能用語取得モジュール31は、技能用語抽出サブモジュール311と、技能分野確定サブモジュール312と、技能用語リスト生成サブモジュール313と、を含む。
【0067】
ここで、技能用語抽出サブモジュール311は、プロフィール文書から、プロフィール文書に出現するすべての技能用語を含む第2の技能用語リストを決定するためのものであり、技能分野確定サブモジュール312は、第2の技能用語リストにおける各技能用語が属する技術分野を確定するためのものであり、技能用語リスト生成サブモジュール313は、第2の技能用語リストにおけるすべての技能用語と対応する技術分野とに基づき、第1の技能用語リストを生成し、各技術分野を第1の技能用語リストにおける1つの技能用語とするためのものである。
【0068】
いくつかの実施例において、技能用語抽出サブモジュール311は具体的に、プロフィール文書からプロフィールテキストデータを取得し、プロフィールテキストデータからプロフィールテキストデータに出現するすべての技能用語を抽出し、第2の技能用語リストを生成するためのものである。
【0069】
いくつかの実施例において、技能用語抽出サブモジュール311は具体的に、あらかじめ設定された品詞分解ツールを用いてプロフィールテキストデータに品詞分解処理を行い、あらかじめ設定された分野技能用語データベースを用いて、品詞分解処理結果からプロフィールテキストデータに出現するすべての技能用語を選別するためのものである。
【0070】
いくつかの実施例において、技能分野確定サブモジュール312は具体的に、あらかじめ設定されたナレッジグラフを用いて、第2の技能用語リストにおける各技能用語が属する技術分野を確定するためのものである。
【0071】
図8は本願の実施例が提供する他の技能用語評定装置の構造ブロック図であり、図8に示すように、当該技能用語評定装置はモデルトレーニングモジュール33をさらに含む。
【0072】
ここで、モデルトレーニングモジュール33は、プロフィールサンプルから抽出して得た複数のトレーニング技能用語を含む、トレーニングデータセットを取得し、各トレーニング技能用語に対応する単語ベクトルを生成し、各トレーニング技能用語に対して、当該トレーニング技能用語以外の各トレーニング技能用語に対応する単語ベクトルを入力とし、あらかじめ設定された単語埋め込みモデルを用いてモデルトレーニングを行い、単語埋め込みモデルの出力を当該トレーニング技能用語が出現する確率値とし、あらかじめ設定された確率的勾配降下法を用いて単語埋め込みモデルのモデルパラメータを繰り返し更新し、技能用語評定モデルを得るためのものである。
【0073】
いくつかの実施例において、単語埋め込みモデルはContinuous Bag of Wordsニューラルネットワークモデルを含む。
【0074】
このほか、本願の実施例が提供する技能用語評定装置は具体的に、前述の技能用語評定方法を実施するために用いられ、具体的に前述の技能用語評定方法の説明を参照することができるため、ここでは改めて説明しない。
【0075】
図9は本願の実施例が提供する電子機器の構造ブロック図であり、図9に示すように、当該電子機器は1つ以上のプロセッサ501と、1つ以上のプログラムが記憶され、1つ以上のプログラムが1つ以上のプロセッサ501により実行されるときに、1つ以上のプロセッサ501に上述の技能用語評定方法を実現させるメモリ502と、を含み、1つ以上のI/Oインターフェース503はプロセッサ501とメモリ502との間に接続され、プロセッサ501とメモリ502との情報のやり取りを実現するように配置される。
【0076】
本願の実施例は、コンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体であって、当該コンピュータプログラムが実行されるときに前述の技能用語評定方法を実現するコンピュータ読み取り可能な記憶媒体をさらに提供する。
【0077】
当業者であれば、上記で公開された方法のすべてまたはいくつかのステップ、システム、装置内の機能モジュール/ユニットが、ソフトウェア、ファームウェア、ハードウェアおよびその適切な組み合わせとして実施されてもよいと理解できる。ハードウェアの実施の形態において、上記の説明で言及した機能モジュール/ユニット間の区分は、必ずしも物理的コンポーネントの区分に対応しているわけではない。例えば、1つの物理的コンポーネントは、複数の機能を有することができ、または、1つの機能またはステップは、いくつかの物理的コンポーネントによって連携して実行することができる。いくつかの物理的コンポーネントまたはすべての物理的コンポーネントは、中央プロセッサ、デジタル信号プロセッサまたはマイクロプロセッサのようなプロセッサによって実行されるソフトウェアとして実施されてもよく、またはハードウェアとして実施されてもよく、あるいは専用集積回路のような集積回路として実施されてもよい。このようなソフトウェアは、コンピュータ読み取り可能な媒体に設けることができ、コンピュータ読み取り可能な媒体は、コンピュータ記憶媒体(または非一時的媒体)および通信媒体(または一時的媒体)を含んでよい。当業者に知られているように、用語としてのコンピュータ記憶媒体は、情報(例えば、コンピュータ読み取り可能なコマンド、データ構造、プログラムモジュールまたはその他のデータ)を記憶するための任意の方法または技術で実施される揮発性および不揮発性、リムーバブル媒体および非リムーバブル媒体を含む。コンピュータ記憶媒体は、RAM、ROM、EEPROM(登録商標)、フラッシュメモリまたはその他のメモリ技術、CD-ROM、デジタル多機能ディスク(DVD)またはその他の光ディスクメモリ、磁気カセット、磁気テープ、磁気ディスクメモリまたはその他の磁気記憶装置、あるいは所望の情報を記憶するために使用され、かつコンピュータによってアクセスすることのできるその他の任意の媒体を含むが、これらに限定されない。このほか、当業者に知られているように、通信媒体は通常、コンピュータ読み取り可能なコマンド、データ構造、プログラムモジュールまたは搬送波またはその他の伝送機構のような変調データ信号におけるその他のデータを含むほか、任意の情報伝達媒体を含むことができる。
【0078】
本願の実施例は、コンピュータプログラムを含み、コンピュータプログラムがプロセッサにより実行されるときに前述の技能用語評定方法を実現するコンピュータプログラム製品をさらに提供する。
【0079】
本願が公開する方法を実施するためのプログラムコードは、1つ以上のプログラミング言語の任意の組み合わせを用いて作成することができる。これらのプログラムコードは、プロセッサまたはコントローラによってプログラムコードが実行されると、フローチャートおよび/またはブロック図に規定された機能/動作が実行されるように、汎用コンピュータ、専用コンピュータまたはその他のプログラマブルデータ処理装置のプロセッサまたはコントローラに提供されてよい。プログラムコードは完全にマシン上で、部分的にマシン上で実行されてよく、独立したソフトウェアパッケージとして部分的にマシン上で実行され、且つ部分的にリモートマシン上で実行され、あるいは完全にリモートマシンまたはサーバ上で実行されてよい。
【0080】
本明細書では例示的な実施例を公開し、また具体的な用語を採用しているが、これらは一般的な例証的な意味としてのみ使用され、そのような意味にのみ解釈されるべきであって、限定する目的では使用されない。いくつかの実施例において、特に別途指摘されていない限り、特定の実施例に関連して説明された特徴、特性、および/または要素を単独で使用してもよく、または他の実施例に関連して説明された特徴、特性、および/または要素の組み合わせとして使用してもよいということは当業者にとって明らかである。よって、当業者は、添付の請求項によって明らかにされた本願の範囲から逸脱することなく、様々な形態および細部において変更が可能であると理解するであろう。
図1
図2
図3
図4
図5
図6
図7
図8
図9