(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023121087
(43)【公開日】2023-08-30
(54)【発明の名称】情報処理装置、情報処理方法および情報処理プログラム
(51)【国際特許分類】
G06Q 50/10 20120101AFI20230823BHJP
【FI】
G06Q50/10
【審査請求】有
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022024333
(22)【出願日】2022-02-18
(71)【出願人】
【識別番号】319013263
【氏名又は名称】ヤフー株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】石川 裕貴
(72)【発明者】
【氏名】山城 颯太
【テーマコード(参考)】
5L049
【Fターム(参考)】
5L049CC11
(57)【要約】
【課題】利用者に対して効率的に情報を提供することができる。
【解決手段】情報処理装置10は、質問サイトにおいて投稿された投稿情報を取得し、当該投稿情報と所定のサービスにおける有用性とを学習した機械学習モデルを用いて、取得した当該投稿情報を分類し、所定のサービスにおいて投稿情報に関する表示情報を表示する際に有用である有用文字列、および/または有用でない非有用文字列に基づいて、所定の対象と当該投稿情報とを対応付けた表示情報を選択し、当該表示情報を表示する。また、情報処理装置10は、機械学習モデルの学習に用いる学習データと、所定の対象に関連する投稿情報から機械学習モデルを用いて出力された分類結果とに基づいて、有用文字列および非有用文字列を抽出し、所定の対象を示す対象情報と、有用文字列および非有用文字列とを対応付けた文字列情報を生成する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
質問サイトにおいて投稿された投稿情報を取得する取得部と、
所定のサービスにおいて前記投稿情報に関する表示情報を表示する際に有用である有用文字列、および/または有用でない非有用文字列に基づいて、所定の対象と前記投稿情報とを対応付けた前記表示情報を選択する選択部と、
前記表示情報を表示する表示部と、
を備えることを特徴とする情報処理装置。
【請求項2】
前記投稿情報と前記サービスにおける有用性とを学習した機械学習モデルを用いて、取得された前記投稿情報を分類する分類部、
をさらに備え、
前記選択部は、有用性があると分類された前記投稿情報から、前記表示情報を選択する、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記選択部は、前記有用文字列が含まれる前記投稿情報を前記表示情報として選択し、前記非有用文字列が含まれる前記投稿情報を前記表示情報として選択しない、
ことを特徴とする請求項1または2に記載の情報処理装置。
【請求項4】
前記選択部は、就職活動支援サイトにおいて前記表示情報を表示する際に有用である有用文字列、および/または有用でない非有用文字列に基づいて、前記就職活動支援サイトに登録された事業者と前記投稿情報とを対応付けた前記表示情報を選択する、
ことを特徴とする請求項1から3のいずれか1項に記載の情報処理装置。
【請求項5】
前記機械学習モデルの学習に用いる学習データと、前記対象に関連する前記投稿情報から前記機械学習モデルを用いて出力された分類結果とに基づいて、前記有用文字列および前記非有用文字列を抽出し、前記対象を示す対象情報と、前記有用文字列および前記非有用文字列とを対応付けた文字列情報を生成する生成部、
をさらに備えることを特徴とする請求項2に記載の情報処理装置。
【請求項6】
前記生成部は、文字列の出現頻度または相互情報量を含む判定値を算出し、前記学習データの正例において前記判定値が所定の閾値未満であって、前記分類結果の負例において前記判定値が所定の閾値未満であって、かつ前記分類結果の正例において前記判定値が所定の閾値以上である文字列を前記有用文字列として抽出し、前記文字列情報を生成する、
ことを特徴とする請求項5に記載の情報処理装置。
【請求項7】
前記生成部は、文字列の出現頻度または相互情報量を含む判定値を算出し、前記学習データの負例において前記判定値が所定の閾値未満であって、前記分類結果の正例において前記判定値が所定の閾値未満であって、かつ前記分類結果の負例において前記判定値が所定の閾値以上である文字列を前記非有用文字列として抽出し、前記文字列情報を生成する、
ことを特徴とする請求項5に記載の情報処理装置。
【請求項8】
情報処理装置によって実行される情報処理方法であって、
質問サイトにおいて投稿された投稿情報を取得する取得工程と、
所定のサービスにおいて前記投稿情報に関する表示情報を表示する際に有用である有用文字列、および/または有用でない非有用文字列に基づいて、所定の対象と前記投稿情報とを対応付けた前記表示情報を選択する選択工程と、
前記表示情報を表示する表示工程と、
を含むことを特徴とする情報処理方法。
【請求項9】
質問サイトにおいて投稿された投稿情報を取得する取得手順と、
所定のサービスにおいて前記投稿情報に関する表示情報を表示する際に有用である有用文字列、および/または有用でない非有用文字列に基づいて、所定の対象と前記投稿情報とを対応付けた前記表示情報を選択する選択手順と、
前記表示情報を表示する表示手順と、
をコンピュータに実行させることを特徴とする情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法および情報処理プログラムに関する。
【背景技術】
【0002】
インターネット上の求人サービスにおいて、企業を紹介する企業情報詳細ページに対して、Q&A(Question and Answer)サイト(適宜、「質問サイト」)に投稿された企業に関連する質問情報を付加したいことがある。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来技術は、顧客(適宜、「利用者」)に対して効率的に情報を提供する上で改善の余地がある。例えば、質問サイトへの質問は多岐にわたるので、求人カテゴリの質問だとしても、就職に関連しない質問が投稿されることが多くある。従来技術では、そのような就職に関連しない質問を効率的に除外することが難しい。
【0005】
本願は、上記に鑑みてなされたものであって、利用者に対して効率的に情報を提供可能にする情報処理装置、情報処理方法および情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上述した課題を解決し、目的を達成するために、本発明に係る情報処理装置は、質問サイトにおいて投稿された投稿情報を取得する取得部と、所定のサービスにおいて前記投稿情報に関する表示情報を表示する際に有用である有用文字列、および/または有用でない非有用文字列に基づいて、所定の対象と前記投稿情報とを対応付けた前記表示情報を選択する選択部と、前記表示情報を表示する表示部と、を備えることを特徴とする。
【0007】
また、本発明に係る情報処理方法は、情報処理装置によって実行される情報処理方法であって、質問サイトにおいて投稿された投稿情報を取得する取得工程と、所定のサービスにおいて前記投稿情報に関する表示情報を表示する際に有用である有用文字列、および/または有用でない非有用文字列に基づいて、所定の対象と前記投稿情報とを対応付けた前記表示情報を選択する選択工程と、前記表示情報を表示する表示工程と、を含むことを特徴とする。
【0008】
また、本発明に係る情報処理プログラムは、質問サイトにおいて投稿された投稿情報を取得する取得手順と、所定のサービスにおいて前記投稿情報に関する表示情報を表示する際に有用である有用文字列、および/または有用でない非有用文字列に基づいて、所定の対象と前記投稿情報とを対応付けた前記表示情報を選択する選択手順と、前記表示情報を表示する表示手順と、をコンピュータに実行させることを特徴とする。
【発明の効果】
【0009】
本発明では、利用者に対して効率的に情報を提供することができる。
【図面の簡単な説明】
【0010】
【
図1】
図1は、実施形態に係る情報処理システムの構成例を示す図である。
【
図2】
図2は、実施形態に係る情報処理装置の構成例を示すブロック図である。
【
図3】
図3は、実施形態に係る選択処理の具体例1を示す図である。
【
図4】
図4は、実施形態に係る選択処理の具体例2を示す図である。
【
図5】
図5は、実施形態に係る抽出処理の具体例を示す図である。
【
図6】
図6は、実施形態に係る情報処理の流れの一例を示すフローチャートである。
【
図7】
図7は、ハードウェア構成の一例を示す図である。
【発明を実施するための形態】
【0011】
以下に、本願に係る情報処理装置、情報処理方法および情報処理プログラムを実施するための形態(以下、実施形態)について図面を参照しつつ詳細に説明する。なお、この実施形態により、本願に係る情報処理装置、情報処理方法および情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0012】
〔実施形態〕
以下に、実施形態に係る情報処理システム100の構成、情報処理装置10の構成、情報処理の具体例、情報処理の流れを順に説明し、最後に実施形態の効果を説明する。
【0013】
〔1.情報処理システム100の構成〕
図1を用いて、実施形態に係る情報処理システム100の処理を説明する。
図1は、実施形態に係る情報処理システム100の構成例を示す図である。以下では、情報処理システム100の構成例、情報処理システム100の処理、情報処理システム100の効果の順に説明する。
【0014】
(1-1.情報処理システム100の構成例)
図1に示した情報処理システム100は、情報処理装置10を有する。なお、情報処理システム100には、複数台の情報処理装置10が含まれてもよい。また、情報処理システム100では、情報処理装置10に入力するデータとして、質問サイト投稿文(適宜、「投稿情報」)20、また、情報処理装置10が出力するデータとして、就職活動支援サイト表示画面30上に表示されるQ&A一覧(適宜、「表示情報」)31が関与する。
【0015】
(1-1-1.情報処理装置10)
情報処理装置10は、質問サイト投稿文20を収集したり、就職活動支援サイト表示画面30を作成したりする就職活動支援サイトの管理者によって使用されるデバイス(コンピュータ)である。情報処理装置10は、就職活動支援サイトの管理者による操作を受け付ける。なお、情報処理装置10は、例えば、スマートフォンや、タブレット型端末や、ノート型PC(Personal Computer)や、デスクトップPCや、携帯電話機や、PDA(Personal Digital Assistant)等により実現される。
図1の例では、情報処理装置10がデスクトップPCにより実現される場合を示す。
【0016】
(1-1-2.質問サイト投稿文20)
質問サイト投稿文20は、質問サイト上に当該サイトの利用者から投稿された、質問文と当該質問文に対する回答文とを含む文章データである。ここで、質問サイト投稿文20は、質問文のみから構成されるデータであってもよい。また、質問サイト投稿文20は、投稿された質問文と、当該質問文に対する回答文のうち最適の回答文(ベストアンサー)に評価された回答文のみとから構成されるデータであってもよい。さらに、質問サイト投稿文20は、文章データの他、画像データ、動画データまたは音声データを含むものであってもよい。
【0017】
(1-1-3.就職活動支援サイト表示画面30)
就職活動支援サイト表示画面30は、当該就職活動支援サイトに登録された企業(適宜、「事業者」)ごとに作成されたウェブページであり、Q&A一覧31の他、企業概要や求人、年収・給与等に関する情報も含まれる。
【0018】
(1-2.情報処理システム100の処理)
情報処理システム100において、まず、情報処理装置10の操作者は、質問サイト投稿文20の入力処理を実行する(
図1(1)参照)。次に、情報処理装置10は、質問サイト投稿文20からQ&A一覧31を生成する情報処理を実行する(
図1(2)参照)。最後に、情報処理装置10は、Q&A一覧31を含む就職活動支援サイト表示画面30の出力処理を実行する(
図1(3)参照)。以下では、情報処理システム100の処理について、入力処理、情報処理、出力処理の順に詳細に説明する。
【0019】
(1-2-1.入力処理)
図1(1)に示すように、情報処理装置10は、操作者から質問サイト投稿文20の入力を受け付け、入力データを取得する。このとき、情報処理装置10は、図示しない端末から送信された質問サイト投稿文20を、情報処理装置10の通信部11を介して入力を受け付けてもよい。
【0020】
(1-2-2.情報処理)
図1(2)に示すように、情報処理装置10は、質問サイト投稿文20からQ&A一覧31を生成する。以下では、当該情報処理について、投稿情報分類処理、文字列情報生成処理、投稿情報選択処理の順に詳細に説明する。
【0021】
(1-2-2-1.投稿情報分類処理)
図1(2-1)に示すように、情報処理装置10は、機械学習モデルである分類モデル(適宜、「学習モデル」)14dを用いて、入力された質問サイト投稿文20を分類する処理を行う(投稿情報分類処理)。このとき、情報処理装置10は、収集された質問文に対して当該質問文が就職に関連する有用な情報であるか否かのラベルが付与されたアノテーションデータ(適宜、「学習データ」)によって学習したDNN(Deep Neural Network)等の分類モデル14dを用いて、入力された質問サイト投稿文20を分類する処理を行う。
図1の例に示すように、情報処理装置10は、質問サイト投稿文20が入力されると、質問文ごとに有用性の判定結果を示した分類リスト14b-1を分類結果として出力する。
【0022】
図1の例を用いて説明すると、情報処理装置10は、質問サイト投稿文20に記載されたNo.1の質問文「Z社って外資企業?」について、企業名「Z社」やキーワード「外資企業」をもとに、就職関連の質問文として分類する。また、情報処理装置10は、質問サイト投稿文20に記載されたNo.2の質問文「Y社・R社の年収は?」について、企業名「Y社」、「R社」やキーワード「年収」をもとに、就職関連の質問文として分類する。
【0023】
一方、情報処理装置10は、質問サイト投稿文20に記載されたNo.3の質問文「L社のアプリは便利?」について、企業名「L社」が含まれているがアプリ開発会社である「L社」の商品についての質問文であるので、就職非関連の質問文として分類する。また、情報処理装置10は、質問サイト投稿文20に記載されたNo.4の質問文「U社の服で面接行っていい?」について、企業名「U社」が含まれているが衣服販売会社「U社」の商品についての質問文であるので、就職非関連の質問文として分類する。
【0024】
情報処理装置10は、上記の分類モデル14dによる分類結果として、No.1の質問文「○」、No.2の質問文「○」、No.3の質問文「×」、No.4の質問文「×」・・・の、就職に関する有用判定を記載した分類リスト14b-1を出力する。
【0025】
(1-2-2-2.文字列情報生成処理)
図1(2-2)に示すように、情報処理装置10は、後述するキーワードマッチに用いるキーワード辞書(適宜、「文字列情報」)14b-2を生成する処理を行う(文字列情報生成処理)。ここで、キーワード辞書14b-2とは、企業ごとに作成された所定のサービス(例:就職、会社説明、金融等の支援サイト)に関する有用な情報であるか否かの判断に用いるキーワードをリスト化したものである。キーワード辞書14b-2にリスト化されるキーワードには、企業名に関するキーワード(以下、「企業名キーワード」)の他、上記サービスに質問文を表示する際に有用である有用キーワード(適宜、「有用文字列」)と、上記サービスに質問文を表示する際に有用でない非有用キーワード(適宜、「非有用文字列」)とが含まれる。
【0026】
ここで、企業名キーワードのリスト化について説明する。情報処理装置10は、企業名のカタログ等である企業名データベースから企業の正式名称と、企業IDとを取得する。例えば、情報処理装置10は、企業である「Y社」の正式名称「Y株式会社」と、企業ID「23」とを取得し、「Y株式会社」と「23」とを紐づけしたキーワード辞書14b-2を生成する。次に、情報処理装置10は、インターネット百科事典等の外部リソースが保持する情報(適宜、「外部リソース情報」)を取得し、上記のキーワード辞書14b-2に対して企業名の表記ゆれを追加する。例えば、情報処理装置10は、上記の外部リソース情報として、住所、創立年月日、社長の名前、従業員数の情報をもとに、「Y株式会社」が「Y社」、「Y」、「Yジャパン」等で表記されることを対応付ける。
【0027】
次に、有用キーワードおよび非有用キーワードのリスト化について説明する。ここで、有用キーワードは、企業ごとに抽出された文字列であって、当該文字列を含む質問文が所定のサービスに有用である可能性が高いことを示す文字列である。例えば、作業服販売会社「W社」の就職関連の質問文に含まれる有用キーワードとして「求人」等がある。一方、非有用キーワードは、企業ごとに抽出された文字列であって、当該文字列を含む質問文が所定のサービスに有用でない可能性が高いことを示す文字列である。例えば、ソフトウェア開発会社「M社」の就職非関連の質問文に含まれる非有用キーワードとして「アップデート」等がある。
【0028】
情報処理装置10は、就職に関する有用キーワードおよび非有用キーワードをリスト化する場合には、就職に関するアノテーションデータによって学習した分類モデル14dを用いて、収集された特定の企業名を含んだラベルなし質問文を分類することによって仮ラベル付けを行う。例えば、情報処理装置10は、「Y社」に関するキーワード辞書14b-2を作成する場合には、「Y社」の企業名を含んだラベルなし質問文の入力を受け付け、就職に関する分類モデル14dを用いて、就職関連または就職非関連の仮ラベルが付与された質問文である仮ラベルデータを出力する。
【0029】
続いて、情報処理装置10は、アノテーションデータの正例および仮ラベルデータの負例にはあまり含まれず、仮ラベルデータの正例には比較的多く含まれる単語を有用キーワードとして抽出する。一方、情報処理装置10は、アノテーションデータの負例および仮ラベルデータの正例にはあまり含まれず、仮ラベルデータの負例には比較的多く含まれる単語を非有用キーワードとして抽出する。このとき、情報処理装置10は、単語の出現頻度や相互情報量に基づいて、有用キーワードおよび非有用キーワードを抽出する。また、情報処理装置10は、質問文に含まれる文字列の品詞を判定し、特定の品詞(例:名詞)のみを抽出してもよい。
【0030】
最後に、情報処理装置10は、抽出した有用キーワードおよび非有用キーワードを、企業名や企業IDと紐づけしたキーワード辞書14b-2を生成する。このとき、情報処理装置10は、企業ごとに生成されたキーワード辞書14b-2をもとに、企業のカテゴリで共通する有用キーワードおよび非有用キーワードを抽出してもよいし、すべての企業で共通する汎用的な有用キーワードおよび非有用キーワードを抽出してもよい。
【0031】
(1-2-2-3.投稿情報選択処理)
図1(2-3)に示すように、情報処理装置10は、キーワード辞書14b-2を用いて、質問サイト投稿文20の質問文のキーワードマッチを行う(投稿情報選択処理)。このとき、情報処理装置10は、キーワード辞書14b-2に記載されている企業名キーワードをもとに、質問文と企業IDとを紐づけしたキーワードマッチ結果(選択結果)である選択リスト14b-3を出力する。
【0032】
また、情報処理装置10は、分類結果である分類リスト14b-1をもとに、選択リスト14b-3から質問文を削除する。例えば、情報処理装置10は、選択リスト14b-3に記載されたNo.1~No.4の質問文のうち、分類リスト14b-1において有用判定が「×」であるNo.3およびNo.4の質問文を削除する。
【0033】
さらに、情報処理装置10は、キーワード辞書14b-2に記載されている有用キーワードおよび非有用キーワードをもとに、選択リスト14b-3における質問文と企業IDとの紐づけを変更する。例えば、情報処理装置10は、有用キーワードが含まれていない質問文のうち、企業IDと紐づけされている質問文があれば、当該企業IDとの紐づけから外す。一方、情報処理装置10は、非有用キーワードが含まれている質問文のうち、企業IDと紐づけされている質問文があれば、当該企業IDとの紐づけから外す。このとき、情報処理装置10は、有用キーワードと非有用キーワードとのうち、いずれか一方を用いて選択処理を実行することができる。すなわち、情報処理装置10は、有用キーワードおよび非有用キーワードが両方含まれている質問文がある場合には、有用キーワードを優先して紐づけしてもよいし、非有用キーワードを優先して紐づけから外してもよい。
【0034】
上述してきた処理によって、情報処理装置10は、企業ごとに作成した選択結果である選択リスト14b-3を、就職活動支援サイト表示画面30に表示する表示情報であるQ&A一覧31として出力する。例えば、情報処理装置10は、「Y社」の就職活動支援サイト表示画面30に表示するQ&A一覧31として、「Y社の年収はどのくらいなのでしょうか?」の質問文および回答文を出力する。
【0035】
また、情報処理装置10は、企業ごとに作成した選択結果である選択リスト14b-3をもとに、同様の質問文が投稿された企業に関する情報を表示情報として出力することもできる。例えば、情報処理装置10は、「年収はどのくらいなのでしょうか?」の質問文が投稿されている「Y社」以外の企業として「R社」を出力することもできる。
【0036】
(1-2-3.出力処理)
図1(3)に示すように、情報処理装置10は、Q&A一覧31を含む就職活動支援サイト表示画面30を出力する(
図1(3)参照)。このとき、情報処理装置10は、出力した表示情報であるQ&A一覧31を、通信部11を介して図示しない端末に送信してもよい。
【0037】
(1-3.情報処理システム100の効果)
情報処理システム100の効果について、有用キーワードおよび非有用キーワードを使用しない技術での問題点を具体的に説明した上で、詳細に説明する。
【0038】
(1-3-1.問題点)
まず、有用キーワードおよび非有用キーワードを使用しない技術、すなわち所定のサービスごとに学習された分類モデル14dによる分類処理の問題点について説明する。例えば、就職に関する分類モデル14dを用いて、質問文「M社の提供する○○のような資格を取るとY社の就職に有利?」を分類することを考える。分類モデル14dによる分類処理では、「資格」、「就職」の単語に反応し、就職関連の質問文であると判定する。しかしながら、上記の分類処理では、「M社」、「Y社」の企業名に反応し、「M社」および「Y社」の就職関連の質問文と判定してしまう。ここで、資格名「○○」は、「M社」が提供する資格であるので、「M社」の就職関連の質問文として分類することは適切ではない。上記の例であれば、資格名「○○」および「資格」の単語が含まれる質問文は「M社」とは紐づけせず、「Y社」とは紐づけすることが好ましい。一方、上記の問題点を解消するために、「M社」や「Y社」等の各企業専用の就職関連の分類モデル14dを作成し、分類処理に用いることも難しい。
【0039】
以上のように、企業によってその質問が就職に関連するか否かの基準は違うので、汎用の分類モデル14dの分類処理のみで就職活動支援サイトに表示するQ&A一覧31を作成することは困難である。そこで、実施形態に係る情報処理システム100では、上記の分類モデル14dの分類処理に加えて、企業ごとの有用キーワードおよび非有用キーワードを含むキーワード辞書14b-2を作成し、当該キーワード辞書14b-2を用いてQ&A一覧31を選択することによって、上記の問題点を解消する。
【0040】
(1-3-2.概要)
情報処理システム100では、情報処理装置10は、質問サイトにおいて投稿された質問サイト投稿文20を取得し、就職活動支援サイトにおいてQ&A一覧31を表示する際に有用である有用キーワード、および有用でない非有用キーワードのうち少なくとも1つに基づいて、就職活動支援サイトに登録された企業ごとに、質問サイト投稿文20から就職活動支援サイトに表示するQ&A一覧31を選択し、当該Q&A一覧31を表示する。このとき、情報処理装置10は、質問サイト投稿文20と就職活動支援サイトにおける有用性とを学習した分類モデル14dを用いて、取得された質問サイト投稿文20を分類し、有用性があると分類された質問サイト投稿文20から、Q&A一覧31に表示する質問文を選択する。さらに、情報処理装置10は、企業に関連する質問サイト投稿文20に含まれる単語のうち、就職活動支援サイトにおいて有用である有用キーワード、および有用でない非有用キーワードを抽出し、企業を示す企業IDと、有用キーワードおよび非有用キーワードとを対応付けたキーワード辞書14b-2を生成する。
【0041】
(1-3-3.効果)
このため、情報処理システム100では、利用者に対して効率的に情報を提供することができる。すなわち、情報処理システム100では、就職活動支援サイトの利用者が閲覧するQ&A一覧31を効率的に作成することができる。また、情報処理システム100では、上記のQ&A一覧31を作成するための有用キーワードおよび非有用キーワードを含むキーワード辞書14b-2を自動生成することができるので、さらにQ&A一覧31を効率的に、かつ効果的に作成することができる。
【0042】
〔2.情報処理装置10の構成〕
図2を用いて、実施形態に係る情報処理装置10の構成について説明する。
図2は、実施形態に係る情報処理装置10の構成例を示すブロック図である。
図2に示すように、情報処理装置10は、通信部11、入力部12、出力部13、記憶部14および制御部15を有する。
【0043】
(2-1.通信部11)
通信部11は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部11は、所定の通信網(ネットワーク)と有線または無線で接続され、各種装置との間で情報の送受信を行う。
【0044】
(2-2.入力部12)
入力部12は、例えば、キーボードやマウス等で実現される。そして、入力部12は、情報処理装置10の管理者等から各種操作を受け付ける。例えば、入力部12は、情報処理装置10の管理者等から質問サイト投稿文20の入力を受け付ける。
【0045】
(2-3.出力部13)
出力部13は、例えば、液晶ディスプレイ等で実現される。そして、出力部13は、各種情報を表示する。例えば、出力部13は、情報処理装置10の制御部15によって生成された就職活動支援サイト表示画面30を表示する。
【0046】
(2-4.記憶部14)
記憶部14は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部14は、
図2に示すように、収集情報記憶部14a、処理結果記憶部14b、学習データ記憶部14cおよび学習モデル14dを有する。そして、記憶部14は、制御部15が動作する際に参照する各種情報や、制御部15が動作した際に取得した各種情報を記憶する。
【0047】
(2-4-1.収集情報記憶部14a)
収集情報記憶部14aは、情報処理装置10の取得部15aによって取得された収集情報を記憶する。例えば、収集情報記憶部14aは、質問サイトサーバから取得した質問サイト投稿文20である投稿情報、企業名データベースから取得した企業の情報である事業者情報、インターネット百科事典等の外部リソースから取得した外部リソース情報等を記憶する。
【0048】
(2-4-2.処理結果記憶部14b)
処理結果記憶部14bは、情報処理装置10の分類部15b、生成部15cおよび選択部15dによって出力された処理結果を記憶する。例えば、処理結果記憶部14bは、分類結果である分類部15bによって出力された分類リスト14b-1、生成結果である生成部15cによって出力されたキーワード辞書(文字列情報)14b-2、選択結果である選択部15dによって出力された選択リスト14b-3等を記憶する。また、処理結果記憶部14bは、表示部15eが表示するQ&A一覧(表示情報)31を記憶してもよい。
【0049】
(2-4-3.学習データ記憶部14c)
学習データ記憶部14cは、機械学習モデルの学習を行うための学習データを記憶する。例えば、学習データ記憶部14cは、学習データ「入力データ、正解情報」として「質問サイト投稿文、就職に関する有用判定」等の機械学習モデル14dに入力するためのラベル付きのアノテーションデータを記憶する。
【0050】
(2-4-4.学習モデル14d)
学習モデル14dは、質問サイト投稿文20の入力に応じて就職に関する有用判定を出力するように学習された、単語ベースの線形分類モデルである。例えば、学習モデル14dは、学習データ記憶部14cに記憶される就職に関するアノテーションデータを用いて生成された学習済みモデルである。
【0051】
(2-5.制御部15)
制御部15は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置10内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部15は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
【0052】
図2に示すように、制御部15は、取得部15a、分類部15b、生成部15c、選択部15d、表示部15eおよび学習部15fを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部15の内部構成は、
図2に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部15が有する各処理部の接続関係は、
図2に示した接続関係に限られず、他の接続関係であってもよい。
【0053】
(2-5-1.取得部15a)
取得部15aは、質問サイトにおいて投稿された投稿情報を取得する。例えば、取得部15aは、質問サイトを管理するサーバから、投稿情報である質問サイト投稿文20を取得する。また、取得部15aは、企業名データベースから、企業の情報である事業者情報を取得する。また、取得部15aは、インターネット百科事典等の外部リソースから、外部リソース情報を取得する。
【0054】
なお、取得部15aは、取得した投稿情報、事業者情報および外部リソース情報を収集情報記憶部14aに格納する。
【0055】
(2-5-2.分類部15b)
分類部15bは、投稿情報と所定のサービスにおける有用性とを学習した機械学習モデル14dを用いて、取得された投稿情報を分類する。例えば、分類部15bは、質問サイト投稿文20と就職活動支援サイトにおける有用性とをアノテーションデータを用いて学習した分類モデル14dを用いて、取得された質問サイト投稿文20を「就職関連」または「就職非関連」のいずれかに分類する。
【0056】
なお、分類部15bは、分類対象となる質問サイト投稿文20を収集情報記憶部14aから取得する。一方、分類部15bは、分類結果である質問文ごとに有用判定が示された分類リスト14b-1を処理結果記憶部14bに格納する。
【0057】
(2-5-3.生成部15c)
生成部15cは、機械学習モデル14dの学習に用いる学習データと、所定の対象に関連する投稿情報から機械学習モデル14dを用いて出力された分類結果とに基づいて、当該対象に関連する投稿情報に含まれる文字列のうち、当該投稿情報が提供されたサービスとは異なるサービスにおいて有用である有用文字列(有用キーワード)、および有用でない非有用文字列(非有用キーワード)を抽出し、当該対象を示す対象情報と、有用文字列および非有用文字列とを対応付けた文字列情報を生成する。例えば、生成部15cは、文字列情報として、対象に関するコンテンツを表示する際に、当該コンテンツ内に配置して表示する投稿情報の選択に用いられる情報を生成する。
【0058】
具体的な例を挙げて説明すると、生成部15cは、就職に関する分類モデル14dの学習に用いるアノテーションデータと、企業「Y社」に関連する質問サイト投稿文20から分類モデル14dを用いて出力された分類リスト14b-1とに基づいて、「Y社」に関連する質問サイト投稿文20に含まれる単語のうち、就職活動支援サイトにおいて有用である有用キーワード、および有用でない非有用キーワードを抽出し、「Y社」を示す企業ID「23」と、有用キーワードおよび非有用キーワードとを対応付けた選択リスト14b-3を生成する。
【0059】
有用キーワードおよび非有用キーワードの抽出処理について説明すると、生成部15cは、文字列の出現頻度または相互情報量を含む判定値を算出し、学習データの正例において判定値が所定の閾値未満であって、分類結果の負例において判定値が所定の閾値未満であって、かつ分類結果の正例において判定値が所定の閾値以上である文字列を有用文字列として抽出し、文字列情報を生成する。すなわち、生成部15cは、全体の企業における就職関連を示す質問文に少なく、かつ特定の企業における就職関連を示す質問文に顕著に多い単語を、企業ごとの特徴を示す就職関連のキーワードである有用キーワードとして抽出する。
【0060】
一方、生成部15cは、文字列の出現頻度または相互情報量を含む判定値を算出し、学習データの負例において判定値が所定の閾値未満であって、分類結果の正例において判定値が所定の閾値未満であって、かつ分類結果の負例において判定値が所定の閾値以上である文字列を非有用文字列として抽出し、文字列情報を生成する。すなわち、生成部15cは、全体の企業における就職非関連を示す質問文に少なく、かつ特定の企業における就職非関連を示す質問文に顕著に多い単語を、企業ごとの特徴を示す就職非関連のキーワードである非有用キーワードとして抽出する。
【0061】
なお、生成部15cは、学習データであるアノテーションデータを学習データ記憶部14cから取得する。また、生成部15cは、所定の対象に関連する投稿情報である質問サイト投稿文20を収集情報記憶部14aから取得する。一方、生成部15cは、生成結果の文字列情報であるキーワード辞書14b-2を処理結果記憶部14bに格納する。
【0062】
(2-5-4.選択部15d)
選択部15dは、所定のサービスにおいて投稿情報に関する表示情報を表示する際に有用である有用文字列(有用キーワード)、および/または有用でない非有用文字列(非有用キーワード)に基づいて、所定の対象と当該投稿情報とを対応付けた表示情報を選択する。例えば、選択部15dは、就職活動支援サイトにおける有用キーワード、および非有用キーワードのうち少なくとも1つに基づいて、就職活動支援サイトに登録された事業者(企業)ごとに、表示情報であるQ&A一覧31を選択する。
【0063】
選択部15dは、有用性があると分類された投稿情報から、表示情報を選択する。例えば、選択部15dは、分類部15bによって就職活動支援サイトにおいて有用である「就職関連」と分類された質問サイト投稿文20から、企業ごとにQ&A一覧31を選択する。このとき、選択部15dは、企業名を含む質問サイト投稿文20を当該企業IDと紐づけて企業ごとの選択リスト14b-3を作成し、当該選択リスト14b-3のうち分類部15bによって「就職非関連」と分類された質問サイト投稿文20を削除し、企業ごとにQ&A一覧31を選択する。
【0064】
さらに、選択部15dは、有用キーワードが含まれる投稿情報を表示情報として選択し、非有用キーワードが含まれる投稿情報を表示情報として選択しない。例えば、選択部15dは、企業名をもとに作成された企業ごとの選択リスト14b-3の有用キーワードが含まれていない質問文のうち、企業IDと紐づけされている質問文があれば、当該企業IDとの紐づけから外す。一方、選択部15dは、企業名をもとに作成された企業ごとの選択リスト14b-3の非有用キーワードが含まれている質問文のうち、企業IDと紐づけされている質問文があれば、当該企業IDとの紐づけから外す。このとき、選択部15dは、有用キーワードと非有用キーワードとのうち、いずれか一方を用いて選択処理を実行することができる。すなわち、選択部15dは、有用キーワードおよび非有用キーワードが両方含まれている質問文がある場合には、有用キーワードを優先して紐づけしてもよいし、非有用キーワードを優先して紐づけから外してもよい。
【0065】
なお、選択部15dは、投稿情報である質問サイト投稿文20を収集情報記憶部14aから取得する。また、選択部15dは、分類結果である分類リスト14b-1を処理結果記憶部14bから取得する。一方、選択部15dは、選択結果である企業ごとの最終的な選択リスト14b-3、すなわち企業ごとのQ&A一覧31を処理結果記憶部14bに格納する。
【0066】
(2-5-5.表示部15e)
表示部15eは、表示情報を表示する。例えば、表示部15eは、就職活動支援サイト表示画面30上に、企業ごとにQ&A一覧31を表示する。また、表示部15eは、就職活動支援サイト表示画面30上に、共通する質問文に出現する企業名を表示情報として表示する。なお、表示部15eは、企業ごとのQ&A一覧31等の表示情報を処理結果記憶部14bから取得する。また、表示部15eは、企業ごとのQ&A一覧31等の表示情報を、図示しない事業者端末やデータベースに送信してもよい。
【0067】
(2-5-6.学習部15f)
学習部15fは、収集された質問文に対して当該質問文が就職に関する有用な情報であるか否かのラベルが付与されたアノテーションデータを用いて、入力された質問サイト投稿文20が「就職関連」または「就職非関連」のいずれであるかの分類結果を出力するように、機械学習モデル14dの学習を行う。このとき、学習部13fは、バックプロパゲーション等により機械学習モデル14dの学習を行ってもよい。また、学習部15fは、複数の機械学習モデル14dの学習を行うこともできる。
【0068】
〔3.情報処理の具体例〕
続いて、実施形態に係る情報処理の具体例について説明する。以下では、情報処理装置10の有用キーワードを用いた選択処理、非有用キーワードを用いた選択処理、有用キーワードおよび非有用キーワードの抽出処理の具体例について説明する。
【0069】
(3-1.有用キーワードを用いた選択処理)
図3を用いて、実施形態に係る有用キーワードを用いた選択処理について説明する。
図3は、実施形態に係る選択処理の具体例1を示す図である。以下では、作業服販売会社「W社」の就職関連の質問文に含まれる有用キーワードの例について説明する。
【0070】
図3に示すように、「W社」の有用キーワードとして「求人」等が登録されている場合(
図3(1)参照)、情報処理装置10は、「求人」が含まれている質問文を「W社」の就職関連の質問文として選択する(
図3(2)参照)。すなわち、情報処理装置10は、「求人」というキーワードが「W社」の企業名が含まれる質問文において、就職関連の質問文である可能性が高いと判定する。
図3の例で示すように、有用キーワードが含まれる質問文は、所定のサービス(例:就職活動支援サイト)に有用である可能性が高いことを示す。
【0071】
(3-2.非有用キーワードを用いた選択処理)
図4を用いて、実施形態に係る非有用キーワードを用いた選択処理について説明する。
図4は、実施形態に係る選択処理の具体例2を示す図である。以下では、ソフトウェア開発会社「M社」の就職非関連の質問文に含まれる非有用キーワードの例について説明する。
【0072】
図4に示すように、「M社」の非有用キーワードとして「アップデート」、「表計算ソフトE」等が登録されている場合(
図4(1)参照)、情報処理装置10は、「アップデート」、「表計算ソフトE」が含まれている質問文を「M社」の就職非関連の質問文として選択する(
図4(2)参照)。すなわち、情報処理装置10は、「M社」のサービスに関連する「アップデート」や、「M社」の製品である「表計算ソフトE」というキーワードが「M社」の企業名が含まれる質問文において、就職非関連の質問文である可能性が高いと判定する。
図4の例で示すように、非有用キーワードが含まれる質問文は、所定のサービス(例:就職活動支援サイト)に有用でない可能性が高いことを示す。
【0073】
(3-3.有用キーワードおよび非有用キーワードの抽出処理)
図5を用いて、実施形態に係る有用キーワードおよび非有用キーワードの抽出処理について説明する。
図5は、実施形態に係る抽出処理の具体例を示す図である。ここで、アノテーションデータの正例は、全体の企業における「就職関連」とラベル付けされた質問文であり、アノテーションデータの負例は、全体の企業における「就職非関連」とラベル付けされた質問文であり、仮ラベルデータの正例は、特定の企業における「就職関連」と仮ラベル付けされた質問文であり、仮ラベルデータの負例は、特定の企業における「就職非関連」と仮ラベル付けされた質問文である。
【0074】
図5に示すように、情報処理装置10は、アノテーションデータの正例において少なく、仮ラベルデータの負例において少なく、かつ仮ラベルデータの正例において多く含まれる単語を有用キーワードとして抽出する。すなわち、情報処理装置10は、全体の企業における就職関連を示す質問文に少なく、かつ特定の企業における就職関連を示す質問文に顕著に多い単語を、企業ごとの特徴を示す就職関連のキーワードである有用キーワードとして抽出する。
【0075】
一方、情報処理装置10は、アノテーションデータの負例において少なく、仮ラベルデータの正例において少なく、かつ仮ラベルデータの負例において多く含まれる単語を非有用キーワードとして抽出する。すなわち、情報処理装置10は、全体の企業における就職非関連を示す質問文に少なく、かつ特定の企業における就職非関連を示す質問文に顕著に多い単語を、企業ごとの特徴を示す就職非関連のキーワードである非有用キーワードとして抽出する。
【0076】
〔4.情報処理の流れ〕
図6を用いて、実施形態に係る情報処理装置10の情報処理の手順について説明する。
図6は、実施形態に係る情報処理の流れの一例を示すフローチャートである。なお、下記のステップS101~S105は、異なる順序で実行することもできる。また、下記のステップS101~S105のうち、省略される処理があってもよい。
【0077】
(4-1.投稿情報取得処理)
第1に、情報処理装置10の取得部15aは、投稿情報取得処理を実行する(ステップS101)。例えば、取得部15aは、質問サイトサーバから、投稿された質問サイト投稿文20を取得する。
【0078】
(4-2.投稿情報分類処理)
第2に、情報処理装置10の分類部15bは、投稿情報分類処理を実行する(ステップS102)。例えば、分類部15bは、就職に関する分類モデル14dを用いて、質問サイト投稿文20を就職関連、または就職非関連に分類する。
【0079】
(4-3.文字列情報生成処理)
第3に、情報処理装置10の生成部15cは、文字列情報生成処理を実行する(ステップS103)。例えば、生成部15cは、アノテーションデータと企業ごとの質問サイト投稿文20とから、就職に関する分類モデル14dを用いて、企業ごとに有用キーワードおよび非有用キーワードを紐づけしたキーワード辞書14b-2を生成する。
【0080】
(4-4.投稿情報選択処理)
第4に、情報処理装置10の選択部15dは、投稿情報選択処理を実行する(ステップS104)。例えば、選択部15dは、キーワード辞書14b-2をもとに、企業ごとに選択リスト14b-3を作成し、就職活動支援サイトに表示するQ&A一覧31を生成する。
【0081】
(4-5.投稿情報表示処理)
第5に、情報処理装置10の表示部15eは、投稿情報表示処理を実行し(ステップS105)、処理を終了する。例えば、表示部15eは、企業ごとにQ&A一覧31を含む就職活動支援サイト表示画面30を表示する。
【0082】
〔5.実施形態の効果〕
最後に、実施形態の効果について説明する。以下では、実施形態に係る処理に対応する効果1~7について説明する。
【0083】
(5-1.効果1)
上述した実施形態に係る処理では、質問サイトにおいて投稿された投稿情報を取得し、所定の対象と当該投稿情報とを対応付けた表示情報を選択し、当該表示情報を表示する。このため、本処理では、利用者に対して効率的に情報を提供することができる。
【0084】
(5-2.効果2)
上述した実施形態に係る処理では、投稿情報と所定のサービスにおける有用性とを学習した機械学習モデルを用いて、取得した投稿情報を分類し、有用性があると分類した投稿情報から、表示情報を選択する。このため、本処理では、所定のサービスにおける分類モデルを用いて、利用者に対して効率的に情報を提供することができる。
【0085】
(5-3.効果3)
上述した実施形態に係る処理では、有用文字列が含まれる投稿情報を表示情報として選択し、非有用文字列が含まれる投稿情報を表示情報として選択しない。このため、本処理では、利用者に対して効率的に効果的な情報を提供することができる。
【0086】
(5-4.効果4)
上述した実施形態に係る処理では、就職活動支援サイトにおいて表示情報を表示する際に有用である有用文字列、および/または有用でない非有用文字列に基づいて、就職活動支援サイトに登録された事業者と投稿情報とを対応付けた表示情報を選択する。このため、本処理では、就職活動支援サイトの利用者に対して効率的に情報を提供することができる。
【0087】
(5-5.効果5)
上述した実施形態に係る処理では、機械学習モデルの学習に用いる学習データと、所定の対象に関連する投稿情報から機械学習モデルを用いて出力された分類結果とに基づいて、所定の対象に関連する投稿情報に含まれる文字列のうち、当該投稿情報が提供されたサービスとは異なるサービスにおいて有用である有用文字列、および有用でない非有用文字列を抽出し、所定の対象を示す対象情報と、当該有用文字列および当該非有用文字列とを対応付けた文字列情報を生成する。このため、本処理では、所定の対象ごとに効果的に文字列情報を生成することによって、利用者に対して効率的に情報を提供することができる。
【0088】
(5-6.効果6)
上述した実施形態に係る処理では、文字列の出現頻度または相互情報量を含む判定値を算出し、学習データの正例において判定値が所定の閾値未満であって、分類結果の負例において判定値が所定の閾値未満であって、かつ分類結果の正例において判定値が所定の閾値以上である文字列を有用文字列として抽出し、文字列情報を生成する。このため、本処理では、所定の対象ごとに効果的に有用文字列を含む文字列情報を生成することによって、利用者に対して効率的に情報を提供することができる。
【0089】
(5-7.効果7)
上述した本実施形態に係る処理では、文字列の出現頻度または相互情報量を含む判定値を算出し、学習データの負例において判定値が所定の閾値未満であって、分類結果の正例において判定値が所定の閾値未満であって、かつ分類結果の負例において判定値が所定の閾値以上である文字列を非有用文字列として抽出し、前記文字列情報を生成する。このため、本処理では、所定の対象ごとに効果的に非有用文字列を含む文字列情報を生成することによって、利用者に対して効率的に情報を提供することができる。
【0090】
〔ハードウェア構成〕
また、上述してきた実施形態に係る情報処理装置10は、例えば、
図7に示すような構成のコンピュータ1000によって実現される。以下、情報処理装置10を例に挙げて説明する。
図7は、情報処理装置10の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、およびメディアインターフェイス(I/F)1700を有する。
【0091】
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
【0092】
HDD1400は、CPU1100によって実行されるプログラム、および、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、所定の通信網を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを所定の通信網を介して他の機器へ送信する。
【0093】
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。
【0094】
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0095】
例えば、コンピュータ1000が実施形態に係る情報処理装置10として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部15の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。
【0096】
〔その他〕
以上、本願の実施形態を説明したが、これら実施形態の内容により本発明が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換または変更を行うことができる。
【0097】
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0098】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。
【0099】
例えば、上述した情報処理装置10は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットホーム等をAPI(Application Programming Interface)やネットワークコンピューティング等で呼び出して実現するなど、構成は柔軟に変更できる。
【0100】
また、上述してきた実施形態および変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0101】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、制御部は、制御手段や制御回路に読み替えることができる。
【符号の説明】
【0102】
10 情報処理装置
11 通信部
12 入力部
13 出力部
14 記憶部
14a 収集情報記憶部
14b 処理結果記憶部
14c 学習データ記憶部
14d 学習モデル
15 制御部
15a 取得部
15b 分類部
15c 生成部
15d 選択部
15e 表示部
15f 学習部
20 質問サイト投稿文(投稿情報)
30 就職活動支援サイト表示画面
31 Q&A一覧(表示情報)
100 情報処理システム
【手続補正書】
【提出日】2023-08-18
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
質問サイトにおいて投稿された投稿情報を取得する取得部と、
前記投稿情報と所定のサービスにおける有用性とを学習した機械学習モデルを用いて、取得された前記投稿情報を分類する分類部と、
前記機械学習モデルの学習に用いる学習データと前記機械学習モデルの過去の分類結果とを用いて抽出された文字列であって、前記所定のサービスにおいて前記投稿情報に関する表示情報を表示する際に有用である有用文字列、および/または有用でない非有用文字列に基づいて、所定の対象と前記投稿情報とを対応付けた前記表示情報を選択する選択部と、
前記表示情報を表示する表示部と、
を備えることを特徴とする情報処理装置。
【請求項2】
前記選択部は、有用性があると分類された前記投稿情報から、前記表示情報を選択する、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記選択部は、前記有用文字列が含まれる前記投稿情報を前記表示情報として選択し、前記非有用文字列が含まれる前記投稿情報を前記表示情報として選択しない、
ことを特徴とする請求項1または2に記載の情報処理装置。
【請求項4】
前記選択部は、就職活動支援サイトにおいて前記表示情報を表示する際に有用である有用文字列、および/または有用でない非有用文字列に基づいて、前記就職活動支援サイトに登録された事業者と前記投稿情報とを対応付けた前記表示情報を選択する、
ことを特徴とする請求項1から3のいずれか1項に記載の情報処理装置。
【請求項5】
前記機械学習モデルの学習に用いる学習データと、前記対象に関連する収集されたラベルのない過去の投稿情報から前記機械学習モデルを用いて出力された分類結果とに基づいて、前記有用文字列および前記非有用文字列を抽出し、前記対象を示す対象情報と、前記有用文字列および前記非有用文字列とを対応付けた文字列情報を生成する生成部、
をさらに備えることを特徴とする請求項1または2に記載の情報処理装置。
【請求項6】
前記生成部は、文字列の出現頻度または相互情報量を含む判定値を算出し、前記学習データの正例において前記判定値が所定の閾値未満であって、前記分類結果の負例において前記判定値が所定の閾値未満であって、かつ前記分類結果の正例において前記判定値が所定の閾値以上である文字列を前記有用文字列として抽出し、前記文字列情報を生成する、
ことを特徴とする請求項5に記載の情報処理装置。
【請求項7】
前記生成部は、文字列の出現頻度または相互情報量を含む判定値を算出し、前記学習データの負例において前記判定値が所定の閾値未満であって、前記分類結果の正例において前記判定値が所定の閾値未満であって、かつ前記分類結果の負例において前記判定値が所定の閾値以上である文字列を前記非有用文字列として抽出し、前記文字列情報を生成する、
ことを特徴とする請求項5に記載の情報処理装置。
【請求項8】
情報処理装置によって実行される情報処理方法であって、
質問サイトにおいて投稿された投稿情報を取得する取得工程と、
前記投稿情報と所定のサービスにおける有用性とを学習した機械学習モデルを用いて、取得された前記投稿情報を分類する分類工程と、
前記機械学習モデルの学習に用いる学習データと前記機械学習モデルの過去の分類結果とを用いて抽出された文字列であって、前記所定のサービスにおいて前記投稿情報に関する表示情報を表示する際に有用である有用文字列、および/または有用でない非有用文字列に基づいて、所定の対象と前記投稿情報とを対応付けた前記表示情報を選択する選択工程と、
前記表示情報を表示する表示工程と、
を含むことを特徴とする情報処理方法。
【請求項9】
質問サイトにおいて投稿された投稿情報を取得する取得手順と、
前記投稿情報と所定のサービスにおける有用性とを学習した機械学習モデルを用いて、取得された前記投稿情報を分類する分類手順と、
前記機械学習モデルの学習に用いる学習データと前記機械学習モデルの過去の分類結果とを用いて抽出された文字列であって、前記所定のサービスにおいて前記投稿情報に関する表示情報を表示する際に有用である有用文字列、および/または有用でない非有用文字列に基づいて、所定の対象と前記投稿情報とを対応付けた前記表示情報を選択する選択手順と、
前記表示情報を表示する表示手順と、
をコンピュータに実行させることを特徴とする情報処理プログラム。