(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024155156
(43)【公開日】2024-10-31
(54)【発明の名称】情報処理装置、情報処理方法および情報処理プログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20241024BHJP
G06Q 50/00 20240101ALI20241024BHJP
【FI】
G06N20/00
G06Q50/00 300
【審査請求】有
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2023069608
(22)【出願日】2023-04-20
(71)【出願人】
【識別番号】500257300
【氏名又は名称】LINEヤフー株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】清水 徹
【テーマコード(参考)】
5L049
5L050
【Fターム(参考)】
5L049CC00
5L050CC00
(57)【要約】
【課題】コンテンツを適切に分類すること。
【解決手段】本発明に係る情報処理装置は、取得部と、学習部とを備える。取得部は、コンテンツと、当該コンテンツのテーマ情報とを含むコンテンツ情報を取得する。学習部は、取得部によって取得されたコンテンツ情報のうち、一部のテーマ情報を取り除いたコンテンツを学習データとして、コンテンツをベクトルに変換するモデルを学習させる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
コンテンツと、当該コンテンツのテーマ情報とを含むコンテンツ情報を取得する取得部と、
前記取得部によって取得された前記コンテンツ情報のうち、一部の前記テーマ情報を取り除いた前記コンテンツを学習データとして、前記コンテンツをベクトルに変換するモデルを学習させる学習部と
を備えることを特徴とする情報処理装置。
【請求項2】
前記学習部は、
前記コンテンツ情報に含まれる前記テーマ情報のベクトルと、前記コンテンツのベクトルとが類似するベクトルとなるように、前記モデルを学習させること
を特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記学習部は、
前記テーマ情報が類似する前記コンテンツ同士のベクトルが類似するベクトルとなるように、前記モデルを学習させること
を特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記取得部は、
利用者による投稿情報を前記コンテンツ情報として取得し、当該投稿情報に含まれるハッシュタグを前記テーマ情報として取得すること
を特徴とする請求項1に記載の情報処理装置。
【請求項5】
前記学習部は、
前記ハッシュタグを前記投稿情報に同化させた前記学習データを用いて前記モデルを学習させること
を特徴とする請求項4に記載の情報処理装置。
【請求項6】
前記学習部は、
前記投稿情報から前記ハッシュタグを削除した前記学習データを用いて前記モデルを学習させること
を特徴とする請求項4に記載の情報処理装置。
【請求項7】
コンピュータが実行する情報処理方法であって、
コンテンツと、当該コンテンツのテーマ情報とを含むコンテンツ情報を取得する取得工程と、
前記取得工程によって取得された前記コンテンツ情報のうち、一部の前記テーマ情報を取り除いた前記コンテンツを学習データとして、前記コンテンツをベクトルに変換するモデルを学習させる学習工程と
を含むことを特徴とする情報処理方法。
【請求項8】
コンテンツと、当該コンテンツのテーマ情報とを含むコンテンツ情報を取得する取得手順と、
前記取得手順によって取得された前記コンテンツ情報のうち、一部の前記テーマ情報を取り除いた前記コンテンツを学習データとして、前記コンテンツをベクトルに変換するモデルを学習させる学習手順と
をコンピュータに実行させることを特徴とする情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法および情報処理プログラムに関する。
【背景技術】
【0002】
従来、各種コンテンツを提供するサービスがある。例えば、かかるサービスでは、マイクロブログやSNS(Social Networking Service)など利用者によって投稿された各種コンテンツが提供される場合がある。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来技術では、各コンテンツをテーマごとに分類し、テーマにあったコンテンツを提供するものの、コンテンツを適切に分類するうえで改善の余地があった。
【0005】
本発明は、上記に鑑みてなされたものであって、コンテンツを適切に分類することが可能なモデルを提供することができる情報処理装置、情報処理方法および情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上述した課題を解決し、目的を達成するために、本発明に係る情報処理装置は、コンテンツと、当該コンテンツのテーマ情報とを含むコンテンツ情報を取得する取得部と、前記取得部によって取得された前記コンテンツ情報のうち、一部の前記テーマ情報を取り除いた前記コンテンツを学習データとして、前記コンテンツをベクトルに変換するモデルを学習させる学習部とを備える。
【発明の効果】
【0007】
本発明によれば、コンテンツを適切に分類することが可能なモデルを提供することができる。
【図面の簡単な説明】
【0008】
【
図1】
図1は、実施形態に係る情報処理の一例を示す図である。
【
図2】
図2は、実施形態に係る情報処理装置の構成例を示すブロック図である。
【
図3】
図3は、実施形態に係るコンテンツ情報記憶部に格納する情報の一例を示す図である。
【
図4】
図4は、実施形態に係る学習処理の処理手順の一例を示すフローチャートである。
【
図5】
図5は、実施形態に係る情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0009】
以下に、本願に係る情報処理装置、情報処理方法および情報処理プログラムを実施するための形態(以下、「実施形態」と記載する。)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法および情報処理プログラムが限定されるものではない。
【0010】
[実施形態]
〔1.情報処理〕
まず、
図1を用いて、実施形態に係る情報処理の一例について説明する。
図1は、実施形態に係る情報処理の一例を示す図である。なお、実施形態に係る情報処理は、
図1に示す情報処理装置1によって実現される。
【0011】
図1に示す情報処理装置1は、たとえば、テキスト情報によって構成されるコンテンツをベクトルに変換するモデルの学習を行う情報処理装置である。たとえば、情報処理装置1は、SNSサーバ200が運営する各種SNS(Social Networking Service)に投稿されたコンテンツを基に、モデルの学習を行う。
【0012】
図1に示す配信サーバ100は、たとえば、ニュースサイト等の各種メディアサイトを運営するサーバ装置である。配信サーバ100は、利用者に対してニュースコンテンツを提供する。
【0013】
図1に示すSNSサーバ200は、各種SNS(Social Networking Service)を運営するサーバ装置である。例えば、SNSサーバ200は、利用者によって投稿されたテキストや画像、動画等を含むコンテンツを他の利用者に対して提供する。
【0014】
例えば、SNSに投稿されたコンテンツは、ハッシュタグを含む場合がある。ここで、ハッシュタグは、一般的に、投稿されたコンテンツのテーマ自体やそれに紐づく事象を表すものとして取り扱われる。
【0015】
たとえば、ハッシュタグが共通するコンテンツの本文を、ハッシュタグが示すテーマを表す事象として学習することで、ハッシュタグを理解するようなモデルを生成することができる一方、かかるモデルでは、本文の理解が乏しくなる課題がある。
【0016】
また、ハッシュタグを取り除いた状態で、ハッシュタグが共通する本文を学習する場合、本文のテーマを理解するモデルを生成することができる一方、かかるモデルではハッシュタグについては未学習であるためハッシュタグを理解することができない。
【0017】
すなわち、コンテンツを分類するうえで、ハッシュタグが示すテーマと、テーマを表す事象をより正確にベクトルに反映することが課題となる。
【0018】
そこで、実施形態に係る情報処理装置1は、複数のコンテンツのうち、一部のハッシュタグを取り除いてモデルの学習を行うこととした。具体的には、
図1に示すように、情報処理装置1は、まず、SNSサーバ200からコンテンツを取得する(ステップS1)。
【0019】
つづいて、情報処理装置1は、学習データの生成を行う(ステップS2)。
図1に示す例において、投稿情報tw1が「#W杯での日本代表すごかったね#サッカー日本代表」であり、「#W杯」および「#サッカー日本代表」の2つのハッシュタグを含む。
【0020】
例えば、この場合、情報処理装置1は、「#サッカー日本代表」のハッシュタグを取り除いた「#W杯での日本代表すごかったね」という投稿情報tw2を学習データとして生成する。
【0021】
また、他の例として、情報処理装置1は、文頭のハッシュタグのうち、「#」を取り除き、「#W杯」のハッシュタグを本文中に埋め込んだ「W杯での日本代表すごかったね#サッカー日本代表」という投稿情報tw3を学習データとして生成するようにしてもよい。このように、情報処理装置1は、投稿情報twについてハッシュタグを本文に埋め込む、あるいは、ハッシュタグを削除することによって、一部の投稿情報twを変換して学習データの生成を行う。
【0022】
例えば、情報処理装置1は、各投稿情報twのうち、所定の割合(たとえば、50%)の投稿情報twについてハッシュタグを除く処理を行う。換言すれば、残りの50%は投稿情報twそのものが学習データとなる。なお、ここでの50%は任意に変更可能である。
【0023】
つづいて、情報処理装置1は、準備した学習データを基に、モデルの学習を行う(ステップS3)。
図1に示すように、モデルを用いて、テーマ(ハッシュタグ)が共通する投稿情報twaおよび投稿情報twbを対応するベクトルVaおよびベクトルVbへ変換する。
【0024】
そして、情報処理装置1は、ベクトルVaおよびベクトルVbが類似するベクトルとなるようにモデルの学習を行う。なお、ここでのモデルは、たとえば、Transformer等の自然言語処理モデルが採用可能である。
【0025】
また、情報処理装置1は、モデルを用いて、ハッシュタグと、投稿情報twの本文をベクトルへそれぞれ変換し、双方のベクトルが類似するベクトルとなるようにモデルの学習を行う。
【0026】
すなわち、一部の投稿情報twについてはハッシュタグを取り除き、残りの投稿情報twについてはハッシュタグを残した状態で、各投稿情報twをモデルを用いてベクトルへと変換し、テーマ(ハッシュタグ)が共通する投稿情報twのベクトルが類似するベクトルとなるようにモデルの学習を行う。
【0027】
これにより、情報処理装置1は、ハッシュタグおよび投稿情報twの本文の双方を理解可能なモデルを学習することができる。つまり、これらの処理によって、ハッシュタグが示すテーマおよびテーマを表す事象の双方をより正確にベクトルへ反映したモデルの学習が可能となる。
【0028】
つまり、かかるモデルによって、コンテンツをより適切なベクトルへ変換することができ、かかるベクトルによってコンテンツを適切に分類することができる。
【0029】
〔2.情報処理装置〕
次に、
図2を用いて、実施形態に係る情報処理装置1の構成例について説明する。
図2は、実施形態に係る情報処理装置1の構成例を示すブロック図である。
図2に示すように、情報処理装置1は、通信部2と、記憶部3と、制御部4とを備える。なお、情報処理装置1は、情報処理装置1を利用する管理者などから各種操作を受け付ける入力部(例えば、キーボードやマウスなど)や、各種情報を表示するための表示部(例えば、液晶ディスプレイなど)を有してもよい。
【0030】
通信部2は、例えば、NIC(Network Interface Card)などによって実現される。通信部2は、4G(4th Generation)または5G(5th Generation)などの通信ネットワークと有線または無線で接続され、通信ネットワークを介して、配信サーバ100やSNSサーバ200などの各々との間で情報の送受信を行う。
【0031】
記憶部3は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子、または、ハードディスク、光ディスクなどの記憶装置によって実現される。記憶部3は、コンテンツ情報記憶部31と、モデル記憶部32とを備える。
【0032】
コンテンツ情報記憶部31は、コンテンツ情報を記憶する。コンテンツ情報は、たとえば、SNSに投稿された各種コンテンツに関する情報である。
図3は、実施形態に係るコンテンツ情報記憶部31に格納する情報の一例を示す図である。
【0033】
図3に示すように、コンテンツ情報記憶部31は、「コンテンツID」、「ハッシュタグ」、「本文」などといった項目の情報を互いに対応付けて記憶する。「コンテンツID」項目には、各コンテンツを識別するための識別子が格納される。
【0034】
「ハッシュタグ」項目には、対応するコンテンツIDによって識別されるコンテンツのハッシュタグに関する情報が格納される。なお、コンテンツに複数のハッシュタグがある場合には、それぞれのハッシュタグが「ハッシュタグ」項目に格納される。
【0035】
「本文」項目には、対応するコンテンツIDによって識別されるコンテンツの本文に関する情報が格納される。なお、本文は、テキストであるが、画像や動画を含むようにしてもよい。
【0036】
図2の説明に戻り、モデル記憶部32について説明する。モデル記憶部32は、モデルを記憶する。モデルは、たとえば、Transformerなどの自然言語処理モデルである。後述するように、モデル記憶部32には、学習部43によって学習が行われたモデルが格納される。
【0037】
次に、制御部4について説明する。制御部4は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などによって、情報処理装置1内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部4は、例えば、コントローラであり、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路により実現される。
【0038】
図2に示すように、制御部4は、取得部41と、生成部42と、学習部43と、提供部44とを備え、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部4の内部構成は、
図2に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部4が有する各処理部の接続関係は、
図2に示した接続関係に限られず、他の接続関係であってもよい。
【0039】
取得部41は、SNSに投稿されたコンテンツを取得する。例えば、取得部41は、SNSサーバ200から投稿情報twをコンテンツとして取得し、コンテンツ情報記憶部31に登録する。この際、取得部41は、すべての投稿情報twを取得するようにしてもよく、特定のハッシュタグを含む投稿情報twを取得するようにしてもよい。
【0040】
たとえば、取得部41は、管理者等によって指定されたハッシュタグを含む投稿情報twや、SNSでトレンド入りしているハッシュタグを含む投稿情報twを取得するようにしてもよい。
【0041】
生成部42は、取得部41が取得した投稿情報twを基に、モデルの学習データを生成する。具体的には、生成部42は、一部の投稿情報twについて、ハッシュタグを取り除くことで、学習データを生成する。より詳細には、生成部42は、共通するハッシュタグを含む投稿情報twをコンテンツ情報記憶部31から抽出し、一部の投稿情報twについいてハッシュタグを取り除く処理を行う。
【0042】
例えば、生成部42は、
図1に示したように、一部の投稿情報twについて、文頭のハッシュタグの「#」を取り除くことで、ハッシュタグを本文に同化させる、あるいは、文末のハッシュタグを削除することで、ハッシュタグを取り除く処理を行う。
【0043】
そして、生成部42は、各ハッシュタグについてこれらの処理を実行し、生成した学習データを学習部43へと渡す。
【0044】
学習部43は、取得部41によって取得されたコンテンツ情報のうち、一部のテーマ情報を取り除いたコンテンツを学習データとして、コンテンツをベクトルに変換するモデルを学習させる。
【0045】
学習部43は、生成部42によって生成された学習データを用いて、モデルの学習を行う。具体的には、学習部43は、テーマが共通する投稿情報twのうち、一部はハッシュタグが取り除かれ、残りはハッシュタグがそのままの投稿情報twをそれぞれモデルに入力し、ベクトルを得る。
【0046】
そして、学習部43は、モデルから出力されるベクトルが類似するベクトルとなるようにモデルの学習を行う。たとえば、学習部43は、モデルの各パラメータを調整することで、テーマが共通する投稿情報twのベクトルが類似するベクトルとなるようにモデルの学習を行う。
【0047】
この際、学習部43は、同じ投稿情報twに含まれるハッシュタグのベクトルと、本文のベクトルが類似するベクトルとなるようにモデルを学習し、さらに、ハッシュタグが共通する本文同士のベクトルが類似するベクトルとなるようによモデルの学習を行う。
【0048】
このように、学習部43は、一部の投稿情報twについてはハッシュタグを残しつつ、残りの投稿情報twについてはハッシュタグを取り除いた状態でモデルの学習を行う。これにより、本文のテーマおよびハッシュタグの双方を理解可能なモデルの学習を行うことができる。
【0049】
提供部44は、学習部43によって学習が行われたモデルを配信サーバ100へ提供する。これにより、配信サーバ100は、モデルを用いて、各コンテンツをベクトルへと変換することにより、各コンテンツを分類することができる。
【0050】
なお、提供部44は、たとえば、モデルを用いて、SNSサーバ200から取得した各投稿情報twへと変換し、各投稿情報twを分類し、分類結果を配信サーバ100へ提供するようにしてもよい。なお、投稿情報twの分類は、たとえば、各ベクトルのクラスタリング処理によって行うことができる。
【0051】
〔3.処理フロー〕
次に、
図4を用いて、実施形態に係る情報処理装置1が実行する処理手順について説明する。
図4は、実施形態に係る学習処理の処理手順の一例を示すフローチャートである。なお、以下に示す処理は、所定の周期で繰り返し実行される。
【0052】
図4に示すように、情報処理装置1は、SNSサーバ200から投稿情報twを取得する(ステップS101)。つづいて、情報処理装置1は、ハッシュタグが共通する投稿情報twを抽出する(ステップS102)。
【0053】
つづいて、情報処理装置1は、抽出した投稿情報twのうち、一部の投稿情報twからハッシュタグを取り除く(ステップS103)。つづいて、情報処理装置1は、各投稿情報twのベクトルが類似するベクトルとなるようにモデルの学習を行い(ステップS104)、処理を終了する。
【0054】
〔4.変形例〕
上述した実施形態では、情報処理装置1が、コンテンツがSNSに投稿された投稿情報twであり、テーマ情報がハッシュタグである場合について説明したが、これに限定されるものではない。例えば、コンテンツは音楽などを含む各種コンテンツであってもよく、テーマ情報は、かかる音楽のジャンル(たとえば、クラシック音楽等)や作曲者、歌手であってもよい。
【0055】
また、例えば、コンテンツは、たとえば、映画等の動画コンテンツであってもよく、この場合のテーマ情報は、たとえば、映画のジャンル、監督、制作会社等であってもよい。
【0056】
〔5.効果〕
実施形態に係る情報処理装置1は、コンテンツと、当該コンテンツのテーマ情報とを含むコンテンツ情報を取得する取得部41と、取得部41によって取得されたコンテンツ情報のうち、一部のテーマ情報を取り除いたコンテンツを学習データとして、コンテンツをベクトルに変換するモデルを学習させる学習部43とを備える。
【0057】
また、学習部43は、コンテンツ情報に含まれるテーマ情報のベクトルと、コンテンツのベクトルとが類似するベクトルとなるように、モデルを学習させる。また、学習部43は、テーマ情報が類似するコンテンツ同士のベクトルが類似するベクトルとなるように、モデルを学習させる。
【0058】
また、取得部41は、利用者による投稿情報をコンテンツ情報として取得し、当該投稿情報に含まれるハッシュタグをテーマ情報として取得する。また、学習部43は、ハッシュタグを投稿情報に同化させた学習データを用いてモデルを学習させる。また、学習部43は、投稿情報からハッシュタグを削除した学習データを用いてモデルを学習させる。
【0059】
上述した各処理のいずれかもしくは組合せにより、本願に係る情報処理装置は、コンテンツを適切に分類することが可能なモデルを提供することができる。
【0060】
〔6.ハードウェア構成〕
また、上述してきた実施形態に係る情報処理装置1は、例えば
図5に示すような構成のコンピュータ1000によって実現される。
図5は、実施形態に係る情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
【0061】
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
【0062】
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、ネットワーク(通信ネットワーク)Nを介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータをネットワークNを介して他の機器へ送信する。
【0063】
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置(
図5では、出力装置および入力装置を総称して「入出力装置」と記載する)を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。
【0064】
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0065】
例えば、コンピュータ1000が実施形態に係る情報処理装置として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部4の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置からネットワークNを介してこれらのプログラムを取得してもよい。
【0066】
〔7.その他〕
以上、本願の実施形態を説明したが、これら実施形態の内容により本発明が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。
【0067】
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0068】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。
【0069】
例えば、上述した情報処理装置は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットフォーム等をAPI(Application Programming Interface)やネットワークコンピューティング等で呼び出して実現するなど、構成は柔軟に変更できる。
【0070】
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0071】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
【符号の説明】
【0072】
1 情報処理装置
2 通信部
3 記憶部
4 制御部
31 コンテンツ情報記憶部
32 モデル記憶部
41 取得部
42 生成部
43 学習部
44 提供部
100 配信サーバ
200 SNSサーバ
【手続補正書】
【提出日】2024-06-03
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
テキストデータであるコンテンツと、当該コンテンツのハッシュタグとを含むコンテンツ情報を取得する取得部と、
前記取得部によって取得された前記コンテンツ情報のうち、一部の前記ハッシュタグを取り除いた前記コンテンツを学習データとして、前記コンテンツをベクトルに変換するモデルを学習させる学習部と
を備え、
前記学習部は、
前記ハッシュタグを削除した後の前記コンテンツのベクトルと、前記ハッシュタグを削除する前の前記コンテンツのベクトルとが類似するベクトルとなるように前記モデルを学習させる
ことを特徴とする情報処理装置。
【請求項2】
前記学習部は、
前記コンテンツ情報に含まれる前記ハッシュタグのベクトルと、前記コンテンツのベクトルとが類似するベクトルとなるように、前記モデルを学習させること
を特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記学習部は、
前記ハッシュタグが類似する前記コンテンツ同士のベクトルが類似するベクトルとなるように、前記モデルを学習させること
を特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記学習部は、
前記ハッシュタグを前記コンテンツに同化させた前記学習データを用いて前記モデルを学習させること
を特徴とする請求項1に記載の情報処理装置。
【請求項5】
コンピュータが実行する情報処理方法であって、
テキストデータであるコンテンツと、当該コンテンツのハッシュタグとを含むコンテンツ情報を取得する取得工程と、
前記取得工程によって取得された前記コンテンツ情報のうち、一部の前記ハッシュタグを取り除いた前記コンテンツを学習データとして、前記コンテンツをベクトルに変換するモデルを学習させる学習工程と
を含み、
前記学習工程は、
前記ハッシュタグを削除した後の前記コンテンツのベクトルと、前記ハッシュタグを削除する前の前記コンテンツのベクトルとが類似するベクトルとなるように前記モデルを学習させる
ことを特徴とする情報処理方法。
【請求項6】
テキストデータであるコンテンツと、当該コンテンツのハッシュタグとを含むコンテンツ情報を取得する取得手順と、
前記取得手順によって取得された前記コンテンツ情報のうち、一部の前記ハッシュタグを取り除いた前記コンテンツを学習データとして、前記コンテンツをベクトルに変換するモデルを学習させる学習手順と
をコンピュータに実行させ、
前記学習手順は、
前記ハッシュタグを削除した後の前記コンテンツのベクトルと、前記ハッシュタグを削除する前の前記コンテンツのベクトルとが類似するベクトルとなるように前記モデルを学習させる
ことを特徴とする情報処理プログラム。
【手続補正書】
【提出日】2024-10-21
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
テキストデータであるコンテンツと、当該コンテンツのハッシュタグとを含むコンテンツ情報を取得する取得部と、
前記取得部によって取得された前記コンテンツ情報のうち、一部の前記ハッシュタグを取り除いた前記コンテンツを学習データとして、前記コンテンツをベクトルに変換するモデルを学習させる学習部と
を備え、
前記学習部は、
前記ハッシュタグが共通する前記コンテンツのうち、前記ハッシュタグを削除した後の前記コンテンツのベクトルと、当該コンテンツとは異なる前記コンテンツであって、前記ハッシュタグを削除する前の前記コンテンツのベクトルとが類似するベクトルとなるように前記モデルを学習させる
ことを特徴とする情報処理装置。
【請求項2】
前記学習部は、
前記コンテンツ情報に含まれる前記ハッシュタグのベクトルと、前記コンテンツのベクトルとが類似するベクトルとなるように、前記モデルを学習させること
を特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記学習部は、
前記ハッシュタグが類似する前記コンテンツ同士のベクトルが類似するベクトルとなるように、前記モデルを学習させること
を特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記学習部は、
前記ハッシュタグを前記コンテンツに同化させた前記学習データを用いて前記モデルを学習させること
を特徴とする請求項1に記載の情報処理装置。
【請求項5】
コンピュータが実行する情報処理方法であって、
テキストデータであるコンテンツと、当該コンテンツのハッシュタグとを含むコンテンツ情報を取得する取得工程と、
前記取得工程によって取得された前記コンテンツ情報のうち、一部の前記ハッシュタグを取り除いた前記コンテンツを学習データとして、前記コンテンツをベクトルに変換するモデルを学習させる学習工程と
を含み、
前記学習工程は、
前記ハッシュタグが共通する前記コンテンツのうち、前記ハッシュタグを削除した後の前記コンテンツのベクトルと、当該コンテンツとは異なる前記コンテンツであって、前記ハッシュタグを削除する前の前記コンテンツのベクトルとが類似するベクトルとなるように前記モデルを学習させる
ことを特徴とする情報処理方法。
【請求項6】
テキストデータであるコンテンツと、当該コンテンツのハッシュタグとを含むコンテンツ情報を取得する取得手順と、
前記取得手順によって取得された前記コンテンツ情報のうち、一部の前記ハッシュタグを取り除いた前記コンテンツを学習データとして、前記コンテンツをベクトルに変換するモデルを学習させる学習手順と
をコンピュータに実行させ、
前記学習手順は、
前記ハッシュタグが共通する前記コンテンツのうち、前記ハッシュタグを削除した後の前記コンテンツのベクトルと、当該コンテンツとは異なる前記コンテンツであって、前記ハッシュタグを削除する前の前記コンテンツのベクトルとが類似するベクトルとなるように前記モデルを学習させる
ことを特徴とする情報処理プログラム。