IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特許7181693ニュース素材分類装置、プログラム及び学習モデル
<>
  • 特許-ニュース素材分類装置、プログラム及び学習モデル 図1
  • 特許-ニュース素材分類装置、プログラム及び学習モデル 図2
  • 特許-ニュース素材分類装置、プログラム及び学習モデル 図3
  • 特許-ニュース素材分類装置、プログラム及び学習モデル 図4
  • 特許-ニュース素材分類装置、プログラム及び学習モデル 図5
  • 特許-ニュース素材分類装置、プログラム及び学習モデル 図6
  • 特許-ニュース素材分類装置、プログラム及び学習モデル 図7
  • 特許-ニュース素材分類装置、プログラム及び学習モデル 図8
  • 特許-ニュース素材分類装置、プログラム及び学習モデル 図9
  • 特許-ニュース素材分類装置、プログラム及び学習モデル 図10
  • 特許-ニュース素材分類装置、プログラム及び学習モデル 図11
  • 特許-ニュース素材分類装置、プログラム及び学習モデル 図12
  • 特許-ニュース素材分類装置、プログラム及び学習モデル 図13
  • 特許-ニュース素材分類装置、プログラム及び学習モデル 図14
  • 特許-ニュース素材分類装置、プログラム及び学習モデル 図15
  • 特許-ニュース素材分類装置、プログラム及び学習モデル 図16
  • 特許-ニュース素材分類装置、プログラム及び学習モデル 図17
  • 特許-ニュース素材分類装置、プログラム及び学習モデル 図18
  • 特許-ニュース素材分類装置、プログラム及び学習モデル 図19
  • 特許-ニュース素材分類装置、プログラム及び学習モデル 図20
  • 特許-ニュース素材分類装置、プログラム及び学習モデル 図21
  • 特許-ニュース素材分類装置、プログラム及び学習モデル 図22
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-22
(45)【発行日】2022-12-01
(54)【発明の名称】ニュース素材分類装置、プログラム及び学習モデル
(51)【国際特許分類】
   G06F 16/35 20190101AFI20221124BHJP
【FI】
G06F16/35
【請求項の数】 6
(21)【出願番号】P 2018017228
(22)【出願日】2018-02-02
(65)【公開番号】P2019133565
(43)【公開日】2019-08-08
【審査請求日】2021-01-04
【前置審査】
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100121119
【弁理士】
【氏名又は名称】花村 泰伸
(72)【発明者】
【氏名】牧野 仁宣
(72)【発明者】
【氏名】宮▲崎▼ 太郎
(72)【発明者】
【氏名】後藤 淳
(72)【発明者】
【氏名】武井 友香
【審査官】早川 学
(56)【参考文献】
【文献】特開2017-201437(JP,A)
【文献】宮▲崎▼太郎ほか,ニュース制作のための有用tweet提示システム,映像情報メディア学会2017年年次大会講演予稿集 [CD-ROM],一般社団法人映像情報メディア学会,2017年08月16日,講演番号 32B-1
【文献】C▲i▼cero Nogueira dos Santos et al.,Deep Convolutional Neural Networks for Sentiment Analysis of Short Texts,Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers [online],2014年,pp.69-78,[検索日:2021.12.20], Internet<URL: https://aclanthology.org/C14-1008/ >
【文献】森田直志ほか,ソーシャルメディア情報を活用した防災システム,FUJITSU,富士通株式会社,2017年11月01日,Vol.68,No.6 ,pp.62-67
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
ソーシャルメディア情報のうち、ニュース素材となり得る投稿情報をニュース性投稿情報として入力し、当該ニュース性投稿情報を利用者の要求に応じて分類するニュース素材分類装置において、
前記ニュース性投稿情報を入力し、当該ニュース性投稿情報に含まれる文字及び単語をそれぞれ抽出し、前記文字の系列を表す文字ベクトルを生成すると共に、前記単語の系列を表す単語ベクトルを生成する系列生成部と、
機械学習された学習モデルを記憶する学習モデル記憶部と、
前記学習モデル記憶部から前記学習モデルを読み出し、当該学習モデルを用いて、前記系列生成部により生成された前記文字ベクトル及び前記単語ベクトルに基づき、前記ニュース性投稿情報についての前記利用者の要求に応じた分類情報を生成して出力する分類部と、を備え、
前記学習モデルは、
前記ニュース性投稿情報の前記文字ベクトルを入力データとし、演算結果のベクトルを出力データとする文字NN(ニューラルネットワーク)、
前記ニュース性投稿情報の前記単語ベクトルを入力データとし、演算結果のベクトルを出力データとする単語NN、及び、
前記文字NNの演算結果のベクトルと前記単語NNの演算結果のベクトルとを結合したベクトルを入力データとし、演算結果である前記分類情報を出力データとする出力NNにより構成され、
前記分類部は、
前記分類情報を、前記ニュース性投稿情報が既出であるか、または非既出であるかを示す既出・非既出情報として、
前記文字NNを用いて、前記ニュース性投稿情報の前記文字ベクトルに基づきNNの演算を行い、
前記単語NNを用いて、前記ニュース性投稿情報の前記単語ベクトルに基づきNNの演算を行い、
前記出力NNを用いて、前記文字NNの演算結果のベクトルと前記単語NNの演算結果のベクトルとを結合したベクトルに基づいてNNの演算を行い、演算結果である前記既出・非既出情報を第1分類結果として出力し、
当該ニュース素材分類装置は、さらに、第2分類部及び判定部を備え
記第2分類部は、
前記ニュース性投稿情報を入力し、当該ニュース性投稿情報に付加された、投稿元の機器を識別するためのエージェント情報を抽出し、当該エージェント情報に基づいて、前記既出・非既出情報を生成して第2分類結果として出力し、
前記判定部は、
前記分類部により出力された前記第1分類結果、及び前記第2分類部により出力された前記第2分類結果に基づいて、新たな既出・非既出情報を生成して出力する、ことを特徴とするニュース素材分類装置。
【請求項2】
請求項に記載のニュース素材分類装置において、
前記系列生成部は、
前記ニュース性投稿情報を入力し、当該ニュース性投稿情報に含まれる文字及び単語をそれぞれ抽出し、前記文字に対応したone-hot列ベクトルを並べて文字one-hotベクトル系列を生成すると共に、前記単語に対応したone-hot列ベクトルを並べて単語one-hotベクトル系列を生成し、
前記学習モデルは、
前記系列生成部により生成された前記文字one-hotベクトル系列を入力データとし、FFNN(フィードフォワードニューラルネットワーク)の演算結果のベクトルを出力データとする文字入力層用FFNN、
当該文字入力層用FFNNの演算結果のベクトルを入力データとし、RNN(リカレントニューラルネットワーク)の演算結果のベクトルを出力データとする文字RNN、
前記系列生成部により生成された前記単語one-hotベクトル系列を入力データとし、FFNNの演算結果のベクトルを出力データとする単語入力層用FFNN、
当該単語入力層用FFNNの演算結果のベクトルを入力データとし、RNNの演算結果のベクトルを出力データとする単語RNN、
前記文字RNNの演算結果のベクトルと前記単語RNNの演算結果のベクトルとを結合したベクトルを入力データとし、FFNNの演算結果のベクトルを出力データとする中間層用FFNN、及び、
当該中間層用FFNNの演算結果のベクトルを入力データとし、FFNNの演算結果である前記既出・非既出情報を出力データとする出力層用FFNNにより構成され、
前記分類部は、
前記文字入力層用FFNNを用いて、前記系列生成部により生成された前記文字one-hotベクトル系列に基づき、FFNNの演算を行い、
前記文字RNNを用いて、前記文字入力層用FFNNの演算結果のベクトルに基づき、RNNの演算を行い、
前記単語入力層用FFNNを用いて、前記系列生成部により生成された前記単語one-hotベクトル系列に基づき、FFNNの演算を行い、
前記単語RNNを用いて、前記単語入力層用FFNNの演算結果のベクトルに基づき、RNNの演算を行い、
前記中間層用FFNNを用いて、前記文字RNNの演算結果のベクトルと前記単語RNNの演算結果のベクトルとを結合したベクトルに基づき、FFNNの演算を行い、
前記出力層用FFNNを用いて、前記中間層用FFNNの演算結果のベクトルに基づき、FFNNの演算を行い、演算結果を前記既出・非既出情報として出力する、ことを特徴とするニュース素材分類装置。
【請求項3】
ソーシャルメディア情報のうち、ニュース素材となり得る投稿情報をニュース性投稿情報として入力し、当該ニュース性投稿情報を利用者の要求に応じて分類するニュース素材分類装置において、
前記ニュース性投稿情報を入力し、当該ニュース性投稿情報に含まれる文字及び単語をそれぞれ抽出し、前記文字の系列を表す文字ベクトルを生成すると共に、前記単語の系列を表す単語ベクトルを生成する系列生成部と、
機械学習された学習モデルを記憶する学習モデル記憶部と、
前記学習モデル記憶部から前記学習モデルを読み出し、当該学習モデルを用いて、前記系列生成部により生成された前記文字ベクトル及び前記単語ベクトルに基づき、前記ニュース性投稿情報についての前記利用者の要求に応じた分類情報を生成して出力する分類部と、を備え、
前記学習モデルは、
前記ニュース性投稿情報の前記文字ベクトルを入力データとし、演算結果のベクトルを出力データとする文字NN(ニューラルネットワーク)、
前記ニュース性投稿情報の前記単語ベクトルを入力データとし、演算結果のベクトルを出力データとする単語NN、及び、
前記文字NNの演算結果のベクトルと前記単語NNの演算結果のベクトルとを結合したベクトルを入力データとし、演算結果である前記分類情報を出力データとする出力NNにより構成され、
前記分類部は、
前記文字NNを用いて、前記ニュース性投稿情報の前記文字ベクトルに基づきNNの演算を行い、
前記単語NNを用いて、前記ニュース性投稿情報の前記単語ベクトルに基づきNNの演算を行い、
前記出力NNを用いて、前記文字NNの演算結果のベクトルと前記単語NNの演算結果のベクトルとを結合したベクトルに基づいてNNの演算を行い、演算結果を前記分類情報として出力し、
前記分類情報を、前記ニュース性投稿情報が既出であるか、または非既出であるかを示す既出・非既出情報とし、
前記系列生成部は、
前記ニュース性投稿情報を入力し、当該ニュース性投稿情報に含まれる文字及び単語をそれぞれ抽出し、前記文字に対応したone-hot列ベクトルを並べて文字one-hotベクトル系列を生成すると共に、前記単語に対応したone-hot列ベクトルを並べて単語one-hotベクトル系列を生成し、
前記学習モデルは、
前記系列生成部により生成された前記文字one-hotベクトル系列を入力データとし、FFNNの演算結果のベクトルを出力データとする文字入力層用FFNN、
当該文字入力層用FFNNの演算結果のベクトルを入力データとし、CNN(畳み込みニューラルネットワーク)の演算結果のベクトルを出力データとする文字CNN、
当該文字CNNの演算結果のベクトルを入力データとし、プーリングの演算結果のベクトルを出力データとする文字プーリング層と、
前記系列生成部により生成された前記単語one-hotベクトル系列を入力データとし、FFNNの演算結果のベクトルを出力データとする単語入力層用FFNN、
当該単語入力層用FFNNの演算結果のベクトルを入力データとし、CNNの演算結果のベクトルを出力データとする単語CNN、
当該単語CNNの演算結果のベクトルを入力データとし、プーリングの演算結果のベクトルを出力データとする単語プーリング層と、
前記文字プーリング層の演算結果のベクトルと前記単語プーリング層の演算結果のベクトルとを結合したベクトルを入力データとし、FFNNの演算結果のベクトルを出力データとする中間層用FFNN、及び、
当該中間層用FFNNの演算結果のベクトルを入力データとし、FFNNの演算結果である前記既出・非既出情報を出力データとする出力層用FFNNにより構成され、
前記分類部は、
前記文字入力層用FFNNを用いて、前記系列生成部により生成された前記文字one-hotベクトル系列に基づき、FFNNの演算を行い、
前記文字CNNを用いて、前記文字入力層用FFNNの演算結果のベクトルに基づき、CNNの演算を行い、
前記文字プーリング層を用いて、前記文字CNNの演算結果のベクトルに基づき、プーリングの演算を行い、
前記単語入力層用FFNNを用いて、前記系列生成部により生成された前記単語one-hotベクトル系列に基づき、FFNNの演算を行い、
前記単語CNNを用いて、前記単語入力層用FFNNの演算結果のベクトルに基づき、CNNの演算を行い、
前記単語プーリング層を用いて、前記単語CNNの演算結果のベクトルに基づき、プーリングの演算を行い、
前記中間層用FFNNを用いて、前記文字プーリング層の演算結果のベクトルと前記単語プーリング層の演算結果のベクトルとを結合したベクトルに基づき、FFNNの演算を行い、
前記出力層用FFNNを用いて、前記中間層用FFNNの演算結果のベクトルに基づき、FFNNの演算を行い、演算結果を前記既出・非既出情報として出力する、ことを特徴とするニュース素材分類装置。
【請求項4】
請求項に記載のニュース素材分類装置において、
前記系列生成部は、
前記ニュース性投稿情報を入力し、当該ニュース性投稿情報に含まれる文字及び単語をそれぞれ抽出し、抽出した全ての前記文字に対応した文字BOWベクトルを生成すると共に、抽出した全ての単語に対応した単語BOWベクトルを生成し、
前記学習モデルは、
前記系列生成部により生成された前記文字BOWベクトルを入力データとし、FFNNの演算結果のベクトルを出力データとする文字入力層用FFNN、
前記系列生成部により生成された前記単語BOWベクトルを入力データとし、FFNNの演算結果のベクトルを出力データとする単語入力層用FFNN、
前記文字入力層用FFNNの演算結果のベクトルと前記単語入力層用FFNNの演算結果のベクトルとを結合したベクトルを入力データとし、FFNNの演算結果のベクトルを出力データとする中間層用FFNN、及び、
当該中間層用FFNNの演算結果のベクトルを入力データとし、FFNNの演算結果である前記既出・非既出情報を出力データとする出力層用FFNNにより構成され、
前記分類部は、
前記文字入力層用FFNNを用いて、前記系列生成部により生成された前記文字BOWベクトルに基づき、FFNNの演算を行い、
前記単語入力層用FFNNを用いて、前記系列生成部により生成された前記単語BOWベクトルに基づき、FFNNの演算を行い、
前記中間層用FFNNを用いて、前記文字入力層用FFNNの演算結果のベクトルと前記単語入力層用FFNNの演算結果のベクトルとを結合したベクトルに基づき、FFNNの演算を行い、
前記出力層用FFNNを用いて、前記中間層用FFNNの演算結果のベクトルに基づき、FFNNの演算を行い、演算結果を前記既出・非既出情報として出力する、ことを特徴とするニュース素材分類装置。
【請求項5】
ソーシャルメディア情報のうち、ニュース素材となり得る投稿情報をニュース性投稿情報として入力し、当該ニュース性投稿情報を既出または非既出に分類するニュース素材分類装置において、
前記ニュース性投稿情報を入力し、当該ニュース性投稿情報に含まれる文字または単語をそれぞれ抽出し、前記文字の系列を表す文字ベクトル、または前記単語の系列を表す単語ベクトルを生成する系列生成部と、
前記ニュース性投稿情報の前記文字ベクトルまたは前記単語ベクトルを入力データとし、演算結果である、前記ニュース性投稿情報が既出であるか、または非既出であるかを示す既出・非既出情報を出力データとするNNにより構成された学習モデルであって、機械学習された前記学習モデルを記憶する学習モデル記憶部と、
前記学習モデル記憶部から前記学習モデルを読み出し、当該学習モデルを用いて、前記系列生成部により生成された前記文字ベクトルまたは前記単語ベクトルに基づき、前記既出・非既出情報を生成して第1分類結果として出力する分類部と、
前記ニュース性投稿情報を入力し、当該ニュース性投稿情報に付加された、投稿元の機器を識別するためのエージェント情報を抽出し、当該エージェント情報に基づいて、前記既出・非既出情報を生成して第2分類結果として出力する第2分類部と、
前記分類部により出力された前記第1分類結果、及び前記第2分類部により出力された前記第2分類結果に基づいて、新たな既出・非既出情報を生成して出力する判定部と、
を備えたことを特徴とするニュース素材分類装置。
【請求項6】
コンピュータを、請求項1からまでのいずれか一項のニュース素材分類装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、多数のソーシャルメディア情報からニュース素材となり得る情報を抽出し、抽出した情報を分類するニュース素材分類装置及びプログラム、並びにニュース素材分類装置に用いる学習モデルに関する。
【背景技術】
【0002】
従来、インターネットを用いて個人が情報を発信することで、様々な情報交流サービスを形成するtwitter(登録商標)等のソーシャルメディアが盛んに利用されている。ソーシャルメディアでは、例えば火事、事故等の現場に居合わせた個人から即時性の高い投稿情報(以下、「ソーシャルメディア情報」という。)が発信される。
【0003】
放送局では、個々のソーシャルメディア情報からニュース素材となり得る情報(以下、「ニュース性投稿情報」という。)を抽出することで、ニュース性投稿情報をニュースまたは番組の制作に活用するケースが増えている。
【0004】
ソーシャルメディア情報からニュース性投稿情報を抽出する作業を、人手により行うとすると、大きな労力が必要となり、現実的ではない。そこで、人手による労力の低減を図るために、ソーシャルメディア情報からニュース性投稿情報を抽出する作業を自動的に行う手法が提案されている(例えば特許文献1、非特許文献1を参照)。
【0005】
図22は、従来のニュース素材抽出装置の概要を説明する図である。このニュース素材抽出装置は、例えば特許文献1の手法を組み込んだ装置である。
【0006】
このニュース素材抽出装置100は、学習フェーズにおいて、投稿情報であるソーシャルメディア情報を入力し、特徴ベクトルの特徴量とする素性を生成し、機械学習により学習モデルを生成する。また、ニュース素材抽出装置100は、判定フェーズにおいて、ソーシャルメディア情報を入力し、学習モデル(学習済みモデル)を用いて、入力したソーシャルメディア情報がニュース性投稿情報であるか否かを判定する。そして、ニュース素材抽出装置100は、ニュース性投稿情報を出力すると共に、ニュース性投稿情報以外の情報を破棄する。
【0007】
このニュース素材抽出装置100は、入力したソーシャルメディア情報から言語情報を抽出し、言語情報を入力データとした機械学習にて学習モデルを生成することを基本としている。このような機械学習を用いた手法には、単語系列を入力データとする場合、文字系列を入力データとする場合、単語系列及び文字系列の組み合わせを入力データとする場合等がある(例えば非特許文献2-6を参照)。
【0008】
さらに、ソーシャルメディア情報から、電車の遅延等の所定のイベントを検出するための手法も提案されている(例えば、特許文献2,3を参照)。
【先行技術文献】
【特許文献】
【0009】
【文献】特開2017-201437号公報
【文献】特開2013-168021号公報
【文献】特開2014-2551号公報
【非特許文献】
【0010】
【文献】宮崎他,“Twitterからの有用情報抽出のための学習データのマルチクラス化”,IFAT,2017,pages1-6
【文献】Yoon Kim, et al.“Character-Aware Neural Language Models”, AAAI 2016
【文献】Rafal Jozefowicz, et al.“Exploring the limits of language modeling.”, CoRR, 2016, abs/1602.02410.
【文献】Lyan Verwimp, et al.,“Character-Word LSTM Language Models”, EACL2017, pages 417-427
【文献】Rupesh K. Srivastava, et al.,“Training Very Deep Networks.”NIPS, 2015, pages 2377-2385.
【文献】X. Ma and E. Hovy. End-to-end sequence labeling via bi-directional lstm-cnns-crf. In Proceedings of the 54th ACL, pages 1064-1074, Berlin, Germany, August 2016. ACL.
【発明の概要】
【発明が解決しようとする課題】
【0011】
一般に、ソーシャルメディアへ発信されるソーシャルメディア情報は多数であり、ソーシャルメディア情報から抽出されるニュース性投稿情報も多数である。このため、図22に示したニュース素材抽出装置100がソーシャルメディア情報からニュース性投稿情報を自動的に抽出したとしても、全てのニュース性投稿情報を利用者が監視することは困難である。
【0012】
また、ニュース性投稿情報の活用方法は、利用者、目的、用途、状況等に応じて大きく異なるものである。利用者は、多数のソーシャルメディア情報から抽出された多数のニュース性投稿情報のうち、所望の投稿情報のみを取得したいものと考えられる。このため、ニュース性投稿情報は、利用者の要求に適応するように、分類されることが望ましい。
【0013】
例えば、利用者が第一報のニュース性投稿情報を取得したい場合には、報道機関またはまとめサイトに関連する投稿情報及びこれを引用した投稿情報は、既出投稿(既に出現した投稿)であって第一報の投稿情報ではないから、必要とされない。ここで、既出投稿とは、ソーシャルメディアにおいて既に出現した投稿、すなわちソーシャルメディアにて既に呟かれた投稿、またはそれを引用した投稿をいう。
【0014】
一般に、多数の人が意見を発信したいと感じるニュースについて、その投稿が一旦行われると、既出投稿は、大幅に増加する。このため、利用者は、ニュース性投稿情報をリアルタイムに監視し、第一報のニュース性投稿情報である非既出投稿を発見することは困難である。ここで、非既出投稿とは、ソーシャルメディアにおいて過去に出現しておらず、初めて出現した投稿をいう。
【0015】
同様に、利用者がニュースに対する意見及び続報のニュース性投稿情報を取得したい場合、第一報のニュース性投稿情報である非既出投稿は必要とされない。
【0016】
このように、利用者が第一報のニュース性投稿情報である非既出投稿を取得するためには、ソーシャルメディア情報からニュース性投稿情報が自動的に抽出された後、ニュース性投稿情報が既出投稿または非既出投稿であるかを自動的に分類することが望ましい。これは、利用者がニュースに対する意見及び続報のニュース性投稿情報である既出投稿を取得する場合も同様である。
【0017】
既出投稿には、引用元が明示されていて、その名称をキーワードとしたフィルタリングにより簡単に分類できる投稿が含まれる。また、既出投稿には、人目には文体等により既出であると分類されるが、キーワードのフィルタリング等の簡単な処理では分類が困難な投稿も含まれる。ソーシャルメディアでは、引用であっても文を簡単に変更することが可能であり、引用者により出典が削除されることもあり得る。
【0018】
このため、利用者が第一報のニュース性投稿情報を取得する場合には、単純なキーワードのフィルタリングにより分類が行われるのではなく、様々な文の条件を考慮する機械学習等により分類が行われることが望ましい。
【0019】
ここで、機械学習の観点で、ソーシャルメディア情報からニュース性投稿情報を抽出する処理と、ニュース性投稿情報を第一報の情報である非既出投稿とその他の情報である既出投稿とに分類する処理とを、一連の処理にて行う場合を想定する。前者の処理を抽出処理といい、後者の処理を分類処理という。
【0020】
この一連の処理では、抽出処理により抽出したニュース性投稿情報だけでなく、抽出処理により破棄されるべき情報(ニュース性投稿情報ではない情報、すなわち分類する必要のない情報)も含めて、分類処理が行われてしまう。このため、一連の処理に対して機械学習を適用した場合には、学習データが増え、処理負荷が高くなり、分類精度が低下してしまう。
【0021】
また、既出投稿及び非既出投稿以外の分類処理を行うために、分類の構成を変更する場合には、一連の処理を行う全体のシステムを再度構築し、抽出の大規模な学習も含めて再学習を行う必要がある。
【0022】
このように、抽出処理及び分類処理を一連の処理にて行う場合には、利用者の要求に合わせた分類処理を増やす毎に、全体の学習を再度行う必要があり、現実的ではない。
【0023】
一方で、言語情報を入力データとした機械学習にて学習モデルを生成する場合、以下のとおり、文字系列を入力データとして用いるか、または単語系列を用いるかにより、異なる長所及び短所がある。
【0024】
文字系列を入力データとして用いる場合、文字は単語よりもバリエーションが少ないため、少ないノード数で各文字を学習モデルの入力層のノードに割り当て易くなり、ノードとして入力されない未知語が減り、文を構成する文字を正確に入力データとして扱うことができ、学習モデルを用いた判定精度が高くなるという長所がある。文字と単語を比較すると、単語は複数の文字から構成され様々な組み合わせがあることから、単語は文字よりも未知語が多くなる。このため、単語系列の場合、各単語を学習モデルの入力層のノードに割り当て難くなる。これに対し、文字には組み合わせがないから、文字は単語よりも未知語が少なくなる。
【0025】
一方で、文字は単語よりも一要素の持ち得る意味が多く、文全体に対して情報が少なくその意味を特定し難いため、文全体に対して文字の意味が異なる場合であっても同じ判定を行う学習モデルが生成されてしまうことがあり、判定精度が低くなるという短所がある。これは、文字単体では意味が曖昧であり、同じ文字であっても一方の文に使用される文字の意味と他方の文に使用される文字の意味とを区別し難いにも関わらず、文字は学習モデルの入力層の1ノードに割り当てられるからである。
【0026】
これに対し、単語系列を入力データとして用いる場合、単語は文字よりも一要素の持ち得る意味が限られ、その意味を特定し易いため、単語が異なる場合に異なる判定を行う学習モデルが生成され、判定精度が高くなるという長所がある。
【0027】
一方で、単語は文字よりもバリエーションが多く、使用する単語数を限ると(または使用するノード数を限ると)未知語の数が多くなるため、各単語を学習モデルの入力層のノードに割り当て難くなり、文を構成する単語を正確に入力データとして扱うことができない場合があり、学習モデルを用いた判定精度が低くなるという短所がある。
【0028】
また、日本語のような、単語間に空白を空けない言語を利用する場合には、文章を単語系列に変換する系列生成器の性能にも大きく影響を受けてしまい、理想的な系列生成器は存在しないため、学習及び判定精度が低くなるという短所がある。
【0029】
このため、文字系列の長所及び単語系列の長所の両方を活かした機械学習を行うことが望まれる。尚、前述の非特許文献3-6では、文字系列及び単語系列を入力データとして機械学習を行うものであるが、いずれか一方が他方を補完し、文字系列及び単語系列を1系列として扱っていることから、それぞれの長所を完全に活かした機械学習にはなっていない。
【0030】
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、利用者が多数のソーシャルメディア情報から所望の情報を取得する際に、ソーシャルメディア情報から抽出されたニュース性投稿情報を精度高く分類可能なニュース素材分類装置、プログラム及び学習モデルを提供することにある。
【課題を解決するための手段】
【0033】
また、請求項のニュース素材分類装置は、ソーシャルメディア情報のうち、ニュース素材となり得る投稿情報をニュース性投稿情報として入力し、当該ニュース性投稿情報を利用者の要求に応じて分類するニュース素材分類装置において、前記ニュース性投稿情報を入力し、当該ニュース性投稿情報に含まれる文字及び単語をそれぞれ抽出し、前記文字の系列を表す文字ベクトルを生成すると共に、前記単語の系列を表す単語ベクトルを生成する系列生成部と、機械学習された学習モデルを記憶する学習モデル記憶部と、前記学習モデル記憶部から前記学習モデルを読み出し、当該学習モデルを用いて、前記系列生成部により生成された前記文字ベクトル及び前記単語ベクトルに基づき、前記ニュース性投稿情報についての前記利用者の要求に応じた分類情報を生成して出力する分類部と、を備え、前記学習モデルが、前記ニュース性投稿情報の前記文字ベクトルを入力データとし、演算結果のベクトルを出力データとする文字NN(ニューラルネットワーク)、前記ニュース性投稿情報の前記単語ベクトルを入力データとし、演算結果のベクトルを出力データとする単語NN、及び、前記文字NNの演算結果のベクトルと前記単語NNの演算結果のベクトルとを結合したベクトルを入力データとし、演算結果である前記分類情報を出力データとする出力NNにより構成され、前記分類部が、前記分類情報を、前記ニュース性投稿情報が既出であるか、または非既出であるかを示す既出・非既出情報として、前記文字NNを用いて、前記ニュース性投稿情報の前記文字ベクトルに基づきNNの演算を行い、前記単語NNを用いて、前記ニュース性投稿情報の前記単語ベクトルに基づきNNの演算を行い、前記出力NNを用いて、前記文字NNの演算結果のベクトルと前記単語NNの演算結果のベクトルとを結合したベクトルに基づいてNNの演算を行い、演算結果である前記既出・非既出情報を第1分類結果として出力し、当該ニュース素材分類装置が、さらに、第2分類部及び判定部を備え、前記第2分類部が、前記ニュース性投稿情報を入力し、当該ニュース性投稿情報に付加された、投稿元の機器を識別するためのエージェント情報を抽出し、当該エージェント情報に基づいて、前記既出・非既出情報を生成して第2分類結果として出力し、前記判定部が、前記分類部により出力された前記第1分類結果、及び前記第2分類部により出力された前記第2分類結果に基づいて、新たな既出・非既出情報を生成して出力する、ことを特徴とする。
【0034】
また、請求項のニュース素材分類装置は、請求項に記載のニュース素材分類装置において、前記系列生成部が、前記ニュース性投稿情報を入力し、当該ニュース性投稿情報に含まれる文字及び単語をそれぞれ抽出し、前記文字に対応したone-hot列ベクトルを並べて文字one-hotベクトル系列を生成すると共に、前記単語に対応したone-hot列ベクトルを並べて単語one-hotベクトル系列を生成し、前記学習モデルが、前記系列生成部により生成された前記文字one-hotベクトル系列を入力データとし、FFNN(フィードフォワードニューラルネットワーク)の演算結果のベクトルを出力データとする文字入力層用FFNN、当該文字入力層用FFNNの演算結果のベクトルを入力データとし、RNN(リカレントニューラルネットワーク)の演算結果のベクトルを出力データとする文字RNN、前記系列生成部により生成された前記単語one-hotベクトル系列を入力データとし、FFNNの演算結果のベクトルを出力データとする単語入力層用FFNN、当該単語入力層用FFNNの演算結果のベクトルを入力データとし、RNNの演算結果のベクトルを出力データとする単語RNN、前記文字RNNの演算結果のベクトルと前記単語RNNの演算結果のベクトルとを結合したベクトルを入力データとし、FFNNの演算結果のベクトルを出力データとする中間層用FFNN、及び、当該中間層用FFNNの演算結果のベクトルを入力データとし、FFNNの演算結果である前記既出・非既出情報を出力データとする出力層用FFNNにより構成され、前記分類部が、前記文字入力層用FFNNを用いて、前記系列生成部により生成された前記文字one-hotベクトル系列に基づき、FFNNの演算を行い、前記文字RNNを用いて、前記文字入力層用FFNNの演算結果のベクトルに基づき、RNNの演算を行い、前記単語入力層用FFNNを用いて、前記系列生成部により生成された前記単語one-hotベクトル系列に基づき、FFNNの演算を行い、前記単語RNNを用いて、前記単語入力層用FFNNの演算結果のベクトルに基づき、RNNの演算を行い、前記中間層用FFNNを用いて、前記文字RNNの演算結果のベクトルと前記単語RNNの演算結果のベクトルとを結合したベクトルに基づき、FFNNの演算を行い、前記出力層用FFNNを用いて、前記中間層用FFNNの演算結果のベクトルに基づき、FFNNの演算を行い、演算結果を前記既出・非既出情報として出力する、ことを特徴とする。
【0035】
また、請求項のニュース素材分類装置は、ソーシャルメディア情報のうち、ニュース素材となり得る投稿情報をニュース性投稿情報として入力し、当該ニュース性投稿情報を利用者の要求に応じて分類するニュース素材分類装置において、前記ニュース性投稿情報を入力し、当該ニュース性投稿情報に含まれる文字及び単語をそれぞれ抽出し、前記文字の系列を表す文字ベクトルを生成すると共に、前記単語の系列を表す単語ベクトルを生成する系列生成部と、機械学習された学習モデルを記憶する学習モデル記憶部と、前記学習モデル記憶部から前記学習モデルを読み出し、当該学習モデルを用いて、前記系列生成部により生成された前記文字ベクトル及び前記単語ベクトルに基づき、前記ニュース性投稿情報についての前記利用者の要求に応じた分類情報を生成して出力する分類部と、を備え、前記学習モデルが、前記ニュース性投稿情報の前記文字ベクトルを入力データとし、演算結果のベクトルを出力データとする文字NN(ニューラルネットワーク)、前記ニュース性投稿情報の前記単語ベクトルを入力データとし、演算結果のベクトルを出力データとする単語NN、及び、前記文字NNの演算結果のベクトルと前記単語NNの演算結果のベクトルとを結合したベクトルを入力データとし、演算結果である前記分類情報を出力データとする出力NNにより構成され、前記分類部が、前記文字NNを用いて、前記ニュース性投稿情報の前記文字ベクトルに基づきNNの演算を行い、前記単語NNを用いて、前記ニュース性投稿情報の前記単語ベクトルに基づきNNの演算を行い、前記出力NNを用いて、前記文字NNの演算結果のベクトルと前記単語NNの演算結果のベクトルとを結合したベクトルに基づいてNNの演算を行い、演算結果を前記分類情報として出力し、前記分類情報を、前記ニュース性投稿情報が既出であるか、または非既出であるかを示す既出・非既出情報とし、前記系列生成部が、前記ニュース性投稿情報を入力し、当該ニュース性投稿情報に含まれる文字及び単語をそれぞれ抽出し、前記文字に対応したone-hot列ベクトルを並べて文字one-hotベクトル系列を生成すると共に、前記単語に対応したone-hot列ベクトルを並べて単語one-hotベクトル系列を生成し、前記学習モデルが、前記系列生成部により生成された前記文字one-hotベクトル系列を入力データとし、FFNNの演算結果のベクトルを出力データとする文字入力層用FFNN、当該文字入力層用FFNNの演算結果のベクトルを入力データとし、CNN(畳み込みニューラルネットワーク)の演算結果のベクトルを出力データとする文字CNN、当該文字CNNの演算結果のベクトルを入力データとし、プーリングの演算結果のベクトルを出力データとする文字プーリング層と、前記系列生成部により生成された前記単語one-hotベクトル系列を入力データとし、FFNNの演算結果のベクトルを出力データとする単語入力層用FFNN、当該単語入力層用FFNNの演算結果のベクトルを入力データとし、CNNの演算結果のベクトルを出力データとする単語CNN、当該単語CNNの演算結果のベクトルを入力データとし、プーリングの演算結果のベクトルを出力データとする単語プーリング層と、前記文字プーリング層の演算結果のベクトルと前記単語プーリング層の演算結果のベクトルとを結合したベクトルを入力データとし、FFNNの演算結果のベクトルを出力データとする中間層用FFNN、及び、当該中間層用FFNNの演算結果のベクトルを入力データとし、FFNNの演算結果である前記既出・非既出情報を出力データとする出力層用FFNNにより構成され、前記分類部が、前記文字入力層用FFNNを用いて、前記系列生成部により生成された前記文字one-hotベクトル系列に基づき、FFNNの演算を行い、前記文字CNNを用いて、前記文字入力層用FFNNの演算結果のベクトルに基づき、CNNの演算を行い、前記文字プーリング層を用いて、前記文字CNNの演算結果のベクトルに基づき、プーリングの演算を行い、前記単語入力層用FFNNを用いて、前記系列生成部により生成された前記単語one-hotベクトル系列に基づき、FFNNの演算を行い、前記単語CNNを用いて、前記単語入力層用FFNNの演算結果のベクトルに基づき、CNNの演算を行い、前記単語プーリング層を用いて、前記単語CNNの演算結果のベクトルに基づき、プーリングの演算を行い、前記中間層用FFNNを用いて、前記文字プーリング層の演算結果のベクトルと前記単語プーリング層の演算結果のベクトルとを結合したベクトルに基づき、FFNNの演算を行い、前記出力層用FFNNを用いて、前記中間層用FFNNの演算結果のベクトルに基づき、FFNNの演算を行い、演算結果を前記既出・非既出情報として出力する、ことを特徴とする。
【0036】
また、請求項のニュース素材分類装置は、請求項に記載のニュース素材分類装置において、前記系列生成部が、前記ニュース性投稿情報を入力し、当該ニュース性投稿情報に含まれる文字及び単語をそれぞれ抽出し、抽出した全ての前記文字に対応した文字BOWベクトルを生成すると共に、抽出した全ての単語に対応した単語BOWベクトルを生成し、前記学習モデルが、前記系列生成部により生成された前記文字BOWベクトルを入力データとし、FFNNの演算結果のベクトルを出力データとする文字入力層用FFNN、前記系列生成部により生成された前記単語BOWベクトルを入力データとし、FFNNの演算結果のベクトルを出力データとする単語入力層用FFNN、前記文字入力層用FFNNの演算結果のベクトルと前記単語入力層用FFNNの演算結果のベクトルとを結合したベクトルを入力データとし、FFNNの演算結果のベクトルを出力データとする中間層用FFNN、及び、当該中間層用FFNNの演算結果のベクトルを入力データとし、FFNNの演算結果である前記既出・非既出情報を出力データとする出力層用FFNNにより構成され、前記分類部が、前記文字入力層用FFNNを用いて、前記系列生成部により生成された前記文字BOWベクトルに基づき、FFNNの演算を行い、前記単語入力層用FFNNを用いて、前記系列生成部により生成された前記単語BOWベクトルに基づき、FFNNの演算を行い、前記中間層用FFNNを用いて、前記文字入力層用FFNNの演算結果のベクトルと前記単語入力層用FFNNの演算結果のベクトルとを結合したベクトルに基づき、FFNNの演算を行い、前記出力層用FFNNを用いて、前記中間層用FFNNの演算結果のベクトルに基づき、FFNNの演算を行い、演算結果を前記既出・非既出情報として出力する、ことを特徴とする。
【0037】
また、請求項のニュース素材分類装置は、ソーシャルメディア情報のうち、ニュース素材となり得る投稿情報をニュース性投稿情報として入力し、当該ニュース性投稿情報を既出または非既出に分類するニュース素材分類装置において、前記ニュース性投稿情報を入力し、当該ニュース性投稿情報に含まれる文字または単語をそれぞれ抽出し、前記文字の系列を表す文字ベクトル、または前記単語の系列を表す単語ベクトルを生成する系列生成部と、前記ニュース性投稿情報の前記文字ベクトルまたは前記単語ベクトルを入力データとし、演算結果である、前記ニュース性投稿情報が既出であるか、または非既出であるかを示す既出・非既出情報を出力データとするNNにより構成された学習モデルであって、機械学習された前記学習モデルを記憶する学習モデル記憶部と、前記学習モデル記憶部から前記学習モデルを読み出し、当該学習モデルを用いて、前記系列生成部により生成された前記文字ベクトルまたは前記単語ベクトルに基づき、前記既出・非既出情報を生成して第1分類結果として出力する分類部と、前記ニュース性投稿情報を入力し、当該ニュース性投稿情報に付加された、投稿元の機器を識別するためのエージェント情報を抽出し、当該エージェント情報に基づいて、前記既出・非既出情報を生成して第2分類結果として出力する第2分類部と、前記分類部により出力された前記第1分類結果、及び前記第2分類部により出力された前記第2分類結果に基づいて、新たな既出・非既出情報を生成して出力する判定部と、を備えたことを特徴とする。
【0038】
さらに、請求項のプログラムは、コンピュータを、請求項1からまでのいずれか一項のニュース素材分類装置として機能させることを特徴とする。
【発明の効果】
【0040】
以上のように、本発明によれば、利用者が多数のソーシャルメディア情報から所望の情報を取得する際に、ソーシャルメディア情報から抽出されたニュース性投稿情報を精度高く分類することが可能となる。
【図面の簡単な説明】
【0041】
図1】実施例1のニュース素材分類装置を含む全体構成例の概要を説明する図である。
図2】実施例1のニュース素材分類装置の構成例を示すブロック図である。
図3】実施例2のニュース素材分類装置を含む全体構成例の概要を説明する図である。
図4】実施例2のニュース素材分類装置の構成例を示すブロック図である。
図5】エージェント分類部の処理例を示すフローチャートである。
図6】判定部の第1の処理例(処理例1)を示すフローチャートである。
図7】判定部の第2の処理例(処理例2)を示すフローチャートである。
図8】学習装置の構成例を示すブロック図である。
図9】学習モデルの概略構造を説明する図である。
図10】FFNN及びLSTMを用いた学習モデル(具体例1)の概略構造を説明する図である。
図11】具体例1におけるノード数及び入出力データを説明する図である。
図12】FFNN及びCNNを用いた学習モデル(具体例2)の概略構造を説明する図である。
図13】具体例2におけるノード数及び入出力データを説明する図である。
図14】FFNNを用いた学習モデル(具体例3)の概略構造を説明する図である。
図15】具体例3におけるノード数及び入出力データを説明する図である。
図16】ニュース性投稿情報から生成された文字系列の例及び単語系列の例を示す図である。
図17】文字one-hotベクトル系列{xchar}の例を示す図である。
図18】単語one-hotベクトル系列{xword}の例を示す図である。
図19】文字BOWベクトルxcharの例を示す図である。
図20】単語BOWベクトルxwordの例を示す図である。
図21】実験結果を説明する図である。
図22】従来のニュース素材抽出装置の概要を説明する図である。
【発明を実施するための形態】
【0042】
以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明は、ソーシャルメディア情報からニュース性投稿情報を抽出する処理とは別に、ニュース性投稿情報を、利用者の要求に応じた情報(例えば第一報の非既出情報)とその他の情報(例えば既出情報)とに分類するものである。既出情報とは、既に出現した情報をいい、非既出情報とは、過去に出現しておらず、初めて出現した情報をいう。
【0043】
利用者が多数のソーシャルメディア情報から所望の情報を取得する際の処理を、二段階に分ける。第1の処理は、ソーシャルメディア情報からニュース性投稿情報を抽出する処理であり、既存の技術を用いて実現する。
【0044】
第2の処理は、本発明によるものであり、第1の処理により抽出されたニュース性投稿情報を、機械学習により、利用者の要求に応じた情報とその他の情報とに分類する処理である。
【0045】
本発明は、第2の処理において、ニュース性投稿情報から文字ベクトル及び単語ベクトルを生成し、予め機械学習された学習モデルを用いて、文字ベクトル及び単語ベクトルを入力データとして入力層に入力する。そして、本発明は、文字ベクトルの中間データと単語ベクトルの中間データとを中間層にて結合し、利用者の要求に応じた情報とその他の情報とを判定し、この判定結果を出力データとして出力層から出力する。
【0046】
以下、本発明について、実施例1,2を挙げて具体的に説明する。実施例1,2は、利用者が多数のソーシャルメディア情報から第一報の非既出情報を取得できるようにするものである。実施例1は、学習モデルを用いて、ニュース性投稿情報の文面(本文)に基づき、ニュース性投稿情報を、第一報の非既出情報とその他の既出情報とに分類し、判定結果を生成する。
【0047】
実施例2は、実施例1の処理に加え、ニュース性投稿情報の文面以外の発信元のアプリケーション、OS等のエージェント情報を用いたフィルタリングにて、ニュース性投稿情報を、第一報の非既出情報とその他の既出情報とに分類し、判定結果を生成する。そして、実施例2は、実施例1の処理による学習モデルを用いた判定結果、及びフィルタリングによる判定結果に基づいて、最終的な判定結果を生成する。
【0048】
また、以下、実施例1,2に用いる学習モデルの種類について、具体例1,2,3を挙げて説明する。具体例1は、学習モデルとしてFFNN(FeedForward Neural Network:フィードフォワード(順伝搬型)ニューラルネットワーク)及びLSTM(Long Short Term Memory:長短期記憶ユニット)を用いた例である。具体例2は、FFNN及びCNN(Convolutional Neural Network:畳み込みニューラルネットワーク)を用いた例であり、具体例3は、FFNNを用いた例である。
【0049】
〔実施例1〕
まず、実施例1について説明する。前述のとおり、実施例1は、学習モデルを用いて、ニュース性投稿情報の文面に基づき、ニュース性投稿情報を、第一報の非既出情報とその他の既出情報とに分類し、判定結果を生成する例である。
【0050】
図1は、実施例1のニュース素材分類装置を含む全体構成例の概要を説明する図である。このシステムは、利用者が多数のソーシャルメディア情報から第一報の非既出情報を取得するためのものであり、ニュース素材抽出装置100及びニュース素材分類装置1-1を備えて構成される。
【0051】
ニュース素材抽出装置100は、図22にて説明したとおり、投稿情報であるソーシャルメディア情報を入力し、ソーシャルメディア情報からニュース性投稿情報を抽出する。そして、ニュース素材抽出装置100は、ソーシャルメディア情報のうち抽出したニュース性投稿情報をニュース素材分類装置1-1へ出力し、その他の情報を破棄する。
【0052】
ニュース素材抽出装置100は、ニューラルネットワークの学習モデルを用いた前述の非特許文献1の手法、キーワードマッチングの手法等の既存技術にて実現する。例えば、ニュース素材抽出装置100は、実際に報道現場で人手により抽出したニュース性のあるソーシャルメディア情報を正例とし、ランダムサンプルしたソーシャルメディア情報を負例とした学習データを用いて機械学習を行い、学習モデルを生成する。機械学習は、ソーシャルメディア情報の文字one-hotベクトル系列を入力データとし、例えばBi-directional LSTMを用いて行われる。そして、ニュース素材抽出装置100は、機械学習した学習モデルを用いて、ソーシャルメディア情報からニュース性投稿情報を自動的に抽出する。
【0053】
ニュース素材分類装置1-1は、ニュース素材抽出装置100からニュース性投稿情報を入力し、学習モデルを用いて、ニュース性投稿情報を、第一報の非既出情報とその他の既出情報とに分類する。
【0054】
ニュース素材分類装置1-1は、分類した第一報の非既出情報を、非既出のラベル付けニュース性投稿情報とし、分類したその他の既出情報を、既出のベル付けニュース性投稿情報とする。そして、ニュース素材分類装置1-1は、ニュース性投稿情報について既出または非既出を示すラベル情報を、既出・非既出情報として出力する。ニュース素材分類装置1-1の詳細については後述する。
【0055】
図2は、図1に示した実施例1のニュース素材分類装置1-1の構成例を示すブロック図である。このニュース素材分類装置1-1は、系列生成部10、文面分類部11及び学習モデル記憶部12を備えている。
【0056】
系列生成部10は、ニュース性投稿情報を入力し、ニュース性投稿情報に基づいて、ニュース性投稿情報に含まれる文字を文字系列として抽出すると共に、ニュース性投稿情報に含まれる単語を単語系列として抽出する。そして、系列生成部10は、文字系列からなる文字ベクトルを生成すると共に、単語系列からなる単語ベクトルを生成する。そして、系列生成部10は、ニュース性投稿情報の文字ベクトル及び単語ベクトルを文面分類部11に出力する。
【0057】
例えば、系列生成部10は、ニュース性投稿情報に含まれる文字を抽出し、文字に対応したone-hot(ワンホット)列ベクトルを並べて、文字one-hotベクトル系列を生成する。また、系列生成部10は、ニュース性投稿情報に含まれる単語を抽出し、単語に対応したone-hot列べクトルを並べて、単語one-hotベクトル系列を生成する。また例えば、系列生成部10は、抽出した文字の系列からなる文字BOW(Bags Of Words、ボウ)ベクトルを生成し、抽出した単語の系列からなる単語BOWベクトルを生成する。文字one-hotベクトル系列、単語one-hotベクトル系列、文字BOWベクトル及び単語BOWベクトルの詳細については後述する。
【0058】
文面分類部11は、系列生成部10からニュース性投稿情報の文字ベクトル及び単語ベクトルを入力する。そして、文面分類部11は、学習モデル記憶部12に記憶された学習モデルを用いて、文字ベクトル及び単語ベクトルに基づき、既出または非既出を示すラベル情報を生成し、これを既出・非既出情報として出力する。この既出・非既出情報は、系列生成部10が入力したニュース性投稿情報が既出であるか、または非既出であるかを示す情報である。
【0059】
学習モデル記憶部12には、後述する図8の学習装置2により機械学習された学習モデルが記憶されている。
【0060】
図9は、図2に示した学習モデル記憶部12に記憶された学習モデルの概略構造を説明する図である。この学習モデルは、文字NN(Neural Network:ニューラルネットワーク)21、単語NN22及び出力NN23を備え、文字NN21の出力データ及び単語NN22の出力データが出力NN23に入力されるように、文字NN21及び単語NN22と出力NN23とが結合して構成される。
【0061】
この学習モデルは、後述する図8に示す学習装置2の機械学習により生成され、ニュース性投稿情報の文字ベクトル及び単語ベクトルを入力データとし、入力データに対して、当該ニュース性投稿情報が既出であるか、または非既出であるかを示す既出・非既出情報を出力するように、コンピュータを機能させるためのものである。また、この学習モデルは、機械学習された文字NN21の重み係数、単語NN22の重み係数及び出力NN23の重み係数を保持している。
【0062】
文面分類部11は、学習モデル記憶部12に記憶された図9に示す学習モデルを読み出し、図2には示していないメモリに格納する。文面分類部11は、系列生成部10により生成された文字ベクトルを文字NN21の入力層に入力し、文字ベクトルの各要素の値に対し、機械学習された重み係数を付加する等のNNの演算を行う。そして、文面分類部11は、演算結果のベクトルを文字NN21の出力層から出力し、出力NN23へ伝搬させる。
【0063】
また、文面分類部11は、系列生成部10により生成された単語ベクトルを単語NN22の入力層に入力し、単語ベクトルの各要素の値に対し、機械学習された重み係数を付加する等のNNの演算を行う。そして、文面分類部11は、演算結果のベクトルを単語NN22の出力層から出力し、出力NN23へ伝搬させる。
【0064】
この場合、文字NN21から出力された演算結果のベクトルと、単語NN22から出力された演算結果のベクトルとが結合され、結合したベクトルが出力NN23へ伝搬される。
【0065】
文面分類部11は、文字NN21から演算結果のベクトルを出力NN23の入力層に入力すると共に、単語NN22から演算結果のベクトルを出力NN23の入力層に入力する。そして、文面分類部11は、入力したベクトルの各要素の値に対し、機械学習された重み係数を付加する等のNNの演算を行う。文面分類部11は、演算結果に対し、softmax関数を用いて確率値を演算し、確率値に対し、argmax関数を用いて既出または非既出の二値情報を演算し、二値情報を既出・非既出情報として出力NN23の出力層から出力する。
【0066】
尚、文面分類部11は、文字NN21、単語NN22及び出力NN23の各層から演算結果を出力する際に、活性化関数RELU(REctified Linear Unit)の演算を行うものとする。後述する図10図15に示す学習モデルについても同様である。
【0067】
以上のように、実施例1のニュース素材分類装置1-1によれば、系列生成部10は、ニュース素材抽出装置100により抽出されたニュース性投稿情報から、文字ベクトル及び単語ベクトルを生成する。文面分類部11は、学習モデルを用いて、ニュース性投稿情報の文字ベクトル及び単語ベクトルを入力データとし、既出・非既出情報を出力データとした演算を行い、既出・非既出情報を生成して出力する。このようにして、ニュース性投稿情報が非既出情報または既出情報に分類される。
【0068】
学習モデルは、ニュース性投稿情報の文字ベクトルを入力データとする文字NN21と、ニュース性投稿情報の単語ベクトルを入力データとする単語NN22と、文字NN21の演算結果と単語NN22の演算結果とを結合したベクトルを入力データとし、既出・非既出情報を出力データとする出力NN23とにより構成される。
【0069】
これにより、文面分類部11にて、文字ベクトル及び単語ベクトルの独立した演算が行われるから、ニュース性投稿情報の文字情報及び単語情報の優位性を活かした判定が可能となり、精度の高い既出・非既出情報を得ることができる。この場合の優位性とは、前述のとおり、文字情報については、例えば文字NN21の入力層のノード数と単語NN22の入力層のノード数とが同じ場合に、その未知語が単語情報よりも少なく、単語情報については、文字情報よりも一要素の持ち得る意味が限られることをいう。
【0070】
つまり、ニュース素材分類装置1-1が用いる学習モデルは、未知語が少ない文字の長所、及び一要素の持ち得る意味が限られる単語の長所が反映されるように機械学習されたモデルである。したがって、ニュース性投稿情報に対し、文面の観点から文字及び単語の優位性が反映された判定が行われ、結果として、精度の高い既出・非既出情報を得ることができる。
【0071】
このように、利用者が多数のソーシャルメディア情報から第一報の非既出情報または既出情報を取得する際に、ニュース素材分類装置1-1を用いることで、既出情報と非既出情報とを精度高く分類することが可能となる。
【0072】
また、実施例1のニュース素材分類装置1-1は、ニュース素材抽出装置100とは独立して無相関に動作する。このため、ニュース素材分類装置1-1の学習モデルは、ニュース素材抽出装置100が入力する多数のソーシャルメディア情報を用いる必要がなく、ニュース素材抽出装置100が入力するソーシャルメディア情報の数よりも少ないニュース性投稿情報を用いればよい。
【0073】
したがって、学習データが少なくて済むから、学習モデルを機械学習するためのハードウェアの負担が少なくなり、限られた計算機資源であっても複雑な処理を行うことも可能である。
【0074】
さらに、実施例1のニュース素材分類装置1-1は、ニュース素材抽出装置100とは独立して動作するから、ニュース素材抽出装置100による抽出処理とニュース素材分類装置1-1による分類処理とは、ほぼ無相関の関係にある。したがって、ニュース素材抽出装置100による抽出処理との関係をさほど気にすることなく、ニュース素材分類装置1-1の分類処理の内容を変更することができ、分類処理を変更する際の作業が容易となる。
【0075】
また、本願の発明者による実験によれば、既出情報と非既出情報の正しい割合を20%及び80%とした場合に、単純な従来のフィルタリング処理では、約50%の精度でそれぞれ既出情報及び非既出情報に分類するという結果が得られた。つまり、ニュース性投稿情報のうち20%の既出情報を抽出しようとした場合に、本来の既出情報のうち34%を、94.1%の精度で取得することができる。一方、実施例1のニュース素材分類装置1-1では、約80%以上の精度で既出情報及び非既出情報に分類するという結果が得られた。つまり、ニュース性投稿情報のうち20%の既出情報を抽出しようとした場合に、本来の既出情報のうち80%を、90%の精度で取得することができる。詳細については、後述する図21にて説明する。
【0076】
〔実施例2〕
次に、実施例2について説明する。前述のとおり、実施例2は、実施例1の処理により、学習モデルを用いた判定結果を生成し、エージェント情報を用いたフィルタリングにて、ニュース性投稿情報を、第一報の非既出情報とその他の既出情報とに分類し、判定結果を生成し、学習モデルを用いた判定結果及びフィルタリングによる判定結果に基づいて、最終的な判定結果を生成する例である。
【0077】
一般に、ソーシャルメディアの投稿には、本文のみならず、投稿元のアプリケーションまたはOS等のエージェント情報、さらには投稿時間の情報が付加されており、利用者は、これらの情報を利用することが可能な場合がある。
【0078】
携帯端末等の可搬通信機器から発信されるニュースに関わる投稿は、第一報の非既出情報である可能性が高い。これに対し、携帯端末等の可搬通信機器でない設置型のサーバーまたはパーソナルコンピュータから発信される投稿は、報道局またはホームページから自動的に投稿されるもの、または屋内のパーソナルコンピュータにて何かの情報を得て投稿されるものが多い。この場合の投稿情報は、第一報の非既出情報である可能性が低く、既出情報である可能性が高い。エージェント情報の種類は膨大であるが、携帯電話からの投稿であるか否かの情報のみを用いて、既出・非既出の判別を行うことが可能である。
【0079】
そこで、実施例2では、エージェント情報を用いたフィルタリングにて非既出情報と既出情報とを判定し、学習モデルを用いた判定結果、及びフィルタリングによる判定結果に基づいて、最終的な判定結果を生成するようにした。
【0080】
図3は、実施例2のニュース素材分類装置を含む全体構成例の概要を説明する図である。このシステムは、利用者が多数のソーシャルメディア情報から第一報の非既出情報を取得するためのものであり、ニュース素材抽出装置100及びニュース素材分類装置1-2を備えて構成される。
【0081】
ニュース素材抽出装置100は、図1に示したニュース素材抽出装置100と同様であるから、ここでは説明を省略する。
【0082】
ニュース素材分類装置1-2は、ニュース素材抽出装置100からニュース性投稿情報を入力し、学習モデルを用いて、ニュース性投稿情報を、文面に基づき非既出情報と既出情報とに分類する。また、ニュース素材分類装置1-2は、エージェント情報を用いたフィルタリングにて、ニュース性投稿情報を、エージェント情報に基づき非既出情報と既出情報とに分類する。そして、ニュース素材分類装置1-2は、文面に基づいて分類した非既出情報及び既出情報、並びにエージェント情報に基づいて分類した非既出情報及び既出情報に基づいて、最終的な判定結果を生成する。
【0083】
ニュース素材分類装置1-2は、最終的な判定結果として、ニュース性投稿情報について既出または非既出を示すラベル情報を、既出・非既出情報として出力する。ニュース素材分類装置1-2の詳細については後述する。
【0084】
図4は、図3に示した実施例2のニュース素材分類装置1-2の構成例を示すブロック図である。このニュース素材分類装置1-2は、系列生成部10、文面分類部11、学習モデル記憶部12、エージェント分類部13及び判定部14を備えている。
【0085】
系列生成部10、文面分類部11及び学習モデル記憶部12は、図2に示した系列生成部10、文面分類部11及び学習モデル記憶部12と同様であるから、ここでは説明を省略する。文面分類部11は、既出・非既出情報a(第1判定結果)を判定部14に出力する。
【0086】
エージェント分類部13は、ニュース素材抽出装置100からニュース性投稿情報を入力し、ニュース性投稿情報に付加されたエージェント情報に基づいて、ニュース性投稿情報が既出であるか、または非既出であるかを判定し、そのラベル情報を生成する。そして、エージェント分類部13は、生成したラベル情報を既出・非既出情報b(第2判定結果)として判定部14に出力する。
【0087】
エージェント情報は、投稿元の機器を識別するための情報であり、例えば、投稿元の機器の種類、投稿元の機器にて投稿に使用するアプリケーションまたはOS等の情報が含まれる。
【0088】
図5は、エージェント分類部13の処理例を示すフローチャートである。エージェント分類部13は、ニュース素材抽出装置100からニュース性投稿情報を入力し(ステップS501)、ニュース性投稿情報からエージェント情報を抽出する(ステップS502)。ニュース性投稿情報にはエージェント情報が付加されている場合があり、エージェント分類部13は、ニュース性投稿情報から、当該ニュース性投稿情報に付加されたエージェント情報を抽出することができる。
【0089】
エージェント分類部13は、エージェント情報に基づいて、ニュース性投稿情報が既出であるか、または非既出であるかを判定し(ステップS503)、そのラベル情報を生成する。エージェント分類部13は、ラベル情報を既出・非既出情報bとして判定部14に出力する(ステップS504)。
【0090】
具体的には、エージェント分類部13は、エージェント情報が、携帯端末の機器名称、携帯端末にて使用するアプリケーションまたはOSの名称である場合、投稿元が携帯端末であると判断し、当該ニュース性投稿情報は非既出であると判定する。一方、エージェント分類部13は、エージェント情報が、携帯端末の機器名称、携帯端末にて使用するアプリケーションまたはOSの名称でない場合(設置型のコンピュータの機器名称、設置型のコンピュータにて使用するアプリケーション及びOSの名称である場合)、投稿元が携帯端末でないと判断し、当該ニュース性投稿情報は既出であると判定する。
【0091】
例えば、エージェント分類部13は、エージェント情報が「Twitter for iPhone(登録商標)」または「Twitter for Android(登録商標)」である場合、非既出であると判定する。一方、エージェント分類部13は、エージェント情報が「Twitter for iPhone(登録商標)」及び「Twitter for Android(登録商標)」以外の場合、既出であると判定する。
【0092】
図4に戻って、判定部14は、文面分類部11から既出・非既出情報aを入力すると共に、エージェント分類部13から既出・非既出情報bを入力し、既出・非既出情報a,bに基づいて、既出・非既出情報を生成して出力する。
【0093】
図6は、判定部14の第1の処理例(処理例1)を示すフローチャートである。判定部14は、文面分類部11及びエージェント分類部13から既出・非既出情報a,bをそれぞれ入力する(ステップS601)。
【0094】
判定部14は、既出・非既出情報aが既出を示しているか否かを判定する(ステップS602)。判定部14は、既出・非既出情報aが既出を示している場合(ステップS602:Y)、ステップS603へ移行し、既出・非既出情報aが既出を示していない場合(非既出を示している場合)(ステップS602:N)、ステップS605へ移行する。
【0095】
判定部14は、ステップS602(Y)から移行して、既出・非既出情報bが既出を示しているか否かを判定する(ステップS603)。判定部14は、既出・非既出情報bが既出を示している場合(ステップS603:Y)、既出を判定し、既出を示すラベル情報を生成する(ステップS604)。一方、判定部14は、既出・非既出情報bが既出を示していない場合(非既出を示している場合)(ステップS603:N)、ステップS605へ移行する。
【0096】
判定部14は、ステップS602(N)またはステップS603(N)から移行して、非既出を判定し、非既出を示すラベル情報を生成する(ステップS605)。判定部14は、ステップS604またはステップS605から移行して、ラベル情報を既出・非既出情報として出力する(ステップS606)。
【0097】
このように、判定部14は、図6に示した処理例1において、既出・非既出情報a,bの両者が既出を示している場合、既出を示す既出・非既出情報を出力し、それ以外の場合、非既出を示す既出・非既出情報を出力する。
【0098】
図7は、判定部14の第2の処理例(処理例2)を示すフローチャートである。図7に示すステップS701及びステップS706は、図6に示したステップS601及びステップS606と同様であるから、ここでは説明を省略する。
【0099】
判定部14は、既出・非既出情報aが既出を示しているか否かを判定する(ステップS702)。判定部14は、既出・非既出情報aが既出を示している場合(ステップS702:Y)、ステップS704へ移行し、既出・非既出情報aが既出を示していない場合(非既出を示している場合)(ステップS702:N)、ステップS703へ移行する。
【0100】
判定部14は、ステップS702(N)から移行して、既出・非既出情報bが既出を示しているか否かを判定する(ステップS703)。判定部14は、既出・非既出情報bが既出を示している場合(ステップS703:Y)、ステップS704へ移行する。一方、判定部14は、既出・非既出情報bが既出を示していない場合(非既出を示している場合)(ステップS703:N)、ステップS705へ移行する。
【0101】
判定部14は、ステップS702(Y)またはステップS703(Y)から移行して、既出を判定し、既出を示すラベル情報を生成する(ステップS704)。判定部14は、ステップS703(N)から移行して、非既出を判定し、非既出を示すラベル情報を生成する(ステップS705)。
【0102】
このように、判定部14は、図7に示した処理例2において、既出・非既出情報a,bのいずれか一方が既出を示している場合、既出を示す既出・非既出情報を出力し、それ以外の場合、非既出を示す既出・非既出情報を出力する。
【0103】
以上のように、実施例2のニュース素材分類装置1-2によれば、系列生成部10は、ニュース素材抽出装置100により抽出されたニュース性投稿情報から、文字ベクトル及び単語ベクトルを生成する。文面分類部11は、学習モデルを用いて、ニュース性投稿情報の文字ベクトル及び単語ベクトルを入力データとし、既出・非既出情報を出力データとした演算を行い、既出・非既出情報aを生成する。エージェント分類部13は、ニュース性投稿情報に含まれるエージェント情報に基づいて、既出・非既出情報bを生成する。判定部14は、既出・非既出情報a,bに基づいて、ニュース性投稿情報に対する既出・非既出情報を生成する。
【0104】
これにより、実施例1と同様の効果を奏する。特に、ニュース性投稿情報の文面に基づいて、文字情報及び単語情報の優位性を活かした判定に加え、ニュース性投稿情報に含まれるエージェント情報に基づいた判定を行うから、一層精度の高い既出・非既出情報を得ることができる。
【0105】
このように、利用者が多数のソーシャルメディア情報から第一報の非既出情報または既出情報を取得する際に、ニュース素材分類装置1-2を用いることで、既出情報と非既出情報とを一層精度高く分類することが可能となる。
【0106】
〔実施例2の変形例〕
次に、実施例2の変形例について説明する。実施例2の変形例は、文字ベクトル及び単語ベクトルを入力データとして機械学習された学習モデルを用いる代わりに、文字ベクトルのみまたは単語ベクトルのみを入力データとして機械学習された学習モデルを用いるものである。つまり、実施例2の変形例は、文字ベクトルのみまたは単語ベクトルのみで機械学習された学習モデルを用いた判定結果を生成し、エージェント情報を用いたフィルタリングにて判定結果を生成し、学習モデルを用いた判定結果及びフィルタリングによる判定結果に基づいて、最終的な判定結果を生成する例である。
【0107】
実施例2の変形例におけるニュース素材分類装置1-2は、図4の構成において、実施例2とは異なる系列生成部10、文面分類部11及び学習モデル記憶部12を備え、実施例2と同じエージェント分類部13及び判定部14を備えている。
【0108】
実施例2の変形例の系列生成部10は、ニュース性投稿情報を入力し、ニュース性投稿情報に基づいて、ニュース性投稿情報に含まれる文字を文字系列として抽出し、または、ニュース性投稿情報に含まれる単語を単語系列として抽出する。そして、系列生成部10は、文字系列からなる文字ベクトル、または単語系列からなる単語ベクトルを生成し、文字ベクトルまたは単語ベクトルを文面分類部11に出力する。
【0109】
文面分類部11は、系列生成部10から文字ベクトルまたは単語ベクトルを入力し、学習モデル記憶部12に記憶された学習モデルを用いて、文字ベクトルまたは単語ベクトルに基づき、既出・非既出情報aを生成し、これを判定部14に出力する。
【0110】
学習モデル記憶部12には、従来の学習装置により機械学習された従来の学習モデルが記憶されている。この学習モデルは、例えば文字NN及び出力NNにより構成され、または単語NN及び出力NNにより構成される。
【0111】
以上のように、実施例2の変形例のニュース素材分類装置1-2によれば、文面分類部11は、学習モデルを用いて、ニュース性投稿情報の文字ベクトルまたは単語ベクトルを入力データとし、既出・非既出情報を出力データとした演算を行い、既出・非既出情報aを生成する。エージェント分類部13は、ニュース性投稿情報に含まれるエージェント情報に基づいて、既出・非既出情報bを生成する。判定部14は、既出・非既出情報a,bに基づいて、ニュース性投稿情報に対する既出・非既出情報を生成する。
【0112】
これにより、ニュース性投稿情報の文面に基づいた判定に加え、ニュース性投稿情報に含まれるエージェント情報に基づいた判定を行うから、従来の、文面のみに基づいた判定よりも、精度の高い既出・非既出情報を得ることができる。
【0113】
このように、利用者が多数のソーシャルメディア情報から第一報の非既出情報または既出情報を取得する際に、実施例2の変形例のニュース素材分類装置1-2を用いることで、既出情報と非既出情報とを精度高く分類することが可能となる。
【0114】
〔学習装置〕
次に、図2及び図4に示した学習モデル記憶部12に記憶される学習モデルを機械学習する学習装置について説明する。
【0115】
図8は、学習装置の構成例を示すブロック図である。この学習装置2は、系列生成部10、学習部20及び学習モデル記憶部12を備えている。
【0116】
系列生成部10及び学習モデル記憶部12は、図2及び図4に示した系列生成部10及び学習モデル記憶部12と同様であるから、ここでは説明を省略する。学習モデル記憶部12に記憶される学習モデルは、学習部20により生成される。
【0117】
学習部20は、系列生成部10からニュース性投稿情報の文字ベクトル及び単語ベクトルを入力すると共に、ニュース性投稿情報が既出であるか、または非既出であるかを示す既出・非既出情報を入力する。
【0118】
学習部20は、ニュース性投稿情報の文字ベクトル及び単語ベクトルを入力データとし、既出・非既出情報を出力データとし、これらの学習データを用いて機械学習を行う。そして、学習部20は、図9に示した学習モデルを生成し、学習モデルを学習モデル記憶部12に記憶する。例えば、学習部20は、後述する図10図15に示す学習モデルを生成する。学習部20による学習は、例えばバックプロパゲーション法により行われ、機械学習の度にノード間の重み係数等が更新される。
【0119】
既出・非既出情報の学習データは、人手のアノテータにより生成される。アノテータは、図1及び図3に示したニュース素材抽出装置100により抽出されたニュース性投稿情報に対し、ニュース記事が含まれているか否かを判定する。そして、アノテータは、ニュース性投稿情報にニュース記事の引用が含まれていると判定した場合、当該ニュース性投稿情報について既出のラベル付けを行い、既出を示す既出・非既出情報を生成する。一方、アノテータは、ニュース性投稿情報にニュース記事の引用が含まれていないと判定した場合、当該ニュース性投稿情報について非既出のラベル付けを行い、非既出を示す既出・非既出情報を生成する。
【0120】
このように、学習装置2により、例えば後述する図10図15に示す学習モデルが生成され、この学習モデルは、図2または図4に示した学習モデル記憶部12に記憶される。
【0121】
〔学習モデル〕
次に、図8に示した学習装置2により生成され、図1及び図2に示した実施例1のニュース素材分類装置1-1、または図3及び図4に示した実施例2のニュース素材分類装置1-2に用いる学習モデルについて説明する。
【0122】
学習装置2により生成された学習モデルは、ニュース性投稿情報の文字ベクトル及び単語ベクトルを入力データとし、入力データに対して、当該ニュース性投稿情報が既出であるか、または非既出であるかを示す既出・非既出情報を出力するように、コンピュータを機能させるためのものであり、機械学習された重み係数を保持している。図2及び図4に示した文面分類部11は、学習モデル記憶部12に記憶された学習モデルを読み出してメモリに格納し、学習モデルを用いて演算を行う演算部として機能する。
【0123】
具体例1は、FFNN及びLSTMを用いた学習モデルであり、具体例2は、FFNN及びCNNを用いた学習モデルであり、具体例3は、FFNNを用いた学習モデルである。これらの具体例1~3は、図9に示した学習モデルを具体的に示したものである。
【0124】
(具体例1)
まず、具体例1の学習モデルについて説明する。図10は、FFNN及びLSTMを用いた学習モデル(具体例1)の概略構造を説明する図であり、図11は、具体例1におけるノード数及び入出力データを説明する図である。
【0125】
この学習モデルは、文字入力層用FFNN24、単語入力層用FFNN25、文字LSTM26、単語LSTM27、中間層用FFNN28及び出力層用FFNN29を備えて構成される。また、この学習モデルは、文字入力層用FFNN24の出力データが文字LSTM26に入力されるように、文字入力層用FFNN24と文字LSTM26とが結合し、単語入力層用FFNN25の出力データが単語LSTM27に入力されるように、単語入力層用FFNN25と単語LSTM27とが結合し、文字LSTM26の出力データ及び単語LSTM27の出力データが中間層用FFNN28に入力されるように、文字LSTM26及び単語LSTM27と中間層用FFNN28とが結合し、中間層用FFNN28の出力データが出力層用FFNN29に入力されるように、中間層用FFNN28と出力層用FFNN29とが結合して構成される。
【0126】
この学習モデルは、文字one-hotベクトル系列{xchar}及び単語one-hotベクトル系列{xword}のそれぞれを入力データとし、中間層にて両者を結合し、二値の既出・非既出情報を出力データとするニューラルネットワークである。また、この学習モデルは、図8に示した学習装置2により機械学習された文字入力層用FFNN24~出力層用FFNN29の重み係数を保持している。
【0127】
文面分類部11は、学習モデル記憶部12に記憶された図10に示す学習モデルを読み出す。文面分類部11は、系列生成部10により生成された文字one-hotベクトル系列{xchar}を文字入力層用FFNN24に入力し、文字one-hotベクトル系列{xchar}の各要素の値に対し、機械学習された重み係数を付加する等のFFNNの演算を行う。そして、文面分類部11は、演算結果のベクトル系列{hchar in}を文字入力層用FFNN24から出力し、文字LSTM26へ伝搬させる。尚、FFNNの演算は既知であるから、ここでは説明を省略する。
【0128】
図16は、ニュース性投稿情報から生成された文字系列の例及び単語系列の例を示す図である。ニュース性投稿情報が「新宿駅西口付近で火事11月15日」である場合、系列生成部10により、このニュース性投稿情報から文字系列「新,宿,駅,西,口,付,近,で,火,事,1,1,月,1,5,日」が抽出される。この文字系列は、「新」「宿」・・・「日」の各文字から構成される。
【0129】
また、系列生成部10により、このニュース性投稿情報から単語系列「新宿駅西口,付近,で,火事,11月15日」が抽出される。この単語系列は、「新宿駅西口」「付近」・・・「11月15日」の各単語から構成される。
【0130】
図17は、文字one-hotベクトル系列{xchar}の例を示す図である。文字系列が図16に示した「新,宿,駅,西,口,付,近,で,火,事,1,1,月,1,5,日」である場合、系列生成部10により、図17に示す6300行×150列の文字one-hotベクトル系列{xchar}が生成される。この文字one-hotベクトル系列{xchar}の列数150は、投稿の文字数の最大値150に相当する。行数6300は、実施例1,2に用いる文字の種類の最大値に相当し、学習モデルの設計者により、学習データとして出現する文字の頻度等を考慮して予め設定される。
【0131】
文字one-hotベクトル系列{xchar}の列データは、文字系列を構成する各文字「新」「宿」・・・「日」に対応しており、6300の行位置のうち当該文字に対応する1つの行位置に「1」が設定され、その他は「0」が設定される。文字系列が150文字に満たない場合、残りの列データにはヌルデータである「0」が設定される。
【0132】
図11を参照して、図16及び図17の例において、文面分類部11は、ニュース性投稿情報が「新宿駅西口付近で火事11月15日」である場合、6300行×150列の文字one-hotベクトル系列{xchar}を文字入力層用FFNN24に入力し、FFNNの演算を行う。この場合の文字入力層用FFNN24における入力層のノード数は、6300である。
【0133】
そして、文面分類部11は、FFNNの演算結果として200行×150列のベクトル系列{hchar in}を生成し、これを文字入力層用FFNN24から出力し、文字LSTM26へ伝搬させる。この場合の文字入力層用FFNN24における出力層のノード数は、200である。
【0134】
図10に戻って、文面分類部11は、文字入力層用FFNN24から演算結果のベクトル系列{hchar in}を文字LSTM26に入力し、ベクトル系列{hchar in}の各要素の値に対し、機械学習された重み係数を付加する等のLSTMの演算を行う。そして、文面分類部11は、演算結果のベクトルhchar LSTMを文字LSTM26から出力し、ベクトルhchar LSTM及び後述するベクトルhword LSTMを結合して中間層用FFNN28へ伝搬させる。尚、LSTMの演算は既知であるから、ここでは説明を省略する。
【0135】
図11を参照して、図16及び図17の例において、文面分類部11は、文字入力層用FFNN24から200行×150列のベクトル系列{hchar in}を文字LSTM26に入力し、LSTMの演算を行う。この場合の文字LSTM26における入力層のノード数は、200である。
【0136】
そして、文面分類部11は、LSTMの演算結果として200行×1列のベクトルhchar LSTMを生成し、これを文字LSTM26から出力し、中間層用FFNN28へ伝搬させる。この場合の文字LSTM26における出力層のノード数は、200である。
【0137】
図10に戻って、文面分類部11は、系列生成部10により生成された単語one-hotベクトル系列{xword}を単語入力層用FFNN25に入力し、単語one-hotベクトル系列{xword}の各要素の値に対し、機械学習された重み係数を付加する等のFFNNの演算を行う。そして、文面分類部11は、演算結果のベクトル系列{hword in}を単語入力層用FFNN25から出力し、単語LSTM27へ伝搬させる。
【0138】
図18は、単語one-hotベクトル系列{xword}の例を示す図である。単語系列が図16に示した「新宿駅西口,付近,で,火事,11月15日」である場合、系列生成部10により、図18に示す72000行×150列の単語one-hotベクトル系列{xword}が生成される。この単語one-hotベクトル系列{xword}の列数150は、投稿の文字数の最大値150に相当する。行数72000は、実施例1,2に用いる単語の種類の最大値に相当し、学習モデルの設計者により、学習データとして出現する単語の頻度等を考慮して予め設定される。
【0139】
単語one-hotベクトル系列{xword}の列データは、単語系列を構成する各単語「新宿駅西口」「付近」・・・「11月15日」に対応しており、72000の行位置のうち当該単語に対応する1つの行位置に「1」が設定され、その他は「0」が設定される。単語系列が150文字に満たない場合、残りの列データにはヌルデータである「0」が設定される。
【0140】
図11を参照して、図16及び図18の例において、文面分類部11は、ニュース性投稿情報が「新宿駅西口付近で火事11月15日」である場合、72000行×150列の単語one-hotベクトル系列{xword}を単語入力層用FFNN25に入力し、FFNNの演算を行う。この場合の単語入力層用FFNN25における入力層のノード数は、72000である。
【0141】
そして、文面分類部11は、FFNNの演算結果として200行×150列のベクトル系列{hword in}を生成し、これを単語入力層用FFNN25から出力し、単語LSTM27へ伝搬させる。この場合の単語入力層用FFNN25における出力層のノード数は、200である。
【0142】
図10に戻って、文面分類部11は、単語入力層用FFNN25から演算結果のベクトル系列{hword in}を単語LSTM27に入力し、ベクトル系列{hword in}の各要素の値に対し、機械学習された重み係数を付加する等のLSTMの演算を行う。そして、文面分類部11は、演算結果のベクトルhword LSTMを単語LSTM27から出力し、ベクトルhchar LSTM及びベクトルhword LSTMを結合して中間層用FFNN28へ伝搬させる。
【0143】
図11を参照して、図16及び図18の例において、文面分類部11は、単語入力層用FFNN25から200行×150列のベクトル系列{hword in}を単語LSTM27に入力し、LSTMの演算を行う。この場合の単語LSTM27における入力層のノード数は、200である。
【0144】
そして、文面分類部11は、LSTMの演算結果として200行×1列のベクトルhword LSTMを生成し、これを単語LSTM27から出力し、中間層用FFNN28へ伝搬させる。この場合の単語LSTM27における出力層のノード数は、200である。
【0145】
図10に戻って、文面分類部11は、文字LSTM26からのベクトルhchar LSTMと単語LSTM27からのベクトルhword LSTMとが結合したベクトルhLSTMを中間層用FFNN28に入力し、ベクトルhchar LSTM及びベクトルhword LSTMの各要素の値に対し、機械学習された重み係数を付加する等のFFNNの演算を行う。そして、文面分類部11は、演算結果のベクトルhintを中間層用FFNN28から出力し、出力層用FFNN29へ伝搬させる。
【0146】
図11を参照して、図16図18の例において、文面分類部11は、文字LSTM26からの200行×1列のベクトルhchar LSTMと単語LSTM27からの200行×1列のベクトルhword LSTMとを結合させたベクトルhLSTMを中間層用FFNN28に入力し、FFNNの演算を行う。この場合の中間層用FFNN28における入力層のノード数は、400である。
【0147】
そして、文面分類部11は、FFNNの演算結果として200行×1列のベクトルhintを生成し、これを中間層用FFNN28から出力し、出力層用FFNN29へ伝搬させる。この場合の中間層用FFNN28における出力層のノード数は、200である。
【0148】
図10に戻って、文面分類部11は、中間層用FFNN28からベクトルhintを出力層用FFNN29に入力し、ベクトルhintの各要素の値に対し、機械学習された重み係数を付加する等のFFNNの演算を行う。そして、文面分類部11は、演算結果のベクトルhoutに対し、softmax関数を用いて確率値を演算し、確率値に対し、argmax関数を用いて二値情報を演算し、これを既出・非既出情報として出力する。
【0149】
図11を参照して、図16図18の例において、文面分類部11は、中間層用FFNN28から200行×1列のベクトルhintを出力層用FFNN29に入力し、FFNNの演算を行う。この場合の出力層用FFNN29における入力層のノード数は、200である。
【0150】
そして、文面分類部11は、FFNNの演算結果として2行×1列のベクトルhoutを生成し、ベクトルhoutに対して関数処理を行い、既出・非既出情報を出力する。この場合の出力層用FFNN29における出力層のノード数は、2である。
【0151】
尚、図10及び図11に示したFFNN及びLSTMを用いた具体例1の学習モデルにおいて、文字LSTM26及び単語LSTM27のそれぞれにアテンションメカニズムを追加するようにしてもよい。文字LSTM26にアテンションメカニズムを追加することにより、ニュース性投稿情報の文字系列全体に影響を及ぼしている文字に対して高い重み係数が与えられ、さほどの影響を及ぼしていない文字に対して低い重み係数が与えられる。また、単語LSTM27にアテンションメカニズムを追加することにより、ニュース性投稿情報の単語系列全体に影響を及ぼしている単語に対して高い重み係数が与えられ、さほどの影響を及ぼしていない単語に対して低い重み係数が与えられる。
【0152】
アテンションメカニズムは既知であり、詳細については以下の文献を参照されたい。
宮崎他、“ニュース制作に役立つtweetの自動抽出手法”、言語処理学会、第23回年次大会、発表論文集(2017年3月)、P.418-421
【0153】
また、図10及び図11に示したFFNN及びLSTMを用いた具体例1の学習モデルにおいて、LSTMの代わりに、GRU(Gated Recurrent Unit:ゲート付きリカレント(再帰型)ユニット)等の他のRNN(Recurrent Neural Network:リカレント(再帰型)ニューラルネットワーク)を用いるようにしてもよい。具体的には、文字LSTM26及び単語LSTM27の代わりに、それぞれ文字RNN及び単語RNNが用いられる。つまり、本発明は、FFNN及びRNNを用いた学習モデルに適用がある。
【0154】
(具体例2)
次に、具体例2の学習モデルについて説明する。図12は、FFNN及びCNNを用いた学習モデル(具体例2)の概略構造を説明する図であり、図13は、具体例2におけるノード数及び入出力データを説明する図である。
【0155】
この学習モデルは、文字入力層用FFNN30、単語入力層用FFNN31、文字CNN32、単語CNN33、プーリング40,41(文字プーリング層40、単語プーリング層41)、中間層用FFNN34及び出力層用FFNN35を備えて構成される。また、この学習モデルは、文字入力層用FFNN30の出力データが文字CNN32に入力されるように、文字入力層用FFNN30と文字CNN32とが結合し、文字CNN32の出力データがプーリング40の層に入力されるように、文字CNN32とプーリング40とが結合し、単語入力層用FFNN31の出力データが単語CNN33に入力されるように、単語入力層用FFNN31と単語CNN33とが結合し、単語CNN33の出力データがプーリング41の層に入力されるように、単語CNN33とプーリング41とが結合し、プーリング40の出力データ及びプーリング41の出力データが中間層用FFNN34に入力されるように、プーリング40,41と中間層用FFNN34とが結合し、中間層用FFNN34の出力データが出力層用FFNN35に入力されるように、中間層用FFNN34と出力層用FFNN35とが結合して構成される。尚、文字CNN32及びプーリング40では演算が繰り返し行われ、単語CNN33及びプーリング41でも演算が繰り返し行われる。
【0156】
この学習モデルは、文字one-hotベクトル系列{xchar}及び単語one-hotベクトル系列{xword}のそれぞれを入力データとし、中間層にて両者を結合し、二値の既出・非既出情報を出力データとするニューラルネットワークである。また、この学習モデルは、図8に示した学習装置2により機械学習された文字入力層用FFNN30~出力層用FFNN35及びプーリング40,41の各層の重み係数を保持している。
【0157】
文面分類部11は、学習モデル記憶部12に記憶された図12に示す学習モデルを読み出す。文面分類部11は、系列生成部10により生成された文字one-hotベクトル系列{xchar}を文字入力層用FFNN30に入力し、文字one-hotベクトル系列{xchar}の各要素の値に対し、機械学習された重み係数を付加する等のFFNNの演算を行う。そして、文面分類部11は、演算結果のベクトル系列{hchar in}を文字入力層用FFNN30から出力し、文字CNN32へ伝搬させる。
【0158】
図13を参照して、図16及び図17の例において、文面分類部11は、図11の具体例1と同様に、6300行×150列の文字one-hotベクトル系列{xchar}を文字入力層用FFNN30に入力し、FFNNの演算を行う。この場合の文字入力層用FFNN30における入力層のノード数は、6300である。
【0159】
そして、文面分類部11は、図11の具体例1と同様に、FFNNの演算結果として200行×150列のベクトル系列{hchar in}を生成し、これを文字入力層用FFNN30から出力し、文字CNN32へ伝搬させる。この場合の文字入力層用FFNN30における出力層のノード数は、200である。
【0160】
図12に戻って、文面分類部11は、文字入力層用FFNN30から演算結果のベクトル系列{hchar in}を文字CNN32に入力し、ベクトル系列{hchar in}の各要素の値に対し、機械学習された重み係数を付加する等のCNNの演算を行う。そして、文面分類部11は、演算結果のベクトルを文字CNN32から出力し、プーリング40へ伝搬させる。文面分類部11は、文字CNN32から演算結果のベクトルをプーリング40の層に入力し、ベクトルの各要素の値に対し、機械学習された重み係数を付加する等のプーリングの演算を行う。この場合、文面分類部11は、文字CNN32及びプーリング40の演算を所定回数繰り返し行い、演算結果のベクトルhchar CNNをプーリング40から出力し、ベクトルhchar CNN及び後述するベクトルhword CNNを結合して中間層用FFNN34へ伝搬させる。
【0161】
ここで、CNNの演算とは畳み込みの演算をいい、当該演算により、入力したベクトル系列{hchar in}の局所的な特徴が抽出される。また、プーリングの処理とは、CNNの演算結果をまとめ上げる処理をいい、ベクトル系列{hchar in}の局所的な特徴を維持しながら縮小が行われる。尚、CNN及びプーリングの演算の詳細は既知であるから、ここでは説明を省略する。
【0162】
図13を参照して、図16及び図17の例において、文面分類部11は、文字入力層用FFNN30から200行×150列のベクトル系列{hchar in}を文字CNN32に入力し、CNNの演算を行い、演算結果のベクトルをプーリング40の層に入力し、プーリングの演算を行い、CNN及びプーリングの演算を繰り返す。この場合の文字CNN32における入力層のノード数は、200である。
【0163】
そして、文面分類部11は、CNN及びプーリングの演算結果として200行×1列のベクトルhchar CNNを生成し、これをプーリング40の層から出力し、中間層用FFNN34へ伝搬させる。この場合のプーリング40における出力層のノード数は、200である。
【0164】
図12に戻って、文面分類部11は、系列生成部10により生成された単語one-hotベクトル系列{xword}を単語入力層用FFNN31に入力し、単語one-hotベクトル系列{xword}の各要素の値に対し、機械学習された重み係数を付加する等のFFNNの演算を行う。そして、文面分類部11は、演算結果のベクトル系列{hword in}を単語入力層用FFNN31から出力し、単語CNN33へ伝搬させる。
【0165】
図13を参照して、図16及び図18の例において、文面分類部11は、図11の具体例1と同様に、72000行×150列の単語one-hotベクトル系列{xword}を単語入力層用FFNN31に入力し、FFNNの演算を行う。この場合の単語入力層用FFNN31における入力層のノード数は、72000である。
【0166】
そして、文面分類部11は、FFNNの演算結果として200行×150列のベクトル系列{hword in}を生成し、これを単語入力層用FFNN31から出力し、単語CNN33へ伝搬させる。この場合の単語入力層用FFNN31における出力層のノード数は、200である。
【0167】
図12に戻って、文面分類部11は、単語入力層用FFNN31から演算結果のベクトル系列{hword in}を単語CNN33に入力し、ベクトル系列{hword in}の各要素の値に対し、機械学習された重み係数を付加する等のCNNの演算を行う。そして、文面分類部11は、演算結果のベクトルを単語CNN33から出力し、プーリング41へ伝搬させる。文面分類部11は、単語CNN33から演算結果のベクトルをプーリング41の層に入力し、ベクトルの各要素の値に対し、機械学習された重み係数を付加する等のプーリングの演算を行う。この場合、文面分類部11は、単語CNN33及びプーリング41の演算を所定回数繰り返し行い、演算結果のベクトルhword CNNをプーリング41から出力し、ベクトルhchar CNN及びベクトルhword CNNを結合して中間層用FFNN34へ伝搬させる。
【0168】
図13を参照して、図16及び図18の例において、文面分類部11は、単語入力層用FFNN31から200行×150列のベクトル系列{hword in}を単語CNN33に入力し、CNNの演算を行い、演算結果のベクトルをプーリング41の層に入力し、プーリングの演算を行い、CNN及びプーリングの演算を繰り返す。この場合の単語CNN33における入力層のノード数は、200である。
【0169】
そして、文面分類部11は、CNN及びプーリングの演算結果として200行×1列のベクトルhword CNNを生成し、これをプーリング41の層から出力し、中間層用FFNN34へ伝搬させる。この場合のプーリング41における出力層のノード数は、200である。
【0170】
図12に戻って、文面分類部11は、プーリング40からのベクトルhchar CNNとプーリング41からのベクトルhword CNNとが結合したベクトルhCNNを中間層用FFNN34に入力する。文面分類部11は、図10に示した中間層用FFNN28及び出力層用FFNN29と同様の処理を行い、既出・非既出情報を出力する。
【0171】
尚、中間層用FFNN34及び出力層用FFNN35については、図10に示した中間層用FFNN28及び出力層用FFNN29とそれぞれ同じであり、ノード数、ベクトルサイズ及び演算も同様であるから、これらの説明は省略する。
【0172】
(具体例3)
次に、具体例3の学習モデルについて説明する。図14は、FFNNを用いた学習モデル(具体例3)の概略構造を説明する図であり、図15は、具体例3におけるノード数及び入出力データを説明する図である。
【0173】
この学習モデルは、文字入力層用FFNN36、単語入力層用FFNN37、中間層用FFNN38及び出力層用FFNN39を備えて構成される。また、この学習モデルは、文字入力層用FFNN36の出力データ及び単語入力層用FFNN37の出力データが中間層用FFNN38に入力されるように、文字入力層用FFNN36及び単語入力層用FFNN37と中間層用FFNN38とが結合し、中間層用FFNN38の出力データが出力層用FFNN39に入力されるように、中間層用FFNN38と出力層用FFNN39とが結合して構成される。
【0174】
この学習モデルは、文字BOWベクトルxchar及び単語BOWベクトルxwordのそれぞれを入力データとし、中間層にて両者を結合し、二値の既出・非既出情報を出力データとするニューラルネットワークである。また、この学習モデルは、図8に示した学習装置2により機械学習された文字入力層用FFNN36~出力層用FFNN39の重み係数を保持している。
【0175】
文面分類部11は、学習モデル記憶部12に記憶された図14に示す学習モデルを読み出す。文面分類部11は、系列生成部10により生成された文字BOWベクトルxcharを文字入力層用FFNN36に入力し、文字BOWベクトルxcharの各要素の値に対し、機械学習された重み係数を付加する等のFFNNの演算を行う。そして、文面分類部11は、演算結果のベクトルhchar inを文字入力層用FFNN36から出力し、中間層用FFNN38へ伝搬させる。
【0176】
図19は、文字BOWベクトルxcharの例を示す図である。文字系列が図16に示した「新,宿,駅,西,口,付,近,で,火,事,1,1,月,1,5,日」である場合、系列生成部10により、図19に示す6300行×1列の文字BOWベクトルxcharが生成される。この文字BOWベクトルxcharの行数6300は、あらゆる文字系列に表れる文字の最大数に相当する。
【0177】
6300の行位置のうち、文字系列を構成する各文字「新」「宿」・・・「日」に対応する行位置に「1」が設定され、その他の行位置に「0」が設定される。つまり、6300の行位置のうち、各文字に対応する行位置に「1」が設定される。
【0178】
図15を参照して、図16及び図19の例において、文面分類部11は、6300行×1列の文字BOWベクトルxcharを文字入力層用FFNN36に入力し、FFNNの演算を行う。この場合の文字入力層用FFNN36における入力層のノード数は、6300である。
【0179】
そして、文面分類部11は、FFNNの演算結果として200行×1列のベクトルhchar inを生成し、これを文字入力層用FFNN36から出力し、ベクトルhchar inと後述するベクトルhword inとを結合して中間層用FFNN38へ伝搬させる。この場合の文字入力層用FFNN36における出力層のノード数は、200である。
【0180】
図14に戻って、文面分類部11は、系列生成部10により生成された単語BOWベクトルxwordを単語入力層用FFNN37に入力し、単語BOWベクトルxwordの各要素の値に対し、機械学習された重み係数を付加する等のFFNNの演算を行う。そして、文面分類部11は、演算結果のベクトル系列hword inを単語入力層用FFNN37から出力し、中間層用FFNN38へ伝搬させる。
【0181】
図20は、単語BOWベクトルxwordの例を示す図である。単語系列が図16に示した「新宿駅西口,付近,で,火事,11月15日」である場合、系列生成部10により、図20に示す72000行×1列の単語BOWベクトルxwordが生成される。この単語BOWベクトルxwordの行数72000は、あらゆる単語系列に表れる単語の最大数に相当する。
【0182】
72000の行位置のうち、単語系列を構成する各単語「新宿駅西口」「付近」・・・「11月15日」に対応する行位置に「1」が設定され、その他の行位置に「0」が設定される。つまり、72000の行位置のうち、各単語に対応する行位置に「1」が設定される。
【0183】
図15を参照して、図16及び図20の例において、文面分類部11は、ニュース性投稿情報が「新宿駅西口付近で火事11月15日」である場合、72000行×1列の単語BOWベクトルxwordを単語入力層用FFNN37に入力し、FFNNの演算を行う。この場合の単語入力層用FFNN37における入力層のノード数は、72000である。
【0184】
そして、文面分類部11は、FFNNの演算結果として200行×1列のベクトルhword inを生成し、これを単語入力層用FFNN37から出力し、中間層用FFNN38へ伝搬させる。この場合の単語入力層用FFNN37における出力層のノード数は、200である。
【0185】
図14に戻って、文面分類部11は、文字入力層用FFNN36からのベクトルhchar inと単語入力層用FFNN37からのベクトルhword inとが結合したベクトルhinを中間層用FFNN38に入力する。文面分類部11は、図10に示した中間層用FFNN28及び出力層用FFNN29と同様の処理を行い、既出・非既出情報を出力する。
【0186】
尚、中間層用FFNN38及び出力層用FFNN39については、図10に示した中間層用FFNN28及び出力層用FFNN29とそれぞれ同じであり、ノード数、ベクトルサイズ及び演算も同様であるから、これらの説明は省略する。
【0187】
〔実験結果〕
次に、コンピュータを用いたシミュレーションによる実験結果について説明する。図21は、実験結果を説明する図である。(1)は、キーワードフィルタリングの手法を用いた従来技術の実験結果を示し、(2)は、文字のみを入力データとしたNNを用いた従来技術の実験結果を示し、(3)は、単語のみを入力データとしたNNを用いた従来技術の実験結果を示す。また、(4)は、文字及び単語を入力データとしたNNを用いた実施例1の実験結果を示す。
【0188】
(2)(3)(4)おいては、LSTM、CNN及びFFNNの学習モデルを用いた場合の実験結果をそれぞれ示す。また、(4)において、LSTMは、図10及び図11に示した具体例1の学習モデルであり、CNNは、図12及び図13に示した具体例2の学習モデルであり、FFNNは、図14及び図15に示した具体例3の学習モデルである。
【0189】
適合率(Precision)は、既出・非既出情報である判定結果が、実際の正解データとどの程度一致しているかを表す、正確性に関する指標である。また、再現率(Recall)は、判定結果が、実際の正解データをどのくらい網羅しているかを表す、網羅性に関する指標である。さらに、F値は、適合率及び再現率を調和平均した値である。
【0190】
それぞれの学習モデルを機械学習するための学習データとして、所定期間の44670個のニュース性投稿情報を用いた。このうち既出情報の数は9300であり、非既出情報の数は35370である。そして、図21に示す実験結果を得るためのテストデータとして、所定期間のニュース性投稿情報からランダムサンプルした10000個のニュース性投稿情報を用いた。このうち既出情報の数は2028であり、非既出情報の数は7972である。
【0191】
図21の実験結果によれば、(1)のF値は50.0%であり、(2)のLSTM、CNN及びFFNNのF値はそれぞれ87.3%,86.1%,85.0%であり、(3)のLSTM、CNN及びFFNNのF値はそれぞれ86.2%,85.4%,84.0%である。また、(4)のLSTM、CNN及びFFNNのF値はそれぞれ88.1%,88.4%,85.9%である。これにより、(1)の従来技術よりも、(2)~(4)の学習モデルを用いた方が、結果が良くなっていることがわかる。
【0192】
また、(2)の文字のみの学習モデルを用いた場合、または(3)の単語のみの学習モデルを用いた場合よりも、(4)の実施例1の学習モデルを用いた方が、LSTM、CNN及びFFNNの学習モデルのそれぞれにおいて、結果が良くなっていることがわかる。
【0193】
以上、実施例1,2及び具体例1,2,3を挙げて本発明を説明したが、本発明は前記実施例1,2及び具体例1,2,3に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。
【0194】
例えば前記実施例1,2及び具体例1,2,3において、ニュース素材分類装置1-1,1-2は、学習モデルを用いて、ニュース性投稿情報を、第一報の非既出情報とその他の既出情報とに分類するようにした。本発明は、これに限定されるものではなく、利用者の要求に応じた他の分類にも適用がある。例えば、ニュース素材分類装置1-1,1-2は、ニュース性投稿情報について、その投稿者が男性であるか、または女性であるかを示す情報に分類するようにしてもよく、方言を含むか否かを示す情報に分類するようにしてもよい。この場合、学習装置2は、既出・非既出情報の代わりに、男性または女性を示す情報、方言を含むか否かを示す情報等の分類情報を用いて、学習モデルを機械学習する。
【0195】
尚、本発明の実施例1によるニュース素材分類装置1-1、実施例2によるニュース素材分類装置1-2、及び学習装置2のハードウェア構成としては、通常のコンピュータを使用することができる。ニュース素材分類装置1-1,1-2及び学習装置2は、CPU(またはGPU)、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。
【0196】
ニュース素材分類装置1-1に備えた系列生成部10、文面分類部11及び学習モデル記憶部12の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、ニュース素材分類装置1-2に備えた系列生成部10、文面分類部11、学習モデル記憶部12、エージェント分類部13及び判定部14の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。さらに、学習装置2に備えた系列生成部10、学習部20及び学習モデル記憶部12の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
【0197】
これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
【0198】
また、図9図15に示した学習モデルは、機械学習された学習済みモデルであり、コンピュータを、多数のソーシャルメディア情報から抽出されたニュース性投稿情報を既出または非既出を示す既出・非既出情報に分類し既出・非既出情報を出力するように機能させるためのものである。また、その構成は、各図に示したとおりである。
【0199】
これらの学習モデルは、人口知能ソフトウェアの一部であるプログラムモジュールとして利用され、CPU及びメモリを備えるコンピュータにて用いられる。具体的には、例えば図9に示した学習モデルの場合、コンピュータのCPUは、メモリに記憶された学習モデルからの指令に従って、文字ベクトルを文字NN21に入力し、文字NN21の入力層に入力された文字ベクトルに対し、機械学習された重み係数に基づくNNの演算を行い、出力層から演算結果のベクトルを出力NN23に出力するように動作する。また、コンピュータのCPUは、単語ベクトルを単語NN22に入力し、単語NN22の入力層に入力された単語ベクトルに対し、機械学習された重み係数に基づくNNの演算を行い、出力層から演算結果のベクトルを出力NN23に出力するように動作する。そして、コンピュータのCPUは、出力NN23の入力層に入力された、文字NN21の出力層から出力された演算結果のベクトルと単語NN22の出力層から出力された演算結果のベクトルとが結合されたベクトルに対し、機械学習された重み係数に基づくNNの演算を行い、出力層から演算結果の既出・非既出情報を出力するように動作する。図10図15に示した学習モデルについても、同様に動作する。
【符号の説明】
【0200】
1 ニュース素材分類装置
2 学習装置
10 系列生成部
11 文面分類部
12 学習モデル記憶部
13 エージェント分類部
14 判定部
20 学習部
21 文字NN(ニューラルネットワーク)
22 単語NN
23 出力NN
24,30,36 文字入力層用FFNN(順伝播型ニューラルネットワーク)
25,31,37 単語入力層用FFNN
26 文字LSTM(長短期記憶ユニット)
27 単語LSTM
28,34,38 中間層用FFNN
29,35,39 出力層用FFNN
32 文字CNN(畳み込みニューラルネットワーク)
33 単語CNN
40,41 プーリング
100 ニュース素材抽出装置
a,b 既出・非既出情報
{xchar} 文字one-hotベクトル系列
{xword} 単語one-hotベクトル系列
char 文字BOWベクトル
word 単語BOWベクトル
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22