IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 本田技研工業株式会社の特許一覧

特開2024-130109ニュース情報分析装置、ニュース情報分析プログラム、及びニュース情報分析方法
<>
  • 特開-ニュース情報分析装置、ニュース情報分析プログラム、及びニュース情報分析方法 図1
  • 特開-ニュース情報分析装置、ニュース情報分析プログラム、及びニュース情報分析方法 図2
  • 特開-ニュース情報分析装置、ニュース情報分析プログラム、及びニュース情報分析方法 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024130109
(43)【公開日】2024-09-30
(54)【発明の名称】ニュース情報分析装置、ニュース情報分析プログラム、及びニュース情報分析方法
(51)【国際特許分類】
   G06F 16/35 20190101AFI20240920BHJP
   G06F 40/279 20200101ALI20240920BHJP
【FI】
G06F16/35
G06F40/279
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023039632
(22)【出願日】2023-03-14
(71)【出願人】
【識別番号】000005326
【氏名又は名称】本田技研工業株式会社
(74)【代理人】
【識別番号】100106002
【弁理士】
【氏名又は名称】正林 真之
(74)【代理人】
【識別番号】100120891
【弁理士】
【氏名又は名称】林 一好
(74)【代理人】
【識別番号】100160794
【弁理士】
【氏名又は名称】星野 寛明
(72)【発明者】
【氏名】渡辺 弘和
(72)【発明者】
【氏名】押味 与司明
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
5B175HB03
(57)【要約】
【課題】同一事象に対するニュース情報に対する記事の執筆姿勢を把握する。
【解決手段】ニュース情報分析装置1は、通信ネットワーク60からテキスト情報を含む複数のニュース情報を取得し記憶するニュース情報取得部110と、ニュース情報同士のテキスト情報を比較してテキストの重複部分と非重複部分と、を分類し、重複部分の量に応じてニュース情報同士の類似度を判定する類似度判定部111と、類似度が所定値以上の複数のニュース情報を同一事象ニュースと判定する同一ニュース情報判定部112と、同一事象ニュースと判定された複数のニュース情報における非重複部分のテキストについて感情分析を行う感情分析部113と、ニュース情報毎に分析された感情情報を出力する出力部114と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
通信ネットワーク上からテキスト情報を含む複数のニュース情報を取得し記憶するニュース情報取得部と、
前記複数のニュース情報においてニュース情報同士のテキスト情報を比較してテキストの重複部分と非重複部分と、を分類し、重複部分の量に応じて前記複数のニュース情報においてニュース情報同士の類似度を判定する類似度判定部と、
前記複数のニュース情報において、前記類似度が所定値以上のニュース情報を同一事象ニュースと判定する同一ニュース情報判定部と、
前記同一事象ニュースと判定された複数の前記ニュース情報について、前記非重複部分のテキストについて感情分析を行う感情分析部と、
前記ニュース情報毎に分析された感情情報を出力する出力部と、
を備えることを特徴とするニュース情報分析装置。
【請求項2】
前記類似度は、前記重複部分の前記テキストの文字数、又は前記重複部分と非重複部分の比率であることを特徴とする請求項1記載のニュース情報分析装置。
【請求項3】
前記出力部は、前記感情情報をポジティブ感情とネガティブ感情とに分けて出力することを特徴とする請求項1又は2記載のニュース情報分析装置。
【請求項4】
通信ネットワークに接続されるコンピュータ装置を、
前記通信ネットワーク上からテキスト情報を含む複数のニュース情報を取得し記憶させるニュース情報取得部、
前記複数のニュース情報においてニュース情報同士のテキスト情報を比較してテキストの重複部分と非重複部分を分類し、重複部分の量に応じて前記複数のニュース情報においてニュース情報同士の類似度を判定する類似度判定部、
前記複数のニュース情報において、前記類似度が所定値以上の複数の前記ニュース情報を同一事象ニュースと判定する同一ニュース情報判定部、
前記同一事象ニュースと判定された複数の前記ニュース情報について、前記非重複部分のテキストについて感情分析を行う感情分析部、
前記ニュース情報毎に分析された感情情報を出力する出力部、
として機能させることを特徴とするニュース情報分析プログラム。
【請求項5】
前記類似度は、前記重複部分の前記テキストの文字数、又は前記重複部分と非重複部分の比率であることを特徴とする請求項4に記載のニュース情報分析プログラム。
【請求項6】
前記出力部は、前記感情情報をポジティブ感情とネガティブ感情とに分けて可視可能に出力することを特徴とする請求項4又は5に記載のニュース情報分析プログラム。
【請求項7】
コンピュータにより実行されるニュース情報分析方法であって、
通信ネットワーク上からテキスト情報を含む複数のニュース情報を取得し記憶するニュース情報取得ステップと、
前記複数のニュース情報においてニュース情報同士のテキスト情報を比較してテキストの重複部分と非重複部分と、を分類し、重複部分の量に応じて前記複数のニュース情報においてニュース情報同士の類似度を判定する類似度判定ステップと、
前記類似度が所定値以上の複数の前記ニュース情報を同一事象ニュースと判定する同一ニュース情報判定ステップと、
前記複数のニュース情報において、前記同一事象ニュースと判定された複数の前記ニュース情報について、前記非重複部分のテキストについて感情分析を行う感情分析ステップと、
前記ニュース情報毎に分析された感情情報を出力する出力ステップと、
を備えることを特徴とするニュース情報分析方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、インターネット上に配信される複数のニュース情報について同一事象に対するニュース情報か否かを判定したうえで、ニュース情報に対する記事の執筆姿勢を把握することを可能とするニュース情報分析プログラム及びニュース情報分析方法に関する。
【背景技術】
【0002】
インターネット上で配信されるニュース情報は膨大な量のため、ニュース情報を整理する技術が開発されている。例えば特許文献1には、配信された複数のニュース情報に対して同一性を判定するためのニュース情報分析装置として、2件のニュースのタイトルの形態素解析結果内の自立語及び数値情報から算出される類似度が規定値より高いか否か等で同一ニュースか否かを判定する技術が開示されている。そうすることで、複数のニュースソースから配信される同一ニュース情報を重複して表示する不都合を避けることができる。
しかしながら、特許文献1に開示された技術では、ニュースの同一性をある程度正確に判定することができるが、ニュースの配信事業者や記者毎の執筆姿勢まで判定することはできない。例えば、事象としては新製品発表に関する同じニュース記事であっても、配信事業者であるA社は好意的に配信し、B社は批判的に配信することがあるが、特許文献1に開示された発明では、例えばタイトルの形態素解析結果の比較では新商品の発表に関する事実のみが記載された同一ニュースとしてのみ判定され、記事の執筆姿勢までは判定することはできない。このため、仮にA社の記事とB社の記事との重複を避ける表示がなされた場合、ユーザは、当該事象に対する異なる意見を把握することが困難となる弊害がある。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特許第5032645号
【発明の概要】
【発明が解決しようとする課題】
【0004】
インターネット上に配信される複数のニュース情報について、ニュース情報同士のテキストの一致度の高い重複部分と重複部分以外の非重複部分を分類し、重複部分の量に応じてニュース同士の類似を示す類似度判定をおこない、類似度が所定値以上のニュース情報について同一事象に基づくニュース情報であると判定したうえで、さらに、非重複部分について感情分析を行うことでそれぞれのニュース情報に対する当該ニュースの配信事業者や記者毎の執筆姿勢(立ち位置情報)を把握することを可能とするニュース情報分析装置、ニュース情報分析プログラム、ニュース情報分析方法が望まれている。
【0005】
本発明はこのような問題に鑑みてなされたものであり、インターネット上に配信される複数のニュース情報についてニュース情報同士のテキストの重複部と非重複部分を分類し、重複部分の量に応じてニュース同士の類似を示す類似度判定をおこない、類似度が所定値以上のニュース情報について同一事象に基づくニュース情報であると判定したうえで、さらに、非重複部分について感情分析を行うことでそれぞれのニュース情報に対する執筆姿勢(立ち位置情報)を作成することができるニュース情報分析装置、ニュース情報分析プログラム、ニュース情報分析方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
(1)本発明の一態様によるニュース情報分析装置(例えば、後述のニュース情報分析装置1)は、通信ネットワーク(例えば、後述の通信ネットワーク60)上からテキスト情報を含む複数のニュース情報を取得し記憶するニュース情報取得部(例えば、後述のニュース情報取得部110)と、前記複数のニュース情報においてニュース情報同士のテキスト情報を比較してテキストの重複部分と非重複部分と、を分類し、重複部分の量に応じて前記複数のニュース情報においてニュース情報同士の類似度を判定する類似度判定部(例えば、後述の類似度判定部111)と、前記複数のニュース情報において、前記類似度が所定値以上の複数の前記ニュース情報を同一事象ニュースと判定する同一ニュース情報判定部(例えば、後述の同一ニュース情報判定部112)と、前記同一事象ニュースと判定された複数の前記ニュース情報について、前記非重複部分のテキストについて感情分析を行う感情分析部(例えば、後述の感情分析部113)と、前記ニュース情報毎に分析された感情情報を出力する出力部(例えば、後述の出力部114)と、を備える。
【0007】
上記(1)によれば、同一事象に対するニュース情報に対する当該ニュース情報の執筆者の当該事象に対する執筆姿勢を把握することが可能となる。
【0008】
(2)上記(1)に記載のニュース情報分析装置(例えば、後述のニュース情報分析装置1)において、前記類似度は、前記重複部分の前記テキストの文字数、又は前記重複部分と非重複部分の比率であるようにしてもよい。
【0009】
上記(2)によれば、複数のニュース情報の類似度を客観的に判定することが可能となる。
【0010】
(3)上記(1)又は(2)に記載のニュース情報分析装置(例えば、後述のニュース情報分析装置1)において、前記出力部(例えば、後述の出力部114)は、前記感情情報をポジティブ感情とネガティブ感情とに分けて出力するようにしてもよい。
【0011】
上記(3)によれば、同じ事象に関するニュース情報の執筆者の当該事象に対する執筆姿勢がポジティブ又はネガティブのいずれであるか、端的に把握することが可能となる。
【0012】
(4)本発明の一態様によるニュース情報分析プログラムは、通信ネットワーク(例えば、後述の通信ネットワーク60)に接続されるコンピュータ装置を、
前記通信ネットワーク(例えば、後述の通信ネットワーク60)上からテキスト情報を含む複数のニュース情報を取得し記憶するニュース情報取得部(例えば、後述のニュース情報取得部110)、前記複数のニュース情報においてニュース情報同士のテキスト情報を比較してテキストの重複部分と非重複部分と、を分類し、重複部分の量に応じて前記複数のニュース情報においてニュース情報同士の類似度を判定する類似度判定部(例えば、後述の類似度判定部111)、前記複数のニュース情報において、前記類似度が所定値以上の複数の前記ニュース情報を同一事象ニュースと判定する同一ニュース情報判定部(例えば、後述の同一ニュース情報判定部112)、前記同一事象ニュースと判定された複数の前記ニュース情報について、前記非重複部分のテキストについて感情分析を行う感情分析部(例えば、後述の感情分析部113)、前記ニュース情報毎に分析された感情情報を出力する出力部(例えば、後述の出力部114)、として機能させる。
【0013】
上記(4)によれば、上記(1)のニュース情報分析装置と同様の効果を奏する。
【0014】
(5)上記(4)に記載のニュース情報分析プログラムにおいて、前記類似度は、前記重複部分の前記テキストの文字数、又は前記重複部分と非重複部分の比率であるようにしてもよい。
【0015】
上記(5)によれば、上記(2)のニュース情報分析装置と同様の効果を奏する。
【0016】
(6)上記(4)又は(5)に記載のニュース情報分析プログラムにおいて、前記出力部(例えば、後述の出力部114)は、前記感情情報をポジティブ感情とネガティブ感情とに分けて出力するようにしてもよい。
【0017】
上記(6)によれば、上記(3)のニュース情報分析装置と同様の効果を奏する。
【0018】
(7)本発明の情報分析方法は、コンピュータにより実行されるニュース情報分析方法であって、通信ネットワーク(例えば、後述の通信ネットワーク60)上からテキスト情報を含む複数のニュース情報を取得し記憶するニュース情報取得ステップと、前記複数のニュース情報においてニュース情報同士のテキスト情報を比較してテキストの重複部分と非重複部分と、を分類し、重複部分の量に応じて前記複数のニュース情報においてニュース情報同士の類似度を判定する類似度判定ステップと、前記複数のニュース情報において、前記類似度が所定値以上の複数の前記ニュース情報を同一事象ニュースと判定する同一ニュース情報判定ステップと、前記同一事象ニュースと判定された複数の前記ニュース情報について、前記非重複部分のテキストについて感情分析を行う感情分析ステップと、前記ニュース情報毎に分析された感情情報を出力する出力ステップと、を備える。
【0019】
上記(7)の方法によれば、上記(1)の情報分析装置と同様の効果を奏する。
【発明の効果】
【0020】
本発明によれば、インターネット上に配信された複数のニュース情報についてニュース情報同士のテキストの重複部分と非重複部分とを分類し、重複部分の量に応じてニュース同士の類似を示す類似度判定をおこない、類似度が所定値以上のニュース情報について同一事象に基づくニュース情報であると判定したうえで、さらに、非重複部分について感情分析を行うことでそれぞれのニュース情報に対する配信事業者及び/又は記者の執筆姿勢(立ち位置情報)を作成することができるニュース情報分析装置、ニュース情報分析プログラム、ニュース情報分析方法を提供することが可能となる。
【図面の簡単な説明】
【0021】
図1】本発明の実施形態であるニュース情報分析システムを概略的に示す概略図である。
図2】本発明の実施形態であるニュース情報分析装置の基本的構成を示すブロック図である。
図3】本発明の実施形態における、ニュース情報分析装置の動作を示すフローチャートである。
【発明を実施するための形態】
【0022】
以下、本発明のニュース情報分析装置の好ましい一実施形態について、図を参照しながら説明する。図1に、ニュース情報分析システム100の基本的構成を示す。
図1に示すようにニュース情報分析システム100は、外部システム5と、ニュース情報分析装置1と、通信ネットワーク60と、を備える。なお、クライアント端末2(携帯端末、タブレット端末、PC等の情報処理装置)を備えてもよい。
外部システム5は、例えばWEBメディアサイト(1次メディアサイト)、WEBメディアサイト(2次メディアサイト)、テクノロジー&ビジネス情報メディアサイト、金融情報メディアサイト、WEBメディアサイト(ソーシャルメディアサイト)、政府機関メディアサイト、企業メディアサイト、研究所メディアサイト等が一例として挙げられる。
ニュース情報分析装置1は、外部システム5によりインターネット上に配信される複数のニュース情報について、ニュース情報同士のテキスト間の一致度の高い重複部分と重複部分以外の非重複部分を分類し、重複部分の量に応じてニュース同士の類似を示す類似度判定をおこない、類似度が所定値以上のニュース情報について同一事象に基づくニュース情報であると判定したうえで、さらに、非重複部分について感情分析を行う。そうすることで、ユーザは同一事象に対するニュース情報に対する当該ニュース情報の配信事業者及び/又は記者の当該事象に対する執筆姿勢を把握することが可能となる。
クライアント端末2は、ニュース情報分析装置1により出力される情報をクライアント端末2の表示部に表示する。クライアント端末2は、例えば、同一事象ニュース情報を重複して出力しないようにすることができる。具体的には、例えば、ユーザからの指示により、ニュースのヘッドラインと内容のテキストの類似度が高いニュースは、重複ニュースとして、例えば重複部分の情報量(例えば文字数)が最も多いニュース情報のみ出力するようにしてもよい。そうすることで、同じ事象を扱ったニュース情報が並んで出力されることを防止することができる。さらに、この場合、他の同一事象情報ニュースについては、例えば非重複部分のみを感情分析部113により付与された、ポジティブ感情、ネガティブ感情、又はニュートラル感情別に分けて出力するようにしてもよい。そうすることで、ユーザは、同一事象が各配信事業者(記者を含む)にどのようにとらえられているか、具体的に把握することができる。
以上、本実施形態1におけるシステム構成の概要を説明した。次にニュース情報分析装置1について説明する。
【0023】
図2に示すように、ニュース情報分析装置1は、制御部11と、記憶部12と、通信部13と、表示部14と、入力部15と、を含んで構成される。
【0024】
制御部11は、マイクロプロセッサ等の演算処理装置から構成され、ニュース情報分析装置1を構成する各部の制御を行う。制御部11の詳細については、後述する。
【0025】
記憶部12は、半導体メモリ等で構成されており、ファームウェアやオペレーティングシステムと呼ばれる制御用のプログラムや、制御部11をニュース情報取得機能、類似度判定機能、同一ニュース情報判定機能、感情分析機能、及び出力機能等として機能させるためのプログラムといった各プログラム、さらにその他、通信ネットワーク60を介してニュース情報の取得先となる外部システム5との接続に必要な接続情報、外部システム5から取得したニュース情報、取得した各ニュース情報の同一事象ニュース分類情報、同一事象ニュースに分類された各ニュース情報の感情分析情報等の種々の情報が記憶される
このため、記憶部12は、プログラムの外、ニュース情報の取得先となる外部システム5との接続に必要な接続情報を含む外部システム接続情報記憶部120、各外部システム5から取得したニュース情報を格納するニュース情報格納記憶部121を備える。また、ニュース情報分析装置1は、記憶部12に同一事象ニュースに分類されたニュース情報とそれぞれのニュース情報の感情分析情報等を記憶するニュース情報管理データベース122を備えてもよい。なお、ニュース情報管理データベースは、ニュース情報分析装置1とは別に、通信網6を介してニュース情報分析装置1と通信可能に接続されるサーバシステム(ニュース情報管理データベースシステム)(図示せず)として構成してもよい。
【0026】
外部システム接続情報記憶部120は、通信ネットワーク60を介してニュース情報を取得する外部システム5との接続に必要な情報(例えば、接続先URL、認証情報、外部システム5から新規に作成及び/又は更新されるニュース情報を取得するタイミング情報等が記憶する。前述したように外部システム5は、例えばマスメディアサイト、テクノロジー&ビジネス情報のメディアサイト、金融情報のメディアサイト、各企業のサイト、研究所のサイト、政府機関のサイト、ソーシャルメディアサイト等が例示される。なお、ニュース情報としては、日本語にかぎらず、例えば英語、中国語、韓国語のニュース情報についても取得対象としてもよい。こうすることで、後述するニュース情報取得部110は、外部システム接続情報記憶部120を参照して、各外部システム5に、所定のタイミング(例えば、時刻情報、外部システム5からの情報作成更新通知等の受信)で接続し、外部システム5の提供する、新規及び/又は更新されるニュース情報を取得するようにしてもよい。
【0027】
ニュース情報格納記憶部121は、ニュース情報取得部110が、各外部システム5から取得する新規及び/又は更新されるニュース情報を格納する記憶部である。なお、各外部システム5から取得する新規及び/又は更新されるニュース情報には、ニュース情報取得部110によりニュース情報IDが付与されるようにしてもよい。そうすることで、後述するニュース情報管理データベース122には、同一事象ニュース情報となるニュース情報IDが相互に関連付けられるようにしてもよい。
【0028】
ニュース情報管理データベース122は、同一ニュース情報判定部112により同一事象ニュース情報として関連付けられたニュース情報を登録管理するデータベースである。さらに、後述する感情分析部113により、同一事象ニュース情報として関連付けられたそれぞれのニュース情報のテキストについて、当該ニュース情報の配信事業者の感情分析結果(例えばポジティブ感情、ネガティブ感情)を関連付けるようにしてもよい。そうすることで、後述する出力部114は、当該ニュース情報を出力する際に、配信事業者の感情分析結果(例えばポジティブ感情、ネガティブ感情)を合わせて出力することができる。
【0029】
以上、記憶部12について説明したが、例えばニュース情報格納記憶部121、及び/又はニュース情報管理データベース122は、通信ネットワーク60に接続されたサーバ装置(図示を省略)が備えるようにしてもよい。
【0030】
通信部13は、DSP等を有し、LTE(Long Term Evolution)、4G(4th Generation)、5G(5th Generation)の規格や、Wi-Fi(登録商標)といった規格に準拠して、通信ネットワーク60を介して外部システム5との間の無線通信や有線通信を実現する。なお、通信ネットワーク60は、インターネットや携帯電話網といったネットワークや、これらを組合せたネットワークにより実現される。また、ネットワークの一部に、LAN(Local Area Network)が含まれていてもよい。
【0031】
表示部14は、例えば液晶ディスプレイ、又は有機エレクトロルミネッセンスパネル等の表示デバイスにより構成される。表示部14は、制御部11からの指示を受けて画像を表示する。
入力部15は、テンキーと呼ばれる物理スイッチや表示部14の表示面に重ねて設けられたタッチパネル等の入力装置(図示を省略する)等で構成される。
なお、前述したように、ニュース情報分析装置1が入力部及び表示部を備える構成に加えて、入力部及び表示部を備える情報処理端末2をニュース情報分析装置1のクライアント端末としてもよい。そうすることで、通信ネットワーク60を介して、クライアント端末となる情報処理装置2からニュース情報分析装置1から出力される表示画面等を情報処理端末2(クライアント端末)に表示するようにしてもよい。
【0032】
次に、制御部11の詳細について説明をする。制御部11はCPU、RAM、ROM、及びI/O等を有するマイクロプロセッサにより構成される。CPUは、ROM又は記憶部12から読み出した各プログラムを実行し、その実行の際にはRAM、ROM、及び記憶部12から情報を読み出し、RAM及び記憶部12に対して情報の書き込みを行い、通信部13と信号の授受を行う。そして、このようにして、ハードウェアとソフトウェア(プログラム)が協働することにより本実施形態における処理は実現される。
【0033】
制御部11は、機能ブロックとして、ニュース情報取得部110と、類似度判定部111と、同一ニュース情報判定部112と、感情分析部113と、出力部114と、を備える。
【0034】
ニュース情報取得部110は、通信ネットワーク60を介してニュース情報(タイトル、本文、写真、図面等)を配信する各外部システム5と、所定のタイミングで接続先URL、認証情報等に基づいて接続し、各外部システム5から配信される新規に作成されたニュース情報又は更新されたニュース情報を取得する。ここで、所定のタイミングとしては、例えば予め設定された時刻、予め設定された時間間隔、又は各外部システム5からの配信通知の受信(定期的に配信されるニュース情報以外に例えば臨時ニュース、号外等の受信を含む)が挙げられる。なお、ニュース情報取得部110は、各外部システム5に自動で接続してニュース情報を取得する形態に限られない。自動的に取得する形態に加えて、ユーザが例えば入力部15又は情報処理端末2(クライアント端末)を介して、アドホックに複数の外部システム5に接続して、新規に作成されたニュース情報又は更新されたニュース情報を取得するようにしてもよい。
なお、前述したように、外部システム5から配信されるニュース情報は、日本語に限られない、例えば、英語、中国語、韓国語等、ユーザの必要とするニュース情報を取得するようにしてもよい。この場合、ニュース情報取得部110は、原語に加えて日本語訳を生成するようにしてもよい。
ニュース情報取得部110は、各外部システム5から取得したニュース情報に、例えば外部システム5のサイト名、配信時刻情報(日時)等を付加して、ニュース情報格納記憶部121に記憶する。
【0035】
類似度判定部111の機能の詳細を説明する前に、ニュース情報のテキスト間の重複部分、及び非重複部分について説明する。
一般にニュース情報は、簡潔な文章での記述が特徴であり、同じ事象に関するニュース情報は同じように記述されることが多いと考えられる。このため、ニュース情報は、先ず同じ事象に関する客観的な記述があり、その後に当該事象に関するニュース情報の配信事業者、又は記者の執筆姿勢(例えばポジティブ、ネガティブ、又はニュートラル)が反映されたテキスト(例えば評価等)が続くと考えられる。そうすると、同一事象に関する客観的な記述は、ニュース配信元の外部システム5に関わらず、一致度の高いテキスト(「重複部分」という)になると考えられる。実際、ニュース情報における同一事象に関する客観的な記述は引用されるケースも多々見受けられる。他方、当該事象に関するニュース情報の配信事業者、又は記者の執筆姿勢(例えばポジティブ、ネガティブ、又はニュートラル)が反映されるテキストは、一致度の低いテキスト(「非重複部分」という)になると考えられる。また、同一事象に係るニュース情報の配信は、近接した時刻(時間帯)に集中すると考えられる。
このように、類似度判定部111は、近接した時刻(時間帯)に配信された任意の2つのニュース情報間の重複部分及び非重複部分を推定することで、重複部分の量に応じてニュース情報間の類似度を判定することができる。
そうすることで、後述する同一ニュース情報判定部112は、例えば、ニュース情報Aのテキストとニュース情報Bのテキストとの間で重複部分の量の多い場合、ニュース情報Aとニュース情報Bとは同一事象に関するニュースであると推定することができる。逆にニュース情報Aのテキストとニュース情報Cのテキストとの間で重複部分の量の少ない場合、ニュース情報Aとニュース情報Cとは異なる事象に関するニュースであると推定することができる。以上、ニュース情報のテキスト間の重複部分、及び非重複部分について説明した。以上を踏まえて、類似度判定部111の機能について説明する。
【0036】
前述したように、同一事象に関する客観的な記述は、ニュース配信元の外部システム5に関わらず、一致度の高いテキスト(「重複部分」という)になると考えられる。このため、類似度判定部111は、まず、ニュース情報の配信日時が所定の時間範囲内に含まれる各外部システム5から取得したニュース情報(テキスト)を対象(「類似度判定対象集合」という)として、類似度判定対象集合に含まれる異なる任意の2つのニュース情報のテキスト情報(簡単のため「ニュース情報A」、「ニュース情報B」という)間の重複部分をテキスト文書間の一致度に基づいて算出することができる。
ここで、ニュース情報A(テキストA)とニュース情報B(テキストB)との一致度を判定する方法としては、当業者に公知の手法、例えば一致する文字数、編集距離、n-gram分割した単語の一致率等の指標に閾値を設定し判定する方法を適用するようにしてもよい。
例えばn-gram分割したテキストAとテキストBのすべてのテキストを本文部分の開始からセンテンス順、又は段落順にテキストをn-gram分割した文字列の一致率に基づいて一致度を判定し、一致度が閾値を超える又は閾値以上の場合に、一致すると判定するようにしてもよい。
また、テキストAとテキストBのすべてのテキストを本文部分の開始からセンテンス順に又は段落順にテキストを形態素解析した単語中から文章の内容を構成する単語(例えば、名詞と動詞)の一致度の判定Jaccard係数等を指標として、一致度が閾値を超える又は閾値以上の場合に、一致すると判定するようにしてもよい。また、一致度の判定方法としてテキスト情報を比較するようにしてもよい。こうすることで、類似度判定部111は、ニュース情報毎に他のニュース情報との重複部分を一致度に基づいて推定することができる。
【0037】
次に、類似度判定部111は、類似度判定対象集合に属する2つのニュース情報の間で一致するテキスト部分を当該2つのニュース情報の重複部分とし、ニュース情報のテキストから重複部分を除いた部分を非重複部分として分類する。そのうえで、類似度判定部111は、重複部分の量に応じて当該ニュース情報同士の類似度を判定する。ここで、重複部分の量としては、例えば重複部分のテキストの文字数、重複部分と非重複部分の比率、又は重複部分のニュース情報の全テキストに占める割合等を適用するようにしてもよい。こうすることで、類似度判定部111は、類似度判定対象集合に含まれる任意の2つのニュース情報のペア毎に、類似度を算出することができる。
以上、類似度判定部111について説明した。次に、2つのニュース情報が同一事象ニュースか否かを判定する同一ニュース情報判定部112について説明する。
【0038】
同一ニュース情報判定部112は、類似度判定対象集合に含まれる任意の2つのニュース情報のペアについて、類似度判定部111により算出された類似度が所定値以上となる場合、当該2つのニュース情報を同一事象ニュースと判定することができる。
このため、同一ニュース情報判定部112は、類似度判定対象集合に含まれるすべての2つのニュース情報のすべての組み合わせ(ペア)に対して、当該2つのニュース情報が同一事象ニュースか、否かを判定することができる。
この場合、例えばニュース情報A又はニュース情報Bのいずれかがニュース情報Cと同一事象ニュースであると判定された場合、同一ニュース情報判定部112は、ニュース情報A、ニュース情報B、及びニュース情報Cを同一事象ニュースと判定するようにしてもよい。このようにすることで、同一ニュース情報判定部112は、類似度判定対象集合に含まれるすべてのニュース情報を、同一事象ニュース情報グループ毎に分類分け(関連付け)することができる。なお、現実的には、(WEBメディアにより引用される配信等があることから)ほとんどありえないと考えられるが、仮にどのニュース情報とも類似しないニュース情報がある場合、当該ニュース情報については、同一ニュース情報無しとして分類するようにしてもよい。
なお、ニュース情報Aの重複部分は、比較対象とするニュース情報Bに依存すると考えられるが、上記のように、ニュース情報を同一事象ニュース情報グループに分類付けすることにより、ニュース情報Aの重複部分として、例えば同一事象情報グループに属する各ニュース情報との比較で算出されるそれぞれの重複部分のうち、最大の量となる重複部分を適用するようにしてもよい。なお、最大の量となる重複部分ではなく、所定のニュース情報を比較対象として算出される重複部分を適用するようにしてもよい。なお、各ニュース情報の非重複部分については、前述したように適用される重複部分をニュース情報(テキスト)から除いた部分とすることができる。
【0039】
同一ニュース情報判定部112は、同一事象ニュース情報として関連付けられたニュース情報を識別できるように、例えばニュース情報管理データベース122に、登録格納されたニュース情報に対して、さらに同一事象ニュース情報となるニュース情報グループIDを登録するようにしてもよい。
そうすることで、ユーザがニュース情報管理データベース122を検索照会する際に、同一事象ニュース情報を特定することができ、例えば同一事象ニュース情報が連続して照会されることを防止することができる。以上、同一ニュース情報判定部112について説明した。次に、2つのニュース情報が同一事象ニュースと判定された場合、各ニュース情報の非重複部分について感情分析をする感情分析部113について説明する。
【0040】
感情分析部113は、同一事象ニュースと判定された各ニュース情報について、当該ニュース情報のテキストの非重複部分のテキストについて感情分析(例えばポジティブ感情、ネガティブ感情、又はニュートラル感情のいずれかを分析する)を行う。
そうすることで、同じ事象に関するニュース情報であっても、ニュースの配信事業者、又はニュースの執筆記者の姿勢が、好意的にとらえているか、批判的にとらえているか、又は、ニュートラルか、を分類することができる。
そうすることで、後述する出力部114は、同一事象ニュースとなる複数の情報ニュースを表示する際に、当該事象に対して好意的な配信事業者(記者を含む)又は否定的な配信事業者(記者を含む)のそれぞれの意見を把握することができる。また、ユーザは、同じ事象について、好意的なとらえ方又は批判的なとらえ方をするニュース情報を選択して表示することができる。
【0041】
出力部114は、同一ニュース情報判定部112により同一事象ニュースと判定されたニュース情報を表示部14又は情報処理端末2(クライアント端末)に出力する際に、感情分析部113により付与された、ポジティブ感情、ネガティブ感情、又はニュートラル感情別に分けて出力するようにしてもよい。そうすることで、当該事象に対する配信事業者(記者を含む)の立ち位置を可視化することができ、ユーザは、当該事象がどのようにとらえられているか、を具体的に把握することができる。
また、出力部114は、同一事象ニュース情報を表示部14又は情報処理端末2(クライアント端末)に出力する際に、類似ニュース情報を重複して出力しないようにすることができる。具体的には、例えば、ユーザからの指示により、ニュースのヘッドラインと内容のテキストの類似度が高いニュースは、重複ニュースとして、例えば重複部分の情報量(例えば文字数)が最も多いニュース情報のみ出力するようにしてもよい。なお、この場合、重複部分の情報量(例えば文字数)が最も多いニュース情報以外のニュース情報については、例えば非重複部分のみを感情分析部113により付与された、ポジティブ感情、ネガティブ感情、又はニュートラル感情別に分けて出力するようにしてもよい。
そうすることで、同一事象を扱ったニュース情報(例えば、同一事象に関する客観的な記述)が並んで出力されることを防止することができる。
以上、本実施形態として例示したニュース情報分析装置1の各機能部の構成について説明した。
【0042】
次に、図3に記載したフローチャートを参照して、本実施形態の動作について説明する。図3は、ニュース情報分析装置1の動作を示すフローチャートである。なお、図3で示す処理は、同一事象ニュースと判定されたニュース情報を表示部14又は情報処理端末2(クライアント端末)に出力する際に、ポジティブ感情、ネガティブ感情、又はニュートラル感情別に分けて出力する処理形態を例示する。
【0043】
図3を参照すると、ステップS10において、ニュース情報分析装置1(ニュース情報取得部110)は、通信ネットワーク60を介してニュース情報を配信する各外部システム5と、所定のタイミングで接続先URL、認証情報等に基づいて接続し、各外部システム5から配信される新規に作成されたニュース情報又は更新されたニュース情報を取得する。
【0044】
ステップS11において、ニュース情報分析装置1(類似度判定部111)は、ニュース情報の配信日時が所定の時間範囲内に含まれる各外部システム5から取得したニュース情報(テキスト)を対象として、当該集合に含まれる異なる任意の2つのニュース情報のテキスト情報間の一致度を算出する。
【0045】
ステップS12において、ニュース情報分析装置1(類似度判定部111)は、2つのニュース情報のテキスト情報間の重複部分をテキスト文書間の一致度に基づいて算出する。
【0046】
ステップS13において、ニュース情報分析装置1(類似度判定部111)は、重複部分の量に応じて当該ニュース情報同士の類似度を判定する。
【0047】
ステップS14において、ニュース情報分析装置1(同一ニュース情報判定部112)は、すべてのニュース情報を、例えば類似度が所定値以上となる類似度を有するニュース情報を同一事象ニュース情報グループとして、分類分け(関連付け)する。
【0048】
ステップS15において、ニュース情報分析装置1(感情分析部113)は、同一事象ニュースと判定された各ニュース情報について、当該ニュース情報のテキストの非重複部分のテキストについて感情分析(例えば記事の立ち位置がポジティブ、ネガティブ、又はニュートラルか)を行う。
【0049】
ステップS16において、ニュース情報分析装置1(出力部114)は、ステップS14において同一事象ニュースと判定されたニュース情報を表示部14又は情報処理端末2(クライアント端末)に出力する際に、ステップS15において付与された、ポジティブ感情、ネガティブ感情、又はニュートラル感情別に分けて出力するようにしてもよい。
【0050】
以上により、ニュース情報分析装置1が、インターネット上に配信される複数のニュース情報についてニュース情報同士のテキストの重複部分と非重複部分を分類し、重複部分の量に応じてニュース同士の類似を示す類似度判定をおこない、類似度が所定値以上のニュース情報について同一事象に基づくニュース情報であると判定したうえで、さらに、非重複部分について感情分析を行うことでそれぞれのニュース情報に対する執筆姿勢(立ち位置情報)を作成する動作について説明した。
以上により、ニュース情報分析装置1は、同一事象に対するニュース情報に対する当該ニュース情報の執筆者の当該事象に対する執筆姿勢を把握することが可能となる。
【0051】
各機器のそれぞれは、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記のナビゲーションシステムに含まれる各機器のそれぞれが協働することにより行なわれるナビゲーション方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。
【0052】
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば、光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
【0053】
上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。
【0054】
<変形例1>
前述した第1の実施形態では、ニュース情報取得部110は、通信ネットワーク60を介してニュース情報(タイトル、本文、写真、図面等)を配信する各外部システム5と、所定のタイミングで接続先URL、認証情報等に基づいて自動接続し、各外部システム5から配信される新規に作成されたニュース情報又は更新されたニュース情報を取得する形態を例示したが、これに限られない。
例えば、ニュース情報取得部110は、入力部15又は情報処理端末2(クライアント端末)を介して入力されるユーザからの指示(例えば少なくとも1以上の外部システム5を指定)に基づいて、通信ネットワーク60を介してニュース情報(タイトル、本文、写真、図面等)を配信する各外部システム5と、接続先URL、認証情報等に基づいて接続し、各外部システム5から配信される新規に作成されたニュース情報又は更新されたニュース情報を取得するようにしてもよい。そうすることで、ユーザからの指示によりアドホックに取得した外部システム5のニュース情報について、類似度判定部111、同一ニュース情報判定部112、感情分析部113、及び出力部114が前述した処理を行うようにしてもよい。
【0055】
<変形例2>
上述の実施形態では、ニュース情報分析装置1を1つのサーバ装置等により実現すると説明したが、ニュース情報分析装置1の各機能を、適宜複数のサーバ装置に分散する、分散処理システムとしてもよい。具体的には、例えば前述したように、ニュース情報管理データベース122を、ニュース情報分析装置1とは異なるサーバ装置(ニュース情報管理データベースシステム)としてもよい。
また、クラウド上で仮想サーバ機能等を利用して、ニュース情報分析装置1の各機能を実現してもよい。
【符号の説明】
【0056】
100 ニュース情報分析システム
1 ニュース情報分析装置
11 制御部
110 ニュース情報取得部
111 類似度判定部
112 同一ニュース情報判定部
113 感情分析部
114 出力部
12 記憶部
120 外部システム接続情報記憶部
121 ニュース情報格納記憶部
122 ニュース情報管理データベース
13 通信部
14 表示部
15 入力部
2 情報処理端末(クライアント端末)
5 外部システム
60 通信ネットワーク
図1
図2
図3