IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 本田技研工業株式会社の特許一覧

特開2024-130142ニュース情報分析装置、ニュース情報分析プログラム、及びニュース情報分析方法
<>
  • 特開-ニュース情報分析装置、ニュース情報分析プログラム、及びニュース情報分析方法 図1
  • 特開-ニュース情報分析装置、ニュース情報分析プログラム、及びニュース情報分析方法 図2
  • 特開-ニュース情報分析装置、ニュース情報分析プログラム、及びニュース情報分析方法 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024130142
(43)【公開日】2024-09-30
(54)【発明の名称】ニュース情報分析装置、ニュース情報分析プログラム、及びニュース情報分析方法
(51)【国際特許分類】
   G06F 16/906 20190101AFI20240920BHJP
【FI】
G06F16/906
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2023039686
(22)【出願日】2023-03-14
(71)【出願人】
【識別番号】000005326
【氏名又は名称】本田技研工業株式会社
(74)【代理人】
【識別番号】100106002
【弁理士】
【氏名又は名称】正林 真之
(74)【代理人】
【識別番号】100120891
【弁理士】
【氏名又は名称】林 一好
(74)【代理人】
【識別番号】100160794
【弁理士】
【氏名又は名称】星野 寛明
(72)【発明者】
【氏名】渡辺 弘和
(72)【発明者】
【氏名】押味 与司明
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175FA03
5B175HB03
(57)【要約】
【課題】インターネット上のニュース情報を重複して閲覧してしまう事態を避けること。
【解決手段】ニュース情報分析装置は、通信ネットワーク上からテキスト情報と画像情報とを含む複数のニュース情報を取得し記憶するニュース情報取得部と、前記ニュース情報同士のテキスト情報を比較して前記ニュース情報同士の類似度を判定する類似度判定部と、前記類似度が所定値以上の複数の前記ニュース情報のうち前記画像情報を比較して前記画像情報が一致するニュース情報それぞれを同一ニュースと判定する同一ニュース情報判定部と、前記同一ニュースと判定された前記ニュース情報のうち1つのニュース情報を出力する出力部と、を備える。
【選択図】図2
【特許請求の範囲】
【請求項1】
通信ネットワーク上からテキスト情報と画像情報とを含む複数のニュース情報を取得し記憶するニュース情報取得部と、
前記ニュース情報同士のテキスト情報を比較して前記ニュース情報同士の類似度を判定する類似度判定部と、
前記類似度が所定値以上の複数の前記ニュース情報のうち前記画像情報を比較して前記画像情報が一致するニュース情報それぞれを同一ニュースと判定する同一ニュース情報判定部と、
前記同一ニュースと判定された前記ニュース情報のうち1つのニュース情報を出力する出力部と、
を備えることを特徴とするニュース情報分析装置。
【請求項2】
前記類似度判定部は、前記ニュース情報同士のテキスト情報のうち本文部分の開始から所定の文字数について比較して前記類似度を判定することを特徴とする請求項1記載のニュース情報分析装置。
【請求項3】
前記同一ニュース情報判定部は、前記画像情報に含まれるピクセル数を勘案せずに前記画像情報が一致するか否かを判定することを特徴とする請求項1又は2記載のニュース情報分析装置。
【請求項4】
前記同一ニュース情報判定部は、前記画像情報の中の被写体の認識結果に基づいて前記画像情報が一致するか否かを判定することを特徴とする請求項3記載のニュース情報分析装置。
【請求項5】
前記出力部は、前記同一ニュースと判定された前記ニュース情報のうち本体部分の文字数が最も多いニュース情報を出力することを特徴とする請求項1又は2記載のニュース情報分析装置。
【請求項6】
前記出力部は、前記同一ニュースと判定された前記ニュース情報のうち前記画像情報に含まれるピクセル数が最も多いニュース情報を出力することを特徴とする請求項1又は2記載のニュース情報分析装置。
【請求項7】
通信ネットワークに接続されるコンピュータ装置を機能させるプログラムであって、
通信ネットワーク上からテキスト情報と画像情報とを含む複数のニュース情報を取得し記憶するニュース情報取得機能と、
前記ニュース情報同士のテキスト情報を比較して前記ニュース情報同士の類似度を判定する類似度判定機能と、
前記類似度が所定値以上の複数の前記ニュース情報のうち前記画像情報を比較して前記画像情報が一致するニュース情報それぞれを同一ニュースと判定する同一ニュース情報判定機能と、
前記同一ニュースと判定された前記ニュース情報のうち1つのニュース情報を出力する出力機能と、
を備えることを特徴とするニュース情報分析プログラム。
【請求項8】
コンピュータにより実行されるニュース情報分析方法であって、
通信ネットワーク上からテキスト情報と画像情報とを含む複数のニュース情報を取得し記憶するニュース情報取得ステップと、
前記ニュース情報同士のテキスト情報を比較して前記ニュース情報同士の類似度を判定する類似度判定ステップと、
前記類似度が所定値以上の複数の前記ニュース情報のうち前記画像情報を比較して前記画像情報が一致するニュース情報それぞれを同一ニュースと判定する同一ニュース情報判定ステップと、
前記同一ニュースと判定された前記ニュース情報のうち1つのニュース情報を出力する出力ステップと、
を備えることを特徴とするニュース情報分析方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、インターネット上に配信される複数のニュース情報についてニュース情報のテキスト情報と画像情報とに基づいて同一ニュースか否かを判定するニュース情報分析装置、ニュース情報分析プログラム、及びニュース情報分析方法に関する。
【背景技術】
【0002】
インターネット上で配信されるニュース情報は膨大な量のため、ニュース情報を整理する技術が開発されている。例えば特許文献1には、配信された複数のニュース情報に対して同一性を判定するためのニュース情報分析装置として、2件のニュースのタイトルの形態素解析結果内の自立語及び数値情報から算出される類似度が規定値より高いか否か等で同一ニュースか否かを判定する技術が開示されている。そうすることで、複数のニュースソースから配信される同一ニュース情報を重複して表示する不都合を避けることができる。
しかしながら、特許文献1に開示された技術では、ニュースの同一性をある程度正確に判定することができるが、企業による新商品の発表といったニュースは似たタイトルとなるため同一の判定の精度が低下する。
また、近年は、新聞社等の報道機関が執筆した記事を購入して自社のニュースポータルサイトに記載するウェブサイトやウェブアプリ等が主流になっている。このような場合、同一の報道機関の記事が複数のサイトに掲載されるが、配信元の記載の仕方や記事を途中までの掲載として利用者によるクリックを促す等の様々な表示方法となるため、同一の判定が難しい。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特許第5032645号
【発明の概要】
【発明が解決しようとする課題】
【0004】
インターネット上に配信される複数のニュース情報についてニュース情報のテキスト情報に基づいてニュース情報同士の類似を示す類似度の判定を行い、類似度が所定値以上のニュース情報について画像情報を比較し画像情報が一致する場合、同一事象に基づく同一ニュースであると判定するニュース情報分析装置、ニュース情報分析プログラム、ニュース情報分析方法が望まれている。
【0005】
本発明はこのような問題に鑑みてなされたものであり、インターネット上に配信される複数のニュース情報についてニュース情報のテキスト情報に基づいてニュース情報同士の類似を示す類似度の判定を行い、類似度が所定値以上のニュース情報について画像情報を比較し画像情報が一致する場合、同一事象に基づく同一ニュースであると判定することで、インターネット上のニュース情報を重複して閲覧してしまう事態を避けることが可能となるニュース情報分析装置、ニュース情報分析プログラム、ニュース情報分析方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
(1)本発明の一態様によるニュース情報分析装置(例えば、後述のニュース情報分析装置1)は、通信ネットワーク(例えば、後述の通信ネットワーク60)上からテキスト情報と画像情報とを含む複数のニュース情報を取得し記憶するニュース情報取得部(例えば、後述のニュース情報取得部110)と、前記ニュース情報同士のテキスト情報を比較して前記ニュース情報同士の類似度を判定する類似度判定部(例えば、後述の類似度判定部111)と、前記類似度が所定値以上の複数の前記ニュース情報のうち前記画像情報を比較して前記画像情報が一致するニュース情報それぞれを同一ニュースと判定する同一ニュース情報判定部(例えば、後述の同一ニュース情報判定部112)と、前記同一ニュースと判定された前記ニュース情報のうち1つのニュース情報を出力する出力部(例えば、後述の出力部113)と、を備える。
【0007】
上記(1)によれば、インターネット上のニュース情報を重複して閲覧してしまう事態を避けることが可能となる。
【0008】
(2)上記(1)に記載のニュース情報分析装置(例えば、後述のニュース情報分析装置1)において、前記類似度判定部(例えば、後述の類似度判定部111)は、前記ニュース情報同士のテキスト情報のうち本文部分の開始から所定の文字数について比較して前記類似度を判定するようにしてもよい。
【0009】
上記(2)によれば、ユーザにクリックさせることにより本文全文を表示する形式のニュースサイトでも正確に重複を判定することが可能となる。
【0010】
(3)上記(1)又は(2)に記載のニュース情報分析装置(例えば、後述のニュース情報分析装置1)において、前記同一ニュース情報判定部(例えば、後述の同一ニュース情報判定部112)は、前記画像情報に含まれるピクセル数を勘案せずに前記画像情報が一致するか否かを判定するようにしてもよい。
【0011】
上記(3)によれば、ニュースサイトが独自に画像のサイズを変更している場合でも正確に重複を判定することが可能となる。
【0012】
(4)上記(1)又は(2)に記載のニュース情報分析装置(例えば、後述のニュース情報分析装置1)において、前記同一ニュース情報判定部(例えば、後述の同一ニュース情報判定部112)は、前記画像情報の中の被写体の認識結果に基づいて前記画像情報が一致するか否かを判定するようにしてもよい。
【0013】
上記(4)によれば、ニュースサイトが独自の画像を用いている場合でも正確に重複を判定することが可能となる。
【0014】
(5)上記(1)又は(2)に記載のニュース情報分析装置(例えば、後述のニュース情報分析装置1)において、前記出力部(例えば、後述の出力部113)は、前記同一ニュースと判定された前記ニュース情報のうち本体部分の文字数が最も多いニュース情報を出力するようにしてもよい。
【0015】
上記(5)によれば、ユーザにとって最も情報量の多いニュース情報を閲覧することが可能となる。
【0016】
(6)上記(1)又は(2)に記載のニュース情報分析装置(例えば、後述のニュース情報分析装置1)において、前記出力部(例えば、後述の出力部113)は、前記同一ニュースと判定された前記ニュース情報のうち前記画像情報に含まれるピクセル数が最も多いニュース情報を出力するようにしてもよい。
【0017】
上記(6)によれば、ユーザにとって最も情報量の多いニュース情報を閲覧することが可能となる。
【0018】
(7)本発明の一態様によるニュース情報分析プログラムは、通信ネットワーク(例えば、後述の通信ネットワーク60)に接続されるコンピュータ装置を機能させるプログラムであって、通信ネットワーク上からテキスト情報と画像情報とを含む複数のニュース情報を取得し記憶するニュース情報取得機能と、前記ニュース情報同士のテキスト情報を比較して前記ニュース情報同士の類似度を判定する類似度判定機能と、前記類似度が所定値以上の複数の前記ニュース情報のうち前記画像情報を比較して前記画像情報が一致するニュース情報それぞれを同一ニュースと判定する同一ニュース情報判定機能と、前記同一ニュースと判定された前記ニュース情報のうち1つのニュース情報を出力する出力機能と、を備える。
【0019】
上記(7)によれば、上記(1)のニュース情報分析装置と同様の効果を奏する。
【0020】
(8)本発明の一態様によるニュース情報分析方法は、コンピュータにより実行されるニュース情報分析方法であって、通信ネットワーク(例えば、後述の通信ネットワーク60)上からテキスト情報と画像情報とを含む複数のニュース情報を取得し記憶するニュース情報取得ステップと、前記ニュース情報同士のテキスト情報を比較して前記ニュース情報同士の類似度を判定する類似度判定ステップと、前記類似度が所定値以上の複数の前記ニュース情報のうち前記画像情報を比較して前記画像情報が一致するニュース情報それぞれを同一ニュースと判定する同一ニュース情報判定ステップと、前記同一ニュースと判定された前記ニュース情報のうち1つのニュース情報を出力する出力ステップと、を備える。
【0021】
上記(8)によれば、上記(1)のニュース情報分析装置と同様の効果を奏する。
【発明の効果】
【0022】
本発明によれば、インターネット上に配信される複数のニュース情報についてニュース情報のテキスト情報に基づいてニュース情報同士の類似を示す類似度の判定を行い、類似度が所定値以上のニュース情報について画像情報を比較し画像情報が一致する場合、同一事象に基づく同一ニュースであると判定することで、インターネット上のニュース情報を重複して閲覧してしまう事態を避けることが可能となる。
【図面の簡単な説明】
【0023】
図1】本発明の実施形態であるニュース情報分析システムを概略的に示す概略図である。
図2】本発明の実施形態であるニュース情報分析装置の基本的構成を示すブロック図である。
図3】本発明の実施形態における、ニュース情報分析装置の動作を示すフローチャートである。
【発明を実施するための形態】
【0024】
以下、本発明のニュース情報分析装置の好ましい一実施形態について、図を参照しながら説明する。図1に、ニュース情報分析システム100の基本的構成を示す。
図1に示すようにニュース情報分析システム100は、外部システム5と、ニュース情報分析装置1と、通信ネットワーク60と、を備える。なお、クライアント端末2(携帯端末、タブレット端末、PC等の情報処理装置)を備えてもよい。
外部システム5は、例えばWEBメディアサイト(1次メディアサイト)、WEBメディアサイト(2次メディアサイト)、テクノロジー&ビジネス情報メディアサイト、金融情報メディアサイト、WEBメディアサイト(ソーシャルメディアサイト)、政府機関メディアサイト、企業メディアサイト、研究所メディアサイト等が一例として挙げられる。
ニュース情報分析装置1は、外部システム5によりインターネット上に配信される複数のニュース情報について、ニュース情報同士のテキスト間の類似を示す類似度の判定を行い、類似度が所定値以上のニュース情報それぞれについてニュース情報に含まれる画像情報に基づいて同一ニュースか否かを判定したうえで、同一ニュースと判定されたニュース情報のうち1つのニュース情報を出力する。
クライアント端末2は、ニュース情報分析装置1により出力されるニュース情報をクライアント端末2の表示部に表示する。クライアント端末2は、例えば、同一ニュースのニュース情報を重複して出力しないようにすることができる。具体的には、例えば、ユーザからの指示により、ニュースの内容のテキストの類似度が高く画像が一致するニュースは、重複ニュースとして、例えばテキストの情報量(例えば文字数)が最も多い、又は画像のサイズ(例えばピクセル数)が最も大きいニュース情報のみ出力するようにしてもよい。そうすることで、同一ニュースのニュース情報が並んで出力されることを防止することができ、ユーザは、インターネット上のニュース情報を重複して閲覧してしまう事態を避けることが可能となる。
以上、本実施形態1におけるシステム構成の概要を説明した。次にニュース情報分析装置1について説明する。
【0025】
図2に示すように、ニュース情報分析装置1は、制御部11と、記憶部12と、通信部13と、表示部14と、入力部15と、を含んで構成される。
【0026】
制御部11は、マイクロプロセッサ等の演算処理装置から構成され、ニュース情報分析装置1を構成する各部の制御を行う。制御部11の詳細については、後述する。
【0027】
記憶部12は、半導体メモリや、SSD(Solid State Drive)、HDD(Hard Disk Drive)等で構成されており、ファームウェアやオペレーティングシステムと呼ばれる制御用のプログラムや、制御部11をニュース情報取得機能、類似度判定機能、同一ニュース情報判定機能、及び出力機能等として機能させるためのプログラムといった各プログラム、さらにその他、通信ネットワーク60を介してニュース情報の取得先となる外部システム5との接続に必要な接続情報、外部システム5から取得したニュース情報、取得した各ニュース情報の同一ニュース分類情報等の種々の情報が記憶される。
このため、記憶部12は、プログラムの外、ニュース情報の取得先となる外部システム5との接続に必要な接続情報を含む外部システム接続情報記憶部120、各外部システム5から取得したニュース情報を格納するニュース情報格納記憶部121を備える。また、ニュース情報分析装置1は、記憶部12に同一ニュースに分類されたニュース情報等を記憶するニュース情報管理データベース122を備えてもよい。なお、ニュース情報管理データベース122は、ニュース情報分析装置1とは別に、通信網6を介してニュース情報分析装置1と通信可能に接続されるサーバシステム(ニュース情報管理データベースシステム)(図示せず)として構成してもよい。
【0028】
外部システム接続情報記憶部120は、通信ネットワーク60を介してニュース情報を取得する外部システム5との接続に必要な情報(例えば、接続先URL、認証情報、外部システム5から新規に作成及び/又は更新されるニュース情報を取得するタイミング情報等が記憶される記憶部である。前述したように外部システム5は、例えばマスメディアサイト、テクノロジー&ビジネス情報のメディアサイト、金融情報のメディアサイト、各企業のサイト、研究所のサイト、政府機関のサイト、ソーシャルメディアサイト等が例示される。なお、ニュース情報としては、日本語にかぎらず、例えば英語、中国語、韓国語等のニュース情報についても取得対象としてもよい。こうすることで、後述するニュース情報取得部110は、外部システム接続情報記憶部120を参照して、各外部システム5に、所定のタイミング(例えば、時刻情報、外部システム5からの情報作成更新通知等の受信)で接続し、外部システム5の提供する、新規及び/又は更新されるニュース情報を取得するようにしてもよい。
【0029】
ニュース情報格納記憶部121は、ニュース情報取得部110が、各外部システム5から取得する新規及び/又は更新されるニュース情報を格納する記憶部である。なお、各外部システム5から取得する新規及び/又は更新されるニュース情報には、ニュース情報取得部110によりニュース情報IDが付与されるようにしてもよい。そうすることで、後述するニュース情報管理データベース122には、同一ニュースを示すニュース情報IDが相互に関連付けられるようにしてもよい。
【0030】
ニュース情報管理データベース122は、同一ニュース情報判定部112により同一ニュースとして関連付けられたニュース情報を登録管理するデータベースである。後述する出力部113は、当該ニュース情報を出力する際に、ニュース情報管理データベース122に基づいて同一ニュースと判定されたニュース情報のうち1つのニュース情報を出力することができる。
【0031】
以上、記憶部12について説明したが、例えばニュース情報格納記憶部121、及び/又はニュース情報管理データベース122は、通信ネットワーク60に接続されたサーバ装置(図示を省略)が備えるようにしてもよい。
【0032】
通信部13は、DSP等を有し、LTE(Long Term Evolution)、4G(4th Generation)、5G(5th Generation)の規格や、Wi-Fi(登録商標)といった規格に準拠して、通信ネットワーク60を介して外部システム5との間の無線通信や有線通信を実現する。なお、通信ネットワーク60は、インターネットや携帯電話網といったネットワークや、これらを組合せたネットワークにより実現される。また、ネットワークの一部に、LAN(Local Area Network)が含まれていてもよい。
【0033】
表示部14は、例えば液晶ディスプレイ、又は有機エレクトロルミネッセンスパネル等の表示デバイスにより構成される。表示部14は、制御部11からの指示を受けて画像を表示する。
入力部15は、テンキーと呼ばれる物理スイッチや表示部14の表示面に重ねて設けられたタッチパネル等の入力装置(図示を省略する)等で構成される。
なお、前述したように、ニュース情報分析装置1が入力部15及び表示部14を備える構成に加えて、入力部及び表示部を備える情報処理端末2をニュース情報分析装置1のクライアント端末としてもよい。そうすることで、通信ネットワーク60を介して、クライアント端末となる情報処理端末2からニュース情報分析装置1から出力されるニュース情報や表示画面等を情報処理端末2(クライアント端末)に表示するようにしてもよい。
【0034】
次に、制御部11の詳細について説明をする。制御部11はCPU、RAM、ROM、及びI/O等を有するマイクロプロセッサにより構成される。CPUは、ROM又は記憶部12から読み出した各プログラムを実行し、その実行の際にはRAM、ROM、及び記憶部12から情報を読み出し、RAM及び記憶部12に対して情報の書き込みを行い、通信部13と信号の授受を行う。そして、このようにして、ハードウェアとソフトウェア(プログラム)が協働することにより本実施形態における処理は実現される。
【0035】
制御部11は、機能ブロックとして、ニュース情報取得部110と、類似度判定部111と、同一ニュース情報判定部112と、出力部113と、を備える。
【0036】
ニュース情報取得部110は、通信ネットワーク60を介してニュース情報(タイトル、本文、写真、図面等)を配信する各外部システム5と、所定のタイミングで接続先URL、認証情報等に基づいて接続し、各外部システム5から配信される新規に作成されたニュース情報又は更新されたニュース情報を取得する。ここで、所定のタイミングとしては、例えば予め設定された時刻、予め設定された時間間隔、又は各外部システム5からの配信通知の受信(定期的に配信されるニュース情報以外に例えば臨時ニュース、号外等の受信を含む)が挙げられる。なお、ニュース情報取得部110は、各外部システム5に自動で接続してニュース情報を取得する形態に限られない。自動的に取得する形態に加えて、ユーザが例えば入力部15又は情報処理端末2(クライアント端末)を介して、アドホックに複数の外部システム5に接続して、新規に作成されたニュース情報又は更新されたニュース情報を取得するようにしてもよい。
なお、前述したように、外部システム5から配信されるニュース情報は、日本語に限られない、例えば、英語、中国語、韓国語等、ユーザの必要とするニュース情報を取得するようにしてもよい。この場合、ニュース情報取得部110は、原語に加えて日本語訳を生成するようにしてもよい。
ニュース情報取得部110は、各外部システム5から取得したニュース情報に、例えば外部システム5のサイト名、配信時刻情報(日時)等を付加して、ニュース情報格納記憶部121に記憶する。
【0037】
類似度判定部111の機能の詳細を説明する前に、ニュース情報について説明する。
一般にニュース情報は、新聞社等の報道機関により執筆され、簡潔な文章の記述と写真等の画像とから構成される。ニュース情報は、執筆した報道機関自身のウェブサイトに掲載されるとともに、他の報道機関やニュースポータルサイト等にも販売され、他の報道機関やニュースポータルサイト等の複数のサイトに掲載される。
なお、他の報道機関やニュースポータルサイトのサイトに掲載される場合、同じニュースのニュース情報の表示がサイトに応じた表示形式に変更されることがある。例えば、スマートフォン等に表示するために、ニュース情報は、画像のサイズを小さくして表示されたり、複数のページに分割されて表示されたり、ニュース情報の最初の部分だけ表示され続きを読むためのクリックを促すボタンが表示されたりする。このように、同じニュースのニュース情報でもサイト毎に表示形式が異なることから、ユーザは同じニュースのニュース情報を重複して閲覧してしまうことが多いと考えられる。また、同一ニュースのニュース情報の配信は、近接した時刻(時間帯)に集中すると考えられる。
このように、類似度判定部111は、近接した時刻(時間帯)に配信された任意の2つのニュース情報間の重複部分を推定することで、重複部分の量に応じてニュース情報間の類似度を判定することができる。
そして、後述する同一ニュース情報判定部112は、例えば、類似度が所定値以上のニュース情報Aの画像情報とニュース情報Bの画像情報とを比較することにより、画像情報が一致する場合、ニュース情報Aとニュース情報Bとは同一ニュースであると推定することができる。以上、ニュース情報について説明した。以上を踏まえて、類似度判定部111の機能について説明する。
【0038】
前述したように、同一ニュースは、ニュース配信元の外部システム5に関わらず、一致度の高いテキスト(「重複部分」という)になると考えられる。このため、類似度判定部111は、まず、ニュース情報の配信日時が所定の時間範囲内に含まれる各外部システム5から取得したニュース情報(テキスト)を対象(「類似度判定対象集合」という)として、類似度判定対象集合に含まれる異なる任意の2つのニュース情報のテキスト情報(簡単のため「ニュース情報A」、「ニュース情報B」という)間の重複部分をテキスト文書間の一致度に基づいて判定することができる。
ここで、例えば、サイトAで本文すべてが表示されているニュース情報A(テキストA)と、サイトBで本文の最初の部分のみが表示されているニュース情報B(テキストB)との一致度を判定する方法としては、当業者に公知の手法、例えば一致する文字数、編集距離、n-gram分割した単語の一致率等の指標に閾値を設定し判定する方法を適用するようにしてもよい。
例えば、類似度判定部111は、本文部分の開始から所定の文字数のみが表示されているテキストBのテキスト範囲に基づいて、テキストAとテキストBとを本文部分の開始から所定の文字数についてセンテンス順、又は段落順にn-gram分割した文字列の一致率から一致度を判定し、一致度が閾値を超える又は閾値以上の場合に、一致すると判定するようにしてもよい。
また、類似度判定部111は、テキストAとテキストBとを本文部分の開始から所定の文字数についてセンテンス順に又は段落順にテキストを形態素解析した単語中から文章の内容を構成する単語(例えば、名詞と動詞)の一致度の判定Jaccard係数等を指標として、一致度が閾値を超える又は閾値以上の場合に、一致すると判定するようにしてもよい。また、類似度判定部111は、一致度の判定方法としてテキスト情報を比較するようにしてもよい。こうすることで、類似度判定部111は、ニュース情報毎に他のニュース情報との重複部分を一致度に基づいて推定することができる。
【0039】
次に、類似度判定部111は、重複部分の量に応じて当該ニュース情報同士の類似度を判定する。ここで、重複部分の量としては、例えば重複部分のテキストの文字数、又は重複部分のニュース情報の全テキストに占める割合等を適用するようにしてもよい。こうすることで、類似度判定部111は、類似度判定対象集合に含まれる任意の2つのニュース情報のペア毎に、類似度を判定することができる。
以上、類似度判定部111について説明した。次に、2つのニュース情報が同一事象ニュースか否かを判定する同一ニュース情報判定部112について説明する。
【0040】
同一ニュース情報判定部112は、類似度判定対象集合に含まれるニュース情報のうち、類似度判定部111により判定された類似度が所定値以上となる2つのニュース情報の画像情報(画像)を比較し、画像情報(画像)が一致する場合には同一ニュースと判定する。
具体的には、同一ニュース情報判定部112は、類似度判定対象集合に含まれるすべての2つのニュース情報のすべての組み合わせ(ペア)に対して、当該2つのニュース情報の画像情報(画像)を、当業者に公知の類似画像検索手法(例えば、Content-Based Image Retrieval (CBIR)等)を用いて、画像情報(画像)の中の被写体(例えば、国旗、人物、企業ロゴ、製品等)を認識する。同一ニュース情報判定部112は、認識結果に基づいて2つのニュース情報の画像情報(画像)が一致するか否かを判定し、同一ニュースか否かを判定する。
なお、同一ニュース情報判定部112は、画像情報(画像)を比較するにあたり、前述したように、サイト毎に表示されるニュース情報の画像のサイズが異なることから、ピクセル数を勘案せず比較することが好ましい。
また、例えばニュース情報A又はニュース情報Bのいずれかがニュース情報Cと同一ニュースであると判定された場合、同一ニュース情報判定部112は、ニュース情報A、ニュース情報B、及びニュース情報Cを同一ニュースと判定するようにしてもよい。このようにすることで、同一ニュース情報判定部112は、類似度判定対象集合に含まれるすべてのニュース情報を、同一ニュース情報グループ毎に分類分け(関連付け)することができる。なお、現実的には、(WEBメディアにより引用される配信等があることから)ほとんどありえないと考えられるが、仮にどのニュース情報とも類似しないニュース情報がある場合、当該ニュース情報については、同一ニュース情報無しとして分類するようにしてもよい。
【0041】
同一ニュース情報判定部112は、同一ニュースと判定したニュース情報を識別できるように、例えばニュース情報管理データベース122に、登録格納されたニュース情報に対して、さらに同一ニュースのニュース情報となるニュース情報グループIDを登録するようにしてもよい。
そうすることで、ユーザがニュース情報管理データベース122を検索照会する際に、同一ニュースのニュース情報を特定することができ、例えば同一ニュースのニュース情報が連続して照会されることを防止することができる。以上、同一ニュース情報判定部112について説明した。
【0042】
出力部113は、同一ニュース情報判定部112により同一ニュースと判定されたニュース情報のうち1つのニュース情報を表示部14又は情報処理端末2(クライアント端末)に出力する。
なお、出力部113は、同一ニュースのニュース情報を表示部14又は情報処理端末2(クライアント端末)に出力する際に、同一ニュースと判定されたニュース情報のうち本体部分の文字数が最も多いニュース情報を出力するようにしてもよい。
あるいは、出力部113は、同一ニュースのニュース情報を表示部14又は情報処理端末2(クライアント端末)に出力する際に、同一ニュースと判定されたニュース情報のうち画像情報(画像)のピクセル数が最も多いニュース情報を出力するようにしてもよい。
そうすることで、ユーザにとって最も情報量の多く、配信元又は配信元に近いニュース情報を閲覧することが可能となる。また、同一ニュースを扱ったニュース情報が並んで出力されることを防止することができる。
以上、本実施形態として例示したニュース情報分析装置1の各機能部の構成について説明した。
【0043】
次に、図3に記載したフローチャートを参照して、本実施形態の動作について説明する。図3は、ニュース情報分析装置1の動作を示すフローチャートである。なお、図3で示す処理は、入力部15又は情報処理端末2(クライアント端末)から処理指示を受け付ける度に実行される。
【0044】
ステップS10において、ニュース情報分析装置1(ニュース情報取得部110)は、通信ネットワーク60を介してニュース情報を配信する各外部システム5と、所定のタイミングで接続先URL、認証情報等に基づいて接続し、各外部システム5から配信される新規に作成されたニュース情報又は更新されたニュース情報を取得する。
【0045】
ステップS11において、ニュース情報分析装置1(類似度判定部111)は、ニュース情報の配信日時が所定の時間範囲内に含まれる各外部システム5から取得したニュース情報(テキスト)を対象として、当該集合に含まれる異なる任意の2つのニュース情報のテキスト情報間の一致度を判定する。
【0046】
ステップS12において、ニュース情報分析装置1(類似度判定部111)は、2つのニュース情報のテキスト情報間の重複部分の量に応じて当該ニュース情報同士の類似度を判定する。
【0047】
ステップS13において、ニュース情報分析装置1(同一ニュース情報判定部112)は、類似度が所定値以上の2つのニュース情報間の画像情報(画像)を比較する。
【0048】
ステップS14において、ニュース情報分析装置1(同一ニュース情報判定部112)は、2つのニュース情報間の画像情報(画像)が一致する場合、当該2つのニュース情報を同一ニュースと判定(分類又は関係付け)する。
【0049】
ステップS15において、ニュース情報分析装置1(出力部113)は、ステップS14において同一ニュースと判定されたニュース情報のうち、1つのニュース情報を表示部14又は情報処理端末2(クライアント端末)に出力する。
【0050】
以上により、ニュース情報分析装置1は、インターネット上に配信される複数のニュース情報についてニュース情報のテキスト情報に基づいてニュース情報同士の類似を示す類似度の判定を行い、類似度が所定値以上のニュース情報について画像情報を比較し画像情報が一致する場合、同一事象に基づく同一ニュースであると判定し、同一ニュースのニュース情報のうち1つのニュース情報を出力する動作について説明した。
これにより、ニュース情報分析装置1は、インターネット上のニュース情報を重複して閲覧してしまう事態を避けることが可能となる。
【0051】
各機器のそれぞれは、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記のナビゲーションシステムに含まれる各機器のそれぞれが協働することにより行なわれるナビゲーション方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。
【0052】
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば、光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
【0053】
上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。
【0054】
<変形例1>
前述した第1の実施形態では、ニュース情報取得部110は、通信ネットワーク60を介してニュース情報(タイトル、本文、写真、図面等)を配信する各外部システム5と、所定のタイミングで接続先URL、認証情報等に基づいて自動接続し、各外部システム5から配信される新規に作成されたニュース情報又は更新されたニュース情報を取得する形態を例示したが、これに限られない。
例えば、ニュース情報取得部110は、入力部15又は情報処理端末2(クライアント端末)を介して入力されるユーザからの指示(例えば少なくとも1以上の外部システム5を指定)に基づいて、通信ネットワーク60を介してニュース情報(タイトル、本文、写真、図面等)を配信する各外部システム5と、接続先URL、認証情報等に基づいて接続し、各外部システム5から配信される新規に作成されたニュース情報又は更新されたニュース情報を取得するようにしてもよい。そうすることで、ユーザからの指示によりアドホックに取得した外部システム5のニュース情報について、類似度判定部111、同一ニュース情報判定部112、及び出力部113が前述した処理を行うようにしてもよい。
【0055】
<変形例2>
上述の実施形態では、ニュース情報分析装置1を1つのサーバ装置等により実現すると説明したが、ニュース情報分析装置1の各機能を、適宜複数のサーバ装置に分散する、分散処理システムとしてもよい。具体的には、例えば前述したように、ニュース情報管理データベース122を、ニュース情報分析装置1とは異なるサーバ装置(ニュース情報管理データベースシステム)としてもよい。
また、クラウド上で仮想サーバ機能等を利用して、ニュース情報分析装置1の各機能を実現してもよい。
【符号の説明】
【0056】
100 ニュース情報分析システム
1 ニュース情報分析装置
11 制御部
110 ニュース情報取得部
111 類似度判定部
112 同一ニュース情報判定部
113 出力部
12 記憶部
120 外部システム接続情報記憶部
121 ニュース情報格納記憶部
122 ニュース情報管理データベース
13 通信部
14 表示部
15 入力部
2 情報処理端末(クライアント端末)
5 外部システム
60 通信ネットワーク
図1
図2
図3