(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-10-10
(45)【発行日】2024-10-21
(54)【発明の名称】情報処理装置、情報処理方法、及び情報処理プログラム
(51)【国際特許分類】
G06Q 30/02 20230101AFI20241011BHJP
G06Q 50/10 20120101ALI20241011BHJP
【FI】
G06Q30/02
G06Q50/10
(21)【出願番号】P 2024073305
(22)【出願日】2024-04-30
【審査請求日】2024-06-03
【早期審査対象出願】
(73)【特許権者】
【識別番号】514323246
【氏名又は名称】株式会社JX通信社
(74)【代理人】
【識別番号】110003166
【氏名又は名称】弁理士法人山王内外特許事務所
(72)【発明者】
【氏名】王 楓
(72)【発明者】
【氏名】菅野 俊介
(72)【発明者】
【氏名】米重 克洋
【審査官】岡北 有平
(56)【参考文献】
【文献】特表2016-541058(JP,A)
【文献】特許第7341367(JP,B1)
【文献】特開2021-067979(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00 - 99/00
(57)【特許請求の範囲】
【請求項1】
分析対象とする対象文書データを取得する対象文書データ取得部と、
大規模言語モデルを用い、対象文書データが示す事象が発生した場所の場所名情報
である第1場所名情報を取得する場所名情報取得部と、
地名位置情報データベースを用いて、場所名情報と紐づく位置情報を特定する位置情報特定部と、
対象文書データと、前記位置情報特定部が特定した位置情報と、を対応づけした配信コンテンツを生成する配信情報生成部と、
前記位置情報特定部が特定した位置情報が複数存在する場合、前記大規模言語モデルに、前記対象文書データと、前記地名位置情報データベースが有する複数の階層にある場所名情報のうち前記第1場所名情報とは異なる階層にある場所名情報が前記第1場所名情報に付加された第2場所名情報とを送付し、1つの位置情報を選択する再判定処理部と、を含む、
情報処理装置。
【請求項2】
前記対象文書データ取得部は、対象文書データが記載された言語の種類に依らず対象文書データを取得し、
前記場所名情報取得部は、複数の種類の言語を扱う前記大規模言語モデルを用い、
前記配信情報生成部は、予め指定された言語の種類で前記配信コンテンツを生成する、
請求項1に記載の情報処理装置。
【請求項3】
前記位置情報特定部が用いる前記地名位置情報データベースは、データが階層化されて管理されている、
請求項1に記載の情報処理装置。
【請求項4】
前記位置情報特定部は、前記地名位置情報データベースから得られるデータのうち、予め指定された階層のデータを選定して、場所名情報と紐づく位置情報を特定する、
請求項3に記載の情報処理装置。
【請求項5】
ユーザごとに設定されたそれぞれの条件に基づいて、前記位置情報特定部が特定した位置情報がそれぞれの条件を満たすか否かを判断し、位置情報が条件を満たすと判断された場合に、条件に紐づけられた通知先に通知を行うユーザ通知部、を備える、
請求項1に記載の情報処理装置。
【請求項6】
前記ユーザ通知部は、前記ユーザごとに設定が可能な関心地域の指定方法として、場所名で直接的に指定する方法と、任意の地点から所定の距離以内の領域として指定する方法と、を含む、
請求項
5に記載の情報処理装置。
【請求項7】
対象文書データ取得部と、場所名情報取得部と、位置情報特定部と、配信情報生成部と、
再判定処理部と、を含む情報処理装置の情報処理方法であって、
前記対象文書データ取得部が、分析対象とする対象文書データを取得し、
前記場所名情報取得部が、大規模言語モデルを用い、対象文書データが示す事象が発生した場所の場所名情報
である第1場所名情報を取得し、
前記位置情報特定部が、地名位置情報データベースを用いて、場所名情報と紐づく位置情報を特定し、
前記配信情報生成部が、対象文書データと、前記位置情報特定部が特定した位置情報と、を対応づけした配信コンテンツを生成
し、
前記再判定処理部が、前記位置情報特定部が特定した位置情報が複数存在する場合、前記大規模言語モデルに、前記対象文書データと、前記地名位置情報データベースが有する複数の階層にある場所名情報のうち前記第1場所名情報とは異なる階層にある場所名情報が前記第1場所名情報に付加された第2場所名情報とを送付し、1つの位置情報を選択する、
情報処理方法。
【請求項8】
請求項
7に記載の方法をコンピュータに実行させるための、情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示技術は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。
【背景技術】
【0002】
事業活動又は社会活動等の各種活動を行う組織又は個人にとって、世の中で発生する種々の事象のうち、自己の活動へ影響を与える事象の発生を知ることは有用である。
このニーズに対応するサービスとして、予め関心のあるキーワードを設定し、ニュースの中からキーワードにヒットしたものだけを受け取る、いわゆるニュースクリッピングサービスが知られている。
【0003】
自国のニュースのみならず、海外のニュースを含めた情報を顧客に提供するための技術も知られている。例えば、本願の出願人が過去に出願した特許文献1には、分析対象とする対象文書データを取得し、対象文書データの内容が示す事象によるリスクの有無を判定し、リスク有りの場合に、特定の言語に翻訳して配信情報を生成する技術が記載されている。このようなサービスは、グローバル版のニュースクリッピングサービスだと解釈することもできる。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1に記載された技術によれば、自然言語からなる配信情報を生成するときに、その配信情報の中に含まれる場所名を選択的に抽出して、抽出した場所名をその配信情報のラベルとすることが可能である。
【0006】
ニュースクリッピングサービスの技術分野において、事象が発生した場所を「場所名」として特定するだけではなく、その場所の「位置情報」を付加情報として提供することが求められている。
本開示技術は、従来のニュースクリッピングサービスを改良し、事象が発生した場所を「場所名」として特定するだけではなく、その場所の「位置情報」を付加情報として提供する情報処理装置、情報処理方法、及び情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
本開示技術に係る情報処理装置は、分析対象とする対象文書データを取得する対象文書データ取得部と、大規模言語モデルを用い、対象文書データが示す事象が発生した場所の場所名情報である第1場所名情報を取得する場所名情報取得部と、地名位置情報データベースを用いて、場所名情報と紐づく位置情報を特定する位置情報特定部と、対象文書データと、位置情報特定部が特定した位置情報と、を対応づけした配信コンテンツを生成する配信情報生成部と、位置情報特定部が特定した位置情報が複数存在する場合、大規模言語モデルに、対象文書データと、地名位置情報データベースが有する複数の階層にある場所名情報のうち第1場所名情報とは異なる階層にある場所名情報が第1場所名情報に付加された第2場所名情報とを送付し、1つの位置情報を選択する再判定処理部と、を含む。
【発明の効果】
【0008】
本開示技術に係る情報処理装置は、上記構成を備えるため、事象が発生した場所を「場所名」として特定するだけではなく、その場所の「位置情報」を付加情報として提供することができる。
【図面の簡単な説明】
【0009】
【
図1】
図1は、実施の形態1に係る情報処理装置の機能構成を示すブロック図である。
【
図2】
図2は、実施の形態2に係る情報処理装置の機能構成を示すブロック図である。
【
図3】
図3は、実施の形態3に係る情報処理装置の機能構成を示すブロック図である。
【
図4】
図4は、本開示技術に係る情報処理装置のハードウエア構成を示すブロック図である。
【
図5】
図5は、本開示技術に係る情報処理方法の処理フローを示すフローチャートである。
【発明を実施するための形態】
【0010】
実施の形態1.
図1は、実施の形態1に係る情報処理装置10の機能構成を示すブロック図である。
図1に示されるとおり、実施の形態1に係る情報処理装置10は、対象文書データ取得部11と、場所名情報取得部12と、位置情報特定部13と、配信情報生成部15と、を含む。また、
図1において、“LLM”との記載は大規模言語モデルLLMを、“PDB”との記載は地名位置情報データベースPDBを、それぞれ表す。
【0011】
《対象文書データ取得部11》
対象文書データ取得部11は、分析対象とする対象文書データを取得するための構成要素である。前述のとおり、本開示技術に係る情報処理装置10は、グローバル版のニュースクリッピングサービスを実現するものと言える。したがって、対象文書データ取得部11が取得する対象文書データは、例えば、WEB上にある様々なニュース記事である。対象文書データ取得部11が取得するニュースは、国内ニュースのみでもよい。以下、対象文書データには、海外事象情報が含まれるものとして説明する。
【0012】
対象文書データ取得部11は、例えば、公的機関が公開しているレポート、政府系の情報サイト、海外メディア、といった特定の情報源から、対象文書データを取得するように構成されていてよい。また、対象文書データ取得部11は、ニュース配信サービスに代表される外部サービスを、例えばAPI(Application Programming Interface)用いて、利用する構成であってもよい。
【0013】
対象文書データ取得部11は、特定のキーワードを元に記事をスクレイピングする構成であってもよい。Webサイトからスクレイピングを行うことを明確にするため、「スクレイピング」は、しばしば、「Webスクレイピング」と称されることがある。
対象文書データ取得部11が用いる特定のキーワードは、例えば、災害情報を収集したい場合においては、地震、火事、台風、等の災害に関連するものが考えられる。
【0014】
このほかにも、対象文書データ取得部11は、SNSから情報を取得する機能も有していてよい。SNSには、例えば、X(旧Twitter(登録商標))、Instagram(登録商標)、TikTok(登録商標)、YouTube(登録商標)、または、Facebook(登録商標)がある。この場合、本開示技術に係る情報処理装置10は、フェイクニュースを見破るよう、フェイクニュースに対抗するための人工知能を利用するものであってもよい。
【0015】
《場所名情報取得部12》
場所名情報取得部12は、大規模言語モデルLLMを用い、対象文書データが示す事象と関連する場所名情報を取得する構成要素である。場所名情報取得部12が取得する場所名情報は、例えば、事象が発生した場所の場所名が含まれる。ここで場所名には、国名、都市名、施設の固有名称、施設の一般名称なども含まれる。
場所名情報取得部12は、予め用意されたプロンプトを用いて、対象文書データ取得部11が取得した対象文書データを大規模言語モデルLLMへ入力し、海外事象情報に関連する場所名の候補を抽出して出力させるよう、大規模言語モデルLLMへ問いかける。ここで、プロンプトとは、大規模言語モデルLLMに予測又は提案させるための指示を与えるものである。大規模言語モデルLLMのプロンプトは、AIプロンプトと称されることもある。場所名情報取得部12が行う基本動作として、プロンプトでは、場所名を抽出するように指示するものとする。また、プロンプトでは、場所名を複数抽出するように指示してもよい。より簡単に言えば、場所名情報取得部12は、ニュース記事に含まれる場所名の単語を、大規模言語モデルLLMに出力させる。場所名情報取得部12は、大規模言語モデルLLMへ入力する言語の如何によらず、大規模言語モデルLLMに出力させる場所名の候補を、予め設定された特定の言語で行うよう、大規模言語モデルLLMへ問いかけるとよい。すなわち、場所名情報取得部12が用いるプロンプトは、出力言語が特定されているとよい。
大規模言語モデルLLMは、1つの対象文書データ(又は、対象文書データとして得られた1つのニュース記事)から、複数の場所名を出力する場合もある。すなわち、大規模言語モデルLLMのプロンプトへ入力する質問によっては、プロンプトから複数の場所名が出力されることがある。この場合の処理手順は、後述の再判定処理部14の処理手順により明らかとなる。
対象文書データから抽出されるものは、少なくとも、海外事象情報と、抽出された海外事象情報に関連する場所名が含まれる。前述のとおり、場所名の抽出においては、複数の場所名を推定するように指示をしてもよい。プロンプトへの入力において、例えば、抽出した海外事象情報及び場所名を、特定の言語に翻訳する指示があってもよい。また、海外事象情報の抽出においては、カテゴリ(事象分類)を指定した上で、処理を行ってもよい。さらに、プロンプトへの入力には、事象分類に基づく抽出が適切だったかについて、チェックを行う指示が含まれてもよい。
【0016】
本開示技術に係る情報処理装置10は、この段階において、海外事象情報と、その海外事象情報に関連する場所名の候補と、を紐づける。
【0017】
《位置情報特定部13》
位置情報特定部13は、地名位置情報データベースPDBを用いて、場所名情報と紐づく位置情報を特定する構成要素である。
位置情報特定部13が用いる地名位置情報データベースPDBは、場所名とその場所名の位置情報とが紐づけられたデータを有するものである。位置情報特定部13が用いる地名位置情報データベースPDBは、本開示技術に係る情報処理装置10が内部に保有するデータベースであってもよいし、APIを用いて外部サービスの提供を受ける態様であってもよい。
別の言い方をすれば、位置情報特定部13は、場所名とその場所名の位置情報とが紐づけられたデータを有する地名位置情報データベースPDBから、海外事象情報と関連するデータを選定する構成要素である。
【0018】
前述のとおり、本開示技術が想定する場所名には、国名、都市名(都道府県名)、市区町村名、及び施設の固有名称が含まれる。「国」という領域の中に「都市」という領域が存在し、「都市」という領域の中に「市区町村」、そして「施設」という領域が存在する。このように、「国」、「都市」、「市区町村」、「施設」は、階層の関係にある、とも言える。「施設」については、特定の緯度・経度に存在する建物などの名称、例えば、マンション名、公園名、ショッピングモールの名称、等である。「施設」の名称は、公共・民間の別を問わない。例えば、「国」、「都市」、「市区町村」、「施設」の例として、「日本」、「東京都」、「千代田区」、「特許庁総合庁舎」、がそれぞれ考えられる。「特許庁総合庁舎」は「東京都」に含まれ、「東京都」は「日本」に含まれる。本明細書において、より広い領域を示す概念は、上位の階層であるという表現が用いられるものとする。上記の例で言えば、「東京都」は「特許庁総合庁舎」よりも上位の階層にある場所名であり、「日本」は「東京都」よりも上位の階層にある場所名である。なお、「国」、「都市」、「市区町村」、「施設」は例示であり、本開示技術に係る情報処理装置10は、例えば「州」、「県」といった別の新たな領域の概念を導入し、より多層の階層により場所名を分類してもよい。さらに、本開示技術に係る情報処理装置10は、対象文書データに含まれる海外事象情報が示す海外情報が生じている国が採用している住所の書き方に基づいて、場所名の階層を定義してもよい。日本における「特許庁総合庁舎」の住所は、東京都千代田区霞が関なので、「東京」「千代田区」「霞が関」という階層構造が用いられてもよい。
したがって、位置情報特定部13が用いる地名位置情報データベースPDBは、ここに示した階層構造の情報を有しているものが採用されるとよい。各国が採用している住所のシステムは、その地域の人にとって、馴染みのある階層的な場所概念に基づいて位置を特定することができるからである。例えば、位置情報特定部13が用いる地名位置情報データベースPDBは、検索キーワードとして「特許庁総合庁舎」が入力されると、「特許庁総合庁舎」が「東京都」に含まれる、という階層情報をも出力するものがよい。
【0019】
位置情報特定部13が地名位置情報データベースPDBを用いて特定する位置情報は、例えば、場所名を代表する地点の緯度及び経度である。場所名を代表する地点とは、例えば、場所名が定義される領域の重心、その場所名を代表する施設の玄関を示すもの、等、適宜定義されてよい。
【0020】
位置情報特定部13は、地名位置情報データベースPDBを用いて、大規模言語モデルLLMから取得した場所名の候補を検索キーワードとし、検索処理を実施し、場所名に紐づいた位置情報を取得する。例えば、ニュースに対して大規模言語モデルLLMが抽出したキーワードが「日本国特許庁」、「特許庁総合庁舎」である場合、位置情報特定部13は、地名位置情報データベースPDBを用いて、「日本国特許庁」、「特許庁総合庁舎」の検索を実施する。位置情報特定部13は、検索における「部分一致」の機能を用い、「日本国特許庁」から、「日本国」、「日本」を抽出することもできる。また、位置情報特定部13は、検索アルゴリズムとして、概念検索を用い、類似度が高いもの、例えば上記の例で言えば「独立行政法人工業所有権情報・研修館」(日本国特許庁と関連のある団体)を抽出することもできる。なお、部分一致、及び概念検索は、検索アルゴリズムのほんの一例であり、本開示技術が用いる検索アルゴリズムはこれに限定されない。一般的な表現を用いれば、位置情報特定部13は、1つ以上の検索キーワードに対して、地名位置情報データベースPDBに格納されているデータを対象に検索を行い、ヒットした位置情報が示す場所の階層の如何にかかわらず、ヒットしたものをすべて抽出する。
本開示技術に係る情報処理装置10は、海外事象情報と紐づく場所名をどの階層のものとするか、予めサービス提供者が設定することもできる。この場合、海外事象情報と紐づく位置情報も、指定された場所名の階層と連動することになる。場所名の階層は、下位(例えば、「施設」)にすればするほど、詳しくなるが、一方で、本来ニュースとは関連しない誤った場所名が紐づけされてしまう、というリスクがある。例えば、仮想的なニュースとして、また仮想的な施設名として、「霞が関病院が火事になった」という内容に対して、「霞が関小学校」という施設が場所名としてヒットしてしまうことも考えられる。この場合、本開示技術に係るニュースクリッピングサービスの提供者は、実際のサービス提供の開始前に、予め、場所名の階層を「市区町村」のレベルに設定しておいてもよい。このように場所名の階層を「市区町村」のレベルに設定しておくことで、「霞が関病院が火事になった」というニュースに対して、「霞が関小学校」が誤って紐づけられる誤りはなくなり、「霞が関」という「市区町村」レベルの正しい場所名が紐づけされる。
【0021】
《配信情報生成部15》
配信情報生成部15は、対象文書データと、位置情報特定部13が特定した位置情報と、を対応づけした配信コンテンツを生成する構成要素である。
配信情報生成部15により生成される配信コンテンツは、一時的に記憶媒体に保存され、ユーザの要求に応じて、適宜、配信される。なお、配信情報生成部15は、位置情報に加えて、所定言語への翻訳結果、事象が発生した発生日時情報なども紐づけて、配信コンテンツを管理してもよい。本開示技術に係るニュースクリッピングサービスの提供者は、配信コンテンツの管理のみならず、例えば、紐づけされた情報も、配信コンテンツに含めて実際に配信をしてもよい。配信コンテンツは、ニュースクリッピングサービスの用途に使われる。配信情報生成部15が生成する配信コンテンツは、いろいろな態様のものが考えられる。配信コンテンツは、例えば、対象文書データの全部又は一部として抽出された海外事象情報のみが含まれてもよい。また、配信コンテンツには、海外事象情報の抽出に用いられた事象分類も、含まれてよい。
【0022】
配信コンテンツは、例えば、フィード配信、メール配信、又はマップ表示API、等の方法で配信される。フィード配信は、例えばRSS(RDF Site Summary)のデータ形式で、新着情報の一覧をサイト等に公開する情報配信方法である。マップ表示APIとは、マップ表示サービスのアプリケーションを、APIを使って利用することである。例えば、配信情報生成部15が生成する配信コンテンツが、マップ表示APIを利用するものである場合、また、ニュースが「特許庁総合庁舎」と関連する場合、配信コンテンツの中には、特許庁総合庁舎の位置を示すアイコンがマップの中に表示されている画像が含まれることになる。
本開示技術に係る情報処理装置10は、ユーザごとに、予め関心のあるキーワードを設定できるように構成されている。また、開示技術に係る情報処理装置10は、ユーザごとに、予め関心のある地域を設定することもできる。関心キーワードと関心地域とは、組み合わせて設定することができる。関心キーワードと関心地域とを組み合わせた条件は、「配信条件」として、ユーザごとに設定される。例えば、ユーザの関心が半導体の製造である場合に、配信条件として、例えば、「半導体」、「シリコンバレー(アメリカ合衆国カリフォルニア州北部、サンフランシスコ・ベイエリア)」、「TSMC」、が設定される。また、配信条件のユースケースとして、自社製品の製造拠点、自社の現地拠点を登録してもよい。したがって、ここで登録できる地域は、単に関心ある地域にとどまらず、ユーザ企業の拠点等、自社の事業上、関連のある地名又は位置であってもよい。
本開示技術に係る情報処理装置10は、各ユーザを特定する情報と、各ユーザの配信条件と、各ユーザの配信先と、からなる情報を、予め記憶媒体に格納して利用してもよい。情報処理装置10は、配信コンテンツを、各ユーザの配信条件と照合し、配信条件を満たすユーザの配信先に配信する。なお、ユーザによっては、直接的に配信コンテンツが配信されることまでは望まず、まずは通知だけを受け取り、必要に応じて配信コンテンツを自分の意思でダウンロードしたい、という状況も考えられる。この場合、情報処理装置10は、実施の形態3において後述するユーザ通知部16を備えるようにしてもよい。
【0023】
本開示技術に係る情報処理装置10が想定する関心地域の設定方法には、場所名を直接的に設定する方法のほか、任意の地点から所定の距離以内の。領域を設定する方法も考えられる。このように、ユーザは、或る地点と、その或る地点を中心とした半径距離とを、自由に指定することができる。なお、本開示技術に係る情報処理装置10は、半径距離のデフォルト値(例えば、10[km]等)が設定されていてもよい。ユーザは、例えば、ユーザ端末を介して本開示技術に係る情報処理装置10にアクセスし、関心地域の設定を登録してもよい。例えば、情報処理装置10は、ユーザが設定できる半径距離の候補をいくつか用意をし(例えば、1[km]、10[km]、100[km]、・・・)、ユーザによって選択できる態様であってもよい。ユーザは、ユーザ端末を介して本開示技術に係る情報処理装置10にアクセスし、関心地域を含めた配信条件を登録できる。
情報処理装置10は、配信コンテンツを、各ユーザの関心地域を含めた配信条件と照合し、配信条件を満たすユーザの配信先に配信する。例えば、或るユーザの関心地域が「A地点から半径10km以内」として配信条件が登録されており、A地点から10km以内に例えば火事の海外事象情報が取得された場合、その配信コンテンツをこのユーザに配信する。
【0024】
以上のとおり、実施の形態1に係る情報処理装置10は、
図1に示す構成要素を備えるため、事象が発生した場所を「場所名」として特定するだけではなく、その場所の「位置情報」を付加情報として提供することができる。
【0025】
実施の形態2.
実施の形態2に係る情報処理装置10は、本開示技術に係る情報処理装置10の変形例である。特に明記する場合を除き、実施の形態2において、実施の形態1で用いられた符号と同じものが使われる。また、実施の形態1と重複する記載は、適宜、省略される。
【0026】
図2は、実施の形態2に係る情報処理装置10の機能構成を示すブロック図である。実施の形態1に係る
図1と比較してわかるように、実施の形態2に係る情報処理装置10は、実施の形態1に係る構成要素に加え、再判定処理部14を備える。
図2に示されるとおり、再判定処理部14は、位置情報特定部13の後段、配信情報生成部15の前段、に配置される。
【0027】
《再判定処理部14》
再判定処理部14は、位置情報特定部13が選定したデータが複数存在する場合、大規模言語モデルLLMを用いて、1つのデータを選択する構成要素である。
前述のとおり、場所名情報取得部12は、大規模言語モデルLLMを用い、対象文書データが示す事象と関連する場所名情報を取得する。このとき、一つの対象文書データに対して、大規模言語モデルLLMが、意図して又は意図せずに、複数の場所名を抽出することがある。それぞれの場所にはそれぞれの位置があるから、複数の場所名が抽出された結果、複数の位置情報が抽出される場合がある(「複数場所複数位置のケース」と称する)。一つの対象文書データに対して、大規模言語モデルLLMが、一つの場所名を抽出する場合もある。場所名が一つであるにもかかわらず、位置情報特定部13が、複数の位置情報を抽出することもある(「単数場所複数位置のケース」と称する)。複数場所複数位置のケースでも、単数場所複数位置のケースでも、再判定処理部14は、再判定の処理を行う。
例えば、再判定処理部14は、複数の場所名候補がある場合、大規模言語モデルLLMへ再度問い合わせることにより、複数の場所名候補の中から、分析対象とする対象文書データに含まれる海外事象情報を表している確からしい1つのデータを選択してもよい。大規模言語モデルLLMのプロンプトに入力される情報は、少なくとも、元の海外事象情報又は対象文書データ、複数の場所名候補の情報、及び、その複数の場所名候補のうちニュースと関連した正しい場所名を問う旨の質問情報、が含まれる。再判定処理部14が、大規模言語モデルLLMへ再度の問い合わせをする際に、地名位置情報データベースPDBから複数の階層の情報を取得して、セットにして大規模言語モデルLLMへ送付する。以下、具体的な例に基づいて説明する。
【0028】
例えば、場所名情報取得部12が或る対象文書データを大規模言語モデルLLMへ入力したときに、大規模言語モデルLLMが抽出した場所名が「中央区」だとする。そして、位置情報特定部13が「中央区」を地名位置情報データベースPDBで検索したときに、「A.東京都中央区」、「B.相模原市中央区」、「C.大阪市中央区」、及び「D.札幌市中央区」の4つの「中央区」がヒットしたとする。このような場合、再判定処理部14は、大規模言語モデルLLMへ再度問い合わせることにより、上記AからDまでの4つの中から、対象文書データの事象を正しく表している「中央区」がどれなのかを再判定する。大規模言語モデルLLMは、対象文書データに登場する「中央区」の前後の文脈、及び他のキーワード等を参酌し、文章を分析することで、適切な位置を判定することが可能である。
上記AからDまでの4つの「中央区」は、それぞれの「中央区」が属する1つ上位の階層の場所名、すなわち、「東京都」、「相模原市」、「大阪市」、及び「札幌市」によって区別できる、と言える。また、上記AからDまでの4つの「中央区」を区別する手段として、位置情報を用いることもできる。
再判定処理部14は、「中央区」という候補名から複数の「中央区」が抽出された際に、「A.東京都中央区」、「B.相模原市中央区」、「C.大阪市中央区」、及び「D.札幌市中央区」と、最初に大規模言語モデルLLMが抽出した候補名の情報に対して、他の階層の情報(例えば、「東京都」)が新たに付加されて大規模言語モデルLLMへ入力し再判定を行う。本開示技術は、この再判定処理部14を備えるため、大規模言語モデルLLMに基づく2回目の判定が、正しく行われる。
【0029】
実施の形態2に係る配信情報生成部15は、対象文書データと、再判定処理部14により適切な位置と再判定された位置情報と、を対応づけした配信コンテンツを生成する。
前述のとおり、配信情報生成部15により生成される配信コンテンツは、一時的に記憶媒体に保存され、ユーザの要求に応じて、適宜、配信される。なお、配信情報生成部15は、位置情報に加えて、所定言語への翻訳結果、事象が発生した発生日時情報なども紐づけて、配信コンテンツを管理してもよい。
【0030】
以上のとおり、実施の形態2に係る情報処理装置10は、
図2に示す構成要素を備えるため、事象が発生した場所を「場所名」として特定するだけではなく、大規模言語モデルLLMがその場所の位置として適切であると再判定した「位置情報」を付加情報として提供することができる。
【0031】
実施の形態3.
実施の形態3に係る情報処理装置10は、本開示技術に係る情報処理装置10の変形例である。特に明記する場合を除き、実施の形態3において、既出の実施の形態で用いられた符号と同じものが使われる。また、既出の実施の形態と重複する記載は、適宜、省略される。
【0032】
図3は、実施の形態3に係る情報処理装置10の機能構成を示すブロック図である。実施の形態1に係る
図1と比較してわかるように、実施の形態3に係る情報処理装置10は、実施の形態1に係る構成要素に加え、ユーザ通知部16を備える。
図3に示されるとおり、ユーザ通知部16は、配信情報生成部15の後段に配置される。
【0033】
《ユーザ通知部16》
ユーザ通知部16は、ユーザごとに指定されたそれぞれの条件(以降、「通知条件」と称されるものとする)に基づいて、位置情報特定部13が特定した位置情報がそれぞれの通知条件を満たすか否かを判断し、位置情報が通知条件を満たすと判断された場合に、通知条件に紐づけられた通知先に通知を行う、という構成要素である。なお、用語の「配信」とは、配信情報生成部15が生成する配信コンテンツを送信することを意味し、用語の「通知」とは、配信できるコンテンツが存在することを少ない情報量でお知らせすることを意味する。
本開示技術に係る情報処理装置10は、ユーザごとに関心地域を設定できる構成であってもよい。このような構成とすることで、ユーザは、設定した関心地域に関連のあるニュースについていち早く通知を受けることができる。設定が可能な関心地域の指定方法として、場所名で直接的に指定する方法と、任意の地点から所定の距離以内の領域として指定する方法と、が考えられる。
【0034】
ユーザ通知部16が用いる「通知条件」は、前述の「配信条件」と完全同一であってもよいし、部分的に同一するものであってもよい。
ユーザ通知部16は、配信コンテンツの配信に先立って、通知先への通知を行う。ユーザによっては、直接的に配信コンテンツが配信されることまでは望まず、まずは通知だけを受け取り、必要に応じて配信コンテンツを自分の意思でダウンロードしたい、という状況も考えられる。このように要望するユーザは、「通知条件」を設定するとよい。逆に、一刻も早く配信コンテンツが欲しいというユーザは、「配信条件」を設定するとよい。
【0035】
以上のとおり、実施の形態3に係る情報処理装置10は、
図3に示す構成要素を備えるため、実施の形態1に示した効果に加え、ユーザが、設定した関心地域に関連のあるニュースについていち早く通知を受けることができる、との効果を奏する。
【0036】
本開示技術に係る情報処理装置は、コンピュータに情報処理方法を実行させる情報処理プログラムとして実現してもよい。
【0037】
まず、
図4は、本開示技術に係る情報処理装置10のハードウエア構成を示すブロック図である。
図4に示されるとおり、情報処理装置10のハードウエアは、通信インタフェース100と、入出力インタフェース101と、プロセッサ102と、メモリ103と、を含む。
【0038】
そして、
図5は、本開示技術に係る情報処理方法の処理フローを示すフローチャートである。
図5に示されるとおり、本開示技術に係る情報処理方法の処理フローは、対象文書データ取得部11が実施するST11と、場所名情報取得部12が実施するST12と、位置情報特定部13が実施するST13と、再判定処理部14が実施するST14a及びST14bと、配信情報生成部15が実施するST15と、ユーザ通知部16が実施するST16a及びST16bと、を含む。
【0039】
情報処理装置10における対象文書データ取得部11、場所名情報取得部12、位置情報特定部13、再判定処理部14、配信情報生成部15、及びユーザ通知部16の各機能は、処理回路により実現される。すなわち、情報処理装置10は、対象文書データ取得部11のST11、場所名情報取得部12のST12、位置情報特定部13のST13、再判定処理部14のST14a及びST14b、配信情報生成部15のST15、ユーザ通知部16のST16a及びST16b、を実施するための処理回路を備える。処理回路は、メモリ103に格納される情報処理プログラムを実行するプロセッサ102(CPU、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、DSP、とも称される)である。
【0040】
対象文書データ取得部11、場所名情報取得部12、位置情報特定部13、再判定処理部14、配信情報生成部15、及びユーザ通知部16の各機能は、ソフトウエア、ファームウエア、又はソフトウエアとファームウエアとの組合せにより実現される。ソフトウエア及びファームウエアはプログラムとして記述され、メモリ103に格納される。プロセッサ102は、メモリ103に記憶されたプログラムを読み出して実行することにより、各部の機能を実現する。すなわち、情報処理装置10は、プロセッサ102により実行されるときに、対象文書データ取得部11のST11、場所名情報取得部12のST12、位置情報特定部13のST13、再判定処理部14のST14a及びST14b、配信情報生成部15のST15、ユーザ通知部16のST16a及びST16b、が結果的に実行されることになるプログラムを格納するためのメモリ103を備える。また、これらのプログラムは、対象文書データ取得部11、場所名情報取得部12、位置情報特定部13、再判定処理部14、配信情報生成部15、及びユーザ通知部16の手順又は方法をコンピュータに実行させるものである、とも言える。ここでメモリ103は、例えば、RAM、ROM、フラッシュメモリ、EPROM、等の不揮発性又は揮発性の半導体メモリであってもよい。また、メモリ103は、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD等のディスクを備える態様であってもよい。さらに、メモリ103は、HDD、又はSSDの態様であってもよい。
図5に示されるとおり、本開示技術に係る情報処理プログラムにより実現される処理ステップは、まず、対象文書データ取得部11による対象文書データ取得(ST11)から始まる。その後、場所名情報取得部12による場所名情報取得(ST12)が実施される。その後、位置情報特定部13による位置情報特定(ST13)が実施される。その後、再判定処理部14によって、特定された位置情報が複数存在しているかどうかが判定される(ST14a)。特定された位置情報が複数存在している場合、再判定処理部14によって、再判定処理(ST14b)が実施される。その後、配信情報生成部15によって配信情報(配信コンテンツ)が生成される(ST15)。その後、ユーザ通知部16によって、生成された配信情報(配信コンテンツ)に対して、どのユーザに通知をすべきか、ユーザごとに通知条件を満たすか否かが判断される(ST16a)。通知条件を満たすユーザに対してユーザ通知部16は、配信情報(配信コンテンツ)が存在する旨の通知を行う。
【0041】
以上のように、本開示技術に係る情報処理方法及び情報処理プログラムは、事象が発生した場所を「場所名」として特定するだけではなく、その場所の「位置情報」を付加情報として提供するグローバル版ニュースクリッピングサービスを実現することができる。
【0042】
本開示技術に係る情報処理装置は、分析対象とする対象文書データを取得する対象文書データ取得部と、大規模言語モデルを用い、対象文書データが示す事象が発生した場所の場所名情報を取得する場所名情報取得部と、地名位置情報データベースを用いて、場所名情報と紐づく位置情報を特定する位置情報特定部と、対象文書データと、位置情報特定部が特定した位置情報と、を対応づけした配信コンテンツを生成する配信情報生成部と、を含む、というものである。
このような構成を備えるため、本開示技術に係る情報処理装置は、事象が発生した場所を「場所名」として特定するだけではなく、その場所の「位置情報」を付加情報として提供することができる。
【0043】
本開示技術に係る情報処理装置の一つの態様は、対象文書データ取得部が対象文書データが記載された言語の種類に依らず対象文書データを取得し、場所名情報取得部が複数の種類の言語を扱う大規模言語モデルを用い、配信情報生成部が予め指定された言語の種類で配信コンテンツを生成してもよい。
このような技術的特徴を有するため、本開示技術に係る情報処理装置は、多言語のニュースに対応できる。
【0044】
本開示技術に係る情報処理装置の別の態様は、位置情報特定部が用いる地名位置情報データベースにおいてデータが階層化されていてもよい。
このような技術的特徴を有するため、本開示技術に係る情報処理装置は、適した階層の地名に対する位置情報を提供することができる。
【0045】
本開示技術に係る情報処理装置の別の態様は、位置情報特定部が、地名位置情報データベースから得られるデータのうち、予め指定された階層のデータを選定して、場所名情報と紐づく位置情報を特定してもよい。
このような技術的特徴を有するため、本開示技術に係る情報処理装置は、予め指定された階層の地名に対する位置情報を提供することができる。
【0046】
本開示技術に係る情報処理装置の別の態様は、位置情報特定部が選定したデータが複数存在する場合、大規模言語モデルを用いて1つのデータを選択する再判定処理部を備えてもよい。
このような技術的特徴を有するため、本開示技術に係る情報処理装置は、ニュースと関連すると推定された位置情報候補が複数存在する場合であっても、ニュースと関連する確かな位置情報を提供することができる。
【0047】
本開示技術に係る情報処理装置の別の態様は、ユーザごとに設定されたそれぞれの条件に基づいて、位置情報特定部が特定した位置情報がそれぞれの条件を満たすか否かを判断し、位置情報が条件を満たすと判断された場合に、条件に紐づけられた通知先に通知を行うユーザ通知部を備えてもよい。
このような技術的特徴を有するため、本開示技術に係る情報処理装置は、ユーザごとに、そのユーザが関心あるニュースの配信コンテンツがある旨を、事前に通知することができる。
【0048】
本開示技術に係る情報処理装置の別の態様は、ユーザ通知部が、ユーザごとに設定が可能な関心地域の指定方法として、場所名で直接的に指定する方法と、任意の地点から所定の距離以内の領域として指定する方法と、を含んでもよい。
このような技術的特徴を有するため、本開示技術に係る情報処理装置を用いるユーザが、関心のある或る地点と、その或る地点を中心とした半径距離とを、自由に指定することができる。
【0049】
本開示技術に係る情報処理方法は、対象文書データ取得部が分析対象とする対象文書データを取得し、場所名情報取得部が大規模言語モデルを用い対象文書データが示す事象が発生した場所の場所名情報を取得し、位置情報特定部が地名位置情報データベースを用いて場所名情報と紐づく位置情報を特定し、配信情報生成部が対象文書データと前記位置情報特定部が特定した位置情報とを対応づけした配信コンテンツを生成してもよい。
このような方法のステップを備えるため、本開示技術に係る情報処理方法は、事象が発生した場所を「場所名」として特定するだけではなく、その場所の「位置情報」を付加情報として提供することができる。
【0050】
本開示技術に係る情報処理プログラムは、上記の情報処理方法をコンピュータに実行させるプログラムであってもよい。
上記の手順を実行するため、本開示技術に係る情報処理プログラムは、事象が発生した場所を「場所名」として特定するだけではなく、その場所の「位置情報」を付加情報として提供することができる。
【産業上の利用可能性】
【0051】
本開示技術は、例えば、グローバル版のニュースクリッピングサービスに適用することができ、産業上の利用可能性を有する。
【符号の説明】
【0052】
10 情報処理装置、11 対象文書データ取得部、12 場所名情報取得部、13 位置情報特定部、14 再判定処理部、15 配信情報生成部、16 ユーザ通知部、100 通信インタフェース、101 入出力インタフェース、102 プロセッサ、103 メモリ、LLM 大規模言語モデル、PDB 地名位置情報データベース。
【要約】
【課題】ニュースクリッピングサービスの技術分野において、事象が発生した場所を「場所名」として特定するだけではなく、その場所の「位置情報」を付加情報として提供することが求められている。
【解決手段】本開示技術に係る情報処理装置は、分析対象とする対象文書データを取得する対象文書データ取得部(11)と、大規模言語モデル(LLM)を用い、対象文書データが示す事象が発生した場所の場所名情報を取得する場所名情報取得部(12)と、地名位置情報データベース(PDB)を用いて、場所名情報と紐づく位置情報を特定する位置情報特定部(13)と、対象文書データと、位置情報特定部(13)が特定した位置情報と、を対応づけした配信コンテンツを生成する配信情報生成部(15)と、を含む。
【選択図】
図1