(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024122837
(43)【公開日】2024-09-09
(54)【発明の名称】情報処理装置、プログラムおよび情報処理方法
(51)【国際特許分類】
G06F 40/58 20200101AFI20240902BHJP
G06F 40/279 20200101ALI20240902BHJP
G06Q 10/0635 20230101ALI20240902BHJP
【FI】
G06F40/58
G06F40/279
G06Q10/0635
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2023138483
(22)【出願日】2023-08-29
(62)【分割の表示】P 2023029022の分割
【原出願日】2023-02-28
(71)【出願人】
【識別番号】514323246
【氏名又は名称】株式会社JX通信社
(74)【代理人】
【識別番号】110003166
【氏名又は名称】弁理士法人山王内外特許事務所
(72)【発明者】
【氏名】黄 勇太
【テーマコード(参考)】
5L010
5L049
【Fターム(参考)】
5L010AA06
5L049AA06
(57)【要約】
【課題】 収集した情報を他言語に翻訳して配信するに当たり、翻訳負荷を抑制しつつ不要な情報の配信を抑制できる、情報処理装置、プログラムおよび情報処理方法を提供する。
【解決手段】 情報処理装置(2)は、複数の文書データを含む文書データ群から、分析対象とする対象文書データを取得する対象文書データ取得部(221)と、対象文書データの内容に基づき内容が示す事象によるリスクの有無を判定する判定部(222)と、リスク有りと判定された場合、対象文書データの内容を、対象文書データが記述された言語とは異なる特定の言語に翻訳して翻訳文を生成する翻訳部(223)と、翻訳文に基づいて配信情報を生成する配信情報生成部(224)と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
複数の文書データを含む文書データ群から、分析対象とする対象文書データを取得する対象文書データ取得部と、
前記対象文書データの内容に基づき前記内容が示す事象によるリスクの有無を判定する判定部と、
リスク有りと判定された場合、前記対象文書データの前記内容を、前記内容が記述された言語とは異なる特定の言語に翻訳して翻訳文を生成する翻訳部と、
前記翻訳文に基づいて配信情報を生成する配信情報生成部と、を備えた
ことを特徴とする情報処理装置。
【請求項2】
前記対象文書データ取得部は、それぞれが互いに異なる言語で記述された複数の文書の前記文書データを含む前記文書データ群から前記対象文書データを取得し、
前記判定部は、前記対象文書データの前記内容がいずれの前記言語で記述されるかにかかわらず、単一の学習済みモデルに前記対象文書データを入力することによって、前記リスクの有無を判定するものであり、
前記学習済みモデルは、前記対象文書データが入力されると、前記対象文書データの前記内容を前記言語の違いに依存しない特徴量に変換し、前記特徴量に基づいて前記リスクの有無を判定するものである
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記判定部は、前記リスクの有無の判定に加え、前記対象文書データの前記内容に基づき、前記内容が示す事象の種類を判定する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記判定部は、前記内容が示す事象の種類ごとに、前記リスクの有無を判定する
ことを特徴とする請求項3に記載の情報処理装置。
【請求項5】
前記判定部は、前記内容が示す事象の種類ごとに、前記リスクを数値として算出し、算出された前記数値と閾値との比較に基づいて、前記リスクの有無を判定する
ことを特徴とする請求項4に記載の情報処理装置。
【請求項6】
さらに、単一の言語で記述された学習データを用いてモデルを学習させることにより、前記学習済みモデルを生成する学習部、を備えた
ことを特徴とする請求項2に記載の情報処理装置。
【請求項7】
前記配信情報生成部は、前記内容に含まれる、場所名、人名または組織名を判別し、前記配信情報に、判別された場所名、人名または組織名についての詳細情報を付加する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項8】
前記配信情報生成部は、前記対象文書データ、前記翻訳文を示す翻訳文データ、または、前記対象文書データおよび前記翻訳文データの両方に基づき、前記場所名、前記人名または前記組織名を判別する
ことを特徴とする請求項7に記載の情報処理装置。
【請求項9】
さらに、前記翻訳文を読みやすい文章である平易文に変換する変換部を備え、
前記配信情報生成部は、前記平易文に基づいて前記配信情報を生成する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項10】
コンピュータを、請求項1から請求項9のいずれか1項に記載の情報処理装置として機能させるためのプログラム。
【請求項11】
情報処理装置が実行する情報処理方法であって、
対象文書データ取得部が、複数の文書データを含む文書データ群から、分析対象とする対象文書データを取得するステップと、
判定部が、前記対象文書データの内容に基づき前記内容が示す事象によるリスクの有無を判定するステップと、
翻訳部が、リスク有りと判定された場合、前記対象文書データの前記内容を、前記対象文書データが記述された言語とは異なる特定の言語に翻訳して翻訳文を生成するステップと、
配信情報生成部が、前記翻訳文に基づいて配信情報を生成するステップと、を備えた
ことを特徴とする情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、プログラムおよび情報処理方法に関する。
【背景技術】
【0002】
事業活動または社会活動等の各種活動を行う組織または個人にとって、世の中で発生する種々の事象のうち、自己の活動へ影響を与える事象の発生を知ることは有用である。
例えば、特許文献1では、評価対象企業と協力会社との間に形成されたサプライチェーンを管理するための技術が提案されている。この技術は、ポータルサイト、報道機関サイト、ソーシャルネットワーキングサービス(以下「SNS」という。)などの様々なWebページからテキストデータを収集して企業別に分類し、その際、評価対象企業および評価対象会社と関連された協力会社に関連するテキストデータを分析して評価対象企業のリスクスコアを算出し、リスクスコアのバーグラフおよびトラッキンググラフを表示するものである。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
事象の発生に関する情報は、その情報を必要とする可能性がある者にとって利便性の高い言語(例えば母国語等)ではない言語で記述されていることがある。そこで、ある言語で記述され収集された情報を他言語に翻訳して配信するサービスを提供することが考えられる。しかし、収集した情報を全て他言語に翻訳して配信する場合、翻訳の負荷が大きく、また、サービスの利用者にとって不要な情報も含まれ得るとの課題がある。また、上記サービスの提供の際には、例えば、ある言語で記述され収集された情報または複数の互いに異なる言語で記述され収集された情報に基づく、配信情報の生成過程においては、機械学習済みモデル(以下単に「学習済みモデル」ともいう。)を利用した各種処理を適用することもあり得るが、モデルの学習または学習済みモデルによる推論の実施においては困難が伴い得る。従来の技術は、上記課題が考慮されたものではなく、上記課題に対応できるものではない。
【0005】
本開示は上記課題を解決するものであり、収集した情報を他言語に翻訳して配信するに当たり、翻訳負荷を抑制しつつ不要な情報の配信を抑制できる、情報処理装置、プログラムおよび情報処理方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本開示に係る情報処理装置は、複数の文書データを含む文書データ群から、分析対象とする対象文書データを取得する対象文書データ取得部と、対象文書データの内容に基づき内容が示す事象によるリスクの有無を判定する判定部と、リスク有りと判定された場合、対象文書データの前記内容を、対象文書データが記述された言語とは異なる特定の言語に翻訳して翻訳文を生成する翻訳部と、翻訳文に基づいて配信情報を生成する配信情報生成部と、を備える。
【発明の効果】
【0007】
本開示に係る情報処理装置は、収集した情報を他言語に翻訳して配信するに当たり、翻訳負荷を抑制しつつ不要な情報の提供を抑制できる。
【図面の簡単な説明】
【0008】
【
図1】実施の形態1に係る情報処理システムの構成を示すブロック図である。
【
図2】実施の形態1に係る情報処理装置の機能を実現するハードウェア構成を示すブロック図である。
【
図3】実施の形態1に係る情報処理方法を示すフローチャートである。
【発明を実施するための形態】
【0009】
実施の形態1.
図1は、実施の形態1に係る情報処理システム1の構成を示すブロック図である。情報処理システム1は、情報処理装置2、ユーザ端末3、Webサーバ4、および、SNSサーバ5が、ネットワーク6を介して接続されたシステムである。ネットワーク6は、インターネット等を含む電気通信回線である。情報処理システム1は、収集した情報を他言語に翻訳して配信するサービス(以下「情報配信サービス」という。)に利用される。
【0010】
(情報処理装置の概要)
情報処理装置2は、複数の文書データを含む文書データ群から、分析対象とする対象文書データを取得し、対象文書データの内容に基づき内容が示す事象によるリスクの有無を判定し、リスク有りと判定された場合、対象文書データの前記内容を、対象文書データが記述された言語とは異なる特定の言語に翻訳して翻訳文を生成し、翻訳文に基づいて配信情報を生成する。
【0011】
情報処理装置2は、情報配信サービスをサービスの利用者(以下単に「利用者」という。)に提供するサーバである。情報処理装置2の機能については、その全部が、物理的に1台のサーバによって実現されていてもよいし、複数台のサーバによって実現されていてもよい。
または、情報処理装置2の機能は、ユーザ端末3に備えられていてもよい。その場合、情報処理システム1は、独立した情報処理装置2を有していなくてもよい。
以下、情報処理装置2の機能は、ユーザ端末3には備えられておらず、情報処理装置2は、ユーザ端末3とは異なる1台のサーバであるとする。
情報処理装置2の詳細については後述する。
【0012】
(ユーザ端末)
ユーザ端末3は、利用者により使用される端末であって、利用者が配信された情報を閲覧できるように、配信された情報を表示装置に表示できる端末であれば、どのような形態の端末であってもよい。ユーザ端末3は、外部装置として表示装置を有していてもよいし、表示装置が一体化されたものであってもよい。ユーザ端末3は、ネットワーク6を介して、少なくとも情報処理装置2と通信可能な端末装置であり、例えば、スマートフォン、タブレット端末またはPC(Personal Computer)である。
【0013】
ユーザ端末3には、情報配信サービスを利用するための専用アプリ(以下「サービス専用アプリ」という。)がインストールされていてもよいし、いわゆるSaaS(Software as a Service)の形態で情報通知サービスが提供されてもよい。情報通知サービスがSaaSの形態で提供される場合には、情報通知サービスを提供するサービス用アプリケーションは、情報処理装置2により実行されるので、ユーザ端末3には、サービス専用アプリがインストールされることなく、Webブラウザ上で情報通知サービスが提供される。
【0014】
図1には、ユーザ端末3が1台のみ示されているが、情報処理システム1には、複数台のユーザ端末3が存在していてもよい。
【0015】
(Webサーバ、SNSサーバ)
Webサーバ4は、ネットワーク6を介して、Webサイトを提供するサーバである。Webサイトには、例えば、報道機関がニュースを掲載するニュースサイトがある。
SNSサーバ5は、SNSを提供するサーバである。SNSには、例えば、Twitter(登録商標)、Instagram(登録商標)、TikTok(登録商標)、YouTube(登録商標)、Facebook(登録商標)、LINE(登録商標)、LINE WORKS(登録商標)、または、LoGoチャット(登録商標)等がある。また、SNSは、社内でのみ使用される社内SNSであってもよい。また、SNSは、GIS(Geographic Information System)ソフトを利用した投稿であってもよい。
【0016】
Webサーバ4またはSNSサーバ5は、組織または個人が作成した複数の文書データを含む文書データ群を提供するサーバとして利用され得る。なお、これらのサーバから得られる文書データは、例えば、特定のアカウントを利用した場合にのみ得られる文書データ等の、一般には公開されていない文書データであってもよい。
また、組織または個人が作成した文書データには、組織または個人が自発的に作成してWebサーバ4またはSNSサーバにアップした文書データ以外に、組織または個人に送信されたアンケートに対して当該組織または個人が回答した結果としての文書データが含まれてもよい。この場合、アンケートに対する回答結果の文書データを提供するサーバ(不図示)も、組織または個人が作成した複数の文書データを含む文書データ群を提供するサーバとして利用され得る。
【0017】
図1には、Webサーバ4およびSNSサーバ5が、各1台のみ示されているが、情報処理システム1には、それぞれ複数台のWebサーバ4およびSNSサーバ5が存在していてもよい。
以下、対象文書データを取得するために利用される、複数の文書データを含む文書データ群を提供するこれらのサーバを総称して「各種サーバ」という。
【0018】
(情報処理装置の詳細)
以下、情報処理装置2の詳細について説明する。
図1に示すように、情報処理装置2は、通信部21、演算部22および記憶部23を備える。
通信部21は、ネットワーク6を介して、ユーザ端末3または各種サーバと通信を行う。例えば、通信部21は、LTE、3G、4Gまたは5G等の通信方式によるモバイル通信が可能な通信装置であり、ネットワーク6に接続されたユーザ端末3または各種サーバといった他の機器と通信可能である。また、通信部21は、Bluetooth(登録商標)等の近距離無線通信手段を備えていてもよい。
【0019】
演算部22は、情報処理装置2の全体動作を制御する。演算部22は、対象文書データ取得部221、判定部222、翻訳部223、配信情報生成部224、学習部225および変換部226を備える。演算部22が、情報配信サービスを提供するための情報処理アプリケーションを実行することで、演算部22により、対象文書データ取得部221、判定部222、翻訳部223、配信情報生成部224、学習部225および変換部226の各種の機能が実現される。
【0020】
記憶部23は、情報処理アプリケーションと、演算部22の演算処理に用いられる情報を記憶する。記憶部23は、情報処理装置2として機能するコンピュータが備える記憶装置であり、HDD(Hard Disk Drive)もしくはSSD(Solid State Drive)等のストレージ、または、
図2のメモリ103等を含むものである。なお、記憶部23は、情報処理装置2がアクセス可能なものであればよく、情報処理装置2の外部に設けられていてもよい。
【0021】
演算部22が情報処理アプリケーションを実行することにより、対象文書データ取得部221、判定部222、翻訳部223、配信情報生成部224、学習部225および変換部226の各機能が実現される。
【0022】
図2は、情報処理装置2の機能を実現するハードウェア構成を示すブロック図である。例えば、情報処理装置2は、ハードウェア構成として、通信インタフェース100、入出力インタフェース101、プロセッサ102およびメモリ103を有する。情報処理装置2が備える、対象文書データ取得部221、判定部222、翻訳部223、配信情報生成部224、学習部225および変換部226の各機能は、これらのハードウェア構成において、情報処理アプリケーションが実行されることにより実現される。
【0023】
通信インタフェース100は、ネットワーク6を介してユーザ端末3および各種サーバ等から受信されたデータをプロセッサ102へ出力し、プロセッサ102が生成したデータを、ネットワーク6を介してユーザ端末3へ送信する。プロセッサ102は、入出力インタフェース101を介して記憶部23に対しデータを読み書きする。
【0024】
情報処理装置2が備える、対象文書データ取得部221、判定部222、翻訳部223、配信情報生成部224、学習部225および変換部226の各機能を実現するための情報処理アプリケーションを構成するプログラムは、記憶部23に記憶されている。
プロセッサ102は、入出力インタフェース101を介して記憶部23に記憶されたプログラムを読み出してメモリ103にロードし、メモリ103にロードされたプログラムを実行する。これにより、プロセッサ102は、対象文書データ取得部221、判定部222、翻訳部223、配信情報生成部224、学習部225および変換部226の各機能を実現する。メモリ103は、例えば、RAM(Random Access Memory)である。
【0025】
対象文書データ取得部221は、複数の文書データを含む文書データ群から、分析対象とする対象文書データを取得する。
ここでは、文書データ群に含まれる複数の文書データは、いずれも1種類の言語(例えば、英語。以下「原文言語」という。)で記述された文書を示すものであり、情報配信サービスは、文書データにより示される文書が記述された言語とは異なる言語(例えば、日本語。以下「翻訳先言語」という。)で記述された配信情報を配信するものとする。ここで、「原文言語で記述された文書」とは、その文書が記述された主たる言語が「原文言語」であるものという意味であり、また、「翻訳先言語で記述された文書」とは、その文書が記述された主たる言語が「翻訳先言語」であるものという意味であって、各文書は、部分的には、それぞれの言語からみて他の言語で記述されたものであってよい。
以下、文書データが示す文書のことを「文書データの内容」または単に「内容」ということもある。
【0026】
対象文書データ取得部221は、各種サーバ(Webサーバ4またはSNSサーバ5等)における文書データ群から対象文書データを取得する。対象文書データ取得部221は、例えば、予め定められた時間間隔ごとに、各種サーバにアクセスし、各種サーバが管理する文書データ群に含まれる文書データのうち、過去に取得していない文書データを対象文書データとして取得する取得処理を行う。
対象文書データ取得部221が取得処理を行う時間間隔は、任意に設定可能である。対象文書データ取得部221が取得処理を行う時間間隔は、例えば、1分間隔である。また対象文書データ取得部221は、SNSサーバ5から対象文書データを取得する場合、メディア関連のSNSアカウント等の特定のアカウントから対象文書データを取得してもよい。
【0027】
対象文書データ取得部221は、対象文書データを取得すると、取得した対象文書データを判定部222に出力する。
対象文書データ取得部221は、各種サーバから、1つずつ対象文書データを取得するたびに、判定部222に出力してもよいし、各種サーバから、一旦、複数の対象文書データを取得して、例えば記憶部23に記憶させておき、記憶された複数の対象文書データから判定部222に出力する対象文書データを1つずつ抽出して、判定部222に出力してもよい。
【0028】
判定部222は、対象文書データの内容に基づき当該内容が示す事象によるリスクの有無を判定(以下「リスク判定」という。)する。
判定部222は、対象文書データ取得部221から対象文書データを取得すると、リスク判定を行う。判定部222による、リスク判定の手法としては、種々手法が採用され得る。
【0029】
判定部222は、例えば、対象文書データの内容に原文言語における所定のキーワードが含まれているか否かによってリスクの有無を判定することができる。所定のキーワードは、リスクを伴う事象と考えられる事象を示す単語等であり、予め記憶部23に記憶されている。
または、判定部222は、リスク判定用の機械学習済みモデル(以下「リスク判定モデル」という。)を利用してリスクの有無を判定してもよい。リスク判定モデルは、例えば、種々の事象の発生を示す原文言語で記述された文書の文書データと、その文書が示す内容のリスクの有無(リスク有りならフラグ「1」、リスク無しならフラグ「0」等)とをセットにした、教師あり学習用の学習データに基づき、モデルに学習を行わせることにより得られる。
【0030】
判定部222が対象文書データをリスク判定モデルに入力すると、例えば、リスク判定モデルは、0以上1以下の範囲内の数値を出力する。判定部222は、出力された数値が閾値以上であれば、リスク有りと判定して、対象文書データに、例えばフラグ「1」を付与し、数値が閾値未満であればリスク無しと判定して、対象文書データに、例えばフラグ「0」を付与する。
【0031】
判定部222は、リスク判定の結果を対象文書データとともに翻訳部223に出力する。判定部222は、リスク判定の結果がリスク有りを示す場合にのみ、対象文書データを翻訳部223に出力し、リスク判定の結果がリスク無しを示す場合は、翻訳部223に対象文書データを出力することなく、次の対象文書データの判定に移行してもよい。
【0032】
翻訳部223は、リスク有りと判定された場合、対象文書データの内容を、対象文書データが記述された言語とは異なる特定の言語(翻訳先言語)に翻訳して翻訳文を生成する。つまり、翻訳部223は、翻訳文を示す翻訳文データを生成する。
翻訳部223は、判定部222から、リスク判定の結果と対象文書データとを取得し、リスク判定の結果がリスク有りを示していた場合、取得した対象文書データの内容を、翻訳先言語で内容が記述された翻訳文に翻訳する。翻訳部223は、リスク判定の結果がリスク無しを示していた場合、それ以上の処理を行わない。
【0033】
または、翻訳部223は、判定部222がリスク判定の結果がリスク有りを示す場合にのみ対象文書データを翻訳部223に出力するものである場合、判定部222から対象文書データを取得すると、取得した対象文書データの内容を、翻訳先言語で内容が記述された翻訳文に翻訳する。
翻訳部223は、既知の任意の自動翻訳技術を利用して、対象文書データの内容を、翻訳先言語に翻訳して翻訳文を生成することができる。翻訳部223は、例えば、図示しない自動翻訳サービスを提供する外部サーバ(以下「翻訳サーバ」という。)にアクセスして、対象文書データを送信し、翻訳サーバから翻訳文データを取得してもよい。翻訳部223による翻訳文の生成には、このような翻訳サーバを利用する場合も含まれる。
翻訳部223は、生成した翻訳文を示す翻訳文データを配信情報生成部224に出力する。
【0034】
配信情報生成部224は、翻訳文に基づいて配信情報を生成する。配信情報生成部224は、翻訳部223から翻訳文を取得すると、翻訳文をそのまま示す配信情報を生成してもよいし、翻訳文を加工した内容を含む配信情報を生成してもよい。
【0035】
配信情報生成部224が翻訳文を加工した内容を含む配信情報を生成する場合、配信情報生成部224は、例えば、対象文書データの内容に含まれる、場所名、人名または組織名を判別し、配信情報に、判別された場所名、人名または組織名についての詳細情報を付加する。
その際、配信情報生成部224は、対象文書データ、翻訳文を示す翻訳文データ、または、対象文書データおよび翻訳文データの両方に基づき、場所名、人名または組織名を判別する。
なお、場所名には、国名、都市名、施設の固有名称、施設の一般名称なども含まれる。また、人名には、一般人の氏名、芸能人の芸名なども含まれる。また、組織には、組織の正式な固有名称の他、その略称、組織の一般名称なども含まれる。
【0036】
配信情報生成部224による、対象文書データの内容に含まれる、場所名、人名または組織名の判別は、例えば、場所名等判別用の機械学習済みモデル(以下「場所名等判別モデル」という。)を利用して行われる。
場所名等判別モデルは、例えば、文書の文書データと、その文書に含まれる場所名等のタグとをセットにした、教師あり学習用の学習データに基づき、モデルに学習を行わせることにより得られる。場所名等のタグは、文書に含まれる名詞のうち、場所名について場所名であることを示すためのタグ(例えば「場所」)、人名について人名であることを示すためのタグ(例えば「人」)、そして、組織名について組織名であることを示すためのタグ(例えば「組織」)である。
【0037】
学習データを構成する文書は、例えば、原文言語で記述されたものである。この場合、配信情報生成部224は、対象文書データを場所名等判別モデルに入力し、場所名等判別モデルからの出力として、判別された場所名、人名または組織名を取得する。
また、学習データを構成する文書は、翻訳先言語で記述されたものであってもよい。この場合、配信情報生成部224は、翻訳文データを場所名等判別モデルに入力し、場所名等判別モデルからの出力として、判別された場所名、人名または組織名を取得する。
【0038】
または、配信情報生成部224は、対象文書データと翻訳文データの両方を使用して、場所名、人名または組織名を判別してもよい。この場合、配信情報生成部224は、対象文書データと翻訳文データを、それぞれの対応する場所名等判別モデルに入力して、それぞれの場所名等判別モデルからの出力として、判別された場所名、人名または組織名を取得するものであってもよいし、対象文書データと翻訳文データのそれぞれを、後述の多言語リスク判定モデルと同様な手法で学習した、多言語対応の単一の場所名等判別モデルに入力して、その単一の場所名等判別モデルからの出力として、判別された場所名、人名または組織名を取得するものであってもよい。
【0039】
配信情報生成部224は、場所名、人名または組織名を判別すると、判別された場所名、人名または組織名についての詳細情報が付加された配信情報を生成する。例えば、記憶部23には、複数の固有の場所名に紐づけて、それらの場所についての詳細情報(これを「場所名についての詳細情報」という。)が紐づけられて記憶されており、同様に、複数の固有の人名に紐づけて、それらの人についての詳細情報(これを「人名についての詳細情報」という。)が、また、複数の固有の組織名に紐づけて、それらの組織の詳細情報(これを「組織名についての詳細情報」という。)が、それぞれ記憶されている。
配信情報生成部224は、判別された場所名、人名または組織名に基づいて、記憶部23から、それぞれの詳細情報を取得して、それらの詳細情報が付加された配信情報を生成する。
【0040】
または、上記の場所名等判別モデルは、例えば、文書の文書データと、その文書に含まれる場所名等についての詳細情報のデータとをセットにした、教師あり学習用の学習データに基づき、モデルに学習を行わせることにより得られるものであってもよい。この場合、配信情報生成部224は、対象文書データまたは翻訳文データを、場所名等判別モデルに入力して、場所名等判別モデルからの出力として、判別された場所名、人名または組織名についての詳細情報を取得できる。配信情報生成部224は、場所名等判別モデルからの出力として、詳細情報に加えて、場所名、人名または組織名自体を取得できるものであってもよい。
【0041】
また、配信情報生成部224が翻訳文を加工した内容を含む配信情報を生成する場合、情報処理装置2は、配信情報生成部224を補助する機能部として、変換部226を備えてもよい。変換部226は、翻訳文を読みやすい文章である平易文に変換するものである。そして、配信情報生成部224は、変換部226から取得した平易文に基づいて配信情報を生成する。
変換部226による、翻訳文から平易文への変換は、例えば、平易文への変換用の機械学習済みモデル(以下「平易文変換モデル」という。)を利用して行われる。
【0042】
平易文変換モデルは、例えば、実存する文書に意図的にノイズとしての表現を混ぜた文書データと、その文書の実存するタイトルまたは要約文とをセットにした、教師あり学習用の学習データに基づき、モデルに学習を行わせることにより得られる。モデルは、例えば、翻訳先言語で記述された文書の文書データによって事前学習された、T5(Text-to-Text Transfer Transformer)モデルである。モデルは、上述の学習データに基づいて学習を行うことで、ノイズのある文書、つまり、読みにくい文書が入力されると、不要な情報の省略されたまたは表現に使用される語句等が修正された、読みやすい文書を出力することができるものとなる。
【0043】
配信情報生成部224が翻訳文を加工した内容を含む配信情報を生成する場合、翻訳部223は、生成した翻訳文を示す翻訳文データを変換部226に出力する。
変換部226は、翻訳文データを取得すると、取得した翻訳文データを平易文変換モデルに入力し、平易文変換モデルからの出力として、平易文を取得する。取得される平易文は、翻訳文の内容を示すタイトルと翻訳文の内容を要約した短文とを含むものであってもよい。
変換部226は、生成した平易文を示す平易文データを配信情報生成部224に出力する。そして、配信情報生成部224は、変換部226から取得した平易文データに基づいて配信情報を生成する。
【0044】
配信情報生成部224が翻訳文を加工した内容を含む配信情報を生成する場合、配信情報生成部224は、上述のように、発生した事象に関する場所、人もしくは組織の名称およびその詳細情報の付加、または、読みやすい文章である平易文の生成を行うほか、例えば、発生した事象の種類の付加、発生した事象に関する画像(静止画像または動画像)の付加、対象文書データの取得元へのリンク(例えばURL)の付加、対象文書データが示す文書の配信日時もしくは配信情報の配信日時の付加、お気に入り登録のための選択可能なマークの付加、配信情報の重要度の付加、または、関連記事へのリンクの付加等を行ってもよい。
【0045】
配信情報生成部224は、発生した事象に関する画像(静止画像または動画像)を対象文書データの取得元の各種サーバから取得できる。例えば、発生した事象に関する画像は、対象文書データがWebサイトの記事から取得されたものであれば、当該記事に付加されていた画像であり、対象文書データがSNSの投稿から取得されたものであれば、当該投稿に付加されていた画像である。
また、配信情報生成部224は、対象文書データが示す文書の配信日時も同様に取得元の各種サーバから取得できる。
また、配信情報生成部224は、対象文書データがWebサイトの記事から取得されたものであれば、その記事に付加されていた関連記事へのリンクを取得することができる。配信情報生成部224は、当該関連記事が、既に情報処理装置2から配信済の配信情報であれば、その配信情報へのリンクを関連記事へのリンクとしてもよい。
【0046】
また、配信情報生成部224は、例えば、後述のように発生した事象の種類を判定する場合に、事象の種類を付加できるほか、事象の種類に応じた重要度を予め定めて記憶部23に記憶させておくことによって、配信情報の重要度の付加を行うことができる。
【0047】
配信情報生成部224は、配信情報を生成すると、通信部21およびネットワーク6を介して、生成した配信情報をユーザ端末3に送信する、プッシュ型情報配信を行うものであってよい。プッシュ型情報配信の態様としては、例えば、電子メールによるメール送信、SMS(Short Message Service)によるメッセージの送信、または、API(Application Programming Interface)連携を利用した、SNSへの投稿、チャットツールへの投稿、もしくは、外部システムへの配信が含まれる。
【0048】
または、情報処理装置2は、ネットワーク6を介して接続されたユーザ端末3から配信情報の送信要求を受信した場合、送信要求を行ったユーザ端末3に対し配信情報を送信する、プル型情報配信を行うものであってもよい。プル型情報配信を行う場合、情報処理装置2の配信情報生成部224は、例えば、ユーザ端末3から送信要求を受信したと判定された場合にのみ、配信情報の送信を行う。
または、配信情報生成部224は、生成した配信情報を、他の情報配信サービスの提供者が使用する不図示のサーバ等に送信するものであってもよい。その場合の情報配信の態様も、プッシュ型情報配信、または、プル型情報配信のいずれであってもよい。
【0049】
ユーザ端末3は、配信情報生成部224から配信情報を取得すると、配信情報をユーザ端末3が有する表示装置に表示する。
ユーザ端末3は、配信情報を表示装置に表示する際、配信情報を1つずつ1画面に表示してもよいし、複数の配信情報を1画面に並べてリスト形式で表示してもよい。
【0050】
ここまでは、文書データ群に含まれる複数の文書データが、いずれも1種類の原文言語で記述された文書を示すものであり、情報配信サービスは、翻訳先言語で記述された配信情報を配信するものとして説明した。
これに対し、情報配信サービスは、それぞれが互いに異なる言語で記述された複数の文書の文書データを含む文書データ群から取得される対象文書データに基づいて、翻訳先言語で記述された配信情報を配信するもの(以下「多言語情報翻訳配信サービス」という。)であってもよい。ここで、互いに異なる言語とは、翻訳先言語以外の言語であって、かつ、互いに異なる少なくとも2つの言語である。文書データ群に含まれる文書データが示す文書を記述する複数の言語には、これらの少なくとも2つの言語以外の言語として、翻訳先言語が含まれていてもよい。
【0051】
情報処理装置2が多言語情報翻訳配信サービスを行う場合、例えば、対象文書データ取得部221は、それぞれが互いに異なる言語で記述された複数の文書の文書データを含む文書データ群から対象文書データを取得し、判定部222は、対象文書データの内容がいずれの言語で記述されているかに応じて、異なる学習済みモデルに対象文書データを入力することでリスクの有無を判定してもよい。
【0052】
または、情報処理装置2が多言語情報翻訳配信サービスを行う場合、対象文書データ取得部221は、それぞれが互いに異なる言語で記述された複数の文書の文書データを含む文書データ群から対象文書データを取得し、判定部222は、対象文書データの内容がいずれの言語で記述されるかにかかわらず、単一の学習済みモデルに対象文書データを入力することによって、リスクの有無を判定するものであり、この学習済みモデルは、対象文書データが入力されると、その内容を言語の違いに依存しない特徴量に変換し、その特徴量に基づいてリスクの有無を判定するものであってよい。
以下、多言語情報翻訳配信サービスを行う場合の、上記単一の学習済みモデルを、「多言語リスク判定モデル」という。
【0053】
多言語リスク判定モデルは、例えば、種々の事象の発生を示す複数の言語で記述された文書の文書データと、その文書が示す内容のリスクの有無(リスク有りならフラグ「1」、リスク無しならフラグ「0」等)とをセットにした、教師あり学習用の学習データに基づき、モデルに学習を行わせることにより得られる。モデルは、例えば、いずれかの言語で記述された文書の文書データによって事前学習された、以下の参考文献1に記載されたSetFitモデルである。
【0054】
[参考文献1]
Unso Eun Seo Jo, 他5名,“SetFit: Efficient Few-Shot Learning Without Prompts”,[online],2022年9月26日,[令和5年2月16日検索],インターネット
<URL:https://huggingface.co/blog/setfit>
【0055】
または、SetFitモデルの学習は、例えば、種々の事象の発生を示す単一の言語(例えば日本語)のみで記述された文書の文書データと、その文書が示す内容のリスクの有無とをセットにした、教師あり学習用の学習データに基づき行われてもよい。
【0056】
SetFitモデルの学習においては、まず、学習データに基づく前段のモデル(ST:Sentece Transformer)のファインチューニングとしての学習が行われる。ファインチューニングにおいては、入力された文書データが示す文書をどのように埋め込み処理して、その特徴量としての文書のベクトル表現を得るかについての学習が行われる。このファインチューニングにおいて得られる特徴量は、言語の違いに依存しない特徴量となる。そして、ファインチューニング後、同じ学習データを用いて、リスク有無の分類を行うための後段のモデルの学習が行われる。
【0057】
対象文書データの内容がいずれの言語で記述されるかにかかわらず、判定部222が、対象文書データを多言語リスク判定モデルに入力すると、例えば、多言語リスク判定モデルは、0以上1以下の範囲内の数値を出力する。判定部222は、出力された数値が閾値以上であれば、リスク有りと判定して、対象文書データに、例えばフラグ「1」を付与し、数値が閾値未満であればリスク無しと判定して、対象文書データに、例えばフラグ「0」を付与する。
【0058】
以降の判定部222、翻訳部223、配信情報生成部224等による処理は、上述と同様であるため、説明は省略する。
なお、上述のとおり、配信情報生成部224は、上記多言語リスク判定モデルと同様な手法で学習した(つまり、SetFitモデルを学習させた)、多言語対応の単一の場所名等判別モデルに入力して、その単一の場所名等判別モデルからの出力として、判別された場所名、人名または組織名を取得するものであってもよい。
【0059】
判定部222は、リスクの有無の判定に加え、対象文書データの内容に基づき、内容が示す事象の種類を判定してもよい。
上述のとおり、判定部222は、例えば、対象文書データの内容に原文言語における所定のキーワードが含まれているか否かによってリスクの有無を判定することができる。所定のキーワードは、リスクを伴う事象と考えられる事象を示す単語等であり、予め記憶部23に記憶されている。判定部222は、対象文書データの内容が、上記の所定のキーワードを含む場合、その所定のキーワードに該当する事象の種類が、その内容が示す事象の種類であると判定できる。
【0060】
または、判定部222は、種々の事象の発生を示す原文言語で記述された文書の文書データと、事象の種類を示す単語等とをセットにした、教師あり学習用の学習データに基づき、学習を行わせた、リスク判定モデルを用いて、リスクの有無の判定に加え、内容が示す事象の種類を判定してもよい。この場合の事象の種類とは、文書データの内容に関して、発生している可能性がある、または、発生する可能性があると考えられる、リスクを伴う事象の種類である。事象の種類を示す単語等は、それ自体が対処文書データの内容に含まれている必要はない。
【0061】
または、判定部222は、種々の事象の発生を示す原文言語で記述された文書の文書データと、事象の種類を示す単語等とをセットにした、教師あり学習用の学習データに基づき、学習を行わせた、多言語リスク判定モデルを用いて、リスクの有無の判定に加え、内容が示す事象の種類を判定してもよい。この場合の事象の種類も、文書データの内容に関して、発生している可能性がある、または、発生する可能性があると考えられる、リスクを伴う事象の種類であって、事象の種類を示す単語等は、それ自体が対処文書データの内容に含まれている必要はない。
【0062】
事象の種類を示す単語等は、例えば、「交通トラブル」、「火災」、「停電」、「断水」、「事故」、「風水害」、「地震」、「噴火」、「感染症関連」、「ストライキ」、「事件」、「軍事的リスク」、「政変」、「デモ」、「暴動」、または、「テロ」等である。
【0063】
判定部222が、対象文書データを、上記リスク判定モデルまたは上記多言語リスク判定モデルに入力すると、例えば、当該リスク判定モデルまたは多言語リスク判定モデルは、内容が示す事象の種類ごとに、0以上1以下の範囲内の数値を算出して出力する。判定部222は、出力された数値が閾値以上であれば、その事象の種類について、リスク有りと判定して、対象文書データに、例えばフラグ「1」を付与し、数値が閾値未満であればリスク無しと判定して、対象文書データに、例えばフラグ「0」を付与する。
このように、判定部222は、内容が示す事象の種類ごとに、リスクを数値として算出し、算出された数値と閾値との比較に基づいて、リスクの有無を判定することができる。
なお、閾値は、予め記憶部23に記憶されている。また、閾値は、事象の種類ごとに設定され、記憶部23に記憶されていてもよい。
【0064】
対象文書データの内容によっては、いずれの種類の事象に対してもリスク無しと判定される場合もあれば、複数の事象の種類に対してリスク有りと判定される場合もあり得る。
判定部222は、例えば、リスク有りと判定された事象の種類が1つでもあれば、対象文書データを翻訳部223に出力し、その後、翻訳部223、配信情報生成部224等は、上述と同様な処理を行う。
【0065】
判定部222が、これらのリスク判定モデル、または、多言語リスク判定モデルを用いる場合、この判定部222は、内容が示す事象の種類を判定するだけではなく、加えて、内容が示す事象の種類ごとに、リスクの有無を判定するものといえる。
【0066】
また、情報処理装置2は、学習部225を備えてもよい。学習部225は、単一の言語で記述された学習データを用いてモデルを学習させることにより、学習済みモデル(多言語リスク判定モデル)を生成する。
この場合、情報処理装置2の学習部225は、不図示の操作部に対する操作を受けて、例えば、予め記憶部23に記憶された学習データ、不図示の可搬記憶媒体に記憶された学習データ、または、外部サーバに記憶された学習データを取得する。学習データを取得すると、学習部225は、例えば、記憶部23に記憶されたモデル(例えば、事前学習済のSetFitモデル)をさらに取得し、学習データを用いて、上述のように当該モデルを学習させる。
【0067】
図3は、実施の形態1に係る情報処理方法を示すフローチャートである。
対象文書データ取得部221が、複数の文書データを含む文書データ群から、分析対象とする対象文書データを取得する(ステップST1)。
判定部222が、対象文書データの内容に基づき内容が示す事象によるリスクの有無を判定する(ステップST2)。
ステップST2において、リスク有りと判定された場合(ステップST2;YES)、翻訳部223は、対象文書データの内容を、対象文書データが記述された言語とは異なる特定の言語に翻訳して翻訳文を生成する(ステップST3)。そして、配信情報生成部224は、翻訳文に基づいて配信情報を生成する(ステップST4)。
一方、ステップST2において、リスク無しと判定された場合(ステップST2;NO)は、
図3に示すフローが終了し、ステップST1からの一連の処理が繰り返される。
【0068】
なお、情報処理装置2は、少なくとも、対象文書データ取得部221、判定部222,翻訳部223、および、配信情報生成部224の機能を備えていればよく、学習部225、または、変換部226は、任意に付加される機能である。
【0069】
以上のように、実施の形態1に係る情報処理装置2は、複数の文書データを含む文書データ群から、分析対象とする対象文書データを取得する対象文書データ取得部221と,対象文書データの内容に基づき内容が示す事象によるリスクの有無を判定する判定部222と、リスク有りと判定された場合、対象文書データの内容を、対象文書データが記述された言語とは異なる特定の言語に翻訳して翻訳文を生成する翻訳部223と、翻訳文に基づいて配信情報を生成する配信情報生成部224と、を備えた。これにより、情報処理装置2は、取得した対象文書データのうち、その内容がリスク有りを示すものだけを翻訳して配信情報を生成するため、収集した情報(取得した対象文書データ)を他言語に翻訳して配信するに当たり、翻訳負荷を抑制しつつ不要な情報の配信を抑制できる。
【0070】
実施の形態1に係る情報処理装置2において、対象文書データ取得部221は、それぞれが互いに異なる言語で記述された複数の文書の文書データを含む文書データ群から対象文書データを取得し、判定部222は、対象文書データがいずれの言語で記述されるかにかかわらず、単一の学習済みモデル(多言語リスク判定モデル)に対象文書データを入力することによって、リスクの有無を判定するものであり、学習済みモデル(多言語リスク判定モデル)は、対象文書データが入力されると、その内容を言語の違いに依存しない特徴量に変換し、特徴量に基づいてリスクの有無を判定するものであってもよい。この場合、情報処理装置2は、様々な言語で記述された文書データを扱うことができ、かつ、単一の学習済みモデル(多言語リスク判定モデル)を利用した簡易な構成とされ得る。
【0071】
実施の形態1に係る情報処理装置2において、判定部222は、リスクの有無の判定に加え、対象文書データの内容に基づき、内容が示す事象の種類を判定してもよい。これによって、実施の形態1に係る情報処理装置2は、例えば、事象の種類を利用したリスクの判定または配信情報の生成等を行うことができる。
【0072】
実施の形態1に係る情報処理装置2において、判定部222は、対象文書データの内容が示す事象の種類ごとに、リスクの有無を判定してもよい。
これによって、実施の形態1に係る情報処理装置2は、事象の種類に応じたリスクの有無を判定でき、1つの対象文書データの内容に関し、ある1または複数の種類の事象についてはリスクがあり、その他の1または複数の種類の事象についてはリスクが無いと判定する等、より細かくリスクの判定ができる。また、実施の形態1に係る情報処理装置2は、例えば、特定の事象のリスクが有る場合に、特定のサービスの利用者に配信情報を送信する等、サービスの利用者にとってより有用な情報を配信し得る。
【0073】
実施の形態1に係る情報処理装置2において、判定部222は、対象文書データの内容が示す事象の種類ごとに、リスクを数値として算出し、算出された数値と閾値との比較に基づいて、リスクの有無を判定してもよい。
これによって、実施の形態1に係る情報処理装置2は、事象の種類に応じたリスクの有無の判定の基準を、閾値を調整することによって、変更することができる。
【0074】
実施の形態1に係る情報処理装置2は、単一の言語で記述された学習データを用いてモデルを学習させることにより、学習済みモデル(多言語リスク判定モデル)を生成する学習部225を備えていてもよい。
これによって、実施の形態1に係る情報処理装置2は、必要に応じて、モデルを学習または再学習させることができる。
【0075】
実施の形態1に係る情報処理装置2において、配信情報生成部224は、対象文書データの内容に含まれる、場所名、人名または組織名を判別し、配信情報に、判別された場所名、人名または組織名についての詳細情報を付加する。
これによって、実施の形態1に係る情報処理装置2は、サービスの利用者に対し、発生した事象に関係する、場所、人、組織についての、より詳細な情報を付加した配信情報を送信できる。
【0076】
実施の形態1に係る情報処理装置2において、配信情報生成部224は、対象文書データ、翻訳文を示す翻訳文データ、または、対象文書データおよび翻訳文データの両方に基づき、場所名、人名または組織名を判別する。
実施の形態1に係る情報処理装置2は、対象文書データが示す文書の内容から、場所名等を判別してもよいし、翻訳文の内容から、場所名等を判別してもよいし、その両方の内容から、場所名等を判別してもよい。このように、いずれの内容から場所等を判別できるようにするかについては、必要に応じた態様を選択可能である。
【0077】
実施の形態1に係る情報処理装置2は、翻訳文を読みやすい文章である平易文に変換する変換部226を備え、配信情報生成部224は、平易文に基づいて配信情報を生成してもよい。
翻訳文は、ときとして、ノイズが混じり、読みにくい文であることがある。これに対し、実施の形態1に係る情報処理装置2は、変換部226を備え、翻訳文を読みやすい平易文に変換し、配信情報生成部224が平易文に基づいて配信情報を生成することで、サービスの利用者に、より分かりやすい態様で、配信情報を送信することができる。
【0078】
実施の形態1に係るプログラムはコンピュータに実行されることにより、コンピュータを情報処理装置2として機能させる。このプログラムにより、収集した情報(取得した対象文書データ)を他言語に翻訳して配信するに当たり、翻訳負荷を抑制しつつ不要な情報の配信を抑制できる情報処理装置2を提供可能である。
【0079】
実施の形態1に係る情報処理方法は、対象文書データ取得部221が、複数の文書データを含む文書データ群から、分析対象とする対象文書データを取得するステップと、判定部222が、対象文書データの内容に基づきその内容が示す事象によるリスクの有無を判定するステップと、翻訳部223が、リスク有りと判定された場合、対象文書データの内容を、対象文書データが記述された言語とは異なる特定の言語に翻訳して翻訳文を生成するステップと、配信情報生成部224が、翻訳文に基づいて配信情報を生成するステップと、を備える。この方法を実行することにより、取得した対象文書データのうち、その内容がリスク有りを示すものだけを翻訳して配信情報を生成するため、収集した情報(取得した対象文書データ)を他言語に翻訳して配信するに当たり、翻訳負荷を抑制しつつ不要な情報の配信を抑制できる。
【符号の説明】
【0080】
1 情報処理システム、2 情報処理装置、3 ユーザ端末、4 Webサーバ、5 SNSサーバ、6 ネットワーク、21 通信部、22 演算部、23 記憶部、100 通信インタフェース、101 入出力インタフェース、102 プロセッサ、103 メモリ、221 対象文書データ取得部、222 判定部、223 翻訳部、224 配信情報生成部、225 学習部、226 変換部。