IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ダイキン工業株式会社の特許一覧 ▶ 国立大学法人 東京大学の特許一覧

特許7403782評価支援装置、評価支援方法及びプログラム
<>
  • 特許-評価支援装置、評価支援方法及びプログラム 図1
  • 特許-評価支援装置、評価支援方法及びプログラム 図2
  • 特許-評価支援装置、評価支援方法及びプログラム 図3
  • 特許-評価支援装置、評価支援方法及びプログラム 図4
  • 特許-評価支援装置、評価支援方法及びプログラム 図5
  • 特許-評価支援装置、評価支援方法及びプログラム 図6
  • 特許-評価支援装置、評価支援方法及びプログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-15
(45)【発行日】2023-12-25
(54)【発明の名称】評価支援装置、評価支援方法及びプログラム
(51)【国際特許分類】
   G06F 16/906 20190101AFI20231218BHJP
   G06Q 10/04 20230101ALI20231218BHJP
   G06Q 50/10 20120101ALI20231218BHJP
【FI】
G06F16/906
G06Q10/04
G06Q50/10
【請求項の数】 16
(21)【出願番号】P 2023082904
(22)【出願日】2023-05-19
(65)【公開番号】P2023174573
(43)【公開日】2023-12-07
【審査請求日】2023-05-19
(31)【優先権主張番号】P 2022086247
(32)【優先日】2022-05-26
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000002853
【氏名又は名称】ダイキン工業株式会社
(73)【特許権者】
【識別番号】504137912
【氏名又は名称】国立大学法人 東京大学
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】宮本 由美
(72)【発明者】
【氏名】清水 愛織
(72)【発明者】
【氏名】三浦 崇寛
(72)【発明者】
【氏名】浅谷 公威
(72)【発明者】
【氏名】坂田 一郎
【審査官】松尾 真人
(56)【参考文献】
【文献】中国特許出願公開第111651605(CN,A)
【文献】特開平11-015835(JP,A)
【文献】特開2001-092825(JP,A)
【文献】米国特許出願公開第2011/0302171(US,A1)
【文献】特開2007-153767(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06Q 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
制御部を有する評価支援装置であって、
前記制御部は、
化学物質に関する複数の文書間の引用関係、又は記載内容の関連性に基づいて前記複数の文書を分類した情報を統計処理することにより、化学物質の有害性に関わる分類の傾向を評価又は予測するための情報を出力する、
評価支援装置。
【請求項2】
前記制御部は、
化学物質の有害性に関わる性質毎に、前記複数の文書を分類した情報を統計処理することにより、
化学物質の有害性に関わる分類の傾向を評価又は予測するための情報を出力する、
請求項1に記載の評価支援装置。
【請求項3】
前記制御部は、
前記化学物質の有害性に関わる性質が記載されているか否かに基づいて前記複数の文書を分類する、
請求項2に記載の評価支援装置。
【請求項4】
前記制御部は、
前記複数の文書を分類した情報を、前記文書に記載された化学物質を識別可能な特徴情報に基づいて統計処理する、
請求項3に記載の評価支援装置。
【請求項5】
前記制御部は、
前記出力された情報から、化学物質の前記有害性に関わる分類の傾向を評価又は予測する、
請求項4に記載の評価支援装置。
【請求項6】
前記制御部は、
前記文書に記載された化学物質を識別可能な特徴情報から、前記特徴情報が類似する化学物質の前記傾向を評価又は予測する、
請求項5に記載の評価支援装置。
【請求項7】
前記化学物質の有害性に関わる性質は、前記化学物質の毒性、生物蓄積性、難分解性、地域分布性、可燃性及び温室効果のうち少なくとも一つを含む、
請求項2に記載の評価支援装置。
【請求項8】
前記化学物質の有害性に関わる性質は、前記化学物質の有害性に関わる分類への該当性を下げる情報が含まれる、
請求項2に記載の評価支援装置。
【請求項9】
前記該当性を下げる情報は、前記化学物質の処理方法及び分解方法のうち少なくとも一つを含む、
請求項8に記載の評価支援装置。
【請求項10】
前記制御部は、
互いに関連性の高い前記文書が近傍に配置される分散表現に基づいて、前記複数の文書を分類する、
請求項に記載の評価支援装置。
【請求項11】
前記制御部は、
前記複数の文書のうち一部の前記文書に、前記化学物質の有害性に関わる性質が記載されているか否かを表す文書情報を付与し、
前記文書情報に基づいて、前記化学物質の有害性に関わる性質が記載された前記文書を分類する、
請求項10に記載の評価支援装置。
【請求項12】
前記制御部は、
前記複数の文書の間の引用関係に基づいて、前記複数の文書を分類する、
請求項に記載の評価支援装置。
【請求項13】
前記文書は学術論文である、
請求項12に記載の評価支援装置。
【請求項14】
前記制御部は、
前記文書の記載内容の自然言語処理結果に基づいて、前記複数の文書を分類する、
請求項に記載の評価支援装置。
【請求項15】
評価支援装置が有する制御部が、
化学物質に関する複数の文書間の引用関係、又は記載内容の関連性に基づいて前記複数の文書を分類した情報を統計処理することにより、化学物質の有害性に関わる分類の傾向を評価又は予測するための情報を出力する手順実行する評価支援方法。
【請求項16】
評価支援装置が有する制御部に、
化学物質に関する複数の文書間の引用関係、又は記載内容の関連性に基づいて前記複数の文書を分類した情報を統計処理することにより、化学物質の有害性に関わる分類の傾向を評価又は予測するための情報を出力する手順を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、評価支援装置、評価支援方法及びプログラムに関する。

【背景技術】
【0002】
化学物質の構造的特徴に基づいて、化学物質の毒性を予測する技術がある。例えば、特許文献1には、化学物質の構造をベクトル化し、学習済みの分類器を用いて毒性予測スコアを算出する発明が開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】国際公開第2018/049376号
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、化学物質の規制は、化学物質自体の毒性の他にも社会的要因等の外部要因によって基準が変化する場合がある。そのため、化学物質の構造的特徴のみから化学物質の有害性を評価又は予測することは困難である。
【0005】
本開示は、化学物質の有害性に関わる分類の傾向を評価又は予測可能とする。
【課題を解決するための手段】
【0006】
本開示の第1の態様に係る評価支援装置は、制御部を有する評価支援装置であって、前記制御部は、複数の文書の関連性に基づいて、化学物質の有害性に関わる分類の傾向を評価又は予測するための情報を出力する。
【0007】
本開示の第1の態様によれば、化学物質の有害性に関わる分類の傾向を評価又は予測可能になる。
【0008】
本開示の第2の態様は、第1の態様に係る評価支援装置であって、前記制御部は、化学物質の性質毎に、前記複数の文書を分類した情報を統計処理することにより、化学物質の有害性に関わる分類の傾向を評価又は予測するための情報を出力する。
【0009】
本開示の第3の態様は、第2の態様に係る評価支援装置であって、前記制御部は、前記化学物質の性質が記載されているか否かに基づいて前記複数の文書を分類する。
【0010】
本開示の第4の態様は、第3の態様に係る評価支援装置であって、前記制御部は、前記文書に記載された化学物質の特徴情報に基づいて前記複数の文書を分類した情報を統計処理する。
【0011】
本開示の第5の態様は、第4の態様に係る評価支援装置であって、前記制御部は、前記出力された情報から、化学物質の前記有害性に関わる分類の傾向を評価又は予測する。
【0012】
本開示の第6の態様は、第5の態様に係る評価支援装置であって、前記制御部は、前記文書に記載された化学物質の特徴情報から、前記特徴情報が類似する化学物質の前記傾向を評価又は予測する。
【0013】
本開示の第7の態様は、第2の態様から第6の態様に係る評価支援装置であって、前記化学物質の性質は、前記化学物質の毒性、生物蓄積性、難分解性、地域分布性、可燃性及び温室効果のうち少なくとも一つを含む。
【0014】
本開示の第8の態様は、第2の態様から第6の態様に係る評価支援装置であって、前記化学物質の性質は、前記化学物質の有害性に関わる分類への該当性を下げる情報が含まれる。
【0015】
本開示の第9の態様は、第8の態様に係る評価支援装置であって、前記該当性を下げる情報は、前記化学物質の処理方法及び分解方法のうち少なくとも一つを含む。
【0016】
本開示の第10の態様は、第2の態様に係る評価支援装置であって、前記制御部は、互いに関連性の高い前記文書が近傍に配置される分散表現に基づいて、前記複数の文書を分類する。
【0017】
本開示の第11の態様は、第10の態様に係る評価支援装置であって、前記制御部は、前記複数の文書のうち一部の前記文書に、前記化学物質の性質が記載されているか否かを表す文書情報を付与し、前記文書情報に基づいて、前記化学物質の性質が記載された前記文書を分類する。
【0018】
本開示の第12の態様は、第2の態様から第11の態様に係る評価支援装置であって、前記制御部は、前記複数の文書の間の引用関係に基づいて、前記複数の文書を分類する。
【0019】
本開示の第13の態様は、第12の態様に係る評価支援装置であって、前記文書は学術論文である。
【0020】
本開示の第14の態様は、第2の態様から第13の態様に係る評価支援装置であって、前記制御部は、前記文書の記載内容の自然言語処理結果に基づいて、前記複数の文書を分類する。
【0021】
本開示の第15の態様に係る評価方法は、複数の文書の関連性に基づいて、化学物質の有害性に関わる分類の傾向を評価又は予測する工程を有する。
【0022】
本開示の第16の態様に係るプログラムは、評価支援装置が有する制御部に、複数の文書の関連性に基づいて、化学物質の有害性に関わる分類の傾向を評価又は予測するための情報を出力する手順を実行させる。
【図面の簡単な説明】
【0023】
図1】評価支援装置のシステム構成の一例を示すブロック図である。
図2】評価支援装置のハードウェア構成の一例を示すブロック図である。
図3】評価支援装置の機能構成の一例を示すブロック図である。
図4】評価支援装置の処理手順を示すフローチャートである。
図5】境界面の一例を示す概念図である。
図6】出力結果の一例を示す概念図である。
図7】出力結果の一例を示す概念図である。
【発明を実施するための形態】
【0024】
以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。
【0025】
[実施形態]
本実施形態は、化学物質の有害性に関わる分類の傾向を評価又は予測するための情報を出力する評価支援装置である。本実施形態における評価支援装置は、化学物質について収集された複数の文書の関連性に基づいて、化学物質の有害性に関わる分類毎の分類器を学習し、調査対象とする文書を分類する。また、本実施形態における評価支援装置は、化学物質の性質毎に文書を分類した情報を統計処理することにより、化学物質の有害性に関わる分類の傾向を評価又は予測するための情報を出力する。
【0026】
化学物質の有害性に関わる分類は、化学物質を人間、生物又は環境に対して与える害の性質に基づいて分類した集合である。化学物質の有害性に関わる分類の一例は、例えば、欧州REACH(Registration, Evaluation, Authorisation and Restriction of Chemicals)規則における、CMR(carcinogenic, mutagenic or toxic for reproduction)物質、PBT(Persistence, Bioaccumulation and Toxicity)物質又はvPvB(very persistent and very bioaccumulative)物質等に該当するか否かである。なお、CMR物質は、人間の健康に影響を及ぼす物質として指定されている化学物質である。PBT物質は、難分解性、生物蓄積性又は毒性を有し、環境に影響を及ぼす物質として指定されている化学物質である。vPvB物質は、極めて難分解かつ生物蓄積性が高い物質として指定されている化学物質である。
【0027】
<システム構成>
図1は、本実施形態における評価支援装置10のシステム構成の一例を示すブロック図である。図1に示されているように、評価支援装置10は、アノテーションデータ及び調査対象データを含む文書データを入力とする。評価支援装置10は、入力された各文書データを文書ベクトルに変換し、文書データの関連性に基づいて、化学物質の有害性に関わるカテゴリ毎に分類器を学習する。評価支援装置10は、入力された調査対象データをカテゴリ毎に分類し、カテゴリ毎の統計情報に基づいて、化学物質の有害性に関わる分類の傾向を評価又は予測するための情報を出力する。
【0028】
本実施形態における文書データは、化学物質に関する文書を表すデータである。文書データの一例は、化学物質に関する学術論文の内容を表す論文データである。論文データは、論文データベース等を用いて収集することができる。論文データベースは、例えば、SCOPUS(登録商標)を用いることができる。
【0029】
文書データの他の例は、化学物質に関する特許公報類である。特許公報類は各国特許庁から発行される公報を収集してもよいし、各国特許庁から発行された公報を収録したデータベースを用いてもよい。
【0030】
文書データは、文書(例えば、学術論文又は特許明細書等)の全体を表していなくともよい。文書データは、文書の一部を表すデータであってもよいし、要約を表すデータであってもよい。
【0031】
文書データには、文書に記載されている化学物質の特徴情報が付与されている。特徴情報の一例は、化学物質を識別する識別情報である。特徴情報の他の例は、化合物のフィンガープリント、若しくは官能基又は骨格に関する情報である。
【0032】
化学物質を識別する識別情報は、例えば、化合物名、IUPAC(International Union of Pure and Applied Chemistry)命名法に基づく名称、SMILES記法に基づく表記、InChI(International Chemical Identifier)Key、又は構造式等である。識別情報は、これらに限定されず、化学物質を識別可能なあらゆる情報を用いることができる。
【0033】
文書に記載される化学物質の特徴情報は、表記ゆれ等のノイズが多いことがある。表記ゆれとは、同一の物質に対して異なる特徴情報が付与されていることを表す。そのため、文書データに付与された特徴情報に対して、化学物質データベース等を用いて表記ゆれを解消するとよい。化学物質データベースの一例は、日本化学物質辞書である。
【0034】
アノテーションデータは、文書情報が付与されている文書データである。調査対象データは、文書情報が付与されていない文書データである。文書情報は、化学物質の性質が文書データに記載されているか否かを表す情報である。文書情報は、文書データを各性質に該当するか否かを二値分類した真理値であってもよい。
【0035】
文書の関連性は、文書データに記載された内容に基づく関連性である。文書の関連性は、化学物質の性質等に基づいてもよい。
【0036】
化学物質の性質の一例は、化学物質の有害性に関するカテゴリを表す情報である。化学物質の有害性に関するカテゴリは、例えば、化学物質の毒性、生物蓄積性、難分解性、地域分布性、可燃性及び温室効果のうち少なくとも一つを含む。化学物質の有害性に関するカテゴリは、これらに限定されるものではなく、他のカテゴリを含んでいてもよい。
【0037】
化学物質の性質の他の例は、環境対応技術に関するカテゴリを表す情報である。環境対応技術は、例えば、化学物質の処理方法又は分解方法等である。化学物質を適切に処理又は分解することで、化学物質の有害性が低下することが考えられる。したがって、環境対応技術に関する情報は、化学物質の有害性に関するカテゴリへの該当性を下げる情報となる。化学物質の性質は、これらに限定されるものではなく、他の性質を含んでいてもよい。
【0038】
本実施形態における統計情報は、化学物質の識別情報及び有害性に関するカテゴリに分類された文書を集計した結果である。統計情報は、文書データの件数の増加率、カテゴリ毎の割合、それらの時系列推移等であってもよい。統計情報は、さらに文書の書誌情報に基づいて集計したものであってもよい。書誌情報は、例えば、発行年、発行機関又は著者等である。統計情報は、機関や著者のネットワークの疎密に基づいて集計したものであってもよい。
【0039】
化学物質の有害性に関わる分類を評価又は予測するための情報の一例は、ある化学物質について、各カテゴリに分類された文書数の時系列推移を表す情報である。このような情報を参照することで、その化学物質の有害性について、最近議論が盛んになっているカテゴリを把握することができる。
【0040】
化学物質の有害性に関わる分類を評価又は予測するための情報の他の例は、各カテゴリに分類された文書のうち、文書数の多い化学物質の一覧を表す情報である。このような情報を参照することで、ある有害性に関するカテゴリにおいて、最近盛んに議論されている化学物質を把握することができる。
【0041】
<ハードウェア構成>
図2は、本実施形態における評価支援装置10のハードウェア構成の一例を示すブロック図である。図2に示されているように、評価支援装置10は、プロセッサ101、メモリ102、補助記憶装置103、操作装置104、表示装置105、通信装置106、ドライブ装置107を有する。なお、評価支援装置10の各ハードウェアは、バス108を介して相互に接続されている。
【0042】
プロセッサ101は、CPU(Central Processing Unit)等の各種演算デバイスを有する。プロセッサ101は、補助記憶装置103にインストールされている各種プログラムをメモリ102上に読み出して実行する。
【0043】
メモリ102は、ROM(Read Only Memory)、RAM(Random Access Memory)等の主記憶デバイスを有する。プロセッサ101とメモリ102とは、いわゆるコンピュータ(以下、「制御部」ともいう)を形成し、プロセッサ101が、メモリ102上に読み出した各種プログラムを実行することで、当該コンピュータは各種機能を実現する。
【0044】
補助記憶装置103は、各種プログラムや、各種プログラムがプロセッサ101によって実行される際に用いられる各種データを格納する。
【0045】
操作装置104は、評価支援装置10のユーザが各種操作を行うための操作デバイスである。表示装置105は、評価支援装置10により実行される各種処理の処理結果を表示する表示デバイスである。
【0046】
通信装置106は、不図示のネットワークを介して外部装置と通信を行うための通信デバイスである。
【0047】
ドライブ装置107は、記憶媒体109をセットするためのデバイスである。ここでいう記憶媒体109には、CD-ROM、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記憶する媒体が含まれる。また、記憶媒体109には、ROM、フラッシュメモリ等のように情報を電気的に記憶する半導体メモリ等が含まれていてもよい。
【0048】
なお、補助記憶装置103にインストールされる各種プログラムは、例えば、配布された記憶媒体109がドライブ装置107にセットされ、記憶媒体109に記憶された各種プログラムがドライブ装置107により読み出されることでインストールされる。あるいは、補助記憶装置103にインストールされる各種プログラムは、通信装置106を介してネットワークからダウンロードされることで、インストールされてもよい。
【0049】
<機能構成>
図3は、本実施形態における評価支援装置の機能構成の一例を示すブロック図である。図3に示されているように、本実施形態における評価支援装置10は、入力部11、変換部12、学習部13、分類器記憶部14、抽出部15及び出力部16を備える。
【0050】
分類器記憶部14は、図2に示されているメモリ102又は補助記憶装置103によって実現される。入力部11、変換部12、学習部13、抽出部15及び出力部16は、図2に示されているプロセッサ101がメモリ102上に読み出した各種のプログラムを実行することで実現される。
【0051】
入力部11は、複数の文書データの入力を受け付ける。文書データには、複数のアノテーションデータと複数の調査対象データとが含まれる。
【0052】
変換部12は、入力部11が受け付けた各文書データについて、文書ベクトルを生成する。
【0053】
学習部13は、変換部12により生成された文書ベクトルに基づいて、有害性に関するカテゴリ毎に分類器を学習する。
【0054】
分類器記憶部14には、学習部13により学習されたカテゴリ毎の分類器が記憶される。
【0055】
抽出部15は、分類器記憶部14に記憶されている分類器を用いて、入力部11が受け付けた調査対象データをカテゴリ毎に分類する。
【0056】
出力部16は、カテゴリ毎の統計情報に基づいて、化学物質の有害性を評価又は予測するための情報を出力する。
【0057】
<評価支援方法の流れ>
図4は、本実施形態における評価支援方法の流れの一例を示すフローチャートである。
【0058】
ステップS1において、入力部11は、複数の文書データの入力を受け付ける。文書データには、複数のアノテーションデータと複数の調査対象データとが含まれる。次に、入力部11は、受け付けた文書データを変換部12に送る。
【0059】
アノテーションデータの件数は、分類器を学習するために必要とされる件数以上であればよい。例えば、アノテーションデータは、各カテゴリについて100~500件程度であってもよい。調査対象データの件数は限定されないが、例えば、10000件程度であってもよい。
【0060】
ステップS2において、変換部12は、入力部11から文書データを受け取る。次に、変換部12は、各文書データについて、文書ベクトルを生成する。続いて、変換部12は、生成した複数の文書ベクトルを学習部13に送る。
【0061】
本実施形態における文書ベクトルは、引用空間上の分散表現及び文書空間上の分散表現の少なくとも一方からなる。引用空間上の分散表現は、文書データ間の引用関係に基づいて生成される。引用空間上の分散表現の一例は、LINE(Large-scale Information Network Embedding)である。LINEに関する詳細は、下記参考文献1に開示されている。
【0062】
〔参考文献1〕Tang, J., Qu, M., Wang, M., Zhang, M., Yan, J., and Mei, Q, "Line: Large-scale information network embedding," in Proceedings of the 24th international conference on world wide web, pp. 1067-1077, 2015.
【0063】
なお、LINEには、1次近接性に基づく分散表現と、2次近接性に基づく分散表現とがある。本実施形態では、1次近接性に基づく分散表現も2次近接性に基づく分散表現も用いることが可能であるが、2次近接性に基づく分散表現を用いると好適である。
【0064】
1次近接性に基づく分散表現は、ノードのペア同士がリンクしているかどうかを表す確率表現である。1次近接性に基づく分散表現は、式(1)で表される。ただし、νはノードを表し、uはνの低次元ベクトル表現である。
【0065】
【数1】
【0066】
2次近接性に基づく分散表現は、ノードのペア同士が他のノードと共通のリンクを有しているかどうかを表す確率表現である。2次近接性に基づく分散表現は、式(2)で表される。ただし、νはノードを表し、uはνの低次元ベクトル表現であり、u'は文脈を表すベクトル表現である。
【0067】
【数2】
【0068】
文書空間上の分散表現は、文書データの記載内容に基づいて生成される。文書空間上の分散表現の一例は、BERT(Bidirectional Encoder Representations from Transformers)である。BERTに関する詳細は、下記参考文献2に開示されている。
【0069】
〔参考文献2〕Beltagy, I., Lo, K., and Cohan, A., "SciBERT: A pretrained language model for scientific text," arXiv preprint, arXiv:1903.10676, 2019.
【0070】
変換部12は、引用空間上の分散表現を文書ベクトルとして生成してもよいし、文書空間上の分散表現を文書ベクトルとして生成してもよい。また、変換部12は、引用空間上の分散表現と文書空間上の分散表現をそれぞれ生成し、それらを結合したベクトルを文書ベクトルとしてもよい。
【0071】
ステップS3において、学習部13は、変換部12から各文書データに対応する複数の文書ベクトルを受け取る。次に、学習部13は、各文書ベクトルを多次元空間上に配置する。本実施形態における多次元空間は、互いに関連性が高い文書ベクトルが近傍に配置されるように構成される。このとき、アノテーションデータ及び調査対象データを含むすべての文書ベクトルが多次元空間内に配置される。
【0072】
ステップS4において、学習部13は、文書ベクトルが配置された多次元空間において、カテゴリ毎に分類器を学習する。本実施形態における分類器は、多次元空間を2つの空間に分割する境界面である。学習部13は、多次元空間に配置された文書ベクトルのうち、学習対象とするカテゴリを付与されたアノテーションデータに対応する文書ベクトルが、境界面で分割された一方の空間に集まるように、当該カテゴリの境界面を学習する。
【0073】
本実施形態における境界面は、ロジスティック回帰により学習される。ただし、境界面の学習方法は、ロジスティック回帰に限定されず、多次元空間を二値分類可能な分類器であればどのような学習方法を用いてもよい。
【0074】
本実施形態における境界面は、カテゴリ毎に学習される。例えば、化学物質の毒性、生物蓄積性、難分解性及び地域分布性を含むカテゴリを用いる場合、制御部は、毒性に関する境界面、生物蓄積性に関する境界面、難分解性に関する境界面、及び地域分布性に関する境界面をそれぞれ学習する。
【0075】
図5は、境界面の一例を示す概念図である。図5において、白丸は多次元空間におけるアノテーションデータの配置を表し、黒丸は多次元空間における調査対象データの配置を表している。図5に示されているように、境界面は、アノテーションデータが境界面で分割された一方の空間にできるだけ集まるように学習される。
【0076】
なお、カテゴリ毎の境界面は、アノテーションデータ及び調査対象データが追加されるたびに再学習する。後述するように、調査対象データに分類結果を付与することで、アノテーションデータを追加することができる。学習部13は、アノテーションデータが追加された後に境界面の再学習を行うことができる。
【0077】
ステップS5において、抽出部15は、分類器記憶部14に記憶されているカテゴリ毎の分類器(境界面)を読み出す。次に、抽出部15は、カテゴリ毎の境界面を用いて、調査対象データを分類する。抽出部15は、各調査対象データについて、カテゴリ毎に当該カテゴリに該当するか否かを判定することで、分類を行う。
【0078】
抽出部15は、カテゴリ毎の分類結果を、調査対象データに付与する。次に、抽出部15は、分類結果が付与された調査対象データを出力部16に送る。
【0079】
抽出部15は、分類結果を付与された調査対象データをアノテーションデータとして、再度カテゴリ毎の境界面を学習してもよい。このとき、新たな調査対象データを収集し、それらの文書ベクトルを多次元空間に配置する。これにより、有害性に関するカテゴリ毎の文書データを増やすことができ、より精度良く化学物質の有害性を評価することが可能となる。
【0080】
ステップS6において、出力部16は、抽出部15から分類結果を付与された調査対象データを受け取る。次に、出力部16は、分類結果に基づいて、カテゴリ毎の統計情報を生成する。本実施形態における統計情報は、例えば、化学物質の識別情報及び有害性に関するカテゴリに基づいて、件数を集計した統計情報である。本実施形態における統計情報は、文書の公開年、発行機関又は著者等の書誌情報に基づいて集計したものであってもよい。
【0081】
続いて、出力部16は、カテゴリ毎の統計情報に基づいて、化学物質の有害性に関わる分類の傾向を評価又は予測するための情報を出力する。出力する情報の一例は、ある化学物質について、各カテゴリに分類された文書数の推移を表す情報である。出力する情報の他の例は、各カテゴリに分類された文書のうち、文書数の多い化学物質の一覧を表す情報である。
【0082】
出力部16は、化学物質の有害性に関わる分類の傾向を評価又は予測するための情報に基づいて、化学物質の有害性に関わる分類の傾向を評価又は予測し、その結果を出力してもよい。有害性の評価結果は、例えば、有害性のカテゴリ毎に所定の規則に従って算出したスコアである。有害性の予測結果は、ある化学物質について将来議論される可能性が高いカテゴリを表す情報、又はあるカテゴリについて将来議論される可能性が高い化学物質を表す情報である。
【0083】
出力部16は、文書データに記載された化学物質の特徴情報が類似する化学物質の有害性に関わる傾向を評価又は予測してもよい。例えば、化合物名や化学式が類似する物質同士であれば有害性に関する分類の傾向も同様に類似する可能性が高い。そのため、特徴情報が類似する化学物質を同時に評価又は予測することで有益な情報が得られる可能性がある。
【0084】
図6は、各カテゴリに分類された文書数の推移を表す出力結果の一例である。図6に示されているように、出力結果の一例では、ある化学物質について、公開年毎に全論文数とカテゴリ毎の論文数の推移を対比可能な態様で出力する。この出力結果によれば、例えば、ある化学物質について、最近特に毒性に関する議論が盛んにされていることを把握することができる。
【0085】
図7は、各カテゴリに分類された文書のうち、文書数の多い化学物質の一覧を表す出力結果の一例である。図7に示されているように、出力結果の他の例では、有害性に関するカテゴリ(例えば、毒性)において、論文数が多い物質の一覧を降順で出力する。この出力結果によれば、例えば、化学物質の毒性について、最近特に議論されている化学物質を把握することができる。
【0086】
<評価方法の流れ>
本実施形態における評価支援装置10のユーザは、評価支援装置10を用いて化学物質の有害性に関わる分類の傾向を評価又は予測することができる。以下、評価支援装置10を用いた評価方法について説明する。
【0087】
評価支援装置10のユーザは、複数の文書データを評価支援装置10に入力する。評価支援装置10は、複数の文書データの入力を受け付ける(図4のステップS1)。評価支援装置10は、入力を受け付けた複数の文書データに基づいて、評価支援方法のステップS2からステップS5を実行する。そして、評価支援装置10は、化学物質の有害性に関わる分類の傾向を評価又は予測するための情報を出力する(図4のステップS6)。
【0088】
評価支援装置10のユーザは、評価支援装置10から出力された情報に基づいて、化学物質の有害性に関わる分類の傾向を評価又は予測する。例えば、評価支援装置10のユーザは、特定の化学物質について有害性に関わる分類の統計情報を参照することで、有害性に関して盛んに議論されている化学物質、又は特定の化学物質について盛んに議論されている有害性の分類を把握する。
【0089】
<まとめ>
以上、本開示の各実施形態によれば、化学物質の有害性に関わる分類の傾向を評価又は予測可能になる。例えば、化学物質の有害性は、化学物質自体の毒性の他にも社会的要因等の外部要因によって基準が変化する場合がある。そのため、化学物質の構造的特徴のみから有害性を評価することは困難である。本実施形態における評価支援装置は、複数の文書をそれらの関連性に基づいて分類し、それらに記載された化学物質の性質を用いた統計情報に基づいて、化学物質の有害性に関わる分類の傾向を評価又は予測するための情報を出力する。したがって、本実施形態における評価支援装置によれば、化学物質の有害性に関わる分類の傾向を評価又は予測可能になる。
【0090】
特に、本実施形態における評価支援装置は、分類された文書に記載された化学物質の性質を用いた統計情報に基づいて、化学物質の有害性に関わる分類の傾向を評価又は予測するための情報を出力する。特定の化学物質について有害性に関わる分類の統計情報を参照することで、有害性に関して盛んに議論されている化学物質、又は特定の化学物質について盛んに議論されている有害性の分類を把握することができる。
【0091】
また、本実施形態における評価支援装置は、化学物質の毒性、生物蓄積性、難分解性、地域分布性、可燃性及び温室効果のうち少なくとも1つに基づいて文書を分類する。化学物質の有害性は、様々な観点から議論されるため、様々な分類の傾向を同時に評価することで化学物質の有害性を緻密に評価することが可能となる。
【0092】
さらに、本実施形態における評価支援装置は、引用関係又は自然言語処理結果に基づいて学術論文を分類する。化学物質の有害性は様々な観点から議論されているが、学術論文の引用関係等から分類可能であることは、従来知られていなかった。引用関係又は自然言語処理結果に基づいて学術論文を分類することで、化学物質の有害性を評価するために信頼性の高い情報を得られることが期待できる。
【0093】
以上、実施形態を説明したが、特許請求の範囲の趣旨及び範囲から逸脱することなく、形態や詳細の多様な変更が可能なことが理解されるであろう。
【符号の説明】
【0094】
10 評価支援装置
11 入力部
12 変換部
13 学習部
14 分類器記憶部
15 抽出部
16 出力部
図1
図2
図3
図4
図5
図6
図7