IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 長瀬産業株式会社の特許一覧 ▶ 株式会社林原の特許一覧 ▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特開2024-110517グループ化システム、グループ化方法及びグループ化プログラム
<>
  • 特開-グループ化システム、グループ化方法及びグループ化プログラム 図1
  • 特開-グループ化システム、グループ化方法及びグループ化プログラム 図2
  • 特開-グループ化システム、グループ化方法及びグループ化プログラム 図3
  • 特開-グループ化システム、グループ化方法及びグループ化プログラム 図4
  • 特開-グループ化システム、グループ化方法及びグループ化プログラム 図5
  • 特開-グループ化システム、グループ化方法及びグループ化プログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024110517
(43)【公開日】2024-08-16
(54)【発明の名称】グループ化システム、グループ化方法及びグループ化プログラム
(51)【国際特許分類】
   G06F 16/906 20190101AFI20240808BHJP
【FI】
G06F16/906
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2023015116
(22)【出願日】2023-02-03
(71)【出願人】
【識別番号】000214272
【氏名又は名称】長瀬産業株式会社
(71)【出願人】
【識別番号】397077760
【氏名又は名称】ナガセヴィータ株式会社
(71)【出願人】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100088155
【弁理士】
【氏名又は名称】長谷川 芳樹
(74)【代理人】
【識別番号】100128381
【弁理士】
【氏名又は名称】清水 義憲
(74)【代理人】
【識別番号】100124062
【弁理士】
【氏名又は名称】三上 敬史
(74)【代理人】
【識別番号】100128107
【弁理士】
【氏名又は名称】深石 賢治
(72)【発明者】
【氏名】戸田 浩樹
(72)【発明者】
【氏名】廣瀬 修一
(72)【発明者】
【氏名】藤田 章弘
(72)【発明者】
【氏名】マテオ マニカ
(72)【発明者】
【氏名】クリストフ アウアー
(72)【発明者】
【氏名】ヴァレリー ウェバー
(72)【発明者】
【氏名】フェデリコ ツィポーリ
(72)【発明者】
【氏名】ミシェル ドルフィ
(72)【発明者】
【氏名】ピーター スター
(72)【発明者】
【氏名】テオドロ ライーノ
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA06
5B175FA03
(57)【要約】
【課題】 適切に複数の対象物をグループ化する。
【解決手段】 グループ化システム10は、複数の対象物をグループ化するシステムであって、複数の対象物それぞれについて、関連する事項を示す関連情報を取得する関連情報取得部11と、対象物同士の類似性を、取得された当該対象物同士の関連情報に互いに同等のものがあるか否かを判断することで算出する類似性算出部12と、算出された対象物同士の類似性に基づいて、複数の対象物をグループ化するグループ化部13とを備える。
【選択図】 図1

【特許請求の範囲】
【請求項1】
複数の対象物をグループ化するグループ化システムであって、
複数の対象物それぞれについて、関連する事項を示す関連情報を取得する関連情報取得手段と、
前記対象物同士の類似性を、前記関連情報取得手段によって取得された、当該対象物同士の関連情報に互いに同等のものがあるか否かを判断することで算出する類似性算出手段と、
前記類似性算出手段によって算出された対象物同士の類似性に基づいて、複数の対象物をグループ化するグループ化手段と、
を備えるグループ化システム。
【請求項2】
前記類似性算出手段は、同等であると判断される関連情報の数と、同等であると判断されない関連情報の数とに基づく比の値を前記対象物同士の類似性として算出する請求項1に記載のグループ化システム。
【請求項3】
前記グループ化手段は、グループ化対象の対象物についての別の対象物との類似性を示す値を要素とするベクトルを用いて、複数の対象物をグループ化する請求項1又は2に記載のグループ化システム。
【請求項4】
前記関連情報取得手段は、数値を含む関連情報を取得し、
前記類似性算出手段は、数値を比較して対象物同士の関連情報が同等であるかを判断する請求項1又は2に記載のグループ化システム。
【請求項5】
前記関連情報取得手段は、関連情報の複数の種別毎に関連情報を取得する請求項1又は2に記載のグループ化システム。
【請求項6】
前記複数の対象物は、酵素であり、
前記関連情報取得手段は、基質及び生成物を示す情報を関連情報として取得する請求項5に記載のグループ化システム。
【請求項7】
複数の対象物をグループ化するグループ化システムの動作方法であるグループ化方法であって、
複数の対象物それぞれについて、関連する事項を示す関連情報を取得する関連情報取得ステップと、
前記対象物同士の類似性を、前記関連情報取得ステップにおいて取得された、当該対象物同士の関連情報に互いに同等のものがあるか否かを判断することで算出する類似性算出ステップと、
前記類似性算出ステップにおいて算出された対象物同士の類似性に基づいて、複数の対象物をグループ化するグループ化ステップと、
を含むグループ化方法。
【請求項8】
コンピュータを、複数の対象物をグループ化するグループ化システムとして動作させるグループ化プログラムであって、
当該コンピュータを、
複数の対象物それぞれについて、関連する事項を示す関連情報を取得する関連情報取得手段と、
前記対象物同士の類似性を、前記関連情報取得手段によって取得された、当該対象物同士の関連情報に互いに同等のものがあるか否かを判断することで算出する類似性算出手段と、
前記類似性算出手段によって算出された対象物同士の類似性に基づいて、複数の対象物をグループ化するグループ化手段と、
として機能させるグループ化プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の対象物をグループ化するグループ化システム、グループ化方法及びグループ化プログラムに関する。
【背景技術】
【0002】
従来、酵素がどのような酵素活性を有するかを予測する方法が提案されている。例えば、特許文献1では、タンパク質の立体構造に基づいて酵素活性を予測することが提案されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】国際公開第2010/026738号
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に示される方法以外にも、酵素がどのような酵素活性を有するかを予測するための方法が考えられる。そのような方法の一つとして、酵素をグループ化することが考えられる。例えば、酵素に係るアミノ酸の配列の類似性に基づいて複数の酵素をグループ化して、推定対象の酵素が何れのグループに含まれるかによって、酵素活性の予測を行うことが考えられる。
【0005】
しかしながら、酵素同士のアミノ酸の配列が類似していたとしても、それらの酵素が必ずしも同様の酵素活性を有するとは限らない。そのため、上記のようなアミノ酸の配列に基づくグループ化では、異なる酵素活性を有する酵素が同一のグループに分類され得る。従って、上述したグループ化では、酵素活性の予測を適切に行えないおそれがある。
【0006】
本発明は、上記に鑑みてなされたものであり、適切に複数の対象物をグループ化することができるグループ化システム、グループ化方法及びグループ化プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上記目的を達成するために、本発明に係るグループ化システムは、複数の対象物をグループ化するグループ化システムであって、複数の対象物それぞれについて、関連する事項を示す関連情報を取得する関連情報取得手段と、対象物同士の類似性を、関連情報取得手段によって取得された、当該対象物同士の関連情報に互いに同等のものがあるか否かを判断することで算出する類似性算出手段と、類似性算出手段によって算出された対象物同士の類似性に基づいて、複数の対象物をグループ化するグループ化手段と、を備える。
【0008】
本発明に係るグループ化システムでは、同等の関連情報に応じた類似性に基づいて対象物がグループ化される。従って、本発明に係るグループ化システムによれば、適切に複数の対象物をグループ化することができる。
【0009】
類似性算出手段は、同等であると判断される関連情報の数と、同等であると判断されない関連情報の数とに基づく比の値を対象物同士の類似性として算出することとしてもよい。この構成によれば、同等の関連情報に応じて、適切かつ確実に複数の対象物をグループ化することができる。
【0010】
グループ化手段は、グループ化対象の対象物についての別の対象物との類似性を示す値を要素とするベクトルを用いて、複数の対象物をグループ化することとしてもよい。この構成によれば、対象物同士の類似性を示す値を用いて、適切かつ確実に複数の対象物をグループ化することができる。
【0011】
関連情報取得手段は、数値を含む関連情報を取得し、類似性算出手段は、数値を比較して対象物同士の関連情報が同等であるかを判断することとしてもよい。この構成によれば、数値を含む関連情報を用いて、適切に複数の対象物をグループ化することができる。
【0012】
関連情報取得手段は、関連情報の複数の種別毎に関連情報を取得することとしてもよい。この構成によれば、複数の種別毎の関連情報を用いて、適切に複数の対象物をグループ化することができる。
【0013】
複数の対象物は、酵素であり、関連情報取得手段は、基質及び生成物を示す情報を関連情報として取得することとしてもよい。この構成によれば、同等の基質及び生成物を用いて、適切に複数の基質をグループ化することができる。
【0014】
ところで、本発明は、上記のようにグループ化システムの発明として記述できる他に、以下のようにグループ化方法及びグループ化プログラムの発明としても記述することができる。これはカテゴリが異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。
【0015】
即ち、本発明に係るグループ化方法は、複数の対象物をグループ化するグループ化システムの動作方法であるグループ化方法であって、複数の対象物それぞれについて、関連する事項を示す関連情報を取得する関連情報取得ステップと、対象物同士の類似性を、関連情報取得ステップにおいて取得された、当該対象物同士の関連情報に互いに同等のものがあるか否かを判断することで算出する類似性算出ステップと、類似性算出ステップにおいて算出された対象物同士の類似性に基づいて、複数の対象物をグループ化するグループ化ステップと、を含む。
【0016】
また、本発明に係るグループ化プログラムは、コンピュータを、複数の対象物をグループ化するグループ化システムとして動作させるグループ化プログラムであって、当該コンピュータを、複数の対象物それぞれについて、関連する事項を示す関連情報を取得する関連情報取得手段と、対象物同士の類似性を、関連情報取得手段によって取得された、当該対象物同士の関連情報に互いに同等のものがあるか否かを判断することで算出する類似性算出手段と、類似性算出手段によって算出された対象物同士の類似性に基づいて、複数の対象物をグループ化するグループ化手段と、として機能させる。
【発明の効果】
【0017】
本発明によれば、適切に複数の対象物をグループ化することができる。
【図面の簡単な説明】
【0018】
図1】本発明の実施形態に係るグループ化システムの機能構成を示す図である。
図2】酵素同士の類似性の例を示す表である。
図3】グラフ形式で示される酵素及び関連情報の例を示す図である。
図4】新たな関連情報の生成を説明するための図である。
図5】本発明の実施形態に係るグループ化システムで実行される処理であるグループ化方法を示すフローチャートである。
図6】本発明の実施形態に係るグループ化プログラムの構成を記録媒体と共に示す図である。
【発明を実施するための形態】
【0019】
以下、図面と共に本発明に係るグループ化システム、グループ化方法及びグループ化プログラムの実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
【0020】
図1に本実施形態に係るグループ化システム10の機能構成を示す。グループ化システム10は、複数の対象物をグループ化するシステム(装置)である。グループ化システム10は、複数の対象物についての情報を取得して、取得した情報に基づいて複数の対象物のそれぞれを、複数のグループの何れかに分類する。本実施形態における、グループ化システム10によるグループ化の対象物は、例えば、酵素である。以下の説明では、グループ化の対象物を酵素として説明する。
【0021】
例えば、グループ化システム10によるグループ化による同一のグループ内の酵素を解析することで、酵素についての新たな機能(例えば、新たな酵素活性又は新たな基質及び生成物)等の酵素に関しての新たな知見を予測できることが期待できる。なお、上述したようにアミノ酸配列の類似性のみに基づくグループ化は、上述の観点から必ずしも適切なグループ化とならないおそれがある。本実施形態でのグループ化は、上述の観点から適切なグループ化を行うものである。なお、グループ化システム10によるグループ化の複数の対象物は、グループ化に意義があるものであれば、酵素以外の任意のものとしてもよい。
【0022】
グループ化システム10は、具体的には、CPU(Central Processing Unit)、メモリ等のハードウェアを含むコンピュータによって構成されている。グループ化システム10の後述する各機能は、これらの構成要素がプログラム等により動作することによって発揮される。なお、グループ化システム10は、一つのコンピュータで実現されてもよいし、複数のコンピュータがネットワークにより互いに接続されて構成されるコンピュータシステムにより実現されていてもよい。
【0023】
引き続いて、本実施形態に係るグループ化システム10の機能を説明する。図1に示すように、グループ化システム10は、関連情報取得部11と、類似性算出部12と、グループ化部13とを備えて構成される。
【0024】
関連情報取得部11は、複数の対象物それぞれについて、関連する事項を示す関連情報を取得する関連情報取得手段である。関連情報取得部11は、数値を含む関連情報を取得してもよい。関連情報取得部11は、関連情報の複数の種別毎に関連情報を取得してもよい。関連情報取得部11は、酵素の基質及び生成物を示す情報を関連情報として取得してもよい。
【0025】
例えば、関連情報取得部11は、以下のような関連情報を以下のように取得する。関連情報取得部11は、任意の方法で関連情報を取得してもよい。例えば、関連情報取得部11は、一般に公開されているデータベースから関連情報を取得してもよいし、グループ化システム10のユーザの実験等で生成されたデータを関連情報として取得してもよい。関連情報取得部11は、上記のデータベースにアクセスして関連情報を取得してもよいし、グループ化システム10のユーザの入力操作を受け付けて関連情報を取得してもよい。
【0026】
グループ化の対象となる酵素は、予めグループ化システム10のユーザ等によって設定されていてもよい。あるいは、関連情報を取得できる酵素を、グループ化の対象となる酵素としてもよい。グループ化システム10では、グループ化の対象となる酵素は、酵素名、酵素のアミノ酸配列又はデータベースでの識別子(例えば、UniProtの登録番号(UniprotID)(例えば、Q6L2X4)、又はGenbankの登録番号(例えば、AAT42677.1))等によって識別されればよい。酵素を識別する情報も、関連情報とあわせてデータベースから取得されてもよい。なお、酵素の識別は、上記以外の情報によって行われてもよい。
【0027】
関連情報取得部11は、例えば、以下のような酵素毎の機能に係る情報を関連情報として取得する。当該情報は、酵素の基質、酵素の生成物、酵素を算出する生物種、酵素の既存の分類、基質に応じた代謝回転数(kcat)、基質に応じたミカエリス・メンテン定数(Km)、基質に応じた触媒反応効率(特異性定数)(kcat/Km)、酵素反応が可能なpH範囲及び至適温度等の種別の情報である。
【0028】
上記の情報のうち、酵素の基質、酵素の生成物、酵素を産出する生物種及び酵素の既存の分類の種別の情報は、識別子又は文字列等によって示される情報である。上記の情報のうち、基質に応じた代謝回転数(kcat)、基質に応じたミカエリス・メンテン定数(Km)、基質に応じた触媒反応効率(特異性定数)(kcat/Km)、酵素反応の種別の情報は、数値によって示される情報である。数値によって示される情報は、数値範囲を示すものであってもよい。
【0029】
また、1つの酵素に対して、1つの種別について複数の関連情報が取得されてもよい。例えば、1つの酵素に対して複数の基質がある場合には、当該1つの酵素に対して複数の基質を示す情報が取得されてもよい。あるいは、数値によって示される情報について、異なる実験によって複数の数値がある場合、当該複数の数値が関連情報として取得されてもよい。
【0030】
酵素の基質を示す情報は、例えば、基質名(例えば、グルコース、マルトース、トレハロース、ガラクトース)である。酵素の生成物を示す情報は、例えば、生成物名(例えば、ラクトース、コージビオース、スクロース)である。酵素を算出する生物種を示す情報は、例えば、生物種名(例えば、Picrophilus torridus DSM 9790、E.coli、S.cerevisiae)である。
【0031】
酵素の既存の分類は、例えば、上記のデータベースでの分類であり、EC番号、CAZyのファミリー、CAZyのクラス等の分類である。関連情報としては、上記の通り、複数の種別の分類の情報が用いられてもよい。EC番号は、酵素を体系的に整理するため反応形式に従ってECに続く4組の数(例えば、3.2.1.20)で酵素を表したものである。主に、酵素反応の種類と基質の種類とで分類されている。CAZyのファミリーは、CAZy上で酵素が属しているファミリー(例えば、GH31)である。CAZyのクラスは、CAZy上で酵素が属しているクラスである。
【0032】
基質に応じた代謝回転数(kcat)は、酵素の基質毎の数値である。代謝回転数は、酵素が活性部位毎に単位時間あたりにどれだけの数の基質を生成物に変換できるかの最大数である。代謝回転数の数値が高いほど速く基質が生成物に変換されることを示す。代謝回転数の単位は、単位秒あたりを示す[/s]である。
【0033】
基質に応じたミカエリス・メンテン定数(Km)は、酵素の基質毎の数値である。Kmは、所定の条件下において、最大反応速度の半分の速度が認められる基質濃度である。Kmの数値が低いほど、基質と酵素が高い親和性を有し、最大反応速度への到達に必要な基質濃度が低いことを意味す。単位は、濃度を示す[mol/L]又は[mmol/L]である。
【0034】
基質に応じた触媒反応効率(特異性定数)(kcat/Km)は、酵素の基質毎の数値である。kcat/Kmは、kcatの数値をKmで割って算出される。kcat/Kmは、触媒効率の尺度で、数値が大きいほどより多くの生成物が生成される。単位は、[mol・L-1・s-1]である。
【0035】
酵素反応が可能なpH範囲は、酵素が活性を十分に発揮できる反応時のpHの範囲であり、酵素毎に決まる。当該pH範囲を示す情報は、例えば、範囲の最小値及び最大値の数値である。pH範囲を示す情報は、例えば、酵素のデータベースであるBRENDAから取得することができる。
【0036】
至適温度は、酵素が活性を十分に発揮できる反応時の温度の範囲であり、酵素毎に決まる。至適温度を示す情報は、例えば、範囲の最小値及び最大値の数値である。至適温度を示す情報は、例えば、酵素のデータベースであるBRENDAから取得することができる。上記のように関連情報は、数値であるリアクションパラメータ(酵素反応パラメータ)であってもよい。
【0037】
関連情報取得部11は、取得した関連情報を類似性算出部12に出力する。なお、関連情報として上記の種別の情報全てが用いられる必要はなく、一部の種別の情報が用いられなくてもよい。また、関連情報として上記の種別以外の種別の情報が用いられてもよい。その場合、上記の種別の情報は用いられてなくてもよい。
【0038】
類似性算出部12は、対象物同士の類似性を、関連情報取得部11によって取得された、当該対象物同士の関連情報に互いに同等のものがあるか否かを判断することで算出する類似性算出手段である。類似性算出部12は、同等であると判断される関連情報の数と、同等であると判断されない関連情報の数とに基づく比の値を対象物同士の類似性として算出してもよい。類似性算出部12は、数値を比較して対象物同士の関連情報が同等であるかを判断してもよい。
【0039】
類似性算出部12は、例えば、以下のように酵素同士の類似性を算出する。類似性算出部12は、関連情報取得部11から、複数の酵素それぞれについての関連情報を入力する。類似性算出部12は、グループ化の対象の複数の酵素のうちの2つの酵素の組み合わせについて、当該組み合わせに係る2つの酵素の関連情報から類似性を算出する。類似性算出部12は、複数の酵素の全て(総当たり)の組み合わせについて類似性を算出する。
【0040】
類似性算出部12は、例えば、類似性を0~1の値で算出する。類似性の値が小さいほど、即ち、0に近いほど、組み合わせに係る2つの酵素の類似性が低いことを示している。類似性の値が大きいほど、即ち、1に近いほど、組み合わせに係る2つの酵素の類似性が高いことを示している。なお、類似性の値の範囲及び値の大小の意味は必ずしも上記のようである必要はない。算出される酵素同士の類似性の例を図2に示す。
【0041】
関連情報取得部11から入力される関連情報は、図3に示すようにグラフ形式(例えば、ナレッジグラフ形式)で表現されてもよい。図3に示すように、異なる酵素が同一の関連情報に関連する(対応する)場合には、それぞれの酵素を示すノードと当該関連情報を示すノードとがリンクによって結合する。図3に示すように、関連情報の種別毎に関連情報を示すノードがまとめられていてもよい。なお、図3において、至適pHは、上述した酵素反応が可能なpH範囲である。温度安定性は、上述した至適温度である。速度論的パラメータは、上述したkcat、kcat/Km及びkcat/Kmである。
【0042】
類似性算出部12は、上記のグラフに基づいて、例えば、以下のように類似性を算出してもよい。類似性算出部12は、関連情報の中に、類似性の算出対象の2つの酵素に共通して繋がっている関連情報があるか否かを判断する。即ち、当該2つの酵素同士の関連情報に互いに同等(同一)のものがあるか否かを判断する。
【0043】
類似性算出部12は、上記の判断に基づいて、当該2つの酵素に共通して繋がっている関連情報の数をカウントする。また、類似性算出部12は、上記の判断に基づいて、当該2つの酵素のうち少なくとも一方に繋がっている関連情報(即ち、当該2つの酵素のうち一方のみに繋がっている関連情報、及び当該2つの酵素に共通して繋がっている関連情報)の数をカウントする。類似性算出部12は、カウントした2つの数を用いて、(共通して繋がっている関連情報の数)/(少なくとも一方に繋がっている関連情報)を当該2つの酵素同士の類似性として算出する。上記は、同等であると判断される関連情報の数と、同等であると判断されない関連情報の数とに基づく比の値である。
【0044】
図3において、関連情報が基質及び生成物のみであった場合の例を用いて類似性の算出を説明する(数値の関連情報である至適pH、温度安定性及び速度論的パラメータについては後述する)。酵素Aと酵素Bとの関連情報では、基質のグルコース及び生成物のラクトースが、2つの酵素に共通して繋がっている。2つの酵素に共通して繋がっている関連情報の数は2である。また、基質のマルトース及びトレハロース、並びに生成物のスクロースが、一方の酵素にのみに繋がっている。2つの酵素のうち少なくとも一方に繋がっている関連情報の数は5である。従って、この場合、類似性=2/5=0.40と算出される。
【0045】
関連情報が数値である場合、2つの酵素同士で関連情報は完全に同一とはなりにくい。また、類似性算出部12によって算出される類似性は、必ずしも、関連情報同士が完全に同一であることを前提とする必要はない。従って、関連情報が数値である場合は、類似性算出部12は、関連情報が同等である、即ち、関連情報が上記の2つの酵素に共通して繋がっている関連情報とみなせるかどうかを判断すればよい。この判断は、予め設定された判断基準に基づいて行われる。また、この判断は、同一の種別の関連情報同士について行われる。
【0046】
例えば、類似性算出部12は、2つの酵素の関連情報である数値同士を比較して、それらの数値の差が予め設定した閾値以下である場合、それらの関連情報が互いに同等であると判断し、そうでない場合、それらの関連情報が互いに同等でないと判断する。あるいは、予め数値の軸を複数の区間(ビン)に区切っておき、2つの酵素の関連情報である数値が同一の区間に含まれている場合、それらの関連情報が互いに同等であると判断し、そうでない場合、それらの関連情報が互いに同等でないと判断する。
【0047】
また、数値が区間を示すもの(例えば、酵素反応が可能なpH範囲及び至適温度)である場合には、例えば、2つの区間の共通する範囲の長さ又は割合等に基づいて、関連情報が互いに同等であるか否かを判断してもよい。また、1つの種別に複数の数値が含まれている場合には、2つの酵素同士の当該数値の分布を比較して、関連情報が互いに同等であるか否かを判断してもよい。例えば、数値が分布している範囲を比較したり、分布を示すグラフの形状を比較したりして、関連情報が互いに同等であるか否かを判断してもよい。
【0048】
また、関連情報が数値である場合、複数の酵素の関連情報に基づいた生成基準を用いて、新たな関連情報を生成して類似性の算出に用いてもよい。例えば、関連情報が、上述したリアクションパラメータである場合には、以下のように類似性の算出をすることで、更に適切なグループ化が可能となる。
【0049】
新たな関連情報を生成する例について、図4を用いて説明する。図4では、UniProtの各配列(配列A、配列a、配列b、…、配列x、配列y、配列z)が、各酵素を示す。まず、類似性算出部12は、1つの酵素(例えば、配列Aの酵素)を選択する。類似性算出部12は、選択した配列と同じEC番号を有する他の酵素(例えば、配列a、配列b、…、配列x、配列y、配列z)を抽出する。類似性算出部12は、これらの酵素から同じ基質及び生物種のものを選択する。類似性算出部12は、選択した基質及び生物種に対応するリアクションパラメータ(例えば、図4に示すkcat)を抽出する。類似性算出部12は、抽出したリアクションパラメータから5つのクラスを設定する。例えば、図4のグラフに示すように、抽出したリアクションパラメータの最小値から最大値までの区間を5等分にして、値が小さい方から、それぞれの区間をvery low、low、normal、high及びvery lowとのクラスとする。
【0050】
類似性算出部12は、選択した酵素、基質及び生物種の組み合わせ毎に、クラス毎の当該クラスの範囲に含まれるリアクションパラメータの数値の数をカウントする。類似性算出部12は、当該酵素、基質、生物種及びリアクションパラメータの組み合わせについて、カウントした5つのクラス毎の数を新たな関連情報とする。即ち、新たな関連情報は、クラスに対応する5つの数値(5つの種別の関連情報)となる。新たな関連情報は、グラフ形式の情報における新たな疑似的なノード(pseudo nodes)としてもよい。新たな関連情報の生成は、例えば、全ての酵素間の組み合わせで新たな関連情報を用いた類似性の算出ができるようになるまで行われる。このように、類似性算出部12は、リアクションパラメータについてノーマライゼーションを行って新たな関連情報を生成してもよい。
【0051】
類似性算出部12は、酵素同士の上記の新たな関連情報を比較して、当該関連情報が互いに同等のものがあるか否かを判断して類似性を算出してもよい。例えば、数値が1以上となっているクラスが、酵素間で同一であった場合、関連情報が互いに同等のものであると判断してもよい。あるいは、それ以外にもクラスの数値の分布に基づいて、関連情報が互いに同等のものであるか否かが判断されてもよい。
【0052】
類似性算出部12は、上記のように互いに異なる酵素の組み合わせの類似性の値を算出する。また、類似性算出部12は、同一の酵素の組み合わせの類似性の値(例えば、酵素Aと酵素Aとの類似性の値)を最大の類似性である1.00とする。類似性算出部12は、算出した酵素同士の類似性を示す情報、例えば、図2に示すような行列の形式の情報をグループ化部13に出力する。なお、酵素同士の類似性の算出は、必ずしも上述したように行われる必要はなく、酵素同士の関連情報に互いに同等のものがあるか否かを判断することで行われるものであればよい。
【0053】
グループ化部13は、類似性算出部12によって算出された対象物同士の類似性に基づいて、複数の対象物をグループ化するグループ化手段である。グループ化部13は、グループ化対象の対象物についての別の対象物との類似性を示す値を要素とするベクトルを用いて、複数の対象物をグループ化してもよい。
【0054】
グループ化部13は、例えば、以下のように酵素をグループ化する。グループ化部13は、類似性算出部12から、算出した酵素同士の類似性を示す情報、例えば、図2に示すような行列の形式の情報を入力する。グループ化部13は、酵素毎の別の酵素との類似性を示す値を要素とするベクトル、例えば、図2に示す行列の各行のベクトルを用いて酵素をグループ化する。
【0055】
グループ化部13は、例えば、各ベクトルによって示される多次元空間上の位置が互いに近い位置にある酵素が同一のグループになるように、酵素をグループ化する。具体的には、ベクトルを用いたグループ化は、例えば、OPTICS(Ordering Points To Identify the Clustering Structure)等の従来のクラスタリングの手法により行われればよい。OPTICSは、密度ベースのクラスタ分析手法の一つである。OPTICSでは、データ空間内でデータ点の密度の異なるエリアが探され、密度の異なるエリアが分離され、エリア内のデータ点が同じクラスタに割り当てられる。また、グループ化部13は、対象物同士の類似性に基づくものであれば、上記以外の方法でグループ化を行ってもよい。グループ化部13は、グループ化の結果として、どの酵素がどのグループに属するかを示す情報を得る。
【0056】
グループ化部13は、グループ化の結果を示す情報を出力する。当該情報の出力は、例えば、ユーザによって参照できるようにグループ化システム10が備える表示装置による表示であってもよいし、他のシステム又は装置等への送信であってもよい。また、当該情報の出力は、上記以外の任意の態様及び出力先にたいして行われてもよい。以上が、本実施形態に係るグループ化システム10の機能である。
【0057】
引き続いて、図5のフローチャートを用いて、本実施形態に係るグループ化システム10で実行される処理(グループ化システム10が行う動作方法)であるグループ化方法を説明する。
【0058】
本処理では、まず、関連情報取得部11によって、複数の酵素それぞれについて関連情報が取得される(S01、関連情報取得ステップ)。続いて、類似性算出部12によって、酵素同士の類似性が算出される(S02、類似性算出ステップ)。類似性の算出は、酵素同士の関連情報に互いに同等のものがあるか否かが判断されることで行われる。続いて、グループ化部13によって、酵素同士の類似性に基づいて、複数の酵素がグループ化される(S03、グループ化ステップ)。続いて、グループ化部13によって、グループ化の結果を示す情報が出力される(S04)。以上が、本実施形態に係るグループ化システム10で実行される処理である。
【0059】
本実施形態では、酵素間の同等の関連情報に応じた類似性に基づいて酵素がグループ化される。即ち、酵素と情報との繋がりから酵素をグループ化することができる。従って、本実施形態によれば、適切に複数の酵素をグループ化することができる。その結果、適切に酵素についての新たな機能の予測等を行うことができる。なお、グループ化の対象物は酵素以外のものであってもよい。
【0060】
また、上述した実施形態のように、グループ化に用いられる類似性は、同等であると判断される関連情報の数と、同等であると判断されない関連情報の数とに基づく比の値とされてもよい。この構成によれば、適切かつ容易に類似性を算出することができ、同等の関連情報に応じて、適切かつ確実に複数の酵素をグループ化することができる。但し、類似性は、酵素同士の関連情報に互いに同等のものがあるか否かの判断に基づいたものであれば、上記以外のものであってもよい。
【0061】
また、上述した実施形態のように、グループ化は、グループ化対象の酵素についての別の酵素との類似性を示す値を要素とするベクトルを用いて行われてもよい。この構成によれば、酵素同士の類似性を示す値を用いて、適切かつ確実に複数の酵素をグループ化することができる。但し、グループ化は、類似性を用いて行われるものであれば、上記以外によって行われてもよい。
【0062】
また、上述した実施形態のように、数値を含む関連情報について、数値を比較して酵素同士の関連情報が同等であるかを判断してもよい。この構成によれば、例えば、酵素のリアクションパラメータ等の関連情報を用いて、適切に複数の酵素をグループ化することができる。また、数値を含む関連情報について、上述したような疑似的なノードに相当する新たな関連情報を生成してもよい。これによって更に適切に複数の酵素をグループ化することができる。但し、グループ化には、必ずしも数値を含む関連情報を用いる必要はない。
【0063】
また、上述した実施形態のように、グループ化には、複数の種別毎に関連情報をグループ化に用いてもよい。この構成によれば、複数の種別毎の関連情報を用いて、適切に複数の酵素をグループ化することができる。
【0064】
また、上述した実施形態のように、グループ化の対象が酵素である場合には、基質及び生成物を示す情報を関連情報として用いてもよい。この構成によれば、同等の基質及び生成物を用いて、適切に複数の基質をグループ化することができる。但し、グループ化の対象が酵素である場合であっても、基質及び生成物を示す情報を関連情報として用いなくてもよい。
【0065】
引き続いて、上述した一連のグループ化システム10による処理を実行させるためのグループ化プログラムを説明する。図6に示すように、グループ化プログラム100は、コンピュータに挿入されてアクセスされる、あるいはコンピュータが備える、コンピュータ読み取り可能な記録媒体110に形成されたプログラム格納領域111内に格納される。記録媒体110は、非一時的な記録媒体であってもよい。
【0066】
グループ化プログラム100は、関連情報取得モジュール101と、類似性算出モジュール102と、グループ化モジュール103とを備えて構成される。関連情報取得モジュール101と、類似性算出モジュール102と、グループ化モジュール103とを実行させることにより実現される機能は、上述したグループ化システム10の関連情報取得部11と、類似性算出部12と、グループ化部13との機能とそれぞれ同様である。
【0067】
なお、グループ化プログラム100は、その一部又は全部が、通信回線等の伝送媒体を介して伝送され、他の機器により受信されて記録(インストールを含む)される構成としてもよい。また、グループ化プログラム100の各モジュールは、1つのコンピュータでなく、複数のコンピュータのいずれかにインストールされてもよい。その場合、当該複数のコンピュータによるコンピュータシステムよって上述した一連の処理が行われる。
【0068】
本開示のグループ化システム、グループ化方法及びグループ化プログラムは、以下の構成を有する。
[1]複数の対象物をグループ化するグループ化システムであって、
複数の対象物それぞれについて、関連する事項を示す関連情報を取得する関連情報取得手段と、
前記対象物同士の類似性を、前記関連情報取得手段によって取得された、当該対象物同士の関連情報に互いに同等のものがあるか否かを判断することで算出する類似性算出手段と、
前記類似性算出手段によって算出された対象物同士の類似性に基づいて、複数の対象物をグループ化するグループ化手段と、
を備えるグループ化システム。
[2]前記類似性算出手段は、同等であると判断される関連情報の数と、同等であると判断されない関連情報の数とに基づく比の値を前記対象物同士の類似性として算出する[1]に記載のグループ化システム。
[3]前記グループ化手段は、グループ化対象の対象物についての別の対象物との類似性を示す値を要素とするベクトルを用いて、複数の対象物をグループ化する[1]又は[2]に記載のグループ化システム。
[4]前記関連情報取得手段は、数値を含む関連情報を取得し、
前記類似性算出手段は、数値を比較して対象物同士の関連情報が同等であるかを判断する[1]~[3]の何れかに記載のグループ化システム。
[5]前記関連情報取得手段は、関連情報の複数の種別毎に関連情報を取得する請求項[1]~[4]の何れかに記載のグループ化システム。
[6]前記複数の対象物は、酵素であり、
前記関連情報取得手段は、基質及び生成物を示す情報を関連情報として取得する[5]に記載のグループ化システム。
[7]複数の対象物をグループ化するグループ化システムの動作方法であるグループ化方法であって、
複数の対象物それぞれについて、関連する事項を示す関連情報を取得する関連情報取得ステップと、
前記対象物同士の類似性を、前記関連情報取得ステップにおいて取得された、当該対象物同士の関連情報に互いに同等のものがあるか否かを判断することで算出する類似性算出ステップと、
前記類似性算出ステップにおいて算出された対象物同士の類似性に基づいて、複数の対象物をグループ化するグループ化ステップと、
を含むグループ化方法。
[8]コンピュータを、複数の対象物をグループ化するグループ化システムとして動作させるグループ化プログラムであって、
当該コンピュータを、
複数の対象物それぞれについて、関連する事項を示す関連情報を取得する関連情報取得手段と、
前記対象物同士の類似性を、前記関連情報取得手段によって取得された、当該対象物同士の関連情報に互いに同等のものがあるか否かを判断することで算出する類似性算出手段と、
前記類似性算出手段によって算出された対象物同士の類似性に基づいて、複数の対象物をグループ化するグループ化手段と、
として機能させるグループ化プログラム。
【符号の説明】
【0069】
10…グループ化システム、11…関連情報取得部、12…類似性算出部、13…グループ化部、100…グループ化プログラム、101…関連情報取得モジュール、102…類似性算出モジュール、103…グループ化モジュール、110…記録媒体、111…プログラム格納領域。
図1
図2
図3
図4
図5
図6