IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エーエヌテイ インクの特許一覧

特表2023-552683人工知能モデルの学習のための定型化された研究記録データ自動生成方法、装置およびコンピュータプログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-12-19
(54)【発明の名称】人工知能モデルの学習のための定型化された研究記録データ自動生成方法、装置およびコンピュータプログラム
(51)【国際特許分類】
   G06N 20/00 20190101AFI20231212BHJP
【FI】
G06N20/00
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023528695
(86)(22)【出願日】2021-11-22
(85)【翻訳文提出日】2023-05-12
(86)【国際出願番号】 KR2021017196
(87)【国際公開番号】W WO2022108410
(87)【国際公開日】2022-05-27
(31)【優先権主張番号】10-2020-0157187
(32)【優先日】2020-11-20
(33)【優先権主張国・地域又は機関】KR
(31)【優先権主張番号】10-2021-0018205
(32)【優先日】2021-02-09
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.3GPP
2.ブルートゥース
3.BLUETOOTH
4.JAVA
5.WCDMA
(71)【出願人】
【識別番号】523177056
【氏名又は名称】エーエヌテイ インク
【氏名又は名称原語表記】ANT INC.
(74)【代理人】
【識別番号】100083138
【弁理士】
【氏名又は名称】相田 伸二
(74)【代理人】
【識別番号】100189625
【弁理士】
【氏名又は名称】鄭 元基
(74)【代理人】
【識別番号】100196139
【弁理士】
【氏名又は名称】相田 京子
(74)【代理人】
【識別番号】100199004
【弁理士】
【氏名又は名称】服部 洋
(72)【発明者】
【氏名】チョイ ジョンユン
(72)【発明者】
【氏名】ホン ソクジュ
(72)【発明者】
【氏名】イ サンヨン
(57)【要約】
人工知能モデルの学習のための定型化された研究記録データ自動生成方法、装置およびコンピュータプログラムが提供される。本発明の多様な実施例に係る人工知能モデルの学習のための定型化された研究記録データ自動生成方法は、コンピューティング装置によって遂行される方法において、実験に関する研究記録情報を獲得する段階、予め保存された実験に関連したデータに基づいて前記獲得された研究記録情報を加工する段階および前記加工された研究記録情報を利用して定型化された研究記録データを生成する段階を含む。
【選択図】図3
【特許請求の範囲】
【請求項1】
コンピューティング装置によって遂行される方法において、
実験に対する研究記録情報の入力を受ける段階;
予め保存された実験に関連したデータに基づいて前記入力された研究記録情報を加工する段階;および
前記加工された研究記録情報を利用して定型化された研究記録データを生成する段階を含む、人工知能モデルの学習のための定型化された研究記録データ自動生成方法。
【請求項2】
前記研究記録情報の入力を受ける段階は、
一つ以上のテキスト文章を含む長文形態の研究記録情報の入力を受ける段階;および
前記入力される長文形態の研究記録情報を分析して、実験材料に関するキーワード、研究および実験過程に関するキーワードおよび研究結果に関するキーワードを抽出する段階を含む、請求項1に記載の人工知能モデルの学習のための定型化された研究記録データ自動生成方法。
【請求項3】
前記研究記録情報の入力を受ける段階は、
前記研究記録情報の入力のためのユーザインターフェース(User Interface、UI)を提供する段階;および
前記ユーザインターフェースを通じて実験材料に関するキーワード、研究および実験過程に関するキーワードおよび研究結果に関するキーワードの入力を受ける段階を含む、請求項1に記載の人工知能モデルの学習のための定型化された研究記録データ自動生成方法。
【請求項4】
前記研究記録情報の入力を受ける段階は、
前記研究記録情報の入力のためのユーザインターフェース(User Interface、UI)を提供し、前記ユーザインターフェースを通じて音声形態の研究記録情報の入力を受け、前記入力を受けた音声形態の研究記録情報を自然語処理(NLP)して実験材料に関するキーワード、研究および実験過程に関するキーワードおよび研究結果に関するキーワードを抽出する段階;および
一つ以上のセンサを通じて装備使用情報および材料使用情報を認識する段階を含む、請求項1に記載の人工知能モデルの学習のための定型化された研究記録データ自動生成方法。
【請求項5】
前記入力された研究記録情報は、実験材料に関するキーワード、研究および実験過程に関するキーワードおよび研究結果情報に関するキーワードを含み、
予め保存された実験材料に関連したデータに基づいて、ユーザから入力された実験材料に関するキーワードを自動完成して実験材料情報を生成し、前記生成された実験材料情報と前記予め保存された実験材料に関連したデータを連動する段階;
予め保存された研究および実験過程に関連したデータに基づいて、前記ユーザから入力された研究および実験過程に関するキーワードを自動完成して研究および実験過程情報を生成し、前記生成された研究および実験過程情報と前記予め保存された研究および実験過程に関連したデータを連動する段階;および
予め設定された結果データ様式に基づいて前記ユーザから入力された前記研究結果に関するキーワードを視覚化する段階を含む、請求項1に記載の人工知能モデルの学習のための定型化された研究記録データ自動生成方法。
【請求項6】
前記定型化された研究記録データを生成する段階は、
第1定型化された研究記録データに含まれた実験材料、実験装備および実験過程により実験をシミュレーションする段階;および
前記実験をシミュレーションした結果を前記第1定型化された研究記録データとマッチングして保存する段階を含む、請求項1に記載の人工知能モデルの学習のための定型化された研究記録データ自動生成方法。
【請求項7】
前記生成された定型化された研究記録データを学習データとして第1人工知能モデルを学習させる段階;
前記学習された第1人工知能モデルを利用してユーザから入力された条件を満足させる物質の構成および構造を予測し、前記物質が前記予測した構成および構造を有するように合成する実験方法を導き出す段階;および
前記予測した物質の構成および構造に対する情報および前記導き出した実験方法に対する情報を含む結果データを前記ユーザに提供する段階をさらに含む、請求項1に記載の人工知能モデルの学習のための定型化された研究記録データ自動生成方法。
【請求項8】
前記第1人工知能モデルを学習させる段階は、
前記結果データを前記ユーザに提供したことに対する応答として、前記ユーザから入力された前記物質の実際の合成方法、前記実際の合成方法による結果と前記導き出された実験方法による結果間の比較および前記実際の合成方法により生成された物質の特性それぞれを学習データとして前記第1人工知能モデルを再学習させる段階を含む、請求項7に記載の人工知能モデルの学習のための定型化された研究記録データ自動生成方法。
【請求項9】
前記第1人工知能モデルを利用して導き出された特定物質に対するスケールアップ(scale-up)を遂行しようとする場合、第2人工知能モデルを利用して前記特定物質に対する最適化された合成方法および工程に対する情報を抽出するものの、前記第2人工知能モデルは複数の物質それぞれに対する合成方法と前記合成方法による歩留まりに対する情報を学習データとして予め学習されたモデルである、段階をさらに含む、請求項7に記載の人工知能モデルの学習のための定型化された研究記録データ自動生成方法。
【請求項10】
プロセッサ;
ネットワークインターフェース;
メモリ;および
前記メモリにロード(load)され、前記プロセッサによって実行されるコンピュータプログラムを含むものの、
前記コンピュータプログラムは、
実験に対する研究記録情報の入力を受けるインストラクション(instruction);
予め保存された実験に関連したデータに基づいて前記入力された研究記録情報を加工するインストラクション;および
前記加工された研究記録情報を利用して定型化された研究記録データを生成するインストラクションを含む、人工知能モデルの学習のための定型化された研究記録データ自動生成装置。
【請求項11】
コンピューティング装置と結合されて、
実験に対する研究記録情報の入力を受ける段階;
予め保存された実験に関連したデータに基づいて前記入力された研究記録情報を加工する段階;および
前記加工された研究記録情報を利用して定型化された研究記録データを生成する段階を実行させるためにコンピュータで読み取り可能な記録媒体に保存された、コンピュータで読み取り可能な記録媒体に記録されたコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の多様な実施例は人工知能モデルの学習のための定型化された研究記録データ自動生成方法、装置およびコンピュータプログラムに関する。
【背景技術】
【0002】
一般的にバイオ、ナノの研究は、物質および材料を合成する段階、構造および構成を確認する段階、アプリケーション(Application)の可能性の確認のための多様な特性を測定する段階およびアプリケーションを商用化する段階を経て遂行される。
【0003】
ここで、構造および構成を確認する段階で最適化された物質の構造および構成が導き出されないか、アプリケーションの可能性の確認のための多様な特性を測定する段階で所望の特性が特定されない場合、最初の段階である物質の構造および構成を合成する段階から再遂行しなければならず、最適化された物質を探すために、物質の構造および構成を合成する段階を繰り返し遂行しなければならないため、最適化された物質を探すまでに、最小数ヶ月から最大数年以上の時間が必要とされるだけでなく、合成および検査などに多くの費用が支出されるという問題がある。
【0004】
一方、このような従来の問題点を解消するために、バイオ、ナノの研究に関連した各種情報およびデータを学習した人工知能モデルを利用する方法が提案されている。
【0005】
ここで、人工知能モデルを利用するためには、人工知能モデルを学習させるための資料として研究記録データを生成する過程が必須であるが、このような学習データとして使われる研究記録データは研究者または実験者がいちいち実験情報を記録して作成するものであるので、類似する記録の反復などのような煩わしさを惹起、実験の重要条件の漏れ、データ活用時に再加工が必須、多量のデータ生成による分析および管理の難しさなどの多様な問題がある。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明が解決しようとする課題は、定型化されていない研究記録情報を加工して自動で定型化された研究記録データを生成することによって記録の便宜性を増大させ、記録の正確度を大幅に向上させ、研究過程および結果分析、共有および管理が容易なようにするだけでなく、前記の方法により定型化された研究記録データを学習データとして学習された人工知能モデルを通じて、特定の条件を満足する合成物質と該当合成物質を合成するためのガイド情報を導き出す合成物質開発プロセスを提供することによって、より便利かつ迅速に合成物質を開発できるように補助できる、人工知能モデルの学習のための定型化された研究記録データ自動生成方法、装置およびコンピュータプログラムを提供することである。
【0007】
本発明が解決しようとする課題は以上で言及された課題に制限されず、言及されていないさらに他の課題は下記の記載から通常の技術者に明確に理解され得るであろう。
【課題を解決するための手段】
【0008】
前述した課題を解決するための本発明の一実施例に係る人工知能モデルの学習のための定型化された研究記録データ自動生成方法は、コンピューティング装置によって遂行される方法において、実験に関する研究記録情報を獲得する段階、予め保存された実験に関連したデータに基づいて前記獲得された研究記録情報を加工する段階および前記加工された研究記録情報を利用して定型化された研究記録データを生成する段階を含むことができる。
【0009】
多様な実施例において、前記獲得された研究記録情報を加工する段階は、一つ以上のテキスト文章を含む長文形態の研究記録情報が獲得された場合、前記予め保存された実験に関連したデータに基づいて、前記獲得される長文形態の研究記録情報に含まれた複数の単語それぞれをトークン化(Tokenization)する段階および前記トークン化された複数の単語それぞれに属性情報をラベリング(Labeling)して加工された研究記録情報を生成する段階を含み、前記定型化された研究記録データを生成する段階は、前記加工された研究記録情報を利用して研究記録グラフを生成し、前記生成された研究記録グラフを利用して前記定型化された研究記録データを生成する段階を含むことができる。
【0010】
多様な実施例において、前記生成された研究記録グラフを利用して前記定型化された研究記録データを生成する段階は、前記属性情報がラベリングされた複数の単語を予め学習された第1モデルの入力データとして隣接行列(Adjacency matrix)を生成し、前記生成された隣接行列を利用して研究記録グラフ‐前記研究記録グラフは前記複数の単語それぞれに対応するノード(node)と前記複数の単語それぞれを連結するエッジ(edge)を含む‐を生成する段階を含み、前記予め学習された第1モデルは、複数のエンコーダ(encoder)を含むトランスフォーマー(Transformer)構造を基盤とするドメイン言語学習モデルであり得る。
【0011】
多様な実施例において、前記獲得された研究記録情報を加工する段階は、ユーザインターフェース(User Interface、UI)を通じてユーザから一つ以上のキーワード‐前記一つ以上のキーワードは実験材料に関するキーワード、研究および実験過程に関するキーワードおよび研究結果に関するキーワードのうち少なくとも一つを含む‐の入力を受ける場合、前記予め保存された実験に関連したデータに基づいて前記入力された一つ以上のキーワードに対応する実験に関連したデータを選択する段階および前記選択された実験に関連したデータを利用して前記入力された一つ以上のキーワードに対応する研究記録情報を自動完成する段階を含むことができる。
【0012】
多様な実施例において、前記入力された一つ以上のキーワードに対応する研究記録情報を自動完成する段階は、前記入力された一つ以上のキーワードに対応する実験に関連したデータが複数個である場合、ユーザの検索履歴に基づいて複数の実験に関連したデータのうち一つ以上の実験に関連したデータを推薦データとして前記ユーザに提供する段階および前記ユーザから前記提供された推薦データの選択を受ける場合、前記選択された推薦データを利用して前記入力された一つ以上のキーワードに対応する研究記録情報を自動完成する段階を含むことができる。
【0013】
多様な実施例において、前記獲得された研究記録情報を加工する段階は、ユーザインターフェース(User Interface、UI)を通じてユーザから音声形態の研究記録情報の入力を受ける場合、前記入力を受けた音声形態の研究記録情報を自然語処理(NLP)してテキスト形態の研究記録情報に変換する段階、前記変換されたテキスト形態の研究記録情報を分析して一つ以上のキーワード‐前記一つ以上のキーワードは実験材料に関するキーワード、研究および実験過程に関するキーワードおよび研究結果に関するキーワードのうち少なくとも一つを含む‐を抽出する段階および前記予め保存された実験に関連したデータに基づいて前記抽出された一つ以上のキーワードに対応する実験に関連したデータを選択し、前記選択された実験に関連したデータを利用して前記抽出された一つ以上のキーワードに対応する研究記録情報を自動完成する段階を含むことができる。
【0014】
多様な実施例において、前記研究記録情報を獲得する段階は、研究および実験に使われる複数の装備それぞれに備えられるセンサから装備使用情報を獲得する段階および研究および実験に使われる複数の材料それぞれに備えられるセンサから材料使用情報を獲得する段階を含み、前記獲得された研究記録情報を加工する段階は、前記獲得された装備使用情報および前記獲得された材料使用情報を利用して加工された研究記録情報を生成する段階を含むことができる。
【0015】
多様な実施例において、前記獲得された研究記録情報は実験材料に関するキーワード、研究および実験過程に関するキーワードおよび研究結果キーワードを含み、前記獲得された研究記録情報を加工する段階は、前記予め保存された実験に関連したデータに含まれた実験材料に関するデータを利用して前記実験材料に関するキーワードを自動完成することによって実験材料情報を生成し、前記生成された実験材料情報と前記予め保存された実験に関連したデータに含まれた実験材料に関するデータを連動する段階、前記予め保存された実験に関連したデータに含まれた実験材料に関するデータを利用して研究および実験過程に関するキーワードを自動完成することによって研究および実験過程情報を生成し、前記生成された研究および実験過程情報と前記予め保存された実験に関連したデータに含まれた実験材料に関するデータを連動する段階および予め設定された結果データ様式に基づいて前記研究結果に関するキーワードを視覚化する段階を含むことができる。
【0016】
多様な実施例において、前記定型化された研究記録データを対応する研究記録グラフを予め学習された第2モデルの入力データとして一つ以上のテキスト文章を含む長文形態の研究記録情報を生成する段階をさらに含み、前記予め学習された第2モデルは、グラフアテンションネットワーク(Graph Attention Network)を活用したグラフデータ学習モデルを含み、エンコーダ(Encoder)およびデコーダ(Decoder)を含むトランスフォーマー(Transformer)構造を基盤とした自然語処理モデルであり得る。
【0017】
多様な実施例において、前記一つ以上のテキスト文章を含む長文形態の研究記録情報を生成する段階は、第1ユーザから第1定型化された研究記録データに対するテキスト変換の要請を受ける場合、前記第1定型化された研究記録データをグラフ化して第1研究記録グラフを生成する段階、前記生成された第1研究記録グラフを利用して第1長文形態の研究記録情報を生成し、前記生成された第1長文形態の研究記録情報を前記第1ユーザに提供する段階および前記第1ユーザから前記提供された第1長文形態の研究記録情報の少なくとも一部分が修正される場合、前記少なくとも一部分が修正された第1長文形態の研究記録情報と前記第1研究記録グラフを学習データとして前記予め学習された第2モデルを再学習させる段階を含むことができる。
【0018】
多様な実施例において、前記定型化された研究記録データを生成する段階は、第1定型化された研究記録データを利用して第1研究記録グラフを生成し、前記生成された第1研究記録グラフを利用して前記第1定型化された研究記録データに含まれた実験材料、実験装備および実験過程により実験をシミュレーションする段階および前記実験をシミュレーションした結果と前記第1定型化された研究記録データをマッチングして保存する段階を含むことができる。
【0019】
前述した課題を解決するための本発明の他の実施例に係る人工知能モデルの学習のための定型化された研究記録データ自動生成装置は、プロセッサ、ネットワークインターフェース、メモリおよび前記メモリにロード(load)され、前記プロセッサによって実行されるコンピュータプログラムを含むものの、前記コンピュータプログラムは、実験に関する研究記録情報を獲得するインストラクション(instruction)、予め保存された実験に関連したデータに基づいて前記獲得された研究記録情報を加工するインストラクションおよび前記加工された研究記録情報を利用して定型化された研究記録データを生成するインストラクションを含むことができる。
【0020】
前述した課題を解決するための本発明のさらに他の実施例に係るコンピュータで読み取り可能な記録媒体に記録されたコンピュータプログラムは、実験に関する研究記録情報を獲得する段階、予め保存された実験に関連したデータに基づいて前記獲得された研究記録情報を加工する段階および前記加工された研究記録情報を利用して定型化された研究記録データを生成する段階を含む人工知能モデルの学習のための定型化された研究記録データ自動生成方法を実行させるためにコンピュータで読み取り可能な記録媒体に保存され得る。
【0021】
本発明のその他の具体的な事項は、詳細な説明および図面に含まれている。
【発明の効果】
【0022】
本発明の多様な実施例によると、定型化されていない研究記録情報を加工して自動で定型化された研究記録データを生成することによって記録の便宜性を増大させ、記録の正確度を大幅に向上させ、研究過程および結果分析、共有および管理が容易なようにするだけでなく、前記の方法により定型化された研究記録データを学習データとして学習された人工知能モデルを通じて、特定の条件を満足する合成物質と該当合成物質を合成するためのガイド情報を導き出す合成物質開発プロセスを提供することによって、より便利かつ迅速に合成物質を開発できるように補助できるという利点がある。
【0023】
本発明の効果は以上で言及された効果に制限されず、言及されていないさらに他の効果は下記の記載から通常の技術者に明確に理解され得るであろう。
【図面の簡単な説明】
【0024】
図1】本発明の一実施例に係る人工知能モデルの学習のための定型化された研究記録データ自動生成システムを図示した図面である。
【0025】
図2】本発明の他の実施例に係る人工知能モデルの学習のための定型化された研究記録データ自動生成装置のハードウェア構成図である。
【0026】
図3】多様な実施例において、人工知能モデルの学習のための定型化された研究記録データ自動生成方法を説明するためのフローチャートである。
【0027】
図4】多様な実施例において、長文形態の研究記録情報を利用して定型化された研究記録データ自動生成方法を説明するためのフローチャートである。
【0028】
図5】多様な実施例において、長文形態の研究記録情報を利用して定型化された研究記録データ自動生成過程を図示した図面である。
図6】多様な実施例において、長文形態の研究記録情報を利用して定型化された研究記録データ自動生成過程を図示した図面である。
図7】多様な実施例において、長文形態の研究記録情報を利用して定型化された研究記録データ自動生成過程を図示した図面である。
【0029】
図8】多様な実施例において、キーワード入力を通じての定型化された研究記録データ自動生成方法を説明するためのフローチャートである。
【0030】
図9】多様な実施例において、キーワード入力を通じての定型化された研究記録データ自動生成過程を図示した図面である。
【0031】
図10】多様な実施例において、音声形態の研究記録情報を利用して定型化された研究記録データ自動生成過程を図示した図面である。
【0032】
図11】多様な実施例において、定型化された研究記録データを利用して長文形態の研究記録情報を生成する方法を説明するためのフローチャートである。
【0033】
図12】多様な実施例において、定型化された研究記録データを利用して長文形態の研究記録情報を生成する過程を図示した図面である。
図13】多様な実施例において、定型化された研究記録データを利用して長文形態の研究記録情報を生成する過程を図示した図面である。
図14】多様な実施例において、定型化された研究記録データを利用して長文形態の研究記録情報を生成する過程を図示した図面である。
【0034】
図15】多様な実施例において、定型化された研究記録データに基づいてシミュレーションを遂行する方法を説明するためのフローチャートである。
【0035】
図16】多様な実施例において、第1人工知能モデルを通じて合成物質および合成物質の合成のためのガイド情報を抽出する方法を説明するための図面である。
【0036】
図17】多様な実施例において、第2人工知能モデルを通じて合成物質に対する試験条件を設定する方法を説明するための図面である。
【0037】
図18】多様な実施例において、第3人工知能モデルを通じて、新薬開発時に新薬に適合な患者と投薬量を導き出す方法を説明するための図面である。
【0038】
図19】多様な実施例において、定型化された研究記録データ基盤非定型データを推薦提供する過程を図示した図面である。
【0039】
図20】多様な実施例において、定型化された研究記録データ基盤研究者を推薦マッチングする過程を図示した図面である。
【0040】
図21】多様な実施例に適用可能なユーザインターフェースの形態を例示的に図示した図面である。
図22】多様な実施例に適用可能なユーザインターフェースの形態を例示的に図示した図面である。
図23】多様な実施例に適用可能なユーザインターフェースの形態を例示的に図示した図面である。
図24】多様な実施例に適用可能なユーザインターフェースの形態を例示的に図示した図面である。
【発明を実施するための形態】
【0041】
本発明の利点および特徴、そしてそれらを達成する方法は、添付される図面と共に詳細に後述されている実施例を参照すると明確となるであろう。しかし、本発明は以下で開示される実施例に制限されるものではなく互いに異なる多様な形態で具現され得、ただし、本実施例は本発明の開示を完全なものとし、本発明が属する技術分野の通常の技術者に本発明の範疇を完全に知らせるために提供されるものであり、本発明は請求項の範疇によって定義されるのみである。
【0042】
本明細書で使われた用語は実施例を説明するためのものであって、本発明を制限しようとするものではない。本明細書で、単数型は文面で特に言及しない限り複数型も含む。明細書で使われる「含む(comprises)」および/または「含む(comprising)」は、言及された構成要素の他に一つ以上の他の構成要素の存在または追加を排除しない。明細書全体に亘って同じ図面符号は同じ構成要素を指称し、「および/または」は言及された構成要素のそれぞれおよび一つ以上のすべての組み合わせを含む。たとえ「第1」、「第2」等が多様な構成要素を叙述するために使われるが、これらの構成要素はこれらの用語によって制限されないことは言うまでもない。これらの用語は単に一つの構成要素を他の構成要素と区別するために使うものある。したがって、以下で言及される第1構成要素は本発明の技術的思想内で第2構成要素であってもよいことは言うまでもない。
【0043】
他の定義がない限り、本明細書で使われるすべての用語(技術および科学的用語を含む)は、本発明が属する技術分野の通常の技術者に共通して理解され得る意味で使われ得るであろう。また、一般的に使われる辞書に定義されている用語は、明白に特に定義されていない限り理想的にまたは過度に解釈されない。
【0044】
明細書で使われる「部」または「モジュール」という用語はソフトウェア、FPGAまたはASICのようなハードウェア構成要素を意味し、「部」または「モジュール」は何らかの役割を遂行する。しかし、「部」または「モジュール」はソフトウェアまたはハードウェアに限定される意味ではない。「部」または「モジュール」はアドレッシングできる保存媒体にあるように構成されてもよく、一つまたはそれ以上のプロセッサを再生させるように構成されてもよい。したがって、一例として、「部」または「モジュール」はソフトウェア構成要素、客体指向ソフトウェア構成要素、クラス構成要素およびタスク構成要素のような構成要素と、プロセス、関数、属性、プロシーザー、サブルーチン、プログラムコードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイおよび変数を含む。構成要素と「部」または「モジュール」内で提供される機能は、さらに小さい数の構成要素および「部」または「モジュール」で結合されるか追加的な構成要素と「部」または「モジュール」にさらに分離され得る。
【0045】
空間的に相対的な用語である「下(below)」、「下(beneath)」、「下部(lower)」、「上(above)」、「上部(upper)」などは、図面に図示されているように、一つの構成要素と他の構成要素との相関関係を容易に記述するために使われ得る。空間的に相対的な用語は、図面に図示されている方向に加え、使用時または動作時の構成要素の互いに異なる方向を含む用語と理解されるべきである。例えば、図面に図示されている構成要素をひっくり返す場合、他の構成要素の「下(below)」または「下(beneath)」で記述された構成要素は他の構成要素の「上(above)」に置かれ得る。したがって、例示的な用語である「下」は下と上の方向をすべて含むことができる。構成要素は他の方向へも配向され得、これに伴い、空間的に相対的な用語は配向に応じて解釈され得る。
【0046】
本明細書で、コンピュータは少なくとも一つのプロセッサを含むすべての種類のハードウェア装置を意味するものであり、実施例により該当ハードウェア装置で動作するソフトウェア的構成も包括する意味で理解され得る。例えば、コンピュータはスマートフォン、タブレットPC、デスクトップ、ノートパソコンおよび各装置で駆動されるユーザクライアントおよびアプリケーションをすべて含む意味で理解され得、また、これに制限されるものではない。
【0047】
以下、添付された図面を参照して本発明の実施例を詳細に説明する。
【0048】
本明細書で説明される各段階はコンピュータによって遂行されるものと説明されるが、各段階の主体はこれに制限されるものではなく、実施例により各段階の少なくとも一部が互いに異なる装置で遂行されてもよい。
【0049】
【0050】
図1は、本発明の一実施例に係る人工知能モデルの学習のための定型化された研究記録データ自動生成システムを図示した図面である。
【0051】
図1を参照すると、本発明の一実施例に係る人工知能モデルの学習のための定型化された研究記録データ自動生成システムは、定型化された研究記録データ自動生成装置100、ユーザ端末200、外部サーバー300およびネットワーク400を含むことができる。
【0052】
ここで、図1に図示された人工知能モデルの学習のための定型化された研究記録データ自動生成システムは一実施例によるものであり、その構成要素が図1に図示された実施例に限定されるものではなく、必要に応じて付加、変更または削除され得る。例えば、人工知能モデルの学習のための定型化された研究記録データ自動生成システムは、各種情報およびデータを保存および管理する外部サーバー300を別途に具備せず、定型化された研究記録データ自動生成装置100内に備えられる保存空間を利用して各種情報およびデータを保存および管理することができる。
【0053】
一実施例において、定型化された研究記録データ自動生成装置100はユーザから実験に対する研究記録情報の入力を受けることができ、入力された研究記録情報を予め設定された様式に合わせて自動で加工および記録することによって、人工知能モデルの学習のための定型化された研究記録データを生成することができる。
【0054】
また、定型化された研究記録データ自動生成装置100は定型化された研究記録データを記録および保存することができ、保存された定型化された研究記録データに含まれた各種情報をコンピューティング(Computing)して特定実験を仮想でシミュレーションするために定型化された研究記録データをコード化することによって、コード化された研究記録データを生成することができる。この時、定型化された研究記録データとコード化された研究記録データは相互に関連づけられて保存され得る。
【0055】
多様な実施例において、定型化された研究記録データ自動生成装置100は、前記の方法により定型化された研究記録データを学習データとして予め学習された人工知能モデルを通じて特定の条件を満足する合成物質を予測し、予測された合成物質を合成するためのガイド情報を抽出および提供する人工知能モデルの学習のための定型化された研究記録データ自動生成方法を提供することができる。
【0056】
多様な実施例において、定型化された研究記録データ自動生成装置100はネットワーク400を通じてユーザ端末200と連結され得、ユーザ端末200に人工知能モデルの学習のための定型化された研究記録データ自動生成方法および人工知能モデルを利用した合成物質開発プロセス提供方法を提供するためのユーザインターフェース(User Interface、UI)(例:グラフィクユーザインターフェース(Graphic User Interface、GUI)、図20~24の10)を提供することができる。
【0057】
ここで、ネットワーク400は複数の端末およびサーバーのようなそれぞれのノード相互間で情報の交換が可能な連結構造を意味し得る。例えば、ネットワーク400は近距離通信網(LAN:Local Area Network)、広域通信網(WAN:Wide Area Network)、インターネット(WWW:World Wide Web)、有線/無線データ通信網、電話網、有線/無線テレビ通信網などを含むことができる。
【0058】
また、ここで、無線データ通信網は3G、4G、5G、3GPP(3rd Generation Partnership Project)、5GPP(5th Generation Partnership Project)、LTE(Long Term Evolution)、WIMAX(World Interoperability for Microwave Access)、ワイファイ(Wi-Fi)、インターネット(Internet)、LAN(Local Area Network)、Wireless LAN(Wireless Local Area Network)、WAN(Wide Area Network)、PAN(Personal Area Network)、RF(Radio Frequency)、ブルートゥース(Bluetooth)ネットワーク、NFC(Near-Field Communication)ネットワーク、衛星放送ネットワーク、アナログ放送ネットワーク、DMB(Digital Multimedia Broadcasting)ネットワークなどを含むことができる。しかし、これに限定されず、同一または類似する技術分野に適用可能な他の汎用的なネットワークがさらに含まれ得る。
【0059】
多様な実施例において、定型化された研究記録データ自動生成装置100は特定のユーザから入力された研究記録情報に基づいて定型化された研究記録データを生成することができ、該当定型化された研究記録データを他のユーザに共有する定型化された研究記録データ共有サービスを提供することができる。
【0060】
例えば、定型化された研究記録データ自動生成装置100は、複数のユーザから入力された研究記録情報に基づいて生成された複数の定型化された研究記録データを保存および管理することができ、複数のユーザそれぞれに予め保存された定型化された研究記録データの検索および再現サービスを提供することができ、ユーザが検索および再現サービスを通じて自身が所望する定型化された研究記録データを検索して確認(例:データに記録された情報確認およびシミュレーション)できるように具現され得る。
【0061】
また、定型化された研究記録データ自動生成装置100は外部から定型化された研究記録データを持ち込んで保存するインポート機能(Import)および予め保存された定型化された研究記録データを外部に送りだすエクスポート(Export)機能を提供して、ユーザが予め保存された複数の定型化された研究記録データをダウンロードしたり、ユーザから外部で生成された定型化された研究記録データをアップロードできるように具現され得る。
【0062】
この時、コンピューティング装置100は多様な拡張子を支援して、外部に送りだす定型化された研究記録データの拡張子をユーザの要請に合わせて変換したり、外部から多様な拡張子を有する定型化された研究記録データをアップロードするなど、広い互換性を有するように具現され得る。
【0063】
多様な実施例において、定型化された研究記録データ自動生成装置100はユーザの要請によりウェブ(Web)またはアプリケーション(Application)基盤の人工知能モデルの学習のための定型化された研究記録データ自動生成方法および人工知能モデルを利用した合成物質開発プロセス提供方法を提供することができるが、これに限定されない。
【0064】
一実施例において、ユーザ端末200はネットワーク400を通じて定型化された研究記録データ自動生成装置100と連結され得、定型化された研究記録データ自動生成装置100から提供されたUIを通じて研究記録情報を入力することができ、研究記録情報を入力したことに対する応答として、研究記録情報に対応して生成された定型化された研究記録データの提供を受けることができる。
【0065】
また、ユーザ端末200は定型化された研究記録データ自動生成装置100から提供されたUIを通じて特定の条件を入力することができ、特定の条件を入力したことに対する応答として、特定の条件を満足する構造および特性を有する合成物質と該当合成物質を合成するためのガイド情報の提供を受けることができる。
【0066】
多様な実施例において、ユーザ端末200は定型化された研究記録データ自動生成装置100から提供されたアプリケーションをダウンロード、設置および実行することによって、定型化された研究記録データ自動生成装置100から人工知能モデルの学習のための定型化された研究記録データ自動生成方法および人工知能モデルを利用した合成物質開発プロセス提供方法の提供を受けることができる。
【0067】
このために、ユーザ端末200はアプリケーション駆動が可能な運営体制を含み、ユーザ端末200の少なくとも一部分にUI出力のためのディスプレイを含むスマートフォン(Smartphone)であり得る。しかし、これに限定されず、ユーザ端末200は、携帯性と移動性が保障される無線通信装置として、ナビゲーション、PCS(Personal Communication System)、GSM(Global System for Mobile communications)、PDC(Personal Digital Cellular)、PHS(Personal Handyphone System)、PDA(Personal Digital Assistant)、IMT(International Mobile Telecommunication)-2000、CDMA(Code Division Multiple Access)-2000、W-CDMA(W-Code Division Multiple Access)、Wibro(Wireless Broadband Internet)端末、スマートパッド(Smartpad)、タブレットPC(Tablet PC)などのようなすべての種類のハンドヘルド(Handheld)基盤の無線通信装置を含むことができる。
【0068】
一実施例において、外部サーバー300はネットワーク400を通じて定型化された研究記録データ自動生成装置100と連結され得、定型化された研究記録データ自動生成装置100が人工知能モデルの学習のための定型化された研究記録データ自動生成方法および人工知能モデルを利用した合成物質開発プロセス提供方法を遂行するために必要な各種情報/データ(例:実験材料に関連したデータ、研究および実験過程に関連したデータおよび結果データ様式など)を保存および管理したり、人工知能モデルの学習のための定型化された研究記録データ自動生成方法および人工知能モデルを利用した合成物質開発プロセス提供方法を遂行することによって生成される各種情報/データ(例:定型化(またはコード化)された研究記録データ)を保存および管理することができる。
【0069】
ここで、外部サーバー300は定型化された研究記録データ自動生成装置100の外部に別途に備えられる保存サーバーであり得るが、これに限定されない。以下、図2を参照して定型化された研究記録データ自動生成装置100のハードウェア構成について説明することにする。
【0070】
【0071】
図2は、本発明の他の実施例に係る人工知能モデルを利用した定型化された研究記録データ自動生成装置のハードウェア構成図である。
【0072】
図2を参照すると、多様な実施例において、定型化された研究記録データ自動生成装置100(以下、「コンピューティング装置100」)は一つ以上のプロセッサ110、プロセッサ110によって遂行されるコンピュータプログラム151をロード(Load)するメモリ120、バス130、通信インターフェース140およびコンピュータプログラム151を保存するストレージ150を含むことができる。ここで、図2には本発明の実施例に関連する構成要素のみ図示されている。したがって、本発明が属した技術分野の通常の技術者であれば、図2に図示された構成要素の他に他の汎用的な構成要素がさらに含まれ得ることが分かる。
【0073】
プロセッサ110はコンピューティング装置100の各構成の全般的な動作を制御する。プロセッサ110はCPU(Central Processing Unit)、MPU(Micro Processor Unit)、MCU(Micro Controller Unit)、GPU(Graphic Processing Unit)または本発明の技術分野に広く知られている任意の形態のプロセッサを含んで構成され得る。
【0074】
また、プロセッサ110は本発明の実施例に係る方法を実行するための少なくとも一つのアプリケーションまたはプログラムに対する演算を遂行することができ、コンピューティング装置100は一つ以上のプロセッサを具備することができる。
【0075】
多様な実施例において、プロセッサ110はプロセッサ110内部で処理される信号(またはデータ)を一時的および/または永久的に保存するラム(RAM:Random Access Memory、図示されず)およびロム(ROM:Read-Only Memory、図示されず)をさらに含むことができる。また、プロセッサ110はグラフィック処理部、ラムおよびロムのうち少なくとも一つを含むシステムオンチップ(SoC:system on chip)の形態で具現され得る。
【0076】
メモリ120は各種データ、命令および/または情報を保存する。メモリ120は本発明の多様な実施例に係る方法/動作を実行するためにストレージ150からコンピュータプログラム151をロードすることができる。メモリ120にコンピュータプログラム151がロードされると、プロセッサ110はコンピュータプログラム151を構成する一つ以上のインストラクションを実行することによって前記方法/動作を遂行できる。メモリ120はRAMのような揮発性メモリで具現され得るであろうが、本開示の技術的範囲はこれに限定されるものではない。
【0077】
バス130はコンピューティング装置100の構成要素間の通信機能を提供する。バス130はアドレスバス(address Bus)、データバス(Data Bus)および制御バス(Control Bus)等の多様な形態のバスで具現され得る。
【0078】
通信インターフェース140はコンピューティング装置100の有線/無線インターネット通信を支援する。また、通信インターフェース140はインターネット通信以外の多様な通信方式を支援してもよい。このために、通信インターフェース140は本発明の技術分野に広く知られている通信モジュールを含んで構成され得る。いくつかの実施例において、通信インターフェース140は省略されてもよい。
【0079】
ストレージ150はコンピュータプログラム151を非臨時的に保存することができる。コンピューティング装置100を通じて人工知能モデルの学習のための定型化された研究記録データ自動生成方法および人工知能モデルを利用した合成物質開発プロセス提供方法を遂行する場合、ストレージ150は人工知能モデルの学習のための定型化された研究記録データ自動生成方法および人工知能モデルを利用した合成物質開発プロセス提供方法を提供するために必要な各種情報を保存することができる。
【0080】
ストレージ150はROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、フラッシュメモリなどのような不揮発性メモリ、ハードディスク、着脱型ディスク、または本発明が属する技術分野で広く知られている任意の形態のコンピュータで読み取り可能な記録媒体を含んで構成され得る。
【0081】
コンピュータプログラム151はメモリ120にロードされる時、プロセッサ110に本発明の多様な実施例に係る方法/動作を遂行させる一つ以上のインストラクションを含むことができる。すなわち、プロセッサ110は前記一つ以上のインストラクションを実行することによって、本発明の多様な実施例に係る前記方法/動作を遂行できる。
【0082】
一実施例において、コンピュータプログラム151は実験に関する研究記録情報を獲得する段階、予め保存された実験に関連したデータに基づいて獲得された研究記録情報を加工する段階および加工された研究記録情報を利用して定型化された研究記録データを生成する段階を含む人工知能モデルの学習のための定型化された研究記録データ自動生成方法を遂行するようにする一つ以上のインストラクションを含むことができる。
【0083】
また、コンピュータプログラム151は一つ以上の条件を獲得する段階および獲得された一つ以上の条件を満足する合成物質に関する情報を抽出し、抽出された合成物質に関する情報に基づいて合成物質を合成するためのガイド情報を抽出する段階を含む人工知能モデルを利用した合成物質開発プロセス提供方法を遂行するようにする一つ以上のインストラクションを含むことができる。
【0084】
本発明の実施例に関連して説明された方法またはアルゴリズムの段階はハードウェアで直接具現されたり、ハードウェアによって実行されるソフトウェアモジュールで具現されたり、またはこれらの結合によって具現され得る。ソフトウェアモジュールはRAM(Random Access Memory)、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、フラッシュメモリ(Flash Memory)、ハードディスク、着脱型ディスク、CD-ROM、または本発明が属する技術分野で広く知られている任意の形態のコンピュータ読み取り可能記録媒体に常駐してもよい。
【0085】
本発明の構成要素はハードウェアであるコンピュータと結合されて実行されるためにプログラム(またはアプリケーション)で具現されて媒体に保存され得る。本発明の構成要素はソフトウェアプログラミングまたはソフトウェア要素で実行され得、これと同様に、実施例はデータ構造、プロセス、ルーチンまたは他のプログラミング構成の組み合わせで具現される多様なアルゴリズムを含んで、C、C++、ジャバ(Java)、アセンブラ(assembler)などのようなプログラミングまたはスクリプト言語で具現され得る。機能的な側面は一つ以上のプロセッサで実行されるアルゴリズムで具現され得る。以下、図3図15を参照してコンピューティング装置100により遂行される人工知能モデルの学習のための定型化された研究記録データ自動生成方法について説明することにする。
【0086】
【0087】
図3は、多様な実施例において、人工知能モデルの学習のための定型化された研究記録データ自動生成方法を説明するためのフローチャートである。
【0088】
図3を参照すると、S110段階で、コンピューティング装置100は実験に対する研究記録情報を獲得することができる。
【0089】
ここで、研究記録情報はユーザが実験または研究を遂行することによって生成される情報を意味し得る。例えば、研究記録情報は実験材料に対する情報、実験装備に対する情報、実験および研究過程に対する情報、実験および研究結果に対する情報を含むことができるが、これに限定されない。
【0090】
多様な実施例において、コンピューティング装置100はユーザが実験または研究を遂行することによって生成される実験に対する研究記録情報(例:実験材料に対する情報、実験装備に対する情報、実験および研究過程に対する情報、実験および研究結果に対する情報)をユーザから直接入力を受けることができる。
【0091】
多様な実施例において、コンピューティング装置100は国内外の主なバイオナノメーカーで遂行した実験に対する研究情報(例:物質、装備、属性、研究プロセス、実験方法など)をWebクローリングして収集することができる。しかし、これに限定されず、研究記録情報を獲得するためのすべての方法が適用が可能である。
【0092】
S120段階で、コンピューティング装置100はS110段階を経て獲得した研究記録情報を加工することができる。例えば、コンピューティング装置100は予め保存された実験に関連したデータに基づいて、S110段階を経て獲得した研究記録情報内で主なキーワード(例:材料、装備、合成方法などを示すキーワード)のみを抽出するなど、研究記録情報内に含まれた複数の情報を定型化された研究記録データ生成のための形態にで加工することができる。
【0093】
多様な実施例において、コンピューティング装置100は予め保存された実験と関連データと加工された研究記録情報を連動して保存することができる。例えば、コンピューティング装置100は研究記録情報に含まれた実験材料に関するキーワードを加工することによって生成された実験材料情報と予め保存された実験に関連したデータに含まれた実験材料に関するデータを連動して保存することができ、研究記録情報に含まれた研究および実験過程に関するキーワードを加工することによって生成された研究および実験過程情報と予め保存された実験に関連したデータに含まれた実験材料に関するデータを連動して保存することができる。これを通じて、正確なサンプル情報の確認が可能であるように具現され得る。
【0094】
また、コンピューティング装置100は予め設定された結果データ様式に基づいて、ユーザから入力された前記研究結果に関するキーワードを視覚化(例:イメージ化、グラフ化など)することができる。
【0095】
S130段階で、コンピューティング装置100はS120段階を経て加工された研究記録情報を利用して定型化された研究記録データ(Labnote)を生成することができる。例えば、コンピューティング装置100は図23に図示された通り、加工された研究記録情報(例:実験材料情報、研究および実験過程情報と視覚化された研究結果)をテンプレート化することによって、定型化された研究記録データを生成することができる。以下、図4図12を参照して、研究記録情報の形態に応じて研究記録情報を加工する方法について説明することにする。
【0096】
【0097】
図4は多様な実施例において、長文形態の研究記録情報を利用して定型化された研究記録データ自動生成方法を説明するためのフローチャートであり、図5図7は多様な実施例において、長文形態の研究記録情報を利用して定型化された研究記録データ自動生成過程を図示した図面である。
【0098】
図4図7を参照すると、S210段階で、コンピューティング装置100は一つ以上のテキスト文章を含む長文形態の研究記録情報を獲得できる(例:図5の21)。
【0099】
多様な実施例において、コンピューティング装置100は一つ以上の文章を含む長文や手記の形態で記録された研究記録情報をユーザから直接入力を受けることができる。
【0100】
多様な実施例において、コンピューティング装置100はWebクローリング等を通して外部から一つ以上の文章を含む長文形態の研究記録情報を収集することができる。しかし、これに限定されない。
【0101】
S220段階で、コンピューティング装置100は予め保存された実験に関連したデータ(例:論文および特許から抜粋した実験研究関連単語DB)に基づいて、長文形態の研究記録情報に含まれた複数の単語それぞれをトークン化(Tokenization)できる(例:図5の22)。例えば、コンピューティング装置100はWPM(Wordpiece model)を通じてBPE(Byte Pair Encodingで、自然語処理モデルで広く活用される情報圧縮アルゴリズム)の変形アルゴリズムでコーパス(corpus)の尤度(likelihood)を最大化する方式で複数の単語それぞれをトークン化することができる。
【0102】
ここで、トークン化される単語の意味は一つの単語であり得るが、これに限定されず、場合により二つ以上の単語を含む句、節、文章であり得る。例えば、「aqueous solution」の場合、「aqueous」と「solution」の二つの単語で構成されるが、二つの単語が結合されて一つの意味を表現するものであるところ、複数の単語を意味単位で分類/グループ化してそれぞれをトークン化することができる。
【0103】
多様な実施例において、コンピューティング装置100は長文形態の研究記録情報を分析して実験材料に関するキーワード、研究および実験過程に関するキーワードおよび研究結果に関するキーワードを抽出することができ、抽出されたキーワードに対応する単語のみを選択的にトークン化することができる。
【0104】
多様な実施例において、コンピューティング装置100は長文形態の研究記録情報を分析(例:OCR分析など)して長文形態の研究記録情報から複数のキーワードを抽出することができ、抽出された複数のキーワードとデータベースに予め保存されたデータ(例:実験材料別キーワードデータ、研究および実験過程別キーワードデータおよび研究結果別キーワードデータ)をマッチングすることによって、抽出された複数のキーワードを実験材料に関するキーワード、研究および実験過程に関するキーワードおよび研究結果に関するキーワードに分類することができる。
【0105】
すなわち、コンピューティング装置100は予め保存された実験材料別キーワードデータ、研究および実験過程別キーワードデータおよび研究結果別キーワードデータに基づいて、長文形態の研究記録情報から抽出された複数のキーワードそれぞれが実験材料を指すものであるか、研究および実験過程を指すものであるかまたは研究結果を指すものであるかを判断し、判断結果によりキーワードをカテゴリー別に分類することができる。
【0106】
ここで、コンピューティング装置100は予め保存された実験材料別キーワードデータ、研究および実験過程別キーワードデータおよび研究結果別キーワードデータを学習データとして予め学習された人工知能モデルを利用して文字列分析およびキーワード抽出動作を遂行できるが、これに限定されない。
【0107】
多様な実施例において、コンピューティング装置100は長文形態の研究記録情報を分析して実験材料に関するキーワード、研究および実験過程に関するキーワードおよび研究結果に関するキーワードを抽出するものの、抽出されたキーワードのうち定型化された研究記録データ生成のために必須的に必要な情報に対応するキーワードが抽出されない場合、該当キーワードが抽出されるまで長文形態の研究記録情報を繰り返して再分析することができる。
【0108】
この時、コンピューティング装置100は長文形態の研究記録情報を予め設定された回数(N回)の間再分析したにもかかわらず、該当キーワードが抽出されない場合、該当キーワードに対応する情報を入力することを案内する案内情報を提供することができる。これを通じて、定型化された研究記録データを生成するにおいて、必須的に入力されなければならない重要な条件および情報をもれなく入力できるように補助することができる。
【0109】
S230段階で、コンピューティング装置100はS220段階を経てトークン化された複数の単語それぞれに対する属性情報をラベリング(Labeling)して加工された研究記録情報を生成することによって(例:図5の23)、複数の単語それぞれに属性情報がラベリングされた研究記録情報、すなわち加工された研究記録情報を生成することができる。例えば、コンピューティング装置100は予め保存された実験に関連したデータ(例:論文および特許から抜粋した実験研究関連単語DB)に基づいて複数の単語それぞれの属性を判断することができ、判断された属性による属性情報を複数の単語それぞれにラベリングすることができる。
【0110】
多様な実施例において、Named Entity Recognitionを通じてトークン化された単語に対するラベリングを遂行できる。
【0111】
S240段階で、コンピューティング装置100はS230段階を経て生成された加工された研究記録情報を利用して研究記録グラフを生成することができる。また、コンピューティング装置100は研究記録グラフを利用して定型化された研究記録データを生成することができる。
【0112】
多様な実施例において、コンピューティング装置100は予め学習された第1モデル(Text2Labnoteモデル)を利用して研究記録グラフを生成することができる。
【0113】
ここで、予め学習された第1モデルは図6に図示された通り、複数のエンコーダ(encoder)を含むトランスフォーマー(Transformer)構造を基盤とするドメイン言語学習モデル(例:BERT(Bidirectional Encoder Representations from Transformers)モデル)であり得る。
【0114】
また、予め学習された第1モデルは複数の長文形態の研究記録情報および複数の長文形態の研究記録情報それぞれに対応する複数の研究記録グラフを学習データとして学習されたモデルであり得るが、これに限定されない。
【0115】
まず、コンピューティング装置100は属性情報がラベリングされた複数の単語を含む加工された研究記録情報を予め学習された第1モデルの入力データとして隣接行列(Adjacency matrix)を生成することができる。
【0116】
その後、コンピューティング装置100は隣接行列を利用して研究記録グラフを生成することができる。この時、研究記録グラフは複数の単語それぞれに対応するノード(node)と複数の単語それぞれを連結するエッジ(edge)を含むことができるが、これに限定されない。例えば、コンピューティング装置100は図7に図示された通り、隣接行列のi行j列セルの値(
)を利用してノードiとノードj間の連結関係を判断することができ、複数のノードそれぞれの連結関係により複数のノードの間を連結しないかまたは連結することによって研究記録グラフを生成することができる。
【0117】
その後、コンピューティング装置100は生成された研究記録グラフを利用して定型化された研究記録データを生成できる(例:S130段階)。例えば、コンピューティング装置100は図23に図示された通り、UI10上に複数の単語それぞれに対応するカード16を配置するものの、研究記録グラフにより複数の単語それぞれに対応するカード16の配置形態および配置順序を決定できるが、これに限定されない。
【0118】
多様な実施例において、コンピューティング装置100は第1モデルを通じて、電子装置によって作成されたテキスト形態の研究記録情報だけでなくユーザが直接手記で作成した研究記録情報を定型化された研究記録データに変換することができる。このために、コンピューティング装置100は電子装置によって作成されたテキスト形態の研究記録情報およびこれに対応する定型化されたデータを学習した第1モデルと手記形態の研究記録情報およびこれに対応する定型化された研究記録データを学習した第2モデルを別途に構築することができる。
【0119】
【0120】
図8は多様な実施例において、キーワード入力を通じての定型化された研究記録データ自動生成方法を説明するためのフローチャートであり、図9は多様な実施例において、キーワード入力を通じての定型化された研究記録データ自動生成過程を図示した図面である。
【0121】
図8および9を参照すると、図9を参照すると、S310段階で、コンピューティング装置100は研究記録情報の入力のためのUI(例:図21図24の10)を提供することができ、UIを通じて実験材料に関するキーワード、研究および実験過程に関するキーワードおよび研究結果に関するキーワードのうち少なくとも一つを含むキーワードを検索語として入力を受けることができる。
【0122】
ここで、研究記録情報が実験材料に対する情報、実験装備に対する情報および実験および研究過程に対する情報を含むところ、UI10は実験材料に対する情報の入力を受ける機能、実験装備に対する情報の入力を受ける機能および実験および研究過程に対する情報の入力を受ける機能を含むことができる。
【0123】
より具体的には、まず、コンピューティング装置100は図21および図22に図示された通り、ユーザが第1ボタン11を選択することに応答して実験材料に対する情報の入力のためのUI14を提供することができる。この時、コンピューティング装置100はユーザが第1ボタン11を選択することによってポップアップ形態で実験材料に対する情報の入力のためのUI14を提供することができるが、これに限定されない。
【0124】
その後、コンピューティング装置100は実験材料に対する情報の入力のためのUI14を通じて実験材料に関するキーワードの入力を受けることができる。例えば、コンピューティング装置100は実験材料に対する情報の入力のためのUI14を通じてニックネーム(Nickname)に関するキーワード、元素記号(Chemical)に関するキーワード、製品番号(Product number)に関するキーワード、状態(state)に関するキーワード、溶媒(Solvent)に関するキーワード、体積(Volume)に関するキーワードおよび濃度(Concentration)に関するキーワード(追加的に、該当実験材料に対する別途のコメント)の入力を受けることができる。
【0125】
図面に図示されてはいないが、前記と同様に、コンピューティング装置100はユーザが第2ボタン12を選択することに応答して実験装備に対する情報の入力のためのUIを提供することによって、実験装備に対する情報の入力のためのUIを通じて実験装備に関するキーワードの入力を受けることができ、ユーザが第3ボタン13を選択することに応答して実験および研究過程に対する情報の入力のためのUIを提供することによって、実験および研究過程に関するキーワードの入力を受けることができる。
【0126】
S320段階で、コンピューティング装置100は予め保存された実験に関連したデータに基づいてユーザから入力された一つ以上のキーワードに対応する実験に関連したデータを選択することができる。例えば、コンピューティング装置100は図9に図示された通り、ユーザからキーワードとして「酢酸(Acetic ac)」の入力を受ける場合、予め保存された実験に関連したデータのうち酢酸に関する情報を含むデータを選択することができるが、これに限定されない。
【0127】
多様な実施例において、コンピューティング装置100はユーザから入力された一つ以上のキーワードに対応する実験に関連したデータが複数個である場合、ユーザの検索履歴に基づいて複数の実験に関連したデータのうち一つ以上の実験に関連したデータを選択して推薦データとしてユーザに提供することができ、ユーザから推薦データとして提供された一つ以上の実験に関連したデータのうちいずれか一つのデータの選択を受けることができる。例えば、コンピューティング装置100は酢酸に関する情報を含むデータが複数個である場合、複数のデータのうちユーザの検索履歴に基づいて最後に検索(または選択)されたデータまたは最も多く検索(または選択)されたデータを推薦データとして提供することができる。
【0128】
多様な実施例において、コンピューティング装置100はユーザから入力された一つ以上のキーワードに対応する実験に関連したデータが複数個である場合、ユーザと同一の研究分野を研究する複数のユーザの検索履歴に基づいて、複数の実験に関連したデータのうち一つ以上の実験に関連したデータを選択して推薦データとしてユーザに提供することができる。
【0129】
S330段階で、コンピューティング装置100はS320段階を経て選択された実験に関連したデータを利用して、ユーザから入力された一つ以上のキーワードに対応する研究記録情報を自動完成することができる。しかし、これに限定されない。例えば、コンピューティング装置100はユーザから選択されたデータ(キーワードに対応する実験に関するデータ)に含まれた情報を定型化された研究記録データを生成するためのテンプレート上に自動的に配置することができる。
【0130】
その後、コンピューティング装置100は自動完成された研究記録情報を利用して定型化された研究記録データを生成することができる。ここで、定型化された研究記録データを生成する方法は図3のS130段階と同一の形態で具現され得るが、これに限定されない。
【0131】
【0132】
図10は、多様な実施例において、音声形態の研究記録情報を利用して定型化された研究記録データ自動生成過程を図示した図面である。
【0133】
図10を参照すると、S410段階で、UIを通じてユーザから音声形態の研究記録情報を獲得することができる。例えば、コンピューティング装置100はユーザ端末200とネットワーク400で連結され得、ユーザ端末200内に別途に備えられるマイク(例;スマートフォン、ノートパソコン)またはユーザ端末200と連結される外部マイクを通じて入力される音声形態の研究記録情報を収集することができる。しかし、これに限定されない。
【0134】
S420段階で、コンピューティング装置100はS410段階を経て獲得した音声形態の研究記録情報を自然語処理(NLP)してテキスト形態の研究記録情報に変換することができる。
【0135】
ここで、音声形態の情報を自然語処理してテキスト形態の情報に変換する方式は多様な技術が公知になっており、このような公知技術を選択的に適用できるところ、具体的な方法については言及しない。
【0136】
また、コンピューティング装置100はテキスト形態の研究記録情報を分析して一つ以上のキーワードを抽出することができる。例えば、コンピューティング装置100は予め保存された実験材料別キーワードデータ、研究および実験過程別キーワードデータおよび研究結果別キーワードデータを学習データとして予め学習された人工知能モデルを利用して文字列分析およびキーワード抽出動作を遂行できるが、これに限定されない。
【0137】
多様な実施例において、コンピューティング装置100はS410段階で入力された音声形態の研究記録情報がユーザ端末200に備えられた音声入力装置を通じてリアルタイムで入力されるものである場合、音声入力装置が駆動された時点からリアルタイムで入力される音声入力装置を分析(例:自然語処理)することによって一つ以上のキーワードを抽出することができる。
【0138】
この時、コンピューティング装置100は音声入力装置の駆動が終了する場合、音声入力装置を通じて入力された音声形態の研究記録情報全体を再分析してリアルタイムで抽出された一つ以上のキーワードに対する検証を遂行できる。例えば、コンピューティング装置100は音声形態の研究記録情報全体を再分析してリアルタイムで抽出されたキーワードの有効性(例:抽出されたキーワードが正確に抽出されたかどうかおよび誤ったキーワードが抽出されたかどうか)を判断したり、抽出できなかったキーワードがあるかどうかを確認することができる。
【0139】
S430段階で、コンピューティング装置100は予め保存された実験に関連したデータに基づいて、S420段階を経て抽出された一つ以上のキーワードに対応する実験に関連したデータを選択することができる。ここで、キーワードに対応する実験に関するデータを選択する過程は図8のS320段階と同一または類似する形態で具現され得るが、これに限定されない。
【0140】
S440段階で、コンピューティング装置100はS430段階を経て選択された実験に関連したデータを利用して、ユーザから入力された一つ以上のキーワードに対応する研究記録情報を自動完成することができる。ここで、研究記録情報を自動完成する過程は図8のS330段階と同一または類似する形態で具現され得るが、これに限定されない。
【0141】
S450段階で、コンピューティング装置100は研究および実験に使われる複数の装備それぞれに備えられるセンサから装備使用情報を獲得することができ、研究および実験に使われる複数の材料それぞれに備えられるセンサから材料使用情報を獲得することができ、獲得された装備使用情報および獲得された材料使用情報を通じて装備および材料の使用を認識することによって加工された研究記録情報を生成することができる。
【0142】
例えば、コンピューティング装置100は研究および実験に使われる装備それぞれに備えられるセンサ(例:位置センサ、動きセンサなど)と連結され得、該当センサから収集されるセンサデータを基づいて装備使用情報(例:装備の使用の有無および使われた装備の種類など)を認識(例:特定装備の位置が予め設定された距離以上移動した場合、または特定装備に対する動きが感知された場合等)することができる。
【0143】
また、コンピューティング装置100は実験材料の容器および試薬瓶などに付着されたRFIDを活用して材料使用情報(例:材料の使用の有無、使われた材料の種類および量ンなど)を認識および追跡することができる。しかし、これに限定されない。以下、図12図14を参照して、定型化された研究記録データを利用して長文形態の研究記録情報を生成する過程について説明することにする。
【0144】
その後、コンピューティング装置100は自動完成された研究記録情報を利用して定型化された研究記録データを生成することができる。ここで、定型化された研究記録データを生成する方法は図3のS130段階と同一の形態で具現され得るが、これに限定されない。以下、図12図14を参照して、定型化された研究記録データを利用して長文形態の研究記録情報を生成する過程について説明することにする。
【0145】
【0146】
図11は多様な実施例において、定型化された研究記録データを利用して長文形態の研究記録情報を生成する方法を説明するためのフローチャートであり、図12図14は多様な実施例において、定型化された研究記録データを利用して長文形態の研究記録情報を生成する過程を図示した図面である。
【0147】
図11~14を参照すると、S510段階で、コンピューティング装置100はユーザから定型化された研究記録データを含む長文形態の研究記録情報生成要請を獲得することができる。
【0148】
S520段階で、コンピューティング装置100はS510段階を経て獲得される長文形態の研究記録情報生成要請に含まれた定型化された研究記録データを利用して研究記録グラフを生成することができる。ここで、定型化された研究記録データは研究記録グラフに基づいて生成されるものであるところ、コンピューティング装置100は逆変換することによって定型化された研究記録データに対応する研究記録グラフを生成することができる。しかし、これに限定されない。
【0149】
S530段階で、コンピューティング装置100はS520段階を経て生成された研究記録グラフを利用して一つ以上のテキスト文章を含む長文形態の研究記録情報を生成することができる。
【0150】
多様な実施例において、コンピューティング装置100は研究記録グラフを予め学習された第2モデル(Labnote2Textモデル)の入力データとして一つ以上のテキスト文章を含む長文形態の研究記録情報を生成することができる。
【0151】
ここで、予め学習された第2モデルは図12および13に図示された通り、エンコーダ(Encoder)およびデコーダ(Decoder)を含むトランスフォーマー(Transformer)構造を基盤とした自然語処理モデル(例:sequence to sequence自然語処理モデル)であり得るが、これに限定されない。
【0152】
また、予め学習された第2モデルはアテンションメカニズム(Attention mechanism)を活用したグラフデータ学習モデルであって、研究記録グラフ形態に変換された定型化された研究記録データを第2モデルのベースモデル(Base model)として活用可能であるように、図14に図示された通り、GAP(Graph Attention Network)を製作/構築することができるが、これに限定されない。
【0153】
また、予め学習された第2モデルは複数の長文形態の研究記録情報および複数の長文形態の研究記録情報それぞれに対応する複数の研究記録グラフを学習データとして学習されたモデルであり得るが、これに限定されない。
【0154】
多様な実施例において、コンピューティング装置100は第1モデルと第2モデルを相互に連動させて入出力データを通じて第1モデルおよび第2モデルを学習させることができる。例えば、第1モデルは長文形態の研究記録情報を入力として研究記録グラフを出力するモデルであり、第2モデルは研究記録グラフを入力として長文形態の研究記録情報を出力するモデルであるところ、第1モデルの出力を第2モデルの入力とし、第2モデルの出力を第1モデルの入力とし、第1モデルおよび第2モデルそれぞれが入出力データを学習データとして第1モデルおよび第2モデルを学習させることができる。
【0155】
その後、コンピューティング装置100は前記の方法により生成される長文形態の研究記録情報をユーザに提供することができる。
【0156】
すなわち、ユーザは研究記録情報を入力することにより定型化された研究記録データを生成することによって研究記録の管理および共有をより容易に遂行することができ、論文、特許などの文書を作成するために長文形態で研究記録を作成しようとする場合、定型化された研究記録データを再び長文形態の研究記録情報に変換することによって、より迅速かつ便利に作成が可能であるという利点がある。
【0157】
多様な実施例において、コンピューティング装置100は第1ユーザから第1定型化された研究記録データに対するテキスト変換の要請を受ける場合、第1定型化された研究記録データをグラフ化して第1研究記録グラフを生成し、生成された第1研究記録グラフを通じて第1長文形態の研究記録情報を生成して第1ユーザに提供するものの、第1ユーザから第1長文形態の研究記録情報の少なくとも一部分が修正される場合、少なくとも一部分が修正された第1長文形態の研究記録情報と第1研究記録グラフを学習データとして予め学習された第2モデルを再学習させることができる。これを通じて、定型化された研究記録データのテキスト変換性能を向上させることができる。
【0158】
多様な実施例において、コンピューティング装置100は定型化された研究記録データを利用して、実験および研究をシミュレーションすることができる。以下、図15を参照して説明することにする。
【0159】
【0160】
図15は、多様な実施例において、定型化された研究記録データに基づいてシミュレーションを遂行する方法を説明するためのフローチャートである。
【0161】
図15を参照すると、S610段階で、コンピューティング装置100は第1定型化された研究記録データに含まれた実験材料、実験装備および実験過程により実験をシミュレーションすることができる。
【0162】
まず、コンピューティング装置100は定型化された研究記録データ基盤の実験シミュレーションを遂行するために、クラウドラボ(無人自動研究室、バーチャルラボ(Virtual Lab))を構築することができる。
【0163】
ここで、クラウドラボはクラウドなどの資料共有システムを活用したプラットホーム基盤の研究および実験空間であって、外部から持ち込んだデータ(例:コンピューティング装置100で提供される定型化された研究記録データ)に基づいて特定研究および実験を仮想でシミュレーションしたり、研究および実験に関する内容および結果を時、空間の制約なしに多数のユーザと共有可能な空間を意味し得る。ここで、クラウドラボを構築しこれを利用する方法はすでに公知になっている技術であるところ、本明細書でクラウドラボを構築しこれを利用する具体的な方法について叙述しなくても、当業者であれば容易に認識できるであろう。
【0164】
その後、コンピューティング装置100は定型化された研究記録データに基づいて仮想の研究および実験をコンピューティングするために、定型化された研究記録データをコンピュータ読み取り可能なコード形態に変換することによって、コード化された研究記録データを生成することができ、生成されたコード化された研究記録データをクラウドラボに提供することができ、クラウドラボを動作させてコード化された研究記録データ基盤の実験をシミュレーションすることができる。例えば、コンピューティング装置100は第1定型化された研究記録データを利用して第1研究記録グラフを生成(コード化)し、第1研究記録グラフを利用して第1定型化された研究記録データに含まれた実験材料、実験装備および実験過程により実験をシミュレーションすることができる。しかし、これに限定されない。
【0165】
ここで、クラウドラボを通じてシミュレーションされるコード化された研究記録データは、ユーザが入力した研究記録情報に基づいて定型化された研究記録データが生成されるたびにすべての定型化された研究記録データを対象に自動的に遂行されるか、またはユーザから特定の定型化された研究記録データに対するシミュレーションの要請を受ける場合、該当定型化された研究記録データに対してのみシミュレーションを遂行できる。
【0166】
S620段階で、コンピューティング装置100はクラウドラボを通じてコード化された研究記録データ基盤の実験をシミュレーションした結果(例:コード化された研究記録データに含まれた実験材料と実験過程により導き出される物質の構造および構成と該当物質の特性など)をシミュレーションに使われたコード化された研究記録データとマッチングして保存することができる。
【0167】
S520段階で、コンピューティング装置100はクラウドラボを通じてコード化された研究記録データ基盤の実験をシミュレーションした結果(例:コード化された研究記録データに含まれた実験材料と実験過程により導き出される物質の構造および構成と該当物質の特性など)をシミュレーションに使われたコード化された研究記録データとマッチングして保存することができる。
【0168】
この時、クラウドラボでシミュレーション結果をコード化された研究記録データに含まれた研究結果情報に追加して保存することができ、コンピューティング装置100はシミュレーション結果が追加されて保存されたコード化された研究記録データをクラウドラボから提供されて保存および管理することができる。以下、図16図20を参照して、コンピューティング装置によって遂行される人工知能モデルを利用した合成物質開発プロセス提供方法について説明することにする。
【0169】
【0170】
図16は、多様な実施例において、第1人工知能モデルを通じて合成物質および合成物質の合成のためのガイド情報を抽出する方法を説明するための図面である。
【0171】
図16を参照すると、コンピューティング装置100は特定構造および特性を有する合成物質に関する情報と該当合成物質を合成させるためのガイド情報を抽出および提供することができる。図16図18で、合成物質は新薬開発のための候補物質であるものとして説明しており、これに限定されない。
【0172】
以下では、開示された実施例に係る合成物質開発プロセスを説明するために新薬開発の例示を挙げて説明しているが、開示された実施例に係る合成物質開発プロセスは新薬の他にも多様な分野の合成物質の開発に活用され得る。
【0173】
例えば、開示された実施例に係る合成物質開発プロセスは、半導体材料の耐熱性を高めるための合成物質開発、バッテリー材料の電気伝導度を高めるための合成物質開発等の多様な領域に活用され得、特定の分野に限定されない。
【0174】
S710段階で、コンピューティング装置100は第1人工知能モデルを生成および学習させることができる。
【0175】
ここで、第1人工知能モデル(または演算モデル、ニューラルネットワーク、ネットワーク関数、ニューラルネットワーク(neural network))は一つ以上のネットワーク関数で構成され、一つ以上のネットワーク関数は一般的に「ノード」と指称され得る相互に連結された計算単位の集合で構成され得る。このような「ノード」は「ニューロン(neuron)」と指称されてもよい。一つ以上のネットワーク関数は少なくとも一つ以上のノードを含んで構成される。一つ以上のネットワーク関数を構成するノード(またはニューロン)は一つ以上の「リンク」により相互に連結され得る。
【0176】
第1人工知能モデル内で、リンクを通じて連結された一つ以上のノードは相対的に入力ノードおよび出力ノードの関係を形成することができる。入力ノードおよび出力ノードの概念は相対的なものであり、一つのノードに対して出力ノードの関係にある任意のノードは、他のノードとの関係において入力ノードの関係にあり得、その逆も成立できる。前述した通り、入力ノード対出力ノードの関係はリンクを中心に生成され得る。一つの入力ノードに一つ以上の出力ノードがリンクを通じて連結され得、その逆も成立できる。
【0177】
一つのリンクを通じて連結された入力ノードおよび出力ノードの関係において、出力ノードは入力ノードに入力されたデータに基づいてその値が決定され得る。ここで入力ノードと出力ノードを相互に連結するノードは加重値(weight)を有することができる。加重値は可変的であり得、第1人工知能モデルが所望する機能を遂行するために、ユーザまたはアルゴリズムによって可変され得る。例えば、一つの出力ノードに一つ以上の入力ノードがそれぞれのリンクによって相互に連結された場合、出力ノードは前記出力ノードと連結された入力ノードに入力された値およびそれぞれの入力ノードに対応するリンクに設定された加重値に基づいて出力ノード値を決定することができる。
【0178】
前述した通り、第1人工知能モデルは一つ以上のノードが一つ以上のリンクを通じて相互に連結されて第1人工知能モデル内で入力ノードおよび出力ノードの関係を形成する。第1人工知能モデル内でノードとリンクの個数およびノードとリンクの間の相関関係、リンクそれぞれに付与された加重値の値により、第1人工知能モデルの特性が決定され得る。例えば、同じ個数のノードおよびリンクが存在し、リンクの間の加重値の値が異なる二つの第1人工知能モデルが存在する場合、二つの第1人工知能モデルは互いに異なるものと認識され得る。
【0179】
第1人工知能モデルを構成するノードのうち一部は、最初の入力ノードからの距離に基づいて、一つのレイヤ(layer)を構成することができる。例えば、最初の入力ノードから距離がnであるノードの集合は、nレイヤを構成することができる。最初の入力ノードからの距離は、最初の入力ノードから該当ノードまでに到達するために経なければならないリンクの最小個数によって定義され得る。しかし、このようなレイヤの定義は説明のための任意的なものであって、第1人工知能モデル内でレイヤの次数は前述したものと異なる方法で定義され得る。例えば、ノードのレイヤは最終の出力ノードからの距離によって定義されてもよい。
【0180】
最初の入力ノードは第1人工知能モデル内のノードのうち、他のノードとの関係でリンクを経ずにデータが直接入力される一つ以上のノードを意味し得る。または第1人工知能モデルネットワーク内で、リンクを基準としたノード間の関係において、リンクで連結された他の入力ノードを有さないノードを意味し得る。これと同様に、最終の出力ノードは第1人工知能モデル内のノードのうち、他のノードとの関係において、出力ノードを有さない一つ以上のノードを意味し得る。また、隠れノードは最初の入力ノードおよび最後の出力ノードではない第1人工知能モデルを構成するノードを意味し得る。本開示の一実施例に係る第1人工知能モデルは、入力レイヤのノードが出力レイヤに近い隠れレイヤのノードより多くてもよく、入力レイヤから隠れレイヤに進行されるにつれてノード数が減少する形態の第1人工知能モデルであり得る。
【0181】
第1人工知能モデルは一つ以上の隠れレイヤを含むことができる。隠れレイヤの隠れノードは、以前のレイヤの出力と周辺の隠れノードの出力を入力にすることができる。各隠れレイヤ別隠れノードの数は同一であってもよく、異なってもよい。入力レイヤのノード数は入力データのデータフィールドの数に基づいて決定され得、隠れノードの数と同一であってもよく、異なってもよい。入力レイヤに入力された入力データは隠れレイヤの隠れノードによって演算され得、出力レイヤである完全連結レイヤ(FCL:fully connected layer)により出力され得る。
【0182】
多様な実施例において、コンピューティング装置100は第1人工知能モデルを学習させるための学習データを構築することができ、構築された学習データを利用して教師あり学習(supervised learning)、教師なし学習(unsupervised learning)、および半教師あり学習(semi supervised learning)のうち少なくとも一つの方式で第1人工知能モデルを学習させることができる。
【0183】
第1人工知能モデルの学習は出力のエラーを最小化するためのものである。第1人工知能モデルの学習で反復的に学習データを第1人工知能モデルに入力させて学習データに対する第1人工知能モデルの出力とターゲットのエラーを計算し、エラーを減らすための方向に第1人工知能モデルのエラーを第1人工知能モデルの出力レイヤから入力レイヤ方向に逆伝播(backpropagation)して第1人工知能モデルの各ノードの加重値をアップデートする過程である。
【0184】
教師あり学習の場合、それぞれの学習データに正解がラベリングされている学習データを使用し(すなわち、ラベリングされた学習データ)、教師なし学習の場合にはそれぞれの学習データに正解がラベリングされていなくてもよい。すなわち、例えばデータ分類に関する教師あり学習の場合の学習データは学習データそれぞれにカテゴリーがラベリングされたデータであり得る。ラベリングされた学習データが第1人工知能モデルに入力され、第1人工知能モデルの出力(カテゴリー)と学習データのラベルを比較することによってエラー(error)が計算され得る。
【0185】
他の例として、データ分類に関する教師なし学習の場合、入力である学習データが第1人工知能モデル出力と比較されることによってエラーが計算され得る。計算されたエラーは、第1人工知能モデルで逆方向(すなわち、出力レイヤから入力レイヤ方向)に逆伝播され、逆伝播により第1人工知能モデルの各レイヤの各ノードの連結加重値がアップデートされ得る。アップデートされる各ノードの連結加重値は学習率(learning rate)により変化量が決定され得る。
【0186】
入力データに対する第1人工知能モデルの計算とエラーの逆伝播は学習サイクル(epoch)を構成することができる。学習率は第1人工知能モデルの学習サイクルの反復回数により異なって適用され得る。例えば、第1人工知能モデルの学習初期には高い学習率を使って第1人工知能モデルが速やかに一定水準の性能を確保するようにして効率性を高め、学習後期には低い学習率を使って正確度を高めることができる。
【0187】
第1人工知能モデルの学習で一般的に学習データは実際のデータ(すなわち、学習された第1人工知能モデルを利用して処理しようとするデータ)の部分集合であり得、したがって、学習データに対するエラーは減少するが実際のデータに対してはエラーが増加する学習サイクルが存在し得る。過剰適合(overfitting)はこのように学習データに過度に学習して実際のデータに対するエラーが増加する現象である。例えば、黄色の猫を見せて猫を学習した第1人工知能モデルが黄色以外の猫を見ては猫であることを認識できない現象が過剰適合の一種であり得る。
【0188】
過剰適合はマシンラーニングアルゴリズムのエラーを増加させる原因として作用し得る。このような過剰適合を防ぐために多様な最適化方法が使われ得る。過剰適合を防ぐためには、学習データを増加させたり、レギュラリゼーション(regularization)、学習の過程でネットワークのノードの一部を省略するドロップアウト(dropout)等の方法が適用され得る。
【0189】
多様な実施例において、コンピューティング装置100は複数の合成物質それぞれの属性情報(例:構造、特性情報)と複数の合成物質それぞれを合成するための情報(例:複数の合成物質それぞれを合成するための材料、装備および合成方法に関する情報など)を学習データとして第1人工知能モデルを学習させることができる。しかし、これに限定されず、コンピューティング装置100は複数の合成方法それぞれに対する歩留まり情報を学習データとして第1人工知能モデルを学習させることができる。
【0190】
S720段階で、コンピューティング装置100はユーザから一つ以上の条件を獲得することができる。ここで、一つ以上の条件は合成物質が有さなければならない性質(例:特定疾病に対する効果がなければならないなど)を意味し得るが、これに限定されない。
【0191】
S730段階で、コンピューティング装置100はS720段階を経て獲得された一つ以上の条件を第1人工知能モデルの入力値として一つ以上の条件を満足する構造および特性を有する合成物質を予測し、予測された合成物質を合成するための材料、装備および合成方法を含む結果値を抽出することができる。
【0192】
一例として、コンピューティング装置100はユーザから入力された条件が「疾病zに効果がありながら、歩留まり90%以上」である場合、該当条件を第1人工知能モデルに入力することによって、疾病zに効果があるように最適化された構造および特性を有する合成物質を予測することができ、予測された合成物質により該当合成物質を生成するための材料を判断することができ、該当合成物質を合成させることができながらも歩留まり90%以上となるようにする合成方法とこれを遂行するために必要な装備を判断して結果値として抽出することができる。
【0193】
第1人工知能モデルは複数の合成物質それぞれの属性情報(例:構造、特性情報)と複数の合成物質それぞれを合成するための情報(例:複数の合成物質それぞれを合成するための材料、装備および合成方法)および合成方法別歩留まり情報を「特定材料、特定装備、特定合成過程で合成時に歩留まりN%であって特定疾病に効果がある特定合成物質生成」の形態の学習データとして学習されたモデル、すなわち合成物質の属性情報合成物質を合成するための情報および歩留まり情報間の相関関係を学習したモデルであるところ、特定の条件を第1人工知能モデルに入力する動作だけで該当条件を満足する合成物質と該当合成物質を生成するためのガイド情報を抽出することができる。
【0194】
それだけでなく、第1人工知能モデルは合成物質の属性情報合成物質を合成するための情報および歩留まり情報間の相関関係を学習したモデルであるところ、前記の動作とは反対に、特定材料、装備および合成方法を第1人工知能モデルの入力値として特定材料、装備および合成方法により合成されると予測される合成物質に関する情報を結果値として抽出することができる。
【0195】
多様な実施例において、コンピューティング装置100はユーザに前記の結果値を提供することができ、前記の結果値を提供したことに対する応答として、ユーザからフィードバック情報(例:予測された合成物質を合成するための材料、装備および合成方法により生成された合成物質に関する情報)の入力を受けることができ、入力されたフィードバック情報を学習データとして第1人工知能モデルを再学習させることができる。
【0196】
この時、コンピューティング装置100はユーザに提供された結果値に基づいて生成されると予測された合成物質とユーザから入力されたフィードバック情報に基づいて実際に生成された合成物質が異なる場合にのみ、該当情報を学習データとして第1人工知能モデルを再学習させることができる。
【0197】
多様な実施例において、コンピューティング装置100は第1人工知能モデルを通じて予測された合成物質に対するスケールアップ(scale-up)を遂行しようとする場合、複数の合成方法による歩留まりを学習データとして学習された第1人工知能モデルを通じて合成物質を合成するための合成方法を再抽出することができる。
【0198】
より具体的には、コンピューティング装置100は合成方法別歩留まり情報を学習した第1人工知能モデルと合成方法別歩留まり情報を学習していない第1人工知能モデルを生成することができ、合成方法別歩留まり情報を学習していない第1人工知能モデルを通じて結果値を導き出すものを基本(default)にして利用することによって、特定の条件を満足する合成物質を予測することに優先順位をつけるものの、場合により合成物質の開発が承認および完了して該当合成物質に対するスケールアップを遂行しようとする場合にのみ、合成方法別歩留まり情報を学習した第1人工知能モデルを通じて合成方法を再抽出することができる。
【0199】
【0200】
図17は、多様な実施例において、第2人工知能モデルを通じて合成物質に対する試験条件を設定する方法を説明するための図面である。
【0201】
図17を参照すると、コンピューティング装置100は特定合成物質の試験(例:前臨床試験または臨床試験)のための条件を設定することができる。
【0202】
S810段階で、コンピューティング装置100は第2人工知能モデルを生成および学習させることができる。
【0203】
ここで、第2人工知能モデルの構造および動作形態は第1人工知能モデルと同一であり得るが、これに限定されない。
【0204】
多様な実施例において、コンピューティング装置100は複数の合成物質に関する情報および試験に関する情報(例:複数の合成物質に対する前臨床試験または臨床試験を遂行するために設定された条件、設定された条件による試験結果等)を学習データとして第2人工知能モデルを学習させることができる。
【0205】
S820段階で、コンピューティング装置100は前臨床または臨床試験を遂行しようとする合成物質に関する情報を獲得することができる。
【0206】
S830段階で、コンピューティング装置100はS820段階を経て獲得された合成物質に関する情報を第2人工知能モデルの入力値として合成物質の試験のための条件を設定に関する結果値を抽出することができる。
【0207】
第2人工知能モデルは複数の合成物質に関する情報および試験に関する情報を学習データとして学習されたモデル、すなわち学習物質別試験条件による試験結果を学習したモデルであるところ、特定学習物質に関する情報を第2人工知能モデルに入力する動作だけで最適な試験結果を導出できる試験条件を抽出することができる。
【0208】
それだけでなく、第2人工知能モデルは学習物質別試験条件による試験結果を学習したモデルであるところ、合成物質の試験に対する特定の条件を第2人工知能モデルの入力値として合成物質の試験結果予測値を結果値として抽出することができる。
【0209】
多様な実施例において、コンピューティング装置100は前記の方法により設定された条件により学習物質に対する試験を遂行した結果を学習データとして第2人工知能モデルを再学習させることができる。
【0210】
【0211】
図18は、多様な実施例において、第3人工知能モデルを通じて、新薬開発時に新薬に適合な患者と投薬量を導き出す方法を説明するための図面である。
【0212】
図18を参照すると、コンピューティング装置100は図17および図18の動作を経て特定合成物質に対する新薬開発の承認および完了処理がなされる場合、特定合成物質を含む新薬開発時に該当新薬に適合な患者と適合な投薬量を抽出することができる。
【0213】
S910段階で、コンピューティング装置100は第3人工知能モデルを生成および学習させることができる。
【0214】
ここで、第3人工知能モデルの構造および動作形態は第1人工知能モデルおよび第2人工知能モデルと同一であり得るが、これに限定されない。
【0215】
多様な実施例において、コンピューティング装置100は複数の試験対象に関する情報、新物質として開発された複数の合成物質に関する情報および新物質として開発された複数の合成物質それぞれの試験結果を学習データとして第3人工知能モデルを学習させることができる。
【0216】
例えば、コンピューティング装置100は複数の患者に関する情報、新薬として開発された複数の合成物質に関する情報および新薬として開発された複数の合成物質それぞれの前臨床試験または臨床試験結果を学習データとして第3人工知能モデルを学習させることができる。
【0217】
S920段階で、コンピューティング装置100は試験が完了した合成物質に対する情報を獲得することができる。
【0218】
例えば、コンピューティング装置100は新薬開発が承認および完了した合成物質に関する情報を獲得することができる。
【0219】
S930段階で、コンピューティング装置100はコンピューティング装置100はS920段階を経て獲得された合成物質に関する情報を第3人工知能モデルの入力値として合成物質を含む新物質を使うのに適合な対象および使用量に関する情報を結果値として抽出することができる。
【0220】
例えば、S920段階を経て獲得された合成物質に関する情報を第3人工知能モデルの入力値として合成物質を含む新薬を投薬するのに適合な患者および投薬量に関する情報を結果値として抽出することができる。
【0221】
新薬開発に関連した実施例で、第3人工知能モデルは複数の患者に関する情報、新薬として開発された複数の合成物質に関する情報および新薬として開発された複数の合成物質それぞれの前臨床試験または臨床試験結果を学習データとして学習されたモデル、すなわち患者の属性(年齢、性別、基底疾患など)と新薬効果間の相関関係および投薬量と新薬効果間の相関関係を学習したモデルであるところ、特定学習物質に関する情報を第3人工知能モデルに入力する動作だけで新薬に適合な患者が誰なのか、また適当な投薬量がどの程度であるかを抽出することができる。
【0222】
また、コンピューティング装置100は前記のように、人工知能モデルを通じて新薬開発のための直接的にガイドするだけでなく、研究分野に役に立つ文献を提供したり類似分野を研究する研究員をマッチングするなど、間接的にガイドすることができる。
【0223】
より具体的には、コンピューティング装置100は図19に図示された通り、特定のユーザ(研究者)に対応して予め生成された定型化された研究記録データを分析して重要細部条件(材料として使われる物質、装備、合成過程など)を抽出することができ、抽出された細部条件に対応する非定型データ(例:論文、特許)を検索して提供することによって研究内容に最適化された資料を提供することができる。
【0224】
また、コンピューティング装置100は図20に図示された通り、特定のユーザ(研究者)に対する情報(例:個人情報、研究分野およびポートフォリオ)を掲載したり、研究論文のデータを共有する機能および研究内容に基づいて類似分野を研究する他の研究者をマッチングする機能を提供する研究共有および協業プラットホームを提供することができる。
【0225】
【0226】
前述した人工知能モデルの学習のための定型化された研究記録データ自動生成方法および人工知能モデルを利用した合成物質開発プロセス提供方法は、図面に図示されたフローチャートを参照して説明した。簡単な説明のために、人工知能モデルの学習のための定型化された研究記録データ自動生成方法および人工知能モデルを利用した合成物質開発プロセス提供方法は一連のブロックで図示して説明したが、本発明は前記ブロックの順序に限定されず、いくつかのブロックは本明細書に図示されて叙述されたものと異なる順序で遂行されたりまたは同時に遂行され得る。また、本明細書および図面に記載されていない新しいブロックが追加されたり、一部のブロックが削除または変更された状態で遂行され得る。以下、図21図24を参照して、コンピューティング装置100が提供するUI10について説明することにする。
【0227】
【0228】
図21図24は、多様な実施例に適用可能なユーザインターフェースの形態を例示的に図示した図面である。
【0229】
図21図24を参照すると、UI10は実験材料に対する情報の入力のための第1ボタン11、実験装備に対する情報の入力のための第2ボタン12および実験および研究過程に対する情報の入力のための第3ボタン13を含むことができる。
【0230】
コンピューティング装置100はユーザから第1ボタン11、第2ボタン12および第3ボタン13のうち少なくとも一つのボタンが選択されることに応答して、実験材料に対する情報、実験装備に対する情報および実験および研究過程に対する情報のうちいずれか一つの情報の入力を受けるためのUIを提供することができる。例えば、ユーザがUI10上の第1ボタン11を選択(例:マウスクリック入力)する場合、ポップアップ形態の実験材料に対する情報の入力のためのUI14を提供することができる。
【0231】
また、図面に図示されてはいないが、前記と同様に、ユーザが第2ボタン12を選択することに応答して実験装備に対する情報の入力のためのUIを提供することができ、ユーザが第3ボタン13を選択することに応答して、実験および研究過程に対する情報の入力のためのUIを提供することができる。この時、それぞれのUIは実験材料に対する情報の入力のためのUI14と同様にポップアップの形態で出力され得る。
【0232】
コンピューティング装置100は実験材料に対する情報の入力のためのUI14、実験装備に対する情報の入力のためのUIおよび実験および研究過程に対する情報の入力のためのUIを通じて入力された実験材料、研究および実験過程および研究結果に対するキーワードを自動完成および連動して実験材料情報、研究および実験過程情報および研究結果情報を生成することができ、生成されたそれぞれの情報を予め設定されたテンプレートに合わせてUI10上に配置および登録することができる。例えば、それぞれの情報は図23に図示された通り、個別的なボックスの形態で具現されるものの、同じ範疇に属する情報同士は同じ列に配置されるようにすることができる。
【0233】
この時、UI10上に配置(登録)された特定情報を含むカードは、ユーザの要請により自由にコピーされてUI10上の他の領域に配置され得る。例えば、コンピューティング装置100は特定実験材料に対する情報を含む第1カード16に対するコピー要請(例:第1カード16選択、予め設定されたキー(例:Ctrl)+ドラッグ入力)を得ることに応答して、ユーザが指定した領域(例:ドラッグ入力後マウスポインタが位置する領域)に第1カード16の複写本である第2カード(16’)を生成して表示および登録することができる。
【0234】
また、UI10上に配置(登録)された特定情報を含む複数のカードはユーザの要請により自由に混合され得る。例えば、コンピューティング装置100は第1実験材料に対する情報を含む第1カードと第2実験材料に対する情報を含む第2カードに対する混合要請(例:第1カードを選択およびドラッグして第2カードの上に載置したり、第2カードを選択およびドラッグして第1カードの上に載置する動作など)を得ることに応答して、第1カードに含まれた情報と第2カードに含まれた情報を結合して新しい第3カード(例:第1実験材料に対する情報と第2実験材料に対する情報を含む)を生成することができる。
【0235】
コンピューティング装置100はUI10上にすべての情報が配置(登録)されて最終的に定型化された研究記録データの生成が完了する場合、要約情報提供UI17を通じて定型化された研究記録データに対する要約情報を提供することができる。
【0236】
【0237】
以上、添付された図面を参照して本発明の実施例を説明したが、本発明が属する技術分野の通常の技術者は本発明がその技術的思想や必須の特徴を変更することなく他の具体的な形態で実施され得ることが理解できるであろう。したがって、以上で記述した実施例はすべての面で例示的なものであり、制限的ではないものと理解されるべきである。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
【国際調査報告】