IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ キム、ミン クーの特許一覧

特開2024-21023Synapperモデルユニットを用いた自然語処理システム及び方法
<>
  • 特開-Synapperモデルユニットを用いた自然語処理システム及び方法 図1
  • 特開-Synapperモデルユニットを用いた自然語処理システム及び方法 図2
  • 特開-Synapperモデルユニットを用いた自然語処理システム及び方法 図3
  • 特開-Synapperモデルユニットを用いた自然語処理システム及び方法 図4
  • 特開-Synapperモデルユニットを用いた自然語処理システム及び方法 図5
  • 特開-Synapperモデルユニットを用いた自然語処理システム及び方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024021023
(43)【公開日】2024-02-15
(54)【発明の名称】Synapperモデルユニットを用いた自然語処理システム及び方法
(51)【国際特許分類】
   G06F 40/56 20200101AFI20240207BHJP
【FI】
G06F40/56
【審査請求】有
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2022157480
(22)【出願日】2022-09-30
(31)【優先権主張番号】10-2022-0096224
(32)【優先日】2022-08-02
(33)【優先権主張国・地域又は機関】KR
(71)【出願人】
【識別番号】522387250
【氏名又は名称】キム、ミン クー
(74)【代理人】
【識別番号】100077665
【弁理士】
【氏名又は名称】千葉 剛宏
(74)【代理人】
【識別番号】100116676
【弁理士】
【氏名又は名称】宮寺 利幸
(74)【代理人】
【識別番号】100191134
【弁理士】
【氏名又は名称】千馬 隆之
(74)【代理人】
【識別番号】100136548
【弁理士】
【氏名又は名称】仲宗根 康晴
(74)【代理人】
【識別番号】100136641
【弁理士】
【氏名又は名称】坂井 志郎
(74)【代理人】
【識別番号】100180448
【弁理士】
【氏名又は名称】関口 亨祐
(72)【発明者】
【氏名】キム、ミン クー
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091CA21
(57)【要約】      (修正有)
【課題】ビッグデータがなくても非常に速い速度で高い正確度及び一貫性がある自然語処理を行えるSynapperモデルユニットを用いた自然語処理システム及び方法を提供する。
【解決手段】Synapperモデルユニットを用いた自然語処理方法は、書かれたり発音されたテキストを受け取り、単語で構成された文章に変換する前処理段階、文章内の各単語を、第1コード変換器を通じて神経概念コードに変換する第1変換段階、神経概念コードを言語処理装置のSynapperモデルユニットに入力する段階、Synapperモデルユニットを通じて認識された神経概念コードを解釈し、解釈されたデータを出力する解釈及び出力段階、解釈されて出力されたデータの神経概念コードを第2コード変換器を通じて単語に変換する第2変換段階及び第2変換段階を通じて変換されたデータを、解釈されたデータとして出力する解釈データ出力段階を含む。
【選択図】図6
【特許請求の範囲】
【請求項1】
自然語で書かれたり発音されたテキストを受け取り、これを単語で構成された文章に変換する前処理段階;
前記前処理段階を通じて単語で構成された文章内の各単語を、第1コード変換器(WNC)を通じて神経概念コード(NCC)に変換する第1変換段階;
前記第1変換段階を通じて変換された神経概念コードを言語処理装置のSynapperモデルに入力する段階;
前記言語処理装置のSynapperモデルを通じて認識された神経概念コードを解釈し、解釈されたデータを出力する解釈及び出力段階;
前記言語処理装置で解釈されて出力されたデータの神経概念コードを、第2コード変換器(NWC)を通じて単語に変換する第2変換段階;及び
前記第2変換段階を通じて変換されたデータを、解釈されたデータとして出力する解釈データ出力段階;を含む、Synapperモデルユニットを用いた自然語処理方法。
【請求項2】
前記第1変換段階では、
入力された単語を2進数/10進数コードに変換する、請求項1に記載のSynapperモデルを用いた自然語処理方法。
【請求項3】
前記第1変換段階では、
入力された単語を神経概念コード(NCC)に変換するとき、10進数の前の2桁は品詞を示す、請求項2に記載のSynapperモデルを用いた自然語処理方法。
【請求項4】
前記解釈及び出力段階では、
レジスタセットで各神経概念コード(NCC)の品詞を分析し、文章に対する正しい解釈が何かを決定する、請求項1に記載のSynapperモデルを用いた自然語処理方法。
【請求項5】
前記解釈及び出力段階では、
第1変換器段階を通じて文章の全ての単語が神経概念コード(NCC)に変換されると、前記Synapperモデルで文章の構文構造が決定されて解釈され、解釈された神経概念コード(NCC)として出力する、請求項1に記載のSynapperモデルを用いた自然語処理方法。
【請求項6】
前記解釈及び出力段階では、
キャッシュメモリは、Synapperモデルを通じて解釈されたデータを、出力を生成するために臨時に格納する、請求項1に記載のSynapperモデルを用いた自然語処理方法。
【請求項7】
前記解釈及び出力段階では、
テキストランダムアクセスメモリ(TRAM)は、前記キャッシュメモリで処理しにくい多量の文章にアクセスできるようにSynapperモデルデータを格納する、請求項6に記載のSynapperモデルを用いた自然語処理方法。
【請求項8】
前記解釈及び出力段階では、
フラッシュメモリは、重要な情報が含まれた文章を後でアクセスできるように格納する、請求項7に記載のSynapperモデルを用いた自然語処理方法。
【請求項9】
前記解釈及び出力段階では、
前記Synapperモデルは、自然語で他の方式で表現された単語で構成された文章に分離し、
文章内の各単語の品詞及び隣接単語の品詞に基づいて単語のうちどれが枝で、どれがノードであるのかを決定する、請求項1に記載のSynapperモデルを用いた自然語処理方法。
【請求項10】
前記解釈及び出力段階では、
前記Synapperモデルは、ノード及び枝を決定した後、各ノードを第1方向に互いに連結し、各枝は、第1方向以外の他の方向に対応する各ノードに連結する、請求項9に記載のSynapperモデルを用いた自然語処理方法。
【請求項11】
自然語を入力する入力装置;
前記入力装置に入力されたアナログデータをデジタルデータに変換するアナログ-デジタル変換器(ADC);
前記デジタル信号に変換されたデータを神経概念コードに変換する第1コード変換器(WNC);
前記第1コード変換器(WNC)を通じて入力される神経概念コードをSynapperモデルを通じて解釈して出力する言語処理装置;
前記言語処理装置から出力された神経概念コードを、解釈された単語データに変換する第2コード変換器(NWC);
前記第2コード変換器(NWC)を通じて変換されたデジタルデータをアナログデータに変換するデジタル-アナログ変換器(DAC);及び
前記デジタル-アナログ変換器(DAC)を通じて変換されたデータを、解釈された自然語で出力する出力装置;を含む、Synapperモデルユニットを用いた自然語処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自然語処理システム及び方法に関し、より具体的には、Synapperモデルユニットを用いた自然語処理システム及び方法に関する。
【背景技術】
【0002】
自然語処理(Natural Language Processing)は、要素技術を用いて自然語の分析、理解、生成などを行い、情報検索、機械翻訳、質疑応答などの多様な分野に応用される。
【0003】
従来の自然語処理方法を通じて機械翻訳などを行う場合は、不正確であったり理解できない文章を生成する可能性があった。
【0004】
より正確な自然語処理のために、多様な自然語処理過程を行うことができ、自然語処理には、自然語の分析、自然語の理解、自然語の生成などの技術が用いられ得る。
【0005】
自然語の分析は、自然語の意味などを分析する技術で、自然語の理解は、コンピューターを自然語で与えられた入力によって作動させる技術で、自然語の生成は、動画や表の内容などを人が理解できる自然語に変換する技術である。
【0006】
近年、このような自然語処理において、神経網モデル(Natural Network model)が用いられている。
【0007】
このような神経網モデルは、自然語処理における意味分析で向上した性能を提供しているが、ソースデータが少ないと高い正確度を提供することができなく、一貫性がない動作で駆動するという問題を有していた。また、非常に速いコンピューター性能及び膨大な電力消耗を必要とするので、実用的に多くの困難さが存在していた。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】大韓民国公開特許第10-2022-0049693号(2022.04.22.)
【発明の概要】
【発明が解決しようとする課題】
【0009】
本発明の目的は、Synapperモデルを用いて自然語を処理する場合、ビッグデータがなくても非常に速い速度で自然語を処理することができ、高い正確度及び一貫性がある自然語処理を行えるSynapperモデルユニットを用いた自然語処理システム及び方法を提供することにある。
【0010】
本発明が解決しようとする課題は、以上で言及した課題に制限されなく、言及していない他の課題は、下記の記載から通常の技術者に明確に理解され得るだろう。
【課題を解決するための手段】
【0011】
本発明に係るSynapperモデルユニットを用いた自然語処理方法は、自然語で書かれたり発音されたテキストを受け取り、これを単語で構成された文章に変換する前処理段階;前記前処理段階を通じて単語で構成された文章内の各単語を、第1コード変換器(WNC)を通じて神経概念コード(neuro concept code)に変換する第1変換段階;前記第1変換段階を通じて変換された神経概念コードを言語処理装置のSynapperモデルに入力する段階;前記言語処理装置のSynapperモデルを通じて認識された神経概念コードを解釈し、解釈されたデータを出力する解釈及び出力段階;前記言語処理装置で解釈されて出力されたデータの神経概念コードを第2コード変換器(NWC)を通じて単語に変換する第2変換段階;及び前記第2変換段階を通じて変換されたデータを、解釈されたデータとして出力する解釈データ出力段階;を含むことができる。
【0012】
好ましくは、Synapperモデルを用いた自然語処理方法における前記第1変換段階では、入力された単語を2進数/10進数コードに変換することができる。
【0013】
また、好ましくは、Synapperモデルを用いた自然語処理方法における前記第1変換段階では、入力された単語を10進数コードに変換するとき、前の2桁は品詞を示すことができる。
【0014】
また、好ましくは、Synapperモデルを用いた自然語処理方法における前記解釈及び出力段階では、レジスタセットで各神経概念コード(NCC)の品詞を分析し、文章に対する正しい解釈が何かを決定することができる。
【0015】
また、好ましくは、Synapperモデルを用いた自然語処理方法における前記解釈及び出力段階では、第1変換器段階を通じて文章の全ての単語が神経概念コード(NCC)に変換されると、前記Synapperモデルで文章の構文構造が決定されて解釈され、解釈された神経概念コード(NCC)として出力することができる。
【0016】
また、好ましくは、Synapperモデルを用いた自然語処理方法における前記解釈及び出力段階では、キャッシュメモリは、Synapperモデルを通じて解釈されたデータを、出力を生成するために臨時に格納することができる。
【0017】
また、好ましくは、Synapperモデルを用いた自然語処理方法における前記解釈及び出力段階では、テキストランダムアクセスメモリ(TRAM)は、前記キャッシュメモリで処理しにくい多量の文章にアクセスできるようにSynapperモデルデータを格納することができる。
【0018】
また、好ましくは、Synapperモデルを用いた自然語処理方法における前記解釈及び出力段階では、フラッシュメモリなどの格納装置は、重要な情報が含まれた文章を後でアクセスできるように格納することができる。
【0019】
また、好ましくは、Synapperモデルを用いた自然語処理方法における前記解釈及び出力段階では、前記Synapperモデルは、自然語で他の方式で表現された単語で構成された文章に分離し、文章内の各単語の品詞及び隣接単語の品詞に基づいて単語のうちどれが枝(branch)で、どれがノード(node)であるのかを決定することができる。
【0020】
また、好ましくは、Synapperモデルを用いた自然語処理方法における前記解釈及び出力段階では、前記Synapperモデルは、ノード及び枝を決定した後、各ノードを第1方向に互いに連結し、各枝は、第1方向以外の他の方向に対応する各ノードに連結することができる。
【0021】
また、本発明に係るSynapperモデルを用いた自然語処理システムは、自然語を入力する入力装置;前記入力装置に入力されたアナログデータをデジタルデータに変換するアナログ-デジタル変換器(ADC);前記デジタル信号に変換されたデータを神経概念コードに変換する第1コード変換器(WNC);前記第1コード変換器(WNC)を通じて入力される神経概念コードをSynapperモデルを通じて解釈して出力する言語処理装置;前記言語処理装置から出力された神経概念コードを解釈された単語データに変換する第2コード変換器(NWC);前記第2コード変換器(NWC)を通じて変換されたデジタルデータをアナログデータに変換するデジタル-アナログ変換器(DAC);及び前記デジタル-アナログ変換器(DAC)を通じて変換されたデータを、解釈された自然語で出力する出力装置;を含むことができる。
【発明の効果】
【0022】
本発明によると、Synapperモデルユニットを用いて自然語を処理する場合、ビッグデータがなくても非常に速い速度で自然語を処理することができ、高い正確度及び一貫性がある自然語処理を行えるという効果がある。
【図面の簡単な説明】
【0023】
図1】自然語の語順の統合状態を示す図である。
図2】本発明の実施例に係るSynapperモデルの概念を示す図である。
図3】本発明の実施例に係るSynapperモデルの概念を示す図である。
図4】本発明の一実施例に係るSynapperモデルユニットを用いた自然語処理システムを示す図である。
図5】本発明の他の実施例に係るSynapperモデルユニットを用いた自然語処理システムを示す図である。
図6】本発明の一実施例に係るSynapperモデルユニットを用いた自然語処理方法の流れを示すフローチャートである。
【発明を実施するための形態】
【0024】
以下、添付の図面を参照しながら本発明に係る好ましい実施例を詳細に説明する。
【0025】
本発明の利点、特徴、及びそれを達成する方法は、添付の図面と共に詳細に後述している各実施例を参照すれば明確になるだろう。しかし、本発明は、以下で開示する各実施例によって限定されるものではなく、互いに異なる多様な形態で具現可能であり、ただ、本実施例は、本発明の開示を完全にし、本発明の属する技術分野で通常の知識を有する者に発明の範疇を完全に知らせるために提供されるものであって、本発明は、特許請求の範囲によって定義されるものに過ぎない。
【0026】
また、本発明を説明するにおいて、関連する公知の技術などが本発明の要旨を不明瞭にし得ると判断される場合、それに関する詳細な説明は省略する。
【0027】
世界には多くの自然語が存在する。これらの自然語は、多様な語順で文章を使用するので、翻訳や文章処理において多くの困難さが存在する。これらの言語のそれぞれ異なる文章構造は、多くの次元を用いて一つの統一された構造システムで統合させることができる。
【0028】
本明細書におけるソースデータは、自然語処理で用いられるテキストデータを含むデータを意味し得る。
【0029】
図1に示したように、言語によって、各単語は、異なる順序で羅列されて文章を形成する。そのため、各言語の文法は、それぞれ異なるものとして見なされてきた。例えば、韓国語及び英語などの各言語は、文法的に共通性がほとんど存在しないものであることが分かり、これは、基本的に語順からして異なるためである。主語、目的語、及び動詞をどのような順序で羅列するのかによって各言語の語順が変わる。
【0030】
すなわち、SOV、SVO、OVS、VOS、VSO、OSVの合計6つの語順のうち、韓国語は、SOV(主語-目的語-動詞)を基本として使用し、英語や他の西ヨーロッパの各言語は、ほとんどがSVO(主語-動詞-目的語)を基本として使用している。しかし、主語、目的語、及び動詞のこれらの三つのトークン(token)を円の形態で連結する場合、組み合わせ方式が6個から2個に縮小される。
【0031】
図1(a)は、時計方向に移動しながらSOV、OVS、及びVSOの各語順を示す。その反対に、図1(b)は、反時計方向に移動しながらSVO、VOS、及びOSVの各語順を示す。トークンが移動する方向を除外する場合、二つの円は一つの同一の形態を示す。この一つの構造において、各自然言語の全ての語順が存在することが分かる。
【0032】
このとき、各言語ごとに単語が羅列される順序が異なるとしても、文章の意味は変わらない。
【0033】
単語を多くの次元で連結させると、Synapperモデルが完成する。
【0034】
図2乃至図6を参照して、本発明に係るSynapperモデルを用いた自然語処理システム及び方法について説明する。
【0035】
図2の文章を見ると、主語「Jane」から始めて時計方向に移動する場合、英語の文章が完成する。
【0036】
その一方で、主語において反時計方向に単語を読むと、韓国語や日本語の語順に合わせて文章が出力され得る。
【0037】
すなわち、英語:Jane has a very fast brown horse.
【0038】
韓国語:Jane (a) very fast brown horse has.
【0039】
【0040】
日本語:Jane (a) very fast brown horse has.
【0041】
→ジェーンはとても早い茶色の馬を持っている。
【0042】
冠詞は、韓国語や日本語では省略されるので、単語「a」は除去すればよい。いくつかの言語では、修飾語が被修飾語の後に入る場合があるが、そのような場合、処理する順序を変えて、該当の修飾語を被修飾語の次に処理すればよい。このような方式で一般的な敍述型文章をSynapperモデルに適用する場合、文章構造を確認できるようになる。
【0043】
この構造で語順に合わせて単語を羅列すると、言語と関係なく正確な文章を見出すことができる。すなわち、n次元の文章構造を通じて、一般に使用される1次元的文章の抽出が可能になる。
【0044】
すなわち、思考を文字で表現するとき、単語が多くなるほど、分析のための文章が徐々に複雑になるという問題があるが、これは、全ての単語が同一の方向や次元で使用されるためである。Synapperモデルを通じて、文章の構文構造は、二つ以上の方向又は次元を使用して遥かに直観的になる。
【0045】
ここで使用されたSynapperモデルは、伝統的に作成された文章(1次元又は線形)を多次元の文章構造に変換するのに使用されるモデル基盤方法である。
【0046】
言語、すなわち、Synapperモデルは、文章の多次元表現を実現するために処理に依存する。
【0047】
Synapperモデルは、文章(思考)が人間の頭脳によって構造化される方式、すなわち、人間の頭脳が文章を形成する方式に対する推定を基盤にして文章を処理して提示する。文章(すなわち、文章の裏のアイディア又は概念)が処理され、Synapper形式やモデルで提示されると、翻訳及び解釈のためのほぼ全ての対象言語の文章に容易に再創造又はレンダリングされる。
【0048】
一つ目、文章にSynapperモデルの構造が与えられる。すなわち、Synapperモデルは、本発明の学習データ(動詞データベース、形容詞データベース、ISPを通じて提供されるデータソースなど)を通じて各単語の品詞を把握するためにテキストを処理する。
【0049】
次に、Synapperモデルは、処理中の文章の各単語が前と後に来る単語の品詞を分析し、これが枝であるのか、それともノードであるのかを判別する。
【0050】
ここで、ノードは、メーンループに属する単語を意味する。
【0051】
また、ここで、枝は、一つの特定のノードと関連する補完単語を意味する。
【0052】
その後、本発明のSynapperモデルは、全てのノードを一方向に付着させ、枝単語を他の方向のノードに付着させる。
【0053】
その後、Synapperモデルを基盤にして文章の類型を決定する。
【0054】
すなわち、Synapperモデルで文章を処理し、全ての枝単語を除去することができる。
【0055】
文章の残った部分(単純なノード)は、Synapperモデルを基盤にして核心文章として見なされる。これは、ソースデータ言語の元の文章をノードの品詞として追加的に除去するために独創的な原理によってさらに処理され得る。
【0056】
その後、Synapperモデルは、この情報を使用して文章が質問であるのか、文章であるのか、それとも他のもの(すなわち、他の類型の文章構造)であるのかを把握することができる。
【0057】
Synapperモデル処理を基盤とした文章は、文章又は命令として見なされ得る。その次に、即席に作った文章モデルは、主語、動詞句及び文章の残りの部分の識別などの内容に対してさらに分析され得る。
【0058】
また、全てのノードが一次元にある一方で、枝単語は、必ずしも一次元に制限される必要はない。人間の頭脳は、枝単語に対して多くの次元を使用する可能性があるという理解を前提とする。
【0059】
例えば、単語は、文章の他の単語との関係によってノード又は枝としてSynapperモデルによって決定される。
【0060】
例えば、形容詞の後に他の形容詞や名詞が来ると、枝になる(例:fast car)。
【0061】
また、形容詞の後に他の形容詞や名詞が来ないと、ノードになる(例:car is fast)。
【0062】
上記で説明したように、Synapperモデルを通じた自然語処理方法において、全ての言語に対する単語の順序選択は6個に過ぎない。
【0063】
すなわち、SOV、SVO、OSV、OVS、VSO及びVOSのうち3個は、一方向(時計方向)に移動し、残りの3個は反対方向(反時計方向)に移動する。
【0064】
したがって、正しい構造を有している場合、少なくとも理論上には、文章を全ての自然語に翻訳することができる。
【0065】
Synapperモデルは、文章に正しい構造を提供する。また、文章中の各単語を特定の数字コード(すなわち、神経概念コード)に変換し、特定の言語に依存しなくてもSynapperモデルで処理可能である。
【0066】
これは、特定の言語(例:出発語)の各単語を他の言語(すなわち、目標言語)の単語に翻訳する一般的な慣行と区別される。
【0067】
これは、多くの単語が多くの意味を有しており、誤訳が発生し得るためである。
【0068】
図4乃至図5は、本発明に係るSynapperモデルを用いた自然語処理システムを示している。
【0069】
図4乃至図5を参照すると、CPU 100に入力された自然語テキストから単語を抽出し、第1コード変換器160(WNC:Word-to-NCC Converter)を通じて単語を神経概念コードに変換する。
【0070】
続いて、神経概念コードに変換された値を言語処理装置200(LPU:Language Processing Unit)に入力し、神経概念コードの自然語を処理した後、処理された神経概念コードを第2コード変換器170(NWC:NCC-to-Word Converter)に出力する。
【0071】
第2コード変換器170では、言語処理装置200で自然語処理された出力値である神経概念コードを単語に変換することができる。
【0072】
第2コード変換器170で変換された値をCPU 100に伝達し、入力された自然語を自然語処理(翻訳)して出力できることを特徴とする。
【0073】
ここで、神経概念コードは、神経概念を示す32ビットの2進コード(binary code)を意味し得る。
【0074】
また、2進コードを10進数で表現することができ、10進数の最初の2桁は品詞を示すのに使用され得る。
【0075】
次の8桁は、特定の神経概念を示すのに使用され得る。
【0076】
NCCは、次のように、2進数として32個、10進数として4個、294個、967個、295個が表現され得る。
【0077】
1111 1111 1111 1111 1111 1111 1111 1111(バイナリ)
【0078】
4294967295(10進数)
【0079】
10進数の最初の2桁は品詞を示すのに使用される。次の8桁は、特定の神経概念を示すのに使用され得る。
【0080】
例えば、0001001732(10進数)は、「タクシー運転手」を意味するNCCで、0500008055(10進数)は「約束する」を意味する。
【0081】
一番目のNCCの最初の2桁である00は、神経概念が名詞であることを示す。また、二番目のNCCの最初の2桁である05は、神経概念が動詞であることを示す。
【0082】
品詞を示すために、2桁の数字を使用する一つスキーマ(schema)がある。
【0083】
00=名詞、05=動詞、10=形容詞、15=副詞、20=前置詞、22=接続詞、30=感嘆詞として示すことができる。
【0084】
しかし、接続詞及び感嘆詞などの品詞には、数百個の神経概念が必要である。全ての言語で最も多い神経概念を要求する品詞は名詞である。ほぼ1億個の名詞 神経概念コード(正確には、94、967、295個)を示す可能性がある神経概念は、全ての実用的な目的に十分でなければならない。
【0085】
NCCは、人間が理解すること(単語)と機械が理解すること(2進数)との間の中間地点にある。人間とコンピューターが互いに理解できるように、Cなどのプログラミング言語を使用するのと類似している。これが、神経概念コード(NCC)が10進数として表示される理由である。そうでない場合、人間は、コードで意味を探すことができない。しかし、コンピューターは2進数のみを処理することができる。したがって、10進数からなる神経概念コード(NCC)の最初の2桁を2進数で分析する追加段階を経なければならない。したがって、例えば、2200007710は、神経概念コード(NCC)を意味する。最初の2桁である22は接続詞であることを示す。人間は、品詞が何かを容易に理解できる。しかし、コンピューターは、この情報を2進法で分析しなければならない。したがって、最初の2桁の数字を得るためには6ビットが必要である。
【0086】
神経概念コード(NCC)内で品詞を示す数字は、00から42である。例えば、22進数は010110である。論理ゲートは、このような種類の情報を分析し、文章を処理するのに使用される。神経概念コード(NCC)の残りの部分は、ほとんどが処理と関連しないので無視すべきである。
【0087】
文章の全ての単語が神経概念コード(NCC)に変換されると、文章の構文構造が決定され、これがSynapperモデルに転換され得る。神経概念コード(NCC)での文章のSynapperモデルは、機械の青写真を有するのと同じである。文章分析のための十分な情報を有しているので、機械学習技術を使用しなくても翻訳、読解、会話などの応用が可能である。
【0088】
これを通じて、自然語は、言語処理装置(LPU)200によって処理され得る、言語処理装置は、ビッグデータがなくても、非常に速い速度及び電力効率で言語を処理することができる。これは、ALU(Arithmetic Logic Unit)が非常に少ない電力及び非常に速い速度で数学的計算を出力できるのと類似している。
【0089】
また、この段階の結果は、現在使用可能な自然語処理(NLP)用機械学習アルゴリズムより正確になり得る。これは、人間の頭脳と類似する方法で言語を処理するものと推定されるSynapperモデルユニット(SMU:Synapper Model Unit)のためである。
【0090】
その一方で、機械学習アルゴリズムは、本質的に確率的予測を計算することによって、常に正確な結果を生成することができない。
【0091】
言語処理装置(LPU)200は、制御装置210、レジスタ220、Synapperモデルユニット(SMU)230及びキャッシュメモリ240を含むことができる。
【0092】
制御装置210は、レジスタ220、Synapperモデルユニット230及びキャッシュメモリ240で行われることを制御することができる。
【0093】
レジスタ220は、CPU 100で受け取った文章をレジスタセットに入れなければならない。最初に、レジスタセットは、コンマ、ピリオド及び疑問符などの句読点を無視しながら順次組み合わされた、変換された神経概念コード(NCC)文字である。
【0094】
この簡単なレジスタセットで各神経概念コード(NCC)の品詞を分析し、文章に対する正しいSynapperモデルが何かを決定する。
【0095】
例えば、「The Three Musketeers is a very good book.(三銃士はとても良い本です。)」において、最初の三つの単語(The Three Musketeers)は、三つの個別単語と見なされ得る。しかし、それらは、同じタイトルの本である一つの神経概念のみを示す。
【0096】
したがって、三銃士は、たった一つの神経概念コード(NCC)に縮小され得る。
【0097】
00-------- 05-------- 11-------- 15-------- 10-------- 00--------
【0098】
このNCC文字列は、文章の品詞が名詞(00)+動詞(05)+限定詞(11)+副詞(15)+形容詞(10)+名詞(00)である(残りの8桁は関連しない)。この情報がレジスタに入力されると、論理ゲートを使用して単語の間の構文関係を形成する。例えば、副詞+形容詞+名詞の組み合わせ(「very good book」)は、一つのノードとして共にグループ化されなければならないことを示す。ANDゲートを使用して、文字列NCCは次のように変わり得る。
【0099】
00-------- - 05-------- - 11-------- ,15-------- + 10-------- | 00--------
【0100】
T.T.M.- is - a,very + good | book
【0101】
すなわち、図3に示したように、
【0102】
-(ダッシュ)=各ノードを水平に連結する(例:「is-book」)。
【0103】
|(棒)=ノードと枝とを連結する(例:「a | book」)。
【0104】
,(コンマ)=次のトークンも枝であるが、同一の次元ではないことを示す(例:「a,good」)。
【0105】
+(足し算)=同じ次元に属するノード又は枝を連結する(例:「非常に + 良い」)。
【0106】
すなわち、15 AND 10は「15 + 10」になり、10 AND 00は「10 | 00.」になる(これは固定されている。「10 AND 00」の全てのインスタンスに対して、結果は常に同一でなければならない。)したがって、三種類は、いずれも共に「15 + 10 | 00」又は「非常に + 良い | 本。」である。これは、論理ゲートを使用するのと類似している。
【0107】
足し算及び引き算などの記号を使用して算術を行う。
【0108】
文章をSynapperモデルに格納するためには、7個のレジスタセットが必要である。
【0109】
PNP + PVP + SP+ CE 1 + CE 2 + CE 3 + CE 4
【0110】
一般的な文章は、基本名詞句(PNP)、基本動詞句(PVP)及び下位述語(SP)に分けられる。一つの補完要素(CE)は、一番最初と一番前に配置され得る。
【0111】
他の二つの補完要素は、PNP、PVP及びSPの間に配置され得る。SVOでは、文章が次のように表示される。
【0112】
CE 1 + PNP + CE 2 + PVP + CE 3 + SP + CE 4
【0113】
次は、7個の部分が全て含まれた例示文章である。
【0114】
Once upon a time,a dragon,female,flew,while blowing fire,over the mountain,supposedly.(昔々、雌の竜がおそらく火を吹きながら山を越えて飛んで行きました。)
【0115】
核心文章(PNP + PVP + SP)は、簡単に「竜が山を越えて飛んで行きました。」である。
【0116】
選択的な文具や節(CE)は、開始(「 Once upon a time」)、PNPとPVPとの間(「female」)、PVPとSPとの間(「while blowing fire」)、終了(「supposedly」)に追加され得る。各範疇にNCCを格納できる十分な空間を確保するために、次を提案する。
【0117】
PNP:25 x(32ビット NCC + 2ビット S + 1ビット P)+ 1ビット V = 876ビット
【0118】
PVP:15 x(32ビット NCC + 2ビット S + 1ビット P)+ 1ビット V = 526ビット
【0119】
SP:40 x(32ビット NCC + 2ビット S + 1ビット P)+ 1ビット V = 1,401ビット
【0120】
CE:20 x(32ビット NCC + 2ビット S + 1ビット P)+ 1ビット V = 701ビット(合計2,804ビット)
【0121】
全てのビットを合わせると、合計5,607ビットになる。しかし、神経概念コード(NCC)が特定の方式で共にリンクできるように、各神経概念コード(NCC)の間に3ビット符号レジスタも必要である。
【0122】
その結果、PNP、PVP、SP及び4個のCEに対して、それぞれ72ビット、42ビット、117ビット及び228ビットが追加される。したがって、一つのSynapperモデルを格納するために、合計6,066ビットのレジスタが必要である。
【0123】
名詞の性(例:female)又は動詞の時制(例:過去型)などの情報を格納するためには、2ビットの補充レジスタSが必要である。このレジスタは、形容詞が比較級であるのか、最上級であるのか、それとも両方でもないのかを示すのにも使用することができる。
【0124】
複数の名詞(例:果物 vs 各果物)を確認するためには、1ビットのレジスタPが必要である。このレジスタは、動詞の活用又は屈折条件を示すのにも使用することができる(例:go/goes)。オーバーフロー(overflow)を表示するためには、1ビットのレジスタVが必要である。
【0125】
オプションレジスタは、次のように各文章に対してさらに多く理解するために使用することができる。
【0126】
文章類型(2ビット):宣言的、疑問文など
【0127】
コンテンツ類型(6ビット):一般、対話、カジュアル、公式、法律、物理学など
【0128】
言語類型(9ビット):en、en-uk、en-us、fr-fr、fr-caなど
【0129】
単語の順序(3ビット):SVO、SOVなど
【0130】
主語(32ビット):代名詞が示す名詞(例:he→John)
【0131】
目的語(32ビット):代名詞が示す名詞(例:it→bird)
【0132】
動詞(32ビット):補助動詞が参照する動詞(例:did→walked)
【0133】
この特殊レジスタ(合計116ビット)は、文章が変更されるときのみに条件を変更する。
【0134】
キャッシュメモリ240は、処理された文章を、出力を処理するために臨時に格納しなければならない。言語処理装置(LPU)200のキャッシュメモリ240は、一段落や二段落に属する文章を格納できる程度に大きくなければならない。
【0135】
時には、本の全ての文章にアクセスしなければならない場合もある。すなわち、Synapperモデルデータを格納するために特別に設計されたテキストランダムアクセスメモリ(TRAM)310に、数万文章を臨時に格納しなければならない。
【0136】
言語処理装置200用TRAM 310は、GPU用VRAMと同一の概念であると見なすことができる。
【0137】
すなわち、言語処理装置200のキャッシュメモリ240は、一段落や二段落に属する文章を格納することができ、多くの文章を格納するためにはTRAM 310を使用することを意味する。
【0138】
また、フラッシュメモリ320は、重要な情報の含まれた文章を後でアクセスしなければならない場合もある。このような方式で、言語処理装置(LPU)200は、言語を処理するだけでなく、質問に答えることもできる。
【0139】
これは、人間が収集できる人間の脳には、言語処理装置(「言語能力」)及び記憶力があるためである。重要であると考えられる文章のSynapperモデルをフラッシュメモリ320に格納することによって、言語処理装置(LPU)200は人間の頭脳のように行動することができる。
【0140】
また、本発明に係るSynapperモデルを用いた自然語処理システムは、図5に示したように、カメラ/マイクのように自然語を入力する自然語入力装置110と、入力装置110に入力されたアナログデータをデジタルデータに変換するアナログ-デジタル変換器(ADC)120と、デジタルデータに変換されたデータを神経概念コードに変換する第1コード変換器(WNC)160と、第1コード変換器(WNC)160を通じて入力される神経概念コードをSynapperモデルユニット(SMU)を通じて解釈して出力する言語処理装置200と、言語処理装置200から出力された神経概念コードを、解釈された単語データに変換する第2コード変換器(NWC)170と、第2コード変換器(NWC)170を通じて変換されたデジタルデータをアナログデータに変換するデジタル-アナログ変換器(DAC)180と、デジタル-アナログ変換器(DAC)180を通じて変換されたデータを、解釈された自然語で出力するディスプレイ装置/スピーカーなどの出力装置190とを含むことができる。
【0141】
図6に示したように、本発明に係るSynapperモデルユニットを用いた自然語処理方法は、自然語で書かれたり発音されたテキスト、すなわち、ソースデータを受け取り、これを単語で構成された文章に変換する前処理段階(S110)と、前処理段階(S110)を通じて単語で構成された文章内の各単語を、第1コード変換器(WNC)を通じて神経概念コードに変換する第1変換段階(S120)と、第1変換段階(S120)を通じて変換された神経概念コードを言語処理装置(LPU)200のSynapperモデルユニットに入力するSynapperモデルユニット入力段階(S130)と、言語処理装置のSynapperモデルユニット(SMU)を通じて認識された神経概念コードを解釈し、解釈されたデータを出力する解釈及び出力段階(S140)と、言語処理装置で解釈されて出力されたデータの神経概念コードを第2コード変換器(NWC)を通じて単語に変換する第2変換段階(S150)と、第2変換段階(S150)を通じて変換されたデータを、解釈されたデータとして出力する解釈データ出力段階(S160)とを含むことができる。
【0142】
また、Synapperモデルを用いた自然語処理方法における第1変換段階(S120)では、入力された単語を2進数/10進数コードに変換することができる。
【0143】
また、入力された単語を10進数コードに変換したとき、前の2桁は品詞を示すことができる。
【0144】
また、解釈及び出力段階(S140)では、レジスタセットで各神経概念コード(NCC)の品詞を分析し、文章に対する正しい解釈が何かを決定することができる。
【0145】
また、解釈及び出力段階(S140)では、第1変換段階(S120)を通じて文章の全ての単語が神経概念コード(NCC)に変換されると、Synapperモデルユニット(SMU)で文章の構文構造が決定されて解釈され、解釈された神経概念コード(NCC)として出力することができる。
【0146】
また、解釈及び出力段階(S140)では、使用されるキャッシュメモリ240は、Synapperモデルユニットを通じて解釈されたデータを、出力を生成するために臨時に格納することができる。
【0147】
また、解釈及び出力段階(S140)では、テキストランダムアクセスメモリ(TRAM)310が使用される場合、キャッシュメモリ240で処理しにくい多量の文章にアクセスできるようにSynapperモデルデータを格納することができる。
【0148】
また、解釈及び出力段階(S140)では、フラッシュメモリ320が使用される場合、重要な情報が含まれた文章を後でアクセスできるように格納することができる。
【0149】
また、解釈及び出力段階(S140)では、Synapperモデルは、自然語で他の方式で表現された単語で構成された文章に分離し、文章内の各単語の品詞及び隣接単語の品詞に基づいて単語のうちどれが枝で、どれがノードであるのかを決定することができる。
【0150】
また、解釈及び出力段階(S140)では、Synapperモデルは、ノード及び枝を決定した後、各ノードを第1方向に互いに連結し、各枝は、第1方向以外の他の方向に対応する各ノードに連結することができる。
【0151】
より具体的には、Synapperモデルユニット(SMU)を用いた自然語処理方法における処理過程を検討すると、例えば、「ヨンヒがチョルス家に行った。」という文章がある場合、このデータをCPUや他のソースからテキストの形態で受信することができる。
【0152】
受信されたデータがテキストでない場合はテキストに変換する。
【0153】
この文章は、一般的な各単語で構成されているので、第1変換段階(S120)で第1コード変換器(WNC)160を通じて各単語を神経概念コード(NCC)に変換する。
【0154】
このとき、各助詞は全部除去され得る。
【0155】
ヨンヒ(が)チョルス家に行った。
【0156】
→ヨンヒチョルス家に行った。
【0157】
→0012334534 0035475344 0084023453 2048554671 0587335288
【0158】
この神経概念コードは、人が理解しやすいように10進数で表記し、処理は二進数で行うことができる。よって、該当のデータは、言語処理装置(LPU)に伝達された後、制御装置 210を通じてレジスタ220に伝達される。
【0159】
PNP:0012334534
【0160】
PVP:0587335288
【0161】
SP:0035475344 0084023453 2048554671
【0162】
次に、Synapperモデルユニット(SMU)で、該当のデータに基づいて解釈データを生成する。
【0163】
例として、「名詞の後に名詞が入ると、枝として処理(if Word03 and Word04 == 「noun」 then …)規則を通じて各NCCがどのように連結されるのかを決定する。そして、その順序に合わせて再び文章で羅列する。英語への翻訳が目的であれば、次の通りである。
【0164】
(CE 1) + PNP + (CE 2) + PVP + (CE 3)+ SP + (CE4)
【0165】
0012334534 + 0587335288 + 2048554671+ 0035475344 + 0084023453
【0166】
0012334534 - 0587335288 - 2048554671- 0035475344 | 0084023453
【0167】
そして、このSynapperモデルは、キャッシュメモリに移動させ、必要によってTRAMに格納することもできる。
【0168】
該当の実施例では、作業が終了したので、言語処理装置(LPU)から第2コード変換器(NWC)170に該当のデータを送る。
【0169】
第2コード変換器(NWC)170は、神経概念コード(NCC)を英語の単語に変換する。
【0170】
0012334534 - 0587335288 - 2048554671 - 0035475344 | 0084023453
【0171】
younghee - went - to - cheolsoo | house
【0172】
CPU 100でこの出力値を受け取り、これを一般的な線形文章構造に変換させる。特定の言語にのみ該当する各規則は、CPUで既存の多くの方法で各言語の文法に合わせて修正する。
【0173】
younghee went to cheolsoo house
【0174】
→ Younghee went to Cheolsoo’s house.
【0175】
したがって、本発明によると、マシンランニング技術をベースとする現在のNMT(neural machine translation)とは異なり、翻訳時に原本文を毀損しない。
【0176】
Synapperモデルで原本文の構文構造を見出すと、その構造内で全ての言語の翻訳文を作成することができる。
【0177】
人間が作った文章をそのまま維持しながら翻訳文が抽出されるので、翻訳が自然且つ正確になる。
【0178】
また、本発明は、ビッグデータを必要としないので、学習する過程も必要ない。
【0179】
マシンランニング基盤のSMTやNMTアルゴリズムは、特定の言語ごとに別途に学習させなければならない。例として、ネイバーのPapagoは、学習されたデータが多い英語→韓国語、韓国語→英語の翻訳には優れているが、ウズベク語→ベトナム語などのような他の言語の組み合わせには翻訳性能が低下し得る。しかし、本発明に係るSynapperモデルを用いた自然語処理方法は、基本的に全ての言語に同一に適用できるので、翻訳性能が低下し得るという問題を解決することができる。
【0180】
さらに、Synapperモデル(SMU)は、各文章の正確な構造を見出すことができ、各文章の意味に対する情報も有することができる。遺伝子構造が分かれば多くのことが可能になるように、文章の構造が分かると、既存には不可能であったり困難であったことが可能になる。すなわち、文章構造を分析すると、この文章が肯定的な表現であるのか、それとも否定的な表現であるのかを確認することができる。
【0181】
したがって、現在、マシンランニング基盤のアルゴリズムが必要とする電力消費や演算力が要求されないので、簡単な作業であれば、一般のスマートフォン機器でも十分に処理が可能である。そのため、インターネットに接続されていなくても、本人が所有した機器で自然語処理が可能になる。膨大な量の文章を速く処理しなければならない場合、上記のプロセスをハードウェアチップで設計すると、より速い性能を期待することができる。
【0182】
結論として、本発明によると、Synapperモデルユニットを用いて自然語を処理する場合、ビッグデータがなくても非常に速い速度で自然語処理が可能であり、高い正確度及び一貫性がある自然語処理を行えるという効果を有する。
【0183】
以上で説明したシステムは、ハードウェア構成要素、ソフトウェア構成要素、及び/又はハードウェア構成要素とソフトウェア構成要素との組み合わせで具現され得る。例えば、処理システムは、運営体制(OS)及び前記運営体制上で行われる一つ以上のソフトウェアアプリケーションを行うことができる。また、処理システムは、ソフトウェアの実行に応答して、データを接近、格納、操作、処理及び生成することもできる。理解の便宜のために、一つの処理装置が使用されることを説明した場合もあるが、該当の技術分野で通常の知識を有する者であれば、処理システムが複数個の処理要素及び/又は複数類型の処理要素を含み得ることが分かる。例えば、処理システムは、複数個のプロセッサ、又は一つのプロセッサ及び一つのコントローラを含むことができる。また、並列プロセッサなどの他の処理構成も可能である。
【0184】
ソフトウェアは、コンピュータープログラム、コード、命令、又はこれらのうち一つ以上の組み合わせを含むことができ、望みどおりに動作するように処理システムを構成したり、処理システムで独立的に又は結合的に動作することができる。ソフトウェア及び/又はデータは、処理装置によって解釈されたり、処理システムに命令又はデータを提供するために、一定の類型の機械、構成要素、物理的装置、仮想装置、コンピューター格納媒体又は装置に具体化され得る。ソフトウェアは、ネットワークで連結されたコンピューターシステム上に分散され、分散された方法で格納又は実行されることもある。ソフトウェア及びデータは、一つ以上のコンピューター判読可能な記録媒体に格納され得る。
【0185】
実施例に係る方法は、多様なコンピューター手段を通じて行われ得るプログラム命令形態で具現され、コンピューター判読可能な媒体に記録され得る。前記コンピューター判読可能な媒体は、プログラム命令、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記媒体に記録されるプログラム命令は、実施例のために特別に設計されて構成されたものであってもよく、コンピューターソフトウェアの当業者に公知の使用可能なものであってもよい。コンピューター判読可能な記録媒体の例には、ハードディスク、プロッピーディスク及び磁気テープなどの磁気記録媒体と、CD-ROM、DVDなどの光学データ記憶媒体と、フロプティカルディスクなどの磁気-光媒体と、ROM(Read Only Memory)、RAM、フラッシュメモリなどのプログラム命令を格納して行うように特別に構成されたハードウェア装置とが含まれる。プログラム命令の例には、コンパイラによって作られる機械語コードのみならず、インタープリターなどを使用してコンピューターによって実行され得る高級言語コードを含む。
【0186】
以上では、本発明に係るSynapperモデルユニットを用いた自然語処理システム及び方法に関する具体的な実施例について説明したが、本発明の範囲から逸脱しない限度内で様々な実施変形が可能であることは自明である。そのため、本発明の範囲は、説明した実施例に限定して定められてはならなく、後述する特許請求の範囲のみならず、この特許請求の範囲と均等なものによって定められなければならない。
【0187】
すなわち、上述した実施例は、全ての面で例示的なものであって、限定的なものではないことを理解しなければならなく、本発明の範囲は、詳細な説明よりは後述する特許請求の範囲によって示され、その特許請求の範囲の意味、範囲、及びその等価概念から導出される全ての変更又は変形した形態が本発明の範囲に含まれるものと解釈しなければならない。
【符号の説明】
【0188】
100 CPU
110 入力装置
120 アナログ-デジタル変換器(ADC)
160 第1コード変換器(WNC:Word-to-NCC Converter)
170 第2コード変換器(NWC:NCC-to-Word Converter)
180 デジタル-アナログ変換器(DAC)
190 出力装置
200 言語処理装置(LPU)
210 制御装置
220 レジスタ
230 Synapperモデルユニット(SMU)
240 キャッシュメモリ
310 テキストランダムアクセスメモリ(TRAM)
320 フラッシュメモリ
図1
図2
図3
図4
図5
図6
【手続補正書】
【提出日】2024-02-01
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピュータが実行する自然語処理方法であって、
自然語で書かれたり発音されたテキストを受け取り、これを単語で構成された文章に変換する前処理段階;
前記前処理段階を通じて前記単語で構成された文章内の各単語を、第1コード変換器(WNC)を通じて、2進数の神経概念コード(NCC)に変換する第1変換段階;
前記第1変換段階を通じて変換された前記神経概念コードを言語処理装置のSynapperモデルに入力する段階;
前記言語処理装置の前記Synapperモデルを通じて認識された前記神経概念コードを解釈し、解釈されたデータを出力する解釈及び出力段階;
前記言語処理装置で解釈されて出力されたデータの前記神経概念コードを、第2コード変換器(NWC)を通じて単語データに変換する第2変換段階;及び
前記第2変換段階を通じて変換された前記単語データを、前記解釈されたデータとして出力する解釈データ出力段階;を含
前記解釈及び出力段階における前記神経概念コードの解釈では、前記神経概念コードの10進数表現で最初の2桁を2進数で表した数字を用いて前記文章の構文構造が決定される、自然語処理方法。
【請求項2】
前記解釈及び出力段階では、
レジスタセットで、前記神経概念コード(NCC)の前記最初の2桁が示す品詞を、前記Synapperモデルで用いられる前記品詞に関する規則を通じて分析し、前記文章の前記構文構造を決定する、請求項1に記載の自然語処理方法。
【請求項3】
前記解釈及び出力段階では、
前記構文構造が決定された前記文章内の各単語の前記神経概念コード(NCC)を前記解釈されたデータとして出力する、請求項1に記載の自然語処理方法。
【請求項4】
前記解釈及び出力段階では、
キャッシュメモリは、前記Synapperモデルを通じて解釈されたデータを、出力を生成するために臨時に格納する、請求項1に記載の自然語処理方法。
【請求項5】
自然語で書かれた文章を入力する入力装置;
前記入力装置に入力されたアナログデータをデジタルデータに変換するアナログ-デジタル変換器(ADC);
前記デジタルデータに変換されたデータを、2進数の神経概念コードに変換する第1コード変換器(WNC);
前記第1コード変換器(WNC)を通じて入力される前記神経概念コードをSynapperモデルを通じて解釈して出力する言語処理装置;
前記言語処理装置から出力された前記神経概念コードを、解釈された単語データに変換する第2コード変換器(NWC);
前記第2コード変換器(NWC)を通じて変換された前記単語データであるデジタルデータをアナログデータに変換するデジタル-アナログ変換器(DAC);及び
前記デジタル-アナログ変換器(DAC)を通じて変換されたデータを、解釈された自然語で出力する出力装置;を含
前記言語処理装置による前記神経概念コードの解釈では、前記神経概念コードの10進数表現で最初の2桁を2進数で表した数字を用いて前記文章の構文構造が決定される、Synapperモデルユニットを用いた自然語処理システム。