特開2024-53820 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＬｅｇａｌＦｏｒｃｅの特許一覧

特開2024-53820自然言語処理方法、自然言語処理システム、及び自然言語処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6A
6B
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024053820

(43)【公開日】2024-04-16

(54)【発明の名称】自然言語処理方法、自然言語処理システム、及び自然言語処理プログラム

(51)【国際特許分類】

G06F 40/268 20200101AFI20240409BHJP

G06F 40/295 20200101ALI20240409BHJP

【ＦＩ】

G06F40/268

G06F40/295

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2022160263

(22)【出願日】2022-10-04

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有り学会における発表による公開、開催日：令和４年８月３０日、学会名：ＮＬＰ若手の会（ＹＡＮＳ）第１７回シンポジウム、開催場所：オンライン（ｈｔｔｐｓ：／／ａｐｐ．ｇａｔｈｅｒ．ｔｏｗｎ／ｅｖｅｎｔｓ／ＤＧ７ＶｊＥｅｄＮｎ８ｍｒＶ２ＷｎｇＤ７）

(71)【出願人】

【識別番号】717005132

【氏名又は名称】株式会社ＬｅｇａｌＯｎＴｅｃｈｎｏｌｏｇｉｅｓ

(74)【代理人】

【識別番号】100079108

【弁理士】

【氏名又は名称】稲葉良幸

(74)【代理人】

【識別番号】100109346

【弁理士】

【氏名又は名称】大貫敏史

(74)【代理人】

【識別番号】100117189

【弁理士】

【氏名又は名称】江口昭彦

(74)【代理人】

【識別番号】100134120

【弁理士】

【氏名又は名称】内藤和彦

(72)【発明者】

【氏名】赤部晃一

(72)【発明者】

【氏名】小田悠介

(72)【発明者】

【氏名】神田峻介

【テーマコード（参考）】

5B091

【Ｆターム（参考）】

5B091AA15

5B091AB06

5B091CA02

5B091EA01

(57)【要約】

【課題】処理データ量を抑制することが可能な自然言語処理方法、自然言語処理システム、及び自然言語処理プログラムを提供する。
【解決手段】プロセッサにより実行される自然言語処理方法であって、少なくとも１つの文字列と、文字列の任意の単語に対応する複数の素性の全部又は一部それぞれの、単語に対応するタグを判定する重みに関する第１重み配列に基づいて、末尾から少なくとも１文字が一致する複数の文字列に対応する、少なくとも１組の複数の素性の重みを統合して、第２重み配列を算出することと、抽出範囲に関する窓幅情報に基づいて、対象単語に対応する少なくとも１つの素性を抽出することと、第２重み配列及び抽出された少なくとも１つの素性に基づいて、対象単語のタグを判定することと、を含む自然言語処理方法。
【選択図】図１

【特許請求の範囲】

【請求項1】

プロセッサにより実行される自然言語処理方法であって、
少なくとも１つの文字列と、前記少なくとも１つの文字列の任意の単語に対応する複数の素性の全部又は一部それぞれの、単語に対応するタグを判定する重みに関する第１重み配列に基づいて、末尾から少なくとも１文字が一致する複数の文字列に対応する、少なくとも１組の前記複数の素性の前記重みを統合して、第２重み配列を算出することと、
事前に設定される抽出範囲に関する窓幅情報に基づいて、対象単語に対応する少なくとも１つの素性を抽出することと、
前記第２重み配列及び前記抽出された少なくとも１つの素性に基づいて、前記対象単語のタグを判定することと、
を含む自然言語処理方法。

【請求項2】

前記第１重み配列は、少なくとも１つの単語にタグが設定された少なくとも１つの学習用文字列と、前記学習用文字列の任意の単語に対応する複数の素性と、によって学習して生成される、請求項１に記載の自然言語処理方法。

【請求項3】

前記第２重み配列を算出することは、前記対象単語に隣接しない素性の前記重みを含まない前記第２重み配列を算出することを含む、請求項１又は２に記載の自然言語処理方法。

【請求項4】

文字列を分割して複数の分割文字列を取得することをさらに含み、
前記対象単語は、前記複数の分割文字列に含まれる複数の対象単語を含み、
前記素性を抽出することは、前記複数の対象単語のそれぞれに対応する少なくとも１つの素性を抽出することを含み、
前記タグを判定することは、前記複数の対象単語のそれぞれのタグを判定することを含む、
請求項１又は２に記載の自然言語処理方法。

【請求項5】

前記少なくとも１つの文字列の任意の単語に対応する前記複数の素性は、前記少なくとも１つの文字列の所定の単語と当該所定の単語を起点とする所定の相対位置との間にある文字又は文字列であり、
前記対象単語に対応する前記少なくとも１つの素性は、前記対象単語と前記対象単語を起点とする所定の相対位置との間にある文字又は文字列である、
請求項１又は２に記載の自然言語処理方法。

【請求項6】

前記少なくとも１つの文字列の任意の単語に対応する前記複数の素性は、前記少なくとも１つの文字列の所定の単語と当該所定の単語を起点とする所定の相対位置との間にある文字の文字種又は文字列の文字種であり、
前記対象単語に対応する前記少なくとも１つの素性は、前記対象単語と前記対象単語を起点とする所定の相対位置との間にある文字の文字種又は文字列の文字種である、
請求項１又は２に記載の自然言語処理方法。

【請求項7】

少なくとも１つのプロセッサを具備する自然言語処理システムであって、
前記少なくとも１つのプロセッサが、
少なくとも１つの文字列と、前記少なくとも１つの文字列の任意の単語に対応する複数の素性の全部又は一部それぞれの、文字又は文字列に対応するタグを判定する重みに関する第１重み配列に基づいて、末尾から少なくとも１文字が一致する文字又は文字列に対応する、少なくとも１組の前記複数の素性の前記重みを統合して、第２重み配列を算出し、
事前に設定される抽出範囲に関する窓幅情報に基づいて、少なくとも１文字を含む対象単語に対応する少なくとも１つの素性を抽出し、
前記第２重み配列及び前記抽出された少なくとも１つの素性に基づいて、前記対象単語のタグを判定する、
ように構成されている、自然言語処理システム。

【請求項8】

プロセッサに、
少なくとも１つの文字列と、前記少なくとも１つの文字列の任意の単語に対応する複数の素性の全部又は一部それぞれの、文字又は文字列に対応するタグを判定する重みに関する第１重み配列に基づいて、末尾から少なくとも１文字が一致する文字又は文字列に対応する、少なくとも１組の前記複数の素性の前記重みを統合して、第２重み配列を算出することと、
事前に設定される抽出範囲に関する窓幅情報に基づいて、少なくとも１文字を含む対象単語に対応する少なくとも１つの素性を抽出することと、
前記第２重み配列及び前記抽出された少なくとも１つの素性に基づいて、前記対象単語のタグを判定することと、
を実行させるための自然言語処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、自然言語処理方法、自然言語処理システム、及び自然言語処理プログラムに関する。

【背景技術】

【0002】

近年、コンピュータによる、文章の文脈解析や意味解析等の自然言語処理に関する技術が発達しつつある。

【0003】

コンピュータによる自然言語処理では、文章を単語に分割する際に行われる単語境界の判定処理の後、各単語の品詞等の属性を示すタグを判定する処理が行われる場合がある。

【0004】

例えば、特許文献１に記載されている装置は、入力文から固有表現を抽出する装置であって、形態素解析モデルを用いて入力文を形態素解析し、入力文全体の形態素列について出現確率が高い上位Ｎ個（Ｎは１より大きい自然数）の形態素列を抽出し、固有表現抽出モデルを用いて、抽出されたＮ個の形態素列から固有表現を含む形態素列について出現確率が高い上位Ｍ個（Ｍは１以上の自然数）の固有表現を含む形態素列を抽出することを特徴とする。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２００４―４６７７５号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、特許文献１に記載されている装置では、処理されるデータ量が大きくなるという問題がある。

【0007】

そこで、本発明の一態様は、処理するデータ量を抑制することが可能な自然言語処理方法、自然言語処理システム、及び自然言語処理プログラムを提供することを目的とする。

【課題を解決するための手段】

【0008】

本発明の一態様に係る自然言語処理方法は、プロセッサにより実行される自然言語処理方法であって、少なくとも１つの文字列と、少なくとも１つの文字列の任意の単語に対応する複数の素性の全部又は一部それぞれの、単語に対応するタグを判定する重みに関する第１重み配列に基づいて、末尾から少なくとも１文字が一致する複数の文字列に対応する、少なくとも１組の複数の素性の重みを統合して、第２重み配列を算出することと、事前に設定される抽出範囲に関する窓幅情報に基づいて、対象単語に対応する少なくとも１つの素性を抽出することと、第２重み配列及び抽出された少なくとも１つの素性に基づいて、対象単語のタグを判定することと、を含む。

【発明の効果】

【0009】

本発明の一態様によれば、処理するデータ量を抑制することが可能な自然言語処理方法、自然言語処理システム、及び自然言語処理プログラムを提供することができる。

【図面の簡単な説明】

【0010】

【図1】本発明の一実施形態である自然言語処理システム１００における処理の概要を示す図である。

【図2】本発明の一実施形態である自然言語処理システム１００の構成を示す図である。

【図3】記憶部１１０に記憶される学習用文字列情報の例を示す図である。

【図4】素性抽出部１２０が抽出する素性の例を示す図である。

【図5】記憶部１１０に記憶される第１重み配列の例を示す図である。

【図6A】第２重み配列算出部１３０によって重みが統合されていない場合の処理の概要を示す図である。

【図6B】第２重み配列算出部１３１によって重みが統合されている場合の処理の概要を示す図である。

【図7】記憶部１１０に記憶される第２重み配列の例を示す図である。

【図8】記憶部１１０に記憶される対象文字列情報の例を示す図である。

【図9】記憶部１１０に記憶される分割文字列情報の例を示す図である。

【図10】記憶部１１０に記憶される判定結果情報の例を示す図である。

【図11】自然言語処理システム１００における処理速度に関する実験結果を示す図である。

【図12】自然言語処理システム１００が判定処理対象とする契約書１２００の例を示す図である。

【図13】自然言語処理システム１００における第２重み配列の生成処理の例を示すフローチャートである。

【図14】自然言語処理システム１００における対象単語のタグ判定処理の例を示すフローチャートである。

【発明を実施するための形態】

【0011】

図面を参照して、本発明に係る実施形態について説明する。図１は、本発明の一実施形態である自然言語処理システム１００における処理の概要を示す図である。

【0012】

なお、本開示において、「部」とは、単に物理的手段を意味するものではなく、その「部」が有する機能をソフトウェアによって実現する場合も含む。また、１つの「部」又は装置が有する機能が２つ以上の物理的手段、装置、又はソフトウェアにより実現されても、２つ以上の「部」又は装置の機能が１つの物理的手段、装置、又はソフトウェアにより実現されてもよい。

【0013】

自然言語処理システム１００は、任意の文字列（対象文字列）に含まれる単語に対応するタグを判定するシステムである。

【0014】

ここで、タグは、例えば、単語の品詞若しくは属性、又は読み仮名を示す情報である。単語の品詞若しくは属性は、例えば、名詞、動詞、接頭辞、接尾辞、普通名詞、固有名詞、一般名詞、人名であってもよい。読み仮名は、例えば、単語の発音を示す平仮名、片仮名、ローマ字であってもよい。また、１つの単語に複数のタグが対応してもよい。

【0015】

まず、自然言語処理システム１００は、単語にタグが設定された学習用文字列と、学習用文字列の任意の単語に対応する素性と、によって学習して、学習済みモデル及び第１重み配列を生成する（Ｓ１０１）。

【0016】

ここで、素性は、単語に対応する情報であり、例えば、文字ｎ－ｇｒａｍ又は文字種ｎ－ｇｒａｍを含む。また、第１重み配列は、素性と、単語に対応するタグを判定する基準となる重みと、を対応付けた配列データである。

【0017】

次に、自然言語処理システム１００は、第１重み配列に基づいて、第１重み配列に含まれる、末尾から少なくとも１文字が一致する複数の文字列に対応する、少なくとも１組の複数の素性の重みを統合して、第２重み配列を算出する（Ｓ１０２）。自然言語処理システム１００は、例えば、第１重み配列に含まれる２つの素性「全世界」及び素性「世界」の重みを、１つの素性「全世界」の重みに含めるように統合し、第２重み配列を生成する。

【0018】

その後、自然言語処理システム１００は、対象文字列におけるタグを判定する対象となる対象単語に対応する素性を抽出する（Ｓ１０３）。

【0019】

そして、自然言語処理システム１００は、学習済みモデルと、第２重み配列と、抽出される対象単語に対応する素性と、に基づいて、対象単語に対応するタグを判定する（Ｓ１０４）。

【0020】

なお、自然言語処理システム１００は、任意の文字列の単語について、当該単語に対応するタグを判定することができる。つまり、自然言語処理システム１００は、専門分野の文字列もタグ判定処理の対象とすることができ、例えば、契約書等の法律分野の文書に含まれる単語をタグ判定処理の対象とすることができる。ここで、契約書は、例えば、条項を含み、所定の法的効果を発生させる文書であり、申込書、覚書等も含む。

【0021】

また、本実施形態の文字列は、少なくとも１つの文字を含む文字列であればよく、１文字からなる文字であってもよく、また、２文字以上の文字からなる文字列であってもよい。本実施形態の文字列は、紙の文書から画像認識技術（例えば、Optical Character Recognition技術）等で抽出されたものであってもよい。

【0022】

図２は、本発明の一実施形態である自然言語処理システム１００の構成を示す図である。自然言語処理システム１００は、情報処理システム２００及びユーザ端末３００とインターネット等のネットワークを介して通信可能に接続されるシステムである。自然言語処理システム１００の詳細は、後述する。

【0023】

情報処理システム２００は、例えば、学習用文字列を記憶し、学習用文字列を外部の情報処理システムに提供する情報処理システムである。情報処理システム２００は、自然言語処理システム１００に対し、学習用文字列に関する学習用文字列情報及び学習用文字列に対応する素性に関する情報を提供することができる。

【0024】

ユーザ端末３００は、例えば、ユーザが利用するコンピュータであり、スマートフォン、タブレット端末、パーソナルコンピュータ等である。ユーザ端末３００は、自然言語処理システム１００によるタグ判定処理の対象となる単語に関するデータが含まれた文書データ若しくは画像データを、自然言語処理システム１００に提供したり、自然言語処理システム１００に対し、外部の情報処理システムから取得するように指示したりすることができる。

【0025】

なお、図２では、ユーザ端末３００の例として、ユーザ端末３００の１つのみを示しているが、ユーザ端末３００の数はこれに限られない。

【0026】

また、自然言語処理システム１００は、全部又は一部が、情報処理システム２００及びユーザ端末３００の少なくともいずれかに組み込まれるシステムであってもよい。

【0027】

続いて、自然言語処理システム１００の詳細について説明する。自然言語処理システム１００は、記憶部１１０、学習用文字列取得部１１５、素性抽出部１２０、学習部１２５、第２重み配列算出部１３０、対象文字列取得部１３５、文字列分割部１４０、タグ判定部１４５、出力部１５０、条文分割部１５５、条文種別判定部１６０、表示部１６５を備える。図２に示す各部は、例えば、記憶領域を用いたり、記憶領域に格納された自然言語処理プログラムをプロセッサが実行したりすることにより実現することができる。

【0028】

本実施形態の記憶部１１０は、自然言語処理システム１００において処理される情報を記憶する。記憶部１１０は、例えば、後述する、学習用文字列情報、第１重み配列、第２重み配列、対象文字列情報、分割文字列情報、判定結果情報を記憶することができる。

【0029】

本実施形態の学習用文字列取得部１１５は、情報処理システム２００から、少なくとも１つの単語にタグが設定された少なくとも１つの文字列である学習用文字列に関する学習用文字列情報を取得し、記憶部１１０に格納する。

【0030】

ここで、学習用文字列情報は、少なくとも１つの単語にタグが設定された文字列に関する情報であり、機械学習におけるいわゆる教師データである。また、学習用文字列情報は、自然言語処理システム１００が、後述する第１重み配列を生成する際に学習する情報である。

【0031】

ここで、タグは、例えば、単語の品詞若しくは属性、又は読み仮名を示す情報である。単語の品詞若しくは属性は、例えば、名詞、動詞、接頭辞、接尾辞、普通名詞、固有名詞、一般名詞、人名であってもよい。読み仮名は、例えば、単語の発音を示す平仮名、片仮名、ローマ字であってもよい。なお、タグが示す情報は、これに限られない。

【0032】

具体的には、単語「全世界」に対応するタグは、例えば、「名詞-普通名詞-一般／ゼンセカイ」といった形式によって、単語の品詞若しくは属性、又は読み仮名を示す。

【0033】

単語に対応するタグは、当該単語が属する文字列（すなわち、例えば、文）における当該単語の意味に応じて異なる。具体的には、例えば、単語「素」は、「モト」と読まれる場合、名詞になる場合がある一方、「ソ」と読まれる場合、接尾辞になる場合がある。

【0034】

なお、タグの記憶形式及び表示形式は、「名詞-普通名詞-一般／ゼンセカイ」といった形式に限られない。

【0035】

また、学習用文字列には、少なくとも１つの単語にタグが設定されていればよく、全ての単語にタグが設定されている必要はない。

【0036】

また、学習用文字列取得部１１５は、学習用文字列情報自体を取得し記憶部１１０に格納してもよく、また、学習用文字列情報のリンクに関する情報を取得し、学習用文字列情報のリンクに関する情報を記憶部１１０に格納してもよい。

【0037】

図３は、記憶部１１０に記憶される学習用文字列情報の例を示す図である。記憶部１１０に記憶される情報は、例えば、学習用文字列ＩＤ及び学習用文字列内容情報を含む。

【0038】

本実施形態の学習用文字列ＩＤは、学習用文字列情報に含まれる学習用文字列を識別する情報である。

【0039】

本実施形態の学習用文字列内容情報は、学習用文字列の内容に関する情報である。学習用文字列内容情報は、学習用文字列に含まれる少なくとも１つの単語（例えば、「全世界」）に、タグが設定されている。

【0040】

本実施形態の素性抽出部１２０は、事前に設定される抽出範囲を示す窓幅に関する窓幅情報に基づいて、単語に対応する素性を抽出し、素性情報を生成する。

【0041】

ここで、本実施形態の窓幅情報は、例えば、素性抽出部１２０が抽出する範囲を示す情報である。素性の詳細は、後述する。

【0042】

素性抽出部１２０は、学習用文字列情報に含まれる単語に対応する２つ以上の素性を抽出することができる。

【0043】

また、素性抽出部１２０は、後述する対象文字列情報に含まれる対象単語に対応する少なくとも１つの素性、及び分割文字列情報に含まれる対象単語に対応する少なくとも１つの素性を抽出することができる。

【0044】

素性抽出部１２０が学習用文字列情報に含まれる単語に対応する２つ以上の素性を抽出する際、素性抽出部１２０は、タグが設定された単語に対応する素性を抽出してもよく、また、タグが設定されていない単語に対応する素性を抽出してもよい。また、素性抽出部１２０は、１つの単語から２以上の素性を抽出してもよく、また、２以上の単語からそれぞれ１つの素性（合計して２以上の素性）を抽出してもよい。

【0045】

なお、素性抽出部１２０は、情報処理システム２００から、学習用文字列情報に含まれる単語に対応する２以上の素性に関する素性情報を取得し、素性情報を生成してもよい。

【0046】

次に、素性抽出部１２０が抽出する素性の詳細について説明する。素性抽出部１２０が抽出する素性として、例えば、文字ｎ－ｇｒａｍ及び文字種ｎ－ｇｒａｍを用いることができる。

【0047】

本実施形態の文字ｎ－ｇｒａｍは、例えば、所定の単語と当該所定の単語を起点とする所定の相対位置との間にある文字又は文字列を示す情報である。ここで、「ｎ」は、文字又は文字列の文字数を示す。

【0048】

本実施形態の文字種ｎ－ｇｒａｍは、例えば、所定の単語と当該所定の単語を起点とする所定の相対位置との間にある文字の文字種又は文字列の文字種を示す情報である。ここで、文字種とは、文字の種別を示す情報であり、例えば、漢字、片仮名、平仮名、ローマ字、数字、及びその他を含む。ここで、「ｎ」は、文字又は文字列の文字数を示す。

【0049】

図４は、素性抽出部１２０が抽出する素性の例を示す図である。図４では、文字列「われらは全世界の国民が、」における文字列４０１「の」に対応する素性の例を示す。

【0050】

まず、素性抽出部１２０は、素性を抽出する範囲を示す窓幅に関する窓幅情報に基づいて、窓幅を設定する。図４では、窓幅を３（つまり、文字列４０１から前後３文字分）とした窓幅４０２が示されている。窓幅情報は、素性抽出部１２０による抽出処理の前に、設定されていればよい。

【0051】

そして、素性抽出部１２０は、文字列４０１からの相対位置（窓幅が３である図４の場合は、相対位置「－３」～「３」の計７つの相対位置）ごとに、文字ｎ－ｇｒａｍ及び文字種ｎ－ｇｒａｍを抽出する。なお、窓幅が３であるため、各相対位置に対応する文字ｎ－ｇｒａｍ及び文字種ｎ－ｇｒａｍは、それぞれ、文字１－ｇｒａｍ～文字３－ｇｒａｍ及び文字種１－ｇｒａｍ～文字種３－ｇｒａｍとなる。

【0052】

図４に示す例のとおり、例えば、文字１－ｇｒａｍは、相対位置順に、「全」、「世」、「界」、「の」、「国」、「民」、「が」を含む。

【0053】

また、例えば、文字種１－ｇｒａｍは、相対位置順に、「漢」、「漢」、「漢」、「ひ」、「漢」、「漢」、「ひ」を含む。ここで、文字種「漢」は、文字種が漢字であることを示し、文字種「ひ」は、文字種が平仮名であること示す。なお、文字種の表記方法は、図４に示す方法に限られない。

【0054】

本実施形態の学習部１２５は、学習用文字列情報と、学習用文字列に含まれる単語に対応する２以上の素性情報と、によって素性と単語に対応するタグとの関係を学習して、第１重み配列及び学習済みモデルを生成し、第１重み配列及び学習済みモデルを記憶部１１０に格納する。

【0055】

ここで、本実施形態の第１重み配列は、単語のタグを判定する基準となる重みに関する配列データであって、学習用文字列に含まれる単語に対応する２以上の素性と、学習用文字列に含まれる単語に対応する２以上の素性それぞれの、単語に対する相対位置ごとの重みとの関係を対応させた配列データである。

【0056】

なお、第１重み配列に含まれる学習用文字列に含まれる単語に対応する２以上の素性は、素性抽出部１２０が生成した素性情報に対応する素性の全部又は一部であってもよい。また、第１重み配列に含まれる学習用文字列に含まれる単語に対応する２以上の素性は、素性抽出部１２０が情報処理システム２００から取得した素性情報の全部又は一部であってもよい。

【0057】

学習部１２５によって学習される学習済みモデルは、任意の単語に対応する素性及び重み配列（第１重み配列又は後述する第２重み配列）に基づいて、単語に対応するタグを判定するモデルである。

【0058】

具体的には、学習済みモデルは、入力される、特定の単語に対応する素性及び重み配列（第１重み配列又は後述する第２重み配列）に基づいて、判定対象となる単語のタグに関するスコアを出力する。

【0059】

図５は、記憶部１１０に記憶される第１重み配列の例を示す図である。記憶部１１０に記憶される第１重み配列は、例えば、素性情報、相対位置情報、重み情報（文字ｎ－ｇｒａｍに関する重みを示す文字ｎ－ｇｒａｍ重み情報、及び文字種ｎ－ｇｒａｍに関する重みを示す文字種ｎ－ｇｒａｍ重み情報）を含む。

【0060】

なお、第１重み配列は、図５に示すように、複数種別の重み情報をまとめて、１つの配列情報として、素性情報ごとに対応付けた情報であってもよく、また、重み情報の種別ごとに、当該種別の重み情報を素性情報ごとに対応付けた情報であってもよい。

【0061】

ここで、本実施形態の素性情報は、素性抽出部１２０が抽出し生成した、学習用文字列に含まれる単語に対応する２以上の素性に関する情報である。本実施形態の相対位置情報は、素性情報に対応する素性それぞれの、単語に対する相対位置に関する情報である。本実施形態の重み情報は、素性及び相対位置に対応する、単語のタグを判定する基準となる重みに関する情報である。

【0062】

なお、素性情報は、素性抽出部１２０が抽出した全部の素性に関する情報であってもよく、また、一部の素性に関する情報であってもよい。また、素性情報は、素性抽出部１２０が情報処理システム２００から取得した素性情報の全部又は一部であってもよい。

【0063】

学習部１２５による第１重み配列の生成は、例えば、システム管理者の指示に応じて実行される。また、システムメンテナンス時間等の所定のタイミングで自動的に学習が実行されてもよく、また、後述する第２重み配列算出部１３０による第２重み配列の算出処理の直前に実行されてもよい。学習のアルゴリズムは特に限定されないが、例えば、ランダムフォレスト（Random Forest）、ＳＶＭ（Support Vector Machine）を用いることができる。

【0064】

また、記憶部１１０は、学習部１２５によって生成される第１重み配列及び学習済みモデルを記憶してもよく、また、外部の情報処理システムに記憶されている第１重み配列に対応する情報や当該第１重み配列に対応する情報のリンクに関する情報を記憶してもよい。

【0065】

本実施形態の第２重み配列算出部１３０は、第１重み配列に基づいて、末尾から少なくとも１文字が一致する複数の文字列に対応する、少なくとも１組の複数の素性の重みを統合して、第２重み配列を算出し、記憶部１１０に格納する。

【0066】

具体的には、例えば、文字列「全世界」及び文字列「世界」は、末尾から２文字（すなわち、「世界」）が一致する複数の文字列である。そのため、第１重み配列に含まれる文字ｎ－ｇｒａｍ素性「全世界」及び文字ｎ－ｇｒａｍ素性「世界」は、末尾から少なくとも１文字（この場合は、２文字）が一致する複数の文字列に対応する、少なくとも１組の複数の素性に該当する。

【0067】

すなわち、第２重み配列算出部１３０は、例えば、文字ｎ－ｇｒａｍ素性「全世界」及び文字ｎ－ｇｒａｍ素性「世界」に対応する重みを統合して、文字ｎ－ｇｒａｍ素性「全世界」の重みを算出し、第２重み配列を生成することができる。

【0068】

なお、末尾から少なくとも１文字が一致する複数の文字列は、「全世界」「世界」のように単語として認識可能な文字列であってもよく、また、「の国」「界の国」等、単語の一部、又は複数の単語若しくは複数の単語の一部を組み合わせた文字列であってもよい。

【0069】

第２重み配列算出部１３０による素性の重みの統合処理は、例えば、第１重み配列に含まれる、末尾から少なくとも１文字が一致する複数の文字列に対応する、少なくとも１組の複数の素性の重みを加算することにより、当該少なくとも１組の２以上の素性の重みを統合してもよく、また、その他の演算処理であってもよい。

【0070】

なお、第２重み配列算出部１３０は、末尾から少なくとも１文字が一致する複数の文字列に対応する全ての素性の組み合わせを統合しなくてもよい。また、第２重み配列算出部１３０による第２重み配列の算出は、例えば、システム管理者の指示に応じて、又は、システムメンテナンス時間等の所定のタイミングで自動的に算出処理が実行されてもよく、また、後述するタグ判定部１４５の判定処理の直前に実行されてもよい。

【0071】

また、第２重み配列算出部１３０は、特定の単語（例えば、後述する対象単語）に隣接しない素性の重みを含まない第２重み配列を算出することができる。

【0072】

具体的には、例えば、図４に示すように、窓幅４０２の範囲内で、文字列４０１に対応する素性において、単語「の」について、文字ｎ－ｇｒａｍ素性「全世界」は、単語「の」に隣接する一方、文字ｎ－ｇｒａｍ素性「全世」は、単語「の」に隣接しない。この場合、第２重み配列算出部１３０は、第１重み配列に含まれる、文字ｎ－ｇｒａｍ素性「全世」に対応する素性の重みを含まない第２重み配列を算出することができる。

【0073】

特定の単語（例えば、後述する対象単語）に隣接しない素性は、文字列において、当該特定の単語から離れている単語に対応する素性である。そのため、当該特定の単語に隣接しない素性は、当該特定の単語のタグの判定処理において、重要ではない場合がある。そこで、自然言語処理システム１００は、第２重み配列として、当該特定の単語に隣接しない素性の重みを含まない重み配列を算出することで、後述するタグ判定部１４５による判定の精度を損なわず、第２重み配列のデータ量を削減し、後述するタグ判定部１４５による判定速度を向上させることができる。

【0074】

図６Ａ及び６Ｂを用いて、第２重み配列算出部１３０による重みの統合処理について説明する。図６Ａ及び６Ｂは、自然言語処理システム１００によって単語に対応する素性が抽出される処理の概要を示す図である。図６Ａは、第２重み配列算出部１３０によって重みが統合されていない場合の処理の概要を示す図である。図６Ｂは、第２重み配列算出部１３０によって重みが統合されている場合の処理の概要を示す図である。

【0075】

ノード６０１は、自然言語処理システム１００が処理対象とする文字列の文字間を示し、エッジ６０２は、ノード６０１同士が文字によって繋がっていることを示し、文字６０３は、エッジ６０２に対応する文字を示す。素性６０４は、エッジ６０２に対応する素性を示す。つまり、例えば、エッジ６０２ａは、文字列「全世界」を示し、エッジ６０２ａに対応する素性として、素性６０４ａ（素性「全世界」）及び素性６０４ｂ（素性「世界」）があることを示す。そして、後述するタグ判定部１４５は、素性６０４ａ及び素性６０４ｂのそれぞれに対応する重み情報に基づいて、単語のタグを判定する。なお、抽出される素性は、図６Ａ及び６Bに示す素性６０４に限られない。

【0076】

図６Ａに示すとおり、第２重み配列算出部１３０によって重みが統合されていない場合、エッジ６０２ａには、素性６０４ａ（素性「全世界」）及び素性６０４ｂ（素性「世界」）が対応している。つまり、第２重み配列算出部１３０によって統合されていない場合、素性６０４ａ（素性「全世界」）及び素性６０４ｂ（素性「世界」）のそれぞれに対応する重み情報に基づいて、単語のタグが判定される。

【0077】

図６Ｂに示すとおり、第２重み配列算出部１３０は、末尾から少なくとも１文字が一致する複数の文字列に対応する、素性６０４ａ（素性「全世界」）及び素性６０４ｂ（素性「世界」）の重みを統合することができる。つまり、図６Ｂに示すとおり、第２重み配列算出部１３０によって重みが統合されている場合、統合された素性６０４ｃに対応する重み情報に基づいて、単語のタグが判定される。

【0078】

その結果、後述するタグ判定部１４５は、例えば、単語「全世界」に対応するタグの判定の際、統合された素性「全世界」に対応する重み情報を参照し、素性「世界」に対応する重み情報を参照しないこととすることができる。

【0079】

なお、第２重み配列には、統合に用いられた素性（例えば、素性「世界」）の重み情報は含まれており、タグ判定部１４５は、第２重み配列に含まれる、統合に用いられた素性の重み（例えば、素性「世界」）を参照することができる。つまり、タグ判定部１４５は、例えば「ある世界の全国民」という文字列（つまり「全世界」という文字列ではない文字列であって、単語「世界」が含まれている文字列）におけるタグ判定の際に、素性「世界」の重みを参照することができる。

【0080】

図７は、記憶部１１０に記憶される第２重み配列の例を示す図である。記憶部１１０に記憶される第２重み配列は、例えば、素性情報、相対位置情報、重み情報（文字ｎ－ｇｒａｍ重み情報、文字種ｎ－ｇｒａｍ重み情報）を含む。

【0081】

なお、第２重み配列は、図７に示すように、複数種別の重み情報をまとめて、１つの配列情報として、素性情報ごとに対応付けた情報であってもよく、また、重み情報の種別ごとに、当該種別の重み情報を素性情報ごとに対応付けた情報であってもよい。

【0082】

本実施形態の対象文字列取得部１３５は、自然言語処理システム１００に提供される文字列又は文字列に関するデータが含まれた文書データ若しくは画像データに基づいて、タグ判定処理の対象となる単語である対象単語を含む文字列である対象文字列情報を取得し、記憶部１１０に格納する。

【0083】

対象文字列取得部１３５は、例えば、契約書等の法律分野の文書の文書データ若しくは画像データから、当該文書に含まれる文字列を取得することができる。また、対象文字列取得部１３５は、日本語の文字列を取得してもよく、その他の言語の文字列を取得してもよい。

【0084】

対象文字列取得部１３５は、文字列又は文字列に関するデータが含まれた文書データ若しくは画像データをユーザ端末３００から提供を受けてもよく、また、ユーザ端末３００を通じたユーザからの指示に基づいて、文書データ若しくは画像データを外部の情報処理システムから取得してもよい。

【0085】

自然言語処理システム１００が文字列に関するデータが含まれた文書データの提供を受ける場合、対象文字列取得部１３５は、例えば、文書データを解析して、提供を受けた文書データに含まれる文字列を取得する。

【0086】

自然言語処理システム１００が文字列に関するデータが含まれた画像データの提供を受ける場合、対象文字列取得部１３５は、例えば、画像認識技術を用いて、提供を受けた画像データに含まれる文字列を取得する。

【0087】

対象文字列取得部１３５は、単語ごとに分割された対象文字列を取得する。すなわち、対象文字列は、例えば、文字間に単語境界の有無が設定された情報と対応付けられた文字列である。

【0088】

対象文字列取得部１３５が取得する対象文字列は、自然言語処理システム１００において単語分割処理がなされた対象文字列であってもよい。この場合、自然言語処理システム１００は、単語分割処理がなされていない文字列を取得し、所定の単語分割処理により、文字間に単語境界の有無を設定して、当該文字列を単語ごとに分割した対象文字列を生成する。そして、対象文字列取得部１３５は、単語ごとに分割された対象文字列を取得する。

【0089】

図８は、記憶部１１０に記憶される対象文字列情報の例を示す図である。記憶部１１０に記憶される対象文字列情報は、例えば、対象文字列ＩＤ、対象文字列内容情報を含む。本実施形態の対象文字列ＩＤは、自然言語処理システム１００におけるタグ判定処理の対象となる対象単語を含む対象文字列を識別する情報である。本実施形態の対象文字列内容情報は、対象文字列の内容に関する情報である。

【0090】

図８では、対象文字列内容情報において、単語境界となる文字間に、「／」を用いて単語境界の位置が示されているが、単語境界の位置を示す情報は、「／」に限られず、その他の記号や方法を用いてもよい。

【0091】

本実施形態の文字列分割部１４０は、対象文字列を分割して分割文字列を生成し、生成した分割文字列に関する分割文字列情報を記憶部１１０に格納する。

【0092】

文字列分割部１４０は、コンピュータの計算環境や対象文字列の性質に合わせて、対象文字列を任意の文字間の位置で分割することができる。文字列分割部１４０は、事前に定められた所定の条件によって設定される分割する文字間の位置に基づいて、対象文字列を分割してもよく、また、ユーザ端末３００を通じたユーザの操作によって設定される、分割する文字間の位置に基づいて、対象文字列を分割してもよい。

【0093】

文字列分割部１４０は、分割文字列同士が重ならないように対象文字列を分割してもよく、また、分割文字列同士の一部が重なるように対象文字列を分割してもよい。

【0094】

なお、後述する、分割文字列ごとに並列して単語のタグを判定する並列判定処理において、分割文字列間の相互参照を避けるために、文字列分割部１４０は、分割文字列の両端が窓幅情報に対応する窓幅分だけ重なるように、対象文字列を分割文字列に分割してもよい。

【0095】

図９は、記憶部１１０に記憶される分割文字列情報の例を示す図である。記憶部１１０に記憶される分割文字列情報は、例えば、分割文字列ＩＤ及び分割文字列内容情報を含む。本実施形態の分割文字列ＩＤは、文字列分割部１４０によって分割された分割文字列を識別する分割文字列識別情報である。本実施形態の分割文字列内容情報は、分割文字列の内容に関する情報である。

【0096】

図９では、後述する、分割文字列ごとに並列して単語のタグを判定する並列判定処理において、分割文字列間の参照を避けるために、分割文字列の両端が窓幅情報に対応する窓幅分（この場合は、６文字分）だけ重なるように分割された分割文字列が示されている。

【0097】

本実施形態のタグ判定部１４５は、学習済みモデル、第２重み配列、及び素性抽出部１２０によって抽出して生成される、対象文字列又は分割文字列に含まれる対象単語に対応する少なくとも１つの素性情報に基づいて、対象単語のタグを判定し、対象単語及びタグを対応付けた判定結果情報を記憶部１１０に格納する。

【0098】

ここで、対象単語は、例えば、対象文字列又は分割文字列に含まれる、タグ判定部１４５によるタグ判定処理の対象となる単語である。

【0099】

タグ判定部１４５は、学習済みモデルに、第２重み配列及び対象単語に対応する少なくとも１つの素性情報を入力し、対象単語に対応する少なくとも１つのタグの候補のスコアを算出する。その上で、タグ判定部１４５は、当該スコアが一定値以上であるタグ（例えば、最もスコアが高いタグ）を、対象単語に対応するタグであると判定する。

【0100】

また、タグ判定部１４５は、最適化された処理（例えば、メモリの最適化処理）の下、対象単語のタグに関するスコアを出力することができる。ここで、メモリの最適化処理は、例えば、重み配列に含まれる素性情報及び対象単語に対応する素性情報のパターンマッチ処理の際に利用される、配列のメモリ使用量を最適なサイズにする処理や配列の属性を示す情報を最適なサイズにする処理を含む。なお、これらの最適化処理は、素性情報のパターンマッチのみならず、より一般に、文字列のパターンマッチに適用可能である。

【0101】

また、タグ判定部１４５は、並列して、複数の分割文字列における複数の対象単語のタグ判定処理を行うことができる。

【0102】

図１０は、記憶部１１０に記憶される判定結果情報の例を示す図である。記憶部１１０に記憶される判定結果情報は、例えば、判定結果ＩＤ、対象文字列ＩＤ、判定済み文字列内容情報を含む。本実施形態の判定結果ＩＤは、判定結果情報を識別する情報である。

【0103】

本実施形態の判定済み文字列内容情報は、例えば、対象文字列又は分割文字列と、対象文字列又は分割文字列に含まれる少なくとも１つの対象単語に対応するタグとが対応付けられた情報である。

【0104】

なお、図１０では、判定結果ＩＤは、判定済み文字列内容情報に対応付けられているが、対象単語に対応付けられていてもよい。すなわち、記憶部１１０は、文字列ごとに判定結果情報を記憶してもよく、また、単語ごとに判定結果情報を記憶してもよい。

【0105】

本実施形態の出力部１５０は、判定結果情報を出力する。

【0106】

出力部１５０は、判定結果情報を、例えば、ユーザ端末３００に出力してもよい。この場合、出力部１５０は、タグの種類（例えば、品詞に種類）に応じた表示態様（例えば、色）によって、ユーザ端末３００してもよい。

【0107】

また、出力部１５０は、別の情報処理システム（例えば、タグ判定処理に続く自然言語処理を行う情報処理システム）に出力してもよい。

【0108】

図１１は、自然言語処理システム１００における処理速度に関する実験結果を示す図である。図１１に示す図では、自然言語処理システム１００における処理方法及び自然言語処理システム１００とは異なる処理方法のそれぞれについて、与えられた文字列に含まれる単語のタグを判定する処理に要した時間（ミリ秒）及び判定の精度が示されている。

【0109】

図１１に示す図において、Ａ及びＢは、タグ判定処理の前に行われる単語分割処理に要した時間及びその精度の結果を示し、Ｃ及びＤは、単語分割処理及びタグ判定処理に要した時間及びその精度の結果を示す。

【0110】

また、Ａ及びＣは、自然言語処理システム１００における処理方法とは異なる処理方法である「ＫｙＴｅａ」（キューティー：京都テキスト解析ツールキット）を用いた結果である。

【0111】

Ｂは、「ＫｙＴｅａ」とは異なる処理方法「Ｖａｐｏｒｅｔｔｏ」を用いた結果である。Ｄは、単語分割処理において「Ｖａｐｏｒｅｔｔｏ」を用い、タグ判定処理において自然言語処理システム１００における処理方法を用いた結果である。なお、Ｄにおいて、自然言語処理システム１００（特に、第２重み配列算出部１３０）は、第１重み配列に基づいて、末尾から少なくとも１文字が一致する複数の文字列に対応する、少なくとも１組の複数の素性の重みを統合し、さらに、対象単語に隣接しない素性の重みを含まない第２重み配列を算出している。

【0112】

図１１に示すとおり、タグ判定処理において自然言語処理システム１００における処理方法（Ｄ）を用いた場合、自然言語処理システム１００とは異なる処理方法の結果（Ｃ）と比較して、処理に要した時間及びその精度が向上している。

【0113】

また、タグ判定処理を追加することによって増加した処理時間（すなわち、ＡとＣの処理時間の差分、ＢとＤの処理時間の差分）を比較すると、ＡとＣの処理時間の差分が、２２３．６ミリ秒である一方、ＢとＤの処理時間の差分が、４３．７ミリ秒であることから、自然言語処理システム１００における処理方法を用いたタグ判定処理の処理速度が、自然言語処理システム１００とは異なる処理方法を用いたタグ判定処理の処理速度と比較して、向上していることが分かる。

【0114】

自然言語処理システム１００は、判定処理対象が、例えば、契約書等の法律分野の文書である場合には、さらに、条文分割処理、条文種別判定処理、及び表示処理を行うことができる。なお、自然言語処理システム１００は、判定処理対象が契約書等以外の文書である場合には、文書の性質に応じて、区切り分割処理、種別判定処理、及び表示処理を行うことができる。以下では、自然言語処理システム１００の判定処理対象が契約書等の法律分野の文書とした場合の実施例について説明する。

【0115】

図１２は、自然言語処理システム１００が判定処理対象とする契約書１２００の例を示す図である。図１２に示す契約書１２００は、２社間における秘密保持に関する契約書であり、契約書のタイトルを示す領域１２０１、序文を示す領域１２０２及び、条文を示す領域１２１１、１２１２、１２１３を含む。

【0116】

なお、自然言語処理システム１００が後述する条文分割処理、条文種別判定処理、及び表示処理を行う前は、自然言語処理システム１００は、領域１２０１が契約書のタイトルを示すこと、領域１２０２が契約書の序文を示すこと、及び領域１２１１、１２１２、１２１３が条文を示すことを認識できていない。

【0117】

本実施形態の条文分割部１５５は、契約書１２００を、タイトル、序文、条文等の区切りごとに分割する。条文分割部１５５は、例えば、判定結果情報に基づいて、契約書１２００を分割することができる。

【0118】

条文分割部１５５が判定結果情報に基づいて分割する場合には、例えば、「第○条」という名詞が記載されている前後を、「条文」の区切りとして分割することができる。なお、条文分割部１５５は、契約書１２００を条ごとに分割してもよく、また、項又は号ごとに分割してもよい。

【0119】

なお、条文分割部１５５は、処理対象が契約書等以外の文書である場合には、文書の性質に応じて、区切り分割処理を行うことができる。例えば、処理対象が学術論文である場合には、条文分割部１５５は、「背景」、「方法」、「結果」、「考察」等の区切りに分割することができる。

【0120】

本実施形態の条文種別判定部１６０は、条文分割部１５５によって分割された区切りごとに、区切りの種別を判定する。種別とは、記載内容のカテゴリを示す情報であり、例えば、契約書等の法律分野の文書である場合には、「タイトル」、「序文」、「条文」を含む。条文種別判定部１６０は、例えば、区切りの冒頭に、「第○条」という名詞が記載されている部分を、種別「条文」と判定することができる。

【0121】

なお、条文種別判定部１６０は、処理対象が契約書等以外の文書である場合には、文書の性質に応じて、区切り分割処理を行うことができる。例えば、処理対象が学術論文である場合には、条文種別判定部１６０は、「背景」、「方法」、「結果」、「考察」等の種別を判定することができる。

【0122】

条文分割部１５５による条文分割処理及び条文種別判定部１６０による条文種別判定処理の結果、自然言語処理システム１００は、契約書１２００について、領域１２０１が契約書のタイトルを示すこと、領域１２０２が契約書の序文を示すこと、及び領域１２１１、１２１２、１２１３が条文を示すことを認識することができる。

【0123】

本実施形態の表示部１６５は、条文分割部１５５及び条文種別判定部１６０の処理の結果に基づいて、ユーザ端末３００に、契約書１２００並びに条文分割部１５５及び条文種別判定部１６０の処理の結果を表示する。

【0124】

図１３は、自然言語処理システム１００における第２重み配列の生成処理の例を示すフローチャートである。

【0125】

まず、学習用文字列取得部１１５は、情報処理システム２００から学習用文字列情報を取得する（Ｓ１３０１）。次に、素性抽出部１２０は、学習用文字列に含まれる単語に対応する２以上の素性を抽出し素性情報を生成する（Ｓ１３０２）。続いて、学習部１２５は、学習用文字列情報と、学習用文字列に含まれる単語に対応する少なくとも１つの素性情報とに基づいて学習し、第１重み配列及び学習済みモデルを生成する（Ｓ１３０３）。そして、第２重み配列算出部１３０は、第１重み配列に基づいて、末尾から少なくとも１文字が一致する複数の文字列に対応する少なくとも１組の複数の素性の重みを統合して、第２重み配列を算出する（Ｓ１３０４）。

【0126】

図１４は、自然言語処理システム１００における対象単語のタグ判定処理の例を示すフローチャートである。

【0127】

まず、自然言語処理システム１００は、ユーザ端末３００を通じたユーザの指示に基づいて、タグの判定対象となる対象単語を含む対象文字列情報を取得する（Ｓ１４０１）。次に、自然言語処理システム１００は、対象文字列を分割して分割文字列情報を生成する（Ｓ１４０２）。続いて、自然言語処理システム１００は、分割文字列ごとに、分割文字列に含まれる対象単語に対応する少なくとも１つの素性を抽出する（Ｓ１４０３）。

【0128】

次に、自然言語処理システム１００は、第２重み配列及び抽出された少なくとも１つの素性情報に基づいて、分割文字列ごとに、対象単語のタグを判定する（Ｓ１４０４）。その後、自然言語処理システム１００は、判定結果に基づいて、対象単語とタグとを対応付けた判定結果情報を出力する（Ｓ１４０５）。

【0129】

さらに、自然言語処理システム１００は、判定済み文字列情報に基づいて、条文の分割及び条文種別の判定を行う（Ｓ１４０６）。そして、自然言語処理システム１００は、条文の分割及び条文種別判定の処理結果を、ユーザ端末３００に表示する（Ｓ１４０７）。

【0130】

以上、本発明の一実施形態について説明した。自然言語処理システム１００は、第１重み配列に含まれる、末尾から少なくとも１文字が一致する複数の文字列に対応する、少なくとも１組の２以上の素性の重みを事前に統合して算出される第２重み配列に基づいて、対象単語のタグを判定することができる。これにより、処理するデータ量を抑制したタグ判定処理を実現することができる。

【0131】

また、自然言語処理システム１００は、対象単語に隣接しない素性の重みを含まずに算出される第２重み配列に基づいて、対象単語のタグを判定することができる。これにより、判定の精度を損なわずに、データ量を抑制し、かつ、処理速度を向上させたタグ判定処理を実現することができる。

【0132】

また、自然言語処理システム１００は、対象文字列を、２以上の文字を含む２以上の分割文字列に分割し、分割文字列ごとに、分割文字列それぞれに含まれる対象単語それぞれに対応する少なくとも１つの素性と、第２重み配列と、に基づいて、分割文字列それぞれに含まれる対象単語それぞれのタグを判定することができる。これにより、１つの対象文字列について並列してタグ判定処理を行うことができ、対象単語のタグ判定処理をより高い処理速度で行うことができる。

【0133】

なお、本実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明は、その趣旨を逸脱することなく、変更／改良され得るととともに、本発明にはその等価物も含まれる。

【0134】

本開示に係る処理及び手順は、実施形態において明示的に説明された装置によってだけでなく、ソフトウェア、ハードウェア又はこれらの組み合わせにより実現されうる。具体的には、本明細書で説明された処理及び手順は、集積回路、揮発性メモリ、不揮発性メモリ、磁気ディスク、光ストレージなどの媒体に、当該処理に相当するロジックを実装することにより実現されうる。また、本明細書で説明される処理及び手順は、それらの処理及び手順をコンピュータプログラムとして実装されえ、端末装置及びサーバ装置を含む各種のコンピュータにより実行されうる。

【0135】

本明細書中において、単一の装置、ソフトウェア、コンポーネント、及び／又は、モジュールによって実行されると説明された処理及び手順は、複数の装置、複数のソフトウェア、複数のコンポーネント、及び／又は、複数のモジュールによって実行されうる。また、本明細書において、単一のメモリ及び記憶装置に格納される旨が説明された各種情報は、単一の装置に含まれる複数のメモリ又は複数の装置に分散して配置された複数のメモリに分散して格納されうる。さらに、本明細書において説明された複数のソフトウェア及びハードウェアは、それらをより少ない構成要素に統合することにより、又は、より多い構成要素に分解することにより実現されうる。

【符号の説明】

【0136】

１００自然言語処理システム、１１０記憶部、１１５学習用文字列取得部、１２０素性抽出部、１２５学習部、１３０配列算出部、１３５対象文字列取得部、１４０文字列分割部、１４５タグ判定部、１５０出力部、１５５条文分割部、１６０条文種別判定部、１６５表示部、２００情報処理システム、３００ユーザ端末

【図1】