【文献】
山田 寛康 外2名,Support Vector Machineを用いた日本語固有表現抽出,情報処理学会論文誌,日本,社団法人情報処理学会,2002年 1月15日,第43巻第1号,pp.44-53
(58)【調査した分野】(Int.Cl.,DB名)
前記抽象ルールの集合は、単語内の文字状況の特徴を捉えるためのルール、単語情報を別の観点で置き換えるためのルール、及び言語ごとに有用な特徴量の取捨選択を実現するためのルールを含む、
請求項1から請求項3のいずれか1項に記載の抽出装置。
【発明を実施するための形態】
【0018】
以下、図面を参照して本開示の実施形態を詳細に説明する。なお、一般に、言語処理技術において、言語の特徴量は「素性」とも呼ばれる。本開示では、言語が有するもともとの特徴については「特徴」といい、固有表現抽出のために抽出される特徴量については「素性」という。
【0019】
<本実施形態の概要>
本開示は、複数の言語を固有表現抽出するにあたり、言語によって着目する特徴が異なる場合でも統一的な処理系で固有表現抽出するために以下の(1)〜(3)の構成で固有表現の抽出装置を実現する。
【0020】
(1)言語に応じた形態素解析処理を実行し、形態素解析結果を出力する。
(2)形態素解析結果に対し、言語別に当該言語の特徴に応じて設けられた抽出ルールを参照して、言語特徴抽出処理を実行して素性を抽出し、言語特徴抽出結果として出力する。
(3)言語特徴抽出結果に対し、固有表現抽出処理を行い、抽出結果である固有表現を出力する。
【0021】
ここで、言語ごとの特徴を吸収するのは、上記(2)の言語特徴抽出処理であり、ここでの特徴の取り出し方は各言語によって設定を変える。その言語ごとの特徴の取り出し方は、抽出ルールで規定する。上記(3)の固有表現抽出処理自体は、言語依存はなく、(2)の言語特徴抽出処理の結果により得られる、言語特徴抽出結果に対して同一の処理系で動くものとする。なお、本実施形態では、上記(1)の形態素解析処理には既存の形態素解析技術を用いる。本実施形態によれば、各言語に対応する任意の形態素解析技術を導入することができ、その後段の処理に上記(2)及び(3)の処理を追加することで、多言語に対応する固有表現の抽出装置を実現できる。
【0022】
<本実施形態の固有表現の抽出装置の構成>
次に、本実施形態の固有表現の抽出装置の構成について説明する。
図1には、本実施形態の固有表現の抽出装置10の一例の構成を表す構成図を示す。
図1に示した本実施形態の固有表現の抽出装置10は、テキストである入力文9を解析し、入力文9から人名、地名、組織名、及び商品名などの固有表現を抽出する。
【0023】
図1に示すように、本実施形態の固有表現の抽出装置10は、言語特徴の抽出装置11、形態素解析部12、固有表現抽出部16、及び固有表現抽出モデル17を備える。言語特徴の抽出装置11は、言語特徴抽出部14及び言語別特徴抽出ルール18を含む。
【0024】
図1に示した本実施形態の固有表現の抽出装置10は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述する固有表現抽出処理ルーチンを実行するためのプログラムや各種データを記憶したROM(Read Only Memory)と、を含むコンピュータで構成することができる。具体的には、上記プログラムを実行したCPUが、
図1に示した固有表現の抽出装置10の言語特徴の抽出装置11(言語特徴抽出部14)、形態素解析部12、及び固有表現抽出部16として機能する。
【0025】
固有表現の抽出装置10の形態素解析部12には、装置の外部から入力文9が入力される。以下、具体例として、固有表現の抽出装置10に、
図2Aに例示した言語が英語の場合の入力文9A(「NTT Media Intelligence Labs. was established in 2012.」)、または
図2Bに例示した言語が日本語である入力文9B(「NTT メディアインテリジェンス研究所は横須賀市にあります。」)が入力された場合を説明する。
【0026】
形態素解析部12は、入力された入力文9に対し、形態素解析処理を実行し、形態素解析結果13を出力する。形態素解析処理には、既存の任意の形態素解析技術を利用することができる。なお、形態素解析部12は、入力文9の言語に応じて、英語であれば英語用、日本語であれば日本語用の形態素解析技術を用いる。形態素解析処理によれば、入力文9を単語に分割し、品詞、及び原型など、単語情報を付加された状態の形態素解析結果13が出力として得られる。換言すると、各言語の形態素解析結果13とは、入力文9を構成する形態素ごとの、表記、品詞、原型表記、及び読み等の対からなる。なお、形態素解析結果13として、これらのうち、「表記」及び「品詞」は必須であるが、「原型表記」及び「読み」は必須としていない。
【0027】
例えば、形態素解析部12が、
図2Aに例示した入力文9Aに対して形態素解析処理を実行した場合、
図3Aに例示した形態素解析結果13Aが得られる。具体的には、
図3Aに示されるように、形態素解析結果13Aとして、「NTT/NNP」、「Media/NN」、「Intelligence/NN」、「Labs./NNP」、「was/VBD」、「establishd/VBN」、「in/IN」、「2012/CD」、及び「./.」が得られる。なお、「NNP」は固有名詞を表し、「NN」は単数形の名詞を表し、「VBD」は過去時制の動詞を表し、「IN」は前置詞または縦続接続詞を表し、「CD」は基数を表し、「.」は句点を表す。
【0028】
また例えば、形態素解析部12が、
図2Bに例示した入力文9Bに対して形態素解析処理を実行した場合、
図3Bに例示した形態素解析結果13Bが得られる。具体的には、
図3Bに示されるように、形態素解析結果13Bとして、「NTT/名詞:固有」、「メディア/名詞」、「インテリジェンス/名詞」、「研究所/名詞接尾辞:名詞」、「は/助詞」、「横須賀/名詞:固有」、「市/名詞接尾辞:名詞」、「に/助詞」、「あ/動詞語幹:R」、「り/動詞活用語尾」、「ます/動詞接尾辞」、及び「。/句点」が得られる。
【0029】
言語特徴抽出部14には、形態素解析部12から出力された形態素解析結果13が入力される。言語特徴抽出部14は、言語別特徴抽出ルール18を参照しながら、素性を抽出する言語特徴処理を実行し、言語特徴抽出結果15を出力する。
【0030】
本実施形態では、一例として言語別特徴抽出ルール18には、抽象ルールの一例である以下のルールA〜Fを用いて記述された抽出ルール、及び後述する出力ルールが含まれる。本実施形態の言語別特徴抽出ルール18では、これら抽象ルールにより、以下の(I)〜(III)が実現される。
(I)大文字小文字、単語内文字、特定文字または文字列の有無、及び文字種等の単語内の文字状況の特徴を捉える。
(II)表記や品詞等の単語情報を、単語タイプ、品詞などのカテゴリの上/下位概念化、及び辞書などの外部知識を参照して、別の観点で置き換える。
(III)言語ごとに有用な特徴量の取捨選択。
【0031】
言語特徴抽出部14は、形態素解析結果(表記:%form、品詞:%pos等。詳細後述)の何れかを対象:targetとする、以下のルールA〜Fを用いて記述された言語別特徴抽出ルール18であって入力文9の言語に対応する言語別特徴抽出ルール18に基づいて、形態素解析結果13から素性の抽出を行う。素性の抽出は、形態素ごと(すなわち、
図3の1行ごと)に処理を行う。また、素性の抽出時には、表記は%form、品詞は%posという変数の値を各形態素結果から取得して処理を行う。なお、本実施形態では、言語別特徴抽出ルール18が、ルールA〜Fを用いて記述される場合を例に説明するが、これらのうち、ルールE、Fを用いることは必須ではない。
【0032】
ルールA:任意の箇所の部分文字列を抽出するためのルール(「Substr」と表記される)。
ルールB:任意の箇所の部分文字列を、置換/挿入/削除を行って抽出するためのルール(「RegexReplace」と表記される)。
ルールC:所定のパタンにマッチする表現に対し、特定のラベル情報を付与するためのルール(「RegexMatch」と表記される)。
ルールD:所定のパタンにマッチする表現か否かを判定するためのルール(「IsContain」と表記される)。
ルールE:辞書情報(外部データ)を参照するためのルール(「Dic」と表記される)。
ルールF:抽出情報を初期化するためのルール(「SetValue」と表記される)。
【0033】
ここで、上記ルールA〜Fを用いて記述された抽出ルールに従って、形態素解析結果13から抽出した情報に対し、出力ルール(
図4A及び
図4B参照)を用いて最終的に素性として用いる情報や、そのフォーマットを設定するようにしてもよい。
【0034】
前述したように、言語ごとに着目したい特徴は異なるため、言語別特徴抽出ルール18は言語別に前記ルールA〜Fの何れか(少なくとも1つ以上)を用いて記述されるものとする。
図4Aには、言語が英語である場合の言語別特徴抽出ルール18である、英語用の言語別特徴抽出ルール18Aの一例を示す。また、
図4Bには、言語が日本語である場合の言語別特徴抽出ルール18である、日本語用の言語別特徴抽出ルール18Bの一例を示す。
【0035】
言語特徴抽出処理では、形態素解析結果13に含まれる単語表記(%form)や品詞(%pos)を活用し、これを元に文字列処理や辞書引きを行うことを想定している。
図4A及び
図4Bに示す言語特徴抽出ルールは、言語特徴抽出部14で実施する言語特徴抽出処理を概念的に表したものであり、この表現方法は任意の形式でよく、またプログラム上はこの表現から正規表現に基づく文字列検索や、%formの値による辞書検索などの処理に変換して実施するものとする。
【0036】
以上のように、共通化したルールの集合を定義しておくことで、対象とする各言語の特徴に応じてルールの集合からルールを選択し、処理対象言語に合わせた具体的な言語特徴抽出ルールの定義を行うことができる。また、最終的に素性として出力する際の出力ルールにおいて、各素性を出力するか否かの定義や、出力フォーマットの指定(素性間の区切り文字を”/”とする、等)を記述可能にすることで、各言語の素性、及びその種類数のコントロールや、書式の統一を容易に設定できる。
【0037】
このように、考慮すべき素性の設計や管理が自由・柔軟・容易に行えて、かつ統一性のある素性抽出結果が出力できる仕組みを導入することで、言語ごとに考慮すべき特徴の違いをうまく吸収し、後段の固有表現抽出部16における処理の共通化を実現することが可能となる。
【0038】
まず、
図4Aに例示した、英語用の言語別特徴抽出ルール18Aについて詳細に説明する。
【0039】
言語別特徴抽出ルール18Aの抽出ルール1〜5は上記のルールAを用いて記述される。抽出ルール1〜5において「Substr」は、「Substr=target,key,開始バイト位置,バイト数」で表現される。
【0040】
抽出ルール1の場合、target(ここでは単語表記%form)に対して開始バイト位置(0バイト目)からバイト数(1バイト分)を部分文字列として取り出し、key(ここでは%pre1)に記憶することを意味する。例えば、「NTT」という表記の場合、抽出ルール1によれば、「N」という部分文字列が取り出されて、%pre1に格納される。抽出ルール2の場合、先頭から2バイト分取り出され、%pre2=NTとなる。
【0041】
一方、抽出ルール3〜5の場合では、開始バイト位置が−1(=末尾)となり、そこから、1バイト分、2バイト分、及び3バイト分が各々取り出されて、それぞれ%suf1、%suf2、及び%suf3に格納される。例えば「playing」という表記であれば、%suf1=g、%sufs2=ng、%sufs2=ingが各々格納される。このように、抽出ルール1〜5により、単語表記の任意の箇所の部分文字列を取り出すことができる。
【0042】
なお、この例では単語の先頭または末尾からの数文字に着目する抽出ルールとしたが、言語の特徴によっては、単語の両端ではなく中央部分に着目する抽出ルールを設計しても良い。いずれにしても、単語全体の表記ではなく、一部の文字列に着目する抽出ルールが設定できることが重要である。
【0043】
また、言語別特徴抽出ルール18Aの抽出ルール6は上記のルールFを用いて記述される。抽出ルール6において「SetValue」は、「SetValue=key,value」で表現されkeyに対してvalueを設定する。
【0044】
抽出ルール6では、単語タイプを表すkeyとして%typeに<else>を設定する。
【0045】
また、言語別特徴抽出ルール18Aの抽出ルール7〜10は、上記のルールCを用いて記述される。抽出ルール7〜10において「RegexMatch」は、「RegexMatch=target,条件,key,value」で表現され、targetが条件にマッチした場合にkeyに対してvalueを設定する。抽出ルール7の場合、単語表記(%form)に小文字の英字だけが含まれる場合は、%typeに<alpha>を設定する。抽出ルール8〜10の場合では、各々、大文字の英字だけが含まれれば%typeに<ALPHA>、先頭だけ大文字でそれ以降小文字であれば%typeに<Alpha>、数字が含まれれば%typeに<NUM>を設定する。
【0046】
抽出ルール6〜10により、単語に含まれる文字に応じて、<alpha>、<ALPHA>、<Alpha>、<NUM>、及び<else>の5種類の分類ができる。
【0047】
また、言語別特徴抽出ルール18Aの抽出ルール11は上記のルールDを用いて記述される。抽出ルール11において「IsContain」は、「IsContain=target,条件,key,value1,value2」で表現され、targetが条件に指定する文字を含む場合にkeyにvalue1を設定し、含まなければvalue2を設定する。
【0048】
抽出ルール11の場合では、単語表記(%form)にハイフン「−」が含まれる場合は、%hyphenに「1」を設定し、そうでない場合は「0」を設定する。この抽出ルールにより、形態素解析結果に特定の文字が含まれるか否かを特徴として検知することができる。例えば、「mid-December」、「al-Jazeera」、及び「late-Qing」などのようにハイフン「−」を含んで複合語のようになる英語表現は数多くある。このような複合語は、組み合わせの種類が膨大にあるため、全ての出現パタンが学習データに存在することは期待できない。そのため、ハイフンの有無という特徴をとらえておくことで、多様なバリエーションの複合語の出現を抽象化してとらえておくことができると期待される。
【0049】
また、言語別特徴抽出ルール18Aの抽出ルール12は上記のルールEを用いて記述される。抽出ルール12において「Dic」は、「Dic=辞書パス,target,value,照合タイプ」で表現され、辞書パスで提示される辞書に対して、targetをkeyとして指定する照合タイプで辞書検索し、辞書登録情報をvalueに格納する。
【0050】
抽出ルール12の場合では、/path/dicの辞書に対して、単語表記%formをkeyとして最長一致の照合(LONGEST)で辞書検索し、辞書中に照合するものがあれば、その辞書登録情報を%dic_valに格納する。この抽出ルールにより、形態素解析結果から何かしらの外部情報源を参照し、そこに含まれる情報を特徴として取り出すことができる。
【0051】
次に、
図4Bに例示した、日本語用の言語別特徴抽出ルール18Bについて詳細に説明する。
【0052】
言語別特徴抽出ルール18Bの抽出ルール13は上記のルールBを用いて記述される。抽出ルール13において「RegexReplace」は、「Regreplace=置き換え先、置き換え元、条件」で表現され、置き換え元に対して条件を適用し置き換え先に格納する。
【0053】
抽出ルール13の場合では、品詞(%pos)に対して、「:」の直前までの範囲だけを取り出して改めて品詞(%pos)に置き換えることになり、例えば「動詞:サ変」という名詞であった場合は「動詞」だけが品詞として置き換わる。
【0054】
以上のようにして、言語別特徴抽出ルール18を持つことにより、例えば英語に対しては単語表記から注目したい範囲の文字列を取り出したり、大文字や小文字の使われ方の違いを単語タイプとして取り出したり、特定の文字が含まれるか否か、更には外部の辞書を参照してその辞書に含まれる情報を特徴として活用したり、といった特徴抽出処理が可能となる。
【0055】
上述したように言語別特徴抽出ルール18は、上述したように、上記(I)〜(III)を実現するものである。英語や多くのヨーロッパ言語は、活用語尾や格変化や、大文字小文字等、単語内の一部の変化で語の役割を変える特徴があるため、上記(I)及び(III)が用いられ、特に(I)が重要である。一方、日本語、中国語、及び韓国語などは、減速、単語の内部での語形変化がないため、上記(III)のみが用いられる。なお、言語全般について、もし上記(II)が得られる状況ならば、(II)についても追加すると良い。言語別特徴抽出ルール18は、このような、大枠のとらえ方で多くの言語を共通的に扱う仕組みをとるものである。
【0056】
一方、例えば日本語では、原則、形態素解析部12における形態素解析処理で得られた情報(表記、品詞、及び原型)だけを使うという想定で、品詞だけは先頭の品詞(一番メインとなる主品詞)だけを使う、といった変換だけを行った後、出力ルールを用いて必要最低限の素性のみ抽出する、ということが可能となる。
【0057】
言語特徴抽出部14では、抽出された素性を言語特徴抽出結果15として出力する。
図5Aには、入力文9Aの形態素解析結果13Aに対して、
図4Aに例示した言語別特徴抽出ルール18A(抽出ルール1〜12、出力ルール)に基づいて、抽出された素性を形態素単位で出力した結果を示す。また、
図5Bには、入力文9Bの形態素解析結果13Bに対して、
図4Bに例示した言語別特徴抽出ルール18B(抽出ルール13、出力ルール)に基づいて、抽出された素性を形態素単位で出力した結果を示す。
【0058】
ここで、前述したように、入力された形態素解析結果13、及び抽出した素性の全てを固有表現抽出に利用しなくてもよい。
図5A及び
図5Bの例では、各々
図4A及び
図4Bに例示した言語別特徴抽出ルール18A、18Bに出力ルールとして定義された素性のみを最終的な素性として出力しており、例えば形態素解析結果13で得られる情報(表記、品詞、及び原型)のうち、原型の情報は出力していない。
【0059】
なおここで示した抽出ルール1〜13は、単語内の部分的な文字、大文字小文字の状況など文字種による単語タイプ、及び特定の文字を含むなど、表記の文字の特徴を捉えることを想定したものである。また、品詞情報の一部や、表記から外部辞書に照合して情報を取得するものである。これらは、形態素解析部12による形態素解析処理で得られる一般的な形態素情報、すなわち、表記、品詞、及び原型といった形態素辞書情報を元にして、部分文字列のように一部を取り出したり、単語タイプのように別の観点で置き換えたりして、言語の特徴を抽出する抽出ルールとなる。このように形態素情報を元にして別の観点での特徴を捉える抽出ルールであれば、ここに例示した具体的な抽出ルール1〜13だけにとどまらず、色々な抽出ルールを設定してよい。いずれにしても、言語別に注目したい特徴は異なるため、それぞれの言語に見合った特徴を抽出できる抽出ルールを言語別特徴抽出ルール18として設定し、言語特徴抽出部14が利用する。これにより、言語別の違いを言語別特徴抽出ルール18の中で吸収することができる。
【0060】
固有表現抽出部16には、言語特徴抽出部14から出力された言語特徴抽出結果15が入力される。固有表現抽出部16は、固有表現抽出処理を実行し、抽出した固有表現19を、固有表現の抽出装置10の外部に出力する。
【0061】
固有表現抽出部16が用いる固有表現抽出技術としては、既存の技術を使うことができる。
【0062】
固有表現抽出処理で抽出対象とする固有表現の代表的な例としては、日本語の固有表現抽出技術のワークショップ(略称IREX)で定義されている人名、地名、組織名、金額、日付、時間、割合、及び固有物名の8種類がある。これらの固有表現の種類をそれぞれ、<PSN>、<LOC>、<ORG>、<MNY>、<DAT>、<TIM>、<PCT>、及び<ART>で表される。本実施形態の固有表現抽出部16では、固有表現の種類として上記8種類の他、さらに、実際には固有表現でない形態素を固有表現の一種類として表すために<NIL>を追加した、9種類を抽出する固有表現の種類としている。
【0063】
各固有表現は少なくとも1つの形態素から構成されることを考慮し、固有表現の冒頭の形態素とそれ以外の形態素とを識別するために、固有表現の種類に、さらに固有表現の冒頭の形態素であることを表す「B−」、及び固有表現の途中の形態素であることを表す「I−」で表す。なお、「NIL」については当該識別を行わない。
【0064】
統計モデルである固有表現抽出モデル17に基づく固有表現抽出処理では、形態素解析結果13である形態素列に対して固有表現のラベル列が最も確率最大となるように統計モデルを用いて導出する。通常の固有表現抽出処理では、形態素列としては、形態素解析結果13そのもの、すなわち表記、品詞、及び原型などのみを対象とするが、本実施形態では、言語特徴抽出部14にて得られた素性を併せ持つ形態素列(言語特徴抽出結果15)を活用できる。従って、本実施形態の固有表現の抽出装置10によれば、従来技術と比較して、より豊富な言語特徴を使った固有表現抽出処理を実現できる。
【0065】
なお、固有表現抽出モデル17の学習アルゴリズムとしては、既存の機械学習アルゴリズムであるサポートベクタマシン(SVM:Support Vector Machine)や条件付き確率場(CRF:Conditional Random Field)などを用いればよい。入力文9の言語として想定される複数の言語に共通の機械学習アルゴリズムを用い、言語特徴抽出結果15を入力として、固有表現抽出結果を出力するように予め学習済みの言語別の固有表現抽出モデル17を構築しておく。例えば、言語毎に、当該言語の文について得られる言語特徴抽出結果15と、予め与えられた固有表現抽出結果との組み合わせである複数の学習データを用いて、言語に共通の機械学習アルゴリズムにより、当該言語の固有表現抽出モデル17を学習する。その際、英語のように多様な言語特徴を考慮する場合、通常の表記や品詞のみを対象としたときの素性より大幅に素性の個数が増えることが予想される。素性の個数はモデルサイズに直結し、モデルサイズが大きくなりすぎると、実行するコンピュータのディスク容量を逼迫することも懸念される。その場合は、学習時に、素性の出現頻度が低いもの(たとえば出現回数が5回以下)を削除したり、素性の組合せで考慮するときの前後の形態素数(一般にウインドウサイズと呼ばれるもの)を狭めたり、複数の素性の組み合わせは考慮しない、など、素性の個数を抑える策をとり、解析精度とモデルサイズの関係を調査しながら最適の素性パタンを設定することも重要である。上記の出力ルールを用いることで、各言語の素性の数、及びその種類の数等のコントロールを容易に行うことができる。
【0066】
図6Aには、入力文9Aに対応する言語特徴抽出結果15Aに基づき、固有表現抽出部16が固有表現抽出処理を行った結果出力される、固有表現19Aの一例を示す。また、
図6Bには、入力文9Bに対応する言語特徴抽出結果15Bに基づき、固有表現抽出部16が固有表現抽出処理を行った結果出力される、固有表現19Bの一例を示す。
【0067】
<本実施形態の固有表現の抽出装置の作用>
次に、本実施形態の固有表現の抽出装置10の作用について説明する。固有表現の抽出装置10は、入力文9が入力されると、
図7に一例を示す固有表現抽出処理ルーチンを実行する。
【0068】
まず、
図7に示すようにステップS100で形態素解析部12は、上述したように、入力された入力文9に対して形態素解析処理を行い、形態素解析結果13を出力する。形態素解析部12から出力された形態素解析結果13は、言語特徴抽出部14に入力される。
【0069】
次のステップS102で言語特徴抽出部14は、上述したように、入力された形態素解析結果13に対し、言語別特徴抽出ルール18を参照しながら、素性を抽出する言語特徴処理を実行し、抽出した素性を付与した言語特徴抽出結果15を出力する。本実施形態の言語特徴抽出部14は、言語特徴処理を実行する際、上述したように、入力文9の言語に応じたルールを用いて記述される言語別特徴抽出ルール18を参照する。言語特徴抽出部14から出力された言語特徴抽出結果15は、固有表現抽出部16に入力される。
【0070】
次のステップS104で固有表現抽出部16が、上述したように、固有表現抽出処理を実行し、抽出した固有表現19を、固有表現の抽出装置10の外部に出力した後、本固有表現抽出処理を終了する。本実施形態の固有表現抽出部16は、上述したように、入力文9の言語として想定される複数の言語に共通の機械学習アルゴリズムを用い、言語特徴抽出結果15を入力として、固有表現を出力するように予め学習済みの言語別の固有表現抽出モデル17を適用した、上記言語に応じた固有表現抽出処理を実行する。
【0071】
以上説明したように、本実施形態の言語特徴の抽出装置11は、複数の言語に共通した抽象ルールの集合から、対象言語の特徴に応じた抽象ルールを選択し、対象言語に合わせた具体的な素性の抽出方法、及び出力条件として定義したものを言語別特徴抽出ルール18とし、複数の対象言語の各々に対し、言語別特徴抽出ルール18を定義し、入力文9の形態素解析結果12に対し、入力文9の言語に対して定義され、かつ形態素解析結果12に含まれる表記又は品詞に関する素性を抽出するための言語別特徴抽出ルール18を参照して、言語に応じた素性を抽出し、言語特徴抽出結果15として出力する言語特徴抽出部14を備える。
【0072】
また、本実施形態の固有表現の抽出装置10は、複数の言語に共通した抽象ルールの集合から、対象言語の特徴に応じた抽象ルールを選択し、対象言語に合わせた具体的な素性の抽出方法、及び出力条件として定義したものを言語別特徴抽出ルール18とし、複数の対象言語の各々に対し、言語別特徴抽出ルール18を定義し、入力文9の形態素解析結果12に対し、入力文9の言語に対して定義され、かつ形態素解析結果12に含まれる表記又は品詞に関する素性を抽出するための言語別特徴抽出ルール18を参照して、言語に応じた素性を抽出し、言語特徴抽出結果15として出力する言語特徴抽出部14と、複数の対象言語に共通の機械学習アルゴリズムを用い、複数の対象言語ごとに、言語特徴抽出結果15を入力として、固有表現抽出結果を出力するように予め学習済みの言語別の固有表現抽出モデル17と、言語特徴抽出部14から出力された言語特徴抽出結果15を入力として、入力文9の言語に対応する固有表現抽出モデル17を用いて、固有表現抽出処理を実行し、抽出した固有表現を出力する固有表現抽出部16と、を備える。
【0073】
このように、本実施形態の固有表現の抽出装置10では、着目する言語特徴が言語ごとに異なる場合でも、その特徴の差異を言語別特徴抽出ルール18で表現することで、処理系としては言語共通のシステムで複数の言語を扱う多言語固有表現抽出が実現できる。
【0074】
従って、本実施形態の固有表現の抽出装置10によれば、言語ごとに考慮すべき特徴の違いをうまく吸収し、処理系としては共通の固有表現抽出を実現することができる。
【0075】
なお、本実施形態では、予め処理対象の言語が何であるかは分かっている前提とする。処理対象となる言語にあわせて、抽出ルールと固有表現抽出モデル17を対象言語のものに切り替えるものとする。本開示と組み合わせて言語識別技術を用いることで、言語識別結果に応じた言語の抽出ルールと固有表現抽出モデル17に自動で切り替えるシステムを実現することも可能となる。
【0076】
なお、本実施形態は一例であり、具体的な構成は本実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計等も含まれ、状況に応じて変更可能であることは言うまでもない。
【0077】
例えば、本実施形態では、言語別特徴抽出ルール18を固有表現の抽出装置10が備える形態について説明したが、言語別特徴抽出ルール18の一部または全部が、固有表現の抽出装置10の外部に備えられていてもよい。
【0078】
また、本実施形態では、固有表現の抽出を例として説明を行ったが、本開示の技術は、固有表現の抽出以外のタスクにも適用可能である。例えば、形態素解析結果から単語の表記や品詞に着目した素性を抽出し、機械学習モデルにより推定や判別を行うようなタスク(例えば専門用語抽出、用語の同義性判定/多義解消など)であれば限定されず、どのような形態にも適用可能である。
【0079】
本実施形態の固有表現の抽出装置10は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
【0080】
また、本実施形態では、上記プログラムが予めインストールされている形態について説明したが、当該プログラムを、コンピュータが読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。