(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025164577
(43)【公開日】2025-10-30
(54)【発明の名称】固有名詞翻訳辞書作成装置及び固有名詞翻訳辞書作成方法
(51)【国際特許分類】
   G06F  40/40        20200101AFI20251023BHJP        
   G06F  40/295       20200101ALI20251023BHJP        
【FI】
G06F40/40 
G06F40/295 
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2024068635
(22)【出願日】2024-04-19
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110001689
【氏名又は名称】青稜弁理士法人
(72)【発明者】
【氏名】尾崎  花奈
(72)【発明者】
【氏名】今一  修
(72)【発明者】
【氏名】渡部  孝佳
(72)【発明者】
【氏名】小林  崇則
(72)【発明者】
【氏名】小渕  拓海
(57)【要約】
【課題】文書集合から固有名詞の翻訳対を抽出することができる技術を提供する。
【解決手段】固有名詞翻訳辞書作成装置30は、文書集合から固有名詞、当該固有名詞と共起するその他の固有名詞である関連属性値、及び当該関連属性値のラベルである関連属性名の組合せを抽出する構造化部310と、構造化部310で抽出された固有名詞及び関連属性名から、翻訳対象とする固有名詞、及び翻訳に用いる関連属性名の選択を受け付ける翻訳情報選択部320と、翻訳情報選択部320で選択された関連属性名に対応する関連属性値を用いて、翻訳情報選択部320で選択された固有名詞間の一致度を算出するマッチング部330と、マッチング部330で算出した一致度に基づいて、翻訳情報選択部で選択された固有名詞の翻訳対を保持する固有名詞翻訳辞書340と、を備える。
【選択図】  
図1
 
【特許請求の範囲】
【請求項1】
  文書集合から固有名詞の翻訳対を抽出する固有名詞翻訳辞書作成装置であって、
  前記文書集合から固有名詞、当該固有名詞と共起するその他の固有名詞である関連属性値、及び当該関連属性値のラベルである関連属性名の組合せを抽出する構造化部と、
  前記構造化部で抽出された固有名詞及び関連属性名から、翻訳対象とする固有名詞、及び翻訳に用いる関連属性名の選択を受け付ける翻訳情報選択部と、
  前記翻訳情報選択部で選択された関連属性名に対応する関連属性値を用いて、前記翻訳情報選択部で選択された固有名詞間の一致度を算出するマッチング部と、
  前記マッチング部で算出した一致度に基づいて、前記翻訳情報選択部で選択された固有名詞の翻訳対を保持する固有名詞翻訳辞書と、
  を備える固有名詞翻訳辞書作成装置。
【請求項2】
  請求項1に記載の固有名詞翻訳辞書作成装置において、
  前記マッチング部は、
  前記翻訳情報選択部で選択された関連属性名に対応する関連属性値間の類似度を用いて、前記翻訳情報選択部で選択された固有名詞間の一致度を算出する固有名詞翻訳辞書作成装置。
【請求項3】
  請求項2に記載の固有名詞翻訳辞書作成装置において、
  前記マッチング部は、
  前記翻訳情報選択部で選択された関連属性名に対応する関連属性値間の文字列の類似度を用いて、前記翻訳情報選択部で選択された固有名詞間の一致度を算出する固有名詞翻訳辞書作成装置。
【請求項4】
  請求項2に記載の固有名詞翻訳辞書作成装置において、
  前記マッチング部は、
  前記翻訳情報選択部で選択された関連属性名に対応する関連属性値を特徴ベクトルに変換し、前記特徴ベクトル間の類似度を用いて、前記翻訳情報選択部で選択された固有名詞間の一致度を算出する固有名詞翻訳辞書作成装置。
【請求項5】
  請求項2に記載の固有名詞翻訳辞書作成装置において、
  前記マッチング部は、
  前記関連属性名の異なり数に対する固有名詞の異なり数をもとに前記関連属性名の重要度を算出し、
  前記関連属性値間の類似度及び前記関連属性名の重要度を用いて前記固有名詞間の一致度を算出する固有名詞翻訳辞書作成装置。
【請求項6】
  請求項2に記載の固有名詞翻訳辞書作成装置において、
  前記構造化部は、前記固有名詞のラベルごとに前記関連属性名の頻度を集計する関連属性集計部をさらに備え、
  前記翻訳情報選択部は、前記関連属性集計部で集計された関連属性名の頻度を表示する固有名詞翻訳辞書作成装置。
【請求項7】
  請求項2に記載の固有名詞翻訳辞書作成装置において、
  前記マッチング部は、前記翻訳情報選択部で選択された固有名詞のうち、同一表記である固有名詞同士で、前記関連属性値を補完する関連属性値補完部をさらに備える固有名詞翻訳辞書作成装置。
【請求項8】
  請求項2に記載の固有名詞翻訳辞書作成装置において、
  前記マッチング部は、
  前記翻訳対象とする固有名詞の関連属性値である固有名詞について固有名詞間の一致度を算出し、
  前記算出した一致度を用いて前記翻訳対象とする固有名詞の関連属性値を翻訳し、
  前記翻訳した関連属性値間の類似度を用いて前記翻訳対象とする固有名詞間の一致度を算出する固有名詞翻訳辞書作成装置。
【請求項9】
  請求項2に記載の固有名詞翻訳辞書作成装置において、
  前記構造化部は、
  大規模言語モデルを用いて、前記文書集合から前記固有名詞、前記関連属性値、前記関連属性名の組合せを抽出する固有名詞翻訳辞書作成装置。
【請求項10】
  請求項2に記載の固有名詞翻訳辞書作成装置において、
  前記マッチング部は、
  大規模言語モデルを用いて、前記翻訳情報選択部で選択された関連属性名に対応する関連属性値を入力して、前記翻訳情報選択部で選択された固有名詞間の一致度を算出する固有名詞翻訳辞書作成装置。
【請求項11】
  文書集合から固有名詞の翻訳対を抽出する固有名詞翻訳辞書作成装置の固有名詞翻訳辞書作成方法であって、
  前記文書集合から固有名詞、当該固有名詞と共起するその他の固有名詞である関連属性値、及び当該関連属性値のラベルである関連属性名の組合せを抽出し、
  前記抽出された固有名詞及び関連属性名から、翻訳対象とする固有名詞、及び翻訳に用いる関連属性名の選択を受け付け、
  前記選択された関連属性名に対応する関連属性値を用いて、前記選択された固有名詞間の一致度を算出し、
  前記算出した一致度に基づいて、前記選択された固有名詞の翻訳対を保持する固有名詞翻訳辞書作成方法。
【発明の詳細な説明】
【技術分野】
【0001】
  本発明は、固有名詞翻訳辞書作成装置及び固有名詞翻訳辞書作成方法に関する。
【背景技術】
【0002】
  近年、高精度なニューラル機械翻訳(NMT)が登場し、入力したテキストに対して単一のモデルを用いて、翻訳語のテキストを出力するエンドツーエンドでの翻訳が一般的になった。NMTでは、学習時に、対訳コーパスを用いて学習が行われる。対訳コーパスとは、多言語間の翻訳文において、文と文とが対訳の形で対応付けられているものである。
【0003】
  近年のNMTは高精度化が進み、文法的に正しく、より自然な翻訳を行うことができている。しかし、学習時の対訳コーパスに出現しない固有表現の翻訳には失敗してしまう傾向がある。学習時の対訳コーパスに出現しない固有表現として、例えば、本のタイトルや、新規で開発された乗り物や車の名前、等、NMTの学習時点よりも後に作られた名前が該当する。
【0004】
  このような固有表現を含む文に対しては、固有表現翻訳辞書、即ち、多言語間の固有表現の翻訳対が格納された辞書を用いることで、固有表現のみを別途固有表現翻訳辞書を用いて翻訳する、または、固有表現翻訳辞書を対訳コーパスの一部としてNMTの学習を行う、といったことが可能である。
【0005】
  しかし、固有表現翻訳辞書を人手で作成することは、手間とコストを要する。特許文献1では、このような課題に対して、理想的な対訳関係ではない2言語の文書から固有名詞などの翻訳対を自動で抽出する技術の一例が開示されている。
【0006】
  特許文献1に記載された方法は、第一の言語で記載された文書と、第二の言語で記載された文書を入力文書として、第一の言語の固有表現、第二の言語の固有表現の全組合わせを抽出し、翻訳対としての尤度が高い組合せを翻訳対候補として提示する。尤度は、事前に上記文書と類似した内容の対訳コーパスを用意し、人手等で固有表現の対応付けを行い、固有表現の翻訳確率、翻訳順などを集計した統計値をもとに計算する。
【先行技術文献】
【特許文献】
【0007】
【発明の概要】
【発明が解決しようとする課題】
【0008】
  しかし、特許文献1が開示する方法では、入力文書に対して類似した内容の対訳コーパスが存在しなければ、翻訳対を抽出することができない。また、入力文書である第一の言語の文書と第二の言語の文書は、理想的な対訳関係でなくとも、ある共通の話題について類似した記述方法で記載されていなければ、翻訳対を抽出することはできない。
【0009】
  例えば、第一の言語と第二の言語で記載された事象Aについての速報記事を入力とした場合は、ある程度出現する固有名詞の対応がとれていて、固有名詞の出現順が類似することが想定される。しかし、第一の言語で書かれた文書は事象Aについての速報記事、第二の言語で書かれた文書は事象Aと関連した事象Bや事象Cについても包括的に解説している記事といったように、翻訳対となる固有名詞は含まれるがトピックが異なる入力文書対であった場合、2つの文書間における固有表現の翻訳対を抽出することは困難である。
【0010】
  これは、対訳コーパスから計算した統計値を用いて、固有名詞の組合せが翻訳対らしいかを表す尤度を計算しているからである。
【0011】
  本発明は、以上の点を考慮してなされたもので、文書集合から固有名詞の翻訳対を抽出することができる技術を提供することを目的とする。
【課題を解決するための手段】
【0012】
  上記課題を解決するために、代表的な本発明の固有名詞翻訳辞書作成装置の一つは、文書集合から固有名詞の翻訳対を抽出する固有名詞翻訳辞書作成装置であって、文書集合から固有名詞、当該固有名詞と共起するその他の固有名詞である関連属性値、及び当該関連属性値のラベルである関連属性名の組合せを抽出する構造化部と、構造化部で抽出された固有名詞及び関連属性名から、翻訳対象とする固有名詞、及び翻訳に用いる関連属性名の選択を受け付ける翻訳情報選択部と、翻訳情報選択部で選択された関連属性名に対応する関連属性値を用いて、翻訳情報選択部で選択された固有名詞間の一致度を算出するマッチング部と、マッチング部で算出した一致度に基づいて、翻訳情報選択部で選択された固有名詞の翻訳対を保持する固有名詞翻訳辞書と、を備える。
【発明の効果】
【0013】
  本発明によれば、文書集合から固有名詞の翻訳対を抽出することができる。
【図面の簡単な説明】
【0014】
            【
図1】実施例1~実施例3に係る固有名詞翻訳辞書作成装置の構成例を示す概略構成図である。
 
            【
図2】ユーザ端末に表示される固有名詞翻訳対画面の一例を示す図である。
 
            
            
            
            【
図6】固有名詞翻訳辞書作成の処理手順の一例を示すフローチャートである。
 
            【
図7】構造化部における固有名詞抽出例を示す図である。
 
            【
図8】翻訳情報選択部における固有名詞選択画面の一例を示す図である。
 
            【
図9】翻訳情報選択部における関連属性選択画面の一例を示す図である。
 
            【
図10】マッチング部における関連属性値補完の例を示す図である。
 
            【
図11】マッチング部における構造化情報の例を示す図である。
 
            【
図12】マッチング部における構造化情報のマッチングの概略を説明する図である。
 
            【
図13】マッチング部における関連属性値間の類似度算出結果の例を表す表である。
 
            【
図14】マッチング部における関連属性重要度記憶部に記憶される関連属性の重要度の例を示す表である。
 
            【
図15】マッチング部における繰り返し処理が起こる場合の構造化情報の例を示す図である。
 
            【
図16】マッチング部における繰り返し処理の処理手順を示すフローチャートである。
 
            【
図17】実施例2の固有名詞翻訳辞書作成の処理手順を示すフローチャートである。
 
            【
図18】構造化部における大規模言語モデルへの入力・出力例を示す図である。
 
            【
図19】マッチング部330における大規模言語モデルへの入力・出力例を示す図である。
 
          
【発明を実施するための形態】
【0015】
  以下、図面を参照して、本発明の実施形態を詳述する。
【0016】
  なお、以下の記載及び図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略及び簡略化がなされている。また、実施形態の中で説明されている特徴の組合せのすべてが本発明の解決手段に必須であるとは限らない。本発明が実施形態に制限されることは無く、本発明の思想に合致するあらゆる応用例が本発明の技術的範囲に含まれる。
【0017】
  また、本発明における「翻訳」は、多言語間において同一物を表す名詞の組(すなわち翻訳対)を特定することに限定せず、同一言語内において、複数の名前を持つ名詞を同定することも含む。例えば、日本の衛星である「つばめ」は、日本語の文書において「超低高度衛星技術試験機」またその英訳の「Super Low Attitude Test Satellite」、さらにその略称の「SLATS」と記載される場合があり、これら4つの表現を翻訳対として辞書に登録することも、本発明の「翻訳」が意味する範囲である。
【0018】
  さらに、入力とする文書集合についてはその種類や言語を問わず、何らかの基準で作成される1以上の文書で構成されていればよい。以下の本実施形態及び各実施例では日本語の固有名詞と英語の固有名詞の翻訳辞書作成処理を例として説明するが、入力文書は日本語と英語に限らず複数の言語から構成されていてもよく、また、1つの言語からのみ構成されていてもよい。さらに、最終的に出力される固有名詞翻訳辞書も日英翻訳に限らず、多言語の対応が取れたものを出力してもよい。
【実施例0019】
  まず、構成について説明するが、本実施例、及び後述する実施例2、実施例3の構成は共通する部分が多い。このため、実施例1において、その構成を説明する。
【0020】
  図1は、実施例1~実施例3に係る固有名詞翻訳辞書作成装置の構成例を示す概略構成図である。
 
【0021】
  図1に示すように、固有名詞翻訳辞書作成装置30は、ネットワーク40を介して文書管理装置10とユーザ端末20と接続されている。
 
【0022】
  文書管理装置10は、固有名詞翻訳辞書作成装置30に入力する文書集合の管理を行う。具体的には、文書管理装置10は、固有名詞翻訳辞書作成の入力とする文書集合を記憶するデータベースを持ち、さらに、管理者の操作に基づき文書管理を行う。
【0023】
  ユーザ端末20は、ユーザによる入力や出力を受け付ける機器であり、PC、タブレット、スマートフォンといった情報処理装置で実現できる。そして、ユーザ端末20は、ユーザの操作に従って、固有名詞翻訳辞書作成装置30に対する指示を行ったり、固有名詞翻訳辞書作成装置30の処理結果を出力したりする。つまりユーザ端末20は、実施例1~実施例3の入力部や出力部を設けることになる。
【0024】
  図1においては、文書管理装置10と、ユーザ端末20と、固有名詞翻訳辞書作成装置30とは、ネットワーク40を介して接続されているが、文書管理装置10及びユーザ端末20は、固有名詞翻訳辞書作成装置30と同じ領域に設置してもよいし、固有名詞翻訳辞書作成装置30と直接接続されてもよい。
 
【0025】
  最後に固有名詞翻訳辞書作成装置30について、説明する。固有名詞翻訳辞書作成装置30は、通信部31、処理部32、メモリ33、記憶部34を含む。これらはバス36を介して接続されている。
【0026】
  まず、通信部31はネットワーク40を介して文書管理装置10やユーザ端末20と情報を送受信する。例えば、通信部31は、文書管理装置10から固有名詞翻訳辞書作成装置30の入力とする文書集合を受信する。また、通信部31は、後述する、翻訳情報選択部320における固有名詞の選択画面や、関連属性の選択画面をユーザ端末20に送信する。通信部31により受信した情報は、処理部32やメモリ33に送られる。
【0027】
  処理部32は、CPU(Central Processing Unit)などのプロセッサで実現でき、 後述するメモリ33に展開される各種プログラムに従って演算を実行する。
【0028】
  メモリ33は、記憶部34に格納される固有名詞翻訳辞書作成プログラム35の処理に必要な情報が展開される。
【0029】
  記憶部34は、固有名詞翻訳辞書作成プログラム35と、固有名詞翻訳辞書340とを有する。固有名詞翻訳辞書作成プログラム35は、構造化部310、翻訳情報選択部320、及びマッチング部330を有する。なお、これら各部は、個別のプログラムで実装されていてもよいし、1つのプログラムとして実現してもよい。
【0030】
  固有名詞翻訳辞書340は、固有名詞翻訳辞書作成プログラム35によって抽出された固有名詞の翻訳対を保持するデータベースである。
【0031】
  ここでいう「翻訳対」は必ずしも2つの言語から成る固有名詞の対である必要はなく、前述のように複数の言語の固有名詞の対応が取れた集合でもよいし、同一言語の中で別の表現である固有名詞の対応が取れたものでもよい。
【0032】
  固有名詞翻訳辞書340が保持する翻訳対は、
図2に示すように表形式でユーザ端末20に表示される。
 
【0033】
  図2は、ユーザ端末20に表示される固有名詞翻訳対画面の一例を示す図である。
 
【0034】
  図2の固有名詞翻訳対画面21では、(A)列に第一の固有名詞、(B)列に第一の固有名詞に対応する第二の固有名詞、といったように(A)列から(E)列に対応関係にある固有名詞が表示されている。ユーザはこの固有名詞翻訳対画面21に対して、ユーザ端末20を通して編集することが可能である。
 
【0035】
  続いて、構造化部310,翻訳情報選択部320,マッチング部330の説明を行う。各部で行われる具体的な処理については、各実施例における処理のフローチャートを用いながら詳細を説明するため、
図1を用いた各部の説明は、以下に簡潔に行う。
 
【0036】
【0037】
  構造化部310は、固有名詞抽出部311と、関連属性値抽出部312と、関連属性集計部313とを有する。
【0038】
  固有名詞抽出部311は、固有名詞翻訳辞書作成プログラム35に入力された文書集合における各文書から、固有名詞を抽出する。
【0039】
  関連属性値抽出部312は、固有名詞抽出部311で抽出した各固有名詞に対して、その固有名詞と共起するその他の固有名詞とそのラベルを、各固有名詞に対する関連属性値、関連属性名として抽出する。
【0040】
  共起とは、同一文に含まれる、同一段落に含まれる、同一文書に含まれる、のようにある一定の文書の範囲の中で同時に出現することを示す。また、ラベルとは、各固有名詞が表すものや事象の種類を意味する。例えば、衛星の名前を表す語句には「衛星」ラベル、日付を表す語句には「日付」ラベルが付与される。
【0041】
  関連属性集計部313は、関連属性名毎に出現した関連属性値の数を集計する。
【0042】
  固有名詞抽出部311が行う固有名詞の抽出方法や各固有名詞へのラベルの付与方法は任意でよい。
【0043】
  関連属性集計部313によって集計された各属性名とその出現頻度は、翻訳対のマッチングに用いる関連属性名を選択する画面に関連属性名の出現頻度を表示するために使用される。これにより、ユーザは関連属性名の出現頻度を参照して、翻訳対のマッチングに用いる関連属性名を選択することができる。
【0044】
  また、関連属性値抽出部312によって抽出された関連属性値や関連属性名は、各固有名詞の翻訳対をマッチングするための翻訳情報として利用される。
【0045】
  図4は、翻訳情報選択部320の構成例を示す図である。
 
【0046】
  翻訳情報選択部320は、固有名詞選択部321と、関連属性選択部322とを有する。
【0047】
  固有名詞選択部321は、構造化部310で抽出した固有名詞から、翻訳対作成の対象とする固有名詞を選択する。
【0048】
  関連属性選択部322は、選択された各ラベルに対して、翻訳対のマッチングに用いる関連属性名を選択する。
【0049】
  翻訳情報選択部320について、固有名詞や関連属性名の選択を行う主体は、ユーザであってもよいし、何らかの方法でシステムが決定してもよい。
【0050】
  図5は、マッチング部330の構成例を示す図である。
 
【0051】
  マッチング部は、関連属性値補完部331と、関連属性値翻訳部332と、関連属性値間類似度算出部333と、固有名詞一致度算出部334と、辞書登録判定部335と、関連属性重要度記憶部336とを有する。
【0052】
  関連属性値補完部331は、翻訳情報選択部320で選択された固有名詞のうち、同一表記である固有名詞同士で、関連属性値を補完する。
【0053】
  関連属性値翻訳部332は、関連属性値が補完された固有名詞が持つ関連属性値について、入力文書に使われている言語のうちの1つの言語に翻訳する。
【0054】
  関連属性値間類似度算出部333は、異なる表記の固有名詞の全組み合わせについて、各固有名詞が持つ関連属性名毎に、関連属性値間の類似度を算出する。
【0055】
  固有名詞一致度算出部334は、関連属性値間類似度算出部333によって算出された各関連属性名における類似度と、関連属性重要度記憶部336が持つ各関連属性の重要度を用いて固有名詞間の一致度を算出する。
【0056】
  辞書登録判定部335は、固有名詞一致度算出部334で算出された一致度をもとに、辞書に登録すべき翻訳対かどうかを判定する。
【0057】
  図6は、固有名詞翻訳辞書作成の処理手順の一例を示すフローチャートである。これ以降、固有名詞翻訳辞書作成装置30が行う実施例1における処理手順を
図6~
図14を用いて説明する。
 
【0058】
  固有名詞抽出部311は、入力文書集合から、固有名詞とそのラベルを抽出する(ステップS601)。例えば、固有名詞抽出部311は、入力文書に対して形態素解析を実施し文書を単語ごとに分割し、各単語に当該単語が該当するラベルを付与する。
【0059】
  例えば、ラベル「SATELLITE」に該当する固有名詞の単語に対して、「B-SATELLITE」や、「I-SATELLITE」を付与する。また、どのラベルにも該当しない単語には「OTHER」を付与する。
【0060】
  固有名詞の抽出方法は、任意の固有表現抽出方法を用いることができる。例えば、各ラベルに該当する固有名詞を抽出する学習済みの機械学習モデルを用いてもよいし、前後の単語や文字列からルールベースにてラベリングを行う方法を用いてもよいし、あらかじめ辞書に定義した単語や単語の組合せに対してラベルを付与するようにしてもよい。また、オープンソースのソフトウェアを利用してもよい。
【0061】
  図7は、構造化部310における固有名詞抽出例を示す図である。
 
【0062】
  記事70は、日本語で記述された衛星の打ち上げを伝える文書の例である。
【0063】
  記事70の文書72からは、固有名詞として、下線が引かれた語句「三菱重工業」「宇宙航空研究開発機構(JAXA)」「2017年1月24日」「防衛通信衛星」「きらめき2号」「H-IIA」「種子島宇宙センター」が固有名詞として抽出される。
【0064】
  また、これらの固有名詞のラベルとしては、それぞれ「打ち上げ業者」「打ち上げ業者」「日付」「衛星種別」「衛星」「ロケット」「場所」が付与される。
【0065】
  記事73は、英語で記述された衛星の打ち上げを伝える文書の例である。
【0066】
  記事73の文書75からは、固有名詞として、下線が引かれた語句「Japan」「yesterday」「military communication satellite」「DSN-2」「Tanegashima space port」「H-IIA」が抽出される。
【0067】
  また、これらの固有名詞のラベルとしては、それぞれ「国」「日付」「衛星種別」「衛星」「場所」「ロケット」が付与される。
【0068】
  「yesterday」は日付のラベルが付与されていても、具体的な日付はわからない。このため、記事73が執筆された日付である日付74から具体的な日付を推測する。この例では、日付74が「2017-01-25」であり、抽出された固有名詞は「yesterday」であるから、「yesterday」が表す日付は「2027-01-24」と推測することが可能である。
【0069】
  図6のステップS602では、関連属性値抽出部312は、ステップS601で抽出された各固有名詞と共起するその他の固有名詞とそのラベルを、各固有名詞に対する関連属性値、関連属性名として抽出する。本ステップにおいても、引き続き
図7を用いて説明する。
 
【0070】
  文書72において、「衛星」ラベルが付与された「きらめき2号」(太字の語句)について、関連属性値と関連属性名を抽出する場合の処理例を説明する。
【0071】
  共起を、「同一文の中に同時に出現する」と定義すると、文書72からは、「きらめき2号」の関連属性値として「三菱重工業」「宇宙航空研究開発機構(JAXA)」「2017年1月24日」「防衛通信衛星」「H-IIA」「種子島宇宙センター」が抽出される。
【0072】
  また、これらの関連属性値の関連属性名は、それぞれ「打ち上げ業者」「打ち上げ業者」「日付」「衛星種別」「ロケット」「場所」となる。
【0073】
  文書75においても、同様に「衛星」ラベルが付与された「DSN-2」(太字の語句)について、関連属性値と関連属性名を抽出する場合の処理例を説明する。前述の処理と同じく、共起を「同一文の中に同時に出現する」と定義すると、「DSN-2」と共起する文は1文目「Japan yesterday…」と「The satellite …」の2文となる。これは2文目の先頭の語句である「The satellite」が「DSN-2」を参照しているためである。このように、関連属性値を抽出する前に、共参照解析を行い、文書内の語句の参照関係を明らかにしておくことが望ましい。共参照解析は、オープンソースのソフトウェアを用いる等任意の方法で実施してよい。
【0074】
  よって、文書75からは、「DSN-2」の関連属性値として「Japan」「yesterday」「military communication satellite」「Tanegashima space port」「H-IIA」が抽出される。
【0075】
  また、これらの関連属性値の関連属性名は、それぞれ「国」「日付」「衛星種別」「衛星」「場所」「ロケット」となる。
【0076】
  図6のステップS603では、関連属性集計部313は、ステップS601で抽出された固有名詞のラベルごとにステップS602で抽出された関連属性名の頻度を集計する。先述のステップS602の処理例において、文書72と文書75から抽出された関連属性名の頻度を集計すると、「衛星」について、「国」が1回、「日付」が2回、「打ち上げ業者」が2回、「衛星種別」が2回、「ロケット」が2回、「場所」が2回となる。
 
【0077】
  固有名詞選択部321は、ステップS601で抽出された固有名詞から、翻訳対作成の対象とする固有名詞を選択する(ステップS604)。
【0078】
  図8は、翻訳情報選択部320における固有名詞選択画面の一例を示す図である。
 
【0079】
  表80は、翻訳対象とする固有名詞の選択画面としてユーザに表示される。列81はユーザによる選択を受け付けるチェックボックスである。列82は、抽出された固有名詞のラベルである。列83は、各ラベルにおいて抽出された固有名詞である。
【0080】
  ユーザは列83の固有名詞や列82のラベルを見ながら、翻訳対を作る対象とする固有名詞のラベルを選択する。
【0081】
  表80においては、ユーザは固有名詞のラベル毎に翻訳対象とする固有名詞を選択しているが、固有名詞1つ1つに対して翻訳対象とするか否かを選択してもよい。
【0082】
  図6のステップS605では、関連属性選択部322は、ステップS602で選択された各固有名詞に対して、翻訳対のマッチングに用いる関連属性名を選択する。
 
【0083】
  図9は、翻訳情報選択部320における関連属性選択画面の一例を示す図である。画面90は、ステップS604において表80が示す通り「衛星」と「ロケット」が選択された場合を表しており、表91は衛星に対して抽出された属性一覧、表92はロケットに対して抽出された属性一覧を表している。
 
【0084】
  列92、列95はユーザによる選択を受け付けるチェックボックスである。列93、列96は関連属性名である。列94、列97はそれぞれの関連属性名の出現回数である。関連属性名の出現回数は、関連属性集計部313で集計された関連属性名の頻度に基づいて表示される。また、関連属性名の出現回数に閾値を設け、閾値以上の出現回数の関連属性名のみを関連属性選択画面に表示しても良い。
【0085】
  ユーザは、関連属性名の出現回数を参照して、後述のマッチング部330における翻訳対のマッチングに、どの関連属性名をマッチングのための情報として用いるかを選択する。
【0086】
  なお、固有名詞選択部321と関連属性選択部322の処理は本実施例のようにユーザに選択させてもよいし、システム側で例えば、固有名詞の頻度情報や関連属性名の頻度情報から自動的に翻訳対象とする固有名詞とその関連属性名を選択してもよい。
【0087】
  図6のステップS606では、関連属性値補完部331は、ステップS604で選択された固有名詞のうち、同一表記である固有名詞同士で、関連属性値を補完する。
 
【0088】
  図10は、マッチング部における関連属性値補完の例を示す図である。表11,表12,表13はそれぞれ衛星「きらめき2号」について、ステップS605で選択された関連属性名とその属性値を表す表である。
 
【0089】
  本発明ではこれらの表を衛星「きらめき2号」の構造化情報と呼ぶ。各構造化情報は、「きらめき2号」についての記述がある複数の文書からそれぞれ抽出されており、それぞれ抽出された属性名の種類や属性値が異なる。本ステップではこれらの属性値を補完することで「きらめき2号」の構造化情報を1つの表、即ち表14に統合する。
【0090】
  以下、関連属性値補完の処理について、
図10の例を用いて具体的に説明する。
 
【0091】
  国については、表12でのみ抽出されているため、そのまま表14でも国には「日本」が表記される。
【0092】
  日付については、表12では年のみ、表11と表13では日付まで抽出されている。この場合、より具体的な日付まで抽出されている属性値を表14の日付とする。
【0093】
  ロケットについては全ての表で同一の属性値「H-IIA」が抽出されているため、そのまま表14のロケットの属性値となる。
【0094】
  場所は表12では「種子島」、表11と表13では「種子島宇宙センター」と抽出されている。このうち、片方を包含する「種子島宇宙センター」を表14の場所とする。
【0095】
  衛星種別においては表13のみで「防衛通信衛星」が抽出されているため、そのまま表14の衛星種別とする。
【0096】
  製造業者は、表11で「三菱電気」表12で「日本電気」と異なる業者が抽出されているため、「三菱電機」「日本電気」の両方を表14の製造業者とする。
【0097】
  図6のステップS607では、関連属性値翻訳部332は、ステップS606によって属性値が補完された構造化情報がもつ各関連属性値を、英語に翻訳する。なお、ここでは、日本語の関連属性値を英語に翻訳する例を説明するが、類似度を算出する関連属性値が同一の言語になるようにいずれか一方を翻訳すればよい。また、類似度を算出する関連属性値が同一の言語である場合は、翻訳は必要ない。
 
【0098】
  次に、関連属性値間類似度算出部333は、ステップS607によって英語に翻訳された構造化情報同士がもつ各関連属性値の間の類似度を算出する(ステップS608)。
【0099】
  図11は、マッチング部330における構造化情報の一例を示す図である。
 
【0100】
  構造化情報群100は、日本語の文書から抽出されたラベルが衛星の固有名詞の関連属性名とその属性値から構成される構造化情報101~103を示す。
【0101】
  また、構造化情報群200は、英語の文書から抽出されたラベルが衛星の固有名詞の関連属性名とその属性値から構成される構造化情報201~203を示す。
【0102】
  マッチング部330では、
図11の構造化情報群100と構造化情報群200の全組み合わせについて属性値間の類似度を算出する。つまり
図11の例では、3×3=9通りの組合せの構造化情報について、属性値間の類似度を算出する。
 
【0103】
  図12は、マッチング部330における構造化情報のマッチングの概略を説明する図である。
 
【0104】
  ステップS607では、日本語で抽出された構造化情報101を英語の構造化情報111に翻訳する。
【0105】
  本説明では、
図12を用いて、英語に翻訳した構造化情報111と、構造化情報群200の英語の構造化情報とのマッチングを行う場合の処理を説明する。翻訳は、オープンソースのソフトウェアを利用可能である。
 
【0106】
  各関連属性値間の類似度は、文字列間の類似度、特徴ベクトル間の類似度の2通りの類似度を、属性の特徴に合わせて使い分ける。以下、構造化情報111が持つ6つの属性「国」「日付」「ロケット」「場所」「衛星種別」「製造業者」の類似度算出方法について具体的に説明する。
【0107】
  「国」「ロケット」「場所」「製造業者」は表現がある程度統一されているため、文字列間の類似度を採用する。構造化情報Pと構造化情報Qにおける関連属性iの関連属性値strPiとstrQiの類似度miは、2つの文字列間の編集距離であるレーベンシュタイン距離(Levenshtein distance)を使って以下の(数1)で計算できる。
【0108】
               【数1】
  なお、(数1)におけるlength(str)は文字列strの長さを表す。
 
【0109】
  「種別」に対しては、表現方法が多岐にわたるため、特徴ベクトル間の類似度を採用する。例えば、同じ気象観測衛星を表す表現であっても、「Weather satellite」や「Meteorological satellite」など様々な表現方法が存在する。このような属性に対しては、文字列間の類似度を算出する方法は適さないため、これらの属性値をWord2VecやGloveなどの意味的な特徴ベクトルに変換し、特徴ベクトル間の類似度を算出する。
【0110】
  特徴ベクトル間の類似度計算方法としては、コサイン類似度等任意の計算方法を用いることができる。また、関連属性の特徴ベクトルへの変換方法は、前述の方法以外の任意のベクトル変換方法を用いて良い。
【0111】
  「日付」は、固有名詞抽出部311の処理完了時点で、「2017-01-04」のように正規化された表現にしておくことが望ましく、日付が完全に一致した場合に類似度1.0とする。ここで、日付は記事を執筆した国に依存することがある。例えば、同じ打ち上げ情報でも日本時間で記載されているか、世界標準時で記載されているかによって日付のずれが生じる場合がある。このような場合を考慮するため、日付のずれが1日である場合には、類似度0.5を設定する等、0より大きいあらかじめ設定した類似度とすることが望ましい。
【0112】
  ここで算出される各関連属性値間の類似度は、0から1の値を持つように正規化されていることが望ましい。また、上記6つの属性以外についても、それぞれの属性が持つ属性値の特徴に合わせて任意の類似度算出方法を用いることができる。
【0113】
  図13は、マッチング部330における関連属性値間の類似度算出結果の例を表す表である。
 
【0114】
  表130は、構造化情報111と、構造化情報群200(構造化情報201、構造化情報202、構造化情報203)の6つの属性値間の類似度を上記の処理方法で算出した結果を示す。
【0115】
  図6のステップS609では、固有名詞一致度算出部334は、ステップS607によって算出された各関連属性名間の類似度と、関連属性重要度記憶部336が持つ各関連属性の重要度を用いて固有名詞間の類似度を算出する。
 
【0116】
  各関連属性の特徴により、その属性値の類似度が、固有名詞同士の一致度に与える影響の大きさは異なる。そのため、関連属性の重要度を算出し、関連属性ごとに重みを付けたマッチングを行う。
【0117】
  図14は、マッチング部330における関連属性重要度記憶部336に記憶される関連属性の重要度の例を示す表である。
 
【0118】
  表140は、関連属性の関連属性値の異なり数及び対象ラベルの固有名詞の異なり数と、重要度との関係を示している。
【0119】
  関連属性重要度記憶部336は、予め同種の文書集合から抽出される固有表現について、対象ラベルの固有名詞の異なり数と、その関連属性値の異なり数を集計する。
【0120】
  関連属性Aの重要度は(関連属性Aの属性値の異なり数)÷(対象ラベルの固有名詞の異なり数)で求められる。
【0121】
  この式は、各関連属性の属性値の類似度が、構造化情報同士、即ち、固有名詞同士の一致度にどれだけ影響するかを表したものである。例えば、衛星について、同一国から発射される衛星の数は多いため、国が同一であっても同じ衛星を表しているとは限らない。しかし、日付が同一であった場合、同一日に発射される衛星の数は多くないため、衛星が一致している確率は高いといえる。
【0122】
  このように、関連属性ごとの特徴に合わせて重要度を付与することで、関連属性値間の類似度の影響をコントロールすることができる。この重要度と、ステップS608で算出した各関連属性値間の類似度を用いて、構造化情報間の一致度Tは以下の(数2)で計算できる。
【0123】
               【数2】
  Nは関連属性の数を表し、α
iは関連属性iの重要度を表す。
 
【0124】
  表130と表140から(数2)に当てはめて構造化情報111と構造化情報201、構造化情報202、構造化情報203との一致度を算出すると、それぞれ、0.952、2.137、0.992となる。
【0125】
  図6のステップS610では、辞書登録判定部335は、ステップS609で算出された一致度をもとに、辞書に登録すべき翻訳対かどうかを判定する。
 
【0126】
  全ての関連属性値が一致した場合、その一致度は重要度の合計値、つまり、2.5となる。一致度が、合計値の80%以上、即ち2.0以上である場合、構造化情報が一致したとして、固有名詞の対を辞書に登録する。
【0127】
  図12の例では、先ほど算出した一致度から、構造化情報と111と構造化情報202が一致したとみなされ、「きらめき2号」と「DSN-2」の対が固有名詞翻訳辞書340に登録される。
 
【0128】
  なお、閾値は任意の値に設定することができる。また、一致度が最も高い固有名詞の対を翻訳対とする、としてもよい。
【0129】
  上記のように実施例1によれば、文書集合から対訳コーパスが一切存在しない状態で、固有名詞が持つ関連属性値を用いて固有名詞の翻訳対のマッチングを行い、固有名詞翻訳辞書を作成することができる。
 
  実施例2では、複数ラベルの固有名詞に対して、マッチング部330の処理を行う際に、実施例1における関連属性値間類似度算出部333と、固有名詞一致度算出部334の処理を繰り返し行う例を説明する。
  表150と表151はそれぞれ衛星「遥感39号」の構造化情報と、衛星「長征2号D」の構造化情報を示す。また、本実施例では、「衛星」と「ロケット」が翻訳情報選択部320で選択されているとする。
  特徴として、表150は、ロケットに「長征2号D」を含み、表151は「衛星」に「遥感39号」を含む。このように、翻訳対象の固有名詞がそれぞれ別の翻訳対象の固有名詞の関連属性値になっている場合がある。この場合、例えば、ラベルが衛星の固有名詞の中でマッチングを行う際に、ロケット「長征2号D」の翻訳に失敗して翻訳対のマッチングに失敗してしまう可能性がある。また、逆にラベルがロケットの固有名詞の中でマッチングを行う際に、衛星「遥感39号」の翻訳に失敗して翻訳対のマッチングに失敗してしまう、という場合も起こり得る。
  このように属性値の翻訳に失敗する場合に対処するため、複数のラベルの固有名詞を同時に翻訳対象とする場合には、繰り返し処理を行うことで、マッチングの精度を高める。
  まず、マッチング部330は衛星についてマッチングを行う(ステップS161)。マッチング部330の処理は実施例1のステップS606~ステップS610で説明したため省略する。
  次に、マッチング部330は繰り返し数が1回、または、衛星のマッチング数が前のループよりも多い際に(ステップS162でYES)、ロケットについてのマッチングを行う(ステップS163)。
  次に、マッチング部330は繰り返し数が1回、または、ロケットのマッチング数が前のループよりも多い際に(ステップS164でYES)、ステップS161の衛星についてのマッチングに処理を戻る。
  次に、具体的に繰り返し処理の効果がある例を以下に説明する。本説明では、衛星について日本語の「遥感39号」と英語の「Yaogan 39」が翻訳対であり、さらに、ロケットについて「長征2号D」と英語の「Chang Zheng 2D」が翻訳対であるとする。これら翻訳対を構造化情報から翻訳対としてマッチング部330の繰り返し処理によって特定することを考える。
  まず、ステップS161で衛星についてマッチングした後、本来は翻訳対である「遥感39号」と「Yaogan 39」とのマッチングでは、「長征2号D」の翻訳結果が「Long March 2D」となり、「Chang Zheng 2D」との文字列間の類似度が低いため、一致度が閾値に満たずに、マッチングできない。
  次に、ステップS163で、ロケットについてマッチングし、翻訳対である「長征2号D」と「Chang Zheng 2D」をマッチングすることができたとする。この時点では、繰り返し数がまだ1回のため、ステップS161に戻る。
  2回目のステップS161では、ロケットの「長征2号D」と「Chang Zheng 2D」が翻訳対であるという結果を用いて、衛星についてマッチングを行う。このマッチングでは、「遥感39号」と「Yaogan 39」の一致度が1回目の処理よりも大きくなり、閾値を上回ることで、翻訳対として登録することができる。
  上記のように実施例2によれば、翻訳対象とする固有名詞がもつ関連属性値に、翻訳対象とする別のラベルの固有名詞が含まれていた場合、マッチング部330の処理を繰り返し行うことによって、より正確に翻訳対のマッチングを行うことができる。