特許第6227775号(P6227775)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特許6227775バイリンガルコーパスのデータ拡張方法、装置及び記憶媒体
<>
  • 特許6227775-バイリンガルコーパスのデータ拡張方法、装置及び記憶媒体 図000005
  • 特許6227775-バイリンガルコーパスのデータ拡張方法、装置及び記憶媒体 図000006
  • 特許6227775-バイリンガルコーパスのデータ拡張方法、装置及び記憶媒体 図000007
  • 特許6227775-バイリンガルコーパスのデータ拡張方法、装置及び記憶媒体 図000008
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6227775
(24)【登録日】2017年10月20日
(45)【発行日】2017年11月8日
(54)【発明の名称】バイリンガルコーパスのデータ拡張方法、装置及び記憶媒体
(51)【国際特許分類】
   G06F 17/27 20060101AFI20171030BHJP
【FI】
   G06F17/27 635
【請求項の数】9
【全頁数】13
(21)【出願番号】特願2016-526437(P2016-526437)
(86)(22)【出願日】2014年9月4日
(65)【公表番号】特表2016-525250(P2016-525250A)
(43)【公表日】2016年8月22日
(86)【国際出願番号】CN2014085947
(87)【国際公開番号】WO2015067092
(87)【国際公開日】20150514
【審査請求日】2016年1月19日
(31)【優先権主張番号】201310544597.1
(32)【優先日】2013年11月5日
(33)【優先権主張国】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド
(74)【代理人】
【識別番号】100099623
【弁理士】
【氏名又は名称】奥山 尚一
(74)【代理人】
【識別番号】100096769
【弁理士】
【氏名又は名称】有原 幸一
(74)【代理人】
【識別番号】100107319
【弁理士】
【氏名又は名称】松島 鉄男
(74)【代理人】
【識別番号】100114591
【弁理士】
【氏名又は名称】河村 英文
(74)【代理人】
【識別番号】100125380
【弁理士】
【氏名又は名称】中村 綾子
(74)【代理人】
【識別番号】100142996
【弁理士】
【氏名又は名称】森本 聡二
(74)【代理人】
【識別番号】100166268
【弁理士】
【氏名又は名称】田中 祐
(74)【代理人】
【識別番号】100170379
【弁理士】
【氏名又は名称】徳本 浩一
(74)【代理人】
【識別番号】100179154
【弁理士】
【氏名又は名称】児玉 真衣
(74)【代理人】
【識別番号】100180231
【弁理士】
【氏名又は名称】水島 亜希子
(72)【発明者】
【氏名】ジュウ,シャオニン
(72)【発明者】
【氏名】ホーァ,ジョンジュン
(72)【発明者】
【氏名】ウー,ホワ
(72)【発明者】
【氏名】ワン,ハイフェン
【審査官】 長 由紀子
(56)【参考文献】
【文献】 特開2002−117028(JP,A)
【文献】 特開2007−026256(JP,A)
【文献】 中国特許出願公開第102591857(CN,A)
【文献】 特開2006−053867(JP,A)
【文献】 特開2005−038074(JP,A)
【文献】 田中(石井) 久美子 外2名,第三言語を介した対訳辞書の作成,情報処理学会論文誌,日本,社団法人情報処理学会,1998年 6月15日,第39巻第6号,p.1915-1924
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/20−28
(57)【特許請求の範囲】
【請求項1】
バイリンガルコーパスのデータ拡張方法であって、
コンピュータ装置が、ソース言語−ピボット言語コーパスにおいて第一ソース言語フレーズの語義に適合した少なくとも一つの第一ピボット言語フレーズを検索するステップと、
前記コンピュータ装置が、ソース言語−ピボット言語コーパスにおいて前記各第一ピボット言語フレーズの語義に適合した少なくとも一つの第二ソース言語フレーズを検索し、前記各第二ソース言語フレーズによりソース言語フレーズ集合を構成するステップと、
前記コンピュータ装置が、ピボット言語−目標言語コーパスにおいて前記各第一ピボット言語フレーズの語義に適合した少なくとも一つの第一目標言語フレーズを検索し、該第一目標言語フレーズにより目標言語フレーズ集合を構成するステップと、
前記コンピュータ装置が、前記ソース言語フレーズ集合における第二ソース言語フレーズを前記目標言語フレーズ集合における第一目標言語フレーズと組み合わせて、ソース言語フレーズが目標言語フレーズの語義に適合した少なくとも一つのフレーズ対を形成するステップと、
前記コンピュータ装置が、形成された前記ソース言語フレーズが目標言語フレーズの語義に適合した少なくとも一つのフレーズ対を、ソース言語−目標言語コーパスに記憶するステップと
を含んでなる、バイリンガルコーパスのデータ拡張方法。
【請求項2】
ソース言語−ピボット言語コーパスにおいて前記各第一ピボット言語フレーズの語義に適合した少なくとも一つの第二ソース言語フレーズを検索し、前記各第二ソース言語フレーズによりソース言語フレーズ集合を構成するステップは、
前記コンピュータ装置が、前記少なくとも一つの第一ピボット言語フレーズのそれぞれにより、前記ソース言語−ピボット言語コーパスにおいて当該第一ピボット言語フレーズの語義と同じ第二ソース言語フレーズを検索
前記コンピュータ装置が、検索された第二ソース言語フレーズから重複したソース言語フレーズを除去
前記コンピュータ装置が、重複したソース言語フレーズを除去して残された第二ソース言語フレーズによりソース言語フレーズ集合を構成する
ことを含んでなる、請求項1に記載の方法。
【請求項3】
ピボット言語−目標言語コーパスにおいて前記各第一ピボット言語フレーズの語義に適合した少なくとも一つの第一目標言語フレーズを検索し、前記各第一目標言語フレーズにより目標言語フレーズ集合を構成するステップは、
前記コンピュータ装置が、前記少なくとも一つの第一ピボット言語フレーズのそれぞれにより、前記ピボット言語−目標言語コーパスにおいて当該第一ピボット言語フレーズの語義と同じ第一目標言語フレーズを検索し、
前記コンピュータ装置が、検索された第一目標言語フレーズから重複した目標言語フレーズを除去し、
前記コンピュータ装置が、重複した目標言語フレーズを除去して残された第一目標言語フレーズにより目標言語フレーズ集合を構成する
ことを含むものである、請求項1に記載の方法。
【請求項4】
前記ソース言語フレーズ集合における第二ソース言語フレーズを前記目標言語フレーズ集合における第一目標言語フレーズと組み合わせて、ソース言語フレーズが目標言語フレーズの語義に適合した少なくとも一つのフレーズ対を形成するステップは、
前記コンピュータ装置が、前記ソース言語フレーズ集合における第二ソース言語フレーズのそれぞれをキーとし、前記目標言語フレーズ集合における第一目標言語フレーズのそれぞれを値として、前記ソース言語フレーズが目標言語フレーズの語義に適合した少なくとも一つのフレーズ対を形成することを含むものである、請求項1に記載の方法。
【請求項5】
バイリンガルコーパスのデータ拡張装置であって、
ソース言語−ピボット言語コーパスにおいて第一ソース言語フレーズの語義に適合した少なくとも一つの第一ピボット言語フレーズを検索するためのピボット言語フレーズ検索モジュールと、
ソース言語−ピボット言語コーパスにおいて前記各第一ピボット言語フレーズの語義に適合した少なくとも一つの第二ソース言語フレーズを検索し、前記各第二ソース言語フレーズによりソース言語フレーズ集合を構成するためのソース言語フレーズ集合確立モジュールと、
ピボット言語−目標言語コーパスにおいて前記各第一ピボット言語フレーズの語義に適合した少なくとも一つの第一目標言語フレーズを検索し、前記各第一目標言語フレーズにより目標言語フレーズ集合を構成するための目標言語フレーズ集合確立モジュールと、
前記ソース言語フレーズ集合における第二ソース言語フレーズを前記目標言語フレーズ集合における第一目標言語フレーズと組み合わせて、ソース言語フレーズが目標言語フレーズの語義に適合した少なくとも一つのフレーズ対を形成するためのフレーズ対組み合わせモジュールと、
形成された前記ソース言語フレーズが目標言語フレーズの語義に適合した少なくとも一つのフレーズ対をソース言語−目標言語コーパスに記憶するためのフレーズ対記憶モジュールと
を含んでなる、バイリンガルコーパスのデータ拡張装置。
【請求項6】
前記ソース言語フレーズ集合確立モジュールは、
前記少なくとも一つの第一ピボット言語フレーズのそれぞれにより、前記ソース言語−ピボット言語コーパスにおいて当該第一ピボット言語フレーズの語義と同じ第二ソース言語フレーズを検索するためのソース言語フレーズ検索サブモジュールと、
検索された第二ソース言語フレーズから重複したソース言語フレーズを除去するためのソース言語フレーズ重複除去サブモジュールと、
重複したソース言語フレーズを除去して残された第二ソース言語フレーズによりソース言語フレーズ集合を構成するためのソース言語フレーズ集合確立サブモジュールと
を含むものである、請求項5に記載の装置。
【請求項7】
前記目標言語フレーズ集合確立モジュールは、
前記少なくとも一つの第一ピボット言語フレーズのそれぞれにより、前記ピボット言語−目標言語コーパスにおいて当該第一ピボット言語フレーズの語義と同じ第一目標言語フレーズを検索するための目標言語フレーズ検索サブモジュールと、
検索された第一目標言語フレーズから重複した目標言語フレーズを除去するための目標言語フレーズ重複除去サブモジュールと、
重複した目標言語フレーズを除去して残された第一目標言語フレーズにより目標言語フレーズ集合を構成するための目標言語フレーズ集合確立サブモジュールと
を含むものである、請求項5に記載の装置。
【請求項8】
前記フレーズ対組み合わせモジュールは、具体的には、前記ソース言語フレーズ集合における第二ソース言語フレーズのそれぞれをキーとし、前記目標言語フレーズ集合における第一目標言語フレーズのそれぞれを値として、ソース言語フレーズが目標言語フレーズの語義に適合した少なくとも一つのフレーズ対を形成するものである、請求項5に記載の装置。
【請求項9】
バイリンガルコーパスのデータ拡張方法を実行するためのコンピュータ実行可能な命令を含む一以上の記憶媒体であって、該データ拡張方法は、
ソース言語−ピボット言語コーパスにおいて第一ソース言語フレーズの語義に適合した少なくとも一つの第一ピボット言語フレーズを検索し、
ソース言語−ピボット言語コーパスにおいて前記各第一ピボット言語フレーズの語義に適合した少なくとも一つの第二ソース言語フレーズを検索し、前記各第二ソース言語フレーズによりソース言語フレーズ集合を構成し、
ピボット言語−目標言語コーパスにおいて前記各第一ピボット言語フレーズの語義に適合した少なくとも一つの第一目標言語フレーズを検索し、前記各第一目標言語フレーズにより目標言語フレーズ集合を構成し、
前記ソース言語フレーズ集合における第二ソース言語フレーズを前記目標言語フレーズ集合における第一目標言語フレーズと組み合わせて、ソース言語フレーズが目標言語フレーズの語義に適合した少なくとも一つのフレーズ対を形成し、
形成された前記ソース言語フレーズが目標言語フレーズの語義に適合した少なくとも一つのフレーズ対をソース言語−目標言語コーパスに記憶する、
ことを含んでなる、コンピュータ実行可能な命令を含む一以上の記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
本特許出願は、2013年11月5日に提出された、出願番号が201310544597.1、出願人が北京百度網訊科技有限公司、及び発明の名称が「バイリンガルコーパスのデータ拡張方法及び装置」である中国特許出願の優先権を主張するものであり、これを引用することにより本明細書の一部をなすものとする。
【0002】
[発明の分野]
本発明は、機械翻訳の技術分野に関し、特にバイリンガルコーパスのデータ拡張方法、装置及び記憶媒体に関する。
【背景技術】
【0003】
機械翻訳システムは、規則に基づく機械翻訳システム、実例に基づく機械翻訳システム、及び、統計に基づく機械翻訳システムに区別されうる。統計に基づく機械翻訳システムは、20世紀90年代に興ったものであり、現在最も主な機械翻訳システムである。統計に基づく機械翻訳システムは、手動で規則を作成する必要がなく、すべての言語にも適用されるため、幅広く応用されている。
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
統計に基づく機械翻訳システムの翻訳品質は、コーパスの品質にかなり依存している。即ち、コーパスは、データ数が多いほど、品質が高いほど、統計に基づく機械翻訳システムの翻訳品質が高くなる。コーパスを確立する初期段階では、ほとんどのコーパスはデータが少ないという問題に直面している。
【課題を解決するための手段】
【0006】
これに鑑みて、本発明はバイリンガルコーパスのデータ不足の問題を解決するために、バイリンガルコーパスのデータ拡張方法、装置及び記憶媒体を提供する。
【0007】
第1の局面において、本発明の実施態様では、
ソース言語−ピボット言語(pivot language)コーパスにおいて第一ソース言語フレーズの語義に適合した少なくとも一つの第一ピボット言語フレーズを検索するステップと、
ソース言語−ピボット言語コーパスにおいて前記各第一ピボット言語フレーズの語義に適合した少なくとも一つの第二ソース言語フレーズを検索し、前記各第二ソース言語フレーズによりソース言語フレーズ集合を構成するステップと、
ピボット言語−目標言語コーパスにおいて前記各第一ピボット言語フレーズの語義に適合した少なくとも一つの第一目標言語フレーズを検索し、前記各第一目標言語フレーズにより目標言語フレーズ集合を構成するステップと、
前記ソース言語フレーズ集合における第二ソース言語フレーズを前記目標言語フレーズ集合における第一目標言語フレーズと組み合わせて、ソース言語フレーズが目標言語フレーズの語義に適合した少なくとも一つのフレーズ対を形成するステップと、
形成されたソース言語フレーズが目標言語フレーズの語義に適合した少なくとも一つのフレーズ対をソース言語−目標言語コーパスに記憶するステップと
を含んでなる、バイリンガルコーパスのデータ拡張方法を提供する。
【0008】
第2の局面において、本発明の実施態様では、
ソース言語−ピボット言語コーパスにおいて第一ソース言語フレーズの語義に適合した少なくとも一つの第一ピボット言語フレーズを検索するためのピボット言語フレーズ検索モジュールと、
ソース言語−ピボット言語コーパスにおいて前記各第一ピボット言語フレーズの語義に適合した少なくとも一つの第二ソース言語フレーズを検索し、前記各第二ソース言語フレーズによりソース言語フレーズ集合を構成するためのソース言語フレーズ集合確立モジュールと、
ピボット言語−目標言語コーパスにおいて前記各第一ピボット言語フレーズの語義に適合した少なくとも一つの第一目標言語フレーズを検索し、前記各第一目標言語フレーズにより目標言語フレーズ集合を構成するための目標言語フレーズ集合確立モジュールと、
前記ソース言語フレーズ集合における第二ソース言語フレーズを前記目標言語フレーズ集合における第一目標言語フレーズと組み合わせて、ソース言語フレーズが目標言語フレーズの語義に適合した少なくとも一つのフレーズ対を形成するためのフレーズ対組み合わせモジュールと、
形成されたソース言語フレーズが目標言語フレーズの語義に適合した少なくとも一つのフレーズ対をソース言語−目標言語コーパスに記憶するためのフレーズ対記憶モジュールと
を含んでなる、バイリンガルコーパスのデータ拡張装置を提供する。
【0009】
第3の局面において、本発明の実施態様では、バイリンガルコーパスのデータ拡張方法を実行するためのコンピュータ実行可能な命令を含む一以上の記憶媒体であって、前記データ拡張方法は、
ソース言語−ピボット言語コーパスにおいて第一ソース言語フレーズの語義に適合した少なくとも一つの第一ピボット言語フレーズを検索するステップと、
ソース言語−ピボット言語コーパスにおいて前記各第一ピボット言語フレーズの語義に適合した少なくとも一つの第二ソース言語フレーズを検索し、前記各第二ソース言語フレーズによりソース言語フレーズ集合を構成するステップと、
ピボット言語−目標言語コーパスにおいて前記各第一ピボット言語フレーズの語義に適合した少なくとも一つの第一目標言語フレーズを検索し、前記各第一目標言語フレーズにより目標言語フレーズ集合を構成するステップと、
前記ソース言語フレーズ集合における第二ソース言語フレーズを前記目標言語フレーズ集合における第一目標言語フレーズと組み合わせて、ソース言語フレーズが目標言語フレーズの語義に適合した少なくとも一つのフレーズ対を形成するステップと、
形成された前記ソース言語フレーズが目標言語フレーズの語義に適合した少なくとも一つのフレーズ対をソース言語−目標言語コーパスに記憶するステップと
を含むものである、記憶媒体を提供する。
【発明の効果】
【0010】
本発明の実施態様であるバイリンガルコーパスのデータ拡張方法、装置及び記憶媒体によれば、ソース言語−ピボット言語コーパス及びピボット言語−目標言語コーパスに対して二方向のデータマイニングを行うことによって、ソース言語−目標言語というバイリンガルコーパスにおけるデータを拡張しており、当該バイリンガルコーパスにおいてデータが少ないという問題を解決している。
【0011】
以下の図面を参照して非制限的な実施態様について行われた詳細な説明を読むことによって、本発明の他の特徴、目的及び利点がより明確になるであろう。
【図面の簡単な説明】
【0012】
図1】本発明の第一実施態様によるバイリンガルコーパスのデータ拡張方法のフロー概略図である。
図2】本発明の第一実施態様によるバイリンガルコーパスのデータ拡張方法における、ソース言語フレーズ集合を確立するフロー概略図である。
図3】本発明の第一実施態様によるバイリンガルコーパスのデータ拡張方法における、目標言語フレーズ集合を確立するフロー概略図である。
図4】本発明の第二実施態様によるバイリンガルコーパスのデータ拡張装置の構造概略図である。
【発明を実施するための形態】
【0013】
以下、図面及び実施態様を参照して本発明についてさらに詳細に説明する。ここで説明される具体的な実施態様は、本発明を限定するものではなく、単に本発明を解釈するためのものであることが理解されるべきである。また、説明の便宜上、図面においてすべての内容ではなく、本発明に関する部分のみが示されていることにも了解されるべきである。
【0014】
図1は、本発明の第一実施態様を示している。
【0015】
図1は、本発明の第一実施態様によるバイリンガルコーパスのデータ拡張方法のフロー概略図である。この方法は、ソース言語−ピボット言語コーパス及びピボット言語−目標言語コーパスに基づいて、ソース言語−目標言語コーパスというバイリンガルコーパスを拡張する場合に適用される。具体的には、当該方法は、バイリンガルコーパスのデータ拡張装置により実現できる。この装置は、データ処理能力を有する任意の機器に配置されていてもよく、各コーパスとデータ対話処理を行うことができる。図1を参照して、前記バイリンガルコーパスのデータ拡張方法は、下記のステップを含む。
【0016】
ステップS110では、ソース言語−ピボット言語コーパスにおいて第一ソース言語フレーズの語義に適合した少なくとも一つの第一ピボット言語フレーズを検索する。
【0017】
ピボット言語は、仲介言語とも称され、多種の言語の間に翻訳を行う時に中間言語として用いられる人工言語又は自然言語である。
【0018】
前記ソース言語−ピボット言語コーパスは、ソース言語フレーズ及びその語義に適合したピボット言語フレーズのフレーズ対を記憶したデータベースである。本実施態様では、ソース言語−ピボット言語コーパスは、ソース言語フレーズの語義に適合したピボット言語フレーズを提供し、ピボット言語とソース言語との間の語義のマッチング関係に対してデータマイニングを深く行うためのものである。
【0019】
前記第一ソース言語フレーズは、ソース言語のフレーズに属し、ソース言語−目標言語コーパスの拡張を行うデータソースである。つまり、本実施態様によるバイリンガルコーパスのデータ拡張方法は、ソース言語フレーズによりソース言語−目標言語コーパスを拡張するものである。
【0020】
前記第一ピボット言語フレーズは、ピボット言語のフレーズに属する。その語義は、データソースとしての第一ソース言語フレーズに適合しており、ソース言語−ピボット言語コーパス及びピボット言語−目標言語コーパスに対してデータマイニングを行うためのものである。語義マッチングの具体的な実現方式は必要に応じて設定してもよく、例えば、同じ語義のフレーズをマッチングフレーズとして決定してもよく、又は類似度が設定閾値に達したフレーズをマッチングフレーズとしてもよい。
【0021】
中国語−スペイン語バイリンガルコーパスを拡張する例が例示的に示されている。中国語−スペイン語を拡張する場合に、英語をピボット言語とする。そのうち、第一ソース言語フレーズは中国語フレーズ「非常好吃(非常に美味しい)」である。第一ソース言語フレーズ「非常好吃」を使用して中国語−英語コーパスにおいて検索し、第一ピボット言語フレーズとしての英語フレーズ「very tasty(非常に美味しい)」及び「really delicious(本当に美味しい)」を取得する。
【0022】
ステップS120では、ソース言語−ピボット言語コーパスにおいて前記各第一ピボット言語フレーズの語義に適合した少なくとも一つの第二ソース言語フレーズを検索し、前記各第二ソース言語フレーズによりソース言語フレーズ集合を構成する。
【0023】
第一ピボット言語フレーズを検索して取得した後、取得された前記第一ピボット言語フレーズにより、ソース言語−ピボット言語コーパスにおいて前記第一ピボット言語フレーズに適合した第二ソース言語フレーズを検索する。前記第二ソース言語フレーズの数は少なくとも一つである。第一ピボット言語フレーズ毎にそれぞれマッチングを行ってもよく、その中から一部の第一ピボット言語フレーズを選別してマッチングを行ってもよい。例えば、統計されたフレーズの使用頻度に基づいて、頻度の高いフレーズを選択してマッチングを行ってもよい。
【0024】
上記の中国語−スペイン語バイリンガルコーパスを拡張する例では、第一ピボット言語フレーズとしての英語フレーズ「very tasty」及び「really delicious」により、中国語−英語コーパスにおいて第二ソース言語フレーズとして英語フレーズの語義に適合した中国語フレーズを検索する。検索結果は以下の表に示されている。
【0025】
【表1】
【0026】
ステップS130では、ピボット言語−目標言語コーパスにおいて前記各第一ピボット言語フレーズの語義に適合した少なくとも一つの第一目標言語フレーズを検索し、前記各第一目標言語フレーズにより目標言語フレーズ集合を構成する。
【0027】
前記ピボット言語−目標言語コーパスは、ピボット言語フレーズ及びその語義に適合した目標言語フレーズによるフレーズ対を記憶したデータベースである。本実施態様では、前記ピボット言語−目標言語コーパスは、ピボット言語と目標言語との間の語義のマッチング関係に対してデータマイニングを深く行うためのものである。本ステップでは、前記決定された第一ピボット言語フレーズ毎にマッチングを行ってもよく、予め設定された規則に従って選別してからマッチングを行ってもよい。
【0028】
上記の中国語−スペイン語バイリンガルコーパスを拡張する例では、第一ピボット言語フレーズとしての英語フレーズ「very tasty」及び「really delicious」により、英語−スペイン語コーパスにおいて英語フレーズの語義に適合したスペイン語フレーズを検索する。検索結果は以下の表に示されている。
【0029】
【表2】
【0030】
ステップS140では、前記ソース言語フレーズ集合における第二ソース言語フレーズを前記目標言語フレーズ集合における第一目標言語フレーズと組み合わせて、ソース言語フレーズが目標言語フレーズの語義に適合した少なくとも一つのフレーズ対を形成する。
【0031】
ソース言語−ピボット言語コーパス及びピボット言語−目標言語コーパスに対しての検索を完成して、ソース言語フレーズ集合及び目標言語フレーズ集合を取得した後に、前記ソース言語フレーズ集合における第二ソース言語フレーズを前記目標言語フレーズ集合における第一目標言語フレーズと組み合わせる。第二ソース言語フレーズと第一目標言語フレーズに対して任意に一つ一つ対応して組み合わせてもよく、各組み合わせを統計して選別してもよい。フレーズ対はキーと値のペアの形で記録されていてもよい。具体的には、前記ソース言語フレーズ集合における各第二ソース言語フレーズをキーとし、前記目標言語フレーズ集合における各第一目標言語フレーズを値として、ソース言語フレーズが目標言語フレーズの語義に適合した少なくとも一つのフレーズ対を形成する。
【0032】
上記の中国語−スペイン語バイリンガルコーパスを拡張することを例にすると、英語フレーズにより中国語−英語コーパス及び英語−スペイン語コーパスにおいて検索して取得された中国語フレーズとスペイン語フレーズとの間のフレーズ対は、下表に示されるとおりである。
【0033】
【表3】
【0034】
ステップS150では、形成されたソース言語フレーズが目標言語フレーズの語義に適合した少なくとも一つのフレーズ対をソース言語−目標言語コーパスに記憶する。
【0035】
前記ソース言語−目標言語コーパスは、ソース言語フレーズ及びその語義に適合した目標言語フレーズのフレーズ対を記憶するためのデータベースである。ソース言語フレーズと目標言語フレーズの間のフレーズ対を取得した後に、それをソース言語−目標言語コーパスに記憶して、ソース言語と目標言語との間に統計に基づく機械翻訳を行うシステムに使用されるコーパスとする。
【0036】
図2は、本発明の第一実施態様によるバイリンガルコーパスのデータ拡張方法における、ソース言語フレーズ集合を確立するフロー概略図である。図2を参照すると、好ましくは、本実施態様では、ソース言語−ピボット言語コーパスにおいて前記各第一ピボット言語フレーズの語義に適合した少なくとも一つの第二ソース言語フレーズを検索するものであり、前記各第二ソース言語フレーズによりソース言語フレーズ集合を構成することは、下記のサブステップを含む。
【0037】
サブステップS121では、前記少なくとも一つの第一ピボット言語フレーズのそれぞれにより、前記ソース言語−ピボット言語コーパスにおいてその語義と同じ第二ソース言語フレーズを検索する。
【0038】
サブステップS122では、検索された第二ソース言語フレーズから重複したソース言語フレーズを除去する。
【0039】
第二ソース言語フレーズを検索するための第一ピボット言語フレーズの数が一より多くなる可能性があるため、前記ソース言語−ピボット言語コーパスにおいて検索された第二ソース言語フレーズに重複したソース言語フレーズが存在する可能性があることから、検索された第二ソース言語フレーズから重複したものを除去する必要がある。
【0040】
サブステップS123では、重複したものを除去して残された第二ソース言語フレーズによりソース言語フレーズ集合を構成する。
【0041】
図3は、本発明の第一実施態様によるバイリンガルコーパスのデータ拡張方法における、目標言語フレーズ集合を確立するフロー概略図である。図3を参照すると、好ましくは、本実施態様では、ピボット言語−目標言語コーパスにおいて前記各第一ピボット言語フレーズの語義に適合した少なくとも一つの第一目標言語フレーズを検索するものであり、前記各第一目標言語フレーズにより目標言語フレーズ集合を構成することは、下記のサブステップを含む。
【0042】
サブステップS131では、前記少なくとも一つの第一ピボット言語フレーズのそれぞれにより、前記ピボット言語−目標言語コーパスにおいてその語義と同じ第一目標言語フレーズを検索する。
【0043】
サブステップS132では、検索された第一目標言語フレーズから重複した目標言語フレーズを除去する。
【0044】
第二ソース言語フレーズを検索するための第一ピボット言語フレーズの数が1より多い可能性があるので、前記ピボット言語−目標言語コーパスにおいて検索された第一目標言語フレーズに重複した目標言語フレーズが存在する可能性があることから、検索された第一目標言語フレーズから重複した目標言語フレーズを除去する必要がある。
【0045】
サブステップS133では、重複したものを除去して残された第一目標言語フレーズにより目標言語フレーズ集合を構成する。
【0046】
本実施態様は、ソース言語−ピボット言語コーパス及びピボット言語−目標言語コーパスに対してデータマイニングを行うことによって、ソース言語−目標言語というバイリンガルコーパスにおけるデータを拡張し、当該バイリンガルコーパスにおいてデータが少ないという問題を解決している。
【0047】
図4は、本発明の第二実施態様を示している。
【0048】
図4は、本発明の第二実施態様によるバイリンガルコーパスのデータ拡張装置の構造概略図である。図4を参照すると、前記バイリンガルコーパスのデータ拡張装置は、ピボット言語フレーズ検索モジュール410、ソース言語フレーズ集合確立モジュール420、目標言語フレーズ集合確立モジュール430、フレーズ対組み合わせモジュール440、及びフレーズ対記憶モジュール450を含む。
【0049】
前記ピボット言語フレーズ検索モジュール410は、ソース言語−ピボット言語コーパスにおいて第一ソース言語フレーズの語義に適合した少なくとも一つの第一ピボット言語フレーズを検索することに用いられている。
【0050】
前記ソース言語フレーズ集合確立モジュール420は、ソース言語−ピボット言語コーパスにおいて前記各第一ピボット言語フレーズの語義に適合した少なくとも一つの第二ソース言語フレーズを検索し、前記各第二ソース言語フレーズによりソース言語フレーズ集合を構成することに用いられている。
【0051】
前記目標言語フレーズ集合確立モジュール430は、ピボット言語−目標言語コーパスにおいて前記各第一ピボット言語フレーズの語義に適合した少なくとも一つの第一目標言語フレーズを検索し、前記各第一目標言語フレーズにより目標言語フレーズ集合を構成することに用いられている。
【0052】
前記フレーズ対組み合わせモジュール440は、前記ソース言語フレーズ集合における第二ソース言語フレーズを前記目標言語フレーズ集合における第一目標言語フレーズと組み合わせて、ソース言語フレーズが目標言語フレーズの語義に適合した少なくとも一つのフレーズ対を形成することに用いられている。
【0053】
前記フレーズ対記憶モジュール450は、形成されたソース言語フレーズが目標言語フレーズの語義に適合した少なくとも一つのフレーズ対をソース言語−目標言語コーパスに記憶するためのものである。
【0054】
好ましくは、前記ソース言語フレーズ集合確立モジュール420は、ソース言語フレーズ検索サブモジュール421、ソース言語フレーズ重複除去サブモジュール422、及びソース言語フレーズ集合確立サブモジュール423を含む。
【0055】
前記ソース言語フレーズ検索サブモジュール421は、前記少なくとも一つの第一ピボット言語フレーズのそれぞれにより、前記ソース言語−ピボット言語コーパスにおいてその語義と同じ第二ソース言語フレーズを検索することに用いられている。
【0056】
前記ソース言語フレーズ重複除去サブモジュール422は、検索された第二ソース言語フレーズから重複したソース言語フレーズを除去することに用いられている。
【0057】
前記ソース言語フレーズ集合確立サブモジュール423は、重複したものを除去して残された第二ソース言語フレーズによりソース言語フレーズ集合を構成することに用いられている。
【0058】
好ましくは、前記目標言語フレーズ集合確立モジュール430は、目標言語フレーズ検索サブモジュール431、目標言語フレーズ重複除去サブモジュール432、及び目標言語フレーズ集合確立サブモジュール433を含む。
【0059】
前記目標言語フレーズ検索サブモジュール431は、前記少なくとも一つの第一ピボット言語フレーズのそれぞれにより、前記ピボット言語−目標言語コーパスにおいてその語義と同じ第一目標言語フレーズを検索することに用いられている。
【0060】
前記目標言語フレーズ重複除去サブモジュール432は、検索された第一目標言語フレーズから重複した目標言語フレーズを除去することに用いられている。
【0061】
前記目標言語フレーズ集合確立サブモジュール433は、重複したものを除去して残された第一目標言語フレーズにより目標言語フレーズ集合を構成することに用いられている。
【0062】
本実施態様は、ソース言語−ピボット言語コーパス及びピボット言語−目標言語コーパスに対してデータマイニングを行うことによって、ソース言語−ピボット言語というバイリンガルコーパスにおけるデータを拡張し、当該バイリンガルコーパスにおいてデータが少ないという問題を解決している。
【0063】
上記の本発明の各モジュール又は各ステップは、汎用の演算装置により実現されていてもよく、それらは複数の演算装置によって形成されたネットワークに分布されていてもよいということを当業者は理解すべきである。任意選択的に、それらはコンピュータ装置が実行可能なプログラムコードを用いて実現されていてもよく、これにより、記憶装置に記憶されて演算装置で実行されることが可能になる。あるいは、それらをそれぞれ集積回路モジュールに作製し、あるいはそれらのうちに複数のモジュール又はステップを一つの集積回路モジュールに作製して実現してもよい。このようにして、本発明はいかなる特定のハードウェア及びソフトウェアの組み合わせにも制限されていない。このような理解に基づいて、本発明の技術的な解決手段は、本質的に又は従来技術に寄与する部分がソフトウェア製品の形として表されていてもよく、当該コンピュータソフトウェア製品は、(例えば、ROM/RAM、磁気ディスク、光ディスクなどの)記憶媒体に記憶されて、(携帯電話、コンピュータ、サーバ、又はネットワーク装置等でありうる)一つの端末機器に本発明の各実施態様に記載の方法を実行させるために若干の命令を含んでいる。このため、本発明の実施態様は、バイリンガルコーパスのデータ拡張方法を実行するためのコンピュータ実行可能な命令を含む一以上の記憶媒体であって、前記データ拡張方法は、ソース言語−ピボット言語コーパスにおいて第一ソース言語フレーズの語義に適合した少なくとも一つの第一ピボット言語フレーズを検索するステップと、ソース言語−ピボット言語コーパスにおいて前記各第一ピボット言語フレーズの語義に適合した少なくとも一つの第二ソース言語フレーズを検索し、前記各第二ソース言語フレーズによりソース言語フレーズ集合を構成するステップと、ピボット言語−目標言語コーパスにおいて前記各第一ピボット言語フレーズの語義に適合した少なくとも一つの第一目標言語フレーズを検索し、前記各第一目標言語フレーズにより目標言語フレーズ集合を構成するステップと、前記ソース言語フレーズ集合における第二ソース言語フレーズを前記目標言語フレーズ集合における第一目標言語フレーズと組み合わせて、ソース言語フレーズが目標言語フレーズの語義に適合した少なくとも一つのフレーズ対を形成するステップと、形成された前記ソース言語フレーズが目標言語フレーズの語義に適合した少なくとも一つのフレーズ対をソース言語−目標言語コーパスに記憶するステップとを含むことを特徴とする記憶媒体をさらに提供する。
【0064】
上記は、単なる本発明の実施態様であり、これによって本発明の特許の範囲を制限するものではない。本発明の明細書及び図面の内容により行われた均等な構造変換又は均等なフロー変換、あるいは直接的又は間接的にその他の関連技術分野に適用されるものについては、同じ道理に従って本発明の特許の保護範囲に含まれる。
図1
図2
図3
図4