(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023173699
(43)【公開日】2023-12-07
(54)【発明の名称】疑似データ生成装置
(51)【国際特許分類】
G06F 40/216 20200101AFI20231130BHJP
G06F 40/157 20200101ALI20231130BHJP
G06F 40/284 20200101ALI20231130BHJP
G06N 3/02 20060101ALI20231130BHJP
G06N 20/00 20190101ALI20231130BHJP
【FI】
G06F40/216
G06F40/157
G06F40/284
G06N3/02
G06N20/00
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022086136
(22)【出願日】2022-05-26
(71)【出願人】
【識別番号】392026693
【氏名又は名称】株式会社NTTドコモ
(74)【代理人】
【識別番号】100088155
【弁理士】
【氏名又は名称】長谷川 芳樹
(74)【代理人】
【識別番号】100113435
【弁理士】
【氏名又は名称】黒木 義樹
(74)【代理人】
【識別番号】100121980
【弁理士】
【氏名又は名称】沖山 隆
(74)【代理人】
【識別番号】100128107
【弁理士】
【氏名又は名称】深石 賢治
(72)【発明者】
【氏名】川原田 将之
(72)【発明者】
【氏名】松岡 保静
(72)【発明者】
【氏名】澤山 熱気
【テーマコード(参考)】
5B091
5B109
【Fターム(参考)】
5B091AA15
5B091CA02
5B091CA06
5B091CA21
5B091CC02
5B091EA01
5B109QB13
5B109QB14
5B109TA11
(57)【要約】
【課題】複数文からなる文章の誤り訂正のために、複数文からなる疑似データを容易に大量に得る。
【解決手段】疑似データ生成装置10は、文に含まれる誤りを訂正するタスクの学習に用いるための疑似データを生成する装置であって、複数の文からなる原文データに含まれる第1の文又は第1の文中の語と、原文データに含まれる第2の文又は第2の文中の語との間の所定の関係を解析する解析部13と、関係に基づいて、第1の文及び第2の文のうちのいずれか一方の文中の1以上の語を置換若しくは削除し、又は第1の文及び第2の文のうちのいずれか一方の文に1以上の語を追加することにより、原文データに誤りを含ませる誤り生成部14と、誤りを含む原文データを疑似データとして出力する出力部15とを備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
文に含まれる誤りを訂正するタスクの学習に用いるための疑似データを生成する疑似データ生成装置であって、
複数の文からなる原文データに含まれる第1の文又は前記第1の文中の語と、前記原文データに含まれる第2の文又は前記第2の文中の語との間の所定の関係を解析する解析部と、
前記関係に基づいて、前記第1の文及び前記第2の文のうちのいずれか一方の文中の1以上の語を置換若しくは削除し、又は前記第1の文及び前記第2の文のうちのいずれか一方の文に1以上の語を追加することにより、前記原文データに誤りを含ませる誤り生成部と、
前記誤りを含む原文データを疑似データとして出力する出力部と、
を備える疑似データ生成装置。
【請求項2】
前記原文データに含まれる各語の品詞を判定する品詞判定部、を更に備え、
前記解析部は、前記第1の文中の語と前記第2の文中の語との間の品詞に関する特定の対応関係を解析し、
前記誤り生成部は、前記対応関係を有する前記第1の文中の第1の語及び前記第2の文中の第2の語のいずれか一方の語を、当該語と異なる他の語に置換する、
請求項1に記載の疑似データ生成装置。
【請求項3】
前記解析部は、前記品詞判定部による品詞の判定に基づいて、前記第1の文中における動詞である語を前記第1の語とし、前記第2の文中における動詞である語を前記第2の語として、前記第1の語と前記第2の語との間に前記特定の対応関係があることを判定し、
前記誤り生成部は、前記第1の語及び前記第2の語のいずれか一方の語を、当該語とは動詞の活用を異ならせた他の語に置換する、
請求項2に記載の疑似データ生成装置。
【請求項4】
前記解析部は、文中の語の依存関係を解析する所定の係り受け解析により、前記第1の文及び前記第2の文のそれぞれにおいて、語間の依存関係におけるルートに該当する語を抽出し、動詞且つルートに該当する語を前記第1の語及び前記第2の語として、前記第1の語と前記第2の語との間に前記特定の対応関係があることを判定する、
請求項3に記載の疑似データ生成装置。
【請求項5】
前記解析部は、前記品詞判定部による品詞の判定、並びに、文中における同一の指示対象を指す名詞、固有名詞及び代名詞のいずれかである語を抽出する所定の共参照解析に基づいて、前記第1の文及び前記第2の文のそれぞれから、同一の指示対象を指す語として抽出された語を、それぞれ前記第1の語及び前記第2の語として、前記第1の語と前記第2の語との間に前記特定の対応関係があることを判定し、
前記誤り生成部は、前記第1の語及び前記第2の語のうちの、代名詞であるいずれか一方の語を、当該語の指示対象を指さない他の代名詞である他の語に置換する、
請求項2に記載の疑似データ生成装置。
【請求項6】
前記原文データに含まれる各語の品詞を判定する品詞判定部、を更に備え、
前記解析部は、前記品詞判定部による品詞の判定に基づいて、前記第1の文に連なる前記第2の文中に接続詞が含まれる場合に、前記第1の文と前記第2の文との間に前記特定の対応関係があることを判定し、
前記誤り生成部は、前記第2の文に含まれている前記接続詞を、当該接続詞とは異なる接続詞に置換又は削除する、
請求項1に記載の疑似データ生成装置。
【請求項7】
前記原文データに含まれる各語の品詞を判定する品詞判定部、を更に備え、
前記解析部は、前記品詞判定部による品詞の判定に基づいて、前記第1の文に連なる前記第2の文中に接続詞が含まれていない場合に、前記第1の文と前記第2の文との間に前記特定の対応関係があることを判定し、
前記誤り生成部は、前記第2の文の文頭に、予め記憶している複数の接続詞のうちのいずれか一つの接続詞を付加する、
請求項1に記載の疑似データ生成装置。
【請求項8】
前記誤り生成部は、一の前記誤りを前記原文データに含ませる、
請求項1~7のいずれか一項に記載の疑似データ生成装置。
【請求項9】
前記誤り生成部は、複数の前記誤りを前記原文データに含ませる、
請求項1~7のいずれか一項に記載の疑似データ生成装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文に含まれる誤りを訂正するタスクの学習に用いるための疑似データを生成する疑似データ生成装置に関する。
【背景技術】
【0002】
語学学習者が書いた文に含まれる誤りを訂正する(GEC:Grammatical Error Correction)技術が求められている。誤りの訂正は、一例として、誤りを含む文を原言語の文、正しい文を目的言語の文とみなし、誤りを含む文を正しい文に翻訳する機械翻訳タスクとして実現される。例えばエンコーダデコーダモデルによりGECのためのGECモデルを構成する場合には、大量の訓練データが必要である。訓練データの生成に適用できる可能性がある技術として、日本語の文に対して、助詞の誤りを発生させた疑似誤り文を生成することにより、コーパスを得る技術が知られている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
文法誤り訂正(GEC)において、文章における文と文の繋がり及び表現の統一等に関する訂正は重要な課題であった。この課題を解決するためには、複数文の誤りの訂正に対応したGECモデルが必要であった。複数文の誤りの訂正に対応したGECモデルを得るために、複数文からなる訓練データ(コーパス)が求められている。複数文からなる訓練データを大量に得るために、複数文からなる疑似データ(pseudo data)を作成する技術が求められている。
【0005】
そこで、本発明は、上記問題点に鑑みてなされたものであり、複数文からなる文章の誤り訂正のために、複数文からなる疑似データを容易に大量に得ることを目的とする。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本開示の一側面に係る疑似データ生成装置は、文に含まれる誤りを訂正するタスクの学習に用いるための疑似データを生成する疑似データ生成装置であって、複数の文からなる原文データに含まれる第1の文又は第1の文中の語と、原文データに含まれる第2の文又は第2の文中の語との間の所定の関係を解析する解析部と、関係に基づいて、第1の文及び第2の文のうちのいずれか一方の文中の1以上の語を置換若しくは削除し、又は第1の文及び第2の文のうちのいずれか一方の文に1以上の語を追加することにより、原文データに誤りを含ませる誤り生成部と、誤りを含む原文データを疑似データとして出力する出力部と、を備える。
【0007】
上記の側面によれば、第1の文又は第1の文中の語と、第2の文又は第2の文中の語との間において見出された関係に応じて、第1の文及び第2の文のいずれか一方が変更される。これにより、第1の文と第2の文との整合性に関しての誤りを含む疑似データが得られる。従って、原文データと疑似データとのペアからなる訓練データを大量に得ることが可能となる。
【発明の効果】
【0008】
複数文からなる文章の誤り訂正のために、複数文からなる疑似データを容易に大量に得ることが可能となる。
【図面の簡単な説明】
【0009】
【
図1】本実施形態の疑似データ生成装置の機能的構成を示すブロック図である。
【
図2】疑似データ生成装置のハードブロック図である。
【
図3】疑似データを含む訓練データにより機械学習されるGECモデルを模式的に示す図である。
【
図4】品詞判定処理及び係り受け解析処理を説明するための図である。
【
図5】動詞の置換により疑似データを生成する処理の例を説明する図である。
【
図6】動詞の活用形を記憶している辞書データの例を示す図である。
【
図7】代名詞の置換により疑似データを生成する処理の例を説明する図である。
【
図8】代名詞のグループを記憶している辞書データの例を示す図である。
【
図9】接続詞の置換により疑似データを生成する処理の例を説明する図である。
【
図10】疑似データ生成装置における疑似データ生成方法の処理内容を示すフローチャートである。
【
図11】疑似データ生成プログラムの構成を示す図である。
【発明を実施するための形態】
【0010】
本発明に係る疑似データ生成装置の実施形態について図面を参照して説明する。なお、可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
【0011】
図1は、本実施形態に係る疑似データ生成システム1の装置構成及び疑似データ生成装置の機能的構成を示す図である。疑似データ生成システム1は、疑似データ生成装置10及び各種の記憶部21,22,23を含む。疑似データ生成装置10は、文に含まれる誤りを訂正するタスクの学習に用いるための疑似データを生成する装置である。誤りは、例えば、文法的及び綴り等における誤りである。
図1に示すように、疑似データ生成装置10は、機能的には、原文データ取得部11、品詞判定部12、解析部13、誤り生成部14及び出力部15を備える。これらの各機能部11~15は、一つの装置に構成されてもよいし、複数の装置に分散されて構成されてもよい。
【0012】
また、疑似データ生成装置10は、原文データ記憶部21、疑似データ記憶部22及び辞書データ記憶部23といった記憶手段にアクセス可能に構成されている。原文データ記憶部21、疑似データ記憶部22及び辞書データ記憶部23は、疑似データ生成装置10内に構成されてもよいし、
図1に示されるように、疑似データ生成装置10の外部に、疑似データ生成装置からアクセス可能な別の装置として構成されてもよい。
【0013】
原文データ記憶部21は、正しく構成された原文からなる原文データを記憶している記憶手段であって、ストレージ及びメモリ等により構成されることができる。疑似データ記憶部22は、疑似データ生成装置10により生成された疑似データを記憶させるための記憶手段であって、ストレージ及びメモリ等により構成されることができる。
【0014】
辞書データ記憶部23は、各種の辞書データを予め記憶している記憶手段である。辞書データ記憶部23は、動詞の活用形を動詞の原形ごとにまとめた辞書データ、複数の代名詞を指示対象ごとにグループ化した辞書データ、及び、複数の接続詞を含む辞書データを記憶している。
【0015】
なお、
図1に示したブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した1つの装置を用いて実現されてもよいし、物理的又は論理的に分離した2つ以上の装置を直接的又は間接的に(例えば、有線、無線などを用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。
【0016】
機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知(broadcasting)、通知(notifying)、通信(communicating)、転送(forwarding)、構成(configuring)、再構成(reconfiguring)、割り当て(allocating、mapping)、割り振り(assigning)などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック(構成部)は、送信部(transmitting unit)や送信機(transmitter)と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。
【0017】
例えば、本発明の一実施の形態における疑似データ生成装置10は、コンピュータとして機能してもよい。
図2は、本実施形態に係る疑似データ生成装置10のハードウェア構成の一例を示す図である。疑似データ生成装置10は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
【0018】
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。疑似データ生成装置10のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
【0019】
疑似データ生成装置10における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることで、プロセッサ1001が演算を行い、通信装置1004による通信や、メモリ1002及びストレージ1003におけるデータの読み出し及び/又は書き込みを制御することで実現される。
【0020】
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)で構成されてもよい。例えば、
図1に示した各機能部11~15などは、プロセッサ1001で実現されてもよい。
【0021】
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュールやデータを、ストレージ1003及び/又は通信装置1004からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、疑似データ生成装置10の各機能部11~15は、メモリ1002に格納され、プロセッサ1001で動作する制御プログラムによって実現されてもよい。上述の各種処理は、1つのプロセッサ1001で実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
【0022】
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つで構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本発明の一実施の形態に係る疑似データ生成方法及び文生成方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
【0023】
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つで構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及び/又はストレージ1003を含むデータベース、サーバその他の適切な媒体であってもよい。
【0024】
通信装置1004は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。
【0025】
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
【0026】
また、プロセッサ1001やメモリ1002などの各装置は、情報を通信するためのバス1007で接続される。バス1007は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。
【0027】
また、疑似データ生成装置10は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つで実装されてもよい。
【0028】
本実施形態の疑似データ生成装置10は、文に含まれる誤りを訂正するタスクの学習に用いるための疑似データを生成する装置である。疑似データは、例えば、文に含まれる誤りを訂正するタスク(GEC:Grammatical Error Correction)のために構成されるGECモデルの機械学習に供される。
図3は、疑似データを含む訓練データにより機械学習されるGECモデルを模式的に示す図である。GECモデルgmは、例えば、周知のエンコーダデコーダモデルにより構成されることができる。GECモデルgmは、エンコーダen及びデコーダdeを含む。GECモデルgmは、エンコーダenに入力された誤り文spを訂正して、正しく構成された原文soをデコーダdeから出力する、ニューラルネットワークを含んで構成される機械学習モデルである。GECモデルgmの機械学習には、正しく構成された原文から、誤りを含む誤り文を擬似的に生成し、原文からなる原文データと擬似的に生成された誤り文からなる疑似データとのペアからなる訓練データを大量に必要とする。本実施形態の疑似データ生成装置10は、一の原文データに基づいて、複数の疑似データを自動的に生成できる。
【0029】
再び
図1を参照して、疑似データ生成装置10の機能部を説明する。原文データ取得部11は、原文データを取得する。具体的には、原文データ取得部11は、例えば、原文データ記憶部21から原文データを、いわゆるシードコーパスとして取得する。原文データは、第1の文と第2の文とを含む。即ち、原文データにより表される原文は、少なくとも2つの文を含む文章である。
【0030】
品詞判定部12は、原文データに含まれる各語の品詞を判定する。具体的には、例えば、品詞判定部12は、原文データに含まれる各語に、語の品詞を示す品詞タグを付与する。
【0031】
図4は、品詞判定処理及び係り受け解析処理を説明するための図である。品詞判定部12は、例えば、周知の品詞判定の技術である品詞タグ付け(Part-of-Speech Tagging)により、品詞を判定してもよい。
図4に示されるように、品詞判定部12は、文se0の各語w1~w7に品詞タグPTを付与できる。例えば、品詞判定部12は、単語w1(I)に代名詞を示すタグ「PRON」を付与する。
【0032】
同様に、品詞判定部12は、単語w2~w7(prefer,the,morning,flight,through,Denver)のそれぞれの語に、品詞タグ「VERB(動詞)」、「DET(限定詞)」、「NOUN(名詞)」、「NOUN(名詞)」、「ADP(前置詞)」、「PROPN(固有名詞)」を付与する。なお、
図4に示されている係り受け処理の例は後述される。
【0033】
解析部13は、複数の文からなる原文データに含まれる第1の文又は第1の文中の語と、原文データに含まれる第2の文又は第2の文中の語との間の所定の関係を解析する。
【0034】
誤り生成部14は、解析部13により解析された所定の関係に基づいて、第1の文及び第2の文のうちのいずれか一方の文中の1以上の語を置換若しくは削除し、又は第1の文及び第2の文のうちのいずれか一方の文に1以上の語を追加することにより、原文データに誤りを含ませる。誤り生成部14は、原文データに誤りを含ませることにより、疑似データを生成する。出力部15は、生成された疑似データを出力する。
図5~
図9を参照して、解析部13による解析処理、及び、誤り生成部14による誤りを原文データに含ませる処理を説明する。
【0035】
図5は、動詞の置換により疑似データを生成する処理の例を説明する図である。ステップg11において、原文データ取得部11は、原文データd1を取得する。原文データd1は、第1の文d11及び第2の文d12を含む。ステップg12において、品詞判定部12は、原文データd1に含まれる各語の品詞を判定し、品詞タグPT1を各語に付与する。各語に付与された品詞タグPT1によれば、第1の文d11は、動詞である第1の語v1(has)を含み、第2の文d12は、動詞である第2の語v2(loves)を含む。解析部13は、第1の語v1と第2の語v2との間に、共に動詞であるという特定の対応関係があることを判定する。
【0036】
ステップg13において、解析部13は、第1の文d11及び第2の文d12のそれぞれに対して、係り受け解析(Dependency parsing)を実施する。係り受け解析は、文中の語の依存関係を解析する周知の自然言語処理技術である。
【0037】
ここで、
図4を再び参照して、係り受け解析について簡単に説明する。
図4に示される例では、係り受け解析の結果を示す有向グラフDPが示されている。有向グラフDPでは、文に対してルートとなる単語を設定して、単語間の依存関係が矢印により表されている。
図4の例では、解析部13は、動詞である単語w2(prefer)をルートに設定し、単語w2から、その主語名詞に該当する単語w1(I)に向かう有向グラフdp21を、関係性を示すタグ(nsubj)と共に設定する。
【0038】
同様に、解析部13は、単語w2から単語w5に向かう有向グラフdp25、単語w5から単語w3に向かう有向グラフdp53、単語w5から単語w4に向かう有向グラフdp54、単語w5から単語w6に向かう有向グラフdp56、単語w6から単語w7に向かう有向グラフdp67を、それぞれの関係性を示すタグと共に設定する。
【0039】
再び
図5を参照して、解析部13は、係り受け解析により、第1の語v1が第1の文d11におけるルートに該当し、第2の語v2が第2の文d12におけるルートに該当することを判定する。そして、解析部13は、第1の語v1と第2の語v2との間に、動詞且つルートに該当する語であるという特定の対応関係があることを判定する。
【0040】
ステップg14,g15において、誤り生成部14は、対応関係を有する第1の文中の第1の語及び第2の文中の第2の語のいずれか一方の語を、当該語と所定の関係を有し当該語と異なる他の語に置換する。ここでは、誤り生成部14は、第1の語v1及び第2の語v2のいずれか一方の語を、当該語とは動詞の活用(Verb conjugation)を異ならせた他の語に置換する。
【0041】
本実施形態では、誤り生成部14は、辞書データ記憶部23に記憶されている辞書データを参照して、動詞を置換する。
図6は、動詞の活用形が原形に関連付けてグループ化された辞書データdc1の例を示す図である。辞書データdc1は、動詞「have」の活用形「has,had,having」を含む。
【0042】
ステップg14において、誤り生成部14は、辞書データdc1の参照により、第1の語v1(has)の置き換えの候補cv1(have,had,having)を認識できる。同様に、誤り生成部14は、辞書データdc1の参照により、第2の語v2(loves)の置き換えの候補cv2(love,loved)を認識できる。
【0043】
ステップg15において、誤り生成部14は、第1の語v1及び第2の語v2のうちのいずれの語を置換するかを確率的に決定する。即ち、誤り生成部14は、設定された任意の確率に従って置換する語を決定してもよいし、置換する語をランダムに決定してもよい。
図5の例では、誤り生成部14は、第2の語v2を置換することを決定する。
【0044】
そして、誤り生成部14は、置き換えの候補cv2の中から置換に用いる語を確率的に決定する。即ち、誤り生成部14は、設定された任意の確率に従って置換に用いる語を決定してもよいし、置換に用いる語をランダムに決定してもよい。
図5の例では、誤り生成部14は、第2の語v2を、置き換えの候補cv2のうちの語v3(loved)に置換する。そして、出力部15は、置換した語v3を誤りとして含む原文データを疑似データとして出力する。具体的には、出力部15は、疑似データを疑似データ記憶部22に記憶させる。
【0045】
このように、第1の文中の動詞と第2の文中の動詞との間の対応関係に基づいて、一方の動詞が、当該動詞の異なる活用形からなる他の動詞に置換される。これにより、第1の文と第2の文との間の動詞の整合性が崩される。従って、第1の文と第2の文との間の動詞に関する対応関係における誤りを含む疑似データを得ることが可能となる。
【0046】
図7は、代名詞の置換により疑似データを生成する処理の例を説明する図である。ステップg21において、原文データ取得部11は、原文データd2を取得する。原文データd2は、第1の文d21及び第2の文d22を含む。ステップg22において、品詞判定部12は、原文データd2に含まれる各語の品詞を判定し、品詞タグPT2を各語に付与する。
【0047】
ステップg23において、解析部13は、原文データd2に対して共参照解析を実施する。共参照解析は、文書内の名詞、代名詞、固有名詞及び名詞句等のうち、同一の指示対象を指すものをグループ化する周知の解析技術である。
【0048】
図7に示す例では、解析部13は、語w21(My sister)と語w23(She)とが同一の指示対象を指すものとしてグループcr1を抽出し、語w22(a boyfriend)と語w24(him)とが同一の指示対象を指すものとしてグループcr2を抽出する。即ち、解析部13は、語w21と語w23との間に、同一の指示対象を指すという特定の対応関係があることを判定する。また、解析部13は、語w22と語w24との間に、同一の指示対象を指すという特定の対応関係があることを判定する。
【0049】
ステップg24において、誤り生成部14は、グループcr1及びグループcr2のうちのいずれのグループに含まれる代名詞を置換するかを確率的に決定する。即ち、誤り生成部14は、設定された任意の確率に従って置換する代名詞を決定してもよいし、置換する代名詞をランダムに決定してもよい。
図7の例では、誤り生成部14は、グループcr2に含まれる代名詞pr1(w24)を置換することを決定する。
【0050】
誤り生成部14は、辞書データ記憶部23に記憶されている辞書データを参照して、代名詞を置換する。具体的には、同一の指示対象を指す第1の語及び第2の語のうちの、代名詞であるいずれか一方の語を、当該語の指示対象を指さない他の代名詞である他の語に置換する。
【0051】
図8は、代名詞の指示対象をカテゴリとするグループを記憶している辞書データdc2の例を示す図である。
図8に示されるように、辞書データdc2は、例えば、一人称に関する代名詞「I,my,me,mine,myself」を含むグループを含む。
【0052】
誤り生成部14は、辞書データdc2の参照により、第2のグループcr2に含まれる代名詞pr1(him)が含まれる代名詞のグループ(グループ4)以外のグループの代名詞を、置き換え候補cp(her,it,them等)を認識する。
【0053】
ステップg25において、誤り生成部14は、置き換え候補cpの中から置換に用いる語を確率的に決定する。即ち、誤り生成部14は、設定された任意の確率に従って置換に用いる語を決定してもよいし、置換に用いる語をランダムに決定してもよい。
図7の例では、誤り生成部14は、代名詞pr1、置き換え候補cpのうちの代名詞pr2(them)に置換する。そして、出力部15は、置換した代名詞pr2を誤りとして含む原文データを疑似データとして出力する。具体的には、出力部15は、疑似データを疑似データ記憶部22に記憶させる。
【0054】
このように、共参照解析により、第1の文及び第2の文のそれぞれから、同一の指示対象を指す語の対が特定の対応関係を有する第1の語及び第2の語として抽出され、第1の語及び第2の語のうちのいずれか一方が、異なる指示対象を指す代名詞に置換される。これにより、第1の文と第2の文との間の名詞、固有名詞及び代名詞等に関する整合性が崩される。従って、第1の文と第2の文との間の名詞、固有名詞及び代名詞等に関する対応関係における誤りを含む疑似データを得ることが可能となる。
【0055】
なお、
図7に示された例では、誤り生成部14は、一の誤りを原文データに含ませることにより疑似データを生成する。即ち、誤り生成部14は、グループcr1及びグループcr2のうちの一のグループであるグループcr2に含まれる語w24を他の語に置換することにより原文データに誤りを含ませる。このように、一つの誤りが含められた疑似データを含む訓練データを用いた機械学習によりGECモデルが構成されることにより、その誤りに関する特徴を、GECモデルに好適に反映できる。
【0056】
これに対して、誤り生成部14は、複数の誤りを原文データに含ませることにより、疑似データを生成してもよい。
図7に示された例に沿って説明すると、誤り生成部14は、グループcr1及びグループcr2のそれぞれに含まれる語w23及び語w24を、それぞれ他の語に置換することにより原文データに複数の誤りを含ませてもよい。このように、一の疑似データに複数の誤りが含まれることにより、その疑似データを含む訓練データを用いた機械学習により、複数の誤りに関する学習が行われることになる。従って、GECモデルを構成するための機械学習において、訓練データの総量を削減することが可能となる。
【0057】
図9は、接続詞の置換により疑似データを生成する処理の例を説明する図である。ステップg31において、原文データ取得部11は、原文データd3を取得する。原文データd3は、第1の文d31及び第2の文d32を含む。ステップg32において、品詞判定部12は、原文データd3に含まれる各語の品詞を判定し、品詞タグPT3を各語に付与する。
【0058】
ステップg33において、解析部13は、品詞判定部12による品詞の判定に基づいて、第1の文に連なる第2の文中の文頭に接続詞が含まれる場合に、第1の文と第2の文との間に特定の対応関係があることを判定する。
図9に示す例では、解析部13は、第2の文d32の文頭に接続詞cj1(But)が含まれることに基づいて、第1の文d31と第2の文d32との間に特定の対応関係があることを判定する。
【0059】
そして、誤り生成部14は、種々の接続詞からなる接続詞群を含み辞書データ記憶部23に記憶されている辞書データの参照により、接続詞cj1の置き換え候補cc1(and,because,although,等)を認識できる。
【0060】
ステップg34において、誤り生成部14は、置き換え候補cc1の中から置換に用いる語を確率的に決定する。即ち、誤り生成部14は、設定された任意の確率に従って置換に用いる語を決定してもよいし、置換に用いる語をランダムに決定してもよい。
図9の例では、誤り生成部14は、接続詞cj1(But)を、置き換え候補cc1のうちの接続詞cj2(And)に置換する。そして、出力部15は、置換した接続詞cj2を誤りとして含む原文データを疑似データとして出力する。具体的には、出力部15は、疑似データを疑似データ記憶部22に記憶させる。
【0061】
このように、第1の文に連なる第2の文に含まれている接続詞が、異なる接続詞に置換または削除されることにより、第1の文と第2の文との間の接続に関する整合性が崩される。従って、第1の文と第2の文との間の接続に関する誤りを含む疑似データを得ることが可能となる。
【0062】
なお、ステップg33において、解析部13は、品詞判定部12による品詞の判定に基づいて、第1の文に連なる第2の文中に接続詞が含まれていない場合に、第1の文と第2の文との間に、接続詞を介さずに接続されているという特定の対応関係があることを判定してもよい。
【0063】
この場合には、ステップg34において、誤り生成部14は、接続詞群を含む辞書データから、確率的に又はランダムに接続詞を抽出し、抽出した接続詞を第2の文の文頭に付加してもよい。そして、出力部15は、付加された接続詞を誤りとして含む原文データを疑似データとして出力してもよい。
【0064】
このように、第1の文に接続詞を介することなく第2の文が連なる場合に、第2の文の文頭に接続詞が付加されることにより、第1の文と第2の文との間の接続に関する整合性が崩される。従って、第1の文と第2の文との間の接続に関する誤りを含む疑似データを得ることが可能となる。
【0065】
図10は、疑似データ生成装置10における疑似データ生成方法の処理内容を示すフローチャートである。
【0066】
ステップS1において、原文データ取得部11は、第1の文と第2の文とを含む原文データを取得する。
【0067】
ステップS2において、品詞判定部12は、原文データに含まれる各語の品詞を判定する。具体的には、品詞判定部12は、原文データに含まれる各語に、語の品詞を示す品詞タグを付与する。
【0068】
ステップS3において、解析部13は、動詞、代名詞及び接続詞のうちのいずれかに関する、原文データに含ませるための誤りを生成するかを確率的に決定する。即ち、解析部13は、予め設定された任意の確率に従って、生成される誤りの種別を決定してもよいし、ランダムに誤りの種別を決定してもよい。
【0069】
ステップS4において、解析部13は、原文データに含まれる第1の文又は第1の文中の語と、原文データに含まれる第2の文又は第2の文中の語との間における、ステップS3の決定に応じた所定の関係を解析する。
【0070】
ステップS5において、誤り生成部14は、解析部13により解析された所定の関係に基づいて、第1の文及び第2の文のうちのいずれか一方の文中の1以上の語を置換若しくは削除し、又は第1の文及び第2の文のうちのいずれか一方の文に1以上の語を追加することにより、動詞、代名詞及び接続詞のうちのいずれかに関する誤りを原文データに含ませる。
【0071】
ステップS6において、出力部15は、誤りを含む原文データを疑似データとして出力する。
【0072】
次に、
図11を参照して、コンピュータを、本実施形態の疑似データ生成装置10として機能させるための疑似データ生成プログラムについて説明する。
【0073】
図11は、疑似データ生成プログラムの構成を示す図である。疑似データ生成プログラムP1は、疑似データ生成装置10における疑似データ生成処理を統括的に制御するメインモジュールm10、原文データ取得モジュールm11、品詞判定モジュールm12、解析モジュールm13、誤り生成モジュールm14及び出力モジュールm15を備えて構成される。そして、各モジュールm11~m15により、原文データ取得部11、品詞判定部12、解析部13、誤り生成部14及び出力部15のための各機能が実現される。
【0074】
なお、疑似データ生成プログラムP1は、通信回線等の伝送媒体を介して伝送される態様であってもよいし、
図11に示されるように、記録媒体M1に記憶される態様であってもよい。
【0075】
以上説明した本実施形態の疑似データ生成装置10、疑似データ生成方法及び疑似データ生成プログラムP1によれば、第1の文又は第1の文中の語と、第2の文又は第2の文中の語との間において見出された関係に応じて、第1の文及び第2の文のいずれか一方が変更される。これにより、第1の文と第2の文との整合性に関しての誤りを含む疑似データが得られる。従って、原文データと疑似データとのペアからなる訓練データを大量に得ることが可能となる。
【0076】
本開示に係る発明は、例えば、以下のように把握される。
【0077】
本開示の第1の一側面に係る疑似データ生成装置は、文に含まれる誤りを訂正するタスクの学習に用いるための疑似データを生成する疑似データ生成装置であって、複数の文からなる原文データに含まれる第1の文又は第1の文中の語と、原文データに含まれる第2の文又は第2の文中の語との間の所定の関係を解析する解析部と、関係に基づいて、第1の文及び第2の文のうちのいずれか一方の文中の1以上の語を置換若しくは削除し、又は第1の文及び第2の文のうちのいずれか一方の文に1以上の語を追加することにより、原文データに誤りを含ませる誤り生成部と、誤りを含む原文データを疑似データとして出力する出力部と、を備える。
【0078】
上記の側面によれば、第1の文又は第1の文中の語と、第2の文又は第2の文中の語との間において見出された関係に応じて、第1の文及び第2の文のいずれか一方が変更される。これにより、第1の文と第2の文との整合性に関しての誤りを含む疑似データが得られる。従って、原文データと疑似データとのペアからなる訓練データを大量に得ることが可能となる。
【0079】
第2の側面に係る疑似データ生成装置では、第1の側面に係る疑似データ生成装置において、原文データに含まれる各語の品詞を判定する品詞判定部、を更に備え、解析部は、第1の文中の語と第2の文中の語との間の品詞に関する特定の対応関係を解析し、誤り生成部は、対応関係を有する第1の文中の第1の語及び第2の文中の第2の語のいずれか一方の語を、当該語と異なる他の語に置換することとしてもよい。
【0080】
上記の側面によれば、第1の文中の語と第2の文中の語との間の品詞に関する特定の対応関係が解析され、対応関係に応じて、第1の文中の第1の語及び第2の文中の第2の語のいずれか一方の語が、当該語と所定の関係を有する他の語に置換される。これにより、第1の文と第2の文との間の整合性が崩される。従って、第1の文と第2の文との間の品詞に関する対応関係における誤りを含む疑似データを得ることが可能となる。
【0081】
第3の側面に係る疑似データ生成装置では、第2の側面に係る疑似データ生成装置において、解析部は、品詞判定部による品詞の判定に基づいて、第1の文中における動詞である語を第1の語とし、第2の文中における動詞である語を第2の語として、第1の語と第2の語との間に特定の対応関係があることを判定し、誤り生成部は、第1の語及び第2の語のいずれか一方の語を、当該語とは動詞の活用を異ならせた他の語に置換することとしてもよい。
【0082】
上記の側面によれば、第1の文中の動詞と第2の文中の動詞との間の対応関係に基づいて、一方の動詞が、当該動詞の異なる活用形からなる他の動詞に置換される。これにより、第1の文と第2の文との間の動詞の整合性が崩される。従って、第1の文と第2の文との間の動詞に関する対応関係における誤りを含む疑似データを得ることが可能となる。
【0083】
第4の側面に係る疑似データ生成装置では、第3の側面に係る疑似データ生成装置において、解析部は、文中の語の依存関係を解析する所定の係り受け解析により、第1の文及び第2の文のそれぞれにおいて、語間の依存関係におけるルートに該当する語を抽出し、動詞且つルートに該当する語を第1の語及び第2の語として、第1の語と第2の語との間に特定の対応関係があることを判定することとしてもよい。
【0084】
上記の側面によれば、第1の文及び第2の文に対する係り受け解析により、動詞間の特定の対応関係が適切に解析される。
【0085】
第5の側面に係る疑似データ生成装置では、第2の側面に係る疑似データ生成装置において、解析部は、品詞判定部による品詞の判定、並びに、文中における同一の指示対象を指す名詞、固有名詞及び代名詞のいずれかである語を抽出する所定の共参照解析に基づいて、第1の文及び第2の文のそれぞれから、同一の指示対象を指す語として抽出された語を、それぞれ第1の語及び第2の語として、第1の語と第2の語との間に特定の対応関係があることを判定し、誤り生成部は、第1の語及び第2の語のうちの、代名詞であるいずれか一方の語を、当該語の指示対象を指さない他の代名詞である他の語に置換することとしてもよい。
【0086】
上記の側面によれば、共参照解析により、第1の文及び第2の文のそれぞれから、同一の指示対象を指す語の対が特定の対応関係を有する第1の語及び第2の語として抽出され、第1の語及び第2の語のうちのいずれか一方が、異なる指示対象を指す代名詞に置換される。これにより、第1の文と第2の文との間の名詞、固有名詞及び代名詞等に関する整合性が崩される。従って、第1の文と第2の文との間の名詞、固有名詞及び代名詞等に関する対応関係における誤りを含む疑似データを得ることが可能となる。
【0087】
第6の側面に係る疑似データ生成装置では、第1の側面に係る疑似データ生成装置において、原文データに含まれる各語の品詞を判定する品詞判定部、を更に備え、解析部は、品詞判定部による品詞の判定に基づいて、第1の文に連なる第2の文中に接続詞が含まれる場合に、第1の文と第2の文との間に特定の対応関係があることを判定し、誤り生成部は、第2の文に含まれている接続詞を、当該接続詞とは異なる接続詞に置換又は削除することとしてもよい。
【0088】
上記の側面によれば、第1の文に連なる第2の文に含まれている接続詞が、異なる接続詞に置換または削除される。これにより、第1の文と第2の文との間の接続に関する整合性が崩される。従って、第1の文と第2の文との間の接続に関する誤りを含む疑似データを得ることが可能となる。
【0089】
第7の側面に係る疑似データ生成装置では、第1の側面に係る疑似データ生成装置において、原文データに含まれる各語の品詞を判定する品詞判定部、を更に備え、解析部は、品詞判定部による品詞の判定に基づいて、第1の文に連なる第2の文中に接続詞が含まれていない場合に、第1の文と第2の文との間に特定の対応関係があることを判定し、誤り生成部は、第2の文の文頭に、予め記憶している複数の接続詞のうちのいずれか一つの接続詞を付加することとしてもよい。
【0090】
上記の側面によれば、第1の文に接続詞を介することなく第2の文が連なる場合に、第2の文の文頭に接続詞が付加される。これにより、第1の文と第2の文との間の接続に関する整合性が崩される。従って、第1の文と第2の文との間の接続に関する誤りを含む疑似データを得ることが可能となる。
【0091】
第8の側面に係る疑似データ生成装置では、第1~7の側面のいずれか一つの側面に係る疑似データ生成装置において、誤り生成部は、一の誤りを原文データに含ませることとしてもよい。
【0092】
上記の側面によれば、一つの誤りが含められた疑似データを含む訓練データを用いた機械学習によりGECモデルが構成されることにより、その誤りに関する特徴が、GECモデルに好適に反映される。
【0093】
第9の側面に係る疑似データ生成装置では、第1~7の側面のいずれか一つの側面に係る疑似データ生成装置において、誤り生成部は、複数の誤りを原文データに含ませることとしてもよい。
【0094】
上記の側面によれば、一の疑似データに複数の誤りが含まれることにより、その疑似データを含む訓練データを用いた機械学習により、複数の誤りに関する学習が行われることになる。従って、GECモデルを構成するための機械学習において、訓練データの総量を削減することが可能となる。
【0095】
以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。
【0096】
情報の通知は、本開示において説明した態様/実施形態に限られず、他の方法を用いて行われてもよい。例えば、情報の通知は、物理レイヤシグナリング(例えば、DCI(Downlink Control Information)、UCI(Uplink Control Information))、上位レイヤシグナリング(例えば、RRC(Radio Resource Control)シグナリング、MAC(Medium Access Control)シグナリング、報知情報(MIB(Master Information Block)、SIB(System Information Block)))、その他の信号又はこれらの組み合わせによって実施されてもよい。また、RRCシグナリングは、RRCメッセージと呼ばれてもよく、例えば、RRC接続セットアップ(RRC Connection Setup)メッセージ、RRC接続再構成(RRC Connection Reconfiguration)メッセージなどであってもよい。
【0097】
本明細書で説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE-A(LTE-Advanced)、SUPER 3G、IMT-Advanced、4G、5G、FRA(Future Radio Access)、W-CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi-Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。また、複数のシステムが組み合わされて(例えば、LTE及びLTE-Aの少なくとも一方と5Gとの組み合わせ等)適用されてもよい。
【0098】
本明細書で説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。
【0099】
本開示において基地局によって行われるとした特定動作は、場合によってはその上位ノード(upper node)によって行われることもある。基地局を有する1つ又は複数のネットワークノード(network nodes)からなるネットワークにおいて、端末との通信のために行われる様々な動作は、基地局及び基地局以外の他のネットワークノード(例えば、MME又はS-GWなどが考えられるが、これらに限られない)の少なくとも1つによって行われ得ることは明らかである。上記において基地局以外の他のネットワークノードが1つである場合を例示したが、複数の他のネットワークノードの組み合わせ(例えば、MME及びS-GW)であってもよい。
【0100】
情報等(※「情報、信号」の項目参照)は、上位レイヤ(又は下位レイヤ)から下位レイヤ(又は上位レイヤ)へ出力され得る。複数のネットワークノードを介して入出力されてもよい。
【0101】
入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
【0102】
判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:trueまたはfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
【0103】
本開示において説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
【0104】
以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。
【0105】
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
【0106】
また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
【0107】
本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
【0108】
なお、本開示において説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。
【0109】
本明細書で使用する「システム」および「ネットワーク」という用語は、互換的に使用される。
【0110】
また、本明細書で説明した情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。例えば、無線リソースはインデックスによって指示されるものであってもよい。
【0111】
上述したパラメータに使用する名称はいかなる点においても限定的な名称ではない。さらに、これらのパラメータを使用する数式等は、本開示で明示的に開示したものと異なる場合もある。様々なチャネル(例えば、PUCCH、PDCCHなど)及び情報要素は、あらゆる好適な名称によって識別できるので、これらの様々なチャネル及び情報要素に割り当てている様々な名称は、いかなる点においても限定的な名称ではない。
【0112】
本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断(決定)」は、「想定する(assuming)」、「期待する(expecting)」、「みなす(considering)」などで読み替えられてもよい。
【0113】
本開示で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
【0114】
本明細書で「第1の」、「第2の」などの呼称を使用した場合においては、その要素へのいかなる参照も、それらの要素の量または順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第1および第2の要素への参照は、2つの要素のみがそこで採用され得ること、または何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。
【0115】
「含む(include)」、「含んでいる(including)」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または(or)」は、排他的論理和ではないことが意図される。
【0116】
本開示において、例えば、英語でのa, an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。
【0117】
本開示において、「AとBが異なる」という用語は、「AとBが互いに異なる」ことを意味してもよい。なお、当該用語は、「AとBがそれぞれCと異なる」ことを意味してもよい。「離れる」、「結合される」などの用語も、「異なる」と同様に解釈されてもよい。
【符号の説明】
【0118】
1…疑似データ生成システム、10…疑似データ生成装置、11…原文データ取得部、12…品詞判定部、13…解析部、14…誤り生成部、15…出力部、21…原文データ記憶部、22…疑似データ記憶部、23…辞書データ記憶部、M1…記録媒体、m10…メインモジュール、m11…原文データ取得モジュール、m12…品詞判定モジュール、m13…解析モジュール、m14…誤り生成モジュール、m15…出力モジュール、P1…疑似データ生成プログラム。