特開2023-173699 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＮＴＴドコモの特許一覧

特開2023-173699疑似データ生成装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023173699

(43)【公開日】2023-12-07

(54)【発明の名称】疑似データ生成装置

(51)【国際特許分類】

G06F 40/216 20200101AFI20231130BHJP

G06F 40/157 20200101ALI20231130BHJP

G06F 40/284 20200101ALI20231130BHJP

G06N 3/02 20060101ALI20231130BHJP

G06N 20/00 20190101ALI20231130BHJP

【ＦＩ】

G06F40/216

G06F40/157

G06F40/284

G06N3/02

G06N20/00

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2022086136

(22)【出願日】2022-05-26

(71)【出願人】

【識別番号】392026693

【氏名又は名称】株式会社ＮＴＴドコモ

(74)【代理人】

【識別番号】100088155

【弁理士】

【氏名又は名称】長谷川芳樹

(74)【代理人】

【識別番号】100113435

【弁理士】

【氏名又は名称】黒木義樹

(74)【代理人】

【識別番号】100121980

【弁理士】

【氏名又は名称】沖山隆

(74)【代理人】

【識別番号】100128107

【弁理士】

【氏名又は名称】深石賢治

(72)【発明者】

【氏名】川原田将之

(72)【発明者】

【氏名】松岡保静

(72)【発明者】

【氏名】澤山熱気

【テーマコード（参考）】

5B091

5B109

【Ｆターム（参考）】

5B091AA15

5B091CA02

5B091CA06

5B091CA21

5B091CC02

5B091EA01

5B109QB13

5B109QB14

5B109TA11

(57)【要約】

【課題】複数文からなる文章の誤り訂正のために、複数文からなる疑似データを容易に大量に得る。
【解決手段】疑似データ生成装置１０は、文に含まれる誤りを訂正するタスクの学習に用いるための疑似データを生成する装置であって、複数の文からなる原文データに含まれる第１の文又は第１の文中の語と、原文データに含まれる第２の文又は第２の文中の語との間の所定の関係を解析する解析部１３と、関係に基づいて、第１の文及び第２の文のうちのいずれか一方の文中の１以上の語を置換若しくは削除し、又は第１の文及び第２の文のうちのいずれか一方の文に１以上の語を追加することにより、原文データに誤りを含ませる誤り生成部１４と、誤りを含む原文データを疑似データとして出力する出力部１５とを備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

文に含まれる誤りを訂正するタスクの学習に用いるための疑似データを生成する疑似データ生成装置であって、
複数の文からなる原文データに含まれる第１の文又は前記第１の文中の語と、前記原文データに含まれる第２の文又は前記第２の文中の語との間の所定の関係を解析する解析部と、
前記関係に基づいて、前記第１の文及び前記第２の文のうちのいずれか一方の文中の１以上の語を置換若しくは削除し、又は前記第１の文及び前記第２の文のうちのいずれか一方の文に１以上の語を追加することにより、前記原文データに誤りを含ませる誤り生成部と、
前記誤りを含む原文データを疑似データとして出力する出力部と、
を備える疑似データ生成装置。

【請求項2】

前記原文データに含まれる各語の品詞を判定する品詞判定部、を更に備え、
前記解析部は、前記第１の文中の語と前記第２の文中の語との間の品詞に関する特定の対応関係を解析し、
前記誤り生成部は、前記対応関係を有する前記第１の文中の第１の語及び前記第２の文中の第２の語のいずれか一方の語を、当該語と異なる他の語に置換する、
請求項１に記載の疑似データ生成装置。

【請求項3】

前記解析部は、前記品詞判定部による品詞の判定に基づいて、前記第１の文中における動詞である語を前記第１の語とし、前記第２の文中における動詞である語を前記第２の語として、前記第１の語と前記第２の語との間に前記特定の対応関係があることを判定し、
前記誤り生成部は、前記第１の語及び前記第２の語のいずれか一方の語を、当該語とは動詞の活用を異ならせた他の語に置換する、
請求項２に記載の疑似データ生成装置。

【請求項4】

前記解析部は、文中の語の依存関係を解析する所定の係り受け解析により、前記第１の文及び前記第２の文のそれぞれにおいて、語間の依存関係におけるルートに該当する語を抽出し、動詞且つルートに該当する語を前記第１の語及び前記第２の語として、前記第１の語と前記第２の語との間に前記特定の対応関係があることを判定する、
請求項３に記載の疑似データ生成装置。

【請求項5】

前記解析部は、前記品詞判定部による品詞の判定、並びに、文中における同一の指示対象を指す名詞、固有名詞及び代名詞のいずれかである語を抽出する所定の共参照解析に基づいて、前記第１の文及び前記第２の文のそれぞれから、同一の指示対象を指す語として抽出された語を、それぞれ前記第１の語及び前記第２の語として、前記第１の語と前記第２の語との間に前記特定の対応関係があることを判定し、
前記誤り生成部は、前記第１の語及び前記第２の語のうちの、代名詞であるいずれか一方の語を、当該語の指示対象を指さない他の代名詞である他の語に置換する、
請求項２に記載の疑似データ生成装置。

【請求項6】

前記原文データに含まれる各語の品詞を判定する品詞判定部、を更に備え、
前記解析部は、前記品詞判定部による品詞の判定に基づいて、前記第１の文に連なる前記第２の文中に接続詞が含まれる場合に、前記第１の文と前記第２の文との間に前記特定の対応関係があることを判定し、
前記誤り生成部は、前記第２の文に含まれている前記接続詞を、当該接続詞とは異なる接続詞に置換又は削除する、
請求項１に記載の疑似データ生成装置。

【請求項7】

前記原文データに含まれる各語の品詞を判定する品詞判定部、を更に備え、
前記解析部は、前記品詞判定部による品詞の判定に基づいて、前記第１の文に連なる前記第２の文中に接続詞が含まれていない場合に、前記第１の文と前記第２の文との間に前記特定の対応関係があることを判定し、
前記誤り生成部は、前記第２の文の文頭に、予め記憶している複数の接続詞のうちのいずれか一つの接続詞を付加する、
請求項１に記載の疑似データ生成装置。

【請求項8】

前記誤り生成部は、一の前記誤りを前記原文データに含ませる、
請求項１～７のいずれか一項に記載の疑似データ生成装置。

【請求項9】

前記誤り生成部は、複数の前記誤りを前記原文データに含ませる、
請求項１～７のいずれか一項に記載の疑似データ生成装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、文に含まれる誤りを訂正するタスクの学習に用いるための疑似データを生成する疑似データ生成装置に関する。

【背景技術】

【0002】

語学学習者が書いた文に含まれる誤りを訂正する（ＧＥＣ：ＧｒａｍｍａｔｉｃａｌＥｒｒｏｒＣｏｒｒｅｃｔｉｏｎ）技術が求められている。誤りの訂正は、一例として、誤りを含む文を原言語の文、正しい文を目的言語の文とみなし、誤りを含む文を正しい文に翻訳する機械翻訳タスクとして実現される。例えばエンコーダデコーダモデルによりＧＥＣのためのＧＥＣモデルを構成する場合には、大量の訓練データが必要である。訓練データの生成に適用できる可能性がある技術として、日本語の文に対して、助詞の誤りを発生させた疑似誤り文を生成することにより、コーパスを得る技術が知られている（例えば、特許文献１参照）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１３－１８２３４７号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

文法誤り訂正（ＧＥＣ）において、文章における文と文の繋がり及び表現の統一等に関する訂正は重要な課題であった。この課題を解決するためには、複数文の誤りの訂正に対応したＧＥＣモデルが必要であった。複数文の誤りの訂正に対応したＧＥＣモデルを得るために、複数文からなる訓練データ（コーパス）が求められている。複数文からなる訓練データを大量に得るために、複数文からなる疑似データ（ｐｓｅｕｄｏｄａｔａ）を作成する技術が求められている。

【0005】

そこで、本発明は、上記問題点に鑑みてなされたものであり、複数文からなる文章の誤り訂正のために、複数文からなる疑似データを容易に大量に得ることを目的とする。

【課題を解決するための手段】

【0006】

上記課題を解決するために、本開示の一側面に係る疑似データ生成装置は、文に含まれる誤りを訂正するタスクの学習に用いるための疑似データを生成する疑似データ生成装置であって、複数の文からなる原文データに含まれる第１の文又は第１の文中の語と、原文データに含まれる第２の文又は第２の文中の語との間の所定の関係を解析する解析部と、関係に基づいて、第１の文及び第２の文のうちのいずれか一方の文中の１以上の語を置換若しくは削除し、又は第１の文及び第２の文のうちのいずれか一方の文に１以上の語を追加することにより、原文データに誤りを含ませる誤り生成部と、誤りを含む原文データを疑似データとして出力する出力部と、を備える。

【0007】

上記の側面によれば、第１の文又は第１の文中の語と、第２の文又は第２の文中の語との間において見出された関係に応じて、第１の文及び第２の文のいずれか一方が変更される。これにより、第１の文と第２の文との整合性に関しての誤りを含む疑似データが得られる。従って、原文データと疑似データとのペアからなる訓練データを大量に得ることが可能となる。

【発明の効果】

【0008】

複数文からなる文章の誤り訂正のために、複数文からなる疑似データを容易に大量に得ることが可能となる。

【図面の簡単な説明】

【0009】

【図1】本実施形態の疑似データ生成装置の機能的構成を示すブロック図である。

【図2】疑似データ生成装置のハードブロック図である。

【図3】疑似データを含む訓練データにより機械学習されるＧＥＣモデルを模式的に示す図である。

【図4】品詞判定処理及び係り受け解析処理を説明するための図である。

【図5】動詞の置換により疑似データを生成する処理の例を説明する図である。

【図6】動詞の活用形を記憶している辞書データの例を示す図である。

【図7】代名詞の置換により疑似データを生成する処理の例を説明する図である。

【図8】代名詞のグループを記憶している辞書データの例を示す図である。

【図9】接続詞の置換により疑似データを生成する処理の例を説明する図である。

【図10】疑似データ生成装置における疑似データ生成方法の処理内容を示すフローチャートである。

【図11】疑似データ生成プログラムの構成を示す図である。

【発明を実施するための形態】

【0010】

本発明に係る疑似データ生成装置の実施形態について図面を参照して説明する。なお、可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。

【0011】

図１は、本実施形態に係る疑似データ生成システム１の装置構成及び疑似データ生成装置の機能的構成を示す図である。疑似データ生成システム１は、疑似データ生成装置１０及び各種の記憶部２１，２２，２３を含む。疑似データ生成装置１０は、文に含まれる誤りを訂正するタスクの学習に用いるための疑似データを生成する装置である。誤りは、例えば、文法的及び綴り等における誤りである。図１に示すように、疑似データ生成装置１０は、機能的には、原文データ取得部１１、品詞判定部１２、解析部１３、誤り生成部１４及び出力部１５を備える。これらの各機能部１１～１５は、一つの装置に構成されてもよいし、複数の装置に分散されて構成されてもよい。

【0012】

また、疑似データ生成装置１０は、原文データ記憶部２１、疑似データ記憶部２２及び辞書データ記憶部２３といった記憶手段にアクセス可能に構成されている。原文データ記憶部２１、疑似データ記憶部２２及び辞書データ記憶部２３は、疑似データ生成装置１０内に構成されてもよいし、図１に示されるように、疑似データ生成装置１０の外部に、疑似データ生成装置からアクセス可能な別の装置として構成されてもよい。

【0013】

原文データ記憶部２１は、正しく構成された原文からなる原文データを記憶している記憶手段であって、ストレージ及びメモリ等により構成されることができる。疑似データ記憶部２２は、疑似データ生成装置１０により生成された疑似データを記憶させるための記憶手段であって、ストレージ及びメモリ等により構成されることができる。

【0014】

辞書データ記憶部２３は、各種の辞書データを予め記憶している記憶手段である。辞書データ記憶部２３は、動詞の活用形を動詞の原形ごとにまとめた辞書データ、複数の代名詞を指示対象ごとにグループ化した辞書データ、及び、複数の接続詞を含む辞書データを記憶している。

【0015】

なお、図１に示したブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した１つの装置を用いて実現されてもよいし、物理的又は論理的に分離した２つ以上の装置を直接的又は間接的に（例えば、有線、無線などを用いて）接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記１つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。

【0016】

機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知（broadcasting）、通知（notifying）、通信（communicating）、転送（forwarding）、構成（configuring）、再構成（reconfiguring）、割り当て（allocating、mapping）、割り振り（assigning）などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック（構成部）は、送信部（transmitting unit）や送信機（transmitter）と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。

【0017】

例えば、本発明の一実施の形態における疑似データ生成装置１０は、コンピュータとして機能してもよい。図２は、本実施形態に係る疑似データ生成装置１０のハードウェア構成の一例を示す図である。疑似データ生成装置１０は、物理的には、プロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、入力装置１００５、出力装置１００６、バス１００７などを含むコンピュータ装置として構成されてもよい。

【0018】

なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。疑似データ生成装置１０のハードウェア構成は、図に示した各装置を１つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。

【0019】

疑似データ生成装置１０における各機能は、プロセッサ１００１、メモリ１００２などのハードウェア上に所定のソフトウェア（プログラム）を読み込ませることで、プロセッサ１００１が演算を行い、通信装置１００４による通信や、メモリ１００２及びストレージ１００３におけるデータの読み出し及び／又は書き込みを制御することで実現される。

【0020】

プロセッサ１００１は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ１００１は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置（ＣＰＵ：Central Processing Unit）で構成されてもよい。例えば、図１に示した各機能部１１～１５などは、プロセッサ１００１で実現されてもよい。

【0021】

また、プロセッサ１００１は、プログラム（プログラムコード）、ソフトウェアモジュールやデータを、ストレージ１００３及び／又は通信装置１００４からメモリ１００２に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、疑似データ生成装置１０の各機能部１１～１５は、メモリ１００２に格納され、プロセッサ１００１で動作する制御プログラムによって実現されてもよい。上述の各種処理は、１つのプロセッサ１００１で実行される旨を説明してきたが、２以上のプロセッサ１００１により同時又は逐次に実行されてもよい。プロセッサ１００１は、１以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。

【0022】

メモリ１００２は、コンピュータ読み取り可能な記録媒体であり、例えば、ＲＯＭ（Read Only Memory）、ＥＰＲＯＭ（Erasable Programmable ＲＯＭ）、ＥＥＰＲＯＭ（Electrically Erasable Programmable ＲＯＭ）、ＲＡＭ（Random Access Memory）などの少なくとも１つで構成されてもよい。メモリ１００２は、レジスタ、キャッシュ、メインメモリ（主記憶装置）などと呼ばれてもよい。メモリ１００２は、本発明の一実施の形態に係る疑似データ生成方法及び文生成方法を実施するために実行可能なプログラム（プログラムコード）、ソフトウェアモジュールなどを保存することができる。

【0023】

ストレージ１００３は、コンピュータ読み取り可能な記録媒体であり、例えば、ＣＤ－ＲＯＭ（Compact Disc ＲＯＭ）などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ－ｒａｙ（登録商標）ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー（登録商標）ディスク、磁気ストリップなどの少なくとも１つで構成されてもよい。ストレージ１００３は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ１００２及び／又はストレージ１００３を含むデータベース、サーバその他の適切な媒体であってもよい。

【0024】

通信装置１００４は、有線及び／又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。

【0025】

入力装置１００５は、外部からの入力を受け付ける入力デバイス（例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど）である。出力装置１００６は、外部への出力を実施する出力デバイス（例えば、ディスプレイ、スピーカー、LEDランプなど）である。なお、入力装置１００５及び出力装置１００６は、一体となった構成（例えば、タッチパネル）であってもよい。

【0026】

また、プロセッサ１００１やメモリ１００２などの各装置は、情報を通信するためのバス１００７で接続される。バス１００７は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。

【0027】

また、疑似データ生成装置１０は、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ：Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）、ＦＰＧＡ（Field Programmable Gate Array）などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ１００１は、これらのハードウェアの少なくとも１つで実装されてもよい。

【0028】

本実施形態の疑似データ生成装置１０は、文に含まれる誤りを訂正するタスクの学習に用いるための疑似データを生成する装置である。疑似データは、例えば、文に含まれる誤りを訂正するタスク（ＧＥＣ：ＧｒａｍｍａｔｉｃａｌＥｒｒｏｒＣｏｒｒｅｃｔｉｏｎ）のために構成されるＧＥＣモデルの機械学習に供される。図３は、疑似データを含む訓練データにより機械学習されるＧＥＣモデルを模式的に示す図である。ＧＥＣモデルｇｍは、例えば、周知のエンコーダデコーダモデルにより構成されることができる。ＧＥＣモデルｇｍは、エンコーダｅｎ及びデコーダｄｅを含む。ＧＥＣモデルｇｍは、エンコーダｅｎに入力された誤り文ｓｐを訂正して、正しく構成された原文ｓｏをデコーダｄｅから出力する、ニューラルネットワークを含んで構成される機械学習モデルである。ＧＥＣモデルｇｍの機械学習には、正しく構成された原文から、誤りを含む誤り文を擬似的に生成し、原文からなる原文データと擬似的に生成された誤り文からなる疑似データとのペアからなる訓練データを大量に必要とする。本実施形態の疑似データ生成装置１０は、一の原文データに基づいて、複数の疑似データを自動的に生成できる。

【0029】

再び図１を参照して、疑似データ生成装置１０の機能部を説明する。原文データ取得部１１は、原文データを取得する。具体的には、原文データ取得部１１は、例えば、原文データ記憶部２１から原文データを、いわゆるシードコーパスとして取得する。原文データは、第１の文と第２の文とを含む。即ち、原文データにより表される原文は、少なくとも２つの文を含む文章である。

【0030】

品詞判定部１２は、原文データに含まれる各語の品詞を判定する。具体的には、例えば、品詞判定部１２は、原文データに含まれる各語に、語の品詞を示す品詞タグを付与する。

【0031】

図４は、品詞判定処理及び係り受け解析処理を説明するための図である。品詞判定部１２は、例えば、周知の品詞判定の技術である品詞タグ付け（Ｐａｒｔ－ｏｆ－ＳｐｅｅｃｈＴａｇｇｉｎｇ）により、品詞を判定してもよい。図４に示されるように、品詞判定部１２は、文ｓｅ０の各語ｗ１～ｗ７に品詞タグＰＴを付与できる。例えば、品詞判定部１２は、単語ｗ１（Ｉ）に代名詞を示すタグ「ＰＲＯＮ」を付与する。

【0032】

同様に、品詞判定部１２は、単語ｗ２～ｗ７（ｐｒｅｆｅｒ，ｔｈｅ，ｍｏｒｎｉｎｇ，ｆｌｉｇｈｔ，ｔｈｒｏｕｇｈ，Ｄｅｎｖｅｒ）のそれぞれの語に、品詞タグ「ＶＥＲＢ（動詞）」、「ＤＥＴ（限定詞）」、「ＮＯＵＮ（名詞）」、「ＮＯＵＮ（名詞）」、「ＡＤＰ（前置詞）」、「ＰＲＯＰＮ（固有名詞）」を付与する。なお、図４に示されている係り受け処理の例は後述される。

【0033】

解析部１３は、複数の文からなる原文データに含まれる第１の文又は第１の文中の語と、原文データに含まれる第２の文又は第２の文中の語との間の所定の関係を解析する。

【0034】

誤り生成部１４は、解析部１３により解析された所定の関係に基づいて、第１の文及び第２の文のうちのいずれか一方の文中の１以上の語を置換若しくは削除し、又は第１の文及び第２の文のうちのいずれか一方の文に１以上の語を追加することにより、原文データに誤りを含ませる。誤り生成部１４は、原文データに誤りを含ませることにより、疑似データを生成する。出力部１５は、生成された疑似データを出力する。図５～図９を参照して、解析部１３による解析処理、及び、誤り生成部１４による誤りを原文データに含ませる処理を説明する。

【0035】

図５は、動詞の置換により疑似データを生成する処理の例を説明する図である。ステップｇ１１において、原文データ取得部１１は、原文データｄ１を取得する。原文データｄ１は、第１の文ｄ１１及び第２の文ｄ１２を含む。ステップｇ１２において、品詞判定部１２は、原文データｄ１に含まれる各語の品詞を判定し、品詞タグＰＴ１を各語に付与する。各語に付与された品詞タグＰＴ１によれば、第１の文ｄ１１は、動詞である第１の語ｖ１（ｈａｓ）を含み、第２の文ｄ１２は、動詞である第２の語ｖ２（ｌｏｖｅｓ）を含む。解析部１３は、第１の語ｖ１と第２の語ｖ２との間に、共に動詞であるという特定の対応関係があることを判定する。

【0036】

ステップｇ１３において、解析部１３は、第１の文ｄ１１及び第２の文ｄ１２のそれぞれに対して、係り受け解析（Ｄｅｐｅｎｄｅｎｃｙｐａｒｓｉｎｇ）を実施する。係り受け解析は、文中の語の依存関係を解析する周知の自然言語処理技術である。

【0037】

ここで、図４を再び参照して、係り受け解析について簡単に説明する。図４に示される例では、係り受け解析の結果を示す有向グラフＤＰが示されている。有向グラフＤＰでは、文に対してルートとなる単語を設定して、単語間の依存関係が矢印により表されている。図４の例では、解析部１３は、動詞である単語ｗ２（ｐｒｅｆｅｒ）をルートに設定し、単語ｗ２から、その主語名詞に該当する単語ｗ１（Ｉ）に向かう有向グラフｄｐ２１を、関係性を示すタグ（ｎｓｕｂｊ）と共に設定する。

【0038】

同様に、解析部１３は、単語ｗ２から単語ｗ５に向かう有向グラフｄｐ２５、単語ｗ５から単語ｗ３に向かう有向グラフｄｐ５３、単語ｗ５から単語ｗ４に向かう有向グラフｄｐ５４、単語ｗ５から単語ｗ６に向かう有向グラフｄｐ５６、単語ｗ６から単語ｗ７に向かう有向グラフｄｐ６７を、それぞれの関係性を示すタグと共に設定する。

【0039】

再び図５を参照して、解析部１３は、係り受け解析により、第１の語ｖ１が第１の文ｄ１１におけるルートに該当し、第２の語ｖ２が第２の文ｄ１２におけるルートに該当することを判定する。そして、解析部１３は、第１の語ｖ１と第２の語ｖ２との間に、動詞且つルートに該当する語であるという特定の対応関係があることを判定する。

【0040】

ステップｇ１４，ｇ１５において、誤り生成部１４は、対応関係を有する第１の文中の第１の語及び第２の文中の第２の語のいずれか一方の語を、当該語と所定の関係を有し当該語と異なる他の語に置換する。ここでは、誤り生成部１４は、第１の語ｖ１及び第２の語ｖ２のいずれか一方の語を、当該語とは動詞の活用（Ｖｅｒｂｃｏｎｊｕｇａｔｉｏｎ）を異ならせた他の語に置換する。

【0041】

本実施形態では、誤り生成部１４は、辞書データ記憶部２３に記憶されている辞書データを参照して、動詞を置換する。図６は、動詞の活用形が原形に関連付けてグループ化された辞書データｄｃ１の例を示す図である。辞書データｄｃ１は、動詞「ｈａｖｅ」の活用形「ｈａｓ，ｈａｄ，ｈａｖｉｎｇ」を含む。

【0042】

ステップｇ１４において、誤り生成部１４は、辞書データｄｃ１の参照により、第１の語ｖ１（ｈａｓ）の置き換えの候補ｃｖ１（ｈａｖｅ，ｈａｄ，ｈａｖｉｎｇ）を認識できる。同様に、誤り生成部１４は、辞書データｄｃ１の参照により、第２の語ｖ２（ｌｏｖｅｓ）の置き換えの候補ｃｖ２（ｌｏｖｅ，ｌｏｖｅｄ）を認識できる。

【0043】

ステップｇ１５において、誤り生成部１４は、第１の語ｖ１及び第２の語ｖ２のうちのいずれの語を置換するかを確率的に決定する。即ち、誤り生成部１４は、設定された任意の確率に従って置換する語を決定してもよいし、置換する語をランダムに決定してもよい。図５の例では、誤り生成部１４は、第２の語ｖ２を置換することを決定する。

【0044】

そして、誤り生成部１４は、置き換えの候補ｃｖ２の中から置換に用いる語を確率的に決定する。即ち、誤り生成部１４は、設定された任意の確率に従って置換に用いる語を決定してもよいし、置換に用いる語をランダムに決定してもよい。図５の例では、誤り生成部１４は、第２の語ｖ２を、置き換えの候補ｃｖ２のうちの語ｖ３（ｌｏｖｅｄ）に置換する。そして、出力部１５は、置換した語ｖ３を誤りとして含む原文データを疑似データとして出力する。具体的には、出力部１５は、疑似データを疑似データ記憶部２２に記憶させる。

【0045】

このように、第１の文中の動詞と第２の文中の動詞との間の対応関係に基づいて、一方の動詞が、当該動詞の異なる活用形からなる他の動詞に置換される。これにより、第１の文と第２の文との間の動詞の整合性が崩される。従って、第１の文と第２の文との間の動詞に関する対応関係における誤りを含む疑似データを得ることが可能となる。

【0046】

図７は、代名詞の置換により疑似データを生成する処理の例を説明する図である。ステップｇ２１において、原文データ取得部１１は、原文データｄ２を取得する。原文データｄ２は、第１の文ｄ２１及び第２の文ｄ２２を含む。ステップｇ２２において、品詞判定部１２は、原文データｄ２に含まれる各語の品詞を判定し、品詞タグＰＴ２を各語に付与する。

【0047】

ステップｇ２３において、解析部１３は、原文データｄ２に対して共参照解析を実施する。共参照解析は、文書内の名詞、代名詞、固有名詞及び名詞句等のうち、同一の指示対象を指すものをグループ化する周知の解析技術である。

【0048】

図７に示す例では、解析部１３は、語ｗ２１（Ｍｙｓｉｓｔｅｒ）と語ｗ２３（Ｓｈｅ）とが同一の指示対象を指すものとしてグループｃｒ１を抽出し、語ｗ２２（ａｂｏｙｆｒｉｅｎｄ）と語ｗ２４（ｈｉｍ）とが同一の指示対象を指すものとしてグループｃｒ２を抽出する。即ち、解析部１３は、語ｗ２１と語ｗ２３との間に、同一の指示対象を指すという特定の対応関係があることを判定する。また、解析部１３は、語ｗ２２と語ｗ２４との間に、同一の指示対象を指すという特定の対応関係があることを判定する。

【0049】

ステップｇ２４において、誤り生成部１４は、グループｃｒ１及びグループｃｒ２のうちのいずれのグループに含まれる代名詞を置換するかを確率的に決定する。即ち、誤り生成部１４は、設定された任意の確率に従って置換する代名詞を決定してもよいし、置換する代名詞をランダムに決定してもよい。図７の例では、誤り生成部１４は、グループｃｒ２に含まれる代名詞ｐｒ１（ｗ２４）を置換することを決定する。

【0050】

誤り生成部１４は、辞書データ記憶部２３に記憶されている辞書データを参照して、代名詞を置換する。具体的には、同一の指示対象を指す第１の語及び第２の語のうちの、代名詞であるいずれか一方の語を、当該語の指示対象を指さない他の代名詞である他の語に置換する。

【0051】

図８は、代名詞の指示対象をカテゴリとするグループを記憶している辞書データｄｃ２の例を示す図である。図８に示されるように、辞書データｄｃ２は、例えば、一人称に関する代名詞「Ｉ，ｍｙ，ｍｅ，ｍｉｎｅ，ｍｙｓｅｌｆ」を含むグループを含む。

【0052】

誤り生成部１４は、辞書データｄｃ２の参照により、第２のグループｃｒ２に含まれる代名詞ｐｒ１（ｈｉｍ）が含まれる代名詞のグループ（グループ４）以外のグループの代名詞を、置き換え候補ｃｐ（ｈｅｒ，ｉｔ，ｔｈｅｍ等）を認識する。

【0053】

ステップｇ２５において、誤り生成部１４は、置き換え候補ｃｐの中から置換に用いる語を確率的に決定する。即ち、誤り生成部１４は、設定された任意の確率に従って置換に用いる語を決定してもよいし、置換に用いる語をランダムに決定してもよい。図７の例では、誤り生成部１４は、代名詞ｐｒ１、置き換え候補ｃｐのうちの代名詞ｐｒ２（ｔｈｅｍ）に置換する。そして、出力部１５は、置換した代名詞ｐｒ２を誤りとして含む原文データを疑似データとして出力する。具体的には、出力部１５は、疑似データを疑似データ記憶部２２に記憶させる。

【0054】

このように、共参照解析により、第１の文及び第２の文のそれぞれから、同一の指示対象を指す語の対が特定の対応関係を有する第１の語及び第２の語として抽出され、第１の語及び第２の語のうちのいずれか一方が、異なる指示対象を指す代名詞に置換される。これにより、第１の文と第２の文との間の名詞、固有名詞及び代名詞等に関する整合性が崩される。従って、第１の文と第２の文との間の名詞、固有名詞及び代名詞等に関する対応関係における誤りを含む疑似データを得ることが可能となる。

【0055】

なお、図７に示された例では、誤り生成部１４は、一の誤りを原文データに含ませることにより疑似データを生成する。即ち、誤り生成部１４は、グループｃｒ１及びグループｃｒ２のうちの一のグループであるグループｃｒ２に含まれる語ｗ２４を他の語に置換することにより原文データに誤りを含ませる。このように、一つの誤りが含められた疑似データを含む訓練データを用いた機械学習によりＧＥＣモデルが構成されることにより、その誤りに関する特徴を、ＧＥＣモデルに好適に反映できる。

【0056】

これに対して、誤り生成部１４は、複数の誤りを原文データに含ませることにより、疑似データを生成してもよい。図７に示された例に沿って説明すると、誤り生成部１４は、グループｃｒ１及びグループｃｒ２のそれぞれに含まれる語ｗ２３及び語ｗ２４を、それぞれ他の語に置換することにより原文データに複数の誤りを含ませてもよい。このように、一の疑似データに複数の誤りが含まれることにより、その疑似データを含む訓練データを用いた機械学習により、複数の誤りに関する学習が行われることになる。従って、ＧＥＣモデルを構成するための機械学習において、訓練データの総量を削減することが可能となる。

【0057】

図９は、接続詞の置換により疑似データを生成する処理の例を説明する図である。ステップｇ３１において、原文データ取得部１１は、原文データｄ３を取得する。原文データｄ３は、第１の文ｄ３１及び第２の文ｄ３２を含む。ステップｇ３２において、品詞判定部１２は、原文データｄ３に含まれる各語の品詞を判定し、品詞タグＰＴ３を各語に付与する。

【0058】

ステップｇ３３において、解析部１３は、品詞判定部１２による品詞の判定に基づいて、第１の文に連なる第２の文中の文頭に接続詞が含まれる場合に、第１の文と第２の文との間に特定の対応関係があることを判定する。図９に示す例では、解析部１３は、第２の文ｄ３２の文頭に接続詞ｃｊ１（Ｂｕｔ）が含まれることに基づいて、第１の文ｄ３１と第２の文ｄ３２との間に特定の対応関係があることを判定する。

【0059】

そして、誤り生成部１４は、種々の接続詞からなる接続詞群を含み辞書データ記憶部２３に記憶されている辞書データの参照により、接続詞ｃｊ１の置き換え候補ｃｃ１（ａｎｄ，ｂｅｃａｕｓｅ，ａｌｔｈｏｕｇｈ，等）を認識できる。

【0060】

ステップｇ３４において、誤り生成部１４は、置き換え候補ｃｃ１の中から置換に用いる語を確率的に決定する。即ち、誤り生成部１４は、設定された任意の確率に従って置換に用いる語を決定してもよいし、置換に用いる語をランダムに決定してもよい。図９の例では、誤り生成部１４は、接続詞ｃｊ１（Ｂｕｔ）を、置き換え候補ｃｃ１のうちの接続詞ｃｊ２（Ａｎｄ）に置換する。そして、出力部１５は、置換した接続詞ｃｊ２を誤りとして含む原文データを疑似データとして出力する。具体的には、出力部１５は、疑似データを疑似データ記憶部２２に記憶させる。

【0061】

このように、第１の文に連なる第２の文に含まれている接続詞が、異なる接続詞に置換または削除されることにより、第１の文と第２の文との間の接続に関する整合性が崩される。従って、第１の文と第２の文との間の接続に関する誤りを含む疑似データを得ることが可能となる。

【0062】

なお、ステップｇ３３において、解析部１３は、品詞判定部１２による品詞の判定に基づいて、第１の文に連なる第２の文中に接続詞が含まれていない場合に、第１の文と第２の文との間に、接続詞を介さずに接続されているという特定の対応関係があることを判定してもよい。

【0063】

この場合には、ステップｇ３４において、誤り生成部１４は、接続詞群を含む辞書データから、確率的に又はランダムに接続詞を抽出し、抽出した接続詞を第２の文の文頭に付加してもよい。そして、出力部１５は、付加された接続詞を誤りとして含む原文データを疑似データとして出力してもよい。

【0064】

このように、第１の文に接続詞を介することなく第２の文が連なる場合に、第２の文の文頭に接続詞が付加されることにより、第１の文と第２の文との間の接続に関する整合性が崩される。従って、第１の文と第２の文との間の接続に関する誤りを含む疑似データを得ることが可能となる。

【0065】

図１０は、疑似データ生成装置１０における疑似データ生成方法の処理内容を示すフローチャートである。

【0066】

ステップＳ１において、原文データ取得部１１は、第１の文と第２の文とを含む原文データを取得する。

【0067】

ステップＳ２において、品詞判定部１２は、原文データに含まれる各語の品詞を判定する。具体的には、品詞判定部１２は、原文データに含まれる各語に、語の品詞を示す品詞タグを付与する。

【0068】

ステップＳ３において、解析部１３は、動詞、代名詞及び接続詞のうちのいずれかに関する、原文データに含ませるための誤りを生成するかを確率的に決定する。即ち、解析部１３は、予め設定された任意の確率に従って、生成される誤りの種別を決定してもよいし、ランダムに誤りの種別を決定してもよい。

【0069】

ステップＳ４において、解析部１３は、原文データに含まれる第１の文又は第１の文中の語と、原文データに含まれる第２の文又は第２の文中の語との間における、ステップＳ３の決定に応じた所定の関係を解析する。

【0070】

ステップＳ５において、誤り生成部１４は、解析部１３により解析された所定の関係に基づいて、第１の文及び第２の文のうちのいずれか一方の文中の１以上の語を置換若しくは削除し、又は第１の文及び第２の文のうちのいずれか一方の文に１以上の語を追加することにより、動詞、代名詞及び接続詞のうちのいずれかに関する誤りを原文データに含ませる。

【0071】

ステップＳ６において、出力部１５は、誤りを含む原文データを疑似データとして出力する。

【0072】

次に、図１１を参照して、コンピュータを、本実施形態の疑似データ生成装置１０として機能させるための疑似データ生成プログラムについて説明する。

【0073】

図１１は、疑似データ生成プログラムの構成を示す図である。疑似データ生成プログラムＰ１は、疑似データ生成装置１０における疑似データ生成処理を統括的に制御するメインモジュールｍ１０、原文データ取得モジュールｍ１１、品詞判定モジュールｍ１２、解析モジュールｍ１３、誤り生成モジュールｍ１４及び出力モジュールｍ１５を備えて構成される。そして、各モジュールｍ１１～ｍ１５により、原文データ取得部１１、品詞判定部１２、解析部１３、誤り生成部１４及び出力部１５のための各機能が実現される。

【0074】

なお、疑似データ生成プログラムＰ１は、通信回線等の伝送媒体を介して伝送される態様であってもよいし、図１１に示されるように、記録媒体Ｍ１に記憶される態様であってもよい。

【0075】

以上説明した本実施形態の疑似データ生成装置１０、疑似データ生成方法及び疑似データ生成プログラムＰ１によれば、第１の文又は第１の文中の語と、第２の文又は第２の文中の語との間において見出された関係に応じて、第１の文及び第２の文のいずれか一方が変更される。これにより、第１の文と第２の文との整合性に関しての誤りを含む疑似データが得られる。従って、原文データと疑似データとのペアからなる訓練データを大量に得ることが可能となる。

【0076】

本開示に係る発明は、例えば、以下のように把握される。

【0077】

本開示の第１の一側面に係る疑似データ生成装置は、文に含まれる誤りを訂正するタスクの学習に用いるための疑似データを生成する疑似データ生成装置であって、複数の文からなる原文データに含まれる第１の文又は第１の文中の語と、原文データに含まれる第２の文又は第２の文中の語との間の所定の関係を解析する解析部と、関係に基づいて、第１の文及び第２の文のうちのいずれか一方の文中の１以上の語を置換若しくは削除し、又は第１の文及び第２の文のうちのいずれか一方の文に１以上の語を追加することにより、原文データに誤りを含ませる誤り生成部と、誤りを含む原文データを疑似データとして出力する出力部と、を備える。

【0078】

【0079】

第２の側面に係る疑似データ生成装置では、第１の側面に係る疑似データ生成装置において、原文データに含まれる各語の品詞を判定する品詞判定部、を更に備え、解析部は、第１の文中の語と第２の文中の語との間の品詞に関する特定の対応関係を解析し、誤り生成部は、対応関係を有する第１の文中の第１の語及び第２の文中の第２の語のいずれか一方の語を、当該語と異なる他の語に置換することとしてもよい。

【0080】

上記の側面によれば、第１の文中の語と第２の文中の語との間の品詞に関する特定の対応関係が解析され、対応関係に応じて、第１の文中の第１の語及び第２の文中の第２の語のいずれか一方の語が、当該語と所定の関係を有する他の語に置換される。これにより、第１の文と第２の文との間の整合性が崩される。従って、第１の文と第２の文との間の品詞に関する対応関係における誤りを含む疑似データを得ることが可能となる。

【0081】

第３の側面に係る疑似データ生成装置では、第２の側面に係る疑似データ生成装置において、解析部は、品詞判定部による品詞の判定に基づいて、第１の文中における動詞である語を第１の語とし、第２の文中における動詞である語を第２の語として、第１の語と第２の語との間に特定の対応関係があることを判定し、誤り生成部は、第１の語及び第２の語のいずれか一方の語を、当該語とは動詞の活用を異ならせた他の語に置換することとしてもよい。

【0082】

上記の側面によれば、第１の文中の動詞と第２の文中の動詞との間の対応関係に基づいて、一方の動詞が、当該動詞の異なる活用形からなる他の動詞に置換される。これにより、第１の文と第２の文との間の動詞の整合性が崩される。従って、第１の文と第２の文との間の動詞に関する対応関係における誤りを含む疑似データを得ることが可能となる。

【0083】

第４の側面に係る疑似データ生成装置では、第３の側面に係る疑似データ生成装置において、解析部は、文中の語の依存関係を解析する所定の係り受け解析により、第１の文及び第２の文のそれぞれにおいて、語間の依存関係におけるルートに該当する語を抽出し、動詞且つルートに該当する語を第１の語及び第２の語として、第１の語と第２の語との間に特定の対応関係があることを判定することとしてもよい。

【0084】

上記の側面によれば、第１の文及び第２の文に対する係り受け解析により、動詞間の特定の対応関係が適切に解析される。

【0085】

第５の側面に係る疑似データ生成装置では、第２の側面に係る疑似データ生成装置において、解析部は、品詞判定部による品詞の判定、並びに、文中における同一の指示対象を指す名詞、固有名詞及び代名詞のいずれかである語を抽出する所定の共参照解析に基づいて、第１の文及び第２の文のそれぞれから、同一の指示対象を指す語として抽出された語を、それぞれ第１の語及び第２の語として、第１の語と第２の語との間に特定の対応関係があることを判定し、誤り生成部は、第１の語及び第２の語のうちの、代名詞であるいずれか一方の語を、当該語の指示対象を指さない他の代名詞である他の語に置換することとしてもよい。

【0086】

上記の側面によれば、共参照解析により、第１の文及び第２の文のそれぞれから、同一の指示対象を指す語の対が特定の対応関係を有する第１の語及び第２の語として抽出され、第１の語及び第２の語のうちのいずれか一方が、異なる指示対象を指す代名詞に置換される。これにより、第１の文と第２の文との間の名詞、固有名詞及び代名詞等に関する整合性が崩される。従って、第１の文と第２の文との間の名詞、固有名詞及び代名詞等に関する対応関係における誤りを含む疑似データを得ることが可能となる。

【0087】

第６の側面に係る疑似データ生成装置では、第１の側面に係る疑似データ生成装置において、原文データに含まれる各語の品詞を判定する品詞判定部、を更に備え、解析部は、品詞判定部による品詞の判定に基づいて、第１の文に連なる第２の文中に接続詞が含まれる場合に、第１の文と第２の文との間に特定の対応関係があることを判定し、誤り生成部は、第２の文に含まれている接続詞を、当該接続詞とは異なる接続詞に置換又は削除することとしてもよい。

【0088】

上記の側面によれば、第１の文に連なる第２の文に含まれている接続詞が、異なる接続詞に置換または削除される。これにより、第１の文と第２の文との間の接続に関する整合性が崩される。従って、第１の文と第２の文との間の接続に関する誤りを含む疑似データを得ることが可能となる。

【0089】

第７の側面に係る疑似データ生成装置では、第１の側面に係る疑似データ生成装置において、原文データに含まれる各語の品詞を判定する品詞判定部、を更に備え、解析部は、品詞判定部による品詞の判定に基づいて、第１の文に連なる第２の文中に接続詞が含まれていない場合に、第１の文と第２の文との間に特定の対応関係があることを判定し、誤り生成部は、第２の文の文頭に、予め記憶している複数の接続詞のうちのいずれか一つの接続詞を付加することとしてもよい。

【0090】

上記の側面によれば、第１の文に接続詞を介することなく第２の文が連なる場合に、第２の文の文頭に接続詞が付加される。これにより、第１の文と第２の文との間の接続に関する整合性が崩される。従って、第１の文と第２の文との間の接続に関する誤りを含む疑似データを得ることが可能となる。

【0091】

第８の側面に係る疑似データ生成装置では、第１～７の側面のいずれか一つの側面に係る疑似データ生成装置において、誤り生成部は、一の誤りを原文データに含ませることとしてもよい。

【0092】

上記の側面によれば、一つの誤りが含められた疑似データを含む訓練データを用いた機械学習によりＧＥＣモデルが構成されることにより、その誤りに関する特徴が、ＧＥＣモデルに好適に反映される。

【0093】

第９の側面に係る疑似データ生成装置では、第１～７の側面のいずれか一つの側面に係る疑似データ生成装置において、誤り生成部は、複数の誤りを原文データに含ませることとしてもよい。

【0094】

上記の側面によれば、一の疑似データに複数の誤りが含まれることにより、その疑似データを含む訓練データを用いた機械学習により、複数の誤りに関する学習が行われることになる。従って、ＧＥＣモデルを構成するための機械学習において、訓練データの総量を削減することが可能となる。

【0095】

以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。

【0096】

情報の通知は、本開示において説明した態様／実施形態に限られず、他の方法を用いて行われてもよい。例えば、情報の通知は、物理レイヤシグナリング（例えば、ＤＣＩ（Downlink Control Information）、ＵＣＩ（Uplink Control Information））、上位レイヤシグナリング（例えば、ＲＲＣ（Radio Resource Control）シグナリング、ＭＡＣ（Medium Access Control）シグナリング、報知情報（ＭＩＢ（Master Information Block）、ＳＩＢ（System Information Block）））、その他の信号又はこれらの組み合わせによって実施されてもよい。また、ＲＲＣシグナリングは、ＲＲＣメッセージと呼ばれてもよく、例えば、ＲＲＣ接続セットアップ（RRC Connection Setup）メッセージ、ＲＲＣ接続再構成（RRC Connection Reconfiguration）メッセージなどであってもよい。

【0097】

本明細書で説明した各態様／実施形態は、ＬＴＥ（Long Term Evolution）、ＬＴＥ－Ａ（LTE-Advanced）、ＳＵＰＥＲ３Ｇ、ＩＭＴ－Ａｄｖａｎｃｅｄ、４Ｇ、５Ｇ、ＦＲＡ（Future Radio Access）、Ｗ－ＣＤＭＡ（登録商標）、ＧＳＭ（登録商標）、ＣＤＭＡ２０００、ＵＭＢ（Ultra Mobile Broadband）、ＩＥＥＥ８０２．１１（Ｗｉ－Ｆｉ）、ＩＥＥＥ８０２．１６（ＷｉＭＡＸ）、ＩＥＥＥ８０２．２０、ＵＷＢ（Ultra-WideBand）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、その他の適切なシステムを利用するシステム及び／又はこれらに基づいて拡張された次世代システムに適用されてもよい。また、複数のシステムが組み合わされて（例えば、ＬＴＥ及びＬＴＥ－Ａの少なくとも一方と５Ｇとの組み合わせ等）適用されてもよい。

【0098】

本明細書で説明した各態様／実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。

【0099】

本開示において基地局によって行われるとした特定動作は、場合によってはその上位ノード（upper node）によって行われることもある。基地局を有する１つ又は複数のネットワークノード（network nodes）からなるネットワークにおいて、端末との通信のために行われる様々な動作は、基地局及び基地局以外の他のネットワークノード（例えば、ＭＭＥ又はＳ－ＧＷなどが考えられるが、これらに限られない）の少なくとも１つによって行われ得ることは明らかである。上記において基地局以外の他のネットワークノードが１つである場合を例示したが、複数の他のネットワークノードの組み合わせ（例えば、ＭＭＥ及びＳ－ＧＷ）であってもよい。

【0100】

情報等（※「情報、信号」の項目参照）は、上位レイヤ（又は下位レイヤ）から下位レイヤ（又は上位レイヤ）へ出力され得る。複数のネットワークノードを介して入出力されてもよい。

【0101】

入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。

【0102】

判定は、１ビットで表される値（０か１か）によって行われてもよいし、真偽値（Boolean：trueまたはfalse）によって行われてもよいし、数値の比較（例えば、所定の値との比較）によって行われてもよい。

【0103】

本開示において説明した各態様／実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的に行うものに限られず、暗黙的（例えば、当該所定の情報の通知を行わない）ことによって行われてもよい。

【0104】

以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。

【0105】

ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

【0106】

また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線（ＤＳＬ）などの有線技術及び／又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び／又は無線技術は、伝送媒体の定義内に含まれる。

【0107】

本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。

【0108】

なお、本開示において説明した用語及び／又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。

【0109】

本明細書で使用する「システム」および「ネットワーク」という用語は、互換的に使用される。

【0110】

また、本明細書で説明した情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。例えば、無線リソースはインデックスによって指示されるものであってもよい。

【0111】

上述したパラメータに使用する名称はいかなる点においても限定的な名称ではない。さらに、これらのパラメータを使用する数式等は、本開示で明示的に開示したものと異なる場合もある。様々なチャネル（例えば、ＰＵＣＣＨ、ＰＤＣＣＨなど）及び情報要素は、あらゆる好適な名称によって識別できるので、これらの様々なチャネル及び情報要素に割り当てている様々な名称は、いかなる点においても限定的な名称ではない。

【0112】

本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)（例えば、テーブル、データベース又は別のデータ構造での探索）、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)（例えば、情報を受信すること）、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)（例えば、メモリ中のデータにアクセスすること）した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断（決定）」は、「想定する（assuming）」、「期待する（expecting）」、「みなす（considering）」などで読み替えられてもよい。

【0113】

本開示で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

【0114】

本明細書で「第１の」、「第２の」などの呼称を使用した場合においては、その要素へのいかなる参照も、それらの要素の量または順序を全般的に限定するものではない。これらの呼称は、２つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第１および第２の要素への参照は、２つの要素のみがそこで採用され得ること、または何らかの形で第１の要素が第２の要素に先行しなければならないことを意味しない。

【0115】

「含む（include）」、「含んでいる（including）」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または（or）」は、排他的論理和ではないことが意図される。

【0116】

本開示において、例えば、英語でのa, an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。

【0117】

本開示において、「ＡとＢが異なる」という用語は、「ＡとＢが互いに異なる」ことを意味してもよい。なお、当該用語は、「ＡとＢがそれぞれＣと異なる」ことを意味してもよい。「離れる」、「結合される」などの用語も、「異なる」と同様に解釈されてもよい。

【符号の説明】

【0118】

１…疑似データ生成システム、１０…疑似データ生成装置、１１…原文データ取得部、１２…品詞判定部、１３…解析部、１４…誤り生成部、１５…出力部、２１…原文データ記憶部、２２…疑似データ記憶部、２３…辞書データ記憶部、Ｍ１…記録媒体、ｍ１０…メインモジュール、ｍ１１…原文データ取得モジュール、ｍ１２…品詞判定モジュール、ｍ１３…解析モジュール、ｍ１４…誤り生成モジュール、ｍ１５…出力モジュール、Ｐ１…疑似データ生成プログラム。

【図1】