(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024177013
(43)【公開日】2024-12-19
(54)【発明の名称】日本語文書の剽窃有無を判断するための装置及び方法
(51)【国際特許分類】
G06F 40/253 20200101AFI20241212BHJP
G06F 40/289 20200101ALI20241212BHJP
【FI】
G06F40/253
G06F40/289
【審査請求】有
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023143772
(22)【出願日】2023-09-05
(31)【優先権主張番号】10-2023-0073755
(32)【優先日】2023-06-08
(33)【優先権主張国・地域又は機関】KR
(71)【出願人】
【識別番号】523156051
【氏名又は名称】ムハユ インコーポレーテッド
【氏名又は名称原語表記】muhayu Inc.
【住所又は居所原語表記】2F., 5 Seongsuil-ro 8-gil, Seongdong-gu, Seoul 04793 Republic of Korea
(74)【代理人】
【識別番号】100121382
【弁理士】
【氏名又は名称】山下 託嗣
(72)【発明者】
【氏名】キム,ボ ギョン
(72)【発明者】
【氏名】シン,ドン-ホ
(57)【要約】 (修正有)
【課題】日本語文書の剽窃有無を判断する日本語比較キーアルゴリズムを抽出する装置及び方法を提供する。
【解決手段】方法は、日本語の文字形態を基準として日本語の文章から個別の構文に対応するチャンクを抽出しS100、名詞辞書情報を用いてチャンクに含まれている複数の名詞を個別の名詞に分割しS200、分割された個別の名詞で助詞としての役割を担うひらがな文字以外の文字の間に配置されたひらがな文字を含むチャンクとひらがな文字に先行するチャンクとを統合しS300、文字に基づいて全角文字を生成しS400、繰り返し符号を繰り返し符号に対応する反復対象となる文字に置き換えS500、抽出されたチャンクのうち記号が含まれているチャンクを除外し、抽出されたチャンクのうち数字が含まれているチャンクを前のチャンクと統合しS700、処理済みのチャンクを剽窃検査で活用される比較キーとして生成するS800。
【選択図】
図2
【特許請求の範囲】
【請求項1】
日本語文書の剽窃有無を判断するための装置であって、
前記日本語文書の剽窃有無を判断するアルゴリズムに関するコードデータと、名詞辞書情報を含む名詞辞書データを格納するメモリと、
前記コードデータの前記アルゴリズムを用いて前記日本語文書の剽窃有無を判断するように構成されたプロセッサと、を含み、
前記プロセッサは、
前記日本語文書に記載された日本語の文字形態を基準として日本語の文章を構文単位に区分することによって、個別の構文に対応するチャンクを抽出し、
前記名詞辞書データの名詞辞書情報を用いて、前記チャンクに含まれている複数の名詞を個別の名詞に分割し、
分割された個別の名詞で助詞としての役割を担うひらがな文字以外の文字の間に配置された前記ひらがな文字を含むチャンクを、前記ひらがな文字に先行するチャンクと統合し、
前記日本語文書に記載された文字に基づいて全角文字を生成し、
前記日本語文書で繰り返される文字に該当する繰り返し符号を、前記繰り返し符号に対応する反復対象となる文字に置き換え、
抽出されたチャンクのうち記号が含まれているチャンクを除外処理し、
抽出されたチャンクのうち数字が含まれているチャンクを先行するチャンクと統合し、
処理済みのチャンクを剽窃検査で活用される比較キーとして生成することを特徴とする、装置。
【請求項2】
前記プロセッサは、
前記日本語文書に記載された前記日本語の前記文字形態であるひらがな、カタカナ、漢字、記号、及び数字を基準として前記日本語文書を個別の構文に区分することによって、前記チャンクを抽出することを特徴とする、請求項1に記載の装置。
【請求項3】
前記プロセッサは、
前記日本語文書に記載された複合名詞を個別の名詞単位に区分することを特徴とする、請求項2に記載の装置。
【請求項4】
前記プロセッサは、
前記助詞としての役割を担うひらがな1文字を含む1つのチャンクを区分する場合、前記ひらがな1文字に先行する前記ひらがな文字以外の文字に対するチャンクに前記1つのチャンクを含めることで、チャンクを統合することを特徴とする、請求項3に記載の装置。
【請求項5】
前記プロセッサは、
前記日本語文書に記載された半角文字の空白、カタカナ、記号、数字、及びアルファベットを前記全角文字に置き換えることを特徴とする、請求項4に記載の装置。
【請求項6】
前記プロセッサは、
2つ以上の繰り返し符号が前記日本語文書に記載された場合、前記2つ以上の繰り返し符号を全て前記2つ以上の繰り返し符号に先行する反復対象である文字に置き換え、
置き換えられた文字と先行する反復対象の文字を1つのチャンクに統合することを特徴とする、請求項5に記載の装置。
【請求項7】
前記繰り返し符号は、
のうちの少なくとも1つを含み、
前記プロセッサは、
前記繰り返し符号が用いられる場合、前記繰り返し符号を前記繰り返し符号の前に反復対象となる文字に置換処理することを特徴とする、請求項6に記載の装置。
【請求項8】
前記プロセッサは、
前記ひらがな文字を含むチャンクと前記ひらがな文字に先行するチャンクとを統合し、前記全角文字を生成し、前記繰り返し符号を前記文字に置き換えた後に、前記記号が含まれている前記チャンクを除外処理することを特徴とする、請求項7に記載の装置。
【請求項9】
前記プロセッサは、
前記記号が含まれている前記チャンクを除外処理した後に、前記数字が含まれているチャンクを先行するチャンクと統合することを特徴とする、請求項8に記載の装置。
【請求項10】
日本語文書の剽窃有無を判断するための方法であって、
前記日本語文書に記載された日本語の文字形態を基準として日本語の文章を構文単位に区分することによって、個別の構文に対応するチャンクを抽出する段階と、
名詞辞書データの名詞辞書情報を用いて、前記チャンクに含まれている複数の名詞を個別の名詞に分割する段階と、
分割された個別の名詞で助詞としての役割を担うひらがな文字以外の文字の間に配置された前記ひらがな文字を含むチャンクを、前記ひらがな文字に先行するチャンクと統合する段階と、
前記日本語文書に記載された文字に基づいて全角文字を生成する段階と、
前記日本語文書で繰り返される文字に該当する繰り返し符号を、前記繰り返し符号に対応する反復対象となる文字に置き換える段階と、
抽出されたチャンクのうち記号が含まれているチャンクを除外処理する段階と、
抽出されたチャンクのうち数字が含まれているチャンクを先行するチャンクと統合する段階と、
処理済みのチャンクを剽窃検査で活用される比較キーとして生成する段階とを含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、電子装置及びその動作方法に関する。より詳細には、本開示は日本語文書の剽窃有無を判断するための日本語比較キーアルゴリズムを抽出する装置及び方法に関する。
【背景技術】
【0002】
日本語比較キーの抽出は、日本語で作成された文書を比較対象文書と剽窃検査を行えるように文書から日本語比較キーを抽出する手法である。抽出された比較キーを基準として日本語文書同士の剽窃検査が可能である。
【0003】
韓国語や英語の場合、語節単位の区分である分かち書きを基準として比較キーを抽出し、これに合わせて比較対象文書と剽窃検査を行える。しかし、日本語は、表記法の特性上、分かち書きを使った語節単位を使わない。その代わりに、対応する概念である文節単位で構文分析を行うが、これは分かち書きで区分されず、品詞によって区分される。これにより、従来の分かち書きを基準とした比較キー抽出技術を適用できず、日本語の文節単位に合う新たな規則の定義が必要である。
【0004】
日本語の文節を基準として比較キーを抽出するためには、品詞を考慮して規則を定義しなければならないが、全ての日本語表現の品詞辞典の構築にはかなりの人的、時間的資源が必要であり、高い構築費用が必要であるという問題がある。また、言語は、新たな表現が常に新しく出現し、全ての表現に対応する品詞辞典の構築を通じた文節基準の比較キーの抽出は現実的に限界がある。
【0005】
日本の教育機関、研究機関など日本語文書を作成する環境で剽窃の問題が過去から継続的に問題視されている。特に、大学などの日本の教育機関において、学生らが作成する課題や卒業論文、研究者が作成する学術論文の剽窃問題は、マスコミにも話題となり、対策作りの必要性が日本社会で提起されてきた。
【0006】
世界的な科学学術雑誌である「Science」の科学論文撤回に関する内容が掲載されるサイトであるRetraction Watchでも、日本は論文の撤回が多い上位10人の研究者のうち50%を占めていると指摘されている。
【0007】
剽窃の問題は日本だけでなく、韓国を含む世界各国で問題となっており、これに対する対応として剽窃検査プログラムによるテキスト剽窃検知技術が発展しつつある。しかし、剽窃検査のために韓国語や英語圏で用いられる分かち書きを基準とした語節単位の比較キー抽出方法は、分かち書きを使わない日本語の言語環境には適用できない。
【先行技術文献】
【特許文献】
【0008】
【発明の概要】
【発明が解決しようとする課題】
【0009】
本開示は、上記事情に鑑みてなされたものであって、その目的は、語節に対応する概念である日本語の文節を基準とした比較キーの抽出によって日本語で書かれた著作物の剽窃技術の定義を設定するための装置及び方法を提供することにある。
【0010】
本開示が解決しようとする課題は、以上で言及した課題に限定されず、言及していない更に他の課題は、以下の記載から通常の技術者が明確に理解できるだろう。
【課題を解決するための手段】
【0011】
一側面において、本開示の日本語文書の剽窃有無を判断するための装置は、前記日本語文書の剽窃有無を判断するアルゴリズムに関するコードデータ、名詞辞書情報を含む名詞辞書データを格納するメモリ、及び前記コードデータの前記アルゴリズムを用いて前記日本語文書の剽窃有無を判断するように構成されたプロセッサを含む。前記プロセッサは、前記日本語文書に記載された日本語の文字形態を基準として日本語の文章を構文単位に区分することによって、個別の構文に対応するチャンクを抽出し、前記名詞辞書データの名詞辞書情報を用いて、前記チャンクに含まれている複数の名詞を個別の名詞に分割し、分割された個別の名詞で助詞としての役割を担うひらがな文字以外の文字の間に配置された前記ひらがな文字を含むチャンクを、前記ひらがな文字に先行するチャンクと統合し、前記日本語文書に記載された文字に基づいて全角文字を生成し、前記日本語文書で繰り返される文字に該当する繰り返し符号を、前記繰り返し符号に対応する反復対象となる文字に置き換え、抽出されたチャンクのうち記号が含まれているチャンクを除外処理し、抽出されたチャンクのうち数字が含まれているチャンクを先行するチャンクと統合し、処理済みのチャンクを剽窃検査で活用される比較キーとして生成する。
【0012】
他の側面において、本開示の日本語文書の剽窃有無を判断するための方法は、前記日本語文書に記載された日本語の文字形態を基準として日本語の文章を構文単位に区分することによって、個別の構文に対応するチャンクを抽出する段階、前記名詞辞書データの名詞辞書情報を用いて、前記チャンクに含まれている複数の名詞を個別の名詞に分割する段階、分割された個別の名詞で助詞としての役割を担うひらがな文字以外の文字の間に配置された前記ひらがな文字を含むチャンクを、前記ひらがな文字に先行するチャンクと統合する段階、前記日本語文書に記載された文字に基づいて全角文字を生成する段階、前記日本語文書で繰り返される文字に該当する繰り返し符号を、前記繰り返し符号に対応する反復対象となる文字に置き換える段階、抽出されたチャンクのうち記号が含まれているチャンクを除外処理する段階、抽出されたチャンクのうち数字が含まれているチャンクを先行するチャンクと統合する段階、及び処理済みのチャンクを剽窃検査で活用される比較キーとして生成する段階を含む。
【発明の効果】
【0013】
本開示によると、人的及び時間的資源を削減し、剽窃有無をより正確に判断し、飛躍的に過検知の発生確率を下げ、合理的な剽窃検査を可能にするという効果がある。
【0014】
本開示の効果は、以上で言及した効果に限定されず、言及していない更に他の効果は、以下の記載から通常の技術者が明確に理解できるだろう。
【図面の簡単な説明】
【0015】
【
図3】本開示の日本語文書の剽窃有無を判断するための日本語比較キーアルゴリズムを抽出する例示的な実施例を説明する図である。
【発明を実施するための形態】
【0016】
本開示の全体に亘って同一の参照符号は、同一の構成要素を示す。本開示が実施例の全ての要素を説明するものではなく、本開示の属する技術分野における一般的な内容又は実施例において重複する内容は省略する。明細書で用いられる「部、モジュール、部材、ブロック」という用語は、ソフトウェア又はハードウェアとして実現でき、実施例によって複数の「部、モジュール、部材、ブロック」が1つの構成要素として実現されるか、1つの「部、モジュール、部材、ブロック」が複数の構成要素を含むこともできる。
【0017】
明細書全体において、ある部分が他の部分と「接続」されているとするとき、これは直接的に接続されている場合だけでなく、間接的に接続されている場合を含み、間接的な接続は、無線通信網を介して接続されることを含む。
【0018】
また、ある部分がある構成要素を「含む」とするとき、これは特に反対の記載がない限り、他の構成要素を除外するものではなく、他の構成要素を更に含むことができることを意味する。
【0019】
明細書全体において、ある部材が他の部材の「上に」位置しているとするとき、これはある部材が他の部材に接している場合だけでなく、両部材の間に別の部材が存在する場合も含む。
【0020】
第1、第2などの用語は、1つの構成要素を他の構成要素から区別するために用いられるものであって、構成要素が前述した用語によって制限されるものではない。
【0021】
単数の表現は文脈上、明確に例外がない限り、複数の表現を含む。
【0022】
各段階における参照符号は説明の便宜上、用いられるものであって、参照符号は、各段階の順序を説明するものではなく、各段階は文脈上、明確に特定の順序を記載しない限り、明記された順序と異なって実施できる。
【0023】
以下、添付の図面を参照して、本開示の作用原理及び実施例について説明する。
【0024】
本明細書における「本開示に係る装置」は、演算処理を行ってユーザに結果を提供できる多様な装置が全て含まれる。例えば、本開示に係る装置は、コンピュータ、サーバ装置及び携帯用端末を全て含むか、又は何れか1つの形態になり得る。
【0025】
ここで、前記コンピュータは、例えば、ウェブブラウザ(WEB Browser)が搭載されたノートパソコン、デスクトップ(desktop)、ラップトップ(laptop)、タブレットPC、スレートPCなどを含むことができる。
【0026】
前記サーバ装置は、外部装置と通信を行って情報を処理するサーバであって、アプリケーションサーバ、コンピューティングサーバ、データベースサーバ、ファイルサーバ、ゲームサーバ、メールサーバ、プロキシサーバ及びウェブサーバなどを含むことができる。
【0027】
前記携帯用端末は、例えば、携帯性と移動性が保障される無線通信装置であって、PCS(Personal Communication System)、GSM(Global System for Mobile communications)、PDC(Personal Digital Cellular)、PHS(Personal Handyphone System)、PDA(Personal Digital Assistant)、IMT(International Mobile Telecommunication)-2000、CDMA(Code Division Multiple Access)-2000、W-CDMA(W‐Code Division Multiple Access)、WiBro(Wireless Broadband Internet)端末、スマートフォン(Smart Phone)などのようなあらゆる種類のハンドヘルド(Handheld)基盤の無線通信装置と時計、指輪、ブレスレット、アンクレット、ネックレス、メガネ、コンタクトレンズ又は頭部装着型装置(head-mounted-device(HMD))などのようなウェアラブルデバイスを含むことができる。
【0028】
本開示に係る人工知能に関する機能は、プロセッサとメモリによって動作する。プロセッサは、1つ又は複数のプロセッサで構成されることができる。このとき、1つ又は複数のプロセッサは、CPU、AP、DSP(Digital Signal Processor)などのような汎用プロセッサ、GPU、VPU(Vision Processing Unit)のようなグラフィック専用のプロセッサ又はNPUのような人工知能専用のプロセッサであり得る。1つ又は複数のプロセッサは、メモリに格納された既に定義された動作規則又は人工知能モデルによって、入力データを処理するように制御する。または、1つ又は複数のプロセッサが人工知能専用のプロセッサである場合、人工知能専用のプロセッサは、特定の人工知能モデルの処理に特化したハードウェア構造に設計できる。
【0029】
【0030】
図1を参照すると、本開示の装置100は、日本語文書の剽窃有無を判断するための比較キーを生成し、日本語文書の剽窃率を算出できる。比較キーは、剽窃検査に用いられるものであり得る。装置100は、剽窃検査のための比較キー抽出方式を利用して、語節の区分点である分かち書きを基準として比較キーを抽出できる。韓国語や英語において意味のある構文を区分するための分かち書きが使用され得る。これに対し、日本語では分かち書きが用いられず、意味が容易に把握できるように、ひらがな、カタカナ、漢字が混用されている。意味のある構文を区分するために、日本語でひらがな、カタカナ、漢字が混用されるものの、文字の形態のみでは日本語の意味分節基準に完全に合致していないこともある。従って、装置100は、日本語の特性を考慮して日本語の文節及び/又は日本語の文字形態を基準として比較キーを抽出し、別途の比較キー抽出条件を適用して日本語の文節概念に近接する規則を定義して比較キーを抽出できる。
【0031】
装置100は、入力部110、通信部120、制御部130、音響出力部140、及びディスプレイ部150などを含むことができる。
【0032】
入力部110は、映像情報(又は信号)、オーディオ情報(又は信号)、データ、又はユーザから入力される情報の入力のためのものであって、少なくとも1つのカメラ、少なくとも1つのマイクロフォン及びユーザ入力部のうちの少なくとも1つを含むことができる。入力部110で収集した音声データやイメージデータは分析され、ユーザの制御命令で処理できる。
【0033】
通信部120は、外部装置と通信を可能にする1つ以上の構成要素を含むことができ、例えば有線通信モジュール121及び無線通信モジュール122のうちの少なくとも1つを含むことができる。
【0034】
有線通信モジュール121は、構内ネットワーク(Local Area Network;LAN)モジュール、広域ネットワーク(Wide Area Network;WAN)モジュール又は付加価値通信(Value Added Network;VAN)モジュールなど多様な有線通信モジュールだけでなく、USB(Universal Serial Bus)、HDMI(High Definition Multimedia Interface)(登録商標)、DVI(Digital Visual Interface)、RS-232(recommended standard 232)、電力線通信、 又はPOTS(plain old telephone service)など多様なケーブル通信モジュールを含むことができる。
【0035】
無線通信モジュール122は、ワイファイ(Wifi)(登録商標)モジュール、ワイブロ(Wireless broadband)モジュール以外にも、GSM(Global System for Mobile Communication)、CDMA(登録商標)(Code Division Multiple Access)、WCDMA(登録商標)(Wideband Code Division Multiple Access)、UMTS(universal mobile telecommunications system)、TDMA(Time Division Multiple Access)、LTE(Long Term Evolution)、4G、5G、6Gなど多様な無線通信方式を支援する無線通信モジュール122を含むことができる。
【0036】
無線通信モジュール122は、アンテナ及び無線通信インターフェースを含むことができる。また、無線通信モジュール122は、制御部の制御によって無線通信インターフェースを介して制御部から出力されたデジタル制御信号をアナログ形態の無線信号に変調及び/又は無線通信インターフェースを介して受信したアナログ形態の無線信号をデジタル制御信号に復調するための信号変換モジュールを更に含むことができる。
【0037】
制御部130は、装置100内の構成要素の動作を制御するためのアルゴリズム又はアルゴリズムを再現したプログラムに対するデータを格納するメモリ131、及びメモリ131に格納されたデータを用いて前述した動作を行う少なくとも1つのプロセッサ132を含むことができる。このとき、メモリ131とプロセッサ132は、それぞれ別のチップとして実現できる。または、メモリ131とプロセッサ132は、単一のチップとして実現することもできる。
【0038】
メモリ131は、装置100の多様な機能を支援するデータと、制御部130の動作のためのプログラムを格納でき、入出力されるデータ(例えば、音楽ファイル、静止画、動画など)を格納でき、装置100で駆動される複数のアプリケーションプログラム(application program又はアプリケーション(application))、装置100の動作のためのデータ、命令語を格納できる。これらのアプリケーションプログラムのうちの少なくとも一部は、無線通信を介して外部サーバからダウンロードできる。このようなメモリ131は、フラッシュメモリタイプ(flash memory type)、ハードディスクタイプ(hard disk type)、SSDタイプ(Solid State Disk type)、SDDタイプ(Silicon Disk Drive type)、マルチメディアカードマイクロタイプ(multimedia card micro type)、カード型メモリ(例えば、SD又はXDメモリなど)、ラム(random access memory;RAM)、SRAM(static random access memory)、ロム(read-only memory;ROM)、EEPROM(electrically erasable programmable read-only memory)、PROM(programmable read-only memory)、磁気メモリ、磁気ディスク及び光ディスクのうちの少なくとも1つのタイプの格納媒体を含むことができる。また、メモリ131は、装置100とは分離されているが、有線又は無線で接続されたデータベースになることもできる。
【0039】
メモリ131は、日本語文書の剽窃有無を判断するアルゴリズムに関するコードデータを格納できる。また、メモリ131は、名詞辞書情報を含む名詞辞書データを格納できる。名詞辞書情報は、名詞辞書に関する情報を含むことができる。
【0040】
プロセッサ132は、コードデータのアルゴリズムを用いて前記日本語文書の剽窃有無を判断するように構成できる。
【0041】
プロセッサ132は、日本語の文字形態を基準として比較キーを抽出できる。例えば、プロセッサ132は、日本語文書でひらがな、カタカナ、漢字、記号及び数字のそれぞれをチャンク(chunk)単位に区分できる。他の例として、プロセッサ132は、日本語文書に記載された日本語の文字形態を基準として日本語文章を構文単位に区分することによって、個別の構文に対応するチャンクを抽出できる。
【0042】
プロセッサ132は、名詞辞書を適用できる。例えば、プロセッサ132は、1つのチャンク単位に複数の名詞が含まれる場合、個別の名詞に分けてチャンクを細分化できる。他の例として、プロセッサ132は、名詞辞書データの名詞辞書情報を用いて、前記チャンクに含まれている複数の名詞を個別の名詞に分割できる。
【0043】
プロセッサ132は、ひらがな1文字の比較キーを統合的に処理できる。例えば、プロセッサ132は、助詞としての役割を担うひらがな1文字を前の構文と共にグルーピングして区分できる。他の例として、プロセッサ132は、分割された個別の名詞で助詞としての役割を担うひらがな文字以外の文字の間に配置された前記ひらがな文字を含むチャンクを、前記ひらがな文字に先行するチャンクと統合できる。
【0044】
プロセッサ132は、半角文字を全角文字に置き換えることができる。例えば、プロセッサ132は、前記日本語文書に記載された文字に基づいて全角文字を生成できる。他の例として、プロセッサ132は、同一の文字(全角文字及び/又は半角文字)や文字の幅が異なる場合があるので、これを全角文字に置き換えることができる。例えば、日本語文書に半角カタカナで「サイト」が含まれている場合、半角カタカナの「サイト」は全角文字である「サイト」に置換処理できる。しかし、これに限定されるものではなく、日本語以外の記号、数字なども全角文字に置き換えるための対象に含めることができる。
【0045】
プロセッサ132は、繰り返し符号に該当する文字をその意味に該当する文字に置き換えることができる。例えば、プロセッサ132は、繰り返し文字であることを意味する繰り返し符号を前の文段の同一の文字に置き換えることができる。他の例として、プロセッサ132は、日本語文書で繰り返される文字に該当する繰り返し符号を、前記繰り返し符号に対応する反復対象となる文字に置き換えることができる。
【0046】
プロセッサ132は、記号の比較キーを除く処理動作を行える。例えば、文章に記号が含まれる場合、プロセッサ132は、文章に含まれている記号を1つのチャンクと認めず、抽出されたチャンクのうち記号を含むチャンクを除外させることができる。
【0047】
プロセッサ132は、数字の比較キーを統合的に処理できる。例えば、プロセッサ132は、文章に数字が含まれている場合、抽出されたチャンクのうち数字を含むチャンクを数字の前のチャンクに含めることによって、抽出されたチャンクのうち数字が含まれているチャンクを先行するチャンクと統合できる。
【0048】
プロセッサ132は、前述した動作によって処理済みのチャンクを、剽窃検査で活用される比較キーとして生成できる。
【0049】
音響出力部140は、通信部120を介して受信されるか、又はメモリ131に格納されたオーディオデータを出力するか、装置100で行われる機能に関連する音響信号を出力できる。このような音響出力部140には、アンプ141及びスピーカ142などを含めることができる。
【0050】
ディスプレイ部150は、装置100で処理される情報を表示(出力)する。例えば、ディスプレイ部150は、装置100で駆動されるアプリケーションプログラム(一例として、アプリケーション)の実行画面情報、又はこのような実行画面情報によるUI(User Interface)、GUI(Graphic User Interface)情報を表示できる。ディスプレイ部150は、ディスプレイ動作を制御するディスプレイドライバ151及び映像を表示するディスプレイパネル152を含むことができる。
【0051】
【0052】
図1及び
図2を参照すると、日本語文書の剽窃有無を判断するための方法は、段階S100、段階S200、段階S300、段階S400、段階S500、段階S600、段階S700、及び段階S800を含むことができる。
【0053】
段階S100において、制御部130は、日本語文書に記載された日本語の文字形態を基準として日本語文章を構文単位に区分することによって、個別の構文に対応するチャンクを抽出できる。
【0054】
段階S200において、制御部130は、名詞辞書データの名詞辞書情報を用いて、前記チャンクに含まれている複数の名詞を個別の名詞に分割できる。
【0055】
段階S300において、制御部130は、分割された個別の名詞で助詞としての役割を担うひらがな文字以外の文字の間に配置された前記ひらがな文字を含むチャンクを、前記ひらがな文字に先行するチャンクと統合できる。
【0056】
段階S400において、制御部130は、日本語文書に記載された日本語以外の文字に基づいて全角文字を生成できる。段階S400と他の実施例において、制御部130は、日本語文書に記載された日本語を含む全ての文字に基づいて全角文字を生成することもできる。例えば、日本語文書に半角カタカナで「サイト」が含まれている場合、半角カタカナの「サイト」を全角文字である「サイト」に置換できる。
【0057】
段階S500において、制御部130は、日本語文書で繰り返される文字に該当する繰り返し符号を、前記繰り返し符号に対応する反復対象となる文字に置き換えることができる。
【0058】
段階S600において、制御部130は、抽出されたチャンクのうち記号が含まれているチャンクを除外処理できる。
【0059】
段階S700において、制御部130は、抽出されたチャンクのうち数字が含まれているチャンクを先行するチャンクと統合できる。
【0060】
段階S800において、制御部130は、処理済みのチャンクを剽窃検査で活用される比較キーとして生成できる。
【0061】
図3は、本開示の日本語文書の剽窃有無を判断するための日本語比較キーアルゴリズムを抽出する例示的な実施例を説明する図である。
【0062】
図1、
図2及び
図3を参照すると、
図3に示す実施例は、任意の日本語文章(EXAMPLE SENTENCE)が第1ないし第7段階(STEP1、STEP2、STEP3、STEP4、STEP5、STEP6、STEP7)によって処理され、日本語文章(EXAMPLE SENTENCE)に対する比較キーを抽出することを示すことができる。
図3の任意の日本語文章(EXAMPLE SENTENCE)は、「比較キー抽出対象文章」と称することができる。このような任意の日本語文章(EXAMPLE SENTENCE)に対する比較キーが
図3に示す矢印方向に沿って各段階別にどのように抽出されるかを確認できる。
【0063】
第1ないし第7段階(STEP1、STEP2、STEP3、STEP4、STEP5、STEP6、STEP7)は、
図2の段階S100ないし段階S700に対応し得る。
【0064】
第1段階(STEP1)において、プロセッサ132は、日本語の文字形態を基準として比較キーを抽出できる。即ち、プロセッサ132は、日本語文書においてひらがな、カタカナ、漢字、記号、数字を基準としてそれぞれをチャンク(chank)単位に区分して比較キーを抽出する。例えば、プロセッサ132は、日本語文書に記載された前記日本語の前記文字形態であるひらがな、カタカナ、漢字、記号、及び数字を基準として前記日本語文章を個別の構文に区分することで、前記チャンクを抽出できる。具体的に説明すると、日本語文章(EXAMPLE SENTENCE)が日本語の文字形態を基準として小さな構文単位に区分できる。日本語の文字形態は、例えば、「ひらがな」、「カタカナ」、「漢字」、「記号」、「数字」などを含むことができる。このように分けられた個別の構文は、チャンク(chunk)と称することができる。各チャンクが次に続く第1ないし第7段階(STEP1、STEP2、STEP3、STEP4、STEP5、STEP6、STEP7)を経た後、各チャンクに対する比較キーを生成できる。第1段階(STEP1)において、日本語文章(EXAMPLE SENTENCE)の一部である「世界的な科学学術誌が数々ある」を、「/」記号を基準として、「世界的/な/科学学術誌/が/数々/ある」 と区分できる。
【0065】
第2段階(STEP2)において、プロセッサ132は、前記日本語文書に記載された複合名詞を個別の名詞単位に区分できる。即ち、プロセッサ132は、名詞辞書を適用できる。具体的に説明すると、第1段階(STEP1)で抽出されたチャンクは、日本語の文字形態の基準にのみ区分されたため、日本語の文節基準とは異なる。例えば、前記例示的な日本語文章(EXAMPLE SENTENCE)の一部(「世界的な科学学術誌が数々ある」)を基準として「科学学術誌」のような複合名詞は「科学」、「学術誌」のように個別の名詞単位に区分できる。そして、複合名詞がこのように個別の名詞単位に区分されるとき、日本語の文節概念に合致する区分基準になり得る。従って、プロセッサ132は、日本語の文字形態別にのみ区分されたチャンク単位に名詞辞書を適用して、1つのチャンク単位に複数の名詞が含まれる場合、プロセッサ132は、複合名詞を個別の名詞に分けてチャンクを細分化できる。第2段階(STEP2)において、日本語文章(EXAMPLE SENTENCE)の一部である「世界的な科学学術誌が数々ある」を、「/」記号を基準として、「世界的/な/科学/学術誌/が/数々/ある」と区分できる。
【0066】
第3段階(STEP3)において、プロセッサ132は、ひらがな1文字の比較キーを統合処理できる。例えば、プロセッサ132は、前記助詞としての役割を担うひらがな1文字を含む1つのチャンクが区分される場合、前記ひらがな1文字に先行する前記ひらがな文字以外の文字に対するチャンクに前記1つのチャンクを含めることで、チャンクを統合できる。具体的に説明すると、第1及び第2段階(STEP1、STEP2)が行われた後、助詞としての役割を担うひらがな1文字が1つのチャンクに区分される場合が発生し得る。これは、助詞であるひらがな1文字がひらがな以外の文字形態の間にあり、1つのチャンクに区分される場合に該当し得る。従って、日本語の文節概念によっては、助詞であるひらがな1文字は1つの構文に区分されず、前の構文と共にグルーピングして区分されなければならない。そのため、ひらがな1文字が他の形態の文字形態の間にある場合には、プロセッサ132は、ひらがな1文字のチャンクをひらがな1文字のチャンクの前にあるチャンクに含めて1つのチャンクに統合処理できる。第3段階(STEP3)で前述した規則が適用されると、前の例文(例えば、「世界的な科学学術誌が数々ある」 )における「世界的」と「な」が「世界的な」に統合され、「学術誌」と「が」が「学術誌が」に統合されることができる。即ち、日本語文章(EXAMPLE SENTENCE)の一部である「世界的な科学学術誌が数々ある」を、「/」記号を基準として、「世界的な/科学/学術誌が/数々/ある」 と区分できる。
【0067】
第4段階(STEP4)において、プロセッサ132は、半角文字を全角文字に置換処理できる。例えば、プロセッサ132は、前記日本語文書に記載された半角文字の空白、カタカナ、記号、数字、及びアルファベットを全角文字に置き換えることができる。具体的に説明すると、日本語だけでなく、英語、数字などは文字の幅を基準として半角文字と全角文字とに分けられる。このような文字は、同一の文字であるが、文字の幅のみ異なるので、剽窃検査環境では、このような文字を同一の文字と認識する必要がある。従って、半角の空白、カタカナ、記号、数字、アルファベットは、全角文字に置換処理されることができる。第4段階(STEP4)において、日本語文章(EXAMPLE SENTENCE)の一部である「掲載されるサイトである」内の半角文字である「サイト」を全角文字の「サイト」に置換処理できる。
【0068】
第5段階(STEP5)において、プロセッサ132は、繰り返し符号(踊り字)に対応する文字の同一の文字に置換処理されることができる。例えば、プロセッサ132は、2つ以上の繰り返し符号が前記日本語文書に記載される場合、前記2つ以上の繰り返し符号を全て前記2つ以上の繰り返し符号に先行する反復対象である文字に置き換え、置き換えられた文字と先行する反復対象の文字を1つのチャンクに統合できる。具体的に説明すると、日本語では繰り返される文字が作成されるとき、同一の文字が重複して作成されず、繰り返される文字は、繰り返し文字であることを意味する繰り返し符号に置き換わって作成される。繰り返し符号は、以下のうちの少なくとも1つを含むことができる。
繰り返し符号が用いられる場合、繰り返し符号は、繰り返し符号の前の反復対象となる文字に置換処理できる。状況に応じて適切な繰り返し符号を表記できる。しかし、このような繰り返し符号を用いる場合もあれば、用いずに同一の文字を重複して作成する場合もある。繰り返し符号を用いた場合と用いない場合は表記方法に差があるだけで、同一の文字を意味するので、剽窃検査環境では、繰り返し符号使用の単語又は繰り返し符号未使用の単語を同一の文字と認識する必要がある。従って、プロセッサ132は、繰り返し符号が用いられた場合、繰り返し符号を前の反復対象となる文字に置換処理できる。例えば、「人々」において繰り返し符号である「々」は、前の文字である「人」 を意味するので、プロセッサ 132は「人々」を 「人人」に置き換えることができる。繰り返し符号が2つ以上用いられた場合にも、2つ以上の繰り返し符号を、前述したように、実際に意味を持つ文字に置き換えることができる。例えば、「部分々々」において繰り返し符号である「々々」は、それぞれ前の文字である 「部分」を意味するので、「部分々々」は 「部分部分」に置き換えることができる。最終的に、プロセッサ132は、繰り返し符号を用いた場合と繰り返し符号を用いなかった場合を同一の文字と認識できる。繰り返し符号は、上位規則(例えば、第1ないし第4段階(STEP1、STEP2、STEP3、STEP4))によると、独立した1つのチャンクに区分されるので、繰り返し符号(又は繰り返し符号のチャンク)日本語の文節概念に合致せず、過度にチャンク数を増やす要因になり得る。このような繰り返し符号は、実際に意味を持つ前の文字に置き換えられるので、実際に意味を持つ文字と繰り返し符号が1つのチャンクに統合的に処理することができる。これは繰り返し符号を用いる場合に対しても、日本語の文節概念に合致するようにチャンクを区分できるようにする効果を奏する。第5段階(STEP5)において、日本語文章(EXAMPLE SENTENCE)の一部である「数々ある『Scince』の」内で繰り返し符号が含まれている「数々」を「数数」に置換処理できる。
【0069】
第6段階(STEP6)において、プロセッサ132は、記号の比較キー又は記号のチャンクを除外できる。例えば、前記プロセッサ132は、前記ひらがな文字を含むチャンクと前記ひらがな文字に先行するチャンクとを統合し、前記全角文字を生成し、前記繰り返し符号を前記文字に置き換えた後に、前記記号が含まれている前記チャンクを除外処理できる。具体的に説明すると、文章に記号が含まれている場合、第1段階(STEP1)で記号も1つのチャンクに区分できる。しかし、剽窃検査環境で用いられた記号の種類が異なるか、使用可否が異なっても、本文の内容を中心にテキストの一致有無を検出する必要がある。第1ないし第5段階(STEP1、STEP2、STEP3、STEP4、STEP5)によって区分されたチャンクに記号が含まれている場合、プロセッサ132は、記号を含むチャンクを1つのチャンクと認めず、除外できる。第6段階(STEP6)において、日本語文章(EXAMPLE SENTENCE)の一部である「数々ある『Scince』の」を、「/」記号を基準として、「数数/ある/Scinceの/」と区分できる。
【0070】
第7段階(STEP7)において、前記プロセッサ132は、前記記号が含まれている前記チャンクを除外処理した後に、前記数字が含まれているチャンクを先行するチャンクと統合できる。具体的に説明すると、文章に数字が含まれている場合、第1段階(STEP1)で数字も1つのチャンクに区分できる。しかし、数字が頻繁に用いられる文章で全ての数字が1つのチャンクにそれぞれ区分されれば、剽窃検査環境では、過度に剽窃と認識される場合が発生する恐れがある。同一の数字を用いる場合は多いので、数字を単独のチャンクに区分すると、不要にチャンク数が増える場合が発生し得る。従って、第1ないし第6段階(STEP1、STEP2、STEP3、STEP4、STEP5、STEP6)によって区分されたチャンクに数字が含まれている場合、数字が含まれているチャンクは、数字が含まれているチャンクの前にあるチャンクに含まれることによって、1つのチャンクに統合できる。第7段階(STEP7)において、日本語文章(EXAMPLE SENTENCE)の一部である「論文撤回が多い上位10人の」を、「/」記号を基準として、「論文撤回が/多い/上位10/人の/」と区分できる。
【0071】
図3に示す実施例のように、日本語の文章が、第1ないし第7段階(STEP1、STEP2、STEP3、STEP4、STEP5、STEP6、STEP7)によって、複数のチャンク単位に区分されることができる。第1ないし第7段階(STEP1、STEP2、STEP3、STEP4、STEP5、STEP6、STEP7)によって生成されたチャンクの状態は、日本語の文節概念に対応し得る。そして、抽出されたチャンクは、剽窃検査で活用する比較キーとして使用できる。特定の日本語文書を比較対象となる複数の日本語文書と比較しようとするとき、人の肉眼で文書の内容を比較して剽窃の可能性を判別することは人的、時間的限界がある。このような限界を解決するために、機械的に文書を比較する必要がある。そのためには、文書を互いに比較できるように文書単位から比較キー単位に小さく区分する必要がある。このとき、本開示の比較キー抽出方法が活用できる。分かち書きを用いない言語から比較キーを抽出するとき、通常、優先的に考えられる方法は、単純に文字(character)を基準として比較キーを抽出することである。即ち、1つの文字を1つの比較キーで区分する方法がある。しかし、このような文字基準の比較キーを抽出する方式は、複数の文字が1つの意味を持つ単語である場合などを無視して単に文字さえ一致すれば、剽窃の疑いと検出できる。結果として、剽窃検査の結果において、剽窃ではないのに剽窃と疑う、納得し難い剽窃の過検知が発生する可能性が高い。本開示に係る比較キーを抽出する方法は、
図3に示すような第1ないし第7段階(STEP1、STEP2、STEP3、STEP4、STEP5、STEP6、STEP7)を利用して日本語の文節概念に合致するように比較キーを抽出できる。このような比較キーを抽出する方法が複数の日本語文書に適用されることによって、比較キー同士で剽窃検査が行われると、どの文書でどのような内容が剽窃の疑いに該当するかが比較キー単位で確認できる。人の肉眼でいちいち比較し難い大量の剽窃検査にも本開示の比較キーを抽出する方法が適用されれば、機械的に比較キーを抽出して剽窃検査が行われるので、人的、時間的限界を解決できる。また、本開示の比較キーを抽出する方法は、日本語の文節概念と極めて類似する単位で比較キーを抽出するので、剽窃検査時に意味を持つ単語などの単位で比較キーを比較でき、文字単位よりも飛躍的に過検知の発生確率が低くなり、合理的な剽窃検査を可能にするという効果がある。
【0072】
一方、開示された実施例は、コンピュータによって実行可能な命令語を格納する記録媒体の形態で実現できる。命令語は、プログラムコードの形態で格納でき、プロセッサによって実行されたとき、プログラムモジュールを生成して開示された実施例の動作を行える。記録媒体は、コンピュータで読み取れる記録媒体として実現できる。
【0073】
コンピュータが読み取れる記録媒体としては、コンピュータによって解読できる命令語が格納されたあらゆる種類の記録媒体を含む。例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、磁気テープ、磁気ディスク、フラッシュメモリ、光データ格納装置などがあり得る。
【0074】
以上のように、添付の図面を参照して開示された実施例を説明した。本開示の属する技術分野における通常の知識を有する者は、本開示の技術的思想や必須な特徴を変更することなく、開示された実施例とは異なる形態に本開示が実施され得ることが理解できるだろう。開示された実施例は、例示的なものであり、限定的に解釈されてはならない。