(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024132766
(43)【公開日】2024-10-01
(54)【発明の名称】引用文献の妥当性及び有効性を検証する装置、システム及びその方法
(51)【国際特許分類】
G06F 16/332 20190101AFI20240920BHJP
【FI】
G06F16/332
【審査請求】有
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023071373
(22)【出願日】2023-04-25
(11)【特許番号】
(45)【特許公報発行日】2024-09-19
(31)【優先権主張番号】10-2023-0035296
(32)【優先日】2023-03-17
(33)【優先権主張国・地域又は機関】KR
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 1.朝鮮日報 オンラインニュース(2022年4月26日付)「ムハユ、引用・参考文献間の真偽可否検証技術の開発」(https://it.chosun.com/si2022.04te/data/html_dir/2022/04/26/2022042601661.html) 2.ソウル経済 オンラインニュース(2022年5月24日付)「ムハユ「コピーキラー」、論文内注・脚注引用も追跡…正しい引用表記を助ける」(https://www.sedaily.com/NewsView/2663EX1NTU) 3.電子新聞etnews オンラインニュース(2022年6月27日付)「ムハユ コピーキラー,引用・出典表記エラー探知技術の開発」(https://www.etnews.com/20220627000113) 4.ムハユ インコーポレーテッドのブログ内の記事(2022年5月16日付)「コピーキラーは盗作率を下げる小細工?もう全て探し出せます。」(https://blog.naver.com/muhayuin/222734729170) 5.ムハユ インコーポレーテッドのブログ内の記事(2022年9月16日付)「コピーキラーが教えてくれる引用と参考文献の交差検討『参考文献は多いほど良いか?』」(https://blog.naver.com/muhayuin/222876419017)
(71)【出願人】
【識別番号】523156051
【氏名又は名称】ムハユ インコーポレーテッド
【氏名又は名称原語表記】muhayu Inc.
【住所又は居所原語表記】2F., 5 Seongsuil-ro 8-gil, Seongdong-gu, Seoul 04793 Republic of Korea
(74)【代理人】
【識別番号】100121382
【弁理士】
【氏名又は名称】山下 託嗣
(72)【発明者】
【氏名】パク,ヘリン
(72)【発明者】
【氏名】ホン,ジョンホ
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA01
(57)【要約】
【課題】多様な実施例に係る検証装置によって行われる引用文献の妥当性及び有効性を検証する方法を提供する。
【解決手段】前記方法は、引用文献の表記方式のパターン辞書を生成する段階と、前記入力部から得られた対象文書から参考文献領域を抽出する段階と、前記対象文書の本文中で被引用文献の一部を引用した部分である引用文句と、前記被引用文献に関連する情報である引用情報を含む引用領域を抽出する段階と、前記引用領域及び前記参考文献領域の書誌情報を抽出する段階と、前記引用領域の書誌情報と前記参考文献領域の書誌情報が一致するか否かに関連する引用の妥当性を検証する段階と、前記引用文句が前記被引用文献に記載されているか否かに関連する引用の有効性を検証する段階と、を含むことができる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
引用文献の引用の妥当性及び引用の有効性を検証する装置において、
パターン辞書を格納する格納部と、
制御部と、
入力部と、
通信部と、
前記制御部の動作を制御するプロセッサと、を含み、
前記プロセッサは、
引用文献の表記方式のパターン辞書を生成し、
辞書定義規則に基づいて、前記入力部から得られた対象文書から参考文献領域を抽出し、
前記パターン辞書に基づいて、前記対象文書の本文中で被引用文献の一部を引用した引用文句と前記被引用文献に関連する情報である引用情報を含む引用領域を抽出し、
指定された規則基盤アルゴリズムに基づいて、前記引用領域及び前記参考文献領域の書誌情報を抽出し、
ディープラーニングにより学習された書誌情報抽出人工知能モデルを用いて、抽出した書誌情報と指定された規則基盤アルゴリズムに基づいて抽出した書誌情報とを比較して前記書誌情報を検証し、前記引用領域の書誌情報と前記参考文献領域の書誌情報が一致するか否かに関連する前記引用の妥当性を検証し、
前記引用文句が前記被引用文献に記載されているか否かに関連する前記引用の有効性を検証する、
装置。
【請求項2】
前記引用文献の表記方式のパターン辞書は、
外部文献の内容が引用されたことを示す少なくとも1つの引用文献の表記方式パターンで構成され、
前記引用文献の表記方式のパターンは、引用情報及び参考文献情報の構成、前記構成の区分記号、情報の種類を指示する指定された文字列、指定された表記規則のうちの少なくとも1つを含むことを特徴とする請求項1に記載の装置。
【請求項3】
前記プロセッサは、
前記辞書定義規則に基づいて、前記対象文書から参考文献領域の開始点と最後の地点を探し、前記開始点から前記最後の地点までを前記参考文献領域として抽出し、
自然言語処理技術に基づいて、前記対象文書の本文中のテキストを語節又は記号単位で分離し、前記パターン辞書に含まれている引用パターンと一致する領域を引用領域として抽出し、
前記指定された規則基盤アルゴリズムに基づいて、前記参考文献領域及び前記引用領域の書誌情報を抽出することを特徴とする請求項2に記載の装置。
【請求項4】
前記プロセッサは、
前記書誌情報に基づいて、前記通信部を用いてサーバに前記書誌情報に対応する被引用文献を検索し、
前記検索した被引用文献を前記通信部を介して取得し、
前記引用文句と前記被引用文献の表面的な一致性を確認し、
前記引用文句と前記被引用文献の意味的な類似性を確認して、
前記引用文句が前記被引用文献に記載されているか否かに関連する引用の有効性を検証することを特徴とする請求項3に記載の装置。
【請求項5】
引用文献の妥当性及び有効性を検証するシステムにおいて、
少なくとも1つの被引用文献を格納するサーバと、
対象文書と、
検証装置と、を含み、
前記検証装置は、
引用文献の表記方式のパターン辞書を生成し、
前記対象文書から参考文献領域を抽出し、
前記対象文書の本文中に前記被引用文献の一部を引用した部分である引用文句と前記被引用文献に関連する情報である引用情報を含む引用領域を抽出し、
前記引用領域及び前記参考文献領域の書誌情報を抽出し、
前記引用領域の書誌情報と前記参考文献領域の書誌情報が一致するか否かに関連する引用の妥当性を検証し、
前記サーバを用いて前記引用文句が前記被引用文献に記載されているか否かに関連する引用の有効性を検証する、
システム。
【請求項6】
検証装置によって行われる引用文献の引用の妥当性及び引用の有効性を検証する方法において、
引用文献の表記方式のパターン辞書を生成する段階と、
対象文書から参考文献領域を抽出する段階と、
前記対象文書の本文中で被引用文献の一部を引用した部分である引用文句と前記被引用文献に関連する情報である引用情報を含む引用領域を抽出する段階と、
前記引用領域及び前記参考文献領域の書誌情報を抽出する段階と、
ディープラーニングにより学習された書誌情報抽出人工知能モデルを用いて、抽出した書誌情報と指定された規則基盤アルゴリズムに基づいて抽出した書誌情報とを比較して前記書誌情報を検証する段階と、
前記引用領域の書誌情報と前記参考文献領域の書誌情報が一致するか否かに関連する前記引用の妥当性を検証する段階と、
前記引用文句が前記被引用文献に記載されているか否かに関連する前記引用の有効性を検証する段階と、
を含む方法。
【請求項7】
前記引用文献の表記方式のパターン辞書は、
外部文書の内容が引用されたことを指示する少なくとも1つの引用文献の表記方式パターンで構成され、
前記引用文献の表記方式のパターンは、引用情報及び参考文献情報の構成、前記構成の区分記号、情報の種類を指示する指定された文字列、指定された表記規則のうちの少なくとも1つを含む、ことを特徴とする請求項6に記載の方法。
【請求項8】
前記参考文献領域を抽出する段階は、辞書定義規則に基づいて、前記対象文書から参考文献領域の開始点と最後の地点を探して前記開始点から前記最後の地点までを前記参考文献領域として抽出する段階を含み、
前記引用領域を抽出する段階は、自然言語処理技術に基づいて、前記対象文書の本文中のテキストを語節又は記号単位で分離し、前記パターン辞書に含まれている引用パターンと一致する領域を引用領域として抽出する段階を含み、
前記書誌情報を抽出する段階は、指定された規則基盤アルゴリズムに基づいて、前記参考文献領域及び前記引用領域の書誌情報を抽出する段階を含むことを特徴とする請求項7に記載の方法。
【請求項9】
前記引用の有効性を検証する段階は、
前記書誌情報に基づいて、サーバに前記書誌情報に対応する被引用文献を検索する段階と、
前記検索した被引用文献を取得する段階と、
前記引用文句と前記被引用文献の表面的な一致性を確認する段階と、
前記引用文句と前記被引用文献の意味的な類似性を確認する段階と、を含むことを特徴とする請求項8に記載の方法。
【請求項10】
請求項6~請求項9のうちの何れかの1項に記載の引用文献の妥当性及び有効性を検証する方法を実行させるためにコンピュータ読み取り可能な記録媒体に格納されたプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、引用文献の妥当性及び有効性を検証する装置、システム及び方法に関する。より詳細には、本開示は、対象文献の本文中の引用領域に記載されている被引用文献の情報と参考文献領域に記載されている被引用文献の情報が一致するか否か、並びに引用領域及び参考文献領域に記載されている被引用文献の情報がサーバに格納された被引用文献の情報と一致するか否かを検証する装置、システム及びその方法に関する。
【背景技術】
【0002】
研究不正行為の代表的な類型として、偽造、剽窃などがある。剽窃の場合、剽窃予防検索サービスといったシステムによって剽窃率を確認することで、剽窃を予防することが可能である。
【0003】
剽窃予防検索サービスを通じて有名人の学位論文が剽窃であることが明らかになり、社会的に剽窃問題の深刻性が再び浮上し、これにより、小学校・中学校・高等学校・大学で生徒や学生らが作成する宿題、小論文、学位論文だけでなく、研究機関で作成される研究報告書など各種文書の作成者は、最終提出前に剽窃検査を通じて本人の文書を点検し、剽窃検査結果確認書の提出時に特定数値以内の文書を提出することを義務付けた。
【0004】
しかし、剽窃予防検索サービスは、研究者が、本人が作成した研究成果物と他の文書との類似度を判断する補助手段であるにも拘らず、剽窃率の数値さえ合っていると、研究倫理が充足するものと見る雰囲気が一般化している。
【0005】
剽窃率の数値を下げるために、不要に多くの文章を引用したり、実際に引用していない文章に引用表記をしたりするなど剽窃予防検索システムを悪意に活用する場合が発生した。また、著名な研究者の論文を参考にしているかのように見せるために、虚偽で参考文献を表記する事例が増加した。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】韓国公開特許10‐2010‐006623号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
従来技術の場合は、APAスタイルで作成された文献を本文と参考文献パートとに分け、本文パートに含まれている引用領域と参考文献が交差するか否かを確認することによって妥当性の検証を行うが、有効性の検証は行わない。上記特許文献の場合、入力文献をパーシングして参考文献領域を決定し、各参考文献を抽出して書誌情報、要約、原文などから主題語を抽出及び比較して閾値を基に関連性及び適合性を判断する内容を開示するが、記載した引用文献が実際の被引用文献に記載されているかを確認する内容は開示しない。この場合、虚偽で参考文献を表記する事例を探知できず、引用された文章が実際の参考文献に作成されたか否かを確認することはできない。
【0008】
また、各機関、学会ごとに主に作成される出典の表記方式が異なるため、APAスタイルで作成された文献のみを対象とするため、Chicago、Vancouver、MLAスタイルなどで作成された多様な文書の妥当性を判断することに限界がある。
【0009】
本開示は上記事情に鑑みてなされたものであって、その目的は、引用表記及び参考文献の表記パターン辞書を構築し、パターン辞書に基づいて文書中の引用領域及び参考文献の書誌情報を抽出し、抽出した書誌情報に基づいて引用文献の妥当性及び有効性を検証する装置、システム及び方法を提供することにある。
【0010】
本開示が解決しようとする課題は、以上で言及した課題に限定されず、言及していない更に他の課題は、以下の記載から通常の技術者が明確に理解できるだろう。
【課題を解決するための手段】
【0011】
上述した技術的課題を達成するための本開示に係る引用文献の引用の妥当性及び引用の有効性を検証する装置は、パターン辞書を格納する格納部と、制御部と、入力部と、通信部と、前記制御部の動作を制御するプロセッサとを含み、前記プロセッサは、引用文献の表記方式のパターン辞書を生成し、辞書定義規則に基づいて、前記入力部から得られた対象文書から参考文献領域を抽出し、前記パターン辞書に基づいて、前記対象文書の本文中で被引用文献の一部を引用した引用文句と前記被引用文献に関連する情報である引用情報を含む引用領域を抽出し、指定された規則基盤アルゴリズムに基づいて、前記引用領域及び前記参考文献領域の書誌情報を抽出し、ディープラーニングにより学習された書誌情報抽出人工知能モデルを用いて抽出した書誌情報と前記指定された規則基盤アルゴリズムに基づいて抽出した書誌情報とを比較して前記書誌情報を検証し、前記引用領域の書誌情報と前記参考文献領域の書誌情報が一致するか否かに関連する前記引用の妥当性を検証し、前記引用文句が前記被引用文献に記載されているか否かに関連する前記引用の有効性を検証できる。
【0012】
また、上述した技術的課題を達成するための本開示に係る引用文献の妥当性及び有効性を検証するシステムは、少なくとも1つの被引用文献を格納するサーバと、対象文書と、検証装置とを含み、前記検証装置は引用文献の表記方式のパターン辞書を生成し、前記対象文書から参考文献領域を抽出し、前記対象文書の本文中に前記被引用文献の一部を引用した部分である引用文句と前記被引用文献に関連する情報である引用情報を含む引用領域を抽出し、前記引用領域及び前記参考文献領域の書誌情報を抽出し、前記引用領域の書誌情報と前記参考文献領域の書誌情報が一致するか否かに関連する引用の妥当性を検証し、前記サーバを用いて前記引用文句が前記被引用文献に記載されているか否かに関連する引用の有効性を検証できる。
【0013】
更に、上述した技術的課題を達成するための本開示に係る検証装置によって行われる引用文献の引用の妥当性及び引用の有効性を検証する方法は、引用文献の表記方式のパターン辞書を生成する段階と、対象文書から参考文献領域を抽出する段階と、前記対象文書の本文中で被引用文献の一部を引用した部分である引用文句と前記被引用文献に関連する情報である引用情報を含む引用領域を抽出する段階と、前記引用領域及び前記参考文献領域の書誌情報を抽出する段階と、ディープラーニングにより学習された書誌情報抽出人工知能モデルを用いて抽出した書誌情報と指定された規則基盤アルゴリズムに基づいて抽出した書誌情報とを比較して前記書誌情報を検証する段階と、前記引用領域の書誌情報と前記参考文献領域の書誌情報が一致するか否かに関連する前記引用の妥当性を検証する段階と、前記引用文句が前記被引用文献に記載されているか否かに関連する前記引用の有効性を検証する段階とを含むことができる。
【0014】
この他にも、本開示を実現するためのコンピュータ読み取り可能な記録媒体に格納されたコンピュータプログラムを更に提供できる。
【0015】
この他にも、本開示を実現するための方法を実行するためのコンピュータプログラムを記録するコンピュータ読み取り可能な記録媒体を更に提供できる。
【発明の効果】
【0016】
本開示の前述した課題解決手段によれば、検証装置はパターン辞書を生成し、指定された引用表記する方式の他にも多様な形態の引用表記方式に対して対象文書の引用の妥当性と引用の有効性を検証する効果を提供する。
【0017】
本開示の前述した課題解決手段によれば、検証装置は、対象文書に記載されている引用文句が被引用文献に実在するか否かを確認できる。
【0018】
本開示の効果は、以上で言及した効果に制限されず、言及していない更に他の効果は、以下の記載から通常の技術者が明確に理解できるだろう。
【図面の簡単な説明】
【0019】
【
図1】引用文献の真偽を検証するシステムに関連する図である。
【
図3】本開示の検証装置が引用文献の真偽を検証する動作のフローチャートである。
【
図4】本開示の検証装置が動作1040において、書誌情報を抽出する方法の例を示す図である。
【
図5】本開示の検証装置が動作1060において、引用の妥当性を検証する方法の例を示す図である。
【
図6】本開示の検証装置が動作1070において、引用の有効性を検証する方法の具体的な動作のフローチャートを示す図である。
【発明を実施するための形態】
【0020】
本開示の全体に亘って同一の参照符号は、同一の構成要素を示す。本開示が実施例の全ての要素を説明するものではなく、本開示の属する技術分野における一般的な内容又は実施例において重複する内容は省略する。明細書で用いられる「部、モジュール、部材、ブロック」という用語は、ソフトウェア又はハードウェアにより実現でき、実施例によって複数の「部、モジュール、部材、ブロック」が1つの構成要素として実現されるか、1つの「部、モジュール、部材、ブロック」が複数の構成要素を含むこともできる。
【0021】
明細書全体において、ある部分が他の部分と「接続」されているとするとき、これは直接的に接続されている場合だけでなく、間接的に接続されている場合を含み、間接的な接続は無線通信網を介して接続されることを含む。
【0022】
また、ある部分がある構成要素を「含む」とするとき、これは特に反対の記載がない限り、他の構成要素を除外するものではなく、他の構成要素を更に含むことができることを意味する。
【0023】
明細書全体において、ある部材が他の部材の「上に」位置するとき、これはある部材が他の部材に接している場合だけでなく、両部材の間に更に他の部材が存在する場合も含む。
【0024】
第1、第2などの用語は、1つの構成要素を他の構成要素から区別するために用いられるものであって、構成要素が前述した用語によって制限されるものではない。
【0025】
単数の表現は文脈上、明確に例外がない限り、複数の表現を含む。
【0026】
各段階における識別符号は説明の便宜上、用いられるものであって、識別符号は、各段階の順序を説明するものではなく、各段階は文脈上、明確に特定の順序を記載しない限り、明記された順序と異なって実施され得る。
【0027】
以下、添付の図面を参照して、本開示の作用原理及び実施例について説明する。
【0028】
本明細書における「本開示に係る装置」には、演算処理を行ってユーザに結果を提供できる多様な装置が全て含まれる。例えば、本開示に係る装置は、コンピュータ、サーバ装置及び携帯用端末を全て含むか、又は何れか1つの形態になり得る。
【0029】
ここで、前記コンピュータは、例えば、ウェブブラウザ(WEB Browser)が搭載されたノートパソコン、デスクトップ(desktop)、ラップトップ(laptop)、タブレットPC、スレートPCなどを含むことができる。
【0030】
前記サーバ装置は、外部装置と通信を行って情報を処理するサーバであって、アプリケーションサーバ、コンピューティングサーバ、データベースサーバ、ファイルサーバ、ゲームサーバ、メールサーバ、プロキシサーバ及びウェブサーバなどを含むことができる。
【0031】
前記携帯用端末は、例えば、携帯性と移動性が保障される無線通信装置であって、PCS(Personal Communication System)、GSM(Global System for Mobile Communications)、PDC(Personal Digital Cellular)、PHS(Personal Handyphone System)、PDA(Personal Digital Assistant)、IMT(International Mobile Telecommunication)-2000、CDMA(Code Division Multiple Access)-2000、W-CDMA(W‐Code Division Multiple Access)、WiBro(Wireless Broadband Internet)端末、スマートフォン(Smart Phone)などのようなあらゆる種類のハンドヘルド(Handheld)基盤の無線通信装置と時計、指輪、ブレスレット、アンクレット、ネックレス、メガネ、コンタクトレンズ又は頭部装着型装置(head‐mouted‐device(HMD))などのようなウェアラブルデバイスを含むことができる。
【0032】
本開示に係る人工知能に関連する機能は、プロセッサとメモリによって動作する。プロセッサは、1つ又は複数のプロセッサで構成できる。このとき、1つ又は複数のプロセッサは、CPU、AP、DSP(Digital Signal Processor)などのような汎用プロセッサ、GPU、VPU(Vision Processing Unit)のようなグラフィック専用プロセッサ又はNPUのような人工知能専用プロセッサであり得る。1つ又は複数のプロセッサは、メモリに格納された既に定義された動作規則又は人工知能モデルに従って、入力データを処理するように制御する。または、1つ又は複数のプロセッサが人工知能専用プロセッサの場合、人工知能専用プロセッサは、特定の人工知能モデルの処理に特化したハードウェア構造で設計できる。
【0033】
既に定義された動作規則又は人工知能モデルは、学習により生成されることを特徴とする。ここで、学習により生成されるということは、基本的な人工知能モデルが学習アルゴリズムによって多数の学習データを用いて学習されることによって、所望の特性(又は目的)を実行するように設定された既に定義された動作規則又は人工知能モデルが生成されることを意味する。このような学習は、本開示に係る人工知能が実行される機器自体で行われることもでき、別途のサーバ及び/又はシステムによって行われることもできる。学習アルゴリズムの例としては、教師あり学習(supervised learning)、教師なし学習(unsupervised learning)、半教師あり学習(semi-supervised learning)又は強化学習(reinforcement learning)があるが、前述した例に限定されない。
【0034】
人工知能モデルは、複数のニューラルネットワークレイヤとして構成できる。複数のニューラルネットワークレイヤのそれぞれは、複数の重み値(weight values)を有しており、以前(previous)レイヤの演算結果と複数の重み値間の演算を通じてニューラルネットワーク演算を行う。複数のニューラルネットワークレイヤが有している複数の重み値は、人工知能モデルの学習結果によって最適化できる。例えば、学習過程中に人工知能モデルで取得したロス(loss)値又はコスト(cost)値が減少又は最小化されるように複数の重み値を更新できる。人工ニューラルネットワークは、ディープニューラルネットワーク(DNN:Deep Neural Network)を含むことができ、例えばCNN(Convolutional Neural Network)、DNN(Deep Neural Network)、RNN(Recurrent Neural Network)、RBM(Restricted Boltzmann Machine)、DBN(Deep Belief Network)、BRDNN(Bidirectional Recurrent Deep Neural Network)又はディープQ-ネットワーク(Deep Q-Networks)などがあるが、前述した例に限定されない。
【0035】
本開示の例示的な実施例によれば、プロセッサは、人工知能を実現できる。人工知能とは、人の神経細胞(biological neuron)を模写して機械が学習するようにする人工ニューラルネットワーク(Artificial Neural Network)基盤の機械学習法を意味する。人工知能の方法論には、学習方式によってトレーニングデータとして入力データと出力データが共に提供されることによって、問題(入力データ)の解答(出力データ)が決まっている教師あり学習(supervised learning)、及び出力データなしで入力データのみが提供されて問題(入力データ)の解答(出力データ)が決まっていない教師なし学習(unsupervised learning)、及び現在の状態(State)で何らかの行動(Action)を取る度に外部環境で補償(Reward)が与えられるが、このような補償を最大化する方向で学習を行う強化学習(reinforcement learning)に分けられる。また、人工知能の方法論は、学習モデルの構造であるアーキテクチャによっても区分できるが、広く用いられるディープラーニング技術のアーキテクチャは、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)、回帰型ニューラルネットワーク(RNN:Recurrent Neural Network)、トランスフォーマ(Transformer)、敵対的生成ネットワーク(GAN:generative adversarial networks)などに区分できる。
【0036】
本装置とシステムは、人工知能モデルを含むことができる。人工知能モデルは1つの人工知能モデルとでき、複数の人工知能モデルとして実現することもできる。人工知能モデルは、ニューラルネットワーク(又は人工神経網)で構成でき、機械学習と認知科学における生物学の神経を模倣した統計学的学習アルゴリズムを含むことができる。ニューラルネットワークは、シナプスの結合によりネットワークを形成した人工ニューロン(ノード)が学習を通じてシナプスの結合強度を変化させて、問題解決能力を持つモデル全般を意味し得る。ニューラルネットワークのニューロンは、重み値又はバイアスの組み合わせを含むことができる。ニューラルネットワークは、1つ以上のニューロン又はノードで構成された1つ以上のレイヤ(layer)を含むことができる。一例として、装置は入力層(input layer)、隠れ層(hidden layer)、出力層(output layer)を含むことができる。装置を構成するニューラルネットワークは、ニューロンの重み値を学習によって変化させることによって、任意の入力(input)から予測しようとする結果(output)を推論できる。
【0037】
プロセッサは、ニューラルネットワークを生成するか、ニューラルネットワークをトレーニング(training)、又は学習(learn)するか、受信する入力データを基に演算を行い、実行結果を基に情報信号(information signal)を生成するか、ニューラルネットワークを再トレーニング(retraining)できる。ニューラルネットワークのモデルは、GoogleNet、AlexNet、VGG NetworkなどのようなCNN(Convolution Neural Network)、R-CNN(Region with Convolution Neural Network)、RPN(Region Proposal Network)、RNN(Recurrent Neural Network)、S-DNN(Stacking-based deep Neural Network)、S-SDNN(State-Space Dynamic Neural Network)、 Deconvolution Network、DBN(Deep Belief Network)、RBM(Restrcted Boltzman Machine)、Fully Convolutional Network、LSTM(Long Short-Term Memory)Network、Classification Networkなど多様な種類のモデルを含むことができるが、これに制限されるものではない。プロセッサは、ニューラルネットワークのモデルによる演算を行うための1つ以上のプロセッサを含むことができる。例えば、ニューラルネットワークは、ディープニューラルネットワーク(Deep Neural Network)を含むことができる。
【0038】
ニューラルネットワークは、CNN(Convolutional Neural Network)、RNN(Recurrent Neural Network)、パーセプトロン(perceptron)、多層パーセプトロン(multilayer perceptron)、FF(Feed Forward)、RBF(Radial Basis Network)、DFF(Deep Feed Forward)、LSTM(Long Short Term Memory)、GRU(Gated Recurrent Unit)、AE(Auto Encoder)、VAE(Variational Auto Encoder)、DAE(Denoising Auto Encoder)、SAE(Sparse Auto Encoder)、MC(Markov Chain)、HN(Hopfield Network)、BM(Boltzmann Machine)、RBM(Restricted Boltzmann Machine)、DBN(Deep Belief Network)、DCN(Deep Convolutional Network)、DN(Deconvolutional Network)、DCIGN(Deep Convolutional Inverse Graphics Network)、GAN(Generative Adversarial Network)、LSM(Liquid State Machine)、 ELM(Extreme Learning Machine)、ESN(Echo State Network)、DRN(Deep Residual Network)、DNC(Differentiable Neural Computer)、NTM(Neural Turning Machine)、CN(Capsule Network)、KN(Kohonen Network)、及びAN(Atention Network)を含むことができるが、 これに限定されるものではなく、任意のニューラルネットワークを含むことができることは通常の技術者が理解するだろう。
【0039】
本開示の例示的な実施例によれば、プロセッサはGoogleNet、AlexNet、VGG NetworkなどのようなCNN(Convolution Neural Network)、R-CNN(Region with Convolution Neural Network)、RPN(Region Proposal Network)、RNN(Recurrent Neural Network)、S-DNN(Stacking-based Deep Neural Network)、S-SDNN(State-Space Dynamic Neural Network)、Deconvolution Network、DBN(Deep Belief Network)、RBM(Restrcted Boltzman Machine)、Fully Convolutional Network、LSTM(Long Short-Term Memory)Network、Classification Network、Generative Modeling、eXplainable AI、Continual AI、Representation Learning、AI for Material Design、自然言語処理のためのBERT、SP‐BERT、MRC/QA、Text Analysis、Dialog System、GPT-3、GPT-4、ビジョン処理のためのVisual Analytics、Visual Understanding、Video Synthesis、ResNetデータ知能のためのAnomaly Detection、Prediction、Time-Series Forecasting、Optimization、Recommendation、Data Creationなど多様な人工知能構造及びアルゴリズムを用いることができ、これに制限されない。以下、添付の図面を参照して本開示の実施例を詳細に説明する。
【0040】
対象文書は、検証装置が引用の妥当性及び引用の有効性を検証する対象となる文献であり得る。対象文書は、ある主題に関する情報、内容、データ又は記録を含む書面又は電子的な形態のファイルであって、単行本、学位論文、ジャーナル論文、雑誌記事、新聞記事、報告書、その他のオンライン資料のように多様な形式があり得る。
【0041】
被引用文献は、対象文書から引用した文句の元の出典となる文献であり得る。
【0042】
引用領域は、他の文書から引用した内容と該当内容が引用されたことを表示する領域であり、参考文献領域は、引用した文書(被引用文書)の情報を記載する領域であり得る。引用領域は、対象文書の本文中で被引用文献の一部を引用した部分である引用文句と被引用文献に関連する情報である引用情報を含むことができる。
【0043】
図1は、引用文献の真偽を検証するシステムに関連する図である。
【0044】
図1を参照すると、引用文献の真偽を検証するシステムは、検証対象文書10、対象文書10から引用した被引用文献20の真偽を検証する検証装置100及び被引用文献20の情報を格納するサーバ200を含むことができる。
【0045】
対象文書10は、ある主題に関する情報、内容、データ又は記録を含む書面又は電子的な形態のファイルであって、単行本、学位論文、ジャーナル論文、雑誌記事、新聞記事、報告書、その他のオンライン資料のように多様な形式があり得る。対象文書10は、本文中に他の文書(被引用文書)の一部の内容を引用でき、多様な引用文献の表記方式に従って引用した文献の出典を表示できる。多様な引用文献の表記方式に従って、対象文書10は、引用領域11と参考文献領域12を含むことができる。例えば、引用領域11は、被引用文献20から引用した内容と該当内容が引用されたことを表示する領域であり、参考文献領域12は、被引用文献20の情報を記載する領域であり得る。
【0046】
例えば、引用文献の表記方式は、APAスタイル、Chicagoスタイル、MLAスタイル、Vancouverスタイル、AMAスタイルなど多様な形態を含むことができる。
【0047】
APAスタイルは、アメリカ心理学会(American Psychological Associagion:APA)により出版された引用ガイドであって、本文で引用した部分を文中引用で簡略に表示し、完全な引用情報は、参考文献から探す文中引用-参考文献方式である。APAスタイルは、文中引用では「(著者名、出版年)」又は「(著者名、出版年、引用ページ)」を記載し、参考文献領域12には、「著者名.(出版年).タイトル(版).発行元」を記載するスタイルである。
【0048】
Chicagoスタイルは、シカゴ大学出版局により出版された引用ガイドであって、脚注に引用した出典を作成し、それに対応する参考文献を作成する脚注-参考文献方式又は資料の本文に引用した出典を作成する文中引用-参考文献方式である。Chicagoスタイルの脚注-参考文献方式は、引用する節又は文末に上付き文字でアラビア数字を表示し、脚注に「著者名、タイトル(出版地:出版社、出版年)、引用ページ数」を記載し、参考文献領域12には、「著者名、タイトル、出版地:出版社、出版年」を記載するスタイルである。Chicagoスタイルの文中引用-参考文献方式は、文中引用に「著者名、出版年、引用ページ数」を記載し、参考文献領域12には、「著者名.出版年.タイトル.出版地:出版社」を記載するスタイルである。
【0049】
MLAスタイルは、Modern Language Associationにより出版された引用ガイドであって、本文で引用した部分を簡略に表示する。完全な引用情報は、参考文献から探す方式である文中引用-参考文献方式である。MLAスタイルは、文中引用には「著者ページ」を記載し、参考文献領域12には「著者名.表題.発行年」を記載するスタイルである。
【0050】
Vancouverスタイルは、バンクーバーグループにより出版された引用ガイドであって、本文において数字で引用し、数字に対応する引用情報を参考文献で記載する方式である。Vancouverスタイルは、本文には( )括弧、[ ]括弧及び/又は上付き文字で数字を表記し、参考文献領域12には、「著者名.図書名.版事項.出版社の住所地:出版社名、発行年、本の言語」を記載する方式である。
【0051】
AMAスタイルは、米国医師会(American Medical Association)により発行された引用ガイドであって、本文において数字で引用し、数字に対応する引用情報を参考文献で記載する方式である。AMAスタイルは、本文には上付き文字で数字を表記し、参考文献領域12には、「著者名.図書名.版事項.出版社の住所地:出版社名;発行年.」を記載する方式である。
【0052】
本明細書で指示する引用文献の表記方式は、前記例示又はその他に定義されたスタイルに限定されず、定義されたスタイル以外にも外部文書の内容が引用されたことを指示する多様な形態の表記を含むことができる。
【0053】
多様な実施例に係る検証装置100は、対象文書10で引用した被引用文献20の真偽を検証できる。具体的に、検証装置100は、対象文書10で引用された被引用文献20と関連して、引用の妥当性及び引用の有効性を検証できる。例えば、引用の妥当性は、本文中に引用領域11に記載されている被引用文献20の情報と参考文献領域12に記載されている被引用文献20の情報が一致するか否かに関連する指標であり得る。例えば、引用の有効性は、引用領域11及び参考文献領域12に記載されている被引用文献20の情報がサーバ200に格納された被引用文献20の情報と一致するか否かに関連する指標であり得る。
【0054】
検証装置100の具体的な構成及び動作は、
図2及び
図3に関する説明で後述する。
【0055】
図2は、本開示の検証装置100のブロック図である。
【0056】
図2を参照すると、本開示に係る検証装置100は、格納部110、制御部120、入力部130及び/又は通信部140などを含むことができる。
図2に示す構成要素は、本開示に係る検証装置100を実現する上で必須なものではないため、本明細書上で説明される検証装置100は、上述した構成要素よりも多いか、又は少ない構成要素を有することができる。
【0057】
格納部110は、メモリであり得る。メモリは、本装置の多様な機能を支援するデータと、制御部120の動作のためのプログラムを格納でき、入/出力されるデータ(例えば、音楽ファイル、静止画、動画など)を格納することができ、本装置で駆動される多数のアプリケーションプログラム(application program又はアプリケーション(application))、本装置の動作のためのデータ、命令語などを格納できる。これらのアプリケーションプログラムのうちの少なくとも一部は、無線通信を介して外部サーバ200からダウンロードできる。
【0058】
このようなメモリは、フラッシュメモリタイプ(flash memory type)、ハードディスクタイプ(hard disk type)、SSDタイプ(Solid State Disk type)、SDDタイプ(Silicon Disk Drive type)、マルチメディアカードマイクロタイプ(multimedia card micro type)、カードタイプのメモリ(例えば、SD又はXDメモリなど)、ラム(random access memory:RAM)、SRAM(static random access memory)、ロム(read-only memory:ROM)、EEPROM(electrically erasable programmable read‐only memory)、PROM(programmable read‐only memory)、磁気メモリ、磁気ディスク及び光ディスクのうちの少なくとも1つのタイプの格納媒体を含むことができる。また、メモリは、本装置とは分離されているが、有線又は無線で接続されたデータベースになることもできる。
【0059】
多様な実施例に係る格納部110は、パターン辞書111を格納できる。
【0060】
一実施例に係るパターン辞書111は、n個の形式と記号で構成され、引用文献の表記方式に従って引用情報及び/又は参考文献情報を表示する形式を格納できる。例えば、パターン辞書111は、引用領域11及び/又は参考文献領域12に含まれている被引用文献20の情報の構成(例えば、著者名、引用ページ、出版社名)、情報を区分する記号(例えば、コンマ、ピリオド、二重引用符)、情報の種類を指示する指定された文字列(例えば、pp、et al)、指定された規則(例えば、著者名:Author、ページ:p.32、年度:2022年)の順序及び表示方法(例えば、文中引用:「(著者名、出版年)」、参考文献領域12:「著者名.(出版年).タイトル(版)、発行元.」/ 文中引用:( )括弧、[ ]括弧及び/又は上付き文字で数字表記、参考文献領域12:「著者名.図書名.版事項.出版社の住所地:出版社名;発行年、本の言語」)のように引用情報及び/又は参考文献情報を表示する形式に関する情報を格納できる。
【0061】
制御部120は、本装置内の構成要素の動作を制御するためのアルゴリズム又はアルゴリズムを再現したプログラムに関するデータを格納するメモリ、及びメモリに格納されたデータを用いて前述した動作を行う少なくとも1つのプロセッサ(図示せず)により実現できる。このとき、メモリとプロセッサは、それぞれ別のチップにより実現できる。または、メモリとプロセッサは、単一のチップにより実現することもできる。
【0062】
また、制御部120は、以下の
図2ないし
図6で説明される本開示に係る多様な実施例を本装置上で実現するために、上述した構成要素のうちの何れか1つ又は複数を組み合わせて制御できる。
【0063】
多様な実施例に係る制御部120は、パターン構築部121、抽出部122、妥当性検証部123、検索部124及び/又は有効性検証部125を含むことができる。
【0064】
多様な実施例に係るパターン構築部121は、引用文献の表記方式をパターン化し、引用情報及び/又は参考文献情報の表記に関連するパターン辞書111を生成できる。例えば、引用文献の表記方式は、APAスタイル、Chicagoスタイル、MLAスタイル、Vancouverスタイル、AMAスタイルを含む多様な定義されたスタイルを含むことができ、引用文献の表記方式は、これに限定されるものではなく、定義されたスタイル以外にも外部文書の内容が引用されたことを指示する多様な形態の表記を含むことができる。
【0065】
多様な実施例に係る抽出部122は、参考文献領域12及び/又は引用領域11を抽出し、参考文献領域12及び引用領域11に記載されている書誌情報を抽出できる。
【0066】
一実施例によれば、抽出部122は、入力部130から真偽を検証する対象文書10を取得し、入力部130から得られた対象文書10から参考文献領域12を抽出できる。
【0067】
一実施例によれば、抽出部122は、文書で参考文献領域12の開始点と最後の地点を探し、参考文献の開始点から最後の地点までを参考文献領域12として決定できる。例えば、抽出部122は、辞書定義規則に基づいて、参考文献領域12の開始点のキーワードを確認できる。例えば、抽出部122は、辞書定義規則及び/又はサーバ200に格納された多様なデータを学習した人工知能モデルに基づいて、参考文献の最後の地点を確認できる。
【0068】
一実施例に係る抽出部122は、引用領域11を抽出できる。
【0069】
一実施例によれば、抽出部122は、入力部130から得られた文書から、本文中の被引用文献の一部を引用した部分である引用文句と引用した被引用文献に関連する情報である引用情報を含む引用領域11を抽出できる。例えば、抽出部122は、パターン構築部121が生成したパターン辞書111に基づいて、文書の本文中の引用領域11を抽出できる。
【0070】
一実施例に係る抽出部122は、書誌情報を抽出できる。例えば、抽出部122は、参考文献領域12及び/又は引用領域11から、指定された規則に基づいて書誌情報を抽出できる。例えば、書誌情報は、著者、年度、タイトル、ページ、出版社、URLなどのように引用情報及び/又は参考文献情報の構成であり得る。
【0071】
一実施例に係る抽出部122は、抽出した書誌情報とディープラーニングにより学習された書誌情報抽出モデルとを比較して、抽出した書誌情報を検証できる。
【0072】
多様な実施例に係る妥当性検証部123は、引用の妥当性を検証できる。
【0073】
例えば、引用の妥当性は、本文中に引用領域11に記載されている被引用文献20の情報と参考文献領域12に記載されている被引用文献20の情報が一致するか否かに関連する指標であり得る。
【0074】
一実施例によれば、妥当性検証部123は、検証した最終の書誌情報に基づいて、引用領域11から抽出した書誌情報と参考文献領域12から抽出した書誌情報とを比較して引用の妥当性を検証できる。
【0075】
例えば、妥当性検証部123は、引用領域11から抽出した書誌情報と参考文献領域12から抽出した書誌情報との一致率を確認し、最も高い値の一致率を有する出典に対して一致する形式の個数を求め、個数が2つ以上の場合は、参考文献に記載した文書に関する情報が本文中に引用表記されている、即ち、引用妥当であると判断できる。
【0076】
多様な実施例に係る検索部124は、妥当性を検証した書誌情報に基づいて、通信部140を用いてサーバ200で書誌情報に対応する被引用文献20を検索できる。
【0077】
例えば、検索部124は、通信部140を介してサーバ200から被引用文献20に関する情報を取得できる。サーバ200には、学術論文、報告書などのような多様な文書を含むメタデータDBが含まれることができる。
【0078】
例えば、検索部124は、検索された被引用文献20を、通信部140を介してサーバ200から取得できる。
【0079】
多様な実施例に係る有効性検証部125は、引用の有効性を検証できる。
【0080】
例えば、引用の有効性は、本文中の引用文句が被引用文献20に記載されているか否かに関連する指標であり得る。引用の有効性は、文章レベルで引用文句と被引用文献20に含まれている文句との表面的な一致性及び/又は意味的な類似性に関連する指標であり得る。
【0081】
例えば、有効性検証部125は、被引用文献20を文字単位で区分し、文章レベルで引用文句と表面的な一致性を確認できる。例えば、表面的な一致性は、単に文章の構成要素や単語が一致する程度を指示する指標であり得る。
【0082】
例えば、有効性検証部125は、引用文句と被引用文献20に含まれている文句との意味的な類似性を確認できる。例えば、意味的な類似性は、両文章が単語や構造が異なっていても意味的に類似しているか、同一の意味を伝達するかに関連する指標であり得る。
【0083】
例えば、有効性検証部125は、表面的な一致性及び/又は意味的な類似性の指標が指定された値(例えば、80%)以上であることに対応して、引用文句が有効であると判断できる。
【0084】
通信部140は、外部装置と通信を可能にする1つ以上の構成要素を含むことができ、例えば、有線通信モジュール及び/又は無線通信モジュールを含むことができる。
【0085】
有線通信モジュールは、構内通信網(Local Area Network:LAN)モジュール、広域通信網(Wide Area Network:WAN)モジュール又は付加価値通信(Value Added Network:VAN)モジュールなど多様な有線通信モジュールだけでなく、USB(Universal Serial Bus)、HDMI(登録商標)(High Definition Multimedia Interface)、DVI(Digital Visual Interface)、RS-232(recommended standard232)、電力線通信、又はPOTS(plain old telephone service)など多様なケーブル通信モジュールを含むことができる。
【0086】
無線通信モジュールは、ワイファイ(登録商標)(Wifi(登録商標))モジュール、ワイブロ(Wireless broadband)モジュール以外にも、GSM(Global System for Mobile Communication)、CDMA(登録商標)(Code Division Multiple Access)、WCDMA(登録商標)(Wideband Code Division Multiple Access)、UMTS(Universal Mobile Telecommunications System)、TDMA(Time Division Multiple Access)、LTE(Long Term Evolution)及び4G、5G、6Gなど多様な無線通信方式を支援する無線通信モジュールを更に含むことができる。
【0087】
無線通信モジュールは、移動通信信号を送信するアンテナ及び送信機(Transmitter)を含む無線通信インターフェースを含むことができる。また、無線通信モジュールは、制御部120の制御によって無線通信インターフェースを介して制御部120から出力されたデジタル制御信号をアナログ形態の無線信号に変調する信号変換モジュールを更に含むことができる。
【0088】
無線通信モジュールは、移動通信信号を受信するアンテナ及び受信機(Receiver)を含む無線通信インターフェースを含むことができる。また、無線通信モジュールは、無線通信インターフェースを介して受信したアナログ形態の無線信号をデジタル制御信号に復調するための信号変換モジュールを更に含むことができる。
【0089】
入力部130は、データ又はユーザから入力される情報の入力のためのものであって、少なくとも1つのカメラ、少なくとも1つのマイクロフォン及びユーザ入力部130のうちの少なくとも1つを含むことができる。入力部130で収集した音声データやイメージデータは分析され、ユーザの制御命令で処理できる。
【0090】
ユーザ入力部130は、ユーザから情報の入力を受けるためのものであって、ユーザ入力部130を介して情報が入力されると、制御部120は、入力された情報に対応するように本装置の動作を制御できる。このようなユーザ入力部130は、ハードウェア式物理キー(例えば、本装置の前面、後面及び側面のうちの少なくとも1つに位置するボタン、ドームスイッチ(dome switch)、ジョグホイール、ジョグスイッチなど)及びソフトウェア式タッチキーを含むことができる。一例として、タッチキーは、ソフトウェア的な処理によってタッチスクリーンタイプのディスプレイ部上に表示される仮想キー(virtual key)、ソフトキー(soft key)又はビジュアルキー(visual key)からなるか、前記タッチスクリーン以外の部分に配置されるタッチキー(touch key)からなることができる。一方、前記仮想キー又はビジュアルキーは、多様な形態を有しながら、タッチスクリーン上に表示されることが可能であり、例えばグラフィック(graphic)、テキスト(text)、アイコン(icon)、ビデオ(video)又はこれらの組み合わせからなることができる。
【0091】
一実施例によれば、入力部130は、引用文献の真偽を検証する文書を取得できる。例えば、対象文書10は、ある主題に関する情報、内容、データ又は記録を含む書面又は電子的な形式のファイルであって、単行本、学位論文、ジャーナル論文、雑誌記事、新聞記事、報告書、その他のオンライン資料のように多様な形式があり得る。対象文書10は、本文中に他の文書(被引用文書)における一部の内容を引用でき、多様な引用文献の表記方式に従って引用した文献の出典を表示できる。
【0092】
本開示に係る検証装置は、引用文献の表記方式のパターン辞書を生成し、前記入力部から得られた対象文書から参考文献領域を抽出し、前記対象文書の本文中で被引用文献の一部を引用した部分である引用文句と前記被引用文献に関連する情報である引用情報を含む引用領域を抽出し、前記引用領域及び前記参考文献領域の書誌情報を抽出し、前記引用領域の書誌情報と前記参考文献領域の書誌情報が一致するか否かに関連する引用の妥当性を検証し、前記引用文句が前記被引用文献に記載されているか否かに関連する引用の有効性を検証できる。
【0093】
また、本開示に係る検証装置は、辞書定義規則に基づいて、前記対象文書から参考文献領域の開始点と最後の地点を探して前記開始点から前記最後の地点までを前記参考文献領域として抽出し、自然言語処理技術に基づいて、前記対象文書の本文中のテキストを語節及び/又は記号単位で分離し、前記パターン辞書に含まれている引用パターンと一致する領域を引用領域として抽出し、指定された規則基盤アルゴリズムに基づいて前記参考文献領域及び前記引用領域の書誌情報を抽出できる。
【0094】
更に、本開示に係る検証装置は、前記抽出した書誌情報に基づいて、前記通信部を用いてサーバに前記書誌情報に対応する被引用文献を検索し、前記検索した被引用文献を前記通信部を介して取得し、前記引用文句と前記被引用文献の表面的な一致性を確認し、前記引用文句と前記被引用文献の意味的な類似性を確認して前記引用文句が前記被引用文献に記載されているか否かに関連する引用の有効性を検証できる。
【0095】
図2に示す構成要素の性能に対応して、少なくとも1つの構成要素が追加又は削除されることができる。また、構成要素の相互位置は、システムの性能又は構造に対応して変更できるということは、当該技術分野における通常の知識を有する者であれば容易に理解できるだろう。
【0096】
一方、
図2に示すそれぞれの構成要素は、ソフトウェア及び/又はField Programmable Gate Array(FPGA)及び特定用途向け半導体(ASIC、Application Specific Integrated Circuit)のようなハードウェア構成要素を意味する。
【0097】
図3は、本開示の検証装置100が引用文献の真偽を検証する動作のフローチャートである。
【0098】
多様な実施例に係る制御部120は、動作1010において、引用情報及び/又は参考文献の表記パターン辞書111を生成できる。
【0099】
一実施例によれば、制御部120は、引用文献の表記方式をパターン化し、引用情報及び/又は参考文献情報の表記に関連するパターン辞書111を生成できる。例えば、引用文献の表記方式は、APAスタイル、Chicagoスタイル、MLAスタイル、Vancouverスタイル、AMAスタイルを含む多様な定義されたスタイルを含むことができる。引用文献の表記方式は、これに限定されるものではなく、定義されたスタイル以外にも外部文書の内容が引用されたことを指示する多様な形態の表記を含むことができる。
【0100】
パターン辞書111は、n個の形式と記号で構成され、引用文献の表記方式に従って、引用情報及び/又は参考文献情報を表示する形式で構成されることができる。例えば、パターン辞書111に含まれている引用文献の表記方式のパターンは、引用領域11及び/又は参考文献領域12に含まれている被引用文献20の情報の構成(例えば、著者名、引用ページ、出版社名)、情報を区分する記号(例えば、コンマ、ピリオド、二重引用符)、情報の種類を指示する指定された文字列(例えば、pp、et al)、指定された表記規則(例えば、著者名:Author、ページ:p.32、年度:2022年)の順序及び表示方法(例えば、文中引用:「著者名、(出版年)」、参考文献領域12:「著者名.(出版年).タイトル(版).発行元.」/ 文中引用:( )括弧、[ ]括弧及び/又は上付き文字で数字表記、参考文献領域12:「著者名.図書名.版事項.出版社の住所地:出版社名;発行年、本の言語」)のように引用情報及び/又は参考文献情報を表示する形式に関する情報を格納できる。
【0101】
引用領域11は、被引用文献の一部を引用した部分である引用文句と引用した被引用文献に関連する情報である引用情報を含むことができる。
【0102】
一実施例によれば、制御部120は、人工知能モデルをサーバ200に格納された多様なデータにより学習させてパターン辞書111を生成できる。
【0103】
多様な実施例に係る制御部120は、動作1020において、参考文献領域12を抽出できる。
【0104】
一実施例によれば、入力部130は、引用文献の真偽を検証する文書を取得できる。例えば、対象文書10は、ある主題に関する情報、内容、データ又は記録を含む書面又は電子的な形式のファイルであって、単行本、学位論文、ジャーナル論文、雑誌記事、新聞記事、報告書、その他のオンライン資料のように多様な形式があり得る。対象文書10は、本文中に他の文書(被引用文書)の一部の内容を引用でき、多様な引用文献の表記方式に従って引用した文献の出典を表示できる。
【0105】
一実施例によると、制御部120は、入力部130から真偽を検証する文書を取得し、入力部130から得られた文書から参考文献領域12を抽出できる。
【0106】
一実施例によれば、制御部120は、文書で参考文献領域12の開始点と最後の地点を探し、参考文献の開始点から最後の地点までを参考文献領域12として決定できる。例えば、制御部120は、辞書定義規則に基づいて、参考文献領域12の開始点のキーワードを確認できる。例えば、参考文献領域12の開始点のキーワードは、「参考文献」、「reference」のように参考文献領域12の開始を指示する単語及び/又は文章であり得る。例えば、制御部120は、辞書定義規則及び/又はサーバ200に格納された多様なデータを学習した人工知能モデルに基づいて、参考文献の最後の地点を確認できる。
【0107】
多様な実施例に係る制御部120は、動作1030において、引用領域11を抽出できる。
【0108】
一実施例によれば、制御部120は、入力部130から得られた文書から、本文中の被引用文献の一部を引用した部分である引用文句と引用した被引用文献に関連する情報である引用情報を含む引用領域11を抽出できる。
【0109】
例えば、制御部120は、動作1010で生成したパターン辞書111に基づいて、文書の本文中の引用領域11を抽出できる。制御部120は、自然言語処理技術に基づいて、文書の本文中のテキストを語節及び/又は記号単位で分離し、パターン辞書111に含まれている引用パターンと一致する領域を引用領域11として抽出できる。
【0110】
例えば、制御部120は、サーバ200に格納された多様なデータを学習した人工知能モデルを用いて、文書の本文中の引用領域11を抽出できる。
【0111】
多様な実施例に係る制御部120は、動作1040において、書誌情報を抽出できる。
【0112】
一実施例によれば、制御部120は、動作1020で抽出した参考文献領域12及び/又は動作1030で抽出した引用領域11から、指定された規則基盤アルゴリズムに基づいて書誌情報を抽出できる。例えば、書誌情報は、著者、年度、タイトル、ページ、出版社、URLなどのように引用情報及び/又は参考文献情報の構成であり得る。
【0113】
一実施例によれば、制御部120は、引用領域11及び/又は参考文献情報を記号基準に分離し、指定された文字列を認識できる。
【0114】
記号は、コンマ(、)、ピリオド(.)、二重引用符(”)、ハイフン(-)などのように情報を区分する方式による記号であり得る。
【0115】
指定された文字列は、「pp」、「p」などのページであることが分かる文字列、「et al」、「外」など著者領域であることが分かる文字列、「https」、「www」などのurlであることが分かる文字列などのように情報の種類を指示する文字列を含むことができる。
【0116】
一実施例によれば、制御部120は、指定された規則に基づいて書誌情報を抽出できる。
【0117】
指定された規則は、「Author,A.A.」又は「Author AA」のような著者表記パターン、「p.32」又は「pp.63-64」のようなページ表記パターン、「(2022)」又は「2022年」のような発行年の表記パターンを含むことができる。
【0118】
多様な実施例に係る制御部120は、動作1050において、書誌情報を検証できる。
【0119】
一実施例によれば、制御部120は、動作1040において、指定された規則に基づいて抽出した書誌情報とディープラーニングにより学習された書誌情報抽出モデルとを比較して動作1040で抽出した書誌情報を検証できる。
【0120】
一実施例によれば、制御部120は、ディープラーニングにより学習された書誌情報抽出人工知能モデルを用いて引用領域11から書誌情報を抽出できる。例えば、書誌情報抽出モデルは、技法は非定型テキストから個体名を人名、場所、時間表現など予め定義された項目に分類して抽出するNER(Named Entity Recognition)書誌情報抽出モデルであり得る。例えば、制御部120は、書誌情報抽出モデルに引用領域11に関連する情報を入力し、年度、タイトル、出版社、ページなどの項目に分類され、各形式のテキスト値及び位置情報を含む情報の出力を受けることができる。
【0121】
一実施例によれば、制御部120は、動作1040において、指定された規則に基づいて抽出した書誌情報とディープラーニングにより学習された書誌情報抽出モデルを用いて抽出した書誌情報が一致することに対応して、最終の書誌情報として決定できる。
【0122】
一実施例によれば、制御部120は、動作1040において、指定された規則に基づいて抽出した書誌情報とディープラーニングにより学習された書誌情報抽出モデルを用いて抽出した書誌情報が一致しないことに対応して、ディープラーニングにより学習された書誌情報抽出モデルを用いて抽出した書誌情報を最終の書誌情報として決定できる。
【0123】
多様な実施例に係る制御部120は、動作1060において、引用の妥当性を検証できる。
【0124】
例えば、引用の妥当性は、本文中に引用領域11に記載されている被引用文献20の情報と参考文献領域12に記載されている被引用文献20の情報が一致するか否かに関連する指標であり得る。
【0125】
一実施例によれば、制御部120は、動作1050で検証した最終の書誌情報に基づいて、引用領域11から抽出した書誌情報と参考文献領域12から抽出した書誌情報とを比較して引用の妥当性を検証できる。
【0126】
例えば、制御部120は、引用領域11から抽出した書誌情報と参考文献領域12から抽出した書誌情報との一致率を確認できる。
【0127】
例えば、制御部120は、最も高い値の一致率を有する出典に対して一致する形式の個数を求め、個数が2つ以上の場合、参考文献に記載した文書に関する情報が本文中に引用表記されている、即ち、引用妥当であると判断できる。
【0128】
多様な実施例に係る制御部120は、動作1070において、引用の有効性を検証できる。
【0129】
例えば、引用の有効性は、本文中の引用文句が被引用文献20に記載されているか否かに関連する指標であり得る。引用の有効性は、文章レベルで引用文句と被引用文献20に含まれている文句との表面的な一致性及び/又は意味的な類似性に関連する指標であり得る。
【0130】
制御部120は、通信部140を介してサーバ200から被引用文献20に関する情報を取得できる。サーバ200には、学術論文、報告書などのような多様な文書を含むメタデータDBを含めることができる。
【0131】
一実施例によれば、制御部120は、動作1060で妥当性を検証した書誌情報に基づいて、通信部140を用いてサーバ200で書誌情報に対応する被引用文献20を検索できる。
【0132】
一実施例によれば、制御部120は、検索された被引用文献20を通信部140を介してサーバ200から取得できる。
【0133】
一実施例によれば、制御部120は、被引用文献20を文字単位で区分し、文章レベルで引用文句と表面的な一致性を確認できる。例えば、表面的な一致性は、単に文章の構成要素や単語が一致する程度を指示する指標であり得る。
【0134】
一実施例によれば、制御部120は、引用文句と被引用文献20に含まれている文句との意味的な類似性を確認できる。例えば、意味的な類似性は、両文章が単語や構造が異なっていても意味的に類似しているか、同一の意味を伝達するかに関連する指標であり得る。
【0135】
一実施例によれば、制御部120は、表面的な一致性及び/又は意味的な類似性の指標が指定された値(例えば、80%)以上であることに対応して、引用文句が有効であると判断できる。
【0136】
多様な実施例に係る制御部120は、動作1080において、真偽の有無を検証できる。
【0137】
一実施例によれば、制御部120は、文書が引用の妥当性及び引用の有効性が検証されることに対応して、被引用文献20が実在することを確認できる。
【0138】
図4は、本開示の検証装置100が動作1040において、書誌情報を抽出する方法の例を示す図である。
【0139】
図4を参照すると、制御部120は、動作1020で抽出した参考文献領域12及び/又は動作1030で抽出した引用領域11から、指定された規則及びパターンに基づいて書誌情報を抽出できる。例えば、書誌情報は、著者、年度、タイトル、ページ、出版社、URLなどのように引用情報及び/又は参考文献情報の構成であり得る。
【0140】
図4の場合、「Hemingway,E.M.(1952).The Old Man and the Sea. Charles Scribner’s sons.」が引用領域11に記載されているテキストの場合、制御部120は、引用領域11を記号基準に分離できる。
【0141】
例えば、制御部120は、ピリオド(.)を基に情報を区分し、各区分された情報を規則基盤アルゴリズムに基づいて、書誌情報を抽出できる。
【0142】
例えば、制御部120は、規則基盤アルゴリズムに基づいて、著者表記規則に対応する「Hemingway,E.M.」、発行年の表記規則に対応する(1952)、タイトルの表記規則に対応する「The Old Man and the Sea.」、出版社の表記規則に対応する「NY:Charles Scribner’s sons」を認識し、各書誌情報を抽出できる。この他に規則に対応しない個体名は、NERモデルによって追加で抽出できる。
【0143】
図5は、本開示の検証装置100が動作1060において、引用の妥当性を検証する方法の例を示す図である。
【0144】
一実施例によれば、制御部120は、動作1050で検証した最終の書誌情報に基づいて、引用領域11から抽出した書誌情報と参考文献領域12から抽出した書誌情報とを比較して引用の妥当性を検証できる。
【0145】
図5の場合、本文中の「(Hemingway,1952)」が引用領域11に記載されているテキストの場合、制御部120は、動作1040及び動作1050で著者情報である「Hemingway」と発行年である「1952」をそれぞれ書誌情報として抽出できる。
【0146】
また、参考文献領域12に「Hemingway,E.M.(1952).The Old Man and the Sea. Charles Scribner’s sons.」が記載されているテキストの場合、制御部120は、動作1040及び動作1050で著者情報である「Hemingway,E.M.」、発行年である「1952」、タイトルである「The Old Man and the Sea.」、出版社である「Charles Scribner’s sons」をそれぞれ書誌情報として抽出できる。
【0147】
制御部120は、引用領域11から抽出した書誌情報と参考文献領域12から抽出した書誌情報との一致率を確認できる。制御部120は、書誌情報に選択的重み値を付与して一致率の算定に反映できる。例えば、文字列長が短いか、他の参考文献の形式と一致する可能性が高い書誌情報(例えば、年度、ページなど)は重み値を低く、文字列長が長いか、他の参考文献の形式と一致する可能性が低い書誌情報(例えば、タイトル)は重み値を高く付与できる。このとき、重み値は1~100の間の値であり得る。
【0148】
一実施例によれば、一致率は、式1のように定義できる。
【0149】
【0150】
例えば、制御部120は、最も高い値の一致率を有する出典に対して一致する書誌情報の個数を求め、個数が2つ以上の場合は、参考文献に記載した文書に関する情報が本文中に引用表記されている、即ち、引用妥当であると判断できる。
【0151】
図5の場合、著者情報である「Hemingway」と発行年である「1952」が引用領域11及び参考文献領域12でそれぞれ一致しており、制御部120は、一致する書誌情報が2つであることから、引用妥当であると判断できる。
【0152】
図6は、本開示の検証装置100が動作1070において、引用の有効性を検証する方法の具体的な動作のフローチャートを示す図である。
【0153】
多様な実施例によれば、制御部120は、動作1071において、動作1060で妥当性を検証した書誌情報に基づいて通信部140を用いてサーバ200で書誌情報に対応する被引用文献20を検索できる。サーバ200には、学術論文、報告書のような多様な文書を含むメタデータDBを含めることができる。
【0154】
例えば、制御部120は、書誌情報とメタデータの一致率に基づいて被引用文献20を検索できる。例えば、制御部120は、式1によって書誌情報と被引用文献20の情報との一致率を計算し、最も高い値の一致率を有する被引用文献20を検索できる。
【0155】
多様な実施例によれば、制御部120は、動作1072において、検索された被引用文献20に関連する情報を通信部140を介してサーバ200から取得できる。
【0156】
多様な実施例によれば、制御部120は、動作1073において、引用文句と被引用文献20の表面的な一致性を確認できる。
【0157】
一実施例によれば、制御部120は、引用文句及び被引用文献20を文字単位で区分し、文章レベルで引用文句及び被引用文献20の表面的な一致性を確認できる。例えば、制御部120は、被引用文献20のテキストを自然言語処理方式(例えば、N個の連続的な単語や文字列を抽出するN-gram方式)で抽出し、抽出された各トークン(例えば、N個の連続的な単語)が互いに一致するかを確認して表面的な一致性を確認できる。例えば、表面的な一致性は、2つの集合の類似性を測定する指標であるジャカード係数(Jaccard index)を活用して測定できる。ジャカード係数は、2つの集合で共通して有している要素の個数を2つの集合の全体要素の個数で割った値を表す指標であり得る。
【0158】
多様な実施例によれば、制御部120は、動作1074において、引用文句と被引用文献20に含まれている文句との意味的な類似性を確認できる。
【0159】
一実施例によれば、制御部120は、キーフレーズ(Keyphrase)抽出技術とパラフレーズ(Paraphase)探知技術を活用して意味的な類似性を確認できる。
【0160】
制御部120は、キーフレーズを抽出技術を用いて文章から重要な単語を抽出し、抽出されたキーフレーズに対してパラフレーズ探知技術を用いて意味的な類似性を確認できる。
【0161】
キーフレーズ抽出技術は、文書において重要な意味を含んでいるキーワードを抽出する技術であり得る。例えば、キーフレーズ抽出技術は、文書集合から抽出されたキーワードに対して単語表現を計算できるようにWord2Vec、大容量の言語処理モデル(BERT)を用いて重要な単語を抽出する技術であり得る。
【0162】
パラフレーズ探知技術は、文章間の意味的な類似性を測定する技術であり得る。例えば、パラフレーズ探知技術は、単語をベクトルに変換する技術(例えば、Word2Vec技術)を活用して類似度を反映できるように単語ベクトル空間を生成し、本文の引用文句から抽出されたキーフレーズと被引用文献20から抽出されたキーフレーズのベクトル空間内の距離を測定して類似度を検査し、類似度が高いキーフレーズを含む文章に対して、該当文章の意味的な類似度を求めるために、大容量の自然言語処理モデル(例えば、BERT、Bidirectional Encoder Representations form Transformers)を活用して内容を分析する技術であり得る。意味的な類似度の算出方式は、コサイン類似度を用いることができる。
【0163】
一実施例によれば、制御部120は、表面的な一致性及び/又は意味的な類似性の指標が指定された値(例えば、80%)以上であることに対応して、引用文句が有効であると判断できる。
【0164】
一方、開示された実施例は、コンピュータによって実行可能な命令語を格納する記録媒体の形態で実現できる。命令語は、プログラムコードの形態に格納でき、プロセッサによって実行されたとき、プログラムモジュールを生成して開示された実施例の動作を行える。記録媒体は、コンピュータで読み取れる記録媒体として実現できる。
【0165】
コンピュータが読み取れる記録媒体としては、コンピュータによって解読できる命令語が格納されたあらゆる種類の記録媒体を含む。例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、磁気テープ、磁気ディスク、フラッシュメモリ、光データ格納装置などがあり得る。
【0166】
以上のように、添付の図面を参照して開示された実施例を説明した。本開示が属する技術分野における通常の知識を有する者は、本開示の技術的思想や必須な特徴を変更することなく、開示された実施例とは異なる形態に本開示が実施され得ることが理解できるだろう。開示された実施例は、例示的なものであって、限定的に解釈されてはならない。
【手続補正書】
【提出日】2024-07-25
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
引用文献の引用の妥当性及び引用の有効性を検証する装置において、
パターン辞書を格納する格納部と、
制御部と、
入力部と、
通信部と、
前記制御部の動作を制御するプロセッサと、を含み、
前記プロセッサは、
引用文献の表記方式のパターン辞書を生成し、
辞書定義規則に基づいて、前記入力部から得られた対象文書から参考文献領域を抽出し、
前記パターン辞書に基づいて、前記対象文書の本文中で被引用文献の一部を引用した引用文句と前記被引用文献に関連する情報である引用情報を含む引用領域を抽出し、
規則基盤アルゴリズムに基づいて、前記引用領域及び前記参考文献領域から書誌情報を抽出し、
非定型テキストを入力とし前記非定型テキストに含まれる人名、場所、時間表現を出力とする学習データを用いてディープラーニングにより学習された書誌情報抽出人工知能モデルに前記引用領域を入力することで、前記引用領域から抽出した書誌情報と、前記規則基盤アルゴリズムに基づいて抽出した書誌情報と、を比較して前記書誌情報を検証し、前記引用領域の書誌情報と前記参考文献領域の書誌情報が一致するか否かに関連する前記引用の妥当性を検証し、
前記引用文句が前記被引用文献に記載されているか否かに関連する前記引用の有効性を検証する、
装置。
【請求項2】
前記引用文献の表記方式のパターン辞書は、
外部文献の内容が引用されたことを示す少なくとも1つの引用文献の表記方式パターンで構成され、
前記引用文献の表記方式のパターンは、引用情報及び参考文献情報の構成、前記構成の区分記号、情報の種類を指示する指定された文字列、指定された表記規則のうちの少なくとも1つを含むことを特徴とする請求項1に記載の装置。
【請求項3】
前記プロセッサは、
前記辞書定義規則に基づいて、前記対象文書から参考文献領域の開始点と最後の地点を探し、前記開始点から前記最後の地点までを前記参考文献領域として抽出し、
自然言語処理技術に基づいて、前記対象文書の本文中のテキストを語節又は記号単位で分離し、前記パターン辞書に含まれている引用パターンと一致する領域を引用領域として抽出し、
前記規則基盤アルゴリズムに基づいて、前記参考文献領域及び前記引用領域から書誌情報を抽出することを特徴とする請求項2に記載の装置。
【請求項4】
前記プロセッサは、
前記書誌情報に基づいて、前記通信部を用いてサーバに前記書誌情報に対応する被引用文献を検索し、
前記検索した被引用文献を前記通信部を介して取得し、
前記引用文句と前記被引用文献の表面的な一致性を確認し、
前記引用文句と前記被引用文献の意味的な類似性を確認して、
前記引用文句が前記被引用文献に記載されているか否かに関連する引用の有効性を検証することを特徴とする請求項3に記載の装置。
【請求項5】
引用文献の妥当性及び有効性を検証するシステムにおいて、
少なくとも1つの被引用文献を格納するサーバと、
対象文書と、
検証装置と、を含み、
前記検証装置は、
引用文献の表記方式のパターン辞書を生成し、
前記対象文書から参考文献領域を抽出し、
前記対象文書の本文中に前記被引用文献の一部を引用した部分である引用文句と前記被引用文献に関連する情報である引用情報を含む引用領域を抽出し、
前記引用領域及び前記参考文献領域の書誌情報を抽出し、
前記引用領域の書誌情報と前記参考文献領域の書誌情報が一致するか否かに関連する引用の妥当性を検証し、
前記サーバを用いて前記引用文句が前記被引用文献に記載されているか否かに関連する引用の有効性を検証する、
システム。
【請求項6】
検証装置によって行われる引用文献の引用の妥当性及び引用の有効性を検証する方法において、
引用文献の表記方式のパターン辞書を生成する段階と、
対象文書から参考文献領域を抽出する段階と、
前記対象文書の本文中で被引用文献の一部を引用した部分である引用文句と前記被引用文献に関連する情報である引用情報を含む引用領域を抽出する段階と、
規則基盤アルゴリズムに基づいて、前記引用領域及び前記参考文献領域から書誌情報を抽出する段階と、
非定型テキストを入力とし前記非定型テキストに含まれる人名、場所、時間表現を出力とする学習データを用いてディープラーニングにより学習された書誌情報抽出人工知能モデルに前記引用領域を入力することで、前記引用領域から抽出した書誌情報と、前記規則基盤アルゴリズムに基づいて抽出した書誌情報と、を比較して前記書誌情報を検証する段階と、
前記引用領域の書誌情報と前記参考文献領域の書誌情報が一致するか否かに関連する前記引用の妥当性を検証する段階と、
前記引用文句が前記被引用文献に記載されているか否かに関連する前記引用の有効性を検証する段階と、
を含む方法。
【請求項7】
前記引用文献の表記方式のパターン辞書は、
外部文書の内容が引用されたことを指示する少なくとも1つの引用文献の表記方式パターンで構成され、
前記引用文献の表記方式のパターンは、引用情報及び参考文献情報の構成、前記構成の区分記号、情報の種類を指示する指定された文字列、指定された表記規則のうちの少なくとも1つを含む、ことを特徴とする請求項6に記載の方法。
【請求項8】
前記参考文献領域を抽出する段階は、辞書定義規則に基づいて、前記対象文書から参考文献領域の開始点と最後の地点を探して前記開始点から前記最後の地点までを前記参考文献領域として抽出する段階を含み、
前記引用領域を抽出する段階は、自然言語処理技術に基づいて、前記対象文書の本文中のテキストを語節又は記号単位で分離し、前記パターン辞書に含まれている引用パターンと一致する領域を引用領域として抽出する段階を含み、
前記書誌情報を抽出する段階は、規則基盤アルゴリズムに基づいて、前記参考文献領域及び前記引用領域から書誌情報を抽出する段階を含むことを特徴とする請求項7に記載の方法。
【請求項9】
前記引用の有効性を検証する段階は、
前記書誌情報に基づいて、サーバに前記書誌情報に対応する被引用文献を検索する段階と、
前記検索した被引用文献を取得する段階と、
前記引用文句と前記被引用文献の表面的な一致性を確認する段階と、
前記引用文句と前記被引用文献の意味的な類似性を確認する段階と、を含むことを特徴とする請求項8に記載の方法。
【請求項10】
請求項6~請求項9のうちの何れかの1項に記載の引用文献の妥当性及び有効性を検証する方法をコンピュータに実行させるためにコンピュータ読み取り可能な記録媒体に格納されたプログラム。