特開2024-132766 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ムハユインコーポレーテッドの特許一覧

特開2024-132766引用文献の妥当性及び有効性を検証する装置、システム及びその方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024132766

(43)【公開日】2024-10-01

(54)【発明の名称】引用文献の妥当性及び有効性を検証する装置、システム及びその方法

(51)【国際特許分類】

G06F 16/332 20190101AFI20240920BHJP

【ＦＩ】

G06F16/332

【審査請求】有

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2023071373

(22)【出願日】2023-04-25

(11)【特許番号】

(45)【特許公報発行日】2024-09-19

(31)【優先権主張番号】10-2023-0035296

(32)【優先日】2023-03-17

(33)【優先権主張国・地域又は機関】KR

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有り１．朝鮮日報オンラインニュース（２０２２年４月２６日付）「ムハユ、引用・参考文献間の真偽可否検証技術の開発」（ｈｔｔｐｓ：／／ｉｔ．ｃｈｏｓｕｎ．ｃｏｍ／ｓｉ２０２２．０４ｔｅ／ｄａｔａ／ｈｔｍｌ＿ｄｉｒ／２０２２／０４／２６／２０２２０４２６０１６６１．ｈｔｍｌ）２．ソウル経済オンラインニュース（２０２２年５月２４日付）「ムハユ「コピーキラー」、論文内注・脚注引用も追跡…正しい引用表記を助ける」（ｈｔｔｐｓ：／／ｗｗｗ．ｓｅｄａｉｌｙ．ｃｏｍ／ＮｅｗｓＶｉｅｗ／２６６３ＥＸ１ＮＴＵ）３．電子新聞ｅｔｎｅｗｓオンラインニュース（２０２２年６月２７日付）「ムハユコピーキラー，引用・出典表記エラー探知技術の開発」（ｈｔｔｐｓ：／／ｗｗｗ．ｅｔｎｅｗｓ．ｃｏｍ／２０２２０６２７０００１１３）４．ムハユインコーポレーテッドのブログ内の記事（２０２２年５月１６日付）「コピーキラーは盗作率を下げる小細工？もう全て探し出せます。」（ｈｔｔｐｓ：／／ｂｌｏｇ．ｎａｖｅｒ．ｃｏｍ／ｍｕｈａｙｕｉｎ／２２２７３４７２９１７０）５．ムハユインコーポレーテッドのブログ内の記事（２０２２年９月１６日付）「コピーキラーが教えてくれる引用と参考文献の交差検討『参考文献は多いほど良いか？』」（ｈｔｔｐｓ：／／ｂｌｏｇ．ｎａｖｅｒ．ｃｏｍ／ｍｕｈａｙｕｉｎ／２２２８７６４１９０１７）

(71)【出願人】

【識別番号】523156051

【氏名又は名称】ムハユインコーポレーテッド

【氏名又は名称原語表記】ｍｕｈａｙｕＩｎｃ．

【住所又は居所原語表記】２Ｆ．，５Ｓｅｏｎｇｓｕｉｌ－ｒｏ８－ｇｉｌ，Ｓｅｏｎｇｄｏｎｇ－ｇｕ，Ｓｅｏｕｌ０４７９３ＲｅｐｕｂｌｉｃｏｆＫｏｒｅａ

(74)【代理人】

【識別番号】100121382

【弁理士】

【氏名又は名称】山下託嗣

(72)【発明者】

【氏名】パク，ヘリン

(72)【発明者】

【氏名】ホン，ジョンホ

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175DA01

5B175FA01

(57)【要約】

【課題】多様な実施例に係る検証装置によって行われる引用文献の妥当性及び有効性を検証する方法を提供する。
【解決手段】前記方法は、引用文献の表記方式のパターン辞書を生成する段階と、前記入力部から得られた対象文書から参考文献領域を抽出する段階と、前記対象文書の本文中で被引用文献の一部を引用した部分である引用文句と、前記被引用文献に関連する情報である引用情報を含む引用領域を抽出する段階と、前記引用領域及び前記参考文献領域の書誌情報を抽出する段階と、前記引用領域の書誌情報と前記参考文献領域の書誌情報が一致するか否かに関連する引用の妥当性を検証する段階と、前記引用文句が前記被引用文献に記載されているか否かに関連する引用の有効性を検証する段階と、を含むことができる。
【選択図】図１

【特許請求の範囲】

【請求項1】

引用文献の引用の妥当性及び引用の有効性を検証する装置において、
パターン辞書を格納する格納部と、
制御部と、
入力部と、
通信部と、
前記制御部の動作を制御するプロセッサと、を含み、
前記プロセッサは、
引用文献の表記方式のパターン辞書を生成し、
辞書定義規則に基づいて、前記入力部から得られた対象文書から参考文献領域を抽出し、
前記パターン辞書に基づいて、前記対象文書の本文中で被引用文献の一部を引用した引用文句と前記被引用文献に関連する情報である引用情報を含む引用領域を抽出し、
指定された規則基盤アルゴリズムに基づいて、前記引用領域及び前記参考文献領域の書誌情報を抽出し、
ディープラーニングにより学習された書誌情報抽出人工知能モデルを用いて、抽出した書誌情報と指定された規則基盤アルゴリズムに基づいて抽出した書誌情報とを比較して前記書誌情報を検証し、前記引用領域の書誌情報と前記参考文献領域の書誌情報が一致するか否かに関連する前記引用の妥当性を検証し、
前記引用文句が前記被引用文献に記載されているか否かに関連する前記引用の有効性を検証する、
装置。

【請求項2】

前記引用文献の表記方式のパターン辞書は、
外部文献の内容が引用されたことを示す少なくとも１つの引用文献の表記方式パターンで構成され、
前記引用文献の表記方式のパターンは、引用情報及び参考文献情報の構成、前記構成の区分記号、情報の種類を指示する指定された文字列、指定された表記規則のうちの少なくとも１つを含むことを特徴とする請求項１に記載の装置。

【請求項3】

前記プロセッサは、
前記辞書定義規則に基づいて、前記対象文書から参考文献領域の開始点と最後の地点を探し、前記開始点から前記最後の地点までを前記参考文献領域として抽出し、
自然言語処理技術に基づいて、前記対象文書の本文中のテキストを語節又は記号単位で分離し、前記パターン辞書に含まれている引用パターンと一致する領域を引用領域として抽出し、
前記指定された規則基盤アルゴリズムに基づいて、前記参考文献領域及び前記引用領域の書誌情報を抽出することを特徴とする請求項２に記載の装置。

【請求項4】

前記プロセッサは、
前記書誌情報に基づいて、前記通信部を用いてサーバに前記書誌情報に対応する被引用文献を検索し、
前記検索した被引用文献を前記通信部を介して取得し、
前記引用文句と前記被引用文献の表面的な一致性を確認し、
前記引用文句と前記被引用文献の意味的な類似性を確認して、
前記引用文句が前記被引用文献に記載されているか否かに関連する引用の有効性を検証することを特徴とする請求項３に記載の装置。

【請求項5】

引用文献の妥当性及び有効性を検証するシステムにおいて、
少なくとも１つの被引用文献を格納するサーバと、
対象文書と、
検証装置と、を含み、
前記検証装置は、
引用文献の表記方式のパターン辞書を生成し、
前記対象文書から参考文献領域を抽出し、
前記対象文書の本文中に前記被引用文献の一部を引用した部分である引用文句と前記被引用文献に関連する情報である引用情報を含む引用領域を抽出し、
前記引用領域及び前記参考文献領域の書誌情報を抽出し、
前記引用領域の書誌情報と前記参考文献領域の書誌情報が一致するか否かに関連する引用の妥当性を検証し、
前記サーバを用いて前記引用文句が前記被引用文献に記載されているか否かに関連する引用の有効性を検証する、
システム。

【請求項6】

検証装置によって行われる引用文献の引用の妥当性及び引用の有効性を検証する方法において、
引用文献の表記方式のパターン辞書を生成する段階と、
対象文書から参考文献領域を抽出する段階と、
前記対象文書の本文中で被引用文献の一部を引用した部分である引用文句と前記被引用文献に関連する情報である引用情報を含む引用領域を抽出する段階と、
前記引用領域及び前記参考文献領域の書誌情報を抽出する段階と、
ディープラーニングにより学習された書誌情報抽出人工知能モデルを用いて、抽出した書誌情報と指定された規則基盤アルゴリズムに基づいて抽出した書誌情報とを比較して前記書誌情報を検証する段階と、
前記引用領域の書誌情報と前記参考文献領域の書誌情報が一致するか否かに関連する前記引用の妥当性を検証する段階と、
前記引用文句が前記被引用文献に記載されているか否かに関連する前記引用の有効性を検証する段階と、
を含む方法。

【請求項7】

前記引用文献の表記方式のパターン辞書は、
外部文書の内容が引用されたことを指示する少なくとも１つの引用文献の表記方式パターンで構成され、
前記引用文献の表記方式のパターンは、引用情報及び参考文献情報の構成、前記構成の区分記号、情報の種類を指示する指定された文字列、指定された表記規則のうちの少なくとも１つを含む、ことを特徴とする請求項６に記載の方法。

【請求項8】

前記参考文献領域を抽出する段階は、辞書定義規則に基づいて、前記対象文書から参考文献領域の開始点と最後の地点を探して前記開始点から前記最後の地点までを前記参考文献領域として抽出する段階を含み、
前記引用領域を抽出する段階は、自然言語処理技術に基づいて、前記対象文書の本文中のテキストを語節又は記号単位で分離し、前記パターン辞書に含まれている引用パターンと一致する領域を引用領域として抽出する段階を含み、
前記書誌情報を抽出する段階は、指定された規則基盤アルゴリズムに基づいて、前記参考文献領域及び前記引用領域の書誌情報を抽出する段階を含むことを特徴とする請求項７に記載の方法。

【請求項9】

前記引用の有効性を検証する段階は、
前記書誌情報に基づいて、サーバに前記書誌情報に対応する被引用文献を検索する段階と、
前記検索した被引用文献を取得する段階と、
前記引用文句と前記被引用文献の表面的な一致性を確認する段階と、
前記引用文句と前記被引用文献の意味的な類似性を確認する段階と、を含むことを特徴とする請求項８に記載の方法。

【請求項10】

請求項６～請求項９のうちの何れかの１項に記載の引用文献の妥当性及び有効性を検証する方法を実行させるためにコンピュータ読み取り可能な記録媒体に格納されたプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、引用文献の妥当性及び有効性を検証する装置、システム及び方法に関する。より詳細には、本開示は、対象文献の本文中の引用領域に記載されている被引用文献の情報と参考文献領域に記載されている被引用文献の情報が一致するか否か、並びに引用領域及び参考文献領域に記載されている被引用文献の情報がサーバに格納された被引用文献の情報と一致するか否かを検証する装置、システム及びその方法に関する。

【背景技術】

【0002】

研究不正行為の代表的な類型として、偽造、剽窃などがある。剽窃の場合、剽窃予防検索サービスといったシステムによって剽窃率を確認することで、剽窃を予防することが可能である。

【0003】

剽窃予防検索サービスを通じて有名人の学位論文が剽窃であることが明らかになり、社会的に剽窃問題の深刻性が再び浮上し、これにより、小学校・中学校・高等学校・大学で生徒や学生らが作成する宿題、小論文、学位論文だけでなく、研究機関で作成される研究報告書など各種文書の作成者は、最終提出前に剽窃検査を通じて本人の文書を点検し、剽窃検査結果確認書の提出時に特定数値以内の文書を提出することを義務付けた。

【0004】

しかし、剽窃予防検索サービスは、研究者が、本人が作成した研究成果物と他の文書との類似度を判断する補助手段であるにも拘らず、剽窃率の数値さえ合っていると、研究倫理が充足するものと見る雰囲気が一般化している。

【0005】

剽窃率の数値を下げるために、不要に多くの文章を引用したり、実際に引用していない文章に引用表記をしたりするなど剽窃予防検索システムを悪意に活用する場合が発生した。また、著名な研究者の論文を参考にしているかのように見せるために、虚偽で参考文献を表記する事例が増加した。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】韓国公開特許１０‐２０１０‐００６６２３号公報

【発明の概要】

【発明が解決しようとする課題】

【0007】

従来技術の場合は、ＡＰＡスタイルで作成された文献を本文と参考文献パートとに分け、本文パートに含まれている引用領域と参考文献が交差するか否かを確認することによって妥当性の検証を行うが、有効性の検証は行わない。上記特許文献の場合、入力文献をパーシングして参考文献領域を決定し、各参考文献を抽出して書誌情報、要約、原文などから主題語を抽出及び比較して閾値を基に関連性及び適合性を判断する内容を開示するが、記載した引用文献が実際の被引用文献に記載されているかを確認する内容は開示しない。この場合、虚偽で参考文献を表記する事例を探知できず、引用された文章が実際の参考文献に作成されたか否かを確認することはできない。

【0008】

また、各機関、学会ごとに主に作成される出典の表記方式が異なるため、ＡＰＡスタイルで作成された文献のみを対象とするため、Ｃｈｉｃａｇｏ、Ｖａｎｃｏｕｖｅｒ、ＭＬＡスタイルなどで作成された多様な文書の妥当性を判断することに限界がある。

【0009】

本開示は上記事情に鑑みてなされたものであって、その目的は、引用表記及び参考文献の表記パターン辞書を構築し、パターン辞書に基づいて文書中の引用領域及び参考文献の書誌情報を抽出し、抽出した書誌情報に基づいて引用文献の妥当性及び有効性を検証する装置、システム及び方法を提供することにある。

【0010】

本開示が解決しようとする課題は、以上で言及した課題に限定されず、言及していない更に他の課題は、以下の記載から通常の技術者が明確に理解できるだろう。

【課題を解決するための手段】

【0011】

上述した技術的課題を達成するための本開示に係る引用文献の引用の妥当性及び引用の有効性を検証する装置は、パターン辞書を格納する格納部と、制御部と、入力部と、通信部と、前記制御部の動作を制御するプロセッサとを含み、前記プロセッサは、引用文献の表記方式のパターン辞書を生成し、辞書定義規則に基づいて、前記入力部から得られた対象文書から参考文献領域を抽出し、前記パターン辞書に基づいて、前記対象文書の本文中で被引用文献の一部を引用した引用文句と前記被引用文献に関連する情報である引用情報を含む引用領域を抽出し、指定された規則基盤アルゴリズムに基づいて、前記引用領域及び前記参考文献領域の書誌情報を抽出し、ディープラーニングにより学習された書誌情報抽出人工知能モデルを用いて抽出した書誌情報と前記指定された規則基盤アルゴリズムに基づいて抽出した書誌情報とを比較して前記書誌情報を検証し、前記引用領域の書誌情報と前記参考文献領域の書誌情報が一致するか否かに関連する前記引用の妥当性を検証し、前記引用文句が前記被引用文献に記載されているか否かに関連する前記引用の有効性を検証できる。

【0012】

また、上述した技術的課題を達成するための本開示に係る引用文献の妥当性及び有効性を検証するシステムは、少なくとも１つの被引用文献を格納するサーバと、対象文書と、検証装置とを含み、前記検証装置は引用文献の表記方式のパターン辞書を生成し、前記対象文書から参考文献領域を抽出し、前記対象文書の本文中に前記被引用文献の一部を引用した部分である引用文句と前記被引用文献に関連する情報である引用情報を含む引用領域を抽出し、前記引用領域及び前記参考文献領域の書誌情報を抽出し、前記引用領域の書誌情報と前記参考文献領域の書誌情報が一致するか否かに関連する引用の妥当性を検証し、前記サーバを用いて前記引用文句が前記被引用文献に記載されているか否かに関連する引用の有効性を検証できる。

【0013】

更に、上述した技術的課題を達成するための本開示に係る検証装置によって行われる引用文献の引用の妥当性及び引用の有効性を検証する方法は、引用文献の表記方式のパターン辞書を生成する段階と、対象文書から参考文献領域を抽出する段階と、前記対象文書の本文中で被引用文献の一部を引用した部分である引用文句と前記被引用文献に関連する情報である引用情報を含む引用領域を抽出する段階と、前記引用領域及び前記参考文献領域の書誌情報を抽出する段階と、ディープラーニングにより学習された書誌情報抽出人工知能モデルを用いて抽出した書誌情報と指定された規則基盤アルゴリズムに基づいて抽出した書誌情報とを比較して前記書誌情報を検証する段階と、前記引用領域の書誌情報と前記参考文献領域の書誌情報が一致するか否かに関連する前記引用の妥当性を検証する段階と、前記引用文句が前記被引用文献に記載されているか否かに関連する前記引用の有効性を検証する段階とを含むことができる。

【0014】

この他にも、本開示を実現するためのコンピュータ読み取り可能な記録媒体に格納されたコンピュータプログラムを更に提供できる。

【0015】

この他にも、本開示を実現するための方法を実行するためのコンピュータプログラムを記録するコンピュータ読み取り可能な記録媒体を更に提供できる。

【発明の効果】

【0016】

本開示の前述した課題解決手段によれば、検証装置はパターン辞書を生成し、指定された引用表記する方式の他にも多様な形態の引用表記方式に対して対象文書の引用の妥当性と引用の有効性を検証する効果を提供する。

【0017】

本開示の前述した課題解決手段によれば、検証装置は、対象文書に記載されている引用文句が被引用文献に実在するか否かを確認できる。

【0018】

本開示の効果は、以上で言及した効果に制限されず、言及していない更に他の効果は、以下の記載から通常の技術者が明確に理解できるだろう。

【図面の簡単な説明】

【0019】

【図1】引用文献の真偽を検証するシステムに関連する図である。

【図2】本開示の検証装置のブロック図である。

【図3】本開示の検証装置が引用文献の真偽を検証する動作のフローチャートである。

【図4】本開示の検証装置が動作１０４０において、書誌情報を抽出する方法の例を示す図である。

【図5】本開示の検証装置が動作１０６０において、引用の妥当性を検証する方法の例を示す図である。

【図6】本開示の検証装置が動作１０７０において、引用の有効性を検証する方法の具体的な動作のフローチャートを示す図である。

【発明を実施するための形態】

【0020】

本開示の全体に亘って同一の参照符号は、同一の構成要素を示す。本開示が実施例の全ての要素を説明するものではなく、本開示の属する技術分野における一般的な内容又は実施例において重複する内容は省略する。明細書で用いられる「部、モジュール、部材、ブロック」という用語は、ソフトウェア又はハードウェアにより実現でき、実施例によって複数の「部、モジュール、部材、ブロック」が１つの構成要素として実現されるか、１つの「部、モジュール、部材、ブロック」が複数の構成要素を含むこともできる。

【0021】

明細書全体において、ある部分が他の部分と「接続」されているとするとき、これは直接的に接続されている場合だけでなく、間接的に接続されている場合を含み、間接的な接続は無線通信網を介して接続されることを含む。

【0022】

また、ある部分がある構成要素を「含む」とするとき、これは特に反対の記載がない限り、他の構成要素を除外するものではなく、他の構成要素を更に含むことができることを意味する。

【0023】

明細書全体において、ある部材が他の部材の「上に」位置するとき、これはある部材が他の部材に接している場合だけでなく、両部材の間に更に他の部材が存在する場合も含む。

【0024】

第１、第２などの用語は、１つの構成要素を他の構成要素から区別するために用いられるものであって、構成要素が前述した用語によって制限されるものではない。

【0025】

単数の表現は文脈上、明確に例外がない限り、複数の表現を含む。

【0026】

各段階における識別符号は説明の便宜上、用いられるものであって、識別符号は、各段階の順序を説明するものではなく、各段階は文脈上、明確に特定の順序を記載しない限り、明記された順序と異なって実施され得る。

【0027】

以下、添付の図面を参照して、本開示の作用原理及び実施例について説明する。

【0028】

本明細書における「本開示に係る装置」には、演算処理を行ってユーザに結果を提供できる多様な装置が全て含まれる。例えば、本開示に係る装置は、コンピュータ、サーバ装置及び携帯用端末を全て含むか、又は何れか１つの形態になり得る。

【0029】

ここで、前記コンピュータは、例えば、ウェブブラウザ（ＷＥＢＢｒｏｗｓｅｒ）が搭載されたノートパソコン、デスクトップ（ｄｅｓｋｔｏｐ）、ラップトップ（ｌａｐｔｏｐ）、タブレットＰＣ、スレートＰＣなどを含むことができる。

【0030】

前記サーバ装置は、外部装置と通信を行って情報を処理するサーバであって、アプリケーションサーバ、コンピューティングサーバ、データベースサーバ、ファイルサーバ、ゲームサーバ、メールサーバ、プロキシサーバ及びウェブサーバなどを含むことができる。

【0031】

前記携帯用端末は、例えば、携帯性と移動性が保障される無線通信装置であって、ＰＣＳ（ＰｅｒｓｏｎａｌＣｏｍｍｕｎｉｃａｔｉｏｎＳｙｓｔｅｍ）、ＧＳＭ（ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅＣｏｍｍｕｎｉｃａｔｉｏｎｓ）、ＰＤＣ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＣｅｌｌｕｌａｒ）、ＰＨＳ（ＰｅｒｓｏｎａｌＨａｎｄｙｐｈｏｎｅＳｙｓｔｅｍ）、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ＩＭＴ（ＩｎｔｅｒｎａｔｉｏｎａｌＭｏｂｉｌｅＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎ）－２０００、ＣＤＭＡ（ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ）－２０００、Ｗ－ＣＤＭＡ（Ｗ‐ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ）、ＷｉＢｒｏ（ＷｉｒｅｌｅｓｓＢｒｏａｄｂａｎｄＩｎｔｅｒｎｅｔ）端末、スマートフォン（ＳｍａｒｔＰｈｏｎｅ）などのようなあらゆる種類のハンドヘルド（Ｈａｎｄｈｅｌｄ）基盤の無線通信装置と時計、指輪、ブレスレット、アンクレット、ネックレス、メガネ、コンタクトレンズ又は頭部装着型装置（ｈｅａｄ‐ｍｏｕｔｅｄ‐ｄｅｖｉｃｅ（ＨＭＤ））などのようなウェアラブルデバイスを含むことができる。

【0032】

本開示に係る人工知能に関連する機能は、プロセッサとメモリによって動作する。プロセッサは、１つ又は複数のプロセッサで構成できる。このとき、１つ又は複数のプロセッサは、ＣＰＵ、ＡＰ、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）などのような汎用プロセッサ、ＧＰＵ、ＶＰＵ（ＶｉｓｉｏｎＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）のようなグラフィック専用プロセッサ又はＮＰＵのような人工知能専用プロセッサであり得る。１つ又は複数のプロセッサは、メモリに格納された既に定義された動作規則又は人工知能モデルに従って、入力データを処理するように制御する。または、１つ又は複数のプロセッサが人工知能専用プロセッサの場合、人工知能専用プロセッサは、特定の人工知能モデルの処理に特化したハードウェア構造で設計できる。

【0033】

既に定義された動作規則又は人工知能モデルは、学習により生成されることを特徴とする。ここで、学習により生成されるということは、基本的な人工知能モデルが学習アルゴリズムによって多数の学習データを用いて学習されることによって、所望の特性（又は目的）を実行するように設定された既に定義された動作規則又は人工知能モデルが生成されることを意味する。このような学習は、本開示に係る人工知能が実行される機器自体で行われることもでき、別途のサーバ及び／又はシステムによって行われることもできる。学習アルゴリズムの例としては、教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）、教師なし学習（ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）、半教師あり学習（ｓｅｍｉ－ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）又は強化学習（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）があるが、前述した例に限定されない。

【0034】

人工知能モデルは、複数のニューラルネットワークレイヤとして構成できる。複数のニューラルネットワークレイヤのそれぞれは、複数の重み値（ｗｅｉｇｈｔｖａｌｕｅｓ）を有しており、以前（ｐｒｅｖｉｏｕｓ）レイヤの演算結果と複数の重み値間の演算を通じてニューラルネットワーク演算を行う。複数のニューラルネットワークレイヤが有している複数の重み値は、人工知能モデルの学習結果によって最適化できる。例えば、学習過程中に人工知能モデルで取得したロス（ｌｏｓｓ）値又はコスト（ｃｏｓｔ）値が減少又は最小化されるように複数の重み値を更新できる。人工ニューラルネットワークは、ディープニューラルネットワーク（ＤＮＮ：ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）を含むことができ、例えばＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＲＢＭ（ＲｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎＭａｃｈｉｎｅ）、ＤＢＮ（ＤｅｅｐＢｅｌｉｅｆＮｅｔｗｏｒｋ）、ＢＲＤＮＮ（ＢｉｄｉｒｅｃｔｉｏｎａｌＲｅｃｕｒｒｅｎｔＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）又はディープＱ－ネットワーク（ＤｅｅｐＱ－Ｎｅｔｗｏｒｋｓ）などがあるが、前述した例に限定されない。

【0035】

本開示の例示的な実施例によれば、プロセッサは、人工知能を実現できる。人工知能とは、人の神経細胞（ｂｉｏｌｏｇｉｃａｌｎｅｕｒｏｎ）を模写して機械が学習するようにする人工ニューラルネットワーク（ＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）基盤の機械学習法を意味する。人工知能の方法論には、学習方式によってトレーニングデータとして入力データと出力データが共に提供されることによって、問題（入力データ）の解答（出力データ）が決まっている教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）、及び出力データなしで入力データのみが提供されて問題（入力データ）の解答（出力データ）が決まっていない教師なし学習（ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）、及び現在の状態（Ｓｔａｔｅ）で何らかの行動（Ａｃｔｉｏｎ）を取る度に外部環境で補償（Ｒｅｗａｒｄ）が与えられるが、このような補償を最大化する方向で学習を行う強化学習（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）に分けられる。また、人工知能の方法論は、学習モデルの構造であるアーキテクチャによっても区分できるが、広く用いられるディープラーニング技術のアーキテクチャは、畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）、回帰型ニューラルネットワーク（ＲＮＮ：ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）、トランスフォーマ（Ｔｒａｎｓｆｏｒｍｅｒ）、敵対的生成ネットワーク（ＧＡＮ：ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓ）などに区分できる。

【0036】

本装置とシステムは、人工知能モデルを含むことができる。人工知能モデルは１つの人工知能モデルとでき、複数の人工知能モデルとして実現することもできる。人工知能モデルは、ニューラルネットワーク(又は人工神経網)で構成でき、機械学習と認知科学における生物学の神経を模倣した統計学的学習アルゴリズムを含むことができる。ニューラルネットワークは、シナプスの結合によりネットワークを形成した人工ニューロン（ノード）が学習を通じてシナプスの結合強度を変化させて、問題解決能力を持つモデル全般を意味し得る。ニューラルネットワークのニューロンは、重み値又はバイアスの組み合わせを含むことができる。ニューラルネットワークは、１つ以上のニューロン又はノードで構成された１つ以上のレイヤ（ｌａｙｅｒ）を含むことができる。一例として、装置は入力層（ｉｎｐｕｔｌａｙｅｒ）、隠れ層（ｈｉｄｄｅｎｌａｙｅｒ）、出力層（ｏｕｔｐｕｔｌａｙｅｒ）を含むことができる。装置を構成するニューラルネットワークは、ニューロンの重み値を学習によって変化させることによって、任意の入力（ｉｎｐｕｔ）から予測しようとする結果（ｏｕｔｐｕｔ）を推論できる。

【0037】

プロセッサは、ニューラルネットワークを生成するか、ニューラルネットワークをトレーニング（ｔｒａｉｎｉｎｇ）、又は学習（ｌｅａｒｎ）するか、受信する入力データを基に演算を行い、実行結果を基に情報信号（ｉｎｆｏｒｍａｔｉｏｎｓｉｇｎａｌ）を生成するか、ニューラルネットワークを再トレーニング（ｒｅｔｒａｉｎｉｎｇ）できる。ニューラルネットワークのモデルは、ＧｏｏｇｌｅＮｅｔ、ＡｌｅｘＮｅｔ、ＶＧＧＮｅｔｗｏｒｋなどのようなＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ）、Ｒ－ＣＮＮ（ＲｅｇｉｏｎｗｉｔｈＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）、Ｓ－ＤＮＮ（Ｓｔａｃｋｉｎｇ－ｂａｓｅｄｄｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）、Ｓ－ＳＤＮＮ（Ｓｔａｔｅ－ＳｐａｃｅＤｙｎａｍｉｃＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＤｅｃｏｎｖｏｌｕｔｉｏｎＮｅｔｗｏｒｋ、ＤＢＮ（ＤｅｅｐＢｅｌｉｅｆＮｅｔｗｏｒｋ）、ＲＢＭ（ＲｅｓｔｒｃｔｅｄＢｏｌｔｚｍａｎＭａｃｈｉｎｅ）、ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）Ｎｅｔｗｏｒｋ、ＣｌａｓｓｉｆｉｃａｔｉｏｎＮｅｔｗｏｒｋなど多様な種類のモデルを含むことができるが、これに制限されるものではない。プロセッサは、ニューラルネットワークのモデルによる演算を行うための１つ以上のプロセッサを含むことができる。例えば、ニューラルネットワークは、ディープニューラルネットワーク（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）を含むことができる。

【0038】

ニューラルネットワークは、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）、パーセプトロン（ｐｅｒｃｅｐｔｒｏｎ）、多層パーセプトロン（ｍｕｌｔｉｌａｙｅｒｐｅｒｃｅｐｔｒｏｎ）、ＦＦ（ＦｅｅｄＦｏｒｗａｒｄ）、ＲＢＦ（ＲａｄｉａｌＢａｓｉｓＮｅｔｗｏｒｋ）、ＤＦＦ（ＤｅｅｐＦｅｅｄＦｏｒｗａｒｄ）、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）、ＧＲＵ（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ）、ＡＥ（ＡｕｔｏＥｎｃｏｄｅｒ）、ＶＡＥ（ＶａｒｉａｔｉｏｎａｌＡｕｔｏＥｎｃｏｄｅｒ）、ＤＡＥ（ＤｅｎｏｉｓｉｎｇＡｕｔｏＥｎｃｏｄｅｒ）、ＳＡＥ（ＳｐａｒｓｅＡｕｔｏＥｎｃｏｄｅｒ）、ＭＣ（ＭａｒｋｏｖＣｈａｉｎ）、ＨＮ（ＨｏｐｆｉｅｌｄＮｅｔｗｏｒｋ）、ＢＭ（ＢｏｌｔｚｍａｎｎＭａｃｈｉｎｅ）、ＲＢＭ（ＲｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎＭａｃｈｉｎｅ）、ＤＢＮ（ＤｅeｐＢｅｌｉｅｆＮｅｔｗｏｒｋ）、ＤＣＮ（ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）、ＤＮ（ＤｅｃｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）、ＤＣＩＧＮ（ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＩｎｖｅｒｓｅＧｒａｐｈｉｃｓＮｅｔｗｏｒｋ）、ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）、ＬＳＭ（ＬｉｑｕｉｄＳｔａｔｅＭａｃｈｉｎｅ）、ＥＬＭ（ＥｘｔｒｅｍｅＬｅａｒｎｉｎｇＭａｃｈｉｎｅ）、ＥＳＮ（ＥｃｈｏＳｔａｔｅＮｅｔｗｏｒｋ）、ＤＲＮ（ＤｅｅｐＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ）、ＤＮＣ（ＤｉｆｆｅｒｅｎｔｉａｂｌｅＮｅｕｒａｌＣｏｍｐｕｔｅｒ）、ＮＴＭ（ＮｅｕｒａｌＴｕｒｎｉｎｇＭａｃｈｉｎｅ）、ＣＮ（ＣａｐｓｕｌｅＮｅｔｗｏｒｋ）、ＫＮ（ＫｏｈｏｎｅｎＮｅｔｗｏｒｋ）、及びＡＮ（ＡｔｅｎｔｉｏｎＮｅｔｗｏｒｋ）を含むことができるが、これに限定されるものではなく、任意のニューラルネットワークを含むことができることは通常の技術者が理解するだろう。

【0039】

本開示の例示的な実施例によれば、プロセッサはＧｏｏｇｌｅＮｅｔ、ＡｌｅｘＮｅｔ、ＶＧＧＮｅｔｗｏｒｋなどのようなＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ）、Ｒ－ＣＮＮ（ＲｅｇｉｏｎｗｉｔｈＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）、Ｓ－ＤＮＮ（Ｓｔａｃｋｉｎｇ－ｂａｓｅｄＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）、Ｓ－ＳＤＮＮ（Ｓｔａｔｅ－ＳｐａｃｅＤｙｎａｍｉｃＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＤｅｃｏｎｖｏｌｕｔｉｏｎＮｅｔｗｏｒｋ、ＤＢＮ（ＤｅｅｐＢｅｌｉｅｆＮｅｔｗｏｒｋ）、ＲＢＭ（ＲｅｓｔｒｃｔｅｄＢｏｌｔｚｍａｎＭａｃｈｉｎｅ）、ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）Ｎｅｔｗｏｒｋ、ＣｌａｓｓｉｆｉｃａｔｉｏｎＮｅｔｗｏｒｋ、ＧｅｎｅｒａｔｉｖｅＭｏｄｅｌｉｎｇ、ｅＸｐｌａｉｎａｂｌｅＡＩ、ＣｏｎｔｉｎｕａｌＡＩ、ＲｅｐｒｅｓｅｎｔａｔｉｏｎＬｅａｒｎｉｎｇ、ＡＩｆｏｒＭａｔｅｒｉａｌＤｅｓｉｇｎ、自然言語処理のためのＢＥＲＴ、ＳＰ‐ＢＥＲＴ、ＭＲＣ／ＱＡ、ＴｅｘｔＡｎａｌｙｓｉｓ、ＤｉａｌｏｇＳｙｓｔｅｍ、ＧＰＴ－３、ＧＰＴ－４、ビジョン処理のためのＶｉｓｕａｌＡｎａｌｙｔｉｃｓ、ＶｉｓｕａｌＵｎｄｅｒｓｔａｎｄｉｎｇ、ＶｉｄｅｏＳｙｎｔｈｅｓｉｓ、ＲｅｓＮｅｔデータ知能のためのＡｎｏｍａｌｙＤｅｔｅｃｔｉｏｎ、Ｐｒｅｄｉｃｔｉｏｎ、Ｔｉｍｅ－ＳｅｒｉｅｓＦｏｒｅｃａｓｔｉｎｇ、Ｏｐｔｉｍｉｚａｔｉｏｎ、Ｒｅｃｏｍｍｅｎｄａｔｉｏｎ、ＤａｔａＣｒｅａｔｉｏｎなど多様な人工知能構造及びアルゴリズムを用いることができ、これに制限されない。以下、添付の図面を参照して本開示の実施例を詳細に説明する。

【0040】

対象文書は、検証装置が引用の妥当性及び引用の有効性を検証する対象となる文献であり得る。対象文書は、ある主題に関する情報、内容、データ又は記録を含む書面又は電子的な形態のファイルであって、単行本、学位論文、ジャーナル論文、雑誌記事、新聞記事、報告書、その他のオンライン資料のように多様な形式があり得る。

【0041】

被引用文献は、対象文書から引用した文句の元の出典となる文献であり得る。

【0042】

引用領域は、他の文書から引用した内容と該当内容が引用されたことを表示する領域であり、参考文献領域は、引用した文書（被引用文書）の情報を記載する領域であり得る。引用領域は、対象文書の本文中で被引用文献の一部を引用した部分である引用文句と被引用文献に関連する情報である引用情報を含むことができる。

【0043】

図１は、引用文献の真偽を検証するシステムに関連する図である。

【0044】

図１を参照すると、引用文献の真偽を検証するシステムは、検証対象文書１０、対象文書１０から引用した被引用文献２０の真偽を検証する検証装置１００及び被引用文献２０の情報を格納するサーバ２００を含むことができる。

【0045】

対象文書１０は、ある主題に関する情報、内容、データ又は記録を含む書面又は電子的な形態のファイルであって、単行本、学位論文、ジャーナル論文、雑誌記事、新聞記事、報告書、その他のオンライン資料のように多様な形式があり得る。対象文書１０は、本文中に他の文書（被引用文書）の一部の内容を引用でき、多様な引用文献の表記方式に従って引用した文献の出典を表示できる。多様な引用文献の表記方式に従って、対象文書１０は、引用領域１１と参考文献領域１２を含むことができる。例えば、引用領域１１は、被引用文献２０から引用した内容と該当内容が引用されたことを表示する領域であり、参考文献領域１２は、被引用文献２０の情報を記載する領域であり得る。

【0046】

例えば、引用文献の表記方式は、ＡＰＡスタイル、Ｃｈｉｃａｇｏスタイル、ＭＬＡスタイル、Ｖａｎｃｏｕｖｅｒスタイル、ＡＭＡスタイルなど多様な形態を含むことができる。

【0047】

ＡＰＡスタイルは、アメリカ心理学会（ＡｍｅｒｉｃａｎＰｓｙｃｈｏｌｏｇｉｃａｌＡｓｓｏｃｉａｇｉｏｎ：ＡＰＡ）により出版された引用ガイドであって、本文で引用した部分を文中引用で簡略に表示し、完全な引用情報は、参考文献から探す文中引用－参考文献方式である。ＡＰＡスタイルは、文中引用では「（著者名、出版年）」又は「（著者名、出版年、引用ページ）」を記載し、参考文献領域１２には、「著者名.（出版年）．タイトル（版）．発行元」を記載するスタイルである。

【0048】

Ｃｈｉｃａｇｏスタイルは、シカゴ大学出版局により出版された引用ガイドであって、脚注に引用した出典を作成し、それに対応する参考文献を作成する脚注－参考文献方式又は資料の本文に引用した出典を作成する文中引用－参考文献方式である。Ｃｈｉｃａｇｏスタイルの脚注－参考文献方式は、引用する節又は文末に上付き文字でアラビア数字を表示し、脚注に「著者名、タイトル（出版地：出版社、出版年）、引用ページ数」を記載し、参考文献領域１２には、「著者名、タイトル、出版地：出版社、出版年」を記載するスタイルである。Ｃｈｉｃａｇｏスタイルの文中引用－参考文献方式は、文中引用に「著者名、出版年、引用ページ数」を記載し、参考文献領域１２には、「著者名．出版年．タイトル．出版地：出版社」を記載するスタイルである。

【0049】

ＭＬＡスタイルは、ＭｏｄｅｒｎＬａｎｇｕａｇｅＡｓｓｏｃｉａｔｉｏｎにより出版された引用ガイドであって、本文で引用した部分を簡略に表示する。完全な引用情報は、参考文献から探す方式である文中引用－参考文献方式である。ＭＬＡスタイルは、文中引用には「著者ページ」を記載し、参考文献領域１２には「著者名．表題．発行年」を記載するスタイルである。

【0050】

Ｖａｎｃｏｕｖｅｒスタイルは、バンクーバーグループにより出版された引用ガイドであって、本文において数字で引用し、数字に対応する引用情報を参考文献で記載する方式である。Ｖａｎｃｏｕｖｅｒスタイルは、本文には（）括弧、［］括弧及び／又は上付き文字で数字を表記し、参考文献領域１２には、「著者名．図書名．版事項．出版社の住所地：出版社名、発行年、本の言語」を記載する方式である。

【0051】

ＡＭＡスタイルは、米国医師会（ＡｍｅｒｉｃａｎＭｅｄｉｃａｌＡｓｓｏｃｉａｔｉｏｎ）により発行された引用ガイドであって、本文において数字で引用し、数字に対応する引用情報を参考文献で記載する方式である。ＡＭＡスタイルは、本文には上付き文字で数字を表記し、参考文献領域１２には、「著者名．図書名．版事項．出版社の住所地：出版社名；発行年．」を記載する方式である。

【0052】

本明細書で指示する引用文献の表記方式は、前記例示又はその他に定義されたスタイルに限定されず、定義されたスタイル以外にも外部文書の内容が引用されたことを指示する多様な形態の表記を含むことができる。

【0053】

多様な実施例に係る検証装置１００は、対象文書１０で引用した被引用文献２０の真偽を検証できる。具体的に、検証装置１００は、対象文書１０で引用された被引用文献２０と関連して、引用の妥当性及び引用の有効性を検証できる。例えば、引用の妥当性は、本文中に引用領域１１に記載されている被引用文献２０の情報と参考文献領域１２に記載されている被引用文献２０の情報が一致するか否かに関連する指標であり得る。例えば、引用の有効性は、引用領域１１及び参考文献領域１２に記載されている被引用文献２０の情報がサーバ２００に格納された被引用文献２０の情報と一致するか否かに関連する指標であり得る。

【0054】

検証装置１００の具体的な構成及び動作は、図２及び図３に関する説明で後述する。

【0055】

図２は、本開示の検証装置１００のブロック図である。

【0056】

図２を参照すると、本開示に係る検証装置１００は、格納部１１０、制御部１２０、入力部１３０及び／又は通信部１４０などを含むことができる。図２に示す構成要素は、本開示に係る検証装置１００を実現する上で必須なものではないため、本明細書上で説明される検証装置１００は、上述した構成要素よりも多いか、又は少ない構成要素を有することができる。

【0057】

格納部１１０は、メモリであり得る。メモリは、本装置の多様な機能を支援するデータと、制御部１２０の動作のためのプログラムを格納でき、入／出力されるデータ（例えば、音楽ファイル、静止画、動画など）を格納することができ、本装置で駆動される多数のアプリケーションプログラム（ａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍ又はアプリケーション（ａｐｐｌｉｃａｔｉｏｎ））、本装置の動作のためのデータ、命令語などを格納できる。これらのアプリケーションプログラムのうちの少なくとも一部は、無線通信を介して外部サーバ２００からダウンロードできる。

【0058】

このようなメモリは、フラッシュメモリタイプ（ｆｌａｓｈｍｅｍｏｒｙｔｙｐｅ）、ハードディスクタイプ（ｈａｒｄｄｉｓｋｔｙｐｅ）、ＳＳＤタイプ（ＳｏｌｉｄＳｔａｔｅＤｉｓｋｔｙｐｅ）、ＳＤＤタイプ（ＳｉｌｉｃｏｎＤｉｓｋＤｒｉｖｅｔｙｐｅ）、マルチメディアカードマイクロタイプ（ｍｕｌｔｉｍｅｄｉａｃａｒｄｍｉｃｒｏｔｙｐｅ）、カードタイプのメモリ（例えば、ＳＤ又はＸＤメモリなど）、ラム（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ：ＲＡＭ）、ＳＲＡＭ（ｓｔａｔｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ロム（ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ：ＲＯＭ）、ＥＥＰＲＯＭ（ｅｌｅｃｔｒｉｃａｌｌｙｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄ‐ｏｎｌｙｍｅｍｏｒｙ）、ＰＲＯＭ（ｐｒｏｇｒａｍｍａｂｌｅｒｅａｄ‐ｏｎｌｙｍｅｍｏｒｙ）、磁気メモリ、磁気ディスク及び光ディスクのうちの少なくとも１つのタイプの格納媒体を含むことができる。また、メモリは、本装置とは分離されているが、有線又は無線で接続されたデータベースになることもできる。

【0059】

多様な実施例に係る格納部１１０は、パターン辞書１１１を格納できる。

【0060】

一実施例に係るパターン辞書１１１は、ｎ個の形式と記号で構成され、引用文献の表記方式に従って引用情報及び／又は参考文献情報を表示する形式を格納できる。例えば、パターン辞書１１１は、引用領域１１及び／又は参考文献領域１２に含まれている被引用文献２０の情報の構成（例えば、著者名、引用ページ、出版社名）、情報を区分する記号（例えば、コンマ、ピリオド、二重引用符）、情報の種類を指示する指定された文字列（例えば、ｐｐ、ｅｔａｌ）、指定された規則（例えば、著者名：Ａｕｔｈｏｒ、ページ：ｐ．３２、年度：２０２２年）の順序及び表示方法（例えば、文中引用：「（著者名、出版年）」、参考文献領域１２：「著者名．（出版年）．タイトル（版）、発行元．」／文中引用：（）括弧、［］括弧及び／又は上付き文字で数字表記、参考文献領域１２：「著者名．図書名．版事項．出版社の住所地：出版社名；発行年、本の言語」）のように引用情報及び／又は参考文献情報を表示する形式に関する情報を格納できる。

【0061】

制御部１２０は、本装置内の構成要素の動作を制御するためのアルゴリズム又はアルゴリズムを再現したプログラムに関するデータを格納するメモリ、及びメモリに格納されたデータを用いて前述した動作を行う少なくとも１つのプロセッサ（図示せず）により実現できる。このとき、メモリとプロセッサは、それぞれ別のチップにより実現できる。または、メモリとプロセッサは、単一のチップにより実現することもできる。

【0062】

また、制御部１２０は、以下の図２ないし図６で説明される本開示に係る多様な実施例を本装置上で実現するために、上述した構成要素のうちの何れか１つ又は複数を組み合わせて制御できる。

【0063】

多様な実施例に係る制御部１２０は、パターン構築部１２１、抽出部１２２、妥当性検証部１２３、検索部１２４及び／又は有効性検証部１２５を含むことができる。

【0064】

多様な実施例に係るパターン構築部１２１は、引用文献の表記方式をパターン化し、引用情報及び／又は参考文献情報の表記に関連するパターン辞書１１１を生成できる。例えば、引用文献の表記方式は、ＡＰＡスタイル、Ｃｈｉｃａｇｏスタイル、ＭＬＡスタイル、Ｖａｎｃｏｕｖｅｒスタイル、ＡＭＡスタイルを含む多様な定義されたスタイルを含むことができ、引用文献の表記方式は、これに限定されるものではなく、定義されたスタイル以外にも外部文書の内容が引用されたことを指示する多様な形態の表記を含むことができる。

【0065】

多様な実施例に係る抽出部１２２は、参考文献領域１２及び／又は引用領域１１を抽出し、参考文献領域１２及び引用領域１１に記載されている書誌情報を抽出できる。

【0066】

一実施例によれば、抽出部１２２は、入力部１３０から真偽を検証する対象文書１０を取得し、入力部１３０から得られた対象文書１０から参考文献領域１２を抽出できる。

【0067】

一実施例によれば、抽出部１２２は、文書で参考文献領域１２の開始点と最後の地点を探し、参考文献の開始点から最後の地点までを参考文献領域１２として決定できる。例えば、抽出部１２２は、辞書定義規則に基づいて、参考文献領域１２の開始点のキーワードを確認できる。例えば、抽出部１２２は、辞書定義規則及び／又はサーバ２００に格納された多様なデータを学習した人工知能モデルに基づいて、参考文献の最後の地点を確認できる。

【0068】

一実施例に係る抽出部１２２は、引用領域１１を抽出できる。

【0069】

一実施例によれば、抽出部１２２は、入力部１３０から得られた文書から、本文中の被引用文献の一部を引用した部分である引用文句と引用した被引用文献に関連する情報である引用情報を含む引用領域１１を抽出できる。例えば、抽出部１２２は、パターン構築部１２１が生成したパターン辞書１１１に基づいて、文書の本文中の引用領域１１を抽出できる。

【0070】

一実施例に係る抽出部１２２は、書誌情報を抽出できる。例えば、抽出部１２２は、参考文献領域１２及び／又は引用領域１１から、指定された規則に基づいて書誌情報を抽出できる。例えば、書誌情報は、著者、年度、タイトル、ページ、出版社、ＵＲＬなどのように引用情報及び／又は参考文献情報の構成であり得る。

【0071】

一実施例に係る抽出部１２２は、抽出した書誌情報とディープラーニングにより学習された書誌情報抽出モデルとを比較して、抽出した書誌情報を検証できる。

【0072】

多様な実施例に係る妥当性検証部１２３は、引用の妥当性を検証できる。

【0073】

例えば、引用の妥当性は、本文中に引用領域１１に記載されている被引用文献２０の情報と参考文献領域１２に記載されている被引用文献２０の情報が一致するか否かに関連する指標であり得る。

【0074】

一実施例によれば、妥当性検証部１２３は、検証した最終の書誌情報に基づいて、引用領域１１から抽出した書誌情報と参考文献領域１２から抽出した書誌情報とを比較して引用の妥当性を検証できる。

【0075】

例えば、妥当性検証部１２３は、引用領域１１から抽出した書誌情報と参考文献領域１２から抽出した書誌情報との一致率を確認し、最も高い値の一致率を有する出典に対して一致する形式の個数を求め、個数が２つ以上の場合は、参考文献に記載した文書に関する情報が本文中に引用表記されている、即ち、引用妥当であると判断できる。

【0076】

多様な実施例に係る検索部１２４は、妥当性を検証した書誌情報に基づいて、通信部１４０を用いてサーバ２００で書誌情報に対応する被引用文献２０を検索できる。

【0077】

例えば、検索部１２４は、通信部１４０を介してサーバ２００から被引用文献２０に関する情報を取得できる。サーバ２００には、学術論文、報告書などのような多様な文書を含むメタデータＤＢが含まれることができる。

【0078】

例えば、検索部１２４は、検索された被引用文献２０を、通信部１４０を介してサーバ２００から取得できる。

【0079】

多様な実施例に係る有効性検証部１２５は、引用の有効性を検証できる。

【0080】

例えば、引用の有効性は、本文中の引用文句が被引用文献２０に記載されているか否かに関連する指標であり得る。引用の有効性は、文章レベルで引用文句と被引用文献２０に含まれている文句との表面的な一致性及び／又は意味的な類似性に関連する指標であり得る。

【0081】

例えば、有効性検証部１２５は、被引用文献２０を文字単位で区分し、文章レベルで引用文句と表面的な一致性を確認できる。例えば、表面的な一致性は、単に文章の構成要素や単語が一致する程度を指示する指標であり得る。

【0082】

例えば、有効性検証部１２５は、引用文句と被引用文献２０に含まれている文句との意味的な類似性を確認できる。例えば、意味的な類似性は、両文章が単語や構造が異なっていても意味的に類似しているか、同一の意味を伝達するかに関連する指標であり得る。

【0083】

例えば、有効性検証部１２５は、表面的な一致性及び／又は意味的な類似性の指標が指定された値（例えば、８０％）以上であることに対応して、引用文句が有効であると判断できる。

【0084】

通信部１４０は、外部装置と通信を可能にする１つ以上の構成要素を含むことができ、例えば、有線通信モジュール及び／又は無線通信モジュールを含むことができる。

【0085】

有線通信モジュールは、構内通信網（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ：ＬＡＮ）モジュール、広域通信網（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ：ＷＡＮ）モジュール又は付加価値通信（ＶａｌｕｅＡｄｄｅｄＮｅｔｗｏｒｋ：ＶＡＮ）モジュールなど多様な有線通信モジュールだけでなく、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）、ＨＤＭＩ（登録商標）（ＨｉｇｈＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）、ＤＶＩ（ＤｉｇｉｔａｌＶｉｓｕａｌＩｎｔｅｒｆａｃｅ）、ＲＳ－２３２（ｒｅｃｏｍｍｅｎｄｅｄｓｔａｎｄａｒｄ２３２）、電力線通信、又はＰＯＴＳ（ｐｌａｉｎｏｌｄｔｅｌｅｐｈｏｎｅｓｅｒｖｉｃｅ）など多様なケーブル通信モジュールを含むことができる。

【0086】

無線通信モジュールは、ワイファイ（登録商標）（Ｗｉｆｉ（登録商標））モジュール、ワイブロ（Ｗｉｒｅｌｅｓｓｂｒｏａｄｂａｎｄ）モジュール以外にも、ＧＳＭ（ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅＣｏｍｍｕｎｉｃａｔｉｏｎ）、ＣＤＭＡ（登録商標）（ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ）、ＷＣＤＭＡ（登録商標）（ＷｉｄｅｂａｎｄＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ）、ＵＭＴＳ（ＵｎｉｖｅｒｓａｌＭｏｂｉｌｅＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｙｓｔｅｍ）、ＴＤＭＡ（ＴｉｍｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ）、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）及び４Ｇ、５Ｇ、６Ｇなど多様な無線通信方式を支援する無線通信モジュールを更に含むことができる。

【0087】

無線通信モジュールは、移動通信信号を送信するアンテナ及び送信機（Ｔｒａｎｓｍｉｔｔｅｒ）を含む無線通信インターフェースを含むことができる。また、無線通信モジュールは、制御部１２０の制御によって無線通信インターフェースを介して制御部１２０から出力されたデジタル制御信号をアナログ形態の無線信号に変調する信号変換モジュールを更に含むことができる。

【0088】

無線通信モジュールは、移動通信信号を受信するアンテナ及び受信機（Ｒｅｃｅｉｖｅｒ）を含む無線通信インターフェースを含むことができる。また、無線通信モジュールは、無線通信インターフェースを介して受信したアナログ形態の無線信号をデジタル制御信号に復調するための信号変換モジュールを更に含むことができる。

【0089】

入力部１３０は、データ又はユーザから入力される情報の入力のためのものであって、少なくとも１つのカメラ、少なくとも１つのマイクロフォン及びユーザ入力部１３０のうちの少なくとも１つを含むことができる。入力部１３０で収集した音声データやイメージデータは分析され、ユーザの制御命令で処理できる。

【0090】

ユーザ入力部１３０は、ユーザから情報の入力を受けるためのものであって、ユーザ入力部１３０を介して情報が入力されると、制御部１２０は、入力された情報に対応するように本装置の動作を制御できる。このようなユーザ入力部１３０は、ハードウェア式物理キー（例えば、本装置の前面、後面及び側面のうちの少なくとも１つに位置するボタン、ドームスイッチ（ｄｏｍｅｓｗｉｔｃｈ）、ジョグホイール、ジョグスイッチなど）及びソフトウェア式タッチキーを含むことができる。一例として、タッチキーは、ソフトウェア的な処理によってタッチスクリーンタイプのディスプレイ部上に表示される仮想キー（ｖｉｒｔｕａｌｋｅｙ）、ソフトキー（ｓｏｆｔｋｅｙ）又はビジュアルキー（ｖｉｓｕａｌｋｅｙ）からなるか、前記タッチスクリーン以外の部分に配置されるタッチキー（ｔｏｕｃｈｋｅｙ）からなることができる。一方、前記仮想キー又はビジュアルキーは、多様な形態を有しながら、タッチスクリーン上に表示されることが可能であり、例えばグラフィック（ｇｒａｐｈｉｃ）、テキスト（ｔｅｘｔ）、アイコン（ｉｃｏｎ）、ビデオ（ｖｉｄｅｏ）又はこれらの組み合わせからなることができる。

【0091】

一実施例によれば、入力部１３０は、引用文献の真偽を検証する文書を取得できる。例えば、対象文書１０は、ある主題に関する情報、内容、データ又は記録を含む書面又は電子的な形式のファイルであって、単行本、学位論文、ジャーナル論文、雑誌記事、新聞記事、報告書、その他のオンライン資料のように多様な形式があり得る。対象文書１０は、本文中に他の文書（被引用文書）における一部の内容を引用でき、多様な引用文献の表記方式に従って引用した文献の出典を表示できる。

【0092】

本開示に係る検証装置は、引用文献の表記方式のパターン辞書を生成し、前記入力部から得られた対象文書から参考文献領域を抽出し、前記対象文書の本文中で被引用文献の一部を引用した部分である引用文句と前記被引用文献に関連する情報である引用情報を含む引用領域を抽出し、前記引用領域及び前記参考文献領域の書誌情報を抽出し、前記引用領域の書誌情報と前記参考文献領域の書誌情報が一致するか否かに関連する引用の妥当性を検証し、前記引用文句が前記被引用文献に記載されているか否かに関連する引用の有効性を検証できる。

【0093】

また、本開示に係る検証装置は、辞書定義規則に基づいて、前記対象文書から参考文献領域の開始点と最後の地点を探して前記開始点から前記最後の地点までを前記参考文献領域として抽出し、自然言語処理技術に基づいて、前記対象文書の本文中のテキストを語節及び／又は記号単位で分離し、前記パターン辞書に含まれている引用パターンと一致する領域を引用領域として抽出し、指定された規則基盤アルゴリズムに基づいて前記参考文献領域及び前記引用領域の書誌情報を抽出できる。

【0094】

更に、本開示に係る検証装置は、前記抽出した書誌情報に基づいて、前記通信部を用いてサーバに前記書誌情報に対応する被引用文献を検索し、前記検索した被引用文献を前記通信部を介して取得し、前記引用文句と前記被引用文献の表面的な一致性を確認し、前記引用文句と前記被引用文献の意味的な類似性を確認して前記引用文句が前記被引用文献に記載されているか否かに関連する引用の有効性を検証できる。

【0095】

図２に示す構成要素の性能に対応して、少なくとも１つの構成要素が追加又は削除されることができる。また、構成要素の相互位置は、システムの性能又は構造に対応して変更できるということは、当該技術分野における通常の知識を有する者であれば容易に理解できるだろう。

【0096】

一方、図２に示すそれぞれの構成要素は、ソフトウェア及び／又はＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ（ＦＰＧＡ）及び特定用途向け半導体（ＡＳＩＣ、ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）のようなハードウェア構成要素を意味する。

【0097】

図３は、本開示の検証装置１００が引用文献の真偽を検証する動作のフローチャートである。

【0098】

多様な実施例に係る制御部１２０は、動作１０１０において、引用情報及び／又は参考文献の表記パターン辞書１１１を生成できる。

【0099】

一実施例によれば、制御部１２０は、引用文献の表記方式をパターン化し、引用情報及び／又は参考文献情報の表記に関連するパターン辞書１１１を生成できる。例えば、引用文献の表記方式は、ＡＰＡスタイル、Ｃｈｉｃａｇｏスタイル、ＭＬＡスタイル、Ｖａｎｃｏｕｖｅｒスタイル、ＡＭＡスタイルを含む多様な定義されたスタイルを含むことができる。引用文献の表記方式は、これに限定されるものではなく、定義されたスタイル以外にも外部文書の内容が引用されたことを指示する多様な形態の表記を含むことができる。

【0100】

パターン辞書１１１は、ｎ個の形式と記号で構成され、引用文献の表記方式に従って、引用情報及び／又は参考文献情報を表示する形式で構成されることができる。例えば、パターン辞書１１１に含まれている引用文献の表記方式のパターンは、引用領域１１及び／又は参考文献領域１２に含まれている被引用文献２０の情報の構成（例えば、著者名、引用ページ、出版社名）、情報を区分する記号（例えば、コンマ、ピリオド、二重引用符）、情報の種類を指示する指定された文字列（例えば、ｐｐ、ｅｔａｌ）、指定された表記規則（例えば、著者名：Ａｕｔｈｏｒ、ページ：ｐ.３２、年度：２０２２年）の順序及び表示方法（例えば、文中引用：「著者名、（出版年）」、参考文献領域１２：「著者名．（出版年）．タイトル（版）．発行元．」／文中引用：（）括弧、［］括弧及び／又は上付き文字で数字表記、参考文献領域１２：「著者名．図書名．版事項．出版社の住所地：出版社名；発行年、本の言語」）のように引用情報及び／又は参考文献情報を表示する形式に関する情報を格納できる。

【0101】

引用領域１１は、被引用文献の一部を引用した部分である引用文句と引用した被引用文献に関連する情報である引用情報を含むことができる。

【0102】

一実施例によれば、制御部１２０は、人工知能モデルをサーバ２００に格納された多様なデータにより学習させてパターン辞書１１１を生成できる。

【0103】

多様な実施例に係る制御部１２０は、動作１０２０において、参考文献領域１２を抽出できる。

【0104】

一実施例によれば、入力部１３０は、引用文献の真偽を検証する文書を取得できる。例えば、対象文書１０は、ある主題に関する情報、内容、データ又は記録を含む書面又は電子的な形式のファイルであって、単行本、学位論文、ジャーナル論文、雑誌記事、新聞記事、報告書、その他のオンライン資料のように多様な形式があり得る。対象文書１０は、本文中に他の文書（被引用文書）の一部の内容を引用でき、多様な引用文献の表記方式に従って引用した文献の出典を表示できる。

【0105】

一実施例によると、制御部１２０は、入力部１３０から真偽を検証する文書を取得し、入力部１３０から得られた文書から参考文献領域１２を抽出できる。

【0106】

一実施例によれば、制御部１２０は、文書で参考文献領域１２の開始点と最後の地点を探し、参考文献の開始点から最後の地点までを参考文献領域１２として決定できる。例えば、制御部１２０は、辞書定義規則に基づいて、参考文献領域１２の開始点のキーワードを確認できる。例えば、参考文献領域１２の開始点のキーワードは、「参考文献」、「ｒｅｆｅｒｅｎｃｅ」のように参考文献領域１２の開始を指示する単語及び／又は文章であり得る。例えば、制御部１２０は、辞書定義規則及び／又はサーバ２００に格納された多様なデータを学習した人工知能モデルに基づいて、参考文献の最後の地点を確認できる。

【0107】

多様な実施例に係る制御部１２０は、動作１０３０において、引用領域１１を抽出できる。

【0108】

一実施例によれば、制御部１２０は、入力部１３０から得られた文書から、本文中の被引用文献の一部を引用した部分である引用文句と引用した被引用文献に関連する情報である引用情報を含む引用領域１１を抽出できる。

【0109】

例えば、制御部１２０は、動作１０１０で生成したパターン辞書１１１に基づいて、文書の本文中の引用領域１１を抽出できる。制御部１２０は、自然言語処理技術に基づいて、文書の本文中のテキストを語節及び／又は記号単位で分離し、パターン辞書１１１に含まれている引用パターンと一致する領域を引用領域１１として抽出できる。

【0110】

例えば、制御部１２０は、サーバ２００に格納された多様なデータを学習した人工知能モデルを用いて、文書の本文中の引用領域１１を抽出できる。

【0111】

多様な実施例に係る制御部１２０は、動作１０４０において、書誌情報を抽出できる。

【0112】

一実施例によれば、制御部１２０は、動作１０２０で抽出した参考文献領域１２及び／又は動作１０３０で抽出した引用領域１１から、指定された規則基盤アルゴリズムに基づいて書誌情報を抽出できる。例えば、書誌情報は、著者、年度、タイトル、ページ、出版社、ＵＲＬなどのように引用情報及び／又は参考文献情報の構成であり得る。

【0113】

一実施例によれば、制御部１２０は、引用領域１１及び／又は参考文献情報を記号基準に分離し、指定された文字列を認識できる。

【0114】

記号は、コンマ（、）、ピリオド（．）、二重引用符（”）、ハイフン（－）などのように情報を区分する方式による記号であり得る。

【0115】

指定された文字列は、「ｐｐ」、「ｐ」などのページであることが分かる文字列、「ｅｔａｌ」、「外」など著者領域であることが分かる文字列、「ｈｔｔｐｓ」、「ｗｗｗ」などのｕｒｌであることが分かる文字列などのように情報の種類を指示する文字列を含むことができる。

【0116】

一実施例によれば、制御部１２０は、指定された規則に基づいて書誌情報を抽出できる。

【0117】

指定された規則は、「Ａｕｔｈｏｒ，Ａ．Ａ．」又は「ＡｕｔｈｏｒＡＡ」のような著者表記パターン、「ｐ．３２」又は「ｐｐ．６３－６４」のようなページ表記パターン、「（２０２２）」又は「２０２２年」のような発行年の表記パターンを含むことができる。

【0118】

多様な実施例に係る制御部１２０は、動作１０５０において、書誌情報を検証できる。

【0119】

一実施例によれば、制御部１２０は、動作１０４０において、指定された規則に基づいて抽出した書誌情報とディープラーニングにより学習された書誌情報抽出モデルとを比較して動作１０４０で抽出した書誌情報を検証できる。

【0120】

一実施例によれば、制御部１２０は、ディープラーニングにより学習された書誌情報抽出人工知能モデルを用いて引用領域１１から書誌情報を抽出できる。例えば、書誌情報抽出モデルは、技法は非定型テキストから個体名を人名、場所、時間表現など予め定義された項目に分類して抽出するＮＥＲ（ＮａｍｅｄＥｎｔｉｔｙＲｅｃｏｇｎｉｔｉｏｎ）書誌情報抽出モデルであり得る。例えば、制御部１２０は、書誌情報抽出モデルに引用領域１１に関連する情報を入力し、年度、タイトル、出版社、ページなどの項目に分類され、各形式のテキスト値及び位置情報を含む情報の出力を受けることができる。

【0121】

一実施例によれば、制御部１２０は、動作１０４０において、指定された規則に基づいて抽出した書誌情報とディープラーニングにより学習された書誌情報抽出モデルを用いて抽出した書誌情報が一致することに対応して、最終の書誌情報として決定できる。

【0122】

一実施例によれば、制御部１２０は、動作１０４０において、指定された規則に基づいて抽出した書誌情報とディープラーニングにより学習された書誌情報抽出モデルを用いて抽出した書誌情報が一致しないことに対応して、ディープラーニングにより学習された書誌情報抽出モデルを用いて抽出した書誌情報を最終の書誌情報として決定できる。

【0123】

多様な実施例に係る制御部１２０は、動作１０６０において、引用の妥当性を検証できる。

【0124】

【0125】

一実施例によれば、制御部１２０は、動作１０５０で検証した最終の書誌情報に基づいて、引用領域１１から抽出した書誌情報と参考文献領域１２から抽出した書誌情報とを比較して引用の妥当性を検証できる。

【0126】

例えば、制御部１２０は、引用領域１１から抽出した書誌情報と参考文献領域１２から抽出した書誌情報との一致率を確認できる。

【0127】

例えば、制御部１２０は、最も高い値の一致率を有する出典に対して一致する形式の個数を求め、個数が２つ以上の場合、参考文献に記載した文書に関する情報が本文中に引用表記されている、即ち、引用妥当であると判断できる。

【0128】

多様な実施例に係る制御部１２０は、動作１０７０において、引用の有効性を検証できる。

【0129】

【0130】

制御部１２０は、通信部１４０を介してサーバ２００から被引用文献２０に関する情報を取得できる。サーバ２００には、学術論文、報告書などのような多様な文書を含むメタデータＤＢを含めることができる。

【0131】

一実施例によれば、制御部１２０は、動作１０６０で妥当性を検証した書誌情報に基づいて、通信部１４０を用いてサーバ２００で書誌情報に対応する被引用文献２０を検索できる。

【0132】

一実施例によれば、制御部１２０は、検索された被引用文献２０を通信部１４０を介してサーバ２００から取得できる。

【0133】

一実施例によれば、制御部１２０は、被引用文献２０を文字単位で区分し、文章レベルで引用文句と表面的な一致性を確認できる。例えば、表面的な一致性は、単に文章の構成要素や単語が一致する程度を指示する指標であり得る。

【0134】

一実施例によれば、制御部１２０は、引用文句と被引用文献２０に含まれている文句との意味的な類似性を確認できる。例えば、意味的な類似性は、両文章が単語や構造が異なっていても意味的に類似しているか、同一の意味を伝達するかに関連する指標であり得る。

【0135】

一実施例によれば、制御部１２０は、表面的な一致性及び／又は意味的な類似性の指標が指定された値（例えば、８０％）以上であることに対応して、引用文句が有効であると判断できる。

【0136】

多様な実施例に係る制御部１２０は、動作１０８０において、真偽の有無を検証できる。

【0137】

一実施例によれば、制御部１２０は、文書が引用の妥当性及び引用の有効性が検証されることに対応して、被引用文献２０が実在することを確認できる。

【0138】

図４は、本開示の検証装置１００が動作１０４０において、書誌情報を抽出する方法の例を示す図である。

【0139】

図４を参照すると、制御部１２０は、動作１０２０で抽出した参考文献領域１２及び／又は動作１０３０で抽出した引用領域１１から、指定された規則及びパターンに基づいて書誌情報を抽出できる。例えば、書誌情報は、著者、年度、タイトル、ページ、出版社、ＵＲＬなどのように引用情報及び／又は参考文献情報の構成であり得る。

【0140】

図４の場合、「Ｈｅｍｉｎｇｗａｙ，Ｅ．Ｍ．（１９５２）．ＴｈｅＯｌｄＭａｎａｎｄｔｈｅＳｅａ．ＣｈａｒｌｅｓＳｃｒｉｂｎｅｒ’ｓｓｏｎｓ．」が引用領域１１に記載されているテキストの場合、制御部１２０は、引用領域１１を記号基準に分離できる。

【0141】

例えば、制御部１２０は、ピリオド（．）を基に情報を区分し、各区分された情報を規則基盤アルゴリズムに基づいて、書誌情報を抽出できる。

【0142】

例えば、制御部１２０は、規則基盤アルゴリズムに基づいて、著者表記規則に対応する「Ｈｅｍｉｎｇｗａｙ，Ｅ．Ｍ．」、発行年の表記規則に対応する（１９５２）、タイトルの表記規則に対応する「ＴｈｅＯｌｄＭａｎａｎｄｔｈｅＳｅａ．」、出版社の表記規則に対応する「ＮＹ：ＣｈａｒｌｅｓＳｃｒｉｂｎｅｒ’ｓｓｏｎｓ」を認識し、各書誌情報を抽出できる。この他に規則に対応しない個体名は、ＮＥＲモデルによって追加で抽出できる。

【0143】

図５は、本開示の検証装置１００が動作１０６０において、引用の妥当性を検証する方法の例を示す図である。

【0144】

【0145】

図５の場合、本文中の「（Ｈｅｍｉｎｇｗａｙ，１９５２）」が引用領域１１に記載されているテキストの場合、制御部１２０は、動作１０４０及び動作１０５０で著者情報である「Ｈｅｍｉｎｇｗａｙ」と発行年である「１９５２」をそれぞれ書誌情報として抽出できる。

【0146】

また、参考文献領域１２に「Ｈｅｍｉｎｇｗａｙ，Ｅ．Ｍ．（１９５２）．ＴｈｅＯｌｄＭａｎａｎｄｔｈｅＳｅａ．ＣｈａｒｌｅｓＳｃｒｉｂｎｅｒ’ｓｓｏｎｓ．」が記載されているテキストの場合、制御部１２０は、動作１０４０及び動作１０５０で著者情報である「Ｈｅｍｉｎｇｗａｙ，Ｅ．Ｍ．」、発行年である「１９５２」、タイトルである「ＴｈｅＯｌｄＭａｎａｎｄｔｈｅＳｅａ．」、出版社である「ＣｈａｒｌｅｓＳｃｒｉｂｎｅｒ’ｓｓｏｎｓ」をそれぞれ書誌情報として抽出できる。

【0147】

制御部１２０は、引用領域１１から抽出した書誌情報と参考文献領域１２から抽出した書誌情報との一致率を確認できる。制御部１２０は、書誌情報に選択的重み値を付与して一致率の算定に反映できる。例えば、文字列長が短いか、他の参考文献の形式と一致する可能性が高い書誌情報（例えば、年度、ページなど）は重み値を低く、文字列長が長いか、他の参考文献の形式と一致する可能性が低い書誌情報（例えば、タイトル）は重み値を高く付与できる。このとき、重み値は１～１００の間の値であり得る。

【0148】

一実施例によれば、一致率は、式１のように定義できる。

【0149】

【数1】

【0150】

例えば、制御部１２０は、最も高い値の一致率を有する出典に対して一致する書誌情報の個数を求め、個数が２つ以上の場合は、参考文献に記載した文書に関する情報が本文中に引用表記されている、即ち、引用妥当であると判断できる。

【0151】

図５の場合、著者情報である「Ｈｅｍｉｎｇｗａｙ」と発行年である「１９５２」が引用領域１１及び参考文献領域１２でそれぞれ一致しており、制御部１２０は、一致する書誌情報が２つであることから、引用妥当であると判断できる。

【0152】

図６は、本開示の検証装置１００が動作１０７０において、引用の有効性を検証する方法の具体的な動作のフローチャートを示す図である。

【0153】

多様な実施例によれば、制御部１２０は、動作１０７１において、動作１０６０で妥当性を検証した書誌情報に基づいて通信部１４０を用いてサーバ２００で書誌情報に対応する被引用文献２０を検索できる。サーバ２００には、学術論文、報告書のような多様な文書を含むメタデータＤＢを含めることができる。

【0154】

例えば、制御部１２０は、書誌情報とメタデータの一致率に基づいて被引用文献２０を検索できる。例えば、制御部１２０は、式１によって書誌情報と被引用文献２０の情報との一致率を計算し、最も高い値の一致率を有する被引用文献２０を検索できる。

【0155】

多様な実施例によれば、制御部１２０は、動作１０７２において、検索された被引用文献２０に関連する情報を通信部１４０を介してサーバ２００から取得できる。

【0156】

多様な実施例によれば、制御部１２０は、動作１０７３において、引用文句と被引用文献２０の表面的な一致性を確認できる。

【0157】

一実施例によれば、制御部１２０は、引用文句及び被引用文献２０を文字単位で区分し、文章レベルで引用文句及び被引用文献２０の表面的な一致性を確認できる。例えば、制御部１２０は、被引用文献２０のテキストを自然言語処理方式（例えば、Ｎ個の連続的な単語や文字列を抽出するＮ－ｇｒａｍ方式）で抽出し、抽出された各トークン（例えば、Ｎ個の連続的な単語）が互いに一致するかを確認して表面的な一致性を確認できる。例えば、表面的な一致性は、２つの集合の類似性を測定する指標であるジャカード係数（Ｊａｃｃａｒｄｉｎｄｅｘ）を活用して測定できる。ジャカード係数は、２つの集合で共通して有している要素の個数を２つの集合の全体要素の個数で割った値を表す指標であり得る。

【0158】

多様な実施例によれば、制御部１２０は、動作１０７４において、引用文句と被引用文献２０に含まれている文句との意味的な類似性を確認できる。

【0159】

一実施例によれば、制御部１２０は、キーフレーズ（Ｋｅｙｐｈｒａｓｅ）抽出技術とパラフレーズ（Ｐａｒａｐｈａｓｅ）探知技術を活用して意味的な類似性を確認できる。

【0160】

制御部１２０は、キーフレーズを抽出技術を用いて文章から重要な単語を抽出し、抽出されたキーフレーズに対してパラフレーズ探知技術を用いて意味的な類似性を確認できる。

【0161】

キーフレーズ抽出技術は、文書において重要な意味を含んでいるキーワードを抽出する技術であり得る。例えば、キーフレーズ抽出技術は、文書集合から抽出されたキーワードに対して単語表現を計算できるようにＷｏｒｄ２Ｖｅｃ、大容量の言語処理モデル（ＢＥＲＴ）を用いて重要な単語を抽出する技術であり得る。

【0162】

パラフレーズ探知技術は、文章間の意味的な類似性を測定する技術であり得る。例えば、パラフレーズ探知技術は、単語をベクトルに変換する技術（例えば、Ｗｏｒｄ２Ｖｅｃ技術）を活用して類似度を反映できるように単語ベクトル空間を生成し、本文の引用文句から抽出されたキーフレーズと被引用文献２０から抽出されたキーフレーズのベクトル空間内の距離を測定して類似度を検査し、類似度が高いキーフレーズを含む文章に対して、該当文章の意味的な類似度を求めるために、大容量の自然言語処理モデル（例えば、ＢＥＲＴ、ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｏｒｍＴｒａｎｓｆｏｒｍｅｒｓ）を活用して内容を分析する技術であり得る。意味的な類似度の算出方式は、コサイン類似度を用いることができる。

【0163】

【0164】

一方、開示された実施例は、コンピュータによって実行可能な命令語を格納する記録媒体の形態で実現できる。命令語は、プログラムコードの形態に格納でき、プロセッサによって実行されたとき、プログラムモジュールを生成して開示された実施例の動作を行える。記録媒体は、コンピュータで読み取れる記録媒体として実現できる。

【0165】

コンピュータが読み取れる記録媒体としては、コンピュータによって解読できる命令語が格納されたあらゆる種類の記録媒体を含む。例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気テープ、磁気ディスク、フラッシュメモリ、光データ格納装置などがあり得る。

【0166】

以上のように、添付の図面を参照して開示された実施例を説明した。本開示が属する技術分野における通常の知識を有する者は、本開示の技術的思想や必須な特徴を変更することなく、開示された実施例とは異なる形態に本開示が実施され得ることが理解できるだろう。開示された実施例は、例示的なものであって、限定的に解釈されてはならない。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【手続補正書】

【提出日】2024-07-25

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

引用文献の引用の妥当性及び引用の有効性を検証する装置において、
パターン辞書を格納する格納部と、
制御部と、
入力部と、
通信部と、
前記制御部の動作を制御するプロセッサと、を含み、
前記プロセッサは、
引用文献の表記方式のパターン辞書を生成し、
辞書定義規則に基づいて、前記入力部から得られた対象文書から参考文献領域を抽出し、
前記パターン辞書に基づいて、前記対象文書の本文中で被引用文献の一部を引用した引用文句と前記被引用文献に関連する情報である引用情報を含む引用領域を抽出し、
規則基盤アルゴリズムに基づいて、前記引用領域及び前記参考文献領域から書誌情報を抽出し、
非定型テキストを入力とし前記非定型テキストに含まれる人名、場所、時間表現を出力とする学習データを用いてディープラーニングにより学習された書誌情報抽出人工知能モデルに前記引用領域を入力することで、前記引用領域から抽出した書誌情報と、前記規則基盤アルゴリズムに基づいて抽出した書誌情報と、を比較して前記書誌情報を検証し、前記引用領域の書誌情報と前記参考文献領域の書誌情報が一致するか否かに関連する前記引用の妥当性を検証し、
前記引用文句が前記被引用文献に記載されているか否かに関連する前記引用の有効性を検証する、
装置。

【請求項2】

【請求項3】

前記プロセッサは、
前記辞書定義規則に基づいて、前記対象文書から参考文献領域の開始点と最後の地点を探し、前記開始点から前記最後の地点までを前記参考文献領域として抽出し、
自然言語処理技術に基づいて、前記対象文書の本文中のテキストを語節又は記号単位で分離し、前記パターン辞書に含まれている引用パターンと一致する領域を引用領域として抽出し、
前記規則基盤アルゴリズムに基づいて、前記参考文献領域及び前記引用領域から書誌情報を抽出することを特徴とする請求項２に記載の装置。

【請求項4】

【請求項5】

【請求項6】

検証装置によって行われる引用文献の引用の妥当性及び引用の有効性を検証する方法において、
引用文献の表記方式のパターン辞書を生成する段階と、
対象文書から参考文献領域を抽出する段階と、
前記対象文書の本文中で被引用文献の一部を引用した部分である引用文句と前記被引用文献に関連する情報である引用情報を含む引用領域を抽出する段階と、
規則基盤アルゴリズムに基づいて、前記引用領域及び前記参考文献領域から書誌情報を抽出する段階と、
非定型テキストを入力とし前記非定型テキストに含まれる人名、場所、時間表現を出力とする学習データを用いてディープラーニングにより学習された書誌情報抽出人工知能モデルに前記引用領域を入力することで、前記引用領域から抽出した書誌情報と、前記規則基盤アルゴリズムに基づいて抽出した書誌情報と、を比較して前記書誌情報を検証する段階と、
前記引用領域の書誌情報と前記参考文献領域の書誌情報が一致するか否かに関連する前記引用の妥当性を検証する段階と、
前記引用文句が前記被引用文献に記載されているか否かに関連する前記引用の有効性を検証する段階と、
を含む方法。

【請求項7】

【請求項8】

前記参考文献領域を抽出する段階は、辞書定義規則に基づいて、前記対象文書から参考文献領域の開始点と最後の地点を探して前記開始点から前記最後の地点までを前記参考文献領域として抽出する段階を含み、
前記引用領域を抽出する段階は、自然言語処理技術に基づいて、前記対象文書の本文中のテキストを語節又は記号単位で分離し、前記パターン辞書に含まれている引用パターンと一致する領域を引用領域として抽出する段階を含み、
前記書誌情報を抽出する段階は、規則基盤アルゴリズムに基づいて、前記参考文献領域及び前記引用領域から書誌情報を抽出する段階を含むことを特徴とする請求項７に記載の方法。

【請求項9】

【請求項10】

請求項６～請求項９のうちの何れかの１項に記載の引用文献の妥当性及び有効性を検証する方法をコンピュータに実行させるためにコンピュータ読み取り可能な記録媒体に格納されたプログラム。

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版