(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023183363
(43)【公開日】2023-12-27
(54)【発明の名称】電子文書データ、電子文書の閲覧用電子機器
(51)【国際特許分類】
G06F 40/109 20200101AFI20231220BHJP
【FI】
G06F40/109
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023000008
(22)【出願日】2023-01-02
(31)【優先権主張番号】P 2022096344
(32)【優先日】2022-06-15
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】518366119
【氏名又は名称】石川 多一
(72)【発明者】
【氏名】石川 多一
【テーマコード(参考)】
5B109
【Fターム(参考)】
5B109RB32
(57)【要約】 (修正有)
【課題】電子化された文書の視認性を向上させ、読者の読書の精度および速度を向上させる電子機器および電子文書データの表示方法を提供する。
【解決手段】電子文書の閲覧用電子機器であって、書式情報を有する文字群で構成される第一の文字列データを入力する文字列データ入力装置と、第一の文字列データを句構造解析し、名詞句部を特定する句構造解析装置と、第一の文字列データの名詞句部を構成する前記文字群の書式情報が変更された第二の文字列データを出力する第二の文字列データ出力装置と、前記第二の文字列データを表示する表示装置と、を有する。名詞句部は、指示代名詞で置き換え可能な単位である。第二の文字列データにおいて、名詞句部は一括で網羅的に書式変更される。各々の名詞句部は、一様に書式変更されている。
【選択図】
図1
【特許請求の範囲】
【請求項1】
電子文書の閲覧用電子機器であって、
書式情報を有する文字群で構成される第一の文字列データを入力する文字列データ入力装置と、
前記第一の文字列データを句構造解析し、名詞句部を特定する句構造解析装置と、
前記第一の文字列データの名詞句部を構成する前記文字群の書式情報が変更された第二の文字列データを出力する第二の文字列データ出力装置と、
前記第二の文字列データを表示する表示装置と、を有し、
前記名詞句部は指示代名詞で置き換え可能な単位であり、
前記第二の文字列データにおいて前記名詞句部は一括で網羅的に書式変更され、
前記各々の名詞句部は一様に書式変更されていることを特徴とする、
電子文書の閲覧用電子機器。
【請求項2】
前記句構造解析装置は名詞句として複数の組み合わせを有する木構造データを出力し、
前記書式変更は前記木構造データ中の前記名詞句の複数の組み合わせの一つに網羅的に適用することを特徴とする、
請求項1に記載の電子文書の閲覧用電子機器。
【請求項3】
前記書式変更はボールド体への変更であることを特徴とする、
請求項1に記載の電子文書の閲覧用電子機器。
【請求項4】
前記文字群を引数として書式変更を与える書式変更テーブル入力装置と、
前記文字群の前記書式を前記書式変更テーブルに基づいて変更する書式変更装置と、を有し、
前記書式変更テーブルの書式変更と、前記名詞句部の書式変更は種類が異なることを特徴とする、
請求項1に記載の電子文書の閲覧用電子機器。
【請求項5】
電子文書の閲覧用電子機器であって、
書式情報を有する文字群で構成される第一の文字列データを入力する文字列データ入力装置と、
前記第一の文字列データを句構造解析し、名詞句部を特定する句構造解析装置と、
前記第一の文字列データの名詞句部を構成する前記文字群の書式情報が変更された第二の文字列データを出力する第二の文字列データ出力装置と、
前記文字群を引数として書式変更を与える書式変更テーブル入力装置と、
前記文字群の前記書式を前記書式変更テーブルに基づいて変更する書式変更装置と、
前記第二の文字列データを表示する表示装置と、を有し、
前記名詞句部は指示代名詞で置き換え可能な単位であり、
前記書式変更テーブルの書式変更と、前記名詞句部の書式変更は種類が異なり、
前記第二の文字列データにおいて前記名詞句部は前記書式変更テーブルによって部分的に書式変更された際にのみ第二の文字列データとして書式変更され、
前記各々の名詞句部は書式変更された場合は一様に書式変更されていることを特徴とする、
電子文書の閲覧用電子機器。
【請求項6】
前記名詞句としての書式変更はボールド体であり、前記書式変更テーブルの書式変更は背景色の変更であることを特徴とする、
請求項5に記載の電子文書の閲覧用電子機器。
【請求項7】
前記名詞句部内で異なる背景色変更部であって両者の間にスペースが存在する場合は両者のどちらかの背景色で前記スペースを書式変更することを特徴とする、
請求項6に記載の電子文書の閲覧用電子機器。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電子文書を閲覧する際に利用される電子機器、および電子文書データの表示方法に関する。
【背景技術】
【0002】
産業界では、電子文書の需要、供給が日々増大している。電子文書の例としてはインターネット上で公開される論文、電子書籍等が挙げられる。本明細書のような特許公報もその一例である。また、最終的に紙に印刷する場合でも、推敲段階では電子データであることが多い。
【0003】
文書が媒体(例えば、紙、PCやスマートフォンのディスプレイ等)に表示される際には、それを読む人が読みやすいようにするための工夫がなされたりする。例えば英語の場合、文章をスペース(デリミタ)で区切ることで単語を認識しやすいようにしている。日本語の場合は、そのようなデリミタは存在しないが、漢字、ひらがな、カタカナを使い分けることにより視認性を向上させたりする。
【0004】
電子化された文書の場合、上記の伝統的な工夫に加えて、読者が読みやすい形に加工して読むことが可能である。例えば文書中の一部の文字を書式変更する、ということが往々にしてなされる。
【0005】
1つ目の例としては、プログラムのソースコードを統合開発環境やエディタに表示する際に、各プログラミング言語ごとの文法に従って、そのソースコードが着色されたりする(シンタックスハイライト)。
【0006】
2つ目の例としては、Webブラウザ上で文書を読んでいる際に、読者が気になる単語、句、節を検索をした後で、検索語が完全一致でハイライトされるという工夫がなされたりする。他にも予め単語およびそれと対になるマーカー色を複数種登録しておいて閲覧時に単語が完全一致で存在すればそれと対となるマーカー色で強調するなどが成される。特許界隈では往々にして散見される。
【0007】
3つ目の例としては、電子文書を読んでいる最中にその文章の構成要素の一部をクリックもしくはタップすることでそれと対応する他の構成要素が一括で着色されたりする。着色される際は視認性が良くなるという観点で予め区切られた単位で着色がなされる。前記単位の一例としては名詞句単位である。ここで名詞句とは指示代名詞(「それ」、「it」など)で置き換えても文法的に問題がない単位である。詳しくは特開2021ー176068、特開2021ー043924、特願2021ー206548を参考にされたい。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2021ー176068号公報
【特許文献2】特開2021ー043924号公報
【特許文献3】特開2020ー057337号公報
【特許文献4】特願2021ー206548号
【発明の概要】
【発明が解決しようとする課題】
【0009】
前記2つ目および3つ目の先行事例は、いずれも特定の単語や文章の構成要素といった文章の一部部分に注目した視認性向上である。
これらに加えて、別の視認性を向上する手段が得られれば更に文章が読みやすくなる。
【0010】
本発明は上記を鑑みてなされたものであって、電子化された文書の視認性を向上させ、読者の読書の精度および速度を向上させることを目的とする。
【課題を解決するための手段】
【0011】
本発明である電子文書の閲覧用電子機器10は以下を有する、すなわち、
書式情報を有する文字群12cで構成される第一の文字列データ12xを入力する文字列データ入力装置12と、
前記第一の文字列データ12xを句構造解析し、名詞句部14xを特定する句構造解析装置14と、
前記第一の文字列データ12xの前記名詞句部14xを構成する前記文字群12cの書式情報が変更された第二の文字列データ16xを出力する第二の文字列データ出力装置16と、
前記第二の文字列データ16xを表示する表示装置18と、である、
ただし、前記名詞句部14xは指示代名詞で置き換え可能な単位であり、
前記第二の文字列データ16xにおいて前記名詞句部14xは一括で網羅的に書式変更され、
前記各々の名詞句部14xは一様に書式変更されている。
【0012】
本発明である電子文書の閲覧用電子機器100は以下を有する、すなわち、
書式情報を有する文字群112cで構成される第一の文字列データ112xを入力する文字列データ入力装置112と、
前記第一の文字列データ112xを句構造解析し、名詞句部114xを特定する句構造解析装置114と、
前記第一の文字列データ112xの名詞句部114xを構成する前記文字群112cの書式情報が変更された第二の文字列データ116xを出力する第二の文字列データ出力装置116と、
前記文字群112cを引数として書式変更を与える書式変更テーブル120t入力装置120と、
前記文字群112cの前記書式を前記書式変更テーブル120tに基づいて変更する書式変更装置122と、
前記第二の文字列データを表示する表示装置118と、を有し、
前記名詞句部114xは指示代名詞で置き換え可能な単位であり、
前記書式変更テーブル120tの書式変更と、前記名詞句部114xの書式変更は種類が異なり、
前記第二の文字列データ116xにおいて前記名詞句部114xは前記書式変更テーブル120tによって部分的に書式変更された際にのみ第二の文字列データ116xとして書式変更され、
前記各々の名詞句部114xは書式変更された場合は一様に書式変更されていることを特徴とする、
電子文書の閲覧用電子機器。
【発明の効果】
【0013】
第一の構成の場合、文章を読み始める前に網羅的に読みやすい単位が示される。先行事例(2つ目および3つ目)では文章中のどの要素と対応する箇所を読みやすくするかを読者が迷う余地があり、文章からの集中を欠けかねない要因となっていたが本発明はそのデメリットがない。仮に文章を読み始めたあとで本発明を適用したとしても、ワンアクションで実行できるので読書にかかる負荷は小さい。
【0014】
第二の構成の場合、網羅的に読みやすい単位が示されるのではなく読者が注目している箇所と重複する場合にのみ示される。これにより網羅的に示されると却って読みにくい場合にはこれを効果的に制限することができる。
【図面の簡単な説明】
【0015】
【
図1】
図1は、第一の発明の構成要素を工程の流れとともに示した図である。
【
図2】
図2は、ある文献をそのまま表示したものである。
【
図3】
図3は、
図2に第一の発明を適用したもの、および名詞句と特定された箇所を例示している図である。
【
図4】
図4は、ある名詞句をさらに句構造解析した結果である。
【
図5】
図5は、第二の発明の構成要素を工程の流れとともに示した図である。
【
図6】
図6は、ある文献をそのまま表示したものである。
【
図9】
図9は、
図8に第二の発明をさらに適用したものである。
【発明を実施するための形態】
【0016】
以下、本発明を実施するための形態について詳細を
図1および
図6の工程の流れに従って説明する。
【0017】
【0018】
まず、第一の文字列データ12xを入力する文字列データ入力装置12を用意する。第一の文字列データ12xは書式情報を有する文字群12cで構成される。第一の文字列データ12xは例えばhtml、pdf、電子書籍(epub,mobi,azw3)、tex、md、docx等の形で与えられる。他にも、それらの情報が予め得られていないもの(例えば紙の文書)に対しては、光学的文字認識(OCR)を適用することにより、前記情報を得ることも可能である。ここで書式情報12yとは、フォント名(Times New Roman, 明朝体等)、太字(ボールド体)、斜体(イタリック体)、下線(アンダーライン)、マーカー、色、大きさなどの、読者の視認性に影響する情報を指す。文字列データ入力装置12は、HDDやSSDなどの記憶装置や、サーバーを想定しているが、文字列データを与えるものであれば何でも良い。
【0019】
次に前記第一の文字列データ12xを句構造解析し、名詞句を含む木構造データ14tを出力する句構造解析装置14を用意する。なお、名詞句とは、指示代名詞(例えば英語であれば「it」、日本語であれば「それ」)により置き換え可能な単位を指すものとする。句構造解析は文章を形態素に区切ったあとで決定論(ルールベース)や確率論(ニューラルネットを利用など)を組み合わせて行われる。例えば長尾 真 編「岩波講座 ソフトウェア科学〈〔知識〕15〉自然言語処理」(1996年)を参考にされたい。
【0020】
次に前記第一の文字列データ12xのうち、前記句構造解析装置14で名詞句と特定された箇所を構成する前記文字群12cを一様に書式変更する。一様に、とは例えばボールド体に書式変更する際には、当該名詞句はひと塊と考えてそれを構成する文字群12cをすべてボールド体にするという意味である。さらに前記書式変更は電子文書中のすべての名詞句に対して一括で網羅的に書式変更される。これはつまり、文章中に名詞句1、名詞句2、名詞句3、の3つがあった場合、全てボールドにすることである。名詞句2のみ書式変更しない、というのは無しである。
【0021】
ただし句構造解析装置14側で予め名詞句の定義を変えることは可能である。大切なのは読者側がアドホックに読書中に前記各名詞句部の書式変更の是非を決定するプロセスが介在しないことである。読書前に既に書式変更しておく、もしくは読書中にワンアクションで一括してすべての名詞句を書式変更できるのが大事である。これにより読者は読書のみに集中することが可能となる。
【0022】
なお書式変更は、ボールド体、イタリック体、下線、フォントセット自体の変更、大きさの変更、色の変更、マーカー、カッコで囲う、など各種ありうるが、もともとの白黒の文章との乖離が少ない点ではボールド体が有用である。これは、一括かつ網羅的な書式変更は文章全体がいきなり「散らかる」からである。一つ間違えると、違和感を感じ、読書からの集中を欠くノイズとなりうる。
【0023】
最後に前記第二の文字列データ16xを表示装置18へ入力し、書式変更された電子文書を読者に表示する。表示装置18としては、例えばパソコンやタブレット、スマートフォンのグラフィックボードとディスプレーの構成が挙げられる。
【0024】
さらに名詞句としての書式変更以外の書式変更もありうる。
【0025】
すなわち、前記文字群2cを引数として書式変更20mを与える書式変更テーブル20tを入力する書式変更テーブル入力装置20を用意する。これは例えば「単語A」の出現に対しては「黄色ハイライト」(書式変更が色の場合)を付与する、などという単語、色の対群を与えるなどができる(完全一致)。完全一致よりも緩めて、英語の場合はstem(語幹)の一致を以て全体の一致とすることもできる。例えばcategoryと赤の対がテーブル6tにある場合、第一の単語categoricalはcategrという同一の語幹なので赤色ハイライトを施す、などである。他にも連続する文字数の任意の割合が一致することを以て同じとすることも可能である。数字が関連する場合は、数字であることを以て同じ書式変更することも可能である。例えば5月と7月は同じピンク色ハイライトとする、などである。第一の書式変更テーブル20tは例えばテキストファイル等の形で与えられる。書式変更テーブル入力装置20は、HDDやSSD、フラッシュメモリなどの記憶装置を想定しているが、バイナリデータを与えるものであれば何でも良い。
【0026】
名詞句としての書式変更と前記書式変更テーブルによる書式変更(キーワード的書式変更)を併用すると、どのキーワードを書式変更するか、を選択する文脈で良い副作用をもたらす。すなわち、名詞句は形容詞+名詞句で再帰的に出現する。何か物事を説明する文章の場合、ある基本となる名詞に対して形容詞が重畳される場合が多い。例えば、化学結合であれば、「イオン結合」「共有結合」「金属結合」「分子間結合」「分子内結合」、などである。これらは全て名詞句であるが、「結合」をキーワード的に書式変更したとする。すると、「イオン」、「共有」、「金属」、「分子間」、「分子内」、といった「結合」ではあるが各々区別されるべき各概念が浮き彫りにされる。概念の理解にも役に立つし、次はこれらのキーワードを書式変更して読むべきと分かる。イオンであれば「イオン間距離」や「イオン結晶」などといった概念が説明される可能性が非常に高い。書式変更テーブルの設定の際は、文章中の単語のヒストグラムを利用するのが非常に有効である。上の例であれば「結合」が自動的に得られる。
【0027】
前記名詞句としての書式変更と、前記書式変更テーブル20tの書式変更20mとは異なる種類であるべきである。例えば名詞句としての書式変更をボールド体への変更とし、書式変更20mは背景色の変更とする、などである。
【0028】
さらに前記文字群2cの前記書式を前記書式変更テーブル20tに基づいて変更する書式変更装置22を用意する。書式変更の方法については書式変更テーブル20tの説明時と重複するのでここでは割愛する。
【0029】
以上が
図1の工程である。次に
図6の工程(第2の発明)を説明する。
図1と重複する部分(冒頭から書式変更テーブル入力装置まで)は割愛し、異なったり新しく付け加わった部分に絞って説明する。
【0030】
電子文書の閲覧用電子機器100は、その名詞句部114xは前記書式変更テーブル120tによって部分的に書式変更された場合にのみ、その名詞句としての書式変更を顕現させる。第一の発明と異なるのは、名詞句全てを予め書式変更しないことである。読者がその一部をキーワード的文脈で書式変更した場合に初めて、当該名詞句内全体を名詞句として書式変更する。文書中の名詞句群全てを書式変更すると却って読みにくくなる例がある。英語の場合が顕著である。この場合は読者が注目する箇所に絞るのが有効である。第2の発明の構成はこれを満たしている。
【0031】
電子文書の閲覧用電子機器100は、その名詞句部114xは前記書式変更テーブル120tによって部分的に書式変更された場合にのみ、その名詞句としての書式変更を顕現させる。第一の発明と異なるのは、名詞句全てを予め書式変更しないことである。読者がその一部をキーワード的文脈で書式変更した場合に初めて、当該名詞句内全体を名詞句として書式変更する。文書中の名詞句群全てを書式変更すると却って読みにくくなる例がある。英語の場合が顕著である。この場合は読者が注目する箇所に絞るのが有効である。第2の発明の構成はこれを満たしている。
【0032】
この構成に限られるものではないが、名詞句としての書式変更はボールド、キーワードとしての書式変更は背景色の変更が好ましいと述べた。本発明では前記名詞句部内で異なる背景色変更部であって両者の間にスペースが存在する場合は両者のどちらかの背景色で前記スペースを埋める。名詞句をボールド体等で書式変更する目的はそれが一体として塊と認識することで視認性を向上させることであった。スペースを埋めることで二つの背景色が隙間なく埋まりボールドのみの場合に比して一体感が増す。
【0033】
以上が本発明の実施の形態である。次に具体的な実施例として日本語の文書に対して前記第一の発明を適用した結果、および英語の文書に対して前記第二の発明を適用した結果を示す。
【実施例0034】
図2ないし
図5は、『「大学入学共通テスト試行調査における短答式記述答案の完全自動採点」岡 知樹、Hung Tuan Nguyen、Cuong Tuan Nguyen、中川 正樹、石岡 恒憲(言語処理学会 第28回年次大会 発表論文集 (2022年3月))』の一部抜粋(以下、「抜粋引用文」と呼ぶ)に、本発明を適用した例である。以下、これらを得るまでの手順を具体的に説明する。
【0035】
図2が本発明の適用前の何も手を加えない抜粋引用文である。
【0036】
図3上段が第一の発明を抜粋引用文に適用した結果である。名詞句に相当する箇所に「」を付与している。名詞句は指示代名詞で置き換え可能な箇所と本発明では定義しているが、それを説明したのが
図3下段である。文法的に違和感がないことを確認されたい。
【0037】
句構造解析を行うと木構造が得られ、名詞句として複数の箇所が特定される。抜粋引用文の更に一部フレーズ、「短答式記述問題の自動採点に関する研究」を句構造解析した結果が
図4である。NPが名詞句、Adjが形容詞句、Auxが助詞・助動詞句である。
図3ではこのフレーズは全体として名詞句として扱われていたことに注意されたい。名詞句中に名詞句が入れ子構造になっている。
【0038】
複数ある名詞句からどの単位を名詞句として選択するかは任意であるが、一例としては名詞句の長さが条件となる。例えば、ある一定の文字数以下であって最大の長さとなる名詞句を採用するというルールである。そうすると際限なく長い名詞句が設けられることが避けられ(極論を言うと文章全体自体が一つの名詞句である)、書式変更される箇所の長さがある程度統一されるので、読者側から見て読みやすくなる。他にも特定の語、品詞を含まないというルールも有効である。一例では接続詞的品詞を含まないとするものである。接続詞前後では話題が切り替わっているので、分けて扱ったほうがいいという判断である。文全体を強調するのは意味がないとして、品詞としての「文」(「文」は同時に名詞句の属性を持つ)は複数の名詞句で分割できる際は分割するというルールもありうる。句読点の前後では読者は一息ついていると考えて、名詞句には句読点を含まないという条件も有効である。一方で、あまりに細かく句を刻むとかえって読みにくくなるので、上記条件を細やかに組み合わせるのが大事である。
【0039】
なお、本発明は名詞句以外の書式変更ルールを排除するものではない。例えば、漢字はすべて書式変更しておく、というルールを重畳することは可能である。例えば、「複数の玩具を見せた」というフレーズの「見」という漢字は名詞句に相当しない(「それ」で置換できない)が、「「複数の玩具」を「見」せた」という形で「見」も「複数の玩具」と同じ書式変更を与える、としてもよい(この例は、置換可能性について「活用」の要素を緩和したものにもなっている。すなわち「〇〇させる」の「〇〇」は普通は名詞句とみなせるが、「見せる」となった場合は一見、指示代名詞で置換不可能にみえる。しかし活用を考慮すれば置換可能としてしまう、とする運用である。)。
【0040】
最後にパソコン、タブレット、スマートフォンのディスプレイなどといった表示装置に前記第二の文字列データが表示されることで、読者が文章を視認性良い形で読むこととなる。