(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023091675
(43)【公開日】2023-06-30
(54)【発明の名称】電子文書の閲覧用電子機器、表示方法
(51)【国際特許分類】
G06F 40/103 20200101AFI20230623BHJP
【FI】
G06F40/103
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2021206548
(22)【出願日】2021-12-20
(71)【出願人】
【識別番号】518366119
【氏名又は名称】石川 多一
(72)【発明者】
【氏名】石川 多一
【テーマコード(参考)】
5B109
【Fターム(参考)】
5B109NA04
(57)【要約】 (修正有)
【課題】電子文書の視認性を向上させる閲覧電子機器を提供する。
【解決手段】機器は、書式を有する各文節で構成される第一文字列を入力する文字列入力装置と、各文節に対するリーフ部およびノード部を有する第一木構造を入力する木構造入力装置と、各リーフ部と各ノード部を引数にして各リーフ部に第一書式変更を与える関数を入力する関数入力装置と、各リーフ部と各ノード部に第一関数を適用し、第一書式変更が各リーフ部に与えられた第二木構造を得、さらに各リーフ部と対応する各文節に第一書式変更が与えられた第二文字列を得る演算装置と、第二文字列を表示する表示装置と、を有する。ノード部は、第二書式変更を持つ。第二木構造は、第二書式変更情報を持つ各ノード部配下には第二書式変更を持つノードが存在しない排他条件を有する。第二書式変更を持つノードの支配する各リーフの第一書式変更は、第二書式変更に依存する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
電子文書の閲覧用電子機器であって、
書式情報を有する各文節で構成される第一の文字列データを入力する文字列データ入力装置と、
前記各文節に対応付けられたリーフ部およびノード部を有する第一の木構造データを入力する木構造データ入力装置と
前記各リーフ部および前記各ノード部の状態を引数にして前記各リーフ部に第一の書式変更情報を与える関数データを入力する関数データ入力装置と
前記前記各リーフ部および各ノード部の状態に前記第一の関数データを適用し、第一の書式変更情報が前記各リーフ部に与えられた第二の木構造データを得、さらに前記各リーフ部と対応する各文節に前記第一の書式変更情報が与えられた第二の文字列データを得る演算装置と、
前記第二の文字列データを表示する表示装置と、を有し、
前記ノード部は第二の書式変更情報を持ち、
前記第二の木構造データは前記第二の書式変更情報を持つ前記各ノード部配下には前記第二の書式変更情報を持ったノードが存在しないという排他条件を有し、
前記第二の書式変更情報を持つノードの支配する前記各リーフの第一の書式変更情報は前記第二の書式変更情報に依存し一様である、
ことを特徴とする、電子文書の閲覧用電子機器。
【請求項2】
前記第二の書式変更情報を持つノードが存在できる最上のノード群と最下のノード群が設定されている、
ことを特徴とする、請求項1に記載の電子文書の閲覧用電子機器
【請求項3】
前記各ノード部はその配下にある子ノード部および前記子リーフ部への参照情報を有し、
前記関数データは、前記各リーフ部を引数にして真偽値を返す第一のブール関数、および前記第一のブール関数を第一要素とし、前記第三の書式変更情報を第二要素とする第一のタプルを引数として有し、
前記第一のタプルの第一要素である前記第一のブール関数を前記各ノード部へ適用した結果は前記各ノード部が参照する各前記子ノード部へ前記第一のブール関数を適用した結果をORで結んだものであり、
前記第一のブール関数を前記各ノード部へ適用した結果Trueとなった場合、前記第一のブール関数を第一要素とする前記第一のタプルは前記各ノード部を占領し、
前記第二の木構造データは前記第一のタプルに占領されている前記各ノード部配下には前記第一のタプルを持ったノードが存在しないという排他条件を満たすよう前記第一のタプルの占領状況が調整され、
前記最下ノード部で前記調整が不可能な場合は、調整を試みた結果、前記最下ノード部上に存在することとなった複数の前記第一のタプルの第一要素である複数の第一のブール関数をANDで結ぶ第三のブール関数を第一要素とし、第四の書式を第二要素とする第二のタプルを生成し、前記第二のタプルは前記排他条件を満たす範囲で前記第二の木構造データ上で再配置され、
前記各ノード部が有する前記第二の書式変更情報は前記各ノード部を占領する前記第一および第二のタプルの第二要素である前記前記第三のおよび第四の書式変更情報である、
ことを特徴とする、請求項2に記載の電子文書の閲覧用電子機器
【請求項4】
前記複数の第一のタプル同士の調整は各々が最大の支配域を持つようになされる、
ことを特徴とする、請求項3に記載の電子文書の閲覧用電子機器
【請求項5】
電子文書の閲覧用電子機器であって、
書式情報を有する各文節で構成される第一の文字列データを入力する文字列データ入力装置と、
前記各文節を引数としてブールを返す関数を第一要素、第一の書式変更情報を第二要素、とするタプルデータ群を入力するタプルデータ群入力装置と、
前記タプルデータ群の各々の第一要素となる前記関数を前記各文節に適用し、適用結果がTrueとなる文節に前記タプルの第二要素となる前記第一の書式変更情報を与えられた第二の文字列データを得る演算装置と
前記第二の文字列データを表示する表示装置と、を有し、
前記演算装置は現在表示されている前記第一の文字列データの表示画面中央からのオフセットを取得し、
前記オフセットに含まれる前記各文節に前記ブール関数を適用した結果Trueとなる前記タプル群のみを抽出し、
前記各々の第一の書式変更情報が各々で極力重複しないように前記各々の第一の書式変更情報を自動で修正する、
ことを特徴とする、電子文書の閲覧用電子機器。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電子文書を閲覧する際に利用される電子機器、および電子文書データの表示方法に関する。
【背景技術】
【0002】
産業界では、電子文書の需要、供給が日々増大している。電子文書の例としてはインターネット上で公開される論文、電子書籍等が挙げられる。本明細書のような特許公報もその一例である。また、最終的に紙に印刷する場合でも、推敲段階では電子データであることが多い。
【0003】
文書が媒体(例えば、紙、PCやスマートフォンのディスプレイ等)に表示される際には、それを読む人が読みやすいようにするための工夫がなされたりする。例えば英語の場合、文章をスペース(デリミタ)で区切ることで単語を認識しやすいようにしている。日本語の場合は、そのようなデリミタは存在しないが、漢字、ひらがな、カタカナを使い分けることにより視認性を向上させたりする。
【0004】
電子化された文書の場合、上記の伝統的な工夫に加えて、読者が読みやすい形に加工して読むことが可能である。例えば文書中の一部の文字を書式変更する、ということが往々にしてなされる。
【0005】
1つ目の例としては、Webブラウザ上で文書を読んでいる際に、読者が気になる単語、句、節を検索をした後で、検索語がハイライトされるという工夫がなされたりする。
【0006】
2つ目の例としては、プログラムのソースコードを統合開発環境やエディタに表示する際に、各プログラミング言語ごとの文法に従って、そのソースコードが着色されたりする(シンタックスハイライト)。
【0007】
3つ目の例としては、電子文書を読んでいる最中にその文章の構成要素の一部をクリックもしくはタップすることでそれと対応する他の構成要素が一括で着色されたりする。着色される際は視認性が良くなるという観点で予め区切られた単位で着色がなされる。前記単位の一例としては名詞句単位である。ここで名詞句とは指示代名詞(「それ」、「it」など)で置き換えても文法的に問題がない単位である。詳しくは特開2021ー176068、特開2021ー043924、特開2020ー057337を参考にされたい。本発明はこれらの延長線上にある。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2021ー176068号公報
【特許文献2】特開2021ー043924号公報
【特許文献3】特開2020ー057337号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
視認性が良くなる単位は名詞句に限られないが以下、説明の便宜のため名詞句を想定する。前記名詞句という単位は一意ではない。例えば、「スターバックスの駐車場にいた毛並みの良い黒い猫は私の家族だ」という文章の場合、仮に「猫」という単語を指定した場合は、「スターバックスの駐車場にいた毛並みの良い黒い猫」、「毛並みの良い黒い猫」、「黒い猫」、「猫」といった具合に4パターンが存在しうる。計算処理の観点では以下のやり方がシンプルで良い。すなわち所定の文法的単位、例えば「形容詞+名詞」で区切ると予め決めておくやり方である。上記猫の例であれば「黒い猫」が選択される(「毛並みの良い」、は「毛並み」という名詞と「の」という助詞の複合語なので、ここでは純粋な形容詞ではないとした)。しかし多岐にわたる名詞句単位をうまく使い分けることで、より視認性良くやれる余地が残っている。
【0010】
本発明は上記を鑑みてなされたものであって、電子化された文書の視認性を向上させ、読者の読書の精度および速度を向上させることを目的とする。
【課題を解決するための手段】
【0011】
本発明である電子文書の閲覧用電子機器10は以下を有する。すなわち、
書式情報12yを有する各文節12pで構成される第一の文字列データ12xを入力する文字列データ入力装置12と、
前記各文節12pに対応付けられたリーフ部14lおよびノード部14nを有する第一の木構造データ14xを入力する木構造データ入力装置14と、
前記各リーフ部14lおよび前記各ノード部14nの状態を引数にして前記各リーフ部14lに第一の書式変更情報16aを与える関数データ16fを入力する関数データ入力装置16と、
前記前記各リーフ部14lおよび各ノード部14nの状態に前記第一の関数データ16fを適用し、第一の書式変更情報16aが前記各リーフ部14lに与えられた第二の木構造データ18yを得、さらに前記各リーフ部14lと対応する各文節12pに前記第一の書式変更情報16aが与えられた第二の文字列データ18xを得る演算装置18と、
前記第二の文字列データ18xを表示する表示装置20と、を有し、
前記ノード部14nは第二の書式変更情報16a2を持ち、
前記第二の木構造データ18yは前記第二の書式変更情報16a2を持つ前記各ノード部14n配下には前記第二の書式変更情報16a2を持ったノードが存在しないという排他条件を有し、
前記第二の書式変更情報16a2を持つノードの支配する前記各リーフ14lの第一の書式変更情報16aは前記第二の書式変更情報16a2に依存し一様である。
【0012】
さらに、本発明である電子文書の閲覧用電子機器100は以下を有する。すなわち、
書式情報102yを有する各文節102pで構成される第一の文字列データ102xを入力する文字列データ入力装置102と、
前記各文節102pを引数としてブールを返す関数104fを第一要素、第一の書式変更情報104aを第二要素、とするタプルデータ群104tを入力するタプルデータ群入力装置104と、
前記タプルデータ群104tの各々の第一要素となる前記関数104fを前記各文節102pに適用し、適用結果がTrueとなる文節102pに前記タプルの第二要素となる前記第一の書式変更情報104aを与えられた第二の文字列データ106xを得る演算装置106と
前記第二の文字列データ106を表示する表示装置108と、を有し、
前記演算装置106は現在表示されている前記第一の文字列データ102xの表示画面中央からのオフセット110を取得し、
前記オフセット110に含まれる前記各文節102pに前記ブール関数104fを適用した結果Trueとなる前記タプル群104aのみを抽出し、
前記各々の第一の書式変更情報104aが各々で極力重複しないように前記各々の第一の書式変更情報104aを自動で修正する。
【発明の効果】
【0013】
複数の書式変更条件と書式変更のタプルを文章全体への適用する際に、文章をツリー構造かつ前記各書式変更条件がバッティングしないようにデータを持っているため、すなわち書式変更意図が全て反映されることになる。タプルが重畳的に適用された際に先行する設定の情報が上書きにより欠落してしまうのを避けることが可能となった。さらに最小限の名詞句単位を設けた際には、当該最小限の名詞句単位に2つ以上のタプルが適用される可能性が生じる。本発明ではそのような際にはこれらタプルの第一要素が「かつ」で満たされるようなブール関数とそれと対応する新しい書式変更を与える。これにより情報がただ単に上書きされるのを回避している。
【0014】
さらにこのようなアプローチを採ると使われる書式が芋づる式に増えて枯渇しかねない。複数の書式変更条件が同じ書式変更を共有するのは視認性を下げることとなる。読者側が適宜設定を消去することも可能だが、それは読書からの集中を切らすマイナス要素となる。本発明では読者がまさに見ている領域に使われている書式変更条件の間で書式を融通する。これによりある条件がある書式、という対応関係は失われるがある名詞句を他の名詞句と区別するという機能を満たした上で、書式の際限のない枯渇を避けることが出来た。
【図面の簡単な説明】
【0015】
【
図1】
図1は、本発明の特徴を最もよく表す代表図であり、特許法第35条第1項に本発明を適用したものである。
【
図2】
図2は、本発明の構成要素を本発明の工程の流れとともに示した図である。
【
図3】
図3は、特許法第35条第1項に本発明を適用したものである。
【
図4】
図4は、特許法第35条第1項に従来技術を適用したものである。
図3と対比される
【
図6】
図6は、特許法第35条第1項の一部を構文解析した結果および書式変更情報の表示である。
図3と対応する。
【
図7】
図7は、特許法第35条第1項の一部を構文解析した結果および書式変更情報の表示である。
図5と対応する。
【
図8】
図8は、isatomの属性を持つ名詞句に書式変更を逐次適用させた際の書式変更情報の表示である。
【
図10】
図10は、特許法第35条第1項に従来技術を適用したものである。
図9と対比される
【
図11】
図11は、特許法第35条第1項に別の従来技術を適用したものである。
図9と対比される
【
図14】
図14は、特許法第35条第5項に本発明を適用したものである。
【発明を実施するための形態】
【0016】
以下、本発明を実施するための形態について詳細を説明する。
【0017】
まず、第一の文字列データ12xを入力する文字列データ入力装置12を用意する。第一の文字列データ12xは書式情報12yを有する各文節12pで構成される。第一の文字列データ12xは例えばhtml、pdf、電子書籍(epub,mobi,azw3)、tex、md、docx等の形で与えられる。他にも、それらの情報が予め得られていないもの(例えば紙の文書)に対しては、光学的文字認識(OCR)を適用することにより、前記情報を得ることも可能である。ここで書式情報12pとは、フォント名(Times New Roman, 明朝体等)、太字(ボールド体)、斜体(イタリック体)、下線(アンダーライン)、マーカー、色、大きさなどの、読者の視認性に影響する情報を指す。文字列データ入力装置12は、HDDやSSDなどの記憶装置や、サーバーを想定しているが、文字列データを与えるものであれば何でも良い。
【0018】
前述のとおりに文字列データ12xは文節12pで構成される。例えば英文であればスペースで区切られた各単語となる。日本語の場合は分かち書きが必要で、連続した文字列に対して形態素解析を行うことで文節12pが得られる。形態素解析器としては例えばMecab(https://taku910.github.io/mecab/)が利用できる。
【0019】
次に第一の木構造データ14xを入力する木構造データ入力装置14を用意する。第一の木構造データ14xはノード部14nとリーフ部14lを有し、リーフ部14lは前記文節12pと対応付けられている。前記第一の木構造データ14xは一例としては前記第一の文字列データ12xを構文解析することで得られる。例えば、形容詞と名詞の並びがあった場合に、形容詞と名詞をその直下リーフとする名詞句ノードを形成する等である。このような素パーザーをいくつか用意し、組み合わせることで第一の木構造データ14xを生成できる。例えば純粋関数型プログラミング言語Haskellの場合はParsecおよびその派生ライブラリでパーザーコンビネータを容易に構築できる。
【0020】
次に、 関数データ16fについて、以下に詳細を述べる。関数データ16fは、前記リーフ部14lもしくはノード部14nの状態を引数にして前記リーフ部14lに第一の書式変更情報14aが付与された第二の木構造データ18yを出力する。
【0021】
関数データ16fの一例としては、以下の関数が考えられる(以下あとで参照するために「代表的関数16fp」とよぶ)。まず各ノード部14nにはその配下となるリーフ14lの参照する文節12pの文字列(もしくはその語根)群、各リーフ部14lはその参照する文節12pの文字列(もしくはその語根)を対応付けさせる。さらにある文節12pをと対応付けられたノード(もしくはリーフ)か否かを判定するブール関数16bをその第一要素とし、第一の書式変更情報16aをその第二要素とするタプルデータ群16tをつくる。各タプル16tに対してそのブール関数16bを前記第一の木構造データ14xのノード14nおよびリーフ14l全てに適用する。適用結果が真となったノードに前記タプル16tの情報を付与する。以下これを第二の書式変更情報16a2と呼ぶ。各ノード14nはその支配する各リーフ14lに自身の第二の書式変更情報16a2の第二要素である第一の書式変更情報16aを与える(正確には16aと16a2は同一である必要はない。後者が前者に依存していればいい)。
【0022】
ただし、前記第二の書式変更情報16a2を有するノード14n(以下、有書式ノード14nhと呼ぶ)は他の有書式ノードをその配下に置かないことが条件(以下、排他条件16ceと呼ぶ)とされる。そうすることで、複数のブール関数16bが真となるノードが存在しなくなり、前記リーフ部14lの各第一の書式変更変更結果が各ブール関数16bと一対一に対応付けられる。これにより書式変更の意図を読者が理解しやすい形で書式変更できる。
【0023】
更に有書式ノード14nhが存在しうる最上のノード14ntopや最下のノード14nbotを設定することもできる。
【0024】
仮に名詞句を対象に色を付けるとなると、最上ノード14ntopを文章全体とすることが可能(指示代名詞「それ」で置き換え可能)であるが、もう少し小さい範囲に設定もできる。一例は名詞句を構成する文字の面積である。読者が一目でここは塊だと認識できる広さに限定する。これは文字サイズや折返しなどにも依存する。他には「名詞句の名詞句の名詞句、、」というブロックに限定するなどである。文章(S + V)を構成する一歩手前までで留めるという選択もある。いずれにせよ最上ノード14ntopを設定することで読者の視認性を向上させることが可能となる。
【0025】
一方で最下ノード14nbotも設定できる。名詞句の例であれば例えば形容詞+名詞というノードを最下ノードとできる。つまり前記形容詞+名詞というノードの名詞は名詞句とされる余地があるが、このように最下ノードを設定するともはや独立した名詞句として独立した第二の書式変更情報を持つことは出来ない。これにより前記各文節12pがキメラ状に書式変更されることを防げる。他には漢字の連続、カタカナの連続に関してもこれ以上分割できないとしたほうが良い。
【0026】
前記代表的関数16fpの場合で複数のブール関数16bが1つの最下ノード14nbotに集中することがある。例えば、漢字の例を挙げると、「特許法」に関して「「特許」法」のように分節されているとする。このとき、第一のブール関数として「特許」を含むこと、第二のブール関数として「法」を含むこと、とすることがありうる。文章全体のうち「特許」を有する文節、例えば「特許制度」、「特許庁」、、を強調したい文脈と、一方で「法」を含む文節、例えば「民法」、「民事訴訟法」、、を強調したい文脈の2つが存在する。このように2つの文脈がオーバーラップすることはままある。
【0027】
その際は、2つのブール関数をANDとする複合ブール関数16bc、および新しい書式変更条件16anを用意する。上の例であれば、「特許」に対しては「赤色」、「法」に関しては「青色」という書式変更であった場合、「特許 and 法」に関しては「緑色」に書式変更すると行った具合である。これによりキメラを避けつつ、近しい意図を持つ他のブール関数16bcとの差別化をはかることができる
【0028】
さらに読者の視認性がギリギリ担保できる最大領域に最上ノード14ntopを設定している場合、前記第二の書式変更情報16a2は前記排他条件16ceを満たす範囲で最大限の領域を取りにいくのが好ましい。
【0029】
関数データ16fは予め与えられる場合もあるが、読者自身が都度読書中に追加することもできる。一例として前記代表的関数16fpを考える。この場合は、タプル16tの第一要素であるブール関数16bと、第二要素である第二の書式変更情報16a2を指定する必要がある。
【0030】
ブール関数16bcは先述のとおりに各ノード14n、各リーフ14lがある文節12pを含むノード(もしくはリーフ)か否かを判定するものであったため、この「ある文節12p」を指定すればブール関数16bcが定まる。この「ある文節12p」は、後で出てくる表示装置20で表示される各文節12pをマウスでクリックするなりタッチパネルをタップするなりして設定できる。読書からの集中を読者が切らさないように極力最小限の手間で行う必要がある。キーボードで指定することも可能だが集中が切れがちである。またマウスによる矩形選択、タッチパネル長押しによる矩形選択も可能だがこちらも時間がかかる。
【0031】
さらに第二の書式変更情報16a2を指定する必要がある。以下、書式変更は色であると仮定する。前記文節12pを与える際に読者が色を選択できるようなパレットを立ち上げることも可能だが手間がかかる。クリックもしくはタッチの度に自動で設定、さらには色をトグルさせるのが有効である。例えば予めピンク、水色、オレンジ色、紫色、赤色、青色、、といったテーブルを用意しておいてクリックもしくはタッチする度に変えていく。これにより読者は色を付けたい文節の選択のみに集中できる。
【0032】
さらに書式設定は重複を避けられると具合が良い。一方でとくに先述のとおりに最下ノード14nbotを設定し、複数のブール関数16bが重畳した際には新しい書式16anを自動で付与するやり方を採ると使われる色設定が芋づる式に増えて枯渇する。これを避けるには設定できる書式を予め多く用意することで対応可能だが限界がある。読者が適宜設定を消すことも可能だが、消したい設定を選ぶ際に読書からの集中を切らすことになる。設定全部を一括で消すことも可能だが、それでも手間が残るしその時点で消したくない設定も消しかねない。本発明では読者がまさに見ている領域110に使われている書式変更条件の間で書式を融通する。これによりある条件がある書式、という対応関係は失われるがある名詞句を他の名詞句と区別するという機能を満たした上で、書式の際限のない枯渇を避けることが出来る。
【0033】
前記重複防止は、文節をクリックもしくはタップする際だけでなく表示域をページ送りもしくはスクロールさせる際にもなされるべきである。この場合は現表示域に適用されているタプル16tか否か(各タプルの使用有無)、各書式変更16a2の使用状況を管理する。ページ送りもしくはスクロールの度にこれらは更新される。更新の際には表示域110に表示されているタプルデータ群104tの第二要素は維持し、消えた設定の第二要素を使われていない書式変更プールに戻し、表示域に入ることで新たに使われるタプルデータ104tには前記プールから書式を持ってくることで最小限の書式変更に留めるべきである。
【0034】
次に、 演算装置18について、以下に詳細を述べる。第一の演算装置18は前記第一の木構造データ14xの各ノード部14nおよび各リーフ部14lに対して前記関数データ16fを適用し第二の木構造データ18yを得る。この第二の木構造データ18yの各リーフ部14lは前記各文節12pへの参照を維持している。さらに各リーフ14lの参照先の文節12pに第一の書式変更データ16aを渡すことで、第二の文字列データ18xを得る。演算装置18はPC、スマートフォン、タブレット端末等の計算機能を有する機器であれば十分である。
【0035】
最後に前記第二の文字列データ18xを表示装置20へ入力し、書式変更された電子文書を読者に表示する。表示装置20としては、例えばパソコンやタブレット、スマートフォンのグラフィックボードとディスプレーの構成が挙げられる。
【0036】
以上が本発明の実施の形態である。次に具体的な実施例として日本語の文書に対して本発明を適用した結果を示す。なお色を変更するのが視認性を最も向上させるが、特許文書の都合上、カラー表示はできないので、それ以外の書式を変えて説明している。
【実施例0037】
図1、
図3ないし
図7は、特許法第三十五条(職務発明)に、本発明を適用したものの一例である。以下、これらを得るまでの手順を具体的に説明する。
【0038】
対象となる文章(第一の文字列データ12x)は「職務発明」という概念について説明している。これに関わる箇所の書式12yを変更するのは視認性向上の観点で有効である。また「職務発明」は「職務」と「発明」の複合概念である。さらに「発明」が一般的であり「職務」がそれを限定する形になっている。「発明」の中でも「職務」に関わるものとそうでないものを区別すると読書が楽になる。なので両者の書式12yを変える。変える際には対応する箇所をクリックもしくはタップすることで予め決められた書式が適用されるのが好ましい。これは極力読書からの集中を切らさないようにしたいからである。
【0039】
対応する箇所を決めるには予め文章を分節しておく必要がある。これは形態素解析器を用いることでなされる。この形態素解析器を通して区切られ生成された文節に対して構文解析を行うことで後述の構文ツリー(第一の木構造データ14x)は構築される。
【0040】
「発明」をクリックした後の状況が
図3である。(1)で太字とアンダーラインで示された箇所が書式変更されたと理解されたい。従来技術としてよくやられるのは
図4のような完全一致での書式変更である。例えばWebページでページ内を検索した際には該当部が色付きマーカーで強調されたりする。これはある単語がどの箇所に存在するか、という目的では非常に有効である。
【0041】
ただし読書しやすくするには別の単位が存在しうる。
図3は発明者が自然と感じる単位で文章を区切ったものに対し、「発明」というフレーズを含むものを太字とアンダーラインで強調したものである。上記自然な単位は文法的には「名詞句」に対応している。正確には指示代名詞「それ」で置き換え可能な単位である。ただし名詞句は一意には定まらない。例えば、「その発明をするに至った行為」についても、「その発明をする」、「その発明」、「発明」、「行為」という可能性が存在する。
【0042】
自然な単位は読者が視認性を崩さない範囲、例えば視野に占める面積や文字数で区切るべきである。
図3は文字数に上限を設けその上限を超えない範囲で極力長めになるように設定している。
【0043】
しかし、単位を広めに採るとその単位中に複数の単語が同時に存在する場合が問題になりうる。以下、
図3の状況に更に「職務」という単語を指定してみる(
図5)。
【0044】
「職務」に対応する名詞句が(2)太字アンダーラインで強調されている。さらに(3)太字アンダーラインで強調される箇所も存在している。これらの発生メカニズムを構文ツリー(第一の木構造データ)を用いて説明する。
【0045】
条文全体を構文解析したもののうち、「その使用者等における従業員等の現在又は過去の職務に属する発明(以下「職務発明)という」という箇所を抜き出したのが
図6である。[使用,名詞]といった具合にカンマ区切り第一要素が存在するものと「,名詞」といった具合に第一要素が存在しないものがある。前者は実際の句(第一の文字列データ12xの各文節12p)と対応しており、後者はそれら句が複合されたものである。「名詞」と書かれているのが「名詞句」と対応している。
【0046】
図6の段階、すなわち「発明」を指定した際はこの
図6全体の名詞句が(1)という形で書式変更されている。ここに「発明」が指定されたのが
図5、それと対応する構文ツリーが
図7である。「その使用者等における従業者等の現在又は過去の職務」と「発明」という2つの名詞句に分割されている。これは2つのブール関数、すなわち「発明」というリーフ部をその配下に持つという条件と「職務」というリーフ部をその配下に持つという条件、とが、排他条件16ceを満たしつつ第一の木構造データのノードを占拠する、さらにお互いに最大限の支配域を持ちつつ、というメカニズムで
図7の状況が作り出されている。従来例では「その使用者等における従業者等の現在又は過去の職務に属する発明」という単位を不定として(1)の後で(2)の設定がなされると設定が上書き、すなわち「その使用者等における従業者等の現在又は過去の職務に属する発明」全体が(2)となったりする。これはプログラムの実装がシンプルである一方で、「発明」に対して書式変更したという意図が消えてしまっている。本発明では構文ツリー(第一の木構造データ14x)を用いることで実装は複雑ではあるが書式変更意図が消えない細やかな構成になっている。
【0047】
書式変更が一様である単位(すなわちこの例では名詞句)としては最小単位を設けることも可能である。先程の
図6,7にも「名詞」と記されているがそれ自体が独立して「名詞句」として扱われるべきでないものも存在する(
図6,7等は形態素解析の結果「名詞」というタグが付与された結果に過ぎない)。
図6,7中でisatomというタグが付与されている部位が支配する下部は不可分の(atomな)名詞句と設定される。このような不可分な名詞句中で書式変更の対象とされる単語が複数存在する場合が問題になる。
【0048】
図8はこのようなisatomの例である。「職務」と「発明」が併存している。本発明ではこのような場合、新しく「職務」かつ「発明」を含むという条件(複合ブール関数16bc)で新たな書式変更を設定する構成となっている。すなわち「職務」に対しては(1)、「発明」に対しては(2)という書式変更が設定されていた場合には、「職務&発明」に対して(3)という書式変更を設定する。これにより、設定が上書きされるのが避けられる。このような複合要素には一定の系統の書式変更をするとルール(複合ブール関数16bc)付けすることで読者が書式変更意図を理解しやすくできる。例えば書式変更が色とした場合には、緑系の色は複合要素とするなどである。なお、発明者は漢字の並びが連接する場合は同一の書式変更が適用されるのが自然と見ているので、この「職務発明」をisatomとした。他にも「形容詞の文節12p」+「名詞の文節12p」もisatomとしている。これらisatomの設定は読者により当然違ってくる。
【0049】
以上の
図7に対して更に「使用」、「従業」、「特許」を指定したのが
図9である。これらの単語を指定したのは「」くくりで指定されている単語であること(使用、従業)、読み進める上で重要と気づいたもの(特許)であることが理由である。従来事例も
図10(完全一致)と
図11(書式設定上書き)に示した。前者はどの単語がどの位置にあるかがわかりやすい一方で読書する上では不自然な単位で強調されている。後者は自然な単位は維持されているがイタリック体で示した箇所については先行して指定された書式変更が上書きされており書式変更の意図が見えづらくなってしまっている。
【0050】
構文解析ツリー全体も
図12、13に示す。対応する書式変更部が★(数字)で示されている。
【0051】
このように書式変更しつつ読み進めていくと、設定される書式が次々に増えていく。上の
図9の状況ですでに1から6までの6種類も使っている。
【0052】
これら設定は増やそうとすればいくらでも増やせるが、当然、視認性が悪くなる。名詞句としての最小単位(isatom)を設定した場合は、isatomな名詞句に対しては新たな書式条件を設定するので設定は増えやすい。この書式の枯渇問題は致命的である。
【0053】
従来例では、例えば設定が増えていく度に読者が設定を消去していた。一例としては全体の設定を全て消してしまうことである。これはせっかく設定したものが消えてしまうというデメリットがある。他の例としては文章を例えば第一章、第二章、第一節、第二節、などといった具合に予め区切っておいて、書式変更がその範囲でのみ有効とするやり方がある。しかしそのように文章が区切られていないことは多いし、区切りの単位が広い場合は有効でない。他の例としては一つ一つの書式設定を消すことである。具体的には例えば削除モードを用意しておいてそのモード時に文章中の色がついている箇所をクリックすると対応する設定が消去されるというものである。しかしこれを都度行うのは手間である。
【0054】
本発明では読者の視野に入る書式に注目する。すなわち書式変更のうち、実際に読者の視野(正確には少しマージンを採る)に入る設定を抽出し、それら複数の設定間で書式変更結果が重複しないように調整する。これにより書式の枯渇問題が大幅に軽減される。
【0055】
場合によっては今見えている色同士で区別が最も容易になる組み合わせを取ることも可能だろう。例えば書式変更が色の変更である場合、赤系の色と青系の色がバランスよく使われる、といった具合である。例えば設定が2つの場合は赤系の色(赤色、ピンク色)を使うのではなく赤色、青色を使ったほうが要素を区別しやすい。
【0056】
すでに別の箇所で設定した設定を極力維持するというのも可能である。書式変更を自動でサイクリックに変更するようにしておくのが普通である。詳しくは本発明者の別の出願(特開2021-176068)を参考にされたい。例えば色の変更であれば、上の事例に合わせると「発明」をクリックした際はピンク色が配色され、次に「職務」をクリックした際は自動で水色が配色されるといった具合である。「ピンク色」、「水色」、「ライム色」、「オレンジ色」、「紫色」、「赤色」、「青色」、、を単一設定の基本テーブルとし、複合設定(isatomで設定されるもの)については、「ライム色」、「緑色」、「淡い緑色」、、などといった具合に別のテーブルを用意する。
【0057】
本発明が問題としている書式の枯渇問題の観点では、先程の特開2021-176068では同じ単語を複数回クリックすることで書式をサイクリックに変更させていた。これにより視野中での書式かぶりを読者が手動で軽減できていたがこれも読書からの集中を切らせる余地が残っていた。本発明はこれも解消している。
【0058】
このようにサイクリックなテーブルが用意されている場合はテーブルのうち極力初期のものを使い続けることで、使われる書式の数を抑えることができる。視野中に使われる書式は少ないほうが良い。テーブルの前半のみで留めるのは有効である。
【0059】
以下、先程の職務発明の事例で色の枯渇問題の本発明による解決を見る。
図14が先程の(1)ないし(6)までの設定が維持された状態で第35条の後半に差し掛かった場合である。(4)と(5)の設定が視野中で生きている。ここで本条文の重要語である「相当の利益」を書式変更する。正確には「相当」を書式変更する。結果が
図15である。新たな書式(7)を用意するのではなく(1)を設定している。
【0060】
サイクリックに自動で書式を変えていった場合にたまたま(6)から(1)に戻ることもあるが、それは確実ではない。(4)に戻った際には色が重複してしまう。読者が手動でかぶらないようにすることも可能だが、読書からの集中が切れてしまう。
【0061】
以上のやりくりは新規色設定時だけでなく、ページ送りした際にも行われる必要がある。電子文書の閲覧がページ送りの場合は負荷が少ないが、スクロールの場合は負荷が大きくなるので文章要素が視野に入ったら計算、スレッドを分けて都度先回りして計算、といった工夫が必要である。