IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ディープ バイオ インクの特許一覧

特許7281827特定のデータクラスタの終端点探索方法及びそのデータ処理システム
<>
  • 特許-特定のデータクラスタの終端点探索方法及びそのデータ処理システム 図1
  • 特許-特定のデータクラスタの終端点探索方法及びそのデータ処理システム 図2
  • 特許-特定のデータクラスタの終端点探索方法及びそのデータ処理システム 図3
  • 特許-特定のデータクラスタの終端点探索方法及びそのデータ処理システム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-05-18
(45)【発行日】2023-05-26
(54)【発明の名称】特定のデータクラスタの終端点探索方法及びそのデータ処理システム
(51)【国際特許分類】
   G16B 40/00 20190101AFI20230519BHJP
   G06F 17/18 20060101ALI20230519BHJP
【FI】
G16B40/00
G06F17/18 D
【請求項の数】 8
(21)【出願番号】P 2020562692
(86)(22)【出願日】2019-05-08
(65)【公表番号】
(43)【公表日】2021-09-02
(86)【国際出願番号】 KR2019005499
(87)【国際公開番号】W WO2019216643
(87)【国際公開日】2019-11-14
【審査請求日】2021-02-12
(31)【優先権主張番号】10-2018-0052522
(32)【優先日】2018-05-08
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】519208133
【氏名又は名称】ディープ バイオ インク
(74)【代理人】
【識別番号】100120008
【弁理士】
【氏名又は名称】山田 くみ子
(72)【発明者】
【氏名】キム ソン ワ
【審査官】鈴木 和樹
(56)【参考文献】
【文献】特開2014-023566(JP,A)
【文献】Kevin H. Knuth,Optimal Data-Based Binning for Histograms,arXiv[ONLINE],2013年09月16日,pp.1-30,[URL:<https://arxiv.org/pdf/physics/0605197.pdf>],[検索日:2022年3月17日]
【文献】角田 友理子、外3名,自己組織化特徴マップ上のデータ密度ヒストグラムの平滑化とそのクラスター分析への応用,電子情報通信学会技術研究報告 ,2014年09月04日,Vol.114 No.205,pp.45-50
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00 - 99/00
G06Q 10/00 - 99/00
G06F 16/00 - 16/958
G06F 17/18
(57)【特許請求の範囲】
【請求項1】
少なくとも一つのクラスタを有するデータセットから特定のクラスタの終端点を探索する方法において、
a)探索システムが、前記データセットに含まれている多数の個別データのそれぞれの数値の値を入力されるステップと、
b)前記探索システムが、入力された前記それぞれの数値の値を用いて、前記数値の値が有し得る数値範囲を予め定められたビン幅を有する複数のビンに分割し、分割されたビンのそれぞれに相当する個別データの数をビン値として有するヒストグラムデータを生成するステップと、
c)前記ヒストグラムデータを平滑化するステップと、
d)前記平滑化されたヒストグラムデータを差分するステップと、
e)差分されたヒストグラムデータに基づいて、所定の基準条件を満たし、かつ、特定のクラスタの終端に存在するターゲットビンを探索するステップと、
f)予め設定されたビン幅を用いて前記基準条件を満たすターゲットビンが探索されない場合、前記ビン幅を一定の数値に見合う分だけ狭めるステップと、
狭められたビン幅を用いて前記ステップb)~ステップe)を再び行うステップと
を含む特定のデータクラスタの終端点探索方法。
【請求項2】
前記差分されたヒストグラムデータに基づいて、所定の基準条件を満たし、かつ、特定のクラスタの終端に存在するターゲットビンを探索するステップは、
差分されたヒストグラムデータから一定の方向にビンのそれぞれのビン値を探索しながら、探索している現在のビンの以前のビン値が以降のビン値よりも小さく、前記以前のビン値が0に等しいかまたはそれよりも小さく、前記以降のビン値が0に等しいかまたはそれよりも大きな値を有する最初のビンであることを前記基準条件として、前記基準条件を満たすビンを前記ターゲットビンとして探索するステップを含む請求項1に記載の特定のデータクラスタの終端点探索方法。
【請求項3】
少なくとも一つのクラスタを有するデータセットから特定のクラスタの終端点を探索する方法において、
a)探索システムが、前記データセットに含まれている多数の個別データのそれぞれの数値の値を入力されるステップと、
b)前記探索システムが、入力された前記それぞれの数値の値を用いて、前記数値の値が有し得る数値範囲を予め定められたビン幅を有する複数のビンに分割し、分割されたビンのそれぞれに相当する個別データの数をビン値として有するヒストグラムデータを生成するステップと、
c)前記ヒストグラムデータを平滑化するステップと、
d)平滑化されたヒストグラムデータに基づいて、所定の基準条件を満たし、かつ、特定のクラスタの終端に存在するターゲットビンを探索するステップと、
e)予め設定されたビン幅を用いて前記基準条件を満たすターゲットビンが探索されない場合、前記ビン幅を一定の数値に見合う分だけ狭めるステップと、
狭められたビン幅を用いて前記ステップb)~ステップd)を再び行うステップと
を含む特定のデータクラスタの終端点探索方法。
【請求項4】
前記平滑化されたヒストグラムデータに基づいて、所定の基準条件を満たす前記ターゲットビンを探索するステップは、
平滑化されたヒストグラムデータから一定の方向にビンのそれぞれのビン値を探索しながら、探索している現在のビンの以前のビン値がカットオフ値ではなく、かつ、現在のビン値がカットオフ値であり、少なくとも一つの次のビン値がカットオフ値を有することを前記基準条件として、前記基準条件を満たすビンを前記ターゲットビンとして探索するステップを含む請求項3に記載の特定のデータクラスタの終端点探索方法。
【請求項5】
データ処理システムにインストールされ、請求項1乃至請求項4のいずれか一項に記載の方法を行うためのプログラムを記録したコンピュータ読み取り可能な記録媒体
【請求項6】
プロセッサと、
前記プロセッサにより起動されるソフトウェアが格納されたメモリ装置と、
を備え、
前記ソフトウェアは、
少なくとも一つのデータクラスタを有するデータセットに含まれている多数の個別データのそれぞれの数値の値を入力され、入力された前記それぞれの数値の値を用いて、前記数値の値が有し得る数値範囲を予め定められたビン幅を有する複数のビンに分割し、分割されたビンのそれぞれに相当する個別データの数をビン値として有するヒストグラムデータを生成し、生成したヒストグラムデータに基づいて、所定の基準条件を満たし、かつ、特定のクラスタの終端に存在するターゲットビンを探索し、予め設定されたビン幅を用いて前記基準条件を満たすターゲットビンが探索されない場合、前記ビン幅を一定の数値に見合う分だけ狭め、狭められたビン幅を用いてヒストグラムを再生成して、再生成されたヒストグラムを用いて、前記特定のクラスタの終端に存在するターゲットビンを再探索するデータ処理システム。
【請求項7】
前記ソフトウェアは、
前記ヒストグラムデータを平滑化し、前記平滑化されたヒストグラムデータを差分し、差分されたヒストグラムデータに基づいて、前記所定の基準条件を満たし、かつ、特定のクラスタの終端に存在するターゲットビンを探索する請求項6に記載のデータ処理システム。
【請求項8】
前記ソフトウェアは、
前記ヒストグラムデータを平滑化し、前記平滑化されたヒストグラムデータに基づいて、前記所定の基準条件を満たす前記ターゲットビンを探索する請求項6に記載のデータ処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特定のデータクラスタの終端点探索方法及びこのためのデータ処理システムに関し、さらに詳しくは、少なくとも一つのデータクラスタを有するデータセットから特定のデータクラスタの終端点(例えば、終点または始点など)を有効に探索することのできる方法及びそのシステムに関する。
【背景技術】
【0002】
多くの技術またはサービス分野において多数のデータを解析し且つ活用している。
【0003】
例えば、特定の医療データを解析して患者別にどの薬を適用するか否かを決定したり、個人に特化した治療法を適用したりするなどの方式が盛んに採用されている。
【0004】
図1は、所定の標的抗癌剤に適した患者を選別するための手段である所定の診断キットにおいて活用される医療データの一例を示している。
【0005】
図1は、一実施形態であって、肺癌の代表的なバイオマーカであるEGFRのうち、特定の遺伝子(例えば、exon 18、19、20、21)に存在する突然変異の存否を知らせる検査キット(例えば、GenesWell(商標)ddEGFR Mutation Test)を用いて得られる医療データである。かような医療データを解析して、手術後に標的抗癌剤を処方するに先だって治療剤が効く患者を選別するのに利用可能である。しかしながら、本発明の技術的思想は、このような実施形態に制限されて適用されることはなく、種々のデータの解析に利用可能であることはいうまでもない。
【0006】
また、図1に示すグラフにおけるそれぞれの点は、個別の医療データを示す。そして、実施形態における個別の医療データは、図1に示すように、座標系において少なくとも一つのクラスタ(例えば、図1においては3つのクラスタ)にクラスタ化(クラスタリング)していてもよい。
【0007】
このとき、特定のデータクラスタにおける終端点(例えば、最初のクラスタである最下端のデータクラスタにおいて最も上部に存在する少なくとも一つの個別の医療データ(例えば、y軸の値が最も大きな値を有する少なくとも一つの医療データ)またはこのような個別の医療データのデータ値(y軸の値))を判断する必要がある場合がある。
【0008】
しかしながら、それぞれの個別の医療データだけでは、どのような個別の医療データがどのようなクラスタに含まれるか否かについて、データの数値の値または座標系に表示された座標の位置だけでは知り難く、特に、データクラスタとデータクラスタとの間に多数の個別の医療データが存在する場合には、このような困難さがさらに増してしまう虞がある。
【0009】
実際に、従来には、図1に示すように、人間が目視で座標系に表示された個別の医療データを確認し、任意に終端点(例えば、最初(最下位)のクラスタにおける上端点)を区別するための区切り線10を引くような作業方式を採用している。
【0010】
しかしながら、この場合、作業を行う者に応じて終端点が異なってくる虞があり、しかも、正確さに欠ける虞があるという不都合があった。
【発明の概要】
【発明が解決しようとする課題】
【0011】
したがって、本発明が解決しようとする技術的課題は、少なくとも一つのデータクラスタが存在するデータセットから速やかに特定のデータクラスタの終端点を自動的に探索することのできる方法及びそのシステムを提供することである。
【課題を解決するための手段】
【0012】
本発明の一局面によれば、少なくとも一つのクラスタを有するデータセットから特定のクラスタの終端点を探索する方法は、a)探索システムが、データセットに含まれている多数の個別データのそれぞれの数値の値を入力されるステップと、b)探索システムが、入力されたそれぞれの数値の値を用いて、数値の値が有し得る数値範囲を予め定められたビン幅を有する複数のビンに分割し、分割されたビンのそれぞれに相当する個別データの数をビン値として有するヒストグラムデータを生成するステップと、c)ヒストグラムデータを平滑化するステップと、d)平滑化されたヒストグラムデータを差分するステップと、e)差分されたヒストグラムデータに基づいて、所定の基準条件を満たし、かつ、特定のクラスタの終端に存在するターゲットビンを探索するステップと、を含む。
【0013】
差分されたヒストグラムデータに基づいて、所定の基準条件を満たし、かつ、特定のクラスタの終端に存在するターゲットビンを探索するステップは、差分されたヒストグラムデータから一定の方向にビンのそれぞれのビン値を探索しながら、探索している現在のビンの以前のビン値が以降のビン値よりも小さく、以前のビン値が0に等しいかまたはそれよりも小さく、以降のビン値が0に等しいかまたはそれよりも大きな値を有する最初のビンであることを基準条件として、基準条件を満たすビンをターゲットビンとして探索するステップを含んでいてもよい。
【0014】
特定のデータクラスタの終端点探索方法は、f)予め設定されたビン幅を用いて基準条件を満たすターゲットビンが探索されない場合、ビン幅を一定の数値に見合う分だけ狭めるステップと、狭められたビン幅を用いてステップb)~ステップe)を再び行うステップと、をさらに含んでいてもよい。
【0015】
技術的課題を解決するための他の実施形態によれば、少なくとも一つのクラスタを有するデータセットから特定のクラスタの終端点を探索する方法は、a)探索システムが、データセットに含まれている多数の個別データのそれぞれの数値の値を入力されるステップと、b)探索システムが、入力された前記それぞれの数値の値を用いて、数値の値が有し得る数値範囲を予め定められたビン幅を有する複数のビンに分割し、分割されたビンのそれぞれに相当する個別データの数をビン値として有するヒストグラムデータを生成するステップと、c)ヒストグラムデータを平滑化するステップと、d)平滑化されたヒストグラムデータに基づいて、所定の基準条件を満たし、かつ、特定のクラスタの終端に存在するターゲットビンを探索するステップと、を含む。
【0016】
平滑化されたヒストグラムデータに基づいて、所定の基準条件を満たすターゲットビンを探索するステップは、平滑化されたヒストグラムデータから一定の方向にビンのそれぞれのビン値を探索しながら、探索している現在のビンの以前のビン値がカットオフ値ではなく、かつ、現在のビン値がカットオフ値であり、少なくとも一つの次のビン値がカットオフ値を有することを前記基準条件として、前記基準条件を満たすビンを前記ターゲットビンとして探索するステップを含んでいてもよい。
【0017】
上記の方法は、データ処理システムにインストールされるコンピュータプログラムにより実現されてもよい。
【0018】
上記の技術的課題を解決するためのシステムは、プロセッサと、前記プロセッサにより起動されるソフトウェアが格納されたメモリ装置と、を備え、ソフトウェアは、少なくとも一つのデータクラスタを有するデータセットに含まれている多数の個別データのそれぞれの数値の値を入力され、入力されたそれぞれの数値の値を用いて、数値の値が有し得る数値範囲を予め定められたビン幅を有する複数のビンに分割し、分割されたビンのそれぞれに相当する個別データの数をビン値として有するヒストグラムデータを生成し、生成したヒストグラムデータに基づいて、特定のクラスタの終端に存在するターゲットビンを探索する。
【0019】
ソフトウェアは、ヒストグラムデータを平滑化し、平滑化されたヒストグラムデータを差分し、差分されたヒストグラムデータに基づいて、所定の基準条件を満たし、かつ、特定のクラスタの終端に存在するターゲットビンを探索してもよい。
【0020】
ソフトウェアは、ヒストグラムデータを平滑化し、平滑化されたヒストグラムデータに基づいて、所定の基準条件を満たす前記ターゲットビンを探索してもよい。
【0021】
ソフトウェアは、予め設定されたビン幅を用いて基準条件を満たすターゲットビンが探索されない場合、ビン幅を一定の数値に見合う分だけ狭め、狭められたビン幅を用いてヒストグラムを再生成して、再生成されたヒストグラムを用いて、特定のクラスタの終端に存在するターゲットビンを再探索してもよい。
【発明の効果】
【0022】
本発明の技術的思想によれば、多数の個別データを別途にクラスタ化(クラスタリング)しなくても、個別データの数値の値を用いて速やかに特定のデータクラスタの終端点を自動的に探索することができるという効果がある。
【0023】
これにより、既存にマニュアルにて行っていた作業に比べて一貫性があり、しかも、正確さに富んだ終端点の探索を行うことが可能になるという効果がある。
【図面の簡単な説明】
【0024】
本発明の詳細な説明の欄において引用される図面をより十分に理解するために、各図面の簡単な説明が提供される。
【0025】
図1】従来の特定のデータクラスタの終端点探索方法を説明するための例示図である。
図2】本発明の一実施形態に係る探索システムの概略的な構成を説明するための図である。
図3】本発明の一実施形態に係る特定のデータクラスタの終端点探索方法を概念的に説明するための図である。
図4】本発明の一実施形態に係る特定のデータクラスタの終端点探索方法を説明するためのフローチャートである。
【発明を実施するための形態】
【0026】
本発明と本発明の動作上の利点及び本発明の実施により達成される目的を十分に理解するためには、本発明の好適な実施形態を例示する添付図面及び添付図面に記載されている内容を参照せねばならない。
【0027】
また、本明細書においては、ある一つの構成要素が他の構成要素にデータを「伝送」すると記載されている場合には、構成要素は他の構成要素に直接的にデータを伝送してもよく、少なくとも一つのさらに他の構成要素を介してデータを他の構成要素に伝送してもよいことを意味する。
【0028】
逆に、ある一つの構成要素が他の構成要素にデータを「直接的に伝送」すると記載されている場合には、構成要素から他の構成要素を介さずに他の構成要素にデータが伝送されることを意味する。
【0029】
以下、添付図面に基づいて、本発明の好適な実施形態について説明することにより、本発明について詳しく説明する。各図面に付されている同一の参照符号は、同一の部材を示す。
【0030】
図2は、本発明の一実施形態に係る探索システムの概略的な構成を説明するための図である。
【0031】
図2を参照すると、本発明の技術的思想に従う探索システム100は、プロセッサ110及びメモリ120を備える。
【0032】
メモリ120は、本発明の技術的思想を実現するためのコンピュータプログラム(ソフトウェア)を格納してもよい。
【0033】
ソフトウェアは、プロセッサ110により起動される本発明の技術的思想に従う特定のデータクラスタの終端点探索方法を行ってもよい。
【0034】
探索システム100は、実施形態に従い、所定の周辺装置130を少なくとも一つ備えていてもよい。周辺装置は、例えば、ディスプレイ装置、スピーカ、オーディオ/ビデオ処理モジュール、外付けメモリ、入出力装置、通信装置など様々であってもよい。
【0035】
探索システム100は、コンピュータ、サーバ、モバイルフォンなど本発明の技術的思想に従って特定のデータクラスタの終端点を探索し得るデータプロセッシング能力を有するいかなるデータ処理システムでも実現可能である。
【0036】
探索システム100は、所定のデータセットを入力されてもよい。データセットは、多数の個別データを含んでいてもよい。多数の個別データは、所定の値を有する。値は、数値の値であってもよい。そして、多数の個別データは、少なくとも一つのデータクラスタを形成してもよい。
【0037】
本発明の技術的思想に従う例示は、図1に基づいて説明したように、医療データであってもよいが、本発明の権利範囲はこれに何ら限定されるものではなく、様々なデータに活用できることはいうまでもない。
【0038】
探索システム100は、入力されるデータセットを用いて、ヒストグラムデータを生成する。ヒストグラムデータは、個別データが有し得る数値の値の範囲を第1軸(例えば、x軸)のドメインとし、このような第1軸が所定のビン幅を有する複数のビン(bin)に分割された場合のそれぞれのビンに関する情報を含んでいてもよい。
【0039】
個別データが有し得る数値の値は、正の実数値であってもよく、最大値が予め定められていてもよい。
【0040】
それぞれのビンに関する情報は、対応するビンの第1軸の値の範囲(あるいは、何番目のビンであるかを示すビンのインデックス)及び当該ビンの第2軸(例えば、y軸)の値を有していてもよい。ビンの第2軸の値は、第1軸の値の範囲(すなわち、ビン幅に見合う分の範囲を有する個別データの数値の値)に対応する個別データの数であってもよい。
【0041】
そして、このようなビンに関する情報を含むヒストグラムデータに基づいて、探索システム100は、少なくとも一つのデータクラスタから特定のクラスタ(例えば、最初のクラスタ)の終端点(例えば、上端点)を探索することができる。
【0042】
「終端点を探索する」とは、特定のクラスタに含まれている個別データのうち、個別データの数値の値が高い順に(例えば、図1においてy軸方向に上方)最初の個別データの数値の値(あるいは、最初の個別データの数値の値の直後の数値の値の範囲)または高い順にいくつかの個別データが有する数値の値の範囲(あるいは、範囲の直後の数値の値の範囲)を意味してもよい。
【0043】
あるいは、終端点は、特定のクラスタに含まれている個別データのうち、個別データの数値の値が低い順に(例えば、図1においてy軸方向に下方)最初の個別データが有する数値の値(あるいは、最初の個別データの数値の値よりも低い直前の数値の値の範囲)または低い順に予め定められた数(例えば、2~3個)の個別データが有する数値の値の範囲(あるいは、その直前の数値の値の範囲)を意味してもよい。
【0044】
図1に基づいて説明した例は、複数のデータクラスタから数値の値が低い順に最初のデータクラスタの上端点を探す場合の例であるが、本発明の技術的思想が必ずしも最初のデータクラスタに適用されなければならないとか、特定のデータクラスタの上端点を探索するためのみ適用されるとか、とは限られない。例えば、後述するように、ヒストグラムデータを用いて特定のクラスタの終端点を探索する場合、探索方向(例えば、第1軸の数値の値が低いビンから高いビンの方向に)に応じて、何番目(例えば、2番目)の終端点を探すかによって、任意のデータクラスタ(例えば、2番目データクラスタ)の終端点を探すことができる。なお、探索方向(例えば、第1軸の数値の値が高いビンから低いビンの方向に)に応じて、特定のデータクラスタの上端点ではなく、下端点を探してもよい。
【0045】
以下では、説明のしやすさのために、複数のデータクラスタから数値の値が低い順に最初のデータクラスタの上端点を探す場合を例にとって説明するが、本発明の権利範囲がこれに限定されることはない。
【0046】
本発明の技術的思想によれば、ヒストグラムデータを用いて、特定のデータクラスタの終端点を探すことができ、この場合、ヒストグラムデータから相当するデータクラスタに対応する終端ビン、すなわち、ターゲットビンを探索する問題として定義され得る。
【0047】
また、実施形態に従って、本発明の技術的思想によれば、ヒストグラムデータをそのまま用いるわけではなく、平滑化されたヒストグラムデータ及び/又は平滑化されたヒストグラムデータを差分したヒストグラムデータを用いてもよい。
【0048】
すなわち、本発明の実施形態においては、平滑化されたヒストグラムデータを用いてターゲットビンを探索してもよく、平滑化されたヒストグラムデータを再び差分して、差分したヒストグラムデータを用いてターゲットビンを探索してもよい。なお、差分化を行う場合には、ヒストグラムデータの変曲点をより直観的に判断し易いという効果がある。
【0049】
本発明の技術的思想によれば、平滑化または平滑化及び差分化を通じて元の個別データを単にヒストグラムデータに変換してターゲットビンを探索する場合に、一時的に特定のビン(すなわち、特定の数値の値の近くの範囲)に相当する個別データが存在せず、再び個別データが存在する場合に、特定のビンをターゲットビン、すなわち、探索しようとする特定のデータグループの終端点として探索する場合が生じることを防ぐことができるという効果がある。
【0050】
以下では、図3及び図4に基づいて、このような本発明の技術的思想についてさらに詳しく説明する。
【0051】
図3は、本発明の一実施形態に係る特定のデータクラスタの終端点探索方法を概念的に説明するための図である。また、図4は、本発明の一実施形態に係る特定のデータクラスタの終端点探索方法を説明するためのフローチャートである。
【0052】
図3は、マスクの直径(すなわち、パラメータの数)が3であり、単にパラメータの値がそれぞれ[-1.0.1]であるマスクをもって平滑化及び/又は差分化を行う場合の例示的なヒストグラムデータを示しているが、平滑化マスク及び/又は差分化マスクの直径とパラメータ値などは様々に変更可能であることはいうまでもない。
【0053】
図3及び図4を参照すると、探索システム100は、データセットに含まれている原個別データOを順次に入力されてもよい(S100)。
【0054】
原個別データOは、図3に示すように、正の実数値(例えば、1.23425、2.13425、4.23252、3.13141、1.14452など)を有していてもよい。このような正の実数値は、図1に示すグラフにおいて、第2軸(例えば、y軸)に対応する値であってもよい。
【0055】
すると、探索システム100は、入力された原個別データOに基づいて、ヒストグラムデータHを生成することができる(S110)。
【0056】
ヒストグラムデータHは、個別データが有し得る数値の値の範囲を一定の幅を有する複数のビン(bin)20に分割し、分割されたビンのそれぞれに相当する数値の値を有する個別データの数がそれぞれのビンのビン値を有するように生成されるデータであってもよい。
【0057】
このようなヒストグラムデータHを図式化すると、図3のヒストグラムデータHのようになる。
【0058】
図3のヒストグラムデータHにおいてビン値を有するビン21は、いずれか一つのデータクラスタに対応するヒストグラムの部分領域であってもよい。
【0059】
したがって、データクラスタの終端点、すなわち、探索システム100が探索しようとするターゲットビン30は、図3に示すようになる。すなわち、図3では、最後の個別データ、すなわち、ターゲットビン30の直前のビン21-1に相当する個別データの数値範囲(すなわち、直前のビン21-1の第1軸の値の範囲)ではなく、そのビン値が存在する直前のビン21-1の直後のビンをターゲットビン30として探索する場合を示しているが、実施形態によっては、直前のビン21-1がターゲットビンになる場合もあることはいうまでもない。
【0060】
探索システム100は、このようなヒストグラムデータHから直接的にターゲットビン30を探索するわけではなく、ヒストグラムデータHを平滑化してもよい(S120)。
【0061】
そして、平滑化されたヒストグラムデータSを用いてターゲットビン30を探索してもよい(S150)。
【0062】
このように、平滑化されたヒストグラムデータSを用いることにより、ビン値を有する一連のビン21の間に一時的にビン値が0であるビン(空きビンと称する。)が少なくとも一つ存在する場合、すなわち、探索しようとするデータクラスタに相当する数値の値の範囲内に個別データが存在しない一部の範囲が存在する場合、このような空きビンをターゲットビンとして判断するか否か、あるいは、空きビンとして判断するか否かが不明になるという問題を解決することができる。すなわち、平滑化されたヒストグラムデータSを用いる場合には、たとえ元のヒストグラムHでは空きビンであるとしても、左右のビン値に応じて一定の値を有することになって、ビン値が0ではなくなる場合があるため、平滑化されたヒストグラムデータSを活用した方がさらに有効になる場合がある。
【0063】
このように、原ヒストグラムデータHを平滑化した結果を例示すれば、図3のヒストグラムSのようになる。
【0064】
ヒストグラムを平滑化するための平滑化マスク(または、フィルタ)及び/又は差分マスクについては周知である。
【0065】
本発明の実施形態においては、平滑化マスク及び/又は差分マスクとしては、コンボリューションマスクを用いてもよく、所定の数字列xとコンボリューションマスクhは、次のように定義され得る。
【0066】
【数1】
【0067】
本発明の一実施形態において、平滑化マスク及び差分マスクの一例においては、それぞれ[1,1,1,1,1,1,1,1,1,1]、[-1,-1,-1,-1,0,1,1,1,1]を用い、他の実施形態においては、[1,1,1,1,1,1,1,1,1]、[-1,-1,-1,-1,0,1,1,1,1]を用いた。しかしながら、平滑化マスク及び差分マスクは、データセットに含まれている個別データの数及びクラスタの度合いなどデータセットの特性に応じて種々に設定可能である。
【0068】
一方、前述したように、探索システム100は、平滑化されたヒストグラムデータSを用いてターゲットビン30を探索してもよいが、他のケースの場合には、平滑化されたヒストグラムデータSを差分することにより、より明確にターゲットビン30を探索してもよい。
【0069】
どのような場合に平滑化されたヒストグラムデータSを用いてターゲットビン30を探索し、また、どのような場合に差分化されたヒストグラムデータDを用いてターゲットビン30を探索するかは、データセットの特性に応じて予め決定されていてもよい。データセットの特性は、データの数、データの密集度、データクラスタの数をはじめとするデータセットの特性に基づいて決定されてもよく、予め繰り返し行われる実験を通じて前記特性がある範囲に収められる場合には、第1ケース、すなわち、平滑化ヒストグラムデータSを用いてターゲットビン30を探索し、別の第2ケースには、差分化ヒストグラムデータDを用いてターゲットビン30を探索するようにその基準が定められてもよいことはいうまでもない。
【0070】
いうまでもなく、実施形態によっては、ランダムに両方式のうちのどちらか一方を選んでもよく、実現例によっては、上記の方式を両方とも用いてターゲットビン30を探索し、その結果を比較してもよい。
【0071】
もし、上記の方式を両方とも用いてターゲットビン30を探索する場合には、探索されたターゲットビンのそれぞれの位置(第1軸の値)が同じであるか、あるいは、予め定められた位置(第1軸の値)の範囲内である場合、どちらか一方の方式により探されたターゲットビンを最終的なターゲットビンとして決定してもよい。
【0072】
したがって、探索システム100は、入力される原個別データOに基づいて第1ケースであると判断した場合(S130)、上述したように、平滑化されたヒストグラムデータSを用いてターゲットビン30を探索することができる(S150)。
【0073】
そして、探索システム100が第2ケースであると判断した場合、探索システム100は、平滑化されたヒストグラムデータSを再び差分してもよい(S140)。すると、探索システム100は、差分したヒストグラムデータDを用いてターゲットビン30を探索することができる(S150)。
【0074】
探索システム100が平滑化されたヒストグラムデータSからターゲットビン30を探索する場合の一例は、次の通りである。
【0075】
例えば、探索システム100は、平滑化されたヒストグラムデータSから一定の方向(例えば、数値の値が大きくなる方向)にビンのそれぞれのビン値を探索してもよい。
【0076】
そうしながら、探索している現在のビンの以前のビン値がカットオフ値(例えば、0)ではなく、かつ、現在のビン値がカットオフ値(例えば、0)であり、予め定められた数(例えば、1個または2個以上)の次のビン値がカットオフ値(例えば、0)を有するターゲットビン30を探索してもよい。
【0077】
この場合、図3において、ターゲットビン30が現在探索されている現在のビンである場合、直前のビン21-1のビン値は0ではなく、現在のビンのビン値は0であれば、予め定められた数(例えば、2個)の直後のビンのビン値は0であるため、現在のビンをターゲットビン30として決定することができる。
【0078】
カットオフ値は0であってもよいが、実施形態によっては、1などのように小さな値を有するように設定されてもよい。この場合には、探索する終端点は、データクラスタから終端側に個別データが1つしか存在しない数値の値を探すアルゴリズムにより定義されてもよく、実施形態によって、カットオフ値は種々に設定可能である。
【0079】
一方、差分されたヒストグラムデータDからターゲットビン30を探索する場合の一例は、次の通りである。
【0080】
例えば、探索システム100は、差分されたヒストグラムデータDから一定の方向(例えば、数値の値が大きくなる方向)にビンのそれぞれのビン値を探索してもよい。
【0081】
そうしながら、探索している現在のビンがターゲットビン30であれば、現在のビンの直前のビン21-1のビン値が直後のビン31のビン値よりも小さく、直前のビン21-1のビン値が0に等しいかまたはそれよりも小さく、直後のビン31のビン値が0に等しいかまたはそれよりも大きな値を有する場合が、探索しようとするターゲットビン30である場合であってもよい。
【0082】
すなわち、ビン値が負の値から次第に小さくなりながら0となる領域に相当する個所が探索しようとするターゲットビン30になることがある。
【0083】
一方、上述したようなヒストグラムデータを生成するとき、ビン幅をどのように設定するかによって、ターゲットビン30が探索されないこともある。例えば、ビン幅が広過ぎる場合には、探索しようとするデータクラスタとその次のデータクラスタとの間に個別データが多数存在し、相対的に密集している場合、カットオフ値を有するビンが存在しないこともある。
【0084】
さりとて、ビン幅を狭め過ぎる場合には、一つのデータクラスタ内においてもカットオフ値を有するビンが多数検出されてしまうという問題、またはビンの数が多くなって探索時間が長引いてしまうという問題などが生じる虞がある。
【0085】
したがって、繰り返し行われる実験を通じて適切なビン幅を予め決定しておくことが必要になる場合もある。
【0086】
もし、このようなビン幅を予め決定しておくことが困難である場合には、所定のデフォルトのビン幅の値を用いて探索を行い、上述したようなターゲットビンが探索されない場合(すなわち、探索しようとするターゲットデータクラスタの終端のビンと、ターゲットデータクラスタと隣り合うデータクラスタの前記ターゲットデータクラスタ側の終端のビンとの間にビン値が0であるビンが存在しないほどビン幅が広い場合)には、順次に予め定められた単位値に見合う分だけビン幅を狭めていきながら、狭められたビン幅を用いて再びヒストグラムデータを生成してもよい。そして、再び生成されたヒストグラムデータを用いて、前述したようなターゲットビンの探索手順(平滑化されたヒストグラムデータを用いたターゲットビンの探索、または差分されたヒストグラムデータを用いたターゲットビンの探索)を行ってもよい。
【0087】
この場合、相対的に探索効率性に優れたビン幅が探索され、探索されたビン幅を用いて前述したようなターゲットビンが探索可能になるという効果がある。
【0088】
一方、本発明の実施形態に係る特定のデータクラスタの終端点探索方法は、コンピュータにて読み取り可能なプログラム指令の形で実現されてコンピュータにて読み取り可能な記録媒体に格納されてもよく、本発明の実施形態に係る制御プログラム及び対象プログラムもまたコンピュータにて読み取り可能な記録媒体に格納されてもよい。コンピュータにて読み取り可能な記録媒体は、コンピュータシステムにより読み取り可能なデータが格納されるあらゆる種類の記録装置を網羅する。
【0089】
記録媒体に記録されるプログラム指令は、本発明のために特別に設計され、かつ、構成されたものであってもよく、ソフトウェア分野における当業者にとって公知となって使用可能なものであってもよい。
【0090】
コンピュータにて読み取り可能な記録媒体の例としては、ハードディスク、フロッピディスク及び磁気テープなどの磁気媒体(magnetic media)、CD-ROM、DVDなどの光記録媒体(optical media)、フロプティカルディスク(floptical disk)などの光磁気媒体(magneto-optical media)及びROM、RAM、フラッシュメモリなどのプログラム指令を格納し且つ行うように特別に構成されたハードウェア装置が挙げられる。なお、コンピュータにて読み取り可能な記録媒体は、ネットワークにより結ばれたコンピュータシステムに分散されて、分散方式によりコンピュータにて読み取り可能なコードが格納されて起動されてもよい。
【0091】
プログラム指令の例としては、コンパイラにより作成されるような機械語コードだけではなく、インタプリタなどを用いて電子的に情報を処理する装置、例えば、コンピュータにより起動可能な高級言語コードが挙げられる。
【0092】
上述したハードウェア装置は、本発明の動作を行うために一つ以上のソフトウェアモジュールとして作動するように構成されてもよく、この逆もまた同様である。
【0093】
上述した本発明の説明は、単なる例示のためのものであり、本発明の属する技術分野における通常の知識を有する者は、本発明の技術的な思想や必須的な特徴を変更することなく、他の具体的な形態へと容易に変形できることが理解できる筈である。よって、上述した実施形態は、あらゆる面において例示的なものに過ぎず、限定的ではないものと理解すべきである。例えば、単一型であると説明されている各構成要素は、分散されて実施されてもよく、同様に、分散されていると説明されている構成要素も、組み合わせられた形態に実施されてもよい。
【0094】
本発明の範囲は、上記の詳細な説明よりは後述する特許請求の範囲によって表わされ、特許請求の範囲の意味及び範囲、並びにその均等概念から導き出されるあらゆる変更または変形された形態もまた本発明の範囲に含まれるものと解釈されるべきである。
【産業上の利用可能性】
【0095】
本発明は、特定のデータクラスタの終端点探索方法及びこのためのデータ処理システムに利用可能である。
図1
図2
図3
図4