特許6758252 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＫＤＤＩ株式会社の特許一覧

特許6758252ヒストグラム生成方法、ヒストグラム生成装置及びヒストグラム生成プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6758252

(24)【登録日】2020年9月3日

(45)【発行日】2020年9月23日

(54)【発明の名称】ヒストグラム生成方法、ヒストグラム生成装置及びヒストグラム生成プログラム

(51)【国際特許分類】

G06F 16/2455 20190101AFI20200910BHJP

G06F 16/28 20190101ALI20200910BHJP

【ＦＩ】

G06F16/2455

G06F16/28

【請求項の数】11

【全頁数】15

(21)【出願番号】特願2017-110924(P2017-110924)

(22)【出願日】2017年6月5日

(65)【公開番号】特開2018-206074(P2018-206074A)

(43)【公開日】2018年12月27日

【審査請求日】2019年6月5日

(73)【特許権者】

【識別番号】000208891

【氏名又は名称】ＫＤＤＩ株式会社

(74)【代理人】

【識別番号】100166006

【弁理士】

【氏名又は名称】泉通博

(74)【代理人】

【識別番号】100124084

【弁理士】

【氏名又は名称】黒岩久人

(74)【代理人】

【識別番号】100153280

【弁理士】

【氏名又は名称】寺川賢祐

(72)【発明者】

【氏名】斉藤和広

【審査官】甲斐哲雄

(56)【参考文献】

【文献】国際公開第２０１６／１６６８７８（ＷＯ，Ａ１）

【文献】特表２０１６−５１９８１０（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１６／００−１６／９５８

(57)【特許請求の範囲】

【請求項1】

コンピュータが実行する、
データベースシステムにおいて実行される問合せ文において、異なる種類の型に型変換が行われるカラムを特定する特定ステップと、
特定された前記カラムに対応する前記型変換が行われる前のデータの度数分布を示し、予め記憶部に記憶されているヒストグラムに基づいて、当該ヒストグラムよりも度数分布の粒度が荒いヒストグラムを、前記問合せ文の中間結果に含まれる、前記カラムに対応する前記型変換が行われた後のデータの中間結果ヒストグラムとして生成する生成ステップと、
を含むヒストグラム生成方法。

【請求項2】

前記特定ステップにおいて、前記コンピュータは、前記問合せ文において、数値に対応する型から文字列に対応する型への型変換が行われるカラムを特定し、
前記生成ステップにおいて、前記コンピュータは、特定された前記カラムに対応する前記型変換が行われる前のデータに、桁数が異なるデータが含まれている場合に、前記カラムに対応する全てのデータの型変換前の最大値と最小値とを含むデータ区間における、前記データの数と、前記データが示す値の数とを示す情報を含むバケットを生成し、生成されたバケットに基づいて前記中間結果ヒストグラムを生成する、
請求項１に記載のヒストグラム生成方法。

【請求項3】

前記特定ステップにおいて、前記コンピュータは、前記問合せ文において、数値に対応する型から文字列に対応する型への型変換が行われるカラムを特定し、
前記生成ステップにおいて、前記コンピュータは、特定された前記カラムに対応する前記型変換が行われる前のデータに、正の値を示すデータと負の値を示すデータとが含まれている場合に、正の値を有する全てのデータに対応する第１バケットを生成するとともに、負の値を有する全てのデータに対応する第２バケットを生成する、
請求項１又は２に記載のヒストグラム生成方法。

【請求項4】

前記生成ステップにおいて、前記コンピュータは、前記第１バケット及び前記第２バケットのそれぞれに含まれるデータの最大値及び最小値を、それぞれのバケットに含まれるデータが取り得る値の最大値及び最小値に設定する、
請求項３に記載のヒストグラム生成方法。

【請求項5】

前記生成ステップにおいて、前記コンピュータは、前記第１バケットの最大値を前記中間結果ヒストグラムに含まれるデータにおける最大値に設定するとともに、前記第２バケットの最小値を前記中間結果ヒストグラムに含まれるデータの最小値に設定する、
請求項４に記載のヒストグラム生成方法。

【請求項6】

前記生成ステップにおいて、前記コンピュータは、前記ヒストグラムに含まれるデータの最大値が正の値である場合には、正の値を有するデータに対応する１以上のバケットである第１バケットにおける最大値を前記ヒストグラムに含まれるデータにおける最大値に設定するとともに、負の値を有するデータに対応する１以上のバケットである第２バケットにおける最小値を前記ヒストグラムに含まれるデータの最小値に設定する、
請求項１から５のいずれか１項に記載のヒストグラム生成方法。

【請求項7】

前記生成ステップにおいて、前記コンピュータは、前記ヒストグラムに含まれるデータの最大値が負の値である場合には、当該データの最大値を前記ヒストグラムに含まれるデータにおける最小値に設定するとともに、当該データの最小値を前記ヒストグラムに含まれるデータの最大値に設定する、
請求項１から６のいずれか１項に記載のヒストグラム生成方法。

【請求項8】

前記生成ステップにおいて、前記コンピュータは、特定された前記カラムに対応するデータに、正の値を示すデータと負の値を示すデータとが含まれている場合に、前記カラムに対応するデータにおける型変換前の最大値と、型変換前の最小値との比率と、前記カラムに対応する全てのデータの数とに基づいて、正の値を有するデータに対応する１以上のバケットである第１バケット及び負の値を有するデータに対応する１以上のバケットである第２バケットのそれぞれに含まれるデータの数を推定し、推定したデータの数を示す情報を含む前記第１バケット及び前記第２バケットを生成する、
請求項３から７のいずれか１項に記載のヒストグラム生成方法。

【請求項9】

前記生成ステップにおいて、前記コンピュータは、前記問合せ文に含まれる前記カラムに対応する絞り込み条件によって絞り込まれた後のデータの数を、生成された前記中間結果ヒストグラムに基づいて推定し、前記記憶部に記憶されているヒストグラムに含まれる複数のバケットのそれぞれに対応するデータの数を、推定したデータの数と、前記絞り込み条件によって絞り込まれる前のデータの数とに基づいて更新することにより、前記問合せ文が実行された後の前記カラムのヒストグラムをさらに生成する、
請求項１から８のいずれか１項に記載のヒストグラム生成方法。

【請求項10】

データベースシステムにおいて実行される問合せ文において、異なる種類の型に型変換が行われるカラムを特定する特定部と、
特定された前記カラムに対応する前記型変換が行われる前のデータの度数分布を示し、予め記憶部に記憶されているヒストグラムに基づいて、当該ヒストグラムよりも度数分布の粒度が荒いヒストグラムを、前記問合せ文の中間結果に含まれる、前記カラムに対応する前記型変換が行われた後のデータの中間結果ヒストグラムとして生成する生成部と、
を備えるヒストグラム生成装置。

【請求項11】

コンピュータを、
データベースシステムにおいて実行される問合せ文において、異なる種類の型に型変換が行われるカラムを特定する特定部、及び、
特定された前記カラムに対応する前記型変換が行われる前のデータの度数分布を示し、予め記憶部に記憶されているヒストグラムに基づいて、当該ヒストグラムよりも度数分布の粒度が荒いヒストグラムを、前記問合せ文の中間結果に含まれる、前記カラムに対応する前記型変換が行われた後のデータの中間結果ヒストグラムとして生成する生成部、
として機能させるヒストグラム生成プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、データベースに格納されているテーブルに含まれるデータの分布を示すヒストグラムを生成するヒストグラム生成方法、ヒストグラム生成装置及びヒストグラム生成プログラムに関する。

【背景技術】

【0002】

データベースシステムでは、データベースを操作する問合せ文の最適化等の実行計画の作成において、問合せ文の処理コストを利用することにより、問合せ文に対応する処理の実行時間を短縮することができる。従来、処理コストの推定に、データベースに格納されているテーブルに含まれるデータの分布を示すヒストグラムを利用する手法が知られている（例えば、特許文献１参照）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１６−０９５５６１号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

ヒストグラムは、テーブルに含まれる複数のカラムのそれぞれに対応して、１以上のバケットを含んでいる。バケットは、データ区間における、データの数とデータが示す値の数とを示す情報を含む。データベースシステムは、ヒストグラムに対して、問合せ文における演算処理を適用することにより、演算処理後のヒストグラム（中間ヒストグラム）を作成し、クエリの中間結果のサイズを推定することができる。

【0005】

しかしながら、問合せ文においてカラムに対して型変換が発生した場合には、型変換後のデータと、ヒストグラムとが対応しなくなる。このため、ヒストグラムを用いた中間結果のサイズの推定結果が、実際の演算処理における中間結果のサイズと乖離してしまうという問題が発生する。そして、中間結果のサイズの推定結果が、実際の演算処理における中間結果のサイズと乖離した状態でクエリの処理を継続すると、データベースシステムにおいて利用可能なリソースがなくなり、処理が終了しなくなるおそれがある。

【0006】

そこで、本発明はこれらの点に鑑みてなされたものであり、型変換後のデータに対応するヒストグラムを生成することができるヒストグラム生成方法、ヒストグラム生成装置及びヒストグラム生成プログラムを提供することを目的とする。

【課題を解決するための手段】

【0007】

本発明の第１の態様に係るヒストグラム生成方法は、コンピュータが実行する、データベースシステムにおいて実行される問合せ文において、異なる種類の型に型変換が行われるカラムを特定する特定ステップと、特定された前記カラムに対応する前記型変換が行われる前のデータの度数分布を示し、予め記憶部に記憶されているヒストグラムに基づいて、当該ヒストグラムよりも度数分布の粒度が荒いヒストグラムを、前記問合せ文の中間結果に含まれる、前記カラムに対応する前記型変換が行われた後のデータの中間結果ヒストグラムとして生成する生成ステップと、を含む。

【0008】

前記特定ステップにおいて、前記コンピュータは、前記問合せ文において、数値に対応する型から文字列に対応する型への型変換が行われるカラムを特定し、前記生成ステップにおいて、前記コンピュータは、特定された前記カラムに対応する前記型変換が行われる前のデータに、桁数が異なるデータが含まれている場合に、前記カラムに対応する全てのデータの型変換前の最大値と最小値とを含むデータ区間における、前記データの数と、前記データが示す値の数とを示す情報を含むバケットを生成し、生成されたバケットに基づいて前記中間結果ヒストグラムを生成してもよい。

【0009】

前記特定ステップにおいて、前記コンピュータは、前記問合せ文において、数値に対応する型から文字列に対応する型への型変換が行われるカラムを特定し、前記生成ステップにおいて、前記コンピュータは、特定された前記カラムに対応する前記型変換が行われる前のデータに、正の値を示すデータと負の値を示すデータとが含まれている場合に、正の値を有する全てのデータに対応する第１バケットを生成するとともに、負の値を有する全てのデータに対応する第２バケットを生成してもよい。

【0010】

前記生成ステップにおいて、前記コンピュータは、前記第１バケット及び前記第２バケットのそれぞれに含まれるデータの最大値及び最小値を、それぞれのバケットに含まれるデータが取り得る値の最大値及び最小値に設定してもよい。

【0011】

前記生成ステップにおいて、前記コンピュータは、前記第１バケットの最大値を前記中間結果ヒストグラムに含まれるデータにおける最大値に設定するとともに、前記第２バケットの最小値を前記中間結果ヒストグラムに含まれるデータの最小値に設定してもよい。

【0012】

【0013】

前記生成ステップにおいて、前記コンピュータは、前記ヒストグラムに含まれるデータの最大値が負の値である場合には、当該データの最大値を前記ヒストグラムに含まれるデータにおける最小値に設定するとともに、当該データの最小値を前記ヒストグラムに含まれるデータの最大値に設定してもよい。

【0014】

【0015】

【0016】

本発明の第２の態様に係るヒストグラム生成装置は、データベースシステムにおいて実行される問合せ文において、異なる種類の型に型変換が行われるカラムを特定する特定部と、特定された前記カラムに対応する前記型変換が行われる前のデータの度数分布を示し、予め記憶部に記憶されているヒストグラムに基づいて、当該ヒストグラムよりも度数分布の粒度が荒いヒストグラムを、前記問合せ文の中間結果に含まれる、前記カラムに対応する前記型変換が行われた後のデータの中間結果ヒストグラムとして生成する生成部と、を備える。

【0017】

本発明の第３の態様に係るヒストグラム生成プログラムは、コンピュータを、データベースシステムにおいて実行される問合せ文において、異なる種類の型に型変換が行われるカラムを特定する特定部、及び、特定された前記カラムに対応する前記型変換が行われる前のデータの度数分布を示し、予め記憶部に記憶されているヒストグラムに基づいて、当該ヒストグラムよりも度数分布の粒度が荒いヒストグラムを、前記問合せ文の中間結果に含まれる、前記カラムに対応する前記型変換が行われた後のデータの中間結果ヒストグラムとして生成する生成部、として機能させる。

【発明の効果】

【0018】

本発明によれば、型変換後のデータに対応するヒストグラムを生成することができるという効果を奏する。

【図面の簡単な説明】

【0019】

【図1】本実施形態に係るデータベースシステムの概要を示す図である。

【図2】本実施形態に係るデータベースシステムの構成を示す図である。

【図3】本実施形態に係るヒストグラムの一例を示す図である。

【図4】本実施形態に係るデータベースシステムにおける処理の流れを示すフローチャートである。

【図5】本実施形態に係る桁違い対応処理における処理の流れを示すフローチャートである。

【図6】本実施形態に係る負値対応処理における処理の流れを示すフローチャートである。

【図7】本実施形態に係る型戻し処理における処理の流れを示すフローチャートである。

【発明を実施するための形態】

【0020】

［データベースシステム１の概要］
図１は、本実施形態に係るデータベースシステム１の概要を示す図である。データベースシステム１は、ユーザ端末２から取得した問合せ文を実行するシステムである。ここで、問合せ文は、データベースを操作するための文字列であり、ＳＱＬ（Structured Query Language）で記述された命令文である。以下の説明において問合せ文をクエリという。

【0021】

データベースシステム１は、互いに通信可能な１以上のコンピュータによって構成されており、ヒストグラム生成装置として機能する。データベースシステム１は、ＬＡＮやインターネット等の通信ネットワークを介してユーザ端末２と通信可能に接続されている。

【0022】

データベースシステム１は、ユーザ端末２から、クエリを取得する（図１の（１））。データベースシステム１は、取得したクエリを解析して型変換が行われるカラムを特定し（図１の（２））、特定したカラムの型変換前のヒストグラムに基づいて、型変換後のカラムに対応するバケットを生成する（図１の（３））。ここで、バケットは、カラムに対応するデータの度数分布を示すヒストグラムに含まれている情報である。バケットは、データ区間におけるデータの数を示す情報と、データが示す値の数を示す情報とを含んでいる。

【0023】

データベースシステム１は、生成したバケットに基づいて、クエリの中間結果に対応するヒストグラムである中間結果ヒストグラムを生成する（図１の（４））。ここで、データベースシステム１は、特定したカラムに対応し、型変換が行われる前のヒストグラムに基づいて、当該ヒストグラムよりも度数分布の粒度が荒いヒストグラムを、中間結果ヒストグラムとして生成する。このようにすることで、データベースシステム１は、型変換後のデータに対応するヒストグラムを生成することができる。

【0024】

データベースシステム１は、中間結果ヒストグラムに基づいてクエリの処理コストを算出し（図１の（５））、処理コストに基づいてクエリを実行する（図１の（６））。中間結果ヒストグラムが、クエリに対応する処理に対応したものとなることから、データベースシステム１は、クエリの処理コストを精度良く計算することができる。
以下、データベースシステム１の構成について説明する。

【0025】

［データベースシステム１の構成例］
図２は、本実施形態に係るデータベースシステム１の構成を示す図である。
データベースシステム１は、記憶部１１と、制御部１２とを備える。

【0026】

記憶部１１は、例えば、ＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）等である。記憶部１１は、データベースシステム１を機能させるための各種プログラムを記憶する。記憶部１１は、データベースシステム１の制御部１２を、後述する取得部１２１、特定部１２２、生成部１２３、コスト算出部１２４、及び実行部１２５として機能させるデータベース管理プログラムを記憶する。ここで、データベース管理プログラムは、制御部１２を、取得部１２１、特定部１２２、及び生成部１２３として機能させるヒストグラム生成プログラムと、制御部１２を、コスト算出部１２４及び実行部１２５として機能させるクエリ実行プログラムとを含んでいてもよい。

【0027】

また、記憶部１１は、データベース１１１を記憶する。データベース１１１には、１以上のテーブルが格納されている。また、１以上のテーブルのそれぞれには、１以上のカラムが含まれている。１以上のカラムのそれぞれには、カラムに対応するデータの度数分布を示すヒストグラムが設けられている。

【0028】

図３は、本実施形態に係るヒストグラムの一例を示す図である。図３に示す例は、所定のテーブルに含まれるカラム「Ａ」に対応するヒストグラムである。図３に示すように、ヒストグラムには、カラムに対応するデータの最小値と最大値とを示す情報が含まれているとともに、１以上のバケットが含まれている。図３に示す例では、２つのバケット「Ａ１」及び「Ａ２」が含まれていることが確認できる。

【0029】

バケットには、バウンドと、レコード数と、ドメイン数とが含まれている。バウンドは、データが取り得る範囲を示す情報である。レコード数は、データの個数である。ドメイン数は、値の種類の個数である。なお、図３に示す例では、バケットにデータを示しているが、このデータは、バウンド数、レコード数、及びドメイン数を説明するために示したものであり、実際には含まれていないものとする。

【0030】

制御部１２は、例えばＣＰＵ（Central Processing Unit）である。制御部１２は、記憶部１１に記憶されている各種プログラムを実行することにより、データベースシステム１に係る機能を制御する。制御部１２は、データベース管理プログラムを実行することにより、取得部１２１、特定部１２２、生成部１２３、コスト算出部１２４、及び実行部１２５として機能する。

【0031】

取得部１２１は、データベース１１１に対応するクエリをユーザ端末２から取得する。
特定部１２２は、取得部１２１が取得したクエリを解析し、異なる種類の型に型変換が行われるカラムを特定する。具体的には、特定部１２２は、クエリを示す文字列において、型変換を示す演算であるキャスト演算に対応する文字列を特定することにより、異なる種類の型に型変換が行われるカラムを特定する。ここで、異なる種類の型とは、データの大小関係の並び順が異なる型をいう。特定部１２２は、例えば、数値に対応する型から文字列に対応する型への型変換が行われるカラムを特定する。

【0032】

生成部１２３は、異なる種類の型に型変換が行われるカラムに対応して記憶部１１に記憶されている、型変換が行われる前のヒストグラムに基づいて、当該ヒストグラムよりも度数分布の粒度が荒いヒストグラムを、クエリの中間結果に含まれる当該カラムの中間結果ヒストグラムとして生成する。

【0033】

具体的には、まず、生成部１２３は、中間結果ヒストグラムとして、型変換が行われる前のヒストグラムと同じヒストグラムを生成する。続いて、生成部１２３は、カラムに対応するデータに桁数が異なるデータが含まれる場合に実行する桁違い対応処理と、カラムに対応するデータに負の値のデータが含まれる場合に実行する負値対応処理とを実行することにより、中間結果ヒストグラムに含まれるバケットを更新する。以下、桁違い対応処理及び負値対応処理の詳細について説明する。

【0034】

［桁違い対応処理］
生成部１２３は、特定されたカラムに対応するデータに、桁数が異なるデータが含まれているか否かを判定する。例えば、生成部１２３は、中間結果ヒストグラムとして生成されているヒストグラムに含まれる最大値及び最小値を示す情報に基づいて、特定されたカラムに対応するデータに、桁数が異なるデータが含まれているか否かを判定する。

【0035】

生成部１２３は、桁数が異なるデータが含まれていると判定すると、桁違い対応処理を実行し、中間結果ヒストグラムとして生成されているヒストグラムのバケットを変更する。

【0036】

生成部１２３は、特定されたカラムに対応する全てのデータの型変換前の最大値と最小値とを含むデータ区間における、データの数と、データが示す値の数とを示す情報を含むバケットを生成する。そして、生成部１２３は、予め中間結果ヒストグラムとして生成されているヒストグラムに含まれているバケットを消去する。このようにすることで、生成部１２３は、ヒストグラムの粒度が荒くなるものの、型変換後のデータに対応するヒストグラムを生成することができる。

【0037】

なお、生成部１２３は、特定されたカラムに対応するデータに、正の値を示すデータと負の値を示すデータとが含まれている場合には、正の値を有する全てのデータに対応する第１バケットを生成するとともに、負の値を有する全てのデータに対応する第２バケットを生成する。

【0038】

例えば、生成部１２３は、中間結果ヒストグラムとして生成されているヒストグラムに含まれる最大値及び最小値を示す情報に基づいて、特定されたカラムに対応するデータに、正の値を示すデータと負の値を示すデータとが含まれているか否かを判定する。

【0039】

生成部１２３は、正の値を示すデータと負の値を示すデータとが含まれていると判定すると、第１バケットを生成するとともに、第２バケットを生成する。例えば、中間結果ヒストグラムとして生成されているヒストグラムに、複数のバケットが含まれている場合には、生成部１２３は、複数のバケットのうち、正の値を有するデータに対応するバケットを集約して第１バケットを生成する。また、生成部１２３は、複数のバケットのうち、負の値を有するデータに対応するバケットを集約して第２バケットを生成する。ここで、生成部１２３は、複数のバケットのうち、正のデータと負のデータとの双方を含むバケットが存在する場合には、当該バケットを、第１バケット及び第２バケットに分解するものとする。

【0040】

そして、生成部１２３は、第１バケット及び第２バケットそれぞれに含まれるデータのバウンド、レコード数、ドメイン数を更新する。例えば、生成部１２３は、第１バケット及び第２バケットそれぞれに含まれるデータの最大値及び最小値を、それぞれのバケットに含まれるデータが取り得る値の最大値及び最小値に設定し、これらのバケットのバウンドを設定する。例えば、数値型から文字列型に型変換される前の正のデータ（数値型のデータ）の最小値が４、最大値が５００である場合、文字列型に型変換された後の第１バケットの最小値は１０、最大値は９９となる。また、数値型から文字列型に型変換される前の負のデータ（数値型のデータ）の最小値が−５００、最大値が−４である場合、文字列型に型変換された後の第２バケットの最小値は−９９、最大値は−１０となる。

【0041】

また、生成部１２３は、正の値を有する全てのデータに対応する第１バケットの最大値を、中間結果ヒストグラムに含まれるデータにおける最大値に設定する。また、生成部１２３は、負の値を有する全てのデータに対応する第２バケットの最小値を、中間結果ヒストグラムに含まれるデータにおける最小値に設定する。例えば、型変換前の正のデータ（数値型のデータ）の最小値が４、最大値が５００であり、型変換前の負のデータ（数値型のデータ）の最小値が−５００、最大値が−４である場合、中間結果ヒストグラムに含まれるデータにおける最小値は−９９、最大値は９９となる。

【0042】

また、生成部１２３は、複数のバケットのうち、正の値を有するデータに対応するバケットを集約する場合に、正の値を有するデータに対応する全てのバケットのレコード数及びドメイン数の合計を算出することにより、第１バケットのレコード数及びドメイン数を設定する。また、生成部１２３は、複数のバケットのうち、負の値を有するデータに対応するバケットを集約する場合に、負の値を有するデータに対応する全てのバケットのレコード数及びドメイン数の合計を算出することにより、第２バケットのレコード数及びドメイン数を設定する。

【0043】

なお、生成部１２３は、正の値を示すデータと負の値を示すデータとが含まれていた場合に、型変換前のデータの最大値と、型変換前の最小値との比率と、更新前のバケットの全てのドメイン数（データの数）とに基づいて、第１バケット及び第２バケットのそれぞれのドメイン数を推定し、推定したドメイン数を示す情報を含む第１バケット及び第２バケットを生成してもよい。

【0044】

例えば、更新前のバケットに、１００個のデータが含まれており、当該バケットの最大値が９、最小値が−３であったとする。この場合、最大値と最小値との比率は、３対１である。したがって、更新前のバケットから生成された第１バケット及び第２バケットのそれぞれのドメイン数を、当該比率に基づいて推定すると、第１バケットのドメイン数は７５個であり、第２バケットのドメイン数は２５個である。このようにすることで、生成部１２３は、第１バケット及び第２バケットのドメイン数を簡易的に推定することができる。

【0045】

［負値対応処理］
生成部１２３は、特定されたカラムに対応するデータに、負の値を示すデータを含むか否かを判定する。生成部１２３は、負の値を示すデータを含むと判定すると、負値対応処理を実行し、中間結果ヒストグラムとして生成されているヒストグラムのバケットを変更する。

【0046】

まず、生成部１２３は、正の値を示すデータと負の値を示すデータとを含むバケットが存在していると判定すると、当該バケットを、正の値を有する第１バケットと、負の値を有する第２バケットとに分解する。

【0047】

続いて、生成部１２３は、既に生成されている中間結果ヒストグラムに含まれるデータの最大値が正の値であるか否かを判定する。生成部１２３は、中間結果ヒストグラムに含まれるデータの最大値が正の値である場合には、正の値を有するデータに対応する１以上の第１バケットにおける最大値を中間結果ヒストグラムに含まれるデータにおける最大値に更新する。また、生成部１２３は、中間結果ヒストグラムに含まれるデータの最小値が負の値である場合には、負の値を有するデータに対応する１以上の第２バケットにおける最大値を中間結果ヒストグラムに含まれるデータの最小値に更新する。

【0048】

また、生成部１２３は、中間結果ヒストグラムに含まれるデータの最大値が負の値である場合には、当該データの最大値をヒストグラムに含まれるデータにおける最小値に設定するとともに、当該データの最小値をヒストグラムに含まれるデータの最大値に設定する。

【0049】

また、生成部１２３は、第２バケットにおける最小値と最大値とを入れ替える。例えば、生成部１２３は、桁違い対応処理を実行したことによって、第２バケットの最小値が−９９、最大値が−１０となっている場合に、これらの最小値と最大値とを入れ替えて、第２バケットの最小値を−１０、最大値を−９９とする。

【0050】

また、生成部１２３は、中間結果ヒストグラムが、桁違い対応処理によって更新されておらず、型変換前のヒストグラムと同じ状態であり、第２バケットが複数存在する場合に、複数の第２バケットの並び順を逆順にする。

【0051】

［絞り込み条件が適用された後のドメイン数の推定］
生成部１２３は、クエリに含まれる、型変換が行われるカラムに対応する絞り込み条件によって絞り込まれた後のドメイン数（データの数）を、生成した中間結果ヒストグラムに基づいて推定する。

【0052】

クエリにおいて型変換が行われたカラムは、クエリ実行中の絞り込み処理が終了した後に再び型変換が行われる前の型のデータとして保持される。したがって、絞り込み処理が終了した後の当該データのヒストグラムは、型変換が行われる前の型のデータに対応するヒストグラム、すなわち、予め記憶部１１に記憶されているヒストグラムに対応している必要がある。

【0053】

そこで、生成部１２３は、記憶部１１に記憶されている、当該カラムに対応する型変換前のヒストグラムに含まれる複数のバケットのそれぞれに対応するデータの数を、中間結果ヒストグラムに基づいて推定したデータの数と、絞り込み条件によって絞り込まれる前のデータの数とに基づいて更新することにより、絞り込み処理が終了した後の当該カラムのヒストグラムをさらに生成する。

【0054】

コスト算出部１２４は、生成部１２３が生成した中間結果ヒストグラムに基づいてクエリの処理コストを算出する。例えば、コスト算出部１２４は、生成部１２３が生成した中間結果ヒストグラムに基づいてクエリが実行された場合における中間データのサイズを推定する。

【0055】

実行部１２５は、コスト算出部１２４が算出した処理コストに基づいてクエリを実行する。具体的には、まず、実行部１２５は、クエリに対応する全ての演算処理のヒストグラムの作成及びコスト推定が完了すると、推定した処理コストに基づいてクエリ最適化を含む実行計画の最適化を行う。そして、実行部１２５は、最適化された実行計画に基づいてクエリを実行する。

【0056】

［データベースシステム１における処理の流れ］
続いて、データベースシステム１における処理の流れについて説明する。図４は、本実施形態に係るデータベースシステム１における処理の流れを示すフローチャートである。

【0057】

まず、データベース１１１に対応するクエリをユーザ端末２から取得する（Ｓ１０）。
続いて、特定部１２２は、取得されたクエリに基づいて、型変換が行われるカラムを特定する（Ｓ２０）。

【0058】

続いて、生成部１２３は、中間結果ヒストグラムとして、型変換が行われる前のヒストグラムと同じヒストグラムを生成する（Ｓ３０）。
続いて、生成部１２３は、特定したカラムのデータが桁違いのデータを含んでいるか否かを判定する（Ｓ４０）。生成部１２３は、桁違いのデータを含んでいると判定すると、Ｓ５０に処理を移し、桁違い対応処理を実行する。桁違い対応処理の詳細については後述する。生成部１２３は、桁違いのデータを含んでいないと判定すると、Ｓ６０に処理を移す。

【0059】

続いて、生成部１２３は、特定したカラムのデータが負の値のデータを含んでいるか否かを判定する（Ｓ６０）。生成部１２３は、負の値のデータを含んでいると判定すると、Ｓ７０に処理を移し、負値対応処理を実行する。負値対応処理の詳細については後述する。生成部１２３は、負の値のデータを含んでいないと判定すると、Ｓ８０に処理を移す。

【0060】

続いて、生成部１２３は、カラムの型を修正する（Ｓ８０）。続いて、生成部１２３は、特定部１２２が特定した全てのカラムの型を修正したか否かを判定する（Ｓ９０）。生成部１２３は、全てのカラムの型を修正したと判定すると、Ｓ１００に処理を移し、全てのカラムの型を修正していないと判定すると、Ｓ３０に処理を移す。

【0061】

続いて、コスト算出部１２４、生成部１２３が生成した中間結果ヒストグラムに基づいてクエリの処理コストを算出する（Ｓ１００）。
続いて、生成部１２３は、型戻し処理を実行する（Ｓ１１０）。型戻し処理の詳細については後述する。
続いて、実行部１２５は、コスト算出部１２４が算出した処理コストに基づいてクエリを実行する（Ｓ１２０）。

【0062】

［桁違い対応処理における処理の流れ］
続いて、桁違い対応処理における処理の流れについて説明する。図５は、本実施形態に係る桁違い対応処理における処理の流れを示すフローチャートである。

【0063】

まず、生成部１２３は、特定部１２２が特定したカラムに対応するヒストグラムにおいて、正の値及び負の値に対応するバケット、すなわち、正の値のデータ及び負の値のデータを含むバケットがあるか否かを判定する（Ｓ５１）。

【0064】

生成部１２３は、正の値及び負の値に対応するバケットがあると判定すると、Ｓ５２に処理を移し、当該バケットを正の値のデータに対応する第１バケット、及び負の値のデータに対応する第２バケットに分解する。生成部１２３は、正の値及び負の値に対応するバケットがないと判定すると、Ｓ５３に処理を移す。

【0065】

続いて、生成部１２３は、正の値のデータを第１バケットに集約し（Ｓ５３）、負の値のデータを第２バケットに集約する（Ｓ５４）。
続いて、生成部１２３は、カラムの最大値及び最小値を更新する（Ｓ５５）。具体的には、生成部１２３は、第１バケットの最大値を、カラムの最大値に設定し、第２バケットの最大値を、カラムの最小値に設定する。

【0066】

［負値対応処理における処理の流れ］
続いて、負値対応処理における処理の流れについて説明する。図６は、本実施形態に係る負値対応処理における処理の流れを示すフローチャートである。

【0067】

まず、生成部１２３は、特定部１２２が特定したカラムに対応するヒストグラムにおいて、正の値及び負の値に対応するバケット、すなわち、正の値のデータ及び負の値のデータを含むバケットがあるか否かを判定する（Ｓ７１）。

【0068】

生成部１２３は、正の値及び負の値に対応するバケットがあると判定すると、Ｓ７２に処理を移し、当該バケットを正の値のデータに対応する第１バケット、及び負の値のデータに対応する第２バケットに分解する。生成部１２３は、正の値及び負の値に対応するバケットがないと判定すると、Ｓ７３に処理を移す。

【0069】

続いて、生成部１２３は、特定部１２２が特定したカラムに対応するデータに、正の値のデータが存在するか否かを判定する（Ｓ７３）。生成部１２３は、正の値のデータが存在すると判定すると、Ｓ７４に処理を移し、型変換前の負の値のデータの最大値を、カラムのデータの最小値に設定する。生成部１２３は、正の値のデータが存在しないと判定すると、Ｓ７５に処理を移し、カラムに対応するデータの最大値と、最小値とを入れ替える。

【0070】

続いて、生成部１２３は、負の値のデータに対応する第２バケットの最大値と最小値とを入れ替える（Ｓ７６）。
続いて、生成部１２３は、第２バケットが複数存在する場合に、複数の第２バケットの順序を逆順化する（Ｓ７７）。

【0071】

［型戻し処理における処理の流れ］
続いて、型戻し処理における処理の流れについて説明する。図７は、本実施形態に係る型戻し処理における処理の流れを示すフローチャートである。

【0072】

まず、生成部１２３は、クエリに含まれる条件式に型変換処理が含まれるか否かを判定する（Ｓ１１１）。生成部１２３は、条件式に型変換処理が含まれていない場合には、Ｓ１１２に処理を移し、条件式に対応する処理を、型変換前のヒストグラムに適用することにより、ヒストグラムを更新する。

【0073】

生成部１２３は、条件式に型変換処理が含まれている場合には、型変換対象のカラムに対して型変換を実行する（Ｓ１１３）。
続いて、生成部１２３は、型変換後のカラムに対して条件式が示す演算を実行する（Ｓ１１４）。

【0074】

続いて、生成部１２３は、演算の実行前後のデータ数に基づいて、カラムに対応するデータの選択率を算出し（Ｓ１１５）、当該選択率に基づいて、型変換前のヒストグラムを更新する（Ｓ１１６）。

【0075】

続いて、生成部１２３は、未処理の条件式が存在するか否かを判定する（Ｓ１１７）。生成部１２３は、未処理の条件式が存在する場合には、Ｓ１１１に処理を移し、未処理の条件式が存在しない場合には、本フローチャートの処理を終了する。

【0076】

［本実施形態における効果］
以上のとおり、本実施形態に係るデータベースシステム１は、取得したクエリにおいて、異なる種類の型に型変換が行われるカラムに対応する型変換が行われる前のデータの度数分布を示し、予め記憶部１１に記憶されているヒストグラムに基づいて、当該ヒストグラムよりも度数分布の粒度が荒いヒストグラムを、クエリの中間結果に含まれるカラムの中間結果ヒストグラムとして生成する。これにより、データベースシステム１は、粒度が粗いものの、型変換に対応してヒストグラムやバケットの最大値及び最小値を変換することによって、型変換後のデータに対応する中間結果ヒストグラムを生成し、当該中間結果ヒストグラムに基づいてクエリの処理コストを精度良く算出することができる。

【0077】

また、データベースシステム１は、中間結果ヒストグラムに基づいてクエリの処理コストを算出した後に型戻し処理を実行し、絞り込み条件が適用された後のカラムのヒストグラムをさらに生成する。このようにすることで、データベースシステム１は、絞り込み処理が行われた後に発生する処理に対応する処理コストの推定精度を向上させることができる。

【0078】

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更又は改良を加えることが可能であることが当業者に明らかである。例えば、上述の複数の実施形態を組み合わせてもよい。また、特に、装置の分散・統合の具体的な実施形態は以上に図示するものに限られず、その全部又は一部について、種々の付加等に応じて、又は、機能負荷に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。

【符号の説明】

【0079】

１・・・データベースシステム、１１・・・記憶部、１２・・・制御部、１２１・・・取得部、１２２・・・特定部、１２３・・・生成部、１２４・・・コスト算出部、１２５・・・実行部、２・・・ユーザ端末

【図1】