特許第6647645号(P6647645)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ビデオリサーチの特許一覧

特許6647645疑似標本分布作成装置、疑似標本分布作成方法、およびプログラム
<>
  • 特許6647645-疑似標本分布作成装置、疑似標本分布作成方法、およびプログラム 図000008
  • 特許6647645-疑似標本分布作成装置、疑似標本分布作成方法、およびプログラム 図000009
  • 特許6647645-疑似標本分布作成装置、疑似標本分布作成方法、およびプログラム 図000010
  • 特許6647645-疑似標本分布作成装置、疑似標本分布作成方法、およびプログラム 図000011
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】6647645
(24)【登録日】2020年1月17日
(45)【発行日】2020年2月14日
(54)【発明の名称】疑似標本分布作成装置、疑似標本分布作成方法、およびプログラム
(51)【国際特許分類】
   G06F 16/90 20190101AFI20200203BHJP
   G06F 17/18 20060101ALI20200203BHJP
   G06F 17/15 20060101ALI20200203BHJP
【FI】
   G06F16/90
   G06F17/18 D
   G06F17/15
【請求項の数】5
【全頁数】11
(21)【出願番号】特願2019-110019(P2019-110019)
(22)【出願日】2019年6月13日
【審査請求日】2019年6月13日
【早期審査対象出願】
(73)【特許権者】
【識別番号】591101434
【氏名又は名称】株式会社ビデオリサーチ
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】鈴木 暁
【審査官】 吉田 誠
(56)【参考文献】
【文献】 特開2015−166916(JP,A)
【文献】 特開2001−265596(JP,A)
【文献】 特開2005−250682(JP,A)
【文献】 国際公開第2017/168524(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00 − 16/958
G06F 17/15
G06F 17/18
(57)【特許請求の範囲】
【請求項1】
データ群の分布を疑似的に表現するモデルを作成する疑似標本分布作成装置であって、
名義尺度のデータ群を、水準毎の正規分布によって疑似的な分布で表現する疑似モデル作成部と、
複数のデータ群の疑似的な分布の間の相関係数を設定する相関係数設定部と、
各データ群の間の同時確率と、各データ群の疑似的な分布に基づいて算出された同時確率の差分に基づいて、前記相関係数の最適値を算出する相関係数最適化部と、を備え、
前記相関係数設定部は、
水準毎の正規分布に対してそれぞれ相関係数を設定する、疑似標本分布作成装置。
【請求項2】
前記疑似モデル作成部は、
バイナリ尺度のデータ群と順序尺度のデータ群を、1つの正規分布によって疑似的な分布で表現し、
前記相関係数設定部は、
前記1つの正規分布に対して相関係数を設定する、請求項1に記載の疑似標本分布作成装置。
【請求項3】
前記相関係数設定部は、
第1のデータ群と第2のデータ群の間の相関係数の設定において、
前記第1のデータ群のデータ値が特定の値の場合に限り、前記第2のデータ群にデータが設定される場合には、第2のデータ群の標本における未設定のデータに、ランダムに値を割り当てて相関係数を設定する、請求項1または2に記載の疑似標本分布作成装置。
【請求項4】
コンピュータによって、データ群の分布を疑似的に表現するモデルを作成する疑似標本分布作成方法であって、
前記コンピュータが、名義尺度のデータ群を、水準毎の正規分布によって疑似的な分布で表現し、
前記コンピュータが、複数のデータ群の疑似的な分布の間の相関係数を設定し、
前記コンピュータが、各データ群の間の同時確率と、各データ群の疑似的な分布に基づいて算出された同時確率の差分に基づいて、前記相関係数の最適値を算出し、
前記相関係数の設定においては、
水準毎の正規分布に対してそれぞれ相関係数を設定する、疑似標本分布作成方法。
【請求項5】
データ群の分布を疑似的に表現するモデルを作成するコンピュータを、
名義尺度のデータ群を、水準毎の正規分布によって疑似的な分布で表現する疑似モデル作成部と、
複数のデータ群の疑似的な分布の間の相関係数を設定する相関係数設定部と、
各データ群の間の同時確率と、各データ群の疑似的な分布に基づいて算出された同時確率の差分に基づいて、前記相関係数の最適値を算出する相関係数最適化部として機能させ、
前記相関係数設定部は、
水準毎の正規分布に対してそれぞれ相関係数を設定する、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、疑似的な標本データを作成するための疑似標本分布作成装置、疑似標本分布作成方法、およびプログラムに関する。
【背景技術】
【0002】
アンケート結果などの限られた標本データに基づいて、疑似的な標本データを作成し、データ数を大幅に増やした上で分析などを行うことへの需要が高くなっている。
【0003】
従来、各設問への回答データ群が正規分布で表現できるとみなし、他の設問を表す正規分布との間の相関係数を実データに基づいて最適化することにより、疑似的な標本データの分布を作成する方法が知られている(例えば、非特許文献1)。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Anestis Touloumis, "Simulating Correlated Binary and Multinomial Responses under Marginal Model Specification: The SimCorMultRes Package", The R Journal Vol. 8/2, December 2016
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、非特許文献1に記載された方法を適用できるのは、データがバイナリ尺度や順序尺度のデータの場合であり、名義尺度のデータに対してまで拡張して適用することはできなかった。
【0006】
そこで、本発明は、バイナリ尺度や順序尺度のデータと同様に、名義尺度のデータに対しても適用可能な、再現性の良い疑似的な標本データの分布の作成方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明に係る疑似標本分布作成装置は、データ群の分布を疑似的に表現するモデルを作成する疑似標本分布作成装置であって、名義尺度のデータ群を、水準毎の正規分布によって疑似的な分布で表現する疑似モデル作成部と、複数のデータ群の疑似的な分布の間の相関係数を設定する相関係数設定部と、各データ群の間の同時確率と、各データ群の疑似的な分布に基づいて算出された同時確率の差分に基づいて、前記相関係数の最適値を算出する相関係数最適化部と、を備え、前記相関係数設定部は、水準毎の正規分布に対してそれぞれ相関係数を設定するものである。
【0008】
本発明に係る疑似標本分布作成方法は、コンピュータを用いて、データ群の分布を疑似的に表現するモデルを作成する疑似標本分布作成方法であって、名義尺度のデータ群を、水準毎の正規分布によって疑似的な分布で表現し、複数のデータ群の疑似的な分布の間の相関係数を設定し、各データ群の間の同時確率と、各データ群の疑似的な分布に基づいて算出された同時確率の差分に基づいて、前記相関係数の最適値を算出し、前記相関係数の設定においては、水準毎の正規分布に対してそれぞれ相関係数を設定するものである。
【0009】
本発明に係るプログラムは、データ群の分布を疑似的に表現するモデルを作成するコンピュータを、名義尺度のデータ群を、水準毎の正規分布によって疑似的な分布で表現する疑似モデル作成部と、複数のデータ群の疑似的な分布の間の相関係数を設定する相関係数設定部と、各データ群の間の同時確率と、各データ群の疑似的な分布に基づいて算出された同時確率の差分に基づいて、前記相関係数の最適値を算出する相関係数最適化部として機能させ、前記相関係数設定部は、水準毎の正規分布に対してそれぞれ相関係数を設定するものである。
【発明の効果】
【0010】
本発明によれば、バイナリ尺度や順序尺度のデータと同様に、名義尺度のデータに対しても適用可能な、再現性の良い疑似的な標本データの分布の作成方法を提供することができる。
【図面の簡単な説明】
【0011】
図1】本発明の実施の形態による、疑似標本分布作成装置1の構成を示すブロック図。
図2】本発明の実施の形態による、疑似標本分布作成処理のフローチャート。
図3】本発明の実施の形態による、実際に取得されたデータ群を例示する図。
図4】本発明の実施の形態による、疑似標本分布の作成方法を模式的に示した図。
【発明を実施するための形態】
【0012】
次に、本発明を実施するための形態について、図面を参照して詳細に説明する。
実施の形態
図1は、本発明の実施の形態による疑似標本分布作成装置1の構成を示すブロック図である。図1に示すように、疑似標本分布作成装置1は、例えば1台または通信回線で接続された複数のコンピュータによって構成される。疑似標本分布作成装置1は、制御装置11と、記憶装置12を備えている。制御装置11は、ハードウェアとして、CPU、ROMやRAM等のメモリ、入力インタフェース、出力インタフェース、通信インタフェース及びこれらを結ぶバス等を備えている。
【0013】
制御装置11は、CPUがROM等に格納されたコンピュータプログラムを実行することにより各種機能を実現する。図1に示すように、制御装置11よって実行されるコンピュータプログラムの機能モジュールには、疑似モデル作成部111、相関係数設定部112、相関係数最適化部113が含まれる。
【0014】
記憶装置12は、ハードディスクドライブ等であり、疑似標本分布の作成に用いる実際の標本データ等が記憶されている。なお、本実施形態では、アンケートへの回答結果のような実際のデータをもとに疑似的な標本データを作成するが、元になるデータは架空のデータであってもよい。
【0015】
次に、図2のフローチャートを用いて、疑似標本分布作成装置1による、疑似標本分布作成処理の流れについて説明する。ここでは、バイナリ尺度の設問1(例えば性別:男性「0」、女性「1」)と、3水準の名義尺度の設問2(例えば職業:会社員「1」、専門職「2」、自営業「3」)からなるアンケートへの回答結果の疑似標本分布を作成する場合を例に説明する。なお、バイナリ尺度は順序尺度の特別な例(尺度が2つの例)とみなすことが出来る。
【0016】
図3は、実際のアンケートへの回答結果のデータ(実データ)を例示する図である。図3に示すように、ここでは実データの標本数はID1〜ID5の5件である。図3に示すデータから、設問1の平均は0.6、設問2の平均は1.6と求められる。また、設問1と2の同時確率は、例えば、設問1が「0」、設問2が「1」、「2」、「3」となる同時確率は、それぞれ「0.2」、「0」、「0.2」、設問1が「1」、設問2が「1」、「2」、「3」となる同時確率は、それぞれ「0.4」、「0.2」、「0」となる。これらのデータは、記憶装置12に記憶されている。
【0017】
疑似標本分布作成装置1の疑似モデル作成部111は、設問1(回答がバイナリ尺度)の回答データ群X1(X1は0または1)を1つの正規分布(確率変数Z1、確率密度関数f1(x)、平均0、分散1)で表現する。また、設問2(回答が3水準の名義尺度)の回答データ群X2(X2は1または2または3)を、各水準1〜3に対応する3つの正規分布(確率変数Z21、確率密度関数f21(x)、平均0、分散1)、(確率変数Z22、確率密度関数f22(x)、平均0、分散1)、(確率変数Z23、確率密度関数f23(x)、平均0、分散1)で表現する(ステップS101)。本実施形態では、名義尺度のデータ群をいわゆるプロビットモデルで表現している。
【0018】
次に、疑似標本分布作成装置1の相関係数設定部112は、Z1と Z21、Z1と Z22、Z1と Z23の間に、それぞれ相関係数ρ1、ρ2、ρ3を設定する(ステップS102)。
【0019】
次に、疑似標本分布作成装置1の相関係数最適化部113は、X1とX2の間の同時確率に基づいて、相関係数ρ1、ρ2、ρ3の最適値を決定する(ステップS103)。相関係数ρ1、ρ2、ρ3の最適値が決まると、実データを模倣する疑似的な標本の分布を表すモデル(正規分布)を得ることができる。
【0020】
以下、疑似標本分布の作成方法について詳細に説明する。図4は、以下で説明する疑似標本分布の作成方法を模式的に示した図である。
まず、設問1を表すデータ群X1を、Z1、f1(x)を用いて下記のように表現する。
【数1】
【0021】
また、設問2を表すデータ群X2を、Z21、Z22、Z23、f21(x)、f22(x)、f23(x)を用いて下記のように表現する。
minarg(m1+Z21,m2+Z22,m3+Z23)=X2
【0022】
但しminargは、Z21、Z22、Z23のうち最小値をとったもののインデックスを返す関数である。また、m1、m2、m3は定数である。これを積分で表現すると以下のようになる。
【0023】
【数2】
【0024】
なお、(m1,m2,m3)は定数の差を除いて一意に設定できるので、特にm1=0とすることができる。また、Z21、Z22、Z23は互いに独立した変数である。
【0025】
以上をまとめると、まず、X1、X2は計測されるデータ群(ここでは、設問1の回答:0または1と、設問2の回答:1、2または3)であり、次のような観測値が計測される。
設問1の確率:Pr(X1=0), Pr(X1=1)
設問2の確率:Pr(X2=1), Pr(X2=2) ), Pr(X2=3)
同時確率行列:(Pr(X1=i,X2=j))i=0,1,j=1,2,3
【0026】
また、Z1およびZ21、Z22、Z23は、X1、X2を疑似的に表現するために作成された正規分布に従うデータ群であり、具体的には下記のように設定されている。
q1を、次を満たすように定義する。
Pr(X1=0)=Pr(Z1<q1)、Pr(X1=1)=Pr(Z1≧q1)
【0027】
また、Z21、Z22、Z23は、互いに独立した変数であり、下記を満たすように(m1,m2,m3)を定義する。
m1=0
Pr(X2=1)=Pr(minarg(m1+Z21,m2+Z22,m3+Z23)=1)
Pr(X2=2)=Pr(minarg(m1+Z21,m2+Z22,m3+Z23)=2)
Pr(X2=3)=Pr(minarg(m1+Z21,m2+Z22,m3+Z23)=3)
【0028】
さらに、Z1と Z21、Z1と Z22、Z1と Z23の間の相関係数をそれぞれρ1、ρ2、ρ3とする。当初のρ1、ρ2、ρ3は、何も制約を設けずに任意に設定する。
【0029】
次に、それぞれの成分への射影がf1,f21,f22,f23となるような4変量正規分布f(x1,x21,x22,x23,Σ)を作成することを考える。これは、相関係数行列Σがρ1、ρ2、ρ3によって下記のように表され、且つΣが正定値行列となるような4変量正規分布である。
【数3】
【0030】
一般にはこのようなΣは正定値行列にならない。しかし、Σに近い行列で正定値行列である行列Σ’(Σ’はΣを正定値化した行列という。)を見つけることにより、4変量正規分布fは、それぞれの成分への射影がf1,f21,f22,f23に近い分布となる。
【0031】
ここで、仮にΣ’=Σならば、この4変量正規分布fを用いて下記のように表すことができる。
【数4】
【0032】
さらに、それぞれの右辺を、下記のようにr01,r02,r03,r11,r12,r13とする。
【数5】
【0033】
ここでrijは、(q1,m1,m2,m3, ρ1,ρ2,ρ3)の関数であり、Σ’=Σならば、下記が成り立つ。
r0j=Pr(Z1<q1,minarg(m1+Z21,m2+Z22,m3+Z23)=j)
r1j=Pr(Z1≧q1,minarg(m1+Z21,m2+Z22,m3+Z23)=j)
【0034】
すなわち、fの各成分の射影はそれぞれZ1,Z21,Z22,Z23を模倣しており、さらにZ1,Z21,Z22,Z23をそれぞれ加工することで、X1,X2をそれぞれ模倣することができる。したがって、あとはX1,X2の同時確率を模倣できるようにρ1,ρ2,ρ3を決めることができれば、f は、相関関係も含めてX1,X2を模倣できることになる。
【0035】
そこで、さらに以下の(1)〜(6)の処理を実施する。
(1)ρ1,ρ2,ρ3の任意の初期値を設定する。
(2)ρ1,ρ2,ρ3の初期値からΣを作成する。
(3)Σ’を作成する。ここで、Σが正定値ならばΣ’=Σとし、そうでなければΣ’はΣに近い正定値行列とする。
(4)積分によりrijを計算する。
(5)(Pr(X1=i,X2=j))ijと、計測されたrijとの差分を算出する。
(6)ρ1,ρ2,ρ3を微調整しながら(2)〜(5)を繰り返し、rij=Pr(X1=i,X2=j)に近づける。
【0036】
以上の処理によって、相関関係も含めてX1,X2を模倣できるfを求めることができる。すなわち、fを表す確率変数をZ'とし、これを各成分に射影したものをZ'1,Z'21,Z'22,Z'23とし、X'1,X'2を下記のように定義する。
【数6】
【0037】
このとき、以下の式が成り立つ。
設問1の確率:Pr(X1=i)=Pr(X'1=i)
設問2の確率:Pr(X2=j)≒Pr(X'2=j)
設問1と2の同時確率:Pr(X1=i,X2=j)≒Pr(X'1=i,X'2=j)
【0038】
以上の手順により、X'1,X'2の同時確率と実データX1,X2の同時確率との差分が最小になるようなρ1,ρ2,ρ3を決めることができ、X1,X2の疑似標本X'1,X'2の分布を表す4変量正規分布fを得ることができる。得られた分布fに基づき、アンケートへの回答結果の疑似データのサンプルを作成することにより、データ数を増やして分析などを行うことができる。
【0039】
なお、上記では、バイナリ尺度と名義尺度のデータ群の分布を表現する例をあげているが、順序尺度と名義尺度、名義尺度と名義尺度の組み合わせの場合も、同様の手順で分布を得ることができる。すなわち、順序尺度は1つの正規分布で表現し、名義尺度は各水準に対応する正規分布でそれぞれ表現する(プロビットモデルで表現する)。その上で、それぞれの確率変数の間に相関係数を設定し、同時確率を再現できるような最適値を求める。例えば、2水準の名義尺度データ群X3(各水準を確率変数Z31,Z32で表現)と3水準の名義尺度データ群X4(各水準を確率変数Z41,Z42,Z43で表現)の場合には、Z31と Z41、Z31と Z42、Z31と Z43、Z32と Z41、Z32と Z42、Z32と Z43、の間に、それぞれ相関係数を設定し、最適値を求める。
【0040】
次に、アンケートなどで多く見られる限定設問(例えば、設問1の回答結果が特定の値の場合にのみ、設問2の回答を行う。)が含まれる場合の処理について説明する。限定設問が非回答の場合、回答データ値はNA(データなし)となるが、NAの出現自体に他の変数との相関があるため、NAも考慮したシミュレーションを行う必要がある。
【0041】
本実施形態では、NAにランダムに値を割り当てて計算を実施し、計算後にNAに戻すという方法を採用する。具体的には、以下の手順で計算を行う。
まず、実データにおいて、限定設問に該当するNAにランダムに値を割り当てる。この際、割り当てる値の出現確率をNA以外の値の出現確率に合わせる。相関係数の算出については、限定関係のある設問(一方の設問の回答内容によって、もう一方の回答要否が決まる場合)との相関係数を算出する場合には、NAにランダムに値を割り当てて算出した同時確率を使用する。一方、限定関係のない設問との相関係数を算出する場合には、NAに値を割り当てない(データなしのまま)状態で算出した同時確率を使用する。
【0042】
限定関係のある設問との相関係数については、算出後、限定設問のランダムに割り当てた値をNAに戻す。以上の手順によれば、限定関係を考慮した再現性の良いたシミュレーションを行うことができる。
【0043】
以上のように、本実施形態によれば、名義尺度のデータ群を、水準毎の正規分布によって疑似的な分布で表現し、水準毎の正規分布に対してそれぞれ他のデータ群との間の相関係数を設定するようにした。また、実際の各データ群の間の同時確率と、各データ群の疑似的な分布に基づいて算出された同時確率の差分が最小になるように、それぞれの相関係数を最適化するようにした。これにより、名義尺度のデータ群について、再現性の良い疑似的な標本データの分布を作成することができる。
【0044】
また、バイナリ尺度のデータ群と順序尺度のデータ群については、1つの正規分布によって疑似的な分布で表現し、他のデータ群との間の相関係数を、各データ群の間の同時確率と、各データ群の疑似的な分布に基づいて算出された同時確率の差分が最小になるように、最適化するようにした。これにより、バイナリ尺度、順序尺度、名義尺度が含まれる複数のデータ群(複数の設問への回答など)について、汎用的な方法で再現性の良い疑似的な標本データの分布を作成することができる。
【0045】
また、限定関係のある設問との相関係数を算出する場合には、未設定のデータにランダムに値を割り当てて算出した同時確率を使用して、相関係数を最適化するようにしたので、限定関係を考慮した再現性の良い疑似的な標本データの分布を作成することができる。
【0046】
なお、本発明は、上述した実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において、他の様々な形で実施することができる。このため、上記実施形態はあらゆる点で単なる例示にすぎず、限定的に解釈されるものではない。例えば、上述した各処理ステップは処理内容に矛盾を生じない範囲で任意に順番を変更し、または並列に実行することができる。また、各処理ステップ間に他のステップを追加してもよい。また、1ステップとして記載されているステップを、複数ステップに分けて実行してもよいし、複数ステップに分けて記載されているものを、1ステップとして把握することもできる。
【符号の説明】
【0047】
1…疑似標本分布作成装置
11…制御装置
12…記憶装置
111…疑似モデル作成部
112…相関係数設定部
113…相関係数最適化部
【要約】
【課題】バイナリ尺度や順序尺度のデータと同様に、名義尺度のデータに対しても適用可能な、再現性の良い疑似的な標本データの分布の作成方法を提供する。
【解決手段】データ群の分布を疑似的に表現するモデルを作成する疑似標本分布作成装置であって、名義尺度のデータ群を、水準毎の正規分布によって疑似的な分布で表現する疑似モデル作成部と、複数のデータ群の疑似的な分布の間の相関係数を設定する相関係数設定部と、各データ群の間の同時確率と、各データ群の疑似的な分布に基づいて算出された同時確率の差分に基づいて、相関係数の最適値を算出する相関係数最適化部と、を備え、相関係数設定部は、水準毎の正規分布に対してそれぞれ相関係数を設定する。
【選択図】図2
図1
図2
図3
図4