(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-05-21
(54)【発明の名称】WiFiマッチングに基づく感染症の感受性集団の接触追跡及びプリスクリーニング方法
(51)【国際特許分類】
G16H 10/00 20180101AFI20240514BHJP
【FI】
G16H10/00
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022555088
(86)(22)【出願日】2022-04-21
(85)【翻訳文提出日】2022-09-13
(86)【国際出願番号】 CN2022088158
(87)【国際公開番号】W WO2023197350
(87)【国際公開日】2023-10-19
(31)【優先権主張番号】202210413620.2
(32)【優先日】2022-04-14
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】505072650
【氏名又は名称】浙江大学
【氏名又は名称原語表記】ZHEJIANG UNIVERSITY
(74)【代理人】
【識別番号】100095407
【氏名又は名称】木村 満
(74)【代理人】
【識別番号】100132883
【氏名又は名称】森川 泰司
(74)【代理人】
【識別番号】100148633
【氏名又は名称】桜田 圭
(74)【代理人】
【識別番号】100147924
【氏名又は名称】美恵 英樹
(72)【発明者】
【氏名】賀 詩波
(72)【発明者】
【氏名】李 超
(72)【発明者】
【氏名】余 睿偉
(72)【発明者】
【氏名】呉 旻誠
(72)【発明者】
【氏名】陳 積明
(72)【発明者】
【氏名】程 鵬
(72)【発明者】
【氏名】劉 宇
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA00
(57)【要約】
本発明は、WiFiマッチングに基づく感染症の感受性集団の接触追跡及びプリスクリーニング方法を開示する。この方法は、移動機器によって収集されたユーザのWiFi接続記録及び感染確認ユーザの匿名識別コードリストに基づいて、記録マッチング、情報圧縮、ハイリスクWiFiデータベースの構築、ユーザの、ハイリスクWiFiとの重合率の計算などのステップによって、最終的に、ユーザに感染リスクがあるか否かを判断する。本方法に必要なデータは、通常のスマート移動機器に比べて容易に取得でき、特殊なアプリケーションプログラムを必要としない。本方法は、従来のGPS及びブルートゥースに基づく接触追跡方法に比べて、さらなる機器及び敏感なデータを使用せずに、別の次元の情報を提供し、実行効率が比較的に高く、接触追跡をより全面的かつ高効率に行うことに寄与する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
WiFiマッチングに基づく感染症の感受性集団の接触追跡及びプリスクリーニング方法であって、
1)ユーザ匿名識別コードの記録マッチング:データベースにより感染確認ユーザの固有匿名識別コードデータテーブルを取得し、hive sqlを用いて、これらのidの、メインデータベースにおける対応するWiFi接続記録を検索し、日付に従ってデータテーブルパーティションを確立し、元のデータ記録として保存し、データ時間スパンは、総計日であり、感染確認ユーザのWiFi接続データセットR={R
1,R
2,...,R
T}を構築し、ただし、日目の記録がR
iであり、総計でK
i個の記録があると、R
iは
【数1】
であり、ただし、各記録r
ijは(gid
ij,confirmDay
ij,mac
ij)であり、gid
ijは、ユーザの固有匿名識別コードを表し、confirmDay
ijは、ユーザの感染確認日付を表し、mac
ijは、ユーザがWiFiに接続したmacアドレスを表す、ステップと、
2)データ前処理:ステップ(1)で取得されたデータセットをコードローカルに保存して記憶し、双方向マッピング辞書類を確立し、いずれか1つの文字列を取得した後、内部に記憶されたエントリの数に基づいて、この文字列について新しい指示記号を確立し、この文字列及び指示記号をそれぞれキー及び値としてマッピングを確立し、ユーザ匿名識別コードのコード双方向マッピング辞書dict
userを確立し、ユーザの総数をN
uとし、元のユーザの統一された長さの匿名識別コードを略号
【数2】
としてマッピングし、ただし、i
uは1,2,3,...,N
uであり、WiFiのコード双方向マッピング辞書dict
wifiを確立し、WiFiの総数をN
wとし、元のWiFiのmacアドレスを略号
【数3】
としてマッピングし、ただし、u
wは1,2,3,...,N
wであり、元の記録データセットをマッピングして得られた記録データセット
【数4】
とする、ステップと、
3)ハイリスクWiFiデータベースの構築:ステップ(2)で略号マッピングが行われた情報データセット
【数5】
を用いて、ハイリスクWiFiデータベースをdict
danとし、
【数6】
における感染確認ユーザのWiFi接続記録を抽出し、記録におけるWiFi略号
【数7】
をdict
danに入れ、同時に、このWiFiをハイリスクWiFiデータベースに入れた日付を現在日付day
nowとして記録し、このWiFiが既に存在すれば、その入れた日付をday
nowに更新し、そして入れた日付
【数8】
と現在日付day
nowの差がハイリスクWiFi消失閾値thr
danを超える記録を削除するステップと、
4)感染リスクの判断:毎日新しく取得されたユーザのWiFi接続記録を
【数9】
とし、
【数10】
をユーザ別にグループ化し、各ユーザに対して、彼がその日に接続したすべてのWiFiをdict
danとマッチングし、重合率
【数11】
であり、ただし、
【数12】
は、このユーザがその日に接続したdict
danにおけるWiFiの数であり、
【数13】
は、このユーザがその日に接続したWiFiの総数であり、r
userが判断閾値thr
userよりも高い場合、このユーザがハイリスクユーザであると判断するステップとを含む、ことを特徴とする、WiFiマッチングに基づく感染症の感受性集団の接触追跡及びプリスクリーニング方法。
【請求項2】
前記ステップ1)のユーザ匿名識別コードの記録マッチングでは、hive sqlツールを用いて感染確認ユーザの固有匿名識別コードを全国ユーザのWiFi接続記録メインデータベースとマッチングし、後続処理用のパーティションされた感染確認ユーザデータ記録テーブルを生成し、具体的な実施方法としては、
1.1)元のデータベースは、1.1.1)感染確認ユーザの匿名識別コードgid_confirm、及び感染確認日付confirm_dayを含む感染確認ユーザ情報データテーブルと、1.1.2)ユーザ匿名識別コードgid、WiFiに接続したmacアドレスmac、記録生成日付day、記録生成地域area、記録生成時刻hour、記録時刻内のWiFi接続回数timesを含む全国ユーザのWiFi接続記録データテーブルとの2つの部分を含み、2つのデータベースの同じユーザ匿名識別コードをインデックスとし、hive sqlツールを用いて感染確認ユーザのWiFi接続記録データテーブルを生成し、
全国ユーザのWiFi接続記録データテーブルを地域area及び日付dayによってパーティションし、ターゲットデータテーブルを構築する時、ターゲットスクリーニング地域及びターゲット考察の開始終了時間を早期に決定し、
1.2)hive sqlツールを用いて、日付をインデックスとして、データテーブルに対してパーティション処理を行う、ことを特徴とする、請求項1に記載のWiFiマッチングに基づく感染症の感受性集団の接触追跡及びプリスクリーニング方法。
【請求項3】
前記ステップ2)のデータ前処理では、双方向マッピング辞書を用いて、元のユーザ匿名識別コード及びWiFiのmacアドレスに対して圧縮及び復元を行い、具体的な実施方法としては、
2.1)双方向マッピング辞書類TwoWayDictを構築し、その特徴は、元の未圧縮文字列を入力すると、辞書の内部に未圧縮文字列から圧縮文字列へ、圧縮文字列から未圧縮文字列への双方向マッピングを形成し、即ち未圧縮文字列及び圧縮文字列の各々をキー及び対応する値として保存することで、後続処理で、記憶スペース及びメモリを節約し、予測結果を取得すると、同様に、この双方向辞書に基づいて元の未圧縮文字列を取得することであり、
2.2)それぞれユーザ匿名識別コード及びWiFiのmacアドレスを用いて、2つの双方向マッピング辞書dict
user及びdict
wifiを確立する、ことを特徴とする、請求項1に記載のWiFiマッチングに基づく感染症の感受性集団の接触追跡及びプリスクリーニング方法。
【請求項4】
前記ステップ3)のハイリスクWiFiデータベースの構築では、日付に従って履歴ユーザのWiFi接続データにおけるmacアドレスをハイリスクWiFiデータベースに追加し、期限切れWiFiを動的に削除して偽陽性率を低減させ、具体的な実施方法としては、
3.1)履歴データの処理:履歴感染確認ユーザのWiFi接続記録におけるWiFiのmacアドレス及び感染確認日付を抽出し、ハイリスクWiFiデータベースdict
danに入れ、dict
danは、WiFiのmacアドレスをキーとし、感染確認日付を値とし、重複macアドレスがあれば、最も近い日付を選択して値として保存し、
3.2)毎日の更新データの処理:毎日の更新データを取得すると、その日に感染確認患者が接続したWiFiのmacアドレスを上記方法でdict
danに追加し、追加完了後、dict
danをトラバースし、macアドレスに対応する感染確認日付と現在日付の差分がハイリスクWiFi消失閾値thr
danを超える場合、それをハイリスクWiFiデータベースから削除する、ことを特徴とする請求項1に記載のWiFiマッチングに基づく感染症の感受性集団の接触追跡及びプリスクリーニング方法。
【請求項5】
前記ステップ4)の感染リスク判断では、毎日更新されたユーザのWiFi接続データとハイリスクWiFiデータベースとを比較して重合率を取得し、閾値に基づいて、ハイリスクユーザであるか否かを判断し、具体的なステップとしては、
4.1)毎日更新されたユーザのWiFi接続記録を取得すると、ユーザ匿名識別コードによってグループ化し、彼がその日に接続したWiFiの、ハイリスクWiFiデータベースとの重合率を計算し、ユーザuserの重合率r
userの計算式は、
【数14】
であり、
ただし、W
userは、このユーザがその日に接続したWiFiであり、W
danは、ハイリスクWiFiデータベースであり、
【数15】
は、セットSのエレメントの数を表し、
R
userがハイリスク判断閾値thr
userよりも高い場合、彼がハイリスクユーザであると判定し、彼を重点的にスクリーニングすべきである、ことを特徴とする、請求項1に記載のWiFiマッチングに基づく感染症の感受性集団の接触追跡及びプリスクリーニング方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、感染症の感受性集団の検出に関し、特に、WiFiマッチングに基づく感染症の感受性集団の接触追跡及びプリスクリーニング方法に関する。
【背景技術】
【0002】
2020年初めに発生した新型コロナウイルスの流行は、世界中の生産生活に大きな衝撃を与え、2022年3月まで、世界の累計感染確認人数は、4.7億を超え、累計死亡者数は、600万を超え、世界保健機関は、既に、2019コロナウイルス病(COVID-19)を史上最悪の公衆衛生イベントの1つと認定した。新型コロナウイルスは、世界に巨大な生命財産の損失をもたらし、国家、社会、人々の間の深刻な分断をもたらし、世界の構造を深刻に変えている。
【発明の概要】
【発明が解決しようとする課題】
【0003】
コロナウイルス流行の予防過程で、接触追跡は、非常に重要なステップである。公衆衛生分野において、接触者の追跡とは、感染者と接触した可能性のある接触者を識別するプロセス、及び、その後、これらの接触者に関するさらなる情報を収集するプロセスを指す。COVID-19を含む複数種の感染症は、呼吸器感染、接触感染などを通じて人の間に広がるため、すなわち、人と人の接触が生じるため、感染者と接触したリスクの高いこれらの人を早期に発見することは、潜在的な感染者をタイムリーに隔離するために非常に重要な役割を果たしている。
【0004】
従来の接触追跡方法は、主に感染者へのアンケート調査に依存しており、この方法は、被調査者の記憶に高度に依存しており、信頼性が悪いとともに、大量の人手がかかり、効率が低下している。情報化時代の発展に伴い、デジタル接触追跡技術、例えばスマート端末におけるアプリケーションプログラムを用いた接触追跡などは、この問題を解決する答えとなりつつある。デジタル接触追跡は、一般的に、位置データ、例えば、GPS、WiFi、通信基地局、ブルートゥースビーコンなどを介する必要があり、用いられるデータタイプに応じて、さらに以下の2種類の方法に分けることができる。
【0005】
1)絶対位置データを使用する方法:絶対的な位置情報、例えば、GPS位置、静的なWiFiホットスポット又は通信基地局の位置などのデータを使用し、これらのデータは、一般的には、地理座標の形式として表すことができる。これらのデータは、感染症の接触追跡に対して精度が高くない可能性があるが、大量のデータにより、特定のユーザの行動パターンを発見してクラスタリングすることができる。
【0006】
2)相対位置データを使用する方法:相対的な位置情報、例えば、ブルートゥースをオンにした2台の機器のインタラクションデータ、航空機や列車などの同じ公共交通機関を同時に使用したデータを使用し、これらのデータは、一般的に、ある時点に同じ領域に位置するデータペアとして表される。これらのデータは、相対的に高い精度を持っているが、特定の機器(例えば、ブルートゥース)を必要とし、また、ポイントとポイントのインタラクションに注目しすぎて、全体的な情報が不足している。
【0007】
2種類のデータは、いくつかの実用的な応用がある。例えば、中国で一般的に使用されている健康コードは、ユーザのGPSシーケンスデータを利用して接触判断と追跡を行っているが、シンガポール政府が提供するTrace Togetherサービスは、ブルートゥース信号を使用する専用のアプリケーションプログラムのダウンロードや専用のブルートゥース通信機器の装着を国民に強制することで接触追跡を行っている。これらの2つの態様は、以下の欠点がある。GPSデータは、室内では精度が限られており、人の具体的な位置軌跡などの敏感な情報に関連している。ブルートゥースポイントとツーポイントとの接触データは、専門機器を大規模に使用する必要があり、コストが高く普及しにくい。
【0008】
上記方法の欠点に対して、出願人は、WiFiマッチングに基づく感染症の感受性集団の接触追跡及びプリスクリーニング方法を提案する。
【0009】
本発明の目的は、従来の応用技術の欠点を補い、異なるタイプのデータを使用することにより、より全面的な感染症の感受性集団の接触追跡方法を提供することであり、この方法は、感染症の履歴感染確認患者のWiFiアクセス記録を利用して、ハイリスクWiFiデータベースを構築し、毎日更新されたユーザWiFiアクセス記録を取得すると、ユーザの感染リスクを判断し、感受性集団を探す効率を高めることができる。
【0010】
本発明の目的は、以下の技術案によって実現される。
【課題を解決するための手段】
【0011】
WiFiマッチングに基づく感染症の感受性集団の接触追跡及びプリスクリーニング方法であって、
1)ユーザ匿名識別コードの記録マッチング:データベースにより感染確認ユーザの固有匿名識別コードデータテーブルを取得し、hive sqlを用いて、これらのidの、メインデータベースにおける対応するWiFi接続記録を検索し、日付に従ってデータテーブルパーティションを確立し、元のデータ記録として保存し、データ時間スパンは、総計日であり、感染確認ユーザのWiFi接続データセットR={R
1,R
2,...,R
T}を構築し、ただし、日目の記録がR
iであり、総計でK
i個の記録があると、R
iは
【数1】
であり、ただし、各記録r
ijは(gid
ij,confirmDay
ij,mac
ij)であり、gid
ijは、ユーザの固有匿名識別コードを表し、confirmDay
ijは、ユーザの感染確認日付を表し、mac
ijは、ユーザがWiFiに接続したmacアドレスを表す、ステップと、
2)データ前処理:ステップ(1)で取得されたデータセットRをコードローカルに保存して記憶し、記憶スペースを節約するために、双方向マッピング辞書類を確立し、ある文字列を取得した後、内部に記憶されたエントリの数に基づいて、この文字列について新しい指示記号を確立し、この文字列及び指示記号をそれぞれキー及び値としてマッピングを確立し、ユーザ匿名識別コードのコード双方向マッピング辞書dict
userを確立し、ユーザの総数をN
uとし、元のユーザの統一された長さの匿名識別コードを略号
【数2】
としてマッピングし、ただし、i
uは1,2,3,...,N
uであり、WiFiのコード双方向マッピング辞書dict
wifiを確立し、WiFiの総数をN
wとし、元のWiFiのmacアドレスを略号
【数3】
としてマッピングし、ただし、u
wは1,2,3,...,N
wであり、元の記録データセットをマッピングして得られた記録データセット
【数4】
とする、ステップと、
3)ハイリスクWiFiデータベースの構築:ステップ(2)で略号マッピングが行われた情報データセット
【数5】
を用いて、ハイリスクWiFiデータベースをdict
danとし、
【数6】
における感染確認ユーザのWiFi接続記録を抽出し、記録におけるWiFi略号
【数7】
をdict
danに入れ、同時に、このWiFiをハイリスクWiFiデータベースに入れた日付を現在日付day
nowとして記録し、このWiFiが既に存在すれば、その入れた日付をdict
nowに更新し、そして入れた日付
【数8】
と現在日付day
nowの差がハイリスクWiFi消失閾値thr
danを超える記録を削除するステップと、
4)感染リスクの判断:毎日新しく取得されたユーザのWiFi接続記録を
【数9】
とし、
【数10】
をユーザ別にグループ化し、各ユーザに対して、彼がその日に接続したすべてのWiFiをdict
danとマッチングし、重合率
【数11】
であり、ただし、
【数12】
は、このユーザがその日に接続したdict
danにおけるWiFiの数であり、
【数13】
は、このユーザがその日に接続したWiFiの総数であり、r
userが判断閾値thr
userよりも高い場合、このユーザがハイリスクユーザであると判断するステップとを含む。
【0012】
さらに、前記ステップ1)のユーザ匿名識別コードの記録マッチングでは、hive sqlツールを用いて感染確認ユーザの固有匿名識別コードを全国ユーザのWiFi接続記録メインデータベースとマッチングし、後続処理用のパーティションされた感染確認ユーザデータ記録テーブルを生成し、具体的な実施方法としては、
1.1)元のデータベースは、1.1.1)感染確認ユーザの匿名識別コードgid_confirm、及び感染確認日付confirm_dayを含む感染確認ユーザ情報データテーブルと、1.1.2)ユーザ匿名識別コードgid、WiFiに接続したmacアドレスmac、記録生成日付day、記録生成地域area、記録生成時刻hour、記録時刻内のWiFi接続回数timesを含む全国ユーザのWiFi接続記録データテーブルとの2つの部分を含み、2つのデータベースの同じユーザ匿名識別コードをインデックスとし、hive sqlツールを用いて感染確認ユーザのWiFi接続記録データテーブルを生成し、
ただし、全国ユーザのWiFi接続記録データテーブルを地域area及び日付dayによってパーティションし、ターゲットデータテーブルを構築する時、スクリーニング効率を高め、スクリーニング時間を減少させるために、ターゲットスクリーニング地域(その地域コードは、AREACOREである)及びターゲット考察の開始終了時間(それぞれ、BEGINDAY及びENDDAYである)を速めに決定する必要があり、
1.2)感染確認ユーザのWIFI接続記録データテーブルの後続処理では、データ量が大きいためメモリが溢れることを防止するために、hive sqlツールを使用して、日付をインデックスとしてデータテーブルに対してパーティション処理を行う。
【0013】
さらに、前記ステップ2)のデータ前処理では、双方向マッピング辞書を用いて、元のユーザ匿名識別コード及びWiFiのmacアドレスに対して圧縮及び復元を行い、具体的な実施方法としては、
2.1)双方向マッピング辞書類TwoWayDictを構築し、その特徴は、元の未圧縮文字列を入力すると、辞書の内部に未圧縮文字列から圧縮文字列へ、圧縮文字列から未圧縮文字列への双方向マッピングを形成し、即ち未圧縮文字列及び圧縮文字列の各々をキー及び対応する値として保存することで、後続処理で、記憶スペース及びメモリを節約し、予測結果を取得すると、同様に、この双方向辞書に基づいて元の未圧縮文字列を取得することであり、
2.2)それぞれユーザ匿名識別コード及びWiFiのmacアドレスを用いて、上記方法に従って2つの双方向マッピング辞書dictuser及びdictwifiを確立する。
【0014】
さらに、前記ステップ3)のハイリスクWiFiデータベースの構築では、日付に従って履歴ユーザのWiFi接続データにおけるmacアドレスをハイリスクWiFiデータベースに追加し、期限切れWiFiを動的に削除して偽陽性率を低減させ、具体的な実施方法としては、
3.1)履歴データの処理:履歴感染確認ユーザのWiFi接続記録におけるWiFiのmacアドレス及び感染確認日付を抽出し、ハイリスクWiFiデータベースdictdanに入れ、dictdanは、WiFiのmacアドレスをキーとし、感染確認日付を値とし、重複macアドレスがあれば、最も近い日付を選択して値として保存し、
3.2)毎日の更新データの処理:毎日の更新データを取得すると、その日に感染確認患者が接続したWiFiのmacアドレスを上記方法でdictdanに追加し、追加完了後、dictdanをトラバースし、macアドレスに対応する感染確認日付と現在日付の差分がハイリスクWiFi消失閾値thrdanを超える場合、それをハイリスクWiFiデータベースから削除する。
【0015】
さらに、前記ステップ4)の感染リスクの判断では、毎日更新されたユーザのWiFi接続データとハイリスクWiFiデータベースとを比較して重合率を取得し、閾値に基づいて、ハイリスクユーザであるか否かを判断し、具体的なステップとしては、
1.1)毎日更新されたユーザのWiFi接続記録を取得すると、ユーザ匿名識別コードによってグループ化し、彼がその日に接続したWiFiの、ハイリスクWiFiデータベースとの重合率を計算し、ユーザuserの重合率r
userの計算式は、
【数14】
であり、
ただし、W
userは、このユーザがその日に接続したWiFiであり、W
danは、ハイリスクWiFiデータベースであり、
【数15】
は、セットSのエレメントの数を表し、
R
userがハイリスク判断閾値thr
userよりも高い場合、彼がハイリスクユーザであると判定し、彼を重点的にスクリーニングすべきである。
【発明の効果】
【0016】
本発明のWiFiマッチングに基づく感染症の感受性集団の接触追跡及びプリスクリーニング方法は、主に移動機器によって収集されたユーザのWiFi接続記録及び感染確認ユーザの匿名識別コードリストに基づいて、記録マッチング、情報圧縮、ハイリスクWiFiデータベースの構築、ユーザの、ハイリスクWiFiとの重合率の計算などのステップによって、最後のハイリスクユーザリストを得る。本発明におけるWiFi接続記録データに対する分析、修正、次元圧縮は、接触追跡方法に比べて、位置などのプライバシー情報に触れず、さらなる機器を使用しないとともに、計算リソースを節約し、処理時間を減少させ、スクリーニング効率を向上させることができ、感染確認ユーザと接触する可能性のあるリスクの高い感受性集団を探すために、別の次元でより全面的なデータサポートを提供する。
【図面の簡単な説明】
【0017】
【
図1】本発明のWiFiマッチングに基づくデジタル接触追跡及びプリスクリーニングの方法フローチャートである。
【
図2】本発明の実施例でユーザらからスクリーニングする正確率とリコール率の比較結果図である。
【発明を実施するための形態】
【0018】
以下に、添付図面を結び付けながら本発明の具体的な実施方法と動作原理を以下のように詳述する。
【0019】
実施例
本実施例では、ある場所から取得された2020年1月1日から2020年3月20日まで収集されたユーザのWiFi接続記録データ及びこの時間帯内のある呼吸器感染症の感染確認ユーザの匿名情報を用いた。データセットに含まれる具体的な変数及び関連するデータ情報は、表1、表2、表3、表4に示す。
【0020】
ある場所の一部のユーザのWiFi接続記録データ
【表1】
【0021】
ある場所の一部のユーザのWiFi接続記録データのフィールド説明
【表2】
【0022】
【0023】
移動機器データセットにおけるwifi_listの変数フィールドの解釈
【表4】
【0024】
本実施例では、デフォルトで、感染症の感受性集団の接触追跡及びプリスクリーニング方法の実施データセットは、上記ある場所のユーザのWiFi接続データ及びある感染症の感染確認ユーザデータであり、この方法の結果として得られるのは、ハイリスクユーザリストであり、その詳細な実施ステップは、具体的に以下のとおりである。
【0025】
1)ユーザ匿名識別コードに基づいてWiFi接続記録とマッチングし、hive sqlツールを用いて、記録日付及び選べられた地域コードに基づいて、全国ユーザのWiFi接続記録メインテーブルからサブテーブルを抽出してマッチング効率を高め、ユーザ匿名識別コードが同じであることをスクリーニング条件とし、対応する記録におけるユーザ匿名識別コード、WiFiに接続したmacアドレス、記録生成日付、ユーザの感染確認日付フィールドを残し、記録生成日付をパーティションインデックスとし、生成された感染確認ユーザのWiFi接続記録データテーブルに対してパーティション処理を行う。予測効果を検証するために、本実施例では、一部の健康ユーザの記録をサンプリングして同様な処理を行い、健康ユーザの感染確認日付フィールドに対してデフォルト処理を行う。同時に、テーブルにseedフィールドを追加し、seedが0に等しい場合、健康ユーザを表し、seedが1に等しい場合、感染確認ユーザを表す。
【0026】
2)ステップ1)で取得された感染確認ユーザのWiFi接続記録データテーブルを利用して日付順に処理する。データを読み込んだ後、そのgid列及びmacアドレス列をそれぞれ抽出し、それぞれ双方向マッピング辞書dictuser及びdictwifiを構築し、gid文字列及びmacアドレス文字列を圧縮する。圧縮後のデータテーブルを、表5に示す。
【0027】
双方向マッピング辞書で圧縮された後のデータテーブル
【表5】
【0028】
3)履歴データを処理し、すべての感染確認ユーザが接続したWiFiを考察し、ある感染症に潜伏期間が存在すること、即ち感染後に感染確認まで無症状であることを考慮し、記録発生日付が感染確認日付Tinc内にあると判定した場合、このWiFiのmacアドレス及びその日の日付をハイリスクWiFiデータベースに追加し、本実施例では、Tincを7日とする。取得されたハイリスクWiFiデータベースの形式は、以下のとおりである。
{’w3706696’: datetime.date(2020, 3, 18),
’w3658960’: datetime.date(2020, 2, 16),
’w3737021’: datetime.date(2020, 3, 11),
’w3834102’: datetime.date(2020, 3, 15),
’w194670’: datetime.date(2020, 3, 20),
’w2787916’: datetime.date(2020, 2, 23),…}
【0029】
4)毎日の更新データを判断し、毎日更新されたユーザのWiFi接続記録をユーザgid別にグループ化し、各ユーザがその日スキャンしたWiFiをまとめ、ハイリスクWiFiとの重合率を計算し、重合率が閾値thruserよりも高いか否かに基づいて、ハイリスクユーザであるか否かを判断し、本実施例では、thruserを0.1とし、その日のハイリスクユーザセットを構築し、その形式は、以下のとおりである。
{’u46515’, ’u19505’, ’u12248’, ’u35433’, ’u19808’, …}
【0030】
5)その日の実際の感染確認ユーザの情報に基づいてハイリスクWiFiデータベースを更新し、既にハイリスクWiFiデータベース内にあるものに対して、その記録日付を更新する。
【0031】
6)現在の圧縮ユーザidを元のユーザ匿名識別コードにマッピングし、これらのユーザを重点的にスクリーニングする。例えば、ステップ4)におけるユーザコードマッピング結果は、以下のとおりである。
【0032】
ANDROID-21010e17edd0437599c2388cd65d130b
ANDROID-c8607f33b36a40b7b17c227867fb290e
ANDROID-7e2f8561d05f468ca553ae9daa55b18c
ANDROID-018570e1daa544f082b655cf80feae54
ANDROID-cb2c78a391ac47229f2aa499d20a2a5f
【0033】
(7)本実施例では、毎日の正確率及びリコール率を、
図2に示す。感染症スクリーニングでは、正確率よりもリコール率指標が重要であることを考慮するため、本発明は、ハイリスク者のスクリーニングをよりよく実現する。
【0034】
本発明のWiFiマッチングに基づく感染症の感受性集団の接触追跡及びプリスクリーニング方法は、主に移動機器によって収集されたユーザのWiFi接続記録及び感染確認ユーザの匿名識別コードリストに基づいて、記録マッチング、情報圧縮、ハイリスクWiFiデータベースの構築、ユーザの、ハイリスクWiFiとの重合率の計算などのステップにより、最後のハイリスクユーザリストを得る。
図1は、WiFiマッチングに基づく感染症の感受性集団の接触追跡及びプリスクリーニング方法の具体的なフローである。実施例全体では、
図1に示すフローに従って、ユーザのWiFi接続記録データセットを処理し、最終的にハイリスク者のスクリーニング結果を得る。
図2は、本方法でユーザらからスクリーニングする正確率とリコール率の比較結果であり、WiFi接続記録データの分析、修正、次元圧縮は、接触追跡方法に比べて、位置などのプライバシー情報に触れず、追加機器を使用しないとともに、計算リソースを節約し、処理時間を減少させ、スクリーニング効率を向上させることができ、感染確認ユーザと接触する可能性のあるリスクの高い感受性集団を探すために、別の次元でより全面的なデータサポートを提供する。
【0035】
上述の実施例は、本発明の例にすぎず、説明の目的のために本発明の最適な例及び図面を開示しているが、当業者は、本発明及び添付の請求項の精神及び範囲を逸脱することなく、様々な置換、変化及び修正が可能であることを理解することができる。したがって、本発明は、最適な実施例及び図面に開示された内容に限定されるべきではない。
【国際調査報告】