填洞:产生点估计QCEW抑制数据

萍(克莱尔)郑

经济研究分析师,印第安纳州商业研究中心,印第安纳大学凯利商学院雷竞技官方网站下载

县级数据抑制行业创建一个挑战,研究人员正在利用数据科学技术来克服。

概述

区域经济研究小额信贷大量使用公共数据的例子,研究部门就业增长在美国地区。虽然数据公司(即机构)在国家、州和城市水平很大程度上可访问,更细粒度的数据区域,如县(市),往往抑制为了防止识别特定的场所。数据抑制更可能在人口较少的地区或寻求非常具体的行业,如higher-digit北美行业分类系统(NAICS)代码。¹这导致研究与有限的地理范围或特定的工业分类或者两者兼而有之。因此,细粒度数据的缺乏限制了从业者的效用的研究。

两个公共来源县级工业研究人员使用最频繁的数据:县业务模式(CBP),每年美国人口普查局的产物,和季度普查的就业和工资(QCEW),季度和年度产品的美国劳工统计局(BLS)。

在描述各种就业数据集,美国经济分析局的网站上解释说,CBP就业和就业数据是统计局的年度扩展的五年经济普查和来自联邦行政记录和调查信息从业务机构组成人口普查局的商业注册中心。县就业和工资劳工统计局数据来源于国家失业保险的月度/季度行政记录(UI)的立法,为联邦雇员的情况下,联邦失业补助计划(UCFE)。²

虽然CBP提供数据在更细粒度的水平,如邮政编码,我们赞成QCEW因为它是更能跟上时代,更comprehensive-pulling数据更多的场所,因此可能更准确。³

也就是说,数据抑制QCEW是显著的。2016年的制造业数据就是一个例子。在所有美国县,只有12%的QCEW制造业就业数据在两位数NAICS抑制水平。然而,这一数字大幅上升为57%,三位的代码,并不断攀升89%六位数代码(见图1)。因此,“填补这些漏洞”成为必要,然而,具有挑战性的任务。

图1:抑制美国的制造业就业百分比县,2016年

便是NAICS水平= 12%、三位数= 57%,4 = 78%,5位= 84%,6位= 89%

资料来源:美国劳工统计局(Bureau of Labor Statistics),使用QCEW数据

供参考,这是截图的行业是什么样子NAICS-starting在四位数编码的水平:

查看完整的2017 NAICS»

研究人员越来越倾向于利用数据科学技术来估计这些细胞的抑制。印第安纳州商业研究中心(IBRC)是那些估计抑制数据以来的很大一部分我们的研究依赖于县级数据和详细的工业数据。

IBRC方法的一个总结

我们处理抑制细胞在两个阶段:

阶段时测距仪:我们计算范围(最小和最大值)每个抑制细胞根据其有限利润在县、州、国家和行业水平。我们在10周期或迭代生成这些使用机器学习技术。这些迭代⁴是必要的,因为所有其他抑制细胞的范围然后调整每次显示一个新的范围。
阶段2点仪:在这里,我们计算实际的点估计,抑制细胞使用投入产出表编制方法(又名RAS算法),将测距仪的结果。为了确保准确性,我们估计过程需要自上而下approach-starting从两位数和工作到六位数NAICS代码。⁵更多细节在RAS算法可在本文的结尾。

我们还整合来自其他值得信赖的公共数据源的数据(例如,细胞抑制在CBP QCEW并不总是抑制数据)。每年我们单独运行模型的数据2001年(当QCEW首次使用NAICS代码)公布的数据。

结果就是我们所说的QCEW-Complete时间序列,这也是平滑(以抑制任何大上升或下降)。

看看结果

我们进行了有效性检查我们的估计与印第安纳州的“真理”,从国家行政记录。我们能够确认估计通过日益改善颗粒的详细级别(从两位数到六位数)。

在两位数NAICS水平,24%的行业我们估计偏离自己的真实就业超过50%(低于真实价值高出50%或50%)。这些数字增加到55%左右higher-digit NAICS代码。因为这些行业往往是小机构雇员不足10 (5 - 6 NAICS级别),明智的规模,这些偏差不是很大。

抑制在公共数据的主要原因是为了保护身份和防止非法使用这些数据。另一方面,危害信息的充分利用人员和当地developers-due大量丢失的信息。

IBRC已经使用QCEW-Complete数据集进行研究和为区域和地方经济开发人员和劳动力专家提供工具来发现他们的经济机遇和挑战。是一个很好的例子地区劳动组合在印第安人的数字,IBRC工具创建并维护的数据与印第安纳州部门员工合作发展。总体而言,政策支持的研究与QCEW-Complete数据可以帮助确保更好地了解当地经济,防止错误的决策。

更多的方法:RAS算法

RAS算法⁶是一种“迭代比例合适的”程序。基本思想:在一个情况的总结数据条目(在输入表)并不等于他们的利润,被称为真值,需要调整条目的值以使他们的资金尽可能接近边缘。行和列之间的迭代调整完成,直到两行和列的数目收敛于相应的利润。

图2说明了这个过程是如何工作的。米⁽⁰⁾原始数据表,行和列对应于地理(县,在我们的例子中)和行业(NAICS代码),分别。可以看到,数据条目不总结自己的行/列的利润率。细胞调整始于行operation-each单元的比例乘以保证金在row-sum-and这导致表米⁽¹⁾行添加到他们的利润,但不列。下一步是调整列在同一方式导致表米⁽²⁾列添加到他们的利润,但行再次偏离他们的利润。现在,我们回到行调整,然后列调整。我们重复这个过程,直到米⁽²⁾(输出表)米⁽⁰⁾(输入表)收敛于对方。

图2:RAS算法的说明

资料来源:作者的计算

这种方法的一个警告是列(在以后的迭代)总是收敛自己的真实利润,而行(迭代)早些时候将在某种程度上偏离自己的真实利润。这是一个选择的问题研究人员想要的行或列是否有界。对于我们的目的,我们确保县总有界,因为据报道更准确。

另一个需要注意的是,需要一个输入表的算法,并且输入表必须为“现实”本身说话。回想一下,调整细胞比例“保证金/总和的比值。“如果细胞离现实太远了,结果就不会接近。此外,细胞与零值保持为零。因此,我们面临的挑战是创建一个输入表与现实点初始值估计。

对于初始值,我们依靠测距仪的结果,这使较低和上界值为每个细胞抑制。一个简单的结论就是计算区间中点作为初始值。然而,由于范围通常是太wide-especially higher-digit NAICS规定中点产生,而可怜的估计。适应,我们把在美国海关与边境保护局的数据和预测价值做了一个预测抑制细胞的基础上,积极使用未压制的数据线性机构和就业之间的联系。我们把这四个的平均值(最小值,最大值,CBP和预测)值,并使用它作为初始点估计。在海关与边境保护局的数据不可用的情况下,我们其他三个平均水平。

笔记

北美行业分类系统(NAICS)编码分类行业到一个层次结构。顶部的结构20两位数大类(例如,NAICS 11对应于农业、林业、渔业和狩猎)。每个类别进一步扩展到更多的细节作为一个通过三个进展,四、五和六位数水平。
”之间的区别是什么BEA就业和工资和劳动统计局和人口就业和工资吗?”美国经济分析局2006年1月12日,www.bea.gov /帮助/常见问题/ 104。
CBP排除大多数政府雇员,而QCEW覆盖平民政府雇员。QCEW还包括一些农业生产员工和家庭员工由CBP排除在外。
这是指设定范围的上界(最大值)。下界(最小值)仅仅是设定在机构的数量。计算范围在每一位NAICS代码。
这样做可以确保每个数字的估计水平NAICS代码界的“父”的水平。
Bui陈和阮越南冯氏,”短的注意在RAS方法。”先进的管理和应用经济学3,没有。4 (2013):133 - 137。