基于大数据分析工具的经济普查资料开发展示创新研究

12.06.2015  12:27

  随着信息技术的迅猛发展,当今社会已进入大数据时代,大数据已广泛应用于商业、金融、医疗、制造业和政府等领域,统计也不可避免的卷入这股潮流。

  统计和大数据关系紧密。首先,统计包括常规调查和大型普查,常规调查有月报、季报、年报,专业涉及社会领域的方方面面;大型普查包括人口普查、经济普查、农业普查、1%人口抽样调查、残疾人调查等等,此外还有调查队的抽样调查,民调中心的民意调查,数据量的积累不容小觑;其次,统计还会与工商、税务、质监、民政等部门有数据交换,这些部门的行政记录实时更新,有各种各样的格式和结构。此外,随着全面深化统计改革整体方案的推开,统计还可能直接与企业内部系统的数据及网上各类数据直接对接,减少采集中间环节,数据的高速性和多样性得到保证;数据的价值则毋庸置疑,因为随着人类跃进到大数据时代,数据不仅是新知识的来源,还是记录历史最重要、最可靠、最好的方式。

   一、三经普数据特点及分析模式探索

   (一)三经普的数据特点

  首先,本次普查对象比以往几次都要多,普查的数据采集和存储量比以往几次大幅增长,如果用常规工具分析处理速度会非常缓慢,对系统资源要求比较高。

  其次,本次经普采集的数据类型不单单是前几次普查的结构化数据,而加入了如证照、企业位置定位地理信息等非结构化数据,分析处理流程更为复杂。

  再次,本次普查数据准而全。通过现代化的采集手段、报送手段,减少了普查期间人为的各种干扰,从而确保普查数据的真实和准确,提高了普查数据的分析价值。

  经普数据的这几个特点符合使用大数据分析所需的4“V”的特征,使用大数据分析方法来进行本次普查数据的资料开发,可以有效避免“海量数据资源、几篇例行分析”的俗套,让量多质优、“高广深新”、解渴诱人的分析产品呈现在决策者和用户面前。

   (二)大数据处理方法带来统计分析的变化

  第一,传统的统计分析过程是“定性—定量—再定性”。第一个定性是为了找准定量分析的方向,主要靠经验判断,这在数据短缺、分析运算手段有限的情况下很重要。现在我们可以在大数据中找“”,直接依赖数据分析做出判断,因此基础性的工作就是找到“定量的回应”,这在存储能力大为增强、分析技术与分析速度大为提高的今天,探测“定量的回应”变得越来越简单,所要做的就是直接从各种“定量的回应”中找出那些真正的、重要的数量特征和数量关系,得出可以作为判断或者决策依据的结论,因此统计分析的过程可以简化为“定量—定性”,从而大大提高得到新的定性结论的可能性。 

  第二,传统的统计实证分析,一般都要根据研究目的提出某种假设,然后通过数据的收集与分析去验证该假设是否成立,其分析思路是“假设—验证”。但这种验证往往由于受到假设的局限、指标选择的失当、所需数据的缺失而得不出真正的结论。特别是,一旦假设本身不科学、不符合实际,那么分析结论就毫无用处、甚至扭曲事实真相。事实证明,很多这样的实证分析纯粹是为了凑合假设。现在,我们使用大数据的分析方法,可以不受任何假设的限制而从中去寻找关系、发现规律,然后再加以总结、形成结论。也就是说,分析的思路是“发现—总结”。这将极大地丰富统计分析的资源与空间,有助于发现更多意外的“发现”。

  第三,传统的统计推断分析,通常是基于分布理论,以一定的概率为保证,根据样本特征去推断总体特征,其逻辑关系是“分布理论—概率保证—总体推断”,推断的评判标准与具体样本无关,但推断是否正确却取决于样本的好坏。现在,使用大数据的分析方法,强调全体数据,总体特征不再需要根据分布理论进行推断,只需要进行计数或计量处理即可。不仅如此,还可以根据全面数据和实际分布来判断其中出现某类情况的可能性有多大,其逻辑关系变成了“实际分布—总体特征—概率判断”,也即概率不再是事先预设,而是基于实际分布得出的判断。按照迈尔—舍恩伯格的观点,这个概率判断就可以用于预测了。

  在大数据迅速发展的今天,尝试利用大数据分析特有的方法和特点,对三经普数据进行深入的数据分析和展示,相信可以更好的达到“摸清经济家底、摸准经济脉络、画清经济图像”的经济普查目的,开发出更有吸引力的统计产品,让分析产品体现出活动价值和统计人的作为,呈现出更多的“高、广、深”的分析产品。

   二、基于大数据分析工具的经济普查资料开发展示

   (一)大数据分析与可视化展示

  众所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的、深入的、有价值的信息。越来越多的应用涉及到大数据,而这些大数据的属性,包括数量、速度、多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,是决定最终信息是否有价值的关键因素。

  数据可视化是指借助图形、地图、动画等生动、直观的方式来展现数据的大小、诠释数据之前的关系和发展趋势,以期更好地理解和使用数据分析的结果。可视化不仅能展示数据,还能分析数据,优秀的可视化设计可以帮助人们发现、确定事情之间的因果逻辑关系。

   (二)普查数据分析展示和创新研究

  “普查是要为了用而查,不是为了查而查!”原国家统计局局长马建堂在全国统计工作会议上谈及普查数据的应用时强调,要努力防止出现“重普查、轻应用”的倾向。的确,第三次全国经济普查从筹备、试点到正式调查登记,从事后质量抽查到数据汇总公布,历时两年多,动用了大量人力物力财力,获取了宝贵的普查资料,应该要让普查成果惠及全社会、发挥更大效应。

   1.基于Tableau的湖南省第三次经济普查个体户分析

  Tableau是国外一款大数据可视化分析工具,能够连接多种数据源并创造不同类型的可视化图形,包括堆积条形图、散点图以及填充地图。Tableau一是提供全功能的试用版本,二是易于学习,便于使用,无需编程,三是处理数据速度非常快,支持一键式可视化分析,能将数据放在地图上,绘制数据地图,功能直观而强大。笔者在此基础上对长沙市个体户的情况作了以下分析。

   ----个体经营户主要围绕人们衣食住行+“”开展活动

  在对长沙市个体户的行业代码进行分析时,户数排名在前十位的行业中类分别是522、523、470、521、891、629、528、511、543、524,对应的主要业务活动分别为食品、饮料及烟草制品专门零售,纺织、服装及日用品专门零售,房屋建筑业,综合零售,室内娱乐活动,其他餐饮业,五金、家具及室内装饰材料专门零售,农、林、牧产品批发,道路货物运输,文化、体育用品及器材专门零售。民以食为天,所以食品荣登榜首不足为奇;穿的体面穿的个性也越来越成为趋势,所以纺织紧跟其后,这也是一个城市物质生活提高的象征;房屋建筑排名第三绝非偶然,这是房地产经济全面市场化带来的必然结果;道路货物运输也在榜中,说来奇怪却也不奇怪,与电商的兴起和快递业的迅速扩张关系紧密,解决的是人们出行的问题;室内娱乐场所和文化、体育用品及器材零售跻身于前十,则表明随着经济的发展,人们已经从关注物质享受转向了精神享受,在衣食住行都有了保障后,人们会更多的寻去内心的充实和精神的愉悦,市场如能把握这一趋势,即可相应推出更多丰富多彩的项目供人们选择。

   ----个体从业人员行业分布较为集中,制造业不再是“明星

  从行业大类看,人员较为集中的行业依次是:零售业647648人,占全部个体经营户总人数的32.59%;餐饮业215498人,占总人数的10.85%,批发业183999人,占总人数的9.26%,房屋建筑业150901人,占总人数的7.59%,居民服务业115885人,占总人数的5.83%,娱乐业84133人,占总人数的4.23%。以上六大行业合计从业人员占从业人员总人数的70.35%,其余则零零散散分布在各行各业。而在第二次经济普查从业人员排行中还占有显著地位的制造业则日渐黯然,想必门槛的提高,管理的加强和规范与此不无关系,要么倒闭,要么转行,要么升级成企业是制造行业个体户的出路所在。

   ----企业带动效应明显,个体有望整合提升

  以普查小区代码为维度,以个体户记录数和从业人员期末人数为度量,通过tableau软件自带的筛选器功能筛选出户数和从业人员数均排名靠前的小区,笔者发现了两个比较突出的小区,43018111322000和43018112122600,对应的普查小区名分别为浏阳市太平桥镇星镇村委会和浏阳市澄潭江镇渠城村委会。之所以说突出,因为这两个小区的个体户总数不多,分别为338户和649户,但从业人员数却达到了7903人和7210人,户均从业人员为23人和11人,远远高出长沙市个体户均水平和湖南省户均水平。深入研究发现,此两镇均为浏阳市工业强镇,太平桥镇以烟花鞭炮生产为主,澄潭江镇有花炮、煤炭两大支柱产业,镇内“四上”企业都有30余家,“四下”企业则多达300家,在这些企业的带动下,人口聚集,个体户自然应运而生。实际上,这些个体户已完全达到了企业的生产经营水平,只是管理方无暇顾及,个体户们则安于现状,所以一直以个体经营的形式生存。近年来,多地推行“个转企”,如若能抓住这些表现突出的个体为突破口,个转企的成功率将大大提升。

   2.基于Tableau的湖南省企业分布情况尝试性分析

   ----湖南省“四上”企业分布 

  为了展示Tableau的数据地图功能,笔者以湖南省“四上”企业在各市州的个数及从业人员分布做了一张简单的数据地图,如图2所示。通过圆点的大小及颜色的深浅,清晰地展示了“四上”企业及从业人员情况在湖南省内的分布状态,作为省会城市的长沙,圆点最大颜色最深一目了然。企业的属性指标和经济指标非常多,对应到tableau软件上就是维度和度量值多,可以非常灵活的开展交叉分析、汇总、展示,从而深入挖掘数据,探析数据背后的真相,这是提高统计分析能力和数据价值的途径。图2为按市州统计,还可以按区县统计,或按经济带统计等等。将关心的区域圈选出来后,系统就能自动显示该区域内的企业个数、从业人员情况、营业收入等经济指标,快速直观。现在全国统计系统正准备倾力打造的地理信息系统就是基于这一原理,实现单位、人口和地理位置信息匹配,用数据和地图说话,为管理和决策服务。

   ----湖南省医药企业分布

  2014年1月,湖南省委常委、常务副省长陈肇雄到长沙市某普查小区检查指导经普登记工作时,现场提了一个问题,即湖南省医药企业的分布情况。现根据普查结果做一简要分析。从行业来看,湖南省医药企业主要集中在工业的卫生材料及医药用品制造领域,贸易的医药及医疗器材专门批发和零售领域,制造领域相对来说较为薄弱。从地区来看,省会长沙在医药制造业具有垄断地位,其他地区零散分布,发展空间相当大。医药批零则除长沙外,岳阳、常德也较为突出,集中在湖南的“北大门”附近。全省医药行业自主创新、研发、制造能力不强,对国外省外设备、药品依赖比较大。

   ----湖南省建筑业企业资质等级和开业年份分析

  近年来,房地产价格的起伏波动时刻牵动着亿万中国人的心,建筑业和房地产息息相关,笔者试图从建筑业企业的资质等级和开业年份入手,解析全省房地产企业发展状况。从图4不难看出,一是建筑业企业新开业个数基本处于增长状态,在2001年取得突破性增长以后经过短暂几年的回落,在2009年以后又开始高速增长。可以说2001年是一个重要拐点,而2001年正是住房制度改革政策落地的一年,由此可见政策对市场的刺激和拉动作用非同一般。可以预见,建筑业开业个数还将随着房地产市场的兴衰继续波动;二是全省建筑业企业整体很年轻,“十岁”以下的就占总数的66%,“五岁”以下的也占了总数的一半以上。图中可以看出2010、2011、2012、2013年建筑业开业个数居高不下,市场已经进入过度竞争状态,企业决策者如不考虑转型升级,难免会被市场所淘汰;三是全省建筑业企业中,没有资质等级的企业占了总数的三分之二,有资质等级的仅占三分之一。建筑业资质等级是政府为加强对建筑活动监督管理、维护市场秩序,保证建设工程质量而依法设立的规定,对企业的注册资本、专业技术人员、技术装备等等都有明确的要求,对企业从事的建筑活动范围也有明确的规定。如果没有达到相应的资质等级却从事建筑活动,工程质量无法得到保证,因此必须引起重视。

   三、大数据时代统计改革发展的对策建议

  大数据时代的到来给政府统计带来了巨大的挑战和机遇。要主动适应这一大势,大力推进大数据在政府统计中的开发利用,进一步增强政府统计的科学性和及时性、规范性。

   (一)深化统计改革,提高统计工作水平

  统计是数据使用者,同时又是数据生产者。在转变统计数据生产方式上,大数据能够突破统计传统思维模式,提供新的途径可选。在统计理念上,顺应大数据潮流,要实现“三个转变”:一是从依靠部署报表采集数据到关注采用现有数据,例如互联网数据,部门行政记录等等,即有什么数据用什么数据;二是从追求数据准确性到接受数据的杂乱和不确定性,注重自身甄别处理数据的能力,注重分析趋势和增强预测功能;三是从追求因果关系到更加注重相关关系,在数据挖掘中捕捉新信息、发现新规律、成就新知识。

   (二)夯实基层基础,维护数据真实完整

  数据是社会规律的载体,统计就是发现这种规律的手段。在这个人人都喊“大数据时代”的今天,数据已经被提到了一个前所未有的高度。保存好、保护好数据,将数据规范化、完整化,是统计部门应尽的责任。因此,夯实统计基层基础,建立标准统一的数据库,将数据集中存储,降低数据丢失的风险迫在眉睫。随着人类跃进到大数据时代,数据不仅是新知识的来源,还是记录历史最重要、最可靠、最好的方式。从今以后,人类所有的历史记录,无论是数字、文档、图片还是音频和视频,都将以数据的形式存在,数据就是静态的历史,历史就是动态的数据。数据越丰富,就越能经由数据再现当时的社会。从这个意义上讲,统计不仅要确保数据完整,更好确保数据真实。让每个调查对象都依法如实、独立的上报数据,让统计和政治脱离干系,这样才能保证统计的权威性和科学性,才能让统计数据值得信任。

   (三)推进信息共享,打造数据文化

  随着大数据时代的到来,数据将像传统的“人、财、物”一样,成为重要的生产资料和创新资源,内开放的程度,将决定一个国家发展的动力、一个社会创新的活力。因此,发挥政府综合统计职能,加强统计机构与各部门统计之间的资源整合、信息共享,形成互通的“网格化”信息高速公路的统计信息系统,是未来统计创新与发展的必由之路。数据只有像资源一样流通起来,能够被开采并且被利用才有价值,否则,数据分散、隐藏在各个地方,之后的挖掘、可视化、应用都是空中楼阁。消除各部门之间的合作障碍,开放数据的知情权、使用权,政府统计在这方面还大有可为。此外,还应该加大宣传,推动大数据在统计的应用,力争在全社会形成“用数据说话、用数据管理、用数据决策、用数据创新”的文化氛围和时代特点。

   (四)加强学习培训,全面提高统计人综合素养

  一是加强学习培训,既要有新工具新技能的培训,也要有新视野新知识的培训,虚实结合,长短结合,专业的与系统的结合,唯有这样,才能开阔思路,开拓视野,提高工作效率和能力。特别是一些统计分析工具,掌握了就是统计的利器,可以让统计人员把90%的时间用在数据的收集整理上,而只需把10%的时间花在工具的运用上,就能得出在此之前发现不了的规律,起到事半功倍的效果。二是教育、培养和引进人才。在高校统计专业里进行这类人才的专门培养,也可以在统计系统领域选拔有基础的人员进行针对性的培训,还有一种可行的方式是在社会上吸纳和引进这种人才,实现统计能力的提高。三是鼓励创新,大数据的出现,统计必将发生革命性的变化。新的形势下必须建立和完善创新机制,如果仅仅是重视技术模仿,而忽视制度建设,后发优势就可能转化为后发劣势,其结果就是跟在发达国家后面亦步亦趋。因此,统计要在观念上创新,树立全新的统计理念;在知识上创新,丰富综合知识的储备;在技术手段上创新,适应信息时代的需要;在制度上创新,满足宏观管理决策需要;在服务上创新,实现政府部门和社会各界的需要。通过在政策制定、资源投入、人员培养方面的强有力的支持和推动,大数据应用、统计创新才能落地生根,开花结果。

承办:计算中心
执笔:马云霞 吕  涛
核稿:周颖江
责编:黄湘冀