登录
首页精彩阅读大数据在价格认定工作中的运用前景浅析
大数据在价格认定工作中的运用前景浅析
2017-06-17
收藏

大数据在价格认定工作中的运用前景浅析

大数据的爆炸式增长在大容量、多样性和高增速方面,全面考验着我们的数据处理和分析能力,同时,也带来了获取更丰富、更深入和更准确地洞察市场行为的大量机会。关于数据安全、数据分析数据挖掘等围绕大数据价值的利用逐渐成为众多行业争相追捧的焦点,其价值在于通过数据共享、交叉复用、大数据分析等获取最大的收益。

大数据的爆炸式增长在大容量、多样性和高增速方面,全面考验着我们的数据处理和分析能力,同时,也带来了获取更丰富、更深入和更准确地洞察市场行为的大量机会。关于数据安全、数据分析、数据挖掘等围绕大数据价值的利用逐渐成为众多行业争相追捧的焦点,其价值在于通过数据共享、交叉复用、大数据分析等获取最大的收益。而我们所从事的价格认定业务是依靠价格数据进行判断和测算的,随着大数据时代的到来,价格认定工作该如何迎接挑战呢?每天都面对海量的数据,如何运用至价格认定实践,是否可以对传统的价格认定方式方法做出改善,是一个值得探讨的命题。

一、大数据概念

什么是大数据?大数据是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。大数据是让我们以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。其主要特征是什么?大数据不仅是指数据量大,其主要特征是数据量大、数据种类多、非标准化数据的价值最大化。

(一)数据量大

数据体量巨大。在“小数据时代”,我们计量数据的单位是KB、MB(1024KB)、GB(1024MB)、TB(1024GB),而在大数据时代,计量单位升级为PB(1024TB)、EB(1024PB)乃至ZB (1024EB)。

数据量的变化,使得人们分析数据的方式也随之发生变化。在“小数据”时代,由于限于收集数据的方式和途径,人们只能获得少量数据,因此对数据分析的方式主要是通过随机采样,依据对样本的分析来进行,即由样本分析到总体的方式。随机采样分析的精确性会随着采样随机性的增加而大幅提高,但是,实现采样的随机性非常困难,因此难以确保分析结果的准确性。而在大数据时代,人们则是可以直接对总体数据进行深度的分析。实验证明,在数据量较小的时候,总体分析的精确度明显低于采样分析,但随着数据量的增加,总体分析的精确度会明显的提高,而采样分析的精确度却几乎没有什么变化。换言之,只要数据量越大,分析就越能接近事实的真相。另外,采用总体数据分析时还能使人们从不同的角度观察和研究数据。

(二)数据类型繁多

数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。除了文本形式,还有网络日志、音频、视频、图片、地理位置信息等多类型的数据,不仅数据类型的混杂还有数据精度的混杂。数据精度的问题可以通过总体分析解决,数据类型的混杂则对数据的处理能力提出了更高的要求。

(三)数据分析和预测是核心

大数据的一个核心用处是预测。在小数据时代,人们通过抽样分析来探寻事物的因果关系,而在大数据时代,处理数据关系主要通过计算机的云计算等大量处理体系,不是通过因果关系来进行判断,而是通过所有数据的相关关系来进行分析和预测。

(四)一切皆可量化

在小数据时代,由于可获取的数据有限,很多事物无法量化。而在大数据时代,人们可以通过大量的数据将事物的各项特征数据化,从而使人们对事物的认识更加直观,利于分析。

二、大数据对价格认定工作的重要性

价格认定人员的日常工作主要是对标的物价格进行测算,数据对价格认定工作的重要性是显而易见的。

(一)大数据对分析判断价格变动趋势具有重要作用

在进行价格认定工作时分析和判断价格变动趋势是必要的过程。而价格认定人员是依据什么来对价格变动趋势进行分析判断呢?答案是数据。影响标的物价格的因素是多方面的,各级价格认证机构的工作人员要基于各种各样的数据来进行定性尤其是定量分析。所有的分析、判断和预测都必须基于大量数据的获取和分析。

(二)大数据对判断价格水平及价格测算具有至关重要的影响

在价格认定工作中,价格认定人员对价格水平的判断和测算的依据仍然是数据。以市场法为例,价格认定人员首先需要收集大量的标的物市场交易价格,这些价格都是数据,如果无法获得足够的市场价格,价格认定人员对价格水平的判断就很可能出现问题,如果价格认定人员只收集了少数几个交易价格,那么他只用这些价格进行测算,这样一来其中的偶然性就可能不会被消除,也无法保证测算结果的精确。而反过来,如果价格认定人员能够收集足够多的市场价格,比如20个,100个,甚至是1000个,10000个,将这些数据放在一起进行比较分析,标的物的价格水平就呼之欲出了,然后价格认定人员在这些数据的基础上选取可比性的进行价格测算,其测算结果的精确度明显是要高于前者的。在价格认定人员能够拥有众多的市场价格数据的情况下,价格认定结论的精确度就会得到较大提升。

三、大数据技术对价格认定工作的启示与思考

谷歌公司可以把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行比较,通过处理4.5亿个不同的数学模型,比美国官方的疾控中心提前几周准确预测了甲型H1N1流感的爆发。“这是当今社会所独有的一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见”,这就是大数据时代的技术理念。

大数据的精髓和核心在于我们分析信息时的三个转变:

第一个转变是:要全体不要抽样。在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样;

第二个转变是:要效率不要绝对精确。研究数据如此之多,以至于我们不再热衷于追求精确度;

第三个转变因前两个转变而促成,要相关不要因果。即我们不再热衷于寻找因果关系。

基于这种变化,对于价格认定来讲,我们至少可以在以下几个方面大数据对我们的工作有推动作用:

(一)价格趋势研判

众所周知,大数据的核心作用之一是预测,大数据已经不简简单单是数据大,最重要的是对大数据进行分析,只有通过分析才能获取更多智能的、深入的、有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。根据价格认定工作自身的特点,以各项业务需求为驱动,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。

(二)提高价格认定结论的精度

在大数据时代,价格认定人员应寻求如何利用大数据,建立价格认定各种参数数据库,以提高价格认定的精度。在近几年的涉纪检监察案件中,我们会经常遇到对房产进行价格认定的案子,不妨就以房产价格认定进行说明。

1.市场法

前几年我在办公室工作时,核稿过程中经常遇到涉及房产的案子,在采用市场法进行价格认定时,价格认定人员对比较实例的修正和调整主要是基于经验判断,如将价格影响因素按优劣划分等,调整系数也大都是基于经验,虽然没有错误,但是精准度不够。在大数据时代,我们在获取海量数据的基础上,可通过对信息的细分,计算和提炼调整系数。比如,将所有的多层房屋信息中的楼层进行区分,通过计算机分析找出楼层与价格之间的相关关系,从而提炼出楼层调整系数值。如此,根据大量的数据量化、计算与分析,就可以建立更加精细和准确的修正体系。

再比如,进行市场状况调整时,以前由于房产数据获得的限制,调整系数往往根据标的物周围二手房价格指数确定,这类指数一般反映的是较大的区域的价格平均走势。而在大数据时代,调整系数的获得变得不那么困难,价格认定人员可以通过分析同区域同类房地产价格挂牌和交易价格的变动趋势进行确定。

再以公交便捷度来说,目前对这一因素的调整系数基本是基于优劣程度的判断,而在大数据时代,价格认定人员可以从获取的所有交易实例中,分析公交线路的数量及频率、与标的物的距离等因素与房地产价格的相互关系,进行量化,得出价格调整体系。

2.成本法

成本法中建筑物折旧一直是一项难以精准量化的参数。在大数据时代,价格认定人员可以通过调查与收集大量数据,并进行分析来解决这个问题。以年限法为例,计算建筑物折旧的关键指标是建筑物的经济寿命,价格认定人员可以调查同区域相同类型和相同结构、于不同时期建造的房地产,收集大量交易价格数据,在确定土地价格和建筑物重置价格后,计算出不同建造年代房地产的折旧,从而得出建筑物经济寿命和年折旧率。

总之,作为国家发改委价格认证中心来说,在大数据飞速发展的今天,应重视参数数据库的建立,这对于提高估价机构的业务水平和持续发展有着至关重要的作用,建议要提前组织研究探讨,争取在金价工程中能够有所体现。

(三)提高建设价格认定数据库的效率

目前全国许多价格认证机构都在建或已建成各类价格认证信息系统,包括参数数据库、交易案例数据库、估价管理系统、估价辅助系统等,但是建设效果不好,建成后使用效率不高,应用推广得也不好,造成资源浪费。价格认定信息建设是一项工作量巨大、耗时的任务,需要大量的人力和物力投入。而在大数据时代,有些工作量(主要是信息收集的工作)会得到减轻,我们可以通过多种方式来获得所需要的信息,从而提高工作效率。不妨举例来说,在“金价工程”建设过程中,如果采用传统方式的话,各类价格数据来源就会是一个比较突出的问题,但是如果我们将大数据技术应用于系统建设,就会起到事半功倍的效果。

下面,不妨仍以涉纪检监察案件中的房产案子在采用市场法的情况下,如何解决价格数据来源问题来举例说明。

在目前的大数据时代,我们可以通过报纸、网络等多种途径,方便地获得数以万计的房屋息买卖信,或是实际成交、或是卖方报价、或是中介公司统计值等等,在传统价格认定理念看来,这些数据大多都因为未发生实际交易行为,而无法作为价格认定业务中予以采用,但在大数据时代来临之际,在大数据时代的理念影响之下,这种观念已经落伍了,现有的技术条件下完全可以改变我们进行价格认定的工作方式方法。试述如下:

1.数据获取

在目前的网络时代,网络数据是我们最易获得、成本最小的数据来源,也是信息量最大的数据来源。网络数据抓取程序,也即“网机络器人”或“网络爬虫”,是一种能访问网站并跟踪链接的程序,通过它可快速的获取一个网站所包含的页面信息。以抓取任一房地产公司网站数据为例:使用C#结合sql数据库制作程序,在主界面中内置Web Client控件,使用该控件来访问web页面,进行DOM分析。

该程序首先定位到一个房产交易网站,扫描该页面所有超链接,根据超链接内容分析,找搜索出所有房产相关的链接,保存到内存中,并分析页面链接,自动获取下一页数据抓取链接保存,获取完所有分页的详情链接地址后。通过设计好的分析软件对搜集的房产链接地址进行定位,自动获取完整页面信息,然后根据原始页面源代码分析后预先设定的规则,取得页面中需要保存的房产相关信息字段,存入数据库中。

这种“网机络器人”通过设定好计划任务后,它能在指定时间自动运行,抓取完全部数据后自动关闭程序,整个过程中无需人员干预,实现无人值守。

同样的原理,可以简便地从官方网站、房地产中介公司网站,甚至社交网站、各种论坛等数据源来获取大量的房地产交易、报价、评论数据。

2.数据利用

抓取下来的数据进行分类整理之后,运用统计学的方法进行离散度、聚合度分析,从中剔除掉误输入、严重偏离的数据,将剩余的大量数据予以汇总、规范,同时可以利用价格认证业务和本地资源的优势,从房地产管理部门、行业协会、中介公司、咨询公司、数据公司以及全国各级价格认证机构自身的案件积累等途径获得一定数量的真实价格数据,定期(或每周、每月)将网络抓取数据与真实成交案例进行对比,采用经典的价格认定方法、数理统计的手段进行复核,剔除其中的不正常因素,使其无限接近真实成交价,进而逐步形成庞大的数据库,运用类似CAMA(计算机辅助批量估价)进行辅助测算。

根据价格认定业务要求,市场法的数据选择不得低于3个,但采用CAMA,每一套房屋的市场法评估过程可以采用成千上万个以上的案例进行修正,而这无论从技术层面、效率层面来说都会比传统价格认定方式容易得多,更不会受因价格认定人员个人偏见或者经验缺失而造成的人为性过强的影响,而最终所得出的数值的准确性亦是毋庸置疑的。

(四)提高批量价格认定的效率

批量价格认定是利用共同的数据,采用相同的方法,并经过统计检验,对大量同类房地产在给定日期的价格进行价格认定。比方说,在涉税价格认定工作中,某些省价格认证机构对片区房计税价的处理方式。在大数据时代,海量的数据利于分析房地产价值与影响因素的相关关系,无论是分析建立特征价格模型,还是从标准房屋到各套房屋的价格调整体系,都会更加高效和准确。

四、几点建议

针对即将开展初设工作的“金价工程”,我认为应该结合价格认定业务的实际情况,对大数据在价格认证工作的应用需求、设计要求及解决方案开展提前研究。

(一)必须做好顶层设计工作

作为“金价工程”的总体,要着重解决好以下几件事情:

一是建立一套运行机制。大数据建设是一项有序的、动态的、可持续发展的系统工程,必须建立良好的运行机制,以促进建设过程中各个环节的正规有序,实现统合,搞好顶层设计。

二是规范一套建设标准。没有标准就没有系统。应建立面向不同主题、覆盖各个领域、不断动态更新的大数据建设标准,为实现各级各类信息系统的网络互连、信息互通、资源共享奠定基础。

三是搭建一个共享平台。数据只有不断流动和充分共享,才有生命力。应在各专用数据库建设的基础上,通过数据集成,实现各级各类指挥信息系统的数据交换和数据共享。

四是培养一支专业队伍。大数据建设的每个环节都需要依靠专业人员完成,因此,必须培养和造就一支懂指挥、懂技术、懂管理的大数据建据建设专业队伍。

(二)做好价格认证系统中的大数据处理工作

大数据处理的流程,其具体的大数据处理方法有很多,但主要处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,最后是数据挖掘

1.采集

大数据采集所需要的数据源主要来自三个方面:一是价格认证系统自身每天所产生的大量数据(包括各级价格认证机构历年所积累的价格数据);二是同社会上掌握价格数据的相关机构、协会、公司等进行战略合作;三是采取“网络机器人”方式到互联网上进行搜寻,这三种方式可以确保能够找到真实可靠的数据源。大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

2.导入/预处理

虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。

3.统计和分析

统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

4.挖掘

数据挖掘一般主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。

五、结语

综上所述,对于价格认证机构来讲,应积极迎接大数据时代的到来,尤其是要探索利用数据资源和最新计算机技术,建立全国的价格认定数据库、价格认定辅助系统,提高价格认定的精准度和工作效率。但是,大数据如何及时、准确地运用至价格认定工作中是一个很宽泛的命题,此文仅是作者本人对大数据在价格认定工作中应用前景的一些浅薄认识,以作抛砖引玉之用。


数据分析咨询请扫描二维码

客服在线
立即咨询