在下一代的革命中,无论是工业4.0(国内叫中国制造2025)还是物联网(甚至是一个全新的协议与标准),随着数据科学与云计算能力(甚至是基于区块链的分布式计算技术)的发展,唯独数据是所有系统的核心。
万物互联、万物数据化之后,基于数据的个性化、智能化将是一次全新的革命,将超越100多年前开始的自动化生产线的工业3.0,给人类社会整体的生产力提升带来一次根本性的突破,实现从0到1的巨大变化。正是在这个意义上,这是一场商业模式的范式革命。商业的未来、知识的未来、文明的未来,本质上就是人的未来。而基于数据智能的智能商业,就是未来的起点。大数据的第一要务就是需要有数据。
关于数据来源,普遍认为互联网及物联网是产生并承载大数据的基地。互联网公司是天生的大数据公司,在搜索、社交、媒体、交易等各自的核心业务领域,积累并持续产生海量数据。能够上网的智能手机和平板电脑越来越普遍,这些移动设备上的App都能够追踪和沟通无数事件,从App内的交易数据(如搜索产品的记录事件)到个人信息资料或状态报告事件(如地点变更,即报告一个新的地理编码)。非结构数据广泛存在于电子邮件、文档、图片、音频、视频以及通过博客、维基,尤其是社交媒体产生的数据流中。这些数据为使用文本分析功能进行分析提供了丰富的数据源泉,还包括电子商务购物数据、交易行为数据、Web服务器记录的网页点击流数据日志。
物联网设备每时每刻都在采集数据,设备数量和数据量都在与日俱增,包括功能设备创建或生成的数据,例如智能电表、智能温度控制器、工厂机器和连接互联网的家用电器。这些设备可以配置为与互联网络中的其他节点通信,还可以自动向中央服务器传输数据,这样就可以对数据进行分析。机器和传感器数据是来自物联网(IoT)所产生的主要例子。
这两类数据资源作为大数据金矿,正在不断产生各类应用。比如,来自物联网的数据可以用于构建分析模型,实现连续监测(如当传感器值表示有问题时进行识别)和预测(如警示技术人员在真正出问题之前检查设备)。国外出现了这类数据资源应用的不少经典案例。还有一些企业,在业务中也积累了许多数据,如房地产交易、大宗商品价格、特定群体消费信息等。从严格意义上说,这些数据资源还算不上大数据,但对商业应用而言,却是最易获得和比较容易加工处理的数据资源,也是当前在国内比较常见的应用资源。
在国内还有一类是政府部门掌握的数据资源,普遍认为质量好、价值高,但开放程度差。许多官方统计数据通过灰色渠道流通出来,经过加工成为各种数据产品。《大数据纲要》把公共数据互联开放共享作为努力方向,认为大数据技术可以实现这个目标。实际上,长期以来,政府部门间的信息数据相互封闭割裂是治理问题而不是技术问题。面向社会的公共数据开放愿望虽十分美好,但恐怕一段时间内可望而不可即。
对于某一个行业的大数据场景,一是要看这个应用场景是否真有数据支撑,数据资源是否可持续,来源渠道是否可控,数据安全和隐私保护方面是否有隐患;二是要看这个应用场景的数据资源质量如何,是“富矿”还是“贫矿”,能否保障这个应用场景的实效。对于来自自身业务的数据资源,具有较好的可控性,数据质量一般也有保证,但数据覆盖范围可能有限,需要借助其他资源渠道;对于从互联网抓取的数据,技术能力是关键,既要有能力获得足够大的量,又要有能力筛选出有用的内容;对于从第三方获取的数据,需要特别关注数据交易的稳定性。数据从哪里来是分析大数据应用的起点,如果一个应用没有可靠的数据来源,再好、再高超的数据分析技术都是无本之木。我们经常看到,许多应用并没有可靠的数据来源,或者数据来源不具备可持续性,只是借助大数据风口套取资金。这是很可悲的。
来源:AIDT智能商混
更多资讯,请点击航天云网资讯与活动