会员服务 登录 注册
×
资讯活动

一文秒懂 | 2017年大数据领域8大领先全新概念

发布时间:2017-03-10 来源:金属加工

现在,再也没有企业怀疑大数据的力量,无论是政府还是行业,都竞相利用大数据来增强自己的竞争力。但是,即使到了2017年,大数据也仍然处于快速发展的初期,每时每刻都在产生新的变化。

在这个数据时代,全球都在用尽一切办法实现数据上领先的概念和追求。精细化研究才可以激发更多创新,在这里,我们归纳了大数据8个最迷人的新概念。

粒数据——还原真实

粒数据( grain data)是基于时效性要求,能完整证明并真实记录某一事件发生或存在的数据颗粒的最小集合,该集合的数据颗粒可以是多源的。其核心是证明某一事件的发生与存在,所以构成它的数据颗粒都需要具有该事件的属性。

因此,数据颗粒就是以合法、合规的方式产生的一条真实的电子数据,该电子数据一旦产生即不可被修改。如,运营商存储的数据为一个数据颗粒,银行存储的数据为一个数据颗粒,京东存储的为一个数据颗粒,这三个数据颗粒构成一个粒数据。可以说,粒数据是数据颗粒集合,是大数据的最小处理单位,相当于数据库表的一条记录属性、文件系统的一份文件,可以通过粒标签定位关联,也为云计算的并行处理提供充分施展其能力的空间。

在大数据背景下,面对数据来源的多样性、涉及范围的广泛性、数据操作的复杂性和数据面临潜在风险的多重性,粒数据自身属性的真实、完整、归属权的明确,对促进数据质量的提高、推动研究应用的跨界都意义非凡。

块数据——特定平台的集聚

大数据强调开放共享,但在“条时代”,大数据的发展面临共享难度大、垄断程度高、融合能力差、应用价值低以及安全风险大等一系列制约因素。

块数据是具有高度关联性的数据在特定平台上的持续集聚,既是数据集聚的结果,也是数据聚合的过程;既包括点数据、条数据,也包括面数据;既有数据空间的填充、空间数据的重构,也有聚合过程中的组构和组构过程中的聚合,同时还伴随新数据的汇集和原有数据组合后衍生数据的产生。

这种聚合是持续进行的,并伴随着数据的不断更新。这个过程既是块数据自我重构和自我修复的过程,也是对条数据组合、纠偏、选择的过程。

块数据的关联性集聚,将打破传统的信息不对称和物理区域、行业领域对信息流动的限制,通过对不同类型、不同领域数据的跨界集聚,极大地改变信息的生产、传播、加工和组织方式,进而给各个行业的创新发展带来新的驱动力,推动各个领域的彻底变革和再造。

暗数据——打开未来之门

大数据要转化为知识需要被标引或分析,否则它只能处于黑暗状态。大部分的暗数据都被分类于结构造成的信息缺乏之中,这些数据只被使用过一次,就被储存在逻辑混乱,数量庞大的其他社群之中了。据有关统计,在企业创造的数据中,其可用的平均为10%,而90%左右为暗数据。

美国高德纳咨询公司(Gartner)把“暗数据”定义为:企业在开展正常业务活动期间采集、处理和存储,但通常无法用于其他目的(如分析、商业关系和直接获利)的信息。

简而言之,当信息管理系统遭到频繁的挑战,暗数据的出现应该看做一种警示。换而言之,不是我们如何管理信息,而是我们为什么要管理信息。某些数据,应该被隐藏起来,例如质量体系中的审计日志和训练记录等作为合乎规格的证据,就应该注意存储,加强管理。万一系统和进程被审核,这类数据就会被用到。这种故意而为之的隐藏行为,可以起到一个保证数据安全的功能,同时,能够预防数据被非法入侵。

但是当频繁使用的内容在无意之间变成了暗数据的时候,这不仅是一种不方便,而是一个严峻的问题。当一个历史数据忽然消失,因而必须重建的时候,由此带来的后果不仅仅是重新修改以及更改用途,更会造成时间的浪费,做无用功。

Gartner把暗数据当做一种积极的“闹钟”,提醒企业应该改变未被利用的数据的现状。同样,Forbes杂志认为,暗数据由过街老鼠转变为香馍馍只有一个办法,就是将这些数据运用在其他的业务之中。“暗数据产生于不断增加的复杂的加工进程之中,由此,使之具备了规划未来产业形态的能力。”谁抓住了这一机遇,谁就抓住了打开通向未来之门的钥匙。

数据星河——大数据的Apple store

如果说Apple store为用户提供了选择应用的自由度,那么“数据星河”平台理念,则是提供了大数据领域的Apple store。

数据星河概念是由九次方大数据公司提出,旨在为大数据领域的创业者提供“扶上马、送一程”服务。平台提供数据源、可视化工具、数据模型、安全组件、清洗工具、云资源等需求,每一个分类项下再进行细分,如数据源,又可以细分出行业大数据、金融大数据、政府大数据、公共大数据、互联网大数据、产业链大数据等分项;行业大数据再细分出医疗、通信、交通、物流、工业、农业等分支。

“数据星河”的出现,大大降低了创业者投身大数据行业的门槛。平台的操作方式简单易行,就像是大数据领域的网上超市。一站式的服务理念,实现了不出平台,即可完成全套工具的前期采购,创业者完全可以自由搭配各类工具,实现大数据应用的设计。此外, “数据星河”平台拥有“个人定制”功能,实现数据定制、模型定制、服务定制,用以满足创业者个性化采购需求。

数据基因——政务数据奠基石

当前,政务大数据发展面临诸多现实问题。底层数据如何确保一致?信息体系如何有效运营?数据价值如何有效开发?如何促进大数据产业发展?如何有力、有序、有效管理与服务?

而这些问题的背后则提出了元数据/数据元的标准化、信息规则的建立、数据应用的内生动力体系以及建立可持续发展的保障体系等要求,问题的核心在于,基于数据开发基础上的大数据公共服务平台应如何建设与运营。

要重塑大数据时代的信息体系,构建有效的信息体系,要依赖于优质的数据基因系统,数据体系的能力大小、发展前景和应用价值,从缔造数据基因开始。

数据基因具有稳定性、可复制性、可剪辑性,保障内部信息的规则的一致性。优质的数据基因系统应有助于解决当前数据治理的相关问题,从根本和底层上解决数据发展难题,并有助于信息体系的成长发展。

因此,面对政务大数据的发展需求,亟需对数据基础管理服务平台进行体系性、结构性改造,从数据基因出发,从底层构建数据元标准,通过对信息体系的重构迎来智慧应用的新生。

数据仓库——企业决策之脑

数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建,为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

数据仓库决不是所谓的“大型数据库”。简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。数据库是为捕获数据而设计,数据仓库是为分析数据而设计。

以银行业务为例。数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入数据库,被记录下来,这里,可以简单地理解为用数据库记帐。而数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的依据。

显然,银行的交易量是巨大的,通常以百万甚至千万次来计算。事务系统是实时的,要求时效性,客户存一笔钱需要几十秒是无法忍受的,所以数据库只能存储很短一段时间的数据。而数据仓库所建立的分析系统是事后的,它要提供关注时间段内所有的有效数据。

数据资产运营——商业价值最大化

大数据落地应用,如何实现变现,始终是业界的难点。数据资产运营是大数据产业生态的关键点,只有将数据资产化,实现交易闭环,才能使大数据的商业价值最大化。

在国内,超过80%的数据都掌握在政府手中。政府数据一旦被激活释放,或将迸发万亿产值。激活政府数据,使海量数据相遇并产生碰撞,将促进社会治理、惠及民生。激活政府大数据资产,是推进国家供给侧结构性改革的重要方式之一,在国家大数据战略中具有重要意义。

九次方大数据创始人王叁寿是国内提出“数据资产运营”的第一人。当前,致力于开发政府数据资源、激活政府数据价值的大数据公司在业界最 为看好。通过数据资产运营将其变现,从而服务全社会,是真正的大数据公司所需要思考的问题。不管是数据源采集,还是数据应用的开发落地,新兴大数据公司本身的互联网企业基因,以及资本的青睐,都使得他们在数据资产运营方面别具优势。

语义网——未来的互联网

“语义网(Semantic Web)”,也称为下一代互联网,实际上就是“数据网”(Web of Data)。语义网是一个全球的数据库网,在这个数据库网中,计算机可自动为用户搜寻、检索和集成网上的信息,而不再需要搜索引擎。大数据时代正在催生的这个最大的技术变革,就是要重新构造互联网,打造出下一代互联网。

语义网能够根据语义进行判断,实现人与电脑之间的无障碍沟通。它好比一个巨型的大脑,智能化程度极高,协调能力非常强大。在语义网上连接的每一部电脑不但能够理解词语和概念,而且还能够理解它们之间的逻辑关系,可以干人所从事的工作。它将使人类从搜索相关网页的繁重劳动中解放出来,把用户变成全能的上帝。语义网中的计算机能利用自己的智能软件,在万维网上的海量资源中找到你所需要的信息,从而将一个个现存的信息孤岛发展成一个巨大的数据库。

语义网的建立极大地涉及了人工智能领域的部分,与web 3.0智能网络的理念不谋而合,因此语义网的初步实现也作为web 3.0的重要特征之一,但是想要实现成为网络上的超级大脑,需要长期的研究,这意味着语义网的相关实现会占据网络发展进程的重要部分,并且延续于数个网络时代,逐渐转化成"智能网"。(来源:九次方大数据)