当下的大数据产业普遍存在一个误区:许多人认为大数据就是数据越大就越好,于是盲目追求数据之大,但是往往产生不了“有用的结果”,反而容易被“自我迷惑”,也因此忽视了“从数据中发掘更多价值”这一重点。
“多大的数据才能说是大数据?在我看来,数据本身的大小并不是关键所在。挖掘数据价值,创造更高的应用价值回报,才是最值得关注和探索的。”近日,在第十三届中国(南京)国际软件产品和信息服务交易博览会期间举办的“大数据产业互联网融合创新发展高峰论坛”上,加拿大工程院院士凌晓峰表达了这个观点。
他指出,当下的大数据产业普遍存在一个误区:许多人认为大数据就是数据越大就越好,于是盲目追求数据之大,但是往往产生不了“有用的结果”,反而容易被“自我迷惑”,也因此忽视了“从数据中发掘更多价值”这一重点。
有效的数据才有价值
那么,如何才能只需要收集有限的数据,便可实现更大的价值呢?
凌晓峰认为,从开展大数据分析伊始就明确目标至关重要。在他看来,为什么收集数据?这应该是每一次进行大数据的采集分析前都必须考虑的问题。在明确目标之后,针对性地采集相关的数据,利用这些数据建立数据模型,通过模型来预测目标的变量值,如此,既减少了某些方面的不必要投入,又能提高数据挖掘的效率,而且预测的准确性也能有所提高。
大数据分析在医学领域的应用便是一个典型的例子。假设医生要治疗一个高血压病人,在这个病人每天都能产生海量健康状况数据的前提下,医生若是能够有目的性的只收集病人的饮食规律、出行记录、用药频次等相关数据,然后基于这些数据,对病人的血压情况做分析预测,就能有效地为病人提供针对性的降低血压办法。如此,医生避免了在与病人病理无关的数据分析上花费时间,病人也能够得到及时的治疗。
“采集数据时,还需确保采集到的数据有效精准。”凌晓峰表示,当下,不少制造企业言必称“大数据”,无论研发何种产品,都一股脑儿地为产品接入光纤,配备传感器,以求采集每时每刻产生的海量数据。于是,问题也就来了,数据有了,但哪些有效哪些无效,无从辨别。这不但造成硬件设备和统计计算资源的浪费,还可能因“数据噪音”的干扰得出错误结论,削弱产品的市场竞争力。
对此,凌晓峰强调,“数据不是量大便能产生结果的,只有最新最具时效性的准确数据才是最有用的,所以收集数据不仅要准确有效,还需与新的数据对比,保证其时效性,才能在未来的数据分析中发挥价值。”
大数据分析离不开场景的应用,如此来看,数据间的关联度也是需要着重关注的。目前,大多数的企业在推进信息化,在生产现场,普遍引进了生产管理软件,软件的种类多达上百。然而,不同软件产生的数据还没有实现共享。显然,企业是无法对这些数据进行关联化的分析,也就无法从中实现更多的价值增值。
需在“知其所以然”上下功夫
随着大数据环境不断优化,以及数据资源的大量积累,大数据产业势头一片向好,但是凌晓峰表示,仍有许多不足亟待去研究解决。
首先是大数据的预测结果是没有原因分析的。对于这样的预测,你敢相信吗?想必不少人是抱有怀疑态度的。
事实上,目前绝大多数数据挖掘产生的系统,特别是设计神经网络和深度学习的系统,都是处于黑箱状态,对于预测结果,普遍情况是知其然而不知其所以然。据凌晓峰透露,“虽然有诸多黑箱状态的系统精度高达96%,但是这些系统没有办法解释为何做出如此‘精确的’决策。而且,对于如何消除那4%的失误率,专家还没有找到行之有效的解决方案,这样的系统在实际运行中会有很大的风险。”
其次,当下的机器学习或者是大数据分析只能单一的从原始数据中获取规律,不能很好的利用已有的成熟知识,还没有足够的灵活性。凌晓峰表示,若是能够将已知的知识资源更好地应用到大数据分析当中,其分析效率将会有显著提升。“譬如制作一个用于诊断心脏病的机器系统。若是能够将已有的成熟诊断病书输入到机器系统的神经网路中,再通过实例更加精密的提高系统分析的准确度,那么这个数据分析的效率必然会大大提升。”
此外,凌晓峰还提到了应用导向下的大数据“个性化”问题。他说,数据模型越大,越能得到个性化的特征。因此,在市场需求的影响下,如何利用大数据不断的过滤,将客户模糊的个性化需求通过数据转化实际制造产品的精确的技术指标,把客户的真正精确需求提取出来,转变成想要达到的指标,将是大数据应用的下一个风口。
来源:机电商报