Logo
新闻中心

企业数据之争背后的AI战略

发布时间:2018-01-12 来源:金属加工
关键字: 数据 AI

最近,企业之间对于数据的争夺屡见不鲜,如顺丰与菜鸟腾讯与华为等,数据之争大有愈演愈烈之势。与此同时,人工智能(AI)技术方兴未艾,诸多政府报告都将AI作为未来的发展重点,高盛年度报告也将AI放到了变革人类文明与发展的重要高度,诸多因素使人有理由相信未来AI将像互联网一样具有推动人类社会进步的革命性力量,甚至会超越互联网彻底颠覆人类的传统认知。在此大背景下,企业间的数据之争便体现出了其AI战略。

AI的崛起加剧了数据战争

(一)数据已成为AI关键资源

目前来看,AI已是大势所趋,在能源、医疗、零售、金融、农业等诸多领域的应用都已初露锋芒,未来还将逐步渗透到人类生活的各个方面。Gartner的技术成熟度曲线显示AI正经历着第一波上升期,埃森哲在《人工智能经济发展新动力》报告中也指出,AI作为一种新的生产要素,可以为许多国家的经济增长带来提拔作用。全球无论是传统企业或是科技巨头,甚至是初创企业都开始纷纷布局AI

众所周知,当前AI发展的三大要素为算法、算力和数据,缺一不可。以AlphaGo为例,其背后的卷积神经网络系统由许多数据中心作为节点,每个节点有多台超级计算机,通过对互联网上棋谱的学习提升技巧,其算法为继承了蒙特卡洛树搜索算法的深度学习算法,同时使用了“监督学习”、“强化学习”等技巧;硬件算力为AlphaGo背后的超级计算机,其配置可变,最高配置为1920个CPU加280个GPU,计算能力约等于我国天河二号超级计算机的十分之一;数据为自互联网的3万多幅专业棋手对弈棋谱以及AlphaGo自我对弈产生的3000万盘棋局。

综合各种因素,我们认为数据价值将越发重要,已成为AI关键资源。第一,深度学习算法作为近期AI最重要的突破将逐渐普及,随着投入的增加、人才的流动以及算法的逐渐开源化,算法层面的差距将日趋减小,而在算力层面,GPU服务器等基础设施的突破投入大、门槛高,可参与其中的凤毛麟角,同时计算云端化趋势愈发明显,谷歌云计算平台、亚马逊AWS、阿里云等发展迅速,直接接入云计算平台将成为更好选择,因此数据将成为获得AI优势的关键。第二,随着AI的普及与深入,仅基本功能已无法满足需求,企业需要更具针对性、专业化、个性化的AI应用来保持竞争优势,这就需要更大规模的差异化数据集作为训练数据数据便成为了企业最有可能提高利润的关键。一定程度上,未来AI之争将演化为数据之争。

(二)爆发的AI需求与开源数据集间供需失衡

没有大规模差异化的数据集作为训练数据则高质量的AI无从谈起。目前,构建AI解决方案或产品最困难的通常不是算法或算力,瓶颈往往来自数据的收集和标注。追求更复杂,更准确的AI功能要求训练数据具备更大的规模、更丰富的多样性、更加接近真实应用场景等特性。

当今,可用于机器学习的开源数据集屈指可数,如计算机视觉领域的MNIST、ImageNet,自然语言领域的文本分类数据集、SQuAD,语音识别领域的2000 HUB5 English、VoxForge,推荐和排序系统领域的Netflix Challenge、Million Song Dataset等,全球AI研究大多基于此。但是,显然如此有限的开源数据集很难满足全球爆发式增长的AI需求,此时大规模的用户数据就成为了最佳数据来源,这使得拥有数据优势的企业在AI算法模型优化、商业化落地等方面具备先天优势,因此几乎全球涉及AI的企业都在千方百计的收集用户数据

大规模数据的收集、存储、分析、利用需要大量人力、物力以及资金的投入,需要企业长期的预算支出,仅大型平台有此实力。在我国,互联网行业发展飞速,形成了BAT等一批大型互联网企业,它们在本行业壮大的同时还在向金融、交通、文娱等行业不断扩张,生态圈初步形成,如今大型互联网平台已掌握社交、电商、交通、文娱、移动支付等诸多行业的大量用户数据,发展AI具有无可比拟的垄断优势。而这些私有数据并不会被轻易共享,首先它们为企业带来巨大价值及竞争优势,企业很少开放,其次,即便这些用户数据为匿名数据,若被开放,仍有可能造成用户隐私的泄露,安全性风险较大。正因如此,企业对于用户数据的争夺也就格外激烈。

数据收集、使用面临的问题

(一)权属界定尚不明确

不同于个人数据、政府数据等有明确法律概念,用户数据概念模糊,加之数据资源本身具有可复制性、动态性、时效性等特殊性,现有法律关于传统权利的界定不能完全覆盖所有数据类型,其权属的界定尚无明确法律规定,从而才有了华为和腾讯的“数据之争”,腾讯指责华为荣耀Magic手机通过非法夺取微信的用户数据来打造其AI功能,华为则辩称数据来自用户,并得到用户授权。用户是数据的生产者,企业对数据进行加工分析为用户提供更好服务,企业通过大量投入使数据产生了价值,那么用户数据属于个人还是属于互联网等平台?若属于个人,那么用户是否也应享有相关产品的收益权?若个人授权企业可免费使用数据,那么企业要交易或共享个人数据时是否必须经过用户同意?这一系列问题尚需进一步深入探讨。 

(二)安全与隐私漏洞

AI自诞生之日起就面临着安全与隐私方面的挑战,随着越来越多用户数据被收集、使用,暴露了更多安全与隐私漏洞。指纹、账户、家庭住址、兴趣爱好、行为习惯、健康状况、医疗记录等大量隐私数据一旦泄露,将对用户个人甚至整个社会带来严重危害,诈骗、信用卡盗刷、人身安全威胁、甚至通过针对不同用户提供不同阅读内容控制公众的认知和判断等,虚拟环境中的数据为不法分子提供了可乘之机,即便数据收集时采用匿名方式,仍可通过相关技术进行破解并关联到用户信息。当今,用户数据被泄露、非法占有等事件已层出不穷,安全和隐私的保障问题将成为AI未来重要的研究课题。

(三)偏差与不公正现象

AI数据的收集、分析、使用过程中存在大量噪音、干扰、信息污染等不确定因素,可能导致结果出现偏差,在实际应用中则可能导致不公正或歧视现象发生。首先,数据本身可以客观反映真实情况,但是收集过程中由于某些自然、人为因素会造成数据摄取漏洞、出现数据鸿沟,这会使某些特定群体的数据接收相对较少或是完全没有被接收,那么被收集的数据并不能真实代表客户群的多样性,很有可能误导学习系统,得到不理想的学习效果。其次,AI需要数据集作为训练数据,而数据集的制作需要对原始数据进行人为的标注、解释,该过程会受到人的认知、偏好等因素影响,偏差或歧视等问题不可避免会随之产生。

对策建议

(一)持续技术攻关

AI正在上升期,未来也许需要度过泡沫化的低谷期,才可能最终到达稳步爬升的光明期和实质生产的高峰期,这是一个机遇与风险并存的过程,面对尚不明朗的未来,持续的技术攻关是我们一定要坚持的。第一,在大数据支持下机器学习算法大放异彩,但该算法目前仍处于“黑盒”阶段,只看得到输入、输出,如何进行学习、学习机制是否合理不得而知,这为算法的改进、行为边界的预测等带来很大阻碍,应进行重点技术攻关。第二,数据摄取漏洞、数据鸿沟会直接影响AI模拟结果,适当的修正与监督很有必要,引入社会科学的定性分析对数据分析进行补充,增加数据厚度,提高结果可靠性。第三,安全与隐私问题是AI必须面对的挑战,有远见的企业已经在安全与隐私保护技术领域开展了大量工作,形成了同态加密(Homomorphic encryption)、差分隐私(differential privacy)和随机隐私(stochastic privacy)等数据保护先进技术,虽然新技术研发刚刚起步,但其未来应用前景不可小觑,加强用户数据保护技术的研发需要长期坚持。

(二)推进科学立法

对于用户数据的权属界定、安全与隐私的保护、歧视与不公正等问题的解决,最终还应依靠法律法规。欧盟早在2015年就成立专门工作小组,开展AI发展相关的法律问题研究,并于2016年发布了《欧盟机器人民事法律规则》,近期日本公正交易委员会竞争政策研究中心也发布了《数据与竞争政策研究报告书》,我国今年6月1日开始实施的《中华人民共和国网络安全法》是我国网络领域的基础性法律,关于用户数据的安全、个人信息保护等问题提出了要求,但仍不够具体,缺乏细则。我国应尽快开展AI相关的立法研究,明确法律主体以及相关权利、义务和责任,如明确个人数据、默认保护隐私、知情同意、加密等相关法律概念,对数据的归属权、使用权、产品的知识产权等作出详尽解释,并给出对应的处罚机制,加快建立和完善适应数字经济时代的法律法规体系。

(三)加强数据监管

数据争夺日趋激烈,为了更好的发展AI、振兴数字经济,维护数据采集和使用的正当性、合法性和保护隐私性,加强数据监管势在必行。此外,数据作为未来重要的生产要素,对全球各国意义重大,为此,加强数据监管与保护,维护我国数据主权具有长远意义。成立专门负责数据监管的职能机构,除配备专业数据监管人员外,还要聘请各行业相关专家作为外部支持,负责数据采集与使用过程中出现的技术、法律、监管等问题,开展跨领域、跨学科的监测,适时提出监管措施,还要防止过度监管阻碍AI创新的发生。组织制定数据标准及相关规则,如对公开数据的格式提出要求、牵头制定行业数据库等,提高数据可读性,为数据分享和系统间交互提供便利。中国作为数据大国在数据标准的制定方面要积极作为,力争发挥主导作用。

(四)适当开放政府数据

我国除了拥有丰富多样的AI应用场景,还有海量的数据资源作为支撑,这为AI的发展提供了有利环境,我国应把握机遇,充分发挥该优势,抢占AI发展制高点,在此背景下,适当开放政府数据意义深远。随着智能化、数字化的不断成熟,我国网络强国建设稳步推进,政务信息化、透明化发展成为必然,将AI运用于政府工作、适当开放政府数据也正顺应了历史潮流。政府数据蕴含着巨大经济和社会价值,适当公开,满足了目前AI对于大规模多样化数据集的迫切需求,对我国AI的创新发展有着巨大的推动作用。我国在政府数据公开领域已经起步,先后发布了《促进大数据发展行动纲要》、《“十三五”国家政务信息化工程建设规划》等政策文件,从国家层面提出了政府数据公开的整体战略,在未来,战略的落实、行动的执行、需求的不断更新,需要我们持续发力做好政府数据的公开工作。

来源:赛迪智库


关注公众号
关注公众号
返回顶部