您的位置:首页 >热点新闻 >

和李开复先生商榷:失控的黑色大数据不是中国AI的坚固基石

隐私数据泛滥短期内降低了人工智能的开发门槛,让算法的设计实现更加简单,但这以数据所有权的粗暴剥夺和算法滥用为代价,不可能是长久之计。

11月21日《金融时报》刊出李开复先生写的一篇文章《中国搞21世纪数字经济的条件比美国有利》,文中谈到,中国人已开始在智慧城市开展大数据收集工作,公民的隐私当然会受到损害,但算法也将因此变得更加丰富。中国政府善于——借用马克·扎克伯格的话来说——“快速行动,破除陈规”。巨大的消费市场,以及持续的增长潜力,将使中国有可能发展出一套颇具经济效益且独立于西方的数字生态系统……

此文令笔者惊诧莫名。李开复先生是IT与互联网行业的意见领袖,前Google公司中国区总经理,更是互联网创业投资行业的领军人物。对于数字化与人工智能的发展,李先生应该有比绝大部分IT与互联网人士更加深刻的洞察。但认为公民隐私数据滥用会推动人工智能和相关的算法演进,中国因此比美国更有利于发展数字经济,却是一种片面与短视的认识,必须加以澄清。

弱人工智能时代的数据污染

人工智能作为一种最新的信息技术手段,核心就是通过模仿人类的学习过程,以海量数据对于特定的复杂数学模型(如神经网络)进行训练,通过数学模型的逐步优化,建立包含智能化业务规则的系统并加以实用。

现阶段的人工智能是弱人工智能,其特点是:1.单一模型只能针对特定应用;2.需要海量的正确数据进行模型训练;3.产生的智能化业务规则可解释性极差。

换句话说,一个弱人工智能系统就是一个专用的无法打开的黑盒子,既没有高适应性,也无法拆解出具体的智能化业务规则,而且高度依赖于参与训练的海量数据。

从目前的业务实践来看,构建人工智能系统,绝大部分工作是数据准备,包括设计数据、获取数据、清洗数据和整合数据等步骤。这部分工作平均要花费60%-70%的时间。对于大型的人工智能系统,一般会安排专门的数据工程师按照数据科学家的要求进行数据准备。

在弱人工智能发展阶段,人工智能系统高度依赖于海量数据训练,并且算法本身对错误数据几乎没有甄别能力。

数据作为整个人工智能产业链的最上游,数据的任何问题都有可能影响到人工智能的产业链中下游甚至最终的全面应用。

试想一下,如果支撑人工智能的关键数据来源是灰色的甚至是黑色的,这就意味着从源头开始的数据采集、处理、传递和数据质量管理就处于失控状态。

数据使用者无法通过追溯的方式了解数据本身的采集要求,更不可能通过提高数据源数据质量的方式训练出更加高质量的模型。在很多场景下,来源不明的数据甚至无法手工剔除错误,以避免对模型训练的干扰。

如果非法数据的提供方出于某些目的对数据进行特定方向的加工处理,并提供给人工智能企业,那基于这些数据训练出的模型就可能受到特定方向的误导,造成模型畸形,未来的全面应用就有可能会面临极大风险。

尽管目前还没有这样的案例出现,但从理论上来分析,这是完全可能的,非法数据来源正在为人工智能应用埋下未知风险。

对于中小企业的人工智能应用,数据污染和算法畸形可能不会造成严重后果,毕竟应用范围有限。但对于涉及国计民生或者是对市场有重大影响的行业,严控训练数据来源、数据质量,是企业和政府必须考虑的问题。

2016年10月美国国家科技委员会公布的《美国国家人工智能研究和发展战略计划》中有七大战略计划,第五个就是开发用于人工智能培训及测试的公共数据集和环境。

这份战略计划中谈到,政府将开发满足多样化人工智能兴趣与应用的丰富数据集,并开放满足商业和公共利益的训练测试资源,以支持企业在丰富健康的大数据环境下加速人工智能技术发展,规避数据缺陷本身带来的潜在风险。

播洒跳蚤,收获的绝对不会是巨龙。不合法不健康缺乏管控的大数据基础,很难构建出有强大竞争力的人工智能产业环境。那些认为损害隐私会带来算法提升乃至获得数字经济竞争优势的想法是片面的、短视的。

最新动态
相关文章
和李开复先生商榷:失控的黑色大数据不...
搜狗推出“唇语识别”技术,准确率最高...
比特币为何是在今年占尽风头 从群演摇...
味千拉面为何会深陷经营困境之中?
特朗普减税打开了潘多拉的盒子?
喜大普奔!PC手机春天:内存闪存泡沫碎了