大数据时代,软件工程师渐退,算法工程师崛起
“大数据时代”的称号并不能为当今世界所独享,数据充斥着人类文明历史长河的各个时期。
作者:CIO时代
来源:CIO时代
2017-05-24 15:01:00

大数据在人类历史长河的各个时期一直存在着,只是要等到技术发展到一定阶段,它才开始崭露头角。而它的未来又在哪里?

“大数据时代”的称号并不能为当今世界所独享,数据充斥着人类文明历史长河的各个时期。纵观这些历史时期,通过从离散到抽象的转换,我们就会明白为什么算法比代码重要。

说到大数据……

如果我们把整个人类历史看成一天,那么我们只能从晚上11点7分开始说起。这是安静的一天。但是在随后的一丁点时间里,我们积攒了很多知识和故事,并打算将它们传达给其他人。你可以想象最开始人类通过对话的形式将知识代代相传,从父辈传给子辈,从老师传给学生。但是整个社会的知识量增长迅速,以至于最初的对话形式无法传达这么多的信息。

我们需要将这些信息编撰成册进行保存和传播。通过书写的方式将知识编撰成册代表着这些时期在技术上的重大转变。事实上,苏格拉底(柏拉图“斐德罗篇”里的角色)认为这种技术转变比不上最初的对话形式,担心它会降低我们开发智慧和知识的能力。所以很自然地,我不认为苏格拉底会喜欢电视。

问题的核心是,对话代表了一种离散的沟通手段。你知道你的交谈对象是谁,而且参与对话的人通过论证和反证的方式进行直接的互动。反过来,书本是一种抽象的沟通手段,作者和读者之间不存在直接的互动。作者并不知道谁读了他的书,也不知道有多少人、在什么时候、在哪里读了他的书。有时候,我们可能知道潜在的读者群体是谁,然后根据读者群体进行内容裁剪。不过大多数时候,书本都只是一种抽象的传播知识和学习新技能的手段。

等腰三角形的大数据

当我们从简单的计算形式转变为由定理、符号和算法组成的抽象形式(我们现在称其为数学),就开启了另一个大数据时代。第一批有记载的计算发生在公元前2500年的美索不达米亚。当时,美索不达米亚人需要计算出一谷仓的粮食能够养活多少人。

美索不达米亚人有具体的问题关注点,他们很清楚需要解决的问题是什么。他们的计算都是很离散的,因为每一次计算只能解决一个问题。这也就是为什么评论家们认为它们不是数学。直到公元前500年的古希腊,毕达哥拉斯学者们(可以把他们认为是早期的Google使用者,哈哈)开始针对三角形提出了一些奇怪的问题。比如,他们想知道等腰直角三角形的三个边能否都是整数(这听起来像不像一个Google风格的面试题?)。

如果你想通过离散的方式来解答这个问题,那么可以像美索不达米亚人那样做。不过,随着数字的增加,这种方式会显得很笨重。要证明这个假设,你需要进行多少次计算(其实这个假设是错误的,三个边不可能都是整数)?等腰三角形问题的不同之处在于,它不存在具体的关注点。我们不知道三角形的大小,也不知道它们的边长,而且它们的大小可能是无限的。如果我们在数字上应用推理,那么就进入了数学领域,大数据也就接踵而至。毕达哥拉斯式的思维方式体现了数学的抽象特征,在今天,我们使用符号、规则和推理来解答这类抽象的问题。

代码的崛起

1945年,当Grace Hopper开始在Harvard MarkI计算机上工作时,编码(或者说编程,不过我们不打算在这里区分它们有什么不同)这项工作的重要性就开始凸显出来。在这之前,电脑(如果可以这么叫它的话)充其量只是个计算工具。以二战为例,当时的大炮需要借助矩阵进行辅助瞄准。矩阵是一些方程式的计算结果,这些方程式使用数百种不同的计算因子,比如距离、海拔、风速、温度、湿度,等等。电脑(computer)这个名字的由来也是很偶然的,人们用它描述在二战中操作计算机的女性,她们被称为“computer”。操作员们必须使用打孔卡和曲柄来处理方程式。一个打孔卡需要170个人月才能完成。

美索不达米亚人使用黏土矩阵来进行计算,而到了20世纪,计算媒介变成了编码。虽然已经有了长足的进步,不过编码仍然是一种离散的操作,因为它执行的是具体的计算任务,只是效率上有所提升而已。编码解放了人工操作,让我们可以处理更多的数据。

算法与代码

算法:一系列用于描述一个问题解决方案的步骤,符合正确性和有限性的标准。是与具体实现相互独立的抽象计算步骤。代码:一系列计算机指令。它们是计算的具体实现,使用一种特定的编程语言,运行在一个特定的平台上。

人们可以借助这种直接向计算机发送编码指令的方式来实现更为复杂的指令序列,并以算法的形式呈现出来。算法比编码的出现要早得多。穆斯林数学家Al-Khawarizm早在公元820年就对解决线性方程和二次方程式的算法进行了描述。算法一词来源于这位数学家的拉丁文名字“Algoritmi”,而“algebra”则来源于“al-jabr”,Al-Khawarizm用它来解决二次方程式问题。算法由一系列有限的计算或指令组成,并产生一个结果。正如我们所知道的那样,代码是向计算机发出指令的一种方式,很适合用于实现算法。它们只不过是一系列按照一定次序执行的操作。

与早期的大数据时期一样,我们这个时代的信息量也在增长。根据摩尔定律,我们在编码的设计和使用方面所作的改进换来了性能的提升,从而能够应付不断增长的数字化需求。你可以继续编写代码从数据库查询相关的资源列表。这些操作的离散特征仍然被保留了下来,因为人们仍然在通过编写代码告诉硬件应该做哪些事情。就算操作变得越来越复杂,它仍然只是人类的编码指令。不过,算法已经开始展露头角,正在创造一个抽象的新时代。

算法的崛起

所以说,算法和代码之间有很大的不同。代码可以用来实现算法,而且代码的实现方式会影响到性能。例如,如果你要从一个序列里找出最大或最小的元素,那么二叉堆的性能相比其他的数据结构要好很多。不过,你已经没有必要通过编写代码来实现一个算法,就像没有必要通过听音乐来写歌一样。

虽然每个人都知道摩尔定律的魔力,驱动数字经济发展的性能改进遵循的就是摩尔定律,但鲜有人知道,在很多领域,算法所产生的性能改进已经超过了硬件所带来的性能提升。实际上,2010年的一份官方报告表明,算法已经为很多领域带来了显著的性能提升,比如语音识别、神经语言处理和物流。

“更加令人感到吃惊但同时又令人难以理解的是,在很多领域,算法为性能带来的提升已经远远超过了处理器速度提升所带来的性能改进。”——面向总统和国会的报告:设计数字的未来

抽象算法

我们现在拥有大量的数据,这意味着我们不能再用离散的思维来思考问题。大数据促使我们转变思维。它促使我们向后退一步,去寻找能够处理数据洪流的方法。按照传统的方式,你可能会根据一些指定的模式或参数编写代码来查询数据。例如,你可能想从数据库中查找在过去两周买过2件商品并且支付超过30欧元的顾客,因为你想联系到这些顾客,并向他们推荐一些优惠活动。你使用这个模式来查找匹配的数据。不过大数据却正好相反,你先有了数据,然后查找可以匹配这些数据的模式。

想想看,有这么多的数据,但是我们却找不到匹配的模式,所以我们要回退一步。我们通过集群、分类、机器学习和其他新的支撑技术来寻找模式,而能够帮助我们做到这点的是算法,不是代码。要找到隐藏在暗处的模式,跨出这一步是必需的。与光谱一样,有一些波长的光线我们是看不到的,而超过一定数据量之后的模式我们也是看不到的,它就是大数据。

我们不仅可以从中搜索到模式,它还能够生成做这些事情所需要的代码。Pedro Domingos在“The Master Algorithm”一书中描述了如何使用“学习者算法”来创建新的算法,这些算法可以反过来为我们编写我们所需要的代码,“通过机器学习,计算机可以自己编程,我们就可以解放了”。为了实现这个目标,我们需要更好地理解这些算法的原理,以及如何让它们与我们的需求相匹配。否则,我们就无法向抽象转变。

“工业的发展让手工劳动自动化,信息的发展让脑力劳动自动化,而机器学习则让它自己自动化。如果没有机器学习,程序员就会成为发展瓶颈。而有了机器学习,发展的速度就会加快。”——Pedro Domingos,“The Master Algorithm”

思考算法

不过,不管如何从离散转变成抽象,我们仍然需要程序员,但这不是重点。并不是说代码已经变得不重要了,也不是说代码就不会再带来任何改进。重点在于,我们要开始思考算法,这不仅仅是数学家或学者的事情。我们周边充斥着各种算法,以致于我们不需要知道如何编写代码来使用它们,或者理解它们。现在,有一些人通过新的算法对不同的领域进行优化和改进,他们使用了遗传编程(genetic programming)和大数据技术。人们甚至创造了更好的优化技术,他们观察金属的冷却过程,并通过算法对其进行建模(被称为模拟退火算法,这就是我们应该从算法角度开始考虑问题的一个最好的例子)。

编码作为新数字经济的关键技能,就像学习如何阅读一样,已经模糊了我们对算法的理解。算法正逐渐成为我们生活的组成部分,从电影推荐到新闻过滤和寻找合作伙伴。我们要更好地理解它们,这样才能更好地理解和掌控我们的未来。

关注中国IDC圈官方微信:idc-quan或微信号:821496803 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2022-05-11 11:18:03
云资讯 亚马逊云科技:在云中打造统一数据基础底座是企业实现数智融合有效途径
数据与智能的统一和融合,意味着数据构建和实施项目更加高效,数据在两者之间能够无缝流转,企业可以快速具备相关能力,推动自身数字化转型迈向新的高度。 <详情>
2022-02-10 09:46:51
大数据资讯 抓住大数据产业风口 培育数字经济新动能
《黑龙江省大数据产业发展规划(2021—2025年)》已于近日出台,明确提出,到2025年大数据产业测算规模达到140亿元,建成哈尔滨全国大数据中心重要基地,打造大数据新型工业 <详情>
2022-02-10 08:52:22
5G资讯 中国5G基站总量占全球60%以上 云计算、大数据带来新活力
数据显示,2021年,全国移动通信基站总数达996万个,全年净增65万个。其中4G基站达590万个,5G基站为142.5万个,全年新建5G基站超过65万个。 <详情>
2022-01-19 15:27:07
国内资讯 “大数据”迎来“及时电”──电力为环京大数据产业天津基地开辟“绿色通道”
220千伏电压等级变电站从方案确立到竣工投运至少要一年,但在电力部门协助下,这座变电站仅用半年时间就建设完成了。 <详情>
2022-01-17 10:14:00
云资讯 趋势丨2022年国内科技十大趋势:边缘计算驱动云行业步入新流量
基于同样的逻辑,数据量的增长导致集中式云计算出现瓶颈,2020年到2030年将会是边缘云计算从兴起到繁荣的关键十年。 <详情>
2021-12-27 15:33:48
市场情报 闪耀2021电力人工智能与大数据论坛,ATEN电力电网解决方案赢得交口称赞
ATEN电力行业解决方案包含发电厂远程管控、变电站远程监控、信通的智能化运维以及分布式电力调度指控中心4个细分解决方案,充分满足不同电力应用场景需求。 <详情>
2021-11-29 09:52:36
大数据资讯 大数据包括哪些方面
对于不同模式,不同结构的数据,我们需要进行进一步的处理,需要进行集成处理或者整合处理。当我们将不同的数据收集,整理并且转换之后,就可以获取一个新的数据。这样在后 <详情>
2021-11-23 10:36:03
大数据资讯 智慧高速大数据与系统创新应用实验室落地安徽
智慧高速大数据与系统创新应用实验室由交通运输部路网中心负责牵头制定总体规划,负责提供实验室课题研究、项目试点所需的全国路网数据,协调对接同行业资源以及相关研究成 <详情>
2021-11-22 09:52:00
大数据资讯 2020年中国大数据相关市场增幅领跑全球 未来10年数字经济渗透率将超30%
有报告预测认为,在2020年至2024年期间,全球大数据技术与服务相关收益将实现9.6%的复合年均增长率,预计2024年将达到2877.7亿美元。 <详情>

CIO时代

阅读量
阅读排行榜