2022大数据的发展将会如何？？？？

2022-07-08

越来越多的大公司大企业大集团，都越来越重视大数据的影响和作用。可以说，谁想抢得大数据的一手可靠资料，谁就在未来的业务发展和拓宽中占据优势，谁就会在相关领域首先拔得头筹。但是，大数据发展前景现在到底如何，大数据的可靠性由谁说了算，大数据的真实性有谁可以保证?

我想，应该很少人能够清楚地知道这一点吧!毕竟在大数据分析与应用火爆的年代，一般人都只是了解大数据的皮毛和表面，而对于大数据发展前景、大数据背后的来源及处理分析等等精密的工作程序，肯定不了解，也不会感兴趣。而且对于一般人，也不可能会去真正弄明白大数据分析与应用背后蕴藏的种种可靠性、客观性、真实性的来源支撑与科学手段处理。

我们的 “大数据版图” 已经进入第 4 个年头了，趁这个时候退一步来反思一下去年发生了什么，思考一下这个行业的未来会怎样是很有意义的，看看如今的大数据到底发展到了什么阶段。那么 2022年大数据到底还有多大的发展和进步空间呢?我们不妨探讨一下。

　企业技术=艰苦工作

　　大数据有趣的一点在于，它不再像当初经历过那样有可能成为炒作的题材了。

　　经过炒作周期后仍能引起广泛兴趣的产品和服务往往那些大家能够接触、可以感知，或者与大众相关联的：比如移动应用、社交网络、可穿戴、虚拟现实等。

　　但大数据基本上就是管道设施的一种。当然，大数据为许多消费者或商业用户体验提供了动力，但它的核心是企业技术：数据库、分析等，这些东西都是在后端运行的，没几个人能看得见。就像在那个世界工作的任何人都知道那样，用一个晚上的时间就想适应企业端的新技术是不可能的。

　　大数据现象在早期主要是受到了与一批骨干互联网公司(尤其是 Google、Facebook、Twitter 等)的共生关系的推动，这些公司既是核心大数据技术的重度用户，同时也是这些技术的创造者。这些公司突然间面对着规模前所未有的庞大数据时，由于本身缺乏传统的(昂贵的)基础设施，也没有办法招募到一些最好的工程师，所以只好自己动手来开发所需的技术。后来随着开源运动的迅速发展，一大批此类新技术开始共享到更广的范围。然后，一些互联网大公司的工程师离职去创办自己的大数据初创企业。其他的一些 “数字原生” 公司，包括崭露头角的独角兽公司，也开始面临着互联网大公司的类似需求，由于它们自身也没有传统的基础设施，所以自然就成为了那些大数据技术的早期采用者。而早期的成功又导致了更多的创业活动发生，并获得了更多的 VC 资助，从而带动了大数据的起势。

　　快速发展了几年之后，现在我们面临的是更加广阔、但也更加棘手的机遇：让中等规模到跨国公司级别的更大一批企业采用大数据技术。这些公司跟 “数字原生” 公司不一样的是，他们没有从零开始的有利条件。而且他们失去的会更多：这些公司绝大部分的现有技术基础设施都是成功的。那些基础设施当然未必是功能完备的，组织内部许多人也意识到对自己的遗留基础设施进行现代化应该是早点好过晚点，但他们不会一夜间就把自己的关键业务取代掉。任何革命都需要过程、预算、项目管理、试点、局部部署以及完备的安全审计等。大企业对由年轻的初创企业来处理自己基础设施的关键部分的谨慎是可以理解的。还有，令创业者感到绝望的是，许多(还是大多数?)企业仍顽固地拒绝把数据迁移到云端(至少不愿迁移到公有云)。

　　还需要理解的另一个关键是：大数据的成功不在于实现技术的某一方面(像 Hadoop 什么的)，而是需要把一连串的技术、人和流程糅合到一起。你得捕捉数据、存储数据、清洗数据、查询数据、分析数据并对数据进行可视化。这些工作一部分可以由产品来完成，而有的则需要人来做。一切都需要无缝集成起来。最后，要想让所有这一切发挥作用，整个公司从上到下都需要树立以数据驱动的文化，这样大数据才不仅仅是个 “东西”，而且就是那个(关键的)“东西”。

　　换句话说：有一堆艰苦的工作要做。

　　部署阶段

　　所以，这就是在经过几年引人瞩目的初创企业如雨后春笋冒头，VC 投资频等头条后，我们开始步入大数据的部署期和早期成熟期的原因。

　　更有前瞻性的大公司(姑且称之为传统技术采用周期的 “早期采用者”)在 2011 到 2013年间开始实验大数据技术，推出了若干的 Hadoop 试点计划(往往是因为赶时髦)或者尝试一些点方案。他们招募了各种各样此前并不存在的岗位(如 “数据科学家” 或 “首席数据官”)。他们进行了各种努力，包括吧全部数据都堆到一个数据容器(“data lake”)，然后希望紧跟着就会发生奇迹(往往不会)。他们逐步建设自己的内部能力，试验了各种供应商，从试点计划到生产中的局部部署，然后到现在争论要不要全企业铺开(全范围铺开实施的情况还很罕见)。许多情况下，他们正处在这样一个重要的拐点上，即经过大数据基础设施的数年建设后，能够展示的成果还不多，至少在公司内部的商业用户看来是这样的。但是大量吃力不讨好的工作已经做完了，现在开始进入到有影响力的应用部署阶段了。只是从目前来看，这种建构在核心架构之上的应用数量还不成比例。

　　接下来的一波大公司(称之为传统技术采用周期的 “早期多数使用者”)大多数时候对大数据技术是持观望态度的，对于整个大数据方面的东西，他们还在心存一定程度困惑中观望。直到最近，他们还在指望某个大型供应商(比如 IBM)会提供一个一站式的解决方案，不过现在看来这种情况近期内并不会出现。他们看待这个大数据版图的态度是心怀恐惧，在想自己是不是真的需要跟这一堆看起来并没有什么不同的初创企业合作，然后修补出各种解决方案。

　　生态体系正在成熟

　　与此同时，在初创企业 / 供应商这一块，整个第一波的大数据公司(2009 至 2013年间成立的那批)现在已经融了数轮的资金，企业规模已经得到了扩大，并且从早期部署的成功或失败中学到了东西，现在他们已经能够提供更成熟的、经受过考验的产品了。少数一些已经成为了上市公司(包括 2015年上市的 HortonWorks 和 New Relic)，而有的(比如 Cloudera、MongoDB 等)融资已经达上亿美元了。

　　这个领域的 VC 融资活动仍然很有生气，2022年的前几周我们见证好几轮相当可观的后期阶段大数据融资事件：DataDog(9400 万美元)，BloomReach(5600 万美元)，Qubole(3000 万美元)，PlaceIQ(2500 万美元)等。2015年大数据初创企业拿到的融资额达到了 66.4 亿美元，占整个技术 VC 总融资额额 11%。

　　并购活动则开展得中规中矩(自从上一版大数据版图发布以来完成了 34 项并购，具体可参见附注)

　　随着该领域的创业活动持续进行以及资金的不断流入，加上适度的少量退出，以及越来越活跃的技术巨头(尤其是 Amazon、Google、IBM)，使得这个领域的公司日益增多，最后汇成了这幅 2022版的大数据版图。

　　显然这张图已经很挤了，而且还有很多都没办法列进去(关于我们的方法论可以参见附注)

　　在基本趋势方面，行动开始慢慢从左转到右(即创新、推出新产品和新公司)，从基础设施层(开发者 / 工程师的世界)转移到分析层(数据科学家和分析师的世界)乃至应用层(商业用户和消费者的世界)，“大数据原生应用” 已经在迅速冒头—这多少符合了我们原先的一些预期。

　　大数据基础设施：仍有大量创新

　　Google 关于 MapReduce 和 BigTable 的论文(Cutting 和 MikeCafarella 因为这个而做出了 Hadoop)的诞生问世已有 10年了，在这段时间里，大数据的基础设施层已经逐渐成熟，一些关键问题也得到了解决。

　　但是，基础设施领域的创新仍然富有活力，这很大程度上是得益于可观的开源活动规模。

　　2022年无疑是 Apache Spark 之年。自我们发布上一版大数据版图以来，这个利用了内存处理的开源框架就开始引发众多讨论。自那以后，Spark 受到了从 IBM 到 Cloudera 的各式玩家的拥护，让它获得了可观的信任度。Spark 的出现是很有意义的，因为它解决了一些导致 Hadoop 采用放缓的关键问题：Spark 速度变快了很多(基准测试表明 Spark 比 Hadoop 的 MapReduce 快 10 到 100 倍)，更容易编程，并且跟机器学习能够很好地搭配。

　　除了 Spark 以外，还出现了其他的一些令人兴奋的框架，比如 Flink、Ignite、Samza、Kudu 等，这些框架的发展势头也很好。一些思想领袖认为，Mesos(数据中心资源管理系统，把数据中心当作一台大计算资源池进行编程)的出现也刺激了对 Hadoop 的需求。

　　即便在数据库的世界里，新兴的玩家似乎也越来越多。多到市场已经难以承受的地步，这里发生了很多令人兴奋的事情，从图形数据库(如 Neo4j )的成熟，到专门数据库的推出(如统计时序数据库 InfluxDB)，乃至于 CockroachDB 的出现(受 Google Spanner 灵感启发诞生的融合了 SQL 与 NoSQL 长处的新型数据库)。数据仓库也在演变(如云数据仓库 Snowflake)。

　　大数据分析：现在跟 AI 结合了

　　大数据分析过去几个月出现的一股趋势是，越来越关注利用人工智能(形式和风格各异)来帮助分析大规模的数据，从而获得预测性的洞察。

　　其实最近出现复兴的 AI 很大程度上算是大数据的产物。深度学习(最近受到关注最多的 AI 领域)背后的算法基本上是几十年前就诞生了的，但直到最近能够以足够便宜、足够快速地应用到大规模数据之后才发挥出了它的最大潜能。AI 与大数据之间的关系如此紧密，以至于业界专家现在认为 AI 已经令人懊恼地 “与大数据陷入了热恋当中”。

　　不过反过来，AI 现在也在帮助大数据实现后者的承诺。分析对 AI/ 机器学习越来越多的关注也符合大数据下一步演进的趋势：现在数据我都有了，但究竟从中能得到什么样的洞察呢?当然，这件事情可以让数据科学家来解决，从一开始他们的角色就是实现机器学习，否则的话就得想出模型来发现数据的意义。但是机器智能现在正在逐渐发挥辅助数据科学家的作用—只需要倒腾数据，新兴的产品就能从中提炼出数学公式(如 Context Relevant)或者自动建立和推荐最有可能返回最佳结果的数据科学模型(如 DataRobot)。一批新的 AI 公司提供的产品能够自动识别像图像这样的复杂实体(如 Clarifai、Dextro)，或者提供强大的预测性分析(如 HyperScience)。

同时，随着基于无监督学习的产品的传播和改善，看看它们与数据科学家之间的关系如何演变将非常有趣—将来这两者是敌还是友呢?AI 当然不会很快取代数据科学家的位置，但预计会看到数据科学家通常执行的更简单一点的工作越来越多的自动化，从而可以极大提高生产力。

但不管怎样，AI/ 机器学习绝不是大数据分析唯一值得关注的趋势。大数据 BI 平台的普遍成熟及其日益增强的实时能力也是一个令人兴奋的趋势(如 SiSense、Arcadia Data 等)。

　　大数据应用：真正的加速

　　随着一些核心基础设施的挑战得到解决，大数据应用层正在快速构建。

　　在企业内部，已经出现了各种工具来帮助跨多个核心职能的企业用户。比方说，销售和营销的大数据应用通过处理大规模的内外部数据来帮助找出哪位客户可能会购买、续约或者流失，且速度越来越实时化。客服应用帮助个性化服务。人力应用帮助找出如何吸引和挽留最好的员工等。

　　专门的大数据应用几乎在任何一个垂直行业都有出现，从医疗保健(尤其是基因组学和药物研究)到金融、时尚乃至于执法(如 Mark43)。

　　有两个趋势值得强调一下。

　　首先，这些应用很多都是 “大数据原生” 的，本身都是依托在最新的大数据技术基础上开发的，代表了一种客户无须部署底层大数据技术即可利用大数据的有趣方式—因为那些底层技术已经是打包的，至少对于特定功能来说是这样的。比方说，ActionIQ 就是在 Spark 基础上开发的(或者说是 Spark 的一个派生)，所以它的客户能够在营销部门利用 Spark 的威力而不需要自己部署 Spark，这种情况下是没有 “装配线” 的。

　　其次，AI 在应用层也有很强大的存在。比方说，在猫捉老鼠的安全领域中，AI 被广泛用来对付黑客，实时识别和对抗网络攻击。去年已经出现了一个 AI 驱动的数字助手行业，支持从任务自动化到会议安排(如 x.ai)以及购物等几乎一切事情。这些解决方案对 AI 的依赖程度不一，从几乎 100%自动化到 “有人参与” 等情况各不相同，但是可以明确的是，人的能力在 AI 帮助下得到了增强。

　　结论

　　从很多方面来看，我们仍然处在大数据现象的早期发展阶段。尽管已经花费了数年时间，但减少基础设施来存储和处理大规模数据还只是第一阶段。AI/ 机器学习已经成为大数据应用层的一股迅猛趋势。大数据与 AI 的结合将会推动很多行业的惊人创新。从这个角度来说，大数据的机会也许要比大家想象的还要大。