随着边缘计算相关技术的逐渐成熟,边缘应用的种类也呈现多样化发展。IDC 2023 年发布的《全球边缘支出指南》归纳出 400 多种跟边缘相关的应用——这是在从 9 个地理区域、17 个技术市场、6 个技术领域和 19 个行业当中汇总出来的。
边缘计算的复杂和边缘应用的多样,很容易让人联想到一个典故——“盲人摸象”。在边缘计算生态中,每个人、每个行业、每一个公司的方案,都只能覆盖到边缘计算场景的一部分。很难找到一个公司/组织的技术/产品/解决方案,能够覆盖边缘应用所有场景的需求。如果要为每个边缘用例构建专门的解决方案,毫无疑问将降低边缘应用的交付速度,提升成本和复杂度,同时质量和用户体验难以保证;而如果要为边缘计算提供标准化的、资源和流程高度整合的解决方案,就需要对边缘应用的普遍特点及其资源需求有深入的了解和准确的分析。
基于此,在这篇文章中,我们将聚焦基础架构层面,通过分析边缘应用对 IT 基础架构的技术需求,为读者提供现阶段适合支持边缘用例的架构参考。
边缘应用对基础架构的技术需求分析
支撑边缘应用的整体架构特点
Gartner 对于边缘计算和云的技术架构的分析,可以帮助我们从整体架构的角度,更好地理解边缘应用相关的技术及分类。边缘计算的基础架构分类,常常总结概况为“云-边-端”。在 Gartner 的基础架构模型里,“设备边缘”就是我们常说的“端”,更上面几层分别是网关边缘、计算边缘、本地数据中心、区域数据中心以及云(如下图)。
大家对边缘层级的分类和命名也不统一:例如我们常说的“端”设备,这在 Gartner 的边缘计算分层架构图上划分为“设备边缘”;而被 Gartner 称为“计算边缘”的部分,有些厂商的解决方案称其为“现场边缘”……
对照上图的层级,“设备端”、“网关边缘”可以统称为“远端边缘”(或“设备边缘”)、从 “计算边缘”到“本地数据中心”这部分可称为“近端边缘”(对应分支办公室、分支数据中心、分布式云),最上层是“数据中心”(或“中心云”)。
这种分层分类方式主要是基于以下三个维度对边缘应用及其所在的站点进行衡量:
1. 数据的存储和处理维度
“远端边缘”(或“设备边缘”)主要负责数据的采集、暂存和预处理。例如,通过传感器、摄像头、智能终端等边缘设备获得的数据,先经过一层过滤和筛选,然后再传输到“近端”。各种边缘应用及相应的边缘设备,在“远端”位置大多是承担类似的任务。
“近端边缘”是对所有来自“远端边缘”的数据进行存储、备份、同步、分析和处理的第一站。
“数据中心”(或“中心云”)通常用于集中存储、备份和管理来自所有边缘的数据。
因此,每个参与边缘应用的站点,是否承担保存数据的功能、数据能够保存多久、能够提供哪些数据保障和数据服务、需要对数据进行哪些深度加工和处理,这些是区分“端”-“边”-“云”层级架构的重要依据。
2. 应用延迟敏感维度
对延迟高度敏感的应用(例如要求在毫秒级别做出响应的自动驾驶),通常必须运行在“远端边缘”,以使应用尽量贴近边缘设备和使用边缘应用的人。
对延迟不敏感的应用则可能在数据中心内部,比如对采集的数据进行脱敏处理后进行长时间训练和学习。
对延迟敏感程度介于前二者之间的应用,可以运行在“近端边缘”站点。
3. 应用的管理和发布维度
“近端边缘”和“远端边缘”主要承担算法/程序的执行工作。因为边缘应用的算法/程序不可能来自“远端边缘”,只能通过中心站点分发到“近端边缘”或“远端边缘”进行执行。
边缘应用体系中的算法/程序需要在中心站点,通常是“数据中心”或“中心云”,进行集中管理和统一调度。即便是需要针对不同区域的边缘场景使用不同的算法/程序,通过中心站点进行统一管理和发布也是效率最高的方式。
从以上三个维度,我们可以比较清晰地勾勒出边缘应用涉及到的三种站点的特点轮廓。实践中,很多边缘应用对“延迟”的要求并没有清晰的界限,对“应用管理和发布”的方式也尚未形成确定的模式,目前只有“数据的存储和处理维度”有相对比较确定的标准。对照 Gartner 的边缘计算层级模型:“网关边缘”及“设备边缘”(远端边缘)主要承担的是数据采集和传输任务,不具备长期保存大量数据的能力;从“计算边缘”开始往上的层级(近端边缘和数据中心),承担着越来越多的数据存储、分析和处理任务。这对边缘应用的基础架构设计和实施具有直接的指导意义。
边缘计算中“数据”与“计算”的关系
上面,我们从数据存储需求的维度讨论了边缘计算的整体架构。在边缘计算的架构设计中还有一个重要问题:数据是否应该跟随计算,实现“算力在哪里,数据就移动到哪里”?还是计算跟着数据走,实现“数据存放在哪里,就在哪里计算”?
Gartner 在《Innovation Insight: Rethink Your Enterprise Storage and Cloud Data Services Strategies for the Edge Awakening》中,探讨了边缘计算中存储数据的需求,例如数据引力、数据主权、数据自治、数据收集、数据分发、数据安全等各个方面。
在边缘应用中,需要将数据保存或暂存于不同的站点位置,来满足不同应用场景的要求。由于数据传输的速度上限就是光速,因此计算端访问数据源的延时与二者之间的距离成正比,而处理数据的延时与处理算法的复杂度正相关。这两项,特别是长距离读写数据耗费的时间,在边缘计算的每一次响应所需的总时长中占了很大比例。因此,用于支持延迟高敏感应用的数据,应在最靠近边缘设备的位置进行实时分析和处理,以最大限度地缩短数据读写延时;而用于支持延迟不敏感应用的数据,则可以集中存放在距离更远、但存储容量更大、存储技术更加完善的数据中心,以实现更低的存储成本和更高的存储安全性。
边缘设备获取的原始数据,可能有不同的处理方式:
无处理:数据直接从设备采集后,不经过任何处理,原样保存。
预处理:数据在设备端进行初步处理,如清洗、格式转换、异常值检测等,然后保存处理后的数据。
实时处理:数据在设备端进行实时分析和处理,例如实时统计、聚合等,只保存处理后的概要信息。
延迟处理:允许对数据进行准实时或异步处理,如每分钟、每小时、每天等,然后保存处理后的结果。
对于经过以上不同方式处理的数据,可以选择进行本地暂存(单副本、无保障)、云端/数据中心集中存储、分布式存储,或这三种方式的混合。需要长期保存的数据,既要考虑其使用频率、与边缘设备的相对位置关系,也要考虑存储的容量、扩展性、可用性、安全性、所有权、泄漏风险和综合成本。这就是 Gartner“边缘数据存储”报告中的主要观点。
由以上对数据和存储特点的分析得出结论:应该是“计算跟着数据”走。因为选择数据的存放位置与保存技术,涉及到站点的软硬件架构,对站点架构进行变动的周期长、成本高;而且移动数据是一件相对困难的工作,在不同物理介质中传输需要大量的时间,也很难保证在任何边缘站点都有足够的存储空间用于存放从其他站点移动过来的数据。以上两方面对边缘应用的使用效果和成本有直接影响。
“计算跟着数据走”只是一种通俗的说法,指的是将特定的算法/程序分发到不同的边缘位置,以便快速地、安全地在当地处理数据,可以减少数据传输的延迟、降低数据在多地存储的成本。这里的“计算”,指的是算法或程序,因为每种应用需要特定的算法来处理特定的数据。从数据中心的应用库中分发到边缘的,可能是 1 个 Function 或者一个小程序,这就是前面提到的“计算跟着数据走”。算法/程序的文件尺寸与应用数据相比可以说是“轻如微尘”,适合于被快速地分发到各种不同的站点,在站点上以虚拟化或容器化形态使用当地的计算资源池、处理当地保存的数据、快速响应当地的应用请求。
那么问题来了:这种方式下,在每个边缘位置上是否有足够的计算资源以供各种算法/程序使用呢?实际上,大部分边缘站点并不缺计算资源。在过去十多年的虚拟化实践和近年容器化实践中看到的普遍现象是,各种云、数据中心、分支站点的 CPU 资源总体上是充足的。实现“计算跟着数据走”,并不意味着要将一个站点的硬件 CPU 临时迁移到其他站点。
边缘站点的技术需求
根据以上分析,我们总结了边缘站点对计算、存储、网络等基础架构层面的技术需求。
左侧的三个技术需求,在不同的边缘站点上可能存在差异:因为每个站点面向的客户群、所在地理位置都不相同,每种边缘应用的计算需求、存储需求和延迟需求都不同。但也可从中得出结论:弹性和兼容是边缘站点基础架构必备的特点,只有弹性和兼容的架构才能灵活地适应各种规模、各种类型的应用。
右侧的三个要素则是更为通用的需求,任何为边缘应用构建的基础架构体系中,普遍需要集中控制、混合应用负载(算法/程序)的集中管理和按需分发,以及在每个站点上设置安全机制来保障内部数据和外部访问的安全性。
重点需求:适应应用混合部署
在这里需要特别强调一点,即混合部署在边缘应用中的意义。混合部署指的是以不同的形态去承载边缘应用,例如虚拟化或容器化的形态。今后,可能会出现更细颗粒度的部署方式运行不同边缘应用或其中的功能。
强调应用的混合部署,是因为边缘应用数量快速增加,其中不乏专门为边缘场景开发的、可称之为“边缘原生”的应用。但是仍有许多边缘应用依赖于传统技术和方法,例如已经在虚拟化或容器化环境中运行良好的分布式数据库、消息队列、中间件程序。边缘应用开发者是否需要专门为最边缘的场景设计专用的数据库、中间件、消息队列或其他组件?这样无疑会耗费边缘应用开发者的精力。现在边缘业态发展非常快,应避免陷入“重复造轮子”式的创新,而是快速地基于已有的软件/插件构建新的应用,这样才能够更快地推出新产品,抢占市场先机,从而获得更大的商业价值。
因此“边缘原生”的新应用/程序和传统应用/组件/插件会在边缘站点上混合存在,这要求边缘计算体系具备能够为这些不同的应用形态提供统一的支持和调度分发能力。
超融合:支持边缘应用的理想架构
在分析了边缘应用的特点以及边缘站点的技术需求后,我们认为,超融合(HCI)是现阶段非常适合用来支持边缘站点上的各种边缘应用的架构平台:超融合可以为大部分边缘应用(除了必须运行在“远端边缘”或“设备边缘”站点的应用)提供高性能、可靠和稳定的运行环境,并简化配置供应(Provisioning)、运营和管理,从而提高边缘应用的交付效率、降低边缘计算的总体拥有成本(TCO)。
超融合基础架构的成熟度是其适用于承载边缘应用的最主要原因。Gartner 于 2022 年发布的技术成熟度曲线(Hype Cycle)显示,超融合技术和产品已进入稳定平台期,且经过足够的测试和生产案例验证,超融合能够在生产环境中承载包括边缘在内的绝大多数应用形态。IDC 在 Hyperconverged Infrastructure Use Will Continue to Grow in Edge Environments 研究中也表示:“将虚拟化、计算、存储和网络技术整合到单个系统中的超融合基础架构系统,可为在边缘环境中面临 IT 人员配置挑战的企业提供显著优势。它们有助于简化供应、运营和管理,并在具有成本效益的行业标准硬件上运行以降低成本。”因此,企业用户或边缘应用提供商可以在基础架构方案上节省大量的时间,直接利用超融合架构,为各种边缘应用快速提供整合了各种资源的运行环境。
此外,超融合架构的以下特性也可充分满足边缘应用在性能、弹性、混合应用支持和集中控制等方面的需求:
软硬件解耦:超融合基于“软件定义”的计算、存储和网络,使得基础设施与硬件设备在广泛兼容的基础上实现了完全解耦。与传统架构相比,超融合基础架构所需的专门设备数量更少,可以降低成本。
高性能:超融合支持按需配置不同规格的 CPU、GPU、存储和网络组件,以满足不同应用对性能的要求,满足边缘计算场景中的高性能需求。
扩展性:超融合允许从小规模起步,通过“标准模块”的方式快速构建多个边缘站点,并能随时按需扩展站点内的资源规模,实现简便的资源扩展。
适用性:超融合提供对虚拟化和容器化应用的资源支撑和管理功能,适用于多种类型的近端边缘计算应用场景。
易管理性:超融合解决方案允许从中心站点对多个远程站点进行可视化管理,降低了运维的复杂性,提高了管理效率。