聚焦云原生,与阿里云共话「云未来,新可能」

2021-12-03 17:25:31 来源:网络整理

12 月 9 日,一场属于中国开发者的年度技术盛宴即将拉开帷幕 —— 由云原生计算基金会 CNCF 主办的 KubeCon + CloudNativeCon + Open Source Summit China 2021 将以线上直播的方式与中国开发者们见面。

作为云原生技术领域的顶级盛会,历年的 KubeCon + CloudNativeCon + Open Source Summit China 都汇聚了国内外最活跃的开源云原生社区、最先进的技术代表与行业的最佳落地实践,推动云原生计算领域的知识更新和技术进步。阿里云做为本届大会的钻石赞助商,为 CNCF 提供了大力的支持,获得了大会主办方的高度认可。自 2017 年以来,阿里巴巴在云原生技术领域投入了巨大力量,深度参与到 etcd、Kubernetes、ContainerD 等多个顶级开源项目的开发与维护当中,并通过云原生技术栈完成了整体基础架构体系的自我升级。截至 2020 年底,阿里巴巴已有 KubeVela、OpenYurt、Fluid、OpenKruise 等超过 10 个项目进入 CNCF;对 Kubernetes 项目的贡献量也位居全球前 10。

不能错过!来自 10 + 阿里云技术专家的云原生创新实践

在本届大会中,来自阿里云的一线云原生技术专家带来了丰富的演讲议题,有超过 10 个议题通过主办方的严格筛选,内容涵盖云原生应用交付、云原生 AI、k8s 集群管理、容器运行时、CNI、故障监测、Serverless 等云原生细分技术领域,在议题入选数量、话题丰富度方面都表现出色。

以下为本届大会上由阿里云带来的精彩分享议题:

Keynote:

主题:云未来,新可能

演讲嘉宾:

易立 Li Yi (Mark),阿里云资深技术专家,阿里云容器服务研发负责人

议题简介:

后疫情时代,数字技术全面融入了我们的日常生活,发挥着不可或缺的作用。绿色发展,产业升级已经成为经济增长的新势能。云原生技术是支撑企业数字化转型的原动力,也在成为业务创新的引擎。

Session:

议题 1:以一致的经验构建和管理多集群应用 | Build and Manage Multi-cluster Application with Consistent Experience - Yong Feng Jianbo Sun, Alibaba

议题简介:

与在多集群环境中部署和管理应用程序相比,当前在本地环境中开发应用程序的用户体验存在巨大差距。将经过良好测试的应用程序移到多集群环境时,需要付出大量的努力。在本节课中,我们将演示如何将 KubeVela 和 OCM(开放集群管理)结合起来解决阿里云中的问题。用户只需根据 KubeVela 应用程序规范定义一个应用程序另一种标记语言 (YAML),其余的将由 KubeVela 和开放集群管理处理。KubeVela 将准备一个部署工作流,包括在需要时创建 Kubernetes 集群。开放集群管理将帮助注册集群并在集群之间分配资源。因此,在本地开发和多集群生产部署之间部署和管理应用程序的用户体验是一致的。我们将讨论这些用例、挑战以及相关的工作和经验。

议题 2:介绍和深入了解 TAG 应用程序交付 | Introduction and Deep - Dive into TAG App Delivery - Hongchao Deng, Alibaba Thomas Schuetz, Dynatrace

议题简介:

TAG 应用程序交付专注于简化 Kubernetes 上的应用程序交付,以及改善开发者的体验。此次讨论将展示围绕运营商、混沌工程、应用交付方法和演示应用的最新发展情况。无论您是刚开始了解云原生应用交付,还是想要了解最新进展,此次讨论将基于应用交付领域的 CNCF 项目反馈,为您提供正在进行的活动信息、最新发展情况和所选定的发展趋势信息。

议题 3:阿里巴巴如何在用户面前发现和定位 k8s 集群问题 | How We Discover and Locate k8s Cluster Problems Before Users at Alibaba - Peng Nanguang, Alibaba

议题简介:

快速发现和定位问题的能力是快速恢复系统的基石。只有首先快速发现和定位问题,我们才能讨论如何解决问题并最大限度地减少用户损失。那么,在复杂的大规模场景中,我们如何在用户面前发现和定位问题呢?我将介绍一些我们在管理大型 K8S 集群过程中快速发现和定位问题的经验和实践 —— 我们如何通过创建通用链接检测 + 定向检测工具 KubeProbe 来解决我们遇到的问题,以应对大规模集群的稳定性挑战。链接检测:模拟广义用户行为,检测链接和进程是否异常:检查集群的异常指标,找出未来系统增强中存在或可能存在的风险点:问题发现的效率和速度、问题发现后的根本原因分析,以及聊天操作。

议题 4:EROFS,我们目前在为容器做什么?| EROFS, What Are We Doing Now For Containers? - Xiang Gao Xuyang Ge, Alibaba Cloud

议题简介:

EROFS 文件系统是一个 Linux 只读文件系统,目的是在保证端到端性能的前提下节省额外的存储空间,这一文件系统从 Linux 4.19 开始得到了正式升级。此前,该文件系统主要用于嵌入式设备,但是,我们发现对于容器用例也有迫切的只读高性能文件系统需求。本主题将详细介绍我们正在为此种新场景开发的新特性。

议题 5:如何在零停机的情况下迁移 Kubernetes 集群 | How To Migrate Kubernetes Cluster With Zero Downtime - Jing Gu Yaoyao Xie, Alibaba

议题简介:

跨多个版本升级 Kuberentes 的风险更大。许多客户选择使用集群迁移(即创建一个新的高版本集群,然后将应用程序从低版本集群迁移到高版本集群)而不是升级集群。然而,如何在零停机的情况下迁移集群已经成为一个重大挑战。本次分享提出了解决问题的办法。

议题 6:最佳实践:Kubernetes 集群中 DNS 故障的可观测性与根因诊断 | Best Practice: DNS Failure Observability and Diagnosis in Kubernetes - Yuning Xie, Alibaba

议题简介:

在阿里云数万个 Kubernetes 集群中,DNS 域名解析故障是最常见的问题之一。DNS 解析故障的现象也千奇百怪,有些是间歇性的,有些是持续性的,有些影响了所有类型的域名查询,有些只影响了小部分。其根因也不尽相同,大部分是容器网络问题,有时候是配置错误。

Yuning Xie 将介绍在 Kubernetes 中 DNS 解析故障的可观测性与根因诊断,本主题将包括以下内容:

1.介绍 Kubernetes 中常见的 DNS 解析故障场景

2.介绍 CoreDNS 内置的可观测性插件,例如 log/errors/trace/dump/metrics

3.如何通过 dnstap 协议诊断 CoreDNS 异常,以替代 tcpdump 等传统高开销的方法

4.如何基于 BPF 完成客户端侧 DNS 异常的根因诊断

议题 7:Fluid:Kubernetes 原生分布式数据集协调器和加速器 | Fluid: Kubernetes Native Distributed Dataset Orchestrator and Accelerator - Yang Che, Alibaba Yuandong Xie, Tencent

议题简介:

在公有云上使用 Kubernetes 运行大数据和人工智能应用成为新趋势。然而,在 S3、谷歌云存储、Hadoop 分布式文件系统 (HDFS) 等云分解环境中访问数据,极大地挑战了训练性能,限制了计算的可伸缩性。Yang Che 和 Chris 将介绍 Fluid,以及它如何提高 Kubernetes 中大数据和人工智能应用程序的性能。Fluid 是一个开源、社区驱动、高度协作的项目,由大学里的工程师和研究人员提供。它由云原生计算基金会 (CNCF) 作为沙盒项目主办。在本课程中,与会者将了解项目动机、体系结构、最新功能和用户采用情况。之后,Yang Che 和 Chris 将介绍项目路线图以及新贡献者如何参与,并展示一个关于通过 Fluid 加速无服务器计算的演示。

议题 8:在 OpenKruise 中扩展容器运行时的操作 | Extend the operations for container runtime in OpenKruise - Siyu Wang, Alibaba

议题简介:

通常情况下,人们只能使用普通旧数据作为 Kubernetes 中最小的操作单元。他们可以创建一个普通旧数据,但不能控制普通旧数据中的容器,也不能通过 Kubernetes 应用程序接口在某些节点上提取图像。这是因为 Kubernetes 没有提供操作运行时的应用程序接口,比如 Containerd 或 Docker。据我所知,一些公司在他们的集群中入侵了 Kubelet 的代码,以便他们可以对容器做更多的事情。然而,为运行时扩展操作确实是一种错误的方法,因为它不利于开源和社区的合作。现在,云原生计算基金会沙箱项目之一 OpenKruise 提供了高级功能,可以在每个原始 Kubernetes 集群中操作容器运行时。它支持通过 CRD 进行大规模图像预下载和容器重启,因此用户只需应用 CR 另一种标记语言即可完成这些工作。在本次演讲中,我们将介绍 OpenKruise 中功能的用法,以及它如何与 Kubelet 和 CRI 合作。

议题 9:实现 Faas + Dapr + K8S 技术融合,构建全新的阿里巴巴云无服务器研发系统 | Achieving Faas + Dapr + K8S technology integration, and build a new Alibaba Cloud Serverless R D system - Zhao Qingjie, Alibaba

议题简介:

随着云原生生态系统的不断发展,Kubernetes 已经成为了一种云操作系统。与此同时,无服务器是云计算下一个十年的发展主题这种声音越来越多,那么 Kubernetes 将如何更好地支持这种无服务器场景呢?如何使用 Kubernetes 生态系统更好地整合二者?尽管诸如 Kubernetes 原生和 Fission 一类基于 Kubernetes 的无服务器解决方案已经在行业内出现,但是其仍无法突破零还原和高密度 + 高频率创建等技术瓶颈。本次讨论主要介绍如何在阿里巴巴内部实现技术突破,以及如何实现现有应用的大规模迁移。1.FaaS 在 Kubernetes 上的瓶颈。2.如何突破节点瓶颈,实现单节点上 1200 个实例的高密度部署。3.如何打破性能瓶颈,实现 1w+/5s 的高频创建和删除。4.如何重复使用 Kubernetes 的生态能力,扩展 FaaS 的边界。5.如何快速大规模迁移现有应用的无服务器形式?

议题 10:CNI 1.0.0 概述以及 CNI 2.0 扼要介绍 | Overview of CNI 1.0.0 and preview of CNI 2.0 - Bruce Ma, Ant Financial Bingshen Wang, Alibaba

议题简介:

CNI 1.0.0 版本是最近发布的首个稳定版本,这也意味着规范和特征将在一定程度上暂时保持不变,并且可以广泛使用。本主题将详细回顾 CNI 1.0.0 版本发展过程中的主要特征和增强功能,以助您更加合理、规范地使用 CNI。第二部分中,我们将深入探讨 CNI2.0 的发展前景,以及 CNI1.0 时代存在的一些问题和不足,包括安全性、实时网络状态、插件二进制文件的执行、配置管理等。此外,我们希望这一主题能吸引更多 CNI 2.0 的贡献者。

与 CNCF 和阿里云一起,共建中国云原生生态

10 多年来,作为国内云计算领域的先行者,阿里云一直注重将自身在大规模云原生应用实践中沉淀的经验,通过产品、开源项目和技术输出贡献给广大的企业和开发者,切实推动云原生人才的教育和培养。2021 年 8 月,在全球开源技术峰会 GOTC 现场,阿里云、Linux 开源软件学园共同宣布,联合业界知名 IT 教育机构马哥教育升级“云原生人才培养计划 2.0”,聚开源生态力量,帮助云原生开发者获得从理论基础、开源实践到企业应用落的体系化成长。在未来,阿里云还将持续地与 CNCF 共同推动中国云原生技术发展,同时欢迎更多的企业、开源爱好者与云原生开发者成为 CNCF 和阿里云的伙伴,共建美好开源社区。本届 KubeCon + CloudNativeCon + Open Source Summit China 2021 的议程安排现已全面上线,更多详情请查看大会官网。