要构建服务大众的应用程序,企业必须开发能够高效处理所有数据的弹性系统,并利用这些数据来支持业务决策和改善用户体验。在这种情况下,数据团队通过创新的数据处理方法承担了主要工作。
在2025年数据工程峰会上,Zepto数据工程副总监阿比纳夫·拉古万希(Abhinav Raghuvanshi)阐述了公司面临的数据管理挑战:如何让数据像食品一样快速送达?对于建立10分钟送达模式的公司而言,实时可视化不仅是优势,更是成功执行、预测和提升客户体验的必要条件。
在"从数据仓库到湖仓一体:Zepto的实时数据未来"的演讲中,拉古万希介绍了数据平台从单一的Redshift(Redshift)仓库向支持运营分析和应用级实时系统的混合架构演进过程。
Zepto最初依赖Redshift(Redshift)作为中央数据仓库。随着业务发展,查询瓶颈、报告滞后和长时间等待等问题逐渐显现。拉古万希表示:"我们为Redshift(Redshift)采用了渐进式方案,但随着数据量增长,难以实现近实时数据处理。"
面对查询冲突、存储计算耦合等挑战,团队开始向现代架构转型。新架构采用S3(S3)作为中央存储层,Kafka(Kafka)负责流式数据摄取,Databricks(Databricks)进行数据转换和编排。系统在早期就剥离个人敏感信息,通过结构化数据管道分层处理业务逻辑,并使用Apache Airflow(Apache Airflow)进行作业加密和调度。
为支持近400名分析师的日常工作,工程团队开发了低代码内部框架。通过dbt目录标签、基于角色的访问控制和预算仪表板,实现了精细化的资源管理。
在业务层面,Zepto利用暗店作为商品集散中心。系统需要毫秒级监控温度等环境指标,确保产品质量。物联网系统采集这些指标并输入ClickHouse(ClickHouse)进行实时分析,支持订单流失率、交通流量等多维度监控。
Zepto正在评估StarRocks(StarRocks)等OLAP引擎,以提供更强大的实时查询能力。拉古万希指出:"StarRocks(StarRocks)需要约18个月时间完成自我优化。"团队的目标是让实时数据分析变得更加简单易用,使业务人员无需深入技术细节就能获取所需洞察。