无匹配社区
博客园
最新
热门
请选择社区
发布
效率神器:程序员必备的在线工具合集(下)
本文介绍了文件类、编码类和开发类的高效工具,包括Parquet、Json、Orc、Avro文件解析工具,支持元数据提取和Excel转换;Hex16进制、MD5、Base64等编解码工具;以及正则开发、JSON处理、时间戳转换等开发类工具,助力程序员提升工作效率。
AI应用开发
文件解析
编解码
开发工具
程序员工具
效率提升
我不是超人
发布于 04月21日
41浏览
效率神器:程序员必备的在线工具合集(上)
本文介绍了一款程序员必备的在线工具合集,涵盖SQL、优化、命令等多个领域,提供可视化界面和一键操作,简化编程和数据处理任务。重点介绍了SQL类工具(如Doris/StarRocks建表语句、Flink SQL Connector)、优化类工具(如Flink内存优化)及命令类工具(如Flink启动命令、curl请求),帮助开发者提升工作效率。
AI应用开发
程序员必备
效率神器
在线工具
我不是超人
发布于 04月21日
51浏览
vivo 湖仓架构的性能提升之旅
vivo大数据平台面临Presto和ClickHouse在多维分析场景的性能与兼容性挑战,最终选择StarRocks作为新一代引擎。通过优化ORC格式支持、数据缓存、HDFS慢节点处理及元数据刷新机制,显著提升查询性能。StarRocks的强兼容性、资源隔离和运维便捷性有效替代原有组件,实现湖仓加速统一标准。
数据仓库/中台
数据分析狮
发布于 04月21日
88浏览
从 Spark 到 StarRocks:实现58同城湖仓一体架构的高效转型
58集团数据探查平台通过引入StarRocks引擎实现Ad-Hoc查询10倍性能提升,日均处理6.5万条SQL,平均响应时间降至3.3秒。通过语法兼容改造、元数据缓存优化、函数兼容性处理及容器化部署方案,解决了Spark与StarRocks的兼容性问题,并实现98%以上的查询成功率。后续将探索智能物化视图进一步提升查询效率。
数据仓库/中台
数据分析狮
发布于 04月21日
87浏览
超全面数仓建设规范指南(干货建议收藏)
本文详细介绍了企业数据仓库(数仓)和中台建设的规范与最佳实践,基于OneData体系,涵盖数据模型设计、分层架构(ODS、CDM、ADS)、公共规范、指标定义等核心内容。强调高内聚低耦合、核心与扩展模型分离、成本与性能平衡等原则,并提供分层调用、数据类型、冗余与拆分等实操指南。通过标准化指标体系和命名约定,确保数据一致性、可复用性及高效管理,助力企业构建高质量数仓体系。
数据仓库/中台
数据中台
OneData
数据仓库
维度建模
我不是超人
发布于 04月19日
58浏览
基于 Flink CDC YAML 的 MySQL 到 Kafka 流式数据集成
本教程详细介绍了如何使用Flink CDC YAML快速构建MySQL到Kafka的Streaming ELT作业,包括整库同步、表结构变更同步演示和关键参数配置。从Flink集群部署、Docker环境准备、MySQL数据初始化,到通过Flink CDC CLI提交任务并验证数据同步效果,完整演示了实时数据同步流程。教程还展示了表结构变更的实时同步能力,以及通过路由配置实现表名映射等特色功能。
Flink
Flink CDC
实时同步
Kafka
我不是超人
发布于 04月19日
27浏览
大数据职业发展方向&知识图谱
本文系统梳理了大数据领域的三大工作方向(数据开发、平台开发、基础架构)及核心技术栈,涵盖数据仓库、实时计算、数据治理等关键知识点,重点推荐掌握HBase、Flink、Kafka等加★技术。同时提出分布式系统的学习方法论,强调从组件、存储、计算、通信四个维度理解框架设计。
大数据启示录
分布式系统
数据仓库
实时计算
我不是超人
发布于 04月19日
35浏览
推荐一款好用的在线智能笔记工具-NotepadAI
NotepadAI是一款多功能智能笔记助手,集成了Notepad++代码编辑器功能,支持语言自动识别。用户可自定义常用AI功能如翻译、扩写等,并临时调用AI无需切换窗口。提供AI工具箱,涵盖代码编程和文本创作工具,支持一键分享和导出。适用于生成周报、代码解释及内容创作等场景,免费使用。
AI应用开发
代码编辑器
智能笔记
AI工具
我不是超人
发布于 04月18日
41浏览
京东物流基于Flink & StarRocks的湖仓建设实践
京东物流实时湖仓团队分享了基于Flink和StarRocks的湖仓架构探索,解决复杂业务场景下的实时数据处理挑战。通过分层设计和联邦查询,支持分钟级数据分析,优化存储成本,并满足内外部用户的高时效需求。
数据仓库/中台
数据分析狮
发布于 04月18日
98浏览
网易游戏 x Apache Doris:湖仓一体架构演进之路
网易游戏技术中心为解决数据处理时效性差、查询性能低、运维及研发成本高等问题,引入Apache Doris进行架构升级,构建实时数仓和湖仓一体架构。通过整合多个引擎,显著提升查询性能和时效性,日均查询量突破1500万,存储数据达PB级。未来计划推广数据湖方案、实现智能物化,并升级至3.0版本。
数据仓库/中台
数据分析狮
发布于 04月17日
65浏览
提效10倍:基于Paimon+Dolphin湖仓一体新架构在阿里妈妈品牌业务探索实践
阿里妈妈基于Paimon+Dolphin湖仓一体架构升级品牌数据链路,解决Lambda架构效率低、存储计算成本高的问题。Paimon支持流批一体与主键更新,结合Dolphin的OLAP优化能力,实现非精确UV计算、SST格式点查提升及高性能查询。业务场景包括实时报表、多目标调控和实时特征生产,整体成本降低60%,时效性达分钟级,查询性能显著提升。
数据仓库/中台
数据分析狮
发布于 04月17日
54浏览
腾讯视频指标中台驱动湖仓一体建设实践
腾讯视频构建了指标中台与湖仓一体架构,通过统一管理指标服务(如MQL查询语言、数据地图)解决一致性、时效性与成本问题。湖仓1.0基于Iceberg实现流批一体,2.0引入StarRocks加速查询并优化冷热数据管理,提升开发效率与分析性能。未来规划聚焦指标驱动消费模式与存算分离方案。
数据仓库/中台
数据分析狮
发布于 04月17日
80浏览
数据无界、湖仓无界,Apache Doris 湖仓一体典型场景实战指南
本文深入探讨了Apache Doris在湖仓一体架构中的三大场景实践:湖仓分析加速、多源联邦分析和湖仓数据处理。通过本地缓存、物化视图优化提升查询性能,支持多数据源联邦查询解决数据孤岛问题,并提供定时任务调度实现外部数据同步与加工。结合具体配置示例和性能对比,展示了Doris如何高效支持企业级数据分析需求。
数据仓库/中台
数据分析狮
发布于 04月17日
66浏览
从 0 到 1 构建湖仓体系, Apache Doris 湖仓一体解决方案全面解读
近年来,数据分析技术栈经历了从数据仓库、数据湖到湖仓一体的演进。湖仓一体架构融合了数据仓库的高性能与数据湖的高扩展性,通过开放数据格式、统一元数据管理及多元计算引擎,解决了数据孤岛、实时性不足等问题。Apache Doris作为湖仓一体解决方案,提供灵活的数据接入、高性能处理及业务迁移能力,支持企业低成本高效转型。
数据仓库/中台
数据分析狮
发布于 04月17日
54浏览
从阿里、腾讯、字节、快手四大厂实践,看湖仓一体如何解决大数据核心痛点
四大互联网公司通过湖仓一体技术解决大数据处理三大困境:架构割裂、时效性瓶颈和成本治理难题。阿里妈妈采用Flink+Paimon实现毫秒级实时决策,腾讯视频通过Iceberg+StarRocks统一指标口径,字节跳动基于Hudi构建多引擎协同平台,快手利用Doris+Alluxio提升查询性能。
数据仓库/中台
数据分析狮
发布于 04月17日
179浏览
阿里妈妈基于 Flink+Paimon 的 Lakehouse 应用实践
阿里妈妈广告业务依托实时数仓架构演进,从基于TT的烟囱式架构转型为Paimon湖仓方案,解决了数据重复、Schema缺失、资源浪费等问题。新架构通过主键表支持去重、统一实时离线Schema,并引入DWS层提升聚合效率。设计包含实时双链路容灾和离线备份,支持分钟级数据更新与万级TPS查询,降低40%资源消耗及50%开发工作量,同时提升业务决策时效性。
数据仓库/中台
数据分析狮
发布于 04月17日
64浏览
干货丨字节跳动基于 Apache Hudi 的湖仓一体方案及应用实践
本文介绍了字节跳动自研的湖仓一体存储方案,针对Lambda架构存在的实时/离线存储计算不统一等问题,基于Hudi数据湖框架扩展实时加速服务层(BTS),实现批流读写统一、秒级延迟可见。方案通过内存服务优化实时处理性能,支持多维分析、流批复用等场景,显著降低组件依赖与资源成本。未来计划提升并发写入、容灾能力及Kafka兼容性。该方案已通过火山引擎LAS产品对外开放。
数据仓库/中台
数据分析狮
发布于 04月17日
80浏览
基于 Doris 湖仓一体分析系统在快手的实践
快手等企业采用OLAP分析工具ClickHouse进行大规模数据处理,但面临数据冗余、同步延迟和治理成本高等问题。为此,团队基于Doris构建湖仓一体分析系统,优化元数据缓存、数据预热和自动物化功能,提升查询性能并实现消费驱动生产模式。新系统通过Alluxio缓存管理和Spark退避机制,平衡效率与稳定性,简化数据分析流程。
数据仓库/中台
数据分析狮
发布于 04月17日
54浏览
干货|字节跳动在湖仓一体领域的最佳实践
本文回顾了Qcon上海站关于湖仓一体架构的主题分享,探讨了从Hadoop到湖仓一体的演进趋势,剖析了LAS产品的核心优势及关键技术组件。通过抖音电商、用户画像、金融行业和消费行业四个实践案例,展示了湖仓一体架构在解决数据孤岛、提升时效性和降低开发成本中的应用价值。最后提出实时湖仓、智能湖仓和引擎增强三大未来规划方向。
数据仓库/中台
数据分析狮
发布于 04月17日
61浏览
DeepSeek在数据仓库的10大应用场景
DeepSeek提供智能数据集成、清洗、建模、分析等12大应用场景,涵盖数据仓库全生命周期管理,支持实时处理、预测分析与自动化运维,帮助企业实现高效数据治理及基于数据的决策支持,推动业务增长与创新。
AI大世界
AI应用开发
数据仓库
数据治理
大数据
人工智能
qiushaohua
发布于 04月17日
63浏览
1
12
13
14
15
16
73