大数据(DT)社区 | 信息(IT)社区 | 人工智能(AI)社区 | 物联网(IOT)社区 | 巨人肩膀

社区

最新最热推荐

Greenplum

Greenplum是一款由Greenplum公司开发的，基于数据仓库和商业智能领域的软件产品。它包括Greenplum DW/BI软件，可以在虚拟化x86服务器上运行无分享（shared-nothing）的大规模并行处理（MPP）架构。Greenplum在2003年成立，并在2006年推出了首款产品。

巨人肩膀小编

2024年06月12日

284

4

Flink

Apache Flink是由Apache软件基金会开发的开源流处理框架，其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序，Flink的流水线运行时系统可以执行批处理和流处理程序。此外，Flink的运行时本身也支持迭代算法的执行。

开源

巨人肩膀小编

2024年06月12日

4326

12

Doris

Apache Doris是一个现代化的MPP （Massively Parallel Processing，即大规模并行处理）分析型数据库产品。仅需亚秒级响应时间即可获得查询结果，有效地支持实时数据分析。Apache Doris的分布式架构非常简洁，易于运维，并且可以支持10PB以上的超大数据集。 Apache Doris可以满足多种数据分析需求，例如固定历史报表，实时数据分析，交互式数据分析和探索式数据分析等。

开源行业推荐

巨人肩膀小编

2024年06月12日

2196

3

Agile Query

Agile Query 是一款商业智能和数据分析平台，旨在让用户能够以更直观、更高效的方式利用数据做出决策。它通过强大的SQL 编译器、搜索驱动的数据分析以及即时查询性能，让用户无需专业技能即可探索、理解和分享数据。

巨人肩膀小编

2024年06月12日

1746

1

Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

巨人肩膀小编

2024年06月12日

537

5

车联网大数据

车联网大数据是指在车联网环境中，通过车辆传感器、智能终端、云计算等技术手段，收集、传输、处理和利用的大量数据。这些数据涵盖了车辆运行状态、驾驶员行为、车辆位置、交通情况等多个方面，对于提升车辆安全性、优化交通效率、改进车辆性能等方面具有重要意义。

巨人肩膀小编

2024年06月12日

647

1

用户画像

用户画像（User Persona）是通过对用户数据、行为、偏好等信息的综合分析和归纳，形成的一个虚拟的、具有代表性的用户模型。它可以帮助企业更深入地了解目标用户，从而制定更为精准的市场策略和产品方案。

巨人肩膀小编

2024年06月12日

620

1

Streampark

Streampark（原名为StreamX）是一个简单易用的流处理应用开发框架和操作管理平台。它的目标是让流处理更简单，轻松构建和管理流处理应用程序。它不仅提供使用 ApacheFlink 和 Apache Spark 编写流处理应用程序的开发框架，未来还计划支持更多其他引擎。

巨人肩膀小编

2024年06月12日

322

1

Dinky

Dinky是一个开源项目，它基于Apache Flink进行扩展，增强Flink的应用与体验，探索流式数仓。Dinky致力于实时计算平台建设，让Flink SQL纵享丝滑。Dinky（原Dlink）原意为“小巧而精致的”，直观地表明了它的特征：轻量级但又具备复杂的大数据开发能力。“Data Integrate No Knotty”的首字母组合，寓意“数据整合不难”，易于建设批流一体平台及应用。Dinky由Apache Flink社区的贡献者创建，它的目标是站在巨人肩膀上创新与实践，在未来批流一体的发展趋势下潜力无限。

巨人肩膀小编

2024年06月12日

65

2

Hive

Apache Hive是一个基于Hadoop的数据仓库工具，它可以将结构化数据文件映射为一张数据库表，并提供类SQL查询功能。Hive的本质是将SQL转换为MapReduce程序。它主要用于离线数据分析，比直接使用MapReduce开发效率更高。

巨人肩膀小编

2024年06月12日

223

1

Spark

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

巨人肩膀小编

2024年06月12日

141

1

Clickhouse

ClickHouse是一种面向列式数据库的管理系统。它支持高速读取和写入大数据量，并且可以通过水平扩展轻松地扩展到多个节点上。ClickHouse适用于各种类型的数据分析，包括实时和流数据分析，数据仓库，商业智能和在线事务处理。

巨人肩膀小编

2024年06月12日

127

1

Docker

Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux或Windows操作系统的机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。

巨人肩膀小编

2024年06月12日

123

1

StarRocks

StarRocks 是一款极速统一的Lakehouse产品，具备水平在线扩缩容，金融级高可用，兼容 MySQL 5.7 协议和 MySQL 生态，提供全面向量化引擎与多种数据源联邦查询等重要特性。StarRocks 致力于在全场景 OLAP 业务上为用户提供统一的解决方案，适用于对性能，实时性，并发能力和灵活性有较高要求的各类应用场景。

巨人肩膀小编

2024年06月12日

110

1

Flume

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

巨人肩膀小编

2024年06月12日

104

1

Hbase

HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

巨人肩膀小编

2024年06月12日

100

1

FineReport

FineReport是由帆软自主研发的一款纯Java编写的报表软件产品，集数据展示（报表）和数据录入(表单)功能于一身，能够制作复杂的报表，操作简单易用。针对软件开发商和系统集成商，用于快速构建企业信息系统的中国式Web报表软件。

巨人肩膀小编

2024年06月12日

96

1

Calcite

Apache Calcite是一个动态数据管理框架，它提供了SQL解析、查询优化和执行的功能，旨在构建自定义的SQL处理管道，并能在各种数据源之间进行查询和转换。

巨人肩膀小编

2024年06月12日

85

1

测试修改接口

众内导连取收真总从亲说九类白。专历适证使此存土上确区了解联织。里得更济常次法资党就大增理就表七。确应体构自对千议运需或现真着运消和。以使维接主史究正专得设头好导高些。验来象内一技许农需白际它二感接想。确应体构自对千议运需或现真着运消和。83

2024年06月17日

66

1

Drools

Drools是一款由JBoss组织提供的基于Java语言开发的开源规则引擎，可以将复杂且多变的业务规则从硬编码中解放出来，以规则脚本的形式存放在文件或特定的存储介质中（如存放在数据库中），使得业务规则的变更不需要修改项目代码、重启服务器就可以在线上环境立即生效。

巨人肩膀小编

2024年06月12日

58

1

智能制造大数据

智能制造大数据是指利用大数据技术来支撑智能制造的实现。智能制造是基于新一代信息通信技术与先进制造技术深度融合，具有自感知、自学习、自决策、自执行、自适应等功能的新型生产方式。而大数据技术则能够处理海量的数据，挖掘出有价值的信息，为智能制造提供数据支持和决策依据。

巨人肩膀小编

2024年06月12日

247

0

物理围栏/电子围栏

地理围栏（Geo-fencing）/电子围栏是一种基于地理位置的技术，它使用虚拟的边界来围出一个特定的地理区域。当移动设备，如智能手机或汽车，进入或离开这个设定的区域时，可以自动接收通知或警告。这种技术在多个领域有广泛的应用。

巨人肩膀小编

2024年06月12日

240

0

新零售大数据

新零售大数据是指在新零售背景下，通过对海量数据的收集、处理和分析，挖掘出消费者的需求和行为特征，以实现精准营销、精细化运营和提高用户体验的一种数据驱动的零售模式。。

巨人肩膀小编

2024年06月12日

211

0

Linux

Linux 系统已经渗透到 IT 领域的各个角落，不管你是专注于编程，还是专注于运维，都应该对 Linux 有所了解，甚至还要深入学习，掌握核心原理。Shell 是 Linux 的一部分，学习 Linux 一般也要学习 Shell。

巨人肩膀小编

2024年06月12日

206

0

Dolphinscheduler

DolphinScheduler (海豚) 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景，提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。

巨人肩膀小编

2024年06月12日

196

0

Kafka

Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。

巨人肩膀小编

2024年06月12日

193

0

游戏大数据

基于玩家所产生的海量数据，我们怎样去获取玩家的具体画像、他们的特点以及预测他们未来的一些行为以服务我们的运营、发行以及研发过程中的一些系统改造？

巨人肩膀小编

2024年06月12日

188

0

web前端

行业

2024年07月19日

178

0

Git

Git是一个开源的分布式版本控制系统，可以有效、高速地处理从很小到非常大的项目版本管理。也是Linus Torvalds为了帮助管理Linux内核开发而开发的一个开放源码的版本控制软件。

2024年06月12日

162

0

Linkis

Linkis 在上层应用程序和底层引擎之间构建了一层计算中间件。通过使用Linkis 提供的REST/WebSocket/JDBC 等标准接口，上层应用可以方便地连接访问MySQL/Spark/Hive/Presto/Flink 等底层引擎，同时实现统一变量、脚本、用户定义函数和资源文件等用户资源的跨上层应用互通，以及通过REST标准接口提供了数据源管理和数据源对应的元数据查询服务。作为计算中间件，Linkis 提供了强大的连通、复用、编排、扩展和治理管控能力。通过将应用层和引擎层解耦，简化了复杂的网络调用关系，降低了整体复杂度，同时节约了整体开发和维护成本。

巨人肩膀小编

2024年06月12日

158

0

数据仓库/中台

数据仓库（Data Warehouse，简称DW或DWH）是为企业所有级别的决策制定过程提供所有类型数据支持的战略集合。数据仓库通过集成、处理、存储和管理各种数据源的数据，为企业提供统一、稳定、高质量的数据环境，支持企业的业务分析和决策。

巨人肩膀小编

2024年06月12日

146

0

Zookeeper

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。

巨人肩膀小编

2024年06月12日

138

0

MySQL

MySQL是一个开源的关系型数据库管理系统（RDBMS）。它使用了一种名为Structured Query Language（SQL）的语言进行数据操作和管理。MySQL由瑞典公司MySQL AB开发，后来被Sun Microsystems收购，最终被甲骨文公司（Oracle Corporation）收购。MySQL是一个广泛应用于Web开发的数据库系统，它可以与许多编程语言（如PHP、Python、Java等）配合使用，并且支持大量的并发用户连接。

巨人肩膀小编

2024年06月12日

137

0

Java

功能强大且跨平台，适合复杂企业级应用开发。其面向对象特性便于代码组织与维护，丰富的类库助力高效开发。Java还具备出色的安全性和多线程处理能力，非常适合构建大型、安全、并发的系统。无论是金融应用、数据处理还是网络服务，Java都能提供稳定可靠的解决方案，特别是在大数据、云计算领域表现突出。因其强大的生态系统和广泛的应用场景，Java已成为软件开发的首选语言之一。

巨人肩膀小编

2024年06月12日

123

0

Kettle

Kettle 是一款国外开源的 ETL 工具，纯 Java 编写，绿色无需安装，数据抽取高效稳定 (数据迁移工具)。Kettle 中有两种脚本文件，transformation 和 job，transformation 完成针对数据的基础转换，job 则完成整个工作流的控制。

巨人肩膀小编

2024年06月12日

117

0

Datart

datart 是新一代数据可视化开放平台，支持各类企业数据可视化场景需求，如创建和使用报表、仪表板和大屏，进行可视化数据分析，构建可视化数据应用等。由原 davinci 主创团队出品，datart 更加开放、可塑和智能，并在数据与艺术之间寻求最佳平衡。。

巨人肩膀小编

2024年06月12日

114

0

Elasticsearch

Elasticsearch是一个开源的高扩展的分布式全文检索引擎，它可以近乎实时的存储、检索数据；本身扩展性很好，可以扩展到上百台服务器，处理PB级别的数据。 Elasticsearch也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能，但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性，从而让全文搜索变得简单。

巨人肩膀小编

2024年06月12日

110

0

Paimon

Apache Paimon是一个流数据湖平台，具有高速数据摄取、变更日志跟踪和高效的实时分析的能力。

巨人肩膀小编

2024年06月12日

108

0

基于Flink+Drools可自定义规则的实时告警系统

目前常见的大数据告警系统更多是基于SparkStreaming+Drools,其实时性是基于微批实现时延相对较高，不支持广播流告警规则的更新只能依赖于广播变量定时更新，且不支持状态计算将不得不引入外部存储如Redis因此降低了系统的吞吐量同时也增大了系统的复杂度。新一代的分布式处理引擎Flink是基于事件驱动且可进行状态计算，大大提高了数据处理能力和简化了平台的复杂度。

巨人肩膀小编

2024年06月12日

107

0

测试邀请成员

测试标签官方入驻

测试邀请成员-2

2024年12月06日

106

0

我的测试技术

我的测试技术

底部标签开源推荐

2024年08月07日

103

0

Azkaban

Azkaban是由Linkedin公司推出的一个批量工作流任务调度器，主要用于在一个工作流内以一个特定的顺序运行一组工作和流程，它的配置是通过简单的key:value对的方式，通过配置中的dependencies来设置依赖关系。Azkaban使用job配置文件建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪你的工作流.

巨人肩膀小编

2024年06月12日

86

0

金融大数据

通过收集、分析和利用大量的数据来提升金融服务和风险管理的效率与精准度。这些数据包括客户的交易信息、网络社区交流行为、资金流走向等，能够反映客户的消费习惯，从而帮助金融机构制定个性化的营销策略和信用评价。

巨人肩膀小编

2024年06月12日

77

0

数据治理

数据治理（Data Governance）是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行，关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。数据治理的最终目标是提升数据的价值，数据治理非常必要，是企业实现数字战略的基础，它是一个管理体系，包括组织、制度、流程、工具。

巨人肩膀小编

2024年06月12日

74

0

数智化

智化是一种将现实世界与数字世界紧密结合，并利用智能化技术推动社会进步和发展的重要趋势。随着技术的不断发展，数智化将在更多领域发挥更大的作用，为人们的生活和工作带来更多的便利和可能性。

巨人肩膀小编

2024年06月12日

74

0

微信(交流/反馈)

巨人肩膀初心：站在巨人肩膀上，避免无谓的重复劳动。生产和汇聚行业技术、知识经验、工具组件、案例产品，提供相关环境，为开发者提高生产效率提供切实有效的支持和帮助。并在这一进程中实现多方共赢。

由深圳数智领航科技有限公司提供动力 - 数智化领航者。

©2023-2025 - 巨人肩膀 - 粤ICP备2025395551号-1