大数据(DT)社区 | 信息(IT)社区 | 人工智能(AI)社区 | 物联网(IOT)社区 | 巨人肩膀

社区

最新最热推荐

StreamSets

Streamsets是一款大数据实时采集和ETL工具，可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面，Streamsets可以轻松实现数据管道(Pipelines)的设计和定时任务调度。

巨人肩膀小编

2024年06月12日

72

0

数据湖

数据湖（Data Lake）是一个以自然格式存储数据的系统或存储库，它通常是一个集中式的数据存储，能够容纳所有形式的数据，包括结构化数据（如关系型数据库中的表）、半结构化数据（如日志文件、JSON、XML等）、非结构化数据（如图像、音频、视频等）以及二进制数据。数据湖的主要特点是容量大、数据多样性、灵活性以及相对较高的成本。

巨人肩膀小编

2024年06月12日

65

0

物流大数据

在物流运作过程中产生的大量数据集合，它涵盖了运输、仓储、搬运装卸、包装及流通加工等物流环节的各类数据和信息。这些数据和信息经过分析和挖掘，可以揭示物流运作的规律，提高运输与配送效率，减少物流成本，更有效地满足客户服务要求。

巨人肩膀小编

2024年06月12日

63

0

Airflow

Airflow是一个工作流调度系统，用于定义和自动执行持久化工作流。它由Airbnb开发，现在是一个开源项目。 Airflow提供了一个Web界面，用于创建和管理工作流，并查看工作流执行情况。它使用DAG（有向无环图）来表示工作流，每个DAG由一组任务组成。您可以使用Airflow指定任务之间的依赖关系，并在特定的时间或条件下自动调度任务。

巨人肩膀小编

2024年06月12日

62

0

22233

众内导连取收真总从亲说九类白。专历适证使此存土上确区了解联织。里得更济常次法资党就大增理就表七。确应体构自对千议运需或现真着运消和。以使维接主史究正专得设头好导高些。验来象内一技许农需白际它二感接想。

2024年06月14日

59

0

测试快速链接

自定义标签

2024年07月08日

59

0

Canal

Canal是一个开源的数据同步工具，用于将数据从数据库同步到其他系统。它主要用于在数据库和其他系统之间同步数据，以便在这些系统之间共享数据。 Canal使用数据库的二进制日志（binlog）来同步数据，并且支持多种数据库，包括MySQL、MariaDB和AlibabaDB。它提供了一个命令行界面，可用于运行数据同步任务，也可以嵌入到其他程序中使用。

巨人肩膀小编

2024年06月12日

58

0

Dbeaver

DBeaver是一种免费和开源的通用数据库管理工具，为开发人员和数据库管理员提供了一个易于使用的数据库管理解决方案。它支持所有的主流数据库，包括MySQL、PostgreSQL、MariaDB、SQLite、Oracle、Db2、SQL Server、Sybase、MS Access、Teradata、Firebird、Derby等等。

巨人肩膀小编

2024年06月12日

57

0

Hudi

Hudi 是一个通用的大数据存储系统，主要特性：摄取和查询引擎之间的快照隔离，包括 Apache Hive、Presto 和 Apache Spark；支持回滚和存储点，可以恢复数据集；自动管理文件大小和布局，以优化查询性能和目录清单；准实时摄取，为查询提供最新数据；实时数据和列数据的异步压缩。

巨人肩膀小编

2024年06月12日

55

0

Hue

Hue 是运营和开发 Hadoop 应用的图形化用户界面。Hue 程序被整合到一个类似桌面的环境，以 web 程序的形式发布，对于单独的用户来说不需要额外的安装。

巨人肩膀小编

2024年06月12日

53

0

Oozie

Oozie是一个基于工作流引擎的开源框架，提供对Hadoop MapReduce、Pig Jobs的任务调度与协调。Oozie需要部署到Java Servlet容器中运行。主要用于定时调度任务，多任务可以按照执行的逻辑顺序调度。

巨人肩膀小编

2024年06月12日

50

0

Ambari

Apache Ambari是一种基于Web的工具，支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。

巨人肩膀小编

2024年06月12日

47

0

Tidb

TiDB是 PingCAP 公司自主设计、研发的开源分布式关系型数据库。是一款同时支持在线事务处理与在线分析处理 (Hybrid Transactional and Analytical Processing, HTAP)的融合型分布式数据库产品，具备水平扩容或者缩容、金融级高可用、实时 HTAP、云原生的分布式数据库、兼容 MySQL 5.7 协议和 MySQL 生态等重要特性。

巨人肩膀小编

2024年06月12日

46

0

Datax

DataX是由阿里巴巴研发并开源的一个异构数据源离线同步工具，技术人员能够通过DataX实现不同数据源之间的同步。这里所指的数据源既包括关系型数据库、NoSQL数据存储、无结构化数据存储、时间序列数据库，同时也包含了阿里的云数仓数据存储。 DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS等各种异构数据源之间高效的数据同步功能.

巨人肩膀小编

2024年06月12日

45

0

测试编码2

11编码不能修改组件编码不能修改组件编码不能修改组件编码不能修改组件编码不能修改组件编码不能修改组件编码不能修改组件编码不能修改组件编码不能修改组件编码不能修改组件编码不能修改组件编码不能修改组件编码不能修改组件编码不能修改组件编码不能修改

推荐开源

2024年07月05日

45

0

Svn

SVN是subversion的缩写，是一个开放源代码的版本控制系统，通过采用分支管理系统的高效管理，简而言之就是用于多个人共同开发同一个项目，实现共享资源，实现最终集中式的管理。

巨人肩膀小编

2024年06月12日

44

0

Kylin

Apache Kylin是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，。它能在亚秒内查询巨大的Hive表。

巨人肩膀小编

2024年06月12日

43

0

Iceberg

Iceberg是一个基于大型分析型数据上的一个表格式，它允许将一些文件、数据集以表的形式提供给spark、trino、prestodb、flink、hive这些计算引擎。

巨人肩膀小编

2024年06月12日

43

0

SeaTunnel

SeaTunnel是一个简单易用的数据集成框架，在企业中，由于开发时间或开发部门不通用，往往有多个异构的、运行在不同的软硬件平台上的信息系统同时运行。数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，从而为企业提供全面的数据共享。

巨人肩膀小编

2024年06月12日

42

0

指标中台

指标中台是一个供组织集中管理、存储和访问关键指标的平台。它提供统一的业务模型、指标管理、指标加工和数据服务，为企业带来以指标为核心、数据驱动的管理体系。通过指标中台，企业可以降低数据使用的门槛，使业务团队能够更自主地利用数据进行决策，同时提升数据应用的开发效率，推动业务的敏捷性。

巨人肩膀小编

2024年06月12日

41

0

测试快速链接12

dadad阿水大大

ddd1

2024年07月08日

41

0

1111111111111111

2024年06月20日

41

0

Beam

Beam的主要目标是统一批处理和流处理的编程范式，为无限，乱序，web-scale的数据集处理提供简单灵活，功能丰富以及表达能力十分强大的SDK。Apache Beam项目重点在于数据处理的编程范式和接口定义，并不涉及具体执行引擎的实现，Apache Beam希望基于Beam开发的数据处理程序可以执行在任意的分布式计算引擎上。

巨人肩膀小编

2024年06月12日

39

0

InfluxDB

InfluxDB是一种流行的开源时序数据库，专门设计用于处理时间序列数据。时序数据是按时间顺序排列的数据，通常用于表示传感器数据、应用程序指标、日志和事件等。InfluxDB具有高效存储和查询的能力，采用自适应压缩算法和特定的存储引擎，可以高效地存储大量的时序数据，并通过类似SQL的查询语言（InfluxQL）提供丰富的查询功能。它支持高并发写入，适用于处理实时数据流，并可定义数据保留策略自动删除旧数据以控制数据库大小。此外，InfluxDB拥有插件生态系统，可扩展其功能，并具备高可用性和容错性，支持数据复制和故障转移。

巨人肩膀小编

2024年06月12日

39

0

testttest

官方入驻JAVA

testttesttestttesttestttest

自定义标签开源行业

2024年07月02日

39

0

Prometheus

Prometheus 是一款基于时序数据库的开源监控告警系统，非常适合Kubernetes集群的监控。Prometheus的基本原理是通过HTTP协议周期性抓取被监控组件的状态，任意组件只要提供对应的HTTP接口就可以接入监控。

巨人肩膀小编

2024年06月12日

39

0

Kubernetes

kubernetes，简称K8s，是用8代替名字中间的8个字符“ubernete”而成的缩写。是一个开源的，用于管理云平台中多个主机上的容器化的应用，Kubernetes的目标是让部署容器化的应用简单并且高效（powerful）,Kubernetes提供了应用部署，规划，更新，维护的一种机制。

巨人肩膀小编

2024年06月12日

39

0

测试新建

2024年12月06日

38

0

Oracle

Oracle开发的关系数据库产品因性能卓越而闻名，Oracle数据库产品为财富排行榜上的前1000家公司所采用，许多大型网站也选用了Oracle系统，是世界最好的数据库产品。

巨人肩膀小编

2024年06月12日

37

0

Zabbix

Zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。Zabbix能监视各种网络参数，保证服务器系统的安全运营，并提供灵活的通知机制以让系统管理员快速定位和解决存在的各种问题。

巨人肩膀小编

2024年06月12日

37

0

测试1

xxxxxxxxxxxxxxxxxxxx1111

2024年08月15日

35

0

Nmon

Nmon是由IBM 提供、免费监控 AIX 系统与 Linux 系统资源的工具。该工具可将服务器系统资源耗用情况收集起来并输出一个特定的文件,并可利用 excel 分析工具（nmon analyser）进行数据的统计分析。

巨人肩膀小编

2024年06月12日

34

0

Zeppelin

Apache Zeppelin是一个基于网页的交互式数据分析工具，它提供了数据可视化的框架，支持多种语言，包括SQL、Scala等，可以用来做出数据驱动的、交互、协作的文档。

巨人肩膀小编

2024年06月12日

32

0

Amoro

Amoro 是湖仓管理系统，这里我们借鉴了数据库管理系统的叫法，可能很多同学乍一听会觉得管理系统会类似于实时计算、离线开发一类的工具平台，这里我稍稍做个澄清：工具的目标是帮助用户更高效、便利地执行某种流程，而Amoro 的目标是将一些流程向用户屏蔽，交给用户一个黑盒，他的定位更多是一个基础软件，所以 Amoro 的 MS 类似于 DBMS 中的 MS，我们经常讲一句话：build a box for lakehouse。

巨人肩膀小编

2024年06月12日

31

0

test

2024年08月01日

31

0

Grafana

Grafana是一个跨平台的开源可视化分析工具，主要应用于大规模指标数据的可视化展示。它支持Prometheus、Graphite、OpenTSDB、InfluxDB、MySQL、PostgreSQL、Microsoft SQL Server等多种数据源。Grafana的主要工作原理是提供一个仪表盘，对各种数据进行可视化。具体来说，它可以将你需要监控的数据输入到仪表盘中，然后生成各种可视化仪表。同时，Grafana还具有报警功能，可以在系统出现问题时通知你。

巨人肩膀小编

2024年06月12日

29

0

Impala

Apache Impala是一种开源的、原生的分析数据库，是Hadoop生态中的一个工具。它被设计成能够通过一个高效的、并行的查询引擎直接访问存储在Hadoop集群中的数据。Impala的特性包括低延迟、高并发，以及能够对大数据进行分析。Impala可以对存储在Hadoop上的数据进行实时的分析查询，这是它的一大优势。此外，Impala还支持SQL，易于使用，且与Hive等Hadoop生态系统中的工具集成。

巨人肩膀小编

2024年06月12日

29

0

Storm

Apache Storm是一个分布式的，可靠的，容错的数据流处理系统。Storm集群的输入流由一个被称作spout的组件管理，spout把数据传递给bolt， bolt要么把数据保存到某种存储器，要么把数据传递给其它的bolt。一个Storm集群就是在一连串的bolt之间转换spout传过来的数据。

巨人肩膀小编

2024年06月12日

28

0

Nifi

NiFi的基本设计理念是基于数据流的编程Flow-Based Programming（FBP），应用是由处理器、连接器组成的网络。数据进入一个节点，由该节点对数据进行处理，根据不同的处理结果将数据路由到后续的其他节点进行处理。

巨人肩膀小编

2024年06月12日

27

0

Telegraf

Telegraf是一个基于插件的开源指标采集工具。本身是为InfluxDB（一款时序数据库）量身打造的数据收集器，但是它过于优秀，能够将抓取的数据写到很多地方，尤其在时序数据库领域，很多时序数据库都能够与它配合使用。通常，它每隔一段时间抓取一批指标数据（比如机器的CPU使用情况，磁盘的IO，网络情况，MySQL服务端的的会话数等等）并将他们发送到时序数据库、消息队列中或者自定义导出到某个地方。供下游的应用处理（比如报警）。Telegraf也能够对外提供一个服务，等待客户端推送数据。

巨人肩膀小编

2024年06月12日

27

0

Sentry

Sentry 是一个开源的错误追踪系统，它可以帮助开发人员监控和修复生产环境中的问题。Sentry 提供了实时警报、历史记录和协作功能，使开发团队能够快速响应和解决应用程序中的错误和异常。Sentry 可以与许多流行的编程语言和框架集成，包括 Python、JavaScript、Ruby、Java 和 PHP 等。

巨人肩膀小编

2024年06月12日

26

0

Pulsar

Pulsar是下一代云原生分布式消息流平台，集消息、存储、轻量化函数计算为一体，采用计算与存储分离架构设计，支持多租户、持久化存储、跨区域复制、具有强一致性、高吞吐、低延迟及高可扩展性等流数据存储特性。

巨人肩膀小编

2024年06月12日

26

0

Phoenix

Apache Phoenix（Apache Phoenix Query Server）是一个强大的 SQL 查询引擎，适用于快速查询和更新大规模结构化数据，可用于高并发的事务处理和实时查询，同时也提供了高级特性，如按行版本控制、倒排索引等，方便开发人员构建应用程序和进行数据分析。

巨人肩膀小编

2024年06月12日

23

0

Cassandra

Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发，用于储存收件箱等简单格式数据，集GoogleBigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身。

巨人肩膀小编

2024年06月12日

23

0

Davinci

Davinci 是一个 DVaaS（Data Visualization as a Service）平台解决方案，面向业务人员/数据工程师/数据分析师/数据科学家，致力于提供一站式数据可视化解决方案。既可作为公有云/私有云独立部署使用，也可作为可视化插件集成到三方系统。用户只需在可视化 UI 上简单配置即可服务多种数据可视化应用，并支持高级交互/行业分析/模式探索/社交智能等可视化功能。

巨人肩膀小编

2024年06月12日

23

0

微信(交流/反馈)

巨人肩膀初心：站在巨人肩膀上，避免无谓的重复劳动。生产和汇聚行业技术、知识经验、工具组件、案例产品，提供相关环境，为开发者提高生产效率提供切实有效的支持和帮助。并在这一进程中实现多方共赢。

由深圳数智领航科技有限公司提供动力 - 数智化领航者。

©2023-2025 - 巨人肩膀 - 粤ICP备2025395551号-1