大数据(DT)社区 | 信息(IT)社区 | 人工智能(AI)社区 | 物联网(IOT)社区 | 巨人肩膀

社区

最新最热推荐

Sqoop

Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

巨人肩膀小编

2024年06月12日

20

0

Tez

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

巨人肩膀小编

2024年06月12日

19

0

MongoDB

MongoDB是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。它支持的数据结构非常松散，是类似json的bson格式，因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据库单表查询的绝大部分功能，而且还支持对数据建立索引。

巨人肩膀小编

2024年06月12日

19

0

Maxwell

Maxwell是由美国 Zendesk 开源，用 Java 编写的 MySQL 实时抓取软件。实时读取MySQL 二进制日志 Binlog，并生成 JSON 格式的消息，作为生产者发送给 Kafka，Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用程序。

巨人肩膀小编

2024年06月12日

18

0

Kudu

Apache Kudu是由 Cloudera开源的存储引擎，可以同时提供低延迟的随机读写和高效的数据分析能力。它是一个融合 HDFS和 HBase的功能的新组件，具备介于两者之间的新存储组件.Kudu支持水平扩展，并且与 Cloudera lmpala和 Apache Spark等当前流行的大数据查询和分析工具结合紧密。

巨人肩膀小编

2024年06月12日

17

0

Debezium

Debezium是一种CDC（Change Data Capture）工具，工作原理类似大家所熟知的Canal, DataBus, Maxwell等，是通过抽取数据库日志来获取变更。

巨人肩膀小编

2024年06月12日

16

0

Filebeat

Filebeat是一种轻量型日志采集器，内置有多种模块（auditd、Apache、NGINX、System、MySQL 等等），可针对常见格式的日志大大简化收集、解析和可视化过程，只需一条命令即可。

巨人肩膀小编

2024年06月12日

16

0

test

07月05日

1

0

微信(交流/反馈)

巨人肩膀初心：站在巨人肩膀上，避免无谓的重复劳动。生产和汇聚行业技术、知识经验、工具组件、案例产品，提供相关环境，为开发者提高生产效率提供切实有效的支持和帮助。并在这一进程中实现多方共赢。

由深圳数智领航科技有限公司提供动力 - 数智化领航者。

©2023-2025 - 巨人肩膀 - 粤ICP备2025395551号-1