社区
最新
最热
推荐
社区
Sqoop
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
巨人肩膀小编
2024年06月12日
20
0
Tez
Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
巨人肩膀小编
2024年06月12日
19
0
MongoDB
MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。
巨人肩膀小编
2024年06月12日
19
0
Maxwell
Maxwell是由美国 Zendesk 开源,用 Java 编写的 MySQL 实时抓取软件。 实时读取MySQL 二进制日志 Binlog,并生成 JSON 格式的消息,作为生产者发送给 Kafka,Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用程序。
巨人肩膀小编
2024年06月12日
18
0
Kudu
Apache Kudu是由 Cloudera开源的 存储引擎,可以同时提供 低延迟的随机读写和高效的数据分析能力。它是一个融合 HDFS和 HBase的功能的新组件,具备介于两者之间的新存储组件.Kudu支持水平扩展,并且与 Cloudera lmpala和 Apache Spark等当前流行的大数据查询和分析工具结合紧密。
巨人肩膀小编
2024年06月12日
17
0
Debezium
Debezium是一种CDC(Change Data Capture)工具,工作原理类似大家所熟知的Canal, DataBus, Maxwell等,是通过抽取数据库日志来获取变更。
巨人肩膀小编
2024年06月12日
16
0
Filebeat
Filebeat是一种轻量型日志采集器,内置有多种模块(auditd、Apache、NGINX、System、MySQL 等等),可针对常见格式的日志大大简化收集、解析和可视化过程,只需一条命令即可。
巨人肩膀小编
2024年06月12日
16
0
test
test
洪波涌起
07月05日
1
0
1
2
3