阿里云datax的简单介绍
华为云服务器特价优惠火热进行中! 2核2G2兆仅需 38 元;4核4G3兆仅需 79 元。购买时间越长越优惠!更多配置及优惠价格请咨询客服。
合作流程: |
本篇文章给大家谈谈阿里云datax,以及对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。
微信号:cloud7591如需了解更多,欢迎添加客服微信咨询。
复制微信号
本文目录一览:
大数据常用同步工具
一、离线数据同步
DataX
阿里的Datax是比较优秀的产品,基于python,提供各种数据村塾的读写插件,多线程执行,使用起来也很简单,操作简单通常只需要两步;
创建作业的配置文件(json格式配置reader,writer);
启动执行配置作业。
非常适合离线数据,增量数据可以使用一些编码的方式实现,
缺点:仅仅针对insert数据比较有效,update数据就不适合。缺乏对增量更新的内置支持,因为DataX的灵活架构,可以通过shell脚本等方式方便实现增量同步。
参考资料:
github地址:
dataX3.0介绍:
datax初体验:
文档:
Sqoop
Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
地址:
Sqoop导入:导入工具从RDBMS到HDFS导入单个表。表中的每一行被视为HDFS的记录。所有记录被存储在文本文件的文本数据或者在Avro和序列文件的二进制数据。
Sqoop导出:导出工具从HDFS导出一组文件到一个RDBMS。作为输入到Sqoop文件包含记录,这被称为在表中的行。那些被读取并解析成一组记录和分隔使用用户指定的分隔符。
Sqoop支持全量数据导入和增量数据导入(增量数据导入分两种,一是基于递增列的增量数据导入(Append方式)。二是基于时间列的增量数据导入(LastModified方式)),同时可以指定数据是否以并发形式导入。
Kettle
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。
Kettle的Spoon有丰富的Steps可以组装开发出满足多种复杂应用场景的数据集成作业,方便实现全量、增量数据同步。缺点是通过定时运行,实时性相对较差。
NiFi
Apache NiFi 是一个易于使用、功能强大而且可靠的数据拉取、数据处理和分发系统,用于自动化管理系统间的数据流。它支持高度可配置的指示图的数据路由、转换和系统中介逻辑,支持从多种数据源动态拉取数据。
NiFi基于Web方式工作,后台在服务器上进行调度。 用户可以为数据处理定义为一个流程,然后进行处理,后台具有数据处理引擎、任务调度等组件。
几个核心概念:
Nifi 的设计理念接近于基于流的编程 Flow Based Programming。
FlowFile:表示通过系统移动的每个对象,包含数据流的基本属性
FlowFile Processor(处理器):负责实际对数据流执行工作
Connection(连接线):负责不同处理器之间的连接,是数据的有界缓冲区
Flow Controller(流量控制器):管理进程使用的线程及其分配
Process Group(过程组):进程组是一组特定的进程及其连接,允许组合其他组件创建新组件
参考资料
Nifi简介及核心概念整理
官方网站:
二、实时数据同步
实时同步最灵活的还是用kafka做中间转发,当数据发生变化时,记录变化到kafka,需要同步数据的程序订阅消息即可,需要研发编码支持。这里说个mysql数据库的同步组件,阿里的canal和otter
canal
数据抽取简单的来说,就是将一个表的数据提取到另一个表中。有很多的ETL工具可以帮助我们来进行数据的抽取和转换,ETL工具能进行一次性或者定时作业抽取数据,不过canal作为阿里巴巴提供的开源的数据抽取项目,能够做到实时抽取,原理就是伪装成mysql从节点,读取mysql的binlog,生成消息,客户端订阅这些数据变更消息,处理并存储。下面我们来一起搭建一下canal服务
早期,阿里巴巴B2B公司因为存在杭州和美国双机房部署,存在跨机房同步的业务需求。不过早期的数据库同步业务,主要是基于trigger的方式获取增量变更,不过从2010年开始,阿里系公司开始逐步的尝试基于数据库的日志解析,获取增量变更进行同步,由此衍生出了增量订阅消费的业务,从此开启了一段新纪元。
ps. 目前内部版本已经支持mysql和oracle部分版本的日志解析,当前的canal开源版本支持5.7及以下的版本(阿里内部mysql 5.7.13, 5.6.10, mysql 5.5.18和5.1.40/48)
基于日志增量订阅消费支持的业务:
数据库镜像
数据库实时备份
多级索引 (卖家和买家各自分库索引)
search build
业务cache刷新
价格变化等重要业务消息
otter
otter是在canal基础上又重新实现了可配置的消费者,使用otter的话,刚才说过的消费者就不需要写了,而otter提供了一个web界面,可以自定义同步任务及map表。非常适合mysql库之间的同步。
另外:otter已在阿里云推出商业化版本 数据传输服务DTS, 开通即用,免去部署维护的昂贵使用成本。DTS针对阿里云RDS、DRDS等产品进行了适配,解决了Binlog日志回收,主备切换、VPC网络切换等场景下的同步高可用问题。同时,针对RDS进行了针对性的性能优化。出于稳定性、性能及成本的考虑,强烈推荐阿里云用户使用DTS产品。
datax日期为空报错
题主是否想询问“datax日期为空报错怎么解决 ”?将所赋值的字段重置为空。在dataX脚本读取reader中判断时间类型的字符串为空时,赋一时间戳类型的时间默认值,这个默认值应该是容易与数据真实时间值区分的时间。在写入writer中postSql中处理,datax日期为空报错应将所赋值的字段重置为空。DataX是阿里云DataWorks数据集成的开源版本。DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具平台。

阿里云导入Excel数据提示有脏数据,怎么解决?
阿里云导入Excel数据里面有提示有不正确的数据的话,这个可以去更新一下,或者是说把这个数据删除就可以了。
阿里云datax的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于、阿里云datax的信息别忘了在本站进行查找喔。
推荐阅读
-
四川路桥(600039.SH)获准发行不超30亿元公司债券
四川路桥(600039.SH)公告,2023年6月6日,公司收到中国证券监督管理委员会下发的《中国证监会关于四川路桥建设集团股份有...
-
受益产品涨价 金宝汤Q3利润超预期
美东时间6月7日美股盘前,金宝汤(CPB.US)公布了2023财年第三季度业绩。受益于多轮涨价,该公司Q3利润超出了华尔街预期。财...
-
正式分家!周鸿祎与前妻离婚股份过户完成,最新市值68亿元
在签订离婚协议两个多月后,三六零实际控制人周鸿祎与前妻胡欢完成了股份转让,正式“分家”。 6月6日晚,三六零(601360...
-
阿根廷男足北京行首轮门票售罄!梅西效应疯狂:有酒店房价飙至11万/晚
阿根廷男足北京行首轮门票售罄!梅西效应疯狂:有酒店房价飙至11万/晚 林心林 来源:时代财经 自去年在卡塔尔捧得...
-
我市整治虚假 违法广告联席会召开
拉萨融媒讯(记者赵耀铁)为进一步加强我市广告市场监管力度,持续规范广告市场秩序,近日,拉萨市整治虚假违法广告联席会议办公室...
-
西部证券-TCL中环-002129-跟踪点评报告:看好六月中旬开工率提升,海外建厂或引动产业链出海潮-230606
硅片库存有望见底,看好六月中旬开工率回升。根据infolink数据,当前硅片厂家皆以去库存化为首要目标,除了硅片价格持续下降外...
-
杉杉品牌预期将于8月4日或之前派发末期股息每股0.04元
杉杉品牌(01749)发布公告,建议派发截至2022年12月31日止年度末期股息每股人民币0.04元(税前)的决议案已获正式...
-
欧盟敦促大型科技公司提醒用户人工智能存在的“阴暗面”
欧盟希望科技公司提醒用户,人工智能(AI)生成的内容有可能导致虚假信息。 虽然新的AI技术“可以充当正面力量”,但是也存在...
-
苹果为演示MR头显搭了一个“大型建筑”?终于有人拍清楚了
财联社 北京时间周二凌晨,苹果将在加州总部举行WWDC23。考虑到库克有望在这次会议上拿出被称为“RealityPro”...
-
所罗门环球控股(08133.HK)拟"10合1"并股后按"2供1"进行供股
来源:格隆汇格隆汇6月5日丨所罗门环球控股(08133.HK)公告,董事会建议按将公司股本中每十(10)股每股面值0.08港元的...
