gracejpw1117

2020-07-07   阅读量: 1459

大数据

flume中有几种可监控文件或目录的source

扫码加入数据分析学习群

flume中有三种可监控文件或目录的source,分别是Exec Source、Spooling Directory Source和Taildir Source。

Taildir Source是1.7版本的新特性,综合了Spooling Directory Source和Exec Source的优点。

使用场景如下:

Exec Source

Exec Source可通过tail -f命令去tail住一个文件,然后实时同步日志到sink。但存在的问题是,当agent进程挂掉重启后,会有重复消费的问题。可以通过增加UUID来解决,或通过改进ExecSource来解决。

Spooling Directory Source

Spooling Directory Source可监听一个目录,同步目录中的新文件到sink,被同步完的文件可被立即删除或被打上标记。适合用于同步新文件,但不适合对实时追加日志的文件进行监听并同步。如果需要实时监听追加内容的文件,可对SpoolDirectorySource进行改进。

Taildir Source

Taildir Source可实时监控一批文件,并记录每个文件最新消费位置,agent进程重启后不会有重复消费的问题。

使用时建议用1.8.0版本的flume,1.8.0版本中解决了Taildir Source一个可能会丢数据的bug。


添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
19.5520 4 3 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子