首页 » 日志分析 » 正文

日志采集与分析

【今日话题】

日志采集与分析 – yanper

1. flume +kafka +storm + mysql

多台webserver把收集到的日志信息通过flume agent avro发送,再存储到kafka,然后storm进行实时处理(业务逻辑处理),最后把处理后的数据存储到mysql或者hbase中。

storm和kafka使用同一个zookeeper集群管理

flume和kafka可以用多台服务器做负载均衡 – 鲁蒙️

2. 我们日志收集是重要的异步发sentry,不重要的记log文件

优点是sentry部署简单,对语言支持多,特别是有前端js的支持

缺点是sentry新版取消了udp接口,只有http接口,发的数据包含环境变量,trace等,数据量比较大

总体来说是小而美 – twin

3. 我们是用mongo存储日志,每日一个collection 。优点是日志查询方便,布一个开源的web查询工具就可以了,归档也比较方便 – lwPan

4. 问: 日志是怎么写入的呢?实时的写吗? – dodo

回: 实时写入 ,如果不要求实时,可以用hadoop处理, storm是实时处理的。 – 鲁蒙️

5. 问: @lwPan Mongo存日志,空间占用大,比不压缩文本还来的大,这个贵司是怎么克服的呢? – 孔德文

回: 暂时还没遇到这个瓶颈,我们会定期归档 – lwPan

6. 推荐有个数据仓库软件:infobright

基本跟mysql使用上是一样的,但是在节约空间和查询效率方面很赞。无法修改数据。

可以做log的存储

如果长期的日志,还是推荐放到hadoop里面进行存储。 – 黑夜路人

7. infobright是好东西,load/query速度都挺快,由于是列存储,压缩比也很高。

曾经在生产环境用过infobright。

它唯一的问题是,社区版有线程数限制。

收费版没限制。 – 张京磊