Doris的应用和实践
发布时间:2021-06-10编辑:caoww阅读(3757)
流量场景
Doris可以通过HLL_RAW_AGG配合HLL_UNION_AGG做累加
Doris支持按条件过滤,例如在10万poi_intent
历史数据回刷问题
流量数据,实时和离线在同事写入通一分区的时候相互会有影响,为了排除实时和历史同事写入造成的影响,历史单独写表。
优点:
BITMAP可以建Rollup ,离线导入速度较慢
Spark 任务需要计算全局字典,然后再计算导入任务。
不同的场景下看数的需求和要求不一样
流量
数据量大,不能延迟,延迟报警 允许有一点的误差,5分钟粒度
供应链
数据量很大,查询逻辑复杂,可以延迟,允许误差,1小时以下粒度
订单
数据量小,查询QPS相对于高。尽量不延迟,数据准确,5分钟粒度。
Doris不支持大区相关维度的查询 用druid 查
压力测试
接口埋点
日志回放
并发模拟测试
监控分析
通过一个框架解析日志生产结构化的调用模拟信息
mysql : 关系型数据库
安全分析业务
需求:
每天服务器上的信息情况,是内部安全人员比较关心的,但是服务器上每天都有大量的信息,如何能快速售后机落地、统一实时分析呢?
具体:
写入的量上的要求,每天大约几亿的数据需要落地
实时分析:快速的分析
定期数据清理
DBA内部业务
需求:
MySql 中间件,我们使用的ProxySQL,ProxySQL支持展示SQL情况,但是每次需要重置下,才重新开始统计,比较麻烦。
报表业务
某只能部门的销售使用的报表系统,需求:
用户画像
某部门的用户画像
工作分类
Doris的体量
拓扑工具
qdorisdb -c 集群号
检查PE/BE
dorisdb_check -c XXX
获取Promentheus 接口实例存活信息
管理工具
dorisdb_manage
dorisdb_manage cluster deploy $igid
问题:
如果想混合部署,需要提前计划端口,集群间需要有一定间隔
DorisDB升级比较快,如果遇到bug可以咨询官方,及时升级避开
查询报错
处理:set global max_allowed_packet=1024*1024*8
标准版周边缺少
解决: DBA开发工具、自动化、平台化、监控、报表等
问题:低版本,老机器,FE节点会存在频繁宕机的情况
解决: 替换新的服务器,升级版本解决
问题: insert into 多values ,并发写入会报错,且效率不高
规划
业务接入: 持续接入业务
自动化,平台化开发
监控开发
自动化管理工具开发
平台化:工单申请 自动创建