Doris的应用和实践

发布时间:2021-06-10编辑:caoww阅读(2321)

流量场景

  1. Doris可以通过HLL_RAW_AGG配合HLL_UNION_AGG做累加

  2. Doris支持按条件过滤,例如在10万poi_intent 


历史数据回刷问题

  流量数据,实时和离线在同事写入通一分区的时候相互会有影响,为了排除实时和历史同事写入造成的影响,历史单独写表。

  优点:

  BITMAP可以建Rollup ,离线导入速度较慢

  Spark 任务需要计算全局字典,然后再计算导入任务。


不同的场景下看数的需求和要求不一样

流量

数据量大,不能延迟,延迟报警 允许有一点的误差,5分钟粒度

供应链

数据量很大,查询逻辑复杂,可以延迟,允许误差,1小时以下粒度

订单

数据量小,查询QPS相对于高。尽量不延迟,数据准确,5分钟粒度。


Doris不支持大区相关维度的查询 用druid 查

压力测试

接口埋点

日志回放

并发模拟测试

监控分析

通过一个框架解析日志生产结构化的调用模拟信息


mysql : 关系型数据库

  • 特性:稳定、轻量级、高可用、



安全分析业务

需求:

    每天服务器上的信息情况,是内部安全人员比较关心的,但是服务器上每天都有大量的信息,如何能快速售后机落地、统一实时分析呢?

具体:

  •    写入的量上的要求,每天大约几亿的数据需要落地

  • 实时分析:快速的分析

  • 定期数据清理



DBA内部业务

需求:

     MySql 中间件,我们使用的ProxySQL,ProxySQL支持展示SQL情况,但是每次需要重置下,才重新开始统计,比较麻烦。


报表业务

某只能部门的销售使用的报表系统,需求:

  • 实时分析


用户画像

某部门的用户画像

  • 实时分析

  • 按照标签分析、排序

  • 之前ES 受限于字段数,字段数1K+; 在迁移DorisDB中

  • 按照人员ID查询信息,并发点查,放在TiDB


工作分类

  • 运维规范  端口,目录 版本

  • 接入测试 HDFS 本地文件导入,kafka导入, 外表  mysql  ES  hive  TIDB

  • 分享   内部分享

  • 自动化开发   部署 扩容 开启关闭重启  缩容  升级

  • 监控  状态检查  存活监控

  • 业务接入: 协助建表。kafka 接入数据 、hdfs导入数据


Doris的体量

 

拓扑工具

qdorisdb -c 集群号


检查PE/BE

dorisdb_check -c XXX

获取Promentheus 接口实例存活信息


管理工具

dorisdb_manage

dorisdb_manage cluster deploy $igid


问题:

  • 如果想混合部署,需要提前计划端口,集群间需要有一定间隔

  • DorisDB升级比较快,如果遇到bug可以咨询官方,及时升级避开

  • 查询报错

  • 处理:set  global max_allowed_packet=1024*1024*8



标准版周边缺少

解决: DBA开发工具、自动化、平台化、监控、报表等


问题:低版本,老机器,FE节点会存在频繁宕机的情况

解决: 替换新的服务器,升级版本解决


问题: insert into  多values  ,并发写入会报错,且效率不高


规划

业务接入: 持续接入业务

自动化,平台化开发

  • 监控开发

  • 自动化管理工具开发

  • 平台化:工单申请 自动创建


标签

评论