FlinkCEP

针对什么,解决什么问题,空缺的地方。

目前,基于团伙发现和聊天的策略基本已经实现。后续可能需要优化和策略的调度上再优化。

但是对于用户行为序列的策略这块应用很少,目前有念姐的基于用户行为序列的xgboost模型,但解决的是特定的问题,泛化能力较弱,针对新的异常行为场景不能覆盖。

那怎么有一个通用的,可以配置基于规则的这么一个异常行为序列检测的策略。这个时候就考虑了flink.

优点

  • 跨事件的匹配,这个是重点。
  • 同时eventTime.processingTIme语义的支持。
  • 延迟数据的良好处理
  • 友好的API.

解决的另一个痛点是。运营老是频繁提需求,改动。这边李华,华哥那边也深受同感吧。

当然,最好规则是sql 的形式,运营人员直接参与规则编写而不是频繁提需求。 这个和龙哥那边给何博士和念姐那边支持的数据工具类似。

flink CEP官网给出的API也还是很丰富的

Flink是什么,我想大家都比较熟悉了。

定义一些通用的流程

针对之前已经发生的一些case. 找到一些可以使用flink-cep解决的。

比如:

难点和需要做的就是定义这些流程场景,分析一些通用的异常场景和特征。

  1. 频繁交换微信,5分钟内交换5次微信。

  2. 聊天内容命中一个词之后,统计个数。这个词可以配置。 (比如合作,微信,威信等 多次统计的(可以基于规则实时统计- 重点在于实时修改。))

  3. 对类似群发的消息进行检测。

  4. 利用cep构建一些实时特征并利用起来。

  5. 传销这种,就是约异地面试的意图。特征。

首先目标是这个

  • 解决大量的异常场景,
  • 提高准确率(每天运营催说数据太多,标不完,那就是准确率不高,利用简单快速的东西,实现复杂的需求流程。)「团伙发现也要利用好」