FlinkCEP
针对什么,解决什么问题,空缺的地方。
目前,基于团伙发现和聊天的策略基本已经实现。后续可能需要优化和策略的调度上再优化。
但是对于用户行为序列的策略这块应用很少,目前有念姐的基于用户行为序列的xgboost模型,但解决的是特定的问题,泛化能力较弱,针对新的异常行为场景不能覆盖。
那怎么有一个通用的,可以配置基于规则的这么一个异常行为序列检测的策略。这个时候就考虑了flink.
优点
- 跨事件的匹配,这个是重点。
- 同时eventTime.processingTIme语义的支持。
- 延迟数据的良好处理
- 友好的API.
解决的另一个痛点是。运营老是频繁提需求,改动。这边李华,华哥那边也深受同感吧。
当然,最好规则是sql 的形式,运营人员直接参与规则编写而不是频繁提需求。 这个和龙哥那边给何博士和念姐那边支持的数据工具类似。
flink CEP官网给出的API也还是很丰富的
Flink是什么,我想大家都比较熟悉了。
定义一些通用的流程
针对之前已经发生的一些case. 找到一些可以使用flink-cep解决的。
比如:
难点和需要做的就是定义这些流程场景,分析一些通用的异常场景和特征。
频繁交换微信,5分钟内交换5次微信。
聊天内容命中一个词之后,统计个数。这个词可以配置。 (比如合作,微信,威信等 多次统计的(可以基于规则实时统计- 重点在于实时修改。))
对类似群发的消息进行检测。
利用cep构建一些实时特征并利用起来。
传销这种,就是约异地面试的意图。特征。
首先目标是这个
- 解决大量的异常场景,
- 提高准确率(每天运营催说数据太多,标不完,那就是准确率不高,利用简单快速的东西,实现复杂的需求流程。)「团伙发现也要利用好」