设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 创业者 数据 手机
当前位置: 首页 > 服务器 > 搭建环境 > Unix > 正文

阿里资深Leader:组建技术团队的一些思考(6)

发布时间:2020-01-13 18:11 所属栏目:119 来源:站长网
导读:文档、数据、代码、评测在线化 ①文档在线化:春节期间我建了个团队语雀,自己做顶层设计,写好框架,然后让同学们把业务、技术、资源、技术影响力等等和工作相关的内容都填写其中。 这样子,每个同学都可以看到团

阿里资深Leader:组建技术团队的一些思考

文档、数据、代码、评测在线化

①文档在线化:春节期间我建了个团队语雀,自己做顶层设计,写好框架,然后让同学们把业务、技术、资源、技术影响力等等和工作相关的内容都填写其中。

这样子,每个同学都可以看到团队的各种信息和资源,以及其他人的工作。目前团队的语雀还对部分关联紧密的兄弟团队完全开放。

②数据在线化:如果同学们各自管理自己的数据,形成数据孤岛不说,发生机器重装,或者转岗、离职,往往数据就丢了。

接手的时候,能清理出来的有标签数据远远低于应有的数量,就是因为一直没有做数据的在线化管理。

团队里的言奇同学做了样本大表项目,已经完成了将整个智能认知团队的全面标签数据在线化。

这一点非常重要,后续在开发各种新模型,以及做预训练模型时,就拥有不同业务不同场景不同风险的大量数据,在短时间内取得了良好的效果。

③代码在线化:这个正在进行中,预期 S2 结束时完成。

出发点是:

代码是团队重要的技术资产,应该统一管理,提高安全性。

在线化后方便团队协作,共享优秀代码。

基础性模块代码统一,降低维护成本。

④评测在线化:也在进行中,设想是在一些特定任务上做几种经典模型和确认无误的主流模型,能够一键实现自己的模型和前者的自动化比对,提升工作效率。

除此之外还有个作用:经典模型的结果可以作为 baseline,帮助验证深度模型的正确性。

因为,你做了一个深度模型,效果好也就罢了,效果不好的时候都搞不清楚是模型不适用,还是自己的代码写错了。

找对前进的方向

主管最重要的职责之一是当同学们迷茫的时候明确前进的方向。

接着前面商业化的例子,详细情况是这样的:我们通过阿里云对外输出文本风险识别的算法能力做商业化,比如涉政、色情低俗、广告、辱骂等。

我接手的时候,有 3-4 个同学全职投入这项工作,他们工作非常努力,干得也很辛苦,但是效果并不好, PK 竞品的时候并无胜算。出了什么问题呢?

分析之后,我发现以下问题:

①确实是一个内容维度的问题,但只使用了分类模型一种方式。

分类模型适合解决静态标准的问题,并不适合及时响应业务上的快速变化。模型迭代更新的速度做到极限也只能是 T+1 或者 T+2 天,且人力消耗高。

之前的主管为了解决这个问题,在分类模型中塞了一个风险词包,由算法同学维护更新,接到运营反馈的 badcase 之后手动添加到风险词包,然后定时推送到分类模型应用中。

这个复杂的机制带来了词典的频繁构建,结果导致应用的稳定性问题频发,甚至已经无法更新。

②缺乏顶层设计,同学们各自为战。

几个风险各自单独做模型,技术选型高度自由,百花齐放,starspace、SVM、CRF、kenlm、textCNN 都有,难以统一提升能力,维护的难度大。

③做了过多的个性化定制,导致后续维护和升级的成本非常高。

几乎为每一个稍微大一点的用户都单独做了模型,付费调用量不大,模型倒是有了好几十个。同学们频繁地做模型的迭代更新(每周都至少有 1-2 次),占用大量人力。

怎么办呢?建设技术体系去解决某一类问题,而不是某个技术点去解决某一个问题;结合安全业务的特点,设计可以强化通用算法效果的基础能力或处理框架。

上面两句话不是我说的,来源于前主管。(插一句:本文还有一些内容来源于前主管和主管,向主管学习是提升自己的一个重要途径。)

具体来说,解法有几点:

明确风险词包、相似性检索、分类模型、风险知识图谱 4 种手段适合完成的任务,且相互配合。

把风险词包从分类模型中拆出来,降低应用的复杂度,以及模型迭代的频率,解决稳定性问题。

分类模型的结构尽可能统一,标准尽可能不变,持续把效果做强。

自从 BERT 提出以来,NLP 问题的基本范式从原来的 task-specific 的模型结构设计转变到语言模型 pretrain+ 下游任务 finetuning 的模式。工作重点应该转向预训练模型与知识蒸馏。

由于目前对内的内容交互风险管控业务也在我的团队内,我就贴一张全局视角的问题分析与解决方案。

阿里资深Leader:组建技术团队的一些思考

全局视角的 UGC 风险管控思路

明确解法之后,同学们快速做了实践,到 4 月份就基本扭转了被动的局面,随后打了翻身仗,付费调用量增长 25 倍。

现在模型的更新周期降低到以月为周期,稳定性大幅度提升,同学们也不再疲于奔命;而且,投入的人力也明显下降了。

绩效的考核

绩效考核决定了收益的分配,也是团队最重要的事情之一。

如果把团队比作一个模型,考核的标准就是 loss function。loss function 一旦确定,模型的优化方向也就定了,团队成员会按照利益最大化原则沿着这个方向调整自己的 action 。

所以,考核标准的设计需要体现团队的定位、价值和需求;在执行的过程中需要满足平等性。

(编辑:ASP站长网)

网友评论
推荐文章
    热点阅读