机器学习的模型如何落地（一份机器学习模型再训练终极指南） - 原点资讯

接下来讲一下数美天净的娇喘识别，主要识别语音中存在的一些异常行为，为客户提供涉黄音频拦截服务。主要做法将音频流、音频URL、音频文件作为一个音频输入，然后通过模型中的特征工程去判别，作为一个多模型输出，最后通过策略或者多模型融合给用户提供一个综合判定结果。

目前这个领域用的比较多的特征有MFCC、Pitch（音高音）、iVector（语音信息），一般会将这类特征作为模型输入特征。主流音频分类方案： HMM/GMM、 DNN、RNN，RNN序列化，一帧帧分析形成MFCC，感官上也比较符合逻辑。RNN比GMM参数多，用的相对少一点，利用IVector加逻辑回归就能得到一个比较好的结果。

更多待探索算法

机器学习的模型如何落地,一份机器学习模型再训练终极指南(9)

最后讲一下数美接下来的一些算法探索，可以将Reinforcement Learning模型融合到业务中来。在一些具体场景下，具备场景漏洞（支付，薅羊毛等欺诈行为），在游戏领域概率更高，在某猫你有时也可以做到零成本买到一些东西；第二个问题就是该类欺诈行为符合马尔科夫决策过程，即未来取决于当前。

然后就是正常用户行为更加随机，如可能逛某宝或者其他东西，行为比较随机。综上所述，如果采取合适的reward可以让机器自动寻找可能的犯案路径，或者可以利用reward体现欺诈程度。但是这个涉及几个比较大的限制，一个是playreview的设计，第二个就是ruleconstraver设计。这代表着如何让程序理解目前所代表的场景以及用户推展这些活动的规则，目前基于这个做的有GVGEI，是一个游戏解释器，拥有自己的一套规则和语法。还有就是将历史文献中游戏转化为真实可玩的游戏，将文字转化为程序实体，然后利用Reinforcement Learning自己去玩，看历史描述方法对不对，如果回合较少或者不公平就说明历史描述存在偏差。

还有就是Reinforcement Learning的落地应用需要大量基础算法，因为它其实是一个不断试错的过程，需要不断试错和reward，计算量比较大。

今天的分享就到这里，谢谢大家。

01/分享嘉宾

李田，数美科技机器学习与深度学习工程师。研究生毕业于英国埃塞克斯大学大数据及文本分析专业，荣获最高等评价distinction 硕士学位。主要方向为自然语言、计算机图像以及游戏领域的增强学习、内容生成等。在数美负责金融信贷、广告导流及音频拦截的数据分析和模型构建。

02/关于我们

DataFun：专注于大数据、人工智能技术应用的分享与交流。发起于2017年，在北京、上海、深圳、杭州等城市举办超过100 线下和100 线上沙龙、论坛及峰会，已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章700 ，百万阅读，14万精准粉丝。