• 忙着给孩子报夏令营?专家:不妨让孩子过个无聊暑假 2019-07-23
  • 云南昆明:持续3年开展市容环境整治提升 2019-07-23
  • 【中国梦·大国工匠篇】鸡蛋上钻孔显真功 潜心坚守一线练就绝活儿 2019-07-22
  • 海淀城管夜查渣土车 全力保障高考备考环境 2019-07-22
  • 只有买房才能幸福?张天翼《粉墨》:北漂生活的戏谑与哀愁 2019-07-15
  • 特朗普还不敢和朝鲜动兵,他知道中朝友好和平条约意味着什么。 2019-07-06
  • 刚续约就这表现?铁卫诡异手球送礼 法国壕阵险被逼平 2019-07-02
  • 《国家社科基金项目成果选介汇编》第三辑 2019-06-30
  • 险企偿付能力2017年“成绩单”:3家不达标 7家被关注 2019-06-30
  • 90后女生抛下帝都生活 仅花了6万元建了一幢别墅! ——凤凰网房产 2019-06-29
  • [大笑]小撸是三叶虫还是鱼鐅? 2019-06-23
  • 湖南提前一年全面建立河长制 地表水水质监测总体为优 2019-06-21
  • 筑牢主流 摈弃“历史虚无主义” 2019-06-13
  • 一周人事:钱洪山任中共中央对外联络部副部长 2019-06-13
  • 定陶战役:示弱于敌重点围歼的范例 2019-06-11
  • 专业下载站,下载软件就到188下载站

    代做3d效果图:体彩排列五

    您的位置: 体彩排列五>资讯频道>智能科学

    想要快速的搭建高性能机器学习系统,企业应该怎么干?

    想要快速的搭建高性能机器学习系统,企业应该怎么干?

    17-05-15 | 作者:GiuliaQ |

    体彩排列五 www.kj641.com  本文为「范式大学系列课程」。

    亚马逊目前的运维水平成为行业标准,但凡有公司要自己搭建 OpenStack,先要回答一个问题:OpenStack 比亚马逊云的优势是什么?

    对于机器学习来说,公司要自己搭建机器学习系统,也可以先问一个问题:需要多长时间和多少钱,才能达到行业领先的性能?

    要知道,时间成本 + 丧失的竞争优势是无价的。

    我们来算算这笔账。

    1、时间

    自建机器学习系统,大概有这么几步:

      步骤 1:招聘机器学习团队的 Leader,2 个月

      步骤 2:搭建机器学习团队,2 个月

      步骤 3:前期业务调研,2 个月

      步骤 4:前期技术调研,2 个月

      步骤 5:数据采集相关开发和数据积累,0.5 个月

      步骤 6:数据分析处理,1 个月

      步骤 7:模型调研,0.5 个月

      步骤 8:线上系统开发,0.5 个月

      步骤 9:a/b测试和模型优化,0.5 个月

      合计:11 个月

      这是相对较快的时间表,如果在哪个环节踩到坑,拖延的时间就没法计算了。

      如果要减少时间,关键是什么?

      专业化分工 + 专注核心环节。

      实际上,真正需要自己做的是数据采集、模型调研和模型优化,在专业化工具的帮助下,这些环节可以缩短到 1 个月。而其他 10 个月时间的工作,已经有专业化工具可以替代,沟通和实施时间可以缩短到 0.5 个月。

      这样就从原来的 11 个月,变成了 1.5 个月。

      2、钱

      机器学习系统的投入,一般是这样的:

      1000 万行/天的数据规模,机器学习系统一年的支出是 944 万。

      如果要减少投入,关键是什么?

      专业化分工 + 专注核心环节。

      通过使用机器学习平台,上面的投入会变成这样。

      10 台线上机器和 20 台线下机器 ,企业在购买时是按照峰值数据量配备的,但机器实际运转的时间,往往只有 1/8,即每天运行 3 小时。剩下的 7/8 是浪费的。另外,开源机器学习框架对资源利用效率低,又是一大块资源浪费。

      所以原本需要 10 台线上机器和 20 台线下机器,通过机器学习平台只需要 2 台线上机器和 4 台线下机器,节约了 240 万。

      在人员投入上,30 台的机器需要配备 1 个带头人、3 个研发、1 个测试、1 个运维、1 个机器学习专家和 1 个业务专家,但如果采用机器学习平台,在专业化工具的帮助下,企业只需要 0.5 个机器学习专家和 0.5 个业务专家。

      通过使用机器学习平台,企业的人力成本可以节约 588 万。

      另外,机器学习平台的思路可以实现 1.5 个月上线,如果全部自己做则需要 11 个月甚至更久。如果错过了抢占市场的黄金期,损失就是巨大了。对于一个 1000 万行数据规模的公司来说,我们假定 9.5 个月延迟的损失是 5000 万。

      所以我们得到了两个数字:

        如果不考虑时间的机会成本,采用机器学习平台的成本是自建系统成本的 12.3%。

        如果考虑时间的机会成本(5000 万),采用机器学习平台的成本是自建系统成本的 2%。

        3、机器学习系统

        机器学习系统的性能有 3 个要素:

          Max AUC:模型能达到最好的效果,好比山的高度

          Actual AUC:实际上线模型的效果,好比爬到多高

          Time:模型训练和预测所需要的时间,好比多久爬到这个高度

          如果自己搭建机器学习系统,首先遇到的瓶颈一般是数据处理能力。

          对于大部分机器学习团队来说,他们一般可以处理几十万规模的数据量,但如果数据规模超过 10 亿,那么即便是简单的逻辑回归模型,也会变成一个非常困难的问题。

          为了迁就不足的计算能力,一般会做的事情是减少特征数量和样本数量,这样才能在业务需要的时间内把模型训练出来。

          但这样会造成很不好的结果,Max AUC 因为特征和样本数量减少而降低,Actual AUC 因为 Max AUC 和计算能力不足而降低,Time 因为计算能力不足而增加,最终整个系统的能力就会遇到瓶颈。

          如果要提升性能,关键是什么?

          专业化分工 + 专注核心环节。

          大规?;餮暗募扑憧蚣苁且患浅D训氖虑?,因为它不仅需要处理亿万规模的数据,而且要符合机器学习的规则。能做大规?;餮凹扑憧蚣艿娜巳记缚墒?,基本集中在百度、阿里、腾讯以及少数的创业公司。

          所以对于公司来说,与其死啃大规?;餮暗募扑憧蚣?,反而不如购买第三方的专业服务(这就好比你不会自己开发芯片)。而当计算能力充足的时候,公司就可以专注自己的核心环节,把特征的维度做上去,把数据的规模做上去,把数据和业务的结合做的更清晰。

          这样公司机器学习系统的性能,例如在业务需要的时间内获得的 AUC 才能提升上去。

          4、总结

          总的来说,公司要做机器学习,应该采取专业化分工 + 专注核心环节的方式,具体如下:

          专业化分工完成和辅助完成的:前期业务调研、前期技术调研、数据处理、模型调研、模型优化、模型上线、大规?;餮凹扑憧蚣?、线下机器、线上机器、运维、大部分的工程投入。

          公司专注完成的环节:业务问题定义、数据采集、特征扩充、模型调研。

          这样,只需要 1.5 个月的时间,大约 10%(2%) 的成本,不仅获得了高性能的机器学习系统,而且能带来实际业务效果的提升,让机器学习能力真正转变为市场竞争力。

          (完)

          TensorFlow & 神经网络算法高级应用班” 要开课啦!

          从初级到高级,理论 + 实战,一站式深度了解 TensorFlow!

          本课程面向深度学习开发者,讲授如何利用 TensorFlow 解决图像识别、文本分析等具体问题??纬炭缍任?10 周,将从 TensorFlow 的原理与基础实战技巧开始,一步步教授学员如何在 TensorFlow 上搭建 CNN、自编码、RNN、GAN 等模型,并最终掌握一整套基于 TensorFlow 做深度学习开发的专业技能。

          两名授课老师佟达、白发川身为 ThoughtWorks 的资深技术专家,具有丰富的大数据平台搭建、深度学习系统开发项目经验。

          时间:每周二、四晚 20:00-21:00

          开课时长:总学时 20 小时,分 10 周完成,每周 2 次,每次 1 小时

           

    网友评论

    您的评论需要经过审核才能显示 网名

    0条评论>网友评论