手机版

蚂蚁金服开源ElasticDL:Kubernetes原生的分布式深度学习系统

时间:2019-09-11 17:20:11 来源:新闻头条 编辑:山中老道 浏览:

原标题:蚂蚁金服开源ElasticDL:Kubernetes原生的分布式深度学习系统

9月11日,蚂蚁金服在2019谷歌开发者大会上海站上,宣布开源 ElasticDL,一个基于 TensorFlow 2.0 的 Kubernetes 原生的分布式深度学习系统。这也是业界首个基于TensorFlow 的支持弹性调度的深度学习系统。

ElasticDL 的主要特性是容错性是弹性调度,这是通过研发一个 Kubernetes-native 的框架来调用 TensorFlow 2.0 从而实现的。Kubernetes-native 指的是一个分布式程序调用Kubernetes API 来起止进程;给予了分布式系统更多的调度灵活度。与之对应的做法是为每个分布式框架写一个 Kubernetes operator 来启动分布式作业,比如,Google Cloud 为 TensorFlow 开发了 Kubernetes operator Kubeflow,但Kubeflow不支持弹性调度。

TensorFlow 2.0 的 eager execution API 是 ElasticDL 的另一大助力,使得 ElasticDL 不必像 Uber Horovod 这类为 TensorFlow 1.x 设计的系统一样需要“盗取”作为计算图执行的中间结果的 gradients。

在多人共用计算集群的情况下,支持弹性调度意味着极大提升团队效率和集群的总体利用率。举个比较极端的例子:假设一个集群有N个GPU,而一个任务只使用其中一个,当没有弹性调度时,一个要求所有N个GPU的任务需要等待前一个任务结束才能开始,这个等待时间可能高达数天甚至数周,在等待期间,集群的效用是1/N;而拥有弹性调度能力之后,新的任务可以在N-1个GPU上立刻运行,并且Kubernetes可以在第一个任务完成后将占用的GPU赋予这个任务,在这个案例里,集群整体效用是100%. 因此,在部分案例中,ElasticDL能极大的提升集群利用率。

除此之外,ElasticDL还拥有高效和易用的特性。今年5月份,蚂蚁金服开源了SQLFlow,ElasticDL通过与SQLFlow的联动,实现让AI变得像使用SQL一样简单,SQLFlow把SQL程序翻译成一个ElasticDL程序,让工程师可以用SQL语言描述模型训练和预测过程。

ElasticDL项目负责人王益表示:“ElasticDL 处于研发初期,我们希望尽早开源ElasticDL和尽早分享其设计意图,汇聚来自不同公司和社区的力量,一起探索GoogleTensorFlow2.0和Kubernetes的分布式训练生态,早日实现便捷的端到端的人工智能开发套件。”

蚂蚁金服一直积极参与开源社区共建。自从2011年宣布第一波开源项目以来,开源项目数量每年都有增长。目前蚂蚁金服已经有400多个开源项目,其中,AntDesign项目已获四万多 GitHub 星标,有800多人参与项目建设,SQLFlow、EggJS和SOFA系列也成为社区热门。

声明:优质科技创作不易,来源:新闻头条。转载务必注明出处:https://www.xinwentoutiao.net/keji/20190911/1568193611529121.html

评论
今日新鲜事
  • 人均寿命68.7岁
    11-01
    国家卫生健康委员会老龄健康司司长王海东图片来源:国家卫健委封面新闻记者 柳青国家卫生健康委员会老龄健康司司长王海东11月1日表示,我国人均健康预期寿命仅为68.7岁,患有一种...阅读详情
  • 四川4女孩失联
    11-01
    封面新闻记者 宋潇10月30日,一则名为“四川广安4名女孩放学后未归,被一个陌生女孩带走”的帖子,引发众多关注。发帖者称,10月30日下午放学后,4名就读于城南初中的女孩子就没有回...阅读详情
  • 华为HR控诉
    11-01
    郭一璞 晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI“研发兄弟们对不起,我尽力了。”这是华为内部论坛心声社区中,一篇帖子的标题。发帖者是一位从研发转岗到HR的华为员工,...阅读详情
  • 巨蟒勒颈身亡
    11-01
    中新网11月1日电,据台湾联合新闻网报道,美国印第安纳州警方表示,当地时间10月30日,该州本顿县一名女子遭一条约2.4米长的蟒蛇勒颈,经抢救后确认身亡。事发现场的房屋内共养有140...阅读详情
  • 邓超送孙俪的耳环
    11-01
    11月1日,孙俪在微博上发了两张自拍照,很幽默地配文:“邓先生买这个耳环的时候,怎么就认为会适合我呢是筷子?是书签?是刮痧板?还是我脖子不够长?”还附带了一个狗头的表情,看来孙俪是...阅读详情
  • 曼谷或被淹没
    11-01
    封面新闻记者 燕磊近日,据泰媒援引美国非营利组织“气候中心”消息,全球海平面逐渐上升,在未来31年内(2050年前),全球各大城市将有被沉没的风险。其中,泰国、孟加拉国、印度、越南...阅读详情
  • 15岁女蝉联科学家[图文]
    11-01
    昨天第二届世界顶尖科学家大会在上海开幕“15岁女生参加顶尖科学家论坛”登上微博热搜就读于华师大二附中的高一学生谈方琳是昨天下午青年论坛最年轻的与会者别看年纪小,其实...阅读详情
  • 南京世界文学之都[图文]
    11-01
    今天上午,联合国教科文组织官方微博发布消息,批准66座城市加入教科文组织创意城市网络,其中南京被列入世界文学之都!2017年,南京在国内城市中首个提出将申办世界“文学之都”。说...阅读详情
  • 首部母乳喂养法规[图文]
    11-01
    背景:10月29日,《广州市母乳喂养促进条例》经广州市第十五届人大常委会第二十八次会议表决通过,将在省人大常委会会议审查批准后正式实施,这是全国首部促进母乳喂养的地方性法规...阅读详情
  • 玉溪3.5级地震[图文]
    11-01
    中国地震台网正式测定:11月01日03时37分在云南玉溪市江川区(北纬24.39度,东经102.77度)发生3.5级地震,震源深度12千米。本次地震周边5公里内的村庄有星云村、温泉村、三家村、...阅读详情
  • 天津公交失控[图文]
    11-01
    2019年10月30日一则天津公交失控的消息刷爆了各大社交媒体平台,前几年重庆的公交失控事件还历历在目,这一次的天津公交失控是怎么回事呢,很多人都非常关注这件事情,网上针对天津...阅读详情
  • 首家临终关怀医院[图文]
    11-01
    随着国内老龄化日益加剧,越来越多的临终关怀、安宁疗护机构也出现在了人们的视线中,截至2019年,国内相关机构已经增加到71个,这也表示着国内对临终关怀服务的探索已经进入了一个...阅读详情
  • 朝发射不明发射体[图文]
    11-01
    【快讯!朝鲜发射不明发射体】据路透社报道,韩国军方表示,31日下午,朝鲜向朝鲜半岛东部海域方向发射不明发射体。中国日报网微博截图相关搜索发射构成图片平面构成发射中国发射...阅读详情
  • 女儿未婚遭亲妈打[图文]
    11-01
    更多摘抄的内容请留言评论或关注小谢语文头像发消息。一、阅读断崖式的衔接4年级起,孩子阅读开始不会做,开始丢很多分,很多家长疑惑,为什么会这样呢?主要原因是,3年级的阅读非常简...阅读详情
  • 联想年收入3500亿[图文]
    11-01
    1984年11月1日,联想正式成立,迄今已经35周年。今天,联想CEO杨元庆发内部信庆祝联想35岁生日,表示联想已经成为一家年收入3500亿元的全球化高科技公司。杨元庆指出,联想以研发汉卡...阅读详情