新闻 news
您现在的位置:首页 > 新闻 > Spotify如何运行Wrapped 2019有史以来最大的Google Dataflow工作

新闻

MORROR ART歌词音箱的全新颠覆体验,在照片中看见如歌的岁月。 MORROR ART歌词音箱的全新颠覆体验,在照片中看见...

MORROR ART软装艺术理念的新尝试, 探索时光之美,赋予相册和台历更多可能 让时光和音乐一样能被看见。

  • 门窗行业复刻定制家居高光时刻,森鹰窗业上市成起点?

    据悉,9月26日,森鹰窗业股份有限公司(以下简称森鹰窗业)将举办上市敲钟仪式,正式登陆深交所。 森鹰窗业是目前沪深两市第一家细分行业为“C2032木门窗制造”的上市公司。 这让笔者不禁想起2011年定制家居...

  • 百年变局新机遇 第九届岭南论坛在广州举行

    11月21日,第九届岭南论坛在广州成功举办。本次论坛围绕“百年变局新机遇”主题,原中国银行业监督管理委员会主席刘明康,中山大学岭南学院教授、博导、广东省人民政府参事陆军,斯坦福大学教授、2001年诺贝尔经济...

  • 《风雨之后总有阳光》——产业人物访谈:益宸康旅创...

    2019年,国务院发布了《“健康中国2030”规划纲要》和第七次人口普查,把中国的康养产业推上了最大的风口。紧接着,2021年4月15日,中国央视网、新浪财经、搜狐网接连报道了“七亿养老项目暴雷:老人养老积蓄人间蒸发”。...

财经

唯品会经营范围变更 新增医疗器械、蔬菜水果零售等业务 唯品会经营范围变更 新增医疗器械、蔬菜水果零售等...

天眼查数据显示,3月31日,唯品会(中国)有限公司发生工商变更,经营范围新增蔬菜零售;非许可类医疗器...

  • 品钛旗下赣州爱信小贷正式接入人民银行征信系统

        北京2020年4月7日 /美通社/ -- 领先的金融科技解决方案提供商品钛(Pintec Technology Holdings Ltd., Nasdaq: PT) 今日宣布旗下的赣州爱信网络小额贷款有限公司(下称“爱信小贷”)正式接入中国人民银行...

  • 特斯拉空头近一个月减少超200万股

      据金融分析机构S3 Partner数据显示,截至4月3日,特斯拉未平仓空头头寸为1604万股,占流通股的10.97%。过去30天,特斯拉未平仓空头头寸减少222万股或12.18%,期间股价上涨32%;过去一周,特斯拉未平仓空头头...

  • 特斯拉展示新型自研呼吸机:与Model 3共用零件

      特斯拉之前宣布将开发新的呼吸机,而现在他们展示了这种新型设计。特斯拉在YouTube发布了视频,其工程师演示了两个版本的呼吸机,一个是把所有零件摆在桌子上的原型,另外一个则是组装好的设备,用于显示在医...

  • 特朗普称将在下一轮刺激计划中为美国民众发放更多的钱

      北京时间4月7日消息,美国总统特朗普称将在下一轮刺激计划中为美国民众发放更多的钱。在白宫新闻发布会上表示,特朗普“肯定”想听取下一次刺激计划的想法,并补充道他希望其中包括“切切实实的基础设施”。  ...

Spotify如何运行Wrapped 2019有史以来最大的Google Dataflow工作

发布时间:2020/02/19 新闻 浏览:526

 
在12月初,Spotify推出了年度个性化的Wrapped播放列表,其中包含用户2019年最流行的声音。这已经成为一种传统,并不一定是什么新鲜事物,但是对于2019年,它还使用户可以回顾一下他们在过去十年中如何使用Spotify。由于这是一项艰巨的工作,因此Spotify为我们提供了一些了解如何为其不断增长的免费和付费订户生成这些列表的方法。
Spotify是Google Cloud Platform的重要用户,这已不是什么秘密。早在2016年,该音乐流媒体服务就公开表示将毕竟转移到Google Cloud,并在2018年披露将在未来三年内在其Google Cloud基础设施上花费至少4.5亿美元。
同样是在2018年,也就是那一年的“包裹”中,Spotify运行了有史以来在该平台上运行的最大的Google Cloud Dataflow工作,该服务是该公司几年前开始尝试的一项服务。 “在2015年,我们为Apache Beam和Google Cloud Dataflow构建了一个名为Scio的大数据处理Scala API并将其开源,” Spotify的工程副总裁Tyson Singer告诉我。 “我们之所以选择Dataflow而不是Dataproc,是因为它以较少的运营开销进行扩展,并且Dataflow符合我们对流处理的预期需求。现在,我们有一个为Dataflow设计和优化的出色的开源工具集,除了供大多数内部团队使用之外,还在Spotify之外使用。”
对于包括年度清单和十年清单的Wrapped 2019,Spotify的工作规模是2018年的五倍,但这样做的成本仅为四分之三。 Singer将其归因于他的团队对平台的熟悉程度。 “通过这种全球规模,复杂性是必然的结果。通过与Google Cloud的工程团队和专家紧密合作,并汲取前几年的经验教训,我们能够运行有史以来最复杂的Dataflow作业之一。”
尽管如此,即使拥有这种专业知识,该团队也不能仅仅遍历整个数据集,因为它想出了如何最好地分析数据并将其用于向用户讲述最有趣的故事的方法。 “我们处理这一问题的工作将是巨大而复杂的;为了不压倒Google Cloud Dataflow,我们需要将复杂性和处理方式分离开。” Singer说。 “这意味着从构思,数据分析到为每个用户制作独特的故事时,我们必须发挥更大的创造力,并且我们必须及时按比例或以低于成本的成本进行扩展。如果我们不谨慎的话,就有冒险浪费资源并拖慢下游团队的速度。”
为了处理此工作负载,Spotify不仅将其内部团队分为三类(数据处理,面向客户的设计和后端系统),而且还将数据处理作业分为较小的部分。对于团队而言,这标志着非常不同的方法。 “去年Spotify从事一项艰巨的工作,它使用了Dataflow中称为“随机播放”的特定功能。这里的想法是拥有大量数据,我们需要对它们进行排序,以便了解谁做了什么。尽管功能非常强大,但如果您有大量数据,则可能会付出高昂的代价。”
今年,该公司的工程师通过将Google Cloud的Bigtable用作中间存储层,最大限度地减少了Shuffle的使用。 Singer说:“ Bigtable被用作Dataflow作业之间的补救工具,以使它们以并行方式处理和存储更多数据,而不必总是重新组合数据。” “通过将我们的数据流工作分解为较小的组件,并重新使用了核心功能,我们能够加快工作速度并使它们更具弹性。”
Singer将节省费用的至少一部分归功于使用Bigtable的这项技术,但他还指出,该团队将问题分解为数据收集,聚合和数据转换作业,然后将其分解为多个单独的作业。 “这样,我们不仅能够并行处理更多数据,而且对重新运行哪些作业更具选择性,从而降低了成本。”
Singer团队的工程师开发的许多技术目前已在Spotify中使用。他说:“关于包装的工作原理,最棒的是,我们能够构建更多的工具来理解用户,同时为他们构建出色的产品。” “一般来说,我们在Scio,Dataflow和大数据处理方面的专业技术和专长被广泛用于为Spotify的产品组合提供动力。”