新闻 news
您现在的位置:首页 > 新闻 > Spotify如何运行Wrapped 2019有史以来最大的Google Dataflow工作

新闻

全国学会服务地方产业发展试点项目落地山西:迎来“晋”式医药发展变革 全国学会服务地方产业发展试点项目落地山西:迎来“...

6月17日,全国学会服务地方产业发展试点项目正式落地山西。该项目由中国科协主导,振东制药协办,研发总...

  • 十亿善款,三十二年坚守:振东制药公益“长城”这样建成

    如果说慈善事业是企业责任感的一个缩影。那么振东制药的慈善“侧写”便是大爱无疆。山西振东健康产业集团自太行山深处诞生,稳扎稳打、守正创新,跻身中国药企中流砥柱行列。引导旗下公益扶贫办凝聚共识、加强合作...

  • 千人竞逐“红气球”,振东集团公益精神在晋中大地闪耀

    5月25日,山西省高校新区(山西大学城)热闹非凡,2025“红气球挑战赛”(晋中站)在此鸣笛开赛。这场没有奖金的赛事,却吸引了来自社会各界及山西大学城高校的一千余名选手踊跃参与,他们“一起红气球,快乐学急救”...

  • 振东集团:32年慈善长跑背后的“共富密码”

    在商业与公益的天平上,山西振东健康产业集团选择了后者——即便负债也要坚持的"变态慈善"。这家从太行山走出的民营企业,用32年时间构建起一套独特的公益生态系统,累计捐赠超10亿元,将"与民同富、与家同兴、与国...

财经

唯品会经营范围变更 新增医疗器械、蔬菜水果零售等业务 唯品会经营范围变更 新增医疗器械、蔬菜水果零售等...

天眼查数据显示,3月31日,唯品会(中国)有限公司发生工商变更,经营范围新增蔬菜零售;非许可类医疗器...

  • 品钛旗下赣州爱信小贷正式接入人民银行征信系统

        北京2020年4月7日 /美通社/ -- 领先的金融科技解决方案提供商品钛(Pintec Technology Holdings Ltd., Nasdaq: PT) 今日宣布旗下的赣州爱信网络小额贷款有限公司(下称“爱信小贷”)正式接入中国人民银行...

  • 特斯拉空头近一个月减少超200万股

      据金融分析机构S3 Partner数据显示,截至4月3日,特斯拉未平仓空头头寸为1604万股,占流通股的10.97%。过去30天,特斯拉未平仓空头头寸减少222万股或12.18%,期间股价上涨32%;过去一周,特斯拉未平仓空头头...

  • 特斯拉展示新型自研呼吸机:与Model 3共用零件

      特斯拉之前宣布将开发新的呼吸机,而现在他们展示了这种新型设计。特斯拉在YouTube发布了视频,其工程师演示了两个版本的呼吸机,一个是把所有零件摆在桌子上的原型,另外一个则是组装好的设备,用于显示在医...

  • 特朗普称将在下一轮刺激计划中为美国民众发放更多的钱

      北京时间4月7日消息,美国总统特朗普称将在下一轮刺激计划中为美国民众发放更多的钱。在白宫新闻发布会上表示,特朗普“肯定”想听取下一次刺激计划的想法,并补充道他希望其中包括“切切实实的基础设施”。  ...

Spotify如何运行Wrapped 2019有史以来最大的Google Dataflow工作

发布时间:2020/02/19 新闻 浏览:609

 
在12月初,Spotify推出了年度个性化的Wrapped播放列表,其中包含用户2019年最流行的声音。这已经成为一种传统,并不一定是什么新鲜事物,但是对于2019年,它还使用户可以回顾一下他们在过去十年中如何使用Spotify。由于这是一项艰巨的工作,因此Spotify为我们提供了一些了解如何为其不断增长的免费和付费订户生成这些列表的方法。
Spotify是Google Cloud Platform的重要用户,这已不是什么秘密。早在2016年,该音乐流媒体服务就公开表示将毕竟转移到Google Cloud,并在2018年披露将在未来三年内在其Google Cloud基础设施上花费至少4.5亿美元。
同样是在2018年,也就是那一年的“包裹”中,Spotify运行了有史以来在该平台上运行的最大的Google Cloud Dataflow工作,该服务是该公司几年前开始尝试的一项服务。 “在2015年,我们为Apache Beam和Google Cloud Dataflow构建了一个名为Scio的大数据处理Scala API并将其开源,” Spotify的工程副总裁Tyson Singer告诉我。 “我们之所以选择Dataflow而不是Dataproc,是因为它以较少的运营开销进行扩展,并且Dataflow符合我们对流处理的预期需求。现在,我们有一个为Dataflow设计和优化的出色的开源工具集,除了供大多数内部团队使用之外,还在Spotify之外使用。”
对于包括年度清单和十年清单的Wrapped 2019,Spotify的工作规模是2018年的五倍,但这样做的成本仅为四分之三。 Singer将其归因于他的团队对平台的熟悉程度。 “通过这种全球规模,复杂性是必然的结果。通过与Google Cloud的工程团队和专家紧密合作,并汲取前几年的经验教训,我们能够运行有史以来最复杂的Dataflow作业之一。”
尽管如此,即使拥有这种专业知识,该团队也不能仅仅遍历整个数据集,因为它想出了如何最好地分析数据并将其用于向用户讲述最有趣的故事的方法。 “我们处理这一问题的工作将是巨大而复杂的;为了不压倒Google Cloud Dataflow,我们需要将复杂性和处理方式分离开。” Singer说。 “这意味着从构思,数据分析到为每个用户制作独特的故事时,我们必须发挥更大的创造力,并且我们必须及时按比例或以低于成本的成本进行扩展。如果我们不谨慎的话,就有冒险浪费资源并拖慢下游团队的速度。”
为了处理此工作负载,Spotify不仅将其内部团队分为三类(数据处理,面向客户的设计和后端系统),而且还将数据处理作业分为较小的部分。对于团队而言,这标志着非常不同的方法。 “去年Spotify从事一项艰巨的工作,它使用了Dataflow中称为“随机播放”的特定功能。这里的想法是拥有大量数据,我们需要对它们进行排序,以便了解谁做了什么。尽管功能非常强大,但如果您有大量数据,则可能会付出高昂的代价。”
今年,该公司的工程师通过将Google Cloud的Bigtable用作中间存储层,最大限度地减少了Shuffle的使用。 Singer说:“ Bigtable被用作Dataflow作业之间的补救工具,以使它们以并行方式处理和存储更多数据,而不必总是重新组合数据。” “通过将我们的数据流工作分解为较小的组件,并重新使用了核心功能,我们能够加快工作速度并使它们更具弹性。”
Singer将节省费用的至少一部分归功于使用Bigtable的这项技术,但他还指出,该团队将问题分解为数据收集,聚合和数据转换作业,然后将其分解为多个单独的作业。 “这样,我们不仅能够并行处理更多数据,而且对重新运行哪些作业更具选择性,从而降低了成本。”
Singer团队的工程师开发的许多技术目前已在Spotify中使用。他说:“关于包装的工作原理,最棒的是,我们能够构建更多的工具来理解用户,同时为他们构建出色的产品。” “一般来说,我们在Scio,Dataflow和大数据处理方面的专业技术和专长被广泛用于为Spotify的产品组合提供动力。”