火山引擎数智平台VeDI发布，字节跳动罗旋谈企业数据实践

2022-09-06 15:27:41 来源：中闻网

9月2日，火山引擎V-Tech数据智能科技峰会召开，峰会上新一代企业级数据产品火山引擎数智平台VeDI正式发布。

字节跳动数据平台负责人罗旋表示：“增长，源于每个人做的每一次正确的决策，从战略、管理到执行。而决策是否正确，在没有数据驱动的情况下，更像是一种玄学。数据驱动能够让决策方法变得更科学，而更科学的决策也就会无限趋近于正确。”

本文根据罗旋演讲内容整理。

字节跳动的数据文化、工具与组织

大家好，我是罗旋，负责字节跳动数据平台。

首先我们来看一个，经常被问到的问题：字节跳动的增长，是如何实现的?相信大家也都看过网上很多分析文章，也有些自己的判断，有说运气好的，有说战略决胜的，有说赛道选的好，也有说网状组织结构先进的……这些可能都对，但也比较局部。今天我想从数据驱动角度来解释一下这件事情。

一，数据文化提升意识。

字节跳动是一家非常注重数据的公司，甚至连一开始给“今日头条”这个APP取名也是靠A/B测试。可以说，字节跳动是一家数据驱动的“数字原生”公司。作为一家把数据驱动作为文化基因的公司，字节跳动在各个角色、层级，从CEO、高管、中层管理者，到一线员工，都非常广泛、细致地使用、依赖数据。对数据的依赖和应用程度，都是业界比较领先的。

从高管的视角来看，很多宏观层面问题需要被解决，如公司的经营状况如何，收支状况怎么样，团队是否健壮，组织是太肥了还是太瘦了，宏观经济形势如何，公司策略是否要随之调整……而在字节跳动，这样的信息，都必须用数据指标，来描述和支撑，我们会把它们分类整理，承载到管理驾驶舱上。从覆盖面和精细度来说，我们有上千个数据指标，使用频度也很高，每天都有大量访问。甚至有管理层手绘设计图，来讨论这些数据应该如何组织，数据产品应该如何交互。

最高决策层往下，就是各业务的中层管理者们。他们除了关心某个业务板块的进展是否良好，有哪些待突破点等业务问题之外，也有很重的团队日常管理工作。很多企业，都会用数据来监测各项业务指标。但在是字节跳动，我们不仅监测业务指标数据，还把数据驱动用在日常管理工作中。比如，目标制定、OKR追踪管理、周报周会的进展同步、组织效率等等，这些都有大量的指标来刻画，并使用各种数据产品来跟进、追踪、对齐。

对一线同学来说，场景就更广泛多元了。每个月直接使用数据产品的一线同学就超过10万，字节一共只有十几万员工，这还不包括间接使用数据服务的情况。在日常的开会讨论中，几乎不可能出现一个会，存在没有数据的情况，否则会被挑战得很厉害。而在不同场景下，使用的精细度也非常高，甚至会有一些意想不到的地方。举个例子，比如，在劣质内容的治理上，我们不只是用数据快速分析识别哪些是劣质内容，在对这些内容的处罚中，也会用A/B测试来进行判断，以选择更有效的处罚策略。

二，数据工具推动执行。

通过刚刚的几个case，大家可能对字节的数据驱动文化有了一定的感知。但光靠意念是不够的，文化的落地需要有称手的工具。

那字节跳动的同学们，用什么工具呢?这个是字节跳动数据平台的产品架构图。我们整体分成数据引擎层、数据建设管理层、数据分析应用层以及解决方案层。数据产品架构覆盖了数据全生命周期的整条链路。如果快速总结一下，我们整体数据产品的特点，可以用两个词来概括，那就是敏捷和易用。

敏捷方面，简单来说就是更快、更灵活。

快的方面，我们让数据的各个环节都变快，不论是采集加工还是消费分析。比如，我们能实现海量数据的实时写入、实时分析;十亿级的数据的查询可以做到亚秒级响应;搭建的实时数仓，能给正在直播的卖家们以数据反馈，让他们及时调整自己的策略，抓住转瞬即逝的机会。

灵活方面，主要体现在数据处理模式、使用姿势的灵活性上。我们能让一线同学基于明细数据自助分析，而不用预定义指标;支持定制化，而不仅是固化的数据标签。因此当我们做数据治理时，就可以自定义目标，分阶段定优先级，采用对应治理规则等等。

易用方面主要体现在下面的三个方向：

门槛低。没有任何技术背景的同学可以无代码搭建数据门户，没有统计学背景的运营也能开启AB实验。

上手快。不会SQL也没关系，只要你知道自己想要哪些指标，对数据元信息有了解，5分钟就能搭建分析图表。

协同广。数据产品之间，数据产品和飞书、日历、业务系统等多产品之间的无缝联通，也让大家更方便看数据，用数据。

如果再回过头来想想，为什么会是这两个特点?其实也很好理解。因为更易用的产品，才能被用得更广泛，才能让公司的每个员工都用起来;更敏捷的产品，才能被用得更深入，才能够，在直播这样要求非常实时的场景，在数据需求非常多变的情况下，也都能支持。

只有数据被用得又广又深，数据驱动的文化，才能有效落地。

三，高效组织撬动飞轮。

文化提升意识，工具落地执行，是不是就够了?对于业务复杂程度高，或者业务规模大的企业来说，好的组织模式是一个杠杆，能够更大程度撬动数据与业务这两个飞轮互相驱动。那什么算好的组织模式呢?我们的选择是中台+BP的模式。当业务非常复杂，又存在多个形态差异大的业务时，完全通用共性的产品有时不够贴近业务场景。这个时候我们用数据BP模式来解决，数据BP是一个更深入业务线的角色，类似于HRBP跟业务的深度协同关系。数据BP会根据不同业务特点，灵活组合数据中台的产品技术能力，来解决更具体的业务问题。这非常类似于ToB场景中的解决方案角色，能站在客户和实际业务痛点的视角看问题，从而规避了过于侧重中台和技术视角的风险。如果要做类比理解的话，中台+BP的模式，非常类似于“中央厨房 + 终端餐厅”的关系。

上面讲了我们在文化、在工具和在组织上的实践案例和经验。再回到最初的问题，谈谈我们对增长的理解。我们认为：增长，源于每个人做的每一次正确的决策，从战略、管理到执行。而决策是否正确，在没有数据驱动的情况下，更像是一种玄学。数据驱动能够让决策方法变得更科学，而更科学的决策也就会无限趋近于正确。字节跳动从第一天就相信数据驱动科学决策的重要性，多年来也一直坚定不移地在实践。当然，我们承认，一定有其它重要的因素也在影响着业务发展，比如宏观经济形势，赛道趋势等等。但数据驱动的文化，趁手的工具，高效的组织，这些一定会是增长的关键决定因素。

火山引擎数据智能平台VeDI

讲完了对数据驱动的理解和字节跳动的实践经验，我们来看看火山引擎数智平台。火山引擎数据智能平台VeDI，是我们对字节跳动数据经验的复刻。这个“智”，除了通常大家所理解的自动化、智能化之外，我们更想强调的是，融入产品的经验“智慧”。这也是字节十年来在数据领域的积累沉淀。我们希望把成功服务过抖音等诸多成功业务的经验拿出来，通过火山引擎服务更多外部企业。

上图是我们整体火山引擎数智平台的产品家族图谱。可以看到整体分成PaaS和SaaS两部分，我们提供了覆盖数据全生命周期的产品服务，与内部产品完全对应。

PaaS层主要分为数据引擎和数据研发治理。分析引擎主要解决的是如何实现海量数据下既快又稳还省的问题，这里面有湖仓一体分析服务的LAS，有开源大数据平台的EMR，有提供极致分析性能的云原生数据仓库ByteHouse。数据研发治理DataLeap，提供的是数据集成、开发、运维、资产管理等能力。而在字节的数据经验中，数据治理是其中比较有特色的一环。我们倡导分布式数据治理，提供工具，将治理过程做系统化抽象，让它更流程化、自动化。同时，我们沉淀下来50多条治理规则，能让各业务方依据不同业务的不同阶段的优先级，进行目标的自定义和自治，更大程度提升数据治理的适配性和效率。SaaS产品是我们这次重点升级的系列，目的是更大程度地将数据驱动融入到业务环节中去。我们提供了更具有场景化的模板，产品间协同性也显著增强。

接下来，我会重点围绕场景化和协同性这两个特性，来发布我们升级后的产品。

一，场景更丰富。

我们在面对客户的时候，经常会被问到一些问题：“我这个行业指标体系要怎么构建?数据可以有很多，但哪些是我这个场景下最关键最需要采集的?” 在DataFinder4.0中，我们特别发布“场景模板”来解决这类问题。我们在产品中预置了针对不同行业的核心场景模板，用户可以自由选择，一键生成看板。生成的看板则可直接用于对应的场景，满足日常业务指标跟踪或特定业务目标的分析等需求。

上图展示的就是目前预置在DataFinder里各行业一些典型场景模板。我们在服务内外部业务过程中，积累的分析经验和方法论，都抽象在这些场景模板中。

二，协同更融合。

协同性方面，首先让我们来看一个ABI产品DataWind跟飞书协同的案例。本次升级后的DataWind，会在多个方面与飞书高度协同。我们目前可实现：

通过飞书机器人，一键订阅数据报告，数据实时触达，定期掌握数据动态;

当出现关键数据波动时，及时向负责对象推送异动报警信息;

针对有疑问的数据，不但可以实时评论，还可以一键拉群，对数据问题进行讨论和归因分析;

分析后的BI图表，可以嵌入回飞书云文档中，做分析报告，总结沉淀。

对于数据量不大的场景来说，也可直接使用飞书表格作为数据集，接入DataWind分析。例如：某企业区域经理要做经销商管理，经销商们可以通过飞书表格同步数据;而区域经理则跳转到Datawind进行多维度交叉分析，并且将分析结果制作成图表;同时，在有数据权限精细控制的前提下，将分析图表，分发到飞书群或是云文档中。DataWind跟飞书的联动，仅仅是其中一个例子。它代表了数据产品与协作办公产品的打通，这也是将数据驱动的边界，不断向业务深处推进。

而我们在对外的产品协同性上会更激进一些，不仅是飞书，主流办公协同工具都能集成使用。除了与协作平台之间的联通拓展之外，火山引擎数智平台内产品与产品间的协同也更丝滑。以营销套件内的产品为例，协同具备以下特点：

数据共通：底层数据源统一采集、统一存储、统一格式，多方产品共用;

标签联动：VeCDP内创建标签之后，Datawind中将自动生成标签结果数据集，用户可以直接进行分析，GMP、Finder也都能直接用;

体验同步：不同产品中的数据看板可互相嵌入嵌出，比如DataFinder和DataWind;不同数据产品中，创建的群体也可以互相同步，比如DataWind和VeCDP;

设计统一：套件产品整体设计风格统一，以保障不出现产品设计体验上的割裂感。

如果把这些能力用一个实际的场景串起来，大家可能更容易体会。某业务负责人早上醒来，在体内数据驱动基因的驱使下，打开手机飞书。看了一眼自己订阅DataWind看板卡片，发现昨天某活动的营收数据，显著低于了预期目标。于是他立即一键拉群，并@了相应负责人。拉群之后，活动对应的负责人、分析师、数据研发同学等不同的角色都在群里了。大家点击指标跳转到DataWind里，通过使用DataWind内置的智能归因算法发现渠道因素的影响最大。做出这一步，也是最初步的诊断结论的时候，时间只过去了不到10分钟。

接下来，还要做更详细的诊断分析，看看不同渠道的转化情况。而DataFinder其实更擅长解决渠道分析的问题，通过预嵌入DataWind的DataFinder看板，大家查看了不同渠道下的转化漏斗对比，发现A渠道的人群跳失率太高了，基本上页面点一下就马上走了，说明这个渠道的投放都打了水漂。那该怎么补救呢?大家挑选了转化率较好的B渠道，将他们的数据回流到VeCDP中，并建立了画像标签，并基于此对原来投放的目标群体画像做了修正，使得其更精细化。

下一步就是投放，用VeCDP刚生成的画像标签和人群包，在抖音广告体系内做比之前更精准的定向投放。此时问题又来了，用什么样的文案素材更好呢?通过DataTester，大家针对不同的人群，灰度测试选出了更适合，转化率更高的素材。当正式投放开始后，DataFinder又可以继续用来分析投放效果了。此外，还能针对引流过来的新用户，通过GMP进行私域的push或者短信，提升私域用户的活跃度。这就是一个企业如何利用火山引擎数智平台，实现的数据驱动科学决策，进而解决业务问题的例子。有时候，它可能只是从小小的数据异常开始，但却能贯穿了企业从上到下的各个角色和环节。

在整个火山引擎数智平台能力升级的背后，有我们一整套的数据技术能力在支撑。今天，我们也将首次对外发布火山引擎数智平台的技术栈，让大家全方面了解火山引擎数智平台从数据引擎到数据管理以及数据应用上端到端的全链路数据能力。

这些技术能力，除了通过刚刚介绍的商业产品对外服务，也会通过部分开源的形式来对企业提供技术上的帮助。在字节数据平台发展的过程中，我们也享受过开源社区带来的便利，所以我们也将自己在实践中自研比较成熟的系统开源出来，回馈给广泛开发者。目前，我们即将开源的几个项目包括数据集成项目BitSail和数据分析引擎ByConity开源项目等，预计年内就会发布，大家敬请期待。

最后，让我们简单回顾一下。今天主要分享了字节跳动的数据经验以及我们如何把它复刻在火山引擎并升级迭代的。我们认为，所谓的数据驱动不是有数据就可以驱动，还需要文化理念，精良工具产品，合理的组织;数据产品除了产品技术能力之外，还需要有被验证过的经验智慧的沉淀。火山引擎数智平台VeDI，就沉淀了字节跳动在数据驱动方面的经验智慧。期望它能够帮助大家深入业务，让每一次业务决策更科学，从而驱动业务的发展。

谢谢大家!

编辑：杨艳

标签：