LinkedIn首席科学家:创业公司如何善用数据,加入下一个千亿美元市场?
ahxxm 发表于 2012.7.26| 点击数13852
据麦肯锡大数据行业研究报告,欧元区的大数据行业将通过改善公司运行效率、减少出错和增加税收,为公共部门创造2500亿欧元左右的产值。同时,行业需求的人才数量不断上升,但由于市场滞后性,可以预测此类人才在近几年内都是非常抢手的。
本文写于2011年9月16日,作者DJ Patil,曾于2008年5月到2011年5月间在LinkedIn数据科学团队担任管理者,“你可能认识的人”等著名机制就来源于他的团队。编者有删改。
早在2008年时,我就和Jeff Hammerbacher 对于“如何打造Facebook和LinkedIn的数据收集和分析团队”这个话题有过经验交流,我们在许多方面都达成了共识,这些共识总的概括起来成为一句话:数据科学是一项独特的专业技能(具体见本文第二段“数据科学家应有的素质”)。
数据科学就是从那时候开始逐渐热门起来的,如今数据科学界有着按时召开的讨论会议、富有潜力的数据分析类新创公司,甚至有些大学都开设了这门课程,尽管如此,数据分析类人才依然非常紧缺。
LinkedIn求职板数据,以及McKinsey的研究报告
这种局面是Google、Facebook、Amazon等互联网巨头对于数据的创造性运用造成的。巨头们拥有顶尖的数据科学家,数据科学家们用这些数据创造了巨大价值:让搜索结果变得更准确,准确投放广告获得更高点击率,向用户推荐“可能认识的人”等等。数据科学为互联网带来了许多改进和有价值的产品,但它的适用范围不仅仅在于互联网,沃尔玛并没有做出类似产品,但沃尔玛之所以在零售业如此出类拔萃,就是因为它一直在用各方面数据优化着业务。
数据科学的重要性毋庸置疑,那么数据科学家为公司带来了什么?他们如何做到这些的?公司应该如何打造一个有效的数据科学团队?
一、让数据驱动业务
(译者注:“机会驱动”、“量化分析”这两个词可以帮助理解。)
每个企业家都想要让数据驱动型公司,“数据驱动”这个词脍炙人口,关于它的书籍、期刊、博文也数不胜数,但数据驱动型公司到底是怎么样的?我的定义是这样:
数据驱动型公司反复收集、处理和运用数据以提高效率、创造新产品,最终引领市场走向。
行业分析者们设计了许多评判一个公司是否属于数据驱动型的方法,有些人以数据量为标准、有些以数据复杂程度和处理难度为标准,我更看重公司对于数据的使用效率。
电子商务网站多年前就开始利用这些数据,配合算法向用户推荐商品。Amazon创造了一种新的推荐模式,“查看此商品的顾客也查看了……”、“看过此商品后顾客买的其它商品有……”、“购买了您最近浏览过的商品的顾客同时购买了……”。
它们是Amazon网站最常用的功能之一,看起来有点拗口,但这个模式非常强力,用户不再需要用传统搜索功能大海捞针般寻找想要的商品,当用户对某个产品的特定属性不满意时,底下会有同类替代品,它们由与有着相同爱好的人们帮助筛选出来,这些替代品符合用户需求的可能性大大提高;同时Amazon还会将用户可能想要的产品列出——注意,仅仅是“可能”想要——以刺激用户购买欲望,最终促进销量。
这就是对数据高效运用的结果,是Amazon在电子商务行业进行的一场革命。
数据科学产品同样是社交媒体的核心,毕竟,如果没有这些产品用于增强用户互动,社交网络何以成为社交网络?以“你可能认识的人”为例,这也许是社交网络里最重要的基础功能,因为一个个搜索朋友、同事、家人然后添加好友是个非常麻烦的过程——试想当你搜索“John Smith”,结果发现有几万个人叫这名字的场面。
LinkedIn发明了“你可能认识的人”(PYMK)机制,PYMK机制理论基础很简单:当A认识B、B认识C时,A也许会认识C。但实际上结论并不一定成立,设计方法分析这个可能性的大小就是数据科学们要做的事情之一。
PYMK机制在当时是很新奇的,但各大社交网络迅速抄袭了它。Facebook在原有模式上做出了改进,不仅支持PYMK,还监控这个机制对于用户新增好友速度的影响。
经过长久监控和复杂的数据分析后,Facebook发现了保证“该用户会长期持续进行社交活动”需要的好友数和两次新增好友之间的间隔时长,形象的说,好友少和好友增加速度较慢的用户一般不会长期在社交网络活动,因此Facebook想方设法让新用户一开始就能获得一定数量的好友。
Netflix数据科学团队发现,相比不提供任何信息的用户,在“想看的电影”列表添加了一定数量电影的用户成为网站长期使用者的概率要显著高出许多。所以在当新用户注册Netflix时,网站会强烈建议用户填写“想看的电影”,并且网站仍在不断优化注册和试用流程(网站服务收费、为新用户提供免费试用期)。
Zynga也利用统计数据与用户保持长期关系,让用户持续地使用网站玩在线游戏。Zynga对于用户个人信息和在网站上的行为都有统计,长期统计带来了大量数据,数据分析创造了极大价值——从对人们参与游戏情况的分析中,发现了如何创造成功的游戏;在对游戏内人们互动情况进行分析后,发现了影响用户长期玩某游戏可能性的因素,等等等等。
多年来前端工程师和美工们都是凭本能设计网页的,这没什么错。然而Google和Amazon将A/B测试法(单变量测试)运用于优化网页设计——某个细节的更改,是否促进了商品销售量?用户要多久才能发现这些改变?这个改变造成了用户流失吗,有多少用户走了?
这些关系到网站运行效率的因素,只有通过实验、数据收集、数据分析一步步才能发现。从数据分析中得出成功需要的硬性条件,团队任务自然是朝着这个条件优化产品,这就是数据驱动型公司。
雅虎对于数据科学的发展有着巨大贡献,看到Google使用MapReduce分析海量数据获得的成功之后,雅虎意识到自己也需要一个同类工具用于数据分析,所以雅虎选择了Hadoop。尽管后来这个工具被商业化,而且分析功能有着这样那样的缺陷(如对于数据流的分析效率很低),雅虎还是聘用了几十名工程师开发新的开源工具弥补缺陷,目前Hadoop已经成为所有数据科学家们必备工具中最重要的之一。
支付行业竞争非常激烈,PayPal、Visa、American Express、Square百花齐放,稍有不慎就会落后于其他所有公司,然后灭亡。为了在竞争中保持优势,这些公司打造了复杂的监控系统,提升安全性并排除支付过程中一切出错状况,产品对这些系统的要求非常高,每个请求都必须在几毫秒之内处理完毕,因为接下来还有无数请求等着处理。
所有搜索引擎为了提升用户体验,都会检测搜索结果的相关程度,从无数点击中分辨出有效的,进行统计然后改进。这大概是数据科学中最难的一块,但Google发明了许多新技术克服这个难题,硬件有自制计算机、高性能分析软件MapReduce、算法如PageRank等等,现在这些数据科学的成果大多成了开源项目。
我发现这些最著名的数据驱动型公司都有相同格言:“无法量化,就无法改善。”以及与这种心态相配的几个措施:
1.尽可能多的检测和收集数据,不论是在设计产品还是改善商业模式,如果不收集数据,就不会有头绪。
2.主动而有规律的进行收集工作,量化战略和产品的成功程度。
3.整理数据,让更多的人看到以发现问题,“群众的眼睛是雪亮的”。
4.深入分析数据变化的原因,以及数据不变化的原因。
所谓数据驱动型公司有很多,因为收集数据的门槛不高,但如果你公司能收集与自己产品有关的绝大部分数据、按照以上这几条进行分析和改善工作,就超过了其中绝大部分。
接下来我要谈谈关于数据科学家的一些事情,注意,数据并不只是专业者独有的东西,公司里的每个员工都应该关注它们。
二、数据科学家们的职责
在我工作过的和担任过顾问的公司中,数据科学家不论多寡,说话都是非常有分量的。
数据科学家们的职责主要有以下几类:
1.决策科学和商业智慧
数据对公司运营的多个方面都有举足轻重的影响,从战略决策到具体实施规范。数据科学家们监控数据,发现并总结出决策中需要考虑的因素。
听起来简单,但实际上这个过程称得上是一门艺术。每个因素都与全局息息相关,牵一发而动全身,一个浅显的例子是,看数据不能光看百分比、分母也很重要。随着公司业务逐渐做大,需要考虑的因素也变得越来越多,整个过程越来越复杂。打个比方,将一个只报告温度的天气预报,与报告温度、气压的相比,再与包含温度、气压、湿度等一系列信息的天气预报相比,可以看出,质量要求的提升会带来数据收集和分析难度提升。(译注:作者典故可能用的有点突兀,不过不会有头没尾,后面有照应的。)
数据科学团队发现了这些因素之后,总结的过程也非常重要,给不同人群写报告需要使用不同工具,从简单的表格、到网页上的视觉化信息图以及更为复杂的商业产品,越复杂的产品提供的功能就越多,通过注释和对比,可以突出报告重点、提供额外分析和横向纵向的比较。
大的数据驱动型公司会推动数据“民主化”,让数据不再只是数据分析团队和高级管理层专属,每个人都可以合法的浏览这些数据。
Facebook是数据民主化的先驱,所有人都能用Hive语言在其数据库(基于Hadoop)进行查询,这意味着,稍微有点脚本语言基础就能创立一个属于自己的数据分析面板。
Zynga也有类似的机制,不过采用了完全不同的技术,Zynga建立了两个数据中心,一个有着严格的服务等级协议,为其核心服务提供支持,另一个用于为员工提供数据查询服务,不保证随时都能表现出最佳性能。
更加传统一些的公司,例如eBay也这么做了,eBay采用了类似Teradata的技术,为每个工作小组提供与其相关的数据库和数据存储空间,使小组能方便的利用和修改数据。
随着数据科学的发展,公司们在做决策时对于数据报告和分析越来越依赖,我们把这个新的决策模式称为“决策科学”。决策科学团队将自身收集和分析的数据与外部的进行对比,描绘出竞争格局,从中发现应该优先使用的策略,然后为策略制定中的假设提供证据支持,团队可能专注于“我们接下来应该往哪个国家拓展业务”、“这个市场是否已经饱和”类似的问题,解决这些问题不仅需要数据,还要做出用于预测的模型,并用现有数据或者实际市场反应检验这些模型。
警惕:新接触数据科学的人往往喜欢寻找“银弹”,在数据科学中“银弹”指能用于构造整个系统的神奇数字,银弹是可遇而不可求的,真正杰出的数据科学团队会寻找一个个杠杠,将收益最大化。
2.产品和市场分析
产品分析是数据运用中一个相对较新的新领域,数据科学团队创造了直接与用户互动的环节,例如:
用户对于内容有高度自主权的产品,如新闻聚合程序中用户对于新闻源的控制、调整某个新闻源的展示优先级。
推动公司价值定位的程序,如“你可能认识的人”和其他促进用户互动的程序。(译注:价值定位价值链中的一个环节,对“公司能为用户提供什么产品”进行定位)
推荐其他产品的链接,如LinkedIn用户使用群组功能时,网站提示“你也许会喜欢这个小组”。
防止用户直接离开、利用其他用户提供的数据进行推销的提示,如上文中提到的Amazon那一系列“你可能……”。
独立而有统计意义的产品,如Google News和LinkedIn Today,可以用于分析新闻与用户喜好的相关程度。
随着计算成本的迅速下降,用公开的算法和技术开发这些产品的成本也迅速下降。
市场分析与产品分析差不多,也是利用数据对产品和服务进行价值定位,市场分析的典范是OKCupid博客,它分析多种来源的数据对未来趋势进行预测,博客上几乎每篇文章都很出名,其中有一篇研究拥有智能手机的品牌与性伴侣数量之间的联系,“iPhone用户是否会有更多乐趣呢?”,一篇根据新增好友的数量、研究用户在社交网络中使用不同头像产生的吸引力大小差异。
这些文章评论都至少达到三位数,被许多传统媒体转载和引用,在各大社交网络中被用户们分享传播,用户们和市场的反应证明文章分析做得非常到位。
长期以来电子邮件都是商家与客户和潜在客户交流的主要方式,公司们对电子邮件进行分析也不是近期才开始的,但是强有力的新技术能用丰富内容开创一个新的电子邮件营销方式。
例如Facebook会对不活跃用户发送邮件,提醒登陆;LinkedIn网站周期性的给用户发送邮件,将用户社交圈子的动态浓缩在其中,新的工作职位、引人注目的文章、新的好友等,若非如此,单纯的没有任何内容的广告邮件会被系统当作垃圾邮件处理。
一个用心经营过自己社交网络的人,看到这些邮件中好友动态,必然不会轻易删除它们,这就是用新技术进行营销的效率。
3.欺骗、滥用、风险、安全
(译注:前文中提到支付公司,它们的漏洞可能不那么容易理解,形象的说,某种攻击方式——如DDoS——让它们死机就能造成巨额损失。
App Store本次漏洞中,发现者使用的“中间人攻击”就是一种欺骗,花费一定成本进行App内购买,监控并记录购买时的数据,然后伪造成iTunes,修改这些数据开出“已经购买的证明”,让程序服务器相信用户已经购买。
值得一提的是,大约十年前米特尼克就在《欺骗的艺术》一书中写到了这种手段,并让公司们警惕。)
利用互联网进行高科技犯罪的人有着高超的隐藏手段,和现成的掩护者:海量数据。数据分析在这类持续进行的防御战争中起着决定性作用,数据收集、入侵检测、压力抵抗、蜜罐取证等等机制设计过程都与数据科学家拥有的技能有关。
一切都从数据收集开始,数据收集永远是个挑战,因为很难确定收集的数据规模和种类足以支持结论,事实上由于存储空间和计算带来的成本,数据科学家们必须缩小范围,找出对结论影响最重要的因素,最终设计出像“如果收集了足够的x和y数据,我们就能了解正在发生什么”一样的检测模型。
检测欺骗、滥用等行为的另外一个问题是时间限制,攻击者如果持续进行DDos攻击,同时检测流程效率过低的话,会影响网站正常运作。许多公司都意识到了检测效率的重要性,雇佣了数据科学家,让他们用复杂的工具改进检测流程,缩短系统反应时间。
检测到攻击的下一步是防御,缓解服务器压力,从所有用户中分辨出攻击者然后踢开他,这需要将已收集的数据作为变量,设计精密的分辨模型,是个很重要的过程。(译注:再带点私货,所谓“主动防御”也是先检测程序行为,不过是比被动防御消耗资源更大、有借口提醒你机器不安全而已。)
以IP地址为例,几乎所有的系统日志机制都会收集使用者的IP,IP地址本身用处不大,但是作为变量来说,某IP地址的统计数据可以转化为:
在一定时长内来自此IP地址的异常行为
用户在全球的分布状况和其他地理位置信息
这个IP上的用户是否经常在此时访问网站
数据->变量->模型->结论。
4.数据服务和操作
数据驱动型公司的一大核心业务就是利用数据提供服务,数据团队对于数据库安全、存储结构、查询模式负有责任,他们需要监控并保证数据系统正常运作,因为其他功能都依赖于这个系统。
在我看来,随着数据科学团队重要性的不断上升,它与其他团队协作的需求也在不断上升,传统团队应该改变自己习惯,以适应数据团队的功能和服务,而且他们需要被数据团队监控,以保证稳定性,员工们应该随时准备处理服务器崩溃等紧急情况——成熟的公司就是在这些方面有着专业人才。
公司们对统计报表有着需求,这是数据团队的责任之一,他们要发现并总结出重点,按时上交报表。同时也会出现某个因素大笔一挥就写了出来,但由于硬件和软件限制,这个因素不那么容易得出、会对服务器造成过大负担的情况,所以与决策科学团队沟通合作也是非常重要的。
5.数据工程和基础设施
对大规模数据进行测量、追踪、转移和处理的工具复杂程度是非常难以理解的,而构造这些工具就是数据工程团队的责任。
近些年科技发展极快,一些开源项目促进了这类工具,举几个例:
Kafka、Flume、Scribe :是用于收集数据流信息的工具,它们使用的模型并不一样,不过工作程序相似——从多个来源收集数据,进行整合,然后输入数据库。
Hadoop:Hadoop是目前最流行的数据处理框架。它是个面向批量数据处理的开源项目,创建者Doug Cutting受到MapReduce的启发设计了它,许多数据流处理的新技术都采用了Hadoop。
Azkaban 和Oozie:作业调度程序,管理和协作复杂的数据流。
Pig和Hive:对于大型非关系数据库的查询语言。
Voldemort、Cassandra、HBase:保证大规模数据存储使用时的良好表现。
同样重要的还有对于这些系统的检测和部署技术。
数据分析团队在构造了这些大规模数据处理工具之后,会将这些工具应用于产品和市场分析团队。一个视频推荐引擎也许由SQL、Pig或Hive构建,如果测试表明这个引擎有效、有市场价值,数据分析团队就要优化它,部署至服务器上,严格遵循服务等级协议规定的稳定性和效率运行。
这个从原型到实际产品的过程,有时甚至需要完全推到重写,例如当SQL和关系型数据库表现无法达到要求时,程序就必须移植到其他类型的数据库上,如HBase,移植成功后又要重新检测运行效率,这需要相当复杂的编程。
6.提高公司内部互动和规范程度
一个公司的运营应该由这些数据指导,还是根据其他机制?这是个问题。
有许多需要考虑的事情,员工、公司规模、运营状况、目前公司类型(产品驱动、市场驱动)。有些公司以数据团队为中心,有些将数据团队与其他团队相互融合,机制有非常多种。
在公司初创时,每个人都扮演着不同角色,因为无法负担起多个团队用于分析、安全、运营、基础设施建设,但随着公司的发展,分工也变得明确和专业化,这是保证成功的手段之一。
在这一点上,我有三条建议:
在团队规模还很小的时候,成员们更应该加强沟通,这样能很方便的反应和解决问题。
授人以渔,这能提高公司成为数据驱动型的可能性。前文提到Facebook和Zynga等公司将数据公开化,结果是员工们帮助发现了一些影响产品成功程度的因素,这种模式在五年前是闻所未闻的。对于数据的观察和分析需要训练,所以公司应该开设这门课程。
各个职能部门有规律的定期相互联系,数据科学的发展会带动科技创新,为了让所有部门能跟上步伐,定期交流经验是非常重要的。
三、数据科学家应该有哪些素质?
我和Jeff Hammerbacher 在讨论如何打造数据科学团队时意识到,随着公司成长,我们发现不知道应该如何称呼这些团队成员,“商业分析员”听起来不像是干大事的,“数据分析师”太笼统,而且许多团队成员都有深厚的工程技术专长,不适合这么叫,“研究员”又被Sun、HP等公司使用过。
不过我们发现了这些称呼与团队工作的差异:许多研究成果都是抽象的,与产品毫无关系,而且通常要经过实验室几年研究才能发现一些影响产品发展的因素,相反,我们的团队注重即时性,一旦有了进展,对于产品发展会有巨大帮助。所以团队最终命名为“数据科学团队”,每个成员都是数据科学家——使用数据和科学进行创造活动的人。
接下来讨论的就是如何寻找合格的成员,或者说,一名合格的数据科学家应该有哪些素质?
专业技术:在某个领域拥有深厚的专业知识。
好奇心:透过表现看本质的欲望,将问题分解成一个个小步骤,科学的解决。
讲故事:发现数据反应出的问题并有效向他人表达。
睿智:多角度、创造性的看问题。
人们通常会认为,数据科学家都需要有计算机科学的学术背景,不过以我的经验看来,这不构成问题,起码我团队里不是这样的,PYMK机制由一位实验物理学家发明,一位计算化学家解决了百年以来的“水的能量状态”难题(译者:这和LinkedIn有半毛钱关系?),一位海洋学家在我们制作检测欺骗模型时做出了杰出贡献,这都不算什么,神经外科医师居然是个发现数据中蕴含趋势的天才……
所有顶尖数据科学家都有充分而宽广的好奇心,不分日常生活和工作,所以他们能用新奇的方式整合一些完全不同的东西,我认识的一位好奇宝宝将DNA排序技术运用于发现欺骗。
这些人几乎都有着相当高的学历,当然,我也见过一些杰出的、可以称得上数据科学家的在校大学生,那么如何整合他们的能力呢?
在整合他们能力解决实际问题之前,首先要把数据搞定,这是准备活动,同时也是需要解决的实际问题。我刚毕业时对天气预报很感兴趣,想出了个预测天气的方法,但需要很多数据,这些数据网上有现成的,不过它们的存储格式、文件尺寸都不一样,为了将它们利用起来我写了个系统,让寝室每台电脑从凌晨1点到早上8点都工作,获取和处理数据,最终经过优化的数据库在任何一台电脑上都能运行。(译注:盖茨大二时的数学作业被老师整理后发表成论文,见此)
找到丰富的数据源。
在硬件、软件和带宽不充足时,进行大规模数据操作。
把数据格式转换成一致的,对多个数据源进行融合。
将数据视觉化。
写出高效利用数据的工具。
寻找数据科学家的另一个难题在于,这类人才实在没多少,即使有训练项目和开设了这门课程的大学,市场上仍然供不应求,根据我的经验,要想成为数据科学家,最好的方法不是训练和学习,而是自己去做一些与数据科学有关的事情。
因此我对新员工有这方面要求,必须要有与数据打交道的经验,否则如果是有潜力的大学生,就必须经过强度非常大的实习训练项目考验。Kaggle和Topcoder提供了这类人才的平台,公司可以在上面发布一个项目,然后从参与的团队中挑选出最好的那个。
许多人都想招现成的工作人员,其实潜力股也是很重要的,这三年我带领LinkedIn分析和数据团队,对于“怎么样的毕业生或者在校学生值得选择”总结出了一些规则,必须满足一下标准:
时间:一旦选择此人,我们就要在同一个办公室长期工作,参与是新人成长必备的历程。
信任:我们能相信你吗?你对工作是敷衍了事,还是尽力做到最好?
交流:有效交流是保证高效率运行的关键,你能在90天之内融入公司吗?
后面两条需要时间来验证,我们量化了这两个标准,对于实习生的工作质量和速度设置了一定期望。
融入部分,“90天”需要个人和团队的共同努力,同样,成功也是整个团队共同分享的东西。我们会将期望设置的很高,让实习者意识到这是一个精英级别的团队,然后以高标准要求自己,如果在与团队互动、了解工作流程和公司运行模式之后仍然不能在短期内达到要求,那么就不适合这儿。
这也是保证长期内能成功的条件,通过这个考验,他们的成果就值得公司其他部门的人研究,这会让他们对未来的工作有自信。每个从实习生做到资深高管的人都做到了这一点,许多业界顶尖人士更是在实习期就做出了非同寻常的成就。
“4-6年内,你能做出一些令人惊异的事儿吗?”
什么叫令人惊异?这很难定义,因为谈论的是长期内整个行业的趋势,但这很容易辨别,一眼就能看出。许多公司提到职位上升需要时间问题时总是语焉不详,我并不期望实习生能做出什么令人惊异的事情,但我看中的是有了长期规划之后,实习生能在4-6年内做出成果。
最后强调一下,这个标准是共同努力达到的,如果公司不提供表现的平台和机会,实习生永远无法成功。
四、打造LinkedIn数据科学团队
LinkedIn数据团队刚开始时与现在可谓天壤之别,没有数据服务团队,总共有1.5个工程师,那0.5个后来创业去了,5个分析师、目前都是团队核心,为公司上上下下提供支持。
我做的第一件事是去各大科技公司取经,雅虎、eBay、Facebook、Google、Sun等等都走遍了,结果令我很惊奇。每个公司中都有类似于数据科学家的人,但他们有“主业”,只在有限的空闲时间里做一些数据科学研究,也许有一天他们发现了什么或者想到了什么点子,产品经理也会告诉他们说“不错,不过这没在我们的蓝图中。”
所以我将数据科学团队独立出来,作为产品团队存在,对于产品设计、使用和维护负有责任,这给了数据科学家们测试空间和表现机会。结果不仅是“你可能认识的人”和“谁看了我的档案”,还有许多功能,如Skills,作为个人档案的一部分,同时也汇聚了公司对于技能的要求,让用户了解在某个领域成功需要那些技能。
团队学术背景的多样性也是成功因素之一,产品设计、前端后台编写、运营策略和实施都有专业人士去做,同时每个人都了解如何利用数据工作,所以业务界限并不明显,工程师可以向产品设计提建议,设计师也能指点工程师。
在数据产品的打造上,传统模式效率也相当低,将数据团队与设计、市场分开,不科学,我甚至怀疑这样成功率是不是0。
有了数据科学,传统瀑布式流程——模块化的运作,团队们分别定义和设计产品,数据科学家只能准备数据,最终工程师做出产品——就过时了。数据科学团队并不是设计Office,或者类似的人们对于程序界面、功能等方面都有着共识的产品,相反,每个项目都是在新领域进行创造和实验,从设计到运营都是实验的重要部分。
这类产品对于存储、网络和计算性能的要求都远远超过原先,存储级别是PB甚至EB级的(译注:8m网络下载1EB的文件要30年,如果我没有算错的话),使用的数据部分来自本身服务器、部分来自外部,所以,如果不是一开始就将整个团队融合,产品不可能表现得令人满意。
数据科学产品的质量检验(QA)需要非常严格的手段,常规的构造测试数据集甚至无法覆盖整个产品的使用范围,所以不再适合这类新技术。为了有效的检验产品质量,从理念原型时就应该开始设计检验机制,我的数据科学团队中有几位在整个产品生命周期内都负责这方面工作。
数据科学团队不只是作为数据科学家团队存在,它设计工具将整个公司的运营数字化和自动化,节约了大量时间——泡杯咖啡就能得到数据,然后再次实验,比一觉醒来还得等上个把小时效率要高得多,从而做出创造性成果的可能性也高得多。
数据科学团队与公司其他部门的交流也要重点注意,因为团队很可能被接连不断的问题和请求轰炸,必须分清优先级、做好时间安排,一个个解决。
五、最后
建立一支成功的数据科学团队,你会发现整个公司都被他们影响,到处都是数据产品的身影。
动手吧公司们!
转自:http://tech2ipo.com/54736