
数据科学在刚刚诞生的时候,应该算得上光鲜亮丽,着实火了相当一段时间。近些年来,不知道是不是因为卷得厉害,口碑似乎不复当年。很多人会觉得“数据科学很水”,这篇文章我们就来聊聊这个。
我理解的大家口中的“很水”大致分为两类:
- 做这个行业的人鱼龙混杂,什么背景的都有,尤其是很多半路出家的半吊子。
- 这个行业主要是吹牛皮,噱头大于实质,没有创造出什么真实的价值。
对于第一条,在我看来,”做数据行业“和”做数据科学行业“还是很不一样的。很多转行的、非专业背景的人,大部分都是在做数据行业;但是要做数据科学的话,根据我上一篇文章 提到的定义,需要对现实问题建立正确的模型、找到解决方法、转化为现实决策,这每一步都需要相当的经验和技术能力,是一道不容易跨越的门槛。这个行业是否鱼龙混杂,取决于你用哪个门槛来定义这个行业。
另外补充一个个人观点。多年前,我还年轻气盛的时候,练过一段时间空手道。那段时间很经常碰到的一个引战话题是:空手道和跆拳道哪个更强?以及类似的各种变体,比如空手道和散打哪个强,空手道里面系东流和刚柔流哪个更强,等等。经过一系列口头的和物理的“切磋”之后……我学到的结论是:没有最强的流派,只有最强的个人。所谓英雄不问出处,只要在擂台上倒下的那个人不是你,你学的是哪个流派都不重要。

同理,对于从事数据科学而言,之前的专业背景是个重要因素的,但也不是全部的因素。个人能力足够强的话,触类旁通得快,怎样都可以成为大牛。
第二个问题——数据科学行业有没有创造实际价值,还是只是个噱头——是我想详细聊聊的点。也许对于很多人来说,选择一份职业的时候只要它工资给够就行了。对我来说,还是很在意这个行业有没有创造一些价值的。这也是我早年从纯数学转到应用数学(运筹学)的一大原因。以我平庸的资质,估计在纯数学领域也混不出什么名堂,即便侥幸能够立足,能做出的贡献怕是也很有限。而如果能将一些数理工具应用到实际问题中,帮着解决一些实际问题创造些价值,也不枉费我“实变函数学十遍”的一番努力了。
要说数据科学这个行业有没有创造价值,让我们先把“价值”拆分成几个不同的层面:
- 可以明确衡量的经济价值:人们愿意花多少钱使用数据科学工具解决他们之前无法解决的问题?
- 不容易直接用金钱衡量的社会价值:这个行业有没有对社会做出正面的贡献?
- 对于个人发展的成长价值:这个行业能不能给从业者提供良好的成长平台?
以下是我对每个层面的一些个人看法。
真金白银的经济价值
在我接触到的案例中,数据科学可以创造不少肉眼可见的经济价值。上文 提到的每个案例都是价值数百万美金的咨询项目,也就是说企业愿意为其中的每个项目掏数百万美金用数据科学工具来帮助他们解决这些问题:
- 帮助制药公司优化供应网络
- 帮助冷冻食品公司优化生产工序
- 帮助服装百货公司如何打折进行定价
- 帮助酒店集团做需求预测和定价
根据第三方平台Compworth和Growjo的估计,麦肯锡的数据部门(QuantumBlack)每年营收额约1-1.5亿美金,波士顿咨询的数据部门(BCG X)每年营收额约6亿美金。这些都是诸多企业在数据科学上面花的真金白银。
可能有人会说,这个价格标签是来源于咨询公司吹牛皮的溢价,就如同咨询公司的PPT一样,本不值那么多钱。我并不完全认同这个观点,详见我的另一篇博客文章 。而本篇文章的重点不是讨论咨询公司的商业订价模式。即便抛开这个因素,数据科学能创造的经济价值也是不可否认的。举两个具体的例子吧。
例子1:多余的直升机
石油公司在海上的开采作业主要依靠钻井平台和钻井船,通常海底油田都离最近的海岸相距200公里以上。因此,向钻井平台和钻井船及时提供设备、人员、日常用品就成为了一个复杂的流程。
除了常规的船只运输之外,也有很多紧急的情况需要更快速的周转:比如设备出现故障,需要技术专家和对口零配件立刻到位,不然整个钻井工作就要停摆,停工一天的损失可能就会接近百万美金。为了这些应急需求,石油公司也会动用直升机进行运输。而使用直升机的成本显然要远高于船只运输。我们客户公司预计他们的每架直升机每一年的成本折算下来约是2百万美金(包括燃油、人工、维护、折旧等等)。
由于停工三四天的损失就抵得上一架直升机一年的费用,之前石油公司的思路都是:“飞机不够就再来一架,不差钱”。于是直升机越来越多,成本越来越高。当他们有了八九架直升机之后,我们帮他们做了一个优化模型,看看是不是真的需要这么多直升机。首先要做一些基本的需求预测(demand forecast),比如他们每年每个钻井平台大概需要多少次直升机支援,然后再用网络优化模型看看能不能用更少的直升机满足这些需求。结果发现,果然可以省下至少一架直升机,当然这需要通过更复杂、更优化的调度,而不是他们现在这样随心所欲地“随心飞”。这就通过数据科学模型产生了约2百万美金的价值,不管我的黑心老板这个项目卖了客户多少钱。
例子2:失准的秤
在工业级批量生产薯条的过程中,第一步往往是把土豆倒在一个称量斗(weigh hopper)里,这个设备会有个称重的部件(load cell),精确衡量我们在斗里放了多少斤土豆。这些土豆随即进入生产线,之后的生产工序都需要根据土豆份量来调整刀片速度、用油量、调料用量等等。如果称重错了,后面的步骤都会受到影响,一步错步步错。最差的结果就是导致整个生产线停产,重新称量并且调整后续步骤的用量。每停产一个小时,往往就是近万美金的损失。

你说巧不巧,这个称量斗的秤还真的时不时会出错。有可能是因为土豆卡住了,也有可能是没有及时归零,以及其它各种原因。那怎么(用数据科学)解决这个问题呢?我们采用了一个异常值探测的预测性维护(predictive maintenance)模型,基于历史上发生的失准事件,我们观察事件发生前称重数值有没有异常变化,找到规律之后以此来预测下一次失准事件的发生。事实证明,如果采用一个基于指数平滑移动平均线(MACD)的异常值探测模型,这个模型基本可以准确地在失准事件发生前就发出预警:“秤的数值开始跑偏了,快来人啊!”
我们回测了所有历史失准事件,基本每次这个模型都能准确预警。如果当初有这个监测模型,生产厂家就能避免数万美金的损失。而这个模型现在已经被长期部署,警报一响便是黄金万两,哦不,美金万两。和上一个例子相似,不管我的黑心老板这个项目卖了客户多少钱,这些规避的损失都是数据科学模型带来的真金白银。
难觅踪影的社会价值
相比这些扎扎实实的经济价值,数据科学能创造的社会价值就飘渺得多了。这里我说的社会价值指的是数据科学作为一样工具,有没有让这个社会变得更好了一些——比如让弱势群体受益、帮助保护自然环境、促进公平公正等等。
要说有这方面得价值吧,努力找找,总还能找到几个例子。我所在的公司和NASA有一些合作项目,可以算是在用数据科学开拓航天科学的边界吧。我们也经常给制药公司做项目,帮助制药企业提升效率,一定程度上可能也间接让更多人受益于这些药物吧。
但更多的时候,我总有一种“我用数据科学所做的工作只是在让富人变得更富(make the rich people richer)”的感觉。哪怕是在药企的那些项目,受益最大的应该是制药企业的股东和高管们,而不是迫切需要药物的人群。前面提到省下一架直升机的例子,这省下的钱自然也是留在石油公司的口袋里,也不会让我们日常的油价便宜几分钱。
如果说这可能是咨询公司做项目的通病——总是为客户创造价值而不是整个社会——放眼望去,我所知道的其它数据科学的常见应用场景也大同小异:比如为广告投放做预测和优化、为网络产品的功能做AB测试等等。这似乎是现代商业社会不可避免的困局:当价值被创造出来的时候,商业社会的分配逻辑几乎必然导致更富的人分到的受益更多。数据科学作为一个(相对)新兴的创造商业价值的工具,也未能免俗。
为了在这个问题上刨根问底,我和朋友几年前一起经营了一个名为“大问”的公益组织,希望运用数据科学帮助到国内的NGO。我们尝试了不少方向,比如支教项目的志愿者与项目之间的智能匹配、基金会的捐赠者留存和增长、ESG价值投资、农村现代化的数据基础设施等等。不怕丢人地坦白讲,最后在我看来真正做成了的项目大概也就一两个。大部分的项目要么不了了之,要么最终也没有兑现什么实际价值。事后总结,我学到的两个经验是:
- 很多公益机构的数据基础还不完善,在没有完整的数据之前,很难支持数据科学的应用。
- 对绝大部分(国内的)公益机构来说,拉到足够的资金能活下来是最高优先级,而数据科学带来的东西大部分是锦上添花而非雪中送炭,所以在规划业务方向的时候一般都轮不到它,也没有足够的人力/物力/财力资源支持。
如果有朋友在这个问题上有不同观点(比如你接触过的一些高社会价值的应用领域),欢迎一起讨论交流。虽然到目前为止我的所见所闻都有些拉胯,但我还是依旧心存希望。
因人而异的成长价值
考量一个行业是否有价值的另一个角度,是这个行业的从业者是不是能够在这个平台获得成长。毕竟作为打工人,“树挪死,人挪活”,万一有朝一日要跑路,咱们也希望能攒够些本事再跑路。
在我看来,做数据科学行业获得的成长价值很大程度上取决于和哪个业务领域结合。数据科学家本身是一个技术工种,其成长路线和其它技术工种类似,基本都是从个人贡献者(IC)到领队(lead)逐渐走向管理岗,或者持续走技术路线成为资深专家(expert),就和大部分的码农、电工、机械工程师等技术工种一样。单单从这个维度考量的话,数据行业并没有什么额外的成长收益。
这里我所说的“额外的成长收益”是指:除了常规的升级路线之外,还有没有在某些节点能够打开更大选择空间的增益。比如说,律师这个职业在我看来就有很多潜在额外成长价值。常规的升级路线走到顶,可以成为律师事务所的合伙人,或者甚至自己开事务所,自己当老板,摇身一变成为资本家而不再是打工人。除了这条既定路线之外,其它选择也很广阔——野心大一点的话,在欧美国家,律师从政的例子数不胜数;想躺平的话,也可以找一家大公司的法务部门谋个职位摸摸鱼。从这个”把路走宽“的角度,数据科学本身的职业道路并没有这方面的增益。
但是,数据科学行业相比其它很多技术工种,有个相对独特之处,就是它必然是和一个(或者多个)业务领域结合的——比如广告、市场营销、医疗、产品设计、供应链等等。毕竟你拿来建模的数据总得有个来源吧。而提供这个数据的业务领域,便是数据科学从业者“把路走宽”的来源。
以我自己而例,我自己觉得我过去这些年的很多额外成长收益很多都来自于通过咨询公司的视角来做数据科学项目。比如说我们给零售公司做需求预测(下个季度会有多少微波炉的订单、多少高压锅的订单等等),这种项目从技术上说都大同小异,从个人成长的积累来说,多做几个类似的项目也不见得多积累了什么技术知识。但是,随着这类项目越做越多,我对于如何在一家公司执行一个数据科学项目逐渐累积了各种经验,比如:
- 哪个部门最有可能来拖后腿,要提前准备好怎么跟他们扯皮
- 怎么快速找到可以抱大腿的大佬,借助他/她的影响力推行我们这个项目
- 数据采集过程中一般都有哪些坑,要提前预留多少时间免得之后手忙脚乱
有了这些经验之后,我对于之后去任何一家零售公司带领团队做一个类似的项目心里都算有点谱,感觉自己跳槽的退路也稍微多了一些。
再举些更具体的例子——说说我知道的同事(以免自吹自擂之嫌)。我的一些同事长期做供应链相关的数据项目,对于北美供应链可以说是了如指掌:路面上送货的卡车有几种尺寸、一个货板(pallet)每公里的平均价格大概是多少、冷冻货柜和非冷冻货柜价格有多大的差别,他们全都信手拈来。光是目测供应链的运营数据,他们就经常能发现其中的不妥之处。这些同事如果想要另起炉灶,有不少公司的供应链管理岗都虚位以待。
从个人成长而言,我觉得数据科学更像是一把打开宝藏的钥匙(而不是宝藏本身)。从业者得到什么取决于拿这把钥匙打开了什么宝箱,而不是仅仅拿到这把钥匙而已。
随便总结一下
说了这么多不同的层面,我并不是想说数据科学(或者其它任何一个行业)需要在每个层面都要很有价值才行。只是想对于不同的维度提供一些自己的看法。萝卜白菜各有所爱,大家也可以各取所需。