DS十年特辑01 | 数据科学到底科不科学？

2025-06-30T00:00:00Z | 更新于 2025-06-30T00:00:00Z

@ 符号

原创数据科学

正文

作为一门学科，数据科学包含了数学、统计、计算机、优化、机器学习等多门学科的一部分技能树。

作为一个行业，数据科学几乎可以和各行各业都扯上些关系，给各种企业提供各种业务方面的支持——比如帮助科技公司的产品开发，分析预测某家零售企业的销量等等。

作为一个职业……呃，其实说“一个职业”不太准确，因为有很多个相似但不同的职业都被笼统地归类在“数据科学”的大旗之下：比如数据科学家、数据工程师、数据分析师等等。

所以我们在讨论“数据科学”的时候，很容易因为不同人的视角和定义不同，而导致讨论得牛头不对马嘴。其中也容易产生对这个行业的误解。从我自己的经验和体验出发，为了文章的统一性，讲一下我自己的定义，也欢迎大家讨论交流。

在我看来，数据科学的核心定义是：对现实的问题建立一个基于经验数据的数理模型，通过这个模型得到的结论做出决策判断。

先举几个具体的例子吧，希望会有助于诠释这个定义。比如我现在正在经营一家制造和销售羊毛衫的公司——

我想知道我下个月生产多少羊毛衫。我可以基于历史销售数据和相关信息（比如气温变化），建立一个监督式机器学习模型，根据历史数据训练这个模型，对下个月的销量做出预测，进而以此决定我下个月该薅秃多少只羊的羊毛。
我想知道我该如何扩张我的供应链网络，比如我已经在中国市场站稳了脚跟，希望把我的羊毛衫卖到欧洲去，那么我应该继续薅自己家的羊毛把成品直接送到欧洲市场，还是也许在蒙古再养些羊，薅它们的外国羊毛然后从那里发往欧洲？这里，我们可以建立一个网络优化模型（network flow model），通过这个模型的最优解确定最佳的货源地、配送中心和运输方案（即：羊毛在哪里薅、羊毛衫在哪里生产、发往哪个仓库、供给哪些客户）。

在这些例子中，我们都是将现实问题转化为一个基于经验数据的数理模型（即预测模型和网络优化模型），这个数理模型从一定程度上刻画了世界运作的规律。然后通过求解这个数理模型，我们得到的答案可以帮助我们在现实世界中做出决策（比如规划多少产量，配送中心建在哪里）。

既然“数据科学”中有“科学”二字，于我而言，以上是至少要达到的程度。很多时候，“分析一下历史数据看看哪里奇怪了”、甚至“做一个dashboard展示历史数据”也都被归为数据科学，在我看来是不够严谨的，严格意义上这应该只是算做数据分析（analytics）。既然是科学（science），有可复现并能够被验证的框架（在这里是数理模型）是必须的。

取决于你认同什么流派的科学哲学，不同的人可能会对“数据科学算不算科学”有不同的看法。我把我个人的看法放在文末附录。打这种哲学思辨的嘴炮虽然有趣，也很容易让讨论演变得很虚无。最重要的其实是，你在读这个文章系列的时候能够理解我指代的“数据科学”是什么。那么，除了高屋建瓴的“哲学”定义之外，让我也多讲一些我过去工作中碰到的数据科学实例，这样我们可以（暂时）对数据科学有共同的定义。

举一些我自己接触过的项目作为例子：

帮助服装百货公司如何打折进行定价：百货公司在给打折商品定价时，既需要考虑利润率（避免江南皮革厂这种直接血亏倒闭），也要考虑出货速度（按照预计时间清空库存才能及时上新货）。我们先用一个机器学习模型预测需求弹性（即：价格每变动一块钱，需求会对应变化多少），然后再通过一个优化模型（mixed-integer programming model即MIP）找到不同商品在不同时间点的最佳折扣力度。【MSP/定价】
帮助酒店集团做需求预测和定价：酒店的房间其实边际成本都一样，如何定价完全取决于需求而不是成本。因此，尽可能准确地预测房间需求量就有利于定价——如果知道一周后的那个周末会有很多人订房，开价就可以高一些，趁机赚一票。这里我们用机器学习模型（时间序列叠加XGBoost）基于历史数据和相关信息（比如是不是情人节要到了）对订房需求进行预测。【MSP/定价】
帮助制药公司优化供应网络：一家大型药企在欧洲的供应链非常臃肿，在同一个地区可能有好几个仓库和配送中心。通过网络优化模型（network flow model），我们给这家公司提供了如何将40多个节点简化为10多个节点的方案。【OPS/供应链】
帮助冷冻食品公司优化生产工序：一家冷冻食品公司在生产不同类型的薯条时，经常因为更换刀片、调料等原因耽搁生产时间。通过混合整数规划模型（MIP），我们给这家公司提供了每个生产周期最优的工序排列，减少不必要的耽搁，大幅提高生产效率。【OPS/生产】

我在另一篇博客文章里还提到了几个其它的例子，也可以一并参考。

一位前辈同事曾告诉过我：一个列表如果超过三项，最好进行分类，不然可读性就会下降。在上面的列表中，我在每项末尾也放置了分类。总的来说，我在工作中应用到数据科学的地方大部分落在两个业务领域（functional practice area）：

Marketing, Sales, and Pricing (MSP)
Operations (OPS)

其中，MSP经常做定价类的项目，上面就举了两个例子。除此之外，也做很多个性化推荐（personalization）。而OPS基本就集中在供应链和生产优化两个分支，上面也各有一个例子。这些应用场景加起来，大概覆盖了我做过的80%项目类型。

以上这些是我所理解和应用到的数据科学。显然，这不代表整个行业和学科，只是我个人的视角。后面文章所阐述的想法也是仅以此为根基。说了这么多有的没的，管它是黑猫还是白猫，抓住老鼠就是好猫。管它是不是科学，这个行业有没有创造任何实际价值，还是“全都是泡沫”？且听下文分解。

可读可不读的附录

关于科学哲学的一些形而上的思考（aka嘴炮）

如文中所言，“数据科学算不算科学”取决于你认同哪种科学哲学的定义。如果我们考虑比较常见的Thomas Kuhn的范式论，一门学科算作科学的条件可以大致总结为：

有共同的理论根基，不能只是零散的应用场景
有一个共同的范式（paradigm）——比如牛顿力学体系
在正常情况下，从业者在范式之内解决问题，即常态科学（normal science）
科学的演化和进步来自于范式转移（paradigm shift），尤其是在范式之内积累了足够多的反例（anamolies）之后——比如从牛顿力学体系演化到爱因斯坦相对论体系

我会认为，我对于数据科学所提出的“对现实的问题建立一个基于经验数据的数理模型，通过这个模型得到的结论做出决策判断”这一定义几乎可以符合Kuhn所说的“范式”。从业者都是沿用共同的、有理论根基的工具方法（比如凸优化理论），去解决范式定义内的问题（比如一个线性规划问题或者一个支持向量机SVM回归模型）。

但这一定义的不足之处是，数据科学的几个分支也可以说是各自有各自的范式。比如深度学习和NLP有自己的通用套路：神经网络+SGD；而运筹优化也有自己的三板斧：目标函数+决策变量+限制条件。与其说是一整个统一的范式，数据科学应该更多是包含了一堆各自独立范式的混合学科。

如果跳出Kuhn的范式论，考虑其它科学哲学的定义，另一个常见的考量是：科学应该去发现未知的事实，而不是应用已知的理论和工具。从这个角度来说，数据科学也不太能称得上科学，至少业界从业者都是应用者，只有极少数人在推进前沿理论的发展。不过，这种认为“科学需要发现新知”的看法应该算是科学实在论（scientific realism）的核心观点，而这种学派现在不能说是主流。从二十世纪中叶开始，科学哲学论的主流思想都逐渐转向于有用、可预测的科学模型，而不关注是否发现新的“真相”——毕竟，如何定义“真相”也是一个令人头疼的问题。

总结一下这堆可有可无的嘴炮：

“数据科学算不算科学”取决于我们对什么算是“科学”的定义；
如果我们采纳比较主流的Kuhn范式论作为科学的定义，我认为我提出的定义可以大致符合；
但也还有欠缺之处，别人也可以对这个定义挑刺（取决于我们对“范式”如何理解）；
我们也可以考虑别的科学哲学流派，有些也会认为数据科学不能算是科学。但你也可以说这些流派是非主流。

总而言之：我觉得数据科学作为一门传统意义上完全严谨的科学略有些勉强，但我们至少可以有一些最低的标准（我提出的定义可以是选择之一），使其尽可能接近一门严谨的科学学科。

上一页 DS十年特辑02 | 数据科学很水吗？

下一页数据科学十年生涯回首 | 总纲