如何专业地预估票房

2016-03-11T00:00:00Z | 更新于 2016-03-11T00:00:00Z

@
原创 数据科学 管理咨询
如何专业地预估票房

点此 见知乎原文

前一阵子刚给一个客户(好莱坞六大电影公司之一)做了这方面的项目,希望可以从数据分析的角度给大家提供一些有参考价值的经验。

概括地说:短期预测有可能,长期预测很难

从短期预测来看,如果选的变量足够多、足够好,还是可以做出一些相对准确的预测的。当然最大的问题始终是:用什么数据来预测票房?我们先看一下Google那篇文章 :Quantifying Movie Magic with Google Search. 当时这篇文章也算轰动一时,吸引了不少注意。这篇文章给的结论是,如果用以下四个变量做线性回归提前一周预测首周末票房,模型的R2是0.92——即这四个变量可以反映票房数据92%的方差:

  • 上映七天前的电影名字Google搜索量
  • 上映七天前的电影Google搜索广告点击量
  • 上映影院数量
  • 是否为系列电影(0-1变量)

如果用以下变量,提前一个月预测首周末票房的模型R2是0.94:

  • 预告片搜索量
  • 是否为系列电影(0-1变量)
  • 是否在假期上映(0-1变量)

看起来结果不错,但我们认为它有很多漏洞,使得它派不上什么实际的用处。最大的问题是,我们不知道文中的这些模型有没有过拟合(overfit)。文章说用了2012年99部电影的数据做了这个分析,这个样本实在太小了(IMDb上有360万title,按照250年的跨度计算的话平均一年也有1万多部电影)。文章也没有提供关于过拟合的任何分析,使得我们十分怀疑如果换一个数据集会不会结果就不那么准了。可惜我们没有搞到“上映七天前的电影Google搜索广告点击量”和“预告片搜索量”这两个数据,不然就可以验证这个猜想了。事实上,我们尝试用了相似的变量,包括文中提到的一些没有使用的变量(比如MPAA rating之类的),在新的数据集上并没有得到这么好的结果。

于是我们只能自己想办法。经过一番折腾(这里省略五百字血泪搬砖史),我们最终决定采用了以下数据:

  1. 同类电影同期票房
  2. 同期上映电影票房预测
  3. 上映影院数量
  4. 是否为系列电影(0-1变量)
  5. 是否在假期上映(0-1变量)
  6. 上映七天前的电影名字Google搜索量
  7. 上映七天前的电影名字Wikipedia搜索量

这里解释一下1和2这两个数据。每部电影准备上映之前,电影公司(至少我们客户)会标出一些这部电影的过往同类电影(comparable movies),用来分析新电影是否表现相对出色。这些同类电影的选择是人为的,并非靠算法,都是靠电影公司的经验。我们是从客户那里获取了这些数据,调出了这些同类电影的同期数据。另外(2)同期上映电影指的是同一时间上映的电影,比如功夫熊猫3在美国和Zoolander同时上映,他们就是同期上映电影。可以想象,如果哪部动画电影和《疯狂动物城》同时上映,票房一定会受影响。我们用了这些数据,得到的预测平均绝对误差结果如下图:

预测误差随时间增长
预测误差随时间增长

我们随机选用了客户数据库中2010-2015年的150部电影,用以上数据建立线性模型提前7天预测票房,将误差绝对值的平均值画出来就是这张图,横轴为周数(9表示上映9周之后)。最显而易见的结论是长期预测真心不靠谱,这个等会儿再细说,先说短期预测。我们的预测在前8周都可以误差在1%左右,这是很令人满意的。然而,过拟合的问题依然没有解决。我们这里预测的都是美国票房,如果把同一个模型用来预测中国票房,预测值就彻底跑偏了(当然,也要先把Google搜索换成某度搜索指数……)。而且150部电影的样本量还是不够大,如果选一些老电影的话(比如2005年之前的电影),这个预测也不准。所以我们也不敢说比Google做得更好,可能只是在某些方面略有改善而已。总的来看,如果继续花工夫寻找好的变量和模型,还是有可能把短期预测做得更好的

长期预测就没那么容易了。长期预测可以分为两种,一种是上映时预测很长时间之后的票房(比如第10周、第20周的票房),还有一种是离上映还很遥远的时候预测整体票房,这两个都很难。前者就是我们在上图里面看到的现象了,Google也表示做不好这种预测。我们揣测主要的原因是上映之前所有人所知道的信息都有限,此时用那些变量做预测可以做到八九不离十;但上映之后观众群体对电影掌握了更多信息,可能会产生互相之间的影响——我可能是因为身边的人安利了我才去看,而不是自己搜了Google/百度。这样的潜在信息未必能从数据中反映出来。

后一种长期预测——离上映还很遥远的时候预测整体票房——就更难了,有很多因素会影响到票房的走向。举例来说,很明显的影响是营销的投入:一般来说在广告上的投入和票房呈正相关(当然也有一些例外)。营销做到什么程度、会不会产生爆炸式的传播效果,都是之前难以逆料的,要等社交网络或者市场调查的数据出来了才能知道。此外,还有很多深层次、很难用数据捕捉的信息,比如大众审美的变化等等,都会影响到票房。

说到底,短期预测可以做而长期预测做不准,对于电影公司和影院来说并没有什么用。因为提前7天哪怕有了准确的预测,他们也无法相应地调整任何策略,做出更优的部署(这时候换上映地点什么的也已经来不及了),所以只是看个预测、求个心安而已,别无它用。我们也和客户深入地讨论过为什么这么难预测,得出的结论是:卖电影不像卖车,电影与电影之间的不同之处很难衡量,因此在别的电影上获得的经验很难应用到新电影上。车与车之间,我们可以用各种量化的指标去衡量差异:发动机、外型、内饰、颜色等等。所以从过往车的销量数据可以预测新车的销量数据。但是电影怎么衡量相似程度呢?时长、卡司、类型……这些方面都能给我们一些信息,但显然不能给我们全部的信息——知道了这些我们也依然无法知道电影的质量、观众对它的观感和未来的票房。从数据分析的角度出发,我们需要找到更好的度量(metrics)来衡量电影与电影之间的差异;从行业的角度出发,我觉得这也是电影行业的魅力所在,或许并非只用数据可以衡量和预测的。

所以回到题主的问题:如何专业地预估票房?我想“专业”需要同时来自于数据分析的更多探索以及对电影行业的深刻认识吧。这个结论其实放之四海而皆准,在很多其它领域也一样适用。略有不同的是,数据分析(或者说“大数据”)虽然在很多领域都被炒得火热,在电影行业其实并没有太多好的实践,和其它行业相比还有非常多与业界结合的提升空间。

© 2025 - 2026 Know-Hao

🌱 Powered by Hugo with theme Dream.

符号

我从人人网的时代开始就会写写博客文章,到现在还在用这种文字形式的人应该算是老顽固了吧:) 在这个充满碎片化信息的时代,还是希望在这个博客保留一个能够完整分享自己精神世界的窗口。

  • 上海/洛杉矶/多伦多
  • 90后ISTJ
  • 数据科学 x MBB管理咨询 从业10年
  • 文理学院数学专业本科
  • 运筹学PhD辍学,苟到了一个硕士学位
  • 喜欢体育运动,大自然,旅行,读书读报

博客不开通评论功能,欢迎在长毛象 或者知乎 上戳我。