在许多人心目中,雅虎是一家以提供新闻资讯为核心业务的门户网站,而不是一家以技术驱动的互联网公司。不过Google工程师出身的新任CEO玛丽莎•梅耶尔(Marissa Mayer)正试图改变人们的这一印象。在她上任后,雅虎加大了研发投入,一方面推出一系列举措激励现有的工程师,另一方面积极吸引新的技术人才加入。除了积极转向移动平台,雅虎也对云计算和大数据十分重视——事实上,Hadoop正是道格•卡廷在雅虎工作期间发起的项目,而这家拥有超过7亿用户的公司也是最早投入Hadoop平台的互联网巨头,如今依旧是Hadoop最主要的贡献者。
成立于2009年的雅虎北京全球研发中心是雅虎三大研发中心之一,承担了许多云计算与大数据方面的项目研发工作。在Hadoop与大数据技术大会上,雅虎北京全球研发中心资深研发总监朱金生接受了记者采访,介绍了他对于大数据的理解以及梅耶尔的上任给雅虎研发团队带来的变化。
电脑报:雅虎北京研发中心目前主要哪些项目?
朱金生:雅虎北京研发中心现在有300多工程师。在针对终端用户方面,我们做了很多移动应用,如雅虎Messenger手机客户端;在平台方面,我们开发了移动平台,个性化团队和广告团队也都是重量级的主干团队;此外我们今年还组建了云计算团队,负责IaaS,团队历史不长,但成绩非常不错,全球的产品定义和服务都由我们来做。
电脑报:你如何理解大数据?
朱金生:大数据的量一定要大,大到不能在一个节点上处理,需要多个节点;随着科技的发展,量的上限每年都会增长,今天的大数据可能是1TB,明天可能就是1PB,后天就是十几PB,是在不断发展的。
电脑报:我们谈论大数据更多是指非结构化数据,这是否意味着在大数据时代结构化数据不如以往重要了?
朱金生:数据有不同种,量如果超过了一定的级别,就是大数据。在我看来,结构化和非结构化的数据都非常重要,都可以从中挖掘出对于用户或者对于企业流程有价值的信息。
电脑报:大数据是否适用于企业级应用?
朱金生:是的。大数据不限于是互联网公司,企业级方面也有很多大数据的方案。像华尔街的企业,如摩根斯坦利,他们的很多计算都是基于大数据的,例如要进行数学建模、分析股票,采用的可能是在云上的公开的数据,也可能是公司私有的数据。怎么样把这些数据混合在一起,做一定的运算,这些问题也是属于大数据的一部分。
电脑报:大数据时代雅虎面临的挑战是什么?
朱金生:怎么去做个性化,尤其是做实时的个性化,在短时间内设置正确的内容和广告,技术上都是非常困难的问题。
电脑报:大数据为雅虎的个性化服务提供了怎样的改变?
朱金生:个性化以前只针对广告,现在也针对内容。梅耶尔认为,雅虎的核心产品是邮箱、Flickr照片分享、新闻媒体以及搜索。她希望能通过提供个性化服务提升用户体验,在这方面对我们这些工程师提出了很多要求,也施加了压力,让我们来开发相关的产品。个性化数据有不同的来源,过去搜索历史可能不是很个性化,社交图谱可能过于个性化;现在我们希望将这两个数据来源结合,再加上雅虎自己的个性化引擎,那就恰到好处,有个性化效果而又不会过于个性化,能够提升用户体验。
电脑报:十多年来雅虎累积了很多用户数据,有些用户数据可能因为时间过长而不再准确,例如用户的兴趣可能会发生改变。雅虎是如何处理这个问题的?
朱金生:雅虎有数据保存期限的规定,我们不会储存用户十年的数据。我们会搜集和兴趣相关的信息,重点关注兴趣的变化,设法找到用户最新的兴趣和习惯,这些对于用户才是重要的。我们会用匿名的方式去搜集用户的搜索历史和上网的习惯,结合从Facebook或者其他公司获取的社交图谱,进行详细分析,据此向用户展示与个人最近的兴趣相关的内容和广告。当然,我们也会与用户互动,比如你偶尔看了一次娱乐新闻,但实际上对它并不感兴趣,你可以点击按钮告诉我们。
电脑报:梅耶尔的上任给雅虎研发部门带来了哪些改变?
朱金生:她上任后做了很多工作,推出了免费iPhone、免费午餐等计划,并且是全球性的,不只是在美国。从研发角度讲,也是做技术出身,很清楚好的技术对于一个公司来讲意味着什么,因此在研发方面投入很大,也希望通过她的一系列举措培养工程师在雅虎工作的兴趣和动力,提升工作效率,这些都是让工程师非常兴奋的事情。另一方面,业界都在走个性化、云计算和移动化的道路,她也提出在2015年要让雅虎成为一家移动主导的互联网公司,所以三年内雅虎各地的研发团队会有一半的工程师转向移动方向。
电脑报:许多传统互联网公司在转向移动平台后都遇到了变现困难的问题,雅虎目前在移动平台变现方面有没有什么突破?
朱金生:这个是整个业界都面临的问题。手机的小屏幕不太适合传统的广告,如果在手机上展示广告就可能降低用户体验。我们也在斯克怎么在移动端做广告,不过我认为移动端并不会抢占Web端的市场,而是让“饼”变大。
(本文刊登于《电脑报》2012年第50期,有改动。)
发表评论
要发表评论,您必须先登录。