专访腾讯杰出科学家刘杉:技术服务产品,回馈用户和社会
·从大方向来讲,人工智能未来可期。腾讯科学家刘杉对这一结论笃定认可。但同时她说自己从来不是追逐潮流的人,所以,“我觉得要尽量避免过热,很多事情还是要想清楚,一步一个脚印把它做好,回归技术本身,以及让技术造福人类本身。”
刘杉
5月17日,腾讯控股(00700.HK)发布2023年一季报,其营业收入1499.86亿元,同比增长11%,净利润(Non-IFRS)325.38亿元,同比增长27%。在科研领域,一季度腾讯研发开支达152亿元人民币,保持历史高位。
据悉,2018年至今,腾讯研发投入已经超2200亿元。截至2022年底,腾讯在全球主要国家和地区专利申请公开总数超过6.2万件,腾讯发明专利授权量位列全国民营企业第二。
今年4月26日,第23个世界知识产权日,腾讯发布“鹅厂女性发明人专利数”:超2.2万件,占专利申请总数35%以上,且有多位女性发明人的全球专利申请量超过百件。
在腾讯内部,有一个经常被提起的女性发明人——刘杉博士,她是腾讯多媒体实验室的负责人,也是国际著名多媒体专家、IEEE Fellow(美国电子电气工程师学会最高级别成员),拥有数百件全球已授权专利。
腾讯多媒体实验室是做什么的?
在今年3月底的博鳌亚洲论坛2023年年会上,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生在“下一代互联网”分论坛上提出: “AI驱动一切”是下一代互联网核心, “过去,互联网内容和服务的生产者,都是围绕人展开;未来,机器也会成为内容甚至服务的供给者。”
而这一切都离不开底层技术的支持,如:音视频编解码、网络传输和实时通信,多媒体内容的处理、理解、智能化生产和应用、沉浸式媒体压缩、建模,以及传输系统和端到端解决方案等。
这些“底层技术”正是腾讯多媒体实验室的主攻领域。
近日,澎湃科技与腾讯多媒体实验室的“掌舵人”刘杉博士隔着太平洋,通过“腾讯会议”认认真真地聊了聊,意外地发现,刘杉是一个内心住着工程师的科学家:她拥抱一切不可知,但在执行落地时,她既是“计划控”,也是“效率控”。
刘杉对人工智能是未来可期的大方向笃信不疑。对目前大火的ChatGPT,她说:“新技术和产品被使用和讨论是非常有意义的事情,但同时应尽量避免过热,要想清楚,一步一个脚印把它做好。我希望所有的新技术最终都能为人类造福。”
除了人工智能,刘杉认为团队目前正在探索的机器视觉及其应用前景广阔。何谓机器视觉?简单理解就是机器上面加上视觉能力,用机器辅助人眼来做测量和判断。
2020年,刘杉成为面向机器视觉的视频编码技术国际标准专题组的联合组长,这是一个“全世界都从零开始”的新项目,腾讯是重要参与方和贡献方。
刘杉
“标准圈”的“老资格”
刘杉本科毕业于清华大学电子工程系,2002年,从美国南加州大学电机工程系取得博士学位。她从2006年起开始从事“国际标准”工作,曾先后在多家全球500强和国际知名企业担任高级技术和管理职务。2017年加入腾讯。
刘杉入行的时候,视频编解码国际标准还是H.264/AVC,今天已是2020年批准的H.266/VVC。
“标准”是什么?刘杉尽可能通俗地解释道,“每一代标准比起上一代标准的特点,简单直接的指标就是压缩效率提升一倍。看上去同样的视频画质,本来带宽是2M,现在变成1M,节省了很多带宽。重要的是,这些标准不是指导性的,是必要性的,即全球行业内生产厂家都必须遵循。”
她举了一个更直观的例子:“比如咱俩现在用腾讯会议进行视频通话,我用的是一个品牌的手机或电脑,你用的是另一个品牌的手机或电脑,他们要使用同一套标准,如果你我二人有一方的手机不是用这个标准,我们就没办法通话,也没办法看到对方。”
“标准”就是这么“有原则”。这也解释了腾讯为什么要积极参与国际通行标准的制定,以及刘杉的价值,而标准制定蕴含着巨大的商业价值和社会价值,包括腾讯在内的全球公司(百家)每一次都不敢懈怠。
标准会议每年定期召开几次。全球专家聚集一堂带来各自的领先技术进行热烈的讨论,有时候是激烈的辩论。讨论一般要持续十天,“我记得一月的日内瓦冬天很冷,每天天没亮,我们踏着雪步行去会场。每天正常的结束时间是晚上九十点钟,凌晨三四点钟也有过。”刘杉回忆。
刘杉说 ,“没有一定的热情和体力,不太容易撑下来。”
“抢修队长”
刘杉的工作不止“标准”这一项。
她把手头的工作分为三个台阶:最底层是前沿技术探索和研究,包括标准制定;第二层是将基础研究,比如标准制定后,把其产品化、工程化,比如无线投屏、腾讯会议使用的屏幕内容编码;还有一项是每天都在进行的工作,比如腾讯视频、腾讯云等现有产品的持续优化,保证业务稳定性,随时接收业务反馈——有来自行业的,也有来自用户的,比如大家比较关心的怎么修复各种Bug。
要不是隔着“腾讯会议”,刘杉说可以把自己的日程表给澎湃科技记者看,“虽然现在已是电子信息时代,但我还是会用纸质的本子和笔去记录每天的安排,感觉这样更有质感。”
刘杉的父母都是老师。在她记忆中,从很小时侯父母开始交给她带日历的记事本。刘杉自此养成了用记事本做规划的习惯。
“我会定期规划。年底的时候想一下明年做些什么,坐飞机的时候会想一下未来半年、三个月、一个月,我和我的团队、项目怎么规划。具体到每天,我每天睡前会把第二天要做的事情写下来,第二天按照计划,一件一件事去完成。”
腾讯多媒体实验室在中国和美国都有团队,新冠大流行之前,刘杉在两边的时间基本对半,还有20%左右的时间会在全球跑,出席各种国际会议。随着疫情的退潮,今年春节过后,刘杉已回国一次。
刘杉似乎很享受两边团队能够接力干活的状态,仿佛自己“偷”到了时间,她很兴奋地告诉澎湃科技记者,“我记得突击赶一些产品时间点时,给两地工程师排班,国内同事下班的时候,美国同事正好起来,双方交接好,美国晚上正好是国内早上上班时间,美国同事继续开发。”
那是2018年年底,刘杉带领团队做无线投屏产品的研发,后来,无线投屏升级为腾讯会议。一年后,2019年的圣诞节,腾讯会议正式发布。
“一发布就疫情了,用户量一下子就上来了,带来很多挑战。”刘杉说。
腾讯的很多产品,不仅腾讯会议,在线教育类的产品,所有用户都要同时占用计算资源,包括腾讯云底层的容器能力等,都面临很大的挑战。“当然,不止腾讯,国内外的互联网科技公司,都面临这样的挑战。但挑战和机遇并存,原来规划中要挑战的DAU(日活跃用户数量),疫情一来,DAU即达到历史新高。”
在腾讯内部,人人都是自家产品的体验官,包括马化腾。
从某种意义上说,刘杉的团队在腾讯内部有点像“抢修队”,刘杉就是“抢修队长”。
“不管是腾讯会议还是腾讯视频,底层技术一个重要组成部分都是音视频技术。”过去的2022年,刘杉团队的工作重点之一是降本增效,说白了,就是怎么样把带宽成本压下来,但同时不影响用户体验。一轮轮测试、评估、测试,直到找到那个最优平衡点。
AI未来可期
刘杉2017年加入腾讯,即开始“标准布局”,2018年下半年又开始做编解码工程的实现,包括屏幕内容编码、实时音视频,这些技术不仅支持腾讯会议,腾讯云、全民K歌、云游戏、QQ等腾讯众多业务线都在使用这些底层技术。
与此同时,刘杉已看到沉浸式媒体的未来,包括虚拟现实 (VR)、增强现实(AR)和混合现实(MR),也包括全真互联网。“我在2018年说,一定要做这件事。当时整个行业都持观望态度。”
2018年夏天,刘杉招了第一个工程师,开始搭建VR系统,2019年进入下一阶段:6DoF(6向自由度),一种更沉浸式的体验。比如:体育赛事里精确毫秒级同步拍摄选手运动状态下的多角度转瞬即逝的精彩画面;在线教育时提供舞蹈、游泳、球类等在线学习新形式。
2019年除了全面铺开沉浸式媒体,刘杉又提出现在大火的AIGC(又称生成式AI,意为人工智能生成内容),“当时业界还没有这4个字母的缩写,我跟团队说要开始做智能内容生产。”刘杉说,半年后她向公司高层做了这方面的汇报和展示,得到领导的认可和支持。
从大方向来讲,人工智能未来可期。刘杉对这一结论笃定认可。但同时她说自己从来不是追逐潮流的人,所以,“我觉得要尽量避免过热,很多事情还是要想清楚,一步一个脚印把它做好,回归技术本身,以及让技术造福人类本身。”
去年12月的一次国际会议上,刘杉主持过一场关于元宇宙的讨论,参与讨论的有来自谷歌、英伟达等业界的高管、科学家。刘杉发现,大家对元宇宙都没有非常清晰的定义,都是发散性思维,感觉什么都可以包含进去。所以刘杉更愿意退回一步讨论“全真互联”,或者VR/AR等具体技术带给大家的沉浸体验,以及这些技术怎样实现产品化,为文化传承服务,比如她的团队与故宫研究院、敦煌研究院的技术合作。
一些正在进行中的项目可能不太方便透露,刘杉只举了一个例子,即面向机器视觉的视频编解码技术。“2019年开始探索,随着国际标准组织正式立项,我2020年开始担任国际标准专题组的联合组织,这是一个全世界都从零开始的探索。如果说,之前的音视频技术解决的是人和人的关系,我们现在要开始探索人和机器、机器和机器的关系。”
刘杉曾在接受媒体采访时说,“感谢公司给予我‘科学家’的称号,不过在我的内心里也一直住着一个‘工程师’。”
科学研究是开放的、不确定的,研究的成果往往和最初的预想不一样,但做产品是反推的逻辑,需要更多确定性和规划。
“二者没有孰优孰劣,每个人都要找到自己的热情所在。就我个人的经历,我喜欢尝试新东西并乐于拥抱变化。”刘杉说,她很喜欢乔布斯的一句话:“生命里的每一个点,最终都会连成线。” 她的工作经历中有过算法研究也有过产品开发,她坚信,“所有的工作,只要你认真投入过,都不是浪费时间,都将是你的积累和财富。”