探访百度:突破性的框计算 技术创新者的乐园

[复制链接]
查看301 | 回复1 | 2014-2-17 22:06:45 | 显示全部楼层 |阅读模式
美国曾经做过一次网络调查,“如果是砍掉一个手指,或者被终生剥夺使用搜索的权力,你会选择哪个?”近1/3的网民选择了前者。越来越多的人已经离不开搜索,他们将自己的衣食住行、求医问药、教育求职等诸多需求向搜索框求助。千变万化、纷繁复杂的请求,用户用最习惯的语言告诉搜索,而搜索负责将最简单、可依赖的内容反馈给用户。

越是看似简单的应用,背后越需要经得住严峻的考验:每天数十亿次检索、全球数亿网民千变万化的需求和表达方式,考验了百度这家中国互联网公司过去十余年所做的技术积累。而百度的突破性理念——“框计算”,正在用充满想象力的技术创新改变数亿网民的生活,立足中文互联网,引领全球搜索的革新。

突破性的框计算

图书馆学,全文检索技术,倒排技术和互联网技术的发展,推动了搜索引擎的诞生。互联网的内容不断的扩充和网民数量增长,使覆盖率,检索粒度和语义等因素逐渐被考虑到搜索引擎中。基于对用户需求的把握,以及对搜索相关性、精准度等衡量搜索引擎最重要的技术指标的提升,2009年8月,在百度的年度技术盛会“百度世界”上,百度CEO李彦宏前瞻性地提出了“框计算”这一技术理念,以推动最优质的内容和服务,与用户需求实现精准匹配,从而引发业界强烈关注。

“框计算是百度自己跟自己赛跑,因为整个世界上没有跟我们做同样东西的人。”百度框计算技术相关负责人李盈这样评价。

在“框计算”理念指引下,百度在网民需求上改进了小小一步,而这,却是搜索引擎进步的一大步。

随着“框计算”的问世和逐步实现,早上起床,百度一下“今天限行号码”,网民可看到北京市公安交通管理局发布的一周机动车尾号限行贴心提示;开车去上班时,百度一下“实时路况”,选一条车辆畅通的道路以免迟到;到了公司准备工作,百度一下“豆瓣电台”,即可在搜索框内播放音乐,还可以选择华语、欧美、粤语等不同频道或者不同的音乐风格;一天工作结束,搜索一下晚上吃什么,百度一下“宫保鸡丁”,图文并茂的菜谱立即呈现在眼前,不会做饭的人也可以烹调出一顿美味菜肴;而担心怕胖的白领朋友还可以百度一下“宫保鸡丁的热量”,一个简单清晰的营养成分表可以告诉你这道菜中有多少热量、碳水化合物、蛋白质和维生素;吃过晚饭,休闲一下,搜索“天龙八部”,你可以下载《天龙八部2》游戏,也有不同版本的电影电视剧供你在线观看……在百度框计算的架构之下,网民任何对互联网的需求,几乎都可以通过搜素引擎得到满足。而每一次需求的满足,对百度而言都是“大海捞针”的任务,百度不仅要在200毫秒之内读取人脑,还要调用最优秀的资源,以最好的方式呈现在用户面前。

“目前已经有超过1400家产业合作伙伴对接我们的框计算开放平台。框计算所覆盖的搜索流量,根据本月最新的评估,在百度每天接受数十亿的用户查询中,框计算已经影响了57%的搜索结果,平均不到两次搜索就有一次包含框计算的结果。”李盈告诉记者。

“框”后面的技术战

框计算下,百度中文搜索已全面领先于世界。在“框计算”为网民勾勒出的美好前景背后,带给百度工程师们的,是一项项艰深的技术挑战。

李盈介绍,框计算背后有四个核心技术难点,包括“需求识别和解析”、“用户行为分析”、“检索技术”和“特效展现”,而这是搜索引擎最具技术难度的领域。

“需求识别和解析”的核心在于自然语言处理和语义识别,即机器要判断用户关键字搜索背后真实的需求。一个简单的天气查询需求,用户也许有94 种不同的表达方式;无论用户搜索的是人民币兑美元还是英镑、日元,结果出现的都将是“汇率换算器”。机器如何识别千变万化的用户需求,是自然语言处理团队面临的最大挑战。据框计算语义分析团队负责人春光介绍,他们将用户需求与资源提供方建立联系,一方面分析用户行为习惯,一方面让机器模拟人类认知学习的过程,去理解用户表达的内涵。

识别用户需求之后,要通过检索来调用最精准的信息或资源也并不容易。对于一般的信息需求,传统大搜索技术中的“倒排检索”即可实现,但对于更复杂的需求,就要引入单一数据值检索、数据库检索、交互操作等特殊检索方式。例如用户搜索“计算器”时,并不想找到文本中包含“计算器”的链接,而是想直接进行计算,搜索“三个火念什么”时,是想找 “焱”字的读音。

检索完成后,框计算检索策略团队就要分析资源的质量、用户的历史行为习惯等复杂的影响因素。例如“天龙八部”这一需求,百度的搜索结果是把电影排前面,还是把游戏排前面,就要根据搜索用户的历史行为进行匹配;又如“2012”,以往它可以直接指向一趟南宁至张家界的火车,而《2012》电影出现之后,搜索结果排序就要发生相应的变化。

结果展现方面,框计算的展现团队要保证用户从点“百度一下”到他看到结果,一定不超过0.5秒。为了保证用户最顺畅的浏览,展现团队还会定期到全国各地进行用户行为调研,不断优化各种技术细节。

框计算的每个技术点背后都有一个专门的团队:包括测试、自动化运维、自然语言处理、排序、架构、产品、用户行为评估、展现等,这可以将责任落实到每一个具体环节上,也能够发挥“专注”的效力。此外,还有一个由各技术团队派出专人组成的技术决策团队,每个团队中的任何人有任何新的想法,是否适合做成产品,都可以拿到这里来讨论做决定。

框计算,正引领着互联网产业进行一次彻底的技术革命。

创新以人为本

实际上,无论是框计算,还是百度每天上线的近200的项创新及技术升级,惊人的技术创新背后是工程师的劳动与协作。因此,在百度,“最懂技术的人最有话语权”。百度会给他们最好的工作环境、最丰富的资源,让他们做他们想做的事情,于此同时,员工们感受到的,是做主人翁的快乐和成就感。

从百度创立的第一天起,深受硅谷文化熏陶的百度创始人李彦宏就将这种“自由、平等、协作”的文化带到了自己的公司——员工有任何想法都可以直接敲开领导人的办公室,一个创意可以第一时间抄送给所有人。
情迷布拉格 | 2014-7-24 21:05:18 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则