搜索的庖丁之刃(下)

未来的搜索如何弥补PageRank未了的缺憾?当搜索从页面级晋升为区块级,无疑将带来一场效率的革命。
 

  作者:原《互联网周刊》记者李洋

数据挖掘研究院

 
(续上文)
 

  一个网页就犹如一头牛。它有头、有尾,可以划分为不同的信息区域。当你浏览一个页面时,往往会将目光锁定在最重要的区域中,而不是先浏览导航、广告、版权信息等信息块。沿着这个思路,就可以进一步提升搜索的精准度。 数据挖掘研究院

 
速度提升
 

  这项技术的诞生对于搜索而言是一个根本性的改变。它除了在链接分析上,能够弥补Google PageRank算法的缺憾外,还能够在图片搜索等领域获得有效应用。在此之前,图片搜索在页面中抓取一个图片后,还要在页面中寻找解释这一图片的上下文说明。而有了这个技术则可以大大提升效率,可以直接在该图片出现的块里取说明文字,并且根据图片来自的块重要性,来决定这个图片的重要性。此外,在做类似的信息抽取的时候,都可以用到这项技术。 数据挖掘研究院

  数据挖掘论坛

  从2001年起,文继荣研究员带着两个学生总花费了两年多的时间研究出了这项技术。实际上,在最初的想法确定后,他们在几个月内就写出了算法。但这一算法在实际测试时经常会“跑不通”。“你都想象不到,有的网页内部的代码嵌套居然多达百层。”文继荣笑着说,“但这就是互联网上的实际情况。不管一个网页写得有多烂,我们的算法也要照顾到。”在接下来的时间里,他们在百万级页面级别对该算法进行了测试、完善。最终,当微软在国际学术会议上发布这一技术时,引发了不小的轰动。 数据挖掘研究院

数据挖掘实验室

  但当它走近实际应用时,又产生了新的问题——速度太慢。通常浏览器要渲染一个网页需要几百毫秒。这时间看似很短,但当你要同时处理的页面是几十亿、上百亿时,这个速度就变得无法容忍了。为配合微软总部将该技术应用在其搜索引擎中,产品部门提出了将时间缩短至数毫秒以内的要求。这不得不说是一项挑战。压力之下,微软的研发人员想到了一个解决办法:抛开IE浏览器的渲染引擎,自己编写一个相对简单而精炼的渲染引擎。因为这项技术中,仅需要通过渲染引擎获得其输出的数据结构,比如长度宽度、坐标等,而并不需要考虑最终的页面渲染效果,而对JavaScript等脚本也一概过滤。通过这一方式,每个页面的平均处理时间被成功地缩短至2毫秒以内。 数据挖掘实验室

  数据挖掘论坛

  还有什么是不能实现的吗?只要你想得到。 数据挖掘实验室

[数据挖掘专家] [数据挖掘研究院] [数据挖掘论坛] [数据挖掘实验室]
上一篇:搜索的庖丁之刃(上)
下一篇:Microsoft starts rebate debate
最新评论共有 0 位网友发表了评论 , 查看所有评论
发表评论( 不能超过250字,需审核,请自觉遵守互联网相关政策法规。 )
匿名?
数据挖掘网站导航 数据挖掘论坛导航
  • 数据挖掘工具
  • 数据挖掘论坛
  • DataCruncher - Cognos
  • MineSet - MathSoft
  • Intelligent Miner - GainSmarts
  • Sqlserver - SAS - Clementine
  • CART - Weka - WizSoft
  • NeuroShell - ModelQuest
  • data mining tools - Darwin
  • 数据挖掘交友
  • 数据挖掘博客
  • 数据挖掘工具
  • 数据挖掘资源
  • 数据挖掘技术算法
  • 数据挖掘相关期刊、会议
  • 研究院联盟合作专区
  • 数据挖掘基础与相关技术
  • 数据挖掘厂商与就业
  • 数据挖掘研究者乐园
  • 知名厂商数据挖掘工具资料
  • 国内数据挖掘实验室
  • Foreign Data Mining Lab
  • 热点关注
  • Mercator: A Scalable, Extensible Web Cra
  • 什么是垂直搜索引擎(之二)
  • Writing a web crawler
  • 互联网搜索的未来
  • 国家版权局版权司副司长许超:关于搜索引擎
  • 百度数分钟内闪电裁员 企业软件事业部遭抛
  • 我对垂直搜索引擎的几点认识
  • Google Patent Filings by the Dozen
  • Manageability - Open Source Web Crawlers
  • 微软卡位第三代搜索技术 认为Google将很快
  • 论坛最新话题
  • Foundations of Statistical Natural Langu
  • Game Theory meet Data Mining: A Recent P
  • System Building: How does it help or hin
  • 数据挖掘与Clementine培训
  • 新手报到
  • 求 SASEM 客户流失预测分析
  • 数据挖掘工程师/搜索研究院—北京——无线
  • 数据挖掘入门介绍(如何着手数据挖掘)
  • Information Overload Survey Results
  • The INEX 2005 Workshop on Element Retrie
  • 相关资讯
  • 谷歌宣布进军可替代能源 计划投资4.4万亿美
  • 搜索大战成Web 2.0操作系统之争
  • 7月美国搜索市场环比增长2% 雅虎微软成输家
  • 网页面向搜索引擎的搜索引擎优化
  • 史上最具技术创新的10大搜索引擎
  • Google如何预测下一届美国总统
  • 微软1亿美元收购语义搜索引擎Powerset
  • 很黄很暴力:人肉搜索引擎
  • OpenSocial只不过是Google公关骗局
  • 数据之美 百度GOOGLE统计的秘密
  • 数据挖掘实验室资料
  • 数据挖掘博客地址
  • 数据挖掘实验室网站地址
  • Prepare for Medicare audits by using dat
  • 注册成为SAS用户与爱好者俱乐部会员
  • 水南梅
  • 明日烟
  • 新人报道
  • 下载
  • 厦门服务器托管,450元/月—0592-5177319 高
  • 买空间送域名--0592-5177319 高静