“搜索”这个词,是伴随着Google的发展而为大众所知的。
在互联网的发展中,Google结束了以Yahoo、AOL为代表的门户阶段,把互联网和全球网民带入到了搜索时代。因此,我们对搜索的理解半径几乎是由Google的工程师们划定的—面向个人的互联网搜索服务。
Google极大地丰富和完善了互联网搜索的服务内容和服务质量,公司也创造了公司快速发展的神话。它的成功,进一步强化了人们对搜索的传统认识,但其定义的传统“关键词”式搜索的模式及面向个人用户的搜索服务,已经接近扩张的边缘。
于 是,Autonomy、Google、Yahoo、微软的等国际巨头,一起把未来竞争目标锁定在企业级搜索市场上,企业级搜索市场也迅速扩大。但尽管这么 多有影响的公司进入,由于企业级搜索的技术门槛较高,并没有出现个人搜索市场上那种群雄争霸、烽烟四期的局面,百度甚至还在2006年退出了企业搜索市 场…… 数据挖掘交友
企业信息管理的难题
数据挖掘工具
相对Google、Yahoo等主要面向互联网个人用户的服务而言,企业级搜索,主要面向企业级的高端用户,满足企业生产经营中需要的企业内外的各 种介质、格式的信息,进行挖掘、处理、应用等服务。企业用户对信息的需求不仅仅限于简单的查询结果,而是结合搜索、数据库查询、语义和句法分析、分类和聚 类、相关性分析等技术,整合现有的信息资源,提炼出具有商业价值或社会价值的数据支持。
单就企业内部而言,除了20%的数据是以数据库的形式存储外,其它的80%均是网页、各种格式的文件、邮件和图片等非结构化的形式,它们散落在企业内计算机系统中的各个角落。
统 计显示,企业网络里超过80%的信息是非结构化的信息,其中不到10%的内容是在网页里找到的。其它内容可以是几百种文件格式中的任何一种—不同的应用程 序和储存库、使用不同语言、受不同级别的安全模式保护……这些数据总量远远超过了互联网上信息的总量,而这些信息靠常规的搜索引擎是没法搜索到的。
这80% 的数据之间只有很少部分是建立了关联关系的,可以从一个数据找到另一个数据。绝大多数是没有任何链接关系的。很多企业以前一直以数据库方式管理企业的各类 经营信息,但随着海量数据的增加、文件格式类型的多样化,数据收集、处理、检索工作的日常化,传统的、以把数据进行结构化为原理的数据库管理方式已经远远 不能满足企业的需要。海量的信息的涌现,要使企业的数据达到数据库要求,而需要完成的标引工作,变成了没法完成任务;另外信息的各类格式和类型的多样化, 如视频、音频、邮件、不同语言的文档、不同格式的图片等等,如果这些内容全部进行数据库管理,也将使数据库的建立变得难以承受的庞杂。 数据挖掘实验室
指 望员工花费很多时间去为可能有用的文档进行分类或贴标签是不切实际的。必须有一种新的信息管理方式,可以管理、检索、整合与其专业领域相关的大量的公司数 据。这种新的信息管理方式,与传统的以个人用户为主的搜索引擎、文档管理工具或数据库查询工具不同,它不仅需要能访问数据,而是要将各种内容和格式的数据 替人管理起来,以最方便的形式供人们使用。 数据挖掘实验室
巨头们的盛宴
数据挖掘工具
企业存在的上述问题,代表着庞大的企业级市场需求,很早就引起了技术先进的国际巨头的注意。来自英国剑桥的Autonomy公司、Google、微 软等纷纷进入这个可以预见的、互联网领域的下一个金矿。基于目前的技术发展成就和未来的发展前景,这些公司不约而同地走上了打造一个可以满足企业生产经营 需要的、专门的企业级搜索平台的道路。
最早进入这个领域的英国剑桥博士麦克林奇(也是Autonomy公司创始人)发现,企业级搜索的难 点在于非结构化数据的处理技术。如果能够彻底解决非结构化数据的处理问题,企业面临的上述困境将迎刃而解,而且这将产生一个完全不同于目前流行的搜索引擎 的全新的企业级搜索平台。剑桥大学的专家们结合贝叶斯概率论和香农信息论的有关理论,创造了独特的模式匹配技术。这个技术的产生,为解决非结构化数据处理 带来了堪称神奇的效果。
简单地来理解这个技术的原理是,把文本中的字词看作是抽象的意义符号,然后对其中出现的特定文字和概念的频率,来 判断该文本与某个观点和概念之间的相关性。也就是说,一个文本所具有的主题,是和一些概念出现的频率有关。由此,可以判断一个文本的主题,并将不同主题的 文本进行自动的处理,建立各种类型的关联关系,最终完全达到把这些信息结构化的效果。让计算机可以自动“理解”来自文本文件、网页、电子邮件、声音、视 频、文档,以及任何人们感兴趣的结构化和非结构化信息。 数据挖掘工具
基于这一技术,Autonomy开发了核心产品IDOL(智能数据处理层 Intelligent Data Operating Layer),并以IDOL为基础开发了一系列产品,这些产品提供的服务是开创性的。例如,可以同时以多语种和任意信息格式对内容进行搜索,不受信息存储 位置的影响,并能够实时向客户提供自动摘要和相关链接;支持任意信息片段的检索,如以一句话、一段文字或整个文本作为搜索条件,每个结果都可以自动生成相 关内容的链接;可以独立于特定的语种,从而可以对任何语种信息和多语种进行跨语种概念抽取等等。
Google在5年前就开始提供企业搜索 产品—Google Mini和Search Appliance进行了升级。2006年8月,Google发布了一个专门针对商业部门开发的包括搜索电子邮件、日程表、聊天记录等内容的软件包。 Google企业搜索部副总裁Dave Girouard将其称为是“Google为企业用户服务的破冰之举”。
但是,微软对Google在企业级搜索的动作不屑一顾。
“没人能从微软的地盘抢夺利润,我们不会和别人共食一个饭碗。”微软公司COO Kevin Turner的话表现出了对企业搜索市场志在必得的决心。
分 析人士指出,Google主要是依靠消费者对其品牌的高认知度慢慢向企业搜索市场渗透,但是目前还不能说效果理想,也和Google的其他周边产品一样, 处于尝试阶段,没有定型。而当前Google坚持在做企业搜索的原因主要是发展其企业IT技术供应商,并保持对微软等传统巨头的竞争力,着眼于未来的整体 竞争格局。 数据挖掘论坛
越来越希望在企业级市场发力的微软已经将企业级搜索产品提到了其“全员就绪”(People Ready)战略中。
据 微软中国专业解决方案部技术顾问熊明峰透露,微软公司的企业搜索正在超越现有的功能,即只创建文件的功能。新的软件解决方案利用了客户机和服务器丰富的资 源,如Windows Desktop Search和Microsoft Office SharePoint Server 2007,通过使用这些新的解决方案,人们将能及时获取他们最需要的信息,无论是在桌面上、服务器上还是全公司—只要用一个简单、直观而熟悉的用户界面, 就可实现此目的。
根据IDC数据显示,凭借过去20年的努力,微软已经成为企业搜索市场的第二名,仅落后于Autonomy。
IBM显然对企业搜索市场也深感兴趣。在竞争的压力下,IBM将搜索、文本分析和可视化能力全部融入到最新的企业级搜索工具OmniFind中。
在去年完成了TripleHop公司的收购后,甲骨文也开始在企业搜索领域叫板微软和IBM。
2006 年3月,甲骨文隆重推出了进军企业搜索市场的企业安全搜索(Secure Enterprise Search,SES)软件。该软件能够帮助企业在数据库、电子信件系统以及各种企业用软件中搜索信息。为了扩大产品影响,其CEO拉里·埃利森还亲自跑 到日本东京的首发仪式上发表演说,强调SES为“本年度我们最主要的产品”,并将抢占Google、微软等公司留下的市场空白。 数据挖掘论坛
业内专家认为,甲骨文搜索产品中最吸引人的地方是搜索技术所依赖的Oracle数据库产品,这是其他较小企业搜索公司所不能达到的。
虽 然受到微软、Oracle和IBM左右夹击,Google的成绩似乎也在不断变好。图1的黄色盒子便是Google的企业级搜索硬件之一—Google Search Appliance。根据Google的最新数据,自2002年推出首款Google Search Appliance以来,它的企业用户数量平均每年都增长一倍,至今已有超过10000家企业使用Google Search Appliance及Google Mini。这意味着Google的企业搜索硬件销售数量已至少突破了10000部。
数据挖掘交友
数据挖掘交友