RSS
热门关键字:  数据挖掘  数据仓库  人工智能  数据挖掘导论  搜索引擎
搜索引擎技术与新闻
几个Java的网络爬虫
Heritrix 点击次数:9563 Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。 WebSPHINX 点击次数:7273 WebSPHINX是一个Java类包和Web爬虫的交互式开...
作者:发表于:2008-05-25 13:15:49 点击:88 评论:1 查阅全文...
网络爬虫(源代码)
public class Spider implements Runnable { private ArrayList urls; //URL 列表 private HashMap indexedURLs; // 已经检索过的 URL列表 private int threads ; // 初始化线程数 public static void main(String...
作者:发表于:2008-05-25 13:15:22 点击:77 评论:0 查阅全文...
Sosoo1.0网络爬虫程序
基于sosoo定制web spider程序的编程人员。 目录 一:安装sosoo 2 二:功能定制 2 1.基本功能参数的设置。 2 2.配置机器人对url的检查 3 3:实现文件管理。 4 4.定制html文档下载规则。 4 5.设置对下载后http文档...
作者:发表于:2008-05-25 13:14:50 点击:32 评论:0 查阅全文...
什么是网络爬虫程序
一、爬虫技术研究综述 引言 随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的 挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作...
作者:发表于:2008-05-25 13:13:50 点击:58 评论:0 查阅全文...
用户界面或是颠覆的突破口
微软亚洲研究院马维英博士日前接受 CNET 采访时指出: 搜索当然是一个红海战术,但我们一定是要和谷歌硬拼的;目前只有两家公司具备这个军备竞赛的能力:微软与谷歌。 不过,当然我们也同时在思考蓝海的战术;用户...
作者:发表于:2008-05-23 16:32:17 点击:22 评论:0 查阅全文...
DataMentors Improves Business Intelligence Analytical Software
DataMentors a data quality and management solutions company, recently announced that it has enhanced its PinPoint BI analytics software solution with Tier-1 campaign management functionality. DataMen...
作者:发表于:2008-05-23 09:35:50 点击:4 评论:0 查阅全文...
Google帝国未来发展战略的思考
美国《财富》杂志近日对Google的CEO埃里克施密特进行了访谈,埃里克施密特(Eric Schmidt)在访谈中谈到Google如何面对它所面临来自内部的挑战。施密特认为,目前,Google将精力分散到了很多非核心业务,这对Google的...
作者:发表于:2008-05-23 09:30:32 点击:35 评论:0 查阅全文...
百度酝酿进军网游领域 或与游戏公司联合运营
百度(BIDU.Nasdaq)图谋互联网霸主地位的野心正加速显现。昨日,上海 证券报获悉,继高调宣布进军C2C、IM领域后,百度又将目光投向网络游戏领域,即将染指这块目前在互联网市场中规模最大的蛋糕。 昨日,记者从一位...
作者:发表于:2008-04-18 10:25:51 点击:32 评论:0 查阅全文...