互联网信息内容庞杂多样,既有大量进步、健康、有益的信息,也有不少反动、迷信等消极内容。互联网作为一块正在加速膨胀的思想阵地,加上其虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的人们愿意通过这类渠道表达自己的个人想法,因此网络舆情的爆发将以“内容威胁”的形式逐渐对社会公共安全形成威胁。北大方正技术研究院基于现实需要,凭借多年的科研技术成果,结合内容管理技术、知识管理技术,互联网相关技术适时推出方正智思——网络舆情互联网信息监控分析系统。该系统着重强调加强互联网、手机短信等新型传媒的信息搜集和分析,以计算机智能处理技术辅助舆情信息汇集整理和分析,对新出现的社会舆论热点、焦点去伪存真,为确保我国互联网络大众媒体的舆论导向的正确性起到一定的辅助作用。近日,北大方正技术研究院的方正智思——网络舆情互联网信息监控分析系统成功签单上海市委宣传部,服务于网络舆情预警监测系统项目。
系统简介
方正智思——网络舆情互联网信息监控分析系统指整合互联网搜索技术及信息智能处理技术和知识管理方法,通过对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦,实现用户的网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。 数据挖掘实验室
系统包括如下基本环节:
1)信息采集:互联网信息(新闻、论坛等)的实时监测、采集、内容提取及排重;
2)信息处理:对抓取的内容进行自动分类聚类、主题检测、专题聚焦等;
3)信息服务:将采集并分析整理后的信息直接为用户或为用户辅助编辑提供信息服务,如自动形成舆情信息简报、追踪已发现的舆论焦点等。
技术特点
·网络抓取技术
(1)元搜索技术
元搜索引擎集成了不同性能和不同风格的搜索引擎并发展了一些新的查询功能。查一个元搜索引擎就相当于查多个独立搜索引擎。进行网络信息检索与收集时,元搜索可指定搜索条件,从而既提高信息采集的针对性又扩大了采集范围的广度,收到事半功倍的效果。
(2)网络雷达技术
网络雷达技术能及时发现并抓取网站中新的内容,并可通过配置用户信息以便抓取网站中访问权限控制的内容,大大提高网络内容抓取的深度。
(3)网页内容智能提取技术