SHENQI INFORMATION TECHNOLOGY CO. LTD

山东申启信息技术有限公司

产品中心

首页 >> 产品中心 >>网络信息采集分析系统 >> 网络信息采集分析系统
详细说明

网络信息采集分析系统

收藏
商品说明

       随着互联网的发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网络让民众发表言论的渠道进一步拓宽,同时,其传播面广、传播迅速、不受时间空间限制和放大镜等特征将信息的影响力成倍放大,尤其是一些敏感话题、焦点事件、热点问题。所有引起网民关注的热点舆情,也已成为干部监督、部门监管的重要手段,如何与网络媒体打交道,如何与网民正常互动交流,如何及早发现舆情并采取恰当措施已经成为各级政府部门工作不可或缺的一部分。

产品特点
  1. 非结构化数据抽取:网络信息采集分析系统支持从各种不同结构的网页中,将所需要的数据进行结构化处理,以供检索模块调用;还支持从互联网获取文件,例如文档、图片、视频等等。

     

  2. 中文分词技术:集成了具有语义分析功能的中文分词技术,并有着近 50万词库的支持, 用户也可以根据自己的需要维护词库。中文分词的准确率和召回率达到 96%以上。


  3. 智能化的检索服务:网络信息采集分析系统在全文检索过程中采用相关智能技术迅速、准确定位目标信息。如采用相关度分析、构造强大的语义规则库、提供智能化的概念扩展查询等。


  4. 海量数据高效处理:在千万级数据下,能在毫秒级完成检索,同时也有着高效的海量数据处理能力。每小时能处理百万数据或文档。并成功实施过多个超过5千万数据规模的项目。


  5. 信息指纹去重技术:互联网上充斥着大量转载或被修改的信息,通过信息指纹技术能够准确判断出同源信息,结合发表时间,可以追踪到信息源头,治标更能治本。多线程、高效抓取:支持多线程同步抓取,单服务器支持超过 2000 线程同步抓取,经过测试部门测定,在共享百兆情况下,每天的页面抓取能力可达百万级别。


  6. 分布式系统支持:通过分布式系统的支持,系统的数据负载能力可以从 300 万提高到上亿规模。

×