技术优势

EBU 语义分析平台 基于国内领先的信息搜索和智能语义分析技术搭建。

底层是基于语义分析的大数据平台,能够识别中文语义;在平台基础上,融合了计算机网络技术、自然语言技术(NLP)和新媒体传播分析;这样分别可以实现海量信息的抓取和分析、信息文本内容的识别和过滤、信息传播分析和内容监控。

这些基础总体保证整个系统的信息抓取、自动分类、信息过滤、热点发现、褒贬分析、网络新词识别、传播路径分析等功能。

传统技术 EBU语义分析技术
智能过滤
自动分类

过于刚性,会导致大量误删和漏删

采用智能技术,运用基于自然语言技术的语义分析引擎,实现对内容关键特征抽取、分类、聚类等语义标引,可大幅度降低误删率和漏删率。

语义识别
主题词预警

很难识别各类词语“变形”

进行同音、同义、同形等方面的变形分析,同时进行网络新词自动跟踪,对最新出现的网络用语进行识别,可有效预警各种变形信息和潜在不良信息

传播分析
来源分析

很难识别各种不同信息来源的传播路径和特征

提供基于传播路径分析的传播特征分析引擎,从时间、来源、内容、转引、回复、褒贬等多维度做出分析和标引。

1: 海量信息,及时准确


“EBU智能语义分析系统”的数据平台以最新最快的抓取技术,可实现对开放的互联网内容和封闭的数据库信息的自动采集。互联网内容方面,既可以设定主题关键词进行全网抓取,也可以设定行业领域进行定向来源抓取;数据库信息方面,支持多种数据库结构的自动导入和格式抽取,快速实现数据索引。

针对用户的特定需求,可面向特定信息来源自动抓取相关数据,进行数据相关性分析、数据自动分类和数据库备份。系统可按内容、来源以及监测时间,将信息进行自动分类,以便于信息的浏览与检索。实例见下:

在性能指标上,网络抓取内容包括新闻、论坛、微博,抓取间隔时间最低可设置为3分钟/次,所抓取的数据内容相关度达90%以上。具体功能包括:


    全媒体:
  • 覆盖主流论坛、新闻、博客和微博

    全网与定向:
  • 支持全网搜索监测
  • 支持自定义来源监测

    多语种:
  • 可提供多语种监测

    实时监控:
  • 7×24小时
  • 扫描间隔可到分钟级

2: 自动过滤,分类聚类

基于业内领先的智能语义分析技术,系统将海量信息排重去杂等初步处理后,将所关注信息按设定类别进行自动归类,并自动统计出最新热点。

热词聚类可以在海量文本情况下,自动分析文本内容,提炼出相关主题热词,并可以根据相关文章数量作出相关百分比,实例见下:

在性能指标上,该模块中文分词速度达到180KB/s,F1值达到95%以上。词性标注整体准确率为95%以上,未登录词准确率为80%以上,处理速度达到20KB/s以上。

3: 热点分析,趋势报告



智能语义分析系统通过对抓取的内容进行关注度分析和热点分析,计算出具体的数值,并可以进行预警信息查询与检索。

通过对不同专业领域热点事件的第一时间自动检索以及对该事件的跨时间轴分析,实现热点发现和热点追踪的功能。通过趋势曲线和统计分析进而形成专题报告,以达到对关注事件的综合评判。实例如下:

在性能指标上,内容关注度分析准确率达到90%以上,热点发现和分析达到80%以上,信息查询与检索的响应时间小于1秒钟。具体功能包括:

    热点发现
  • 对突发事件等舆情热点自动发现

    热点追踪
  • 支持全网搜索监测

    专题统计分析
  • 可对热点事件进行统计分析,生成专题报告

4: 态度分析,自动褒贬

智能语义分析系统可通过对抓取到的海量专业信息进行自动褒贬分析,分析的内容包括每一条信息中带有感情色彩的分词以及该信息整体,并根据褒贬值分析信息满意度进而深度解析该信息、时间的倾向性。

还可根据网络信息的重要性、热点和褒贬度,计算出综合预警值,根据设定的阈值进行不同级别预警,预警信息可自动发邮件和短信进行预警触发。

5:可视化报表,一键导出

智能语义分析系统可实时将采集、抓取到的专业信息文本进行自动统计分析并根据分析的数据结构自动生成相关的图表、表格且按照固定格式一键转化为Word文档,支持报表自动导出。