MaxCompute在网络舆情监控系统中的应用

  • 时间:
  • 浏览:1

主要的几类任务介绍

目前该系统已上线八个月,满足的业务部门目前的监控需求,已经 在时效性和精准性方面明显优于第三方监测公司的报告。

任务运行概览

模型训练任务

媒体分析类:活跃媒体统计、媒体品牌统计、去重过滤类等任务,有些任务包括热词统计、关键词同步、热点新闻统计等,通过DataIDE进行自动调度

相关MaxCompute任务根据功能分为几类:模型训练、竞品分析、舆情监控、媒体分析、预警中心和事件分析等。

监控概览

业务架构

关键词监控工作流

系统架构图

所含信息去重、去水军信息、计算统计数据等任务

系统拓扑图

舆情监控任务

相关任务截图:

关键词监控:主就说 通过使用MR任务使用TF-IDF的统计最好的辦法 ,一齐使用MR进行去过滤。

计算词向量:通过数加平台的机器学习功能,将相关关键字进行数字化的工作。

计算统计数据工作流

舆情监控

爬虫系统和自然语言防止不出本文中完整篇 介绍,主要介绍MaxCompute中数据防止的相关内容。

国内某汽车企业所搭建的网络舆情监控平台,通过建设互联网媒体舆情综合监测分析系统,对新闻、论坛、博客、微博、视频、APP、传统纸媒等进行全面的覆盖,客户都还可以 及时获取与当事人关心的网络舆情信息,及时挖出来网络舆情热点信息和手中的网络推手并进行持续的监控和跟踪,对舆情信息进行深度1挖掘,发现潜在的舆情热点,对于特定的舆情事件都还可以 及时提供分析报告。

前端请求SLB进行负载均衡,分类整理到一一八个Web子系统,主要的数据防止工作由MaxCompute完成,搜索引擎使用3台ECS部署了ES来承载,数据分类分类整理则由多个爬虫系统完成,一齐全是一台ECS用户自然语言防止,相关的內部化数据存储则由RDS提供。

业务部门对舆情监控平台要求的高实时性(刷新频率在5分钟以内),方便的自行加带监控内容,能监控媒体及不同编辑对品牌和产品的友好度,已经 内快速的形成相关的舆情报告。基于业务部门的要求情況,系统如此 采用阿里云现有的舆情监控服务,就说 使用阿里云ECS和MaxCompute服务搭建了一套基于爬虫和自然语言分析的舆情系统,已满足业务部门个性化的需求。



媒体分析

根据中国互联网络信息中心(CNNIC)报告显示,我国的网友视频 见面规模增长迅猛,截至2016年12月,我国网友视频 见面规模达7.31亿,较2015年底提升了6.5一一八个百分点。互联网成为反映社会舆情的一一八个重要载体。随着以社交媒体为主的互联网应用的普及和深入,网络舆情热点层出不穷,怪怪的是当前微博、微信、新闻客户端等新媒体发展极为迅猛,其强大的舆论号召力与传播力让任何人都无法轻视。互联网已经 成为政府了解民情的直接渠道,一齐也成为企业接触客户、宣传营销的重要阵地。