设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 数据 创业者 手机
当前位置: 首页 > 大数据 > 正文

双11技术专题 | 如何快速挖掘“非结构化数据”金矿

发布时间:2021-01-06 16:42 所属栏目:125 来源:网络整理
导读:明天就是双 11 ,电商 IT 架构在承载双 11 狂欢购物潮中除了要保证其平台的可用性、响应时间和弹性扩展方面。还要面临着数据收集处理的需求, 上期内容 『电商用户画像系统背后的 IT 架构实践』 中,我们谈到“每一个电商平台都像是一个储量丰富、数据精准增

明天就是双 11 ,电商 IT 架构在承载双 11 狂欢购物潮中除了要保证其平台的可用性、响应时间和弹性扩展方面。还要面临着数据收集处理的需求,上期内容『电商用户画像系统背后的 IT 架构实践』中,我们谈到“每一个电商平台都像是一个储量丰富、数据精准增量巨大的数据金矿”,需要通过大数据平台对海量数据进行分析,才能发挥其最大价值。


今天我们来讲讲如何利用青云QingCloud ,快速挖掘“非结构化数据”这个金矿。


双11技术专题 | 如何快速挖掘“非结构化数据”金矿

电商的数据类型


数据分结构化数据和非结构化数据两大类,对于我们熟悉的结构结构化数据,非结构化数据分析的成熟度还远远落后于结构化数据的分析。



尤其是移动互联网的发展,大量的语音、文字、图片、视频信息充斥了人们交流的空间,要对这些信息作分析、提取出有价值的东西是非结构化数据一大难点,当然这也是非结构数据分析的价值所在。现在国内移动端所带来的爆发式增长带来了电商的新一轮繁荣,同样产生的非结构化数据处理也成了从业者的具体大挑战。


双11技术专题 | 如何快速挖掘“非结构化数据”金矿

非结构化数据的价值


根据 IDC 的一项调查报告中指出:企业中 80% 的数据都是非结构化数据,这些数据每年都按指数增长60%。 透过其增长速度,我们可见一斑。


在日常的电商交易中如商品信息、消费日志、即时通信、设备日志、客服代表的会话、图片展示、语音片段等都属于非结构化数据。因此需要在电商业务平台上增加数据处理与分析功能,来获得这些数据类型的价值。


如果说结构化数据用详实的方式记录了电商们的生产交易活动,那么非结构化数据则是掌握电商未来命脉的关键内容,所反映的信息蕴含着诸多企业效益提高的机会。


因此,打通结构化和非结构话数据之间的桥梁,是数据分析的一个必经之路,以下介绍如何在青云上非结构化数据分析。


双11技术专题 | 如何快速挖掘“非结构化数据”金矿

电商非结构化数据处理架构


首先我们先来看看电商非结构化数据处理场景:



以下是青云上非结构化数据处理流程示意:



相交于传统的 BI 分析来说,大数据分析可以兼容结构化与非结构化数据,进行混合分析,而且分析数据的存储规模可以达到几十 TB 到 PB 级别;同时由于数据量级太大,计算靠近存储可以使得性能及效率达到最优。


简单来说,非结构化数据分析要解决的几个问题:


1、数据存储


如此大的数量已经超越了当前关系型数据库可管理的容量上限,我们推荐用户使用青云对象存储服务(QingCloud Object Storage Service,亦称QingStor),该服务旨在为用户提供稳定可靠,安全易用,空间无限的云存储服务。可存储任意类型,任意数量,任意大小 (单个对象最大至 50T)的非结构化数据。



对象存储服务(Object Storage)提供了一个在线文件存储和访问平台,您可以将数据、日志、静态分发资源等多种文件类型,通过控制台或 Object Storage API 传到一个 Bucket 中,以供 HTTP 访问或数据分析使用。


同时,QingStor 也支持用户的多区域部署,示意图如下:


双11技术专题 | 如何快速挖掘“非结构化数据”金矿

PS:为了进一步拉近计算与存储的距离,同一区域的计算资源访问?QingStor?走内部网络。


2、数据搜索和分析引擎


一个中等的电商平台,每天产生上亿条的用户行为数据。一般来说,电商数据一般有 3 种主要类型的数据系统:


  • 关系型数据库。以 MySQL 为代表的数据库是互联网公司的首选。通常会被用于存储商品价格、型号、数量、用户信息等数据,对于事务性非常高的 OLTP 操作(比如订单,结算等)支持良好。


  • 数据仓库。除了备份关系型数据库的所有版本,还存储用户行为、点击、曝光、互动等海量日志数据,同时还需调用 Hadoop 平台组件进行数据分析、数据挖掘等服务,OLAP 支持比关系型数据库更加具有扩展性和稳定性。


  • 搜索引擎。以 Elasticsearch?为代表。搜索引擎是获取信息最高效的途径,几乎成为各类网站,应用的基础标配设施。

目前搜索引擎技术已经有非常成熟的开源解决方案,比如,Elasticsearch 是一针对日志分析、实时应用程序监控和点击流分析等使用案例的常见开源搜索和分析的分布式引擎。


但是即便如此,一个搜索引擎团队想把搜索引擎质量做到商用标准,从系统熟悉,服务搭建,功能定制,通常需要花费较长时间。于是,青云QingCloud 将?Elasticsearch 作为一项大数据服务推出,让用户可以在 QingCloud 中轻松地部署、操作和扩展 Elasticsearch。


通过 QingCloud,只需几分钟就可以设置和配置 Elasticsearch 服务,用户可以直接调用 Elasticsearch API,在电商生产环境下可用为帮助用户实现实时应用程序监控、流数据分析、社交媒体情感分析、电子商务筛选和导航等功能。


3、数据可视化及平台管理


数据呈现是企业最基础的需求之一,在实现数据可视化之前,企业需要通过大数据平台来搜集足够的数据,然后通过专门的软件来完成,但是这些都是分散开的,企业需要一个很好的可视化工具去兼容目前的大数据平台。


Hue 是一个开源的 Hadoop 生态的 Web UI 界面,最早由 Cloudera Desktop 演化而来,由 Cloudera 贡献给开源社区,它是基于 Python Web 框架 Django 实现的。


为了方便用户更好的使用和管理 QingCloud 大数据平台,青云QingCloud 推出了 Hue 服务,通过使用 Hue ,用户可以在浏览器端的 Web 控制台上与QingCloud 大数据平台的各个组建进行交互与管理。例如操作 HDFS 上的数据,运行 MapReduce Job,执行 Hive 脚本,执行 Spark 脚本等等。


通过 Hue 工具,用户可以快速搭建数据展示平台,联通不同格式的数据,实在是数据分析数据、数据展示的必备良器。


这么好的工具,你不试一下吗?

双11技术专题 | 如何快速挖掘“非结构化数据”金矿

总结

最后,明天就是双 11 了,青云祝大家在电商双 11 活动中买的开心,购的愉快,青云也会一如既往为用户提供高价值、高可靠的云计算解决方案。


PS:为什么会有《双11技术专题》?


每年双 11 ,虽然京东、淘宝、苏宁等大型电商已经凭借自身过硬的技术实力解决了高峰期间的 IT 压力,但是更多的中小型电商面对如此大的业务波动时还显得无能为力。


在本次双 11 期间,我们从技术角度出发,推出一系列专题文章,为大家解密电商平台的 IT 技术架构在面临秒杀抢购、消费者人物画像、商品推荐及搜索、业务高可用和多地访问、非结构化数据处理等业务场景的具体应对之策和技术实现。


上期内容回顾:



双11技术专题 | 如何快速挖掘“非结构化数据”金矿

-?FIN?-


(编辑:ASP站长网)

    网友评论
    推荐文章
      热点阅读