大数据科普

廖华,毕业于 清华大学 应用数学系

中国企业改革与发展研究会研究员,原某世界500强企业产品总监,擅长IoT、网络安全和大数据、企业管理应用、SaaS平台的架构和运营,熟悉IPD,业务型技术管理者

  • 1. 什么是大数据,和普通的数据有什么区别

大数据首先是工业和科技上的概念,个人一般数据不会达到大数据层面,在工业化向信息化、智能化转变的过程中,在某些领域内(数字化生产、科学研究、社交媒体、互联网运营、物联网生产等),在数据管理上遇到一些问题,导致传统的数据管理不能满足要求。

比如以下问题:

  • 传统数据特征

传统的简单数据管理,如班级的考试成绩,相关的数据如班级数,学生数、教师数、考试数目,成绩数目等,有以下特征:
1.数据量小(1000以下级别),且数据产生频次较低。
2.数据关联性简单,表单数据少,容易自动寻找数据关系
3.数据要求简单,实时性差,比如考试成绩可以在3天内批改统计完成
4.数据格式简单,都是文本(如姓名、课程、老师名称等),或者数据值(成绩、时间等)
5.数据处理简单,针对学生成绩做简单的统计,汇总各科成绩等
但这些数据处理能力和方式,都不能满足现代数字化大生产的要求。

  • 大数据特征

现代数字化大生产,是以大数据为处理基础的,大数据的特征为以下几个:
1.数据量巨大,而且持续产生数据;
以电商平台双十一数据为例,数据量巨大,商品数、订单数、交易数都巨大,而且持续产生,传统的数据管理无法应对。
2.数据种类多,而且内在关联性强;
以运营商(电信、移动、联通)为例,内部有数十个上百个不同系统,不同系统起不同作用,而这些系统也是有关联的,给不同部门不同角色人员使用,针对不同活动有不同的业务分支,数据在一定规则下是相关的统一的,这些传统的数据管理无法应对。
3.数据要求高,很多时候需高速实时性处理;
以12306(中国铁路客户服务中心12306.cn)为例,每张订票数据,都要实时进行同步处理,需要支持全国数亿用户的同时订票买票,查询余票等,传统的数据管理无法应对。
4.数据非结构化,需要统一处理
以某安全视频监控系统为例,对视频监控的识别处理、对人脸库识别比对,这些信息处理已经超出了传统的数据处理范畴,传统数据处理主要基于数字、文本文字等的处理,无法满足要求。
5.数据价值挖掘需要更加智能的方式。
数据价值挖掘是数据价值产生的重要方式,传统的数据价值挖掘主要有两个特点:
专家系统:在进行数据挖掘时候,传统方式往往需要大量的某个领域专家水平的知识与经验。根据专家的的知识与经验,进行推理和判断,从而得到更优的结果。
如医疗领域的X光机相片分析,往往是通过专家来进行分析,对相应部位的X光进行分析判断,分析异常,确定病灶,提出相关资料方案等。

基于大数据的人工智能是解决方案,如上文提到的X光相片分析,现有的人工智能能够基于X光相片的学习,报告病例、资料方案的学习,能够自动进行分析和判断,最终给出最合理的方案。

  • 2. 为什么很多企业都在做大数据而却效果不好?

大数据建设往往和企业的数字化转型相关联,很多企业都在做数字化转型,但其数字化转型的效果往往差强人意,我们小结了一下,企业大数据建设容易进入以下误区:

企业大数据建设的误区:

1.只有过程,没有结果

大数据建设是要为公司的运营发展服务的,而很多企业的大数据建设是过程轰轰烈烈,也花了很多精力和费用,但时效性相对比较短,按运动的方式建设,是否真的对运营发展有实质性提升,没有一个很好的指标化的跟管理发展一致的结果。

2.只有系统,没有运营

在很多公司,大数据建设是方向,是公司领导布置下来的重中之重的任务,而一般情况下,大数据建设的任务往往是落在IT部门肩上,IT部门一般是后端部门,主要是做系统支撑,在具体建设的时候,就把重心放在系统建设、数据管理上,而真正去推动前端数据运营,数据挖掘,管理建设优化,IT部门推动力相对是比较弱的。

最后可能的结果,IT部门建设了一个庞大的系统,但是没人用。

以下是一个系统架构示例,供参考。

大数据平台架构图

3.只有展示,没有提升

国内很多企业,领导精通业务,对报表也很精通,但在数据管理,运营逻辑上就关注的相对少一些。导致很多大数据建设就等于大屏展示,漂亮的,带动图效果的,实时更新的大屏展示,就成为了大数据建设的成果。

从展示到提升,到效果跟踪,实际上是一个有效的管理闭环,目前看来很多大数据建设过程中,往往效能提升和效果跟踪,并没有做到可以执行的结果。

以下是一个销售管理的展示,供参考。

大屏展示样例(数据为虚拟数据)

4.只有数据,没有分析

很多企业,在做数据展示的时候,只是展示一些简单的,纯粹的数据,而这些数据背后的逻辑,可能产生的问题,可以提升的效能,可以牵引进一步行动的建议,都没有做很好的分析。

以下是一个分析示例,可以找到成功样本和非成功样本的分布示意:

分析示例(产品vs服务)

所以说,大数据其实并不只是纯粹的技术,要产生效益,还是要从管理角度进行分析和判断,进行一个持续有效的大数据能力的建设。

  • 3. 企业如何做好大数据

大数据建设应该遵循以下思路:

首先需要跟公司的战略目标和管理能力结合,有效基于精准目标进行大数据建设。在基于公公司整体目标和管理的基础上,以下步骤缺一不可:

1.基于战略数字化指标体系
各层级都有相关的管理指标,如KPI管理方法中的关键指标(key Performance),或者OKR管理里面的对象(object),以自顶向下的方式进行指标设计。
设计的方法可以参考北极星指标设计法(北极星指标(North Star Metric),也叫作第一关键指标(One Metric That Matters)
指标分解到具体数的过程,就是指标体系建立的过程。以销售部门为例,几个过程示例:
销售目标指标定义(销售额、利润)
指标分解(分解为月度、渠道/直销/网销)
取数呈现(在一定设计的页面统一展现)

2.基于指标体系的运营闭环
在指标体系设计的基础上,需要做一定的运营闭环设计,包括两个方面:
A.系统数据的持续跟踪,如用户体验的持续改进,保证数据的持续采集。
B.对结果数据出发的管理闭环设计。如针对销售额的区间分层,进行销售策略的设计和引导;如针对低于一定数据的销售,进行督导和改进等。
3.基于运营闭环的系统支撑
对于一个相对复杂的大数据运营体系,系统支撑必不可少,需要有效的把运营闭环设计在系统中完全体现,并且根据各个不同的角色、权限,进行牵引业务运营进展。
4.基于系统数据的专题建模
针对一些管理上的要求,可以对专题数据进行建模,建立专门的数据建模指标体系。如销售客户关系管理(CRM)体系里面,针对客户进行分层(销售额、销售利率等指标),针对客户进行风险评估(客户异常,销售异常等),持续的专题建模能够有效为公司业务运行提供支撑。

所以,从管理学角度来看,数字化还是以公司战略目标和管理能力为牵引,而大数据+AI是数字化的重要不可或缺的工具。

  • 4. 为什么说大数据模型能做很多事情,举例说明

以某企业内部电商平台为例,在电商运营过程中,产生了大量的数据,在电商平台的数据基础上,做了一些大数据方面的模型,提升电商平台的运营质量和水平。

举例说明,可以做以下模型(模型名称、说明、采用的算法技术等):

模型1:新用户购买预测:

新注册的一些用户用户,具有某些和老用户相似的特征,那他会不会购买某种商品?

模型说明:基于已有的数据,研究老用户的特征属性与其消费行为之间的规律,然后借助数学模型、推理规则建立函数来反映这一规律,再根据这个规律对新用户是否能购买做出预测

模型算法:聚类、判别、决策树

模型2 :新用户属性预测(如收入)

根据老用户的收入情况,和他们具有相同特征的新用户,我们能知道新用户的平均年收入吗?

模型说明:找到老用户年收入与其年龄的相关关系,建立函数表达式反映这一规律,然后根据规律预测相同特征属性新用户的年收入

模型算法:相关性分析、聚类、回归、神经网络

模型3:未来销量预测

某些商品在未来2个月中将有怎样的销量?

模型说明:以该商品12个月的销量为研究对象,分析销量随时间推移所呈现的变化趋势并进行预测

模型算法:时间序列分析、回归

模型4 :未来销售行为预测

某些用户在未来一段时间内是否会有订单成交? 如何找出这些用户的特征规律?

模型说明:对目标用户过去一段时间消费行为的分析,判断未来一段时间是否会有购买行为

模型算法:K-近邻、SVM向量机

模型5 :促销效果预测

商城为了某商品做营销宣传,想以回馈老用户的方式先送一 些赠品,条件是填写一些反馈资料,目的是引起用户的兴趣, 进而进行咨询和购买,考虑到成本,赠品不能送太多,我们想知道赠品大概需要多少?

模型说明:需要多少赠品,实际上是在估算有多少用户可能会购买。是研究用户的特征属性和消费行为之间的规律,再根据规律判断是否会购买

模型算法:聚类、分类回归树(决策树和回归的组合模型)、袋装技术

模型6 商户留存预测

在平台上新入驻的商户在未来一段时间里能生存下来吗? 生存下来的商户有什么特征?

模型说明:生存预测转为分类预测,再依据分类预测的解决思路进行处理,将问题变为研究商户的特征属性和生存率的之间的规律,再根据规律对新商户进行生存预测

模型算法:卡方检验、列联分析、聚类、随机森林

模型7 指定商品的购买相关性推荐预测

一位用户在网购了啤酒后,他同时购买花生米的可能性大还是同时购买卫生纸的可能性大?

模型说明:找出有较大可能连带售出的商品,条件概率计算。依据大量一次性购买的数据(一张购物小票可以视为一次性购买),计算不同商品被同时购买的概率

模型算法:概率计算、Eclat算法、关联分析

模型8 :指定客户群的购买相关性推荐预测

购买面包的女性用户中,同时购买牛奶的可能性大?还是同时购买香肠的可能性大?

模型说明:考察女性用户的购买行为,在计算概率时需要清点所有购买面包的购物小票中有多少张出现了牛奶且为女性

模型算法:概率计算、Eclat算法、关联分析

模型9:后续购买行为相关性推荐预测

模型说明:购买电水壶的用户,在两个月内购买除垢剂的可能性有多大?依据时间观察每个购买电水壶的用户,在两个月内有多少人又购买了除垢剂,并计算百分比

模型算法:概率计算、序列分析、Eclat算法、关联分析

模型10 :用户分层预测

商城需要对高端用户提供针对性服务,同时也需要开发新用户,如何找出哪些是高端用户和高潜力的新用户?

模型说明:找出影响目标群体的相关特征,并根据这些特征对客户进行类别判定

模型算法:判别分析等

模型11 :新商品分类规则设置

商城如何针对某些新入的商品划分等级?

模型说明:对商品划分等级,既是评分预测也是特殊聚类。解决思路是依据商品的特征属性对商品进行评分,再根据评分进行分类预测

模型算法:聚类、神经网络、SOM网络

模型12:推荐规则预测

商城如何合理、有效地向用户推荐商品?

模型说明:根据相似度向相似的用户推荐相似的商品,这个也可以反过来应用,根据相似度向相似的商户推荐相似的用户

模型算法:NLP、聚类、TF-IDF

模型13:留言分析模型

在商城的留言版块中,有大量的用户对商城、商品、商家做出了的评价,商城需要知道用户在商城的购买体验,以此有针对性地来改进商城的运营服务?

模型说明:对留言版块的文本进行理解,找出一些问题,然后进行特征提取,再确定问题主题,最后进行文本分类、情感分析

模型算法:NLP、聚类、TF-IDF

模型14:新商品定价模型

对于刚进入商城的新商品如何帮助商户合理定价以此能更好 地进行销售?

模型说明:商品定价,文本处理、价格预测。 解决思路是根据相似商品的一些文本描述,对商品进行合理定价,来帮助商户进行商品销售。

模型算法:NLP、岭回归、MSLE

模型15:用户画像模型

用户的消费偏好是什么?

模型说明:通过对以往用户在商城的消费行为,来研究他的消费偏好

模型算法:概率计算、序列关联分析

模型16:欺诈预警模型

商城的少量商户,存在刷单或欺诈消费者行为,如何对这些不法行为进行监测和预警?

模型说明:对刷单和欺诈行为进行监测,异常数据诊断。 解决思路是进行模式甄别,找出分散于大数据集中区域外的一些零星数据,或是离群点 概率分布、距离侦测模式、密度

模型算法:侦测模式、朴素贝叶斯分类、逻辑回归

这些大数据模型的作用,涵盖了预测、预警、推荐、评估等多方面应用,在电商以及类似的场景,都得到了充分广泛的应用。

  • 附:一个销售部门的简单指标体系设计参考:

以销售部门为例,可以参考做以下内容报表进行展示,可以用excel图表制作等软件工具,或bi工具进行设计制作。


Posted

in

by

Tags:

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *