数据分析是什么?
把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出研究对象的内在规律。帮助管理者进行判断和决策,以便采取适当的策略和行动。
分类:
描述性数据分析(初级数据分析 常见分析方法:对比分析法、平均分析法、交叉分析法)
探索性数据分析:高级数据分析,侧重于在数据之中发现新的特征
验证性数据分析:高级数据分析,高级数据分析,侧重于验证已有假设的真伪性
[toc]
数据分析5个阶段
-
数据收集
第一手数据:主要指可直接获取的数据;第二手数据:指经过加工整理后得到的数据 -
数据处理
目的:从大量的、杂乱无章、难以理解的数据中抽取并推导出对解决问题有价值、有意义的数据 -
数据分析
数据挖掘:一种高级的数据分析方法。主要侧重解决四类数据分析问题:分类、聚类、关联、预测 -
数据展现
常用数据图:饼图、柱形图、条形图、折线图、散点图、雷达图、金字塔图、矩阵图、漏斗图、帕雷托图 -
报告撰写
有一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然,需要有明确的结论,有建议或解决方案
而本题讲的主要是excel作为工具进行数据分析。其他的SPSS Statistics等暂且不提。
1、数据收集阶段:
这个阶段可以参考这个问题:国内外有哪些比较权威的统计数据网站? - 互联网,各知友都很热心。
2、数据处理阶段:
这个时候要用到excel了。首先要对数据进行一次大清洗!将多余重复的数据筛选清除,将缺失数据补充完整,将错误数据纠正或删除。
这个时候要用到一系列函数:
数据重复【(COUNTIF函数),删除重复项】
缺失数据【IF And Or 嵌套函数等】
数据抽样【Left,Right,CONCATENATE(文本1,文本2....),VLOOKUP】
数据计算【AVERAGE、SUM、MAX、MIN,Date,If】
数据分组【VLOOKUP函数,采用近似匹配,SEARCH函数】
数据抽样【RAND函数,RAND()】
以上只是一些简单的说明,具体问题需要根据需求进行分析。
3、数据分析阶段:
对比分析法:
常见的如完成值与目标值的差距,这个月与上个月的对比,同公司间各部门的对比,竞争对手行业内对比,这里要注意的是计算范围计算方法要一致,对象要一致,指标类型要一致。
分组分析法:如何用EXCEL进行数据分组
结构分析法:
结构相对指标(比例)的计算公式为:
结构分析法的优点是简单实用,在实际的企业运营分析中,市场占有率就是一个非常典型的应用。
平均分析法:
算数平均数的计算公式为:
算术平均数是非常重要的基础性指标。平均数是综合指标,它的特点是将总体内各单位的数量差异抽象化,它能代表总体的一般水平,掩盖了在平均数后各单位的差异。
平均分析法要结合各种分组和指标对比来进行。比如分析不同行业、地区的平均从业人数、平均营业收入等。总之,对于所有数量指标都可以依据不同的分组用单位数来平均,进行对比与分析。
交叉分析法:
交叉分析法通常用于分析两个变量(字段)之间的关系,即同时将两个有一定联系的变量及其值交叉排列在一张表格内,使各变量值成为不同变量的交叉结点,形成交叉表,从而分析交叉表中变量之间的关系,所以也叫交叉表分析法。交叉表当然也有二维以上的,维度越多,交叉表就越复杂,所以在选择几个维度的时候需要根据分析的目的决定。下面我主要介绍二维交叉表分析法。
利用Excel2013数据透视图功能,将一维表转为二维表_Word联盟
综合评价分析方法:
杜邦分析法:
杜邦分析法利用各个主要财务比率之间的内在联系,建立财务比率分析的综合模型,来综合地分析和评价企业财务状况和经营业绩的方法。采用杜邦分析图将有关分析指标按内在联系加以排列,从而直观地反映出企业的财务状况和经营成果的总体面貌。
漏斗图分析法:
漏斗图不仅能够提供用户在业务中的转化率和流失率,还揭示了各种业务在网站中受欢迎的程度。虽然单一漏斗图无法评价网站某个关键流程中各步骤转化率的好坏,但是通过前后对比或是不同业务、不同客户群的漏斗图对比,还是能够发现网站中存在的问题。
矩阵关联分析法:
关联矩阵法是常用的系统综合评价法,它主要是用矩阵形式来表示每个替代方案有关评价指标及其重要度和方案关于具体指标的价值评定量之间的关系。
其他高级分析法:
数据透视表:
术语 | 内容 |
---|---|
轴 | 数据透视表中的一个维度,例如行、列或页 |
数据源 | 创建数据透视表的数据表、数据库等 |
字段 | 数据信息的种类,相当于数据表中的列 |
字段标题 | 描述字段内容的标志,可通过拖动字段标题对数据透视表进行透视分析 |
透视 | 通过改变一个或多个字段的位置来重新安排数据透视表 |
汇总函数 | Excel用来计算表格中数据值的函数。数值和文本的默认汇总函数分别是求和与计数 |
刷新 | 重新计算数据透视表,以反映目前数据源状态 |
这也是一个大块,需要深入的学习,有机会也会写个简单的答案。
4、数据展现:
根据数据关系选择图表
这部分在另一个答案里有详解的讲解对于没种类型的图表有详解的演示和说明:
如何制作图表非常精美的 Excel 文档? - 忽如远行客的回答
成分:饼图、柱形图、条形图、瀑布图
排序:柱形图、条形图、气泡图、帕累托图
时间序列:折线图、柱形图
相关性:散点图、柱形图、对称条形图(旋风图)、散点图、气泡图
多重数据比较:雷达图
图表注意事项
- 信息完整:图表标题、单位、图例、脚注、来源等
- 避免无意义的图表
- 一表反映一个观点
- 只选对的不选复杂的图表
- 标题一句话阐述清楚反映观点
5、报告撰写
数据分析报告的作用:展示分析结果 验证分析质量 提供决策依据
报告类型:
-
专题分析报告
定义:对社会经济现象的某一方面或某一问题进行专门研究的一种数据分析报告
作用:为决策者制定某项政策、解决某个问题提供决策参考和依据
特点:内容的单一性 分析的深入性 -
综合分析报告
定义:全面评价一个地区、单位、部门业务或其他方面发展情况的一种数据分析报告
特点:全面性 联系性 -
日常数据通报
定义:以定期数据分析报表为依据,反映计划的执行情况,并分析其影响和形成原因的一种数据分析报告
特点:进度性 规范性 时效性
数据分析报告结构:
标题页
标题类型:解析基本观点 概括主要内容 交代分析主题 提出问题
标题要求:直接 确切 简洁
前言
分析背景:为何开展此次分析?有何意义?
分析目的:通过此次分析要解决什么问题?达到何种目的?
分析思路:如何开展此次分析?主要通过哪几方面开展?
正文
是报告最长的主体部分,包含所有数据分析事实和观点,通过数据图表和相关的文字结合分析,正文各部分具有逻辑关系
结论和建议
以上是一般的数据分析的方法和一些注意事项,事无巨细,数据分析本身就是一个慢活细活,脑力活,透过庞大的数据看本质是一个数据分析人员最应该掌握的东西。
接下来才是真正的核心:(工具篇)
当面对海量数据时,我们就应该掌握一些工具因为这才是一个数据分析人员真正要面对的。
SQL语句:Excel2010 常用SQL语句解释
Microsoft Query:实现数据导入/数据处理/数据分析:
微软的官方使用文档:https://support.microsoft.com/zh-cn/kb/136699
PowerPivot: 简单数据分析/多表关联分析/字段计算分析/数据分组分析具体参考官方说明文档:PowerPivot 加载项
工具库:描述性统计分析 / 直方图 / 抽样分析 /相关分析 /回归分析 /移动平均 / 指数平滑 / 这个教程不错:excel数据分析教程.pdf
水晶易表:水晶易表完全教程(完全版)_百度文库
VBA:那就是另外一个世界了。
最后推荐数据分析的十个博客:
数据分析十大博客
沈浩老师的博客:沈浩老师的博客
数据挖掘与数据分析:http://spss-market.r.blog.163.com/
数据挖掘@数据分析 郑来轶_新浪博客
数据化管理:http://chemyhuang.blog.163.com/
数据元素:Wayne_新浪博客
小蚊子乐园:小蚊子数据分析
ExcelPro的图表博客:ExcelPro的图表博客
网站分析在中国——从基础到前沿(网站分析在中国——从基础到前沿 |)
网站数据分析:网站数据分析
蓝鲸的网站分析笔记:蓝鲸的网站分析笔记
除了上边的那个知乎上的收集信息的帖子,再加上这个:哪些数据网站和资料最常用,最好用?
不过我是做互联网的,移动互联网数据来源:
- 百度指数
- 淘宝指数
- 艾瑞咨询
- 易观智库
- CNNIC
- 比达咨询
- 新浪微博:什么时候开始,发布频次,内容特色。粉丝数。
- 微信官号:什么时候开始,发布频次,内容特色。粉丝数。
- 百度搜索前10页,其他渠道覆盖。
- 线上调研
推荐这本书:Excel 2010数据处理与分析实战技巧精粹 (豆瓣)
本文资料来源:
快速掌握excel分析技能
1、excel学习
数据计算课程:excel函数公式(合集)
数据处理课程:excel数据透视表(合集)、切片器
数据处理实战课程:excel实战精粹(合集)
2、excel实操
好用的函数能让你数据分析时,如有神助,下面是我在数据分析时常用的函数:
常用函数(加总求和、计数、平均、最值、排序、乘积、除余、取整) 逻辑运算(if、iferror、and、or) 文本编辑(文本提取、文本查找、文本替换、文本转换及合并) 引用与查找(vlookup、hlookup、lookup、indirect、index、match)
1)排序函数
rank(排序的目标数值,区域,逻辑值)
逻辑值如果输入0或者不输入时,为降序排列(数值越大,排名越靠前);逻辑值输入非0时,为升序排列(数值越大,排名越靠后)
- 比如:对业绩排名的计算,小李排名第5
2)逻辑判断
if(计算条件的表达式或值,满足条件返回true,否则返回false)
根据指定条件来判断其“满足”(TRUE)、“不满足”(FALSE),从而返回相应的内容。
- 比如:判断团队业绩是否达标,小李和小军均不合格
3)计算文本长度
len(要计算字符长度的文本),用来计算文本串的字符数
- 比如:判断手机号是否有效,小李手机号少一位,为无效信息
不全部列举了,这篇讲的比较全,可以移步参考:知乎
数据处理上,可以使用一些excel插件,提高处理速度:
1)慧办公 :适用版本:Office2003/2007/2010/2013/2016/365等、WPS013/2016等
2)Excel易用宝-V2018 :Excel Home出品,适用版本:Excel 2007/2010/2013/2016和Office 365
3)方方格子:除了常见的Excel工具箱外,在公式/审计/财务/图片/邮件等领域还有一些付费插件。适用版本:Excel 2007~2016
4)Excel必备工具箱 :适用版本: EXCEL2007/2010/2013/2016
5)Excel精灵-8.0版 :Excel精灵7.2网络版的功能比较全,但有捆绑软件。适用版本:Excel 2007、2010、2013和2016
6)Easycharts :图表制作插件
注:插件方便也不用贪多,挑顺手的数据处理和图形制作的各一个即可。
缺实操的伙伴,可以从https://hao.199it.com/找点数据练练手。常见的公开数据网站都可以搜索到: