一、数据分析基础
当前,数据分析已经作为重要的管理支持手段渗透到了各行业中。企业可以对自身日常运营数据信息进行收集、整合与分析,结合市场外界信息,从而形成有效的总结与预测,对于企业的发展有着重要的指导作用。
而数据分析的核心并不在于数据本身。数据分析有三个核心要点:什么是数据分析、为什么数据分析,以及如何数据分析。
二、数据的定义
数据是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。
数据可以是连续的值,如声音、图像,称为模拟数据;也可以是离散的,如符号、文字,称为数字数据在计算机系统中,数据以二进制信息0、1的形式表示。
企业数据来源
三、数据分析的方法
(一)聚类分析
聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。聚类分析是一种重要的人类行为。
聚类分析的目标就是在相似的基础上收集数据来分类。聚类分析技术源于数学、计算机科学、统计学、生物学和经济学等多种领域。
聚类分析在电子商务中常用于发现不同的客户群,并且通过购买模式刻画不同客户群的特征。聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理。
聚类分析在电子商务网站建设的数据挖掘中也是很重要的一个方面,通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,可以更好地帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。
(二)因子分析
因子分析是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系,减少决策的困难。
因子分析的方法有重心法、影像分析法、最大似然解、最**方法、阿尔发抽因法、拉奥典型抽因法等10多种。
(三)相关分析
相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度。相关关系是一种非确定性的关系,例如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系。
(四)对应分析
对应分析也称关联分析、R-Q型因子分析,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。对应分析可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。对应分析的基本思想是将一个列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来
(五)回归分析
回归分析是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法,运用十分广泛。回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
(六)方差分析
方差分析又称变异数分析或F检验,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一类是不可控的随机因素;另一类是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。
四、数据分析常用的图表方法
(一)排列图 排列图是分析和寻找影响质量主要因素的一种工具,其形式是双直角坐标图,左边纵坐标表示频数(如件数、金额等),右边纵坐标表示频率(如百分比等)。分折线表示累积频率,横坐标表示影响质量的各项因素,按影响程度的大小(即出现频数多少)从左向右排列。通过对排列图的观察分析可找到影响质量的主要因素。
(二)直方图 直方图(Histogram)又称柱状图、质量分布图。是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。一般用横轴表示数据类型,纵轴表示分布情况。
(三)FMEA FMEA是一种可靠性设计的重要方法。它实际上是FMA(故障模式分析)和FEA(故障影响分析)的组合。它对各种可能的风险进行评价、分析,以便在现有技术的基础上消除这些风险或将这些风险减小到可接受的水平。