一 大数据分析必备理论:基础数学知识

从事大数据分析行业,理论知识必不可少,尤其是一些数学知识 。我整理了一些基础的数学名词:
【一 大数据分析必备理论:基础数学知识】分位数() , 亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点 , 常用的有中位数(即二分位数)、四分位数、百分位数等 。对于有限的数集 , 可以通过把所有观察值高低排序后找出正中间的一个作为中位数 。如果观察值有偶数个 , 则中位数不唯一,通常取最中间的两个数值的平均数作为中位数,即二分位数 。
众数(Mode)是统计学名词,在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个) 。修正定义:是一组数据中出现次数最多的数值,叫众数jquery获取最大值,有时众数在一组数中有好几个 。用 M 表示 。理性理解:简单的说,就是一组数据中占比例最多的那个数 。
极差(Range)又称范围误差或全距jquery获取最大值,以R表示,是用来表示统计资料中的变异量数( of ),其最大值与最小值之间的差距,即最大值减最小值后所得之数据 。即最大值-最小值(也就是极差)来评价一组数据的离散度 。
四分位差( ),它是上四分位数(Q3,即位于75%)与下四分位数(Q1,即位于25%)的差 。计算公式为:Q = Q3-Q1 四分位差反映了中间50%数据的离散程度 , 其数值越小 , 说明中间的数据越集中;其数值越大,说明中间的数据越分散 。四分位差不受极值的影响 。
方差()用来计算每一个变量(观察值)与总体均数之间的差异 。为避免出现离均差总和为零 , 离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度 。方差是衡量源数据和期望值相差的度量值 。
标准差( ) ,中文环境中又常称均方差,是离均差平方的算术平均数的平方根,用σ表示 。标准差是方差的算术平方根 。标准差能反映一个数据集的离散程度 。平均数相同的两组数据,标准差未必相同 。
本文到此结束,希望对大家有所帮助 。