当前位置：首页 > news >正文

济南做网站多少钱刷粉网站推广免费

news 2025/8/2 9:12:37

济南做网站多少钱,刷粉网站推广免费,WordPress来必力,装修公司口碑好的公司数据分析是现代企业和科研中不可或缺的一部分，而统计学是数据分析的基石。在本篇博客中，我们将介绍统计学的基础知识，涵盖数据类型、描述性统计（集中趋势、离散程度和偏差程度），并通过代码实例加以说明。 …

数据分析是现代企业和科研中不可或缺的一部分，而统计学是数据分析的基石。在本篇博客中，我们将介绍统计学的基础知识，涵盖数据类型、描述性统计（集中趋势、离散程度和偏差程度），并通过代码实例加以说明。

一、数据三大类型

在统计分析中，数据通常分为三大类型：分类数据、顺序数据和数值数据。

1. 分类数据

分类数据是指那些可以分为不同类别的数据，但这些类别之间没有内在顺序。例如：性别（男、女）、颜色（红、绿、蓝）。

2. 顺序数据

顺序数据是指可以排序的数据，但不同类别之间的差异不能被量化。例如：评级（好、中、差），满意度（非常满意、满意、不满意）。

3. 数值数据

数值数据是指可以量化并具有明确意义的数字数据。这类数据可以进一步分为离散数据（如人口数量）和连续数据（如身高、体重）。

二、描述性统计 - 集中趋势

描述性统计的集中趋势指标主要包括：众数、中位数、平均数和分位数。

1. 众数

使用场景：数据量大，识别最常见的类别。

常用数据类型：分类数据

import numpy as np
from scipy import statsdata = [1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5]
mode = stats.mode(data)
print(f"众数: {mode.mode[0]}, 频数: {mode.count[0]}")

优点：简单直观，易于理解。缺点：在多众数情况下可能不适用。

2. 中位数

使用场景：集中趋势分析

常用数据类型：顺序数据、数值数据

median = np.median(data)
print(f"中位数: {median}")

优点：不受极端值影响。缺点：不能利用所有数据。

3. 平均数

分类：简单平均数、加权平均数

使用场景：数据的均衡点

常用数据类型：数值数据

mean = np.mean(data)
print(f"平均数: {mean}")

优点：利用所有数据，计算简单。缺点：受极端值影响大。

4. 分位数

使用场景：反映数据的集中趋势

常用数据类型：数值数据

q1 = np.percentile(data, 25)
q3 = np.percentile(data, 75)
print(f"第一四分位数: {q1}, 第三四分位数: {q3}")

优点：提供数据分布信息。缺点：计算复杂。

三、描述性统计 - 离散程度

描述性统计的离散程度指标主要包括：异众比率、四分位差、极差、标准差和变异系数。

1. 异众比率

使用场景：衡量众数代表性

常用数据类型：分类数据

def heterogeneity_ratio(data):mode_count = stats.mode(data).count[0]total_count = len(data)return 1 - (mode_count / total_count)hr = heterogeneity_ratio(data)
print(f"异众比率: {hr}")

优点：简单直观。缺点：仅适用于分类数据。

2. 四分位差

使用场景：反映中间50%的数据离散程度

常用数据类型：数值数据

iqr = q3 - q1
print(f"四分位差: {iqr}")

优点：不受极端值影响。缺点：只考虑中间部分数据。

3. 极差

使用场景：反映数据范围

常用数据类型：数值数据

range_ = np.ptp(data)
print(f"极差: {range_}")

优点：计算简单。缺点：受极端值影响大。

4. 标准差

使用场景：数据离散程度

常用数据类型：数值数据

std_dev = np.std(data)
print(f"标准差: {std_dev}")

优点：利用所有数据。缺点：受极端值影响。

5. 变异系数

使用场景：数据变异程度

常用数据类型：数值数据

cv = std_dev / mean
print(f"变异系数: {cv}")

优点：标准化的离散程度指标。缺点：对于均值接近于零的数据不适用。

四、描述性统计 - 偏差程度

1. Z 分数

使用场景：统一量级，增加可比性

常用数据类型：数值数据

z_scores = stats.zscore(data)
print(f"z-scores: {z_scores}")

优点：标准化数据。缺点：需要计算均值和标准差。

2. 协方差和相关系数

使用场景：衡量两个变量的关系

常用数据类型：数值数据

x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]# 协方差
covariance = np.cov(x, y)[0, 1]
print(f"协方差: {covariance}")# 相关系数
correlation = np.corrcoef(x, y)[0, 1]
print(f"相关系数: {correlation}")

优点：揭示变量间关系。缺点：仅适用于线性关系。

总结：通过理解和应用上述统计学基础知识，可以帮助我们更好地分析和解释数据，提高数据分析的准确性和科学性。希望本篇博客对你有所帮助！

（交个朋友/找资源/ai办公/技术接单，注明来意)