侧边栏壁纸
博主头像
Tool博主等级

行动起来,活在当下

  • 累计撰写 41 篇文章
  • 累计创建 3 个标签
  • 累计收到 0 条评论

目 录CONTENT

文章目录

68.EXCEL数据清洗工具

Jimmie
2025-11-19 / 0 评论 / 0 点赞 / 19 阅读 / 28170 字 / 正在检测是否收录...
温馨提示:
收藏保存网址不迷路:www.jimmie.top,若内容或图片失效,请反馈。部分素材来自网络,若不小心影响到您的利益,请联系我们删除。

🎯 软件简介

Excel数据清洗工具是一款专业的数据处理软件,让数据清洗变得简单高效!

✨ 核心优势

  • 🚀 零基础上手 - 无需编程,点击即用

  • 💪 功能全面 - 涵盖90%的数据清洗需求

  • 📊 可视化分析 - 内置多种图表展示

  • ↩️ 无限撤销 - 误操作也不怕

  • 💾 多格式支持 - xlsx/xls/csv/txt全兼容

  • 高效稳定 - 基于PySide6框架开发

🎁 主要功能

类别

功能

文件操作

打开、保存、多格式支持

基础清洗

删除重复行、删除空行

文本处理

去空格、统一大小写、删特殊字符

数值处理

数值格式化、日期格式化、填充空值

数据分析

基本统计、空值分析、数值分析、文本分析

数据可视化

柱状图、折线图、散点图、饼图、直方图

🚀 快速入门

三步完成数据清洗

Step 1️⃣:打开文件

点击【打开】按钮 → 选择Excel文件 → 等待加载完成 ✅

支持格式.xlsx .xls .csv .txt

Step 2️⃣:执行清洗

选择左侧功能按钮 → 根据提示操作 → 查看处理结果 ✅

常用操作:删除重复行、去除空格、填充空值等

Step 3️⃣:保存结果

点击【保存】按钮 → 选择保存位置 → 完成!🎉

💡 第一个实例

场景:清理包含重复数据的客户名单

  1. 打开文件(Ctrl+O)

    • 选择 客户名单.xlsx

    • 数据显示在右侧表格

  2. 删除重复行

    • 点击左侧【删除重复行】按钮

    • 提示:已删除 53 行重复数据 ✅

  3. 去除空格

    • 点击【去除空格】

    • 选择"姓名"和"公司"列

    • 点击确定

  4. 保存文件(Ctrl+S)

    • 保存为 客户名单_已清洗.xlsx

    • 完成!🎉

🖥️ 界面介绍

主界面布局

┌───────────────────────────────────────────────┐
│ 菜单栏:文件 编辑 视图 工具 帮助               │
│ 工具栏:[打开] [保存] [撤销] [重做] [分析]    │
├────────────┬──────────────────────────────────┤
│ 左侧操作区 │         右侧数据预览区            │
│            │  ┌────────────────────────────┐  │
│ 【文件操作】│  │   数据表格显示区域        │  │
│  · 打开    │  │                            │  │
│  · 保存    │  │   [加载后显示Excel数据]   │  │
│            │  │                            │  │
│ 【数据清洗】│  └────────────────────────────┘  │
│  · 删重复  │  行数:1500 列数:10 空值:50      │
│  · 删空行  │                                  │
│  · 去空格  │                                  │
│  · ...更多 │                                  │
│            │                                  │
│ 【操作历史】│                                  │
│  · 加载文件│                                  │
│  · 删重复  │                                  │
│  · 去空格  │                                  │
│ [撤销][重做]│                                  │
└────────────┴──────────────────────────────────┘
│ 状态栏:就绪                         [进度条] │
└───────────────────────────────────────────────┘

功能区说明

区域

说明

菜单栏

完整功能菜单,包含所有操作

工具栏

常用功能快捷按钮

左侧操作区

数据清洗功能按钮集合

右侧预览区

实时显示数据表格

操作历史

记录所有操作,支持撤销/重做

统计信息栏

显示行数、列数、空值等统计

状态栏

显示当前操作状态和进度

📚 功能详解

1️⃣ 文件操作

📂 打开文件

操作:点击【打开】或按 Ctrl+O

支持格式

  • Excel 2007+ (.xlsx)

  • Excel 97-2003 (.xls)

  • CSV文件 (.csv)

  • 文本文件 (.txt)

智能识别:自动检测文件编码,避免乱码

💾 保存文件

操作:点击【保存】或按 Ctrl+S

建议

  • ✅ 建议另存为新文件名,保留原始数据

  • ✅ 推荐使用 .xlsx 格式

  • ✅ CSV格式适合与其他软件交换数据

2️⃣ 基本操作

🔄 删除重复行

功能:删除完全相同的数据行,保留第一次出现的行

示例数据

处理前

处理后

张三
李四
张三 ← 重复
王五

张三
李四
王五

使用场景

  • 📋 多来源数据合并后去重

  • 📋 清理导入时产生的重复记录

  • 📋 整理客户/产品信息列表

🗑️ 删除空行

功能:删除所有单元格都为空的行

注意:⚠️ 只删除"完全空白"的行

使用场景

  • 📋 清理数据导入时产生的空行

  • 📋 让表格更紧凑整洁

↩️ 撤销 / ↪️ 重做

快捷键

  • 撤销:Ctrl+Z

  • 重做:Ctrl+Y

特点

  • ✅ 支持无限次撤销

  • ✅ 操作历史区实时显示所有记录

  • ✅ 误操作也不怕

3️⃣ 文本处理

✂️ 去除空格

功能:删除文本首尾的空格(保留中间空格)

操作步骤

  1. 点击【去除空格】

  2. 勾选要处理的列(可多选)

  3. 点击【确定】

数据对比

处理前:"  张三  " "李四  " "  王五"
处理后:"张三" "李四" "王五"

使用场景

  • 📝 网页复制数据后的清理

  • 📝 修复数据录入时的空格问题

  • 📝 准备数据用于查找匹配

🔤 统一大小写

功能:统一英文字母的大小写格式

三种模式

  • 小写(lower)HELLOhello

  • 大写(UPPER)helloHELLO

  • 首字母大写(Title)hello worldHello World

使用场景

  • 📧 统一邮箱地址格式

  • 🏷️ 规范产品代码格式

  • 👤 整理人名格式

🚫 删除特殊字符

功能:使用正则表达式删除特殊符号

默认模式:删除所有标点符号和特殊字符,保留:

  • 字母、数字、汉字

  • 空格

常用正则表达式

表达式

说明

示例

[^\w\s]

删除特殊符号

产品@2024产品2024

[^\u4e00-\u9fa5]

只保留中文

产品A123产品

[^0-9]

只保留数字

价格:99元99

[^a-zA-Z]

只保留字母

ABC-123ABC

4️⃣ 数值处理

📊 数值格式化

功能:统一数值的小数位数(0-10位)

示例

设置2位小数

处理前

处理后

100

100.00

99.9

99.90

88.88888

88.89

77.123456

77.12

使用场景

  • 💰 统一货币金额格式

  • 📏 规范测量数据

  • 📊 准备报表数据

📅 日期格式化

功能:统一日期显示格式

五种格式

格式代码

显示效果

%Y-%m-%d

2024-01-15

%Y/%m/%d

2024/01/15

%d-%m-%Y

15-01-2024

%m/%d/%Y

01/15/2024

%Y年%m月%d日

2024年01月15日

使用场景

  • 📆 统一不同系统的日期格式

  • 📋 准备符合特定要求的报表

  • 🌍 转换不同地区的日期习惯

🔧 填充空值

六种填充方法

方法

说明

适用场景

指定值

用固定值填充

填充"无"、"0"、"未知"等

均值(mean)

用平均值填充

数值型数据,如成绩、年龄

中位数(median)

用中位数填充

有异常值的数值数据

众数(mode)

用最常见值填充

文本或分类数据

向前填充(ffill)

用上一个值填充

连续时间序列数据

向后填充(bfill)

用下一个值填充

连续时间序列数据

示例

原始数据:
姓名    年龄    城市
张三    25      北京
李四    [空]    上海  ← 年龄缺失
王五    30      [空]  ← 城市缺失
赵六    28      广州

填充后(年龄用均值27.67,城市用"未知"):
姓名    年龄    城市
张三    25      北京
李四    27.67   上海  ✅
王五    30      未知  ✅
赵六    28      广州

5️⃣ 数据分析 📈

点击【数据分析】按钮,打开分析对话框,包含4个标签页:

Tab 1:基本信息

显示数据总体情况:

  • 📊 总行数、总列数

  • 🔍 空值总数、重复行数

  • 📝 数值型列、文本型列、日期型列的列表

Tab 2:空值分析

逐列显示空值情况:

  • 每列的空值数量

  • 每列的空值百分比

  • ⚠️ 超过30%的列用红色标注

作用:快速定位数据质量问题

Tab 3:数值统计

显示每个数值列的统计指标:

  • count(计数)

  • mean(平均值)

  • std(标准差)

  • min(最小值)

  • 25%、50%、75%(四分位数)

  • max(最大值)

作用:了解数值分布,发现异常值

Tab 4:文本分析

显示每个文本列的信息:

  • 非空值数量

  • 唯一值数量

  • 最常见值及其频率

  • 最短长度、最长长度

作用:检查文本数据的多样性和规范性

6️⃣ 数据可视化 📊

点击【数据可视化】按钮,打开可视化对话框。

支持的图表类型

📊 柱状图(Bar Chart)

适用场景:比较不同类别的数值

示例:各城市销售额对比、产品销量排名

📈 折线图(Line Chart)

适用场景:展示数据随时间的变化趋势

示例:月度销售趋势、网站访问量变化

🎯 散点图(Scatter Plot)

适用场景:分析两个变量的相关关系

示例:价格与销量关系、广告投入与收益关系

🥧 饼图(Pie Chart)

适用场景:展示各部分占整体的比例

示例:市场份额占比、支出类别分布

注意:⚠️ 饼图自动显示前10个类别

📊 直方图(Histogram)

适用场景:展示数值的分布情况

示例:员工年龄分布、成绩分布

绘图步骤

  1. 选择图表类型

  2. 选择X轴列(横轴数据)

  3. 选择Y轴列(纵轴数据)

  4. 输入图表标题

  5. 勾选"显示网格"(可选)

  6. 点击【绘制图表】

保存图表

点击【保存】按钮,支持保存为:

  • 🖼️ PNG图片(推荐,高清)

  • 🖼️ JPEG图片

  • 📄 PDF文档

⌨️ 快捷键大全

快捷键

功能

说明

Ctrl + O

打开文件

快速打开文件对话框

Ctrl + S

保存文件

快速保存当前数据

Ctrl + Z

撤销操作

撤销上一步操作

Ctrl + Y

重做操作

恢复被撤销的操作

F1

详细教程

打开使用说明

Ctrl + Q

退出程序

关闭软件

💡 小技巧:熟练使用快捷键可提升50%的工作效率!

❓ 常见问题

Q1:软件无法启动怎么办?

解决方案

  1. ✅ 右键点击 → 以管理员身份运行

  2. ✅ 检查是否被安全软件拦截,添加为信任程序

  3. ✅ 确保安装了 Visual C++ 运行库

Q2:打开文件时提示错误?

可能原因

  • 文件已损坏

  • 文件正被其他程序占用

  • 文件格式不支持

解决方案

  1. ✅ 先在Excel中测试文件能否正常打开

  2. ✅ 关闭所有使用该文件的程序

  3. ✅ 确认文件扩展名是 .xlsx.xls.csv.txt

Q3:处理大文件很慢怎么办?

优化建议

  • ⏱️ 超过10万行数据需要较长处理时间,请耐心等待

  • ⚡ 可以先分割大文件,分批处理

  • 💾 关闭其他占用内存的程序

  • 🔄 处理过程中避免进行其他操作

Q4:误操作了能恢复吗?

:可以恢复!

方法

  • ↩️ 点击【撤销】按钮或按 Ctrl+Z

  • 📜 在操作历史列表查看所有操作记录

  • 💾 建议始终保留原始文件备份

Q5:为什么某些按钮是灰色的?

原因:当前状态下功能不可用

常见情况

  • 未打开文件 → 所有处理按钮灰色

  • 无历史操作 → 【撤销】按钮灰色

  • 无重做历史 → 【重做】按钮灰色

Q6:可视化功能提示错误?

原因:缺少matplotlib库(仅源码运行时)

解决

pip install matplotlib

注意:📦 打包的exe版本已内置所有依赖,无此问题

Q7:如何处理超大数据文件?

建议

  • 📊 对于100万行以上的数据,建议使用专业数据库工具

  • ✂️ 可以先用Excel筛选出需要处理的部分

  • 🔄 分批导入、分批处理、分批导出

Q8:支持自定义正则表达式吗?

:支持!

在【删除特殊字符】功能中:

  • 可以输入自定义正则表达式

  • 默认提供常用模式

  • 支持任何Python re模块的正则语法

Q9:能同时处理多个文件吗?

:当前版本一次只能处理一个文件

替代方案

  • 可以在Excel中合并多个文件后导入

  • 或者逐个文件处理

Q10:数据会丢失吗?

:不会!

安全保障

  • 📁 原始文件不会被修改(除非覆盖保存)

  • ↩️ 所有操作支持撤销

  • 💾 建议另存为新文件名

  • 📂 重要数据请提前备份

💬 联系支持

遇到问题?

  • 📧 微信:Jimmie_ok

  • 🌐 网站https://www.jimmie.top

  • 📖 在线教程:点击菜单【帮助】→【详细教程】

  1. 支付宝打赏

    qrcode alipay
  2. 微信打赏

    qrcode weixin
  3. QQ打赏

    qrcode qq
博主关闭了所有页面的评论