
🎯 软件简介
Excel数据清洗工具是一款专业的数据处理软件,让数据清洗变得简单高效!
✨ 核心优势
🚀 零基础上手 - 无需编程,点击即用
💪 功能全面 - 涵盖90%的数据清洗需求
📊 可视化分析 - 内置多种图表展示
↩️ 无限撤销 - 误操作也不怕
💾 多格式支持 - xlsx/xls/csv/txt全兼容
⚡ 高效稳定 - 基于PySide6框架开发
🎁 主要功能
🚀 快速入门
三步完成数据清洗
Step 1️⃣:打开文件
点击【打开】按钮 → 选择Excel文件 → 等待加载完成 ✅
支持格式:.xlsx .xls .csv .txt
Step 2️⃣:执行清洗
选择左侧功能按钮 → 根据提示操作 → 查看处理结果 ✅
常用操作:删除重复行、去除空格、填充空值等
Step 3️⃣:保存结果
点击【保存】按钮 → 选择保存位置 → 完成!🎉
💡 第一个实例
场景:清理包含重复数据的客户名单
打开文件(Ctrl+O)
选择
客户名单.xlsx数据显示在右侧表格
删除重复行
点击左侧【删除重复行】按钮
提示:已删除 53 行重复数据 ✅
去除空格
点击【去除空格】
选择"姓名"和"公司"列
点击确定
保存文件(Ctrl+S)
保存为
客户名单_已清洗.xlsx完成!🎉
🖥️ 界面介绍
主界面布局
┌───────────────────────────────────────────────┐
│ 菜单栏:文件 编辑 视图 工具 帮助 │
│ 工具栏:[打开] [保存] [撤销] [重做] [分析] │
├────────────┬──────────────────────────────────┤
│ 左侧操作区 │ 右侧数据预览区 │
│ │ ┌────────────────────────────┐ │
│ 【文件操作】│ │ 数据表格显示区域 │ │
│ · 打开 │ │ │ │
│ · 保存 │ │ [加载后显示Excel数据] │ │
│ │ │ │ │
│ 【数据清洗】│ └────────────────────────────┘ │
│ · 删重复 │ 行数:1500 列数:10 空值:50 │
│ · 删空行 │ │
│ · 去空格 │ │
│ · ...更多 │ │
│ │ │
│ 【操作历史】│ │
│ · 加载文件│ │
│ · 删重复 │ │
│ · 去空格 │ │
│ [撤销][重做]│ │
└────────────┴──────────────────────────────────┘
│ 状态栏:就绪 [进度条] │
└───────────────────────────────────────────────┘
功能区说明
📚 功能详解
1️⃣ 文件操作
📂 打开文件
操作:点击【打开】或按 Ctrl+O
支持格式:
Excel 2007+ (
.xlsx)Excel 97-2003 (
.xls)CSV文件 (
.csv)文本文件 (
.txt)
智能识别:自动检测文件编码,避免乱码
💾 保存文件
操作:点击【保存】或按 Ctrl+S
建议:
✅ 建议另存为新文件名,保留原始数据
✅ 推荐使用
.xlsx格式✅ CSV格式适合与其他软件交换数据
2️⃣ 基本操作
🔄 删除重复行
功能:删除完全相同的数据行,保留第一次出现的行
示例数据:
使用场景:
📋 多来源数据合并后去重
📋 清理导入时产生的重复记录
📋 整理客户/产品信息列表
🗑️ 删除空行
功能:删除所有单元格都为空的行
注意:⚠️ 只删除"完全空白"的行
使用场景:
📋 清理数据导入时产生的空行
📋 让表格更紧凑整洁
↩️ 撤销 / ↪️ 重做
快捷键:
撤销:
Ctrl+Z重做:
Ctrl+Y
特点:
✅ 支持无限次撤销
✅ 操作历史区实时显示所有记录
✅ 误操作也不怕
3️⃣ 文本处理
✂️ 去除空格
功能:删除文本首尾的空格(保留中间空格)
操作步骤:
点击【去除空格】
勾选要处理的列(可多选)
点击【确定】
数据对比:
处理前:" 张三 " "李四 " " 王五"
处理后:"张三" "李四" "王五"
使用场景:
📝 网页复制数据后的清理
📝 修复数据录入时的空格问题
📝 准备数据用于查找匹配
🔤 统一大小写
功能:统一英文字母的大小写格式
三种模式:
小写(lower):
HELLO→hello大写(UPPER):
hello→HELLO首字母大写(Title):
hello world→Hello World
使用场景:
📧 统一邮箱地址格式
🏷️ 规范产品代码格式
👤 整理人名格式
🚫 删除特殊字符
功能:使用正则表达式删除特殊符号
默认模式:删除所有标点符号和特殊字符,保留:
字母、数字、汉字
空格
常用正则表达式:
4️⃣ 数值处理
📊 数值格式化
功能:统一数值的小数位数(0-10位)
示例:
使用场景:
💰 统一货币金额格式
📏 规范测量数据
📊 准备报表数据
📅 日期格式化
功能:统一日期显示格式
五种格式:
使用场景:
📆 统一不同系统的日期格式
📋 准备符合特定要求的报表
🌍 转换不同地区的日期习惯
🔧 填充空值
六种填充方法:
示例:
原始数据:
姓名 年龄 城市
张三 25 北京
李四 [空] 上海 ← 年龄缺失
王五 30 [空] ← 城市缺失
赵六 28 广州
填充后(年龄用均值27.67,城市用"未知"):
姓名 年龄 城市
张三 25 北京
李四 27.67 上海 ✅
王五 30 未知 ✅
赵六 28 广州
5️⃣ 数据分析 📈
点击【数据分析】按钮,打开分析对话框,包含4个标签页:
Tab 1:基本信息
显示数据总体情况:
📊 总行数、总列数
🔍 空值总数、重复行数
📝 数值型列、文本型列、日期型列的列表
Tab 2:空值分析
逐列显示空值情况:
每列的空值数量
每列的空值百分比
⚠️ 超过30%的列用红色标注
作用:快速定位数据质量问题
Tab 3:数值统计
显示每个数值列的统计指标:
count(计数)
mean(平均值)
std(标准差)
min(最小值)
25%、50%、75%(四分位数)
max(最大值)
作用:了解数值分布,发现异常值
Tab 4:文本分析
显示每个文本列的信息:
非空值数量
唯一值数量
最常见值及其频率
最短长度、最长长度
作用:检查文本数据的多样性和规范性
6️⃣ 数据可视化 📊
点击【数据可视化】按钮,打开可视化对话框。
支持的图表类型
📊 柱状图(Bar Chart)
适用场景:比较不同类别的数值
示例:各城市销售额对比、产品销量排名
📈 折线图(Line Chart)
适用场景:展示数据随时间的变化趋势
示例:月度销售趋势、网站访问量变化
🎯 散点图(Scatter Plot)
适用场景:分析两个变量的相关关系
示例:价格与销量关系、广告投入与收益关系
🥧 饼图(Pie Chart)
适用场景:展示各部分占整体的比例
示例:市场份额占比、支出类别分布
注意:⚠️ 饼图自动显示前10个类别
📊 直方图(Histogram)
适用场景:展示数值的分布情况
示例:员工年龄分布、成绩分布
绘图步骤
选择图表类型
选择X轴列(横轴数据)
选择Y轴列(纵轴数据)
输入图表标题
勾选"显示网格"(可选)
点击【绘制图表】
保存图表
点击【保存】按钮,支持保存为:
🖼️ PNG图片(推荐,高清)
🖼️ JPEG图片
📄 PDF文档
⌨️ 快捷键大全
💡 小技巧:熟练使用快捷键可提升50%的工作效率!
❓ 常见问题
Q1:软件无法启动怎么办?
解决方案:
✅ 右键点击 → 以管理员身份运行
✅ 检查是否被安全软件拦截,添加为信任程序
✅ 确保安装了 Visual C++ 运行库
Q2:打开文件时提示错误?
可能原因:
文件已损坏
文件正被其他程序占用
文件格式不支持
解决方案:
✅ 先在Excel中测试文件能否正常打开
✅ 关闭所有使用该文件的程序
✅ 确认文件扩展名是
.xlsx、.xls、.csv或.txt
Q3:处理大文件很慢怎么办?
优化建议:
⏱️ 超过10万行数据需要较长处理时间,请耐心等待
⚡ 可以先分割大文件,分批处理
💾 关闭其他占用内存的程序
🔄 处理过程中避免进行其他操作
Q4:误操作了能恢复吗?
答:可以恢复!
方法:
↩️ 点击【撤销】按钮或按
Ctrl+Z📜 在操作历史列表查看所有操作记录
💾 建议始终保留原始文件备份
Q5:为什么某些按钮是灰色的?
原因:当前状态下功能不可用
常见情况:
未打开文件 → 所有处理按钮灰色
无历史操作 → 【撤销】按钮灰色
无重做历史 → 【重做】按钮灰色
Q6:可视化功能提示错误?
原因:缺少matplotlib库(仅源码运行时)
解决:
pip install matplotlib
注意:📦 打包的exe版本已内置所有依赖,无此问题
Q7:如何处理超大数据文件?
建议:
📊 对于100万行以上的数据,建议使用专业数据库工具
✂️ 可以先用Excel筛选出需要处理的部分
🔄 分批导入、分批处理、分批导出
Q8:支持自定义正则表达式吗?
答:支持!
在【删除特殊字符】功能中:
可以输入自定义正则表达式
默认提供常用模式
支持任何Python re模块的正则语法
Q9:能同时处理多个文件吗?
答:当前版本一次只能处理一个文件
替代方案:
可以在Excel中合并多个文件后导入
或者逐个文件处理
Q10:数据会丢失吗?
答:不会!
安全保障:
📁 原始文件不会被修改(除非覆盖保存)
↩️ 所有操作支持撤销
💾 建议另存为新文件名
📂 重要数据请提前备份
💬 联系支持
遇到问题?
📧 微信:Jimmie_ok
📖 在线教程:点击菜单【帮助】→【详细教程】