Appearance
用 AI 清洗表格并找出异常
表格最危险的地方不是不好看,而是同一个地区有三种写法、日期格式混乱、金额里夹着文字,最后统计结果还像真的一样。
这篇教程让 AI 帮你制定清洗规则、生成异常清单并核对统计,但始终保留原始文件。
先看完成标准
你最后应该有三个文件:未修改的原始表格、清洗后的新表格、记录每条修改和未确认问题的异常报告。
第一步:下载练习表格并保留原件
先复制一份,命名为 orders-cleaned.csv。不要让 AI 直接覆盖原始文件。
练习表格故意包含日期格式不一致、地区名称不统一、金额带符号、重复订单、空客户名和异常负数。
第二步:只做检查,不修改
text
请检查 orders.csv,暂时不要修改文件。
请输出:
1. 每一列应该是什么数据类型
2. 日期、地区、金额和订单号中的格式问题
3. 重复记录
4. 空值和明显异常值
5. 你建议的清洗规则
不要把无法确认的内容自动修正。每类问题给出行号和原值。例如“华东”和“上海”不能在没有业务规则时自动合并,因为一个可能是区域,一个可能是城市。
第三步:确认规则后生成新文件
text
按照我确认的规则清洗表格,并另存为 orders-cleaned.csv。
允许:统一日期格式、去掉金额符号、去除前后空格、删除完全相同的重复订单。
不允许:猜测空客户名、把负数改成正数、擅自合并地区、覆盖 orders.csv。
同时生成 cleaning-report.md,记录修改行、原值、新值、使用规则和仍待确认的问题。第四步:核对数量和金额
text
请比较 orders.csv 和 orders-cleaned.csv:
1. 总行数为什么变化
2. 去除了哪些重复订单
3. 金额合计是否变化,以及变化原因
4. 哪些异常仍然保留
5. 是否有任何无法用规则解释的修改删除重复行会改变合计;单纯统一格式不应该改变真实金额。
第五步:再做统计
text
请根据 orders-cleaned.csv 统计各地区的有效订单数和金额合计。
负数金额、空客户名和未确认地区单独列出,不计入正式结论。
最后说明统计排除了哪些数据。只有清洗报告通过后,才让 AI 做统计。否则只是把脏数据算得更快。
验收清单
- [ ] 原始文件没有变化。
- [ ] 每条修改都能在清洗报告中找到。
- [ ] 重复订单的判断规则明确。
- [ ] 空值、负数和地区冲突没有被悄悄修复。
- [ ] 清洗前后行数和金额变化可以解释。
- [ ] 正式统计注明了排除哪些异常数据。