Skip to content

用 AI 清洗表格并找出异常

表格最危险的地方不是不好看,而是同一个地区有三种写法、日期格式混乱、金额里夹着文字,最后统计结果还像真的一样。

这篇教程让 AI 帮你制定清洗规则、生成异常清单并核对统计,但始终保留原始文件。

表格清洗前后必须保留原始数据和异常报告

先看完成标准

你最后应该有三个文件:未修改的原始表格、清洗后的新表格、记录每条修改和未确认问题的异常报告。

第一步:下载练习表格并保留原件

下载订单练习数据

先复制一份,命名为 orders-cleaned.csv。不要让 AI 直接覆盖原始文件。

练习表格故意包含日期格式不一致、地区名称不统一、金额带符号、重复订单、空客户名和异常负数。

第二步:只做检查,不修改

text
请检查 orders.csv,暂时不要修改文件。

请输出:
1. 每一列应该是什么数据类型
2. 日期、地区、金额和订单号中的格式问题
3. 重复记录
4. 空值和明显异常值
5. 你建议的清洗规则

不要把无法确认的内容自动修正。每类问题给出行号和原值。

例如“华东”和“上海”不能在没有业务规则时自动合并,因为一个可能是区域,一个可能是城市。

第三步:确认规则后生成新文件

text
按照我确认的规则清洗表格,并另存为 orders-cleaned.csv。

允许:统一日期格式、去掉金额符号、去除前后空格、删除完全相同的重复订单。
不允许:猜测空客户名、把负数改成正数、擅自合并地区、覆盖 orders.csv。

同时生成 cleaning-report.md,记录修改行、原值、新值、使用规则和仍待确认的问题。

第四步:核对数量和金额

text
请比较 orders.csv 和 orders-cleaned.csv:
1. 总行数为什么变化
2. 去除了哪些重复订单
3. 金额合计是否变化,以及变化原因
4. 哪些异常仍然保留
5. 是否有任何无法用规则解释的修改

删除重复行会改变合计;单纯统一格式不应该改变真实金额。

第五步:再做统计

text
请根据 orders-cleaned.csv 统计各地区的有效订单数和金额合计。
负数金额、空客户名和未确认地区单独列出,不计入正式结论。
最后说明统计排除了哪些数据。

只有清洗报告通过后,才让 AI 做统计。否则只是把脏数据算得更快。

验收清单

  • [ ] 原始文件没有变化。
  • [ ] 每条修改都能在清洗报告中找到。
  • [ ] 重复订单的判断规则明确。
  • [ ] 空值、负数和地区冲突没有被悄悄修复。
  • [ ] 清洗前后行数和金额变化可以解释。
  • [ ] 正式统计注明了排除哪些异常数据。