阅读设置

20
18

第46章 一场毫无意义的加班突击战 (2/3)

林眠:“据我所知,那次项目因为数据源问题,原始数据污染严重,后期尝试过清洗但失败了。公司知识库里有记录。”

小李:“啊?真的吗?那我岂不是白找了?”

林眠:“你可以把知识库相关记录链接发给王主管,询问是否还需要继续拉取全部原始数据,还是只需要部分样本?”

小李:“……有道理!我这就找!”

接着,林眠又找到了被指派“搭建临时分析环境”的小张。

林眠:“临时分析环境需要达到什么性能指标?预计分析数据量多大?”

小张:“王主管就说要快,要能跑分析!我上哪知道数据量去!”

林眠:“数据源不确定,数据质量存疑,盲目搭建高性能环境可能造成资源浪费。建议先评估数据样本,再确定环境配置。你可以做个简单的资源评估草案,列出不同数据量级下的配置需求和预估耗时,让王主管决策。”

小张:“……哦对!是该这样!不然忙活一晚上白搭!”

然后,他私下里给几个正在抱怨最凶、但有点技术的同事发了消息,内容大同小异:“这种临时数据挖掘,盲目全量核对效率最低。不如先各自随机抽取小样本进行快速探查,看看数据到底有没有分析价值。如果有价值,再决定下一步。如果没价值,也好早点结论。”

这几个同事正愁没事干又不敢不干,一听这话,觉得有理,总比傻乎乎听指挥蛮干强。于是纷纷开始偷偷搞自己的“小样本分析”。

林眠自己,则快速写了一个极其简单的数据质量检查脚本,能快速跑出数据缺失率、异常值比例等基本指标。

做完这一切,他就像什么也没发生一样,戴上降噪耳机,开始…继续写“凤凰”项目的代码。仿佛外面的兵荒马乱与他无关。

然而,效应开始显现。

小李把知识库关于“天眼”数据质量问题的记录截图发给了王主管。

小张把一份需要他确认资源配置的草案塞给了王主管。

几个同事开始不停地来问王主管:“主管,我抽的样本好像没问题?”“不对啊,我抽的这部分数据全是乱的!”“这该怎么算?”

王主管被这些“请示”搞得焦头烂额,他本想简单粗暴地让大家“别废话赶紧干”,但面对具体的技术问题和选择,他又不甚了了,支支吾吾,无法做出有效决策,只能不停地说“再看看”、“先做着”。

混乱进一步升级。原本可能勉强进行下去的“蛮干”节奏,被彻底打乱。人们陷入了无休止的、低效的讨论、请示和各自为政的摸索中。

半小时后,林眠将他那个简单的数据质量脚本共享到了群里,附言:“写了个简单脚本,可快速检查数据基本质量,仅供参考。”

立刻有人拿去试了。

“卧槽!缺失率45%!”

“异常值爆表!这数据没法用啊!”

“这核对什么?核对了个寂寞?”

抱怨的方向变了,从抱怨加班,变成了抱怨数据垃圾、任务荒谬。

王主管的脸色越来越难看。

林眠看着时机差不多了,在群里@了王主管,并附上了一份简洁的汇总:

“王主管,根据多位同事的样本抽查以及脚本快速扫描结果,‘天眼’项目历史数据质量极差,缺失率与异常率均超过可用标准。进行全量核对清洗所需投入巨大,且产出价值未知。建议:要么放弃此次核对;要么仅抽取极小部分相对完整数据进行象征性分析,用于明日汇报。请决策。”

这段话,像是一份冷静的判决书,摆在了所有人面前。

群里瞬间安静了。所有人都看着王主管。

王主管骑虎难下。他当然知道这数据是垃圾,但这是老板的命令!可现在,林眠把事实赤裸裸地掀开,还给出了“象征性分析”这个台阶…

他冷汗都出来了。最终,他只能硬着头皮回复:“…那就先…先按第二种方案,做个小样分析吧…大家…抓紧时间!”

办公室里响起一片如释重负又夹杂着嘲讽的嘘声。

任务量从“通宵核对我也不知道是啥的庞大数据”变成了“随便做点样子工程应付老板”。

气氛一下子从“绝望的加班”变成了“敷衍的加班”。

虽然还是加班,但性质完全不同了。人们的心态变成了:赶紧弄点东西糊弄过去完事。

效率…反而诡异地提高了。因为目标明确——糊弄。

林眠见状,再次低下头,专注于自己的屏幕。

一小时后,就已经有人草草做出了一份漏洞百出但勉强能看的ppt分析报告。

有人开始收拾东西。

王主管也无心再管,躲回了办公室。