第14章

周三下午,林晚星怀着几分忐忑,按照邮件指示来到了位于信息学部的实验楼。与想象中充满试管仪器的传统实验室不同,陆辰希所在的“脑与认知计算实验室”更像一个极具现代感的科技公司研发中心。开阔的空间里,数十台高性能电脑屏幕闪烁着复杂的代码和可视化图表,白板上写满了难以理解的公式,空气中弥漫着一种专注而高效的氛围。她在前台报了名字,一位自称是陆辰希室友兼合伙人的江屿热情地把她领了进去,他戴着黑框眼镜,笑容随和,与陆辰希的清冷形成鲜明对比。

“老大在开会,交代你先熟悉一下环境,任务发你邮箱了。”江屿指了指一个临时的空工位,“别紧张,我们不吃人。”他的调侃让林晚星稍微放松了些。她打开电脑登录邮箱,果然看到了陆辰希的新邮件,标题是【数据分析任务】。

点开邮件,内容依旧简短,附件却是一个庞大的数据压缩包。邮件要求她对这组来自某个行为实验的原始数据进行初步清洗,剔除无效和异常数据点,并进行基础的可视化分析,以观察初步分布模式。林晚星下载并解压了数据包,看着屏幕上那数以万计行、列名全是缩写代码的表格,瞬间感到一阵眩晕。这根本不是她认知中“学业助理”的工作范畴,这完全是专业数据分析师的任务!

她尝试着打开几个数据列,里面充斥着各种仪器记录的时间戳、反应时长、不确定的标识符以及大量看似随机的数值。一些明显的缺失值和极端异常值像荆棘一样散布其中。她试图理解每个字段的含义,却发现没有详细的数据字典,一切都需要她根据有限的上下文去猜测和验证。这比她啃过的最难的文献还要抽象,像一座没有地图、布满迷雾的庞大迷宫。

最初的半小时,她几乎是在徒劳地尝试理解这些数据的意义,挫败感越来越强。周围其他组员敲击键盘的声音、低声讨论的声音,都像是在提醒她的格格不入。她甚至能感觉到有几道好奇的目光偶尔落在她这个生面孔上。她深吸一口气,强迫自己冷静下来。慌乱解决不了问题。她回想起陆辰希处理问题的方式——极度理性,拆解步骤。

她不再试图一次性理解全部,而是先从最简单的步骤开始:处理缺失值。她运用统计学课上学的知识,谨慎地识别不同类型的缺失,并选择合适的处理方法。接着,她开始对付异常值,利用描述性统计和简单的散点图,一个个识别那些明显偏离群体的“噪音”。这个过程枯燥且耗时,但当她清除了第一批明显的“路障”后,杂乱的数据似乎稍微清晰了一点点。她开始尝试着,根据数据可能的来源(行为实验),去反向推测某些关键字段的可能含义,并记录下来准备求证。

当陆辰希结束会议,出现在实验室时,看到的就是这样一幅景象:林晚星紧盯着屏幕,手指飞快地在键盘和鼠标间切换,时而凝神思考,时而在旁边的笔记本上记录着什么。她的眉头微微蹙起,眼神里却不再是初来时的迷茫,而是充满了专注和一种不服输的亮光。他没有打扰她,只是远远地看了一眼她屏幕上已经初步清理干净部分的数据和旁边打开的简单可视化图表,目光在她身上停留了几秒,随即不动声色地走向了自己的办公区。

林晚星完全没有察觉到陆辰希的到来。她正专注于一个奇怪的发现:在清理到某一列代表“决策置信度”的数据时,她注意到,有少量数据的模式与其他绝大多数数据存在一种难以言喻的、系统性的差异。这种差异非常细微,不像是随机错误,更像是在某种特定条件下产生的。是仪器的系统误差?还是实验设计中某个未被提及的变量在起作用?这个发现像迷宫中突然出现的一条未曾预料的小径,吸引着她去探索,却也让她心生警惕——这会不会是她理解错误产生的错觉?她该不该把这个未经证实的发现,纳入初步报告的范畴?