京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大脑袋需要大数据
全球各种大脑图谱计划正在展开,中国台湾的计划似乎有些小。当地科学家正在研究果蝇,通过单个神经元成像逆向编辑其大脑。他们的工作已经以惊人详细的程度制作了大脑电路的三维图像。
研究人员仅需要一个计算机鼠标和一个网页浏览器就能追踪单个细胞并将其缩放回神经束交织的网络中。这些布线图看起来像挂毯上五颜六色的线,它们可以非常清晰地表明哪些细胞簇控制具体的行为。通过刺激具体的神经线路,研究人员能够提示一只果蝇拍打其左翅或是摇头,这一技能去年11月在美国加州圣迭戈举行的神经科学年会上导致参会者整个下午特别激动。
但台湾新竹清华大学神经学家Ann-Shyn Chiang说,即便是对于这样一个小生物,也耗费了该团队整整十年以每个细胞10亿字节的比率绘制6万个神经元。这甚至不足果蝇属大脑神经细胞的一半。若以此推算,利用同样的方式绘制人脑中的860亿个神经元将要花费1700万年,Chiang在会议上报告说。
其他的技术更加易于处理。2016年7月,一个国际团队发表了人脑褶皱外层——大脑皮层的图谱。很多科学家认为这是到目前为止最详细的人脑连接图。然而,即便在其最高空间分辨率(1立方毫米),每个立体像素(三维物体最小的可分辨元素)均包含数千万个神经元。这与以单细胞绘制果蝇神经元连接图可谓差别悬殊。
所以,在神经生物学的世界里,大数据确实是庞大的数据量。尽管计算机基础设施和数据传输的进步,“大数据”革命数十年前曾席卷基因组学领域,如今神经科学家仍在努力应对他们所在领域的新革命。
有多大
这一部分是因为无论是什么物种,大脑都如此巨大、关联度如此之高。但它也来自于细胞难处理的维度。哺乳动物的神经元主要延伸(即轴突)是其最小分支(树突)长度和宽度的20万倍。如果用意大利面代表树突,那些神经元自身就超过1公里的1/3,或是4个美式足球场。
在实验室中,研究人员通过成百上千个重叠的大脑切片图像堆叠跟踪其数千个投影,从而绘制每个神经元。以光为基础的显微镜能够承载0.25~0.5微米的分辨率,这足以跟踪一个神经元的主体。但想要揭示突触(通过电子或化学信号流的分钟信号衔接点),纳米成像电子显微镜是必需的。更高的像素意味着观测领域更小和更多图片。更多图片意味着更多数据。
“我们不再是应对百万字节,甚至是千兆字节。”洛杉矶南加州大学神经成像实验室负责人Arthur Toga说,“我们应对的是兆兆字节。将它从一个地方挪到另一个地方就是一个问题。”两兆兆字节的数据将填满很多台式机的硬盘。
Chiang的果蝇团队对1兆兆字节的图像进行了梳理,以重建1000个神经细胞——少于果蝇属大脑的1%。HCP明尼波利斯明尼苏达大学共同首席研究员Kamil Ugurbil说,为了绘制人类大脑皮层图像,HCP研究人员分析了来自210名健康青年人的6兆兆字节的核磁共振(MRI)成像数据。实验室可以从该项目的网站或更大的数据集中下载那些数据,每次下载那些8兆兆字节的文件需要花费200美元。
电生理学研究在计算方面也变得更加吃力。今天,研究人员通常每次记录数百个神经元。很快,它将会达到数千个;在5年内,将达到成千上万个,瑞士日内瓦大学神经学家Alexandre Pouget说。“这是我们将要发生的跳跃式前进。”
剑桥哈佛大学神经学家Florian Engert说,如果你记录小鼠大脑神经元活动20分钟,那么将会产生约500拍字节的“闪烁”,其中神经细胞放电代表为像素值的变化。
神经学家没有可以对比的模型,没有将神经连接和活动行为、记忆或认识相关连的地图。考虑到大脑巨大的错综复杂性,马里兰州美国精神健康研究所负责人Greg Farber说,问题“并不在于我们有过多的数据,而是我们远没有达到需要解决这个复杂问题的数据”。
搭建桥梁
过去17年,盐湖城犹他大学研究神经发育紊乱的系统神经学家Julie Korenberg和同事一直研究在恒河猴中绘制大脑边缘系统。这种灵长类动物大脑有60亿个神经元,而人类大脑则有860亿个。但在研究模型中,恒河猴与小鼠或果蝇相比同人类血缘关系最近。
Korenberg的团队正在开发一个三维协调模型,与恒河猴大脑中各种神经成像数据相匹配,这些数据包括从整个大脑MRI连接到单细胞公焦数据以及一些区域的电子显微镜亚细胞分辨率。他们在建立“一个让你在一个图像上选择一个点并以另一种分辨率来看这个点的系统”,国立精神卫生研究所(NIMH)影响社会行为和社会认知项目领头人Janine Simmons说,该机构为Korenberg的研究提供了部分支持。Simmons说,它有些类似谷歌地球,例如,你可以将焦距从40 ×直接转变为1 ×,但却不能得到这些变焦尺度之间的层次。
利用20×共焦透镜绘制恒河猴大脑边缘系统图像将需要巨大的数据集,每个动物远超过600兆兆字节。到目前为止,该团队已经收集了约100兆兆字节的数据信息,可以通过30太字节的本地服务器与云端储存连接的联网储存设备获取。Korenberg说,研究人员可以用缩小尺寸的数据集和一台性能良好的笔记本电脑解决一些问题。但操作大规模的三维共焦数据集需要特别的工作站,即便如此传递每个平铺的图片也很缓慢。
然而,这项尚待发表的研究“有可能成为连接这一领域最重要的进展”。纽约市西奈山医院神经解剖学家Patrick Hof说,他曾与Korenberg合作过。例如,Korenberg说,这些数据可以帮助科学家将在特定神经紊乱(如精神分裂症和自闭症)中看上去很重要的基因联系起来,从而了解确切的大脑线路异常。
文化转变
随着科学家将可能的范围向前推动,他们在建立一个计算通道以应对日益加大的工作量,此外还在建立新的工具共享和可视化最终生成的数据。但缓解神经科学家的数据问题,需要的不只是工具研发,还需要文化转变。很难让人们“放开他们的数据”,加州斯坦福大学心理学家Russell Poldrack说,他用神经成像研究学习和记忆。它可能会成为“一代人的事情”,他说,千禧一代人“比我们这一代人更喜欢共享编码和数据”。Poldrack担心,一流科学家可能会因为科学“与他们认为其应该具有的价值不匹配”而沮丧,并离开这个领域。
但态度在逐渐转变,首先是那些针对软件的,其次是数据。传统上,神经成像实验室会花费大量时间下载和装载同样的β测试软件。“为各种软件失灵和计算瓶颈开路,编写大量累赘的编码以及进行他们自己的数据管理解决方案,以处理同样的问题”。加州大学戴维斯分校神经科学博士生David Grayson说。更糟糕的是,很多非研究性任务被委托给学生、博士后和年轻科学家。
传统的学术模式对此没有帮助。研究人员通常会设置假设,并在其团队内独立地考虑自己的想法。在这样的环境中,研究并未把人带到一起,而是将他们分散开来,华盛顿西雅图艾伦脑科学研究所的Hongkui Zeng说。“你需要让自己不同。需要在该领域建立自己的身份,你需要做一些与他人不同的事情。”
在谈到大脑研究时,“完成”是个移动性的目标。对于神经科学工具包来说也是如此。在神经科学学会年会的讲话中,Chiang感叹绘制一只果蝇大脑的一半图谱居然花费了10年。他们与中国台湾的物理学家合作,正开始利用一种叫作同步加速器X射线断层扫描的技术大幅提高数据认知。“它仅需要不到10分钟就绘制一只果蝇的大脑图像,其中包含数千个高尔基染色单个神经元。”Chiang说,他的团队正在小鼠和猪身上尝试该方法。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-10在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-10在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09在数据可视化领域,折线图是展示时序数据、趋势变化的核心图表类型之一,其简洁的线条的能够清晰呈现数据的起伏规律。Python ECh ...
2026-04-09在数据驱动的时代,数据分析早已不是“凭经验、靠感觉”的零散操作,而是一套具备固定逻辑、标准化流程的系统方法——这就是数据 ...
2026-04-09长短期记忆网络(LSTM)作为循环神经网络(RNN)的重要改进模型,凭借其独特的门控机制(遗忘门、输入门、输出门),有效解决了 ...
2026-04-08在数据分析全流程中,数据质量是决定分析结论可靠性的核心前提,而异常值作为数据集中的“异类”,往往会干扰统计检验、模型训练 ...
2026-04-08在数字经济飞速发展的今天,数据已渗透到各行各业的核心场景,成为解读趋势、优化决策、创造价值的核心载体。而数据分析,作为挖 ...
2026-04-08在数据分析全流程中,数据处理是基础,图形可视化是核心呈现手段——前者负责将杂乱无章的原始数据转化为干净、规范、可分析的格 ...
2026-04-07在数据分析与统计推断中,p值是衡量假设检验结果显著性的核心指标,其本质是在原假设(通常为“无效应”“无差异”)成立的前提 ...
2026-04-07在数字经济深度渗透的今天,数据已成为企业生存发展的核心资产,企业的竞争本质已转变为数据利用能力的竞争。然而,大量来自生产 ...
2026-04-07Python凭借简洁的语法、丰富的生态库,成为算法开发、数据处理、机器学习等领域的首选语言。但受限于动态类型、解释性执行的特性 ...
2026-04-03在深度学习神经网络中,卷积操作是实现数据特征提取的核心引擎,更是让模型“看懂”数据、“解读”数据的关键所在。不同于传统机 ...
2026-04-03当数字化转型从企业的“战略口号”落地为“生存之战”,越来越多的企业意识到,转型的核心并非技术的堆砌,而是数据价值的深度挖 ...
2026-04-03在日常办公数据分析中,数据透视表凭借高效的汇总、分组功能,成为Excel、WPS等办公软件中最常用的数据分析工具之一。其中,“计 ...
2026-04-02在数字化交互的全场景中,用户的每一次操作都在生成动态的行为轨迹——电商用户的“浏览商品→点击详情→加入购物车”,内容APP ...
2026-04-02在数字化转型深度推进的今天,企业数据已成为驱动业务增长、构建核心竞争力的战略资产,而数据安全则是守护这份资产的“生命线” ...
2026-04-02在数据驱动决策的浪潮中,数据挖掘与数据分析是两个高频出现且极易被混淆的概念。有人将二者等同看待,认为“做数据分析就是做数 ...
2026-04-01