京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大脑袋需要大数据
全球各种大脑图谱计划正在展开,中国台湾的计划似乎有些小。当地科学家正在研究果蝇,通过单个神经元成像逆向编辑其大脑。他们的工作已经以惊人详细的程度制作了大脑电路的三维图像。
研究人员仅需要一个计算机鼠标和一个网页浏览器就能追踪单个细胞并将其缩放回神经束交织的网络中。这些布线图看起来像挂毯上五颜六色的线,它们可以非常清晰地表明哪些细胞簇控制具体的行为。通过刺激具体的神经线路,研究人员能够提示一只果蝇拍打其左翅或是摇头,这一技能去年11月在美国加州圣迭戈举行的神经科学年会上导致参会者整个下午特别激动。
但台湾新竹清华大学神经学家Ann-Shyn Chiang说,即便是对于这样一个小生物,也耗费了该团队整整十年以每个细胞10亿字节的比率绘制6万个神经元。这甚至不足果蝇属大脑神经细胞的一半。若以此推算,利用同样的方式绘制人脑中的860亿个神经元将要花费1700万年,Chiang在会议上报告说。
其他的技术更加易于处理。2016年7月,一个国际团队发表了人脑褶皱外层——大脑皮层的图谱。很多科学家认为这是到目前为止最详细的人脑连接图。然而,即便在其最高空间分辨率(1立方毫米),每个立体像素(三维物体最小的可分辨元素)均包含数千万个神经元。这与以单细胞绘制果蝇神经元连接图可谓差别悬殊。
所以,在神经生物学的世界里,大数据确实是庞大的数据量。尽管计算机基础设施和数据传输的进步,“大数据”革命数十年前曾席卷基因组学领域,如今神经科学家仍在努力应对他们所在领域的新革命。
有多大
这一部分是因为无论是什么物种,大脑都如此巨大、关联度如此之高。但它也来自于细胞难处理的维度。哺乳动物的神经元主要延伸(即轴突)是其最小分支(树突)长度和宽度的20万倍。如果用意大利面代表树突,那些神经元自身就超过1公里的1/3,或是4个美式足球场。
在实验室中,研究人员通过成百上千个重叠的大脑切片图像堆叠跟踪其数千个投影,从而绘制每个神经元。以光为基础的显微镜能够承载0.25~0.5微米的分辨率,这足以跟踪一个神经元的主体。但想要揭示突触(通过电子或化学信号流的分钟信号衔接点),纳米成像电子显微镜是必需的。更高的像素意味着观测领域更小和更多图片。更多图片意味着更多数据。
“我们不再是应对百万字节,甚至是千兆字节。”洛杉矶南加州大学神经成像实验室负责人Arthur Toga说,“我们应对的是兆兆字节。将它从一个地方挪到另一个地方就是一个问题。”两兆兆字节的数据将填满很多台式机的硬盘。
Chiang的果蝇团队对1兆兆字节的图像进行了梳理,以重建1000个神经细胞——少于果蝇属大脑的1%。HCP明尼波利斯明尼苏达大学共同首席研究员Kamil Ugurbil说,为了绘制人类大脑皮层图像,HCP研究人员分析了来自210名健康青年人的6兆兆字节的核磁共振(MRI)成像数据。实验室可以从该项目的网站或更大的数据集中下载那些数据,每次下载那些8兆兆字节的文件需要花费200美元。
电生理学研究在计算方面也变得更加吃力。今天,研究人员通常每次记录数百个神经元。很快,它将会达到数千个;在5年内,将达到成千上万个,瑞士日内瓦大学神经学家Alexandre Pouget说。“这是我们将要发生的跳跃式前进。”
剑桥哈佛大学神经学家Florian Engert说,如果你记录小鼠大脑神经元活动20分钟,那么将会产生约500拍字节的“闪烁”,其中神经细胞放电代表为像素值的变化。
神经学家没有可以对比的模型,没有将神经连接和活动行为、记忆或认识相关连的地图。考虑到大脑巨大的错综复杂性,马里兰州美国精神健康研究所负责人Greg Farber说,问题“并不在于我们有过多的数据,而是我们远没有达到需要解决这个复杂问题的数据”。
搭建桥梁
过去17年,盐湖城犹他大学研究神经发育紊乱的系统神经学家Julie Korenberg和同事一直研究在恒河猴中绘制大脑边缘系统。这种灵长类动物大脑有60亿个神经元,而人类大脑则有860亿个。但在研究模型中,恒河猴与小鼠或果蝇相比同人类血缘关系最近。
Korenberg的团队正在开发一个三维协调模型,与恒河猴大脑中各种神经成像数据相匹配,这些数据包括从整个大脑MRI连接到单细胞公焦数据以及一些区域的电子显微镜亚细胞分辨率。他们在建立“一个让你在一个图像上选择一个点并以另一种分辨率来看这个点的系统”,国立精神卫生研究所(NIMH)影响社会行为和社会认知项目领头人Janine Simmons说,该机构为Korenberg的研究提供了部分支持。Simmons说,它有些类似谷歌地球,例如,你可以将焦距从40 ×直接转变为1 ×,但却不能得到这些变焦尺度之间的层次。
利用20×共焦透镜绘制恒河猴大脑边缘系统图像将需要巨大的数据集,每个动物远超过600兆兆字节。到目前为止,该团队已经收集了约100兆兆字节的数据信息,可以通过30太字节的本地服务器与云端储存连接的联网储存设备获取。Korenberg说,研究人员可以用缩小尺寸的数据集和一台性能良好的笔记本电脑解决一些问题。但操作大规模的三维共焦数据集需要特别的工作站,即便如此传递每个平铺的图片也很缓慢。
然而,这项尚待发表的研究“有可能成为连接这一领域最重要的进展”。纽约市西奈山医院神经解剖学家Patrick Hof说,他曾与Korenberg合作过。例如,Korenberg说,这些数据可以帮助科学家将在特定神经紊乱(如精神分裂症和自闭症)中看上去很重要的基因联系起来,从而了解确切的大脑线路异常。
文化转变
随着科学家将可能的范围向前推动,他们在建立一个计算通道以应对日益加大的工作量,此外还在建立新的工具共享和可视化最终生成的数据。但缓解神经科学家的数据问题,需要的不只是工具研发,还需要文化转变。很难让人们“放开他们的数据”,加州斯坦福大学心理学家Russell Poldrack说,他用神经成像研究学习和记忆。它可能会成为“一代人的事情”,他说,千禧一代人“比我们这一代人更喜欢共享编码和数据”。Poldrack担心,一流科学家可能会因为科学“与他们认为其应该具有的价值不匹配”而沮丧,并离开这个领域。
但态度在逐渐转变,首先是那些针对软件的,其次是数据。传统上,神经成像实验室会花费大量时间下载和装载同样的β测试软件。“为各种软件失灵和计算瓶颈开路,编写大量累赘的编码以及进行他们自己的数据管理解决方案,以处理同样的问题”。加州大学戴维斯分校神经科学博士生David Grayson说。更糟糕的是,很多非研究性任务被委托给学生、博士后和年轻科学家。
传统的学术模式对此没有帮助。研究人员通常会设置假设,并在其团队内独立地考虑自己的想法。在这样的环境中,研究并未把人带到一起,而是将他们分散开来,华盛顿西雅图艾伦脑科学研究所的Hongkui Zeng说。“你需要让自己不同。需要在该领域建立自己的身份,你需要做一些与他人不同的事情。”
在谈到大脑研究时,“完成”是个移动性的目标。对于神经科学工具包来说也是如此。在神经科学学会年会的讲话中,Chiang感叹绘制一只果蝇大脑的一半图谱居然花费了10年。他们与中国台湾的物理学家合作,正开始利用一种叫作同步加速器X射线断层扫描的技术大幅提高数据认知。“它仅需要不到10分钟就绘制一只果蝇的大脑图像,其中包含数千个高尔基染色单个神经元。”Chiang说,他的团队正在小鼠和猪身上尝试该方法。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15