
大脑袋需要大数据
全球各种大脑图谱计划正在展开,中国台湾的计划似乎有些小。当地科学家正在研究果蝇,通过单个神经元成像逆向编辑其大脑。他们的工作已经以惊人详细的程度制作了大脑电路的三维图像。
研究人员仅需要一个计算机鼠标和一个网页浏览器就能追踪单个细胞并将其缩放回神经束交织的网络中。这些布线图看起来像挂毯上五颜六色的线,它们可以非常清晰地表明哪些细胞簇控制具体的行为。通过刺激具体的神经线路,研究人员能够提示一只果蝇拍打其左翅或是摇头,这一技能去年11月在美国加州圣迭戈举行的神经科学年会上导致参会者整个下午特别激动。
但台湾新竹清华大学神经学家Ann-Shyn Chiang说,即便是对于这样一个小生物,也耗费了该团队整整十年以每个细胞10亿字节的比率绘制6万个神经元。这甚至不足果蝇属大脑神经细胞的一半。若以此推算,利用同样的方式绘制人脑中的860亿个神经元将要花费1700万年,Chiang在会议上报告说。
其他的技术更加易于处理。2016年7月,一个国际团队发表了人脑褶皱外层——大脑皮层的图谱。很多科学家认为这是到目前为止最详细的人脑连接图。然而,即便在其最高空间分辨率(1立方毫米),每个立体像素(三维物体最小的可分辨元素)均包含数千万个神经元。这与以单细胞绘制果蝇神经元连接图可谓差别悬殊。
所以,在神经生物学的世界里,大数据确实是庞大的数据量。尽管计算机基础设施和数据传输的进步,“大数据”革命数十年前曾席卷基因组学领域,如今神经科学家仍在努力应对他们所在领域的新革命。
有多大
这一部分是因为无论是什么物种,大脑都如此巨大、关联度如此之高。但它也来自于细胞难处理的维度。哺乳动物的神经元主要延伸(即轴突)是其最小分支(树突)长度和宽度的20万倍。如果用意大利面代表树突,那些神经元自身就超过1公里的1/3,或是4个美式足球场。
在实验室中,研究人员通过成百上千个重叠的大脑切片图像堆叠跟踪其数千个投影,从而绘制每个神经元。以光为基础的显微镜能够承载0.25~0.5微米的分辨率,这足以跟踪一个神经元的主体。但想要揭示突触(通过电子或化学信号流的分钟信号衔接点),纳米成像电子显微镜是必需的。更高的像素意味着观测领域更小和更多图片。更多图片意味着更多数据。
“我们不再是应对百万字节,甚至是千兆字节。”洛杉矶南加州大学神经成像实验室负责人Arthur Toga说,“我们应对的是兆兆字节。将它从一个地方挪到另一个地方就是一个问题。”两兆兆字节的数据将填满很多台式机的硬盘。
Chiang的果蝇团队对1兆兆字节的图像进行了梳理,以重建1000个神经细胞——少于果蝇属大脑的1%。HCP明尼波利斯明尼苏达大学共同首席研究员Kamil Ugurbil说,为了绘制人类大脑皮层图像,HCP研究人员分析了来自210名健康青年人的6兆兆字节的核磁共振(MRI)成像数据。实验室可以从该项目的网站或更大的数据集中下载那些数据,每次下载那些8兆兆字节的文件需要花费200美元。
电生理学研究在计算方面也变得更加吃力。今天,研究人员通常每次记录数百个神经元。很快,它将会达到数千个;在5年内,将达到成千上万个,瑞士日内瓦大学神经学家Alexandre Pouget说。“这是我们将要发生的跳跃式前进。”
剑桥哈佛大学神经学家Florian Engert说,如果你记录小鼠大脑神经元活动20分钟,那么将会产生约500拍字节的“闪烁”,其中神经细胞放电代表为像素值的变化。
神经学家没有可以对比的模型,没有将神经连接和活动行为、记忆或认识相关连的地图。考虑到大脑巨大的错综复杂性,马里兰州美国精神健康研究所负责人Greg Farber说,问题“并不在于我们有过多的数据,而是我们远没有达到需要解决这个复杂问题的数据”。
搭建桥梁
过去17年,盐湖城犹他大学研究神经发育紊乱的系统神经学家Julie Korenberg和同事一直研究在恒河猴中绘制大脑边缘系统。这种灵长类动物大脑有60亿个神经元,而人类大脑则有860亿个。但在研究模型中,恒河猴与小鼠或果蝇相比同人类血缘关系最近。
Korenberg的团队正在开发一个三维协调模型,与恒河猴大脑中各种神经成像数据相匹配,这些数据包括从整个大脑MRI连接到单细胞公焦数据以及一些区域的电子显微镜亚细胞分辨率。他们在建立“一个让你在一个图像上选择一个点并以另一种分辨率来看这个点的系统”,国立精神卫生研究所(NIMH)影响社会行为和社会认知项目领头人Janine Simmons说,该机构为Korenberg的研究提供了部分支持。Simmons说,它有些类似谷歌地球,例如,你可以将焦距从40 ×直接转变为1 ×,但却不能得到这些变焦尺度之间的层次。
利用20×共焦透镜绘制恒河猴大脑边缘系统图像将需要巨大的数据集,每个动物远超过600兆兆字节。到目前为止,该团队已经收集了约100兆兆字节的数据信息,可以通过30太字节的本地服务器与云端储存连接的联网储存设备获取。Korenberg说,研究人员可以用缩小尺寸的数据集和一台性能良好的笔记本电脑解决一些问题。但操作大规模的三维共焦数据集需要特别的工作站,即便如此传递每个平铺的图片也很缓慢。
然而,这项尚待发表的研究“有可能成为连接这一领域最重要的进展”。纽约市西奈山医院神经解剖学家Patrick Hof说,他曾与Korenberg合作过。例如,Korenberg说,这些数据可以帮助科学家将在特定神经紊乱(如精神分裂症和自闭症)中看上去很重要的基因联系起来,从而了解确切的大脑线路异常。
文化转变
随着科学家将可能的范围向前推动,他们在建立一个计算通道以应对日益加大的工作量,此外还在建立新的工具共享和可视化最终生成的数据。但缓解神经科学家的数据问题,需要的不只是工具研发,还需要文化转变。很难让人们“放开他们的数据”,加州斯坦福大学心理学家Russell Poldrack说,他用神经成像研究学习和记忆。它可能会成为“一代人的事情”,他说,千禧一代人“比我们这一代人更喜欢共享编码和数据”。Poldrack担心,一流科学家可能会因为科学“与他们认为其应该具有的价值不匹配”而沮丧,并离开这个领域。
但态度在逐渐转变,首先是那些针对软件的,其次是数据。传统上,神经成像实验室会花费大量时间下载和装载同样的β测试软件。“为各种软件失灵和计算瓶颈开路,编写大量累赘的编码以及进行他们自己的数据管理解决方案,以处理同样的问题”。加州大学戴维斯分校神经科学博士生David Grayson说。更糟糕的是,很多非研究性任务被委托给学生、博士后和年轻科学家。
传统的学术模式对此没有帮助。研究人员通常会设置假设,并在其团队内独立地考虑自己的想法。在这样的环境中,研究并未把人带到一起,而是将他们分散开来,华盛顿西雅图艾伦脑科学研究所的Hongkui Zeng说。“你需要让自己不同。需要在该领域建立自己的身份,你需要做一些与他人不同的事情。”
在谈到大脑研究时,“完成”是个移动性的目标。对于神经科学工具包来说也是如此。在神经科学学会年会的讲话中,Chiang感叹绘制一只果蝇大脑的一半图谱居然花费了10年。他们与中国台湾的物理学家合作,正开始利用一种叫作同步加速器X射线断层扫描的技术大幅提高数据认知。“它仅需要不到10分钟就绘制一只果蝇的大脑图像,其中包含数千个高尔基染色单个神经元。”Chiang说,他的团队正在小鼠和猪身上尝试该方法。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA 数据分析师:善用 Power BI 索引列,提升数据处理与分析效率 在 Power BI 数据分析流程中,“数据准备” 是决定后续分析质量 ...
2025-08-18CDA 数据分析师:巧用 SQL 多个聚合函数,解锁数据多维洞察 在企业数据分析场景中,单一维度的统计(如 “总销售额”“用户总数 ...
2025-08-18CDA 数据分析师:驾驭表格结构数据的核心角色与实践应用 在企业日常数据存储与分析场景中,表格结构数据(如 Excel 表格、数据库 ...
2025-08-18PowerBI 累计曲线制作指南:从 DAX 度量到可视化落地 在业务数据分析中,“累计趋势” 是衡量业务进展的核心视角 —— 无论是 “ ...
2025-08-15Python 函数 return 多个数据:用法、实例与实战技巧 在 Python 编程中,函数是代码复用与逻辑封装的核心载体。多数场景下,我们 ...
2025-08-15CDA 数据分析师:引领商业数据分析体系构建,筑牢企业数据驱动根基 在数字化转型深化的今天,企业对数据的依赖已从 “零散分析” ...
2025-08-15随机森林中特征重要性(Feature Importance)排名解析 在机器学习领域,随机森林因其出色的预测性能和对高维数据的适应性,被广 ...
2025-08-14t 统计量为负数时的分布计算方法与解析 在统计学假设检验中,t 统计量是常用的重要指标,其分布特征直接影响着检验结果的判断。 ...
2025-08-14CDA 数据分析师与业务数据分析步骤 在当今数据驱动的商业世界中,数据分析已成为企业决策和发展的核心驱动力。CDA 数据分析师作 ...
2025-08-14前台流量与后台流量:数据链路中的双重镜像 在商业数据分析体系中,流量数据是洞察用户行为与系统效能的核心依据。前台流量与 ...
2025-08-13商业数据分析体系构建与 CDA 数据分析师的协同赋能 在企业数字化转型的浪潮中,商业数据分析已从 “可选工具” 升级为 “核 ...
2025-08-13解析 CDA 数据分析师:数据时代的价值挖掘者 在数字经济高速发展的今天,数据已成为企业核心资产,而将数据转化为商业价值的 ...
2025-08-13解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-08-12MySQL 统计连续每天数据:从业务需求到技术实现 在数据分析场景中,连续日期的数据统计是衡量业务连续性的重要手段 —— 无论是 ...
2025-08-12PyTorch 中 Shuffle 机制:数据打乱的艺术与实践 在深度学习模型训练过程中,数据的呈现顺序往往对模型性能有着微妙却关键的影响 ...
2025-08-12Pandas 多列条件筛选:从基础语法到实战应用 在数据分析工作中,基于多列条件筛选数据是高频需求。无论是提取满足特定业务规则的 ...
2025-08-12人工智能重塑 CDA 数据分析领域:从工具革新到能力重构 在数字经济浪潮与人工智能技术共振的 2025 年,数据分析行业正经历着前所 ...
2025-08-12游戏流水衰退率:计算方法与实践意义 在游戏行业中,流水(即游戏收入)是衡量一款游戏商业表现的核心指标之一。而游戏流水衰退 ...
2025-08-12CDA 一级:数据分析入门的基石 在当今数据驱动的时代,数据分析能力已成为职场中的一项重要技能。CDA(Certified Data Anal ...
2025-08-12破解游戏用户流失困局:从数据洞察到留存策略 在游戏行业竞争白热化的当下,用户流失率已成为衡量产品健康度的核心指标。一款游 ...
2025-08-11