
大脑袋需要大数据
全球各种大脑图谱计划正在展开,中国台湾的计划似乎有些小。当地科学家正在研究果蝇,通过单个神经元成像逆向编辑其大脑。他们的工作已经以惊人详细的程度制作了大脑电路的三维图像。
研究人员仅需要一个计算机鼠标和一个网页浏览器就能追踪单个细胞并将其缩放回神经束交织的网络中。这些布线图看起来像挂毯上五颜六色的线,它们可以非常清晰地表明哪些细胞簇控制具体的行为。通过刺激具体的神经线路,研究人员能够提示一只果蝇拍打其左翅或是摇头,这一技能去年11月在美国加州圣迭戈举行的神经科学年会上导致参会者整个下午特别激动。
但台湾新竹清华大学神经学家Ann-Shyn Chiang说,即便是对于这样一个小生物,也耗费了该团队整整十年以每个细胞10亿字节的比率绘制6万个神经元。这甚至不足果蝇属大脑神经细胞的一半。若以此推算,利用同样的方式绘制人脑中的860亿个神经元将要花费1700万年,Chiang在会议上报告说。
其他的技术更加易于处理。2016年7月,一个国际团队发表了人脑褶皱外层——大脑皮层的图谱。很多科学家认为这是到目前为止最详细的人脑连接图。然而,即便在其最高空间分辨率(1立方毫米),每个立体像素(三维物体最小的可分辨元素)均包含数千万个神经元。这与以单细胞绘制果蝇神经元连接图可谓差别悬殊。
所以,在神经生物学的世界里,大数据确实是庞大的数据量。尽管计算机基础设施和数据传输的进步,“大数据”革命数十年前曾席卷基因组学领域,如今神经科学家仍在努力应对他们所在领域的新革命。
有多大
这一部分是因为无论是什么物种,大脑都如此巨大、关联度如此之高。但它也来自于细胞难处理的维度。哺乳动物的神经元主要延伸(即轴突)是其最小分支(树突)长度和宽度的20万倍。如果用意大利面代表树突,那些神经元自身就超过1公里的1/3,或是4个美式足球场。
在实验室中,研究人员通过成百上千个重叠的大脑切片图像堆叠跟踪其数千个投影,从而绘制每个神经元。以光为基础的显微镜能够承载0.25~0.5微米的分辨率,这足以跟踪一个神经元的主体。但想要揭示突触(通过电子或化学信号流的分钟信号衔接点),纳米成像电子显微镜是必需的。更高的像素意味着观测领域更小和更多图片。更多图片意味着更多数据。
“我们不再是应对百万字节,甚至是千兆字节。”洛杉矶南加州大学神经成像实验室负责人Arthur Toga说,“我们应对的是兆兆字节。将它从一个地方挪到另一个地方就是一个问题。”两兆兆字节的数据将填满很多台式机的硬盘。
Chiang的果蝇团队对1兆兆字节的图像进行了梳理,以重建1000个神经细胞——少于果蝇属大脑的1%。HCP明尼波利斯明尼苏达大学共同首席研究员Kamil Ugurbil说,为了绘制人类大脑皮层图像,HCP研究人员分析了来自210名健康青年人的6兆兆字节的核磁共振(MRI)成像数据。实验室可以从该项目的网站或更大的数据集中下载那些数据,每次下载那些8兆兆字节的文件需要花费200美元。
电生理学研究在计算方面也变得更加吃力。今天,研究人员通常每次记录数百个神经元。很快,它将会达到数千个;在5年内,将达到成千上万个,瑞士日内瓦大学神经学家Alexandre Pouget说。“这是我们将要发生的跳跃式前进。”
剑桥哈佛大学神经学家Florian Engert说,如果你记录小鼠大脑神经元活动20分钟,那么将会产生约500拍字节的“闪烁”,其中神经细胞放电代表为像素值的变化。
神经学家没有可以对比的模型,没有将神经连接和活动行为、记忆或认识相关连的地图。考虑到大脑巨大的错综复杂性,马里兰州美国精神健康研究所负责人Greg Farber说,问题“并不在于我们有过多的数据,而是我们远没有达到需要解决这个复杂问题的数据”。
搭建桥梁
过去17年,盐湖城犹他大学研究神经发育紊乱的系统神经学家Julie Korenberg和同事一直研究在恒河猴中绘制大脑边缘系统。这种灵长类动物大脑有60亿个神经元,而人类大脑则有860亿个。但在研究模型中,恒河猴与小鼠或果蝇相比同人类血缘关系最近。
Korenberg的团队正在开发一个三维协调模型,与恒河猴大脑中各种神经成像数据相匹配,这些数据包括从整个大脑MRI连接到单细胞公焦数据以及一些区域的电子显微镜亚细胞分辨率。他们在建立“一个让你在一个图像上选择一个点并以另一种分辨率来看这个点的系统”,国立精神卫生研究所(NIMH)影响社会行为和社会认知项目领头人Janine Simmons说,该机构为Korenberg的研究提供了部分支持。Simmons说,它有些类似谷歌地球,例如,你可以将焦距从40 ×直接转变为1 ×,但却不能得到这些变焦尺度之间的层次。
利用20×共焦透镜绘制恒河猴大脑边缘系统图像将需要巨大的数据集,每个动物远超过600兆兆字节。到目前为止,该团队已经收集了约100兆兆字节的数据信息,可以通过30太字节的本地服务器与云端储存连接的联网储存设备获取。Korenberg说,研究人员可以用缩小尺寸的数据集和一台性能良好的笔记本电脑解决一些问题。但操作大规模的三维共焦数据集需要特别的工作站,即便如此传递每个平铺的图片也很缓慢。
然而,这项尚待发表的研究“有可能成为连接这一领域最重要的进展”。纽约市西奈山医院神经解剖学家Patrick Hof说,他曾与Korenberg合作过。例如,Korenberg说,这些数据可以帮助科学家将在特定神经紊乱(如精神分裂症和自闭症)中看上去很重要的基因联系起来,从而了解确切的大脑线路异常。
文化转变
随着科学家将可能的范围向前推动,他们在建立一个计算通道以应对日益加大的工作量,此外还在建立新的工具共享和可视化最终生成的数据。但缓解神经科学家的数据问题,需要的不只是工具研发,还需要文化转变。很难让人们“放开他们的数据”,加州斯坦福大学心理学家Russell Poldrack说,他用神经成像研究学习和记忆。它可能会成为“一代人的事情”,他说,千禧一代人“比我们这一代人更喜欢共享编码和数据”。Poldrack担心,一流科学家可能会因为科学“与他们认为其应该具有的价值不匹配”而沮丧,并离开这个领域。
但态度在逐渐转变,首先是那些针对软件的,其次是数据。传统上,神经成像实验室会花费大量时间下载和装载同样的β测试软件。“为各种软件失灵和计算瓶颈开路,编写大量累赘的编码以及进行他们自己的数据管理解决方案,以处理同样的问题”。加州大学戴维斯分校神经科学博士生David Grayson说。更糟糕的是,很多非研究性任务被委托给学生、博士后和年轻科学家。
传统的学术模式对此没有帮助。研究人员通常会设置假设,并在其团队内独立地考虑自己的想法。在这样的环境中,研究并未把人带到一起,而是将他们分散开来,华盛顿西雅图艾伦脑科学研究所的Hongkui Zeng说。“你需要让自己不同。需要在该领域建立自己的身份,你需要做一些与他人不同的事情。”
在谈到大脑研究时,“完成”是个移动性的目标。对于神经科学工具包来说也是如此。在神经科学学会年会的讲话中,Chiang感叹绘制一只果蝇大脑的一半图谱居然花费了10年。他们与中国台湾的物理学家合作,正开始利用一种叫作同步加速器X射线断层扫描的技术大幅提高数据认知。“它仅需要不到10分钟就绘制一只果蝇的大脑图像,其中包含数千个高尔基染色单个神经元。”Chiang说,他的团队正在小鼠和猪身上尝试该方法。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15