对付大数据的小伎俩-CDA数据分析师官网

热线电话：13121318867

对付大数据的小伎俩

2018-01-31

对付大数据的小伎俩

大数据是当前的热门话题。各行各业，到处都有人谈论大数据。就人的基因来说，大数据这部“天书”总共30亿个字。在检验过程中，为了不看走眼大数据，保证结论准确可靠，惯例是每一个字检验30次以上。因为30亿的数据量实在太大，需要通过相当程度的重复来排除错误。为了把一个人的基因通读一遍，得念1000亿个字，真真的就是大数据。

    先不说如何分析、解读这部书，如何理解全书或者它的某些章节、段落的含意。挖掘大数据所蕴含的宝藏是一个难题。生物信息学是当今的热门专业，非常抢手。我们只看第一步，生物学家要动用什麽样的心思和手段，才能把这套数据拿到手。
    基因技术上的改进共有3次，但是远远没有到达终点。
    最初的技术，一次只能读100个字。100对1000亿，那是愚公移山。於是人们着手改进技术，增加长度。成就也不能说没有，终於可以从100个读到1000个了，手工操作也改成机器自动化了。十年过去，提高了十倍。然而，1000是该技术的极限，再也难以延长。
    这时，有人想到了把基因分成小组。大数据不好对付，分班分组可以减轻负担。首先把基因切断成大片段，再想办法将这些大片段复制几万份，满足后续操作需要；然后分头检测各个片段。拿到数据后，先把大片段组装出来，作为骨架；再用骨架搭出整个基因组。
    这里头的每一步都是可以做到的，人们努力的方向自然而然就从增加读长改成了增加基因片段的长度。增加长度很容易，但是长片段的复制是一个问题，操作繁琐，速度简直就是乌龟爬。
    面对这种窘境，文特尔想起了猎鸟。身处旷野，鸟儿的个头实在是太小了。它们飞在空中，即使看见了，打下来也不容易。霰弹枪是对付飞鸟的有效武器。一打一片，碰到鸟儿的机会比较多。基因散布在数据的汪洋大海中，要抓住同样不容易。也许霰弹枪也是对付基因的一个办法？文特尔的想法是跳过困难的长片段复制，把基因打成更短的片段，直接测序。短片段的复制比较容易，好比霰弹；短片段拼基因组，好比拼图游戏。
    突然有人提出这样的胡思乱想，冀求朝天胡乱放一枪就碰到个把基因，完全不被看好。鸟枪法遭致一片反对。由於申请不到经费，文特尔干脆自己动手，成立了一家公司，与官方研究机构展开竞赛。他们很快就测定了果蝇和人类的基因，速度之快，可比兔子。号称可以与阿波罗登月计划相媲美的人类基因组计划，在鸟枪法加入竞争之后，迅速完成了。当美国总统宣布该计划完工的时候，当初申请不到经费的人也站在克林顿旁边。
    从此，所有人都倒向鸟枪法。
    每次只拿一条序列，速度还是成问题。人基因组计划历时10年，光文特尔的私人公司就花了10亿美金，只测出一个人的基因。还有谁能付得起这样的代价呢？於是，提高规模就成了紧迫的任务。如果一次检验能拿到几百万条序列，读基因不就像读小说了吗？这一看似不可能的梦想，人们还真的通过平行测序做到了。但是任何事情都有两面。为了实现超大规模，就不得不牺牲长度，由1000倒退回100。新技术刚起步的时候还要短，只有区区35个字，简直令人齿冷。尽管长度短，数据总量却不少，是原来的6百万倍。靠长度35的片段居然能拼出基因组，不能不令人惊叹。基因技术终於跨出了一大步，被尊为第二代。
    官二代、富二代，都不如基因技术第二代。这一跨越留给人们的印象实在太深了，流风余韵，以至今天，尽管二代技术的长度能轻松达到两三百，还是经常有人问：你们还做35吗？
    片段化看似笨拙、凌乱，没有效率，却是快刀斩乱麻地解决复杂问题、对付大数据的不二法门。我们做美味的狮子头，要把五花肉乱刀剁碎。被剁碎的基因组，味道也很鲜美。
    创新没有止境。新技术虽然大获成功，但是读长实在短了点，对不住人，数据组装相当吃力。那是用筷子拼出京广线的活儿，计算机都是一屋子、一屋子地摆着，蔚为壮观，也令人望洋兴叹。如何提高效率呢？人们又想起了基因分组的老黄历。把基因切成大片段后，分别做好标记，各自处理成二代测序所要求的长短，再混合起来一起测序。在数据组装的时候，先按记号分别组装，形成骨架，再用骨架进行第二轮组装。本来一步完成的任务，现在分成两步，计算机的负担大大降低。想出这个金点子的人也成立了一家公司，总共只有6名员工。小公司被大公司收购，花费1.6亿美元。
    看完近30年来基因技术的发展历程，你也许很不服气：这算什麽，也不过大虫拿人，只是一扑、一掀、一剪；对付基因组，只有延长、分组、拼图三招，程咬金的三板斧，来回折腾。是的，治大国若烹小鲜，对付大数据，要用小片段。