京公网安备 11010802034615号
经营许可证编号:京B2-20210330
在现实世界中使用数据科学的专家提示
许多企业正在采用和部署大数据应用程序以获得竞争优势,但其中许多企业正在“在工作中学习”,尽其所能地反复试验,但所获得的结果不一。为了提供行业指导,行业媒体记者James
Maguire与两位数据科学领域的专家进行了探讨与交流,讨论如何将这种快速发展的技术用于当今的业务。
这两位专家是:博思艾伦咨询公司的高级助理Seth Clark,糖尿病远程医疗提供商Virta Health公司研究主管James McCarter博士。
以下是媒体记者James Maguire与两位专家进行的广泛而深入的讨论的精彩内容:
James Maguire:请问你在开发数据科学时遇到的挑战或障碍是什么?
Seth
Clark:“我认为开发数据科学,这种差距最大的挑战之一就是信任。人类需要相互信任,而在两个人之间建立信任需要一个明确的过程。通常,这只是需要更长的时间和丰富的经验。很多人都说他们要做某事,然后去做。但弄清人们如何信任数据算法很难,但需要相信数据分析会告诉人们做出的决定。对于人类来说,这是一个非常模糊的尝试和信任。
所以,我们希望着重于文化转型,可以为技术专家、数据科学家、开发人员等提供帮助。人们需要充分理解数据科学是如何工作的,以便当有结果输出时,他们可以真实地查看数据背后的数据,并且会在想我知道这是从哪里来的,我认为这是值得信赖的。我们根据这些见解做出一些决定,看看会发生什么。人们必须对此具备信心,相信它会好起来的。”
James Maguire:当遇到数据科学并使用它时,你遇到了什么样的障碍或挑战?
James McCarter:“就像Seth Clark所言,我的回答也倾向于文化,也就是企业所建立的文化。在过去的三年中,我们已经创建了Virta公司,它是来自医学和研究领域的临床实践的融合者,并且将这些与来自快速移动软件和IT文化结合在一起。
我认为它的一部分是试图了解人们正在构建的算法的目的是什么,或者生成的数据的目的是什么。这是质量与速度的问题。那么,企业是否在尝试做出当今需要的内部决策,这将影响未来几周的工作?或者是否正在编写一份将要提交给同行评审出版物的数据集,其影响将会持续数十年。试图在质量与速度之间找到这种平衡是我们在过去几年中变得更好的事情。”
James Maguire:我认为Facebook公司创始人马克·扎克伯格的着名言论:“迅速行动并颠覆事物”,这个理论可能适用于社交媒体网络,但我认为它不适用在医疗环境中。
James McCarter:我认同你的观点,我认为不要在医疗行业中快速采取行动并进行颠覆。对我们来说最重要的是耐心的结果、安全性和可持续性。所以,任何危害这些的东西都是我们不能发展的方向。”
James Maguire:数据科学从业者可以“信任”某一种算法吗?
James
McCarter:“似乎人们面临其中的一个挑战是算法可能会改变。我的意思是,如果它内置了人工智能,或者它会随着时间的推移而发展。一个从业人员如何真正相信其算法,并且知道这是正确的?换句话说,我们使用的这个工具是一个灵活的、不断变化的工具。这是一款不断发展的软件。我们怎样才能相信它呢?”
Seth Clark:“人们正在谈论人工智能和深度学习领域试图达成的主题之一。有很多方面需要信任。所以,人们正在考虑一种算法,例如给出一个非此即彼答案的东西,以及更像是一个虚拟助手的东西。有些东西会给人们提供一些建议,而且这些建议也有一定的信心。
就像我给你提供一些建议一样。如果在一些方面我了解很多,也许你相信我。如果这件事情我不了解,那么我的建议可能并没有什么作用。我可能拥有其他知识,例如音乐和航海,我提供给你一些建议,但它可能并不具有什么价值,而一些相应的知识会帮助我给出一个很好的答案,但我没有这些知识。
因此,同样的道理,确保不要期望某种人工智能算法将会处理所有事情,人们需要理解它的局限性。很多这些限制归结于人们用于创建这些预测算法的数据。所以,人们经常会问,‘正在使用的数据有多好?这在实际上是不是有用的数据?我能相信一直在训练这个算法的数据吗?’而如果不能信任这些数据,就必须对其降低一些期望。
所以,我认为它正在改变人们的思维方式,然后再看看构成预测的所有构成要素,以帮助人们理解是否应该相信这一点。我现在对McCarter也想问同样的问题。而他作为一名临床医生的角度如何来看待,我会感到好奇。医生如何说服其患者相信预测性的见解?我认为它与其他的操作是非常不同的,而不是说服某人采取某种疗程。”
James Maguire:我感觉这是一个非常重要的问题。例如,你对此有何看法?你相信这个算法吗?或者,患者如何信任这个算法?
James
McCarter:“我们的每个患者都有自己的健康助理和医生。正如我所提到的,我们是一个以医生为主导的组织。所以,Virta医生都是Virta公司的员工,我们的健康助理也是如此,他们大多是营养师、护士,以及其他健康从业人员,以及临床医生。所以,这才是真正的人际关系。
但是,如果患者考虑如何实际逆转Ⅱ型糖尿病,我们不会通过建立取代医生的人工智能来做到这一点。我们所做的是两项创新:一个是营养领域。这是一种称为营养性酮症的方法,如果可以使其在现实世界中发挥作用,它对于逆转Ⅱ型糖尿病非常有效。第二,为了在现实世界中做到这一点,我们开发了一种名为为持续远程护理的服务。这背后的想法是,这就像在任何时候都有健康助理和医生陪护在患者身边一样。它们可以通过一个应用程序来实现。可以每天多次与患者接触,而不是每年几次。因此,我们认为数据科学是提供持续远程医疗的基础。所以,这不是为了取代医生,而是为医生提供了更多的权力。”
James Maguire:你从数据科学中学到了什么?
Seth Clark:“我认为这是‘以人为本’。
我认为应对技术挑战比处理人为问题更容易。组织需要关注其正在建设的团队,支持团队的方式,以及为多元化团队提供便利的方式,这非常重要。现在人工智能领域存在一个主要的话题,那就是人工智能所带来的偏见。例如有一群20多岁的白种技术人员在开发一种特殊的算法。他们的生活经历会以某种方式呈现在他们编写的代码中吗?
他们训练数据的方式或他们选择数据来训练这些算法的方式是这样的?答案是肯定的。这几乎就像采用技术提高能力一样。像Nvidia这样的公司正在发布新的硬件,这些硬件可以为各种用户提供深入的学习和真正的高端人工智能,但我们必须把重点放在人性上而不是技术上。不是说技术方面的问题很简单,而是人类的问题在处理上更难。
因此,着眼于建立一个能够思考人工智能和数据科学将提供给人类的终极价值观的多元化团队,我认为这是至关重要的。”
James
McCarter:“我曾经提到过一些扩展方面的事情,那就是我们试图做一些类似于众包的功能。建立一个病人社区。这是我们实施策略一部分,除了生物标志物反馈和在线教育资料以及健康教练和医生之外,实施策略的第五个组成部分是一个在线社区,患者可以互相提供信息。”
James Maguire:“它实际上是一个点对点网络。”
James
McCarter:“这是一个对等网络。这是可选的。如果人们觉得不能分享或没有必要分享,那么可以不分享。但如果他们愿意的话,它就像点一份菜单一样简单。而这些更多的时候是情感上的支持,分享胜利和挫折,并向他人寻求建议和支持。我们现在正在研究的另一个方面是,我们实际上开展了逆转Ⅱ型糖尿病的最大和最长的试验。但是,到现在为止才两年的时间,只有五百人接受试验。
而我们现在正在治疗成千上万的患者,我们为此创建了Virta
Health注册中心,这是一个机构审查委员会,医院伦理委员会(IRB)批准了我们的患者同意的协议。我们发现超过80%的患者选择加入。这使得他们的匿名和汇总数据可用于临床研究。所以,这使得我们可以看到成千上万的结果,而不仅仅是数百个结果。我们在数据科学领域首先构建的一些东西是预测性算法,它们使我们能够了解患者在接下来的几周和几个月中的表现,然后优先考虑为他们安排健康助理。
所以,就像面向病人的应用程序一样,还需要一个面向健康助理和医生的应用程序。因此,我们实际上提供了一个优先级排列,可以让医生为最需要诊疗护理的这些患者进行治疗。这种排列的方式是通过观察人们的未来几周的血糖控制情况进行预测,他们的体重在未来几周预测的趋势如何,他们如何保留和参与的治疗可能会在接下来的几周内完成。因此,这些都是基于数据科学算法构建的,这些算法基于患者的基本健康特征,以及我们从他们那里得到的日常反馈。我们将继续改进这些算法。”
James Maguire:数据分析和数据科学也在不断发展。如果我们将在2020年或2022年开展同样的对话,那么当我们谈论数据科学时,你会谈些什么?
Seth
Clark:“这是我的愿望清单。我希望看到的是更广泛地接受人工智能。人工智能的某些方面存在着一种缺陷,这只是因为它有一种非常可怕的科幻小说氛围,它会让人们失望。事实上,很多人工智能基本上只是用来提供服务的。每个人都希望有自己的私人助理。所以想象一下,如果人们有自己的个性化Siri,可以帮助在日常生活和工作的各个方面提供帮助的话。人们就会喜欢和接受人工智能。
我认为还有另一个领域适用,我希望在数据科学领域看到更好的代表。我真的期待着会有一个适合的时间和空间,可以根据种族、性别、宗教信仰等类别获取人们的微观缩影,你会发现在数据科学和预测分析方面会更加平等。我认为拥有更好的表现是非常重要的,我们不会陷入这种无意识偏见的境地。所以,我很乐意看到这一点。
我很愿意看到美国各行业领域采用更多的人工智能来进行管理。我认为我们所做的事情可以做得更好。这将改善公民服务,为人们带来更好的生活。所以,未来我们再聚在一起探讨时,我希望在愿望清单中看到三件事。”
James Maguire:“当然,我喜欢乐观主义。当我们在未来几年谈论数据科学时,我们将谈论什么。这很难预测,但是,为什么不试一试呢。”
James
McCarter:“我认为数据科学与软件工程、用户体验设计、移动和远程能力以及这些元素一起将会颠覆医学。所以,如果想想现在是如何交付药品的,我会说这非常失败,对吧?我们在医院有很多资金投入,人们通常到医院就诊,但是他们每年只能去少数几次,或者如果他们正在治疗慢性疾病时,那么他们每年就医时,看到医生只有2-3次,每次持续时间为15分钟。
因此,我们以非常传统的方式提供医疗服务。但是,如果人们查看其花费在哪里,那么会发现大部分药品的费用花费在慢性疾病上,大多是慢性代谢疾病。解决这些问题的办法不是建立更多的医院,也不是通过医院提供更多的药品、医疗影像、手术来改变。处理这个问题的方式是通过人们的日常行为来改变。帮助支持这种行为改变的方法是持续远程护理的模型。因此,我认为未来十年里,人们将看到的大部分花费在药品上的费用由到医院治病转向远程护理。
大部分慢性代谢疾病都可以远程处理。他们不需要亲自去医院就诊。如果我们想要控制成本曲线,就必须使用技术来推动这种行为变化,而不是推出更多更新的技术来提供更多的药品和手术。”
James Maguire:所以,你谈论的确是一种分散的医学模式。
James. McCarter:“我认为是这样的。医疗行业的技术发展已经十分成熟。当人们看到实际上可以提供持续的远程护理时,那么数据科学必须成为核心。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10在数据驱动业务的当下,CDA(Certified Data Analyst)数据分析师的核心价值,不仅在于解读数据,更在于搭建一套科学、可落地的 ...
2026-03-10在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05数据治理是数字化时代企业实现数据价值最大化的核心前提,而CDA(Certified Data Analyst)数据分析师作为数据全生命周期的核心 ...
2026-03-05在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04