大数据-数据科学专业问答社区-CDA答疑社区

热线电话：13121318867

登录

ly168168

数据驱动决策：从分析到价值创造

引言在数字化时代，数据已经成为企业最重要的战略资源之一。无论是零售、电商、金融，还是医疗、教育，数据分析正在改变企业的运营模式与决策逻辑。然而，数据从“收集”到“价值创造”并不是一条直线，它需要科学的方法、合理的工具和清晰的商业场景。本文将结合数据分析的发展脉络、关键环节、典型应用与未来趋势，探讨数据如何真正驱动价值。一、数据分析的核心逻辑数据收集数据来源广泛，既包括交易记录、日志数据，也包括社交

0.0000

2

1

0

关注作者

收藏

天下无欺诈

打破思维惯性！sumifs函数在填写测试文本值时的特殊情况。

根据左边的信息，在右边按城市统计出各项目的消费数据。可以用sumifs函数来按城市统计出各项目的消费数据。Excel中的sumifs函数在测试文本值时必须使用""把文本条件值引起来，这是语法规则。那我们先按这个惯用思维来操作：在J7单元格输入：=SUMIFS($C$2:$C$24950,$F$2:$F$24950,"$I8",$D$2:$D$24950,"J$7")然后按回车键，然后通过自动填充，

0.0000

0

0

0

关注作者

收藏

小小杰杰

在MY SQL中怎么新建一个年份字段并且给年份字段赋值？

在MY SQL中怎么新建一个年份字段并且给年份字段赋值？

0.0000

0

0

0

关注作者

收藏

CDA助教老师

关于免费解压软件推荐WinRAR

有CDA会员朋友说自己解压压缩包时发现要收费,那说明你的解压软件是收费,可能过了免费试用期啦我这边用的免费解压软件是WinRAR, 可以百度搜"WinRAR下载官网", 进入后下载免费版安装试用网址: https://www.winrar.com.cn/index.htm有小伙伴问为啥浏览器显示这个网站不安全? 嘻嘻你自行判断吧反正我觉得是安全的

0.0000

0

0

0

关注作者

收藏

luoshaoj

时间序列回归模型！

时间序列回归模型是用于分析时间序列数据的一种模型，主要用于探索数据之间的动态关系和时序特征。以下是时间序列回归模型的主要步骤和要点：1. **数据收集和准备**：首先需要收集时间序列数据，并进行数据清洗和准备工作，包括处理缺失值、异常值和平稳性检验等。2. **建立模型**：确定时间序列回归模型的形式，根据数据特点选择适当的模型，如自回归模型（AR）、滑动平均模型（MA）、自回归滑动平均模型（AR

0.0000

2

1

0

关注作者

收藏

液冷服务器

一文详解多模态大模型发展及高频因子计算加速GPU算力 | 英伟达显卡被限，华为如何力挽狂澜？

★深度学习、机器学习、多模态大模型、深度神经网络、高频因子计算、GPT-4、预训练语言模型、Transformer、ChatGPT、GenAI、L40S、A100、H100、A800、H800、华为、GPU、CPU、英伟达、NVIDIA、卷积神经网络、Stable Diffusion、Midjourney、Faster R-CNN、CNN随着人工智能技术的快速发展，多模态大模型在各个领域中的应用越

0.0000

1

0

0

关注作者

收藏

液冷服务器

高性能计算与多模态处理的探索之旅：英伟达GH200性能优化与GPT-4V的算力加速未来

★多模态大模型；GPU算力；LLMS；LLM；LMM；GPT-4V；GH200；图像识别；目标定位；图像描述；视觉问答；视觉对话；英伟达；Nvidia；H100;L40s；A100;H100；A800；H800，AI算力，AI算法随着人工智能技术的不断发展，多模态大模型成为越来越重要的发展趋势。多模态大模型通过融合视觉等多种感知能力来扩展语言模型，实现更强大的通用人工智能。GPT-4V（GPT-4

0.0000

0

0

0

关注作者

收藏

液冷服务器

深度学习模型部署与优化：策略与实践；L40S与A100、H100的对比分析

★深度学习、机器学习、生成式AI、深度神经网络、抽象学习、Seq2Seq、VAE、GAN、GPT、BERT、预训练语言模型、Transformer、ChatGPT、GenAI、多模态大模型、视觉大模型、TensorFlow、PyTorch、Batchnorm、Scale、Crop算子、L40S、A100、H100、A800、H800随着生成式AI应用的迅猛发展，我们正处在前所未有的大爆发时代。在这

0.0000

0

0

0

关注作者

收藏

CDA131646

hql创建表格和录入数据的时候，怎么去掉原始数据的双引号？

老铁们，提问请教下：1、hql语言里面定义时间戳数据类型的关键字是啥？mysql 里面是datetime,这里是啥？2、原始数据的某些字符串字段有含双引号（如下面所示的cksj和cx），那么hql里面定义表格或者录入数据的时候需要用什么关键字去掉双引号？mysql里面是录入的时候加enclosed by '"'

0.0000

0

1

0

关注作者

收藏

液冷服务器

如何在SAM时代下打造高效的高性能计算大模型训练平台

关键词：SAM；PCB；SA-1B；Prompt；CV；NLP；PLM；BERT；ZSL；task；zero-shot；data；H100、H800、A100、A800、LLaMA、Transformer、OpenAI、GQA、RMSNorm、SFT、RTX 4090、A6000、AIGC、CHATGLM、LLVM、LLMs、GLM、NLP、AGI、HPC、GPU、CPU、CPU+GPU、英伟达、

0.0000

0

0

0

关注作者

收藏

液冷服务器

突破边界：高性能计算引领LLM驶向通用人工智能AGI的创新纪元

AGI | AIGC | 大模型训练 | GH200LLM | LLMs | 大语言模型 | MI300ChatGPT的成功带动整个AIGC产业的发展，尤其是LLM（大型语言模型，大语言模型）、NLP、高性能计算和深度学习等领域。LLM的发展将为全球和中国AI芯片、AI服务器市场的增长提供强劲动力，据估算，LLM将为全球和中国AI服务器带来约891.2亿美元和338.2亿美元的市场空间。国外厂商在

480.0000

2

0

0

关注作者

收藏

CDA助教老师

CDA数据分析学习之统计学描述性统计分析

描述性统计分析分为3个方面：1,集中趋势 2，离散程度 3，分布形态1，集中趋势用数据的集中值来度量数据的集中趋势1.1 均值1.2 中位数1.3 众数1.4 分位数例如四分位数2,离散程度集中趋势是由一个集中值作为数据的代表，这个集中值在数据本身中是有可能出现的。而离散趋势是度量数据偏离其集中值的程度，是一种偏离程度，这个偏离程度在数据本身中是不会出现的。2.1 异众比率

0.0000

0

0

0

关注作者

收藏

液冷服务器

AIGC和ChatGPT推进百度、阿里、腾讯、华为大模型技术创新

AIGC | PC集群 | PC Farm | GPU服务器生成式AI | Stable Diffusion | ChatGPT2022 年 12 月，OpenAI 推出了 ChatGPT，这是一种高性能计算的大型语言生成模型。它的出现推动了人机对话技术的发展，并在网络上引起了极大的关注。目前，全球各大科技企业都在积极拥抱 AIGC，不断推出相关的技术、平台和应用。随着人工智能技术的不断发展，AI

540.0000

2

0

0

关注作者

收藏

液冷服务器

高性能计算HPC照亮AIGC未来：PC集群+Stable Diffusion 打造极致游戏体验

角色设计 | PC集群 | 增强现实游戏设计 | PC农场 | PC Farm随着科技的不断进步，虚拟现实、增强现实等技术已经逐渐成为了游戏设计中不可或缺的一部分。而在这些技术的背后，角色设计、PC集群、GAMEAI等方面的不断发展也为游戏的体验提供了更加丰富的可能性。而在这其中，Stable Diffusion技术的应用更是为游戏的流畅性和稳定性提供了强有力的保障。PC集群和Stable Dif

21.8182

2

0

0

关注作者

收藏

液冷服务器

如何构建可持续的ChatGPT高性能服务器端架构?

边缘计算 | 液冷服务器 | GPT-4深度学习 | AI服务器 | ChatGPT在上周举行的发布会上，OpenAI宣布推出了GPT-4模型。与之前的版本相比，GPT-4最大的改进是其多模态（multimodal）能力——它不仅能够阅读文字，还能识别图像。值得注意的是，虽然之前有消息称GPT-4拥有100万亿个参数，但OpenAI并没有证实这个数字。与其相比，OpenAI更强调GPT-4的多模态

21.8182

2

0

0

关注作者

收藏

CDA助教老师

如何解决数据倾斜问题？

解决数据倾斜问题的方案方案一：过滤掉倾斜数据当少量key重复次数特别多，如果这种key不是业务需要的key，可以直接过滤掉。方案二：引入随机数数据按照类型group by时，会将相同的key所需的数据拉取到一个节点进行聚合，而当某组数据量过大时，会出现其他组已经计算完成而当前任务未完成的情况。可以考虑加入随机数，将原来的一组key 强制拆分为多组进行聚合。

501.8182

4

0

0

关注作者

收藏

CDA助教老师

数据倾斜是什么？

数据倾斜是开发画像过程中常遇到的问题，当任务执行一直卡在 map 100%、reduce 99%，最后的1%花了几个小时都没执行完时，这时一般是遇到了数据倾斜。问题出现的原因是当进行分布式计算时，由于某些节点需要计算的数据较多，导致其他节点的reduce阶段任务执行完成时，该节点的任务还没有执行完成，造成其他节点等待该节点执行完成的情况。比如两张大表在join的时候大部分key对应10条

21.8182

2

0

0

关注作者

收藏

CDA助教老师

用户特征库开发

用户特征库开发为进一步从多个维度丰富用户特征，挖掘用户的相关行为，除了开发用户标签体系外，一般还会开发用户的特征库。一方面为个性化推荐、精准营销、商业分析等应用提供中间层数据，另一方面也可以削减不同算法在特征构建时的冗余加工。简单来说，用户特征库就是对用户每一次的不同行为（如浏览、收藏、搜索、购买等）及该行为对应的标签（或商品品类）进行详细的记录，以便从用户的行为特征中挖掘用户的偏好。与

21.8182

2

0

0

关注作者

收藏

CDA助教老师

Elasticsearch简介

Elasticsearch简介 Elasticsearch是一个开源的分布式全文检索引擎，可以近乎实时地存储、检索数据。而且可扩展性很好，可以扩展到上百台服务器，处理PB级别的数据。对于用户标签查询、用户人群计算、用户群多维透视分析这类对响应时间要求较高的场景，也可以考虑选用 Elasticsearch进行存储。Elasticsearch是面向

21.8182

2

0

0

关注作者

收藏

CDA助教老师

用户画像建设项目开发流程

用户画像建设项目开发流程第一阶段：目标解读在建立用户画像前，首先需要明确用户画像服务于企业的对象，再根据业务方需求，明确未来产品建设目标和用户画像分析之后的预期效果。一般而言，用户画像的服务对象包括运营人员和数据分析人员。不同业务方对用户画像的需求有不同的侧重点，就运营人员来说，他们需要分析用户的特征、定位用户行为偏好，做商品或内容的个性化推送以提高点击转化率，所以画像的侧重点就落在

21.8182

2

0

0

关注作者

收藏

123…75>

CDA考试动态

CDA报考指南