数据科学专业问答社区，好文章，一字千金--CDA答疑社区

pandas操作excel中各列内容：合并、拆列、去重、日期格式转换等

import pandas as pddf=pd.read_excel(r'D:\CDA\CDA_PGC\datas.xlsx',sheetname='Sheet1')df['日期']=df['日期'].dt.date #去掉‘时分秒’（从excel导入的日期数据默认00:00:00）df['合并列']=df['编号'].map(str)+','+df['日期'].map(str) #将panda

gracejpw1117

2020-09-08

77.5233 3 0

python筛选excel中各列内容均相同的数据中的日期格式处理

In [19]:import pandas as pddf=pd.read_excel(r'D:\CDA\CDA_PGC\datas.xlsx',sheetname='Sheet1')dfOut[19]:编号日期01232020-09-0911232020-09-0823452020-09-0933452020-09-0843452020-09-0951232020-09-09In [20]:df

gracejpw1117

2020-09-08

30.9477 1 0

Flume采集数据会丢失吗?（防止数据丢失的机制）

如果是FileChannel不会，Channel存储可以存储在File中，数据传输自身有事务。如果是MemoryChannel有可能丢。

gracejpw1117

2020-07-22

24.9743 3 1

Flume监控器

1）采用Ganglia监控器，监控到flume尝试提交的次数远远大于最终成功的次数，说明flume运行比较差。2）解决办法：（1）自身：增加内存，修改配置文件 flume-env.sh中的参数至4-6g-Xmx与-Xms最好设置一致，减少内存抖动带来的性能影响，如果设置不一致容易导致频繁full GC。（2）外援：增加服务器台数搞活动 618 ->增加服务器->用完之后再减掉日志服务器配置：8-1

gracejpw1117

2020-07-22

70.3649 2 1

Flume Channel选择器

Channel Selectors，可以让不同的项目日志通过不同的Channel到不同的Sink中去。官方文档上Channel Selectors 有两种类型:Replicating Channel Selector (default)和Multiplexing Channel Selector。这两种Selector的区别是:Replicating 会将source过来的events发往所有ch

gracejpw1117

2020-07-22

70.3029 1 2

关于Flume拦截器

1）拦截器注意事项项目中自定义了：ETL拦截器。采用拦截器的优缺点：优点，模块化开发和可移植性；缺点，性能会低一些2）自定义拦截器步骤（1）实现 Interceptor（2）重写四个方法Ø initialize 初始化Ø public Event intercept(Event event) 处理单个EventØ public List intercept(List

gracejpw1117

2020-07-22

25.3511 2 2

Flume的几种常见Sink

1.Logger Sink 记录INFO级别的日志，一般用于调试。必须配置的属性：属性说明： !channel – !type – The component type name, needs to be logger maxBytesToLog 16 Maximum number of byt

gracejpw1117

2020-07-22

24.8504 1 4

AI人工智能之自动驾驶中的大数据

实现雄心勃勃的自动驾驶目标的关键所在，是利用分析学和人工智能（AI）的力量，建立自动驾驶系统在实际道路上的反应模式，并利用现实模拟技术来加速开发进程。这意味着数据工程、管理、存储和分析变得比以往任何时候更加重要，要做好以下几点：1、做好准备迎接海量数据的“洗礼”。自动驾驶汽车在进行测试时会产生大量数据，每辆汽车每秒就会产生6～ 8GB的数据。仅仅在2017年，该领域就创造了大约250EB的大数据（

gracejpw1117

2020-07-17

28.4489 3 2

AI人工智能之自动驾驶汽车的传感器

自动驾驶使用的感知类的传感器，主要有激光雷达、毫米波雷达、摄像头、组合导航。1、激光雷达激光雷达安装在车顶，目前是360度同轴旋转，可提供周围一圈的点云信息。激光雷达不仅用于车辆感知，也用于定位和高精度地图的测绘。2、摄像头摄像头光线通过镜头、滤光片到后段的CMOS或CCD集成电路，将光信号转换成电信号，再经过图像处理器（ISP）转换成标准的RAW，RGB或YUV等格式的数字图像信号，再通过数据传

gracejpw1117

2020-07-17

28.3492 2 2

AI人工智能之自动驾驶汽车的硬件系统

自动驾驶的硬件系统，可以粗略地分为感知、决策、控制三部分（还有定位、地图、预测等模块）。自动驾驶不能仅仅考虑系统，还要考虑到人的因素。1、车辆运动方面从车辆运动方面会考虑到车的速度、转角以及横滚，俯仰、航向等信息。2、环境感知还有一部分是环境感知，比如激光雷达、超声波、摄像头、毫米波雷达、V2X。V2X能提供超视距功能——当车上了路，很难发现超传感器范围的信息，通过V2X设备会发送和接受相关信息，

gracejpw1117

2020-07-17

28.3062 1 0

AI人工智能之自动驾驶汽车的事故分析

2018年3月，北美有一个自动驾驶车肇事撞人致死的一个事故，6月22日，美国公路交通安全委员会发布了这个事故报告。1、系统没有闭环报告中显示，在碰撞发生前6秒传感器已经探测到了，碰撞发生前1.5秒，原车的AEB（自动紧急制动(Automatic Emergency Braking)）功能已经启动，但其执行机构并没有自动采取相应制动措施，导致整个系统没有闭环。2、交互设计上的缺陷另外，该事故在交互设

gracejpw1117

2020-07-17

28.3062 1 2

AI人工智能之自动驾驶汽车的研发流程

1、基于仿真模拟器的软件在环首先当研发一辆自动驾驶车辆时，有一个基于仿真模拟器的软件在环，我们可以将这看成一个赛车的游戏。在仿真环节中仿真出道路的路面，以及交通的参照物和各种车辆、各种行人，还有一些天气信息，比如雨雾或者路面照明信息。2、基于必要的硬件在环平台代码跑通了以后，再基于必要的硬件在环平台，在传感器、计算单元等硬件系统上检测有没有运行当中的BUG和兼容性问题。3、车辆在环之后基于车辆在环

gracejpw1117

2020-07-17

0.0000 0 2

Spark使用parquet文件存储格式的好处

1) 如果说HDFS 是大数据时代分布式文件系统首选标准，那么parquet则是整个大数据时代文件存储格式实时首选标准；2) 速度更快：从使用spark sql操作普通文件CSV和parquet文件速度对比上看，绝大多数情况会比使用csv等普通文件速度提升10倍左右，在一些普通文件系统无法在spark上成功运行的情况下，使用parquet很多时候可以成功运行；3) parquet的压缩技术非常稳定

gracejpw1117

2020-07-13

34.8716 3 3

深度学习简介

深度学习（deep learning，以下简称DL），可以说是基于人工神经网络的机器学习。区别于传统的机器学习，DL需要更多样本，换来更少的人工标注和更高的准确率。DL利用深度来取代广度，进一步降低参数，提高拟合能力，很多情况下都比传统机器学习表现好。但DL和传统机器学习一样，DL学习的是一个映射f(x)=y，比如x是输入的手写数字图片，那么y就是0~9中的一个。传统的BP（(back propa

gracejpw1117

2020-07-13

34.9520 5 1

CNN、RNN和DNN的区别和应用场景

CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的内部网络结构有什么区别？以及他们的主要用途是什么？CNN 专门解决图像问题的，可用把它看作特征提取层，放在输入层上，最后用MLP (多层感知器)做分类。传统神经网络如下图所示CNN网络结构如图所示，CNN网络工作时，会伴随着卷积并且不断转换着这些卷积。RNN 专门解决时间序列问题的，用来提取时间序列信息，放在特征提取层（如CN

gracejpw1117

2020-07-13

34.8590 2 3

长短时记忆网络(Long Short Term Memory Network, LSTM)

长短时记忆网络(Long Short Term Memory Network, LSTM)，是一种改进之后的循环神经网络，可以解决RNN无法处理长距离的依赖的问题，目前比较流行。长短时记忆网络的思路：原始 RNN 的隐藏层只有一个状态，即h，它对于短期的输入非常敏感。再增加一个状态，即c，让它来保存长期的状态，称为单元状态(cell state)。把上图按照时间维度展开：在 t 时刻，LSTM

gracejpw1117

2020-07-12

34.8051 1 0

数据治理的价值体系

数据治理的价值体系具体包括三个方面数据服务(主数据治理)：通过数据的采集、清洗、导入，提升数据质量，确保数据的一致性。这部分体现着主数据治理的关键价值。数据流通（业务数据治理）：通过实现信息整合和分发机制，支持跨业务、跨部门、跨系统的信息流转和协同。这部分体现着业务数据治理的关键价值。数据洞察(分析数据治理)：通过消除数据内在的质量缺陷，明确数据之间的关联关系，帮助数据分析人员更好地理解数据，实现

gracejpw1117

2020-07-12

34.8899 5 4

Tensorflow介绍（六）

压缩的必要性很显然，在计算图中，张量在节点之间流动。在流到达可以处理的节点之前，减少流造成的延迟非常重要。一个方法是使用有损压缩减小尺寸。张量的数据类型可以发挥重要作用，让我们来理解为什么。很明显机器学习中的操作中有更高的精度。例如，如果我们使用float32作为张量的数据类型，那么每个值都表示为32位浮点数，因此每个值占用32位的大小，这同样适用于64位。假设一个形状为（1000,440,440

gracejpw1117

2020-07-11

24.7062 5 0

Tensorflow介绍（五）

在worker之间交换数据现在我们知道Tensorflow将其所有操作分配到由worker管理的不同设备上。更常见的是，worker之间交换张量形式的数据，例如在e =（c）*（d）的图表中，一旦计算出c，就需要将其进一步传递给e，因此Tensor在节点间前向流动。该流动如图所示：此处张量从设备A传递到设备B。这在分布式系统中引起了一些性能延迟。延迟取决于一个重要属性：张量大小。设备B处于空闲模

gracejpw1117

2020-07-11

24.6765 4 2

Tensorflow介绍（四）

计算子图子图是主图的一部分，其本身就是计算图。例如，在上面的图中，我们可以获得许多子图，其中之一如下所示上面的图是主图的一部分，从属性2我们可以说子图总是表示一个子表达式，因为c是e的子表达式。子图也满足最后一个属性。同一级别的子图也相互独立，可以并行执行。因此可以在一台设备上调度整个子图。上图解释了子图的并行执行。这里有2个矩阵乘法运算，因为它们都处于同一级别，彼此独立，这符合最后一个属性。由

gracejpw1117

2020-07-11

0.3821 3 2