gracejpw1117

pandas操作excel中各列内容:合并、拆列、去重、日期格式转换等

import pandas as pddf=pd.read_excel(r'D:\CDA\CDA_PGC\datas.xlsx',sheetname='Sheet1')df['日期']=df['日期'].dt.date #去掉‘时分秒’(从excel导入的日期数据默认00:00:00)df['合并列']=df['编号'].map(str)+','+df['日期'].map(str) #将panda

gracejpw1117

2020-09-08

77.5233 3 0
  • 关注作者
  • 收藏

python筛选excel中各列内容均相同的数据中的日期格式处理

In [19]:import pandas as pddf=pd.read_excel(r'D:\CDA\CDA_PGC\datas.xlsx',sheetname='Sheet1')dfOut[19]:编号日期01232020-09-0911232020-09-0823452020-09-0933452020-09-0843452020-09-0951232020-09-09In [20]:df

gracejpw1117

2020-09-08

30.9477 1 0
  • 关注作者
  • 收藏

Flume采集数据会丢失吗?(防止数据丢失的机制)

如果是FileChannel不会,Channel存储可以存储在File中,数据传输自身有事务。如果是MemoryChannel有可能丢。

gracejpw1117

2020-07-22

24.9743 3 1
  • 关注作者
  • 收藏

Flume监控器

1)采用Ganglia监控器,监控到flume尝试提交的次数远远大于最终成功的次数,说明flume运行比较差。2)解决办法:(1)自身:增加内存,修改配置文件 flume-env.sh中的参数至4-6g-Xmx与-Xms最好设置一致,减少内存抖动带来的性能影响,如果设置不一致容易导致频繁full GC。(2)外援:增加服务器台数搞活动 618 ->增加服务器->用完之后再减掉日志服务器配置:8-1

gracejpw1117

2020-07-22

70.3649 2 1
  • 关注作者
  • 收藏

Flume Channel选择器

Channel Selectors,可以让不同的项目日志通过不同的Channel到不同的Sink中去。官方文档上Channel Selectors 有两种类型:Replicating Channel Selector (default)和Multiplexing Channel Selector。这两种Selector的区别是:Replicating 会将source过来的events发往所有ch

gracejpw1117

2020-07-22

70.3029 1 2
  • 关注作者
  • 收藏

关于Flume拦截器

1)拦截器注意事项 项目中自定义了:ETL拦截器。采用拦截器的优缺点:优点,模块化开发和可移植性;缺点,性能会低一些2)自定义拦截器步骤(1)实现 Interceptor(2)重写四个方法Ø initialize 初始化Ø public Event intercept(Event event) 处理单个EventØ public List intercept(List

gracejpw1117

2020-07-22

25.3511 2 2
  • 关注作者
  • 收藏

Flume的几种常见Sink

1.Logger Sink 记录INFO级别的日志,一般用于调试。必须配置的属性:属性说明: !channel – !type – The component type name, needs to be logger maxBytesToLog 16 Maximum number of byt

gracejpw1117

2020-07-22

24.8504 1 4
  • 关注作者
  • 收藏

AI人工智能之自动驾驶中的大数据

实现雄心勃勃的自动驾驶目标的关键所在,是利用分析学和人工智能(AI)的力量,建立自动驾驶系统在实际道路上的反应模式,并利用现实模拟技术来加速开发进程。这意味着数据工程、管理、存储和分析变得比以往任何时候更加重要,要做好以下几点:1、做好准备迎接海量数据的“洗礼”。自动驾驶汽车在进行测试时会产生大量数据,每辆汽车每秒就会产生6~ 8GB的数据。仅仅在2017年,该领域就创造了大约250EB的大数据(

gracejpw1117

2020-07-17

28.4489 3 2
  • 关注作者
  • 收藏

AI人工智能之自动驾驶汽车的传感器

自动驾驶使用的感知类的传感器,主要有激光雷达、毫米波雷达、摄像头、组合导航。1、激光雷达激光雷达安装在车顶,目前是360度同轴旋转,可提供周围一圈的点云信息。激光雷达不仅用于车辆感知,也用于定位和高精度地图的测绘。2、摄像头摄像头光线通过镜头、滤光片到后段的CMOS或CCD集成电路,将光信号转换成电信号,再经过图像处理器(ISP)转换成标准的RAW,RGB或YUV等格式的数字图像信号,再通过数据传

gracejpw1117

2020-07-17

28.3492 2 2
  • 关注作者
  • 收藏

AI人工智能之自动驾驶汽车的硬件系统

自动驾驶的硬件系统,可以粗略地分为感知、决策、控制三部分(还有定位、地图、预测等模块)。自动驾驶不能仅仅考虑系统,还要考虑到人的因素。1、车辆运动方面从车辆运动方面会考虑到车的速度、转角以及横滚,俯仰、航向等信息。2、环境感知还有一部分是环境感知,比如激光雷达、超声波、摄像头、毫米波雷达、V2X。V2X能提供超视距功能——当车上了路,很难发现超传感器范围的信息,通过V2X设备会发送和接受相关信息,

gracejpw1117

2020-07-17

28.3062 1 0
  • 关注作者
  • 收藏

AI人工智能之自动驾驶汽车的事故分析

2018年3月,北美有一个自动驾驶车肇事撞人致死的一个事故,6月22日,美国公路交通安全委员会发布了这个事故报告。1、系统没有闭环报告中显示,在碰撞发生前6秒传感器已经探测到了,碰撞发生前1.5秒,原车的AEB(自动紧急制动(Automatic Emergency Braking))功能已经启动,但其执行机构并没有自动采取相应制动措施,导致整个系统没有闭环。2、交互设计上的缺陷另外,该事故在交互设

gracejpw1117

2020-07-17

28.3062 1 2
  • 关注作者
  • 收藏

AI人工智能之自动驾驶汽车的研发流程

1、基于仿真模拟器的软件在环首先当研发一辆自动驾驶车辆时,有一个基于仿真模拟器的软件在环,我们可以将这看成一个赛车的游戏。在仿真环节中仿真出道路的路面,以及交通的参照物和各种车辆、各种行人,还有一些天气信息,比如雨雾或者路面照明信息。2、基于必要的硬件在环平台代码跑通了以后,再基于必要的硬件在环平台,在传感器、计算单元等硬件系统上检测有没有运行当中的BUG和兼容性问题。3、车辆在环之后基于车辆在环

gracejpw1117

2020-07-17

0.0000 0 2
  • 关注作者
  • 收藏

Spark使用parquet文件存储格式的好处

1) 如果说HDFS 是大数据时代分布式文件系统首选标准,那么parquet则是整个大数据时代文件存储格式实时首选标准;2) 速度更快:从使用spark sql操作普通文件CSV和parquet文件速度对比上看,绝大多数情况会比使用csv等普通文件速度提升10倍左右,在一些普通文件系统无法在spark上成功运行的情况下,使用parquet很多时候可以成功运行;3) parquet的压缩技术非常稳定

gracejpw1117

2020-07-13

34.8716 3 3
  • 关注作者
  • 收藏

深度学习简介

深度学习(deep learning,以下简称DL),可以说是基于人工神经网络的机器学习。区别于传统的机器学习,DL需要更多样本,换来更少的人工标注和更高的准确率。DL利用深度来取代广度,进一步降低参数,提高拟合能力,很多情况下都比传统机器学习表现好。但DL和传统机器学习一样,DL学习的是一个映射f(x)=y,比如x是输入的手写数字图片,那么y就是0~9中的一个。传统的BP((back propa

gracejpw1117

2020-07-13

34.9520 5 1
  • 关注作者
  • 收藏

CNN、RNN和DNN的区别和应用场景

CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的内部网络结构有什么区别?以及他们的主要用途是什么?CNN 专门解决图像问题的,可用把它看作特征提取层,放在输入层上,最后用MLP (多层感知器)做分类。传统神经网络如下图所示CNN网络结构如图所示,CNN网络工作时,会伴随着卷积并且不断转换着这些卷积。RNN 专门解决时间序列问题的,用来提取时间序列信息,放在特征提取层(如CN

gracejpw1117

2020-07-13

34.8590 2 3
  • 关注作者
  • 收藏

长短时记忆网络(Long Short Term Memory Network, LSTM)

长短时记忆网络(Long Short Term Memory Network, LSTM),是一种改进之后的循环神经网络,可以解决RNN无法处理长距离的依赖的问题,目前比较流行。长短时记忆网络的思路:原始 RNN 的隐藏层只有一个状态,即h,它对于短期的输入非常敏感。 再增加一个状态,即c,让它来保存长期的状态,称为单元状态(cell state)。把上图按照时间维度展开:在 t 时刻,LSTM

gracejpw1117

2020-07-12

34.8051 1 0
  • 关注作者
  • 收藏

数据治理的价值体系

数据治理的价值体系具体包括三个方面数据服务(主数据治理):通过数据的采集、清洗、导入,提升数据质量,确保数据的一致性。这部分体现着主数据治理的关键价值。数据流通(业务数据治理):通过实现信息整合和分发机制,支持跨业务、跨部门、跨系统的信息流转和协同。这部分体现着业务数据治理的关键价值。数据洞察(分析数据治理):通过消除数据内在的质量缺陷,明确数据之间的关联关系,帮助数据分析人员更好地理解数据,实现

gracejpw1117

2020-07-12

34.8899 5 4
  • 关注作者
  • 收藏

Tensorflow介绍(六)

压缩的必要性很显然,在计算图中,张量在节点之间流动。在流到达可以处理的节点之前,减少流造成的延迟非常重要。一个方法是使用有损压缩减小尺寸。张量的数据类型可以发挥重要作用,让我们来理解为什么。很明显机器学习中的操作中有更高的精度。例如,如果我们使用float32作为张量的数据类型,那么每个值都表示为32位浮点数,因此每个值占用32位的大小,这同样适用于64位。假设一个形状为(1000,440,440

gracejpw1117

2020-07-11

24.7062 5 0
  • 关注作者
  • 收藏

Tensorflow介绍(五)

在worker之间交换数据现在我们知道Tensorflow将其所有操作分配到由worker管理的不同设备上。更常见的是,worker之间交换张量形式的数据,例如在e =(c)*(d)的图表中,一旦计算出c,就需要将其进一步传递给e,因此Tensor在节点间前向流动。 该流动如图所示:此处张量从设备A传递到设备B。这在分布式系统中引起了一些性能延迟。延迟取决于一个重要属性:张量大小。设备B处于空闲模

gracejpw1117

2020-07-11

24.6765 4 2
  • 关注作者
  • 收藏

Tensorflow介绍(四)

计算子图子图是主图的一部分,其本身就是计算图。例如,在上面的图中,我们可以获得许多子图,其中之一如下所示上面的图是主图的一部分,从属性2我们可以说子图总是表示一个子表达式,因为c是e的子表达式。 子图也满足最后一个属性。同一级别的子图也相互独立,可以并行执行。因此可以在一台设备上调度整个子图。上图解释了子图的并行执行。这里有2个矩阵乘法运算,因为它们都处于同一级别,彼此独立,这符合最后一个属性。由

gracejpw1117

2020-07-11

0.3821 3 2
  • 关注作者
  • 收藏
1235>