京公网安备 11010802034615号
经营许可证编号:京B2-20210330
Python使用filetype精确判断文件类型
判断文件类型在开发中非常常见的需求,怎样才能准确的判断文件类型呢?首先大家想到的是文件的后缀,但是非常遗憾的是这种方法是非常不靠谱的,因为文件的后缀是可以随意更改的,而python中有个小插件可以实现,下面我们就来详细探讨下
filetype.py
Small and dependency free Python package to infer file type and MIME type checking the magic numbers signature of a file or buffer.
This is a Python port from filetype Go package. Works in Python +3 .
一个小巧自由开放Python开发包,主要用来获得文件类型。包要求Python 3.+
功能特色
•简单友好的API
•支持宽范围文件类型
•提供文件扩展名和MIME类型判断
•文件的MIME类型扩展新增
•通过文件(图像、视频、音频…)简单分析
•可插拔:添加新的自定义类型的匹配
•快,即使处理大文件
•只需要前261个字节表示的最大文件头,这样你就可以通过一个单字节
•依赖自由(只是Python代码,没有C的扩展,没有libmagic绑定)
•跨平台文件识别
安装
pip install filetype
API
详情请查看 annotated API reference .
实例
简单的文件类型识别
支持类型
图片
• jpg – image/jpeg
• png – image/png
• gif – image/gif
• webp – image/webp
• cr2 – image/x-canon-cr2
• tif – image/tiff
• bmp – image/bmp
• jxr – image/vnd.ms-photo
• psd – image/vnd.adobe.photoshop
• ico – image/x-icon
视频
• mp4 – video/mp4
• m4v – video/x-m4v
• mkv – video/x-matroska
• webm – video/webm
• mov – video/quicktime
• avi – video/x-msvideo
• wmv – video/x-ms-wmv
• mpg – video/mpeg
• flv – video/x-flv
音频
• mid – audio/midi
• mp3 – audio/mpeg
• m4a – audio/m4a
• ogg – audio/ogg
• flac – audio/x-flac
• wav – audio/x-wav
• amr – audio/amr
资料库
• epub – application/epub+zip
• zip – application/zip
• tar – application/x-tar
• rar – application/x-rar-compressed
• gz – application/gzip
• bz2 – application/x-bzip2
• 7z – application/x-7z-compressed
• xz – application/x-xz
• pdf – application/pdf
• exe – application/x-msdownload
• swf – application/x-shockwave-flash
• rtf – application/rtf
• eot – application/octet-stream
• ps – application/postscript
• sqlite – application/x-sqlite3
• nes – application/x-nintendo-nes-rom
• crx – application/x-google-chrome-extension
• cab – application/vnd.ms-cab-compressed
• deb – application/x-deb
• ar – application/x-unix-archive
• Z – application/x-compress
• lz – application/x-lzip
字体
• woff – application/font-woff
• woff2 – application/font-woff
• ttf – application/font-sfnt
• otf – application/font-sfnt
基准测试
使用链接中的文件进行测试,你可以点击获得到它: real files .
Environment: OSX x64 i7 2.7 Ghz
------------------------------------------------------------------------------------------
benchmark: 7 tests
------------------------------------------------------------------------------------------
Name (time in ns) Min
Max Mean StdDev
Median IQR Outliers(*) Rounds Iterations
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
test_infer_image_from_bytes 357.6279 (1.0) 29,166.5395
(1.0) 1,642.3360 (1.0) 380.9934 (1.0) 1,509.9843
(1.0) 158.9457 (1.0) 9095;13752 102301 6
test_infer_audio_from_bytes 953.6743 (2.67) 96,082.6874
(3.29) 16,534.5880 (10.07) 3,002.1143 (7.88) 15,974.0448
(10.58) 953.6743 (6.00) 4514;6051 41528 1
test_infer_video_from_bytes 13,828.2776 (38.67) 272,989.2731
(9.36) 16,151.3144 (9.83) 3,361.2320 (8.82) 15,020.3705
(9.95) 953.6743 (6.00) 2522;2887 22193 1
test_infer_image_from_disk 15,974.0448 (44.67) 108,957.2906
(3.74) 18,621.0844 (11.34) 3,895.4441 (10.22) 17,166.1377
(11.37) 1,192.0929 (7.50) 1528;1804 10206 1
test_infer_video_from_disk 23,841.8579 (66.67) 229,120.2545
(7.86) 28,691.3476 (17.47) 6,242.9901 (16.39) 25,987.6251
(17.21) 4,053.1158 (25.50) 1987;1247 15651 1
test_infer_zip_from_disk 26,941.2994 (75.33) 230,073.9288
(7.89) 32,123.3861 (19.56) 7,524.4988 (19.75) 29,087.0667
(19.26) 4,768.3716 (30.00) 1349;1292 16132 1
test_infer_tar_from_disk 33,855.4382 (94.67) 164,031.9824
(5.62) 36,884.4401 (22.46) 4,489.4443 (11.78) 36,001.2054
(23.84) 953.6743 (6.00) 1036;1828 14666 1
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05