三行Python代码,让数据预处理速度提高2到6倍

作者:媒体转发 时间:2018-10-07 09:23

字号
【新品产上线啦】51CTO播客,随时随地,碎片化学习

Python机器学习领域内的首选编程语言,它易于使用,也有很多出色的库来帮助你更快处理数据。但当我们面临大量数据时,一些问题就会显现……

目前,大数据(Big Data)这个术语通常用于表示包含数十万数据点的数据集。在这样的尺度上,工作进程中加入任何额外的计算都需要时刻注意保持效率。在设计机器学习系统时,数据预处理非常重要——在这里,我们必须对所有数据点使用某种操作。

Python代码

在默认情况下,Python 程序是单个进程,使用单 CPU 核心执行。而大多数当代机器学习硬件都至少搭载了双核处理器。这意味着如果没有进行优化,在数据预处理的时候会出现「一核有难九核围观」的情况——超过 50% 的算力都会被浪费。在当前四核处理器(英特尔酷睿 i5)和 6 核处理器(英特尔酷睿 i7)大行其道的时候,这种情况会变得更加明显。

三行Python代码,让数据预处理速度提高2到6倍

幸运的是,Python 库中内建了一些隐藏的特性,可以让我们充分利用所有 CPU 核心的能力。通过使用 Python 的 concurrent.futures 模块,我们只需要 3 行代码就可以让一个普通的程序转换成适用于多核处理器并行处理的程序。

标准方法

让我们举一个简单的例子,在单个文件夹中有一个图片数据集,其中有数万张图片。在这里,我们决定使用 1000 张。我们希望在所有图片被传递到深度神经网络之前将其调整为 600×600 像素分辨率的形式。以下是你经常会在 GitHub 上看到的标准 Python 代码

import glob 

import os 

import cv2 

 

 

### Loop through all jpg files in the current folder  

### Resize each one to size 600x600 

for image_filename in glob.glob("*.jpg"): 

 ### Read in the image data 

 img = cv2.imread(image_filename) 

 

 ### Resize the image 

 img = cv2.resize(img, (600, 600))  

上面的程序遵循你在处理数据脚本时经常看到的简单模式:

首先从需要处理内容的文件(或其他数据)列表开始。

使用 for 循环逐个处理每个数据,然后在每个循环迭代上运行预处理。

让我们在一个包含 1000 个 jpeg 文件的文件夹上测试这个程序,看看运行它需要多久:

time python standard_res_conversion.py 

在我的酷睿 i7-8700k 6 核 CPU 上,运行时间为 7.9864 秒!在这样的高端 CPU 上,这种速度看起来是难以让人接受的,看看我们能做点什么。

更快的方法

为了便于理解并行化的提升,假设我们需要执行相同的任务,比如将 1000 个钉子钉入木头,假如钉入一个需要一秒,一个人就需要 1000 秒来完成任务。四个人组队就只需要 250 秒。

在我们这个包含 1000 个图像的例子中,可以让 Python 做类似的工作:

将 jpeg 文件列表分成 4 个小组;

运行 Python 解释器中的 4 个独立实例;

让 Python 的每个实例处理 4 个数据小组中的一个;

结合四个处理过程得到的结果得出最终结果列表。

这一方法的重点在于,Python 帮我们处理了所有棘手的工作。我们只需告诉它我们想要运行哪个函数,要用多少 Python 实例,剩下的就交给它了!只需改变三行代码。实例:

import glob 

import os 

import cv2 

import concurrent.futures 

 

 

def load_and_resize(image_filename): 

 ### Read in the image data 

 img = cv2.imread(image_filename) 

 

 ### Resize the image 

 img = cv2.resize(img, (600, 600))  

 

 

### Create a pool of processes. By default, one is created for each CPU in your machine. 

with concurrent.futures.ProcessPoolExecutor() as executor: 

 ### Get a list of files to process 

 image_files = glob.glob("*.jpg") 

 

责任编辑:CQITer新闻报料:400-888-8888   本站原创,未经授权不得转载
继续阅读
热新闻
推荐
关于我们联系我们免责声明隐私政策 友情链接