2.3 内容延伸：读取非结构化网页、文本、图像、视频、语音_Python数据分析与数据化运营-QQ阅读男生科幻网

书名：Python数据分析与数据化运营
作者名：宋天龙
本章字数：6163字
更新时间：2020-08-26 17:09:31

2.3 内容延伸：读取非结构化网页、文本、图像、视频、语音

在前面的章节中，我们介绍的内容是企业常见的数据来源和获取方式，本节将拓展数据来源方式和格式，主要集中在非结构化的网页、文本、图像、视频和语音方面。

2.3.1 从网页中爬取运营数据

要从网页中爬取数据，可使用Python内置标准库或第三方库，例如urllib、urllib2、httplib、httplib2、requests等。本节使用requests方法获取网页数据。

        import requests # 导入库
        url = 'http://www.dataivy.cn/blog/dbscan/' # 定义要抓取的网页地址
        res = requests.get(url) # 获得返回请求
        html = res.text # 返回文本信息
        print (html) # 打印输出网页源代码

在代码中，先导入用到的网络请求处理库requests，然后定义一个用来抓取的URL，通过requests的get方法获取URL的返回请求，并通过返回请求的text方法获取内容（源代码），最终打印输出，部分结果如下：

        <! DOCTYPE html>
        <html lang="zh-CN" class="no-js">
        <head>
            <meta charset="UTF-8">
            <meta name="viewport" content="width=device-width">
            <link rel="profile" href="http://gmpg.org/xfn/11">
        ....
        </body>
        </html>

从网页中读取的信息其实是网页的源代码，源代码经过浏览器的解析才是我们看到的不同的页面内容和效果。因此，在获取的网页中包含了内容的源代码后，下面要做的是针对源代码的解析。有关该内容会在后面的章节具体说明。

2.3.2 读取非结构化文本数据

非结构化的文本数据指的是文本数据中没有结构化的格式，需要定制化解析才能获取数据，并且每条记录的字段也可能存在差异，这意味着传统的结构化读取方式很难工作。非结构化的日志就是一个典型示例，服务器的日志可由运维工程师自行定义，因此不同公司的日志格式有所不同；另外在网站日志中还可能包含通过页面“埋码”的方式而采集来的用户行为数据，这些都会使日志面临非结构化的解析问题。

在“附件-chapter2”文件夹中有一个名为traffic_log_for_dataivy的日志文件，里面存放了www.dataivy.cn网站一段时间的日志数据，本节示例代码的目的是将日志读取出来。

        file = 'traffic_log_for_dataivy'
        fn = open(file, 'r')  # 打开要读取的日志文件对象
        content = fn.readlines()  # 以列表形式读取日志数据
        print (content[:2])
        fn.close()  # 关闭文件对象

上述代码中先定义了一个要读取的非结构化文本文件，然后通过Python标准库open方法以只读模式打开文件，然后通过readlines方法将文件内容按行为单位读取为数据列表，打印输出前2条数据，然后关闭文件对象。执行后，返回如下结果：

        ['120.26.227.125- - [28/Feb/2017:20:06:51 +0800] "GET / HTTP/1.1" 20010902 "-"
            "curl"\n', '139.129.132.110- - [28/Feb/2017:20:06:51 +0800] "GET / HTTP/1.1"
            20010903 "-" "curl"\n']

其实日志文件只是普通文本文件中的一种类型而已，其他的非结构化数据文件都可以以类似的方法读取，即使文件没有任何扩展名。

对于非结构化的文本处理，通常更多地侧重于特定场景，通用性较差，原因就在于非结构化的形式本身变化多样。自然语言理解、文本处理和挖掘、用户日志和机器日志解析等都是该领域中的主要工作。

2.3.3 读取图像数据

Python读取图像通常使用PIL和OpenCV两个库，相对而言，笔者使用后者的情况更多。本节以“附件-chapter2”文件夹中cat.jpg为例进行说明。

1．使用PIL读取图像

Python Imaging Library中包含很多库，常用的是其中的Image，通过使用其中的open方法来读取图像，用法如下：

        import Image  # 导入库
        file = 'cat.jpg'  # 定义图片地址
        img = Image.open(file, mode="r")  # 读取文件内容
        img.show()  # 展示图像内容

其中关键的方法是open，其中的参数包括两个：

❑ file：文件对象名称，可以是文件名，也可以是图像文件字符串。

❑ mode：打开模式，默认只能是r模式，否则会报错；当file是图像字符串时，会调用系统的rb模式读取。

图2-27 调用img.show()展示图像

通过open读取之后会返回一个图像文件对象，后续所有的图像处理都基于该对象进行。上述代码执行后，通过img.show()会调用系统默认的图像浏览器打开图像并进行查看，如图2-27所示。

该对象包含了很多方法，这些方法可以用来打印输出文件的属性，例如尺寸、格式、色彩模式等。

        print ('img format: ', img.format)  # 打印图像格式
        print ('img size: ', img.size)  # 打印图像尺寸
        print ('img mode: ', img.mode)  # 打印图像色彩模式

上述代码执行后返回的结果如下：

        ('img format: ', 'JPEG')
        ('img size: ', (435, 361))
        ('img mode: ', 'RGB')

其中图像的类型是图像本身的格式，例如jpg、gif、png等；图像尺寸是指图像分辨率，示例中的尺寸是435× 361（单位是像素）；图像的模式指的是颜色模式，示例图像是RGB模式。

2.3.4 读取视频数据

Python读取视频最常用的库也是OpenCV。本节以“附件-chapter2”文件夹中Megam-ind.avi视频为例进行说明。如下是一段读取视频内容的代码示例：

        import cv2  # 导入库
        cap = cv2.VideoCapture("tree.avi")  # 获得视频对象
        status = cap.isOpened()  # 判断文件是否正确打开
        if status:  # 如果正确打开，则获得视频的属性信息
            frame_width = cap.get(3)  # 获得帧宽度
            frame_height = cap.get(4)  # 获得帧高度
            frame_count = cap.get(7)  # 获得总帧数
            frame_fps = cap.get(5)  # 获得帧速率
            print ('frame width: ', frame_width)  # 打印输出
            print ('frame height: ', frame_height)  # 打印输出
            print ('frame count: ', frame_count)  # 打印输出
            print ('frame fps: ', frame_fps)  # 打印输出
        success, frame = cap.read()  # 读取视频第一帧
        while success:  # 如果读取状态为True
            cv2.imshow('vidoe frame', frame)  # 展示帧图像
            success, frame = cap.read()  # 获取下一帧
            k = cv2.waitKey(1000 / int(frame_fps))  # 每次帧播放延迟一定时间，同时等待输入指令
            if k == 27:  # 如果等待期间检测到按键ESC
                break  # 退出循环
        cv2.destroyAllWindows()  # 关闭所有窗口
        cap.release()  # 释放视频文件对象

上述代码分为4个部分，以空行分隔。

第一部分为前3行，先导入库，然后读取视频文件并获得视频对象，最后获得视频读取状态。其中的关键方法是VideoCapture，用来读取图像。

语法：

        cv2.VideoCapture(VideoCapture ID|filename|apiPreference)

描述：读取视频设备或文件，并创建一个视频对象实例

参数：

❑ VideoCapture ID：必填，int型，系统分配的设备对象的ID，默认的设备对象的ID为0。

❑ Filename：必填。包括如下部分。

❍ 视频文件的名称，字符串，例如abc.avi。目前版本下只支持avi格式。

❍ 序列图像，字符串，例如img_%2d.jpg（图像序列包括img_00.jpg, img_01.jpg, img_02.jpg, ...）。

❍ 视频URL地址，字符串，例如protocol://host:port/script_name? script_params|auth。

❍ apiPreference为int型，后台使用的API。

返回：一个视频对象实例。

第二部分为if循环体内的9行代码，该代码主要用来在判断文件被正确读取的情况下，输出视频文件的整体信息。除了代码中get方法使用的参数值外，OpenCV还支持更多图像属性，如表2-7所示。

表2-7 get方法支持的图像属性

第三部分为具体读取和展示视频的每一帧内容。首先读取视频的第一帧，如果状态为True，则展示图像并读取下一帧，期间通过cv2.waitKey参数做图像延迟控制，同时延迟期间等待系统输入指定；如果输入ESC则退出循环读取帧内容。

相关知识点：动态图像如何产生

我们视觉上看到的视频（或动态图）在计算机中其实是不存在的，计算机中存储的是一幅一幅的图像，在视频里面被称为帧，一帧对应的就是一幅图像。当图像连续播放的速度超过一定阈值间时，由于人类的视觉具有暂留特性（延迟效应），多个暂留图像的叠加便形成了我们看到的动态图像。一般情况下，如果一秒播放超过16帧时，我们就会认为这是一幅动态图像。

在视频中有几个关键名词：

❑ 帧率（FPS）：每秒播放的帧数被定义为帧率，帧率越高，在视觉上认为图像越连贯，就越没有卡顿的现象。常见的帧率包括23.967（电影）、25（PAL电视），示例图像大约为15。帧率与图像清晰度无关，它只是决定了视频的连贯性。

❑ 帧分辨率：帧分辨率基本决定了视频的清晰度（当然除此之外还有视频处理效果、设备播放差异等，这里指的是同等条件下的视频源）。在同样大小的图像中，分辨率越高图像通常就会越清晰。所以形容视频时提到的1080P（1920*1080）、720P（1280*720）其实指的就是分辨率标准。

注意

OpenCV中的图像读取和处理，其实是不包括语音部分的，但从视频文件的组成来讲通常包括序列帧和语音两部分。目前的方式通常是对两部分分开处理。

第四部分为当所有操作结束后，删除所有由OpenCv创建的窗体，释放视频文件对象。

有关OpenCV的更多信息可查阅opencv.org。

2.3.5 读取语音数据

对于语音文件的读取，可以使用Python的audioop、aifc、wav等库实现。但针对语音处理这一细分领域，当前市场上已经具备非常成熟的解决方案，例如科大讯飞、百度语音等，大多数情况下，我们会通过调用其API实现语音分析处理，或者作为分析处理前的预处理。

在具体实现过程中，既可以直接下载SDK做离线应用，也可以使用在线的服务。图2-29所示为科大讯飞的语音服务。

图2-29 科大讯飞语音服务

本节将以百度语音API服务应用为例，说明如何通过请求百度语音的API，将语音数据转换为文字信息。

在正式应用百度语音API之前，请先参照2.2.5节中介绍的步骤，建立百度账户以及注册成为百度开发者。基于该条件下，我们继续开通语音识别服务。具体方法如下：

1）进入http://yuyin.baidu.com/app，在弹出的界面中点击要针对哪个应用开通语音识别服务。我们默认使用之前建立的API_For_Python应用。因此，点击该应用的“开通服务”，如图2-30所示。

图2-30 开通服务

2）在弹出的窗口中，点击选择“语音识别”并确定，如图2-31所示。

图2-31 选择开通语音识别服务

3）开通成功后系统会提示开通成功，然后点击图2-34中右侧的，会弹出图2-32所示信息。

图2-32 应用key信息

上述弹出中的API Key和Secret Key为后续语音识别中要使用的信息。

以下为完整代码：

        # 导入库
        import json  # 用来转换JSON字符串
        import base64  # 用来做语音文件的Base64编码
        import requests  # 用来发送服务器请求
        # 获得token
        API_Key = 'DdOyOKo0VZBgdDFQnyhINKYDGkzBkuQr'  # 从申请应用的key信息中获得
        Secret_Key = 'oiIboc5uLLUmUMPws3m0LUwb00HQidPx'  # 从申请应用的key信息中获得
        token_url  =  "https://openapi.baidu.com/oauth/2.0/token? grant_type=client_
            credentials&client_id=%s&client_secret=%s"  # 获得token的地址
        res = requests.get(token_url % (API_Key, Secret_Key))  # 发送请求
        res_text = res.text  # 获得请求中的文字信息
        token = json.loads(res_text)['access_token']  # 提取token信息
        # 定义要发送的语音
        voice_file = 'baidu_voice_test.pcm'  # 要识别的语音文件
        voice_fn = open(voice_file, 'rb')  # 以二进制的方式打开文件
        org_voice_data = voice_fn.read()  # 读取文件内容
        org_voice_len = len(org_voice_data)  # 获得文件长度
        base64_voice_data = base64.b64encode(org_voice_data)  # 将语音内容转换为base64编码格式
        # 发送信息
        # 定义要发送的数据主体信息
        headers = {'content-type': 'application/json'}  # 定义header信息
        payload = {
            "format": "pcm",  # 以具体要识别的语音扩展名为准
            "rate": 8000,  # 支持8000或16000两种采样率
            "channel": 1,  # 固定值，单声道
            "token": token,  # 上述获取的token
            "cuid": "B8-76-3F-41-3E-2B",  # 本机的MAC地址或设备唯一识别标志
            "len": org_voice_len,  # 上述获取的原始文件内容长度
            "speech": base64_voice_data  # 转码后的语音数据
        }
        data = json.dumps(payload)  # 将数据转换为JSON格式
        vop_url = 'http://vop.baidu.com/server_api'  # 语音识别的API
        voice_res = requests.post(vop_url, data=data, headers=headers)  # 发送语音识别请求
        api_data = voice_res.text  # 获得语音识别文字返回结果
        text_data = json.loads(api_data)['result']
        print (api_data)  # 打印输出整体返回结果
        print (text_data)  # 打印输出语音识别的文字

代码以空行作为分隔，包括4个部分：

第一部分为导入需要的库信息，具体用途见代码注解。

第二部分为获得要使用百度语音识别API的token信息。其中的API_Key和Secret_Key从图2-32所示界面中获得。token_url通过占位符定义出完整字符串，并在请求时发送具体变量数据，从返回的信息中直接读取token便于下面应用中使用。有关获取token的更多信息，具体查阅http://yuyin.baidu.com/docs/asr/56。

提示

在请求获取token时，可使用get或post（推荐使用）两种方法，token的有效期默认为1个月，如果过期需要重新申请。

第三部分主要用于获取和处理语音文件数据。通过最常见的open方法以二进制的方式读取语音数据，然后从获得的语音数据中获取原始数据长度并将原始数据转换为base64编码格式。

注意

百度语音识别API对于要识别的音频源是有要求的：原始PCM的录音参数必须符合8K/16K采样率、16bit位深、单声道，支持的压缩格式有pcm（不压缩）、wav、opus、amr、x-flac。

第四部分为本节内容的主体，发送请求获取语音识别结果。本段落中先定义了发送头信息；然后定义了一个字典，用于存储要发送的Key-Value字符串并将其转换为JSON格式；接着通过post方法以隐示发送的方式进行上传并获得返回结果，最后输出返回结果和其中的语音转文字的信息。该部分内容的细节比较多，具体参见百度语音API开发说明http://yuyin.baidu.com/docs/asr/57。

关于cuid的获取，由于笔者是在本地电脑上测试的，因此使用的是MAC地址。获取MAC地址的方法是：打开系统终端命令行窗口（Win+R，输入cmd并回车），在命令行中输入命令ipconfig/all，在列出的所有连接中找到其中媒体状态不是“媒体已断开”并且属于当前连接的物理地址信息。图2-33所示为笔者电脑MAC信息。

图2-33 获取MAC地址信息

有关语音服务的更多信息可查阅http://www.xfyun.cn/。

上述代码执行后返回如下结果：

        {"co rpus_no":"6409809149574448654", "err_msg":"success.", "err_no":0, "result":["百
            度语音提供技术支持，"], "sn":"83327679891492399988"}
        [u'\u767e\u5ea6\u8bed\u97f3\u63d0\u4f9b\u6280\u672f\u652f\u6301\uff0c']

系统成功返回的是识别结果，录音的内容是“百度语音提供技术支持”，第二段编码是unicode编码格式的中文。

上述语音识别仅提供了关于语音转为文字的方法，其实语音本身包括非常多的信息，除了相对浅层的生理和物理特征，例如语速、音调、音长、音色、音强等外，还包括更深层次的社会属性，这部分内容需要自然语音理解的深层次应用。目前的语音数据读取后主要应用方向包括：

❑ 语音转文字。这也是广义上语音识别的一种，直接将语音信息转为文字信息，例如微信中就有这个小功能。

❑ 语音识别。语音识别指的是对说话者通过选取语音识别单元、提取语音特征参数、模型训练、模型匹配等阶段实现其角色识别和个体识别的过程，例如通过某段语音识别出是哪个人说的话。

❑ 语音语义理解。在语音识别的基础上，需要对语义特征进行分析，目的是通过计算得到与语音对应的潜在知识或意图，然后提供对应的响应内容或方法。语音识别和语音理解的差异之处在于，语音识别重在确定语音表达的字面含义，属于表层意义；而语音理解重在挖掘语音的背后含义，属于深层意义。

❑ 语音合成。语音合成就是让计算机能够“开口说话”，这是一种拟人的技术方法。语音合成，又称文本转语音（Text to Speech）技术，它通过机械的、电子的方法将文字信息转变为人类可以听得懂的语音。

❑ 应用集成。经过分析、识别后的信息可以与硬件集成，直接通过语音发送指令。例如通过跟Siri的“沟通”，除了可以进行日常交流外，它还可以告诉你天气情况、帮你设置系统日程、介绍餐厅等。这是智能机器人在模式识别方面的典型应用。

基于上述的复杂应用场景，通常语音后续分析、处理和建模等过程都无法由数据工程师单独完成，还需要大量的语料库素材、社会学、信号工程、语言语法、语音学、自然语音处理、机器学习、知识搜索、知识处理等交叉学科和相关领域人员配合才有可能解开其中的密码。