前言

在大数据时代,数据已成为一个公司的核心竞争力。采集数据并对数据进行分析以获得有价值的信息,已成为现代企业生产和战略决策的重要组成部分。

随着互联网的发展壮大,网络数据呈爆炸式增长,传统搜索引擎已经不能满足人们获取数据的需求,网络爬虫技术和网络爬虫工程师岗位应运而生。借助网络爬虫从互联网上采集数据已成为现代企业和研究人员在生产和研究中的重要内容。

然而,通过爬虫直接从互联网上获取的数据往往并不能满足用户的需求,这时候就需要对这些数据进行整理分析,这正是数据分析人员工作的价值所在。

采集或获取数据、整理和分析数据、进行数据的可视化,是数据处理的一个完整的流程,其中涉及的知识点很多,也有大量成熟的工具及其操作技巧需要我们去了解和掌握。对于初学者来说,沿着一条有效的路线学习才能事半功倍。

本书旨在帮助初学者学习和掌握网络爬虫和数据分析技术,提供一个实用的操作指南,从而让有梦想成为数据分析工程师的人员通过本书的学习达成所愿。

主要内容

本书共13章,各章内容概述如下:

第1章介绍Python基础语法,世界上80%的网络爬虫都是基于Python开发的,对于未接触过编程语言的读者,Python更易于上手,是首选的编程语言。

第2~4章,介绍Python的3个数据分析工具,包括NumPy、Pandas、Matplotlib,这3个工具在Python当今的数据分析中应用十分广泛,已成为数据分析人员的必备技能。

第5章和第6章介绍网络爬虫的原理和常用工具的使用,包括Urllib库、BeautifulSoup库、正则表达式和Scrapy在网络爬虫中的应用,通过这两章的学习,读者可以轻松地编写一个复杂的网络爬虫。

第7章介绍Python数据预处理与数据分析方法,包括基于Python的数据预处理、Python与MySQL数据库的交互、描述性统计、概率分析方法与推断统计、基于时间序列的统计方法等内容。

第8章和第9章介绍中文数据的处理技巧,包括中文文本处理概述、基于结巴库的文本处理、引入自定义信息、基于NLTK库的文本处理以及基于Gensim的文本向量化分析等内容。

第10章介绍基于机器学习的分析方法,包括线性回归、岭回归、Lasso回归、SVM、KNN、基于手写体数字识别的分类范例等内容。

第11章和第12章通过两个较为完整的项目案例介绍从爬虫到数据分析的全流程,旨在使读者将所学的技能应用在实际工作中。

第13章介绍通过电子邮件发送数据分析结果的技巧。

本书特点

本书是甘肃省自然科学基金项目:大数据中用于个性化推荐的信息传播算法研究(项目编号:21JR11RA056)的研究成果之一,具有以下特点:

● 涉及内容广泛:本书从初学者的视角出发,系统地讲述了基于各类爬虫框架的爬虫技能、基于NumPy、Pandas和Matplotlib的数据分析技能,以及中文文本分析方法和机器学习算法在数据分析中的实战技能。

● 拒绝纸上谈兵:以实操为主,所有知识点均提供示例演示,读者可以边学边练,快速上手。

● 代码详尽剖析:所有示例及项目代码均进行详尽剖析,旨在使读者易于理解并能够举一反三。

配书资源

本书提供了案例源代码和PPT课件,可以扫描以下二维码下载:

若下载有问题,请发送电子邮件至booksaga@126.com,邮件主题为“Python网络爬虫与数据分析从入门到实践”。

读者对象

本书适合以下读者阅读:

● 网络爬虫和数据分析初学者。

● 数据分析工程师、办公人员及科研技术人员。

● 培训机构和高校的学生。

本书由兰州文理学院的马国俊执笔,虽然笔者尽心竭力,但限于水平,书中难免存在不妥之处,恳请广大读者批评指正。

著者

2023年1月