- Python数据分析与数据化运营
- 宋天龙
- 1840字
- 2020-08-26 17:09:31
1.5 本章小结
内容小结:本章从Python和数据化运营的关系、数据化运营所需要的Python相关工具组件入手,介绍了有关Python和数据化运营的理念、关系、流程和工具,并通过一个小案例演示了如何通过Python进行销售预测。
重点知识:有关Python的相关工具部分,这些内容是本书后续所有工作的基础,希望读者能在本机上进行安装、测试和学习。
外部参考:限于篇幅,本章没有对Python和相关工具的基础知识进行讲解,只是对涉及了案例中的部分内容。因此,很多知识需要读者书外“补习”。这些知识除了包含Python基础知识和科学计算以外,还有数据库、Tesseract、TensorFlow等工具,它们将构成数据基础工作和数据延伸工作的基石。作为本章内容的延展,笔者列出了相关资源,希望能为读者提供必要参考。
以下列出了与Python相关的主要的官方参考资源和信息:
❑ Python官方网站:https://www.python.org/。Python最权威的网站,包含有关Python的帮助手册、新闻、事件、应用、案例、社区等,并提供官方Python所有版本和环境的安装程序和安装包。
❑ Python pypi第三方库:https://pypi.python.org/pypi。Python使用pip命令安装时,请求的资源就来源于该网站,这里汇聚了第三方Python程序的软件仓库,截至本书完稿时已有101866个软件包。你可以在这里直接查看、下载和评论第三方库。
❑ Stack Overflow:http://stackoverflow.com/。Stack Overflow是一个与程序相关的IT技术问答网站,用户可以在网站上免费提交、浏览和检索问题。大多数情况下,你的问题都不是第一次出现,所以有问题了不妨先在这里找找答案。
❑ Python内部帮助文档和信息:在IPython命令行窗口使用help()和dir()命令。例如:通过dir(numpy.mean)查找Numpy库下面的mean函数的大部分属性;通过help(numpy.mean)获得该函数的具体介绍、参数解释、应用举例等详细信息。这是针对特定知识点最为主要的学习参考资源。
大多数情况下,通过上述方法可以了解到Python基本知识,但以下图书资源会帮助你更加深入了解Python及其相关库的工作方式和逻辑,尤其是对于数据挖掘、机器学习等领域的认知:
❑《利用Python进行数据分析》(Python for Data Analysis),介绍了Python用于数据分析的几个主要科学计算和展示库Numpy、Pandas、Matplotlib等,书中对这些库的讲解略粗,但全书的逻辑体系完整,适合数据分析和挖掘工作者作为入门读的。
❑《Python数据分析与挖掘实战》,以数据工作流的方式展开介绍Python数据应用,书籍的逻辑结构较为完整,后面也有部分案例的介绍,适合对Python有一定了解的数据工作者阅读。
❑《机器学习实战》(Machine learning in action),这是使用Python进行机器学习的专业书籍,需要读者具有一定的算法、程序和模型专业知识,适合中高级数据挖掘和建模工程师阅读。
❑《集体智慧编程》,这是使用Python进行机器学习的专业书籍,与传统机器学习书籍不同的是,本书没有按照算法分类分别进行阐述,而是从应用的角度分场景介绍,本书需要读者了解工程、算法和模型知识,适合中高级数据挖掘、建模工程师、程序员阅读。
❑《Python基础教程(第2版修订版)》这是一本纯介绍Python编程语言的书籍,其中主要围绕每个方法、条件、函数、对象、属性等进行介绍,适合程序员以及想深入了解Python工作原理和逻辑的读者查阅。
数据分析师或挖掘工程师对数据库的应用主要集中在DDL(本机操作)和DML(本机和服务器操作)上,而DCL和TCL涉及相对较少。因此建议读者重点了解前两种语言的相关知识。
❑ MySQL官方资源:https://dev.mysql.com/doc/。所有有关MySQL的官方信息和知识,在这里都可以找到。
❑ MySQL第三方教程:http://www.runoob.com/mysql/mysql-tutorial.html。言简意赅地介绍MySQL的基本用法,按照用法主题分类,并且是中文的,适合作为知识查找工具。
❑《深入浅出MySQL(第2版)》,这是一本完整阐述MySQL开发、设计、运维、管理等方面的书籍,内容全面,并且有适合初学者的章节。
有关Tesseract的资源不多,目前主要是官方信息。
❑ Tesseract wiki: https://github.com/tesseract-ocr/tesseract/wiki。页面右侧按照不同的主题页面展示,可直接点击对应标题查看。
❑ Tesseract介绍:https://github.com/tesseract-ocr/docs。各种会议和演示的PPT材料和介绍信息。
❑ Tesseract训练数据集:https://github.com/tesseract-ocr/tessdata。注意页面中是Tesseract 4版本用的数据集,其他版本通过页面底部的入口查看。
❑ Tesseract语言文件:https://github.com/tesseract-ocr/langdata。按照语言类别归类到文件,用来作为特定的语言做重新训练时的主要过程数据和文件。
TensorFlow作为2015年年底“刚”开源的机器学习框架,其学习资源不多,原因是开源之后即使有大型公司或团队使用,也需要经过一定时间的技术实践和应用。
❑ TensorFlow官方网站:http://www.tensorflow.org/。要打开这个网站需要一定的工具或技巧。
❑ TensorFlow中文社区:http://www.tensorfly.cn/。相当于汉化版的官方网站。
❑《TensorFlow实战》:这是一本国内为数不多的Tensorflow实战书籍。
❑ 极客学院的TensorFlow官方文档中文版:http://wiki.jikexueyuan.com/project/tensor-flow-zh/。在TensorFlow刚开源1个多月时,极客学院就组织了很多人进行翻译。
应用实践:读者可以自己手写一个Python工作(比如预测)案例,也许这个过程中会出现很多意想不到的问题,但别担心,总有很多途径可以解决这些问题,并且解决问题的过程正是学习的过程,通过简单的练习可以掌握Python工作的基本原理和方法。