封面
版权信息
内容提要
译者序
译者简介
原书序言
作者简介
审稿人简介
前 言
本书的主要内容
读者须知
本书的目标读者
本书的排版约定
资源与支持
配套资源
提交勘误
与我们联系
关于异步社区和异步图书
第1章 数据科学生态系统
1.1 大数据生态系统简介
1.2 数据架构
1.3 数据处理技术
1.4 配套工具
1.5 小结
第2章 数据获取
2.1 数据管道
2.2 内容登记
2.3 质量保证
2.4 小结
第3章 输入格式与模式
3.1 结构化的生活是美好的生活
3.2 GDELT维度建模
3.3 加载数据
3.4 Avro
3.5 Apache Parquet
3.6 小结
第4章 探索性数据分析
4.1 问题、原则与规划
4.2 准备工作
4.3 探索GDELT
4.4 小结
第5章 利用Spark进行地理分析
5.1 GDELT和石油
5.2 制订行动计划
5.3 GeoMesa
5.4 计量油价
5.5 小结
第6章 采集基于链接的外部数据
6.1 构建一个大规模的新闻扫描器
6.2 命名实体识别
6.3 GIS查询
6.4 名字除重
6.5 新闻索引仪表板
6.6 小结
第7章 构建社区
7.1 构建一个人物图谱
7.2 使用Accumulo数据库
7.3 社区发现算法
7.4 GDELT数据集
7.5 小结
第8章 构建推荐系统
8.1 不同的方法
8.2 信息不完整的数据
8.3 构建歌曲分析器
8.4 构建一个推荐系统
8.5 扩大“蛋糕厂”规模
8.6 小结
第9章 新闻词典和实时标记系统
9.1 土耳其机器人
9.2 设计Spark Streaming应用
9.3 消费数据流
9.4 处理Twitter数据
9.5 获取HTML内容
9.6 使用Elasticsearch作为缓存层
9.7 分类数据
9.8 Twitter土耳其机器人
9.9 小结
第10章 故事除重和变迁
10.1 检测近似重复
10.2 构建故事
10.3 故事变迁
10.4 小结
第11章 情感分析中的异常检测
11.1 在Twitter上追踪美国大选
11.2 情感分析
11.3 使用Timely作为时间序列数据库
11.4 Twitter与戈德温(Godwin)点
11.5 进入检测讽刺的一小步
11.6 小结
第12章 趋势演算
12.1 研究趋势
12.2 趋势演算算法
12.3 实际应用
12.4 小结
第13章 数据保护
13.1 数据安全性
13.2 认证和授权
13.3 访问
13.4 加密
13.5 数据处置
13.6 Kerberos认证
13.7 安全生态
13.8 安全责任
13.9 小结
第14章 可扩展算法
14.1 基本原则
14.2 Spark架构
14.3 挑战
14.4 规划你的路线
14.5 设计模式和技术
14.6 小结
更新时间:2021-01-15 16:45:59