《PySpark大数据分析与应用》戴刚

本书以python作为开发语言,系统介绍pypark开发环境搭建流程及基于pypark进行大数据分析的相关知识。本书条理清晰、重点突出,理论叙述循序渐进、由浅入深。
本书共7章,第1~5章包括pypark大数据分析概述、pypark安装配置、基于pypark的dataframe作、基于pypark的流式数据处理、基于pypark的机器学库,内容介绍注重理论与实践相结合,通过典型示例强化pypark在大数据分析中的实际应用;
第6、7章通过基于pypark的网络招聘信息的职业类型划分和基于pypark的信用贷款风险分析两个完整的案例实战,结合前5章的pypark编程知识,实现完整的大数据分析过程。
本书大部分章包含实训和课后题,读者通过练和作实践,能够巩固所学的内容。