数据科学与大数据技术导论 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
数据科学与大数据技术导论电子书下载地址
寄语:
数据科学与大数据专业的导论性专业基础教材。
内容简介:
大数据技术凝集了多学科的研究成果,是一门多学科的交叉融合技术。随着科学技术的发展,大数据技术发展更为迅速,应用更为深入与广泛,并凸显其巨大潜力和应用价值。 “数据科学与大数据技术导论”是数据科学与大数据技术专业的门专业基础课程。这门课程可以引导数据科学与大数据技术专业的学生走进大数据技术的大门。 本书主要介绍数据科学与大数据技术的基本知识。全书共分11章,包括数据科学与大数据技术概述、Hadoop大数据处理平台、大数据采集与存储管理、大数据抽取、大数据清洗、数据转换、大数据约简、大数据集成、大数据分析、大数据挖掘、数据可视化与可视分析等内容。 本书语言精练,内容完整,案例丰富,可作为高等院校“数据科学与大数据技术导论”课程的教材,也可作为学习数据科学与大数据技术人员的参考书。
书籍目录:
第1章数据科学与大数据技术概述/1
知识结构1
1.1数据科学简介1
1.1.1数据科学的产生与发展1
1.1.2数据科学的定义与方法2
1.1.3数据科学的知识体系6
1.1.4数据科学、数据技术与数据工程7
1.2大数据的生态环境与概念8
1.2.1大数据的生态环境8
1.2.2大数据的概念9
1.3大数据处理周期12
1.3.1大数据处理的全过程12
1.3.2大数据技术的特征13
1.4大数据处理模式13
1.4.1离线处理模式14
1.4.2在线处理模式14
1.4.3交互处理模式19
1.5科学研究第四范式19
1.5.1科学研究范式产生与发展19
1.5.2数据密集型科学研究第四范式20
1.6大数据应用25
1.6.1大数据应用趋势25
1.6.2大数据应用评价与应用实例26
本章小结28
第2章Hadoop大数据处理ping台/29
知识结构29
2.1MapReduce分布编程模型29
2.1.1MapReduce计算过程30
2.1.2基于MapReduce的计算举例30数据科学与大数据技术导论目录2.2基于Hadoop的分布计算30
2.2.1作业服务器31
2.2.2计算流程31
2.2.3MapReduce程序的执行过程33
2.3MapReduce程序设计分析35
2.3.1MapReduce模型编程方法35
2.3.2单词计数程序设计36
2.4YARN大数据处理ping台40
2.4.1Hadoop 1.0版本的缺点40
2.4.2轻量级弹性计算ping台41
2.4.3基本概念与术语42
2.4.4MapReduce框架43
2.4.5编程模型44
2.4.6YARN基本架构与工作流程45
2.5Spark大数据处理框架48
2.5.1Spark的主要特点48
2.5.2软件栈48
2.5.3核心概念50
2.5.4RDD51
本章小结58
第3章大数据采集与存储管理/59
知识结构59
3.1大数据采集概述59
3.1.1大数据采集的定义与特点60
3.1.2大数据采集的挑战60
3.1.3传统数据采集与大数据采集的比较61
3.2大数据采集的方法61
3.2.1传感器采集数据61
3.2.2系统日志采集62
3.2.3数据库采集系统62
3.2.4网页数据采集62
3.3大数据存储架构与系统79
3.3.1数据层79
3.3.2分布式文件系统80
3.4基于大数据的数据库系统82
3.4.1大数据存储管理技术82
3.4.2大数据库83
3.4.3大数据存储管理的核心算法88
3.5HBase数据库94
3.5.1HBase概述94
3.5.2HBase的数据模型97
3.5.3HBase的逻辑实体98
3.5.4HBase的工作原理100
3.6Hive数据仓库100
3.6.1Hive主要功能101
3.6.2Hive的数据单元与数据类型101
3.6.3Hive的特性102
3.6.4Hive应用举例102
3.6.5HBase与Hive的比较102
本章小结103
第4章大数据抽取/104
知识结构104
4.1大数据抽取概述105
4.1.1数据抽取的定义105
4.1.2数据抽取程序105
4.1.3数据抽取方式106
4.2增量数据抽取技术106
4.2.1增量数据抽取的特点与策略106
4.2.2基于时间戳的增量数据抽取方式107
4.2.3全表比对抽取方法107
4.3数据源109
4.3.1公开数据库109
4.3.2利用网络爬虫获得数据110
4.3.3数据交易ping台110
4.3.4网络指数110
4.4基于Hadoopping台的大数据抽取110
4.4.1将数据导入Hadoopping台110
4.4.2将数据从CSV文件导入Hive表111
4.4.3将关系数据导入HDFS的方法114
4.4.4CSV文件的读取和写入119
4.4.5Flume获取日志文件123
4.5大数据抽取的应用126
4.5.1应用实例126
4.5.2非关系数据库中的数据抽取软件简介126
本章小结128
第5章大数据清洗/129
知识结构129
5.1数据质量与数据清洗129
5.1.1数据质量129
5.1.2数据质量提高技术132
5.1.3数据清洗算法的标准135
5.1.4数据清洗的过程与模型136
5.2不完整数据清洗136
5.2.1基本方法136
5.2.2基于kNN近邻缺失数据的填充算法138
5.3异常数据清洗140
5.3.1异常值的检测141
5.3.2统计学方法141
5.3.3基于邻近度的离群点检测145
5.4重复数据清洗146
5.4.1使用字段相似度识别重复值算法146
5.4.2快速去重算法147
5.5文本清洗149
5.5.1字符串匹配算法149
5.5.2文本相似度度量方法153
5.6数据清洗的实现157
5.6.1数据清洗的步骤157
5.6.2数据清洗程序158
本章小结160
第6章数据转换/161
知识结构161
6.1基本的数据转换161
6.1.1对数转换161
6.1.2ping方根转换163
6.1.3ping方转换163
6.1.4倒数变换163
6.2数据ping滑163
6.2.1移动ping均法164
6.2.2指数ping滑法166
6.2.3分箱ping滑法171
6.3数据规范化172
6.3.1#小#大规范化方法173
6.3.2z分数规范化方法173
6.3.3小数定标规范化方法174
6.3.4数据规范化程序174
本章小结176
第7章大数据约简/177
知识结构177
7.1特征约简178
7.1.1特征构造178
7.1.2特征提取179
7.1.3特征选择180
7.2样本约简187
7.2.1随机抽样187
7.2.2系统抽样187
7.2.3分层抽样187
7.3数据立方体188
7.3.1多维数据模型188
7.3.2多维数据模型的模式190
7.3.3数据立方体聚集191
7.4属性子集选择算法192
7.4.1逐步向前选择属性193
7.4.2逐步向后删除属性193
7.4.3混合式选择193
7.4.4判定树归纳193
7.5数值约简194
7.5.1有参数值约简194
7.5.2无参数值约简195
7.6概念分层与数值离散化196
7.6.1概念分层196
7.6.2数值离散化方法198
本章小结202
第8章大数据集成/203
知识结构203
8.1数据集成技术概述203
8.1.1数据集成的概念与相关问题204
8.1.2数据集成的核心问题206
8.1.3数据集成的分类207
8.2数据迁移209
8.2.1在组织内部移动数据210
8.2.2非结构化数据集成211
8.2.3将处理移动到数据端212
8.3数据集成模式213
8.3.1联邦数据库集成模式213
8.3.2中间件集成模式214
8.3.3数据仓库集成模式215
8.4数据集成系统216
8.4.1全局模式217
8.4.2语义映射217
8.4.3查询重写218
8.5数据集成系统的构建218
8.5.1模式之间映射关系的生成218
8.5.2适应性查询219
8.5.3XML219
8.5.4P2P数据管理219
本章小结220
第9章大数据分析/221
知识结构221
9.1大数据分析概述221
9.1.1几种常用的大数据分析方法222
9.1.2数字特征223
9.1.3统计方法229
9.1.4常用的抽样组织形式230
9.2相关分析230
9.2.1相关系数231
9.2.2相关分析的任务231
9.2.3相关分析的过程232
9.3回归分析233
9.3.1回归分析过程233
9.3.2回归分析类型233
9.3.3回归模型与应用中的问题233
9.4判别分析234
9.4.1判别函数234
9.4.2判别分析方法235
9.5显著性检验238
9.5.1显著性检验的基本思想238
9.5.2检验步骤与检验方法239
9.6主成分分析240
9.6.1主成分分析原理240
9.6.2主成分分析方法举例240
9.6.3主成分分析Python程序243
本章小结246
第10章大数据挖掘/247
知识结构247
10.1大数据挖掘概述247
10.1.1数据统计分析与数据挖掘的主要区别248
10.1.2数据挖掘的定义与相关概念248
10.1.3数据挖掘的理论基础248
10.1.4基于数据存储方式的数据挖掘249
10.2关联规则251
10.2.1关联规则生成描述251
10.2.2频繁项目集生成算法252
10.3分类256
10.3.1分类的定义与典型的分类算法256
10.3.2分类的基本步骤258
10.3.3k近邻分类算法258
10.4聚类方法260
10.4.1聚类的概念260
10.4.2聚类算法的特点261
10.4.3聚类算法分类262
10.4.4距离与相似性的度量263
10.4.5划分聚类方法264
10.4.6层次聚类方法267
10.5序列模式268
10.5.1时间序列268
10.5.2时间序列挖掘的常用方法268
10.5.3序列模式挖掘269
10.6非结构化文本数据挖掘271
10.6.1用户反馈文本271
10.6.2用户反馈文本挖掘过程272
10.6.3文本的自然语言处理274
本章小结275
第11章数据可视化与可视分析/276
知识结构276
11.1数据可视化概述276
11.1.1数据可视化概念277
11.1.2感知与认知277
11.1.3可视化突出点与设计原则279
11.2大数据可视化工具与软件280
11.2.1Matplotlib简介281
11.2.2多图形和多坐标系284
11.2.3创建子图285
11.3绘制图形286
11.3.1折线绘制286
11.3.2散点图289
11.3.3泡泡图绘制290
11.3.4条形图绘制293
11.3.5直方图绘制295
11.3.6饼图绘制297
11.3.7轮廓图绘制300
11.3.8雷达图300
11.4大数据可视化302
11.4.1文本可视化302
11.4.2网络(图)可视化303
11.4.3时空数据可视化305
11.4.4多维数据可视化306
11.5大数据可视分析307
11.5.1可视分析的理论基础308
11.5.2大数据可视分析技术312
本章小结315
参考文献/316
作者介绍:
教授,博士生导师 。研究领域为分布计算、计算智能、大数据技术等。中国石油大学(北京)计算机科学与技术系创始系主任。获北京市教学名师奖。中国工程教育认证专家。
出版社信息:
暂无出版社相关信息,正在全力查找中!
书籍摘录:
暂无相关书籍摘录,正在全力查找中!
在线阅读/听书/购买/PDF下载地址:
原文赏析:
暂无原文赏析,正在全力查找中!
其它内容:
编辑推荐
本书主要介绍大数据的基本概念和技术,是数据科学与大数据专业的门专业基础教材。
前言
大数据技术的精髓是从大数据中产生新见解,识别复杂关系和做出越来越精准的预测。
大数据技术是现代科学与技术发展,尤其是计算机科学技术发展的重要成果和结晶,是计算机科学发展史的又一个新的里程碑。大数据的出现对计算机等许多领域产生了挑战与冲击,推动了计算机科学技术的发展。
大数据技术凝集了多学科的研究成果,是一门多学科交叉融合的技术。随着科学技术的发展,大数据技术发展更为迅速,应用更为深入与广泛,并凸显其巨大潜力和应用价值。
“数据科学与大数据技术导论”是数据科学与大数据技术专业的门专业基础课程。这门课程可以引导数据科学与大数据技术专业的学生走进大数据技术的大门。为此,本书内容的组织宽泛,以大数据技术为核心展开。从大数据的基本概念与特点到大数据处理平台(Hadoop、Spark),从数据获取、清洗、抽取、约简、转换、集成、统计分析、挖掘,到获得结果的全过程都进行了介绍。学生通过上述内容的学习,可以为后续课程的学习奠定坚实的基础。
本书在内容方面,注重大数据技术的基本概念、模型、结构和方法的清晰描述。对主要的算法,如分类算法、聚类算法等典型重要的算法给出了形式化描述,并给出了Python代码。
本书在结构上为积木状,各章内容独立地进行概念性与方法性论述。出于篇幅考虑,书中所提及定理没有给出证明,如需要可以查阅相关文献。
由于作者水平有限,书中不足之处在所难免,敬请读者批评指正。
编者
2021年1月
书籍介绍
大数据技术凝集了多学科的研究成果,是一门多学科的交叉融合技术。随着科学技术的发展,大数据技术发展更为迅速,应用更为深入与广泛,并凸显其巨大潜力和应用价值。 “数据科学与大数据技术导论”是数据科学与大数据技术专业的第一门专业基础课程。这门课程可以引导数据科学与大数据技术专业的学生走进大数据技术的大门。 本书主要介绍数据科学与大数据技术的基本知识。全书共分11章,包括数据科学与大数据技术概述、Hadoop大数据处理平台、大数据采集与存储管理、大数据抽取、大数据清洗、数据转换、大数据约简、大数据集成、大数据分析、大数据挖掘、数据可视化与可视分析等内容。 本书语言精练,内容完整,案例丰富,可作为高等院校“数据科学与大数据技术导论”课程的教材,也可作为学习数据科学与大数据技术人员的参考书。
网站评分
书籍多样性:7分
书籍信息完全性:8分
网站更新速度:3分
使用便利性:7分
书籍清晰度:4分
书籍格式兼容性:9分
是否包含广告:8分
加载速度:7分
安全性:9分
稳定性:4分
搜索功能:8分
下载便捷性:4分
下载点评
- 快捷(555+)
- 下载快(185+)
- 无颠倒(124+)
- 五星好评(255+)
- 值得下载(220+)
- 速度慢(82+)
- 实惠(210+)
- 购买多(544+)
- 愉快的找书体验(293+)
- 差评(551+)
- 藏书馆(536+)
- 无多页(249+)
下载评价
- 网友 辛***玮: ( 2024-12-28 19:16:16 )
页面不错 整体风格喜欢
- 网友 孙***夏: ( 2025-01-16 18:06:02 )
中评,比上不足比下有余
- 网友 芮***枫: ( 2025-01-01 15:21:04 )
有点意思的网站,赞一个真心好好好 哈哈
- 网友 戈***玉: ( 2024-12-23 13:29:45 )
特别棒
- 网友 常***翠: ( 2024-12-25 03:28:20 )
哈哈哈哈哈哈
- 网友 权***波: ( 2025-01-08 23:30:07 )
收费就是好,还可以多种搜索,实在不行直接留言,24小时没发到你邮箱自动退款的!
- 网友 温***欣: ( 2025-01-14 04:08:43 )
可以可以可以
- 网友 龚***湄: ( 2025-01-10 21:27:11 )
差评,居然要收费!!!
- 网友 方***旋: ( 2025-01-02 21:42:00 )
真的很好,里面很多小说都能搜到,但就是收费的太多了
- 网友 谢***灵: ( 2025-01-07 07:11:07 )
推荐,啥格式都有
- 网友 印***文: ( 2024-12-27 05:53:03 )
我很喜欢这种风格样式。
- 网友 游***钰: ( 2025-01-09 07:57:18 )
用了才知道好用,推荐!太好用了
- 网友 苍***如: ( 2025-01-09 03:27:22 )
什么格式都有的呀。
- 网友 冯***丽: ( 2025-01-01 01:34:58 )
卡的不行啊
喜欢"数据科学与大数据技术导论"的人也看了
正版现货 外国城市建设史(高等学校教学用书) 高等学校教学用书 沈玉麟 编 9787112008568中国建筑工业出版社正版 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
【最新版】2024管理类管理类、经济类联考教材MBA MPA MPAcc 老吕逻辑母题800练 吕建刚老吕 199专硕考研 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
国际象棋思考逻辑详解 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
预售【外图台版】大唐双龙传 连载完结20周年纪念松木书架限量典藏版 全套21册 / 黄易 盖亚文化 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
坚守与创新 基于区域实践的线上教学研究 刘庆华 编 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- WALLPAPER CITY GUIDE SERIES : TOKYO东京 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 如何让新开园快速满员 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 莲灯诗梦:林徽因 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 媒介地理学新论 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 开心教程 字词句段篇 版 (人教版)小学语文 六年级上(2012年5月印刷) 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 计算机辅助设计与制造 (第二版)(21世纪高等学校精品规划教材) 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 玩出来的逻辑思维——数和谜题 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 南瓜房子里的战争(美绘注音版)/可爱城的秘密 山东教育出版社 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- C专家编程 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- Visual Basic程序设计学习指导 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
书籍真实打分
故事情节:6分
人物塑造:8分
主题深度:7分
文字风格:5分
语言运用:6分
文笔流畅:5分
思想传递:8分
知识深度:8分
知识广度:4分
实用性:7分
章节划分:7分
结构布局:7分
新颖与独特:5分
情感共鸣:3分
引人入胜:7分
现实相关:9分
沉浸感:9分
事实准确性:3分
文化贡献:5分