热门项目学历提升培训课程培训学校优精品网课讯息资讯厚学知道惠生活

JAVA

培训首页> JAVA培训头条> 大数据领域支持Java的主流开源工具

大数据领域支持Java的主流开源工具

JAVA

发表时间：2017-08-28 1163人浏览

　　没有java，甚至不会有大数据的大发展，hadoop本身就是用java编写的。当你需要在运行mapreduce的服务器集群上发布新功能时，你需要进行动态的部署，而这正是java所擅长的。

　　大数据领域支持java的主流开源工具：

　　1. hdfs

　　hdfs是hadoop应用程序中主要的分布式储存系统， hdfs集群包含了一个namenode(主节点)，这个节点负责管理所有文件系统的元数据及存储了真实数据的datanode(数据节点，可以有很多)。hdfs针对海量数据所设计，所以相比传统文件系统在大批量小文件上的优化，hdfs优化的则是对小批量大型文件的访问和存储。

　　2. mapreduce

　　hadoop mapreduce是一个软件框架，用以轻松编写处理海量(tb级)数据的并行应用程序，以可靠和容错的方式连接大型集群中上万个节点(商用硬件)。

　　3. hbase

　　apache hbase是hadoop数据库，一个分布式、可扩展的大数据存储。它提供了大数据集上随机和实时的读/写访问，并针对了商用服务器

　　集群上的大型表格做出优化——上百亿行，上千万列。其核心是google bigtable论文的开源实现，分布式列式存储。就像bigtable利用

　　gfs(google file system)提供的分布式数据存储一样，它是apache hadoop在hdfs基础上提供的一个类bigatable。

　　4. cassandra

　　apache cassandra是一个高性能、可线性扩展、高有效性数据库，可以运行在商用硬件或云基础设施上打造完美的任务关键性数据平台。

　　在横跨数据中心的复制中，cassandra同类佳，为用户提供更低的延时以及更可靠的灾难备份。通过log-structured update、反规范化和物化视图的强支持以及强大的内置缓存，cassandra的数据模型提供了方便的二级索引(column indexe)。

　　5. hive

　　apache hive是hadoop的一个数据仓库系统，促进了数据的综述(将结构化的数据文件映射为一张数据库表)、即席查询以及存储在hadoop兼容系统中的大型数据集分析。hive提供完整的sql查询功能——hiveql语言，同时当使用这个语言表达一个逻辑变得低效和繁琐时，hiveql还允许传统的map/reduce程序员使用自己定制的mapper和reducer。

　　6. pig

　　apache pig是一个用于大型数据集分析的平台，它包含了一个用于数据分析应用的语言以及评估这些应用的基础设施。pig应用的闪光特性在于它们的结构经得起大量的并行，也就是说让它们支撑起非常大的数据集。pig的基础设施层包含了产生map-reduce任务的编译器。pig的语言层当前包含了一个原生语言——pig latin，开发的初衷是易于编程和保证可扩展性。

　　7. chukwa

　　apache chukwa是个开源的数据收集系统，用以监视大型分布系统。建立于hdfs和map/reduce框架之上，继承了hadoop的可扩展性和稳定性。chukwa同样包含了一个灵活和强大的工具包，用以显示、监视和分析结果，以保证数据的使用达到佳效果。

　　8. ambari

　　apache ambari是一个基于web的工具，用于配置、管理和监视apache hadoop集群，支持hadoop hdfs,、hadoop mapreduce、hive、hcatalog,、hbase、zookeeper、oozie、pig和sqoop。ambari同样还提供了集群状况仪表盘，比如heatmaps和查看mapreduce、pig、hive应用程序的能力，以友好的用户界面对它们的性能特性进行诊断。

　　9. zookeeper

　　apache zookeeper是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、命名服务、分布式同步、组服务等。

　　zookeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能、功能稳定的系统提供给用户。

　　10. sqoop

　　sqoop是一个用来将hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库中数据导入hadoop的hdfs中，也可以将hdfs中数据导入关系型数据库中。

　　11. oozie

　　apache oozie是一个可扩展、可靠及可扩充的工作流调度系统，用以管理hadoop作业。oozie workflow作业是活动的directed acyclical

　　graphs(dags)。oozie coordinator作业是由周期性的oozie workflow作业触发，周期一般决定于时间(频率)和数据可用性。oozie与

　　余下的hadoop堆栈结合使用，开箱即用的支持多种类型hadoop作业(比如：java map-reduce、streaming map-reduce、pig、 hive、sqoop和distcp)以及其它系统作业(比如java程序和shell脚本)。

　　12. mahout

　　apache mahout是个可扩展的机器学习和数据挖掘库，当前mahout支持主要的4个用例：

　　挖掘：搜集用户动作并以此给用户可能喜欢的事物。

　　聚集：收集文件并进行相关文件分组。

　　分类：从现有的分类文档中学习，寻找文档中的相似特征，并为无标签的文档进行正确的归类。

　　频繁项集挖掘：将一组项分组，并识别哪些个别项会经常一起出现。

　　13. hcatalog

　　apache hcatalog是hadoop建立数据的映射表和存储管理服务，它包括：

　　提供一个共享模式和数据类型机制。

　　提供一个抽象表，这样用户就不需要关注数据存储的方式和地址。

　　为类似pig、mapreduce及hive这些数据处理工具提供互操作性。

继续浏览有关 JAVA的文章

上一篇：美国留学各阶段费用详细解析

下一篇：五种交互设计所需的思维方式

分享到：

温馨提示

个性定制课程

江苏
安徽
浙江
山东
福建
广东
江西
湖南
湖北
四川
河北
辽宁
吉林
黑龙江
内蒙古
宁夏
山西
陕西
河南
甘肃
新疆
西藏
青海
云南
贵州
广西
海南
北京
上海
天津
重庆

南京

南京
苏州
镇江
无锡
常州
扬州
北京
天津
上海
重庆
南通
泰州
淮安
盐城
宿迁
徐州
连云港
中国香港特别行政区
中国澳门特别行政区
中国台湾省
海口
琼海
三亚
五指山
南宁
百色
钦州
北海
玉林
桂林
梧州
柳州
河池
崇左
贵港
贺州
来宾
防城港
贵阳
铜仁
凯里
安顺
黔南布依族苗族自治州
黔西南布依族苗族自治州
六盘水
遵义
毕节
昆明
曲靖
大理
保山
昭通
楚雄
普洱
玉溪
丽江
迪庆藏族自治州
红河哈尼族彝族自治州
西双版纳傣族自治州
临沧
德宏傣族景颇族自治州
西宁
海西蒙古族藏族自治州
海东市
海南藏族自治州
果洛藏族自治州
黄南藏族自治州
玉树
西海
海西蒙古族藏族自治州
拉萨
日喀则
泽当
昌都
林芝
阿里地
那曲
乌鲁木齐
石河子
博乐市
塔城
阿勒泰
伊宁市
哈密
昌吉
克拉玛依
阿克苏
吐鲁番
巴音郭楞蒙古自治州
喀什
和田
五家渠
图木舒克
阿拉尔
兰州
白银
临夏
武威
张掖
酒泉
金昌
天水
平凉
嘉峪关
甘南藏族自治州
陇南
庆阳
定西
郑州
新乡
焦作
安阳
鹤壁
濮阳
许昌
漯河
驻马店
信阳
周口
平顶山
洛阳
三门峡
南阳
开封
商丘
西安
渭南
延安
汉中
咸阳
宝鸡
铜川
商洛
安康
榆林
太原
忻州
临汾
运城
长治
朔州
大同
阳泉
晋城
晋中
吕梁
银川
中卫
吴忠
石嘴山
固原
合肥
芜湖
蚌埠
淮南
马鞍山
淮北
铜陵
安庆
黄山
滁州
阜阳
六安
亳州
宣城
池州
杭州
绍兴
丽水
宁波
台州
衢州
湖州
金华
温州
嘉兴
舟山
济南
淄博
东营
烟台
青岛
莱芜
济宁
菏泽
日照
聊城
德州
滨州
潍坊
威海
泰安
临沂
枣庄
福州
莆田
南平
宁德
厦门
漳州
龙岩
三明
泉州
广州
清远
东莞
韶关
梅州
汕头
潮州
惠州
汕尾
河源
深圳
茂名
佛山
中山
阳江
江门
肇庆
湛江
珠海
云浮
揭阳
南昌
九江
上饶
鹰潭
宜春
新余
赣州
吉安
抚州
萍乡
景德镇
长沙
湘潭
株洲
益阳
岳阳
常德
湘西土家族苗族自治州
娄底
怀化
邵阳
郴州
衡阳
永州
张家界
武汉
天门
孝感
荆州
黄石
鄂州
咸宁
黄冈
宜昌
恩施
襄阳
随州
荆门
潜江
十堰
仙桃
成都
巴中
德阳
雅安
遂宁
内江
宜宾
达州
资阳
眉山
广元
凉山彝族自治州
甘孜藏族自治州
乐山
攀枝花
绵阳
广安
南充
自贡
泸州
石家庄
衡水
邯郸
沧州
秦皇岛
唐山
承德
保定
廊坊
邢台
张家口
沈阳
辽阳
铁岭
抚顺
鞍山
阜新
营口
大连
锦州
朝阳
葫芦岛
丹东
本溪
盘锦
长春
吉林
通化
四平
辽源
白山
延边朝鲜族自治州
松原
白城
哈尔滨
绥化
伊春
佳木斯
鹤岗
七台河
牡丹江
鸡西
齐齐哈尔
黑河
大庆
双鸭山
呼和浩特
包头
乌海
赤峰
通辽
鄂尔多斯
呼伦贝尔
乌兰浩特市
巴彦淖尔
乌兰察布
加格达奇区
江阴
宿州
西夏区
济源市
阿坝藏族羌族自治州
中卫市
锡林郭勒盟
兴安盟
阿拉善盟
神农架林区
怒江傈僳族自治州
文山壮族苗族自治州
博尔塔拉蒙古自治州
克孜勒苏柯尔克孜自治州
伊犁哈萨克自治州
铁门关市
山南
大兴安岭地区
三沙
儋州
文昌
万宁
东方
定安县
屯昌县
澄迈县
临高县
白沙黎族自治县
昌江黎族自治县
乐东黎族自治县
陵水黎族自治县
保亭黎族苗族自治县
琼中黎族苗族自治县
黔东南苗族侗族自治州
海北藏族自治州
简阳市
KA大客户
KA大客户测-正式
KA大客户测-测试
行业大客户
垂直频道
学途网
垂直频道测试城市
接单一部城市
全国
接单二部城市
未知
客服一区城市
客服二区城市
客服三区城市

获取验证码

温馨提示

我们的服务

用户帮助

帮助中心

关于厚学

服务支持

大数据领域支持Java的主流开源工具

个性定制课程

你应该知道的18个Java多线程问题

JAVA基础学习内容

JAVA培训内容

软件工程师就业前景

Java专业人才缺乏

成为java高手要具备的8个条件

介绍几个andriod和java的开发工具

java常用的排序算法你知道哪些

为什么JAVA开发可以火这么久

Java常用语言汇总