设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 创业者 手机 数据
当前位置: 首页 > 服务器 > 安全 > 正文

史上最全的“大数据”学习资源(下)

发布时间:2021-01-06 23:27 所属栏目:53 来源:网络整理
导读:《史上最全的“大数据”学习资源(下)》要点: 本文介绍了史上最全的“大数据”学习资源(下),希望对您有用。如果有疑问,可以联系我们。 服务编程 ?? Akka Toolkit :JVM中分布性、容错事件驱动应用程序的运行时间; ?? Apache Avro :数据序列化系统;

《史上最全的“大数据”学习资源(下)》要点:
本文介绍了史上最全的“大数据”学习资源(下),希望对您有用。如果有疑问,可以联系我们。

服务编程

  • ??Akka Toolkit:JVM中分布性、容错事件驱动应用程序的运行时间;
  • ??Apache Avro:数据序列化系统;
  • ??Apache Curator:Apache ZooKeeper的Java库;
  • ??Apache Karaf:在任何OSGi框架之上运行的OSGi运行时间;
  • ??Apache Thrift:构建二进制协议的框架;
  • ??Apache Zookeeper:流程管理集中式服务;
  • ??Google Chubby:一种松耦合分布式系统锁服务;
  • ??Linkedin Norbert:集群管理器;
  • ??OpenMPI:消息传递框架;
  • ??Serf:服务发现和协调的分散化解决方案;
  • ??Spotify Luigi:一种构建批处理作业的复杂管道的Python包,它能够处理依赖性解析、工作流管理、可视化、故障处理、命令行一体化等等问题;
  • ??Spring XD:数据摄取、实时分析、批量处理和数据导出的分布式、可扩展系统;
  • ??Twitter Elephant Bird:LZO压缩数据的工作库;
  • ??Twitter Finagle:JVM的异步网络堆栈.

调度

  • ??Apache Aurora:在Apache Mesos之上运行的服务调度程序;
  • ??Apache Falcon:数据管理框架;
  • ??Apache Oozie:工作流作业调度程序;
  • ??Chronos:分布式容错调度;
  • ??Linkedin Azkaban:批处理工作流作业调度;
  • ??Schedoscope:Hadoop作业敏捷调度的Scala DSL;
  • ??Sparrow:调度平台;
  • ??Airflow:一个以编程方式编写、调度和监控工作流的平台.

机器学习

  • ??Apache Mahout:Hadoop的机器学习库;
  • ??brain:JavaScript中的神经网络;
  • ??Cloudera Oryx:实时大规模机器学习;
  • ??Concurrent Pattern:Cascading的机器学习库;
  • ??convnetjs:Javascript中的机器学习,在浏览器中训练卷积神经网络(或普通网络);
  • ??Decider:Ruby中灵活、可扩展的机器学习;
  • ??ENCOG:支持多种先进算法的机器学习框架,同时支持类的标准化和处理数据;
  • ??etcML:机器学习文本分类;
  • ??Etsy Conjecture:Scalding中可扩展的机器学习;
  • ??Google Sibyl:Google中的大规模机器学习系统;
  • ??GraphLab Create:Python的机器学习平台,包括ML工具包、数据工程和部署工具的广泛集合;
  • ??H2O:Hadoop统计性的机器学习和数学运行时间;
  • ??MLbase:用于BDAS堆栈的分布式机器学习库;
  • ??MLPNeuralNet:针对iOS和Mac OS X的快速多层感知神经网络库;
  • ??MonkeyLearn:使文本挖掘更为容易,从文本中提取分类数据;
  • ??nupic:智能计算的Numenta平台,它是一个启发大脑的机器智力平台,基于皮质学习算法的精准的生物神经网络;
  • ??PredictionIO:建于Hadoop、Mahout和Cascading上的机器学习服务器;
  • ??SAMOA:分布式流媒体机器学习框架;
  • ??scikit-learn:scikit-learn为Python中的机器学习;
  • ??Spark MLlib:Spark中一些常用的机器学习(ML)功能的实现;
  • ??Vowpal Wabbit:微软和雅虎发起的学习系统;
  • ??WEKA:机器学习软件套件;
  • ??BidMach:CPU和加速GPU的机器学习库.

基准测试

  • ??Apache Hadoop Benchmarking:测试Hadoop性能的微基准;
  • ??Berkeley SWIM Benchmark:现实大数据工作负载基准测试;
  • ??Intel HiBench:Hadoop基准测试套件;
  • ??PUMA Benchmarking:MapReduce应用的基准测试套件;
  • ??Yahoo Gridmix3:雅虎工程师团队的Hadoop集群基准测试.

安全性

  • ??Apache Knox Gateway:Hadoop集群安全访问的单点;
  • ??Apache Sentry:存储在Hadoop的数据安全模块.

系统部署

  • ??Apache Ambari:Hadoop管理的运作框架;
  • ??Apache Bigtop:Hadoop生态系统的部署框架;
  • ??Apache Helix:集群管理框架;
  • ??Apache Mesos:集群管理器;
  • ??Apache Slider:一种YARN应用,用来部署YARN中现有的分布式应用程序;
  • ??Apache Whirr:运行云服务的库集;
  • ??Apache YARN:集群管理器;
  • ??Brooklyn:用于简化应用程序部署和管理的库;
  • ??Buildoop:基于Groovy语言,和Apache BigTop类似;
  • ??Cloudera HUE:和Hadoop进行交互的Web应用程序;
  • ??Facebook Prism:多数据中心复制系统;
  • ??Google Borg:作业调度和监控系统;
  • ??Google Omega:作业调度和监控系统;
  • ??Hortonworks HOYA:可在YARN上部署HBase集群的应用;
  • ??Marathon:用于长期运行服务的Mesos框架.

应用程序

  • ??Adobe spindle:使用Scala、Spark和Parquet处理的下一代web分析;
  • ??Apache Kiji:基于HBase,实时采集和分析数据的框架;
  • ??Apache Nutch:开源网络爬虫;
  • ??Apache OODT:用于NASA科学档案中数据的捕获、处理和共享;
  • ??Apache Tika:内容分析工具包;
  • ??Argus:时间序列监测和报警平台;
  • ??Countly:基于Node.js和MongoDB,开源的手机和网络分析平台;
  • ??Domino:运行、规划、共享和部署模型——没有任何基础设施;
  • ??Eclipse BIRT:基于Eclipse的报告系统;
  • ??Eventhub:开源的事件分析平台;
  • ??Hermes:建于Kafka上的异步消息代理;
  • ??HIPI Library:在Hadoop’s MapReduce上执行图像处理任务的API;
  • ??Hunk:Hadoop的Splunk分析;
  • ??Imhotep:大规模分析平台;
  • ??MADlib:RDBMS的用于数据分析的数据处理库;
  • ??Kylin:来自eBay的开源分布式分析工具;
  • ??PivotalR:Pivotal HD / HAWQ和PostgreSQL中的R;
  • ??Qubole:为自动缩放Hadoop集群,内置的数据连接器;
  • ??Sense:用于数据科学和大数据分析的云平台;
  • ??SnappyData:用于实时运营分析的分布式内存数据存储,提供建立在Spark单一集成集群中的数据流分析、OLTP(联机事务处理)和OLAP(联机分析处理);
  • ??Snowplow:企业级网络和事件分析,由Hadoop、Kinesis、Redshift 和Postgres提供技术支持;
  • ??SparkR:Spark的R前端;
  • ??Splunk:用于机器生成的数据的分析;
  • ??Sumo Logic:基于云的分析仪,用于分析机器生成的数据;
  • ??Talend:用于YARN、Hadoop、HBASE、Hive、HCatalog和Pig的统一开源环境;
  • ??Warp:利用大数据(OS X app)的实例查询工具.

(编辑:ASP站长网)

网友评论
推荐文章
    热点阅读