数据科学有一个很大的优点是,数据科学家使用的许多最先进的工具都是免费的。事实上,业内免费工具的数量已经非常之大,有时甚至会让人头疼,不知该如何选择。为了帮助大家确定自己该选择哪些工具,这里列出了用于数据处理的五个值得了解的免费软件工具。

Anaconda Distribution
Python之所以成为数据科学领域的一个伟大工具,是因为有大量开发人员构建了基于Python的数据科学库。对于使用Python完成工作的数据科学家来说,诸如NumPy、SciPy、panda、scikit-learn等库是必不可少的。不幸的是,即使对于经验最丰富的开发者来说,处理所有这些Python库也是一个挑战。它们可能很难安装,而且许多都依赖于Python之外的某个软件。
RStudio & RStudio Server
RStudio是一个集成开发环境(IDE),是为在R语言中执行交互式数据分析和更正式的编程而定制的。RStudio为交互式工作环境提供了一个完美的平衡,它支持R控制台和数据可视化面板,以及功能齐全的文本编辑器,该文本编辑器可以实现语法高亮显示和代码补全。
OpenRefine
OpenRefine最初由谷歌的工程师开发,是一种用于数据清理的开源工具。它允许从业者读取混乱或损坏的数据,执行批量转换以修复错误,并生成干净的数据,并以一系列有用的格式导出结果。

Apache Airflow
在大多数组织中,数据并不是存留在一个地方,也不是只使用一种方法访问的。通常有多个数据库、数据存储系统、API和其他进程,来跟踪整个组织中的数据。数据团队的主要工作是将数据从存留的位置移动到需要进行分析的位置,并根据需要进行转换。理想情况下,这项工作应该尽可能自动化,Apache Airflow可以完成此事。
Airflow是Airbnb的工程师为内部使用开发的,2015年开源。它是一个映射、自动化和调度复杂工作流的工具,这些工作流涉及了许多具有相互依赖关系的不同系统。它可以监控这些流程是否成功,并在出现问题时提醒工程师。Airflow还有一个基于Web的用户界面,它将工作流表示为一个小作业网络,这样依赖关系就可以很容易地实现可视化。
H2O
H2O是一个开源工具,它提供了最流行的统计和机器学习算法的高效和可扩展实现。它可以连接到许多不同类型的数据存储系统,可以在包括从笔记本电脑到大型计算集群的任何设备上运行。它拥有强大和灵活的工具,来构建模型原型并进行微调,而且在H2O中构建的模型非常易于部署到生产环境中。最重要的是,H2O有Python和R的API,因此数据科学家可以无缝地将其与现有环境集成。
目前数据科学领域的软件工具数不胜数,在项目启动时,选择足够优秀的免费工具来加速和优化数据流程是一个不错的选择。
5个免费工具 让数据科学更加简单
扫一扫手机访问
