blog

两位西格玛的Wes McKinney谈论大数据互操作性

<p>解决大数据问题有许多不同的组件和系统,其中一个重大挑战是互操作性将组件插在一起以在一个系统和另一个系统之间传输数据可能会产生高成本Apache Arrow项目是如何解决问题的一个很好的例子与互操作性相关的成本,速度和灵活性它是十几个大数据项目的合作,决定创建一种技术,使他们能够更有效地将系统集成在一起,快速移动数据并在内存中处理它而无需大量的转换对这样的项目充满热情的人是Wes McKinney,他是在对冲基金AQR Capital Management开始Pandas开源项目的着名数据科学家,McKinney在过去的七年里一直在Python开源生态系统工作,后来为Cloudera工作,在Python开源数据科学堆栈和</p><p>之间建立集成大数据Hadoop生态系统他去年作为Two Sigma Investments的软件工程师回到量化交易世界他将在新闻周刊即将举行的伦敦数据科学资本市场活动中发表演讲McKinney表示,不同的数据管理系统花费80-90%在一种格式和另一种格式之间转换的时间“每个系统都会说一种不同的语言,所以这个[Apache Arrow]为数据建立了一种高效的通用语言,我们可以用它来使整体大于其各部分的总和”去年作为Apache Arrow项目的一部分,McKinney与R社区的知名开发人员Hadley Wickham合作他们共同构建了一个名为Feather的小文件格式,这是一种适用于R和Python的可互操作的高速数据存储格式,已经变得非常受欢迎在这两个社区中“您发现许多数据科学家在他们的工作中同时使用R和Python,因此他们能够分解这些墙并且能够在环境之间更加流畅地过渡,“McKinney说道</p><p>”某些任务中R是一个更强大的工具,特别是在数据可视化和统计中,并且某些任务中Python是更强大的工具,特别是软件工程和机器学习</p><p>能够构建一个混合分析环境,您可以轻松地来回移动是非常有用的“这项技术在Apache Spark项目中也非常相关,它具有Python和R编程接口</p><p>通常它们可能比本机Scala语言慢接口“您可以将Spark与Python和R一起使用,但由于数据传输效率低下而导致性能下降,”McKinney表示,这项重要的工作正在以两位西格玛的合作方式开展</p><p> Spark开发人员在Python和Apache之间建立更好,更紧密的集成Spark Arrow一直是构建数据互操作技术桥梁 - 麦金尼在波士顿举行的波士顿峰会上谈论的事情两西格玛聘请了大量的研究人员,需要一流的工程团队来推动其数据科学平台的创新</p><p>鉴于近年来创新的快速发展,公司拥有选择充分利用开源技术堆栈中的最佳功能例如,Two Sigma已经建立了一个名为Flint的开源项目,这是一个可扩展的时间序列分析软件包,用于Spark McKinney说:“这填补了生态系统的主要需求Spark擅长传统的SQL类型的关系数据和ETL(提取,转换,加载)工作负载;对于时间序列数据来说,它不是一个强大的工具,我们处理大量的时间序列数据,因此这是我们投资的一个领域我们认为参与开源是正确的方法我们也参与其中在Python Pandas项目中“从他在Pandas工作的经验来看,McKinney说他从行业用户那里学到了很多有价值的东西,他们会把他们遇到的真实世界问题带到桌面上</p><p>日常的数据清理可能看起来不太性感,但是它帮助定义了要添加到项目中的新功能“您会惊讶于您在野外看到的不同数据输入格式的数量;多年来,我们不得不在Pandas中发展工具,以满足全球数十万用户的需求,

查看所有