spark之dataframe操作

JerryHouse | python, 数据分析 | 2017-08-01
spark之dataframe操作
spark创建dataframe data = sqlContext.createDataFrame([("Alberto", 2), ("Dakota", 2)], ["Name", "askdaosdka"]) data.show() data.printSchema() # Output #+-------+----------+ #| Name|askdaosdka| #+-------+----------+ #|Alberto| 2| ... [阅读全文]
ė 6spark之dataframe操作已关闭评论 0, ,

windows安装xgboost

JerryHouse | python, 数据分析 | 2017-03-06
windows安装xgboost
下面是xgboost在windows上的安装文件,我会不定期更新: x86 Not GPU-enabled x86 GPU enabled x64 Not GPU-enabled x64 GPU enabled python接口安装步骤 git clone https://github.com/dmlc/xgboost.git xgboost_install_dir 将libxgboost.dll 拷贝到xgboost_install_dir\python-package\xgboost\ 文件夹中 进入xgboost_install_dir\python-package... [阅读全文]
ė 6windows安装xgboost已关闭评论 0,

2016年十大最热门的Python库

JerryHouse | python, web, 数据分析 | 2016-12-23
去年,我们回顾了我们认为是2015年最好的Python库,这在Python社区中广泛分享。一年过去了,现在是时候给予应有的评价,今年开源社区做了很棒的工作。再次,我们试图避免大多数已建立的选择,如Django,Flask等,这些是现在的标准选择。此外,这些库中的一些在2016年之前就存在了,但他们在今年的人气激增,或者我们认为他们是足够大,值得拥有。 1.Zap... [阅读全文]
ė 62016年十大最热门的Python库已关闭评论 0, , ,

python数据库操作

JerryHouse | mysql, python | 2015-12-30
目前python已经广泛应用于数据分析和网站建设,而不论是数据分析还是网站建设都涉及到了数据库操作。 利用python对数据库中的数据进行操作的第一步就是安装相应的数据库模块,以mysql为例,一般先要安装mysqlclient模块。作者当时在ubuntu的机器上安装mysqlclient时碰到了各种莫名其妙的错误,现将正确的安装姿势总结如下: 1.ubuntu下python版本为2.x... [阅读全文]
ė 6python数据库操作已关闭评论 0,

Pandas读取数据到Dataframe

JerryHouse | mysql, python, 数据分析 | 2015-05-14
Python中用Pandas进行数据分析,最常用的就是Dataframe数据结构,之前写过一篇文章介绍Pandas的基本用法,后来有些朋友问Pandas怎么从数据库中读取数据,怎么从文件中读取数据之类的问题,因此单独开篇文章介绍Pandas如何读取数据到Dataframe。将Dataframe写入文件和数据库可以参考这篇文章 1. Pandas读取Mysql数据 要读取Mysql中的数据,首先要安装Mysq... [阅读全文]
ė 6Pandas读取数据到Dataframe已关闭评论 0, ,

Python安装Matplotlib等科学计算包

JerryHouse | python, 数据分析 | 2015-05-13
Python安装Matplotlib等科学计算包
随着Pandas,ScikitLearn,Matplotlib等机器学习和统计作图的包在Python中的出现,加上Python本身的简单和通用,越来越多的人开始使用Python作为数据分析的编程语言。Python众多开源的数据分析包极大的方便了数据分析工作,但是各个包之间复杂的依赖和版本不一致问题,安装这些包的过程相当容易出错,解决这些错误是个相当耗时和令人沮丧的过程。我也这... [阅读全文]
ė 6Python安装Matplotlib等科学计算包已关闭评论 0,

Python层次聚类

JerryHouse | python, 数据分析 | 2015-01-29
Python中的机器学习包scikit-learn中提供了包括:kmeans, 谱向聚类, 层次聚类等在内的聚类算法。本文给出了一个对词向量进行层次聚类的例子。 词向量是由word2vec从某美食网站的点评中训练得到,输入是分好词语的点评,输出是词语机器相应的向量表达,该向量包含了词语的topic信息。其中”地瓜干”和“味道”对应的词向量如下: ... [阅读全文]

Python的中文编码问题

JerryHouse | python | 2015-01-19
Python中碰到的中文问题一般分为两种:代码中包含中文;处理的数据中包含中文。问题不一样,解决的方法也不尽相同,本文以实例的方式进行说明。 1. 代码中包含中文字符的问题 实际问题中我们经常要使用到字符串的长度,例如”中”的字符串长度就是1,“中国”的字符串长度是2。在Python中我们使用下面的代码统计字符串长度: pr... [阅读全文]
Ɣ回顶部