Mac上Intellij使用技巧

JerryHouse | 未分类 | 2014-08-11
在Intellij中创建项目的简单过程 1. 新建一个project. 2. 在新建的project里面添加module. 3. 将module里面的某个文件夹标记为root directory,才能在root directory里面添加package,添加package后能在package中添加类。   在Intellij中删除recent projects 1. Fn + delete   [阅读全文]
ė 6没有评论 0

hive数据倾斜的解决方案

JerryHouse | hadoop, hive, 数据分析 | 2014-08-03
分布式文件系统HDFS可以存储海量的数据(以T为单位的数据量),分布式计算框架MapReduce可以对存储在HDFS的数据进行处理后再将结果写回到HDFS。MapReduce + HDFS可以完成对海量数据的批量处理,但是这套组合会导致很多重复性的工作,有些处理起来比较繁琐,例如从文件中选取特定行数的数据,按照某些字段对数据进行排序,统计某些字段出现的字数,将多... [阅读全文]

Python制作统计图形

JerryHouse | python, 数据分析 | 2014-07-19

Pandas之Dataframe操作

JerryHouse | python, 数据分析 | 2014-07-19
Pandas是Python下一个开源数据分析的库,它提供的数据结构DataFrame极大的简化了数据分析过程中一些繁琐操作。 1. 基本使用:创建DataFrame. DataFrame是一张二维的表,大家可以把它想象成一张Excel表单或者Sql表。Excel 2007及其以后的版本的最大行数是1048576,最大列数是16384,超过这个规模的数据Excel就会弹出个框框“此文本包含多行文本,无... [阅读全文]

Python网页抓取

JerryHouse | python | 2014-07-19
在试图开发一个有意思的应用时需要用到某个网站的数据,查阅了网上Python的urllib2库的资料后,我很快用Python写出了一个获取网页内容原型: import urllib2 request = urllib2.Request(url) response = urllib2.urlopen(request) 然后使用BeautifulSoup对网页的内容进行了分析: from bs4 import BeautifulSoup soup = BeautifulSoup(res... [阅读全文]

Excel导入CSV文件中文乱码

JerryHouse | mac | 2014-07-19
一般Windows用户在使用Excel处理数据文件时都不会关心文件的编码,因为Excel支持Windows上默认使用的简体中文编码GB2312,但使用MAC的用户就没有那么省心了,一不小心就会碰到中文乱码的问题。在Mac上的Excel中为什么会出现中文乱码的情况呢?这是就需要了解一些文件编码的背景知识。文件在计算内部采用的是二进制(0和1)的形式存放,那么给定一个0和1... [阅读全文]

日志分析–日志搜集

JerryHouse | 日志分析 | 2014-07-19
日志分析–日志搜集
“云”的出现使得拥有和维护网站变得简单和便捷,只需要按照服务商提供的按照帮助手册上的指示点击一系列按钮,一个新的网站随之诞生,再花上几十元钱,申请一个指向这个网站的域名,它就可以被全世界的人访问。在这些形形色色的网站中,有些用于记录和展示私人经历,而另外一些则肩负着带来更多购买公司产品的顾客的使命。公司尤其是互联网... [阅读全文]
ė 6没有评论 0
Ɣ回顶部