如果安装成功【requests】可以直接【ALT+回车】引入啊,引入的过程自动下载
启动
执行
效果
TOP500信息爬取完毕。
Numpy简介 虽然在Python中包含许多的标准库能够处理文本和数值类型的数据,但Python还有更为丰富的第三方组件更擅长与各类数据打交道,例如Xlrd、Numpy、Scipy、Pandas等。这些组件它们侧重于数据处理,提供了一些强大的功能,比如数据统计、科学计算、统计建模等。其中Numpy是最为基础和常见的一个科学计算库。Numpy是一个运行速度非常快的数学库,主要用于数组计算,包括:强大的N维数组对象ndarray、广播功能函数、线性代数、傅里叶变换、随机数生成等功能。
ndarray的索引机制 ndarray对象的内容可以通过索引来访问和修改,其方式基本与Python中list的操作一样。
数组的索引与切片 对于一维数组 可以通过[index1]获取index1索引位置的某个元素 也可以通过[start: end]获取索引从start开始到end-1处的一段元素 还可以通过[start: end: step]获取步长为step的start开始到end-1处的一段元素 对于多维数组 可以通过[rank1_index, rank2_index,…],获取ndarray数组中处于指定位置处的某个元素。 也可以通过[rank1_start: rank1_end, rank2_start: rank2_end, …]获取索引从start开始到end-1处的一段元素 还可以通过使用省略号…来对剩余rank进行缺省
Numpy广播机制 NumPy广播是NumPy对不同形状的数组进行数值计算的方式,NumPy广播要求对数组的算术运算通常在相应的元素上进行。如果当运算中的2个数组的形状不同时,numpy将自动触发广播机制: 让所有输入数组都向其中形状最长的数组看齐,形状中不足的部分都在前面加1补齐。 输出数组的形状是输入数组形状的各个维度上的最大值。 如果输入数组的某个维度和输出数组的对应维度的长度相同或者其长度为1时,这个数组能够用来计算,否则出错。 当输入数组的某个维度的长度为1时,沿着此维度运算时都用此维度上的第一组值。 简单的说,当两个数组计算时,会比较它们的每个维度(若其中一个数组没有当前维度则忽略),如果满足以下三个条件则触发广播机制: 数组拥有相同形状。 当前维度的值相等。 当前维度的值有一个是1。 若条件不满足,则抛出"ValueError: frames are not aligned"异常。
【pip install pands】
Series
下载的时候比较慢,等一会就好了。
输出结果如下:
DataFrame
DataFrame数据结构 DataFrame是由多种类型的列构成的二维标签数据结构,类似于Excel、SQL表,或Series 对象构成的字典。 与Series不同的是,DataFrame具有两个索引,通过传递索引可以定位到具体的数值。
排序与统计
输出结果
a 1b 2c 3d 0dtype: int64z x ya 3 4 5c 0 1 2d 6 7 8x y zc 1 2 0a 4 5 3d 7 8 6z y xc 0 2 1a 3 5 4d 6 8 7b a1 -3 63 2 30 4 12 7 5b a0 4 13 2 32 7 51 -3 6Process finished with exit code 0
统计函数
功能说明
count
非NaN值的数量
min,max
最小值和最大值
argmin,argmax
最小值和最大值的索引位置(整数)
idxmin,idxmax
最小值和最大值的索引值
sum
求和
mean
均值
var
方差
std
标准差
diff
异常值处理
缺失数据在大部分数据分析应用中都很常见,Pandas的设计目标之一就是让缺失数据的处理任务尽量轻松 Pandas使用浮点值NaN(Not a umber)表示浮点和非浮点数组中的缺失数据 Pandas提供了专门的处理缺失数据的函数:
函数
说明
dropna
根据各标签的值中是否存在缺失数据对轴标签进行过滤
fillna
用指定值或插值函数填充缺失数据
isnull
返回一个含有布尔值的对象,这些布尔值表示哪些值是缺失值
notnull
返回一个含有布尔值的对象,这些布尔值表示哪些值不是缺失值
时间序列数据是一种重要的结构化数据形式。在Python语言中,主要使用datatime模块来处理时间:datetime对象间的减法运算会得到一个timedelta对象,timedelta对象代表两个时间之间的时间差。datetime对象与它所保存的字符串格式时间戳之间可以互相转换。在Pandas中,主要使用从Series派生出来的子类TimeStamp:最基本的时间序列类型就是以时间戳(TimeStamp)为index元素的Series类型。时间序列只是index比较特殊的Series,因此一般的索引操作对时间序列依然有效。时间序列只是index比较特殊的Series,因此一般的索引操作对时间序列依然有效。