Python语言是一种典型的脚本语言,简洁,语法约束少,接近人类语言。有丰富的数据结构,例如列表、字典、集合等。具有可移植性,支持面向过程和面向对象编程,并且开源。以下是小编为你整理的入门教程
下载安装:从python官网下载开发和运行环境程序。本例下载python-.amd64的安装包,并安装。
开发工具:window系统中,python有多种开发工具,比如,一、直接在cmd命令窗口执行,但此种仅能单条语句执行,不能运行完整的程序。二、python自带的集成开发环境,可通过开始——所有程序————IDLE(Python GUI)启动。三、其他集成开发环境,如PythonWin等,有编辑和调试能力,还实现了MFC类库存的包装。
[图片0]
本例中,使用python自带的开发环境。File—New File,新建py文档,编写程序,保存。Run——Run module,可得到运行结果。
封装性:可以把属性、方法结合在一起,不可以直接访问对象的属性,仅能通过接口与对象发生联系。以下把方法和属性封装成了一个类。
构造器:python有3种类型的构造器,且一个类中仅可以定义一个构造器,若多个,则以最后为准。1.若不声明,则默认为一个没有任何操作的特殊的__init__方法,__init__(self),此时可通过obj = my_class()声明实例。 2.自声明__init__构造器,会覆盖默认的,且可以更新类的数据属性。3.构造器方法__new__(),用于不可变内置类型派生,不能通过实例访问属性,仅能通过类访问。
继承性:python支持多继承,且子类继承了父类的方法和属性。若子类中有和父类相同名称的方法,则子类会覆盖(Override)父类方法。父类方法依旧可以访问。
数据结构:有丰富的数据结构,例如列表、字典、集合等。本例简单介绍字典的使用。字典是键值对的无序集合,是可变对象。键在字典中是唯一的且必须是不可变对象。值可以是可变对象或不可变对象。以下例子对python字典的定义、访问、更新等的操作。
学会python的作用
Python高级工程师 : 北上广深的话,薪金在1万以上,需要精通Linux/Unixg平台,有英语阅读功底。
Web网站开发方向: 熟悉Web开发的常用 Python框架,熟悉掌握Mysql类数据库的操作即可。
SEO工程师: 为自己或公司开发和改进SEO相关软件,实现自动化搜索引擎优化和日常重复工作。
Python自动化测试:熟悉自动化流程、方法和常用的模块的使用,有英文读写的能力。
Linux运维工程师: Linux服务器管理,数据分析、自动化处理任务、分析网站日志、定时计划管理,解放双手。
Python游戏开发工程师: 网络游戏后端服务器逻辑的开发和处理,有大型数据库使用经验,喜欢从事游戏相关工作。 Python自学爱好者: 可以自己开发一些小软件和应用,带图形化界面的软件,方便日常工作。
如何导入re模块
导入re模块
#导入正则表达式模块
import re
再来一个简单的例子演示
#简单演示
s='123abc123abc123abc'
print s
print (r'123',s)
#'r'...''表示raw字符串
#功能字符:'.','*','?','^','$','/'
#分界符:'[',']','(',')','{','}'
#转义字符:'d','w','s','b'
#'|'表示或
s='I have a pen and I have a apple'
print s
print (r'I have a pen|apple',s)
print (r'I have a (?:pen|dog)',s)
使用无捕获组与一般或'|'的区别
无捕获组使用'(?:...)'格式
#无捕获组:'(?:)'
s='ababababba babab babababab'
print (r'/b(?:ab)+/b',s)
[图片1]
#'.'匹配除换行符之外的所有字符,若选用则包括所有字符
s='123n456n789'
print s
print (r'.+',s)
print (r'.+',s,)
爬虫准备
爬虫首先需要做的事情就是要确定好你想要爬取数据的对象,这里我将以百度主页logo图片的地址为例进行讲解。
首先,是打开百度主页界面,然后把鼠标移动到主页界面的百度logo图标上面,点击鼠标右键,然后点击审查元素,即可打开开发者界面。
3然后再下面的界面里面,可以看到该logo图标在HTML里面的排版模式,,这里百度我用字替换了。
爬虫主要分为两个部分,第一个是网页界面的获取,第二个是网页界面的解析;爬虫的原理是利用代码模拟浏览器访问网站,与浏览器不同的是,爬虫获取到的是网页的源代码,没有了浏览器的翻译效果。
首先,我们进行页面获取,python爬虫的话很多模块包提供给开发者直接抓取网页,urllib,urllib2,requests(urllib3)等等,这里我们使用urllib2进行网站页面的获取;首先导入urllib2模块包(该包是默认安装的):import urllib2
导入模块包之后,然后调用urllib2中的urlopen方法链接网站,代码如下repr = ("XXXXXX"),XXXXXX代表的是网站名称。
得到网站的响应之后,然后就是将页面的源代码读取出来,调用read方法,html = ()
获取到页面的源代码之后,然后接下来的工作就是将自己想要的数据从html界面源代码中解析出来,解析界面的模块包有很多,原始的re,好用的BeautifulSoup,以及高大上的lxml等等,这里我就简单的用re介绍介绍,首先导入re模块包:import re
然后进行利用re进行搜索,这里我有使用正则表达式,看不懂的同学需去补充点正则表达式方面的知识。
