总算发现python3.5入门教程-勤学思

Python语言是一种典型的脚本语言，简洁，语法约束少，接近人类语言。有丰富的数据结构，例如列表、字典、集合等。具有可移植性，支持面向过程和面向对象编程，并且开源。以下是小编为你整理的入门教程

下载安装:从python官网下载开发和运行环境程序。本例下载python-.amd64的安装包，并安装。

开发工具:window系统中，python有多种开发工具，比如，一、直接在cmd命令窗口执行，但此种仅能单条语句执行，不能运行完整的程序。二、python自带的集成开发环境，可通过开始——所有程序————IDLE(Python GUI)启动。三、其他集成开发环境，如PythonWin等，有编辑和调试能力，还实现了MFC类库存的包装。

[图片0]

本例中，使用python自带的开发环境。File—New File，新建py文档，编写程序，保存。Run——Run module，可得到运行结果。

封装性:可以把属性、方法结合在一起，不可以直接访问对象的属性，仅能通过接口与对象发生联系。以下把方法和属性封装成了一个类。

构造器:python有3种类型的构造器，且一个类中仅可以定义一个构造器，若多个，则以最后为准。1.若不声明，则默认为一个没有任何操作的特殊的__init__方法，__init__(self)，此时可通过obj = my_class()声明实例。 2.自声明__init__构造器，会覆盖默认的，且可以更新类的数据属性。3.构造器方法__new__()，用于不可变内置类型派生，不能通过实例访问属性，仅能通过类访问。

继承性:python支持多继承，且子类继承了父类的方法和属性。若子类中有和父类相同名称的方法，则子类会覆盖(Override)父类方法。父类方法依旧可以访问。

数据结构:有丰富的数据结构，例如列表、字典、集合等。本例简单介绍字典的使用。字典是键值对的无序集合，是可变对象。键在字典中是唯一的且必须是不可变对象。值可以是可变对象或不可变对象。以下例子对python字典的定义、访问、更新等的操作。

学会python的作用

Python高级工程师 : 北上广深的话，薪金在1万以上，需要精通Linux/Unixg平台，有英语阅读功底。

Web网站开发方向: 熟悉Web开发的常用 Python框架，熟悉掌握Mysql类数据库的操作即可。

SEO工程师: 为自己或公司开发和改进SEO相关软件，实现自动化搜索引擎优化和日常重复工作。

Python自动化测试:熟悉自动化流程、方法和常用的模块的使用，有英文读写的能力。

Linux运维工程师: Linux服务器管理，数据分析、自动化处理任务、分析网站日志、定时计划管理，解放双手。

Python游戏开发工程师: 网络游戏后端服务器逻辑的开发和处理，有大型数据库使用经验，喜欢从事游戏相关工作。 Python自学爱好者: 可以自己开发一些小软件和应用，带图形化界面的软件，方便日常工作。

如何导入re模块

导入re模块

#导入正则表达式模块

import re

再来一个简单的例子演示

#简单演示

s='123abc123abc123abc'

print s

print (r'123',s)

#'r'...''表示raw字符串

#功能字符:'.','*','?','^','$','/'

#分界符:'[',']','(',')','{','}'

#转义字符:'d','w','s','b'

#'|'表示或

s='I have a pen and I have a apple'

print s

print (r'I have a pen|apple',s)

print (r'I have a (?:pen|dog)',s)

使用无捕获组与一般或'|'的区别

无捕获组使用'(?:...)'格式

#无捕获组:'(?:)'

s='ababababba babab babababab'

print (r'/b(?:ab)+/b',s)

[图片1]

#'.'匹配除换行符之外的所有字符，若选用则包括所有字符

s='123n456n789'

print s

print (r'.+',s)

print (r'.+',s,)

爬虫准备

爬虫首先需要做的事情就是要确定好你想要爬取数据的对象，这里我将以百度主页logo图片的地址为例进行讲解。

首先，是打开百度主页界面，然后把鼠标移动到主页界面的百度logo图标上面，点击鼠标右键，然后点击审查元素，即可打开开发者界面。

3然后再下面的界面里面，可以看到该logo图标在HTML里面的排版模式，，这里百度我用字替换了。

爬虫主要分为两个部分，第一个是网页界面的获取，第二个是网页界面的解析;爬虫的原理是利用代码模拟浏览器访问网站，与浏览器不同的是，爬虫获取到的是网页的源代码，没有了浏览器的翻译效果。

首先，我们进行页面获取，python爬虫的话很多模块包提供给开发者直接抓取网页，urllib，urllib2，requests(urllib3)等等，这里我们使用urllib2进行网站页面的获取;首先导入urllib2模块包(该包是默认安装的):import urllib2

导入模块包之后，然后调用urllib2中的urlopen方法链接网站，代码如下repr = ("XXXXXX"),XXXXXX代表的是网站名称。

得到网站的响应之后，然后就是将页面的源代码读取出来，调用read方法，html = ()

获取到页面的源代码之后，然后接下来的工作就是将自己想要的数据从html界面源代码中解析出来，解析界面的模块包有很多，原始的re，好用的BeautifulSoup，以及高大上的lxml等等，这里我就简单的用re介绍介绍，首先导入re模块包:import re

然后进行利用re进行搜索，这里我有使用正则表达式，看不懂的同学需去补充点正则表达式方面的知识。