Selenium

Selenium

自动化测试工具

爬虫中主要是为了解决 JavaScript 渲染的问题(Requests和 Urllib无法获取网页内容)

官方文档

http://selenium-python.readthedocs.io/

安装

pip3 install selenium

基本使用

from selenium import webdriver   # 1 导入浏览器
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait

browser = webdriver.Chrome()   # 1 导入浏览器 Chrome
try:
    browser.get('https://www.baidu.com')   # 打开百度
    input = browser.find_element_by_id('kw')  #找到搜索功能
    input.send_keys('Python')   #搜索python
    input.send_keys(Keys.ENTER)    # 回车
    wait = WebDriverWait(browser, 10)   #等待10秒
    wait.until(EC.presence_of_element_located((By.ID, 'content_left'))) # 等待 content_left 加载完成
    print(browser.current_url)   # 打印现在的 URL
    print(browser.get_cookies())   # 打印 COOKIES
    print(browser.page_source)    # 打印现在的网站源代码
finally:
    browser.close()

上面的代码只是简单演示,不用看懂,下面会进行详细的讲解。

这段代码执行报错,下面看完再来研究是什么问题。

环境变量

问题如下:'chromedriver' executable needs to be in PATH.

20170924150625745620270.png

查看环境变量路径

echo $PATH

2017092415062562923403.png

每个:隔开一个路径,它会依次从前面的往后面的找Chromedriver。由于我们用了virtualenv 安装虚拟环境,所有默认的第一个路径是 虚拟环境里的,我们可以把Chromedriver 拷贝到以上任意一个路径,就会解决上面的问题。

下载ChromeDriver文件到环境变量路径

方法1:

WEGET 文件,然后解压拷贝文件进入那个目录

wget http://chromedriver.storage.googleapis.com/2.10/chromedriver_linux64.zip
unzip chromedriver_linux64.zip -d /Users/mofu/git/v4/bin/

方法2

打开连接 https://sites.google.com/a/chromium.org/chromedriver/downloads

20170924150625723564751.png

在后面连接,选择你的系统的 ChromeDriver 然后 移动到 上面的第一个目录,就可以了。

检查是否配置正确

在当前环境输入 chromedriver 如果出现如下内容,表示配置正确。

20171025150891833061432.png

声明浏览器对象

from selenium import webdriver

browser = webdriver.Chrome()
browser = webdriver.Firefox()
browser = webdriver.Edge()
browser = webdriver.PhantomJS()
browser = webdriver.Safari()

可以选择任意浏览器,前提是在本地已经安装了这个浏览器,要不然会报错。

访问页面

from selenium import webdriver

browser = webdriver.Chrome()  # 调用chrome 浏览器
browser.get('https://www.taobao.com')   #访问taobao
print(browser.page_source)   # 打印 taobao的源代码
browser.close()  #关闭浏览器

查找元素

单个元素

from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
input_first = browser.find_element_by_id('q')
input_second = browser.find_element_by_css_selector('#q')
input_third = browser.find_element_by_xpath('//*[@id="q"]')
print(input_first,input_second,input_third)
browser.close()

以上三种方法 都是可找到同一个对象

结果如下

20170924150625834388858.png

其他选择方法
  • find_element_by_name
  • find_element_by_xpath
  • find_element_by_link_text
  • find_element_by_partial_link_text
  • find_element_by_tag_name
  • find_element_by_class_name
  • find_element_by_css_selector

其他写法

只是by_id 改成了 By.ID 写到了括号内。

这个需要多引用一个库

from selenium import webdriver
from selenium.webdriver.common.by import By

browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
input_first = browser.find_element(By.ID, 'q')   #这里写法有点不一样
print(input_first)
browser.close()

结果如下

20170926150643108762228.png

多个元素

方法其实和上面的完全一样,只是在element后面加上一个s变成 elements

from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
lis = browser.find_elements_by_css_selector('.service-bd li')
print(lis)
browser.close()

结果如下

20170926150643099711131.png

其他写法

这个需要多引用一个库

from selenium import webdriver
from selenium.webdriver.common.by import By

browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
lis = browser.find_elements(By.CSS_SELECTOR, '.service-bd li')  # 这里写法有点不一样
print(lis)
browser.close()

元素交互操作

from selenium import webdriver #调用浏览器
import time  #调用时间

browser = webdriver.Chrome() #引用浏览器 CHROME
browser.get('https://www.taobao.com') #打开淘宝
input = browser.find_element_by_id('q') #找到淘宝搜索匡
input.send_keys('iPhone')  #输入iphone
time.sleep(2)  #等待两秒
input.clear()  #轻松搜索内容
input.send_keys('ipad')   #搜索ipad
button = browser.find_element_by_class_name('btn-search') #找到搜索按钮
button.click()  #点击搜索按钮

更多操作: http://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.remote.webelement

交互动作 (拖拽)

from selenium import webdriver
from selenium.webdriver import ActionChains   #导入交互动作

browser = webdriver.Chrome()
url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
browser.get(url)
browser.switch_to.frame('iframeResult')  # 切换到这个frame
source = browser.find_element_by_css_selector('#draggable') #定义对象1
target = browser.find_element_by_css_selector('#droppable')  #定义对象2
actions = ActionChains(browser)  #定义动作拖拽
actions.drag_and_drop(source, target) #从对象1拖拽在对象2 
actions.perform()  #执行以上动作

更多操作: http://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.common.action_chains

执行JavaScript

from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.zhihu.com/explore')
browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
browser.execute_script('alert("To Bottom")')

获取元素信息

获取属性

from selenium import webdriver

browser = webdriver.Chrome()

url = 'https://www.zhihu.com/explore'
browser.get(url)
logo = browser.find_element_by_id('zh-top-link-logo')
print(logo)
print(logo.get_attribute('class'))  #获取属性
browser.close()

结果如下

20170926150643498834914.png

获取文本值

from selenium import webdriver

browser = webdriver.Chrome()
url = 'https://www.zhihu.com/explore'
browser.get(url)
input = browser.find_element_by_class_name('zu-top-add-question')
print(input.text)

结果如下

20170927150647891291342.png

获取 id、位置、标签名、大小

from selenium import webdriver

browser = webdriver.Chrome()
url = 'https://www.zhihu.com/explore'
browser.get(url)
input = browser.find_element_by_class_name('zu-top-add-question')
print(input.text)
print(input.id)
print(input.tag_name)
print(input.size)

结果

20170927150647960673073.png

Frame

当在一个Frame 里的时候是获取不到外层或者其他 Frame里面的信息的。这个时候就需要移动到另外一个 Frame里面去。

import time
from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException

browser = webdriver.Chrome()
url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
browser.get(url)
browser.switch_to.frame('iframeResult')
source = browser.find_element_by_css_selector('#draggable')
print(source)
try:
    logo = browser.find_element_by_class_name('logo')
except NoSuchElementException:
    print('NO LOGO')
browser.switch_to.parent_frame()
logo = browser.find_element_by_class_name('logo')
print(logo)
print(logo.text)

结果如下

20170927150648042468231.png

等待

隐藏式等待

给程序更长的加载时间,允许程序执行一定的时间,但是超过这个时间就报错。

from selenium import webdriver

browser = webdriver.Chrome()
browser.implicitly_wait(10)
browser.get('https://www.zhihu.com/explore')
input = browser.find_element_by_class_name('zu-top-add-question')
print(input)

等待10秒后出现的结果

20170927150648376355453.png

显示等待

from selenium import webdriver

browser = webdriver.Chrome()
browser.implicitly_wait(10)
browser.get('https://www.zhihu.com/explore')
input = browser.find_element_by_class_name('zu-top-add-question')
print(input)

结果如下

20170927150648590090220.png

  • title_is 标题是某内容
  • title_contains 标题包含某内容
  • presence_of_element_located 元素加载出,传入定位元组,如(By.ID, 'p')
  • visibility_of_element_located 元素可见,传入定位元组
  • visibility_of 可见,传入元素对象
  • presence_of_all_elements_located 所有元素加载出
  • text_to_be_present_in_element 某个元素文本包含某文字
  • text_to_be_present_in_element_value 某个元素值包含某文字
  • frame_to_be_available_and_switch_to_it frame加载并切换
  • invisibility_of_element_located 元素不可见
  • element_to_be_clickable 元素可点击
  • staleness_of 判断一个元素是否仍在DOM,可判断页面是否已经刷新
  • element_to_be_selected 元素可选择,传元素对象
  • element_located_to_be_selected 元素可选择,传入定位元组
  • element_selection_state_to_be 传入元素对象以及状态,相等返回True,否则返回False
  • element_located_selection_state_to_be 传入定位元组以及状态,相等返回True,否则返回False
  • alert_is_present 是否出现Alert

详细内容:http://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.support.expected_conditions

前进后退

from selenium import webdriver
import time
browser = webdriver.Chrome()
browser.get('https://www.baidu.com')
browser.get('https://www.taobao.com')
browser.get('https://www.python.org')
time.sleep(1)
browser.forward()
browser.close()

依次打开,百度-淘宝-python-返回上一个-暂停1秒-前进到下一个-关闭浏览器

Cookies

from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.zhihu.com/explore')
print(browser.get_cookies())  #打印现有的cookies
browser.add_cookie({'name': 'name', 'domain': 'www.zhihu.com', 'value': 'germey'}) #在现有的基础上添加 括号内的cookies
print(browser.get_cookies())  # 打印添加后的cookies
browser.delete_all_cookies()  #删除所有cookies
print(browser.get_cookies()) #打印删除后的cookies

结果如下

20170928150658099995203.png

选项卡管理

from selenium import webdriver
import time

browser = webdriver.Chrome()
browser.get('https://www.baidu.com')
browser.execute_script('window.open()')  # 打开一个新的选项卡
print(browser.window_handles) #打印选项卡列表
browser.switch_to_window(browser.window_handles[1]) #选择第二个选项卡
browser.get('https://www.taobao.com') #在第二个选项卡打开淘宝
time.sleep(1)
browser.switch_to_window(browser.window_handles[0])  #切换到第一个选项卡
browser.get('https://python.org')  #在第一个选项卡打开python.org

选项卡列表

20170928150658158788726.png

异常处理

from selenium import webdriver
from selenium.common.exceptions import TimeoutException, NoSuchElementException  #需要导入

browser = webdriver.Chrome()

try:
    browser.get('https://www.baidu.com')
except TimeoutException:
    print('Time Out')
try:
    browser.find_element_by_id('hello')
except NoSuchElementException:
    print('No Element')
finally:
    browser.close()

结果如下

20170928150658234046285.png

详细文档

http://selenium-python.readthedocs.io/api.html#module-selenium.common.exceptions


下面的内容转载自:

https://huilansame.github.io/huilansame.github.io/archivers/radio-button-checkbox

Python selenium —— 搞定网页单选框(radio button)、复选框(checkbox)

Sep 8, 2016

网页上有时候遇到checkboxradio button,一般情况下这两种都是<input>标签,我们可以通过点击或者发送空格的方式进行选中

1.选择

试验网页代码checkandradio.html:

<html>
<body>
Checkbox:
<input type="checkbox" value="cv1" name="c1">
<input type="checkbox" value="cv2">
<input type="checkbox" value="cv3" name="c1">
<input type="checkbox" value="cv4">
<p>
Radio:
<input type="radio" value="rv1" name="r1">
<input type="radio" value="rv2" name="r1">
</body>
</html>

定位:就是普通的input标签,按照正常的定位方式定位就可以,不再赘述。

下面我们用selenium选中其中的checkbox(1、2)和radio1->radio2,上代码:

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from time import sleep

driver = webdriver.Firefox()
driver.maximize_window()
driver.get('file:///D:/checkboxandradio.html')

# checkbox
driver.find_element_by_xpath('//input[@value="cv1"]').click()  # click
driver.find_element_by_xpath('//input[@value="cv2"]').send_keys(Keys.SPACE)  # send space

# radio
driver.find_element_by_xpath('//input[@value="rv1"]').send_keys(Keys.SPACE)  # send space
sleep(1)
driver.find_element_by_xpath('//input[@value="rv2"]').click()  # click

sleep(1)
driver.quit()

从上例可以看出我们对这种checkboxradio button,可以通过直接点击或者发送空格的方式达到选中或者反选的目的。

2.检查某个框是否被选中

方法:

element.is_selected()

示例代码如下:

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from time import sleep

driver = webdriver.Firefox()
driver.maximize_window()
driver.get('file:///D:/checkboxandradio.html')

# checkbox
driver.find_element_by_xpath('//input[@value="cv1"]').click()  # click
driver.find_element_by_xpath('//input[@value="cv2"]').send_keys(Keys.SPACE)  # send space
if driver.find_element_by_xpath('//input[@value="cv2"]').is_selected():
    print 'selected!'
else:
    print 'not yet!'

# radio
driver.find_element_by_xpath('//input[@value="rv1"]').send_keys(Keys.SPACE)  # send space
sleep(1)
driver.find_element_by_xpath('//input[@value="rv2"]').click()  # click
if driver.find_element_by_xpath('//input[@value="rv1"]').is_selected():
    print 'selected!'
else:
    print 'not yet!'

sleep(1)
driver.quit()

结果:

selected!
not yet!

当然,选中和判断是否选中还有其他的方法,如模拟鼠标点击用JS点击JS修改标签属性选中用JS、jQuery判断是否选中用标签属性判断是否选中,不过针对大部分情况,以上方法足够用了。如果以上方法失效,可以考虑直接修改或获取标签属性,或者可能是其他因素如等待时间、页面遮挡等导致无法选中,可进行更多尝试。


更多关于python selenium的文章,请关注我的CSDN专栏:Python Selenium自动化测试详解

Comments
Write a Comment