导航:首页 > 电影人物 > 怎么用select爬取电影链接

怎么用select爬取电影链接

发布时间：2022-09-07 13:04:37

A. 怎样在网页源代码中找到电影下载链接URL地址

一：WMV、ASF等格式的网络视频
一般这样格式的视频，都是默认Windows Media Player播放器，这样的视频，一般只需要在播放器内，点鼠标右键，选择属性就能看视频播放的URL地址了，然后就能对该视频下载。

二：RM、RMVB等常用格式的网络视频
1.把RM格式的视频本地播放：在播放器内，点鼠标右键，选择在RealPlayer中播放（前提是你的机器装有RealPlayer），就会弹RealPlayer播放器进行本地播放，然后选择播放器上的导航栏目“文件”再继续选择剪辑属性，再选择查看剪辑信息，就能找该视频的URL地址了。
2.断网查询法：打开在线网络播放地址后，先不让视频进行缓冲，先把网线拔掉，然后再按播放按钮，让该视频连接网络。因为断线肯定是无法连接的。播放系统会把该视频的URL地址，提示无法连接该URL地址。这样就把该视频的URL地址找出来了。

三：HTML源代码查询
如果对方网站没隐藏URL地址，都能够用这个方法找到URL地址。打开在线网络视频的播放页面，然后点击鼠标右键，选择查看源文件，系统会自动打开一个txt的文本。一般情况下，里面有很多密密麻麻的文字和代码，然后查找该视频格式的后缀名，比如是RM的视频，就查找.rm，应该很快就能找该视频的URL播放地址。

四：利用傲游(Maxthon)网页浏览器
Maxthon网页浏览器可以方便地查找视频URL地址。
具体操作方法：先用傲游打开该播放页面，然后选择浏览器右上方的一个图标，会弹出一个页面选择媒体，就能看到视频的URL地址了。

五：利用专业工具
网上有专门寻找视频URL播放地址的软件工具，比如“影音嗅探专家”和“网络嗅探器”都是比较不错的查找视频播放URL地址的工具。
网络嗅探器使用方法：打开“网络嗅探器”选择开始嗅探，然后用IE浏览器进入你想查看视频URL地址的页面，在线播放该视频，网络嗅探器就会自动把该视频的URL地址找出来。现在流行的播客网的flv格式的视频URL地址，也能用这软件找出来。

六：终极下载视频的办法
不依托任何工具，也可以下载任何可以在线观看的网络视频。不管是上面提到的常见视频格式，像现在最流行的播客网的FLV格式的视频都能够下载。
我们在网上在线看一个视频，比如看播客网的视频，都能看到明显的缓冲进度，当完整看完整个视频，或缓冲进度完全完成后，其实我们的电脑，已经把该视频下载到IE临时文件夹里了。

具体的操作过程：
1.先让视频在线播放一遍。
2.因为这里涉及的文件及有的属性是隐藏的，所以先要设置一下，先打开我的电脑，工具栏－>文件夹选项－>查看－>选择显示所有文件和文件夹－>确定。
3.然后打开C盘－>Documents and Settings－>Administrator（这个是用户名，如果你设置了用户名，就是你设置的用户名的文件夹）－>Local Settings－>Temporary Internet Files。
4.我的IE临时文件夹把文件按大小排列，因为视频文件都比较大，自然就排在了前面，大家可以从图中看到，排在前面的都是flv文件，这些都是我今天看过的播客视频，只要从临时文件夹里复制出来，就能放在本地硬盘随时观看了。一般的播放器打不开flv的文件，可以下载专业的flv 播放器或暴风影音，就能观看该视频了。当然该方法，对其它任何格式的视频都有效果.

怎样下载网络视频
现在在线视频越来越多了，想下载怎么办？下面我总结了三条方法，好好学习哦。恩。主要是针对FLV视频的，什么是FLV视频？就是土豆网，六间房，56，mofile，youtube等视频网站播放的流媒体。其他的诸如WMV，MPG等格式，我就稍微讲下。如果是WMP视频，右击视频--属性，即可看到真实视频地址。如果是Real视频，右击视频--用Real Player播放，然后在本地打开的那个realplayer中，依次选择文件→剪辑信息→编辑剪辑属性，即可看到真实地址了。

第一种：利用临时文件夹
这种方法对大部分网站非常有用。应该有很多人知道吧。不过我还是整理一下。
首先你得耐着性子把整个片子先在线看一遍。一定要看完哦。也可以开多个窗口，就当是下载吧。在观看的时候这个视频文件已经下载到你的临时文件夹里了。临时文件夹在哪里？
IE-->工具-->INTERNET选项-->设置-->查看文件
点击查看文件以后会出来一堆乱七八糟的文件列表,通过调整文件大小/时间/文件类型，后缀为FLV文件的就是视频文件了。把这些FLV文件随便复制出来就行了。要注意，有时候下载下来的是一个叫get_video的无后缀文件，要我们要自己手动给给它改名改成xxx.flv（记着不要隐藏已知扩展名哦）。FLV可以用暴风影音或者kmplayer播放。FLV转换成其他常见视频格式的软件待会给大家。

第二种：利用网站解析下载
复制视频所在页面的地址，粘贴到下列任意网站里的方框里即可。点击获取地址按钮，就给出视频的真实地址，用迅雷下载。

B. 如何使用webcollector爬取搜索引擎

使用WebCollector来爬取网络搜索引擎按照关键字搜索的结果页面，解析规则可能会随网络搜索的改版而失效。
代码如下：

[java] view plain
package com.wjd.key.crawler;

import java.io.ByteArrayInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.net.URLEncoder;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.HashMap;
import java.util.TimeZone;

import org.apache.poi.poifs.filesystem.DirectoryEntry;
import org.apache.poi.poifs.filesystem.POIFSFileSystem;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import cn.e.hfut.dmic.contentextractor.ContentExtractor;
import cn.e.hfut.dmic.webcollector.model.CrawlDatum;
import cn.e.hfut.dmic.webcollector.model.CrawlDatums;
import cn.e.hfut.dmic.webcollector.model.Page;
import cn.e.hfut.dmic.webcollector.plugin.ram.RamCrawler;

public class BdiKeywordCrawler extends RamCrawler{

private Connection connection;
private PreparedStatement pstatement;
// 连接MySql数据库，用户名root，密码mahao
String url = "jdbc:mysql://localhost:3306/wjd";
String username = "root";
String password = "mahao";
//保存抽取到的数据
StringBuilder result = new StringBuilder();
public BdiKeywordCrawler(String keyword, int maxPageNum) throws Exception {
for (int pageNum = 1; pageNum <= maxPageNum; pageNum++) {
String url = createUrl(keyword, pageNum);
CrawlDatum datum = new CrawlDatum(url)
.putMetaData("keyword", keyword)
.putMetaData("pageNum", pageNum + "")
.putMetaData("pageType", "searchEngine")
.putMetaData("depth", "1");
addSeed(datum);
}
}
@Override
public void visit(Page page, CrawlDatums next) {
String keyword = page.getMetaData("keyword");
String pageType = page.getMetaData("pageType");
int depth = Integer.valueOf(page.getMetaData("depth"));
if (pageType.equals("searchEngine")) {
int pageNum = Integer.valueOf(page.getMetaData("pageNum"));
System.out.println("成功抓取关键词" + keyword + "的第" + pageNum + "页搜索结果");
// || div[class=result-op c-container xpath-log ]>h3>a
Elements results = page.select("div[class=result c-container ]>h3>a");
// Elements results1 = page.select("div[class=result-op c-container xpath-log]>h3>a");//,div[id=result-op c-container xpath-log]>h3>a
//System.out.println(results1.get(0));
//results.add(results1.get(0));
for (int rank = 0; rank < results.size(); rank++) {
Element result = results.get(rank);
/*
* 我们希望继续爬取每条搜索结果指向的网页，这里统称为外链。
* 我们希望在访问外链时仍然能够知道外链处于搜索引擎的第几页、第几条，
* 所以将页号和排序信息放入后续的CrawlDatum中，为了能够区分外链和
* 搜索引擎结果页面，我们将其pageType设置为outlink，这里的值完全由用户定义，可以设置一个任意的值
* 在经典爬虫中，每个网页都有一个refer信息，表示当前网页的链接来源。
* 例如我们首先访问新浪首页，然后从新浪首页中解析出了新的新闻链接，
* 则这些网页的refer值都是新浪首页。WebCollector不直接保存refer值，
* 但我们可以通过下面的方式，将refer信息保存在metaData中，达到同样的效果。
* 经典爬虫中锚文本的存储也可以通过下面方式实现。
* 在一些需求中，希望得到当前页面在遍历树中的深度，利用metaData很容易实现
* 这个功能，在将CrawlDatum添加到next中时，将其depth设置为当前访问页面的depth+1即可。
*/
CrawlDatum datum = new CrawlDatum(result.attr("abs:href"))
.putMetaData("keyword", keyword)
.putMetaData("pageNum", pageNum + "")
.putMetaData("rank", rank + "")
.putMetaData("pageType", "outlink")
.putMetaData("depth", (depth + 1) + "")
.putMetaData("refer", page.getUrl());
next.add(datum);
}
} else if (pageType.equals("outlink")) {
/*int pageNum = Integer.valueOf(page.getMetaData("pageNum"));
int rank = Integer.valueOf(page.getMetaData("rank"));
String refer = page.getMetaData("refer");*/
try {
String content = ContentExtractor.getContentByUrl(page.getUrl());
/*String line = String.format(
"第%s页第%s个结果:标题:%s(%s字节)\tdepth=%s\trefer=%s", pageNum,
rank + 1, page.getDoc().title(), content,
depth, refer);*/
String line = String.format("标题：%s\n来源：%s\n正文：%s", page.getDoc().title(),page.getUrl(),content);
HashMap<String, String> data = new HashMap<String,String>();
Date currentDate = new java.util.Date();
SimpleDateFormat myFmt = new SimpleDateFormat("yyyy年MM月dd日 HH:mm:ss");
TimeZone timeZoneChina = TimeZone.getTimeZone("Asia/Shanghai");// 获取中国的时区
myFmt.setTimeZone(timeZoneChina);// 设置系统时区
String grabTime = myFmt.format(currentDate);// new Date()为获取当前系统时间
data.put("title", page.getDoc().title());
data.put("from", page.getUrl());
data.put("content", content);
data.put("grabTime", grabTime);
//String line = String.format("标题：%s\n", page.getDoc().title());
//持久化到word文档中
//是否为线程安全？？？
//synchronized(this) {
String destFile = "D:\\"+"Result"+keyword+".doc";
result.append(line);
//将result写到doc文件中
write2File(destFile,result.toString());
//添加到数据库中
addResultData(data);
//}
System.out.println(line);
} catch (Exception e) {
//e.printStackTrace();
System.out.println("链接"+page.getUrl()+"失效");
}
}
}
//将数据保存到mysql数据库中
private void addResultData(HashMap<String, String> data) {

String title = data.get("title");
String source_url = data.get("from");
String content = data.get("content").replaceAll("\\?{2,}", "");//去掉字符串中出现的多个连续问号。
//抓取时间
String grabTime = data.get("grabTime");
/*SimpleDateFormat format = new SimpleDateFormat("yyyy年MM月dd日 HH:mm:ss");
Date date = null;
try {
date = format.parse(grabTime);
} catch (Exception e) {
e.printStackTrace();
}*/
//System.out.println("抓取时间"+grabTime);
try {
connection = DriverManager.getConnection(url, username, password);
String sql = "INSERT INTO wjd_keyword_search_table(TITLE,GRAP_TIME,CONTENT,SOURCE_URL) VALUES(?,?,?,?)";
String checkSql = "select 1 from wjd_keyword_search_table where TITLE='" + title + "'";
Statement statement = connection.prepareStatement(checkSql);
ResultSet result = statement.executeQuery(checkSql);
if (!result.next()) {
// 如果数据库中不存在该记录，则添加到数据库中
pstatement = connection.prepareStatement(sql);
pstatement.setString(1, title);
//pstatement.setString(2, date);
pstatement.setString(2,grabTime);
pstatement.setString(3, content);
pstatement.setString(4, source_url);
pstatement.executeUpdate();
}
} catch (SQLException e) {
e.printStackTrace();
}
}
/**
* 将数据持久化到本地doc文件中
* @param destFile
* @param line
*/
private void write2File(String destFile, String line) {
try {
//doc content
ByteArrayInputStream s = new ByteArrayInputStream(line.getBytes());
POIFSFileSystem fs = new POIFSFileSystem();
DirectoryEntry directory = fs.getRoot();
directory.createDocument("WordDocument", s);
FileOutputStream ostream = new FileOutputStream(destFile);
fs.writeFilesystem(ostream);
s.close();
ostream.close();
} catch (IOException e) {
e.printStackTrace();
}
}
public static void main(String[] args) throws Exception {
String[] keywordsList = {"网络爬虫","搜索引擎"};
int pageToal =5;
for (String keyword : keywordsList) {
BdiKeywordCrawler crawler = new BdiKeywordCrawler(keyword, pageToal);
crawler.start();
}
}

/**
* 根据关键词和页号拼接网络搜索对应的URL
*/
public static String createUrl(String keyword, int pageNum)
throws Exception {
int first = (pageNum-1) * 10;
keyword = URLEncoder.encode(keyword, "utf-8");
return String.format("https://www..com/s?wd=%s&pn=%s",
keyword, first);
}
}

C. web scraper怎么抓取网页里其他链接里的数据

先设定一个类型为link的selector，选择链接，勾选multiple；然后打开链接，在新页面设置需要抓取的元素就好了。Webscraper的详细操作教程，可以到网易云课堂搜“Webscraper实战教学”，有详细的二级页面跳转与页面点击的操作教程。

D. 如何用Python爬取搜索引擎的结果

我选取的是爬取网络知道的html 作为我的搜索源数据，目前先打算做网页标题的搜索，选用了 Python 的 scrapy 库来对网页进行爬取，爬取网页的标题，url，以及html，用sqlist3来对爬取的数据源进行管理。
爬取的过程是一个深度优先的过程，设定四个起始 url ，然后维护一个数据库，数据库中有两个表，一个 infoLib，其中存储了爬取的主要信息：标题，url ，html；另一个表为urlLib，存储已经爬取的url，是一个辅助表，在我们爬取每个网页前，需要先判断该网页是否已爬过（是否存在urlLib中）。在数据存储的过程中，使用了SQL的少量语法，由于我之前学过 MySQL ，这块处理起来比较驾轻就熟。
深度优先的网页爬取方案是：给定初始 url，爬取这个网页中所有 url，继续对网页中的 url 递归爬取。代码逐段解析在下面，方便自己以后回顾。
1.建一个 scrapy 工程：
关于建工程，可以参看这个scrapy入门教程，通过运行:

[python] view plain
scrapy startproject ***

在当前目录下建一个scrapy 的项目，然后在 spiders 的子目录下建立一个 .py文件，该文件即是爬虫的主要文件，注意：其中该文件的名字不能与该工程的名字相同，否则，之后调用跑这个爬虫的时候将会出现错误，见ImportError。
2.具体写.py文件：

[python] view plain
import scrapy
from scrapy import Request
import sqlite3

class rsSpider(scrapy.spiders.Spider): #该类继承自 scrapy 中的 spider
name = "" #将该爬虫命名为 “知道”，在执行爬虫时对应指令将为： scrapy crawl
#download_delay = 1 #只是用于控制爬虫速度的，1s/次，可以用来对付反爬虫
allowed_domains = ["..com"] #允许爬取的作用域
url_first = 'http://..com/question/' #用于之后解析域名用的短字符串
start_urls = ["http://..com/question/647795152324593805.html", #python
"http://..com/question/23976256.html", #database
"http://..com/question/336615223.html", #C++
"http://..com/question/251232779.html", #operator system
"http://..com/question/137965104.html" #Unix programing
] #定义初始的 url ，有五类知道起始网页

#add database
connDataBase = sqlite3.connect(".db") #连接到数据库“.db”
cDataBase = connDataBase.cursor() #设置定位指针
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS infoLib
(id INTEGER PRIMARY KEY AUTOINCREMENT,name text,url text,html text)''')
#通过定位指针操作数据库，若.db中 infoLib表不存在，则建立该表，其中主键是自增的 id（用于引擎的docId）,下一列是文章的标题，然后是url，最后是html

#url dataBase
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS urlLib
(url text PRIMARY KEY)''')
#通过定位指针操作数据库，若.db中urlLib表不存在，则建立该表，其中只存了 url，保存已经爬过的url，之所以再建一个表，是猜测表的主键应该使用哈希表存储的，查询速度较快，此处其实也可以用一个外键将两个表关联起来

2. .py文件中的parse函数：

.py文件中的parse函数将具体处理url返回的 response，进行解析，具体代码中说明：

[python] view plain
def parse(self,response):
pageName = response.xpath('//title/text()').extract()[0] #解析爬取网页中的名称
pageUrl = response.xpath("//head/link").re('href="(.*?)"')[0] #解析爬取网页的 url，并不是直接使用函数获取，那样会夹杂乱码
pageHtml = response.xpath("//html").extract()[0] #获取网页html

# judge whether pageUrl in cUrl
if pageUrl in self.start_urls:
#若当前url 是 start_url 中以一员。进行该判断的原因是，我们对重复的 start_url 中的网址将仍然进行爬取，而对非 start_url 中的曾经爬过的网页将不再爬取
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(pageUrl,))
lines = self.cDataBase.fetchall()
if len(lines): #若当前Url已经爬过
pass #则不再在数据库中添加信息，只是由其为跟继续往下爬
else: #否则，将信息爬入数据库
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))
else: #此时进入的非 url 网页一定是没有爬取过的（因为深入start_url之后的网页都会先进行判断，在爬取，在下面的for循环中判断）
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))

self.connDataBase.commit() #保存数据库的更新

print "-----------------------------------------------" #输出提示信息，没啥用

for sel in response.xpath('//ul/li/a').re('href="(/question/.*?.html)'): #抓出所有该网页的延伸网页，进行判断并对未爬过的网页进行爬取
sel = "http://..com" + sel #解析出延伸网页的url
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(sel,)) #判断该网页是否已在数据库中
lines = self.cDataBase.fetchall()
if len(lines) == 0: #若不在，则对其继续进行爬取
yield Request(url = sel, callback=self.parse)

E. 请问用python爬虫抓取此网站的有关信息正则表达式和beautifulsoup怎么写

代码如下：

#coding=utf-8

importre
importrequests
frombs4importBeautifulSoup

resp=requests.get('http://bbs.tiexue.net/post_4337054_1.html')

ifresp.status_code==200:

soup=BeautifulSoup(resp.content.decode('GB2312'),'xml')

content=soup.find('div',id='postContent')
items=content.find_all('p',attrs={'class':'bbsp'})

regex=re.compile(r'd*(.*?)s*((?:d+°s?)?(?:d+'s?)?(?:d+.d+"s?)?N)s*((?:d+°s?)?(?:d+'s?)?(?:d+.d+"s?)?[WE])')

foriteminitems:
line=item.text.strip()
ifline!='':
match=regex.match(line)
ifmatch:
groups=match.groups()
print('名称:',groups[0])
print('北纬:',groups[1])
print('东经:',groups[2])
print('----------------------------------------')

运行结果：

F. 想用python爬取网页上的图片，但无法用select()方法定位图片的源地址

是的可以撒入爬去获得。

G. SQL语句实现如下：有一个电影的数据库，含有电影的名称和上映年份，我想用查找和某电影同年份的电影

select 电影名
from table
where 上映年份=(
select 上映年份
from table
where 电影名='已知的电影名'
)

H. 怎么使用BT下载电影

先打开迅雷然后把你要下载的影片名打在搜索一览中，进去之后会出来一大堆的菜单，在开头几条就有BT下载

I. python爬虫中select选择器的用法问题

这是css选择器的语法～你可以搜索下css选择器

J. 怎么用记事本做网页弄个链接一部具体的电影的超链接

链接用a标签，比如：<a
href="幻灯片.ppt">幻灯片</a>
href里的是文件路径，你要注意路径问题
话说现在还有人用记事本做网页啊？太不好使了噢，可以用dw来做网页，效率高，方便

阅读全文

与怎么用select爬取电影链接相关的资料

热点内容

韩国古装新丧尸电影排行榜发布：2025-01-20 21:44:09 浏览：348

电影海鸥食堂剧情发布：2025-01-20 21:33:44 浏览：789

我和爸爸去看电影唐3 发布：2025-01-20 21:32:25 浏览：79

高以桥台湾演员新拍的微电影发布：2025-01-20 21:32:00 浏览：272

你好李焕英电影里面下雨的歌曲发布：2025-01-20 21:31:06 浏览：251

电影票半价票怎么买发布：2025-01-20 21:26:03 浏览：402

学生踏入黑道的电影发布：2025-01-20 21:21:50 浏览：387

电影不要回头结局解析发布：2025-01-20 21:21:49 浏览：745

关于母亲的英文电影推荐发布：2025-01-20 21:20:49 浏览：998

院线电影你的婚礼简介发布：2025-01-20 21:18:29 浏览：332

韩国伦理电影丝袜诱惑发布：2025-01-20 21:17:07 浏览：253

近两年拍的英雄人物事迹电影发布：2025-01-20 21:04:45 浏览：607

充电器搞笑电影发布：2025-01-20 20:55:23 浏览：978

十全九美电影国语版第四部发布：2025-01-20 20:55:16 浏览：37

新恋爱世纪电影影评发布：2025-01-20 20:47:50 浏览：295

有个电影叫什么铁皮发布：2025-01-20 20:34:08 浏览：722

电影院经典独白发布：2025-01-20 20:33:58 浏览：11

侯台湾新电影是什么发布：2025-01-20 20:27:51 浏览：431

卲逸夫的电影新断臂刀发布：2025-01-20 20:25:04 浏览：107

人人视频怎么播放电影网站发布：2025-01-20 20:24:19 浏览：212