導航:首頁 > 電影人物 > 怎麼用select爬取電影鏈接

怎麼用select爬取電影鏈接

發布時間：2022-09-07 13:04:37

A. 怎樣在網頁源代碼中找到電影下載鏈接URL地址

一：WMV、ASF等格式的網路視頻
一般這樣格式的視頻，都是默認Windows Media Player播放器，這樣的視頻，一般只需要在播放器內，點滑鼠右鍵，選擇屬性就能看視頻播放的URL地址了，然後就能對該視頻下載。

二：RM、RMVB等常用格式的網路視頻
1.把RM格式的視頻本地播放：在播放器內，點滑鼠右鍵，選擇在RealPlayer中播放（前提是你的機器裝有RealPlayer），就會彈RealPlayer播放器進行本地播放，然後選擇播放器上的導航欄目「文件」再繼續選擇剪輯屬性，再選擇查看剪輯信息，就能找該視頻的URL地址了。
2.斷網查詢法：打開在線網路播放地址後，先不讓視頻進行緩沖，先把網線拔掉，然後再按播放按鈕，讓該視頻連接網路。因為斷線肯定是無法連接的。播放系統會把該視頻的URL地址，提示無法連接該URL地址。這樣就把該視頻的URL地址找出來了。

三：HTML源代碼查詢
如果對方網站沒隱藏URL地址，都能夠用這個方法找到URL地址。打開在線網路視頻的播放頁面，然後點擊滑鼠右鍵，選擇查看源文件，系統會自動打開一個txt的文本。一般情況下，裡面有很多密密麻麻的文字和代碼，然後查找該視頻格式的後綴名，比如是RM的視頻，就查找.rm，應該很快就能找該視頻的URL播放地址。

四：利用傲遊(Maxthon)網頁瀏覽器
Maxthon網頁瀏覽器可以方便地查找視頻URL地址。
具體操作方法：先用傲遊打開該播放頁面，然後選擇瀏覽器右上方的一個圖標，會彈出一個頁面選擇媒體，就能看到視頻的URL地址了。

五：利用專業工具
網上有專門尋找視頻URL播放地址的軟體工具，比如「影音嗅探專家」和「網路嗅探器」都是比較不錯的查找視頻播放URL地址的工具。
網路嗅探器使用方法：打開「網路嗅探器」選擇開始嗅探，然後用IE瀏覽器進入你想查看視頻URL地址的頁面，在線播放該視頻，網路嗅探器就會自動把該視頻的URL地址找出來。現在流行的播客網的flv格式的視頻URL地址，也能用這軟體找出來。

六：終極下載視頻的辦法
不依託任何工具，也可以下載任何可以在線觀看的網路視頻。不管是上面提到的常見視頻格式，像現在最流行的播客網的FLV格式的視頻都能夠下載。
我們在網上在線看一個視頻，比如看播客網的視頻，都能看到明顯的緩沖進度，當完整看完整個視頻，或緩沖進度完全完成後，其實我們的電腦，已經把該視頻下載到IE臨時文件夾里了。

具體的操作過程：
1.先讓視頻在線播放一遍。
2.因為這里涉及的文件及有的屬性是隱藏的，所以先要設置一下，先打開我的電腦，工具欄－>文件夾選項－>查看－>選擇顯示所有文件和文件夾－>確定。
3.然後打開C盤－>Documents and Settings－>Administrator（這個是用戶名，如果你設置了用戶名，就是你設置的用戶名的文件夾）－>Local Settings－>Temporary Internet Files。
4.我的IE臨時文件夾把文件按大小排列，因為視頻文件都比較大，自然就排在了前面，大家可以從圖中看到，排在前面的都是flv文件，這些都是我今天看過的播客視頻，只要從臨時文件夾里復制出來，就能放在本地硬碟隨時觀看了。一般的播放器打不開flv的文件，可以下載專業的flv 播放器或暴風影音，就能觀看該視頻了。當然該方法，對其它任何格式的視頻都有效果.

怎樣下載網路視頻
現在在線視頻越來越多了，想下載怎麼辦？下面我總結了三條方法，好好學習哦。恩。主要是針對FLV視頻的，什麼是FLV視頻？就是土豆網，六間房，56，mofile，youtube等視頻網站播放的流媒體。其他的諸如WMV，MPG等格式，我就稍微講下。如果是WMP視頻，右擊視頻--屬性，即可看到真實視頻地址。如果是Real視頻，右擊視頻--用Real Player播放，然後在本地打開的那個realplayer中，依次選擇文件→剪輯信息→編輯剪輯屬性，即可看到真實地址了。

第一種：利用臨時文件夾
這種方法對大部分網站非常有用。應該有很多人知道吧。不過我還是整理一下。
首先你得耐著性子把整個片子先在線看一遍。一定要看完哦。也可以開多個窗口，就當是下載吧。在觀看的時候這個視頻文件已經下載到你的臨時文件夾里了。臨時文件夾在哪裡？
IE-->工具-->INTERNET選項-->設置-->查看文件
點擊查看文件以後會出來一堆亂七八糟的文件列表,通過調整文件大小/時間/文件類型，後綴為FLV文件的就是視頻文件了。把這些FLV文件隨便復制出來就行了。要注意，有時候下載下來的是一個叫get_video的無後綴文件，要我們要自己手動給給它改名改成xxx.flv（記著不要隱藏已知擴展名哦）。FLV可以用暴風影音或者kmplayer播放。FLV轉換成其他常見視頻格式的軟體待會給大家。

第二種：利用網站解析下載
復制視頻所在頁面的地址，粘貼到下列任意網站里的方框里即可。點擊獲取地址按鈕，就給出視頻的真實地址，用迅雷下載。

B. 如何使用webcollector爬取搜索引擎

使用WebCollector來爬取網路搜索引擎按照關鍵字搜索的結果頁面，解析規則可能會隨網路搜索的改版而失效。
代碼如下：

[java] view plain
package com.wjd.key.crawler;

import java.io.ByteArrayInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.net.URLEncoder;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.HashMap;
import java.util.TimeZone;

import org.apache.poi.poifs.filesystem.DirectoryEntry;
import org.apache.poi.poifs.filesystem.POIFSFileSystem;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import cn.e.hfut.dmic.contentextractor.ContentExtractor;
import cn.e.hfut.dmic.webcollector.model.CrawlDatum;
import cn.e.hfut.dmic.webcollector.model.CrawlDatums;
import cn.e.hfut.dmic.webcollector.model.Page;
import cn.e.hfut.dmic.webcollector.plugin.ram.RamCrawler;

public class BdiKeywordCrawler extends RamCrawler{

private Connection connection;
private PreparedStatement pstatement;
// 連接MySql資料庫，用戶名root，密碼mahao
String url = "jdbc:mysql://localhost:3306/wjd";
String username = "root";
String password = "mahao";
//保存抽取到的數據
StringBuilder result = new StringBuilder();
public BdiKeywordCrawler(String keyword, int maxPageNum) throws Exception {
for (int pageNum = 1; pageNum <= maxPageNum; pageNum++) {
String url = createUrl(keyword, pageNum);
CrawlDatum datum = new CrawlDatum(url)
.putMetaData("keyword", keyword)
.putMetaData("pageNum", pageNum + "")
.putMetaData("pageType", "searchEngine")
.putMetaData("depth", "1");
addSeed(datum);
}
}
@Override
public void visit(Page page, CrawlDatums next) {
String keyword = page.getMetaData("keyword");
String pageType = page.getMetaData("pageType");
int depth = Integer.valueOf(page.getMetaData("depth"));
if (pageType.equals("searchEngine")) {
int pageNum = Integer.valueOf(page.getMetaData("pageNum"));
System.out.println("成功抓取關鍵詞" + keyword + "的第" + pageNum + "頁搜索結果");
// || div[class=result-op c-container xpath-log ]>h3>a
Elements results = page.select("div[class=result c-container ]>h3>a");
// Elements results1 = page.select("div[class=result-op c-container xpath-log]>h3>a");//,div[id=result-op c-container xpath-log]>h3>a
//System.out.println(results1.get(0));
//results.add(results1.get(0));
for (int rank = 0; rank < results.size(); rank++) {
Element result = results.get(rank);
/*
* 我們希望繼續爬取每條搜索結果指向的網頁，這里統稱為外鏈。
* 我們希望在訪問外鏈時仍然能夠知道外鏈處於搜索引擎的第幾頁、第幾條，
* 所以將頁號和排序信息放入後續的CrawlDatum中，為了能夠區分外鏈和
* 搜索引擎結果頁面，我們將其pageType設置為outlink，這里的值完全由用戶定義，可以設置一個任意的值
* 在經典爬蟲中，每個網頁都有一個refer信息，表示當前網頁的鏈接來源。
* 例如我們首先訪問新浪首頁，然後從新浪首頁中解析出了新的新聞鏈接，
* 則這些網頁的refer值都是新浪首頁。WebCollector不直接保存refer值，
* 但我們可以通過下面的方式，將refer信息保存在metaData中，達到同樣的效果。
* 經典爬蟲中錨文本的存儲也可以通過下面方式實現。
* 在一些需求中，希望得到當前頁面在遍歷樹中的深度，利用metaData很容易實現
* 這個功能，在將CrawlDatum添加到next中時，將其depth設置為當前訪問頁面的depth+1即可。
*/
CrawlDatum datum = new CrawlDatum(result.attr("abs:href"))
.putMetaData("keyword", keyword)
.putMetaData("pageNum", pageNum + "")
.putMetaData("rank", rank + "")
.putMetaData("pageType", "outlink")
.putMetaData("depth", (depth + 1) + "")
.putMetaData("refer", page.getUrl());
next.add(datum);
}
} else if (pageType.equals("outlink")) {
/*int pageNum = Integer.valueOf(page.getMetaData("pageNum"));
int rank = Integer.valueOf(page.getMetaData("rank"));
String refer = page.getMetaData("refer");*/
try {
String content = ContentExtractor.getContentByUrl(page.getUrl());
/*String line = String.format(
"第%s頁第%s個結果:標題:%s(%s位元組)\tdepth=%s\trefer=%s", pageNum,
rank + 1, page.getDoc().title(), content,
depth, refer);*/
String line = String.format("標題：%s\n來源：%s\n正文：%s", page.getDoc().title(),page.getUrl(),content);
HashMap<String, String> data = new HashMap<String,String>();
Date currentDate = new java.util.Date();
SimpleDateFormat myFmt = new SimpleDateFormat("yyyy年MM月dd日 HH:mm:ss");
TimeZone timeZoneChina = TimeZone.getTimeZone("Asia/Shanghai");// 獲取中國的時區
myFmt.setTimeZone(timeZoneChina);// 設置系統時區
String grabTime = myFmt.format(currentDate);// new Date()為獲取當前系統時間
data.put("title", page.getDoc().title());
data.put("from", page.getUrl());
data.put("content", content);
data.put("grabTime", grabTime);
//String line = String.format("標題：%s\n", page.getDoc().title());
//持久化到word文檔中
//是否為線程安全？？？
//synchronized(this) {
String destFile = "D:\\"+"Result"+keyword+".doc";
result.append(line);
//將result寫到doc文件中
write2File(destFile,result.toString());
//添加到資料庫中
addResultData(data);
//}
System.out.println(line);
} catch (Exception e) {
//e.printStackTrace();
System.out.println("鏈接"+page.getUrl()+"失效");
}
}
}
//將數據保存到mysql資料庫中
private void addResultData(HashMap<String, String> data) {

String title = data.get("title");
String source_url = data.get("from");
String content = data.get("content").replaceAll("\\?{2,}", "");//去掉字元串中出現的多個連續問號。
//抓取時間
String grabTime = data.get("grabTime");
/*SimpleDateFormat format = new SimpleDateFormat("yyyy年MM月dd日 HH:mm:ss");
Date date = null;
try {
date = format.parse(grabTime);
} catch (Exception e) {
e.printStackTrace();
}*/
//System.out.println("抓取時間"+grabTime);
try {
connection = DriverManager.getConnection(url, username, password);
String sql = "INSERT INTO wjd_keyword_search_table(TITLE,GRAP_TIME,CONTENT,SOURCE_URL) VALUES(?,?,?,?)";
String checkSql = "select 1 from wjd_keyword_search_table where TITLE='" + title + "'";
Statement statement = connection.prepareStatement(checkSql);
ResultSet result = statement.executeQuery(checkSql);
if (!result.next()) {
// 如果資料庫中不存在該記錄，則添加到資料庫中
pstatement = connection.prepareStatement(sql);
pstatement.setString(1, title);
//pstatement.setString(2, date);
pstatement.setString(2,grabTime);
pstatement.setString(3, content);
pstatement.setString(4, source_url);
pstatement.executeUpdate();
}
} catch (SQLException e) {
e.printStackTrace();
}
}
/**
* 將數據持久化到本地doc文件中
* @param destFile
* @param line
*/
private void write2File(String destFile, String line) {
try {
//doc content
ByteArrayInputStream s = new ByteArrayInputStream(line.getBytes());
POIFSFileSystem fs = new POIFSFileSystem();
DirectoryEntry directory = fs.getRoot();
directory.createDocument("WordDocument", s);
FileOutputStream ostream = new FileOutputStream(destFile);
fs.writeFilesystem(ostream);
s.close();
ostream.close();
} catch (IOException e) {
e.printStackTrace();
}
}
public static void main(String[] args) throws Exception {
String[] keywordsList = {"網路爬蟲","搜索引擎"};
int pageToal =5;
for (String keyword : keywordsList) {
BdiKeywordCrawler crawler = new BdiKeywordCrawler(keyword, pageToal);
crawler.start();
}
}

/**
* 根據關鍵詞和頁號拼接網路搜索對應的URL
*/
public static String createUrl(String keyword, int pageNum)
throws Exception {
int first = (pageNum-1) * 10;
keyword = URLEncoder.encode(keyword, "utf-8");
return String.format("https://www..com/s?wd=%s&pn=%s",
keyword, first);
}
}

C. web scraper怎麼抓取網頁里其他鏈接里的數據

先設定一個類型為link的selector，選擇鏈接，勾選multiple；然後打開鏈接，在新頁面設置需要抓取的元素就好了。Webscraper的詳細操作教程，可以到網易雲課堂搜「Webscraper實戰教學」，有詳細的二級頁面跳轉與頁面點擊的操作教程。

D. 如何用Python爬取搜索引擎的結果

我選取的是爬取網路知道的html 作為我的搜索源數據，目前先打算做網頁標題的搜索，選用了 Python 的 scrapy 庫來對網頁進行爬取，爬取網頁的標題，url，以及html，用sqlist3來對爬取的數據源進行管理。
爬取的過程是一個深度優先的過程，設定四個起始 url ，然後維護一個資料庫，資料庫中有兩個表，一個 infoLib，其中存儲了爬取的主要信息：標題，url ，html；另一個表為urlLib，存儲已經爬取的url，是一個輔助表，在我們爬取每個網頁前，需要先判斷該網頁是否已爬過（是否存在urlLib中）。在數據存儲的過程中，使用了SQL的少量語法，由於我之前學過 MySQL ，這塊處理起來比較駕輕就熟。
深度優先的網頁爬取方案是：給定初始 url，爬取這個網頁中所有 url，繼續對網頁中的 url 遞歸爬取。代碼逐段解析在下面，方便自己以後回顧。
1.建一個 scrapy 工程：
關於建工程，可以參看這個scrapy入門教程，通過運行:

[python] view plain
scrapy startproject ***

在當前目錄下建一個scrapy 的項目，然後在 spiders 的子目錄下建立一個 .py文件，該文件即是爬蟲的主要文件，注意：其中該文件的名字不能與該工程的名字相同，否則，之後調用跑這個爬蟲的時候將會出現錯誤，見ImportError。
2.具體寫.py文件：

[python] view plain
import scrapy
from scrapy import Request
import sqlite3

class rsSpider(scrapy.spiders.Spider): #該類繼承自 scrapy 中的 spider
name = "" #將該爬蟲命名為「知道」，在執行爬蟲時對應指令將為： scrapy crawl
#download_delay = 1 #只是用於控制爬蟲速度的，1s/次，可以用來對付反爬蟲
allowed_domains = ["..com"] #允許爬取的作用域
url_first = 'http://..com/question/' #用於之後解析域名用的短字元串
start_urls = ["http://..com/question/647795152324593805.html", #python
"http://..com/question/23976256.html", #database
"http://..com/question/336615223.html", #C++
"http://..com/question/251232779.html", #operator system
"http://..com/question/137965104.html" #Unix programing
] #定義初始的 url ，有五類知道起始網頁

#add database
connDataBase = sqlite3.connect(".db") #連接到資料庫「.db」
cDataBase = connDataBase.cursor() #設置定位指針
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS infoLib
(id INTEGER PRIMARY KEY AUTOINCREMENT,name text,url text,html text)''')
#通過定位指針操作資料庫，若.db中 infoLib表不存在，則建立該表，其中主鍵是自增的 id（用於引擎的docId）,下一列是文章的標題，然後是url，最後是html

#url dataBase
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS urlLib
(url text PRIMARY KEY)''')
#通過定位指針操作資料庫，若.db中urlLib表不存在，則建立該表，其中只存了 url，保存已經爬過的url，之所以再建一個表，是猜測表的主鍵應該使用哈希表存儲的，查詢速度較快，此處其實也可以用一個外鍵將兩個表關聯起來

2. .py文件中的parse函數：

.py文件中的parse函數將具體處理url返回的 response，進行解析，具體代碼中說明：

[python] view plain
def parse(self,response):
pageName = response.xpath('//title/text()').extract()[0] #解析爬取網頁中的名稱
pageUrl = response.xpath("//head/link").re('href="(.*?)"')[0] #解析爬取網頁的 url，並不是直接使用函數獲取，那樣會夾雜亂碼
pageHtml = response.xpath("//html").extract()[0] #獲取網頁html

# judge whether pageUrl in cUrl
if pageUrl in self.start_urls:
#若當前url 是 start_url 中以一員。進行該判斷的原因是，我們對重復的 start_url 中的網址將仍然進行爬取，而對非 start_url 中的曾經爬過的網頁將不再爬取
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(pageUrl,))
lines = self.cDataBase.fetchall()
if len(lines): #若當前Url已經爬過
pass #則不再在資料庫中添加信息，只是由其為跟繼續往下爬
else: #否則，將信息爬入資料庫
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))
else: #此時進入的非 url 網頁一定是沒有爬取過的（因為深入start_url之後的網頁都會先進行判斷，在爬取，在下面的for循環中判斷）
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))

self.connDataBase.commit() #保存資料庫的更新

print "-----------------------------------------------" #輸出提示信息，沒啥用

for sel in response.xpath('//ul/li/a').re('href="(/question/.*?.html)'): #抓出所有該網頁的延伸網頁，進行判斷並對未爬過的網頁進行爬取
sel = "http://..com" + sel #解析出延伸網頁的url
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(sel,)) #判斷該網頁是否已在資料庫中
lines = self.cDataBase.fetchall()
if len(lines) == 0: #若不在，則對其繼續進行爬取
yield Request(url = sel, callback=self.parse)

E. 請問用python爬蟲抓取此網站的有關信息正則表達式和beautifulsoup怎麼寫

代碼如下：

#coding=utf-8

importre
importrequests
frombs4importBeautifulSoup

resp=requests.get('http://bbs.tiexue.net/post_4337054_1.html')

ifresp.status_code==200:

soup=BeautifulSoup(resp.content.decode('GB2312'),'xml')

content=soup.find('div',id='postContent')
items=content.find_all('p',attrs={'class':'bbsp'})

regex=re.compile(r'd*(.*?)s*((?:d+°s?)?(?:d+'s?)?(?:d+.d+"s?)?N)s*((?:d+°s?)?(?:d+'s?)?(?:d+.d+"s?)?[WE])')

foriteminitems:
line=item.text.strip()
ifline!='':
match=regex.match(line)
ifmatch:
groups=match.groups()
print('名稱:',groups[0])
print('北緯:',groups[1])
print('東經:',groups[2])
print('----------------------------------------')

運行結果：

F. 想用python爬取網頁上的圖片，但無法用select()方法定點陣圖片的源地址

是的可以撒入爬去獲得。

G. SQL語句實現如下：有一個電影的資料庫，含有電影的名稱和上映年份，我想用查找和某電影同年份的電影

select 電影名
from table
where 上映年份=(
select 上映年份
from table
where 電影名='已知的電影名'
)

H. 怎麼使用BT下載電影

先打開迅雷然後把你要下載的影片名打在搜索一覽中，進去之後會出來一大堆的菜單，在開頭幾條就有BT下載

I. python爬蟲中select選擇器的用法問題

這是css選擇器的語法～你可以搜索下css選擇器

J. 怎麼用記事本做網頁弄個鏈接一部具體的電影的超鏈接

鏈接用a標簽，比如：<a
href="幻燈片.ppt">幻燈片</a>
href里的是文件路徑，你要注意路徑問題
話說現在還有人用記事本做網頁啊？太不好使了噢，可以用dw來做網頁，效率高，方便

閱讀全文

與怎麼用select爬取電影鏈接相關的資料

熱點內容

好看的國外家庭喜劇電影發布：2025-01-20 19:38:58 瀏覽：674

非洲人找兒子什麼電影發布：2025-01-20 19:33:57 瀏覽：186

國產牧馬人電影完整版發布：2025-01-20 19:28:07 瀏覽：528

搞笑美國黑幫電影發布：2025-01-20 19:23:51 瀏覽：237

電影分析人物傻根發布：2025-01-20 19:19:36 瀏覽：379

兩會期間有哪些好的電影發布：2025-01-20 19:18:01 瀏覽：562

有哪些關於海底兩萬里的電影發布：2025-01-20 19:17:59 瀏覽：273

我最喜歡的人物形象電影發布：2025-01-20 19:17:13 瀏覽：265

薩爾曼汗2020年新電影發布：2025-01-20 19:17:02 瀏覽：405

歐美電影泳裝美女中彈發布：2025-01-20 19:08:52 瀏覽：605

新橋戀人電影免費發布：2025-01-20 19:04:31 瀏覽：465

哪些電影中有關門的鏡頭發布：2025-01-20 18:58:44 瀏覽：333

2019好看電影發布：2025-01-20 18:44:29 瀏覽：217

為我推薦一些恐怖電影發布：2025-01-20 18:41:23 瀏覽：499

4D電影如何下雨發布：2025-01-20 18:35:43 瀏覽：737

2015年以來最好看的電影發布：2025-01-20 18:27:09 瀏覽：46

媽媽和兒一的倫理電影迅雷下載發布：2025-01-20 18:27:04 瀏覽：159

五人搞笑外國電影叫什麼發布：2025-01-20 18:20:51 瀏覽：941

外國電影在星際中水中生孩子發布：2025-01-20 18:16:22 瀏覽：470

蘇珠妍恐怖電影發布：2025-01-20 18:12:37 瀏覽：319