導航:首頁 > 電影人物 > 怎麼用select爬取電影鏈接

怎麼用select爬取電影鏈接

發布時間:2022-09-07 13:04:37

A. 怎樣在網頁源代碼中找到電影下載鏈接URL地址

一:WMV、ASF等格式的網路視頻
一般這樣格式的視頻,都是默認Windows Media Player播放器,這樣的視頻,一般只需要在播放器內,點滑鼠右鍵,選擇屬性就能看視頻播放的URL地址了,然後就能對該視頻下載。

二:RM、RMVB等常用格式的網路視頻
1.把RM格式的視頻本地播放:在播放器內,點滑鼠右鍵,選擇在RealPlayer中播放(前提是你的機器裝有RealPlayer),就會彈RealPlayer播放器進行本地播放,然後選擇播放器上的導航欄目「文件」再繼續選擇剪輯屬性,再選擇查看剪輯信息,就能找該視頻的URL地址了。
2.斷網查詢法:打開在線網路播放地址後,先不讓視頻進行緩沖,先把網線拔掉,然後再按播放按鈕,讓該視頻連接網路。因為斷線肯定是無法連接的。播放系統會把該視頻的URL地址,提示無法連接該URL地址。這樣就把該視頻的URL地址找出來了。

三:HTML源代碼查詢
如果對方網站沒隱藏URL地址,都能夠用這個方法找到URL地址。打開在線網路視頻的播放頁面,然後點擊滑鼠右鍵,選擇查看源文件,系統會自動打開一個txt的文本。一般情況下,裡面有很多密密麻麻的文字和代碼,然後查找該視頻格式的後綴名,比如是RM的視頻,就查找.rm,應該很快就能找該視頻的URL播放地址。

四:利用傲遊(Maxthon)網頁瀏覽器
Maxthon網頁瀏覽器可以方便地查找視頻URL地址。
具體操作方法:先用傲遊打開該播放頁面,然後選擇瀏覽器右上方的一個圖標,會彈出一個頁面選擇媒體,就能看到視頻的URL地址了。

五:利用專業工具
網上有專門尋找視頻URL播放地址的軟體工具,比如「影音嗅探專家」和「網路嗅探器」都是比較不錯的查找視頻播放URL地址的工具。
網路嗅探器使用方法:打開「網路嗅探器」選擇開始嗅探,然後用IE瀏覽器進入你想查看視頻URL地址的頁面,在線播放該視頻,網路嗅探器就會自動把該視頻的URL地址找出來。現在流行的播客網的flv格式的視頻URL地址,也能用這軟體找出來。

六:終極下載視頻的辦法
不依託任何工具,也可以下載任何可以在線觀看的網路視頻。不管是上面提到的常見視頻格式,像現在最流行的播客網的FLV格式的視頻都能夠下載。
我們在網上在線看一個視頻,比如看播客網的視頻,都能看到明顯的緩沖進度,當完整看完整個視頻,或緩沖進度完全完成後,其實我們的電腦,已經把該視頻下載到IE臨時文件夾里了。

具體的操作過程:
1.先讓視頻在線播放一遍。
2.因為這里涉及的文件及有的屬性是隱藏的,所以先要設置一下,先打開我的電腦,工具欄->文件夾選項->查看->選擇顯示所有文件和文件夾->確定。
3.然後打開C盤->Documents and Settings->Administrator(這個是用戶名,如果你設置了用戶名,就是你設置的用戶名的文件夾)->Local Settings->Temporary Internet Files。
4.我的IE臨時文件夾把文件按大小排列,因為視頻文件都比較大,自然就排在了前面,大家可以從圖中看到,排在前面的都是flv文件,這些都是我今天看過的播客視頻,只要從臨時文件夾里復制出來,就能放在本地硬碟隨時觀看了。 一般的播放器打不開flv的文件,可以下載專業的flv 播放器或暴風影音,就能觀看該視頻了。當然該方法,對其它任何格式的視頻都有效果.

怎樣下載網路視頻
現在在線視頻越來越多了,想下載怎麼辦?下面我總結了三條方法,好好學習哦。恩。主要是針對FLV視頻的,什麼是FLV視頻?就是土豆網,六間房,56,mofile,youtube等視頻網站播放的流媒體。其他的諸如WMV,MPG等格式,我就稍微講下。 如果是WMP視頻,右擊視頻--屬性,即可看到真實視頻地址。如果是Real視頻,右擊視頻--用Real Player播放,然後在本地打開的那個realplayer中,依次選擇文件→剪輯信息→編輯剪輯屬性,即可看到真實地址了。

第一種:利用臨時文件夾
這種方法對大部分網站非常有用。應該有很多人知道吧。不過我還是整理一下。
首先你得耐著性子把整個片子先在線看一遍。一定要看完哦。也可以開多個窗口,就當是下載吧。在觀看的時候這個視頻文件已經下載到你的臨時文件夾里了。臨時文件夾在哪裡?
IE-->工具-->INTERNET選項-->設置-->查看文件
點擊查看文件以後會出來一堆亂七八糟的文件列表,通過調整文件大小/時間/文件類型,後綴為FLV文件的就是視頻文件了。把這些FLV文件隨便復制出來就行了。要注意,有時候下載下來的是一個叫get_video的無後綴文件,要我們要自己手動給給它改名改成xxx.flv(記著不要隱藏已知擴展名哦)。FLV可以用暴風影音或者kmplayer播放。FLV轉換成其他常見視頻格式的軟體待會給大家。

第二種:利用網站解析下載
復制視頻所在頁面的地址,粘貼到下列任意網站里的方框里即可。點擊獲取地址按鈕,就給出視頻的真實地址,用迅雷下載。

B. 如何使用webcollector爬取搜索引擎

使用WebCollector來爬取網路搜索引擎按照關鍵字搜索的結果頁面,解析規則可能會隨網路搜索的改版而失效。
代碼如下:

[java] view plain
package com.wjd.key.crawler;

import java.io.ByteArrayInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.net.URLEncoder;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.HashMap;
import java.util.TimeZone;

import org.apache.poi.poifs.filesystem.DirectoryEntry;
import org.apache.poi.poifs.filesystem.POIFSFileSystem;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import cn.e.hfut.dmic.contentextractor.ContentExtractor;
import cn.e.hfut.dmic.webcollector.model.CrawlDatum;
import cn.e.hfut.dmic.webcollector.model.CrawlDatums;
import cn.e.hfut.dmic.webcollector.model.Page;
import cn.e.hfut.dmic.webcollector.plugin.ram.RamCrawler;

public class BdiKeywordCrawler extends RamCrawler{

private Connection connection;
private PreparedStatement pstatement;
// 連接MySql資料庫,用戶名root,密碼mahao
String url = "jdbc:mysql://localhost:3306/wjd";
String username = "root";
String password = "mahao";
//保存抽取到的數據
StringBuilder result = new StringBuilder();
public BdiKeywordCrawler(String keyword, int maxPageNum) throws Exception {
for (int pageNum = 1; pageNum <= maxPageNum; pageNum++) {
String url = createUrl(keyword, pageNum);
CrawlDatum datum = new CrawlDatum(url)
.putMetaData("keyword", keyword)
.putMetaData("pageNum", pageNum + "")
.putMetaData("pageType", "searchEngine")
.putMetaData("depth", "1");
addSeed(datum);
}
}
@Override
public void visit(Page page, CrawlDatums next) {
String keyword = page.getMetaData("keyword");
String pageType = page.getMetaData("pageType");
int depth = Integer.valueOf(page.getMetaData("depth"));
if (pageType.equals("searchEngine")) {
int pageNum = Integer.valueOf(page.getMetaData("pageNum"));
System.out.println("成功抓取關鍵詞" + keyword + "的第" + pageNum + "頁搜索結果");
// || div[class=result-op c-container xpath-log ]>h3>a
Elements results = page.select("div[class=result c-container ]>h3>a");
// Elements results1 = page.select("div[class=result-op c-container xpath-log]>h3>a");//,div[id=result-op c-container xpath-log]>h3>a
//System.out.println(results1.get(0));
//results.add(results1.get(0));
for (int rank = 0; rank < results.size(); rank++) {
Element result = results.get(rank);
/*
* 我們希望繼續爬取每條搜索結果指向的網頁,這里統稱為外鏈。
* 我們希望在訪問外鏈時仍然能夠知道外鏈處於搜索引擎的第幾頁、第幾條,
* 所以將頁號和排序信息放入後續的CrawlDatum中,為了能夠區分外鏈和
* 搜索引擎結果頁面,我們將其pageType設置為outlink,這里的值完全由 用戶定義,可以設置一個任意的值
* 在經典爬蟲中,每個網頁都有一個refer信息,表示當前網頁的鏈接來源。
* 例如我們首先訪問新浪首頁,然後從新浪首頁中解析出了新的新聞鏈接,
* 則這些網頁的refer值都是新浪首頁。WebCollector不直接保存refer值,
* 但我們可以通過下面的方式,將refer信息保存在metaData中,達到同樣的效果。
* 經典爬蟲中錨文本的存儲也可以通過下面方式實現。
* 在一些需求中,希望得到當前頁面在遍歷樹中的深度,利用metaData很容易實現
* 這個功能,在將CrawlDatum添加到next中時,將其depth設置為當前訪問頁面 的depth+1即可。
*/
CrawlDatum datum = new CrawlDatum(result.attr("abs:href"))
.putMetaData("keyword", keyword)
.putMetaData("pageNum", pageNum + "")
.putMetaData("rank", rank + "")
.putMetaData("pageType", "outlink")
.putMetaData("depth", (depth + 1) + "")
.putMetaData("refer", page.getUrl());
next.add(datum);
}
} else if (pageType.equals("outlink")) {
/*int pageNum = Integer.valueOf(page.getMetaData("pageNum"));
int rank = Integer.valueOf(page.getMetaData("rank"));
String refer = page.getMetaData("refer");*/
try {
String content = ContentExtractor.getContentByUrl(page.getUrl());
/*String line = String.format(
"第%s頁第%s個結果:標題:%s(%s位元組)\tdepth=%s\trefer=%s", pageNum,
rank + 1, page.getDoc().title(), content,
depth, refer);*/
String line = String.format("標題:%s\n來源:%s\n正文:%s", page.getDoc().title(),page.getUrl(),content);
HashMap<String, String> data = new HashMap<String,String>();
Date currentDate = new java.util.Date();
SimpleDateFormat myFmt = new SimpleDateFormat("yyyy年MM月dd日 HH:mm:ss");
TimeZone timeZoneChina = TimeZone.getTimeZone("Asia/Shanghai");// 獲取中國的時區
myFmt.setTimeZone(timeZoneChina);// 設置系統時區
String grabTime = myFmt.format(currentDate);// new Date()為獲取當前系統時間
data.put("title", page.getDoc().title());
data.put("from", page.getUrl());
data.put("content", content);
data.put("grabTime", grabTime);
//String line = String.format("標題:%s\n", page.getDoc().title());
//持久化到word文檔中
//是否為線程安全???
//synchronized(this) {
String destFile = "D:\\"+"Result"+keyword+".doc";
result.append(line);
//將result寫到doc文件中
write2File(destFile,result.toString());
//添加到資料庫中
addResultData(data);
//}
System.out.println(line);
} catch (Exception e) {
//e.printStackTrace();
System.out.println("鏈接"+page.getUrl()+"失效");
}
}
}
//將數據保存到mysql資料庫中
private void addResultData(HashMap<String, String> data) {

String title = data.get("title");
String source_url = data.get("from");
String content = data.get("content").replaceAll("\\?{2,}", "");//去掉字元串中出現的多個連續問號。
//抓取時間
String grabTime = data.get("grabTime");
/*SimpleDateFormat format = new SimpleDateFormat("yyyy年MM月dd日 HH:mm:ss");
Date date = null;
try {
date = format.parse(grabTime);
} catch (Exception e) {
e.printStackTrace();
}*/
//System.out.println("抓取時間"+grabTime);
try {
connection = DriverManager.getConnection(url, username, password);
String sql = "INSERT INTO wjd_keyword_search_table(TITLE,GRAP_TIME,CONTENT,SOURCE_URL) VALUES(?,?,?,?)";
String checkSql = "select 1 from wjd_keyword_search_table where TITLE='" + title + "'";
Statement statement = connection.prepareStatement(checkSql);
ResultSet result = statement.executeQuery(checkSql);
if (!result.next()) {
// 如果資料庫中不存在該記錄,則添加到資料庫中
pstatement = connection.prepareStatement(sql);
pstatement.setString(1, title);
//pstatement.setString(2, date);
pstatement.setString(2,grabTime);
pstatement.setString(3, content);
pstatement.setString(4, source_url);
pstatement.executeUpdate();
}
} catch (SQLException e) {
e.printStackTrace();
}
}
/**
* 將數據持久化到本地doc文件中
* @param destFile
* @param line
*/
private void write2File(String destFile, String line) {
try {
//doc content
ByteArrayInputStream s = new ByteArrayInputStream(line.getBytes());
POIFSFileSystem fs = new POIFSFileSystem();
DirectoryEntry directory = fs.getRoot();
directory.createDocument("WordDocument", s);
FileOutputStream ostream = new FileOutputStream(destFile);
fs.writeFilesystem(ostream);
s.close();
ostream.close();
} catch (IOException e) {
e.printStackTrace();
}
}
public static void main(String[] args) throws Exception {
String[] keywordsList = {"網路爬蟲","搜索引擎"};
int pageToal =5;
for (String keyword : keywordsList) {
BdiKeywordCrawler crawler = new BdiKeywordCrawler(keyword, pageToal);
crawler.start();
}
}

/**
* 根據關鍵詞和頁號拼接網路搜索對應的URL
*/
public static String createUrl(String keyword, int pageNum)
throws Exception {
int first = (pageNum-1) * 10;
keyword = URLEncoder.encode(keyword, "utf-8");
return String.format("https://www..com/s?wd=%s&pn=%s",
keyword, first);
}
}

C. web scraper怎麼抓取網頁里其他鏈接里的數據

先設定一個類型為link的selector,選擇鏈接,勾選multiple;然後打開鏈接,在新頁面設置需要抓取的元素就好了。Webscraper的詳細操作教程,可以到網易雲課堂搜「Webscraper實戰教學」,有詳細的二級頁面跳轉與頁面點擊的操作教程。

D. 如何用Python爬取搜索引擎的結果

我選取的是爬取網路知道的html 作為我的搜索源數據,目前先打算做網頁標題的搜索,選用了 Python 的 scrapy 庫來對網頁進行爬取,爬取網頁的標題,url,以及html,用sqlist3來對爬取的數據源進行管理。
爬取的過程是一個深度優先的過程,設定四個起始 url ,然後維護一個資料庫,資料庫中有兩個表,一個 infoLib,其中存儲了爬取的主要信息:標題,url ,html;另一個表為urlLib,存儲已經爬取的url,是一個輔助表,在我們爬取每個網頁前,需要先判斷該網頁是否已爬過(是否存在urlLib中)。在數據存儲的過程中,使用了SQL的少量語法,由於我之前學過 MySQL ,這塊處理起來比較駕輕就熟。
深度優先的網頁爬取方案是:給定初始 url,爬取這個網頁中所有 url,繼續對網頁中的 url 遞歸爬取。代碼逐段解析在下面,方便自己以後回顧。
1.建一個 scrapy 工程:
關於建工程,可以參看這個scrapy入門教程,通過運行:

[python] view plain
scrapy startproject ***

在當前目錄下建一個scrapy 的項目,然後在 spiders 的子目錄下建立一個 .py文件,該文件即是爬蟲的主要文件,注意:其中該文件的名字不能與該工程的名字相同,否則,之後調用跑這個爬蟲的時候將會出現錯誤,見ImportError。
2.具體寫.py文件:

[python] view plain
import scrapy
from scrapy import Request
import sqlite3

class rsSpider(scrapy.spiders.Spider): #該類繼承自 scrapy 中的 spider
name = "" #將該爬蟲命名為 「知道」,在執行爬蟲時對應指令將為: scrapy crawl
#download_delay = 1 #只是用於控制爬蟲速度的,1s/次,可以用來對付反爬蟲
allowed_domains = ["..com"] #允許爬取的作用域
url_first = 'http://..com/question/' #用於之後解析域名用的短字元串
start_urls = ["http://..com/question/647795152324593805.html", #python
"http://..com/question/23976256.html", #database
"http://..com/question/336615223.html", #C++
"http://..com/question/251232779.html", #operator system
"http://..com/question/137965104.html" #Unix programing
] #定義初始的 url ,有五類知道起始網頁

#add database
connDataBase = sqlite3.connect(".db") #連接到資料庫「.db」
cDataBase = connDataBase.cursor() #設置定位指針
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS infoLib
(id INTEGER PRIMARY KEY AUTOINCREMENT,name text,url text,html text)''')
#通過定位指針操作資料庫,若.db中 infoLib表不存在,則建立該表,其中主鍵是自增的 id(用於引擎的docId),下一列是文章的標題,然後是url,最後是html

#url dataBase
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS urlLib
(url text PRIMARY KEY)''')
#通過定位指針操作資料庫,若.db中urlLib表不存在,則建立該表,其中只存了 url,保存已經爬過的url,之所以再建一個表,是猜測表的主鍵應該使用哈希表存儲的,查詢速度較快,此處其實也可以用一個外鍵將兩個表關聯起來

2. .py文件中的parse函數:

.py文件中的parse函數將具體處理url返回的 response,進行解析,具體代碼中說明:

[python] view plain
def parse(self,response):
pageName = response.xpath('//title/text()').extract()[0] #解析爬取網頁中的名稱
pageUrl = response.xpath("//head/link").re('href="(.*?)"')[0] #解析爬取網頁的 url,並不是直接使用函數獲取,那樣會夾雜亂碼
pageHtml = response.xpath("//html").extract()[0] #獲取網頁html

# judge whether pageUrl in cUrl
if pageUrl in self.start_urls:
#若當前url 是 start_url 中以一員。進行該判斷的原因是,我們對重復的 start_url 中的網址將仍然進行爬取,而對非 start_url 中的曾經爬過的網頁將不再爬取
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(pageUrl,))
lines = self.cDataBase.fetchall()
if len(lines): #若當前Url已經爬過
pass #則不再在資料庫中添加信息,只是由其為跟繼續往下爬
else: #否則,將信息爬入資料庫
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))
else: #此時進入的非 url 網頁一定是沒有爬取過的(因為深入start_url之後的網頁都會先進行判斷,在爬取,在下面的for循環中判斷)
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))

self.connDataBase.commit() #保存資料庫的更新

print "-----------------------------------------------" #輸出提示信息,沒啥用

for sel in response.xpath('//ul/li/a').re('href="(/question/.*?.html)'): #抓出所有該網頁的延伸網頁,進行判斷並對未爬過的網頁進行爬取
sel = "http://..com" + sel #解析出延伸網頁的url
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(sel,)) #判斷該網頁是否已在資料庫中
lines = self.cDataBase.fetchall()
if len(lines) == 0: #若不在,則對其繼續進行爬取
yield Request(url = sel, callback=self.parse)

E. 請問用python爬蟲抓取此網站的有關信息正則表達式和beautifulsoup怎麼寫

代碼如下:

#coding=utf-8

importre
importrequests
frombs4importBeautifulSoup

resp=requests.get('http://bbs.tiexue.net/post_4337054_1.html')

ifresp.status_code==200:

soup=BeautifulSoup(resp.content.decode('GB2312'),'xml')

content=soup.find('div',id='postContent')
items=content.find_all('p',attrs={'class':'bbsp'})

regex=re.compile(r'd*(.*?)s*((?:d+°s?)?(?:d+'s?)?(?:d+.d+"s?)?N)s*((?:d+°s?)?(?:d+'s?)?(?:d+.d+"s?)?[WE])')

foriteminitems:
line=item.text.strip()
ifline!='':
match=regex.match(line)
ifmatch:
groups=match.groups()
print('名稱:',groups[0])
print('北緯:',groups[1])
print('東經:',groups[2])
print('----------------------------------------')

運行結果:

F. 想用python爬取網頁上的圖片,但無法用select()方法定點陣圖片的源地址

是的可以撒入爬去獲得。

G. SQL語句實現如下:有一個電影的資料庫,含有電影的名稱和上映年份,我想用查找和某電影同年份的電影

select 電影名
from table
where 上映年份=(
select 上映年份
from table
where 電影名='已知的電影名'
)

H. 怎麼使用BT下載電影

先打開迅雷然後把你要下載的影片名打在搜索一覽中,進去之後會出來一大堆的菜單,在開頭幾條就有BT下載

I. python爬蟲中select選擇器的用法問題

這是css選擇器的語法~你可以搜索下css選擇器

J. 怎麼用記事本做網頁弄個鏈接一部具體的電影的超鏈接

鏈接用a標簽,比如:<a
href="幻燈片.ppt">幻燈片</a>
href里的是文件路徑,你要注意路徑問題
話說現在還有人用記事本做網頁啊?太不好使了噢,可以用dw來做網頁,效率高,方便

閱讀全文

與怎麼用select爬取電影鏈接相關的資料

熱點內容
好看的國外家庭喜劇電影 瀏覽:674
非洲人找兒子什麼電影 瀏覽:186
國產牧馬人電影完整版 瀏覽:528
搞笑美國黑幫電影 瀏覽:237
電影分析人物傻根 瀏覽:379
兩會期間有哪些好的電影 瀏覽:562
有哪些關於海底兩萬里的電影 瀏覽:273
我最喜歡的人物形象電影 瀏覽:265
薩爾曼汗2020年新電影 瀏覽:405
歐美電影泳裝美女中彈 瀏覽:605
新橋戀人電影免費 瀏覽:465
哪些電影中有關門的鏡頭 瀏覽:333
2019好看電影 瀏覽:217
為我推薦一些恐怖電影 瀏覽:499
4D電影如何下雨 瀏覽:737
2015年以來最好看的電影 瀏覽:46
媽媽和兒一的倫理電影迅雷下載 瀏覽:159
五人搞笑外國電影叫什麼 瀏覽:941
外國電影在星際中水中生孩子 瀏覽:470
蘇珠妍恐怖電影 瀏覽:319