<address id="vfzrl"><nobr id="vfzrl"><progress id="vfzrl"></progress></nobr></address>

<address id="vfzrl"></address>

<address id="vfzrl"></address>

<em id="vfzrl"><form id="vfzrl"><nobr id="vfzrl"></nobr></form></em><address id="vfzrl"></address>

<address id="vfzrl"></address>

<noframes id="vfzrl"><form id="vfzrl"><th id="vfzrl"></th></form><form id="vfzrl"><th id="vfzrl"><th id="vfzrl"></th></th></form>

您當前的位置：發表學術論文網》文史論文》熱銷圖書爬取數據的BeautifulSoup庫解析> 正文

熱銷圖書爬取數據的BeautifulSoup庫解析

所屬分類：文史論文閱讀次時間：2021-05-17 10:30

本文摘要：摘要BeautifulSoup庫是python語言關于網絡爬蟲爬取頁面解析的第三方庫。它能根據html、xml以及html5lib語法建立解析樹，進而高效解析網頁內容。本文從基本元素、網頁內容遍歷提取方法入手介紹BeautifulSoup庫的工作原理，并結合電商平臺最新的圖書銷售數據為

　　摘要BeautifulSoup庫是python語言關于網絡爬蟲爬取頁面解析的第三方庫。它能根據html、xml以及html5lib語法建立解析樹，進而高效解析網頁內容。本文從基本元素、網頁內容遍歷提取方法入手介紹BeautifulSoup庫的工作原理，并結合電商平臺最新的圖書銷售數據為實例，進行爬取信息的解析展示。

　　關鍵詞網絡爬蟲;網頁解析;BeautifulSoup庫

數據庫解析

　　1引言

　　BeautifulSoup庫是python語言的第三方爬蟲解析庫。它提供了簡單便捷的python式函數來處理復雜的Web頁面的分析需求，是解析、遍歷、維護標簽樹的功能庫。BeautifulSoup庫不僅支持html，還支持lxml以及htnl5lib解析器。通過解析文檔為用戶爬取有價值的數據，大大節省開發時間，成為廣受歡迎的網頁解析工具之一[1]。

　　2BeautifulSoup庫的使用

　　利用爬蟲獲取網頁信息，就是從html代碼中抽取我們需要的信息。html代碼由眾多標簽組成。BeautifulSoup庫的主要功能就是精確定位標簽以及從標簽中提取內容[2]。

　　2.1BeautifulSoup庫的基本元素

　　BeautifulSoup庫可以將html文檔轉換為一個復雜的樹形結構，每個節點就是一個對象，所有對象可以歸納為4類：(1)Tag對象：每一個html文檔中的Tag標簽就是BeautifulSoup庫一個對象。(2)NavigableString對象：Tag對象的內部文本節點，可以通過Tag.string返回該對象。(3)BeautifulSoup對象：通過類的實例化BeautifulSoup對象可以將html文檔轉換為一個樹形結構，以表示html的文檔結構。(4)Comment對象：返回注釋標簽的文本節點，是NavigableString對象的子類。

　　2.2BeautifulSoup庫的信息提取方法

　　BeautifulSoup對象作為一棵html標簽樹，存在眾多由標簽對象及非屬性字符串組成的節點[3]。由于節點的非線性結構，相對于它所在的位置，使得它與其他節點構成了上下、平行關系，從而衍生出該節點的父節點、子節點、兄弟節點的上行遍歷、下行遍歷和平行遍歷。節點的下行遍歷可以通過子孫節點實現。.contents屬性可將所有子節點以列表的方式輸出，通過.children生成器，可對所有子孫節點進行遍歷。節點的上行遍歷可以通過父輩節點實現，.parent屬性可將所有父節點以列表的方式輸出，通過.parents生成器，可對所有父輩節點進行遍歷。節點的平行遍歷可通過兄弟節點實現，.next_sibling屬性獲取了該節點的下一個兄弟節點。.

　　previous_sibling則與之相反，如果節點不存在，則返回None，兄弟節點的平行遍歷要求兩節點需為同級節點，即屬于同一個父節點。對標簽樹符合指定內容的節點遍歷則需要配合搜索方法共同作用，BeautifulSoup庫提供了8種信息查找和獲取方法，其中使用最廣泛的是利用find_all()方法搜索標簽樹[4]。find_all(name,attrs,recursive,text,**kwargs)方法搜索當前tag的所有子節點，并判斷是否符合過濾器的條件。

　　經濟論文投稿刊物：《經濟數學》(季刊)創刊于1984年，主要刊登數量經濟學、數理經濟學、計量經濟學、經濟對策論、經濟控制論、經濟預測與決策和經濟應用數學領域中創造性的研究成果。本刊現為季刊，向國內外公開發行。

　　3電商平臺圖書熱銷數據的爬取解析

　　各大電商平臺的商品成交數據蘊含大量的有用信息。本文以京東平臺2020年10月份的圖書銷售信息為依據，利用python的requests庫和BeautifulSoup庫爬取并解析出該時段京東圖書銷售榜的top100條信息，以幫助用戶獲取最新熱門圖書資源。

　　(1)數據爬取。在數據爬取之前先閱讀京東網站的網絡robots協議，出于數據保護考量，網站對爬蟲訪問進行了反爬設置，需要修改網絡請求頭中的user-agent為合法瀏覽器。然后利用requests庫GET方法對目標網頁進行爬取，從而獲得當前頁面的html文件。defaskURL(url):head={"user-agent":"Chrome"}r=requests.get(url,headers=head)r.raise_for_status()r.encoding=r.apparent_encodinghtml=r.textreturnhtml

　　(2)數據解析。利用requests庫爬取的是整個網頁的html文檔，其中大部分數據并不是我們想要的圖書熱銷信息，利用BeautifulSoup庫進行有價值數據的解析提取，通過建立soup對象，利用find_all("div",class_="p-detail")找到逐條的熱銷圖書信息，并進行數據清洗，只保留圖書名稱、作者以及出版社信息，存儲為列表數據。defgetData(html):html=askURL(url)soup=BeautifulSoup(html,"html.parser")data=[]foriteminsoup.find_all("div",class_="p-detail"):aset=item.find_all("a")data.append([aset[0].attrs['title'],"\t作者"+aset[1].attrs['title'],"\t"+aset[2].attrs['title']])returndata

　　(3)數據保存。將解析完成的數據，加以編號，存放到本地，編碼方式設置為utf-8，以免出現亂碼[5]。defsaveData(datalist,savepath):withopen(savepath,"w",encoding="utf-8")asf:fordataindatalist:forlineindata:f.writelines(line)f.write("\n\n")return

　　參考文獻

　　[1]蘇旋.分布式網絡爬蟲技術的研究與實現[碩士學位論文].哈爾濱工業大學,哈爾濱,2012

　　[2]夏敏捷,楊關,等.Python程序設計-從基礎到開發.北京:清華大學出版社,2017

　　[3]嵩天,禮欣,黃天羽.Python語言程序設計基礎.第2版.北京:高等教育出版社,2017

　　[4]郭麗蓉.基于Python的網絡爬蟲程序設計.電子技術與軟件工程,2017(23):248-249

　　[5]魏倩男,賀正楚,陳一鳴.基于網絡爬蟲的京東電商平臺數據分析.經濟數學,2018,35(1):77-85

　　作者：鞠慧

轉載請注明來自發表學術論文網：http://www.cnzjbx.cn/wslw/26786.html

上一篇：試論表演中節奏的重要性

下一篇：淺談邁斯納方法中的自發性

期刊知識

怎么知道SCI期刊是不是開源2021-06-22

賀州市職稱評審材料要求2021-03-02

疫情防控論文發表2020-03-13

中文期刊都有查重率檢測嗎2021-12-01

食品監管方面的論文文獻2021-08-13

論文知識

婦科護理論文方向的期刊介紹2015-11-19

東華理工大學軍事論文格式2015-12-29

電子電路類論文怎么加急發表2023-09-19

板材質量論文發表哪些期刊2021-07-19

賞識教育論文發表有什么文獻和發表期刊2020-03-18

論文范文

寫交通節能論文有什么方向2021-12-28

sci論文退修期間可以增加作者么2020-10-20

發表的論文怎么網上查2021-12-28

三元相圖分析論文容易發表嗎2019-11-25

安全管理員如何發表論文2020-10-21

職稱評審

污水處理新公開發表的論文2021-11-15

電氣SCI論文發表難嗎2021-01-19

會計高級職稱論文容易發表的期刊有哪些2017-08-14

論文雜志選擇小技巧2021-02-04

稅收對社會福利影響的論文文獻怎么檢索和引用2021-03-22

職稱教著專利

論文發表期刊咨詢

環境科學與管理

水電能源科學

《計算機仿真》

《教育評論》

五级黄18以上免费看