豆果美食網的數據爬取比較簡單,本次爬取的數據范圍為川菜、粵菜、湘菜等八個中國菜系,包含菜譜名、鏈接、用料、評分、圖片等字段。
豆果美食網
限于篇幅,僅給出核心代碼。
1#主函數2defmain(x):3url='https://www.douguo.com/caipu/{}/0/{}'.format(caipu,x*20)4print(url)5html=get_page(url)6parse_page(html,caipu)78if__name__=='__main__':9caipu_list=['川菜','湘菜','粵菜','東北菜','魯菜','浙菜','湖北菜','***菜']#中國菜系10start=time.time()#計時11forcaipuincaipu_list:12foriinrange(22):13#爬取多頁14main(x=i)15time.sleep(random.uniform(1,2))16print(caipu,"第"+str(i+1)+"頁提取完成")17end=time.time()18print('共用時',round((end-start)/60,2),'分鐘')數據清洗短短幾分鐘就爬下了3032個菜譜信息,為了方便可視化分析,還需要對爬取的數據進行簡單清洗。
本文數據清洗主要用到Python的Pandas庫。
導入數據用pd.read***導入爬取到的菜譜數據,并添加列名。預覽數據如下:
刪除重復項爬蟲過程中少量菜譜數據被重復抓取,需要用drop_duplicates***刪除。
缺失值處理通過info***發現少量記錄含有缺失值,用dropna***刪除。
評分字段清洗爬取的評分字段含有多余的字符串且為object類型,需要替換多余字符串并轉換為數字類型,方便后續計算。
添加用料數字段為方便菜譜用料分析,需要根據用料字段計算出每個菜譜的用料數量。由于用料字段都是以逗號分隔,計算逗號數即可間接得到。
數據可視化本文數據可視化主要用到pyecharts庫,它能輕松實現酷炫的圖表效果。
菜譜評分分布1frompyechartsimportoptionsasopts2frompyecharts.chartsimportPage,Pie3cut=lambdax:'4分以下'ifx<4else('4.1-4.5分'ifx<=4.5else('4.6-4.9分'ifx<=4.9else'5分'))4df['評分分布']=df['評分'].map(cut)5df2=df.groupby('評分分布')['評分'].count()6df2=df2.sort_values(ascending=False)7df2=df2.round(2)8print(df2)9c=(10Pie()11.add(12"",13[list(z)forzinzip(df2.index.to_list(),df2.to_list())],14radius=["20%","80%"],#圓環的粗細和大小15rosetype='area'#玫瑰圖16)17.set_global_opts(18title_opts=opts.TitleOpts(title="菜譜評分分布"19),20legend_opts=opts.LegendOpts(21orient="vertical",pos_top="5%",pos_left="2%",textstyle_opts=opts.TextStyleOpts(font_size=14)#左面比例尺22),232425)26.set_series_opts(label_opts=opts.LabelOpts(formatter=":vgvglbzpce1z%",font_size=18),27)28)29c.render_notebook()菜譜評分分布玫瑰圖
豆果美食網菜譜評分實行5分制。由上圖可知,4分以下的菜譜占比不到2%,滿分菜譜高達32.6%,可見用戶對中國菜系菜譜評價普遍較高。
各菜系菜譜數量對比1frompyechartsimportoptionsasopts2frompyecharts.chartsimportPage,Pie3df2=df.groupby('菜系')['評分'].count()#按菜系分組,對評分計數4df2=df2.sort_values(ascending=False)#降序5print(df2)6c=(7Pie()8.add("",[list(z)forzinzip(df2.index.to_list(),df2.to_list())])9.set_global_opts(title_opts=opts.TitleOpts(title="各菜系菜譜數量占比",subtitle="數據來源:豆果美食"))10.set_series_opts(label_opts=opts.LabelOpts(formatter=":{c}"))11)12c.render_notebook()各菜系菜譜數量占比餅圖
由上圖可知,川菜和粵菜菜譜數量較多,顯示出作為中國“八大菜系”成員的地位。湖北菜和***菜菜譜數量較少,相對更為小眾。
各菜系評分對比1frompyechartsimportoptionsasopts2frompyecharts.chartsimportPage,Pie3df2=df.groupby('菜系')['評分'].mean()4df2=df2.sort_values(ascending=False)5df2=df2.round(2)6print(df2)7c=(8Pie()9.add(10"",11[list(z)forzinzip(df2.index.to_list(),df2.to_list())],12radius=["40%","75%"],#圓環的粗細和大小13)14.set_global_opts(15title_opts=opts.TitleOpts(title="各菜系平均評分"),16legend_opts=opts.LegendOpts(17orient="vertical",pos_top="5%",pos_left="2%"#左面比例尺18),19)20.set_series_opts(label_opts=opts.LabelOpts(formatter=":{c}"))21)22c.render_notebook()各菜系平均評分環狀圖
由上圖可知,各菜系評分非常接近,用戶平均評分都在4.6分以上。相對一致的評分,導致通過用戶評分來評價菜譜的可信度降低。
各菜系用料數量對比frompyecharts.chartsimportBar,Piefrompyechartsimportoptionsasoptsdf1=df.groupby('菜系')['用料數'].mean()#按菜系分組,對評分計數df1=df1.sort_values(ascending=False)#降序df1=df1.round(0)print(df1)bar=Bar()bar.add_xaxis(df1.index.to_list())bar.add_yaxis("用料數量",df1.to_list())bar.set_global_opts(title_opts=opts.TitleOpts(title="各菜系用料數量",subtitle="數據來源:豆果美食"))bar.render_notebook()各菜系用料數量柱狀圖
由上圖可知,川菜和東北菜用料較足。川菜素有取材廣泛、調味多、菜式多樣等特點,雖然東北菜沒有排在傳統的“八大菜系”中,但豪邁熱情的東北人從不吝嗇菜肴里的用料。
粵菜更注重菜品的原味鮮香,具有清、鮮、爽、嫩、滑等特色,因此用料相對更少。***飲食風俗源于***教,部分食材屬于禁忌物,因此用料也不多。
川菜用料分析#繪制詞云圖text1=get_cut_words(content_series=df[df['菜系']=='川菜']['用料'])stylecloud.gen_stylecloud(text=''.join(text1),max_words=1000,collocations=False,font_path='字酷堂清楷體.ttf',icon_name='fasfa-thumbs-up',size=653,output_name='./川菜.png')Image(filename='./川菜.png')川菜用料詞云圖
由川菜用料詞云圖可知,川菜主要用料包括花椒、豆瓣醬和干辣椒。不怕辣的四川人喜好種植花椒,四川火鍋也因為有了花椒的加入更有吸引力,千千萬萬的海內外尋味者奔涌相隨。
料實材真,一般都能出美味。川菜用料最足的菜譜為川味砂鍋之足不出戶的麻辣燙,共用料35種。
川味砂鍋之足不出戶的麻辣燙
用料明細:毛肚,黃喉,鮮牛肉片,自制肉,鴨血,金針菇,平菇,豆芽,苕粉,冬筍片,白菜,萵筍葉,鵪鶉蛋(煮熟剝殼),豬骨湯,豬油,牛油,植物油(菜油上佳),姜片,大粒的蒜,郫縣豆瓣,八角,茴香,桂皮,丁香,陳皮,香葉,白胡椒粉,冰糖,生抽,鹽,蔥結,花椒,干辣椒,雞精丸,午餐肉
粵菜用料分析粵菜用料詞云圖
由粵菜用料詞云圖可知,粵菜主要用料包括胡椒粉、五花肉和白糖。粵菜的圣地在順德,粵菜注重質和味,口味相對清淡,力求清中求鮮、淡中求美。
粵菜用料最足的菜譜為廣式腸粉,共用料23種。
廣式腸粉
用料明細:粉漿用料,粘米粉(米打的粉),澄面(小麥淀粉),土豆淀粉,粟米粉(玉米淀粉),水,醬汁用料,獨頭蒜,大蒜籽,姜片,香菜(不吃香菜的可用蔥代替),雞湯,鮮味生抽,老抽,蠔油,蜂蜜,魚露(可不放),雞精(個人喜歡就放,不放也很鮮了),水,腸粉里面放的料,肉末,雞蛋,生菜葉
湘菜用料詞云圖湘菜用料詞云圖
由湘菜用料詞云圖可知,湘菜主要用料包括辣椒、大蒜、花椒等。辣不怕的湖南人以辣椒為生,尤其以剁椒出名。J哥雖不是湖南人,但在湖南待了幾年后,目前也成了個胖子。美食雖美,可不要貪多哦~
湘菜用料最足的菜譜為麻辣鹵鴨三件,共用料20種。
麻辣鹵鴨三件
用料明細:鴨爪(清水泡一小時),鴨翅膀(清水泡一小時啊),鴨腸(洗干凈后捆成一個個小捆),白芷,桂皮,香葉,大料(兩個焯水用,三個鹵用),干辣椒(根據個人喜辣程度放),小茴香,花椒,麻椒,草果,生姜(一塊焯水去味用,一塊鹵用),蒜瓣(全部去皮),辣椒醬(根據個人喜辣放),老抽,生抽,料酒,白糖,鹽
東北菜用料詞云圖東北菜用料詞云圖
由東北菜用料詞云圖可知,東北菜主要用料包括土豆、面粉、胡蘿卜等。東北菜在做法上也融合了一些宮廷菜點和漢族飲食所長,利用東北特產原料和純綠色食品原料。土豆和胡蘿卜在黑土地的孕育下為東北菜源源不斷輸送著美味配方。
東北菜用料最足的菜譜為翡翠白菜水餃,共用料20種。
翡翠白菜水餃
用料明細:面皮***,面粉(綠色面團所用),面粉(白色面團所用),小白菜葉(取汁),清水,餡料***,豬五花肉,大白菜,胡蘿卜,蔥碎,姜沫,鹽,生抽,老抽,蠔油,芝麻油,糖,雞精,花椒粉,花生油
湖北菜用料詞云圖湖北菜用料詞云圖
由湖北菜用料詞云圖可知,湖北菜主要用料包括糯米、花椒、面粉等。千湖之省湖北坐落于江漢平原,同時作為重要的商品糧基地,從來不缺美食原料。
湖北菜用料最足的菜譜為家常美味——香菇雞肉面,共用料23種。
家常美味——香菇雞肉面
用料明細:雞脯肉或雞腿肉,香菇,刀削面或寬面,芹菜,青菜,郫縣紅油豆瓣,蔥,姜,蒜,干辣椒,花椒,八角,老抽,生抽,料酒,淀粉,蛋清,十三香,白胡椒,雞精,鹽,蒜苗,香菜
浙菜用料詞云圖浙菜用料詞云圖
浙菜主要用料包括白糖、冰糖、胡椒粉等。俗話說“上有天堂,下有蘇杭”,素有魚米之鄉之稱的浙江,賦予了浙菜豐富的原料。浙菜菜式小巧玲瓏,菜品甜而不膩。
浙菜用料最足的菜譜為經典糖醋排骨,共用料17種。
經典糖醋排骨
用料明細:豬肋排,小蔥段(煮排骨用),姜(煮排骨用),料酒(煮排骨用),冷水,綿白糖,米醋,香醋,老抽,鹽,綿白糖(澆汁用),米醋(澆汁用),香醋(澆汁用),淀粉(澆汁用),溫水(澆汁用),食用油,熟白芝麻
魯菜用料詞云圖魯菜用料詞云圖
魯菜主要用料包括面粉、胡蘿卜、蠔油等。魯菜講究原料質地優良,以本地用料為主。作為我國第二大小麥主產區,能夠為面粉的***提供充足的儲備,同時還盛產胡蘿卜、大白菜等蔬菜,成為魯菜常用的配菜來源。
魯菜用料最足的菜譜為大白菜燉牛肉,共用料28種。
大白菜燉牛肉
用料明細:燉牛肉,牛肉,蔥姜,小香蔥,冰糖,八角,草果,小茴香,香葉,干辣椒,蒜,洋蔥,油,生抽,甜面醬,番茄醬,鹽,清水,啤酒,大白菜燉牛肉,大白菜,熟牛肉,牛肉湯,粉絲,食用油,蔥花,水淀粉,鹽
***菜用料詞云圖***菜用料詞云圖
***菜主要用料包括蛋白、蛋清、面粉等。在我國,包括***、***爾族、哈薩克族等10個少數民族具有***飲食習慣,***菜最突出的特點在于飲食禁忌比較嚴格,因此在用料上明顯與其他菜系有所區別。***菜的口味偏重咸鮮,汁濃味厚,肥而不膩,嫩而不膻。
***菜用料最足的菜譜為糖醋蛋白肉,共用料15種。
糖醋蛋白肉
用料明細:蛋白肉,尖椒,小米椒,蒜瓣,小蔥,食用油,糖,醋,蒸魚豆豉,生抽,黃酒,番茄醬,淀粉,清水,鹽
結語如果你覺得沒有吃夠,請大家點贊、分享、留言下,因為這將是我持續輸出更多優質文章的最強動力!
更多爬蟲、數據分析、全棧開發、人工智能學習資料自取私信@林夕編程回復關鍵詞【源碼】可自動獲取本文所用代碼和數據集