📊 數據集概覽
在上一篇博客中,我們成功爬取了鏈家網的西安二手房數據,現在讓我們來深入分析這些寶貴的數據。數據集包含以下關鍵字段:
- 標題:房源描述信息
- 位置:房源所在區域
- 房屋類型:户型結構
- 面積:房屋面積(平米)
- 單價:每平米價格
- 總價:房屋總價(萬元)
- 關注:房源被關注次數
🛠️ 技術棧準備
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import jieba
from wordcloud import WordCloud
from collections import Counter
📈 四大分析維度
1. 🗺️ 位置分佈分析
目的:瞭解西安各區域的房源供應情況
# 數據清洗與位置統計
df['位置'] = df['位置'].str.strip()
location_counts = df['位置'].value_counts()
# 創建雙圖對比分析
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 8))
🔍 關鍵發現:
- 曲江、高新、經開等熱門區域房源集中
- 部分郊區區域房源相對稀缺
- 市場供應呈現明顯的區域分化
📊 可視化亮點:
- 左側條形圖直觀展示各區域房源數量
- 右側餅圖清晰顯示區域佔比分佈
- 智能處理:當區域過多時自動合併為"其他"
2. 🔥 熱門小區關注度分析
目的:識別最受關注的小區,瞭解市場熱點
# 按小區分組統計關注度
community_stats = df.groupby('小區').agg({
'關注': 'sum',
'標題': 'count'
}).rename(columns={'標題': '房源數量'})
🎯 核心洞察:
- Top10小區佔據總關注量的顯著比例
- 品牌開發商項目更受市場青睞
- 關注度與房源數量存在正相關關係
💡 分析價值:
- 為投資者提供熱點區域參考
- 幫助購房者瞭解市場風向
- 輔助開發商進行市場定位
3. 💰 價格維度分析
目的:深入分析不同區域、不同户型的價格特徵
# 數據清洗與價格計算
df['單價'] = df['單價'].str.replace('元/平', '').str.replace(',', '').astype(float)
df['總價'] = pd.to_numeric(df['總價'], errors='coerce')
# 分組統計分析
location_type_stats = df.groupby(['位置', '房屋類型']).agg({
'單價': 'mean',
'總價': 'mean',
'標題': 'count'
})
💰 價格洞察:
- 核心區域單價明顯高於郊區
- 不同户型的單價差異顯著
- 總價分佈反映市場購買力水平
📈 分析特色:
- 雙重價格維度(單價+總價)
- 多層級分組分析
- 數據質量控制(過濾樣本過少的組合)
4. 🎯 標題關鍵詞分析
目的:通過詞雲分析瞭解房源賣點和市場關注點
# 中文分詞與詞雲生成
def process_titles(titles):
all_words = []
for title in titles:
words = jieba.cut(title)
filtered_words = [word for word in words if len(word) > 1 and word not in stopwords]
all_words.extend(filtered_words)
return all_words
🔤 關鍵詞發現:
- 位置特徵:地鐵、學校、商圈
- 户型特徵:方正、南北通透、全明
- 裝修特徵:精裝、毛坯、拎包入住
- 價格特徵:誠心出售、急售、價格可談
🌐 詞雲特色:
- 專業停用詞庫過濾無關詞彙
- 智能中文分詞處理
- 關鍵詞分類統計
🎨 可視化技巧總結
1. 📊 圖表設計原則
- 雙圖對比:條形圖+餅圖提供不同視角
- 色彩協調:使用專業配色方案(Set3、viridis、plasma)
- 數據標籤:關鍵數據直接標註,提升可讀性
2. 🎯 用户體驗優化
- 中文支持:完善的中文字體配置
- 佈局合理:自動調整避免元素重疊
- 交互友好:清晰的圖例和標籤
3. 📈 數據分析深度
- 多維度:位置、價格、關注度、關鍵詞
- 數據清洗:異常值處理、缺失值填充
- 統計驗證:樣本量控制、數據可信度
🚀 實際應用價值
對於購房者 🏡
- 瞭解各區域房價水平,合理制定預算
- 識別熱門小區,把握市場趨勢
- 通過關鍵詞分析理解房源賣點
對於投資者 💼
- 發現高關注度區域,指導投資決策
- 分析價格分佈,尋找價值窪地
- 監控市場熱點變化,及時調整策略
對於行業從業者 👨💼
- 瞭解競品動態,優化產品定位
- 分析客户關注點,改進營銷策略
- 把握市場脈搏,做出數據驅動決策
📝 技術要點回顧
- 數據清洗是關鍵:處理缺失值、異常值、格式轉換
- 分組聚合是核心:使用
groupby進行多維度分析 - 可視化要專業:選擇合適的圖表類型和配色方案
- 中文處理要細心:字體配置、分詞處理、停用詞過濾
🎯 總結
通過本次數據分析,我們深入揭示了西安二手房市場的多個維度特徵:
🎊 區域分佈:市場供應集中在新興開發區和傳統熱門區域
🔥 關注熱點:品牌開發商和優質地段項目更受市場青睞
💰 價格格局:呈現明顯的區域梯度和產品差異
📢 營銷重點:交通、學區、户型是主要賣點