作為當下最火爆的社交媒體之一,短視頻評論區堪稱一座藴含海量用户洞察的“數據金礦”。無論是品牌方想要精準把握消費者需求,還是創作者希望瞭解受眾反饋,高質量的評論數據都能提供關鍵支撐。於是,我專門用python語言開發了一款專為評論採集設計的工具“爬dy搜索評論軟件”,輕鬆解決數據獲取難題。
一、工具適配與技術説明
1.1 適配環境
Windows系統用户可直接雙擊啓動,無需安裝Python運行環境,上手即用,極大降低操作門檻。
1.2 核心技術
工具基於Python語言開發,整合多個高效模塊:
tkinter:構建簡潔易用的GUI界面
requests:處理網絡爬蟲請求
json:解析接口響應數據
pandas:實現數據清洗與CSV文件保存
logging:記錄運行日誌,保障操作可追溯
1.3 代碼實現
界面部分:
# 創建主窗口
root = tk.Tk()
root.title('爬dy搜索評論軟件v1.4')
# 設置窗口大小
root.minsize(width=900, height=650)
爬蟲請求部分:
# 發送請求
r = requests.get(url, headers=h1)
# 接收響應數據
json_data = r.json()
數據保存部分:
# 保存數據到DF
df = pd.DataFrame(
{
'目標鏈接': 'https://www.douyin.com/video/' + str(video_id),
'頁碼': page,
'評論者暱稱': user_name_list,
'評論者id': user_unique_id_list,
'評論者uid': uid_list,
'評論者主頁鏈接': user_url_list,
'評論時間': create_time_list,
'評論IP屬地': ip_list,
'評論點贊數': like_count_list,
'評論級別': cmt_level_list,
'評論內容': text_list,
}
)
# 保存到csv
df.to_csv(self.result_file2, mode='a+', header=header, index=False, encoding='utf_8_sig')
日誌記錄部分:
def get_logger(self):
self.logger = logging.getLogger(__name__)
# 日誌格式
formatter = '[%(asctime)s-%(filename)s][%(funcName)s-%(lineno)d]--%(message)s'
# 日誌級別
self.logger.setLevel(logging.DEBUG)
# 控制枱日誌
sh = logging.StreamHandler()
log_formatter = logging.Formatter(formatter, datefmt='%Y-%m-%d %H:%M:%S')
# info日誌文件名
info_file_name = time.strftime("%Y-%m-%d") + '.log'
# 將其保存到特定目錄
case_dir = r'./logs/'
info_handler = TimedRotatingFileHandler(filename=case_dir + info_file_name,
when='MIDNIGHT',
interval=1,
backupCount=7,
encoding='utf-8')
self.logger.addHandler(sh)
sh.setFormatter(log_formatter)
self.logger.addHandler(info_handler)
info_handler.setFormatter(log_formatter)
return self.logger
二、工具功能
2.1 雙模式採集
這款工具支持兩種核心採集模式,可根據實際需求靈活選擇:
- 關鍵詞采集模式:通過設定作品關鍵詞,自動抓取相關視頻鏈接,再深度提取評論內容,實現“關鍵詞→作品→評論”的全鏈路採集。
- 作品鏈接採集模式:直接輸入指定視頻鏈接,精準採集目標作品下的所有評論,高效聚焦特定內容。
2.2 精準篩選
內置多重篩選功能,幫助用户快速鎖定有效數據:
- 時間篩選:支持自定義起始時間和結束時間(格式為YYYY-MM-DD HH:MI:SS,時分秒可靈活選擇是否填寫),也可直接選擇發佈時間範圍(不限/一天內/一週內/半年內)。
- 排序篩選:提供綜合排序、最新發布、最多點贊三種排序方式,按需獲取優質評論。
- 多維度精準定位:可同時設置多個作品關鍵詞、評論關鍵詞和IP屬地,精準圈定目標數據範圍。
2.3 穩定高效
技術優勢:基於接口協議開發,相比模擬瀏覽器的RPA工具,穩定性更強,採集效率更高。實時保存:每爬取一頁數據立即保存為CSV文件,避免因異常中斷導致數據丟失,且每條數據採集間隔1-2秒,兼顧效率與合規性。日誌追蹤:爬取過程生成詳細log文件,完整記錄運行狀態,方便後續回溯與問題排查。
三、工具界面與操作指引
3.1 界面概覽
軟件運行界面工具界面簡潔清晰,主要分為參數設置區、篩選條件區和運行日誌區。參數設置區可填寫作品關鍵詞、作品鏈接等核心信息;篩選條件區支持設置時間範圍、排序方式、IP屬地等;運行日誌區實時展示採集進度和狀態,直觀掌握操作情況。
3.2 前置準備
使用前需完成兩項基礎設置:填寫Cookie:在工具配套的cookie.txt文件中填入個人Cookie(內附詳細獲取教程,操作簡單易懂),方便後續重複使用。
cookie獲取方法注意事項:關鍵詞采集和作品鏈接採集不可同時啓用,需根據需求選擇單一模式操作。
3.3 操作步驟
關鍵詞采集:填寫作品關鍵詞、評論關鍵詞、IP屬地等篩選條件,設置時間範圍和排序方式,點擊“關鍵詞采集”按鈕即可啓動。作品鏈接採集:輸入單個或多個視頻鏈接,配置評論篩選條件,點擊“鏈接採集”按鈕開始採集。退出程序:完成採集後,點擊“退出程序”即可安全關閉工具。
四、採集結果展示
工具輸出兩種CSV格式數據文件,字段完整,方便後續分析使用:
4.1 作品數據
搜索.csv包含13個核心字段:關鍵詞、頁碼、視頻標題、視頻鏈接、作者暱稱、作者uid、作者鏈接、作者粉絲數、發佈時間、點贊數、評論數、收藏數、轉發數,全面呈現視頻基礎信息。
4.2 評論數據
評論.csv涵蓋11個關鍵維度:目標鏈接、頁碼、評論者暱稱、評論者id、評論者uid、評論者主頁鏈接、評論時間、評論IP屬地、評論點贊數、評論級別(一級/二級)、評論內容,完整保留評論核心信息。
五、演示視頻
軟件使用過程的完整演示:
mp.weixin.qq.com/s/pUcmYYmXPiZ6dSKVwrX8wQ
END、免責聲明
本工具首發公眾號"老男孩的平凡之路",僅用於合法的數據採集與分析用途,禁止用於任何違法違規活動。若因用户不當使用導致的法律責任,均由用户自行承擔,與工具開發者無關。