【技術分享】用python開發的短視頻評論區採集軟件詳情 - 爬蟲,python爬蟲,數據採集馬哥天才3218 博客

作為當下最火爆的社交媒體之一，短視頻評論區堪稱一座藴含海量用户洞察的“數據金礦”。無論是品牌方想要精準把握消費者需求，還是創作者希望瞭解受眾反饋，高質量的評論數據都能提供關鍵支撐。於是，我專門用python語言開發了一款專為評論採集設計的工具“爬dy搜索評論軟件”，輕鬆解決數據獲取難題。

一、工具適配與技術説明

1.1 適配環境

Windows系統用户可直接雙擊啓動，無需安裝Python運行環境，上手即用，極大降低操作門檻。

1.2 核心技術

工具基於Python語言開發，整合多個高效模塊：

tkinter：構建簡潔易用的GUI界面
requests：處理網絡爬蟲請求
json：解析接口響應數據
pandas：實現數據清洗與CSV文件保存
logging：記錄運行日誌，保障操作可追溯

1.3 代碼實現

界面部分：

# 創建主窗口
root = tk.Tk()
root.title('爬dy搜索評論軟件v1.4')
# 設置窗口大小
root.minsize(width=900, height=650)

爬蟲請求部分：

# 發送請求
r = requests.get(url, headers=h1)
# 接收響應數據
json_data = r.json()

數據保存部分：

# 保存數據到DF
df = pd.DataFrame(
    {
        '目標鏈接': 'https://www.douyin.com/video/' + str(video_id),
        '頁碼': page,
        '評論者暱稱': user_name_list,
        '評論者id': user_unique_id_list,
        '評論者uid': uid_list,
        '評論者主頁鏈接': user_url_list,
        '評論時間': create_time_list,
        '評論IP屬地': ip_list,
        '評論點贊數': like_count_list,
        '評論級別': cmt_level_list,
        '評論內容': text_list,
    }
)
# 保存到csv
df.to_csv(self.result_file2, mode='a+', header=header, index=False, encoding='utf_8_sig')

日誌記錄部分:

def get_logger(self):
    self.logger = logging.getLogger(__name__)
    # 日誌格式
    formatter = '[%(asctime)s-%(filename)s][%(funcName)s-%(lineno)d]--%(message)s'
    # 日誌級別
    self.logger.setLevel(logging.DEBUG)
    # 控制枱日誌
    sh = logging.StreamHandler()
    log_formatter = logging.Formatter(formatter, datefmt='%Y-%m-%d %H:%M:%S')
    # info日誌文件名
    info_file_name = time.strftime("%Y-%m-%d") + '.log'
    # 將其保存到特定目錄
    case_dir = r'./logs/'
    info_handler = TimedRotatingFileHandler(filename=case_dir + info_file_name,
                                            when='MIDNIGHT',
                                            interval=1,
                                            backupCount=7,
                                            encoding='utf-8')
    self.logger.addHandler(sh)
    sh.setFormatter(log_formatter)
    self.logger.addHandler(info_handler)
    info_handler.setFormatter(log_formatter)
    return self.logger

二、工具功能

2.1 雙模式採集

這款工具支持兩種核心採集模式，可根據實際需求靈活選擇：

關鍵詞采集模式：通過設定作品關鍵詞，自動抓取相關視頻鏈接，再深度提取評論內容，實現“關鍵詞→作品→評論”的全鏈路採集。
作品鏈接採集模式：直接輸入指定視頻鏈接，精準採集目標作品下的所有評論，高效聚焦特定內容。

2.2 精準篩選

內置多重篩選功能，幫助用户快速鎖定有效數據：

時間篩選：支持自定義起始時間和結束時間（格式為YYYY-MM-DD HH:MI:SS，時分秒可靈活選擇是否填寫），也可直接選擇發佈時間範圍（不限/一天內/一週內/半年內）。
排序篩選：提供綜合排序、最新發布、最多點贊三種排序方式，按需獲取優質評論。
多維度精準定位：可同時設置多個作品關鍵詞、評論關鍵詞和IP屬地，精準圈定目標數據範圍。

2.3 穩定高效

技術優勢：基於接口協議開發，相比模擬瀏覽器的RPA工具，穩定性更強，採集效率更高。實時保存：每爬取一頁數據立即保存為CSV文件，避免因異常中斷導致數據丟失，且每條數據採集間隔1-2秒，兼顧效率與合規性。日誌追蹤：爬取過程生成詳細log文件，完整記錄運行狀態，方便後續回溯與問題排查。

三、工具界面與操作指引

3.1 界面概覽

軟件運行界面工具界面簡潔清晰，主要分為參數設置區、篩選條件區和運行日誌區。參數設置區可填寫作品關鍵詞、作品鏈接等核心信息；篩選條件區支持設置時間範圍、排序方式、IP屬地等；運行日誌區實時展示採集進度和狀態，直觀掌握操作情況。

3.2 前置準備

使用前需完成兩項基礎設置：填寫Cookie：在工具配套的cookie.txt文件中填入個人Cookie（內附詳細獲取教程，操作簡單易懂），方便後續重複使用。

cookie獲取方法注意事項：關鍵詞采集和作品鏈接採集不可同時啓用，需根據需求選擇單一模式操作。

3.3 操作步驟

關鍵詞采集：填寫作品關鍵詞、評論關鍵詞、IP屬地等篩選條件，設置時間範圍和排序方式，點擊“關鍵詞采集”按鈕即可啓動。作品鏈接採集：輸入單個或多個視頻鏈接，配置評論篩選條件，點擊“鏈接採集”按鈕開始採集。退出程序：完成採集後，點擊“退出程序”即可安全關閉工具。

四、採集結果展示

工具輸出兩種CSV格式數據文件，字段完整，方便後續分析使用：

4.1 作品數據

搜索.csv包含13個核心字段：關鍵詞、頁碼、視頻標題、視頻鏈接、作者暱稱、作者uid、作者鏈接、作者粉絲數、發佈時間、點贊數、評論數、收藏數、轉發數，全面呈現視頻基礎信息。

4.2 評論數據

評論.csv涵蓋11個關鍵維度：目標鏈接、頁碼、評論者暱稱、評論者id、評論者uid、評論者主頁鏈接、評論時間、評論IP屬地、評論點贊數、評論級別（一級/二級）、評論內容，完整保留評論核心信息。

五、演示視頻

軟件使用過程的完整演示：

mp.weixin.qq.com/s/pUcmYYmXPiZ6dSKVwrX8wQ

END、免責聲明

本工具首發公眾號"老男孩的平凡之路"，僅用於合法的數據採集與分析用途，禁止用於任何違法違規活動。若因用户不當使用導致的法律責任，均由用户自行承擔，與工具開發者無關。

馬哥天才3218 博客

馬哥天才3218 博客

博客 / 詳情