博客 / 詳情

返回

【技術分享】用python開發的短視頻評論區採集軟件

作為當下最火爆的社交媒體之一,短視頻評論區堪稱一座藴含海量用户洞察的“數據金礦”。無論是品牌方想要精準把握消費者需求,還是創作者希望瞭解受眾反饋,高質量的評論數據都能提供關鍵支撐。於是,我專門用python語言開發了一款專為評論採集設計的工具“爬dy搜索評論軟件”,輕鬆解決數據獲取難題。

一、工具適配與技術説明

1.1 適配環境

Windows系統用户可直接雙擊啓動,無需安裝Python運行環境,上手即用,極大降低操作門檻。

1.2 核心技術

工具基於Python語言開發,整合多個高效模塊:

tkinter:構建簡潔易用的GUI界面
requests:處理網絡爬蟲請求
json:解析接口響應數據
pandas:實現數據清洗與CSV文件保存
logging:記錄運行日誌,保障操作可追溯

1.3 代碼實現

界面部分:

# 創建主窗口
root = tk.Tk()
root.title('爬dy搜索評論軟件v1.4')
# 設置窗口大小
root.minsize(width=900, height=650)

爬蟲請求部分:

# 發送請求
r = requests.get(url, headers=h1)
# 接收響應數據
json_data = r.json()

數據保存部分:

# 保存數據到DF
df = pd.DataFrame(
    {
        '目標鏈接': 'https://www.douyin.com/video/' + str(video_id),
        '頁碼': page,
        '評論者暱稱': user_name_list,
        '評論者id': user_unique_id_list,
        '評論者uid': uid_list,
        '評論者主頁鏈接': user_url_list,
        '評論時間': create_time_list,
        '評論IP屬地': ip_list,
        '評論點贊數': like_count_list,
        '評論級別': cmt_level_list,
        '評論內容': text_list,
    }
)
# 保存到csv
df.to_csv(self.result_file2, mode='a+', header=header, index=False, encoding='utf_8_sig')

日誌記錄部分:

def get_logger(self):
    self.logger = logging.getLogger(__name__)
    # 日誌格式
    formatter = '[%(asctime)s-%(filename)s][%(funcName)s-%(lineno)d]--%(message)s'
    # 日誌級別
    self.logger.setLevel(logging.DEBUG)
    # 控制枱日誌
    sh = logging.StreamHandler()
    log_formatter = logging.Formatter(formatter, datefmt='%Y-%m-%d %H:%M:%S')
    # info日誌文件名
    info_file_name = time.strftime("%Y-%m-%d") + '.log'
    # 將其保存到特定目錄
    case_dir = r'./logs/'
    info_handler = TimedRotatingFileHandler(filename=case_dir + info_file_name,
                                            when='MIDNIGHT',
                                            interval=1,
                                            backupCount=7,
                                            encoding='utf-8')
    self.logger.addHandler(sh)
    sh.setFormatter(log_formatter)
    self.logger.addHandler(info_handler)
    info_handler.setFormatter(log_formatter)
    return self.logger

二、工具功能

2.1 雙模式採集

這款工具支持兩種核心採集模式,可根據實際需求靈活選擇:

  • 關鍵詞采集模式:通過設定作品關鍵詞,自動抓取相關視頻鏈接,再深度提取評論內容,實現“關鍵詞→作品→評論”的全鏈路採集。
  • 作品鏈接採集模式:直接輸入指定視頻鏈接,精準採集目標作品下的所有評論,高效聚焦特定內容。

2.2 精準篩選

內置多重篩選功能,幫助用户快速鎖定有效數據:

  • 時間篩選:支持自定義起始時間和結束時間(格式為YYYY-MM-DD HH:MI:SS,時分秒可靈活選擇是否填寫),也可直接選擇發佈時間範圍(不限/一天內/一週內/半年內)。
  • 排序篩選:提供綜合排序、最新發布、最多點贊三種排序方式,按需獲取優質評論。
  • 多維度精準定位:可同時設置多個作品關鍵詞、評論關鍵詞和IP屬地,精準圈定目標數據範圍。

2.3 穩定高效

技術優勢:基於接口協議開發,相比模擬瀏覽器的RPA工具,穩定性更強,採集效率更高。實時保存:每爬取一頁數據立即保存為CSV文件,避免因異常中斷導致數據丟失,且每條數據採集間隔1-2秒,兼顧效率與合規性。日誌追蹤:爬取過程生成詳細log文件,完整記錄運行狀態,方便後續回溯與問題排查。

三、工具界面與操作指引

3.1 界面概覽

圖片
軟件運行界面工具界面簡潔清晰,主要分為參數設置區、篩選條件區和運行日誌區。參數設置區可填寫作品關鍵詞、作品鏈接等核心信息;篩選條件區支持設置時間範圍、排序方式、IP屬地等;運行日誌區實時展示採集進度和狀態,直觀掌握操作情況。

3.2 前置準備

使用前需完成兩項基礎設置:填寫Cookie:在工具配套的cookie.txt文件中填入個人Cookie(內附詳細獲取教程,操作簡單易懂),方便後續重複使用。
圖片
cookie獲取方法注意事項:關鍵詞采集和作品鏈接採集不可同時啓用,需根據需求選擇單一模式操作。

3.3 操作步驟

關鍵詞采集:填寫作品關鍵詞、評論關鍵詞、IP屬地等篩選條件,設置時間範圍和排序方式,點擊“關鍵詞采集”按鈕即可啓動。作品鏈接採集:輸入單個或多個視頻鏈接,配置評論篩選條件,點擊“鏈接採集”按鈕開始採集。退出程序:完成採集後,點擊“退出程序”即可安全關閉工具。

四、採集結果展示

工具輸出兩種CSV格式數據文件,字段完整,方便後續分析使用:

4.1 作品數據

圖片
搜索.csv包含13個核心字段:關鍵詞、頁碼、視頻標題、視頻鏈接、作者暱稱、作者uid、作者鏈接、作者粉絲數、發佈時間、點贊數、評論數、收藏數、轉發數,全面呈現視頻基礎信息。

4.2 評論數據

圖片
評論.csv涵蓋11個關鍵維度:目標鏈接、頁碼、評論者暱稱、評論者id、評論者uid、評論者主頁鏈接、評論時間、評論IP屬地、評論點贊數、評論級別(一級/二級)、評論內容,完整保留評論核心信息。

五、演示視頻

軟件使用過程的完整演示:

mp.weixin.qq.com/s/pUcmYYmXPiZ6dSKVwrX8wQ

END、免責聲明

本工具首發公眾號"老男孩的平凡之路",僅用於合法的數據採集與分析用途,禁止用於任何違法違規活動。若因用户不當使用導致的法律責任,均由用户自行承擔,與工具開發者無關。

user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.