博客 / 列表

wang_yb - 迴歸分析全家桶(16種迴歸模型實現方式總結)

提到迴歸分析,很多人第一時間想到的只有“線性迴歸”和“邏輯迴歸”。但實際上,針對不同的數據情況(比如有離羣點、數據是計數的、數據有缺失截斷等),我們有十幾種迴歸模型可以選擇。 今天為大家總結了 16種迴歸分析 的模型,重點不是介紹這些迴歸模型的原理,而是介紹如何在Python代碼中使用這些模型,希望你以後能夠在實戰中來應用這些模型! 1. 迴歸分析全家桶 下面介紹如何使用各種迴歸模型的示例代碼,主

後端

wang_yb - 數據分析師的“水晶球”:時間序列分析

很多剛入行的小夥伴問我:“我想預測下個月公司的銷售額,或者預測一下明天的股價,該學什麼?” 我的回答通常只有六個字:時間序列分析。 如果在數據分析的世界裏有一種魔法能讓你“預知未來”,那一定就是它。 1. 什麼是時間序列? 別被名詞嚇到了。簡單來説,時間序列(Time Series)就是按時間順序排列的一組數據。 比如: 你手機裏每天的步數記錄; 某隻股票每天的收盤價; 或者是你家樓下便利

後端

wang_yb - 拒絕“憑感覺”:用迴歸分析看透數據背後的秘密

在數據分析的江湖裏,有一個絕對的核心技能,叫做迴歸分析(Regression Analysis)。 無論你是剛入行的新手,還是想要進階的老手,掌握它,你就擁有了預測未來的“水晶球”。 很多初學者一聽到“迴歸”兩個字,腦子裏全是複雜的數學公式,立刻想打退堂鼓。 別急!今天我們不講枯燥的數學推導,只講它是什麼、怎麼用,以及如何用Python代碼解決實際問題。 1. 什麼是迴歸分析? 想象一下,你正在做

後端

wang_yb - 掌握相關性分析:讀懂數據間的“悄悄話”

在數據分析的江湖裏,我們經常會聽到老闆或業務方拋出這樣的問題: “現在的年輕人越晚睡,買護膚品是不是越瘋狂?” “我們APP的各種優惠券,真的能提升用户的留存率嗎?” “天氣越熱,這隻股票是不是跌得越慘?” 面對這些問題,很多新人容易犯 “憑感覺” 的錯誤:“我覺得應該有關係吧……” 數據分析不相信“我覺得”,只相信證據。 而尋找變量之間關係強弱的這個過程,就叫做相關分析。 今天,就帶大

數據庫

wang_yb - 數據點的“社交距離”:衡量它們之間的相似與差異

在數據分析的世界裏, “距離” 不僅僅是地圖上兩點之間的路程。 距離 ,本質上是衡量兩個事物 “相似度” 的尺子。 距離越近 = 相似度越高 距離越遠 = 差異越大 如果你想做用户畫像聚類、想做商品推薦系統,或者想識別信用卡欺詐交易,你首先要選對這把“尺子”。 本文將帶你全面瞭解數據分析中常用的各種距離度量,從最直觀的歐氏距離到複雜的時間序列距離。 為了方便理解,我將它們分為了五大門派。

後端

wang_yb - 搞懂“元數據”:給數據辦一張“身份證”

你是否經歷過這樣的場景: 同事發給你一個 Excel 表格,文件名叫 data_final_v2.xlsx。 你滿懷期待地打開,結果發現: 表頭是 cryptic 的英文縮寫(如 c_amt, usr_stat); 有一列全是數字 1, 0, 1, 0,你猜不出這代表“男女”還是“是否活躍”; 你根本不知道這份數據是今天的,還是上個月的過期數據。 這時候,你面對着一大堆數據,卻感到兩眼一

數據庫

wang_yb - 數據會説謊?三大推斷方法幫你“審問”數據真相

很多剛入行甚至想入行數據分析的朋友,往往會陷入一個誤區:以為數據分析就是不停地做報表、畫餅圖。 其實,數據分析的核心魅力在於 “推斷”——即見微知著。 在現實生活中,我們很難獲取“全量數據”(比如你不可能調查全國每一個人的身高),那麼,如何通過手中的“小樣本”去推測“大總體”的規律? 這就需要用到統計學中的推斷分析。 本文將結合代碼來介紹推斷分析中最常用的三大方法:參數估計、假設檢驗、非參數檢驗。

後端

wang_yb - 用樣本猜總體的秘密武器,4大抽樣分佈總結

數據分析時,我們經常需要從樣本數據推斷總體特徵。 而抽樣分佈就是連接樣本與總體的重要橋樑,如果你不理解它,就無法理解為什麼我們可以通過調查幾千人來預測全國的選舉結果,也無法理解A/B測試背後的邏輯。 本文將盡量使用大白話和Python代碼,帶你徹底搞懂抽樣分佈,並掌握最常用的四大分佈:Z分佈、T分佈、卡方分佈和F分佈。 1. 什麼是抽樣分佈 想象一下,你想了解全市高中生的平均身高,由於時間和資源限

後端

wang_yb - Manim v0.19.1 發佈啦!三大新特性讓動畫製作更絲滑

大家好!Manim 社區剛剛發佈了 v0.19.1 版本(發佈於 12 月 1 日)。雖然這是一個小版本號更新,但裏面可是藏着幾個非常實用的新功能! 無論你是剛入坑的新手,或者已經被某些痛點折磨過的老手,這篇更新速覽都值得一看。 1. 🌟 亮點一:終於可以“固定”隨機顏色了! 以前我們在使用 random_color() 時,最大的痛點就是:每次運行腳本,生成的顏色都不一樣! 有時候你覺得

後端

wang_yb - 告別盲人摸象,數據分析的抽樣方法總結

當你踏入數據分析的大門時,可能會被海量的數據淹沒,感到無從下手。 想象一下,你想了解一座巨大森林裏所有樹木的平均高度,難道要一棵一棵地去測量嗎?這顯然不現實。 這時,“抽樣” 這個強大的工具就該登場了! 本文將帶你全面瞭解各種抽樣方法,並用Python代碼演示實際應用。 1. 抽樣是什麼? 抽樣 是從總體中選取部分樣本進行分析的過程。 這樣做的主要原因是: 節省時間和資源:處理全部數據成本高昂

後端

wang_yb - Manim進階:用背景圖片讓你的數學視頻脱穎而出

做Manim動畫久了,你是否厭倦了那萬年不變的黑色虛空? 很多初學者(甚至老手)都想給動畫加個背景圖,但往往會遇到兩個問題: 怎麼加? 是把圖片放進去,還是設置相機? 看不清! 背景花裏胡哨,前面的文字公式瞬間“隱身”了。 今天,我們就來揭開Manim動畫中一個簡單卻強大的技巧--為動畫添加背景。 通過幾個小示例,分別演示兩種完全不同的背景處理思路。 1. 舞台佈景法 使用ImageMob

後端

wang_yb - 讓你的動畫“活”過來:Manim 節奏控制指南 (Rate Functions)

你在製作Manim動畫時,是否遇到過這樣的困境? “代碼寫得天衣無縫,運行流暢,出來的動畫卻總覺得哪裏不對勁?” 雖然物體確實從 A 移動到了 B,但看起來就像是老舊的工業機器人在幹活——僵硬、死板,甚至有點無聊。 其實,你的動畫離 “絲滑” 和 “專業”,往往只差這一個參數的距離:rate_func (速率函數)。 今天,我們就來聊聊 Manim 中這個不起眼但至關重要的參數,看看如何通過控制

後端

wang_yb - 別急着轉投 Polars!Pandas 3.0 帶着“黑科技”殺回來了

大家好,在數據分析圈子裏摸爬滾打這麼多年,最近大家見面打招呼的方式都變了。 以前是“你用 Pandas 處理那個 csv 了嗎?”,現在變成了“你還沒用 Polars 嗎?那速度快得飛起!” 確實,在這個 GPU 算力爆炸、多線程並行的時代,我們這位陪伴多年的老朋友 Pandas,因為單線程和內存管理的“歷史包袱”,顯得有點步履蹣跚。 面對 Polars 這種基於 Rust、天生支持並行計算的“後

後端

wang_yb - 深入淺出理解你的“數據”

對於想要學習數據分析的同學,如果你問我:"數據分析的第一步是什麼?" 我的回答是:"理解數據本身。" 數據是我們所有分析工作的起點,本文主要探討如何辨別我們面對的是什麼樣的數據,包括它的分類方法和描述維度。 1. 數據分類 數據並非千篇一律,它們有着不同的特徵和屬性。 正確理解數據的分類,是選擇適當分析方法的前提。 通常,我們可以從以下三個維度來給數據進行分類。 1.1. 按結構屬性來分 你的數據

數據庫

wang_yb - 「親手畫出動態數學」:讓數學可視化觸手可及的Manim入門課

數學的美,藏在動態的邏輯裏——而 Manim,正是那個能把抽象公式變成「會説話的動畫」的神器。 今天,給大家推薦一門我自己錄製的從零開始的Manim入門課,哪怕你是編程小白,也能跟着一步步畫出屬於自己的數學動畫! 這門課程適合誰? 如果你是以下任意一類人,這門課就是為你準備的: ▸ 數學愛好者:想親手把腦海中的數學想象變成動態畫面(比如證明勾股定理時讓圖形「自己説話」); ▸ 中小學/大學教師:需

後端

wang_yb - 讓YOLO飛起來:從CPU到GPU的配置指南

最近在配置YOLO(You Only Look Once)進行物體檢測和圖像分割任務時,發現默認安裝的情況下,YOLO使用的是CPU進行計算。 這對於需要處理大量圖像或實時檢測的任務來説,效率明顯不足。 本文將詳細介紹如何將YOLO從CPU模式切換到GPU模式,顯著提升運行效率。 1. 配置步驟 1.1. 檢查當前PyTorch是否支持GPU 首先需要確認當前安裝的PyTorch是否支持GPU。打

機器學習