动态

详情 返回 返回

如果值得保留,就將其保存為 Markdown 格式 - 动态 详情

2025 年 2 月 17 日 | 作者:彼得·米加爾德

Bruce 推薦語:

  • Why markdown 的文章
  • 重複搜索的信息,值得長期保存。
  • 見過兩次的信息,更可能有價值。
  • 信息的二次接觸,有助於篩選真正重要的內容。
  • 過濾掉只見過一次的無用信息,減少信息過載。
  • 高頻召回的信息,往往對你更有利。
  • r/DataHoarder thread
  • r/ObisdianMD thread
  • Hacker News front page

斯坦尼斯瓦夫·萊姆的故事《浴缸裏發現的回憶錄》開篇描述了一種奇異現象,它能將所有書面材料化為塵埃。雖然這是科幻情節,但類似的事情也會在我們的數字世界中發生。

數字世界的死亡警示

如果你在網上發佈了某些內容,遲早它會消失。[1]

最好的情況是,網站重構時鏈接發生了變化。更常見的情況是,內容丟失了。唯一的希望是有人將其保存在互聯網檔案館的時光機裏,使其免於被遺忘。

需要登錄的封閉網絡環境更糟糕——當它們關閉時,其中的所有內容都會永遠消失。如果你自己沒有保存,那它就沒了。此外,任何服務(免費或付費)都可能隨時限制對內容的訪問——要麼完全限制,要麼實際上讓你根本找不到你要找的東西。你幾年前在推特(Twitter)上發佈的內容,現在在“X”平台上,再過幾年可能需要登錄、付費訂閲才能查看,或者——根本就看不到了。

即使是自建服務器託管也並非萬無一失——如果你忘記支付託管費用,或者服務器崩潰,你的內容就可能消失。而且,即使你的數據倖存下來,訪問它也可能很棘手:WordPress博客將文章存儲在數據庫中,而服務器更新可能會破壞這些數據庫。我在自己的PHP照片畫廊無法訪問時學到了這個教訓——幸運的是,我把所有照片都保存成了按日期整理的簡單JPG格式。

唯一可靠的解決方案是將內容以無需專門軟件就能打開的格式存儲——這些格式在未來幾十年都能被訪問。

image.png

《指環王》開場場景中的加拉德瑞爾(視頻、文字記錄)

為何有些事物值得留存

保存內容的動機多種多樣,從數字化的“我不會全然死去”,到實用主義的觀點,再到將存檔本身作為目標等。

對我而言,關鍵原因如下:

  • 我想保留並擁有自己所寫的東西——它們是我的一部分,是我的歷史,是我真實的經歷
  • 我希望所有內容都能集中存放,並且便於搜索
  • 我想將其與人工智能工具結合使用(查找相似筆記、進行總結、用作上下文參考)
  • 我希望能夠隨心所欲地複用或分享這些內容(通過電子郵件、博客文章、電子書等任何形式)

純文本

作為一名數據科學家,我把事物轉化為向量。

作為一個毫不掩飾的檔案管理員,我把事物轉化為 Markdown 格式。

最持久的解決方案是把內容刻在石頭上——這樣可以保存數千年。但這幾乎不切實際,而且也無法讓內容便於搜索或分享。

次優選擇是採用 UTF - 8 編碼和 Markdown 格式的純文本文件。只要計算機存在,我們就能輕鬆讀取純文本文件。

Markdown 文件本質上就是帶有一些額外語法的純文本,這些額外語法用於處理常見元素,如章節、項目符號和鏈接等。該格式有意避免對顯示細節(如字體選擇)進行精確控制。遵循最小權限原則,我認為這種限制是一種優點。作為對比,可以想想 PDF——這是一種功能強大到甚至能運行《毀滅戰士》遊戲的格式。

對於個人筆記,我使用 Obsidian,這是一款我非常喜歡且每天都在用的筆記應用程序。雖然它是一個功能強大且插件豐富的工具,但讓我一直堅持使用它的原因是它的簡潔性——它把所有內容都存儲在純文件中。沒有專有格式的限制,正是它如此吸引人的地方。

對於博客寫作,大多數靜態網站生成器都支持 Markdown 格式。這篇博客文章就是用 Markdown 格式撰寫的。在記筆記和發佈內容時使用相同的標記語言,能讓內容分享變得順暢。

我是這樣做的

我夢想着能自動將我所寫或遇到的一切內容轉換為 Markdown 格式。但現實要複雜得多——一方面我有自閉症特質,總想把所有東西都存檔;另一方面我患有注意力缺陷多動障礙(ADHD),這讓維護這樣的存檔系統變得困難重重,兩者之間始終存在着矛盾。

所以我採取了一種務實的方法——當我發現有價值留存的內容時,我會把它複製到一個 Markdown 文件中,並在文件開頭添加元數據,註明其發佈日期、來源和相關標籤:

image.png

我會特意保存自己發佈的、日後可能有用的內容。比如會議演講摘要、桑拿活動介紹、技術説明等,這樣在未來查找和再次使用它們就容易多了。

當我發現自己在搜索舊內容(比如我想分享或重讀的臉書帖子)時,我會立即保存它。如果我發現一篇博客文章不見了,我會從互聯網檔案館把它找回來並保存好。當轉發一封帶有詳細説明的郵件時——你猜對了,我也會保存它。

值得搜索一次的內容,就值得永久保存。

擔心保存的內容太多嗎?其實,磁盤存儲成本很低——對於文本文件來説,幾乎可以説是免費的。

實用工具

有時手動複製就足夠了。對於更復雜的格式處理,人工智能工具非常有用——由於它們接受過 Markdown 方面的訓練,因此在處理和提取內容方面表現出色。你可以使用它們來轉換在線文本或解析 PDF 文件(如幻燈片),這在《攝入數百萬份 PDF 文件以及 Gemini 2.0 為何改變一切》一文中有相關介紹。

對於某些來源的內容,我創建了半自動化的解決方案。例如,我編寫了一個 Python 腳本,用於將我 Kindle 中的高亮內容和筆記轉換為 Markdown 格式。

有許多工具可用於格式轉換。其中功能最全面的是 pandoc,它可以在幾十種格式之間進行轉換,從 Word 文檔到 LaTeX 文檔,以及介於兩者之間的各種格式。

社區還為特定平台創建了專門的工具。你可以找到將 Medium 文章轉換為 Markdown 格式的工具(可以通過導出文件或直接通過 URL 進行轉換)、存檔 Reddit 線程的工具,以及適用於許多其他使用場景的工具。

由於我們處理的是輕量級文本文件,因此有很多工具可用於備份這些文件。Git 特別適合對這些內容進行版本控制和同步。

此外,我會定期從自己使用的每個服務中下載數據。即使下載的數據是由 JSON、XML、HTML、CSV 等各種格式混合而成的,我也會保留這些數據。即使在某個時刻我沒有時間將其處理成 Markdown 格式,至少數據還在。

下一步計劃

我希望能有一個全面的工具來導出所有內容,尤其是社交媒體上的內容。那些引起很多人共鳴的帖子以及具有個人意義的帖子都值得保存。

雖然 Facebook 提供了有限的數據導出功能,但並不完善。最明顯的是,無法保存完整的討論線程,而這往往是帖子中最有價值的部分。

那麼你呢?你會搜索哪些內容?你已經存檔了什麼,又希望自己保存了什麼?

在 Hacker News、Mastodon、Reddit 或 LinkedIn 上討論這篇文章。

腳註

  • 鏈接失效問題可以通過像 Perma.cc 這樣的服務來解決——不過這些服務最終也可能消失。研究表明,對於法律文件而言,一半的鏈接會在 5 年內失效。我在這裏關注的是個人內容的保存和搜索。↩
  • 但出於實際原因,也出於收集本身的樂趣,我在 Pinboard 上收藏了超過 1.4 萬個鏈接。沒錯,數據是以 JSON 格式下載的。↩
  • 我並非聲稱 Markdown 是唯一的解決方案。使用其他格式也有合理的理由。我關注的是 UTF - 8 編碼的純文本。如果你更喜歡其他標記語言(如 reStructuredText、AsciiDoc、Org - Mode)或者只是無格式的純文本——這些原則仍然適用。在某些情況下,原始格式也可行——例如,如果是 JSON 或代碼。↩
  • 以 HTML(超文本標記語言)為例。它原本是為了給文本增添語義,但現在主要用作構建用户界面的工具。雖然這種演變帶來了很多好處,但 HTML 已不再適合純粹的內容存儲。↩
  • 本博客使用 Nuxt 3 Content(來源:github.com/stared/stared.github.io)。它延續了我之前使用 Jekyll 和 Gridsome 的版本。多虧了 Markdown,平台之間的遷移十分順暢——見《新博客——從 Medium 遷移到 Gridsome》。在最近從 Gridsome 遷移到 Nuxt 3 Content 的過程中,Cursor IDE 幫了大忙。Astro 是另一個頗受歡迎的靜態網站生成器。↩

作者:彼得·米格達爾,一個充滿好奇心的人,魔法博士。查看我的其他博客文章。我正在尋找有影響力的項目來參與。

user avatar qianxunjian 头像
点赞 1 用户, 点赞了这篇动态!
点赞

Add a new 评论

Some HTML is okay.