tag 文本處理

標籤
貢獻8
70
07:47 AM · Nov 04 ,2025

@文本處理 / 博客 RSS 訂閱

mob64ca13fb1f2e - Linux常用文件操作高頻使用命令

Linux文本操作相關命令行 **一、文本查找與匹配** `grep` - 文本搜索神器 `findstr` (Windows 可用) **二、文本替換** `sed` - 流編輯器 `tr` - 字符替換 **三、文本提取與截

文本處理 , 服務器 , 運維 , 後端開發 , Linux , 1024程序員節 , harmonyos

收藏 評論

大丸子 - 用Python創建、讀取和修改Word文檔

自動化文檔處理是提升工作效率的關鍵路徑之一,而Python憑藉其簡潔語法和豐富的生態工具鏈,是實現文檔自動化處理的理想工具。通過編程手段批量生成結構規範的合同模板、動態注入數據分析結果生成可視化報告,或是快速提取海量文檔中的關鍵信息,這種代碼驅動的工作流不僅消除了人工重複操作帶來的誤差風險,更將文檔處理從機械勞動升級為可擴展的智能系統。本文將介紹如何使用Python實現Word文檔的創建、讀取及修

word , 文本處理 , 文檔生成 , 文檔 , Python

收藏 評論

合合技術團隊 - 2023年中國信通院鑄基計劃“文本圖像篡改檢測系統技術規範”研討會成功召開

2023年中國信通院鑄基計劃“文本圖像篡改檢測系統技術規範”(簡稱“規範”)研討會於2023年8月16日在中國信息通信研究院成功召開,來自中國信息通信研究院、上海合合信息科技股份有限公司(簡稱“合合信息”)、華南理工大學、中國科學技術大學、深圳大學、中國圖象圖形學會等企業、高校及研究機構的代表線下線上共同參與了本次會議。 中國信通院泰爾終端實驗室王景堯博士到會致詞 王景堯表示,建立標準和評

文本處理 , 規範化 , 人工智能 , 技術 , 圖像

收藏 評論

mob64ca12d1e6a9 - langchain HuggingFaceEmbeddings 如何加載遠程embeddings模型

在構建複雜的自然語言處理應用時,我們往往需要使用各種嵌入模型(embeddings)來進行文本表示與計算。最近,我遇到了一個問題,要求在langchain中加載遠程的HuggingFace嵌入模型。這一過程的重要性不僅在於提升模型性能,更關乎業務數據處理的效率與準確性。 問題背景 在實際應用中,嵌入模型常常決定了文本表示的質量,從而影響後續的解析與分析能力。正如以下公式所示,嵌入

文本處理 , System , 加載 , aigc

收藏 評論

大丸子 - 用Python獲取PDF文本和圖片在頁面上的精確位置

在處理和分析PDF文檔時,獲取文本和圖片在頁面上的精確位置是一個重要的操作。通過確定這些元素的具體座標,我們可以實現對PDF內容的更精細控制和理解,這對於自動化文檔處理、信息提取以及內容重組等工作流程尤為關鍵。通過Python編程語言,我們可以輕鬆獲取PDF頁面上文本及圖像的精確座標,使我們能夠在不影響其原有排版的情況下對內容進行操作。本文將介紹如何使用Python獲取PDF文本和圖片在頁面上的位

pdf導出 , 文本處理 , 圖片處理 , pdf , Python

收藏 評論

小X學技術 - Y 分鐘速成 AWK

源代碼下載: learnawk-cn.awk AWK 是 POSIX 兼容的 UNIX 系統中的標準工具,它像簡化版的 Perl,非常適用於文本處理任務和其他腳本類需求。它有着 C 風格的語法,但是沒有分號,沒有手動內存管理,沒有靜態類型,它他擅長於文本處理,你可以通過 shell 腳本調用 AWK ,也可以用作獨立的腳本語言。 為什麼使用 AWK 而不是 Perl,大概是因為 AWK 是 UNI

文本處理 , awk , 教程 , unix , 入門

收藏 評論

大丸子 - Python更改Word文檔字體

更改文字字體是編輯和美化Word文檔時的一項常見需求,使用合適的字體不僅可以提升文檔的整體視覺效果,還能突顯關鍵信息,使得內容更加突出。然而,手動更改每一個文字的字體既繁瑣又費時。因此,掌握一種高效的方法來自動更改Word文檔中的文字字體顯得尤為重要。本文將介紹如何通過Python代碼更改Word文檔字體,實現批量操作與自動化。 用Python更改Word文檔整個段落的字體 用Python更

word , 文本處理 , 字體 , 字體加粗 , Python

收藏 評論

小白獅ww - 跨頁表格不用愁!OCRFlux-3B 一鍵提取乾淨文本

你有沒有試過從 PDF 裏複製一張跨頁表格?粘出來後表格被撕成兩半,排版亂成一團,本來幾分鐘的工作瞬間變成半小時的「拼圖」大戰。 針對這種煩惱,OCRFlux-3B 應運而生。它在 2025 年 6 月由 ChatDOC 團隊發佈,是一個基於多模態大模型的工具包,能把 PDF 和圖片轉成乾淨、可讀的 Markdown 文本。不僅支持頁面級轉換,還能自動合併跨頁表格和段落,讓複雜文檔結構瞬間清爽。

文本處理 , pdf , ocr , 大模型 , Markdown

收藏 評論

OpenBayes - OpenBayes 一週速覽丨公共模型一鍵部署功能上線!VibeVoice1.5B重新定義TTS技術邊界,多人長對話一鍵生成

新功能上線 平台公共模型界面現已推出「一鍵部署」功能,具體使用方式如下: 進入「公共模型」,點擊模型右側的「小火箭」標識,即可快速部署該模型。 也可以在點擊模型後,選擇右上角「部署當前版本」進行部署。 本週資源更新 4 個公共教程: 微軟 VibeVoice-1.5B 重新定義 TTS 技術邊界 vLLM+Open WebUl 部署 gemma-3-270m-it vLLM

code , llm , 文本處理 , 代碼生成 , nvidia

收藏 評論

mob64ca12e60047 - langchain 長上下文總結

在這篇博文中,我將詳細探討如何解決“langchain 長上下文總結”問題。隨着大規模文本處理需求的增長,僅依靠短上下文處理的方式顯然已經無法滿足使用場景。我們需要對長文檔進行有效總結,提取核心信息。本篇文章將通過明確的結構呈現解決該問題的全過程。 背景定位 初始技術痛點主要體現在兩個方面:處理能力的不足和上下文理解能力的提升需求。傳統的文本處理方法在應對長文檔時,往往受限於上下

文本處理 , aigc , 應用場景 , 開發者

收藏 評論