...Excel催化劑功能第128波-文本文件處理之Unicode字符及Html轉義...

2020-12-11 騰訊網

文本文件的批量性操作,Excel催化劑已經有非常多的功能,常聽說許多人對Excel催化劑的印象是功能太雜,但試問,不是活在真空世界中做數據分析,面對一大堆雜亂的數據環境,沒有足夠「雜」的功能來應付,真的可以稱得上數據神器麼?

本篇的兩個小功能,處理下一般數據採集獲取到的非理想文本數據:帶unicode字符串的文本和帶html特殊符號的文本。這些功能也是從實際需求中來。為了讓數據處理更加得心應手,功能仍然不斷新增。

網頁採集數據常有的不完善

一、html編碼問題

這裡說的網頁採集,當然可以最原始的從網頁上複製粘貼回來的數據,更自動化的,就是使用網頁採集工具批量性獲取到的數據。

網頁html文本,有轉義字符如:&lt(小於號) 、&nbsp(空格)等,這些因為html上有特定的含義,需要轉義成其他輸入字符。

更多的可見下文截圖:

最終我們還原後,應該得到下面的文本才是想要的。

二、Unicode格式文本

我們採集到的數據中,可能會是以下展示的樣式,非英文、數字的比如中文,用了Unicode字符表示(\u開頭的)。

我們需要這樣的格式,才是人閱讀和使用的文本。

解決辦法

既然這麼大的共性情況,肯定是將它落實到功能上固化,有再次出現時可以立馬解決,這就是Excel催化劑越來越「雜」的由來。

處理一個文件,你說在線轉換下就可以,處理100個、1000個呢,還會這樣去做嗎?在Excel催化劑裡,必然是批量性操作最佳使用場合。

自定義函數處理Excel單元格內容

如果數據已經落到Excel的單元格裡,在做網頁採集功能時,其實已經將此成套的網頁採集相關會用到的功能都做成了自定義函數。

如下的將html的轉義字符解碼

同樣地,Unicode字符串還原為原字符,也有自定義函數。

除此以外,還有大量的轉換Utf8、從json提取、從xml提取指定元素、Url轉碼和還原等一大堆自定義函數。

上述自定義函數使用場景,數據源在Excel單元格或提取結果存儲在Excel單元格,另如果是對整個文件的轉換,就是本篇開發的兩個小功能。

使用非常簡單,選擇一個或多個待轉換的文本文件路徑單元格,當只選擇待轉換時,轉換後的結果覆蓋原文件,選擇兩列時,右側列為轉換結果生成新文本,建議採用新生成文件方式。

任何覆蓋原始文件的操作均有數據風險,無法恢復數據初始狀態,不是一個好的科學的數據管理方式。

結語

小功能有大智慧,你能感受到了嗎?盼望Excel催化劑的使用者,會因為其功能的不斷新增而驚喜,因為又有新的繁瑣操作被簡單固化了。

看到小小的Excel催化劑包含這麼多的功能,來應對各種數據採集、處理、分析各環節的痛點,希望催化劑的使用者們,都有慧眼,不用再相信培訓機構所吹噓的培訓一小時,從此不加班的收割式的忽悠大法。

應對功能越來越多,請始終堅守最佳的Excel催化劑使用方法:搜索+筆記,用到時即搜即得,日常追更下文章。寫文章者1小時,讀文章者2分鐘即可。

搜索+筆記傳送門:第113波-將幫助文檔的主動權歸還用戶手中

相關焦點

  • 個人永久性免費-Excel催化劑功能第128波-文本文件處理之Unicode字符及Html轉義字符轉換還原原字符
    文本文件的批量性操作,Excel催化劑已經有非常多的功能,常聽說許多人對Excel催化劑的印象是功能太雜
  • 個人永久性免費-Excel催化劑功能第43波-文本處理類函數增強
    文本處理函數在Excel2016中提供了一個TEXTJOIN的文本函數,好多Excel群友時不是就冒一句說要找這個函數,Excel像擠牙膏一樣,這麼多年來,拖到2016版才發布這麼一個小白級別的函數,也只是醉了,這樣的功能,隨便一個VBA學習者都能寫得出來。當然今天Excel催化劑也有此功能的函數,但比Excel2016提供的原生功能更好用,想得更遠。
  • 【Python進階】2.9將Unicode文本標準化
    2.9 將Unicode文本標準化問題你正在處理Unicode字符串,需要確保所有字符串在底層有相同的表示。
  • HTML 轉義字符(可以補充)
    此文章主要為大家介紹了HTML 轉義字符,具有一定的參考價值,學習覺得挺不錯的,分享給大家。一個實體名稱。要在 HTML 文檔中顯示小於號,所以在文本中使用它們,名稱相對來說更容易記憶,我們必須在 HTML 源碼中插入字符實體。
  • 解決ThinkPHP框架使用文本編輯器輸出了以HTML格式字符自動轉義
    昨天在用ThinkPHP整合Kindeditor的時候,在提交內容或者修改字體顏色的時候Kindeditor自動把我修改後的內容轉義成 「\"」,在網上找了半天就知道是kindeditor自動轉義,原因是找到了,可是就是找不到解決的方法,也在一些技術群裡諮詢了一些 人,但是沒有一個能幫忙解決的
  • (64) 常見文件類型處理: 屬性文件/CSV/EXCEL/HTML/壓縮文件 / 電腦程式的思維邏輯
    對於處理文件,我們介紹了流的方式,57節介紹了字節流,58節介紹了字符流,同時,也介紹了比較底層的操作文件的方式,60節介紹了隨機讀寫文件,61節介紹了內存映射文件,我們也介紹了對象的序列化/反序列化機制,62節介紹了Java標準的序列化,63節介紹了如何用Jackson處理其他序列化格式如XML/JSON和MessagePack。
  • Python 與 Unicode
    編程相關的編碼問題關於程式語言的編碼問題, 可能會涉及到這麼幾個內容:源文件自身的編碼編輯器/IDE 所理解的源文件的編碼方式編譯器/解釋器對原始碼中字符常量的處理方式下文我們會一一說明.源文件自身的編碼源文件自身的編碼是由誰決定的呢?
  • 解決Excel打開文件亂碼的問題
    今天用公司的CMS導出了一個CSV數據文件,需要在Excel中處理並打開,但是我直接用Excel打開這個CSV文件卻發現,文件中的所有中文字符都變成了亂碼
  • 菜鳥學Python之六:轉義字符
    菜鳥學Python之六:轉義字符大家好,我是@愛玩電腦,今天跟大家一起零基礎入門學習Python的第六課:轉義字符,純粹零基礎入門,高手繞行。多動手輸入代碼,才是硬道理!比如回車符,比如輸出引號(因為Python把引號裡面的字符當做字符串進行處理,如果你需要在字符串中再包含一個引號,就需要用到轉義字符了)。一、常用的轉義字符圖二 轉義字符注意:網上的上述圖表有些是錯誤的。
  • Python Lesson 1 輸出|轉義字符|原字符
    ,所指定的路徑必須要存在,格式如下,要提前寫好新文件的名稱和後綴'a+'的設置:如果文件不存在就創建文件,如果存在就在文件內容的後面繼續追加內容fDir = open('/Users/tangzl/Desktop/practice python/a.txt⁩','a+')用print命令往文件中輸入內容,注意要加attribute:file=文件路徑
  • html 基礎知識
    基本的 html 頁面3.1 html 結構源碼3.2 源碼逐行分析4. 元素,屬性與值與其它4.1 元素4.2 屬性和值4.2.1 基本語法4.2.2 三大通用屬性5. 層級關係6. 網頁中的文本字符7. 文件與文件夾名稱8. URL8.1 語法8.2 絕對 URL8.3 相對 URL9. html 標籤的語義化的優勢10. html 元素的默認樣式1.
  • 字符處理文本查找截取常用的10個excel函數公式,上班族職業必備
    點擊上方藍字  免費關注置頂公眾號或設為星標,否則可能收不到文章
  • 胡淼森:警惕官僚主義的轉義功能
    但「四風」既是一種風氣,更是嵌入政治系統的結構性症候,糾正「四風」不是最終落腳點,在反對「四風」的過程中維護黨的政令暢通、令行禁止,需要警惕和防範官僚主義的轉義功能。 轉義功能表現形式   老百姓普遍有一種說法:「上面的經是真經,都是下面這些歪嘴和尚把經念歪了」。所謂「把真經念歪」就是官僚主義的轉義功能在起作用。
  • python 處理 csv 文件
    csv 文件是一種逗號分隔的純文本形式存儲的表格數據,Python內置了CSV模塊,可直接通過該模塊實現csv文件的讀寫操作,在web應用中導出數據是比較常見操作
  • FSO對象操作txt文件
    比如這節課要講的txt文本文件。操作txt除了常規VBA文件處理語句open、write等方法,還有一種方法是使用FSO對象來操作。那麼什麼是FSO對象呢?讓excel VBA的功能更加的強大。,字符串。
  • python入門教程06-01(python語法入門之字符編碼)
    解釋器與文件本編輯的異同如下#1、相同點:前兩個階段二者完全一致,都是將硬碟中文件的內容讀入內存,詳解如下python解釋器是解釋執行文件內容的,因而python解釋器具備讀py文件的功能,這一點與文本編輯器一樣#2、不同點:在階段3時,針對內存中讀入的內容處理方式不同,詳解如下文本編輯器將文件內容讀入內存後,是為了顯示或者編輯,根本不去理會python的語法,而python解釋器將文件內容讀入內存後
  • Excel vba如何創建文本文件
    前景提要在之前我們也是接觸了一些關於FSO的運用,再VBA的世界中,FSO在文件方面的操作還是非常的強大的,日常的工作中,我們很多的數據並不一定存在excel,有時候還會存在文本文件中,就是TXT文件,文本文件的好處就是讀取方便,並且內存不會很大,其實VBA也是可以操作文本文件的,VBA可以創建文本文件,同時可以讀取文件文件
  • php字符串函數
    addcslashes — 為字符串裡面的部分字符添加反斜線轉義字符addslashes — 用指定的方式對字符串裡面的字符進行轉義
  • Python 2.x 字符編碼終極指南
    上面的例子只是為了方便我們理解編碼、解碼這個抽象的概念,現在來看看對於電腦程式來說,如何去理解字符的編碼、解碼過程。我們知道絕大多數程序都是讀取數據,做一些操作,然後輸出數據。比如當我們打開一個文本文件時,就會從硬碟讀取文件中的數據,接著我們輸入了新的數據,點擊保存後,文本程序會將更新後的內容輸出到硬碟。
  • 給妹子講python-S01E08理清python中的字符編碼方法
    首先說說編碼,即將unicode的str文本字符串轉換為bytes的字節字符串,可以顯式的傳入指定編碼(一般來說採用utf-8編碼),或使用平臺的默認編碼。將bytes類型字符串轉換成str類型的unicode文本字符串也是一樣,要麼指定編碼參數,要麼使用平臺的默認參數。這個例子中,我們要操作的字節字符串b是通過utf-8編碼方式對文本字符串'π排球の'編碼而形成的。