Python進行數據的排序以及字符串的操作

2020-12-14 一起學python

數據異常值的過濾

在數據分析中,經常需要檢測數據結構中的異常值。我們還是舉個例子,先來創建一個包含三列的DataFrame對象,每一列都包含1000個隨機數。

可以用describe( )函數查看每一列的描述性統計量。

例如,你可以會將比標準差大3倍的元素視作異常值。用std( )函數就可以求得DataFrame對象每一列的標準差。

j接下來,根據每一列的標準差,對DataFrame對象的所有元素進行過濾。藉助any( )函數,就可以對每一列應用篩選條件。

數據排序

用numpy.random.permutation( )函數,調整Series對象或DataFrame對象各行的順序(隨機排序)很簡單。

舉個例子,創建一個元素為整數且按照升序排列的DataFrame對象。

用permutation( )函數創建一個包含0~4(順序隨機)這五個整數的數組。我們將按照這個數組元素的順序為DataFrame對象的行排序。

對DataFrame對象的所有行應用take( )函數,把新的次序傳給它。

如上所見,DataFrame對象各行的位置已發生改變。新索引的順序跟new_order數組的元素順序保持一致。

你甚至還可以只對DataFrame對象的一部分進行排序操作。它將生成一個數組,只包含特定索引範圍的數據。例如我們這裡的2~4。

隨機取樣

上面剛講了如何通過指定排列次序,從DataFrame對象中抽取一部分數據。若DataFrame規模很大,有時可能需要從中隨機取樣,最快的方法莫過於使用np.random.randint( )函數。

從隨機取樣這個例子可知,你可以多次獲取相同的樣本。

字符串處理

Python語言由於處理字符串和文本很方便,因而很受歡迎。大多數字符串操作用Python的內置函數就能輕鬆實現。字符串匹配及其他更為複雜的字符串處理,就有必要用正則表達式了。

內置的字符串處理方法

你常常需要將複合字符串劃分為幾個部分,分別賦給不同的變量。split( )函數以參考點為分隔符,比如逗號,將文本分為幾部分。

如上所見,切分後得到的第一個元素以空白字符結尾。這個問題很常見。為了解決這個問題,使用split( )函數切分後,還要再用strip( )函數刪除空白的字符,包括換行符。

這樣我們就得到了一個字符串數組。如果元素數量較少且固定不變,可使用下面這種非常有意思的賦值方式:

上面講的是文本的切分方法,但我們通常還需要其逆操作,也就是把多個字符串拼接在一起形成一段長文本。

最直觀和簡單的方法就是使用運算符『+』把這幾個文本片段拼接在一起。

如果只有寥寥幾個字符串,那麼這種拼接方式就顯得很簡單。但是如果要拼接很多字符串,更為實用的方式就是使用join( )函數。

相關焦點

  • 一文看懂Python列表、元組和字符串操作
    序列1 列表列表(List)是Python中非常重要的內置數據類型。列表由一系列元素組成,所有的元組被包含在一對方括號中。列表被創建將後,可以執行添加、刪除、修改操作。列表中可包含任意的Python數據信息,如字符串、數字、列表、元組等。
  • python數據類型總結——數字和字符串
    如果可以,稱該數據類型可變,如果不可以,則稱該數據類型不可變。當一個變量指向的內存空間中,存放的是一個不可變的數據類型時,要改變該變量對應的值,就必須重新分配一塊新的內存空間來存放新值,並將新的內存空間地址提供給變量。python中,定義了五個標準的數據類型,分別是數字,字符串,列表,元組,字典。
  • python中字符串的基本操作匯總
    字符串是文本操作的核心,在python中字符串是string類的實例,在string模塊中,定義了很多的常量>>> import string>>> string.ascii_letters'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ'
  • Python中字符串的操作處理
    學習了字符串的基本用法和簡單格式化,我們再來看一下常用字符串類型的操作。對字符串,Python提供了3個基本的操作符,如下表:演示如下:>>> x = '一個'>>> y = '字符串'>>> x+y'一個字符串'>>> x*3'一個一個一個'>>> s = '某個字符串'>>>
  • Python數據類型之字符串
    # 字符串是python中最常用的數據類型,我們可以使用引號來創建字符串,引號可以是單引號,雙引號或三引號,本質上單引號和雙引號以及三引號的作用是一樣的 # 字符串是一種不可變的序列類型,單個字符從左到右按照順序排列,同時修改某個位置的字符是不被允許的 #
  • Python 再牛,在字符串排序上還是被 Julia 和 R 碾壓
    我們簡單介紹了 Julia 的背景,以及通過優化一個似然函數的參數 μ 和 σ,來對比 Julia、R、Python 三門語言,誰更快,誰的輸出更舒適。R 使用的是一種字符串駐留形式,理論上講,這種方法需要更多的安裝時間。Julia 默認沒有字符串駐留,因此無法執行 R 使用開箱即用的優化。
  • Python拼接字符串的七種方式
    公眾號Python貓, 專注python技術、數據科學和深度學習,力圖創造一個有趣又有用的學習分享平臺。忘了在哪看到一位編程大牛調侃,他說程式設計師每天就做兩件事,其中之一就是處理字符串。相信不少同學會有同感。幾乎任何一種程式語言,都把字符串列為最基礎和不可或缺的數據類型。而拼接字符串是必備的一種技能。今天,我跟大家一起來學習Python拼接字符串的七種方式。
  • Python如何定義變量,不可變數據,數字、字符串、元組詳解
    不可變數據就是變量一旦初始化就不能修改Python的六個標準數據類型中不可變數據(3 個):Number(數字)、String(字符串)、Tuple(元組)。內置的 type() 函數可以用來查詢變量所指的對象類型。
  • Python兩種基本數據類型:數值及字符串;python交互式運行環境
    裡面用到很多python編程的知識點。筆者覺得有必要解釋一下。編程需要大量數據,為了編程方便,數據就分成了不同的類型,不同的數據類型有不同的特性。Python兩種基本數據類型python語言中,有兩種最基本的數據類型:數值類型及字符串類型。
  • 對比python字符串函數,輕鬆學習pandas的 str 矢量化字符串函數
    1.概述python字符串應該是python裡面最重要的數據類型了,因此學會怎麼處理各種各樣的字符串,顯得尤為重要。我們不僅要學會怎麼處理單個字符串,這個就需要學習「python字符串函數」,我們還要學會怎麼處理二維表格中每一列每一格的字符串,這個就需要學習「pandas的str矢量化字符串函數」。今天我們採用對比的方式,帶大家總結常用的字符串函數,希望這篇文章能夠對大家起到很好的作用。
  • 對比python字符串函數,學習pandas的str矢量化字符串函數
    文章來源:數據分析與統計學之美作者:黃偉呢python字符串應該是python裡面最重要的數據類型了,因此學會怎麼處理各種各樣的字符串,顯得尤為重要。我們不僅要學會怎麼處理單個字符串,這個就需要學習「python字符串函數」,我們還要學會怎麼處理二維表格中每一列每一格的字符串,這個就需要學習「pandas的str矢量化字符串函數」。今天我們採用對比的方式,帶大家總結常用的字符串函數,希望這篇文章能夠對大家起到很好的作用。
  • Python語言中字符串的拆分,連接及拼接(下篇)
    除了在連接字符串時添加空格外,不用做任何事情就可以大大提高輸出的可讀性。 在進行人機互動設計連接字符串,這一點您應該牢記住。在掌握了這些基本字符串操作後,您可能想了解更多信息。 正好我們還有許多很棒的教程可以幫助您掌握Python的各項功能,從而實現更精巧地的對字符串進行處理:參加測驗:使用我們的交互式「Python語言中字符串的拆分,連接和拼接」測驗來測試您的知識。
  • Python入門之字符串基本操作(Python官方文檔翻譯)
    . \ can be used to escape quotes: 除了數字,Python還可以操作字符串,單引號('...')與雙引號(「…」)與相同的結果[ 2 ]。The print() function produces a more readable output, by omitting the enclosing quotes and by printing escaped and special characters:在交互解釋器中,輸出字符串用引號括起來,特殊字符用反斜槓進行轉義。
  • Python中的變量與字符串數據類型
    CDA數據分析師 出品大家好,我是一行,作為當下最受歡迎和市場使用的程式語言之一,Python在廣大職場人士的日常事務中佔據越來越重要的位置。今天我們就對Python中變量以及字符串數據類型做一個總結,一起從零開始學習Python。
  • Python語言中字符串的拆分,連接及拼接
    既然字符串數據幾乎無處不在,那麼掌握所使用的工具如何進行字符串處理是非常重要的。 幸運的是,與其它語言甚至舊版本的Python語言相比,Python語言對字符串的操作非常簡單。您將從本文中學習一些最基本的字符串操作:拆分,連接和拼接。 您不僅將學習如何使用這些工具,而且還將深入了解它們是如何工作。
  • Python知識點|字符串轉整數需注意
    One old watch, like brief pythonPython知識點系列,學習了記得點讚、留言、轉發,三連哦~字符串轉整數需注意問題源自我做阿里雲天池Docker練習賽時(點擊查看),讀取num_list.csv數據後發現列表裡的每個元素是字符串,所以需要先轉化為整數,然後才能進行求和和排序
  • 詳解 Python 拼接字符串的 7 種方式
    幾乎任何一種程式語言,都把字符串列為最基礎和不可或缺的數據類型。而拼接字符串是必備的一種技能。今天,我跟大家一起來學習Python拼接字符串的七種方式。首先,新入門編程的同學容易犯錯,他們不知道字符串是不可變類型,新的字符串會獨佔一塊新的內存,而原來的字符串保持不變。上例中,拼接前有兩段字符串,拼接後實際有三段字符串。其次,一些有經驗的老程式設計師也容易犯錯,他們以為當拼接次數不超過3時,使用+號連接符就會比其它方式快(ps:不少Python教程都是如此建議),但這沒有任何合理根據。
  • 【Python字符串操作】字符串分割函數
    對於長字符串,我們一般要怎麼處理呢?除了切片,但是切片太麻煩了。python為我們提供了字符串切割函數,它不僅可以通過指定字符切割,也可以去除空格符哦。1.split()語法:str.split(str=' ', num=string.count(str))描述:通過指定分隔符對字符串進行切片,如果參數num有指定值,則僅分隔num個子字符串
  • Python字符串(Python學習筆記02)
    字符串Python 3 中的字符串可以使用雙引號或單引號標示,如果字符串出現引號,則可以使用 來去除引號標示字符串的作用。在python中,字符串中的字符是通過索引來提取的,索引從0開始,第一個字符的索引為0,第二個字符的索引為1,以此類推。python 字符串的索引可以取負值,表示從末尾提取,最後一個字符的索引為 -1,倒數第二個字符的索引為-2,即程序認為可以從結束處反向計數。簡單的示例:切片切片即獲取字符串的片段,格式為 [頭索引:尾索引:步長]。
  • 我用Python之sort排序
    為從無序的數據中發掘內在信息,排序是程式設計師日常 Coding 的高頻操作之一。