個人公眾號 yk 坤帝
後臺回復 項目二 獲取整理資源
1.有一個jsonline格式的文件file.txt大小約為10K
#個人公眾號 yk 坤帝
#後臺回復 項目二 獲取整理資源
def get_lines():
with open('file.txt','rb') as f:
return f.readlines()
if __name__ == '__main__':
for e in get_lines():
process(e) # 處理每一行數據
現在要處理一個大小為10G的文件,但是內存只有4G,如果在只修改get_lines 函數而其他代碼保持不變的情況下,應該如何實現?需要考慮的問題都有那些?
#個人公眾號 yk 坤帝
#後臺回復 項目二 獲取整理資源
def get_lines():
with open('file.txt','rb') as f:
for i in f:
yield i
個人認為:還是設置下每次返回的行數較好,否則讀取次數太多。
#個人公眾號 yk 坤帝
#後臺回復 項目二 獲取整理資源
def get_lines():
l = []
with open('file.txt','rb') as f:
data = f.readlines(60000)
l.append(data)
yield l
Pandaaaa906提供的方法
#個人公眾號 yk 坤帝
#後臺回復 項目二 獲取整理資源
from mmap import mmap
def get_lines(fp):
with open(fp,"r+") as f:
m = mmap(f.fileno(), 0)
tmp = 0
for i, char in enumerate(m):
if char==b"\n":
yield m[tmp:i+1].decode()
tmp = i+1
if __name__=="__main__":
for i in get_lines("fp_some_huge_file"):
print(i)
要考慮的問題有:內存只有4G無法一次性讀入10G文件,需要分批讀入分批讀入數據要記錄每次讀入數據的位置。分批每次讀取數據的大小,太小會在讀取操作花費過多時間。
2.補充缺失的代碼
#個人公眾號 yk 坤帝
#後臺回復 項目二 獲取整理資源
def print_directory_contents(sPath):
""" 這個函數接收文件夾的名稱作為輸入參數
返回該文件夾中文件的路徑
以及其包含文件夾中文件的路徑 """
import os
for s_child in os.listdir(s_path):
s_child_path = os.path.join(s_path, s_child)
if os.path.isdir(s_child_path):
print_directory_contents(s_child_path)
else:
print(s_child_path)
3.輸入日期, 判斷這一天是這一年的第幾天?
#個人公眾號 yk 坤帝
#後臺回復 項目二 獲取整理資源
import datetime
def dayofyear():
year = input("請輸入年份: ")
month = input("請輸入月份: ")
day = input("請輸入天: ")
date1 = datetime.date(year=int(year),month=int(month),day=int(day))
date2 = datetime.date(year=int(year),month=1,day=1)
return (date1-date2).days+1
4.打亂一個排好序的list對象alist?
import random
alist = [1,2,3,4,5]
random.shuffle(alist)
print(alist)
5.現有字典 d= {『a』:24,『g』:52,『i』:12,『k』:33}請按value值進行排序?
sorted(d.items(),key=lambda x:x[1])
x[0]代表用key進行排序;x[1]代表用value進行排序。
6.字典推導式
d = {key:value for (key,value) in iterable}
7.請反轉字符串 「aStr」?
print("aStr"[::-1])
8.將字符串 「k:1 |k1:2|k2:3|k3:4」,處理成字典 {k:1,k1:2,…}
#個人公眾號 yk 坤帝
#後臺回復 項目二 獲取整理資源
str1 = "k:1|k1:2|k2:3|k3:4"
def str2dict(str1):
dict1 = {}
for iterms in str1.split('|'):
key,value = iterms.split(':')
dict1[key] = value return dict1
#字典推導式
d = {k:int(v) for t in str1.split("|") for k, v in (t.split(":"), )}
9.請按alist中元素的age由大到小排序
alist = [{'name':'a','age':20},{'name':'b','age':30},{'name':'c','age':25}]
def sort_by_age(list1):
return sorted(alist,key=lambda x:x['age'],reverse=True)
10.下面代碼的輸出結果將是什麼?
list = ['a','b','c','d','e']
print(list[10:])
代碼將輸出[],不會產生IndexError錯誤,就像所期望的那樣,嘗試用超出成員的個數的index來獲取某個列表的成員。例如,嘗試獲取list[10]和之後的成員,會導致IndexError。然而,嘗試獲取列表的切片,開始的index超過了成員個數不會產生IndexError,而是僅僅返回一個空列表。這成為特別讓人噁心的疑難雜症,因為運行的時候沒有錯誤產生,導致Bug很難被追蹤到。
11.寫一個列表生成式,產生一個公差為11的等差數列
print([x*11 for x in range(10)])
12.給定兩個列表,怎麼找出他們相同的元素和不同的元素?
#個人公眾號 yk 坤帝
#後臺回復 項目二 獲取整理資源
list1 = [1,2,3]
list2 = [3,4,5]
set1 = set(list1)
set2 = set(list2)
print(set1 & set2)
print(set1 ^ set2)
13.請寫出一段python代碼實現刪除list裡面的重複元素?
l1 = ['b','c','d','c','a','a']
l2 = list(set(l1))
print(l2)
用list類的sort方法:
l1 = ['b','c','d','c','a','a']
l2 = list(set(l1))
l2.sort(key=l1.index)
print(l2)
也可以這樣寫:
l1 = ['b','c','d','c','a','a']
l2 = sorted(set(l1),key=l1.index)
print(l2)
也可以用遍歷:
l1 = ['b','c','d','c','a','a']
l2 = []
for i in l1:
if not i in l2:
l2.append(i)
print(l2)
14.給定兩個list A,B ,請用找出A,B中相同與不同的元素
A,B 中相同元素:print(set(A)&set(B))
A,B 中不同元素: print(set(A)^set(B))
15.python新式類和經典類的區別?
a. 在python裡凡是繼承了object的類,都是新式類
b. Python3裡只有新式類
c. Python2裡面繼承object的是新式類,沒有寫父類的是經典類
d. 經典類目前在Python裡基本沒有應用
e. 保持class與type的統一對新式類的實例執行a.class與type(a)的結果是一致的,對於舊式類來說就不
一樣了。
f.對於多重繼承的屬性搜索順序不一樣新式類是採用廣度優先搜索,舊式類採用深度優先搜索。
16.python中內置的數據結構有幾種?
a. 整型 int、 長整型 long、浮點型 float、 複數 complex
b. 字符串 str、 列表 list、 元祖 tuple
c. 字典 dict 、 集合 set
d. Python3 中沒有 long,只有無限精度的 int
17.python如何實現單例模式?請寫出兩種實現方式?
第一種方法:使用裝飾器
#個人公眾號 yk 坤帝
#後臺回復 項目二 獲取整理資源
def singleton(cls):
instances = {}
def wrapper(*args, **kwargs):
if cls not in instances:
instances[cls] = cls(*args, **kwargs)
return instances[cls]
return wrapper
@singleton
class Foo(object):
pass
foo1 = Foo()
foo2 = Foo()
print(foo1 is foo2) # True
第二種方法:使用基類
New 是真正創建實例對象的方法,所以重寫基類的new 方法,以此保證創建對象的時候只生成一個實例
#個人公眾號 yk 坤帝
#後臺回復 項目二 獲取整理資源
class Singleton(object):
def __new__(cls, *args, **kwargs):
if not hasattr(cls, '_instance'):
cls._instance = super(Singleton, cls).__new__(cls, *args, **kwargs) return cls._instance class Foo(Singleton): pass foo1 = Foo() foo2 = Foo() print(foo1 is foo2) # True
第三種方法:元類,元類是用於創建類對象的類,類對象創建實例對象時一定要調用call方法,因此在調用call時候保證始終只創建一個實例即可,type是python的元類
#個人公眾號 yk 坤帝
#後臺回復 項目二 獲取整理資源
class Singleton(type):
def __call__(cls, *args, **kwargs):
if not hasattr(cls, '_instance'):
cls._instance = super(Singleton, cls).__call__(*args, **kwargs)
return cls._instance
# Python2
class Foo(object):
__metaclass__ = Singleton
# Python3
class Foo(metaclass=Singleton):
pass
foo1 = Foo()
foo2 = Foo()
print(foo1 is foo2) # True
18.反轉一個整數,例如-123 --> -321
#個人公眾號 yk 坤帝
#後臺回復 項目二 獲取整理資源
class Solution(object):
def reverse(self,x):
if -10<x<10:
return x
str_x = str(x)
if str_x[0] !="-":
str_x = str_x[::-1]
x = int(str_x)
else:
str_x = str_x[1:][::-1]
x = int(str_x)
x = -x
return x if -2147483648<x<2147483647 else 0
if __name__ == '__main__':
s = Solution()
reverse_int = s.reverse(-120)
print(reverse_int)
19.設計實現遍歷目錄與子目錄,抓取.pyc文件
第一種方法:
#個人公眾號 yk 坤帝
#後臺回復 項目二 獲取整理資源
import os
def get_files(dir,suffix):
res = []
for root,dirs,files in os.walk(dir):
for filename in files:
name,suf = os.path.splitext(filename)
if suf == suffix:
res.append(os.path.join(root,filename))
print(res)
get_files("./",'.pyc')
第二種方法:
#個人公眾號 yk 坤帝
#後臺回復 項目二 獲取整理資源
import os
def pick(obj):
if obj.endswith(".pyc"):
print(obj)
def scan_path(ph):
file_list = os.listdir(ph)
for obj in file_list:
if os.path.isfile(obj):
pick(obj)
elif os.path.isdir(obj):
scan_path(obj)
if __name__=='__main__':
path = input('輸入目錄')
scan_path(path)
第三種方法
#個人公眾號 yk 坤帝
#後臺回復 項目二 獲取整理資源
from glob import iglob
def func(fp, postfix):
for i in iglob(f"{fp}/**/*{postfix}", recursive=True):
print(i)
if __name__ == "__main__":
postfix = ".pyc"
func("K:\Python_script", postfix)
20.一行代碼實現1-100之和
count = sum(range(0,101)) print(count)
21.Python-遍歷列表時刪除元素的正確做法
遍歷在新在列表操作,刪除時在原來的列表操作
#個人公眾號 yk 坤帝
#後臺回復 項目二 獲取整理資源
a = [1,2,3,4,5,6,7,8]
print(id(a))
print(id(a[:]))
for i in a[:]:
if i>5:
pass
else:
a.remove(i)
print(a)
print('-')
print(id(a))
#filter
a=[1,2,3,4,5,6,7,8]
b = filter(lambda x: x>5,a)
print(list(b))
列表解析
a=[1,2,3,4,5,6,7,8]
b = [i for i in a if i>5]
print(b)
倒序刪除
因為列表總是『向前移』,所以可以倒序遍歷,即使後面的元素被修改了,還沒有被遍歷的元素和其坐標還是保持不變的
#個人公眾號 yk 坤帝
#後臺回復 項目二 獲取整理資源
a=[1,2,3,4,5,6,7,8]
print(id(a))
for i in range(len(a)-1,-1,-1):
if a[i]>5:
pass
else:
a.remove(a[i])
print(id(a))
print('-')
print(a)
22.字符串的操作題目
全字母短句 PANGRAM 是包含所有英文字母的句子,比如:A QUICK BROWN FOX JUMPS OVER THE
LAZY DOG. 定義並實現一個方法 get_missing_letter, 傳入一個字符串採納數,返回參數字符串變成一
個 PANGRAM 中所缺失的字符。應該忽略傳入字符串參數中的大小寫,返回應該都是小寫字符並按字
母順序排序(請忽略所有非 ACSII 字符)
下面示例是用來解釋,雙引號不需要考慮:
(0)輸入: 「A quick brown for jumps over the lazy dog」
返回:「」
(1)輸入: 「A slow yellow fox crawls under the proactive dog」
返回: 「bjkmqz」
(2)輸入: 「Lions, and tigers, and bears, oh my!」
返回: 「cfjkpquvwxz」
(3)輸入: 「」
返回:「abcdefghijklmnopqrstuvwxyz」
def get_missing_letter(a):
s1 = set("abcdefghijklmnopqrstuvwxyz")
s2 = set(a.lower()) ret = "".join(sorted(s1-s2))
return ret
print(get_missing_letter("python"))
# other ways to generate letters
# range("a", "z")
# 方法一:
import string letters = string.ascii_lowercase
# 方法二:
letters = "".join(map(chr, range(ord('a'), ord('z') + 1)))
23.可變類型和不可變類型
1,可變類型有list,dict.不可變類型有string,number,tuple.
2,當進行修改操作時,可變類型傳遞的是內存中的地址,也就是說,直接修改內存中的值,並沒有開闢
新的內存。
3,不可變類型被改變時,並沒有改變原內存地址中的值,而是開闢一塊新的內存,將原地址中的值複製
過去,對這塊新開闢的內存中的值進行操作。
24.is和==有什麼區別?
is:比較的是兩個對象的id值是否相等,也就是比較倆對象是否為同一個實例對象。是否指向同一個內
存地址
== :比較的兩個對象的內容/值是否相等,默認會調用對象的eq()方法
25.求出列表所有奇數並構造新列表
a = [1,2,3,4,5,6,7,8,9,10]
res = [ i for i in a if i%2==1]
print(res)
…
個人公眾號 yk 坤帝
後臺回復 項目二 獲取整理資源