본문 바로가기

전체 글

(16)
[데이콘] 펀다 매출 예측 _ 데이터 탐색 및 전처리 보호되어 있는 글입니다.
[Pandas] Groupby 와 unstack 활용 Groupby와 unstack()을 활용하여 데이터를 핸들링 해보자 타이타닉 데이터에서 성별,생존여부에 따른 나이대의 평균을 groupy를 통해 구하면 아래코드와 같다 df = pd.read_csv('../../Data/titanic_train.csv') df.groupby(['Sex','Survived'])['Age'].mean() 이렇게 groupby한 결과물도 DataFrame이다. 이걸 DataFrame 즉, matrix 형태로 변환시키기 위해 unstack 메서드를 사용한다 new_df = df.groupby(['Sex','Survived'])['Age'].mean().unstack() 이렇게 하면 'Sex' 와 'Survivied'를 index,column으로 가지는 DataFrame을 얻을 ..
[Pandas] map을 활용하여 DataFrame & Series Data Handling map()을 사용하여 데이터프레임과 시리즈의 데이터를 편리하게 핸들링 할 수 있다. * map 함수는? Pythonic Code - map & reduce 네이버 부스트코스 강좌 정리입니다. map Sequence 자료형의 각 element에 동일한 function을 적용 a_list = [1,2,3,4,5] def func_a(x): return x**2 print(list(map(func_a,a_list))).. ds-imh.tistory.com 1. 데이터에 함수를 적용해야할 경우 s1 = pd.Series([1,2,3,4,5,6,7,8]) s1.map(lambda x: x**2) 2. dict를 활용한 매핑 s2 = pd.Series(['M','F','M','M','F','M']) conditio..
[Python] sort와 sorted sort와sorted의 차이점에 대해 알아보자. 1. sort() 기존 리스트를 정렬 반환 값을 가지지 않는다 list_a = [4,3,1,2] list_a.sort() # 반환값 없이 list_a 정렬 print(list_a) # sort에 의해 정렬된 list_a ## sort()는 반환값을 가지지 않으므로 변수에 할당하여도 아무것도 할당되지 않는다 aa = list_a.sort() # None 2. sorted() 기존의 리스트를 유지하면서 정렬된값을 새로 반환 a = [4,2,1,3] print(sorted(a)) # [1,2,3,4] print(a) # [4,2,1,3] # 기존 리스트값은 변경되지 않음 # 변수에 할당 aa = sorted(a) print(aa) # [1,2,3,4] key p..
Pythonic Code - news categorization 네이버 부스트코스 강좌 정리입니다. 문서 간 유사도(코사인 유사도)를 통해 특정 문서의 범주를 분류해보기 총 80개의 문서, 야구선수/축구선수 기사로의 분류 import os ########################################################################################################## def get_file_list(dir_name): # file name들을 가져오는 함수 # 폴더명 인자 # 폴더가 위치한 경로를 인자로 return os.listdir(dir_name) # 폴더 내 파일명을 리스트 형태로 반환 ################################################################..
Pythonic Code - Asterisk 네이버 부스트코스 강좌 정리입니다. Asterisk # 함수의 인자수가 정해져있지 않은 경우 def asterisk_test(a, *args): print(a, args) print(type(args)) asterisk_test(1,2,3,4,5,6) # 1을 제외한 나머지는 tuple로 묶임 ################################################################################# # 키워드 인자로 받을 경우 def asterisk_test(a, **kargs): print(a, kargs) print(type(kargs)) asterisk_test(1, b=2, c=3, d=4, e=5, f=6) # 1을 제외한 나머지는 dict로 묶임 ####..
Pythonic Code - map & reduce 네이버 부스트코스 강좌 정리입니다. map Sequence 자료형의 각 element에 동일한 function을 적용 a_list = [1,2,3,4,5] def func_a(x): return x**2 print(list(map(func_a,a_list))) # map 함수의 결과는 항상 리스트에 담아야한다. ## 특이한 경우 a_list = [1,2,3,4,5] b_list= [1,2,3,4,5] f = lambda x,y : x+y # 인자 2개를 받는 func print(list(map(f,a_list,b_list))) # map의 적용함수로 f를 사용하며, 인자 2개로 a_list,b_list에서 하나씩 가져온다 # zip 코드와 기능이 같다. # [2, 4, 6, 8, 10] list(map(..
Pythonic Code - enumerate & zip 네이버 부스트코스 강좌 정리입니다. enumerate 간단히 설명하면, index와 내용을 동시에 사용하기 위해 사용한다 a = [a,b,c,d,e,f] # 리스트 안의 요소와 순서를 동시에 꺼내와야 하는 경우에 사용한다. list_a = ['a','b','c','d','e'] for i,x in enumerate(list_a): print("인덱스 : ",i,"요소 : ",x) zip 동시에 여러 요소를 하나씩 가져온다 list_a = ['a','b','c','d','e'] list_b = ['1','2','3','4','5'] for a,b in zip(list_a,list_b): print(a,b) a, b, c = zip((1, 2, 3), (10, 20, 30), (100, 200, 300)) ..