본문 바로가기

DINOLEARNING

[데이터분석] csv 파일 dataframe으로 불러오기 - pd.read_csv() 데이터 분석을 할 때, 데이터가 외부 파일인 csv 파일이라면 이를 불러와야 하는데요, 이때 csv 파일에 있는 데이터를 데이터프레임으로 전환해서 분석을 하려고 한다면 csv 파일을 불러오는 코드보다 바로 데이터프레임 형식으로 불러오는 방법이 좋은데요, 아래 코드를 보면서 설명드리도록 하겠습니다. - pd.read_csv() : csv 파일 dataframe 형식으로 불러오기 pandas 라이브러리에서 제공하는 pd.read_csv() 함수는 csv 파일을 바로 dataframe 형식으로 불러오는 함수입니다. 괄호 안에 파일 이름과 인코딩 정보를 입력하면 되는데요, 아래와 같이 코드를 작성하면 됩니다. import pandas as pd import csv df = pd.read_csv("test1.cs.. 더보기
[파이썬] 'cp949' codec can't decode byte 0xec in position 0: illegal multibyte sequence 에러, 해결 방법은? csv 파일을 열 때, 'cp949' codec can't decode byte 0xec in position 0: illegal multibyte sequence 와 같은 에러가 뜨는 경우가 있는데요, 이러한 경우는 인코딩에서 문제가 발생했다는 뜻입니다. 따라서 만약 csv 파일을 불러왔을 때 인코딩 설정 없이 다음과 같이 코드를 작성했었다면, import csv f = open(r"C\test\sample.csv") f_csv = csv.reader(f) 아래와 같이 코드를 수정해보시기 바랍니다. import csv f = open(r"C\test\sample.csv", encoding="utf-8") # encoding="utf-8" 추가하기 f_csv = csv.reader(f) 더보기
[파이썬] 주피터 노트북에서 csv, 엑셀 파일 열기 - open(), reader() 데이터프레임 등으로 데이터 분석을 할 때, 주로 csv 파일 또는 엑셀 형식의 파일을 불러와 데이터 분석을 하게 되는데요, 이때 csv 파일과 엑셀 파일을 어떻게 불러오는지 알아보도록 하겠습니다. 1. csv 파일 열기 먼저, csv 파일을 불러오려면 csv 라이브러리를 import 해야 합니다. open() 함수를 이용하여 파일을 열고 'f' 라는 변수에 저장하도록 하겠습니다. import csv f = open(r"C\test\sample.csv", encoding="utf-8") #파일이 있는 경로+파일이름.csv 그리고나서 csv.reader() 함수를 이용하여 csv 파일을 읽도록 합니다. f_csv = csv.reader(f) 이렇게 코드를 입력하면 f_csv 에는 csv 파일에 있는 데이터가.. 더보기
[파이썬] 리스트 인덱싱 기초 : list[-1] 이란? 리스트 안에 있는 데이터를 인덱싱 하는 것은 매우 간단하면서도 기초적인 것인데요, 간단하게 인덱싱 하는 방법에 대해 살펴보도록 하겠습니다. - 리스트(List) 인덱싱 하기 우선 다음과 같은 리스트 'list1'이 있다고 가정해보겠습니다. list1 = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9 ,10] 리스트에서 인덱스는 0부터 시작하는데요, 만약 두 번째 데이터를 갖고 오고 싶다면 인덱스가 1인 데이터를 찾아와야 합니다. 한편, 인덱싱 하는 방법은 리스트명[인덱스번호] 처럼 코드를 입력하면 됩니다. # 첫 번째 데이터 인덱싱 list1[0] # 두 번째 데이터 인덱싱 list1[1] 그렇다면, 리스트에 데이터가 몇 개 인지 모를 정도로 매우 많은데, 마지막에 있는 데이터를 인덱싱 하려면 어.. 더보기
[파이썬] 텍스트 파일 / 메모장 - 줄 바꿈('\n') 제거하고 읽기 이전 글에서는 텍스트 파일을 불러와 읽는 방법에 대해 살펴보았는데요, 여러 줄의 데이터가 있는 텍스트 파일을 불러와 읽으면 다음과 같이 '\n' 라는 문자도 함께 출력이 됩니다. file = open("c:\\Users\\Dinolabs\\Desktop\\test1.txt", 'rt') lines = file.readlines() print(lines) ['안녕하세요!\n', '디노랩스 블로그입니다\n', '언제든지 방문하세요!\n'] 한편, for문을 이용해서 출력을 해보겠습니다. for line in lines : print(line) 안녕하세요! 디노랩스 블로그입니다. 언제든지 방문하세요! for문을 이용해서 한 줄 씩 출력한 결과, '\n' 라는 문자가 마치 줄 바꿈으로 인식되어서 한 줄씩 띄어져.. 더보기
[파이썬] 텍스트 파일 / 메모장 불러와 읽기 파이썬에서 메모장과 같은 텍스트 파일에 있는 내용을 불러와 읽을 수 있는데요, 어떻게 하는지 아래 코드를 보면서 설명드리도록 하겠습니다. 먼저, 불러올 텍스트 파일에 있어야 하는데요, 'text1' 이라는 텍스트 파일에 다음과 같은 같은 내용을 작성하고 저장하도록 하겠습니다. 안녕하세요! 디노랩스 블로그 입니다. 그리고나서, 이 텍스트 파일을 열어야 하는데요, 아래와 같이 open("파일 경로+text1.txt")의 형식으로 코드를 입력하면 됩니다. file = open('c:\\Users\\Dinolabs\\Desktop\\text1.txt', 'rt') 위 코드에서 두 번재 인자인 'rt'는 텍스트 파일을 읽겠다는 의미를 담고 있습니다. 텍스트 파일을 열었다면 이제 내용을 읽어오면 되는데요, 이때 r.. 더보기
[파이썬] while 문 - break 와 continue 사용하기 while문 또는 for문과 같은 반복문에서 break와 continue 코드를 사용하면 훨씬 더 많은 기능을 구현할 수 있는데요, break와 continue가 각각 어떠한 기능을 하는지 아래 코드를 보면서 알아보도록 하겠습니다. 1. break 먼저, 다음과 같이 1에서 10까지의 수를 출력하는 while 문이 있다고 가정해보겠습니다. num = 0 while num < 10: num += 1 print(num) 1 2 3 4 5 6 7 8 9 10 한편, break는 반복문을 빠져나오는 코드로, break를 만나면 while 문을 빠져나오게 됩니다. 따라서 만약 위 while 문에서 'num' 이 5일 때 break를 실행하도록 코드를 입력해보겠습니다. num = 0 while num < 10: n.. 더보기
[파이썬] 튜플(Tuple) 이것만 알자! 1. 튜플(Tuple)과 리스트(List)의 차이는? 튜플(Tuple)은 리스트와 같이 여러 개의 데이터를 담아주는 자료형 구조로, 리스트와 비슷한 기능을 합니다. 하지만 리스트는 '[', ']'를 사용하는 반면, 튜플은 아래 코드와 같이 '(', ')'을 사용합니다. list1 = [1, 2, 3, 4, 5] tuple1 = (1, 2, 3, 4, 5) 한편, 튜플은 리스트보다 처리 속도가 더 빠르다고 하는데요, 데이터가 엄청 많을 때 튜플의 처리 속도가 더 빠르다는 것을 확인할 수 있습니다. 또한, 리스트는 데이터를 추가하거나 수정 및 변경이 가능한데요, 튜플은 처음에 지정하고 그 이후에 수정 및 변경이 불가능하답니다. 따라서 튜플의 원소를 수정하려고 하면 아래와 같이 에러가 나는 것을 확인할 수 있.. 더보기
[파이썬] Boolean이란? bool 자료형 알아보기(True/False) Boolean(불리언) 이라는 이름에 대해서는 조금 생소할 수 있는데요, Boolean은 기본 정수형, 실수형, 문자열 자료형처럼 기본 자료형 중 하나입니다. Boolean은 True 또는 False 값만 바인딩하는 자료형이기도 하는데요, 비교 연산자에서 반환 값으로 사용되는 True와 False 값이 바로 Boolean 데이터입니다. 한 번 아래 코드를 살펴보도록 하겠습니다. val1 = True print(type(val1)) val1 이라는 변수에 'True' 라는 boolean 자료형 데이터를 입력했고, va1의 type을 확인한 결과 'bool' 이라고 출력이 되었습니다. 여기서 bool 이란 boolean을 말합니다. 아래 코드도 한 번 살펴보도록 하겠습니다. val2 = 3 > 1 val3 .. 더보기
[파이썬] 인덱스 반환 함수 - enumerate() 란? enumerate() 함수는 주로 반복문에서 사용되는데요, 몇 번째 반복되고 있는지 인덱스를 확인할 때 사용합니다. enumerate 함수를 어떻게 사용하는지 다음 코드를 보면서 살펴보도록 하겠습니다. - enumerate() 먼저, 아래와 같은 리스트 'list1'이 있고, list1에 있는 데이터를 하나씩 출력할 때 보통 다음과 같이 코드를 작성합니다. list1 = [50,100,150,200,250,300] for i in range(len(list1)) : print(i, "번째 데이터 :", list1[i]) 0 번째 데이터 : 50 1 번째 데이터 : 100 2 번째 데이터 : 150 3 번째 데이터 : 200 4 번째 데이터 : 250 5 번째 데이터 : 300 여기서 반복하는 것을 ran.. 더보기