본문 바로가기

AI

(144)
[Pandas] dataframe, series Pandas는 numpy를기반으로 개발된 자료구조 자료구조 - Series : 객체를담을수있는1차원배열 - DataFrame : 스프레드시트의 표같은 형식으로 여러column으로구성 데이터프레임(dataframe) 처음에 말했듯이 데이터프레임은 시리즈가 여러개 합쳐진 자료형이라고 생각하면 된다. 즉 데이터프레임에서 하나의 열만 가져온다면, 그건 시리즈가 된다. [Pandas 기초] 시리즈(Series)와 데이터프레임(Dataframe) 판다스의 기본 자료구조인 시리즈와 데이터프레임을 알아보자 yganalyst.github.io
[ML] Ensemble, Boosting bagging : variance를 감소시키는 역할 boosting : bias를 감소시키는 역할 bagging은 병렬로 학습, boosting은 순차적으로 학습 ( 가중치 재분배를 위해서 ) Boosting AdaBoost / Gradient Boost 가중치 평균을 사용하여 약한 학습자를 더 강력한 학습자로 만드는 알고리즘 그룹을 말한다. "teamwork"에 관한 것 실행되는 각 모델은 다음 모델에 집중할 feature을 결정한다 차례대로 하나는 다른 것으로부터 배우고, learning을 boosting함 1. Gradient Boost gradient boosting regression tree는 여러 개의 decision tree를 묶어 강력한 model을 만드는 ensemble기법입니다. ra..
[ML] Ensemble, Bagging (bootstrap aggregating) - Random Forest bagging : variance를 감소시키는 역할 boosting : bias를 감소시키는 역할 bagging은 병렬로 학습, boosting은 순차적으로 학습 ( 가중치 재분배를 위해서 ) Bootstrap Aggregation (Bagging) 교체된 random sampling을 말한다. 부트스트랩을 사용하면 데이터 세트의 bias(편향)와 variance(분산)을 더 잘 이해할 수 있다 데이터 세트에서 작은 데이터 하위 집합을 random sampling한다 decision tree처럼 분산이 높은 알고리즘의 분산을 줄이는데 사용할 수 있는 일반적인 절차이다. Bagging은 각 모델을 독립적으로 실행한 다음 어떤 모델을 선호하지 않고 마지막에 출력을 집계한다. Problems with Deci..
[ML] Ensemble Ensemble의 목표는 "과적합 최소화"입니다. 여러개의 모델들에서 얻은 데이터로 내가 취사선택하여 사용한다면 아무래도 한개의 모델에서 나온 결과만을 적용할때보다는 유연성이 생길것입니다. 하지만, 당연하게도 여러모델을 한번에 돌리기에 연산량이 엄청납니다.. [코드로 이해하는 딥러닝 17] - Ensemble with CNN [코드로 이해하는 딥러닝 0] - 글연재에 앞서 https://limitsinx.tistory.com/27 [코드로 이해하는 딥러닝 1] - Tensorflow 시작 https://limitsinx.tistory.com/28 [코드로 이해하는 딥러닝 2] - Tensorflow 변.. limitsinx.tistory.com boosting 기법 이해 (bagging vs boosti..
[PyTorch] torch view, squeeze, unsqueeze view 주어진 모양대로 배열을 reshape한다. Squeeze dim이 1인 경우를 없애준다. unsqueeze의 인자로 -1을 넣어보겠습니다. -1은 인덱스 상으로 마지막 차원을 의미합니다. 현재 크기는 (3,)이었으므로 마지막 차원에 1인 차원을 추가하면 (3, 1)의 크기를 가지게 됩니다. 다시 말해 현재 텐서의 경우에는 1을 넣은 경우와 -1을 넣은 경우가 결과가 동일합니다. 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 강의↓ 파이토치로 시작하는 딥러닝 기초 부스트코스 무료 강의 www.boostcourse.org
[PyTorch] torch 함수 Function 1 — torch.tensor t1 = torch.tensor([[21,39],[31,30],[23,43],[11,46],[26,46],[31,25],[21,38],[22,39],[22,19],[18, 14]]) t1 t2 = torch.tensor([]) t2 t2.size() Function 2 — torch.from_numpy a1 = np.array([[1,2,3],[4,5,6]]) a1.dtype t1 = torch.from_numpy(a1) t1.dtype Hight_Weight = np.array([[161,67],[154,76],[172, 61]]) Heart_Rate = np.array([78,89,72]) (Hight_Weight.dtype, Heart_Rate.dtyp..
[ML] 참고 ganghee-lee.tistory.com/31?category=841638 딥러닝 역전파 backpropagation이란? 이전 글에서 설명했듯이 활성화 함수를 적용시킨 MLP에서 XOR과 같은 non-linear 문제들은 해결할 수 있었지만 layer가 깊어질수록 파라미터의 개수가 급등하게 되고 이 파라미터들을 적절하게 ganghee-lee.tistory.com
[ML] CNN Figure 2. Overview and details of a convolutional neural network (CNN)... Download scientific diagram | Overview and details of a convolutional neural network (CNN) architecture for image recognition. (a) Zoom in on a three-channel RGB input, convolution + activation function, e.g., Rectified Linear Unit (ReLU) (blue) and adjace www.researchgate.net 그림이 예쁘게 정리가 잘 돼있어서 저장한다.
kaggle 소개 Hello Kaggle! 캐글이 처음인 분들을 위한 캐글 가이드 Hello Kaggle은 제가 직접 작성한 문서이며 아래는 문서의 깃허브 레포지터리 링크입니다. 만약 Hello Kaggle이 도움이 되셨다면 🌟 꾸욱 눌러주시면 감사하겠습니다! velog.io 캐글(Kaggle) 챌린지 성공 비결을 공개합니다 안녕하세요 이스트소프트입니다. 오늘은 여러분들께 캐글(Kaggle) 소식을 전달해드리려고 합니다. 이스트소프트 기업부설연구소 A.I. PLUS Lab의 한 개발자가 캐글(Kaggle)챌린지에 입상했다는 소식인 blog.estsoft.co.kr
[OD] Object Detection이란 대표적인 객체 탐지 알고리즘에 대해 살펴보겠습니다. 단일 단계 방식의 객체 탐지 알고리즘, YOLO YOLO(You Only Look Once)는 대표적인 단일 단계 방식의 객체 탐지 알고리즘입니다. YOLO 알고리즘은 원본 이미지를 동일한 크기의 그리드로 나눕니다. 각 그리드에 대해 그리드 중앙을 중심으로 미리 정의된 형태(predefined shape)으로 지정된 경계박스의 개수를 예측하고 이를 기반으로 신뢰도를 계산합니다. 이미지에 객체가 포함되어 있는지, 또는 배경만 단독으로 있는지에 대한 여부가 포함되겠죠. 높은 객체 신뢰도를 가진 위치를 선택해 객체 카테고리를 파악합니다. 미리 정의된 형태를 가진 경계박스 수를 ‘앵커 박스(Anchor Boxes)’라고 하는데요. 앵커 박스는 K-평균 알고리즘..
[kaggle] Cassava Leaf Disease Classification Cassava Leaf Disease Classification Identify the type of disease present on a Cassava Leaf image www.kaggle.com 여러 기법들 비교 설명해놓음 Cassava Leaf Disease Experiments Explore and run machine learning code with Kaggle Notebooks | Using data from Cassava Leaf Disease Classification www.kaggle.com 익숙한 cnn 모델 Cassava LEAF Disease keras cnn model Explore and run machine learning code with Kaggle Notebooks ..
dropout 적용코드 살펴보기 드롭아웃이란 트레이닝 중 오버피팅이 발생하는 것을 막기 위해 일부 뉴런이 동작하지 않도록 하는 것이다. CIFAR-10 이미지 분류를 위한 CNN을 구성해보자! (Keras) Overview이 문서에서는 CIFAR-10 dataset에 대한 이미지 분류를 Keras를 사용한 CNN(Convolution Neural Network)로 구현해보도록 하겠습니다. gruuuuu.github.io 은닉층에 드롭아웃(dropout)을 확률 pp 로 적용하는 경우, 은닉 유닛들을 pp 확률로 제거하는 것이 됩니다. 이유는, 그 확률을 이용해서 출력을 0으로 설정하기 때문입니다. 이를 적용한 네트워크는 아래 그림과 같습니다. 여기서 h2h2 와 h5h5 가 제거되었습니다. 결과적으로 yy 를 계산할 때, h2h2 와 ..
기계학습과 데이터마이닝 ‘데이터 마이닝’ – 다양한 관점에서 데이터를 분석해 의미 도출 ‘데이터 마이닝’은 보유한 데이터를 다양한 관점에서 분석하고 그 결과를 유용한 정보로 조합하는 일을 가리킨다. 방대한 데이터 속에 숨어 있던 패턴과 상관성을 통계적 수법들로 식별해 내 가치를 부여한다. 데이터 마이닝은 숫자가 아닌 데이터도 처리한다는 점에서 통계처리와 구분된다. 예를 들면 프로축구 선수들의 패스, 어시스트, 골 등 숫자로 표현되는 데이터 외에도 게임 중 행하는 동작이나 역할들까지 선수의 가치로 환산해서 연봉 책정의 기준으로 삼는다. 데이터 마이닝이 관심을 끄는 이유는 방대한 양의 데이터 속에 감춰진 정보나 지식을 잘 도출해 내 널리 활용할 수 있기 때문이다. 이렇게 얻은 지식은 위험 관리, 비즈니스 관리, 생산 관리, 시장 ..
인공지능, 기계학습, 데이터 마이닝 1. ‘데이터 마이닝’ – 다양한 관점에서 데이터를 분석해 의미 도출 ‘데이터 마이닝’은 보유한 데이터를 다양한 관점에서 분석하고 그 결과를 유용한 정보로 조합하는 일을 가리킨다. 방대한 데이터 속에 숨어 있던 패턴과 상관성을 통계적 수법들로 식별해 내 가치를 부여한다. 데이터 마이닝은 숫자가 아닌 데이터도 처리한다는 점에서 통계처리와 구분된다. 예를 들면 프로축구 선수들의 패스, 어시스트, 골 등 숫자로 표현되는 데이터 외에도 게임 중 행하는 동작이나 역할들까지 선수의 가치로 환산해서 연봉 책정의 기준으로 삼는다. 데이터 마이닝이 관심을 끄는 이유는 방대한 양의 데이터 속에 감춰진 정보나 지식을 잘 도출해 내 널리 활용할 수 있기 때문이다. 이렇게 얻은 지식은 위험 관리, 비즈니스 관리, 생산 관리, ..
[kaggle] CIFAR-10 - Object Recognition in Images www.kaggle.com/vakninmaor/cifar-10-for-beginners-score-90 CIFAR-10 - for beginners (score: ~90%) Explore and run machine learning code with Kaggle Notebooks | Using data from CIFAR-10 - Object Recognition in Images www.kaggle.com
[kaggle] House Prices - Advanced Regression Techniques House Prices - Advanced Regression Techniques Explore and run machine learning code with Kaggle Notebooks | Using data from House Prices - Advanced Regression Techniques www.kaggle.com
[pandas] 출력 최대 row, col 설정 import pandas as pd # 최대 줄 수 설정 pd.set_option('display.max_rows', 500) # 최대 열 수 설정 pd.set_option('display.max_columns', 500) # 표시할 가로의 길이 pd.set_option('display.width', 1000) import pandas as pd # 최대 줄 수 설정 pd.set_option('display.max_rows', 500) # 최대 열 수 설정 pd.set_option('display.max_columns', 500) # 표시할 가로의 길이 pd.set_option('display.width', 1000)
[pandas] df.loc/ df.iloc iloc 11. pandas DataFrame 인덱싱(열 / 행 / boolean 인덱싱) DataFrame을 생성해보자. Series도 있지만, 주로 사용할 데이터는 DataFrame이다. 필요한 패키지들을 import해놓고, 아래와 같이 python 딕셔너리를 만들고, DataFrame을 만드는데, 인자로 columns를 주어 키값= nittaku.tistory.com
[pandas] DataFrame에서 원하는 dtype컬럼만 가져오기 all_data.select_dtypes("object") Pandas DataFrame에서 원하는 dtype컬럼만 가져오기 all_data.select_dtypes("object") zereight.tistory.com
[scikit] LabelEncoder 문자를 숫자(수치화), 숫자를 문자로 매핑 만약 X_test에만 존재하는 신규 클래스를 추가하지 않고 바로 encoder.transform(X_test)를 하면 ValueError!! 모르는 코드를 저장하기 위해 "UNSEEN"클래스를 미리 등록해놓고 처음보는 데이터 출현시 변환할 수 도 있다. ​ ​ 이제 인코더에 등록된 클래스를 조회해봅니다. classes_ 를 조회해보면 0번에 Mobile, 1번에 PC, 2번에 신규 TABLET이 등록되어 있습니다. [ML] LabelEncoder 문자를 숫자(수치화), 숫자를 문자로 매핑 숫치가 아닌 문제를 Deep Learning에서 다루기가 어렵습니다.​숫자로 다루기 위해서 여러 방법이 존재하... blog.naver.com
Kaggle competitions for beginners There are some Best Kaggle competitions for beginners : Classification Problem: https://www.kaggle.com/c/titanic Regression Problem: https://www.kaggle.com/c/house-prices-advanced-regression-techniques Computer Vision: https://www.kaggle.com/c/digit-recognizer Image Processing: https://www.kaggle.com/c/facial-keypoints-detection Natural Language Processing: https://www.kaggle.com/c/word2vec-nlp-..
[Kaggle] Tabular Playground Series Tabular Playground Series - Jan 2021 Practice your ML regression skills on this approachable dataset! www.kaggle.com hansung dev의 브런치 데이터분석가 | 게임회사에서 Data Engineer로 근무하고 있으며 Data Analyst로 업무를 확장하고 있습니다. 캐글과 데이콘, 데이터분석 대회 참여가 즐겁습니다. brunch.co.kr
[ML] Random forest regression Ensemble learning 참조 Ensemble method: 여러개의 머신 러닝 알고리즘으로부터 예측을 결합하는 기술 Types of Ensemble Learning (model combining method) Bosststrap Aggregation (Bagging) Majority Voting / Bagging / Random forest Majority Voting(다수결) 가장 단순한 모델 결합 방법으로 전혀 다른 모형도 결합할 수 있다. 다수결 방법은 Hard Voting과 Soft Voting 두 가지로 나뉘어진다. Hard voting: 단순 투표, 개별 모형의 결과 기준 Soft voting: 가중치 투표, 개별 모형의 조건부 확률의 합 기준 Scikit-Learn의 ensemble..
[pandas] pd.get_dummies() devuna.tistory.com/67 [pandas] pd.get_dummies() : 데이터전처리/가변수 만들기 [pandas] pd.get_dummies() : 가변수 만들기 머신러닝을 할 때 기계가 이해할 수 있도록 모든 데이터를 수치로 변환해주는 전처리 작업이 필수적이다. 예를들어, 숫자가 아닌 object형의 데이터들이 devuna.tistory.com
[ML] 머신러닝(기계학습) 분류
[ML] Logistic regression, Binary Cross-Entropy Loss, binary classifcation binary classification ( 0 or 1 ) -> logistic regression multi level classification 분류(Classification)와 로지스틱 회귀(Logistic Regression)의 Hypothesis Classification분류는 이항분류(Binary Classification)와 다항분류(Multinomial Classification)로 ... blog.naver.com 분류는 이항분류(Binary Classification)와 다항분류(Multinomial Classification)로 구분됩니다. ​ 이항분류는 두가지 분류를 하는 방법입니다. - 메일이 스펨인가 아닌가 - 주식이 오를것인가 내릴것인가 등등.. 보통 0과 1로 구분을 하며 ..
[kaggle] titanic - 결정 트리 학습법 (Decision tree Classification) 머신러닝 - 4. 결정 트리(Decision Tree) 결정 트리(Decision Tree, 의사결정트리, 의사결정나무라고도 함)는 분류(Classification)와 회귀(Regression) 모두 가능한 지도 학습 모델 중 하나입니다. 결정 트리는 스무고개 하듯이 예/아니오 질문을 bkshin.tistory.com Kaggle과 Titanic research로 시작하는 데이터 분석 데이터 분석 플랫폼인 Kaggle에 대한 소개와 데이터 분석 기초에 많이 사용되는 ‘Titanic: Machine Learning from Disaster’ 자료를 분석하는 과정에 대한 이야기 입니다. 분석에 사용한 코드들이 있지만 developers.ascentnet.co.jp
[keras] model.compile keras Model.compile() 사용 버전 : Python 3.6.8, keras 2.2.4사용 프로그램 : Atom 1.34.0 x64​케라스 Model.compile()에 대... blog.naver.com
[ML] Regression 종류 1. Linear Regression 2. Logisitic Regression 3. Polynomial Regression 4. Stepwise Regression 5. Ridge Regression 6. Lasso Regression 7. ElasticNet Regression
[ML] dropout 오버피팅 다시 살펴보기 샘플들 보다 더 많은 특성(feature)들이 주어지면, 선형 모델은 오버핏(overfit) 될 수 있습니다. 반면에 특성(feature) 수 보다 샘플이 더 많은 경우에는 선형 모델은 일반적으로 오버핏(overfit) 되지 않습니다. 아쉽게도, 일반화를 잘하기 위해서는 그에 따른 비용이 들어갑니다. 매 특성(feature)에 대해서, 선형 모델은 양수 또는 음수의 가중치를 할당 해야합니다. 선형 모델은 특성(feature)들 사이의 미묘한 상호작용을 설명하지 못 합니다. 좀 더 공식적인 용어로 이야기하면, 편향-분산 트레이드오프(bias-variance tradeoff)로 논의되는 현상을 볼 것입니다. 선형 모델은 높은 편향(bias) (표현할 수 있는 함수의 개수가 적습니다)를..