본문 바로가기

분류 전체보기

(594)
[C++] string 관련 함수 ▶ C언어, C++ 문자열 관련 함수들 포스팅 C언어 문자열 탐색 함수 strstr [바로가기] C언어 문자 입출력 함수 getchar, putchar [바로가기] C언어 문자열 입출력 함수 puts, gets [바로가기] C언어 문자열 복사 strcpy, strncpy [바로가기] C언어 문자열 이어붙이기 strcat [바로가기] C언어 문자열 길이 구하기 strlen [바로가기] 1. C++ string 클래스 헤더파일과 설명 그리고 생성하는 방법. 2. C++ string 클래스 멤버함수 거~의 대부분 정리 (꼼꼼하게 작성했습니다.) -> at(), operator[], front(), back() -> size(), length(), capacity(), resize(), shrink_to_fit..
[BOJ] 2422 별 찍기 - 5 이걸 이렇게 오래 붙잡고 있을 줄이야..... c언어에서 정말 구멍이 많음을 느낀다. for문으로 하는 단순한 방법 말고 이전에 교재에서 공부했던 재귀 방식으로 코드를 짜려고 하는데 계속해서 오류가 나서 도대체 뭔가 했다. 우선 string형이 c언어에는 없어서 직관적이지가 않았다. 자바로만 워낙에 쉽게쉽게 해버렸으니 str관련 함수를 많이 알아냈다. 그리고 무엇보다 중요한 건 복사를 해줘도 기존에 값은 그대로 저장되고 그 앞에 짧은 값만 복사가 돼서 값의 길이가 계속 그대로였다. str형은 마지막에 무조건 \0을 붙여줘야 문장이 끝나는 걸 알아야 한다. str관련 함수는 이번 기회에 잘 알아갔으면 좋겠다. 그리고 c++에서는 굳이 이렇게 하지 않아도 String형이 존재한다는 것을 코드를 다 짠다음에 ..
[C] strnset 부분 문자열을 특정 문자로 채우기 mintpark.tistory.com/99
kaggle 소개 Hello Kaggle! 캐글이 처음인 분들을 위한 캐글 가이드 Hello Kaggle은 제가 직접 작성한 문서이며 아래는 문서의 깃허브 레포지터리 링크입니다. 만약 Hello Kaggle이 도움이 되셨다면 🌟 꾸욱 눌러주시면 감사하겠습니다! velog.io 캐글(Kaggle) 챌린지 성공 비결을 공개합니다 안녕하세요 이스트소프트입니다. 오늘은 여러분들께 캐글(Kaggle) 소식을 전달해드리려고 합니다. 이스트소프트 기업부설연구소 A.I. PLUS Lab의 한 개발자가 캐글(Kaggle)챌린지에 입상했다는 소식인 blog.estsoft.co.kr
[OD] Object Detection이란 대표적인 객체 탐지 알고리즘에 대해 살펴보겠습니다. 단일 단계 방식의 객체 탐지 알고리즘, YOLO YOLO(You Only Look Once)는 대표적인 단일 단계 방식의 객체 탐지 알고리즘입니다. YOLO 알고리즘은 원본 이미지를 동일한 크기의 그리드로 나눕니다. 각 그리드에 대해 그리드 중앙을 중심으로 미리 정의된 형태(predefined shape)으로 지정된 경계박스의 개수를 예측하고 이를 기반으로 신뢰도를 계산합니다. 이미지에 객체가 포함되어 있는지, 또는 배경만 단독으로 있는지에 대한 여부가 포함되겠죠. 높은 객체 신뢰도를 가진 위치를 선택해 객체 카테고리를 파악합니다. 미리 정의된 형태를 가진 경계박스 수를 ‘앵커 박스(Anchor Boxes)’라고 하는데요. 앵커 박스는 K-평균 알고리즘..
[kaggle] Cassava Leaf Disease Classification Cassava Leaf Disease Classification Identify the type of disease present on a Cassava Leaf image www.kaggle.com 여러 기법들 비교 설명해놓음 Cassava Leaf Disease Experiments Explore and run machine learning code with Kaggle Notebooks | Using data from Cassava Leaf Disease Classification www.kaggle.com 익숙한 cnn 모델 Cassava LEAF Disease keras cnn model Explore and run machine learning code with Kaggle Notebooks ..
dropout 적용코드 살펴보기 드롭아웃이란 트레이닝 중 오버피팅이 발생하는 것을 막기 위해 일부 뉴런이 동작하지 않도록 하는 것이다. CIFAR-10 이미지 분류를 위한 CNN을 구성해보자! (Keras) Overview이 문서에서는 CIFAR-10 dataset에 대한 이미지 분류를 Keras를 사용한 CNN(Convolution Neural Network)로 구현해보도록 하겠습니다. gruuuuu.github.io 은닉층에 드롭아웃(dropout)을 확률 pp 로 적용하는 경우, 은닉 유닛들을 pp 확률로 제거하는 것이 됩니다. 이유는, 그 확률을 이용해서 출력을 0으로 설정하기 때문입니다. 이를 적용한 네트워크는 아래 그림과 같습니다. 여기서 h2h2 와 h5h5 가 제거되었습니다. 결과적으로 yy 를 계산할 때, h2h2 와 ..
기계학습과 데이터마이닝 ‘데이터 마이닝’ – 다양한 관점에서 데이터를 분석해 의미 도출 ‘데이터 마이닝’은 보유한 데이터를 다양한 관점에서 분석하고 그 결과를 유용한 정보로 조합하는 일을 가리킨다. 방대한 데이터 속에 숨어 있던 패턴과 상관성을 통계적 수법들로 식별해 내 가치를 부여한다. 데이터 마이닝은 숫자가 아닌 데이터도 처리한다는 점에서 통계처리와 구분된다. 예를 들면 프로축구 선수들의 패스, 어시스트, 골 등 숫자로 표현되는 데이터 외에도 게임 중 행하는 동작이나 역할들까지 선수의 가치로 환산해서 연봉 책정의 기준으로 삼는다. 데이터 마이닝이 관심을 끄는 이유는 방대한 양의 데이터 속에 감춰진 정보나 지식을 잘 도출해 내 널리 활용할 수 있기 때문이다. 이렇게 얻은 지식은 위험 관리, 비즈니스 관리, 생산 관리, 시장 ..
인공지능, 기계학습, 데이터 마이닝 1. ‘데이터 마이닝’ – 다양한 관점에서 데이터를 분석해 의미 도출 ‘데이터 마이닝’은 보유한 데이터를 다양한 관점에서 분석하고 그 결과를 유용한 정보로 조합하는 일을 가리킨다. 방대한 데이터 속에 숨어 있던 패턴과 상관성을 통계적 수법들로 식별해 내 가치를 부여한다. 데이터 마이닝은 숫자가 아닌 데이터도 처리한다는 점에서 통계처리와 구분된다. 예를 들면 프로축구 선수들의 패스, 어시스트, 골 등 숫자로 표현되는 데이터 외에도 게임 중 행하는 동작이나 역할들까지 선수의 가치로 환산해서 연봉 책정의 기준으로 삼는다. 데이터 마이닝이 관심을 끄는 이유는 방대한 양의 데이터 속에 감춰진 정보나 지식을 잘 도출해 내 널리 활용할 수 있기 때문이다. 이렇게 얻은 지식은 위험 관리, 비즈니스 관리, 생산 관리, ..
[kaggle] CIFAR-10 - Object Recognition in Images www.kaggle.com/vakninmaor/cifar-10-for-beginners-score-90 CIFAR-10 - for beginners (score: ~90%) Explore and run machine learning code with Kaggle Notebooks | Using data from CIFAR-10 - Object Recognition in Images www.kaggle.com
[kaggle] House Prices - Advanced Regression Techniques House Prices - Advanced Regression Techniques Explore and run machine learning code with Kaggle Notebooks | Using data from House Prices - Advanced Regression Techniques www.kaggle.com
[pandas] 출력 최대 row, col 설정 import pandas as pd # 최대 줄 수 설정 pd.set_option('display.max_rows', 500) # 최대 열 수 설정 pd.set_option('display.max_columns', 500) # 표시할 가로의 길이 pd.set_option('display.width', 1000) import pandas as pd # 최대 줄 수 설정 pd.set_option('display.max_rows', 500) # 최대 열 수 설정 pd.set_option('display.max_columns', 500) # 표시할 가로의 길이 pd.set_option('display.width', 1000)
[pandas] df.loc/ df.iloc iloc 11. pandas DataFrame 인덱싱(열 / 행 / boolean 인덱싱) DataFrame을 생성해보자. Series도 있지만, 주로 사용할 데이터는 DataFrame이다. 필요한 패키지들을 import해놓고, 아래와 같이 python 딕셔너리를 만들고, DataFrame을 만드는데, 인자로 columns를 주어 키값= nittaku.tistory.com
[pandas] DataFrame에서 원하는 dtype컬럼만 가져오기 all_data.select_dtypes("object") Pandas DataFrame에서 원하는 dtype컬럼만 가져오기 all_data.select_dtypes("object") zereight.tistory.com
[scikit] LabelEncoder 문자를 숫자(수치화), 숫자를 문자로 매핑 만약 X_test에만 존재하는 신규 클래스를 추가하지 않고 바로 encoder.transform(X_test)를 하면 ValueError!! 모르는 코드를 저장하기 위해 "UNSEEN"클래스를 미리 등록해놓고 처음보는 데이터 출현시 변환할 수 도 있다. ​ ​ 이제 인코더에 등록된 클래스를 조회해봅니다. classes_ 를 조회해보면 0번에 Mobile, 1번에 PC, 2번에 신규 TABLET이 등록되어 있습니다. [ML] LabelEncoder 문자를 숫자(수치화), 숫자를 문자로 매핑 숫치가 아닌 문제를 Deep Learning에서 다루기가 어렵습니다.​숫자로 다루기 위해서 여러 방법이 존재하... blog.naver.com
Kaggle competitions for beginners There are some Best Kaggle competitions for beginners : Classification Problem: https://www.kaggle.com/c/titanic Regression Problem: https://www.kaggle.com/c/house-prices-advanced-regression-techniques Computer Vision: https://www.kaggle.com/c/digit-recognizer Image Processing: https://www.kaggle.com/c/facial-keypoints-detection Natural Language Processing: https://www.kaggle.com/c/word2vec-nlp-..
[Kaggle] Tabular Playground Series Tabular Playground Series - Jan 2021 Practice your ML regression skills on this approachable dataset! www.kaggle.com hansung dev의 브런치 데이터분석가 | 게임회사에서 Data Engineer로 근무하고 있으며 Data Analyst로 업무를 확장하고 있습니다. 캐글과 데이콘, 데이터분석 대회 참여가 즐겁습니다. brunch.co.kr
[ML] Random forest regression Ensemble learning 참조 Ensemble method: 여러개의 머신 러닝 알고리즘으로부터 예측을 결합하는 기술 Types of Ensemble Learning (model combining method) Bosststrap Aggregation (Bagging) Majority Voting / Bagging / Random forest Majority Voting(다수결) 가장 단순한 모델 결합 방법으로 전혀 다른 모형도 결합할 수 있다. 다수결 방법은 Hard Voting과 Soft Voting 두 가지로 나뉘어진다. Hard voting: 단순 투표, 개별 모형의 결과 기준 Soft voting: 가중치 투표, 개별 모형의 조건부 확률의 합 기준 Scikit-Learn의 ensemble..
[pandas] pd.get_dummies() devuna.tistory.com/67 [pandas] pd.get_dummies() : 데이터전처리/가변수 만들기 [pandas] pd.get_dummies() : 가변수 만들기 머신러닝을 할 때 기계가 이해할 수 있도록 모든 데이터를 수치로 변환해주는 전처리 작업이 필수적이다. 예를들어, 숫자가 아닌 object형의 데이터들이 devuna.tistory.com
[ML] 머신러닝(기계학습) 분류
[ML] Logistic regression, Binary Cross-Entropy Loss, binary classifcation binary classification ( 0 or 1 ) -> logistic regression multi level classification 분류(Classification)와 로지스틱 회귀(Logistic Regression)의 Hypothesis Classification분류는 이항분류(Binary Classification)와 다항분류(Multinomial Classification)로 ... blog.naver.com 분류는 이항분류(Binary Classification)와 다항분류(Multinomial Classification)로 구분됩니다. ​ 이항분류는 두가지 분류를 하는 방법입니다. - 메일이 스펨인가 아닌가 - 주식이 오를것인가 내릴것인가 등등.. 보통 0과 1로 구분을 하며 ..
[kaggle] titanic - 결정 트리 학습법 (Decision tree Classification) 머신러닝 - 4. 결정 트리(Decision Tree) 결정 트리(Decision Tree, 의사결정트리, 의사결정나무라고도 함)는 분류(Classification)와 회귀(Regression) 모두 가능한 지도 학습 모델 중 하나입니다. 결정 트리는 스무고개 하듯이 예/아니오 질문을 bkshin.tistory.com Kaggle과 Titanic research로 시작하는 데이터 분석 데이터 분석 플랫폼인 Kaggle에 대한 소개와 데이터 분석 기초에 많이 사용되는 ‘Titanic: Machine Learning from Disaster’ 자료를 분석하는 과정에 대한 이야기 입니다. 분석에 사용한 코드들이 있지만 developers.ascentnet.co.jp
[keras] model.compile keras Model.compile() 사용 버전 : Python 3.6.8, keras 2.2.4사용 프로그램 : Atom 1.34.0 x64​케라스 Model.compile()에 대... blog.naver.com
3rd party란 3rd party, 써드파티 프로그래밍에서의 서드파티란 프로그래밍을 도와주는 plug_in 이나 library 등을 만드는 회사를 말한다. 개인 개발자나 프로젝트 팀, 혹은 업체등에서 개발하는 라이브러리 즉 제 3자 라이브러리 . 제작사에서 만든것이 아니라 다른 업체에서 만든 해당 툴 지원 라이브러리 제조사와 사용자 이외 외부의 생산자를 가리키는 뜻으로 쓰인다. - 위키 편하고 효율적인 개발을 위해, 플러그인이나 라이브러리 또는 프레임워크등을 사용하게 된다. 예로 프로그래밍 개발과 개발자 사이에 플러그인,라이브러리,프레임워크를 서드파티로 볼 수 있다. ... 이처럼 제 3자로써 중간다리 역할을 하는 것을 서드파티라고 합니다.
[ML] Regression 종류 1. Linear Regression 2. Logisitic Regression 3. Polynomial Regression 4. Stepwise Regression 5. Ridge Regression 6. Lasso Regression 7. ElasticNet Regression
[ML] dropout 오버피팅 다시 살펴보기 샘플들 보다 더 많은 특성(feature)들이 주어지면, 선형 모델은 오버핏(overfit) 될 수 있습니다. 반면에 특성(feature) 수 보다 샘플이 더 많은 경우에는 선형 모델은 일반적으로 오버핏(overfit) 되지 않습니다. 아쉽게도, 일반화를 잘하기 위해서는 그에 따른 비용이 들어갑니다. 매 특성(feature)에 대해서, 선형 모델은 양수 또는 음수의 가중치를 할당 해야합니다. 선형 모델은 특성(feature)들 사이의 미묘한 상호작용을 설명하지 못 합니다. 좀 더 공식적인 용어로 이야기하면, 편향-분산 트레이드오프(bias-variance tradeoff)로 논의되는 현상을 볼 것입니다. 선형 모델은 높은 편향(bias) (표현할 수 있는 함수의 개수가 적습니다)를..
[kaggle] mnist https://frhyme.github.io/machine-learning/kaggle_mnist/ kaggle) mnist 이미지 인식하기 mnist 이미지 분류기 만들기 frhyme.github.io
[keras]훑어보기 - 컴파일(Compile)과 훈련(Training) compile() : 모델을 기계가 이해할 수 있도록 컴파일 합니다. 오차 함수와 최적화 방법, 메트릭 함수를 선택할 수 있습니다. 위 코드는 임베딩층, 은닉층, 출력층을 추가하여 모델을 설계한 후에, 마지막으로 컴파일 하는 과정을 보여줍니다. optimizer : 훈련 과정을 설정하는 옵티마이저를 설정합니다. 'adam'이나 'sgd'와 같이 문자열로 지정할 수도 있습니다. loss : 훈련 과정에서 사용할 손실 함수(loss function)를 설정합니다. metrics : 훈련을 모니터링하기 위한 지표를 선택합니다. 대표적으로 사용되는 손실 함수와 활성화 함수의 조합은 아래와 같습니다. 더 많은 함수는 케라스 공식문서에서 확인 가능합니다. fit() : 모델을 학습합니다. 모델이 오차로부터 매개 변..
[keras] 훑어보기 - 모델링(Modeling) 1. 전처리(Preprocessing) 2. 워드 임베딩(Word Embedding) 3. 모델링(Modeling) 4. 컴파일(Compile)과 훈련(Training) 5. 평가(Evaluation)와 예측(Prediction) 6. 모델의 저장(Save)과 로드(Load) 3. 모델링(Modeling) Dense()는 한번 사용되었지만 더 많은 층을 추가할 수 있습니다. Dense()의 대표적인 인자를 보겠습니다. 첫번째 인자 = 출력 뉴런의 수. input_dim = 입력 뉴런의 수. (입력의 차원) activation = 활성화 함수. - linear : 디폴트 값으로 별도 활성화 함수 없이 입력 뉴런과 가중치의 계산 결과 그대로 출력. Ex) 선형 회귀 - sigmoid : 시그모이드 함수. 이..
numpy.newaxis 와 reshape numpy라는 유명 라이브러리의 newaxis 요 표현은 무엇이냐? 간단히 이야기 해서 존재하는 numpy array의 차원을 늘려준다 보시면 되겠습니다. 첫번째, 1D array를 row vector나 column vector로 사용하고 싶을 경우지요. 아시다시피 numpy에서 array를 만들면 shape이 .. x자리만 4고 y자리는 공란입니다. vector로 보고 indexing을 한다던지 연산을 한다던지 해도 껄끄러운 상태겠네요. 여기에 아래와 같이 장난을 처봅시다. 그러면 아주 간단하게 해결 됩니다. 두번째, numpy broadcasting이라고 shape이 다른 array간 연산을 할때도 유용합니다. 일단 한번 봐야되니까 아래와 같이 모양이 다른 array끼리 덧셈 한번 해봅시다. 세번째,..