분류 전체보기
-
성구론 입문-하랄트 부르거, 천미애 옮김(2000)언어학/관용표현 2022. 4. 24. 17:35
1.성구론 입문과 기본개념 1.1.기본개념의 고찰 1) Phraseologie의 범위와 정의 - 관용구, 속담, 연어, 기능 동사구등을 모두 포함 - 성구: 둘 또는 그 이상의 단어들이 늘 하나의 단어처럼 함께 쓰이면서 하나의 통일적인 뜻을 나타내는 단어 결합 (조선말 성구사전, 최경남, 송천식 편찬(1991)) - Redensart, Wendung, 영어 Idion: 관용어 z.B. Ie ins Feuer giessen 2) 성구소(phraseologismus) - 이를 이루는 어휘는 구성요소(Komponete)라 부름 3) 고정된 단어결합(feste Wortverbindung) = 성구적 단어결합(phraseologische Wortverbindung) 자유적 단어결합(freie Wortverbind..
-
로지스틱 회귀(Logistic Regression)general ML, DL, NLP/머신러닝 2022. 4. 22. 03:56
*본 게시물은 22-1학기 연세대학교 일반대학원 딥러닝을이용한비정형데이터분석(이상엽 교수님) 수업 내용을 정리한 것입니다. 로지스틱 회귀는 회귀 모형 중 분류 문제를 위한 모형입니다. 선형 회귀모형과 전반적인 작동 순서가 비슷하며, 마찬가지로 정답 & 힌트 정보가 모두 포함된 데이터가 필요합니다. 다만 로지스틱 회귀는 비선형 함수라는 점에서 선형 회귀와 차이가 존재합니다. 종속변수가 취하는 값이 0, 1밖에 없으면 binomial logistic regression, 3개 이상이면 multinomial logistic regression이라 구분합니다. 1. 로지스틱 회귀 모형 로지스틱 회귀 모형은 종속변수로 y가 1일 확률 P(y=1|X), y가 0일 확률 P(y=0|X)을 사용합니다. 보편적으로 y가..
-
선형 회귀(Linear Regression)general ML, DL, NLP/머신러닝 2022. 4. 22. 03:55
*본 게시물은 22-1학기 연세대학교 일반대학원 딥러닝을이용한비정형데이터분석(이상엽 교수님) 수업 내용을 정리한 것입니다. Regression 알고리즘을 쓸 때 회귀 문제에는 선형 회귀 모형을, 분류 문제에는 로지스틱 회귀 모형을 씁니다. 이처럼 알고리즘을 선택할 때에는 문제의 유형을 잘 따져보아야 합니다. 1. 선형 회귀 선형 회귀 역시 지도학습의 한 종류이며, 주로 종속변수 예측을 위한 회귀 문제에 쓰입니다. 선형 회귀 모형의 목적은 독립변수와 종속변수 간 인과관계 파악이기에, 데이터 안에는 정답(종속변수)과 힌트(독립변수) 정보가 모두 있어야 합니다. 훈련을 통해 독립변수와 종속변수를 가장 잘 설명하는 관계, 그에 상응하는 최적 파라미터를 찾게 되고, 새로운 데이터에 모형을 적용해 종속변수를 예측하..
-
지도학습(Supervised learning) 기초- 성능평가, overfitting, regularizationgeneral ML, DL, NLP/머신러닝 2022. 4. 22. 02:49
*본 게시물은 22-1학기 연세대학교 일반대학원 딥러닝을이용한비정형데이터분석(이상엽 교수님) 수업 내용을 정리한 것입니다. 1. 모델 성능 평가 1) 지도학습 적용 순서 지도학습은 학습 데이터 & 문제 데이터 준비 -> 알고리즘(수학적 모형/모델/함수) 선택 -> 학습(최적 파라미터 값 도출) -> 문제 데이터에 학습된 모형 적용 순으로 진행합니다. 이 때 문제 데이터는 학습에 절대 사용이 되면 안되며, 힌트 정보와 정답정보가 모두 있어야 합니다. 정답 정보가 있어야 모델 성능 평가가 가능하기 때문입니다. 문제 데이터에 대해서 모형은 정답을 예측하게 됩니다. 정답이 잘 맞을수록, 즉 실제 종속변수를 잘 설명(예측)할수록 모형의 성능이 좋다고 말할 수 있습니다. 2) 문제별 모델 성능 평가 지표 (1) 회..
-
지도학습(Supervised Learning) 기초(회귀, 분류, 비용함수)general ML, DL, NLP/머신러닝 2022. 4. 22. 01:38
*본 게시물은 22-1학기 연세대학교 일반대학원 딥러닝을이용한비정형데이터분석(이상엽 교수님) 수업 내용을 정리한 것입니다. 지도학습을 위해서는 정답과 힌트(feature) 정보가 있는 데이터가 필요합니다. 이 데이터를 바탕으로 훈련을 통해 정답과 힌트 정보의 관계를 학습하게 됩니다. 가령 개와 고양이를 분류하는 문제일 경우, 훈련을 통해 학습 데이터에 존재하는 개와 고양이의 특징을 알게 됩니다. 귀가 쫑긋하면 고양이 수염이 길면 고양이 귀가 처지면 강아지 수염이 짧으면 강아지... 지도학습의 힌트 정보는 독립변수의 값, 정답 정보는 종속 변수의 값으로 바꿔서 이야기할 수 있습니다. 즉, 훈련을 통해 독립변수와 종속변수 간의 관계를 배우는 것이 바로 지도학습입니다. 관계를 배울 때에는 알고리즘(=수학적 모..
-
10. 이미지 분류 사전학습모형general ML, DL, NLP/딥러닝 2022. 4. 21. 20:43
*본 게시물은 22-1학기 연세대학교 일반대학원 딥러닝을이용한비정형데이터분석(이상엽 교수님) 수업 내용을 정리한 것입니다. 이미지 분류는 크게 2가지로 나뉠 수 있습니다. CNN을 사용한 이미지 분류 사전학습모형을 사용한 이미지 분류 직접 convolutional network를 구축하는 방법(from scratch) 단점 존재 - 정교한 모형을 구축하는 것이 어려움 - 성능을 높이기 위해서는 많은 학습 데이터가 요구됨 - 학습에 시간이 오래 걸림 - 매우 많은 computing power가 필요 옆의 단점들을 보완할 수 있는 방법 표에서도 알 수 있다시피 개인이 CNN을 구축하여 성능을 높이는 데에는 한계점이 존재합니다. 이를 보완하기 위해 보편적으로 이미지 분류 task 수행 시에는 사전학습모형을 사..
-
9. CNN 코드 - cats & dogsgeneral ML, DL, NLP/딥러닝 2022. 4. 21. 20:43
*본 게시물은 22-1학기 연세대학교 일반대학원 딥러닝을이용한비정형데이터분석(이상엽 교수님) 수업 내용을 정리한 것입니다. 이번 포스트에서는 개와 고양이를 구분하는 cats and dogs task를 수행한다고 가정합니다. 케라스에서 데이터셋을 다운받는 것이 아닌, 사용자가 가진 이미지를 사용하려면 이미지를 폴더에 따로 따로 담아주어야 합니다. 여기서는 라벨별로 따로 담아주었습니다. 데이터를 위와 같이 정리한 후, 이전에 사용한 CNN 코드로 분류 task를 수행할 수 있습니다. (1) 첫 번째로 필요한 모든 프레임워크, 라이브러리 등을 import하는 의존성 준비 코드입니다. 1 2 3 4 5 6 7 8 9 # 의존성 준비 import tensorflow as tf from tensorflow.kera..
-
8. CNN 코드 - MNIST, Cifar-10general ML, DL, NLP/딥러닝 2022. 4. 21. 03:58
*본 게시물은 22-1학기 연세대학교 일반대학원 딥러닝을이용한비정형데이터분석(이상엽 교수님) 수업 내용을 정리한 것입니다. 실제로 코드를 보면서 CNN이 어떻게 생겼는지를 살펴보려 합니다. 살펴볼 코드는 MNIST와 Cifar-10입니다. 1. MNIST - 흑백 데이터 CNN (1) 중요사항 결정 및 데이터 로드 1 2 3 4 5 6 7 8 9 10 11 # 우선적으로 정해야 할 것들을 정합니다. num_classes = 10 # 종속변수 수 # input image dimensions img_rows, img_cols = 28, 28 # 이후 데이터를 불러옵니다. from tensorflow import keras from tensorflow.keras.datasets import mnist (x_t..