본문 바로가기

전체

(6)
[크루잉글리쉬 영어PT][내돈내산후기] 화상영어가 아직도 좋아? AI로 대체해도 되는거 아니야? (아님) *지금 작성하는 상품은 '내돈내산'임을 말씀드립니다! 최근에 다시 영어를 잘해보고 싶다는 의지가 불타면서 여러가지 업체를 알아보기 시작했다. 그냥 혼자 영어 공부하면 되는거 아니야? 싶지만 혼자 공부하면 작심삼일이 뭐야... 그냥 하루 딱 공부하고 그 이후로는 쳐다보지도 않아서 강제성을 부여하기 위해서 무조건! 돈을 써야만 강제적으로 공부를 한다. 선택지는 여러가지가 있었다.1) AI 어플2) 영어 학원3) 화상 영어 먼저 1) AI 어플의 경우, 스X, 말해보X와 같이 여러 앱들이 정말 많지만, 문제는 기간제로 결제를 해도 옆에서 누군가가 시켜서 하지 않기 때문에 강제성이 없어 일주일에 한번 들어가면 다행인 수준이었다. 그래서 PASS~ 2) 영어 학원한때 영어 쓰기를 잘해서 논문을 잘 쓰고 싶다는 생..
05-03: Text Representation 2 - Distributed Representation Part2 (Word2Vec) (작성중) 01. Word-level:NNLM 02. Word-level:Word2Vec 03. Word-level:GloVe 04. Word-level:Fasttext 05.Sentence/Paragraph/Document-level 06.More Things to Embed? * Word2Vec은 2개의 archtecture로 구성되어 있다. (CBOW, Skip-gram) 1) CBOW (Continuous bog-of-words) * 주변의 단어를 가지고 하나의 단어를 예측하는 기법이다. 2) Skip-gram * 하나의 단어를 가지고 주변의 단어를 예측하는 기법이다. => 이렇게 설명만 보면 CBOW가 더 좋은 성능을 내지 않을까 싶은데 사실은 그 반대이다. * CBOW의 경우, targetword인 $w..
05-03: Text Representation 2 - Distributed Representation Part4-2 (Others) 01. Word-level:NNLM 02. Word-level:Word2Vec 03. Word-level:GloVe 04. Word-level:Fasttext 05.Sentence/Paragraph/Document-level 06.More Things to Embed? * 여기서 질문! -> 어떻게 하면 가변길이의 Syscall Trace를 고정 길이의 벡터로 변환할 수 있을까? * 우리가 하고 싶은 것은 길이가 짧은 시퀀스도 10차원 벡터로, 길이가 긴 시퀀스도 10차원 벡터로 동일한 길이의 벡터로(즉, 같은 차원의 벡터로) 맵핑하고 싶은 것이다. => Sequence embedding을 사용하자 * Syscall2Vec : 하나의 System Call Trace를 Document로 취급하고, 개별 s..
05-03: Text Representation 2 - Distributed Representation Part4 (Doc2Vec) 01. Word-level:NNLM 02. Word-level:Word2Vec 03. Word-level:GloVe 04. Word-level:Fasttext 05.Sentence/Paragraph/Document-level 06.More Things to Embed? * If we can embed words, why not senteces, phrases, or documents? * 단어 임베딩의 확장으로 문서 임베딩은 왜 안나오느냐에서 시작한 것이 문서 임베딩이다. * Paragraph Vector도 Word2Vec의 CBOW와 Skip-gram처럼 두가지로 나눌 수 있다. 첫번째가 Distrubuted Memory (PV-DM) model이다. * paragraph마다 각각이 id를 가지고 있고..
05-03: Text Representation 2 - Distributed Representation Part3-2 (Fasttext) 01. Word-level:NNLM 02. Word-level:Word2Vec 03. Word-level:GloVe 04. Word-level:Fasttext 05.Sentence/Paragraph/Document-level 06.More Things to Embed? * Ignores the morphology or words by assigning a distinct vector to each word * Difficult to apply to morphologically rich languages with large vocabularies and many rare words (Turkish or Finnish) * 형태소 변화가 많은 단어에 대해서는 적용하기 어렵다는 것이 한계이다. * learn ..
05-03: Text Representation 2 - Distributed Representation Part3 (Glove) 01. Word-level:NNLM 02. Word-level:Word2Vec 03. Word-level:GloVe 04. Word-level:Fasttext 05.Sentence/Paragraph/Document-level 06.More Things to Embed? * GloVe의 시작은 Word2Vec의 한계를 지적하며 시작한다. * The network spends so much time to train some overwhelmingly used words * ex) to learn a distribution for P(w|the) -> 아래 그림의 경우 다른 단어에 비해서 the가 많이 나오는데 skip-gram을 생각하면 the는 다른 단어에 비해서 gradient 계산이 많이 일어난다. 즉..