본문 바로가기

강의/Text-Analytics

05-03: Text Representation 2 - Distributed Representation Part4-2 (Others)

<목차>

01. Word-level:NNLM

02. Word-level:Word2Vec

03. Word-level:GloVe

04. Word-level:Fasttext

05.Sentence/Paragraph/Document-level

06.More Things to Embed?

 


<Day Embedding in New Corpus>

 

<System Call Trace Embedding for System Anomaly Detection>

* 여기서 질문! -> 어떻게 하면 가변길이의 Syscall Trace를 고정 길이의 벡터로 변환할 수 있을까? 

* 우리가 하고 싶은 것은 길이가 짧은 시퀀스도 10차원 벡터로, 길이가 긴 시퀀스도 10차원 벡터로 동일한 길이의 벡터로(즉, 같은 차원의 벡터로) 맵핑하고 싶은 것이다. => Sequence embedding을 사용하자

 

<Sequence Embedding based on Doc2Vec>

* Syscall2Vec : 하나의 System Call Trace를 Document로 취급하고, 개별 syscall을 word로 취급하여 임베딩 수행

* 아래의 숫자를 전체의 document라고 보고 코드 하나하나를 word로 취급한다.

 

<RNN-AE 구조, RNN-DAE 구조>

 

<Live2Vec in afreeaTV>