본문 바로가기

분류 전체보기31

[딥러닝] RNN 알아보기 ## 참고 사이트- https://ratsgo.github.io/natural%20language%20processing/2017/03/09/rnnlstm/- https://warm-uk.tistory.com/54## 시퀀스(sequence)?- 말 그대로 순서가 있는 data  Text는 '문맥'이라는 순서가 있고, 시계열 데이터에는 '시간'이라는 순서가 있듯이, 영상이나 음성 등도 전부 순서와 함께 흘러가는 시퀀스 데이터이다.- 이러한 시퀀스 데이터를 다루는 모델을 시퀀스 모델(Sequence model)이라고 한다.  순서가 있는 Sequence data에서 특징들을 추출하여 여러가지 문제를 해결하고 예측하며, 대표적으로 RNN, GRU, LSTM등이 있다.​- 그럼 일반적인 데이터와는 뭐가 다를까.. 2024. 5. 6.
[슬기로운 인턴생활] 네 번째 TASK - MongoDB에서 유사 데이터 join 네 번째 TASK - MongoDB에서 유사 데이터 join 01. TASK 요약 지팬스 스마트로에서 진행하고 있는 주요 사업 중 하나는 해양수산 빅데이터를 판매하는 것이다. 현재 선박 관련 데이터는 실시간으로 MongoDB에 들어오고 있는데, 소비자가 MongoDB에 저장되어있는 데이터를 구매했을 때 (추가 구매를 하도록) 유사한 다른 데이터와 join해서 제공할 수 있도록 하는 것이 이번 업무이다. 여기서 가장 큰 문제! MongoDB는 Mysql이 아니라 NoSQL이고, 이는 관계형데이터베이스가 아니기에 DB 내부에서는 join이 불가능하다는 점이다. 정리하자면, 관계형 데이터베이스(RDB)에 해당하지 않는 몽고디비에 저장된 데이터를 어떻게 join해서 csv파일로 저장하는 것이 가장 효율적인 방식.. 2024. 3. 25.
[딥러닝] 광학 문자 인식(OCR) / API / OCR Pre-trained 모델 적용 01. OCR이란? OCR(광학 문자 인식)은 Optical Character Recognition의 약자로, 스캔한 종이 문서나 PDF 파일, 텍스트 이미지 등 다양한 종류의 문서를 편집/검색 가능한 데이터로 변환하는 데에 사용되는 기술이다. 딥러닝을 적용한 OCR은 글자의 영역을 탐지하는 모델(Text Detection Model)과 해당 영역에서 글자를 인식하는 모델(Text Recognition Model) 두 가지 단계로 구성되어 이다. OCR의 과정을 두 단계로 나누는 이유는 데이터를 다양하게 활용하여 원활한 학습이 가능하고, 자원의 효율성과 언어별 정확도 등을 향상시킬 수 있기 때문이다. 그럼 이제 본격적으로 OCR 사용방법에 대해 공부해보자. 02. API의 개념과 활용 OCR을 제대로 활.. 2024. 3. 15.
[DataBase] MongoDB 파헤치기 MongoDB란? MongoDB는 NoSQL 데이터베이스의 한 종류로서, 비관계형 데이터를 저장하고 관리하는 데에 사용된다. 여기서 NoSQL는 YesSQL의 반대 의미가 아닌! Not Only SQL의 줄임말로, SQL만을 사용하지 않는 데이터베이스 관리 시스템(DBMS)을 지칭한다. 즉, 관계형 데이터베이스를 아예 사용하지 않는다는 의미가 아닌 여러 유형의 데이터베이스를 사용한다는 것이다. 01. 도큐먼트(Document) MongoDB는 도큐먼트 지향 데이터베이스이다. 도큐먼트(Document)란, MongoDB의 기본 단위로, 관계형 데이터베이스에서의 '행'의 개념과 유사하다. 이는 JSON 형태의 정렬된 key와 value의 집합으로 이루어져 있는데, key값은 대소문자를 구분하는 문자열이며 중.. 2024. 3. 7.