본문 바로가기

AnomalyGPT: Detecting Industrial Anomalies UsingLarge Vision-Language Models 더 읽어볼 거리 : decoder : patchcore, winclip, april-gan 요약 : 정상데이터를 이용하여, cut-paste를 이용하여 비정상 이미지를 만들고 포아송 필터를 이용하여 smoothing. 해당 데이터를 비정상 이미지로 사용한. step1. 이미지의 anomaly mask map을 만든다. step2. 이미지의 마스크맵을 prompt learner에 입력으로 넣는다. 해당 입력은 llm이 이해할 수 있게 변환된다. step3. 사용자의 text query와 combine하여 llm에 입력한다.- step3에 사용자의 쿼리와 combine 한다 적혀있지만, 내 생각에는 concat이 더 맞는 표현 같다.- step2에 anomaly mask map이라 적었지만 논문에서는 "pi..
mamba follow-up https://github.com/AvivBick/awesome-ssm-ml?tab=readme-ov-file#tutorials grok이 추천하는 논문Mamba를 심도 있게 이해하기 위해 논문을 읽는 순서를 제안하려면, SSM(State-Space Model)의 기본 개념부터 시작해 Mamba의 구체적인 기여와 응용으로 점진적으로 나아가는 접근이 가장 효과적입니다. 제공된 논문 및 리소스 목록을 바탕으로, Mamba를 이해하는 데 필요한 이론적 기반과 최신 연구를 체계적으로 학습할 수 있는 순서를 아래에 정리했습니다. 각 단계는 Mamba의 맥락에서 중요성을 고려했으며, 직관적으로 이해할 수 있도록 설명을 추가했습니다.---### Mamba 이해를 위한 논문 읽기 순서#### 1. SSM의 기초 이론 ..
GPT가 코딩 실력에 미치는 영향 외국어를 잘하고 싶다고 가정해보자. 아마 그 사람이 원하는 것은 외국어를 자유롭게 읽고 쓸 수 있는 능력일 것이다. 그런데 외국어를 잘하고 싶어 하는 사람이 읽기만 할 수 있고 쓰지 못한다면, 과연 그것을 보고 외국어를 잘한다고 할 수 있을까? 그렇지 않다.그렇다면 코딩을 잘하고 싶은 사람은 어떤 능력을 원할까? 필자는 코드를 잘 읽고 잘 쓰는 능력이라고 생각한다.내가 코딩을 처음 시작했을 때는 GPT가 없었다. 그때를 떠올리면 코딩이 정말 힘들었다. 막히는 부분이 생기면 2~3일을 꼬박 공부하며 보내곤 했다. 하지만 그만큼 실력이 매일 눈에 띄게 늘었다.지금은 GPT를 자주 사용한다. 아니, 정확히 말하면 사용했었다. 이제는 아니다. GPT에 의존하다 보면 심각한 문제가 생긴다. 코드 작성 능력은 물론..
OWL-ViT: Simple Open-Vocabulary Object Detection with Vision Transform https://arxiv.org/abs/2205.06230 Simple Open-Vocabulary Object Detection with Vision TransformersCombining simple architectures with large-scale pre-training has led to massive improvements in image classification. For object detection, pre-training and scaling approaches are less well established, especially in the long-tailed and open-vocabulary setarxiv.orghttps://github.com/simmonspark/OWL_H..
Learning Transferable Visual Models From Natural Language Supervision 내 첫 멀티모달 raw 구현이다.멀티모달의 기초가 되는 clip을 직접 구현하면서 논문의 그림의 중요성을 알았다. gpt에 의존하지 않고 그림을 분석하고 sudo code를 분석할 때 진짜 실력이 늘어감을 느낀다.text-img-embedding vector를 contrastive learning을 통해 같은 공간상에 매치시킨다.결론은 이거다. 이미지의 embedding vector는 해당 text를 설명하는 embedding vector랑 같은 위치에 있게 학습시킨다.그러면 img query작업을 진행할 수 있다.text를 query로 쓰고 전체 데이터를 돌면서 crossentrophy loss를 보면서 일정 threshold 이하로 떨어진 이미지만 묶어서 이미지 검색을 할 수 있다.학습코드가 드디어 ..
docker, llms fig. docker pull pytorch/pytorch:latest docker run -it --gpus all pytorch/pytorch:latest docker commit my_pytorch_env my_custom_pytorch:latest sudo systemctl restart docker Mistral 7B (Dense Variant Available)크기: 2.7B 이하 (Dense 및 Sparse 버전 있음).특징: 최신 구조를 채택하여 효율성을 극대화한 모델.코드/웨이트: Mistral설명: 모델 코드와 파인튜닝 샘플이 Hugging Face를 통해 제공. 7B 버전을 기반으로, 서브샘플된 버전도 연구 중.2. LLaMA 2 (Meta AI)크기: 7B, 2.7B 서브모델 가능.특징: 연..
딥러닝 학습 시 IO바운드 처리 (병렬처리) #========================================================='''화딱지가 나서 직접 구현한 병렬처리 프로세스왜 30코어 cpu를 쓰면서 하나의 쓰레드만 사용하는가?생각을 해봤다 이미지를 gpu tensor에서 처리하면 고속으로 할 수 있다. 하지만 IO bound가 발생한다.그냥 멀티쓰레딩으로 메모리에 올려두는게 맘 편하다.하지만 또 문제가 생긴다. 메모리에 1tb를 다 올릴 것인가?그런데 데이터 처리에서 이미지는 최소 3만장이다.필자각 사용하는 데이터는 1TB가 기본으로 넘는다.하나의 thread 만 사용하면 8시간이 넘게 걸린다.이를 필자의 코어가 32코어니 단순 계산만 해도 몇 십분의 작업으로 충분하다 로 귀결된다.선택지는 2 개가 있다. pillow &..
chap 18 Introduction to Network Layer chap 18 Introduction to Network Layer라우터는 뭔 일을 할까? 라고 생각하면 쉬움전반적인 흐름은 다음과 같음트랜스포트 레이어에서 데이터그램 만들고 네트워크 레이어에서 데이터그램에 헤더를 더해서 패킷 만들고 최선의 경로를 찾음데이터링크 레이어에서 frame 만들고 알로하 뭐 어쩌구 해서 피지컬 레이어에서 전송목차 :network - layer servicespacket switchingnetwork layer performanceipv4 addressesforwarding of ip packets[network layer services] packetizing : 헤더를 붙임routing : destination 루트 중 최선의 루트를 찾음forwarding : routing ..