[파이썬 Projects]/<파이썬 머신러닝>

[머신러닝] 데이터셋을 구하기 좋은 사이트 모음

기록자_Recordian 2024. 11. 8. 10:43
728x90
반응형

머신러닝을 배울 때는 인공적으로 만들어진 데이터셋이 아닌 실제 데이터셋으로 실험해보는 것이 가장 좋다.
다음은 데이터를 구하기 좋은 곳이다.


유명한 공개 데이터 저장소

 

이러한 리포지토리는 과학 데이터부터 고품질 이미지, 텍스트, 특히 기계 학습용 데이터 세트까지 모든 것을 포괄하는 품질과 폭으로 잘 알려져 있다.


- OpenML(https://openml.org)

OpenML은 기계 학습을 위한 광범위한 데이터 세트를 제공하므로 학생, 연구원 및 데이터 과학자에게 이상적인 저장소다. 또한 사용자는 결과와 작업 흐름을 공유하여 협업 환경을 조성할 수 있다.


- 캐글(https://kaggle.com/datasets)

Kaggle의 데이터세트 라이브러리는 데이터 매니아들이 즐겨찾는 곳이다. 다양한 분야의 데이터 세트를 호스팅하며 많은 데이터 세트가 경쟁과 연결되어 모델 교육 및 테스트를 위한 귀중한 리소스를 제공한다.


- PapersWithCode(https://paperswithcode.com/)

이 저장소는 연구 논문을 코드 및 데이터 세트와 연결하므로 연구를 복제하거나 최첨단 기계 학습 모델을 실험하려는 사람들에게 이상적이다.


- UC 어바인 머신러닝 저장소(https://archive.ics.uci.edu/)

포괄적인 데이터 세트 컬렉션으로 잘 알려진 UCI Repository는 수십 년 동안 데이터 과학 및 기계 학습 실무자들의 필수 요소였다.


- 아마존 AWS 데이터셋(https://docs.aws.amazon.com/forecast/)

AWS는 기후 데이터, 유전체학, 위성 이미지 등을 포함하여 다양한 주제를 다루는 데이터 세트를 대규모로 제공한다. 이는 대규모의 고품질 데이터 세트가 필요한 프로젝트에 훌륭한 리소스이다.

단, Amazon Forecast는 더 이상 신규 고객에게 제공되지 않으며, 앞으로는 Amazon Sage Maker를 사용하면 된다.

https://aws.amazon.com/ko/sagemaker/

 

 


- 텐서플로 데이터셋(https://www.tensorflow.org/datasets?hl=ko)

머신러닝에 최적화된 이 데이터세트는 TensorFlow 또는 PyTorch와 함께 바로 사용할 수 있다. 많은 인기 ML 라이브러리와의 편의성과 높은 호환성을 제공한다.


메타 포털


공개 데이터 저장소가 나열되어 있는 페이지

데이터 소스의 포괄적인 목록이나 다양한 분야의 보다 일반적인 리포지토리를 찾고 있다면 다음 메타 포털이 디렉터리 스타일 목록을 제공한다.


- 데이터 포털(https://dataportals.org/)

국가, 지역, 주제별 저장소를 포괄하는 전 세계 개방형 데이터 포털 디렉터리이며, 위치별 또는 부문별 데이터 세트를 찾을 수 있는 훌륭한 장소이다.


- 오픈 데이터 모니터(https://project.opendatamonitor.eu/)
Open Data Monitor는 유럽 전역의 데이터 소스를 집계하여 공개적으로 사용 가능한 다양한 데이터 세트에 대한 통찰력과 액세스를 제공한다.


인기 있는 공개 데이터 저장소가 나열되어 있는 페이지

 

특정 데이터세트를 찾을 수 있는 위치를 더 폭넓게 살펴보려면 다음 페이지에 다양한 분야와 데이터 유형을 다루는 인기 있는 데이터 저장소가 나열되어 있다.


- 위키백과 머신러닝 데이터셋 목록(https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research)
Wikipedia의 목록은 연구에 사용할 수 있는 데이터 세트에 대한 분류된 개요를 제공하는 기계 학습 데이터 세트에 대한 편리한 이동 수단이다.


- Quora (https://www.quora.com/Where-can-I-find-large-datasets-open-to-the-public)
이 Quora 스레드는 데이터 과학자와 열성팬이 즐겨찾는 저장소를 공유하는 사용자 권장 데이터 소스를 편집한 것이다.


- 데이터셋 서브레딧(https://www.reddit.com/r/datasets/?rdt=61775)

Reddit의 데이터세트 하위 레딧은 사용자가 데이터세트를 요청하고 공유할 수 있는 커뮤니티 중심 리소스이며, 종종 고유하거나 틈새 데이터 또는 찾기 어려운 데이터에 대한 링크가 포함되어 있다.

728x90
반응형