본문 바로가기
728x90
반응형
SMALL

Data-driven Methodology79

[Data Science] 기술 통계와 통계적 추론 기술 통계와 통계적 추론 기술 통계 모집단으로 부터 추출한 샘플로 통계적 결과를 계산 하는 것 '20대 남성의 평균키는 얼마인가?' 라는 질문에 대답하기 위해 국민 전체에서 20대 남성의 모든 키를 조사하는 것은 비용 및 시간상의 문제로 어렵기 때문에 300명 으로 샘플링하여 키를 조사 통계적 추론 기술 통계의 결과를 이용해서 모집단의 특성을 추출해 내는 것 앞에서 추출한 300명으로 평균키를 이용해 '20대 남성의 평균키'를 추론해 내는 것 기술 통계 (descriptive statistic) 주어진 자료로부터 주관을 배제하고 여러 특성을 수량화하여 객관적인 데이터로 나타내는 통계분석 방법론 샘플에 대한 특성인 평균, 표준편차, 중위수, 최빈값, 그래프, 왜도, 첨도 등을 구하는 것 통계량에 의한 자료.. 2022. 3. 7.
[Data Science] 통계 분석 통계 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현 모집단에서 표본을 추출하여 통계량을 조사 통계량에서 모수의 특성을 추론 통계량을 이용해 모집단의 특징을 추정 추정한 가설을 통계학의 기법 (모수검정, 비모수검정)을 이용해 정확성을 검정 통계 용어 모집단 조사하고자 하는 대상 집단 전체 한국인 전체 표본 조사하기 위해 추출한 모집단 20대 남성 300명 통계량 표본을 관측한 결과 20대 남성 300명 키의 평균, 표준편차, 분산 모수 통계량을 통해 추정한 모집단에 대한 정보 우리나라 20대 남성 키의 평균 표본 추출한 300명을 통해 추정한 결과 자료 획득 방법 총 조사 / 전수 조사 모든 대상을 조사해야 해서 특별한 경우를 제외하고는 잘 사용되지 않음 인구주택 총 .. 2022. 3. 7.
[Data Science] 데이터 분석 기법 분석을 위한 데이터 처리 과정 데이터 분석을 위해서 데이터웨어하우스나 데이터마트를 통해 분석데이터를 구성 신규데이터나 DW에 없는 데이터는 기존 운영시스템 (legacy)에서 가져오거나 운영 데이터 저장소 (ODS)에서 정제된 데이터를 가져와서 DW의 데이터와 결합하여 활용 데이터 분석 기법 종류 시각화 공간분석 탐색적 자료 분석 통계분석 데이터 마이닝 시각화 가장 낮은 수준의 분석이지만 잘 이용하면 효율적 빅데이터 분석에 시각화는 필수적 탐색적 분석을 할 때 시각화는 필수 사회연결망 분석 (SNA)에 자주 이용 ex) 차트, 도표 등 공간분석 공간적 차원과 관련된 속성들을 시각화하는 분석 지도 위에 관련된 속성들을 생성하고 크기모양 선 굵기 등을 구분하여 인사이트를 얻음 ex) 지도 위의 자동차 운행 .. 2022. 3. 7.
쿼리결과 중복 제거 / 논리연산자 / 결과정렬 DISTINCT 연산자 SELECT문의 결과값에서 특정 컬럼만 출력할 경우 중복된 값들이 나오는 경우에 이를 제거해서 표시하는 경우 select distinct 컬럼명1, 컬럼명2, ... from 테이블명 where 조건절 논리연산자 (AND, OR, NOT) select문의 조건절에 논리 조건을 적용하는 연산자 select * from 테이블명 where (not) 조건1 and / or (not) 조건2 ... 논리연산자 (IN, BETWEEN) 영어 (IN, BETWEEN)으로 표현가능 결과값 정렬 (ORDER BY) SELECT문의 결과값을 특정한 컬럼을 기준으로 오름차순 / 내림차순으로 정렬해서 표시 select * from 테이블명 where 조건절 order by 컬럼명 asc / desc.. 2022. 3. 6.
SQL / CRUD (Create, Retrieve, Update, Delete) SQL (Structured Query Language) 데이터베이스에 있는 필요한 정보를 사용할 수 있도록 도와주는 언어 사용 방법이나 문법이 다른 언어 (Java, C 등)보다 단순 모든 DBMS에서 사용가능 인터프리터 대소문자 구별하지 않음 (데이터 내용은 구별함) 사용자나 프로그램이 필요한 데이터를 가져오기 위해 SQL을 작성한다. DBMS가 DB에서 사용자가 작성한 SQL을 통해서 데이터를 가져온다. 사용자는 SQL을 통해서 가져온 데이터를 볼 수 있다. SQL의 종류 1. DML (Data Manipulation Language) 테이블의 데이터를 조작하는 기능 테이블의 레코드를 CRUD (Create, Retrieve, Update, Delete) SQL문 내용 INSERT 데이터베이스 객체.. 2022. 3. 5.
MySQL MySQL 오라클에서 만든 무료 (부분 유료) 오픈소스 RDBMS (관계형 데이터 베이스 시스템). 다중 스레드, 다중 사용자 형식의 구조질의어 형식의 데이터베이스 관리 시스템으로서 오라클이 관리 및 지원하고 있으며, Qt처럼 이중 라이선스가 적용된다. 하나의 옵션은 GPL이며, GPL 이외의 라이선스로 적용시키려는 경우 전통적인 지적재산권 라이선스의 적용을 받는다. (https://dev.mysql.com/downloads/) ◦ MySQL 콘솔 접속 : CLI (Command Line Interface)를 사용한 접속 - mysql-uroot-p - 비밀번호 접속 후 2번으로 진행 ◦ MySQL 워크벤치를 통한 접속 : GUI (Graphic User Interface)를 통한 접속 - MySQL W.. 2022. 3. 3.
DBMS (Data Base Management System) DBMS (Data Base Management System) DBMS에는 데이터 저장 형태에 따라 RDBMS, NoSQL으로 나눌 수 있다. 차이점은 RDBMS의 경우 데이터들의 관계를 기반으로 한 정형 데이터이고, 반면 NoSQL은 key-value값으로 이루어진 비정형 데이터이다. 데이터 베이스 관리 시스템 (Data Base Management System) 방대한 양의 데이터를 편리하게 저장하고 효율적으로 관리하고 검색할 수 있는 환경을 제공해 주는 시스템 소프트 웨어 응용프로그램과 데이터베이스의 중재자로서 모든 응용프로그램들이 데이터베이스를 공용할 수 있게끔 관리해 주는 소프트웨어 시스템 데이터를 저장하고 유지보수 (수정, 삭제, 추가)하고 이를 검색하는 시스템 (CRUD ; Create, R.. 2022. 3. 1.
데이터 베이스 (Data Base) 데이터 베이스 (Data Base) 유용한 데이터의 집합이다. 검색에 용이하게 데이터를 저장하도록 한 것이다. 검색뿐만 아니라 수정, 삭제까지도 용이하게 한 것이다. 파일 시스템의 문제점 데이터의 종속성 종속성이란 데이터의 구성이나 접근방법이 변경되면 관련된 응용프로그램들이 변경되는것을 의미한다. 데이터의 중복성 한 시스템 내의 데이터가 중복 저장, 관리되어 관련된 데이터의 불일치가 발생한다. 데이터 중복으로 인해 발생하는 문제점 일관성 : 여러 개의 데이터가 모두 하나의 사실을 나타낸다면 논리적으로 그 내용이 모두 동일하나, 데이터 중복이 있으면, 그 동일성을 유지하기가 어렵다. 보안성 : 동일 수준의 보안이 유지되어야 하나, 데이터가 중복되어 있다면 모두 똑같은 수준의 보안을 유지한다는 것이 현실적으.. 2022. 3. 1.
데이터 사이언스 (Data Science) 데이터 사이언스 (Data Science) data science는 통계, 과학적 방법, AI 및 데이터 분석을 포함한 여러 분야를 결합하여 데이터에서 가치를 추출한다. data science를 실천하는 사람들을 data scientist라고 하며, 그들은 다양한 기술을 결합해 웹, 스마트폰, 고객, 센서 및 기타 소스에서 수집된 데이터를 분석하고 실행 가능한 통찰력 (insight)을 도출한다. data science에는 고급 데이터 분석을 수행하기 위한 데이터 정리, 집계 및 조작을 포함하여 분석을 위한 데이터 준비가 포함된다. 그런 다음 분석 애플리케이션과 data scientist가 결과를 검토하여 패턴을 발견하면 정보에 입각한 insight를 얻을 수 있다. Data Science, AI 및 M.. 2021. 12. 21.
728x90
반응형
LIST