17. index 이제 ORACLE SQL의 데이터베이스 객체 중 마지막인 index를 알아보겠다. index의 개념 (1) index는 목차를 나타낸다. 그래서 보통 튜너들이 많이 사용하며, index를 생성한 후 query에서는 order by를 쓰지 않아도 정렬된 결과로 출력된다. 보통 대용량의 데이터에서 query 속도를 빠르게 하기 위해 index를 이용한다고 알고 있다. 반은 맞고, 반은 틀린 이야기이다. 우선 query 속도를 빠르게 하는 것은 맞다. 그러나 대용량의 데이터에 index가 있다고 해서 query 속도가 빨라지는 것은 아니다. → 만약 index가 있는 테이블에 DML 작업이 진행되며 모든 index가 갱신되어야 함을 의미한다. 따라서, 아래와 같은 상황에서 index를 생성하..
16. Sequence, Synonym 앞에서 살펴본 ORACLE SQL의 데이터베이스 객체 중 남은 Sequence, Synonym를 알아보겠다.(Index는 양이 많아 별도로 정리) Sequence Sequence란 간단히 일련번호 생성기로 말할 수 있으며, 번호를 중복하지 않고 순서대로 생성하는 DB Object이다. 일반적으로 각 행에 고유해야 하는 Primary key값을 생성하는 경우에 Sequence를 생성한다. Sequence를 생성하는 코드는 아래와 같다. create sequence 시퀀스명; start with 시작숫자 increment by 증가숫자 maxvalue 최대숫자 minvalue 최소숫자 cache 캐쉬에 올려놓을 데이터숫자 예제) 사원번호(empono)와 사원이름(ena..
15. View 우리가 ORACLE SQL을 다룰 때 흔히 말하는 table은 데이터베이스 객체 중에 하나로, 아래와 같은 기타 여러 객체가 있다. 오늘은 view에 대해 알아보겠다. View view란, table 또는 다른 view를 기반으로 하는 논리적 table이다. 자체적으로 데이터를 가지고 있는 table은 아니지만, table의 데이터를 보거나 변경할 수 있다. 처음 view를 배울 때 "다른 table을 하나 더 만들면 되는데 왜 view를 만들었을까?"라는 생각이 들었다. view가 필요한 이유는 table의 열을 선택적으로 표시하므로 Data excess를 제한한다. 복잡한 query를 단순하게 조회할 수 있다. 특정 기준에 따라 user group에게 Data excess 권한을 부여..
R을 통한 Machine Learning 구현 - (2)Naive Bayes Code Show All Code Hide All Code R을 통한 Machine Learning 구현 - (2)Naive Bayes Superkong1 Naive Bayes 이론 설명 Data Set Naive Bayes 구현 e1071 패키지 Laplace 추정량 결론 오늘은 Naive Bayes에 대해 알아보자.Naive Bayes은 결과에 대한 전체 확률을 추정하기 위해 동시에 여러 속성 정보를 고려해야만 하는 문제에 가장 적합하다. 특히 TextMining 후 텍스트 분류(예: 스팸메일, 코딩 언어 분류)하는데 주로 사용된다. (한정된 데이터 범위, 큰 이상치나 오류가 없는 정도의 데이터) Naive Bayes 이론 ..
14. ORACLE SQL의 Data Type 오늘은 앞서 ORACLE SQL의 Data Type에 대해 자세히 알아보도록 하겠다. Data Set을 넣을 테이블을 만들 때 Data Set에 맞는 적절한 Type과 길이를 지정해주지 않는다면, 분석을 위한 쿼리문 자체가 오류나는 경우가 있으니 정확히 알아야한다. ORACLE SQL의 모든 데이터 유형은 아래와 같다. 보통 모든 데이터 유형을 사용할 일은 없지만, LONG은 text import시에 종종 사용하므로 LONG사용과 관련된 주의사항을 참고해야한다. ※ LONG type 사용 시 주의사항 • LONG은 서브쿼리를 사용하여 테이블을 생성할 때 복사되지 않는다. • LONG은 GROUP BY 또는 ORDER BY 절에 포함될 수 없다. • 각 테이블..
Python을 통한 Machine Learning 구현 - (1)KNN R에서 다뤄보았던 KNN(링크)을 Python에서 간단히 구현하는 과정을 알아보자. 우선 pandas 라이브러리로 zoo.csv를 불러온다. import pandas as pd import numpy as np import warnings warnings.filterwarnings('ignore') data=pd.read_csv("C:\\Users\\user\\Documents\\zoo.csv", encoding='CP949') data[1:5] hair feathers eggs milk airborne aquatic predator toothed backbone breathes venomous fins legs tail domest..
R을 통한 Machine Learning 구현 - (1)KNN Code Show All Code Hide All Code R을 통한 Machine Learning 구현 - (1)KNN Superkong1 Knn 이론 설명 Data Set Data Set 설명 Data Set Import Knn 구현 첫 시도 knn의 정확도 높이는 방법 Weighted Nearest Neighbor Classification 결론 오늘부터 Machine Learning에 대해 다시 리마인드하는 마음으로 배웠던 Machine Learning을 R과 Python으로 구현하며 정리하도록 하겠다. Knn 이론 설명 Knn은 K-nearest neighbors의 약자로, “최근접 이웃을 사용한 분류”라고 할 수 있다. 지도학습에서..
13. 데이터 정의 언어(DDL문) 데이터 정의 언어인 DDL문은 데이터를 담고있는 구조와 연결되어 있으며, 실무에서 상당히 많이 사용하는 CTAS(create table as select)도 DDL문에 포함된다고 할 수 있다. 그렇다면 데이터를 담는 구조(객체)는 어떤 것이 있는지 알아보자. ※ 데이터를 담는 구조(Database Object)의 5가지 종류 table: 데이터를 저장하는 기본 저장 단위이고, 행과 열로 구성 view: 테이블을 바라보는 쿼리문이 출력되는 결과(하나 이상의 테이블에 있는 데이터의 부분 집합) sequence: 일련번호 생성기(번호를 생성하는 db 오브젝트) synonym: 테이블의 또 다른 이름을 부여 index: 검색 속도를 향상시키기 위한 db 오브젝트 지금은 정확히..
12. 데이터 조작 언어(DML문) 오늘은 어떤 데이터를 실행하거나 출력하는 쿼리가 아닌 조작, 즉 변형하는 언어인 DML문(Data Manipulation Language)을 알아보자. 말이 어렵지 사실 데이터를 입력(insert)하고, 수정(update)하고, 삭제(delete)하고, 이를 한번에 수행(merge) 하는 기능이다. 데이터를 다루는 사람에게는 간단하지만 꼭 필요한 기능이기도 하다. 이 모든 DML문이 실제로 적용되길 원한다면 commit; 을 실행해주어야 한다. 만약 변형 전 상태의 데이터로 돌아가고 싶다면 rollback; 을 실행하면 되는데, commit; 실행 후에는 이전으로 다시 돌아가지 않는다. insert insert문은 말 그대로 새로운 데이터를 집어넣는 기능이다. emp ..
11. 레포팅 함수 레포팅 함수는 말 그대로 데이터를 통해 보고할때 유용하게 사용되는 함수이다. 처음 접할 땐 사용법이 다소 어려워 계속 사용하며 익숙해져야 한다. 레포팅 함수는 rollup, cube, grouping sets, grouping, grouping_id가 있다. rollup, cube rollup은 어떤 함수를 전체/부분 별로 사용할 수 있게 한다. 보통 group by 절에서 사용되며 상당히 유용한 기능을 가지고 있는데, 우선 예제로 살펴보자. 예제) 부서번호(deptno)별 월급의 합계와 총 사원들의 월급 합계를 출력하시오! 이는 이전에 배운 union all 등 다른 방법으로도 표현이 가능하지만, rollup을 사용하면 쉽게 출력할 수 있다. select deptno, sum(sal..
- Total
- Today
- Yesterday
- 하둡
- Data Analysis
- hadoop 2.7 install
- hadoop setup
- hadoop install
- 하둡설치
- Big Data
- data
- 데이터 분석
- 하둡설치가이드
- 하둡 설치 가이드
- 빅데이터
- hadoop
- hadoop2.7
- 하둡2.7
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |