타인의 포스트를 리딩하고, 생각을 정리하기 위한 목적으로 작성되는 포스트입니다.
학문적 분석보다는 책을 읽고 서평을 남기듯 가볍게 작성하고 있습니다.
개인적으로 학습하며 기록하고 있기 때문에 잘못된 내용이 있을 수 있습니다. 잘못된 내용이 있다면 댓글로 알려주세요.
개요
- 날짜: 2021년 03월 21일 일요일
- 대상: 대용량 Linked Data 검색 서비스 현황 - 윤석찬:: 한국 시맨틱웹 콘퍼런스 (2010.12)
- https://www.youtube.com/watch?v=eJbTtrsSvSM
내용
Why Semantic Web failed?
- Difficult to use: 사용하기 어렵다
- 소프트 유저, 하드 유저가 배우고 사용하기 어렵다
- No Killer application: 킬러 앱이 없다.
- Only specific domains: 특정 도메인에 집중되어 있다.
- 의료 정보, 컨텐츠(영화, 음악) 정보 등
Back to the Search
- RSS, Linked Data, Open API 같이 구조화된 데이터가 웹 상에 널리 퍼지기 시작함
- 일반 텍스트에서 데이터를 추출하는 것 보다 구조화된 데이터에서 데이터를 추출하는 것이 더 편리함
Semantic Search vs Semantic Web Search
- (Semantic Search) NATE: 기존의 검색 기능에서 연관 검색어를 찾는 기능
- (Semantic Web Search) NAVER LAB: 기존의 영화 데이터베이스를 Semantic web 기반으로 표시하는 기능
Linked Data with TBL
- Web에 Data가 돌아다닌다. 이러한 Data를 서로 Link 하는 것이 필요하다.
LOD 검색 개발 방식
웹 기반 구조적 데이터 수집
- 반 구조적 데이터: HTML 내 RDFa, Microformat 혹은 HTML5
- Microdata, 구조적 데이터: XML 및 JSON, 시맨틱 데이터(RDF/RDFs)
- 예) LDspider (GPL License)
데이터 저장
- Virtuoso (GPL), Sesame (BSD), Jena TDB (BSD) 혹은 RDB
- c.f Berlin SPRQL Benchmark (Nov 2009)
쿼리 및 데이터 분석
- SPAQL을 이용한 Query Engine
랭킹 및 결과 제공
- 결과에 대한 시맨틱 네비게이션 및 링크만 제공
기존 시맨틱 웹 처리 방법
아주 작은 도메인에서는 큰 성능 이슈 없이 처리할 수 있음.
- 모델 만들기
- 개념과 관계 속성에 대한 정의
- 최대한 현실에 부합하는 모델을 만들며 확장 유연성
- RDF 처리
- 대개 기존 DB에서 변환
- RDF, Triple, N-Triple 형태 저장
- 처리 시간이 길다
- SPARQL 질의
- 원하는 답을 얻기 위한 추론
- 응답 시간이 길다
검색에서 클라우드 플랫폼의 장점
- 사회적 이슈가 발생했을 때, 클라우드 동적 제어 API를 이용하여 크롤링 및 인덱싱 작업을 비주기적으로 시행
- UCC 검색 콘텐츠 DB에 대해서 신규 작업 시 클라우드 기반으로 테스트 가능
- Hadoop, Hbase 등 각종 분산 컴퓨팅 자원을 필요 시 이용
- 실시간 웹(Realtime Web) 검색을 대응하기 위한 검색 엔진 및 처리 시스템 필요
클라우드 기반 LOD 검색 방식
- 웹 기반 구조적 데이터 수집
- 데이터 처리
- Hadoop을 이용한 분산 컴퓨팅 플랫폼
- 대용량 RDF 변환 및 처리
- NoSQL을 이용한 검색 데이터 저장소
- 쿼리 및 데이터 분석
- 사용자 쿼리에 해당하는 질의어 분석
- 질의어를 통한 SPARQL 쿼리 생성
- 쿼리에 대한 서브 쿼리 자동 생성 및 AnwserSet 추출
- 랭킹 및 결과 제공
- 관계 기반 질의어 확장 및 추천
Key Value DB for heavy update
Update Heavy job, Real-time incremental Update