루씬으로 pdf, hwp, doc 파일을 검색할수 있나요?
없습니다. 불가능합니다.
루씬으로 DB검색할수 있나요?
불가능합니다.
루씬으로 웹검색을 할수 있나요?
NO..
그럼 도대체 뭘 할수 있나요?
검색을 할수 있습니다.
pdf던, hwp, doc 문서던
DB던 이것을 읽어 TEXT로 변환시킬수 있는 GATE만 만들수 있다면
루씬은 원하는 검색을 할수 있습니다.
크롤을 별도로 만들면 웹문서 검색도 할수 있습니다.
루씬은 들어오는 TEXT를 인덱싱하고 해당 인덱싱중 원하는 키워드를 포함하는 TEXT를 찾아주는 Library입니다.
이렇게 보면 별것 아니죠?
사실 별것 아녀요.^^
그렇지만 반대로 생각하면
GATE만 만들게 되면 검색에 관한 모든것을 해결해 줄수 있는 막강 검색엔진의 역할을 할수 있습니다.
하면 할수록 그 깊이가 의심(?)되는 루씬의 세계로 가봅시다.
출처 :http://www-128.ibm.com/developerworks/library/wa-lucene/indexing_architecture.gif

이올린에 북마크하기