'2007/06'에 해당되는 글 3

  1. 2007/06/29 BoostingTermQuery - payloads
  2. 2007/06/20 lucene 2.2.0 버전에 나왔습니다. (5)
  3. 2007/06/09 hadoop 0.13
 

BoostingTermQuery - payloads

루씬함수 | 2007/06/29 00:47 | Posted by gruter


영어사전에 의하면 유료하중이라고 번역되는 payloads기능은(2.2버전) 특정 키워드를 포함한 문서에 더 가중치를 두고자 할때 사용한다.

and검색이 아닌 or 혹은 should검색의 경우 인명이나 기업명 등을 포함하는 문서에 더 가중치를 두고자 할경우 유용하다.

이것은 BoostingTermQuery를 통해 구현되는데
이경우 custom similarity처럼 DefaultSimilarity를 상속받은 similraity 클래스를 이용하여 다음의 함수를 구현해야 한다.
public float scorePayload(byte[] payload, int offset, int length){
}

lucene 2.2.0 버전에 나왔습니다.

소식 | 2007/06/20 10:13 | Posted by gruter


어제(19, 한국시간 오늘이겠군요)부로 올라왔습니다.
그리 큰 변화는 없는것 같습니다.

commit(autocommit)같은 기능의 추가는 괜찮은거 같군요.
아실지 모르겠지만 기존 버전들은 indexwriter.close전에는 추가된 파일을 찾을 수가 없어요. 즉 Buffer에 들어가 있는 document들은 검색이 안되죠. 그래서 db처럼 쓰기 힘들었는데 commit이 해결해줄수 있으려나 모르겠군요.

MultiSearcher에서는 custom similarity가 안먹고 있었다네요. ㅎㅎ
2.0에서는 먹었던걸로 기억하는데 2.1에서는 웬지 랭킹 느낌이 좀 이상하긴 했어도 뭔가 함수가 바뀌었겠구니 했었는데 버그 였다는군요.

QueryFilter에 캐쉬기능도 삭제되었고, 어차피 이상해서 만들어 쓰고 있었슴.. 대신 재미있는 클래스가 들어왔군요.

등등..

관심있는분들 확인해보시길.
http://svn.apache.org/repos/asf/lucene/java/tags/lucene_2_2_0/CHANGES.txt

hadoop 0.13

소식 | 2007/06/09 09:57 | Posted by gruter


hadoop이 오랜만에 버전업되어 올라왔습니다.
항상 하는 얘기이지만 많은 성능향상을 가져왔답니다.
그럼 이전까지는 대체 뭐란 얘긴지^^
그러면서 또 다음번에는 향상을 가져왔다고 할겁니다.
그 끝은 어딜까요.

다음은 새롭게 추가된 부분입니다.

In addition to new features, this release contains significant performance and reliability improvements. For example, MapReduce sort performance on large clusters has doubled.

  • [HADOOP-435] - Encapsulating startup scripts and jars in a single Jar file.
  • [HADOOP-485] - allow a different comparator for grouping keys in calls to reduce
  • [HADOOP-686] - job.setOutputValueComparatorClass(theClass) should be supported
  • [HADOOP-702] - DFS Upgrade Proposal
  • [HADOOP-1045] - Code for HBase
  • [HADOOP-1111] - Job completion notification to a job configured URL
  • [HADOOP-1120] - Contribute some code helping implement map/reduce apps for joining data from multiple sources
  • [HADOOP-1216] - Hadoop should support reduce none option
  • [HADOOP-1217] - Specify a junit test timeout in build.xml files
  • [HADOOP-1247] - Make Hadoop Abacus work with Hadoop Streaming
  • [HADOOP-1251] - A method to get the InputSplit from a Mapper
  • [HADOOP-1282] - HBase code update.
  •