2006년 05월 23일
한RSS 피드검색
http://www.hanrss.com/bbs/thread.qst?tsrl=239

최근에 한RSS 피드검색 결과에서 구독자 1명 이하인 피드를 제외시켰는데, 역시 불편한 부분이 있다.
현재는 다시 원상태로 복구시킨 상태이고.

일단 Fact들만 나열하면 아래 정도일까.
1. kebie님께서 말씀하신대로 구독자 1명인 블로그도 묻히지 않고, 특정블로그도 쉽게 찾으려면 역시 샅샅히 찾아주는 게 좋다.
2. 구독자정렬이 되면, 현재의 '단순문자열 비교'가 그다지 나쁘지 않은 검색결과를 보여준다.
3. 형태소분석도 하면서 자체검색엔진을 구축하기에는 할 일이 너무 많다. --; 그렇다고 DB 등에서 제공해주는 FULLTEXT 인덱싱(공백문자에 의한 Tokenization)은 한글엔 적합하지 않다. ('단순문자열 비교'보다 검색품질이 떨어질 가능성)
4. 구독자가 적은 블로그 중에는 실제로 한RSS 검색에 노출되기를 원하지 않는 경우도 있을 수 있다.

과연 최적의 방법은 무엇일까? 질의어와의 관련도까지 고려한 정렬은 어떤 형태가 되야할까?
사실 본문검색만 숙제가 아니었던거다. --;
by 성렬 | 2006/05/23 17:51 | 한RSS | 트랙백 | 덧글(2)
트랙백 주소 : http://srlog.egloos.com/tb/2003375
☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]
Commented by nikelite at 2006/05/23 19:43
루씬에 한글을 적용하려는 시도들이 있었던 걸로 아는데요. 아직 제대로 형태소 분석까지 하는 건 없는 건 같습니다. 루씬을 쓴다던가 해서 공개 한글 검색엔진을 open project로 있으면 좋겠습니다. hanrss뿐만 아니라, startup이나 연구용으로 사람들이 쓸 수 있게요.
Commented by 성렬 at 2006/05/24 01:15
오픈소스 검색엔진으로 lucene만한 것은 없는 것 같긴 합니다만, lucene도 역시 페이지단위 검색인지라 피드검색과는 좀 안맞는 면이 있긴 하죠. (커스터마이징이 많이 필요할지도. ^^) 본문검색이라면 고려해 볼만한 옵션이죠. 말씀하신대로 한글처리의 문제가 있습니다만.

:         :

:

비공개 덧글



<< 이전 페이지 | 다음 페이지 >>