2006년 06월 10일
한RSS 본문검색 구현을 위해 풀어야할 숙제
http://lunamoth.biz/index.php?pl=1853

사실 가장 좋은(편리한) 것은 lunamoth님 말씀대로 역시 한RSS 데이타 전체의 본문검색이 되겠으나, 매우 축소시켜 "트렌비"라는 트렌드검색으로 나온 셈이다.

현재 생각할 수 있는 난제는 2가지 정도로 요약될 수 있을 것 같은데, (미처 생각못한 게 더 있을 수 있음)

1. 시스템자원 및 검색기술의 부재
사실 검색은 초기 시스템자원이 상당이 소요되는 분야이고, 쉽게 서버를 늘릴 수 있는 상황이 아니다보니 생각의 범위가 매우 제한되는 면이 있다. 아울러 기존의 검색서비스 업체들이 갖고 있는, 대규모 컨텐츠를 저장하고 고정확도(형태소분석 등)/고효율로 인덱싱할 수 있는 기술이 없다보니 그런 기술을 사거나 스스로 개발해야하는 어려움이 있다. 명확한 ROI 플랜없이 무작정 뛰어들기엔 위험부담이 크다고 할 수 있는...

2. 저작권에 대한 오해
수집된 RSS가 어떤 형태로는 외부에 보여지는 것에 대해 거부감을 갖는 사람이 생길 수 있다. 아울러 RSS에 한번 공개된 글이 향후 삭제가 되었을 때 그것을 알아차릴 방법 또한 별로 마땅치가 않다. 어쩌면 검색크롤러를 별도로 돌려야할지도 모르는 일이고. 한RSS에 저장된 피드주소만을 가지고 별도로 검색엔진을 구축하는 게 더 빠를수도 있는 일이다.

사실 "공개성이 짙은(일정수 이상의 구독자를 가진) 피드의 최근 1주일간 제목/태그 검색"이라는 것은 일단 위의 난제들을 피해가기 위한 고육지책에 불과하다.

개인적으론 한RSS가 검색의 실시간성 이외에도 컨텐츠의 relevancy나 popularity를 예측하는데 있어서도 좋은 플랫폼이 될 수 있다고 생각하지만, 실제로 사용자에게 그러한 모든 편의를 제공하기까지는 Ask.com - Bloglines, 엠파스 - 올블로그 같은 파트너쉽을 필요로 할수도 있겠다는 생각이 든다. (그러면 실시간성이 또 문제가 되나? ^^;)

머리만 아프고 별로 진전이 없네. ;;;
by 성렬 | 2006/06/10 15:03 | 한RSS | 트랙백 | 덧글(1)
트랙백 주소 : http://srlog.egloos.com/tb/2086073
☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]
Commented by lunamoth at 2006/06/10 15:52
그렇군요. 제 글에서 검색 기술 부분을 간과한것 같습니다. date 뿐만 아니라 relevance 정렬도 중요할테고요.

후자는 다음 블로그 검색 (RSS넷과 연계된) 에 불만을 토로하시는 분이 연상되는군요. 인식이 좀 유연해질 필요가 있는것 같기도 합니다.

:         :

:

비공개 덧글



<< 이전 페이지 | 다음 페이지 >>