태터데스크 관리자

도움말
닫기
적용하기   첫페이지 만들기

태터데스크 메시지

저장하였습니다.

 

  쇼너짱의
         Warm IT up !!  

 

*쇼너짱은 누규?
검색 
분류 전체보기 (229)
Shoner Life (31)
Data Mining (1)
Media와 IT (68)
모바일퓨처리스트 (7)
Mobile (12)
UX공부&경험 (3)
MS Windows (7)
실버라이트와닷넷 (8)
Python&Django (2)
정보검색&시각화 (15)
에너지와 환경 (3)
멋진 장면,글,노래 (9)
쇼너짱 me2DAY (56)
Project P (0)
Vehicle (7)
MS  me2sms  실버라이트  me2mms  show  MSP  me2photo  ucc  KTF  휴대폰 
 매출은 쑥쑥..
└>Salesforce.com
 F1 지원 1천억..
└>dream reader
 갈비김치찌개..
└>맛多? 맞다!
 쇼너짱의 생각
└>shoner's me2DAY
 JIXmall :: ajax
└>JIXmall.com
«   2010/08   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31        
+ 6 Fingers
+ ai-times
+ Blogom
+ DJ SUNGWOO
+ Eluard's Play..
+ happysphere
+ Mook
+ OutSider
+ The Dynamo Of..
+ ♡♡♡♡♡
+ 꿈꾸는아이,..
+ 루카쨩
+ 멜로디언님의..
+ 밥알양(no-name)
+ 소명
+ 이야기#2
+ 작은아이!
+ 절대미녀 누님
+ 지에고의 게임..
+ 크림치즈베이글
+ Total : 249,061
+ Today : 16
+ Yesterday : 113
  

MSP Banner
Channel 8
Silverlight
DreamSpark
xna Team
미투데이
믹시

 

 

 

+   [정보검색&시각화]   |  2009/03/30 22:50  

블로그를 전문으로 검색하는 검색 시스템을 만들고 있는데, 이와 관련하여 좋은 정보들이 있어서, 모아봤음


온톨로지와 같은 중앙집중적이고 하향(top-down)적인 방식의 복잡한 태깅보다는 플리커(Flickr)나 del.icio.us에서 쓰이는 폭소노미(folksonomy)적인 집단 태깅이 훨씬 더 쓰임새가 있다는 주장을 웹 2.0 진영에서는 꾸준히 하고 있다. 온톨로지에 대한 가장 널리 알려진 정의를 내린 톰 그루버(Tom Gruber)도 RealTravel이란 웹 2.0 회사를 만들고 집단 태깅에 대한 연구를 하고 있으니 말이다.

구글과 같은 페이지 랭킹(ranking) 방식의 검색 엔진을 이런 집단 태깅 기술이 대체할 수도 있을 것이다. 예를 들어, 블로그나 웹 사이트에 대해 수많은 사람이 나름의 관점에서 태깅을 한다고 했을 때, 특정 사이트에 대한 태그들에 대한 빈도와 태그들 사이의 연관 정도, 그리고 태깅을 한 사람들 사이의 사회적 관계 정도를 잘 계산할 수 있다면, 태그 기반으로 사용자에게 원하는 정보를 더 정확하게 찾아줄 수 있을 것이다. 태그는 조직의 지식관리시스템이나 데스크톱 문서 관리에도 사용될 수 있다. 태그는 진화할 뿐만 아니라 집단 별로 태그 사용 방식이 다르므로 사회과학적 연구도 가능하다. 최근 태깅 서비스를 위한 여러 프로젝트가 진행되고 있는데, 국내 연구자들 중심으로 이루어지고 있는 SCOT 프로젝트가 그 중 한 예다.


출처 : 태깅(Tagging)의 존재이유 - 김홍기의 Semantic Focus




요즘에는 블로그 검색 서비스에 대해서 고민을 계속하고 있습니다. 블로그에서 무엇을 찾고 싶은 것일까...

우선은 컨텐츠를 찾는다고 해야 할 것 같습니다. 무슨 컨텐츠를 찾는 것일까... 블로그에는 Web보다 훨씬 Soft한 사람의 생각들이 모여있는 Collection입니다. 누군가는 블로그 검색에서 사용자의 attention이 가장 중요한 요소라고 합니다. Page Weight가 URL을 찾는데에 중요한 역할을 한 것 처럼, attention은 사람들의 주목을 많이 받는 POST의 Ranking에 사용될 수 있겠습니다. 이것은 사람들이 블로그 검색에 있어서 다른 사람들을 의식하면서 무엇인지 확인될 수 없지만 남들이 많이 관심을 가진 컨텐츠를 보려고 한다는 것과 비슷합니다. 하루의 Hot Page가 아니고 키워드 마다의 Hot POST를 보려고 한다는 것 같습니다. ^^;;  뭐 그렇다면 블로그 검색의 attention 요소를 장악하여야 제대로 된 서비스를 할 수 있을 것 같습니다. 단지 블로그 컨텐츠가 중요한 것이라면, 블로그 수집 로봇만 잘짜면 된다는 것은 약간 부족하고, 그것과 더불어 블로그 서비스 사업자와의 제휴를 통해서 컨텐츠와 사용자 behavior를 입수하는 방안이 있어야 하는 것 같습니다.  그것이 완전하지는 않아도 상대적인 우위를 가지고 있어야 하는 것 같습니다.

....

역시, 블로그 Collection은 문서로서의 Collection이라기 보다는 생각이 모여있는 Collection이라고 보는 것이 어떤가 싶습니다. 그러나 이러한 ["생각"들을 "POST"에서 뽑아내는 것]은 정말로 어려운 일인 것 같습니다. 해야할 것도 많고, 해도 그것의 성능이 감당이 될까 싶기 때문입니다. 더욱 심각한 문제는 엔지니어가 거의 없다는 것입니다. 프로그래밍 엔지니어와 더불어 knowledge 엔지니어가 해주어야 하는 작업이 많은데, 인력 구성에 도대체 아이디어가 나오질 않습니다....될 것은 같은데, 너무 어려운 것, . . . .     이렇게 보면 블로그 Collection은 판도라의 상자에서 나오지 못하고 뚜껑이 닫혀진 "희망"이 아닐런지..... 


출처 : 
검색엔진과 통합검색 서비스 그리고 블로그 검색 - 하니가모님 블로그




검색 10년 요약 : 디렉토리 검색(홈피 찾기) -> 키워드 검색(정보 찾기) -> 통합 검색(편집 검색)

키워드 검색의 다음은 Tag 기반의 무엇인가가 될 것같다.



Tag (주제어) !!
-  새로운 UI  (기존의 검색 3종세트(검색창,검색 버튼, 검색 결과)에서의 독립 가능성,
   Tag Cloud(트렌디,브라우징), "찾는다"보다는 알여준다"에 적합, small window에 적합한 UI
-  정보를 찾는 3번째 방식 (1. 분류명 탐색 -> 2. 키워드 탐색 -> 3. 주제어 탐색)
- 주제어의 예 : 네이버 실시간 이슈 검색어 처럼 "명칭"이나 "명칭 + 이벤트" 형식         
                     (ex:김연아, 김연아 갈라쇼, 꽃보다남자 결말, 눈물이뚝뚝 티저)
- 글쓴이의 감정이나 판단의 평가와 연계 가능성 (ex: 아이팟 갖고싶다, 김연아 귀엽다)


출처 : 하니가모님의 「09'Trend - 새로운 검색을 위한 시도들」 (발표자료)




조사 유형 및 복합명사 인식에 의한 용어 가중치 부여 기법

Term Weighting Method by Postposition and Compound Noun Recognition
강승식(Seung-Shik Kang) · 이하규(Hagyu Lee) · 손소현(So-Hyun Son) · 홍기채(Gi-Choi Hong) · 문병주(Byung-Joo Moon) 저
pp. 196~198(3pages)

UCI URL : http://uci.or.kr/G300-c15985164.v28n2p196a611983


이 논문에서 2. 주제어 추출 기법을 보면, 한글 문서에서 주제어를 추출하는 방법에 대한 설명이 나온다.
그 내용을 인용하면 아래와 같다.

 2. 주제어 추출 기법

 한글문서에서 주제어는 문서의 내요을 대표하는 용어로서 주제어의 추출 방법은 문서의 유형에 따라 달라질 수 있다. 주로 주제어 추출의 대상이 되는 문서의 종류 및 그 특성을 살펴 보면 다음과 같다.

 - 제목이 있고 두괄식인 문서 -- 신문기사 등
 - 제목, 요약 등 구조화된 문서 -- 학술논문 등
 - 태그가 있는 정형화된 문서 -- 웹 문서 등
 - 기타 -- 시간표, 주소록 등 항목 나열식 문서

 학술 논문과 같이 '제목/요약/서론/결론'으로 구성된 문서는 제목과 요약에 출현한 용어가 주제어일 가능성 높고, 신문기사와 같이 주요 내용을 본문의 앞 부분에 기술하는 문서는 제목 및 본문의 앞 문장에 출현한 용어가 주제어일 가능성이 매우 옾다. 웹 문서와 같이 태그가 있는 문서는 주제어가 출현하는 필드(field) 정보를 활용하여 해당 용어들에 개한 가중치를 부여할 수 있다. 제목이나 요약 등 주제어 출현위치에 관한 단서를 찾기 어려운 일반적인 문서에 대한 주제어의 추출은 용어의 출현빈도에 의존하고 있다.

 문서 유형과 무관하게 일반적인 문서에 대해 주제어를 추출하는데 사용될 수 있는 정보로는 추출된 용어 자체의 특성 (품사 정보, 격 정보 등) 혹은 문장내에서 용어의 구문론적 기능 (복합어의 일부, 주절 혹은 종속절에 출현), 용어가 출현된 문장의 기능 등이 있으며 구체적인 예는 다음과 같다.

 (1) 어절 단위 -- 용어의 특성 정보
      - 복합명사, 미등록어
      - 1음절명사, 보통명사
      - 명사의 길이(음절수)
      - '지금/현재/작년'등 시간성 명사
      - 조사 유형 : '은/는/이/가/을/를/의/만/도/에' 등
 (2) 문장 단위 -- 용어의 구문론적 기능
      - 복합어(명사구 등) 구성 여부
      - 주절 혹은 정속절의 주어/목적어/보어/관형어 등
 (3) 문서 단위 -- 용어가 출현한 문장의 특성
      - 문장의 위치 : 제목, 앞 부분, 뒷 부분, 중간 부분
      - 문장의 중오도
         접속부사 등 수사 어구에 의한 문장의 중요도
 (4) 기타
      - 용어의 출현빈도
      - Coreference 관계에 의한 용어의 중요도




작년에 학교 졸업작품 프로젝트 때 부터 고민했었던 블로그 검색 시스템에 관한 좋은 조언글을 구글링으로 찾아 냈음!!
작년의 내 졸작은 정말 말그대로 졸작ㅜㅠ 챙피한 수준이었지만,
지금 준비하고 있는 논문 연구를 위한 블로그 검색 시스템은 , 좀더 제대로 만들어 보고 싶다!!

아직 정보검색 분야에 대해 아는게 거의 없지만, 인터넷정보검색 수업 시간에 열심히 배우고,
교수님께도 많이 여쭈어보고, 정보검색 분야의 고수분들의 블로그 글이나 논문,책등을 통해
하나하나 익히고 깨달아 나갈 생각 !!

재미있는 인터넷정보검색의 항해 개시 !!

저작자 표시 비영리 동일 조건 변경 허락

 
     , , , , , , , , ,
     1   0
이 글의 관련글(트랙백) 주소 ::    http://shoner.pe.kr/trackback/239 관련글 쓰기
쇼너짱의 Warm IT up !! 2009/04/03 23:37
블로그 검색 엔진을 만들자 - 국내 블로그 유형별(스킨별) 소스 데이터 분석
Technorati 태그: 검색엔진,검색,정보검색,검색시스템,블로그검색,블로그스킨,블로그분석,소스분석,블로그유형 국내 블로그를 대상으로한 블로그 검색엔진을 파이썬으로 개발 중임. 일단 해당 페이지가 블로그인지 아닌지를 판별해야하고, 블로그 페이지 일 것 같다는 판단이 되면 - 제목, 본문 내용, 글 생성 시간, 카테고리, 블로그 태그를 추출해서 인덱싱 및 랭킹을 위한 데이터로 가공할 것 이다. 그러기 위해선, 각 블로그 유형 (설치형/포털형/스킨별)..
<<이전 | 1 ... | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 ... | 229 | 다음>>