현대는 엄청난 양의 정보가 쏟아지는 시대입니다 이렇게 방대하게 쏟아지는 정보들을 추출하고 정리해서 검색을 요구하는 사용자에게 양질의 정보를 빠르게 볼 수 있도록 해주는 것이 바로 검색엔진이라는 소프트웨어입니다 이 검색엔진은 어떠한 과정을 거쳐서 만들어졌을까요 많은 사람들은 인터넷이 생기고 검색엔진이 생겼을 거라고 생각하는데 사실은 인터넷보다 검색엔진이 먼저 생겼다고 합니다
이 글에서는 검색엔진이 만들어진 계기와 과정, 그리고 검색엔진 분야에서 큰 영향력을 주었던 야후, 알타비스터, 구글등의 업체의 탄생과정과 검색엔진이 작동하는 순서에 대해서 알아보겠습니다
검색엔진이 만들어진 계기와 과정
많은 정보들을 전자적 방식을 이용해서 손쉬게 볼 수 있도록 하는 기계장치를 처음 생각해 아이디어를 제안한 사람은 미국의 공학자인 버니바 부시 박사입니다
당시는 2차 세계대전이 끝나고 과학기술에 관련된 새로운 지식들이 쏟아지던 시절이었습니다 원자핵 발전 프로젝트에 참여하기도 했던 버니바 박사는 1945년 '생각하는 대로'라는 제목의 에세이집을 냈는데 그는 그 책에서 과학자들은 더 이상 무기를 개발하는데 시간과 노력을 쏟지 말고 지금까지 쌓아온 인류의 지식과 급속도로 발전하는 기술과 정보를 저장하고 보관하여 손쉽게 활용할 수 있는 방법을 찾아내고 만들어야 한다고 주장하며 그림으로 자신의 생각을 표현하기도 하였는데 그가 구상한 기계장치의 이름은 '매맥스'입니다
이 장치가 현실에서 만들어지지는 않았지만 검색엔진이 만들어지는데 많은 아이디어를 주었을 것입니다
아래 그림은 버니바 박사가 제안한 메멕스입니다
그림의 왼쪽 테이블 위의 사각은 사진등의 데이터들을 스캔하여 저장할 수 있는 스캐너이고 그 아래쪽의 줄로 연결된 것 같은 양 쪽의 원통형의 장비는 스캔한 데이터를 저장하는 마이크로필름입니다 그리고 오른쪽의 테이블 위의 키보드처럼 보이는 것은 출력시키고자 하는 정보를 입력하는 타자기이며 테이블 정 가운데의 사각형의 액자 같은 것은 타자기로 입력한 정보를 찾아 출력시키는 스크린입니다 그리고 이 정보검색기는 서로 관련 있는 정보들을 서로 링크시킬 수 있으며 사용자가 링크를 누를 때 또 다른 정보로 연결될 수 있다는 것을 설명하였습니다
이 검색장치가 현실에서 만들어진 것은 45년 뒤인 1990년 캐나다의 맥길 대학 학생이었던 알렌 엠테이지에 의해 개발된 '아키'였습니다 아키는 월드와이드웹이 생기기 전이라서 완벽한 의미에서의 최초의 검색엔진이라고 하기에는 미흡하지만 버니바 박사가 상상을 통해 실현하고자 하였던 최초의 검색기계였습니다
당시는 월드와이드웹이 개발되기 전이라 FTP(File Transfer Protocol) 만을 이용하여 파일을 주고받았습니다 FTP이란 컴퓨터와 컴퓨터를 연결하여 파일을 주고받기 위한 통신규약을 의미하며 현재도 많은 양의 파일을 주고받을 때는 파일 전송서비스인 FTP를 이용합니다
아키는 FTP 서버에 접속하여 주기적으로 파일의 제목을 색인형태로 서버에 저장하였다가 사용자가 특정한 파일을 검색할 때 서버에 저장한 색인 목록에서 이를 찾아 다시 원래 파일이 저장된 FTP서버의 주소를 출력해 주는 형태였습니다 그러나 파일의 페이지 전체를 검색하였던 것이 아니라 제목만 검색하여 색인하였기 때문에 파일의 제목을 모르면 파일을 찾을 수 없었다고 합니다
같은 해 미네스타대학에서는 데이터를 주제별로 나누어서 검색할 수 있는 검색기가 나오기도 하였습니다
같은 해인 1990년 12월 인터넷 역사에서 아주 중요한 시스템이 만들어지는데 세계의 웹 페이지를 거미줄처럼 연결하는 역할을 한 WWW.의 월드와이드웹입니다
월드와이드웹은 유럽입자물리학 연구소(CERN)의 팀 버너스리 박사가 만들었습니다
당시 CERN(유럽입자 물리학연구소)에서 근무하는 사람들은 전 세계 각국에서 온 사람들이 연구를 하고 있었기 때문에 나라마다 컴퓨터의 시스템이 달라서 정보를 공유하고 데이테를 주고받는데 불편을 겪고 있었습니다 그리고 연구를 하던 연구원의 인사이동이 생기면 연구했던 자료가 분실되기도 하고 관리하기 힘든 점이 많았다고 합니다 팀 버너스리 박사는 인터넷을 통해 하나의 데이터베이스 서버를 만들고 흩어져있는 문서와 정보들을 이곳에 올리고 누구나 접근하여 데이터를 보고 공유할 수 있는 시스템을 만든 것입니다
월드와이드웹의 가장 큰 특징은 어떤 문자를 클릭하였을 때 다른 문서로 이동하는 하이퍼텍스트 (Hyper Text)의 기능입니다
여기서 웹사이트를 사용할 때 자주 사용하지만 정확한 뜻을 모르고 사용하는 용어들을 조금 메모해 보겠습니다
●하이텍스트(Hyper Text)란 어떤 문서에서 다른 문서로 이동할 수 있도록 하는 초월적인(Hyper) 문자(Text)를 뜻합니다 즉 어떤 문자를 클릭하였을 때 즉시로 다른 페이지로 이동하는 문자를 의미합니다
●하이퍼링크(Hyper Link)란 다른 페이지로 이동하는 연결의 수단이 되는 고리를 의미합니다
●HTTP(Hypertext Transfer Protocol)는 사용자와 서버 간의 통신을 위한 통신 규정을 말합니다
컴퓨터는 다양한 시스템과 프로그램과 부품으로 이루어져 있습니다 이런 다양한 조건을 가진 컴퓨터들이 인터넷이라는 통신으로 정보를 주고받으려면 일정한 규칙이 있어야 합니다
이러한 규칙을 정한 것이 http이며 사용자가 웹브라우저에서 웹서버에 http로 데이터를 요청하면 웹서버는 이 요청에 맞는 정보를 전달한다는 규칙입니다
●Html이란 HyperText Markup Language의 약자로 하이퍼텍스트를 위한 마크업 언어를 뜻합니다
즉 태그와 부호 등을 이용하여 문서나 데이터의 구조를 나타내는 언어이다
이와 같이 월드와이드웹이 만들어진 원리는 웹사이트를 하이퍼텍스트 마크업(HTML) 언어로 작성하고 URL로 특정위치를 지정하고 HTTP(Hypertext Transfer Protocol)로 데이터를 전송하는 시스템입니다
당시 월드와이드웹은 너무도 효율적이고 편리하며 혁신적인 기술이었기 때문에 급속도로 전 세계로 퍼져나갔습니다
디렉터리 방식의 야후와 강력한 수집력의 알타비스터
●야후
이후 월드와이드웹의 폭발적인 사용으로 웹사이트를 효율적으로 검색하기 위한 검색엔진이 몇몇 개 나오기도 하였으나 크게 사용되지는 못하였고 1994년 구글이 나오기 전까지 검색업계의 선두였던 야후가 검색엔진계를 독점하다시피 합니다
야후의 개발자는 스탠퍼드 대학의 전기공학과에 재학 중이던 대만계 미국인 제리 양과 미국인 데이비드 필로
입니다
그들은 졸업생들이 박사학위를 얻기 위하여 논문을 쓸 때 웹사이트를 효율적으로 검색할 수 있도록 웹사이트 검색 가이드를 만들었는데 그것은 웹사이트를 분야별로 분류한 목록이었습니다
이 당시에는 웹사이트에 방문하여 데이터를 보려면 웹사이트의 주소를 사용자가 직접 입력해야지만이 사이트로 들어가는 불편함이 있었었습니다 야후는 웹사이트의 목록을 주제별로 분류하고 그 안에서 또 분류된 카테고리로 들어가는 식으로 만들어서 주소를 일일이 메모하고 또 입력하는 번거로움에서 해방시켰기 때문에 당시 사용자들로부터 엄청난 호평을 받았다고 합니다
그러나 검색기술이 나날이 발전하는 과정에서 야후의 디렉터리 방식의 검색엔진은 점점 힘을 잃어갔습니다
●알타비스터
야후가 나올 즈음 야후외에도 여러 검색엔진이 나왔으나 별 다른 호응을 얻지 못하였는데 알타비스타는 강력한 수집력으로 경쟁력을 가지고 있었습니다
당시 세계에서 가장 빠른 CPU알파칩을 만든다고 소문났던 미국의 Equipment Corporation사의 연구센터에서 근무하던 기술자들에 의해 개발되었는데 알타비스터의 가장 큰 특징은 방대한 양의 웹페이지를 수집하는 능력을 가지고 있다는 것이었습니다 이 당시 알타비스터가 사용하던 크롤로는 하루에 300만 개의 웹페이지를 수집했기 때문에 사용자들에게 풍부한 데이터 제공으로 큰 호응을 얻었다고 합니다
그러나 검색엔진으로는 수익창출에 한계가 있었기 때문에 배너광고를 할 수 있는 포털사이트로 바꾸면서 알타비스터의 검색엔진은 점점 쇠퇴하고 말았습니다
이 외에도 비슷한 시기에 애스크지브스, 익사이트, 마젤란, 잉크토미 등의 검색엔진들이 있었습니다
세계최강의 검색엔진 구글의 등장
1998년 드디어 현재 세계 검색시장에서 점유율 90%를 차지하고 있는 구글이 탄생합니다
구글의 시작은 스탠퍼드 대학의 래리 페이지와 세르게이 브린의 만남으로 시작되었습니다
래리 페이지는 미국의 미시간주에서 태어났다고 합니다 유대인이었던 래리의 부모들은 둘 다 컴퓨터 대학의 교수였고 부모님들의 영향을 받은 래리는 미시건대에서 컴퓨터를 전공하였고 자신도 컴퓨터 대학의 교수가 되고자 스탠퍼드 대학원에 입학하고자 하였습니다 래리는 입학하기 전 학교를 탐방하고자 방문하였다가 탐방 가이드인 세르게이 브린과 만났다고 합니다
세르게이 브린은 러시아에서 태어났고 그의 부모들은 러시아의 모스크바에 거주하고 있던 유대인들이었다고 합니다 그러나 당시 소련 정부는 반유대인 정책을 펴고 있었기 때문에 유대인에 대한 차별을 피하고자 세르게이 브린이 6세 때 미국으로 이주하였다고 합니다 그의 아버지는 메릴랜드 대학의 수학과 교수로 재직하였고 어머니는 나사 고다드 우주비행센터에서 우주공학 연구원으로 일했다고 합니다
세르게이는 아버지에게 물려받은 재능으로 수학에 많은 관심을 가졌고 메릴랜드 대학에서 수학과 컴퓨터를 전공하여 컴퓨터로 석사학위를 취득하였다고 합니다 그리고 박사과정을 밟기 위하여 스탠퍼드 대학원에 입학하였다고 합니다
나이가 동갑인 데다가 성장배경이 굉장히 비슷한 두 사람은 처음에는 둘 다 천재적인 성향을 가지고 있었서 처음 만남에서는 서로가 서로에게 적대적이었다고 합니다 그러나 어떠한 계기로 둘은 성장배경이 비슷할 뿐만 아니라 서로의 관심분야와 비전이 같다는 것을 알게 되면서 서로에 대해서 인정하게 됩니다
학교에 입학한 래리는 논문을 작성해야 했는데 논문의 주제를 월드와이드 웹의 수학적 특성이라는 주제로 정하고 있었습니다 래리는 이 주제에 대해서 생각하다가 논문을 어떤 방향으로 써나가야 할지에 대한 아이디어를 얻게 되었습니다
당시 검색엔진의 발달로 많은 양의 데이터를 수집할 수는 있었지만 수집된 데이터들이 다 양질의 정보들은 아니었고 좋은 정보를 선별하기 위해서는 웹사이트의 페이지를 일일이 넘겨가면서 필요한 정보를 찾아내야 했습니다
래리는 월드와이드웹의 웹페이지들을 효과적으로 분류하고 해당하는 웹페이지가 어느 정도의 가치가 있는 페이지인지를 선별하여 검색하는 사용자가 빠르게 양질의 정보를 얻을 수 있도록 하는 방법을 생각하였습니다
래리는 어떤 한 웹페이지의 가치를 알 수 가장 쉬운 기준은 그 웹페이지를 링크한 수가 많을수록 더 훌륭한 문서라고 생각하였던 것입니다 그래서 링크가 걸리는 웹페이지의 순위를 매기고 가장 많은 링크가 걸린 페이지를 가장 먼저 보여줌으로써 양질의 정보를 제공할 수 있다고 생각하였습니다
그러기 위해서 먼저 해당페이지에게로 들어오는 외부의 링크 (백링크)의 양을 어떻게 파악할 수 있을지를 생각하게 됩니다 이것을 파악하는 것은 아주 복잡하고 방대한 작업이었는데 래리는 이 일이 세르게이 브린이 적합하다고 생각하였습니다
래리의 연구하고자 하는 내용을 들은 세르게이는 이 일에 대하여 큰 흥미를 느끼게 되었고 래리와 같이 천만 페이지에 달하는 웹의 링크를 분석하는 일을 시작하게 됩니다 (월드와이드 웹의 웹페이지의 양은 현재는 47억 3천 개 정도이나 당시에는 초기단계였기 때문에 1000만 페이지 정도였다고 합니다)
래리와 세르게이는 천만 페이지의 웹 전체의 링크를 분석하는 작업을 하기 위해서는 월드와이드웹 전체를 다운로드해야 했습니다 그리고 일정한 시간에 데이터를 통과시킬 수 있는 엄청난 양의 대역폭이 필요했으며 또한 엄청난 정보를 저장하고 다룰 수 있는 서버가 필요했습니다
래리와 세르게이는 학교에서 쓰지 않는 컴퓨터와 부품들을 모았습니다 그리고 레고를 이용하여 컴퓨터를 조립하였습니다 그렇게 해서 4기가바이트 드라이브 10개로 구성된 구글 최초의 서버가 완성되었습니다 (오늘날의 구글은 100만 대의 서버를 사용하고 있다고 합니다)
그러고 나서 그들이 만든 서버를 스탠퍼드 대학의 컴퓨터 네트워크에 꽂아 웹을 다운로드하였습니다 그리고 웹을 크롤링하여 웹을 다운로드하는 데 성공하였습니다
그리고 웹페이지 전체의 순위를 매길 수 있는 그래프를 저장한 후 각각의 웹페이지들이 얼마만큼 링크되었는지를 파악하고 순위를 매기기 시작합니다
그리고 크롤러(웹의 정보를 긁어오는 소프트웨어)를 사용해서 어떤 특정한 정보를 발견하면 크롤러는 데이터베이스나 색인을 만듦으로써 이 데이터에 보다 효율적이고 간단하게 접근하기 쉽게 만들었습니다
그리고 이 검색엔진을 스탠퍼드 대학의 웹 사이트에 올렸는데 그들이 만든 이 검색엔진은 지금까지의 어떤 검색엔진들보다 빠르게 사용자가 원하는 양질의 데이터를 볼 수 있게 해 주었기 때문에 스탠퍼드 대학 내에서 폭발적인 반응을 얻게 되었습니다
그러나 래리와 세르게이는 이 검색엔진을 단지 논문을 쓰기 위한 연구도구로만 생각했었기 때문에 사업 쪽으로는 생각하지 않았습니다 그래서 이 검색엔진을 팔기 위하여 구입처를 물색하며 야후에게도 구입을 권유하였으나 야후는 검색엔진의 시장이 더 이상 발전할 거라고 생각하지 않았고 대신 여러 가지 미디어 사업에 눈을 돌렸기 때문에 이들의 제의를 거절하였습니다
하는 수없이 래리와 세르게이는 조그만 창고 하나 빌려서 창업과정을 밟게 되고 그러는 과정 속에서도 구글의 검색엔진은 계속 입소문을 타면서 사용자가 늘어갔습니다 그러다가 담당교수의 소개로 벤처 투자자를 만나 포털사이트를 오픈하게 되면서 구글은 대규모의 포털사이트로 거듭나게 되며 현재에 이르고 있습니다
구글의 또 하나 독특한 점은 2000년 이 전에는 벤처투자자들의 투자에 의해 기업이 운영됐었는데 2003년부터는 애드센스라는 광고주와 광고를 게재 해주는 웹사이트 운영자 사이의 중개사 역할을 하면서 더 큰 기업으로 발전하는데 노하우가 되었다고 합니다
웹사이트의 운영자는 웹페이지의 일정 부분을 광고를 게재하는 부분으로 정해두고 애드센스의 중개에 의해 광고를 싣고자 하는 업체의 광고를 실어줍니다 그리고 웹사이트의 운영자는 광고를 게재해 준 대가로 수수료를 받는 방식입니다
검색엔진이 작동하는 순서
●검색엔진은 주기적으로 웹에 있는 사이트들에 접속하여 웹크롤러로 가장 최근에 올라와있는 데이터 순으로 웹페이지를 복사합니다
●각 페이지마다 색인을 위하여 제목, 내용, 목차, 기타 등으로 나누어 추출하고 분석합니다 색인은 정보를 빨리 찾을 수 있도록 하는 책의 맨 앞의 목차와 같은 역할이라 볼 수 있습니다
●사용자가 웹브라우저에 검색어를 넣으면 검색엔진은 색인을 검토해서 가장 적절한 웹페이지를 보여줍니다