Design Web Crawler

What is Web Crawler?

A Web Crawler is a distributed system that systematically browses the web to discover and index web pages. It's similar to systems used by Google, Bing, or other search engines. The service provides URL discovery, content extraction, and web page indexing.

Distributed web crawling with politeness policies and massive scale is what makes systems like Web Crawler unique. By understanding Web Crawler, you can tackle interview questions for similar crawling systems, since the core design challenges—URL discovery, content extraction, politeness policies, and scalability—remain the same.

Functional Requirements

Core (Interview Focussed)

URL Discovery: Discover new URLs from web pages and sitemaps.
Content Extraction: Extract and parse content from web pages.
Politeness Policies: Respect robots.txt and rate limiting.
Duplicate Detection: Avoid crawling duplicate URLs.

Out of Scope

User authentication and authorization
Content analysis and indexing
Search result ranking
Real-time crawling
Mobile app specific features

Non-Functional Requirements

Core (Interview Focussed)

High throughput: Process millions of web pages per day.
Scalability: Handle billions of URLs and web pages.
Fault tolerance: Handle network failures and server errors.
Politeness: Respect website policies and rate limits.

Out of Scope

Data retention policies
Compliance and privacy regulations

💡 Interview Tip: Focus on high throughput, scalability, and fault tolerance. Interviewers care most about URL discovery, content extraction, and politeness policies.

Core Entities

Entity	Key Attributes	Notes
URL	url_id, url, domain, status, last_crawled, priority	Indexed by domain for politeness
Page	page_id, url_id, content, title, links, metadata	Extracted page content
Domain	domain_id, domain, robots_txt, crawl_delay, last_crawled	Domain-specific policies
CrawlJob	job_id, url_id, priority, status, created_at	Crawling job queue
Link	link_id, source_url, target_url, anchor_text	Discovered links

💡 Interview Tip: Focus on URL, Page, and Domain as they drive URL discovery, content extraction, and politeness policies.

Core APIs

URL Management

POST /urls { url, priority } – Add a new URL to crawl
GET /urls/{url_id} – Get URL details
PUT /urls/{url_id}/status { status } – Update URL status
GET /urls?domain=&status=&limit= – List URLs with filters

Crawling

POST /crawl/start { url_id } – Start crawling a URL
GET /crawl/status { job_id } – Get crawling job status
POST /crawl/stop { job_id } – Stop crawling job
GET /crawl/queue?limit= – Get crawling queue

Content

GET /pages/{page_id} – Get page content
GET /pages/{page_id}/links – Get page links
GET /pages?domain=&limit= – List pages with filters
POST /pages/{page_id}/extract – Extract page content

Domain Management

GET /domains/{domain_id} – Get domain details
GET /domains/{domain_id}/robots – Get robots.txt content
PUT /domains/{domain_id}/delay { delay } – Update crawl delay
GET /domains?status=&limit= – List domains

High-Level Design

System Architecture Diagram

Key Components

URL Discovery Service: Discover new URLs from web pages
Content Extraction Service: Extract and parse web page content
Crawling Scheduler: Schedule and manage crawling jobs
Politeness Manager: Enforce politeness policies and rate limiting
Duplicate Detector: Detect and avoid duplicate URLs
Database: Persistent storage for URLs, pages, and domains

Mapping Core Functional Requirements to Components

Functional Requirement	Responsible Components	Key Considerations
URL Discovery	URL Discovery Service, Content Extraction Service	Link extraction, URL validation
Content Extraction	Content Extraction Service, Database	HTML parsing, content extraction
Politeness Policies	Politeness Manager, Crawling Scheduler	Rate limiting, robots.txt compliance
Duplicate Detection	Duplicate Detector, Database	URL normalization, duplicate checking

Detailed Design

URL Discovery Service

Purpose: Discover new URLs from web pages and sitemaps.

Key Design Decisions:

Link Extraction: Extract links from HTML content
URL Normalization: Normalize URLs to avoid duplicates
URL Validation: Validate URLs before adding to queue
Priority Assignment: Assign priorities to discovered URLs

Algorithm: URL discovery

1. Receive web page content
2. Parse HTML content:
   - Extract all <a> tags
   - Extract href attributes
   - Extract anchor text
3. For each discovered URL:
   - Normalize URL format
   - Validate URL syntax
   - Check if URL already exists
   - If new URL:
     - Add to URL queue
     - Assign priority based on:
       - Source page authority
       - URL depth
       - Domain reputation
4. Store discovered links
5. Update URL statistics

Content Extraction Service

Purpose: Extract and parse content from web pages.

Key Design Decisions:

HTML Parsing: Parse HTML content efficiently
Content Extraction: Extract text, titles, and metadata
Link Extraction: Extract links for further crawling
Content Validation: Validate extracted content

Algorithm: Content extraction

1. Receive web page HTML
2. Parse HTML content:
   - Extract title tag
   - Extract meta tags
   - Extract body content
   - Extract links
3. Clean and normalize content:
   - Remove HTML tags
   - Normalize whitespace
   - Extract text content
4. Extract metadata:
   - Page title
   - Meta description
   - Keywords
   - Language
5. Store extracted content
6. Trigger URL discovery

Politeness Manager

Purpose: Enforce politeness policies and rate limiting.

Key Design Decisions:

Robots.txt Compliance: Respect robots.txt rules
Rate Limiting: Implement crawl delays per domain
Politeness Policies: Enforce politeness rules
Error Handling: Handle politeness violations gracefully

Algorithm: Politeness enforcement

1. Check domain politeness rules:
   - Fetch robots.txt
   - Parse robots.txt rules
   - Check crawl delay
   - Check disallowed paths
2. Before crawling URL:
   - Check if URL is allowed
   - Check crawl delay
   - Check rate limits
3. If politeness rules violated:
   - Delay crawling
   - Log violation
   - Update domain reputation
4. If rules allow:
   - Proceed with crawling
   - Update last crawl time
5. Monitor politeness compliance

Crawling Scheduler

Purpose: Schedule and manage crawling jobs.

Key Design Decisions:

Job Scheduling: Schedule crawling jobs based on priority
Load Balancing: Distribute crawling load across workers
Fault Tolerance: Handle crawling failures gracefully
Resource Management: Manage crawling resources efficiently

Algorithm: Crawling job scheduling

1. Receive URL crawling request
2. Check crawling constraints:
   - Domain politeness rules
   - Rate limits
   - Resource availability
3. If constraints allow:
   - Create crawling job
   - Assign to available worker
   - Set job priority
4. Monitor job execution:
   - Track job progress
   - Handle job failures
   - Retry failed jobs
5. Update job status
6. Clean up completed jobs

Database Design

URLs Table

Field	Type	Description
url_id	VARCHAR(36)	Primary key
url	TEXT	URL to crawl
domain	VARCHAR(255)	URL domain
status	VARCHAR(50)	Crawl status
priority	INT	Crawl priority
last_crawled	TIMESTAMP	Last crawl time
created_at	TIMESTAMP	URL creation

Indexes:

idx_domain on (domain) - Domain-based queries
idx_status on (status) - Status-based queries
idx_priority on (priority) - Priority-based scheduling

Pages Table

Field	Type	Description
page_id	VARCHAR(36)	Primary key
url_id	VARCHAR(36)	Associated URL
title	VARCHAR(500)	Page title
content	TEXT	Page content
meta_description	TEXT	Meta description
language	VARCHAR(10)	Page language
created_at	TIMESTAMP	Page creation

Indexes:

idx_url_id on (url_id) - URL pages
idx_title on (title) - Title-based queries

Domains Table

Field	Type	Description
domain_id	VARCHAR(36)	Primary key
domain	VARCHAR(255)	Domain name
robots_txt	TEXT	Robots.txt content
crawl_delay	INT	Crawl delay in seconds
last_crawled	TIMESTAMP	Last crawl time
status	VARCHAR(50)	Domain status

Indexes:

idx_domain on (domain) - Domain lookup
idx_status on (status) - Status-based queries

Crawl Jobs Table

Field	Type	Description
job_id	VARCHAR(36)	Primary key
url_id	VARCHAR(36)	Associated URL
priority	INT	Job priority
status	VARCHAR(50)	Job status
created_at	TIMESTAMP	Job creation
started_at	TIMESTAMP	Job start time
completed_at	TIMESTAMP	Job completion

Indexes:

idx_status on (status) - Job status queries
idx_priority on (priority) - Priority-based scheduling
idx_created_at on (created_at) - Time-based queries

Scalability Considerations

Horizontal Scaling

URL Discovery Service: Scale horizontally with load balancers
Content Extraction Service: Use consistent hashing for URL partitioning
Crawling Scheduler: Scale crawling jobs with distributed systems
Database: Shard URLs and pages by domain

Caching Strategy

Redis: Cache crawling queue and job status
Application Cache: Cache frequently accessed data
Database Cache: Cache URL and domain data

Performance Optimization

Connection Pooling: Efficient database connections
Batch Processing: Batch URL processing for efficiency
Async Processing: Non-blocking crawling operations
Resource Monitoring: Monitor CPU, memory, and network usage

Monitoring and Observability

Key Metrics

Crawling Rate: URLs crawled per second
Content Extraction Time: Average time to extract content
Politeness Compliance: Percentage of politeness rule violations
System Health: CPU, memory, and disk usage

Alerting

High Latency: Alert when crawling time exceeds threshold
Politeness Violations: Alert when politeness rules are violated
Crawling Failures: Alert when crawling jobs fail
System Errors: Alert on content extraction failures

Trade-offs and Considerations

Consistency vs. Availability

Choice: Eventual consistency for URL discovery, strong consistency for crawling jobs
Reasoning: URL discovery can tolerate slight delays, crawling jobs need immediate accuracy

Throughput vs. Politeness

Choice: Balance crawling speed with politeness compliance
Reasoning: Respect website policies while maintaining efficient crawling

Storage vs. Performance

Choice: Use efficient storage for large-scale content
Reasoning: Balance between storage costs and query performance

Common Interview Questions

Q: How would you handle robots.txt compliance?

A: Use robots.txt parsing, rule enforcement, and politeness monitoring to ensure robots.txt compliance.

Q: How do you avoid crawling duplicate URLs?

A: Use URL normalization, duplicate detection, and efficient data structures to avoid crawling duplicates.

Q: How would you scale this system globally?

A: Deploy regional crawling servers, use geo-distributed databases, and implement data replication strategies.

Q: How do you handle crawling failures?

A: Use retry mechanisms, error handling, and fault tolerance to handle crawling failures gracefully.

Key Takeaways

URL Discovery: Link extraction and URL normalization are essential for web crawling
Content Extraction: HTML parsing and content extraction enable web page indexing
Politeness Policies: Robots.txt compliance and rate limiting ensure respectful crawling
Scalability: Horizontal scaling and partitioning are crucial for handling large-scale crawling
Monitoring: Comprehensive monitoring ensures system reliability and performance

Design Web Crawler

Design Web Crawler

What is Web Crawler?

Functional Requirements

Core (Interview Focussed)

Out of Scope

Non-Functional Requirements

Core (Interview Focussed)

Out of Scope

Core Entities

Core APIs

URL Management

Crawling

Content

Domain Management

High-Level Design

System Architecture Diagram

Key Components

Mapping Core Functional Requirements to Components

Detailed Design

URL Discovery Service

Content Extraction Service

Politeness Manager

Crawling Scheduler

Database Design

URLs Table

Pages Table

Domains Table

Crawl Jobs Table

Scalability Considerations

Horizontal Scaling

Caching Strategy

Performance Optimization

Monitoring and Observability

Key Metrics

Alerting

Trade-offs and Considerations

Consistency vs. Availability

Throughput vs. Politeness

Storage vs. Performance

Common Interview Questions

Q: How would you handle robots.txt compliance?

Q: How do you avoid crawling duplicate URLs?

Q: How would you scale this system globally?

Q: How do you handle crawling failures?

Key Takeaways

Contents