Vai al contenuto

Katana Web Crawler Foglio di formaggio

Panoramica

Katana è un framework web crawling veloce e personalizzabile sviluppato da Project Discovery. È progettato per strisciare i siti web in modo efficiente per raccogliere informazioni e scoprire endpoint. Katana si distingue dagli altri web crawler grazie alla sua velocità, flessibilità e attenzione ai casi di utilizzo dei test di sicurezza.

Ciò che rende Katana unica è la sua capacità di strisciare intelligentemente applicazioni web moderne, tra cui applicazioni di singola pagina (SPA) che si basano pesantemente su JavaScript. Può gestire tecnologie web complesse ed estrarre informazioni preziose come URL, file JavaScript, endpoint API e altri beni web. Katana è costruito con i professionisti della sicurezza in mente, rendendolo uno strumento eccellente per la ricognizione durante le valutazioni di sicurezza e la caccia di taglie di bug.

Katana supporta varie strategie di strisciamento, tra cui strisciamento standard, JavaScript parsing, e sitemap-based crawling. Può essere personalizzato per concentrarsi su specifici tipi di risorse o seguire particolari modelli, rendendolo adattabile a diversi scenari di test di sicurezza. Lo strumento è progettato per essere facilmente integrato nei flussi di lavoro di test di sicurezza e può essere combinato con altri strumenti Project Discovery per una ricognizione completa.

Installazione

Utilizzo di Go

Traduzione:

Utilizzo di Docker

Traduzione:

Utilizzo di Homebrew (macOS)

Traduzione:

Utilizzo di PDTM (Project Discovery Tools Manager)

Traduzione:

Su Kali Linux

Traduzione:

Uso di base

Crawling a singolo URL

Traduzione:

Crawling URL multipli

Traduzione:

Opzioni di uscita

Traduzione:

Opzioni di rotazione

Depth e Scope di Cracovia

Traduzione:

Strategie di deformazione

Traduzione:

Selezione del campo

Traduzione:

Uso avanzato

URL Filtro

Traduzione:

Filtro delle risorse

Riempimento del modulo

Traduzione:

JavaScript Parsing

Traduzione:

Ottimizzazione delle prestazioni

Convalutazione e limitazione dei tassi

Traduzione:

Opzioni di timeout

Traduzione:

Ottimizzazione per grandi scansioni

Traduzione:

Integrazione con altri strumenti

Pipeline con Subfinder

Traduzione:

Pipeline con HTTPX

Traduzione:

Pipeline con Nuclei

Traduzione:

Personalizzazione di uscita

Formato di uscita personalizzato

Traduzione:

Filtro dell'uscita

Traduzione:

Filtro avanzato

URL Pattern Matching

Traduzione:

Filtro dei contenuti

Traduzione:

Opzioni Proxy e Network

Traduzione:

Varie Caratteristiche

Riempimento automatico del modulo

Traduzione:

Percorsi specifici

Traduzione:

Storing Responses

Traduzione:

Risoluzione dei problemi

Questioni comuni

  1. JavaScript Parsing Issues Traduzione:

  2. ** Limitare il bersaglio* * Traduzione:

  3. ** Problemi di memoria ** Traduzione:

  4. Revisione: Traduzione:

Debug

Traduzione:

Configurazione

File di configurazione

Katana utilizza un file di configurazione situato in $HOME/.config/katana/config.yaml. È possibile personalizzare varie impostazioni in questo file:

Variabili dell'ambiente

Traduzione:

Riferimento

Opzioni della linea di comando

| | Flag | Description | | | --- | --- | | | -u, -url | Target URL to crawl | | | | -list, -l | File containing list of URLs to crawl | | | | -o, -output | File to write output to | | | | -json | Write output in JSON format | | | | -silent | Show only URLs in output | | | | -v, -verbose | Show verbose output | | | | -depth | Maximum depth to crawl (default: 2) | | | | -crawl-scope | Crawling scope (strict, subs, out-of-scope) | | | | -crawler | Crawler types to use (standard, js, sitemap, robots) | | | | -field | Fields to display in output | | | | -extension | File extensions to include | | | | -exclude-extension | File extensions to exclude | | | | -match-regex | Regex pattern to match URLs | | | | -filter-regex | Regex pattern to filter URLs | | | | -match-condition | Condition to match URLs | | | | -form-fill | Enable automatic form filling | | | | -js-crawl | Enable JavaScript parsing | | | | -headless-timeout | Timeout for headless browser (seconds) | | | | -chrome-path | Path to Chrome browser | | | | -concurrency | Number of concurrent requests | | | | -delay | Delay between requests (milliseconds) | | | | -rate-limit | Maximum number of requests per second | | | | -timeout | Timeout for HTTP requests (seconds) | | | | -max-urls | Maximum number of URLs to crawl | | | | -proxy | HTTP/SOCKS5 proxy to use | | | | -header | Custom header to add to all requests | | | | -cookie | Custom cookies to add to all requests | | | | -paths | Specific paths to crawl | | | | -paths-file | File containing paths to crawl | | | | -store-response | Store all responses | | | | -store-response-dir | Directory to store responses | | | | -version | Show Katana version | |

Crawling Scopes

| | Scope | Description | | | --- | --- | | | strict | Crawl only the exact domain provided | | | | subs | Crawl the domain and its subdomains | | | | out-of-scope | Crawl any domain, regardless of the initial domain | |

Tipi di cassonetto

| | Type | Description | | | --- | --- | | | standard | Standard HTTP crawler | | | | js | JavaScript parser using headless browser | | | | sitemap | Sitemap-based crawler | | | | robots | Robots.txt-based crawler | |

Opzioni di campo

| | Field | Description | | | --- | --- | | | url | Full URL | | | | path | URL path | | | | method | HTTP method | | | | host | Host part of URL | | | | fqdn | Fully qualified domain name | | | | scheme | URL scheme (http/https) | | | | port | URL port | | | | query | Query parameters | | | | fragment | URL fragment | | | | endpoint | URL endpoint | |

Risorse


*Questo foglio di scacchi fornisce un riferimento completo per l'utilizzo di Katana, dalla scansione di base al filtraggio avanzato e l'integrazione con altri strumenti. Per le informazioni più aggiornate, consultare sempre la documentazione ufficiale. *