Katana Web Crawler Foglio di formaggio¶

Panoramica¶

Katana è un framework web crawling veloce e personalizzabile sviluppato da Project Discovery. È progettato per strisciare i siti web in modo efficiente per raccogliere informazioni e scoprire endpoint. Katana si distingue dagli altri web crawler grazie alla sua velocità, flessibilità e attenzione ai casi di utilizzo dei test di sicurezza.

Ciò che rende Katana unica è la sua capacità di strisciare intelligentemente applicazioni web moderne, tra cui applicazioni di singola pagina (SPA) che si basano pesantemente su JavaScript. Può gestire tecnologie web complesse ed estrarre informazioni preziose come URL, file JavaScript, endpoint API e altri beni web. Katana è costruito con i professionisti della sicurezza in mente, rendendolo uno strumento eccellente per la ricognizione durante le valutazioni di sicurezza e la caccia di taglie di bug.

Katana supporta varie strategie di strisciamento, tra cui strisciamento standard, JavaScript parsing, e sitemap-based crawling. Può essere personalizzato per concentrarsi su specifici tipi di risorse o seguire particolari modelli, rendendolo adattabile a diversi scenari di test di sicurezza. Lo strumento è progettato per essere facilmente integrato nei flussi di lavoro di test di sicurezza e può essere combinato con altri strumenti Project Discovery per una ricognizione completa.

Installazione¶

Utilizzo di Go¶

Traduzione:

Utilizzo di Docker¶

Traduzione:

Utilizzo di Homebrew (macOS)¶

Traduzione:

Utilizzo di PDTM (Project Discovery Tools Manager)¶

Traduzione:

Su Kali Linux¶

Traduzione:

Uso di base¶

Crawling a singolo URL¶

Traduzione:

Crawling URL multipli¶

Traduzione:

Opzioni di uscita¶

Traduzione:

Opzioni di rotazione¶

Depth e Scope di Cracovia¶

Traduzione:

Strategie di deformazione¶

Traduzione:

Selezione del campo¶

Traduzione:

Uso avanzato¶

URL Filtro¶

Traduzione:

Filtro delle risorse¶

¶

Riempimento del modulo¶

Traduzione:

JavaScript Parsing¶

Traduzione:

Ottimizzazione delle prestazioni¶

Convalutazione e limitazione dei tassi¶

Traduzione:

Opzioni di timeout¶

Traduzione:

Ottimizzazione per grandi scansioni¶

Traduzione:

Integrazione con altri strumenti¶

Pipeline con Subfinder¶

Traduzione:

Pipeline con HTTPX¶

Traduzione:

Pipeline con Nuclei¶

Traduzione:

Personalizzazione di uscita¶

Formato di uscita personalizzato¶

Traduzione:

Filtro dell'uscita¶

Traduzione:

Filtro avanzato¶

URL Pattern Matching¶

Traduzione:

Filtro dei contenuti¶

Traduzione:

Opzioni Proxy e Network¶

Traduzione:

Varie Caratteristiche¶

Riempimento automatico del modulo¶

Traduzione:

Percorsi specifici¶

Traduzione:

Storing Responses¶

Traduzione:

Risoluzione dei problemi¶

Questioni comuni¶

JavaScript Parsing Issues Traduzione:
** Limitare il bersaglio* * Traduzione:
** Problemi di memoria ** Traduzione:
Revisione: Traduzione:

Debug¶

Traduzione:

Configurazione¶

File di configurazione¶

Katana utilizza un file di configurazione situato in $HOME/.config/katana/config.yaml. È possibile personalizzare varie impostazioni in questo file:

¶

Variabili dell'ambiente¶

Traduzione:

Riferimento¶

Opzioni della linea di comando¶

Flag	Description
`-u, -url`	Target URL to crawl
`-list, -l`	File containing list of URLs to crawl
`-o, -output`	File to write output to
`-json`	Write output in JSON format
`-silent`	Show only URLs in output
`-v, -verbose`	Show verbose output
`-depth`	Maximum depth to crawl (default: 2)
`-crawl-scope`	Crawling scope (strict, subs, out-of-scope)
`-crawler`	Crawler types to use (standard, js, sitemap, robots)
`-field`	Fields to display in output
`-extension`	File extensions to include
`-exclude-extension`	File extensions to exclude
`-match-regex`	Regex pattern to match URLs
`-filter-regex`	Regex pattern to filter URLs
`-match-condition`	Condition to match URLs
`-form-fill`	Enable automatic form filling
`-js-crawl`	Enable JavaScript parsing
`-headless-timeout`	Timeout for headless browser (seconds)
`-chrome-path`	Path to Chrome browser
`-concurrency`	Number of concurrent requests
`-delay`	Delay between requests (milliseconds)
`-rate-limit`	Maximum number of requests per second
`-timeout`	Timeout for HTTP requests (seconds)
`-max-urls`	Maximum number of URLs to crawl
`-proxy`	HTTP/SOCKS5 proxy to use
`-header`	Custom header to add to all requests
`-cookie`	Custom cookies to add to all requests
`-paths`	Specific paths to crawl
`-paths-file`	File containing paths to crawl
`-store-response`	Store all responses
`-store-response-dir`	Directory to store responses
`-version`	Show Katana version

Crawling Scopes¶

Scope	Description
`strict`	Crawl only the exact domain provided
`subs`	Crawl the domain and its subdomains
`out-of-scope`	Crawl any domain, regardless of the initial domain

Tipi di cassonetto¶

Type	Description
`standard`	Standard HTTP crawler
`js`	JavaScript parser using headless browser
`sitemap`	Sitemap-based crawler
`robots`	Robots.txt-based crawler

Opzioni di campo¶

Field	Description
`url`	Full URL
`path`	URL path
`method`	HTTP method
`host`	Host part of URL
`fqdn`	Fully qualified domain name
`scheme`	URL scheme (http/https)
`port`	URL port
`query`	Query parameters
`fragment`	URL fragment
`endpoint`	URL endpoint

Risorse¶

*Questo foglio di scacchi fornisce un riferimento completo per l'utilizzo di Katana, dalla scansione di base al filtraggio avanzato e l'integrazione con altri strumenti. Per le informazioni più aggiornate, consultare sempre la documentazione ufficiale. *