Công cụ này giúp bạn lọc và chuẩn hóa danh sách URL. Xóa URL trùng lặp, xóa domain trùng lặp (giữ URL đầu tiên), loại bỏ hoặc thêm tiền tố HTTP, và nhiều tùy chọn khác.
1. Dán danh sách URL vào ô nhập liệu (mỗi URL một dòng).
2. Chọn các tùy chọn dọn dẹp phù hợp với nhu cầu.
3. Nhấn "Dọn dẹp URL" để xử lý.
4. Xem kết quả và thống kê (số URL gốc, số URL sau khi lọc, số URL bị loại bỏ).
5. Nhấn "Sao chép" để copy danh sách URL đã dọn dẹp.
6. Nhấn "Xử lý" (hoặc tên button tương ứng) hoặc phím tắt Ctrl+Enter.
7. Sao chép kết quả hoặc nhấn Ctrl+K để xóa.
• Xóa URL trùng lặp: So sánh chính xác toàn bộ URL, giữ lại lần xuất hiện đầu tiên.
• Xóa domain trùng lặp: Giữ URL đầu tiên của mỗi domain, xóa các URL khác cùng domain.
• Loại bỏ HTTP variations: Xóa tất cả dạng http://, https://, www. ở đầu URL.
• Thêm tiền tố: Thêm http://www. vào các URL chưa có protocol.
• Xóa www: Chuẩn hóa URL về dạng không có www (example.com thay vì www.example.com).
• Xóa trailing slash: Loại bỏ dấu / ở cuối URL cho nhất quán.
Khi nào dùng công cụ này?
✓ Chuẩn bị danh sách URL cho công cụ SEO (Ahrefs, SEMrush, Screaming Frog)
✓ Dọn dẹp sitemap hoặc danh sách backlink
✓ Hợp nhất danh sách URL từ nhiều nguồn
✓ Loại bỏ URL trùng lặp trong database
✓ Chuẩn hóa URL trước khi import vào CMS
✓ Xử lý danh sách URL từ web scraping
✓ Tạo disavow file cho Google Search Console
Chuẩn hóa URL (URL normalization) là quá trình chuyển đổi URL về dạng chuẩn để dễ so sánh, lưu trữ và xử lý. Đây là kỹ thuật quan trọng trong SEO, web scraping, và quản lý database.
Duplicate URLs: URL giống hệt nhau (so sánh string chính xác)
Duplicate Domains: Nhiều URL cùng trỏ về một domain (example.com/page1, example.com/page2)
HTTP Variations: http:// vs https://, www vs non-www
Trailing Slash: example.com/ vs example.com (cả hai đều hợp lệ nhưng nên thống nhất)
Case Sensitivity: Hầu hết domain không phân biệt hoa/thường, nhưng path có thể khác nhau
• Input:
https://example.com/page1
https://example.com/page2
https://example.com/page1
https://google.com
• Tùy chọn: Xóa URL trùng lặp ✓
→ Output:
https://example.com/page1
https://example.com/page2
https://google.com
(Giữ URL đầu tiên, xóa bản trùng lặp thứ 3)
Ví dụ 2 - Xóa domain trùng lặp:
• Input:
https://example.com/page1
https://example.com/page2
https://example.com/page3
https://google.com
• Tùy chọn: Xóa domain trùng lặp ✓
→ Output:
https://example.com/page1
https://google.com
(Chỉ giữ URL đầu tiên của mỗi domain)
Ví dụ 3 - Loại bỏ HTTP variations:
• Input:
https://www.example.com
http://example.com
https://example.com/page
• Tùy chọn: Loại bỏ tiền tố HTTP/HTTPS ✓
→ Output:
example.com
example.com
example.com/page
Ví dụ 4 - Thêm tiền tố http://www.:
• Input:
example.com
google.com/search
https://facebook.com
• Tùy chọn: Thêm tiền tố http://www. ✓
→ Output:
http://www.example.com
http://www.google.com/search
https://facebook.com
(Chỉ thêm vào URL chưa có http://)
Ví dụ 5 - Chuẩn hóa hoàn chỉnh:
• Input:
HTTPS://WWW.EXAMPLE.COM/
http://www.example.com/page/
example.com/test/
Example.Com/Page/
• Tùy chọn: Chữ thường ✓ + Xóa www ✓ + Xóa trailing slash ✓ + Xóa HTTP ✓
→ Output:
example.com
example.com/page
example.com/test
example.com/page
Thứ tự xử lý quan trọng:
1. Lowercase (nếu chọn)
2. Xóa trailing slash (nếu chọn)
3. Xóa www (nếu chọn)
4. Xóa hoặc thêm HTTP prefix
5. Xóa duplicate URLs/domains
6. Sắp xếp (nếu chọn)