Dọn Dẹp Danh Sách URL

Công cụ này giúp bạn lọc và chuẩn hóa danh sách URL. Xóa URL trùng lặp, xóa domain trùng lặp (giữ URL đầu tiên), loại bỏ hoặc thêm tiền tố HTTP, và nhiều tùy chọn khác.

Hướng dẫn sử dụng

1. Dán danh sách URL vào ô nhập liệu (mỗi URL một dòng).

2. Chọn các tùy chọn dọn dẹp phù hợp với nhu cầu.

3. Nhấn "Dọn dẹp URL" để xử lý.

4. Xem kết quả và thống kê (số URL gốc, số URL sau khi lọc, số URL bị loại bỏ).

5. Nhấn "Sao chép" để copy danh sách URL đã dọn dẹp.

6. Nhấn "Xử lý" (hoặc tên button tương ứng) hoặc phím tắt Ctrl+Enter.

7. Sao chép kết quả hoặc nhấn Ctrl+K để xóa.

Tính năng chính

Xóa URL trùng lặp: So sánh chính xác toàn bộ URL, giữ lại lần xuất hiện đầu tiên.

Xóa domain trùng lặp: Giữ URL đầu tiên của mỗi domain, xóa các URL khác cùng domain.

Loại bỏ HTTP variations: Xóa tất cả dạng http://, https://, www. ở đầu URL.

Thêm tiền tố: Thêm http://www. vào các URL chưa có protocol.

Xóa www: Chuẩn hóa URL về dạng không có www (example.com thay vì www.example.com).

Xóa trailing slash: Loại bỏ dấu / ở cuối URL cho nhất quán.

Khi nào dùng công cụ này?

✓ Chuẩn bị danh sách URL cho công cụ SEO (Ahrefs, SEMrush, Screaming Frog)

✓ Dọn dẹp sitemap hoặc danh sách backlink

✓ Hợp nhất danh sách URL từ nhiều nguồn

✓ Loại bỏ URL trùng lặp trong database

✓ Chuẩn hóa URL trước khi import vào CMS

✓ Xử lý danh sách URL từ web scraping

✓ Tạo disavow file cho Google Search Console

Về chuẩn hóa URL

Chuẩn hóa URL (URL normalization) là quá trình chuyển đổi URL về dạng chuẩn để dễ so sánh, lưu trữ và xử lý. Đây là kỹ thuật quan trọng trong SEO, web scraping, và quản lý database.

Duplicate URLs: URL giống hệt nhau (so sánh string chính xác)

Duplicate Domains: Nhiều URL cùng trỏ về một domain (example.com/page1, example.com/page2)

HTTP Variations: http:// vs https://, www vs non-www

Trailing Slash: example.com/ vs example.com (cả hai đều hợp lệ nhưng nên thống nhất)

Case Sensitivity: Hầu hết domain không phân biệt hoa/thường, nhưng path có thể khác nhau

Ví dụ 1 - Xóa URL trùng lặp

• Input:

https://example.com/page1

https://example.com/page2

https://example.com/page1

https://google.com

• Tùy chọn: Xóa URL trùng lặp ✓

→ Output:

https://example.com/page1

https://example.com/page2

https://google.com

(Giữ URL đầu tiên, xóa bản trùng lặp thứ 3)

Ví dụ 2 - Xóa domain trùng lặp:

• Input:

https://example.com/page1

https://example.com/page2

https://example.com/page3

https://google.com

• Tùy chọn: Xóa domain trùng lặp ✓

→ Output:

https://example.com/page1

https://google.com

(Chỉ giữ URL đầu tiên của mỗi domain)

Ví dụ 3 - Loại bỏ HTTP variations:

• Input:

https://www.example.com

http://example.com

https://example.com/page

• Tùy chọn: Loại bỏ tiền tố HTTP/HTTPS ✓

→ Output:

example.com

example.com

example.com/page

Ví dụ 4 - Thêm tiền tố http://www.:

• Input:

example.com

google.com/search

https://facebook.com

• Tùy chọn: Thêm tiền tố http://www. ✓

→ Output:

http://www.example.com

http://www.google.com/search

https://facebook.com

(Chỉ thêm vào URL chưa có http://)

Ví dụ 5 - Chuẩn hóa hoàn chỉnh:

• Input:

HTTPS://WWW.EXAMPLE.COM/

http://www.example.com/page/

example.com/test/

Example.Com/Page/

• Tùy chọn: Chữ thường ✓ + Xóa www ✓ + Xóa trailing slash ✓ + Xóa HTTP ✓

→ Output:

example.com

example.com/page

example.com/test

example.com/page

Thứ tự xử lý quan trọng:

1. Lowercase (nếu chọn)

2. Xóa trailing slash (nếu chọn)

3. Xóa www (nếu chọn)

4. Xóa hoặc thêm HTTP prefix

5. Xóa duplicate URLs/domains

6. Sắp xếp (nếu chọn)

Tiện ích liên quan

Tạo Style Guide Template

Tạo Style Guide Template

Tạo tài liệu hướng dẫn phong cách thương hiệu (Brand Style Guide) chuyên nghiệp để đồng bộ hóa giọng văn và quy chuẩn nội dung cho đội ngũ của bạn.
Thêm Tiền Tố và Hậu Tố Vào Từng Dòng

Thêm Tiền Tố và Hậu Tố Vào Từng Dòng

Bọc nhiều dòng văn bản với tiền tố và/hoặc hậu tố tùy chỉnh. Tiền tố sẽ được chèn vào đầu mỗi dòng và hậu tố vào cuối.
Luyện Thi IELTS Speaking

Luyện Thi IELTS Speaking

Công cụ luyện tập IELTS Speaking với 200+ câu hỏi cho cả 3 Part, timer tự động, cue card ngẫu nhiên, và ghi chú câu trả lời. Mô phỏng bài
Xóa thẻ HTML

Xóa Thẻ HTML

Loại bỏ tất cả thẻ HTML và chỉ giữ lại văn bản thuần túy, an toàn với ký tự hợp lệ
Tính Giá Theo Cân Nặng

Tính Giá Theo Cân Nặng

Chuyển đổi giữa khối lượng (kg/lạng) và số tiền dựa trên đơn giá.
Trích Xuất URL Từ Văn Bản

Trích Xuất URL Từ Văn Bản

Tự động tìm và trích xuất tất cả URL từ văn bản, tài liệu hoặc HTML.