Duplicate Content ? Cách khắc phục hiệu quả

Đăng vào: 09-08-2018

Thực tế thì có rất nhiều trang web đang mắc lỗi trùng lặp nội dung. Sự cạnh tranh từ các ngành nghề, lĩnh vực là rất lớn nhưng đôi khi kiến thức thì có hạn làm chúng ta phải đi sao chép lại các nội dung từ web khác để thu hút lượng người truy cập. Tuy nhiên sau khi Google cập nhật thuật toán Panda, đặc biệt trong các đợt cập nhật gần đây đã khiến cho nhiều trang web bị trùng lặp về nội dung bị phạt. Điều này gây ảnh hưởng đến kết quả SEO.

Với những website đã bị phạt sẽ không tránh được việc đặt câu hỏi vì sao bị như v và làm thế nào để giải quyết vấn đề một cách hiệu quả nhất ?

  1. Vậy nội dung trùng lặp là gì ?

Trùng lặp nội dung được hiểu đơn giản là những nội dung xuất hiện trên hai hay trên nhiều địa chỉ trang web hoặc là trên các lĩnh vực giống nhau. Ngoài ra, nội dung có sự tương đồng về ý cũng sẽ được xếp vào danh sách nội dung trùng lặp.

Cụ thể thì chia làm 3 loại:

Bản sao gốc: là dạng website có nội dung trùng lặp hoàn toàn, giống y hệt với một trang web khác. Sự khác biệt giữa hai trang là đường dẫn URL.

Gần giống với bản gốc: là một dạng biến tấu về nội dung. Nó gần như bản gốc chỉ có sự khác biệt rất nhỏ về một số ngôn ngữ, một vài đoạn văn, hình ảnh hoặc kể cả thay đổi xáo trộn giữa các cụm từ.

Cross Domain: Dạng như một phần của nội dung, thường xảy ra khi một nội dung được chia sẻ trên 2 website khác nhau với mỗi web là một phần nội dung gốc. Nên nó có thể được xem là dạng bản gốc hoặc dạng gần giống với bản gốc.

  1. Tại sao trùng lặp nội dung lại bị Google Panda phạt ?

Theo như quy định của Google, nội dung trùng lặp rõ nguồn gốc của tác giả thì được xem là không mang tính lừa đảo, không bị xếp vào nội dung xấu. Sau đây là một số nội dung trùng lặp không xấu:

Tại diễn đàn, blog website: khi tạo ra 2 đoạn nội dung gần giống nhau, một nội dung là nguyên bản, một nội dung được rút gọn để hướng đến cho người sử dụng trên các phương tiện khác như mobile, tablet, …   

Lưu trữ các thông tin hiển thị và liên kết thông qua nhiều URL, thông tin tốt cho người dùng. Chỉ in duy nhất một phiên bản của nội dung trên trang đó…

Tuy nhiên đó chỉ là một số trang cơ bản, nhiều webmaster nỗ lực để nâng cao thứ hạng website, tăng lượng truy cập đã cố tình sử dụng các nội dung trùng lặp. Cách làm này thực sự không tốt và không thể tạo sự thân thiện với người dùng khi khách hàng thường xuyên gặp những nội dung trùng lặp như vậy.

Trong phiên bản gần đây của Google Panda, việc đánh giá nội dung trùng lặp này khá là quan trọng. Nếu trang web của bạn bị Google Panda đánh giá là không tốt, các thuật toán của nó sẽ tác động ảnh hưởng đến website của bạn, làm cho trang trùng lặp mất điểm thậm chí bị phạt mất nội dung, mất thứ hạng trên SERP.

  1. Những phương pháp giúp bạn có thể sửa lỗi duplicate content một cách hiệu quả

Nếu bạn muốn khách hàng của mình luôn hài lòng với những thông tin mà họ có thể tìm được trên trang web hãy đảm bảo chỉnh sửa các lỗi duplicate content được coi là xấu.

- 404 (Not Found)

Bạn cảm thấy nội dung dung trùng lặp thực sự không đem lại lợi ích cho người tìm kiếm hay không đem lại cho bạn những liên kết hay traffic, cách đơn giản là cứ xóa nó đi và để lỗi 404.

- Redirect 301

Khi redirect 301 đồng nghĩa với việc bạn thông báo cho người dùng và bọ tìm kiếm rằng trang web mà họ đang truy cập đã chuyển đến một liên kết khác. Và công cụ này sẽ chuyển hướng người dùng đến một url mới. Đây là một cách làm tốt nếu nội dung trùng lặp đó nằm trên URL gắn thẻ canonical.

Robot.txt

Đây là phương pháp dùng khi bạn muốn nội dung trùng lặp hiển thị với người dùng nhưng ngăn chặn không cho bọ tìm kiếm thu thập thông tin. Điều này được thực hiện khá đơn giản. Tuy nhiên nó chỉ hiệu quả với các trang chưa index, còn với các trang đã được index thì nó vô tác dụng.

-  Meta Robots Tag

Cách này được áp dụng nếu bạn muốn điều hướng khả năng tìm kiếm thông tin của bots tại trang. Nó sẽ thông báo cho bots tìm kiếm không index trang này hoặc các liên kết trong đó. Cái này được khá nhiều công ty SEO áp dụng và làm cho trang thân thiện hơn với search engine so với sử dụng Robot.txt

-  Rel = canonical

“Rel = Canonical” hoặc là “Canonical Tag” là cách làm giúp webmaster có thể tạo ra canonical cho bất kỳ trang nào. Vì vậy, khi bots tìm kiếm thu thập thông tin trên một trang có gắn thẻ canonical nó sẽ hiểu và loại bỏ nội dung trùng lặp trên URL đó.

-  Google URL Removal

Cách làm này theo tôi là phương pháp cuối cùng nếu phải thực hiện việc xóa bỏ các nội dung trùng lặp. Nó được sử dụng trong Google Webmaster Tool. Để làm được bạn làm theo các bước sau: Vào Google Webmaster Tool => Google Index => click tiếp chọn “Remove URLs”. Tuy nhiên bạn sẽ cần làm một số việc trước để có thể thực hiện xóa là với trang cần xóa bạn cần 404, Robots.txt blog hay thẻ meta Noindex./