> > > Cấu hình robots.txt, tối ưu Menu, Breadcrumb, HTML sitemap, XML sitemap cho seo

Cấu hình robots.txt, tối ưu Menu, Breadcrumb, HTML sitemap, XML sitemap cho seo

Cấu hình robots.txt, tối ưu Menu, Breadcrumb, HTML sitemap, XML sitemap cho seo

Tối ưu Menu, Breadcrumb, HTML sitemap, XML sitemap cho seo

Các thành phần Menu, Breadcrumb, HTML sitemap, XML sitemap gọi chung là sự điều hướng trong web. Bài viết sẽ giới thiệu tác dụng và cách tối ưu các thành phần điều hướng cho Seo.

Tối ưu Menu, Breadcrumb, HTML sitemap, XML sitemap cho seo

1 Tối ưu Menu

Tác dụng của menu trong website

  • Về mặt visitor, menu như 1 “bảng giới thiệu” những trang quan trọng nhất của website.
  • Về mặt SEO, spider dễ dàng index được những trang quan trọng nhất.
  • Trang chủ sẽ tăng điểm seo cho các trang nằm trong danh sách menu

Có nhiều dạng menu và nhiều cách thể hiện

  • Image map menu: http://www.milonic.com/menusample4.php
  • Text link menu: http://www.dethidaihoc.edu.vn/
  • Drop-down menu: http://seotopten.net
  • Flash menu : http://www.scriptocean.com/hmenu.html
  • Javascript menu : http://www.softcomplex.com/products/tigra_menu/demo/blue

Vị trí menu và tối ưu cho seo thế nào ?

  • Menu dọc thì nên bố trí bên phải trang
  • Nếu menu ngang ở trên là Flash/Javascript thì nên đặt text menu bên dưới. vì các bot của công cụ tìm kiếm không thể hiểu được flash và javascript.
  • Nếu sử dụng menu dạng hình ảnh, chú ý thuộc tính ALT

2 Tối ưu Breadcrumb

Phía trên các tiêu đề mỏi bài viết bạn thường thấy có các link dưới dạng  Home  > Tin tức SEO > 10 thủ thuật adsense của google Tiếng Việt. Đây gọi là breadcrum.

Tác dụng của Breadcrumb

  • Về mặt visitor, cung cấp đường dẫn trở về trang trước hoặc trở về trang chủ
  • Về mặt SEO, giúp cho spider nhanh chóng đánh giá được cấu trúc tổng thể của website

nếu bạn sử dụng wordpress và theme của bạn không hỗ trợ Breadcumb bạn có thể xem bài viết sau Tạo Breadcrumb cho wordpress với Breadcrumb Navigation XT plugin

3. HTML SITEMAP

Cấu trúc html sitemap

  • HTML sitemap liệt kê tất cả các liên kết (URL) trong từng phần hoặc từng trang khác nhau theo dạng cây

Tác dụng của html sitemap

Hướng đến visitor, giúp họ di chuyển và tìm được thông tin dễ dàng trong website

Cách tạo nhanh

4. XML SITEMAP

xml sitemap liệt kê danh sách các liên kết (URL) theo chuẩn XML. ví dụ: http://www.bqa.com.vn/sitemap.xml

xml sitemap giúp các spider index webite site tốt hơn. và dùng xml sitemap này để đăng ký sơ đồ trang trong webmaster tool.

Cách tạo

Tóm lại bạn cần lưu ý những điểm sau

  • Nếu sử dụng menu dạng hình ảnh, chú ý thuộc tính ALT
  • Mỗi trang phải có breadcrumb
  • Hỗ trợ visitor bằng HTML sitemap và đăng ký XML sitemap với các SE
  • Đặt text link menu ở cuối mỗi trang

Xem thêm:

các bài viết về cách làm seo cho người mới

theo hoangnguyen.edu.vn

Cấu hình tối ưu robots.txt cho Blogspot (Blogger)

Blogspot ( Blogger) hiện nay cho phép tùy chỉnh robots.txt, điều này rất hữu ích bởi vì chúng ta có thể thiết lập khả năng hiển thị các bài viết của chúng ta trên công cụ tìm kiếm, chúng ta có thể xác định xem bài viết sẽ được lập chỉ mục của công cụ tìm kiếm hay không.

Theo mặc định, tất cả các blog sử dụng nền tảng Blogspot ( Blogger) sẽ có một robots.txt như sau:

User-agent: Mediapartners-Google
Disallow: 

User-agent: *
Disallow: /search
Allow: /

Sitemap: http://www.example.com/feeds/posts/default?orderby=updated

Một vài điều cần chú ý robots.txt cho Blogspot

  • Mediapartners-Google là một robot từ Google Adsense, hãy cứ để nó bởi vì nếu bạn thay xóa hoặc thay đổi thì quảng cáo hiện thị có thể không phù hợp với nội dung web bạn.
  • Dòng tiếp theo là cho tất cả các robot và phần đánh dấu (*). Trên cấu hình mặc định không cho phép lập chỉ mục các nhãn Disallow: /search

Cấu hình tối ưu robots.txt cho Blogspot (Blogger)

Trong blogspot có 2 vấn đề với robots.txt là chúng ta cần làm để tối ưu là các  nhãn được index và khóa phân trang của blogspot, chúng ta chỉnh lại file robots như sau:

User-agent: Mediapartners-Google
Disallow: 

User-agent: *
Disallow: /search?updated-min=
Disallow: /search?updated-max=
Disallow: /search/label/*?updated-min=
Disallow: /search/label/*?updated-max=
Allow: /

Sitemap: http://www.example.com/feeds/posts/default?orderby=updated

Cách Thay đổi tập tin robots.txt

để chỉnh sửa tập tin robots.txt . truy cập vào phần quản trị -> chọn cài đặt -> tùy chỉnh tìm kiếm
Cấu hình tối ưu robots.txt cho Blogspot (Blogger)

Cách cấu hình file robots.txt tốt cho SEO

Khi một search engine tìm đến web site nào đó trước tiên nó phải kiếm tập tin robots.txt. Vậy tập tin robots.txt là gì ?

 

Tập tin robots.txt là một file dạng text bình thường (có thể dùng trình soạn thảo Notepad để tạo ra) nó chứa nội dung quy định các seach engine được phép hay không được phép truy cập vào một file hay một thư mục của một web site.

Robots.txt được lưu ở thư mục gốc của web site.

Ví dụ như : http://sitename.com/robots.txt

User-agent: googlebot
Disallow: /cgi-bin/

Trong đó User-agent: là đại diện của một search engine, như Googlebot search engine của google. Trong trong trường hợp này Googlebot là được phép index web site. Disallow: là không cho phép thực hiện điều gì đó. Ở ví dụ trên là không cho phép index thư mục “cgi-bin” trong web site.

Nếu bạn muốn tất cả các search engine có thể index web site của bạn, nhưng không được index các trang trong thư mục “cgi-bin” thì sử dụng lệnh sau:

User-agent: *Disallow: /cgi-bin/

Những điều nên tránh:
+ Không sử dụng các chú thích trong file robots.txt, nó có thể làm cho các spider của search engine bị lầm lẫn. Ví dụ:

“Disallow: support # Don’t index the support directory”

+ Không được để khoảng trắng ở đầu dòng lệnh, ví dụ:

User-agent: *Disallow: /cgi-bin/

+Không thay đổi trật tự của các dòng lệnh. Ví dụ:

Disallow: /supportUser-agent: *

+ Không sử dụng quá một thư mục trong dòng lệnh Disallow. Ví dụ:

User-agent: *Disallow: /support /cgi-bin/ images/

các search engine không hiểu định dạng trên. bạn nên viết thế này:

User-agent: *Disallow: /supportDisallow: /cgi-bin/Disallow: /images/

+Phải chắc chắn các mệnh đề, từ sử dụng trong lệnh là đúng. Ví dụ, thư mục của bạn là “cgi-bin” (viết thường, không viết hoa), nhưng khí vào lệnh, bạn lại viết là “Cgi-Bin” thì các search engine không hiểu được.

+ Không nên dùng lệnh Allow trong file robots.txt, bởi vì trong web site của bạn chắc chắn sẽ có một số trang hoặc một số thành phần bạn không muốn bị người khác “nhòm ngó”. nếu bạn sử dụng lệnh Allow, tất cả mọi ngóc ngách trong web site của bạn sẽ bị index!

Bạn có thể kiểm tra file robots.txt của site bằng cách vào Webmaster Tools của google (phải đăng nhập tài khoản) vào Site configuration->Crawler access.
Copy nội dung file robots.txt dán vào ô đâu tiên. Nhấn vào nút Test. Kết quả sẽ hiển thị ở dưới cùng.