为SEO学习Python 分享7个技巧帮助你做数据分析工作-51CTO.COM

作为一名SEO专业人士，我的日常任务也在不断学习。在去年年底开始学习Python之后，我发现自己越来越多地将我所学的东西付诸实践。

这包括相当简单的任务，例如比较字数或状态码随时间的变化，以及分析包括内部链接和日志文件分析在内的工作。

此外，Python还非常有用：

用于处理大型数据集
对于通常会使Excel崩溃并需要复杂分析以提取任何有意义的见解的文件。

Python如何帮助技术SEO

Python以多种方式授权SEO专业人员自动化能力通常需要大量的时间来完成重复性的任务。

这意味着我们有更多的时间(和精力)用于重要的战略工作和无法自动化的优化工作。

它还使我们能够更有效地处理大量数据，以便做出更多数据驱动的决策，从而为我们的工作和客户的工作提供有价值的回报。

事实上，有数据公司研究发现，数据驱动型组织获得客户的可能性是其他组织的23倍，而留住这些客户的可能性是6倍。

它对备份你的任何想法或策略也很有帮助，因为你可以用你拥有的数据来量化这些想法或策略，并在此基础上做出决策，同时在努力实现事情时也有更大的杠杆作用。

将Python添加到SEO工作流

将Python添加到工作流中的最佳方法是：

想一想什么是可以自动化的，尤其是在执行乏味的任务时。
确定您正在执行或已完成的分析工作中的任何差距。

我发现开始学习的另一个有用的方法是使用你已经访问过的数据，并且提取有价值的见解使用Python

这就是我如何学会了我将在本文中分享的大部分东西。

学习Python并不是成为一个好的SEO专家的必要条件，但是如果你有兴趣了解更多关于Python如何帮助你做好准备的话。

开始需要什么

为了从本文中获得最佳效果，您需要以下几点：

来自网站的一些数据(例如，对网站的爬网、统计分析或搜索控制台数据)。
一个运行代码的IDE(集成开发环境)，对于入门我推荐Google Colab或Jupyter Notebook .
开放的心态。这也许是最重要的一点，不要害怕打破某些东西或犯错误，找到问题的原因和解决问题的方法是我们作为SEO专业人士所做的工作的一个重要部分，因此将同样的心态应用于学习Python有助于减轻任何压力。

1、善用网络现有的资源

一个很好的开始是尝试Python中可用的许多库中的一些。

有很多要探索的库，但我发现对SEO相关任务最有用的三个任务是Pandas，Requests和Beautiful Soup。

Pandas

Pandas是一个用于处理表数据的Python库，它允许在关键数据结构是数据帧的情况下进行高级数据操作。

数据帧本质上是Pandas的Excel电子表格但是，它不仅限于Excel的行和字节限制，而且比Excel快得多，因此效率更高。

开始使用Pandas的最佳方法是获取一个简单的CSV数据，例如，对您的网站进行爬网，并将其保存在Python中作为一个DataFrame。

一旦你有了这个存储，你就可以执行许多不同的分析任务，包括聚合、透视和清理数据。

import pandas as pd 
df = pd.read_csv("/file_name/and_path") 
df.head

requests

下一个库名为requests，用于在Python中发出HTTP请求。

它使用不同的请求方法(如GET和POST)发出请求，结果存储在Python中。

其中一个例子是一个简单的URL GET请求，它将打印出一个页面的状态代码，然后可以使用它来创建一个简单的决策函数。

import requests 
 
#Print HTTP response from page  
response = requests.get('https://www.xxxxxxxx.com') 
print(response) 
 
#Create decision making function  
if response.status_code == 200: 
    print('Success!') 
elif response.status_code == 404: 
    print('Not Found.')

您还可以使用不同的请求，例如headers，它显示关于页面的有用信息，例如内容类型和缓存响应所需时间的时间限制。

#Print page header response 
headers = response.headers 
print(headers) 
 
#Extract item from header response 
response.headers['Content-Type']

此外，还可以模拟特定的用户代理，例如Googlebot，以便提取该特定bot在抓取页面时看到的响应。

headers = {'User-Agent': 'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)'} 
ua_response = requests.get('https://www.xxxx.com/', headers=headers) 
print(ua_response)

Beautiful Soup

最后一个库名为Beautiful Soup，用于从HTML和XML文件 .

它最常用于web抓取，因为它可以将HTML文档转换为不同的Python对象。

例如，您可以获取一个URL，并使用beautifulsoup和Requests库一起提取页面的标题。

#Beautiful Soup  
from bs4 import BeautifulSoup  
import requests  
 
#Request URL to extract elements from 
url= 'https://www.xxxxxxxxx.com/knowledge/technical-seo-library/' 
req = requests.get(url) 
soup = BeautifulSoup(req.text, "html.parser") 
 
#Print title from webpage  
title = soup.title 
print(title)

此外，Beautiful Soup允许您从页面中提取其他元素，例如页面上找到的所有a href链接。

for link in soup.find_all('a'): 
    print(link.get('href'))

2、分段分割页面

第一个任务涉及到对网站的页面进行细分，这实际上是根据页面的URL结构或页面标题将页面按类别分组。

首先，使用简单的正则表达式根据URL将网站分成不同的段：

segment_definitions = [ 
    [(r'\/blog\/'), 'Blog'], 
    [(r'\/technical-seo-library\/'), 'Technical SEO Library'], 
    [(r'\/hangout-library\/'), 'Hangout Library'], 
    [(r'\/guides\/'), 'Guides'], 
    ]

接下来，我们添加一个小函数，它将遍历URL列表并为每个URL分配一个类别，然后将这些段添加到包含原始URL列表的DataFrame中的新列中。

use_segment_definitions = True 
 
def segment(url): 
     
    if use_segment_definitions == True: 
        for segment_definition in segment_definitions: 
            if re.findall(segment_definition[0], url): 
                return segment_definition[1] 
        return 'Other' 
 
df['segment'] = df['url'].apply(lambda x: get_segment(x))

还有一种方法可以使用URL结构在不必手动创建片段的情况下对页面进行分段。这将获取包含在主域后面的文件夹，以便对每个URL进行分类。

同样，这将向我们的DataFrame添加一个新列，其中包含生成的段。

def get_segment(url): 
   
        slug = re.search(r'https?:\/\/.*?\//?([^\/]*)\/', url) 
        if slug: 
            return slug.group(1) 
        else: 
            return 'None' 
 
# Add a segment column, and make into a category 
df['segment'] = df['url'].apply(lambda x: get_segment(x))

三、重定向相关性

如果我不了解使用Python可能实现的任务，那么我将从未考虑过要完成此任务。

在迁移之后，当重定向到位时，我们希望通过查看每个页面的类别和深度是否已更改或保持不变来确定重定向映射是否准确。

这涉及到在迁移前和迁移后对站点进行爬网，并根据其URL结构对每个页面进行分段，如上所述。

在这之后，我使用了一些简单的比较运算符(它们内置于Python中)来确定每个URL的类别和深度是否发生了更改。

df['category_match'] = df['old_category'] == (df['redirected_category']) 
df['segment_match'] = df['old_segment'] == (df['redirected_segment']) 
df['depth_match'] = df['old_count'] == (df['redirected_count']) 
df['depth_difference'] = df['old_count'] - (df['redirected_count'])

由于这本质上是一个自动化的脚本，它将在每个URL中运行以确定类别或深度是否已更改，并将结果作为新的数据帧输出。

新的DataFrame将包含额外的列，如果它们匹配，则显示True;如果不匹配，则显示False。

就像在Excel中一样，Pandas库使您能够基于原始数据帧的索引来透视数据。

例如，获取迁移后有多少URL具有匹配的类别。

此分析将使您能够查看已设置的重定向规则，并确定是否存在迁移前后差异较大的类别，这些类别可能需要进一步调查。

4、内部链接分析

分析内部链接对于确定站点的哪些部分链接最多，以及发现改进站点内部链接的机会非常重要。

为了执行此分析，我们只需要从web爬网中获取一些数据列，例如，显示页面之间链接的任何度量。

再次，我们想分割这些数据，以便确定网站的不同类别并分析它们之间的链接。

internal_linking_pivot['followed_links_in_count'] = (internal_linking_pivot['followed_links_in_count']).apply('{:.1f}'.format) 
internal_linking_pivot['links_in_count'] = (internal_linking_pivot2['links_in_count']).apply('{:.1f}'.format) 
internal_linking_pivot['links_out_count'] = (internal_linking_pivot['links_out_count']).apply('{:.1f}'.format) 
internal_linking_pivot