课程 1:Python/R 基础回顾与开发环境搭建

Python 基础回顾

Python 是一种功能多样且广泛使用的编程语言,因其可读性和丰富的库而在数据科学领域尤其受欢迎。关键概念包括:

在数据科学中,您经常会使用 Python 完成数据清洗、统计分析、机器学习模型构建和数据可视化等任务。

R 基础回顾

R 是一种强大的语言和环境,专为统计计算和图形设计。关键概念包括:

R 在进行深入的统计建模、数据可视化和报告方面尤其强大。

搭建您的开发环境

我们将使用 Anaconda,这是一个流行的数据科学 Python 和 R 发行版,它简化了包管理和部署。Jupyter Notebook 将是我们的交互式编码环境。

步骤 1:安装 Anaconda

  1. 前往 Anaconda 发行版下载页面
  2. 下载适合您操作系统(Windows、macOS 或 Linux)的安装程序。
  3. 运行安装程序并按照屏幕上的说明进行操作。通常建议接受默认设置。

步骤 2:启动 Jupyter Notebook

  1. Windows:打开 Anaconda Navigator,然后启动 Jupyter Notebook。或者,打开 Anaconda Prompt 并输入 jupyter notebook
  2. macOS/Linux:打开您的终端并输入 jupyter notebook
  3. 这将在您的默认网络浏览器中打开 Jupyter Notebook,通常地址为 http://localhost:8888/

步骤 3:在 Jupyter Notebook 中设置 R(可选,但推荐)

要在 Jupyter Notebook 中使用 R,您需要安装一个 R 内核。Anaconda 使这个过程相对简单:

  1. 打开 Anaconda Prompt (Windows) 或您的终端 (macOS/Linux)。
  2. 安装包含 IRkernel 的 R essentials 包:
    conda install -c r r-essentials
  3. 如果上述方法不起作用,或者您更喜欢最小化安装,请尝试仅安装内核:
    conda install -c r r-irkernel
  4. 安装完成后,如果 Jupyter Notebook 正在运行,请重新启动它。您现在应该可以在创建新 notebook 时看到 "R" 选项。

验证您的设置

让我们在 Python 和 R 中运行简单的代码示例,以确保一切正常工作。

Python 验证

  1. 在 Jupyter Notebook 中,点击“新建”并选择“Python 3”(或类似名称)以创建一个新的 Python notebook。
  2. 在代码单元格中,键入以下 Python 代码并运行它(Shift + Enter):
# Python 示例:使用 Pandas 进行基本数据操作
import pandas as pd

# 创建一个简单的 DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [25, 30, 35],
        'City': ['New York', 'Paris', 'London']}
df = pd.DataFrame(data)

print("我的第一个 Python DataFrame:") # "My first Python DataFrame:"
print(df)

# 执行一个简单的操作
average_age = df['Age'].mean()
print(f"\n平均年龄:{average_age}") # "Average age:"

预期输出:

我的第一个 Python DataFrame:
      Name  Age      City
0    Alice   25  New York
1      Bob   30     Paris
2  Charlie   35    London

平均年龄:30.0

R 验证

  1. 如果您安装了 R 内核,请返回 Jupyter Notebook 仪表板,点击“新建”并选择“R”以创建一个新的 R notebook。
  2. 在代码单元格中,键入以下 R 代码并运行它(Shift + Enter):
# R 示例:基本向量操作和摘要
# 创建一个数值向量
ages <- c(25, 30, 35, 40, 45)

print("我的第一个 R 年龄向量:") # "My first R vector of ages:"
print(ages)

# 计算平均年龄
mean_age <- mean(ages)
paste("R 中的平均年龄:", mean_age) # "Mean age in R:"

# 显示向量的摘要
summary(ages)

预期输出(格式会略有不同):

[1] "我的第一个 R 年龄向量:"
[1] 25 30 35 40 45
[1] "R 中的平均年龄:35"
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   25.0    30.0    35.0    35.0    40.0    45.0 

如果您可以毫无错误地运行这些示例,那么您的 Jupyter Notebook 基本 Python 和 R 环境已正确设置!您现在已准备好学习数据科学中更高级的主题。