课程 1：Python/R 基础回顾与开发环境搭建

Python 基础回顾

Python 是一种功能多样且广泛使用的编程语言，因其可读性和丰富的库而在数据科学领域尤其受欢迎。关键概念包括：

变量和数据类型：存储不同类型的数据（整数、浮点数、字符串、布尔值、列表、字典）。
运算符：执行算术、比较和逻辑运算。
控制流：使用 if-else 语句和循环（for、while）来控制代码的执行。
函数：定义可重用的代码块以执行特定任务。
模块和包：导入外部库，如 NumPy、Pandas 和 Matplotlib，用于数据操作、分析和可视化。

在数据科学中，您经常会使用 Python 完成数据清洗、统计分析、机器学习模型构建和数据可视化等任务。

R 基础回顾

R 是一种强大的语言和环境，专为统计计算和图形设计。关键概念包括：

变量和数据结构：R 拥有多种数据结构，如向量、矩阵、数组、列表和数据框，这些对于统计分析至关重要。
运算符：与 Python 类似，R 也有算术、逻辑和赋值运算符。
控制结构：条件语句（if-else）和循环（for、while、repeat）用于控制程序流程。
函数：编写函数来封装一系列操作。R 拥有大量用于统计任务的内置函数。
包：R 的优势在于其广泛的包生态系统（例如，dplyr 用于数据操作，ggplot2 用于可视化，caret 用于机器学习）。

R 在进行深入的统计建模、数据可视化和报告方面尤其强大。

搭建您的开发环境

我们将使用 Anaconda，这是一个流行的数据科学 Python 和 R 发行版，它简化了包管理和部署。Jupyter Notebook 将是我们的交互式编码环境。

步骤 1：安装 Anaconda

前往 Anaconda 发行版下载页面。
下载适合您操作系统（Windows、macOS 或 Linux）的安装程序。
运行安装程序并按照屏幕上的说明进行操作。通常建议接受默认设置。

步骤 2：启动 Jupyter Notebook

Windows：打开 Anaconda Navigator，然后启动 Jupyter Notebook。或者，打开 Anaconda Prompt 并输入 jupyter notebook。
macOS/Linux：打开您的终端并输入 jupyter notebook。
这将在您的默认网络浏览器中打开 Jupyter Notebook，通常地址为 http://localhost:8888/。

步骤 3：在 Jupyter Notebook 中设置 R（可选，但推荐）

要在 Jupyter Notebook 中使用 R，您需要安装一个 R 内核。Anaconda 使这个过程相对简单：

打开 Anaconda Prompt (Windows) 或您的终端 (macOS/Linux)。
安装包含 IRkernel 的 R essentials 包：
```
conda install -c r r-essentials
```
如果上述方法不起作用，或者您更喜欢最小化安装，请尝试仅安装内核：
```
conda install -c r r-irkernel
```
安装完成后，如果 Jupyter Notebook 正在运行，请重新启动它。您现在应该可以在创建新 notebook 时看到 "R" 选项。

验证您的设置

让我们在 Python 和 R 中运行简单的代码示例，以确保一切正常工作。

Python 验证

在 Jupyter Notebook 中，点击“新建”并选择“Python 3”（或类似名称）以创建一个新的 Python notebook。
在代码单元格中，键入以下 Python 代码并运行它（Shift + Enter）：

# Python 示例：使用 Pandas 进行基本数据操作
import pandas as pd

# 创建一个简单的 DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [25, 30, 35],
        'City': ['New York', 'Paris', 'London']}
df = pd.DataFrame(data)

print("我的第一个 Python DataFrame：") # "My first Python DataFrame:"
print(df)

# 执行一个简单的操作
average_age = df['Age'].mean()
print(f"\n平均年龄：{average_age}") # "Average age:"

预期输出：

我的第一个 Python DataFrame：
      Name  Age      City
0    Alice   25  New York
1      Bob   30     Paris
2  Charlie   35    London

平均年龄：30.0

R 验证

如果您安装了 R 内核，请返回 Jupyter Notebook 仪表板，点击“新建”并选择“R”以创建一个新的 R notebook。
在代码单元格中，键入以下 R 代码并运行它（Shift + Enter）：

# R 示例：基本向量操作和摘要
# 创建一个数值向量
ages <- c(25, 30, 35, 40, 45)

print("我的第一个 R 年龄向量：") # "My first R vector of ages:"
print(ages)

# 计算平均年龄
mean_age <- mean(ages)
paste("R 中的平均年龄：", mean_age) # "Mean age in R:"

# 显示向量的摘要
summary(ages)

预期输出（格式会略有不同）：

[1] "我的第一个 R 年龄向量："
[1] 25 30 35 40 45
[1] "R 中的平均年龄：35"
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   25.0    30.0    35.0    35.0    40.0    45.0

如果您可以毫无错误地运行这些示例，那么您的 Jupyter Notebook 基本 Python 和 R 环境已正确设置！您现在已准备好学习数据科学中更高级的主题。