首页>Program>source

我正在从.csv文件加载数据集,该数据集包含特殊字符(例如€,ă或ș)。

通常,它们应该以UTF-8编码加载,但是在jupyter笔记本中显示它们时,所有这些字符都无法正确呈现。

示例: 25 000 € 被视为

我用来加载.csv文件的代码:

inter_df = pd.read_csv(
            f,
            header=0,
            sep='|',
            encoding='utf-8',
            engine='python',
            error_bad_lines=False
        )

有人可以提出解决这些特殊字符的解决方案吗?

最新回答
  • 3天前
    1 #

    您看到的是windows-1252编码解释了UTF-8字符。在UTF-8中,€是E282AC,对应于 windows-1252ᬬ.我不认为这是pandas问题,因为您的文件已使用utf-8解码器正确解码,否则应该出现错误.由于您提到过将其加载到jupyter Notebook中,因此显示的编码由您的浏览器决定.通常,jupyter会发送一个 Content-Type 标头,并指定字符集为UTF-8.但是,如果jupyter太旧或浏览器太旧,它们可能不会使用此属性(据我所知,如果您未将IE编码设置设为自动,则IE 11将忽略此属性).因此,浏览器将尝试以windows-1252编码解释这些字符。

  • python:如何从多个列表的输出中选择一个列表?
  • oop:了解Python中对类对象的可变性和多变量分配