欢迎光临杨雨的个人博客站!

杨雨个人网站-杨雨个人博客-杨照佳

杨雨个人博客网站

关注互联网和搜索引擎的个人博客网站

首页 > WEB开发 > PHP >

PHP与UTF-8的最佳实践

发布时间:2016-12-13  编辑:杨雨个人博客网站   点击:   

  《PHP中的字符串、编码、UTF-8》一文中描写了一些列的基本常识,较量死板,此刻来说点有效的——PHP 字符串处理赏罚的最佳实践,本文是“PHP、字符串、编码、UTF-8”相干常识的第二部门。先说结论——在 PHP 中的各个方面行使 UTF-8编码

PHP与UTF-8的最佳实践

  PHP 说话层面是不支持 Unicode字符集的,可是可以通过 UTF-8 编码能处理赏罚大部门题目。

  最佳实践就是明晰知道输入编码(不知道就检测),内部同一转换为 UTF-8 编码,输出编码也同一是 UTF-8编码。

  PHP 层面如那里理赏罚 UTF-8

  当操纵 Unicode 字符集的时辰,请务必安装 mbstring 扩展,并行使响应的函数取代原生的字符串函数。举个例子,一个文件编码为 UTF-8 的 PHP 代码,若是行使 strlen() 函数是错误的,请行使 mb_strlen() 函数取代。

  mbstring 扩展大部门的函数都必要基于一个编码(内部编码)来处理赏罚,请务必同一行使 UTF-8 编码,这个大部门可以在 PHP.INI 中设置。

  从 PHP 5.6 开始,default_charset 设置可以替代 mbstring.http_input,mbstring.http_output 。

  其它一个重要的设置就是 mbstring.language,这个默认值是 Neutral(UTF-8)。

  留意文件编码和 mbstring 扩展的内部编码不是统一个观念。

  归纳综合的说来:

  • PHP.INI 中涉及到 mbstring 扩展的部门只管行使 UTF-8。
  • 请用 mbstring 扩展函数取代原生字符串操纵函数。
  • 在行使相干函数的时辰,请务必相识你操纵的字符的编码是什么,在行使对应函数的时辰,表现的写上 UTF-8 编码参数,好比 Htmlentities() 函数的第三个参数表现写上 UTF-8。

  文件 IO 操纵 如那里理赏罚 UTF-8

  这里举个例子,若是你要打开一个文件,可是不知道文件内容是什么编码的,那么如那里理赏罚呢?

  最佳实践就是,在打开的时辰同一转换成 UTF-8,修改内容后就再转回原本的编码并生涯到文件。看代码把:

if ( mb_internal_encoding()!="UTF-8") {
        mb_internal_encoding("UTF-8");
}

$file = "file.txt"; //一个编码为gbk的中文文件
$str= file_get_contents($file);
//不管来历是什么编码,同一表现的时辰转换为 UTF-8
 if (mb_check_encoding($str,"GBK")) 
    $str =  mb_convert_encoding($str,"UTF-8",“GBK”); 

$str ="修改内容";
$str =  mb_convert_encoding($str,$srcbm,"UTF-8"); //原样转归去
file_put_contents($file,$str);

  Mysql 和 UTF-8 的最佳实践

  这个相对简朴,起首担保你的 Mysql 都是 UTF-8。然后 Mysql 客户端毗连的时辰也保持 UTF-8,详细到 PHP 中,就是 imysql 可能 PDO 扩展毗连 Mysql 的时辰都配置 UTF-8 作为毗连编码,二边保持同等,一样平常就不会碰着题目。

  有乐趣可以看看这篇文章

  赏识器和 UTF-8 的最佳实践

  这个也较量简朴,就是你的输出内容若是是网页,那么你的字符串处理赏罚输出最总请保持为 UTF-8 ;同时 PHP.INI 中也明晰设定 default_charset 为 UTF-8;HTML 的 Meta Tag 也明晰标识为 UTF-8。

  此刻万事大吉了吗,并没有,固然处事器和赏识器让用户行使 UTF-8 编码,可是用户的举动并没有束缚性,他也许输入的是其他编码的字符,可能上传的文件名是其他编码的字符,那么怎么办呢?可以通过 mb_http_input() 和 mb_check_encoding() 函数来检测用户的编码,然后内部转换为 UTF-8。确保在任何一个层面,最终处理赏罚的是 UTF-8 编码。换句话说,必要本领可以或许知晓你的输入是什么编码的,处理赏罚完成后节制输出的编码是 UTF-8。

  不提议行使 mbstring.encoding_translation 指令 和 mb_detect_encoding() 函数。熬煎我半天。

  操纵体系和 UTF-8 的最佳实践

  因为操纵体系的缘故起因,PHP 处理赏罚 Unicode 文件名的时辰会有差异的处理赏罚机制。

  在 Linux 中,文件名始终是 UTF-8 编码的,而在中文 Windows 情形下,文件名始终是 GBK 编码的,记着这一点就可以了。

  通过例子声名下:

//呼吁行措施函数,运行在中文版 Windows 10 操纵体系 ,文件编码为 UTF-8

function filenameexample() {
    $filename = "测试.txt" ;
    $gbk_filename = iconv("UTF-8","GBK",$filename);
    file_put_contents($gbk_filename, "测试");
    echo file_get_contents($gbk_filename);
}

function scandirexample() {
    $arr = scandir("./tmp");
    foreach ($arr as $v) {
        if ($v == "." || $v =="..")
            continue ;
        $filename = iconv( "GBK","UTF-8",$v ) ;
        $content = file_get_contents("./tmp/" . $v );
    }
}

  若是不想写写兼容 Windows 和 linux 的措施,可以对文件名举办 urlencode 编码,好比:

 function urlencodeexample() {
    $filename = "测试2.txt" ;
    $urlencodefilename = urlencode($filename) ;
    file_put_contents($urlencodefilename, "测试");
    echo file_get_contents($urlencodefilename);
 }

  在用 PHP 通过 header() 函数下载文件的时辰,也要思量赏识器和操纵体系(大部门人行使的是 Windows),对付 Chrome 来说,输出的文件名编码可所以 UTF-8,Chrome 会自动将文件名转换为 GBK 编码。

  而对付低版本的 IE 来说,它担任了操纵体系的情形,以是下载文件名若是是中文必需转码为 UTF-8 编码,不然下载的时辰用户看到的是乱码文件名。通过代码来声名:

$agent=$_SERVER["HTTP_USER_AGENT"];
if(strpos($agent,'MSIE')!==false  {
    $filename = iconv("UTF-8","GBK","附件.txt");
    header("Content-Disposition: attachment; filename=\"$filename\"");
}
本文地址:http://itbyc.com/php/14957.html
转载请注明出处。
分享是一种快乐,也是一种美德:
博客首页 | WEB开发 | 网站运营 | CMS使用教程 滇ICP备14002061号-1