Как определить php многобайтовая кодировка или нет
Перейти к содержимому

Как определить php многобайтовая кодировка или нет

  • автор:

mb_check_encoding

Проверяет, допустим ли заданный поток байтов для заданной кодировки. Если значение параметра value — массив ( array ), то все ключи и значения проверяются рекурсивно. Функция полезна для предотвращения атаки, которая называется «Атака неправильной кодировкой».

Список параметров

Поток байтов или массив ( array ) для проверки. Если не задан, функция проверит все входные данные с начала запроса.

Внимание

Начиная с PHP 8.1.0 пропуск этого параметра или передача значения null устарели.

Возвращаемые значения

Возвращает true в случае успешного выполнения или false в случае возникновения ошибки.

Список изменений

Версия Описание
8.1.0 Вызов функции с null в качестве параметра value или без аргумента устарело.
8.0.0 Параметры value и encoding могут принимать значение null .
7.2.0 Функция теперь также принимает массив ( array ) в value . Ранее поддерживались только строки ( string ).

User Contributed Notes

There are no user contributed notes for this page.

  • Функции для работы с многобайтовыми строками
    • mb_​check_​encoding
    • mb_​chr
    • mb_​convert_​case
    • mb_​convert_​encoding
    • mb_​convert_​kana
    • mb_​convert_​variables
    • mb_​decode_​mimeheader
    • mb_​decode_​numericentity
    • mb_​detect_​encoding
    • mb_​detect_​order
    • mb_​encode_​mimeheader
    • mb_​encode_​numericentity
    • mb_​encoding_​aliases
    • mb_​ereg_​match
    • mb_​ereg_​replace_​callback
    • mb_​ereg_​replace
    • mb_​ereg_​search_​getpos
    • mb_​ereg_​search_​getregs
    • mb_​ereg_​search_​init
    • mb_​ereg_​search_​pos
    • mb_​ereg_​search_​regs
    • mb_​ereg_​search_​setpos
    • mb_​ereg_​search
    • mb_​ereg
    • mb_​eregi_​replace
    • mb_​eregi
    • mb_​get_​info
    • mb_​http_​input
    • mb_​http_​output
    • mb_​internal_​encoding
    • mb_​language
    • mb_​list_​encodings
    • mb_​ord
    • mb_​output_​handler
    • mb_​parse_​str
    • mb_​preferred_​mime_​name
    • mb_​regex_​encoding
    • mb_​regex_​set_​options
    • mb_​scrub
    • mb_​send_​mail
    • mb_​split
    • mb_​str_​pad
    • mb_​str_​split
    • mb_​strcut
    • mb_​strimwidth
    • mb_​stripos
    • mb_​stristr
    • mb_​strlen
    • mb_​strpos
    • mb_​strrchr
    • mb_​strrichr
    • mb_​strripos
    • mb_​strrpos
    • mb_​strstr
    • mb_​strtolower
    • mb_​strtoupper
    • mb_​strwidth
    • mb_​substitute_​character
    • mb_​substr_​count
    • mb_​substr
    • Copyright © 2001-2024 The PHP Group
    • My PHP.net
    • Contact
    • Other PHP.net sites
    • Privacy policy

    Введение

    Хотя и существует множество языков, в которых все необходимые символы можно закодировать одним восьмибитным значением, существуют также и языки, требующие столько символов, что они не умещаются в один байт (Байт состоит из восьми бит. Каждый бит может содержать одно из двух различных значений, единицу или ноль. Поэтому, один байт может задавать только 256 уникальных значений (два в восьмой степени)). Схемы кодирования, использующие многобайтовые строки, были разработаны для того, чтобы можно было пользоваться более, чем 256 символами, при этом продолжая работать со строками, как будто они закодированы в обычной побайтовой системе.

    Когда вы работаете с многобайтовыми строками (удаляете пробельные символы с помощью функции trim, разбиваете строку на массив по регулярному выражению с помощью функции split, и т.д.), необходимо использовать специальные функции, так как в таких кодировках два или более последовательных байта могут задавать один символ. Иначе, если применить функцию, не умеющую работать с многобайтовыми строками, она, вероятно, не сможет определить начало и конец многобайтовых символов, и в итоге вы получите строку-мусор, которая, скорее всего, потеряет исходное значение.

    mbstring предоставляет функции для работы с многобайтовыми строками, которые облегчают работу c многобайтовыми кодировками в PHP. Кроме того, mbstring занимается конвертированием строк из одной кодировки в другую. mbstring предназначен для работы с Unicode-кодировками, такими, как UTF-8 и UCS-2, а также со многими однобайтовыми кодировками для удобства (перечисленными в списке Поддерживаемых кодировок символов).

    User Contributed Notes

    There are no user contributed notes for this page.

    • Многобайтовые строки
      • Введение
      • Установка и настройка
      • Предопределённые константы
      • Краткий обзор поддерживаемых кодировок
      • Основы японских многобайтных кодировок
      • Ввод и вывод HTTP
      • Поддерживаемые кодировки символов
      • Механизм перегрузки функций
      • Требования, предъявляемые к кодировкам символов в PHP
      • Функции для работы с многобайтовыми строками
      • Copyright © 2001-2024 The PHP Group
      • My PHP.net
      • Contact
      • Other PHP.net sites
      • Privacy policy

      pg_client_encoding

      PostgreSQL поддерживает автоматическое преобразование наборов символов между сервером и клиентом для некоторых кодировок. pg_client_encoding() возвращает клиентскую кодировку в виде строки, представляющей собой стандартный идентификатор кодировки PostgreSQL.

      Замечание:

      Для работы функции требуется PostgreSQL версии 7.0 или выше. В случае, если libpg скомпилирована без поддержки многобайтовых кодировок, pg_client_encoding() всегда возвращает SQL_ASCII . Набор поддерживаемых кодировок зависит от версии сервера БД и описан в документации PostgreSQL.

      Функция, используемая для вызова: pg_clientencoding() .

      Список параметров

      Экземпляр PgSql\Connection . Если параметр connection указан как null , выбирается соединение по умолчанию. Соединение по умолчанию — это последнее соединение, которое установила функция pg_connect() или pg_pconnect() .

      Внимание

      Начиная с версии PHP 8.1.0, использование соединения по умолчанию устарело.

      Ссылки

      Please note that all the discussion about mb_str_replace in the comments is pretty pointless. str_replace works just fine with multibyte strings:

      $string = ‘漢字はユニコード’ ;
      $needle = ‘は’ ;
      $replace = ‘Foo’ ;

      echo str_replace ( $needle , $replace , $string );
      // outputs: 漢字Fooユニコード

      ?>

      The usual problem is that the string is evaluated as binary string, meaning PHP is not aware of encodings at all. Problems arise if you are getting a value «from outside» somewhere (database, POST request) and the encoding of the needle and the haystack is not the same. That typically means the source code is not saved in the same encoding as you are receiving «from outside». Therefore the binary representations don’t match and nothing happens.

      18 years ago

      PHP can input and output Unicode, but a little different from what Microsoft means: when Microsoft says «Unicode», it unexplicitly means little-endian UTF-16 with BOM(FF FE = chr(255).chr(254)), whereas PHP’s «UTF-16» means big-endian with BOM. For this reason, PHP does not seem to be able to output Unicode CSV file for Microsoft Excel. Solving this problem is quite simple: just put BOM infront of UTF-16LE string.

      $unicode_str_for_Excel = chr(255).chr(254).mb_convert_encoding( $utf8_str, ‘UTF-16LE’, ‘UTF-8’);

      5 years ago

      SOME multibyte encodings can safely be used in str_replace() and the like, others cannot. It’s not enough to ensure that all the strings involved use the same encoding: obviously they have to, but it’s not enough. It has to be the right sort of encoding.

      UTF-8 is one of the safe ones, because it was designed to be unambiguous about where each encoded character begins and ends in the string of bytes that makes up the encoded text. Some encodings are not safe: the last bytes of one character in a text followed by the first bytes of the next character may together make a valid character. str_replace() knows nothing about «characters», «character encodings» or «encoded text». It only knows about the string of bytes. To str_replace(), two adjacent characters with two-byte encodings just looks like a sequence of four bytes and it’s not going to know it shouldn’t try to match the middle two bytes.

      While real-world examples can be found of str_replace() mangling text, it can be illustrated by using the HTML-ENTITIES encoding. It’s not one of the safe ones. All of the strings being passed to str_replace() are valid HTML-ENTITIES-encoded text so the «all inputs use the same encoding» rule is satisfied.

      $string = ‘x<y’ ;
      mb_internal_encoding ( ‘HTML-ENTITIES’ );

      echo «Text length: » , mb_strlen ( $string ), «\tString length: » , strlen ( $string ), » . » , $string , «\n» ;
      // Three characters, six bytes; the text reads «x

      $newstring = str_replace ( ‘l’ , ‘g’ , $string );
      echo «Text length: » , mb_strlen ( $newstring ), «\tString length: » , strlen ( $newstring ), » . » , $newstring , «\n» ;
      // Three characters, six bytes, but now the text reads «x>y»; the wrong characters have changed.

      $newstring = str_replace ( ‘;’ , ‘:’ , $string );
      echo «Text length: » , mb_strlen ( $newstring ), «\tString length: » , strlen ( $newstring ), » . » , $newstring , «\n» ;
      // Now even the length of the text is wrong and the text is trashed.

      ?>

      Even though neither ‘l’ nor ‘;’ appear in the text «xy» and in the other it broke the encoding completely.

      One more reason to use UTF-8 if you can, I guess.

      16 years ago

      Note that some of the multi-byte functions run in O(n) time, rather than constant time as is the case for their single-byte equivalents. This includes any functionality requiring access at a specific index, since random access is not possible in a string whose number of bytes will not necessarily match the number of characters. Affected functions include: mb_substr(), mb_strstr(), mb_strcut(), mb_strpos(), etc.

      14 years ago

      function mb_str_pad ( $input , $pad_length , $pad_string , $pad_style , $encoding = «UTF-8» ) <
      return str_pad ( $input ,
      strlen ( $input )- mb_strlen ( $input , $encoding )+ $pad_length , $pad_string , $pad_style );
      >
      ?>

      9 years ago

      A small note for those who will follow rawsrc at gmail dot com’s advice: mb_split uses regular expressions, in which case it may make sense to use built-in function mb_ereg_replace.

      10 years ago

      Yet another single-line mb_trim() function

      function mb_trim ( $string , $trim_chars = ‘\s’ ) return preg_replace ( ‘/^[‘ . $trim_chars . ‘]*(?U)(.*)[‘ . $trim_chars . ‘]*$/u’ , ‘\\1’ , $string );
      >
      $string = ‘ «some text.» ‘ ;
      echo mb_trim ( $string , ‘\s».’ );
      //some text
      ?>

      17 years ago

      UTF-16LE solution for CSV for Excel by Eugene Murai works well:
      $unicode_str_for_Excel = chr(255).chr(254).mb_convert_encoding( $utf8_str, ‘UTF-16LE’, ‘UTF-8’);

      However, then Excel on Mac OS X doesn’t identify columns properly and its puts each whole row in its own cell. In order to fix that, use TAB «\\t» character as CSV delimiter rather than comma or colon.

      You may also want to use HTTP encoding header, such as
      header( «Content-type: application/vnd.ms-excel; charset=UTF-16LE» );

      14 years ago

      This would be one way to create a multibyte substr_replace function

      function mb_substr_replace ( $output , $replace , $posOpen , $posClose ) <
      return mb_substr ( $output , 0 , $posOpen ). $replace . mb_substr ( $output , $posClose + 1 );
      >
      ?>

      7 years ago

      str_replace is NOT multi-bite safe.

      This Ukrainian word gives a bug when used in the next code: відео

      $result = str_replace(str_split($rubishcharacters), ‘ ‘, $searchstring);

      15 years ago

      PHP5 has no mb_trim(), so here’s one I made. It work just as trim(), but with the added bonus of PCRE character classes (including, of course, all the useful Unicode ones such as \pZ).

      Unlike other approaches that I’ve seen to this problem, I wanted to emulate the full functionality of trim() — in particular, the ability to customise the character list.

      /**
      * Trim characters from either (or both) ends of a string in a way that is
      * multibyte-friendly.
      *
      * Mostly, this behaves exactly like trim() would: for example supplying ‘abc’ as
      * the charlist will trim all ‘a’, ‘b’ and ‘c’ chars from the string, with, of
      * course, the added bonus that you can put unicode characters in the charlist.
      *
      * We are using a PCRE character-class to do the trimming in a unicode-aware
      * way, so we must escape ^, \, — and ] which have special meanings here.
      * As you would expect, a single \ in the charlist is interpretted as
      * «trim backslashes» (and duly escaped into a double-\ ). Under most circumstances
      * you can ignore this detail.
      *
      * As a bonus, however, we also allow PCRE special character-classes (such as ‘\s’)
      * because they can be extremely useful when dealing with UCS. ‘\pZ’, for example,
      * matches every ‘separator’ character defined in Unicode, including non-breaking
      * and zero-width spaces.
      *
      * It doesn’t make sense to have two or more of the same character in a character
      * class, therefore we interpret a double \ in the character list to mean a
      * single \ in the regex, allowing you to safely mix normal characters with PCRE
      * special classes.
      *
      * *Be careful* when using this bonus feature, as PHP also interprets backslashes
      * as escape characters before they are even seen by the regex. Therefore, to
      * specify ‘\\s’ in the regex (which will be converted to the special character
      * class ‘\s’ for trimming), you will usually have to put *4* backslashes in the
      * PHP code — as you can see from the default value of $charlist.
      *
      * @param string
      * @param charlist list of characters to remove from the ends of this string.
      * @param boolean trim the left?
      * @param boolean trim the right?
      * @return String
      */
      function mb_trim ( $string , $charlist = ‘\\\\s’ , $ltrim = true , $rtrim = true )
      <
      $both_ends = $ltrim && $rtrim ;

      if( $both_ends )
      <
      $pattern_middle = $left_pattern . ‘|’ . $right_pattern ;
      >
      elseif( $ltrim )
      <
      $pattern_middle = $left_pattern ;
      >
      else
      <
      $pattern_middle = $right_pattern ;
      >

      return preg_replace ( «/ $pattern_middle /usSD» , » , $string ) );
      >
      ?>

      10 years ago

      Here’s a cheap and cheeky function to remove leading and trailing *punctuation* (or more specifically «non-word characters») from a UTF-8 string in whatever language. (At least it works well enough for Japanese and English.)

      /**
      * Trim singlebyte and multibyte punctuation from the start and end of a string
      *
      * @author Daniel Rhodes
      * @note we want the first non-word grabbing to be greedy but then
      * @note we want the dot-star grabbing (before the last non-word grabbing)
      * @note to be ungreedy
      *
      * @param string $string input string in UTF-8
      * @return string as $string but with leading and trailing punctuation removed
      */
      function mb_punctuation_trim($string)
      preg_match(‘/^[^\w](.*?)[^\w]$/iu’, $string, $matches); //case-‘i’nsensitive and ‘u’ngreedy

      if(count($matches) < 2)
      //some strange error so just return the original input
      return $string;
      >

      Hope you like it!

      9 years ago

      A brief note on Daniel Rhodes’ mb_punctuation_trim().
      The regular expression modifier u does not mean ungreedy, rather it means the pattern is in UTF-8 encoding. Instead the U modifier should be used to get ungreedy behavior. (I have not otherwise tested his code.)
      See http://php.net/manual/en/reference.pcre.pattern.modifiers.php

      4 years ago

      Having to migrate to MB functions can be a bit of pain if you have a big project. it took us a while at my company but then we made a small script and explained it in a small blog.
      https://link.medium.com/25w1LronCX

      which makes it really easy to migrate to mb_ functions.

      7 years ago

      The suggestion from «mt at mediamedics dot nl» is not that bad like the down votes indicate. There is only one small bug which can be easily fixed to make it work.
      The head of the «for» need to be modified by replacing $i + $split_length by $i += $split_length.

      Here is the full working code, with additional check to verify that the method doesn’t exists already:

      if ( ! function_exists ( ‘mb_str_split’ ) )
      function mb_str_split ( $string , $split_length = 1 )
      mb_internal_encoding ( ‘UTF-8’ );
      mb_regex_encoding ( ‘UTF-8’ );

      $mb_strlen = mb_strlen ( $string , ‘utf-8’ );

      for( $i = 0 ; $i < $mb_strlen ; $i += $split_length )
      $array [] = mb_substr ( $string , $i , $split_length );
      >

      10 years ago

      Here’s a cheap and cheeky function to remove leading and trailing *punctuation* (or more specifically «non-word characters») from a UTF-8 string in whatever language. (At least it works well enough for Japanese and English.)

      /**
      * Trim singlebyte and multibyte punctuation from the start and end of a string
      *
      * @author Daniel Rhodes
      * @note we want the first non-word grabbing to be greedy but then
      * @note we want the dot-star grabbing (before the last non-word grabbing)
      * @note to be ungreedy
      *
      * @param string $string input string in UTF-8
      * @return string as $string but with leading and trailing punctuation removed
      */
      function mb_punctuation_trim($string)
      preg_match(‘/^[^\w](.*?)[^\w]$/iu’, $string, $matches); //case-‘i’nsensitive and ‘u’ngreedy

      if(count($matches) < 2)
      //some strange error so just return the original input
      return $string;
      >

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *