Tag Archives: php

Reprezentacja bitowa znaków Unicode i UTF-8

Jakiś taki naukowy ten tytuł wyszedł. Ale inaczej się chyba nie da. Potrze­bo­wa­łem pretek­stu żeby się trochę poba­wić w mani­pu­lo­wa­nie bitami. Padło na Unicode z racji fajnego sposobu, w jaki wymy­ślono sam zapis znaków. Jeśli jest jesz­cze ktoś kto nie wie co to jest Unicode to zapra­szam do źródła.

Wszystko zostało tak prze­my­ślane, że im bardziej pokrę­cony język, tym więcej miej­sca potrzeba na jego zapi­sa­nie. Wszyst­kie liczby i litery bez ogon­ków damy radę zapi­sać w postaci 1 bajta. Chodziło o kompa­ty­bil­ność z forma­tem ASCII. Znaczki języka polskiego znaj­dują się w dziale Latin Extended-A. Zapis znaków polskich zajmie 2 bajty w forma­cie UTF-8.

Mając numer znaku z tabeli Unicode najła­twiej wyświe­tlić go za pomocą wbudo­wa­nej w PHP funk­cji html_entity_decode():

echo html_entity_decode('&#' . 0xA7 . ';', ENT_NOQUOTES, 'UTF-8');

Wywo­ła­nie powyż­szego wier­sza spowo­duje wyświe­tle­nie znaku o kodzie 0xA7 — para­grafu §. W jaki więc sposób wyko­nuje się czary-mary i znak Unicode staje się znakiem UTF-8? Weźmy na warsz­tat znak ę opisany w tablicy jako latin small letter e with ogonek. Ma numer 0119 (heksa­de­cy­mal­nie!), czyli można zapi­sać tak:
0x11916 = 28110 = 1000110012
Z powyż­szego widać, że liczbę dzie­siętną 281 możemy zapi­sać w postaci 9 bitów. Doku­men­ta­cja funk­cji utf8_encode() zawiera tabelkę ile bitów znaku zmie­ścimy w ilu bajtach UTF-8. Wygląda na to, że w jedno­baj­to­wym zapi­sie zmie­ścimy znaki o nume­rach od 0 do 12710 (7 bitów). Za to dyspo­nu­jąc 2 bajtami zapi­szemy liczby aż do 204710, czyli w zupeł­no­ści nam wystarczy.

Znak ę w UTF-8 zapi­su­jemy w 2 bajtach, czyli do liczby 110000002 musimy dodać prze­su­niętą o 6 bitów w prawo liczbę 281 (ponie­waż pójdą do drugiego bajtu znaku). Z drugiego wyrzu­camy wszystko poza 6 ostat­nimi bitami, a następ­nie doda­jemy do liczby 100000002.

$uniChar = 0x119;
$byte1 = $uniChar >> 6 | 0xC0;
$byte2 = $uniChar & 0x3F | 0x80

Wyszło na to, że ę w zapi­sie UTF-8 to będzie 11000100 10011001. Po ubra­niu tego wszyst­kiego w funkcję:

function hexToUTF8HexArray($hexNum)
{
   // konwertujemy na liczbe w razie czego
   if (is_string($hexNum)) $hexNum = hexdec($hexNum);
 
   $hexArray = array();
   if ($hexNum < 0x80) {
      $hexArray[0] = '0x' . dechex($hexNum);
      return $hexArray;
   } elseif ($hexNum < 0x800) {
      $hexArray[0] = '0x' . dechex($hexNum >> 6 | 0xC0);
      $hexArray[1] = '0x' . dechex($hexNum & 0x3F | 0x80);
      return $hexArray;
   } else {
      throw new Exception('Not supported');
   }
}

Wywo­łu­jąc hexToUTF8HexArray(0x119) da nam tablicę z warto­ściami 0xc4 i 0x99. No dobra, a co jak chcę odwró­cić proces? Teraz będzie przyjemniej:

function utf8ToUnicode(array $utf8Array)
{
   // konwertujemy na liczby
   $utf8ArrayChecked = array();
   foreach ($utf8Array as $utf8) {
      if (is_string($utf8)) $utf8 = hexdec($utf8);
      $utf8ArrayChecked[] = $utf8;
   }
 
   $bytesCount = count($utf8ArrayChecked);
   switch ($bytesCount) {
      case 1:
         return $utf8ArrayChecked[0];
      case 2:
         // wyrzucamy naglowki
         $b1 = $utf8ArrayChecked[0] & 0x1F;
         $b2 = $utf8ArrayChecked[1] & 0x3F;
 
         // tutaj cala magia
         $number = $b1 << 6 | $b2;
         return '0x' . dechex($number);
      default:
         throw new Exception('Not supported'); 
   }
}

Wywo­łu­jąc utf8ToUnicode(array(0xc4, 0x99)) otrzy­mamy 0x119, czyli gra jak trzeba.

Na koniec cieka­wostka: mając jakiś znak możemy łatwo wydo­być jego wartość UTF-8.

function charToUTF8HexArray($char)
{
   $i = 0;
   $hexArray = array();
   while (isset($char[$i])) {
      $hexArray[] = '0x' . dechex(ord($char[$i++]));
   }
   return $hexArray;
}

charToUTF8HexArray('ę') da nam tablicę 0xc4, 0x99.

Ten wpis to taka trochę notatka dla mnie, przez co może trochę chaotycz­nie napisany…

MySQL, PDO i procedury składowane

Trochę nie pisa­łem. Mam nadzieję, że dzisiej­szy wpis wszyst­kim wyna­gro­dzi moją nieobec­ność. Ostat­nio staną­łem przed wyzwa­niem zrobie­nia gale­rii zdjęć, których kolej­ność dałoby się dowol­nie mody­fi­ko­wać za pomocą prze­cią­ga­nia i upusz­cza­nia. Dzisiaj opiszę opera­cje bazo­da­nowe, a na następny raz jQuery. Będę maksy­mal­nie uprasz­czał aby nie zaciem­niać meritum.

1. Przy­go­to­wa­nia

Powiedzmy, że mamy 2 tabele rela­cyjne odpo­wie­dzialne za prze­cho­wy­wa­nie gale­rii i obra­zów. Np. takie:

CREATE TABLE `galleries` (
  `id` INT(10) UNSIGNED NOT NULL AUTO_INCREMENT,
  `created` TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP,
  `updated` TIMESTAMP NOT NULL DEFAULT '0000-00-00 00:00:00',
  `title` VARCHAR(250) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB  DEFAULT CHARSET=utf8 ;
 
CREATE TABLE IF NOT EXISTS `images` (
  `id` INT(10) UNSIGNED NOT NULL AUTO_INCREMENT,
  `gallery_id` INT(10) UNSIGNED NOT NULL,
  `filename` VARCHAR(50) NOT NULL,
  `ordr` INT(10) UNSIGNED NOT NULL DEFAULT '1',
  `created` TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP,
  PRIMARY KEY (`id`),
  KEY `image_to_gallery` (`gallery_id`)
) ENGINE=InnoDB  DEFAULT CHARSET=utf8 ;

Od razu widać dwa dziwac­twa: dlaczego pole nazywa się ordr a nie order? Z czystego leni­stwa. Order jest słowem zare­zer­wo­wa­nym w SQL (ORDER BY coś tam). Każdo­ra­zowo nazwa pola musia­łaby być w nawia­sach. Dlaczego pole upda­ted ma domyślną wartość 0000–00-00 00:00:00? Ano dlatego, że CURRENT_TIMESTAMP można użyć tylko raz w tabeli. Wobec tego stwo­rzymy od razu wyzwa­lacz (trig­ger), który przed każdym zapy­ta­niem typu UPDATE poprawi wartość na taką jak trzeba.

DELIMITER $$
CREATE TRIGGER `updated_current_timestamp` BEFORE UPDATE ON `galleries`
   FOR EACH ROW BEGIN
      SET NEW.updated = NOW();
END$$

Na koniec trzeba stwo­rzyć rela­cję 1 gale­ria do wielu zdjęć.

ALTER TABLE `images`
   ADD CONSTRAINT `image_to_gallery` FOREIGN KEY (`gallery_id`) REFERENCES `galleries` (`id`) ON DELETE CASCADE ON UPDATE CASCADE;

Ozna­cza to, że kasu­jąc gale­rię od razu pozbę­dziemy się również wszyst­kich powią­za­nych z nią zdjęć. Pliki z dysku oczy­wi­ście nie znikną. Można napi­sać funk­cję, która przed usunię­ciem gale­rii z bazy najpierw wyrzuca wszyst­kie powią­zane z nią pliki, a dopiero potem wyko­nuje pole­ce­nie DELETE.

2. Decy­zje

Teraz nadszedł czas na poważne decy­zje. Chodzi o sposób mani­pu­la­cji wier­szami doty­czą­cymi zdjęć. Można to zrobić za pomocą PHP. Jest to rozwią­za­nie prost­sze. Powo­duje jednak spory narzut komu­ni­ka­cji PHP<—>SQL. W przy­padku zwale­nia wszyst­kiego na bazę danych, pchamy logikę wyżej i bliżej mody­fi­ko­wa­nych danych. Minu­sem jest cholerna skład­nia SQLowa i później­sze proble­ma­tyczne utrzy­ma­nie kodu.
Problem oczy­wi­ście nie istnieje gdy robimy gale­ryjkę na 10 obraz­ków i prze­sta­wimy sobie kolej­ność ostat­niego na przed­ostatni. Ja raczej podcho­dzę do rzeczy poważ­nie i wolę od początku zrobić to tak jak powinno być. Poza tym wyzwa­la­cze i proce­dury skła­do­wane to jest to, co bazo­da­nowe tygry­ski lubią najbar­dziej :-)

3. Wyko­na­nie

Każdy nowy rekord tabeli images musi mieć nadany odpo­wiedni iden­ty­fi­ka­tor pozy­cji ordr o 1 więk­szy od ostat­niego w danej gale­rii. Mamy trzy rozwią­za­nia: czysty PHP, wyzwa­lacz wywo­ły­wany przed INSERTem lub proce­dura skła­do­wana. Zapy­ta­nie w PHP może wyglą­dać tak:

$q = $pdo->prepare('INSERT INTO images (filename,gallery_id,ordr) (SELECT ?,?,MAX(ordr)+1 FROM images WHERE gallery_id=? LIMIT 1)');
$q->bindValue(1, 'obrazek.jpg', PDO::PARAM_STR);
$q->bindParam(2, $galleryId, PDO::PARAM_INT);
$q->bindParam(3, $galleryId, PDO::PARAM_INT);
$q->execute();

Wspo­mi­nam o tym rozwią­za­niu dlatego, że ma ciekawą konstruk­cję INSERT SELECT. Zapewne więk­szość z was po kilku­na­sto­krot­nej próbie wywo­ła­nia pole­ce­nia INSERT INTO VALUES i gdzieś tam SELECT dosta­nie cholery i rozbije zapy­ta­nie na 2: pierw­sze spraw­dza ostatni ordr, a następne doda 1 i umie­ści INSERTem pozo­stałe dane.
Bazo­da­nowe tygry­ski wybiorą jednak co innego. Proce­dury składowane!

DELIMITER $$
CREATE PROCEDURE `insert_image`(IN image_filename VARCHAR(50), IN image_gallery_id INT, OUT last_inserted_id INT)
   MODIFIES SQL DATA
   COMMENT 'Inserts new image at the end of given gallery.'
   BEGIN
      DECLARE max_order INT;
 
      # Zamiast SET zmienna= uzywam SELECT INTO just FOR fun
      SELECT MAX(ordr) INTO max_order FROM images WHERE gallery_id=image_gallery_id LIMIT 1;
 
      # Gdy obrazek jest pierwszy w galerii
      IF max_order IS NULL THEN 
         SET max_order = 1;
      ELSE
         SET max_order = max_order + 1;
      END IF;
      INSERT INTO images (filename, gallery_id, ordr) VALUES (image_filename, image_gallery_id, max_order);
      SELECT LAST_INSERT_ID() INTO last_inserted_id;
END$$

Próba wywo­ła­nia $pdo->lastInsertId() zakoń­czy się niepo­wo­dze­niem (a raczej zerem :-) ). Dlatego potrze­bu­jemy para­me­tru wyjścio­wego. Poni­żej poka­zuję jak całość wywo­łać w PDO:

$q = $pdo->prepare('CALL insert_image(?,?,@lastInsertId)');
$q->bindValue(1, 'obrazek.jpg', PDO::PARAM_STR);
$q->bindParam(2, $galleryId, PDO::PARAM_INT);
$q->execute();
$outputArray = $pdo->query('select @lastInsertId')->fetch(PDO::FETCH_ASSOC);
$lastInsertId = $outputArray['@lastInsertId'];

Ktoś może się zapy­tać po co te numery ze zmienną wyjściową. PDO i sterow­nik MySQL w PHP ma szpetny błąd doty­czący obsługi para­me­trów wyjścio­wych z proce­dur skła­do­wa­nych. Podobno w nowszych wersjach jest OK. Trik podany wyżej u mnie działa i oszczę­dza trochę nerwów.

Proce­dura kasu­jąca obrazki również jest raczej prosta. Rzuć­cie okiem:

DELIMITER $$
CREATE PROCEDURE `delete_image`(IN image_id INT)
   MODIFIES SQL DATA
   COMMENT 'Deletes and reorders if there is a gap.'
   BEGIN
      DECLARE image_gallery_id, image_order, max_order INT;
      SELECT gallery_id, ordr INTO image_gallery_id, image_order FROM images WHERE id=image_id LIMIT 1;
      DELETE FROM images WHERE id=image_id LIMIT 1;
      SELECT MAX(ordr) INTO max_order FROM images WHERE gallery_id=image_gallery_id LIMIT 1;
 
      # Sprawdzamy czy istnieja jakies obrazki za skasowanym
      IF max_order IS NOT NULL AND max_order > image_order THEN
         WHILE image_order < max_order DO
 
            # Cofamy w petli wypelniajac luke po skasowanym obrazku
            UPDATE images SET ordr=image_order WHERE ordr=image_order+1 AND gallery_id=image_gallery_id;
            SET image_order = image_order + 1;
       END WHILE;
   END IF;
END$$

Wywo­ła­nie jest super proste. Wpisu­jemy i zapominamy:

$q = $pdo->prepare('CALL delete_image(?)');
$q->bindParam(1, $imageId, PDO::PARAM_INT);
$q->execute();

Najlep­sze zosta­wi­łem na koniec. Proce­dura prze­sta­wia­jąca pozy­cję obrazka. Spotka­łem się w necie z rozwią­za­niem typu „bierzesz sobie wszyst­kie id obraz­ków w kolej­no­ści, prze­jeż­dżasz fore­achem, który nadaje kolej­ność i na każdym obrazku wyko­nu­jesz update”. No dobra, ale co jeżeli prze­sta­wiam kolej­ność tylko ostat­niego i przed­ostat­niego, a w gale­rii mam 1000 zdjęć? Powyż­sze rozwią­za­nie orze całą gale­rię, a userzy czekają 5 sek. na zała­do­wa­nie się strony. A co jeżeli kilka osób na raz coś prze­sta­wia w swoich gale­riach? Wtedy na serwe­rze włącza się na kilka minut turbo hard­core i poja­wia się „Pan Gąbka” :-D
Moje rozwią­za­nie polega na wyła­pa­niu wyłącz­nie tego co wymaga zmian. Dałem kilka komen­ta­rzy dla jasności.

DELIMITER $$
CREATE PROCEDURE `reorder_image`(IN image_id INT, IN new_image_order INT)
   MODIFIES SQL DATA
   COMMENT 'Reorders images. Does nothing if given order is out of scope.'
   BEGIN
      DECLARE current_image_order, image_gallery_id, is_destination_order_exists INT;
 
      # Lapie obecne polozenie obrazka i przy okazji id galerii
      SELECT ordr, gallery_id INTO current_image_order, image_gallery_id FROM images WHERE id=image_id LIMIT 1;
 
      # Sprawdzam czy punkt docelowy w ogole istnieje
      SELECT ordr INTO is_destination_order_exists FROM images WHERE gallery_id=image_gallery_id AND ordr=new_image_order LIMIT 1;
 
      # Jezeli punkt docelowy istnieje i jest inny od obecnego TO rozpoczynam dzialanie
      IF is_destination_order_exists IS NOT NULL AND current_image_order <> new_image_order THEN
 
         # Jezeli przestawiam obrazek do gory
         IF current_image_order >  new_image_order THEN 
            WHILE current_image_order >=  new_image_order DO
               UPDATE images SET ordr=current_image_order+1 WHERE gallery_id=image_gallery_id AND ordr= current_image_order LIMIT 1;
               SET current_image_order = current_image_order - 1;
            END WHILE;
 
         # Jezeli przestawiam obrazek w dol
         ELSEIF  current_image_order <  new_image_order THEN 
            WHILE current_image_order <=  new_image_order DO
               UPDATE images SET ordr=current_image_order-1 WHERE gallery_id=image_gallery_id AND ordr= current_image_order LIMIT 1;
               SET current_image_order = current_image_order + 1;
            END WHILE;
         END IF;
 
         # Mam juz miejsce, wrzucam obrazek tam gdzie ma byc
         UPDATE images SET ordr=new_image_order WHERE id=image_id LIMIT 1;
      END IF;
END$$

Użycie prze­sta­wia­nia kolej­no­ści jest również proste:

$q = $pdo->prepare('CALL reorder_image(?,?)');
$q->bindParam(1, $imageId, PDO::PARAM_INT);
$q->bindParam(2, $wantedImageOrder, PDO::PARAM_INT);
$q->execute();

Jeśli ktoś dobrnął aż tutaj to proszę „lajk­nąć” i „plusnąć”. Niedzielne pozdro4all.

Wygrzebane z GitHuba (4) : PHP User Agent

Dziś w progra­mie lżej­szy zamien­nik dla funk­cji get_browser()PHP User Agent. Za pomocą skryptu jeste­śmy w stanie okre­ślić jakiej prze­glą­darki i systemu opera­cyj­nego użyt­kow­nik używa. Orygi­nalna funk­cja potrze­buje pliku browscap.ini, który obec­nie zajmuje 405KB, co prze­kłada się na szyb­kość dzia­ła­nia. Poza tym istnieje niebez­pie­czeń­stwo, że na serwe­rze produk­cyj­nym nie dadzą nam dostępu do w/w funk­cji. (A przy­naj­mniej tak piszą ;-) )

Całość składa się z dwóch klas. Skrypt nie stosuje prze­strzeni nazw, za to jest całkiem nieźle udoku­men­to­wany. Ponadto jest trochę testów jednostkowych.

Używa­nie jest bardzo proste. Wystar­czy stwo­rzyć obiekt phpUserAgent i można szaleć.

$ua = new phpUserAgent();
echo $ua->getBrowserName();     // firefox
echo $ua->getBrowserVersion();   // 3.6
echo $ua->getOperatingSystem(); // linux
echo $ua->getEngine();            // gecko

Gdy nie podamy para­me­trów, obiekt korzy­sta z bieżą­cej zmien­nej $_SERVER['HTTP_USER_AGENT']. Można samemu wymu­sić inny ciąg do rozpo­zna­nia poda­jąc w konstruktorze.

Dla typo­wych konfi­gu­ra­cji użyt­kow­nika skrypt działa całkiem nieźle. Rozpo­znaje również aliasy nazw prze­glą­da­rek i syste­mów opera­cyj­nych. Z testów jednost­ko­wych widzę, że próbuje również rozpo­zna­wać boty wyszukiwarek.

Patrząc na skrypt przy­szło­ściowo już widzę rozra­sta­jącą się listę nazw i alia­sów oraz autora powoli prze­sta­ją­cego pano­wać nad tym wszyst­kim. Na razie działa, ale co będzie później? Wg mnie archi­tek­tura cało­ści jest trochę niedo­pra­co­wana. Aż prosi się o użycie wzorca projek­to­wego Łańcuch zobo­wią­zań, którego ogni­wami będą poszcze­gólne prze­glą­darki i to w ich gestii będzie rozpo­znać siebie w poda­nym im ciągu. Żeby nie uderzyć tak bardzo w wydaj­ność skryptu, łańcuch powinny rozpo­czy­nać najczę­ściej używane prze­glą­darki aż do typu Unknown.