跳到主要內容

Jackson - Convert the value fields with special char

Problem

這陣子在擴充Rest API的功能時,聽同事說某功能輸出在xml格式下,會因內容使用unicode,導致無法在瀏覽器上正常顯示。xml並非不支援unicode,而是因為瀏覽器只支援xml 1.0;我們資料剛好不在1.0所規範的範圍內,因此瀏覽器才把它認為不合法。本篇文章分享解決此問題的方法。

Research

首先我思考的是,為什麼Json沒這問題呢? 因為對Json來說,unicode內容有兩種選擇:

  1. 以代碼顯示: \u0001\u0002\u0003。
  2. 以原始樣式顯示: 即欄位定義為unicode type。

而xml在瀏覽器接收到代碼後,會做轉換;無法轉換時,就會報錯。在花些時間研究後,得知Amazon的Simple DB針對client傳遞或是要回應給client的資料;在有這種情況時,會將內容做base64的encoding。雖然對user來說需要額外轉換,但也不失為一個解法。因此我的解法核心在於encoding,差別只在於用什麼方式。

How to?

假設我們的Event Bean物件是這樣子:

public class Event {
	private Date date;
 
	private String message;
 
	public Date getDate(){
		return date;
	}
 
	public void setDate(Date date){
		this.date = date;
	}
 
	public String getMessage(){
		return message;
	}
 
	public void setMessage(String message){
		this.message = message;
	}
}

當message中包含對xml不合法的字元,就會發生我所敘述的問題。

第一個方法 - 直接操作message

最簡單的方法,當然就是直接將message做base64的encoding。但如果直接把值塞到物件內,可能會讓使用到的client必須自行去decoding。因此,如果選擇使用這種方式,建議使用@JsonSerialize與@JsonDeserialize:

    @JsonSerialize(using=Base64StringSerializer.class)
    @JsonDeserialize(using=Base64StringDeserializer.class)
    private String message;

這方法可以讓物件在輸出為xml或json格式時,才被做encoding;如果user將值給塞回來時,也會透過descerializer還原為好操作的內容。通常使用這個方法message所輸出的xml會長這樣子:

<message>dGVzdAECAw==</message>

對於沒讀使用手冊的user來說,可能無法知道它是經過encoding;因此比較好的顯示方式為:

<message encoding="base64">dGVzdAECAw==</message>

這時在做序列化時,就要區分xml與json的做法,程式碼如下:

@Override
public class Base64StringSerializer extends StdSerializer<String> {
	private static final long serialVersionUID = 1L;
 
	public Base64StringSerializer() {
		super(String.class);
	}
 
	@Override
	public void serialize(String value, JsonGenerator jgen,
			SerializerProvider provider) throws IOException {
		String encodingVal = new String(Base64.getEncoder().encode(value.getBytes()));
		if( jgen instanceof ToXmlGenerator ) {
			ToXmlGenerator xgen = (ToXmlGenerator) jgen;
 
			xgen.writeStartObject();
			xgen.setNextIsAttribute(true);
			xgen.writeFieldName("type");
			xgen.writeString("base64");
			xgen.setNextIsAttribute(false);
 
			xgen.setNextIsUnwrapped(true);
			xgen.writeFieldName("value");
			xgen.writeObject(encodingVal);
			xgen.setNextIsUnwrapped(false);
 
			xgen.writeEndObject();
		} else {
			jgen.writeString(encodingVal);	
		}
	}
}

而反序列化時,就是把輸入的base64字串轉回去,這部分看需求決定需不需要做:

public class Base64StringDeserializer extends StdDeserializer<String> {
 
	private static final long serialVersionUID = 1L;
 
	public Base64StringDeserializer() {
		super(String.class);
	}
 
	@Override
	public String deserialize(JsonParser parser, DeserializationContext context)
			throws IOException, JsonProcessingException {
		String text = parser.getValueAsString();
		return new String(Base64.getDecoder().decode(text));
	}
}

第一個方法在欄位上宣告了序列化與反序列化的物件,這也代表著這些物件同時身負處理不同格式的責任;因此第二個方法是希望讓client可以針對不同格式選擇序列化與反序列化的方法。

第二個做法 - 宣告一個EncodingText物件

Jackson提供module註冊功能,讓你可以針對特定物件型態提供序列化與反序列化的方法。接下來分享給大家我所使用的方式:

EncodingText物件

首先我將原本message中使用的String改為Base64Text物件,這是為了讓Jackson有所區別,且也可以重複使用;需要注意的部分是在xml格式時,透過JacksonXmlProperty讓它帶上encoding的屬性:

public class Base64Text {
	@JacksonXmlText
	private String value;
 
	public Base64Text(String value) {
		this.value = value;
	}
 
	@JacksonXmlProperty(isAttribute=true,localName="encoding")
	public String getEncoding(){
		return "base64";
	}
 
	public String getValue(){
		return value;
	}
 
	@JsonIgnore
	public String getEncodingValue(){
		return new String(Base64.getEncoder().encode(value.getBytes()));
	}
 
	public static Base64Text decode(String aEncryptValue){
		return new Base64Text(new String(Base64.getDecoder().decode(aEncryptValue)));
	}
}

針對Event物件的調整,只要改為Base64Text並移除原本的@JsonSerialize與@JsonDeserialize。setMessage部分接受Base64Text與String型態以便於client操作,這裡需要特別宣告@JsonSetter(value=“message”)以避免Jackson找錯set method:

public class Event {
	private Date date;
 
	private Base64Text message;
 
	public Date getDate(){
		return date;
	}
 
	public void setDate(Date date){
		this.date = date;
	}
 
	public Base64Text getMessage(){
		return message;
	}
 
	@JsonSetter(value="message")
	public void setMessage(Base64Text message){
		this.message = message;
	}
 
	public void setMessage(String message){
		this.message = new Base64Text(message);
	}
}

Json

針對Json部分,我希望顯示原始內容且不需要顯示encoding種類,我會需要寫一個Serializer:

public class JsonBase64TextSerializer extends StdSerializer<Base64Text> {
	private static final long serialVersionUID = 1L;
	protected JsonBase64TextSerializer() {
		super(Base64Text.class);
	}
 
	@Override
	public void serialize(Base64Text value, JsonGenerator gen,
			SerializerProvider provider) throws IOException {
		gen.writeString(value.getValue());
	}
}

接著我們可以對ObjectMapper註冊module,告訴它針對Base64Text所要使用的Serializer:

@Test
public void testUnicodeJson() throws Exception {
	ObjectMapper mapper = new ObjectMapper();
 
	SimpleModule m = new SimpleModule("test");
	m.addSerializer(Base64Text.class, new JsonBase64TextSerializer());
	mapper.registerModule(m);
 
	Event e = new Event();
	String msg = "test" + (char) 1 + (char) 2 + (char) 3;
	e.setMessage(msg);
 
	String ret = mapper.writeValueAsString(e);
	System.out.println(ret);
	Event newEvent = mapper.readValue(ret, Event.class);
	assertEquals(msg, newEvent.getMessage().getValue());
}

這個測試輸出如下:

{"date":null,"message":"test\u0001\u0002\u0003"}

Xml

xml部分需要Serializer與Deserializer,我們先看看test code:

@Test
public void testUnicodeXml() throws Exception {
	XmlMapper mapper = new XmlMapper();
 
	SimpleModule m = new SimpleModule();
	m.addSerializer(Base64Text.class, new Base64TextSerializer());
	m.addDeserializer(Base64Text.class, new Base64TextDeserializer());
	mapper.registerModule(m);
 
	Event e = new Event();
	String msg = "test" + (char) 1 + (char) 2 + (char) 3;
	e.setMessage(msg);
 
	String ret = mapper.writeValueAsString(e);
	System.out.println(ret);
	Event newEvent = mapper.readValue(ret, Event.class);
	assertEquals(msg, newEvent.getMessage().getValue());
}

流程與json部分類似,只差在多註冊Deserializer,而輸出會是:

<Event><date/><message type="base64">dGVzdAECAw==</message></Event>

Serializer如下,處理type與value的部分:

public class Base64TextSerializer extends StdSerializer<Base64Text> {
	private static final long serialVersionUID = 1L;
 
	public Base64TextSerializer() {
		super(Base64Text.class);
	}
 
	@Override
	public void serialize(Base64Text value, JsonGenerator jgen,
			SerializerProvider provider) throws IOException {
		ToXmlGenerator xgen = (ToXmlGenerator) jgen;
 
		xgen.writeStartObject();
		xgen.setNextIsAttribute(true);
		xgen.writeFieldName("type");
		xgen.writeString(value.getEncoding());
		xgen.setNextIsAttribute(false);
 
		xgen.setNextIsUnwrapped(true);
		xgen.writeFieldName("value");
		xgen.writeObject(value.getEncodingValue());
		xgen.setNextIsUnwrapped(false);
 
		xgen.writeEndObject();
	}
}

Deserializer部分會將encode的內容decode再塞回Base64Text物件中,做法如下:

public class Base64TextDeserializer extends StdDeserializer<Base64Text> {
 
		private static final long serialVersionUID = 1L;
 
		public Base64TextDeserializer() {
	        super(Base64Text.class);
	    }
 
		@Override
		public Base64Text deserialize(JsonParser parser, DeserializationContext context)
				throws IOException, JsonProcessingException {
			String text = parser.getValueAsString();
			Base64Text encodingValue = Base64Text.decode(text);
			return encodingValue;
		}
}

目前提供這兩種方式給大家參考。

Reference

留言

這個網誌中的熱門文章

Show NIC selection when setting the network command with the device option

 Problem  在answer file中設定網卡名稱後,安裝時會停在以下畫面: 所使用的command參數如下: network --onboot = yes --bootproto =dhcp --ipv6 =auto --device =eth1 Diagnostic Result 這樣的參數,以前試驗過是可以安裝完成的。因此在發生這個問題後,我檢查了它的debug console: 從console得知,eth1可能是沒有連接網路線或者是網路太慢而導致的問題。後來和Ivy再三確認,有問題的是有接網路線的網卡,且問題是發生在activate階段: Solution 我想既然有retry應該就有次數或者timeout限制,因此發現在Anaconda的說明文件中( link ),有提到dhcptimeout這個boot參數。看了一些人的使用範例,應該是可以直接串在isolinux.cfg中,如下: default linux ksdevice = link ip =dhcp ks =cdrom: / ks.cfg dhcptimeout = 90 然而我在RHEL/CentOS 6.7與6.8試驗後都無效。 因此我就拿了顯示的錯誤字串,問問Google大師,想找一下Anaconda source code來看一下。最後找到別人根據Anaconda code修改的版本: link ,關鍵在於setupIfaceStruct函式中的setupIfaceStruct與readNetConfig: setupIfaceStruct: 會在dhcp時設定dhcptimeout。 readNetConfig: 在writeEnabledNetInfo將timeout寫入dhclient config中;在wait_for_iface_activation內會根據timeout做retry。 再來從log與code可以得知,它讀取的檔案是answer file而不是boot command line。因此我接下來的測試,就是在answer file的network command上加入dhcptimeout: network --onboot = yes --bootproto =dhcp --ipv6 =auto --device =eth1 --dhcptimeo

解決RobotFramework從3.1.2升級到3.2.2之後,Choose File突然會整個Hand住的問題

考慮到自動測試環境的維護,我們很久以前就使用java去執行robot framework。前陣子開始處理從3.1.2升級到3.2.2的事情,主要先把明確的runtime語法錯誤與deprecate item處理好,這部分內容可以參考: link 。 直到最近才發現,透過SeleniumLibrary執行Choose File去上傳檔案的動作,會導致測試案例timeout。本篇文章主要分享心路歷程與解決方法,我也送了一條issue給robot framework: link 。 我的環境如下: RobotFramework: 3.2.2 Selenium: 3.141.0 SeleniumLibrary: 3.3.1 Remote Selenium Version: selenium-server-standalone-3.141.59 首先並非所有Choose File的動作都會hang住,有些測試案例是可以執行的,但是上傳一個作業系統ISO檔案一定會發生問題。後來我透過wireshark去比對新舊版本的上傳動作,因為我使用 Remote Selenium ,所以Selenium會先把檔案透過REST API發送到Remote Selenium Server上。從下圖我們可以發現,在3.2.2的最後一個TCP封包,比3.1.2大概少了500個bytes。 於是就開始了我trace code之路。包含SeleniumLibrary產生要送給Remote Selenium Server的request內容,還有HTTP Content-Length的計算,我都確認過沒有問題。 最後發現問題是出在socket API的使用上,就是下圖的這支code: 最後發現可能因為開始使用nio的方式送資料,但沒處理到尚未送完的資料內容,而導致發生問題。加一個loop去做計算就可以解決了。 最後我有把解法提供給robot framework官方,在他們出新的版本之前,我是將改完的_socket.py放在我們自己的Lib底下,好讓我們測試可以正常進行。(shutil.py應該也是為了解某個bug而產生的樣子..)

How to install RIDE on Windows?

Introduction 多年沒在Windows上開發RobotFramework,趁著這次整理一下RIDE安裝方法。 目前RIDE最新版本與Python對應版本如下: (3.6 < python <= 3.11) Install current released version (2.0.8.1) with: pip install -U robotframework-ride 安裝Python 直接到Python官網找尋最新的3.11版本,我使用3.11.9: link 。安裝就是一直下一步而已。 安裝wxPython 每次安裝RIDE最困難的都是wxPython。看了一下 官網 描述,我就姑且相信一下: 接著進入下 載頁面 就有安裝教學。基本上就是到Python目錄下的Scripts直接執行以下command: pip install -U wxPython 安裝RIDE 接著就如RIDE官網所說,執行以下command: pip install -U robotframework-ride 啟動RIDE 直接在相同目錄下執行ride就可以啟動了,你也可以直接在桌面建ride連結,加快下次啟動時間。 沒想到這次這麼順利就安裝完成了。因為我是使用java去啟動robot framework,就不特別講要怎麼使用pip安裝robot framework了。